CN112543038B - 基于haql-pso的跳频系统智能抗干扰决策方法 - Google Patents

基于haql-pso的跳频系统智能抗干扰决策方法 Download PDF

Info

Publication number
CN112543038B
CN112543038B CN202011203291.6A CN202011203291A CN112543038B CN 112543038 B CN112543038 B CN 112543038B CN 202011203291 A CN202011203291 A CN 202011203291A CN 112543038 B CN112543038 B CN 112543038B
Authority
CN
China
Prior art keywords
action
state
value
iteration
optimal solution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011203291.6A
Other languages
English (en)
Other versions
CN112543038A (zh
Inventor
朱家晟
赵知劲
郑仕链
王李军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
CETC 36 Research Institute
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202011203291.6A priority Critical patent/CN112543038B/zh
Publication of CN112543038A publication Critical patent/CN112543038A/zh
Application granted granted Critical
Publication of CN112543038B publication Critical patent/CN112543038B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/69Spread spectrum techniques
    • H04B1/713Spread spectrum techniques using frequency hopping
    • H04B1/715Interference-related aspects

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于HAQL‑PSO的跳频系统智能抗干扰决策方法。本发明将全局和个体最优解的引导机制引入Q学习过程,设计启发式函数用于动作选择策略;将Sigmoid函数用于启发式Q学习中;针对跳频通信中可能出现的干扰及可调节的参数,设计了状态‑动作空间及奖励函数。然后根据频谱感知结果预测未来短时间内的频谱状态。在初始化Q值、启发式函数、其他参数及初始状态后,根据动作选择策略选择最佳动作并执行,得到下一状态。对于当前的状态和动作计算奖赏函数并更新启发式函数和Q值。当达到总迭代次数时,结束学习,获得Q表用于指导参数调整,否则,更新状态和温度参数并进入下一次迭代。本发明解决了Q学习中探索和利用的平衡问题。

Description

基于HAQL-PSO的跳频系统智能抗干扰决策方法
技术领域
本发明属于跳频通信中智能抗干扰决策领域,特别涉及一种基于HAQL-PSO的跳频系统智能抗干扰决策方法。一种利用结合了粒子群算法的启发式Q学习对跳频系统进行参数调整的智能抗干扰决策方法。
背景技术
跳频通信具有较强的抗传统干扰能力,同时还具备易组网和难以截获的特点。但是,在如今日益复杂的电磁环境和逐渐智能化的干扰策略下,传统的跳频通信技术已不能满足通信需求。对此,近年来,智能抗干扰逐渐受到重视,其通过智能地调整用户通信过程中的参数,能有效地对抗复杂干扰,提升通信质量。智能抗干扰决策是其中一项关键技术。
强化学习通过Agent与环境不断进行交互和学习能够得到最佳的决策。Q学习作为一种免模型的强化学习方法,已被广泛的应用在资源分配和参数调整的决策问题中。另外,由于Q学习不需要干扰环境的先验知识,故适合在复杂电磁环境下使用。
目前的智能抗干扰决策方法考虑的干扰环境较为简单,需要决策的变量数量较少,不适用于复杂电磁环境。
发明内容
本发明针对现有智能抗干扰决策问题的局限性,综合考虑调整跳频系统的功率、信源速率、跳频图案、跳速、信道划分间隔等参数,以达到在复杂电磁环境中对抗干扰,提高通信质量的目的。因此,提出并利用一种基于HAQL-PSO的跳频系统智能抗干扰决策方法,以得到更高的能量效率,提高通信质量。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1、结合粒子群算法设计新的启发式函数Hgbest和Hpbest;
步骤2、将新的启发式函数引入动作选择策略中,并结合Sigmoid函数和轮盘赌算法形成新的动作选择策略π(st);
步骤3、设计状态-动作空间和奖赏函数,将状态st设为可选信源速率的集合,通过迭代来遍历状态并为用户调整参数;动作at的设置考虑功率和变跳速变间隔跳频图案的联合分配;奖赏函数rt的设置关注最大化未来K个时隙内的平均能量效率;
步骤4、根据感知到的频谱状态,估计干扰的主要参数,预测未来K个时隙内的频谱状态;
步骤5、初始化Q值、启发式函数Hgbest和Hpbest、总迭代次数I、初始温度参数T0、信道增益及其他参数,随机初始化状态s0
步骤6、对于当前状态st,根据新的动作选择策略及轮盘赌算法选择最佳动作at并执行,得到下一状态st+1,再计算奖赏值rt
步骤7、根据各动作获得的累计奖赏值分别选择全局最优解
Figure BDA0002756144960000021
和个体最优解
Figure BDA0002756144960000022
并更新启发式函数值;
步骤8、更新Q值;
步骤9、更新状态和温度参数。若当前迭代次数t未到达总迭代次数I则返回至步骤6。
本发明的有益效果是:
1、本文结合粒子群算法中全局最优解和个体最优解的引导机制提出了一种新的启发式函数,该函数能帮助Agent更高效的探索和利用状态-动作空间,有效地避免陷入局部最优解。
2、将新的启发式函数引入动作选择策略结合Sigmoid函数和轮盘赌算法形成新的动作选择策略,解决了Q学习中探索与平衡的问题,降低了传统动作选择策略中Boltzmann机制的温度参数选取困难的问题,提高了收敛速度,使Q学习能得到更高的能量效率且对多变的干扰环境具有适应性。
3、将跳速和信道划分间隔的变化结合到跳频图案的生成过程中,通过随机选择每一跳的跳速和间隔,产生变跳速变间隔的跳频图案,该方式减小了状态-动作空间,降低了算法复杂度。
4、重新设计奖赏函数,该函数能使Agent以最大化未来K个时隙内的能量效率为目标进行学习。
附图说明
图1为本发明干扰环境频谱瀑布示意图。
具体实施方式
下面进一步详细说明本发明的实施步骤。
基于HAQL-PSO的跳频系统智能抗干扰决策方法,具体包括如下步骤:
步骤1、结合粒子群算法设计新的启发式函数,具体如下:
PSO中使用全局最优解和个体最优解不断地引导其他粒子向最优解方向移动。将这个机制融入到启发式Q学习中,设计新的启发式函数并应用至动作选择策略中,从而提高Q学习的搜索能力和收敛速度。
Q学习通过如表1所示的Q表格记录不同状态下采取不同动作对应的Q值。
表1Q表格
a<sub>1</sub> a<sub>2</sub> a<sub>3</sub> …… a<sub>M-1</sub> a<sub>M</sub>
s<sub>1</sub> Q(s<sub>1</sub>,a<sub>1</sub>) Q(s<sub>1</sub>,a<sub>2</sub>) Q(s<sub>1</sub>,a<sub>3</sub>) …… Q(s<sub>1</sub>,a<sub>M-1</sub>) Q(s<sub>1</sub>,a<sub>M</sub>)
s<sub>2</sub> Q(s<sub>2</sub>,a<sub>1</sub>) Q(s<sub>2</sub>,a<sub>2</sub>) Q(s<sub>2</sub>,a<sub>3</sub>) …… Q(s<sub>2</sub>,a<sub>M-1</sub>) Q(s<sub>2</sub>,a<sub>M</sub>)
…… …… …… …… …… …… ……
s<sub>N</sub> Q(s<sub>N</sub>,a<sub>1</sub>) Q(s<sub>N</sub>,a<sub>2</sub>) Q(s<sub>N</sub>,a<sub>3</sub>) …… Q(s<sub>N</sub>,a<sub>M-1</sub>) Q(s<sub>N</sub>,a<sub>M</sub>)
假设在第t次迭代中,Agent处于状态st,其基于Q表格通过动作选择策略选择并执行执行动作at,从而获得了奖励rt,则通过记录每次迭代的状态、动作并累加奖赏,可以得到一个类似于Q表的奖赏函数表格,其表示不同状态下执行不同动作带来的累计奖赏。在某次迭代中,对于某一状态sn,n=1,2,…,N,通过动作am,m=1,2,…,M对其的累计奖赏和其选择该动作的次数可以获得动作am对于状态sn的平均奖赏值,选择所有动作中平均奖赏值最大的动作作为该状态的个体最优解
Figure BDA0002756144960000031
对于全局最优解
Figure BDA0002756144960000032
通过计算动作am为所有状态带来的奖励之和以及其被各个状态选择的次数之和可以得到该动作对所有状态产生的平均奖赏值,选择其中平均奖赏值最大的动作作为全局最优解。根据全局最优解和个体最优解设计启发式函数Hgbest和Hpbest,并按式(1)和(2)进行更新。
Figure BDA0002756144960000041
Figure BDA0002756144960000042
其中,Hgbest(a')为动作a'(a'∈[a1…aN]为对所有动作进行遍历)的全局最优启发式函数值,Hpbest(st,a')为在状态st下执行动作a’的个体最优启发式函数值,λ表示当前动作a’与全局最优解或个体最优解中相同的参数的个数,ns为状态的数量,η为小于1的正实数。
步骤2、将新的启发式函数引入动作选择策略中并结合Sigmoid函数和轮盘赌算法形成新的动作选择策略π(st),具体如下:
Q学习中探索和利用的平衡问题是影响学习效果的重要因素。若过于注重探索,将有更大概率找到最优解,但会降低收敛速度;若过于注重利用,则会增加收敛速度,但更容易陷入局部最优解。目前常用的基于ε-greedy机制和Boltzmann机制的动作选择策略中,前者以一定概率在每次迭代中选择随机动作作为最佳动作,导致算法不易收敛或收敛后不稳定;后者常与轮盘赌算法结合使用,通过温度参数的递减,使算法在前期更注重探索,在中后期更注重利用,但是温度参数的取值和递减方式的确定较为困难且十分影响性能。对此,在Boltzmann机制中引入上述启发式函数,结合Sigmoid函数的特性和轮盘赌算法,提出了如式(3)和(4)所示的动作选择策略。该策略中,算法前期将注重对状态—动作空间的探索,并减小温度参数对动作选择的影响;算法中后期Boltzmann机制将逐渐发挥作用,通过较小的温度参数,扩大各动作之间的差距,使轮盘赌算法更易选择性能较优的动作进行充分利用。
Figure BDA0002756144960000043
Figure BDA0002756144960000051
其中,arandom表示随机选择一种动作,rand为分布在0~1之间的随机数,a”∈[a1…aN],与a′类似代表对状态st下所有可执行动作的遍历,u为启发式函数系数,T为随迭代次数递减的温度参数。S(t)为Sigmoid函数,t为当前迭代次数,x、y、z为Sigmoid函数的参数,其中z决定了探索和利用的平衡。由于Boltzmann机制在算法中后期才开始发挥作用且仅需要关注在利用方面的性能即可,故可以选择T的初始值为小于等于1的正实数。
步骤3、设计状态-动作空间和奖赏函数,将状态st设为可选信源速率的集合,通过迭代来遍历状态并为用户调整参数;动作at的设置考虑功率和变跳速变间隔跳频图案的联合分配;奖赏函数rt的设置关注最大化未来K个时隙内的平均能量效率,具体如下:
定义Agent的状态st为可选信源速率的集合。通过迭代来遍历状态并为用户调整参数。考虑到“双变”跳频系统较常规跳频系统可有效提高抗跟踪干扰和梳状阻塞干扰的能力,由此将跳速和信道划分间隔的变化结合到跳频图案的生成过程中,通过随机选择每一跳的跳速和间隔从而产生变跳速变间隔的跳频图案,同时减小状态—动作空间,降低算法复杂度。动作at的设置考虑功率和跳频图案的联合分配。
为保证用户在能正常通信的情况下尽量提高通信质量,最大化未来K个时隙内的平均系统能量效率,由此定义如下奖赏函数:
Figure BDA0002756144960000052
Figure BDA0002756144960000053
Figure BDA0002756144960000054
其中,rt为第t次迭代中获得的奖赏值,β为参数,Rτ为用户在第τ个时隙内获得的奖赏,Bi为第i个用户的信源速率,Cτ为用户在第τ个时隙内获得的信道容量,
Figure BDA0002756144960000061
Figure BDA0002756144960000062
分别为在第τ个时刻第i个用户所占用的频带宽度和信干噪比,hi为第i个用户获得的信道增益,Pi为第i个用户的功率,n0为高斯白噪声功率,
Figure BDA0002756144960000063
为第i个用户在第τ个时刻内受到的干扰功率。
步骤4、根据感知到的频谱状态,估计干扰的主要参数,预测未来K个时隙内的频谱状态,具体如下:
根据频谱感知的结果确定干扰的类型并估计其主要参数,假设未来K个时隙内干扰的状态参数不变,建立如图1所示例的干扰环境频谱瀑布:该频谱瀑布图中横坐标代表时隙,纵坐标代表频率,图中颜色越深的位置代表该时隙下该频段上受到的干扰功率(单位为mW)越大。
步骤5、初始化Q值、启发式函数Hgbest和Hpbest、总迭代次数I、初始温度参数T0及其他参数,随机初始化状态s0,具体如下:
初始化Q值及启发式函数值为0,温度参数初始值T0为小于1的正实数,设置总迭代次数,初始化各信道增益服从均值为1的瑞利分布,设置其他参数θ,β,γ,η,x,y,z,随机选择一种状态作为初始状态s0
步骤6、对于当前状态st,根据新的动作选择策略及轮盘赌算法选择最佳动作at并执行,然后获取下一状态st+1,再计算奖赏值rt,具体如下;
根据当前状态st及当前迭代次数t使用如式(3、4)所示的动作策略及轮盘赌算法选择最佳动作at,执行并确定下一状态st+1,再根据式(5~7)结合用户参数、干扰环境和信道增益计算即时奖赏rt
步骤7、根据各动作获得的累计奖赏值分别选择全局最优解
Figure BDA0002756144960000064
和个体最优解
Figure BDA0002756144960000065
并更新启发式函数值,具体如下:
选择平均奖赏值最大的动作作为当前状态的个体最优解
Figure BDA0002756144960000066
而对于全局最优解
Figure BDA0002756144960000067
则选择各动作中对所有状态产生的平均奖赏值最大的动作。根据式(1、2)更新启发式函数值。
步骤8、更新Q值;
根据式(8)更新Q值
Figure BDA0002756144960000071
其中,Qt(st,at)为第t次迭代中在状态st下选择执行动作at时的Q值;θ∈(0,1)为学习效率,表示对过去经验的重视程度;γ∈(0,1)为奖赏折扣值,表示对未来收益的重视程度;rt为执行动作at可获得的即时收益,a”'为对状态st+1下可执行动作的遍历。
步骤9、更新状态和温度参数。若当前迭代次数t未到达总迭代次数I则返回至步骤6,具体如下:
设置st←st+1,按式(9)更新温度参数T,判断当前迭代次数t是否达到总迭代次数I,若是,则结束Q学习,否则返回步骤6。
T=T0-(T0-0.1)×t/I (9)。

Claims (6)

1.基于HAQL-PSO的跳频系统智能抗干扰决策方法,其特征在于包括如下步骤:
步骤1、结合粒子群算法设计新的启发式函数Hgbest和Hpbest
步骤2、将新的启发式函数引入动作选择策略中,并结合Sigmoid函数和轮盘赌算法形成新的动作选择策略π(st);
步骤3、设计状态-动作空间和奖赏函数,将状态st设为可选信源速率的集合,通过迭代来遍历状态并为用户调整参数;动作at的设置考虑功率和变跳速变间隔跳频图案的联合分配;奖赏函数rt的设置关注最大化未来K个时隙内的平均能量效率;
步骤4、根据感知到的频谱状态,估计干扰的主要参数,预测未来K个时隙内的频谱状态;
步骤5、初始化Q值、启发式函数Hgbest和Hpbest、总迭代次数I、初始温度参数T0、信道增益及其他参数,随机初始化状态s0
步骤6、对于当前状态st,根据新的动作选择策略及轮盘赌算法选择最佳动作at并执行,得到下一状态st+1,再计算奖赏值rt
步骤7、根据各动作获得的累计奖赏值分别选择全局最优解
Figure FDA0003368389040000011
和个体最优解
Figure FDA0003368389040000012
并更新启发式函数值;
步骤8、更新Q值;
步骤9、更新状态和温度参数;若当前迭代次数t未到达总迭代次数I则返回至步骤6;
步骤1结合粒子群算法设计新的启发式函数,具体实现如下:
PSO中使用全局最优解和个体最优解不断地引导其他粒子向最优解方向移动;将这个机制融入到启发式Q学习中,设计新的启发式函数并应用至动作选择策略中,从而提高Q学习的搜索能力和收敛速度;
假设在第t次迭代中,Agent处于状态st,其基于Q表格通过动作选择策略选择并执行执行动作at,从而获得了奖励rt,则通过记录每次迭代的状态、动作并累加奖赏,从而得到Q(sn,am),其表示不同状态下执行不同动作带来的累计奖赏;在某次迭代中,对于某一状态sn,n=1,2,…,N,通过动作am,m=1,2,…,M对其的累计奖赏和其选择该动作的次数可以获得动作am对于状态sn的平均奖赏值,选择所有动作中平均奖赏值最大的动作作为该状态的个体最优解
Figure FDA0003368389040000021
对于全局最优解
Figure FDA0003368389040000022
通过计算动作am为所有状态带来的奖励之和以及其被各个状态选择的次数之和可以得到该动作对所有状态产生的平均奖赏值,选择其中平均奖赏值最大的动作作为全局最优解;根据全局最优解和个体最优解设计启发式函数Hgbest和Hpbest,并按式(1)和(2)进行更新;
Figure FDA0003368389040000023
Figure FDA0003368389040000024
其中,Hgbest(a')为动作a'(a'∈[a1…aN]为对所有动作进行遍历)的全局最优启发式函数值,Hpbest(st,a')为在状态st下执行动作a’的个体最优启发式函数值,λ表示当前动作a’与全局最优解或个体最优解中相同的参数的个数,ns为状态的数量,η为小于1的正实数;
步骤2具体实现如下:
在Boltzmann机制中引入步骤1设计的启发式函数,结合Sigmoid函数的特性和轮盘赌算法,提出了如式(3)和(4)所示的动作选择策略:
Figure FDA0003368389040000025
Figure FDA0003368389040000026
其中,arandom表示随机选择一种动作,rand为分布在0~1之间的随机数,a”∈[a1…aN],与a'类似代表对状态st下所有可执行动作的遍历,u为启发式函数系数,T为随迭代次数递减的温度参数;S(t)为Sigmoid函数,t为当前迭代次数,x、y、z为Sigmoid函数的参数,其中z决定了探索和利用的平衡;由于Boltzmann机制在算法中后期才开始发挥作用且仅需要关注在利用方面的性能即可,故可以选择T的初始值为小于等于1的正实数;
步骤3具体如下:
定义Agent的状态st为可选信源速率的集合;通过迭代来遍历状态并为用户调整参数;将跳速和信道划分间隔的变化结合到跳频图案的生成过程中,通过随机选择每一跳的跳速和间隔从而产生变跳速变间隔的跳频图案,同时减小状态—动作空间;动作at的设置考虑功率和跳频图案的联合分配;
为保证用户在能正常通信的情况下尽量提高通信质量,最大化未来K个时隙内的平均系统能量效率,由此定义如下奖赏函数:
Figure FDA0003368389040000031
Figure FDA0003368389040000032
Figure FDA0003368389040000033
其中,rt为第t次迭代中获得的奖赏值,β为参数,Rτ为用户在第τ个时隙内获得的奖赏,Bi为第i个用户的信源速率,Cτ为用户在第τ个时隙内获得的信道容量,
Figure FDA0003368389040000034
Figure FDA0003368389040000035
分别为在第τ个时刻第i个用户所占用的频带宽度和信干噪比,hi为第i个用户获得的信道增益,Pi为第i个用户的功率,n0为高斯白噪声功率,
Figure FDA0003368389040000036
为第i个用户在第τ个时刻内受到的干扰功率。
2.根据权利要求1所述的基于HAQL-PSO的跳频系统智能抗干扰决策方法,其特征在步骤5具体如下:
初始化Q值及启发式函数值为0,温度参数初始值T0为小于1的正实数,设置总迭代次数,初始化各信道增益服从均值为1的瑞利分布,设置其他参数θ,β,γ,η,x,y,z,随机选择一种状态作为初始状态s0
3.根据权利要求1或2所述的基于HAQL-PSO的跳频系统智能抗干扰决策方法,其特征在于步骤6具体如下;
根据当前状态st及当前迭代次数t使用公式(3)和(4)所示的动作策略及轮盘赌算法选择最佳动作at,执行并确定下一状态st+1,再根据公式(5)、(6)和(7)结合用户参数、干扰环境和信道增益计算即时奖赏rt
4.根据权利要求3所述的基于HAQL-PSO的跳频系统智能抗干扰决策方法,其特征在于步骤7具体如下:
选择平均奖赏值最大的动作作为当前状态的个体最优解
Figure FDA0003368389040000041
而对于全局最优解
Figure FDA0003368389040000042
则选择各动作中对所有状态产生的平均奖赏值最大的动作;根据式(1、2)更新启发式函数值。
5.根据权利要求4所述的基于HAQL-PSO的跳频系统智能抗干扰决策方法,其特征在于步骤8更新Q值,实现如下:
根据式(8)更新Q值
Figure FDA0003368389040000043
其中,Qt(st,at)为第t次迭代中在状态st下选择执行动作at时的Q值;θ∈(0,1)为学习效率,表示对过去经验的重视程度;γ∈(0,1)为奖赏折扣值,表示对未来收益的重视程度;rt为执行动作at可获得的即时收益,a”'为对状态st+1下可执行动作的遍历。
6.根据权利要求5所述的基于HAQL-PSO的跳频系统智能抗干扰决策方法,其特征在于步骤9具体如下:
设置st←st+1,按式(9)更新温度参数T,判断当前迭代次数t是否达到总迭代次数I,若是,则结束Q学习,否则返回步骤6;
T=T0-(T0-0.1)×t/I (9)。
CN202011203291.6A 2020-11-02 2020-11-02 基于haql-pso的跳频系统智能抗干扰决策方法 Active CN112543038B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011203291.6A CN112543038B (zh) 2020-11-02 2020-11-02 基于haql-pso的跳频系统智能抗干扰决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011203291.6A CN112543038B (zh) 2020-11-02 2020-11-02 基于haql-pso的跳频系统智能抗干扰决策方法

Publications (2)

Publication Number Publication Date
CN112543038A CN112543038A (zh) 2021-03-23
CN112543038B true CN112543038B (zh) 2022-03-11

Family

ID=75015016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011203291.6A Active CN112543038B (zh) 2020-11-02 2020-11-02 基于haql-pso的跳频系统智能抗干扰决策方法

Country Status (1)

Country Link
CN (1) CN112543038B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065284B (zh) * 2021-03-31 2022-11-01 天津国科医工科技发展有限公司 一种基于q学习的三重四极质谱仪参数优化策略计算方法
CN113093124B (zh) * 2021-04-07 2022-09-02 哈尔滨工程大学 一种基于dqn算法的雷达干扰资源实时分配方法
CN113271119B (zh) * 2021-05-18 2023-04-11 东南大学 基于传输调度的抗干扰协作式跳频方法
CN113131970A (zh) * 2021-05-19 2021-07-16 西南交通大学 基于强化学习与光载无线技术的高铁电磁干扰规避系统
CN113411099B (zh) * 2021-05-28 2022-04-29 杭州电子科技大学 一种基于pper-dqn的双变跳频图案智能决策方法
CN113824469B (zh) * 2021-08-05 2022-10-21 杭州电子科技大学 基于mfdrl-ctde的跳频组网智能抗干扰决策方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102256262A (zh) * 2011-07-14 2011-11-23 南京邮电大学 基于分布式独立学习的多用户动态频谱接入方法
CN109726866A (zh) * 2018-12-27 2019-05-07 浙江农林大学 基于q学习神经网络的无人船路径规划方法
CN109787696A (zh) * 2018-12-11 2019-05-21 杭州电子科技大学 基于案例推理与合作q学习的认知无线电资源分配方法
CN110380802A (zh) * 2019-06-14 2019-10-25 中国人民解放军陆军工程大学 基于软件无线电平台的单用户动态频谱抗干扰系统及方法
CN111600676A (zh) * 2020-06-05 2020-08-28 上海特金无线技术有限公司 Q值表确定方法、抗干扰方法、装置及设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108777872B (zh) * 2018-05-22 2020-01-24 中国人民解放军陆军工程大学 一种基于深度q神经网络抗干扰模型的智能抗干扰方法及智能抗干扰系统
CN108924935A (zh) * 2018-07-06 2018-11-30 西北工业大学 一种基于强化学习算法功率域的noma中的功率分配方法
US20200153535A1 (en) * 2018-11-09 2020-05-14 Bluecom Systems and Consulting LLC Reinforcement learning based cognitive anti-jamming communications system and method
CN110515735A (zh) * 2019-08-29 2019-11-29 哈尔滨理工大学 一种基于改进q学习算法的多目标云资源调度方法
CN111182549B (zh) * 2020-01-03 2022-12-30 广州大学 一种基于深度强化学习的抗干扰无线通信方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102256262A (zh) * 2011-07-14 2011-11-23 南京邮电大学 基于分布式独立学习的多用户动态频谱接入方法
CN109787696A (zh) * 2018-12-11 2019-05-21 杭州电子科技大学 基于案例推理与合作q学习的认知无线电资源分配方法
CN109726866A (zh) * 2018-12-27 2019-05-07 浙江农林大学 基于q学习神经网络的无人船路径规划方法
CN110380802A (zh) * 2019-06-14 2019-10-25 中国人民解放军陆军工程大学 基于软件无线电平台的单用户动态频谱抗干扰系统及方法
CN111600676A (zh) * 2020-06-05 2020-08-28 上海特金无线技术有限公司 Q值表确定方法、抗干扰方法、装置及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于混沌BPSO的多目标优化频谱切换算法";朱家晟;《杭州电子科技大学学报(自然科学版)》;20200131;第8-13页 *

Also Published As

Publication number Publication date
CN112543038A (zh) 2021-03-23

Similar Documents

Publication Publication Date Title
CN112543038B (zh) 基于haql-pso的跳频系统智能抗干扰决策方法
CN108616916B (zh) 一种基于合作抗干扰分层博弈模型的抗干扰学习方法
Ding et al. No-pain no-gain: DRL assisted optimization in energy-constrained CR-NOMA networks
CN112367132B (zh) 基于强化学习解决认知无线电中的功率分配算法
CN112492686B (zh) 一种基于深度双q网络的蜂窝网络功率分配方法
CN109787696B (zh) 基于案例推理与合作q学习的认知无线电资源分配方法
CN112188504A (zh) 多用户协同抗干扰系统及动态频谱协同抗干扰方法
CN114641076A (zh) 一种超密集网络中基于动态用户满意度的边缘计算卸载方法
Jiang et al. Dynamic user pairing and power allocation for NOMA with deep reinforcement learning
CN115567148A (zh) 一种基于合作q学习的智能干扰方法
Koch et al. Reinforcement learning for generalized parameter optimization in elastic optical networks
CN116308578A (zh) 一种基于深度学习的边缘云设备定价的优化方法及装置
CN112533221A (zh) 一种联合轨迹规划与频谱决策的无人机抗干扰方法
CN111930501B (zh) 一种面向多小区网络的基于无监督学习的无线资源分配方法
CN113411099B (zh) 一种基于pper-dqn的双变跳频图案智能决策方法
Zhao et al. Dynamic sparse coding-based value estimation network for deep reinforcement learning
CN116981090A (zh) 多基站下基于改进d3qn的d2d通信资源分配方法
CN113824469B (zh) 基于mfdrl-ctde的跳频组网智能抗干扰决策方法
Cheng et al. Robust Actor-Critic With Relative Entropy Regulating Actor
CN116073856A (zh) 一种基于深度确定性策略的跳频智能抗干扰决策方法
CN107919931A (zh) 认知网中一种基于隐马尔可夫的多信道功率控制机制
CN113395757B (zh) 基于改进回报函数的深度强化学习认知网络功率控制方法
CN112395059B (zh) 一种改进萤火虫算法的cmp任务调度方法
CN113747447A (zh) 基于先验知识的双动作强化学习频谱接入方法和系统
CN114423046A (zh) 一种协同通信干扰决策方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240730

Address after: 310018 No. 2 street, Xiasha Higher Education Zone, Hangzhou, Zhejiang

Patentee after: HANGZHOU DIANZI University

Country or region after: China

Patentee after: the 36th Research Institute of CETC

Address before: 310018 No. 2 street, Xiasha Higher Education Zone, Hangzhou, Zhejiang

Patentee before: HANGZHOU DIANZI University

Country or region before: China