CN112543038B - 基于haql-pso的跳频系统智能抗干扰决策方法 - Google Patents
基于haql-pso的跳频系统智能抗干扰决策方法 Download PDFInfo
- Publication number
- CN112543038B CN112543038B CN202011203291.6A CN202011203291A CN112543038B CN 112543038 B CN112543038 B CN 112543038B CN 202011203291 A CN202011203291 A CN 202011203291A CN 112543038 B CN112543038 B CN 112543038B
- Authority
- CN
- China
- Prior art keywords
- action
- state
- value
- iteration
- optimal solution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 230000009471 action Effects 0.000 claims abstract description 84
- 230000006870 function Effects 0.000 claims abstract description 60
- 230000006854 communication Effects 0.000 claims abstract description 13
- 230000007246 mechanism Effects 0.000 claims abstract description 13
- 238000004891 communication Methods 0.000 claims abstract description 12
- 238000001228 spectrum Methods 0.000 claims abstract description 12
- 230000008569 process Effects 0.000 claims abstract description 4
- 239000002245 particle Substances 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 3
- 230000008901 benefit Effects 0.000 claims description 2
- 230000003247 decreasing effect Effects 0.000 claims description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/69—Spread spectrum techniques
- H04B1/713—Spread spectrum techniques using frequency hopping
- H04B1/715—Interference-related aspects
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于HAQL‑PSO的跳频系统智能抗干扰决策方法。本发明将全局和个体最优解的引导机制引入Q学习过程,设计启发式函数用于动作选择策略;将Sigmoid函数用于启发式Q学习中;针对跳频通信中可能出现的干扰及可调节的参数,设计了状态‑动作空间及奖励函数。然后根据频谱感知结果预测未来短时间内的频谱状态。在初始化Q值、启发式函数、其他参数及初始状态后,根据动作选择策略选择最佳动作并执行,得到下一状态。对于当前的状态和动作计算奖赏函数并更新启发式函数和Q值。当达到总迭代次数时,结束学习,获得Q表用于指导参数调整,否则,更新状态和温度参数并进入下一次迭代。本发明解决了Q学习中探索和利用的平衡问题。
Description
技术领域
本发明属于跳频通信中智能抗干扰决策领域,特别涉及一种基于HAQL-PSO的跳频系统智能抗干扰决策方法。一种利用结合了粒子群算法的启发式Q学习对跳频系统进行参数调整的智能抗干扰决策方法。
背景技术
跳频通信具有较强的抗传统干扰能力,同时还具备易组网和难以截获的特点。但是,在如今日益复杂的电磁环境和逐渐智能化的干扰策略下,传统的跳频通信技术已不能满足通信需求。对此,近年来,智能抗干扰逐渐受到重视,其通过智能地调整用户通信过程中的参数,能有效地对抗复杂干扰,提升通信质量。智能抗干扰决策是其中一项关键技术。
强化学习通过Agent与环境不断进行交互和学习能够得到最佳的决策。Q学习作为一种免模型的强化学习方法,已被广泛的应用在资源分配和参数调整的决策问题中。另外,由于Q学习不需要干扰环境的先验知识,故适合在复杂电磁环境下使用。
目前的智能抗干扰决策方法考虑的干扰环境较为简单,需要决策的变量数量较少,不适用于复杂电磁环境。
发明内容
本发明针对现有智能抗干扰决策问题的局限性,综合考虑调整跳频系统的功率、信源速率、跳频图案、跳速、信道划分间隔等参数,以达到在复杂电磁环境中对抗干扰,提高通信质量的目的。因此,提出并利用一种基于HAQL-PSO的跳频系统智能抗干扰决策方法,以得到更高的能量效率,提高通信质量。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1、结合粒子群算法设计新的启发式函数Hgbest和Hpbest;
步骤2、将新的启发式函数引入动作选择策略中,并结合Sigmoid函数和轮盘赌算法形成新的动作选择策略π(st);
步骤3、设计状态-动作空间和奖赏函数,将状态st设为可选信源速率的集合,通过迭代来遍历状态并为用户调整参数;动作at的设置考虑功率和变跳速变间隔跳频图案的联合分配;奖赏函数rt的设置关注最大化未来K个时隙内的平均能量效率;
步骤4、根据感知到的频谱状态,估计干扰的主要参数,预测未来K个时隙内的频谱状态;
步骤5、初始化Q值、启发式函数Hgbest和Hpbest、总迭代次数I、初始温度参数T0、信道增益及其他参数,随机初始化状态s0;
步骤6、对于当前状态st,根据新的动作选择策略及轮盘赌算法选择最佳动作at并执行,得到下一状态st+1,再计算奖赏值rt;
步骤8、更新Q值;
步骤9、更新状态和温度参数。若当前迭代次数t未到达总迭代次数I则返回至步骤6。
本发明的有益效果是:
1、本文结合粒子群算法中全局最优解和个体最优解的引导机制提出了一种新的启发式函数,该函数能帮助Agent更高效的探索和利用状态-动作空间,有效地避免陷入局部最优解。
2、将新的启发式函数引入动作选择策略结合Sigmoid函数和轮盘赌算法形成新的动作选择策略,解决了Q学习中探索与平衡的问题,降低了传统动作选择策略中Boltzmann机制的温度参数选取困难的问题,提高了收敛速度,使Q学习能得到更高的能量效率且对多变的干扰环境具有适应性。
3、将跳速和信道划分间隔的变化结合到跳频图案的生成过程中,通过随机选择每一跳的跳速和间隔,产生变跳速变间隔的跳频图案,该方式减小了状态-动作空间,降低了算法复杂度。
4、重新设计奖赏函数,该函数能使Agent以最大化未来K个时隙内的能量效率为目标进行学习。
附图说明
图1为本发明干扰环境频谱瀑布示意图。
具体实施方式
下面进一步详细说明本发明的实施步骤。
基于HAQL-PSO的跳频系统智能抗干扰决策方法,具体包括如下步骤:
步骤1、结合粒子群算法设计新的启发式函数,具体如下:
PSO中使用全局最优解和个体最优解不断地引导其他粒子向最优解方向移动。将这个机制融入到启发式Q学习中,设计新的启发式函数并应用至动作选择策略中,从而提高Q学习的搜索能力和收敛速度。
Q学习通过如表1所示的Q表格记录不同状态下采取不同动作对应的Q值。
表1Q表格
a<sub>1</sub> | a<sub>2</sub> | a<sub>3</sub> | …… | a<sub>M-1</sub> | a<sub>M</sub> | |
s<sub>1</sub> | Q(s<sub>1</sub>,a<sub>1</sub>) | Q(s<sub>1</sub>,a<sub>2</sub>) | Q(s<sub>1</sub>,a<sub>3</sub>) | …… | Q(s<sub>1</sub>,a<sub>M-1</sub>) | Q(s<sub>1</sub>,a<sub>M</sub>) |
s<sub>2</sub> | Q(s<sub>2</sub>,a<sub>1</sub>) | Q(s<sub>2</sub>,a<sub>2</sub>) | Q(s<sub>2</sub>,a<sub>3</sub>) | …… | Q(s<sub>2</sub>,a<sub>M-1</sub>) | Q(s<sub>2</sub>,a<sub>M</sub>) |
…… | …… | …… | …… | …… | …… | …… |
s<sub>N</sub> | Q(s<sub>N</sub>,a<sub>1</sub>) | Q(s<sub>N</sub>,a<sub>2</sub>) | Q(s<sub>N</sub>,a<sub>3</sub>) | …… | Q(s<sub>N</sub>,a<sub>M-1</sub>) | Q(s<sub>N</sub>,a<sub>M</sub>) |
假设在第t次迭代中,Agent处于状态st,其基于Q表格通过动作选择策略选择并执行执行动作at,从而获得了奖励rt,则通过记录每次迭代的状态、动作并累加奖赏,可以得到一个类似于Q表的奖赏函数表格,其表示不同状态下执行不同动作带来的累计奖赏。在某次迭代中,对于某一状态sn,n=1,2,…,N,通过动作am,m=1,2,…,M对其的累计奖赏和其选择该动作的次数可以获得动作am对于状态sn的平均奖赏值,选择所有动作中平均奖赏值最大的动作作为该状态的个体最优解对于全局最优解通过计算动作am为所有状态带来的奖励之和以及其被各个状态选择的次数之和可以得到该动作对所有状态产生的平均奖赏值,选择其中平均奖赏值最大的动作作为全局最优解。根据全局最优解和个体最优解设计启发式函数Hgbest和Hpbest,并按式(1)和(2)进行更新。
其中,Hgbest(a')为动作a'(a'∈[a1…aN]为对所有动作进行遍历)的全局最优启发式函数值,Hpbest(st,a')为在状态st下执行动作a’的个体最优启发式函数值,λ表示当前动作a’与全局最优解或个体最优解中相同的参数的个数,ns为状态的数量,η为小于1的正实数。
步骤2、将新的启发式函数引入动作选择策略中并结合Sigmoid函数和轮盘赌算法形成新的动作选择策略π(st),具体如下:
Q学习中探索和利用的平衡问题是影响学习效果的重要因素。若过于注重探索,将有更大概率找到最优解,但会降低收敛速度;若过于注重利用,则会增加收敛速度,但更容易陷入局部最优解。目前常用的基于ε-greedy机制和Boltzmann机制的动作选择策略中,前者以一定概率在每次迭代中选择随机动作作为最佳动作,导致算法不易收敛或收敛后不稳定;后者常与轮盘赌算法结合使用,通过温度参数的递减,使算法在前期更注重探索,在中后期更注重利用,但是温度参数的取值和递减方式的确定较为困难且十分影响性能。对此,在Boltzmann机制中引入上述启发式函数,结合Sigmoid函数的特性和轮盘赌算法,提出了如式(3)和(4)所示的动作选择策略。该策略中,算法前期将注重对状态—动作空间的探索,并减小温度参数对动作选择的影响;算法中后期Boltzmann机制将逐渐发挥作用,通过较小的温度参数,扩大各动作之间的差距,使轮盘赌算法更易选择性能较优的动作进行充分利用。
其中,arandom表示随机选择一种动作,rand为分布在0~1之间的随机数,a”∈[a1…aN],与a′类似代表对状态st下所有可执行动作的遍历,u为启发式函数系数,T为随迭代次数递减的温度参数。S(t)为Sigmoid函数,t为当前迭代次数,x、y、z为Sigmoid函数的参数,其中z决定了探索和利用的平衡。由于Boltzmann机制在算法中后期才开始发挥作用且仅需要关注在利用方面的性能即可,故可以选择T的初始值为小于等于1的正实数。
步骤3、设计状态-动作空间和奖赏函数,将状态st设为可选信源速率的集合,通过迭代来遍历状态并为用户调整参数;动作at的设置考虑功率和变跳速变间隔跳频图案的联合分配;奖赏函数rt的设置关注最大化未来K个时隙内的平均能量效率,具体如下:
定义Agent的状态st为可选信源速率的集合。通过迭代来遍历状态并为用户调整参数。考虑到“双变”跳频系统较常规跳频系统可有效提高抗跟踪干扰和梳状阻塞干扰的能力,由此将跳速和信道划分间隔的变化结合到跳频图案的生成过程中,通过随机选择每一跳的跳速和间隔从而产生变跳速变间隔的跳频图案,同时减小状态—动作空间,降低算法复杂度。动作at的设置考虑功率和跳频图案的联合分配。
为保证用户在能正常通信的情况下尽量提高通信质量,最大化未来K个时隙内的平均系统能量效率,由此定义如下奖赏函数:
其中,rt为第t次迭代中获得的奖赏值,β为参数,Rτ为用户在第τ个时隙内获得的奖赏,Bi为第i个用户的信源速率,Cτ为用户在第τ个时隙内获得的信道容量,和分别为在第τ个时刻第i个用户所占用的频带宽度和信干噪比,hi为第i个用户获得的信道增益,Pi为第i个用户的功率,n0为高斯白噪声功率,为第i个用户在第τ个时刻内受到的干扰功率。
步骤4、根据感知到的频谱状态,估计干扰的主要参数,预测未来K个时隙内的频谱状态,具体如下:
根据频谱感知的结果确定干扰的类型并估计其主要参数,假设未来K个时隙内干扰的状态参数不变,建立如图1所示例的干扰环境频谱瀑布:该频谱瀑布图中横坐标代表时隙,纵坐标代表频率,图中颜色越深的位置代表该时隙下该频段上受到的干扰功率(单位为mW)越大。
步骤5、初始化Q值、启发式函数Hgbest和Hpbest、总迭代次数I、初始温度参数T0及其他参数,随机初始化状态s0,具体如下:
初始化Q值及启发式函数值为0,温度参数初始值T0为小于1的正实数,设置总迭代次数,初始化各信道增益服从均值为1的瑞利分布,设置其他参数θ,β,γ,η,x,y,z,随机选择一种状态作为初始状态s0。
步骤6、对于当前状态st,根据新的动作选择策略及轮盘赌算法选择最佳动作at并执行,然后获取下一状态st+1,再计算奖赏值rt,具体如下;
根据当前状态st及当前迭代次数t使用如式(3、4)所示的动作策略及轮盘赌算法选择最佳动作at,执行并确定下一状态st+1,再根据式(5~7)结合用户参数、干扰环境和信道增益计算即时奖赏rt。
步骤8、更新Q值;
根据式(8)更新Q值
其中,Qt(st,at)为第t次迭代中在状态st下选择执行动作at时的Q值;θ∈(0,1)为学习效率,表示对过去经验的重视程度;γ∈(0,1)为奖赏折扣值,表示对未来收益的重视程度;rt为执行动作at可获得的即时收益,a”'为对状态st+1下可执行动作的遍历。
步骤9、更新状态和温度参数。若当前迭代次数t未到达总迭代次数I则返回至步骤6,具体如下:
设置st←st+1,按式(9)更新温度参数T,判断当前迭代次数t是否达到总迭代次数I,若是,则结束Q学习,否则返回步骤6。
T=T0-(T0-0.1)×t/I (9)。
Claims (6)
1.基于HAQL-PSO的跳频系统智能抗干扰决策方法,其特征在于包括如下步骤:
步骤1、结合粒子群算法设计新的启发式函数Hgbest和Hpbest;
步骤2、将新的启发式函数引入动作选择策略中,并结合Sigmoid函数和轮盘赌算法形成新的动作选择策略π(st);
步骤3、设计状态-动作空间和奖赏函数,将状态st设为可选信源速率的集合,通过迭代来遍历状态并为用户调整参数;动作at的设置考虑功率和变跳速变间隔跳频图案的联合分配;奖赏函数rt的设置关注最大化未来K个时隙内的平均能量效率;
步骤4、根据感知到的频谱状态,估计干扰的主要参数,预测未来K个时隙内的频谱状态;
步骤5、初始化Q值、启发式函数Hgbest和Hpbest、总迭代次数I、初始温度参数T0、信道增益及其他参数,随机初始化状态s0;
步骤6、对于当前状态st,根据新的动作选择策略及轮盘赌算法选择最佳动作at并执行,得到下一状态st+1,再计算奖赏值rt;
步骤8、更新Q值;
步骤9、更新状态和温度参数;若当前迭代次数t未到达总迭代次数I则返回至步骤6;
步骤1结合粒子群算法设计新的启发式函数,具体实现如下:
PSO中使用全局最优解和个体最优解不断地引导其他粒子向最优解方向移动;将这个机制融入到启发式Q学习中,设计新的启发式函数并应用至动作选择策略中,从而提高Q学习的搜索能力和收敛速度;
假设在第t次迭代中,Agent处于状态st,其基于Q表格通过动作选择策略选择并执行执行动作at,从而获得了奖励rt,则通过记录每次迭代的状态、动作并累加奖赏,从而得到Q(sn,am),其表示不同状态下执行不同动作带来的累计奖赏;在某次迭代中,对于某一状态sn,n=1,2,…,N,通过动作am,m=1,2,…,M对其的累计奖赏和其选择该动作的次数可以获得动作am对于状态sn的平均奖赏值,选择所有动作中平均奖赏值最大的动作作为该状态的个体最优解对于全局最优解通过计算动作am为所有状态带来的奖励之和以及其被各个状态选择的次数之和可以得到该动作对所有状态产生的平均奖赏值,选择其中平均奖赏值最大的动作作为全局最优解;根据全局最优解和个体最优解设计启发式函数Hgbest和Hpbest,并按式(1)和(2)进行更新;
其中,Hgbest(a')为动作a'(a'∈[a1…aN]为对所有动作进行遍历)的全局最优启发式函数值,Hpbest(st,a')为在状态st下执行动作a’的个体最优启发式函数值,λ表示当前动作a’与全局最优解或个体最优解中相同的参数的个数,ns为状态的数量,η为小于1的正实数;
步骤2具体实现如下:
在Boltzmann机制中引入步骤1设计的启发式函数,结合Sigmoid函数的特性和轮盘赌算法,提出了如式(3)和(4)所示的动作选择策略:
其中,arandom表示随机选择一种动作,rand为分布在0~1之间的随机数,a”∈[a1…aN],与a'类似代表对状态st下所有可执行动作的遍历,u为启发式函数系数,T为随迭代次数递减的温度参数;S(t)为Sigmoid函数,t为当前迭代次数,x、y、z为Sigmoid函数的参数,其中z决定了探索和利用的平衡;由于Boltzmann机制在算法中后期才开始发挥作用且仅需要关注在利用方面的性能即可,故可以选择T的初始值为小于等于1的正实数;
步骤3具体如下:
定义Agent的状态st为可选信源速率的集合;通过迭代来遍历状态并为用户调整参数;将跳速和信道划分间隔的变化结合到跳频图案的生成过程中,通过随机选择每一跳的跳速和间隔从而产生变跳速变间隔的跳频图案,同时减小状态—动作空间;动作at的设置考虑功率和跳频图案的联合分配;
为保证用户在能正常通信的情况下尽量提高通信质量,最大化未来K个时隙内的平均系统能量效率,由此定义如下奖赏函数:
2.根据权利要求1所述的基于HAQL-PSO的跳频系统智能抗干扰决策方法,其特征在步骤5具体如下:
初始化Q值及启发式函数值为0,温度参数初始值T0为小于1的正实数,设置总迭代次数,初始化各信道增益服从均值为1的瑞利分布,设置其他参数θ,β,γ,η,x,y,z,随机选择一种状态作为初始状态s0。
3.根据权利要求1或2所述的基于HAQL-PSO的跳频系统智能抗干扰决策方法,其特征在于步骤6具体如下;
根据当前状态st及当前迭代次数t使用公式(3)和(4)所示的动作策略及轮盘赌算法选择最佳动作at,执行并确定下一状态st+1,再根据公式(5)、(6)和(7)结合用户参数、干扰环境和信道增益计算即时奖赏rt。
6.根据权利要求5所述的基于HAQL-PSO的跳频系统智能抗干扰决策方法,其特征在于步骤9具体如下:
设置st←st+1,按式(9)更新温度参数T,判断当前迭代次数t是否达到总迭代次数I,若是,则结束Q学习,否则返回步骤6;
T=T0-(T0-0.1)×t/I (9)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011203291.6A CN112543038B (zh) | 2020-11-02 | 2020-11-02 | 基于haql-pso的跳频系统智能抗干扰决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011203291.6A CN112543038B (zh) | 2020-11-02 | 2020-11-02 | 基于haql-pso的跳频系统智能抗干扰决策方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112543038A CN112543038A (zh) | 2021-03-23 |
CN112543038B true CN112543038B (zh) | 2022-03-11 |
Family
ID=75015016
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011203291.6A Active CN112543038B (zh) | 2020-11-02 | 2020-11-02 | 基于haql-pso的跳频系统智能抗干扰决策方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112543038B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065284B (zh) * | 2021-03-31 | 2022-11-01 | 天津国科医工科技发展有限公司 | 一种基于q学习的三重四极质谱仪参数优化策略计算方法 |
CN113093124B (zh) * | 2021-04-07 | 2022-09-02 | 哈尔滨工程大学 | 一种基于dqn算法的雷达干扰资源实时分配方法 |
CN113271119B (zh) * | 2021-05-18 | 2023-04-11 | 东南大学 | 基于传输调度的抗干扰协作式跳频方法 |
CN113131970A (zh) * | 2021-05-19 | 2021-07-16 | 西南交通大学 | 基于强化学习与光载无线技术的高铁电磁干扰规避系统 |
CN113411099B (zh) * | 2021-05-28 | 2022-04-29 | 杭州电子科技大学 | 一种基于pper-dqn的双变跳频图案智能决策方法 |
CN113824469B (zh) * | 2021-08-05 | 2022-10-21 | 杭州电子科技大学 | 基于mfdrl-ctde的跳频组网智能抗干扰决策方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102256262A (zh) * | 2011-07-14 | 2011-11-23 | 南京邮电大学 | 基于分布式独立学习的多用户动态频谱接入方法 |
CN109726866A (zh) * | 2018-12-27 | 2019-05-07 | 浙江农林大学 | 基于q学习神经网络的无人船路径规划方法 |
CN109787696A (zh) * | 2018-12-11 | 2019-05-21 | 杭州电子科技大学 | 基于案例推理与合作q学习的认知无线电资源分配方法 |
CN110380802A (zh) * | 2019-06-14 | 2019-10-25 | 中国人民解放军陆军工程大学 | 基于软件无线电平台的单用户动态频谱抗干扰系统及方法 |
CN111600676A (zh) * | 2020-06-05 | 2020-08-28 | 上海特金无线技术有限公司 | Q值表确定方法、抗干扰方法、装置及设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108777872B (zh) * | 2018-05-22 | 2020-01-24 | 中国人民解放军陆军工程大学 | 一种基于深度q神经网络抗干扰模型的智能抗干扰方法及智能抗干扰系统 |
CN108924935A (zh) * | 2018-07-06 | 2018-11-30 | 西北工业大学 | 一种基于强化学习算法功率域的noma中的功率分配方法 |
US20200153535A1 (en) * | 2018-11-09 | 2020-05-14 | Bluecom Systems and Consulting LLC | Reinforcement learning based cognitive anti-jamming communications system and method |
CN110515735A (zh) * | 2019-08-29 | 2019-11-29 | 哈尔滨理工大学 | 一种基于改进q学习算法的多目标云资源调度方法 |
CN111182549B (zh) * | 2020-01-03 | 2022-12-30 | 广州大学 | 一种基于深度强化学习的抗干扰无线通信方法 |
-
2020
- 2020-11-02 CN CN202011203291.6A patent/CN112543038B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102256262A (zh) * | 2011-07-14 | 2011-11-23 | 南京邮电大学 | 基于分布式独立学习的多用户动态频谱接入方法 |
CN109787696A (zh) * | 2018-12-11 | 2019-05-21 | 杭州电子科技大学 | 基于案例推理与合作q学习的认知无线电资源分配方法 |
CN109726866A (zh) * | 2018-12-27 | 2019-05-07 | 浙江农林大学 | 基于q学习神经网络的无人船路径规划方法 |
CN110380802A (zh) * | 2019-06-14 | 2019-10-25 | 中国人民解放军陆军工程大学 | 基于软件无线电平台的单用户动态频谱抗干扰系统及方法 |
CN111600676A (zh) * | 2020-06-05 | 2020-08-28 | 上海特金无线技术有限公司 | Q值表确定方法、抗干扰方法、装置及设备 |
Non-Patent Citations (1)
Title |
---|
"基于混沌BPSO的多目标优化频谱切换算法";朱家晟;《杭州电子科技大学学报(自然科学版)》;20200131;第8-13页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112543038A (zh) | 2021-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112543038B (zh) | 基于haql-pso的跳频系统智能抗干扰决策方法 | |
CN108616916B (zh) | 一种基于合作抗干扰分层博弈模型的抗干扰学习方法 | |
Ding et al. | No-pain no-gain: DRL assisted optimization in energy-constrained CR-NOMA networks | |
CN112367132B (zh) | 基于强化学习解决认知无线电中的功率分配算法 | |
CN112492686B (zh) | 一种基于深度双q网络的蜂窝网络功率分配方法 | |
CN109787696B (zh) | 基于案例推理与合作q学习的认知无线电资源分配方法 | |
CN112188504A (zh) | 多用户协同抗干扰系统及动态频谱协同抗干扰方法 | |
CN114641076A (zh) | 一种超密集网络中基于动态用户满意度的边缘计算卸载方法 | |
Jiang et al. | Dynamic user pairing and power allocation for NOMA with deep reinforcement learning | |
CN115567148A (zh) | 一种基于合作q学习的智能干扰方法 | |
Koch et al. | Reinforcement learning for generalized parameter optimization in elastic optical networks | |
CN116308578A (zh) | 一种基于深度学习的边缘云设备定价的优化方法及装置 | |
CN112533221A (zh) | 一种联合轨迹规划与频谱决策的无人机抗干扰方法 | |
CN111930501B (zh) | 一种面向多小区网络的基于无监督学习的无线资源分配方法 | |
CN113411099B (zh) | 一种基于pper-dqn的双变跳频图案智能决策方法 | |
Zhao et al. | Dynamic sparse coding-based value estimation network for deep reinforcement learning | |
CN116981090A (zh) | 多基站下基于改进d3qn的d2d通信资源分配方法 | |
CN113824469B (zh) | 基于mfdrl-ctde的跳频组网智能抗干扰决策方法 | |
Cheng et al. | Robust Actor-Critic With Relative Entropy Regulating Actor | |
CN116073856A (zh) | 一种基于深度确定性策略的跳频智能抗干扰决策方法 | |
CN107919931A (zh) | 认知网中一种基于隐马尔可夫的多信道功率控制机制 | |
CN113395757B (zh) | 基于改进回报函数的深度强化学习认知网络功率控制方法 | |
CN112395059B (zh) | 一种改进萤火虫算法的cmp任务调度方法 | |
CN113747447A (zh) | 基于先验知识的双动作强化学习频谱接入方法和系统 | |
CN114423046A (zh) | 一种协同通信干扰决策方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240730 Address after: 310018 No. 2 street, Xiasha Higher Education Zone, Hangzhou, Zhejiang Patentee after: HANGZHOU DIANZI University Country or region after: China Patentee after: the 36th Research Institute of CETC Address before: 310018 No. 2 street, Xiasha Higher Education Zone, Hangzhou, Zhejiang Patentee before: HANGZHOU DIANZI University Country or region before: China |