CN113411099A - 一种基于pper-dqn的双变跳频图案智能决策方法 - Google Patents

一种基于pper-dqn的双变跳频图案智能决策方法 Download PDF

Info

Publication number
CN113411099A
CN113411099A CN202110593616.4A CN202110593616A CN113411099A CN 113411099 A CN113411099 A CN 113411099A CN 202110593616 A CN202110593616 A CN 202110593616A CN 113411099 A CN113411099 A CN 113411099A
Authority
CN
China
Prior art keywords
network
samples
sample
priority
pareto
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110593616.4A
Other languages
English (en)
Other versions
CN113411099B (zh
Inventor
朱家晟
赵知劲
李春
岳克强
姜明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202110593616.4A priority Critical patent/CN113411099B/zh
Publication of CN113411099A publication Critical patent/CN113411099A/zh
Application granted granted Critical
Publication of CN113411099B publication Critical patent/CN113411099B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/69Spread spectrum techniques
    • H04B1/713Spread spectrum techniques using frequency hopping
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/69Spread spectrum techniques
    • H04B1/713Spread spectrum techniques using frequency hopping
    • H04B1/715Interference-related aspects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/69Spread spectrum techniques
    • H04B1/713Spread spectrum techniques using frequency hopping
    • H04B1/715Interference-related aspects
    • H04B2001/7154Interference-related aspects with means for preventing interference

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于PPER‑DQN的双变跳频图案智能决策方法。针对待优化的双变跳频图案的主要参数,设计了相应的系统模型、状态‑动作空间和奖励函数,采用DQN算法进行决策,使用户的使用频段能出现在可用频段内的任意位置,从而提高跳频图案的灵活性。根据Pareto支配的定义提出以样本的时序差分误差和立即奖励为依据的样本优先经验回放技术,以提高样本利用率和经验回放效率。使用Pareto样本集和随机采样的样本形成训练集,以保证训练集样本多样性。本发明方法有效提高了经验回放效率和收敛速度,产生的双变跳频图案较常规跳频图案性能更优。

Description

一种基于PPER-DQN的双变跳频图案智能决策方法
技术领域
本发明属于跳频通信中智能抗干扰决策领域,特别涉及一种利用结合了优先经验回放方法和Pareto理论的深度Q网络(Deep QNetwork,DQN)对双变跳频图案进行参数调整的智能抗干扰决策方法。
背景技术
较传统通信系统,跳频通信系统具有跳频频率集、跳频速率等对系统性能影响极大的参数。根据这些参数,用户能实现通信过程中的频率跳变,从而达到抗干扰和抗截获的目的。但是,传统跳频通信中的参数并不会随着环境变化,这导致在日益复杂的电磁环境和逐渐智能化的人为干扰的影响下,其优势难以体现。
性能优异的跳频图案能有效规避干扰,显著提高抗干扰性能,提高用户的通信质量。目前关于跳频图案的研究大多是先进行频谱感知,再在未被干扰的频段设计跳频图案,且设计重点集中于各种伪随机序列及其改进和加密方面。然而,在复杂电磁环境中,无法保证时刻进行准确地感知且未被干扰的频段较少,这将极大程度的限制跳频图案的性能。有研究表明变跳速、变间隔跳频通信技术增加了干扰方信号分析的难度,可有效提高系统抗跟踪干扰、梳状干扰、阻塞干扰和抗截获的能力,同时还具备与频率自适应、功率自适应等技术结合的潜力,从而进一步提升抗干扰能力。由此可见,跳频图案参数智能决策对提升跳频通信系统的抗干扰性能具有重要意义。
Q-Learning通过Agent与环境不断进行交互和学习能够得到最佳的决策。然而,其存在维数爆炸的问题,深度Q网络算法(Deep Q-Network,DQN)则有效弥补了该缺陷,且目前已被广泛应用在各种大规模复杂环境的决策问题中。另外,由于DQN不需要干扰环境的先验知识,故适合在复杂电磁环境下使用。为更有效地减小Agent与环境交互的代价,提高样本利用率和经验回放的效率,优先经验回放法(Prioritized Experience Replay,PER)被用于改进DQN算法。其根据经验池中样本的TD-error为样本赋予不同的优先度,并按与优先级成正比的概率进行采样,从而提高了样本集的质量和算法效率。
发明内容
本发明针对现有智能抗干扰决策问题的局限性,综合考虑调整跳频系统中跳频图案的跳速和信道划分间隔,以产生双变跳频图案,达到在复杂电磁环境中对抗干扰,提高通信质量的目的。因此,本发明提出了一种基于PPER-DQN的双变跳频图案智能决策方法,提高决策效率,产生的双变跳频图案,其较常规跳频图案性能更优。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1、根据感知到的频谱状态,估计干扰的主要参数,预测未来短时间Δ内的频谱状态。
步骤2、初始化估值Q网络、目标Q网络、经验池和Sumtree存储结构,设置网络的学习率lr、目标Q网络的更新周期Ttar、采样样本数量M、折扣因子γ、参数α、β、λ、η、ξ、z、G以及总训练回合数
Figure BDA0003090402980000021
随机初始化状态s0
步骤3、对于当前状态st,根据动作选择策略及估值Q网络选择最佳动作at并执行,得到下一状态st+1,代入奖赏函数计算立即奖励rt
步骤4、判断st+1是否满足终止该训练回合的条件,将样本按当前状态st、动作at、下一状态st+1、立即奖励rt、是否满足结束条件的形式存入经验池,赋予当前经验池最大优先级并更新Sumtree。
步骤5、当经验池未被填满时,跳转至步骤11,否则,继续执行。
步骤6、若迭代次数t达到目标Q网络更新周期Ttar则更新估值Q网络,否则不更新。
步骤7、采用基于Pareto样本的优先经验回放方法,根据存储时长计算置信度并调整样本优先度,从经验池中筛选Pareto样本,利用Sumtree结构根据优先级pi分别从Pareto样本集和非Pareto样本集采集样本形成训练集。
步骤8、根据估值Q网络、目标Q网络分别计算训练集样本的TD-error、优先度pi和目标值yi。再进一步计算各个样本的采样概率Pi'、重要性采样权重wi和网络的损失函数L(θval)并通过神经网络的梯度反向传播更新估值Q网络的参数θval
步骤9、更新训练集样本的TD-error、经验池样本的优先级和Sumtree。
步骤10、更新状态,st←st+1
步骤11、若网络训练回合数达到
Figure BDA0003090402980000031
则结束算法,否则,返回步骤3。
步骤1具体方法如下:
根据频谱感知的结果确定干扰的类型并估计其主要参数,假设未来Δ时间内干扰的状态参数不变,建立干扰环境频谱瀑布图。
步骤2具体方法如下:
DQN对Q-Learning进行的其中部分改进如下:
(1)使用深度神经网络模型代替Q表格拟合状态-动作函数,避免维数爆炸导致的计算量过大和计算效率低下的问题。
(2)经验回放:建立经验池用于存放Agent产生的样本经验,并在每次迭代中从经验池均匀随机采样一部分经验用于训练网络,通过随机采样的方式保证样本之间的独立性,提高网络训练的效率。
Agent根据自身的状态st使用估值Q网络选择执行的动作at,从而从环境中获得立即奖赏rt并转移至下一状态st+1。Agent将每次和环境交互产生的样本存入经验池,在训练估值Q网络时从其中采样形成训练集。目标Q网络将帮助估值Q网络计算损失函数,用于更新估值Q网络的参数,而估值Q网络会定期将其参数赋值给前者,以实现目标Q网络的更新。
由此,初始化估值Q网络,其权重为服从均值为0、方差为0.1的高斯分布的随机数,将估值Q网络的参数赋予目标Q网络,完成目标Q网络的初始化,初始化经验池和Sumtree存储结构,设置网络的学习率lr、目标Q网络的更新周期Ttar、单次采样样本数量M、折扣因子γ、其他参数α、β、λ、η、ξ、z、G以及总训练回合数T,随机初始化状态s0
步骤3具体方法如下:
引入非线性因素,采用如式(1)和(2)所示的动作选择策略。
Figure BDA0003090402980000041
Figure BDA0003090402980000042
其中,π(st)为在第t次迭代中Agent在状态st下选择的最佳动作,arandom为随机选择的动作,rand∈[0,1]为随机数,λ用于控制ε下降的速率,
Figure BDA0003090402980000048
为网络当前训练的回合数,
Figure BDA0003090402980000047
为网络总训练回合数。
定义Agent的状态st为频率集,动作at为跳速V和信道划分间隔D的联合分配。为实现最大化信干噪比的目标将奖励函数定义为该跳中Agent获得的信干噪比。
Figure BDA0003090402980000043
其中,rt为第t次迭代中获得的立即奖励,
Figure BDA0003090402980000044
为信号传输功率,Jt和n0为第t次迭代中Agent受到的干扰功率和高斯白噪声,是由多种干扰的共同影响造成的,Ji(f)和fi J为第i种干扰的功率谱密度函数和干扰中心频率,n0(f)高斯白噪声的功率密度函数。
将当前状态st作为估值Q网络的输入,输出各动作的Q值,再根据式(1)和(2)选择动作并执行,获得下一状态st+1。根据当前状态、执行的动作和干扰环境,计算立即奖励rt
步骤7具体方法如下:
使用TD-error作为评判优先级的标准,其形式如式(4)所示。
Figure BDA0003090402980000045
其中,
Figure BDA0003090402980000046
为在第t次迭代中产生的第i样本的TD-error;rt为在第t次迭代中Agent处于状态st并执行动作at得到的立即奖励;γ为折扣因子,代表对未来奖励的重视程度;Q(st,at;θval)和Q(st,at;θtar)分别为通过估值Q网络和目标Q网络得到的Q值,θval和θtar分别为两个网络的参数。δt i越接近0代表网络预测精度的上升空间越小,回放该样本对网络的提升越小;反之,回放该样本的收益越大,越值得被回放。更多地回放δt i远离0的样本将能提高网络训练的效率,使算法更容易收敛。
在式(4)基础上,优先级定义为基于TD-error的优先级形式如式(5)所示,样本采样概率则如式(6)所示。
Figure BDA0003090402980000051
Figure BDA0003090402980000052
其中,pi为第i个样本的优先度;σ为一个在设定阈值内的正数;α为用于控制优先度使用程度的系数,取值范围为[0,1],当α=1时表示采用均匀随机采样;Pi为根据优先级得到的第i个样本被采样的概率;N为经验池容量。
在进行经验回放时同时考虑TD-error和立即奖励,进一步提高训练集的优越性和学习价值,从而提高算法性能和收敛速度。
为更高效地采样,引出如下定义:
定义1 Pareto支配(Pareto Dominance):有样本e1及样本e2,当且仅当所有的fu(e1)都优于fu(e2),u=1,2,…,U时,称e2受e1的支配,否则e1和e2互不支配。其中fu(·)表示样本的第u个性能函数。
根据上述定义提出基于Pareto样本的优先经验回放。该方法中根据Pareto支配的定义从立即奖励和TD-error两个方面在经验池中筛选Pareto样本。将频谱划分为G段,在处于同一分段内的样本中选择Pareto样本,从而保障Pareto样本集能包含各个频段的样本。
针对在经验池中存储时间过长的样本可信度下降的问题,引入置信度参数衡量样本。判断支配关系时,对如式(7)所示的置信度参数归一化,用其调整样本的优先级。
Figure BDA0003090402980000053
其中,μ为置信度参数,tstore为样本在经验池中的存储时长,μ将随着tstore的增长先缓慢下降,再快速下降,最后趋于平稳,ξ用于控制μ随存储时长开始快速下降的转折点,z用于控制下降的速率。
为提高采样效率,采用Sumtree结构存储样本和完成采样。
步骤8具体方法如下:
由于优先级高的样本容易被采样并频繁回放,从而导致训练样本多样性下降,网络容易过拟合,故通过重要性采样权重来纠正。式(8)为基于TD-error的优先级对应的重要性采样权重,式(9)为用于网络参数训练的目标值,式(10)为经过纠正的网络损失函数。
wi=(NPi) (8)
Figure BDA0003090402980000061
L(θval)=∑iwi(yi-Q(st,at;θval))2 (10)
其中,wi为第i个样本对应的重要性采样权重,β为表示纠正程度的参数,yi为由第i个样本得到的网络目标值,ri为第i个样本的立即奖励,Q(st+1,at;θtar)和Q(st,at;θval)分别表示第i个样本的目标Q值和估计Q值。
为保障训练集的多样性,避免网络过拟合,训练集中η%的样本来自Pareto样本集,其余样本来自非Pareto样本。由于Pareto样本被采样的概率远大于非Pareto样本,故对式(8)改进,当样本为Pareto样本时为其赋予当前经验池中最大的优先级,否则,使用原有的优先级。改进后的重要性采样权重如式(11)和(12)所示。
wi=(NPi') (11)
Figure BDA0003090402980000062
本发明的有益效果是:
1、为使用户可占用频段能出现在任意位置,提高跳频图案的灵活性和频谱利用率,采用DQN算法进行决策。
2、采用优先经验回放方法改进DQN算法,根据经验池中样本的TD-error为样本赋予不同的优先度,并按与优先级成正比的概率进行采样,从而提高样本集的质量和经验回放效率。由于按一定的概率从经验池采样将极大的消耗计算资源,影响算法整体效率,故采用Sumtree结构存储样本,降低经验回放过程的时间复杂度。
3、考虑到从累计奖励大的序列中能采样得到更多的有效动作,使DQN更快的达到最佳策略,在进行经验回放时同时考虑TD-error和立即奖励。根据Pareto支配的定义,先以TD-error和立即奖励为标准筛选Pareto样本集,再进行样本采样。另外,为保障训练集的多样性,避免网络过拟合,训练集中η%的样本来自Pareto样本集,其余样本来自非Pareto样本。由此,进一步提高训练集的优越性和学习价值,保障其多样性,提高算法性能和收敛速度。
4、针对经验池中过旧样本可信度低的问题,引入置信度参数,衡量Pareto样本的可信度,降低优先级高但可信度低的样本被选中的概率,提高训练集样本整体的质量。
5、重新设计状态-动作空间和奖赏函数,使Agent能以最大化通信过程中的信干噪比为目标进行学习。
附图说明
图1为本发明实施例的干扰环境频谱瀑布图;
图2为本发明实施例的DQN结构示意图;
图3为本发明实施例的Sumtree结构示意图。
具体实施方式
下面进一步详细说明本发明的实施步骤。
一种基于PPER-DQN的双变跳频图案智能决策方法,具体包括如下步骤:
步骤1、根据感知到的频谱状态,估计干扰的主要参数,预测未来短时间Δ内的频谱状态,具体如下:
根据频谱感知的结果确定干扰的类型并估计其主要参数,假设未来Δ时间内干扰的状态参数不变,建立如图1所示例的干扰环境频谱瀑布图。
步骤2、初始化估值Q网络、目标Q网络、经验池和Sumtree存储结构,设置网络的学习率lr、目标Q网络的更新周期Ttar、采样样本数量M、折扣因子γ、参数α、β、λ、η、ξ、z、G以及总训练回合数
Figure BDA0003090402980000071
随机初始化状态s0,具体如下:
DQN作为最常用的深度强化学习算法,对Q-Learning进行的其中部分改进如下:
(1)使用深度神经网络模型代替Q表格拟合状态-动作函数,避免维数爆炸导致的计算量过大和计算效率低下的问题。
(2)经验回放:建立经验池用于存放Agent产生的样本经验,并在每次迭代中从经验池均匀随机采样一部分经验用于训练网络,通过随机采样的方式保证样本之间的独立性,提高网络训练的效率。
相应的,DQN的结构如图2所示:
Agent根据自身的状态st使用估值Q网络选择执行的动作at,从而从环境中获得立即奖赏rt并转移至下一状态st+1。Agent将每次和环境交互产生的样本存入经验池,在训练估值Q网络时从其中采样形成训练集。目标Q网络将帮助估值Q网络计算损失函数,用于更新估值Q网络的参数,而估值Q网络会定期将其参数赋值给前者,以实现目标Q网络的更新。
由此,初始化估值Q网络,其权重为服从均值为0、方差为0.1的高斯分布的随机数,将估值Q网络的参数赋予目标Q网络,完成目标Q网络的初始化,初始化经验池和Sumtree存储结构,设置网络的学习率lr、目标Q网络的更新周期Ttar、单次采样样本数量M、折扣因子γ、其他参数α、β、λ、η、ξ、z、G以及总训练回合数
Figure BDA0003090402980000082
随机初始化状态s0
步骤3、对于当前状态st,根据动作选择策略及估值Q网络选择最佳动作at并执行,得到下一状态st+1,代入奖赏函数计算立即奖励rt,具体如下:
DQN中常用的动作选择策略是基于ε-greedy机制的。选择动作时,先产生一个随机数,当该随机数小于ε时,Agent随机选择一个动作作为最佳动作并执行,否则,Agent将比较各个动作的Q值选择其中最大的作为最佳动作并执行。由于常规的基于ε-greedy机制的动作选择策略的参数ε是固定的或随迭代次数线性下降的,在迭代中后期Agent仍有一定几率选择随机动作并执行,这增大了算法收敛的难度。
对此,引入非线性因素,采用如式(1)和(2)所示的动作选择策略。
Figure BDA0003090402980000081
Figure BDA0003090402980000091
其中,π(st)为在第t次迭代中Agent在状态st下选择的最佳动作,arandom为随机选择的动作,rand∈[0,1]为随机数,λ用于控制ε下降的速率,
Figure BDA0003090402980000095
为网络当前训练的回合数,
Figure BDA0003090402980000092
为网络总训练回合数。该策略能保证ε在训练初期保持较大值,使Agent积极进行探索,随后ε快速下降,使Agent更重视利用。
定义Agent的状态st为频率集,动作at为跳速V和信道划分间隔D的联合分配。为实现最大化信干噪比的目标将奖励函数定义为该跳中Agent获得的信干噪比。
Figure BDA0003090402980000093
其中,rt为第t次迭代中获得的立即奖励,
Figure BDA0003090402980000094
为信号传输功率,Jt和n0为第t次迭代中Agent受到的干扰功率和高斯白噪声,是由多种干扰的共同影响造成的,Ji(f)和fi J为第i种干扰的功率谱密度函数和干扰中心频率,n0(f)高斯白噪声的功率密度函数。
将当前状态st作为估值Q网络的输入,输出各动作的Q值,再根据式(1)和(2)选择动作并执行,获得下一状态st+1。根据当前状态、执行的动作和干扰环境,计算立即奖励rt
步骤4、判断st+1是否满足终止该训练回合的条件,将样本按当前状态st、动作at、下一状态st+1、立即奖励rt、是否满足结束条件的形式存入经验池,赋予当前经验池最大优先级并更新Sumtree。
步骤5、当经验池未被填满时,跳转至步骤11,否则,继续执行,具体如下:
若当前经验池尚未填满,则不满足网络学习条件,直接跳转至步骤11;否则,满足网络学习条件,进行下述的网络学习步骤。
步骤6、若迭代次数t达到目标Q网络更新周期Ttar则更新估值Q网络,否则不更新,具体如下;
DQN作为最常用的深度强化学习算法,对Q-Learning进行的其中一方面改进为采用双网络结构:
分别建立估值Q网络和目标Q网络,用于动作选择和计算目标Q值。通过每更新数次估值Q网络,再将其参数赋值给目标Q网络的方式,使目标Q网络的更新滞后于估值Q网络,以此提高算法的稳定性。
当迭代次数t达到目标Q网络更新周期Ttar时,将估值Q网络的参数赋值给目标Q网络,以实现目标Q网络的更新。
步骤7、采用基于Pareto样本的优先经验回放方法,根据存储时长计算置信度并调整样本优先度,从经验池中筛选Pareto样本,利用Sumtree结构根据优先级pi分别从Pareto样本集和非Pareto样本集采集样本形成训练集,具体如下:
优先经验回放技术能为样本赋予优先级并根据优先级确定该样本被采样的概率,较传统经验回放技术的均匀随机采样方式能提高训练集总体的优越性。该技术的关键是如何判断样本的重要性。通常使用TD-error作为评判优先级的标准,其形式如式(4)所示。
Figure BDA0003090402980000101
其中,
Figure BDA0003090402980000102
为在第t次迭代中产生的第i样本的TD-error;rt为在第t次迭代中Agent处于状态st并执行动作at得到的立即奖励;γ为折扣因子,代表对未来奖励的重视程度;Q(st,at;θval)和Q(st,at;θtar)分别为通过估值Q网络和目标Q网络得到的Q值,θval和θtar分别为两个网络的参数。δt i越接近0代表网络预测精度的上升空间越小,回放该样本对网络的提升越小;反之,回放该样本的收益越大,越值得被回放。更多地回放δt i远离0的样本将能提高网络训练的效率,使算法更容易收敛。
在式(4)基础上,优先级定义为基于TD-error的优先级形式如式(5)所示,样本采样概率则如式(6)所示。
Figure BDA0003090402980000103
Figure BDA0003090402980000104
其中,pi为第i个样本的优先度;σ为一个在设定阈值内的正数,用于保证
Figure BDA0003090402980000105
很小的样本也具有一定的优先度;α为用于控制优先度使用程度的系数,取值范围为[0,1],当α=1时表示采用均匀随机采样;Pi为根据优先级得到的第i个样本被采样的概率;N为经验池容量。
样本的δt i仅代表了估计的误差,而无法判断其动作是否为该状态下的最佳动作,这导致被回放的样本中动作的优越性无法保障,从而限制了学习效果。从累计奖励大的序列中能采样得到更多的有效动作,使DQN更快的达到最佳策略。因此,应在进行经验回放时同时考虑TD-error和立即奖励,进一步提高训练集的优越性和学习价值,从而提高算法性能和收敛速度。
为更高效地采样,引出如下定义:
定义1 Pareto支配(Pareto Dominance):有样本e1及样本e2,当且仅当所有的fu(e1)都优于fu(e2),u=1,2,…,U时,称e2受e1的支配,否则e1和e2互不支配。其中fu(·)表示样本的第u个性能函数。
根据上述定义提出基于Pareto样本的优先经验回放。该方法中根据Pareto支配的定义从立即奖励和TD-error两个方面在经验池中筛选Pareto样本。考虑到不同频段受到的干扰功率不同,将处于各频段的样本一同比较对位于干扰较大频段处的样本不利,这会影响训练集的多样性和网络选择动作的优越性;所以,将频谱划分为G段,在处于同一分段内的样本中选择Pareto样本,从而保障Pareto样本集能包含各个频段的样本。
针对在经验池中存储时间过长的样本可信度下降的问题,引入置信度参数衡量样本。判断支配关系时,对如式(7)所示的置信度参数归一化,用其调整样本的优先级。
Figure BDA0003090402980000111
其中,μ为置信度参数,tstore为样本在经验池中的存储时长,μ将随着tstore的增长先缓慢下降,再快速下降,最后趋于平稳,ξ用于控制μ随存储时长开始快速下降的转折点,z用于控制下降的速率。通过为存储时长较长的样本赋予较小的置信度参数,适当降低其优先度,从而进一步降低可信度低的样本被选中用于训练网络的概率,提高训练效率。
由于按一定的概率从经验池采样将极大的消耗计算资源,影响算法整体效率,故采用如图3所示的Sumtree结构存储样本和完成采样。
通过Sumtree的存储结构,具有较大优先级的样本将更容易被采样大,且采样过程的时间复杂度低。
步骤8、根据估值Q网络、目标Q网络分别计算训练集样本的TD-error、优先度pi和目标值yi。再进一步计算各个样本的采样概率Pi'、重要性采样权重wi和网络的损失函数L(θval)并通过神经网络的梯度反向传播更新估值Q网络的参数θval,具体如下:
由于优先级高的样本容易被采样并频繁回放,从而导致训练样本多样性下降,网络容易过拟合,故通过重要性采样权重来纠正。式(8)为基于TD-error的优先级对应的重要性采样权重,式(9)为用于网络参数训练的目标值,式(10)为经过纠正的网络损失函数。
wi=(NPi) (8)
Figure BDA0003090402980000121
L(θval)=∑iwi(yi-Q(st,at;θval))2 (10)
其中,wi为第i个样本对应的重要性采样权重,β为表示纠正程度的参数,yi为由第i个样本得到的网络目标值,ri为第i个样本的立即奖励,Q(st+1,at;θtar)和Q(st,at;θval)分别表示第i个样本的目标Q值和估计Q值。
为保障训练集的多样性,避免网络过拟合,训练集中η%的样本来自Pareto样本集,其余样本来自非Pareto样本。由于Pareto样本被采样的概率远大于非Pareto样本,故对式(8)改进,当样本为Pareto样本时为其赋予当前经验池中最大的优先级,否则,使用原有的优先级。改进后的重要性采样权重如式(11)和(12)所示。
wi=(NPi') (11)
Figure BDA0003090402980000122
步骤9、更新训练集样本的TD-error、经验池样本的优先级和Sumtree,具体如下:
根据步骤8中计算的训练集样本的TD-error和优先度pi,更新训练集样本的TD-error、经验池样本的优先级和Sumtree。
步骤10、更新状态,st←st+1,具体如下:
将下一状态st+1设置为当前状态st,并继续执行。
步骤11、若网络训练回合数达到
Figure BDA0003090402980000132
则结束算法,否则,返回步骤3,具体如下:
判断当前迭代次数t是否达到总迭代次数
Figure BDA0003090402980000131
若是,则结束学习过程结束,否则返回步骤3。

Claims (6)

1.一种基于PPER-DQN的双变跳频图案智能决策方法,其特征在于,步骤如下:
步骤1、根据感知到的频谱状态,估计干扰的主要参数,预测未来短时间Δ内的频谱状态;
步骤2、初始化估值Q网络、目标Q网络、经验池和Sumtree存储结构,设置网络的学习率lr、目标Q网络的更新周期Ttar、采样样本数量M、折扣因子γ、参数α、β、λ、η、ξ、z、G以及总训练回合数T,随机初始化状态s0
步骤3、对于当前状态st,根据动作选择策略及估值Q网络选择最佳动作at并执行,得到下一状态st+1,代入奖赏函数计算立即奖励rt
步骤4、判断st+1是否满足终止该训练回合的条件,将样本按当前状态st、动作at、下一状态st+1、立即奖励rt、是否满足结束条件的形式存入经验池,赋予当前经验池最大优先级并更新Sumtree;
步骤5、当经验池未被填满时,跳转至步骤11,否则,继续执行;
步骤6、若迭代次数t达到目标Q网络更新周期Ttar则更新估值Q网络,否则不更新;
步骤7、采用基于Pareto样本的优先经验回放方法,根据存储时长计算置信度并调整样本优先度,从经验池中筛选Pareto样本,利用Sumtree结构根据优先级pi分别从Pareto样本集和非Pareto样本集采集样本形成训练集;
步骤8、根据估值Q网络、目标Q网络分别计算训练集样本的TD-error、优先度pi和目标值yi;再进一步计算各个样本的采样概率Pi'、重要性采样权重wi和网络的损失函数L(θval)并通过神经网络的梯度反向传播更新估值Q网络的参数θval
步骤9、更新训练集样本的TD-error、经验池样本的优先级和Sumtree;
步骤10、更新状态,st←st+1
步骤11、若网络训练回合数达到
Figure FDA0003090402970000011
则结束算法,否则,返回步骤3。
2.根据权利要求1所述的一种基于PPER-DQN的双变跳频图案智能决策方法,其特征在于,步骤1具体方法如下:
根据频谱感知的结果确定干扰的类型并估计其主要参数,假设未来Δ时间内干扰的状态参数不变,建立干扰环境频谱瀑布图。
3.根据权利要求2所述的一种基于PPER-DQN的双变跳频图案智能决策方法,其特征在于,步骤2具体方法如下:
DQN对Q-Learning进行的其中部分改进如下:
(1)使用深度神经网络模型代替Q表格拟合状态-动作函数,避免维数爆炸导致的计算量过大和计算效率低下的问题;
(2)经验回放:建立经验池用于存放Agent产生的样本经验,并在每次迭代中从经验池均匀随机采样一部分经验用于训练网络,通过随机采样的方式保证样本之间的独立性,提高网络训练的效率;
Agent根据自身的状态st使用估值Q网络选择执行的动作at,从而从环境中获得立即奖赏rt并转移至下一状态st+1;Agent将每次和环境交互产生的样本存入经验池,在训练估值Q网络时从其中采样形成训练集;目标Q网络将帮助估值Q网络计算损失函数,用于更新估值Q网络的参数,而估值Q网络会定期将其参数赋值给前者,以实现目标Q网络的更新;
由此,初始化估值Q网络,其权重为服从均值为0、方差为0.1的高斯分布的随机数,将估值Q网络的参数赋予目标Q网络,完成目标Q网络的初始化,初始化经验池和Sumtree存储结构,设置网络的学习率lr、目标Q网络的更新周期Ttar、单次采样样本数量M、折扣因子γ、其他参数α、β、λ、η、ξ、z、G以及总训练回合数T,随机初始化状态s0
4.根据权利要求3所述的一种基于PPER-DQN的双变跳频图案智能决策方法,其特征在于,步骤3具体方法如下:
引入非线性因素,采用如式(1)和(2)所示的动作选择策略;
Figure FDA0003090402970000021
Figure FDA0003090402970000031
其中,π(st)为在第t次迭代中Agent在状态st下选择的最佳动作,arandom为随机选择的动作,rand∈[0,1]为随机数,λ用于控制ε下降的速率,
Figure FDA0003090402970000032
为网络当前训练的回合数,
Figure FDA0003090402970000033
为网络总训练回合数;
定义Agent的状态st为频率集,动作at为跳速V和信道划分间隔D的联合分配;为实现最大化信干噪比的目标将奖励函数定义为该跳中Agent获得的信干噪比;
Figure FDA0003090402970000034
其中,rt为第t次迭代中获得的立即奖励,
Figure FDA0003090402970000035
为信号传输功率,Jt和n0为第t次迭代中Agent受到的干扰功率和高斯白噪声,是由多种干扰的共同影响造成的,Ji(f)和fi J为第i种干扰的功率谱密度函数和干扰中心频率,n0(f)高斯白噪声的功率密度函数;
将当前状态st作为估值Q网络的输入,输出各动作的Q值,再根据式(1)和(2)选择动作并执行,获得下一状态st+1;根据当前状态、执行的动作和干扰环境,计算立即奖励rt
5.根据权利要求4所述的一种基于PPER-DQN的双变跳频图案智能决策方法,其特征在于,步骤7具体方法如下:
使用TD-error作为评判优先级的标准,其形式如式(4)所示;
Figure FDA0003090402970000036
其中,
Figure FDA0003090402970000037
为在第t次迭代中产生的第i样本的TD-error;rt为在第t次迭代中Agent处于状态st并执行动作at得到的立即奖励;γ为折扣因子,代表对未来奖励的重视程度;Q(st,at;θval)和Q(st,at;θtar)分别为通过估值Q网络和目标Q网络得到的Q值,θval和θtar分别为两个网络的参数;
Figure FDA0003090402970000038
越接近0代表网络预测精度的上升空间越小,回放该样本对网络的提升越小;反之,回放该样本的收益越大,越值得被回放;更多地回放
Figure FDA0003090402970000039
远离0的样本将能提高网络训练的效率,使算法更容易收敛;
在式(4)基础上,优先级定义为基于TD-error的优先级形式如式(5)所示,样本采样概率则如式(6)所示;
Figure FDA00030904029700000310
Figure FDA0003090402970000041
其中,pi为第i个样本的优先度;σ为一个在设定阈值内的正数;α为用于控制优先度使用程度的系数,取值范围为[0,1],当α=1时表示采用均匀随机采样;Pi为根据优先级得到的第i个样本被采样的概率;N为经验池容量;
在进行经验回放时同时考虑TD-error和立即奖励,进一步提高训练集的优越性和学习价值,从而提高算法性能和收敛速度;
为更高效地采样,引出如下定义:
定义1Pareto支配(Pareto Dominance):有样本e1及样本e2,当且仅当所有的fu(e1)都优于fu(e2),u=1,2,…,U时,称e2受e1的支配,否则e1和e2互不支配;其中fu(·)表示样本的第u个性能函数;
根据上述定义提出基于Pareto样本的优先经验回放;该方法中根据Pareto支配的定义从立即奖励和TD-error两个方面在经验池中筛选Pareto样本;将频谱划分为G段,在处于同一分段内的样本中选择Pareto样本,从而保障Pareto样本集能包含各个频段的样本;
针对在经验池中存储时间过长的样本可信度下降的问题,引入置信度参数衡量样本;判断支配关系时,对如式(7)所示的置信度参数归一化,用其调整样本的优先级;
Figure FDA0003090402970000042
其中,μ为置信度参数,tstore为样本在经验池中的存储时长,μ将随着tstore的增长先缓慢下降,再快速下降,最后趋于平稳,ξ用于控制μ随存储时长开始快速下降的转折点,z用于控制下降的速率;
为提高采样效率,采用Sumtree结构存储样本和完成采样。
6.根据权利要求5所述的一种基于PPER-DQN的双变跳频图案智能决策方法,其特征在于,步骤8具体方法如下:
由于优先级高的样本容易被采样并频繁回放,从而导致训练样本多样性下降,网络容易过拟合,故通过重要性采样权重来纠正;式(8)为基于TD-error的优先级对应的重要性采样权重,式(9)为用于网络参数训练的目标值,式(10)为经过纠正的网络损失函数;
wi=(NPi) (8)
Figure FDA0003090402970000051
L(θval)=∑iwi(yi-Q(st,at;θval))2 (10)
其中,wi为第i个样本对应的重要性采样权重,β为表示纠正程度的参数,yi为由第i个样本得到的网络目标值,ri为第i个样本的立即奖励,Q(st+1,at;θtar)和Q(st,at;θval)分别表示第i个样本的目标Q值和估计Q值;
为保障训练集的多样性,避免网络过拟合,训练集中η%的样本来自Pareto样本集,其余样本来自非Pareto样本;由于Pareto样本被采样的概率远大于非Pareto样本,故对式(8)改进,当样本为Pareto样本时为其赋予当前经验池中最大的优先级,否则,使用原有的优先级;改进后的重要性采样权重如式(11)和(12)所示;
wi=(NPi') (11)
Figure FDA0003090402970000052
CN202110593616.4A 2021-05-28 2021-05-28 一种基于pper-dqn的双变跳频图案智能决策方法 Active CN113411099B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110593616.4A CN113411099B (zh) 2021-05-28 2021-05-28 一种基于pper-dqn的双变跳频图案智能决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110593616.4A CN113411099B (zh) 2021-05-28 2021-05-28 一种基于pper-dqn的双变跳频图案智能决策方法

Publications (2)

Publication Number Publication Date
CN113411099A true CN113411099A (zh) 2021-09-17
CN113411099B CN113411099B (zh) 2022-04-29

Family

ID=77675128

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110593616.4A Active CN113411099B (zh) 2021-05-28 2021-05-28 一种基于pper-dqn的双变跳频图案智能决策方法

Country Status (1)

Country Link
CN (1) CN113411099B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114613169A (zh) * 2022-04-20 2022-06-10 南京信息工程大学 一种基于双经验池dqn的交通信号灯控制方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108777872A (zh) * 2018-05-22 2018-11-09 中国人民解放军陆军工程大学 一种深度q神经网络抗干扰模型及智能抗干扰算法
CN109302262A (zh) * 2018-09-27 2019-02-01 电子科技大学 一种基于深度确定梯度强化学习的通信抗干扰方法
CN109861720A (zh) * 2019-03-15 2019-06-07 中国科学院上海高等研究院 基于强化学习的wsn抗干扰方法、装置、设备和介质
CN110190918A (zh) * 2019-04-25 2019-08-30 广西大学 基于深度q学习的认知无线传感器网络频谱接入方法
US20190339702A1 (en) * 2018-05-01 2019-11-07 Honda Motor Co., Ltd. Systems and methods for generating instructions for navigating intersections with autonomous vehicles
CN110919659A (zh) * 2019-12-24 2020-03-27 哈尔滨工程大学 一种基于ddgpes的机器人控制方法
CN111010207A (zh) * 2019-12-05 2020-04-14 北京邮电大学 一种基于量化相关性的跳频方法及装置
CN111182549A (zh) * 2020-01-03 2020-05-19 广州大学 一种基于深度强化学习的抗干扰无线通信方法
US20200243094A1 (en) * 2018-12-04 2020-07-30 Sorenson Ip Holdings, Llc Switching between speech recognition systems
CN112198870A (zh) * 2020-06-01 2021-01-08 西北工业大学 基于ddqn的无人机自主引导机动决策方法
CN112543038A (zh) * 2020-11-02 2021-03-23 杭州电子科技大学 基于haql-pso的跳频系统智能抗干扰决策方法
CN112800545A (zh) * 2021-01-28 2021-05-14 中国地质大学(武汉) 基于d3qn的无人船自适应路径规划方法、设备及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190339702A1 (en) * 2018-05-01 2019-11-07 Honda Motor Co., Ltd. Systems and methods for generating instructions for navigating intersections with autonomous vehicles
CN108777872A (zh) * 2018-05-22 2018-11-09 中国人民解放军陆军工程大学 一种深度q神经网络抗干扰模型及智能抗干扰算法
CN109302262A (zh) * 2018-09-27 2019-02-01 电子科技大学 一种基于深度确定梯度强化学习的通信抗干扰方法
US20200243094A1 (en) * 2018-12-04 2020-07-30 Sorenson Ip Holdings, Llc Switching between speech recognition systems
CN109861720A (zh) * 2019-03-15 2019-06-07 中国科学院上海高等研究院 基于强化学习的wsn抗干扰方法、装置、设备和介质
CN110190918A (zh) * 2019-04-25 2019-08-30 广西大学 基于深度q学习的认知无线传感器网络频谱接入方法
CN111010207A (zh) * 2019-12-05 2020-04-14 北京邮电大学 一种基于量化相关性的跳频方法及装置
CN110919659A (zh) * 2019-12-24 2020-03-27 哈尔滨工程大学 一种基于ddgpes的机器人控制方法
CN111182549A (zh) * 2020-01-03 2020-05-19 广州大学 一种基于深度强化学习的抗干扰无线通信方法
CN112198870A (zh) * 2020-06-01 2021-01-08 西北工业大学 基于ddqn的无人机自主引导机动决策方法
CN112543038A (zh) * 2020-11-02 2021-03-23 杭州电子科技大学 基于haql-pso的跳频系统智能抗干扰决策方法
CN112800545A (zh) * 2021-01-28 2021-05-14 中国地质大学(武汉) 基于d3qn的无人船自适应路径规划方法、设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LI KANG.ETC: "《Reinforcement Learning based Anti-jamming Frequency Hopping Strategies Design for Cognitive Radar》", 《 2018 IEEE INTERNATIONAL CONFERENCE ON SIGNAL PROCESSING, COMMUNICATIONS AND COMPUTING (ICSPCC)》 *
姚瑶等: "一种跳频信号网台分选方法", 《杭州电子科技大学学报》 *
朱家晟: "《基于混沌BPSO的多目标优化频谱切换算法》", 《杭州电子科技大学学报(自然科学版)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114613169A (zh) * 2022-04-20 2022-06-10 南京信息工程大学 一种基于双经验池dqn的交通信号灯控制方法
CN114613169B (zh) * 2022-04-20 2023-02-28 南京信息工程大学 一种基于双经验池dqn的交通信号灯控制方法

Also Published As

Publication number Publication date
CN113411099B (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
Raj et al. Spectrum access in cognitive radio using a two-stage reinforcement learning approach
CN112543038B (zh) 基于haql-pso的跳频系统智能抗干扰决策方法
CN108712748B (zh) 一种基于强化学习的认知无线电抗干扰智能决策的方法
CN110190918B (zh) 基于深度q学习的认知无线传感器网络频谱接入方法
CN111461321A (zh) 基于Double DQN的改进深度强化学习方法及系统
Zhang et al. Power control algorithm in cognitive radio system based on modified shuffled frog leaping algorithm
CN113411099B (zh) 一种基于pper-dqn的双变跳频图案智能决策方法
Lu et al. Dynamic channel access and power control in wireless interference networks via multi-agent deep reinforcement learning
CN114641076A (zh) 一种超密集网络中基于动态用户满意度的边缘计算卸载方法
CN115454141A (zh) 一种基于部分可观测信息的无人机集群多智能体多域抗干扰方法
Zhou et al. Deep deterministic policy gradient with prioritized sampling for power control
CN111832817A (zh) 基于mcp罚函数的小世界回声状态网络时间序列预测方法
Cini et al. Deep reinforcement learning with weighted Q-Learning
Jiang et al. Action candidate based clipped double q-learning for discrete and continuous action tasks
CN114727316A (zh) 一种基于深度确定性策略的物联网传输方法以及装置
CN114051252A (zh) 无线接入网中多用户智能发射功率控制方法
CN113824469B (zh) 基于mfdrl-ctde的跳频组网智能抗干扰决策方法
CN116073856A (zh) 一种基于深度确定性策略的跳频智能抗干扰决策方法
Song et al. Federated dynamic spectrum access through multi-agent deep reinforcement learning
CN112308195B (zh) 模拟局部代价来求解DCOPs的方法
Sheng et al. Sensing-transmission tradeoff for multimedia transmission in cognitive radio networks
CN116669068A (zh) 一种基于gcn的时延业务端到端切片部署方法及系统
CN112996118B (zh) Noma下行链路用户配对方法和存储介质
Yang et al. QoE-based MEC-assisted predictive adaptive video streaming for on-road driving scenarios
CN113890653B (zh) 面向多用户利益的多智能体强化学习功率分配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant