CN113411099A

CN113411099A - 一种基于pper-dqn的双变跳频图案智能决策方法

Info

Publication number: CN113411099A
Application number: CN202110593616.4A
Authority: CN
Inventors: 朱家晟; 赵知劲; 李春; 岳克强; 姜明
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2021-09-17
Anticipated expiration: 2041-05-28
Also published as: CN113411099B

Abstract

本发明公开了一种基于PPER‑DQN的双变跳频图案智能决策方法。针对待优化的双变跳频图案的主要参数，设计了相应的系统模型、状态‑动作空间和奖励函数，采用DQN算法进行决策，使用户的使用频段能出现在可用频段内的任意位置，从而提高跳频图案的灵活性。根据Pareto支配的定义提出以样本的时序差分误差和立即奖励为依据的样本优先经验回放技术，以提高样本利用率和经验回放效率。使用Pareto样本集和随机采样的样本形成训练集，以保证训练集样本多样性。本发明方法有效提高了经验回放效率和收敛速度，产生的双变跳频图案较常规跳频图案性能更优。

Description

一种基于PPER-DQN的双变跳频图案智能决策方法

技术领域

本发明属于跳频通信中智能抗干扰决策领域，特别涉及一种利用结合了优先经验回放方法和Pareto理论的深度Q网络(Deep QNetwork，DQN)对双变跳频图案进行参数调整的智能抗干扰决策方法。

背景技术

较传统通信系统，跳频通信系统具有跳频频率集、跳频速率等对系统性能影响极大的参数。根据这些参数，用户能实现通信过程中的频率跳变，从而达到抗干扰和抗截获的目的。但是，传统跳频通信中的参数并不会随着环境变化，这导致在日益复杂的电磁环境和逐渐智能化的人为干扰的影响下，其优势难以体现。

性能优异的跳频图案能有效规避干扰，显著提高抗干扰性能，提高用户的通信质量。目前关于跳频图案的研究大多是先进行频谱感知，再在未被干扰的频段设计跳频图案，且设计重点集中于各种伪随机序列及其改进和加密方面。然而，在复杂电磁环境中，无法保证时刻进行准确地感知且未被干扰的频段较少，这将极大程度的限制跳频图案的性能。有研究表明变跳速、变间隔跳频通信技术增加了干扰方信号分析的难度，可有效提高系统抗跟踪干扰、梳状干扰、阻塞干扰和抗截获的能力，同时还具备与频率自适应、功率自适应等技术结合的潜力，从而进一步提升抗干扰能力。由此可见，跳频图案参数智能决策对提升跳频通信系统的抗干扰性能具有重要意义。

Q-Learning通过Agent与环境不断进行交互和学习能够得到最佳的决策。然而，其存在维数爆炸的问题，深度Q网络算法(Deep Q-Network，DQN)则有效弥补了该缺陷，且目前已被广泛应用在各种大规模复杂环境的决策问题中。另外，由于DQN不需要干扰环境的先验知识，故适合在复杂电磁环境下使用。为更有效地减小Agent与环境交互的代价，提高样本利用率和经验回放的效率，优先经验回放法(Prioritized Experience Replay，PER)被用于改进DQN算法。其根据经验池中样本的TD-error为样本赋予不同的优先度，并按与优先级成正比的概率进行采样，从而提高了样本集的质量和算法效率。

发明内容

本发明针对现有智能抗干扰决策问题的局限性，综合考虑调整跳频系统中跳频图案的跳速和信道划分间隔，以产生双变跳频图案，达到在复杂电磁环境中对抗干扰，提高通信质量的目的。因此，本发明提出了一种基于PPER-DQN的双变跳频图案智能决策方法，提高决策效率，产生的双变跳频图案，其较常规跳频图案性能更优。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1、根据感知到的频谱状态，估计干扰的主要参数，预测未来短时间Δ内的频谱状态。

步骤2、初始化估值Q网络、目标Q网络、经验池和Sumtree存储结构，设置网络的学习率l_r、目标Q网络的更新周期T_tar、采样样本数量M、折扣因子γ、参数α、β、λ、η、ξ、z、G以及总训练回合数

随机初始化状态s₀。

步骤3、对于当前状态s_t，根据动作选择策略及估值Q网络选择最佳动作a_t并执行，得到下一状态s_t+1，代入奖赏函数计算立即奖励r_t。

步骤4、判断s_t+1是否满足终止该训练回合的条件，将样本按当前状态s_t、动作a_t、下一状态s_t+1、立即奖励r_t、是否满足结束条件的形式存入经验池，赋予当前经验池最大优先级并更新Sumtree。

步骤5、当经验池未被填满时，跳转至步骤11，否则，继续执行。

步骤6、若迭代次数t达到目标Q网络更新周期T_tar则更新估值Q网络，否则不更新。

步骤7、采用基于Pareto样本的优先经验回放方法，根据存储时长计算置信度并调整样本优先度，从经验池中筛选Pareto样本，利用Sumtree结构根据优先级p_i分别从Pareto样本集和非Pareto样本集采集样本形成训练集。

步骤8、根据估值Q网络、目标Q网络分别计算训练集样本的TD-error、优先度p_i和目标值y_i。再进一步计算各个样本的采样概率P_i'、重要性采样权重w_i和网络的损失函数L(θ_val)并通过神经网络的梯度反向传播更新估值Q网络的参数θ_val。

步骤9、更新训练集样本的TD-error、经验池样本的优先级和Sumtree。

步骤10、更新状态，s_t←s_t+1。

步骤11、若网络训练回合数达到

则结束算法，否则，返回步骤3。

步骤1具体方法如下：

根据频谱感知的结果确定干扰的类型并估计其主要参数，假设未来Δ时间内干扰的状态参数不变，建立干扰环境频谱瀑布图。

步骤2具体方法如下：

DQN对Q-Learning进行的其中部分改进如下：

(1)使用深度神经网络模型代替Q表格拟合状态-动作函数，避免维数爆炸导致的计算量过大和计算效率低下的问题。

(2)经验回放：建立经验池用于存放Agent产生的样本经验，并在每次迭代中从经验池均匀随机采样一部分经验用于训练网络，通过随机采样的方式保证样本之间的独立性，提高网络训练的效率。

Agent根据自身的状态s_t使用估值Q网络选择执行的动作a_t，从而从环境中获得立即奖赏r_t并转移至下一状态s_t+1。Agent将每次和环境交互产生的样本存入经验池，在训练估值Q网络时从其中采样形成训练集。目标Q网络将帮助估值Q网络计算损失函数，用于更新估值Q网络的参数，而估值Q网络会定期将其参数赋值给前者，以实现目标Q网络的更新。

由此，初始化估值Q网络，其权重为服从均值为0、方差为0.1的高斯分布的随机数，将估值Q网络的参数赋予目标Q网络，完成目标Q网络的初始化，初始化经验池和Sumtree存储结构，设置网络的学习率l_r、目标Q网络的更新周期T_tar、单次采样样本数量M、折扣因子γ、其他参数α、β、λ、η、ξ、z、G以及总训练回合数T，随机初始化状态s₀。

步骤3具体方法如下：

引入非线性因素，采用如式(1)和(2)所示的动作选择策略。

其中，π(s_t)为在第t次迭代中Agent在状态s_t下选择的最佳动作，a_random为随机选择的动作，rand∈[0，1]为随机数，λ用于控制ε下降的速率，

为网络当前训练的回合数，

为网络总训练回合数。

定义Agent的状态s_t为频率集，动作a_t为跳速V和信道划分间隔D的联合分配。为实现最大化信干噪比的目标将奖励函数定义为该跳中Agent获得的信干噪比。

其中，r_t为第t次迭代中获得的立即奖励，

为信号传输功率，J_t和n₀为第t次迭代中Agent受到的干扰功率和高斯白噪声，是由多种干扰的共同影响造成的，J_i(f)和f_i ^J为第i种干扰的功率谱密度函数和干扰中心频率，n₀(f)高斯白噪声的功率密度函数。

将当前状态s_t作为估值Q网络的输入，输出各动作的Q值，再根据式(1)和(2)选择动作并执行，获得下一状态s_t+1。根据当前状态、执行的动作和干扰环境，计算立即奖励r_t。

步骤7具体方法如下：

使用TD-error作为评判优先级的标准，其形式如式(4)所示。

其中，

为在第t次迭代中产生的第i样本的TD-error；r_t为在第t次迭代中Agent处于状态s_t并执行动作a_t得到的立即奖励；γ为折扣因子，代表对未来奖励的重视程度；Q(s_t,a_t；θ_val)和Q(s_t,a_t；θ_tar)分别为通过估值Q网络和目标Q网络得到的Q值，θ_val和θ_tar分别为两个网络的参数。δ_t ⁱ越接近0代表网络预测精度的上升空间越小，回放该样本对网络的提升越小；反之，回放该样本的收益越大，越值得被回放。更多地回放δ_t ⁱ远离0的样本将能提高网络训练的效率，使算法更容易收敛。

在式(4)基础上，优先级定义为基于TD-error的优先级形式如式(5)所示，样本采样概率则如式(6)所示。

其中，p_i为第i个样本的优先度；σ为一个在设定阈值内的正数；α为用于控制优先度使用程度的系数，取值范围为[0,1]，当α＝1时表示采用均匀随机采样；P_i为根据优先级得到的第i个样本被采样的概率；N为经验池容量。

在进行经验回放时同时考虑TD-error和立即奖励，进一步提高训练集的优越性和学习价值，从而提高算法性能和收敛速度。

为更高效地采样，引出如下定义：

定义1 Pareto支配(Pareto Dominance)：有样本e₁及样本e₂，当且仅当所有的f_u(e₁)都优于f_u(e₂),u＝1,2,…,U时，称e₂受e₁的支配，否则e₁和e₂互不支配。其中f_u(·)表示样本的第u个性能函数。

根据上述定义提出基于Pareto样本的优先经验回放。该方法中根据Pareto支配的定义从立即奖励和TD-error两个方面在经验池中筛选Pareto样本。将频谱划分为G段，在处于同一分段内的样本中选择Pareto样本，从而保障Pareto样本集能包含各个频段的样本。

针对在经验池中存储时间过长的样本可信度下降的问题，引入置信度参数衡量样本。判断支配关系时，对如式(7)所示的置信度参数归一化，用其调整样本的优先级。

其中，μ为置信度参数，t_store为样本在经验池中的存储时长，μ将随着t_store的增长先缓慢下降，再快速下降，最后趋于平稳，ξ用于控制μ随存储时长开始快速下降的转折点，z用于控制下降的速率。

为提高采样效率，采用Sumtree结构存储样本和完成采样。

步骤8具体方法如下：

由于优先级高的样本容易被采样并频繁回放，从而导致训练样本多样性下降，网络容易过拟合，故通过重要性采样权重来纠正。式(8)为基于TD-error的优先级对应的重要性采样权重，式(9)为用于网络参数训练的目标值，式(10)为经过纠正的网络损失函数。

w_i＝(NP_i)^-β (8)

L(θ_val)＝∑_iw_i(y_i-Q(s_t,a_t；θ_val))² (10)

其中，w_i为第i个样本对应的重要性采样权重，β为表示纠正程度的参数，y_i为由第i个样本得到的网络目标值，r_i为第i个样本的立即奖励，Q(s_t+1,a_t；θ_tar)和Q(s_t,a_t；θ_val)分别表示第i个样本的目标Q值和估计Q值。

为保障训练集的多样性，避免网络过拟合，训练集中η％的样本来自Pareto样本集，其余样本来自非Pareto样本。由于Pareto样本被采样的概率远大于非Pareto样本，故对式(8)改进，当样本为Pareto样本时为其赋予当前经验池中最大的优先级，否则，使用原有的优先级。改进后的重要性采样权重如式(11)和(12)所示。

w_i＝(NP_i')^-β (11)

本发明的有益效果是：

1、为使用户可占用频段能出现在任意位置，提高跳频图案的灵活性和频谱利用率，采用DQN算法进行决策。

2、采用优先经验回放方法改进DQN算法，根据经验池中样本的TD-error为样本赋予不同的优先度，并按与优先级成正比的概率进行采样，从而提高样本集的质量和经验回放效率。由于按一定的概率从经验池采样将极大的消耗计算资源，影响算法整体效率，故采用Sumtree结构存储样本，降低经验回放过程的时间复杂度。

3、考虑到从累计奖励大的序列中能采样得到更多的有效动作，使DQN更快的达到最佳策略，在进行经验回放时同时考虑TD-error和立即奖励。根据Pareto支配的定义，先以TD-error和立即奖励为标准筛选Pareto样本集，再进行样本采样。另外，为保障训练集的多样性，避免网络过拟合，训练集中η％的样本来自Pareto样本集，其余样本来自非Pareto样本。由此，进一步提高训练集的优越性和学习价值，保障其多样性，提高算法性能和收敛速度。

4、针对经验池中过旧样本可信度低的问题，引入置信度参数，衡量Pareto样本的可信度，降低优先级高但可信度低的样本被选中的概率，提高训练集样本整体的质量。

5、重新设计状态-动作空间和奖赏函数，使Agent能以最大化通信过程中的信干噪比为目标进行学习。

附图说明

图1为本发明实施例的干扰环境频谱瀑布图；

图2为本发明实施例的DQN结构示意图；

图3为本发明实施例的Sumtree结构示意图。

具体实施方式

下面进一步详细说明本发明的实施步骤。

一种基于PPER-DQN的双变跳频图案智能决策方法，具体包括如下步骤：

步骤1、根据感知到的频谱状态，估计干扰的主要参数，预测未来短时间Δ内的频谱状态，具体如下：

根据频谱感知的结果确定干扰的类型并估计其主要参数，假设未来Δ时间内干扰的状态参数不变，建立如图1所示例的干扰环境频谱瀑布图。

随机初始化状态s₀，具体如下：

DQN作为最常用的深度强化学习算法，对Q-Learning进行的其中部分改进如下：

相应的，DQN的结构如图2所示：

由此，初始化估值Q网络，其权重为服从均值为0、方差为0.1的高斯分布的随机数，将估值Q网络的参数赋予目标Q网络，完成目标Q网络的初始化，初始化经验池和Sumtree存储结构，设置网络的学习率l_r、目标Q网络的更新周期T_tar、单次采样样本数量M、折扣因子γ、其他参数α、β、λ、η、ξ、z、G以及总训练回合数

随机初始化状态s₀。

步骤3、对于当前状态s_t，根据动作选择策略及估值Q网络选择最佳动作a_t并执行，得到下一状态s_t+1，代入奖赏函数计算立即奖励r_t，具体如下：

DQN中常用的动作选择策略是基于ε-greedy机制的。选择动作时，先产生一个随机数，当该随机数小于ε时，Agent随机选择一个动作作为最佳动作并执行，否则，Agent将比较各个动作的Q值选择其中最大的作为最佳动作并执行。由于常规的基于ε-greedy机制的动作选择策略的参数ε是固定的或随迭代次数线性下降的，在迭代中后期Agent仍有一定几率选择随机动作并执行，这增大了算法收敛的难度。

对此，引入非线性因素，采用如式(1)和(2)所示的动作选择策略。

为网络当前训练的回合数，

为网络总训练回合数。该策略能保证ε在训练初期保持较大值，使Agent积极进行探索，随后ε快速下降，使Agent更重视利用。

其中，r_t为第t次迭代中获得的立即奖励，

步骤5、当经验池未被填满时，跳转至步骤11，否则，继续执行，具体如下:

若当前经验池尚未填满，则不满足网络学习条件，直接跳转至步骤11；否则，满足网络学习条件，进行下述的网络学习步骤。

步骤6、若迭代次数t达到目标Q网络更新周期T_tar则更新估值Q网络，否则不更新，具体如下；

DQN作为最常用的深度强化学习算法，对Q-Learning进行的其中一方面改进为采用双网络结构：

分别建立估值Q网络和目标Q网络，用于动作选择和计算目标Q值。通过每更新数次估值Q网络，再将其参数赋值给目标Q网络的方式，使目标Q网络的更新滞后于估值Q网络，以此提高算法的稳定性。

当迭代次数t达到目标Q网络更新周期T_tar时，将估值Q网络的参数赋值给目标Q网络，以实现目标Q网络的更新。

步骤7、采用基于Pareto样本的优先经验回放方法，根据存储时长计算置信度并调整样本优先度，从经验池中筛选Pareto样本，利用Sumtree结构根据优先级p_i分别从Pareto样本集和非Pareto样本集采集样本形成训练集，具体如下：

优先经验回放技术能为样本赋予优先级并根据优先级确定该样本被采样的概率，较传统经验回放技术的均匀随机采样方式能提高训练集总体的优越性。该技术的关键是如何判断样本的重要性。通常使用TD-error作为评判优先级的标准，其形式如式(4)所示。

其中，

其中，p_i为第i个样本的优先度；σ为一个在设定阈值内的正数，用于保证

很小的样本也具有一定的优先度；α为用于控制优先度使用程度的系数，取值范围为[0,1]，当α＝1时表示采用均匀随机采样；P_i为根据优先级得到的第i个样本被采样的概率；N为经验池容量。

样本的δ_t ⁱ仅代表了估计的误差，而无法判断其动作是否为该状态下的最佳动作，这导致被回放的样本中动作的优越性无法保障，从而限制了学习效果。从累计奖励大的序列中能采样得到更多的有效动作，使DQN更快的达到最佳策略。因此，应在进行经验回放时同时考虑TD-error和立即奖励，进一步提高训练集的优越性和学习价值，从而提高算法性能和收敛速度。

为更高效地采样，引出如下定义：

根据上述定义提出基于Pareto样本的优先经验回放。该方法中根据Pareto支配的定义从立即奖励和TD-error两个方面在经验池中筛选Pareto样本。考虑到不同频段受到的干扰功率不同，将处于各频段的样本一同比较对位于干扰较大频段处的样本不利，这会影响训练集的多样性和网络选择动作的优越性；所以，将频谱划分为G段，在处于同一分段内的样本中选择Pareto样本，从而保障Pareto样本集能包含各个频段的样本。

其中，μ为置信度参数，t_store为样本在经验池中的存储时长，μ将随着t_store的增长先缓慢下降，再快速下降，最后趋于平稳，ξ用于控制μ随存储时长开始快速下降的转折点，z用于控制下降的速率。通过为存储时长较长的样本赋予较小的置信度参数，适当降低其优先度，从而进一步降低可信度低的样本被选中用于训练网络的概率，提高训练效率。

由于按一定的概率从经验池采样将极大的消耗计算资源，影响算法整体效率，故采用如图3所示的Sumtree结构存储样本和完成采样。

通过Sumtree的存储结构，具有较大优先级的样本将更容易被采样大，且采样过程的时间复杂度低。

步骤8、根据估值Q网络、目标Q网络分别计算训练集样本的TD-error、优先度p_i和目标值y_i。再进一步计算各个样本的采样概率P_i'、重要性采样权重w_i和网络的损失函数L(θ_val)并通过神经网络的梯度反向传播更新估值Q网络的参数θ_val，具体如下：

w_i＝(NP_i)^-β (8)

L(θ_val)＝∑_iw_i(y_i-Q(s_t,a_t；θ_val))² (10)

w_i＝(NP_i')^-β (11)

步骤9、更新训练集样本的TD-error、经验池样本的优先级和Sumtree，具体如下：

根据步骤8中计算的训练集样本的TD-error和优先度p_i，更新训练集样本的TD-error、经验池样本的优先级和Sumtree。

步骤10、更新状态，s_t←s_t+1，具体如下：

将下一状态s_t+1设置为当前状态s_t，并继续执行。

步骤11、若网络训练回合数达到

则结束算法，否则，返回步骤3，具体如下：

判断当前迭代次数t是否达到总迭代次数

若是，则结束学习过程结束，否则返回步骤3。

Claims

1.一种基于PPER-DQN的双变跳频图案智能决策方法，其特征在于，步骤如下：

步骤1、根据感知到的频谱状态，估计干扰的主要参数，预测未来短时间Δ内的频谱状态；

步骤2、初始化估值Q网络、目标Q网络、经验池和Sumtree存储结构，设置网络的学习率l_r、目标Q网络的更新周期T_tar、采样样本数量M、折扣因子γ、参数α、β、λ、η、ξ、z、G以及总训练回合数T，随机初始化状态s₀；

步骤3、对于当前状态s_t，根据动作选择策略及估值Q网络选择最佳动作a_t并执行，得到下一状态s_t+1，代入奖赏函数计算立即奖励r_t；

步骤4、判断s_t+1是否满足终止该训练回合的条件，将样本按当前状态s_t、动作a_t、下一状态s_t+1、立即奖励r_t、是否满足结束条件的形式存入经验池，赋予当前经验池最大优先级并更新Sumtree；

步骤5、当经验池未被填满时，跳转至步骤11，否则，继续执行；

步骤6、若迭代次数t达到目标Q网络更新周期T_tar则更新估值Q网络，否则不更新；

步骤7、采用基于Pareto样本的优先经验回放方法，根据存储时长计算置信度并调整样本优先度，从经验池中筛选Pareto样本，利用Sumtree结构根据优先级p_i分别从Pareto样本集和非Pareto样本集采集样本形成训练集；

步骤8、根据估值Q网络、目标Q网络分别计算训练集样本的TD-error、优先度p_i和目标值y_i；再进一步计算各个样本的采样概率P_i'、重要性采样权重w_i和网络的损失函数L(θ_val)并通过神经网络的梯度反向传播更新估值Q网络的参数θ_val；

步骤9、更新训练集样本的TD-error、经验池样本的优先级和Sumtree；

步骤10、更新状态，s_t←s_t+1；

步骤11、若网络训练回合数达到

则结束算法，否则，返回步骤3。

2.根据权利要求1所述的一种基于PPER-DQN的双变跳频图案智能决策方法，其特征在于，步骤1具体方法如下：

3.根据权利要求2所述的一种基于PPER-DQN的双变跳频图案智能决策方法，其特征在于，步骤2具体方法如下：

DQN对Q-Learning进行的其中部分改进如下：

(1)使用深度神经网络模型代替Q表格拟合状态-动作函数，避免维数爆炸导致的计算量过大和计算效率低下的问题；

(2)经验回放：建立经验池用于存放Agent产生的样本经验，并在每次迭代中从经验池均匀随机采样一部分经验用于训练网络，通过随机采样的方式保证样本之间的独立性，提高网络训练的效率；

Agent根据自身的状态s_t使用估值Q网络选择执行的动作a_t，从而从环境中获得立即奖赏r_t并转移至下一状态s_t+1；Agent将每次和环境交互产生的样本存入经验池，在训练估值Q网络时从其中采样形成训练集；目标Q网络将帮助估值Q网络计算损失函数，用于更新估值Q网络的参数，而估值Q网络会定期将其参数赋值给前者，以实现目标Q网络的更新；

4.根据权利要求3所述的一种基于PPER-DQN的双变跳频图案智能决策方法，其特征在于，步骤3具体方法如下：

引入非线性因素，采用如式(1)和(2)所示的动作选择策略；

为网络当前训练的回合数，

为网络总训练回合数；

定义Agent的状态s_t为频率集，动作a_t为跳速V和信道划分间隔D的联合分配；为实现最大化信干噪比的目标将奖励函数定义为该跳中Agent获得的信干噪比；

其中，r_t为第t次迭代中获得的立即奖励，

为信号传输功率，J_t和n₀为第t次迭代中Agent受到的干扰功率和高斯白噪声，是由多种干扰的共同影响造成的，J_i(f)和f_i ^J为第i种干扰的功率谱密度函数和干扰中心频率，n₀(f)高斯白噪声的功率密度函数；

将当前状态s_t作为估值Q网络的输入，输出各动作的Q值，再根据式(1)和(2)选择动作并执行，获得下一状态s_t+1；根据当前状态、执行的动作和干扰环境，计算立即奖励r_t。

5.根据权利要求4所述的一种基于PPER-DQN的双变跳频图案智能决策方法，其特征在于，步骤7具体方法如下：

使用TD-error作为评判优先级的标准，其形式如式(4)所示；

其中，

为在第t次迭代中产生的第i样本的TD-error；r_t为在第t次迭代中Agent处于状态s_t并执行动作a_t得到的立即奖励；γ为折扣因子，代表对未来奖励的重视程度；Q(s_t,a_t；θ_val)和Q(s_t,a_t；θ_tar)分别为通过估值Q网络和目标Q网络得到的Q值，θ_val和θ_tar分别为两个网络的参数；

越接近0代表网络预测精度的上升空间越小，回放该样本对网络的提升越小；反之，回放该样本的收益越大，越值得被回放；更多地回放

远离0的样本将能提高网络训练的效率，使算法更容易收敛；

在式(4)基础上，优先级定义为基于TD-error的优先级形式如式(5)所示，样本采样概率则如式(6)所示；

其中，p_i为第i个样本的优先度；σ为一个在设定阈值内的正数；α为用于控制优先度使用程度的系数，取值范围为[0,1]，当α＝1时表示采用均匀随机采样；P_i为根据优先级得到的第i个样本被采样的概率；N为经验池容量；

在进行经验回放时同时考虑TD-error和立即奖励，进一步提高训练集的优越性和学习价值，从而提高算法性能和收敛速度；

为更高效地采样，引出如下定义：

定义1Pareto支配(Pareto Dominance)：有样本e₁及样本e₂，当且仅当所有的f_u(e₁)都优于f_u(e₂),u＝1,2,…,U时，称e₂受e₁的支配，否则e₁和e₂互不支配；其中f_u(·)表示样本的第u个性能函数；

根据上述定义提出基于Pareto样本的优先经验回放；该方法中根据Pareto支配的定义从立即奖励和TD-error两个方面在经验池中筛选Pareto样本；将频谱划分为G段，在处于同一分段内的样本中选择Pareto样本，从而保障Pareto样本集能包含各个频段的样本；

针对在经验池中存储时间过长的样本可信度下降的问题，引入置信度参数衡量样本；判断支配关系时，对如式(7)所示的置信度参数归一化，用其调整样本的优先级；

其中，μ为置信度参数，t_store为样本在经验池中的存储时长，μ将随着t_store的增长先缓慢下降，再快速下降，最后趋于平稳，ξ用于控制μ随存储时长开始快速下降的转折点，z用于控制下降的速率；

为提高采样效率，采用Sumtree结构存储样本和完成采样。

6.根据权利要求5所述的一种基于PPER-DQN的双变跳频图案智能决策方法，其特征在于，步骤8具体方法如下：

由于优先级高的样本容易被采样并频繁回放，从而导致训练样本多样性下降，网络容易过拟合，故通过重要性采样权重来纠正；式(8)为基于TD-error的优先级对应的重要性采样权重，式(9)为用于网络参数训练的目标值，式(10)为经过纠正的网络损失函数；

w_i＝(NP_i)^-β (8)

L(θ_val)＝∑_iw_i(y_i-Q(s_t,a_t；θ_val))² (10)

其中，w_i为第i个样本对应的重要性采样权重，β为表示纠正程度的参数，y_i为由第i个样本得到的网络目标值，r_i为第i个样本的立即奖励，Q(s_t+1,a_t；θ_tar)和Q(s_t,a_t；θ_val)分别表示第i个样本的目标Q值和估计Q值；

为保障训练集的多样性，避免网络过拟合，训练集中η％的样本来自Pareto样本集，其余样本来自非Pareto样本；由于Pareto样本被采样的概率远大于非Pareto样本，故对式(8)改进，当样本为Pareto样本时为其赋予当前经验池中最大的优先级，否则，使用原有的优先级；改进后的重要性采样权重如式(11)和(12)所示；

w_i＝(NP_i')^-β (11)