CN114978388B

CN114978388B - 一种无人机时频域联合认知抗干扰智能决策方法

Info

Publication number: CN114978388B
Application number: CN202210541914.3A
Authority: CN
Inventors: 丁元明; 张惠婷; 张然
Original assignee: Dalian University
Current assignee: Dalian University
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2023-11-07
Anticipated expiration: 2042-05-18
Also published as: CN114978388A

Abstract

本发明公开了一种无人机时频域联合认知抗干扰智能决策方法，包括：根据无人机通信信道模型与干扰机信道模型，确定时隙传输结构；通过动态深度双Q学习网络模型D‑DDQN获取无人机当前状态下一步动作；将动态深度双Q学习网络模型进行迭代更新，得到最大Q值对应的最佳传输信道和传输时长。本发明在频域上通过贪婪因子动态变化，优化更新策略，再对存放在经验池的数据进行动态监督，最大程度破除数据关联性，在频域上改善算法收敛速度；在时域上，将网络跳转信道时间进行实时更新，减少用户在不同信道间的不必要跳转，从而减少多余的能量消耗，保证较低的时延，提高了信道利用率。

Description

一种无人机时频域联合认知抗干扰智能决策方法

技术领域

本发明涉及无人机通信抗干扰技术领域，具体涉及一种无人机时频域联合认知抗干扰智能决策方法。

背景技术

无人机通信环境面临智能性干扰的情况下，要确保信息安全可靠的进行传输成为一项挑战，因此无人机通信系统抗干扰研究至关重要。为了有效对抗智能干扰，提高无人机系统通信质量，目前研究热点方向为无人机认知抗干扰。

认知抗干扰主要通过智能决策算法对抗智能干扰，智能决策算法大致有两类：一类基于功率域抗干扰，智能体的发射功率可以根据干扰方发射功率进行调整来应对攻击。在干扰功率不大的情况下，基于博弈理论，根据博弈双方的竞争关系，建立认知抗干扰网络模型，求出博弈均衡，获得用户最佳发射功率。另一类是基于频域抗干扰，利用强化学习选择安全信道，规避干扰信道，信道选择方法主要是基于Q学习(Q learning,QL)，虽然提高了数据传输安全容量，但算法收敛速度较慢。在此基础上衍生出深度强化学习，一是利用深度Q网络(Deep Q Network,DQN)选择安全信道，累计奖励值高于QL算法，但是DQN由于Q值估计过高导致收敛速度减慢、估值失真。二是基于演员-评论员(Actor-Critic，AC)算法选择安全信道，但该算法的Actor与Critic网络实时更新数据，导致两个网络依赖性较强，算法稳定性较低。

发明内容

本发明的目的在于，提供一种无人机时频域联合认知抗干扰智能决策方法，该方法收敛速度更快，增加了通信容量，提高了决策成功率，优化了通信系统性能。

为实现上述目的，本申请提出一种无人机时频域联合认知抗干扰智能决策方法，包括：

根据无人机通信信道模型与干扰机信道模型，确定时隙传输结构；

通过动态深度双Q学习网络模型D-DDQN获取无人机当前状态(当前所处的传输信道和传输时长)和下一步动作(要选择的传输信道和传输时长)；

将动态深度双Q学习网络模型进行迭代更新，得到最大Q值对应的最佳传输信道和传输时长。

进一步的，根据无人机通信信道模型与干扰机信道模型，确定时隙传输结构，具体为：

如图1所示，设置发送端和接收端之间一共有M个信道，每个信道有L个不同的传输时间，所述传输时间等级集合为L＝{l₁,l₂,...,l_L}，根据无人机当前信道状态s选择传输等级；

如图2所示，获取时隙传输结构，其包括干扰时长T_j，无人机的传输时长T_u，ACK传输的时间长度T_ACK，能量检测时长T_wbss；在通信开始时隙k₀中，无人机根据获取的原始频谱信息随机选择动作a₀，a₀＝(f₀,l₀)，其中f₀为动作a₀对应的传输信道，l₀为动作a₀对应的传输时间；接收端接收数据完成后，得到该过程的奖励值r₀；

进一步的，接收端进行能量检测得到信道干扰信息，根据该信道干扰信息进行动态深度双Q学习网络模型学习，确定时隙k₁要选择的动作a₁，a₁＝(f₁,l₁)，并更新参数权值θ_k；然后接收端在时间长度T_ACK内发送ACK信号将判决信息反馈给无人机发射端。

进一步的，所述动态深度双Q学习网络模型D-DDQN获取方式为：

建立DDQN网络，如图3所示，设置初始状态s₀，并根据输入的干扰信息，决策下一歩要选择的传输动作a_k+1，此时时隙k的状态表示为s_k，状态s_k的估计Q(s_k,a_k+1；θ_k)值由估值神经网络输出，以此选择最大Q值对应的动作；状态s_k的目标值由目标神经网络输出，用来评估最优动作对应的Q值，达到避免发散的目的。其中，θ_k和θ_k ^-分别代表第k歩时估值神经网络和目标神经网络的权值参数；

在DDQN网络更新过程中，根据歩数与当前奖励值改变贪婪因子ε的值，形成D-DDQN网络模型，具体为：在选择动作a的过程中，根据来选择最大Q值所对应的动作时，增加选择对应动作的概率值；选择其他动作时，减少选择对应动作的概率值；其中x表示在0～1内随机生成数，ε代表贪婪因子，所述贪婪因子根据奖励值与歩数动态改变，形成动态ε更新策略：/>其中ε_k-1代表上一时隙的贪婪因子，r_m代表奖励，ε初始化为1，每次迭代后，ε相应动态调整一次，直到ε减少到0；若前一歩受到干扰，那么r_m≤0，减少ε值，降低策略的随机性，加快算法的收敛速度；若前一歩安全传输，那么r_m≥0，则ε值不变，原有的随机性继续保持。通过此动态更新策略，a_k到a_k+1的过程收敛速度更快。

更进一步的，将前一歩的经验样本e_k＝(s_k,a_k+1,r(s_k,a_k+1),s_k+1)存放在经验池E中，e_k＝(s_k,a_k+1,r(s_k,a_k+1),s_k+1)表示在第k歩状态为s_k时采取动作a_k+1到达状态s_k+1，并且该时刻奖励为r(s_k,a_k+1)，可以为后面的学习提供借鉴数据；在更新参数权值θ_k时，从经验池E中随机抽取批量经验样本e更新D-DDQN网络，提升样本利用率、破除相邻数据相关性。

更进一步的，所述动态深度双Q学习网络模型D-DDQN更新过程的误差函数为：

其中：γ代表折扣因子，且γ∈(0,1)；通过对估值神经网络进行更新，并且通过/>同步每G歩的网络参数。

更进一步的，得到最大Q值对应的最佳传输信道和传输时长具体方式为：

定义当前M个信道状态s为1表示信道在当前时刻与干扰信号产生冲突，为0表示没有与干扰信号产生冲突；将发射端在第k个时隙状态s_k下完成的动作选择表示为a_k＝(f_k,l_k)，其中f_k是第k个时隙的传输信道，l_k是第k个时隙的传输时间等级且满足l＝{1,2,...,L}，动作空间大小定义为M×L；且传输信道集合表示为A＝{a₁,a₂,a₃,...,a_n},a_k∈A，为无人机提供下一时隙动作选择集合。

通过最大奖励值来选择对应动作，第k个时隙的状态s_k中执行动作a_k的奖励值通过R_k＝r(s,a,k)表示；最大奖励值根据无人机的通信以及切换信道的效用值表示。

更进一步的，无人机的通信以及切换信道的效用值获取方式为：首先获取无人机接收端信噪比：

其中，f_t代表传输信号在t时刻的中心频率，f_t ^j代表干扰信号在t时刻的中心频率，n(f)表高斯白噪声功率谱密度函数PSD，代表干扰信号功率谱密度函数PSD，p_u代表信号传输功率，g_t代表传输信道增益，g_j代表干扰信道增益；

其次获取无人机切换信道效用值，如下所示：

其中，μ(f_t,f_t ^j)表示传输过程是否成功；

更换安全信道的开销为：其中，c代表信道切换系数，a(t)代表用户在t时刻采取的动作；

无人机优化目标是通过最大化累计效用值来选择抗干扰策略如下式所示：其中，γ代表折扣因子，且γ∈(0,1)；

上述方法通过效用值最大化来更新D-DDQN网络，从状态s_k选择动作a_k到达状态s_k+1。

本发明采用的以上技术方案，与现有技术相比，具有的优点是：

(1)在频域上通过贪婪因子动态变化，优化更新策略，再对存放在经验池的数据进行动态监督，最大程度破除数据关联性，在频域上改善算法收敛速度；

(2)在时域上，将网络跳转信道时间进行实时更新，减少用户在不同信道间的不必要跳转，从而减少多余的能量消耗，保证较低的时延，提高了信道利用率。

(3)通过时频域联合认知抗干扰，提高无人机单个节点的收敛速度和收敛稳定性，节省通信时长，提高通信安全容量和决策成功率。

附图说明

图1为本发明实施例的无人机系统模型图；

图2为本发明实施例的无人机数据传输时隙图；

图3为本发明实施例的D-DDQN算法结构图；

图4为本发明实施例的整体流程图；

图5为本发明实施例的详细流程图；

图6为本发明实施例的信号信道内传输干扰示意图；

图7为本发明实施例不同传输时间下不同方法效用值的对比结果图；

图8为本发明实施例的通信安全容量对比结果图；

图9为本发明实施例的稳定性对比结果图；

图10为本发明实施例的智能决策成功率对比结果图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请，即所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。

实施例1

本发明首先改进深度双Q网络(Deep Double Q Network,DDQN)算法中贪婪算法ε更新机制，进行动态深度双Q学习(Dynamic-Deep Double Q Learning,D-DDQN)智能决策，以加快算法收敛速度；其次，针对时频域联合的角度，在通信传输时隙内根据信道实际受到干扰情况，实时改变传输持续时间，提高信道利用；如图5所示，具体实现步骤可以为：

S1.建立估值神经网络和目标神经网络，初始化权值参数θ_k；令θ_k＝θ_k ^-，经验池为E，设置总歩数为Z；

S2.建立信道模型，随机选择通信传输信道和传输时长；

S3.k≤Z时，重复执行S4～S10；

S4.获得信道状态集合S_k；

S5.根据更新ε值；

S6.根据D-DDQN模型选择下一歩传输信道和传输时长a_k+1；

S7.根据奖励值r(s_k,a_k+1)，获取下一步的信道状态集合S_k+1；

S8.将经验样本e_k＝(s_k,a_k+1,r(s_k,a_k+1),s_k+1)存入经验池E中；

S9.从经验池E中随机选取经验样本N_B个，更新θ_k；

S10.每经过G歩，θ_k＝θ_k ^-；

S11.k＞Z时，迭代结束，得到最优解。

在S2中，具体信道模型建立如下：在通信过程中，接收端根据能量检测感知干扰信息对安全传输信道和传输时间进行决策，然后将上一步完成的决策信息以确认字符(Acknowledge character,ACK)的形式送回发射端，表示确认接收到正确决策成功通信；然后无人机发射端根据新的传输策略在下一个时隙进行通信。

假设传输信道M＝5，传输时间长度等级L＝4，状态和动作时频传输如图6所示：横轴代表频率，竖轴代表时隙。在第k-1个时隙信道状态为[01100]；因为信道1足够安全，所以从k-2个时隙进入k-1个时隙时可从信道5跳转到信道1，持续传输较长时间，由于信道1在k时隙依然没有干扰，那么传输可以在两个时隙都保持成功，此时奖励最大；如果k-2跳转到k-1时选择信道4，那么持续传输时间等级依然保持最大，但在传输之后若不立即进行信道跳转就会受到干扰，即使下个时隙进行信道跳转也会消耗转换信道的能量。

为体现本发明的优势，将本发明所提出的无人机时频域联合认知抗干扰(Time-Frequency Domain Joint Cognitive Anti-Jamming,TFDJ-AJ)智能决策方法与强化学习抗干扰(Q LearningAnti-Jamming,QL-AJ)方法、深度Q网络抗干扰(Deep Q Network Anti-Jamming,DQN-AJ)方法、演员评论家抗干扰(Actor-CriticAnti-Jamming,AC-AJ)方法对比，对系统获得效用值、通信安全容量、决策成功率、状态均方误差指标进行仿真，从不同角度验证了各方法的综合性能。

具体参数设置如下：经验池容量大小为N_E＝10000。小批量经验样本N_B＝32。设定传输带宽b_u为5MHz，那么信道个数M＝16。设定干扰机的干扰模式有四种，一是扫频干扰，每个传输时隙扫频带宽为500kHz；二是梳状谱干扰，每个传输时隙选择8个干扰谱，每个干扰谱带宽为1MHz；三是左右扫频干扰，每个频带上的干扰带宽为250kHZ；四是智能型干扰，为以上四种干扰每间隔20个传输时隙随机切换的一种。

仿真所用参数如表1所示：

表1仿真参数

各方法不同传输时间下智能决策获得效用值的比较结果如图7所示，效用值根据不同的时间设定变化较大，因为持续传输时间较长会增加系统受干扰的可能，持续传输时间较短会加剧传输能量的消耗，实际应用中干扰机随机变化干扰策略，很难确定一个最佳持续传输时间。同样在D-DDQN架构下，持续传输时间的不同，智能决策方法到达效用值限值的收敛速度是大致相同的，但TFDJ-AJ算法由于自适应的选择持续传输时长，避免了频繁切换信道造成的能量损失，效用值表现最佳。

图8表示在时频联合基础下4种决策方法的通信安全容量；无人机通信有M个子信道，总带宽为B，那么每个子信道均分为b，由可以求得传输过程中的通信安全容量C_sec如下：

由图8可知，提出的TFDJ-AJ算法要优于DQN-AJ与AC-AJ以及QL-AJ算法。TFDJ-AJ算法采用DDQN的架构，目标值神经网络和估计值神经网络分别更新，与使用深度强化的DQN-AJ算法和未使用网络的QL-AJ算法相比，其算法收敛速度有明显的提升，通信安全容量提高；同AC-AJ算法相比，虽然AC-AJ算法可以同时实现值函数的估计和动作的选择，但是对于Actor和Critic网络之间的依赖性太强，收敛速度尽管有所提升，但网络稳定性较差。TFDJ-AJ算法利用动态ε更新策略将原本的贪婪策略进行改进，增强了全局寻优的能力，得到的数据可靠性更高，通信安全容量较AC-AJ算法提高了15％左右。

定义单个状态s的均方价值误差它表示近似价值函数V_θ(s)与真实C_sec(s)差的平方。其中，|S|为信道系统状态的个数。

图9表示4种决策算法在10000歩下，每一百歩的值：经过训练，DQN-AJ虽然相较于QL-AJ有明显提升，但是由于其Q值估计过高，不如AC-AJ算法。TFDJ-AJ算法既改善了DQN的缺点又增加了全局寻优能力，相较于AC-AJ算法更为稳定，最后得到的/>值更小，验证了所提方法的稳定性。

图10表示基于不同贪婪策略更新的决策算法在前10000歩下决策成功率：在设定不同的贪婪因子情况下，在前2000歩左右，基于D-DDQN的TFDJ-AJ算法低于利用固定ε值进行策略更新的决策成功率，这是因为算法动态调整ε值，前期具有较强的随机性，成功率相对较低，但是收敛速度加快。在固定ε值的决策下，随着ε值逐渐增大，收敛后的平均决策成功率逐渐降低，而在3000歩之后，利用动态ε更新策略的D-DDQN算法性能提升至95％以上，这再次证明了D-DDQN策略较好的性能。

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims

1.一种无人机时频域联合认知抗干扰智能决策方法，其特征在于，包括：

通过动态深度双Q学习网络模型D-DDQN获取无人机当前状态和下一步动作；

将动态深度双Q学习网络模型进行迭代更新，得到最大Q值对应的最佳传输信道和传输时长；

所述动态深度双Q学习网络模型D-DDQN获取方式为：

建立DDQN网络，设置初始状态s₀，并根据输入的干扰信息，决策下一歩要选择的传输动作a_k+1，此时时隙k的状态表示为s_k，状态s_k的估计Q(s_k,a_k+1；θ_k)值由估值神经网络输出，以此选择最大Q值对应的动作；状态s_k的目标值由目标神经网络输出，用来评估最优动作对应的Q值，其中θ_k和θ_k ^-分别代表第k歩时估值神经网络和目标神经网络的权值参数；

在DDQN网络更新过程中，根据歩数与当前奖励值改变贪婪因子ε的值，形成D-DDQN网络模型，具体为：在选择动作a的过程中，根据来选择最大Q值所对应的动作时，增加选择对应动作的概率值；选择其他动作时，减少选择对应动作的概率值；其中x表示在0～1内随机生成数，ε代表贪婪因子，所述贪婪因子根据奖励值与歩数动态改变，形成动态ε更新策略：/>其中ε_k-1代表上一时隙的贪婪因子，r_m代表奖励，ε初始化为1，每次迭代后，ε相应动态调整一次，直到ε减少到0；若前一歩受到干扰，那么r_m≤0，减少ε值；若前一歩安全传输，那么r_m≥0，则ε值不变。

2.根据权利要求1所述一种无人机时频域联合认知抗干扰智能决策方法，其特征在于，根据无人机通信信道模型与干扰机信道模型，确定时隙传输结构，具体为：

设置发送端和接收端之间一共有M个信道，每个信道有L个不同的传输时间，所述传输时间等级集合为L＝{l₁,l₂,...,l_L}，根据无人机当前信道状态s选择传输等级；

获取时隙传输结构，其包括干扰时长T_j，无人机的传输时长T_u，ACK传输的时间长度T_ACK，能量检测时长T_wbss；在通信开始时隙k₀中，无人机根据获取的原始频谱信息随机选择动作a₀，a₀＝(f₀,l₀)，其中f₀为动作a₀对应的传输信道，l₀为动作a₀对应的传输时间；接收端接收数据完成后，得到奖励值r₀。

3.根据权利要求2所述一种无人机时频域联合认知抗干扰智能决策方法，其特征在于，接收端进行能量检测得到信道干扰信息，根据该信道干扰信息进行动态深度双Q学习网络模型学习，确定时隙k₁要选择的动作a₁，a₁＝(f₁,l₁)，并更新参数权值θ_k；然后接收端在时间长度T_ACK内发送ACK信号将判决信息反馈给无人机发射端。

4.根据权利要求1所述一种无人机时频域联合认知抗干扰智能决策方法，其特征在于，将前一歩的经验样本e_k＝(s_k,a_k+1,r(s_k,a_k+1),s_k+1)存放在经验池E中，e_k＝(s_k,a_k+1,r(s_k,a_k+1),s_k+1)表示在第k歩状态为s_k时采取动作a_k+1到达状态s_k+1，并且该第k歩奖励为r(s_k,a_k+1)；在更新参数权值θ_k时，从经验池E中随机抽取批量经验样本e更新D-DDQN网络。

5.根据权利要求4所述一种无人机时频域联合认知抗干扰智能决策方法，其特征在于，所述动态深度双Q学习网络模型D-DDQN更新过程的误差函数为：

其中：γ代表折扣因子，且γ∈(0,1)；通过对估值神经网络进行更新，并且通过/>k＝nG(n＝1,2,…)同步每G歩的网络参数。

6.根据权利要求1所述一种无人机时频域联合认知抗干扰智能决策方法，其特征在于，得到最大Q值对应的最佳传输信道和传输时长具体方式为：

定义当前M个信道状态s为1表示信道在当前时刻与干扰信号产生冲突，为0表示没有与干扰信号产生冲突；将发射端在第k个时隙状态s_k下完成的动作选择表示为a_k＝(f_k,l_k)，其中f_k是第k个时隙的传输信道，l_k是第k个时隙的传输时间等级且满足l＝{1,2,...,L}，动作空间大小定义为M×L；且传输信道集合表示为A＝{a₁,a₂,a₃,...,a_n},a_k∈A，为无人机提供下一时隙动作选择集合；

7.根据权利要求6所述一种无人机时频域联合认知抗干扰智能决策方法，其特征在于，无人机的通信以及切换信道的效用值获取方式为：首先获取无人机接收端信噪比：

其次获取无人机切换信道效用值，如下所示：

其中，μ(f_t,f_t ^j)表示传输过程是否成功；

无人机优化目标是通过最大化累计效用值来选择抗干扰策略如下式所示：其中，γ代表折扣因子，且γ∈(0,1)。