CN111786738B

CN111786738B - 基于长短期记忆的抗干扰学习的网络结构及学习方法

Info

Publication number: CN111786738B
Application number: CN202010621554.9A
Authority: CN
Inventors: 徐煜华; 李洋洋; 汪西明; 李文; 刘松仪
Original assignee: Army Engineering University of PLA
Current assignee: Army Engineering University of PLA
Priority date: 2020-07-01
Filing date: 2020-07-01
Publication date: 2022-06-03
Anticipated expiration: 2040-07-01
Also published as: CN111786738A

Abstract

一种基于长短期记忆的抗干扰学习的网络结构及学习方法，感知设备将采集的频谱环境构建为频谱瀑布图，并把得到的频谱瀑布图、发信机发射信号的频点和接收机发送反馈信号作为基于长短期记忆的卷积神经网络的输入，把抗干扰频率选择作为输出，传送给发信机，发信机根据选择的抗干扰频率发送信号。算法通过梯度下降法，依据反馈信号更新卷积神经网络的参数，从而增加成功选择出抗干扰频点的概率。循环迭代，直至达到在取得较好的效果或达到设定的迭代次数。本发明通过选择出躲避干扰信号的频率，提高了用户的在干扰环境下的吞吐量。

Description

基于长短期记忆的抗干扰学习的网络结构及学习方法

技术领域

本发明涉及无线通信技术领域，具体涉及一种基于长短期记忆的抗干扰学习的网络结构及学习方法。

背景技术

在通信领域中，信号是表示消息的物理量，如电信号可以通过幅度、频率、相位的变化来表示不同的消息。干扰是指对有用信号的接收造成损伤。如何提高通信的可靠性是通信领域中的一个重要问题，由于无线信道的开放性，通信信号极易受到外来信号干扰，针对这个问题，有人提出了基于深度强化学习的抗干扰算法，就如参考文献：Liu X,Xu Y,JiaL,et al.Anti-jamming communications using spectrum waterfall:A deepreinforcement learning approach[J].IEEE Communications Letters,2018,22(5):998-1001.，其通过选频来避免干扰信号，来提高用频设备的抗干扰能力。

目前关于抗干扰选频中，有相关研究，如参考文献：Kong L,Xu Y,Zhang Y,etal.A reinforcement learning approach for dynamic spectrum anti-jamming infading environment[C]2018 IEEE 18th International Conference on CommunicationTechnology(ICCT).IEEE,2018:51-58.中将抗干扰选频和衰弱信道结合起来，不仅对干扰信号进行预测，更把衰弱信道构建为Markov模型，预测信道的情况的同时结合干扰信号的情况进行抗干扰选频，进一步提升通信的可靠性。如图1所示，在无线通信网络中，用户包括发信机和接收机，接收机收到发信机发送信号时，向发信机通过控制信道回复反馈信号。现有的大部分智能抗干扰算法假设这种反馈信号是通过稳定的控制信道传输，不受干扰的。而在实际的干扰环境中，不仅用户传输信号受到干扰，回传反馈信号也受干扰，因此导致现有的智能抗干扰算法抗干扰效果较差。

发明内容

为解决上述问题，本发明提供了一种基于长短期记忆的抗干扰学习的网络结构及学习方法，能通过选择通信频率优化了抗干扰的效果，有效避免了现有技术中不仅用户传输信号受到干扰、回传反馈信号也受干扰、导致现有的智能抗干扰算法抗干扰效果较差的缺陷。

为了克服现有技术中的不足，本发明提供了一种基于长短期记忆的抗干扰学习的网络结构及学习方法的解决方案，具体如下：

一种基于长短期记忆的抗干扰学习的网络结构，该网络结构包括：

(1)卷积层；

(2)池化层；

(3)长短期记忆层；

(4)全连接层；

所述池化层、卷积层、长短期记忆层以及全连接层依次顺序通信连接。

所述基于长短期记忆的抗干扰学习的网络结构的损失函数，包括以下几个部分：

先定义每个动作对应回馈的目标值η如公式(3)所示：

其中，λ是折扣因子，Q(S',a'；θ_i-1)为神经网络拟合的网络函数，S'为S的下一时刻的值；例如在t时刻S为S_t那么S'＝S_t+1，

为频率决策，其中a'定义为a的下一个时刻的干扰决策，在t时刻，网络动作的生成为如公式(4)所示：

θ_i-1为在i-1次迭代中的网络参数。r为奖励值定义式为：

其中c一般取大于零的值，c＞0，d一般取小于零或者等于0的值，d≤0；把损失函数L定义为如公式(6)所示：

L＝[Q(S,a；θ_i)-η_i]² (6)

使用梯度下降算法优化网络参数θ，使得L的值最小。其更新过程为如公式(7)所示：

θ_i+1＝θ_i+α▽_θL(θ_i) (7)

其中α是学习率；i代表迭代次数，L为定义的损失函数，其中L(θ_i)代表受到网络参数θ影响的所示函数，▽_θ代表对θ偏导，θ_i表示第i次迭代下的网络参数θ。

经设经验回放库为D，该库满足先进先出原则，D的最大记忆容量为m，在算法的第k轮，D＝{e_k,e_k-1,...,e_k-m+1}，其中存储单元e_k＝(S_k,a_k,_k,S_k+1)；其中S_k代表在第k轮感知的频谱瀑布图，a_k代表在第k轮做出抗干扰频率决策，η_k为在第k轮的目标值，S_k+1为第k+1轮感知到的下频谱瀑布图，在训练时，放入多个训练的存储单元e_k，加速算法收敛。

所述基于长短期记忆的抗干扰学习的网络结构的抗干扰学习算法，其算法流程具体包括：

(1)初始化网络参数；

(2)感知频谱瀑布图S，根据公式(4)选出动作，并根据反馈信号和公式(3)计算得出动作反馈的目标值，并根据公式(6)计算损失函数，并由梯度下降法更新网络参数；

(3)达到运行次数，终止算法。

所述基于长短期记忆的抗干扰学习方法，包括：将感知设备将采集的频谱环境构建为频谱瀑布图，并把得到的频谱瀑布图、作为发射机的发信机发射信号的频点和接收机发送反馈信号作为基于长短期记忆的卷积神经网络的输入，把抗干扰频率选择作为输出，传送给发信机，发信机根据选择的抗干扰频率发送信号。

所述基于长短期记忆的抗干扰学习方法，具体包括如下步骤：

步骤1，感知设备将采集的频谱环境构建为频谱瀑布图；

步骤2，初始化基于长短期记忆的卷积神经网络；

步骤3，将构建的频谱瀑布图，发信机发射信号的频点和接收机发送的反馈信号作为基于长短期记忆的卷积神经网络的输入，通过梯度下降法更新基于长短期记忆的卷积神经网络参数，基于长短期记忆的卷积神经网络输出抗干扰频点，作为发射机下次通信的频点决策；

步骤4，循环步骤3，直到可以躲避干扰信号或者达到设定的迭代次数。

所述步骤1中的抗干扰频率决策过程建模为马尔科夫过程。在此问题中的马尔科夫过程由四元组

所描述，其中

为状态矩阵即为感知得到的频谱瀑布图集，

为动作集，即抗干扰频率选择集，

为转移概率矩阵，即转态跳转概率集。

为奖励值集，即为所取得的反馈集。

所述步骤3中的选择的频谱瀑布图定义为：S_t(f)为t时刻观测到的频谱状况，其如公式(1)所示：

其中，U(f)为发信机发射信号的功率谱密度，J_t(f)为所有干扰在t时刻的发功率的功率谱密度，

为第j个干扰在t时刻的发射功率的功率谱密度，f_t ^j表示第j个干扰在t时刻的频率，f_t表示所有干扰在t时刻的平均频率，f表示所有干扰在整个干扰时段的平均频率，g_s表示从发信机到接收机的信道增益，g_j表示第j个干扰机到接收机的信道增益，n(f)为噪声的功率谱密度，频谱的离散采样值s_t,i为公式(2)所示：

其中，Δf为频谱的分辨率；i为采样点的序号，时间t时刻频谱的向量表示为s_t＝{s_t,1,s_t,2...s_t,i...s_t,N}，N为采样点数；定义T为历史状态的回溯值，代表从时间t-T到时间t的向量s_t的集合，也就是频谱瀑布图，那么t时刻，频谱瀑布图S_t可状态为S_t{s_t,s_t-1,...,s_t-T+1}，S_t为T×N的矩阵，

本发明的有益效果为：

(1)在抗干扰环境中，感知设备将采集的频谱环境构建为频谱瀑布图，并把得到的频谱瀑布图、发信机发射信号的频点和接收机发送反馈信号作为基于长短期记忆的卷积神经网络的输入，把抗干扰频率选择作为输出，传送给发信机，发信机根据选择的抗干扰频率发送信号，因此在反馈信号被干扰时也能取得较好的效果；

(2)通过梯度下降法，依据反馈信号更新卷积神经网络的参数，从而增加成功选择出抗干扰频点的概率，通过选择出躲避干扰信号的频率，提高了用户的在干扰环境下的吞吐量。

附图说明

图1是本发明部分的干扰场景示意图。

图2是本发明的网络结构示意图。

图3是本发明的算法流程示意图。

图4是本发明在以0.8概率收到反馈信号时在不同干扰模式下的频谱瀑布图。

图5是本发明实施例中方法在不同概率接收到反馈信号的不同干扰模式下平均吞吐量对比图，其中图5(a)表示梳状干扰下吞吐量对比图；图5(b)表示扫频干扰下吞吐量对比图；图5(c)表示动态梳状干扰下吞吐量对比图；图5(d)表示动态干扰下吞吐量对比图。

具体实施方式

本发明基于长短期记忆的抗干扰学习方法，用户分为发信机和接收机，接收机收到发信机发送信号时，向发信机通过控制信道回复反馈信号。在干扰环境中，如图1所示，不仅用户传输信号受到干扰，回传反馈信号也受干扰。本发明的算法针对反馈信号也被干扰的情况，比一般智能算法在干扰环境下能取得更好的抗干扰效果。

下面将结合附图和实施例对本发明做进一步地说明。

基于长短期记忆的抗干扰学习的网络结构，其网络结构如图2所示，该网络结构包括：

(1)卷积层；

(2)池化层；

(3)长短期记忆层；

(4)全连接层；

先定义每个动作对应回馈的目标值η如公式(3)所示：

θ_i-1为在i-1次迭代中的网络参数。r为奖励值定义式为：

L＝[Q(S,a；θ_i)-η_i]² (6)

θ_i+1＝θ_i+α▽_θL(θ_i) (7)

经设经验回放库为D，该库满足先进先出原则，D的最大记忆容量为m，在算法的第k轮，D＝{e_k,e_k-1,...,e_k-m+1}，其中存储单元e_k＝(S_k,a_k,η_k,S_k+1)；其中S_k代表在第k轮感知的频谱瀑布图，a_k代表在第k轮做出抗干扰频率决策，η_k为在第k轮的目标值，S_k+1为第k+1轮感知到的下频谱瀑布图，在训练时，放入多个训练的存储单元e_k，加速算法收敛。

(1)初始化网络参数；

(3)达到运行次数，终止算法。

本发明与现有技术相比，其显著优点在于：在抗干扰环境中，在反馈信号被干扰时也能取得较好的效果。

所述基于长短期记忆的抗干扰学习方法，包括：将感知设备将采集的频谱环境构建为频谱瀑布图，并把得到的频谱瀑布图、作为发射机的发信机发射信号的频点和接收机发送反馈信号作为基于长短期记忆的卷积神经网络的输入，把抗干扰频率选择作为输出，传送给发信机，发信机根据选择的抗干扰频率发送信号。算法通过梯度下降法，依据反馈信号更新卷积神经网络的参数，从而增加成功选择出抗干扰频点的概率。循环迭代，直至达到在取得较好的效果或达到设定的迭代次数。本发明通过选择出躲避干扰信号的频率，提高了用户的在干扰环境下的吞吐量。

步骤1，感知设备将采集的频谱环境构建为频谱瀑布图；

步骤2，初始化基于长短期记忆的卷积神经网络；初始化能够是把卷积神经网络清零。

本发明的具体实施细节如下：

所描述，其中

为状态矩阵即为感知得到的频谱瀑布图集，

为动作集，即抗干扰频率选择集，

为转移概率矩阵，即转态跳转概率集。

为奖励值集，即为所取得的反馈集。

其中，，U(f)为发信机发射信号的功率谱密度，J_t(f)为所有干扰在t时刻的发功率的功率谱密度，

其中，Δf为频谱的分辨率；i为采样点的序号，时间t时刻频谱的向量表示为s_t＝{s_t,1,s_t,2...s_t,i...s_t,N}，N为采样点数；定义T为历史状态的回溯值，代表从时间t-T到时间t的向量s_t的集合，也就是频谱瀑布图，那么t时刻，频谱瀑布图S_t可状态为S_t＝{s_t,s_t-1,...,s_t-T+1}，S_t为T×N的矩阵，

下面用实施例1对本发明做进一步说明：

本发明的一个具体实施例1如下描述：系统仿真采用TensorFlow神经网络框架，参数设定不影响一般性；在仿真中，频谱范围10MHz，用户带宽为2MHz，用户可选频段数量为5。用户的发送功率为0dbm，干扰的功率为30dbm，干扰带宽为2MHz。智能体每1ms执行全频带检测，Δf＝50kHz。学习率α＝0.2，干扰和传输信号是升余弦滚降波形，其滚降系数β＝0.4。频谱瀑布图S包含200ms内的频谱信息，S的大小是200×200像素的图像，多种干扰模式被考虑在内，其分别是：

梳状干扰：干扰频点在频谱范围内的1MHz，5MHz，9Mhz的干扰。

扫频干扰：扫频干扰是以带宽为2MHz以速度1GHz扫过10Mhz的干扰信号。

动态梳状干扰：动态梳状干扰是以频点1MHz，5MHz，9MHz，与3MHz，7MHz，以50ms周期交替变换的干扰模式。

动态干扰：混合干扰是梳状干扰(1MHz，5MHz，9MHz)与扫频干扰以周期50ms交替变换的干扰。干扰模式如图4所示。

本发明面向需求的部分重叠信道聚合博弈模型的算法，具体过程如下：

(1)初始化网络参数；

(2)感知频谱瀑布图S，根据公式(4)选出动作，并根据反馈信号和公式(3)计算得出动作反馈的目标值，并根据公式(6)计算损失函数，并由梯度下降法更新网络参数。

(3)达到运行次数，或者其他条件，终止算法。流程如图3所示。

图4是本发明中基于长短期记忆的抗干扰学习算法在以0.8概率收到反馈信号时在不同干扰模式下的频谱瀑布图。图5为是本发明实施例中方法在不同概率接收到反馈信号的不同干扰模式下平均吞吐量对比图，对比算法为参考文献中深度强化学习抗干扰算法，即为参考文献：Liu X,Xu Y,Jia L,et al.Anti-jamming communications usingspectrum waterfall:A deep reinforcement learning approach[J].IEEECommunications Letters,2018,22(5):998-1001.所提到的抗干扰算法，可以看出所提算法在不同干扰场景下能够取得更好的吞吐量性能。

综上，本发明提出基于长短期记忆的抗干扰学习算法，充分地考虑到了信道聚合对部分重叠信道的干扰建模影响，测试了所提干扰模式在不同概率p下接收到反馈信号下的归一化吞吐量。比较结果如图5所示，其中横坐标轴表示成功接收到反馈信号的概率p，纵轴表示归一化的吞吐量。从中可以看出，所提出的基于长短期记忆的抗干扰学习算法优于一般抗干扰算法，归一化吞吐量增加约5％至30％。

以上以用实施例说明的方式对本发明作了描述，本领域的技术人员应当理解，本公开不限于以上描述的实施例，在不偏离本发明的范围的情况下，可以做出各种变化、改变和替换。

Claims

1.一种基于长短期记忆的抗干扰学习的网络结构，其特征在于，该网络结构包括：

(1)卷积层；

(2)池化层；

(3)长短期记忆层；

(4)全连接层；

所述池化层、卷积层、长短期记忆层以及全连接层依次顺序通信连接；

所述基于长短期记忆的抗干扰学习的决策，其中网络结构的损失函数，包括以下几个部分：

先定义每个动作对应回馈的目标值η如公式(3)所示：

其中，λ是折扣因子，Q(S',a'；θ_i-1)为神经网络拟合的网络函数，S'为S的下一时刻的值；

为频率决策，其中a'定义为a的下一个时刻的干扰决策，在t时刻，网络动作的生成如公式(4)所示：

θ_i-1为在i-1次迭代中的网络参数；r为奖励值定义式为：

其中c一般取大于零的值，c>0，d一般取小于零或者等于0的值，d≤0；把损失函数L定义为如公式(6)所示：

L＝[Q(S,a；θ_i)-η_i]² (6)

使用梯度下降算法优化网络参数θ，使得L的值最小；其更新过程为如公式(7)所示：

θ_i+1＝θ_i+α▽_θL(θ_i) (7)

其中α是学习率；i为正整数且代表迭代次数，L为定义的损失函数，其中L(θ_i)代表受到网络参数θ影响的所示函数，▽_θ代表对θ偏导，θ_i表示第i次迭代下的网络参数θ。

2.根据权利要求1所述的基于长短期记忆的抗干扰学习的网络结构，其特征在于，经设经验回放库为D，该库满足先进先出原则，D的最大记忆容量为m，在算法的第k轮，D＝{e_k,e_k-1,...,e_k-m+1}，其中存储单元e_k＝(S_k,a_k,η_k,S_k+1)；其中S_k代表在第k轮感知的频谱瀑布图，a_k代表在第k轮做出抗干扰频率决策，η_k为在第k轮的目标值，S_k+1为第k+1轮感知到的下频谱瀑布图，在训练时，放入多个训练的存储单元e_k，加速算法收敛。

3.根据权利要求1所述的基于长短期记忆的抗干扰学习的网络结构，其特征在于，所述基于长短期记忆的抗干扰学习的网络结构的抗干扰学习算法，其算法流程具体包括：

(1)初始化网络参数；

(3)达到运行次数，终止算法。

4.根据权利要求1-3任一项所述的基于长短期记忆的抗干扰学习的网络结构的抗干扰学习方法，其特征在于，包括：将感知设备将采集的频谱环境构建为频谱瀑布图，并把得到的频谱瀑布图、作为发射机的发信机发射信号的频点和接收机发送反馈信号作为基于长短期记忆的卷积神经网络的输入，把抗干扰频率选择作为输出，传送给发信机，发信机根据选择的抗干扰频率发送信号；

选择的频谱瀑布图定义为：S_t(f)为t时刻观测到的频谱状况，其如公式(1)所示：