CN108777872A

CN108777872A - 一种深度q神经网络抗干扰模型及智能抗干扰算法

Info

Publication number: CN108777872A
Application number: CN201810494872.6A
Authority: CN
Inventors: 王金龙; 徐煜华; 刘鑫; 徐逸凡; 李洋洋; 赵磊; 冯智斌
Original assignee: PLA University of Science and Technology
Current assignee: PLA University of Science and Technology
Priority date: 2018-05-22
Filing date: 2018-05-22
Publication date: 2018-11-09
Anticipated expiration: 2038-05-22
Also published as: CN108777872B

Abstract

本发明公开了一种深度Q神经网络抗干扰模型及智能抗干扰算法。模型为：一组发射端和接收端对为一个用户，一个用户进行通信，一个或多个干扰机对用户通信进行干扰，将接收端的频谱瀑布图作为学习的输入状态，计算干扰的频域和时域特征。算法为：首先，通过深度Q神经网络得到拟合对应的Q值表；其次，用户依概率选择一个策略，根据该策略的回报值和下一步环境状态进行训练，并更新网络权重和选频策略；当达到最大循环次数时，算法结束。本发明模型完备，物理意义清晰，设计算法合理有效，能够很好地刻画基于深度强化学习算法的抗干扰场景。

Description

一种深度Q神经网络抗干扰模型及智能抗干扰算法

技术领域

本发明属于无线通信技术领域，特别是一种深度Q神经网络抗干扰模型及智能抗干扰算法。

背景技术

由于无线通信环境的开放性，无线通信系统极易遭受恶意干扰的攻击。此外，由于人工智能技术的飞速发展，使得干扰智能化水平不断提高，未来的通信干扰将呈现“波形灵巧”、“决策智能”等典型特点，使得传统抗干扰技术(如跳频和扩频)的抗干扰能力明显下降，甚至完全丧失，给无线通信系统或网络的稳定和安全带来极大的挑战。因而，迫切需要研究更加高效的抗干扰方法。针对新型的干扰环境特性，引入人工智能技术将是一种可选的方案。用户采用各种智能学习的方法，对干扰波形样式、信号构成和决策规律等进行有效的分析，并以此为基础智能地选取对抗决策，将有效地提升其抗干扰能力。

考虑到干扰环境的动态特性，强化学习成为研究智能抗干扰问题最优决策的一种热门工具(参考文献：C.J.C.H.Watkins,et al.,“Q-learning,”Mach.Learn.,,vol.8,pp.279-292,1992)。然而，它无法拓展到状态决策空间庞大的应用环境。

发明内容

本发明的目的在于提供一种深度Q神经网络抗干扰模型及智能抗干扰算法，很好地刻画基于深度强化学习算法的抗干扰场景。

实现本发明目的的技术解决方案为：一种深度Q神经网络抗干扰模型，对该模型做如下刻画：一组发射端和接收端对为一个用户，一个用户进行通信，一个或多个干扰机对用户通信实施干扰；在动态未知环境中，将接收端的频谱瀑布图作为学习的输入状态，计算干扰的频域和时域特征，最终获取干扰的策略，并采用深度Q神经网络对Q函数进行拟合，作为该模型的决策依据。

进一步地，用户接收端的信干噪比SINR表示为：

公式中(1)中，f_t表示用户在代理指导下所选频率，t表示当前时刻；表示用户的功率，U(f)和b_u分别表示用户的功率谱密度和基带信号带宽，g_u表示用户发送端到接收端的信道增益，g_j表示干扰到用户接收端的信道增益，f_t ^j表示干扰选择的干扰频率，表示干扰的功率谱密度函数，n(f)表示噪声的功率谱密度函数；

此外，用β_th表示成功传输所需要的SINR门限，定义归一化门限如公式(2)所示：

在接收终端部署了一个代理，该接收终端的功率谱密度函数如式(3)所示：

其中，j＝1,…,J表示干扰；

模型中的离散频谱采样值定义为：

其中，Δf表示频谱分辨率；i表示采样数，S(f+f_L)为式(3)所述功率谱密度函数、f表示采样频率、f_L为所选频率的下界；

代理通过频谱向量s_t＝{s_t,1,s_t,2,...,s_t,N}决定传输频率，并通过可靠链路通知发送端；s_t,N为t时刻所决定的第N段传输频率。

进一步地，所述的在动态未知环境中，将接收端的频谱瀑布图作为学习的输入状态，计算干扰的频域和时域特征，最终获取干扰的策略，具体如下：

在动态未知的通信环境中，模型中的抗干扰问题建模为马尔科夫决策过程，该环境存在的复杂干扰模式与历史信息有关，因此环境状态定义为S_t＝{s_t,s_t-1,...,s_t-T+1}，其中，T表示回溯的历史状态数目，S_t表示一个T×N的二维矩阵，由S_t矩阵构建出频谱瀑布图。

进一步地，所述的环境状态中，S∈{S₁,S₂,...}表示当前的传播环境状态，a∈{f₁,f₂,...,f_K}是用户的频率选择策略，P(S′|S,a)表示用户的频率选择策略a由状态S变为状态S′的转移概率；

对于立即回报r定义为：

其中，λ表示因状态改变带来的代价，a_t表示t时刻的信道选择动作。

一种基于深度Q神经网络抗干扰模型的智能抗干扰算法，包括以下步骤：

步骤1，初始化：给定ε＝1，随机权重θ，感知初始环境S₁，通过深度Q神经网络得到拟合对应的Q值表；

步骤2，用户依概率ε随机选择一个策略，或者，用户依概率1-ε选择Q值最大的策略，即a_t＝arg_amaxQ(S_t,a；θ)；

步骤3，计算选择该策略的回报值，观察选择该策略后下一时刻的状态变化；

步骤4，根据该策略的回报值和下一时刻环境状态进行样本训练，并将训练经验(S_t,a,r,s_t+1)储存到D中，判断样本训练次数是否大于门限如果否，继续进行样本训练；如果是，对转移状态矩阵进行随机抽样，获取某个状态和相应行动策略，并计算目标值，接着计算梯度并更新权值，然后进入步骤5；

步骤5，更新下一次选择策略的概率ε＝max(0.1,ε-Δε)，其中Δε为更新步长，并返回步骤2；

循环步骤2～5，直至达到最大迭代次数，算法结束。

进一步地，步骤1中所述的通过深度Q神经网络得到拟合对应的Q值表，具体如下：

首先对使用的深度卷积神经网络进行预处理，预处理过程为：

其中，n_th表示噪声门限；s_i,t表示t时刻第i次训练接收到的信号大小，为预处理后信号大小；

经过预处理后，状态中包含零向量；然后使用深度卷积神经网络CNN对Q函数进行拟合；对于当前的传播环境状态S和用户的频率选择策略a而言，拟合Q函数表示如下：

其中，S′表示在状态S采用策略a所产生的下一个状态，γ表示折扣因子。

进一步地，步骤4所述的根据该策略的回报值和下一时刻环境状态进行样本训练，并将训练经验(S_t,a,r,s_t+1)储存到D中，判断样本训练次数是否大于门限如果否，继续进行样本训练；如果是，对转移状态矩阵进行随机抽样，获取某个状态和相应行动策略，并计算目标值，具体如下：

采用经验回放机制，用e_t＝(S_t,a_t,r_t,S_t+1)表示t时刻的代理经验，并将其存贮在矩阵D_t＝(e₁,...,e_t)中；当经验池足够大时，从均匀分布e～U(D)中随机选取参量构建目标值其中r表示即时回报，γ表示折扣因子。

进一步地，步骤4中所述的计算梯度并更新权值，具体如下：

Q学习在第i次迭代使用如式(8)所示损失函数：

L_i(θ_i)＝E_e～U(D)[(y_i-Q(S,a；θ_i))²] (8)

其中，θ_i表示Q学习在i次迭代的参数，表示在参数θ_i-1下依贪婪策略计算的目标值；

依据梯度下降法，对损失函数求微分，求得损失函数的梯度，如式(9)所示：

其中，L_i(θ_i)表示损失函数，表示求梯度运算。

本发明与现有技术相比，其显著优点在于：(1)对传统卷积神经网络进行预处理，在不影响性能的情况下，降低计算复杂度；(2)模型完备，物理意义清晰，提出的基于深度强化学习的智能抗干扰算法，实现对提出模型的有效求解，求出用户的抗干扰功率控制策略；(3)能够有效地应对动态及智能干扰，并很好地刻画基于深度强化学习算法的抗干扰场景。

附图说明

图1是本发明深度Q神经网络抗干扰模型的系统模型图。

图2是本发明中抗干扰Q神经网络模型的结构示意图。

图3是本发明中Q神经网络抗干扰更新过程图。

图4是本发明实施例1中对抗固定干扰模式的频谱瀑布图。

图5是本发明中实施1中对抗固定模式干扰的输出信息量的图。

图6是本发明实施例2中对抗动态及智能干扰模式的频谱瀑布图。

具体实施方式

本发明所提出的深度Q神经网络抗干扰模型及智能抗干扰算法，旨在提供方案以解决智能抗干扰问题。本发明基于深度学习算法，将接收端的频谱瀑布图作为学习的输入状态，采用深度Q神经网络对状态的Q值函数进行拟合，并将其作为决策依据；接着，通过相应的决策算法，更新用户的频率选择策略。

图1是抗干扰系统模型图。该模型中，一组发射端和接收端对为一个用户，一个用户进行通信，控制系统可以帮助用户进行选频，系统中存在一个或多个干扰机对用户通信实施干扰。

图2是抗干扰Q神经网络模型。抗干扰Q神经网络采用卷积神经网络框架，输入为频谱瀑布图，经过两层卷积加两层全连接操作得到了当前状态对应的Q值表，然后通过相应的决策算法即可得出当前状态下最优的抗干扰决策。而深度神经网络参数的更新，则通过实时记录当前输入状态、所选决策说明经过抗干扰学习、立即回报和下一步环境状态进行训练予以实现。

对该模型做如下刻画：一组发射端和接收端对为一个用户，一个用户进行通信，一个或多个干扰机对用户通信实施干扰；在动态未知环境中，将接收端的频谱瀑布图作为学习的输入状态，计算干扰的频域和时域特征，最终获取干扰的策略，并采用深度Q神经网络对Q函数进行拟合，作为该模型的决策依据。

图3是抗干扰Q神经网络更新过程，该更新过程采用经验回放的思想，当代理的训练经验足够大时，从经验矩阵中随机抽取目标值；并通过梯度下降法对系统参量进行更新。

本发明基于传统Q学习，结合智能抗干扰问题，考虑干扰智能性强、干扰决策估计困难、学习决策空间庞大等因素，采用深度神经网络对Q值函数进行拟合，并对神经网络状态更新，通过相应决策算法，得出最优抗干扰决策。

进一步地，所述深度Q神经网抗干扰络模型，其用户接收端的信干噪比SINR表示为：

公式中(1)中，f_t表示用户在代理指导下所选频率，t表示当前时刻；表示用户的功率，U(f)和b_u分别表示用户的功率谱密度和基带信号带宽，g_u表示用户发送端到接收端的信道增益，g_j表示干扰到用户接收端的信道增益，f_t ^j表示干扰选择的干扰频率，表示干扰的功率谱密度函数，n(f)表示噪声的功率谱密度函数。

其中，j＝1,…,J表示干扰；

模型中的离散频谱采样值定义为：

进一步地，所述的深度Q神经网络抗干扰模型，其通信环境是动态未知的，该模型中的抗干扰问题可建模为马尔科夫决策过程(Markov decision process)。该环境存在的复杂干扰模式与历史信息有关，因此环境状态定义为S_t＝{s_t,s_t-1,...,s_t-T+1}，其中，T表示回溯的历史状态数目，S_t表示一个T×N的二维矩阵，由S_t矩阵构建出频谱瀑布图。

进一步地，在所述的深度Q神经网络抗干扰模型中，S∈{S₁,S₂,...}表示当前的传播环境状态，a∈{f₁,f₂,...,f_K}是用户的频率选择策略，P(S′|S,a)表示用户的频率选择策略a，由状态S变为状态S′的转移概率。对于立即回报r的定义如下：

本发明基于深度Q神经网络抗干扰模型的智能抗干扰算法，包括以下步骤：

步骤2，用户依概率ε随机选择一个策略，或者，用户依概率1-ε选择Q值最大的策略，即

循环步骤2～5，直至达到最大迭代次数，算法结束。

进一步地，步骤4中所述的计算梯度并更新权值，具体如下：

Q学习在第i次迭代使用如式(8)所示损失函数：

L_i(θ_i)＝E_e～U(D)[(y_i-Q(S,a；θ_i))²] (8)

其中，L_i(θ_i)表示损失函数，表示求梯度运算。

由于计算目标值和更新网络权值在不同阶段，因此实现算法过程中只需要一层预处理卷积神经网络。

实施例1

本发明的第一个实施例具体描述如下，系统仿真采用python语言，基于caffe深度学习框架，参数设定不影响一般性。该实施例验证所提模型与方法的有效性，图4验证对抗固定干扰模式的有效性。参数设置为，干扰和用户的频带为20MHz,频谱感知的频率分辨率为100kHz，用户每1ms进行一次全频段感知，并将感知到的频谱数据保持200ms，因此，S_t矩阵大小为200×200，用户信号带宽为4MHz，用户中心频率每10ms改变2MHz，所以K＝9。用户和干扰的信号波形均为升余弦波，滚降系数为α＝0.5。干扰功率为30dBm，用户的信号功率为0dBm。解调门限β_th为10dB,换频切换代价λ为0.2。在实施例1中，我们考虑2种固定干扰模式：1、扫频干扰，扫频速度为1GHz/s；2、梳状干扰，3个固定干扰频率，分别为2MHz,10MHz，18MHz。

图4是本发明实施例1中对抗固定干扰模式的频谱瀑布图，从图中可以看出，扫频干扰由于线性的频率变化呈现对角线，而梳状干扰表现为许多垂直的条纹，用户的信号为矩形的方块，用户信号和干扰信号没有重叠，说明经过抗干扰学习后，用户基本避开了固定模式的干扰。

图5是本发明中实施1中对抗固定模式干扰的输出信息量的图，其中输出的信息量已经进行归一化，从图中可以看出，随着迭代次数的增加，设备的学习情况变得更好，避开固定模式的干扰，最终达到稳定信息输出。

实施例2

本发明的第二个实施例具体描述如下，系统仿真采用python语言，基于caffe深度学习框架，参数设定不影响一般性。该实施例验证所提模型与方法的有效性，图4验证对抗固定干扰模式的有效性，图5验证对抗动态干扰和智能干扰的效性。参数设置为，干扰和用户的频带为20MHz,频谱感知的频率分辨率为100kHz，用户每1ms进行一次全频段感知，并将感知到的频谱数据保持200ms，因此，S_t矩阵大小为200×200，用户信号带宽为4MHz，用户中心频率每10ms改变2MHz，所以K＝9。用户和干扰的信号波形均为升余弦波，滚降系数为α＝0.5。干扰功率为30dBm，用户的信号功率为0dBm。解调门限β_th为10dB,换频切换代价λ为0.2。在实施例2中，我们考虑动态干扰模式和智能干扰模式：1、动态干扰，每100ms在扫频干扰和梳状干扰间随机切换；2、智能梳状干扰，通过计算用户在过去100ms内的选频概率选择梳状干扰频率。

图6是本发明实施例2中对抗动态及智能干扰模式的频谱瀑布图，图中红色三角形表示干扰模式的变换时刻，黑色方块表示用户信号被干扰的位置(时间、频点)。从图中可以看出，在动态干扰和智能干扰条件下，虽未预先对干扰的动态性和智能性建模，抗干扰学习依旧能够保证用户有效地避开大部分干扰。

综上所述，本发明提出的深度Q神经网络抗干扰模型，充分考虑了抗干扰问题中干扰智能性强、干扰决策估计困难、学习决策空间庞大的问题，比传统模型更有实际意义；提出的基于深度Q神经网络抗干扰模型的智能抗干扰算法，能够实现对提出模型的有效求解，求出用户的抗干扰功率控制策略，有效地应对动态及智能干扰。

Claims

1.一种深度Q神经网络抗干扰模型，其特征在于，对该模型做如下刻画：一组发射端和接收端对为一个用户，一个用户进行通信，一个或多个干扰机对用户通信实施干扰；在动态未知环境中，将接收端的频谱瀑布图作为学习的输入状态，计算干扰的频域和时域特征，最终获取干扰的策略，并采用深度Q神经网络对Q函数进行拟合，作为该模型的决策依据。

2.根据权利要求1所述的深度Q神经网络抗干扰模型，其特征在于，用户接收端的信干噪比SINR表示为：

其中，j＝1,…,J表示干扰；

模型中的离散频谱采样值定义为：

3.根据权利要求1所述的深度Q神经网络抗干扰模型，其特征在于，所述的在动态未知环境中，将接收端的频谱瀑布图作为学习的输入状态，计算干扰的频域和时域特征，最终获取干扰的策略，具体如下：

4.根据权利要求3所述的深度Q神经网络抗干扰模型，其特征在于，所述的环境状态中，S∈{S₁,S₂,...}表示当前的传播环境状态，a∈{f₁,f₂,...,f_K}是用户的频率选择策略，P(S′|S,a)表示用户的频率选择策略a由状态S变为状态S′的转移概率；

对于立即回报r定义为：

5.一种基于深度Q神经网络抗干扰模型的智能抗干扰算法，其特征在于，包括以下步骤：

循环步骤2～5，直至达到最大迭代次数，算法结束。

6.根据权利要求5所述的基于深度Q神经网络抗干扰模型的智能抗干扰算法，其特征在于，步骤1中所述的通过深度Q神经网络得到拟合对应的Q值表，具体如下：

7.根据权利要求5所述的基于深度Q神经网络抗干扰模型的智能抗干扰算法，其特征在于，步骤4所述的根据该策略的回报值和下一时刻环境状态进行样本训练，并将训练经验(S_t,a,r,s_t+1)储存到D中，判断样本训练次数是否大于门限如果否，继续进行样本训练；如果是，对转移状态矩阵进行随机抽样，获取某个状态和相应行动策略，并计算目标值，具体如下：

8.根据权利要求5所述的基于深度Q神经网络抗干扰模型的智能抗干扰算法，其特征在于，步骤4中所述的计算梯度并更新权值，具体如下：

Q学习在第i次迭代使用如式(8)所示损失函数：

L_i(θ_i)＝E_e～U(D)[(y_i-Q(S,a；θ_i))²] (8)

其中，L_i(θ_i)表示损失函数，表示求梯度运算。