CN109274456A

CN109274456A - 一种基于强化学习的不完全信息智能抗干扰方法

Info

Publication number: CN109274456A
Application number: CN201811051896.0A
Authority: CN
Inventors: 黎伟; 王军; 李黎; 党泽; 王杨
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-09-10
Filing date: 2018-09-10
Publication date: 2019-01-25
Anticipated expiration: 2038-09-10
Also published as: CN109274456B

Abstract

本发明属于无线通信技术领域，涉及一种基于强化学习的不完全信息智能抗干扰方法。本发明首先根据干扰源数量和无线信道模型构造干扰环境模型；根据合法用户通信质量指标构造效用函数，并把该效用函数作为学习中的回报；将不同时隙采样的频谱信息构建成频谱时隙矩阵，用该矩阵描述干扰环境状态。环境状态通过由卷积层、激活函数、池化等组成的卷积神经网络输出对应状态的抗干扰策略。合法用户通过对不同子信道上发射功率的调整和信道选择实现智能抗干扰策略调整。卷积神经网络输出的抗干扰策略通过环境反馈计算回报值。回报值、环境状态和当前抗干扰策略构成经验组，存储在经验池中。抽取经验池中的经验组完成对卷积神经网络的训练和参数跟新。

Description

一种基于强化学习的不完全信息智能抗干扰方法

技术领域

本发明属于无线通信技术领域，涉及一种基于强化学习的不完全信息智能抗干扰方法。

背景技术

随着无线通信技术的发展，无线通信系统面临的电磁环境日益复杂恶劣，既可能会遭受来自己方通信的非故意干扰，也可能会受到敌方故意释放的干扰信号影响。为了保证干扰环境下的正常通信，针对通信对抗中出现的多种干扰手段，相应的抗干扰方法也应运而生。传统的抗干扰手段均针对干扰源的静态干扰方式，采取固定抗干扰策略。然而，随着干扰手段的智能化，干扰源可以根据合法用户通信状态的改变动态调整干扰策略，从而使得传统抗干扰方法无法保证合法用户在此动态干扰环境下的正常通信。因此有必要针对干扰源的动态干扰策略采取相应的智能抗干扰策略，保证合法用户在动态干扰环境下的正常通信。

目前，针对干扰源的动态干扰手段主要采用基于博弈理论的方式进行抗干扰策略动态调整。该方法构造与合法用户通信质量相关的效用函数，在每一次博弈中，把接收到的干扰策略作为约束条件，通过最大化效用函数实现抗干扰策略调整。通过多次博弈达到博弈均衡，得到在动态干扰策略下的最优通信策略。具体可参考：Luliang Jia,etc.,“AHierarchical Learning Solution for Anti-Jamming Stackelberg Game withDiscrete Power Strategies”,IEEE Wireless Communications Letters,vol.6,no.6,December 2017；Beibei Wang,etc.,“An Anti-Jamming Stochastic Game for CognitiveRadio Networks”,IEEE Journal on Selected Areas in Communications,vol.29,no.4,Apr.2011。该方法需要合法用户完全已知或者能够完美估计出干扰源的干扰策略。然而，现实中干扰源的干扰手段很难获取或者进行完美估计。因此基于已知干扰策略的完全信息博弈抗干扰方法很难实际应用。

发明内容

针对上述技术问题，本发明提出了一种基于强化学习的不完全信息智能抗干扰决策，用于针对动态的干扰策略进行干扰抑制，保证合法用户的正常通信。

本发明根据干扰对抗中合法用户和干扰者策略的动态性，在博弈理论基础上通过强化学算法实现合法用户在不完全估计干扰源干扰方法的情况下做出通信策略动态调整。本发明首先根据干扰源数量和无线信道模型构造干扰环境；根据合法用户通信质量指标构造效用函数，并把该效用函数作为学习中的回报；将不同时隙采样的频谱信息构建成频谱时隙矩阵，用该矩阵描述干扰环境状态。环境状态通过由卷积层、激活函数、池化等组成的卷积神经网络输出对应状态的抗干扰策略。合法用户通过对不同子信道上发射功率的调整和信道选择实现智能抗干扰策略调整。卷积神经网络输出的抗干扰策略通过环境反馈计算回报值。回报值、环境状态和当前抗干扰策略构成经验组，存储在经验池中。最后抽取经验池中的经验组完成对卷积神经网络的训练和参数更新。该学习机制一直持续，直到学习结果收敛于博弈均衡条件。

利用本发明所提出抗干扰策略进行合法用户智能抗干扰方案实现包括以下步骤：

S1，智能抗干扰方案各个算法模块定义：干扰环境定义、干扰环境状态定义、回报函数定义、抗干扰策略定义、经验存储池定义。

S2，将环境状态信息，即频谱时序矩阵通过卷积神经网络得到抗干扰策略，该策略作用于干扰环境，观测抗干扰策略在当前干扰环境下的回报值。

S3，将当前抗干扰策略、干扰环境状态和抗干扰策略下的回报值构成经验组存储到经验池。

S4，从经验池中抽样经验组对卷积神经网络进行训练和参数跟新。

S5，判断学习机制是否满足停止条件，若满足则停止学习得到最后抗干扰策略；否则回到S2继续学习。

进一步的，上述步骤S1包括以下步骤：

S1.1，干扰环境定义：根据干扰者数量、干扰方式和无线信道模型定义干扰环境。

S1.2，干扰环境状态定义：将不同时隙测得的频谱信息构成频谱时隙矩阵，频谱时隙矩阵大小由观测频谱范围和观测时隙长度决定。

S1.3，回报函数定义：根据合法用户的通信质量指标构造反馈回报函数。

S1.4，抗干扰策略定义：将不同子信道上的发射功率组合定义为抗干扰策略集。

S1.5，经验存储池定义：预设一个固定大小的经验存储池，用于存储由当前抗干扰策略、环境状态和环境回报组成的经验组。

进一步的，上述步骤S2包括以下步骤：

S2.1，环境状态矩阵通过构造的卷积神经网络。其中，卷积神经网络包括多个卷积层、多个池化层和多个全连接层，最后输出与各抗干扰策略对应的状态行为值。

S2.2，根据卷积神经网络输出的状态行为值向量采用∈-greedy算法进行策略行为选择。并将所选择的策略行为作用于步骤S1.2中定义的环境,计算S1.3中定义的回报函数值。

进一步的，上述步骤S3包括以下步骤：

S3.1,将步骤S2.2中的策略行为作用于S1.2中定义的环境计算下一步转移后的环境状态。

S3.2,定义一个容量为M的经验池，并将S2.1中的当前环境状态、S2.2中选择的策略行为、S2.2中得到的回报函数值和S3.1得到的下一步环境状态构成经验组存储在经验池中。

进一步的，上述步骤S4包括以下步骤：

S4.1，从S3.2中经验池中随机抽取一定数量的经验组用于卷积神经网络参数的训练和更新。

S4.2，卷积神经网络参数的训练通过S4.1中抽取的经验组中的当前状态和下一步状态通过卷积神经网络得到对应的状态行为值，并构建对应的损失函数，通过最小化损失函数进行网络参数的更新。

本发明的有益效果为：

本发明基于强化学习机制完成通信对抗中的博弈过程，克服了传统基于博弈理论的通信对抗中需要完全博弈信息的缺点，省略通信对抗过程中的理想化假设，使得本发明中的抗干扰策略更加贴近实际应用。

附图说明

图1为本发明设计的基于强化学习的不完全信息干扰抑制算法处理框架；

图2为本发明设计的卷积神经网络结构；

图3为本发明设计的算法与完全信息博弈算法、随机抗干扰策略选择方法对比。

具体实施方式

为使本发明的步骤更加详细清楚，以下结合附图和实施案例对本发明进一步详细说明。

实施例一

图1是本发明算法具体实施方法，下面结合图1详细说明各个步骤及其原理。

本发明提出的基于强化学习的不完全信息抗干扰方法算法实现框架如图1(左)所示。步骤S1中S1.1中完成干扰和无线环境建模。场景中多个干扰源对合法通信链路进行干扰，干扰方式可包括但不局限于：单音干扰、多音干扰、线性扫频干扰、部分频带干扰和噪声跳频干扰五种干扰。干扰源可以通过调整干扰参数或者切换干扰方式实现对合法用户的干扰动态调整。五种干扰方式具体数学模型如下：

(1)单音干扰

单音干扰信号的复基带表达式为：

其中，A为单音干扰信号幅度，f_J为单音干扰信号频率，为单音干扰初始相位。

(2)多音干扰

多音干扰信号的复基带表达式为：

其中，A_m为多音干扰中的第m个单音干扰幅度，f_m为第m个单音干扰的频率，为第m个单音干扰的初始相位。

(3)线性扫频干扰

线性扫频干扰信号的复基带表达式为：

其中，A是幅度，f₀是初始频率，k是调频系数，是初始相位，T是信号时长。

(4)部分频带干扰

部分频带噪声干扰在部分频带内表现为高斯白噪声，其复基带的表达式：

其中，U_n(t)为服从均值为零，方差为的基带噪声，f_J为信号的中心频率，为[0,2π]内均匀分布且相互独立的相位。

(5)噪声调频干扰

噪声调频信号的复基带可以如下表示：

其中，A为噪声调频信号的幅度，f₀为噪声调频信号的载波频率，k_fm为调频指数，ξ(t)为零均值、方差为一定值的窄带嘎斯白噪声。其中是一个维纳过程，属于一个的高斯分布。调频指数k_fm和方差共同决定了噪声调频的有效带宽。

干扰源根据最大干扰效果动态选择干扰方式和相应的参数。

合法用户的抗干扰决策过程如图1(右)所示。合法用户抗干扰策略通过环境中无线频谱信息采样，计算回报函数值R，计算环境状态矩阵S；根据回报函数、环境状态和当前抗干扰策略构建历史经验；神经网络根据当前环境状态矩阵进行下一步抗干扰行为选择，并将该抗干扰策略作用于环境，同时根据历史经验进行参数的更新；整个算法迭代进行直到算法收敛。具体的，该算法的具体实施步骤如下：

本发明中步骤S1.2、S1.3和S1.4分别完成环境状态设计、回报函数的设计和抗干扰策略的设计。在多子信道情况下，合法链路接收端在子信道上接收的信号可表示为：

其中m∈{1,…,N}是信道索引号，N是信道个数；x_t是有用发射信号，x_j是干扰信号，是子信道上高斯白噪声；j∈{1,…,J}是干扰源索引号，J是干扰源个数；t是时序索引号；表示合法通信用户间的信道，表示干扰源到合法用户接收机的干扰信道。因此，合法用户接收端可获得的信干噪比和可达速率可表示为：

其中是子信道上的等效信道增益，是对应噪声功率。接收端在时刻t的可达速率可表示为N个子信道上的速率总和：

抗干扰决策之前，首先通过对无线环境的采样得到每个子信道上对应的功率，所有子信道的功率构成功率向量P＝[p_t,1,p_t,2,…,p_t,N]，其中N对应子信道数目。状态矩阵S由多个历史功率向量构成S_t＝[P_t-1 P_t-2 … P_t-τ]^T，其中τ是观测时间窗。同时考虑到抗干扰策略在发射功率方面的限制，本发明中设计的回报函数考虑了所采用的抗干扰策略同时在信干噪比上的增益和功率开销，具体表达式如下：

其中是干扰源在信道上的干扰功率；函数表示当f_j＝m时，输出1，否则输出0；是发射功率开销。

由于受到干扰源的影响，在某些子信道上的干扰强度较大，可以通过调整相应信道上的发射功率，保证在可控功率范围内最大化链路通信质量。因此本发明中在每个子信道上的抗干扰策略为在该子信道上的发射功率。本发明中将子信道上的发射功率按照最大发射功率离散化为L个等级。因此对于子信道m，其抗干扰策略集表示为其中m∈{1,…,N},l∈{1,…,L}。

发明步骤S1中S1.5步骤中定义了经验组和经验池，通过对历史经验的存储和抽样提供后续步骤中的神经网络的训练和参数更新。根据图1的算法结构描述，发明中定义了容量大小为M_e的经验池，可存储M_e条历史经验。通过步骤S1中S1.2-S1.5得到的当前环境状态S，回报函数值R，当前抗干扰策略a(t)和转移环境状态S_-构建经验组{S,R,a(t),S_}。该经验组被逐条存入经验池中，当经验池中存储的经验组条数达到容量上限，存储时间最长的经验组被新进的经验组覆盖。

在发明步骤S2步骤S2.1中，由步骤S1.2中得到的频谱时隙矩阵作为环境状态矩阵通过卷积神经网络net_target，参考图1(右)对应的net_target神经网络，输出与抗干扰策略集对应的Q(·|θ^t)值向量，其中θ^t是当前卷积神经网络参数。卷积神经网络结构如图2所示，具体网络细节参考实施例二。在发明步骤S2步骤S2.2中，将步骤S2.1中输出的Q(·|θ^t)值向量通过∈-greedy算法进行策略选择，得到该子信道上当前步骤下的最佳发射功率其中∈-greedy算法进行策略选择计算方式如下：

步骤S3中步骤S3.1中将S2.2中得到的策略作为当前信道m上的发射功率，下一次计算环境状态时根据新的发射功率和干扰模型进行计算。步骤S3中步骤S3.2中，按照S1.5中定义的经验存储池的容量和结构，将S2.1中的当前环境状态、S2.2中选择的策略行为、S2.2中得到的回报函数值和S3.1得到的下一步环境状态构成经验组{S,A,R,S_}存储在该经验池中。当存储的经验组达到经验组的容量上限时，最新的得到的经验组存储在最旧经验组存储的存储单元中，覆盖该最旧经验组。

在步骤S4中步骤S4.1中，根据预设定的batch_size大小从步骤S3中的经验存储池中抽取对应个数的经验组完成神经网络net_eval，对应图1(右)中net_eval部分，的网络参数训练。Net_eval网络的训练通过最小化其损失函数Loss_function实现，其中Loss_function的定义如下：

y_t＝R_t+γQ^t-1(S_t+1,Q^t-1(S_t|θ^t-1)|θ^t-1) (12)

其中，表示求期望操作，Q(S_t,a(t)|θ^t)表示依赖于当前神经网络参数θ^t的状态行为值函数，γ表示长期回报折扣因子。因此每次学习训练后，net_eval的参数被更新为θ^t。当训练步数达到更新步数I时，将net_eval中的网络参数复制到net_target神经网络中完成net_target网络参数的更新。

在步骤S5中，随着训练的持续进行，回报函数R逐渐收敛到其最优值。本发明中计ζ步R的均值变化情况，当该均值变化足够小时认为训练收敛，停止该算法，并把最终输出的策略当做抗干扰的的最终策略。收敛的判定方式如下：

其中υ是判定收敛的终止条件，设置为一个非常小的正值。

实施例二

本发明所提出的用于抗干扰决策的卷积神经网络结构如图2所示：根据频谱采样信号构造128×128的频谱时隙状态矩阵作为卷积神经网络的输入；然后经过三个卷积层、两个池化层和两个全连接层输出Q(·|θ^t)值向量，Q(·|θ^t)用于后续∈-greedy算法进行抗干扰决策和net_eval网络的训练。具体的，卷积神经网络中所的卷积层、池化层和运算如下：

假设卷积运算的输入数据为I，相应的卷积核K与输入数据的维度相同。以三维输入数据为例(当输入数据为二维时，可将第三维看成1)。卷积操作要求卷积核K第三维与输入数据I第三维相同，用w₁,w₂,w₃表示各三个维度，经过卷积操作后，输出为：

在卷积神经网络池化操作通常包括最大化池化、均值池化，其计算方法如下：

均值池化：

最大值池化：

本发明中采用了最大值池化。

具体的，本实施例中，每一层结构如图2所示，每层结构具体描述如下：

卷积神经网络第一层为输入层，其输入尺寸由子信道个数和观测时隙长度决定。在网络模型中可用频谱划分为128个子信道，观测时隙为长度为128，因此输入状态矩阵维度为128×128。

卷积神经网络第二层有卷积、Relu激活函数和池化操作组成。具体的，来自输入层的状态矩阵首先经过卷积核尺寸为3×3的卷积操作，其中卷积核个数为20，卷积步长为1，采用ReLu作为激活函数。经过该操作后的输出结果维度为126×126×20。其中Relu激活函数操作为：

y＝max{0,x} (17)

再将该输出进行最大池化操作，池化尺寸为2×2。经过第一层的卷积池化操作后输出维度为63×63×20。

来自第二层的卷积池化操作后的输出通过卷积网络第三层，卷积操作得到31×31×30的输出。其中卷积核尺维度为3×3，卷积核个数为30，激活函数采用Relu函数,卷积步长为2。

卷积网络第四层将第三层的输出作为输入进行卷积操作，采用的卷积核尺寸为4×4，卷积核个数为30，卷积步长为2，并对w₁,w₂两个维度进行补零操作，补零个数为1。经过该层卷积操作后输出维度为15×15×30。并将改成卷积操作后的输出进行最大池化操作，池化尺寸为3×3，经过池化后输出维度为5×5×30。

卷积网络第五层为全连接层，在该层中构建1024个神经元，激活函数采用Relu函数。来自卷积神经网络第四层维度为5×5×30的输出被重组为维度为1×750的向量，经过该全连接层处理后输出维度1×360的向量。

卷积网络第六层为全连接层，在该层中构建128个神经元，激活函数采用Relu函数。来自卷积神经网络第五层的输出经过该全连接层处理后输出与抗干扰策略集维度对应的Q(·|θ^t)值向量，输出维度为1×128。该向量在后续处理中分别经过epsilon-greedy算法进行抗干扰策略选择和对net_eval网络进行网络参数训练。

进一步地，图3展示了本发明中基于强化学习的非完全信息算法性能。在图3中对比了基于完全信息博弈的抗干扰策略和随机扰干扰策略选择方法。从图中可以看出，本发明中所提出的算法回报函数最后收敛至与基于完全信息博弈的方法回报函数值，有较好的收敛效果。但是本算法博弈双方不需要完美知道对方的博弈策略，克服了博弈理论用于抗干扰策略选择时的完美假设，本发明的方法更为实用。

Claims

1.一种基于强化学习的不完全信息智能抗干扰方法，该方法用于在博弈理论基础上实现合法用户在不完全估计干扰源干扰方法的情况下做出通信策略动态调整，其特征在于，包括以下步骤：

S1、初始化定义，包括：

干扰环境：根据干扰者数量、干扰方式和无线信道模型定义干扰环境；

干扰环境状态：将不同时隙测得的频谱信息构成频谱时隙矩阵，频谱时隙矩阵大小由观测频谱范围和观测时隙长度决定；

回报函数：根据合法用户的通信质量指标构造反馈回报函数；

抗干扰策略：将不同子信道上的发射功率组合定义为抗干扰策略集；

S2、将干扰环境状态，即频谱时序矩阵通过卷积神经网络得到抗干扰策略，并将该策略作用于干扰环境，根据回报函数观测当前抗干扰策略下在干扰环境的回报值；

S3、将当前抗干扰策略、干扰环境状态和抗干扰策略下的回报值构成经验组存储到经验池；

S4、从经验池中抽样经验组对卷积神经网络进行训练和参数更新；

S5、判断学习机制是否满足预设的停止条件，若满足，则停止学习得到最后抗干扰策略；否则回到S2继续学习。

2.根据权利要求1所述的一种基于强化学习的不完全信息智能抗干扰方法，其特征在于，步骤S1中所述的回报函数为：

其中，m∈{1,…,N}是信道索引号，N是信道个数，是干扰源在信道上的干扰功率，j∈{1,…,J}是干扰源索引号，J是干扰源个数；t是时序索引号；表示合法通信用户间的信道，为子信道发射功率，函数表示当f_j＝m时，输出1，否则输出0；是发射功率开销。

3.根据权利要求2所述的一种基于强化学习的不完全信息智能抗干扰方法，其特征在于，所述步骤S4的具体方法为：

卷积神经网络参数的训练，通过抽取的经验组中的当前状态和下一步状态通过卷积神经网络得到对应的状态行为值，并构建对应的损失函数，通过最小化损失函数进行网络参数的更新。