CN111182549B

CN111182549B - 一种基于深度强化学习的抗干扰无线通信方法

Info

Publication number: CN111182549B
Application number: CN202010004409.6A
Authority: CN
Inventors: 王员根; 叶培根; 李进; 王捍贫
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2020-01-03
Filing date: 2020-01-03
Publication date: 2022-12-30
Anticipated expiration: 2040-01-03
Also published as: CN111182549A

Abstract

本发明涉及无线通信技术，具体为基于深度强化学习的抗干扰无线通信方法，包括以下步骤：使用两个卷积神经网络，一个卷积神经网络计算价值函数，另一个卷积神经网络基于价值函数的计算结果进行动作选择；在经验回放阶段采用优先级经验采样，使得优先级较高的经验样本被优先采样，并基于经验样本更新卷积神经网络的参数，再通过更新后的卷积神经网络计算、更新所有经验样本的优先级；采用前向动作保留策略，设计类高斯函数来判断当前动作价值的大小，动态调控当前动作被继续执行的概率。本发明可以智能选择最佳发送功率和通信频段，提升整体系统的学习速度，还可以在未知第三方攻击者模型的情况下，学习出最优的发送方式。

Description

一种基于深度强化学习的抗干扰无线通信方法

技术领域

本发明涉及无线通信技术，具体为基于深度强化学习的抗干扰无线通信方法。

背景技术

在无线通信中，发送设备向接收设备发送信息时所使用的频段非常容易遭受到第三方的攻击，从而大大降低了通信效率。在诸多攻击中，堵塞攻击是最主要的攻击方式。堵塞攻击者通过扫频等方式以一定的功率同时攻击多个频段。由于受到攻击的频段未知，随机跳频选择通信频段的策略变得非常低效。因此，高效的智能频段选择技术成为迫切需要。同时，目前大多数发送设备都是采用恒定功率发送信号，这种方式在时变信道环境下将变得低效。如果能够保持平均发送功率恒定的情况下，发送设备通过判断之前遭受攻击的强度智能调整发送功率，那么将大大提升无线通信的性能和效用。

于2019年5月28日公开的发明申请CN109818648A(发明人为孙慧贤等)，提出了一种基于伪随机线性调频的多序列跳频抗干扰通信方法，在线性调频信号中，把调频斜率用一个可控的伪随机数代替；在此基础上，将其与多序列跳频技术进行结合；每一跳的载波频率与一个伪随机线性调频信号混频，并且保证伪随机线性调频信号的扩展带宽小于信道带宽，产生了一种通信抗干扰波形。其立足于多序列跳频，以进一步提升多序列跳频通信抗干扰能力为研究起点，提出了基于伪随机线性调频的多序列跳频抗干扰通信方法。该发明申请存在的缺点是：1)、在不知道攻击者所攻击的具体频段的情况下，无法保证随机跳频技术的通信效率。因为选择频段是随机的，不是通过学习攻击者行为而做出的决定。2)、该发明申请只适用于采用跳频技术进行频段选择的通信场景，无法进行信道自适应地选择发送功率。

于2019年5月7日公开的发明申请CN109729542A(发明人为李勇才等)，描述了一种一对多抗干扰无线通信方法，先在主机及n个分机内均设置独立的地址码，然后主机将数据变量转换为数据包，并发送带有第一分机地址码的数据包至第一分机；分机接收到数据包后，比较地址码，若地址码一致，则处理相应分机的数据变量，并发送确认包至主机；主机发送完数据包后，进行延时并重复发送步骤至下一分机，直至最后分机，最后重复转换以及发送步骤。通过该方法，有效防止受到范围内其他主机或分机的干扰。该方案存在的缺点是：1)、对于分机的数目n很难调控和优化。2)、该方法依赖于分机进行信息转发，而分机数目越多，被攻击的可能性就越大。同时，无法依据攻击进行发送策略上的调整。

于2019年4月16日公开的发明申请CN109639374A(发明人为黎海涛等)，描述了一种基于强化学习算法的认知抗干扰通信方法。首先，利用频谱感知获得无干扰的信道和功率，形成由不同频率信道和发射功率组合的子集，并标记各个子集的索引值，所有这些子集构成候选资源集合；然后，在初始时刻，每一个节点遍历所有子集，计算节点对于每个子集的度量值，得到节点所对应的所有子集度量值的集合；再次，节点从对应度量值的集合中选择最大度量值所对应的一个子集，更新该子集对应的度量值；最后，在时间范围T内迭代计算度量值，其中最大度量值对应的子集即可使节点吞吐量最大化。该发明申请利用强化学习算法学习到最优策略，各个节点进行独立调整信道选择和功率分配，使抗干扰通信系统吞吐量最大化，达到抗干扰的目的。该方案存在的缺点是：1)、需要人工构造不同频率信道和发射功率组合的子集，一旦子集扩张或者维度增加，那么计算量将呈几何倍增加，很难适用于实时通信应用；2)、该发明需要在时间范围T内迭代计算度量值，其中度量值的计算过程较为复杂，运行速度非常慢；3)、该发明使用的是传统强化学习算法，需要大量的内存进行状态价值的存储，当问题的维度扩大时，该发明实现困难。

总而言之，针对无线通信的抗干扰问题，研究者们已经提出了多种解决方案，如跳频方法、非协调跳频方法和传统强化学习方法等。但是跳频方法很难选择到最优频段，传统强化学习方法又在动作集较大的时候无法快速求出最优策略，而且它们只能应用于恒定攻击的情况。因此，发明一种能够根据当前环境自适应调控发送功率和智能选择通信频段的无线通信技术具有重大意义。

发明内容

为解决现有技术所存在的技术问题，本发明提供基于深度强化学习的抗干扰无线通信方法，使得发送设备可以智能选择最佳发送功率和通信频段，并且应用前向动作保留法以提升整体系统的学习速度；发送设备可以在未知第三方攻击者模型的情况下，学习出最优的发送方式，并且达到较高的信噪比。

本发明采用以下技术方案来实现：一种基于深度强化学习的抗干扰无线通信方法，包括以下步骤：

使用两个卷积神经网络，其中一个卷积神经网络计算价值函数，另一个卷积神经网络基于价值函数的计算结果进行动作选择；

在经验回放阶段采用优先级经验采样，使得优先级较高的经验样本被优先采样，并基于经验样本更新卷积神经网络的参数，再通过更新后的卷积神经网络计算、更新所有经验样本的优先级；

采用前向动作保留策略，设计类高斯函数来判断当前动作价值的大小，动态调控当前动作被继续执行的概率。

本发明与现有技术相比，具有如下优点和有益效果：

1、设计了一种使用强化学习和双层深度神经网络相结合的方法，帮助发送设备在不知道攻击者模型的情况下，自动选择最优的发送功率和通信频段。由于使用了深度强化学习，而不再局限于传统强化学习，不仅提升了学习速率，更重要的是在提升了系统内存利用率的同时，提升了信噪比。

2、将信道当前信噪比作为模型当前状态，将选择动作后的系统效用作为模型的反馈奖励，通过对先前大量通信数据的学习来确定最优动作的选择策略；使用双层相同结构的卷积神经网络对价值函数进行估计，可以有效降低单层网络动作选择和价值估计之间的关联性。

3、本发明的经验回放部分采用了基于优先级的采样策略，提升了模型的收敛速度和学习速度。同时，采用前向动作保留策略，确保在当前时刻能够高概率直接执行上一时刻高价值的动作，从而极大提升了模型的学习速度。

4、不再限制于通过跳频技术随机选择通信频段，而是依据于对攻击者攻击模式的学习，自动选择最优的通信频段，即被攻击的可能性最小的频段。

5、不需要分机进行转发，不需要优化调整分机数目，同时针对攻击可以自动选择最优的发送功率；因此，本发明在没有攻击时选择较小能量发送，在有攻击时随着攻击强度的增加，会自动增加发射功率。

附图说明

图1是双层卷积神经网络模块的数据处理流程图；

图2是基于优先级的经验回放流程图；

图3是前向动作保留算法的流程图；

图4是本发明技术与随机跳频技术的对比图；

图5是本发明技术与传统强化学习技术的对比图；

图6是本发明技术与深度强化学习技术的对比图；

图7是本发明技术采用前向动作保留算法与未采用该算法技术方案的对比图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

本发明的基本思想和原理可表述如下：采用强化学习与深度神经网络相结合的方法，使得发送设备可以在较短时间内选择出最优的发送功率和通信频段。首先，使用两个卷积神经网络，一个用于价值函数的计算，另一个用于动作的选择，这能有效降低单网络动作选择和价值估计之间的关联性；其次，在经验回放阶段采用优先级经验采样，使得优先级较高的经验样本被优先采样，由于不同样本对于学习效率的提升不同，采用优先级的方式使得对学习效率提升贡献大的样本能够被优先采样，这进一步提升了效用函数的收敛速度；再次，提出了一种新的前向动作保持算法，即当前一个动作所带来的价值越大，那么这个动作在当前被直接执行的概率就越大；最后，设计一个类高斯函数来判断前一个动作价值的大小，并动态调控该动作被继续执行的概率。

在本实施例中，抗干扰无线通信方法主要通过三个模块来实现：(1)双层卷积神经网络模块，见图1；(2)基于优先级的经验回放模块，见图2；(3)前向动作保留算法模块，见图3。抗干扰无线通信方法的具体流程如下所述：

(1)双层卷积神经网络模块

本模块使用两个卷积神经网络，一个卷积神经网络计算价值函数，另一个卷积神经网络基于价值函数的计算结果进行动作选择，从而有效降低单网络动作选择和价值估计之间的关联性。另一个卷积神经网络是从可选择动作集中进行动作选择的；在本模块中，可选择动作集是一个由S个发送功率和N个可选择通信频段组成的集合。

神经网络是一种非线性函数逼近器，它在每个时间节点k通过：

来评估Q值，其中s^(k)是k时刻的信道状态，s^(k+1)是k+1时刻的信道状态，a^(k)是k时刻选择的动作，

是k时刻的环境奖励，γ是衰减因子，a'是k+1时刻所有可以选择的动作。本实施例使用卷积神经网络作为深度网络，它有两个卷积层和两个全连接层，第一个卷积层有20个大小为3×3、跨距为1的过滤器，第二个卷积层有40个大小为2×2、跨距为1的过滤器。在两个卷积层中都采用整流线性单元(ReLUs)作为激活函数。第一个全连接层有180个ReLUs，第二个全连接层有S×N输出，S为可选发射功率的数目，N为可选通信频段的数目。根据CNN的输出，发送者选择最佳的发送功率。

本发明创建了两个相同结构的卷积神经网络Q₁、Q₂，其网络参数分别为θ₁、θ₂,在反向梯度更新的时候只更新θ₁，然后定期将θ₁的值赋给θ₂。其中Q₁网络用于选择最大价值对应的动作a_max：

Q₂网络用于计算目标Q值

其中

为k+1时刻神经网络的输入，a'为k+1时刻所有可以选择的动作。

(2)基于优先级的经验回放模块

在经验回放阶段采用优先级经验采样，使得优先级较高的经验样本被优先采样，并基于经验样本更新卷积神经网络的参数，再通过更新后的卷积神经网络计算、更新所有经验样本的优先级。本模块的任务是将原本的随机采样变为基于优先级的采样，极大提升模型的收敛速度。

经验采样中的样本存储于SUM-TREE中，初始状态下给每一个样本赋予一个相同的优先级q，因此每个样本被采样的概率为：

其中k为时间节点，i表示第i个样本。

接下来，使用采样得到的经验样本，通过时序差分算法更新卷积神经网络参数。卷积神经网络的损失函数定义如下：

其中M为采样样本总数，

为目标Q值，ω_i为采样重要性权重。

最后，通过更新后的卷积神经网络计算，更新所有经验样本的优先级：

(3)前向动作保留算法模块

采用前向动作保留策略，设计类高斯函数来判断当前动作价值的大小，动态调控该当前动作被继续执行的概率。

本模块使用一个概率值δ来表示上一个被选择的动作继续在当前时刻不经过网络计算直接执行的概率，同时提出一种判断已选择动作价值的标准。

在此使用

表示在时间节点k的系统效用，

表示前t个时间节点的效用平均值，通过比较

与

差值的大小，来判断当前动作的价值大小，如果差值大，那么被继续执行的概率也相应提升，δ控制函数如下：

其中σ₁，σ₂为步长控制参数。依据δ控制函数，那么对于当前时刻而言，便有了两种动作执行可能，其中有δ的概率会直接执行上一个动作，有1-δ的概率会通过卷积神经网络进行计算而得到最优的动作。

本发明方案通过与随机跳频技术、传统强化学习技术、深度强化学习技术等技术所带来的信道信噪比值进行比较，来验证本发明的作用和意义。其中本发明与随机跳频技术对比见图4，与传统强化学习技术对比见图5，与深度强化学习技术对比见图6。同时，在采用了前向动作保持算法之后，比较采取之前和采取之后的系统信噪比，见图7。

由图4-6可知，采用了双层卷积网络和优先级经验回放策略的深度强化学习技术的性能远远高于随机跳频技术，传统强化学习技术和深度强化学习技术，无论是在收敛速度还是最终信噪比值方面。这证明本发明可以在较短的时间内选择出最优的动作，即发送功率和通信频段。由图7可知，在应用了前向动作保留算法之后，本发明的算法效率再次得到了一定的提升，这意味着该算法在实际应用中有一定的价值，同时也能极大提升模型的收敛速度。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。