CN112423234B

CN112423234B - 基于强化学习的无人机辅助物联网抗敌意干扰方法和系统

Info

Publication number: CN112423234B
Application number: CN202011312164.XA
Authority: CN
Inventors: 赵睿; 张孟杰; 周洁; 王培臣
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2022-07-08
Anticipated expiration: 2040-11-20
Also published as: CN112423234A

Abstract

本发明公开了一种基于强化学习的无人机辅助物联网抗敌意干扰方法，包括：建立抗敌意干扰攻防Stackelberg博弈模型，其中地面传感器节点、无人机和智能干扰机为博弈的三个参与者；推导所述抗敌意干扰攻防Stackelberg博弈模型中的博弈均衡点及其存在条件，所述博弈均衡点包括智能干扰机的最优干扰功率、无人机的最优发射功率、无人机的最优移动距离以及地面传感器节点的最优发射功率；在未知干扰模型的条件下，引入WoLF‑PHC算法动态优化地面传感器节点的发射功率、无人机的发射功率和无人机的移动轨迹。本发明公开了一种基于强化学习的无人机辅助物联网抗敌意干扰方法和系统，通过及时调整无人机轨迹或者发射功率来抵抗干扰信号强度可变的智能干扰。

Description

基于强化学习的无人机辅助物联网抗敌意干扰方法和系统

技术领域

本发明涉及物联网技术领域，特别涉及一种基于强化学习的无人机辅助物联网抗敌意干扰方法和系统。

背景技术

利用无人机(unmanned aerial vehicles，UAV)可控的机动性，可以解决物联网(Internet of Things，IoTs)覆盖范围受限的问题，IoTs与UAV的组合可实现更多样化的物联网应用。在一些地理环境复杂的地方，如灾区、高速公路和闹市等，物联网设备中的地面传感器节点(ground sensor nodes，GSN)到基站(base station，BS)的直达链路受损，UAV可以作为中继，辅助地面网络顺利通信。然而，无线电传播的广播性质使得UAV通信易遭受敌意干扰攻击，一旦无线链路被干扰，影响正常通信。

现有的无人机(unmanned aerial vehicles，UAV)抗敌意干扰方案通常采用单一的飞行轨迹或者跳频等策略，可抵御固定干扰功率的攻击，却对干扰信号强度可变的智能干扰机(Jammer)束手无策。其次，现有方案假设UAV对外界环境变化信息已知，由于无线信道的时变性，UAV的高移动性，以及随时可变的干扰强度，UAV无法精确获知当前信道增益或干扰信号强度等信息。相应的，UAV也无法及时调整自己的轨迹或者发射功率来抵抗智能干扰。

发明内容

本发明要解决的技术问题，在于提供一种基于强化学习的无人机辅助物联网抗敌意干扰方法和系统，通过及时调整无人机轨迹或者发射功率来抵抗干扰信号强度可变的智能干扰。

第一方面，本发明提供了一种基于强化学习的无人机辅助物联网抗敌意干扰方法，包括：

步骤10、建立抗敌意干扰攻防Stackelberg博弈模型，在所述抗敌意干扰攻防Stackelberg博弈模型中地面传感器节点、无人机和智能干扰机为博弈的三个参与者；

步骤20、推导所述抗敌意干扰攻防Stackelberg博弈模型中的博弈均衡点及所述博弈均衡点的存在条件，所述博弈均衡点包括智能干扰机的最优干扰功率、无人机的最优发射功率、无人机的最优移动距离以及地面传感器节点的最优发射功率；

步骤30、在未知干扰模型的条件下，引入WoLF-PHC算法动态优化地面传感器节点的发射功率、无人机的发射功率和无人机的移动轨迹。

进一步地，所述步骤10具体包括：

步骤11、在时隙k内，无人机在初始位置

收到地面传感器节点发送的信息，然后以速度

直线飞行到目标位置L^(k)，将信息转发给位于L_B的基站，智能干扰机对基站实施干扰；

步骤12、定义A_i为功率集，i∈(s,u,j)，其中s表示地面传感器节点，u表示无人机，j表示智能干扰机，D为无人机飞行距离动作集，|A_i|表示功率集中元素的个数，|D|表示动作集中元素的个数；

步骤13、地面传感器节点首先以发射功率

将信息传给无人机，无人机通过信号功率与飞行轨迹控制策略提高转发质量，无人机设置当前信号发射功率

之后控制目标飞行距离

飞到

和L_B之间的最优位置转发信息，其中D_u是无人机的最大可达飞行距离，智能干扰机在地面固定的位置，以功率

向基站持续发送干扰信号，降低无人机与基站之间的通信质量；

步骤14、将地面传感器节点定为领导者，无人机为副领导者，智能干扰机为追随者，三个参与者的目的均为最大化自己的效用函数，地面传感器节点、无人机和智能干扰机之间的先后行为建模为抗敌意干扰攻防Stackelberg博弈模型。

进一步地，所述步骤20中，推导出的博弈均衡点及所述博弈均衡点的存在条件，具体包括：

智能干扰机的最优干扰功率，公式如下：

其中，h_s为地面传感器节点的信道增益，h_u为无人机的信道增益，h_j为智能干扰机的信道增益，p_s为地面传感器节点的发射功率，p_u为无人机的发射功率，p_j为智能干扰机的发射功率，C_j为单位干扰信号功率损耗系数，σ为噪声功率；

无人机的最优发射功率，公式如下：

其中，C_u表示无人机的单位信号功率损耗系数，

Ω₁:

or

Ω₂:

or

其他:

无人机的最优移动距离，公式如下：

其中，D_u是无人机的最大可达飞行距离，D_B是无人机起始位置和基站位置之间的欧氏距离，

Ω₁:

or

or

or

or

Ω₂:

or

or

其他:

地面传感器节点的最优发射功率，公式如下：

其中，C_s表示地面传感器节点的单位信号功率损耗系数，C_r表示无人机的单位飞行距离损耗系数，D_r表示系统的参考距离，h_r表示无人机或者智能干扰机与基站的距离为参考距离D_r时的参考信道增益。

进一步地，所述步骤30具体包括：

步骤31、输入(k-1)时隙无人机的发射功率和移动距离以及智能干扰机的干扰功率，其中，k为当前时隙序号；

步骤32、通过WoLF-PHC算法确定地面传感器节点k时隙的发射功率；

步骤33、根据所述地面传感器节点k时隙的发射功率，通过WoLF-PHC算法确定无人机k时隙的发射功率和移动距离；

步骤34、根据所述地面传感器节点k时隙的发射功率和无人机k时隙的发射功率和移动距离，通过WoLF-PHC算法确定智能干扰机k时隙的最优干扰功率；

步骤35、判断是否达到博弈均衡点；若否，令k＝k+1，然后返回步骤31；若是，结束步骤。

第二方面，本发明提供了一种基于强化学习的无人机辅助物联网抗敌意干扰系统，包括：博弈模型建立模块、博弈均衡点推导模块以及动态优化模块；

所述博弈模型建立模块，用于建立抗敌意干扰攻防Stackelberg博弈模型，在所述抗敌意干扰攻防Stackelberg博弈模型中地面传感器节点、无人机和智能干扰机为博弈的三个参与者；

所述博弈均衡点推导模块，用于推导所述抗敌意干扰攻防Stackelberg博弈模型中的博弈均衡点及所述博弈均衡点的存在条件，所述博弈均衡点包括智能干扰机的最优干扰功率、无人机的最优发射功率、无人机的最优移动距离以及地面传感器节点的最优发射功率；

所述动态优化模块，用于在未知干扰模型的条件下，引入WoLF-PHC算法动态优化地面传感器节点的发射功率、无人机的发射功率和无人机的移动轨迹。

进一步地，所述博弈模型建立模块，具体用于执行如下步骤：

步骤11、在时隙k内，无人机在初始位置

收到地面传感器节点发送的信息，然后以速度

步骤13、地面传感器节点首先以发射功率

之后控制目标飞行距离

飞到

进一步地，所述博弈均衡点推导模块中，推导出的博弈均衡点及所述博弈均衡点的存在条件，具体包括：

智能干扰机的最优干扰功率，公式如下：

无人机的最优发射功率，公式如下：

其中，C_u表示无人机的单位信号功率损耗系数，

Ω₁:

or

Ω₂:

or

其他:

无人机的最优移动距离，公式如下：

Ω₁:

or

or

or

or

Ω₂:

or

or

其他:

地面传感器节点的最优发射功率，公式如下：

进一步地，所述动态优化模块，具体用于执行如下步骤：

本发明实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

通过联合优化无人机的发射功率和移动轨迹外，并进一步优化地面传感器节点的发射功率，将地面传感器节点、无人机和干扰机之间的交互建模为Stackelberg博弈模型，从而推导出博弈均衡点及其存在条件，揭示了无人机和基站距离等参数对无人机辅助物联网通信抗干扰性能的影响，从而对无人机抗敌意干扰策略进行优化；在未知信道信息和干扰模型的情况下，把地面传感器节点和无人机都当做智能体，对其分别应用WoLF-PHC算法提高系统抗干扰性能，和利用Q_learning的算法进行对比，本发明所提算法的优越性更加突出。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明实施例中方法的流程图；

图2为本发明实施例无人机辅助物联网抗干扰系统模型示意图；

图3为本发明实施例SE策略下GSN、UAV和Jammer的效益图；

图4为本发明实施例SE策略下的SINR值；

图5为本发明实施例应用WoLF-PHC算法优化的流程示意图；

图6为本发明实施例基于WoLF-PHC的抗敌意干扰算法性能示意图。

具体实施方式

为了使本领域技术人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本说明书实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都应当属于本申请的保护范围。

本申请实施例中的技术方案，总体思路如下：

本发明建立了抗敌意干扰攻防Stackelberg博弈模型，其中地面传感器节点、无人机和智能干扰机为博弈的3个参与者，推导出博弈均衡点及其存在条件，揭示了参与者的信道增益、距离等参数对物联网效用等性能的影响。在未知干扰模型的条件下，发明引入WoLF-PHC算法动态优化物联网节点的发射功率、无人机的发射功率和移动轨迹。

请参考图1，本发明实施例方法可以包括如下步骤：

具体的实现如下：

1、发明模型

如图2所示，抗敌意干扰攻防Stackelberg博弈模型中包含了地面传感器节点(GSN)、无人机(UAV)和智能干扰机(Jammer)。在时隙k内，无人机在初始位置

收到地面传感器节点发送的信息，然后以速度

直线飞行到目标位置L^(k)，将信息转发给位于L_B的基站，智能干扰机对基站实施干扰。定义A_i为功率集，i∈(s,u,j)，其中s表示地面传感器节点，u表示无人机，j表示智能干扰机，D为无人机飞行距离动作集，|A_i|表示功率集中元素的个数，|D|表示动作集中元素的个数。地面传感器节点首先以发射功率

之后控制目标飞行距离

飞到

向基站持续发送干扰信号，降低无人机与基站之间的通信质量。

将GSN的策略选择记为

UAV的策略选择为

Jammer的策略选择为

根据自由空间路径损耗模型，信道增益计算公式为：

分别表示GSN和UAV的欧氏距离，UAV和BS的欧氏距离以及Jammer和BS的欧氏距离，D_r表示系统的参考距离，h_r表示UAV或者Jammer与BS的距离为参考距离D_r时的参考信道增益，η_i是路径损耗因子，对于GSN-UAV和UAV-BS信道，η_s＝η_u＝2，Jammer-BS信道η_j＝4。UAV初始位置

与BS位置L_B之间的欧式距离记作D_B，取D_u＝D_B-D_r。

2、抗敌意干扰Stackelberg博弈

Stackelberg博弈又被称为主从博弈，包含了两种类型的参与者：领导者(leader)和追随者(follower)。本发明将GSN定为领导者(leader)，UAV为副领导者(副leader)，Jammer为follower，三个参与者的目的均为最大化自己的效用函数，GSN、UAV和Jammer之间的先后行为可以建模为Stackelberg博弈模型。博弈论中参与者的效用函数可用来评估收益，反应了参与者对选择某一策略后的满意程度。

BS接收信号的信干噪比(Signal to Interference plus Noise Ratio,SINR)可表示为：

考虑SINR和参与者的能量损耗，抗敌意干扰博弈中GSN和UAV在时隙下的效用函数分别为：

Jammer的目的是以较低的攻击成本，降低SINR并加快UAV的能量损耗，效用函数为：

其中，C_s和C_u分别表示GSN和UAV的单位信号功率损耗系数，C_r表示UAV的单位飞行距离损耗系数，C_j表示Jammer的单位干扰信号功率损耗系数，σ为噪声功率。

假设参与者均为理性的，皆可获知环境中的所有信息，以此为前提确定自己的策略，最大化自身效用，达到均衡状态。下面在不引起混淆的情况下省略时隙上标(k)。定义抗敌意干扰Stackelberg博弈均衡(Stackelberg equilibrium,SE)点为

表示如下：

在博弈过程中，GSN首先根据功率对其他参与者的影响，选择最优的发射功率，令式(3)的效用最大化，考虑GSN的策略以及UAV发射功率和移动距离对Jammer的影响，UAV选择最优的发射功率和移动距离，使公式(4)效用最大，最后，对上述行为充分掌握的Jammer选择最优的干扰功率，使公式(5)获得最大值，最后达到均衡状态。可根据式(10)推导出定理1。

定理1：Jammer的最优干扰功率为：

证明：公式(5)的一、二阶导数分别为：

由式(12)和(13)可知，u_J是p_j的凸函数。式(12)为0时，得到

若

则u_J在p_j＝0处取得最大值，因此，当满足h_sp_s+h_up_u＜(C_jσ²/h_j)时，

若h_sp_s+h_up_u≥(C_jσ²/h_j)，u_J在

递减，则

则式(10)是最优干扰策略。

由定理1知，若干扰增益难以弥补其损耗，Jammer将选择沉默，即

如果当前的发射功率超出某一阈值，如h_sp_s+h_up_u≥(C_jσ²/h_j)，则最优的干扰功率随发射功率调整。

根据式(14)推导出定理2。

定理2：UAV的最优发射功率为：

其中，C_u表示无人机的单位信号功率损耗系数，

Ω₁:

or

Ω₂:

or

其他:

定理2推导证明和定理1的过程一样，不再赘述。由式(15)可知，UAV的最优功率策略取决于p_s和它本身的传输损耗。当得知p_s足够大时，或者当p_s低的同时C_u足够大时，p_u的最优值为0，UAV保持沉默；除此之外，UAV根据p_s的值来调整自己的最优功率值，比如p_s在一定范围时，或者p_s低的同时C_u也低时，

根据式(16)推导出定理3：

定理3：无人机的最优移动距离为：

Ω₁:

or

or

or

or

Ω₂:

or

or

其他:

可根据式(18)推导出定理4：

定理4：GSN的最优发射功率为：

定理1、2、3和4共同构成了抗敌意干扰博弈的SE策略。

利用仿真分析抗敌意干扰博弈的性能，其中仿真参数设置为：C_s＝C_r＝C_j＝0.5，h_s＝0.3，h_u＝0.5，σ＝0.4，图3表示干扰增益h_j变大和UAV损耗系数改变对参与者效用的影响。h_j增大代表干扰信道条件变好，所以GSN和UAV效用降低，Jammer效用提高。当h_j＝0.1，C_u从0.5变为0.3时，对应UAV的效用从1增加到1.6，上涨了60％，UAV的损耗成本越低，收益就越高。

图4表明了BS接收信号的SINR随干扰增益h_j增大而降低。比如，在UAV损耗成本C_u＝0.5的情况下，h_j从0.1增大到1时，SINR从3.7降低至0.4，下降了约89％。因为随着h_j的增大，干扰功率逐渐接近最佳干扰策略，严重干扰UAV和BS之间的传输。此外，UAV的损耗成本越低，BS接收信号的SINR越高。在h_j＝0.3，C_u＝0.3时，其SINR值是h_j＝0.3，C_u＝0.5时的166.2％。3、基于强化学习的抗干扰策略

SE策略推导的前提是GSN、UAV和Jammer的信道增益信息已知，但是以上信息通常难以获得，强化学习算法可以在动态环境中帮助智能体以最大化其累计回报为目的采取决策。WoLF-PHC是一种多智能体算法，将“要么赢要么学的快”原则和爬山算法相结合，增加智能体选择最大动作对应值的概率。论文提出了一种基于WoLF-PHC的抗敌意干扰算法，将GSN和UAV视为两个智能体，在传输信息和干扰模型未知的情况下，应用WoLF-PHC算法优化GSN的发射功率、UAV的发射功率和移动距离。

请参考图5，具体的算法流程为：GSN根据时隙(k-1)的状态

通过WoLF-PHC算法确定

同样的，UAV观察到

后，根据状态

和

确定

和

最后，基于

Jammer通过公式(10)确定

3个参与者根据公式(3)、(4)和(5)获得相应的即时效用。

GSN在状态

下选择

的估计Q值表示为

其更新公式为：

其中，学习速率α∈(0，1]，折扣因子β∈[0,1]，

为GSN在状态

下的最大Q值。定义策略π_s，其中

为GSN在状态

下选择

的概率，为了更新π_s，引入平均策略

和两个学习参数：

通过比较π_s与

的期望值大小来选择学习参数，即：

其中，

其中，

C_s是状态

的发生计数向量，通过式(23)进行更新，

由式(24)更新，式(25)和(26)是π_s的更新方式。

接下来，参照上述式(20)-(26)的学习更新过程，将UAV分别在状态

和

下选择

和

的估计Q值记为

和

其中

和

分别为UAV在状态

和

下的最大Q值；定义策略π_u1和π_u2，其中

和

分别为UAV在状态

和

下选择

和

的概率；为了更新策略π_u1和π_u2，分别引入平均策略

和

学习参数

和

以及状态

和

的发生计数向量C_u1和C_u2。

表1基于WoLF-PHC的抗敌意干扰算法

为验证本发明实施例所提算法的性能，设置仿真参数为：C_s＝C_u＝0.5，C_r＝0.2，C_j＝1.5，h_j＝0.3，σ＝1.5，α＝0.7，β＝0.8，

引入基于Q学习的抗敌意干扰算法(图例中以Q_learning表示)做基准。

图6表示基于WoLF-PHC的抗敌意干扰算法性能，分析指标为GSN和UAV的效用，以及BS接收信号的SINR。如图6(a)GSN的效用所示，对比Q_learning算法，本发明实施例算法的GSN效用随时间明显升高，如经过4000个学习时间周期后，基于WoLF-PHC的抗敌意干扰算法的GSN效用为2，比利用Q_learning的算法效用提高了66.7％，同样的时间周期，UAV效用提高了84.8％(见图6(b))，接收信号的SINR提高了38.2％(见图6(c))。

本发明除了联合优化无人机的发射功率和移动轨迹外，还优化了地面传感器节点的发射功率，并将地面传感器节点，无人机和干扰机之间的交互建模为Stackelberg博弈模型，推导了博弈均衡点及其存在条件，揭示了无人机和基站距离等参数对无人机辅助物联网通信抗干扰性能的影响。且在未知信道信息和干扰模型的情况下，把地面传感器节点和无人机都当做智能体，对其分别应用WoLF-PHC算法提高系统抗干扰性能，和利用Q_learning的算法进行对比，本发明所提算法的优越性更加突出。

基于同一发明构思，本申请还提供了与实施例一中的方法对应的系统，详见实施例二。

实施例二

在本实施例中提供了一种基于强化学习的无人机辅助物联网抗敌意干扰系统，包括：博弈模型建立模块、博弈均衡点推导模块以及动态优化模块；

由于本发明实施例二所介绍的系统，为实施本发明实施例一的方法所采用的系统，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该系统的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的系统都属于本发明所欲保护的范围。

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。