CN112423234B - 基于强化学习的无人机辅助物联网抗敌意干扰方法和系统 - Google Patents
基于强化学习的无人机辅助物联网抗敌意干扰方法和系统 Download PDFInfo
- Publication number
- CN112423234B CN112423234B CN202011312164.XA CN202011312164A CN112423234B CN 112423234 B CN112423234 B CN 112423234B CN 202011312164 A CN202011312164 A CN 202011312164A CN 112423234 B CN112423234 B CN 112423234B
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- interference
- power
- sensor node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/029—Location-based management or tracking services
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/06—Testing, supervising or monitoring using simulated traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/0226—Traffic management, e.g. flow control or congestion control based on location or mobility
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/0231—Traffic management, e.g. flow control or congestion control based on communication conditions
- H04W28/0236—Traffic management, e.g. flow control or congestion control based on communication conditions radio quality, e.g. interference, losses or delay
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/30—Services specially adapted for particular environments, situations or purposes
- H04W4/38—Services specially adapted for particular environments, situations or purposes for collecting sensor information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/04—TPC
- H04W52/18—TPC being performed according to specific parameters
- H04W52/28—TPC being performed according to specific parameters using user profile, e.g. mobile speed, priority or network state, e.g. standby, idle or non transmission
- H04W52/283—Power depending on the position of the mobile
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种基于强化学习的无人机辅助物联网抗敌意干扰方法,包括:建立抗敌意干扰攻防Stackelberg博弈模型,其中地面传感器节点、无人机和智能干扰机为博弈的三个参与者;推导所述抗敌意干扰攻防Stackelberg博弈模型中的博弈均衡点及其存在条件,所述博弈均衡点包括智能干扰机的最优干扰功率、无人机的最优发射功率、无人机的最优移动距离以及地面传感器节点的最优发射功率;在未知干扰模型的条件下,引入WoLF‑PHC算法动态优化地面传感器节点的发射功率、无人机的发射功率和无人机的移动轨迹。本发明公开了一种基于强化学习的无人机辅助物联网抗敌意干扰方法和系统,通过及时调整无人机轨迹或者发射功率来抵抗干扰信号强度可变的智能干扰。
Description
技术领域
本发明涉及物联网技术领域,特别涉及一种基于强化学习的无人机辅助物联网抗敌意干扰方法和系统。
背景技术
利用无人机(unmanned aerial vehicles,UAV)可控的机动性,可以解决物联网(Internet of Things,IoTs)覆盖范围受限的问题,IoTs与UAV的组合可实现更多样化的物联网应用。在一些地理环境复杂的地方,如灾区、高速公路和闹市等,物联网设备中的地面传感器节点(ground sensor nodes,GSN)到基站(base station,BS)的直达链路受损,UAV可以作为中继,辅助地面网络顺利通信。然而,无线电传播的广播性质使得UAV通信易遭受敌意干扰攻击,一旦无线链路被干扰,影响正常通信。
现有的无人机(unmanned aerial vehicles,UAV)抗敌意干扰方案通常采用单一的飞行轨迹或者跳频等策略,可抵御固定干扰功率的攻击,却对干扰信号强度可变的智能干扰机(Jammer)束手无策。其次,现有方案假设UAV对外界环境变化信息已知,由于无线信道的时变性,UAV的高移动性,以及随时可变的干扰强度,UAV无法精确获知当前信道增益或干扰信号强度等信息。相应的,UAV也无法及时调整自己的轨迹或者发射功率来抵抗智能干扰。
发明内容
本发明要解决的技术问题,在于提供一种基于强化学习的无人机辅助物联网抗敌意干扰方法和系统,通过及时调整无人机轨迹或者发射功率来抵抗干扰信号强度可变的智能干扰。
第一方面,本发明提供了一种基于强化学习的无人机辅助物联网抗敌意干扰方法,包括:
步骤10、建立抗敌意干扰攻防Stackelberg博弈模型,在所述抗敌意干扰攻防Stackelberg博弈模型中地面传感器节点、无人机和智能干扰机为博弈的三个参与者;
步骤20、推导所述抗敌意干扰攻防Stackelberg博弈模型中的博弈均衡点及所述博弈均衡点的存在条件,所述博弈均衡点包括智能干扰机的最优干扰功率、无人机的最优发射功率、无人机的最优移动距离以及地面传感器节点的最优发射功率;
步骤30、在未知干扰模型的条件下,引入WoLF-PHC算法动态优化地面传感器节点的发射功率、无人机的发射功率和无人机的移动轨迹。
进一步地,所述步骤10具体包括:
步骤12、定义Ai为功率集,i∈(s,u,j),其中s表示地面传感器节点,u表示无人机,j表示智能干扰机,D为无人机飞行距离动作集,|Ai|表示功率集中元素的个数,|D|表示动作集中元素的个数;
步骤13、地面传感器节点首先以发射功率将信息传给无人机,无人机通过信号功率与飞行轨迹控制策略提高转发质量,无人机设置当前信号发射功率之后控制目标飞行距离飞到和LB之间的最优位置转发信息,其中Du是无人机的最大可达飞行距离,智能干扰机在地面固定的位置,以功率向基站持续发送干扰信号,降低无人机与基站之间的通信质量;
步骤14、将地面传感器节点定为领导者,无人机为副领导者,智能干扰机为追随者,三个参与者的目的均为最大化自己的效用函数,地面传感器节点、无人机和智能干扰机之间的先后行为建模为抗敌意干扰攻防Stackelberg博弈模型。
进一步地,所述步骤20中,推导出的博弈均衡点及所述博弈均衡点的存在条件,具体包括:
智能干扰机的最优干扰功率,公式如下:
其中,hs为地面传感器节点的信道增益,hu为无人机的信道增益,hj为智能干扰机的信道增益,ps为地面传感器节点的发射功率,pu为无人机的发射功率,pj为智能干扰机的发射功率,Cj为单位干扰信号功率损耗系数,σ为噪声功率;
无人机的最优发射功率,公式如下:
其中,Cu表示无人机的单位信号功率损耗系数,
无人机的最优移动距离,公式如下:
其中,Du是无人机的最大可达飞行距离,DB是无人机起始位置和基站位置之间的欧氏距离,
地面传感器节点的最优发射功率,公式如下:
其中,Cs表示地面传感器节点的单位信号功率损耗系数,Cr表示无人机的单位飞行距离损耗系数,Dr表示系统的参考距离,hr表示无人机或者智能干扰机与基站的距离为参考距离Dr时的参考信道增益。
进一步地,所述步骤30具体包括:
步骤31、输入(k-1)时隙无人机的发射功率和移动距离以及智能干扰机的干扰功率,其中,k为当前时隙序号;
步骤32、通过WoLF-PHC算法确定地面传感器节点k时隙的发射功率;
步骤33、根据所述地面传感器节点k时隙的发射功率,通过WoLF-PHC算法确定无人机k时隙的发射功率和移动距离;
步骤34、根据所述地面传感器节点k时隙的发射功率和无人机k时隙的发射功率和移动距离,通过WoLF-PHC算法确定智能干扰机k时隙的最优干扰功率;
步骤35、判断是否达到博弈均衡点;若否,令k=k+1,然后返回步骤31;若是,结束步骤。
第二方面,本发明提供了一种基于强化学习的无人机辅助物联网抗敌意干扰系统,包括:博弈模型建立模块、博弈均衡点推导模块以及动态优化模块;
所述博弈模型建立模块,用于建立抗敌意干扰攻防Stackelberg博弈模型,在所述抗敌意干扰攻防Stackelberg博弈模型中地面传感器节点、无人机和智能干扰机为博弈的三个参与者;
所述博弈均衡点推导模块,用于推导所述抗敌意干扰攻防Stackelberg博弈模型中的博弈均衡点及所述博弈均衡点的存在条件,所述博弈均衡点包括智能干扰机的最优干扰功率、无人机的最优发射功率、无人机的最优移动距离以及地面传感器节点的最优发射功率;
所述动态优化模块,用于在未知干扰模型的条件下,引入WoLF-PHC算法动态优化地面传感器节点的发射功率、无人机的发射功率和无人机的移动轨迹。
进一步地,所述博弈模型建立模块,具体用于执行如下步骤:
步骤12、定义Ai为功率集,i∈(s,u,j),其中s表示地面传感器节点,u表示无人机,j表示智能干扰机,D为无人机飞行距离动作集,|Ai|表示功率集中元素的个数,|D|表示动作集中元素的个数;
步骤13、地面传感器节点首先以发射功率将信息传给无人机,无人机通过信号功率与飞行轨迹控制策略提高转发质量,无人机设置当前信号发射功率之后控制目标飞行距离飞到和LB之间的最优位置转发信息,其中Du是无人机的最大可达飞行距离,智能干扰机在地面固定的位置,以功率向基站持续发送干扰信号,降低无人机与基站之间的通信质量;
步骤14、将地面传感器节点定为领导者,无人机为副领导者,智能干扰机为追随者,三个参与者的目的均为最大化自己的效用函数,地面传感器节点、无人机和智能干扰机之间的先后行为建模为抗敌意干扰攻防Stackelberg博弈模型。
进一步地,所述博弈均衡点推导模块中,推导出的博弈均衡点及所述博弈均衡点的存在条件,具体包括:
智能干扰机的最优干扰功率,公式如下:
其中,hs为地面传感器节点的信道增益,hu为无人机的信道增益,hj为智能干扰机的信道增益,ps为地面传感器节点的发射功率,pu为无人机的发射功率,pj为智能干扰机的发射功率,Cj为单位干扰信号功率损耗系数,σ为噪声功率;
无人机的最优发射功率,公式如下:
其中,Cu表示无人机的单位信号功率损耗系数,
无人机的最优移动距离,公式如下:
其中,Du是无人机的最大可达飞行距离,DB是无人机起始位置和基站位置之间的欧氏距离,
地面传感器节点的最优发射功率,公式如下:
其中,Cs表示地面传感器节点的单位信号功率损耗系数,Cr表示无人机的单位飞行距离损耗系数,Dr表示系统的参考距离,hr表示无人机或者智能干扰机与基站的距离为参考距离Dr时的参考信道增益。
进一步地,所述动态优化模块,具体用于执行如下步骤:
步骤31、输入(k-1)时隙无人机的发射功率和移动距离以及智能干扰机的干扰功率,其中,k为当前时隙序号;
步骤32、通过WoLF-PHC算法确定地面传感器节点k时隙的发射功率;
步骤33、根据所述地面传感器节点k时隙的发射功率,通过WoLF-PHC算法确定无人机k时隙的发射功率和移动距离;
步骤34、根据所述地面传感器节点k时隙的发射功率和无人机k时隙的发射功率和移动距离,通过WoLF-PHC算法确定智能干扰机k时隙的最优干扰功率;
步骤35、判断是否达到博弈均衡点;若否,令k=k+1,然后返回步骤31;若是,结束步骤。
本发明实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
通过联合优化无人机的发射功率和移动轨迹外,并进一步优化地面传感器节点的发射功率,将地面传感器节点、无人机和干扰机之间的交互建模为Stackelberg博弈模型,从而推导出博弈均衡点及其存在条件,揭示了无人机和基站距离等参数对无人机辅助物联网通信抗干扰性能的影响,从而对无人机抗敌意干扰策略进行优化;在未知信道信息和干扰模型的情况下,把地面传感器节点和无人机都当做智能体,对其分别应用WoLF-PHC算法提高系统抗干扰性能,和利用Q_learning的算法进行对比,本发明所提算法的优越性更加突出。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1为本发明实施例中方法的流程图;
图2为本发明实施例无人机辅助物联网抗干扰系统模型示意图;
图3为本发明实施例SE策略下GSN、UAV和Jammer的效益图;
图4为本发明实施例SE策略下的SINR值;
图5为本发明实施例应用WoLF-PHC算法优化的流程示意图;
图6为本发明实施例基于WoLF-PHC的抗敌意干扰算法性能示意图。
具体实施方式
为了使本领域技术人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都应当属于本申请的保护范围。
本申请实施例中的技术方案,总体思路如下:
本发明建立了抗敌意干扰攻防Stackelberg博弈模型,其中地面传感器节点、无人机和智能干扰机为博弈的3个参与者,推导出博弈均衡点及其存在条件,揭示了参与者的信道增益、距离等参数对物联网效用等性能的影响。在未知干扰模型的条件下,发明引入WoLF-PHC算法动态优化物联网节点的发射功率、无人机的发射功率和移动轨迹。
请参考图1,本发明实施例方法可以包括如下步骤:
步骤10、建立抗敌意干扰攻防Stackelberg博弈模型,在所述抗敌意干扰攻防Stackelberg博弈模型中地面传感器节点、无人机和智能干扰机为博弈的三个参与者;
步骤20、推导所述抗敌意干扰攻防Stackelberg博弈模型中的博弈均衡点及所述博弈均衡点的存在条件,所述博弈均衡点包括智能干扰机的最优干扰功率、无人机的最优发射功率、无人机的最优移动距离以及地面传感器节点的最优发射功率;
步骤30、在未知干扰模型的条件下,引入WoLF-PHC算法动态优化地面传感器节点的发射功率、无人机的发射功率和无人机的移动轨迹。
具体的实现如下:
1、发明模型
如图2所示,抗敌意干扰攻防Stackelberg博弈模型中包含了地面传感器节点(GSN)、无人机(UAV)和智能干扰机(Jammer)。在时隙k内,无人机在初始位置收到地面传感器节点发送的信息,然后以速度直线飞行到目标位置L(k),将信息转发给位于LB的基站,智能干扰机对基站实施干扰。定义Ai为功率集,i∈(s,u,j),其中s表示地面传感器节点,u表示无人机,j表示智能干扰机,D为无人机飞行距离动作集,|Ai|表示功率集中元素的个数,|D|表示动作集中元素的个数。地面传感器节点首先以发射功率将信息传给无人机,无人机通过信号功率与飞行轨迹控制策略提高转发质量,无人机设置当前信号发射功率之后控制目标飞行距离飞到和LB之间的最优位置转发信息,其中Du是无人机的最大可达飞行距离,智能干扰机在地面固定的位置,以功率向基站持续发送干扰信号,降低无人机与基站之间的通信质量。
分别表示GSN和UAV的欧氏距离,UAV和BS的欧氏距离以及Jammer和BS的欧氏距离,Dr表示系统的参考距离,hr表示UAV或者Jammer与BS的距离为参考距离Dr时的参考信道增益,ηi是路径损耗因子,对于GSN-UAV和UAV-BS信道,ηs=ηu=2,Jammer-BS信道ηj=4。UAV初始位置与BS位置LB之间的欧式距离记作DB,取Du=DB-Dr。
2、抗敌意干扰Stackelberg博弈
Stackelberg博弈又被称为主从博弈,包含了两种类型的参与者:领导者(leader)和追随者(follower)。本发明将GSN定为领导者(leader),UAV为副领导者(副leader),Jammer为follower,三个参与者的目的均为最大化自己的效用函数,GSN、UAV和Jammer之间的先后行为可以建模为Stackelberg博弈模型。博弈论中参与者的效用函数可用来评估收益,反应了参与者对选择某一策略后的满意程度。
BS接收信号的信干噪比(Signal to Interference plus Noise Ratio,SINR)可表示为:
考虑SINR和参与者的能量损耗,抗敌意干扰博弈中GSN和UAV在时隙下的效用函数分别为:
Jammer的目的是以较低的攻击成本,降低SINR并加快UAV的能量损耗,效用函数为:
其中,Cs和Cu分别表示GSN和UAV的单位信号功率损耗系数,Cr表示UAV的单位飞行距离损耗系数,Cj表示Jammer的单位干扰信号功率损耗系数,σ为噪声功率。
假设参与者均为理性的,皆可获知环境中的所有信息,以此为前提确定自己的策略,最大化自身效用,达到均衡状态。下面在不引起混淆的情况下省略时隙上标(k)。定义抗敌意干扰Stackelberg博弈均衡(Stackelberg equilibrium,SE)点为表示如下:
在博弈过程中,GSN首先根据功率对其他参与者的影响,选择最优的发射功率,令式(3)的效用最大化,考虑GSN的策略以及UAV发射功率和移动距离对Jammer的影响,UAV选择最优的发射功率和移动距离,使公式(4)效用最大,最后,对上述行为充分掌握的Jammer选择最优的干扰功率,使公式(5)获得最大值,最后达到均衡状态。可根据式(10)推导出定理1。
定理1:Jammer的最优干扰功率为:
其中,hs为地面传感器节点的信道增益,hu为无人机的信道增益,hj为智能干扰机的信道增益,ps为地面传感器节点的发射功率,pu为无人机的发射功率,pj为智能干扰机的发射功率,Cj为单位干扰信号功率损耗系数,σ为噪声功率;
证明:公式(5)的一、二阶导数分别为:
由式(12)和(13)可知,uJ是pj的凸函数。式(12)为0时,得到若则uJ在pj=0处取得最大值,因此,当满足hsps+hupu<(Cjσ2/hj)时,若hsps+hupu≥(Cjσ2/hj),uJ在递减,则则式(10)是最优干扰策略。
根据式(14)推导出定理2。
定理2:UAV的最优发射功率为:
其中,Cu表示无人机的单位信号功率损耗系数,
定理2推导证明和定理1的过程一样,不再赘述。由式(15)可知,UAV的最优功率策略取决于ps和它本身的传输损耗。当得知ps足够大时,或者当ps低的同时Cu足够大时,pu的最优值为0,UAV保持沉默;除此之外,UAV根据ps的值来调整自己的最优功率值,比如ps在一定范围时,或者ps低的同时Cu也低时,
根据式(16)推导出定理3:
定理3:无人机的最优移动距离为:
其中,Du是无人机的最大可达飞行距离,DB是无人机起始位置和基站位置之间的欧氏距离,
可根据式(18)推导出定理4:
定理4:GSN的最优发射功率为:
其中,Cs表示地面传感器节点的单位信号功率损耗系数,Cr表示无人机的单位飞行距离损耗系数,Dr表示系统的参考距离,hr表示无人机或者智能干扰机与基站的距离为参考距离Dr时的参考信道增益。
定理1、2、3和4共同构成了抗敌意干扰博弈的SE策略。
利用仿真分析抗敌意干扰博弈的性能,其中仿真参数设置为:Cs=Cr=Cj=0.5,hs=0.3,hu=0.5,σ=0.4,图3表示干扰增益hj变大和UAV损耗系数改变对参与者效用的影响。hj增大代表干扰信道条件变好,所以GSN和UAV效用降低,Jammer效用提高。当hj=0.1,Cu从0.5变为0.3时,对应UAV的效用从1增加到1.6,上涨了60%,UAV的损耗成本越低,收益就越高。
图4表明了BS接收信号的SINR随干扰增益hj增大而降低。比如,在UAV损耗成本Cu=0.5的情况下,hj从0.1增大到1时,SINR从3.7降低至0.4,下降了约89%。因为随着hj的增大,干扰功率逐渐接近最佳干扰策略,严重干扰UAV和BS之间的传输。此外,UAV的损耗成本越低,BS接收信号的SINR越高。在hj=0.3,Cu=0.3时,其SINR值是hj=0.3,Cu=0.5时的166.2%。3、基于强化学习的抗干扰策略
SE策略推导的前提是GSN、UAV和Jammer的信道增益信息已知,但是以上信息通常难以获得,强化学习算法可以在动态环境中帮助智能体以最大化其累计回报为目的采取决策。WoLF-PHC是一种多智能体算法,将“要么赢要么学的快”原则和爬山算法相结合,增加智能体选择最大动作对应值的概率。论文提出了一种基于WoLF-PHC的抗敌意干扰算法,将GSN和UAV视为两个智能体,在传输信息和干扰模型未知的情况下,应用WoLF-PHC算法优化GSN的发射功率、UAV的发射功率和移动距离。
请参考图5,具体的算法流程为:GSN根据时隙(k-1)的状态通过WoLF-PHC算法确定同样的,UAV观察到后,根据状态和确定和最后,基于Jammer通过公式(10)确定3个参与者根据公式(3)、(4)和(5)获得相应的即时效用。
其中,学习速率α∈(0,1],折扣因子β∈[0,1],为GSN在状态下的最大Q值。定义策略πs,其中为GSN在状态下选择的概率,为了更新πs,引入平均策略和两个学习参数:通过比较πs与的期望值大小来选择学习参数,即:
其中,
接下来,参照上述式(20)-(26)的学习更新过程,将UAV分别在状态和下选择和的估计Q值记为和其中和分别为UAV在状态和下的最大Q值;定义策略πu1和πu2,其中和分别为UAV在状态和下选择和的概率;为了更新策略πu1和πu2,分别引入平均策略和学习参数和以及状态和的发生计数向量Cu1和Cu2。
表1基于WoLF-PHC的抗敌意干扰算法
为验证本发明实施例所提算法的性能,设置仿真参数为:Cs=Cu=0.5,Cr=0.2,Cj=1.5,hj=0.3,σ=1.5,α=0.7,β=0.8, 引入基于Q学习的抗敌意干扰算法(图例中以Q_learning表示)做基准。
图6表示基于WoLF-PHC的抗敌意干扰算法性能,分析指标为GSN和UAV的效用,以及BS接收信号的SINR。如图6(a)GSN的效用所示,对比Q_learning算法,本发明实施例算法的GSN效用随时间明显升高,如经过4000个学习时间周期后,基于WoLF-PHC的抗敌意干扰算法的GSN效用为2,比利用Q_learning的算法效用提高了66.7%,同样的时间周期,UAV效用提高了84.8%(见图6(b)),接收信号的SINR提高了38.2%(见图6(c))。
本发明除了联合优化无人机的发射功率和移动轨迹外,还优化了地面传感器节点的发射功率,并将地面传感器节点,无人机和干扰机之间的交互建模为Stackelberg博弈模型,推导了博弈均衡点及其存在条件,揭示了无人机和基站距离等参数对无人机辅助物联网通信抗干扰性能的影响。且在未知信道信息和干扰模型的情况下,把地面传感器节点和无人机都当做智能体,对其分别应用WoLF-PHC算法提高系统抗干扰性能,和利用Q_learning的算法进行对比,本发明所提算法的优越性更加突出。
基于同一发明构思,本申请还提供了与实施例一中的方法对应的系统,详见实施例二。
实施例二
在本实施例中提供了一种基于强化学习的无人机辅助物联网抗敌意干扰系统,包括:博弈模型建立模块、博弈均衡点推导模块以及动态优化模块;
所述博弈模型建立模块,用于建立抗敌意干扰攻防Stackelberg博弈模型,在所述抗敌意干扰攻防Stackelberg博弈模型中地面传感器节点、无人机和智能干扰机为博弈的三个参与者;
所述博弈均衡点推导模块,用于推导所述抗敌意干扰攻防Stackelberg博弈模型中的博弈均衡点及所述博弈均衡点的存在条件,所述博弈均衡点包括智能干扰机的最优干扰功率、无人机的最优发射功率、无人机的最优移动距离以及地面传感器节点的最优发射功率;
所述动态优化模块,用于在未知干扰模型的条件下,引入WoLF-PHC算法动态优化地面传感器节点的发射功率、无人机的发射功率和无人机的移动轨迹。
由于本发明实施例二所介绍的系统,为实施本发明实施例一的方法所采用的系统,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该系统的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的系统都属于本发明所欲保护的范围。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。
Claims (4)
1.一种基于强化学习的无人机辅助物联网抗敌意干扰方法,其特征在于:包括:
步骤10、建立抗敌意干扰攻防Stackelberg博弈模型,在所述抗敌意干扰攻防Stackelberg博弈模型中地面传感器节点、无人机和智能干扰机为博弈的三个参与者;
步骤20、推导所述抗敌意干扰攻防Stackelberg博弈模型中的博弈均衡点及所述博弈均衡点的存在条件,所述博弈均衡点包括智能干扰机的最优干扰功率、无人机的最优发射功率、无人机的最优移动距离以及地面传感器节点的最优发射功率;
步骤30、在未知干扰模型的条件下,引入WoLF-PHC算法动态优化地面传感器节点的发射功率、无人机的发射功率和无人机的移动轨迹;
所述步骤10具体包括:
步骤12、定义Ai为功率集,i∈(s,u,j),其中s表示地面传感器节点,u表示无人机,j表示智能干扰机,D为无人机飞行距离动作集,|Ai|表示功率集中元素的个数,|D|表示动作集中元素的个数;
步骤13、地面传感器节点首先以发射功率将信息传给无人机,无人机通过信号功率与飞行轨迹控制策略提高转发质量,无人机设置当前信号发射功率之后控制目标飞行距离飞到和LB之间的最优位置转发信息,其中Du是无人机的最大可达飞行距离,智能干扰机在地面固定的位置,以功率向基站持续发送干扰信号,降低无人机与基站之间的通信质量;
步骤14、将地面传感器节点定为领导者,无人机为副领导者,智能干扰机为追随者,三个参与者的目的均为最大化自己的效用函数,地面传感器节点、无人机和智能干扰机之间的先后行为建模为抗敌意干扰攻防Stackelberg博弈模型;
所述步骤20中,推导出的博弈均衡点及所述博弈均衡点的存在条件,具体包括:
智能干扰机的最优干扰功率,公式如下:
其中,hs为地面传感器节点的信道增益,hu为无人机的信道增益,hj为智能干扰机的信道增益,ps为地面传感器节点的发射功率,pu为无人机的发射功率,pj为智能干扰机的发射功率,Cj为单位干扰信号功率损耗系数,σ为噪声功率;
无人机的最优发射功率,公式如下:
其中,Cu表示无人机的单位信号功率损耗系数,
无人机的最优移动距离,公式如下:
其中,Du是无人机的最大可达飞行距离,DB是无人机起始位置和基站位置之间的欧氏距离,
地面传感器节点的最优发射功率,公式如下:
其中,Cs表示地面传感器节点的单位信号功率损耗系数,Cr表示无人机的单位飞行距离损耗系数,Dr表示系统的参考距离,hr表示无人机或者智能干扰机与基站的距离为参考距离Dr时的参考信道增益。
2.根据权利要求1所述的方法,其特征在于:所述步骤30具体包括:
步骤31、输入(k-1)时隙无人机的发射功率和移动距离以及智能干扰机的干扰功率,其中,k为当前时隙序号;
步骤32、通过WoLF-PHC算法确定地面传感器节点k时隙的发射功率;
步骤33、根据所述地面传感器节点k时隙的发射功率,通过WoLF-PHC算法确定无人机k时隙的发射功率和移动距离;
步骤34、根据所述地面传感器节点k时隙的发射功率和无人机k时隙的发射功率和移动距离,通过WoLF-PHC算法确定智能干扰机k时隙的最优干扰功率;
步骤35、判断是否达到博弈均衡点;若否,令k=k+1,然后返回步骤31;若是,结束步骤。
3.一种基于强化学习的无人机辅助物联网抗敌意干扰系统,其特征在于,包括:博弈模型建立模块、博弈均衡点推导模块以及动态优化模块;
所述博弈模型建立模块,用于建立抗敌意干扰攻防Stackelberg博弈模型,在所述抗敌意干扰攻防Stackelberg博弈模型中地面传感器节点、无人机和智能干扰机为博弈的三个参与者;
所述博弈均衡点推导模块,用于推导所述抗敌意干扰攻防Stackelberg博弈模型中的博弈均衡点及所述博弈均衡点的存在条件,所述博弈均衡点包括智能干扰机的最优干扰功率、无人机的最优发射功率、无人机的最优移动距离以及地面传感器节点的最优发射功率;
所述动态优化模块,用于在未知干扰模型的条件下,引入WoLF-PHC算法动态优化地面传感器节点的发射功率、无人机的发射功率和无人机的移动轨迹;
所述博弈模型建立模块,具体用于执行如下步骤:
步骤12、定义Ai为功率集,i∈(s,u,j),其中s表示地面传感器节点,u表示无人机,j表示智能干扰机,D为无人机飞行距离动作集,|Ai|表示功率集中元素的个数,|D|表示动作集中元素的个数;
步骤13、地面传感器节点首先以发射功率将信息传给无人机,无人机通过信号功率与飞行轨迹控制策略提高转发质量,无人机设置当前信号发射功率之后控制目标飞行距离飞到和LB之间的最优位置转发信息,其中Du是无人机的最大可达飞行距离,智能干扰机在地面固定的位置,以功率向基站持续发送干扰信号,降低无人机与基站之间的通信质量;
步骤14、将地面传感器节点定为领导者,无人机为副领导者,智能干扰机为追随者,三个参与者的目的均为最大化自己的效用函数,地面传感器节点、无人机和智能干扰机之间的先后行为建模为抗敌意干扰攻防Stackelberg博弈模型;
所述博弈均衡点推导模块中,推导出的博弈均衡点及所述博弈均衡点的存在条件,具体包括:
智能干扰机的最优干扰功率,公式如下:
其中,hs为地面传感器节点的信道增益,hu为无人机的信道增益,hj为智能干扰机的信道增益,ps为地面传感器节点的发射功率,pu为无人机的发射功率,pj为智能干扰机的发射功率,Cj为单位干扰信号功率损耗系数,σ为噪声功率;
无人机的最优发射功率,公式如下:
其中,Cu表示无人机的单位信号功率损耗系数,
无人机的最优移动距离,公式如下:
其中,Du是无人机的最大可达飞行距离,DB是无人机起始位置和基站位置之间的欧氏距离,
地面传感器节点的最优发射功率,公式如下:
其中,Cs表示地面传感器节点的单位信号功率损耗系数,Cr表示无人机的单位飞行距离损耗系数,Dr表示系统的参考距离,hr表示无人机或者智能干扰机与基站的距离为参考距离Dr时的参考信道增益。
4.根据权利要求3所述的系统,其特征在于:所述动态优化模块,具体用于执行如下步骤:
步骤31、输入(k-1)时隙无人机的发射功率和移动距离以及智能干扰机的干扰功率,其中,k为当前时隙序号;
步骤32、通过WoLF-PHC算法确定地面传感器节点k时隙的发射功率;
步骤33、根据所述地面传感器节点k时隙的发射功率,通过WoLF-PHC算法确定无人机k时隙的发射功率和移动距离;
步骤34、根据所述地面传感器节点k时隙的发射功率和无人机k时隙的发射功率和移动距离,通过WoLF-PHC算法确定智能干扰机k时隙的最优干扰功率;
步骤35、判断是否达到博弈均衡点;若否,令k=k+1,然后返回步骤31;若是,结束步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011312164.XA CN112423234B (zh) | 2020-11-20 | 2020-11-20 | 基于强化学习的无人机辅助物联网抗敌意干扰方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011312164.XA CN112423234B (zh) | 2020-11-20 | 2020-11-20 | 基于强化学习的无人机辅助物联网抗敌意干扰方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112423234A CN112423234A (zh) | 2021-02-26 |
CN112423234B true CN112423234B (zh) | 2022-07-08 |
Family
ID=74777441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011312164.XA Active CN112423234B (zh) | 2020-11-20 | 2020-11-20 | 基于强化学习的无人机辅助物联网抗敌意干扰方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112423234B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113253763B (zh) * | 2021-06-28 | 2021-09-24 | 长沙理工大学 | 一种无人机数据收集的轨迹确定方法、系统及装置 |
CN113973362B (zh) * | 2021-10-08 | 2024-03-22 | 天津大学 | 强化学习非零和非合作多智能体安全通信功率控制方法 |
CN114584205A (zh) * | 2022-05-07 | 2022-06-03 | 香港中文大学(深圳) | 一种基于无人机辅助的频谱交易通信方法 |
CN115276768B (zh) * | 2022-07-22 | 2023-07-28 | 南京邮电大学 | 融合干扰缓解与资源分配的无人机时延最小化方法 |
CN115022952B (zh) * | 2022-08-09 | 2022-10-25 | 中国人民解放军国防科技大学 | 一种对抗条件下的卫星通信功率资源分配方法 |
CN116073924B (zh) * | 2023-03-07 | 2023-05-30 | 中国人民解放军军事科学院国防科技创新研究院 | 基于Stackelberg博弈的抗干扰信道分配方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107463094A (zh) * | 2017-07-13 | 2017-12-12 | 江西洪都航空工业集团有限责任公司 | 一种不确定信息下多无人机空战动态博弈方法 |
CN108092729A (zh) * | 2017-12-29 | 2018-05-29 | 中国人民解放军陆军工程大学 | 无人机通信中的抗干扰模型及斯坦伯格博弈次梯度算法 |
US10327213B1 (en) * | 2015-10-01 | 2019-06-18 | Origin Wireless, Inc. | Time-reversal communication systems |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108616916B (zh) * | 2018-04-28 | 2021-07-13 | 中国人民解放军陆军工程大学 | 一种基于合作抗干扰分层博弈模型的抗干扰学习方法 |
-
2020
- 2020-11-20 CN CN202011312164.XA patent/CN112423234B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10327213B1 (en) * | 2015-10-01 | 2019-06-18 | Origin Wireless, Inc. | Time-reversal communication systems |
CN107463094A (zh) * | 2017-07-13 | 2017-12-12 | 江西洪都航空工业集团有限责任公司 | 一种不确定信息下多无人机空战动态博弈方法 |
CN108092729A (zh) * | 2017-12-29 | 2018-05-29 | 中国人民解放军陆军工程大学 | 无人机通信中的抗干扰模型及斯坦伯格博弈次梯度算法 |
Non-Patent Citations (5)
Title |
---|
Anti-Intelligent UAV Jamming Strategy via Deep Q-Networks;N. Gao等;《IEEE Transactions on Communications》;20191017;第68卷(第1期);第569-581页 * |
Anti-Jamming Power Control Game in Unmanned Aerial Vehicle Networks;S. Lv等;《GLOBECOM 2017 - 2017 IEEE Global Communications Conference》;20180115;第1-6页 * |
基于Stackelberg博弈的有人机/无人机混合集群辐射功率控制算法;时晨光等;《无人系统技术》;20200731;第3卷(第4期);第29-41页 * |
基于随机博弈与改进WoLF-PHC的网络防御决策方法;杨峻楠等;《计算机研究与发展》;20190531;第56卷(第5期);第942-954页 * |
无人机网络中基于分层博弈的干扰对抗频谱接入优化;范超琼等;《通信学报》;20200630;第41卷(第6期);第26-33页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112423234A (zh) | 2021-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112423234B (zh) | 基于强化学习的无人机辅助物联网抗敌意干扰方法和系统 | |
CN113162679B (zh) | 基于ddpg算法的irs辅助无人机通信联合优化方法 | |
Huang et al. | Deep reinforcement learning for UAV navigation through massive MIMO technique | |
CN104994569B (zh) | 基于多用户强化学习的认知无线网络抗敌意干扰方法 | |
CN112291800B (zh) | 一种针对多卫星通讯网络的抗网络攻击图博弈控制方法 | |
CN110708129A (zh) | 一种无线信道状态信息获取方法 | |
CN114615672B (zh) | 一种基于统计信息的协作物理层安全增强方法 | |
CN112702097A (zh) | 一种用于uav辅助蜂窝网络的联合波束成形和功率控制方法 | |
CN116132944A (zh) | 无人机通信网络中拓扑与功率联合控制方法 | |
CN113726472B (zh) | 一种基于贝叶斯Stackelberg博弈的同时干扰与监听方法 | |
CN113038567B (zh) | 多中继通信中的抗干扰系统的抗干扰方法 | |
CN111726192B (zh) | 基于对数线性算法的通信对抗中用频决策优化方法 | |
CN116073924B (zh) | 基于Stackelberg博弈的抗干扰信道分配方法及系统 | |
CN115378487B (zh) | 基于电磁屏障的卫星通信动态频谱接入方法 | |
Hui et al. | Beyond line-of-sight range extension in contested environments with OPAL using autonomous unmanned aerial vehicles | |
CN115119174A (zh) | 灌区场景中基于能耗优化的无人机自主部署方法 | |
CN112261615B (zh) | 基于平均场无人机辅助多频段密集网络能效降解方法 | |
Ke et al. | An intelligent anti-interference communication method based on game learning | |
Hameed et al. | BAT-COOP: Cooperative Diversity in FANETs using BAT Algorithm with two relay mechanism | |
CN114867029B (zh) | 一种面向恶意干扰的无人机群动态频谱分配方法及系统 | |
CN115276766B (zh) | 协作无人机(uav)辅助干扰功率与轨迹联合的优化方法 | |
CN113572548B (zh) | 一种基于多智能体强化学习的无人机网络协同快跳频方法 | |
Wang et al. | Trajectory and power design to balance UAV communication capacity and unintentional interference | |
Zheng | Dynamic UAV Path Planning for 5G Mobile Base Stations: An Approach Based on the Link Budget | |
CN117880171A (zh) | 一种基于元强化学习的无人机自组网跨层路由方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |