CN113934224B - 一种基于异构博弈方法的无人机弹性策略设计方法及系统 - Google Patents
一种基于异构博弈方法的无人机弹性策略设计方法及系统 Download PDFInfo
- Publication number
- CN113934224B CN113934224B CN202111216510.9A CN202111216510A CN113934224B CN 113934224 B CN113934224 B CN 113934224B CN 202111216510 A CN202111216510 A CN 202111216510A CN 113934224 B CN113934224 B CN 113934224B
- Authority
- CN
- China
- Prior art keywords
- aerial vehicle
- unmanned aerial
- attack
- influence
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 238000013461 design Methods 0.000 title claims description 17
- 230000005540 biological transmission Effects 0.000 claims abstract description 37
- 230000007123 defense Effects 0.000 claims abstract description 29
- 230000008054 signal transmission Effects 0.000 claims abstract description 25
- 230000006870 function Effects 0.000 claims description 53
- 230000008569 process Effects 0.000 claims description 27
- 238000011217 control strategy Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 19
- 238000004891 communication Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000006399 behavior Effects 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 5
- 230000008901 benefit Effects 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 4
- 230000001629 suppression Effects 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 3
- 238000004458 analytical method Methods 0.000 abstract description 2
- 230000008878 coupling Effects 0.000 abstract description 2
- 238000010168 coupling process Methods 0.000 abstract description 2
- 238000005859 coupling reaction Methods 0.000 abstract description 2
- 230000007547 defect Effects 0.000 abstract description 2
- 238000012804 iterative process Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000008260 defense mechanism Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/08—Control of attitude, i.e. control of roll, pitch, or yaw
- G05D1/0808—Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种基于异构博弈方法的无人机弹性策略设计方法及系统,建立攻击影响下无人机控制信号指令接受概率与攻防传输信号的关系,并建立动态环境下无人机系统信号传输与攻击者干扰博弈模型,将信息物理系统划分为网络层和物理层,分别对网络层和物理层进行建模分析,并将两层的耦合关系建模为异构博弈模型;将信息物理系统网络层的传输者和攻击者的功率传输策略问题建模为Markov博弈模型,在网络攻击诱导丢包和干扰影响下,建立无人机状态方程,构建控制性能指标函数,优化无人机控制器,使无人机满足一定运行性能的联合弹性防御策略,解决了无人机防御不及时,效果不理想的缺陷。
Description
技术领域
本发明属于无人机弹性策略优化领域,涉及一种基于异构博弈方法的无人机弹性策略设计方法及系统。
背景技术
控制是无人机完成任务的手段,无人机离不开控制。基于高速发展的网络技术,依靠网络制定多无人机的协同作战计划,网络的引入是无人机面临攻击威胁。在众多的攻击手段中,拒绝服务攻击由于其易于实现和破坏性强等特点而备受关注。现有系统安全控制手段大多采用被动防御技术,即在系统受到攻击之后设计弥补攻击破坏系统性能的弹性策略机制,具有防御不及时,效果不理想的缺陷。因此设计主动防御机制是预防攻击破坏控制系统性能的可行方案。
此外,无人机系统结构复杂,在运行过程中受到各种外界因素的影响,将系统受到外界影响建模为扰动是常用的处理方法。对系统中扰动的处理方法主要是通过Kalman滤波器,观测器观测扰动。Kalman滤波器的设计需要已知噪声的统计特性,扰动观测器的设计需要已知扰动的信息或对扰动具有一定约束限制。设计攻击影响和扰动最坏情况下仍能保证系统正常运行控制方案是必要的。
发明内容
本发明的目的在于解决现有技术中的问题,提供一种基于异构博弈方法的无人机弹性策略设计方法及系统。
为达到上述目的,本发明采用以下技术方案予以实现:
一种基于异构博弈方法的无人机弹性策略设计方法,包括以下步骤:
建立动态环境下无人机系统信号传输与攻击者干扰博弈模型和攻击影响下无人机控制信号指令接受概率与攻防传输信号的关系;
分析攻击影响下无人机控制信号指令接受概率与攻防传输信号的关系,建立物理层两状态Markov丢包模型;
基于物理层两状态Markov丢包模型,建立攻击丢包和扰动影响下无人机状态方程,并基于无人机状态方程和无人机系统信号传输与攻击者干扰博弈模型构建控制性能指标函数,优化无人机控制器,得到无人机安全控制策略。
本方法的进一步改进在于:
所述建立动态环境下无人机系统信号传输与攻击者干扰博弈模型和攻击影响下无人机控制信号指令接受概率与攻防传输信号的关系包括以下步骤:
建立无线网络通信环境模型:
Π={1,2,…,S} (1)
从n时刻的状态s转移到n+1时刻的状态s′的转移概率为
λs,s′=Pr{s′(n+1)|s(n)},s′(n+1),s(n)∈Π (2)
且满足
建立无人机控制信号指令接受概率与攻防传输信号的关系,传输信号的 SINR表示为:
其中,pm表示传输者的传输功率,M表示取不同的值,p={p1,p2,…,pM},,在状态s,s∈Π下,传输者的信道增益为ζs,记ζs∈Ξ={ζ1,ζ2,…,ζS},攻击者的干扰增益为ηs,其中ηs∈Γ={η1,η2,…,ηS},攻击者的传输策略wl从集合 w={w1,w2,…,wL},中取值σ2为高斯白噪声的功率谱密度,PER与SINR
其中,Q(·)为误差函数,见下式:
常数κ>0为比例参数,γT,s表示传输信号的信噪比;
构建网络层无人机与攻击者效用函数,得到无人机系统信号传输与攻击者干扰博弈模型:
式中,r(s,pm,wl)为状态s下行为变量(pm,wl)的函数,Jp(s)为物理层性能,标量Cml为选取策略(pm,wl)时的固有代价,在实际场景中,函数随参数Jp(s),pm,Cml的增加而递增,随参数wl的增加而递减,传输者和攻击者能够建模为零和博弈,代价函数给定为:
r(s,pm,wl)=rT(s,pm,wl)=-rJ(s,pm,wl). (7)
基于式(7)构建网络层折扣代价目标函数,引入代价函数Jc来表示网络层折扣代价的期望:
式中,s是从集合Π中选取的初始状态,n为以环境变化为尺度的时间步数,参数ρ∈(0,1)为对未来收益的折扣因子;
得到无人机系统信号传输与攻击者干扰博弈模型:
式中,策略(F*,G*)为零和博弈的鞍点解,其中Jc=[Jc(1),Jc(2),…,Jc(S)]。
所述建立物理层两状态Markov丢包模型包括以下步骤:
建立攻击影响下数据包接收概率,构建{v(tk)}满足Markov过程是攻击引起的丢包,服从分布:
式中,变量满足0<α≤1,0<β≤1,将传输者和攻击者相互作用的结果建模为数据包连续丢失的概率α,满足
α=1-PER (11)。
所述建立攻击丢包和扰动影响下无人机状态方程,并基于无人机系统信号传输与攻击者干扰博弈模型构建控制性能指标函数,优化无人机控制器,得到无人机安全控制策略包括以下步骤:
建立攻击和扰动影响下无人机的状态空间方程;
给出无人机系统代价函数和扰动鲁棒控制优化问题;
在物理层两状态Markov丢包过程影响下,建立二次型代价函数,基于二次型代价函数得到无人机安全扰动策略。
所述建立丢包攻击和扰动影响下无人机的状态空间方程包括以下步骤:
构建扰动影响下的时不变连续系统:
式中,为状态向量,为控制信号,为扰动, 为系统矩阵;建立攻击和扰动影响下无人机的状态空间方程:
δx(tk)=A(tk)x(tk)+v(tk)B(tk)u(tk)+D(tk)ω(tk) (13)
式中,
所述给出无人机系统代价函数和扰动鲁棒控制优化问题包括以下步骤:
基于式(9)给出无人机系统代价函数和扰动鲁棒控制优化问题:
式中,固定的常值γ是干扰抑制性能的上界,Q≥0,QK≥0,R>0为权重系数矩阵。
所述在物理层两状态Markov丢包过程影响下,建立二次型代价函数,基于二次型代价函数得到无人机安全扰动策略的操作过程为:
在物理层两状态Markov丢包过程影响下,基于tk-1时刻的状态建立二次型代价函数V(x(tk))如下:
则第k+1步满足:
进一步得到:
其中:
得到控制策略和扰动策略为:
当v(tk-1)=0时:
当v(tk-1)=1时:
式中,
一种基于异构博弈方法的无人机弹性策略设计系统,包括干扰博弈模块、物理层梁状态丢包模块和无人机安全策略模块;
所述干扰博弈模块用于建立动态环境下无人机系统信号传输与攻击者干扰博弈模型和攻击影响下无人机控制信号指令接受概率与攻防传输信号的关系;
所述物理层两状态丢包模块用于通过分析攻击影响下无人机控制信号指令接受概率与攻防传输信号的关系,建立物理层两状态Markov丢包模型;
无人机安全策略模块用于基于物理层两状态Markov丢包模型,建立攻击丢包和扰动影响下无人机状态方程,并基于无人机系统信号传输与攻击者干扰博弈模型构建控制性能指标函数,优化无人机控制器,得到无人机安全控制策略。
一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1- 6任一项所述方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-6任一项所述方法的步骤。
与现有技术相比,本发明具有以下有益效果:
本发明公开了一种基于异构博弈方法的无人机弹性策略设计方法,建立动态环境下无人机系统信号传输与攻击者干扰博弈模型,利用有限Markov状态模型完整刻画无线网络动态环境模型,利用攻击影响下无人机控制信号指令接受概率与攻防传输信号的关系可以有效描述攻防博弈的信号传输强度,本发明提出的干扰博弈模型可以刻画传输者和攻击者相互作用关系,为系统提供最坏情况下功率传输方案,从网络层提供干扰攻击防御;通过分析攻击影响下无人机控制信号指令接受概率与攻防传输信号的关系,建立了物理层两状态Markov丢包模型,该模型与传统伯努利丢包模型相比,反映了控制系统运行过程中是否发生连续数据包丢失,更加精确的反映了攻击者破坏系统性能的目标;该发明同时考虑网络攻击诱导丢包和物理干扰影响,从网络层和物理层构建了无人机在执行任务过程中可能面临的极端环境,通过建立攻击丢包和干扰影响下无人机状态方程,设计控制性能指标函数,求解控制器,可为无人机提供鲁棒的抗攻击的控制策略。该发明采用异构博弈方法为受到网络攻击的无人机系统提供了跨层联合防御方法,减轻了单一依赖控制器防御的压力。
附图说明
为了更清楚的说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为无人机攻防策略求解过程;
图2为网路攻击和扰动下采用本发明安全控制策略的状态收敛图;
图3为网路攻击和扰动下安全控制策略图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明实施例的描述中,需要说明的是,若出现术语“上”、“下”、“水平”、“内”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
此外,若出现术语“水平”,并不表示要求部件绝对水平,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。
在本发明实施例的描述中,还需要说明的是,除非另有明确的规定和限定,若出现术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
下面结合附图对本发明做进一步详细描述:
本发明实施例公开了一种基于异构博弈方法的无人机弹性策略设计方法,利用无线通信网络中信号传输理论,建立动态环境下无人机系统信号传输与攻击者干扰博弈模型;通过分析攻击影响下无人机控制信号指令接受概率与攻防传输信号的关系,建立物理层两状态Markov丢包模型;在网络攻击诱导丢包和干扰影响下,建立无人机状态方程,构建控制性能指标函数,完成保证无人机性能最优的控制器设计。
步骤1:利用无线通信网络中信号传输理论,建立动态环境下无人机系统信号传输与攻击者干扰博弈模型,其特征在于,具体步骤如下:
步骤1.1:分析网络化无人机无线网络通信环境的动态特性,建立有限状态的Markov跳变过程描述网络随时间变化情况:
Π={1,2,…,S} (1)
从n时刻的状态s转移到n+1时刻的状态s′的转移概率为
λs,s′=Pr{s′(n+1)|s(n)},s′(n+1),s(n)∈Π (2)
且满足∑s′∈Πλs,s′=1,
步骤1.2:给出网络层系统信号传输和攻击信号干扰策略集合,基于步骤1.1 中的无线网络通信环境模型,利用信噪比(SINR)描述攻击影响下无人机传输控制信号的强度,进一步,利用数字通信理论中误码率与SINR关系,建立传输功率与控制指令接受概率之间的关系。得到攻击影响下无人机传输控制信号的强度 SINR表示为:
其中传输者的传输功率pm可取M个不同的值记作p={p1,p2,…,pM},
双方策略满足pm∈p,wl∈w;攻击者的传输策略wl从集合 w={w1,w2,…,wL},中取值σ2为高斯白噪声的功率谱密度。根据数字通信理论可知PER与SINR之间的关系为
其中,
κ>0为常数。
步骤1.3:构建网络层无人机与攻击者效用函数,进而得到无人机系统信号传输与攻击者干扰博弈模型。
定义r(s,pm,wl)为状态s下行为变量(pm,wl)的函数,给定如下
其中Jp(s)为物理层性能,标量Cml为选取策略(pm,wl)时的固有代价。传输者作为系统的一部分期望在较少的系统花费下得到较好的系统性能。在实际场景中,函数随参数Jp(s),pm,Cml的增加而递增,随参数wl的增加而递减传输者以最小化函数r(s,pm,wl)为目标,攻击者以最大化函数r(s,pm,wl)为目标。传输者和攻击者可以建模为零和博弈,代价函数给定为
r(s,pm,wl)=rT(s,pm,wl)=-rJ(s,pm,wl). (7)
基于上式构建网络层折扣代价目标函数,引入代价函数Jc来表示网络层折扣代价的期望
其中s是从集合Π中选取的初始状态。n为以环境变化为尺度的时间步数。参数ρ∈(0,1)为对未来收益的折扣因子。进而得到无人机系统信号传输与攻击干扰博弈模型,即如果下列不等式
成立,策略(F*,G*)为零和博弈的鞍点解,其中Jc=[Jc(1),Jc(2),…,Jc(S)];
式中,为折扣代价函数。其中fm(s)∈[0,1]和 gl(s)∈[0,1]为传输者和攻击者在状态s下选择行为pm∈p和wl∈w的概率。对特定的状态s有和记f(s)=[f1(s),f2(s),…,fM(s)],g(s)=[g1(s),g2(s),…,gL(s)],对于所有状态有F=[f(1),f(2),…,f(S)],G=[g(1),g(2),…,g(S)]。
步骤2:建立的攻击影响下数据包接受概率,构建{v(tk)}满足Markov过程是攻击引起的丢包,服从分布
由上式看出,数据包的丢失与否与上一步数据包的接收情况有关,变量满足 0<α≤1,0<β≤1。Markov丢包过程是Bernoulli丢包的推广形式,平均驻留时间 (1-α)/α。DoS攻击者通过使系统产生连续丢包破坏系统的性能。因此,将传输者和攻击者相互作用的结果建模为数据包连续丢失的概率α,满足:
α=1-PER (11)
步骤3:在网络攻击诱导丢包和干扰影响下,建立无人机状态方程,构建控制性能指标函数,完成保证无人机性能最优的控制器设计,包含以下步骤:
步骤3.1:考虑扰动影响下的时不变连续系统
其中,为状态向量,为控制信号,为扰动。 为系统矩阵。在不同网络负载条件和网络攻击(5)影响下,将系统(6)以时变采样周期Tk离散化为δ域的时变系统:
δx(tk)=A(tk)x(tk)+v(tk)B(tk)u(tk)+D(tk)ω(tk) (13)
其中,
步骤3.2:假设网络采用TCP协议,第k步已知的信息集给定为
将控制序列{u(tk)}和扰动序列{ω(tk)}分别记为和在最坏扰动情况下确定最优行为下的最小化系统性能
其中,固定的常值γ是干扰抑制性能的上界,Q≥0,QK≥0,R>0为权重系数矩阵。
步骤3.3:求解满足性能式(13)的物理层最优控制策略:
给出物理层控制器与扰动博弈存在鞍点的充分条件
式中,
在物理层两状态Markov丢包过程影响下,基于tk-1时刻的状态建立二次型代价函数V(x(tk)):
那么第k+1步满足
进一步可得
其中,
进而得到控制策略和最坏扰动策略为:
矩阵Πu0(tk),Πω0(tk),Πu1(tk)和Πω1(tk)是可逆的,在条件1)下,反馈鞍点解给定为
a)v(tk-1)=0
b)v(tk-1)=1
式中:
得到物理层系统性能其中,
其中式(17)中满足Riccati方程:
步骤3.4:利用步骤3.3中的控制系统性能,基于网络层动态环境模型,通过求解线性规划问题:
直至‖Jc(n+1)-Jc(n)‖<ε得到步骤1.3)中博弈问题的最优功率传输策略F*和最优攻击策略G*。
步骤3.5:利用步骤3.3中的控制系统性能,在网络层环境模型未知情况下,通过Q学习迭代过程:
求解:
得到最优攻防策略。
步骤3.6:基于网络层最优功率传输和干扰攻击策略,计算得到步骤1.2中最优安全控制策略通过SINR与丢包率关系
即得到无人机系统控制传输指令概率,利用式V(x(tk))是u0(tk)的凸函数,是ω0(tk)的凹函数,函数V(x(tk))对u0(tk)的一阶导数为
得到扰动最坏情况的的控制策略如式(19)和(20)给出。
以实际的某无人机为案例,本发明公开了一种具体的实施步骤:
参见图1,本发明的具体实施步骤包括:
实施步骤1:建立无人机姿态动力学方程
δx(tk)=A(tk)x(tk)+v(tk)B(tk)u(tk)+D(tk)ω(tk) (13)
其中Tk=0.05,
建立无人机控制性能指标,其中权重矩阵系数为QK=Q=I5×5,R=I3×3,干扰抑制值γ=10,初始状态的协方差为Σ=I10×10,有限时域K=300。
实施步骤2:给定受到攻击的网络存在两个状态Π={1,2},信道增益集合为Ξ=[0.5,0.2]和Γ=[0.3,0.1],从状态1到状态2的转移概率为0.4,从状态2到状态1 的转移概率为0.3。传输者和攻击者的策略集分别为p=[8,3],w=[0.5,2]。特定地,代价函数有下列形式:
r(s,pm,wl)=c0Jp(s)+c1pm-c2wl+Cml (38)
其中,c0>0为权重系数。参数c1和c2为传输者和攻击者的单位能量消耗的代价。取值分别为c0=0.05,c1=1和c2=2。忽略固有代价,即Cml=0,设定网络参数κ(1)=0.8,κ(2)=0.9和σ2=0.05。两种Markov丢包状态下,背景丢包概率分别为β(1)=0.4,β(2)=0.6。
实施步骤3:利用零和博弈求得最优控制策略控制增益为
v(tk-1)=0
v(tk-1)=1
其中,
实施步骤4:基于网络动态环境模型,受到攻击的网络存在两个状态Π={1,2}。信道增益集合为Ξ=[0.5,0.2]和Γ=[0.3,0.1]。利用图1中的价值迭代方法,求解线性规划
得到无人机控制指令传输和干扰攻击能量的最优策略,表1中给出。
实施步骤5:在网络动态环境未知情况下,利用图1给出的Q学习迭代过程,通过迭代式
学习得到攻防行为状态值函数,采用
求得最优混合功率传输和干扰策略,如表1中给出。
实施步骤6:在上述最优功率传输和干扰影响下通过利用式:
计算得到控制指令成功传输的概率α(1)=0.8236,α(2)=0.6546,在此影响下,无人机姿态收敛过程如图2所示,控制信号如图3所示。
表1混合策略
本发明公开的一种基于异构博弈方法的无人机弹性策略设计方法,将信息物理系统划分为网络层和物理层,分别对网络层和物理层进行建模分析,并将两层的耦合关系建模为异构博弈模型。将信息物理系统网络层的传输者和攻击者的功率传输策略问题建模为Markov博弈模型;考虑物理层两状态Markov丢包信道模型,建立DoS攻击诱导丢包概率与两状态丢包模型的关系,通过求解优化问题问题得到最优控制策略;进一步,将两层弹性策略设计问题建模为异构博弈模型,分别通过价值迭代和Q学习方法求解异构博弈问题得到最优控制策略。本发明通过利用博弈方法包括各层零和博弈与跨层异构博弈,提出了无人机系统遭受DoS 攻击和扰动影响下,使无人机满足一定运行性能的联合弹性防御策略。
本发明实施例公开了一种基于异构博弈方法的无人机弹性策略设计系统,包括干扰博弈模块、物理层梁状态丢包模块和无人机安全策略模块;
所述干扰博弈模块用于建立攻击影响下无人机控制信号指令接受概率与攻防传输信号的关系,并建立动态环境下无人机系统信号传输与攻击者干扰博弈模型;
所述物理层梁状态丢包模块用于通过分析攻击影响下无人机控制信号指令接受概率与攻防传输信号的关系,建立物理层两状态Markov丢包模型;
无人机安全策略模块用于在网络攻击诱导丢包和干扰影响下,建立无人机状态方程,构建控制性能指标函数,优化无人机控制器,得到无人机安全控制策略。
本发明一实施例提供了一种终端设备,该实施例的终端设备包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。
所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。
所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器、存储器。
所述处理器可以是中央处理单元(CentralProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor,DSP)、专用集成电路 (ApplicationSpecificIntegratedCircuit,ASIC)、现成可编程门阵列(Field-ProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述终端设备的各种功能。
所述终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于异构博弈方法的无人机弹性策略设计方法,其特征在于,包括以下步骤:
建立动态环境下无人机系统信号传输与攻击者干扰博弈模型和攻击影响下无人机控制信号指令接受概率与攻防传输信号的关系;
分析攻击影响下无人机控制信号指令接受概率与攻防传输信号的关系,建立物理层两状态Markov丢包模型;
基于物理层两状态Markov丢包模型,建立攻击丢包和扰动影响下无人机状态方程,并基于无人机状态方程和无人机系统信号传输与攻击者干扰博弈模型构建控制性能指标函数,优化无人机控制器,得到无人机安全控制策略;
所述建立动态环境下无人机系统信号传输与攻击者干扰博弈模型和攻击影响下无人机控制信号指令接受概率与攻防传输信号的关系包括以下步骤:
建立无线网络通信环境模型:
Π={1,2,…,S} (1)
从n时刻的状态s转移到n+1时刻的状态s′的转移概率为
λs,s′=Pr{s′(n+1)|s(n)},s′(n+1),s(n)∈Π (2)
且满足
建立无人机控制信号指令接受概率与攻防传输信号的关系,传输信号的SINR表示为:
其中,pm表示传输者的传输功率,M表示取不同的值,p={p1,p2,…,pM},在状态s,s∈∏下,传输者的信道增益为ζs,记ζs∈Ξ={ζ1,ζ2,…,ζS},攻击者的干扰增益为ηs,其中ηs∈Γ={η1,η2,…,ηS},攻击者的传输策略wl从集合w={w1,w2,…,wL},中取值σ2为高斯白噪声的功率谱密度,PER与SINR之间的关系为:
其中,Q(·)为误差函数,见下式:
常数κ>0为比例参数,γT,s表示传输信号的信噪比;
构建网络层无人机与攻击者效用函数,得到无人机系统信号传输与攻击者干扰博弈模型:
式中,r(s,pm,wl)为状态s下行为变量(pm,wl)的函数,Jp(s)为物理层性能,标量Cml为选取策略(pm,wl)时的固有代价,在实际场景中,函数随参数Jp(s),pm,Cml的增加而递增,随参数wl的增加而递减,传输者和攻击者能够建模为零和博弈,代价函数给定为:
r(s,pm,wl)=rT(s,pm,wl)=-rJ(s,pm,wl). (7)
基于式(7)构建网络层折扣代价目标函数,引入代价函数Jc来表示网络层折扣代价的期望:
式中,s是从集合∏中选取的初始状态,n为以环境变化为尺度的时间步数,参数ρ∈(0,1)为对未来收益的折扣因子;
得到无人机系统信号传输与攻击者干扰博弈模型:
式中,策略(F*,G*)为零和博弈的鞍点解,其中Jc=[Jc(1),Jc(2),…,Jc(S)];
所述建立物理层两状态Markov丢包模型包括以下步骤:
建立攻击影响下数据包接收概率,构建{v(tk)}满足Markov过程是攻击引起的丢包,服从分布:
式中,变量满足0<α≤1,0<β≤1,将传输者和攻击者相互作用的结果建模为数据包连续丢失的概率α,满足
α=1-PER (11)
所述建立攻击丢包和扰动影响下无人机状态方程,并基于无人机系统信号传输与攻击者干扰博弈模型构建控制性能指标函数,优化无人机控制器,得到无人机安全控制策略包括以下步骤:
建立攻击和扰动影响下无人机的状态空间方程;
给出无人机系统代价函数和扰动鲁棒控制优化问题;
在物理层两状态Markov丢包过程影响下,建立二次型代价函数,基于二次型代价函数得到无人机安全扰动策略;
所述建立攻击和扰动影响下无人机的状态空间方程包括以下步骤:
构建扰动影响下的时不变连续系统:
式中,为状态向量,为控制信号,为扰动, 为系统矩阵;
建立攻击和扰动影响下无人机的状态空间方程:
δx(tk)=A(tk)x(tk)+v(tk)B(tk)u(tk)+D(tk)ω(tk) (13)
式中,
所述给出无人机系统代价函数和扰动鲁棒控制优化问题包括以下步骤:
基于式(9)给出无人机系统代价函数和扰动鲁棒控制优化问题:
式中,固定的常值γ是干扰抑制性能的上界,Q≥0,QK≥0,R>0为权重系数矩阵;
所述在物理层两状态Markov丢包过程影响下,建立二次型代价函数,基于二次型代价函数得到无人机安全扰动策略的操作过程为:
在物理层两状态Markov丢包过程影响下,基于tk-1时刻的状态建立二次型代价函数V(x(tk))如下:
则第k+1步满足:
进一步得到:
其中:
得到控制策略和扰动策略为:
当v(tk-1)=0时:
当v(tk-1)=1时:
式中,
2.一种基于如权利要求1所述的基于异构博弈方法的无人机弹性策略设计系统,其特征在于,包括干扰博弈模块、物理层梁状态丢包模块和无人机安全策略模块;
所述干扰博弈模块用于建立动态环境下无人机系统信号传输与攻击者干扰博弈模型和攻击影响下无人机控制信号指令接受概率与攻防传输信号的关系;
所述物理层两状态丢包模块用于通过分析攻击影响下无人机控制信号指令接受概率与攻防传输信号的关系,建立物理层两状态Markov丢包模型;
无人机安全策略模块用于基于物理层两状态Markov丢包模型,建立攻击丢包和扰动影响下无人机状态方程,并基于无人机系统信号传输与攻击者干扰博弈模型构建控制性能指标函数,优化无人机控制器,得到无人机安全控制策略。
3.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1所述方法的步骤。
4.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111216510.9A CN113934224B (zh) | 2021-10-19 | 2021-10-19 | 一种基于异构博弈方法的无人机弹性策略设计方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111216510.9A CN113934224B (zh) | 2021-10-19 | 2021-10-19 | 一种基于异构博弈方法的无人机弹性策略设计方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113934224A CN113934224A (zh) | 2022-01-14 |
CN113934224B true CN113934224B (zh) | 2024-01-23 |
Family
ID=79280473
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111216510.9A Active CN113934224B (zh) | 2021-10-19 | 2021-10-19 | 一种基于异构博弈方法的无人机弹性策略设计方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113934224B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116859745B (zh) * | 2023-08-03 | 2024-05-31 | 江南大学 | 基于偏差评价机制的跳变系统无模型博弈控制的设计方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2271047A1 (en) * | 2009-06-22 | 2011-01-05 | Deutsche Telekom AG | Game theoretic recommendation system and method for security alert dissemination |
CN107463094A (zh) * | 2017-07-13 | 2017-12-12 | 江西洪都航空工业集团有限责任公司 | 一种不确定信息下多无人机空战动态博弈方法 |
CN109104733A (zh) * | 2018-07-12 | 2018-12-28 | 西北工业大学 | 一种基于离散平均场博弈的多无人机空对地无线通信方法 |
CN110460572A (zh) * | 2019-07-06 | 2019-11-15 | 中国人民解放军战略支援部队信息工程大学 | 基于Markov信号博弈的移动目标防御策略选取方法及设备 |
CN112672371A (zh) * | 2020-12-23 | 2021-04-16 | 中国人民解放军陆军工程大学 | 一种异构需求下的空地协同分层部署模型及其接入方法 |
KR20210096820A (ko) * | 2020-01-29 | 2021-08-06 | 세종대학교산학협력단 | 머신 타입 통신을 위한 송신 전력의 제어를 위한 평균장 게임 프레임워크 기반 기법 |
CN114415735A (zh) * | 2022-03-31 | 2022-04-29 | 天津大学 | 面向动态环境的多无人机分布式智能任务分配方法 |
-
2021
- 2021-10-19 CN CN202111216510.9A patent/CN113934224B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2271047A1 (en) * | 2009-06-22 | 2011-01-05 | Deutsche Telekom AG | Game theoretic recommendation system and method for security alert dissemination |
CN107463094A (zh) * | 2017-07-13 | 2017-12-12 | 江西洪都航空工业集团有限责任公司 | 一种不确定信息下多无人机空战动态博弈方法 |
CN109104733A (zh) * | 2018-07-12 | 2018-12-28 | 西北工业大学 | 一种基于离散平均场博弈的多无人机空对地无线通信方法 |
CN110460572A (zh) * | 2019-07-06 | 2019-11-15 | 中国人民解放军战略支援部队信息工程大学 | 基于Markov信号博弈的移动目标防御策略选取方法及设备 |
KR20210096820A (ko) * | 2020-01-29 | 2021-08-06 | 세종대학교산학협력단 | 머신 타입 통신을 위한 송신 전력의 제어를 위한 평균장 게임 프레임워크 기반 기법 |
CN112672371A (zh) * | 2020-12-23 | 2021-04-16 | 中国人民解放军陆军工程大学 | 一种异构需求下的空地协同分层部署模型及其接入方法 |
CN114415735A (zh) * | 2022-03-31 | 2022-04-29 | 天津大学 | 面向动态环境的多无人机分布式智能任务分配方法 |
Non-Patent Citations (3)
Title |
---|
基于Stackelberg安全博弈的动态防御策略选取方法;葛潇月;周天阳;臧艺超;朱俊虎;;计算机工程与应用(第17期);全文 * |
多无人机协同打击任务的攻防博弈策略研究;陈侠;李光耀;赵谅;;火力与指挥控制(第11期);全文 * |
面向异构无人机中继网络的负载均衡:一种分层博弈方法;杨婷婷;宋绯;孙有铭;姚凯凌;杨旸;;通信技术(第11期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113934224A (zh) | 2022-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Aslam et al. | Reliable control design for composite‐driven scheme based on delay networked T‐S fuzzy system | |
Peng et al. | Distributed model reference adaptive control for cooperative tracking of uncertain dynamical multi‐agent systems | |
Hu et al. | Analysis of optimal performance of MIMO networked control systems with encoding and packet dropout constraints | |
Wang et al. | Distributed consensus protocols for coordinated control of multiple quadrotors under a directed topology | |
Sakthivel et al. | Robust reliable sampled‐data H∞ control for uncertain stochastic systems with random delay | |
Mei et al. | Robust second‐order finite‐time formation control of heterogeneous multi‐agent systems on directed communication graphs | |
Cui et al. | Distributed containment control for nonlinear multiagent systems in pure‐feedback form | |
CN113934224B (zh) | 一种基于异构博弈方法的无人机弹性策略设计方法及系统 | |
Zhao et al. | Observer‐based formation tracking control for leader–follower multi‐agent systems | |
Chen et al. | Robust formation tracking for uncertain multi‐agent systems with unknown leader input | |
De Tommasi et al. | AL 2‐gain robust PID‐like protocol for time‐varying output formation‐containment of multi‐agent systems with external disturbance and communication delays | |
Lu et al. | Radial Basis Function Neural Network Based on an Improved Exponential Decreasing Inertia Weight‐Particle Swarm Optimization Algorithm for AQI Prediction | |
Jin et al. | Adaptive ELM-based security control for a class of nonlinear-interconnected systems with DoS attacks | |
Wang et al. | Event-triggered cooperative adaptive neural control for cyber–physical systems with unknown state time delays and deception attacks | |
Shan et al. | Containment control of multi-agent systems with general noise based on hierarchical topology reconfiguration | |
An et al. | Data‐based optimal Denial‐of‐Service attack scheduling against robust control based on Q‐learning | |
Chen et al. | Guaranteed performance impulsive tracking control of multi-agents systems under discrete-time deception attacks | |
Wei et al. | H∞ control for a class of multi‐agent systems via a stochastic sampled‐data method | |
Zhang et al. | Neural network-based control for RRP-based networked systems under DoS attacks with power interval | |
Yang et al. | Predictor‐based bipartite time‐varying formation control of nonlinear multi‐agents systems via disturbance observer | |
Zhou et al. | Accelerated neuroadaptive tracking control of strict‐feedback nonlinear systems without precise knowledge of target trajectory | |
Mu et al. | Memory-event-triggered consensus control for multi-UAV systems against deception attacks | |
Gao et al. | Zero‐sum game‐based security control of unknown nonlinear Markov jump systems under false data injection attacks | |
Xue et al. | Distributed finite‐time control for Markovian jump systems interconnected over undirected graphs with time‐varying delay | |
Wang et al. | Network-based H∞ filtering for descriptor Markovian jump systems with a novel neural network event-triggered scheme |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |