CN113934224B

CN113934224B - 一种基于异构博弈方法的无人机弹性策略设计方法及系统

Info

Publication number: CN113934224B
Application number: CN202111216510.9A
Authority: CN
Inventors: 袁欢欢; 袁源; 王奕博
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-10-19
Filing date: 2021-10-19
Publication date: 2024-01-23
Anticipated expiration: 2041-10-19
Also published as: CN113934224A

Abstract

本发明公开了一种基于异构博弈方法的无人机弹性策略设计方法及系统，建立攻击影响下无人机控制信号指令接受概率与攻防传输信号的关系，并建立动态环境下无人机系统信号传输与攻击者干扰博弈模型，将信息物理系统划分为网络层和物理层，分别对网络层和物理层进行建模分析，并将两层的耦合关系建模为异构博弈模型；将信息物理系统网络层的传输者和攻击者的功率传输策略问题建模为Markov博弈模型，在网络攻击诱导丢包和干扰影响下，建立无人机状态方程，构建控制性能指标函数，优化无人机控制器，使无人机满足一定运行性能的联合弹性防御策略，解决了无人机防御不及时，效果不理想的缺陷。

Description

一种基于异构博弈方法的无人机弹性策略设计方法及系统

技术领域

本发明属于无人机弹性策略优化领域，涉及一种基于异构博弈方法的无人机弹性策略设计方法及系统。

背景技术

控制是无人机完成任务的手段，无人机离不开控制。基于高速发展的网络技术，依靠网络制定多无人机的协同作战计划，网络的引入是无人机面临攻击威胁。在众多的攻击手段中，拒绝服务攻击由于其易于实现和破坏性强等特点而备受关注。现有系统安全控制手段大多采用被动防御技术，即在系统受到攻击之后设计弥补攻击破坏系统性能的弹性策略机制，具有防御不及时，效果不理想的缺陷。因此设计主动防御机制是预防攻击破坏控制系统性能的可行方案。

此外，无人机系统结构复杂，在运行过程中受到各种外界因素的影响，将系统受到外界影响建模为扰动是常用的处理方法。对系统中扰动的处理方法主要是通过Kalman滤波器，观测器观测扰动。Kalman滤波器的设计需要已知噪声的统计特性，扰动观测器的设计需要已知扰动的信息或对扰动具有一定约束限制。设计攻击影响和扰动最坏情况下仍能保证系统正常运行控制方案是必要的。

发明内容

本发明的目的在于解决现有技术中的问题，提供一种基于异构博弈方法的无人机弹性策略设计方法及系统。

为达到上述目的，本发明采用以下技术方案予以实现：

一种基于异构博弈方法的无人机弹性策略设计方法，包括以下步骤：

建立动态环境下无人机系统信号传输与攻击者干扰博弈模型和攻击影响下无人机控制信号指令接受概率与攻防传输信号的关系；

分析攻击影响下无人机控制信号指令接受概率与攻防传输信号的关系，建立物理层两状态Markov丢包模型；

基于物理层两状态Markov丢包模型，建立攻击丢包和扰动影响下无人机状态方程，并基于无人机状态方程和无人机系统信号传输与攻击者干扰博弈模型构建控制性能指标函数，优化无人机控制器，得到无人机安全控制策略。

本方法的进一步改进在于：

所述建立动态环境下无人机系统信号传输与攻击者干扰博弈模型和攻击影响下无人机控制信号指令接受概率与攻防传输信号的关系包括以下步骤：

建立无线网络通信环境模型：

Π＝{1,2,…,S} (1)

从n时刻的状态s转移到n+1时刻的状态s′的转移概率为

λ_s,s′＝Pr{s′(n+1)|s(n)},s′(n+1),s(n)∈Π (2)

且满足

建立无人机控制信号指令接受概率与攻防传输信号的关系，传输信号的 SINR表示为：

其中，p_m表示传输者的传输功率，M表示取不同的值，p＝{p₁,p₂,…,p_M},，在状态s,s∈Π下，传输者的信道增益为ζ_s，记ζ_s∈Ξ＝{ζ₁,ζ₂,…,ζ_S}，攻击者的干扰增益为η_s，其中η_s∈Γ＝{η₁,η₂,…,η_S}，攻击者的传输策略w_l从集合 w＝{w₁,w₂,…,w_L}，中取值σ²为高斯白噪声的功率谱密度，PER与SINR

其中，Q(·)为误差函数，见下式：

常数κ＞0为比例参数，γ_T,s表示传输信号的信噪比；

构建网络层无人机与攻击者效用函数，得到无人机系统信号传输与攻击者干扰博弈模型：

式中，r(s,p_m,w_l)为状态s下行为变量(p_m,w_l)的函数，J_p(s)为物理层性能，标量C_ml为选取策略(p_m,w_l)时的固有代价，在实际场景中，函数随参数J_p(s),p_m,C_ml的增加而递增，随参数w_l的增加而递减，传输者和攻击者能够建模为零和博弈，代价函数给定为：

r(s,p_m,w_l)＝r_T(s,p_m,w_l)＝-r_J(s,p_m,w_l). (7)

基于式(7)构建网络层折扣代价目标函数，引入代价函数J_c来表示网络层折扣代价的期望：

式中，s是从集合Π中选取的初始状态，n为以环境变化为尺度的时间步数，参数ρ∈(0,1)为对未来收益的折扣因子；

得到无人机系统信号传输与攻击者干扰博弈模型：

式中，策略(F^*,G^*)为零和博弈的鞍点解，其中J_c＝[J_c(1),J_c(2),…,J_c(S)]。

所述建立物理层两状态Markov丢包模型包括以下步骤：

建立攻击影响下数据包接收概率，构建{v(t_k)}满足Markov过程是攻击引起的丢包，服从分布：

式中，变量满足0＜α≤1，0＜β≤1，将传输者和攻击者相互作用的结果建模为数据包连续丢失的概率α，满足

α＝1-PER (11)。

所述建立攻击丢包和扰动影响下无人机状态方程，并基于无人机系统信号传输与攻击者干扰博弈模型构建控制性能指标函数，优化无人机控制器，得到无人机安全控制策略包括以下步骤：

建立攻击和扰动影响下无人机的状态空间方程；

给出无人机系统代价函数和扰动鲁棒控制优化问题；

在物理层两状态Markov丢包过程影响下，建立二次型代价函数，基于二次型代价函数得到无人机安全扰动策略。

所述建立丢包攻击和扰动影响下无人机的状态空间方程包括以下步骤：

构建扰动影响下的时不变连续系统：

式中，为状态向量，为控制信号，为扰动，为系统矩阵；建立攻击和扰动影响下无人机的状态空间方程：

δx(t_k)＝A(t_k)x(t_k)+v(t_k)B(t_k)u(t_k)+D(t_k)ω(t_k) (13)

式中，

所述给出无人机系统代价函数和扰动鲁棒控制优化问题包括以下步骤：

基于式(9)给出无人机系统代价函数和扰动鲁棒控制优化问题：

式中，固定的常值γ是干扰抑制性能的上界，Q≥0，Q_K≥0，R＞0为权重系数矩阵。

所述在物理层两状态Markov丢包过程影响下，建立二次型代价函数，基于二次型代价函数得到无人机安全扰动策略的操作过程为：

在物理层两状态Markov丢包过程影响下，基于t_k-1时刻的状态建立二次型代价函数V(x(t_k))如下：

则第k+1步满足：

进一步得到：

其中：

得到控制策略和扰动策略为：

当v(t_k-1)＝0时：

当v(t_k-1)＝1时：

式中，

一种基于异构博弈方法的无人机弹性策略设计系统，包括干扰博弈模块、物理层梁状态丢包模块和无人机安全策略模块；

所述干扰博弈模块用于建立动态环境下无人机系统信号传输与攻击者干扰博弈模型和攻击影响下无人机控制信号指令接受概率与攻防传输信号的关系；

所述物理层两状态丢包模块用于通过分析攻击影响下无人机控制信号指令接受概率与攻防传输信号的关系，建立物理层两状态Markov丢包模型；

无人机安全策略模块用于基于物理层两状态Markov丢包模型，建立攻击丢包和扰动影响下无人机状态方程，并基于无人机系统信号传输与攻击者干扰博弈模型构建控制性能指标函数，优化无人机控制器，得到无人机安全控制策略。

一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1- 6任一项所述方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-6任一项所述方法的步骤。

与现有技术相比，本发明具有以下有益效果：

本发明公开了一种基于异构博弈方法的无人机弹性策略设计方法，建立动态环境下无人机系统信号传输与攻击者干扰博弈模型，利用有限Markov状态模型完整刻画无线网络动态环境模型，利用攻击影响下无人机控制信号指令接受概率与攻防传输信号的关系可以有效描述攻防博弈的信号传输强度，本发明提出的干扰博弈模型可以刻画传输者和攻击者相互作用关系，为系统提供最坏情况下功率传输方案，从网络层提供干扰攻击防御；通过分析攻击影响下无人机控制信号指令接受概率与攻防传输信号的关系，建立了物理层两状态Markov丢包模型，该模型与传统伯努利丢包模型相比，反映了控制系统运行过程中是否发生连续数据包丢失，更加精确的反映了攻击者破坏系统性能的目标；该发明同时考虑网络攻击诱导丢包和物理干扰影响，从网络层和物理层构建了无人机在执行任务过程中可能面临的极端环境，通过建立攻击丢包和干扰影响下无人机状态方程，设计控制性能指标函数，求解控制器，可为无人机提供鲁棒的抗攻击的控制策略。该发明采用异构博弈方法为受到网络攻击的无人机系统提供了跨层联合防御方法，减轻了单一依赖控制器防御的压力。

附图说明

为了更清楚的说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为无人机攻防策略求解过程；

图2为网路攻击和扰动下采用本发明安全控制策略的状态收敛图；

图3为网路攻击和扰动下安全控制策略图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明实施例的描述中，需要说明的是，若出现术语“上”、“下”、“水平”、“内”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

此外，若出现术语“水平”，并不表示要求部件绝对水平，而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平，并不是表示该结构一定要完全水平，而是可以稍微倾斜。

在本发明实施例的描述中，还需要说明的是，除非另有明确的规定和限定，若出现术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

下面结合附图对本发明做进一步详细描述：

本发明实施例公开了一种基于异构博弈方法的无人机弹性策略设计方法，利用无线通信网络中信号传输理论，建立动态环境下无人机系统信号传输与攻击者干扰博弈模型；通过分析攻击影响下无人机控制信号指令接受概率与攻防传输信号的关系，建立物理层两状态Markov丢包模型；在网络攻击诱导丢包和干扰影响下，建立无人机状态方程，构建控制性能指标函数，完成保证无人机性能最优的控制器设计。

步骤1：利用无线通信网络中信号传输理论，建立动态环境下无人机系统信号传输与攻击者干扰博弈模型，其特征在于，具体步骤如下：

步骤1.1：分析网络化无人机无线网络通信环境的动态特性，建立有限状态的Markov跳变过程描述网络随时间变化情况：

Π＝{1,2,…,S} (1)

从n时刻的状态s转移到n+1时刻的状态s′的转移概率为

λ_s,s′＝Pr{s′(n+1)|s(n)},s′(n+1),s(n)∈Π (2)

且满足∑s′∈Πλ_s,s′＝1,

步骤1.2：给出网络层系统信号传输和攻击信号干扰策略集合，基于步骤1.1 中的无线网络通信环境模型，利用信噪比(SINR)描述攻击影响下无人机传输控制信号的强度，进一步，利用数字通信理论中误码率与SINR关系，建立传输功率与控制指令接受概率之间的关系。得到攻击影响下无人机传输控制信号的强度 SINR表示为：

其中传输者的传输功率p_m可取M个不同的值记作p＝{p₁,p₂,…,p_M},

双方策略满足p_m∈p，w_l∈w；攻击者的传输策略w_l从集合 w＝{w₁，w₂，…，w_L}，中取值σ²为高斯白噪声的功率谱密度。根据数字通信理论可知PER与SINR之间的关系为

其中，

κ＞0为常数。

步骤1.3：构建网络层无人机与攻击者效用函数，进而得到无人机系统信号传输与攻击者干扰博弈模型。

定义r(s,p_m,w_l)为状态s下行为变量(p_m,w_l)的函数，给定如下

其中J_p(s)为物理层性能，标量C_ml为选取策略(p_m,w_l)时的固有代价。传输者作为系统的一部分期望在较少的系统花费下得到较好的系统性能。在实际场景中，函数随参数J_p(s),p_m,C_ml的增加而递增，随参数w_l的增加而递减传输者以最小化函数r(s,p_m,w_l)为目标，攻击者以最大化函数r(s,p_m,w_l)为目标。传输者和攻击者可以建模为零和博弈，代价函数给定为

r(s,p_m,w_l)＝r_T(s,p_m,w_l)＝-r_J(s,p_m,w_l). (7)

基于上式构建网络层折扣代价目标函数，引入代价函数J_c来表示网络层折扣代价的期望

其中s是从集合Π中选取的初始状态。n为以环境变化为尺度的时间步数。参数ρ∈(0,1)为对未来收益的折扣因子。进而得到无人机系统信号传输与攻击干扰博弈模型，即如果下列不等式

成立，策略(F^*,G^*)为零和博弈的鞍点解，其中J_c＝[J_c(1),J_c(2),…,J_c(S)]；

式中，为折扣代价函数。其中f_m(s)∈[0,1]和 g_l(s)∈[0,1]为传输者和攻击者在状态s下选择行为p_m∈p和w_l∈w的概率。对特定的状态s有和记f(s)＝[f₁(s),f₂(s),…,f_M(s)],g(s)＝[g₁(s),g₂(s),…,g_L(s)],对于所有状态有F＝[f(1),f(2),…,f(S)]，G＝[g(1),g(2),…,g(S)]。

步骤2：建立的攻击影响下数据包接受概率，构建{v(t_k)}满足Markov过程是攻击引起的丢包，服从分布

由上式看出，数据包的丢失与否与上一步数据包的接收情况有关，变量满足 0＜α≤1，0＜β≤1。Markov丢包过程是Bernoulli丢包的推广形式，平均驻留时间 (1-α)/α。DoS攻击者通过使系统产生连续丢包破坏系统的性能。因此，将传输者和攻击者相互作用的结果建模为数据包连续丢失的概率α，满足：

α＝1-PER (11)

步骤3：在网络攻击诱导丢包和干扰影响下，建立无人机状态方程，构建控制性能指标函数，完成保证无人机性能最优的控制器设计，包含以下步骤：

步骤3.1：考虑扰动影响下的时不变连续系统

其中，为状态向量，为控制信号，为扰动。为系统矩阵。在不同网络负载条件和网络攻击(5)影响下，将系统(6)以时变采样周期T_k离散化为δ域的时变系统：

δx(t_k)＝A(t_k)x(t_k)+v(t_k)B(t_k)u(t_k)+D(t_k)ω(t_k) (13)

其中，

步骤3.2：假设网络采用TCP协议，第k步已知的信息集给定为

将控制序列{u(t_k)}和扰动序列{ω(t_k)}分别记为和在最坏扰动情况下确定最优行为下的最小化系统性能

其中，固定的常值γ是干扰抑制性能的上界，Q≥0，Q_K≥0，R＞0为权重系数矩阵。

步骤3.3：求解满足性能式(13)的物理层最优控制策略：

给出物理层控制器与扰动博弈存在鞍点的充分条件

式中，

在物理层两状态Markov丢包过程影响下，基于t_k-1时刻的状态建立二次型代价函数V(x(t_k))：

那么第k+1步满足

进一步可得

其中，

进而得到控制策略和最坏扰动策略为：

矩阵Π_u0(t_k)，Π_ω0(t_k)，Π_u1(t_k)和Π_ω1(t_k)是可逆的，在条件1)下，反馈鞍点解给定为

a)v(t_k-1)＝0

b)v(t_k-1)＝1

式中：

得到物理层系统性能其中，

其中式(17)中满足Riccati方程：

步骤3.4：利用步骤3.3中的控制系统性能，基于网络层动态环境模型，通过求解线性规划问题：

直至‖J_c(n+1)-J_c(n)‖＜ε得到步骤1.3)中博弈问题的最优功率传输策略F^*和最优攻击策略G^*。

步骤3.5：利用步骤3.3中的控制系统性能，在网络层环境模型未知情况下，通过Q学习迭代过程：

求解：

得到最优攻防策略。

步骤3.6：基于网络层最优功率传输和干扰攻击策略，计算得到步骤1.2中最优安全控制策略通过SINR与丢包率关系

即得到无人机系统控制传输指令概率，利用式V(x(t_k))是u₀(t_k)的凸函数，是ω₀(t_k)的凹函数，函数V(x(t_k))对u₀(t_k)的一阶导数为

得到扰动最坏情况的的控制策略如式(19)和(20)给出。

以实际的某无人机为案例，本发明公开了一种具体的实施步骤：

参见图1，本发明的具体实施步骤包括：

实施步骤1：建立无人机姿态动力学方程

δx(t_k)＝A(t_k)x(t_k)+v(t_k)B(t_k)u(t_k)+D(t_k)ω(t_k) (13)

其中T_k＝0.05，

建立无人机控制性能指标，其中权重矩阵系数为Q^K＝Q＝I_5×5，R＝I_3×3，干扰抑制值γ＝10，初始状态的协方差为Σ＝I_10×10，有限时域K＝300。

实施步骤2：给定受到攻击的网络存在两个状态Π＝{1,2}，信道增益集合为Ξ＝[0.5,0.2]和Γ＝[0.3,0.1]，从状态1到状态2的转移概率为0.4，从状态2到状态1 的转移概率为0.3。传输者和攻击者的策略集分别为p＝[8,3]，w＝[0.5,2]。特定地，代价函数有下列形式：

r(s,p_m,w_l)＝c₀J_p(s)+c₁p_m-c₂w_l+C_ml (38)

其中，c₀＞0为权重系数。参数c₁和c₂为传输者和攻击者的单位能量消耗的代价。取值分别为c₀＝0.05，c₁＝1和c₂＝2。忽略固有代价，即C_ml＝0,设定网络参数κ(1)＝0.8，κ(2)＝0.9和σ²＝0.05。两种Markov丢包状态下，背景丢包概率分别为β(1)＝0.4，β(2)＝0.6。

实施步骤3：利用零和博弈求得最优控制策略控制增益为

v(t_k-1)＝0

v(t_k-1)＝1

其中，

实施步骤4：基于网络动态环境模型，受到攻击的网络存在两个状态Π＝{1,2}。信道增益集合为Ξ＝[0.5,0.2]和Γ＝[0.3,0.1]。利用图1中的价值迭代方法，求解线性规划

得到无人机控制指令传输和干扰攻击能量的最优策略，表1中给出。

实施步骤5：在网络动态环境未知情况下，利用图1给出的Q学习迭代过程，通过迭代式

学习得到攻防行为状态值函数，采用

求得最优混合功率传输和干扰策略，如表1中给出。

实施步骤6：在上述最优功率传输和干扰影响下通过利用式：

计算得到控制指令成功传输的概率α(1)＝0.8236,α(2)＝0.6546，在此影响下，无人机姿态收敛过程如图2所示，控制信号如图3所示。

表1混合策略

本发明公开的一种基于异构博弈方法的无人机弹性策略设计方法，将信息物理系统划分为网络层和物理层，分别对网络层和物理层进行建模分析，并将两层的耦合关系建模为异构博弈模型。将信息物理系统网络层的传输者和攻击者的功率传输策略问题建模为Markov博弈模型；考虑物理层两状态Markov丢包信道模型，建立DoS攻击诱导丢包概率与两状态丢包模型的关系，通过求解优化问题问题得到最优控制策略；进一步，将两层弹性策略设计问题建模为异构博弈模型，分别通过价值迭代和Q学习方法求解异构博弈问题得到最优控制策略。本发明通过利用博弈方法包括各层零和博弈与跨层异构博弈，提出了无人机系统遭受DoS 攻击和扰动影响下，使无人机满足一定运行性能的联合弹性防御策略。

本发明实施例公开了一种基于异构博弈方法的无人机弹性策略设计系统，包括干扰博弈模块、物理层梁状态丢包模块和无人机安全策略模块；

所述干扰博弈模块用于建立攻击影响下无人机控制信号指令接受概率与攻防传输信号的关系，并建立动态环境下无人机系统信号传输与攻击者干扰博弈模型；

所述物理层梁状态丢包模块用于通过分析攻击影响下无人机控制信号指令接受概率与攻防传输信号的关系，建立物理层两状态Markov丢包模型；

无人机安全策略模块用于在网络攻击诱导丢包和干扰影响下，建立无人机状态方程，构建控制性能指标函数，优化无人机控制器，得到无人机安全控制策略。

本发明一实施例提供了一种终端设备，该实施例的终端设备包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。或者，所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。

所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。

所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器、存储器。

所述处理器可以是中央处理单元(CentralProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor，DSP)、专用集成电路 (ApplicationSpecificIntegratedCircuit，ASIC)、现成可编程门阵列(Field-ProgrammableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述终端设备的各种功能。

所述终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于异构博弈方法的无人机弹性策略设计方法，其特征在于，包括以下步骤：

基于物理层两状态Markov丢包模型，建立攻击丢包和扰动影响下无人机状态方程，并基于无人机状态方程和无人机系统信号传输与攻击者干扰博弈模型构建控制性能指标函数，优化无人机控制器，得到无人机安全控制策略；

建立无线网络通信环境模型：

Π＝{1,2,…,S} (1)

从n时刻的状态s转移到n+1时刻的状态s′的转移概率为

λ_s,s′＝Pr{s′(n+1)|s(n)},s′(n+1),s(n)∈Π (2)

且满足

建立无人机控制信号指令接受概率与攻防传输信号的关系，传输信号的SINR表示为：

其中，p_m表示传输者的传输功率，M表示取不同的值，p＝{p₁,p₂,…,p_M},在状态s,s∈∏下，传输者的信道增益为ζ_s，记ζ_s∈Ξ＝{ζ₁,ζ₂,…,ζ_S}，攻击者的干扰增益为η_s，其中η_s∈Γ＝{η₁,η₂,…,η_S}，攻击者的传输策略w_l从集合w＝{w₁,w₂,…,w_L}，中取值σ²为高斯白噪声的功率谱密度，PER与SINR之间的关系为：

其中，Q(·)为误差函数，见下式：

常数κ>0为比例参数，γ_T,s表示传输信号的信噪比；

r(s,p_m,w_l)＝r_T(s,p_m,w_l)＝-r_J(s,p_m,w_l). (7)

式中，s是从集合∏中选取的初始状态，n为以环境变化为尺度的时间步数，参数ρ∈(0,1)为对未来收益的折扣因子；

得到无人机系统信号传输与攻击者干扰博弈模型：

式中，策略(F^*,G^*)为零和博弈的鞍点解，其中J_c＝[J_c(1),J_c(2),…,J_c(S)]；

所述建立物理层两状态Markov丢包模型包括以下步骤：

α＝1-PER (11)

建立攻击和扰动影响下无人机的状态空间方程；

给出无人机系统代价函数和扰动鲁棒控制优化问题；

在物理层两状态Markov丢包过程影响下，建立二次型代价函数，基于二次型代价函数得到无人机安全扰动策略；

所述建立攻击和扰动影响下无人机的状态空间方程包括以下步骤：

构建扰动影响下的时不变连续系统：

式中，为状态向量，为控制信号，为扰动，为系统矩阵；

建立攻击和扰动影响下无人机的状态空间方程：

δx(t_k)＝A(t_k)x(t_k)+v(t_k)B(t_k)u(t_k)+D(t_k)ω(t_k) (13)

式中，

式中，固定的常值γ是干扰抑制性能的上界，Q≥0，Q_K≥0，R>0为权重系数矩阵；

则第k+1步满足：

进一步得到：

其中：

得到控制策略和扰动策略为：

当v(t_k-1)＝0时：

当v(t_k-1)＝1时：

式中，

2.一种基于如权利要求1所述的基于异构博弈方法的无人机弹性策略设计系统，其特征在于，包括干扰博弈模块、物理层梁状态丢包模块和无人机安全策略模块；

3.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1所述方法的步骤。

4.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1所述方法的步骤。