CN114050939B

CN114050939B - 基于贝叶斯博弈的飞行器信息物理系统设计方法及系统

Info

Publication number: CN114050939B
Application number: CN202111408687.9A
Authority: CN
Inventors: 袁欢欢; 钟一凡; 袁源
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-11-24
Filing date: 2021-11-24
Publication date: 2023-01-10
Anticipated expiration: 2041-11-24
Also published as: CN114050939A

Abstract

本发明公开了一种基于贝叶斯博弈的飞行器信息物理系统设计方法及系统，根据飞行器的飞行状态，构建受到恶意网络攻击的离散非线性系统模型；对离散非线性系统模型进行处理，获取控制系统的上限；依据多信道传输模式，构建随机跳变的多信道传输协议；依据控制系统的上限和多信道传输协议，构建基于不完全信息的贝叶斯博弈系统；对贝叶斯博弈系统进行处理，获取静态和动态贝叶斯博弈最优的结果，构建最优飞行器信息物理系统。本发明构建基于不完全信息的网络层随机博弈模型，通过最小化目标函数的上界，采用完全平方技术和类黎卡提方程得到目标函数的上限；针对不同信息集，提出静态和动态不完全信息随机对策，获取最优飞行器信息物理系统。

Description

基于贝叶斯博弈的飞行器信息物理系统设计方法及系统

技术领域

本发明属于飞行器控制领域，涉及一种基于贝叶斯博弈的飞行器信息物理系统设计方法及系统。

背景技术

近十年来，由于通信和计算技术的快速发展，飞行器信息物理系统(CPSs)受到了广泛关注。CPS通过结合通信、计算和控制技术，将网络空间和物理世界整合在一起。鉴于CPS广泛应用于包括电网、交通网络、无人驾驶飞机等重要领域，其安全性至关重要，当CPS遭受到外界攻击时，如何保证CPS的安全性成为许多学者研究的热点。CPSs中的基础设施分布广泛，通过无线通信网络连接。由于无线媒体的开放性和广播性，无线网络容易受到干扰攻击。拒绝服务(DoS)干扰攻击已成为远程估计和控制CPS的主要威胁，它可以破坏数据包的实时更新，而无需事先了解任何系统知识，这会中断CPS的正常运行，导致系统性能显著下降，甚至造成财产或生命损失。

针对飞行器信息物理系统，尽管所提出的基于博弈论的方法已经涵盖了DoS攻击CPS的大部分场景，但假设两个玩家都可以获得完整信息是构建和求解博弈的基础。然而，在许多实际应用场景中，一些信息是私有的，非合作参与者无法获取，导致所有参与者的信息不对称甚至不完整，因此现有的信息博弈无法适用于参与者获取信息不完整的情况。

发明内容

本发明的目的在于解决现有技术中的问题，提供一种基于贝叶斯博弈的飞行器信息物理系统设计方法及系统，解决了飞行器在受到恶意攻击时，攻击者和发射者信息不对称的情况时的飞行器控制问题，能够在复杂的干扰下保证飞行器的安全。

为达到上述目的，本发明采用以下技术方案予以实现：

一种基于贝叶斯博弈的飞行器信息物理系统设计方法，包括：

根据飞行器的飞行状态，构建受到恶意网络攻击的飞行器离散非线性系统模型；

对构建的飞行器离散非线性系统模型进行处理，获取控制系统的上限；

依据多信道传输模式，构建随机跳变的多信道传输协议；

依据控制系统的上限和多信道传输协议，构建基于不完全信息的贝叶斯博弈系统；

对所构建的贝叶斯博弈系统进行处理，获取静态和动态贝叶斯博弈最优的结果，构建最优飞行器信息物理系统。

本发明的进一步改进在于：

构建受到恶意网络攻击的飞行器离散非线性系统模型，包括：

建立飞行器在垂直面上的连续时间动力学模型如公式(1)所示：

其中，x(t)∈R⁴表示系统状态，包括水平速度、垂直速度、俯仰率和俯仰角，R⁴表示4维的欧氏空间，控制输入u(t)∈R²由集体循环和纵向循环组成，R²表示2维的欧氏空间，A和B是适用于飞行器在135节空速下的典型装载和飞行条件的系统矩阵；

采样周期设置为T＝0.5s，得到的离散非线性系统模型如公式(2)所示：

x_k+1＝A_kx_k+ξ_kB_ku_k+D_kf(x_k,k) (2)

在公式(2)中，x_k∈R⁴是系统状态，u_k∈R²是控制输入，f(x_k,k)∈R⁴是非线性扰动，A_k、B_k和D_k是已知系统矩阵，ξ_k表示满足独立同分布伯努利随机过程的攻击诱导丢包，其中

其中，Φ_k和Ψ_k是已知矩阵；

和

是满足

的不确定矩阵；扇形界条件适用于公式(2)中的非线性扰动：

(f(x_k,k)-Φ_kx_k)^T(f(x_k,k)-Ψ_kx_k)≤0 (5)。

在获取控制系统的上限之前，还包括：构建控制系统的目标函数；

控制系统的目标函数如公式(6)所示：

其中，状态反馈控制器设计如公式(7)所示：

u_k＝K_kx_k (7)

其中，K_k为待设计的控制增益，

Q和R是正定矩阵；

控制系统的上限为：基于状态反馈控制器，对目标函数进行处理，获取目标函数的上限；所获取的目标函数的上限为控制系统的上限；

基于状态反馈控制器，对目标函数进行处理，获取目标函数的上限，具体为：

针对公式(6)，目标函数的上限如公式(9)所示：

其中，λ_max{·}表示矩阵的最大特征值；

针对公式(9)，存在如公式(10)所示的一组控制参数

和正定矩阵

满足类黎卡提的向后递归方程使目标函数的上限

最小化；

其中，P_k＞0,

和

输出反馈增益

需要满足公式(11)：

其中，

依据多信道传输模式，构建随机跳变的多信道传输协议，包括：

多信道传输模式为在网络连接的CPS中，所拥有的带宽满足信息传输的要求，存在若干通道用于传输控制输入；其中控制器和执行器之间存在N个具有独立通信环境的通道，独立的通信环境意味着发射者和攻击者的信道增益η_i和ζ_i是不同的，并且每个信道中存在不同的加性高斯白噪声

其中，

针对多信道传输模式，构造了一种基于马尔可夫跳变机制的随机通信协议，定义θ_s(n)和θ_a(n)分别是发射者和攻击者在步骤n中选择的信道；

发射者从时间步n的信道i到时间步n+1的信道j的转移概率为：

攻击者从时间步n的信道i到时间步n+1的信道j的转移概率为：

在设计随机协议时，考虑节能和通道的服务质量，发射者和攻击者的转移概率值设置分别如公式(14)和公式(15)所示：

其中，T(n)和W(n)是发射者和攻击者在时间步n的发射功率,参数α_i和β_i表示传输系统信息的通道i的服务质量以及受到攻击者干扰的通道i的服务质量；

针对随机传输协议，当发射者选择通道i以功率T(n)传输信息，而攻击者以功率W(n)阻塞通道i时，信号干扰加噪声比(SINR)由公式(16)所示：

其中，标量δ_i是信道i的背景噪声；

如果发射者使用信道i传输信息，而攻击者阻塞信道j，j≠i，则传输系统信息的信噪比(SNR)由公式(17)所示：

在时间步n处可能的SINR或SNR以紧凑形式写入，如公式(18)所示：

当正交幅度调制(QAM)技术应用于信号传输时，分组错误率(PER)与信号与干扰和噪声比(SINR)或信噪比(SNR)之间的关系如公式(19)所示：

其中，标量

是一个常数。

依据控制系统的上限和多信道传输协议，构建基于不完全信息的贝叶斯博弈系统，具体为：

攻守双方均采用全双工技术，同时发射功率和监控信道；将对手的分组传输信号视为未知的确定性信号，利用能量检测技术估计对方的传输功率；信道选择θ_s仅为防御者所知，防御者类型为

同时，入侵选择θ_a仅由攻击者所知，并且攻击者的类型为

定义Θ＝{Θ_s,Θ_a}；引入一种基于不完全信息的贝叶斯博弈来描述控制命令发射者与干扰攻击者之间的相互作用，博弈中考虑了控制系统性能和能量消耗；

定义B_s(n)∈Δ(Θ_s)是发射者类型Θ_s的信赖概率分布，类型θ_s在时间步长n处采用概率B_s(n,θ_s)，定义B_a(n)∈Δ(Θ_a)是发射者类型Θ_a的信赖概率分布，类型θ_a在时间步长n处采用概率B_a(n,θ_a)，其中，Δ(·)是指集合上的概率度量空间；符号b_s(θ_s)是攻击者相信发射者选择信道θ_s的概率，同时，b_a(θ_a)用于表示发射者相信攻击者干扰信道θ_a的概率；对于所有通道，信念策略都是b_s＝[b_s(1),b_s(2),…,b_s(N)]和b_a＝[b_a(1),b_a(2),…,b_a(N)]；具有θ_s类型和策略对(T,W)的发射者的奖励由公式(21)所示：

对于攻击者，具有θ_a类型和策略对(T,W)的发射者的奖励由公式(22)所示：

对所构建的贝叶斯博弈系统进行处理，获取静态和动态贝叶斯博弈最优的结果，构建最优飞行器信息物理系统，具体为：对开环信息集和闭环信息集分别采用静态贝叶斯博弈和动态贝叶斯博弈进行处理；

在不同的信息结构下，定义H为信息集，开环信息集为H^open(n)＝{b(0),n}，B(n)＝b(0)，其中，B＝{B_s,B_a}，b＝{b_s,b_a}；闭环信息集为H^closed(n)＝{b(0),T(1),W(1),…,T(n),W(n)}；

当信息集为开环信息集时，考虑攻防双方分别具有两个策略的静态博弈问题，混合贝叶斯-纳什均衡策略是唯一的，并求解为((q_s,1-q_s),(q_a,1-q_a))，其中

同理，

当信息集为闭环信息集时，使用Q-学习方法对动态博弈问题求解；

步骤1：令迭代次数为n＝0，初始状态为b(0)，并初始化T(0)，W(0)，设定选择概率p_exp，给出

的初始化值；

步骤2：在概率p_exp下，使用均匀随机动作均匀随机；在概率1-p_exp下，根据

选择T(n)，W(n),

是两个参与者的混合纳什均衡解；

步骤3：更新

根据：

其中，

同时获得混合策略

步骤4：利用观测值T(n)或者W(n)，根据修正和预测的方法，计算下一个信念状态；

修正：在第n阶段，根据观察到的发射者能量传输策略T(n)，攻击者使用贝叶斯规则更正其先验信念B_s(n)，发射者使用贝叶斯规则更正其先验信念B_a(n)；后验信度

和

分别由如公式(32)和公式(33)所示：

预测：攻击者根据修正后的信念

和联合行动(T(n)，W(n))预测下一步的先验信念B_s(n+1)，发射者将根据修正后的信念

和联合行动(T(n)，W(n))预测下一步的先验信念B_a(n+1)，方法公式(34)和公式(35)所示：

步骤5：计算

检查是否小于10^-5，如果小于则迭代停止，输出混合策略

否则，令n＝n+1，转到步骤2，继续迭代，直到计算的结果小于10^-5；

通过静态和动态贝叶斯博弈最优的结果，得到在不完全信息下的贝叶斯博弈最优飞行器信息物理系统。

一种基于贝叶斯博弈的飞行器信息物理系统设计系统，包括：

第一构建模块，所示第一构建模块用于根据飞行器的飞行状态，构建受到恶意网络攻击的飞行器离散非线性系统模型；

模型处理模块，所示模型处理模块用于对构建的飞行器离散非线性系统模型进行处理，获取控制系统的上限；

第二构建模块，所示第二构建模块用于依据多信道传输模式，构建随机跳变的多信道传输协议；

第三构建模块，所示第三构建模块用于依据控制系统的上限和多信道传输协议，构建基于不完全信息的贝叶斯博弈系统；

贝叶斯博弈系统处理模块，所示贝叶斯博弈系统处理模块用于对所构建的贝叶斯博弈系统进行处理，获取静态和动态贝叶斯博弈最优的结果，构建最优飞行器信息物理系统。

一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

与现有技术相比，本发明具有以下有益效果：

本发明基于现有的信息博弈无法解决参与者获取信息不完整的情况，本发明提出了一种多信道框架，其中两个参与者均采用随机传输协议，基于物理层的系统性能，构建了基于不完全信息的贝叶斯随机博弈模型；在攻击和非线性的影响下，通过最小化目标函数的上界，采用完全平方技术和类黎卡提方程，得到了目标函数的上限；本发明针对不同的信息集，提出了静态和动态不完全信息随机对策，并通过数学和Q-学习方法探索解决方案，便于工程实现。

附图说明

为了更清楚的说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例的基于贝叶斯博弈的飞行器信息物理系统设计方法的流程图；

图2为本发明实施例的基于贝叶斯博弈的飞行器信息物理系统设计方法的另一种流程图；

图3为采用本发明方法的仿真结果图；

图4为本发明的实施例的基于贝叶斯博弈的飞行器信息物理系统设计系统的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明实施例的描述中，需要说明的是，若出现术语“上”、“下”、“水平”、“内”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

此外，若出现术语“水平”，并不表示要求部件绝对水平，而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平，并不是表示该结构一定要完全水平，而是可以稍微倾斜。

在本发明实施例的描述中，还需要说明的是，除非另有明确的规定和限定，若出现术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

下面结合附图对本发明做进一步详细描述：

参见图1和图2，本发明实施例公布了一种基于贝叶斯博弈的飞行器信息物理系统设计方法，包括：

S101，根据飞行器的飞行状态，构建受到恶意网络攻击的飞行器离散非线性系统模型。

x_k+1＝A_kx_k+ξ_kB_ku_k+D_kf(x_k,k) (2)

其中，Φ_k和Ψ_k是已知矩阵；

和

是满足

的不确定矩阵；扇形界条件适用于公式(2)中的非线性扰动：

(f(x_k,k)-Φ_kx_k)^T(f(x_k,k)-Ψ_kx_k)≤0。 (5)

S102，对构建的飞行器离散非线性系统模型进行处理，获取控制系统的上限。

控制系统的目标是在有限时间N₀内，在控制力、瞬态以及终端性能之间获得一个折中的控制性能。

控制系统的目标函数如公式(6)所示：

其中，状态反馈控制器设计如公式(7)所示：

u_k＝K_kx_k (7)

其中，K_k为待设计的控制增益，

Q和R是正定矩阵；

由于存在非线性干扰和攻击导致的数据包丢失的情况，不可能获得精确的控制性能以及最佳控制策略，另一种解决方案是找到目标函数的上限。

针对公式(6)，目标函数的上限如公式(9)所示：

其中，λ_max{·}表示矩阵的最大特征值；

针对公式(9)，存在如公式(10)所示的一组控制参数

和正定矩阵

满足类黎卡提的向后递归方程使目标函数的上限

最小化：

其中，P_k＞0,

和

输出反馈增益

需要满足公式(11)：

其中，

S103，依据多信道传输模式，构建随机跳变的多信道传输协议。

无线通信网络用于连接CPS的不同组件。网络中存在干扰攻击者，可发出干扰信号，阻止有用信息的传输。在网络连接的CPS中，所拥有的带宽满足信息传输的要求，也就是说，可以存在若干通道用于传输控制输入。其中控制器和执行器之间存在N个具有独立通信环境的通道，独立的通信环境意味着发射者和攻击者的信道增益η_i和ζ_i是不同的，并且每个信道中存在不同的加性高斯白噪声

其中，

针对上述多信道传输模式，构造了一种基于马尔可夫跳变机制的随机通信协议，供决策者选择传输系统信号的信道，随机信道策略可以降低传输信道被检测和干扰的概率，攻击者为了不被系统检测到而随机干扰信道也是如此。定义θ_s(n)和θ_a(n)分别是发射者和攻击者在步骤n中选择的信道。

发射者从时间步n的信道i到时间步n+1的信道j的转移概率为：

攻击者从时间步n的信道i到时间步n+1的信道j的转移概率为：

其中，标量δ_i是信道i的背景噪声；

其中，标量

是一个常数；因此，将S101中给出的分组传输概率表示为

S104，依据控制系统的上限和多信道传输协议，构建基于不完全信息的贝叶斯博弈系统。

攻守双方均采用全双工技术，同时发射功率和监控信道；将对手的分组传输信号视为未知的确定性信号，同时利用能量检测技术估计对方的传输功率；因此，信道选择θ_s仅为防御者所知，防御者类型为

同时，入侵选择θ_a仅由攻击者所知，并且攻击者的类型为

定义Θ＝{Θ_s,Θ_a}；由此引入一种基于不完全信息的贝叶斯博弈来描述控制命令发射者与干扰攻击者之间的相互作用，博弈中考虑了控制系统性能和能量消耗；

定义B_s(n)∈Δ(Θ_s)是发射者类型Θ_s的信赖概率分布，类型θ_s在时间步长n处采用概率B_s(n,θ_s)，定义B_a(n)∈Δ(Θ_a)是发射者类型Θ_a的信赖概率分布，类型θ_a在时间步长n处采用概率B_a(n,θ_a)，其中，Δ(·)是指集合上的概率度量空间；符号b_s(θ_s)是攻击者相信发射者选择信道θ_s的概率，同时，b_a(θ_a)用于表示发射者相信攻击者干扰信道θ_a的概率；因此，对于所有通道，信念策略都是b_s＝[b_s(1),b_s(2),…,b_s(N)]和b_a＝[b_a(1),b_a(2),…,b_a(N)]；具有θ_s类型和策略对(T_,W)的发射者的奖励由公式(21)所示：

S105，对所构建的贝叶斯博弈系统进行处理，获取静态和动态贝叶斯博弈最优的结果，构建最优飞行器信息物理系统。

对开环信息集和闭环信息集分别采用静态贝叶斯博弈和动态贝叶斯博弈进行处理；在不同的信息结构下，定义H为信息集，开环信息集为H^open(n)＝{b(0),n}，B(n)＝b(0)，其中，B＝{B_s,B_a}，b＝{b_s,b_a}；闭环信息集为H^closed(n)＝{b(0),T(1),W(1),…,T(n),W(n)}；

同理，

的初始化值；

选择T(n)，W(n),

是两个参与者的混合纳什均衡解；

步骤3：更新

根据：

其中，

同时获得混合策略

和

分别由如公式(32)和公式(33)所示：

预测：攻击者根据修正后的信念

其中，

和转移概率

在步骤S103中给出。

步骤5：计算

检查是否小于10^-5，如果小于则迭代停止，输出混合策略

参见图3，图3为本发明方法的仿真结果图；

对于闭环信息集，不同参与者在前1000步的收益值的演化如图3所示，为表示清晰，x轴不同参与者的步数，y轴为

由图3可知，通过采用Q-学习方法生效并可以获得最优的Q值。当进行10000次迭代时，最终收敛值为

以及

参见图4，本发明公布了一种基于贝叶斯博弈的飞行器信息物理系统设计系统，包括：

模型处理模块，所示模型处理模块用于对构建的飞行器离散非线性系统模型进行处理，获取控制系统上限；

本发明一实施例提供的终端设备。该实施例的终端设备包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。或者，所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。

所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。

所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器、存储器。

所述处理器可以是中央处理单元(CentralProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor，DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、现成可编程门阵列(Field-ProgrammableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述终端设备的各种功能。

所述终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。