CN117155616A

CN117155616A - 基于逆强化学习的多智能体系统中欺骗攻击意图预测方法

Info

Publication number: CN117155616A
Application number: CN202311025398.XA
Authority: CN
Inventors: 陈刚; 李子益
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2023-08-15
Filing date: 2023-08-15
Publication date: 2023-12-01

Abstract

本发明涉及基于逆强化学习的多智能体系统中欺骗攻击意图预测方法，属于信息处理技术领域。本发明考虑了多智能体系统中存在欺骗攻击现象，提出了一种有效检测虚假信息注入的方法。采用一种多传感器数据融合的方法进行定位，使得定位更加精准。加入卡尔曼滤波器进行分布式状态估计，可解决传感器噪声和系统不稳定的问题，通过邻居节点信息协助状态估计，使得估计更加准确，也使外来攻击对系统性能影响更小。在传统虚假数据注入攻击检测方法基础上加入逆强化学习技术推断攻击者的攻击意图，解决传统技术上对数据加密解密算法复杂的问题和攻击隐藏问题，可有效提高攻击检测的有效性和准确性。

Description

基于逆强化学习的多智能体系统中欺骗攻击意图预测方法

技术领域

本发明属于信息处理技术领域，涉及基于逆强化学习的多智能体系统中欺骗攻击意图预测方法。

背景技术

多智能体系统内的个体间是通过有线或无线通信技术进行数据交换的，智能体设备间的这些通信链路构成了多智能体系统的通信网络。具有移动性的多智能体系统设备间多采用无线网络通信，容易受到多种网络恶意攻击，在这些攻击中，欺骗攻击会伪造一个通信节点接入现有的通信网络。通过注入虚假数据或重放历史数据等方式，以篡改网络信道中传输的控制信息或测量信息，影响数据的真实性，物理系统依据错误的控制信息运行，会使得多智能体系统无法形成期望编队队形，严重时将造成智能体间发生碰撞。

多智能体系统的控制安全问题本质上就保证系统在受攻击时的协调运转。通信是多智能体分布式控制系统的基础，系统内各智能体的协作溢奶彼此的信息交互，因此，可靠的通信对于多智能体系统来说尤为重要。攻击检测是信息物理系统安全研究的一个重要问题，旨在快速精准发现潜在的攻击行为，以保护系统的安全运行。

欺骗攻击中，错误数据的检测始终是一项艰巨的任务。现已提出了几种方法来应对恶意攻击。这些方法主要可以分为两类：基于保护和基于检测。基于保护的方法，通过保护某些传感器或某些敏感仪表来防御虚假的数据注入攻击。基于检测的方法通过分析原始测量值，能够检测出那些不符合历史测量值分布的异常方法。

基于检测的安全技术都是反应性的，系统检测攻击的方法主要是通过对数据进行对比来确定是否有虚假信息进入，为了提升检测能力，大部分研究都是基于对传感器数据进行处理，改变传感器的原始测量或者对传输前的传感器测量和控制数据进行修改以增加攻击发生时系统的残差变化，使系统能更快更精准的检测出攻击。还有一部分检测机制是通过优化残差阈值计算方法来提高攻击检测的快速性和精准性。总而言是都是在不断地更新检测方案来协助检测器实现对隐蔽虚假数据注入攻击的检测。

目前，大多数隐蔽虚假数据注入攻击检测方法考虑攻击者未意识到检测方案的存在，仍依据编码前或加水印前的物理系统模型设计攻击信号。然而，在实际中，攻击者在发起攻击前会利用系统辨识等技术，获取物理系统模型，然后依据辨识到的物理系统模型对攻击信号进行重新设计。

发明内容

为了解决各状态之间相互影响且无法直接测得的问题，本申请提供了基于逆强化学习的多智能体系统中欺骗攻击意图预测方法。

基于逆强化学习的多智能体系统中欺骗攻击意图预测方法，该方法包括以下步骤：

S1：问题描述

假设攻击者从一个未知时刻开始攻击系统，向传感器网络或通信网络注入虚假信息，对每个移动机器人给定一组观测数据O_1:N,△t＝{O_1,△t,O_2,△t,,…,O_N,△t}，该观测数据是记录在时间Δt＝[t_d,t_d+n]内移动机器人的有限时间测量行动对，推断出攻击者的攻击意图，即攻击想要使移动机器人到达的非期望的目的地；

引理1：卡尔曼滤波估计

对于状态目标

其中：为状态向量，z(k)观测向量，A为系统状态转移矩阵，H为观测矩阵，和观测噪声/>相互独立，均为零均值高斯白噪声序列，且Q≥0,R≥0；目标的初始状态/>独立于系统噪声w和v；假设系统参数(A,B)是可控的，(A,H)是可观的；

P^-(k)＝FP(k-1)F^T+Q

K(k)＝P^-k)H^T(HP^-k)HT+R)^-1

P(k＝(I-K(k)H)P^-k

其中，F＝I-K(k)H，为当前状态预测值，/>为前一时刻估计值，P^-k为状态预测值的方差/协方差，P(k为K(k为卡尔曼增益；

引理2：一致性算法

一致性的含义是，随着时间的推移，多智能体之间相互通信，调整自己的状态，使得系统中各智能体的状态都趋于同一值，即

考虑一个拓扑G＝(V,ε,A)，图的节点集合为V＝{v₁,v₂,…,vN}，边集合其邻接矩阵为A＝[a_ij]_N×N；其中，邻接矩阵中元素a_ij表示节点v_i和v_j之间的连接权重，a_ij＝1表示节点v_i可以接收到节点v_j的信息，否则a_ij＝0；节点v_i的邻居定义为N_i:＝{j∈V:a_ij＝1}；

图的度矩阵为D，度矩阵为一个对角矩阵，将邻接矩阵各行元素累加至对应的主对角元素，得到度矩阵；

图的拉普拉斯矩阵定义为L＝D-A＝[l_ij]_N×N满足无向图的拉普拉斯矩阵是对称的；对于无向图，如果任意2个不同节点之间均存在一个路径，那么图是连通的；

S2：多传感器融合定位

2.1航向估计

假设该系统移动机器人均为双电机结构，并且其重心坐标为全局坐标的(x,y)，分别安装在两个电机处的两个双编码器测量两个轮子的角速度；通过两个双编码器测得数据，得到移动机器人重心的线速度和角速度；

其中，r为机器人车轮半径，l为两车轮之间的距离，w_r为右轮处双编码器测得角速度，w_l为座轮处双编码器测得角速度；

机器人航向角度以及定位更新方法：

θ_n+1＝θ_n+ω_eT

其中，θ为机器人航向与水平方向的夹角，T为数据采样时间；

利用激光雷达实现在人工地标集定位的基础上补偿计算的姿态累积误差的目标；

2.2位置估计

采用加速度传感器对双编码器获得的位置数据进行了修正，利用激光雷达实现在人工地标集定位的基础上补偿计算的姿态累积误差的目标；

S3：分布式状态估计与控制器设计

3.1分布式状态估计

假设为智能体之间的编队队形描述信息；如果存在一个分布式控制器使得如下条件成立：

式中，h_ij＝h_i-h_j为智能体之间的相对状态信息，则称多智能体系统能够实现编队队形h；

系统的状态方程如下,i＝1,2,…,N+1:

1、预测步骤：

将卡尔曼滤波算法与一致性算法相结合，通过节点之间的信息交换，将局部信息扩展到全局；

预测部分，在当前时刻的先验预测值中加上邻居节点信息：

其中，考虑多智能体的状态方程中的系统矩阵A、B相同，为上一时刻的最优后验估计值，/>为当前时刻先验预测值，C_i为一致性矩阵；

由上一时刻最优估计值方差/协方差P_i(k-1)和超参数Q推出当前时刻预测值方差/协方差

2、更新步骤：

由当前时刻先验预测值方差/协方差和超参数R(对应的是观测噪声的方差)推出卡尔曼增益K_i(k)

由当前时刻先验预测值当前时刻观测值z_i(k)、卡尔曼增益K_i(k)推出当前时刻最优后验估计值/>

其中，D_i为一致性矩阵；

由当前时刻预测值方差/协方差、卡尔曼增益推出当前时刻最优估计值方差/协方差

3.2控制器设计

智能体之间的通信网络采用切换拓扑结构；

假设无人机之间采取双向通信方式，并将通信网络建模为随时间变化的连通无向图；令G＝{G₁,G₂,...,G_p},p≥1为智能体之间所有可能建立的通信拓扑图的集合，t₀＝0<t₁<t₂<…表示拓扑切换时刻，相应的τ_k＝t_k-t_k-1,k＝1,2…表示在某一通信拓扑图下的驻留时间；

σ(t):[0,∞)→P＝{1,2,…,p}为通信拓扑切换信号，表示t时刻通信拓扑图G_σ(t)对应G中元素的下标，G_σ(t)对应的拉普拉斯矩阵L_σ(t)；

利用局部邻居智能体相对状态信息设计分布式编队控制器如下：

式中：a_ijσ(t)为当前时刻通信拓扑图G_σ(t)的邻接矩阵A_σ(t)的元素，为待设计的反馈增益矩阵；

由系统状态方程和式(3.3)得到闭环系统方程:

其中，L_σ(t)为当前时刻机器人之间通信拓扑图的拉普拉斯矩阵；系统的闭环系统方程是随着图的拉普拉斯矩阵变化的；

令E＝[-1_N-1,I_N-1],F＝[0_N-1,I_N-1]；

引理3：如果无向拓扑图对应的拉普拉斯矩阵为则如下的结论成立：

(1)如果拓扑图是连通的，则l₂₂为正定对称矩阵；

(2)L＝LFE

(3)如果拓扑图是连通的，其矩阵R的特征值均具有正实部，其中R＝ELF；

令为编队误差向量；由δ(t)的定义知，如果/>则/>即机器人之间的相对状态趋于一个定值；系统描述为如下的编队误差系统：

是一个具有较低维数的切换系统；由编队误差向量δ(t)的定义知，通过变量替换，多无人机系统的在切换通信拓扑条件下的编队控制问题已经转换为低维切换系统的渐近稳定性问题；

4、攻击意图推断

将贝叶斯逆强化学习加入到攻击检测中，从贝叶斯的角度对逆强化学习问题进行建模，在逆强化学习中，考虑在MDP中，智能体遵循最优策略π^u(s)，观测到一组状态动作对{(s₁,a₁),(s₂,a₂),…,(s_N,a_N)}；逆强化学习的目的就是推断出使这一系列观测值出现的奖励函数；

多移动机器人系统任务执行中，系统已知每个机器人对应的期望目标位置对每个机器人运动过程建立MDP，利用上一节中提到的Q-learning计算最优策略/>最终每个机器人按照最优策略/>到达对应的目标位置，当攻击存在时，会使机器人最终达到非期望目的地/>通过对多移动机器人系统中每一个机器人进行状态动作观测，计算目标的后验分布推断出攻击者的意图，当系统攻击存在时，机器人最终到达攻击者的意图目标的可能性最大，将奖励与目标对应，建立目标的后验分布模型；通过迭代算出的概率最大的后验奖励分布确定攻击者的攻击意图；

4.1Q值更新

采用Q(λ)算法来进行最优策略的学习，该算法结合了Q-learning和TD(λ)回报的思想，利用将来的信息更新当前的Q值并且加入资格迹，系统会自动对智能体之前访问的状态进行标识；

Q值更新公式为

Q_t+1(s,a)＝Q_t(s,a)+αδ_tZ_t(s,a) (4.1)

δ_t＝R_t+1+γmax_aQ_t(s_t+1,a_t+1)-Q_t(s,a) (4.2)

其中γ为折扣因子，α为学习率，R为即时奖励；

资格迹更新公式

其中，γ为学习步长；

4.2贝叶斯逆强化学习

考虑该多移动机器人系统中每一个机器人遵循最优任务策略来执行其导航任务的预期目标；

在未知时刻t_a系统受到攻击，多移动机器人系统遵循任务策略执行导航任务；

设定奖励

式中，C∈N⁺，ε＜＜C∈N⁺；

该等式左边为奖励的后验概率，右式分子第一项为似然概率，第二项为奖励的先验分布，先验分布是对奖励函数的一个假设，右式分母为全概率，一般是一个正则常数作为归一化因子；后验概率由先验分布和似然概率计算得到；等式中O_χ表示专家示例；

假设专家的策略是平稳的，做以下独立性假设：

Pr_χ(O_χ|R)＝Pr_χ((s₁,a₁)|R)Pr_χ((s₂,a₂)|R)…Pr_χ((s_k,a_k)|R)(4.8)

动作状态对所对应的值函数Q越大，在状态处选择动作a的可能性越大，R条件下(s,a)的似然概率越大，用指数分布为该似然概率建模：

其中，α是一个表示信心程度的参数，该值设定的越大，则认为有越大的信心确信专家是根据大的奖励值选取动作；

将式(4.9)带入式(4.8)中：

其中E(O_χ,R)＝∑_iQ*(s_i,a_i,R)；

将式(4.10)带入式(4.7)得后验概率表达式

式中，Z′是归一化常数；

4.3马尔可夫蒙特卡洛采样

采用马尔可夫蒙特卡洛采样算法来求解该奖励后验分布；

马尔科夫链中P(X_t+1＝x|X_t,X_t-1,…)＝P(X_t+1＝x|X_t)

即当前状态只与前一状态有关，而与其他状态无关，马尔科夫链体现的式状态空间的转换关系，下一个状态只决定于当前的状态；

如果一个非周期马氏链具有转移概率矩阵P，且它的任何两个状态是连通的，那么(P_ij表示从状态i转移到状态j的概率)存在且与i无关，记/>有

π是方程πP＝π的唯一非负解；

其中，π称为马氏链的平稳分布；

对于给定的概率分布P(x)，由于马氏链能收敛到平稳分布，构造一个转移矩阵为P的马氏链，使得该马氏链的平稳分布恰好是P(x)，那么从任何一个初始状态x₀出发沿着马氏链转移，得到一个转移序列[x₀,x₁,x₂,…,x_n]，如果马氏链收敛了，就得到P(x)的样本；

为求得近似的后验估计采用马尔可夫蒙特卡洛采样算法，需要在每一次迭代计算两个式子，分别是先验分布Pr(R)和似然估计Pr_χ(O_χ|R)；

首先，对于每个机器人按照目标先验分布从非期望目标集合G\{g^*}中抽取一个样本目标gi，然后通过机器人位置的数据和在时间t_d:t观测到的动作来估计目标的似然概率

式中的Q^*通过Q值更新中介绍的Q(λ)算法求得；

最后在给定一系列观测值情况下计算出每一个目标的后验概率

其中，右式的第一项表示当给定目标是时，该观测值的似然分布，右式的第二项是计算到t-1时刻的目标的后验分布，也表示t时刻目标的先验分布；假设机器人对攻击者的意图没有任何先验知识，在迭代过程开始时设定攻击者目标的先验最初是从均匀分布中提取的；

在马尔可夫蒙特卡洛采样算法迭代完成后，通过计算出后验的均值来μ_i估计g＝g_j的置信水平，后验均值μ_i越高，说明对估计的置信度越高，推断出攻击者的攻击意图；

为减少数据处理的复杂度，选取后验分布的方差作为攻击意图推断的主要数据，选择一个合适的阈值τ，当后验分布的方差v_i＜τ时认为系统存在虚假信息，识别出多智能体系统中被攻击的智能体i∈i^a，对于阈值的选择，阈值选择的越高，攻击意图的检测的速度就越快。

可选的，所述航向估计具体为：

(1)对于陀螺仪对双编码器数据进行卡尔曼滤波时选取状态变量X＝[θ_g,w_e]^T，得到角速度估计值其中θ_g为陀螺仪预处理后得到数据，w_e为双编码器数据处理后的到的机器人小车重心角速度；

(2)对于磁力计对双编码器数据进行卡尔曼滤波时选取状态变量得到角速度估计值/>其中θ_b为罗盘预处理后得到数据；

(3)对于激光雷达对双编码器数据进行卡尔曼滤波时选取状态变量得到角速度估计值/>其中θ_l为激光雷达预处理后得到数据。

可选的，所述位置估计具体为：

(1)对于加速度对双编码器数据进行卡尔曼滤波时选取状态变量X＝[v_e,a_e]^T，得到角速度估计值其中a_e为加速度传感器预处理后得到数据，v_e为双编码器数据处理后的到的机器人小车重心线速度；

(2)对于激光雷达对双编码器数据进行卡尔曼滤波时选取状态变量X＝[x_l,y_l,v_ex,v_ey]^T，得位置估计值,其中x_l,y_l为激光雷达预处理后得到数据

本发明的有益效果在于：

1.本发明考虑了多智能体系统中存在欺骗攻击现象，提出了一种有效检测虚假信息注入的方法。

2.本发明采用一种多传感器数据融合的方法进行定位，使得定位更加精准。

3.本发明中加入卡尔曼滤波器进行分布式状态估计，可解决传感器噪声和系统不稳定的问题，通过邻居节点信息协助状态估计，使得估计更加准确，也使外来攻击对系统性能影响更小。

4.本发明在传统虚假数据注入攻击检测方法基础上加入逆强化学习技术推断攻击者的攻击意图，解决传统技术上对数据加密解密算法复杂的问题和攻击隐藏问题，可有效提高攻击检测的有效性和准确性。

5.本发明在估计目标得后验分布时采用马尔可夫蒙特卡洛采样算法解决了概率难以计算得问题。

6.本发明在智能体之间进行信息通信时采用切换拓扑结构，使外来攻击对系统性能影响减弱。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为状态估计器示意图；

图2为攻击意图检测流程示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

对于通信网络中的攻击，为了保证系统的安全，通常用攻击检测器检测攻击，但是，现有的研究存在很多限制，如扰动是无穷可微的，系统状态的微分是有界的等。

传统传感器网络的欺骗攻击检测机制有部分都是基于对传输数据进行加密解密或者设计残差阈值的方法来检测传感器读数异常，但是复杂的加密解密算法不适用于部分能量受限的传感网络，具有较大的局限性，对于状态估计残差阈值选择的方法也较为单一，对欺骗攻击检测带来一定的性能损失。

本发明主要为了解决以上主要问题，

对于检测机制提出了一种贝叶斯逆强化学习技术，该技术利用传感器数据和控制输入的历史来推到出系统的目标分布，通过计算得到目标的后验分布来推测攻击者的意图，该算法可提高攻击检测的准确性和高效性。

考虑一个具有多移动机器人且每个移动机器人配有多个传感器的多智能体系统执行目标导航任务的情况。系统已知期望目标且采用一致性算法解决编队问题。恶意攻击者已知系统的期望目标和环境信息，在多移动机器人系统进行信息交互过程中通过向传感器网络和通信网络注入虚假信息，影响系统的编队控制进而影响系统安全，并将该系统劫持到一个不希望的目标(系统事先未知)，同时隐藏在系统的传感器噪声和环境的不确定性内。本发明网络攻击问题主要利用传感器冗余和逆强化学习理论来预测攻击者的意图。对于传感器定位存在噪声和不确定干扰问题，采用多传感器融合技术和分布式状态估计来提高定位的准确性。由于通信网络中存在攻击现象，为减少攻击对系统的影响，该多智能体系统通信网络采用切换拓扑结构。

1、问题描述

考虑在随机环境中执行导航任务且以一定的编队队形运动的多移动机器人系统，每个机器人的目标地点已知，编队队形已知，该多移动机器人系统中存在未知通信网络和传感器通信网络攻击，每个移动机器人配备有多个传感器，采用基于多传感器融合的定位获得移动机器人位置信息，由于系统存在攻击，系统通信网络采用切换拓扑结构减弱攻击的影响。针对具有切换拓扑结构的线性多智能体系统采用分布式一致性协议算法。在该系统中选取一个机器人，对其构建MDP以及使用强化学习算法获得最优策略π*，整个系统遵循这个最优策略，每个机器人最终到达一个期望目标考虑一个了解环境信息以及系统信息的恶意攻击者，假设攻击者知道系统的最优任务策略π*和MDP参数，可以欺骗部分传感器与检测系统。攻击者的目标是分别通过向通信网络注入虚假信息影响系统的编队控制以及通过入侵传感器网络向其注入虚假信息使系统到达非期望位置

假设攻击者从一个未知时刻开始攻击系统，向传感器网络或通信网络注入虚假信息，对每个移动机器人给定一组观测数据O_1:N,△t＝{O_1,△t,O_2,△t,,…,O_N,△t}，该观测数据是记录在时间Δt＝[t_d,t_d+n]内移动机器人的有限时间测量行动对，推断出攻击者的攻击意图，即攻击想要使移动机器人到达的非期望的目的地。

由于后续设计提及到如下定理，为避免重复描述，对之后多次提到的定理

引理1：卡尔曼滤波估计

对于状态目标

其中：为状态向量，z(k)观测向量，A为系统状态转移矩阵，H为观测矩阵，和观测噪声/>相互独立，均为零均值高斯白噪声序列，且Q≥0,R≥0；目标的初始状态/>独立于系统噪声w和v。假设系统参数(A,B)是可控的，(A,H)是可观的。

P^-(k)＝FP(k-1)F^T+Q

K(k)＝P^-(k)H^T(HP^-(k)H^T+R)^-1

P(k)＝(I-K(k)H)P^-(k)

其中，F＝I-K(k)H，为当前状态预测值，/>为前一时刻估计值，P^-(k)为状态预测值的方差/协方差，P(k)为K(k)为卡尔曼增益。

引理2:一致性算法

一致性算法作为一种分布式算法，被广泛应用于多智能体系统，用于解决多智能体系统的编队问题、聚集问题、蜂拥控制等。一致性的含义是，随着时间的推移，多智能体之间相互通信，调整自己的状态，使得系统中各智能体的状态都趋于同一值，即

考虑一个拓扑G＝(V,ε,A)，图的节点集合为V＝{v₁,v₂,…,v_N}，边集合其邻接矩阵为A＝[a_ij]_N×N。其中，邻接矩阵中元素a_ij表示节点v_i和v_j之间的连接权重，a_ij＝1表示节点v_i可以接收到节点v_j的信息，否则a_ij＝0。节点v_i的邻居定义为N_i:＝{j∈V:a_ij＝1}。

图的度矩阵为D，度矩阵为一个对角矩阵，将邻接矩阵各行元素累加至对应的主对角元素，可得到度矩阵。

图的拉普拉斯矩阵定义为L＝D-A＝[l_ij]_N×N满足无向图的拉普拉斯矩阵是对称的。对于无向图，如果任意2个不同节点之间均存在一个路径，那么称图为连通的。

拉普拉斯矩阵的性质：

(1)L的行和为零；

(2)如果G是无向图且是连通的，则零是拉普拉斯矩阵L的简单特征值，其他非零特征值均为正数；

(3)L有n个非负的特征值，n为图的顶点个数；

(4)L是半正定矩阵

(5)若G为一个具有非负连接权重的无向图，由图G导出的拉普拉斯矩阵L的零特征值的重数等于图G的连通子图的个数k。

2、多传感器融合定位

多传感器数据融合是20世纪80年代出现的一门新兴学科，它是将不同传感器对某一目标或环境特征描述的信息融合成统一的特征表达信息及其处理的过程。在多传感器系统中，各种传感器提供的信息可能具有不同的特征。多传感器数据融合实际上是模拟人脑综合处理复杂问题的过程，通过对各种传感器及其观测信息的合理支配与使用，将各种传感器在空间和时间上的互补与冗余信息依据某种优化准则加以组合，产生对观测环境或者对象的一致性解释和描述，实现多个传感器共同联合操作，提高整个传感器系统的有效性。数据融合的目标是利用各种传感器的独立观测信息，对数据进行多级别、多方位和多层次的处理，产生新的有意义的信息，这种信息是最佳协同作用的结果，是任何单一传感器无法获得的。

根据功能要求，可以将传感器分为两类：一类测量智能体的航向，例如双编码器、陀螺仪、罗盘和激光雷达等，第二类传感器可以测量位置，如双编码器、加速度传感器和激光雷达。本发明中采用一种分别融合航向数据和位置数据的定位方法来获取智能体的姿态数据，实现长时间的高精度定位功能。

2.1航向估计

大多数移动机器人只需要两个电机且其发电动力不需要很大，两个电机交叉使用足够其行驶。电调负责控制每个电机的速度。本发明中假设该系统移动机器人均为双电机结构，并且其重心坐标为全局坐标的(x,y)，分别安装在两个电机处的两个双编码器可以测量两个轮子的角速度。通过两个双编码器测得数据，可以得到移动机器人重心的线速度和角速度。

/>

其中，r为机器人车轮半径，l为两车轮之间的距离，w_r为右轮处双编码器测得角速度，wl为座轮处双编码器测得角速度。

机器人航向角度以及定位更新方法：

θ_n+1＝θ_n+ω_eT

其中，θ为机器人航向与水平方向的夹角，T为数据采样时间。

双编码器定位必须确保车轮的旋转可以线性化为在地面上的运动，但该假设只有在一定的条件下才能建立。例如，在车轮滑移的情况下，编码器仍然发送运动信息，但它在车轮的旋转和它在地面上的运动之间不是线性关系。仅依赖双编码器数据计算的移动机器人信息相对较大。为了提高定位精度，采用卡尔曼滤波器进行了定位分析融合双编码器数据和陀螺仪数据。由于陀螺仪存在零漂移，需要对陀螺仪数据进行预处理，然后将预处理后的数据转换为航向方向的缓和值。

由于陀螺仪的输出随时间而漂移，积分计算的过程也是累积误差的过程。当测量方向信息时，振动强度对陀螺仪的输出将有很大的影响。单独使用的陀螺仪不满足定位系统的精度要求，为解决该问题，采用磁力计修正数据。磁力计也叫地磁、磁感器，可用于测试磁场强度和方向，定位设备的方位，磁力计的原理跟指南针原理类似，可以测量出当前设备与东南西北四个方向上的夹角。由于地球重力场相当于已知信息，因而当载体处于平稳运动时，完全可以依靠采集自加表的测量信息来推算得到载体除了航向外的其它两个姿态信息，而若将加表与其它传感器如磁力计结合使用，就能实现在多种运动情况下测得完整的载体姿态信息。磁力计信息需要在收集前进行预处理。为了防止计算出的姿态数据的误差越来越大，利用激光雷达实现在人工地标集定位的基础上补偿计算的姿态累积误差的目标。

航向估计数据处理过程如下所示：

(1)对于陀螺仪对双编码器数据进行卡尔曼滤波时选取状态变量X＝[θ_g,w_e]^T，得到角速度估计值其中θ_g为陀螺仪预处理后得到数据，w_e为双编码器数据处理后的到的机器人小车重心角速度。

(2)对于磁力计对双编码器数据进行卡尔曼滤波时选取状态变量得到角速度估计值/>其中θ_b为罗盘预处理后得到数据。

2.2位置估计

利用双编码器得到的位置值的精度会随着时间的不断积累而降低，因此该方法不能满足高精度定位，本设计采用加速度传感器对双编码器获得的位置数据进行了修正，利用激光雷达实现在人工地标集定位的基础上补偿计算的姿态累积误差的目标。

位置估计数据处理过程如下所示：

(1)对于加速度对双编码器数据进行卡尔曼滤波时选取状态变量X＝[v_e,a_e]^T，得到角速度估计值其中a_e为加速度传感器预处理后得到数据，v_e为双编码器数据处理后的到的机器人小车重心线速度。

3、分布式状态估计与控制器设计

3.1分布式状态估计

在分布式控制中，智能体的控制依赖与部分智能体之间的信息交互，当网络中的某些智能体出现故障或者通信链路受到攻击而无法有效通信时，其他的智能体依然可以通过协作完成导航任务，因此，采用分布式控制的多智能体系统具有较强的鲁棒性和容错能力。另外，信息交互只是部分智能体之间的，所以对计算能力和通信带宽的要求较低。

近年来，多智能体系统的一致性控制理论被大量的应用到编队控制问题中，多智能体的编队控制是指系统中的各智能体以一定的队形运动，通过恰当的变量替换，可以将多智能体系统的编队控制问题转换成多智能体系统的一致性控制问题，进而通过设计分布式一致性控制器实现多智能体的编队控制。

假设为智能体之间的编队队形描述信息。如果存在一个分布式控制器使得如下条件成立：

式中，h_ij＝h_i-h_j为智能体之间的相对状态信息，则称多智能体系统能够实现编队队形h。

传统的状态估计一般使用卡尔曼滤波器，但其估计性能在多智能体系统中较差，本设计为了改善分布式传感器网络的估计性能，提出一种基于状态预测一致的滤波算法，如图1状态估计器示意图所示。在对局部估计值进行一致化处理的基础上，利用邻居节点前一时刻的估计值对当前局部状态预测值进行修正来提高估计精度。

对于传统的卡尔曼滤波器状态估计就是使用上一时刻的最优结果预测这一时刻的先验预测值，同时使用这一时刻观测值(本发明中为多传感器融合所得的机器人定位数据)修正这一时刻预测值，得到这一时刻的最优估计，系统的状态方程如下,i＝1,2,…,N+1:

1、预测步骤：

相比于经典的卡尔曼滤波器，本发明将卡尔曼滤波算法与一致性算法相结合，通过节点之间的信息交换，可以将局部信息扩展到全局。

预测部分，在当前时刻的先验预测值中加上邻居节点信息：

其中，本设计考虑多智能体的状态方程中的系统矩阵A、B相同，为上一时刻的最优后验估计值，/>为当前时刻先验预测值，C_i为一致性矩阵。

由上一时刻最优估计值方差/协方差P_i(k-1)和超参数Q(对应的是过程噪声的方差)推出当前时刻预测值方差/协方差

2、更新步骤：

由当前时刻先验预测值当前时刻观测值z_i(k、卡尔曼增益K_i(k)推出当前时刻最优后验估计值/>

其中，D_i为一致性矩阵。

本发明将卡尔曼滤波算法与一致性算法相结合，通过节点之间的信息交换，可以将局部信息扩展到全局。

3.2控制器设计

由于本发明中智能体通信网络中存在虚假信息注入问题，智能体之间的通信网络采用切换拓扑结构。

由于多智能体系统中个体通过通信和传感器网络耦合在一起，网络拓扑结构及相应图的拉普拉斯矩阵的性质必然影响多智能体的编队形成。

本文假设无人机之间采取双向通信方式，并将通信网络建模为随时间变化的连通无向图。令G＝{G₁,G₂,...,G_p},p≥1为智能体之间所有可能建立的通信拓扑图的集合，t₀＝0<t₁<t₂<…表示拓扑切换时刻，相应的τ_k＝t_k-t_k-1,k＝1,2…表示在某一通信拓扑图下的驻留时间。

σ(t):[0,∞)→P＝{1,2,…,p}为通信拓扑切换信号，表示t时刻通信拓扑图G_σ(t)对应G中元素的下标，G_σ(t)对应的拉普拉斯矩阵L_σ(t)。

式中：a_ijσ(t)为当前时刻通信拓扑图G_σ(t)的邻接矩阵A_σ(t)的元素，为待设计的反馈增益矩阵。

由系统状态方程和式(3.3)可以得到闭环系统方程:

其中，L_σ(t)为当前时刻机器人之间通信拓扑图的拉普拉斯矩阵。可以看出，系统的闭环系统方程是随着图的拉普拉斯矩阵变化的。

令E＝[-1_N-1,I_N-1],F＝[0_N-1,I_N-1]。

(1)如果拓扑图是连通的，则l₂₂为正定对称矩阵；

(2)L＝LFE

(3)如果拓扑图是连通的，其矩阵R的特征值均具有正实部，其中R＝ELF。

令为编队误差向量。由δ(t)的定义可知，如果则/>即机器人之间的相对状态趋于一个定值。因此，系统可以描述为如下的编队误差系统：

由上可以看出，是一个具有较低维数的切换系统。由编队误差向量δ(t)的定义可知，通过变量替换，多无人机系统的在切换通信拓扑条件下的编队控制问题已经转换为低维切换系统的渐近稳定性问题。

4、攻击意图推断

本发明的主要创新点是将贝叶斯逆强化学习加入到攻击检测中，从贝叶斯的角度对逆强化学习问题进行建模，在逆强化学习中，考虑在MDP中，智能体遵循最优策略π^u(s)，可以观测到一组状态动作对{(s₁,a₁),(s₂,a₂),…,(s_N,a_N)}。逆强化学习的目的就是推断出使这一系列观测值出现的奖励函数。

多移动机器人系统任务执行中，系统已知每个机器人对应的期望目标位置对每个机器人运动过程建立MDP，利用上一节中提到的Q-learning计算最优策略/>最终每个机器人按照最优策略/>到达对应的目标位置，但是当攻击存在时，会使机器人最终达到非期望目的地/>通过对多移动机器人系统中每一个机器人进行状态动作观测，计算目标的后验分布(非原期望目标)可以推断出攻击者的意图，当系统攻击存在时，机器人最终到达攻击者的意图目标的可能性最大，将奖励与目标对应，可以建立目标的后验分布模型。通过迭代算出的概率最大的后验奖励分布可以确定攻击者的攻击意图。攻击意图检测流程如图2所示。

4.1Q值更新

强化学习算法中，智能体经过不断的更新迭代，与周围环境进行交互和作用，并依据环境信息进行自主的适应和调整，实现最大化奖励，获得累计最大化奖励所对应的动作选择策略，找到最优路径。在实际的应用中，系统能从环境中获得的信息也有限，所以智能体必须在利用已有经验和知识的基础上，通过与环境的持续交互以及试错来进行学习。

本发明中采用Q(λ)算法来进行最优策略的学习，该算法结合了Q-learning和TD(λ)回报的思想，利用将来的信息更新当前的Q值并且加入资格迹，系统会自动对智能体之前访问的状态进行标识。

Q值更新公式为

Q_t+1(s,a)＝Q_t(s,a)+αδ_tZ_t(s,a) (4.1)

δ_t＝R_t+1+γmax_aQ_t(s_t+1,a_t+1)-Q_t(s,a) (4.2)

其中γ为折扣因子，α为学习率，R为即时奖励。

资格迹更新公式

其中，γ为学习步长。

4.2贝叶斯逆强化学习

考虑该多移动机器人系统中每一个机器人遵循最优任务策略来执行其导航任务的预期目标。

在未知时刻t_a系统受到攻击，多移动机器人系统遵循任务策略执行导航任务。

设定奖励

式中，C∈N⁺，ε＜＜C∈N⁺。

该等式左边为奖励的后验概率，右式分子第一项为似然概率，第二项为奖励的先验分布，先验分布是对奖励函数的一个假设，右式分母为全概率，一般是一个正则常数作为归一化因子。后验概率可以由先验分布和似然概率计算得到。等式中O_χ表示专家示例，在问题描述中已假设机器人遵循最优策略，其动作状态观测即为专家示例。

假设专家的策略是平稳的，可以做以下独立性假设

动作状态对所对应的值函数Q越大，在状态处选择动作a的可能性越大，R条件下(s,a)的似然概率也就越大，因此可以用指数分布为该似然概率建模

其中，α是一个表示信心程度的参数，该值设定的越大，则认为有越大的信心确信专家是根据大的奖励值选取动作。

将式(4.9)带入式(4.8)中

其中E(O_χ,R)＝∑_iQ*(s_i,a_i,R)。

将式(4.10)带入式(4.7)可得后验概率表达式

式中，Z′是归一化常数，难以计算，主要在于式(4.7)等式右边分母Pr(O_χ)不好计算，大多数情况下，因为计算机无法求解和维度灾难的问题无法直接得到分布。

4.3马尔可夫蒙特卡洛采样

本设计采用马尔可夫蒙特卡洛采样算法来求解该奖励后验分布。

马尔科夫链中P(X_t+1＝x|X_t,X_t-1,…)＝P(X_t+1＝x|X_t)

即当前状态只与前一状态有关，而与其他状态无关，马尔科夫链体现的式状态空间的转换关系，下一个状态只决定于当前的状态。

1.

2.

3.π是方程πP＝π的唯一非负解。

其中，π称为马氏链的平稳分布。

对于给定的概率分布P(x)，由于马氏链能收敛到平稳分布，构造一个转移矩阵为P的马氏链，使得该马氏链的平稳分布恰好是P(x)，那么从任何一个初始状态x₀出发沿着马氏链转移，得到一个转移序列[x₀,x₁,x₂,…,x_n]，如果马氏链收敛了，就得到了P(x)的样本。

为了求得近似的后验估计采用马尔可夫蒙特卡洛采样算法，需要在每一次迭代计算两个式子，分别是先验分布Pr(R)和似然估计Pr_χ(O_χ|R)。

式中的Q^*可通过Q值更新中介绍的Q(λ)算法求得。

其中，右式的第一项表示当给定目标是时，该观测值的似然分布，右式的第二项是计算到t-1时刻的目标的后验分布，也表示t时刻目标的先验分布。假设机器人对攻击者的意图没有任何先验知识，因此在迭代过程开始时设定攻击者目标的先验最初是从均匀分布中提取的。

在马尔可夫蒙特卡洛采样算法迭代完成后，通过计算出后验的均值来μ_i估计g＝g_j的置信水平，后验均值μ_i越高，说明对估计的置信度越高，从而可以推断出攻击者的攻击意图。

为了减少数据处理的复杂度，选取后验分布的方差作为攻击意图推断的主要数据，选择一个合适的阈值τ，当后验分布的方差v_i＜τ时认为系统存在虚假信息，识别出多智能体系统中被攻击的智能体i∈i^a，对于阈值的选择，阈值选择的越高，攻击意图的检测的速度就越快，但相应的该推断越不精确。另一方面，一个较小的阈值可能会导致检测速度十分缓慢进而导致延迟恢复。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于逆强化学习的多智能体系统中欺骗攻击意图预测方法，其特征在于：该方法包括以下步骤：

S1：问题描述

假设攻击者从一个未知时刻开始攻击系统，向传感器网络或通信网络注入虚假信息，对每个移动机器人给定一组观测数据O_1：N，Δt＝{O_1，Δt，O_2，Δt，，...，O_N，Δt}，该观测数据是记录在时间Δt＝[t_d，t_d+n]内移动机器人的有限时间测量行动对，推断出攻击者的攻击意图，即攻击想要使移动机器人到达的非期望的目的地；

引理1：卡尔曼滤波估计

对于状态目标

其中：为状态向量，z(k)观测向量，A为系统状态转移矩阵，H为观测矩阵，/> 和观测噪声/>相互独立，均为零均值高斯白噪声序列，且Q≥0，R≥0；目标的初始状态/>P≥0，独立于系统噪声w和v；假设系统参数(A，B)是可控的，(A，H)是可观的；

P^-(k)＝FP(k-1)F^T+Q

K(k)＝P^-(k)H^T(HP^-(k)H^T+R)^-1

P(k)＝(I-K(k)H)P^-(k)

其中，F＝I-K(k)H，为当前状态预测值，/>为前一时刻估计值，P^-(k)为状态预测值的方差/协方差，P(k)为K(k)为卡尔曼增益；

引理2：一致性算法

考虑一个拓扑G＝(V，ε，A)，图的节点集合为V＝{v₁，v₂，...，v_N}，边集合其邻接矩阵为A＝[a_ij]_N×N；其中，邻接矩阵中元素a_ij表示节点v_i和v_j之间的连接权重，a_ij＝1表示节点v_i可以接收到节点v_j的信息，否则a_ij＝0；节点v_i的邻居定义为N_i：＝{j∈V：a_ij＝1}；

图的拉普拉斯矩阵定义为L＝D-A＝[l_ij]_N×N满足l_ij＝-a_ij,i≠j,无向图的拉普拉斯矩阵是对称的；对于无向图，如果任意2个不同节点之间均存在一个路径，那么图是连通的；

S2：多传感器融合定位

2.1航向估计

机器人航向角度以及定位更新方法：

θ_n+1＝θ_n+ω_eT

2.2位置估计

S3：分布式状态估计与控制器设计

3.1分布式状态估计

系统的状态方程如下,i＝1,2,…,N+1:

1、预测步骤：

预测部分，在当前时刻的先验预测值中加上邻居节点信息：

2、更新步骤：

其中，D_i为一致性矩阵；

3.2控制器设计

智能体之间的通信网络采用切换拓扑结构；

由系统状态方程和式(3.3)得到闭环系统方程:

令E＝[-1_N-1,I_N-1],F＝[0_N-1,I_N-1]；

(1)如果拓扑图是连通的，则l₂₂为正定对称矩阵；

(2)L＝LFE

令为编队误差向量；由δ(t)的定义知，如果/>则即机器人之间的相对状态趋于一个定值；系统描述为如下的编队误差系统：

4、攻击意图推断

4.1Q值更新

Q值更新公式为

Q_t+1(s,a)＝Q_t(s,a)+αδ_tZ_t(s,a) (4.1)

δ_t＝R_t+1+γmax_aQ_t(s_t+1,a_t+1)-Q_t(s,a) (4.2)

其中γ为折扣因子，α为学习率，R为即时奖励；

资格迹更新公式

其中，γ为学习步长；

4.2贝叶斯逆强化学习

设定奖励

式中，C∈N⁺，ε＜＜C∈N⁺；

假设专家的策略是平稳的，做以下独立性假设：

Pr_χ(O_χ|R)＝Pr_χ((s₁,a₁)|R)Pr_χ((s₂,a₂)|R)…Pr_χ((s_k,a_k)|R) (4.8)

将式(4.9)带入式(4.8)中：

其中E(O_χ,R)＝∑_iQ*(s_i,a_i,R)；

将式(4.10)带入式(4.7)得后验概率表达式

式中，Z′是归一化常数；

4.3马尔可夫蒙特卡洛采样

采用马尔可夫蒙特卡洛采样算法来求解该奖励后验分布；

马尔科夫链中P(X_t+1＝x|X_t,X_t-1,…)＝P(X_t+1＝x|X_t)

π是方程πP＝π的唯一非负解；

其中，π＝[π(1),π(2),…,π(n)]π称为马氏链的平稳分布；

首先，对于每个机器人按照目标先验分布从非期望目标集合G\{g^*}中抽取一个样本目标g_i，然后通过机器人位置的数据和在时间t_d:t观测到的动作来估计目标的似然概率

式中的Q^*通过Q值更新中介绍的Q(λ)算法求得；

2.根据权利要求1所述的基于逆强化学习的多智能体系统中欺骗攻击意图预测方法，其特征在于：所述航向估计具体为：

3.根据权利要求2所述的基于逆强化学习的多智能体系统中欺骗攻击意图预测方法，其特征在于：所述位置估计具体为：