CN110134138B

CN110134138B - 对抗环境下无人机智能决策的纳什均衡博弈方法及系统

Info

Publication number: CN110134138B
Application number: CN201910277475.8A
Authority: CN
Inventors: 罗贺; 马滢滢; 王国强; 胡笑旋; 雷星; 朱默宁; 王菊; 张鹏; 李晓多
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2019-04-08
Filing date: 2019-04-08
Publication date: 2022-06-21
Anticipated expiration: 2039-04-08
Also published as: CN110134138A

Abstract

本发明实施方式提供一种对抗环境下无人机智能决策的纳什均衡博弈方法及系统，属于无人机的智能决策技术领域。纳什均衡博弈方法包括：生成第一无人机和第二无人机行为决策时的状态向量X_R、X_B；建立第一无人机和第二无人机的行为决策策略集合S_R、S_B；将第一无人机和第二无人机执行不同类型行为决策策略时的攻击有效性影响因素进行融合，设计第一无人机和第二无人机行为决策策略的支付函数；根据设计的无人机双方的支付函数计算策略集合S_R与策略集合S_B中任意一对行为决策策略对应的第一无人机的支付值和第二无人机的支付值，从而生成第一无人机和第二无人机博弈的双矩阵F；计算无人机双方行为决策的最优方案；选择第一无人机的行为决策策略。

Description

对抗环境下无人机智能决策的纳什均衡博弈方法及系统

技术领域

本发明涉及无人机的智能决策技术领域，具体地涉及一种对抗环境下无人机智能决策的纳什均衡博弈方法及系统。

背景技术

无人机的智能决策对于无人机的模拟及实战对抗至关重要。现有技术中的智能决策方法在考虑无人机的行为决策策略时，仅考虑了无人机的机动行为决策策略，并未考虑无人机的攻击行为决策策略和防御行为决策策略。

在现有技术的智能决策方法中，其支付函数仅考虑无人机相对于敌方无人机在几何位置上的态势优势，并不能完全反映无人机采取行为策略后对敌方无人机的攻击有效性。

发明内容

本发明实施方式的目的是提供一种对抗环境下无人机智能决策的纳什均衡博弈方法及系统，该纳什均衡博弈方法及系统通过将无人机的攻击行为决策策略和防御行为决策策略纳入无人机行为决策的决策策略中，提高了无人机行为决策的有效性。

为了实现上述目的，本发明实施方式提供一种对抗环境下无人机智能决策的纳什均衡博弈方法，所述智能决策包括行为决策，所述纳什均衡博弈方法包括：

分别获取第一无人机和第二无人机行为决策时的状态信息，生成所述第一无人机和所述第二无人机行为决策时的状态向量X_R、X_B；

分析所述第一无人机和所述第二无人机在行为决策时不同类型的典型行为，建立所述第一无人机和所述第二无人机的行为决策策略集合S_R、S_B；

基于证据理论融合方法，将所述第一无人机和所述第二无人机执行不同类型行为决策策略时的攻击有效性影响因素进行融合，设计所述第一无人机和所述第二无人机不同行为决策策略的支付函数；

基于所述第一无人机和所述第二无人机行为决策时的状态向量X_R、X_B，根据设计的所述第一无人机和所述第二无人机行为决策策略的支付函数计算行为决策策略集合S_R与行为决策策略集合S_B中任意一对行为决策策略对应的所述第一无人机的支付值和所述第二无人机的支付值，从而生成所述第一无人机和所述第二无人机博弈的双矩阵F；

基于所述第一无人机和所述第二无人机博弈的双矩阵F，计算无人机双方行为决策的最优方案；

基于所述第一无人机行为决策的最优方案，选择所述第一无人机的行为决策策略。

可选地，所述纳什均衡博弈方法进一步包括：

所述第一无人机与所述第二无人机在行为决策时的状态向量X_R、X_B采用下式表示：

X_R＝(x_R，y_R，z_R，v_R，θ_R，ψ_R)，X_B＝(x_B，y_B，z_B，v_B，θ_B，ψ_B)；

其中，x_R，y_R，z_R、x_B，y_B，z_B分别为第一无人机与第二无人机行为决策时相对于地面坐标系的位置坐标，v_R、v_B分别表示第一无人机与第二无人机行为决策时的速度标量，θ_R、θ_B分别为第一无人机与第二无人机行为决策时相对于地面坐标系的俯仰角；ψ_R、ψ_B分别表示第一无人机与第二无人机行为决策时相对于地面坐标系的航迹偏转角。

可选地，所述纳什均衡博弈方法进一步包括：

分析无人机在行为决策时不同类型的典型行为，将无人机的行为决策策略划分为三类七种，分别为机动行为决策策略、攻击行为决策策略和防御行为决策策略；其中，所述机动行为决策策略包括保持飞行状态不变、左转、右转、爬升、俯冲；所述攻击行为决策策略为发射导弹；所述防御行为决策策略为发射干扰弹；进而生成所述第一无人机与所述第二无人机的行为决策策略集合S_R、S_B，S_R、S_B采用下式表示：

其中，

表示所述第一无人机和所述第二无人机飞行状态不变行为决策策略，

表示所述第一无人机和所述第二无人机左转行为决策策略，

表示所述第一无人机和所述第二无人机右转行为决策策略，

表示所述第一无人机和所述第二无人机爬升行为决策策略，

表示所述第一无人机和所述第二无人机俯冲行为决策策略，

表示所述第一无人机和所述第二无人机发射导弹行为决策策略，

表示所述第一无人机和所述第二无人机发射干扰弹行为决策策略，所述第一无人机的第i个行为策略由

表示，所述第二无人机的第j个行为策略由

表示。

可选地，所述纳什均衡博弈方法进一步包括：

基于证据理论融合方法，在所述第一无人机执行机动行为决策策略，所述第二无人机执行行为决策策略时，所述第一无人机的支付值

由公式(1)所示的支付函数计算可得：

其中，

为由预设的态势优势函数计算所述第一无人机执行机动行为决策策略

所述第二无人机执行行为决策策略

后，所述第一无人机对所述第二无人机的态势优势值；

为预设的证据理论融合算子；p_B为由预设的方法计算的所述第二无人机执行攻击行为决策策略时的导弹攻击命中概率；

在所述第二无人机执行机动行为决策策略，所述第一无人机执行行为决策策略时，所述第二无人机的支付值

由公式 (2)所示的支付函数计算可得：

其中

为由预设的态势优势函数计算所述第二无人机执行机动行为决策策略

所述第一无人机执行行为决策策略

后，所述第二无人机对所述第一无人机的态势优势值；

为预设的证据理论融合算子；p_R为由预设的方法计算的所述第一无人机执行攻击行为决策策略时的导弹攻击命中概率。

可选地，所述纳什均衡博弈方法进一步包括：

在所述第一无人机执行攻击行为决策策略，所述第二无人机执行行为决策策略时，所述第一无人机的支付值

由公式(3)所示的支付函数计算可得：

其中，

为由预设的态势优势函数计算所述第一无人机执行攻击行为决策策略

所述第二无人机执行行为决策策略

后，所述第一无人机对所述第二无人机的态势优势值；

为预设的证据理论融合算子；p_R为由预设的方法计算的所述第一无人机执行攻击行为决策策略时的导弹攻击命中概率，p_B为由预设的方法计算的所述第二无人机执行攻击行为决策策略的导弹攻击命中概率；ε_B为预设的所述第二无人机执行防御行为决策策略时的干扰弹干扰成功概率；

在所述第二无人机执行攻击行为决策策略，所述第一无人机执行行为决策策略，所述第二无人机的支付值

由公式(4)所示的支付函数计算可得：

其中，

为由预设的态势优势函数计算所述第二无人机执行攻击行为决策策略

所述第一无人机执行行为决策策略

后，所述第二无人机对所述第一无人机的态势优势值；

为预设的证据理论融合算子；p_R为由预设方法计算的所述第一无人机执行攻击行为决策策略时的导弹攻击命中概率，p_B为由预设方法计算的所述第二无人机执行攻击行为决策策略时的导弹攻击命中概率；ε_R为预设的所述第一无人机执行防御行为决策策略时的干扰弹干扰成功概率。

可选地，所述纳什均衡博弈方法进一步包括：

在所述第一无人机执行的防御行为决策策略，所述第二无人机执行行为决策策略时，所述第一无人机的支付值

由公式(5) 所示的支付函数计算可得：

其中，

为由预设的态势优势函数计算所述第一无人机执行防御行为决策策略

所述第二无人机执行行为决策策略

后，所述第一无人机对所述第二无人机的态势优势值；

为预设的证据理论融合算子；p_B为由预设的方法计算的所述第二无人机执行攻击行为决策策略时的导弹攻击命中概率；ε_R为预设的所述第一无人机执行防御行为决策策略时的干扰弹干扰成功概率；

在所述第二无人机执行防御行为决策策略，所述第一无人机执行行为决策策略，所述第二无人机的支付值

由公式(6)所示的支付函数计算可得：

其中，

为由预设的态势优势函数计算所述第二无人机执行防御行为决策策略

所述第一无人机执行行为决策策略

后，所述第二无人机对所述第一无人机的态势优势值；

为预设的证据理论融合算子；p_R为由预设的方法计算的所述第一无人机执行攻击行为决策策略时的导弹攻击命中概率；ε_B为预设的所述第二无人机执行防御行为决策策略时的干扰弹干扰成功概率。

可选地，生成所述第一无人机和所述第二无人机博弈的双矩阵F采用公式(7)表示：

其中，

为所述第一无人机和所述第二无人机分别执行行为决策策略

后所述第一无人机的支付值、所述第二无人机的支付值。

另一方面，本发明还提供一种对抗环境下无人机智能决策的纳什均衡博弈系统，所述矩阵博弈系统包括处理器，所述处理器用于执行上述任一所述的纳什均衡博弈方法。

通过上述技术方案，本发明提供的对抗环境下无人机智能决策的纳什均衡博弈方法及系统通过将无人机的攻击行为决策策略、防御行为决策策略纳入无人机的决策策略中，相对于现有技术中的决策方法，提高了无人机行为决策的有效性。

本发明实施方式的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施方式的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施方式，但并不构成对本发明实施方式的限制。在附图中：

图1是根据本发明的一个实施方式的对抗环境下无人机智能决策的纳什均衡博弈方法的流程图。

具体实施方式

以下结合附图对本发明实施方式的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明实施方式，并不用于限制本发明实施方式。

在本申请实施方式中，在未作相反说明的情况下，使用的方位词如“上、下、顶、底”通常是针对附图所示的方向而言的或者是针对竖直、垂直或重力方向上而言的各部件相互位置关系描述用词。

另外，若本申请实施方式中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施方式之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

如图1所示是根据本发明提供的一种对抗环境下无人机智能决策的纳什均衡博弈方法的流程图。在图1中，该智能决策包括行为决策，该纳什均衡博弈方法可以包括：

在步骤S10中，分别获取第一无人机和第二无人机行为决策时的状态信息，生成第一无人机和第二无人机行为决策时的状态向量X_R、X_B。具体地，第一无人机与第二无人机在行为决策时的状态向量X_R、X_B可以采用下式表示：

在步骤S20中，分析第一无人机和第二无人机在行为决策时不同类型的典型行为，建立第一无人机和第二无人机的行为决策策略集合S_R、S_B。在该实施方式中，考虑到无人机在行为决策时不同类型的典型行为，可以将无人机的行为决策策略划分为三类七种，包括机动行为决策策略、攻击行为决策策略和防御行为决策策略三类；其中，机动行为决策策略可以包括保持飞行状态不变、左转、右转、爬升、俯冲；攻击行为决策策略为发射导弹(假设无人机在发射导弹时自身的飞行状态保持不变)；防御行为决策策略为发射干扰弹(假设无人机在发射干扰弹时自身的飞行状态保持不变)；进而生成第一无人机与第二无人机的行为决策策略集合S_R、S_B。具体地，S_R、S_B可以采用下式表示：

其中，

表示第一无人机和第二无人机飞行状态不变行为决策策略，

表示第一无人机和第二无人机左转行为决策策略，

表示第一无人机和第二无人机右转行为决策策略，

表示第一无人机和第二无人机爬升行为决策策略，

表示第一无人机和第二无人机俯冲行为决策策略，

表示第一无人机和第二无人机发射导弹行为决策策略，

表示第一无人机和第二无人机发射干扰弹行为决策策略，第一无人机的第i个行为策略由

表示，第二无人机的第j个行为策略由

表示。

由于双方无人机在对抗时需要考虑到双方无人机的攻击行为决策策略和防御行为决策策略，那么，在该实施方式中，将双方无人机的攻击行为决策策略和防御行为决策策略纳入行为决策策略集合中可以更加全面地计算双方无人机的行为决策策略。

在步骤S30中，基于证据理论融合方法，将第一无人机和第二无人机执行不同类型行为决策策略时的攻击有效性影响因素进行融合，设计第一无人机和第二无人机行为决策策略的支付函数。

在该实施方式中，基于证据理论融合方法，在第一无人机执行不同的机动行为决策策略，即

第二无人机执行不同的行为决策策略，即

时，第一无人机的支付值

可以由公式(1)所示的支付函数计算可得：

其中

为由预设的态势优势函数计算第一无人机执行机动行为决策策略

第二无人机执行行为决策策略

后，第一无人机对第二无人机的态势优势值；

为预设的证据理论融合算子；p_B为由预设的方法计算的第二无人机执行攻击行为决策策略时的导弹攻击命中概率。对于该态势优势函数，可以是本领域人员所知的多种形式。在本发明的一个示例中，考虑到该纳什均衡博弈方法的状态向量包括双方无人机的位置坐标、速度标量、俯仰角和偏航角，那么，该态势优势函数可以包括公式(2)至公式(11)，

其中，

为第一无人机执行行为决策策略

第二无人机执行行为决策策略

后第一无人机相对与第二无人机的速度优势值，v₀为第一无人机的最佳飞行速度，v_i为第一无人机执行行为决策策略

后的飞行速度，v_j为第二无人机执行行为决策策略

后的飞行速度；

α_i＝arccos C_i，(6)

α_j＝arccos C_j，(7)

其中，

为第一无人机执行行为决策策略

第二无人机执行行为决策策略

后第一无人机相对与第二无人机的角度优势值，(x_i，y_i，z_i)和 (x_j，y_j，z_j)分别为第一无人机执行行为决策策略

后的位置、第二无人机执行行为决策策略

后的位置，D_ij为第一无人机执行行为决策策略

第二无人机执行行为决策策略

后无人机双方的距离；

其中，

为第一无人机执行行为决策策略

第二无人机执行行为决策策略

后第一无人机相对于第二无人机的距离优势值，

分别表示第一无人机执行行为决策策略

时所携带的导弹的最小和最大发射距离；

对于计算第一无人机的导弹攻击命中概率的方法，可以是本领域人员公知的方法。在本发明的一个示例中，可以采用公式(12)计算该导弹攻击命中概率，

其中，ξ_max为导弹的最大立轴发射角，ξ_ij为(蓝方)无人机与(红方) 无人机导弹立轴发射角的夹角。

在第二无人机执行机动行为决策策略，即

第一无人机执行行为决策策略，即

时，第二无人机的支付值

由公式(13)所示的支付函数计算可得：

其中

为由预设的态势优势函数计算第二无人机执行行为决策策略

第一无人机执行行为决策策略

后，第二无人机对第一无人机的态势优势值；

为预设的证据理论融合算子；p_R为由预设的方法计算的第一无人机执行攻击行为决策策略时的导弹攻击命中概率。在该实施方式中，计算该第二无人机的态势优势值的态势优势函数可以是本领域人员公知的函数。在本发明的一个示例中，也可以采用与上述公式(2)至公式(11)类似的方式来计算该态势优势函数。相应地，计算该第二无人机的导弹攻击命中概率的方法也可以是本领域人员公知的函数，在本发明的一个示例中，也可以采用与上述公式(12)类似的方式来计算该导弹攻击命中概率。

在第一无人机执行攻击行为决策策略，即

第二无人机执行行为决策策略，即

时，第一无人机的支付值

由公式(14)所示的支付函数计算可得：

其中，

为由预设的态势优势函数计算第一无人机执行攻击行为决策策略

第二无人机执行行为决策策略

后，第一无人机对第二无人机的态势优势值；

为预设的证据理论融合算子；p_R为由预设的方法计算的第一无人机执行攻击行为决策策略时的导弹攻击命中概率，p_B为由预设的方法计算的第二无人机执行攻击行为决策策略时的导弹攻击命中概率；ε_B为预设的第二无人机执行防御行为决策策略时的干扰弹干扰成功概率。

在第二无人机执行攻击行为决策策略，即

第一无人机执行行为决策策略，即

第二无人机的支付值

可以由公式(15)所示的支付函数计算可得：

其中，

为由预设的态势优势函数计算第二无人机执行攻击行为决策策略

第一无人机执行行为决策策略

后，第二无人机对第一无人机的态势优势值；

为预设的证据理论融合算子；p_R为由预设方法计算的第一无人机执行攻击行为决策策略时的导弹攻击命中概率，p_B为由预设方法计算的第二无人机执行攻击行为决策策略时的导弹攻击命中概率；ε_R为预设的第一无人机执行防御行为决策策略时的干扰弹干扰成功概率。

在第一无人机执行的防御行为决策策略，即

第二无人机执行行为决策策略，即

时，第一无人机的支付值

由公式(16)所示的支付函数计算可得：

其中，

为由预设的态势优势函数计算第一无人机执行防御行为决策策略

第二无人机执行行为决策策略

后，第一无人机对第二无人机的态势优势值；

为预设的证据理论融合算子；p_B为由预设的方法计算的第二无人机执行攻击行为决策策略时的导弹攻击命中概率；，ε_R为预设的第一无人机执行防御行为决策策略时的干扰弹干扰成功概率。

在第二无人机执行防御行为决策策略，即

第一无人机执行行为决策策略，即

第二无人机的支付值

由公式(17)所示的支付函数计算可得：

其中，

为由预设的态势优势函数计算第二无人机执行防御行为决策策略

第一无人机执行行为决策策略

后，第二无人机对第一无人机的态势优势值；

为预设的证据理论融合算子；p_R为由预设的方法计算的第一无人机执行攻击行为决策策略时的导弹攻击命中概率；ε_B为预设的第二无人机执行防御行为决策策略时的干扰弹干扰成功概率。

在步骤S40中，基于第一无人机和第二无人机行为决策时的状态向量X_R、 X_B，根据设计的无人机双方的支付函数计算策略集合S_R与策略集合S_B中任意一对行为决策策略对应的第一无人机的支付值和第二无人机的支付值，从而生成第一无人机和第二无人机博弈的双矩阵F。具体地，生成第一无人机和第二无人机博弈的双矩阵F可以采用公式(18)表示：

其中，

为第一无人机和第二无人机分别执行行为决策策略

后第一无人机的支付值、第二无人机的支付值。

在步骤S50中，基于双方无人机博弈的双矩阵F，计算无人机双方行为决策的最优方案；

在步骤S60中，基于所述第一无人机行为决策的最优方案，选择所述第一无人机的行为策略。

另一方面，本发明还提供一种对抗环境下无人机智能决策的纳什均衡博弈系统，该纳什均衡博弈系统可以包括处理器，处理器用于执行上述任一的纳什均衡博弈方法。对于该处理器，可以是例如通用处理器、专用处理器、常规处理器、数字信号处理器(DSP)、多个微处理器、与DSP核心相关联的一个或多个微处理器、控制器、微控制器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)电路、任何其它类型的集成电路(IC)、状态机、系统级芯片(SOC)等。

以上结合附图详细描述了本发明例的可选实施方式，但是，本发明实施方式并不限于上述实施方式中的具体细节，在本发明实施方式的技术构思范围内，可以对本发明实施方式的技术方案进行多种简单变型，这些简单变型均属于本发明实施方式的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明实施方式对各种可能的组合方式不再另行说明。

本领域技术人员可以理解实现上述实施方式方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个(可以是单片机，芯片等)或处理器(processor) 执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

此外，本发明实施方式的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明实施方式的思想，其同样应当视为本发明实施方式所公开的内容。

Claims

1.一种对抗环境下无人机智能决策的纳什均衡博弈方法，所述智能决策包括行为决策，其特征在于，所述纳什均衡博弈方法包括：

基于所述第一无人机行为决策的最优方案，选择所述第一无人机的行为决策策略；

所述纳什均衡博弈方法进一步包括：

由公式(1)所示的支付函数计算可得：

其中，

所述第二无人机执行行为决策策略

后，所述第一无人机对所述第二无人机的态势优势值；

由公式(2)所示的支付函数计算可得：

其中

所述第一无人机执行行为决策策略

后，所述第二无人机对所述第一无人机的态势优势值；

2.根据权利要求1所述的纳什均衡博弈方法，其特征在于，所述纳什均衡博弈方法进一步包括：

X_R＝(x_R,y_R,z_R,v_R,θ_R,ψ_R)，X_B＝(x_B,y_B,z_B,v_B,θ_B,ψ_B)；

其中，x_R,y_R,z_R、x_B,y_B,z_B分别为第一无人机与第二无人机行为决策时相对于地面坐标系的位置坐标，v_R、v_B分别表示第一无人机与第二无人机行为决策时的速度标量，θ_R、θ_B分别为第一无人机与第二无人机行为决策时相对于地面坐标系的俯仰角；ψ_R、ψ_B分别表示第一无人机与第二无人机行为决策时相对于地面坐标系的航迹偏转角。

3.根据权利要求1所述的纳什均衡博弈方法，其特征在于，所述纳什均衡博弈方法进一步包括：