CN110134138B - 对抗环境下无人机智能决策的纳什均衡博弈方法及系统 - Google Patents

对抗环境下无人机智能决策的纳什均衡博弈方法及系统 Download PDF

Info

Publication number
CN110134138B
CN110134138B CN201910277475.8A CN201910277475A CN110134138B CN 110134138 B CN110134138 B CN 110134138B CN 201910277475 A CN201910277475 A CN 201910277475A CN 110134138 B CN110134138 B CN 110134138B
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
drone
behavior decision
decision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910277475.8A
Other languages
English (en)
Other versions
CN110134138A (zh
Inventor
罗贺
马滢滢
王国强
胡笑旋
雷星
朱默宁
王菊
张鹏
李晓多
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201910277475.8A priority Critical patent/CN110134138B/zh
Publication of CN110134138A publication Critical patent/CN110134138A/zh
Application granted granted Critical
Publication of CN110134138B publication Critical patent/CN110134138B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/107Simultaneous control of position or course in three dimensions specially adapted for missiles

Abstract

本发明实施方式提供一种对抗环境下无人机智能决策的纳什均衡博弈方法及系统,属于无人机的智能决策技术领域。纳什均衡博弈方法包括:生成第一无人机和第二无人机行为决策时的状态向量XR、XB;建立第一无人机和第二无人机的行为决策策略集合SR、SB;将第一无人机和第二无人机执行不同类型行为决策策略时的攻击有效性影响因素进行融合,设计第一无人机和第二无人机行为决策策略的支付函数;根据设计的无人机双方的支付函数计算策略集合SR与策略集合SB中任意一对行为决策策略对应的第一无人机的支付值和第二无人机的支付值,从而生成第一无人机和第二无人机博弈的双矩阵F;计算无人机双方行为决策的最优方案;选择第一无人机的行为决策策略。

Description

对抗环境下无人机智能决策的纳什均衡博弈方法及系统
技术领域
本发明涉及无人机的智能决策技术领域,具体地涉及一种对抗环境下无人机智能决策的纳什均衡博弈方法及系统。
背景技术
无人机的智能决策对于无人机的模拟及实战对抗至关重要。现有技术中的智能决策方法在考虑无人机的行为决策策略时,仅考虑了无人机的机动行为决策策略,并未考虑无人机的攻击行为决策策略和防御行为决策策略。
在现有技术的智能决策方法中,其支付函数仅考虑无人机相对于敌方无人机在几何位置上的态势优势,并不能完全反映无人机采取行为策略后对敌方无人机的攻击有效性。
发明内容
本发明实施方式的目的是提供一种对抗环境下无人机智能决策的纳什均衡博弈方法及系统,该纳什均衡博弈方法及系统通过将无人机的攻击行为决策策略和防御行为决策策略纳入无人机行为决策的决策策略中,提高了无人机行为决策的有效性。
为了实现上述目的,本发明实施方式提供一种对抗环境下无人机智能决策的纳什均衡博弈方法,所述智能决策包括行为决策,所述纳什均衡博弈方法包括:
分别获取第一无人机和第二无人机行为决策时的状态信息,生成所述第一无人机和所述第二无人机行为决策时的状态向量XR、XB
分析所述第一无人机和所述第二无人机在行为决策时不同类型的典型行为,建立所述第一无人机和所述第二无人机的行为决策策略集合SR、SB
基于证据理论融合方法,将所述第一无人机和所述第二无人机执行不同类型行为决策策略时的攻击有效性影响因素进行融合,设计所述第一无人机和所述第二无人机不同行为决策策略的支付函数;
基于所述第一无人机和所述第二无人机行为决策时的状态向量XR、XB,根据设计的所述第一无人机和所述第二无人机行为决策策略的支付函数计算行为决策策略集合SR与行为决策策略集合SB中任意一对行为决策策略对应的所述第一无人机的支付值和所述第二无人机的支付值,从而生成所述第一无人机和所述第二无人机博弈的双矩阵F;
基于所述第一无人机和所述第二无人机博弈的双矩阵F,计算无人机双方行为决策的最优方案;
基于所述第一无人机行为决策的最优方案,选择所述第一无人机的行为决策策略。
可选地,所述纳什均衡博弈方法进一步包括:
所述第一无人机与所述第二无人机在行为决策时的状态向量XR、XB采用下式表示:
XR=(xR,yR,zR,vR,θR,ψR),XB=(xB,yB,zB,vB,θB,ψB);
其中,xR,yR,zR、xB,yB,zB分别为第一无人机与第二无人机行为决策时相对于地面坐标系的位置坐标,vR、vB分别表示第一无人机与第二无人机行为决策时的速度标量,θR、θB分别为第一无人机与第二无人机行为决策时相对于地面坐标系的俯仰角;ψR、ψB分别表示第一无人机与第二无人机行为决策时相对于地面坐标系的航迹偏转角。
可选地,所述纳什均衡博弈方法进一步包括:
分析无人机在行为决策时不同类型的典型行为,将无人机的行为决策策略划分为三类七种,分别为机动行为决策策略、攻击行为决策策略和防御行为决策策略;其中,所述机动行为决策策略包括保持飞行状态不变、左转、右转、爬升、俯冲;所述攻击行为决策策略为发射导弹;所述防御行为决策策略为发射干扰弹;进而生成所述第一无人机与所述第二无人机的行为决策策略集合SR、SB,SR、SB采用下式表示:
Figure BDA0002020497950000031
Figure BDA0002020497950000032
其中,
Figure BDA0002020497950000033
表示所述第一无人机和所述第二无人机飞行状态不变行为决策策略,
Figure BDA0002020497950000034
表示所述第一无人机和所述第二无人机左转行为决策策略,
Figure BDA0002020497950000035
表示所述第一无人机和所述第二无人机右转行为决策策略,
Figure BDA0002020497950000036
表示所述第一无人机和所述第二无人机爬升行为决策策略,
Figure BDA0002020497950000037
表示所述第一无人机和所述第二无人机俯冲行为决策策略,
Figure BDA0002020497950000038
表示所述第一无人机和所述第二无人机发射导弹行为决策策略,
Figure BDA0002020497950000039
表示所述第一无人机和所述第二无人机发射干扰弹行为决策策略,所述第一无人机的第i个行为策略由
Figure BDA00020204979500000310
表示,所述第二无人机的第j个行为策略由
Figure BDA00020204979500000311
表示。
可选地,所述纳什均衡博弈方法进一步包括:
基于证据理论融合方法,在所述第一无人机执行机动行为决策策略,所述第二无人机执行行为决策策略时,所述第一无人机的支付值
Figure BDA00020204979500000312
由公式(1)所示的支付函数计算可得:
Figure BDA00020204979500000313
其中,
Figure BDA00020204979500000314
为由预设的态势优势函数计算所述第一无人机执行机动行为决策策略
Figure BDA00020204979500000315
所述第二无人机执行行为决策策略
Figure BDA00020204979500000316
后,所述第一无人机对所述第二无人机的态势优势值;
Figure BDA00020204979500000317
为预设的证据理论融合算子;pB为由预设的方法计算的所述第二无人机执行攻击行为决策策略时的导弹攻击命中概率;
在所述第二无人机执行机动行为决策策略,所述第一无人机执行行为决策策略时,所述第二无人机的支付值
Figure BDA0002020497950000041
由公式 (2)所示的支付函数计算可得:
Figure BDA0002020497950000042
其中
Figure BDA0002020497950000043
为由预设的态势优势函数计算所述第二无人机执行机动行为决策策略
Figure BDA0002020497950000044
所述第一无人机执行行为决策策略
Figure BDA0002020497950000045
后,所述第二无人机对所述第一无人机的态势优势值;
Figure BDA0002020497950000046
为预设的证据理论融合算子;pR为由预设的方法计算的所述第一无人机执行攻击行为决策策略时的导弹攻击命中概率。
可选地,所述纳什均衡博弈方法进一步包括:
在所述第一无人机执行攻击行为决策策略,所述第二无人机执行行为决策策略时,所述第一无人机的支付值
Figure BDA0002020497950000047
由公式(3)所示的支付函数计算可得:
Figure BDA0002020497950000048
其中,
Figure BDA0002020497950000049
为由预设的态势优势函数计算所述第一无人机执行攻击行为决策策略
Figure BDA00020204979500000410
所述第二无人机执行行为决策策略
Figure BDA00020204979500000411
后,所述第一无人机对所述第二无人机的态势优势值;
Figure BDA00020204979500000412
为预设的证据理论融合算子;pR为由预设的方法计算的所述第一无人机执行攻击行为决策策略时的导弹攻击命中概率,pB为由预设的方法计算的所述第二无人机执行攻击行为决策策略的导弹攻击命中概率;εB为预设的所述第二无人机执行防御行为决策策略时的干扰弹干扰成功概率;
在所述第二无人机执行攻击行为决策策略,所述第一无人机执行行为决策策略,所述第二无人机的支付值
Figure BDA0002020497950000051
由公式(4)所示的支付函数计算可得:
Figure BDA0002020497950000052
其中,
Figure BDA0002020497950000053
为由预设的态势优势函数计算所述第二无人机执行攻击行为决策策略
Figure BDA0002020497950000054
所述第一无人机执行行为决策策略
Figure BDA0002020497950000055
后,所述第二无人机对所述第一无人机的态势优势值;
Figure BDA0002020497950000056
为预设的证据理论融合算子;pR为由预设方法计算的所述第一无人机执行攻击行为决策策略时的导弹攻击命中概率,pB为由预设方法计算的所述第二无人机执行攻击行为决策策略时的导弹攻击命中概率;εR为预设的所述第一无人机执行防御行为决策策略时的干扰弹干扰成功概率。
可选地,所述纳什均衡博弈方法进一步包括:
在所述第一无人机执行的防御行为决策策略,所述第二无人机执行行为决策策略时,所述第一无人机的支付值
Figure BDA00020204979500000512
由公式(5) 所示的支付函数计算可得:
Figure BDA0002020497950000057
其中,
Figure BDA0002020497950000058
为由预设的态势优势函数计算所述第一无人机执行防御行为决策策略
Figure BDA0002020497950000059
所述第二无人机执行行为决策策略
Figure BDA00020204979500000510
后,所述第一无人机对所述第二无人机的态势优势值;
Figure BDA00020204979500000511
为预设的证据理论融合算子;pB为由预设的方法计算的所述第二无人机执行攻击行为决策策略时的导弹攻击命中概率;εR为预设的所述第一无人机执行防御行为决策策略时的干扰弹干扰成功概率;
在所述第二无人机执行防御行为决策策略,所述第一无人机执行行为决策策略,所述第二无人机的支付值
Figure BDA0002020497950000061
由公式(6)所示的支付函数计算可得:
Figure BDA0002020497950000062
其中,
Figure BDA0002020497950000063
为由预设的态势优势函数计算所述第二无人机执行防御行为决策策略
Figure BDA0002020497950000064
所述第一无人机执行行为决策策略
Figure BDA0002020497950000065
后,所述第二无人机对所述第一无人机的态势优势值;
Figure BDA0002020497950000066
为预设的证据理论融合算子;pR为由预设的方法计算的所述第一无人机执行攻击行为决策策略时的导弹攻击命中概率;εB为预设的所述第二无人机执行防御行为决策策略时的干扰弹干扰成功概率。
可选地,生成所述第一无人机和所述第二无人机博弈的双矩阵F采用公式(7)表示:
Figure BDA0002020497950000067
其中,
Figure BDA0002020497950000068
为所述第一无人机和所述第二无人机分别执行行为决策策略
Figure BDA0002020497950000069
后所述第一无人机的支付值、所述第二无人机的支付值。
另一方面,本发明还提供一种对抗环境下无人机智能决策的纳什均衡博弈系统,所述矩阵博弈系统包括处理器,所述处理器用于执行上述任一所述的纳什均衡博弈方法。
通过上述技术方案,本发明提供的对抗环境下无人机智能决策的纳什均衡博弈方法及系统通过将无人机的攻击行为决策策略、防御行为决策策略纳入无人机的决策策略中,相对于现有技术中的决策方法,提高了无人机行为决策的有效性。
本发明实施方式的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明实施方式的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施方式,但并不构成对本发明实施方式的限制。在附图中:
图1是根据本发明的一个实施方式的对抗环境下无人机智能决策的纳什均衡博弈方法的流程图。
具体实施方式
以下结合附图对本发明实施方式的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施方式,并不用于限制本发明实施方式。
在本申请实施方式中,在未作相反说明的情况下,使用的方位词如“上、下、顶、底”通常是针对附图所示的方向而言的或者是针对竖直、垂直或重力方向上而言的各部件相互位置关系描述用词。
另外,若本申请实施方式中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施方式之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
如图1所示是根据本发明提供的一种对抗环境下无人机智能决策的纳什均衡博弈方法的流程图。在图1中,该智能决策包括行为决策,该纳什均衡博弈方法可以包括:
在步骤S10中,分别获取第一无人机和第二无人机行为决策时的状态信息,生成第一无人机和第二无人机行为决策时的状态向量XR、XB。具体地,第一无人机与第二无人机在行为决策时的状态向量XR、XB可以采用下式表示:
XR=(xR,yR,zR,vR,θR,ψR),XB=(xB,yB,zB,vB,θB,ψB);
其中,xR,yR,zR、xB,yB,zB分别为第一无人机与第二无人机行为决策时相对于地面坐标系的位置坐标,vR、vB分别表示第一无人机与第二无人机行为决策时的速度标量,θR、θB分别为第一无人机与第二无人机行为决策时相对于地面坐标系的俯仰角;ψR、ψB分别表示第一无人机与第二无人机行为决策时相对于地面坐标系的航迹偏转角。
在步骤S20中,分析第一无人机和第二无人机在行为决策时不同类型的典型行为,建立第一无人机和第二无人机的行为决策策略集合SR、SB。在该实施方式中,考虑到无人机在行为决策时不同类型的典型行为,可以将无人机的行为决策策略划分为三类七种,包括机动行为决策策略、攻击行为决策策略和防御行为决策策略三类;其中,机动行为决策策略可以包括保持飞行状态不变、左转、右转、爬升、俯冲;攻击行为决策策略为发射导弹(假设无人机在发射导弹时自身的飞行状态保持不变);防御行为决策策略为发射干扰弹(假设无人机在发射干扰弹时自身的飞行状态保持不变);进而生成第一无人机与第二无人机的行为决策策略集合SR、SB。具体地,SR、SB可以采用下式表示:
Figure BDA0002020497950000081
Figure BDA0002020497950000082
其中,
Figure BDA0002020497950000083
表示第一无人机和第二无人机飞行状态不变行为决策策略,
Figure BDA0002020497950000091
表示第一无人机和第二无人机左转行为决策策略,
Figure BDA0002020497950000092
表示第一无人机和第二无人机右转行为决策策略,
Figure BDA0002020497950000093
表示第一无人机和第二无人机爬升行为决策策略,
Figure BDA0002020497950000094
表示第一无人机和第二无人机俯冲行为决策策略,
Figure BDA0002020497950000095
表示第一无人机和第二无人机发射导弹行为决策策略,
Figure BDA0002020497950000096
表示第一无人机和第二无人机发射干扰弹行为决策策略,第一无人机的第i个行为策略由
Figure BDA0002020497950000097
表示,第二无人机的第j个行为策略由
Figure BDA0002020497950000098
表示。
由于双方无人机在对抗时需要考虑到双方无人机的攻击行为决策策略和防御行为决策策略,那么,在该实施方式中,将双方无人机的攻击行为决策策略和防御行为决策策略纳入行为决策策略集合中可以更加全面地计算双方无人机的行为决策策略。
在步骤S30中,基于证据理论融合方法,将第一无人机和第二无人机执行不同类型行为决策策略时的攻击有效性影响因素进行融合,设计第一无人机和第二无人机行为决策策略的支付函数。
在该实施方式中,基于证据理论融合方法,在第一无人机执行不同的机动行为决策策略,即
Figure BDA0002020497950000099
第二无人机执行不同的行为决策策略,即
Figure BDA00020204979500000910
时,第一无人机的支付值
Figure BDA00020204979500000911
可以由公式(1)所示的支付函数计算可得:
Figure BDA00020204979500000912
其中
Figure BDA00020204979500000913
为由预设的态势优势函数计算第一无人机执行机动行为决策策略
Figure BDA00020204979500000914
第二无人机执行行为决策策略
Figure BDA00020204979500000915
后,第一无人机对第二无人机的态势优势值;
Figure BDA00020204979500000916
为预设的证据理论融合算子;pB为由预设的方法计算的第二无人机执行攻击行为决策策略时的导弹攻击命中概率。对于该态势优势函数,可以是本领域人员所知的多种形式。在本发明的一个示例中,考虑到该纳什均衡博弈方法的状态向量包括双方无人机的位置坐标、速度标量、俯仰角和偏航角,那么,该态势优势函数可以包括公式(2)至公式(11),
Figure BDA0002020497950000101
Figure BDA0002020497950000102
其中,
Figure BDA0002020497950000103
为第一无人机执行行为决策策略
Figure BDA0002020497950000104
第二无人机执行行为决策策略
Figure BDA0002020497950000105
后第一无人机相对与第二无人机的速度优势值,v0为第一无人机的最佳飞行速度,vi为第一无人机执行行为决策策略
Figure BDA0002020497950000106
后的飞行速度,vj为第二无人机执行行为决策策略
Figure BDA0002020497950000107
后的飞行速度;
Figure BDA0002020497950000108
Figure BDA0002020497950000109
αi=arccos Ci,(6)
αj=arccos Cj,(7)
Figure BDA00020204979500001010
其中,
Figure BDA00020204979500001011
为第一无人机执行行为决策策略
Figure BDA00020204979500001012
第二无人机执行行为决策策略
Figure BDA0002020497950000111
后第一无人机相对与第二无人机的角度优势值,(xi,yi,zi)和 (xj,yj,zj)分别为第一无人机执行行为决策策略
Figure BDA0002020497950000112
后的位置、第二无人机执行行为决策策略
Figure BDA0002020497950000113
后的位置,Dij为第一无人机执行行为决策策略
Figure BDA0002020497950000114
第二无人机执行行为决策策略
Figure BDA0002020497950000115
后无人机双方的距离;
Figure BDA0002020497950000116
Figure BDA0002020497950000117
其中,
Figure BDA0002020497950000118
为第一无人机执行行为决策策略
Figure BDA0002020497950000119
第二无人机执行行为决策策略
Figure BDA00020204979500001110
后第一无人机相对于第二无人机的距离优势值,
Figure BDA00020204979500001111
分别表示第一无人机执行行为决策策略
Figure BDA00020204979500001112
时所携带的导弹的最小和最大发射距离;
Figure BDA00020204979500001113
对于计算第一无人机的导弹攻击命中概率的方法,可以是本领域人员公知的方法。在本发明的一个示例中,可以采用公式(12)计算该导弹攻击命中概率,
Figure BDA00020204979500001114
其中,ξmax为导弹的最大立轴发射角,ξij为(蓝方)无人机与(红方) 无人机导弹立轴发射角的夹角。
在第二无人机执行机动行为决策策略,即
Figure BDA00020204979500001115
第一无人机执行行为决策策略,即
Figure BDA00020204979500001116
时,第二无人机的支付值
Figure BDA00020204979500001117
由公式(13)所示的支付函数计算可得:
Figure BDA0002020497950000121
其中
Figure BDA0002020497950000122
为由预设的态势优势函数计算第二无人机执行行为决策策略
Figure BDA0002020497950000123
第一无人机执行行为决策策略
Figure BDA0002020497950000124
后,第二无人机对第一无人机的态势优势值;
Figure BDA0002020497950000125
为预设的证据理论融合算子;pR为由预设的方法计算的第一无人机执行攻击行为决策策略时的导弹攻击命中概率。在该实施方式中,计算该第二无人机的态势优势值的态势优势函数可以是本领域人员公知的函数。在本发明的一个示例中,也可以采用与上述公式(2)至公式(11)类似的方式来计算该态势优势函数。相应地,计算该第二无人机的导弹攻击命中概率的方法也可以是本领域人员公知的函数,在本发明的一个示例中,也可以采用与上述公式(12)类似的方式来计算该导弹攻击命中概率。
在第一无人机执行攻击行为决策策略,即
Figure BDA0002020497950000126
第二无人机执行行为决策策略,即
Figure BDA0002020497950000127
时,第一无人机的支付值
Figure BDA0002020497950000128
由公式(14)所示的支付函数计算可得:
Figure BDA0002020497950000129
其中,
Figure BDA00020204979500001210
为由预设的态势优势函数计算第一无人机执行攻击行为决策策略
Figure BDA00020204979500001211
第二无人机执行行为决策策略
Figure BDA00020204979500001212
后,第一无人机对第二无人机的态势优势值;
Figure BDA00020204979500001213
为预设的证据理论融合算子;pR为由预设的方法计算的第一无人机执行攻击行为决策策略时的导弹攻击命中概率,pB为由预设的方法计算的第二无人机执行攻击行为决策策略时的导弹攻击命中概率;εB为预设的第二无人机执行防御行为决策策略时的干扰弹干扰成功概率。
在第二无人机执行攻击行为决策策略,即
Figure BDA00020204979500001214
第一无人机执行行为决策策略,即
Figure BDA0002020497950000131
第二无人机的支付值
Figure BDA0002020497950000132
可以由公式(15)所示的支付函数计算可得:
Figure BDA0002020497950000133
其中,
Figure BDA0002020497950000134
为由预设的态势优势函数计算第二无人机执行攻击行为决策策略
Figure BDA0002020497950000135
第一无人机执行行为决策策略
Figure BDA0002020497950000136
后,第二无人机对第一无人机的态势优势值;
Figure BDA0002020497950000137
为预设的证据理论融合算子;pR为由预设方法计算的第一无人机执行攻击行为决策策略时的导弹攻击命中概率,pB为由预设方法计算的第二无人机执行攻击行为决策策略时的导弹攻击命中概率;εR为预设的第一无人机执行防御行为决策策略时的干扰弹干扰成功概率。
在第一无人机执行的防御行为决策策略,即
Figure BDA0002020497950000138
第二无人机执行行为决策策略,即
Figure BDA0002020497950000139
时,第一无人机的支付值
Figure BDA00020204979500001310
由公式(16)所示的支付函数计算可得:
Figure BDA00020204979500001311
其中,
Figure BDA00020204979500001312
为由预设的态势优势函数计算第一无人机执行防御行为决策策略
Figure BDA00020204979500001313
第二无人机执行行为决策策略
Figure BDA00020204979500001314
后,第一无人机对第二无人机的态势优势值;
Figure BDA00020204979500001315
为预设的证据理论融合算子;pB为由预设的方法计算的第二无人机执行攻击行为决策策略时的导弹攻击命中概率;,εR为预设的第一无人机执行防御行为决策策略时的干扰弹干扰成功概率。
在第二无人机执行防御行为决策策略,即
Figure BDA00020204979500001316
第一无人机执行行为决策策略,即
Figure BDA00020204979500001317
第二无人机的支付值
Figure BDA0002020497950000141
由公式(17)所示的支付函数计算可得:
Figure BDA0002020497950000142
其中,
Figure BDA0002020497950000143
为由预设的态势优势函数计算第二无人机执行防御行为决策策略
Figure BDA0002020497950000144
第一无人机执行行为决策策略
Figure BDA0002020497950000145
后,第二无人机对第一无人机的态势优势值;
Figure BDA0002020497950000146
为预设的证据理论融合算子;pR为由预设的方法计算的第一无人机执行攻击行为决策策略时的导弹攻击命中概率;εB为预设的第二无人机执行防御行为决策策略时的干扰弹干扰成功概率。
在步骤S40中,基于第一无人机和第二无人机行为决策时的状态向量XR、 XB,根据设计的无人机双方的支付函数计算策略集合SR与策略集合SB中任意一对行为决策策略对应的第一无人机的支付值和第二无人机的支付值,从而生成第一无人机和第二无人机博弈的双矩阵F。具体地,生成第一无人机和第二无人机博弈的双矩阵F可以采用公式(18)表示:
Figure BDA0002020497950000147
其中,
Figure BDA0002020497950000148
为第一无人机和第二无人机分别执行行为决策策略
Figure BDA0002020497950000149
Figure BDA00020204979500001410
后第一无人机的支付值、第二无人机的支付值。
在步骤S50中,基于双方无人机博弈的双矩阵F,计算无人机双方行为决策的最优方案;
在步骤S60中,基于所述第一无人机行为决策的最优方案,选择所述第一无人机的行为策略。
另一方面,本发明还提供一种对抗环境下无人机智能决策的纳什均衡博弈系统,该纳什均衡博弈系统可以包括处理器,处理器用于执行上述任一的纳什均衡博弈方法。对于该处理器,可以是例如通用处理器、专用处理器、常规处理器、数字信号处理器(DSP)、多个微处理器、与DSP核心相关联的一个或多个微处理器、控制器、微控制器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)电路、任何其它类型的集成电路(IC)、状态机、系统级芯片(SOC)等。
通过上述技术方案,本发明提供的对抗环境下无人机智能决策的纳什均衡博弈方法及系统通过将无人机的攻击行为决策策略、防御行为决策策略纳入无人机的决策策略中,相对于现有技术中的决策方法,提高了无人机行为决策的有效性。
以上结合附图详细描述了本发明例的可选实施方式,但是,本发明实施方式并不限于上述实施方式中的具体细节,在本发明实施方式的技术构思范围内,可以对本发明实施方式的技术方案进行多种简单变型,这些简单变型均属于本发明实施方式的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明实施方式对各种可能的组合方式不再另行说明。
本领域技术人员可以理解实现上述实施方式方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个(可以是单片机,芯片等)或处理器(processor) 执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
此外,本发明实施方式的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明实施方式的思想,其同样应当视为本发明实施方式所公开的内容。

Claims (7)

1.一种对抗环境下无人机智能决策的纳什均衡博弈方法,所述智能决策包括行为决策,其特征在于,所述纳什均衡博弈方法包括:
分别获取第一无人机和第二无人机行为决策时的状态信息,生成所述第一无人机和所述第二无人机行为决策时的状态向量XR、XB
分析所述第一无人机和所述第二无人机在行为决策时不同类型的典型行为,建立所述第一无人机和所述第二无人机的行为决策策略集合SR、SB
基于证据理论融合方法,将所述第一无人机和所述第二无人机执行不同类型行为决策策略时的攻击有效性影响因素进行融合,设计所述第一无人机和所述第二无人机不同行为决策策略的支付函数;
基于所述第一无人机和所述第二无人机行为决策时的状态向量XR、XB,根据设计的所述第一无人机和所述第二无人机行为决策策略的支付函数计算行为决策策略集合SR与行为决策策略集合SB中任意一对行为决策策略对应的所述第一无人机的支付值和所述第二无人机的支付值,从而生成所述第一无人机和所述第二无人机博弈的双矩阵F;
基于所述第一无人机和所述第二无人机博弈的双矩阵F,计算无人机双方行为决策的最优方案;
基于所述第一无人机行为决策的最优方案,选择所述第一无人机的行为决策策略;
所述纳什均衡博弈方法进一步包括:
基于证据理论融合方法,在所述第一无人机执行机动行为决策策略,所述第二无人机执行行为决策策略时,所述第一无人机的支付值
Figure FDA0003494761160000011
由公式(1)所示的支付函数计算可得:
Figure FDA0003494761160000012
其中,
Figure FDA0003494761160000021
为由预设的态势优势函数计算所述第一无人机执行机动行为决策策略
Figure FDA0003494761160000022
所述第二无人机执行行为决策策略
Figure FDA0003494761160000023
后,所述第一无人机对所述第二无人机的态势优势值;
Figure FDA0003494761160000024
为预设的证据理论融合算子;pB为由预设的方法计算的所述第二无人机执行攻击行为决策策略时的导弹攻击命中概率;
在所述第二无人机执行机动行为决策策略,所述第一无人机执行行为决策策略时,所述第二无人机的支付值
Figure FDA0003494761160000025
由公式(2)所示的支付函数计算可得:
Figure FDA0003494761160000026
其中
Figure FDA0003494761160000027
为由预设的态势优势函数计算所述第二无人机执行机动行为决策策略
Figure FDA0003494761160000028
所述第一无人机执行行为决策策略
Figure FDA0003494761160000029
后,所述第二无人机对所述第一无人机的态势优势值;
Figure FDA00034947611600000210
为预设的证据理论融合算子;pR为由预设的方法计算的所述第一无人机执行攻击行为决策策略时的导弹攻击命中概率。
2.根据权利要求1所述的纳什均衡博弈方法,其特征在于,所述纳什均衡博弈方法进一步包括:
所述第一无人机与所述第二无人机在行为决策时的状态向量XR、XB采用下式表示:
XR=(xR,yR,zR,vRRR),XB=(xB,yB,zB,vBBB);
其中,xR,yR,zR、xB,yB,zB分别为第一无人机与第二无人机行为决策时相对于地面坐标系的位置坐标,vR、vB分别表示第一无人机与第二无人机行为决策时的速度标量,θR、θB分别为第一无人机与第二无人机行为决策时相对于地面坐标系的俯仰角;ψR、ψB分别表示第一无人机与第二无人机行为决策时相对于地面坐标系的航迹偏转角。
3.根据权利要求1所述的纳什均衡博弈方法,其特征在于,所述纳什均衡博弈方法进一步包括:
分析无人机在行为决策时不同类型的典型行为,将无人机的行为决策策略划分为三类七种,分别为机动行为决策策略、攻击行为决策策略和防御行为决策策略;其中,所述机动行为决策策略包括保持飞行状态不变、左转、右转、爬升、俯冲;所述攻击行为决策策略为发射导弹;所述防御行为决策策略为发射干扰弹;进而生成所述第一无人机与所述第二无人机的行为决策策略集合SR、SB,SR、SB采用下式表示:
Figure FDA0003494761160000031
Figure FDA0003494761160000032
其中,
Figure FDA0003494761160000033
表示所述第一无人机和所述第二无人机飞行状态不变行为决策策略,
Figure FDA0003494761160000034
表示所述第一无人机和所述第二无人机左转行为决策策略,
Figure FDA0003494761160000035
表示所述第一无人机和所述第二无人机右转行为决策策略,
Figure FDA0003494761160000036
表示所述第一无人机和所述第二无人机爬升行为决策策略,
Figure FDA0003494761160000037
表示所述第一无人机和所述第二无人机俯冲行为决策策略,
Figure FDA0003494761160000038
表示所述第一无人机和所述第二无人机发射导弹行为决策策略,
Figure FDA0003494761160000039
表示所述第一无人机和所述第二无人机发射干扰弹行为决策策略,所述第一无人机的第i个行为策略由
Figure FDA00034947611600000310
表示,所述第二无人机的第j个行为策略由
Figure FDA00034947611600000311
表示。
4.根据权利要求1所述的纳什均衡博弈方法,其特征在于,所述纳什均衡博弈方法进一步包括:
在所述第一无人机执行攻击行为决策策略,所述第二无人机执行行为决策策略时,所述第一无人机的支付值
Figure FDA00034947611600000312
由公式(3)所示的支付函数计算可得:
Figure FDA0003494761160000041
其中,
Figure FDA0003494761160000042
为由预设的态势优势函数计算所述第一无人机执行攻击行为决策策略
Figure FDA0003494761160000043
所述第二无人机执行行为决策策略
Figure FDA0003494761160000044
后,所述第一无人机对所述第二无人机的态势优势值;
Figure FDA0003494761160000045
为预设的证据理论融合算子;pR为由预设的方法计算的所述第一无人机执行攻击行为决策策略时的导弹攻击命中概率,pB为由预设的方法计算的所述第二无人机执行攻击行为决策策略的导弹攻击命中概率;εB为预设的所述第二无人机执行防御行为决策策略时的干扰弹干扰成功概率;
在所述第二无人机执行攻击行为决策策略,所述第一无人机执行行为决策策略,所述第二无人机的支付值
Figure FDA0003494761160000046
由公式(4)所示的支付函数计算可得:
Figure FDA0003494761160000047
其中,
Figure FDA0003494761160000048
为由预设的态势优势函数计算所述第二无人机执行攻击行为决策策略
Figure FDA0003494761160000049
所述第一无人机执行行为决策策略
Figure FDA00034947611600000410
后,所述第二无人机对所述第一无人机的态势优势值;
Figure FDA00034947611600000411
为预设的证据理论融合算子;pR为由预设方法计算的所述第一无人机执行攻击行为决策策略时的导弹攻击命中概率,pB为由预设方法计算的所述第二无人机执行攻击行为决策策略时的导弹攻击命中概率;εR为预设的所述第一无人机执行防御行为决策策略时的干扰弹干扰成功概率。
5.根据权利要求1所述的纳什均衡博弈方法,其特征在于,所述纳什均衡博弈方法进一步包括:
在所述第一无人机执行的防御行为决策策略,所述第二无人机执行行为决策策略时,所述第一无人机的支付值
Figure FDA0003494761160000051
由公式(5)所示的支付函数计算可得:
Figure FDA0003494761160000052
其中,
Figure FDA0003494761160000053
为由预设的态势优势函数计算所述第一无人机执行防御行为决策策略
Figure FDA0003494761160000054
所述第二无人机执行行为决策策略
Figure FDA0003494761160000055
后,所述第一无人机对所述第二无人机的态势优势值;
Figure FDA0003494761160000056
为预设的证据理论融合算子;pB为由预设的方法计算的所述第二无人机执行攻击行为决策策略时的导弹攻击命中概率;εR为预设的所述第一无人机执行防御行为决策策略时的干扰弹干扰成功概率;
在所述第二无人机执行防御行为决策策略,所述第一无人机执行行为决策策略,所述第二无人机的支付值
Figure FDA0003494761160000057
由公式(6)所示的支付函数计算可得:
Figure FDA0003494761160000058
其中,
Figure FDA0003494761160000059
为由预设的态势优势函数计算所述第二无人机执行防御行为决策策略
Figure FDA00034947611600000510
所述第一无人机执行行为决策策略
Figure FDA00034947611600000511
后,所述第二无人机对所述第一无人机的态势优势值;
Figure FDA00034947611600000512
为预设的证据理论融合算子;pR为由预设的方法计算的所述第一无人机执行攻击行为决策策略时的导弹攻击命中概率;εB为预设的所述第二无人机执行防御行为决策策略时的干扰弹干扰成功概率。
6.根据权利要求1所述的纳什均衡博弈方法,其特征在于,生成所述第一无人机和所述第二无人机博弈的双矩阵F采用公式(7)表示:
Figure FDA0003494761160000061
其中,
Figure FDA0003494761160000062
为所述第一无人机和所述第二无人机分别执行行为决策策略
Figure FDA0003494761160000063
后所述第一无人机的支付值、所述第二无人机的支付值。
7.一种对抗环境下无人机智能决策的纳什均衡博弈系统,其特征在于,所述纳什均衡矩阵博弈系统包括处理器,所述处理器用于执行如权利要求1至6任一所述的纳什均衡博弈方法。
CN201910277475.8A 2019-04-08 2019-04-08 对抗环境下无人机智能决策的纳什均衡博弈方法及系统 Active CN110134138B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910277475.8A CN110134138B (zh) 2019-04-08 2019-04-08 对抗环境下无人机智能决策的纳什均衡博弈方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910277475.8A CN110134138B (zh) 2019-04-08 2019-04-08 对抗环境下无人机智能决策的纳什均衡博弈方法及系统

Publications (2)

Publication Number Publication Date
CN110134138A CN110134138A (zh) 2019-08-16
CN110134138B true CN110134138B (zh) 2022-06-21

Family

ID=67569504

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910277475.8A Active CN110134138B (zh) 2019-04-08 2019-04-08 对抗环境下无人机智能决策的纳什均衡博弈方法及系统

Country Status (1)

Country Link
CN (1) CN110134138B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112612298B (zh) * 2020-11-27 2023-06-09 合肥工业大学 对抗环境下多无人机战术决策的多目标博弈方法及装置
CN112612300B (zh) * 2020-11-27 2023-06-09 合肥工业大学 多平台智能决策的多目标博弈方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832850A (zh) * 2017-10-27 2018-03-23 合肥工业大学 对抗环境下无人机占位决策的矩阵博弈方法及装置
CN108680063A (zh) * 2018-05-23 2018-10-19 南京航空航天大学 一种针对大规模无人机集群动态对抗的决策方法
CN109508042A (zh) * 2019-01-30 2019-03-22 合肥工业大学 用于无人机编队智能决策的控制方法、系统及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10565329B2 (en) * 2014-06-30 2020-02-18 Evolving Machine Intelligence Pty Ltd System and method for modelling system behaviour
CN105427032A (zh) * 2015-11-09 2016-03-23 河海大学 一种无人机对抗决策评估方法
CN109460056B (zh) * 2018-11-06 2021-12-24 哈尔滨工程大学 基于量子磷虾群演化机制的无人机集群作战博弈决策方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832850A (zh) * 2017-10-27 2018-03-23 合肥工业大学 对抗环境下无人机占位决策的矩阵博弈方法及装置
CN108680063A (zh) * 2018-05-23 2018-10-19 南京航空航天大学 一种针对大规模无人机集群动态对抗的决策方法
CN109508042A (zh) * 2019-01-30 2019-03-22 合肥工业大学 用于无人机编队智能决策的控制方法、系统及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Approach for air-air confrontment based on uncertain interval information conditions;Li Qiuni 等;《Journal of Systems Engineering and Electronics》;20190228;第30卷(第1期);第100-109页 *
大数据环境下双层分布式融合决策方法;杜元伟 等;《中国管理科学》;20160531;第24卷(第5期);第127-138页 *

Also Published As

Publication number Publication date
CN110134138A (zh) 2019-08-16

Similar Documents

Publication Publication Date Title
US11669110B2 (en) Control system based on multi-unmanned aerial vehicle cooperative strategic confrontation
Garcia et al. Design and analysis of state-feedback optimal strategies for the differential game of active defense
CN110058608B (zh) 多无人机协同对抗的控制方法、系统及存储介质
CN113791634A (zh) 一种基于多智能体强化学习的多机空战决策方法
US9030347B2 (en) Preemptive signature control for vehicle survivability planning
CN110134138B (zh) 对抗环境下无人机智能决策的纳什均衡博弈方法及系统
CN110134139B (zh) 一种对抗环境下无人机编队的战术决策方法和装置
CN110928329A (zh) 一种基于深度q学习算法的多飞行器航迹规划方法
Klare Autonomous weapons systems and the laws of war
US8831793B2 (en) Evaluation tool for vehicle survivability planning
Guitton Fighting the locusts: Implementing military countermeasures against drones and drone swarms
CN108427286A (zh) 用于强对抗环境下无人机深度决策的训练方法及训练网络
Lele et al. Artificial intelligence (AI)
CN114638339A (zh) 基于深度强化学习的智能体任务分配方法
CN113435598A (zh) 知识驱动下的兵棋推演智能决策方法
CN113159266A (zh) 基于麻雀搜索神经网络的空战机动决策方法
Beard The principle of proportionality in an era of high technology
CN114357742A (zh) 一种干扰机配合下的多机空中突击协同行为模拟方法
CN116661496B (zh) 一种基于智能算法的多巡飞弹协同航迹规划方法
CN114548674B (zh) 面向多智能体对抗场景的威胁态势评估方法、装置及设备
CN116360500A (zh) 一种摆脱距离可控的导弹突防方法
CN114357741A (zh) 一种电子干扰掩护下的多机空战协同行为模拟方法
CN116796521B (zh) 水面战斗群对抗战模拟方法、装置、电子设备及存储介质
Yuksek et al. Development of UCAV fleet autonomy by reinforcement learning in a wargame simulation environment
CN116068889B (zh) 一种巡飞弹的饱和攻击方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant