CN107832850B - 对抗环境下无人机占位决策的矩阵博弈方法及装置 - Google Patents
对抗环境下无人机占位决策的矩阵博弈方法及装置 Download PDFInfo
- Publication number
- CN107832850B CN107832850B CN201711027337.1A CN201711027337A CN107832850B CN 107832850 B CN107832850 B CN 107832850B CN 201711027337 A CN201711027337 A CN 201711027337A CN 107832850 B CN107832850 B CN 107832850B
- Authority
- CN
- China
- Prior art keywords
- unmanned plane
- occupy
- red
- place decision
- kth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/042—Backward inferencing
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/0088—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
Abstract
本发明提供了一种对抗环境下无人机占位决策的矩阵博弈方法及装置。该方法包括:分别获取红方无人机和蓝方无人机在第k次占位决策的状态信息及对应的初始状态向量;对双方在第k+1次占位决策的策略空间离散化处理,生成双方在第k+1次占位决策的策略集合;计算双方策略集合中任意一对策略对应的支付值生成双方在第k+1次占位决策的博弈矩阵;计算双方在第k+1次占位决策的最优方案;计算双方的有效攻击范围;若进入有效攻击范围,则结束本次占位决策过程;否则,将第k+1次占位决策的策略方案作为下一次占位决策的初始状态值,进入下一次占位决策。本发明可以快速得到无人机双方在对抗过程中同一时刻的最优机动动作,提高占位决策的精确度及适应程度。
Description
技术领域
本发明涉及智能决策领域,尤其涉及一种对抗环境下无人机占位决策的矩阵博弈方法及装置。
背景技术
在一对一无人机空战场景下,两架无人机之间的对抗包括占位和攻击两个方面。现有的一对一空战占位问题的解决方法通常考虑无人机的基本动作,即首先将无人机的机动动作作为策略,其次获取某个机动动作之后无人机双方之间的对抗态势计算双方的支付函数值,再次构建相应的博弈矩阵并对该博弈矩阵进行求解,最后得到无人机双方的最优机动。
然而,无人机的现有机动动作都是参照有人机而飞出来的,这些机动动作不仅具有局限性,而且基于现有机动动作构造出来的策略空间也不完全适用于无人机。并且,无人机的机动动作具有不同的完成时间,不能准确估计下一刻无人机的位置,故得到支付值不一定是同一时刻对应的优势值。
发明内容
针对现有技术中的缺陷,本发明提供了一种对抗环境下无人机占位决策的矩阵博弈方法及装置,用于解决现有技术中无人机的机动动作不完全适用于无人机,且无人机双方的机动动作完成时间不同而引起的支付值对应时刻不同的问题。
第一方面,本发明实施例提供了一种对抗环境下无人机占位决策的矩阵博弈方法,包括:
分别获取红方无人机和蓝方无人机在第k次占位决策时的状态信息,生成所述红方无人机与所述蓝方无人机在第k次占位决策的初始状态向量k为正整数;
基于所述红方无人机和所述蓝方无人机的初始状态向量分别对所述红方无人机和所述蓝方无人机在第k+1次占位决策的策略空间进行离散化处理,得到所述红方无人机和所述蓝方无人机在第k+1 次占位决策的策略集合
利用预设的支付函数计算所述策略集合与所述策略集合中任意一对策略对应的支付值,生成所述红方无人机和所述蓝方无人机在k+1次占位决策的博弈矩阵;
基于无人机双方的博弈矩阵计算无人机双方在第k+1次占位决策的最优方案;
根据所述第k+1次占位决策的最优方案计算所述无人机双方的有效攻击范围;
若所述红方无人机进入所述蓝方无人机的有效攻击范围或所述蓝方无人机进入所述红方无人机的有效攻击范围,则结束本次占位决策过程;否则,将所述无人机双方在第k+1次占位决策的最优策略方案作为下一次占位决策的初始状态值,进入下一次占位决策过程。
可选地,所述红方无人机与所述蓝方无人机在第k次占位决策的初始状态向量采用下式表示:
其中,分别表示红方无人机与蓝方无人机第k次占位决策时相对于地面坐标系的俯仰角;分别表示红方无人机与蓝方无人机第k次占位决策时相对于地面坐标系的航迹偏转角;为分别为红方无人机与蓝方无人机第k次占位决策时相对于地面坐标系的位置坐标。
可选地,分别离散化所述红方无人机和所述蓝方无人机在第k+1次占位决策时动力学约束下的俯仰角的变化范围;
其中,所述红方无人机和所述蓝方无人机的俯仰角的变化范围为 [θRmin,θRmax]、[θBmin,θBmax],红方无人机俯仰角的离散度为LR、蓝方无人机俯仰角的离散度为LB,且LR与LB为正偶数,则俯仰角的离散步长为
红方无人机和蓝方无人机在第k+1次占位决策时俯仰角的取值如下:
可选地,分别离散化所述红方无人机和所述蓝方无人机在第k+1次占位决策时动力学约束下的航迹偏转角的变化范围;
其中,所述红方无人机和所述蓝方无人机的航迹偏转角的变化范围为[ψRmin,ψRmax]、[ψBmin,ψBmax],红方无人机航迹偏转角的离散度为MR、蓝方无人机航迹偏转角的离散度为MB,且MR与MB为正偶数,则航迹偏转角的离散步长为
红方无人机和蓝方无人机在第k+1次占位决策时航迹偏转角的取值如下:
可选地,所述红方无人机和所述蓝方无人机在k+1次的占位决策的策略集合采用下式表示:
其中,分别表示红方无人机和蓝方无人机在k+1次可以到达的状态的集合;VR、VB分别表示红方无人机和蓝方无人机的飞行速度;T为红方无人机和蓝方无人机进行第k次占位决策和第k+1次占位决策的时间间隔。
第二方面,本发明实施例提供了一种对抗环境下无人机占位决策的矩阵博弈装置,所述装置包括:
状态向量生成模块,用于分别获取红方无人机和蓝方无人机在第k 次占位决策时的状态信息,生成所述红方无人机与所述蓝方无人机在第k次占位决策的初始状态向量k为正整数;
策略集合获取模块,用于基于所述红方无人机和所述蓝方无人机的初始状态向量分别对所述红方无人机和所述蓝方无人机在第k+1次占位决策的策略空间进行离散化处理,得到所述红方无人机和所述蓝方无人机在第k+1次占位决策的策略集合
博弈矩阵生成模块,用于利用预设的支付函数计算所述策略集合与所述策略集合中任意一对策略对应的支付值,生成所述红方无人机和所述蓝方无人机在k+1次占位决策的博弈矩阵;
最优方案计算模块,用于基于无人机双方的博弈矩阵计算无人机双方在第k+1次占位决策的最优方案;
有效攻击范围模块,用于根据所述第k+1次占位决策的最优方案计算所述无人机双方的有效攻击范围;
判断模块,用于在所述红方无人机进入所述蓝方无人机的有效攻击范围或所述蓝方无人机进入所述红方无人机的有效攻击范围时,结束本次占位决策过程;否则,将所述无人机双方在第k+1次占位决策的最优策略方案作为下一次占位决策的初始状态值,进入下一次占位决策过程。
可选地,所述状态向量生成模块中采用下式表示所述红方无人机与所述蓝方无人机在第k次占位决策的初始状态向量
其中,分别表示红方无人机与蓝方无人机第k次占位决策时相对于地面坐标系的俯仰角;分别表示红方无人机与蓝方无人机第k次占位决策时相对于地面坐标系的航迹偏转角;为分别为红方无人机与蓝方无人机第k次占位决策时相对于地面坐标系的位置坐标。
可选地,所述策略集合获取模块采用下式表示所述红方无人机和所述蓝方无人机在k+1次的占位决策的策略集合
所述红方无人机和所述蓝方无人机的俯仰角的变化范围为 [θRmin,θRmax]、[θBmin,θBmax],红方无人机俯仰角的离散度为LR、蓝方无人机俯仰角的离散度为LB,且LR与LB为正偶数,则俯仰角的离散步长为
红方无人机和蓝方无人机在第k+1次占位决策时俯仰角的取值如下:
可选地,所述策略集合获取模块分别离散化所述红方无人机和所述蓝方无人机在第k+1次占位决策时动力学约束下的航迹偏转角的变化范围;
其中,所述红方无人机和所述蓝方无人机的航迹偏转角的变化范围为[ψRmin,ψRmax]、[ψBmin,ψBmax],红方无人机航迹偏转角的离散度为MR、蓝方无人机航迹偏转角的离散度为MB,且MR与MB为正偶数,则航迹偏转角的离散步长为
红方无人机和蓝方无人机在第k+1次占位决策时航迹偏转角的取值如下:
可选地,所述策略集合构建模块还用于:
所述红方无人机和所述蓝方无人机在第k+1次的占位决策的策略集合采用下式表示:
其中,分别表示红方无人机和蓝方无人机在k+1次可以到达的状态的集合;VR、VB分别表示红方无人机和蓝方无人机的飞行速度;T为红方无人机和蓝方无人机进行第k次占位决策和第k+1次占位决策的时间间隔。
可见,本发明实施例通过策略划分方法,可以确定博弈矩阵中的支付值对应同一时刻无人机双方对抗的优势,即可以得到无人机双方在同一时刻完成机动动作后对应的支付值,从而使无人机双方能够准确占位或者攻击,提高占位决策的精确度。另外,本发明实施例中策略划分方法可以考虑到无人机的动力学约束情况,获取有限的策略集合,从而使该占位决策方法更适合无人机的机动动作,提高占位策略的适应程度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1为本发明实施例提供的对抗环境下无人机占位决策的矩阵博弈方法的方法流程示意图;
图2为本发明一实施例中无人机在第k次的策略划分示意图;
图3为本发明一实施例中得到的博弈矩阵;
图4为本发明实施例提供的对抗环境下无人机占位决策的矩阵博弈装置的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明一实施例提供的对抗环境下无人机占位决策的矩阵博弈方法的方法流程示意图。参见图1,该方法包括:
101,分别获取红方无人机和蓝方无人机在第k次占位决策时的状态信息,生成所述红方无人机与所述蓝方无人机在第k次占位决策的初始状态向量k为正整数;
102,基于所述红方无人机和所述蓝方无人机的初始状态向量 分别对所述红方无人机和所述蓝方无人机在第k+1次占位决策的策略空间进行离散化处理,得到所述红方无人机和所述蓝方无人机在第k+1次占位决策的策略集合
103,利用预设的支付函数计算所述策略集合与所述策略集合中任意一对策略对应的支付值,生成所述红方无人机和所述蓝方无人机在k+1次占位决策的博弈矩阵;
104,基于无人机双方的博弈矩阵计算无人机双方在第k+1次占位决策的最优方案;
105,根据所述第k+1次占位决策的最优方案计算所述无人机双方的有效攻击范围;
106,若所述红方无人机进入所述蓝方无人机的有效攻击范围或所述蓝方无人机进入所述红方无人机的有效攻击范围,则结束本次占位决策过程;否则,将所述无人机双方在第k+1次占位决策的最优策略方案作为下一次占位决策的初始状态值,进入下一次占位决策过程。
可见,本发明实施例通过策略划分方法可以得到无人机双方的策略集合,可以确定同一时刻无人机双方在不同策略情况下对抗的优势即博弈矩阵中的支付值,从而使无人机双方能够准确占位或者攻击,提高占位决策的精确度。另外,本发明实施例中策略划分方法可以考虑到无人机的动力学约束情况,获取有限的策略集合,从而使该占位决策方法更适合无人机的机动动作,提高占位策略的适应程度。
本发明实施例提供的对抗环境下无人机占位决策的矩阵博弈方法可以应用于一对一对抗环境下的无人机中。在对抗环境中,无人机双方可以包括红方(我方)和蓝方(对方),由于无人机双方的占位决策过程相同,下面仅以红方为例,结合附图和实施例对本发明实施例提供的矩阵博弈方法各步骤作详细描述。
首先,介绍101,分别获取红方无人机和蓝方无人机在第k次占位决策时的状态信息,生成所述红方无人机与所述蓝方无人机在第k次占位决策的初始状态向量的步骤。
红方无人机可以直接读取自身的状态信息,还可以通过传感设备获取与对方无人机的相对位置、俯仰角、航迹偏转角等参数的状态信息。
在一实施例中,假设红方无人机(后续公式中采用字母R表示)和蓝方无人机(后续公式中采用字母B表示)的飞行速度为V,且飞行过程中飞行速度大小不变),占位决策时间间隔为T。在不考虑无人机的自身动力学约束以及将无人机视为质点的情况下,无人机下一步可能到达的位置为以无人机(视为质点)为中心、飞行步长为半径的球面上的任意一点,即无人机下一步可以到达的位置为球面上所有的点构成的集合。
实际应用中,红方无人机会受到自身的动力学约束,即受到最小转弯半径、俯仰角和/或航迹偏航角的约束。在考虑红方无人机受到动力学约束的情况下,无人机下一步可能到达的位置的集合为以无人机为中心的球面的一部分,如图2所示。其中,球体的半径为红方无人机的飞行速度和占位决策时间间隔的乘积,是一个拥有无限策略的连续集合。本实施例中策略划分方法将这个无限策略的连续集合转化为有限的、离散的策略集合。
其次,介绍102,基于所述红方无人机和所述蓝方无人机的初始状态向量分别对所述红方无人机和所述蓝方无人机在第k+1次占位决策的策略空间进行离散化处理,得到所述红方无人机和所述蓝方无人机在第k+1次占位决策的策略集合的步骤。
在一实施例中,红方无机的策略集合的构建步骤如下:
1)红方无人机在某一时刻k的状态为其中,为红方在第k次的俯仰角,为红方在第i次的航迹偏转角,为红方在第k次的位置坐标。由于动力学约束,无人机的俯仰角和航迹偏转角不可能瞬时无限改变,会有一个范围,确定红方俯仰角可以改变的范围(θRmin,θRmax),航迹偏转角可以改变的范围(ψRmin,ψRmax),确定红方俯仰角的离散度为LR,航迹偏转角的离散度为MR。则可以确定红方无人机的俯仰角步长为航迹偏转角步长为即红方每次偏转俯仰角和航迹偏转角的角度大小。例如,红方无人机的俯仰角的变化范围为(-60°,60°),离散度LR为4,那么每次无人机每次可以改变的俯仰角角度为30°。
2)获得红方无人机在第k次的状态信息,即通过步骤1)中所得到的俯仰角及俯仰角步长、航迹偏转角及航迹偏转角步长和红方无人机在第k次的状态信息。然后,本实施例中通过以下策略划分方法(参见公式(1))可以得到红方无人机在第k+1次的策略集合。
公式(1)如下所示:
红方无人机在第k+1次的状态集合为:
蓝方无人机的策略集合的构建方法与红方无人机的策略集合相同,在此不再赘述。
再次,介绍103,利用预设的支付函数计算所述策略集合与所述策略集合中任意一对策略对应的支付值,生成所述红方无人机和所述蓝方无人机在第k+1次占位决策的博弈矩阵的步骤。
本实施例中通过支付函数计算红方无人机在第k+1次采用策略集合中每个策略且蓝方无人机在采用每个策略时对应的支付值,该策略集合中所有策略的支付值可以构成博弈矩阵。
本发明一实施例中,假设红方无人机和蓝方无人机具有一致的作战能力以及相同的飞行速度,即只考虑无人机双方的飞行高度、相对角度、飞行距离这三个方面给无人机对抗间的优势带来的影响。
红方无人机和蓝方无人机对抗的高度优势函数、角度优势函数和距离优势函数如下:
(1)高度优势函数如公式(2)所示:
z0为最佳飞行高度;为在k+1次R与B的高度。
(2)角度优势函数如公式(3)所示:
为在第k+1次无人机双方的方位角和离去角;为第k+1 次无人机双方的距离。
(3)距离优势函数如公式(4)所示:
公式(4)中,DRmax为雷达最大搜索距离,DMmax为导弹最大攻击距离,DMKmax为导弹不可逃逸区最大距离,DMKmin为导弹不可逃逸区最小距离。
基于上述公式(2)、(3)和(4)构造支付函数如公式(5)所示:
其中,α1,α2,β1,β2分别为权重系数,且α1+α2=1,β1+β2=1。
在一实施例中,红方无人机在第k次的状态信息为(0,0,0,0,10000),蓝方无人机在第k次的状态信息为(0,180,30000,40000,12000),角度单位为度,位置坐标单位为米。
红方无人和蓝方无人机的飞行速度为V=300m/s,飞行时间T=2s。航迹偏转角的变化范围(-60°,60°),俯仰角变化范围(-30°,30°),俯仰角的离散度为2,航迹偏转角的离散度为4,即控制量 uRθ1=uBθ1={-1,0,1},uRψ2=uBψ2={-2,-1,0,1,2},故角度步长θ0,ψ0为30 度和30度。
导弹攻击区远边界DMKmax为50000m,导弹攻击区近边界DMKmin为 20000m,导弹最大攻击距离DMmax为60000m,雷达最大搜索距离DRmax为 80000m;最佳作战高度z0为10000m。
取权重α1=0.6,α2=0.4,β1=0.5,β2=0.5,得到支付函数如下:
根据无人机双方的策略集合以及双方博弈的支付函数,得到无人机双方之间的一次完全信息静态博弈的博弈矩阵。在计算无人机双方在第k+1次相对状态的支付函数值时,需要分别输入第k+1次红方无人机和蓝方无人机的状态信息,由前面对无人机的策略划分方法可知,影响支付函数值的变量为红方无人机和蓝方无人机的俯仰角和航迹偏转角的取值。
记第k+1次的博弈矩阵为基于固定的飞行角度构造的策略空间构造博弈矩阵如公式(6)所示:
第四,介绍104,基于无人机双方的博弈矩阵计算无人机双方在第 k+1次占位决策的最优方案的步骤。
本发明一实施例中,为获取最优策略,可以利用诸如粒子群优化算法的方法来对博弈矩阵进行求解,从而得到最优解即最优策略。由于粒子群优化算法为现有技术,在此不作详细说明。
可理解的是,本发明实施例中得到博弈矩阵的最优策略可以得到当前状态下无人机的最优机动动作,可以得到占位的最大优势或者最小劣势。
第五,介绍105,根据所述第k+1次占位决策的最优方案计算所述无人机双方的有效攻击范围的步骤。
在一实施例中,根据最优策略和最优策略条件计算无人机双方的有效攻击区域。
以红方无人机为例,最优策略条件包括迎头攻击条件和尾后攻击条件;
迎头攻击条件包括:
V≤1.8Ma,60°≤αB≤300°,zR≤15km, 为红蓝双方的相对速度;
攻击区远边界为:
式中,a1=8.416,a2=331.82,a3=-2595.7,a4=42.2298,a5=-4.28096;
a6=-419.81,a7=480.449,a8=138.63,a9=-3.46974,a10=-21.6402
攻击区近边界为:
式中,a1=762.285,a2=23.324,a3=537.11,a4=42.2298,a5=-4.28096;
a6=0.40132,a7=0.053711,a8=-0.2957697
尾后攻击条件包括:V≤2.2Ma,-60°≤αB≤60°,zR≤20km
攻击区远边界为:
式中:a1=8889.43,a2=622.138,a3=-3525.655,a4=-7.48929,a5=3576.7;
a6=-373.23a7=99.69147,a8=-0.2957697
攻击区近边界为:
式中,a1=768.345,a2=27.2061,a3=2.25251,a4=917.752,a5=74.9165。
a6=-102.497,a7=0.392312,a8=0.0545163,a9=-1.4777
第六,介绍106,若所述红方无人机进入所述蓝方无人机的有效攻击范围或所述蓝方无人机进入所述红方无人机的有效攻击范围,则结束本次占位决策过程;否则,将所述无人机双方在第k+1次占位决策的最优策略方案作为下一次占位决策的初始状态值,进入下一次占位决策过程执行步骤101~106。
第二方面,本发明实施例还提供了一种对抗环境下无人机占位决策的矩阵博弈装置,如图4所示,所述装置包括:
状态向量生成模块401,用于分别获取红方无人机和蓝方无人机在第k次占位决策时的状态信息,生成所述红方无人机与所述蓝方无人机在第k次占位决策的初始状态向量k为正整数;
策略集合构建模块402,用于基于所述红方无人机和所述蓝方无人机的初始状态向量分别对所述红方无人机和所述蓝方无人机在第k+1次占位决策的策略空间进行离散化处理,得到所述红方无人机和所述蓝方无人机在第k+1次占位决策的策略集合
博弈矩阵构建模块403,用于利用预设的支付函数计算所述策略集合与所述策略集合中任意一对策略对应的支付值,生成所述红方无人机和所述蓝方无人机在第k+1次占位决策的博弈矩阵;
最优方案计算模块404,用于基于无人机双方的博弈矩阵计算无人机双方在第k+1次占位决策的最优方案;
有效攻击范围模块405,用于根据所述第k+1次占位决策的最优方案计算所述无人机双方的有效攻击范围;
判断模块406,用于在所述红方无人机进入所述蓝方无人机的有效攻击范围或所述蓝方无人机进入所述红方无人机的有效攻击范围时,结束本次占位决策过程;否则,将所述无人机双方在第k+1次占位决策的最优策略方案作为下一次占位决策的初始状态值,进入下一次占位决策过程。
可选地,所述状态向量生成模块401中采用下式表示所述红方无人机与所述蓝方无人机在第k次占位决策的初始状态向量
其中,分别表示红方无人机与蓝方无人机第k次占位决策时相对于地面坐标系的俯仰角;分别表示红方无人机与蓝方无人机第k次占位决策时相对于地面坐标系的航迹偏转角;为分别为红方无人机与蓝方无人机第k次占位决策时相对于地面坐标系的位置坐标。
可选地,所述策略集合构建模块402采用下式表示所述红方无人机和所述蓝方无人机在k+1次的占位决策的策略集合
所述红方无人机和所述蓝方无人机的俯仰角的变化范围为 [θRmin,θRmax]、[θBmin,θBmax],红方无人机俯仰角的离散度为LR、蓝方无人机俯仰角的离散度为LB,且LR与LB为正偶数,则俯仰角的离散步长为
红方无人机和蓝方无人机在第k+1次占位决策时俯仰角的取值如下:
可选地,所述策略集合构建模块402分别离散化所述红方无人机和所述蓝方无人机在第k+1次占位决策时动力学约束下的航迹偏转角的变化范围;
其中,所述红方无人机和所述蓝方无人机的航迹偏转角的变化范围为[ψRmin,ψRmax]、[ψBmin,ψBmax],红方无人机航迹偏转角的离散度为MR、蓝方无人机航迹偏转角的离散度为MB,且MR与MB为正偶数,则航迹偏转角的离散步长为
红方无人机和蓝方无人机在第k+1次占位决策时航迹偏转角的取值如下:
所述策略集合构建模块402还用于:
所述红方无人机和所述蓝方无人机在第k+1次的占位决策的策略集合采用下式表示:
其中,分别表示红方无人机和蓝方无人机在第k+1 次可以到达的状态的集合;VR、VB分别表示红方无人机和蓝方无人机的飞行速度;T为红方无人机和蓝方无人机进行第k次占位决策和第k+1 次占位决策的时间间隔。
需要说明的是,本发明实施例提供的对抗环境下无人机占位决策的矩阵博弈装置与上述方法是一一对应的关系,上述方法的实施细节同样适用于上述装置,本发明实施例不再对上述系统进行详细说明。
本发明的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在于该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是互相排斥之处,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器 (DSP)来实现根据本发明实施例的一种浏览器终端的设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
Claims (10)
1.一种对抗环境下无人机占位决策的矩阵博弈方法,其特征在于,所述方法包括通过计算机设备执行以下步骤:
分别获取红方无人机和蓝方无人机在第k次占位决策时的状态信息,生成所述红方无人机与所述蓝方无人机在第k次占位决策的初始状态向量k为正整数;
基于所述红方无人机和所述蓝方无人机的初始状态向量分别对所述红方无人机和所述蓝方无人机在第k+1次占位决策的策略空间进行离散化处理,得到所述红方无人机和所述蓝方无人机在第k+1次占位决策的策略集合
利用预设的支付函数计算所述策略集合与所述策略集合中任意一对策略对应的支付值,生成所述红方无人机和所述蓝方无人机在第k+1次占位决策的博弈矩阵;
基于无人机双方的博弈矩阵计算无人机双方在第k+1次占位决策的最优方案;
根据所述第k+1次占位决策的最优方案计算所述无人机双方的有效攻击范围;
若所述红方无人机进入所述蓝方无人机的有效攻击范围或所述蓝方无人机进入所述红方无人机的有效攻击范围,则结束本次占位决策过程;否则,将所述无人机双方在第k+1次占位决策的最优策略方案作为下一次占位决策的初始状态值,进入下一次占位决策过程。
2.根据权利要求1所述的矩阵博弈方法,其特征在于,所述红方无人机与所述蓝方无人机在第k次占位决策的初始状态向量采用下式表示:
其中,分别表示红方无人机与蓝方无人机第k次占位决策时相对于地面坐标系的俯仰角;分别表示红方无人机与蓝方无人机第k次占位决策时相对于地面坐标系的航迹偏转角;为分别为红方无人机与蓝方无人机第k次占位决策时相对于地面坐标系的位置坐标。
3.根据权利要求2所述的矩阵博弈方法,其特征在于,分别离散化所述红方无人机和所述蓝方无人机在第k+1次占位决策时动力学约束下的俯仰角的变化范围;
其中,所述红方无人机和所述蓝方无人机的俯仰角的变化范围为[θRmin,θRmax]、[θBmin,θBmax],红方无人机俯仰角的离散度为LR、蓝方无人机俯仰角的离散度为LB,且LR与LB为正偶数,则俯仰角的离散步长为
红方无人机和蓝方无人机在第k+1次占位决策时俯仰角的取值如下:
4.根据权利要求3所述的矩阵博弈方法,其特征在于,分别离散化所述红方无人机和所述蓝方无人机在第k+1次占位决策时动力学约束下的航迹偏转角的变化范围;
其中,所述红方无人机和所述蓝方无人机的航迹偏转角的变化范围为[ψRmin,ψRmax]、[ψBmin,ψBmax],红方无人机航迹偏转角的离散度为MR、蓝方无人机航迹偏转角的离散度为MB,且MR与MB为正偶数,则航迹偏转角的离散步长为
红方无人机和蓝方无人机在第k+1次占位决策时航迹偏转角的取值如下:
5.根据权利要求4所述的矩阵博弈方法,其特征在于,所述红方无人机和所述蓝方无人机在k+1次的占位决策的策略集合采用下式表示:
其中,分别表示红方无人机和蓝方无人机在第k+1次可以到达的状态的集合;VR、VB分别表示红方无人机和蓝方无人机的飞行速度;T为红方无人机和蓝方无人机进行第k次占位决策和第k+1次占位决策的时间间隔。
6.一种对抗环境下无人机占位决策的矩阵博弈装置,其特征在于,所述装置包括:
状态向量生成模块,用于通过计算机设备分别获取红方无人机和蓝方无人机在第k次占位决策时的状态信息,生成所述红方无人机与所述蓝方无人机在第k次占位决策的初始状态向量k为正整数;
策略集合获取模块,用于通过计算机设备基于所述红方无人机和所述蓝方无人机的初始状态向量分别对所述红方无人机和所述蓝方无人机在第k+1次占位决策的策略空间进行离散化处理,得到所述红方无人机和所述蓝方无人机在第k+1次占位决策的策略集合
博弈矩阵生成模块,用于通过计算机设备利用预设的支付函数计算所述策略集合与所述策略集合中任意一对策略对应的支付值,生成所述红方无人机和所述蓝方无人机在k+1次占位决策的博弈矩阵;
最优方案计算模块,用于通过计算机设备基于无人机双方的博弈矩阵计算无人机双方在第k+1次占位决策的最优方案;
有效攻击范围模块,用于通过计算机设备根据所述第k+1次占位决策的最优方案计算所述无人机双方的有效攻击范围;
判断模块,用于通过计算机设备在所述红方无人机进入所述蓝方无人机的有效攻击范围或所述蓝方无人机进入所述红方无人机的有效攻击范围时,结束本次占位决策过程;否则,将所述无人机双方在第k+1次占位决策的最优策略方案作为下一次占位决策的初始状态值,进入下一次占位决策过程。
7.根据权利要求6所述的矩阵博弈装置,其特征在于,所述状态向量生成模块中采用下式表示所述红方无人机与所述蓝方无人机在第k次占位决策的初始状态向量
其中,分别表示红方无人机与蓝方无人机第k次占位决策时相对于地面坐标系的俯仰角;分别表示红方无人机与蓝方无人机第k次占位决策时相对于地面坐标系的航迹偏转角;为分别为红方无人机与蓝方无人机第k次占位决策时相对于地面坐标系的位置坐标。
8.根据权利要求7所述的矩阵博弈装置,其特征在于,所述策略集合获取模块采用下式表示所述红方无人机和所述蓝方无人机在k+1次的占位决策的策略集合
所述红方无人机和所述蓝方无人机的俯仰角的变化范围为[θBmin,θBmax],红方无人机俯仰角的离散度为LR、蓝方无人机俯仰角的离散度为LB,且LR与LB为正偶数,则俯仰角的离散步长为
红方无人机和蓝方无人机在第k+1次占位决策时俯仰角的取值如下:
9.根据权利要求8所述的矩阵博弈装置,其特征在于,所述策略集合获取模块分别离散化所述红方无人机和所述蓝方无人机在第k+1次占位决策时动力学约束下的航迹偏转角的变化范围;
其中,所述红方无人机和所述蓝方无人机的航迹偏转角的变化范围为[ψRmin,ψRmax]、[ψBmin,ψBmax],红方无人机航迹偏转角的离散度为MR、蓝方无人机航迹偏转角的离散度为MB,且MR与MB为正偶数,则航迹偏转角的离散步长为
红方无人机和蓝方无人机在第k+1次占位决策时航迹偏转角的取值如下:
10.根据权利要求9所述的矩阵博弈装置,其特征在于,所述策略集合构建模块还用于:
所述红方无人机和所述蓝方无人机在第k+1次的占位决策的策略集合采用下式表示:
其中,分别表示红方无人机和蓝方无人机在第k+1次可以到达的状态的集合;VR、VB分别表示红方无人机和蓝方无人机的飞行速度;T为红方无人机和蓝方无人机进行第k次占位决策和第k+1次占位决策的时间间隔。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711027337.1A CN107832850B (zh) | 2017-10-27 | 2017-10-27 | 对抗环境下无人机占位决策的矩阵博弈方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711027337.1A CN107832850B (zh) | 2017-10-27 | 2017-10-27 | 对抗环境下无人机占位决策的矩阵博弈方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107832850A CN107832850A (zh) | 2018-03-23 |
CN107832850B true CN107832850B (zh) | 2018-10-23 |
Family
ID=61649847
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711027337.1A Active CN107832850B (zh) | 2017-10-27 | 2017-10-27 | 对抗环境下无人机占位决策的矩阵博弈方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107832850B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108427286B (zh) * | 2018-04-12 | 2021-06-01 | 合肥工业大学 | 用于强对抗环境下无人机深度决策的训练方法及训练网络 |
CN108549233B (zh) * | 2018-05-04 | 2021-04-16 | 南京航空航天大学 | 一种带有直觉模糊信息的无人机空战机动博弈方法 |
CN110058608B (zh) * | 2019-04-08 | 2022-06-10 | 合肥工业大学 | 多无人机协同对抗的控制方法、系统及存储介质 |
CN110134138B (zh) * | 2019-04-08 | 2022-06-21 | 合肥工业大学 | 对抗环境下无人机智能决策的纳什均衡博弈方法及系统 |
CN110443473B (zh) * | 2019-07-22 | 2021-10-26 | 合肥工业大学 | 对抗环境下多无人机协同目标分配方法及系统 |
CN110442146B (zh) * | 2019-07-22 | 2022-10-25 | 合肥工业大学 | 无人机编队目标分配与空间占位联合决策方法及系统 |
CN112068587B (zh) * | 2020-08-05 | 2021-09-03 | 北京航空航天大学 | 基于欧椋鸟通信机制的有人/无人机共融集群交互方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2360629A3 (en) * | 2005-05-07 | 2012-04-11 | Stephen L. Thaler | Device for the autonomous bootstrapping of useful information |
CN105427032A (zh) * | 2015-11-09 | 2016-03-23 | 河海大学 | 一种无人机对抗决策评估方法 |
CN105491330A (zh) * | 2015-11-25 | 2016-04-13 | 深圳市龙云创新航空科技有限公司 | 一种无人机及系统及其空中对战方法 |
CN105700555B (zh) * | 2016-03-14 | 2018-04-27 | 北京航空航天大学 | 一种基于势博弈的多无人机协同搜索方法 |
-
2017
- 2017-10-27 CN CN201711027337.1A patent/CN107832850B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN107832850A (zh) | 2018-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107832850B (zh) | 对抗环境下无人机占位决策的矩阵博弈方法及装置 | |
CN110069076B (zh) | 一种基于猛狼围捕行为的无人机集群空战方法 | |
US7599765B2 (en) | Dynamic guidance for close-in maneuvering air combat | |
CN106020215B (zh) | 一种基于单步预测矩阵博弈的近距空战自主决策方法 | |
Srinivasan | Visual control of navigation in insects and its relevance for robotics | |
US11189189B2 (en) | In-flight training simulation displaying a virtual environment | |
CN100583185C (zh) | 飞行模拟器 | |
CN109144102A (zh) | 一种基于改进蝙蝠算法的无人机航路规划方法 | |
US20110151955A1 (en) | Multi-player augmented reality combat | |
KR102042232B1 (ko) | 드론을 이용한 증강현실 인터렉티브 게임 컨텐츠의 제공 시스템 | |
CA2699524A1 (en) | System for applying tactile stimulation to the controller of unmanned vehicles | |
Walter et al. | UAV swarm control: Calculating digital pheromone fields with the GPU | |
JP2017099744A (ja) | プログラム及び画像生成システム | |
CN106075915A (zh) | 一种可以接收多个方向射击激光束的无人机空中对战装置 | |
CN108332773A (zh) | 用于控制运载器姿态显示的方法和装置 | |
CN105974948A (zh) | 一种基于卡尔曼滤波和ppm编码的无线头追设计方法 | |
US20230334788A1 (en) | Mixed-Reality Visor For In-Situ Vehicular Operations Training | |
JP2023517954A (ja) | マルチユーザ仮想および拡張現実のためのシステムおよび方法 | |
CN106950995A (zh) | 一种无人机飞行方法及系统 | |
CN113110110A (zh) | 一种用于导弹攻防对抗的半实物仿真系统及其实现方法 | |
Bachelder et al. | Estimating handling qualities ratings from slalom flight data: A psychophysical perspective | |
dos Santos et al. | Experimental framework for evaluation of guidance and control algorithms for UAVs | |
CN107065599A (zh) | 基于体感交互的轮式机器人运动仿真系统与方法 | |
CN113138604A (zh) | 一种反低小慢目标的无人机拦截方法 | |
KR20210117438A (ko) | 레이저 건을 활용한 드론 기반의 실내 서바이벌 게임 제공 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |