CN107832850B

CN107832850B - 对抗环境下无人机占位决策的矩阵博弈方法及装置

Info

Publication number: CN107832850B
Application number: CN201711027337.1A
Authority: CN
Inventors: 胡笑旋; 马滢滢; 罗贺; 马华伟; 雷星; 朱默宁; 夏维; 靳鹏
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2017-10-27
Filing date: 2017-10-27
Publication date: 2018-10-23
Anticipated expiration: 2037-10-27
Also published as: CN107832850A

Abstract

本发明提供了一种对抗环境下无人机占位决策的矩阵博弈方法及装置。该方法包括：分别获取红方无人机和蓝方无人机在第k次占位决策的状态信息及对应的初始状态向量；对双方在第k+1次占位决策的策略空间离散化处理，生成双方在第k+1次占位决策的策略集合；计算双方策略集合中任意一对策略对应的支付值生成双方在第k+1次占位决策的博弈矩阵；计算双方在第k+1次占位决策的最优方案；计算双方的有效攻击范围；若进入有效攻击范围，则结束本次占位决策过程；否则，将第k+1次占位决策的策略方案作为下一次占位决策的初始状态值，进入下一次占位决策。本发明可以快速得到无人机双方在对抗过程中同一时刻的最优机动动作，提高占位决策的精确度及适应程度。

Description

对抗环境下无人机占位决策的矩阵博弈方法及装置

技术领域

本发明涉及智能决策领域，尤其涉及一种对抗环境下无人机占位决策的矩阵博弈方法及装置。

背景技术

在一对一无人机空战场景下，两架无人机之间的对抗包括占位和攻击两个方面。现有的一对一空战占位问题的解决方法通常考虑无人机的基本动作，即首先将无人机的机动动作作为策略，其次获取某个机动动作之后无人机双方之间的对抗态势计算双方的支付函数值，再次构建相应的博弈矩阵并对该博弈矩阵进行求解，最后得到无人机双方的最优机动。

然而，无人机的现有机动动作都是参照有人机而飞出来的，这些机动动作不仅具有局限性，而且基于现有机动动作构造出来的策略空间也不完全适用于无人机。并且，无人机的机动动作具有不同的完成时间，不能准确估计下一刻无人机的位置，故得到支付值不一定是同一时刻对应的优势值。

发明内容

针对现有技术中的缺陷，本发明提供了一种对抗环境下无人机占位决策的矩阵博弈方法及装置，用于解决现有技术中无人机的机动动作不完全适用于无人机，且无人机双方的机动动作完成时间不同而引起的支付值对应时刻不同的问题。

第一方面，本发明实施例提供了一种对抗环境下无人机占位决策的矩阵博弈方法，包括：

分别获取红方无人机和蓝方无人机在第k次占位决策时的状态信息，生成所述红方无人机与所述蓝方无人机在第k次占位决策的初始状态向量k为正整数；

基于所述红方无人机和所述蓝方无人机的初始状态向量分别对所述红方无人机和所述蓝方无人机在第k+1次占位决策的策略空间进行离散化处理，得到所述红方无人机和所述蓝方无人机在第k+1 次占位决策的策略集合

利用预设的支付函数计算所述策略集合与所述策略集合中任意一对策略对应的支付值，生成所述红方无人机和所述蓝方无人机在k+1次占位决策的博弈矩阵；

基于无人机双方的博弈矩阵计算无人机双方在第k+1次占位决策的最优方案；

根据所述第k+1次占位决策的最优方案计算所述无人机双方的有效攻击范围；

若所述红方无人机进入所述蓝方无人机的有效攻击范围或所述蓝方无人机进入所述红方无人机的有效攻击范围，则结束本次占位决策过程；否则，将所述无人机双方在第k+1次占位决策的最优策略方案作为下一次占位决策的初始状态值，进入下一次占位决策过程。

可选地，所述红方无人机与所述蓝方无人机在第k次占位决策的初始状态向量采用下式表示：

其中，分别表示红方无人机与蓝方无人机第k次占位决策时相对于地面坐标系的俯仰角；分别表示红方无人机与蓝方无人机第k次占位决策时相对于地面坐标系的航迹偏转角；为分别为红方无人机与蓝方无人机第k次占位决策时相对于地面坐标系的位置坐标。

可选地，分别离散化所述红方无人机和所述蓝方无人机在第k+1次占位决策时动力学约束下的俯仰角的变化范围；

其中，所述红方无人机和所述蓝方无人机的俯仰角的变化范围为 [θ_Rmin,θ_Rmax]、[θ_Bmin,θ_Bmax]，红方无人机俯仰角的离散度为L_R、蓝方无人机俯仰角的离散度为L_B，且L_R与L_B为正偶数，则俯仰角的离散步长为

红方无人机和蓝方无人机在第k+1次占位决策时俯仰角的取值如下：

可选地，分别离散化所述红方无人机和所述蓝方无人机在第k+1次占位决策时动力学约束下的航迹偏转角的变化范围；

其中，所述红方无人机和所述蓝方无人机的航迹偏转角的变化范围为[ψ_Rmin,ψ_Rmax]、[ψ_Bmin,ψ_Bmax]，红方无人机航迹偏转角的离散度为M_R、蓝方无人机航迹偏转角的离散度为M_B，且M_R与M_B为正偶数，则航迹偏转角的离散步长为

红方无人机和蓝方无人机在第k+1次占位决策时航迹偏转角的取值如下：

可选地，所述红方无人机和所述蓝方无人机在k+1次的占位决策的策略集合采用下式表示：

其中，分别表示红方无人机和蓝方无人机在k+1次可以到达的状态的集合；V_R、V_B分别表示红方无人机和蓝方无人机的飞行速度；T为红方无人机和蓝方无人机进行第k次占位决策和第k+1次占位决策的时间间隔。

第二方面，本发明实施例提供了一种对抗环境下无人机占位决策的矩阵博弈装置，所述装置包括：

状态向量生成模块，用于分别获取红方无人机和蓝方无人机在第k 次占位决策时的状态信息，生成所述红方无人机与所述蓝方无人机在第k次占位决策的初始状态向量k为正整数；

策略集合获取模块，用于基于所述红方无人机和所述蓝方无人机的初始状态向量分别对所述红方无人机和所述蓝方无人机在第k+1次占位决策的策略空间进行离散化处理，得到所述红方无人机和所述蓝方无人机在第k+1次占位决策的策略集合

博弈矩阵生成模块，用于利用预设的支付函数计算所述策略集合与所述策略集合中任意一对策略对应的支付值，生成所述红方无人机和所述蓝方无人机在k+1次占位决策的博弈矩阵；

最优方案计算模块，用于基于无人机双方的博弈矩阵计算无人机双方在第k+1次占位决策的最优方案；

有效攻击范围模块，用于根据所述第k+1次占位决策的最优方案计算所述无人机双方的有效攻击范围；

判断模块，用于在所述红方无人机进入所述蓝方无人机的有效攻击范围或所述蓝方无人机进入所述红方无人机的有效攻击范围时，结束本次占位决策过程；否则，将所述无人机双方在第k+1次占位决策的最优策略方案作为下一次占位决策的初始状态值，进入下一次占位决策过程。

可选地，所述状态向量生成模块中采用下式表示所述红方无人机与所述蓝方无人机在第k次占位决策的初始状态向量

可选地，所述策略集合获取模块采用下式表示所述红方无人机和所述蓝方无人机在k+1次的占位决策的策略集合

所述红方无人机和所述蓝方无人机的俯仰角的变化范围为 [θ_Rmin,θ_Rmax]、[θ_Bmin,θ_Bmax]，红方无人机俯仰角的离散度为L_R、蓝方无人机俯仰角的离散度为L_B，且L_R与L_B为正偶数，则俯仰角的离散步长为

可选地，所述策略集合获取模块分别离散化所述红方无人机和所述蓝方无人机在第k+1次占位决策时动力学约束下的航迹偏转角的变化范围；

可选地，所述策略集合构建模块还用于：

所述红方无人机和所述蓝方无人机在第k+1次的占位决策的策略集合采用下式表示：

可见，本发明实施例通过策略划分方法，可以确定博弈矩阵中的支付值对应同一时刻无人机双方对抗的优势，即可以得到无人机双方在同一时刻完成机动动作后对应的支付值，从而使无人机双方能够准确占位或者攻击，提高占位决策的精确度。另外，本发明实施例中策略划分方法可以考虑到无人机的动力学约束情况，获取有限的策略集合，从而使该占位决策方法更适合无人机的机动动作，提高占位策略的适应程度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1为本发明实施例提供的对抗环境下无人机占位决策的矩阵博弈方法的方法流程示意图；

图2为本发明一实施例中无人机在第k次的策略划分示意图；

图3为本发明一实施例中得到的博弈矩阵；

图4为本发明实施例提供的对抗环境下无人机占位决策的矩阵博弈装置的框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明一实施例提供的对抗环境下无人机占位决策的矩阵博弈方法的方法流程示意图。参见图1，该方法包括：

101，分别获取红方无人机和蓝方无人机在第k次占位决策时的状态信息，生成所述红方无人机与所述蓝方无人机在第k次占位决策的初始状态向量k为正整数；

102，基于所述红方无人机和所述蓝方无人机的初始状态向量分别对所述红方无人机和所述蓝方无人机在第k+1次占位决策的策略空间进行离散化处理，得到所述红方无人机和所述蓝方无人机在第k+1次占位决策的策略集合

103，利用预设的支付函数计算所述策略集合与所述策略集合中任意一对策略对应的支付值，生成所述红方无人机和所述蓝方无人机在k+1次占位决策的博弈矩阵；

104，基于无人机双方的博弈矩阵计算无人机双方在第k+1次占位决策的最优方案；

105，根据所述第k+1次占位决策的最优方案计算所述无人机双方的有效攻击范围；

106，若所述红方无人机进入所述蓝方无人机的有效攻击范围或所述蓝方无人机进入所述红方无人机的有效攻击范围，则结束本次占位决策过程；否则，将所述无人机双方在第k+1次占位决策的最优策略方案作为下一次占位决策的初始状态值，进入下一次占位决策过程。

可见，本发明实施例通过策略划分方法可以得到无人机双方的策略集合，可以确定同一时刻无人机双方在不同策略情况下对抗的优势即博弈矩阵中的支付值，从而使无人机双方能够准确占位或者攻击，提高占位决策的精确度。另外，本发明实施例中策略划分方法可以考虑到无人机的动力学约束情况，获取有限的策略集合，从而使该占位决策方法更适合无人机的机动动作，提高占位策略的适应程度。

本发明实施例提供的对抗环境下无人机占位决策的矩阵博弈方法可以应用于一对一对抗环境下的无人机中。在对抗环境中，无人机双方可以包括红方(我方)和蓝方(对方)，由于无人机双方的占位决策过程相同，下面仅以红方为例，结合附图和实施例对本发明实施例提供的矩阵博弈方法各步骤作详细描述。

首先，介绍101，分别获取红方无人机和蓝方无人机在第k次占位决策时的状态信息，生成所述红方无人机与所述蓝方无人机在第k次占位决策的初始状态向量的步骤。

红方无人机可以直接读取自身的状态信息，还可以通过传感设备获取与对方无人机的相对位置、俯仰角、航迹偏转角等参数的状态信息。

在一实施例中，假设红方无人机(后续公式中采用字母R表示)和蓝方无人机(后续公式中采用字母B表示)的飞行速度为V，且飞行过程中飞行速度大小不变)，占位决策时间间隔为T。在不考虑无人机的自身动力学约束以及将无人机视为质点的情况下，无人机下一步可能到达的位置为以无人机(视为质点)为中心、飞行步长为半径的球面上的任意一点，即无人机下一步可以到达的位置为球面上所有的点构成的集合。

实际应用中，红方无人机会受到自身的动力学约束，即受到最小转弯半径、俯仰角和/或航迹偏航角的约束。在考虑红方无人机受到动力学约束的情况下，无人机下一步可能到达的位置的集合为以无人机为中心的球面的一部分，如图2所示。其中，球体的半径为红方无人机的飞行速度和占位决策时间间隔的乘积，是一个拥有无限策略的连续集合。本实施例中策略划分方法将这个无限策略的连续集合转化为有限的、离散的策略集合。

其次，介绍102，基于所述红方无人机和所述蓝方无人机的初始状态向量分别对所述红方无人机和所述蓝方无人机在第k+1次占位决策的策略空间进行离散化处理，得到所述红方无人机和所述蓝方无人机在第k+1次占位决策的策略集合的步骤。

在一实施例中，红方无机的策略集合的构建步骤如下：

1)红方无人机在某一时刻k的状态为其中，为红方在第k次的俯仰角，为红方在第i次的航迹偏转角，为红方在第k次的位置坐标。由于动力学约束，无人机的俯仰角和航迹偏转角不可能瞬时无限改变，会有一个范围，确定红方俯仰角可以改变的范围(θ_Rmin,θ_Rmax)，航迹偏转角可以改变的范围(ψ_Rmin,ψ_Rmax)，确定红方俯仰角的离散度为L_R，航迹偏转角的离散度为M_R。则可以确定红方无人机的俯仰角步长为航迹偏转角步长为即红方每次偏转俯仰角和航迹偏转角的角度大小。例如，红方无人机的俯仰角的变化范围为(-60°,60°)，离散度L_R为4，那么每次无人机每次可以改变的俯仰角角度为30°。

2)获得红方无人机在第k次的状态信息，即通过步骤1)中所得到的俯仰角及俯仰角步长、航迹偏转角及航迹偏转角步长和红方无人机在第k次的状态信息。然后，本实施例中通过以下策略划分方法(参见公式(1))可以得到红方无人机在第k+1次的策略集合。

公式(1)如下所示：

红方无人机在第k+1次的状态集合为：

蓝方无人机的策略集合的构建方法与红方无人机的策略集合相同，在此不再赘述。

再次，介绍103，利用预设的支付函数计算所述策略集合与所述策略集合中任意一对策略对应的支付值，生成所述红方无人机和所述蓝方无人机在第k+1次占位决策的博弈矩阵的步骤。

本实施例中通过支付函数计算红方无人机在第k+1次采用策略集合中每个策略且蓝方无人机在采用每个策略时对应的支付值，该策略集合中所有策略的支付值可以构成博弈矩阵。

本发明一实施例中，假设红方无人机和蓝方无人机具有一致的作战能力以及相同的飞行速度，即只考虑无人机双方的飞行高度、相对角度、飞行距离这三个方面给无人机对抗间的优势带来的影响。

红方无人机和蓝方无人机对抗的高度优势函数、角度优势函数和距离优势函数如下：

(1)高度优势函数如公式(2)所示：

z₀为最佳飞行高度；为在k+1次R与B的高度。

(2)角度优势函数如公式(3)所示：

为在第k+1次无人机双方的方位角和离去角；为第k+1 次无人机双方的距离。

(3)距离优势函数如公式(4)所示：

公式(4)中，D_Rmax为雷达最大搜索距离，D_Mmax为导弹最大攻击距离，D_MKmax为导弹不可逃逸区最大距离，D_MKmin为导弹不可逃逸区最小距离。

基于上述公式(2)、(3)和(4)构造支付函数如公式(5)所示：

其中，α₁,α₂,β₁,β₂分别为权重系数，且α₁+α₂＝1,β₁+β₂＝1。

在一实施例中，红方无人机在第k次的状态信息为(0，0，0，0，10000)，蓝方无人机在第k次的状态信息为(0，180，30000，40000，12000)，角度单位为度，位置坐标单位为米。

红方无人和蓝方无人机的飞行速度为V＝300m/s，飞行时间T＝2s。航迹偏转角的变化范围(-60°,60°)，俯仰角变化范围(-30°,30°)，俯仰角的离散度为2，航迹偏转角的离散度为4，即控制量 u_Rθ1＝u_Bθ1＝{-1,0,1}，u_Rψ2＝u_Bψ2＝{-2,-1,0,1,2}，故角度步长θ₀,ψ₀为30 度和30度。

导弹攻击区远边界D_MKmax为50000m，导弹攻击区近边界D_MKmin为 20000m，导弹最大攻击距离D_Mmax为60000m，雷达最大搜索距离D_Rmax为 80000m；最佳作战高度z₀为10000m。

取权重α₁＝0.6,α₂＝0.4,β₁＝0.5,β₂＝0.5，得到支付函数如下：

根据无人机双方的策略集合以及双方博弈的支付函数，得到无人机双方之间的一次完全信息静态博弈的博弈矩阵。在计算无人机双方在第k+1次相对状态的支付函数值时，需要分别输入第k+1次红方无人机和蓝方无人机的状态信息，由前面对无人机的策略划分方法可知，影响支付函数值的变量为红方无人机和蓝方无人机的俯仰角和航迹偏转角的取值。

记第k+1次的博弈矩阵为基于固定的飞行角度构造的策略空间构造博弈矩阵如公式(6)所示：

第四，介绍104，基于无人机双方的博弈矩阵计算无人机双方在第 k+1次占位决策的最优方案的步骤。

本发明一实施例中，为获取最优策略，可以利用诸如粒子群优化算法的方法来对博弈矩阵进行求解，从而得到最优解即最优策略。由于粒子群优化算法为现有技术，在此不作详细说明。

可理解的是，本发明实施例中得到博弈矩阵的最优策略可以得到当前状态下无人机的最优机动动作，可以得到占位的最大优势或者最小劣势。

第五，介绍105，根据所述第k+1次占位决策的最优方案计算所述无人机双方的有效攻击范围的步骤。

在一实施例中，根据最优策略和最优策略条件计算无人机双方的有效攻击区域。

以红方无人机为例，最优策略条件包括迎头攻击条件和尾后攻击条件；

迎头攻击条件包括：

V≤1.8Ma，60°≤α_B≤300°，z_R≤15km，为红蓝双方的相对速度；

攻击区远边界为：

式中，a₁＝8.416,a₂＝331.82,a₃＝-2595.7,a₄＝42.2298,a₅＝-4.28096；

a₆＝-419.81,a₇＝480.449,a₈＝138.63,a₉＝-3.46974,a₁₀＝-21.6402

攻击区近边界为：

式中，a₁＝762.285,a₂＝23.324,a₃＝537.11,a₄＝42.2298,a₅＝-4.28096；

a₆＝0.40132,a₇＝0.053711,a₈＝-0.2957697

尾后攻击条件包括：V≤2.2Ma，-60°≤α_B≤60°，z_R≤20km

攻击区远边界为：

式中：a₁＝8889.43,a₂＝622.138,a₃＝-3525.655,a₄＝-7.48929,a₅＝3576.7；

a₆＝-373.23a₇＝99.69147,a₈＝-0.2957697

攻击区近边界为：

式中，a₁＝768.345,a₂＝27.2061,a₃＝2.25251,a₄＝917.752,a₅＝74.9165。

a₆＝-102.497,a₇＝0.392312,a₈＝0.0545163,a₉＝-1.4777

第六，介绍106，若所述红方无人机进入所述蓝方无人机的有效攻击范围或所述蓝方无人机进入所述红方无人机的有效攻击范围，则结束本次占位决策过程；否则，将所述无人机双方在第k+1次占位决策的最优策略方案作为下一次占位决策的初始状态值，进入下一次占位决策过程执行步骤101～106。

第二方面，本发明实施例还提供了一种对抗环境下无人机占位决策的矩阵博弈装置，如图4所示，所述装置包括：

状态向量生成模块401，用于分别获取红方无人机和蓝方无人机在第k次占位决策时的状态信息，生成所述红方无人机与所述蓝方无人机在第k次占位决策的初始状态向量k为正整数；

策略集合构建模块402，用于基于所述红方无人机和所述蓝方无人机的初始状态向量分别对所述红方无人机和所述蓝方无人机在第k+1次占位决策的策略空间进行离散化处理，得到所述红方无人机和所述蓝方无人机在第k+1次占位决策的策略集合

博弈矩阵构建模块403，用于利用预设的支付函数计算所述策略集合与所述策略集合中任意一对策略对应的支付值，生成所述红方无人机和所述蓝方无人机在第k+1次占位决策的博弈矩阵；

最优方案计算模块404，用于基于无人机双方的博弈矩阵计算无人机双方在第k+1次占位决策的最优方案；

有效攻击范围模块405，用于根据所述第k+1次占位决策的最优方案计算所述无人机双方的有效攻击范围；

判断模块406，用于在所述红方无人机进入所述蓝方无人机的有效攻击范围或所述蓝方无人机进入所述红方无人机的有效攻击范围时，结束本次占位决策过程；否则，将所述无人机双方在第k+1次占位决策的最优策略方案作为下一次占位决策的初始状态值，进入下一次占位决策过程。

可选地，所述状态向量生成模块401中采用下式表示所述红方无人机与所述蓝方无人机在第k次占位决策的初始状态向量

可选地，所述策略集合构建模块402采用下式表示所述红方无人机和所述蓝方无人机在k+1次的占位决策的策略集合

可选地，所述策略集合构建模块402分别离散化所述红方无人机和所述蓝方无人机在第k+1次占位决策时动力学约束下的航迹偏转角的变化范围；

所述策略集合构建模块402还用于：

其中，分别表示红方无人机和蓝方无人机在第k+1 次可以到达的状态的集合；V_R、V_B分别表示红方无人机和蓝方无人机的飞行速度；T为红方无人机和蓝方无人机进行第k次占位决策和第k+1 次占位决策的时间间隔。

需要说明的是，本发明实施例提供的对抗环境下无人机占位决策的矩阵博弈装置与上述方法是一一对应的关系，上述方法的实施细节同样适用于上述装置，本发明实施例不再对上述系统进行详细说明。

本发明的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在于该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是互相排斥之处，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器 (DSP)来实现根据本发明实施例的一种浏览器终端的设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种对抗环境下无人机占位决策的矩阵博弈方法，其特征在于，所述方法包括通过计算机设备执行以下步骤：

基于所述红方无人机和所述蓝方无人机的初始状态向量分别对所述红方无人机和所述蓝方无人机在第k+1次占位决策的策略空间进行离散化处理，得到所述红方无人机和所述蓝方无人机在第k+1次占位决策的策略集合

利用预设的支付函数计算所述策略集合与所述策略集合中任意一对策略对应的支付值，生成所述红方无人机和所述蓝方无人机在第k+1次占位决策的博弈矩阵；

2.根据权利要求1所述的矩阵博弈方法，其特征在于，所述红方无人机与所述蓝方无人机在第k次占位决策的初始状态向量采用下式表示：

3.根据权利要求2所述的矩阵博弈方法，其特征在于，分别离散化所述红方无人机和所述蓝方无人机在第k+1次占位决策时动力学约束下的俯仰角的变化范围；

其中，所述红方无人机和所述蓝方无人机的俯仰角的变化范围为[θ_Rmin,θ_Rmax]、[θ_Bmin,θ_Bmax]，红方无人机俯仰角的离散度为L_R、蓝方无人机俯仰角的离散度为L_B，且L_R与L_B为正偶数，则俯仰角的离散步长为

4.根据权利要求3所述的矩阵博弈方法，其特征在于，分别离散化所述红方无人机和所述蓝方无人机在第k+1次占位决策时动力学约束下的航迹偏转角的变化范围；

5.根据权利要求4所述的矩阵博弈方法，其特征在于，所述红方无人机和所述蓝方无人机在k+1次的占位决策的策略集合采用下式表示：

其中，分别表示红方无人机和蓝方无人机在第k+1次可以到达的状态的集合；V_R、V_B分别表示红方无人机和蓝方无人机的飞行速度；T为红方无人机和蓝方无人机进行第k次占位决策和第k+1次占位决策的时间间隔。

6.一种对抗环境下无人机占位决策的矩阵博弈装置，其特征在于，所述装置包括：

状态向量生成模块，用于通过计算机设备分别获取红方无人机和蓝方无人机在第k次占位决策时的状态信息，生成所述红方无人机与所述蓝方无人机在第k次占位决策的初始状态向量k为正整数；

策略集合获取模块，用于通过计算机设备基于所述红方无人机和所述蓝方无人机的初始状态向量分别对所述红方无人机和所述蓝方无人机在第k+1次占位决策的策略空间进行离散化处理，得到所述红方无人机和所述蓝方无人机在第k+1次占位决策的策略集合

博弈矩阵生成模块，用于通过计算机设备利用预设的支付函数计算所述策略集合与所述策略集合中任意一对策略对应的支付值，生成所述红方无人机和所述蓝方无人机在k+1次占位决策的博弈矩阵；

最优方案计算模块，用于通过计算机设备基于无人机双方的博弈矩阵计算无人机双方在第k+1次占位决策的最优方案；

有效攻击范围模块，用于通过计算机设备根据所述第k+1次占位决策的最优方案计算所述无人机双方的有效攻击范围；

判断模块，用于通过计算机设备在所述红方无人机进入所述蓝方无人机的有效攻击范围或所述蓝方无人机进入所述红方无人机的有效攻击范围时，结束本次占位决策过程；否则，将所述无人机双方在第k+1次占位决策的最优策略方案作为下一次占位决策的初始状态值，进入下一次占位决策过程。

7.根据权利要求6所述的矩阵博弈装置，其特征在于，所述状态向量生成模块中采用下式表示所述红方无人机与所述蓝方无人机在第k次占位决策的初始状态向量

8.根据权利要求7所述的矩阵博弈装置，其特征在于，所述策略集合获取模块采用下式表示所述红方无人机和所述蓝方无人机在k+1次的占位决策的策略集合

所述红方无人机和所述蓝方无人机的俯仰角的变化范围为[θ_Bmin,θ_Bmax]，红方无人机俯仰角的离散度为L_R、蓝方无人机俯仰角的离散度为L_B，且L_R与L_B为正偶数，则俯仰角的离散步长为

9.根据权利要求8所述的矩阵博弈装置，其特征在于，所述策略集合获取模块分别离散化所述红方无人机和所述蓝方无人机在第k+1次占位决策时动力学约束下的航迹偏转角的变化范围；

10.根据权利要求9所述的矩阵博弈装置，其特征在于，所述策略集合构建模块还用于：