CN116167723A

CN116167723A - 多方阵营博弈的武器装备发展规划策略选择方法及系统

Info

Publication number: CN116167723A
Application number: CN202310201276.5A
Authority: CN
Inventors: 赵青松; 陈启宏; 姜江; 葛冰峰; 孙建彬; 李际超; 杨志伟
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2023-03-03
Filing date: 2023-03-03
Publication date: 2023-05-26

Abstract

本发明提供一种多方阵营博弈的武器装备发展规划策略选择方法及系统，该方法包括如下步骤：获取参与阵营博弈的两个多方阵营的阵营参数以及初始先验概率和武器装备发展策略的策略集合；基于阵营参数计算初始博弈阶段时的阵营收益；采用宗系解法计算多方阵营中所有参与方对于阵营收益的最优分配结果；根据最优分配结果并结合策略集合和初始先验概率构建精炼贝叶斯均衡；通过对精炼贝叶斯均衡求解，得到初始博弈阶段时的最优策略选择和后验概率；将每个当前博弈阶段的后验概率作为下一博弈阶段的先验概率，并基于对每一博弈阶段时的精炼贝叶斯均衡的求解，得到每一博弈阶段的最优策略选择。本发明具有精准选择武器装备发展规划策略的效果。

Description

多方阵营博弈的武器装备发展规划策略选择方法及系统

技术领域

本发明属于武器装备发展规划领域，具体是涉及到一种多方阵营博弈的武器装备发展规划策略选择方法及系统。

背景技术

在研究武器装备发展规划的多方博弈时，参与方的数量通常为多个。参与方可按照立场划分为两个对立的阵营。在武器装备发展规划中，阵营是指具有共同的利益目标或相同潜在对手的多个参与方组合形成的团体。相比于“1对1”的双方博弈场景，多方博弈场景将博弈方划分为两个阵营，进行阵营之间的博弈对抗。两个阵营在行动上有先后顺序，按照策略决策和采取行动的先后顺序可以将阵营分为先行阵营和后行阵营。阵营在进行策略决策时可以获取之前博弈过程中关于对手阵营的信息。

除了策略依存、信息不完备、动态演化这3个通用的博弈特征，多方博弈场景还具有非合作-合作关系并存这一博弈特征。阵营是多方博弈场景中的对抗性决策主体，阵营之间体现出非合作关系。而同一阵营中的各个参与方可以通过构建联盟，进行武器装备发展规划的合作提升阵营的总体收益从而进一步提升自身武器装备体系作战能力，体现出合作关系。并且在多方博弈场景中，阵营内部目标相对统一，阵营之间目标相互对立，具有鲜明的对抗特征。

在博弈场景之中可以对武器装备发展规划的策略进行分析并选择合适的规划策略，避免出现武器装备的发展规划仅仅是盲目地追求单一种类武器装备性能的情况。现有技术中通常采用单一的非合作或合作博弈的理论对武器装备发展规划策略进行分析选择，但多方博弈场景中非合作-合作关系并存，仅采用单一的非合作或合作博弈的理论进行分析难以精准分析多方博弈场景的本质和过程，从而难以精准选择武器装备发展规划策略。

发明内容

本发明提供一种方阵营博弈的武器装备发展规划策略选择方法及系统，以解决多方博弈场景武器装备发展规划策略选择精准度较低的问题。

第一方面，本发明提供一种方阵营博弈的武器装备发展规划策略选择方法，该方法包括如下步骤：

获取参与阵营博弈的两个多方阵营的阵营参数，以及所述多方阵营在所述阵营博弈中的初始先验概率和武器装备发展策略的策略集合，所述初始先验概率为其中一所述多方阵营在所述阵营博弈的初始博弈阶段时，推断对方阵营中参与方类型所得到的概率；

基于所述阵营参数计算所述初始博弈阶段时的阵营收益；

采用宗系解法计算所述多方阵营中所有参与方对于所述阵营收益的最优分配结果；

根据所述最优分配结果并结合所述策略集合和所述初始先验概率构建精炼贝叶斯均衡；

通过对所述精炼贝叶斯均衡求解，得到所述初始博弈阶段时的最优策略选择和后验概率，所述后验概率为其中一所述多方阵营在所述阵营博弈中，基于策略选择推断对方阵营中所述参与方类型所得到的概率；

将每个当前博弈阶段的所述后验概率作为下一所述博弈阶段的先验概率，并基于对每一所述博弈阶段时的所述精炼贝叶斯均衡的求解，得到每一所述博弈阶段的所述最优策略选择。

可选的，所述基于所述阵营参数计算所述初始博弈阶段时的阵营收益包括如下步骤：

基于所述阵营参数生成所述多方阵营的武器装备体系网络；

结合两个所述多方阵营的所述武器装备体系网络，生成两个所述多方阵营之间的武器装备体系对抗网络；

基于所述武器装备体系对抗网络评估计算所述初始博弈阶段时所述多方阵营的阵营收益。

可选的，所述阵营参数包括阵营策略集合、武器装备参数、所述多方阵营中的参与方参数，所述基于所述阵营参数生成所述多方阵营的武器装备体系网络包括如下步骤：

基于所述武器装备参数生成多个装备功能节点；

根据所述参与方参数生成多个所述装备功能节点之间的装备功能边；

结合所述装备功能节点和所述装备功能边生成所述多方阵营的武器装备体系网络。

可选的，所述基于所述武器装备体系对抗网络评估计算所述初始博弈阶段时所述多方阵营的阵营收益包括如下步骤：

基于所述武器装备体系网络构建所述多方阵营中多个所述装备功能节点之间的关联矩阵；

结合所述关联矩阵和所述武器装备体系对抗网络计算得到所述多方阵营的多个作战能力环；

聚合多个所述作战能力环计算得到所述多方阵营的阵营收益。

可选的，所述作战能力环包括广义作战能力环和标准作战能力环，所述聚合多个所述作战能力环计算得到所述多方阵营的阵营收益包括如下步骤：

分别计算所述广义作战能力环和所述标准作战能力环的能力环数量；

统计所述广义作战能力环对敌方造成威胁的第一持续时间；

统计所述标准作战能力环对敌方造成威胁的第二持续时间；

结合所述能力环数量、所述第一持续时间和所述第二持续时间计算所述多方阵营的阵营收益。

可选的，所述采用宗系解法计算所述多方阵营中所有参与方对于所述阵营收益的最优分配结果包括如下步骤：

计算所述阵营收益下所述多方阵营中所有非空联盟的联盟收益平均值；

基于所述联盟收益平均值求解得到所有所述参与方的宗系联盟；

确定每个所述参与方的准宗系联盟；

基于帕累托改进并结合所述宗系联盟和所述准宗系联盟解得宗系核，所述宗系核为所有所述参与方对于所述阵营收益的最优分配结果。

可选的，所述根据所述最优分配结果并结合所述策略集合和所述初始先验概率构建精炼贝叶斯均衡包括如下步骤：

根据所述最优分配结果从所述策略集合中筛选出所述初始博弈阶段的初始策略集合；

结合所述初始策略集合和所述初始先验概率构建精炼贝叶斯均衡。

可选的，所述通过对所述精炼贝叶斯均衡求解，得到所述初始博弈阶段时的最优策略选择和后验概率包括如下步骤：

基于所述初始策略集合计算推断后验概率；

根据所述推断后验概率计算分析两个所述多方阵营在所述初始博弈阶段时的最优策略选择；

结合所述最优策略选择和所述初始先验概率，并通过贝叶斯法则计算得到所述初始博弈阶段时的后验概率；

若所述推断后验概率与所述后验概率不冲突，则完成对所述精炼贝叶斯均衡的求解。

可选的，两个所述多方阵营分别为第一阵营和第二阵营，所述精炼贝叶斯均衡的公式为：

其中，A^*(B)为所述第一阵营的所述初始策略集合；B^*(Θ_B)为所述第二阵营的所述初始策略集合；

为所述第一阵营根据B^*(Θ_B)和A^*(B)并采用贝叶斯法则计算得到所述第二阵营中所述参与方类型的后验概率。

第二方面，本发明还提供一种多方阵营博弈的武器装备发展规划策略选择系统，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面中所述的方法。

本发明的有益效果是：从上面所述可以看出，本发明提供一种多方阵营博弈的武器装备发展规划策略选择方法，包括如下步骤：获取参与阵营博弈的两个多方阵营的阵营参数以及初始先验概率和武器装备发展策略的策略集合；基于阵营参数计算初始博弈阶段时的阵营收益；采用宗系解法计算多方阵营中所有参与方对于阵营收益的最优分配结果；根据最优分配结果并结合策略集合和初始先验概率构建精炼贝叶斯均衡；通过对精炼贝叶斯均衡求解，得到初始博弈阶段时的最优策略选择和后验概率；将每个当前博弈阶段的后验概率作为下一博弈阶段的先验概率，并基于对每一博弈阶段时的精炼贝叶斯均衡的求解，得到每一博弈阶段的最优策略选择。相较于单一非合作或合作博弈的理论分析，可以更加精准的分析多方博弈场景的本质和过程，从而更加精准的选择博弈场景下武器装备的发展规划策略。

附图说明

图1为本发明其中一实施例中多方阵营博弈的武器装备发展规划策略选择方法的流程示意图。

图2为本发明其中一实施例中多方阵营博弈的武器装备发展规划策略选择方法的流程示意图。

图3为本发明其中一实施例中多方阵营博弈的武器装备发展规划策略选择方法的流程示意图。

图4为本发明其中一实施例中多方两阵营武器装备体系对抗网络示意图。

图5为本发明其中一实施例中多方两阵营动态博弈过程示意图。

图6为本发明其中一实施例中多方阵营博弈的武器装备发展规划策略选择方法的流程示意图。

图7为本发明其中一实施例中多方阵营博弈的武器装备发展规划策略选择方法的流程示意图。

图8为本发明其中一实施例中多方阵营博弈的武器装备发展规划策略选择方法的流程示意图。

图9为本发明其中一实施例中多方阵营博弈的武器装备发展规划策略选择方法的流程示意图。

图10为本发明其中一实施例中多方阵营博弈的武器装备发展规划策略选择方法的流程示意图。

具体实施方式

本发明实施例具体公开一种多方阵营博弈的武器装备发展规划策略选择方法。

参照图1，多方阵营博弈的武器装备发展规划策略选择方法具体包括如下步骤：

S101.获取参与阵营博弈的两个多方阵营的阵营参数，以及多方阵营在阵营博弈中的初始先验概率和武器装备发展策略的策略集合。

其中，在阵营博弈中通常包含处于对立关系的两个多方阵营，多方阵营是指具有共同的利益目标或相同潜在对手的多个参与方组合形成的团体。阵营博弈包含多个博弈阶段，在每个博弈阶段中两个阵营在行动上有先后顺序，按照策略决策和采取行动的先后顺序可以将阵营分为先行阵营和后行阵营。阵营在进行策略决策时可以获取之前博弈过程中关于对手阵营的信息。

初始先验概率为其中一多方阵营在阵营博弈的初始博弈阶段时，推断对方阵营中参与方类型所得到的概率。参与方类型指根据投入的时间、经费等资源的多少划分出不同等级发展强度的多种参与方。

在本实施例中，阵营参数主要包括阵营策略集合、武器装备参数和多方阵营中的参与方参数，参与方参数主要包括参与方数量和参与方类型。武器装备参数主要包括所有参与方的武器装备信息和装备作用关系，装备作用关系包括各方自身装备之间的作用关系、阵营内部不同参与方装备之间的作用关系以及不同阵营之间的装备作用关系。

S102.基于阵营参数计算初始博弈阶段时的阵营收益。

其中，根据两个多方阵营的阵营参数构建多方两阵营武器装备体系对抗网络，通过对阵营武器装备体系对抗网络中各阵营所有作战能力环的能力进行聚合，可以得到阵营武器装备体系整体作战能力，即为阵营收益。

S103.采用宗系解法计算多方阵营中所有参与方对于阵营收益的最优分配结果。

其中，同一多方阵营中的所有参与方可以在阵营内任意组成联盟，先根据阵营收益计算出多方阵营内的联盟平均收益，再按照联盟宗系定义求解得到多方阵营中的宗系联盟，最后求解得到多方阵营的宗系核，宗系核即为所有参与方对于阵营收益的最优分配结果。

S104.根据最优分配结果并结合策略集合和初始先验概率构建精炼贝叶斯均衡。

S105.通过对精炼贝叶斯均衡求解，得到初始博弈阶段时的最优策略选择和后验概率。

其中，后验概率为其中一多方阵营在阵营博弈中，基于策略选择推断对方阵营中参与方类型所得到的概率。

S106.将每个当前博弈阶段的后验概率作为下一博弈阶段的先验概率，并基于对每一博弈阶段时的精炼贝叶斯均衡的求解，得到每一博弈阶段的最优策略选择。

本实施例其中一种实施方式的实施原理为：

在多方阵营博弈中，不仅存在两个多方阵营之间的非合作对抗关系，还存在同一多方阵营内部多个参与方之间的联盟合作关系。基于两个多方阵营之间的对抗关系，根据阵营参数可以计算出两个多方阵营在初始博弈阶段的阵营收益，再基于多方阵营内部的联盟合作关系，并采用宗系解法计算出所有参与方对于阵营收益的最优分配结果。从而构建精炼贝叶斯均衡并求解，得到初始博弈阶段时的最优策略选择和后验概率，将每个当前博弈阶段的后验概率作为下一博弈阶段的先验概率，从而进一步影响下一博弈阶段中的策略选择，形成不完全信息更新-策略选择的动态迭代过程。最终根据对每个博弈阶段的精炼贝叶斯均衡求解，得到每个博弈阶段的最优策略选择。相较于单一非合作或合作博弈的理论分析，可以更加精准对非合作-合作并存的多方博弈场景进行分析，从而更加精准的选择博弈场景下武器装备的发展规划策略。

在本实施例的其中一种实施方式中，参照图2，步骤S102即基于阵营参数计算初始博弈阶段时的阵营收益具体包括如下步骤：

S201.基于阵营参数生成多方阵营的武器装备体系网络。

其中，在本实施例中，阵营参数主要包括阵营策略集合、武器装备参数和多方阵营中的参与方参数，参与方参数主要包括参与方数量和参与方类型。武器装备参数主要包括所有参与方的武器装备信息和装备作用关系，装备作用关系包括各方自身装备之间的作用关系、阵营内部不同参与方装备之间的作用关系以及不同阵营之间的装备作用关系。可以将阵营参数中的武器装备参数抽象为装备功能节点，将装备作用关系中的指挥控制关系和信息传递关系抽象为装备功能边，从而构建出武器装备体系网络。

S202.结合两个多方阵营的武器装备体系网络，生成两个多方阵营之间的武器装备体系对抗网络。

其中，以两个多方阵营的装备作用关系中的侦查关系和打击关系为基础，抽象出连接两个武器装备体系网络的连接功能边，通过连接功能边将两个武器装备体系网络连接，形成两个多方阵营之间的对抗关系，从而生成两个多方阵营之间的武器装备体系对抗网络。

S203.基于武器装备体系对抗网络评估计算初始博弈阶段时多方阵营的阵营收益。

其中，在武器装备体系对抗网络中，由于同一多方阵营内部参与方之间可以构建联盟，增强联盟中参与方武器装备之间的协作关系，从而形成多方阵营中新的装备功能边。由两个阵营的武器装备体系网络共同组成阵营武器装备体系对抗网络，通过对阵营武器装备体系对抗网络中各阵营所有作战能力环的能力进行聚合，可以得到阵营武器装备体系整体作战能力，即阵营收益。

本实施例其中一种实施方式的实施原理为：

先基于阵营参数可以分别生成两个多方阵营的武器装备体系网络，在武器装备体系网络中可以体现出同一多方阵营内多个参与方武器装备之间的协作关系，再根据不同阵营之间武器装备的侦查打击关系将两个多方阵营的武器装备体系网络进行结合，生成两个多方阵营之间的武器装备体系对抗网络，从而可以构建出多方阵营在武器装备体系对抗网络中的作战能力环，并根据作战能力环评估计算阵营收益。

在本实施例的其中一种实施方式中，阵营参数包括阵营策略集合、武器装备参数和多方阵营中的参与方参数，参照图3，步骤S201即基于阵营参数生成多方阵营的武器装备体系网络具体包括如下步骤：

S301.基于武器装备参数生成多个装备功能节点。

其中，在本实施例中，武器装备参数主要包括所有参与方的武器装备信息和装备作用关系，装备作用关系包括各方自身装备之间的作用关系、阵营内部不同参与方装备之间的作用关系以及不同阵营之间的装备作用关系。基于OODA作战理论分析，将武器装备功能分为三类：侦察功能、指控功能、打击功能。在本实施例中，可以将武器装备实体抽象为四类功能节点：侦察节点S、指控节点D、打击节点I、目标节点T。

S302.根据参与方参数生成多个装备功能节点之间的装备功能边。

其中，在本实施例中，参与方参数主要包括参与方数量和参与方类型。各个功能节点之间的关系即对应武器装备的装备作用关系可抽象为功能边，装备功能节点之间的作用关系可分为4类，如表1所示。

关系类型	装备体系网络功能边	约束
			侦察关系	T→S	不同阵营之间的功能节点
指挥控制关系	D→S,D→I,D→D	同一阵营中的功能节点
			打击关系	I→T	不同阵营之间的功能节点
信息传递关系	S→D,S→S,D→D	同一阵营中的功能节点

表1两阵营中的装备功能边关系

S303.结合装备功能节点和装备功能边生成多方阵营的武器装备体系网络。

其中，在同一阵营中，参与方可以通过构建联盟来提升阵营的整体作战能力。参与方之间构建联盟可以运用多个参与方的武器装备对对手阵营产生作用影响，降低对手阵营的武器装备体系作战能力，同时，增强阵营内部不同参与方装备之间的协同作战能力从而提升阵营装备体系作战能力。构建联盟对应在武器装备体系网络中可形成同一阵营中不同参与方的功能节点之间的功能边。联盟新增的功能边关系类型包括表1中所展示的指挥控制关系和信息传递关系。

构建联盟之前，同一阵营中的不同参与方各自为战，不同参与方的武器装备功能节点之间不存在功能边的联系。构建联盟后，不同参与方的武器装备功能节点之间可形成新的装备功能边，从而有助于提高阵营武器装备体系网络内部功能节点之间的协同作战能力，在武器装备体系对抗网络中形成更多数量和形式的作战能力环，提升阵营的总体作战效能。结合图4来具体说明参与方构建联盟对武器装备体系网络的影响。

参照图4，阵营A和阵营B分别为本实施例中的两个多方阵营，虚线的功能边代表构建联盟可新增的功能边。参与方i和参与方j构建联盟前，阵营A并不存在针对阵营B中参与方k的侦察节点S6的作战能力环。参与方i中指控节点D2虽然可以给打击节点I2下达攻击指令，对阵营B中侦察节点S6进行打击，但是指控节点D2无法获取得到关于侦察节点S6的情报信息，而参与方j中侦察节点S3虽然能获取得到侦查节点S6的情报信息，但是无法对S6进行打击。

参与方i和参与方j构建联盟后，可形成S3到D2的信息传递功能边，由S3将获取得到的关于S6的情报信息传递给D2，从而新增针对S6的标准作战能力环：S6→S3→D2→I2→S6。同理，分析阵营B中构建联盟前后的武器装备体系网络变化。参与方k和参与方l构建联盟前，阵营B并不存在针对阵营A中参与方j的打击节点I4的作战能力环。参与方k中侦察节点S6虽然可以向指控节点D6传递信息，D6可以向I6下达攻击指令，打击参与方j的打击节点I4。但是侦察节点S6无法获取得到关于侦察节点I4的情报信息，而参与方l中侦察节点S7可以获取得到侦查节点S6的情报信息。参与方k和参与方l构建联盟后，可形成S7到S6的信息传递功能边，S7将获取得到的关于I4的情报信息传递S6，从而新增针对I4的广义作战能力环：I4→S7→S6→D6→I6→I4。

构建出武器装备体系对抗网络之后，为便于后续的武器装备发展规划多方博弈问题分析，可以对武器装备发展规划多方两阵营博弈模型进行模型假设。具体假设如下：

(1)武器装备发展规划中，只考虑武器装备的研制费用、研制周期和购置费用。武器装备采购后，不考虑退役情况，且装备的维护成本忽略不计。

(2)多个参与方可以划分为两个多方阵营，不同阵营的参与方之间不存在合作关系，只存在竞争对抗关系，同一阵营中的参与方之间存在合作关系。一个阵营中包含多个参与方，同一阵营中的参与方可以通过构建联盟获取更大收益。

(3)各阶段参与方策略集合，参与方类型集合为公共已知信息。不完全信息表现为对参与方类型的概率推断，上一阶段后验概率作为下一阶段类型的参与方先验概率进入下一新阶段的博弈。

以上述模型假设为基础构建武器装备发展规划多方两阵营博弈模型(Two-campgame model for weapon equipment development planning，TCGMFWEDP)，假设两个多方阵营分别为阵营A和阵营B，在博弈模型中所包含的所有符号以及定义说明参见表2。

/>

表2多方两阵营博弈模型的符号定义与说明武器装备发展规划多方两阵营博弈模型可以表示为八元组：

其中：N＝(N_A,N_B)为参与方的集合；Ω＝(A,B)为参与方的阵营集合；Θ＝(Θ_A,Θ_B)为参与方类型的空间。其中，Θ_A＝(σ₁,σ₂,...,σ_l)表示阵营A中参与方的类型集合，σ_i表示阵营A中的第i个参与方类型，σ_i∈{α₁}即阵营A中的参与方只有一个类型。Θ_B＝(δ₁,δ₂,...,δ_m)表示阵营B中的参与方类型集合，δ_i∈{β₁,β₂,β₃}表示阵营B中每个参与方类型，类型是参与方的私人信息，阵营A不知道阵营B中参与方具体的类型，但对阵营B中参与方的类型分布有先验概率判断。

T是多阶段博弈阶段总数；S＝(A,B)是博弈方的策略集合，A＝A¹×A²×...×A^T为阵营A在发展规划过程中各个阶段可选择的武器装备发展策略组成的集合，B＝B¹×B²×...×B^T为为阵营B在发展规划过程中各个阶段可选择的武器装备发展策略组成的集合。其中，

代表阵营A在第k个博弈阶段可以选择的策略集合，/>

代表阵营A在第k个博弈阶段可选择的第j个武器装备发展方案；/>

代表阵营B在第k个博弈阶段可以选择的策略集合，/>

代表阵营B在第k个博弈阶段可选择的第j个武器装备发展方案。

P＝(P¹,P²,...,P^T)为阵营A对阵营B中参与方类型的先验概率集合。其中，P^k为第k阶段阵营A对阵营B中参与方类型的先验概率推断；

为阵营A对阵营B参与方类型的后验概率集合。其中，/>

为第k阶段阵营A对阵营B中参与方类型的后验概率判断。每一阶段的先验概率来自于上一博弈阶段的后验概率，即/>

U＝(U¹,U²,...,U^T)为博弈方在博弈各个阶段的收益函数集合，

为在第k个博弈阶段中参与方收益函数集合。其中，/>

为阵营A中第i个参与方在第k个博弈阶段的博弈方的收益函数，/>

为阵营B中第i个参与方在第k个博弈阶段的博弈方的收益函数。

基于武器装备发展规划多方两阵营博弈模型可以对多方装备体系对抗网络进行动态博弈分析，从而分析两个多方阵营的武器装备规划过程。在发展规划的过程中，两个阵营掌握敌对阵营的信息是不完全的，体现在对敌对阵营中参与方类型的不确定性，采用概率来表示决策者类型的分布。在发展规划的每一阶段，两个阵营的策略选择具有先后顺序，两个阵营在获得对方阵营的策略选择这一信息后，对敌方阵营参与方的类型进行后验概率更新。

参照图5，在发展规划的每一阶段中，两个阵营中的参与方选择本阶段自身的策略，策略中的武器装备加入到武器装备体系中，武器装备体系网络中各参与方新增的武器装备功能节点正是由新加入的武器装备转换成的，武器装备体系网络中新增的装备功能边，主要反映出了武器装备体系网络中装备之间的关系越来越复杂。新增的装备功能边一部分来源于新增的武器装备与体系中原有武器装备之间的影响关联关系，另一部分来源于相同阵营中参与方之间的联盟构建，参与方通过构建联盟增强了武器装备之间的协同作用关系。通过博弈阶段过程中不断更新的策略，迭代更新每个博弈阶段时的武器装备体系对抗网络，以展现出多方两阵营的动态博弈过程。

在本实施例的其中一种实施方式中，参照图6，步骤S203即基于武器装备体系对抗网络评估计算初始博弈阶段时多方阵营的阵营收益具体包括如下步骤：

S401.基于武器装备体系网络构建多方阵营中多个装备功能节点之间的关联矩阵。

其中，在本实施例中，可以将武器装备实体抽象为四类功能节点：侦察节点S、指控节点D、打击节点I、目标节点T。根据武器装备体系网络中的装备功能边关系，构建阵营内部中不同装备功能节点之间的关联矩阵为。其中，关联矩阵的取值为[0,1]，关联矩阵取值为0代表功能节点之间不存在功能边关系，关联矩阵取值为1代表功能节点之间存在功能边关系。阵营内部具体的关联矩阵如表3所示。

关联矩阵	含义	维数
			M_T-S	阵营中目标节点-侦察节点的关联矩阵	m×n
M_S-D	阵营中侦察节点-指控节点的关联矩阵	n×o
			M_D-I	阵营中指控节点-打击节点的关联矩阵	o×p
M_I-T	阵营中打击节点-目标节点的关联矩阵	p×m
			M_S-S	阵营中不同侦察节点间的关联矩阵	n×n
M_D-D	阵营中不同指控节点间的关联矩阵	o×o
			M_D-S	阵营中指控节点-侦察节点的关联矩阵	o×n

表3阵营中装备功能节点关联矩阵

在表2中，m表示阵营的目标节点数量，n表示阵营中侦察节点数量，o表示阵营中指控节点数量，p表示阵营中打击节点数量。

S402.结合关联矩阵和武器装备体系对抗网络计算得到多方阵营的多个作战能力环。

其中，结合关联矩阵和武器装备体系对抗网络中各个功能节点之间的功能边，可以构建出多方阵营的作战能力环以及作战能力环的数量计算公式，作战能力环形式和计算公式如表4所示。

/>

表4作战能力环形式及其计算公式

S403.聚合多个作战能力环计算得到多方阵营的阵营收益。

其中，聚合所有作战能力环并统计不同类型作战能力环的数量，以及不同类型作战能力环对敌方造成威胁的持续时间，从而可以计算出多方阵营的阵营收益。

本实施例其中一种实施方式的实施原理为：

阵营收益主要指将多方阵营所有作战能力环的能力进行聚合，所得到阵营武器装备体系的整体作战能力。因此可以根据武器装备体系网络构建多方阵营中多个装备功能节点之间的关联矩阵，再基于关联矩阵计算出多方阵营的多个作战能力环，从而聚合所有作战能力环并计算出多方阵营的阵营收益。

在本实施例的其中一种实施方式中，作战能力环包括广义作战能力环和标准作战能力环，参照图7，步骤S403即聚合多个作战能力环计算得到多方阵营的阵营收益具体包括如下步骤：

S501.分别计算广义作战能力环和标准作战能力环的能力环数量。

其中，可以根据表4中的公式(1)至(6)计算并统计出广义作战能力环和标准作战能力环的能力环数量。

S502.统计广义作战能力环对敌方造成威胁的第一持续时间。

其中，第一持续时间为广义作战能力环对敌方威胁在时间上的积累。

S503.统计标准作战能力环对敌方造成威胁的第二持续时间。

其中，第二持续时间为标准作战能力环对敌方威胁在时间上的积累。

S504.结合能力环数量、第一持续时间和第二持续时间计算多方阵营的阵营收益。

其中，举例说明，假设本实施例中的两个多方阵营分别为阵营A和阵营B，假设在第k个博弈阶段，阵营A的所有参与方组成的策略为

阵营B所有参与方的选择策略组成的集合为/>

阵营B中参与方的类型为Θ_b，由所有参与方的武器装备发展方案生成武器装备体系对抗网络。根据表4中的公式(1)至(6)计算阵营武器装备体系对抗网络中阵营A对阵营B的标准作战能力环数量为m₁，广义作战能力环数量为m₂，阵营B对阵营A的标准作战能力环数量为m₃，广义作战能力环数量为m₄，则第k个阶段，阵营A的阵营收益公式如下：/>

式中：

为阵营A的阵营收益，/>

为标准作战能力环对敌方造成威胁的持续时间，

为广义作战能力环对敌方造成威胁的持续时间。

阵营B的阵营收益公式如下：

式中：

为阵营B的阵营收益，/>

为标准作战能力环对敌方造成威胁的持续时间，

为广义作战能力环对敌方造成威胁的持续时间。

在阵营A和B的阵营收益公式中，

代表第k个标准作战能力环对敌方的威胁能力，/>

代表第g个广义作战能力环对敌方的威胁能力。作战能力环的威胁能力主要取决于侦察、指控和打击三类节点的功能评价值。由于标准作战能力环只包含4个节点，标准作战能力环的侦察、指控、打击能力对应侦察、指控、打击节点的功能评价值。

设定侦察节点、指控节点和打击节点的功能评价值为d_s,d_c,d_a。采用乘积形式计算标准作战能力环的威胁能力，同时考虑敌方作战能力环覆盖数对我方功能节点的影响，设定标准作战能力环威胁能力D_so的计算公式为：

式中：u_s,u_c,u_a分别代表标准作战能力环三类节点(侦察、指控、打击)的威胁能力系数。

由于广义作战能力环中同功能类(侦察、指控、打击)下的节点数量不唯一，对广义作战能力环的侦察、指控、打击能力产生影响。因此在计算广义作战能力环威胁能力前，需要计算广义作战能力环的侦察能力d_s、指控能力d_c和打击能力d_a。假设一个广义作战能力环中包含x个信息传递关系的侦察节点，侦察节点之间存在信息传递和协同控制关系，则广义作战能力环的侦察能力d_s计算公式为：

其中，

为该广义作战能力环中的各个侦察节点功能值，/>

为该广义作战能力环中的各个侦察节点的威胁能力系数。同理，计算广义作战能力环的指控能力d_c、打击能力d_a分别为：

/>

其中，

为广义作战能力环中指控节点功能值，/>

为广义作战能力环中打击节点功能值，/>

代表广义作战能力环各个指控节点和打击节点的威胁能力指数。

结合计算得到的侦察、指控、打击能力，采用乘积形式计算广义作战能力环的威胁能力D_ol为：

本实施例其中一种实施方式的实施原理为：

分别计算出两种类型作战能力环的能力环数量，并统计出两种类型作战能力环对地方造成威胁的持续时间，最终结合能力环数量和持续时间即可计算出多方阵营的阵营收益。

在计算出多方阵营的阵营收益之后，对于本实施例中多方阵营内的收益分配方案问题，则需要采用合作博弈理论。例如：在合作博弈G＝(N,V)中，N代表参与方数量，V代表收益，若N维向量x同时满足：x_i≥V({i})和

则称向量x为合作博弈的一个分配。本实施例中对于合作博弈的求解采用宗系解，宗系解基于“占优”和“平均主义”提出。

宗系解的相关定义包括宗系、纯宗系、混合宗系、准宗系和宗系核。其中，宗系定义如下：在合作博弈G＝(N,V)中，若对于含有参与方i的联盟T，有T＝argmax_{i∈T',T'∈N}V(T')/|T'|，则称联盟T为参与方i的宗系。合作博弈G＝(N,V)中所有的宗系联盟又称为有效联盟，而被有效联盟占优的联盟则称为该合作博弈的无效联盟。

纯宗系和混合宗系的定义如下：设联盟T为合作博弈G＝(N,V)的有效联盟，若对每一个参与方i∈T，都有

则称联盟T为参与方i的纯宗系；若存在参与方j∈T，使得/>

则称联盟T为混合宗系。

准宗系的定义如下：设T为合作博弈G＝(N,V)的无效联盟，若对每一个参与方i∈T，都有

则称联盟T为参与方i的准宗系，在合作博弈G＝(N,V)中准宗系一定存在。宗系核的定义如下：在合作博弈G＝(N,V)中，根据宗系求出的解集称为宗系核。

在本实施例的其中一种实施方式中，参照图8，步骤S103即采用宗系解法计算多方阵营中所有参与方对于阵营收益的最优分配结果具体包括如下步骤：

S601.计算阵营收益下多方阵营中所有非空联盟的联盟收益平均值。

其中，非空联盟指多方阵营中所有参与方按任意方式任意数量所组成的非空集联盟。在合作博弈G＝(N,V)中，对于任意联盟T符合

则计算联盟T的联盟收益平均值a(T)，计算公式为：a(T)＝V(T)/|T|。

S602.基于联盟收益平均值求解得到所有参与方的宗系联盟。

其中，根据公式

求解出多方阵营中的所有参与方的宗系，再将所有宗系组成的集合作为宗系联盟。

S603.确定每个参与方的准宗系联盟。

其中，从宗系联盟中确定每个参与方的准宗系联盟。

S604.基于帕累托改进并结合宗系联盟和准宗系联盟解得宗系核。

其中，当宗系联盟瓦解，其中的参与方将基于自身的纯宗系或准宗系，并按照帕累托改进理论与其他参与方进行合作，以形成能获得最大帕累托改进的联盟，并且联盟中的所有参与方可以分割合作所带来的盈余，由此得到合作博弈的宗系核。本实施例中的宗系核即为所有参与方对于阵营收益的最优分配结果。

举例说明：假设多方阵营中有三个参与方，参与方策略已经给出，分别计算不同联盟的收益：U(1)＝4，U(2)＝1，U(3)＝1，U(1,2)＝6，U(1,3)＝7，U(2,3)＝4，U(1,2,3)＝10，由此可以得到参与方采取不同联盟方式下的阵营收益，如表5所示。其中，参与方1、2、3的宗系分别为{1}，{1，2，3}，{1，3}。纯宗系为{1}，混合宗系为{1，2，3}和{1，3}。参与方1、2、3的准宗系分别为{1}，{1，2}，{2，3}。混合宗系{1，2，3}和{1，3}容易因参与方1而瓦解。

联盟方式	阵营收益
		{1}，{2}，{3}	6
{1，2}，{3}	7
		{1，3}，{2}	8
{2，3}，{1}	8
		{1，2，3}	10

表5宗系解求解结果示例

为实现获得最大帕累托改进的联盟{1，2，3}，参与方2和3首先满足局中1在联盟中的收益至少为4，同时参与方2和3以联盟U(2,3)＝4为筹码与参与方1进行合作，保证参与方现有利益的基础上进行合作形成大联盟，平分构成联盟所带来的额外收益，其中额外收益为2，最后得到阵营A的收益为10。即可解得宗系核：参与方的收益分配为(4.67，2.67，2.67)，所解得的收益分配同时满足参与方的个体理性和多方阵营中的联盟最优。

本实施例其中一种实施方式的实施原理为：

对多方阵营中的宗系核进行求解，以得到所有参与方对于阵营收益的最优分配结果。采用宗系解的方式分析合作博弈，相较于采用夏普利解的方式，可以在满足参与方满足个体理性的基础上个，对阵营收益进行更加合理的分配。

在本实施例的其中一种实施方式中，参照图9，步骤S104即根据最优分配结果并结合策略集合和初始先验概率构建精炼贝叶斯均衡具体包括如下步骤：

S701.根据最优分配结果从策略集合中筛选出初始博弈阶段的初始策略集合。

S702.结合初始策略集合和初始先验概率构建精炼贝叶斯均衡。

其中，结合初始策略集合和初始先验概率推断出初始博弈阶段的最优策略选择，并根据贝叶斯法则计算出初始博弈阶段的后验概率，再结合最优策略选择和后验概率构建初始博弈阶段的精炼贝叶斯均衡。

在本实施例的其中一种实施方式中，参照图10，步骤S105即通过对精炼贝叶斯均衡求解，得到初始博弈阶段时的最优策略选择和后验概率具体包括如下步骤：

S801.基于初始策略集合计算推断后验概率。

其中，在本实施例中，基于表2中的说明设定，假设两个多方阵营分别为第一阵营和第二阵营，计算第一阵营基于第二阵营中参与方的初始策略集合，对第二阵营中参与方类型的后验概率推断为P(Θ_B|B)。

S802.根据推断后验概率计算分析两个多方阵营在初始博弈阶段时的最优策略选择。

其中，参考步骤S801中的示例说明，第一阵营基于对第二阵营参与方类型的后验概率推断P(Θ_B|B)选择最优策略，使自己的博弈收益期望取最大值，即通过计算max∑P(Θ_B|B)*U_A(A,B,Θ_B)，得到第一阵营推断的最优策略选择集合A^*(B)，A^*(B)满足条件

第二阵营中的参与方预见到第一阵营中的参与方会选择最优策略集合A^*(B)，为使自己的博弈收益取最大值，通过计算maxU_B(A^*(B),B,Θ_B)得到第二阵营推断的最优策略选择集合B^*(Θ_B)，B^*(Θ_B)满足条件/>

S803.结合最优策略选择和初始先验概率，并通过贝叶斯法则计算得到初始博弈阶段时的后验概率。

其中，参考步骤S801和步骤S802的示例说明，第一阵营基于先验概率以及第二阵营中参与方策略集合B，并通过贝叶斯法则计算得到初始博弈阶段的后验概率P(Θ_B|B)。

S804.若推断后验概率与后验概率不冲突，则完成对精炼贝叶斯均衡的求解。

其中，在本实施方式中，假设两个多方阵营分别为第一阵营和第二阵营，初始博弈阶段精炼贝叶斯均衡的公式为：

其中，EQ(k)表示第k个博弈阶段的精炼贝叶斯均衡，k＝1表示当前博弈阶段为初始博弈阶段，A^*(B)为第一阵营的初始策略集合；B^*(Θ_B)为第二阵营的初始策略集合；

为第一阵营根据B^*(Θ_B)和A^*(B)并采用贝叶斯法则计算得到第二阵营中参与方类型的后验概率。

当初始博弈阶段结束后，第一阵营通过后验概率修正了对第二阵营中参与方的推断，即

当进入下一阶段后，第一阵营会选择上一阶段贝叶斯精炼均衡解的后验概率作为对阵营B中参与方类型的先验判断，即/>

本实施例其中一种实施方式的实施原理为：

在初始博弈阶段进行精炼贝叶斯博弈均衡求解，求解得出的精炼贝叶斯均衡包含了第一阵营和第二阵营的初始策略集合和参与方类型的后验概率更新。均衡策略对应了参与方的最优策略，同时，通过精炼贝叶斯博弈均衡求解，也使得其中一个阵营对另一个阵营的先验概率进行了更新，初始博弈阶段的后验概率会作为下一阶段的先验概率，从而进一步影响下一阶段的博弈均衡求解和博弈结果。

本发明实施例还公开一种多方阵营博弈的武器装备发展规划策略选择系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如上述的方法。

本实施例的实施原理为：

通过程序的调取，基于两个多方阵营之间的对抗关系，根据阵营参数可以计算出两个多方阵营在初始博弈阶段的阵营收益，再基于多方阵营内部的联盟合作关系，并采用宗系解法计算出所有参与方对于阵营收益的最优分配结果。从而构建精炼贝叶斯均衡并求解，得到初始博弈阶段时的最优策略选择和后验概率，将每个当前博弈阶段的后验概率作为下一博弈阶段的先验概率，从而进一步影响下一博弈阶段中的策略选择，形成不完全信息更新-策略选择的动态迭代过程。最终根据对每个博弈阶段的精炼贝叶斯均衡求解，得到每个博弈阶段的最优策略选择。相较于单一非合作或合作博弈的理论分析，可以更加精准对非合作-合作并存的多方博弈场景进行分析，从而更加精准的选择博弈场景下武器装备的发展规划策略。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本的保护范围限于这些例子；在本的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上的本中一个或多个实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

本中一个或多个实施例旨在涵盖落入本的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本中一个或多个实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本的保护范围之内。

Claims

1.一种多方阵营博弈的武器装备发展规划策略选择方法，其特征在于，所述方法包括如下步骤：

基于所述阵营参数计算所述初始博弈阶段时的阵营收益；

2.根据权利要求1所述的多方阵营博弈的武器装备发展规划策略选择方法，其特征在于，所述基于所述阵营参数计算所述初始博弈阶段时的阵营收益包括如下步骤：

基于所述阵营参数生成所述多方阵营的武器装备体系网络；

3.根据权利要求2所述的多方阵营博弈的武器装备发展规划策略选择方法，其特征在于，所述阵营参数包括阵营策略集合、武器装备参数和所述多方阵营中的参与方参数，所述基于所述阵营参数生成所述多方阵营的武器装备体系网络包括如下步骤：

基于所述武器装备参数生成多个装备功能节点；

4.根据权利要求2所述的多方阵营博弈的武器装备发展规划策略选择方法，其特征在于，所述基于所述武器装备体系对抗网络评估计算所述初始博弈阶段时所述多方阵营的阵营收益包括如下步骤：

5.根据权利要求4所述的多方阵营博弈的武器装备发展规划策略选择方法，其特征在于，所述作战能力环包括广义作战能力环和标准作战能力环，所述聚合多个所述作战能力环计算得到所述多方阵营的阵营收益包括如下步骤：

统计所述广义作战能力环对敌方造成威胁的第一持续时间；

统计所述标准作战能力环对敌方造成威胁的第二持续时间；

6.根据权利要求1所述的多方阵营博弈的武器装备发展规划策略选择方法，其特征在于，所述采用宗系解法计算所述多方阵营中所有参与方对于所述阵营收益的最优分配结果包括如下步骤：

确定每个所述参与方的准宗系联盟；

7.根据权利要求1所述的多方阵营博弈的武器装备发展规划策略选择方法，其特征在于，所述根据所述最优分配结果并结合所述策略集合和所述初始先验概率构建精炼贝叶斯均衡包括如下步骤：

8.根据权利要求7所述的多方阵营博弈的武器装备发展规划策略选择方法，其特征在于，所述通过对所述精炼贝叶斯均衡求解，得到所述初始博弈阶段时的最优策略选择和后验概率包括如下步骤：

基于所述初始策略集合计算推断后验概率；

9.根据权利要求7所述的多方阵营博弈的武器装备发展规划策略选择方法，其特征在于，两个所述多方阵营分别为第一阵营和第二阵营，所述精炼贝叶斯均衡的公式为：

10.一种多方阵营博弈的武器装备发展规划策略选择系统，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至9中任意一项所述的方法。