CN112329348B

CN112329348B - 一种面向非完全信息条件下军事对抗博弈的智能决策方法

Info

Publication number: CN112329348B
Application number: CN202011233703.0A
Authority: CN
Inventors: 杜金铭
Original assignee: 东北大学
Priority date: 2020-11-06
Filing date: 2020-11-06
Publication date: 2023-09-15
Anticipated expiration: 2040-11-06
Also published as: CN112329348A

Abstract

本发明公开了一种面向非完全信息条件下军事对抗博弈的智能决策方法，该方法包括：构建军事对抗博弈决策动力学基础模型；基于深度学习和自我博弈，建立军事对抗博弈智能学习模型并确定其模型参数；利用基础模型、智能学习模型及其参数，对对抗环境下的非完全信息战场态势进行分析预测；基于所述分析预测结果和“决策‑反馈‑动态优化”的智能优化决策模式，得到不确定对抗环境中的智能优化决策。本发明通过对军事对抗博弈场景下的非完全信息进行辨识以及预测，将非完全信息条件转变为完全信息条件，进而得到军事对抗决策，解决了军事对抗博弈环境下由于信息不完全导致的无法得到有利于自己的军事对抗决策的技术问题。

Description

一种面向非完全信息条件下军事对抗博弈的智能决策方法

技术领域

本发明涉及信息技术与军事决策技术领域，更具体地说，涉及一种面向非完全信息条件下军事对抗博弈的智能决策方法。

背景技术

军事决策是构成军事行为的核心活动。军队指挥官的首要任务是在作战以及其它管理工作中进行决策，要想成功地指挥一场实战或演习，就要为完成特定作战任务而进行组织、计划和任务分配等决策。能做出英明的决策是指挥官最重要的才能，决策的合理性和及时性也是直接影响战争胜利的关键因素。

现代战争中的军事对抗决策具有信息不完全、条件不确定、对抗性强以及节奏快等突出特点。这些特点使得军事对抗决策的难度非常大。在大数据时代，各种军事情报、战况信息骤增，数据的复杂性和实时性增强，也给军事决策带来了前所未有的挑战。

发明内容

有鉴于此，本发明的发明目的在于提供一种面向非完全信息条件下军事对抗博弈的智能决策方法，以在非完全信息条件下得到有利于自己的军事对抗决策。

为了实现上述目的，现提出的方案如下：

一种面向非完全信息条件下军事对抗博弈的智能决策方法，包括：

S101、构建军事对抗博弈决策动力学基础模型；

S102、基于深度学习和自我博弈，建立军事对抗博弈智能学习模型并确定模型的参数；所述军事对抗博弈智能学习模型用于替代或求解所述基础模型中的策略更新规则；

S103、利用所述基础模型、所述军事对抗博弈智能学习模型及其参数，对对抗环境下的非完全信息战场态势进行分析预测；

S104、基于分析预测结果和“决策-反馈-动态优化”的智能优化决策模式，得到不确定对抗环境中的智能优化决策。

进一步地，构建军事对抗博弈决策动力学基础模型，包括：

确定博弈参与方；

确定博弈参与方的策略；

根据博弈关系确定参与方在博弈中的收益，包括：

基于博弈参与者以及策略形成博弈矩阵；

基于博弈矩阵确定博弈群体的状态ξ：＝[ξ_A ξ_B]^T，每一个分量ξ_X(X＝A，B)代表采取策略X的参与者在整个系统中所占的比例；

由复制动力学方程表示各个状态的变化：

r_X(ξ，ψ)：＝ψ_Xξ-ξ^Tψξ

其中，ψ_Xξ和ξ^Tψξ分别代表策略X的期望收益和整个系统的平均收益；ξ是状态向量，ξ_A、ξ_B分别代表采用策略A、B的个体在系统中的比例，ψ是收益矩阵，r_X(ξ，ψ)表示策略X的平均收益与系统平均收益的差；各个参与方基于在博弈中的收益进行策略更新。

进一步地，所述各个参与方基于在博弈中的收益进行策略更新，包括：根据对当前战场态势信息的分析预测，利用所述军事对抗博弈智能学习模型实时优化决策下一步的行动策略。

进一步地，基于深度学习和自我博弈，建立军事对抗博弈智能学习模型并确定模型的参数，包括：

基于深度神经网络构建军事对抗博弈智能学习模型，所述军事对抗博弈智能学习模型的输入包括当前的军事对抗状态，所述军事对抗博弈智能学习模型的输出包括策略部分和价值部分；对于策略部分，预测当前各行动策略被采用的概率；对于价值部分，输出是当前战场局面胜负的评估值，在[-1,1]之间；深度神经网络的结构为以CNN组成的深度残差网络；

根据专家经验规则，确定蓝图策略；

基于所述蓝图策略，通过所述军事对抗博弈智能学习模型的自我博弈，产生大量战场对抗样本；以所述战场对抗样本作为训练数据训练所述军事对抗博弈智能学习模型，确定优化后的神经网络参数。

进一步地，利用所述基础模型、所述军事对抗博弈智能学习模型及其参数，对对抗环境下的非完全信息战场态势进行分析预测，包括：

利用蒙特卡洛树搜索方法搜索优势策略和安全策略；

对抗路径抽象归类及信息集分割，为战场环境构建模型以及对抗态势分析提供知识约束空间支撑，包括：提供敌我武器装备性能参数、作战区域位置、作战场景要素；

将作战信息，依次编码代入蒙特卡洛决策树，进行自我博弈仿真，分别得到预测结果；

根据预测结果划分信息对战场胜负与否的影响程度；

根据人工智能聚类方法，进行战场态势信息集的划分。

进一步地，对抗路径抽象归类及信息集分割，包括：

从数据库中提取作战信息；所述作战信息包括战斗编队规模、位置以及武器装备信息，将其映射到场景模型中，通过二进制序列编码的大小表示作战编队的规模、位置以及武器装备水平；

基于用户提供的军事对抗数据和限定规则，生成用于对抗的环境模型；

根据演化脉络进行对抗路径抽象归类与信息集分割。

进一步地，还包括：通过对战局影响较弱的战场态势信息所在的蒙特卡洛搜索树进行剪枝，抽象简化搜索目标。

进一步地，“决策-反馈-动态优化”的智能优化决策模式按照以下方式获得：

针对当前的对抗军事场景，实时监督与跟踪博弈对抗路径，分析对抗路径的偏离程度；

基于对抗路径偏离信息的动态反馈，重新分析与预测对抗路径信息，根据实时的战场态势以及各方的行动策略，不断更新基础模型以及智能学习模型，将每一次决策后的博弈状态反馈到模型中，加上环境的实时变化，更新博弈树，再利用更新后的学习模型优化下一步的策略决策，实现“决策-反馈-动态优化”的智能军事决策模式。

进一步地，基于分析预测结果和“决策-反馈-动态优化”的智能优化决策模式，得到不确定对抗环境中的智能优化决策，包括：

结合监督学习、强化学习以及模仿学习，在整个博弈过程中不断学习对手的策略，在实时决策过程中，通过反馈，不断优化自身策略，提升决策能力；

对博弈参与者的开局动作策略分布进行编码，以保留一些开局的高级策略，作为学习样本，用于模仿学习；

通过蒙特卡洛反事实后悔值最小化算法，优化所述蓝图策略。

进一步地，通过蒙特卡洛反事实后悔值最小化算法，优化所述蓝图策略，包括：

模拟所有参与方使用相同策略在当前状态下进行决策；

在每一次决策之后，递归地检查每个决策，并与在相同情况下可能选择的其他操作相比，评估该决策的预期结果；

通过模仿学习，将历史博弈中的人类探索方案加入到新的行动方案空间中；并通过强化学习，对于新的策略动作，利用奖励和惩罚对于新方案与原有方案的差异进行评估；

为了处理非完全信息，需要执行嵌套搜索，维护搜索树的根节点和每个参与方持有的策略的根节点的概率分布；

通过抽象归类机制，将类似的情况打包在一起，减少决策点的数量。使用蒙特卡洛反事实后悔值最小化算法，将每个行动方案映射到一个分布；

基于当前的局面，针对将类似的决策点组合在一起之后的更简单的博弈版本，进行嵌套子博弈求解，得到不确定对抗环境中的智能优化决策。

本发明具有以下有益效果：

1、本发明中结合深度学习、博弈状态依赖的信息集分割和演化路径的抽象归类，建立复杂军事对抗环境下的战场态势信息分析与预测方法，支持群体对抗的动力学分析，通过对军事对抗博弈场景下的非完全信息进行辨识以及预测，将非完全信息条件转变为完全信息条件，进而得到军事对抗决策，解决了军事对抗博弈环境下由于信息不完全导致的无法得到有利于自己的军事对抗决策的技术问题。

2、本发明中通过模型的自我博弈，产生大量战场对抗样本，不需要使用历史对局经验来学习，当遇到没有见过的战场局面时，也能提供当前状态下的局面评估和行动概率参考，能够在复杂多变的军事对抗博弈环境下进行准确的军事对抗决策。

3、本发明利用动态嵌入子博弈实时求解和基于反馈的全局优化方法，设计“决策-反馈-动态优化”的决策模式，自适应地应对不确定军事博弈对抗。本发明结合人在回路的思想，在深度学习中结合模仿学习，在整个博弈过程中不断学习对手(人类)的策略，在实时决策过程中，通过反馈，补充人类探索的策略，完善策略行动空间，进而动态优化自身策略，这是提升决策能力的关键，可以有效地将人类智慧与机器智能融合，实现人机交互和实时反馈，有助于深层次理解人类行为动因和决策方式，为智能化构建未来作战场景提供支撑。

4、本发明采用了基于蒙特卡洛抽样的反事实后悔值最小化算法(MCCFR)，MCCFR算法每次迭代时仅仅遍历部分抽样的子博弈树，对于解决非完全信息博弈问题更为有效。由于MCCFR只需要遍历Q中的历史来计算采样反事实后悔值，MCCFR比传统的虚拟遗憾最小化算法(CFR)大大的降低了每次迭代的时间，同时也加速了策略的收敛。在那些可能有多种随机结果的军事对抗博弈场景中，即使CFR算法在收敛之前需要进行大量的迭代，MCCFR都可以显著的减少每次迭代的遍历时间。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种面向非完全信息条件下军事对抗博弈的架构框图；

图2为本发明实施例公开的一种非完全信息条件下的军事对抗博弈决策动力学基础模型示意图；

图3为本发明实施例公开的一种基于深度学习和演化博弈论的面向军事对抗的智能学习模型示意图；

图4为本发明实施例公开的一种复杂军事对抗环境下的非完全信息战场态势分析预测的架构框图；

图5为本发明实施例公开的一种不确定复杂军事对抗环境中智能决策模式示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，其示出了一种面向非完全信息条件下军事对抗博弈的架构框图，该方法包括：

S101、构建军事对抗博弈决策动力学基础模型。

参见图2，其示出了一种非完全信息条件下的军事对抗博弈决策动力学基础模型示意图。本发明实施例中，综合利用重复博弈理论、分枝过程理论、贝叶斯推断、动态优化方法、随机过程理论、演化博弈论、复杂网络理论与方法等建立复杂军事对抗环境下非完全信息博弈的基础模型。

在具体实施时，可以按照以下步骤建立基础模型：

(1)确定博弈参与方：红蓝双方或多方

不失一般性，以不确定性环境下的红蓝双方博弈为例，可以理解的是，本发明也完全可以由两个体博弈扩展至多个体博弈的军事对抗情形。

在对抗中，红蓝双方扮演着博弈环境中参与者的角色。每个参与者在对抗中具有各自的目标或任务。各参与方的利益由所有参与者所采取的行动而决定。

(2)指定博弈参与者的策略

每个参与者具有不同的可选军事对抗战术行为方式，作为他们的策略。

不失一般性，以两策略博弈为例，参与者的策略可以为：A进攻或B防守，A从左翼突破或B从右翼突破，选择武器A或选择武器B，选择侦查A或全歼B，选择求生A或手术刀打击B，等等。可以理解的是，本发明也完全可以扩展至多策略n的情况。

(3)确定参与者在博弈中的收益

每个参与者通过与其他对手进行信息交互，处理比较所获取的信息。在每一时刻，根据其自身及对手的状态，获得一定的收益(Payoff)。

在具体实施时，可以根据博弈关系计算收益：

基于博弈矩阵

定义博弈群体的状态为：ξ：＝[ξ_A ξ_B]^T；

其中，每一个分量ξ_X(X＝A，B)，代表采取策略X的参与者在整个系统中所占的比例，即ξ∈Ω₀：＝{ξ|0≤ξ_A≤1，0≤ξ_B≤1，ξ_A+ξ_B＝1}。

于是，系统中每一组分量的变化，可由如下复制动力学方程表示：

r_X(ξ，ψ)：＝ψ_Xξ-ξ^Tψξ；

其中，ξ是状态向量，ξ_A、ξ_B分别代表采用策略A、B的个体在系统中的比例，ψ是收益矩阵，r_X(ξ，ψ)表示策略X的平均收益与系统平均收益的差；ψ_Xξ和ξ^T _ψξ分别代表策略X的期望收益和整个系统的平均收益(亦可等效于一个随机选取的参与者的收益的平均值)。于是，那些采取高于平均收益策略的参与者构成的子系统将扩大，相反收益较差的群体将减小。

分析上述复制动力学方程的平衡点，即可确定系统的演化稳定策略。

(4)确定博弈参与者的策略更新规则

具有理性特征的参与者，通过评估其收益，以自身利益(Benefit)为目标调整其策略。经策略更新的过程，对抗系统不断演化。

在博弈对抗过程中，各参与方评估其收益并进行策略更新。多种不同的更新规则可以用于刻画种群的进化，例如模仿和自学习过程。在模仿过程中，参与方i用其自身收益与对手的收益进行比较，比较的对象可以是对手的收益，也可以是相应的加权值。另一方面，参与者可以根据一个预设的基准期望来评估调整其行为。通过比较，参与者自适应地更新策略，以提高其对环境的适应度。更新过程是一个随机过程，参与者或者通过学习表现更好的对手的行为，或者在策略空间中随机切换其策略，或者保持其当前策略。更新规则的设计，同样因具体的实际军事问题而异，既要基于对抗系统的整体目标，又要符合参与者实际限制的要求，特别是系统中参与者的军事实力及通讯能力。特别地，自评估学习的更新方式，是一种对于信息要求较少的更新规则，它不需要考察其他参与者的状态信息，即可实现单个参与者的策略更新进化过程。但这一过程中，需要合理准确地设计期望值，以适应系统目标的要求。

本发明实施例中，基于复制动力学给出一种自适应的更新规则例子，该规则类似于博弈理论中的Win-Stay-Lose-Shift策略。定义策略X在t时刻的状态如下：

其中，η(X，t)＝1和η(X，t)＝0分别意味着在t时刻策略X的收益要高于(或低于)平均收益。

智能体依如下条件概率进行决策：

Pr(State_i(t)＝X|η(X,t)＝1)＝1

Pr(State_i(t)＝switch(X)|η(X,t)＝1)＝0

Pr(State_i(t)＝X|η(X,t)＝0)＝1+ωr_X(ξ,ψ)

Pr(State_i(t)＝switch(X)|η(X,t)＝0)＝-ωr_X(ξ,ψ).

其中，如果X＝A，则switch(X)＝B；相应地，X＝B，则switch(X)＝A。如果收益高于平均水平(即η(X,t)＝1)，智能体保持其当前策略不变；否则(即η(X,t)＝0)，智能体以概率-ωr_X(ξ,ψ)切换其策略。定义ω>0，代表选择强度，表征博弈所产生适应度的差异对智能体决策的影响程度，满足-ωr_X(ξ,ψ)<1。于是,经过一步更新后,种群的状态变为：

基于上述设计方法，系统可以在智能体随机调整其行为以提高自身利益的过程中进化。通过合理设计博弈中的各个环节，系统可以朝着最优化的性能指标或相应的控制目标进化。

S102、基于深度学习和自我博弈，建立军事对抗博弈智能学习模型并确定模型的参数。

军事对抗博弈智能学习模型的作用是替代/求解博弈基础模型中的策略更新规则。其目的在于根据双方的历史博弈过程，预测博弈中双方的未来行动可能，计算各种情况下的最终博弈结果，从而推断出对方最有可能的行动方案，并给出己方的最优应对，实现博弈策略的更新，指导决策。

如图3所示，其示出了一种基于深度学习和演化博弈论的面向军事对抗的智能学习模型示意图。综合利用重复博弈理论、演化博弈论、博弈学习理论、强化学习算法、进化计算算法、二进制序列、元胞机、马尔科夫链等建立具备战术策略优化选择能力的面向军事对抗的智能学习模型，实现军事博弈对抗环境下战术策略演化的实时动态模拟，评估并确定复杂军事对抗环境下智能学习模型参数，实现优势策略的有效搜索，分析优势策略在不同军事博弈场景中的入侵和军事对抗能力及其策略的计算复杂度。

在一种可能的实现方式中，基于深度神经网络构建军事对抗博弈智能学习模型，获取初始策略(蓝图策略blueprint)，通过虚拟自我博弈训练模型、学习调整参数。具体地，在自我博弈之前，根据专家经验规则，先给出一些初始的可行的基本行动策略，相当于初始值，用于模型训练。在这个地方，本来最简单的也可以给一些随机的策略值，但加入一些有军事指挥经验的指挥员的初始决策方案，会对演化起到加速和推动决策优化的作用，节省计算资源和时间。蓝图策略相当于是一个方向性的、早期的、粗糙的行动方案框架，后续会在其基础上进行预测分析、改进，不断优化、细化蓝图策略，随着时间的演化增减相关决策细节，从而完善策略行动方案。

在具体实施时，按照如下方式构建军事对抗博弈智能学习模型：

(1)确定神经网络的结构

a)神经网络的输入

神经网络输入的是当前的军事对抗状态。由于战场信息是时变的，不同的可选行动方案的状态也跟当前的对抗态势有关，以两策略博弈为例，如果当前是红方决策，则战场上红方采用某策略A则取值为1，采用策略B则取值为0；反过来，如果当前是蓝方决策，则当前蓝方采取行动策略A取值1，采用策略B则取值为0。同时，为了提供更多的战场环境信息，输入的战场状态不光只有当前的状态，还包括了红蓝双方各自前8步对应的行动状态。除了这16个状态，还有一个单独的状态用于标识当前行动方，如果是当前红方行动，则状态上标全1，蓝方则状态上标全0。考虑军事对抗中的k种约束、规则与环境信息(后续步骤中详述)，这样，可以选择神经网络的输入是一个(2+k)×17的张量。里面包含红方和蓝方的最近8步行动状态和当前行动方的信息。

b)神经网络的输出

神经网络的输出包括策略部分和价值部分。对于策略部分，它预测当前各行动策略被采用的概率。以两策略博弈为例，加上某一方可能因故还可以不行动，因此共有3个策略端概率输出。

对于价值部分，输出就比较直观，就是当前战场局面胜负的评估值，在[-1,1]之间。

c)网络结构

确定了神经网络的输入和输出，再选取神经网络的结构，主要是用CNN组成的深度残差网络。在(2+k)×17的张量做了一个基本的卷积后，使用19层或者39层的深度残差网络，这个是ResNet的经典结构。理论上这里也可以使用DenseNet等其他流行的网络结构。

整个神经网络就是为了当遇到没有见过的战场局面时，提供的当前状态下的局面评估和行动概率参考。这部分信息会被后续蒙特卡洛树搜索综合利用。

(2)神经网络的训练过程

训练过程主要分为三个阶段：自我对战博弈学习阶段，训练神经网络阶段和评估网络阶段。

a)自我对战博弈学习阶段

主要是模型的自我博弈，产生大量战场对抗样本的过程，由于本发明方法不需要使用传统专家系统的历史对局经验来学习，只需要战场条件约束、行动限制等基本规则，因此需要自我博弈得到训练数据用于后续神经网络的训练。在自我对战学习阶段，每一步的行动是由蒙特卡洛树搜索来完成的。在搜索的过程中，遇到不在树中的状态，则使用神经网络的结果来更新树结构上保存的内容。在每一次迭代过程中，在每个当前战场状态s下，每一次使用1600次搜索模拟。最终树搜索给出最优的行动策略π，这个策略π和神经网络的输出p是不一样的。当每一局对战结束后，可以得到最终的胜负奖励z,1或者-1。这样可以得到非常多的样本(s,π,z)，这些数据可以训练神经网络阶段。

b)训练神经网络阶段

使用自我博弈学习阶段得到的样本集合(s,π,z)，训练神经网络的模型参数。训练的目的是对于每个输入s，神经网络输出的p,v和训练样本中的π,z差距尽可能的少。这个损失函数L可以有很多种，以下是一个很简单的例子：

L＝(z-v)²-π^Tlog(p)+c||θ||²

其中，s是状态输入，π是策略，z是训练样本集的标签，v是模型学习得出的标签结果，p是模型学习到的策略输出，θ是神经元阈值参数，c是正则化参数。

损失函数由三部分组成，第一部分是均方误差损失函数，用于评估神经网络预测的胜负结果和真实结果之间的差异。第二部分是交叉熵损失函数，用于评估神经网络的输出策略和蒙特卡洛树搜索输出的策略的差异。第三部分是L₂正则化项。

通过训练神经网络，可以优化神经网络的参数θ，用于后续指导蒙特卡洛树搜索过程。

c)评估网络阶段

当神经网络训练完毕后，就进行评估阶段，这个阶段主要用于确认神经网络的参数是否得到了优化，这个过程中，自我博弈的双方各自使用自己的神经网络指导蒙特卡洛树搜索，并对战若干局，检验模型在新神经网络参数下决策能力是否得到了提高。除了神经网络的参数不同，这个过程和第一阶段的自我对战博弈学习阶段过程是类似的。

S103、利用所述基础模型、智能学习模型及其参数，对对抗环境下的非完全信息战场态势进行分析预测。

如图4所示，其示出了一种复杂军事对抗环境下的非完全信息战场态势分析预测的架构框图。综合利用贝叶斯推断、压缩感知、最小二乘法、蒙特卡罗树搜索等方法建立复杂军事对抗环境下博弈类型、收益与估值函数、对抗路径、优势策略分析与预测的有效方法，实现关键博弈信息的有效分析与预测，借助虚拟博弈预测博弈对抗的演化脉络，借助信息集分割实现有效演化路径抽象归类，为复杂军事对抗环境下非完全信息的有效分析与预测建立可行的方法体系。构建复杂军事对抗环境下战场态势信息感知与反馈框架，研究非完全信息条件下军事决策类型、收益与估值函数、对抗路径、优势策略的分析与预测方法，提供有效的军事决策信息；依据动作序列估计决策类型，依据历史信息和博弈状态构建收益和估值函数；实施信息集分割和对抗路径的抽象归类，遍历子博弈并预测军事对抗的优势策略。

在具体实施时，可以按照如下步骤进行分析预测：

(1)利用蒙特卡洛树搜索方法搜索优势策略和安全策略

对于蒙特卡洛树搜索的树结构，如果是最简单的方法，只需要在节点上保存状态对应的历史胜负记录。在每条边上保存采样的动作。这样蒙特卡洛树搜索的搜索需要以下4步。

a)选择(Selection)

这一步从根节点开始，每次都选一个“最值得搜索的子节点”，一般使用上限置信区间算法(UCT)选择分数最高的节点。

UCT首先计算每一个可选动作节点对应的分数，这个分数考虑了历史最优策略和探索度，一个常用的公式如下：

其中，w_i是i节点的胜利次数，n_i是i节点的模拟次数，N_i是所有模拟次数，c是探索常数，理论值为可根据经验调整，c越大就越偏向于广度搜索，c越小就越偏向于深度搜索。最后选择分数最高的动作节点。

如此计算，直到来到一个“存在未扩展的子节点”的节点。之所以叫做“存在未扩展的子节点”，是因为这个局面存在未走过的后续变化，也就是蒙特卡洛搜索树中没有后续的动作可以参考了。这时进入第二步。

b)扩展(Expansion)

在这个搜索到的存在未扩展的子节点，加上一个新的子节点，表示没有历史记录参考。这样扩展后，之前的叶子节点现在就是内部节点了。这时进入第三步。

c)仿真(simulation)

从上面这个没有试过的路径开始，用一个简单策略比如快递经验决策走到底，得到一个胜负结果。快速经验决策一般适合选择决策很快但可能不精确的策略。因为如果这个策略走得慢，结果虽然会更准确，但由于耗时多了，在单位时间内的模拟次数就少了，战场局面瞬息万变，所以不一定会战斗力更强，有可能会更弱。这也是为什么一般只模拟一次，因为如果模拟多次，虽然更准确，但更慢。

d)回溯(backpropagation)

做完了扩展和仿真后，需要将最后得到的胜负结果回溯加到蒙特卡洛树结构上。将新叶子节点分支的信息回溯累加到祖先节点分支上去，回溯的逻辑很简单，从每个叶子节点依次向根节点回溯，并依次更新上层分支数据结构。注意除了之前的蒙特卡洛树要回溯外，新加入的节点也要加上一次胜负历史记录。同时在随后的时间步中，这个蒙特卡洛搜索树将会继续使用，对应于实际所采取的行为的子节点将变成根节点，该子节点下的子树的统计数据将会被保留，而这颗树的其余部分将会丢弃。

以上就是蒙特卡洛树搜索的整个过程。这4步一般是通用的，但是树结构上保存的内容一般根据要解决的军事对抗问题和建模的复杂度而不同。

(2)对抗路径抽象归类及信息集分割

在非完全信息对抗中，需要预测环境、对手信息和决策模式，确定收益、估值函数，因此需要利用对抗路径抽象归类和信息集分割，为战场环境构建模型以及对抗态势分析提供知识约束空间支撑，具体包括提供敌我武器装备性能参数、作战区域位置、作战场景要素等。

a)首先从数据库中提取作战信息

从数据库中提取敌我双方作战态势，包括战斗编队规模、位置以及武器装备等信息，将其映射到场景模型中，通过二进制序列编码的大小表示作战编队的规模、位置以及武器装备水平。

b)基于用户提供的军事对抗数据和限定规则，生成用于对抗的环境模型。

具体可包括：

i)基于规则描述的自然地形生成，例如丘陵、山地、沿海、湖泊，海拔、纬度等不同维度的信息的“组合”。

ii)物理规则，针对军事对抗场景中的影响力大小，给出多维度的物理规则，重力加速度，风俗，风阻，气压等。

iii)具体军事对抗中的战场约束，例如，在空军战斗决策中的武器数目、消耗，毁伤、生存概率，等等。

物理规则可以和环境数据联动，例如标准可视范围物理规则，会因距离的增加，可观察对象的尺寸会相应增加(例如，非常远的单位，必须更大才能被侦查到)；与环境信息联动后的物理规则，会基于“海拔”、“大气压强”、“雾霾指数”等环境因素，对可视范围进行动态调节。针对不同任务的对抗推演，提供不同精度的物理规则模拟模型。例如：在大规模战术推演时，可以对“风阻”等细节物理规则进行低精度模拟；在进行单空军单位对抗训练时，则应该选择高精度模拟的“风阻”物理模型。

(c)根据演化脉络进行对抗路径抽象归类与信息集分割

将前述作战信息，依次编码代入蒙特卡洛决策树，进行自我博弈仿真，分别得到预测结果。根据预测结果划分信息对战场胜负与否的影响程度。根据人工智能聚类方法，进行战场态势信息集的划分。聚类算法包括：k-均值(k-Means)、最大期望算法(EM)、密度聚类、谱聚类等等。

进一步，通过对战局影响较弱的战场态势信息所在的蒙特卡洛搜索树进行剪枝，抽象简化搜索目标。对战场目标进行抽象、聚合提炼有效信息，快速判断敌我双方相对位置，敌方集结区域、敌方对我方主攻方向等。

参见图5，其示出了一种不确定复杂军事对抗环境中智能决策模式示意图。综合利用蒙特卡罗树搜索、反事实后悔值最小化方法、子博弈空间降维方法、动态嵌入子博弈实时求解和基于反馈的全局优化方法等工具构建复杂军事对抗环境下博弈决策与优化的方法体系，确定实时军事博弈对抗中的优势策略与安全策略，设计“决策-反馈-动态优化”的智能优化决策模式，为复杂的军事博弈对抗提供有效的决策模式与实现方法，提高复杂对抗环境下军事博弈决策的性能表现。

考虑军事博弈对抗中的动态不确定战场环境，针对博弈对抗军事场景，设计实时监督与跟踪博弈对抗路径的有效方法，分析对抗路径的偏离程度；设计基于对抗路径偏离信息的动态反馈方法，重新分析与预测对抗路径信息，根据实时的战场态势以及各方的行动策略，不断更新基础模型以及智能学习模型。特别是由于信息不完全，所造成的各方的行动策略集是随时可变的，环境信息采集是不完全的、可变化的，于是需要更新智能学习模型，将每一次决策后的博弈状态反馈到模型中，加上环境的实时变化，更新博弈树，再利用更新后的学习模型优化下一步的策略决策，实现“决策-反馈-动态优化”的智能军事决策模式。在非完全信息对抗中，需要根据对抗的当前状态计算一个实时策略来细化之前所得到的蓝图策略。

在军事对抗的复杂不确定信息环境中，策略探索是一个关键问题。在含有未知信息的方案处理领域中，寻找制胜战略是一项挑战。即使拥有强大的自我博弈系统，如果没有一些先验知识，在如此复杂的环境中，系统几乎就不可能制定出成功的策略。

本发明结合监督学习、强化学习以及模仿学习，在整个博弈过程中不断学习对手的策略，在实时决策过程中，通过反馈，不断优化自身策略，这是提升决策能力的关键。

为此，本发明使用监督学习和模仿学习，再加上前述神经网络的体系结构和技术，来优化初始策略(蓝图策略)。本发明对博弈参与者的开局动作策略分布进行编码，这有助于保留一些开局的高级策略，作为学习样本，用于模仿学习。

传统的虚拟遗憾最小化算法(CFR)虽然可以通过对参与者策略状态抽象降低其状态空间的复杂度，但是这仅仅处理了CFR算法每次迭代时遍历的博弈树根节点部分。对于军事对抗博弈问题来说，不是按照棋牌类机器博弈一人一步按顺序决策，而是在不同的复杂战场环境中，参与者每轮每人可多次行动，且每个信息集的决策节点都包含多个分支动作，CFR算法遍历整个博弈树几乎是不可能的，必须依赖其他技术或硬件设备。因此本发明采用了基于蒙特卡洛抽样的反事实后悔值最小化算法(MCCFR)，MCCFR算法每次迭代时仅仅遍历部分抽样的子博弈树，对于解决非完全信息博弈问题更为有效。

MCCFR算法的具体过程如下：

在博弈树中，用Z代表博弈树所有的包含叶子节点z的历史集合，Q＝{Q₁…Q_k}是其子集的集合，或者称为blocks。采样的过程就是把Z划分成一个一个的blocks，这样当且仅当所有的随机动作都相同时，2个历史属于同一个block。

在随机采样中，通过在每一个机会节点处根据可能发生的概率随机的选取动作a产生一个block。基于外部采样的MCCFR则不再是仅仅随机采样，而是根据当前t时刻的对手的策略σ^t _-i更进一步抽样对手的动作。外部采样执行的过程是一个递归的程序，通过递归遍历博弈树获取叶子节点的收益值，然后再回溯递归该博弈树，用得到的收益值更新每个被访问到的信息集中每个可能的决策动作的反事实后悔值。

基于外部采样的MCCFR算法如后所示。该算法的递归函数Walk Tree()考虑四种不同的情况：首先，如果已经到达叶子节点，则返回该叶子节点的收益值；第二，当到达的是机会节点，根据机会节点的策略σ_c采样一个动作，递归该动作a；第三，在对手的选择节点上，根据对手通过后悔匹配计算的策略取样一个动作并递归；最后，Walk Tree()函数处理自己的选择节点。对于每个动作a∈A(I)，递归的获取采样反事实价值然后更新信息集I中的后悔值，最后返回信息集I的采样反事实后悔值，∑_a∈A(I)σ(I,a)v(a)＝v_i(I,σ^t)。

MCCFR伪代码：

/>

相关参数：I为信息集，在信息集I下所能采取的行动集合为A(I)，a为博弈参与者所采取的某一行动，a∈A(I)。R(I，a)为后悔值，S(I，a)为累积分布，Z为博弈树中所有的叶子节点，h为博弈树中的非叶子节点，P(h)表示在节点h行动的参与者，c代表机会节点，σ为策略，u为收益，π(h，·)为采取某策略计算行动序列h出现的概率，π(I，·)为信息集I发生的概率。N为博弈参与者集合，i、n代表参与者，为反事实价值，T为迭代次数，p为随机阈值。

蒙特卡洛反事实后悔值最小化算法的执行过程是一个递归的过程：

1)将博弈树中所有包含叶子节点的历史集合划分成一个一个的子集；

2)根据当前时刻的对手的策略在某个划分子集中进一步抽样对手的动作；

3)通过递归遍历博弈树获取叶子节点的收益值；

4)然后再回溯递归该博弈树，用得到的收益值更新每个被访问到的信息集中每个可能的决策动作的反事实后悔值。

该算法的递归函数具体考虑以下情况：首先，如果已经到达叶子节点，则返回该叶子节点的收益值；第二，当到达的是机会节点，根据机会节点的策略采样一个动作，递归该动作；第三，在对手的选择节点上，根据对手通过后悔匹配计算的策略取样一个动作并递归；最后，处理自己的选择节点，对于每个动作，递归的获取采样反事实价值，然后更新信息集中的后悔值，最后返回信息集的采样反事实后悔值。

本发明中通过蒙特卡洛反事实后悔值最小化算法(Monte Carlo CFR，MCCFR)学习蓝图策略，并进行一些改进，优化蓝图策略。

(1)、首先模拟所有参与方使用相同策略在当前状态下进行决策。

(2)、在每一次决策之后，递归地检查每个决策，并与在相同情况下可能选择的其他操作相比，评估该决策的预期结果。

(3)、通过模仿学习，将历史博弈中的人类探索方案加入到新的行动方案空间中。并通过强化学习，对于新的策略动作，利用奖励和惩罚对于新方案与原有方案的差异进行评估。

(4)、为了处理非完全信息，需要执行嵌套搜索，维护搜索树的根节点和每个参与方持有的策略的根节点的概率分布。

(5)、通过抽象归类机制，将类似的情况打包在一起，减少决策点的数量。使用蒙特卡洛反事实后悔值最小化算法，将每个行动方案映射到一个分布。

(6)、基于当前的局面，针对将类似的决策点组合在一起之后的更简单的博弈版本，进行嵌套子博弈求解，得到不确定对抗环境中的智能优化决策。

为了有效评估叶节点，考虑蓝图策略的以下四种不同变体。

a)抽象归类。

在抽象归类机制中，通过将类似的情况打包在一起，减少了决策点的数量。使用蒙特卡洛反事实后悔值最小化(MCCFR)，将树搜索的复杂性从一个棘手的问题降低到一个可解决的问题。

b)真实博弈

为每个对抗场景提供一个动作策略。

c)抽象策略

使用蒙特卡洛反事实后悔值最小化(MCCFR)通过操作将每个行动方案映射到一个分布。

d)真实策略

每个方案都根据上述抽象策略映射到具体可操作的分布。

对于非完全信息的复杂对抗环境，状态和动作的抽象可以用来抑制搜索树的增长。这对于完整的军事对抗博弈来说是必要的，因为战场环境太过复杂而无法直接搜索。

通过模拟一个更简单的博弈版本，将类似的决策点组合在一起，并消除了一些操作，进行嵌套子博弈求解，基于当前的局面，构建一个全新的更精细的抽象，进行实时计算。

本发明实施例具有以下有益效果：

3、本发明利用动态嵌入子博弈实时求解和基于反馈的全局优化方法，设计“决策-反馈-动态优化”的决策模式，自适应地应对不确定军事博弈对抗。结合结盟动力学机制和子博弈空间的降维方法，提高所设计的智能决策模式在群体对抗中的军事决策能力，促进群体对抗动态分析、决策理论和模拟方法等方面的研究。

本发明在理论体系、研究方法、数学工具、多学科交叉融合、研究成果等方面均具有前瞻性：

(1)在理论体系方面，本发明首次系统地将博弈论、机器学习、控制论、优化理论、随机过程理论融合，设计了复杂军事对抗环境下的博弈对抗决策方法。打破以往军事决策理论中的博弈研究只涉及确定性环境、决策复杂度低、角度单一的局面；突破以往军事博弈对抗中机器学习方法理论匮乏的瓶颈。

(2)在研究方法方面，本发明创新性地构建非完全信息条件下的军事博弈决策动力学基础数学模型、基于深度学习和演化博弈论的智能学习模型、非完全信息条件下博弈对抗中动态子博弈求解方法、战场态势信息分析预测方法、动态反馈优化的智能决策方法，建立军事博弈决策的基础理论，构建实现智能军事决策的方法体系；结合军事博弈对抗的策略结盟动力学机制，提高智能军事决策的有效性。

(3)本发明结合博弈论、控制论、机器学习等基础理论，借助计算机强大的数据处理能力，实现复杂对抗环境中的智能军事决策。由于在现实的战场上，并没有现成的规则，许多规则都在随时改变。因此AI要想能真正应用到军事决策之中，就要有能力在没有掌握规则的前提下，边博弈边学习规则，最终还要能掌握规则并应对获胜。本发明突破了传统的人工智能模型中的信息完全、环境确定的假设，对非完全信息、不确定性条件下的博弈进行建模、分析、决策和优化，建立了基于博弈论的人工智能基础模型，有望引发人工智能范式变革。

本发明具有以下应用前景：

信息化战争时代，对军事决策理论方法提出一系列挑战，例如，将传统上基于给定敌情设想，单军种作战计划制定方法发展为考虑不确定体系对抗动态变化的、灵活的联合兵力作战计划和实施评估调整方法。本发明军事对抗决策中的非完全信息博弈决策方法正是针对新时代军事领域决策支持要求，将先进科技理论方法与不断变化的军事作战不确定环境相结合，建立反映军事活动特点、规律的军事对抗分析框架，有望为我军军事力量建设与运用中的重要军事决策提供必需而又有足够根据的分析支持。

现代军事战争中，战场信息的不确定性极其显著，战争迷雾重重，针对这种典型的非完全信息复杂环境，利用本发明非完全信息博弈分析方法，可以在敌情复杂的场景下提供有效的对敌作战策略，为指挥员做出决策提供辅助，提高复杂对抗环境下的军事决策的科学性和实效性。发明建立基于博弈论的人工智能基础模型，可有效提高不确定军事对抗环境下战术策略搜索效率，所提出的方法与技术，可应用于情报处理、态势分析、方案确定和计划拟制的辅助决策，直接支持军事智能决策支持系统(IDSS)的研制，最终实现指挥效能以及整体作战能力的大幅度提高。

最后，还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种面向非完全信息条件下军事对抗博弈的智能决策方法，其特征在于，包括：

S101、构建军事对抗博弈决策动力学基础模型；

S104、基于分析预测结果和“决策-反馈-动态优化”的智能优化决策模式，得到不确定对抗环境中的智能优化决策；

其中，构建军事对抗博弈决策动力学基础模型，包括：

确定博弈参与方；

确定博弈参与方的策略；

根据博弈关系确定参与方在博弈中的收益，包括：

基于博弈参与者以及策略形成博弈矩阵；

基于博弈矩阵确定博弈群体的状态ξ：＝[ξ_A ξ_B]^T，每一个分量ξ_X(X＝A,B)代表采取策略X的参与者在整个系统中所占的比例；

由复制动力学方程表示各个状态的变化：

r_X(ξ,ψ)：＝ψ_Xξ-ξ^Tψξ

其中，ψ_Xξ和ξ^Tψξ分别代表策略X的期望收益和整个系统的平均收益；ξ是状态向量，ξ_A、ξ_B分别代表采用策略A、B的个体在系统中的比例，ψ是收益矩阵，r_X(ξ,ψ)表示策略X的平均收益与系统平均收益的差；各个参与方基于在博弈中的收益进行策略更新；

其中，基于深度学习和自我博弈，建立军事对抗博弈智能学习模型并确定模型的参数，包括：

根据专家经验规则，确定蓝图策略；

基于所述蓝图策略，通过所述军事对抗博弈智能学习模型的自我博弈，产生大量战场对抗样本；以所述战场对抗样本作为训练数据训练所述军事对抗博弈智能学习模型，确定优化后的神经网络参数；

其中，利用所述基础模型、所述军事对抗博弈智能学习模型及其参数，对对抗环境下的非完全信息战场态势进行分析预测，包括：

利用蒙特卡洛树搜索方法搜索优势策略和安全策略；

根据预测结果划分信息对战场胜负与否的影响程度；

根据人工智能聚类方法，进行战场态势信息集的划分；

其中，对抗路径抽象归类及信息集分割，包括：

根据演化脉络进行对抗路径抽象归类与信息集分割；

其中，“决策-反馈-动态优化”的智能优化决策模式按照以下方式获得：

基于对抗路径偏离信息的动态反馈，重新分析与预测对抗路径信息，根据实时的战场态势以及各方的行动策略，不断更新基础模型以及智能学习模型，将每一次决策后的博弈状态反馈到模型中，加上环境的实时变化，更新博弈树，再利用更新后的学习模型优化下一步的策略决策，实现“决策-反馈-动态优化”的智能军事决策模式；

其中，基于分析预测结果和“决策-反馈-动态优化”的智能优化决策模式，得到不确定对抗环境中的智能优化决策，包括：

通过蒙特卡洛反事实后悔值最小化算法，优化所述蓝图策略；

其中，通过蒙特卡洛反事实后悔值最小化算法，优化所述蓝图策略，包括：

模拟所有参与方使用相同策略在当前状态下进行决策；

通过抽象归类机制，将类似的情况打包在一起，减少决策点的数量，使用蒙特卡洛反事实后悔值最小化算法，将每个行动方案映射到一个分布；

2.根据权利要求1所述的方法，其特征在于，所述各个参与方基于在博弈中的收益进行策略更新，包括：根据对当前战场态势信息的分析预测，利用所述军事对抗博弈智能学习模型实时优化决策下一步的行动策略。

3.根据权利要求1所述的方法，其特征在于，还包括：通过对战局影响较弱的战场态势信息所在的蒙特卡洛搜索树进行剪枝，抽象简化搜索目标。