CN113298260B

CN113298260B - 一种基于深度强化学习的对抗仿真推演方法

Info

Publication number: CN113298260B
Application number: CN202110655273.XA
Authority: CN
Inventors: 曾向荣; 钟志伟; 张政; 刘衍
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2022-07-26
Anticipated expiration: 2041-06-11
Also published as: CN113298260A

Abstract

本发明公开了一种基于深度强化学习的对抗仿真推演方法，该方法在对抗终端进行人机操作和机器自主学习操作，通过人‑机对抗训练生成训练样本数据、机‑机对抗训练通过深度卷积神经网络生成大量训练样本数据，所述训练样本数据包括单智能体的奖励值；深度卷积神经网络将多个单智能体的状态和所述奖励值生成多智能体联合状态和联合奖励值，输入深度强化学习模型，所述深度强化学习模型输出联合决策行动，生成多智能体对抗决策；将所述多智能体对抗决策反馈输入深度强化学习模型，实现无监督的自我学习。本发明在对抗想定已知的情况下，通过改变多智能体编队、分组、战术配合等达到了对抗仿真推演中电子假想对抗方效能评估最优的目标。

Description

一种基于深度强化学习的对抗仿真推演方法

技术领域

本发明属于对抗推演技术领域，尤其涉及一种基于深度强化学习的对抗仿真推演方法。

背景技术

兵棋推演是对现实战争的虚拟再现，计算机兵棋推演则是将兵棋推演与计算机集合在一起，利用计算机的计算能力按照兵棋的相关规则进行推演，从而模拟战争的进行。兵棋推演目的在于模拟对抗进行过程、预测对抗的发生和结果、通过评估指挥员在其中的指挥达到提高指挥艺术的效果。

多智能体系统(Muti-agent System:MAS)是在同一个环境中由多个交互智能体组成的系统，该系统常用于解决独立智能体以及单层系统难以解决的问题，其中的智能可以由方法，函数，过程，算法或强化学习来实现。多智能体系统因其较强的实用性和扩展性，在机器人合作、分布式控制、资源管理、协同决策支持系统、自主化对抗系统、数据挖掘等领域都得到了广泛的应用。

强化学习(Reinforcement Learning:RL)是机器学习的一个重要分支，其本质是描述和解决智能体在与环境的交互过程中学习策略以最大化回报或实现特定目标的问题。与监督学习不同，强化学习并不告诉智能体如何产生正确的动作，它只对动作的好坏做出评价并根据反馈信号修正动作选择和策略，所以强化学习的回报函数所需的信息量更少，也更容易设计，适合解决较为复杂的决策问题。近来，随着深度学习(Deep Learning:DL)技术的兴起及其在诸多领域取得辉煌的成就，融合深度神经网络和RL的深度强化学习(DeepReinforcement Learning:DRL)成为各方研究的热点，并在计算机视觉、机器人控制、大型即时战略游戏等领域取得了较大的突破。

发明内容

有鉴于此，本发明的目的是在对抗想定已知的情况下，通过改变多智能体编队、分组、战术配合等以达到对抗仿真推演中电子假想对抗方效能评估最优的目标。采用人-机对抗训练不断的完善对抗仿真推演的模型训练数据，为指挥员更加高级的智能化对抗推演提供依据。

因此本发明提出了一种基于深度强化学习的对抗仿真推演方法，该方法的多智能化对抗决策通过深度强化学习中训练模型获得，深度强化学习模型训练通过多智能体对抗决策反馈训练，对抗终端支持人机操作和机器自主学习操作，可实现人机对抗训练生成训练样本数据、机器与机器对抗训练生成大量的训练样本数据、机器自我学习获取对抗决策，实现无监督的自我学习。

本发明公开的一种基于深度强化学习的对抗仿真推演方法包括以下步骤：

在对抗终端进行人机操作和机器自主学习操作，通过人-机对抗训练生成训练样本数据、机-机对抗训练大量训练样本数据，通过深度卷积神经网络生成单智能体的奖励值；

深度卷积神经网络将多个单智能体的状态和所述奖励值生成多智能体联合状态和联合奖励值，输入深度强化学习模型，所述深度强化学习模型输出联合决策行动，生成多智能体人-机、机-机对抗决策；

将所述多智能体人-机、机-机对抗决策反馈输入深度强化学习模型，实现无监督的自我学习。

进一步的，所述深度强化学习模型输出联合决策行动，生成多智能体对抗决策，其具体步骤为：

深度卷积神经网络的输入数据包括人-机对抗的图片数据、机-机对抗的图片数据，输出为所述多智能体联合奖励值{r₁,r₂,...,r_n}，其中n为智能体数目；

在单个智能体中，定义最优化的值函数Q^*(s,α)为：

其中s'是下一时刻的状态；定义一个四元组(s,α,r,s')，包含当前时刻的状态s，系统执行的决策行动α，系统在执行决策行动α后获取到的奖励值r＝R(s,α)，所述奖励值r由深度卷积神经网络获得，和下一时刻的状态s'，λ为Q^*(s,α)的权值，其中所述状态s，决策行动α，在不同状态和动作下的Q^π(s,α)值，π为状态s和决策行动α的集合，

A为决策行动α的集合，即所述联合决策行动；

在多智能体中，获取联合决策行动最优下的Q值：

多智能体有A_s种组合的动作，在这A_s中组合中选择最优的Q值；

当某状态下的Q值越大时，则说明该决策行动最佳，即生成所述多智能体对抗决策。

进一步的，所述通过多智能体对抗决策反馈训练深度强化学习模型，将每次的人-机对抗、机-机对抗过程的多智能体决策都用于深度强化学习的模型训练，生成大量的对抗样本，实现多智能体的无监督学习。

进一步的，所述深度卷积神经网络输出的奖励值{r₁,r₂,...,r_n}在无监督的自我学习中完成，以机器的自我学习标记代替人工标记，机器的自我学习标记的步骤如下：

对于每次的联合决策行动{α₁,α₂,...,α_n}下得到相应的多智能体态势图，把所述多智能体态势图输入到深度卷积神经网络中，输出下一步的联合决策行动{α'₁,α'₂,...,α'_n}和最优的效能评估；

计算机自动标记下一步联合决策行动{α'₁,α'₂,...,α'_n}的效能评估，在下一步的联合决策行动{α'₁,α'₂,...,α'_n}的态势图中，采用多智能体在已有规则下进行Alpha-Beta搜索打击下的最终效能评估D^π(s,α)，获取最优状态和动作下的效能评估

当D^*(s,α)最大时，对应的下一步电子假想对抗方的运动就为α'，当己方同时执行动作后更新电子假想对抗方的状态s'，以达到每步最优的目的。

进一步的，所述已有规则是对抗仿真平台中对抗双方的单智能体对抗规则，包括武器击中目标的概率、损失程度、智能单元的运动速度、转弯半径。

进一步的，所述效能评估根据人工标记或用计算机自动标记。

进一步的，所述深度卷积神经网络的网络层为VGG16、GoogleNet、Incepetion、RestNet和EfficientNet网络之一。

本发明在对抗想定已知的情况下，通过改变多智能体编队、分组、战术配合等达到对抗仿真推演中电子假想对抗方效能评估最优的目标。

附图说明

图1为一种基于深度强化学习的对抗仿真推演方法示意图；

图2为多智能体对抗仿真推演强化学习结构图；

图3为深度卷积神经网络网络结构图；

图4为多智能体对抗仿真推演实例之一；

图5为多智能体对抗仿真推演实例之二。

具体实施方式

下面结合附图对本发明作进一步的说明，但不以任何方式对本发明加以限制，基于本发明教导所作的任何变换或替换，均属于本发明的保护范围。

本发明的目的是在对抗想定已知的情况下，即对抗双方兵力固定、对抗仿真的场景固定的情况下，通过改变多智能体编队、分组、战术配合等以达到对抗仿真推演中电子假想对抗方效能评估最优的目标。采用人-机对抗训练不断的完善对抗仿真推演的模型训练数据，为服务员更加高级的智能化对抗推演提供依据。对抗双方包括己方和电子假想对抗方。

本发明在此基础上提出了一种基于深度强化学习的对抗仿真推演方法。通过人机对抗训练生成训练样本数据、机器与机器对抗训练生成大量的训练样本数据、机器自我学习获取对抗决策，实现无监督的自我学习，以达到对抗仿真推演中电子假想对抗方效能评估最优的目标。

如图1所示，基于深度强化学习的多智能体对抗仿真推演方法，其结构分为三个部分，深度学习网络部分，强化学习结构部分以及输出联合决策行动。深度学习网络的输入数据采用人-机对抗的图片数据、机-机对抗的图片数据，通过深度卷积神经网络生成单智能体的奖励值，深度卷积神经网络将多个单智能体的状态和奖励值生成多智能体联合状态和联合奖励值{r₁,r₂,...,r_n}，深度卷积神经网络的网络层为VGG16或GoogleNet等网络，输入深度强化学习模型，输入的多智能体联合奖励值{r₁,r₂,...,r_n}用在强化学习的奖励值中，深度强化学习模型输出联合决策行动，生成多智能体人-机、机-机对抗决策；

如图2所示，强化学习的结构为：

(a)在单个智能体中，最优化的Q*值函数定义为

状态s可以根据Q*值函数进行动作的选择：

因此，强化学习的核心就是要估计最优化的值函数Q^*(s,α)，该值函数是所有策略产生的值函数中效果最好的一个值函数。

上述公式可以进一步表示为：

其中s'是下一时刻的状态，该公式就是Bellman方程。定义一个四元组(s,α,r,s')，包含当前时刻的状态s，系统执行的决策行动α，系统在执行决策行动α后获取到的奖励值r＝R(s,α)，奖励值r由深度卷积神经网络获得，和下一时刻的状态s'，λ为Q^*(s,α)值权值。

(b)在多智能体中，联合动作最优下的Q值：

输出的联合决策行动即多智能体人-机、机-机对抗决策反馈输入深度强化学习模型，实现无监督的自我学习。

如图3所示的多智能体对抗仿真推演强化学习结构图，输入为对抗态势感知图片，利用卷积神经网络引入全连接层后输出联合奖励值{r₁,r₂,...,r_n}，最后连接一层输出效能评估。这样该深度学习网络结构输出的联合奖励值{r₁,r₂,...,r_n}可以建立在无监督的自我学习中完成，以机器的自我学习标记代替人工标记，机器的自我学习标记的步骤如下：

1)对于每次的联合决策行动{α₁,α₂,...,α_n}下会得到相应的多智能体的态势图，把该态势图输入到深度神经网络中，输入下一步的联合决策行动{α'₁,α'₂,...,α'_n}和最优的效能评估，效能评估可以根据人工标记、也可以用计算机自动标记；

2)计算机自动标记下一步联合决策行动{α'₁,α'₂,...,α'_n}的效能评估，在下一步的联合决策行动{α'₁,α'₂,...,α'_n}的态势图中，采用多智能体在已有规则下进行Alpha-Beta搜索打击下的最终效能评估D^π(s,α)，获取最优状态和决策行动下的效能评估

图4和图5为多智能体对抗仿真推演实例。

已有规则指对抗仿真平台中对抗双方的对抗规则，其中包括武器击中目标的概率、损失程度、智能单元的运动速度、转弯半径等单智能体的规则。

本实施例使用的深度卷积神经网络包括VGG16、GoogleNet、Incepetion、RestNet、EfficientNet等其中之一，但在其它实施例中也可使用其它深度卷积神经网络结构，本发明对此不做限定。

本发明在对抗想定已知的情况下，通过改变多智能体编队、分组、战术配合等，达到了对抗仿真推演中电子假想对抗方效能评估最优的目标。

上述实施例为本发明的一种实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于深度强化学习的对抗仿真推演方法，其特征在于，该方法包括以下步骤：

在对抗终端进行人机操作和机器自主学习操作，通过人-机对抗训练生成训练样本数据、机-机对抗训练生成大量训练样本数据，通过深度卷积神经网络生成单智能体的奖励值；

将所述多智能体人-机、机-机对抗决策反馈输入深度强化学习模型，实现无监督的自我学习；

其中，所述深度强化学习模型输出联合决策行动，生成多智能体对抗决策，其具体步骤为：

深度卷积神经网络的输入数据包括人-机对抗的图片数据、机-机对抗的图片数据，输出为所述多智能体联合奖励值{r₁，r₂，...，r_n}，其中n为智能体数目；

在单个智能体中，定义最优化的值函数Q^*(s，α)为：

其中s′是下一时刻的状态；定义一个四元组(s，α，r，s′)，包含当前时刻的状态s，系统执行的决策行动α，系统在执行决策行动α后获取到的奖励值r＝R(s，α)，所述奖励值r由深度卷积神经网络获得，和下一时刻的状态s′，λ为Q^*(s，α)的权值，其中所述状态s，决策行动α，在不同状态和动作下的Q^π(s，α)值，π为状态s和决策行动α的集合，

A为决策行动α的集合，即所述联合决策行动；

在多智能体中，获取联合决策行动最优下的Q值：

当某状态下的Q值越大时，则说明该联合决策行动最佳，即生成所述多智能体对抗决策；

所述深度卷积神经网络输出的奖励值{r₁，r₂，...，r_n}在无监督的自我学习中完成，以机器的自我学习标记代替人工标记，机器的自我学习标记的步骤如下：

对于每次的联合决策行动{α₁，α₂，...，α_n}下得到相应的多智能体态势图，把所述多智能体态势图输入到深度卷积神经网络中，输出下一步的联合决策行动{α′₁，α′₂，...，α′_n}和最优的效能评估；

计算机自动标记下一步联合决策行动{α′₁，α′₂，...，α′_n}的效能评估，在下一步的联合决策行动{α′₁，α′₂，...，α′_n}的态势图中，采用多智能体在已有规则下进行Alpha-Beta搜索打击下的最终效能评估D^π(s，α)，获取最优状态和动作下的效能评估

当D^*(s，α)最大时，对应的下一步电子假想对抗方的运动就为α′，当己方同时执行动作后更新电子假想对抗方的状态s′，以达到每步最优的目的。

2.根据权利要求1所述基于深度强化学习的对抗仿真推演方法，其特征在于，所述通过多智能体对抗决策反馈训练深度强化学习模型，将每次的人-机对抗、机-机对抗过程的多智能体决策都用于深度强化学习的模型训练，生成大量的对抗样本，实现多智能体的无监督学习。

3.根据权利要求2所述基于深度强化学习的对抗仿真推演方法，其特征在于，所述已有规则是对抗仿真平台中对抗双方的单智能体对抗规则，包括武器击中目标的概率、损失程度、智能单元的运动速度、转弯半径。

4.根据权利要求3所述基于深度强化学习的对抗仿真推演方法，其特征在于，所述效能评估根据人工标记或用计算机自动标记。

5.根据权利要求1所述基于深度强化学习的对抗仿真推演方法，其特征在于，所述深度卷积神经网络的网络层为VGG16、GoogleNet、Incepetion、RestNet和EfficientNet网络之一。