CN113298260B - 一种基于深度强化学习的对抗仿真推演方法 - Google Patents

一种基于深度强化学习的对抗仿真推演方法 Download PDF

Info

Publication number
CN113298260B
CN113298260B CN202110655273.XA CN202110655273A CN113298260B CN 113298260 B CN113298260 B CN 113298260B CN 202110655273 A CN202110655273 A CN 202110655273A CN 113298260 B CN113298260 B CN 113298260B
Authority
CN
China
Prior art keywords
confrontation
machine
agent
reinforcement learning
decision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110655273.XA
Other languages
English (en)
Other versions
CN113298260A (zh
Inventor
曾向荣
钟志伟
张政
刘衍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202110655273.XA priority Critical patent/CN113298260B/zh
Publication of CN113298260A publication Critical patent/CN113298260A/zh
Application granted granted Critical
Publication of CN113298260B publication Critical patent/CN113298260B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于深度强化学习的对抗仿真推演方法,该方法在对抗终端进行人机操作和机器自主学习操作,通过人‑机对抗训练生成训练样本数据、机‑机对抗训练通过深度卷积神经网络生成大量训练样本数据,所述训练样本数据包括单智能体的奖励值;深度卷积神经网络将多个单智能体的状态和所述奖励值生成多智能体联合状态和联合奖励值,输入深度强化学习模型,所述深度强化学习模型输出联合决策行动,生成多智能体对抗决策;将所述多智能体对抗决策反馈输入深度强化学习模型,实现无监督的自我学习。本发明在对抗想定已知的情况下,通过改变多智能体编队、分组、战术配合等达到了对抗仿真推演中电子假想对抗方效能评估最优的目标。

Description

一种基于深度强化学习的对抗仿真推演方法
技术领域
本发明属于对抗推演技术领域,尤其涉及一种基于深度强化学习的对抗仿真推演方法。
背景技术
兵棋推演是对现实战争的虚拟再现,计算机兵棋推演则是将兵棋推演与计算机集合在一起,利用计算机的计算能力按照兵棋的相关规则进行推演,从而模拟战争的进行。兵棋推演目的在于模拟对抗进行过程、预测对抗的发生和结果、通过评估指挥员在其中的指挥达到提高指挥艺术的效果。
多智能体系统(Muti-agent System:MAS)是在同一个环境中由多个交互智能体组成的系统,该系统常用于解决独立智能体以及单层系统难以解决的问题,其中的智能可以由方法,函数,过程,算法或强化学习来实现。多智能体系统因其较强的实用性和扩展性,在机器人合作、分布式控制、资源管理、协同决策支持系统、自主化对抗系统、数据挖掘等领域都得到了广泛的应用。
强化学习(Reinforcement Learning:RL)是机器学习的一个重要分支,其本质是描述和解决智能体在与环境的交互过程中学习策略以最大化回报或实现特定目标的问题。与监督学习不同,强化学习并不告诉智能体如何产生正确的动作,它只对动作的好坏做出评价并根据反馈信号修正动作选择和策略,所以强化学习的回报函数所需的信息量更少,也更容易设计,适合解决较为复杂的决策问题。近来,随着深度学习(Deep Learning:DL)技术的兴起及其在诸多领域取得辉煌的成就,融合深度神经网络和RL的深度强化学习(DeepReinforcement Learning:DRL)成为各方研究的热点,并在计算机视觉、机器人控制、大型即时战略游戏等领域取得了较大的突破。
发明内容
有鉴于此,本发明的目的是在对抗想定已知的情况下,通过改变多智能体编队、分组、战术配合等以达到对抗仿真推演中电子假想对抗方效能评估最优的目标。采用人-机对抗训练不断的完善对抗仿真推演的模型训练数据,为指挥员更加高级的智能化对抗推演提供依据。
因此本发明提出了一种基于深度强化学习的对抗仿真推演方法,该方法的多智能化对抗决策通过深度强化学习中训练模型获得,深度强化学习模型训练通过多智能体对抗决策反馈训练,对抗终端支持人机操作和机器自主学习操作,可实现人机对抗训练生成训练样本数据、机器与机器对抗训练生成大量的训练样本数据、机器自我学习获取对抗决策,实现无监督的自我学习。
本发明公开的一种基于深度强化学习的对抗仿真推演方法包括以下步骤:
在对抗终端进行人机操作和机器自主学习操作,通过人-机对抗训练生成训练样本数据、机-机对抗训练大量训练样本数据,通过深度卷积神经网络生成单智能体的奖励值;
深度卷积神经网络将多个单智能体的状态和所述奖励值生成多智能体联合状态和联合奖励值,输入深度强化学习模型,所述深度强化学习模型输出联合决策行动,生成多智能体人-机、机-机对抗决策;
将所述多智能体人-机、机-机对抗决策反馈输入深度强化学习模型,实现无监督的自我学习。
进一步的,所述深度强化学习模型输出联合决策行动,生成多智能体对抗决策,其具体步骤为:
深度卷积神经网络的输入数据包括人-机对抗的图片数据、机-机对抗的图片数据,输出为所述多智能体联合奖励值{r1,r2,...,rn},其中n为智能体数目;
在单个智能体中,定义最优化的值函数Q*(s,α)为:
Figure BDA0003112454530000031
其中s'是下一时刻的状态;定义一个四元组(s,α,r,s'),包含当前时刻的状态s,系统执行的决策行动α,系统在执行决策行动α后获取到的奖励值r=R(s,α),所述奖励值r由深度卷积神经网络获得,和下一时刻的状态s',λ为Q*(s,α)的权值,其中所述状态s,决策行动α,在不同状态和动作下的Qπ(s,α)值,π为状态s和决策行动α的集合,
Figure BDA0003112454530000032
A为决策行动α的集合,即所述联合决策行动;
在多智能体中,获取联合决策行动最优下的Q值:
Figure BDA0003112454530000033
多智能体有As种组合的动作,在这As中组合中选择最优的Q值;
当某状态下的Q值越大时,则说明该决策行动最佳,即生成所述多智能体对抗决策。
进一步的,所述通过多智能体对抗决策反馈训练深度强化学习模型,将每次的人-机对抗、机-机对抗过程的多智能体决策都用于深度强化学习的模型训练,生成大量的对抗样本,实现多智能体的无监督学习。
进一步的,所述深度卷积神经网络输出的奖励值{r1,r2,...,rn}在无监督的自我学习中完成,以机器的自我学习标记代替人工标记,机器的自我学习标记的步骤如下:
对于每次的联合决策行动{α12,...,αn}下得到相应的多智能体态势图,把所述多智能体态势图输入到深度卷积神经网络中,输出下一步的联合决策行动{α'1,α'2,...,α'n}和最优的效能评估;
计算机自动标记下一步联合决策行动{α'1,α'2,...,α'n}的效能评估,在下一步的联合决策行动{α'1,α'2,...,α'n}的态势图中,采用多智能体在已有规则下进行Alpha-Beta搜索打击下的最终效能评估Dπ(s,α),获取最优状态和动作下的效能评估
Figure BDA0003112454530000041
当D*(s,α)最大时,对应的下一步电子假想对抗方的运动就为α',当己方同时执行动作后更新电子假想对抗方的状态s',以达到每步最优的目的。
进一步的,所述已有规则是对抗仿真平台中对抗双方的单智能体对抗规则,包括武器击中目标的概率、损失程度、智能单元的运动速度、转弯半径。
进一步的,所述效能评估根据人工标记或用计算机自动标记。
进一步的,所述深度卷积神经网络的网络层为VGG16、GoogleNet、Incepetion、RestNet和EfficientNet网络之一。
本发明在对抗想定已知的情况下,通过改变多智能体编队、分组、战术配合等达到对抗仿真推演中电子假想对抗方效能评估最优的目标。
附图说明
图1为一种基于深度强化学习的对抗仿真推演方法示意图;
图2为多智能体对抗仿真推演强化学习结构图;
图3为深度卷积神经网络网络结构图;
图4为多智能体对抗仿真推演实例之一;
图5为多智能体对抗仿真推演实例之二。
具体实施方式
下面结合附图对本发明作进一步的说明,但不以任何方式对本发明加以限制,基于本发明教导所作的任何变换或替换,均属于本发明的保护范围。
本发明的目的是在对抗想定已知的情况下,即对抗双方兵力固定、对抗仿真的场景固定的情况下,通过改变多智能体编队、分组、战术配合等以达到对抗仿真推演中电子假想对抗方效能评估最优的目标。采用人-机对抗训练不断的完善对抗仿真推演的模型训练数据,为服务员更加高级的智能化对抗推演提供依据。对抗双方包括己方和电子假想对抗方。
本发明在此基础上提出了一种基于深度强化学习的对抗仿真推演方法。通过人机对抗训练生成训练样本数据、机器与机器对抗训练生成大量的训练样本数据、机器自我学习获取对抗决策,实现无监督的自我学习,以达到对抗仿真推演中电子假想对抗方效能评估最优的目标。
如图1所示,基于深度强化学习的多智能体对抗仿真推演方法,其结构分为三个部分,深度学习网络部分,强化学习结构部分以及输出联合决策行动。深度学习网络的输入数据采用人-机对抗的图片数据、机-机对抗的图片数据,通过深度卷积神经网络生成单智能体的奖励值,深度卷积神经网络将多个单智能体的状态和奖励值生成多智能体联合状态和联合奖励值{r1,r2,...,rn},深度卷积神经网络的网络层为VGG16或GoogleNet等网络,输入深度强化学习模型,输入的多智能体联合奖励值{r1,r2,...,rn}用在强化学习的奖励值中,深度强化学习模型输出联合决策行动,生成多智能体人-机、机-机对抗决策;
如图2所示,强化学习的结构为:
(a)在单个智能体中,最优化的Q*值函数定义为
Figure BDA0003112454530000051
状态s可以根据Q*值函数进行动作的选择:
Figure BDA0003112454530000052
因此,强化学习的核心就是要估计最优化的值函数Q*(s,α),该值函数是所有策略产生的值函数中效果最好的一个值函数。
上述公式可以进一步表示为:
Figure BDA0003112454530000061
其中s'是下一时刻的状态,该公式就是Bellman方程。定义一个四元组(s,α,r,s'),包含当前时刻的状态s,系统执行的决策行动α,系统在执行决策行动α后获取到的奖励值r=R(s,α),奖励值r由深度卷积神经网络获得,和下一时刻的状态s',λ为Q*(s,α)值权值。
(b)在多智能体中,联合动作最优下的Q值:
Figure BDA0003112454530000062
输出的联合决策行动即多智能体人-机、机-机对抗决策反馈输入深度强化学习模型,实现无监督的自我学习。
如图3所示的多智能体对抗仿真推演强化学习结构图,输入为对抗态势感知图片,利用卷积神经网络引入全连接层后输出联合奖励值{r1,r2,...,rn},最后连接一层输出效能评估。这样该深度学习网络结构输出的联合奖励值{r1,r2,...,rn}可以建立在无监督的自我学习中完成,以机器的自我学习标记代替人工标记,机器的自我学习标记的步骤如下:
1)对于每次的联合决策行动{α12,...,αn}下会得到相应的多智能体的态势图,把该态势图输入到深度神经网络中,输入下一步的联合决策行动{α'1,α'2,...,α'n}和最优的效能评估,效能评估可以根据人工标记、也可以用计算机自动标记;
2)计算机自动标记下一步联合决策行动{α'1,α'2,...,α'n}的效能评估,在下一步的联合决策行动{α'1,α'2,...,α'n}的态势图中,采用多智能体在已有规则下进行Alpha-Beta搜索打击下的最终效能评估Dπ(s,α),获取最优状态和决策行动下的效能评估
Figure BDA0003112454530000063
图4和图5为多智能体对抗仿真推演实例。
已有规则指对抗仿真平台中对抗双方的对抗规则,其中包括武器击中目标的概率、损失程度、智能单元的运动速度、转弯半径等单智能体的规则。
本实施例使用的深度卷积神经网络包括VGG16、GoogleNet、Incepetion、RestNet、EfficientNet等其中之一,但在其它实施例中也可使用其它深度卷积神经网络结构,本发明对此不做限定。
本发明在对抗想定已知的情况下,通过改变多智能体编队、分组、战术配合等,达到了对抗仿真推演中电子假想对抗方效能评估最优的目标。
上述实施例为本发明的一种实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (5)

1.一种基于深度强化学习的对抗仿真推演方法,其特征在于,该方法包括以下步骤:
在对抗终端进行人机操作和机器自主学习操作,通过人-机对抗训练生成训练样本数据、机-机对抗训练生成大量训练样本数据,通过深度卷积神经网络生成单智能体的奖励值;
深度卷积神经网络将多个单智能体的状态和所述奖励值生成多智能体联合状态和联合奖励值,输入深度强化学习模型,所述深度强化学习模型输出联合决策行动,生成多智能体人-机、机-机对抗决策;
将所述多智能体人-机、机-机对抗决策反馈输入深度强化学习模型,实现无监督的自我学习;
其中,所述深度强化学习模型输出联合决策行动,生成多智能体对抗决策,其具体步骤为:
深度卷积神经网络的输入数据包括人-机对抗的图片数据、机-机对抗的图片数据,输出为所述多智能体联合奖励值{r1,r2,...,rn},其中n为智能体数目;
在单个智能体中,定义最优化的值函数Q*(s,α)为:
Figure FDA0003660669270000011
其中s′是下一时刻的状态;定义一个四元组(s,α,r,s′),包含当前时刻的状态s,系统执行的决策行动α,系统在执行决策行动α后获取到的奖励值r=R(s,α),所述奖励值r由深度卷积神经网络获得,和下一时刻的状态s′,λ为Q*(s,α)的权值,其中所述状态s,决策行动α,在不同状态和动作下的Qπ(s,α)值,π为状态s和决策行动α的集合,
Figure FDA0003660669270000012
A为决策行动α的集合,即所述联合决策行动;
在多智能体中,获取联合决策行动最优下的Q值:
Figure FDA0003660669270000021
多智能体有As种组合的动作,在这As中组合中选择最优的Q值;
当某状态下的Q值越大时,则说明该联合决策行动最佳,即生成所述多智能体对抗决策;
所述深度卷积神经网络输出的奖励值{r1,r2,...,rn}在无监督的自我学习中完成,以机器的自我学习标记代替人工标记,机器的自我学习标记的步骤如下:
对于每次的联合决策行动{α1,α2,...,αn}下得到相应的多智能体态势图,把所述多智能体态势图输入到深度卷积神经网络中,输出下一步的联合决策行动{α′1,α′2,...,α′n}和最优的效能评估;
计算机自动标记下一步联合决策行动{α′1,α′2,...,α′n}的效能评估,在下一步的联合决策行动{α′1,α′2,...,α′n}的态势图中,采用多智能体在已有规则下进行Alpha-Beta搜索打击下的最终效能评估Dπ(s,α),获取最优状态和动作下的效能评估
Figure FDA0003660669270000022
当D*(s,α)最大时,对应的下一步电子假想对抗方的运动就为α′,当己方同时执行动作后更新电子假想对抗方的状态s′,以达到每步最优的目的。
2.根据权利要求1所述基于深度强化学习的对抗仿真推演方法,其特征在于,所述通过多智能体对抗决策反馈训练深度强化学习模型,将每次的人-机对抗、机-机对抗过程的多智能体决策都用于深度强化学习的模型训练,生成大量的对抗样本,实现多智能体的无监督学习。
3.根据权利要求2所述基于深度强化学习的对抗仿真推演方法,其特征在于,所述已有规则是对抗仿真平台中对抗双方的单智能体对抗规则,包括武器击中目标的概率、损失程度、智能单元的运动速度、转弯半径。
4.根据权利要求3所述基于深度强化学习的对抗仿真推演方法,其特征在于,所述效能评估根据人工标记或用计算机自动标记。
5.根据权利要求1所述基于深度强化学习的对抗仿真推演方法,其特征在于,所述深度卷积神经网络的网络层为VGG16、GoogleNet、Incepetion、RestNet和EfficientNet网络之一。
CN202110655273.XA 2021-06-11 2021-06-11 一种基于深度强化学习的对抗仿真推演方法 Active CN113298260B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110655273.XA CN113298260B (zh) 2021-06-11 2021-06-11 一种基于深度强化学习的对抗仿真推演方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110655273.XA CN113298260B (zh) 2021-06-11 2021-06-11 一种基于深度强化学习的对抗仿真推演方法

Publications (2)

Publication Number Publication Date
CN113298260A CN113298260A (zh) 2021-08-24
CN113298260B true CN113298260B (zh) 2022-07-26

Family

ID=77328087

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110655273.XA Active CN113298260B (zh) 2021-06-11 2021-06-11 一种基于深度强化学习的对抗仿真推演方法

Country Status (1)

Country Link
CN (1) CN113298260B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113705102B (zh) * 2021-08-31 2024-05-10 湖南苍树航天科技有限公司 海空集群对抗的推演仿真系统及方法、设备、存储介质
CN113723013B (zh) * 2021-09-10 2024-06-18 中国人民解放军国防科技大学 一种用于连续空间兵棋推演的多智能体决策方法
CN114882755B (zh) * 2022-04-27 2024-07-12 中国人民解放军军事科学院战略评估咨询中心 一种面向智能对抗的多方案自主切换方法
CN114880955B (zh) * 2022-07-05 2022-09-20 中国人民解放军国防科技大学 基于强化学习的兵棋多实体异步协同决策方法和装置
CN117217100B (zh) * 2023-11-08 2024-01-30 中国人民解放军63963部队 一种基于强化学习的某分队数智化建模方法及仿真系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111008449A (zh) * 2019-04-26 2020-04-14 成都蓉奥科技有限公司 一种用于战场仿真环境下深度强化学习推演决策训练的加速方法
CN112295229A (zh) * 2020-10-28 2021-02-02 中国电子科技集团公司第二十八研究所 一种智能博弈对抗平台

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11341364B2 (en) * 2017-09-20 2022-05-24 Google Llc Using simulation and domain adaptation for robotic control
CN111488992A (zh) * 2020-03-03 2020-08-04 中国电子科技集团公司第五十二研究所 一种基于人工智能的模拟器对手加强装置
CN111783944A (zh) * 2020-06-19 2020-10-16 中国人民解放军军事科学院战争研究院 基于组合训练的规则嵌入多智能体强化学习方法及装置
CN112364500B (zh) * 2020-11-09 2021-07-20 中国科学院自动化研究所 面向强化学习训练与评估的多并发实时对抗系统
CN112434791A (zh) * 2020-11-13 2021-03-02 北京圣涛平试验工程技术研究院有限责任公司 多智能体强对抗仿真方法、装置及电子设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111008449A (zh) * 2019-04-26 2020-04-14 成都蓉奥科技有限公司 一种用于战场仿真环境下深度强化学习推演决策训练的加速方法
CN112295229A (zh) * 2020-10-28 2021-02-02 中国电子科技集团公司第二十八研究所 一种智能博弈对抗平台

Also Published As

Publication number Publication date
CN113298260A (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
CN113298260B (zh) 一种基于深度强化学习的对抗仿真推演方法
CN109765820B (zh) 一种用于自动驾驶控制策略的训练系统
CN108021754A (zh) 一种无人机自主空战决策框架及方法
CN112131786A (zh) 基于多智能体强化学习的目标探测与分配方法及装置
CN111898770B (zh) 一种多智能体强化学习方法、电子设备及存储介质
CN115993831B (zh) 基于深度强化学习的机器人无目标网络的路径规划方法
CN113378466A (zh) 一种基于dqn的雷达对抗智能决策方法
CN113177368B (zh) 一种面向人机交互的智能化指控训练仿真系统
CN112990485A (zh) 基于强化学习的知识策略选择方法与装置
CN115185294B (zh) 基于qmix的航空兵多编队协同自主行为决策建模方法
CN113741186B (zh) 一种基于近端策略优化的双机空战决策方法
CN114895710A (zh) 一种无人机集群自主行为的控制方法及系统
Tong et al. Enhancing rolling horizon evolution with policy and value networks
Wu et al. Dynamic multitarget assignment based on deep reinforcement learning
CN115762128B (zh) 一种基于自注意力机制的深度强化学习交通信号控制方法
CN113592079B (zh) 一种面向大规模任务空间的协同多智能体通信方法
CN113570040B (zh) 一种基于进化策略的多域行动序列智能优化系统及方法
CN114757092A (zh) 基于队友感知的多智能体协作通信策略的训练系统和方法
CN113344071A (zh) 一种基于深度策略梯度的入侵检测算法
CN112884129A (zh) 一种基于示教数据的多步规则提取方法、设备及存储介质
Dong et al. Curiosity-tuned experience replay for wargaming decision modeling without reward-engineering
CN111950691A (zh) 一种基于潜在动作表示空间的强化学习策略学习方法
CN114118400B (zh) 一种基于专注网络的集群对抗方法及装置
CN118672302A (zh) 一种基于happo算法的无人机集群对抗决策优化方法、装置及存储介质
Li et al. A distributed multi-vehicle pursuit scheme: generative multi-adversarial reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant