CN113723013A - 一种用于连续空间兵棋推演的多智能体决策方法 - Google Patents

一种用于连续空间兵棋推演的多智能体决策方法 Download PDF

Info

Publication number
CN113723013A
CN113723013A CN202111063370.6A CN202111063370A CN113723013A CN 113723013 A CN113723013 A CN 113723013A CN 202111063370 A CN202111063370 A CN 202111063370A CN 113723013 A CN113723013 A CN 113723013A
Authority
CN
China
Prior art keywords
agent
reward
learning
continuous space
deduction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111063370.6A
Other languages
English (en)
Other versions
CN113723013B (zh
Inventor
黄魁华
程光权
黄金才
成清
付阳辉
黄亭飞
梁星星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202111063370.6A priority Critical patent/CN113723013B/zh
Publication of CN113723013A publication Critical patent/CN113723013A/zh
Application granted granted Critical
Publication of CN113723013B publication Critical patent/CN113723013B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种用于连续空间兵棋推演的多智能体决策方法,包括以下步骤:构建连续空间兵棋推演场景,得到用于兵棋推演的战场环境数据,多智能体进行初始化;构建经验重访数据集;多个智能体进行本地观测;基于CNN提取推演多智能体的多实体特征;多实体特征与多智能体的本地观测数据共同作为多智能体学习的输入,利用基于课程学习奖赏的Q学习训练多智能体;利用训练完成的多智能体进行对战决策;该发明中基于CNN的多实体特征提取方法收敛速度超过了基于全连接网络的特征提取方法;基于探索奖赏和竞争奖赏相结合的课程学习奖赏方法,克服了稀疏奖赏对动作指导不足、收敛慢的问题,使得多智能体的决策效率更高,决策方案更贴合对战实际。

Description

一种用于连续空间兵棋推演的多智能体决策方法
技术领域
本发明属于智能决策领域,具体涉及一种用于连续空间兵棋推演的多智能体决策方法。
背景技术
在早期的兵棋推演领域中,多采用网格化的离散数据特征对当前的局势进行判断。但随着技术的进步,越来越多的连续化状态空间的兵棋推演平台被推出。这类平台相较于之前的平面化兵棋推演平台,将整个推演环境从二维拓展到了空间三维领域,对推演单元的状态描述从离散的网格发展到连续的三维空间,推演更加真实。兵棋推演平台的发展,相应的也带来了学习训练的难度,包含状态空间爆炸,动作连续、长时奖励的影响,多智能体的合作与对抗等。在这类平台中,基于全连接(Full Connect,FC)网络的特征提取方式处理上述问题时,收敛较慢。同时仅使用稀疏的竞争奖励无法对智能体进行有效的训练。
发明内容
本发明的目的是,提供一种用于连续空间兵棋推演的多智能体决策方法,该方法采用基于卷积神经网络(CNN)的特征提取方法,优于基于全连接(Full Connect,FC)的特征提取方法,收敛速度更快;该方法利用探索奖赏和竞争奖赏相结合的课程学习奖赏塑造Q学习算法,收敛速度更快,对智能体动作的指导性更强,使得多智能体在连续空间兵棋推演中的决策效率更高,决策方案更贴合对战实际。。
本发明采用值分解网络的思想,分别输出每个智能体的动作。在智能体的输入端,通过通信的方式,将各个智能体的观测进行融合,同时多智能体的本地观测也作为一部分输入。在训练阶段,将包含了联合动作奖赏的竞争奖赏传给智能体,还将单个智能体的私有探索奖赏同样进行回传,保证了多智能体对基本动作的学习。
本发明的技术方案是:一种用于连续空间兵棋推演的多智能体决策方法,其特征在于,包括以下步骤:
步骤1,构建连续空间的兵棋推演场景,得到用于兵棋推演的战场环境数据,多智能体进行初始化;
步骤2,构建经验重访数据集,所述的经验重访数据集Dt={e1,e2,...,et}存储了多智能体在每一个时间步的经验et=(st,at,rt,st+1),包含当前的状态st,采取的动作at,当前转移获得的奖赏rt以及下一个时间步的状态st+1;构建目标函数,所述目标函数为:
Figure BDA0003257285120000021
其中,Q为Q值,即目标函数,α为学习率,γ为奖励性衰变系数;
步骤3,多个智能体进行本地观测;
步骤4,基于CNN提取推演多智能体的多实体特征;
步骤5,所述的多实体特征与多智能体的本地观测数据共同作为多智能体学习的输入,利用基于课程学习奖赏的Q学习训练多智能体;
步骤6,利用训练完成的多智能体进行对战决策;
所述步骤5中,所述课程学习奖赏是探索奖赏和竞争奖赏相结合的课程学习奖赏方法;所述探索奖赏是指在训练的起始阶段,多智能体学习基本的动作使用的密集私有奖赏,探索奖赏随着仿真训练的推进逐渐趋向于零;所述竞争奖赏是指稀疏全局奖赏,是仿真结果的胜负奖赏。所有的智能体的训练都以最大化全局奖赏为目标。
作为上述技术方案的进一步改进:
更进一步的,所述步骤1中构建连续空间的兵棋推演场景,即将连续空间兵棋推演场景形式化的定义为分布式局部观测MDP过程,具体表示为如下七元组(I,S,{Ai},{Zi},T,R,O);其中,I表示有限的智能体的集合;S表示状态集;{Ai}表示智能体i的动作集;{Zi}表示智能体i的观测集;T表示所有智能体的联合状态T(s'|s,{a1,...,an})转移,s'∈S,s∈S,a1,...,an∈{Ai};R表示全局动作奖赏;O表示单个智能体的观测模型,环境状态S下,单个智能体的观测状态函数为O(s,i)=oi
更进一步的,所述步骤4中基于CNN提取推演多智能体的多实体特征的方法为:用一个1×n的横向卷积核,对单实体的信息压缩成为一个值,通过输出多个通道,将实体信息压缩为多个值;之后通过m×1的纵向卷积核对多个实体的信息进行融合压缩。
更进一步的,所述步骤5中探索奖赏和竞争奖赏相结合的课程学习奖赏方法通过线性退火因子μ来实现;在仿真时刻t,获得的探索奖赏为rt exploration,竞争奖赏为rt cooperation,该仿真片段的总步长为T,T即时刻,表示该次仿真结束,获得胜负结果,则获得的奖赏值为:
rt=μtrt exploration+(1-μt)rt cooperation;μt:1→0,t:0→T
线性退火因子μt随着仿真时间推进不断降低,逐渐趋近于零。
更进一步的,该发明采用值分解网络的思想,分别输出每个智能体的动作;在多智能体的输入端,通过通信的方式,将各个智能体的观测进行融合,同时各个智能体的本地观测作为一部分输入。
附图说明
图1为本发明方法的整体流程图;
图2为本发明中基于值分解网络的训练图;
图3为本发明中单智能体网络架构;
图4为实施例中基于CNN和FC的特征提取方法对内置规则1的对战结果对比;
图5为实施例中基于CNN和FC的特征提取方法对内置规则2的对战结果对比;
图6为实施例中基于课程学习奖赏的Q学习和基于稀疏奖赏的VDN、QMIX分别对内置规则1的对战结果对比;
图7为实施例中基于课程学习奖赏的Q学习和基于稀疏奖赏的VDN、QMIX分别对内置规则2的对战结果对比;
图8为实施例中基于课程学习奖赏的Q学习、VDN和QMIX分别对内置规则1的对战结果对比;
图9为实施例中基于课程学习奖赏的Q学习、VDN和QMIX分别对内置规则2的对战结果对比。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
随着技术的进步,越来越多的连续化状态空间的兵棋推演平台推出,这类平台相较于之前的平面化兵棋推演平台,将整个推演环境从二维拓展到了空间三维领域,对推演单元的状态描述从离散的网格发展到连续的三维空间,推演更加真实。兵棋推演平台的发展,相应的也带来了学习训练的难度,包含状态空间爆炸,动作连续、长时奖励的影响,多智能体的合作与对抗等。
对于多智能体的合作和对抗,本发明采用值分解网络的思想,分别输出每个智能体的动作,如图2所示。在智能体的输入端,通过通信的方式,将各个智能体的观测进行融合,即为红蓝双方的状态信息。为了让不同的智能体获得不同的动作,该实施例将智能体的本地观测也作为一部分输入。在训练阶段,将包含了联合动作奖赏的竞争奖赏传给智能体,还将单个智能体的私有探索奖赏同样进行回传,保证了智能体对基本动作的学习。
如图1所示,一种用于连续空间兵棋推演的多智能体决策方法,其特征在于,包括以下步骤:
步骤1,构建连续空间的兵棋推演场景,得到用于兵棋推演的战场环境数据,多智能体进行初始化;
步骤2,构建经验重访数据集,所述的经验重访数据集Dt={e1,e2,...,et}存储了多智能体在每一个时间步的经验et=(st,at,rt,st+1),包含当前的状态st,采取的动作at,当前步转移获得的奖赏rt以及下一个时间步的状态st+1;构建目标函数,所述目标函数为:
Figure BDA0003257285120000041
其中,Q为Q值,即目标函数,α为学习率,γ为奖励性衰变系数;
步骤3,多个智能体进行本地观测;
步骤4,基于CNN提取推演多智能体的多实体特征;
步骤5,所述的多实体特征与多智能体的本地观测数据共同作为多智能体学习的输入,利用基于课程学习奖赏的Q学习训练多智能体;
步骤6,利用训练完成的多智能体进行对战决策;
其中,步骤1所述的一种用于连续空间兵棋推演的多智能体决策方法,其特征在于,所述步骤1构建连续空间的兵棋推演场景:即将连续空间兵棋推演场景形式化的定义为分布式局部观测MDP过程,具体表示为如下七元组(I,S,{Ai},{Zi},T,R,O);其中,I表示有限的智能体的集合;S表示状态集;{Ai}表示智能体i的动作集;{Zi}表示智能体i的观测集;T表示所有智能体的联合状态T(s'|s,{a1,...,an})转移;R表示全局动作奖赏;O表示单个智能体的观测模型O,环境状态S下,单个智能体的观测状态函数为O(s,i)=oi
其中,如图3所示,所述步骤3中,该实施例采用基于卷积神经网络(CNN)的特征提取方式,采用一个1×n的横向卷积核,对单实体的信息压缩成为一个值,通过输出多个通道,将实体信息压缩为多个值;之后通过m×1的纵向卷积核对多个实体的信息进行融合压缩,获得对全体实体状态信息的特征表示。同基于FC的特征提取方式相比,该方法在网络内部构建了通信模式,将多实体的信息在网络内进行了深度融合,其对多实体的状态表达具有更好的整体性。
其中,在所述步骤4中,探索奖赏和竞争奖赏相结合的课程学习奖赏方法通过线性退火因子α来实现;在仿真时刻t,获得的探索奖赏为rt exploration,竞争奖赏为rt cooperation,该仿真片段的总步长为T,T即时刻,表示该次仿真结束,获得胜负结果,则获得的奖赏值为:
rt=αtrt exploration+(1-αt)rt cooperation;αt:1→0,t:0→T
线性退火因子αt随着仿真时间推进不断降低,逐渐趋近于零。
其中,在所述步骤5中,课程学习奖赏是探索奖赏和竞争奖赏相结合的课程学习奖赏方法;探索奖赏是指在训练的起始阶段,多智能体学习基本的动作使用的密集私有奖赏,探索奖赏随着仿真训练的推进逐渐趋向于零;竞争奖赏是指稀疏全局奖赏,是仿真结果的胜负奖赏。
该实施例的通过如下想定来评估该发明方法。
该实施例的想定包含第四届兵棋推演机机对抗博弈赛的主要实体,能够快速验证我们的算法性能。该想定包含红蓝双方,双方配置相同,各有一艘需要保护的船只,和一个可供飞机起飞的机场以及三架飞机。双方飞机从各自的机场起飞,去打击对方的船只,船只不具备防御能力。红蓝各方若想取得胜利,需要先打击对方的在空飞机,获得制空权才可以对船只打击。该想定包含两个内置规则。该想定下的事件得分为损失/击落一架飞机分到-/+139分,击沉/被击沉船只得到+/-1784分。该得分能够很好地激发飞机进行积极的进攻,避免消极防御。
在该想定中,本方的智能体间主要是合作为主,智能体通过自身的观测学习合作行为,所有的智能体都以最大化全局奖赏为目标。红蓝双方的作战力量是对称的,因而该实施例中红蓝双方的状态设计如下:定义可能包含的最大有效实体数量为13,每个实体包含经度、纬度、高度、速度、航向、目标纬度、目标经度等七个信息,其中飞机的目标纬度和目标经度表示其飞往的目标点信息,而飞机携带导弹的目标纬度和目标经度则表示其要打击的目标信息(如果目标消失,则为0)。
红蓝双方对对方的信息感知是利用探测获得,只有在雷达探测范围内的目标才能被观测到,而且观测具有一定的观测误差,因而获得是不完全的对手信息。同样,对手的信息最大也是13个实体,每个实体包含经度、纬度、高度、速度和航向等五个信息,其中前三个实体表示飞机,后十个为导弹信息。
因而,对于己方和对手的信息表示都是分成了两部分进行描述,不足的位置补0。对飞机的动作设计包含了离散化的六个飞机航向、三个高度、三个武器打击距离以及三个速度变化,每一个飞机的动作空间为108个。
基于以上想定,该实施例分别采用基于全连接(Full Connect,FC)网络和基于卷积神经网络CNN的特征提取算法,对两个内置规则分别进行了对抗学习,学习效果如图4,图5。图4显示了基于FC和基于CNN的特征提取对规则1的对抗结果,从实验结果中可以发现,基于CNN的特征提取方法优于基于FC的特征提取方法,收敛速度更快。图5显示了基于FC和基于CNN的特征提取对内置规则2的对抗结果。从实验结果中可以发现,基于CNN的特征提取方法其收敛速度快于基于FC特征提取方法的收敛速度。
基于以上想定,该实施例分别采用基于课程学习奖赏方法的Q学习和基于仅竞争奖赏方法的VDN、QMIX分别对两个内置规则分别进行了对抗学习,学习效果如图6,图7。基于课程学习奖赏塑造的Q学习同基于稀疏奖赏的同值分解网络(Value Decomposition Net-work,VDN)和QMIX等算法相比,在同样的训练时间内,基于课程学习奖赏塑造的Q学习已经趋向收敛,在实验环境中,能够成功攻击掉对方单位的船只;而基于稀疏奖赏的VDN和QMIX等算法在相同的训练时间内,飞机仍然在原地盘旋,不能够有效的飞往交战空域进行对抗,虽然飞机没有损失,但每次都被对方飞机打掉己方船只。
基于以上想定,该实施例分别将基于课程学习奖赏的Q学习、基于课程学习奖赏的VDN和基于课程学习奖赏的QMIX这三种算法对两个内置规则分别进行了对抗学习,学习效果如图8,图9。比较于课程学习奖赏塑造的Q学习,采用课程学习奖赏的VDN和QMIX在同样的训练时间内,训练结果依然没有超越课程学习奖赏塑造的Q学习,而且在训练的早期,一直在起飞区域上空盘旋,无法有效的学习到前往交战空域的策略。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
虽然上面已经参考各种实施例描述了本发明,但是应当理解,在不脱离本发明的范围的情况下,可以进行许多改变和修改。因此,其旨在上述详细描述被认为是例示性的而非限制性的,并且应当理解,以下权利要求(包括所有等同物)旨在限定本发明的精神和范围。以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (5)

1.一种用于连续空间兵棋推演的多智能体决策方法,其特征在于,包括以下步骤:
步骤1,构建连续空间的兵棋推演场景,得到用于兵棋推演的战场环境数据,多智能体进行初始化;
步骤2,构建经验重访数据集,所述的经验重访数据集Dt={e1,e2,...,et}存储了多智能体在每一个时间步的经验et=(st,at,rt,st+1),包含当前的状态st,采取的动作at,当前步转移获得的奖赏rt以及下一个时间步的状态st+1;构建目标函数,所述目标函数为:
Figure FDA0003257285110000011
其中,Q为Q值,即目标函数,α为学习率,γ为奖励性衰变系数;
步骤3,多个智能体进行本地观测;
步骤4,基于CNN提取推演多智能体的多实体特征;
步骤5,所述的多实体特征与多智能体的本地观测数据共同作为多智能体学习的输入,利用基于课程学习奖赏的Q学习训练多智能体;
步骤6,利用训练完成的多智能体进行对战决策;
所述步骤5中,所述课程学习奖赏是探索奖赏和竞争奖赏相结合的课程学习奖赏方法;所述探索奖赏是指在训练的起始阶段,多智能体学习基本的动作使用的密集私有奖赏,探索奖赏随着仿真训练的推进逐渐趋向于零;所述竞争奖赏是指稀疏全局奖赏,是仿真结果的胜负奖赏。
2.根据权利要求步骤1所述的用于连续空间兵棋推演的多智能体决策方法,其特征在于,所述步骤1中构建连续空间的兵棋推演场景,即将连续空间兵棋推演场景形式化的定义为分布式局部观测MDP过程,具体表示为如下七元组(I,S,{Ai},{Zi},T,R,O);其中,I表示有限的智能体的集合;S表示状态集;{Ai}表示智能体i的动作集;{Zi}表示智能体i的观测集;T表示所有智能体的联合状态T(s'|s,{a1,...,an})转移,s'∈S,s∈S,a1,...,an∈{Ai};R表示全局动作奖赏;O表示单个智能体的观测模型。
3.根据权利要求1所述的用于连续空间兵棋推演的多智能体决策方法,其特征在于,所述步骤4中基于CNN提取推演多智能体的多实体特征的方法为:用一个1×n的横向卷积核,对单实体的信息压缩成为一个值,通过输出多个通道,将实体信息压缩为多个值;之后通过m×1的纵向卷积核对多个实体的信息进行融合压缩。
4.根据权利要求1所述的用于连续空间兵棋推演的多智能体决策方法,其特征在于,所述步骤5中探索奖赏和竞争奖赏相结合的课程学习奖赏方法通过线性退火因子μ来实现;在仿真时刻t,获得的探索奖赏为
Figure FDA0003257285110000021
竞争奖赏为
Figure FDA0003257285110000022
该仿真片段的总步长为T,T即时刻,表示该次仿真结束,获得胜负结果,则获得的奖赏值为:
Figure FDA0003257285110000023
μt:1→0,t:0→T
线性退火因子μt随着仿真时间推进不断降低,逐渐趋近于零。
5.根据权利要求1所述的用于连续空间兵棋推演的多智能体决策方法,其特征在于,采用值分解网络的思想,分别输出每个智能体的动作;在多智能体的输入端,通过通信的方式,将各个智能体的观测进行融合;同时各个智能体的本地观测作为一部分输入。
CN202111063370.6A 2021-09-10 2021-09-10 一种用于连续空间兵棋推演的多智能体决策方法 Active CN113723013B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111063370.6A CN113723013B (zh) 2021-09-10 2021-09-10 一种用于连续空间兵棋推演的多智能体决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111063370.6A CN113723013B (zh) 2021-09-10 2021-09-10 一种用于连续空间兵棋推演的多智能体决策方法

Publications (2)

Publication Number Publication Date
CN113723013A true CN113723013A (zh) 2021-11-30
CN113723013B CN113723013B (zh) 2024-06-18

Family

ID=78683278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111063370.6A Active CN113723013B (zh) 2021-09-10 2021-09-10 一种用于连续空间兵棋推演的多智能体决策方法

Country Status (1)

Country Link
CN (1) CN113723013B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114611669A (zh) * 2022-03-14 2022-06-10 三峡大学 一种基于双经验池ddpg网络的兵棋推演智能决策方法
CN114662655A (zh) * 2022-02-28 2022-06-24 南京邮电大学 一种基于注意力机制的兵棋推演ai分层决策方法及装置
CN114690623A (zh) * 2022-04-21 2022-07-01 中国人民解放军军事科学院战略评估咨询中心 一种值函数快速收敛的智能体高效全局探索方法及系统
CN114880955A (zh) * 2022-07-05 2022-08-09 中国人民解放军国防科技大学 基于强化学习的兵棋多实体异步协同决策方法和装置
CN116757497A (zh) * 2023-06-12 2023-09-15 南京航空航天大学 基于图类感知Transformer的多模态军事智能辅助作战决策方法
WO2023231961A1 (zh) * 2022-06-02 2023-12-07 华为技术有限公司 一种多智能体强化学习方法及相关装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018212918A1 (en) * 2017-05-18 2018-11-22 Microsoft Technology Licensing, Llc Hybrid reward architecture for reinforcement learning
CN112131786A (zh) * 2020-09-14 2020-12-25 中国人民解放军军事科学院评估论证研究中心 基于多智能体强化学习的目标探测与分配方法及装置
CN112861442A (zh) * 2021-03-10 2021-05-28 中国人民解放军国防科技大学 基于深度强化学习的多机协同空战规划方法及系统
CN113222106A (zh) * 2021-02-10 2021-08-06 西北工业大学 一种基于分布式强化学习的智能兵棋推演方法
CN113298260A (zh) * 2021-06-11 2021-08-24 中国人民解放军国防科技大学 一种基于深度强化学习的对抗仿真推演方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018212918A1 (en) * 2017-05-18 2018-11-22 Microsoft Technology Licensing, Llc Hybrid reward architecture for reinforcement learning
CN112131786A (zh) * 2020-09-14 2020-12-25 中国人民解放军军事科学院评估论证研究中心 基于多智能体强化学习的目标探测与分配方法及装置
CN113222106A (zh) * 2021-02-10 2021-08-06 西北工业大学 一种基于分布式强化学习的智能兵棋推演方法
CN112861442A (zh) * 2021-03-10 2021-05-28 中国人民解放军国防科技大学 基于深度强化学习的多机协同空战规划方法及系统
CN113298260A (zh) * 2021-06-11 2021-08-24 中国人民解放军国防科技大学 一种基于深度强化学习的对抗仿真推演方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
崔文华;李东;唐宇波;柳少军;: "基于深度强化学习的兵棋推演决策方法框架", 国防科技, no. 02, 20 April 2020 (2020-04-20) *
李承兴;高桂清;鞠金鑫;蒋振;: "基于人工智能深度增强学习的装备维修保障兵棋研究", 兵器装备工程学报, no. 02, 25 February 2018 (2018-02-25) *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114662655A (zh) * 2022-02-28 2022-06-24 南京邮电大学 一种基于注意力机制的兵棋推演ai分层决策方法及装置
CN114662655B (zh) * 2022-02-28 2024-07-16 南京邮电大学 一种基于注意力机制的兵棋推演ai分层决策方法及装置
CN114611669A (zh) * 2022-03-14 2022-06-10 三峡大学 一种基于双经验池ddpg网络的兵棋推演智能决策方法
CN114611669B (zh) * 2022-03-14 2023-10-13 三峡大学 一种基于双经验池ddpg网络的兵棋推演智能决策方法
CN114690623A (zh) * 2022-04-21 2022-07-01 中国人民解放军军事科学院战略评估咨询中心 一种值函数快速收敛的智能体高效全局探索方法及系统
CN114690623B (zh) * 2022-04-21 2022-10-25 中国人民解放军军事科学院战略评估咨询中心 一种值函数快速收敛的智能体高效全局探索方法及系统
WO2023231961A1 (zh) * 2022-06-02 2023-12-07 华为技术有限公司 一种多智能体强化学习方法及相关装置
CN114880955A (zh) * 2022-07-05 2022-08-09 中国人民解放军国防科技大学 基于强化学习的兵棋多实体异步协同决策方法和装置
CN114880955B (zh) * 2022-07-05 2022-09-20 中国人民解放军国防科技大学 基于强化学习的兵棋多实体异步协同决策方法和装置
CN116757497A (zh) * 2023-06-12 2023-09-15 南京航空航天大学 基于图类感知Transformer的多模态军事智能辅助作战决策方法
CN116757497B (zh) * 2023-06-12 2024-01-12 南京航空航天大学 基于图类感知Transformer的多模态军事智能辅助作战决策方法

Also Published As

Publication number Publication date
CN113723013B (zh) 2024-06-18

Similar Documents

Publication Publication Date Title
CN113723013B (zh) 一种用于连续空间兵棋推演的多智能体决策方法
Hu et al. Application of deep reinforcement learning in maneuver planning of beyond-visual-range air combat
Payne I, warbot: The dawn of artificially intelligent conflict
CN111240353B (zh) 基于遗传模糊树的无人机协同空战决策方法
CN111221352A (zh) 基于多无人机协同博弈对抗的控制系统
CN113893539B (zh) 智能体的协同对战方法及装置
CN113396428A (zh) 多智能体应用的稳健、可扩展且可推广的机器学习范型
CN105678030B (zh) 基于专家系统和战术战法分形化的空战战术团队仿真方法
CN109541960B (zh) 一种用于飞行器数字化战场对抗的系统和方法
CN113050686A (zh) 一种基于深度强化学习的作战策略优化方法及系统
CN114841068A (zh) 一种三维高仿真兵棋推演平台与方法
CN112561032A (zh) 一种基于种群训练的多智能体强化学习方法及系统
CN114330093A (zh) 基于dqn的航空兵多平台协同智能对抗决策方法
CN116596343A (zh) 一种基于深度强化学习的智能兵棋推演决策方法
CN114997054A (zh) 一种兵棋对弈模拟方法及装置
Yildirim Serious game design for military training
CN118171572A (zh) 无人机集群演进式的仿真训练方法、系统、介质及设备
CN114722998A (zh) 一种基于cnn-ppo的兵棋推演智能体构建方法
CN118298686A (zh) 一种基于虚拟仿真的游戏化舰艇电子对抗训练方法及装置
Watling The Arms of the Future: Technology and Close Combat in the Twenty-first Century
CN117291254A (zh) 基于模仿学习和安全强化学习的智能体任务分配训练方法
CN116036613A (zh) 一种实现兵棋推演智能决策的系统和方法
CN113705828A (zh) 一种基于集群影响度的战场博弈策略强化学习训练方法
Chen et al. A MADDPG-based multi-agent antagonistic algorithm for sea battlefield confrontation
Fu et al. Coordinating multi-agent deep reinforcement learning in wargame

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant