CN114880955A - 基于强化学习的兵棋多实体异步协同决策方法和装置 - Google Patents

基于强化学习的兵棋多实体异步协同决策方法和装置 Download PDF

Info

Publication number
CN114880955A
CN114880955A CN202210782446.9A CN202210782446A CN114880955A CN 114880955 A CN114880955 A CN 114880955A CN 202210782446 A CN202210782446 A CN 202210782446A CN 114880955 A CN114880955 A CN 114880955A
Authority
CN
China
Prior art keywords
entity
network model
reinforcement learning
agent
asynchronous
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210782446.9A
Other languages
English (en)
Other versions
CN114880955B (zh
Inventor
张煜
蒋超远
罗俊仁
李婷婷
刘运
杨景照
刘果
李鑫
刘屹峰
陈佳星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202210782446.9A priority Critical patent/CN114880955B/zh
Publication of CN114880955A publication Critical patent/CN114880955A/zh
Application granted granted Critical
Publication of CN114880955B publication Critical patent/CN114880955B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请属于智能决策技术领域,涉及基于强化学习的兵棋多实体异步协同决策方法和装置,方法包括:获取兵棋推演环境以及多实体异步协同决策问题,对多实体异步协同决策问题进行建模分析,得到初始模型;根据初始模型,采用多智能体深度强化学习算法,建立智能体网络模型和混合评估网络模型;对智能体网络模型和混合评估网络模型进行训练,得到协同决策框架;通过设置加权算子或通过多步回报优化多智能体深度强化学习算法,重构多智能体深度强化学习算法的损失函数;采用重构的损失函数更新协同决策框架;根据更新后的协同决策框架,对多实体的异步协同进行决策。本申请能够实现兵棋推演中多实体异步协同的决策。

Description

基于强化学习的兵棋多实体异步协同决策方法和装置
技术领域
本申请涉及智能决策技术领域,特别是涉及基于强化学习的兵棋多实体异步协同决策方法和装置。
背景技术
兵棋推演是一种利用兵棋进行模拟战争活动的过程。兵棋玩家使用代表环境和军事力量的棋盘和棋子,依据特定的军事规则和概率论原理,模拟战争对抗,对作战方案进行过程推演和评估优化。国防大学兵棋团队研制了战略战役兵棋系统,并指出了人工智能技术应用到兵棋推演中需要解决的关键性问题——智能态势感知。早期的兵棋智能体设计主要利用人类高水平玩家推演经验形成知识库,进而实现给定状态下的行为决策,称之为规则智能体。利用OODA环是设计规则智能体一种方式,在OODA环中的决策模块通常基于行为树或有限状态机等框架编程实现。
随着智能体在游戏领域战胜了人类高水平玩家后,部分兵棋推演领域的研究人员开始思考如何将现有的人工智能技术迁移到兵棋推演中,设计能够对抗甚至超越人类玩家的兵棋智能体。2017年,在全国兵棋推演大赛中,中科院自动化所研究的CASIA先知1.0系统以7:1的成绩击败了人类八强选手。在2020年,中国科学院自动化所研究的AlphaWar引入了监督学习和自博弈技术实现了联合策略的学习,并且在与人类选手的对抗中通过了图灵测试。深度强化学习兼具深度学习的感知能力和强化学习的决策能力,近年来,部分学者开始尝试将深度强化学习算法应用到兵棋智能体的设计中。
在兵棋推演中,需要多个异构算子相互配合最大化集体得分,完成兵棋推演的最终任务。兵棋类似于游戏,近年来以深度强化学习为基础的游戏AI(ArtificialIntelligence)AlphaGo、AlphaStar战胜了人类高水平玩家,因此,在兵棋推演与人工智能的交叉研究领域,基于强化学习的兵棋智能决策方法成为了热门研究问题。
综上,基于强化学习的兵棋智能决策技术取得了诸多研究成果,但是在实际应用过程中存在两类需要解决的关键性问题:
其一,兵棋推演中是多实体共同参与对抗,目前大多数兵棋智能决策算法都是基于单智能体强化学习算法设计。在兵棋对抗环境中,多算子协同问题缺乏统一的决策流程框架。
其二,兵棋中多实体的异构性导致多智能体协作的异步性,即不同智能体的基本动作执行时长不一致。这种异步性导致现有的多智能体强化学习算法难以有效的解决兵棋多实体异步协作问题。
发明内容
基于此,有必要针对上述技术问题,提供一种基于强化学习的兵棋多实体异步协同决策方法和装置,能够基于强化学习算法,实现兵棋推演中多实体异步协同的决策。
基于强化学习的兵棋多实体异步协同决策方法,包括:
获取兵棋推演环境以及与所述兵棋推演环境相对应的多实体异步协同决策问题,对所述多实体异步协同决策问题进行建模分析,得到初始模型;
根据所述初始模型,采用多智能体深度强化学习算法,建立智能体网络模型和混合评估网络模型;根据所述智能体网络模型和混合评估网络模型进行循环计算,根据计算结果对所述智能体网络模型和所述混合评估网络模型进行训练,得到所述多实体异步协同决策问题的协同决策框架;
通过设置加权算子优化所述多智能体深度强化学习算法的损失函数计算机制,或通过多步回报优化所述多智能体深度强化学习算法的奖励回报计算机制,重构所述多智能体深度强化学习算法的损失函数;采用重构的损失函数更新所述协同决策框架;
根据更新后的协同决策框架,对多实体的异步协同进行决策。
在其中一个实施例中,通过设置加权算子优化所述多智能体深度强化学习算法的损失函数计算机制,或通过多步回报优化所述多智能体深度强化学习算法的奖励回报计算机制,重构所述多智能体深度强化学习算法的损失函数包括:
将所述混合评估网络模型设计为第一子网络和第二子网络,分别通过所述第一子网络和所述第二子网络,计算更新目标和联合状态动作估计值并比较,得到加权算子;
根据所述加权算子,重构所述多智能体深度强化学习算法的损失函数。
在其中一个实施例中,通过设置加权算子优化所述多智能体深度强化学习算法的损失函数计算机制,或通过多步回报优化所述多智能体深度强化学习算法的奖励回报计算机制,重构所述多智能体深度强化学习算法的损失函数还包括:
将多步回放数据结合得到多步回报,通过多步回报计算更新目标;
根据所述更新目标,重构所述多智能体深度强化学习算法的损失函数。
在其中一个实施例中,获取兵棋推演环境以及与所述兵棋推演环境相对应的多实体异步协同决策问题,对所述多实体异步协同决策问题进行建模分析,得到初始模型包括:
获取兵棋推演环境以及与所述兵棋推演环境相对应的多实体异步协同决策问题,通过马尔科夫决策过程,对所述多实体异步协同决策问题进行建模分析,得到一元组;
根据所述兵棋推演环境,对所述一元组进行更新,得到初始模型。
在其中一个实施例中,根据所述智能体网络模型和混合评估网络模型进行循环计算包括:
根据所述智能体网络模型,输入当前观测和上一时刻动作信息,输出每个实体的状态动作价值函数,并得到每个实体的执行动作对应的状态动作值;
根据所述混合评估网络模型,输入所述状态动作值,输出当前时刻联合状态动作价值。
在其中一个实施例中,根据计算结果对所述智能体网络模型和所述混合评估网络模型进行训练,得到所述多实体异步协同决策问题的协同决策框架包括:
将计算结果存入经验池,在所述经验池中采样,通过最小化损失函数和计算回报对所述智能体网络模型和所述混合评估网络模型进行训练,得到所述多实体异步协同决策问题的协同决策框架。
在其中一个实施例中,根据所述智能体网络模型和混合评估网络模型进行循环计算还包括:
根据所述兵棋推演环境中返回的战场态势信息执行状态掩码操作,得到实体的观测,并将所述观测输入所述智能体网络模型。
在其中一个实施例中,根据所述智能体网络模型和混合评估网络模型进行循环计算还包括:
兵棋推演环境接收并执行各个实体的联合动作,然后返回下一时间步战场态势信息、即时奖励以及游戏终止判定标志符号;根据所述战场态势信息执行状态掩码操作,得到实体的观测,并将所述观测输入所述智能体网络模型;所述智能体网络模型输出各个实体的联合动作至兵棋推演环境并进行循环计算。
基于强化学习的兵棋多实体异步协同决策装置,包括:
获取模块,用于获取兵棋推演环境以及与所述兵棋推演环境相对应的多实体异步协同决策问题,对所述多实体异步协同决策问题进行建模分析,得到初始模型;
建模模块,用于根据所述初始模型,采用多智能体深度强化学习算法,建立智能体网络模型和混合评估网络模型;根据所述智能体网络模型和混合评估网络模型进行循环计算,根据计算结果对所述智能体网络模型和所述混合评估网络模型进行训练,得到所述多实体异步协同决策问题的协同决策框架;
重构模块,用于通过设置加权算子优化所述多智能体深度强化学习算法的损失函数计算机制,或通过多步回报优化所述多智能体深度强化学习算法的奖励回报计算机制,重构所述多智能体深度强化学习算法的损失函数;采用重构的损失函数更新所述协同决策框架;
决策模块,用于根据更新后的协同决策框架,对多实体的异步协同进行决策。
上述基于强化学习的兵棋多实体异步协同决策深度强化学习的兵棋多实体异步协同决策方法和装置,采用了多智能体强化学习算法,对多实体(即多智能体)设置了不同的动作步长,因此能够实现兵棋推演中多实体异步协同的决策。而且,通过设置加权算子或通过多步回报,优化了多智能体强化学习算法的损失函数计算机制或奖励回报计算机制,从而重构损失函数,并对混合评估网络模型进行更新,最终得到每个实体的联合动作价值函数进而进行决策;在优化过程中,学习速度快、最终胜率高且战斗效率高。
附图说明
图1为一个实施例中基于强化学习的兵棋多实体异步协同决策方法的流程示意图;
图2为一个实施例中基于强化学习的兵棋多实体异步协同决策方法的示意图;
图3为一个实施例中多实体异步的协同决策框架的示意图;
图4为一个实施例中MACDF-W混合网络结构的示意图;
图5为一个实施例中四种算法与规则智能体对抗训练的以胜率为指标的效果对比图;
图6为一个实施例中四种算法与规则智能体对抗训练的以单局时长为指标的效果对比图;
图7为一个实施例中基于强化学习的兵棋多实体异步协同决策装置的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
如图1所示,本申请提供的一种基于强化学习的兵棋多实体异步协同决策方法,在一个实施例中,包括以下步骤:
步骤102,获取兵棋推演环境以及与所述兵棋推演环境相对应的多实体异步协同决策问题,对所述多实体异步协同决策问题进行建模分析,得到初始模型。
具体的,获取兵棋推演环境以及与所述兵棋推演环境相对应的多实体异步协同决策问题,通过马尔科夫决策过程,对所述多实体异步协同决策问题进行建模分析,得到一元组;根据所述兵棋推演环境,对所述一元组进行更新,得到初始模型。
如何通过马尔科夫决策过程对问题进行建模分析得到一元组属于现有技术,在此不再赘述。
步骤104,根据所述初始模型,采用多智能体深度强化学习算法,建立智能体网络模型和混合评估网络模型;根据所述智能体网络模型和混合评估网络模型进行循环计算,根据计算结果对所述智能体网络模型和所述混合评估网络模型进行训练,得到所述多实体异步协同决策问题的协同决策框架。
多智能体强化学习算法(QMIX)包括构建智能体网络模型以及超网络模型两个部分,均是现有技术。根据初始模型,先采用智能体网络模型对每个实体的环境交互数据进行描述,得到每个实体的动作和状态,再采用超网络进行评估,超网络的更新是通过最小化损失函数进行的。
根据所述兵棋推演环境中返回的战场态势信息执行状态掩码操作,得到实体的观测,并将所述观测输入所述智能体网络模型。
根据所述智能体网络模型,输入当前观测和上一时刻动作信息,输出每个实体的状态动作价值函数,并得到每个实体的执行动作对应的状态动作值;根据所述混合评估网络模型,输入所述状态动作值,输出当前时刻联合状态动作价值。
兵棋推演环境接收并执行各个实体的联合动作,然后返回下一时间步战场态势信息、即时奖励以及游戏终止判定标志符号;根据所述战场态势信息执行状态掩码操作,得到实体的观测,并将所述观测输入所述智能体网络模型;所述智能体网络模型输出各个实体的联合动作至兵棋推演环境并进行循环计算。
将计算结果存入经验池,在所述经验池中采样,通过最小化损失函数和计算回报对所述智能体网络模型和所述混合评估网络模型进行训练,得到所述多实体异步协同决策问题的协同决策框架。
步骤106,通过设置加权算子优化所述多智能体深度强化学习算法的损失函数计算机制,或通过多步回报优化所述多智能体深度强化学习算法的奖励回报计算机制,重构所述多智能体深度强化学习算法的损失函数;采用重构的损失函数更新所述协同决策框架。
具体的,将所述混合评估网络模型设计为第一子网络和第二子网络,分别通过所述第一子网络和所述第二子网络,计算更新目标和联合状态动作估计值并比较,得到加权算子;根据所述加权算子,重构所述多智能体深度强化学习算法的损失函数。
或,将多步回放数据结合得到多步回报,通过多步回报计算更新目标;根据所述更新目标,重构所述多智能体深度强化学习算法的损失函数。
通过设置加权算子重构损失函数,可以更好的判断损失函数的拟合趋势,更精确地减小损失函数的误差,进而在通过重构的损失函数更新协同决策框架时,能够更加准确的表示联合状态动作价值,最终实现算法速度的提高,且提升了胜率和战斗效率。
通过多步回报重构损失函数,新的更新目标比原本MACDF模型中单步时序差分预测目标能够更加精确的拟合目标值。
步骤108,根据更新后的协同决策框架,对多实体的异步协同进行决策。
上述基于强化学习的兵棋多实体异步协同决策深度强化学习的兵棋多实体异步协同决策方法和装置,采用了多智能体强化学习算法,对多实体(即多智能体)设置了不同的动作步长,因此能够实现兵棋推演中多实体异步协同的决策。而且,通过设置加权算子或通过多步回报,优化了多智能体强化学习算法的损失函数计算机制或奖励回报计算机制,从而重构损失函数,并对混合评估网络模型进行更新,最终得到每个实体的联合动作价值函数进而进行决策;在优化过程中,学习速度快、最终胜率高且战斗效率高。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
如图2所示,在一个具体的实施例中,基于强化学习的兵棋多实体异步协同决策深度强化学习的兵棋多实体异步协同决策方法包括:
202:获取兵棋推演环境以及与所述兵棋推演环境相对应的多实体异步协同决策问题,对所述多实体异步协同决策问题进行建模分析,得到初始模型。具体的:
2021:获取兵棋推演环境以及与所述兵棋推演环境相对应的多实体异步协同决策问题,使用一种简单战术兵棋环境,其中包含兵棋推演中常见的三种算子(坦克、战车、步兵),通过将不同算子的动作执行周期设置为不一致得到多实体异步协同决策问题实例。具体的,将坦克和战车算子向相邻六角格移动一格时间周期设置为5s,将步兵算子向相邻六角格移动一格时间周期设置为1s,兵棋想定的具体信息见下表1。
表1兵棋想定的具体信息
Figure 259319DEST_PATH_IMAGE001
2022:通过马尔科夫决策过程,对所述多实体异步协同决策问题进行建模分析,得到一元组。
即将兵棋推演问题形式化定义为分布式部分可观察马尔科夫决策过程(Dec-POMDPs),表示为一元组
Figure 910881DEST_PATH_IMAGE002
;其中:
Figure 611989DEST_PATH_IMAGE003
表示战术兵棋环境状态空间,
Figure 741619DEST_PATH_IMAGE004
表示兵棋环境中三类智能体的联合动作空间,
Figure 24833DEST_PATH_IMAGE005
表示状态转移函数,
Figure 316137DEST_PATH_IMAGE006
表示奖励函数,
Figure 292491DEST_PATH_IMAGE007
表示智能体观测函数,
Figure 960232DEST_PATH_IMAGE008
表示智能体的观测空间,
Figure 301215DEST_PATH_IMAGE009
表示智能体的个数,此处设置为3,
Figure 12688DEST_PATH_IMAGE010
表示折扣因子。
2023:根据所述兵棋推演环境,对所述一元组进行更新,得到初始模型。
在兵棋推演环境的基础上,设计了每个实体的具体状态空间信息,状态空间信息包含了我方算子特征信息和敌方算子特征信息,两方的算子单元都是由坦克,战车,步兵组成。由于战场迷雾的存在,敌方算子的相关状态信息只能在被观察到后才能获取,为了模拟真实环境,算子在被观察后也只能获取部分信息,如下表2所示。在具体特征信息中,除了能否通视标志、能否攻击标志用三个编码表示之外,其它都用一个编码表示,基于下表2,状态空间的纬度为:
Figure 235859DEST_PATH_IMAGE011
维。
表2算子在被观察后获取的部分信息
Figure 441712DEST_PATH_IMAGE013
各智能体的动作空间决策信息包括移动动作(6个方向的移动)、射击动作(对三个不同目标的射击)和停止动作,具体见下表3,故动作空间的纬度是
Figure 433939DEST_PATH_IMAGE014
维。
表3移动动作和射击动作的具体信息
Figure 581892DEST_PATH_IMAGE015
根据多实体异步协同决策问题实例,战术兵棋环境接收并执行坦克、战车和步兵算子的联合动作
Figure 89097DEST_PATH_IMAGE016
,然后返回下一时间步战场态势信息
Figure 833062DEST_PATH_IMAGE017
和即时奖励
Figure 945375DEST_PATH_IMAGE018
,同时返回游戏终止判定标志符号done。
使用的即时奖励
Figure 749383DEST_PATH_IMAGE019
为我方算子单元和敌方算子单元损失血量的差值,即时奖励
Figure 196413DEST_PATH_IMAGE019
具体设计为:
Figure 744069DEST_PATH_IMAGE020
其中,
Figure 710888DEST_PATH_IMAGE021
表示敌方算子上一时刻血量、
Figure 685798DEST_PATH_IMAGE022
表示敌方当前时刻血量、
Figure 357475DEST_PATH_IMAGE023
表示我方算子上一时刻血量,
Figure 708822DEST_PATH_IMAGE024
表示我方当前时刻血量。
done表示游戏是否终止,1表示游戏结束,0表示游戏还记继续。
204:根据所述初始模型,采用多智能体深度强化学习算法QMIX,建立智能体网络模型和混合评估网络模型;根据所述智能体网络模型和混合评估网络模型进行循环计算,根据计算结果对所述智能体网络模型和所述混合评估网络模型进行训练,得到所述多实体异步协同决策问题的协同决策框架MACDF。具体的:
2041:根据所述初始模型,采用多智能体深度强化学习算法,建立智能体网络模型和混合评估网络模型。
设计了智能体网络AgentNetwork用于多实体决策;设计了混合评估网络HANetwork用于评估多实体联合动作。
2042:根据所述兵棋推演环境中返回的战场态势信息执行状态掩码操作,得到实体的观测,并将所述观测输入所述智能体网络模型。
将战术兵棋环境返回的战场态势信息
Figure 530147DEST_PATH_IMAGE025
执行状态掩码操作,即进行兵棋环境MASK设计,每个智能体智能获取环境局部观测并做出行动,即得到智能体的观测
Figure 738275DEST_PATH_IMAGE026
,这种设置保证了该兵棋环境的智能体是基于非完美信息进行行为决策的:
Figure 645051DEST_PATH_IMAGE027
在本实施例中,MASK的具体操作方式是将不可通视的算子特征信息的编码置为空,将可通视算子的不可获取特征信息(见表2)的编码置为空。
2043:根据所述智能体网络模型,输入当前观测和上一时刻动作信息,输出每个实体的状态动作价值函数,并得到每个实体的执行动作对应的状态动作值。
设计智能体网络(动作网络)模型结构用于多实体决策,智能体网络模型初始化,设智能体网络为AgentNetwork,设计了三个相同结构的智能体网络AgentNetwork,这里我们以步兵算子智能体Agent(I)举例说明,将处理后的步兵算子智能体观测
Figure 783777DEST_PATH_IMAGE028
和上一时间步动作信息
Figure 459609DEST_PATH_IMAGE029
输入智能体网络Agent(I),得到步兵算子智能体的状态动作价值
Figure 41900DEST_PATH_IMAGE030
和动作决策信息
Figure 435972DEST_PATH_IMAGE031
,该决策信息控制步兵算子的下一时间步执行新的动作。另外两个智能体网络坦克智能体Agent(T)和战车智能体Agent(C)使用同样的技术手段,3个智能体网络的输出拼接在一起形成联合动作信息
Figure 925859DEST_PATH_IMAGE032
具体的,智能体
Figure 705465DEST_PATH_IMAGE033
输入当前的观测
Figure 458658DEST_PATH_IMAGE034
和上一时刻动作信息
Figure 74447DEST_PATH_IMAGE035
,输出状态动作价值函数
Figure 571287DEST_PATH_IMAGE036
,则有:
Figure 470979DEST_PATH_IMAGE037
再经过贪婪策略
Figure 926231DEST_PATH_IMAGE038
输出当前时刻执行动作
Figure 294896DEST_PATH_IMAGE039
和其对应的状态动作值
Figure 64269DEST_PATH_IMAGE040
,以平衡探索和利用,即:
Figure 834778DEST_PATH_IMAGE041
优选地,智能体网络模型初始化设计为深度循环Q网络(DRQN),循环神经网络的设计有利于提升在部分可观察环境下的兵棋决策能力。网络结构为门控循环单元和多层感知器构成。具体结构见图3。
2044:根据所述混合评估网络模型,输入所述状态动作值,输出当前时刻联合状态动作价值。
设计混合评估网络模型用于评估多实体联合动作,设混合评估网络为HANetwork,混合网络模型初始化,输入当前时刻全局态势信息
Figure 460932DEST_PATH_IMAGE042
和每个智能体网络的输出
Figure 569090DEST_PATH_IMAGE043
,网络通过全局态势信息对当前时刻的动作进行评估,输出联合状态动作价值
Figure 407733DEST_PATH_IMAGE044
Figure 501591DEST_PATH_IMAGE045
混合评估网络可以使用一个超网络,有效融合(输入)全局态势信息,得到混合网络的权值矩阵和偏置。
然后,将各个智能体网络输出
Figure 767487DEST_PATH_IMAGE046
作为HANetwork的输入(a分别表示坦克、战车、步兵),混合评估网络可以通过前向计算得到全局联合状态动作价值
Figure 94432DEST_PATH_IMAGE047
Figure 533504DEST_PATH_IMAGE048
2045:兵棋推演环境接收并执行各个实体的联合动作,然后返回下一时间步战场态势信息、即时奖励以及游戏终止判定标志符号;根据所述战场态势信息执行状态掩码操作,得到实体的观测,并将所述观测输入所述智能体网络模型;所述智能体网络模型输出各个实体的联合动作至兵棋推演环境并进行循环计算。
即重复步骤2042-2044,实现智能体与战术兵棋环境的交互过程。
2046:将计算结果存入经验池,在所述经验池中采样,通过最小化损失函数和计算回报对所述智能体网络模型和所述混合评估网络模型进行训练,得到所述多实体异步协同决策问题的协同决策框架。
在交互过程中,将战术兵棋环境的战场态势信息
Figure 13026DEST_PATH_IMAGE049
、环境针对该联合动作反馈的即时奖励
Figure 449824DEST_PATH_IMAGE050
、游戏终止标志符done、智能体观测信息
Figure 749218DEST_PATH_IMAGE051
、智能体联合动作信息
Figure 726402DEST_PATH_IMAGE052
按照(
Figure 309699DEST_PATH_IMAGE053
done)的结构存放在回放经验池Replay Memory中。
采样经验池设计,记录智能体模型对战数据,定义为:
Figure 651818DEST_PATH_IMAGE054
其中
Figure 704088DEST_PATH_IMAGE055
Figure 422645DEST_PATH_IMAGE056
表示经验池的大小。
当经验池中的回放数据样本到达规定的可以训练的数量后,从经验池中采样一批样本数据对MACDF模型中的神经网络(包含智能体网络和混合评估网络)进行整理的统一回传更新,得到训练后的网络模型。
也就是说,智能体与环境交互产生对战数据回放记录存入经验池,通过采样经验池中的样本数据,对智能体网络和混合评估网络进行网络参数更新,训练MACDF中的神经网络,在规定时间步长后停止智能体的训练并得到最终训练好的智能体模型。
在网络训练的过程中,网络更新通过最小化以下损失函数实现,
Figure 673498DEST_PATH_IMAGE057
其中,
Figure 701366DEST_PATH_IMAGE058
表示数据采样的batch size,
Figure 975352DEST_PATH_IMAGE059
表示更新目标,通过计算回报得到,即:
Figure 497600DEST_PATH_IMAGE060
其中
Figure 602960DEST_PATH_IMAGE061
表示目标网络的参数。
206:通过设置加权算子优化所述多智能体深度强化学习算法的损失函数计算机制,或通过多步回报优化所述多智能体深度强化学习算法的奖励回报计算机制,重构所述多智能体深度强化学习算法的损失函数;采用重构的损失函数更新所述协同决策框架。具体的:
2061:将所述混合评估网络模型设计为第一子网络和第二子网络,分别通过所述第一子网络和所述第二子网络,计算更新目标和联合状态动作估计值并比较,得到加权算子;根据所述加权算子,重构所述多智能体深度强化学习算法的损失函数。
在MACDF中的混合评估网络中设计了两个子网络,分别是
Figure 552461DEST_PATH_IMAGE062
网络和
Figure 565941DEST_PATH_IMAGE063
网络,如图4所示;
Figure 626301DEST_PATH_IMAGE064
网络,使用的是与MACDF相同的网络,包括了局部的智能体DRQN网络和混合网络,网络通过最小化以下损失函数更新:
Figure 789429DEST_PATH_IMAGE065
式中,
Figure 909832DEST_PATH_IMAGE066
表示为更新目标Target,即:
Figure 220727DEST_PATH_IMAGE067
Figure 334046DEST_PATH_IMAGE068
网络,和MACDF类似,只不过去掉了单调性约束部分,表达能力比
Figure 86101DEST_PATH_IMAGE069
网络更强,网络通过最小化以下损失函数更新:
Figure 642984DEST_PATH_IMAGE070
设置一个加权算子
Figure 378859DEST_PATH_IMAGE071
重构损失函数的计算方式,具体表示如下:
Figure 843338DEST_PATH_IMAGE072
其中,
Figure 964747DEST_PATH_IMAGE073
表示用
Figure 426952DEST_PATH_IMAGE074
网络计算出来的更新目标Target,
Figure 650123DEST_PATH_IMAGE075
表示
Figure 855977DEST_PATH_IMAGE076
网络的联合状态动作估计值;
基于加权算子,重构后的损失函数为:
Figure 644941DEST_PATH_IMAGE077
通过设置一个加权算子w重构了MACDF框架中神经网络的损失函数计算方式;加权算子w的作用在于精确地拟合三类兵棋算子最优联合状态动作价值。
2062:将多步回放数据结合得到多步回报,通过多步回报计算更新目标;根据所述更新目标,重构所述多智能体深度强化学习算法的损失函数。
将多步回放数据结合得到多步回报,更加精确的计算当前价值,缓解了奖励稀疏问题,提高了网络学习效率。
定义状态
Figure 792895DEST_PATH_IMAGE078
的N-step return为:
Figure 972203DEST_PATH_IMAGE079
基于N-step return可以定义MACDF的目标回报为:
Figure 778485DEST_PATH_IMAGE080
通过目标回报重构损失函数的过程为:
Figure 890798DEST_PATH_IMAGE081
2063:采用重构的损失函数更新所述协同决策框架。
第一种优化机制为,通过设置一个加权算子w重构了MACDF框架中神经网络的损失函数计算方式;加权算子w的作用在于精确地拟合三类兵棋算子最优联合状态动作价值,记优化的MACDF模型为MACDF-W。
第二种优化机制为,通过引入强化学习中的一种目标预测方式——n 步时序差分预测(n-step TD),将n 步时序差分预测的结果作为MACDF模型中神经网络的更新目标,进而重构了神经网络的损失函数计算方式。新的更新目标比原本MACDF模型中单步时序差分预测目标能够更加精确的拟合目标值,记优化后的MACDF模型为MACDF-N。
也就是说,更新前的协同决策框架为MACDF,更新后的协同决策框架为MACDF-W或MACDF-N。
208:根据更新后的协同决策框架,对多实体的异步协同进行决策。
上述基于强化学习的兵棋多实体异步协同决策方法,采用了深度强化学习算法,对多实体设置了不同的动作执行周期,对战术兵棋环境的态势信息执行MASK操作得到局部观测用于智能体行为决策,构建了非完美信息下多实体异步协同决策问题实例。在此基础上设计了智能体网络AgentNetwork用于多实体决策;设计了混合评估网络HANetwork用于评估多实体联合动作,构建了回放经验池模块保存智能体与环境的交互数据,并通过采样经验池的样本数据完成对神经网络的模型参数更新,最终形成了能够解决非完美信息下多实体异步协同决策问题的兵棋多实体异步协同决策框架即MACDF模型。而且,提出了两种MACDF的模型改进机制,第一种是通过设置一个加权算子w重构了MACDF框架中神经网络的损失函数计算方式;加权算子w的作用在于精确地拟合三类兵棋算子最优联合状态动作价值。我们称优化的MACDF模型为MACDF-W。第二种是通过引入强化学习中的一种目标预测方式——n 步时序差分预测,将n 步时序差分预测的结果作为MACDF模型中神经网络的更新目标,进而重构了神经网络的损失函数计算方式。新的更新目标比原本MACDF模型中单步时序差分预测目标能够更加精确的拟合目标值。我们称这种优化后的MACDF模型为MACDF-N。使用MACDF模型能够解决在简单战术兵棋环境中非完美信息下多实体异步协作问题,在简单训练资源下通过有限的训练次数就能够达到较好的效果。使用优化后的MACDF模型收敛速度更快、最终模型胜率更高、战斗效率更高。
本申请对四种算法IQL、MACDF、MACDF -W以及MACDF -N分别与内置规则智能体进行对抗训练,期间每隔一段时间测试胜率,结果如图5所示。
将训练时长
Figure 694806DEST_PATH_IMAGE082
设置为
Figure 890906DEST_PATH_IMAGE083
分别记录了IQL算法、MACDF算法、MACDF -W算法(改进MACDF的损失函数计算方法)和MACDF -N算法(改进MACDF的回报计算方法)与内置的规则智能体进行对战训练20000000(20M)timesteps的胜率情况,并绘制了胜率曲线,在训练过程中每隔10000时间步统计保存智能体模型并统计胜率信息和奖励信息等相关信息。
从图5中发现,随着训练时间步长的增多,MACDF、MACDF -W、MACDF -N算法的胜率曲线稳步上升,经过大约10000000(10M)时间步后,算法胜率超过50%;经过大约12000000(12M)时间步后,算法开始收敛,胜率稳定在90%以上。
相比而言,IQL算法由于价值计算会导致智能体之间互相影响,智能体难以通过统一的联合动作价值函数协同行动,无法解决兵棋环境下的多智能体异步协同问题。MACDF算法能够在一定程度上解决异步协同问题,但是学习引导射击的效率不高,但是有时会低估引导射击动作对全局联合状态动作价值的贡献程度,无法快速的学习到该策略。可以发现MACDF -N算法相较于MACDF算法训练速度有显著的提升;并且MACDF -W和MACDF -N算法最终稳定后的胜率都比MACDF算法高。
从图5中还可以发现,MACDF、MACDF -W、MACDF -N算法均具有良好的性能,最终训练模型都能够到达一个比较高的胜率。在训练了20M时间步之后,IQL算法的测试胜率为33%,MACDF算法的测试胜率为91%,MACDF -W算法的测试胜率为95%,MACDF -N的测试胜率为97%,改进后的两种算法最终的测试胜率更高。MACDF -W和MACDF -N算法相较于MACDF算法训练速度有显著的提升,MACDF在6.4M时间步时模型胜率超过50%,MACDF -W在9.2M时间步时模型胜率超过50%,MACDF -N在10.5M时间步时模型胜率超过50%。MACDF -W和MACDF -N相比于MACDF能够更快的学习到较高的胜率模型,并且最终的胜率都超过了MACDF算法,这说明了本申请中改进MACDF的有效性。
本申请还对四种算法IQL、MACDF、MACDF -W以及MACDF -N分别与内置规则智能体进行对抗训练,期间每隔一段时间测试平均对局时长并记录,结果如图6所示。
通过图6可以发现,随着训练时间步长的增多,MACDF -W、MACDF -N和MACDF都能够在较短的时间步长内全歼敌方作战单元并取得胜利。在最终的模型中,MACDF算法大概在平均时间步长205时间步后就能够胜利,MACDF -N算法大概在平均时间步长181时间步后就能够胜利,MACDF -W算法大概在平均时间步长148时间步后就能够胜利。由此发现,改进后的MACDF算法(包括MACDF -W和MACDF -N)行动效率更高,这是由于改进后的MACDF算法能够在一开始为引导射击动作做准备,减少了无效的动作步长,提高了战斗效率。MACDF -W算法的战斗效率更高,能够更快结束战斗。
通过基于强化学习的兵棋多实体异步协同决策深度强化学习的兵棋多实体异步协同决策方法在兵棋环境中解决兵棋智能决策问题的以上对比试验可以发现,改进后的MACDF -W和MACDF -N算法都能够表现出较MACDF更加优异的性能;其中MACDF -W训练的模型单局游戏时长最短,相较于MACDF提升了27%;MACDF -N训练的模型最终测试胜率最高,相较于MACDF提升了6%。
如图7所示,本申请还提供了一种基于强化学习的兵棋多实体异步协同决策深度强化学习的兵棋多实体异步协同决策装置,在一个实施例中,包括:获取模块702、建模模块704、重构模块706和决策模块708,其中:
获取模块702,用于获取兵棋推演环境以及与所述兵棋推演环境相对应的多实体异步协同决策问题,对所述多实体异步协同决策问题进行建模分析,得到初始模型;
建模模块704,用于根据所述初始模型,采用多智能体深度强化学习算法,建立智能体网络模型和混合评估网络模型;根据所述智能体网络模型和混合评估网络模型进行循环计算,根据计算结果对所述智能体网络模型和所述混合评估网络模型进行训练,得到所述多实体异步协同决策问题的协同决策框架;
重构模块706,用于通过设置加权算子优化所述多智能体深度强化学习算法的损失函数计算机制,或通过多步回报优化所述多智能体深度强化学习算法的奖励回报计算机制,重构所述多智能体深度强化学习算法的损失函数;采用重构的损失函数更新所述协同决策框架;
决策模块708,用于根据更新后的协同决策框架,对多实体的异步协同进行决策。
关于基于强化学习的兵棋多实体异步协同决策装置的具体限定可以参见上文中对于基于强化学习的兵棋多实体异步协同决策方法的限定,在此不再赘述。上述装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (9)

1.基于强化学习的兵棋多实体异步协同决策方法,其特征在于,包括:
获取兵棋推演环境以及与所述兵棋推演环境相对应的多实体异步协同决策问题,对所述多实体异步协同决策问题进行建模分析,得到初始模型;
根据所述初始模型,采用多智能体深度强化学习算法,建立智能体网络模型和混合评估网络模型;根据所述智能体网络模型和混合评估网络模型进行循环计算,根据计算结果对所述智能体网络模型和所述混合评估网络模型进行训练,得到所述多实体异步协同决策问题的协同决策框架;
通过设置加权算子优化所述多智能体深度强化学习算法的损失函数计算机制,或通过多步回报优化所述多智能体深度强化学习算法的奖励回报计算机制,重构所述多智能体深度强化学习算法的损失函数;采用重构的损失函数更新所述协同决策框架;
根据更新后的协同决策框架,对多实体的异步协同进行决策。
2.根据权利要求1所述的方法,其特征在于,通过设置加权算子优化所述多智能体深度强化学习算法的损失函数计算机制,或通过多步回报优化所述多智能体深度强化学习算法的奖励回报计算机制,重构所述多智能体深度强化学习算法的损失函数包括:
将所述混合评估网络模型设计为第一子网络和第二子网络,分别通过所述第一子网络和所述第二子网络,计算更新目标和联合状态动作估计值并比较,得到加权算子;
根据所述加权算子,重构所述多智能体深度强化学习算法的损失函数。
3.根据权利要求2所述的方法,其特征在于,通过设置加权算子优化所述多智能体深度强化学习算法的损失函数计算机制,或通过多步回报优化所述多智能体深度强化学习算法的奖励回报计算机制,重构所述多智能体深度强化学习算法的损失函数还包括:
将多步回放数据结合得到多步回报,通过多步回报计算更新目标;
根据所述更新目标,重构所述多智能体深度强化学习算法的损失函数。
4.根据权利要求2或3所述的方法,其特征在于,获取兵棋推演环境以及与所述兵棋推演环境相对应的多实体异步协同决策问题,对所述多实体异步协同决策问题进行建模分析,得到初始模型包括:
获取兵棋推演环境以及与所述兵棋推演环境相对应的多实体异步协同决策问题,通过马尔科夫决策过程,对所述多实体异步协同决策问题进行建模分析,得到一元组;
根据所述兵棋推演环境,对所述一元组进行更新,得到初始模型。
5.根据权利要求4所述的方法,其特征在于,根据所述智能体网络模型和混合评估网络模型进行循环计算包括:
根据所述智能体网络模型,输入当前观测和上一时刻动作信息,输出每个实体的状态动作价值函数,并得到每个实体的执行动作对应的状态动作值;
根据所述混合评估网络模型,输入所述状态动作值,输出当前时刻联合状态动作价值。
6.根据权利要求5所述的方法,其特征在于,根据计算结果对所述智能体网络模型和所述混合评估网络模型进行训练,得到所述多实体异步协同决策问题的协同决策框架包括:
将计算结果存入经验池,在所述经验池中采样,通过最小化损失函数和计算回报对所述智能体网络模型和所述混合评估网络模型进行训练,得到所述多实体异步协同决策问题的协同决策框架。
7.根据权利要求1至3任一项所述的方法,其特征在于,根据所述智能体网络模型和混合评估网络模型进行循环计算还包括:
根据所述兵棋推演环境中返回的战场态势信息执行状态掩码操作,得到实体的观测,并将所述观测输入所述智能体网络模型。
8.根据权利要求1至3任一项所述的方法,其特征在于,根据所述智能体网络模型和混合评估网络模型进行循环计算还包括:
兵棋推演环境接收并执行各个实体的联合动作,然后返回下一时间步战场态势信息、即时奖励以及游戏终止判定标志符号;根据所述战场态势信息执行状态掩码操作,得到实体的观测,并将所述观测输入所述智能体网络模型;所述智能体网络模型输出各个实体的联合动作至兵棋推演环境并进行循环计算。
9.基于强化学习的兵棋多实体异步协同决策装置,其特征在于,包括:
获取模块,用于获取兵棋推演环境以及与所述兵棋推演环境相对应的多实体异步协同决策问题,对所述多实体异步协同决策问题进行建模分析,得到初始模型;
建模模块,用于根据所述初始模型,采用多智能体深度强化学习算法,建立智能体网络模型和混合评估网络模型;根据所述智能体网络模型和混合评估网络模型进行循环计算,根据计算结果对所述智能体网络模型和所述混合评估网络模型进行训练,得到所述多实体异步协同决策问题的协同决策框架;
重构模块,用于通过设置加权算子优化所述多智能体深度强化学习算法的损失函数计算机制,或通过多步回报优化所述多智能体深度强化学习算法的奖励回报计算机制,重构所述多智能体深度强化学习算法的损失函数;采用重构的损失函数更新所述协同决策框架;
决策模块,用于根据更新后的协同决策框架,对多实体的异步协同进行决策。
CN202210782446.9A 2022-07-05 2022-07-05 基于强化学习的兵棋多实体异步协同决策方法和装置 Active CN114880955B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210782446.9A CN114880955B (zh) 2022-07-05 2022-07-05 基于强化学习的兵棋多实体异步协同决策方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210782446.9A CN114880955B (zh) 2022-07-05 2022-07-05 基于强化学习的兵棋多实体异步协同决策方法和装置

Publications (2)

Publication Number Publication Date
CN114880955A true CN114880955A (zh) 2022-08-09
CN114880955B CN114880955B (zh) 2022-09-20

Family

ID=82683412

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210782446.9A Active CN114880955B (zh) 2022-07-05 2022-07-05 基于强化学习的兵棋多实体异步协同决策方法和装置

Country Status (1)

Country Link
CN (1) CN114880955B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115829034A (zh) * 2023-01-09 2023-03-21 白杨时代(北京)科技有限公司 一种构建知识规则执行框架的方法及装置
CN115496208B (zh) * 2022-11-15 2023-04-18 清华大学 协同模式多样化导向的无监督多智能体强化学习方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861442A (zh) * 2021-03-10 2021-05-28 中国人民解放军国防科技大学 基于深度强化学习的多机协同空战规划方法及系统
CN113222106A (zh) * 2021-02-10 2021-08-06 西北工业大学 一种基于分布式强化学习的智能兵棋推演方法
CN113298260A (zh) * 2021-06-11 2021-08-24 中国人民解放军国防科技大学 一种基于深度强化学习的对抗仿真推演方法
CN113435598A (zh) * 2021-07-08 2021-09-24 中国人民解放军国防科技大学 知识驱动下的兵棋推演智能决策方法
WO2021218440A1 (zh) * 2020-04-28 2021-11-04 腾讯科技(深圳)有限公司 游戏角色行为控制方法、装置、存储介质及电子设备
CN113723013A (zh) * 2021-09-10 2021-11-30 中国人民解放军国防科技大学 一种用于连续空间兵棋推演的多智能体决策方法
CN114358141A (zh) * 2021-12-14 2022-04-15 中国运载火箭技术研究院 一种面向多作战单元协同决策的多智能体增强学习方法
CN114662655A (zh) * 2022-02-28 2022-06-24 南京邮电大学 一种基于注意力机制的兵棋推演ai分层决策方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021218440A1 (zh) * 2020-04-28 2021-11-04 腾讯科技(深圳)有限公司 游戏角色行为控制方法、装置、存储介质及电子设备
CN113222106A (zh) * 2021-02-10 2021-08-06 西北工业大学 一种基于分布式强化学习的智能兵棋推演方法
CN112861442A (zh) * 2021-03-10 2021-05-28 中国人民解放军国防科技大学 基于深度强化学习的多机协同空战规划方法及系统
CN113298260A (zh) * 2021-06-11 2021-08-24 中国人民解放军国防科技大学 一种基于深度强化学习的对抗仿真推演方法
CN113435598A (zh) * 2021-07-08 2021-09-24 中国人民解放军国防科技大学 知识驱动下的兵棋推演智能决策方法
CN113723013A (zh) * 2021-09-10 2021-11-30 中国人民解放军国防科技大学 一种用于连续空间兵棋推演的多智能体决策方法
CN114358141A (zh) * 2021-12-14 2022-04-15 中国运载火箭技术研究院 一种面向多作战单元协同决策的多智能体增强学习方法
CN114662655A (zh) * 2022-02-28 2022-06-24 南京邮电大学 一种基于注意力机制的兵棋推演ai分层决策方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Y. XUEKE, Z. YU, L. JUNREN, W. KAIQIANG, L. XIN AND J. CHAOYUAN: "Neural Combinatorial Optimization for Coverage Planning in UGV Reconnaissance", 《2021 CHINA AUTOMATION CONGRESS (CAC)》 *
崔文华等: "基于深度强化学习的兵棋推演决策方法框架", 《国防科技》 *
李承兴等: "基于人工智能深度增强学习的装备维修保障兵棋研究", 《兵器装备工程学报》 *
李琛,黄炎焱,张永亮,陈天德: "Actor-Critic框架下的多智能体决策方法及其", 《系统工程与电子技术》 *
罗俊仁,张万鹏,袁唯淋,胡振震,陈少飞,陈璟: "面向多智能体博弈对抗的对手建模框架", 《系统仿真学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115496208B (zh) * 2022-11-15 2023-04-18 清华大学 协同模式多样化导向的无监督多智能体强化学习方法
CN115829034A (zh) * 2023-01-09 2023-03-21 白杨时代(北京)科技有限公司 一种构建知识规则执行框架的方法及装置

Also Published As

Publication number Publication date
CN114880955B (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
Samvelyan et al. The starcraft multi-agent challenge
CN114880955B (zh) 基于强化学习的兵棋多实体异步协同决策方法和装置
Shao et al. A survey of deep reinforcement learning in video games
Pang et al. On reinforcement learning for full-length game of starcraft
CN108211362B (zh) 一种基于深度q学习网络的非玩家角色战斗策略学习方法
Uriarte et al. Game-tree search over high-level game states in RTS games
Barriga et al. Game tree search based on nondeterministic action scripts in real-time strategy games
CN114358141A (zh) 一种面向多作战单元协同决策的多智能体增强学习方法
Huang et al. Gym-µrts: Toward affordable full game real-time strategy games research with deep reinforcement learning
CN113688977A (zh) 面向对抗任务的人机共生强化学习方法、装置、计算设备及存储介质
Barriga et al. Improving RTS game AI by supervised policy learning, tactical search, and deep reinforcement learning
Tang et al. A review of computational intelligence for StarCraft AI
CN113627596A (zh) 基于动态图神经网络的多智能体对抗方法及系统
Uriarte et al. Combat models for RTS games
Uriarte et al. Automatic learning of combat models for RTS games
CN114048834A (zh) 基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置
CN115300910A (zh) 基于多智能体强化学习的去混淆游戏策略模型生成方法
Sun et al. Research on action strategies and simulations of drl and mcts-based intelligent round game
Rodríguez et al. Parallel evolutionary approaches for game playing and verification using Intel Xeon Phi
CN116090549A (zh) 一种基于知识驱动的多智能体强化学习决策方法、系统及存储介质
CN116029364A (zh) 一种基于共同知识的多智能体独立强化学习方法及系统
CN114662655A (zh) 一种基于注意力机制的兵棋推演ai分层决策方法及装置
Wang et al. Team recommendation using order-based fuzzy integral and NSGA-II in StarCraft
Patel et al. Improving behavior of computer game bots using fictitious play
Zhen et al. Real-time strategy game tactical recommendation based on Bayesian Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant