CN114880955B - 基于强化学习的兵棋多实体异步协同决策方法和装置 - Google Patents
基于强化学习的兵棋多实体异步协同决策方法和装置 Download PDFInfo
- Publication number
- CN114880955B CN114880955B CN202210782446.9A CN202210782446A CN114880955B CN 114880955 B CN114880955 B CN 114880955B CN 202210782446 A CN202210782446 A CN 202210782446A CN 114880955 B CN114880955 B CN 114880955B
- Authority
- CN
- China
- Prior art keywords
- entity
- network model
- agent
- reinforcement learning
- asynchronous
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 86
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000006870 function Effects 0.000 claims abstract description 82
- 238000011156 evaluation Methods 0.000 claims abstract description 58
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000004458 analytical method Methods 0.000 claims abstract description 15
- 230000009471 action Effects 0.000 claims description 75
- 238000004364 calculation method Methods 0.000 claims description 63
- 230000007246 mechanism Effects 0.000 claims description 29
- 230000008569 process Effects 0.000 claims description 15
- 125000004122 cyclic group Chemical group 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 8
- 241001522296 Erithacus rubecula Species 0.000 claims 3
- 238000013528 artificial neural network Methods 0.000 description 11
- 238000013461 design Methods 0.000 description 7
- 230000009916 joint effect Effects 0.000 description 7
- 239000008280 blood Substances 0.000 description 6
- 210000004369 blood Anatomy 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013100 final test Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请属于智能决策技术领域,涉及基于强化学习的兵棋多实体异步协同决策方法和装置,方法包括:获取兵棋推演环境以及多实体异步协同决策问题,对多实体异步协同决策问题进行建模分析,得到初始模型;根据初始模型,采用多智能体深度强化学习算法,建立智能体网络模型和混合评估网络模型;对智能体网络模型和混合评估网络模型进行训练,得到协同决策框架;通过设置加权算子或通过多步回报优化多智能体深度强化学习算法,重构多智能体深度强化学习算法的损失函数;采用重构的损失函数更新协同决策框架;根据更新后的协同决策框架,对多实体的异步协同进行决策。本申请能够实现兵棋推演中多实体异步协同的决策。
Description
技术领域
本申请涉及智能决策技术领域,特别是涉及基于强化学习的兵棋多实体异步协同决策方法和装置。
背景技术
兵棋推演是一种利用兵棋进行模拟战争活动的过程。兵棋玩家使用代表环境和军事力量的棋盘和棋子,依据特定的军事规则和概率论原理,模拟战争对抗,对作战方案进行过程推演和评估优化。国防大学兵棋团队研制了战略战役兵棋系统,并指出了人工智能技术应用到兵棋推演中需要解决的关键性问题——智能态势感知。早期的兵棋智能体设计主要利用人类高水平玩家推演经验形成知识库,进而实现给定状态下的行为决策,称之为规则智能体。利用OODA环是设计规则智能体一种方式,在OODA环中的决策模块通常基于行为树或有限状态机等框架编程实现。
随着智能体在游戏领域战胜了人类高水平玩家后,部分兵棋推演领域的研究人员开始思考如何将现有的人工智能技术迁移到兵棋推演中,设计能够对抗甚至超越人类玩家的兵棋智能体。2017年,在全国兵棋推演大赛中,中科院自动化所研究的CASIA先知1.0系统以7:1的成绩击败了人类八强选手。在2020年,中国科学院自动化所研究的AlphaWar引入了监督学习和自博弈技术实现了联合策略的学习,并且在与人类选手的对抗中通过了图灵测试。深度强化学习兼具深度学习的感知能力和强化学习的决策能力,近年来,部分学者开始尝试将深度强化学习算法应用到兵棋智能体的设计中。
在兵棋推演中,需要多个异构算子相互配合最大化集体得分,完成兵棋推演的最终任务。兵棋类似于游戏,近年来以深度强化学习为基础的游戏AI(ArtificialIntelligence)AlphaGo、AlphaStar战胜了人类高水平玩家,因此,在兵棋推演与人工智能的交叉研究领域,基于强化学习的兵棋智能决策方法成为了热门研究问题。
综上,基于强化学习的兵棋智能决策技术取得了诸多研究成果,但是在实际应用过程中存在两类需要解决的关键性问题:
其一,兵棋推演中是多实体共同参与对抗,目前大多数兵棋智能决策算法都是基于单智能体强化学习算法设计。在兵棋对抗环境中,多算子协同问题缺乏统一的决策流程框架。
其二,兵棋中多实体的异构性导致多智能体协作的异步性,即不同智能体的基本动作执行时长不一致。这种异步性导致现有的多智能体强化学习算法难以有效的解决兵棋多实体异步协作问题。
发明内容
基于此,有必要针对上述技术问题,提供一种基于强化学习的兵棋多实体异步协同决策方法和装置,能够基于强化学习算法,实现兵棋推演中多实体异步协同的决策。
基于强化学习的兵棋多实体异步协同决策方法,包括:
获取兵棋推演环境以及与所述兵棋推演环境相对应的多实体异步协同决策问题,对所述多实体异步协同决策问题进行建模分析,得到初始模型;
根据所述初始模型,采用多智能体深度强化学习算法,建立智能体网络模型和混合评估网络模型;根据所述智能体网络模型和混合评估网络模型进行循环计算,根据计算结果对所述智能体网络模型和所述混合评估网络模型进行训练,得到所述多实体异步协同决策问题的协同决策框架;
通过设置加权算子优化所述多智能体深度强化学习算法的损失函数计算机制,或通过多步回报优化所述多智能体深度强化学习算法的奖励回报计算机制,重构所述多智能体深度强化学习算法的损失函数;采用重构的损失函数更新所述协同决策框架;
根据更新后的协同决策框架,对多实体的异步协同进行决策。
在其中一个实施例中,通过设置加权算子优化所述多智能体深度强化学习算法的损失函数计算机制,或通过多步回报优化所述多智能体深度强化学习算法的奖励回报计算机制,重构所述多智能体深度强化学习算法的损失函数包括:
将所述混合评估网络模型设计为第一子网络和第二子网络,分别通过所述第一子网络和所述第二子网络,计算更新目标和联合状态动作估计值并比较,得到加权算子;
根据所述加权算子,重构所述多智能体深度强化学习算法的损失函数。
在其中一个实施例中,通过设置加权算子优化所述多智能体深度强化学习算法的损失函数计算机制,或通过多步回报优化所述多智能体深度强化学习算法的奖励回报计算机制,重构所述多智能体深度强化学习算法的损失函数还包括:
将多步回放数据结合得到多步回报,通过多步回报计算更新目标;
根据所述更新目标,重构所述多智能体深度强化学习算法的损失函数。
在其中一个实施例中,获取兵棋推演环境以及与所述兵棋推演环境相对应的多实体异步协同决策问题,对所述多实体异步协同决策问题进行建模分析,得到初始模型包括:
获取兵棋推演环境以及与所述兵棋推演环境相对应的多实体异步协同决策问题,通过马尔科夫决策过程,对所述多实体异步协同决策问题进行建模分析,得到一元组;
根据所述兵棋推演环境,对所述一元组进行更新,得到初始模型。
在其中一个实施例中,根据所述智能体网络模型和混合评估网络模型进行循环计算包括:
根据所述智能体网络模型,输入当前观测和上一时刻动作信息,输出每个实体的状态动作价值函数,并得到每个实体的执行动作对应的状态动作值;
根据所述混合评估网络模型,输入所述状态动作值,输出当前时刻联合状态动作价值。
在其中一个实施例中,根据计算结果对所述智能体网络模型和所述混合评估网络模型进行训练,得到所述多实体异步协同决策问题的协同决策框架包括:
将计算结果存入经验池,在所述经验池中采样,通过最小化损失函数和计算回报对所述智能体网络模型和所述混合评估网络模型进行训练,得到所述多实体异步协同决策问题的协同决策框架。
在其中一个实施例中,根据所述智能体网络模型和混合评估网络模型进行循环计算还包括:
根据所述兵棋推演环境中返回的战场态势信息执行状态掩码操作,得到实体的观测,并将所述观测输入所述智能体网络模型。
在其中一个实施例中,根据所述智能体网络模型和混合评估网络模型进行循环计算还包括:
兵棋推演环境接收并执行各个实体的联合动作,然后返回下一时间步战场态势信息、即时奖励以及游戏终止判定标志符号;根据所述战场态势信息执行状态掩码操作,得到实体的观测,并将所述观测输入所述智能体网络模型;所述智能体网络模型输出各个实体的联合动作至兵棋推演环境并进行循环计算。
基于强化学习的兵棋多实体异步协同决策装置,包括:
获取模块,用于获取兵棋推演环境以及与所述兵棋推演环境相对应的多实体异步协同决策问题,对所述多实体异步协同决策问题进行建模分析,得到初始模型;
建模模块,用于根据所述初始模型,采用多智能体深度强化学习算法,建立智能体网络模型和混合评估网络模型;根据所述智能体网络模型和混合评估网络模型进行循环计算,根据计算结果对所述智能体网络模型和所述混合评估网络模型进行训练,得到所述多实体异步协同决策问题的协同决策框架;
重构模块,用于通过设置加权算子优化所述多智能体深度强化学习算法的损失函数计算机制,或通过多步回报优化所述多智能体深度强化学习算法的奖励回报计算机制,重构所述多智能体深度强化学习算法的损失函数;采用重构的损失函数更新所述协同决策框架;
决策模块,用于根据更新后的协同决策框架,对多实体的异步协同进行决策。
上述基于强化学习的兵棋多实体异步协同决策深度强化学习的兵棋多实体异步协同决策方法和装置,采用了多智能体强化学习算法,对多实体(即多智能体)设置了不同的动作步长,因此能够实现兵棋推演中多实体异步协同的决策。而且,通过设置加权算子或通过多步回报,优化了多智能体强化学习算法的损失函数计算机制或奖励回报计算机制,从而重构损失函数,并对混合评估网络模型进行更新,最终得到每个实体的联合动作价值函数进而进行决策;在优化过程中,学习速度快、最终胜率高且战斗效率高。
附图说明
图1为一个实施例中基于强化学习的兵棋多实体异步协同决策方法的流程示意图;
图2为一个实施例中基于强化学习的兵棋多实体异步协同决策方法的示意图;
图3为一个实施例中多实体异步的协同决策框架的示意图;
图4为一个实施例中MACDF-W混合网络结构的示意图;
图5为一个实施例中四种算法与规则智能体对抗训练的以胜率为指标的效果对比图;
图6为一个实施例中四种算法与规则智能体对抗训练的以单局时长为指标的效果对比图;
图7为一个实施例中基于强化学习的兵棋多实体异步协同决策装置的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
如图1所示,本申请提供的一种基于强化学习的兵棋多实体异步协同决策方法,在一个实施例中,包括以下步骤:
步骤102,获取兵棋推演环境以及与所述兵棋推演环境相对应的多实体异步协同决策问题,对所述多实体异步协同决策问题进行建模分析,得到初始模型。
具体的,获取兵棋推演环境以及与所述兵棋推演环境相对应的多实体异步协同决策问题,通过马尔科夫决策过程,对所述多实体异步协同决策问题进行建模分析,得到一元组;根据所述兵棋推演环境,对所述一元组进行更新,得到初始模型。
如何通过马尔科夫决策过程对问题进行建模分析得到一元组属于现有技术,在此不再赘述。
步骤104,根据所述初始模型,采用多智能体深度强化学习算法,建立智能体网络模型和混合评估网络模型;根据所述智能体网络模型和混合评估网络模型进行循环计算,根据计算结果对所述智能体网络模型和所述混合评估网络模型进行训练,得到所述多实体异步协同决策问题的协同决策框架。
多智能体强化学习算法(QMIX)包括构建智能体网络模型以及超网络模型两个部分,均是现有技术。根据初始模型,先采用智能体网络模型对每个实体的环境交互数据进行描述,得到每个实体的动作和状态,再采用超网络进行评估,超网络的更新是通过最小化损失函数进行的。
根据所述兵棋推演环境中返回的战场态势信息执行状态掩码操作,得到实体的观测,并将所述观测输入所述智能体网络模型。
根据所述智能体网络模型,输入当前观测和上一时刻动作信息,输出每个实体的状态动作价值函数,并得到每个实体的执行动作对应的状态动作值;根据所述混合评估网络模型,输入所述状态动作值,输出当前时刻联合状态动作价值。
兵棋推演环境接收并执行各个实体的联合动作,然后返回下一时间步战场态势信息、即时奖励以及游戏终止判定标志符号;根据所述战场态势信息执行状态掩码操作,得到实体的观测,并将所述观测输入所述智能体网络模型;所述智能体网络模型输出各个实体的联合动作至兵棋推演环境并进行循环计算。
将计算结果存入经验池,在所述经验池中采样,通过最小化损失函数和计算回报对所述智能体网络模型和所述混合评估网络模型进行训练,得到所述多实体异步协同决策问题的协同决策框架。
步骤106,通过设置加权算子优化所述多智能体深度强化学习算法的损失函数计算机制,或通过多步回报优化所述多智能体深度强化学习算法的奖励回报计算机制,重构所述多智能体深度强化学习算法的损失函数;采用重构的损失函数更新所述协同决策框架。
具体的,将所述混合评估网络模型设计为第一子网络和第二子网络,分别通过所述第一子网络和所述第二子网络,计算更新目标和联合状态动作估计值并比较,得到加权算子;根据所述加权算子,重构所述多智能体深度强化学习算法的损失函数。
或,将多步回放数据结合得到多步回报,通过多步回报计算更新目标;根据所述更新目标,重构所述多智能体深度强化学习算法的损失函数。
通过设置加权算子重构损失函数,可以更好的判断损失函数的拟合趋势,更精确地减小损失函数的误差,进而在通过重构的损失函数更新协同决策框架时,能够更加准确的表示联合状态动作价值,最终实现算法速度的提高,且提升了胜率和战斗效率。
通过多步回报重构损失函数,新的更新目标比原本MACDF模型中单步时序差分预测目标能够更加精确的拟合目标值。
步骤108,根据更新后的协同决策框架,对多实体的异步协同进行决策。
上述基于强化学习的兵棋多实体异步协同决策深度强化学习的兵棋多实体异步协同决策方法和装置,采用了多智能体强化学习算法,对多实体(即多智能体)设置了不同的动作步长,因此能够实现兵棋推演中多实体异步协同的决策。而且,通过设置加权算子或通过多步回报,优化了多智能体强化学习算法的损失函数计算机制或奖励回报计算机制,从而重构损失函数,并对混合评估网络模型进行更新,最终得到每个实体的联合动作价值函数进而进行决策;在优化过程中,学习速度快、最终胜率高且战斗效率高。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
如图2所示,在一个具体的实施例中,基于强化学习的兵棋多实体异步协同决策深度强化学习的兵棋多实体异步协同决策方法包括:
202:获取兵棋推演环境以及与所述兵棋推演环境相对应的多实体异步协同决策问题,对所述多实体异步协同决策问题进行建模分析,得到初始模型。具体的:
2021:获取兵棋推演环境以及与所述兵棋推演环境相对应的多实体异步协同决策问题,使用一种简单战术兵棋环境,其中包含兵棋推演中常见的三种算子(坦克、战车、步兵),通过将不同算子的动作执行周期设置为不一致得到多实体异步协同决策问题实例。具体的,将坦克和战车算子向相邻六角格移动一格时间周期设置为5s,将步兵算子向相邻六角格移动一格时间周期设置为1s,兵棋想定的具体信息见下表1。
表1兵棋想定的具体信息
即将兵棋推演问题形式化定义为分布式部分可观察马尔科夫决策过程(Dec-POMDPs),表示为一元组;其中:表示战术兵棋环境状态空间,表示兵棋环境中三类智能体的联合动作空间,表示状态转移函数,表示奖励函数,表示智能体观测函数,表示智能体的观测空间,表示智能体的个数,此处设置为3,表示折扣因子。
2023:根据所述兵棋推演环境,对所述一元组进行更新,得到初始模型。
在兵棋推演环境的基础上,设计了每个实体的具体状态空间信息,状态空间信息包含了我方算子特征信息和敌方算子特征信息,两方的算子单元都是由坦克,战车,步兵组成。由于战场迷雾的存在,敌方算子的相关状态信息只能在被观察到后才能获取,为了模拟真实环境,算子在被观察后也只能获取部分信息,如下表2所示。在具体特征信息中,除了能否通视标志、能否攻击标志用三个编码表示之外,其它都用一个编码表示,基于下表2,状态空间的纬度为:维。
表2算子在被观察后获取的部分信息
表3移动动作和射击动作的具体信息
done表示游戏是否终止,1表示游戏结束,0表示游戏还记继续。
204:根据所述初始模型,采用多智能体深度强化学习算法QMIX,建立智能体网络模型和混合评估网络模型;根据所述智能体网络模型和混合评估网络模型进行循环计算,根据计算结果对所述智能体网络模型和所述混合评估网络模型进行训练,得到所述多实体异步协同决策问题的协同决策框架MACDF。具体的:
2041:根据所述初始模型,采用多智能体深度强化学习算法,建立智能体网络模型和混合评估网络模型。
设计了智能体网络AgentNetwork用于多实体决策;设计了混合评估网络HANetwork用于评估多实体联合动作。
2042:根据所述兵棋推演环境中返回的战场态势信息执行状态掩码操作,得到实体的观测,并将所述观测输入所述智能体网络模型。
将战术兵棋环境返回的战场态势信息执行状态掩码操作,即进行兵棋环境MASK设计,每个智能体智能获取环境局部观测并做出行动,即得到智能体的观测,这种设置保证了该兵棋环境的智能体是基于非完美信息进行行为决策的:
在本实施例中,MASK的具体操作方式是将不可通视的算子特征信息的编码置为空,将可通视算子的不可获取特征信息(见表2)的编码置为空。
2043:根据所述智能体网络模型,输入当前观测和上一时刻动作信息,输出每个实体的状态动作价值函数,并得到每个实体的执行动作对应的状态动作值。
设计智能体网络(动作网络)模型结构用于多实体决策,智能体网络模型初始化,设智能体网络为AgentNetwork,设计了三个相同结构的智能体网络AgentNetwork,这里我们以步兵算子智能体Agent(I)举例说明,将处理后的步兵算子智能体观测和上一时间步动作信息输入智能体网络Agent(I),得到步兵算子智能体的状态动作价值和动作决策信息,该决策信息控制步兵算子的下一时间步执行新的动作。另外两个智能体网络坦克智能体Agent(T)和战车智能体Agent(C)使用同样的技术手段,3个智能体网络的输出拼接在一起形成联合动作信息。
优选地,智能体网络模型初始化设计为深度循环Q网络(DRQN),循环神经网络的设计有利于提升在部分可观察环境下的兵棋决策能力。网络结构为门控循环单元和多层感知器构成。具体结构见图3。
2044:根据所述混合评估网络模型,输入所述状态动作值,输出当前时刻联合状态动作价值。
设计混合评估网络模型用于评估多实体联合动作,设混合评估网络为HANetwork,混合网络模型初始化,输入当前时刻全局态势信息和每个智能体网络的输出,网络通过全局态势信息对当前时刻的动作进行评估,输出联合状态动作价值;
混合评估网络可以使用一个超网络,有效融合(输入)全局态势信息,得到混合网络的权值矩阵和偏置。
2045:兵棋推演环境接收并执行各个实体的联合动作,然后返回下一时间步战场态势信息、即时奖励以及游戏终止判定标志符号;根据所述战场态势信息执行状态掩码操作,得到实体的观测,并将所述观测输入所述智能体网络模型;所述智能体网络模型输出各个实体的联合动作至兵棋推演环境并进行循环计算。
即重复步骤2042-2044,实现智能体与战术兵棋环境的交互过程。
2046:将计算结果存入经验池,在所述经验池中采样,通过最小化损失函数和计算回报对所述智能体网络模型和所述混合评估网络模型进行训练,得到所述多实体异步协同决策问题的协同决策框架。
在交互过程中,将战术兵棋环境的战场态势信息、环境针对该联合动作反馈的即时奖励、游戏终止标志符done、智能体观测信息、智能体联合动作信息按照(done)的结构存放在回放经验池Replay Memory中。
采样经验池设计,记录智能体模型对战数据,定义为:
当经验池中的回放数据样本到达规定的可以训练的数量后,从经验池中采样一批样本数据对MACDF模型中的神经网络(包含智能体网络和混合评估网络)进行整理的统一回传更新,得到训练后的网络模型。
也就是说,智能体与环境交互产生对战数据回放记录存入经验池,通过采样经验池中的样本数据,对智能体网络和混合评估网络进行网络参数更新,训练MACDF中的神经网络,在规定时间步长后停止智能体的训练并得到最终训练好的智能体模型。
在网络训练的过程中,网络更新通过最小化以下损失函数实现,
206:通过设置加权算子优化所述多智能体深度强化学习算法的损失函数计算机制,或通过多步回报优化所述多智能体深度强化学习算法的奖励回报计算机制,重构所述多智能体深度强化学习算法的损失函数;采用重构的损失函数更新所述协同决策框架。具体的:
2061:将所述混合评估网络模型设计为第一子网络和第二子网络,分别通过所述第一子网络和所述第二子网络,计算更新目标和联合状态动作估计值并比较,得到加权算子;根据所述加权算子,重构所述多智能体深度强化学习算法的损失函数。
基于加权算子,重构后的损失函数为:
通过设置一个加权算子w重构了MACDF框架中神经网络的损失函数计算方式;加权算子w的作用在于精确地拟合三类兵棋算子最优联合状态动作价值。
2062:将多步回放数据结合得到多步回报,通过多步回报计算更新目标;根据所述更新目标,重构所述多智能体深度强化学习算法的损失函数。
将多步回放数据结合得到多步回报,更加精确的计算当前价值,缓解了奖励稀疏问题,提高了网络学习效率。
基于N-step return可以定义MACDF的目标回报为:
2063:采用重构的损失函数更新所述协同决策框架。
第一种优化机制为,通过设置一个加权算子w重构了MACDF框架中神经网络的损失函数计算方式;加权算子w的作用在于精确地拟合三类兵棋算子最优联合状态动作价值,记优化的MACDF模型为MACDF-W。
第二种优化机制为,通过引入强化学习中的一种目标预测方式——n 步时序差分预测(n-step TD),将n 步时序差分预测的结果作为MACDF模型中神经网络的更新目标,进而重构了神经网络的损失函数计算方式。新的更新目标比原本MACDF模型中单步时序差分预测目标能够更加精确的拟合目标值,记优化后的MACDF模型为MACDF-N。
也就是说,更新前的协同决策框架为MACDF,更新后的协同决策框架为MACDF-W或MACDF-N。
208:根据更新后的协同决策框架,对多实体的异步协同进行决策。
上述基于强化学习的兵棋多实体异步协同决策方法,采用了深度强化学习算法,对多实体设置了不同的动作执行周期,对战术兵棋环境的态势信息执行MASK操作得到局部观测用于智能体行为决策,构建了非完美信息下多实体异步协同决策问题实例。在此基础上设计了智能体网络AgentNetwork用于多实体决策;设计了混合评估网络HANetwork用于评估多实体联合动作,构建了回放经验池模块保存智能体与环境的交互数据,并通过采样经验池的样本数据完成对神经网络的模型参数更新,最终形成了能够解决非完美信息下多实体异步协同决策问题的兵棋多实体异步协同决策框架即MACDF模型。而且,提出了两种MACDF的模型改进机制,第一种是通过设置一个加权算子w重构了MACDF框架中神经网络的损失函数计算方式;加权算子w的作用在于精确地拟合三类兵棋算子最优联合状态动作价值。我们称优化的MACDF模型为MACDF-W。第二种是通过引入强化学习中的一种目标预测方式——n 步时序差分预测,将n 步时序差分预测的结果作为MACDF模型中神经网络的更新目标,进而重构了神经网络的损失函数计算方式。新的更新目标比原本MACDF模型中单步时序差分预测目标能够更加精确的拟合目标值。我们称这种优化后的MACDF模型为MACDF-N。使用MACDF模型能够解决在简单战术兵棋环境中非完美信息下多实体异步协作问题,在简单训练资源下通过有限的训练次数就能够达到较好的效果。使用优化后的MACDF模型收敛速度更快、最终模型胜率更高、战斗效率更高。
本申请对四种算法IQL、MACDF、MACDF -W以及MACDF -N分别与内置规则智能体进行对抗训练,期间每隔一段时间测试胜率,结果如图5所示。
分别记录了IQL算法、MACDF算法、MACDF -W算法(改进MACDF的损失函数计算方法)和MACDF -N算法(改进MACDF的回报计算方法)与内置的规则智能体进行对战训练20000000(20M)timesteps的胜率情况,并绘制了胜率曲线,在训练过程中每隔10000时间步统计保存智能体模型并统计胜率信息和奖励信息等相关信息。
从图5中发现,随着训练时间步长的增多,MACDF、MACDF -W、MACDF -N算法的胜率曲线稳步上升,经过大约10000000(10M)时间步后,算法胜率超过50%;经过大约12000000(12M)时间步后,算法开始收敛,胜率稳定在90%以上。
相比而言,IQL算法由于价值计算会导致智能体之间互相影响,智能体难以通过统一的联合动作价值函数协同行动,无法解决兵棋环境下的多智能体异步协同问题。MACDF算法能够在一定程度上解决异步协同问题,但是学习引导射击的效率不高,但是有时会低估引导射击动作对全局联合状态动作价值的贡献程度,无法快速的学习到该策略。可以发现MACDF -N算法相较于MACDF算法训练速度有显著的提升;并且MACDF -W和MACDF -N算法最终稳定后的胜率都比MACDF算法高。
从图5中还可以发现,MACDF、MACDF -W、MACDF -N算法均具有良好的性能,最终训练模型都能够到达一个比较高的胜率。在训练了20M时间步之后,IQL算法的测试胜率为33%,MACDF算法的测试胜率为91%,MACDF -W算法的测试胜率为95%,MACDF -N的测试胜率为97%,改进后的两种算法最终的测试胜率更高。MACDF -W和MACDF -N算法相较于MACDF算法训练速度有显著的提升,MACDF在6.4M时间步时模型胜率超过50%,MACDF -W在9.2M时间步时模型胜率超过50%,MACDF -N在10.5M时间步时模型胜率超过50%。MACDF -W和MACDF -N相比于MACDF能够更快的学习到较高的胜率模型,并且最终的胜率都超过了MACDF算法,这说明了本申请中改进MACDF的有效性。
本申请还对四种算法IQL、MACDF、MACDF -W以及MACDF -N分别与内置规则智能体进行对抗训练,期间每隔一段时间测试平均对局时长并记录,结果如图6所示。
通过图6可以发现,随着训练时间步长的增多,MACDF -W、MACDF -N和MACDF都能够在较短的时间步长内全歼敌方作战单元并取得胜利。在最终的模型中,MACDF算法大概在平均时间步长205时间步后就能够胜利,MACDF -N算法大概在平均时间步长181时间步后就能够胜利,MACDF -W算法大概在平均时间步长148时间步后就能够胜利。由此发现,改进后的MACDF算法(包括MACDF -W和MACDF -N)行动效率更高,这是由于改进后的MACDF算法能够在一开始为引导射击动作做准备,减少了无效的动作步长,提高了战斗效率。MACDF -W算法的战斗效率更高,能够更快结束战斗。
通过基于强化学习的兵棋多实体异步协同决策深度强化学习的兵棋多实体异步协同决策方法在兵棋环境中解决兵棋智能决策问题的以上对比试验可以发现,改进后的MACDF -W和MACDF -N算法都能够表现出较MACDF更加优异的性能;其中MACDF -W训练的模型单局游戏时长最短,相较于MACDF提升了27%;MACDF -N训练的模型最终测试胜率最高,相较于MACDF提升了6%。
如图7所示,本申请还提供了一种基于强化学习的兵棋多实体异步协同决策深度强化学习的兵棋多实体异步协同决策装置,在一个实施例中,包括:获取模块702、建模模块704、重构模块706和决策模块708,其中:
获取模块702,用于获取兵棋推演环境以及与所述兵棋推演环境相对应的多实体异步协同决策问题,对所述多实体异步协同决策问题进行建模分析,得到初始模型;
建模模块704,用于根据所述初始模型,采用多智能体深度强化学习算法,建立智能体网络模型和混合评估网络模型;根据所述智能体网络模型和混合评估网络模型进行循环计算,根据计算结果对所述智能体网络模型和所述混合评估网络模型进行训练,得到所述多实体异步协同决策问题的协同决策框架;
重构模块706,用于通过设置加权算子优化所述多智能体深度强化学习算法的损失函数计算机制,或通过多步回报优化所述多智能体深度强化学习算法的奖励回报计算机制,重构所述多智能体深度强化学习算法的损失函数;采用重构的损失函数更新所述协同决策框架;
决策模块708,用于根据更新后的协同决策框架,对多实体的异步协同进行决策。
关于基于强化学习的兵棋多实体异步协同决策装置的具体限定可以参见上文中对于基于强化学习的兵棋多实体异步协同决策方法的限定,在此不再赘述。上述装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (7)
1.基于强化学习的兵棋多实体异步协同决策方法,其特征在于,包括:
获取兵棋推演环境以及与所述兵棋推演环境相对应的多实体异步协同决策问题,对所述多实体异步协同决策问题进行建模分析,得到初始模型;
根据所述初始模型,采用多智能体深度强化学习算法,建立智能体网络模型和混合评估网络模型;根据所述智能体网络模型和混合评估网络模型进行循环计算,根据计算结果对所述智能体网络模型和所述混合评估网络模型进行训练,得到所述多实体异步协同决策问题的协同决策框架;
通过设置加权算子优化所述多智能体深度强化学习算法的损失函数计算机制,或通过多步回报优化所述多智能体深度强化学习算法的奖励回报计算机制,重构所述多智能体深度强化学习算法的损失函数;采用重构的损失函数更新所述协同决策框架;
根据更新后的协同决策框架,对多实体的异步协同进行决策;
通过设置加权算子优化所述多智能体深度强化学习算法的损失函数计算机制,或通过多步回报优化所述多智能体深度强化学习算法的奖励回报计算机制,重构所述多智能体深度强化学习算法的损失函数包括:
将所述混合评估网络模型设计为第一子网络和第二子网络,分别通过所述第一子网络和所述第二子网络,计算更新目标和联合状态动作估计值并比较,得到加权算子;根据所述加权算子,重构所述多智能体深度强化学习算法的损失函数;
将多步回放数据结合得到多步回报,通过多步回报计算更新目标;
根据所述更新目标,重构所述多智能体深度强化学习算法的损失函数。
2.根据权利要求1所述的方法,其特征在于,获取兵棋推演环境以及与所述兵棋推演环境相对应的多实体异步协同决策问题,对所述多实体异步协同决策问题进行建模分析,得到初始模型包括:
获取兵棋推演环境以及与所述兵棋推演环境相对应的多实体异步协同决策问题,通过马尔科夫决策过程,对所述多实体异步协同决策问题进行建模分析,得到一元组;
根据所述兵棋推演环境,对所述一元组进行更新,得到初始模型。
3.根据权利要求2所述的方法,其特征在于,根据所述智能体网络模型和混合评估网络模型进行循环计算包括:
根据所述智能体网络模型,输入当前观测和上一时刻动作信息,输出每个实体的状态动作价值函数,并得到每个实体的执行动作对应的状态动作值;
根据所述混合评估网络模型,输入所述状态动作值,输出当前时刻联合状态动作价值。
4.根据权利要求3所述的方法,其特征在于,根据计算结果对所述智能体网络模型和所述混合评估网络模型进行训练,得到所述多实体异步协同决策问题的协同决策框架包括:
将计算结果存入经验池,在所述经验池中采样,通过最小化损失函数和计算回报对所述智能体网络模型和所述混合评估网络模型进行训练,得到所述多实体异步协同决策问题的协同决策框架。
5.根据权利要求3所述的方法,其特征在于,根据所述智能体网络模型和混合评估网络模型进行循环计算还包括:
根据所述兵棋推演环境中返回的战场态势信息执行状态掩码操作,得到实体的观测,并将所述观测输入所述智能体网络模型。
6.根据权利要求3所述的方法,其特征在于,根据所述智能体网络模型和混合评估网络模型进行循环计算还包括:
兵棋推演环境接收并执行各个实体的联合动作,然后返回下一时间步战场态势信息、即时奖励以及游戏终止判定标志符号;根据所述战场态势信息执行状态掩码操作,得到实体的观测,并将所述观测输入所述智能体网络模型;所述智能体网络模型输出各个实体的联合动作至兵棋推演环境并进行循环计算。
7.基于强化学习的兵棋多实体异步协同决策装置,其特征在于,包括:
获取模块,用于获取兵棋推演环境以及与所述兵棋推演环境相对应的多实体异步协同决策问题,对所述多实体异步协同决策问题进行建模分析,得到初始模型;
建模模块,用于根据所述初始模型,采用多智能体深度强化学习算法,建立智能体网络模型和混合评估网络模型;根据所述智能体网络模型和混合评估网络模型进行循环计算,根据计算结果对所述智能体网络模型和所述混合评估网络模型进行训练,得到所述多实体异步协同决策问题的协同决策框架;
重构模块,用于通过设置加权算子优化所述多智能体深度强化学习算法的损失函数计算机制,或通过多步回报优化所述多智能体深度强化学习算法的奖励回报计算机制,重构所述多智能体深度强化学习算法的损失函数;采用重构的损失函数更新所述协同决策框架;通过设置加权算子优化所述多智能体深度强化学习算法的损失函数计算机制,或通过多步回报优化所述多智能体深度强化学习算法的奖励回报计算机制,重构所述多智能体深度强化学习算法的损失函数包括:将所述混合评估网络模型设计为第一子网络和第二子网络,分别通过所述第一子网络和所述第二子网络,计算更新目标和联合状态动作估计值并比较,得到加权算子;根据所述加权算子,重构所述多智能体深度强化学习算法的损失函数;将多步回放数据结合得到多步回报,通过多步回报计算更新目标;根据所述更新目标,重构所述多智能体深度强化学习算法的损失函数;
决策模块,用于根据更新后的协同决策框架,对多实体的异步协同进行决策。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210782446.9A CN114880955B (zh) | 2022-07-05 | 2022-07-05 | 基于强化学习的兵棋多实体异步协同决策方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210782446.9A CN114880955B (zh) | 2022-07-05 | 2022-07-05 | 基于强化学习的兵棋多实体异步协同决策方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114880955A CN114880955A (zh) | 2022-08-09 |
CN114880955B true CN114880955B (zh) | 2022-09-20 |
Family
ID=82683412
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210782446.9A Active CN114880955B (zh) | 2022-07-05 | 2022-07-05 | 基于强化学习的兵棋多实体异步协同决策方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114880955B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115496208B (zh) * | 2022-11-15 | 2023-04-18 | 清华大学 | 协同模式多样化导向的无监督多智能体强化学习方法 |
CN115829034B (zh) * | 2023-01-09 | 2023-05-30 | 白杨时代(北京)科技有限公司 | 一种构建知识规则执行框架的方法及装置 |
CN118045360A (zh) * | 2024-03-15 | 2024-05-17 | 中国科学院自动化研究所 | 兵棋智能体的训练方法、预测方法及相应系统 |
CN118662913A (zh) * | 2024-08-26 | 2024-09-20 | 厦门渊亭信息科技有限公司 | 一种基于ai大模型的辅助决策方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112861442A (zh) * | 2021-03-10 | 2021-05-28 | 中国人民解放军国防科技大学 | 基于深度强化学习的多机协同空战规划方法及系统 |
CN113222106A (zh) * | 2021-02-10 | 2021-08-06 | 西北工业大学 | 一种基于分布式强化学习的智能兵棋推演方法 |
CN113298260A (zh) * | 2021-06-11 | 2021-08-24 | 中国人民解放军国防科技大学 | 一种基于深度强化学习的对抗仿真推演方法 |
CN113435598A (zh) * | 2021-07-08 | 2021-09-24 | 中国人民解放军国防科技大学 | 知识驱动下的兵棋推演智能决策方法 |
WO2021218440A1 (zh) * | 2020-04-28 | 2021-11-04 | 腾讯科技(深圳)有限公司 | 游戏角色行为控制方法、装置、存储介质及电子设备 |
CN113723013A (zh) * | 2021-09-10 | 2021-11-30 | 中国人民解放军国防科技大学 | 一种用于连续空间兵棋推演的多智能体决策方法 |
CN114358141A (zh) * | 2021-12-14 | 2022-04-15 | 中国运载火箭技术研究院 | 一种面向多作战单元协同决策的多智能体增强学习方法 |
CN114662655A (zh) * | 2022-02-28 | 2022-06-24 | 南京邮电大学 | 一种基于注意力机制的兵棋推演ai分层决策方法及装置 |
-
2022
- 2022-07-05 CN CN202210782446.9A patent/CN114880955B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021218440A1 (zh) * | 2020-04-28 | 2021-11-04 | 腾讯科技(深圳)有限公司 | 游戏角色行为控制方法、装置、存储介质及电子设备 |
CN113222106A (zh) * | 2021-02-10 | 2021-08-06 | 西北工业大学 | 一种基于分布式强化学习的智能兵棋推演方法 |
CN112861442A (zh) * | 2021-03-10 | 2021-05-28 | 中国人民解放军国防科技大学 | 基于深度强化学习的多机协同空战规划方法及系统 |
CN113298260A (zh) * | 2021-06-11 | 2021-08-24 | 中国人民解放军国防科技大学 | 一种基于深度强化学习的对抗仿真推演方法 |
CN113435598A (zh) * | 2021-07-08 | 2021-09-24 | 中国人民解放军国防科技大学 | 知识驱动下的兵棋推演智能决策方法 |
CN113723013A (zh) * | 2021-09-10 | 2021-11-30 | 中国人民解放军国防科技大学 | 一种用于连续空间兵棋推演的多智能体决策方法 |
CN114358141A (zh) * | 2021-12-14 | 2022-04-15 | 中国运载火箭技术研究院 | 一种面向多作战单元协同决策的多智能体增强学习方法 |
CN114662655A (zh) * | 2022-02-28 | 2022-06-24 | 南京邮电大学 | 一种基于注意力机制的兵棋推演ai分层决策方法及装置 |
Non-Patent Citations (5)
Title |
---|
Actor-Critic框架下的多智能体决策方法及其;李琛,黄炎焱,张永亮,陈天德;《系统工程与电子技术》;20210331;第43卷(第3期);755-762 * |
Neural Combinatorial Optimization for Coverage Planning in UGV Reconnaissance;Y. Xueke, Z. Yu, L. Junren, W. Kaiqiang, L. Xin and J. Chaoyuan;《2021 China Automation Congress (CAC)》;20211231;2258-2263 * |
基于人工智能深度增强学习的装备维修保障兵棋研究;李承兴等;《兵器装备工程学报》;20180225;第39卷(第02期);61-65 * |
基于深度强化学习的兵棋推演决策方法框架;崔文华等;《国防科技》;20200420;第41卷(第02期);113-121 * |
面向多智能体博弈对抗的对手建模框架;罗俊仁,张万鹏,袁唯淋,胡振震,陈少飞,陈璟;《系统仿真学报》;20210818;1-35 * |
Also Published As
Publication number | Publication date |
---|---|
CN114880955A (zh) | 2022-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114880955B (zh) | 基于强化学习的兵棋多实体异步协同决策方法和装置 | |
Samvelyan et al. | The starcraft multi-agent challenge | |
Shao et al. | A survey of deep reinforcement learning in video games | |
CN108211362B (zh) | 一种基于深度q学习网络的非玩家角色战斗策略学习方法 | |
Barriga et al. | Game tree search based on nondeterministic action scripts in real-time strategy games | |
Huang et al. | Gym-µrts: Toward affordable full game real-time strategy games research with deep reinforcement learning | |
Uriarte et al. | Game-tree search over high-level game states in RTS games | |
Barriga et al. | Improving RTS game AI by supervised policy learning, tactical search, and deep reinforcement learning | |
CN113688977A (zh) | 面向对抗任务的人机共生强化学习方法、装置、计算设备及存储介质 | |
CN114358141A (zh) | 一种面向多作战单元协同决策的多智能体增强学习方法 | |
CN112561032B (zh) | 一种基于种群训练的多智能体强化学习方法及系统 | |
Tang et al. | A review of computational intelligence for StarCraft AI | |
CN111494959A (zh) | 游戏操控方法、装置、电子设备及计算机可读存储介质 | |
CN113627596A (zh) | 基于动态图神经网络的多智能体对抗方法及系统 | |
Uriarte et al. | Combat models for RTS games | |
Uriarte et al. | Automatic learning of combat models for RTS games | |
CN114048834A (zh) | 基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置 | |
CN115300910A (zh) | 基于多智能体强化学习的去混淆游戏策略模型生成方法 | |
CN116090549A (zh) | 一种基于知识驱动的多智能体强化学习决策方法、系统及存储介质 | |
CN116029364A (zh) | 一种基于共同知识的多智能体独立强化学习方法及系统 | |
Zhen et al. | Artificial intelligence techniques on real-time strategy games | |
Rodríguez et al. | Parallel evolutionary approaches for game playing and verification using Intel Xeon Phi | |
CN114404976B (zh) | 决策模型的训练方法、装置、计算机设备及存储介质 | |
Dimitriu et al. | A Reinforcement Learning Approach to Military Simulations in Command: Modern Operations | |
Wang et al. | Team recommendation using order-based fuzzy integral and NSGA-II in StarCraft |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |