CN117010476A - 一种基于深度强化学习的多智能体自主决策方法 - Google Patents
一种基于深度强化学习的多智能体自主决策方法 Download PDFInfo
- Publication number
- CN117010476A CN117010476A CN202311015815.2A CN202311015815A CN117010476A CN 117010476 A CN117010476 A CN 117010476A CN 202311015815 A CN202311015815 A CN 202311015815A CN 117010476 A CN117010476 A CN 117010476A
- Authority
- CN
- China
- Prior art keywords
- agent
- experience
- network
- environment
- global
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000002787 reinforcement Effects 0.000 title claims abstract description 28
- 239000003795 chemical substances by application Substances 0.000 claims abstract description 170
- 238000012549 training Methods 0.000 claims abstract description 50
- 230000008569 process Effects 0.000 claims abstract description 19
- 230000003993 interaction Effects 0.000 claims abstract description 6
- 230000009471 action Effects 0.000 claims description 39
- 230000006870 function Effects 0.000 claims description 34
- 238000005070 sampling Methods 0.000 claims description 23
- 239000008280 blood Substances 0.000 claims description 12
- 238000011156 evaluation Methods 0.000 claims description 10
- 210000004369 blood Anatomy 0.000 claims description 9
- 238000009826 distribution Methods 0.000 claims description 9
- 230000000875 corresponding effect Effects 0.000 claims description 8
- 238000007634 remodeling Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 7
- 238000012876 topography Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 230000001276 controlling effect Effects 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 description 62
- 230000007613 environmental effect Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 230000008485 antagonism Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000002349 favourable effect Effects 0.000 description 3
- 239000003999 initiator Substances 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 206010010071 Coma Diseases 0.000 description 1
- 102100040653 Tryptophan 2,3-dioxygenase Human genes 0.000 description 1
- 101710136122 Tryptophan 2,3-dioxygenase Proteins 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000009916 joint effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/55—Controlling game characters or game objects based on the game progress
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种基于深度强化学习的多智能体自主决策方法,应用于多智能体深度强化学习技术领域,针对现有技术在决策过程中未能充分地使用经验数据的问题;本发明通过收集智能体与环境交互生成的经验,以及奖励重塑模块优化环境即时奖励,缓存于本地经验回放池中;然后合并本地经验回放池中的历史经验数据到全局经验回放池PT‑Buffer中,并使用二级优先经验队列进行维护;通过概率求和树从PT‑Buffer采集训练样本数据,来求解目标策略网络和全局Critic网络模型;最后采用更新后的自主决策模型,根据输入的环境局部观测信息直接实现多智能体的自主决策,从而完成相关的多智能体任务。
Description
技术领域
本发明属于兵棋AI技术领域,特别涉及一种多智能体自主决策技术。
背景技术
深度强化学习技术在自然语言处理、游戏AI和机器人控制等领域不断取得突破,从击败游戏职业战队的OpenAI-Five,帮助生物学家发现未知蛋白质的AlphaFold,到与人聊天并进行答疑解惑的ChatGPT,以深度强化学习为代表的人工智能技术使智能体的自主决策和控制成为了可能。
目前,深度强化学习算法主要可以分为以下三类:值函数方法、策略梯度方法以及策略值函数方法。值函数方法中代表性的算法包括IQL、VDN、QMIX等,通过不同的分解方法来利用联合动作值函数训练每个智能体的策略网络。策略梯度方法中的REINFORCE、IPPO、PPO、COMA等算法通过重要性采样、梯度裁剪等方式降低策略方差,加快策略模型的求解。策略值函数方法中的Actor-Critic、TRPO、MAPPO等算法通过裁剪因子、分布式数据采集等技术提高算法对在线数据的使用效率,提高多智能体自主决策的能力。
如何在兵棋推演等实时对抗环境中利用深度强化学习技术构建多智能体的自主决策模型是当前研究的热点之一,其研究主要集中于数据使用效率和环境奖励重塑等方面。在数据使用效率方面,PER、DPER、双经验重放池等优先经验回放方法被相继提出,通过时间差分误差等量化经验的重要性,提高强化学习算法的数据使用效率。针对实时多智能体环境中即时奖励稀疏、滞后,策略模型不易求解的问题。随机网络、专家知识迁移、模仿学习等奖励重塑方法被相继提出,以指导决策模型的学习。
虽然深度强化学习的研究已经有了许多突破,但在兵棋AI领域中仍存在一些问题:
(1)在多智能体环境中如何充分地使用经验数据,提高智能体对环境的探索能力和对历史经验的使用效率。
(2)在奖励稀疏的多智能体环境中,如何设计具有一定鲁棒性的奖励函数,降低实时环境稀疏奖励对决策模型收敛速度的负面影响,提高其泛化能力。
发明内容
为解决上述技术问题,本发明提出一种基于深度强化学习的多智能体自主决策方法,
本发明采用的技术方案为:一种基于深度强化学习的多智能体自主决策方法,应用场景包括:地图中心的夺控点、己方智能体、敌方智能体;己方智能体与敌方智能体拥有相同型号和数量的坦克、战车和步兵,以夺取控制的夺控点为任务;决策方法包括以下步骤:
S1、使用一个公共的神经网络作为目标策略网络Target-Actor、每个智能体的策略网络Actor,并通过硬编码的方式将智能体的编号及类型作为区分智能体的环境信息提供给目标策略网络Target-Actor进行训练学习,目标策略网络Target-Actor为不同的智能体生成不同的对抗策略;
每个智能体的策略网络Actor通过对环境的局部观测信息oi进行决策,输出相应的动作分布和动作ai,同时环境对智能体的动作产生即时奖励
S2、奖励重塑模块对即时奖励进行重塑,得到Rt;
S3、根据重塑后的Rt,得到智能体与环境的交互产生的经验数据;并基于二级经验队列的全局经验回放池PT-Buffer来存储和维护每个智能体的历史经验数据;
S4、通过概率求和树从全局经验回放池PT-Buffer中采集训练样本数据;
S5、根据步骤S4得到的训练样本数据对目标策略网络和全局评价网络进行训练;
S6、将训练得到的目标策略网络参数同步到每个智能体的策略网络Actor。
所述经验数据表示为[S,O,A,R,S′,A′],其中,S表示当前时间步的全局状态空间集,R表示智能体当前时间步的重塑后的奖励集,O表示智能体当前时间步的局部观测信息集,A表示智能体当前时间步的动作信息集,S′表示下一时间步的全局状态空间集,A′表示智能体下一时间步的动作信息集。
全局状态空间包括夺控点信息、地图信息和实时裁决信息,所述夺控点信息具体为:所有夺控点的位置、分值、是否被控制;所述地图信息具体为:地图的大小、地图每个位置的地形和高度;所述实时裁决信息具体为:环境当前的时间步、己方净胜分、己方智能体的数量。
智能体的局部观测信息包括:夺控点位置、地图大小、敌我净胜分、当前时间步;己方位置、血量、弹药量;敌方位置、血量。策略网络Actor的结构为:包含一个由32核5×5,64核3×3的卷积层,128核1×1的卷积层组成的主干网络、一个256维全连接层和一个12维的全连接层。
全局评价网络Critic由动作值函数网络和混合网络组成;其中动作值函数网络由进行特征提取与融合的主干网络,2个256维和1维的全连接层组成,其中主干网络由32核5×5,64核3×3的卷积层,128核1×1的卷积层组成;混合网络主要由多个特征映射模块H组成,其中特征映射模块由一个256维的全连接层和一个64维的全连接层组成。
奖励重塑模块具体为:奖励重塑模块使用环境因子构造的内部奖励函数模块来重塑环境的即时奖励;其中内部奖励函数模块重塑环境即时奖励的过程为:利用敌方数量、弹药数和智能体与夺控点间的距离构成内部奖励函数来实时调整环境即时奖励的分布。
本发明的有益效果:本发明的基于深度强化学习的多智能体自主决策算法,采用了改进的时间差分误差TD-N以及概率求和树来采样有利的训练数据,使得多智能体决策模型的数据使用效率得到了提高。同时,通过利用环境因子构造的自适应奖励函数调节环境即时奖励的分布,提高了深度强化学习算法在多智能体环境中对稀疏奖励的适应能力,加快了决策模型的学习速度。本发明的方法使得兵棋AI在推演环境中,具有了充分地探索环境和利用历史经验数据进行策略优化的能力,使得模型在训练过程中能够较快收敛,并获得较高的平均回报。
附图说明
图1是本发明实施例中基于深度强化学习的多智能体自主决策算法的示意图;
图2是本发明实施例中PTAIR-MAPPO的网络框架结构图;
图3是本发明实施例中即时奖励重塑的流程图;
图4是本发明实施例中全局经验回放池的结构示意图;
图5是本发明实施例中概率求和树的结构示意图;
图6是本发明实施例中山林3v3环境示意图;
图7是本发明实施例中环境的全局状态空间S和智能体的局部观测信息O的组成图;
图8是本发明实施例中构建状态空间的原始环境信息图;
图9是本发明实施例中PTAIR-MAPPO算法在兵棋推演中的训练流程图;
图10为一个实施例中两种算法与规则智能体对抗训练的以每个回合内平均回报为指标的效果对比图;
图11为一个实施例中两种算法与规则智能体对抗训练的以平均即时奖励为指标的效果对比图。
具体实施方式
为便于本领域技术人员理解本发明的技术内容,下面结合附图对本发明内容进一步阐释。
本发明公开了一种基于深度强化学习的多智能体自主决策算法,其流程如图1所示,具体按照如下步骤实施:
S1、通过数据收集器Worker中的智能体策略网络Actor和全局评价网络Critic与环境交互生成经验,借助奖励重塑模块优化环境即时奖励,缓存于本地经验回放池中。
S2、合并本地经验回放池中的历史经验数据到全局经验回放池PT-Buffer中,并使用二级优先经验队列进行维护。
S3、在求解目标策略网络和全局Critic网络模型的过程中,PT-Buffer会在PT2中通过概率求和树采集训练样本数据,Learner使用训练样本数据计算出相应的优势函数和动作概率对数值,并结合近端策略梯度下降方法来优化目标策略网络和全局Critic网络的目标函数。
S4、采用更新后的自主决策模型,将环境局部观测信息直接输入训练好的智能体策略网络中可以实现多智能体的自主决策,从而完成相关的多智能体任务。
S1具体为:
在进行数据收集时,Worker会先拷贝目标策略网络Target-Actor初始化后的参数到分布的每个智能体i的策略网络Actori中,Actori再通过对环境的局部观测信息Oi进行决策,输出相应的动作分布和动作ai。在环境和智能体进行交互后,环境会进行状态转移并对智能体的决策动作进行奖惩。Worker在仿真运行的过程中会不断地重复以上过程,直至推演结束,在本实施例中设置为运行20000个推演回合,从而将交互产生的大量经验数据[S,O,A,R,S′,A′]存储在局部的经验缓存池中。同时奖励重塑模块会对即时奖励R进行重塑。其次,全局评价网络Critic会使用环境当前时间步的全局状态S、己方智能体当前时间步的局部观测信息集O=(oi,oi+1,oi+2,...,oi+n)以及智能体当前时间步的动作信息集A=(ai,ai+1,ai+2,...,ai+n)对当前状态下智能体动作的期望回报Q(S,O,A;ωc)进行预测。
如图2中Worker所示,数据收集器Worker的结构为:包含多个智能体、克隆的环境和局部的经验缓存池。
多个智能体的策略网络为:使用一个公共的神经网络作为每个智能体的策略网络Actor,并通过硬编码的方式将智能体的编号及类型作为区分智能体的环境信息提供给目标策略网络Target-Actor进行训练学习,进而帮助目标策略网络Target-Actor为不同的智能体生成不同的对抗策略。
智能体的策略网络Actor和目标策略网络Target-Actor都是来自公共的神经网络即智能体得策略网络Actor和目标策略网络Target-Actor网络结构相同。
但是智能体的策略网络Actor用来在兵棋环境中为每个智能体做出实际的动作,这样环境的状态随着动作一直变化,产生一系列数据,这些数据存到一定数量后从中取出一些来更新目标策略网络Target-Actor网络的参数,目标策略网络Target-Actor被更新几次之后会将参数同步给智能体的策略网络Actor,此时它们两个网络不仅结构相同,参数也相同了,然后重复以上操作,智能体的策略网络Actor保持不变,目标策略网络Target-Actor变化。
公共的神经网络的结构为:包含一个由32核5×5,64核3×3的卷积层,128核1×1的卷积层组成的主干网络、一个256维全连接层和一个12维的全连接层。
全局评价网络Critic由动作值函数网络和混合网络组成。其中动作值函数网络由进行特征提取与融合的主干网络,2个256维和1维的全连接层组成,其中主干网络由32核5×5,64核3×3的卷积层,128核1×1的卷积层组成。混合网络主要由多个特征映射模块H组成,其中特征映射模块由一个256维的全连接层和一个64维的全连接层组成。
如图3所示,奖励重塑模块具体为:奖励重塑模块使用环境因子构造的内部奖励函数模块来重塑环境的即时奖励。其中内部奖励函数模块重塑环境即时奖励的过程为,利用敌方数量、弹药数和智能体与夺控点间的距离等环境因子构成内部奖励函数来实时调整环境即时奖励的分布,降低环境稀疏奖励给模型训练带来的负面影响。重塑环境奖励的计算公式为:
其中Rt为t时刻重塑的环境即时奖励;为t时刻环境的即时奖励,来自兵棋环境的对抗得分情况,包括夺控分、剩余算子分和战斗得分等;/>为t时刻智能体的内部即时奖励,其计算公式可以表示为:
其中为t时刻智能体i的内部即时奖励,其计算公式为:
其中为t时刻智能体i的剩余弹药数;/>为t时刻敌方智能体的数量;η为控制距离因子对内部即时奖励影响的超参数;di,t为t时刻智能体i与夺控点间的距离;ε′为大于0的极小值。由上面三个式子得t时刻智能体的即时奖励:
通过以上奖励函数重塑的方法,在对抗的前中期,使实时决策模型尽可能多的考虑智能体与夺控点间距离的影响,成为智能体探索夺控点的主要动力。在对抗的中后期,智能体自身的弹药数和敌方智能体的存活数量会成为内部即时奖励的主要影响因子,鼓励每个智能体生成歼敌数尽可能多,消耗自身资源尽可能少的自主对抗策略。
S2具体为:
鉴于优先经验回放方法较好的探索与利用经验数据的能力,本发明使用基于二级经验队列的全局经验回放池PT-Buffer来存储和维护每个智能体的历史经验数据,利用TD-N量化方法和概率求和树来改进多智能体决策模型利用历史数据的方式。其中全局经验回放池由二级经验队列PT1和PT2组成,如图2中PT-Buffer所示。
在每个仿真回合后,所有Worker中的局部经验缓存池会将局部的经验轨迹同步合并到全局经验回放池PT-Buffer中,以便强化学习算法对历史经验数据进行使用。
如图4所示,全局经验回放池PT-Buffer具体如下:
全局经验回放池PT-Buffer基于二级经验队列,由二级经验队列PT1和PT2组成,具有较好的探索与利用经验数据的能力。
在全局经验回放池进行数据维护的工作时,首先会将每个智能体和环境交互产生的历史经验数据[S,O,A,R,S′,A′]缓存在PT1队列中,并在智能体使用PT1中的每个数据后,将其中的数据全部转存到PT2中。当智能体再次从全局经验回放池获取数据时,经验回放池会在PT2中使用概率求和数的方法对先前策略产生的优先级经验数据进行采样,并将采样得到的样本数据合并到PT1中。最后,再将PT1的数据取出用于算法模型的训练。在全局经验回放池进行数据收集和采样的过程中,PT1会不断地被更新,PT2会在满载时对存储时间过久的经验进行舍弃并在固定的时间步进行重置,从而保证PT2中数据的时效性。
在使用PT-Buffer存储历史经验数据时,首先,将经验τi的时间差分误差δi,即评价网络的当前Q值和目标Q值的差和经验的使用次数构成自身的优先级TD-N。由此得到历史经验τi=[St,At,Rt,S′t+1,A′t+1]|t=i的优先级Pi:
其中i∈[1,k];对于δi较大的经验τi,随着使用次数的增加,其优先级可以被有效地降低;δi较小的经验也能适度地提高其优先级。结合上式和概率采样的思想可以得到经验τi的采样概率:
其中α是采样概率的调节因子。在α=0时,对经验进行均匀采样;当α=1时,则按照经验的采样概率即Psamp(i)的大小进行偏好采样。
为了进一步平衡历史经验的使用频率,保证采样数据的多样性,采用概率求和树的方法来确保每条历史经验数据都能被智能体充分地使用,其中概率求和树的结构如图5所示。首先,按照采样概率Psamp(i)对PT2中的历史经验数据进行排序分组,并将采样概率Psamp(i)的倒数作为经验τi在概率求和树上的叶子结点值,将每对相邻叶子结点值的和作为相应父节点的值,以此逐步生成概率求和树。然后,按照样本大小N将PT2中的历史经验平均分为N个区间,并在每个区间里随机选取一个值作为抽样概率Psample,然后从根节点开始遍历求和树,当Psample大于节点值Pnode时,更新Psample为Psample与Pnode的差,当Psample小于Pnode时,更新Psample为Pnode,并继续遍历该节点的子树,直到叶子节点时结束。最后对叶子结点中的经验数据进行均匀采样得到对应的样本数据,重复以上过程得到N条训练样本数据。
S3具体为:
策略网络目标函数如下所示:
其中At θ′(st,at)是t时刻智能体策略网络Actor的优势函数;ε表示梯度裁剪因子的大小;θ和θ′表示目标策略网络的参数和智能体策略网络的参数;Pθ和Pθ′分别是目标策略网络和智能体策略网络在St状态下选择动作at的概率。
全局Critic网络的目标函数如下所示:
其中T为回合内时间步数,t为环境中的时间步;Nsamp为根据采样概率Psamp(i)从经验池中采样得到的经验数据的大小;Psamp(i)为样本的采样概率;N为智能体的个数;β为采样权重调节因子;Rt为t时刻重塑的环境即时奖励;Qi为智能体i的动作期望回报;ωc为Critic网络参数;γ为期望回报的衰减因子。
为了降低使用概率求和树造成的Q值偏差,引入退火因子wi修正全局Critic网络的目标函数为:
其中N为样本大小;β是控制算法偏好采样程度的超参数。
为了保证算法训练过程中目标策略网络更新过程的稳定,将所有智能体策略网络Actor的参数固定,每当Learner对目标策略网络Target-Actor训练了一定次数之后,再将Target-Actor的网络参数同步更新到Actor中。
Learner是一个包含一些计算公式的模块,用于对网络计算更新,主要就是通过S3前面的策略网络目标函数和Critic网络目标函数两个公式来更新网络参数,然后同步Actor和Target-Actor。
如图2所示,在一个具体的实施例中:
首先使用中科院自动化所开源的兵棋推演环境引擎自定义了一个微型环境,并在其中使用大小为23*13个六角格的山岳丛林兵棋地图设置一个多智能体对抗的兵棋场景山林3v3。在山林3v3的环境里主要包含山岳丛林的环境地形,两个夺控点(主要/次要夺控点)以及红蓝对抗双方的6个智能体。用于算法训练和测试的山林3v3环境如图6所示。其中对抗的红蓝双方拥有相同型号和数量的坦克、战车和步兵,以夺取控制地图中心的夺控点为主要任务。红蓝对抗的双方需要利用有利地形保护己方智能体,并使用迂回等战斗策略来尽可能地打击摧毁敌方智能体以取得对抗的胜利。山林3v3环境中对抗双方的初始态势的部分数据如表1所示。
表1山林3v3环境的初始态势
环境属性 | 属性值 |
主夺控点位置-分值 | (12,5)-80 |
次夺控点位置-分值 | (12,7)-50 |
己方智能体个数 | 3 |
敌方智能体个数 | 3 |
己方兵力位置 | (2,5) |
敌方兵力位置 | (26,5) |
坦克位置-血量-分值 | (3,12)-3-10 |
坦克-大号直瞄炮的数量 | 30 |
坦克-车载轻武器数量 | 30 |
坦克-移动速度(秒/格) | 20 |
坦克-被观察距离(格) | 25 |
战车位置-血量-分值 | (3,13)-3-8 |
战车-车载轻武器数量 | 40 |
战车-小号直瞄炮数量 | 40 |
战车-速射炮数量 | 4 |
战车-车载导弹数量 | 4 |
战车-移动速度(秒/格) | 20 |
战车-被观察距离(格) | 25 |
步兵位置-血量-分值 | (3,13)-3-4 |
步兵-步兵轻武器数量 | 10 |
步兵-火箭筒数量 | 10 |
步兵-便携式导弹 | 4 |
步兵-移动速度(秒/格) | 144 |
步兵-被观察距离(格) | 10 |
己方净胜分 | 0 |
对兵棋推演环境中原始的对抗态势进行预处理,从环境的全局状态空间和智能体的局部观测信息两方面出发,对兵棋智能体的状态空间进行设计,环境的全局状态空间S和智能体的局部观测信息O的组成如图7所示,构建状态空间的原始环境信息如图8所示。
在状态空间S中,环境的全局状态空间主要由夺控点信息、地图信息和实时裁决信息3个部分所组成,以此将全局状态空间作为整个环境信息的抽象集合。其中夺控点的信息主要由所有夺控点的位置、分值和是否被控制等信息组成。夺控点的信息是游戏双方进行对抗的目标所在,是影响多智能体进行决策的关键因素。地图信息主要由对抗地图的大小、地图每个位置的地形和高度等信息组成,是推演环境固有信息的状态集合。实时裁决信息主要包括环境当前的时间步、己方净胜分和己方智能体的数量等信息。
在智能体局部状态空间的设计中,由于战争迷雾、特殊地形等环境因素的影响,每一个智能体只能够获取到一定观察能力范围内的局部环境状态信息。但是智能体通过观察得到的局部环境状态不仅与智能体的自身状态密切相关,还与当前环境的全局状态有着一定的隐式关系。因此,为了帮助分布的每个智能体在有限的局部信息下进行有效地实时决策,提高其决策水平,在局部状态空间中包含了当前己方每个智能体的位置、弹药量、血量以及观察到的敌方智能体类型,位置等具体信息,以此来完整地反映环境的局部状态特征,使智能体能够借助局部状态进行一定程度的自主决策。
如图7所示,全局状态空间包括夺控点信息、地图信息和实时裁决信息,所述夺控点信息具体为:所有夺控点的位置、分值、是否被控制;所述地图信息具体为:地图的大小、地图每个位置的地形和高度;所述实时裁决信息具体为:环境当前的时间步、己方净胜分、己方智能体的数量。智能体的局部观测信息包括:夺控点位置、地图大小、敌我净胜分、当前时间步;己方位置、血量、弹药量;敌方位置、血量。
如图8所示原始态势信息包括地图信息与智能体信息,所述地图信息具体为:夺控点位置、夺控点分值、地图高程、地图地形;所述智能体信息具体为:己方智能体位置、己方智能体类别、己方智能体分值、己方智能体血量、己方智能体弹药量、敌方智能体位置、敌方智能体类别、敌方智能体分值、地方智能体血量。
为了降低兵棋环境混合动作空间带来的负面影响,提高算法的性能,对智能体的动作空间进行简化,将智能体的动作简化归结为12种基础动作,其中主要包括下车、移动和掩蔽等连续动作以及射击和停止移动等离散动作。简化后的动作空间如表2所示。
表2简化后的动作空间
在初始化PTAIR-MAPPO算法的仿真训练环境后,使用热编码的方式将训练环境中的态势信息进行编码并归一化,再通过深度神经网络构造的策略网络Actor将当前的局部观测信息映射为决策动作。其次,使用评价网络对当前智能体的动作回报进行估计,并使用混合网络来调整评价网络对每个智能体动作回报的估计值,环境状态在智能体的作用下发生改变并产生即时奖励,智能体通过自身的奖励重塑模块对环境的即时奖励进行重塑。兵棋环境中的智能体与环境不断重复以上交互过程直至游戏结束,并在此过程中产生经验数据[S,O,A,R,S′,A′]。最后,PTAIR-MAPPO算法通过概率求和树采集训练样本数据,利用得到的历史经验数据生成的优势函数和动作概率对数值来求解优化目标策略网络和评价网络的模型。根据PTAIR-MAPPO算法的网络框架,可以得到在兵棋推演中使用基于TD-N和概率求和树的优先经验回放机制和自适应奖励函数进行决策与网络训练的流程,如图9所示。
通过以上训练过程,训练决策模型20000个回合,每个回合仿真运行1800步,训练时涉及的超参数如表3所示。
表3训练时的超参数
训练超参数 | 参数值 |
步数/回合 | 1800步/回合 |
经验池大小 | 10000 |
训练样本大小 | 256 |
学习率λ | 0.99 |
回报衰减率γ | 0.97 |
样本训练次数 | 5次 |
裁剪因子ε | 0.2 |
α | 0.99 |
β | 1 |
η | 0.3 |
鉴于MAPPO算法在Dota2、星际争霸等实时多智能体环境中表现出的强大决策能力和优异性能,本发明将MAPPO算法作为兵棋环境的基线算法,对本算法的性能进行评估。
本发明首先使用PTAIR-MAPPO算法和MAPPO算法在山林3v3环境中训练20000个回合,并在此过程中使用平均回报对两个算法的性能进行评价。两个算法在此训练过程中的平均回报如图10所示。每个回合内的平均回报是智能体在每个环境时间步上所得净胜分的平均值。平均回报的大小间接反映了智能体实时对抗的能力,平均回报越大智能体的对抗能力越强其决策越有效,反之,对抗能力越弱。
如图10所示,随着训练次数的增加,PTAIR-MAPPO算法和MAPPO算法的平均回报都在逐渐提高,但MAPPO算法稳定后的平均回报始终低于PTAIR-MAPPO算法。与MAPPO算法相比,PTAIR-MAPPO算法的收敛速度更快,取得的平均回报提高了约10分。
在山林3v3环境里,分别使用批大小为64、256和512的训练数据对两个算法进行10000个回合的训练,对不同批大小训练数据下两个算法的数据使用能力进行测试。其中两个算法取得的平均回报如表4所示,从中可以看出PTAIR-MAPPO算法在不同批大小的训练数据上获得的平均回报分数都比MAPPO算法高。可见基于TD-N优先级经验和概率求和树的PTAIR-MAPPO算法通过调整不同历史经验的采样概率,提高了多智能体对在线历史数据的使用效率。
表4山林3v3场景下的平均回报分数
以256批大小的数据分别使用PTAIR-MAPPO算法和MAPPO算法与环境内置的规则AI在山林3v3环境里进行1000个回合的对抗,两个算法回合内获得的平均即时奖励如图11所示。
如图11所示,在兵棋多智能体实时对抗环境中,没有重塑环境奖励的MAPPO算法在一回合训练的前中期获得的即时奖励很稀疏,对动作状态价值变化的敏感度较低使得全局Critic网络的优化速度缓慢,需要花费更长的训练时间才能帮助智能体搜索到最优策略。而PTAIR-MAPPO算法能够利用环境因子构造的内部奖励函数对一回合内环境即时奖励的分布进行有效地调整,在智能体输出有益的动作时,给予较大的即时奖励以鼓励智能体的行为,在输出错误动作时,给予较大的惩罚以降低智能体再次选择该动作的概率。在一回合的后期,PTAIR-MAPPO算法有效地调整了对抗双方净胜分的影响,保证目标策略网络参数的方差和更新幅度在一定范围内,保证策略模型训练过程的稳定。
表5不同即时奖励下的平均回报分数
模型 | 前期 | 后期 |
MAPPO | 7.3 | -55.4 |
PTAIR-MAPPO | 39.7 | -17.9 |
两个算法取得的平均回报情况如表5所示,从中可以看出PTAIR-MAPPO算法在对抗的前期(0-750步)取得的平均回报比MAPPO算法高32.4分,在对抗的后期(1200-1800步)比MAPPO算法高37.5分。图11和表5的对比实验结果表明,PTAIR-MAPPO算法中的自适应奖励函数能够有效地调整多智能体环境中即时奖励的分布,加快对抗决策算法的训练,在对抗进程的前后期都能获得更高的平均回报。
最后,使用在山林3v3环境中训练得到的PTAIR-MAPPO决策模型和MAPPO决策模型在水网3v3环境中进行2000个回合的测试,验证算法在多智能体对抗环境中的鲁棒性与泛化能力。其中两个决策模型的平均得分、胜率和每回合的平均推理时间如表6所示。
表6在水网3v3场景下的性能指标
模型 | 平均回报/分 | 胜率/% | 回合平均推理时间/s |
MAPPO | 40.7 | 51 | 17.2 |
PTAIR-MAPPO | 51.3 | 63 | 16.9 |
表6的实验结果表明,在水网3v3环境中PTAIR-MAPPO算法的收敛速度和得分能力依然胜过MAPPO算法。与MAPPO算法相比,PTAIR-MAPPO算法的胜率增加了12%,平均回报提高了10.6分,每回合平均推理时间减少了0.3s。可见PTAIR-MAPPO算法构造的多智能体决策模型具有适应不同环境的能力,能在不同的对抗场景中取得较好的效果。
综上,本发明的基于深度强化学习的多智能体自主决策算法,采用了改进的时间差分误差TD-N以及概率求和树来采样有利的训练数据,使得多智能体决策模型的数据使用效率得到了提高。同时,通过利用环境因子构造的自适应奖励函数调节环境即时奖励的分布,提高了深度强化学习算法在多智能体环境中对稀疏奖励的适应能力,加快了决策模型的学习速度。本发明的方法使得兵棋AI在推演环境中,具有了充分地探索环境和利用历史经验数据进行策略优化的能力,使得模型在训练过程中能够较快收敛,并获得较高的平均回报。本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (9)
1.一种基于深度强化学习的多智能体自主决策方法,其特征在于,应用场景包括:地图、地图中心的夺控点、己方智能体、敌方智能体;己方智能体与敌方智能体拥有相同型号和数量的坦克、战车和步兵,以夺取控制的夺控点为任务;决策方法包括以下步骤:
S1、使用一个公共的神经网络作为目标策略网络Target-Actor、每个智能体的策略网络Actor,并通过硬编码的方式将智能体的编号及类型作为区分智能体的环境信息提供给目标策略网络Target-Actor进行训练学习,目标策略网络Target-Actor为不同的智能体生成不同的对抗策略;
每个智能体的策略网络Actor通过对环境的局部观测信息oi进行决策,输出相应的动作分布和动作ai,同时环境对智能体的动作产生即时奖励
S2、奖励重塑模块对即时奖励进行重塑,得到Rt;
S3、根据重塑后的Rt,得到智能体与环境的交互产生的经验数据;并基于二级经验队列的全局经验回放池PT-Buffer来存储和维护每个智能体的历史经验数据;
S4、通过概率求和树从全局经验回放池PT-Buffer中采集训练样本数据;
S5、根据步骤S4得到的训练样本数据对目标策略网络和全局评价网络进行训练;
S6、将训练得到的目标策略网络参数同步到每个智能体的策略网络Actor。
2.根据权利要求1所述的一种基于深度强化学习的多智能体自主决策方法,其特征在于,所述经验数据表示为[S,O,A,R,S′,A′],其中,S表示当前时间步的全局状态空间集,R表示智能体当前时间步的重塑后的奖励集,O表示智能体当前时间步的局部观测信息集,A表示智能体当前时间步的动作信息集,S′表示下一时间步的全局状态空间集,A′表示智能体下一时间步的动作信息集。
3.根据权利要求2所述的一种基于深度强化学习的多智能体自主决策方法,其特征在于,全局状态空间包括夺控点信息、地图信息和实时裁决信息,所述夺控点信息具体为:所有夺控点的位置、分值、是否被控制;所述地图信息具体为:地图的大小、地图每个位置的地形和高度;所述实时裁决信息具体为:环境当前的时间步、己方净胜分、己方智能体的数量。
4.根据权利要求3所述的一种基于深度强化学习的多智能体自主决策方法,其特征在于,智能体的局部观测信息包括:夺控点位置、地图大小、敌我净胜分、当前时间步;己方位置、血量、弹药量;敌方位置、血量。
5.根据权利要求4所述的一种基于深度强化学习的多智能体自主决策方法,其特征在于,公共的神经网络的结构为:包含一个由32核5×5卷积层、64核3×3的卷积层、128核1×1的卷积层组成的主干网络,一个256维全连接层以及一个12维的全连接层。
6.根据权利要求5所述的一种基于深度强化学习的多智能体自主决策方法,其特征在于,全局评价网络结构为:包括动作值函数网络和混合网络;
其中动作值函数网络包括进行特征提取与融合的主干网络,1个256维全连接层和1个1维的全连接层,其中主干网络包括32核5×5卷积层、64核3×3的卷积层、128核1×1的卷积层;
混合网络包括多个特征映射模块,每个特征映射模块结构为:包括一个256维的全连接层和一个64维的全连接层。
7.根据权利要求6所述的一种基于深度强化学习的多智能体自主决策方法,其特征在于,奖励重塑模块的计算公式为:
其中,Rt为t时刻重塑的环境即时奖励;为t时刻环境的即时奖励;/>为t时刻智能体的内部即时奖励,/>计算公式表示为:
其中为t时刻智能体i的内部即时奖励,其计算公式为:
其中为t时刻智能体i的剩余弹药数;/>为t时刻敌方智能体的数量;η为控制距离因子对内部即时奖励影响的超参数;di,t为t时刻智能体i与夺控点间的距离;ε′为大于0的极小值。
8.根据权利要求7所述的一种基于深度强化学习的多智能体自主决策方法,其特征在于,全局经验回放池PT-Buffer包括二级经验队列PT1和PT2,使用全局经验回放池PT-Buffer存储历史经验数据时,将经验τi的时间差分误差δi,即评价网络的当前Q值和目标Q值的差和经验的使用次数构成自身的优先级TD-N;由此得到历史经验τi=[St,At,Rt,S′t+1,A′t+1]|t=i的优先级Pi:
其中i∈[1,k]。
9.根据权利要求8所述的一种基于深度强化学习的多智能体自主决策方法,其特征在于,步骤S4具体为:
从全局经验回放池PT-Buffer中采集训练样本数据的采样概率计算式为:
其中,Psamp(i)是经验τi的采样概率,α是采样概率的调节因子,在α=0时,对经验进行均匀采样;当α=1时,则按照经验的采样概率即Psamp(i)的大小进行偏好采样;
按照采样概率Psamp(i)对PT2中的历史经验数据进行排序分组,并将采样概率Psamp(i)的倒数作为经验τi在概率求和树上的叶子结点值,将每对相邻叶子结点值的和作为相应父节点的值,以此逐步生成概率求和树;
然后,记按照采样概率Psamp(i)从全局经验回放池PT-Buffer中采集到的训练样本大小为N,将PT2中的历史经验平均分为N个区间,并在每个区间里随机选取一个值作为抽样概率Psample,然后从根节点开始遍历求和树,当Psample大于节点值Pnode时,更新Psample为Psample与Pnode的差,当Psample小于Pnode时,更新Psample为Pnode,并继续遍历该节点的子树,直到叶子节点时结束;
最后对叶子结点中的经验数据进行均匀采样得到对应的样本数据;
重复以上过程得到N条训练样本数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311015815.2A CN117010476A (zh) | 2023-08-11 | 2023-08-11 | 一种基于深度强化学习的多智能体自主决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311015815.2A CN117010476A (zh) | 2023-08-11 | 2023-08-11 | 一种基于深度强化学习的多智能体自主决策方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117010476A true CN117010476A (zh) | 2023-11-07 |
Family
ID=88572499
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311015815.2A Pending CN117010476A (zh) | 2023-08-11 | 2023-08-11 | 一种基于深度强化学习的多智能体自主决策方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117010476A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117275661A (zh) * | 2023-11-23 | 2023-12-22 | 太原理工大学 | 一种基于深度强化学习的肺癌患者用药预测方法及装置 |
CN117407514A (zh) * | 2023-11-28 | 2024-01-16 | 星环信息科技(上海)股份有限公司 | 一种解决计划生成方法、装置、设备及存储介质 |
-
2023
- 2023-08-11 CN CN202311015815.2A patent/CN117010476A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117275661A (zh) * | 2023-11-23 | 2023-12-22 | 太原理工大学 | 一种基于深度强化学习的肺癌患者用药预测方法及装置 |
CN117275661B (zh) * | 2023-11-23 | 2024-02-09 | 太原理工大学 | 一种基于深度强化学习的肺癌患者用药预测方法及装置 |
CN117407514A (zh) * | 2023-11-28 | 2024-01-16 | 星环信息科技(上海)股份有限公司 | 一种解决计划生成方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112861442B (zh) | 基于深度强化学习的多机协同空战规划方法及系统 | |
CN117010476A (zh) | 一种基于深度强化学习的多智能体自主决策方法 | |
CN112329348A (zh) | 一种面向非完全信息条件下军事对抗博弈的智能决策方法 | |
CN111275174B (zh) | 一种面向博弈的雷达对抗策略生成方法 | |
CN114358141A (zh) | 一种面向多作战单元协同决策的多智能体增强学习方法 | |
CN112364972A (zh) | 基于深度强化学习的无人战车分队火力分配方法 | |
Emilio et al. | Pac-mAnt: Optimization based on ant colonies applied to developing an agent for Ms. Pac-Man | |
Oh et al. | Learning to sample with local and global contexts in experience replay buffer | |
CN113962012A (zh) | 无人机对抗策略优化方法及装置 | |
CN116596343A (zh) | 一种基于深度强化学习的智能兵棋推演决策方法 | |
CN116090549A (zh) | 一种基于知识驱动的多智能体强化学习决策方法、系统及存储介质 | |
CN116306204A (zh) | 融入先验知识的智能指挥决策模型、系统及方法 | |
CN116700079A (zh) | 基于ac-nfsp的无人机对抗占位机动控制方法 | |
CN118416460A (zh) | 一种基于异构图神经网络的可解释兵棋预测方法及系统 | |
CN114995460A (zh) | 一种基于自适应改进蚁群算法的机器人路径规划方法 | |
Szita et al. | Effective and diverse adaptive game AI | |
Cai et al. | Individual parameter selection strategy for particle swarm optimization | |
Kolbe et al. | Conceptualization and Implementation of a Reinforcement Learning Approach Using a Case-Based Reasoning Agent in a FPS Scenario. | |
CN114662655A (zh) | 一种基于注意力机制的兵棋推演ai分层决策方法及装置 | |
Ma et al. | Playing Angry Birds with a Neural Network and Tree Search | |
Wilson et al. | Learning and transferring roles in multi-agent reinforcement | |
Shi et al. | An Off-COMA Algorithm for Multi-UCAV Intelligent Combat Decision-Making | |
Deng et al. | Multi-Robot Real-time Game Strategy Learning based on Deep Reinforcement Learning | |
CN112380780A (zh) | 一种用于非对称对抗场景自博弈训练的对称场景嫁接方法 | |
Da | Research on Multi-Agent Communication and Collaborative Decision-Making Based on Deep Reinforcement Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |