CN112561032B

CN112561032B - 一种基于种群训练的多智能体强化学习方法及系统

Info

Publication number: CN112561032B
Application number: CN202011356395.0A
Authority: CN
Inventors: 王滨; 杨军; 原鑫; 钟晨
Original assignee: CETC 15 Research Institute
Current assignee: CETC 15 Research Institute
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2022-12-23
Anticipated expiration: 2040-11-27
Also published as: CN112561032A

Abstract

本发明涉及一种基于种群训练的多智能体强化学习方法及系统，该方法包括：根据游戏录像得到第一训练集；利用第一训练集对多层全卷积LSTM网络进行训练，得到第一智能体；利用第一智能体进行自博弈，在设定时间周期后得到第一种群；从第一种群中选择第二智能体、第一智能体集和第二智能体集；利用第一智能体分别和选择出来的三组智能体同时进行对战，并保存更新第一种群直至选择出来的三组智能体中任意一个战败，得到第二种群；从第二种群中选择替换智能体替代战败智能体继续与第一智能体对战，并保存更新第二种群，得到第三种群；直至第三种群中智能体数量达到预设数值，则输出第一智能体。本发明能够训练出可以模拟无人系统作战指控的智能体。

Description

一种基于种群训练的多智能体强化学习方法及系统

技术领域

本发明涉及智能体训练领域，特别是涉及一基于种群训练的多智能体强化学习方法及系统。

背景技术

近年来智能体领域具有里程碑的事件是基于强化学习的智能体Alphago击败了人类围棋顶尖棋手，从而使深度强化学习成为通向人工智能最有可能的道路，Alphago所使用到的主要技术就是自博弈。通过自博弈可以减少对数据集数量的依赖，甚至可以超出人类专家，对于普通的深度学习来说，这几乎是不可能的。

在未来智能化时代，军事战争中将大量采用能够代替人类飞行员执行侦察、打击、对抗任务机器人，这对于指挥控制机器人训练系统的精确性、时效性、有效性提出了很高的要求，指挥控制智能化为大势所趋。一个智能的大脑对于打赢战争的重要性是不言而喻的，智能指挥官的贡献度将超越任何一型智能武器。

目前面向机器人对抗场景中智能指挥控制训练系统的研究还比较少，并且存在着较大的局限性，主要的问题包括：严重依赖训练数据，训练数据量少，经过这些少量数据训练后的智能体胜率较低。

在众多的机器人博弈训练研究平台中，星际争霸以其丰富的环境信息、逼真的环境场景等特点成为常用的理论研究和方法验证平台。基于此，我们用《星级争霸2》游戏训练智能指挥官，成功后会尝试迁移到现实中执行类似作战指控任务，对现代军事行动提出新型战术，同时可将单个智能体繁殖成多个智能体。

发明内容

本发明的目的是提供一种基于种群训练的多智能体强化学习方法及系统，能够训练出可以模拟无人系统作战指控的智能体。

为实现上述目的，本发明提供了如下方案：

一种基于种群训练的多智能体强化学习方法，包括：

对暴雪公司发布的游戏录像进行解析，得到第一训练集；

利用所述第一训练集对多层全卷积LSTM网络进行训练，得到第一智能体；

利用所述第一智能体进行自博弈，每隔时间T保存一个智能体，并记录所述智能体的胜率；在设定时间周期后得到第一种群；

根据胜率和第一加权函数从所述第一种群中选择任一智能体，记为第二智能体；

根据胜率和第一加权函数从所述第一种群中再选择若干个智能体，记为第一智能体集；

根据胜率和第二加权函数从所述第一种群中再选择若干个智能体，记为第二智能体集；

利用所述第一智能体分别和第二智能体、第一智能体集和第二智能体集同时进行对战，每个对战过程每隔时间T保存一个智能体并添加到所述第一种群中，直至所述第二智能体、第一智能体集或第二智能体集中任意一个战败，得到第二种群；

从所述第二种群中选择替换智能体替代战败智能体继续与所述第一智能体进行对战，所述替换智能体包括能够替换第二智能体的任意一个智能体或者能够替换所述第一智能体集和第二智能体集的任意一个智能体集，所述战败智能体为第二智能体、第一智能体集或第二智能体集；每隔时间T保存一个智能体并添加到所述第二种群中，得到第三种群；

直至所述第三种群中智能体数量达到预设数值，则输出所述第一智能体。

可选的，所述时间T为1000秒。

可选的，所述第一种群包括100个智能体。

可选的，所述预设数值为10000。

可选的，所述第一加权函数为f₁(p)＝P^b，其中，f₁(p)为第一加权函数，P为胜率，b为常数。

可选的，所述第二加权函数为f₂(p)＝P(1-P)，其中，f₂(p)为第二加权函数，P为胜率。

可选的，所述b等于2。

可选的，所述根据胜率和第一加权函数从所述第二种群中选择若干个智能体包括：选择胜率大于70％的智能体。

一种基于种群训练的多智能体强化学习系统，包括：

解析模块，用于对暴雪公司发布的游戏录像进行解析，得到第一训练集；

训练模块，用于利用所述第一训练集对多层全卷积LSTM网络进行训练，得到第一智能体；

自博弈模块，用于利用所述第一智能体进行自博弈，每隔时间T保存一个智能体，并记录所述智能体的胜率；在设定时间周期后得到第一种群；

第二智能体选择模块，用于根据胜率和第一加权函数从所述第一种群中选择任一智能体，记为第二智能体；

第一智能体集选择模块，用于根据胜率和第一加权函数从所述第一种群中再选择若干个智能体，记为第一智能体集；

第二智能体集选择模块，用于根据胜率和第二加权函数从所述第一种群中再选择若干个智能体，记为第二智能体集；

第一对战模块，用于利用所述第一智能体分别和第二智能体、第一智能体集和第二智能体集同时进行对战，每个对战过程每隔时间T保存一个智能体并添加到所述第一种群中，直至所述第二智能体、第一智能体集或第二智能体集中任意一个战败，得到第二种群；

第二对战模块，用于从所述第二种群中选择替换智能体替代战败智能体继续与所述第一智能体进行对战，所述替换智能体包括能够替换第二智能体的任意一个智能体或者能够替换所述第一智能体集和第二智能体集的任意一个智能体集，所述战败智能体为第二智能体、第一智能体集或第二智能体集；每隔时间T保存一个智能体并添加到所述第二种群中，得到第三种群；

输出模块，用于当所述第三种群中智能体数量达到预设数值时，则输出所述第一智能体。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提出一种基于种群训练的多智能体强化学习方法及系统，可以很好的解决训练数据量少的问题，实验结果表明，智能体经过本系统训练之后，相对于仅初始时的胜率提高了30％，同时可将一个智能体繁殖成多个智能体。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于种群训练的多智能体强化学习方法流程图；

图2为本发明对战过程的模块图；

图3为本发明自博弈繁殖种群过程示意图；

图4为本发明三个种族训练过程示意图；

图5为本发明基于种群训练的多智能体强化学习系统模块图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种基于种群训练的多智能体强化学习方法及系统，利用星际争霸的平台，能够训练出可以模拟无人系统作战指控的智能体。

现实社会中很多大型、复杂的动态环境问题如路面交通系统、气象预报、经济预测、智慧城市管理、军事决策等均是实例。然而，对这些实际问题进行建模仿真存在很大困难。与此同时，一系列实时策略游戏提供了与真实环境相似的、非完美和非完整信息、长远规划、复杂问题决策的仿真环境，比如暴雪公司出品的星际争霸游戏，星际争霸的游戏环境既能模拟现实问题的关键难点，又具有可准确评估、迭代迅速、便于交互和布署、可重复等特点，为解决实际路面交通系统、气象预报、经济预测、智慧城市管理、军事决策的问题提供了绝佳的研究平台。与Alphago等棋类游戏相比，星际争霸实时策略游戏相关研究更难，主要体现在以下几点：(1)多玩家共存、多异构智能体合作。(2)长期决策等、实时对抗及动作持续性。(3)非完整信息博弈和强不确定性。(4)巨大的搜索空间及多复杂任务，促使《星际争霸2》成为史上智能体最难攻克的游戏，智能体经过本系统训练之后，相对于仅通过监督学习的胜率提高了30％。

本发明的开源平台是SC2LE，SC2LE是DeepMind针对与星际争霸2开发的环境，包含三个子组件：一个Linux星际争霸2二进制文件、星际争霸II API和PySC2。PySC2是一个Python环境，它封装了StarCraft II API，以简化智能体和StarCraft II之间的交互。PySC2定义了一个操作和观察规范，包括一个随机代理和一些脚本化代理作为示例。

其中，自博弈是Alphago用到主要技术，但是对于非对称信息的多智能体博弈游戏来说，并不适用，因为会遇到循环策略问题。种群训练是一种多智能体强化学习算法，旨在解决自我博弈训练中经常遇到的循环问题，在训练期间，本文通过定期将智能体(由强化学习算法训练)的参数保存为新智能体(深度神经网络的固定参数)来参加智能体联赛训练，然后不断重新评估新智能体对于种群中其他所有智能体的最新胜率。智能体训练的目标是最大化自身的收益。在不完整信息博弈中，每个智能体只会观察到自身的信息状态，例如，在扑克游戏中，玩家只会知道自己私有的牌，并不知道其他人的。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明的整体技术框架为：

1)基于SC2LE解析游戏录像后，得到训练集，使用训练集训练基于LSTM的智能体A₀，也就是第一智能体；

2)输入种子智能体A₀进入本训练系统，对战100次，得到原始种群PA₀，其中智能体数量100个；

3)并发三个进程分别训练三个种族：MA、ME、LE，将它们不断更新种群中PA_i，0<i<9900，PA₉₉₀₀中有智能体10000个，包括MA、MLA、LA全部祖先；

4)种子A₀经过步骤3)的学习训练之后得到最强智能体A'₀,也就是输出之后的第一智能体，A'₀的胜率相对于种子智能体A₀将会得到大幅提升。

也就是本发明是根据训练过程对第一智能体进行不断地优化，通过不断地扩充训练集来对第一智能体进行多次训练，扩充出来的智能体都相当于第一智能体的陪练，以此来提高第一智能体的对战技能。

基于上述技术构思，本发明的具体方法流程图如图1所示，其中包括：

步骤101：对暴雪公司发布的游戏录像进行解析，得到第一训练集；

步骤102：利用所述第一训练集对多层全卷积LSTM网络进行训练，得到第一智能体；

步骤103：利用所述第一智能体进行自博弈，每隔时间T保存一个智能体，并记录所述智能体的胜率；在设定时间周期后得到第一种群；

步骤104：根据胜率和第一加权函数从所述第一种群中选择任一智能体，记为第二智能体；

步骤105：根据胜率和第一加权函数从所述第一种群中再选择若干个智能体，记为第一智能体集；

步骤106：根据胜率和第二加权函数从所述第一种群中再选择若干个智能体，记为第二智能体集；

步骤107：利用所述第一智能体分别和第二智能体、第一智能体集和第二智能体集同时进行对战，每个对战过程每隔时间T保存一个智能体并添加到所述第一种群中，直至所述第二智能体、第一智能体集或第二智能体集中任意一个战败，得到第二种群；

步骤108：从所述第二种群中选择替换智能体替代战败智能体继续与所述第一智能体进行对战，所述替换智能体包括能够替换第二智能体的任意一个智能体或者能够替换所述第一智能体集和第二智能体集的任意一个智能体集，所述战败智能体为第二智能体、第一智能体集或第二智能体集；每隔时间T保存一个智能体并添加到所述第二种群中，得到第三种群；

步骤109：直至所述第三种群中智能体数量达到预设数值，则输出所述第一智能体。

其中，步骤103是自我对战、强化学习的过程，整个过程需要第一智能体A₀自博弈100次，得到第一种群PA₀，其中智能体数量为100个；

强化学习的目标就是去找到一个策略使得长期奖赏最大化，进行强化学习训练。训练过程如图2，智能体使用LSTM(Long short-term memory)，使用SC2LE开发接口，从游戏环境得到得分和观察量给智能体，智能体根据得分和观测量发出动作指令给游戏环境，算法使用强化学习算法DQN(Deep Q Network)进行强化学习，训练集是观察量和分数。

观察量，是指游戏进程中的各种单位的变化量，包括建造的建筑、军队数量、发展的科技、资源数量、被摧毁的军队、被摧毁的建筑、敌人的军队、敌人的建筑等。

奖励设置策略。如果仅仅将每一局比赛的胜负作为奖励，胜、负与平局，这个奖励十分稀疏，所以在此将得分作为奖励，游戏过程中的每一步都会有相应的得分，可以看做是当前资源、科技、建筑和军事单位的总和，这个得分会随着它们的增加而增加，反之亦然。游戏的得分，得分是玩家在游戏胜利时，屏幕上看到的分数。虽然玩家只能在游戏结束时看到这个分数，但是我们提供了游戏中每一步运行的分数，这样分数的变化可以作为强化学习的奖励。它是计算被研究的当前资源和升级的总和，以及当前存在和正在建设的单元和建筑物。这意味着玩家的累计奖励随着挖掘的资源增加而增加，当失去单位/建筑时减少，所有其他的行为(训练单位、建筑和研究)都不会影响它。

当第一智能体A₀与其自身进行自博弈过程中，通过每隔训练时间T存档一个智能体A_i，最终得到100个智能体A₁₀₀，从而得到第一种群PA₀(自博弈是分别从游戏环境得到得分和观察量给两个智能体A₀，其中A₀根据得到的数据自身参数发生变化得到A₁)，如图3所示，其中：T＝S*10000，单位秒，S＝0.1，S代表帧率。

生成A₁₀₀之后，然后通过A₀与A_i对战m次(m＝10)，记录胜率表P_(0，i)[A₀VA_i]＝p_i。

步骤104-109是并发训练三个种族的过程，并且在训练过程中一直更新第一种群的智能体数量。

具体的，本发明使用改进的虚拟自学习算法过程PFSP，并发三个进程分别训练三个种族：MA、ME、LE，将它们不断更新种群中PA_i，0<i<9900，最终得到PA₉₉₀₀中有智能体10000个(加PA₀中的100个)，如图4所示，包括MA、ME、LE全部祖先PA₀，它们的不同之处在于：

1)选取对战对象策略；

2)添加到种群中的机制；

3)初始化训练参数概率策略。

其中每个智能体训练过程包括两个并发的子进程，要等待两个进程全部结束之后，才能进入下一次循环：

1)训练过程，产生新的智能体XA_i；

2)测试过程，产生新的智能体XA_i与当前种群PA_i中的其他智能体XA_0-j对战的胜率记录P_(i，j)[XA_i V XA_j]，i＝1～i(因为P₀对应于A₀)，j＝0～i-1；

(1)智能体种族MA，也就是第二智能体；

当前正在训练的智能体MA_i及其祖先MA_0～i-1和PA₀(A_0-100)，只有1个最新的MA_i；

a)初始化：MA₀＝A₀；

b)选取对象：

1)从当前种群PA_i(最初为PA₀)全部智能体中按照公式(1)和公式(2)选取对战对手，其中b＝2，P为之前的胜率表P_(i，j)；

f₁(p)＝P^b 公式(2)

f₂(p)＝P(1-P) 公式(3)

胜率F(P)公式含义：对手被抽中的概率，选中常打败智能体的对手概率高，反之亦然，其中f为加权函数，即公式1中的f，对于不同类型的智能体可选取不同的f即公式2或公式3进行选取。

以65％的概率使用以上方法和对手进行对战；

举例：A_1，2，3被选中的概率计算过程如表1：

表1 A_1，2，3被选中的概率

	A<sub>1</sub>	A<sub>2</sub>	A<sub>3</sub>
				历史胜率	0.3	0.4	0.5
使用公式2被选中的概率(b＝2)	0.09/0.5	0.16/0.5	0.25/0.5
				使用公式3被选中的概率	0.21/0.7	0.24/0.7	0.25/0.7

2)另外35％与自己对战；

c)添加到种群机制：对战过程中每隔10⁵个时间步长S(0.1秒)存储到种群PA_i中一次。

d)初始化训练参赛概率：每次添加到种群后，当前的MA_i不重置智能体参数继续选择对象对战，这样最终对战结束(即PA中有10000个智能体)后产生A₀’。

(2)智能体种族ME，也就是第一智能体集；

目的：可打败种群PA中的所有智能体A_i及其祖先，用于发现全局的盲点；

a)初始化：ME₀＝A₀；

b)选取对象：

按照公式(1)和公式(2)与从当前种群PA_i中的MA中选取n个进行对战，其中b＝2；

c)添加到种群中的机制：

如果当前ME_i的胜率>70％，或者距离上次存档10⁵秒个时间步长则将当前MA_i存到种群PA_i中；

d)初始化训练参数概率策略：

每次存档之后就重设初始化为ME₀＝A₀，然后再进行b)继续选择MA进行对战；

(3)智能体种族LE，也就是第二智能体集；

能打败种群里全部的智能体MA、ME、LE及其祖先，用于发现主智能体MA的弱点。

a)初始化：LE₀＝A₀；

b)选取对战对象：

从种群中全部智能体选取对手，按照公式(1)和公式(3)概率抽取n个，n为当前种群PA_i中智能体总数量。

c)添加到种群中的机制：

如果当前LE_i的胜率>70％，或者距离上次存档10⁵个时间步长S(0.1秒)则将当前LE_i存到种群PA_i中；

d)初始化训练参数概率策略：在c)存档的时候，有25％概率把LE_i的参数重置为A₀，然后再进行b)继续选择PA_i进行对战；

总结，同种族选取对手池如表2所示：

表2不同种族选取对战对象

	主智能体MA	智能体ME	智能体LE	原始种群PA<sub>0</sub>
					智能体MA	35％对战	公式2对战	公式2对战	公式2对战
智能体LE	公式3对战	公式3对战	公式3对战	公式2对战
					智能体ME	公式2对战	不对战	不对战	不对战

通过上述对战训练以后，输出训练之后的第一智能体：为了训练种群，我们并发运行了大量的《星际争霸II》对战，不断的更新了智能体MA的网络参数，并对结果进行了多次消融实验，对全部的三种智能体进行了循环对战，结果表明，随着时间的推移，MA的性能稳步提高，ME的性能实际上降低了，实验结果表明，智能体经过本系统训练之后，相对于仅通过自博弈强化学习时的胜率提高了30％。其中单独经过LE的训练可以提高14％，单独经过ME的训练可以提高16％。

综上所述，像《星际争霸》一样，现实世界的领域存在大量场景，如个人助理、自动驾驶汽车或机器人，需要在二元组合或结构化的行动空间中，仅可以得到不完全观察到的信息，然后进行实时决策。此外，许多应用程序都有复杂的策略空间，其中包含循环或艰难的解释场景，而当在现实世界中部署时，智能体可能会遇到意想不到的策略或复杂的边界情况。通用机器学习算法可能会对复杂的现实问题产生重大影响。

智能体会不断的收到观察值，并通过游戏界面在处发出操作。人类通过屏幕显示星际争霸，该屏幕仅显示部分地图以及整个地图的高级视图。智能体通过类似摄像头的界面与游戏进行交互，APM限制。人类可以执行的每分钟行动数(APM)受身体限制。智能体将限于每个5秒窗口最多执行22个非重复操作。延迟。人类对新信息反应的速度有限。智能体有两个延迟源。首先，由于延迟，观察处理和推理，在实时评估中，智能体在观察帧和执行动作之间有大约110毫秒的延迟。其次，由于智能体不会提前决定观察时间，因此他们可能会对意外情况做出较迟的反应。

多智能体博弈游戏不仅在人工智能研究领域极具研究价值，其在社会管理、智能交通、经济、军事等领域同样具有巨大的潜在应用价值。本文提出的这种新的基于种群的多智能体自博弈训练系统，将星际争霸作为验证平台，实验结果表明，智能体经过本系统训练之后，相对于仅通过自博弈强化学习时的胜率可提高了30％，为多智能体强化学习自博弈提供了参考依据。

基于上述方法，本发明还公开了一种基于种群训练的多智能体强化学习系统，如图5所示，包括：

解析模块201，用于对暴雪公司发布的游戏录像进行解析，得到第一训练集；

训练模块202，用于利用所述第一训练集对多层全卷积LSTM网络进行训练，得到第一智能体；

自博弈模块203，用于利用所述第一智能体进行自博弈，每隔时间T保存一个智能体，并记录所述智能体的胜率；在设定时间周期后得到第一种群；

第二智能体选择模块204，用于根据胜率和第一加权函数从所述第一种群中选择任一智能体，记为第二智能体；

第一智能体集选择模块205，用于根据胜率和第一加权函数从所述第一种群中再选择若干个智能体，记为第一智能体集；

第二智能体集选择模块206，用于根据胜率和第二加权函数从所述第一种群中再选择若干个智能体，记为第二智能体集；

第一对战模块207，用于利用所述第一智能体分别和第二智能体、第一智能体集和第二智能体集同时进行对战，每个对战过程每隔时间T保存一个智能体并添加到所述第一种群中，直至所述第二智能体、第一智能体集或第二智能体集中任意一个战败，得到第二种群；

第二对战模块208，用于从所述第二种群中选择替换智能体替代战败智能体继续与所述第一智能体进行对战，所述替换智能体包括能够替换第二智能体的任意一个智能体或者能够替换所述第一智能体集和第二智能体集的任意一个智能体集，所述战败智能体为第二智能体、第一智能体集或第二智能体集；每隔时间T保存一个智能体并添加到所述第二种群中，得到第三种群；

输出模块209，用于当所述第三种群中智能体数量达到预设数值时，则输出所述第一智能体。

本发明还公开了如下技术效果：

本方法具备很好的普适性，可以很方便的迁移到社会管理、智能交通、经济、等其他强化学习领域中去。智能体自博弈方法不仅在人工智能研究领域极具研究价值，其在社会管理、智能交通、经济以及军事等领域同样具有巨大的潜在应用价值。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于种群训练的多智能体强化学习方法，其特征在于，包括：

对暴雪公司发布的游戏录像进行解析，得到第一训练集；

2.根据权利要求1所述的基于种群训练的多智能体强化学习方法，其特征在于，所述时间T为1000秒。

3.根据权利要求1所述的基于种群训练的多智能体强化学习方法，其特征在于，所述第一种群包括100个智能体。

4.根据权利要求1所述的基于种群训练的多智能体强化学习方法，其特征在于，所述预设数值为10000。

5.根据权利要求1所述的基于种群训练的多智能体强化学习方法，其特征在于，所述第一加权函数为f₁(p)＝P^b，其中，f₁(p)为第一加权函数，P为胜率，b为常数。

6.根据权利要求1所述的基于种群训练的多智能体强化学习方法，其特征在于，所述第二加权函数为f₂(p)＝P(1-P)，其中，f₂(p)为第二加权函数，P为胜率。

7.根据权利要求5所述的基于种群训练的多智能体强化学习方法，其特征在于，所述b等于2。

8.根据权利要求1所述的基于种群训练的多智能体强化学习方法，其特征在于，所述根据胜率和第一加权函数从所述第二种群中选择若干个智能体包括：选择胜率大于70％的智能体。

9.一种基于种群训练的多智能体强化学习系统，其特征在于，包括：