CN108629422B

CN108629422B - 一种基于知识指导-战术感知的智能体学习方法

Info

Publication number: CN108629422B
Application number: CN201810444476.2A
Authority: CN
Inventors: 李玺; 胡玥; 李钧涛
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-05-10
Filing date: 2018-05-10
Publication date: 2022-02-08
Anticipated expiration: 2038-05-10
Also published as: CN108629422A

Abstract

本发明公开了一种基于知识指导‑战术感知的智能体学习方法，用于在双方对战游戏的环境下，通过两个阶段的训练，利用人类的知识训练出一个以特定战术策略作战的智能体。具体包括如下步骤：1)对游戏画面和智能体的状态进行编码，构成状态特征；2)通过人为编写脚本的方式构建一个具有特定作战策略的脚本；3)智能体与脚本作战，收集对手的状态和动作数据进行第一阶段训练；4)训练后的智能体与电脑内置AI作战，通过强化学习的方式进行第二阶段训练；5)使用上述学习框架训练智能体以特定战术参与作战。本发明适用于微操环境下的双方作战模式的智能体训练，面对各种微操作战场景具有较好的胜率。

Description

一种基于知识指导-战术感知的智能体学习方法

技术领域

本发明属于深度强化学习在游戏领域的应用，特别地涉及一种基于知识指导-战术感知的智能体学习方法。

背景技术

深度强化学习在很多地方都有应用，比较经典的有在围棋，雅达利小游戏上的应用。由于双方对战博弈游戏的复杂性和实时性，在征服了围棋这块领域之后，强化学习的研究学者们都转向对星际争霸之类的双方对战游戏智能体的研究。此类研究不仅能够强化对人工智能的研究，而且也具有较高的应用意义。因为智能体被构建后，可将其应用于游戏产业中，将智能体内置于游戏中，或者将其应用于竞技体育产业，用于初学者训练或者提供最佳作战策略等等。

典型地来说，智能体研究的问题主要有以下三个方面，(1)学习的架构建立；(2)模型的训练策略不同；(3)多代理的通讯机制。对于第一点，学习的架构来说，最近提出了很多很高效的强化学习研究框架，比如说是集中式评价分布式执行的框架和主从架构。对于第二点，模型的训练策略，有很多的研究工作都是为了设计一个离线/在线的训练策略，这样可以提高以代理为导向的学习表现，比如说训练收敛速度，稳定性等等。对于第三点，多代理的通讯机制主要研究一个代理之间的不同消息的传递机制。有的让每个动作网络在输出一个动作信息的同时也输出一个消息，同时这个消息作为下一个代理的评价网络的输入；也有工作是为每一个代理都构建一个模块，这个模块是用来传递消息的，接受上一轮模块发送的消息，分别接受平均之后的消息和未处理过的消息，通过平均消息的接受来促进代理之间的沟通等。

上述的方法都是基于数据驱动的方式，其缺点是探索最优策略所需的时间非常久。一般来说，为了在一个比较容易的场景上掌握游戏规则进行游戏，智能体需要经过几万场游戏的训练，这是非常耗时的。而且在探索的训练过程中，并不具有可解释性。整个模型是一个黑箱，不能事先知道即将学习到的策略大致是什么类型的。强化学习的算法，都是为了解决一个序列决策最优的问题。所以这个强化学习一直都会往回报最大的方向学习，这一点也会导致最后学习到的策略会很奇怪，事先研究人员不能分析得到这个策略会是怎么样的。而且，由于之前的方法都是纯粹的数据驱动，所以该方法训练的过程中，智能体都不会意识到对手的存在，这样缺少了对抗博弈游戏的本身的对抗信息。

发明内容

为解决上述问题，本发明的目的在于提供一种知识指导-战术感知的学习方法。该方法基于深度神经网络，利用人类的知识去学一个策略函数，让学习的过程更加可解释性。这个注入人类知识的想法是可以通过人为编写脚本实现，只要将智能体与这个脚本进行对战，并且向其学习。在经过一段时间的训练之后，智能体可以学习到对手的策略，之后就通过强化学习的方法，把上一个阶段学习到的策略进一步地加强，最后可以得到一个具有可解释性的策略。因为在训练之前，能大致分析得到即将要学习到的策略是怎么样的，而不是一味地让它自由探索得到的。同时，这个方法又可以缩短训练学习所需要的时间，有了一个初始化的模型之后，第二阶段的强化学习，也会很容易收敛并且学习到比较好的策略。而不是像之前的强化学习一样，充满随机性，每次训练的结果都不太一样。

为实现上述目的，本发明的技术方案为：

一种基于知识指导-战术感知的智能体学习方法，其包括以下步骤：

S1、对游戏画面和智能体的状态进行编码，构成状态特征；

S2、构建一个具有用于智能体学习的目标作战策略的脚本；

S3、智能体与所述的脚本作战，收集对手的状态和动作数据进行第一阶段训练；

S4、训练后的智能体与电脑内置智能体作战，通过强化学习的方式进行第二阶段训练；

S5、通过作战-收集数据-训练-再作战的循环过程，不断训练智能体。

作为优选，步骤S1中，所述的状态特征φ包括位置信息特征和血量信息特征，位置信息特征通过获取游戏画面中我方与敌方的位置信息进行编码；血量信息特征通过获取智能体的血量信息得到，并将其编码在与位置信息相对应的位置上；其中φ(s,a)为我方的状态特征，φ(s,e)为敌方的状态特征。

作为优选，步骤S2中，所述的脚本中包含有期望智能体学习到的作战策略，脚本获取状态特征φ(s,e)后，会根据编写的作战策略做出符合这个状态的动作u_e。

作为优选，所述的步骤S3包括以下子步骤：

S31、为智能体构建一个策略网络F(φ(s,a)；θ₁)，该网络由三层卷积层和四层全连接层构成，网络参数θ₁随机初始化；该网络输入是当前的状态特征φ(s,a)，输出为动作空间中每个动作的概率，智能体选择概率最大的动作执行；

S32、智能体和人为编写的具有特作战策略的脚本进行对战，在对战过程中智能体收集敌方即脚本的状态特征φ(s,e)和脚本的动作u_e，并将其作为一个元组(φ(s,e),u_e)存在Replay D1中，直到一场对战结束；

S33、在Replay D1中随机采样预设批大小的数据(φ(s,e),u_e)进行策略网络的训练，网络的损失函数为：

其中

为期望函数，U_e是对脚本的动作u_e进行one-hot编码处理后的结果，训练使得损失函数最小化，模型收敛后完成一次训练；

S34、重复S32-S33进行多场对战和训练，直到智能体学到脚本的特定策略。

作为优选，步骤S4包括以下子步骤：

S41、为智能体构建第二阶段的策略网络Q(φ(s,a),u_a；θ₂)，该网络结构与第一阶段的策略网络结构相同，由三层卷积层和四层全连接层构成，其网络参数θ₂为第一阶段策略网络参数θ₁的训练结果；该网络输入是智能体当前的状态特征φ(s,a)和智能体的当前动作u_a，输出为动作空间中每个动作的期望值，智能体选择期望值最大的动作执行；

S42、智能体和电脑内置智能体进行对战，在该过程中收集自己的状态特征φ(s,a)、动作u_a、从环境中得到的奖励r和下一个状态特征φ(s′,a′)，并将其作为一个元组(φ(s,a),u_a,r,φ(s′,a′))存在Replay D2中，直到一场对战结束；其中r通过定义奖励函数计算，奖励函数为我方和敌方各自血量减少量的差值和致命一击的奖励之和，具体公式如下：

其中△H(e_j)是敌方的智能体e_j的血量减少量，m为敌方智能体的个数；△H(a_i)是我方智能体a_i的血量减少量，n为我方智能体的个数，k是当我方智能体的这次行为导致敌方淘汰时给予的奖励；

S43、在Replay D2中随机采样预设批大小的数据(φ(s,a),u_a,r,φ(s′,a’))进行策略网络的训练，网络的损失函数为：

其中

为期望函数，y^DQN是目标值，γ是衰减系数，

为目标网络，u′_a为智能体的下一个动作，

的网络结构与第二阶段的策略网络Q结构相同，其网络参数θ′₂每100场对战从网络Q复制一次。

作为优选，步骤S5中，基于由S1-S4建立的两阶段的学习框架，通过不断使智能体参与作战，然后利用作战过程中收集的数据进行训练，直至模型收敛，完成智能体的学习过程。

本发明的知识指导-战术感知的学习方法，相比于现有的应用于星际争霸微型操作上的强化学习方法，具有以下有益效果：

首先，本发明的学习方法可以缩短训练时间，因为第二阶段的强化学习是在第一阶段具有初始模型之上的，相比一般的从零开始的强化学习具有更好的初始模型，很容易收敛并且学到比较好的策略。

其次，本发明的学习方法是个两阶段的学习框架，通过两个阶段的学习过程可以让智能体在学到特定的基础上再进行强化学习，进行一定的探索。最后智能体以特定的战术策略作战，相比于随机探索的方式学习策略，有更高的胜率，而且整个作战过程显地更智能。

最后，本发明的学习方法是知识指导-战术感知的，利用人类的知识去学习一个策略函数，让学习的过程更加可解释性。即在训练之前，我们就能大致分析得到即将要学习到的策略是怎么样的，而不是一味地让它自由探索得到的。

本发明的知识指导-战术感知的学习方式，在双方对战型游戏环境中，能够有效提高智能体的胜率并且缩短训练时间，具有良好的应用价值，例如可以利用该方法训练智能体并替代当前游戏中的内置AI，供初学者训练；或者利用该智能体基于当前的游戏状态给出下一步的最佳作战策略。

附图说明

图1为本发明的的流程示意图；

图2为实施例中的第一阶段和第二阶段战斗对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

参考图1，在本发明的较佳实施例中，一种基于知识指导-战术感知的智能体学习方法，包括以下步骤：

S1、对游戏画面和智能体的状态进行编码，构成状态特征。

状态特征φ包括位置信息特征和血量信息特征，位置信息特征通过获取游戏画面中我方与敌方的位置信息进行编码；血量信息特征通过获取智能体的血量信息得到，并将其编码在与位置信息相对应的位置上；其中φ(s,a)为我方的状态特征，φ(s,e)为敌方的状态特征(s指状态，a指我方，e指敌方)。

下面构建一个针对智能体构建一个两阶段的学习框架：

S2、构建一个具有用于智能体学习的目标作战策略的脚本。该脚本是指将人类知识通过编写脚本的方式以一种特定的作战策略来呈现，例如该人类知识为攻击最近的敌人或者攻击最弱最近的敌人，则将其编写出相应的脚本。脚本获取状态特征φ(s,e)后，会根据编写的作战策略做出符合这个状态的动作u_e。

S3、智能体与上述脚本作战，收集对手的状态和动作数据进行第一阶段训练。本实施例中，该步骤包括以下子步骤：

S33、在Replay D1中随机采样批大小为64的数据(φ(s,e),u_e)进行策略网络的训练，网络的损失函数为：

其中

为期望函数，其中

的下标表示该函数中涉及到的变量参数，下同。U_e是对脚本的动作u_e进行one-hot编码处理后的结果，训练使得损失函数尽量最小化，模型收敛后完成一次训练。

S4、训练后的智能体与电脑内置智能体作战，通过强化学习的方式进行第二阶段训练。

本实施例中，该步骤包括以下子步骤：

S42、智能体和电脑内置智能体进行对战，在该过程中收集自己的状态特征φ(s,a)、动作u_a、从环境中得到的奖励r和下一个状态特征φ(s′,a′)，并将其作为一个元组(φ(s,a),u_a,r,φ(s′,a′))存在Replay D2中，直到一场对战结束；其中r通过定义奖励函数计算，奖励函数为我方和敌方各自血量减少量的差值和致命一击(即导致敌方淘汰的最后一个行为)的奖励之和，具体公式如下：

S43、在Replay D2中随机采样批大小为64的数据(φ(s,a),u_a,r,φ(s′,a’))进行策略网络的训练，网络的损失函数为：

其中

为期望函数，y^DQN是目标值，γ是衰减系数，

为目标网络，u′_a为智能体的下一个动作，s′表示该智能体的下一个状态；

S5、基于上述S1-S4步骤，就建立了一个两阶段的学习框架，然后就可以通过智能体不断参与作战-收集数据-训练-再作战的循环过程，即通过不断使智能体参与作战，然后利用作战过程中收集的数据进行训练，直至神经网络模型收敛，完成智能体的学习过程。由此，得到的智能体在能够以特定的战术参与作战，有较高的胜率，同时减少训练时间。

下面将上述方法应用于具体实施例中，以便本领域技术人员能够更好地理解本发明的效果。

实施例

本实施例在星际争霸微型操作的不同场景下实施，其学习方法的具体实现过程如前所述，不再详细阐述具体的步骤，下面仅针对案例数据展示其效果。本实施例的场景如下：

m5v5场景：该场景训练下我方控制5个士兵，敌方即电脑内置智能体控制5个士兵。

w15v17场景：该场景训练的我方控制15个飞行器，敌方即电脑内置智能体也控制17个飞行器。

w18v20场景：该场景训练的我方控制18个飞行器，敌方即电脑内置智能体也控制20个飞行器。

本实例在每个场景下进行本学习方法的训练，并且在实例中采取的特定作战策略是攻击最弱最近的敌人(当出现两个最弱的敌人时，优先攻击最近的)，通过两个阶段的学习发现两个阶段学到的策略有所不同，结果如图2所示。第一阶段结束每个智能体会攻击各自最弱的敌人，当出现两个最弱的敌人时，则优先攻击最近的敌人。如图2(a)中当敌方2、4号智能体同为最弱时，我方1、2、3号智能体选择最近的敌方2号智能体进行攻击，我方4、5智能体则选择最近的敌方4号智能体进行攻击；第二阶段结束智能体共同攻击对他们而言最弱的敌人。如图2(b)中我方1、2、3、4、5智能体均选择最弱的敌方2号智能体进行攻击。

最后，本发明的学习方法在一些微操场景下的胜率，相比其他一些算法的结果如表1所示，相比其他算法而言，本发明的学习方法具有较高的胜率。

表1不同场景下本发明与其他算法的胜率结果

场景	Ours	DQN	ZO	BiCNet	CommNet	WC
							m5v5	0.96	0.99	1.00	0.92	0.95	0.76
w15v17	0.74	0.16	0.49	0.53	0.47	0.19
							w18v20	0.80	0.31	0.76	-	-	0.22

通过以上技术方案，本发明实施例基于星际争霸的微型操作场景，提供了一种知识指导-战术感知的学习方法。本发明可以在不同场景的双方作战的形式下训练智能体，使其作战有一定的战术，且训练时间较短。

当然，上述方法不仅仅在星际争霸的微型操作平台，在FPS等双方对战游戏中，该方法也能取得很好的结果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于知识指导-战术感知的智能体学习方法，其特征在于包括以下步骤：

S1、对游戏画面和智能体的状态进行编码，构成状态特征；

S2、构建一个具有用于智能体学习的目标作战策略的脚本；

2.如权利要求1所述的一种基于知识指导-战术感知的智能体学习方法，其特征在于步骤S1中，所述的状态特征φ包括位置信息特征和血量信息特征，位置信息特征通过获取游戏画面中我方与敌方的位置信息进行编码；血量信息特征通过获取智能体的血量信息得到，并将其编码在与位置信息相对应的位置上；其中φ(s,a)为我方的状态特征，φ(s,e)为敌方的状态特征。

3.如权利要求1所述的一种基于知识指导-战术感知的智能体学习方法，其特征在于步骤S2中，所述的脚本中包含有期望智能体学习到的作战策略，脚本获取状态特征φ(s,e)后，会根据编写的作战策略做出符合这个状态的动作u_e。

4.如权利要求1所述的一种基于知识指导-战术感知的智能体学习方法，其特征在于所述的步骤S3包括以下子步骤：

S32、智能体和人为编写的具有特定作战策略的脚本进行对战，在对战过程中智能体收集敌方即脚本的状态特征φ(s,e)和脚本的动作u_e，并将其作为一个元组(φ(s,e),u_e)存在Replay D1中，直到一场对战结束；