CN111582311A

CN111582311A - 基于强化学习利用动态奖励示例样本训练智能体的方法

Info

Publication number: CN111582311A
Application number: CN202010272332.0A
Authority: CN
Inventors: 段智宏; 陈百基
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-04-09
Filing date: 2020-04-09
Publication date: 2020-08-25
Anticipated expiration: 2040-04-09
Also published as: CN111582311B

Abstract

本发明公开了一种基于强化学习利用动态奖励示例样本训练智能体的方法，包括步骤：1)从智能体中获取示例样本；2)用获取的示例样本初始化经验池，初始化训练网络，设定相关超参数值；3)用强化学习训练智能体，把训练过程中产生的样本也存入经验池；4)利用基于动态奖励的优先级抽样机制从经验池中抽取小批量样本；5)计算抽取样本的平均损失值，利用优化函数减小损失值来更新网络参数，若损失值减少到设定阈值，则深度强化学习停止，智能体训练完成，否则继续训练。本发明引入了动态奖励和优先级挑选机制，让智能体能够在很小数量的示例样本下自动挑选对学习有利的示例样本，从而提高了训练数据的利用率，极大的减少了训练智能体所需要的时间。

Description

基于强化学习利用动态奖励示例样本训练智能体的方法

技术领域

本发明涉及机器学习、深度学习和强化学习的技术领域，尤其是指一种基于强化学习利用动态奖励示例样本训练智能体的方法。

背景技术

近年来随着计算机硬件水平的提升和大数据时代的到来，一大批需要强大计算力和海量数据的人工智能算法应运而生。而其中具有里程碑意义的事件则是由DeepMind团队开发的AlphaGo于2016年3月以4:1击败顶尖职业棋手李世石，成为第一个不借助让子而击败围棋职业九段棋手的计算机围棋程序。深度强化学习由此成为了通向通用人工智能最有可能的道路。但AlphaGo需要计算机集群上训练了数个月才能达到如此水平，其对硬件的高要求和过长的训练时间让深度强化学习的应用受到了极大的限制。提高数据的利用率，减少训练所需要的成本，成为了深度强化学习领域的重要课题。

为了减少训练的时间，利用人类的经验或者已经训练好的其他的智能体(agent)的经验来帮助训练新的智能体是目前的一种解决思路。人类或其他智能体的经验被称为示例样本(demonstration)，其中目前利用示例样本可以大概分为两种方式：1、预训练(pre-training)：利用事先收集好的示例样本去训练一个智能体，然后在此的基础上再去训练该智能体完成我们需要的任务。2、奖励塑造(reward shaping)：在训练的初期，智能体还没有学习到良好的策略经常表现很差时，奖励塑造的方法利用已经收集的示例样本作为参考，让智能体有更大的几率选择与最相似的示例样本的动作。其做法是让示例样本示例的动作有更大的奖励，以激励智能体选择该动作。

预训练的方法相当于给智能体提供了一个相对于随机初始化更好的起点，其对收集的示例样本的质量要求很高，数量上要求也很多，在很多情况下该条件并不能满足。而奖励塑造的方法对于如何选择与智能体最相似的示例样本没有很好的答案，其计算样本的相似度也需要引入额外的计算量。总而言之，现有的利用示例样本来帮助加快深度强化学习的方法，其要么存在条件苛刻难以满足的缺点，或者是需要引入额外的计算量，导致算法的时间开销并没有实质减少。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种基于强化学习利用动态奖励示例样本训练智能体的方法，引入了动态奖励和优先级挑选机制，在仅增加少量的额外计算的情况下降低了现有技术中对示例样本高质量和大数量的条件要求，让智能体能够在很小数量的示例样本下自动挑选对学习有利的示例样本，从而提高了训练数据的利用率，极大的减少了训练智能体所需要的时间。

为实现上述目的，本发明所提供的技术方案为：基于强化学习利用动态奖励示例样本训练智能体的方法，包括以下步骤：

1)从智能体中获取示例样本；其中，所述智能体指的是用深度强化学习实现的具有智能的程序，所述示例样本是一组示范在给定环境下该如何动作的四元组；

2)利用在步骤1)中获取的示例样本初始化经验池，初始化计算机神经网络，设定相关超参数值；其中，所述经验池是计算机内存中一段能够存储示例样本的空间，所述超参数是指在训练神经网络时人为设定的一组参数；

3)开始训练智能体，即用深度强化学习训练计算机神经网络，并且把训练智能体时产生的样本也存入经验池，与示例样本混合；

4)利用基于动态奖励的优先级抽样机制从经验池中抽取小批量样本；其中，所述动态奖励的优先级抽样机制是一种用实时变化的奖励去控制样本优先级的机制；

5)利用抽样出来的小批量样本计算神经网络的损失值，通过优化器函数减小损失值来更新网络参数；若损失值减少到设定阈值，则深度强化学习停止，智能体训练完成，否则跳到步骤3)继续训练。

在步骤1)中，设示例样本的四元组表示为(s,a,r,s')，其中，s代表智能体所处的当前环境的状态，a代表智能体执行的动作，r代表执行该动作后环境所给的反馈，s'代表在状态s下经过动作a所到达的下一个状态。

在步骤2)中，需设定经验池的大小N和示例样本集合的大小n，N＞n，随机初始化计算机神经网络的参数，并且将示例样本存入经验池。

在步骤3)中，进行智能体训练是用深度Q网络算法来训练更新计算机神经网络，所述深度Q网络算法是一种深度强化学习算法，其结合了深度神经网络和Q网络算法，能够用来训练具有智能的程序。

在步骤4)中，所述基于动态奖励的优先级抽样机制是一种基于样本重要性的抽样机制，样本被抽样的概率为此样本的优先级跟所有样本的优先级的总和的比值决定；所述抽取小批量样本是指按照样本的抽样概率抽取小批量数量的样本，其中小批量为一个事先定义好的常数；设样本的优先级为P，则样本被抽样的概率为

ρ为样本抽样概率，N代表经验池的大小，i为标识符，表示第i个样本，P_i表示第i个样本的优先级；其中样本优先级P＝TD_error+σ，TD_error为深度Q网络对样本计算的时间差异损失值，能够通过减小该损失值来优化计算机神经网络，该值越大代表该样本越重要；σ为一个附加的奖励，用来进一步控制样本的优先级；其中，σ的计算具体如下：

a、对于示例样本，如果智能体执行的动作a和示例样本的动作一致，则

t代表时间步，σ_t代表样本原有的附加奖励，σ_(t+1)代表更新后的附加奖励，n代表示例样本集合的大小，N代表经验池的大小；如果智能体执行的动作和示例样本不一致，则

其中

β_t和

为中间变量，σ_t和σ_(t+1)分别为原有的附加奖励和更新后的附加奖励，t代表时间步，i为计数变量；

b、对于非示例样本，σ始终为一个固定的值。

在步骤5)中，计算小批量样本的损失值，利用优化器函数减小损失值来更新网络参数，包括以下步骤：

5.1)通过深度Q网络算法计算每一个样本的TD_error，TD_error是深度Q网络算法根据样本计算出来的时间差异损失值，能够用该损失值来更新计算机神经网络；

5.2)计算所有样本TD_error的总和，求得平均值，作为该小批量样本的损失值；

5.3)利用优化器函数对损失值进行优化，以更新网络参数；其中优化器是一个根据样本损失值来优化计算机神经网络的函数。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明降低了现有技术中对示例样本高质量、多数量的要求。

2、本发明首次给示例样本引入动态奖励更新机制，让智能体能够更有效的选出对训练更有利的示例样本。

3、本发明提高了对训练数据的使用效率，能够让深度强化学习在更少的数据下训练出同等效果的智能体。

4、本发明极大提高了智能体前中期的表现，让智能体在很短的时间内达到不错的效果。

5、本发明引入的额外计算量极少，不需要很高的算力支持。

附图说明

图1为本发明方法的逻辑流程示意图。

图2为智能体所处环境的示意图。图中智能体所处环境为一个4*4的二维迷宫，其中黑色方块代表的是墙壁，白色方块代表的是道路；最左下角为迷宫入口，最右上角为迷宫出口。

图3为智能体所处环境的计算机表示示意图。图中二维迷宫用一个二维数组表示，左侧为二维数组的索引表示，右侧为二维数组的值表示。值为0代表是道路，值为1代表是墙壁。

图4为所收集的示例样本的智能体行动路线图。图中智能体从入口进入迷宫，以最短路径找到迷宫出口，一共经历了七步。

图5为智能体正在训练过程中的行动示意图。图中智能体已经与环境交互了一段时间，目前正在选择新的动作。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

如图1至图5所示，本实施例提供的基于强化学习利用动态奖励示例样本训练智能体的方法，训练了一个具有一定智能的能够自行走出迷宫的智能体，其中训练智能体需要使用具有高性能图形加速器的计算机进行编程实现，其包括以下步骤：

1)从智能体(agent)的演示中获取示例样本；其中，所述的智能体是指用深度强化学习算法实现的能解决一定问题的程序，所述的演示和示例样本是一个示范在给定环境下该如何动作的四元组，(s,a,r,s')；其中s代表智能体所处的当前环境的状态(state)，即智能体在迷宫中所处的位置，如图2所示；该环境为一个4*4的二维迷宫，其中黑色方块代表墙壁，白色方块代表道路；图3为该环境在计算机中的表示方式，二维迷宫用一个二维数组表示，其中图3左侧为二维数组的索引表示，右侧为二维数组的值表示。值为0代表是道路，值为1代表是墙壁。a代表智能体执行的动作(action)，在迷宫中智能体可以选择上、下、左、右四种动作；r代表执行该动作后从环境得到的反馈(reward),当智能体找到迷宫出口，获得奖励1，否则获得奖励0；s'代表在状态s下经过动作a所到达的下一个状态。其中所收集的示例样本的智能体行动路线如图4所示，智能体从入口进入迷宫，以最短路径找到迷宫出口，一共经历了7步。

获取的示例样本数据如表1所示：

表1获取示例样本数据

状态s	动作a	奖励r	下一个状态s'
				(0，0)	上	0	(0，1)
(0，1)	右	0	(1，1)
				(1，1)	右	0	(2，1)
(2，1)	右	0	(3，1)
				(3，1)	上	0	(3，2)
(3，2)	上	0	(3，3)
				(3，3)	/	1	/

2)利用在步骤1)中获取的示例样本初始化经验池，并且初始化训练网络，设定相关超参数值，所述经验池(Experience replay memory)是指计算机内存中一段能够存储示例样本的空间，所述训练网络是指计算机神经网络，所述的超参数是指在训练神经网络时人为设定的一组参数；其中，还包括以下步骤：

2.1)设定经验池的大小N(远大于示例样本集合的大小)，设定示例样本集合的大小n，在此将N设为100，将n设为7，并且随机初始化训练网络的参数；

2.2)将示例样本存入经验池。

3)开始训练智能体，并且把训练中智能体产生的样本也存入经验池，与示例样本混合，所述训练智能体是指用深度Q网络算法(Deep Q-learning Network,DQN)来更新训练网络。深度Q网络算法是一种深度强化学习算法，可以用来训练具有智能的程序。图5为训练智能体时智能体与环境的交互情况。

智能体产生的样本和示例样本混合后的数据如表2所示：

表2获取示例样本数据

状态s	动作a	奖励r	下一个状态s'
				(0，0)	上	0	(0，1)
(0，1)	右	0	(1，1)
				(1，1)	右	0	(2，1)
(2，1)	右	0	(3，1)
				(3，1)	上	0	(3，2)
(3，2)	上	0	(3，3)
				(3，3)	/	1	/
(0，0)	左	0	(0，0)
				(0，0)	上	0	(0，1)
(0，1)	上	0	(0，1)
				(0，1)	右	0	(1，1)
(1，1)	上	0	(1，2)
				(1，2)	上	0	(1，3)
(1，3)	右	0	(1，3)
				(1，3)	左	0	(0，3)

4)利用基于动态奖励的优先级抽样机制从混合了示例样本和智能体产生样本的经验池中抽取小批量样本，混合经验池部分数据如表3所示。所述的基于动态奖励的优先级抽样机制是一种基于样本的重要性的抽样机制，样本被抽样的概率为此样本的优先级跟所有样本的优先级的总和的比值决定；所述抽取小批量(mini-batch)样本，是指按照样本的抽样概率抽取小批量数量的样本，其中小批量为一个事先定义好的常数，在此设为8，假设所抽样出来的小批量样本编号为[0，2，5，6，8，10，11，14]，如表4所示；样本的优先级为P(priority)，则样本被抽样的概率为

N代表经验池的大小，在此设为100，i为标识符，表示第i个样本，P_i表示第i个样本的优先级；其中P＝TD_error+σ，TD_error为深度Q网络对样本计算的时间差异损失(temporal difference error)，σ为一个附加的奖励，用来进一步控制样本的优先级，在此将示例样本的初始值奖励值设为1，将智能体产生的样本的初始奖励值设为0.1，则根据公式

对于示例样本的初始抽样概率

对于智能体产生的样本的初始抽样概率

如表4所示；其中，对于σ的后续更新具体如下：

其中

β_t和

为中间变量，σ_t和σ_(t+1)分别为原有的附加奖励和更新后的附加奖励，t代表时间步，i为计数变量；则对于表4中的示例样本，其更新后的优先级及其抽样概率如表5所示；其中示例样本0号、2号所处的状态(0，0)(1，1)已经被智能体学习过，假设智能体能够执行和示例样本一样的动作，则根据公式

σ_t为初始值1，n＝8，N＝100，得到0号2号示例样本的更新奖励σ_(t+1)＝0.96，小于原有附加奖励值1；对于5、6号样本智能体还没有被训练过，假设智能体预测动作和示例动作不一致，则根据公式

可以计算得出5、6号样本更新后的奖励为1.17，大于原有附加奖励值1；从更新结果可以看出，对于已经被训练过的示例样本0、1号，智能体能够正确的模仿示例样本的动作后，该方法会给与此类样本比之前更低的奖励，以减少其被继续抽样的概率；对于还没有被训练过的或者不能正确执行相同动作的5、6示例样本，该方法会给与其更高的奖励，以此增大其被抽样的概率。该方法能够激励智能体更有效的学习到此类示例样本；

b、对于智能体自己产生的样本，σ始终为一个固定的值，在此设为0.1；对于表4中的智能体自产生样本和示例样本，假设深度Q网络对样本计算的时间差异损失都为1，则根据抽样概率计算公式

P＝TD_error+σ可得到小批量样本更新后的抽样概率，其更新后的优先级及其抽样概率如表5所示。

混合经验池中的部分数据如表3所示：

表3混合经验池部分数据

从混合经验池中抽样出来的小批量样本如表4所示：

表4混合经验池中抽样出来的小批量样本

编号	状态s	动作a	奖励r	下一个状态s'	附加奖励σ	抽样概率ρ
							0	(0，0)	上	0	(0，1)	1	0.017
2	(1，1)	右	0	(2，1)	1	0.017
							5	(3，2)	上	0	(3，3)	1	0.017
6	(3，3)	/	1	/	1	0.017
							8	(0，0)	上	0	(0，1)	0.1	0.009
10	(0，1)	右	0	(1，1)	0.1	0.009
							11	(1，1)	上	0	(1，2)	0.1	0.009
14	(1，3)	左	0	(0，3)	0.1	0.009

利用基于动态奖励的优先级抽样机制更新后的小批量样本如表5所示：

表5利用基于动态奖励的优先级抽样机制更新后的小批量样本

编号	状态s	动作a	奖励r	下一个状态s'	附加奖励σ	抽样概率ρ
							0	(0，0)	上	0	(0，1)	0.96	0.016
2	(1，1)	右	0	(2，1)	0.96	0.016
							5	(3，2)	上	0	(3，3)	1.17	0.018
6	(3，3)	/	1	/	1.17	0.018
							8	(0，0)	上	0	(0，1)	0.1	0.009
10	(0，1)	右	0	(1，1)	0.1	0.009
							11	(1，1)	上	0	(1，2)	0.1	0.009
14	(1，3)	左	0	(0，3)	0.1	0.009

5)计算小批量样本的损失值，利用该损失值更新网络参数，包括以下步骤：

5.1)通过深度Q网络计算每一个样本的TD_error，在此方便计算，假设深度Q网络对每一个样本的TD_error值都输出为1；

5.3)利用优化器函数对损失值进行优化，以更新网络参数。其中优化器函数是一个能够通过使损失值最小化来优化整个计算机神经网络的函数。若损失值减少到设定阈值，则深度强化学习停止，智能体训练完成，否则跳到步骤3)继续训练。

综上所述，在采用以上方案后，本发明为机器学习的深度强化学习领域提供了一种更高效率利用示例样本的方法，其降低了现有方法中对示例样本的高质量和多数量的要求，极大的提高了智能体在训练前期的表现，让深度强化学习所训练的智能体能够在短时间能达到不错的表现，具有实际推广价值，值得推广。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.基于强化学习利用动态奖励示例样本训练智能体的方法，其特征在于，包括以下步骤：

5)利用抽样出来的小批量样本计算神经网络的损失值，通过优化器函数减小损失值来更新网络参数，若损失值减少到设定阈值，则深度强化学习停止，智能体训练完成，否则跳到步骤3)继续训练。

2.根据权利要求1所述的基于强化学习利用动态奖励示例样本训练智能体的方法，其特征在于：在步骤1)中，设示例样本的四元组表示为(s,a,r,s')，其中，s代表智能体所处的当前环境的状态，a代表智能体执行的动作，r代表执行该动作后环境所给的反馈，s'代表在状态s下经过动作a所到达的下一个状态。

3.根据权利要求1所述的基于强化学习利用动态奖励示例样本训练智能体的方法，其特征在于：在步骤2)中，需设定经验池的大小N和示例样本集合的大小n，N＞n，随机初始化计算机神经网络的参数，将示例样本存入经验池。

4.根据权利要求1所述的基于强化学习利用动态奖励示例样本训练智能体的方法，其特征在于：在步骤3)中，进行智能体训练是用深度Q网络算法来训练更新计算机神经网络，所述深度Q网络算法是一种深度强化学习算法，其结合了深度神经网络和Q网络算法，能够用来训练具有智能的程序。

5.根据权利要求1所述的基于强化学习利用动态奖励示例样本训练智能体的方法，其特征在于：在步骤4)中，所述基于动态奖励的优先抽样机制是一种基于样本重要性的抽样机制，样本被抽样的概率为此样本的优先级跟所有样本的优先级的总和的比值决定；所述抽取小批量样本是指按照样本的抽样概率抽取小批量数量的样本，其中小批量为一个事先定义好的常数；设样本的优先级为P，则样本被抽样的概率为

ρ为样本抽样概率，N代表经验池的大小，i为标识符，表示第i个样本，P_i表示第i个样本的优先级；其中样本优先级P＝TD_error+σ，TD_error为深度Q网络对样本计算的时间差异损失值，能够通过减小该损失值来优化计算机神经网络，该值越大代表该样本越重要，σ为一个附加的奖励，用来进一步控制样本的优先级；其中，σ的计算具体如下：

其中

β_t和

b、对于非示例样本，σ始终为一个固定的值。

6.根据权利要求1所述的基于强化学习利用动态奖励示例样本训练智能体的方法，其特征在于：在步骤5)中，计算小批量样本的损失值，利用优化器函数减小损失值来更新网络参数，包括以下步骤：