CN111461325B

CN111461325B - 一种用于稀疏奖励环境问题的多目标分层强化学习算法

Info

Publication number: CN111461325B
Application number: CN202010235637.4A
Authority: CN
Inventors: 邢立波; 丁长兴
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2023-06-20
Anticipated expiration: 2040-03-30
Also published as: CN111461325A

Abstract

本发明公开了一种用于稀疏奖励环境问题的多目标分层强化学习算法，包括步骤：构建分层强化学习算法的网络结构，定义状态空间、动作空间及奖励函数，同时对输入图像进行预处理；其中，网络结构包括上层管理者Manager和底层执行者Worker；设计多个通用子目标的生成器及相应的内部奖励函数设计；将多个子目标的生成器应用于分层框架，并改进分层结构中Manager和Worker的奖励函数；利用异步多线程的方式与环境进行交互来采集数据，并将经验数据存储在Manager经验池和Worker经验池中。本发明针对复杂的稀疏奖励环境，采用多目标的分层强化学习结构，大大提升了算法解决稀疏奖励环境的能力和效率，使算法可以在极短的时间内达到一个很好的效果。

Description

一种用于稀疏奖励环境问题的多目标分层强化学习算法

技术领域

本发明涉及深度强化学习与模式识别技术领域，尤其涉及一种用于稀疏奖励环境问题的多目标分层强化学习算法。

背景技术

随着人工智能的发展，强化学习作为自我学习的机器学习算法受到了广泛的关注。尤其是将强化学习与深度学习相结合的深度强化学习算法，近年来在多个领域取得了巨大的突破。游戏作为强化学习最理想的应用环境，是目前深度强化学习最成功的应用方向。在游戏领域的成功很好地为深度强化学习在实际场景中的应用做了铺垫。因此，研究深度强化学习在游戏领域的应用具有很重要的意义。

传统的深度强化学习算法在稠密奖励的环境中可以很快地学习到环境的信息，并利用环境提供的奖励学习到要完成的任务。但是在稀疏奖励的环境中，智能体(agent)在获得奖励前需要大量的随机动作，这使得agent很难进行有效的探索来对环境信息进行学习，因此传统的深度强化学习算法在这些稀疏奖励的环境中的效果很不理想。而稀疏奖励环境在实际应用场景中是很常见的，因为实际的应用场景往往十分复杂。因此，具有强探索能力的深度强化学习算法具有非常重要的意义与应用价值。

发明内容

本发明的目的在于克服现有强化学习算法在稀疏环境奖励上的不足，提供一种用于稀疏奖励环境问题的多目标分层强化学习算法。

本发明的目的能够通过以下技术方案实现：

一种用于稀疏奖励环境问题的多目标分层强化学习算法，包括步骤：

构建多目标分层强化学习算法的网络结构，确定状态空间、动作空间及定义奖励函数；

设计多个通用子目标的生成器及相应的内部奖励函数；

将多个子目标的生成器应用于分层框架，并改进分层结构中Manager和Worker的奖励函数；

利用异步多线程的方式与环境进行交互来采集数据，并将经验数据存储在Manager经验池和Worker经验池中。

对于Manager的每个子目标生成器，经验池中存储的历史经验为四元组信息(s_t,a_t,R_t～t+c,s_t+c)，s_t为当前状态，a_t为当前时刻子目标生成器输出的子目标，R_t～t+c为接下来的c个时刻代理获得的外部奖励总和，s_t+c为c个时刻后的状态。Worker的经验池中存储的历史经验为四元组信息(s_t,a_t,r_t,s_t+1)，s_t为当前的状态，a_t为执行的动作，r_t为对应动作a_t的奖励，s_t+1为执行动作a_t后的下一个状态。

具体地，所述设计多个通用子目标的生成器及相应的内部奖励函数，包括：

挑选具体的辅助控制任务；

将具体的辅助控制任务设计成子目标的生成器，每个生成器会在每个时刻给Worker提供一个对应的子目标；

为每种子目标设计一个对应的奖励函数。

具体地，所述设计多个通用子目标的生成器及相应的内部奖励函数的步骤中，Manager的每个子目标生成器都是演员评论家结构(actor-critic)，并且各自独立生成子目标。

进一步地，辅助控制任务有助于提升强化学习的算法效率，具体的辅助控制任务包括：像素空间控制、方向控制、深层特征空间控制以及好奇心探索任务。这些辅助控制任务各自代表了一种对环境的控制方式。

更进一步地，所述设计多个通用子目标的生成器及相应的内部奖励函数的步骤中，所述像素空间控制的子目标设计为某一个指定区域内的像素变化，对应的奖励函数表示为：

其中，η_pc表示控制每个时间步长内在奖励幅度的缩放因子，h_k为84*84二进制矩阵，除第k个像素块的值为1，其他位置的值全为0。⊙表示逐个元素相乘。

更进一步地，所述设计多个通用子目标的生成器及相应的内部奖励函数的步骤中，所述深层特征空间控制的子目标设计为改变输入图像的深层特征，深层特征由原始输入图像经过卷积神经网络生成，对应的奖励函数表示为：

其中，η_fc表示深层特征控制的奖励缩放因子，f_k(.)代表卷积神经网络输出的第k个特征图，∑_k'代表所有输出特征图的求和。

更进一步地，所述设计多个通用子目标的生成器及相应的内部奖励函数的步骤中，所述方向控制的子目标设计为下一阶段引导代理前往的方向，总包含东、南、北、西、原地不动这五个方向动作，对应的奖励函数表示为：

r^dc(k)＝1(a_t∈k)*0.01

代理执行的动作符合方向控制子目标生成器指引的方向可以获得奖励。

更进一步地，所述设计多个通用子目标的生成器及相应的内部奖励函数的步骤中，所述的好奇心探索子目标设计为代理每个时间步对环境的探索程度，通过计算动态特征生成器输出的特征向量和图像编码器输出的特征向量的欧式距离作为探索程度的量化，对应的奖励函数表示为：

其中，f是网络学习到的动态模型，φ(x_t+1)是下一个状态的特征，η_cur是好奇心奖励函数的奖励缩放因子。

具体地，所述将多个子目标的生成器应用于分层框架，并改进分层结构中Manager和Worker的奖励函数的步骤中，所述的子目标合并方式为多个子目标的向量化形式的拼接。对Manager中每个生成器输出的子目标进行独热编码，然后将多个子目标的编码拼接起来，再与输入图像的特征拼接在一起作为Worker的输入数据。Worker的奖励函数被设计为内部奖励和外部奖励两部分，具体表现形式为：

r_t ^int＝r_t ^pc+r_t ^fc+r_t ^dc+r_t ^cur

其中，r_t ^int是Worker在每个时刻t获得的内部奖励，对应着Worker的动作与子目标指引的符合程度；α是一个平衡内部奖励与外部奖励的参数；r_t ^ext是Worker在每个时刻t获得的外部奖励；r_t是Worker在每个时刻获得的最终奖励。

具体地，所述利用异步多线程的方式与环境进行交互来采集数据，并将经验数据存储在Manager经验池和Worker经验池中的步骤中，所述的Manager中子目标生成器网络的更新方式遵从策略梯度方法，每个子目标生成器都利用agent与环境的交互经验进行更新，更新公式可以写为：

其中，M_i是Manager中第i个子目标生成器的标识，θ_i是第i个子目标生成器中actor的网络参数，

是第i个子目标在t时刻的优势函数，R_t ^ext是外部的折扣奖励，/>

是第i个子目标生成器在t时刻的状态值函数，θ_i'是第i个子目标生成器中critic的网络参数，/>

是第i个子目标生成器输出子目标的概率分布。

具体地，所述利用异步多线程的方式与环境进行交互来采集数据，并将经验数据存储在Manager经验池和Worker经验池中的步骤中，所述的Worker网络的更新方式遵从策略梯度方法，更新方式可以写为：

其中H是熵函数正则项，β是用来调节正则项的比例参数，θ'是Worker中actor的网络参数，θ_v是Worker中critic的网络参数，π是Worker输出具体的动作的概率分布，V是Worker对于当前状态值的估值函数。

本发明相较于现有技术，具有以下的有益效果：

1、本发明在利用环境信息的同时，将多个图像领域的通用辅助控制任务设计成分层强化学习子目标的形式，提升了算法的泛化能力。

2、本发明通过对奖励函数进行重新设计，将多个子目标同时应用于分层结构中，使得agent被极大地鼓励了探索，从而在稀疏奖励环境上可以更快地发现奖励并完成任务。

附图说明

图1为本发明中一种用于稀疏奖励环境问题的多目标分层强化学习算法的流程图。

图2为本发明中多目标分层强化学习算法的网络结构图。

图3为像素控制和方向控制子目标的可视化图像。

图4为Manager中子目标生成器的结构图。

图5为动作生成器Worker的结构图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1所示为一种用于稀疏奖励环境问题的多目标分层强化学习算法的流程图，所述方法包括步骤：

(1)构建两层分层强化学习算法的网络结构，并定义状态空间、动作空间及奖励函数，同时对输入图像进行预处理；网络包括上层管理者Manager和底层执行者Worker；

所述构造的网络结构如图2所示，包括：

图像编码器，用于将图像输入信息编码为特征向量；

动态特征生成器，用于预测下一时刻的状态特征；

子目标生成器，用于为当前的环境状态提供具体的子目标；

子目标管理器(Manager)，是所有子目标生成器的集合；

动作生成器(Worker)，用于接收子目标以及环境信息以输出具体的动作。

所述Manager中包含有多个子目标生成器，每个子目标生成器在每个时刻为Worker设置对应的子目标，由于Manager中有多个子目标生成器，所以Worker在每个时刻会接收到多个子目标信号。

对于Worker来说，定义状态空间为环境的真实状态，动作空间为环境的动作空间。对于子目标生成器来说，定义状态空间为环境的真实状态，动作空间为子目标集合。

本算法主要针对图像观察类型的输入数据，这也是强化学习算法中最常见的环境数据类型。

准备稀疏奖励环境，在本发明实施例中，选取Atari的Montezuma’s Revenge作为测试环境，Montezuma’s Revenge是Atari游戏中最复杂的游戏之一，agent需要经过很长的一段探索才能获得奖励。本实施例中的输入图像为稀疏奖励环境提供的3通道RGB图像，图像长和宽分别为210和180像素。预处理阶段将输入图像转换为84*84的3通道RGB图像。

(2)设计多个通用子目标的生成器及相应的内部奖励函数设计；其中，通用子目标的生成器的设计步骤包括：

(2-1)挑选具体的辅助控制任务，具体的辅助控制任务包括：像素空间控制、方向控制、深层特征空间控制以及好奇心探索任务；

(2-2)将具体的辅助控制任务设计成子目标的生成器，每个生成器会在每个时刻给Worker提供一个对应的子目标；

(2-3)为每种子目标设计一个对应的奖励函数。

每个子目标生成器均为actor-critic结构，并分为两部分输出，actor输出要执行的子目标，critic输出子目标在当前状态下的动作值函数。本实施例中的输入为n×84×84×3，表示连续的n帧RGB图像。actor-critic结构通过一个具有两部分输出的神经网络实现，具体为：首先使用一个卷积核大小为8×8的卷积层和一个卷积核大小为4×4的卷积层对输入图像进行特征提取，接着使用一个包含有256个cells的动态LSTM网络提取输入数据的时序特征。将时序特征通过两个初始化方式不同的全连接层得到子目标生成器的actor和critic的输出。其中，对于actor的全连接层，选择使用均值为0，标准差为0.01的正态分布进行初始化。对于critic的全连接层，选择使用均值为0，标准差为1的正态分布进行初始化。在每个时刻，actor输出一个关于子目标的概率分布，对应了在当前时刻选择每个子目标被选择的概率，agent选择概率最大的子目标执行，critic输出该子目标的动作值。

所述像素空间控制的子目标设计为某一个指定区域内的像素变化，对应的奖励函数表示为：

其中，η_pc是控制每个时间步长内在奖励幅度的缩放因子，是84*84二进制矩阵，除第k个像素块的值为1，其他位置的值全为0，⊙表示逐个元素相乘。

所述深层特征空间控制的子目标设计为改变输入图像的深层特征，深层特征由原始输入图像经过卷积神经网络生成，对应的奖励函数表示为：

其中，η_fc是深层特征控制的奖励缩放因子，f_k(·)代表Worker中的卷积神经网络层Conv2输出的第k个特征图的均值，∑_k'代表在所有输出特征图上的求和。

所述方向控制的子目标设计为下一阶段引导代理前往的方向，包括东、南、北、西、原地不动这五个方向动作，对应的奖励函数表示为：

r^dc(k)＝1(a_t∈k)*0.01

所述的好奇心探索子目标设计为代理每个时间步对环境的探索程度，通过计算动态特征生成器输出的特征向量和图像编码器输出的特征向量的欧式距离作为探索程度的量化，对应的奖励函数表示为：

其中，f是网络学习到的动态模型，用来预测下一个状态的特征。φ(x_t+1)是下一个状态的实际特征，η_cur是好奇心奖励函数的奖励缩放因子。动态模型f的输入为当前状态的环境信息，本实施例中环境信息为1帧RGB图像，通过一个卷积核大小为8×8的卷积层，再通过一个全连接层输出256维预测特征。φ(x_t+1)是在将动作生成器中卷积层提取的下一个状态的特征通过一个参数不变的额外的全连接层得到的输出，这个全连接层与动态模型f中的全连接层结构相同，参数在算法的整个运行过程中保持不变。如图3所示为像素控制和方向控制子目标的可视化图像，其中，图3中(a)-(h)展示了像素控制子目标和方向控制子目标在agent运行过程中的提供的指导。

(3)将多个子目标的生成器应用于分层框架，并改进分层结构中Manager和Worker的奖励函数；

如图4所示为Manager中子目标生成器的结构图。所述的子目标合并方式为多个子目标的向量化形式的拼接。对Manager中每个生成器输出的子目标进行独热编码，然后将多个子目标的编码拼接起来，再与输入图像的特征拼接在一起作为Worker的输入数据。Worker的奖励函数r_t被设计为内部奖励r^int和外部奖励r^ext两部分，这里所述的外部奖励即智能体与环境交互过程中得到的真实奖励，r^int和r_t的表达式如下：

r_t ^int＝r_t ^pc+r_t ^fc+r_t ^dc+r_t ^cur

如图5所示为动作生成器Worker的结构图。所述的动作生成器Worker采用actor-critic结构。本实施例中的输入为1×84×84×3，表示当前的环境状态。actor-critic结构通过一个具有两部分输出的神经网络实现，设计如下：首先使用一个卷积核大小为8×8的卷积层和一个卷积核大小为4×4的卷积层对输入图像进行特征提取，接着通过一个全连接层并展开成特征向量，然后将特征向量与子目标生成器输出的多个子目标向量拼接作为特征，通过一个包含有256个cells的动态LSTM网络进一步提取特征。将特征通过两个初始化方式不同的全连接层得到子目标的actor和critic的输出，这里的LSTM采用与子目标生成器中的LSTM相同的结构。actor的输出为动作生成器选择的当前状态要执行的动作，critic的输出为该动作的动作值。

(4)利用异步多线程的方式与环境进行交互来采集数据，并将经验数据存储在Manager经验池和Worker经验池中。

对于Manager的每个子目标生成器，经验池中存储的历史经验为四元组信息(s_t,a_t,R_t～t+c,s_t+c)，s_t为当前状态，a_t为当前时刻子目标生成器输出的子目标，R_t～t+c为接下来的c个时刻代理获得的外部奖励总和，s_t+c为c个时刻后的状态。Worker的经验池中存储的历史经验为四元组信息(s_t,a_t,r_t,s_t+1),s_t为当前的状态，a_t为执行的动作，r_t为对应动作a_t的奖励，s_t+1为执行动作a_t后的下一个状态。

所述的Manager中子目标生成器网络的更新方式遵从策略梯度方法，每个子目标生成器都利用agent与环境的交互经验进行更新，具体的更新公式可以写为：

是第i个子目标生成器输出子目标的概率分布。

所述的Worker网络的更新方式遵从策略梯度方法，具体更新方式可以写为：

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种用于稀疏奖励环境问题的多目标分层强化学习算法，其特征在于，包括步骤：

构建分层强化学习算法的网络结构，定义状态空间、动作空间及奖励函数，对输入图像进行预处理；其中，网络结构包括上层管理者Manager和底层执行者Worker；

设计多个通用子目标的生成器及相应的内部奖励函数设计；

利用异步多线程的方式与环境进行交互来采集数据，并将经验数据存储在Manager经验池和Worker经验池中；

对Manager中每个生成器输出的子目标进行独热编码，然后将多个子目标的编码拼接起来，再与输入图像的特征拼接在一起作为Worker的输入数据；Worker的奖励函数被设计为内部奖励和外部奖励两部分，分别表示为：

r_t ^int＝r_t ^pc+r_t ^fc+r_t ^dc+r_t ^cur

其中，r_t ^int是Worker在每个时刻t获得的内部奖励，对应着Worker的动作与子目标指引的符合程度；α是一个平衡内部奖励与外部奖励的参数；r_t ^ext是Worker在每个时刻t获得的外部奖励；r_t是Worker在每个时刻获得的最终奖励；

所述的动作生成器Worker采用actor-critic结构；算法的输入为当前的环境状态；actor-critic结构通过一个具有两部分输出的神经网络实现，具体为：首先使用一个卷积核大小为8×8的卷积层和一个卷积核大小为4×4的卷积层对输入图像进行特征提取，接着通过一个全连接层并展开成特征向量，然后将特征向量与子目标生成器输出的多个子目标向量拼接作为特征，通过一个包含有256个cells的动态LSTM网络进一步提取特征；将特征通过两个初始化方式不同的全连接层得到子目标的actor和critic的输出；actor的输出为动作生成器选择的当前状态要执行的动作，critic的输出为该动作的动作值；

是第i个子目标生成器输出子目标的概率分布；

2.根据权利要求1所述的方法，其特征在于，构造的网络结构包括：

图像编码器，用于将图像输入信息编码为特征向量；

动态特征生成器，用于预测下一时刻的状态特征；

子目标生成器，用于为当前的环境状态提供具体的子目标；

子目标管理器，是所有子目标生成器的集合；

动作生成器，用于接收子目标以及环境信息以输出具体的动作。

3.根据权利要求1所述的方法，其特征在于，其中，通用子目标的生成器的设计步骤包括：

挑选具体的辅助控制任务，具体的辅助控制任务包括：像素空间控制、方向控制、深层特征空间控制以及好奇心探索任务；

为每种子目标设计一个对应的奖励函数。

4.根据权利要求2所述的方法，其特征在于，每个子目标生成器为actor-critic结构，分为两部分输出，actor输出要执行的子目标，critic输出子目标在当前状态下的动作值函数；actor-critic结构通过一个具有两部分输出的神经网络实现，具体为：首先使用一个卷积核大小为8×8的卷积层和一个卷积核大小为4×4的卷积层对输入图像进行特征提取，接着使用一个包含有256个cells的动态LSTM网络提取输入数据的时序特征；将时序特征通过两个初始化方式不同的全连接层得到子目标的actor和critic的输出。

5.根据权利要求3所述的方法，其特征在于，所述像素空间控制的子目标设计为某一个指定区域内的像素变化，对应的奖励函数表示为：

其中，η_pc是控制每个时间步长内在奖励幅度的缩放因子，h_k是84*84二进制矩阵，除第k个像素块的值为1，其他位置的值全为0；e表示逐个元素相乘。

6.根据权利要求3所述的方法，其特征在于，所述深层特征空间控制的子目标设计为改变输入图像的深层特征，深层特征由原始输入图像经过卷积神经网络生成，对应的奖励函数表示为：

其中，η_fc是深层特征控制的奖励缩放因子，f_k(·)代表卷积神经网络输出的第k个特征图，∑_k'代表所有输出特征图的求和。

7.根据权利要求3所述的方法，其特征在于，所述方向控制的子目标设计为下一阶段引导代理前往的方向，包括东、南、北、西、原地不动这五个方向动作，对应的奖励函数表示为：

r^dc(k)＝1(a_t∈k)*0.01

8.根据权利要求3所述的方法，其特征在于，所述的好奇心探索子目标设计为代理每个时间步对环境的探索程度，通过计算动态特征生成器输出的特征向量和图像编码器输出的特征向量的欧式距离作为探索程度的量化，对应的奖励函数表示为：

其中，f是网络学习到的动态模型，φ(x_t+1)是下一个状态的特征，η_cur是好奇心奖励函数的奖励缩放因子；动态模型f的输入为当前状态的环境信息，环境信息为1帧RGB图像，通过一个卷积核大小为8×8的卷积层，然后通过一个全连接层输出256维预测特征；φ(x_t+1)是在将动作生成器中卷积层提取的下一个状态的特征通过一个参数不变的全连接层得到的输出。