CN112052947B

CN112052947B - 基于策略选项的分层强化学习方法和装置

Info

Publication number: CN112052947B
Application number: CN202010824196.1A
Authority: CN
Inventors: 杨君; 梁斌; 岑哲鹏; 李承昊; 陈章
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-08-17
Filing date: 2020-08-17
Publication date: 2021-06-25
Anticipated expiration: 2040-08-17
Also published as: CN112052947A

Abstract

本发明公开了一种基于策略选项的分层强化学习方法和装置，所述方法包括：构建高层策略网络、低层策略网络和评价网络；从仿真环境，获取状态轨迹；基于状态轨迹和策略在线算法的学习过程，对高层策略网络、低层策略网络和评价网络的参数进行更新；根据更新参数后的高层策略网络、低层策略网络和评价网络，生成更新后的策略模型，并对更新后的策略模型进行测试。本发明实施例的基于策略选项的分层强化学习方法，能够在仿真环境中从零开始学习动作和高层策略，且性能稳定、数据使用效率高。

Description

基于策略选项的分层强化学习方法和装置

技术领域

本发明涉及机器学习技术领域，特别涉及一种基于策略选项的分层强化学习方法和一种基于策略选项的分层强化学习装置。

背景技术

近年来，深度学习在模式识别、计算机视觉、自然语言处理等领域取得了巨大突破。将深度学习的感知能力和强化学习的决策能力相结合产生了深度强化学习，可以直接根据输入的图像进行控制，是一种思维方式的人工智能方法。例如，深度强化学习已经在围棋、部分电子竞技游戏等具体场景中取得了超越人类的表现，并逐渐被应用至非线性系统控制、对抗性人工智能设计等领域。在传统强化学习中，由于智能体的行为过程被表述为一个马尔可夫决策过程，强化学习算法仅仅学习针对单个状态的策略而难以学习更高层次的宏观策略。近几年的研究提出了分层强化学习，旨在将一项复杂的任务分解得到不同层次的子任务，使智能体学习从宏观到微观不同层次的策略。

基于策略选项的分层强化学习是分层强化学习的一个分支，已有的基于策略选项的学习算法虽然能够使智能体学习到相对复杂的高层策略，但也存在性能不稳定、数据使用效率低等问题。

发明内容

本发明旨在至少从一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种基于策略选项的分层强化学习方法，该方法能在仿真环境中从零开始学习动作和高层策略，且性能稳定、数据使用效率高。

本发明的第二个目的在于提出一种基于策略选项的分层强化学习装置。

本发明的第三个目的在于提出一种电子设备。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

为达到上述目的，本发明第一方面提出了一种基于策略选项的分层强化学习方法，包括以下步骤：

构建高层策略网络、低层策略网络和评价网络；

从仿真环境，获取状态轨迹；

基于所述状态轨迹和策略在线算法的学习过程，对高层策略网络、低层策略网络和评价网络的参数进行更新；

根据更新参数后的高层策略网络、低层策略网络和评价网络，生成更新后的策略模型，并对所述更新后的策略模型进行测试。

根据本发明实施例的基于策略选项的分层强化学习方法，先构建高层策略网络

低层策略网络

和评价网络V，并从仿真环境，获取状态轨迹，然后，基于状态轨迹和策略在线算法的学习过程，对高层策略网络

低层策略网络

和评价网络V的参数进行更新，最后，根据更新后的高层策略网络

低层策略网绉

和评价网络V生成更新后的策略模型，并对更新后的策略模型进行测试。由此，该方法能够在仿真环境中从零开始学习动作和高层策略，且性能稳定、数据使用效率高。

另外，根据本发明上述实施例的基于策略选项的分层强化学习方法还可以具有以下附加的技术特征：

在本发明的一个实施例中，所述基于所述状态轨迹和策略在线算法的学习过程，对高层策略网络、低层策略网络和评价网络的参数进行更新，包括：

初始化所述仿真环境、高层策略网络

低层策略网络

和评价网络V，并初始化当前状态s_t和当前策略选项o_t；

在所述当前状态s_t，根据所述高层策略网络

和上一个策略选项o_t-1，选择所述当前策略选项o_t，再根据所述低层策略网络

和所述当前策略选项o_t，选择当前动作a_t，由所述仿真环境输出下一个状态s_t+1和当前时刻的奖励值r_t，根据所述当前状态s_t、所述当前策略选项o_t、所述当前动作a_t、所述当前时刻的奖励值r_t和所述下一个状态s_t+1，组成五元组(s_t，o_t，a_t，r_t，s_t+1)，并将所述五元组存储至数据存储器；

在所述当前状态s_t到达终止状态，或数据存储器内五元组数量达到预设阈值后，每个时间步取出部分数据，对所述高层策略网络

低层策略网络

和评价网络V的参数进行更新。

在本发明的一个实施例中，所述对所述高层策略网络和低层策略网络的参数进行更新，包括：

由评价网络计算低层状态值函数

并计算高层状态值函数

其中，

表示状态为s′且策略选项为o的高层状态值函数，

表示下一时刻高层策略网络选中策略选项o′的概率，

表示状态为s′且策略选项为o′的低层状态值函数；

计算高层时序差分误差

与低层时序差分误差

其中，γ表示预设的折扣因子；

计算高层优势函数

和低层优势函数

其中，λ表示预设的泛化估计系数；

基于所述的高层优势函数

和低层优势函数

构建目标函数，并采用梯度下降法对高层策略网绉

的参数和低层策略网绉

的参数进行更新。

在本发明的一个实施例中，所述对所述评价网络的参数进行更新，包括：

计算累计回报：

其中，T表示所述数据存储器内存储的轨迹中最后一个五元组对应的时刻，

表示最后一个五元组的后续状态的低层状态值函数；

利用累计回报G_t与低层状态值函数

之间的均方误差和梯度下降法对评价网络V的参数进行更新；

重新计算低层状态值函数

并更新所述累计回报G_t。

为达到上述目的，本发明第二方面提出了一种基于策略选项的分层强化学习装置，所述装置包括：

构建模块，用于构建高层策略网络、低层策略网络和评价网络；

获取模块，用于从仿真环境，获取状态轨迹；

更新模块，用于基于所述状态轨迹和策略在线算法的学习过程，对高层策略网络、低层策略网络和评价网络的参数进行更新；

生成模块，用于根据更新参数后的高层策略网络、低层策略网络和评价网络生成更新后的策略模型，并对所述更新后的策略模型进行测试。

根据本发明实施例的基于策略选项的分层强化学习装置，通过构建模块构建高层策略网络

低层策略网络

和评价网络V，并通过获取模块从仿真环境，获取状态轨迹，然后，通过更新模块基于状态轨迹和策略在线算法的学习过程，对高层策略网络

低层策略网络

和评价网络V的参数进行更新，最后，通过生成模块根据更新后的高层策略网络

低层策略网络

和评价网络V生成更新后的策略模型，并对更新后的策略模型进行测试。由此，该装置能够在仿真环境中从零开始学习动作和高层策略，且性能稳定、数据使用效率高。

另外，根据本发明上述实施例的基于策略选项的分层强化学习装置还可以具有以下附加的技术特征：

在本发明的一个实施例中，所述更新模块用于基于所述状态轨迹和策略在线算法的学习过程，对高层策略网络、低层策略网络和评价网络的参数进行更新，包括：

初始化所述仿真环境、高层策略网络

低层策略网络

和评价网络V，并初始化当前状态s_t和当前策略选项o_t；

在所述当前状态s_t，根据所述高层策略网络

在所述当前状态s_t到达终止状态，或数据存储器内五元组数量达到预设阈值后，每个时间步取出部分数据，对所述高层策略网绉

低层策略网络

和评价网络V的参数进行更新。

由评价网络计算低层状态值函数

并计算高层状态值函数

其中，

表示状态为s′且策略选项为o的高层状态值函数，

表示下一时刻高层策略网络选中策略选项o′的概率，

表示状态为s′且策略选项为o′的低层状态值；

计算高层时序差分误差

与低层时序差分误差

其中，γ表示预设的折扣因子；

计算高层优势函数

和低层优势函数

其中，λ表示预设的泛化估计系数；

基于所述的高层优势函数

和低层优势函数

构建目标函数，并采用梯度下降法对高层策略网络

的参数和低层策略网绉

的参数进行更新。

计算累计回报：

表示最后一个五元组的后续状态的低层状态值函数；

利用累计回报G_t与低层状态值函数

之间的均方误差和梯度下降法对评价网络的参数进行更新；

重新计算低层状态值函数

并更新所述累计回报G_t。

为达到上述目的，本发明第三方面提出了一种电子设备，其包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现上述的基于策略选项的分层强化学习方法。

本发明实施例的电子设备，能够在仿真环境中从零开始学习动作和高层策略，且性能稳定、数据使用效率高。

为达到上述目的，本发明第四方面提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的基于策略选项的分层强化学习方法。

本发明实施例的非临时性计算机可读存储介质，能够在仿真环境中从零开始学习动作和高层策略，且性能稳定、数据使用效率高。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明实施例的基于策略选项的分层强化学习方法的流程图；

图2是根据本发明一个具体实施例的基于策略选项的分层强化学习方法的流程图；

图3是根据本发明一个实施例的仿真环境的具体场景图；

图4是根据本发明一个实施例的不同算法训练过程中的总奖励绘制成的曲线图；以及

图5是根据本发明实施例的基于策略选项的分层强化学习装置的方框示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于策略选项的分层强化学习方法和装置。

图1是根据本发明实施例的基于策略选项的分层强化学习方法的流程图。如图1所示，本发明实施例的基于策略选项的分层强化学习方法，包括以下步骤：

步骤S1，构建高层策略网络、低层策略网络和评价网络。

具体地，构建参数为θ₁的高层策略网络

参数为θ₂的低层策略网绉

参数为φ的评价网络V。

步骤S2，从仿真环境，获取状态轨迹。

步骤S3，基于状态轨迹和策略在线算法的学习过程，对高层策略网络、低层策略网络和评价网络的参数进行更新。

具体地，基于状态轨迹和策略在线算法的学习过程，对高层策略网络

和低层策略网络

的参数进行更新的过程，包括：

步骤S31，初始化仿真环境、高层策略网络

低层策略网络

和评价网络V，并初始化当前状态s_t和当前策略选项o_t。

步骤S32，在当前状态s_t，根据高层策略网络

和上一个策略选项o_t-1，选择当前策略选项o_t，再根据低层策略网络

和当前策略选项o_t，选择当前动作a_t，由仿真环境输出下一个状态s_t+1和当前时刻的奖励值r_t，根据当前状态s_t、当前策略选项o_t、当前动作a_t、当前时刻的奖励值r_t和下一个状态s_t+1，组成五元组(s_t，o_t，a_t，r_t，s_t+1)，并将该五元组存储至数据存储器D。

S33，在当前状态s_t到达终止状态，或数据存储器D内五元组数量达到预设阈值后，每个时间步取出部分数据，对高层策略网络

低层策略网络

和评价网络V的参数进行更新。

下面先介绍对高层策略网络

和低层策略网络

的参数进行更新的具体过程，包括：

步骤S331，由评价网络计算低层状态值函数

并计算高层状态值函数

其中，

表示状态为s′且策略选项为o的高层状态值函数，

表示下一时刻高层策略网络选中策略选项o′的概率，

表示状态为s′且策略选项为o′的低层状态值函数。

步骤S332，计算高层时序差分误差

与低层时序差分误差

其中，γ是预设的折扣因子。

步骤S333，计算高层优势函数

和低层优势函数

其中，λ表示预设的泛化估计系数。

步骤S334，基于所述的高层优势函数

和低层优势函数

构建目标函数，并采用梯度下降法对高层策略网络

的参数和低层策略网绉

的参数进行更新。

下面再对评价网络V的参数进行更新的过程，包括：

步骤S335，计算累计回报：

其中，T表示数据存储器D内存储的轨迹中最后一个五元组对应的时刻，

表示最后一个五元组的后续状态的低层状态值函数。

步骤S336，利用累计回报G_t与低层状态值函数

之间的均方误差和梯度下降法对评价网络V的参数进行更新；

步骤S337，重新计算低层状态值函数

并更新累计回报G_t。

步骤S4，根据更新参数后的高层策略网络

低层策略网络

和评价网络V，生成更细后的策略模型，并对更新后的策略模型进行测试。

具体地，在与仿真环境的交互次数达到预设次数(具体根据实际需要进行设置)时，结束训练过程生成更新后的策略模型，并对更新后的策略模型进行测试。

为使本领域技术人员更清楚的了解本发明，图2是根据本发明一个具体实施例的基于策略选项的分层强化学习方法的流程图。如图2所示，该方法包括以下步骤：

S201，构建高层策略网络、低层策略网络和评价网络，并初始化其参数，初始化仿真环境。

S202，与仿真环境交互得到状态轨迹，并存储五元组。

S203，判断是否达到终止状态，或达到最大步数。如果是，执行步骤S204；如果否，返回步骤S202。

S204，构建高层策略网络、低层策略网络和评价网络，并初始化其参数，初始化仿真环境。

S205，更新高层策略网络和低层策略网络的参数。

S206，更新评价网络的参数。

S207，判断与仿真环境交互的次数是否达到上限。如果是，执行步骤S208；如果否，返回步骤S202。

S208，训练终止。

下面结合具体实施例对本发明提出的基于策略选项的分层强化学习方法进行详细说明。

对于一个高维连续控制任务，该任务的目的是从零开始学习控制一个二维的“猎豹”形机器人向前跑，使其可以尽可能快地跑向终点，图3是该仿真环境的具体场景。对于该仿真环境中被控制的智能体，输入是17维状态量，输出动作是连续的6维变量。在所提出的基于策略选项的分层强化学习方法中，策略选项总数为4；高层策略网络包含2层隐藏层，结点数分别为256和256，激活函数为ReLU，输出层节点数量为4，与策略选项总数一致；低层策略网络包括4个子网络，每个子网络网络结构相同，也包含2层隐藏层，结点数分别为256和256，激活函数为ReLU，输出层节点数量为6，与输出动作维度一致；评价网络也包含两层隐藏层，结点数为128，128，激活函数为ReLU。以上各个网络的参数都通过Adam优化器进行优化。

模仿学习过程中使用到的其他超参数如下表所示：

超参数	值
		策略网络学习率(lrl)	0.003
评价网络学习率(lr2)	0.01
		批数据大小(batch-size)	128
折扣因子(γ)	0.99
		泛化估计系数(λ)	0.95
单条轨迹最大时长(T)	8000
		策略评估步长间隔“nterval)	8000

在HalfCheetah环境中，使用不含策略选项的PPO算法进行训练，最终得分约为5000，而使用基于策略选项的分层强化学习并结合PPO算法，最终得分约为6000，将不同算法训练过程中的总奖励绘制成曲线，结果如图4所示，其中DAC-PPO表示基于策略选项的分层强化学习并结合PPO算法的方法，可以看到基于策略选项的分层强化学习的最终表现明显超过了不包含策略选项的方法。

综上所述，根据本发明实施例的基于策略选项的分层强化学习方法，先构建高层策略网络

低层策略网绉

低层策略网绉

低层策略网络

图5是根据本发明实施例的基于策略选项的分层强化学习装置的方框示意图。如图5所示，该基于策略选项的分层强化学习装置100，包括：构建模块10、获取模块20、更新模块30和生成模块40。

其中，构建模块10用于构建高层策略网络、低层策略网络和评价网络。获取模块20用于从仿真环境，获取状态轨迹。更新模块30用于基于状态轨迹和策略在线算法的学习过程，对高层策略网络、低层策略网络和评价网络的参数进行更新。生成模块40用于根据更新参数后的高层策略网络、低层策略网络和评价网络生成更新后的策略模型，并对更新后的策略模型进行测试。

根据本发明的一个实施例，更新模块30用于基于状态轨迹和策略在线算法的学习过程，对高层策略网络、低层策略网络和评价网络的参数进行更新，包括：

初始化仿真环境、高层策略网络

低层策略网络

和评价网络V，并初始化当前状态s_t和当前策略选项o_t；

在当前状态s_t，根据高层策略网绉

和当前策略选项o_t，选择当前动作a_t，由仿真环境输出下一个状态s_t+1和当前时刻的奖励值r_t，根据当前状态s_t、当前策略选项o_t、当前动作a_t、当前时刻的奖励值r_t和下一个状态s_t+1，组成五元组(s_t，o_t，a_t，r_t，s_t+1)，并将五元组存储至数据存储器；

在当前状态s_t到达终止状态，或数据存储器内五元组数量达到预设阈值后，每个时间步取出部分数据，对高层策略网络

低层策略网络

和评价网络V的参数进行更新。

根据本发明的一个实施例，对高层策略网络和低层策略网络的参数进行更新，包括：

由评价网络计算低层状态值函数

并计算高层状态值函数

其中，

表示状态为s′且策略选项为o的高层状态值函数，

表示下一时刻高层策略网络选中策略选项o′的概率，

表示状态为s′且策略选项为o′的低层状态值；

计算高层时序差分误差

与低层时序差分误差

其中，γ表示预设的折扣因子；

计算高层优势函数

和低层优势函数

其中，λ表示预设的泛化估计系数；

基于的高层优势函数

和低层优势函数

构建目标函数，并采用梯度下降法对高层策略网绉

的参数和低层策略网绉

的参数进行更新。

根据本发明的一个实施例，对评价网络的参数进行更新，包括：

计算累计回报：

其中，T表示数据存储器内存储的轨迹中最后一个五元组对应的时刻，

表示最后一个五元组的后续状态的低层状态值函数；

利用累计回报G_t与低层状态值函数

之间的均方误差和梯度下降法对评价网络的参数进行更新；

重新计算低层状态值函数

并更新累计回报G_t。

需要说明的是，本发明实施例的基于策略选项的分层强化学习装置中未披露的细节，请参考本发明实施例的基于策略选项的分层强化学习方法中所披露的细节，具体这里不再详述。

低层策略网络

低层策略网络

低层策略网络

另外，本发明还提出了一种电子设备，其包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现上述的基于策略选项的分层强化学习方法。

此外，本发明还提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的基于策略选项的分层强化学习方法。

需要说明的是，术语“高层”、“低层”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“高层”、“低层”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。