CN112613608A

CN112613608A - 一种强化学习方法及相关装置

Info

Publication number: CN112613608A
Application number: CN202011504906.9A
Authority: CN
Inventors: 王杰; 李厚强; 周祺; 匡宇飞
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-04-06

Abstract

本申请公开了一种强化学习方法及相关装置，其中，所述强化学习方法使用的正则化项为基于样本的正则化项，所述基于样本的正则化项包括所述目标智能体执行不同动作的额外奖励，其定义了探索行为的可取程度，且建模了所执行动作之间的相互影响，利用所述基于样本的正则化项进行强化学习时无需计算概率密度函数，有利于提升强化学习的效率，特别是提升针对复杂策略的强化学习效率。另外，利用所述基于样本的正则化项进行强化学习可以利用动作空间的几何信息，且可以与更广泛的策略结构兼容。

Description

一种强化学习方法及相关装置

技术领域

本申请涉及机器学习技术领域，更具体地说，涉及一种强化学习方法及相关装置。

背景技术

强化学习(Reinforcement Learning，RL)在视频游戏和机器人控制等领域中取得了巨大的成功。强化学习的目标是通过最大化累积回报来找到一个最优的策略，这通常会导致一个确定的策略。而在实际应用中，采用随机策略的效果优于采用确定性策略的效果。例如，对于新任务，随机策略往往可以更好地探索；此外，在发生意外情况时，使用随机策略往往比使用确定性策略的鲁棒性更好。

为了学习随机策略，现有的学习方法存在多方面的缺陷，其中主要问题包括针对复杂策略的学习效率低下的问题。

发明内容

为解决上述技术问题，本申请提供了一种强化学习方法及相关装置，以实现提高针对复杂策略的强化学习效率的目的。

为实现上述技术目的，本申请实施例提供了如下技术方案：

一种强化学习方法，包括：

获取目标智能体的环境交互信息，所述环境交互信息包括所述目标智能体按照预设策略与环境交互的结果信息；

从所述环境交互信息中，获取所述目标智能体与环境交互得到的奖励信息，根据所述奖励信息预测所述目标智能体执行第一预设动作获得的累计期望奖励；

根据所述累计期望奖励对所述预设策略进行优化；

对所述预设策略在预设状态下采取的第二预设动作进行采样，根据采样结果估计所述预设策略在所述预设状态下对应的正则项值，并将所述正则项值添加到对所述预设策略进行优化时采取的损失函数中；所述正则项值根据基于样本的正则化项估计得到，所述基于样本的正则化项包括所述目标智能体执行不同动作的额外奖励，且建模了所执行动作之间的相互影响。

可选的，所述基于样本的正则化项包括第一部分和第二部分之和，所述第一部分包括所述目标智能体执行不同动作的额外奖励，所述第二部分建模了所执行动作之间的相互影响。

可选的，所述第一部分包括：

所述第二部分包括：

所述基于样本的正则化项的表达式包括：

其中，π(·∣s)表示在预设状态为s时的动作执行概率，a和a′表示所述预设策略中的特定动作，

表示在执行特定动作a的概率满足π(·∣s)时，基于f(a)函数在预设状态为s时执行特定动作a的期望，

表示在执行特定动作a和a′的概率均满足π(·∣s)时，基于g(a,a′)函数在预设状态为s时先后执行特定动作a和a′的期望，

表示包含多个操作的紧凑操作空间，

表示实数集。

可选的，

其中，|| ||₂表示二范数，u表示等概率的均匀分布。

可选的，

其中，u表示等概率的均匀分布，[·]_i表示向量的第i维分量。

可选的，所述根据所述累计期望奖励对所述预设策略进行优化过程使用的目标函数包括：

其中，s_t,a_t表示时刻t时对应的状态和动作，Π表示策略集，α≥0表示超参数，γ∈(0,1)为折扣系数，

表示预设策略，Δ是

上的一组波莱尔概率度量，

表示有界奖励函数，R_min和R_max分别表示有界奖励函数的上界和下界。

可选的，所述获取目标智能体的环境交互信息，所述环境交互信息包括所述目标智能体按照预设策略与环境交互的结果信息之后还包括：

对获取的所述环境交互信息在预设样本库中进行存储和随机回放。

一种强化学习系统，包括：

数据采集模块，用于获取目标智能体的环境交互信息，所述环境交互信息包括所述目标智能体按照预设策略与环境交互的结果信息；

评价器训练模块，用于从所述环境交互信息中，获取所述目标智能体与环境交互得到的奖励信息，根据所述奖励信息预测所述目标智能体执行第一预设动作获得的累计期望奖励；

执行器训练模块，用于根据所述累计期望奖励对所述预设策略进行优化；

正则项模块，用于对所述预设策略在预设状态下采取的第二预设动作进行采样，根据采样结果估计所述预设策略在所述预设状态下对应的正则项值，并将所述正则项值添加到对所述预设策略进行优化时采取的损失函数中；所述正则项值根据基于样本的正则化项估计得到，所述基于样本的正则化项包括所述目标智能体执行不同动作的额外奖励，且建模了所执行动作之间的相互影响。

一种强化学习系统，包括：存储器和处理器；

所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，所述程序代码用于执行上述任一项所述的强化学习方法。

一种存储介质，所述存储介质上存储有程序代码，所述程序代码被执行时实现上述任一项所述的强化学习方法。

从上述技术方案可以看出，本申请实施例提供了一种强化学习方法及相关装置，其中，所述强化学习方法使用的正则化项为基于样本的正则化项，所述基于样本的正则化项包括所述目标智能体执行不同动作的额外奖励，其定义了探索行为的可取程度，且建模了所执行动作之间的相互影响，利用所述基于样本的正则化项进行强化学习时无需计算概率密度函数，有利于提升强化学习的效率，特别是提升针对复杂策略的强化学习效率。

另外，利用所述基于样本的正则化项进行强化学习可以利用动作空间的几何信息，且可以与更广泛的策略结构兼容。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请的一个实施例提供的一种强化学习方法的流程示意图；

图2为本申请的另一个实施例提供的一种强化学习方法的流程示意图；

图3为本申请的一个实施例提供的仿真机器人的控制环境；

图4为本申请的一个实施例提供的训练效果对比示意图；

图5为本申请的一个实施例提供的训练效果对比曲线图。

具体实施方式

正如背景技术中所述，现有技术中学习随机策略的方法主要包括软执行器-评价器(SoftActorCritic)、软Q学习(SoftQ-learning)以及路径一致性学习(PathConsistency Learning)等方法，这些方法均利用了基于熵正则化的强化学习框架。这类框架中，智能体除了最大化将例外，还需要最大化一个额外的熵正则项。常用的熵项包括香农熵(Shannonentropy)和Tsallis熵。前者可以提高策略学习的样本效率，即使用更少的样本学到更好的策略；而使用后者的解更接近原强化学习问题的最优解。

然而熵正则化往往陷入简单的策略表示与复杂低效的训练过程之间的两难选择。现有的正则项的一般形式为：

以前的方法通过平均值

对该正则项进行估计，其中N是样本数，

从策略π(·∣s)中采样。使用估计方式时，概率密度的计算需要是简单的。因此，常用的熵正则化强化学习方法通常用简单的分布，如高斯分布，来表示策略。然而近期的研究显示，使用简单分布表征策略存在多方面的缺陷，包括低效的探索，更容易陷入局部最优，无法学习多目标策略等。

近年来，一些方法尝试使用复杂的网络结构作为策略，以增强策略的表达能力。然而，这些方法通常需要低效的推理过程来优化策略或使用复杂的概率密度计算来估计熵。例如，通过规范化流表示策略需要额外的串行过程来计算概率密度，这带来了不可忽略的计算开销；此外，软Q学习需要使用复杂低效的变分推理技术来进行策略网络的优化。

因此，亟需一种针对复杂策略的学习提出一种高效的正则化强化学习方法，有鉴于此，本申请实施例提供了一种强化学习方法，包括：

根据所述累计期望奖励对所述预设策略进行优化；

在本实施例中，所述强化学习方法使用的正则化项为基于样本的正则化项，所述基于样本的正则化项包括所述目标智能体执行不同动作的额外奖励，其定义了探索行为的可取程度，且建模了所执行动作之间的相互影响，利用所述基于样本的正则化项进行强化学习时无需计算概率密度函数，有利于提升强化学习的效率，特别是提升针对复杂策略的强化学习效率。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种强化学习方法，如图1所示，包括：

S101：获取目标智能体的环境交互信息，所述环境交互信息包括所述目标智能体按照预设策略与环境交互的结果信息；

S102：从所述环境交互信息中，获取所述目标智能体与环境交互得到的奖励信息，根据所述奖励信息预测所述目标智能体执行第一预设动作获得的累计期望奖励；

S103：根据所述累计期望奖励对所述预设策略进行优化；

S104：对所述预设策略在预设状态下采取的第二预设动作进行采样，根据采样结果估计所述预设策略在所述预设状态下对应的正则项值，并将所述正则项值添加到对所述预设策略进行优化时采取的损失函数中；所述正则项值根据基于样本的正则化项估计得到，所述基于样本的正则化项包括所述目标智能体执行不同动作的额外奖励，且建模了所执行动作之间的相互影响。

所述目标智能体包括但不限于机器人以及视频或游戏中的控制目标等。所述目标智能体的环境交互信息是指目标智能体按照预设策略与环境交互的结果信息，具体地，目标智能体与环境进行交互的过程例如可以是：控制仿真机器人在所处环境中奔跑等。所述环境交互信息包括的目标智能体与环境交互的结果信息例如可以包括：机器人执行的动作、返回的状态以及获得的奖励等。

所述目标智能体与环境交互得到的奖励信息可通过奖励函数获得，常见的奖励函数可包括机器人行走了多元、控制机器人行走耗费了多少能量等。

在累计期望奖励的获取过程中，可通过时序差分与监督学习的方式学习目标智能体沿特定状态动作对触发执行特定策略能够获得的累计期望奖励。

步骤S102以及步骤S103均可实用多层全连接神经网络进行表示。在步骤S103中，可通过最大化所述累计期望奖励的方式不断对当前的所述预设策略进行优化和提升。

在步骤S104中，通过对预设策略在预设状态下可能采取的第二预设动作进行采样来估计出预设策略在该状态下所对应的正则项值的大小，并将该正则项值添加到执行器训练模块的损失函数中，从而增强所述预设策略的随机性，达到增强训练过程中的探索并增强预设策略鲁棒性的目的。

另外，在步骤S104中，由于在对正则项值进行估计的过程中使用的正则化项为基于样本的正则化项，在估计过程中无需计算概率密度函数，有利于提升强化学习的效率，特别是提升针对复杂策略的强化学习效率。

其中，可选的，所述基于样本的正则化项包括第一部分和第二部分之和，所述第一部分包括所述目标智能体执行不同动作的额外奖励，其定义了探索行为的可取程度，所述第二部分建模了所执行动作之间的相互影响。为了鼓励随机性，我们可以设置第二部分的取值与距离程正相关。此时第二部分的作用是鼓励采样的动作相互远离

具体地，所述第一部分包括：

所述第二部分包括：

所述基于样本的正则化项的表达式包括：

表示包含多个操作的紧凑操作空间，

表示实数集。

在所述基于样本的正则化项的确定过程中，我们考虑一个无限视界带折扣因子的马尔可夫决策过程。该过程由元组

定义，其中

是状态空间，

是一个包含多个操作的紧凑操作空间，

是一个转换概率函数，

是一个有界奖励函数，γ∈(0,1)是折扣系数，R_min和R_max分别表示有界奖励函数的上界和下界。让

表示策略，其中Δ是

上的一组波莱尔概率度量。即π(·∣s)∈Δ表示在状态为s时的动作执行概率。为了方便起见，我们重用了符号，并让π(·∣s)也表示相应的概率密度函数。让Π表示所有可能的策略集。函数之间的等式和不等式都是逐点的。例如，v≤v′表示v(s)≤v′(s)对

中的任意s成立。函数的最大值和上确界也是逐点的。给定一个(随机)向量x，[x]_i表示其i个元素。在本申请中，“：”表示对某一参数或公式的说明，“→”表示映射。

正则化强化学习在标准强化学习地目标(期望折现收益)上额外增加了一个正则化项。其目标函数形式如下：

其中

是正则化项，s_t,a_t表示时刻t时对应的状态和动作，Π表示策略集，α≥0是超参数，γ为环境奖励的折扣因子，γ^t表示环境奖励的价值随时间t指数衰减。我们可以通过下列式子重新定义状态-动作值函数Q和状态值函数V:

这里s₀,a₀表示智能体在初始时刻的状态和动作，s_t,s_t+1表示智能体在时刻t,t+1的状态。我们的方法同样采用正则化强化学习路线，但不同于之前的方法，我们提出了一类全新的正则化项

即基于样本的正则化项。该正则项的估计可以摆脱对概率密度的依赖，从而可以适用于更复杂的策略族。具体地，其形式如下：

其中

与

均为有界的连续函数。对于这类正则项，我们同样可以使用平均值来进行估计，其具有以下形式

表示对正则化项

的估计值，N是样本数，

为从状态s下对应的策略π(·∣s)中采样得到的N个动作。从估计式中可以看出，该正则项的值估计不需要知道概率密度函数。

接下来，我们基于广义能量度量，为基于样本的正则化项提供了两个具体的示例：

在第一类示例中，

其中，|| ||₂表示二范数，u表示等概率的均匀分布。

在第二类示例中，

当使用这两类正则化项时，通过调节超参数α，可以使所述预设策略趋近于等概率随机的策略，以进行充分的探索。适当地调小α可以实现探索与利用的平衡。

最后，我们介绍使用该正则化项的强化学习算法，即基于广义能量距离的执行器-评价器算法。在该方法中，我们使用神经网络来表征预设策略及其对应的Q值函数。我们用Adam优化器来更新这些网络的参数。对于Q值网络的学习，我们最小化如下损失函数：

其中ψ是Q值网络的参数，

代表一个经验回放池，V由Q值网络隐式决定。对于策略网络的学习，我们最大化以下目标函数：

该目标函数的优化可以使用重参数化技巧(Reparameterization Trick)实现。

在上述实施例的基础上，在本申请的一个实施例中，如图2所示，所述获取目标智能体的环境交互信息，所述环境交互信息包括所述目标智能体按照预设策略与环境交互的结果信息之后还包括：

S105：对获取的所述环境交互信息在预设样本库中进行存储和随机回放。

在本实施例中，通过步骤S105可实现旧有经验的循环利用，从而减少目标智能体探索环境的次数，提高已采集样本(环境交互信息)的利用效率。

总的来说，相较于基于熵正则化的强化学习方法，本申请实施例提供的强化学习方法具有以下优势：

(1)、可以利用动作空间的几何信息：熵正则化项主要考虑概率密度，但在一定程度上忽略了行为空间的几何信息。相比之下，我们提出的正则化项会着重考虑几何信息。因为该正则项的第二部分奖励了更大的动作间距离。我们认为几何信息在探索中很重要。例如，考虑到作用空间

在[0,1]上均匀分布的熵等于在

上均匀分布的熵，然而在实践中我们更倾向于选择后者作为探索策略。

(2)、可以与更广泛的策略结构兼容：一方面大部分策略网络的概率分布难以获知。比如使用噪声网络，或者生成式网络作为策略，其对应的动作分布不具有显式的概率密度函数。此时，该类网络结构难以与最大熵强化学习进行结合。另一方面，一些策略不具有良好定义的概率密度函数。比如，当策略由几个确定性策略的集成表示时，其动作的分布是狄拉克混合物(DiracMixture)，其不具有传统意义的概率密度函数，因此无法和最大熵强化学习相结合。相比之下，我们的正则项与概率密度函数无关，对策略族并没有相应的限制。因此，我们的方法能使用与更多种类的策略网络相结合。

(3)、更高效的训练与计算：传统的基于熵正则化的强化学习方法，在训练时需要计算概率密度函数，而这个过程在使用复杂策略时往往是极其低效的。比如在使用正则化流策略时，估计熵正则化需要一个耗时的串行过程来计算概率密度，而我们的方法不需要这个额外的步骤。此外，在使用集成模型时，熵正则项需要计算所有模型对应的概率密度函数，以得到整体的概率密度函数，而我们的方法只需要采样其中的部分网络进行计算。

下面针对具体的应用场景对本申请实施例提供的强化学习方法进行验证。

在验证过程中，将仿真机器人作为所述目标智能体，参考图3，图3示出了仿真机器人的控制环境，我们在6个不同的仿真机器人控制环境下实现并测试了本申请实施例提供的强化学习方法。在这些任务环境中，可观测的状态为仿真机器人各个部位(如腿部、关节等)的不同物理量(如位置、角度、速度等)，可控制的动作为特定部位(如腿部、头部)使用的力的大小。具体地，6个仿真机器人控制环境分别为：

1.Ant-v2：控制三维蚂蚁机器人向前奔跑。其中状态空间为111维，动作空间为8维。

2.HalfCheetah-v2：控制二维半豹机器人向前奔跑。其中状态空间为17维，动作空间为6维。

3.Humanoid-v2：控制三维人形机器人向前奔跑。其中状态空间为376维，动作空间为17维。

4.Walker2d-v2：控制二维人形机器人向前奔跑。其中状态空间为17维，动作空间为6维。

5.Hopper-v2：控制二维人形机器人向前跳跃。其中状态空间为11维，动作空间为3维。

6.Swimmer-v2：控制二维蛇形机器人向前游动。其中状态空间为8维，动作空间为2维。

对比试验结果：

本申请实施例提供的强化学习方法在机械控制、机器人控制领域取得了非常良好的实验效果。该算法在上述训练效果对比如图4和图5所示。

作为对比，我们比较了本申请实施例提供的强化学习方法与现有的强化学习算法在仿真机器人控制领域的性能差异。按从左到右、从上到下的顺序，每幅子图分别对应蜘蛛形、猎豹形、人形，双足形，单足形，蛇形机器人的仿真控制。任务是控制仿真机器人往特定方向前行，前行速度越快得分越高。图5中每个图片的横坐标为训练使用的样本数，纵坐标为得分。SAC代表软执行器-评价器(Soft Actor Critic)算法，TD3代表即Twin DelayedDeep Deterministic Policy Gradient算法，DDPG代表深度确定性策略梯度(DeepDeterministic Policy Gradient)算法。从图5中可以看出我们的算法在性能上至少与对比方法相当。在Ant和Walker2d环境上优于对比方法。

下面对本申请实施例提供的强化学习系统进行描述，下文描述的强化学习系统可与上文描述的强化学习方法相互对应参照。

相应的，本申请实施例提供了一种强化学习系统，包括：

相应的，本申请实施例还提供了一种强化学习系统，包括：存储器和处理器；

相应的，本申请实施例还提供了一种存储介质，所述存储介质上存储有程序代码，所述程序代码被执行时实现上述任一项所述的强化学习方法。

在本公开的上下文中，存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。存储介质可以是机器可读信号介质或机器可读储存介质。存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

需要说明的是，本公开上述的存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。存储介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述存储介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

本说明书中各实施例中记载的特征可以相互替换或者组合，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。