CN109657802B

CN109657802B - 一种混合专家强化学习方法及系统

Info

Publication number: CN109657802B
Application number: CN201910078047.2A
Authority: CN
Inventors: 袁春; 郑卓彬; 朱新瑞
Original assignee: Shenzhen Graduate School Tsinghua University
Current assignee: Shenzhen Graduate School Tsinghua University
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2020-12-29
Anticipated expiration: 2039-01-28
Also published as: WO2020155994A1; CN109657802A

Abstract

本发明提供一种混合专家强化学习方法及系统，其利用具有共享网络参数的多头智能体作为多个专家，通过深度确定性策略梯度算法训练该智能体，以同时学习一系列类似的任务。每个专家都被引入对状态下执行动作的不确定性估计，以增强抗过拟合的Q值评估能力和模型的整体性能。这些使智能体之间能够在不同的任务中提取、迁移并共享学习到的知识(特征表达)，从而提高单个任务的学习效率和在多个任务间调度专家的有效性。不同于传统的混合专家系统的数据驱动式的设计，其采用自我监督的门控网络来确定最具潜能的专家来处理未知任务的每一次交互，并能在没有人为外在监督信息的情况下，完全通过专家系统反馈的不确定性估计来校准调度的精确度。

Description

一种混合专家强化学习方法及系统

技术领域

本发明涉及计算机数据处理技术领域，尤其涉及一种混合专家强化学习方法及系统。

背景技术

学习不同领域中的相关任务，并将训练得到的知识转移到新的环境中，是强化学习的一个重大挑战。然而，大多数强化学习方法数据利用效率低下，训练速度慢，无法在复杂环境中推广，这同时限制了它们在多任务场景下的适应性和适用性。

混合专家系统(Mixture-of-Experts，MoE)是一种有效的集成学习方法，使用一个门控网络来使子模型专家化，以此减轻单个模型容易过拟合的问题，并提高复杂任务下的性能；但一般的混合专家系统中专家调度和利用的均衡性和有效性都很差。

发明内容

为解决上述问题，本发明提出一种合专家强化学习方法及系统，其数据利用效率高，训练速度快，可以在复杂环境中推广、泛化能力高。

本发明提出一种混合专家强化学习方法，包括：

S0.随机初始化具有多个头的执行者网络和评判家网络，并将权重参数复制到各自的目标网络，初始化经验回放池，门控网络，以及多任务环境；

S1.智能体从环境中接收状态s_t，智能体中的门控网络根据状态s_t输出调度向量G(s_t)；同时，多个执行者根据状态s_t产生候选动作向量集，与所述多个执行者一一对应的多个评判家根据所述候选动作向量集生成多组Q值和Q方差对；

S2.转换器根据所述多个Q方差，得到目标调度向量g′(s_t)；同时，专家选择器根据g′(s_t)，选择产生高Q值和低Q方差对的执行者，作为强化学习的专家，产生动作a_t与环境进行交互；

S3.智能体接收环境根据所述动作a_t所产生的奖励r_t与下一个状态s_t+1；经验回放池存储该经验元组(s_t,a_t,s_t+1,r_t,m_t)；其中，m_t＝g′(s_t)，表示该经验元组被特定专家训练的概率；

S4.随机选择一对执行者和评判家，随机采样多个经验元组作为批量训练数据，并更新这对执行者和评判家、及其相应的目标网络，以及门控网络；

S5.重复步骤S1-S4，直至达到设置的迭代次数。

本发明还提出一种混合专家强化学习系统，其特征在于，包括：环境和智能体，所述智能体包括：门控网络，具有多个头的执行者网络和评判家网络，转换器，专家选择器以及经验回放池；所述系统采用如上所述的混合专家强化学习方法。

本发明的有益效果：(1)通过向DDPG的评论家引入了不确定性估计(Q方差)，以更准确地进行Q值评估，从而减轻单个任务的过拟合问题，并增强多任务间的泛化能力。(2)将多头DDPG扩展为混合专家系统架构，其门控网络由专家不确定性估计进行自监督，无需额外监督，通过有效的知识共享和专家调度，极大地提高了数据利用效率和算法性能。(3)为了解决混合专家系统中专家不平衡利用率的问题，利用衰减掩码的经验回放来激励专家在训练期间专注于不同的目标。

附图说明

图1为本发明实施例中基于不确定性估计的自监督混合专家强化学习系统的框架结构示意图。

图2为本发明实施例中基于不确定性估计的自监督混合专家强化学习方法的流程示意图。

图3为本发明实施例中训练并测试智能体(SUM)的不同环境；(a)Hopper,(b)Walker,(c)HalfCheetah,(d)Humanoid,(e)HopperWall,(f)HopperStairs,(g)HumanoidWall,(h)HumanoidStandup。

图4a为本发明实施例中在Hopper环境中具备不同头数量的SUM方法和DDPG方法的性能比较图。

图4b为本发明实施例中在Walker环境中具备不同头数量的SUM方法和DDPG方法的性能比较图。

图5a为图4a的不同时间节点的训练和测试之间泛化性能比较图。

图5b为图4b的不同时间节点的训练和测试之间泛化性能比较图。

图6a为本发明实施例中头数量K＝3时不同方法在同时学习多个任务时的Hopper环境中的性能。

图6b为本发明实施例中头数量K＝3时不同方法在同时学习多个任务时的HopperWall环境中的性能。

图6c为本发明实施例中头数量K＝3时不同方法在同时学习多个任务时的HoppeStairs环境中的性能。

图7a为本发明实施例中头数量K＝5时不同方法在同时学习多个任务时的HumanoidStandup环境中的性能。

图7b为本发明实施例中头数量K＝5时不同方法在同时学习多个任务时的Humanoid环境中的性能。

图7c为本发明实施例中头数量K＝5时不同方法在同时学习多个任务时的HumanoidWall环境中的性能。

图7d为本发明实施例中头数量K＝5时不同方法在同时学习多个任务时的HumanoidStandupRunWall环境中的性能。

图8a为本发明实施例中测试期间在Hopper环境中不同方法中不同专家的使用情况。

图8b为本发明实施例中测试期间在Humanoid环境中不同方法中不同专家的使用情况。

具体实施方式

下面结合具体实施方式并对照附图对本发明作进一步详细说明，应该强调的是，下述说明仅仅是示例性的，而不是为了限制本发明的范围及其应用。

本实施例提供一种基于不确定性估计的自监督混合专家强化学习系统，如图1所示，包括环境和智能体，所述智能体包括：门控网络，具有多个头的执行者网络和评判家网络，转换器、专家选择器以及经验回放池。

传统的混合专家系统(MoE)通常用于监督学习领域，而本实施例提出一种基于MoE架构的强化学习系统，将MoE用于强化学习领域，通过两个组件来解决多个任务，一个组件是基于多头架构的深度确定性梯度梯度算法(Self-Adaptive Double Bootstrapped DeepDeterministic Policy Gradient，也称为SOUP)作为多个专家，另一个组件是自监督门控网络，以完全自我监督的方式，通过不确定性估计来优化MoE的门控网络，并用于专家调度。

首先，本系统引入不确定性估计(Q方差)，将多头DDPG扩展为混合专家系统架构。具体来说，扩展了评判家网络，在最后一层同时生成两个值，对应于预测的Q值Q(s_i，a_i)和Q方差σ²(s_i，a_i)，通过最小化负对数似然准则(NLL)来优化评判家，如下式：

其中，Q(s_i，a_i)表示第i个经验元组中，状态s_i下执行动作a_i的效益，简称Q值；σ²(s_i，a_i)表示评估Q值的方差，简称Q方差；L(θ^Q)表示评判家网络的损失函数；n表示每次采样n个经验样本训练，最后需要做个平均操作；i表示第i个数据经验样本对应的状态或者动作，y_i表示第i个Q值的目标。

为了实现多任务学习的目标，直接扩展了DDPG为多头架构。不同于SOUP，本实施例中将其置信度模块进行替换，使用了上述不确定性估计的扩展增强评判家网络的性能。

其次，增加了由专家不确定性估计自监督的门控网络：它完全由专家以端到端的方式反馈的不确定性估计值校准，没有外在的监督信息辅助，无需人为干预训练过程。

自监督训练方法：当具有K个头{Q，u}_1..K的混合专家系统(Q代表评判家，μ代表执行者)与给定的环境状态s_t交互时，由θ^G参数化的门控网络G会产生门控值作为调度向量G(s_t)，表示门控网络更倾向于哪个专家在当前状态下执行任务。这里多头DDPG中的每个执行者头都被视为一个专家。随后，每个执行者头都会产生一个候选动作

同时它成对的评判家头产生评估的Q值Q_k和Q方差

Q方差代表着专家在该状态下对其行动评估的不确定性。基于Q值和Q方差向量，本实施例构建目标门控值g′(s_t)作为自监督信息，即：一般情况下，目标调度向量仅由Q方差向量，按照如下公式构建：

g′(s_t)＝Softmax(H(s_t)) 公式(2)

H(s_t)是一个特殊设计的向量，具有K维，其中第k维的值定义如下：

而当出现“某个专家的Q值有区分度地高于其他专家的Q值，同时其Q方差也最小”的情况下，H(s_t)是一个独热编码向量，即该向量中，仅有这个专家对应下标的值为1，其他都为0。

其中KeepTopX(σ²，x)意为只保留σ²的前x个值；σ²是对状态s_t的不确定性估计值，同样有K维，Q方差

表示第k个值；H(s_t)表示为：当对状态s_t的第k个Q方差(不确定性估计)处于前x个时，第k维值为1，否则为0。

对于这个式子来说，H(s_t)鼓励门控网络激活具有相对较高不确定性的专家。与较低不确定性的专家相比，这些专家在s_t中有更多潜能获得更多奖励。然后根据下式选择当前执行动作a_t，并与环境交互，接收新状态s_t+1以及奖励r_t：

a_t表示动作，k表示第k个专家，g′(s_t)为目标调度向量，是个K维向量，argmax指的是取最大的数值对应的下标k，并从动作候选集中选择对应的第k个动作作为输出。

一条新经验元组(s_t，a_t，s_t+1，r_t，m_t)被存储到经验池中，其中

表示该元组被特定专家训练的概率。在训练期间，每次采样n个样本，像原始DDPG方法一样优化专家系统，同时用均方差函数优化门控网络，如下所示：

其中，L(θ^G)表示门控网络G的损失函数值，用于训练优化；

表示把后面一批n个数据的计算值求平均值；g′(s_i)为G(s_i)的训练目标；G(s_i)为针对状态s_i的调度向量。

最后，本系统中设计带有衰减掩码的经验回放(Decayed Mask ExperienceReplay，DMER)，用于不同程度地训练多个专家。具体来说，本实施例在公式(3)中用

代替x，一般被初始化为头数量K，并在整个训练过程中衰减：

根据如上的系统，基于不确定性估计的自监督混合专家强化学习方法(也叫算法，简称为SUM)，SUM利用具有共享网络参数的多头智能体作为多个专家，通过DDPG算法训练以同时学习一系列类似的任务。该方法的流程示意图如图2所示，并所示如下：

S5.重复步骤S1-S4，直至达到设置的迭代次数。

具体训练方法可以描述为下表1:

在连续控制环境MuJoCo及其多任务扩展的MuJoCo上训练并测试SUM方法。图3中的(a)-(d)为Mujoco环境上的基础任务，图3中的(e)-(h)为MuJoCo上的扩展任务。在实施例中进行如下探究：(1)比较单任务环境中不确定性增强带来的影响；(2)进一步分析针对不同难度的情况下处理一系列相关任务的能力；(3)评估SUM在同时学习多个任务时的数据利用效率和专家利用率。

在训练及测试过程中，都使用全连接网络架构，如图1所示，每个长方形代表一个网络层，门控网络有两层，执行者有两层，评判家有三层；，其中隐藏层神经元数目和头层大小用(N,M)表示，即评判家网络为(256,256,128)，而执行者(256,128)。同时使用LeakyReLU作为激活函数。门控网络是(256,128)，其输出层为Softmax函数。此外，DMER的衰减率是固定的，λ＝0.9997。

(1)单任务环境中不确定性增强带来的影响

分别在Hopper环境和Walker环境中，利用本实施例中的SUM方法和原始DDPG方法进行比较，在不确定性估计增强下，具备不同头数量的SUM方法和DDPG方法的性能如下表一、表二、图4a和4b所示。

表一Hopper环境中具备不同头数量的SUM和DDPG的性能(平均奖励±方差)比较结果

表二Walker环境中具备不同头数量的SUM和DDPG的性能(平均奖励±方差)比较结果

通过表一、表二以及图4a和4b可知，相比于原始DDPG方法来说，头部数量K＝1或3的SUM通过可靠准确的Q值评估，在获取平均奖励和学习速度方面都更优。通过图4a和4b可知，在这两种环境中，当配备相同的头数量K＝1，SUM比原始DDPG获得稍好的性能(更快地达到稍微高的累积奖励)，这是因为SUM使用最小化负对数似然准则(NLL)代替均方误差(MSE)进行优化，能够捕捉到对当前状态的不确定性，也就是说，这个额外的训练目标要求评判家的优化要保证产生不仅准确而且可信赖的Q值评估(表二和表三中方差减小)。而头数量为5时，达到性能最好：训练速度快(曲线斜率最大)，获得平均奖励多(Y轴最高)，稳定性最好(方差最小)。通过对比头数量K＝1,3,5的方法性能，可以得出这种积极的效果(方差减小，评估准确)能随着专家(头)数量的提升，显著增强。总之，SUM在单个任务中增加了不确定性估计带来的性能提升(训练速度、最终累积奖励、训练稳定性)。

为了证明不确定性增强对检测过拟合的有效性，通过计算“训练和测试之间累积奖励的差异”来衡量方法泛化性能，差距越小，性能越好。图5a和图5b表示在图4a和4b在三个不同的训练节点(1M，3M，5M)时的泛化差异。其中，DK和SK表示DDPG和具有K个头的性能。实心柱状表示训练时的累积奖励，斜线柱状表示测试时的累积奖励。

观察可得，虽然有时多头DDPG在训练期间表现更好，但是它会由于测试环境的随机性和复杂性，导致测试性能下降，这是因为DDPG过拟合时，产生的过于自信的Q值通常是不准确的，容易误导算法训练陷入局部最优。经过配备NLL的不确定性估计训练后，SUM在训练和测试中展现较小的差异，对过拟合问题表现较为稳健的泛化效果。SUM整体表现出比DDPG更小的差异，泛化能力越好，这表明不确定性增强有效地缓解了过拟合。

(2)针对不同难度的多任务场景下的泛化能力

在本实施例中，进一步关注SUM对抗健忘性问题和处理没训练过的任务时的泛化能力。这些环境是一系列HalfCheetah的变体任务。由于传统强化学习方法易受健忘性和不同环境下的不同奖励方案影响，一般而言，很难同时在所有任务中实现总体令人满意的性能。

在HalfCheetah环境的系列任务中，利用SUM方法和现有的TRPO(Trust regionpolicy optimization)方法分别进行单个任务训练以及所有任务训练。按照如下表三中列出的顺序在每个环境中连续训练SUM。在完成单独特定任务的训练后，即刻测试该环境下的SUM的平均累积奖励，用“单独训练”表示。重复这个过程，用最后训练好的算法重新评估每个环境下SUM的平均累计奖励，用“完全训练”表示。以上两个指标之间的差异来衡量SUM针对健忘性问题的泛化能力。

表三HalfCheetah环境的系列任务中SUM与TRPO方法的性能比较结果

表三中的百分比数值表示“单独训练”和“完全训练”的性能变化比率，百分比越高，表明对抗健忘性的泛化能力越强。由此可知：在HalfCheetah系列任务中，SUM在对抗健忘性问题方面相比TRPO有巨大进步，SUM对抗健忘性的泛化能力强。

另外，表三显示：当按顺序学习时，TRPO方法在不同程度上会受到健忘性问题的影响。我们将此归咎于仅通过TRPO用单个策略网络评估的Q值无法评估多个任务，因为这有极大的过拟合的风险。作为额外的辅助指标，对已知或未知状态的不确定性估计有助于理解不同专家的泛化能力，以及更有效地进行专家调度来完成不同的任务。有了这种增强，SUM不仅在平均累积奖励方面，而且在针对健忘性的泛化能力方面都优于TRPO。此外，SUM可以不按顺序、同时学习多个任务(表中“同时训练”)，并获得同样令人满意的性能，即SUM可以同时通过来自不同任务的样本来训练。在这种情况下，SUM可以捕获每个专家对不同领域状态的不确定性估计。一方面，专家们通过共享网络训练，以实现高效的知识共享；另一方面，通过不确定性估计自我监督的门控网络可以选取最可靠的专家来完成特定的任务。

表四为当专家头数为3时，SUM在未训练过的任务上测试的性能；其中左列为训练的环境，右列为测试的环境。从表四可知，当在从没训练过的相关环境中测试时，SUM可以根据以前学到的知识(特征表达)稳健地处理未知任务。特别是，Wall是一种截然不同的环境，要求智能体跨越一堵墙。而传统的强化学习方法在未经过该环境训练的情况下测试时，总是被堵在墙的前面。然而，SUM可以利用有效的知识共享和专家调度，通过不确定性估计的自监督门控网络，适当分配具有不同潜质的专家来处理每个状态，以此解决上述问题。

表四SUM(K＝3)在未训练过的任务上测试的性能结果

(3)多任务性能

通过进行两组多任务实验，包括Hopper学习在平坦地面、跨越墙壁和楼梯上跳跃的多任务场景，以及Humanoid学习站立、行走和跨越墙壁的多任务场景。图6a-6c表示的是头数量K＝3时不同方法在同时学习多个Hopper变种任务时的性能，图7a-7d表示的是头数量K＝5时不同方法在同时学习多个Humanoid变种任务的性能。其中Y轴表示平均奖励，其斜率体现训练速度。

由图6a-6c，以及图7a-7d可知，对比SOUP，SUM在给个任务中，训练速度更快和平均累积奖励更高，而同时，SUM+DMER能达到更加平均的专家利用率。

值得注意的是，StandupRunWall是一项极具挑战性的任务，因为其中一个环境Standup使用一种不同的奖励方案来提供更密集的奖励，鼓励机器人尽快站立起来，这容易导致其他输出较为稀疏奖励的环境无法被训练到的问题，进而导致专家不平衡性。实验过程中，SUM和SOUP无法解决该问题。为了抵消这种不利影响，SUM提出了衰减掩码经验重放(DMER)。在训练初期，DMER激励专家学习基本行为，并平等地获得在所有经验池中全方位探索的机会。而在后期，根据专家的不确定性估计，部分样本被屏蔽，不同专家只能使用较少的样本来泛化到单独的环境，这可以激发专业化，方便后续门控网络更加高效地调度专家系统处理多项任务。

图8a和8b为测试期间分别在Hopper和Humanoid环境中不同专家的使用情况，其显示了SOUP容易受到单个专家“垄断”的影响。尽管SUM避免了这个问题，但不平衡的专家利用率仍然阻碍了它的性能提升。当使用DMER时，SUM可以平衡专家系统，让他们仅专注于一两项任务，达到更平衡的专家利用率。

本实施例中的基于不确定性估计的自监督混合专家强化学习系统和方法，可以应用于智能自动驾驶系统，电子游戏，围棋游戏，智能机器人控制，智能语音对话等领域。相较于现有技术，SUM利用具有共享网络参数的多头智能体作为多个专家，通过深度确定性策略梯度算法(DDPG)训练以同时学习一系列类似的任务。每个专家都被引入对已知(训练过程)和未知(测试过程)状态的不确定性估计，以增强抗过拟合的Q值评估能力和模型整体性能。这些使智能体之间能够在不同的任务中提取、迁移并共享学习到的知识(特征表达)，从而提高单个任务的学习效率和在多个任务间调度专家的有效性。不同于传统的混合专家系统数据驱动式的设计，SUM采用自我监督的门控网络来确定最具潜能的专家来处理未知任务的每一次交互，并能在没有外在监督信息的情况下，完全通过专家系统反馈的不确定性估计来校准调度的精确度。为了缓解混合专家系统的关键问题—不平衡的专家利用率，通过衰减掩码的经验重放来训练优化算法，在训练的不同时期，让专家专注于不同的目标，进而保证多样化和专业化。

以上内容是结合具体/优选的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，其还可以对这些已描述的实施方式做出若干替代或变型，而这些替代或变型方式都应当视为属于本发明的保护范围。

Claims

1.一种混合专家强化学习方法，其特征在于，包括：

S1.智能体从机器人智能控制的控制环境中接收状态s_t，智能体中的门控网络根据状态s_t输出调度向量G(s_t)；同时，多个执行者根据状态s_t产生候选动作向量集，与所述多个执行者一一对应的多个评判家根据所述候选动作向量集生成多组Q值和Q方差对；所述Q值为状态s下执行动作a的效益；Q方差为评估Q值的方差；

S2.转换器根据所述多个Q方差，得到目标调度向量g′(s_t)；同时，专家选择器根据g′(s_t)，选择产生高Q值和低Q方差对的执行者，作为强化学习的专家，产生动作a_t与机器人智能控制的控制环境进行交互；

S3.智能体接收机器人智能控制的控制环境根据所述动作a_t所产生的奖励r_t与下一个状态s_t+1；经验回放池存储经验元组(s_t，a_t，s_t+1，r_t，m_t)；其中，m_t＝g′(s_t)，表示该经验元组被特定专家训练的概率；

S5.重复步骤S1-S4，直至达到设置的迭代次数；

所述经验回放池中带有衰减掩码，用于不同程度地使用不同经验样本训练多个专家。

2.如权利要求1所述的混合专家强化学习方法，其特征在于，步骤S2中根据如下公式产生目标调度向量g′(s_t)：

g′(s_t)＝soft max(H(s_t))；

所述H(s_t)为一个独热编码向量，具有K维，其中第k维的值定义如下：

其中，函数KeepTopX(σ²，x)表示只保留σ²的前x个值，而σ²是对状态s_t的不确定性估计值，同样有K维，

表示第k个值；H(s_t)表示为“当对状态s_t的第k个不确定性估计处于前x个时，H(s_t)的第k维值为1，否则为0”。

3.如权利要求1所述的混合专家强化学习方法，其特征在于，所述步骤S2中根据如下公式产生动作a_t：

其中k表示第k个专家，g′(s_t)为目标调度向量，是个K维向量，argmax指的是取g′(s_t)最大的数值对应的下标k，并从动作候选集中选择对应的第k个动作作为输出。

4.如权利要求1所述的混合专家强化学习方法，其特征在于，所述步骤S4中通过最小化负对数似然准则来更新所述评判家；所述最小化负对数似然准则表达为如下公式：

其中，Q(s_i，a_i)表示在第i个经验元组的状态下，执行动作的效益，简称Q值；σ²(s_i，a_i)表示评估Q值的方差，简称Q方差；L(θ^Q)表示评判家网络的损失函数，n表示每次采样n个经验样本训练，最后需要做个平均操作，i表示第i个数据经验样本对应的状态或者动作，y_i表示第i个Q值的目标。

5.如权利要求1所述的混合专家强化学习方法，其特征在于，所述步骤S4中通过如下公式更新所述执行者：