CN109657802B - 一种混合专家强化学习方法及系统 - Google Patents

一种混合专家强化学习方法及系统 Download PDF

Info

Publication number
CN109657802B
CN109657802B CN201910078047.2A CN201910078047A CN109657802B CN 109657802 B CN109657802 B CN 109657802B CN 201910078047 A CN201910078047 A CN 201910078047A CN 109657802 B CN109657802 B CN 109657802B
Authority
CN
China
Prior art keywords
expert
network
reinforcement learning
value
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910078047.2A
Other languages
English (en)
Other versions
CN109657802A (zh
Inventor
袁春
郑卓彬
朱新瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Tsinghua University
Original Assignee
Shenzhen Graduate School Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Tsinghua University filed Critical Shenzhen Graduate School Tsinghua University
Priority to CN201910078047.2A priority Critical patent/CN109657802B/zh
Publication of CN109657802A publication Critical patent/CN109657802A/zh
Priority to PCT/CN2019/129487 priority patent/WO2020155994A1/zh
Application granted granted Critical
Publication of CN109657802B publication Critical patent/CN109657802B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种混合专家强化学习方法及系统,其利用具有共享网络参数的多头智能体作为多个专家,通过深度确定性策略梯度算法训练该智能体,以同时学习一系列类似的任务。每个专家都被引入对状态下执行动作的不确定性估计,以增强抗过拟合的Q值评估能力和模型的整体性能。这些使智能体之间能够在不同的任务中提取、迁移并共享学习到的知识(特征表达),从而提高单个任务的学习效率和在多个任务间调度专家的有效性。不同于传统的混合专家系统的数据驱动式的设计,其采用自我监督的门控网络来确定最具潜能的专家来处理未知任务的每一次交互,并能在没有人为外在监督信息的情况下,完全通过专家系统反馈的不确定性估计来校准调度的精确度。

Description

一种混合专家强化学习方法及系统
技术领域
本发明涉及计算机数据处理技术领域,尤其涉及一种混合专家强化学习方法及系统。
背景技术
学习不同领域中的相关任务,并将训练得到的知识转移到新的环境中,是强化学习的一个重大挑战。然而,大多数强化学习方法数据利用效率低下,训练速度慢,无法在复杂环境中推广,这同时限制了它们在多任务场景下的适应性和适用性。
混合专家系统(Mixture-of-Experts,MoE)是一种有效的集成学习方法,使用一个门控网络来使子模型专家化,以此减轻单个模型容易过拟合的问题,并提高复杂任务下的性能;但一般的混合专家系统中专家调度和利用的均衡性和有效性都很差。
发明内容
为解决上述问题,本发明提出一种合专家强化学习方法及系统,其数据利用效率高,训练速度快,可以在复杂环境中推广、泛化能力高。
本发明提出一种混合专家强化学习方法,包括:
S0.随机初始化具有多个头的执行者网络和评判家网络,并将权重参数复制到各自的目标网络,初始化经验回放池,门控网络,以及多任务环境;
S1.智能体从环境中接收状态st,智能体中的门控网络根据状态st输出调度向量G(st);同时,多个执行者根据状态st产生候选动作向量集,与所述多个执行者一一对应的多个评判家根据所述候选动作向量集生成多组Q值和Q方差对;
S2.转换器根据所述多个Q方差,得到目标调度向量g′(st);同时,专家选择器根据g′(st),选择产生高Q值和低Q方差对的执行者,作为强化学习的专家,产生动作at与环境进行交互;
S3.智能体接收环境根据所述动作at所产生的奖励rt与下一个状态st+1;经验回放池存储该经验元组(st,at,st+1,rt,mt);其中,mt=g′(st),表示该经验元组被特定专家训练的概率;
S4.随机选择一对执行者和评判家,随机采样多个经验元组作为批量训练数据,并更新这对执行者和评判家、及其相应的目标网络,以及门控网络;
S5.重复步骤S1-S4,直至达到设置的迭代次数。
本发明还提出一种混合专家强化学习系统,其特征在于,包括:环境和智能体,所述智能体包括:门控网络,具有多个头的执行者网络和评判家网络,转换器,专家选择器以及经验回放池;所述系统采用如上所述的混合专家强化学习方法。
本发明的有益效果:(1)通过向DDPG的评论家引入了不确定性估计(Q方差),以更准确地进行Q值评估,从而减轻单个任务的过拟合问题,并增强多任务间的泛化能力。(2)将多头DDPG扩展为混合专家系统架构,其门控网络由专家不确定性估计进行自监督,无需额外监督,通过有效的知识共享和专家调度,极大地提高了数据利用效率和算法性能。(3)为了解决混合专家系统中专家不平衡利用率的问题,利用衰减掩码的经验回放来激励专家在训练期间专注于不同的目标。
附图说明
图1为本发明实施例中基于不确定性估计的自监督混合专家强化学习系统的框架结构示意图。
图2为本发明实施例中基于不确定性估计的自监督混合专家强化学习方法的流程示意图。
图3为本发明实施例中训练并测试智能体(SUM)的不同环境;(a)Hopper,(b)Walker,(c)HalfCheetah,(d)Humanoid,(e)HopperWall,(f)HopperStairs,(g)HumanoidWall,(h)HumanoidStandup。
图4a为本发明实施例中在Hopper环境中具备不同头数量的SUM方法和DDPG方法的性能比较图。
图4b为本发明实施例中在Walker环境中具备不同头数量的SUM方法和DDPG方法的性能比较图。
图5a为图4a的不同时间节点的训练和测试之间泛化性能比较图。
图5b为图4b的不同时间节点的训练和测试之间泛化性能比较图。
图6a为本发明实施例中头数量K=3时不同方法在同时学习多个任务时的Hopper环境中的性能。
图6b为本发明实施例中头数量K=3时不同方法在同时学习多个任务时的HopperWall环境中的性能。
图6c为本发明实施例中头数量K=3时不同方法在同时学习多个任务时的HoppeStairs环境中的性能。
图7a为本发明实施例中头数量K=5时不同方法在同时学习多个任务时的HumanoidStandup环境中的性能。
图7b为本发明实施例中头数量K=5时不同方法在同时学习多个任务时的Humanoid环境中的性能。
图7c为本发明实施例中头数量K=5时不同方法在同时学习多个任务时的HumanoidWall环境中的性能。
图7d为本发明实施例中头数量K=5时不同方法在同时学习多个任务时的HumanoidStandupRunWall环境中的性能。
图8a为本发明实施例中测试期间在Hopper环境中不同方法中不同专家的使用情况。
图8b为本发明实施例中测试期间在Humanoid环境中不同方法中不同专家的使用情况。
具体实施方式
下面结合具体实施方式并对照附图对本发明作进一步详细说明,应该强调的是,下述说明仅仅是示例性的,而不是为了限制本发明的范围及其应用。
本实施例提供一种基于不确定性估计的自监督混合专家强化学习系统,如图1所示,包括环境和智能体,所述智能体包括:门控网络,具有多个头的执行者网络和评判家网络,转换器、专家选择器以及经验回放池。
传统的混合专家系统(MoE)通常用于监督学习领域,而本实施例提出一种基于MoE架构的强化学习系统,将MoE用于强化学习领域,通过两个组件来解决多个任务,一个组件是基于多头架构的深度确定性梯度梯度算法(Self-Adaptive Double Bootstrapped DeepDeterministic Policy Gradient,也称为SOUP)作为多个专家,另一个组件是自监督门控网络,以完全自我监督的方式,通过不确定性估计来优化MoE的门控网络,并用于专家调度。
首先,本系统引入不确定性估计(Q方差),将多头DDPG扩展为混合专家系统架构。具体来说,扩展了评判家网络,在最后一层同时生成两个值,对应于预测的Q值Q(si,ai)和Q方差σ2(si,ai),通过最小化负对数似然准则(NLL)来优化评判家,如下式:
Figure GDA0002784295250000041
其中,Q(si,ai)表示第i个经验元组中,状态si下执行动作ai的效益,简称Q值;σ2(si,ai)表示评估Q值的方差,简称Q方差;L(θQ)表示评判家网络的损失函数;n表示每次采样n个经验样本训练,最后需要做个平均操作;i表示第i个数据经验样本对应的状态或者动作,yi表示第i个Q值的目标。
为了实现多任务学习的目标,直接扩展了DDPG为多头架构。不同于SOUP,本实施例中将其置信度模块进行替换,使用了上述不确定性估计的扩展增强评判家网络的性能。
其次,增加了由专家不确定性估计自监督的门控网络:它完全由专家以端到端的方式反馈的不确定性估计值校准,没有外在的监督信息辅助,无需人为干预训练过程。
自监督训练方法:当具有K个头{Q,u}1..K的混合专家系统(Q代表评判家,μ代表执行者)与给定的环境状态st交互时,由θG参数化的门控网络G会产生门控值作为调度向量G(st),表示门控网络更倾向于哪个专家在当前状态下执行任务。这里多头DDPG中的每个执行者头都被视为一个专家。随后,每个执行者头都会产生一个候选动作
Figure GDA0002784295250000042
同时它成对的评判家头产生评估的Q值Qk和Q方差
Figure GDA0002784295250000043
Q方差代表着专家在该状态下对其行动评估的不确定性。基于Q值和Q方差向量,本实施例构建目标门控值g′(st)作为自监督信息,即:一般情况下,目标调度向量仅由Q方差向量,按照如下公式构建:
g′(st)=Softmax(H(st)) 公式(2)
H(st)是一个特殊设计的向量,具有K维,其中第k维的值定义如下:
Figure GDA0002784295250000044
而当出现“某个专家的Q值有区分度地高于其他专家的Q值,同时其Q方差也最小”的情况下,H(st)是一个独热编码向量,即该向量中,仅有这个专家对应下标的值为1,其他都为0。
其中KeepTopX(σ2,x)意为只保留σ2的前x个值;σ2是对状态st的不确定性估计值,同样有K维,Q方差
Figure GDA0002784295250000051
表示第k个值;H(st)表示为:当对状态st的第k个Q方差(不确定性估计)处于前x个时,第k维值为1,否则为0。
对于这个式子来说,H(st)鼓励门控网络激活具有相对较高不确定性的专家。与较低不确定性的专家相比,这些专家在st中有更多潜能获得更多奖励。然后根据下式选择当前执行动作at,并与环境交互,接收新状态st+1以及奖励rt
Figure GDA0002784295250000052
at表示动作,k表示第k个专家,g′(st)为目标调度向量,是个K维向量,argmax指的是取最大的数值对应的下标k,并从动作候选集中选择对应的第k个动作作为输出。
一条新经验元组(st,at,st+1,rt,mt)被存储到经验池中,其中
Figure GDA0002784295250000053
Figure GDA0002784295250000054
表示该元组被特定专家训练的概率。在训练期间,每次采样n个样本,像原始DDPG方法一样优化专家系统,同时用均方差函数优化门控网络,如下所示:
Figure GDA0002784295250000055
其中,L(θG)表示门控网络G的损失函数值,用于训练优化;
Figure GDA0002784295250000056
表示把后面一批n个数据的计算值求平均值;g′(si)为G(si)的训练目标;G(si)为针对状态si的调度向量。
最后,本系统中设计带有衰减掩码的经验回放(Decayed Mask ExperienceReplay,DMER),用于不同程度地训练多个专家。具体来说,本实施例在公式(3)中用
Figure GDA0002784295250000057
代替x,一般被初始化为头数量K,并在整个训练过程中衰减:
Figure GDA0002784295250000058
根据如上的系统,基于不确定性估计的自监督混合专家强化学习方法(也叫算法,简称为SUM),SUM利用具有共享网络参数的多头智能体作为多个专家,通过DDPG算法训练以同时学习一系列类似的任务。该方法的流程示意图如图2所示,并所示如下:
S0.随机初始化具有多个头的执行者网络和评判家网络,并将权重参数复制到各自的目标网络,初始化经验回放池,门控网络,以及多任务环境;
S1.智能体从环境中接收状态st,智能体中的门控网络根据状态st输出调度向量G(st);同时,多个执行者根据状态st产生候选动作向量集,与所述多个执行者一一对应的多个评判家根据所述候选动作向量集生成多组Q值和Q方差对;
S2.转换器根据所述多个Q方差,得到目标调度向量g′(st);同时,专家选择器根据g′(st),选择产生高Q值和低Q方差对的执行者,作为强化学习的专家,产生动作at与环境进行交互;
S3.智能体接收环境根据所述动作at所产生的奖励rt与下一个状态st+1;经验回放池存储该经验元组(st,at,st+1,rt,mt);其中,mt=g′(st),表示该经验元组被特定专家训练的概率;
S4.随机选择一对执行者和评判家,随机采样多个经验元组作为批量训练数据,并更新这对执行者和评判家、及其相应的目标网络,以及门控网络;
S5.重复步骤S1-S4,直至达到设置的迭代次数。
具体训练方法可以描述为下表1:
Figure GDA0002784295250000061
Figure GDA0002784295250000071
在连续控制环境MuJoCo及其多任务扩展的MuJoCo上训练并测试SUM方法。图3中的(a)-(d)为Mujoco环境上的基础任务,图3中的(e)-(h)为MuJoCo上的扩展任务。在实施例中进行如下探究:(1)比较单任务环境中不确定性增强带来的影响;(2)进一步分析针对不同难度的情况下处理一系列相关任务的能力;(3)评估SUM在同时学习多个任务时的数据利用效率和专家利用率。
在训练及测试过程中,都使用全连接网络架构,如图1所示,每个长方形代表一个网络层,门控网络有两层,执行者有两层,评判家有三层;,其中隐藏层神经元数目和头层大小用(N,M)表示,即评判家网络为(256,256,128),而执行者(256,128)。同时使用LeakyReLU作为激活函数。门控网络是(256,128),其输出层为Softmax函数。此外,DMER的衰减率是固定的,λ=0.9997。
(1)单任务环境中不确定性增强带来的影响
分别在Hopper环境和Walker环境中,利用本实施例中的SUM方法和原始DDPG方法进行比较,在不确定性估计增强下,具备不同头数量的SUM方法和DDPG方法的性能如下表一、表二、图4a和4b所示。
表一Hopper环境中具备不同头数量的SUM和DDPG的性能(平均奖励±方差)比较结果
Figure GDA0002784295250000081
表二Walker环境中具备不同头数量的SUM和DDPG的性能(平均奖励±方差)比较结果
Figure GDA0002784295250000082
通过表一、表二以及图4a和4b可知,相比于原始DDPG方法来说,头部数量K=1或3的SUM通过可靠准确的Q值评估,在获取平均奖励和学习速度方面都更优。通过图4a和4b可知,在这两种环境中,当配备相同的头数量K=1,SUM比原始DDPG获得稍好的性能(更快地达到稍微高的累积奖励),这是因为SUM使用最小化负对数似然准则(NLL)代替均方误差(MSE)进行优化,能够捕捉到对当前状态的不确定性,也就是说,这个额外的训练目标要求评判家的优化要保证产生不仅准确而且可信赖的Q值评估(表二和表三中方差减小)。而头数量为5时,达到性能最好:训练速度快(曲线斜率最大),获得平均奖励多(Y轴最高),稳定性最好(方差最小)。通过对比头数量K=1,3,5的方法性能,可以得出这种积极的效果(方差减小,评估准确)能随着专家(头)数量的提升,显著增强。总之,SUM在单个任务中增加了不确定性估计带来的性能提升(训练速度、最终累积奖励、训练稳定性)。
为了证明不确定性增强对检测过拟合的有效性,通过计算“训练和测试之间累积奖励的差异”来衡量方法泛化性能,差距越小,性能越好。图5a和图5b表示在图4a和4b在三个不同的训练节点(1M,3M,5M)时的泛化差异。其中,DK和SK表示DDPG和具有K个头的性能。实心柱状表示训练时的累积奖励,斜线柱状表示测试时的累积奖励。
观察可得,虽然有时多头DDPG在训练期间表现更好,但是它会由于测试环境的随机性和复杂性,导致测试性能下降,这是因为DDPG过拟合时,产生的过于自信的Q值通常是不准确的,容易误导算法训练陷入局部最优。经过配备NLL的不确定性估计训练后,SUM在训练和测试中展现较小的差异,对过拟合问题表现较为稳健的泛化效果。SUM整体表现出比DDPG更小的差异,泛化能力越好,这表明不确定性增强有效地缓解了过拟合。
(2)针对不同难度的多任务场景下的泛化能力
在本实施例中,进一步关注SUM对抗健忘性问题和处理没训练过的任务时的泛化能力。这些环境是一系列HalfCheetah的变体任务。由于传统强化学习方法易受健忘性和不同环境下的不同奖励方案影响,一般而言,很难同时在所有任务中实现总体令人满意的性能。
在HalfCheetah环境的系列任务中,利用SUM方法和现有的TRPO(Trust regionpolicy optimization)方法分别进行单个任务训练以及所有任务训练。按照如下表三中列出的顺序在每个环境中连续训练SUM。在完成单独特定任务的训练后,即刻测试该环境下的SUM的平均累积奖励,用“单独训练”表示。重复这个过程,用最后训练好的算法重新评估每个环境下SUM的平均累计奖励,用“完全训练”表示。以上两个指标之间的差异来衡量SUM针对健忘性问题的泛化能力。
表三HalfCheetah环境的系列任务中SUM与TRPO方法的性能比较结果
Figure GDA0002784295250000091
表三中的百分比数值表示“单独训练”和“完全训练”的性能变化比率,百分比越高,表明对抗健忘性的泛化能力越强。由此可知:在HalfCheetah系列任务中,SUM在对抗健忘性问题方面相比TRPO有巨大进步,SUM对抗健忘性的泛化能力强。
另外,表三显示:当按顺序学习时,TRPO方法在不同程度上会受到健忘性问题的影响。我们将此归咎于仅通过TRPO用单个策略网络评估的Q值无法评估多个任务,因为这有极大的过拟合的风险。作为额外的辅助指标,对已知或未知状态的不确定性估计有助于理解不同专家的泛化能力,以及更有效地进行专家调度来完成不同的任务。有了这种增强,SUM不仅在平均累积奖励方面,而且在针对健忘性的泛化能力方面都优于TRPO。此外,SUM可以不按顺序、同时学习多个任务(表中“同时训练”),并获得同样令人满意的性能,即SUM可以同时通过来自不同任务的样本来训练。在这种情况下,SUM可以捕获每个专家对不同领域状态的不确定性估计。一方面,专家们通过共享网络训练,以实现高效的知识共享;另一方面,通过不确定性估计自我监督的门控网络可以选取最可靠的专家来完成特定的任务。
表四为当专家头数为3时,SUM在未训练过的任务上测试的性能;其中左列为训练的环境,右列为测试的环境。从表四可知,当在从没训练过的相关环境中测试时,SUM可以根据以前学到的知识(特征表达)稳健地处理未知任务。特别是,Wall是一种截然不同的环境,要求智能体跨越一堵墙。而传统的强化学习方法在未经过该环境训练的情况下测试时,总是被堵在墙的前面。然而,SUM可以利用有效的知识共享和专家调度,通过不确定性估计的自监督门控网络,适当分配具有不同潜质的专家来处理每个状态,以此解决上述问题。
表四SUM(K=3)在未训练过的任务上测试的性能结果
Figure GDA0002784295250000101
(3)多任务性能
通过进行两组多任务实验,包括Hopper学习在平坦地面、跨越墙壁和楼梯上跳跃的多任务场景,以及Humanoid学习站立、行走和跨越墙壁的多任务场景。图6a-6c表示的是头数量K=3时不同方法在同时学习多个Hopper变种任务时的性能,图7a-7d表示的是头数量K=5时不同方法在同时学习多个Humanoid变种任务的性能。其中Y轴表示平均奖励,其斜率体现训练速度。
由图6a-6c,以及图7a-7d可知,对比SOUP,SUM在给个任务中,训练速度更快和平均累积奖励更高,而同时,SUM+DMER能达到更加平均的专家利用率。
值得注意的是,StandupRunWall是一项极具挑战性的任务,因为其中一个环境Standup使用一种不同的奖励方案来提供更密集的奖励,鼓励机器人尽快站立起来,这容易导致其他输出较为稀疏奖励的环境无法被训练到的问题,进而导致专家不平衡性。实验过程中,SUM和SOUP无法解决该问题。为了抵消这种不利影响,SUM提出了衰减掩码经验重放(DMER)。在训练初期,DMER激励专家学习基本行为,并平等地获得在所有经验池中全方位探索的机会。而在后期,根据专家的不确定性估计,部分样本被屏蔽,不同专家只能使用较少的样本来泛化到单独的环境,这可以激发专业化,方便后续门控网络更加高效地调度专家系统处理多项任务。
图8a和8b为测试期间分别在Hopper和Humanoid环境中不同专家的使用情况,其显示了SOUP容易受到单个专家“垄断”的影响。尽管SUM避免了这个问题,但不平衡的专家利用率仍然阻碍了它的性能提升。当使用DMER时,SUM可以平衡专家系统,让他们仅专注于一两项任务,达到更平衡的专家利用率。
本实施例中的基于不确定性估计的自监督混合专家强化学习系统和方法,可以应用于智能自动驾驶系统,电子游戏,围棋游戏,智能机器人控制,智能语音对话等领域。相较于现有技术,SUM利用具有共享网络参数的多头智能体作为多个专家,通过深度确定性策略梯度算法(DDPG)训练以同时学习一系列类似的任务。每个专家都被引入对已知(训练过程)和未知(测试过程)状态的不确定性估计,以增强抗过拟合的Q值评估能力和模型整体性能。这些使智能体之间能够在不同的任务中提取、迁移并共享学习到的知识(特征表达),从而提高单个任务的学习效率和在多个任务间调度专家的有效性。不同于传统的混合专家系统数据驱动式的设计,SUM采用自我监督的门控网络来确定最具潜能的专家来处理未知任务的每一次交互,并能在没有外在监督信息的情况下,完全通过专家系统反馈的不确定性估计来校准调度的精确度。为了缓解混合专家系统的关键问题—不平衡的专家利用率,通过衰减掩码的经验重放来训练优化算法,在训练的不同时期,让专家专注于不同的目标,进而保证多样化和专业化。
以上内容是结合具体/优选的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,其还可以对这些已描述的实施方式做出若干替代或变型,而这些替代或变型方式都应当视为属于本发明的保护范围。

Claims (9)

1.一种混合专家强化学习方法,其特征在于,包括:
S0.随机初始化具有多个头的执行者网络和评判家网络,并将权重参数复制到各自的目标网络,初始化经验回放池,门控网络,以及多任务环境;
S1.智能体从机器人智能控制的控制环境中接收状态st,智能体中的门控网络根据状态st输出调度向量G(st);同时,多个执行者根据状态st产生候选动作向量集,与所述多个执行者一一对应的多个评判家根据所述候选动作向量集生成多组Q值和Q方差对;所述Q值为状态s下执行动作a的效益;Q方差为评估Q值的方差;
S2.转换器根据所述多个Q方差,得到目标调度向量g′(st);同时,专家选择器根据g′(st),选择产生高Q值和低Q方差对的执行者,作为强化学习的专家,产生动作at与机器人智能控制的控制环境进行交互;
S3.智能体接收机器人智能控制的控制环境根据所述动作at所产生的奖励rt与下一个状态st+1;经验回放池存储经验元组(st,at,st+1,rt,mt);其中,mt=g′(st),表示该经验元组被特定专家训练的概率;
S4.随机选择一对执行者和评判家,随机采样多个经验元组作为批量训练数据,并更新这对执行者和评判家、及其相应的目标网络,以及门控网络;
S5.重复步骤S1-S4,直至达到设置的迭代次数;
所述经验回放池中带有衰减掩码,用于不同程度地使用不同经验样本训练多个专家。
2.如权利要求1所述的混合专家强化学习方法,其特征在于,步骤S2中根据如下公式产生目标调度向量g′(st):
g′(st)=soft max(H(st));
所述H(st)为一个独热编码向量,具有K维,其中第k维的值定义如下:
Figure FDA0002784295240000011
其中,函数KeepTopX(σ2,x)表示只保留σ2的前x个值,而σ2是对状态st的不确定性估计值,同样有K维,
Figure FDA0002784295240000012
表示第k个值;H(st)表示为“当对状态st的第k个不确定性估计处于前x个时,H(st)的第k维值为1,否则为0”。
3.如权利要求1所述的混合专家强化学习方法,其特征在于,所述步骤S2中根据如下公式产生动作at
Figure FDA0002784295240000021
其中k表示第k个专家,g′(st)为目标调度向量,是个K维向量,argmax指的是取g′(st)最大的数值对应的下标k,并从动作候选集中选择对应的第k个动作作为输出。
4.如权利要求1所述的混合专家强化学习方法,其特征在于,所述步骤S4中通过最小化负对数似然准则来更新所述评判家;所述最小化负对数似然准则表达为如下公式:
Figure FDA0002784295240000022
其中,Q(si,ai)表示在第i个经验元组的状态下,执行动作的效益,简称Q值;σ2(si,ai)表示评估Q值的方差,简称Q方差;L(θQ)表示评判家网络的损失函数,n表示每次采样n个经验样本训练,最后需要做个平均操作,i表示第i个数据经验样本对应的状态或者动作,yi表示第i个Q值的目标。
5.如权利要求1所述的混合专家强化学习方法,其特征在于,所述步骤S4中通过如下公式更新所述执行者:
Figure FDA0002784295240000023
其中,i为正整数,表示第i个;θQ表示评判家网络,n表示经验元组的个数,θμ表示执行者网络,
Figure FDA0002784295240000024
表示执行者模型参数的梯度值;
Figure FDA0002784295240000025
是评判家产生的Q值对于动作a的梯度;动作由μ(si,θμ)产生,即执行者产生的动作;
Figure FDA0002784295240000026
是执行者模型参数的梯度;公式后面两个梯度是相乘的关系。
6.如权利要求1所述的混合专家强化学习方法,其特征在于,所述步骤S4中根据如下公式更新所述目标网络:
θQ′←(1-τ)θQ′+τθQ,θμ′←(1-τ)θμ′+τθμ
其中,θQ′是目标评判家的参数;θQ是当前评判家的参数;θμ′是目标执行者的参数;θμ是当前执行者的参数;τ是更新的比例参数。
7.如权利要求1所述的混合专家强化学习方法,其特征在于,所述步骤S4中用均方差函数优化更新所述门控网络,所述均方差函数表达为如下公式:
Figure FDA0002784295240000031
其中,L(θG)表示门控网络G的损失函数值,用于训练优化;
Figure FDA0002784295240000032
表示把后面一批n个数据的计算值求平均值;g’(si)为G(si)的训练目标;G(si)为针对状态si的调度向量。
8.如权利要求1所述的混合专家强化学习方法,其特征在于,所述衰减掩码表达为如下公式:
Figure FDA0002784295240000033
其中,
Figure FDA0002784295240000034
表示第t+1时刻的衰减掩码,等于第t时刻的衰减掩码乘以λn,再向上取整操作;而λn是不断累乘的λ产生的数值。
9.一种混合专家强化学习系统,其特征在于,包括:机器人智能控制的控制环境和智能体,所述智能体包括:门控网络,具有多个头的执行者网络和评判家网络,转换器,专家选择器以及经验回放池;所述系统采用如权利要求1-8任一项所述的混合专家强化学习方法。
CN201910078047.2A 2019-01-28 2019-01-28 一种混合专家强化学习方法及系统 Active CN109657802B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910078047.2A CN109657802B (zh) 2019-01-28 2019-01-28 一种混合专家强化学习方法及系统
PCT/CN2019/129487 WO2020155994A1 (zh) 2019-01-28 2019-12-27 一种混合专家强化学习方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910078047.2A CN109657802B (zh) 2019-01-28 2019-01-28 一种混合专家强化学习方法及系统

Publications (2)

Publication Number Publication Date
CN109657802A CN109657802A (zh) 2019-04-19
CN109657802B true CN109657802B (zh) 2020-12-29

Family

ID=66121776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910078047.2A Active CN109657802B (zh) 2019-01-28 2019-01-28 一种混合专家强化学习方法及系统

Country Status (2)

Country Link
CN (1) CN109657802B (zh)
WO (1) WO2020155994A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657802B (zh) * 2019-01-28 2020-12-29 清华大学深圳研究生院 一种混合专家强化学习方法及系统
CN111178541B (zh) * 2019-12-30 2023-04-18 上海交通大学 游戏人工智能系统及其性能提升系统及方法
US11481267B2 (en) 2020-05-28 2022-10-25 International Business Machines Corporation Reinforcement learning approach to root cause analysis
CN114118434A (zh) * 2020-08-27 2022-03-01 朱宝 智能机器人及其学习方法
CN114429195A (zh) * 2022-01-21 2022-05-03 清华大学 混合专家模型训练的性能优化方法和装置
CN115064173B (zh) * 2022-07-27 2022-12-09 北京达佳互联信息技术有限公司 语音识别方法、装置、电子设备及计算机可读介质
CN115630677B (zh) * 2022-11-07 2023-10-13 北京百度网讯科技有限公司 任务处理方法、装置、电子设备及介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1800778A (zh) * 2005-01-05 2006-07-12 三丰株式会社 用于估计不确定性的方法和程序
CN102693265A (zh) * 2011-02-15 2012-09-26 通用电气公司 构造混合模型的方法
CN103488887A (zh) * 2013-09-16 2014-01-01 北京理工大学 一种基于混合专家网络的产品可靠性评估方法
CN106156858A (zh) * 2015-03-31 2016-11-23 日本电气株式会社 分片线性模型生成系统和生成方法
CN106557451A (zh) * 2015-09-30 2017-04-05 日本电气株式会社 一种用于分层混合专家系统构建的特征选择的方法和设备
WO2018085643A1 (en) * 2016-11-04 2018-05-11 Google Llc Mixture of experts neural networks
CN108600379A (zh) * 2018-04-28 2018-09-28 中国科学院软件研究所 一种基于深度确定性策略梯度的异构多智能体协同决策方法
WO2018213841A1 (en) * 2017-05-19 2018-11-22 Google Llc Multi-task multi-modal machine learning model
CN109190482A (zh) * 2018-08-06 2019-01-11 北京奇艺世纪科技有限公司 多标签视频分类方法及系统、系统训练方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140324747A1 (en) * 2013-04-30 2014-10-30 Raytheon Company Artificial continuously recombinant neural fiber network
CN106156855A (zh) * 2015-03-31 2016-11-23 日本电气株式会社 用于混合建模的初始化方法和初始化系统
US20180082139A1 (en) * 2016-09-22 2018-03-22 WhatUBuy LLC Efficiently Building Nutrition Intake History from Images of Receipts
CN109657802B (zh) * 2019-01-28 2020-12-29 清华大学深圳研究生院 一种混合专家强化学习方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1800778A (zh) * 2005-01-05 2006-07-12 三丰株式会社 用于估计不确定性的方法和程序
CN102693265A (zh) * 2011-02-15 2012-09-26 通用电气公司 构造混合模型的方法
CN103488887A (zh) * 2013-09-16 2014-01-01 北京理工大学 一种基于混合专家网络的产品可靠性评估方法
CN106156858A (zh) * 2015-03-31 2016-11-23 日本电气株式会社 分片线性模型生成系统和生成方法
CN106557451A (zh) * 2015-09-30 2017-04-05 日本电气株式会社 一种用于分层混合专家系统构建的特征选择的方法和设备
WO2018085643A1 (en) * 2016-11-04 2018-05-11 Google Llc Mixture of experts neural networks
WO2018213841A1 (en) * 2017-05-19 2018-11-22 Google Llc Multi-task multi-modal machine learning model
CN108600379A (zh) * 2018-04-28 2018-09-28 中国科学院软件研究所 一种基于深度确定性策略梯度的异构多智能体协同决策方法
CN109190482A (zh) * 2018-08-06 2019-01-11 北京奇艺世纪科技有限公司 多标签视频分类方法及系统、系统训练方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Everson Ver'ıssimo 等.Diversity in task decomposition: A strategy for combining mixtures of experts.《The 2013 International Joint Conference on Neural Networks (IJCNN)》.2013, *
基于动态融合目标的深度强化学习算法研究;徐志雄 等;《计算机工程与应用》;20180913;第55卷(第7期);157-161 *
联合均值与方差混合专家回归模型的参数估计;李双双 等;《应用数学》;20181218;第32卷(第1期);134-140 *

Also Published As

Publication number Publication date
WO2020155994A1 (zh) 2020-08-06
CN109657802A (zh) 2019-04-19

Similar Documents

Publication Publication Date Title
CN109657802B (zh) 一种混合专家强化学习方法及系统
Liessner et al. Hyperparameter Optimization for Deep Reinforcement Learning in Vehicle Energy Management.
CN110766044B (zh) 一种基于高斯过程先验指导的神经网络训练方法
Zhang et al. Scheduled intrinsic drive: A hierarchical take on intrinsically motivated exploration
Manela et al. Bias-reduced hindsight experience replay with virtual goal prioritization
Szot et al. Large language models as generalizable policies for embodied tasks
Wu et al. Quality-similar diversity via population based reinforcement learning
CN110399279B (zh) 一种用于非人智能体的智能度量方法
Oshri et al. Predicting moves in chess using convolutional neural networks
Schmitt et al. Meta-uncertainty in Bayesian model comparison
Fu et al. Greedy when sure and conservative when uncertain about the opponents
Kujanpää et al. Hierarchical imitation learning with vector quantized models
CN114372520A (zh) 一种基于双智能体竞争强化学习的机器人路径探索方法
Wiehe et al. Sampled policy gradient for learning to play the game agar. io
Zhang et al. Immune algorithm with adaptive sampling in noisy environments and its application to stochastic optimization problems
Ha Neuroevolution for deep reinforcement learning problems
US20220343216A1 (en) Information processing apparatus and information processing method
Zheng et al. Self-supervised mixture-of-experts by uncertainty estimation
Almalki et al. Exploration of reinforcement learning to play snake game
CN112529295A (zh) 一种基于进度预测的自监督视觉语言导航器及路径缩短方法
Yang et al. Enhanced sparrow search algorithm based on improved game predatory mechanism and its application
Lee et al. Can a reinforcement learning agent practice before it starts learning?
AU2021102183A4 (en) Automated neural network generation using fitness estimation
Peng Policy Direct Search for Effective Reinforcement Learning
Bai et al. Duality in deep reinforcement learning—theory

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant