CN113469369A - 一种面向多任务强化学习的缓解灾难性遗忘的方法 - Google Patents

一种面向多任务强化学习的缓解灾难性遗忘的方法 Download PDF

Info

Publication number
CN113469369A
CN113469369A CN202110624840.5A CN202110624840A CN113469369A CN 113469369 A CN113469369 A CN 113469369A CN 202110624840 A CN202110624840 A CN 202110624840A CN 113469369 A CN113469369 A CN 113469369A
Authority
CN
China
Prior art keywords
network
gradient
task
value
tasks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110624840.5A
Other languages
English (en)
Other versions
CN113469369B (zh
Inventor
李永强
胡青阳
叶晶晶
王瑞琰
陈思远
高昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETHIK Group Ltd
Original Assignee
CETHIK Group Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETHIK Group Ltd filed Critical CETHIK Group Ltd
Priority to CN202110624840.5A priority Critical patent/CN113469369B/zh
Publication of CN113469369A publication Critical patent/CN113469369A/zh
Application granted granted Critical
Publication of CN113469369B publication Critical patent/CN113469369B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Mechanical Engineering (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Robotics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种面向多任务强化学习的缓解灾难性遗忘的方法,包括:初始化T个任务的存储空间M,存储空间M中包括T个存储器,为每个任务分配一个存储器,采用存储器Mk存储任务k对应的智能体与环境交互的情景样本;根据存储器Mk存储的任务k对应的情景样本,定义损失函数L(fθ,Mk);基于当前的任务k和前k‑1个任务的网络梯度,求解模型最优的网络梯度
Figure DDA0003101797470000011
融合网络梯度求解与强化学习方法中的神经网络,重新定义神经网络的损失函数,更新强化学习训练过程Q值现实网络和Q值估计网络中的网络梯度,以缓解灾难性遗忘。

Description

一种面向多任务强化学习的缓解灾难性遗忘的方法
技术领域
本申请属于强化学习和持续学习技术领域,具体涉及一种面向多任务强化学习的缓解灾难性遗忘的方法。
背景技术
通常认为生物神经网络工作机理中,包括记忆在内的所有生物神经功能,都存储在神经元及其之间的连接上。学习被看作是在神经元之间建立新的连接或对已有的连接进行修改的过程。早在20世纪60年代,科学家们就基于对生物神经网络工作机理的认识,期望构造出像人类大脑一样容纳智慧、意识、记忆的人工神经网络。目前提出的深度学习在结构上、以及功能上与生物神经网络都相去甚远,且与生物神经网络相比较,现有的深度学习还存在诸多缺陷,灾难性遗忘就是缺陷之一。
所谓的灾难性遗忘即学习了新的知识之后,几乎彻底遗忘掉之前习得的内容,它使得人工智能体缺乏像生物一样不断适应环境以及持续学习的能力。例如,在机器人导航仿真环境中,根据目标点、障碍物、墙壁、房间摆设的不同划分10个任务,使用强化学习方法依次对10个任务训练,结果随着任务量的增加,模型在之前任务中的机器人导航任务的成功率极具下降。如果采用单任务学习方法,则需要多个模型学习多个任务,极大增加了开发的复杂度和模型训练成本。
发明内容
本申请的目的在于提供一种面向多任务强化学习的缓解灾难性遗忘的方法,解决单模型在多任务学习过程中灾难性遗忘问题,提高多任务执行的准确率。
为实现上述目的,本申请所采取的技术方案为:
一种面向多任务强化学习的缓解灾难性遗忘的方法,所述面向多任务强化学习的缓解灾难性遗忘的方法,包括:
步骤1、初始化T个任务的存储空间M,所述存储空间M中包括T个存储器,为每个任务分配一个存储器,采用存储器Mk存储任务k对应的智能体与环境交互的情景样本,所述情景样本包括环境当前的状态s、智能体采取的动作a、获得环境的奖励r,环境的下一个状态s′,k=1,2,3…T;
步骤2、根据存储器Mk存储的任务k对应的情景样本,定义损失函数L(fθ,Mk),其中θ∈Rp参数化的预测变量为fθ
步骤3、基于当前的任务k和前k-1个任务的网络梯度,求解模型最优的网络梯度
Figure BDA0003101797450000024
包括:
步骤31、取存储器{M1,M2,…Mk-1}中存储的情景样本,用任务k对应的模型网络参数分别对每个存储器中的情景样本进行训练,记录前k-1个任务对应的网络梯度为MGk-1={g1,g2,…gk-1},并通过损失函数L(fθ,Mk)反向传播更新模型网络参数;
步骤32、记录网络梯度MGk-1与任务k对应的网络梯度gk,分别计算当前任务k的网络梯度与前k-1个任务中每一任务对应的网络梯度的夹角<gk,ga>,a=1,2,3…k-1;
步骤33、若网络梯度gk和ga的向量内积不小于0,且夹角<gk,ga>为锐角,则学习当前任务k时,任务k的损失不会增加,将网络梯度gk作为模型最优的网络梯度
Figure BDA0003101797450000021
否则计算网络梯度gk的投影,并更新模型最优的网络梯度
Figure BDA0003101797450000022
步骤4、融合网络梯度求解与强化学习方法中的神经网络,重新定义神经网络的损失函数,更新强化学习训练过程Q值现实网络和Q值估计网络中的网络梯度,以缓解灾难性遗忘,包括:
步骤41、重新定义神经网络的损失函数,取强化学习方法中原始的Q值现实网络和Q值估计网络的损失函数分别为Le(θ)和Lt(θ),则重新定义后的损失函数如下:
L′e(θ)=Le(θ)+L(fθ,Mk)
L′t(θ)=Lt(θ)+L(fθ,Mk)
式中,L′e(θ)为强化学习Q值现实网络重新定义后的损失函数,L′t(θ)为强化学习Q值估计网络重新定义后的损失函数;
步骤42、计算重新定义后的损失函数的网络梯度g′,记录前k-1个任务的网络梯度MGk-1,间隔时间Δt在存储器Mk存储的情景样本上训练,并根据步骤3求解更新后的网络梯度
Figure BDA0003101797450000023
修改更新强化学习Q值现实网络和Q值估计网络的梯度参数,基于前k-1个任务对应的存储器{M1,M2,…Mk-1}中的情景样本和当前任务k对应的存储器Mk中的情景样本,训练Q值现实网络和Q值估计网络,直到达到收敛条件或循环结束。
以下还提供了若干可选方式,但并不作为对上述总体方案的额外限定,仅仅是进一步的增补或优选,在没有技术或逻辑矛盾的前提下,各可选方式可单独针对上述总体方案进行组合,还可以是多个可选方式之间进行组合。
作为优选,所述损失函数L(fθ,Mk),定义如下:
Figure BDA0003101797450000031
minimizeθ L(fθ(x,k),y)
Figure BDA0003101797450000032
式中,|Mk|是存储器Mk中情景样本的样本数量,λ是调节样本平衡的参数,x是任务k对应的总的情景样本,i是数据中样本的索引,xi是x中索引为i的样本子集,y是任务k对应的总的标签,yi是y中索引为i的标签子集,fθ(xi,k)为针对任务k的样本子集xi的网络预测值,L(fθ(xi,k),yi)是网络预测值fθ(xi,k)与真实的标签yi之间的损失,ysoft是“softlabel”方法中标签的概率值,
Figure BDA0003101797450000033
是针对任务k-1学习结束后得到的预测变量,T是学习的总任务数量。
作为优选,所述计算网络梯度gk的投影,并更新模型最优的网络梯度
Figure BDA0003101797450000039
包括:
步骤331、设定当前任务k的网络梯度gk与更新后的网络梯度
Figure BDA00031017974500000310
的优化目标和约束条件如下:
Figure BDA0003101797450000034
Figure BDA0003101797450000035
式中,T是学习的总任务数量,gk-1为任务k-1对应的网络梯度;
步骤332、根据步骤331设定的优化目标和约束条件,使用二次规划方法求解
Figure BDA0003101797450000036
令二次规划的原始形式为:
Figure BDA0003101797450000037
subject to Az≥b
式中,C∈Rp*p,p∈Rp,A∈R(t-1)*p和b∈Rt-1,二次规划的原始形式的对偶问题如下:
minimizeu,v
Figure BDA0003101797450000038
Figure BDA0003101797450000041
设(u*,v*)为对偶问题的解,则有解z*满足二次规划的原始形式中约束条件使Cz*=Cu*,则建立优化后的针对网络梯度优化的二次规划方程如下:
minimizez
Figure BDA0003101797450000042
Subject to Gz≥0
式中,z为未知数,G=-(g1,g2,....gk-1),二次规划求解抛弃常数项gk Tgk
则令二次规划方程的对偶形式为:
minimizev
Figure BDA0003101797450000043
Subject to v≥0
式中,u=GTv+gk
求解v*的对偶问题后,更新模型最优的网络梯度为
Figure BDA0003101797450000044
作为优选,所述计算重新定义后的损失函数的网络梯度g',包括:
Figure BDA0003101797450000046
式中,st表示t时刻的环境状态,at是t时刻与环境交互的动作值,rt是t时刻获得环境的奖励,st+1表示t+1时刻的环境状态,a′是环境状态st+1是对应的动作值,θt是t时刻Q值现实网络的网络参数,Q(,;)是Q值现实网络的Q值。
本申请提供的面向多任务强化学习的缓解灾难性遗忘的方法,通过记录k-1任务的少量情景样本和梯度,基于第k任务的梯度与之前k-1个任务的梯度的关系,通过更新梯度方法,使学习完第k个任务之后,之前学习的k-1个任务的模型不出现灾难遗忘问题。本方法提升了多任务间持续学习能力和复杂任务的能力,并且有利于k任务的知识迁移到k+1任务,提升模型训练效率。
附图说明
图1为本申请的面向多任务强化学习的缓解灾难性遗忘的方法的流程图;
图2为更新Q值现实网络和Q值估计网络的梯度的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是在于限制本申请。
其中一个实施例中,提供一种面向多任务强化学习的缓解灾难性遗忘的方法,解决单模型在若干不同任务学习过程中灾难性遗忘问题,提高多任务执行的准确率,并对相关的下一任务学习效率和准确率有促进作用。
本实施例提供的方法在机器人导航任务、机器人作业任务、博弈对抗任务等领域中均具有较优的应用前景。可实现使用单个模型在变化环境中学习持续执行多个任务的能力。例如,在设定障碍物、墙壁、家具、房间布置的位置和数量不同的室内环境,导航通过每个房间可以看作一个任务,基于本方法智能体能够快速通过房间1、房间2...房间N,导航到目标点。
需要说明的是,对于面向更复杂的变化环境和多任务学习的智能体,如果采用多任务持续学习方法,本方法同样适用。
如图1所示,本实施例面向多任务强化学习的缓解灾难性遗忘的方法,包括以下步骤:
步骤1、初始化T个任务的存储空间M,所述存储空间M中包括T个存储器,为每个任务分配一个存储器,采用存储器Mk存储任务k对应的智能体与环境交互的情景样本,k=1,2,3…T,所述情景样本包括环境当前的状态s、智能体采取的动作a、获得环境的奖励r,环境的下一个状态s′,其中M和Mk如下:
M={M1,M2,…,Mk,…,MT}
Mk={s,a,r,s′}
步骤2、根据存储器Mk存储的任务k对应的情景样本,定义损失函数L(fθ,Mk),其中θ∈Rn参数化的预测变量为fθ,n是矩阵维度。
本实施例中损失函数L(fθ,Mk),定义如下:
Figure BDA0003101797450000051
minimizeθL(fθ(x,k),y)
Figure BDA0003101797450000061
式中,|Mk|是存储器Mk中情景样本的样本数量,λ是预设的调节样本平衡的参数,x是任务k对应的总的情景样本,i是数据中样本的索引,xi是x中索引为i的样本子集,y是任务k对应的总的标签,yi是y中索引为i的标签子集,fθ(xi,k)为针对任务k的样本子集xi的网络预测值,L(fθ(xi,k),yi)是网络预测值fθ(xi,k)与真实的标签yi之间的损失,ysoft是“softlabel”方法中标签的概率值,在损失函数中增加“soft label”方法中的ysoft,以解决存储器Mk中样本训练过程中易过拟合的问题,L(fθ(xi,k),ysoft)是网络预测值fθ(xi,k)与标签的概率值ysoft之间的损失,
Figure BDA0003101797450000062
的是任务k-1学习结束时的预测变量,fθ为当前待求解的未知量,T是学习的总任务数量,即对应步骤1中初始化的T个任务。minimizeθ为优化目标取最小值,神经网络训练使模型收敛,模型收敛的主要判断依据是损失下降至不能再下降,也就是最小。
步骤3、基于当前的任务k和前k-1个任务的网络梯度,求解模型最优的网络梯度
Figure BDA0003101797450000063
以找到能够满足多任务学习的最优值梯度,使模型网络在k个任务上表现很好,同时之前k-1个任务损失不增加,网络不出现灾难性遗忘问题,包括:
步骤31、取存储器{M1,M2,…Mk-1}中存储的情景样本,用任务k(当前任务)对应的模型网络参数分别对每个存储器中的情景样本进行训练,记录前k-1个任务对应的网络梯度为MGk-1={g1,g2,…gk-1},并通过损失函数L(fθ,Mk)反向传播更新模型网络参数。
步骤32、记录网络梯度MGk-1与任务k对应的网络梯度
Figure BDA0003101797450000064
分别计算当前任务k的网络梯度与前k-1个任务中每一任务对应的网络梯度的夹角
Figure BDA0003101797450000065
Figure BDA0003101797450000066
步骤33、若网络梯度gk和ga的向量内积不小于0,且夹角
Figure BDA0003101797450000067
为锐角,则学习当前任务k时,任务k的损失不会增加,将网络梯度gk作为模型最优的网络梯度
Figure BDA0003101797450000068
否则计算网络梯度gk的投影,并更新模型最优的网络梯度
Figure BDA0003101797450000069
本实施例中网络梯度gk和ga的向量内积不小于0的判断公式为:
Figure BDA00031017974500000610
若满足公式(2)则网络梯度gk和ga的向量内积不小于0。
其中,计算网络梯度gk的投影,并更新模型最优的网络梯度
Figure BDA00031017974500000611
包括以下步骤:
步骤331、设定当前任务k的网络梯度gk与更新后的网络梯度
Figure BDA00031017974500000710
的优化目标和约束条件如下,将梯度gk的投影到满足L2范式约束条件下的最接近梯度
Figure BDA00031017974500000711
使梯度更新之后,之前的任务损失不增加:
Figure BDA0003101797450000071
Figure BDA0003101797450000072
式中,T是学习的总任务数量,gk-1为任务k-1对应的网络梯度。
步骤332、根据步骤331设定的优化目标和约束条件,使用二次规划方法求解
Figure BDA0003101797450000073
现有技术中求带不等式约束的二次规划方程的原始形式为:
Figure BDA0003101797450000074
subjet to Az≥b (4)
式中,C∈Rn*n,p∈Rn,A∈R(t-1)*n和b∈Rt-1。公式(4)的对偶问题为:
minimizeu,v
Figure BDA0003101797450000075
Figure BDA0003101797450000076
设(u*,v*)为公式(5)的解,则有解z*满足公式(4)的约束条件使Cz*=Cu*。二次规划是支持向量机的核心,根据以上参数,本文提出网络梯度优化方法二次规划(QP)方程如下:
minimizez
Figure BDA0003101797450000077
Subject to Gz≥0
式中,z为未知数,G=-(g1,g2,....gk-1),因为二次规划求解过程中常数项对迭代求解过程不影响因此抛弃常数项gk Tgk,这是对p个变量(神经网络的参数数量)的QP,可以百万为单位进行度量。
令二次规划方程的对偶形式为:
minimizev
Figure BDA0003101797450000078
Subject to v≥0 (7)
式中,u=GTv+gk。这关于t-1、p变量的QP。求解v*的对偶问题,既可以恢复投影梯度,将更新模型最优的网络梯度为
Figure BDA0003101797450000079
步骤4、融合网络梯度求解与强化学习方法中的神经网络,重新定义神经网络的损失函数,更新强化学习训练过程Q值现实网络和Q值估计网络中的网络梯度,以缓解灾难性遗忘,使其能够在线训练多个任务,并不遗忘之前任务,包括:
如图2所示,首先本实施例中的强化学习网络动作-值函数为:
Q*(st,at)=E[rt+γmaxa′Q*(st+1,a′)] (8)
其中,Q*(st,at)为状态st的最优值函数,a′表示下一状态st+1的动作命令,Q*(st+1,a′)为下一状态st+1的最优值函数,rt是t时刻获得环境的奖励,γ为预设参数。
值函数的网络参数为θ时,损失函数定义为:
Figure BDA0003101797450000081
yt=rt+γmaxa′Qtarget(st+1,a′)t (9)
Qeval(s,a)表示Q值估计网络,Qtarget(s,a)表示Q值现实网络,LQ(θ)为值函数的网络参数为θ时的损失函数。
步骤41、重新定义神经网络的损失函数,取强化学习方法中原始的Q值现实网络和Q值估计网络的损失函数分别为Le(θ)和Lt(θ),则重新定义后的损失函数如下:
L′e(θ)=Le(θ)+L(fθ,Mk)
L′t(θ)=Lt(θ)+L(fθ,Mk) (10)
式中,L′e(θ)为强化学习Q值现实网络重新定义后的损失函数,L′t(θ)为强化学习Q值估计网络重新定义后的损失函数;
步骤42、计算重新定义后的损失函数的网络梯度g′,记录前k-1个任务的网络梯度MGk-1,间隔时间Δt在存储器Mk存储的情景样本上训练,并根据步骤3求解更新后的网络梯度
Figure BDA0003101797450000082
修改更新强化学习Q值现实网络和Q值估计网络的梯度参数,基于前k-1个任务对应的存储器{M1,M2,…Mk-1}中的情景样本和当前任务k对应的存储器Mk中的情景样本,训练Q值现实网络和Q值估计网络,直到达到收敛条件或循环结束。
其中,所述计算融合后损失函数的网络梯度g′,包括:
Figure BDA0003101797450000083
Figure BDA0003101797450000091
式中,st表示t时刻的环境状态,at是t时刻与环境交互的动作值,rt是t时刻获得环境的奖励,st+1表示t+1时刻的环境状态,a′是环境状态st+1是对应的动作值,θt是t时刻Q值现实网络的网络参数,θt+1是t+1时刻Q值现实网络的网络参数,Q(,;)是Q值现实网络的Q值,如Q(st+1,a';θt+1)为Q值现实网络基于t+1时刻的网络参数针对环境状态st+1和动作值a′得到的Q值,其他类推理解。
本实施例中的缓解网络灾难性遗忘的方法,能使智能体持续学习多个任务,并不遗忘之前的学习的任务,同时对未学习的任务有一定的启发,提升模型在多任务学习过程中持续学习能力、复杂任务学习效率和泛化能力。
在一个实施例中,通过使用平均准确率(ACC)、逆向迁移(BWT)和正向迁移(FWT)三个指标评价本实施例提出的缓解灾难性遗忘的方法的有效性。
其中,ACC表征N个任务学完之后的总体的性能。BWT(Backward Transfer),表征N个任务学完后,对之前任务的总体遗忘的程度;通常为负数,越大越好,为正表示没有遗忘,且有利于逆向迁移。FWT(Forward Transfer)表征N个任务学完后,总体学习的程度;通常为正数,越大越好。
Average Accuracy:
Figure BDA0003101797450000092
Backward Transfer:
Figure BDA0003101797450000093
Forward Transfer:
Figure BDA0003101797450000094
T是总的task数量;Ri,j是第j个任务的神经网络模型在第i个任务的准确率,其他类推理解;bi是第i个任务的随机的平均准确率,测试结果如下表1所示:
表1 测试结果统计表
Figure BDA0003101797450000095
Figure BDA0003101797450000101
本实施例基于表1的统计方式,以T=3为例进行试验,记录试验结果如表2所示:
表2 T=3时的试验结果统计表
任务/准确率 Task1 Task2 Task3
Task1 99% 13% 8%
Task2 83% 92% 17%
Task3 87% 93% 86%
注:实验结果的准确率是模型在执行100次各任务的成功率
根据表2中的数据计算ACC、BWT和FWT三个指标,得到本申请提供的缓解灾难性遗忘的方法能够有效缓解模型出现灾难性遗忘的问题,学习性能好。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (4)

1.一种面向多任务强化学习的缓解灾难性遗忘的方法,其特征在于,所述面向多任务强化学习的缓解灾难性遗忘的方法,包括:
步骤1、初始化T个任务的存储空间M,所述存储空间M中包括T个存储器,为每个任务分配一个存储器,采用存储器Mk存储任务k对应的智能体与环境交互的情景样本,所述情景样本包括环境当前的状态s、智能体采取的动作a、获得环境的奖励r,环境的下一个状态s′,k=1,2,3…T;
步骤2、根据存储器Mk存储的任务k对应的情景样本,定义损失函数L(fθ,Mk),其中θ∈Rp参数化的预测变量为fθ
步骤3、基于当前的任务k和前k-1个任务的网络梯度,求解模型最优的网络梯度
Figure FDA0003101797440000011
包括:
步骤31、取存储器{M1,M2,…Mk-1}中存储的情景样本,用任务k对应的模型网络参数分别对每个存储器中的情景样本进行训练,记录前k-1个任务对应的网络梯度为MGk-1={g1,g2,…gk-1},并通过损失函数L(fθ,Mk)反向传播更新模型网络参数;
步骤32、记录网络梯度MGk-1与任务k对应的网络梯度gk,分别计算当前任务k的网络梯度与前k-1个任务中每一任务对应的网络梯度的夹角<gk,ga>,a=1,2,3…k-1;
步骤33、若网络梯度gk和ga的向量内积不小于0,且夹角<gk,ga>为锐角,则学习当前任务k时,任务k的损失不会增加,将网络梯度gk作为模型最优的网络梯度
Figure FDA0003101797440000012
否则计算网络梯度gk的投影,并更新模型最优的网络梯度
Figure FDA0003101797440000013
步骤4、融合网络梯度求解与强化学习方法中的神经网络,重新定义神经网络的损失函数,更新强化学习训练过程Q值现实网络和Q值估计网络中的网络梯度,以缓解灾难性遗忘,包括:
步骤41、重新定义神经网络的损失函数,取强化学习方法中原始的Q值现实网络和Q值估计网络的损失函数分别为Le(θ)和Lt(θ),则重新定义后的损失函数如下:
L′e(θ)=Le(θ)+L(fθ,Mk)
L′t(θ)=Lt(θ)+L(fθ,Mk)
式中,L′e(θ)为强化学习Q值现实网络重新定义后的损失函数,L′t(θ)为强化学习Q值估计网络重新定义后的损失函数;
步骤42、计算重新定义后的损失函数的网络梯度g′,记录前k-1个任务的网络梯度MGk-1,间隔时间Δt在存储器Mk存储的情景样本上训练,并根据步骤3求解更新后的网络梯度
Figure FDA0003101797440000021
修改更新强化学习Q值现实网络和Q值估计网络的梯度参数,基于前k-1个任务对应的存储器{M1,M2,…Mk-1}中的情景样本和当前任务k对应的存储器Mk中的情景样本,训练Q值现实网络和Q值估计网络,直到达到收敛条件或循环结束。
2.如权利要求1所述的面向多任务强化学习的缓解灾难性遗忘的方法,其特征在于,所述损失函数L(fθ,Mk),定义如下:
Figure FDA0003101797440000022
minimizeθ L(fθ(x,k),y)
Figure FDA0003101797440000023
for all k<T
式中,|Mk|是存储器Mk中情景样本的样本数量,λ是调节样本平衡的参数,x是任务k对应的总的情景样本,i是数据中样本的索引,xi是x中索引为i的样本子集,y是任务k对应的总的标签,yi是y中索引为i的标签子集,fθ(xi,k)为针对任务k的样本子集xi的网络预测值,L(fθ(xi,k),yi)是网络预测值fθ(xi,k)与真实的标签yi之间的损失,ysoft是“softlabel”方法中标签的概率值,
Figure FDA0003101797440000024
是针对任务k-1学习结束后得到的预测变量,T是学习的总任务数量。
3.如权利要求1所述的面向多任务强化学习的缓解灾难性遗忘的方法,其特征在于,所述计算网络梯度gk的投影,并更新模型最优的网络梯度
Figure FDA0003101797440000029
包括:
步骤331、设定当前任务k的网络梯度gk与更新后的网络梯度
Figure FDA00031017974400000210
的优化目标和约束条件如下:
Figure FDA0003101797440000025
Figure FDA0003101797440000026
for all k<T
式中,T是学习的总任务数量,gk-1为任务k-1对应的网络梯度;
步骤332、根据步骤331设定的优化目标和约束条件,使用二次规划方法求解
Figure FDA0003101797440000027
令二次规划的原始形式为:
Figure FDA0003101797440000028
subject to Az≥b
式中,C∈Rp*p,p∈Rp,A∈R(t-1)*p和b∈Rt-1,二次规划的原始形式的对偶问题如下:
Figure FDA0003101797440000031
Figure FDA0003101797440000032
设(u*,v*)为对偶问题的解,则有解z*满足二次规划的原始形式中约束条件使Cz*=Cu*,则建立优化后的针对网络梯度优化的二次规划方程如下:
Figure FDA0003101797440000033
Subject to Gz≥0
式中,z为未知数,G=-(g1,g2,....gk-1),二次规划求解抛弃常数项gk Tgk
则令二次规划方程的对偶形式为:
Figure FDA0003101797440000034
Subject to v≥0
式中,u=GTv+gk
求解v*的对偶问题后,更新模型最优的网络梯度为
Figure FDA0003101797440000035
4.如权利要求2所述的面向多任务强化学习的缓解灾难性遗忘的方法,其特征在于,所述计算重新定义后的损失函数的网络梯度g',包括:
Figure FDA0003101797440000036
式中,st表示t时刻的环境状态,at是t时刻与环境交互的动作值,rt是t时刻获得环境的奖励,st+1表示t+1时刻的环境状态,a′是环境状态st+1是对应的动作值,θt是t时刻Q值现实网络的网络参数,Q(,;)是Q值现实网络的Q值。
CN202110624840.5A 2021-06-04 2021-06-04 一种面向多任务强化学习的缓解灾难性遗忘的方法 Active CN113469369B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110624840.5A CN113469369B (zh) 2021-06-04 2021-06-04 一种面向多任务强化学习的缓解灾难性遗忘的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110624840.5A CN113469369B (zh) 2021-06-04 2021-06-04 一种面向多任务强化学习的缓解灾难性遗忘的方法

Publications (2)

Publication Number Publication Date
CN113469369A true CN113469369A (zh) 2021-10-01
CN113469369B CN113469369B (zh) 2023-06-13

Family

ID=77872435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110624840.5A Active CN113469369B (zh) 2021-06-04 2021-06-04 一种面向多任务强化学习的缓解灾难性遗忘的方法

Country Status (1)

Country Link
CN (1) CN113469369B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116805163A (zh) * 2023-08-28 2023-09-26 北京汉勃科技有限公司 多智能体环境中持续学习方法、设备、存储介质及产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190244099A1 (en) * 2018-02-05 2019-08-08 Deepmind Technologies Limited Continual reinforcement learning with a multi-task agent
CN110580196A (zh) * 2019-09-12 2019-12-17 北京邮电大学 一种实现并行任务调度的多任务强化学习方法
EP3745323A1 (en) * 2019-05-29 2020-12-02 Prowler.io Limited Multi-task reinforcement learning method
CN112784958A (zh) * 2020-12-31 2021-05-11 中电海康集团有限公司 一种基于持续学习方法的家庭服务型机器人

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190244099A1 (en) * 2018-02-05 2019-08-08 Deepmind Technologies Limited Continual reinforcement learning with a multi-task agent
EP3745323A1 (en) * 2019-05-29 2020-12-02 Prowler.io Limited Multi-task reinforcement learning method
CN110580196A (zh) * 2019-09-12 2019-12-17 北京邮电大学 一种实现并行任务调度的多任务强化学习方法
CN112784958A (zh) * 2020-12-31 2021-05-11 中电海康集团有限公司 一种基于持续学习方法的家庭服务型机器人

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116805163A (zh) * 2023-08-28 2023-09-26 北京汉勃科技有限公司 多智能体环境中持续学习方法、设备、存储介质及产品
CN116805163B (zh) * 2023-08-28 2023-12-08 北京汉勃科技有限公司 多智能体环境中持续学习方法、设备、存储介质及产品

Also Published As

Publication number Publication date
CN113469369B (zh) 2023-06-13

Similar Documents

Publication Publication Date Title
CN112819253A (zh) 一种无人机避障和路径规划装置及方法
CN111695690A (zh) 基于合作式强化学习与迁移学习的多智能体对抗决策方法
CN112329948A (zh) 一种多智能体策略预测方法及装置
CN110014428B (zh) 一种基于强化学习的时序逻辑任务规划方法
CN112990485A (zh) 基于强化学习的知识策略选择方法与装置
CN114510012A (zh) 一种基于元动作序列强化学习的无人集群演进系统及方法
CN115169519A (zh) 一种仿生鱼体自主智能游动模拟方法、装置及系统
Stirling Coordinated intelligent control via epistemic utility theory
CN113469369A (zh) 一种面向多任务强化学习的缓解灾难性遗忘的方法
CN115481779A (zh) 一种基于联邦强化学习的卫星资源调度优化方法
CN115940294A (zh) 多级电网实时调度策略调整方法、系统、设备及存储介质
CN114463596A (zh) 一种超图神经网络的小样本图像识别方法、装置及设备
CN117273057A (zh) 基于强化学习的多智能体协同对抗决策方法及装置
CN115903901A (zh) 内部状态未知的无人集群系统输出同步优化控制方法
CN115936058A (zh) 一种基于图注意力网络的多智能体迁移强化学习方法
CN116128028A (zh) 一种连续决策空间组合优化的高效深度强化学习算法
Zhang et al. Dynamics-adaptive continual reinforcement learning via progressive contextualization
CN115453880A (zh) 基于对抗神经网络的用于状态预测的生成模型的训练方法
CN114755926A (zh) 一种基于强化学习的多智能体系统最优一致性的控制方法
CN114995157A (zh) 多智能体系统在合作竞争关系下的反同步优化控制方法
CN113377884A (zh) 基于多智能体增强学习的事件语料库提纯方法
CN114911157A (zh) 基于部分可观测强化学习的机器人导航控制方法及系统
Venturini Distributed deep reinforcement learning for drone swarm control
Opalic et al. A Deep Reinforcement Learning Scheme for Battery Energy Management
CN117575561A (zh) 部分可观测条件下的工业流水线的预测性维护方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant