CN113469369A

CN113469369A - 一种面向多任务强化学习的缓解灾难性遗忘的方法

Info

Publication number: CN113469369A
Application number: CN202110624840.5A
Authority: CN
Inventors: 李永强; 胡青阳; 叶晶晶; 王瑞琰; 陈思远; 高昕
Original assignee: CETHIK Group Ltd
Current assignee: CETHIK Group Ltd
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2021-10-01
Anticipated expiration: 2041-06-04
Also published as: CN113469369B

Abstract

本发明公开了一种面向多任务强化学习的缓解灾难性遗忘的方法，包括：初始化T个任务的存储空间M，存储空间M中包括T个存储器，为每个任务分配一个存储器，采用存储器M_k存储任务k对应的智能体与环境交互的情景样本；根据存储器M_k存储的任务k对应的情景样本，定义损失函数L(f_θ，M_k)；基于当前的任务k和前k‑1个任务的网络梯度，求解模型最优的网络梯度

融合网络梯度求解与强化学习方法中的神经网络，重新定义神经网络的损失函数，更新强化学习训练过程Q值现实网络和Q值估计网络中的网络梯度，以缓解灾难性遗忘。

Description

一种面向多任务强化学习的缓解灾难性遗忘的方法

技术领域

本申请属于强化学习和持续学习技术领域，具体涉及一种面向多任务强化学习的缓解灾难性遗忘的方法。

背景技术

通常认为生物神经网络工作机理中，包括记忆在内的所有生物神经功能，都存储在神经元及其之间的连接上。学习被看作是在神经元之间建立新的连接或对已有的连接进行修改的过程。早在20世纪60年代，科学家们就基于对生物神经网络工作机理的认识，期望构造出像人类大脑一样容纳智慧、意识、记忆的人工神经网络。目前提出的深度学习在结构上、以及功能上与生物神经网络都相去甚远，且与生物神经网络相比较，现有的深度学习还存在诸多缺陷，灾难性遗忘就是缺陷之一。

所谓的灾难性遗忘即学习了新的知识之后，几乎彻底遗忘掉之前习得的内容，它使得人工智能体缺乏像生物一样不断适应环境以及持续学习的能力。例如，在机器人导航仿真环境中，根据目标点、障碍物、墙壁、房间摆设的不同划分10个任务，使用强化学习方法依次对10个任务训练，结果随着任务量的增加，模型在之前任务中的机器人导航任务的成功率极具下降。如果采用单任务学习方法，则需要多个模型学习多个任务，极大增加了开发的复杂度和模型训练成本。

发明内容

本申请的目的在于提供一种面向多任务强化学习的缓解灾难性遗忘的方法，解决单模型在多任务学习过程中灾难性遗忘问题，提高多任务执行的准确率。

为实现上述目的，本申请所采取的技术方案为：

一种面向多任务强化学习的缓解灾难性遗忘的方法，所述面向多任务强化学习的缓解灾难性遗忘的方法，包括：

步骤1、初始化T个任务的存储空间M，所述存储空间M中包括T个存储器，为每个任务分配一个存储器，采用存储器M_k存储任务k对应的智能体与环境交互的情景样本，所述情景样本包括环境当前的状态s、智能体采取的动作a、获得环境的奖励r，环境的下一个状态s′，k＝1，2，3…T；

步骤2、根据存储器M_k存储的任务k对应的情景样本，定义损失函数L(f_θ，M_k)，其中θ∈R^p参数化的预测变量为f_θ；

步骤3、基于当前的任务k和前k-1个任务的网络梯度，求解模型最优的网络梯度

包括：

步骤31、取存储器{M₁，M₂，…M_k-1}中存储的情景样本，用任务k对应的模型网络参数分别对每个存储器中的情景样本进行训练，记录前k-1个任务对应的网络梯度为MG_k-1＝{g₁，g₂，…g_k-1}，并通过损失函数L(f_θ，M_k)反向传播更新模型网络参数；

步骤32、记录网络梯度MG_k-1与任务k对应的网络梯度g_k，分别计算当前任务k的网络梯度与前k-1个任务中每一任务对应的网络梯度的夹角<g_k，g_a>，a＝1，2，3…k-1；

步骤33、若网络梯度g_k和g_a的向量内积不小于0，且夹角<g_k，g_a>为锐角，则学习当前任务k时，任务k的损失不会增加，将网络梯度g_k作为模型最优的网络梯度

否则计算网络梯度g_k的投影，并更新模型最优的网络梯度

步骤4、融合网络梯度求解与强化学习方法中的神经网络，重新定义神经网络的损失函数，更新强化学习训练过程Q值现实网络和Q值估计网络中的网络梯度，以缓解灾难性遗忘，包括：

步骤41、重新定义神经网络的损失函数，取强化学习方法中原始的Q值现实网络和Q值估计网络的损失函数分别为L_e(θ)和L_t(θ)，则重新定义后的损失函数如下：

L′_e(θ)＝L_e(θ)+L(f_θ，M_k)

L′_t(θ)＝L_t(θ)+L(f_θ，M_k)

式中，L′_e(θ)为强化学习Q值现实网络重新定义后的损失函数，L′_t(θ)为强化学习Q值估计网络重新定义后的损失函数；

步骤42、计算重新定义后的损失函数的网络梯度g′，记录前k-1个任务的网络梯度MG_k-1，间隔时间Δt在存储器M_k存储的情景样本上训练，并根据步骤3求解更新后的网络梯度

修改更新强化学习Q值现实网络和Q值估计网络的梯度参数，基于前k-1个任务对应的存储器{M₁，M₂，…M_k-1}中的情景样本和当前任务k对应的存储器M_k中的情景样本，训练Q值现实网络和Q值估计网络，直到达到收敛条件或循环结束。

以下还提供了若干可选方式，但并不作为对上述总体方案的额外限定，仅仅是进一步的增补或优选，在没有技术或逻辑矛盾的前提下，各可选方式可单独针对上述总体方案进行组合，还可以是多个可选方式之间进行组合。

作为优选，所述损失函数L(f_θ，M_k)，定义如下：

minimize_θ L(f_θ(x，k)，y)

式中，|M_k|是存储器M_k中情景样本的样本数量，λ是调节样本平衡的参数，x是任务k对应的总的情景样本，i是数据中样本的索引，x_i是x中索引为i的样本子集，y是任务k对应的总的标签，y_i是y中索引为i的标签子集，f_θ(x_i，k)为针对任务k的样本子集x_i的网络预测值，L(f_θ(x_i，k)，y_i)是网络预测值f_θ(x_i，k)与真实的标签y_i之间的损失，y_soft是“softlabel”方法中标签的概率值，

是针对任务k-1学习结束后得到的预测变量，T是学习的总任务数量。

作为优选，所述计算网络梯度g_k的投影，并更新模型最优的网络梯度

包括：

步骤331、设定当前任务k的网络梯度g_k与更新后的网络梯度

的优化目标和约束条件如下：

式中，T是学习的总任务数量，g_k-1为任务k-1对应的网络梯度；

步骤332、根据步骤331设定的优化目标和约束条件，使用二次规划方法求解

令二次规划的原始形式为：

subject to Az≥b

式中，C∈R^p*p，p∈R^p，A∈R^(t-1)*p和b∈R^t-1，二次规划的原始形式的对偶问题如下：

minimize_u，v

设(u^*,v^*)为对偶问题的解，则有解z^*满足二次规划的原始形式中约束条件使Cz^*＝Cu^*，则建立优化后的针对网络梯度优化的二次规划方程如下：

minimize_z

Subject to Gz≥0

式中，z为未知数，G＝-(g₁,g₂,....g_k-1)，二次规划求解抛弃常数项g_k ^Tg_k；

则令二次规划方程的对偶形式为：

minimize_v

Subject to v≥0

式中，u＝G^Tv+g_k；

求解v^*的对偶问题后，更新模型最优的网络梯度为

作为优选，所述计算重新定义后的损失函数的网络梯度g'，包括：

式中，s_t表示t时刻的环境状态，a_t是t时刻与环境交互的动作值，r_t是t时刻获得环境的奖励，s_t+1表示t+1时刻的环境状态，a′是环境状态s_t+1是对应的动作值，θ_t是t时刻Q值现实网络的网络参数，Q(,；)是Q值现实网络的Q值。

本申请提供的面向多任务强化学习的缓解灾难性遗忘的方法，通过记录k-1任务的少量情景样本和梯度，基于第k任务的梯度与之前k-1个任务的梯度的关系，通过更新梯度方法，使学习完第k个任务之后，之前学习的k-1个任务的模型不出现灾难遗忘问题。本方法提升了多任务间持续学习能力和复杂任务的能力，并且有利于k任务的知识迁移到k+1任务，提升模型训练效率。

附图说明

图1为本申请的面向多任务强化学习的缓解灾难性遗忘的方法的流程图；

图2为更新Q值现实网络和Q值估计网络的梯度的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是在于限制本申请。

其中一个实施例中，提供一种面向多任务强化学习的缓解灾难性遗忘的方法，解决单模型在若干不同任务学习过程中灾难性遗忘问题，提高多任务执行的准确率，并对相关的下一任务学习效率和准确率有促进作用。

本实施例提供的方法在机器人导航任务、机器人作业任务、博弈对抗任务等领域中均具有较优的应用前景。可实现使用单个模型在变化环境中学习持续执行多个任务的能力。例如，在设定障碍物、墙壁、家具、房间布置的位置和数量不同的室内环境，导航通过每个房间可以看作一个任务，基于本方法智能体能够快速通过房间1、房间2...房间N，导航到目标点。

需要说明的是，对于面向更复杂的变化环境和多任务学习的智能体，如果采用多任务持续学习方法，本方法同样适用。

如图1所示，本实施例面向多任务强化学习的缓解灾难性遗忘的方法，包括以下步骤：

步骤1、初始化T个任务的存储空间M，所述存储空间M中包括T个存储器，为每个任务分配一个存储器，采用存储器M_k存储任务k对应的智能体与环境交互的情景样本，k＝1，2，3…T，所述情景样本包括环境当前的状态s、智能体采取的动作a、获得环境的奖励r，环境的下一个状态s′，其中M和M_k如下：

M＝{M₁，M₂，…，M_k，…，M_T}

M_k＝{s，a，r，s′}

步骤2、根据存储器M_k存储的任务k对应的情景样本，定义损失函数L(f_θ，M_k)，其中θ∈Rⁿ参数化的预测变量为f_θ，n是矩阵维度。

本实施例中损失函数L(f_θ，M_k)，定义如下：

minimize_θL(f_θ(x，k)，y)

式中，|M_k|是存储器M_k中情景样本的样本数量，λ是预设的调节样本平衡的参数，x是任务k对应的总的情景样本，i是数据中样本的索引，x_i是x中索引为i的样本子集，y是任务k对应的总的标签，y_i是y中索引为i的标签子集，f_θ(x_i，k)为针对任务k的样本子集x_i的网络预测值，L(f_θ(x_i，k)，y_i)是网络预测值f_θ(x_i，k)与真实的标签y_i之间的损失，y_soft是“softlabel”方法中标签的概率值，在损失函数中增加“soft label”方法中的y_soft，以解决存储器M_k中样本训练过程中易过拟合的问题，L(f_θ(x_i，k)，y_soft)是网络预测值f_θ(x_i，k)与标签的概率值y_soft之间的损失，

的是任务k-1学习结束时的预测变量，f_θ为当前待求解的未知量，T是学习的总任务数量，即对应步骤1中初始化的T个任务。minimize_θ为优化目标取最小值，神经网络训练使模型收敛，模型收敛的主要判断依据是损失下降至不能再下降，也就是最小。

以找到能够满足多任务学习的最优值梯度，使模型网络在k个任务上表现很好，同时之前k-1个任务损失不增加，网络不出现灾难性遗忘问题，包括：

步骤31、取存储器{M₁，M₂，…M_k-1}中存储的情景样本，用任务k(当前任务)对应的模型网络参数分别对每个存储器中的情景样本进行训练，记录前k-1个任务对应的网络梯度为MG_k-1＝{g₁，g₂，…g_k-1}，并通过损失函数L(f_θ，M_k)反向传播更新模型网络参数。

步骤32、记录网络梯度MG_k-1与任务k对应的网络梯度

分别计算当前任务k的网络梯度与前k-1个任务中每一任务对应的网络梯度的夹角

步骤33、若网络梯度g_k和g_a的向量内积不小于0，且夹角

为锐角，则学习当前任务k时，任务k的损失不会增加，将网络梯度g_k作为模型最优的网络梯度

否则计算网络梯度g_k的投影，并更新模型最优的网络梯度

本实施例中网络梯度g_k和g_a的向量内积不小于0的判断公式为：

若满足公式(2)则网络梯度g_k和g_a的向量内积不小于0。

其中，计算网络梯度g_k的投影，并更新模型最优的网络梯度

包括以下步骤：

步骤331、设定当前任务k的网络梯度g_k与更新后的网络梯度

的优化目标和约束条件如下，将梯度g_k的投影到满足L2范式约束条件下的最接近梯度

使梯度更新之后，之前的任务损失不增加：

式中，T是学习的总任务数量，g_k-1为任务k-1对应的网络梯度。

现有技术中求带不等式约束的二次规划方程的原始形式为：

subjet to Az≥b (4)

式中，C∈R^n*n，p∈Rⁿ，A∈R^(t-1)*n和b∈R^t-1。公式(4)的对偶问题为：

minimize_u,v

设(u^*,v^*)为公式(5)的解，则有解z^*满足公式(4)的约束条件使Cz^*＝Cu^*。二次规划是支持向量机的核心，根据以上参数，本文提出网络梯度优化方法二次规划(QP)方程如下：

minimize_z

Subject to Gz≥0

式中，z为未知数，G＝-(g₁,g₂,....g_k-1)，因为二次规划求解过程中常数项对迭代求解过程不影响因此抛弃常数项g_k ^Tg_k，这是对p个变量(神经网络的参数数量)的QP，可以百万为单位进行度量。

令二次规划方程的对偶形式为：

minimize_v

Subject to v≥0 (7)

式中，u＝G^Tv+g_k。这关于t-1、p变量的QP。求解v^*的对偶问题，既可以恢复投影梯度，将更新模型最优的网络梯度为

步骤4、融合网络梯度求解与强化学习方法中的神经网络，重新定义神经网络的损失函数，更新强化学习训练过程Q值现实网络和Q值估计网络中的网络梯度，以缓解灾难性遗忘，使其能够在线训练多个任务，并不遗忘之前任务，包括：

如图2所示，首先本实施例中的强化学习网络动作-值函数为：

Q^*(s_t，a_t)＝E[r_t+γmax_a′Q^*(s_t+1，a′)] (8)

其中，Q^*(s_t，a_t)为状态s_t的最优值函数，a′表示下一状态s_t+1的动作命令，Q^*(s_t+1，a′)为下一状态s_t+1的最优值函数，r_t是t时刻获得环境的奖励，γ为预设参数。

值函数的网络参数为θ时，损失函数定义为：

y_t＝r_t+γmax_a′Q_target(s_t+1，a′)_t (9)

Q_eval(s，a)表示Q值估计网络，Q_target(s，a)表示Q值现实网络，L_Q(θ)为值函数的网络参数为θ时的损失函数。

L′_e(θ)＝L_e(θ)+L(f_θ，M_k)

L′_t(θ)＝L_t(θ)+L(f_θ，M_k) (10)

其中，所述计算融合后损失函数的网络梯度g′，包括：

式中，s_t表示t时刻的环境状态，a_t是t时刻与环境交互的动作值，r_t是t时刻获得环境的奖励，s_t+1表示t+1时刻的环境状态，a′是环境状态s_t+1是对应的动作值，θ_t是t时刻Q值现实网络的网络参数，θ_t+1是t+1时刻Q值现实网络的网络参数，Q(,；)是Q值现实网络的Q值，如Q(s_t+1,a'；θ_t+1)为Q值现实网络基于t+1时刻的网络参数针对环境状态s_t+1和动作值a′得到的Q值，其他类推理解。

本实施例中的缓解网络灾难性遗忘的方法，能使智能体持续学习多个任务，并不遗忘之前的学习的任务，同时对未学习的任务有一定的启发，提升模型在多任务学习过程中持续学习能力、复杂任务学习效率和泛化能力。

在一个实施例中，通过使用平均准确率(ACC)、逆向迁移(BWT)和正向迁移(FWT)三个指标评价本实施例提出的缓解灾难性遗忘的方法的有效性。

其中，ACC表征N个任务学完之后的总体的性能。BWT(Backward Transfer)，表征N个任务学完后，对之前任务的总体遗忘的程度；通常为负数，越大越好，为正表示没有遗忘，且有利于逆向迁移。FWT(Forward Transfer)表征N个任务学完后，总体学习的程度；通常为正数，越大越好。

Average Accuracy:

Backward Transfer:

Forward Transfer:

T是总的task数量；R_i,j是第j个任务的神经网络模型在第i个任务的准确率，其他类推理解；b_i是第i个任务的随机的平均准确率，测试结果如下表1所示：

表1 测试结果统计表

本实施例基于表1的统计方式，以T＝3为例进行试验，记录试验结果如表2所示：

表2 T＝3时的试验结果统计表

任务/准确率	Task1	Task2	Task3
				Task1	99％	13％	8％
Task2	83％	92％	17％
				Task3	87％	93％	86％

注：实验结果的准确率是模型在执行100次各任务的成功率

根据表2中的数据计算ACC、BWT和FWT三个指标，得到本申请提供的缓解灾难性遗忘的方法能够有效缓解模型出现灾难性遗忘的问题，学习性能好。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。