CN112698933A

CN112698933A - 在多任务数据流中持续学习的方法及装置

Info

Publication number: CN112698933A
Application number: CN202110312417.1A
Authority: CN
Inventors: 张俊格; 李庆明
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2021-04-23

Abstract

本发明提供通用的在多任务数据流中持续学习的方法和装置，包括：智能体采用DQN网络进行策略学习，由任务识别器检测任务边界，防止发生灾难性遗忘；任务识别器采集数据状态，采集到一定长度后进入任务学习阶段，通过任务学习阶段的聚类准确性判断任务学习是否完成，如果完成进入任务识别阶段，如果判定任务发生了改变，则学习下一个任务，在学习下一个任务时，如果改变所述DQN网络的参数，将会启动额外的惩罚项，通过约束所述DQN网络的参数在下个任务学习中变化实现对当前任务的不遗忘。

Description

在多任务数据流中持续学习的方法及装置

技术领域

本申请涉及多智能体、在线学习领域，尤其涉及可以在多任务数据流中持续学习的方法和装置。

背景技术

一个智能体在离线训练后可以在当前任务下做出正确的决策，然而将它置于新的环境或者任务下，它可能会继续学习已完成新的任务但是它将遗忘先前的知识。在持续学习的研究中，人们把这种现象称作灾难性遗忘。对于灾难性遗忘问题的研究有许多，且已经取得了不俗的进展。现在较主流的方法有I经验回放方法，这类方法通过重播历史数据或者生成虚拟的历史数据等解决灾难性遗忘. II正则化方法，比如蒸馏旧知识或者巩固参数以防止灾难性遗忘。III 参数隔离方法，比如Expert Gate方法，通过衡量任务间关系度实现任务增量设定下的持续学习。

上述工作均停留在任务边界可知的假设上，例如在训练时明确知道当前训练的任务，而在现实中得到的数据通常是一个任务边界不可知的数据流。比如人眼的数据或者摄像机的数据，这要求agent必须能够在这样的数据流中进行学习并作出正确的决策。基于现有灾难性遗忘问题的研究，也有一些工作进行了在包含边界不可知的数据流中进行训练决策的探索。Task-Free Continual Learning一文过监测loss值得变化来检测任务边界的变化，决定何时使用MAS方法（一种正则化方法）巩固现有的知识。Continual ReinforcementLearning in 3D Non-stationary Environments关注了任务环境发生改变时如何进行持续学习。该算法通过衡量reward的差异实现任务环境边界的检测，然后在环境改变时通过EWC（一种正则化方法）巩固知识。

当我们将环境扩展为任务边界不可知的强化学习环境时，基础的灾难性遗忘问题的研究会暴露严重的弊端。强化学习通常拥有庞大的观测空间。这个观测空间由于其多变性与随机性难以保存与生成，因此经验回放方法在强化学习环境下无法发挥其优势。而正则化与参数隔离方法依赖于明确的任务边界。它在任务边界不可知的情况下难以在合适的时间巩固知识或者隔离参数。相比正则化方法，参数隔离方法通常会对网络模型进行增量的修改，因此更加难以在数据流中进行学习与决策。

现有的两种处理任务边界不可知的算法均存在一定的弊端。Task-FreeContinual Learning创作性的实现在任务边界不可知的人脸信息流中进行在线学习。但是这类方法局限于Loss平稳的假设，泛化能力较差。Continual Reinforcement Learning in3D Non-stationary Environments依赖于不同任务间reward的设定，如果两个任务的reward设定难以在任务切换时被检测出来，这种方法将不起作用。

授权公告号CN 106507398 B公开了一种基于持续学习的网络自优化方法；包含持续学习过程和网络优化过程；本发明提供的网络自优化方法可以大大减少人力物力的投入，节约成本，缩短优化流程，提高优化效率，同时解决上述发明优化时间冗长，可能不是最佳优化策略的缺陷;快速地发现网络中出现的问题，并能够缩短网络故障的持续时间，及时恢复网络正常的工作状态，达到优化网络性能的目的。

申请公布号CN 110705689 A公开了一种可区分特征的持续学习方法及装置，其中，方法包括以下步骤：确定当前分类任务，并将目标函数加入学习模型的angularloss项；在当前分类任务为新任务时，初始化学习模型的最后一层的参数，以使其相互正交，并在更新过程中暂时固定；训练预设时间后，将最后一层的参数参与更新，其中，最后一层的参数作为正交化的约束，以使不同的分类任务不会互相干扰。该方法可以在处理不同类型的分类任务时，都能够很好地对该任务的目标类别进行精准分类，有效解决了目前持续学习中不同任务中的类别在特征空间中会发生重叠、导致模型效果不佳的问题。

发明内容

有鉴于此，本发明第一方面提供一种在多任务数据流中持续学习的方法，包括：

智能体采用DQN网络进行策略学习，由任务识别器检测任务边界，防止发生灾难性遗忘；任务识别器采集数据状态，采集到一定长度后进入任务学习阶段，通过任务学习阶段的聚类准确性判断任务学习是否完成，如果完成进入任务识别阶段；具体方法如下：

S1：通过输入数据状态s和智能体给出的动作a，计算Q值，并由输入数据状态队列S和智能体给出的动作队列计算Q值队列；

S2：对所述Q值队列进行排序，取数值最高的τ’个Q值对应的输入数据状态并形成第一元组(Smax，1)，取数值最低的τ’’个Q值对应的输入数据状态并形成第二元组(Smin，0)；将第一元组(Smax，1)和第二元组(Smin，0)合并组成原始数据集 (X，Y) ，所述Y为聚类结果的标签(Y₀，Y₁)，Y₀对应的是所述第一元组中的1，Y₁对应的是所述第二元组中的0；

S3：对原始数据集中的X降维，得到降维特征Z；

S4：应用k-mean对所述Z进行聚类，得到聚类中心μ₀和μ₁；然后求得每个降维特征Z距离聚类中心的概率分布；

S5：应用所述概率分布求得任务学习阶段的聚类准确性；

S6：当任务学习阶段的聚类准确性大于第一阈值时，进入任务识别阶段；当任务学习阶段的聚类准确性小于一定阈值时，返回步骤S1;

S7：采集任务识别数据状态队列S’，将输入数据状态队列S替换为任务识别数据状态队列S’，重复步骤S1-S5得到任务识别阶段的聚类准确性；

S8：当任务识别阶段的聚类准确性小于第二阈值时，判定任务发生了改变，学习下一个任务。

优选地，所述方法还包括：

S9：在学习下一个任务时，如果改变所述DQN网络参数，将会启动额外的惩罚项，通过约束所述DQN网络参数在下个任务学习中变化实现对当前任务的不遗忘。

优选地，所述额外的惩罚项为，

，

其中，

：DQN网络在任务B时的损失值；

F _i：累加公式中第i个Fisher信息矩阵；

：DQN网络在任务B时的参数；

：DQN网络在任务A时训练完成的参数；

：超参数＞0。

优选地，所述Q值的计算方法为：

其中

：期望计算；

s _t：期望计算公式中输入数据变量，输入数据状态s为数值；

a _t：期望计算公式中策略网络输出动作变量，动作a为数值；

：输入数据状态s进策略网络后输出一个动作a的q值分布；

：代表折扣系数为范围为0-1；

：t’时刻智能体执行动作a带来的收益；

T：输入数据状态s的数据流总时长。

优选地，所述对原始数据集中的X降维，得到降维特征Z的具体方法为：

由两层全连接层将原始数据集中的X降维到所述降维特征Z。

优选地，所述每个降维特征Z距离聚类中心的概率分布的计算方法为：

其中，

z_i：所述降维特征Z中第i个样本；

μ_j：所述聚类中心；

α：超参数为0.5。

优选地，所述求得任务学习阶段的聚类准确性的具体方法为：

其中，

q_i：代表第i个样本聚类求得的概率分布，具体为q_i0和q_i1；

Y_i：聚类结果的标签Y中第i个样本对应的真实标签；

m：max，取q_i0和q_i1中的最大值，来判断样本属于哪个类，确定第i个样本对应的真实标签Y_i是否与判断一致；

τ’：所述第一元组(Smax，1)中，元素Smax的维数；

τ’’：所述第二元组(Smin，0)中，元素Smin的维数。

优选地，所述第一阈值为

范围为0.5-1。

优选地，所述第二阈值为

范围为0.5-1。

本发明第二方面还提供了一种在多任务数据流中持续学习的装置，包括：DQN网络和任务识别器； DQN网络进行策略学习，由任务识别器检测任务边界，防止发生灾难性遗忘；任务识别器采集数据状态，采集到一定长度后进入任务学习阶段，通过任务学习阶段的聚类准确性判断任务学习是否完成，如果完成进入任务识别阶段；

所述任务识别器包括：自动编码器与任务数据缓存；输入数据状态队列S和智能体给出的动作队列计算Q值队列存储在任务数据缓存中；当输入数据状态队列的缓存长度大于一定长度τ时，任务识别器将会进入任务学习阶段；自动编码器，对所述Q值队列进行排序，取数值最高的τ’个Q值对应的输入数据状态并形成第一元组(Smax，1)，取数值最低的τ’’个Q值对应的输入数据状态并形成第二元组(Smin，0)；将第一元组(Smax，1)和第二元组(Smin，0)合并组成原始数据集 (X，Y) ，所述Y为聚类结果的标签(Y₀，Y₁)，Y₀对应的是所述第一元组中的1和Y₁对应的是所述第二元组中的0；对原始数据集中的X降维，得到降维特征Z；应用k-mean对所述Z进行聚类，得到聚类中心μ₀和μ₁；然后求得每个降维特征Z距离聚类中心的概率分布；应用所述概率分布求得任务学习阶段的聚类准确性；判断当任务学习阶段的聚类准确性大于第一阈值时，进入任务识别阶段；当任务学习阶段的聚类准确性小于一定阈值时，任务数据缓存继续收集数据；

在任务识别阶段，任务数据缓存采集任务识别数据状态队列S’，自动编码器应用任务识别数据状态队列S’计算任务识别阶段的聚类准确性，当任务识别阶段的聚类准确性小于第二阈值时，判定任务发生了改变，学习下一个任务；

在学习下一个任务时，如果改变所述DQN网络的参数，自动编码器将会启动额外的惩罚项，通过约束所述DQN网络的参数在下个任务学习中变化实现对当前任务的不遗忘。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

本申请实施例提供的该方法，通过聚类方法进行任务边界的检测识别，解决了在任务边界不可知的数据流中进行决策的问题。

附图说明

图1为本发明实施例提供的可以在多任务数据流中持续学习的方法流程图；

图2为本发明另一实施例提供的在多任务数据流中持续学习的方法流程图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

参见图1，本申请实施例提供的一种在多任务数据流中持续学习的方法，包括：

S1：通过输入数据状态s和智能体给出的动作a，计算Q值，并由输入数据状态队列S和智能体给出的动作队列计算Q值队列。

所述Q值的计算方法为：

其中

：期望计算；

：输入数据状态s进策略网络后输出一个动作a的q值分布；

：代表折扣系数，具体范围为0-1；

：t’时刻智能体执行动作a带来的收益；

T：输入数据状态s的数据流总时长。

S2：对所述Q值队列进行排序，取数值最高的τ’个Q值对应的输入数据状态并形成第一元组(Smax，1)，取数值最低的τ’’个Q值对应的输入数据状态并形成第二元组(Smin，0)；将第一元组(Smax，1)和第二元组(Smin，0)合并组成原始数据集 (X，Y) ，所述Y为聚类结果的标签(Y₀，Y₁)，Y₀对应的是所述第一元组中的1，Y₁对应的是所述第二元组中的0。

S3：对原始数据集中的X降维，得到降维特征Z。

所述对原始数据集中的X降维，得到降维特征Z的具体方法为：

由两层全连接层将原始数据集中的X降维到所述降维特征Z。

S4：应用k-mean对所述Z进行聚类，得到聚类中心μ₀和μ₁；然后求得每个降维特征Z距离聚类中心的概率分布。

所述每个降维特征Z距离聚类中心的概率分布的计算方法为：

其中，

z_i：所述降维特征Z中第i个样本；

μ_j：所述聚类中心；

α：超参数为0-1，优选的为0.5。

S5：应用所述概率分布求得任务学习阶段的聚类准确性。

所述求得任务学习阶段的聚类准确性的具体方法为：

其中，

q_i：代表第i个样本聚类求得的概率分布，具体为q_i0和q_i1；

Y_i：聚类结果的标签Y中第i个样本对应的真实标签；

τ’：所述第一元组(Smax，1)中，元素Smax的维数；

τ’’：所述第二元组(Smin，0)中，元素Smin的维数。

S6：当任务学习阶段的聚类准确性大于第一阈值时，进入任务识别阶段；当任务学习阶段的聚类准确性小于一定阈值时，返回步骤S1。

所述第一阈值为

为0.5-1，优选为0.9。

S7：采集任务识别数据状态队列S’，将输入数据状态队列S替换为任务识别数据状态队列S’，重复步骤S1-S5得到任务识别阶段的聚类准确性。

所述第二阈值为

范围为0.5-1，优选的为0.7。

在一些实施例中，如图2所示，上述在多任务数据流中持续学习的方法还包括：

所述额外的惩罚项为，

，

其中，

：DQN网络在任务B时的损失值；

F _i：累加公式中第i个Fisher信息矩阵；

：DQN网络在任务B时的参数；

：DQN网络在任务A时训练完成的参数；

：超参数范围为＞0，优选的为15。

基于同一发明构思，本申请实施例提供的一种在多任务数据流中持续学习的装置，包括：DQN网络和任务识别器； DQN网络进行策略学习，由任务识别器检测任务边界，防止发生灾难性遗忘；任务识别器采集数据状态，采集到一定长度后进入任务学习阶段，通过任务学习阶段的聚类准确性判断任务学习是否完成，如果完成进入任务识别阶段；

具体实施例

DQN网络进行策略学习，由任务识别器检测任务边界，防止发生灾难性遗忘；任务识别器采集数据状态，采集到一定长度后进入任务学习阶段，通过任务学习阶段的聚类准确性判断任务学习是否完成，如果完成进入任务识别阶段；

所述任务识别器包括：自动编码器与任务数据缓存；输入数据状态队列S和智能体给出的动作队列计算Q值队列存储在任务数据缓存中；

所述Q值的计算方法为：

其中

：期望计算；

：输入数据状态s进DQN网络后输出一个动作a的q值分布；

：代表折扣系数，具体范围为0-1，优选的为0.5；

：t’时刻智能体执行动作a带来的收益；

T：输入数据状态s的数据流总时长。

当输入数据状态队列的缓存长度大于一定长度τ时，τ优选的为1024，任务识别器将会进入任务学习阶段；自动编码器，对所述Q值队列进行排序，取数值最高的τ’个Q值对应的输入数据状态并形成第一元组(Smax，1)，τ’优选的为64，取数值最低的τ’’个Q值对应的输入数据状态并形成第二元组(Smin，0)；τ’’优选的为63，将第一元组(Smax，1)和第二元组(Smin，0)合并组成原始数据集 (X，Y) ，所述Y为聚类结果的标签(Y0，Y1)，Y0对应的是所述第一元组中的1和Y1对应的是所述第二元组中的0；由自动编码器的两层全连接层组成编码层对原始数据集中的X降维，得到降维特征Z；应用k-mean对所述Z进行聚类，得到聚类中心μ0和μ1；然后求得每个降维特征Z距离聚类中心的概率分布；

所述每个降维特征Z距离聚类中心的概率分布的计算方法为：

其中，

z_i：所述降维特征Z中第i个样本；

μ_j：所述聚类中心；

α：超参数，具体为0.5；

应用所述概率分布求得任务学习阶段的聚类准确性；

其中，

q_i：代表第i个样本聚类求得的概率分布，具体为q_i0和q_i1；

Y_i：聚类结果的标签Y中第i个样本对应的真实标签；

τ’：所述第一元组(Smax，1)中，元素Smax的维数；

τ’’：所述第二元组(Smin，0)中，元素Smin的维数。

判断当任务学习阶段的聚类准确性大于第一阈值时，所述第一阈值为

，

优选为0.9，进入任务识别阶段；当任务学习阶段的聚类准确性小于一定阈值时，任务数据缓存继续收集数据；

在任务识别阶段，任务数据缓存采集任务识别数据状态队列S’，自动编码器应用任务识别数据状态队列S’计算任务识别阶段的聚类准确性，当任务识别阶段的聚类准确性小于第二阈值时，所述第二阈值为

，

优选为0.7，判定任务发生了改变，学习下一个任务；

在学习下一个任务时，如果改变所述DQN网络参数，自动编码器将会启动额外的惩罚项，通过约束所述DQN网络参数在下个任务学习中变化实现对当前任务的不遗忘；

所述额外的惩罚项为，

，

其中，

：DQN网络在任务B时的损失值；

F _i：累加公式中第i个Fisher信息矩阵；

：DQN网络在任务B时的参数；

：DQN网络在任务A时训练完成的参数；

：超参数，具体优选为15。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。