CN112580797A

CN112580797A - 一种多模态多标签预测模型的增量学习方法

Info

Publication number: CN112580797A
Application number: CN202011346483.2A
Authority: CN
Inventors: 吕俊; 郑雅纯; 李磊; 黄梓欣; 黄泽茵; 李柔仪
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2021-03-30
Anticipated expiration: 2040-11-26
Also published as: CN112580797B

Abstract

本发明公开了一种多模态多标签预测模型的增量学习方法，首先基于概率模型的因子分解，把复杂的多模态多标签增量学习问题转化为一组输入维度不变的增量学习问题，即转化为多个子模型；然后采用参数正则化和具有遗忘机制的网络结构动态扩展方法，更新该些子模型；最后将更新后的子模型自适应集成输出，实现多模态多标签预测。本发明可以适应不同模态集和标签集的学习任务，以避免网络结构的过度膨胀和重复计算，使系统具有良好的可扩展性；能够解决各模态数据信噪比非平稳的多标签预测问题。

Description

一种多模态多标签预测模型的增量学习方法

技术领域

本发明涉及预测模型增量学习的技术领域，尤其涉及到一种多模态多标签预测模型的增量学习方法。

背景技术

目前，研究增量学习问题的工作大致可分为以下三类：

(1)正则化法：通过约束参数的更新，保留旧任务学习模型的重要信息，例如：James等以费雪信息度量模型参数的重要性，提出了弹性权重固化(elastic weightconsolidation,EWC)增量学习方法；Zenke等依据权值路径积分度量模型参数的重要性，并提出了“智能突触”增量学习方法；Dhar等通过惩罚注意力蒸馏损失保护重要模型参数。但是，随着新任务的增加，模型参数不断迭代更新，对旧任务重要的参数还是会逐渐变迁。

(2)数据(或记忆)回放法：通过回顾旧任务重要数据信息，缓解灾难性遗忘，例如：Rebuffi等保留在特征空间中与各类均值最接近的旧任务数据，并将之与新任务数据合并，在分类误差和蒸馏损失引导下更新参数；Wu等在的基础上提出验证集偏置校正策略，解决了新旧数据规模不平衡的问题；Shin等采用生成对抗网络，间接保留旧任务数据的分布信息。但随着学习任务的增加，生成的数据分布会逐渐偏离原来的数据分布，同时，由于需要额外训练生成模型，此类方法的计算量较大。

(3)动态结构法：依据学习任务的变化，自适应调整模型结构，例如：Li和Hoiem提出一种多头架构，将学习模型分作任务共享层和任务各异层，前者网络结构固定，后者会随着新任务的增加而分支生长；为了避免网络规模的过快膨胀，Yoon等通过稀疏正则化减少模型参数，选择旧任务模型中与新任务相关的参数进行训练，若不能很好地拟合新数据，则扩展网络；若被选中的旧模型的参数在新任务的学习中变迁过大，则复制保留一份更新前的参数给旧任务，以缓解灾难性遗忘；Hung等采用逐步修剪法压缩模型结构，通过掩码参数重用，固定旧任务模型的网络连接，杜绝灾难性遗忘，并利用旧任务模型冗余的网络连接帮助新任务的学习，若有必要则扩展网络。

但上述增量学习方法主要针对多分类或多标签的增量学习任务，而在实际应用中，如多模态脑机接口系统，多参数监护系统，自动驾驶系统，多导睡眠图监护系统等都需要处理多模态多标签预测任务，若采用现有的方法，需要训练和保存的模型数将随模态集和标签集规模的扩大而成指数增长。

发明内容

本发明的目的在于克服现有技术的不足，提供一种能避免网络结构的过度膨胀和重复计算、解决各模态数据信噪比非平稳的多标签预测问题的多模态多标签预测模型的增量学习方法。

为实现上述目的，本发明所提供的技术方案为：

一种多模态多标签预测模型的增量学习方法，首先基于概率模型的因子分解，把复杂的多模态多标签增量学习问题转化为一组输入维度不变的增量学习问题，即转化为多个子模型；然后采用参数正则化和具有遗忘机制的网络结构动态扩展方法，更新该些子模型；最后将更新后的子模型自适应集成输出，实现多模态多标签预测。

进一步地，当数据集D₁,…,D_t依次到达时，多模态多标签增量学习方法所需解决的问题为：依据D_t和M_t-1的信息构建能够处理测试任务集合Test_t的模型集合M_t；

多模态多标签预测模型的目标函数J构建如下：

该目标函数包含三部分，第一部分为L₁(·)表示各模态的重构误差；第二部分为L₂(·)表示多标签的预测误差；第三部分是L₃(·)用于衡量分布

的构建误差；其中，α,β∈[0,1]为超参数，ω为网络参数。

进一步地，所述把复杂的多模态多标签增量学习问题转化为一组输入维度不变的增量学习问题的具体过程如下：

多模态多标签增量学习任务在不同时刻到达的各批数据所包含的模态集合与标签集合都不尽相同，为了适应模态集合和标签集合的变化，避免海量数据的存储和大量的重复计算，对多模态多标签模型进行如下因子分解：

其中，

表示从模态

至隐含变量Z_f的映射，

由代理网络学习得到，隐含变量Z_f则由基于t时刻的数据集D_t优化目标函数(1)得到；于是，多模态多标签模型被分解为一系列关于映射X_i→Z_f和Z_f→Y_j的子模型；针对以上映射，共建立和存储

个子模型。

进一步地，当t＝T时刻的数据集D_T到达时，分三种情况作处理：

情况一：若数据集D_t新出现的模态集E_s和新出现的标签集L_s皆为空集，即没有新的模态或新的标签出现，则基于D_T优化目标函数(1)获得X_i→Z_f→Y_j，i∈E_T,j∈L_T的网络参数和隐变量Z_f，然后，采用模型参数正则化方法，分别更新X_i→Z_f，i∈E_T(＝E_∩)和Z_f→Y_j，j∈L_T(＝L_∩)的网络参数；

情况二：若E_s为空集，L_s不为空集，即没有新的模态出现，但有新的标签出现，则：借助D_1:T-1已建立的网络Z_f→Y_j，

使用具有遗忘机制的网络结构动态扩展方法学习Z_f→Y_j，j∈L_s的网络结构，并添加到模型集合中；然后，基于D_t优化目标函数(1)获得X_i→Z_f→Y_j，i∈E_T,j∈L_T网络参数和隐变量Z_f；最后采用模型参数正则化方法，分别增量更新X_i→Z_f，i∈E_T(＝E_∩)和Z_f→Y_j，j∈L_∩的网络参数；

情况三：若E_s和L_s皆不为空集，即同时有新的模态和新的标签出现，则针对i∈E_s,依据先验知识，构建X_i→Z_f的网络结构，并添加到模型集合中；按照情况二的处置方法，学习Z_f→Y_j，j∈L_s的网络结构，并添加到模型集合中；然后，基于D_T优化目标函数(1)，获得X_i→Z_f→Y_j，i∈E_T,j∈L_T的网络参数和隐变量Z_f,最后采用模型参数正则化方法，分别增量更新X_i→Z_f，i∈E_∩和Z_f→Y_j，j∈L_∩的网络参数。

进一步地，所述具有遗忘机制的网络结构动态扩展方法由输出至输入，逐层增加隐含变量，并将其与旧任务较为活跃的隐含变量做横向连接，然后逐批学习新增连接参数，以提高网络膨胀的效率，最后，在预测不确定性可以接受的前提下，由输入至输出，逐步裁剪浮点运算量大的冗余网络结构；具体过程如下：

假定输出为Y_T新任务Task_T到达时，输出为Y₁,…,Y_T-1的旧任务Task_t＝1:T-1已学习完毕，包括隐含层

及

的输入和输出连接，其中，j＝1:K，

表示最接近Y的隐含层；

首先，保持旧网络的参数不变，依据概率

随机添加连接

得到膨胀网络

其中，

为

连接至Y_p，t≤p≤T-1的平均费雪信息；

然后，采用不确定度量算法，添加网络连接；

其损失函数定义如下：

上式中，n表示标签为Y_T的样本个数，τ∈[0,1]为分位数，θ^h为连接

t＝1:T-1的网络参数，L_τ为pinball-loss函数定义如下：

随后，计算标签Y_T的预测间距U_T，并设置其不确定性阈值为th1；其中，在给定的样本x_i,和分位数τ下，预测间距U_T由式(5)计算得到：

若U_T≤th1，则停止网络膨胀；否则，增加隐含变量

以及连接

依据概率

随机添加连接

为

与其它任务隐含层横向连接的平均费雪信息；同时保持其他参数不变，学习新添加的连接，并计算U_T；

若U_T≤th1，则停止网络膨胀，并联合学习所有的新增网络连接，得到膨胀后的网络模型；否则，增加下一层隐含变量

及连接

依据概率

随机添加连接

保持其余网络参数不变，学习新添加的连接，并计算U_T；

若U_T≤th1，则停止网络膨胀，并联合学习所有的新增网络连接，得到膨胀后的网络模型；否则，继续往下增加隐含变量，直到U_T≤th1；

最后，由输入层至输出层逐步裁剪浮点运算量大的网络结构，每次裁剪网络结构后，保持其余网络参数不变，直接计算U_T，直至U_T≥th2后，th2为预设阈值，停止网络裁剪，从而得到任务Task_T的网络结构和参数N_T。

进一步地，所述子模型自适应集成输出，依据各子模型的输出偏差动态调整各模态子模型的集成权重，并集成输出标签的预测结果；其包括模态选择和子模型权重的学习两个子步骤。

进一步地，所述模态选择的具体过程如下：

首先，定义模态X_i对应的子模型ψ_i的输出分布中心

如下：

上式中，ψ_i(x_k)表示给定样本x_k，子模型ψ_i的输出o_i,k＝ψ_i(x_k)；同时，定义子模型ψ_i的平均输出偏差

如下：

然后，依据

设置门限

若δ_i-test＞δ_i-th，则舍弃模态X_i，该模态子模型不参与标签的集成推断；否则，将模态X_i加入集成模态集合E_infer，参与标签的集成推断；其中，δ_i-test表示测试输出偏差，由式(8)计算得到：

若

则拒绝对该标签的预测，避免对标签的误判；否则，进入子模型权重的学习。

进一步地，所述子模型权重的学习的具体过程如下：

首先，针对不同任务，分别学习在训练集表现良好的子模型集成权重向量：

上式中，W_j表示给定标签Y_j时，各子模型的集成权重，O为各子模型的输出，

表示标签Y_j对应的子模型，L(·)为标签预测误差函数，μ∈[0,1]为超参数；

然后，建立由各子模型的平均输出偏差

至W_j ^*的映射：

子模型的平均输出偏差与其集成权重存在关联关系；若子模型的平均输出偏差

较大，则说明：该模态的输出偶然不确定性大，集成权重应较小；若子模型的平均输出偏差

较小，则说明：该模态的输出值分布集中，偶然不确定性小，集成权重应较大；

采用神经网络f(·)来拟合各子模型的平均输出偏差

到标签Y_j的最佳集成权重W_j ^*的映射，并将该优化问题表达为：

上式中，L_H(·)表示上述映射

的拟合误差，θ_j为多层感知机的网络参数；在测试时，依据已训练好的映射估计各模态子模型的集成权重

为：

标签Y_j的预测值

可由式(12)计算得到：

与现有技术相比，本方案原理及优点如下：

1.本方案基于概率模型的因子分解提出了多模态多标签增量学习任务的解耦与集成方法。该方法把复杂的多模态多标签增量学习问题转化为一组输入维度不变的增量学习问题，可以适应不同模态集和标签集的学习任务，以避免网络结构的过度膨胀和重复计算，使系统具有良好的可扩展性。

2.本方案提出了具有遗忘机制的网络结构动态扩展方法。该方法依据过往输出连接的平均费雪信息，衡量旧任务隐含变量的活跃程度，活跃程度越小的隐含变量则被遗忘，不参与新任务的学习，由此减少网络膨胀过程中的冗余连接，提高网络膨胀效率。

3.本方案提出了各模态子模型自适应集成方法。该方法依据各子模型的输出偏差动态调整各模态子模型的集成权重，能够解决各模态数据信噪比非平稳的多标签预测问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的服务作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为多模态多标签模型解耦流程图；

图2为具有遗忘机制的网络结构动态扩展方法流程图；

图3为子模型的自适应集成流程图。

具体实施方式

下面结合具体实施例对本发明作进一步说明：

为了使得本发明实施例的描述更加清晰，预先给出如下符号定义：

1)数据集D_t的模态集合记为:E_t，标签集合记作:L_t；

2)数据集

其中

和

分别表示模态i和标签j；

3)在数据集D_t到达后，建立起来的模型集合记作M_t；

4)数据集D₁,…,D_t出现过的所有模态的并集记为:

所有标签的并集记作:

5)E_t与

的交集简记为:

6)L_t与

的交集简记作：

7)数据集D_t新出现的模态集:

新出现的标签集

8)测试任务集合Test_t的模态集

标签集

当数据集D₁,…,D_t依次到达时，该多模态多标签增量学习方法所需解决的问题是：依据D_t和M_t-1的信息(或额外保存少量代表性的历史数据)，构建能够处理测试任务集合Test_t的模型集合M_t。

多模态多标签预测模型的目标函数J构建如下：

该目标函数包含三部分，第一部分为L₁(·)表示各模态的重构误差，如均方误差函数；第二部分为L₂(·)表示多标签的预测误差，如排序损失函数(Ranking loss)；第三部分是L₃(·)用于衡量分布

的构建误差，如KL距离；其中，α,β∈[0,1]为超参数，ω为网络参数。

多模态多标签预测模型的增量学习方法，首先基于概率模型的因子分解，把复杂的多模态多标签增量学习问题转化为一组输入维度不变的增量学习问题，即转化为多个子模型；然后采用参数正则化和具有遗忘机制的网络结构动态扩展方法，更新该些子模型；最后将更新后的子模型自适应集成输出，实现多模态多标签预测。

其中，所述把复杂的多模态多标签增量学习问题转化为一组输入维度不变的增量学习问题的具体过程如下：

上式中，

表示从模态

至隐含变量Z_f的映射，

个子模型。

故，测试时，可通过灵活地集成这些子模型来完成推断网络的搭建，从而适应所有

和

的预测任务。

如图1所示，当t＝T时刻的数据集D_T到达时，分三种情况作处理：

上述中所述的具有遗忘机制的网络结构动态扩展方法由输出至输入，逐层增加隐含变量，并将其与旧任务较为活跃的隐含变量做横向连接，然后逐批学习新增连接参数，以提高网络膨胀的效率，最后，在预测不确定性可以接受的前提下，由输入至输出，逐步裁剪浮点运算量大的冗余网络结构；如图2所示，具体过程如下：

及

的输入和输出连接，其中，j＝1:K，

表示最接近Y的隐含层；

首先，保持旧网络的参数不变，依据概率

随机添加连接

得到膨胀网络

其中，

为

连接至Y_p，t≤p≤T-1的平均费雪信息；

然后，采用不确定度量算法，添加网络连接；

其损失函数定义如下：

t＝1:T-1的网络参数，L_τ为pinball-loss函数定义如下：

若U_T≤th1，则停止网络膨胀；否则，增加隐含变量

以及连接

依据概率

随机添加连接

为

及连接

依据概率

随机添加连接

保持其余网络参数不变，学习新添加的连接，并计算U_T；

而所述子模型自适应集成输出，依据各子模型的输出偏差动态调整各模态子模型的集成权重，并集成输出标签的预测结果；其包括模态选择和子模型权重的学习两个子步骤，具体如图3所示：

其中，模态选择的具体过程如下：

首先，定义模态X_i对应的子模型ψ_i的输出分布中心

如下：

如下：

然后，依据

设置门限

若

子模型权重的学习的具体过程如下：

然后，建立由各子模型的平均输出偏差

至W_j ^*的映射：

本实施例采用神经网络f(·)(比如多层感知机)来拟合各子模型的平均输出偏差

上式中，L_H(·)表示上述映射

为：

标签Y_j的预测值

可由式(12)计算得到：

以上所述之实施例子只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种多模态多标签预测模型的增量学习方法，其特征在于，首先基于概率模型的因子分解，把复杂的多模态多标签增量学习问题转化为一组输入维度不变的增量学习问题，即转化为多个子模型；然后采用参数正则化和具有遗忘机制的网络结构动态扩展方法，更新该些子模型；最后将更新后的子模型自适应集成输出，实现多模态多标签预测。

2.根据权利要求1所述的一种多模态多标签预测模型的增量学习方法，其特征在于，当数据集D₁,…,D_t依次到达时，多模态多标签增量学习方法所需解决的问题为：依据D_t和M_t-1的信息构建能够处理测试任务集合Test_t的模型集合M_t；

多模态多标签预测模型的目标函数J构建如下：

的构建误差；其中，α,β∈[0,1]为超参数，ω为网络参数。

3.根据权利要求2所述的一种多模态多标签预测模型的增量学习方法，其特征在于，所述把复杂的多模态多标签增量学习问题转化为一组输入维度不变的增量学习问题的具体过程如下：

其中，

表示从模态

至隐含变量Z_f的映射，

个子模型。

4.根据权利要求3所述的一种多模态多标签预测模型的增量学习方法，其特征在于，当t＝T时刻的数据集D_T到达时，分三种情况作处理：

情况三：若E_s和L_s皆不为空集，即同时有新的模态和新的标签出现，则针对i∈E_s,依据先验知识，构建X_i→Z_f的网络结构，并添加到模型集合中；按照情况二的处置方法，学习Z_f→Y_j，j∈L_s的网络结构，并添加到模型集合中；然后，基于D_T优化目标函数(1)，获得X_i→Z_f→Y_j，i∈E_T,j∈L_T的网络参数和隐变量Z_f,最后采用模型参数正则化方法，分别增量更新X_i→Z_f，i∈E∩和Z_f→Y_j，j∈L_∩的网络参数。

5.根据权利要求4所述的一种多模态多标签预测模型的增量学习方法，其特征在于，所述具有遗忘机制的网络结构动态扩展方法由输出至输入，逐层增加隐含变量，并将其与旧任务较为活跃的隐含变量做横向连接，然后逐批学习新增连接参数，以提高网络膨胀的效率，最后，在预测不确定性可以接受的前提下，由输入至输出，逐步裁剪浮点运算量大的冗余网络结构；具体过程如下：