CN112580797A - 一种多模态多标签预测模型的增量学习方法 - Google Patents

一种多模态多标签预测模型的增量学习方法 Download PDF

Info

Publication number
CN112580797A
CN112580797A CN202011346483.2A CN202011346483A CN112580797A CN 112580797 A CN112580797 A CN 112580797A CN 202011346483 A CN202011346483 A CN 202011346483A CN 112580797 A CN112580797 A CN 112580797A
Authority
CN
China
Prior art keywords
network
model
label
learning
submodel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011346483.2A
Other languages
English (en)
Other versions
CN112580797B (zh
Inventor
吕俊
郑雅纯
李磊
黄梓欣
黄泽茵
李柔仪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202011346483.2A priority Critical patent/CN112580797B/zh
Publication of CN112580797A publication Critical patent/CN112580797A/zh
Application granted granted Critical
Publication of CN112580797B publication Critical patent/CN112580797B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种多模态多标签预测模型的增量学习方法,首先基于概率模型的因子分解,把复杂的多模态多标签增量学习问题转化为一组输入维度不变的增量学习问题,即转化为多个子模型;然后采用参数正则化和具有遗忘机制的网络结构动态扩展方法,更新该些子模型;最后将更新后的子模型自适应集成输出,实现多模态多标签预测。本发明可以适应不同模态集和标签集的学习任务,以避免网络结构的过度膨胀和重复计算,使系统具有良好的可扩展性;能够解决各模态数据信噪比非平稳的多标签预测问题。

Description

一种多模态多标签预测模型的增量学习方法
技术领域
本发明涉及预测模型增量学习的技术领域,尤其涉及到一种多模态多标签预测模型的增量学习方法。
背景技术
目前,研究增量学习问题的工作大致可分为以下三类:
(1)正则化法:通过约束参数的更新,保留旧任务学习模型的重要信息,例如:James等以费雪信息度量模型参数的重要性,提出了弹性权重固化(elastic weightconsolidation,EWC)增量学习方法;Zenke等依据权值路径积分度量模型参数的重要性,并提出了“智能突触”增量学习方法;Dhar等通过惩罚注意力蒸馏损失保护重要模型参数。但是,随着新任务的增加,模型参数不断迭代更新,对旧任务重要的参数还是会逐渐变迁。
(2)数据(或记忆)回放法:通过回顾旧任务重要数据信息,缓解灾难性遗忘,例如:Rebuffi等保留在特征空间中与各类均值最接近的旧任务数据,并将之与新任务数据合并,在分类误差和蒸馏损失引导下更新参数;Wu等在的基础上提出验证集偏置校正策略,解决了新旧数据规模不平衡的问题;Shin等采用生成对抗网络,间接保留旧任务数据的分布信息。但随着学习任务的增加,生成的数据分布会逐渐偏离原来的数据分布,同时,由于需要额外训练生成模型,此类方法的计算量较大。
(3)动态结构法:依据学习任务的变化,自适应调整模型结构,例如:Li和Hoiem提出一种多头架构,将学习模型分作任务共享层和任务各异层,前者网络结构固定,后者会随着新任务的增加而分支生长;为了避免网络规模的过快膨胀,Yoon等通过稀疏正则化减少模型参数,选择旧任务模型中与新任务相关的参数进行训练,若不能很好地拟合新数据,则扩展网络;若被选中的旧模型的参数在新任务的学习中变迁过大,则复制保留一份更新前的参数给旧任务,以缓解灾难性遗忘;Hung等采用逐步修剪法压缩模型结构,通过掩码参数重用,固定旧任务模型的网络连接,杜绝灾难性遗忘,并利用旧任务模型冗余的网络连接帮助新任务的学习,若有必要则扩展网络。
但上述增量学习方法主要针对多分类或多标签的增量学习任务,而在实际应用中,如多模态脑机接口系统,多参数监护系统,自动驾驶系统,多导睡眠图监护系统等都需要处理多模态多标签预测任务,若采用现有的方法,需要训练和保存的模型数将随模态集和标签集规模的扩大而成指数增长。
发明内容
本发明的目的在于克服现有技术的不足,提供一种能避免网络结构的过度膨胀和重复计算、解决各模态数据信噪比非平稳的多标签预测问题的多模态多标签预测模型的增量学习方法。
为实现上述目的,本发明所提供的技术方案为:
一种多模态多标签预测模型的增量学习方法,首先基于概率模型的因子分解,把复杂的多模态多标签增量学习问题转化为一组输入维度不变的增量学习问题,即转化为多个子模型;然后采用参数正则化和具有遗忘机制的网络结构动态扩展方法,更新该些子模型;最后将更新后的子模型自适应集成输出,实现多模态多标签预测。
进一步地,当数据集D1,…,Dt依次到达时,多模态多标签增量学习方法所需解决的问题为:依据Dt和Mt-1的信息构建能够处理测试任务集合Testt的模型集合Mt
多模态多标签预测模型的目标函数J构建如下:
Figure BDA0002800087550000021
该目标函数包含三部分,第一部分为L1(·)表示各模态的重构误差;第二部分为L2(·)表示多标签的预测误差;第三部分是L3(·)用于衡量分布
Figure BDA0002800087550000031
的构建误差;其中,α,β∈[0,1]为超参数,ω为网络参数。
进一步地,所述把复杂的多模态多标签增量学习问题转化为一组输入维度不变的增量学习问题的具体过程如下:
多模态多标签增量学习任务在不同时刻到达的各批数据所包含的模态集合与标签集合都不尽相同,为了适应模态集合和标签集合的变化,避免海量数据的存储和大量的重复计算,对多模态多标签模型进行如下因子分解:
Figure BDA0002800087550000032
其中,
Figure BDA0002800087550000033
表示从模态
Figure BDA0002800087550000034
至隐含变量Zf的映射,
Figure BDA0002800087550000035
由代理网络学习得到,隐含变量Zf则由基于t时刻的数据集Dt优化目标函数(1)得到;于是,多模态多标签模型被分解为一系列关于映射Xi→Zf和Zf→Yj的子模型;针对以上映射,共建立和存储
Figure BDA0002800087550000036
个子模型。
进一步地,当t=T时刻的数据集DT到达时,分三种情况作处理:
情况一:若数据集Dt新出现的模态集Es和新出现的标签集Ls皆为空集,即没有新的模态或新的标签出现,则基于DT优化目标函数(1)获得Xi→Zf→Yj,i∈ET,j∈LT的网络参数和隐变量Zf,然后,采用模型参数正则化方法,分别更新Xi→Zf,i∈ET(=E)和Zf→Yj,j∈LT(=L)的网络参数;
情况二:若Es为空集,Ls不为空集,即没有新的模态出现,但有新的标签出现,则:借助D1:T-1已建立的网络Zf→Yj
Figure BDA0002800087550000037
使用具有遗忘机制的网络结构动态扩展方法学习Zf→Yj,j∈Ls的网络结构,并添加到模型集合中;然后,基于Dt优化目标函数(1)获得Xi→Zf→Yj,i∈ET,j∈LT网络参数和隐变量Zf;最后采用模型参数正则化方法,分别增量更新Xi→Zf,i∈ET(=E)和Zf→Yj,j∈L的网络参数;
情况三:若Es和Ls皆不为空集,即同时有新的模态和新的标签出现,则针对i∈Es,依据先验知识,构建Xi→Zf的网络结构,并添加到模型集合中;按照情况二的处置方法,学习Zf→Yj,j∈Ls的网络结构,并添加到模型集合中;然后,基于DT优化目标函数(1),获得Xi→Zf→Yj,i∈ET,j∈LT的网络参数和隐变量Zf,最后采用模型参数正则化方法,分别增量更新Xi→Zf,i∈E和Zf→Yj,j∈L的网络参数。
进一步地,所述具有遗忘机制的网络结构动态扩展方法由输出至输入,逐层增加隐含变量,并将其与旧任务较为活跃的隐含变量做横向连接,然后逐批学习新增连接参数,以提高网络膨胀的效率,最后,在预测不确定性可以接受的前提下,由输入至输出,逐步裁剪浮点运算量大的冗余网络结构;具体过程如下:
假定输出为YT新任务TaskT到达时,输出为Y1,…,YT-1的旧任务Taskt=1:T-1已学习完毕,包括隐含层
Figure BDA0002800087550000041
Figure BDA0002800087550000042
的输入和输出连接,其中,j=1:K,
Figure BDA0002800087550000043
表示最接近Y的隐含层;
首先,保持旧网络的参数不变,依据概率
Figure BDA0002800087550000044
随机添加连接
Figure BDA0002800087550000045
得到膨胀网络
Figure BDA0002800087550000046
其中,
Figure BDA0002800087550000047
Figure BDA0002800087550000048
连接至Yp,t≤p≤T-1的平均费雪信息;
然后,采用不确定度量算法,添加网络连接;
其损失函数定义如下:
Figure BDA0002800087550000049
上式中,n表示标签为YT的样本个数,τ∈[0,1]为分位数,θh为连接
Figure BDA00028000875500000410
t=1:T-1的网络参数,Lτ为pinball-loss函数定义如下:
Figure BDA0002800087550000051
随后,计算标签YT的预测间距UT,并设置其不确定性阈值为th1;其中,在给定的样本xi,和分位数τ下,预测间距UT由式(5)计算得到:
Figure BDA0002800087550000052
若UT≤th1,则停止网络膨胀;否则,增加隐含变量
Figure BDA0002800087550000053
以及连接
Figure BDA0002800087550000054
依据概率
Figure BDA0002800087550000055
随机添加连接
Figure BDA0002800087550000056
Figure BDA0002800087550000057
Figure BDA0002800087550000058
与其它任务隐含层横向连接的平均费雪信息;同时保持其他参数不变,学习新添加的连接,并计算UT
若UT≤th1,则停止网络膨胀,并联合学习所有的新增网络连接,得到膨胀后的网络模型;否则,增加下一层隐含变量
Figure BDA0002800087550000059
及连接
Figure BDA00028000875500000510
依据概率
Figure BDA00028000875500000511
随机添加连接
Figure BDA00028000875500000512
保持其余网络参数不变,学习新添加的连接,并计算UT
若UT≤th1,则停止网络膨胀,并联合学习所有的新增网络连接,得到膨胀后的网络模型;否则,继续往下增加隐含变量,直到UT≤th1;
最后,由输入层至输出层逐步裁剪浮点运算量大的网络结构,每次裁剪网络结构后,保持其余网络参数不变,直接计算UT,直至UT≥th2后,th2为预设阈值,停止网络裁剪,从而得到任务TaskT的网络结构和参数NT
进一步地,所述子模型自适应集成输出,依据各子模型的输出偏差动态调整各模态子模型的集成权重,并集成输出标签的预测结果;其包括模态选择和子模型权重的学习两个子步骤。
进一步地,所述模态选择的具体过程如下:
首先,定义模态Xi对应的子模型ψi的输出分布中心
Figure BDA0002800087550000061
如下:
Figure BDA0002800087550000062
上式中,ψi(xk)表示给定样本xk,子模型ψi的输出oi,k=ψi(xk);同时,定义子模型ψi的平均输出偏差
Figure BDA0002800087550000063
如下:
Figure BDA0002800087550000064
然后,依据
Figure BDA0002800087550000065
设置门限
Figure BDA0002800087550000066
若δi-test>δi-th,则舍弃模态Xi,该模态子模型不参与标签的集成推断;否则,将模态Xi加入集成模态集合Einfer,参与标签的集成推断;其中,δi-test表示测试输出偏差,由式(8)计算得到:
Figure BDA0002800087550000067
Figure BDA0002800087550000068
则拒绝对该标签的预测,避免对标签的误判;否则,进入子模型权重的学习。
进一步地,所述子模型权重的学习的具体过程如下:
首先,针对不同任务,分别学习在训练集表现良好的子模型集成权重向量:
Figure BDA0002800087550000069
上式中,Wj表示给定标签Yj时,各子模型的集成权重,O为各子模型的输出,
Figure BDA00028000875500000610
表示标签Yj对应的子模型,L(·)为标签预测误差函数,μ∈[0,1]为超参数;
然后,建立由各子模型的平均输出偏差
Figure BDA00028000875500000611
至Wj *的映射:
子模型的平均输出偏差与其集成权重存在关联关系;若子模型的平均输出偏差
Figure BDA00028000875500000612
较大,则说明:该模态的输出偶然不确定性大,集成权重应较小;若子模型的平均输出偏差
Figure BDA00028000875500000613
较小,则说明:该模态的输出值分布集中,偶然不确定性小,集成权重应较大;
采用神经网络f(·)来拟合各子模型的平均输出偏差
Figure BDA0002800087550000071
到标签Yj的最佳集成权重Wj *的映射,并将该优化问题表达为:
Figure BDA0002800087550000072
上式中,LH(·)表示上述映射
Figure BDA0002800087550000073
的拟合误差,θj为多层感知机的网络参数;在测试时,依据已训练好的映射估计各模态子模型的集成权重
Figure BDA0002800087550000074
为:
Figure BDA0002800087550000075
标签Yj的预测值
Figure BDA0002800087550000076
可由式(12)计算得到:
Figure BDA0002800087550000077
与现有技术相比,本方案原理及优点如下:
1.本方案基于概率模型的因子分解提出了多模态多标签增量学习任务的解耦与集成方法。该方法把复杂的多模态多标签增量学习问题转化为一组输入维度不变的增量学习问题,可以适应不同模态集和标签集的学习任务,以避免网络结构的过度膨胀和重复计算,使系统具有良好的可扩展性。
2.本方案提出了具有遗忘机制的网络结构动态扩展方法。该方法依据过往输出连接的平均费雪信息,衡量旧任务隐含变量的活跃程度,活跃程度越小的隐含变量则被遗忘,不参与新任务的学习,由此减少网络膨胀过程中的冗余连接,提高网络膨胀效率。
3.本方案提出了各模态子模型自适应集成方法。该方法依据各子模型的输出偏差动态调整各模态子模型的集成权重,能够解决各模态数据信噪比非平稳的多标签预测问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的服务作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为多模态多标签模型解耦流程图;
图2为具有遗忘机制的网络结构动态扩展方法流程图;
图3为子模型的自适应集成流程图。
具体实施方式
下面结合具体实施例对本发明作进一步说明:
为了使得本发明实施例的描述更加清晰,预先给出如下符号定义:
1)数据集Dt的模态集合记为:Et,标签集合记作:Lt
2)数据集
Figure BDA0002800087550000081
其中
Figure BDA0002800087550000082
Figure BDA0002800087550000083
分别表示模态i和标签j;
3)在数据集Dt到达后,建立起来的模型集合记作Mt
4)数据集D1,…,Dt出现过的所有模态的并集记为:
Figure BDA0002800087550000084
所有标签的并集记作:
Figure BDA0002800087550000085
5)Et
Figure BDA0002800087550000086
的交集简记为:
Figure BDA0002800087550000087
6)Lt
Figure BDA0002800087550000088
的交集简记作:
Figure BDA0002800087550000089
7)数据集Dt新出现的模态集:
Figure BDA00028000875500000810
新出现的标签集
Figure BDA00028000875500000811
8)测试任务集合Testt的模态集
Figure BDA00028000875500000812
标签集
Figure BDA00028000875500000813
当数据集D1,…,Dt依次到达时,该多模态多标签增量学习方法所需解决的问题是:依据Dt和Mt-1的信息(或额外保存少量代表性的历史数据),构建能够处理测试任务集合Testt的模型集合Mt
多模态多标签预测模型的目标函数J构建如下:
Figure BDA00028000875500000814
该目标函数包含三部分,第一部分为L1(·)表示各模态的重构误差,如均方误差函数;第二部分为L2(·)表示多标签的预测误差,如排序损失函数(Ranking loss);第三部分是L3(·)用于衡量分布
Figure BDA0002800087550000091
的构建误差,如KL距离;其中,α,β∈[0,1]为超参数,ω为网络参数。
多模态多标签预测模型的增量学习方法,首先基于概率模型的因子分解,把复杂的多模态多标签增量学习问题转化为一组输入维度不变的增量学习问题,即转化为多个子模型;然后采用参数正则化和具有遗忘机制的网络结构动态扩展方法,更新该些子模型;最后将更新后的子模型自适应集成输出,实现多模态多标签预测。
其中,所述把复杂的多模态多标签增量学习问题转化为一组输入维度不变的增量学习问题的具体过程如下:
多模态多标签增量学习任务在不同时刻到达的各批数据所包含的模态集合与标签集合都不尽相同,为了适应模态集合和标签集合的变化,避免海量数据的存储和大量的重复计算,对多模态多标签模型进行如下因子分解:
Figure BDA0002800087550000092
上式中,
Figure BDA0002800087550000093
表示从模态
Figure BDA0002800087550000094
至隐含变量Zf的映射,
Figure BDA0002800087550000095
由代理网络学习得到,隐含变量Zf则由基于t时刻的数据集Dt优化目标函数(1)得到;于是,多模态多标签模型被分解为一系列关于映射Xi→Zf和Zf→Yj的子模型;针对以上映射,共建立和存储
Figure BDA0002800087550000096
个子模型。
故,测试时,可通过灵活地集成这些子模型来完成推断网络的搭建,从而适应所有
Figure BDA0002800087550000097
Figure BDA0002800087550000098
的预测任务。
如图1所示,当t=T时刻的数据集DT到达时,分三种情况作处理:
情况一:若数据集Dt新出现的模态集Es和新出现的标签集Ls皆为空集,即没有新的模态或新的标签出现,则基于DT优化目标函数(1)获得Xi→Zf→Yj,i∈ET,j∈LT的网络参数和隐变量Zf,然后,采用模型参数正则化方法,分别更新Xi→Zf,i∈ET(=E)和Zf→Yj,j∈LT(=L)的网络参数;
情况二:若Es为空集,Ls不为空集,即没有新的模态出现,但有新的标签出现,则:借助D1:T-1已建立的网络Zf→Yj
Figure BDA0002800087550000104
使用具有遗忘机制的网络结构动态扩展方法学习Zf→Yj,j∈Ls的网络结构,并添加到模型集合中;然后,基于Dt优化目标函数(1)获得Xi→Zf→Yj,i∈ET,j∈LT网络参数和隐变量Zf;最后采用模型参数正则化方法,分别增量更新Xi→Zf,i∈ET(=E)和Zf→Yj,j∈L的网络参数;
情况三:若Es和Ls皆不为空集,即同时有新的模态和新的标签出现,则针对i∈Es,依据先验知识,构建Xi→Zf的网络结构,并添加到模型集合中;按照情况二的处置方法,学习Zf→Yj,j∈Ls的网络结构,并添加到模型集合中;然后,基于DT优化目标函数(1),获得Xi→Zf→Yj,i∈ET,j∈LT的网络参数和隐变量Zf,最后采用模型参数正则化方法,分别增量更新Xi→Zf,i∈E和Zf→Yj,j∈L的网络参数。
上述中所述的具有遗忘机制的网络结构动态扩展方法由输出至输入,逐层增加隐含变量,并将其与旧任务较为活跃的隐含变量做横向连接,然后逐批学习新增连接参数,以提高网络膨胀的效率,最后,在预测不确定性可以接受的前提下,由输入至输出,逐步裁剪浮点运算量大的冗余网络结构;如图2所示,具体过程如下:
假定输出为YT新任务TaskT到达时,输出为Y1,…,YT-1的旧任务Taskt=1:T-1已学习完毕,包括隐含层
Figure BDA0002800087550000101
Figure BDA0002800087550000102
的输入和输出连接,其中,j=1:K,
Figure BDA0002800087550000103
表示最接近Y的隐含层;
首先,保持旧网络的参数不变,依据概率
Figure BDA0002800087550000111
随机添加连接
Figure BDA0002800087550000112
得到膨胀网络
Figure BDA0002800087550000113
其中,
Figure BDA0002800087550000114
Figure BDA0002800087550000115
连接至Yp,t≤p≤T-1的平均费雪信息;
然后,采用不确定度量算法,添加网络连接;
其损失函数定义如下:
Figure BDA0002800087550000116
上式中,n表示标签为YT的样本个数,τ∈[0,1]为分位数,θh为连接
Figure BDA0002800087550000117
t=1:T-1的网络参数,Lτ为pinball-loss函数定义如下:
Figure BDA0002800087550000118
随后,计算标签YT的预测间距UT,并设置其不确定性阈值为th1;其中,在给定的样本xi,和分位数τ下,预测间距UT由式(5)计算得到:
Figure BDA0002800087550000119
若UT≤th1,则停止网络膨胀;否则,增加隐含变量
Figure BDA00028000875500001110
以及连接
Figure BDA00028000875500001111
依据概率
Figure BDA00028000875500001112
随机添加连接
Figure BDA00028000875500001113
Figure BDA00028000875500001114
Figure BDA00028000875500001115
与其它任务隐含层横向连接的平均费雪信息;同时保持其他参数不变,学习新添加的连接,并计算UT
若UT≤th1,则停止网络膨胀,并联合学习所有的新增网络连接,得到膨胀后的网络模型;否则,增加下一层隐含变量
Figure BDA00028000875500001116
及连接
Figure BDA00028000875500001117
依据概率
Figure BDA00028000875500001118
随机添加连接
Figure BDA00028000875500001119
保持其余网络参数不变,学习新添加的连接,并计算UT
若UT≤th1,则停止网络膨胀,并联合学习所有的新增网络连接,得到膨胀后的网络模型;否则,继续往下增加隐含变量,直到UT≤th1;
最后,由输入层至输出层逐步裁剪浮点运算量大的网络结构,每次裁剪网络结构后,保持其余网络参数不变,直接计算UT,直至UT≥th2后,th2为预设阈值,停止网络裁剪,从而得到任务TaskT的网络结构和参数NT
而所述子模型自适应集成输出,依据各子模型的输出偏差动态调整各模态子模型的集成权重,并集成输出标签的预测结果;其包括模态选择和子模型权重的学习两个子步骤,具体如图3所示:
其中,模态选择的具体过程如下:
首先,定义模态Xi对应的子模型ψi的输出分布中心
Figure BDA0002800087550000121
如下:
Figure BDA0002800087550000122
上式中,ψi(xk)表示给定样本xk,子模型ψi的输出oi,k=ψi(xk);同时,定义子模型ψi的平均输出偏差
Figure BDA0002800087550000123
如下:
Figure BDA0002800087550000124
然后,依据
Figure BDA0002800087550000125
设置门限
Figure BDA0002800087550000126
若δi-test>δi-th,则舍弃模态Xi,该模态子模型不参与标签的集成推断;否则,将模态Xi加入集成模态集合Einfer,参与标签的集成推断;其中,δi-test表示测试输出偏差,由式(8)计算得到:
Figure BDA0002800087550000127
Figure BDA0002800087550000128
则拒绝对该标签的预测,避免对标签的误判;否则,进入子模型权重的学习。
子模型权重的学习的具体过程如下:
首先,针对不同任务,分别学习在训练集表现良好的子模型集成权重向量:
Figure BDA0002800087550000131
上式中,Wj表示给定标签Yj时,各子模型的集成权重,O为各子模型的输出,
Figure BDA0002800087550000132
表示标签Yj对应的子模型,L(·)为标签预测误差函数,μ∈[0,1]为超参数;
然后,建立由各子模型的平均输出偏差
Figure BDA0002800087550000133
至Wj *的映射:
子模型的平均输出偏差与其集成权重存在关联关系;若子模型的平均输出偏差
Figure BDA0002800087550000134
较大,则说明:该模态的输出偶然不确定性大,集成权重应较小;若子模型的平均输出偏差
Figure BDA0002800087550000135
较小,则说明:该模态的输出值分布集中,偶然不确定性小,集成权重应较大;
本实施例采用神经网络f(·)(比如多层感知机)来拟合各子模型的平均输出偏差
Figure BDA0002800087550000136
到标签Yj的最佳集成权重Wj *的映射,并将该优化问题表达为:
Figure BDA0002800087550000137
上式中,LH(·)表示上述映射
Figure BDA0002800087550000138
的拟合误差,θj为多层感知机的网络参数;在测试时,依据已训练好的映射估计各模态子模型的集成权重
Figure BDA0002800087550000139
为:
Figure BDA00028000875500001310
标签Yj的预测值
Figure BDA00028000875500001311
可由式(12)计算得到:
Figure BDA00028000875500001312
以上所述之实施例子只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (8)

1.一种多模态多标签预测模型的增量学习方法,其特征在于,首先基于概率模型的因子分解,把复杂的多模态多标签增量学习问题转化为一组输入维度不变的增量学习问题,即转化为多个子模型;然后采用参数正则化和具有遗忘机制的网络结构动态扩展方法,更新该些子模型;最后将更新后的子模型自适应集成输出,实现多模态多标签预测。
2.根据权利要求1所述的一种多模态多标签预测模型的增量学习方法,其特征在于,当数据集D1,…,Dt依次到达时,多模态多标签增量学习方法所需解决的问题为:依据Dt和Mt-1的信息构建能够处理测试任务集合Testt的模型集合Mt
多模态多标签预测模型的目标函数J构建如下:
Figure FDA0002800087540000011
该目标函数包含三部分,第一部分为L1(·)表示各模态的重构误差;第二部分为L2(·)表示多标签的预测误差;第三部分是L3(·)用于衡量分布
Figure FDA0002800087540000012
的构建误差;其中,α,β∈[0,1]为超参数,ω为网络参数。
3.根据权利要求2所述的一种多模态多标签预测模型的增量学习方法,其特征在于,所述把复杂的多模态多标签增量学习问题转化为一组输入维度不变的增量学习问题的具体过程如下:
多模态多标签增量学习任务在不同时刻到达的各批数据所包含的模态集合与标签集合都不尽相同,为了适应模态集合和标签集合的变化,避免海量数据的存储和大量的重复计算,对多模态多标签模型进行如下因子分解:
Figure FDA0002800087540000013
其中,
Figure FDA0002800087540000021
表示从模态
Figure FDA0002800087540000022
至隐含变量Zf的映射,
Figure FDA0002800087540000023
由代理网络学习得到,隐含变量Zf则由基于t时刻的数据集Dt优化目标函数(1)得到;于是,多模态多标签模型被分解为一系列关于映射Xi→Zf和Zf→Yj的子模型;针对以上映射,共建立和存储
Figure FDA0002800087540000024
个子模型。
4.根据权利要求3所述的一种多模态多标签预测模型的增量学习方法,其特征在于,当t=T时刻的数据集DT到达时,分三种情况作处理:
情况一:若数据集Dt新出现的模态集Es和新出现的标签集Ls皆为空集,即没有新的模态或新的标签出现,则基于DT优化目标函数(1)获得Xi→Zf→Yj,i∈ET,j∈LT的网络参数和隐变量Zf,然后,采用模型参数正则化方法,分别更新Xi→Zf,i∈ET(=E)和Zf→Yj,j∈LT(=L)的网络参数;
情况二:若Es为空集,Ls不为空集,即没有新的模态出现,但有新的标签出现,则:借助D1:T-1已建立的网络Zf→Yj
Figure FDA0002800087540000025
使用具有遗忘机制的网络结构动态扩展方法学习Zf→Yj,j∈Ls的网络结构,并添加到模型集合中;然后,基于Dt优化目标函数(1)获得Xi→Zf→Yj,i∈ET,j∈LT网络参数和隐变量Zf;最后采用模型参数正则化方法,分别增量更新Xi→Zf,i∈ET(=E)和Zf→Yj,j∈L的网络参数;
情况三:若Es和Ls皆不为空集,即同时有新的模态和新的标签出现,则针对i∈Es,依据先验知识,构建Xi→Zf的网络结构,并添加到模型集合中;按照情况二的处置方法,学习Zf→Yj,j∈Ls的网络结构,并添加到模型集合中;然后,基于DT优化目标函数(1),获得Xi→Zf→Yj,i∈ET,j∈LT的网络参数和隐变量Zf,最后采用模型参数正则化方法,分别增量更新Xi→Zf,i∈E∩和Zf→Yj,j∈L的网络参数。
5.根据权利要求4所述的一种多模态多标签预测模型的增量学习方法,其特征在于,所述具有遗忘机制的网络结构动态扩展方法由输出至输入,逐层增加隐含变量,并将其与旧任务较为活跃的隐含变量做横向连接,然后逐批学习新增连接参数,以提高网络膨胀的效率,最后,在预测不确定性可以接受的前提下,由输入至输出,逐步裁剪浮点运算量大的冗余网络结构;具体过程如下:
假定输出为YT新任务TaskT到达时,输出为Y1,…,YT-1的旧任务Taskt=1:T-1已学习完毕,包括隐含层
Figure FDA0002800087540000031
Figure FDA0002800087540000032
的输入和输出连接,其中,j=1:K,
Figure FDA0002800087540000033
表示最接近Y的隐含层;
首先,保持旧网络的参数不变,依据概率
Figure FDA0002800087540000034
随机添加连接
Figure FDA0002800087540000035
t=1:T-1,得到膨胀网络
Figure FDA0002800087540000036
其中,
Figure FDA0002800087540000037
Figure FDA0002800087540000038
连接至Yp,t≤p≤T-1的平均费雪信息;
然后,采用不确定度量算法,添加网络连接;
其损失函数定义如下:
Figure FDA0002800087540000039
上式中,n表示标签为YT的样本个数,τ∈[0,1]为分位数,θh为连接
Figure FDA00028000875400000310
t=1:T-1的网络参数,Lτ为pinball-loss函数定义如下:
Figure FDA00028000875400000311
随后,计算标签YT的预测间距UT,并设置其不确定性阈值为th1;其中,在给定的样本xi,和分位数τ下,预测间距UT由式(5)计算得到:
Figure FDA00028000875400000312
若UT≤th1,则停止网络膨胀;否则,增加隐含变量
Figure FDA00028000875400000313
以及连接
Figure FDA00028000875400000314
依据概率
Figure FDA0002800087540000041
随机添加连接
Figure FDA0002800087540000042
t=1:T-1,
Figure FDA0002800087540000043
Figure FDA0002800087540000044
与其它任务隐含层横向连接的平均费雪信息;同时保持其他参数不变,学习新添加的连接,并计算UT
若UT≤th1,则停止网络膨胀,并联合学习所有的新增网络连接,得到膨胀后的网络模型;否则,增加下一层隐含变量
Figure FDA0002800087540000045
及连接
Figure FDA0002800087540000046
依据概率
Figure FDA0002800087540000047
随机添加连接
Figure FDA0002800087540000048
保持其余网络参数不变,学习新添加的连接,并计算UT
若UT≤th1,则停止网络膨胀,并联合学习所有的新增网络连接,得到膨胀后的网络模型;否则,继续往下增加隐含变量,直到UT≤th1;
最后,由输入层至输出层逐步裁剪浮点运算量大的网络结构,每次裁剪网络结构后,保持其余网络参数不变,直接计算UT,直至UT≥th2后,th2为预设阈值,停止网络裁剪,从而得到任务TaskT的网络结构和参数NT
6.根据权利要求5所述的一种多模态多标签预测模型的增量学习方法,其特征在于,所述子模型自适应集成输出,依据各子模型的输出偏差动态调整各模态子模型的集成权重,并集成输出标签的预测结果;其包括模态选择和子模型权重的学习两个子步骤。
7.根据权利要求6所述的一种多模态多标签预测模型的增量学习方法,其特征在于,所述模态选择的具体过程如下:
首先,定义模态Xi对应的子模型ψi的输出分布中心
Figure FDA0002800087540000049
如下:
Figure FDA00028000875400000410
上式中,ψi(xk)表示给定样本xk,子模型ψi的输出oi,k=ψi(xk);同时,定义子模型ψi的平均输出偏差
Figure FDA00028000875400000411
如下:
Figure FDA0002800087540000051
然后,依据
Figure FDA0002800087540000052
设置门限
Figure FDA0002800087540000053
若δi-test>δi-th,则舍弃模态Xi,该模态子模型不参与标签的集成推断;否则,将模态Xi加入集成模态集合Einfer,参与标签的集成推断;其中,δi-test表示测试输出偏差,由式(8)计算得到:
Figure FDA0002800087540000054
Figure FDA0002800087540000055
则拒绝对该标签的预测,避免对标签的误判;否则,进入子模型权重的学习。
8.根据权利要求7所述的一种多模态多标签预测模型的增量学习方法,其特征在于,所述子模型权重的学习的具体过程如下:
首先,针对不同任务,分别学习在训练集表现良好的子模型集成权重向量:
Figure FDA0002800087540000056
上式中,Wj表示给定标签Yj时,各子模型的集成权重,O为各子模型的输出,
Figure FDA0002800087540000057
表示标签Yj对应的子模型,L(·)为标签预测误差函数,μ∈[0,1]为超参数;
然后,建立由各子模型的平均输出偏差
Figure FDA0002800087540000058
至Wj *的映射:
子模型的平均输出偏差与其集成权重存在关联关系;若子模型的平均输出偏差
Figure FDA0002800087540000059
较大,则说明:该模态的输出偶然不确定性大,集成权重应较小;若子模型的平均输出偏差
Figure FDA00028000875400000510
较小,则说明:该模态的输出值分布集中,偶然不确定性小,集成权重应较大;
采用神经网络f(·)来拟合各子模型的平均输出偏差
Figure FDA00028000875400000511
到标签Yj的最佳集成权重Wj *的映射,并将该优化问题表达为:
Figure FDA00028000875400000512
上式中,LH(·)表示上述映射
Figure FDA0002800087540000061
的拟合误差,θj为多层感知机的网络参数;在测试时,依据已训练好的映射估计各模态子模型的集成权重
Figure FDA0002800087540000062
为:
Figure FDA0002800087540000063
标签Yj的预测值
Figure FDA0002800087540000064
可由式(12)计算得到:
Figure FDA0002800087540000065
CN202011346483.2A 2020-11-26 2020-11-26 一种多模态多标签预测模型的增量学习方法 Active CN112580797B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011346483.2A CN112580797B (zh) 2020-11-26 2020-11-26 一种多模态多标签预测模型的增量学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011346483.2A CN112580797B (zh) 2020-11-26 2020-11-26 一种多模态多标签预测模型的增量学习方法

Publications (2)

Publication Number Publication Date
CN112580797A true CN112580797A (zh) 2021-03-30
CN112580797B CN112580797B (zh) 2024-01-16

Family

ID=75123700

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011346483.2A Active CN112580797B (zh) 2020-11-26 2020-11-26 一种多模态多标签预测模型的增量学习方法

Country Status (1)

Country Link
CN (1) CN112580797B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113205142A (zh) * 2021-05-08 2021-08-03 浙江大学 一种基于增量学习的目标检测方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108717552A (zh) * 2018-05-17 2018-10-30 南京大学 基于新标签发现和标签增量学习的动态多标签分类方法
US20200042508A1 (en) * 2018-08-06 2020-02-06 Walmart Apollo, Llc Artificial intelligence system and method for auto-naming customer tree nodes in a data structure
CN111199242A (zh) * 2019-12-18 2020-05-26 浙江工业大学 一种基于动态修正向量的图像增量学习方法
CN111210000A (zh) * 2019-12-18 2020-05-29 浙江工业大学 一种基于固定特征的调制信号增量学习方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108717552A (zh) * 2018-05-17 2018-10-30 南京大学 基于新标签发现和标签增量学习的动态多标签分类方法
US20200042508A1 (en) * 2018-08-06 2020-02-06 Walmart Apollo, Llc Artificial intelligence system and method for auto-naming customer tree nodes in a data structure
CN111199242A (zh) * 2019-12-18 2020-05-26 浙江工业大学 一种基于动态修正向量的图像增量学习方法
CN111210000A (zh) * 2019-12-18 2020-05-29 浙江工业大学 一种基于固定特征的调制信号增量学习方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113205142A (zh) * 2021-05-08 2021-08-03 浙江大学 一种基于增量学习的目标检测方法和装置

Also Published As

Publication number Publication date
CN112580797B (zh) 2024-01-16

Similar Documents

Publication Publication Date Title
US11562167B2 (en) Method of training neural network classification model using selected data
US11042802B2 (en) System and method for hierarchically building predictive analytic models on a dataset
US20220100648A1 (en) Computer program for performance testing of models
US11769060B2 (en) Method for determining optimal anomaly detection model for processing input data
CN111461463A (zh) 一种基于tcn-bp的短期负荷预测方法、系统及设备
US20200167660A1 (en) Automated heuristic deep learning-based modelling
CN114462623B (zh) 基于边缘计算的数据分析方法、系统及平台
TWI831016B (zh) 機器學習方法、機器學習系統以及非暫態電腦可讀取媒體
CN113792768A (zh) 超图神经网络分类方法和装置
CN114154557A (zh) 癌症组织分类方法、装置、电子设备及存储介质
CN112580797A (zh) 一种多模态多标签预测模型的增量学习方法
CN114463596A (zh) 一种超图神经网络的小样本图像识别方法、装置及设备
CN112668633B (zh) 一种基于细粒度领域自适应的图迁移学习方法
Chen Estimating job cycle time in a wafer fabrication factory: A novel and effective approach based on post-classification
US20220383253A1 (en) Systems and methods for determining estimated alimentary element transfer time
CN113111588B (zh) 一种燃气轮机nox排放浓度预测方法及装置
Shahan et al. Bayesian networks for set-based collaborative design
CN110728292A (zh) 一种多任务联合优化下的自适应特征选择算法
CN109978038A (zh) 一种集群异常判定方法及装置
CN117892166B (zh) 稀疏数据识别方法、智能计算子系统以及智能计算平台
CN117933345B (zh) 一种医学图像分割模型的训练方法
US20220121922A1 (en) System and method for automated optimazation of a neural network model
US20230289563A1 (en) Multi-node neural network constructed from pre-trained small networks
US20240028902A1 (en) Learning apparatus and method
CN116702839A (zh) 一种基于卷积神经网络的模型训练方法及应用系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant