CN116089883A - 用于提高已有类别增量学习新旧类别区分度的训练方法 - Google Patents

用于提高已有类别增量学习新旧类别区分度的训练方法 Download PDF

Info

Publication number
CN116089883A
CN116089883A CN202310044665.1A CN202310044665A CN116089883A CN 116089883 A CN116089883 A CN 116089883A CN 202310044665 A CN202310044665 A CN 202310044665A CN 116089883 A CN116089883 A CN 116089883A
Authority
CN
China
Prior art keywords
old
data set
categories
stage
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310044665.1A
Other languages
English (en)
Other versions
CN116089883B (zh
Inventor
孙卓
涂婷
方棉佳
王晓波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202310044665.1A priority Critical patent/CN116089883B/zh
Publication of CN116089883A publication Critical patent/CN116089883A/zh
Application granted granted Critical
Publication of CN116089883B publication Critical patent/CN116089883B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明提出一种用于提高已有类别增量学习新旧类别区分度的训练方法,包括:获取数据集并对数据集进行预处理,构成任务序列;构建和优化双分支网络,基于初始数据集构建回放数据集以实现增量阶段的旧知识保留;复制并扩展双分支网络,在双分支中基于表征相似性进行双边采样,通过提升易混淆的旧类别的采样概率实现区分度提升,采取混合损失函数和累积学习策略优化双分支网络,并扩展回放数据集以实现下一增量阶段的旧知识保留;所述训练方法在增量学习的过程中直接保存旧样本,采取目标蒸馏方法,以简单有效的手段保存旧知识;基于双分支结构进行双边采样和累积学习,能够有效解决混淆问题,实现类别增量学习分类性能提升。

Description

用于提高已有类别增量学习新旧类别区分度的训练方法
技术领域
本发明属于人工智能应用技术领域,具体涉及一种用于提高已有类别增量学习新旧类别区分度的训练方法。
背景技术
现实中的数据常以流的形式不断更新,系统面临识别类型扩展的需求,解决此问题的方法包含重训练和增量学习两种,与重训练相比,增量学习不需要全部旧数据的可用性,允许模型基于新数据持续更新,适用于存储和计算资源受限的应用。
通常情况下,增量学习可分为任务增量学习、类别增量学习两种设置,后者在训练和测试阶段都不能利用任务标识,更加贴合实际应用场景,现存的增量学习方法主要分为三大类,基于正则化的方法减小重要参数的变化以保存旧知识,由于难以在一系列任务中准确评估参数的重要性,此类方法不能有效解决类别增量学习问题;基于蒸馏的方法直接保存旧样本,或者使用生成模型生成旧任务的伪样本,以构造回放数据集,并结合回放数据集和知识蒸馏保存旧知识,在类别增量学习问题上取得了较好的效果;基于结构的方法固定模型中与旧类别相关的参数,并以多种方式为新类别分配新的参数或子网络,但大部分基于结构的方法是针对任务增量学习设计的,不适用于类别增量学习问题。上述方法主要解决遗忘旧知识造成的性能下降问题,即灾难性遗忘,然而新类别与相似旧类别的混淆同样会导致性能下降。
现有的增量学习方法中:
文献“Liu Y,Schiele B,Sun Q.Adaptive aggregation networks for class-incremental learning[C]//Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition.2021:2544-2553.”和文献“何丽,韩克平,朱泓西,等.双分支迭代的深度增量图像分类方法[J].模式识别与人工智能,2020,33(2):150-159.”也提出了双分支结构,但仅用于解决旧知识的灾难性遗忘,而无法处理新旧类别的混淆问题;
文献“Pham Q,Liu C,Hoi S.DualNet:Continual learning,fast and slow[J].Advances in Neural Information Processing Systems,2021,34:16131-16144.”使用双分支结构和自监督技术提升模型的鲁棒性,只聚焦于学习通用的特征,无法解决新旧类别区分度提升问题;
文献“Guo L,Xie G,Qu Y,et al.Learning a dual-branch classifier forclass incremental learning[J].Applied Intelligence,2022:1-11.”同样在双分支结构中采取知识蒸馏和双边采样方法,但其采取特征蒸馏方法,并在重平衡分支中进行类别均衡采样以解决类不平衡问题。
基于现有技术存在的上述技术问题,本发明提出一种用于提高已有类别增量学习新旧类别区分度的训练方法。
发明内容
本发明的目的是针对现有技术的不足,提供一种用于提高已有类别增量学习新旧类别区分度的训练方法,包括:
步骤1,获取数据集并对数据集进行预处理,构成任务序列;
步骤2,构建和优化双分支网络,基于初始数据集构建回放数据集以实现增量阶段的旧知识保留;
步骤3,数据类型扩展时,结合回放数据集计算当前增量阶段新旧类别的表征相似性,复制并扩展双分支网络,在双分支中基于表征相似性进行双边采样,通过提升易混淆的旧类别的采样概率实现区分度提升,采取混合损失函数和累积学习策略优化双分支网络,并扩展回放数据集以实现下一增量阶段的旧知识保留。
进一步地,步骤1包括:
将数据集划分为B个任务,任务间的标签空间互不相交,采取iCaRL方法,数据集D={D1,...,DB},其中,
Figure BDA0004054746780000021
表示第t阶段的扩展类别数据,
Figure BDA0004054746780000022
Figure BDA0004054746780000023
代表输入数据和标签对,nt表示Dt中的样本数;
Figure BDA0004054746780000024
Yt为任务t的标签空间,对于任意i≠j,
Figure BDA0004054746780000025
即各个任务间的类别互不相交;
在第t阶段的测试过程中,模型将在所有已学习类别
Figure BDA0004054746780000026
上进行评估。
进一步地,步骤2包括:
步骤2a,双分支网络构建,将网络F1解耦为特征提取器
Figure BDA00040547467800000213
和分类器W,
Figure BDA00040547467800000212
包含通用的底层特征提取器
Figure BDA0004054746780000027
Figure BDA0004054746780000028
上并联2个独立的传统学习分支
Figure BDA0004054746780000029
重平衡分支
Figure BDA00040547467800000210
步骤2b,双分支网络优化,基于初始数据集D1,采取交叉熵损失LCE和梯度下降算法对F1进行优化:
Figure BDA00040547467800000211
其中,C1=|Y1|,代表初始数据集D1中包含的类别数,δ为指示函数;
步骤2c,回放数据集构建,基于双分支网络的特征提取器
Figure BDA0004054746780000031
分别计算数据集D1中C1类样本的特征向量,基于特征向量均值提取原型向量
Figure BDA0004054746780000032
应用到回放数据集构建:
Figure BDA0004054746780000033
其中,Pi 1代表第1阶段中第i类样本的原型向量,
Figure BDA0004054746780000034
代表第i类样本集
Figure BDA0004054746780000035
中包含的样本数(i∈1,2,...,C1),
Figure BDA0004054746780000036
代表其中第j条样本;
采取iCaRL方法,根据样本与对应原型向量的欧几里得距离,为每个新类别选择距离最近的前k条样本p1,p2,...,pk,构成第一阶段的回放数据集
Figure BDA0004054746780000037
Figure BDA0004054746780000038
其中,Pi 1代表第1阶段中第i类样本的原型向量,
Figure BDA0004054746780000039
代表第i类样本集(i∈{1,2,...,C1}),
Figure BDA00040547467800000310
代表其中第k条样本。
进一步地,步骤3中,计算新旧类别的表征相似性包括:
基于第t-1阶段的双分支网络特征提取器
Figure BDA00040547467800000311
分别计算数据集Dt中Ct类样本的特征向量,基于特征向量均值提取原型向量
Figure BDA00040547467800000312
Figure BDA00040547467800000313
计算第t-1阶段的原型向量
Figure BDA00040547467800000314
与第t阶段的原型向量
Figure BDA00040547467800000315
之间的相似性,获得新旧类别的表征相似性矩阵
Figure BDA00040547467800000316
下式(5)中si,j表示第t阶段中,第i个新类别与第j个旧类别的表征相似性:
Figure BDA00040547467800000317
在第t阶段中,数据集
Figure BDA00040547467800000318
包含
Figure BDA00040547467800000319
个旧类别、Ct个新类别,其中
Figure BDA00040547467800000320
Figure BDA00040547467800000321
基于类别相似性矩阵S,计算第i个旧类别与新类别的相似性wi
Figure BDA00040547467800000322
进一步地,步骤3中,扩展双分支网络包括:
复制第t-1阶段的双分支模型Ft-1,在分类器W中添加Ct个输出节点,组成第t阶段增量扩展的双分支网络Ft
进一步地,步骤3中,优化双分支网络包括:在第t阶段,分别对数据集
Figure BDA0004054746780000041
进行均匀采样和类别相似性加权采样,获得样本(xc,yc)、(xr,yr),其中,重平衡分支的类别相似性加权采样包括:根据表征相似性计算每个类别的采样概率Pi,根据采样概率Pi随机选择类别i,在类别i样本中进行不放回的均匀采样;将样本分别传入传统学习分支
Figure BDA0004054746780000042
和重平衡分支
Figure BDA0004054746780000043
中,得到特征向量fc和fr,其中:
Figure BDA0004054746780000044
Figure BDA0004054746780000045
基于累积学习策略,使用自适应均衡参数α控制两个分支的输出,采取交叉熵损失LCE、蒸馏损失LKD,以及梯度下降算法对双分支网络Ft进行优化。
进一步地,步骤3中,扩展回放数据集包括:
基于双分支网络的特征提取器
Figure BDA0004054746780000046
分别计算数据集Dt中Ct类样本的特征向量,求出每一类别数据
Figure BDA0004054746780000047
的特征向量均值,提取原型向量
Figure BDA0004054746780000048
Figure BDA0004054746780000049
采取iCaRL方法,根据样本与对应原型向量的欧几里得距离,为每个新类别选择距离最近的前k条样本p1,p2,...,pk,加入上一阶段的回放数据集
Figure BDA00040547467800000410
中,构成
Figure BDA00040547467800000411
实现当前阶段回放数据集扩展:
Figure BDA00040547467800000412
本发明的优越技术效果在于:
本发明所述用于提高已有类别增量学习新旧类别区分度的训练方法,在增量学习的过程中直接保存旧样本,采取目标蒸馏方法,以简单有效的手段保存旧知识;基于双分支结构进行双边采样和累积学习,能够有效解决混淆问题,实现类别增量学习分类性能提升;本发明所述方法具备通用性,可与现有方法结合,通过增强新旧类别区分度提升分类性能。
附图说明
图1为本发明实施例中用于提高已有类别增量学习新旧类别区分度的训练方法的流程示意图;
图2为本发明实施例中基于卷积神经网络的架构示意图;
图3为本发明实施例中所述方法与LwF算法结合的CIFAR10分类示意图;
图4为本发明实施例中所述方法与WA算法结合的CIFAR10分类示意图;
图5为本发明实施例中所述方法与iCaRL算法结合的CIFAR10分类示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述,需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
实施例
本实施例旨在提供一种简单有效的方法处理混淆问题,具体而言,本实施例用于提高已有类别增量学习新旧类别区分度的训练方法,采取旧样本保存策略构建回放数据集,在使用目标蒸馏保存旧知识的基础上,进一步采取双分支结构,在传统分支进行均匀采样,在重平衡分支进行类别相似性加权采样,提升与新类别高度相似的旧类别采样概率,通过双边累积学习和混合损失函数学习判别性特征,降低新类别与相似旧类别的混淆,进而提升类别增量学习分类性能,在存储空间受限时,本实施例所述方法通过提高新旧类别区分度,有效提升已有类别增量学习方法的分类性能,对原有和扩展的类别均有良好的分类性能。
如图1所示,在整个流程中,首先获取数据并进行预处理,即执行步骤101;接着判断是否为第一次进行训练,如果是第一次进行训练,则执行步骤102,否则进行增量更新操作,即执行步骤103;
具体的所述方法包括:
101,数据集获取和预处理;
以CIFAR10图像数据集为例,共包含10类图片,每个类别有6000张图片,共含有50000张训练图像和10000张测试图像,将上述数据集划分为5个任务,每个任务包含2类,各个任务之间的类互不相交,在测试时不能访问任务标识符,此外,对数据集进行预处理,先对图像数据进行随机的水平翻转,随后转化成张量,并进行标准化,标准化计算过程为先计算本次训练图像数据的均值和方差,将每一张图片减去均值后再除以方差;
102,构建和优化双分支网络,构造回放数据集,包括:
步骤102a,双分支网络构建,以ResNet20为例,所述ResNet20网络包含4个阶段,第1个阶段包含卷积核为n1×n1的卷积层、批量归一化层、ReLU激活函数层,第2至3个阶段均由1个残差块组成,每个残差块包含2个Basicblock模块,每个模块由卷积核为n2×n2的卷积层、ReLU激活函数层、卷积核为n2×n2的卷积层组成,第4个阶段包含2个并联的残差块,每个残差块由2个Basicblock模块组成,将所述的ResNet20网络作为双分支网络F1的特征提取器
Figure BDA00040547467800000616
使用全连接层作为分类器W,ResNet20的前3个阶段作为通用的底层特征提取器
Figure BDA0004054746780000061
第4个阶段的2个并联的分支记为
Figure BDA0004054746780000062
步骤102b,双分支网络优化,对于第一个任务D1,采取常见的图像分类模型训练方法,选用SGD优化器,计算交叉熵损失LCE对F1进行优化:
Figure BDA0004054746780000063
其中,C1=|Y1|,代表初始数据集D1中包含的类别数,δ为指示函数;
步骤102c,回放数据集构建,基于双分支网络的特征提取器
Figure BDA00040547467800000614
分别计算数据集D1中2类样本的特征向量,求出每一类别的特征向量均值,提取原型向量
Figure BDA0004054746780000064
应用到回放数据集构建中:
Figure BDA0004054746780000065
其中,
Figure BDA00040547467800000615
代表第1阶段中第i类样本的原型向量,
Figure BDA0004054746780000066
代表第i类样本集
Figure BDA0004054746780000067
中包含的样本数(i∈1,2,...,C1),
Figure BDA0004054746780000068
代表其中第j条样本;
采取iCaRL方法构建回放数据集,根据样本与对应原型向量的欧几里得距离,选择距离最近的前20条样本p1,p2,...,p20,作为每个类别的代表性样本共同构成回放数据集
Figure BDA0004054746780000069
Figure BDA00040547467800000610
其中,
Figure BDA00040547467800000617
代表第1阶段中第i类样本的原型向量,
Figure BDA00040547467800000611
代表第i类样本集(i∈{1,2,...,C1}),
Figure BDA00040547467800000612
代表其中第j条样本;
103,计算新旧类别的表征相似性,复制并扩展上一阶段双分支网络,基于表征相似性进行双边采样,采取混合损失函数和累积学习策略优化双分支网络,并扩展回放数据集,包括:
步骤103a,新旧类别表征相似性计算,基于第t-1阶段的双分支网络特征提取器
Figure BDA00040547467800000613
分别计算图像集Dt中Ct类图像样本的特征向量,求出每一类别的特征向量均值,提取原型向量
Figure BDA0004054746780000071
Figure BDA0004054746780000072
计算第t-1阶段的原型向量
Figure BDA0004054746780000073
与第t阶段的原型向量
Figure BDA0004054746780000074
之间的相似性,获得新旧类别的表征相似性矩阵
Figure BDA0004054746780000075
下式中si,j表示第t阶段中,第i个新类别与第j个旧类别的表征相似性:
Figure BDA0004054746780000076
在第t阶段中,图像集
Figure BDA0004054746780000077
包含
Figure BDA0004054746780000078
个旧类别、Ct个新类别,其中,
Figure BDA0004054746780000079
Figure BDA00040547467800000710
基于类别相似性矩阵S,计算第i个旧类别与新类别的相似性wi
Figure BDA00040547467800000711
步骤103b,双分支网络扩展,复制第t-1阶段的双分支模型Ft-1,在分类器W中添加Ct个输出节点,组成第t阶段增量扩展的双分支网络Ft
步骤103c,基于双边采样、混合损失函数和累积学习策略的双分支网络优化;
在第t阶段,如图2所示,分别对数据集
Figure BDA00040547467800000712
进行均匀采样和类别相似性加权采样,获得样本(xc,yc)、(xr,yr),其中,重平衡分支的类别相似性加权采样包含三个步骤,根据表征相似性计算每个类别的采样概率Pi
Figure BDA00040547467800000713
根据采样概率Pi随机选择类别i;在类别i样本中进行不放回的均匀采样;重复重平衡分支的类别相似性加权采样的步骤,即可获得重采样的小批量训练数据;
在共享底层特征取器
Figure BDA00040547467800000714
的基础上,将样本分别传入传统学习分支
Figure BDA00040547467800000715
和重平衡分支
Figure BDA00040547467800000716
中,得到特征向量fc和fr,其中:
Figure BDA00040547467800000717
Figure BDA0004054746780000081
基于累积学习策略,采取自适应均衡参数α控制两个分支的输出,其中,T表示模型当前迭轮次,Tmax代表总训练轮次,并将加权输出分别传入分类器Wc和Wr中,分类器最终预测输出记为o:
Figure BDA0004054746780000082
Figure BDA0004054746780000083
采取交叉熵损失LCE、蒸馏损失LKD,以及梯度下降算法对双分支网络Ft进行优化,知识蒸馏用于将上一阶段旧模型包含的旧知识迁移到当前模型中,蒸馏损失和模型的加权损失如下式,其中:
L(x,y)=LKD(x)+LCE(x,y),
Figure BDA0004054746780000084
Ltotal=αL(xc,yc)+(1-α)L(xr,yr),
Figure BDA0004054746780000085
q(x)分别为
Figure BDA0004054746780000086
o(x)经过softmax函数后的预测概率,其中:
Figure BDA0004054746780000087
代表上一阶段获得的旧模型输出的逻辑值向量,
Figure BDA0004054746780000088
代表新模型输出的逻辑值向量;
步骤103d:回放数据集扩展,基于双分支网络的特征提取器
Figure BDA00040547467800000814
分别计算数据集Dt中Ct类样本的特征向量,求出每一类别的特征向量均值,提取原型向量
Figure BDA0004054746780000089
Figure BDA00040547467800000810
采取iCaRL方法,根据样本与对应原型向量的欧几里得距离,选择距离最近的前k条样本p1,p2,...,pk,加入上一阶段的回放数据集
Figure BDA00040547467800000811
中,构成
Figure BDA00040547467800000812
实现当前阶段回放数据集扩展:
Figure BDA00040547467800000813
在本实施例中,选取3种代表性的基于知识蒸馏的类别增量学习方法,分别为WA、LwF、iCaRL算法,并将本实施例所述方法与这3种算法进行结合,在实验过程中,设置初始学习率为0.1,每个任务的总迭代轮次Tmax=70,权重衰减系数为0.0002,采取平均增量准确率和单个增量阶段的分类准确率作为评价指标,设置三个随机种子获取不同任务划分的实验结果,本实施例所述方法与WA、LwF、iCaRL算法结合后在CIFAR10数据集上的实验结果如图3、4、5所示,在与原有增量学习方法结合后,通过提升新旧类别区分度,本实施例所述方法提升了原有方法的分类准确率和平均增量准确率,证明其有效性。
其中:
所述LwF方法具体如文献“Li Z,Hoiem D.Learning without forgetting[J].IEEE transactions on pattern analysis and machine intelligence,2017,40(12):2935-2947.”中所述。
所述WA方法具体如文献“Zhao B,Xiao X,Gan G,et al.Maintainingdiscrimination and fairness in class incremental learning[C]//Proceedings ofthe IEEE/CVF Conference on Computer Vision and Pattern Recognition.2020:13208-13217.”中所述。
所述iCaRL方法具体如文献“Rebuffi S A,KolesnikovA,Sperl G,et al.icarl:Incremental classifier and representation learning[C]//Proceedings of theIEEE conference on Computer Vision and Pattern Recognition.2017:2001-2010.”中所述。
本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书界定。

Claims (7)

1.一种用于提高已有类别增量学习新旧类别区分度的训练方法,其特征在于,包括:
步骤1,获取数据集并对数据集进行预处理,构成任务序列;
步骤2,构建和优化双分支网络,基于初始数据集构建回放数据集以实现增量阶段的旧知识保留;
步骤3,数据类型扩展时,结合回放数据集计算当前增量阶段新旧类别的表征相似性,复制并扩展双分支网络,在双分支中基于表征相似性进行双边采样,通过提升易混淆的旧类别的采样概率实现区分度提升,采取混合损失函数和累积学习策略优化双分支网络,并扩展回放数据集以实现下一增量阶段的旧知识保留。
2.根据权利要求1所述的用于提高已有类别增量学习新旧类别区分度的训练方法,其特征在于,步骤1包括:
将数据集划分为B个任务,任务间的标签空间互不相交,采取iCaRL方法,数据集D={D1,...,DB},其中,
Figure FDA0004054746770000011
表示第t阶段的扩展类别数据,
Figure FDA0004054746770000012
Figure FDA0004054746770000013
代表输入数据和标签对,nt表示Dt中的样本数;
Figure FDA0004054746770000014
Yt为任务t的标签空间,对于任意i≠j,
Figure FDA0004054746770000015
即各个任务间的类别互不相交;
在第t阶段的测试过程中,模型将在所有已学习类别
Figure FDA0004054746770000016
上进行评估。
3.根据权利要求2所述的用于提高已有类别增量学习新旧类别区分度的训练方法,其特征在于,步骤2包括:
步骤2a,双分支网络构建,将网络F1解耦为特征提取器
Figure FDA0004054746770000017
和分类器W,
Figure FDA0004054746770000018
包含通用的底层特征提取器
Figure FDA0004054746770000019
Figure FDA00040547467700000110
上并联2个独立的传统学习分支
Figure FDA00040547467700000111
重平衡分支
Figure FDA00040547467700000112
步骤2b,双分支网络优化,基于初始数据集D1,采取交叉熵损失LCE和梯度下降算法对F1进行优化:
Figure FDA0004054746770000021
其中,C1=|Y1|,代表初始数据集D1中包含的类别数,δ为指示函数;
步骤2c,回放数据集构建,基于双分支网络的特征提取器
Figure FDA0004054746770000022
分别计算数据集D1中C1类样本的特征向量,基于特征向量均值提取原型向量
Figure FDA0004054746770000023
应用到回放数据集构建:
Figure FDA0004054746770000024
其中,Pi 1代表第1阶段中第i类样本的原型向量,
Figure FDA0004054746770000025
代表第i类样本集
Figure FDA0004054746770000026
中包含的样本数(i∈1,2,...,C1),
Figure FDA0004054746770000027
代表其中第j条样本;
采取iCaRL方法,根据样本与对应原型向量的欧几里得距离,为每个新类别选择距离最近的前k条样本p1,p2,...,pk,构成第一阶段的回放数据集
Figure FDA0004054746770000028
Figure FDA0004054746770000029
其中,Pi 1代表第1阶段中第i类样本的原型向量,
Figure FDA00040547467700000210
代表第i类样本集(i∈{1,2,...,C1}),
Figure FDA00040547467700000211
代表其中第j条样本。
4.根据权利要求1所述的用于提高已有类别增量学习新旧类别区分度的训练方法,其特征在于,步骤3中,计算新旧类别的表征相似性包括:
基于第t-1阶段的双分支网络特征提取器
Figure FDA00040547467700000212
分别计算数据集Dt中Ct类样本的特征向量,基于特征向量均值提取原型向量
Figure FDA00040547467700000213
Figure FDA00040547467700000214
计算第t-1阶段的原型向量
Figure FDA00040547467700000215
与第t阶段的原型向量
Figure FDA00040547467700000216
之间的相似性,获得新旧类别的表征相似性矩阵
Figure FDA0004054746770000031
下式(5)中si,j表示第t阶段中,第i个新类别与第j个旧类别的表征相似性:
Figure FDA0004054746770000032
在第t阶段中,数据集
Figure FDA0004054746770000033
包含
Figure FDA0004054746770000034
个旧类别、Ct个新类别,其中
Figure FDA0004054746770000035
Figure FDA0004054746770000036
基于类别相似性矩阵S,计算第i个旧类别与新类别的相似性wi
Figure FDA0004054746770000037
5.根据权利要求4所述的用于提高已有类别增量学习新旧类别区分度的训练方法,其特征在于,步骤3中,扩展双分支网络包括:
复制第t-1阶段的双分支模型Ft-1,在分类器W中添加Ct个输出节点,组成第t阶段增量扩展的双分支网络Ft
6.根据权利要求2所述的用于提高已有类别增量学习新旧类别区分度的训练方法,其特征在于,步骤3中,优化双分支网络包括:在第t阶段,分别对数据集
Figure FDA0004054746770000038
进行均匀采样和类别相似性加权采样,获得样本(xc,yc)、(xr,yr),其中,重平衡分支的类别相似性加权采样包括:根据表征相似性计算每个类别的采样概率Pi,根据采样概率Pi随机选择类别i,在类别i样本中进行不放回的均匀采样;将样本分别传入传统学习分支
Figure FDA0004054746770000039
和重平衡分支
Figure FDA00040547467700000310
中,得到特征向量fc和fr,其中:
Figure FDA00040547467700000311
Figure FDA00040547467700000312
基于累积学习策略,使用自适应均衡参数α控制两个分支的输出,采取交叉熵损失LCE、蒸馏损失LKD,以及梯度下降算法对双分支网络Ft进行优化。
7.根据权利要求5所述的用于提高已有类别增量学习新旧类别区分度的训练方法,其特征在于,步骤3中,扩展回放数据集包括:
基于双分支网络的特征提取器
Figure FDA0004054746770000041
分别计算数据集Dt中Ct类样本的特征向量,求出每一类别数据
Figure FDA0004054746770000042
的特征向量均值,提取原型向量
Figure FDA0004054746770000043
Figure FDA0004054746770000044
采取iCaRL方法,根据样本与对应原型向量的欧几里得距离,为每个新类别选择距离最近的前k条样本p1,p2,...,pk,加入上一阶段的回放数据集
Figure FDA0004054746770000045
中,构成
Figure FDA0004054746770000046
实现当前阶段回放数据集扩展:
Figure FDA0004054746770000047
CN202310044665.1A 2023-01-30 2023-01-30 用于提高已有类别增量学习新旧类别区分度的训练方法 Active CN116089883B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310044665.1A CN116089883B (zh) 2023-01-30 2023-01-30 用于提高已有类别增量学习新旧类别区分度的训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310044665.1A CN116089883B (zh) 2023-01-30 2023-01-30 用于提高已有类别增量学习新旧类别区分度的训练方法

Publications (2)

Publication Number Publication Date
CN116089883A true CN116089883A (zh) 2023-05-09
CN116089883B CN116089883B (zh) 2023-12-19

Family

ID=86200497

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310044665.1A Active CN116089883B (zh) 2023-01-30 2023-01-30 用于提高已有类别增量学习新旧类别区分度的训练方法

Country Status (1)

Country Link
CN (1) CN116089883B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116757261A (zh) * 2023-08-16 2023-09-15 南京航空航天大学 基于带有闭集噪声和开集噪声标签的鲁棒学习方法
CN116977635A (zh) * 2023-07-19 2023-10-31 中国科学院自动化研究所 类别增量语义分割学习方法及语义分割方法

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017127976A1 (zh) * 2016-01-25 2017-08-03 华为技术有限公司 一种用于增量式学习云系统的训练、调度方法及相关设备
CN111199242A (zh) * 2019-12-18 2020-05-26 浙江工业大学 一种基于动态修正向量的图像增量学习方法
US20200258218A1 (en) * 2018-03-14 2020-08-13 Dalian University Of Technology Method based on deep neural network to extract appearance and geometry features for pulmonary textures classification
CN112381788A (zh) * 2020-11-13 2021-02-19 北京工商大学 一种基于双分支匹配网络的零部件表面缺陷增量检测方法
CN112990280A (zh) * 2021-03-01 2021-06-18 华南理工大学 面向图像大数据的类增量分类方法、系统、装置及介质
CN114387486A (zh) * 2022-01-19 2022-04-22 中山大学 基于持续学习的图像分类方法以及装置
CN114429153A (zh) * 2021-12-31 2022-05-03 苏州大学 基于终身学习的齿轮箱增量故障诊断方法及系统
WO2022099600A1 (en) * 2020-11-13 2022-05-19 Intel Corporation Method and system of image hashing object detection for image processing
CN114609994A (zh) * 2022-02-24 2022-06-10 天津大学 基于多粒度正则化重平衡增量学习的故障诊断方法及装置
CN114612721A (zh) * 2022-03-15 2022-06-10 南京大学 基于多层次自适应特征融合类增量学习的图像分类方法
CN114677547A (zh) * 2022-04-07 2022-06-28 中国科学技术大学 一种基于自保持表征扩展的类增量学习的图像分类方法
CN114882337A (zh) * 2022-05-23 2022-08-09 之江实验室 一种基于校正新旧任务类别混淆的类增量学习方法
CN115270956A (zh) * 2022-07-25 2022-11-01 苏州大学 基于持续学习的跨设备增量轴承故障诊断方法
CN115359316A (zh) * 2022-08-17 2022-11-18 中国科学院计算技术研究所 一种基于增量学习的图像分类模型训练方法及分类方法
CN115392451A (zh) * 2022-08-02 2022-11-25 西安工业大学 一种可持续学习的人工神经网络避免遗忘方法
CN115423090A (zh) * 2022-08-21 2022-12-02 南京理工大学 一种面向细粒度识别的类增量学习方法

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017127976A1 (zh) * 2016-01-25 2017-08-03 华为技术有限公司 一种用于增量式学习云系统的训练、调度方法及相关设备
US20200258218A1 (en) * 2018-03-14 2020-08-13 Dalian University Of Technology Method based on deep neural network to extract appearance and geometry features for pulmonary textures classification
CN111199242A (zh) * 2019-12-18 2020-05-26 浙江工业大学 一种基于动态修正向量的图像增量学习方法
CN112381788A (zh) * 2020-11-13 2021-02-19 北京工商大学 一种基于双分支匹配网络的零部件表面缺陷增量检测方法
WO2022099600A1 (en) * 2020-11-13 2022-05-19 Intel Corporation Method and system of image hashing object detection for image processing
CN112990280A (zh) * 2021-03-01 2021-06-18 华南理工大学 面向图像大数据的类增量分类方法、系统、装置及介质
CN114429153A (zh) * 2021-12-31 2022-05-03 苏州大学 基于终身学习的齿轮箱增量故障诊断方法及系统
CN114387486A (zh) * 2022-01-19 2022-04-22 中山大学 基于持续学习的图像分类方法以及装置
CN114609994A (zh) * 2022-02-24 2022-06-10 天津大学 基于多粒度正则化重平衡增量学习的故障诊断方法及装置
CN114612721A (zh) * 2022-03-15 2022-06-10 南京大学 基于多层次自适应特征融合类增量学习的图像分类方法
CN114677547A (zh) * 2022-04-07 2022-06-28 中国科学技术大学 一种基于自保持表征扩展的类增量学习的图像分类方法
CN114882337A (zh) * 2022-05-23 2022-08-09 之江实验室 一种基于校正新旧任务类别混淆的类增量学习方法
CN115270956A (zh) * 2022-07-25 2022-11-01 苏州大学 基于持续学习的跨设备增量轴承故障诊断方法
CN115392451A (zh) * 2022-08-02 2022-11-25 西安工业大学 一种可持续学习的人工神经网络避免遗忘方法
CN115359316A (zh) * 2022-08-17 2022-11-18 中国科学院计算技术研究所 一种基于增量学习的图像分类模型训练方法及分类方法
CN115423090A (zh) * 2022-08-21 2022-12-02 南京理工大学 一种面向细粒度识别的类增量学习方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BOYAN ZHOU ET AL: "BBN: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition", ARXIV *
JUNTING ZHANG ET AL: "Class-incremental Learning via Deep Model Consolidation", ARXIV *
何丽;韩克平;朱泓西;刘颖;: "双分支迭代的深度增量图像分类方法", 模式识别与人工智能, no. 02 *
卢健;马成贤;周嫣然;李哲;: "双分支网络架构下的图像相似度学习", 测绘通报, no. 12 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116977635A (zh) * 2023-07-19 2023-10-31 中国科学院自动化研究所 类别增量语义分割学习方法及语义分割方法
CN116977635B (zh) * 2023-07-19 2024-04-16 中国科学院自动化研究所 类别增量语义分割学习方法及语义分割方法
CN116757261A (zh) * 2023-08-16 2023-09-15 南京航空航天大学 基于带有闭集噪声和开集噪声标签的鲁棒学习方法

Also Published As

Publication number Publication date
CN116089883B (zh) 2023-12-19

Similar Documents

Publication Publication Date Title
Liu et al. Progressive neural architecture search
CN116089883B (zh) 用于提高已有类别增量学习新旧类别区分度的训练方法
CN110288030B (zh) 基于轻量化网络模型的图像识别方法、装置及设备
US20190279088A1 (en) Training method, apparatus, chip, and system for neural network model
CN109754078A (zh) 用于优化神经网络的方法
CN111882040A (zh) 基于通道数量搜索的卷积神经网络压缩方法
CN115062710A (zh) 基于深度确定性策略梯度的联邦学习分类模型训练方法
CN113673482B (zh) 基于动态标签分配的细胞抗核抗体荧光识别方法及系统
CN114842343A (zh) 一种基于ViT的航空图像识别方法
CN113947133A (zh) 小样本图像识别的任务重要性感知元学习方法
Weber et al. Automated labeling of electron microscopy images using deep learning
CN112733724B (zh) 基于判别样本元挖掘器的亲属关系验证方法和装置
CN114399763A (zh) 一种单样本与小样本微体古生物化石图像识别方法及系统
CN116310466A (zh) 基于局部无关区域筛选图神经网络的小样本图像分类方法
CN115249313A (zh) 一种基于元模块融合增量学习的图像分类方法
CN115410059A (zh) 基于对比损失的遥感图像部分监督变化检测方法及设备
CN115661539A (zh) 一种嵌入不确定性信息的少样本图像识别方法
JP6993250B2 (ja) コンテンツ特徴量抽出装置、方法、及びプログラム
CN110188219B (zh) 面向图像检索的深度强化去冗余哈希方法
CN108304546B (zh) 一种基于内容相似度和Softmax分类器的医学图像检索方法
CN114816808A (zh) 异常检测方法、装置、电子设备及计算机可读存储介质
CN117079017A (zh) 可信的小样本图像识别分类方法
CN113034472B (zh) 一种基于梯度网络架构搜索的空域隐写分析方法及系统
CN111275660B (zh) 一种平板显示器缺陷检测方法及装置
CN115953618A (zh) 一种通过特征解耦实现无监督域自适应图像分类的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Sun Zhuo

Inventor after: Tu Ting

Inventor before: Sun Zhuo

Inventor before: Tu Ting

Inventor before: Fang Mianjia

Inventor before: Wang Xiaobo

CB03 Change of inventor or designer information