CN116310557A - 基于动态类原型生成机制的类增量学习方法及产品 - Google Patents
基于动态类原型生成机制的类增量学习方法及产品 Download PDFInfo
- Publication number
- CN116310557A CN116310557A CN202310274438.8A CN202310274438A CN116310557A CN 116310557 A CN116310557 A CN 116310557A CN 202310274438 A CN202310274438 A CN 202310274438A CN 116310557 A CN116310557 A CN 116310557A
- Authority
- CN
- China
- Prior art keywords
- class
- prototype
- feature
- stage
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 89
- 230000007246 mechanism Effects 0.000 title claims abstract description 60
- 238000012549 training Methods 0.000 claims abstract description 105
- 238000012937 correction Methods 0.000 claims abstract description 46
- 230000006870 function Effects 0.000 claims abstract description 24
- 238000011156 evaluation Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000004821 distillation Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000012512 characterization method Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 16
- 238000012360 testing method Methods 0.000 description 11
- 238000007430 reference method Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 206010027175 memory impairment Diseases 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 210000004556 brain Anatomy 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000019771 cognition Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013140 knowledge distillation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于动态类原型生成机制的类增量学习方法及产品,属于人工智能领域,包括以下步骤:1)划分类增量数据集并分配给T+1个训练阶段作为训练样本;2)对当前阶段的特征提取器和分类器进行训练;3)利用当前阶段样本的特征表示,定义出特征密度,并基于特征密度计算类别原型;4)采用基于拓扑纠正的原型漂移估计方法对之前所有阶段的各个类别原型进行更新;5)利用更新后的之前所有阶段的各个类别原型获得各个类别的伪特征;6)定义多目标损失函数,学习新的特征空间和分类器权重;7)重复步骤3)至6),直到所有增量阶段训练结束;8)每个训练阶段结束后,采用所述模型对所有学习过的类别进行评估。
Description
技术领域
本发明涉及人工智能技术领域,具体而言,涉及一种基于动态类原型生成机制的类增量学习方法及产品。
背景技术
近年来,深度神经网络越来越多地应用于不断变化的动态环境之中,这要求深度神经网络能够不断从新数据中学习新知识。然而,持续学习将会导致灾难性遗忘问题,即模型在旧数据上的性能急剧恶化。因此,持续学习新知识而不忘记已学习的旧知识已经成为许多计算机视觉任务的核心需求之一(例如图像识别和目标检测)。作为一种典型的连续学习任务,类增量学习(CIL)旨在识别新类样本的同时保持对旧类样本的识别能力。在CIL任务中,灾难性遗忘有两个主要原因:(a)与旧知识相关的神经网络参数被快速改变以适应新的类别数据(即网络漂移);(b)由于来自不同CIL阶段的类别样本没有被一起训练过,它们之间无法形成良好的决策边界(即阶段间类间混淆)。
为了缓解灾难性遗忘,现有的许多工作采用基于旧样本回放的方法。然而,此类方法有两大局限性:(a)对于一些设备内存有限的应用场景,不可能连续存储越来越多类的旧样本;(b)存储的旧样本涉及数据隐私往往是不可接受的。
发明内容
本申请提供一种基于动态类原型生成机制的类增量学习方法及产品,以解决无旧样本如何缓解类增量学习中灾难性遗忘的问题,并根据本方法的结构特点,发明了一种高效的无旧样本类增量学习模型和训练方法。
为了达到上述目的,本发明采用如下技术方案予以实现的:
第一方面,本申请提供了一种基于动态类原型生成机制的类增量学习方法,包括以下步骤:
步骤1),将图像数据集按照类别划分为多个类别不重叠的数据集,并将所述多个类别不重叠的数据集分配给1个基类阶段和T个增量阶段,每个训练阶段的训练样本为分配给当前阶段的数据集;
步骤2),使用步骤1)中当前阶段的训练样本对特征提取器和分类器进行训练,学习当前阶段的特征空间和分类器权重;
步骤3),利用所述特征提取器获得当前阶段的训练样本的特征表示,定义出特征密度,并基于所述特征密度计算出当前阶段各个类别的原型;
步骤4),在每个增量阶段,对于步骤3)中计算出的之前所有阶段各个类别的原型,采用基于拓扑纠正的原型漂移估计方法对所述之前所有阶段各个类别的原型进行更新;
步骤5),在每个增量阶段,利用步骤4)更新后的之前所有阶段各个类别的原型,生成之前所有阶段各个类别的伪特征;
步骤6),在每个增量阶段,基于步骤3)中的当前阶段的训练样本的特征表示及其分类预测结果,以及步骤5)中的上之前所有阶段各个类别的伪特征及其分类预测结果,定义多目标损失函数,学习新的特征空间和分类器权重;
步骤7),重复步骤3)至6),直到所有增量阶段训练结束;
步骤8),使用训练后的模型,以平均准确度和平均遗忘率作为评估指标,对所有学习过的类别进行评估,得到基于动态类原型生成机制的类增量学习模型。
基于第一方面,在步骤3)中,所述定义出特征密度,并基于所述特征密度计算出当前阶段各个类别的原型,包括:
其中,Proto(·)为类别a的原型,是特征表示/>的权重,/>Dj为特征表示/>的特征密度,初始原型/>代表阶段t中的初始原型集合,类别C1:t的原型集合/>定义为:/>μj为前t-1个阶段中的旧类别j的原型。
基于第一方面,在步骤4)中,采用基于拓扑纠正的原型漂移估计方法对所述之前所有阶段各个类别的原型进行更新,包括以下步骤:
在每个增量阶段,计算出每个增量阶段的特征空间的漂移量;
利用所述每个增量阶段的特征空间的漂移量估计之前所有阶段的类别原型的漂移量;
利用局部拓扑关系计算拓扑纠正量,并对所述之前所有阶段各个类别的原型进行更新。
基于第一方面,在步骤6)中,所述多目标损失函数整体定义如下:
其中,阶段t的特征表示的维度是df,将/>表示为由特征提取器φ(·;θt)定义的特征空间,/>为预测标签,/> 是余弦分类器,yi是真实标签,/>是交叉熵损失,/>是特征蒸馏损失,/>是伪特征约束,λ1和λ2是用来调节两种损失贡献/>和/>的超参数。
第二方面,本申请实施例提供一种基于动态类原型生成机制的类增量学习模型的图像分类方法,将待分类图像输入所述一种基于动态类原型生成机制的类增量学习模型,得到所述待分类图像的图像分类结果。
第三方面,本申请实施例提供一种基于动态类原型生成机制的类增量学习系统,包括:
类增量数据集划分模块,用于步骤1),将图像数据集按照类别划分为多个类别不重叠的数据集,并将所述多个类别不重叠的数据集分配给1个基类阶段和T个增量阶段,每个训练阶段的训练样本为分配给当前阶段的数据集;
特征空间提取和分类模块,用于步骤2),使用步骤1)中当前阶段的训练样本对特征提取器和分类器进行训练,学习当前阶段的特征空间和分类器权重;
原型计算模块,用于步骤3),利用所述特征提取器获得当前阶段的训练样本的特征表示,定义出特征密度,并基于所述特征密度计算出当前阶段各个类别的原型;
拓扑纠正模块,用于步骤4),在每个增量阶段,对于步骤3)中计算出的之前所有阶段各个类别的原型,采用基于拓扑纠正的原型漂移估计方法对所述之前所有阶段各个类别的原型进行更新;
伪特征生成模块,用于步骤5),在每个增量阶段,利用步骤4)更新后的之前所有阶段各个类别的原型,生成之前所有阶段各个类别的伪特征;
多目标损失函数计算模块,用于步骤6),在每个增量阶段,基于步骤3)中的当前阶段的训练样本的特征表示及其分类预测结果,以及步骤5)中的之前所有阶段各个类别伪特征及其分类预测结果,定义多目标损失函数,学习新的特征空间和分类器权重;
类增量学习模型训练模块,用于步骤7),重复步骤3)至6),直到所有增量阶段训练结束;
类增量学习模型评估模块,用于步骤8),使用训练后的模型,以平均准确度和平均遗忘率作为评估指标,对所有学习过的类别进行评估,得到基于动态类原型生成机制的类增量学习模型。
第四方面,本申请实施例提供一种电子设备,其包括存储器,用于存储一个或多个程序;处理器;当所述一个或多个程序被所述处理器执行时,实现如上述第一方面中任一项所述的方法。
第五方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面中任一项所述的方法。
相对于现有技术,本发明实施例具有如下的优点:
本发明实施例提供一种基于动态类原型生成机制的类增量学习方法及产品,通过步骤1),将图像数据集按照类别划分为多个类别不重叠的数据集,并将所述多个类别不重叠的数据集分配给1个基类阶段和T个增量阶段,每个训练阶段的训练样本为分配给当前阶段的数据集;步骤2),使用所述当前阶段的训练样本对特征提取器和分类器进行训练,学习当前阶段的特征空间和分类器权重;步骤3),利用所述特征提取器获得当前阶段的训练样本的特征表示,定义出特征密度,并基于所述特征密度计算出当前阶段各个类别的原型;步骤4),在每个增量阶段,对于步骤3)中计算出的之前所有阶段各个类别的原型,采用基于拓扑纠正的原型漂移估计方法对所述之前所有阶段各个类别的原型进行更新;步骤5),在每个增量阶段,利用步骤4)更新后的之前所有阶段各个类别的原型,生成之前所有阶段各个类别的伪特征;步骤6),在每个增量阶段,基于步骤3)中当前阶段的训练样本的特征表示及其分类预测结果,以及步骤5)中的之前所有阶段各个类别的伪特征及其分类预测结果,定义多目标损失函数,学习新的特征空间和分类器权重;步骤7),重复步骤3)至6),直到所有增量阶段训练结束;步骤8),使用训练后的模型,以平均准确度和平均遗忘率作为评估指标,对所有学习过的类别进行评估,得到基于动态类原型生成机制的类增量学习模型。
受脑认知科学,视觉刺激的拓扑特性是定义视觉记忆的重要组成部分的最新启发,本发明基于动态类原型生成机制,分别解决了无旧样本类增量学习中的灾难性遗忘和网络漂移问题。通过特征提取器、余弦分类器、DBP(基于特征密度的原型生成)和TPD(拓扑纠正的原型漂移估计)构成基于动态类原型生成机制的类增量学习框架MATE,MATE动态重建旧类的伪特征空间,以解决类增量学习中旧样本不可见的问题。基于特征密度计算初始旧类别原型,并通过基于拓扑纠正的原型漂移估计方法不断更新旧类别原型,以解决无旧样本类增量学习中的网络漂移问题。在基准图像分类数据集上的典型设置中,本申请中的基于动态类原型生成机制的类增量学习方法与现有的无旧样本类增量学习方法相比,达到了最先进的性能,并且与经典的基于回放的类增量方法相比,具有相同水平的性能。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的一种基于动态类原型生成机制的类增量学习方法流程图;
图2为本发明实施例提供的特征空间三维可视化图;
图3(a)为本发明实施例提供的基于动态类原型生成机制的类增量学习框架MATE的拓扑纠正效果图;
图3(b)为本发明实施例提供的具有简单漂移估计的基线模型的效果图;
图4(a)是本发明实施例提供的基于动态类原型生成机制的类增量学习框架MATE的架构图;
图4(b)为本发明实施例提供的基于动态类原型生成机制的学习框架MATE中DBP的架构图;
图4(c)为本发明实施例提供的基于动态类原型生成机制的学习框架MATE中TPD的架构图;
图5为本发明实施例在CIFAR-100、Tiny-ImageNet和ImageNet-100图像分类数据集上与其他基准方法的测试精度比较。
图6为本发明实施例提供的一种基于动态类原型生成机制的类增量学习系统结构框图。
图7为本申请实施例提供的电子设备的一种示意性结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
在现实需求的驱动下,近些年来对类增量学习的研究越来越受到关注。类增量学习旨在从新类的训练样本中学习新知识,并保留在旧类样本上学习的知识。
为了解决灾难性遗忘问题,基于旧样本回放的方法是最为主流的方法,但其具有两大局限性:(a)对于一些设备内存有限的应用场景,不可能连续存储越来越多类的旧样本;(b)存储的旧样本涉及数据隐私往往是不可接受的。
灾难性遗忘背后的主要原因包括:(a)与旧知识相关的神经网络参数被快速改变以适应新的类别数据(即网络漂移);(b)由于来自不同CIL阶段的类别样本没有被一起训练过,它们之间无法形成良好的决策边界(即阶段间类间混淆)。
受脑认知科学最新启发,本申请基于动态类原型生成机制,解决了旧类样本不可见和网络漂移问题。本申请还提出了基于动态类原型生成机制的类增量学习框架MATE,通过基于特征密度计算出旧类别的原型,并采用原型漂移估计方法对旧类别原型进行更新。同时增加拓扑纠正量,以防止原型之间的拓扑关系被破坏。
请参看图1,图1为本发明实施例提供的一种基于动态类原型生成机制的类增量学习方法流程图,包括以下步骤:
S110:步骤1),将图像数据集按照类别划分为多个类别不重叠的数据集,并将所述多个类别不重叠的数据集分配给1个基类阶段和T个增量阶段,每个训练阶段的训练样本为分配给当前阶段的数据集;其中,每个阶段只能利用当前阶段的数据集进行训练,而之前阶段的旧数据不可见;
模型的训练阶段分为1个基类阶段和T个增量阶段,在第t个训练阶段,分配给阶段t的数据集定义如下:
其中,(xi,yi)为第i个训练样本及其类标签,即xi为第i个训练样本,yi为第i个训练样本的类标签,Dt的标签集合定义为Ct,每个阶段数据的标签集合Ct是相互不重叠的。
S120:步骤2),使用步骤1)中当前阶段的训练样本对特征提取器和分类器进行训练,学习当前阶段的特征空间和分类器权重;其中,训练模型由特征提取器φ(·;θ)和余弦分类器ψ(·;ω)组成;
对于训练样本(xi,yi)∈Dt,在阶段t的特征表示fi t定义如下:
fi t=φ(xi;θt),
S130:步骤3),利用所述特征提取器获得当前阶段的训练样本的特征表示,定义出特征密度,并基于所述特征密度计算出当前阶段各个类别的原型;
在当前阶段,定义出训练样本中各个类别对应的特征密度,并基于各个类别对应的特征密度计算出当前阶段各个类别的原型,以便在之后的增量阶段重建伪特征空间来克服各个类别间的混淆;所述当前阶段各个类别为分配给当前阶段的数据集中训练样本的各个类别;
其中,为阶段t训练样本的特征表示,/>阶段t的特征表示由特征提取器得到,即fi t=φ(xi;θt),yi为阶段t训练样本中的不同类别,/> 包括初始特征空间/>和伪特征空间/>之后,通过初始特征空间/>计算类别a的原型;
其中,E(·,·)表示欧式距离,i和j分别表示阶段t中第i和第j个训练样本,是阶段中第j个训练样本的特征表示,γ是超参数;特征的密度Di的数值越小,意味着该特征越可能是难以正确辨别的特征;参见图2,图2为本发明实施例提供的特征空间三维可视化图。为了更容易辨别基于特征密度的原型生成机制更关注哪些特征,利用T-SNE方法可视化每个特征的权重,颜色越深,特征对应的权重就越高。从图2可以看出大多数高度加权的特征都位于类簇的边缘,表明位于类簇边缘的特征密度较低,这些特征更可能是难以正确辨别的特征;采用特征密度可准确评估各个类别的难辨别程度。
其中,Proto(·)为类别a的原型,是特征表示/>的权重,/>Dj为特征表示/>的特征密度,初始原型/>代表阶段t中的初始原型集合,类别C1:t的原型集合/>定义为:/>μj为前t-1个阶段中的旧类别j的原型。
S140:步骤4),在每个增量阶段,对于步骤3)中计算出的之前所有阶段各个类别的原型,采用基于拓扑纠正的原型漂移估计方法对所述之前所有阶段各个类别的原型进行更新;
所述采用基于拓扑纠正的原型漂移估计方法对所述之前所有阶段各个类别的原型进行更新,包括以下步骤:
在每个增量阶段,计算出每个增量阶段的特征空间的漂移量;
利用所述每个增量阶段的特征空间的漂移量估计之前所有阶段的类别原型的漂移量;
利用局部拓扑关系计算拓扑纠正量,并对所述之前所有阶段各个类别的原型进行更新;
之前所有阶段类别b的原型拓扑纠正漂移量定义如下:
参见图3,其中,方块代表更新前的类别,圆代表更新后的类别,箭头代表旧类别更新为新类别。图3为采用T-SNE方法可视化的15个类别的原型,图3(a)为本发明基于动态类原型生成机制的类增量学习框架MATE的拓扑纠正效果图,图3(b)为具有简单漂移估计的基线模型的效果图。以类1和类2为例,在基于动态类原型生成机制的类增量学习框架MATE中,类1和类2的局部拓扑关系被保持(参见虚线箭头),而在仅仅具有简单漂移估计的基线模型中,他们的局部拓扑关系有明显变化。可见,本申请基于动态类原型生成机制的类增量学习框架MATE,相对于仅具有简单漂移估计的基线模型,可保持新旧类别的局部拓扑关系。
S150:步骤5),在每个增量阶段,利用步骤4)更新后的之前所有阶段各个类别的原型,生成之前所有阶段各个类别的伪特征;
S160:步骤6),在每个增量阶段,基于步骤3)中的当前阶段的训练样本的特征表示及其分类预测结果,以及步骤5)中的之前所有阶段各个类别的伪特征及其分类预测结果,定义多目标损失函数,学习新的特征空间和分类器权重;
多目标损失函数整体定义如下:
其中,阶段t的特征表示fi t的维度是df,将表示为由特征提取器φ(·;θt)定义的特征空间,/>为预测标签,/> 是余弦分类器,yi是真实标签,/>是交叉熵损失,/>是特征蒸馏损失,/>是伪特征约束,λ1和λ2是用来调节两种损失贡献/>和/>的超参数。在学习新的训练样本时,特征空间会发生变化,当变化较大时,增量学习模型就会分不准旧类别,/>能扼制新的训练样本的特征在模型中发生较大变化,使新的训练样本在不同阶段模型中抽取的特征保持一致;/>将基于旧类别原型生成的伪特征采用分类器分类后,保证分类器能区分旧类别生成的伪特征;
S170:步骤7),重复步骤3)至6),直到所有增量阶段训练结束;
S180:步骤8),使用训练后的模型,以平均准确度和平均遗忘率作为评估指标,对所有学习过各个阶段的类别进行评估,得到基于动态类原型生成机制的类增量学习模型;
示例性地,采用特征提取器和余弦分类器在第t个训练阶段的数据集Dt上不断训练增量学习模型,在阶段t的训练完成之后,采用训练后的类增量学习模型在所有学习过的类别C1:上进行测试。
上述实现过程中,通过步骤1),将图像数据集按照类别划分为多个类别不重叠的数据集,并将所述多个类别不重叠的数据集分配给1个基类阶段和T个增量阶段,每个训练阶段的训练样本为分配给当前阶段的数据集;步骤2),使用所述当前阶段的训练样本对特征提取器和分类器进行训练,学习当前阶段的特征空间和分类器权重;步骤3),利用所述特征提取器获得当前阶段的训练样本的特征表示,定义出特征密度,并基于所述特征密度计算出当前阶段各个类别的原型;步骤4),在每个增量阶段,对于步骤3)中计算出的之前所有阶段各个类别的原型,采用基于拓扑纠正的原型漂移估计方法对所述之前所有阶段各个类别的原型进行更新;步骤5),在每个增量阶段,利用步骤4)更新后的之前所有阶段各个类别的原型,生成之前所有阶段各个类别的伪特征;步骤6),在每个增量阶段,基于步骤3)中当前阶段的训练样本的特征表示及其分类预测结果,以及步骤5)中的之前所有阶段各个类别的伪特征及其分类预测结果,定义多目标损失函数,学习新的特征空间和分类器权重;步骤7),重复步骤3)至6),直到所有增量阶段训练结束;步骤8),使用训练后的模型,以平均准确度和平均遗忘率作为评估指标,对所有学习过的类别进行评估,得到基于动态类原型生成机制的类增量学习模型。
基于上述动态类原型生成机制的类增量学习方法,本发明提出一种基于动态类原型生成机制的学习框架MATE。请参看图4,图4(a)为本发明基于动态类原型生成机制的学习框架MATE的架构图,图4(b)为基于动态类原型生成机制的学习框架MATE中DBP(基于特征密度的原型生成)的架构图,图4(c)为基于动态类原型生成机制的学习框架MATE中TPD(拓扑纠正的原型漂移估计)的架构图。其中,实心原点表示各个类别的特征,实心叉表示各个类别的原型。示例性地,在t-1阶段,通过旧特征提取器φ(xi;θt-1)提取旧类别C1:t-1的特征并将特征分类,基于特征密度的原型生成(DBP),根据旧类别的特征标识定义出特征密度,基于特征密度的特征加权计算出各个旧类别的原型;在t阶段,通过新特征提取器φ(xi;θt)提取新类别Ct的特征表示/>并将特征分类,构建初始特征空间/>由于旧类别的特征空间与新类别的特征空间不匹配,基于拓扑纠正的原型漂移估计(TPD)对旧类别原型进行更新得到更新后的旧类别原型;基于更新后的旧类别的原型生成伪特征/>重建伪特征空间/>基于初始特征空间/>和伪特征空间/>构建新特征空间/>采用余弦分类器对新特征空间中各个类别原型进行分类。
受脑认知科学最新启发,本发明基于动态类原型生成机制,分别解决了旧类样本不可见和网络漂移问题。通过特征提取器、余弦分类器、DBP(基于特征密度的原型生成)和TPD(拓扑纠正的原型漂移估计)构成基于动态类原型生成机制的类增量学习框架MATE,MATE动态重建旧类的伪特征空间,以解决无旧样本类增量学习中的灾难性遗忘问题。基于特征密度计算初始旧类别原型,并通过基于拓扑纠正的原型漂移估计方法不断更新旧类别原型,以解决无旧样本类增量学习中的网络漂移问题。在基准图像分类数据集上的典型设置中,本申请中的基于动态类原型生成机制的类增量学习方法与现有的无旧样本类增量学习方法相比,达到了最先进的性能,并且与经典的基于回放的类增量方法相比,具有相同水平的性能。
请参看图5,图5为本发明实施例在CIFAR-100、Tiny-ImageNet和ImageNet-100图像分类数据集上与其他基准方法的测试精度比较。
其中,比较的基准方法包括:将最接近代表性样本均值规则引入该领域的方法iCaRL、使用平衡训练和交叉蒸馏损失函数的方法EEiL、利用了余弦归一化、少遗忘约束和类间分离,以缓解灾难性遗忘问题的方法LUCIR、使用多分类器范式的方法MUC、采用知识蒸馏损失函数来保留旧知识的方法LwF、为旧类记忆代表原型并使用自监督学习的方法PASS、采用主分支扩展和侧分枝更新策略和转移不变知识的主分支蒸馏方案的方法SSRE。图5中,(a)为在CIFAR-100数据集上,基于5个阶段的增量设置下,本方法与其他基准方法的测试精度对比折线图;(b)为在CIFAR-100数据集上,基于10个阶段的增量设置下,本方法与其他基准方法的测试精度对比折线图;(c)为在CIFAR-100数据集上,基于20个阶段的增量设置下,本方法与其他基准方法的测试精度对比折线图(d)为在Tiny-ImageNet数据集上,基于5个阶段的增量设置下,本方法与其他基准方法的测试精度对比折线图;(e)为在Tiny-ImageNet数据集上,基于10个阶段的增量设置下,本方法与其他基准方法的测试精度对比折线图;(f)为在Tiny-ImageNet数据集上,基于20个阶段的增量设置下,本方法与其他基准方法的测试精度对比折线图;(g)为在ImageNet-100数据集上,基于5个阶段的增量设置下,本方法与其他基准方法的测试精度对比折线图;(h)为在ImageNet-100数据集上,基于10个阶段的增量设置下,本方法与其他基准方法的测试精度对比折线图。由图5中的数据可以看出,本申请中的基于动态类原型生成机制的类增量学习方法与现有的无旧样本类增量学习方法相比,达到了最先进的性能,并且与经典的基于回放的类增量方法相比,具有相同水平的性能。
基于同样的发明构思,本发明还提出一种基于动态类原型生成机制的类增量学习模型的图像分类方法,将待分类图像输入所述一种基于动态类原型生成机制的类增量学习模型,得到所述待分类图像的图像分类结果。
基于同样的发明构思,本发明还提出一种基于动态类原型生成机制的类增量学习系统,请参看图6,图6为本发明实施例提供的一种基于动态类原型生成机制的类增量学习系统结构框图,包括:
类增量数据集划分模块110,用于步骤1),将图像数据集按照类别划分为多个类别不重叠的数据集,并将所述多个类别不重叠的数据集分配给1个基类阶段和T个增量阶段,每个训练阶段的训练样本为分配给当前阶段的数据集;
特征空间提取和分类模块120,用于步骤2),使用步骤1)中当前阶段的训练样本对特征提取器和分类器进行训练,学习当前阶段的特征空间和分类器权重;
原型计算模块130,用于步骤3),利用所述特征提取器获得当前阶段的训练样本的特征表示,定义出特征密度,并基于所述特征密度计算出当前阶段各个类别的原型;
拓扑纠正模块140,用于步骤4),在每个增量阶段,对于步骤3)中计算出的之前所有阶段各个类别的原型,采用基于拓扑纠正的原型漂移估计方法对所述之前所有阶段各个类别的原型进行更新;
伪特征生成模块150,用于步骤5),在每个增量阶段,利用步骤4)更新后的之前所有阶段各个类别的原型,生成之前所有阶段各个类别的伪特征;
多目标损失函数计算模块160,用于步骤6),在每个增量阶段,基于步骤3)中的当前阶段的训练样本的特征表示及其分类预测结果,以及步骤5)中的之前所有阶段各个类别伪特征及其分类预测结果,定义多目标损失函数,学习新的特征空间和分类器权重;
类增量学习模型训练模块170,用于步骤7),重复步骤3)至6),直到所有增量阶段训练结束;
类增量学习模型评估模块180,用于步骤8),使用训练后的模型,以平均准确度和平均遗忘率作为评估指标,对所有学习过的类别进行评估,得到基于动态类原型生成机制的类增量学习模型。
上述实现过程中,通过类增量数据集划分模块110用于步骤1),将图像数据集按照类别划分为多个类别不重叠的数据集,并将所述多个类别不重叠的数据集分配给1个基类阶段和个增量阶段,每个训练阶段的训练样本为分配给当前阶段的数据集;特征空间提取和分类模块120用于步骤2),使用步骤1)中当前阶段的训练样本对特征提取器和分类器进行训练,学习当前阶段的特征空间和分类器权重;原型计算模块130用于步骤3),利用所述特征提取器获得当前阶段的训练样本的特征表示,定义出特征密度,并基于所述特征密度计算出当前阶段各个类别的原型;拓扑纠正模块140用于步骤4),在每个增量阶段,对于步骤3)中计算出的之前所有阶段各个类别的原型,采用基于拓扑纠正的原型漂移估计方法对所述之前所有阶段各个类别的原型进行更新;伪特征生成模块150用于步骤5),在每个增量阶段,利用步骤4)更新后的之前所有阶段各个类别的原型,生成之前所有阶段各个类别的伪特征;多目标损失函数计算模块160用于步骤6),在每个增量阶段,基于步骤3)中的当前阶段的训练样本的特征表示及其分类预测结果,以及步骤5)中的之前所有阶段各个类别伪特征及其分类预测结果,定义多目标损失函数,学习新的特征空间和分类器权重;类增量学习模型训练模块170用于步骤7),重复步骤3)至6),直到所有增量阶段训练结束;类增量学习模型评估模块180用于步骤8),使用训练后的模型,以平均准确度和平均遗忘率作为评估指标,对所有学习过的类别进行评估,得到基于动态类原型生成机制的类增量学习模型。受脑认知科学,视觉刺激的拓扑特性是定义视觉记忆的重要组成部分的最新启发,本发明基于动态类原型生成机制,分别解决了无旧样本类增量学习中的灾难性遗忘和网络漂移问题。通过特征提取器、余弦分类器、DBP(基于特征密度的原型生成)和TPD(拓扑纠正的原型漂移估计)构成基于动态类原型生成机制的类增量学习框架MATE,MATE动态重建旧类的伪特征空间,以解决类增量学习中旧样本不可见的问题。基于特征密度计算初始旧类别原型,并通过基于拓扑纠正的原型漂移估计方法不断更新旧类别原型,以解决无旧样本类增量学习中的网络漂移问题。在基准图像分类数据集上的典型设置中,本申请中的基于动态类原型生成机制的类增量学习方法与现有的无旧样本类增量学习方法相比,达到了最先进的性能,并且与经典的基于回放的类增量方法相比,具有相同水平的性能。
请参阅图7,图7为本申请实施例提供的电子设备的一种示意性结构框图。电子设备包括存储器101、处理器102和通信接口103,该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器101可用于存储软件程序及模块,如本申请实施例所提供的基于动态类原型生成机制的类增量学习系统对应的程序指令/模块,处理器102通过执行存储在存储器101内的软件程序及模块,从而执行各种功能应用以及数据处理。该通信接口103可用于与其他节点设备进行信令或数据的通信。
其中,存储器101可以是但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
处理器102可以是一种集成电路芯片,具有信号处理能力。该处理器102可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可以理解,图7所示的结构仅为示意,电子设备还可包括比图7中所示更多或者更少的组件,或者具有与图7所示不同的配置。图7中所示的各组件可以采用硬件、软件或其组合实现。
在本申请所提供的实施例中,应该理解到,所揭露的系统和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
Claims (10)
1.一种基于动态类原型生成机制的类增量学习方法,其特征在于,包括以下步骤:
步骤1),将图像数据集按照类别划分为多个类别不重叠的数据集,并将所述多个类别不重叠的数据集分配给1个基类阶段和T个增量阶段,每个训练阶段的训练样本为分配给当前阶段的数据集;
步骤2),使用步骤1)中当前阶段的训练样本对特征提取器和分类器进行训练,学习当前阶段的特征空间和分类器权重;
步骤3),利用所述特征提取器获得当前阶段的训练样本的特征表示,定义出特征密度,并基于所述特征密度计算出当前阶段各个类别的原型;
步骤4),在每个增量阶段,对于步骤3)中计算出的之前所有阶段各个类别的原型,采用基于拓扑纠正的原型漂移估计方法对所述之前所有阶段各个类别的原型进行更新;
步骤5),在每个增量阶段,利用步骤4)更新后的之前所有阶段各个类别的原型,生成之前所有阶段各个类别的伪特征;
步骤6),在每个增量阶段,基于步骤3)中的当前阶段的训练样本的特征表示及其分类预测结果,以及步骤5)中的之前所有阶段各个类别的伪特征及其分类预测结果,定义多目标损失函数,学习新的特征空间和分类器权重;
步骤7),重复步骤3)至6),直到所有增量阶段训练结束;
步骤8),使用训练后的模型,以平均准确度和平均遗忘率作为评估指标,对所有学习过的类别进行评估,得到基于动态类原型生成机制的类增量学习模型。
2.根据权利要求1所述的一种基于动态类原型生成机制的类增量学习方法,其特征在于,在步骤3)中,所述定义出特征密度,并基于所述特征密度计算出当前阶段各个类别的原型,包括:
3.根据权利要求1所述的一种基于动态类原型生成机制的类增量学习方法,其特征在于,步骤4)中,采用基于拓扑纠正的原型漂移估计方法对所述之前所有阶段各个类别的原型进行更新,包括以下步骤:
在每个增量阶段,计算出每个增量阶段的特征空间的漂移量;
利用所述每个增量阶段的特征空间的漂移量估计之前所有阶段的类别原型的漂移量;
利用局部拓扑关系计算拓扑纠正量,并对所述之前所有阶段各个类别的原型进行更新。
7.一种基于动态类原型生成机制的类增量学习模型的图像分类方法,其特征在于,将待分类图像输入如权利要求1-6所述的一种基于动态类原型生成机制的类增量学习模型,得到所述待分类图像的图像分类结果。
8.一种基于动态类原型生成机制的类增量学习系统,其特征在于,包括:
类增量数据集划分模块,用于步骤1),将图像数据集按照类别划分为多个类别不重叠的数据集,并将所述多个类别不重叠的数据集分配给1个基类阶段和T个增量阶段,每个训练阶段的训练样本为分配给当前阶段的数据集;
特征空间提取和分类模块,用于步骤2),使用步骤1)中当前阶段的训练样本对特征提取器和分类器进行训练,学习当前阶段的特征空间和分类器权重;
原型计算模块,用于步骤3),利用所述特征提取器获得当前阶段的训练样本的特征表示,定义出特征密度,并基于所述特征密度计算出当前阶段各个类别的原型;
拓扑纠正模块,用于步骤4),在每个增量阶段,对于步骤3)中计算出的之前所有阶段各个类别的原型,采用基于拓扑纠正的原型漂移估计方法对所述之前所有阶段各个类别的原型进行更新;
伪特征生成模块,用于步骤5),在每个增量阶段,利用步骤4)更新后的之前所有阶段各个类别的原型,生成之前所有阶段各个类别的伪特征;
多目标损失函数计算模块,用于步骤6),在每个增量阶段,基于步骤3)中的当前阶段的训练样本的特征表示及其分类预测结果,以及步骤5)中的之前所有阶段各个类别伪特征及其分类预测结果,定义多目标损失函数,学习新的特征空间和分类器权重;
类增量学习模型训练模块,用于步骤7),重复步骤3)至6),直到所有增量阶段训练结束;
类增量学习模型评估模块,用于步骤8),使用训练后的模型,以平均准确度和平均遗忘率作为评估指标,对所有学习过的类别进行评估,得到基于动态类原型生成机制的类增量学习模型。
9.一种电子设备,其特征在于,包括:
存储器,用于存储一个或多个程序;
处理器;
当所述一个或多个程序被所述处理器执行时,实现如权利要求1-6中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310274438.8A CN116310557A (zh) | 2023-03-20 | 2023-03-20 | 基于动态类原型生成机制的类增量学习方法及产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310274438.8A CN116310557A (zh) | 2023-03-20 | 2023-03-20 | 基于动态类原型生成机制的类增量学习方法及产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116310557A true CN116310557A (zh) | 2023-06-23 |
Family
ID=86818310
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310274438.8A Pending CN116310557A (zh) | 2023-03-20 | 2023-03-20 | 基于动态类原型生成机制的类增量学习方法及产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116310557A (zh) |
-
2023
- 2023-03-20 CN CN202310274438.8A patent/CN116310557A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11263528B2 (en) | Neural network, computer readable medium, and methods including a method for training a neural network | |
Bell | The co-information lattice | |
CN109583332B (zh) | 人脸识别方法、人脸识别系统、介质及电子设备 | |
Khosravi et al. | On tractable computation of expected predictions | |
US11030246B2 (en) | Fast and accurate graphlet estimation | |
CN110796154A (zh) | 一种训练物体检测模型的方法、装置以及设备 | |
Lamrini et al. | Data validation and missing data reconstruction using self-organizing map for water treatment | |
Zhang et al. | Kernel mixture model for probability density estimation in Bayesian classifiers | |
Ghanbari et al. | Reconstruction of gene networks using prior knowledge | |
CN110659667A (zh) | 图片分类模型训练方法、系统和计算机设备 | |
CN113554175B (zh) | 一种知识图谱构建方法、装置、可读存储介质及终端设备 | |
CN111291827A (zh) | 图像聚类方法、装置、设备及存储介质 | |
Kim et al. | A generalised uncertain decision tree for defect classification of multiple wafer maps | |
CN115546525A (zh) | 多视图聚类方法、装置、电子设备及存储介质 | |
Kao et al. | Disc-GLasso: Discriminative graph learning with sparsity regularization | |
Hassanat et al. | Magnetic force classifier: a Novel Method for Big Data classification | |
CN112541530B (zh) | 针对聚类模型的数据预处理方法及装置 | |
CN117710745A (zh) | 一种基于证据多视角核化的目标分类方法及装置 | |
KR20180056013A (ko) | 나노 물질의 독성을 예측하는 방법 및 장치 | |
Parker et al. | Nonlinear time series classification using bispectrum‐based deep convolutional neural networks | |
CN116310557A (zh) | 基于动态类原型生成机制的类增量学习方法及产品 | |
Dahinden et al. | Decomposition and model selection for large contingency tables | |
US11295229B1 (en) | Scalable generation of multidimensional features for machine learning | |
CN114816808A (zh) | 异常检测方法、装置、电子设备及计算机可读存储介质 | |
KR20220055553A (ko) | 뇌 피질 영역의 두께를 분석하는 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |