CN116310557A - 基于动态类原型生成机制的类增量学习方法及产品 - Google Patents

基于动态类原型生成机制的类增量学习方法及产品 Download PDF

Info

Publication number
CN116310557A
CN116310557A CN202310274438.8A CN202310274438A CN116310557A CN 116310557 A CN116310557 A CN 116310557A CN 202310274438 A CN202310274438 A CN 202310274438A CN 116310557 A CN116310557 A CN 116310557A
Authority
CN
China
Prior art keywords
class
prototype
feature
stage
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310274438.8A
Other languages
English (en)
Inventor
王少鲲
郁一帆
龚怡宏
石伟伟
高欣源
贺宇航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202310274438.8A priority Critical patent/CN116310557A/zh
Publication of CN116310557A publication Critical patent/CN116310557A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于动态类原型生成机制的类增量学习方法及产品,属于人工智能领域,包括以下步骤:1)划分类增量数据集并分配给T+1个训练阶段作为训练样本;2)对当前阶段的特征提取器和分类器进行训练;3)利用当前阶段样本的特征表示,定义出特征密度,并基于特征密度计算类别原型;4)采用基于拓扑纠正的原型漂移估计方法对之前所有阶段的各个类别原型进行更新;5)利用更新后的之前所有阶段的各个类别原型获得各个类别的伪特征;6)定义多目标损失函数,学习新的特征空间和分类器权重;7)重复步骤3)至6),直到所有增量阶段训练结束;8)每个训练阶段结束后,采用所述模型对所有学习过的类别进行评估。

Description

基于动态类原型生成机制的类增量学习方法及产品
技术领域
本发明涉及人工智能技术领域,具体而言,涉及一种基于动态类原型生成机制的类增量学习方法及产品。
背景技术
近年来,深度神经网络越来越多地应用于不断变化的动态环境之中,这要求深度神经网络能够不断从新数据中学习新知识。然而,持续学习将会导致灾难性遗忘问题,即模型在旧数据上的性能急剧恶化。因此,持续学习新知识而不忘记已学习的旧知识已经成为许多计算机视觉任务的核心需求之一(例如图像识别和目标检测)。作为一种典型的连续学习任务,类增量学习(CIL)旨在识别新类样本的同时保持对旧类样本的识别能力。在CIL任务中,灾难性遗忘有两个主要原因:(a)与旧知识相关的神经网络参数被快速改变以适应新的类别数据(即网络漂移);(b)由于来自不同CIL阶段的类别样本没有被一起训练过,它们之间无法形成良好的决策边界(即阶段间类间混淆)。
为了缓解灾难性遗忘,现有的许多工作采用基于旧样本回放的方法。然而,此类方法有两大局限性:(a)对于一些设备内存有限的应用场景,不可能连续存储越来越多类的旧样本;(b)存储的旧样本涉及数据隐私往往是不可接受的。
发明内容
本申请提供一种基于动态类原型生成机制的类增量学习方法及产品,以解决无旧样本如何缓解类增量学习中灾难性遗忘的问题,并根据本方法的结构特点,发明了一种高效的无旧样本类增量学习模型和训练方法。
为了达到上述目的,本发明采用如下技术方案予以实现的:
第一方面,本申请提供了一种基于动态类原型生成机制的类增量学习方法,包括以下步骤:
步骤1),将图像数据集按照类别划分为多个类别不重叠的数据集,并将所述多个类别不重叠的数据集分配给1个基类阶段和T个增量阶段,每个训练阶段的训练样本为分配给当前阶段的数据集;
步骤2),使用步骤1)中当前阶段的训练样本对特征提取器和分类器进行训练,学习当前阶段的特征空间和分类器权重;
步骤3),利用所述特征提取器获得当前阶段的训练样本的特征表示,定义出特征密度,并基于所述特征密度计算出当前阶段各个类别的原型;
步骤4),在每个增量阶段,对于步骤3)中计算出的之前所有阶段各个类别的原型,采用基于拓扑纠正的原型漂移估计方法对所述之前所有阶段各个类别的原型进行更新;
步骤5),在每个增量阶段,利用步骤4)更新后的之前所有阶段各个类别的原型,生成之前所有阶段各个类别的伪特征;
步骤6),在每个增量阶段,基于步骤3)中的当前阶段的训练样本的特征表示及其分类预测结果,以及步骤5)中的上之前所有阶段各个类别的伪特征及其分类预测结果,定义多目标损失函数,学习新的特征空间和分类器权重;
步骤7),重复步骤3)至6),直到所有增量阶段训练结束;
步骤8),使用训练后的模型,以平均准确度和平均遗忘率作为评估指标,对所有学习过的类别进行评估,得到基于动态类原型生成机制的类增量学习模型。
基于第一方面,在步骤3)中,所述定义出特征密度,并基于所述特征密度计算出当前阶段各个类别的原型,包括:
对于阶段t的类别a∈Ct,初始特征空间
Figure BDA0004135742670000031
定义如下:
Figure BDA0004135742670000032
其中,
Figure BDA0004135742670000033
为阶段t训练样本的特征表示,/>
Figure BDA0004135742670000034
阶段t的特征表示由特征提取器得到,即/>
Figure BDA0004135742670000035
yi为阶段t训练样本中的不同类别,/>
Figure BDA0004135742670000036
Figure BDA0004135742670000037
为新特征空间;
特征表示
Figure BDA0004135742670000038
的特征密度Di定义如下:
Figure BDA0004135742670000039
其中,E(·,·)表示欧式距离,i和j分别表示阶段t中第i和第j个训练样本,
Figure BDA00041357426700000310
为阶段t中第j个训练样本的特征表示,γ是超参数;
在原型生成过程中,利用特征密度Di对类别a的特征进行加权,类别a的初始原型
Figure BDA00041357426700000311
定义如下:
Figure BDA00041357426700000312
其中,Proto(·)为类别a的原型,
Figure BDA00041357426700000313
是特征表示/>
Figure BDA00041357426700000314
的权重,/>
Figure BDA00041357426700000315
Dj为特征表示/>
Figure BDA00041357426700000316
的特征密度,初始原型/>
Figure BDA00041357426700000317
代表阶段t中的初始原型集合,类别C1:t的原型集合/>
Figure BDA00041357426700000318
定义为:/>
Figure BDA00041357426700000319
μj为前t-1个阶段中的旧类别j的原型。
基于第一方面,在步骤4)中,采用基于拓扑纠正的原型漂移估计方法对所述之前所有阶段各个类别的原型进行更新,包括以下步骤:
在每个增量阶段,计算出每个增量阶段的特征空间的漂移量;
利用所述每个增量阶段的特征空间的漂移量估计之前所有阶段的类别原型的漂移量;
利用局部拓扑关系计算拓扑纠正量,并对所述之前所有阶段各个类别的原型进行更新。
基于第一方面,所述在每个增量阶段,计算出每个增量阶段的特征空间的漂移量
Figure BDA0004135742670000041
定义如下:
Figure BDA0004135742670000042
其中,类别a∈Ct,阶段t的特征表示
Figure BDA0004135742670000043
阶段t-1的特征表示
Figure BDA0004135742670000044
fi t和fi t-1是分别由特征提取器φ(xi;θt)和φ(xi;θt-1)得到,Δfi为特征表示/>
Figure BDA0004135742670000045
相对于特征表示/>
Figure BDA0004135742670000046
的漂移量;
利用所述每个增量阶段的特征空间的漂移量估计之前所有阶段的类别原型的漂移量
Figure BDA0004135742670000047
定义如下:
Figure BDA0004135742670000048
其中,类别b∈C1:t-1
Figure BDA0004135742670000049
E(·,·)表示欧式距离,/>
Figure BDA00041357426700000410
为类别b∈C1:t-1的原型,/>
Figure BDA00041357426700000411
为阶段t第j个训练样本的特征表示,η是超参数;
所述利用局部拓扑关系计算拓扑纠正量,并对所述之前所有阶段各个类别的原型进行更新,拓扑纠正量
Figure BDA00041357426700000412
定义为/>
Figure BDA00041357426700000413
的K近邻漂移量的加权和:
Figure BDA00041357426700000414
其中,
Figure BDA00041357426700000415
是之前所有阶段的类别原型/>
Figure BDA0004135742670000051
的K近邻,/>
Figure BDA0004135742670000052
是类别原型/>
Figure BDA0004135742670000053
的漂移量,α是超参数;
之前所有阶段类别b的原型拓扑纠正漂移量
Figure BDA0004135742670000054
定义如下:
Figure BDA0004135742670000055
其中,
Figure BDA0004135742670000056
是类别原型/>
Figure BDA0004135742670000057
的漂移量,/>
Figure BDA0004135742670000058
是类别原型/>
Figure BDA0004135742670000059
的拓扑纠正量,β是用来调节两项贡献/>
Figure BDA00041357426700000510
和/>
Figure BDA00041357426700000511
的超参数;
按阶段更新原型,得到更新后的类别原型
Figure BDA00041357426700000512
定义如下:
Figure BDA00041357426700000513
基于第一方面,在步骤6)中,所述多目标损失函数整体定义如下:
Figure BDA00041357426700000514
Figure BDA00041357426700000515
定义如下:
Figure BDA00041357426700000516
Figure BDA00041357426700000517
定义如下:
Figure BDA00041357426700000518
其中,阶段t的特征表示
Figure BDA00041357426700000519
的维度是df,将/>
Figure BDA00041357426700000520
表示为由特征提取器φ(·;θt)定义的特征空间,/>
Figure BDA00041357426700000521
为预测标签,/>
Figure BDA00041357426700000522
Figure BDA00041357426700000523
是余弦分类器,yi是真实标签,/>
Figure BDA00041357426700000524
是交叉熵损失,/>
Figure BDA00041357426700000525
是特征蒸馏损失,/>
Figure BDA00041357426700000526
是伪特征约束,λ1和λ2是用来调节两种损失贡献/>
Figure BDA00041357426700000527
和/>
Figure BDA00041357426700000528
的超参数。
基于第一方面,所述伪特征约束
Figure BDA00041357426700000529
定义如下:
Figure BDA00041357426700000530
其中,
Figure BDA00041357426700000531
Figure BDA00041357426700000532
是/>
Figure BDA00041357426700000533
的预测概率,yi是/>
Figure BDA00041357426700000534
的真实标签;/>
Figure BDA00041357426700000535
为在每个增量阶段中,通过原型拓扑纠正漂移量更新后的类别原型/>
Figure BDA00041357426700000536
重建出的伪特征空间,伪特征空间/>
Figure BDA0004135742670000061
定义如下:
Figure BDA0004135742670000062
其中,
Figure BDA0004135742670000063
是类别b的归一化伪特征,e*σ是用来生成伪特征的高斯噪声,e和σ与/>
Figure BDA0004135742670000064
有相同的维度,/>
Figure BDA0004135742670000065
σ的每个维度表示原始特征空间/>
Figure BDA0004135742670000066
中相应维度的标准差。
第二方面,本申请实施例提供一种基于动态类原型生成机制的类增量学习模型的图像分类方法,将待分类图像输入所述一种基于动态类原型生成机制的类增量学习模型,得到所述待分类图像的图像分类结果。
第三方面,本申请实施例提供一种基于动态类原型生成机制的类增量学习系统,包括:
类增量数据集划分模块,用于步骤1),将图像数据集按照类别划分为多个类别不重叠的数据集,并将所述多个类别不重叠的数据集分配给1个基类阶段和T个增量阶段,每个训练阶段的训练样本为分配给当前阶段的数据集;
特征空间提取和分类模块,用于步骤2),使用步骤1)中当前阶段的训练样本对特征提取器和分类器进行训练,学习当前阶段的特征空间和分类器权重;
原型计算模块,用于步骤3),利用所述特征提取器获得当前阶段的训练样本的特征表示,定义出特征密度,并基于所述特征密度计算出当前阶段各个类别的原型;
拓扑纠正模块,用于步骤4),在每个增量阶段,对于步骤3)中计算出的之前所有阶段各个类别的原型,采用基于拓扑纠正的原型漂移估计方法对所述之前所有阶段各个类别的原型进行更新;
伪特征生成模块,用于步骤5),在每个增量阶段,利用步骤4)更新后的之前所有阶段各个类别的原型,生成之前所有阶段各个类别的伪特征;
多目标损失函数计算模块,用于步骤6),在每个增量阶段,基于步骤3)中的当前阶段的训练样本的特征表示及其分类预测结果,以及步骤5)中的之前所有阶段各个类别伪特征及其分类预测结果,定义多目标损失函数,学习新的特征空间和分类器权重;
类增量学习模型训练模块,用于步骤7),重复步骤3)至6),直到所有增量阶段训练结束;
类增量学习模型评估模块,用于步骤8),使用训练后的模型,以平均准确度和平均遗忘率作为评估指标,对所有学习过的类别进行评估,得到基于动态类原型生成机制的类增量学习模型。
第四方面,本申请实施例提供一种电子设备,其包括存储器,用于存储一个或多个程序;处理器;当所述一个或多个程序被所述处理器执行时,实现如上述第一方面中任一项所述的方法。
第五方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面中任一项所述的方法。
相对于现有技术,本发明实施例具有如下的优点:
本发明实施例提供一种基于动态类原型生成机制的类增量学习方法及产品,通过步骤1),将图像数据集按照类别划分为多个类别不重叠的数据集,并将所述多个类别不重叠的数据集分配给1个基类阶段和T个增量阶段,每个训练阶段的训练样本为分配给当前阶段的数据集;步骤2),使用所述当前阶段的训练样本对特征提取器和分类器进行训练,学习当前阶段的特征空间和分类器权重;步骤3),利用所述特征提取器获得当前阶段的训练样本的特征表示,定义出特征密度,并基于所述特征密度计算出当前阶段各个类别的原型;步骤4),在每个增量阶段,对于步骤3)中计算出的之前所有阶段各个类别的原型,采用基于拓扑纠正的原型漂移估计方法对所述之前所有阶段各个类别的原型进行更新;步骤5),在每个增量阶段,利用步骤4)更新后的之前所有阶段各个类别的原型,生成之前所有阶段各个类别的伪特征;步骤6),在每个增量阶段,基于步骤3)中当前阶段的训练样本的特征表示及其分类预测结果,以及步骤5)中的之前所有阶段各个类别的伪特征及其分类预测结果,定义多目标损失函数,学习新的特征空间和分类器权重;步骤7),重复步骤3)至6),直到所有增量阶段训练结束;步骤8),使用训练后的模型,以平均准确度和平均遗忘率作为评估指标,对所有学习过的类别进行评估,得到基于动态类原型生成机制的类增量学习模型。
受脑认知科学,视觉刺激的拓扑特性是定义视觉记忆的重要组成部分的最新启发,本发明基于动态类原型生成机制,分别解决了无旧样本类增量学习中的灾难性遗忘和网络漂移问题。通过特征提取器、余弦分类器、DBP(基于特征密度的原型生成)和TPD(拓扑纠正的原型漂移估计)构成基于动态类原型生成机制的类增量学习框架MATE,MATE动态重建旧类的伪特征空间,以解决类增量学习中旧样本不可见的问题。基于特征密度计算初始旧类别原型,并通过基于拓扑纠正的原型漂移估计方法不断更新旧类别原型,以解决无旧样本类增量学习中的网络漂移问题。在基准图像分类数据集上的典型设置中,本申请中的基于动态类原型生成机制的类增量学习方法与现有的无旧样本类增量学习方法相比,达到了最先进的性能,并且与经典的基于回放的类增量方法相比,具有相同水平的性能。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的一种基于动态类原型生成机制的类增量学习方法流程图;
图2为本发明实施例提供的特征空间三维可视化图;
图3(a)为本发明实施例提供的基于动态类原型生成机制的类增量学习框架MATE的拓扑纠正效果图;
图3(b)为本发明实施例提供的具有简单漂移估计的基线模型的效果图;
图4(a)是本发明实施例提供的基于动态类原型生成机制的类增量学习框架MATE的架构图;
图4(b)为本发明实施例提供的基于动态类原型生成机制的学习框架MATE中DBP的架构图;
图4(c)为本发明实施例提供的基于动态类原型生成机制的学习框架MATE中TPD的架构图;
图5为本发明实施例在CIFAR-100、Tiny-ImageNet和ImageNet-100图像分类数据集上与其他基准方法的测试精度比较。
图6为本发明实施例提供的一种基于动态类原型生成机制的类增量学习系统结构框图。
图7为本申请实施例提供的电子设备的一种示意性结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
在现实需求的驱动下,近些年来对类增量学习的研究越来越受到关注。类增量学习旨在从新类的训练样本中学习新知识,并保留在旧类样本上学习的知识。
为了解决灾难性遗忘问题,基于旧样本回放的方法是最为主流的方法,但其具有两大局限性:(a)对于一些设备内存有限的应用场景,不可能连续存储越来越多类的旧样本;(b)存储的旧样本涉及数据隐私往往是不可接受的。
灾难性遗忘背后的主要原因包括:(a)与旧知识相关的神经网络参数被快速改变以适应新的类别数据(即网络漂移);(b)由于来自不同CIL阶段的类别样本没有被一起训练过,它们之间无法形成良好的决策边界(即阶段间类间混淆)。
受脑认知科学最新启发,本申请基于动态类原型生成机制,解决了旧类样本不可见和网络漂移问题。本申请还提出了基于动态类原型生成机制的类增量学习框架MATE,通过基于特征密度计算出旧类别的原型,并采用原型漂移估计方法对旧类别原型进行更新。同时增加拓扑纠正量,以防止原型之间的拓扑关系被破坏。
请参看图1,图1为本发明实施例提供的一种基于动态类原型生成机制的类增量学习方法流程图,包括以下步骤:
S110:步骤1),将图像数据集按照类别划分为多个类别不重叠的数据集,并将所述多个类别不重叠的数据集分配给1个基类阶段和T个增量阶段,每个训练阶段的训练样本为分配给当前阶段的数据集;其中,每个阶段只能利用当前阶段的数据集进行训练,而之前阶段的旧数据不可见;
模型的训练阶段分为1个基类阶段和T个增量阶段,在第t个训练阶段,分配给阶段t的数据集定义如下:
Figure BDA0004135742670000111
其中,(xi,yi)为第i个训练样本及其类标签,即xi为第i个训练样本,yi为第i个训练样本的类标签,Dt的标签集合定义为Ct,每个阶段数据的标签集合Ct是相互不重叠的。
S120:步骤2),使用步骤1)中当前阶段的训练样本对特征提取器和分类器进行训练,学习当前阶段的特征空间和分类器权重;其中,训练模型由特征提取器φ(·;θ)和余弦分类器ψ(·;ω)组成;
对于训练样本(xi,yi)∈Dt,在阶段t的特征表示fi t定义如下:
fi t=φ(xi;θt),
其中,fi t的维度是df,将
Figure BDA0004135742670000112
表示为由特征提取器φ(·;θt)定义的特征空间;之后,将特征表示fi t映射到标签空间,其预测概率/>
Figure BDA0004135742670000113
定义如下:
Figure BDA0004135742670000121
其中,
Figure BDA0004135742670000122
是余弦分类器,/>
Figure BDA0004135742670000123
为可训练的权重;标签空间为提取的特征向量构成的空间;softmax为归一化指数函数,用以将经过余弦分类器分类的特征向量,归一化处理得到预测概率。
S130:步骤3),利用所述特征提取器获得当前阶段的训练样本的特征表示,定义出特征密度,并基于所述特征密度计算出当前阶段各个类别的原型;
在当前阶段,定义出训练样本中各个类别对应的特征密度,并基于各个类别对应的特征密度计算出当前阶段各个类别的原型,以便在之后的增量阶段重建伪特征空间来克服各个类别间的混淆;所述当前阶段各个类别为分配给当前阶段的数据集中训练样本的各个类别;
对于阶段t的类别a∈Ct,初始特征空间
Figure BDA0004135742670000124
定义如下:
Figure BDA0004135742670000125
其中,
Figure BDA0004135742670000126
为阶段t训练样本的特征表示,/>
Figure BDA0004135742670000127
阶段t的特征表示由特征提取器得到,即fi t=φ(xi;θt),yi为阶段t训练样本中的不同类别,/>
Figure BDA0004135742670000128
Figure BDA0004135742670000129
包括初始特征空间/>
Figure BDA00041357426700001210
和伪特征空间/>
Figure BDA00041357426700001211
之后,通过初始特征空间/>
Figure BDA00041357426700001212
计算类别a的原型;
为了保持模型对所述类别a的辨别能力,需要更加关注那些难以分类正确的特征,于是采用特征密度D来评估各个类别特征的难辨别程度;特征表示
Figure BDA00041357426700001213
的特征密度Di定义如下:
Figure BDA00041357426700001214
其中,E(·,·)表示欧式距离,i和j分别表示阶段t中第i和第j个训练样本,
Figure BDA00041357426700001215
是阶段中第j个训练样本的特征表示,γ是超参数;特征的密度Di的数值越小,意味着该特征越可能是难以正确辨别的特征;参见图2,图2为本发明实施例提供的特征空间三维可视化图。为了更容易辨别基于特征密度的原型生成机制更关注哪些特征,利用T-SNE方法可视化每个特征的权重,颜色越深,特征对应的权重就越高。从图2可以看出大多数高度加权的特征都位于类簇的边缘,表明位于类簇边缘的特征密度较低,这些特征更可能是难以正确辨别的特征;采用特征密度可准确评估各个类别的难辨别程度。
在原型生成过程中,利用特征密度Di对特征进行加权,类别a的初始原型
Figure BDA0004135742670000131
定义如下:
Figure BDA0004135742670000132
其中,Proto(·)为类别a的原型,
Figure BDA0004135742670000133
是特征表示/>
Figure BDA0004135742670000134
的权重,/>
Figure BDA0004135742670000135
Dj为特征表示/>
Figure BDA0004135742670000136
的特征密度,初始原型/>
Figure BDA0004135742670000137
代表阶段t中的初始原型集合,类别C1:t的原型集合/>
Figure BDA0004135742670000138
定义为:/>
Figure BDA0004135742670000139
μj为前t-1个阶段中的旧类别j的原型。
S140:步骤4),在每个增量阶段,对于步骤3)中计算出的之前所有阶段各个类别的原型,采用基于拓扑纠正的原型漂移估计方法对所述之前所有阶段各个类别的原型进行更新;
所述采用基于拓扑纠正的原型漂移估计方法对所述之前所有阶段各个类别的原型进行更新,包括以下步骤:
在每个增量阶段,计算出每个增量阶段的特征空间的漂移量;
利用所述每个增量阶段的特征空间的漂移量估计之前所有阶段的类别原型的漂移量;
利用局部拓扑关系计算拓扑纠正量,并对所述之前所有阶段各个类别的原型进行更新;
所述在每个增量阶段,计算出每个增量阶段的特征空间的漂移量
Figure BDA0004135742670000141
定义如下:
Figure BDA0004135742670000142
其中,类别a∈Ct,阶段t的特征表示
Figure BDA0004135742670000143
阶段t-1的特征表示
Figure BDA0004135742670000144
fi t和fi t-1是分别由特征提取器φ(xi;θt)和φ(xi;θt-1)得到,Δfi为特征表示/>
Figure BDA0004135742670000145
相对于特征表示/>
Figure BDA0004135742670000146
的漂移量;
利用所述每个增量阶段的类别特征空间的漂移量估计之前所有阶段的类别原型的漂移量
Figure BDA0004135742670000147
定义如下:
Figure BDA0004135742670000148
其中,类别b∈C1:t-1
Figure BDA0004135742670000149
E(·,·)表示欧式距离,/>
Figure BDA00041357426700001410
为类别b∈C1:t-1的原型,/>
Figure BDA00041357426700001411
为阶段t第j个训练样本的特征表示,η是超参数;
所述利用局部拓扑关系计算拓扑纠正量,并对所述之前所有阶段各个类别的原型进行更新,拓扑纠正量
Figure BDA00041357426700001412
定义为/>
Figure BDA00041357426700001413
的K近邻漂移量的加权和:
Figure BDA00041357426700001414
其中,为了保持增加原型漂移量Δμt后的旧类别原型集合
Figure BDA00041357426700001415
的拓扑关系,利用局部拓扑关系计算拓扑纠正量,/>
Figure BDA00041357426700001416
Figure BDA00041357426700001417
是之前所有阶段的类别原型/>
Figure BDA00041357426700001418
的K近邻,/>
Figure BDA00041357426700001419
是原型/>
Figure BDA00041357426700001420
的漂移量,α是超参数;
之前所有阶段类别b的原型拓扑纠正漂移量定义如下:
Figure BDA0004135742670000151
其中,
Figure BDA0004135742670000152
是类别原型/>
Figure BDA0004135742670000153
的漂移量,/>
Figure BDA0004135742670000154
是类别原型/>
Figure BDA0004135742670000155
的拓扑纠正量,β是用来调节两项贡献/>
Figure BDA0004135742670000156
和/>
Figure BDA0004135742670000157
的超参数;
按阶段更新原型,得到更新后的类别原型
Figure BDA0004135742670000158
定义如下:
Figure BDA0004135742670000159
参见图3,其中,方块代表更新前的类别,圆代表更新后的类别,箭头代表旧类别更新为新类别。图3为采用T-SNE方法可视化的15个类别的原型,图3(a)为本发明基于动态类原型生成机制的类增量学习框架MATE的拓扑纠正效果图,图3(b)为具有简单漂移估计的基线模型的效果图。以类1和类2为例,在基于动态类原型生成机制的类增量学习框架MATE中,类1和类2的局部拓扑关系被保持(参见虚线箭头),而在仅仅具有简单漂移估计的基线模型中,他们的局部拓扑关系有明显变化。可见,本申请基于动态类原型生成机制的类增量学习框架MATE,相对于仅具有简单漂移估计的基线模型,可保持新旧类别的局部拓扑关系。
S150:步骤5),在每个增量阶段,利用步骤4)更新后的之前所有阶段各个类别的原型,生成之前所有阶段各个类别的伪特征;
S160:步骤6),在每个增量阶段,基于步骤3)中的当前阶段的训练样本的特征表示及其分类预测结果,以及步骤5)中的之前所有阶段各个类别的伪特征及其分类预测结果,定义多目标损失函数,学习新的特征空间和分类器权重;
多目标损失函数整体定义如下:
Figure BDA0004135742670000161
Figure BDA0004135742670000162
定义如下:
Figure BDA0004135742670000163
Figure BDA0004135742670000164
定义如下:
Figure BDA0004135742670000165
其中,阶段t的特征表示fi t的维度是df,将
Figure BDA0004135742670000166
表示为由特征提取器φ(·;θt)定义的特征空间,/>
Figure BDA0004135742670000167
为预测标签,/>
Figure BDA0004135742670000168
Figure BDA0004135742670000169
Figure BDA00041357426700001610
是余弦分类器,yi是真实标签,/>
Figure BDA00041357426700001611
是交叉熵损失,/>
Figure BDA00041357426700001612
是特征蒸馏损失,/>
Figure BDA00041357426700001613
是伪特征约束,λ1和λ2是用来调节两种损失贡献/>
Figure BDA00041357426700001614
和/>
Figure BDA00041357426700001615
的超参数。在学习新的训练样本时,特征空间会发生变化,当变化较大时,增量学习模型就会分不准旧类别,/>
Figure BDA00041357426700001616
能扼制新的训练样本的特征在模型中发生较大变化,使新的训练样本在不同阶段模型中抽取的特征保持一致;/>
Figure BDA00041357426700001617
将基于旧类别原型生成的伪特征采用分类器分类后,保证分类器能区分旧类别生成的伪特征;
所述伪特征约束
Figure BDA00041357426700001618
定义如下:
Figure BDA00041357426700001619
其中,
Figure BDA00041357426700001620
Figure BDA00041357426700001621
是/>
Figure BDA00041357426700001622
的预测概率,yi是/>
Figure BDA00041357426700001623
的真实标签;/>
Figure BDA00041357426700001624
为在每个增量阶段中,通过原型拓扑纠正漂移量更新后的类别原型/>
Figure BDA00041357426700001625
重建出的伪特征空间,伪特征空间/>
Figure BDA00041357426700001626
定义如下:
Figure BDA00041357426700001627
其中,
Figure BDA00041357426700001628
是类别b的归一化伪特征,e*σ是用来生成伪特征的高斯噪声,e和σ与/>
Figure BDA0004135742670000171
有相同的维度,/>
Figure BDA0004135742670000172
σ的每个维度表示原始特征空间/>
Figure BDA0004135742670000173
中相应维度的标准差。
S170:步骤7),重复步骤3)至6),直到所有增量阶段训练结束;
S180:步骤8),使用训练后的模型,以平均准确度和平均遗忘率作为评估指标,对所有学习过各个阶段的类别进行评估,得到基于动态类原型生成机制的类增量学习模型;
示例性地,采用特征提取器和余弦分类器在第t个训练阶段的数据集Dt上不断训练增量学习模型,在阶段t的训练完成之后,采用训练后的类增量学习模型在所有学习过的类别C1:上进行测试。
上述实现过程中,通过步骤1),将图像数据集按照类别划分为多个类别不重叠的数据集,并将所述多个类别不重叠的数据集分配给1个基类阶段和T个增量阶段,每个训练阶段的训练样本为分配给当前阶段的数据集;步骤2),使用所述当前阶段的训练样本对特征提取器和分类器进行训练,学习当前阶段的特征空间和分类器权重;步骤3),利用所述特征提取器获得当前阶段的训练样本的特征表示,定义出特征密度,并基于所述特征密度计算出当前阶段各个类别的原型;步骤4),在每个增量阶段,对于步骤3)中计算出的之前所有阶段各个类别的原型,采用基于拓扑纠正的原型漂移估计方法对所述之前所有阶段各个类别的原型进行更新;步骤5),在每个增量阶段,利用步骤4)更新后的之前所有阶段各个类别的原型,生成之前所有阶段各个类别的伪特征;步骤6),在每个增量阶段,基于步骤3)中当前阶段的训练样本的特征表示及其分类预测结果,以及步骤5)中的之前所有阶段各个类别的伪特征及其分类预测结果,定义多目标损失函数,学习新的特征空间和分类器权重;步骤7),重复步骤3)至6),直到所有增量阶段训练结束;步骤8),使用训练后的模型,以平均准确度和平均遗忘率作为评估指标,对所有学习过的类别进行评估,得到基于动态类原型生成机制的类增量学习模型。
基于上述动态类原型生成机制的类增量学习方法,本发明提出一种基于动态类原型生成机制的学习框架MATE。请参看图4,图4(a)为本发明基于动态类原型生成机制的学习框架MATE的架构图,图4(b)为基于动态类原型生成机制的学习框架MATE中DBP(基于特征密度的原型生成)的架构图,图4(c)为基于动态类原型生成机制的学习框架MATE中TPD(拓扑纠正的原型漂移估计)的架构图。其中,实心原点表示各个类别的特征,实心叉表示各个类别的原型。示例性地,在t-1阶段,通过旧特征提取器φ(xi;θt-1)提取旧类别C1:t-1的特征
Figure BDA0004135742670000181
并将特征分类,基于特征密度的原型生成(DBP),根据旧类别的特征标识定义出特征密度,基于特征密度的特征加权计算出各个旧类别的原型;在t阶段,通过新特征提取器φ(xi;θt)提取新类别Ct的特征表示/>
Figure BDA0004135742670000182
并将特征分类,构建初始特征空间/>
Figure BDA0004135742670000183
由于旧类别的特征空间与新类别的特征空间不匹配,基于拓扑纠正的原型漂移估计(TPD)对旧类别原型进行更新得到更新后的旧类别原型;基于更新后的旧类别的原型生成伪特征/>
Figure BDA0004135742670000184
重建伪特征空间/>
Figure BDA0004135742670000185
基于初始特征空间/>
Figure BDA0004135742670000186
和伪特征空间/>
Figure BDA0004135742670000187
构建新特征空间/>
Figure BDA0004135742670000188
采用余弦分类器
Figure BDA0004135742670000189
对新特征空间中各个类别原型进行分类。
受脑认知科学最新启发,本发明基于动态类原型生成机制,分别解决了旧类样本不可见和网络漂移问题。通过特征提取器、余弦分类器、DBP(基于特征密度的原型生成)和TPD(拓扑纠正的原型漂移估计)构成基于动态类原型生成机制的类增量学习框架MATE,MATE动态重建旧类的伪特征空间,以解决无旧样本类增量学习中的灾难性遗忘问题。基于特征密度计算初始旧类别原型,并通过基于拓扑纠正的原型漂移估计方法不断更新旧类别原型,以解决无旧样本类增量学习中的网络漂移问题。在基准图像分类数据集上的典型设置中,本申请中的基于动态类原型生成机制的类增量学习方法与现有的无旧样本类增量学习方法相比,达到了最先进的性能,并且与经典的基于回放的类增量方法相比,具有相同水平的性能。
请参看图5,图5为本发明实施例在CIFAR-100、Tiny-ImageNet和ImageNet-100图像分类数据集上与其他基准方法的测试精度比较。
其中,比较的基准方法包括:将最接近代表性样本均值规则引入该领域的方法iCaRL、使用平衡训练和交叉蒸馏损失函数的方法EEiL、利用了余弦归一化、少遗忘约束和类间分离,以缓解灾难性遗忘问题的方法LUCIR、使用多分类器范式的方法MUC、采用知识蒸馏损失函数来保留旧知识的方法LwF、为旧类记忆代表原型并使用自监督学习的方法PASS、采用主分支扩展和侧分枝更新策略和转移不变知识的主分支蒸馏方案的方法SSRE。图5中,(a)为在CIFAR-100数据集上,基于5个阶段的增量设置下,本方法与其他基准方法的测试精度对比折线图;(b)为在CIFAR-100数据集上,基于10个阶段的增量设置下,本方法与其他基准方法的测试精度对比折线图;(c)为在CIFAR-100数据集上,基于20个阶段的增量设置下,本方法与其他基准方法的测试精度对比折线图(d)为在Tiny-ImageNet数据集上,基于5个阶段的增量设置下,本方法与其他基准方法的测试精度对比折线图;(e)为在Tiny-ImageNet数据集上,基于10个阶段的增量设置下,本方法与其他基准方法的测试精度对比折线图;(f)为在Tiny-ImageNet数据集上,基于20个阶段的增量设置下,本方法与其他基准方法的测试精度对比折线图;(g)为在ImageNet-100数据集上,基于5个阶段的增量设置下,本方法与其他基准方法的测试精度对比折线图;(h)为在ImageNet-100数据集上,基于10个阶段的增量设置下,本方法与其他基准方法的测试精度对比折线图。由图5中的数据可以看出,本申请中的基于动态类原型生成机制的类增量学习方法与现有的无旧样本类增量学习方法相比,达到了最先进的性能,并且与经典的基于回放的类增量方法相比,具有相同水平的性能。
基于同样的发明构思,本发明还提出一种基于动态类原型生成机制的类增量学习模型的图像分类方法,将待分类图像输入所述一种基于动态类原型生成机制的类增量学习模型,得到所述待分类图像的图像分类结果。
基于同样的发明构思,本发明还提出一种基于动态类原型生成机制的类增量学习系统,请参看图6,图6为本发明实施例提供的一种基于动态类原型生成机制的类增量学习系统结构框图,包括:
类增量数据集划分模块110,用于步骤1),将图像数据集按照类别划分为多个类别不重叠的数据集,并将所述多个类别不重叠的数据集分配给1个基类阶段和T个增量阶段,每个训练阶段的训练样本为分配给当前阶段的数据集;
特征空间提取和分类模块120,用于步骤2),使用步骤1)中当前阶段的训练样本对特征提取器和分类器进行训练,学习当前阶段的特征空间和分类器权重;
原型计算模块130,用于步骤3),利用所述特征提取器获得当前阶段的训练样本的特征表示,定义出特征密度,并基于所述特征密度计算出当前阶段各个类别的原型;
拓扑纠正模块140,用于步骤4),在每个增量阶段,对于步骤3)中计算出的之前所有阶段各个类别的原型,采用基于拓扑纠正的原型漂移估计方法对所述之前所有阶段各个类别的原型进行更新;
伪特征生成模块150,用于步骤5),在每个增量阶段,利用步骤4)更新后的之前所有阶段各个类别的原型,生成之前所有阶段各个类别的伪特征;
多目标损失函数计算模块160,用于步骤6),在每个增量阶段,基于步骤3)中的当前阶段的训练样本的特征表示及其分类预测结果,以及步骤5)中的之前所有阶段各个类别伪特征及其分类预测结果,定义多目标损失函数,学习新的特征空间和分类器权重;
类增量学习模型训练模块170,用于步骤7),重复步骤3)至6),直到所有增量阶段训练结束;
类增量学习模型评估模块180,用于步骤8),使用训练后的模型,以平均准确度和平均遗忘率作为评估指标,对所有学习过的类别进行评估,得到基于动态类原型生成机制的类增量学习模型。
上述实现过程中,通过类增量数据集划分模块110用于步骤1),将图像数据集按照类别划分为多个类别不重叠的数据集,并将所述多个类别不重叠的数据集分配给1个基类阶段和个增量阶段,每个训练阶段的训练样本为分配给当前阶段的数据集;特征空间提取和分类模块120用于步骤2),使用步骤1)中当前阶段的训练样本对特征提取器和分类器进行训练,学习当前阶段的特征空间和分类器权重;原型计算模块130用于步骤3),利用所述特征提取器获得当前阶段的训练样本的特征表示,定义出特征密度,并基于所述特征密度计算出当前阶段各个类别的原型;拓扑纠正模块140用于步骤4),在每个增量阶段,对于步骤3)中计算出的之前所有阶段各个类别的原型,采用基于拓扑纠正的原型漂移估计方法对所述之前所有阶段各个类别的原型进行更新;伪特征生成模块150用于步骤5),在每个增量阶段,利用步骤4)更新后的之前所有阶段各个类别的原型,生成之前所有阶段各个类别的伪特征;多目标损失函数计算模块160用于步骤6),在每个增量阶段,基于步骤3)中的当前阶段的训练样本的特征表示及其分类预测结果,以及步骤5)中的之前所有阶段各个类别伪特征及其分类预测结果,定义多目标损失函数,学习新的特征空间和分类器权重;类增量学习模型训练模块170用于步骤7),重复步骤3)至6),直到所有增量阶段训练结束;类增量学习模型评估模块180用于步骤8),使用训练后的模型,以平均准确度和平均遗忘率作为评估指标,对所有学习过的类别进行评估,得到基于动态类原型生成机制的类增量学习模型。受脑认知科学,视觉刺激的拓扑特性是定义视觉记忆的重要组成部分的最新启发,本发明基于动态类原型生成机制,分别解决了无旧样本类增量学习中的灾难性遗忘和网络漂移问题。通过特征提取器、余弦分类器、DBP(基于特征密度的原型生成)和TPD(拓扑纠正的原型漂移估计)构成基于动态类原型生成机制的类增量学习框架MATE,MATE动态重建旧类的伪特征空间,以解决类增量学习中旧样本不可见的问题。基于特征密度计算初始旧类别原型,并通过基于拓扑纠正的原型漂移估计方法不断更新旧类别原型,以解决无旧样本类增量学习中的网络漂移问题。在基准图像分类数据集上的典型设置中,本申请中的基于动态类原型生成机制的类增量学习方法与现有的无旧样本类增量学习方法相比,达到了最先进的性能,并且与经典的基于回放的类增量方法相比,具有相同水平的性能。
请参阅图7,图7为本申请实施例提供的电子设备的一种示意性结构框图。电子设备包括存储器101、处理器102和通信接口103,该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器101可用于存储软件程序及模块,如本申请实施例所提供的基于动态类原型生成机制的类增量学习系统对应的程序指令/模块,处理器102通过执行存储在存储器101内的软件程序及模块,从而执行各种功能应用以及数据处理。该通信接口103可用于与其他节点设备进行信令或数据的通信。
其中,存储器101可以是但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
处理器102可以是一种集成电路芯片,具有信号处理能力。该处理器102可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可以理解,图7所示的结构仅为示意,电子设备还可包括比图7中所示更多或者更少的组件,或者具有与图7所示不同的配置。图7中所示的各组件可以采用硬件、软件或其组合实现。
在本申请所提供的实施例中,应该理解到,所揭露的系统和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (10)

1.一种基于动态类原型生成机制的类增量学习方法,其特征在于,包括以下步骤:
步骤1),将图像数据集按照类别划分为多个类别不重叠的数据集,并将所述多个类别不重叠的数据集分配给1个基类阶段和T个增量阶段,每个训练阶段的训练样本为分配给当前阶段的数据集;
步骤2),使用步骤1)中当前阶段的训练样本对特征提取器和分类器进行训练,学习当前阶段的特征空间和分类器权重;
步骤3),利用所述特征提取器获得当前阶段的训练样本的特征表示,定义出特征密度,并基于所述特征密度计算出当前阶段各个类别的原型;
步骤4),在每个增量阶段,对于步骤3)中计算出的之前所有阶段各个类别的原型,采用基于拓扑纠正的原型漂移估计方法对所述之前所有阶段各个类别的原型进行更新;
步骤5),在每个增量阶段,利用步骤4)更新后的之前所有阶段各个类别的原型,生成之前所有阶段各个类别的伪特征;
步骤6),在每个增量阶段,基于步骤3)中的当前阶段的训练样本的特征表示及其分类预测结果,以及步骤5)中的之前所有阶段各个类别的伪特征及其分类预测结果,定义多目标损失函数,学习新的特征空间和分类器权重;
步骤7),重复步骤3)至6),直到所有增量阶段训练结束;
步骤8),使用训练后的模型,以平均准确度和平均遗忘率作为评估指标,对所有学习过的类别进行评估,得到基于动态类原型生成机制的类增量学习模型。
2.根据权利要求1所述的一种基于动态类原型生成机制的类增量学习方法,其特征在于,在步骤3)中,所述定义出特征密度,并基于所述特征密度计算出当前阶段各个类别的原型,包括:
对于阶段t的类别a∈Ct,初始特征空间
Figure FDA0004135742660000021
定义如下:
Figure FDA0004135742660000022
其中,
Figure FDA0004135742660000023
为阶段t训练样本的特征表示,/>
Figure FDA0004135742660000024
阶段t的特征表示由特征提取器得到,即/>
Figure FDA0004135742660000025
yi为阶段t训练样本中的不同类别,/>
Figure FDA0004135742660000026
Figure FDA0004135742660000027
为新特征空间;
特征表示
Figure FDA0004135742660000028
的特征密度Di定义如下:
Figure FDA0004135742660000029
其中,E(·,·)表示欧式距离,i和j分别表示阶段t中第i和第j个训练样本,
Figure FDA00041357426600000210
为阶段t中第j个训练样本的特征表示,γ是超参数;
在原型生成过程中,利用特征密度Di对类别a的特征进行加权,类别a的初始原型
Figure FDA00041357426600000211
定义如下:
Figure FDA00041357426600000212
其中,Proto(·)为类别a的原型,
Figure FDA00041357426600000213
是特征表示/>
Figure FDA00041357426600000214
的权重,/>
Figure FDA00041357426600000215
Dj为特征表示/>
Figure FDA00041357426600000216
的特征密度,初始原型/>
Figure FDA00041357426600000217
Figure FDA00041357426600000218
代表阶段t中的初始原型集合,类别C1:t的原型集合/>
Figure FDA00041357426600000219
定义为:/>
Figure FDA00041357426600000220
μj为前t-1个阶段中的旧类别j的原型。
3.根据权利要求1所述的一种基于动态类原型生成机制的类增量学习方法,其特征在于,步骤4)中,采用基于拓扑纠正的原型漂移估计方法对所述之前所有阶段各个类别的原型进行更新,包括以下步骤:
在每个增量阶段,计算出每个增量阶段的特征空间的漂移量;
利用所述每个增量阶段的特征空间的漂移量估计之前所有阶段的类别原型的漂移量;
利用局部拓扑关系计算拓扑纠正量,并对所述之前所有阶段各个类别的原型进行更新。
4.根据权利要求3所述的一种基于动态类原型生成机制的类增量学习方法,其特征在于,所述在每个增量阶段,计算出每个增量阶段的特征空间的漂移量
Figure FDA0004135742660000031
定义如下:
Figure FDA0004135742660000032
其中,类别a∈Ct,阶段t的特征表示
Figure FDA0004135742660000033
阶段t-1的特征表示
Figure FDA0004135742660000034
Figure FDA0004135742660000035
和/>
Figure FDA0004135742660000036
是分别由特征提取器φ(xit)和φ(xiy-1)得到,Δfi为特征表示/>
Figure FDA0004135742660000037
相对于特征表示/>
Figure FDA0004135742660000038
的漂移量;
利用所述每个增量阶段的特征空间的漂移量估计之前所有阶段的类别原型的漂移量
Figure FDA0004135742660000039
定义如下:
Figure FDA00041357426600000310
其中,类别b∈C1:t-1
Figure FDA00041357426600000311
R(·,·)表示欧式距离,
Figure FDA00041357426600000312
为类别b∈C1:t-1的原型,/>
Figure FDA00041357426600000313
为阶段t第j个训练样本的特征表示,η是超参数;
所述利用局部拓扑关系计算拓扑纠正量,并对所述之前所有阶段各个类别的原型进行更新,拓扑纠正量
Figure FDA00041357426600000314
定义为/>
Figure FDA00041357426600000315
的K近邻漂移量的加权和:
Figure FDA00041357426600000316
其中,
Figure FDA00041357426600000317
Figure FDA00041357426600000318
是之前所有阶段的类别原型/>
Figure FDA00041357426600000319
的K近邻,/>
Figure FDA00041357426600000320
是类别原型/>
Figure FDA00041357426600000321
的漂移量,α是超参数;
之前所有阶段类别n的原型拓扑纠正漂移量
Figure FDA0004135742660000041
定义如下:
Figure FDA0004135742660000042
其中,
Figure FDA0004135742660000043
是类别原型/>
Figure FDA0004135742660000044
的漂移量,/>
Figure FDA0004135742660000045
是类别原型/>
Figure FDA0004135742660000046
的拓扑纠正量,β是用来调节两项贡献/>
Figure FDA0004135742660000047
和/>
Figure FDA0004135742660000048
的超参数;
按阶段更新原型,得到更新后的类别原型
Figure FDA0004135742660000049
定义如下:
Figure FDA00041357426600000410
5.根据权利要求1所述的一种基于动态类原型生成机制的类增量学习方法,其特征在于,步骤6)中,所述多目标损失函数整体定义如下:
Figure FDA00041357426600000411
Figure FDA00041357426600000412
定义如下:
Figure FDA00041357426600000413
Figure FDA00041357426600000433
定义如下:
Figure FDA00041357426600000414
其中,阶段t的特征表示
Figure FDA00041357426600000415
的维度是df,将/>
Figure FDA00041357426600000416
表示为由特征提取器φ(·;θt)定义的特征空间,/>
Figure FDA00041357426600000417
为预测标签,/>
Figure FDA00041357426600000418
Figure FDA00041357426600000419
是余弦分类器,yi是真实标签,/>
Figure FDA00041357426600000420
是交叉熵损失,/>
Figure FDA00041357426600000421
是特征蒸馏损失,/>
Figure FDA00041357426600000422
是伪特征约束,λ1和λ2是用来调节两种损失贡献/>
Figure FDA00041357426600000423
和/>
Figure FDA00041357426600000424
的超参数。
6.根据权利要求5所述的一种基于动态类原型生成机制的类增量学习方法,其特征在于,所述伪特征约束
Figure FDA00041357426600000425
定义如下:
Figure FDA00041357426600000426
其中,
Figure FDA00041357426600000427
Figure FDA00041357426600000428
是/>
Figure FDA00041357426600000429
的预测概率,yi是/>
Figure FDA00041357426600000430
的真实标签;/>
Figure FDA00041357426600000431
为在每个增量阶段中,通过原型拓扑纠正漂移量更新后的类别原型/>
Figure FDA00041357426600000432
重建出的伪特征空间,伪特征空间/>
Figure FDA0004135742660000051
定义如下:
Figure FDA0004135742660000052
其中,
Figure FDA0004135742660000053
是类别b的归一化伪特征,e*是用来生成伪特征的高斯噪声,e和σ与/>
Figure FDA0004135742660000054
有相同的维度,/>
Figure FDA0004135742660000055
σ的每个维度表示原始特征空间/>
Figure FDA0004135742660000056
中相应维度的标准差。
7.一种基于动态类原型生成机制的类增量学习模型的图像分类方法,其特征在于,将待分类图像输入如权利要求1-6所述的一种基于动态类原型生成机制的类增量学习模型,得到所述待分类图像的图像分类结果。
8.一种基于动态类原型生成机制的类增量学习系统,其特征在于,包括:
类增量数据集划分模块,用于步骤1),将图像数据集按照类别划分为多个类别不重叠的数据集,并将所述多个类别不重叠的数据集分配给1个基类阶段和T个增量阶段,每个训练阶段的训练样本为分配给当前阶段的数据集;
特征空间提取和分类模块,用于步骤2),使用步骤1)中当前阶段的训练样本对特征提取器和分类器进行训练,学习当前阶段的特征空间和分类器权重;
原型计算模块,用于步骤3),利用所述特征提取器获得当前阶段的训练样本的特征表示,定义出特征密度,并基于所述特征密度计算出当前阶段各个类别的原型;
拓扑纠正模块,用于步骤4),在每个增量阶段,对于步骤3)中计算出的之前所有阶段各个类别的原型,采用基于拓扑纠正的原型漂移估计方法对所述之前所有阶段各个类别的原型进行更新;
伪特征生成模块,用于步骤5),在每个增量阶段,利用步骤4)更新后的之前所有阶段各个类别的原型,生成之前所有阶段各个类别的伪特征;
多目标损失函数计算模块,用于步骤6),在每个增量阶段,基于步骤3)中的当前阶段的训练样本的特征表示及其分类预测结果,以及步骤5)中的之前所有阶段各个类别伪特征及其分类预测结果,定义多目标损失函数,学习新的特征空间和分类器权重;
类增量学习模型训练模块,用于步骤7),重复步骤3)至6),直到所有增量阶段训练结束;
类增量学习模型评估模块,用于步骤8),使用训练后的模型,以平均准确度和平均遗忘率作为评估指标,对所有学习过的类别进行评估,得到基于动态类原型生成机制的类增量学习模型。
9.一种电子设备,其特征在于,包括:
存储器,用于存储一个或多个程序;
处理器;
当所述一个或多个程序被所述处理器执行时,实现如权利要求1-6中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-6中任一项所述的方法。
CN202310274438.8A 2023-03-20 2023-03-20 基于动态类原型生成机制的类增量学习方法及产品 Pending CN116310557A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310274438.8A CN116310557A (zh) 2023-03-20 2023-03-20 基于动态类原型生成机制的类增量学习方法及产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310274438.8A CN116310557A (zh) 2023-03-20 2023-03-20 基于动态类原型生成机制的类增量学习方法及产品

Publications (1)

Publication Number Publication Date
CN116310557A true CN116310557A (zh) 2023-06-23

Family

ID=86818310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310274438.8A Pending CN116310557A (zh) 2023-03-20 2023-03-20 基于动态类原型生成机制的类增量学习方法及产品

Country Status (1)

Country Link
CN (1) CN116310557A (zh)

Similar Documents

Publication Publication Date Title
US11263528B2 (en) Neural network, computer readable medium, and methods including a method for training a neural network
Bell The co-information lattice
CN109583332B (zh) 人脸识别方法、人脸识别系统、介质及电子设备
Khosravi et al. On tractable computation of expected predictions
US11030246B2 (en) Fast and accurate graphlet estimation
CN110796154A (zh) 一种训练物体检测模型的方法、装置以及设备
Lamrini et al. Data validation and missing data reconstruction using self-organizing map for water treatment
Zhang et al. Kernel mixture model for probability density estimation in Bayesian classifiers
Ghanbari et al. Reconstruction of gene networks using prior knowledge
CN110659667A (zh) 图片分类模型训练方法、系统和计算机设备
CN113554175B (zh) 一种知识图谱构建方法、装置、可读存储介质及终端设备
CN111291827A (zh) 图像聚类方法、装置、设备及存储介质
Kim et al. A generalised uncertain decision tree for defect classification of multiple wafer maps
CN115546525A (zh) 多视图聚类方法、装置、电子设备及存储介质
Kao et al. Disc-GLasso: Discriminative graph learning with sparsity regularization
Hassanat et al. Magnetic force classifier: a Novel Method for Big Data classification
CN112541530B (zh) 针对聚类模型的数据预处理方法及装置
CN117710745A (zh) 一种基于证据多视角核化的目标分类方法及装置
KR20180056013A (ko) 나노 물질의 독성을 예측하는 방법 및 장치
Parker et al. Nonlinear time series classification using bispectrum‐based deep convolutional neural networks
CN116310557A (zh) 基于动态类原型生成机制的类增量学习方法及产品
Dahinden et al. Decomposition and model selection for large contingency tables
US11295229B1 (en) Scalable generation of multidimensional features for machine learning
CN114816808A (zh) 异常检测方法、装置、电子设备及计算机可读存储介质
KR20220055553A (ko) 뇌 피질 영역의 두께를 분석하는 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination