CN115879533A - 一种基于类比学习的类增量学习方法及系统 - Google Patents
一种基于类比学习的类增量学习方法及系统 Download PDFInfo
- Publication number
- CN115879533A CN115879533A CN202211540012.4A CN202211540012A CN115879533A CN 115879533 A CN115879533 A CN 115879533A CN 202211540012 A CN202211540012 A CN 202211540012A CN 115879533 A CN115879533 A CN 115879533A
- Authority
- CN
- China
- Prior art keywords
- class
- training
- classes
- learning
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明提出了一种基于类比学习的类增量学习方法及系统,涉及人工智能技术领域。通过提出了一种新颖的受人脑类比学习机制启发的小样本类增量学习方法,使用新类权重构建器来计算新类和所有旧类之间的类比,并通过使用计算的类比混合所有旧类分类器来获得新类分类器。同时,设计了元类比训练模块,应用情景训练策略来更新CNN模块和新类权重构建器的参数,以及每个遇到的类的知识,该元类比训练模块在每轮小样本类增量学习阶段后应用情景训练策略优化所有遇到的类的特征表示和分类器。通过将元类比训练模块和小样本类增量学习方法结合在一起,本发明提出的类增量学习方法在基准图像分类数据集上的典型设置中实现了最先进的性能精度。
Description
技术领域
本发明涉及人工智能技术领域,具体而言,涉及一种基于类比学习的类增量学习方法及系统。
背景技术
深度卷积神经网络(CNN)已成功应用于广泛的计算机视觉和模式识别任务。为了获得出色的性能,CNN需要使用具有预定义数量的图像类的大规模训练集进行训练。一旦训练过程完成,CNN模型可以识别的图像类别,以及给定图像集上的网络性能都是固定的。由于CNN模型经常部署在不断变化的动态环境中,因此迫切需要不断地使模型适应新兴的新图像类别。换句话说,CNN模型必须能够从很少的训练图像中逐步学习新的类,即小样本类增量学习。小样本类增量学习的一种简单方法是使用几个新的类训练图像简单地微调基本模型。然而,这种方法会导致两个严重的问题:1)灾难性遗忘:在对新类别进行微调后,模型在旧类别上的性能急剧下降;2)过拟合:即模型对少数新类示例过拟合,并且在大量测试图像上表现不佳。
近年来,解决灾难性遗忘问题的研究工作不断增加。一些工作试图修复特征提取器,并且只在类增量学习过程中更新CNN模型的分类层。这些方法可能在前几个类增量学习阶段中表现良好,但从长远来看会表现得越来越差,因为CNN模型的特征提取器不适应新的图像类。其他一些工作使用所谓的知识蒸馏方法,存储一组旧类示例,并强制网络在类增量学习阶段期间为这些示例维护其输出逻辑。尽管有效,但研究表明,这种方法存在“类别数据不平衡”和“先忘记后重新学习”的问题。
发明内容
本发明的目的在于提供一种基于类比学习的类增量学习方法及系统,用以改善现有技术中灾难性遗忘和过拟合的问题。
第一方面,本申请实施例提供一种基于类比学习的类增量学习方法,包括以下步骤:
获取包含多个类别的类增量数据集,且将所述类增量数据集按类别分为多个训练阶段的训练样本,并保证不同训练阶段的训练样本中的类别之间不重叠;
利用所述目标类的类质心向量计算得到查询矩阵,利用所述源类的质心向量计算得到键矩阵,利用所述不同训练阶段所有类的分类权重向量计算得到值矩阵,将所述查询矩阵、键矩阵和值矩阵作为新类权重构建器的输入,得到目标类的分类权重向量;
在目标类阶段结束时,采用情景训练策略,利用伪测试集进行验证,得到伪目标类分类权重向量,并向后传播误差更新所述不同训练阶段所有类的分类权重向量、新类权重构建器的参数和CNN模块的参数,并执行预定义次数的迭代操作;所述伪测试集通过提取所述类示例集中的数据得到;
对于所述目标类的分类权重向量,定义多目标损失函数,并对类增量学习模型进行优化训练,得到训练后的模型;
采用所述训练后的模型,基于评估指标对所有学习过的类别进行测试,得到最终基于类比学习的类增量学习模型进行图像分类。
基于第一方面,在本发明的一些实施例中,还包括以下步骤:
在随后的类增量学习阶段中,采用类示例集按照类质心向量计算公式重新计算类质心向量,得到更新的类质心向量,所述类质心向量计算公式为:其中,pc为类质心向量,E为对Dt中的每个类选择的示例图像数,eci为类别c的第i个示例图像。
基于第一方面,在本发明的一些实施例中,所述利用所述目标类的类质心向量计算得到查询矩阵,利用所述源类的质心向量计算得到键矩阵,利用所述不同训练阶段所有类的分类权重向量计算得到值矩阵,将所述查询矩阵、键矩阵和值矩阵作为新类权重构建器的输入,得到目标类的分类权重向量,包括以下步骤:
在类增量学习阶段,构建新类权重构建器,对于每个交叉注意力头部h,利用所述目标类的类质心向量计算得到查询矩阵,利用所述源类的质心向量计算得到键矩阵,利用所述不同训练阶段所有类的分类权重向量计算得到值矩阵;
以所述查询矩阵、键矩阵和值矩阵作为所述交叉注意力分支h输入,得到交叉注意力分支h输出目标类的分类权重向量;
将所有所述交叉注意力分支h输出目标类的分类权重向量连接在一起,并通过所述新类权重构建器中的MLP产生目标类的分类权重向量。
基于第一方面,在本发明的一些实施例中,所述在目标类阶段结束时,采用情景训练策略,利用伪测试集进行验证,得到伪目标类分类权重向量,并向后传播误差更新所述不同训练阶段所有类的分类权重向量、新类权重构建器的参数和CNN模块的参数,并执行预定义次数的迭代操作;所述伪测试集通过提取所述类示例集中的数据得到,包括以下步骤:
在伪测试集Tpse上测试统一分类器Wpse,计算损失函数,然后反向传播误差以更新所述不同训练阶段所有类的分类权重向量、新类权重构建器的参数和CNN模块的参数;
使用更新后的CNN模块重新计算各个训练阶段的训练样本的特征向量和类质心集,并执行预定义次数的迭代操作。
基于第一方面,在本发明的一些实施例中,所述多目标损失函数包括新类权重构建器损失函数和CNN损失函数,
所述新类权重构建器损失函数表示为:lMAT=CE+lm,其中,lm为匹配损失函数,lCE为分类的交叉熵损失函数,α为用于平衡的超参数;
所述CNN损失函数表示为:lCNN=CE+1ldis+2ldiv,其中,lCE为交叉熵损失函数,ldis为较少遗忘损失,ldiv为较少过拟合损失,λ1、λ2为用于平衡的超参数。
基于第一方面,在本发明的一些实施例中,所述采用所述训练后的模型,基于评估指标对所有学习过的类别进行测试,得到最终基于类比学习的类增量学习模型进行图像分类,包括以下步骤:
采用所述训练后的模型,对所述CNN模块进行微调,使用优化器更新所述新类权重构建器,并基于评估指标对所有学习过的类别进行测试,得到最终基于类比学习的类增量学习模型进行图像分类。
第二方面,本申请实施例提供一种基于类比学习的类增量学习系统,包括:
类增量数据集划分模块,用于获取包含多个类别的类增量数据集,且将所述类增量数据集按类别分为多个训练阶段的训练样本,并保证不同训练阶段的训练样本中的类别之间不重叠;
特征空间提取模块,用于采用CNN模块中的特征提取器分别对所述不同训练阶段的训练样本进行训练,学习其不同训练阶段的特征空间,得到不同训练阶段所有类的分类权重向量并将所述不同训练阶段中每个类的类示例集存储到记忆库中;
新类权重构建器模块,用于利用所述目标类的类质心向量计算得到查询矩阵,利用所述源类的质心向量计算得到键矩阵,利用所述不同训练阶段所有类的分类权重向量计算得到值矩阵,将所述查询矩阵、键矩阵和值矩阵作为新类权重构建器的输入,得到目标类的分类权重向量;
伪测试集验证模块,用于在目标类阶段结束时,采用情景训练策略,利用伪测试集进行验证,得到伪目标类分类权重向量,并向后传播误差更新所述不同训练阶段所有类的分类权重向量、新类权重构建器的参数和CNN模块的参数,并执行预定义次数的迭代操作;所述伪测试集通过提取所述类示例集中的数据得到;
优化训练模块,用于对于所述目标类的分类权重向量,定义多目标损失函数,并对类增量学习模型进行优化训练,得到训练后的模型;
模型测试模块,用于采用所述训练后的模型,基于评估指标对所有学习过的类别进行测试,得到最终基于类比学习的类增量学习模型进行图像分类。
第三方面,本申请实施例提供一种电子设备,其包括存储器,用于存储一个或多个程序;处理器。当所述一个或多个程序被所述处理器执行时,实现如上述第一方面中任一项所述的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面中任一项所述的方法。
本发明实施例至少具有如下优点或有益效果:
本发明实施例提供一种基于类比学习的类增量学习方法及系统,通过提出了一种新颖的受人脑类比学习机制启发的小样本类增量学习方法(ALFSCIL),该框架使用新类权重构建器(NCCC)来计算新类和所有旧类之间的类比,并通过使用计算的类比混合所有旧类分类器来获得新类分类器。同时,设计了元类比训练模块(MAT),应用情景训练策略来更新CNN模块和新类权重构建器(NCCC)的参数,以及每个遇到的类的知识,该元类比训练模块在每轮小样本类增量学习阶段后应用情景训练策略优化所有遇到的类的特征表示和分类器。通过将元类比训练模块(MAT)和小样本类增量学习方法(ALFSCIL)结合在一起,本发明提出的类增量学习方法在基准图像分类数据集上的典型设置中实现了最先进的性能精度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的一种基于类比学习的类增量学习方法流程图;
图2为本发明实施例提供的小样本类增量学习框架的整体架构和数据流图;
图3为本发明实施例提供的新类分类器模块(NCCC)的详细配置信息图;
图4为本发明实施例提供的在ResNet18基础上,本发明在miniImageNet和CUB200图像分类数据集上与其他次优基准方法的top-1准确度曲线的比较图;
图5为本发明实施例提供的一种基于类比学习的类增量学习系统结构框图;
图6为本发明实施例提供的一种电子设备的结构框图。
图标:110-类增量数据集划分模块;120-特征空间提取模块;130-类质心向量计算模块;140-新类权重构建器模块;150-伪测试集验证模块;160-优化训练模块;170-模型测试模块;101-存储器;102-处理器;103-通信接口。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的各个实施例及实施例中的各个特征可以相互组合。
深度卷积神经网络(CNN)已成功应用于广泛的计算机视觉和模式识别任务。为了获得出色的性能,CNN需要使用具有预定义数量的图像类的大规模训练集进行训练。一旦训练过程完成,CNN模型可以识别的图像类别,以及给定图像集上的网络性能都是固定的。由于CNN模型经常部署在不断变化的动态环境中,因此迫切需要不断地使模型适应新兴的新图像类别。换句话说,CNN模型必须能够从很少的训练图像中逐步学习新的类,即小样本类增量学习。在现实需求的驱动下,近些年来对类增量学习的研究越来越受到关注。它试图从新的类训练实例中学习新知识,并保留旧类的学习知识。小样本类增量学习的一种简单方法是使用几个新的类训练图像简单地微调基本模型。然而,这种方法会导致两个严重的问题:1)灾难性遗忘:在对新类别进行微调后,模型在旧类别上的性能急剧下降;2)过拟合:即模型对少数新类示例过拟合,并且在大量测试图像上表现不佳。
受脑认知科学最新启发,本发明基于类比学习的类增量学习方法,解决了灾难性遗忘和过拟合的问题。
请参看图1-图3,图1为本发明实施例提供的一种基于类比学习的类增量学习方法流程图,图2为本发明实施例提供的小样本类增量学习框架的整体架构和数据流图,图3为本发明实施例提供的新类分类器模块(NCCC)的详细配置信息图。
本发明实施例提供的一种基于类比学习的类增量学习方法,包括以下步骤:
步骤S110:获取包含多个类别的类增量数据集,且将所述类增量数据集按类别分为多个训练阶段的训练样本,并保证不同训练阶段的训练样本中的类别之间不重叠;在本实施例中,所述类增量数据集包括带标签的训练集、测试集合类标签集。
步骤S120:采用CNN模块中的特征提取器分别对所述不同训练阶段的训练样本进行训练,学习其不同训练阶段的特征空间,得到不同训练阶段所有类的分类权重向量并将所述不同训练阶段中每个类的类示例集存储到记忆库中;上述特征空间是从上述的特征提取中发现从原始数据中提取特征,是将原始数据映射到一个更高维的空间,特征空间中的特征是对原始数据更高维的抽象。
上述CNN模块可以被定义为由Θ参数化的特征提取器f(·;Θ)和由W参数化的分类层(例如分类权重矩阵)的组合。根据定义,CNN模块输出类预测向量表示为:y=WTf(x;Θ),中,x为给定输入图像。
步骤S130:在增量阶段,对于各个训练阶段的目标类训练集,为每个类选择示例图像得到类示例集,并计算得到目标类的类质心向量;同理计算得到所述记忆库中所有源类的类质心向量;上述目标类训练集是指在每个训练阶段进行增量训练后输出的图像集合,上述计算得到目标类的类质心向量即是在计算新类的类质心向量,上述计算所有源类的类质心向量即是在计算旧类的类质心向量。
其中,为了保存阶段t中每个观察到的类的知识,可以计算记忆库中所有源类的类质心向量。需要说明的是,目标类的类质心向量的计算过程与所有源类的类质心向量计算过程是相似的,但目标类的类质心向量不使用示例样本计算,而是通过目标类的所有训练样本计算得到。所述计算得到记忆库/>中所有源类的类质心向量,包括以下步骤:
采用赫尔德算法,对Dt中的每个类选择E个示例图像,计算类质心向量pc,计算公式为:其中,pc为类质心向量,E为对Dt中的每个类选择的示例图像数,eci为类别c的第i个示例图像;并将其保存在所述记忆库/>中,得到记忆库/>中所有源类的类质心向量;其中,Dt是阶段t中唯一可访问的目标类训练集。
在随后的类增量学习阶段中,每当pc需要更新时,由于c类的训练图像不再可访问,可以采用类示例集按照类质心向量计算公式重新计算类质心向量,得到更新的类质心向量,所述类质心向量计算公式为:
步骤S140:利用所述目标类的类质心向量计算得到查询矩阵,利用所述源类的质心向量计算得到键矩阵,利用所述不同训练阶段所有类的分类权重向量计算得到值矩阵,将所述查询矩阵、键矩阵和值矩阵作为新类权重构建器的输入,得到目标类的分类权重向量;
其中,上述得到目标类的分类权重向量的过程具体包括以下步骤:
首先,在类增量学习阶段,构建新类权重构建器,对于每个交叉注意力头部h,利用所述目标类的类质心向量计算得到查询矩阵,利用所述源类的质心向量计算得到键矩阵,利用所述不同训练阶段所有类的分类权重向量计算得到值矩阵;所述新类分类器模块(NCCC)是由一个多头交叉注意(MHCA)转换器形成的。
需要说明的是,在类增量学习阶段t>0时,设计了新类权重构建器NCCC模块,上述查询矩阵、键矩阵和值矩阵的计算如下:
Qh=LinearTransQh(Ptgt),
Kh=LinearTransKh(Psrc),
Vh=LinearTransVh(Wsrc),
其中,Ptgt为所有目标类的类质心特征向量,Qh为查询矩阵,Psrc为所有源类的类质心特征向量,Kh为键矩阵,Wsrc为所有源类的分类权重向量,Vh为值矩阵,LinearTransQh(·)、LinearTransKh(·)和LinearTransVh(·)是交叉注意力头部h的三种学习线性变换。
然后,以所述查询矩阵、键矩阵和值矩阵作为所述交叉注意力分支h输入,得到交叉注意力分支h输出目标类的分类权重向量;具体地,以Qh、Kh和Vh作为输入,交叉注意力分支h输出目标类的分类权重向量如下:
其中,Zh为交叉注意力分支h输出目标类的分类权重向量,d为分类权重向量的维度。
最后,将所有所述交叉注意力分支h输出目标类的分类权重向量连接在一起,并通过所述新类权重构建器中的MLP产生目标类的分类权重向量。
其中,来自所有交叉注意力分支h的Zh被连接在一起,并通过MLP产生最终输出Wtgt:
Wtgt=MLP(Concat(Z1,...ZH))
其中,每个向量是wc∈Wtgt是目标类别c的分类权重向量。
在类增量学习阶段t中,新的训练集Dt可用。可以将c∈Ct作为目标类Ctgt,将前几阶段学习到的所有类作为源类Csrc。计算每个类c∈Ct的类质心,形成Ptgt。使用Ptgt、所有源类的类质心集Psrc和分类权重集Wsrc作为输入,NCCC计算所有目标类的分类权重集Wtgt。
步骤S150:在目标类阶段结束时,采用情景训练策略,利用伪测试集进行验证,得到伪目标类分类权重向量,并向后传播误差更新所述不同训练阶段所有类的分类权重向量、新类权重构建器的参数和CNN模块的参数,并执行预定义次数的迭代操作;所述伪测试集通过提取所述类示例集中的数据得到;具体包括以下步骤:
首先,为了使NCCC模块能够为未知类别生成合理的分类权重,可以使用N-way K-shot的情景训练方式优化NCCC的参数,用以模拟增量环境并增强其泛化能力。利用情景训练方法模拟N-way K-shot情景训练,将类集合C0~t随机分割,得到伪目标类集和伪源类集/>利用情景训练方法的设计元类比训练(MAT)模块,模拟N-way K-shot情景训练。
然后,从所述伪目标类集中的每个类中随机选择一个示例图像,形成伪训练集Dpse,并将所述伪目标类集/>中的剩余图像作为伪测试集Tpse;从每个类/>中随机选择一个示例图像形成伪训练集Dpse,并使用E0~t中的剩余样本以形成伪测试集Tpse。每最后,使用Dpse来计算查询矩阵/>使用所有伪源类的类质心向量/>和分类权重向量以计算键矩阵和值矩阵,如下所示:
其中为所有伪源类的类质心向量,/>为查询矩阵,Dpse为伪训练集,/>为键矩阵,/>为所有伪源类的分类权重向量,/>为值矩阵,LinearTransQh(·)、LinearTransKh(·)和LinearTransVh(·)是交叉注意力头部h的三种学习线性变换。
然后,在伪测试集Tpse上测试统一分类器Wpse,计算损失函数,然后反向传播误差以更新所述不同训练阶段所有类的分类权重向量、新类权重构建器的参数和CNN模块的参数;
最后,使用更新后的CNN模块重新计算各个训练阶段的训练样本的特征向量和类质心集,并执行预定义次数的迭代操作。
步骤S160:对于所述目标类的分类权重向量,定义多目标损失函数,并对类增量学习模型进行优化训练,得到训练后的模型;对于步骤S140得到的训练样本在不同阶段的分类结果,定义多目标损失函数,同时使用步骤S150中的优化训练任务。
其中,为了对NCCC模块进行微调,定义了一个多目标损失函数,所述多目标损失函数包括新类权重构建器损失函数和CNN损失函数,
所述新类权重构建器损失函数表示为:lMAT=lCE+αlm,其中,lm为匹配损失函数,lCE为分类的交叉熵损失函数,α为用于平衡的超参数;
对于CNN模块微调使用交叉熵损失lCE、较少遗忘损失ldis和较少过拟合损失ldiv的组合对CNN模块进行微调,所述CNN损失函数表示为:lCNN=lCE+λ1ldis+λ2ldiv,其中,lCE为交叉熵损失函数,ldis为较少遗忘损失,ldiv为较少过拟合损失,λ1、λ2用于平衡的超参数。
较少遗忘损失ldis定义如下:
其中,ei为示例样本,Θ为特征提取器参数,Et为为示例样本集。
较少过拟合损失ldiv定义如下:
步骤S170:采用所述训练后的模型,基于评估指标对所有学习过的类别进行测试,得到最终基于类比学习的类增量学习模型进行图像分类。上述评估可以是使用训练后的模型基于top-1准确度、性能下降率和平均准确度作为评估指标对所有学习过的类别进行评估,得到最终基于类比学习的类增量学习模型进行图像分类任务。
其中,在MAT阶段,微调CNN模块,采用所述训练后的模型,对所述CNN模块进行微调,使用优化器更新所述新类权重构建器,并基于评估指标对所有学习过的类别进行测试,得到最终基于类比学习的类增量学习模型进行图像分类。
上述实现过程中,通过获取包含多个类别的类增量数据集,且将数据集按类别分为多个训练阶段,并保证不同训练阶段的新类之间没有重叠;使用CNN模块特征提取器对不同阶段训练样本进行训练,学习其不同阶段的特征空间,得到不同阶段所有类的分类权重向量并将每个类的类示例集存储到记忆库中;在增量阶段,对于目标类训练集,为每个类选择示例图像得到类示例集,并计算得到其类质心向量,同理计算得到记忆库/>中所有源类的类质心向量;利用目标类的类质心向量计算查询矩阵,利用源类的质心向量计算键矩阵,利用所有源类的分类权重向量计算值矩阵,将所求的三个矩阵作为新类权重构建器的输入,得到目标类的分类权重向量,在目标类阶段结束时模拟情景训练,在伪测试集上验证伪训练集得到的目标类分类权重,向后传播误差更新分类权重集,新类权重构建器和CNN模块的参数,并执行预定义次数的迭代操作;对于训练样本在不同阶段的分类结果,定义多目标损失函数,同时优化训练任务;使用训练后的模型作为评估指标对所有学习过的类别进行评估,得到最终基于类比学习的类增量学习模型进行图像分类任务。提出了一种新颖的受人脑类比学习机制启发的小样本类增量学习方法(ALFSCIL),该框架使用新类权重构建器(NCCC)来计算新类和所有旧类之间的类比,并通过使用计算的类比混合所有旧类分类器来获得新类分类器。同时,设计了元类比训练模块(MAT),应用情景训练策略来更新CNN模块和新类权重构建器(NCCC)的参数,以及每个遇到的类的知识,该元类比训练模块在每轮小样本类增量学习阶段后应用情景训练策略优化所有遇到的类的特征表示和分类器。通过将元类比训练模块(MAT)和小样本类增量学习方法(ALFSCIL)结合在一起,本发明提出的类增量学习方法在基准图像分类数据集上的典型设置中实现了最先进的性能精度。
请参看图4,图4为本发明实施例提供的在ResNet18基础上,本发明在miniImageNet和CUB200图像分类数据集上与其他次优基准方法的top-1准确度曲线的比较图。图中(a)为本发明在miniImageNet数据集上的比较结果,可以明显看出本发明显著提升2.53%的平均精度;图中(b)为本发明在CUB200数据集上的比较结果,可以明显看出本发明显著提升1.79%的平均精度。
基于同样的发明构思,本发明还提出一种基于类比学习的类增量学习系统,请参看图5,图5为本发明实施例提供的一种基于类比学习的类增量学习系统结构框图。该基于类比学习的类增量学习系统包括:
类增量数据集划分模块110,用于获取包含多个类别的类增量数据集,且将所述类增量数据集按类别分为多个训练阶段的训练样本,并保证不同训练阶段的训练样本中的类别之间不重叠;
特征空间提取模块120,用于采用CNN模块中的特征提取器分别对所述不同训练阶段的训练样本进行训练,学习其不同训练阶段的特征空间,得到不同训练阶段所有类的分类权重向量并将所述不同训练阶段中每个类的类示例集存储到记忆库中;
新类权重构建器模块140,用于利用所述目标类的类质心向量计算得到查询矩阵,利用所述源类的质心向量计算得到键矩阵,利用所述不同训练阶段所有类的分类权重向量计算得到值矩阵,将所述查询矩阵、键矩阵和值矩阵作为新类权重构建器的输入,得到目标类的分类权重向量;
伪测试集验证模块150,用于在目标类阶段结束时,采用情景训练策略,利用伪测试集进行验证,得到伪目标类分类权重向量,并向后传播误差更新所述不同训练阶段所有类的分类权重向量、新类权重构建器的参数和CNN模块的参数,并执行预定义次数的迭代操作;所述伪测试集通过提取所述类示例集中的数据得到;
优化训练模块160,用于对于所述目标类的分类权重向量,定义多目标损失函数,并对类增量学习模型进行优化训练,得到训练后的模型;
模型测试模块170,用于采用所述训练后的模型,基于评估指标对所有学习过的类别进行测试,得到最终基于类比学习的类增量学习模型进行图像分类。
上述实现过程中,通过类增量数据集划分模块110获取包含多个类别的类增量数据集,且将数据集按类别分为多个训练阶段,并保证不同训练阶段的新类之间没有重叠;特征空间提取模块120使用CNN模块特征提取器对不同阶段训练样本进行训练,学习其不同阶段的特征空间,得到不同阶段所有类的分类权重向量并将每个类的类示例集存储到记忆库中;类质心向量计算模块130在增量阶段,对于目标类训练集,为每个类选择示例图像得到类示例集,并计算得到其类质心向量,同理计算得到记忆库/>中所有源类的类质心向量;新类权重构建器模块140利用目标类的类质心向量计算查询矩阵,利用源类的质心向量计算键矩阵,利用所有源类的分类权重向量计算值矩阵,将所求的三个矩阵作为新类权重构建器的输入,得到目标类的分类权重向量,伪测试集验证模块150在目标类阶段结束时模拟情景训练,在伪测试集上验证伪训练集得到的目标类分类权重,向后传播误差更新分类权重集,新类权重构建器和CNN模块的参数,并执行预定义次数的迭代操作;优化训练模块160对于训练样本在不同阶段的分类结果,定义多目标损失函数,同时优化训练任务;模型测试模块170使用训练后的模型作为评估指标对所有学习过的类别进行评估,得到最终基于类比学习的类增量学习模型进行图像分类任务。提出了一种新颖的受人脑类比学习机制启发的小样本类增量学习方法(ALFSCIL),该框架使用新类权重构建器(NCCC)来计算新类和所有旧类之间的类比,并通过使用计算的类比混合所有旧类分类器来获得新类分类器。同时,设计了元类比训练模块(MAT),应用情景训练策略来更新CNN模块和新类权重构建器(NCCC)的参数,以及每个遇到的类的知识,该元类比训练模块在每轮小样本类增量学习阶段后应用情景训练策略优化所有遇到的类的特征表示和分类器。通过将元类比训练模块(MAT)和小样本类增量学习方法(ALFSCIL)结合在一起,本发明提出的类增量学习方法在基准图像分类数据集上的典型设置中实现了最先进的性能精度。
请参阅图6,图6为本申请实施例提供的电子设备的一种示意性结构框图。电子设备包括存储器101、处理器102和通信接口103,该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器101可用于存储软件程序及模块,如本申请实施例所提供的一种基于类比学习的类增量学习系统对应的程序指令/模块,处理器102通过执行存储在存储器101内的软件程序及模块,从而执行各种功能应用以及数据处理。该通信接口103可用于与其他节点设备进行信令或数据的通信。
其中,存储器101可以是但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
处理器102可以是一种集成电路芯片,具有信号处理能力。该处理器102可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可以理解,图6所示的结构仅为示意,电子设备还可包括比图6中所示更多或者更少的组件,或者具有与图6所示不同的配置。图6中所示的各组件可以采用硬件、软件或其组合实现。
在本申请所提供的实施例中,应该理解到,所揭露的系统和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
Claims (10)
1.一种基于类比学习的类增量学习方法,其特征在于,包括以下步骤:
获取包含多个类别的类增量数据集,且将所述类增量数据集按类别分为多个训练阶段的训练样本,并保证不同训练阶段的训练样本中的类别之间不重叠;
利用所述目标类的类质心向量计算得到查询矩阵,利用所述源类的质心向量计算得到键矩阵,利用所述不同训练阶段所有类的分类权重向量计算得到值矩阵,将所述查询矩阵、键矩阵和值矩阵作为新类权重构建器的输入,得到目标类的分类权重向量;
在目标类阶段结束时,采用情景训练策略,利用伪测试集进行验证,得到伪目标类分类权重向量,并向后传播误差更新所述不同训练阶段所有类的分类权重向量、新类权重构建器的参数和CNN模块的参数,并执行预定义次数的迭代操作;所述伪测试集通过提取所述类示例集中的数据得到;
对于所述目标类的分类权重向量,定义多目标损失函数,并对类增量学习模型进行优化训练,得到训练后的模型;
采用所述训练后的模型,基于评估指标对所有学习过的类别进行测试,得到最终基于类比学习的类增量学习模型进行图像分类。
4.根据权利要求3所述的基于类比学习的类增量学习方法,其特征在于,所述利用所述目标类的类质心向量计算得到查询矩阵,利用所述源类的质心向量计算得到键矩阵,利用所述不同训练阶段所有类的分类权重向量计算得到值矩阵,将所述查询矩阵、键矩阵和值矩阵作为新类权重构建器的输入,得到目标类的分类权重向量,包括以下步骤:
在类增量学习阶段,构建新类权重构建器,对于每个交叉注意力头部h,利用所述目标类的类质心向量计算得到查询矩阵,利用所述源类的质心向量计算得到键矩阵,利用所述不同训练阶段所有类的分类权重向量计算得到值矩阵;
以所述查询矩阵、键矩阵和值矩阵作为所述交叉注意力分支h输入,得到交叉注意力分支h输出目标类的分类权重向量;
将所有所述交叉注意力分支h输出目标类的分类权重向量连接在一起,并通过所述新类权重构建器中的MLP产生目标类的分类权重向量。
5.根据权利要求1所述的基于类比学习的类增量学习方法,其特征在于,所述在目标类阶段结束时,采用情景训练策略,利用伪测试集进行验证,得到伪目标类分类权重向量,并向后传播误差更新所述不同训练阶段所有类的分类权重向量、新类权重构建器的参数和CNN模块的参数,并执行预定义次数的迭代操作;所述伪测试集通过提取所述类示例集中的数据得到,包括以下步骤:
在伪测试集Tpse上测试统一分类器Wpse,计算损失函数,然后反向传播误差以更新所述不同训练阶段所有类的分类权重向量、新类权重构建器的参数和CNN模块的参数;
使用更新后的CNN模块重新计算各个训练阶段的训练样本的特征向量和类质心集,并执行预定义次数的迭代操作。
6.根据权利要求1所述的基于类比学习的类增量学习方法,其特征在于,所述多目标损失函数包括新类权重构建器损失函数和CNN损失函数,
所述新类权重构建器损失函数表示为:lMAT=CE+lm,其中,lm为匹配损失函数,lCE为分类的交叉熵损失函数,α为用于平衡的超参数;
所述CNN损失函数表示为:lCNN=lCE+1ldis+2ldiv,其中,lCE为交叉熵损失函数,ldis为较少遗忘损失,ldiv为较少过拟合损失,λ1、λ2为用于平衡的超参数。
7.根据权利要求1所述的基于类比学习的类增量学习方法,其特征在于,所述采用所述训练后的模型,基于评估指标对所有学习过的类别进行测试,得到最终基于类比学习的类增量学习模型进行图像分类,包括以下步骤:
采用所述训练后的模型,对所述CNN模块进行微调,使用优化器更新所述新类权重构建器,并基于评估指标对所有学习过的类别进行测试,得到最终基于类比学习的类增量学习模型进行图像分类。
8.一种基于类比学习的类增量学习系统,其特征在于,包括:
类增量数据集划分模块,用于获取包含多个类别的类增量数据集,且将所述类增量数据集按类别分为多个训练阶段的训练样本,并保证不同训练阶段的训练样本中的类别之间不重叠;
特征空间提取模块,用于采用CNN模块中的特征提取器分别对所述不同训练阶段的训练样本进行训练,学习其不同训练阶段的特征空间,得到不同训练阶段所有类的分类权重向量并将所述不同训练阶段中每个类的类示例集存储到记忆库中;
新类权重构建器模块,用于利用所述目标类的类质心向量计算得到查询矩阵,利用所述源类的质心向量计算得到键矩阵,利用所述不同训练阶段所有类的分类权重向量计算得到值矩阵,将所述查询矩阵、键矩阵和值矩阵作为新类权重构建器的输入,得到目标类的分类权重向量;
伪测试集验证模块,用于在目标类阶段结束时,采用情景训练策略,利用伪测试集进行验证,得到伪目标类分类权重向量,并向后传播误差更新所述不同训练阶段所有类的分类权重向量、新类权重构建器的参数和CNN模块的参数,并执行预定义次数的迭代操作;所述伪测试集通过提取所述类示例集中的数据得到;
优化训练模块,用于对于所述目标类的分类权重向量,定义多目标损失函数,并对类增量学习模型进行优化训练,得到训练后的模型;
模型测试模块,用于采用所述训练后的模型,基于评估指标对所有学习过的类别进行测试,得到最终基于类比学习的类增量学习模型进行图像分类。
9.一种电子设备,其特征在于,包括:
存储器,用于存储一个或多个程序;
处理器;
当所述一个或多个程序被所述处理器执行时,实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211540012.4A CN115879533A (zh) | 2022-12-02 | 2022-12-02 | 一种基于类比学习的类增量学习方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211540012.4A CN115879533A (zh) | 2022-12-02 | 2022-12-02 | 一种基于类比学习的类增量学习方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115879533A true CN115879533A (zh) | 2023-03-31 |
Family
ID=85765622
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211540012.4A Pending CN115879533A (zh) | 2022-12-02 | 2022-12-02 | 一种基于类比学习的类增量学习方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115879533A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116306875A (zh) * | 2023-05-18 | 2023-06-23 | 成都理工大学 | 基于空间预学习与拟合的排水管网样本增量学习方法 |
CN116452897A (zh) * | 2023-06-16 | 2023-07-18 | 中国科学技术大学 | 跨域小样本分类方法、系统、设备及存储介质 |
-
2022
- 2022-12-02 CN CN202211540012.4A patent/CN115879533A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116306875A (zh) * | 2023-05-18 | 2023-06-23 | 成都理工大学 | 基于空间预学习与拟合的排水管网样本增量学习方法 |
CN116452897A (zh) * | 2023-06-16 | 2023-07-18 | 中国科学技术大学 | 跨域小样本分类方法、系统、设备及存储介质 |
CN116452897B (zh) * | 2023-06-16 | 2023-10-20 | 中国科学技术大学 | 跨域小样本分类方法、系统、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3295385B1 (en) | Fixed point neural network based on floating point neural network quantization | |
EP3295382B1 (en) | Bit width selection for fixed point neural networks | |
US11657267B2 (en) | Neural network apparatus, vehicle control system, decomposition device, and program | |
CN115879533A (zh) | 一种基于类比学习的类增量学习方法及系统 | |
US20220147877A1 (en) | System and method for automatic building of learning machines using learning machines | |
CN111026544B (zh) | 图网络模型的节点分类方法、装置及终端设备 | |
US11334791B2 (en) | Learning to search deep network architectures | |
Zeebaree et al. | Csaernet: An efficient deep learning architecture for image classification | |
WO2021238279A1 (zh) | 数据分类方法、分类器训练方法及系统 | |
Pannu et al. | Design and fabrication of flow-based edge detection memristor crossbar circuits | |
CN112420125A (zh) | 分子属性预测方法、装置、智能设备和终端 | |
CN115952724A (zh) | 航空发动机剩余寿命预测方法、系统、设备及介质 | |
CN115496983A (zh) | 一种受语义知识指导的类增量学习方法及系统 | |
Sun et al. | Analysis and optimization of network properties for bionic topology hopfield neural network using gaussian-distributed small-world rewiring method | |
CN113592008A (zh) | 一种基于自编码器的图神经网络机制解决小样本图像分类的系统、方法、设备及存储介质 | |
Altares-López et al. | AutoQML: Automatic generation and training of robust quantum-inspired classifiers by using evolutionary algorithms on grayscale images | |
Li et al. | Towards optimal filter pruning with balanced performance and pruning speed | |
Palit et al. | Biomedical image segmentation using fully convolutional networks on TrueNorth | |
US20180365350A1 (en) | Generating circuits | |
Liu | Consistent relative confidence and label-free model selection for convolutional neural networks | |
CN111242449A (zh) | 一种企业情报流失预测方法 | |
TWI844228B (zh) | 訓練神經網路執行機器學習任務 | |
US20210303762A1 (en) | Expert-in-the-loop ai for materials discovery | |
US20210304852A1 (en) | Expert-in-the-loop ai for materials generation | |
US20230072539A1 (en) | Artificial Intelligence (AI) System for Learning Spatial Patterns in Sparse Distributed Representations (SDRs) and Associated Methods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |