CN112633495A - 一种用于小样本类增量学习的多粒度快慢学习方法 - Google Patents

一种用于小样本类增量学习的多粒度快慢学习方法 Download PDF

Info

Publication number
CN112633495A
CN112633495A CN202011504238.XA CN202011504238A CN112633495A CN 112633495 A CN112633495 A CN 112633495A CN 202011504238 A CN202011504238 A CN 202011504238A CN 112633495 A CN112633495 A CN 112633495A
Authority
CN
China
Prior art keywords
learning
class
fast
slow
updating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011504238.XA
Other languages
English (en)
Other versions
CN112633495B (zh
Inventor
李玺
赵涵斌
傅永健
康敏桐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202011504238.XA priority Critical patent/CN112633495B/zh
Publication of CN112633495A publication Critical patent/CN112633495A/zh
Application granted granted Critical
Publication of CN112633495B publication Critical patent/CN112633495B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种用于小样本类增量学习的多粒度快慢学习方法,方法具体包括以下步骤:连续获取多个任务的数据流,在每个类增量学习会话只能获得一个任务的数据;在第一个增量学习会话中,获取第一个任务的数据,学习得到基任务网络模型,慢更新模型和快更新模型都以基任务模型作为初始化;在下一个增量学习会话中获取新任务数据,以慢的多粒度学习方法更新慢更新模型,以快的多粒度学习方法更新快更新模型;每次增量学习会话后,通过慢更新模型得到慢更新特征空间,通过快更新模型得到快更新特征空间,利用两个空间得到的组合空间进行分类。本发明构建的组合特征空间能有效地平衡旧知识保留和新知识适应,是一种简单有效的小样本增量学习方法。

Description

一种用于小样本类增量学习的多粒度快慢学习方法
技术领域
本发明涉及深度网络模型的增量学习领域,尤其涉及一种用于小样本类增量学习的多粒度快慢学习方法。
背景技术
最近几年来,类增量学习取得了不错的发展,目的是在于使得一个学习器从新数据中获得新知识的同时能够保留从之前数据中已经学习得到的旧知识。在实际场景中,新数据中的新知识通常在一个更具有挑战性的小样本学习场景(即少量标注的样本),导致了小样本增量学习问题。小样本增量学习通常涉及基本任务(即具有大规模训练样本的第一项任务)和新任务(具有有限样本数)的学习阶段。原则上,小样本增量学习处于缓慢遗忘旧知识和快速适应新知识之间的困境。缓慢的遗忘通常会导致对新任务的抵触,而快速的适应会导致灾难性的遗忘问题。因此,需要实施“慢vs.快”学习方法,以确定要以慢速或快速方式更新哪些知识组件,从而在慢忘和快速适应之间保持权衡。在本专利中,我们专注于探究来自两个不同粒度的快慢学习性能差异:在同一特征空间内(称为空间内快慢学习分析)以及在两个不同特征空间之间(称为空间之间快慢学习分析)。
现有的用于解决类增量学习问题的方法主要分成以下三类:(1)添加或去除部件的结构化方法;(2)保存过去样本或其他旧任务信息的预演方法;(3)在已学习的知识限制下正则化网络参数更新的正则化方法。现有的这方法只能为快慢学习保留统一的特征空间(在不同的特征维度)。由于统一的特征空间具有相互关联的特征维度,因此很难对特征进行解耦以进行快慢学习分析。此外,旧知识保存和新知识适应的学习方向通常是不一致的(有时甚至是矛盾的)。在小样本类增量学习的情景下,统一的特征空间倾向于很好地拟合新任务的数据,但会遭受可分辨性和泛化能力的降低以及灾难性的遗忘
发明内容
为了解决现有技术中存在的问题,本发明旨在研究设计出一种用于小样本类增量学习的多粒度快慢学习方法,该方法能够构建一个慢更新特征空间来减少旧知识遗忘,构建一个快更新特征空间来促进新知识学习,通过慢更新特征空间和快更新特征空间组合得到一个有效的组合特征空间,能很好地平衡旧知识保留和新知识适应。本发明提出的组合特征空间,由慢更新特征空间和快更新特征空间构成,能自适应地编码新任务知识的同时有效地保持旧任务的特征表达。
本发明具体采用的技术方案如下:
一种基于特征空间组合的小样本类增量学习方法,其包括以下步骤:
S1、连续获取多个任务的数据流,在每个类增量学习会话中只能获得一个任务的训练数据集;
S2、在第一个类增量学习会话中,以基任务作为第一个任务的训练数据集,学习得到基任务网络模型,慢更新网络模型和快更新网络模型都以基任务网络模型作为初始化模型;
S3、在下一个类增量学习会话中,基于新任务的训练数据集,以慢的多粒度学习方法更新前一个类增量学习会话中训练得到的慢更新网络模型,同时以快的多粒度学习方法更新前一个类增量学习会话中训练得到的快更新网络模型;
所述慢的多粒度学习方法指在特征空间之间粒度使用小学习率更新特征空间和在特征空间内部粒度对低频分量做知识迁移时使用大权重;
所述快的多粒度学习方法指在特征空间之间粒度使用大学习率更新特征空间和在特征空间内部粒度对低频分量做知识迁移时使用小权重;
且所述大学习率为所述小学习率的5倍以上,所述大权重为所述小权重的5倍以上;
S4:完成一个类增量学习会话后,通过慢更新网络模型得到慢更新特征空间,通过快更新网络模型得到快更新特征空间,对两个特征空间进行组合,得到一个组合特征空间,利用组合特征空间进行分类;
S5:当存在新任务的训练数据集时,重复S3和S4,利用新数据对网络模型进行学习。
作为优选,所述S1中,所述的类增量学习会话定义如下:
从当前任务的数据到达后至下一个任务的数据到达的时间间隔是一个类增量学习会话;
所述多个任务的数据流定义如下:
数据流D由N个训练数据集构成,D={D(1),D(2),...,D(N)},其中第t个任务的训练数据集为D(t),D(t)仅在第t个类增量学习会话中被获取到并用于模型的训练学习,在小样本类增量学习中D(1)为基任务数据;C(t)是第t个任务数据的类别集合,不同任务间包含的数据类别没有重叠。
作为优选,所述小样本类增量学习方法的目标定义为:在每个类增量学习会话中,更新模型,以平衡旧知识保留和新知识适应,在所有已经出现过的类别数据中实现样本分类。
作为优选,所述S2中,所述的基任务网络模型是由嵌入网络和最近类均值分类器组成的图像分类模型;所述嵌入网络作为特征提取器,用于将一个给定的样本映射到一个表征空间,在该表征空间中样本间的距离表示样本间的语义差异;训练得到嵌入网络后,用所述最近类均值分类器对样本进行分类;
所述的基任务网络模型中,仅有嵌入网络是可学习的,所述嵌入网络在学习过程中,以最小化度量学习损失为目的。
作为优选,所述的度量学习损失采用三元组损失
Figure BDA0002844497550000031
Figure BDA0002844497550000032
其中d+表示代表样本xa和正样本xp的特征之间的欧式距离,d-表示代表样本xa和负样本xn的特征之间的欧式距离,r表示阈值。
作为优选,所述S3中,以慢的多粒度学习方法更新前一个类增量学习会话中训练得到的慢更新网络模型时,以最小化损失函数
Figure BDA0002844497550000033
为目的对嵌入网络进行参数优化,其中:
Figure BDA0002844497550000034
式中
Figure BDA0002844497550000035
是用于保持旧知识的正则项,λ是用于平衡
Figure BDA0002844497550000036
Figure BDA0002844497550000037
的系数;
Figure BDA0002844497550000038
为样本xj的特征,通过离散余弦变换对特征分解得到不同频域分量:
Figure BDA0002844497550000039
式中Q是频域分量的数量,频域分量
Figure BDA00028444975500000310
是在频域上的第q个分量,q=1,2,...,Q;在特征空间内粒度的慢学习方法
Figure BDA00028444975500000311
为:
Figure BDA00028444975500000312
式中
Figure BDA00028444975500000313
Figure BDA00028444975500000314
分别表示第t个和第t-1个类增量学习会话中的频域分量
Figure BDA00028444975500000315
Figure BDA00028444975500000316
是正则项中逼近旧特征空间第q个频域分量的权重,通过增大低频频域分量的权重至所述大权重训练慢更新网络模型(特征空间内部粒度的慢学习);
通过所述小学习率训练(特征空间之间粒度的慢学习)得到嵌入网络后,用最近类均值分类器进行分类:
Figure BDA0002844497550000041
式中:
Figure BDA0002844497550000042
为第j个样本xj的预测分类标签;UiC(i)表示所有任务数据的类别集合;dist(.,.)表示距离度量;
Figure BDA0002844497550000043
是类别c的样本特征均值,定义如下:
Figure BDA0002844497550000044
式中:nc是类别c的样本数量,[yj=c]表示判断yj=c是否成立,若成立则[yj=c]的值为1,否则[yj=c]的值为0。
所述S3中,以快的多粒度学习方法更新前一个类增量学习会话中训练得到的快更新网络模型时,以最小化损失函数
Figure BDA0002844497550000045
为目的对嵌入网络进行参数优化,其中:
Figure BDA0002844497550000046
式中
Figure BDA0002844497550000047
是用于保持旧知识的正则项;
Figure BDA0002844497550000048
为样本xj的特征,通过离散余弦变换对特征分解得到不同频域分量:
Figure BDA0002844497550000049
式中Q是频域分量的数量,频域分量
Figure BDA00028444975500000410
是在频域上的第q个分量,q=1,2,...,Q;在特征空间内粒度的快学习方法
Figure BDA00028444975500000411
为:
Figure BDA00028444975500000412
式中
Figure BDA00028444975500000413
Figure BDA00028444975500000414
分别表示第t个和第t-1个类增量学习会话中的频域分量
Figure BDA00028444975500000415
Figure BDA00028444975500000416
是正则项中逼近旧特征空间第q个频域分量的权重,通过降低低频分量的权重至所述小权重训练快更新网络模型(特征空间内部粒度的快学习);
通过所述大学习率(特征空间之间粒度的快学习)训练得到嵌入网络后,用最近类均值分类器进行分类。
作为优选,所述距离度量采用欧式距离。
作为优选,所述S4具体包含以下子步骤:
S41、每完成一个类增量学习会话后,从慢更新网络模型中得到慢更新特征空间,从快更新网络模型中得到快更新特征空间,对两个特征空间进行组合,得到一个组合特征空间;所述的组合特征空间表示如下:
对样本xj,其经过组合特征空间后得到的组合特征为
Figure BDA0002844497550000051
Figure BDA0002844497550000052
式中:Ψ(.,.)表示特征的空间组合函数,
Figure BDA0002844497550000053
表示样本xj在当前会话中更新后得到的慢更新特征空间的特征,
Figure BDA0002844497550000054
表示样本xj在当前会话中更新后得到的快更新特征空间的特征;
S42、利用组合特征空间,通过一个最近类均值分类器进行分类,分类方法如下:
Figure BDA0002844497550000055
Figure BDA0002844497550000056
其中:
Figure BDA0002844497550000057
表示第j个样本xj的预测分类标签,A表示度量矩阵,
Figure BDA0002844497550000058
表示基于慢更新特征空间得到的类别c中所有样本的特征均值,
Figure BDA0002844497550000059
表示基于快更新特征空间得到的类别c中所有样本的特征均值。
作为优选,所述空间组合函数Ψ(.,.)采用特征连接操作。
作为优选,所述度量矩阵A定义如下:
Figure BDA00028444975500000510
式中:I是一个单位矩阵,维度为A维度的一半;a为一个取值0或1的标量,a=0表示只使用慢更新特征空间,a=1表示着只使用快更新特征空间。
与面向深度神经网络模型的传统小样本类增量学习方法相比,本发明提供的一种用于小样本类增量学习的多粒度快慢学习方法,能自适应地编码新任务知识的同时有效地保持旧任务的特征表达,并且实现简单。
附图说明
图1为用于小样本类增量学习的多粒度快慢学习方法原理图;
图2为本发明方法流程图;
图3为本发明方法在CIFAR100数据集上的实施效果;
图4为本发明方法在MiniImageNet数据集上的实施效果图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步阐述。
本发明的用于小样本类增量学习的多粒度快慢学习方法原理如图1所示:首先在第一个类增量学习会话中,在基任务上学习得到一个基任务模型,慢更新模型和快更新模型都以基任务模型做初始化;当进入第二个类增量学习会话后,只能获取到新到达的数据和基任务上得到的慢更新模型和快更新模型,在新任务数据上以多粒度的慢学习方法更新慢更新模型,通过更新后的模型得到慢更新特征空间,以多粒度的快学习方法更新快更新模型,通过更新后的模型得到快更新特征空间,组合两个空间后得到组合特征空间进行分类;同理,每次有新任务数据到达时即进入下一个类增量学习会话时,以多粒度的快慢学习方法更新慢更新模型和快更新模型后,可以得到新的组合特征空间。通过该方式,能减少对过去旧任务知识的遗忘并防止对新任务知识的过拟合。下面对本发明的具体实现过程进行展开描述。
如图2所示,一种用于小样本类增量学习的多粒度快慢学习方法,包括以下步骤:
S1、连续获取多个任务的数据流,用于对模型进行训练,在每个类增量学习会话中只能获得一个任务的训练数据集。
其中,类增量学习会话定义如下:
从当前任务的数据到达后至下一个任务的数据到达的时间间隔是一个类增量学习会话。
其中,多个任务的数据流定义如下:
数据流D由N个训练数据集构成,D={D(1),D(2),...,D(N)},其中数据集的具体个数N根据实际情况确定。在数据流D中,记第t个任务的训练数据集为D(t),D(t)仅在第t个类增量学习会话中被获取到并用于模型的训练学习;C(t)是第t个任务数据的类别集合,不同任务间包含的数据类别没有重叠,即对于任意
Figure BDA0002844497550000061
在小样本类增量学习下,除了D(1)是包含较多样本和类别的基任务,对于D(t),t>1,D(t)包含极少数量的样本。在第t个类增量学习会话中,只能获取到D(t)数据。
本发明的小样本类增量学习方法的目标定义为:在每个类增量学习会话中,更新模型,以平衡旧知识保留和新知识适应,在所有已经出现过的类别数据中实现准确的样本分类。
S2、在第一个类增量学习会话中,以基任务作为第一个任务的训练数据集,学习得到基任务网络模型,慢更新网络模型和快更新网络模型都以基任务网络模型作为初始化模型。
此处的基任务网络模型是由嵌入网络(Embedding network)和最近类均值分类器(Nereast Class Mean classifier,NCM)组成的图像分类模型。其中,嵌入网络作为特征提取器,用于将一个给定的样本映射到一个信息充足的表征空间,在该表征空间中样本间的距离表示样本间的语义差异。为了这个目的,度量学习损失被用于保证相似样本间的距离比较近,不相似的样本间的距离大于一个阈值。训练得到嵌入网络后,用一个最近类均值分类器对样本进行分类。
在基任务网络模型中,仅有嵌入网络是可学习的,最近类均值分类器保持固定。网络学习训练与最小化如下目标函数的问题相关:
Figure BDA0002844497550000071
其中
Figure BDA0002844497550000072
是度量学习损失。嵌入网络在学习过程中,以最小化度量学习损失为目的。度量学习损失的形式可以根据实际情况调整,本实施例中度量学习损失
Figure BDA0002844497550000073
可采用三元组损失,其计算公式为:
Figure BDA0002844497550000074
其中:d+表示代表样本xa和正样本xp的特征之间的欧式距离,d-表示代表样本xa和负样本xn的特征之间的欧式距离,r表示阈值,max(,)表示取最大值操作。
S3、在下一个类增量学习会话中,基于新任务的训练数据集,以慢的多粒度学习方法更新前一个类增量学习会话中训练得到的慢更新网络模型,同时以快的多粒度学习方法更新前一个类增量学习会话中训练得到的快更新网络模型。
需注意的是,此处的慢的多粒度学习方法指在特征空间之间粒度使用小学习率更新特征空间和在特征空间内部粒度对低频分量做知识迁移时使用大权重;而快的多粒度学习方法指在特征空间之间粒度使用大学习率更新特征空间和在特征空间内部粒度对低频分量做知识迁移时使用小权重。
所谓“大学习率”、“小学习率”、“大权重”、“小权重”均是相对概念,一般而言所述大学习率为所述小学习率的5倍以上,所述大权重为所述小权重的5倍以上。具体的取值可以根据具体的数据集设置。
此处前一个类增量学习会话中训练得到的慢更新网络模型和快更新网络模型,在不同的类增量学习会话中是不同的。参见图1所示,在第2个类增量学习会话中,其前一个类增量学习会话中训练得到的慢更新网络模型就是第一个类增量学习会话中训练得到的基任务网络模型,其前一个类增量学习会话中训练得到的快更新网络模型就是第一个类增量学习会话中训练得到的基任务网络模型,而在第3个类增量学习会话中,其前一个类增量学习会话中训练得到的慢更新网络模型就是第2个类增量学习会话中训练得到的慢更新网络模型,其前一个类增量学习会话中训练得到的快更新网络模型就是第2个类增量学习会话中训练得到的快更新网络模型,依此类推。
在更新前一个类增量学习会话中训练得到的慢更新网络模型时,以最小化损失函数
Figure BDA0002844497550000081
为目的对嵌入网络进行参数优化,其中:
Figure BDA0002844497550000082
式中
Figure BDA0002844497550000083
是用于保持旧知识的正则项,λ是用于平衡
Figure BDA0002844497550000084
Figure BDA0002844497550000085
的系数;
Figure BDA0002844497550000086
为样本xj的特征,通过离散余弦变换对特征分解得到不同频域分量:
Figure BDA0002844497550000087
式中Q是频域分量的数量,频域分量
Figure BDA0002844497550000088
是在频域上的第q个分量,q=1,2,...,Q;在特征空间内粒度的慢学习方法
Figure BDA0002844497550000089
为:
Figure BDA00028444975500000810
式中
Figure BDA00028444975500000811
Figure BDA00028444975500000812
分别表示第t个和第t-1个类增量学习会话中的频域分量
Figure BDA00028444975500000813
Figure BDA00028444975500000814
是正则项中逼近旧特征空间第q个频域分量的权重,通过增大低频频域分量的权重至所述大权重训练慢更新网络模型(特征空间内部粒度的慢学习);
通过一个前述的小学习率训练(特征空间之间粒度的慢学习)得到嵌入网络后,用最近类均值分类器进行分类:
Figure BDA00028444975500000815
式中:
Figure BDA00028444975500000816
为第j个样本xj的预测分类标签;UiC(i)表示所有任务数据的类别集合;dist(.,.)表示距离度量;
Figure BDA00028444975500000817
是类别c的样本特征均值,定义如下:
Figure BDA0002844497550000091
式中:nc是类别c的样本数量,[yj=c]表示判断yj=c是否成立,若成立则[yj=c]的值为1,否则[yj=c]的值为0。
在更新前一个类增量学习会话中训练得到的快更新网络模型时,以最小化损失函数
Figure BDA0002844497550000092
为目的对嵌入网络进行参数优化,其中:
Figure BDA0002844497550000093
式中
Figure BDA0002844497550000094
是用于保持旧知识的正则项;
Figure BDA0002844497550000095
为样本xj的特征,通过离散余弦变换对特征分解得到不同频域分量:
Figure BDA0002844497550000096
式中Q是频域分量的数量,频域分量
Figure BDA0002844497550000097
是在频域上的第q个分量,q=1,2,...,Q;在特征空间内粒度的快学习方法
Figure BDA0002844497550000098
为:
Figure BDA0002844497550000099
式中
Figure BDA00028444975500000910
Figure BDA00028444975500000911
分别表示第t个和第t-1个类增量学习会话中的频域分量
Figure BDA00028444975500000912
Figure BDA00028444975500000913
是正则项中逼近旧特征空间第q个频域分量的权重,通过降低低频分量的权重至所述小权重训练快更新网络模型(特征空间内部粒度的快学习);
通过一个前述的大学习率(特征空间之间粒度的快学习)训练得到嵌入网络后,用最近类均值分类器进行分类。
在本实施例中,大学习率是10-5,小学习率是10-6;大权重设置为1,小权重设置为0。
S4:完成一个类增量学习会话后,通过慢更新网络模型得到慢更新特征空间,通过快更新网络模型得到快更新特征空间,对两个特征空间进行组合,得到一个组合特征空间,利用组特征合空间进行分类。
在本实施例中,本步骤具体包含以下子步骤:
S41、每完成一个类增量学习会话后,从慢更新网络模型中得到慢更新特征空间,从快更新网络模型中得到快更新特征空间,对两个空间进行组合,得到一个组合特征空间,该组合特征空间表示如下:
对样本xj,其经过组合特征空间后得到的组合特征为
Figure BDA0002844497550000101
Figure BDA0002844497550000102
式中:Ψ(.,.)表示特征的空间组合函数,
Figure BDA0002844497550000103
表示样本xj在慢更新特征空间的特征,
Figure BDA0002844497550000104
表示样本xj在当前会话中更新后得到的快更新特征空间的特征;
S42、利用组合特征空间,通过一个最近类均值分类器进行分类,分类方法如下:
Figure BDA0002844497550000105
Figure BDA0002844497550000106
其中:A表示度量矩阵,
Figure BDA0002844497550000107
表示基于慢更新特征空间得到的类别c中所有样本的特征均值,
Figure BDA0002844497550000108
表示基于快更新特征空间得到的类别c中所有样本的特征均值。
在本实施例中,空间组合函数Ψ(.,.)采用特征连接操作。
在本实施例中,度量矩阵A定义如下:
Figure BDA0002844497550000109
式中:I是一个单位矩阵,维度为A维度的一半;a为一个取值0或1的标量,a=0表示只使用慢更新特征空间,a=1表示着只使用快更新特征空间。
因此,在本发明的方法中,在每个类增量学习会话后对之前所出现数据的分类是基于组合特征空间的。利用由慢更新知识空间和快更新知识空间构成的组合特征空间,能很好地平衡旧知识保留和新知识适应,在自适应地编码新任务知识的同时有效地保持旧任务的特征表达。
S5:当存在新任务的训练数据集时,即可重复S3和S4,利用新任务的训练数据集重新对网络模型进行学习。
下面将上述方法应用于具体实施例中,以便本领域技术人员能够更好地理解本发明的效果。
实施例
下面基于上述方法进行仿真实验,本实施例的实现方法如前所述,不再详细阐述具体的步骤,下面仅针对实验结果展示其效果。
本实施例使用用于图像分类任务在CUB200-2011、CIFAR100、MiniImageNet数据集上的原始复杂ResNet-18网络,开展基于小样本类增量学习任务。在CUB200-2011数据集上,共11个类增量学习会话,第一个类增量学习会话到达的基任务包含100类数据,每类样本的数量充足,后面每次类增量学习会话中到达的数据集包含10类数据,每类样本的数量量为5。在CIFAR100和MiniImageNet数据集上,共9个类增量学习会话,第一个类增量学习会话到达的基任务包含60类数据,每类样本的数量充足,后面每次类增量学习会话中到达的数据集包含5类数据,每类样本的数量量为5。本实施例的实施效果如表1、图3和图4所示。
表1本发明方法在CUB200-2011数据集上的实施效果
Figure BDA0002844497550000111
如表1所示,在CUB200-2011数据集上,本发明在11个类增量学习会话后,模型的Top-1平均准确率达到了54.33%,与最近最先进的方法(iCaRL、EEIL、NCM、TOPIC、SDC、POD)的结果相比。在CIFAR100和MiniImageNet数据集上,本发明在每个类增量学习会话后的效果都超越了最近最先进的方法,从原理上来说,本发明基于组合特征空间进行分类,不但能够很好的减少对过去旧任务知识的遗忘,同时较好地学习新任务的知识。与其他先进方法的结果对比,可以观察到本文提出的方法在9个类增量学习会话后模型平均准确率是最高的。
综上,本发明实施例区别于现有技术,在每次类增量学习会话中基于组合特征空间进行分类。相比现有技术,能减少对过去旧任务知识的遗忘并防止对新任务知识的过拟合,模型在所有任务上的平均准确率更高。
应理解,本实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims (10)

1.一种基于特征空间组合的小样本类增量学习方法,其特征在于,包括以下步骤:
S1、连续获取多个任务的数据流,在每个类增量学习会话中只能获得一个任务的训练数据集;
S2、在第一个类增量学习会话中,以基任务作为第一个任务的训练数据集,学习得到基任务网络模型,慢更新网络模型和快更新网络模型都以基任务网络模型作为初始化模型;
S3、在下一个类增量学习会话中,基于新任务的训练数据集,以慢的多粒度学习方法更新前一个类增量学习会话中训练得到的慢更新网络模型,同时以快的多粒度学习方法更新前一个类增量学习会话中训练得到的快更新网络模型;
所述慢的多粒度学习方法指在特征空间之间粒度使用小学习率更新特征空间和在特征空间内部粒度对低频分量做知识迁移时使用大权重;
所述快的多粒度学习方法指在特征空间之间粒度使用大学习率更新特征空间和在特征空间内部粒度对低频分量做知识迁移时使用小权重;
且所述大学习率为所述小学习率的5倍以上,所述大权重为所述小权重的5倍以上;
S4:完成一个类增量学习会话后,通过慢更新网络模型得到慢更新特征空间,通过快更新网络模型得到快更新特征空间,对两个特征空间进行组合,得到一个组合特征空间,利用组合特征空间进行分类;
S5:当存在新任务的训练数据集时,重复S3和S4,利用新数据对网络模型进行学习。
2.根据权利要求1所述的用于小样本类增量学习的多粒度快慢学习方法,其特征在于,所述S1中,所述的类增量学习会话定义如下:
从当前任务的数据到达后至下一个任务的数据到达的时间间隔是一个类增量学习会话;
所述多个任务的数据流定义如下:
数据流D由N个训练数据集构成,D={D(1),D(2),...,D(N)},其中第t个任务的训练数据集为D(t),D(t)仅在第t个类增量学习会话中被获取到并用于模型的训练学习,在小样本类增量学习中D(1)为基任务数据;C(t)是第t个任务数据的类别集合,不同任务间包含的数据类别没有重叠。
3.根据权利要求1所述的一种基于用于小样本类增量学习的多粒度快慢学习方法,其特征在于,所述小样本类增量学习方法的目标定义为:在每个类增量学习会话中,更新模型,以平衡旧知识保留和新知识适应,在所有已经出现过的类别数据中实现样本分类。
4.根据权利要求1所述的一种用于小样本类增量学习的多粒度快慢学习方法,其特征在于,所述S2中,所述的基任务网络模型是由嵌入网络和最近类均值分类器组成的图像分类模型;所述嵌入网络作为特征提取器,用于将一个给定的样本映射到一个表征空间,在该表征空间中样本间的距离表示样本间的语义差异;训练得到嵌入网络后,用所述最近类均值分类器对样本进行分类;
所述的基任务网络模型中,仅有嵌入网络是可学习的,所述嵌入网络在学习过程中,以最小化度量学习损失为目的。
5.根据权利要求4所述的一种用于小样本类增量学习的多粒度快慢学习方法,其特征在于,所述的度量学习损失采用三元组损失
Figure FDA0002844497540000021
Figure FDA0002844497540000022
其中d+表示代表样本xa和正样本xp的特征之间的欧式距离,d_表示代表样本xa和负样本xn的特征之间的欧式距离,r表示阈值。
6.根据权利要求5所述的一种用于小样本类增量学习的多粒度快慢学习方法,其特征在于,所述S3中,以慢的多粒度学习方法更新前一个类增量学习会话中训练得到的慢更新网络模型时,以最小化损失函数
Figure FDA0002844497540000023
为目的对嵌入网络进行参数优化,其中:
Figure FDA0002844497540000024
式中
Figure FDA0002844497540000025
是用于保持旧知识的正则项,λ是用于平衡
Figure FDA0002844497540000026
Figure FDA0002844497540000027
的系数;
Figure FDA0002844497540000028
为样本xj的特征,通过离散余弦变换对特征分解得到不同频域分量:
Figure FDA0002844497540000029
式中Q是频域分量的数量,频域分量
Figure FDA00028444975400000210
是在频域上的第q个分量,q=1,2,...,Q;在特征空间内粒度的慢学习方法
Figure FDA00028444975400000211
为:
Figure FDA00028444975400000212
式中
Figure FDA0002844497540000031
Figure FDA0002844497540000032
分别表示第t个和第t-1个类增量学习会话中的频域分量
Figure FDA0002844497540000033
Figure FDA0002844497540000034
是正则项中逼近旧特征空间第q个频域分量的权重,通过增大低频频域分量的权重至所述大权重训练慢更新网络模型;
通过所述小学习率训练得到嵌入网络后,用最近类均值分类器进行分类:
Figure FDA0002844497540000035
式中:
Figure FDA0002844497540000036
为第j个样本xj的预测分类标签;UiC(i)表示所有任务数据的类别集合;dist(.,.)表示距离度量;
Figure FDA0002844497540000037
是类别c的样本特征均值,定义如下:
Figure FDA0002844497540000038
式中:nc是类别c的样本数量,[yj=c]表示判断yj=c是否成立,若成立则[yj=c]的值为1,否则[yj=c]的值为0。
所述S3中,以快的多粒度学习方法更新前一个类增量学习会话中训练得到的快更新网络模型时,以最小化损失函数
Figure FDA0002844497540000039
为目的对嵌入网络进行参数优化,其中:
Figure FDA00028444975400000310
式中
Figure FDA00028444975400000311
是用于保持旧知识的正则项;
Figure FDA00028444975400000312
为样本xj的特征,通过离散余弦变换对特征分解得到不同频域分量:
Figure FDA00028444975400000313
式中Q是频域分量的数量,频域分量
Figure FDA00028444975400000314
是在频域上的第q个分量,q=1,2,...,Q;在特征空间内粒度的快学习方法
Figure FDA00028444975400000315
为:
Figure FDA00028444975400000316
式中
Figure FDA00028444975400000317
Figure FDA00028444975400000318
分别表示第t个和第t-1个类增量学习会话中的频域分量
Figure FDA00028444975400000319
Figure FDA00028444975400000320
是正则项中逼近旧特征空间第q个频域分量的权重,通过降低低频分量的权重至所述小权重训练快更新网络模型;
通过所述大学习率训练得到嵌入网络后,用最近类均值分类器进行分类。
7.根据权利要求6所述的一种用于小样本类增量学习的多粒度快慢学习方法,其特征在于,所述距离度量采用欧式距离。
8.根据权利要求6所述的一种用于小样本类增量学习的多粒度快慢学习方法,其特征在于,所述S4具体包含以下子步骤:
S41、每完成一个类增量学习会话后,从慢更新网络模型中得到慢更新特征空间,从快更新网络模型中得到快更新特征空间,对两个特征空间进行组合,得到一个组合特征空间;所述的组合特征空间表示如下:
对样本xj,其经过组合特征空间后得到的组合特征为
Figure FDA0002844497540000041
Figure FDA0002844497540000042
式中:Ψ(.,.)表示特征的空间组合函数,
Figure FDA0002844497540000043
表示样本xj在当前会话中更新后得到的慢更新特征空间的特征,
Figure FDA0002844497540000044
表示样本xj在当前会话中更新后得到的快更新特征空间的特征;
S42、利用组合特征空间,通过一个最近类均值分类器进行分类,分类方法如下:
Figure FDA0002844497540000045
Figure FDA0002844497540000046
其中:
Figure FDA0002844497540000047
表示第j个样本xj的预测分类标签,A表示度量矩阵,
Figure FDA0002844497540000048
表示基于慢更新特征空间得到的类别c中所有样本的特征均值,
Figure FDA0002844497540000049
表示基于快更新特征空间得到的类别c中所有样本的特征均值。
9.根据权利要求8所述的一种用于小样本类增量学习的多粒度快慢学习方法,其特征在于,所述空间组合函数Ψ(.,.)采用特征连接操作。
10.根据权利要求9所述的一种用于小样本类增量学习的多粒度快慢学习方法,其特征在于,所述度量矩阵A定义如下:
Figure FDA00028444975400000410
式中:I是一个单位矩阵,维度为A维度的一半;a为一个取值0或1的标量,a=0表示只使用慢更新特征空间,a=1表示着只使用快更新特征空间。
CN202011504238.XA 2020-12-18 2020-12-18 一种用于小样本类增量学习的多粒度快慢学习方法 Active CN112633495B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011504238.XA CN112633495B (zh) 2020-12-18 2020-12-18 一种用于小样本类增量学习的多粒度快慢学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011504238.XA CN112633495B (zh) 2020-12-18 2020-12-18 一种用于小样本类增量学习的多粒度快慢学习方法

Publications (2)

Publication Number Publication Date
CN112633495A true CN112633495A (zh) 2021-04-09
CN112633495B CN112633495B (zh) 2023-07-18

Family

ID=75317034

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011504238.XA Active CN112633495B (zh) 2020-12-18 2020-12-18 一种用于小样本类增量学习的多粒度快慢学习方法

Country Status (1)

Country Link
CN (1) CN112633495B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113240035A (zh) * 2021-05-27 2021-08-10 杭州海康威视数字技术股份有限公司 一种数据处理方法、装置及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100202681A1 (en) * 2007-06-01 2010-08-12 Haizhou Ai Detecting device of special shot object and learning device and method thereof
CN110162018A (zh) * 2019-05-31 2019-08-23 天津开发区精诺瀚海数据科技有限公司 基于知识蒸馏与隐含层共享的增量式设备故障诊断方法
US20190287142A1 (en) * 2018-02-12 2019-09-19 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus for evaluating review, device and storage medium
CN110569870A (zh) * 2019-07-25 2019-12-13 中国人民解放军陆军工程大学 基于多粒度标签融合的深度声学场景分类方法及系统
CN111723693A (zh) * 2020-06-03 2020-09-29 云南大学 一种基于小样本学习的人群计数方法
CN111814920A (zh) * 2020-09-04 2020-10-23 中国科学院自动化研究所 基于图网络的多粒度特征学习的精细分类方法及系统
CN111931807A (zh) * 2020-06-24 2020-11-13 浙江大学 一种基于特征空间组合的小样本类增量学习方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100202681A1 (en) * 2007-06-01 2010-08-12 Haizhou Ai Detecting device of special shot object and learning device and method thereof
US20190287142A1 (en) * 2018-02-12 2019-09-19 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus for evaluating review, device and storage medium
CN110162018A (zh) * 2019-05-31 2019-08-23 天津开发区精诺瀚海数据科技有限公司 基于知识蒸馏与隐含层共享的增量式设备故障诊断方法
CN110569870A (zh) * 2019-07-25 2019-12-13 中国人民解放军陆军工程大学 基于多粒度标签融合的深度声学场景分类方法及系统
CN111723693A (zh) * 2020-06-03 2020-09-29 云南大学 一种基于小样本学习的人群计数方法
CN111931807A (zh) * 2020-06-24 2020-11-13 浙江大学 一种基于特征空间组合的小样本类增量学习方法
CN111814920A (zh) * 2020-09-04 2020-10-23 中国科学院自动化研究所 基于图网络的多粒度特征学习的精细分类方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
韩敏: "改进贝叶斯ARTMAP的迁移学习遥感影像分类算法", 《电子学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113240035A (zh) * 2021-05-27 2021-08-10 杭州海康威视数字技术股份有限公司 一种数据处理方法、装置及设备

Also Published As

Publication number Publication date
CN112633495B (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
CN111931807B (zh) 一种基于特征空间组合的小样本类增量学习方法
CN112116030B (zh) 一种基于向量标准化和知识蒸馏的图像分类方法
CN112560432B (zh) 基于图注意力网络的文本情感分析方法
CN110555881A (zh) 一种基于卷积神经网络的视觉slam测试方法
CN114387486A (zh) 基于持续学习的图像分类方法以及装置
CN113963165B (zh) 一种基于自监督学习的小样本图像分类方法及系统
CN113255822B (zh) 一种用于图像检索的双重知识蒸馏方法
CN110930996B (zh) 模型训练方法、语音识别方法、装置、存储介质及设备
CN112116593A (zh) 一种基于基尼指数的领域自适应语义分割方法
CN116503676B (zh) 一种基于知识蒸馏小样本增量学习的图片分类方法及系统
CN112258557B (zh) 一种基于空间注意力特征聚合的视觉跟踪方法
CN108596204B (zh) 一种基于改进型scdae的半监督调制方式分类模型的方法
CN113313265A (zh) 基于带噪声专家示范的强化学习方法
CN114819143A (zh) 一种适用于通信网现场维护的模型压缩方法
CN113095229A (zh) 一种无监督域自适应行人重识别系统及方法
CN112131403A (zh) 一种动态环境下的知识图谱表示学习方法
CN115578568A (zh) 一种小规模可靠数据集驱动的噪声修正算法
CN114118207B (zh) 基于网络扩张与记忆召回机制的增量学习的图像识别方法
CN115131605A (zh) 一种基于自适应子图的结构感知图对比学习方法
CN112633495A (zh) 一种用于小样本类增量学习的多粒度快慢学习方法
CN117193008B (zh) 面向高维扰动环境的小样本鲁棒模仿学习训练方法、电子设备及存储介质
CN116416212B (zh) 路面破损检测神经网络训练方法及路面破损检测神经网络
CN112801162A (zh) 基于图像属性先验的自适应软标签正则化方法
CN113033653B (zh) 一种边-云协同的深度神经网络模型训练方法
CN114067155B (zh) 基于元学习的图像分类方法、装置、产品及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant