CN114118207B - 基于网络扩张与记忆召回机制的增量学习的图像识别方法 - Google Patents

基于网络扩张与记忆召回机制的增量学习的图像识别方法 Download PDF

Info

Publication number
CN114118207B
CN114118207B CN202111221230.7A CN202111221230A CN114118207B CN 114118207 B CN114118207 B CN 114118207B CN 202111221230 A CN202111221230 A CN 202111221230A CN 114118207 B CN114118207 B CN 114118207B
Authority
CN
China
Prior art keywords
neural network
convolutional neural
training
class
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111221230.7A
Other languages
English (en)
Other versions
CN114118207A (zh
Inventor
季向阳
叶齐祥
张云霄
杨博宇
刘冰昊
焦建彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
University of Chinese Academy of Sciences
Original Assignee
Tsinghua University
University of Chinese Academy of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, University of Chinese Academy of Sciences filed Critical Tsinghua University
Priority to CN202111221230.7A priority Critical patent/CN114118207B/zh
Publication of CN114118207A publication Critical patent/CN114118207A/zh
Application granted granted Critical
Publication of CN114118207B publication Critical patent/CN114118207B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于网络扩张与记忆召回机制的增量学习的图像识别方法。其采用网络扩张模块提高卷积神经网络的特征表达能力,再通过召回机制实现旧类与新类分布之间的抗混叠系统地缓解对旧类的灾难性遗忘和对新类的过度适应,能够实现最小化模型过度拟合和类混淆,以实现以少量样本完成可驱动的持续训练,从而得到增量分类神经网络,实现图片的分类。

Description

基于网络扩张与记忆召回机制的增量学习的图像识别方法
技术领域
本发明涉及图像识别技术领域,具体涉及通过对网络扩张与记忆召回实现只需少量样本驱动的可持续学习的图像识别方法。
背景技术
近年来,随着大数据的发展和深度学习的推进,人工智能逐渐进入大众视野,逐步渗透进人们的生活。计算机视觉不仅是人工智能落地的最好领域之一,也是人类获取信息的最重要途径之一。
计算机视觉通过计算机对一些视觉目标如图像、视频进行识别和分析,从而可以辅助或代替人类视觉系统进行工作,以减轻人类获取和处理这些视觉信息的工作量。因此计算机视觉的应用也是无处不在。从市政安防、自动驾驶、影视娱乐、时尚设计,到日常生活中触手可及的人机交互、刷脸认证、扫码支付、相册管理,再到目前新兴的电商平台领域应用,等等计算机视觉技术正持续快速地落地与渗透。
近年来随着高性能并行计算技术的逐渐成熟以及大数据的积累,基于深度学习方法的计算机视觉技术开始涌现且迅速取代传统方法,有很多成熟的算法已经部署到实际场景中。目前较为成熟的方法,大部分都是用数据驱动类型的技术,也就是需要借助于大规模的标注数据。但是这种技术,在落地的过程中往往面临两个问题。
第一个问题是在大部分实际应用场景中,数据标注往往比较匮乏。而基于深度学习的计算机视觉技术很大程度上依赖于样本数据的分布和数量,若要实现良好效果,就需要有足够数量的已标注样本的支持。反之,在数据匮乏的情况下,简单地应用基于深度学习的计算机视觉算法往往不能取得很好的效果。解决数据标注匮乏这一问题又是一件十分耗费财力物力的工作,甚至有些数据本来就非常难以获得大量的数据(例如濒临灭绝的野生动物,出现概率非常低的自然现象等等)。
另一个问题则是这些算法大部分都是批量学习(Batch Learning)模式,即假设在训练之前所有训练样本一次都可以得到,学习这些样本之后,学习过程就终止了,不再学习新的知识。然而在实际应用中,训练样本通常不可能一次全部得到,而是随着时间逐步得到的,并且样本反映的信息也可能随着时间产生了变化。如果新样本到达后要重新学习全部数据,需要消耗大量时间和空间。
因此,需要开发一种能够用少量样本即可驱动的持续学习方法,实现终身学习的新兴机器学习机制。
发明内容
为了克服上述问题,本发明人提出了一种基于网络扩张与记忆召回机制的增量学习的图像识别方法,ARRANGE方法,利用少量样本即可驱动的持续学习。利用可学习的分布保持和分布召回的方法,系统地缓解对旧类的灾难性遗忘和对新类的过度适应。ARRANGE方法能够自适应地扩展网络节点以重新排列特征空间,从而在添加新的类分布时保留旧的类分布。还可以通过选择性地调用旧的类分布来正则化新的类分布,从而最小化模型过度拟合和类混淆。大量实验表明,ARRANGE显著改进了基线方法,在CUB、CIFAR-100和miniImage数据集上实现了新的技术水平,从而完成了本发明。
本发明第一方面提供了一种基于网络扩张与记忆召回机制的增量学习的图像识别方法。所述方法包括以下步骤:
步骤一、获取待分类图片,形成待分类图片集;
步骤二、将待分类图片输入至增量分类神经网络;
所述增量分类神经网络采用网络扩张模块提高卷积神经网络的特征表达能力,再通过召回机制实现旧类与新类分布之间的抗混叠,以实现以少量样本完成可驱动的持续训练;
步骤三、利用增量分类神经网络对待分类图片提取特征、进行分类,并输出分类结果。
步骤二中,采用ARRANGE方法获得增量分类神经网络,具体包括以下步骤:
步骤1、利用训练集的基础类别对基础卷积神经网络进行分类训练,得到分类卷积神经网络;
步骤2、利用网络扩张模块提高分类卷积神经网络的特征表达能力,得到加强卷积神经网络;
步骤3、在步骤2得到的加强卷积神经网络上实行召回机制,得到能够实现在旧类样本与新类样本分布之间抗混叠的卷积神经网络;
步骤4、利用步骤3中得到的卷积神经网络对训练图像提取特征;
步骤5、收敛卷积神经网络。
本发明第二方面还提供了一种计算机可读存储介质,存储有基于网络扩张与记忆召回机制的增量学习的图像识别的分类实施程序,所述程序被处理器执行时,使得处理器执行所述基于网络扩张与记忆召回机制的增量学习的图像识别方法的步骤。
本发明第三方面还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有基于网络扩张与记忆召回机制的增量学习图像识别的分类程序,所述程序被处理器执行时,使得处理器执行所述基于网络扩张与记忆召回机制的增量学习图像识别方法的步骤。
本发明所具有的有益效果包括:
(1)本发明中结合了终身学习与小样本学习优点提供的基于网络扩张与记忆召回机制的增量学习图像识别方法是一种面向终身学习的新兴机器学习机制。在给定具有足够训练数据的旧类(基类)和较少监督的新类,从旧类中训练出一个网络模型,并不断地使其适应新类,从而实现良好的可持续学习的分类效果。从而避免过度依赖于已标注样本数据的支持,同时也可以避免新样本到达后重新学习全部数据,使用更加灵活和快捷。
(2)本发明提出基于网络扩张与记忆召回机制的增量学习图像识别方法是一种可学习的网络扩展神经网络,能够自适应地扩展网络节点,重新排列特征空间,在添加新的类分布时保留原有的类分布。
(3)本发明提出基于网络扩张与记忆召回机制的增量学习图像识别方法能够进行自激励召回机制,通过有选择地调用旧的类分布来正则化新的类分布,从而最小化模型过度拟合,实现旧类样本与新类样本分布之间的抗混叠。
附图说明
图1示出根据本发明ARRANGE方法的增量学习图像识别示意图;
图2示出根据本发明一种发明ARRANGE方法的可学习召回机制的示意图;
图3示出简单的基础神经网络和本发明ARRANGE方法的特征分布的t-SNE非线性降维可视化示意图;
图4示出根据本发明实施例1中TOPIC、SKW、FSLL、CEC和本发明ARRANGE方法在CUB200数据集训练任务正确率的变化趋势图;
图5示出根据本发明实施例1中TOPIC、CEC和本发明ARRANGE方法在CIFAR100数据集训练任务正确率的变化趋势图;
图6示出根据本发明的混淆矩阵性能图,明显看到本发明ARRANGE方法使得分类正确率大幅度提升。
具体实施方式
下面通过附图和实施方式对本发明进一步详细说明。通过这些说明,本发明的特点和优点将变得更为清楚明确。其中,尽管在附图中示出了实施方式的各种方面,但是除非特别指出,不必按比例绘制附图。
本发明中,结合了终身学习与小样本学习优点的小样本增量学习是可以有效地实现终身学习的新兴机器学习方法。在给定具有足够训练数据的基类和很少监督的新类,卷积神经网络从旧类中训练出一个表示网络,并不断地使其适应新类,从而实现良好的可持续学习的分类效果。
本发明第一方面提供了一种基于网络扩张与记忆召回机制的增量学习的图像识别方法。所述方法包括以下步骤:
步骤一、获取待分类图片,形成待分类图片集;
步骤二、将待分类图片输入至增量分类神经网络;
所述增量分类神经网络采用网络扩张模块提高卷积神经网络的特征表达能力,再通过召回机制实现旧类与新类分布之间的抗混叠,以实现以少量样本完成可驱动的持续训练。
步骤三、利用增量分类神经网络对待分类图片提取特征、进行分类,并输出分类结果。
步骤二中,采用ARRANGE方法获得增量分类神经网络,具体包括以下步骤(如图1所示):
步骤1、利用训练集的基础类别对基础卷积神经网络进行分类训练,得到分类卷积神经网络。
将数据集划分为基础类别(标记为C(0))与增量类别(标记为C(t))。
所述训练集选自数据集CUB200、CIFAR100或miniImageNet,优选为CUB或CIFAR100。
所述基础卷积神经网络选自ResNet18、ResNet50或ResNet152,优选选自ResNet50或ResNet18,更优选为ResNet18。
所述ResNet18、ResNet50和ResNet152具体如文献“HE K,ZHANG X,REN S,etal.Deep residual learning for image recognition[C]//2016IEEE Conference onComputer Vision and Pattern Recognition(CVPR).2016:770-778.”中所述。
在本发明的一种优选实施方式中,利用训练集中的基础类别对基础卷积神经网络进行分类训练后,再使用增量类别C(t)中的数据D(t)对网络进行微调。
所述利用基础类别进行的训练中,将D(0)中的每个图像I送到基础卷积神经网络中,以提取特征向量X,并将其投影到特征空间,其中,X=f(I;θ0),f(·)表示由θo参数化的卷积神经网络。
进一步地,本发明中,以
Figure BDA0003312704660000061
参数化的卷积神经网络g(·)作为分类器,所述分类卷积神经网络的预测结果为:
Figure BDA0003312704660000062
Figure BDA0003312704660000063
本发明中,在基础卷积神经网络进行分类训练期间(定义为第0个训练任务,即t=0),给定图像真实值y,将优化以下分类损失函数:
Figure BDA0003312704660000071
其中,θ为网络参数为
Figure BDA0003312704660000072
θb为基础卷积神经网络的参数,θ0为新扩张的网络层的参数,θc为分类器g(·)的参数,上述参数在基础神经网络训练后得到;
Figure BDA0003312704660000073
为交叉熵损失函数。
步骤2、利用网络扩张模块提高分类卷积神经网络的特征表达能力,得到加强卷积神经网络。
在步骤2中,利用自激活机制的网络扩张模块提高卷积神经网络的特征表达能力,其表达的特征空间也相应地扩大。所述网络扩张模块为以全连接层与非线性函数相结合实现网络扩张一层非线性层。所述非线性函数为Sigmoid函数。
由于一些新类可以很好地用旧类的特征表示,在所述方法中并不能无限度的扩张,而是需要进行一定程度上的压缩,利用自激活机制来判断扩展后的节点是否需要,即通过α(t)参数来控制扩张的非线性层中每个节点的有效性。
所述α(t)参数为:
Figure BDA0003312704660000074
其中,β=1+e,e为训练次数,f(·)为基础卷积神经网络,I为训练样本,θ'为网络扩张的非线性层的参数,t为第t轮训练阶段(session)的序数。
所述α(t)的取值区间为[0,1]。
所述α(t)为一个向量,设计一个针对α(t)参数的损失函数
Figure BDA0003312704660000081
使网络自动学习节点扩张和激活,损失函数如下所示:
Figure BDA0003312704660000082
其中,σ(·)是为线性整流函数(ReLU函数),c为α(t)的特征维度;τt超参数,如为0.1。
步骤3、在步骤2得到的加强卷积神经网络上实行召回机制,得到能够实现在旧类样本与新类样本分布之间抗混叠的卷积神经网络。
优选地,每类样本服从高斯分布。对于基础类别的分布,先对类别中所有样本进行统计然后估计该类的分布;而新类别的分布,则利用估计式(1)进行估计,式(1)如下所示:
Figure BDA0003312704660000083
其中,Σ=[...,Σi,...]T是一个矩阵,其元素是新类和旧类的协方差;
Figure BDA0003312704660000084
为第t个新类的样本在卷积神经网络的全部类别预测值中第i个类的预测值,用于估计新类与旧类之间的相似性。
在训练阶段早期,新类样本无法实现准确预测,因此新类样本的协方差是在旧类分布的帮助下进行估计的。当训练继续进行时,对新类样本的预测逐渐变得准确,即指向具体类别的预测值在总预测值中的比值越来越重,使预测变得显著,此时,旧类的影响逐渐减小。
通过新类别(C(t))自身与部分旧类别的分布估计出新类别的分布,然后再利用召回机制,在训练过程中,不断从旧类别的分布中采样出需要复习的样本,送入模型中进行训练。
在本发明的一种优选实施方式中,利用自适应的采样机制,优化各类样本的召回次数,确定需要复习的样本,以及何时停止召回。
利用式(2)从存储的旧类分布N(μj,∑j)中提出样本特征向量Xj’,式(2)如下所示:
Figure BDA0003312704660000091
其中,Sample(·)为采样函数,μj为旧类j分布的均值,Σj为旧类j分布的方差;为了使采样自适应于旧类分布,采样数
Figure BDA0003312704660000092
由新类(即C(t))的平均特征向量的预测
Figure BDA0003312704660000093
的值确定,具体如下所示:
Figure BDA0003312704660000094
其中,topk(·)是从向量中选择前k个最大元素的函数,
Figure BDA0003312704660000095
表示新类的平均特征向量的预测
Figure BDA0003312704660000096
中的第j个元素对第j个旧类的置信度。从而确定新类在召回的时候,应当召回的频率与样本个数。
分布召回机制的目标损失函数为:
Figure BDA0003312704660000097
其中,
Figure BDA0003312704660000098
为第t个新类在卷积神经网络中的预测值,
Figure BDA0003312704660000099
为第t-1个新类在卷积神经网络中的预测值,y′为新类的真实值,θ为卷积神经网络的参数,θ′为网络扩张的新非线性层的参数,
Figure BDA00033127046600000910
为交叉熵损失函数,
Figure BDA00033127046600000911
为蒸馏函数,λ1为超参数。
步骤4、利用步骤3中得到的卷积神经网络对训练图像提取特征。
本发明中,利用步骤3中得到的卷积神经网络对训练图像(新类)提取特征,然后根据目标损失函数,计算出梯度;
Figure BDA0003312704660000101
其中,
Figure BDA0003312704660000102
为第t个新类的在卷积神经网络中的预测值,y为第t个新类的真实值,θ为基础卷积神经网络的参数,θ′为通过网络扩张生成的新非线性层的参数,
Figure BDA0003312704660000103
为分类目标损失函数,
Figure BDA0003312704660000104
为网络扩张模块的目标损失函数,
Figure BDA0003312704660000105
为分布召回机制的目标损失函数,λ2、λ3均为超参数。
通过知识蒸馏,所述ARRANGE方法的分类目标函数为
Figure BDA0003312704660000106
其中,
Figure BDA0003312704660000107
为交叉熵损失函数,
Figure BDA0003312704660000108
为知识蒸馏损失函数,λ1为超参数,
Figure BDA0003312704660000109
为第t-1个新类的在卷积神经网络中的预测值。
所述知识蒸馏具体如文献“Hinton G,Vinyals O,Dean J.Distilling theKnowledge in a Neural Network[J].Computer Science,2015,14(7):38-39.”中所述。
然后,节点扩展和激活定义的目标损失函数为
Figure BDA00033127046600001010
其中,σ(·)是为线性整流函数(ReLU函数),c为α(t)的特征维度;τt为实验确定的阈值,如为0.1。
步骤5、收敛卷积神经网络,得到可应用的增量分类神经网络。
将提取到的特征,送入交叉熵损失函数中进行计算,然后再根据损失函数中的梯度,对整个网络进行梯度反向传播,并更新网络参数,直至网络收敛。
本发明中,通过所述基于网络扩张与记忆召回机制的增量学习的图像识别方法对图像数据集进行分类,即利用所述增量分类神经网络对像数据集进行分类。例如,对图像数据集CUB、miniImageNet或CIFAR100进行图像分类。
所述CUB数据集由加州理工学院在2010年提出的细粒度数据集,也是目前细粒度分类识别研究的基准图像数据集。。
所述miniImageNet数据集,于2016年google DeepMind团队Oriol Vinyals等人在ImageNet的基础上提取出了miniImageNet数据集。
所述CIFAR100数据集CIFAR数据集由Alex Krizhevsky,Vinod Nair和GeoffreyHinton收集整理自8000万张微型图像数据集。
本发明中,利用所述基于网络扩张与记忆召回机制的增量学习的图像识别方法对CUB200数据集中的图片分类,分类结束后,正确率能够达到62.71%;利用所述基于网络扩张与记忆召回机制的增量学习的图像识别方法对CIFAR100数据集中的图片分类,分类结束后,正确率能够达到50.00%;
本发明第二方面还提供了一种计算机可读存储介质,存储有基于存储有基于网络扩张与记忆召回机制的增量学习的图像识别的分类实施程序,所述程序被处理器执行时,使得处理器执行所述基于网络扩张与记忆召回机制的增量学习的图像识别方法的步骤。
本发明中所述的基于网络扩张与记忆召回机制的增量学习的图像识别方法可借助软件加必需的通用硬件平台的方式来实现,所述软件存储在计算机可读存储介质(包括ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机、计算机、服务器、网络设备等)执行本发明所述方法。
本发明第三方面还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有基于网络扩张与记忆召回机制的增量学习图像识别的分类程序,所述程序被处理器执行时,使得处理器执行所述基于网络扩张与记忆召回机制的增量学习的图像识别方法的步骤。
实施例
以下通过具体实例进一步描述本发明,不过这些实例仅仅是范例性的,并不对本发明的保护范围构成任何限制。
实施例1
在CUB200和CIFAR100数据集上进行训练。CUB200数据集共有11788张鸟类图像,包含200类鸟类子类,其中训练数据集有5994张图像,测试集有5794张图像,每张图像均提供了图像类标记信息,图像中鸟的边框回归信息,鸟的关键部分信息,以及鸟类的属性信息。CIFAR100数据集有100个类,每个类包含600个图像,每类各有500个训练图像和100个测试图像。
所述CUB200和CIFAR100数据集具体如文献“Chi Zhang,Nan Song,Guosheng Lin,Yun Zheng,Pan Pan,and Yinghui Xu.Few-shot incremental learning withcontinually evolved classifiers.In IEEE CVPR 2021.”中所述。
在本发明中的训练部分,数据集中的每个类包括具有充足样本的基础类别和具有K个样本的新类别(即增量类别)。使卷积神经网络先在基础类别上进行训练。而后新类别则划分成T个不同的训练阶段,每个阶段包含N个新类。
CIFAR100数据集共有100个类,选择其中60个作为训练集的基础类别(旧类),40个作为新类(即增量类别),每个新类都有5个带注释的图像(K=5)。利用40个新类中的20个新类进行训练,此20个新类分为4个训练阶段(new session)(T=4),每个训练阶段(session)有5个新类(N=5)。
采用Resnet18作为基础卷积神经网络,先用60个基础类别训练集对其进行分类训练后,再使用20个增量类别(新类)集合C(t)中的数据的5个类别的图像D(t)对网络进行微调,得到特征向量X=f(I;θ0)。I指增量类别中的图片;f(·)为基础神经网络;θ0为训练后神经网络的参数,经训练后自动得到。
CUB200数据集包含200个类,其中,100个设置为基础类别,另外100个设置为新类,利用100个新类中的50个新类进行训练,此50个新类分为5个训练阶段(new session)(T=5),每个训练阶段(session)有10个新类(N=10)。
采用Resnet18作为基础卷积神经网络,先用100个基础类别训练集对其进行分类训练后,得到分类卷积神经网络。
再使用增量类集合C(t)中的数据的10个类别的图像D(t)对网络进行微调,得到特征向量X=f(I;θ0)。
以g(·)作为分类器,其为全连接层,其参数用
Figure BDA0003312704660000131
表示,所述分类卷积神经网络的预测结果为:
Figure BDA0003312704660000132
在基础卷积神经网络进行分类训练期间,给定图像真实值y,用来优化以下分类损失函数:
Figure BDA0003312704660000133
其中,θ为网络参数为θ={θb0c},
Figure BDA0003312704660000134
θb为基础卷积神经网络的参数,θ0为新扩张的网络层的参数,θc为分类器g(·)的参数,
Figure BDA0003312704660000135
为交叉熵损失函数。
网络扩张模块:
利用自激活机制的网络扩张模块,提高卷积神经网络的特征表达能力。网络扩张模块为以全连接层与非线性函数相结合实现网络扩张一层非线性层,所述非线性函数为Sigmoid函数。
利用自激活机制来判断扩展后的节点是否需要,即通过α(t)参数来控制扩张的非线性层中每个节点的有效性。
所述α(t)参数为:
Figure BDA0003312704660000141
其中,β=1+e,e为训练次数,f(·)为基础卷积神经网络,I为训练样本(即新类中的图片),θ'为网络扩张的非线性层的参数,t为第t轮训练阶段(session)的序数。
所述α(t)的取值区间为[0,1]。
所述α(t)为一个向量,设计一个针对α(t)参数的损失函数
Figure BDA0003312704660000142
使网络自动学习节点扩张和激活,损失函数如下所示:
Figure BDA0003312704660000143
其中,σ(·)是为线性整流函数(ReLU函数),c为α(t)的特征维度,τt为0.1。
记忆召回模块:
对卷积神经网络实行召回机制训练实现旧类样本与新类样本分布之间的抗混叠。
对于基础类别的分布,先对类别中所有样本进行统计然后估计该类的分布;新类别的分布,则利用估计式(1)进行估计,式(1)如下所示:
Figure BDA0003312704660000144
其中,Σ=[...,Σi,...]T是一个矩阵,其元素是新类和旧类的协方差;
Figure BDA0003312704660000151
为第t个新类的样本在卷积神经网络的全部类别预测值中第i个类的预测值,用于估计新类与旧类之间的相似性。
新类样本的协方差在旧类分布的帮助下进行估计。当训练继续进行时,对新类样本的预测逐渐变得准确,即指向具体类别的预测值在总预测值中的比值越来越重,使预测变得显著,此时,旧类的影响逐渐减小。
通过自身与部分旧类别的分布估计出新类别的分布,然后再利用召回机制,在训练过程中,不断从旧类别的分布中采样出需要复习的样本,送入模型中进行训练。
利用自适应的采样机制,优化各类样本的召回次数,具体如下。
利用式(2)从存储的旧类分布N(μj,∑j)中提出样本特征向量Xj’,式(2)如下所示:
Figure BDA0003312704660000152
其中,Sample(·)为采样函数,μj为旧类j分布的均值,Σj为旧类j分布的方差;为了使采样自适应于旧类分布,采样数
Figure BDA0003312704660000153
由新类(即C(t))的平均特征向量的预测
Figure BDA0003312704660000154
的值确定,具体如下所示:
Figure BDA0003312704660000155
其中,topk(·)是从向量中选择前k个最大元素的函数,
Figure BDA0003312704660000156
表示新类的平均特征向量的预测
Figure BDA0003312704660000157
中的第j个元素对第j个旧类的置信度。从而确定新类在召回的时候,应当召回的频率与样本个数。
分布召回机制的目标损失函数为:
Figure BDA0003312704660000161
其中,
Figure BDA0003312704660000162
为第t个新类在卷积神经网络中的预测值,
Figure BDA0003312704660000163
为第t-1个新类在卷积神经网络中的预测值,y′为新类的真实值,θ为卷积神经网络的参数,θ′为网络扩张的新非线性层的参数,
Figure BDA0003312704660000164
为交叉熵损失函数,
Figure BDA0003312704660000165
为蒸馏函数,λ1超参数为0.1。
利用得到卷积神经网络对新类别图像提取特征,然后根据目标损失函数,计算出梯度;
Figure BDA0003312704660000166
其中,
Figure BDA0003312704660000167
为第t个新类的在卷积神经网络中的预测值;y为第t个新类的真实值;具θ为基础卷积神经网络的参数,θ`为通过网络扩张生成的新非线性层的参数,经过训练后得到;超参数λ2和λ3为0.1;
Figure BDA0003312704660000168
为分类目标损失函数;
Figure BDA0003312704660000169
为网络扩张模块的目标损失函数;
Figure BDA00033127046600001610
为分布召回机制的目标损失函数。
通过知识蒸馏,小样本(即新类)增量学习的分类目标函数为:
Figure BDA00033127046600001611
θ是卷积神经网络的参数,经过实验之后得到;λ1为0.1。
所述知识蒸馏具体如文献“Hinton G,Vinyals O,Dean J.Distilling theKnowledge in a Neural Network[J].Computer Science,2015,14(7):38-39.”中所述。
然后,节点扩展和激活定义的目标损失函数为
Figure BDA0003312704660000171
其中,σ(·)是为线性整流函数(ReLU函数),c为α(t)的特征维度,τt为0.1。
将提取到的特征,送入交叉熵损失函数中进行计算,然后再根据损失函数中的梯度,对整个网络进行梯度反向传播,并更新网络参数,直至网络收敛。
对于CUB200和CIFAR100数据集上的结果,采用分类的正确率来进行性能评测。
采用Resnet18作为基网,在CUB200、CIFAR100数据集上进行学习和评估,并与其他方法进行对比,结果如表1和表2所示。
表1 CUB200数据集的测试性能
Figure BDA0003312704660000172
表2 CIFAR100数据集的测试性能
Figure BDA0003312704660000173
所述CEC具体如文献“Chi Zhang,Nan Song,Guosheng Lin,Yun Zheng,Pan Pan,and Yinghui Xu.Few-shot incremental learning with continually evolvedclassifiers.In IEEE CVPR 2021.”中所述。
所述FSLL具体如文献“Pratik Mazumder,Pravendra Singh,and PiyushRai.Few-shot lifelong learning.In IEEE CVPR 2021”中所述。
所述SKW具体如文献“Ali Cheraghian,Shafin Rahman,Pengfei Fang,SoumavaKumar Roy,Lars Petersson,and Mehrtash Harandi.Semantic-aware knowledgedistillation for few-shot class-incremental learning.In IEEE CVPR 2021”中所述。
所述TOPIC具体如文献“Xiaoyu Tao,Xiaopeng Hong,Xinyuan Chang,SonglinDong,Xing Wei,and Yihong Gong.Few-shot class-incremental learning.In IEEECVPR,pages 12180–12189,2020”中所述。
从表1中可以看出,本发明所提出的ARRANGE方法与CUB200上最先进的方法CEC进行比较。ARRANGE相对于最先进的CEC来说,从第二个训练任务开始,ARRANGE获得最佳性能,特别是在上一次训练上,ARRANGE的表现比最先进的CEC提升很大11.37%(69.64%相较于58.27%)。结合图3显示的特征分布的t-SNE非线性降维可视化示意图中,简单的基础神经网络在不断向特征空间添加新特征时,使特征分布严重崩溃,如图3(a)所示,而本发明中提供的网络可以对样本进行很好的分类。通过图6中基网和本发明提供的网络的预测值和真实值分布可知,本发明中提供的网络分类更为贴近真实值,即分类更准确。
相比之下,本发明ARRANGE可以在很少遗忘和非过度拟合的情况下重新排列新的类特征,这证明了在处理有限样本类别时,ARRANGE的优越性。
表2中,本发明所提出的ARRANGE方法与CIFAR100上最先进的方法CEC进行比较。当学习的内容是一个偏泛化性的数据集时,CEC的灾难性遗忘问题会更加严重,但ARRANGE仍能实现59.36%的最终正确率并提高了1.27%(59.36%相较于58.09%),验证了本发明提出的分布召回机制的有效性。
经过上述训练后,得到增量分类神经网络。
实施例2
利用实施例1中得到的增量分类神经网络分别对CUB200数据集剩余的50个新类和CIFAR100数据集中剩余的20个新类进行分类。CUB200数据集剩余的50个新类分5个分类阶段,每个阶段包含10个新类;CIFAR100数据集中剩余的20个新类分4个分类阶段,每个阶段包含5个新类;分类的正确率分别见表3和表4。
表3对CUB200数据集的分类正确率
Figure BDA0003312704660000191
表4对CIFAR100数据集的分类正确率
Figure BDA0003312704660000201
ARRANGE的表现比最先进的CEC提升很大10.43%(62.71%相较于52.28%)。相比之下,本发明ARRANGE可以在很少遗忘和非过度拟合的情况下重新排列新的类特征,这证明了在处理有限样本类别时,ARRANGE的优越性。
表4中,本发明所提出的ARRANGE方法与CIFAR100上最先进的方法CEC进行比较。针对一个偏泛化性的数据集时,CEC的灾难性遗忘问题会更加严重,但ARRANGE仍能实现50.0%的最终正确率并提高了0.86%(50.0%相较于49.14%),验证了本发明提出的分布召回机制的有效性。
本发明对CUB200数据集100个新类和CIFAR100数据集中40个新类进行分类的总体变化趋势如图4和图5所示。
实验例
针对于实施例1中的可学习的网络扩张(Learnable Network Expansion)和记忆召回(Memory Recall),利用基网Resnet18在CUB200数据集上分别验证其有效性。
表5网络扩张和记忆召回模块对网络图像识别性能提升对比表
基网Resnet18 网络扩张 记忆召回 正确率
24.31
37.90
59.22
从表5的数据可知,通过可学习的网络扩张来实现分布保持,性能比基线提高了13.59%(37.90%对比24.31%),这是因为功能安排得很好,灾难性遗忘得到了缓解。
通过记忆召回,性能进一步增长21.32%(从37.90%增至59.22%)。如此大的性能提升,主要归因于过拟合和新类与旧类之间的混叠减少,消融研究清楚地证明了本发明中的方法的重要性。
以上结合具体实施方式和/或范例性实例以及附图对本发明进行了详细说明,不过这些说明并不能理解为对本发明的限制。本领域技术人员理解,在不偏离本发明精神和范围的情况下,可以对本发明技术方案及其实施方式进行多种等价替换、修饰或改进,这些均落入本发明的范围内。本发明的保护范围以所附权利要求为准。

Claims (8)

1.一种基于网络扩张与记忆召回机制的增量学习的图像识别方法,其特征在于,所述方法包括以下步骤:
步骤一、获取待分类图片,形成待分类图片集;
步骤二、将待分类图片输入至增量分类神经网络;
所述增量分类神经网络采用网络扩张模块提高卷积神经网络的特征表达能力,再通过召回机制实现旧类与新类分布之间的抗混叠,以实现以少量样本完成可驱动的持续训练;
步骤三、利用增量分类神经网络对待分类图片提取特征、进行分类,并输出分类结果;
步骤二中,采用ARRANGE方法获得增量分类神经网络,具体包括以下步骤:
步骤1、利用训练集的基础类别对基础卷积神经网络进行分类训练,得到分类卷积神经网络;
步骤2、利用网络扩张模块提高分类卷积神经网络的特征表达能力,得到加强卷积神经网络;
步骤3、在步骤2得到的加强卷积神经网络上实行召回机制,得到能够实现在旧类样本与新类样本分布之间抗混叠的卷积神经网络;
步骤3中,通过新类别自身与部分旧类别的分布估计出新类别的分布,然后再利用召回机制,在训练过程中,从旧类别的分布中采样出需要复习的样本,送入模型中进行训练;
利用式(2)从存储的旧类分布N(μj,∑j)中提出样本特征向量Xj’,式(2)如下所示:
Figure FDA0003747040120000011
其中,Sample(·)为采样函数,μj为旧类j分布的均值,Σj为旧类j分布的方差;为了使采样自适应于旧类分布,采样数
Figure FDA0003747040120000021
由新类的平均特征向量的预测
Figure FDA0003747040120000022
的值确定,具体如下所示:
Figure FDA0003747040120000023
其中,topk(·)是从向量中选择前k个最大元素的函数,
Figure FDA0003747040120000024
表示新类的平均特征向量的预测
Figure FDA0003747040120000025
中的第j个元素对第j个旧类的置信度,从而确定新类在召回的时候,应当召回的频率与样本个数;
步骤4、利用步骤3中得到的卷积神经网络对训练图像提取特征;
步骤5、收敛卷积神经网络。
2.根据权利要求1所述的方法,其特征在于,步骤1中,
将数据集划分为基础类别,标记为C(0),与增量类,标记为C(t)
利用基础类别训练集对基础卷积神经网络进行分类训练后,再使用增量类集合C(t)中的数据D(t)对网络进行微调。
3.根据权利要求2所述的方法,其特征在于,步骤1中,
所述利用基础类别进行的训练中,将D(0)中的每个图像I送到基础卷积神经网络中,以提取特征向量X,并将其投影到特征空间,其中,X=f(I;θ0),f(·)表示由θo参数化的卷积神经网络;
Figure FDA0003747040120000026
参数化的卷积神经网络g(·)作为分类器,所述分类卷积神经网络的预测结果为:
Figure FDA0003747040120000027
4.根据权利要求1所述的方法,其特征在于,步骤1中,在基础卷积神经网络进行分类训练期间,给定图像真实值y,将优化以下分类损失函数:
Figure FDA0003747040120000031
其中,θ为网络参数为
Figure FDA0003747040120000032
θb为基础卷积神经网络的参数,θ0为新扩张的网络层的参数,θc为分类器g(·)的参数,参数在基础神经网络训练后得到;
Figure FDA0003747040120000033
为交叉熵损失函数。
5.根据权利要求1所述的方法,其特征在于,步骤2中,
利用自激活机制的网络扩张模块提高卷积神经网络的特征表达能力;
优选地,步骤2中,通过α(t)参数来控制扩张的非线性层中每个节点的有效性;
所述α(t)参数为:
Figure FDA0003747040120000034
其中,β=1+e,e为训练次数,f(·)为基础卷积神经网络,I为训练样本,θ'为网络扩张的非线性层的参数,t为第t轮训练阶段的序数。
6.根据权利要求1所述的方法,其特征在于,步骤4中,通过知识蒸馏,所述ARRANGE方法的分类目标函数为:
Figure FDA0003747040120000035
其中,
Figure FDA0003747040120000036
为交叉熵损失函数,
Figure FDA0003747040120000037
λ1为超参,
Figure FDA0003747040120000038
为第t-1新类的平均特征向量的预测。
7.一种计算机可读存储介质,其特征在于,所述介质存储有基于网络扩张与记忆召回机制的增量学习的图像识别的分类实施程序,所述程序被处理器执行时,使得处理器执行所述权利要求1至6之一所述的方法。
8.一种计算机设备,其特征在于,其包括存储器和处理器,所述存储器存储有基于网络扩张与记忆召回机制的增量学习的图像识别的分类程序,所述程序被处理器执行时,使得处理器执行所述权利要求1至6之一所述的方法。
CN202111221230.7A 2021-10-20 2021-10-20 基于网络扩张与记忆召回机制的增量学习的图像识别方法 Active CN114118207B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111221230.7A CN114118207B (zh) 2021-10-20 2021-10-20 基于网络扩张与记忆召回机制的增量学习的图像识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111221230.7A CN114118207B (zh) 2021-10-20 2021-10-20 基于网络扩张与记忆召回机制的增量学习的图像识别方法

Publications (2)

Publication Number Publication Date
CN114118207A CN114118207A (zh) 2022-03-01
CN114118207B true CN114118207B (zh) 2022-10-21

Family

ID=80376348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111221230.7A Active CN114118207B (zh) 2021-10-20 2021-10-20 基于网络扩张与记忆召回机制的增量学习的图像识别方法

Country Status (1)

Country Link
CN (1) CN114118207B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115392451B (zh) * 2022-08-02 2024-04-16 西安工业大学 一种可持续学习的人工神经网络避免遗忘方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472730A (zh) * 2019-08-07 2019-11-19 交叉信息核心技术研究院(西安)有限公司 一种卷积神经网络的自蒸馏训练方法和可伸缩动态预测方法
CN111191709B (zh) * 2019-12-25 2023-10-31 清华大学 深度神经网络的持续学习框架及持续学习方法

Also Published As

Publication number Publication date
CN114118207A (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
Meng et al. Ar-net: Adaptive frame resolution for efficient action recognition
Harshvardhan et al. A comprehensive survey and analysis of generative models in machine learning
Kümmerer et al. DeepGaze II: Reading fixations from deep features trained on object recognition
US10909455B2 (en) Information processing apparatus using multi-layer neural network and method therefor
CN111382868B (zh) 神经网络结构搜索方法和神经网络结构搜索装置
US11270124B1 (en) Temporal bottleneck attention architecture for video action recognition
Kouw et al. Feature-level domain adaptation
WO2019100723A1 (zh) 训练多标签分类模型的方法和装置
EP3767536A1 (en) Latent code for unsupervised domain adaptation
Pham et al. Graph classification via deep learning with virtual nodes
US11620578B2 (en) Unsupervised anomaly detection via supervised methods
CN112861758B (zh) 一种基于弱监督学习视频分割的行为识别方法
JP2019159576A (ja) 学習プログラム、学習方法および学習装置
CN112232395B (zh) 一种基于联合训练生成对抗网络的半监督图像分类方法
Vo et al. Active learning strategies for weakly-supervised object detection
CN114118207B (zh) 基于网络扩张与记忆召回机制的增量学习的图像识别方法
CN114299304B (zh) 一种图像处理方法及相关设备
Manna et al. Bird image classification using convolutional neural network transfer learning architectures
CN111914949B (zh) 基于强化学习的零样本学习模型的训练方法及装置
CN111259938A (zh) 基于流形学习和梯度提升模型的图片偏多标签分类方法
CN112507912B (zh) 一种识别违规图片的方法及装置
Lehman et al. On the structures of representation for the robustness of semantic segmentation to input corruption
Kilic et al. Generalized ICM for image segmentation based on Tsallis statistics
Mozaffari et al. Facial expression recognition using deep neural network
CN112906728A (zh) 一种特征比对方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant