CN111199242B - 一种基于动态修正向量的图像增量学习方法 - Google Patents
一种基于动态修正向量的图像增量学习方法 Download PDFInfo
- Publication number
- CN111199242B CN111199242B CN201911308607.5A CN201911308607A CN111199242B CN 111199242 B CN111199242 B CN 111199242B CN 201911308607 A CN201911308607 A CN 201911308607A CN 111199242 B CN111199242 B CN 111199242B
- Authority
- CN
- China
- Prior art keywords
- model
- training
- loss function
- data
- dynamic correction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000012937 correction Methods 0.000 title claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 51
- 230000006870 function Effects 0.000 claims abstract description 36
- 238000013140 knowledge distillation Methods 0.000 claims abstract description 24
- 238000012360 testing method Methods 0.000 claims abstract description 10
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims abstract description 7
- 230000008569 process Effects 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000004821 distillation Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 230000035945 sensitivity Effects 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 3
- 206010027175 memory impairment Diseases 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000007786 learning performance Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003956 synaptic plasticity Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
一种基于动态修正向量的图像增量学习方法,包括以下步骤:S1构造以ResNet‑32网络层结构为模型的主干网络,采用Adam训练优化器,同时,基础分类损失函数是Kullback‑Leibler Divergence相对熵损失函数;S2损失函数引入知识蒸馏,结合分类损失函数,帮助新模型学习旧类别中的知识,缓解灾难性遗忘问题;S3训练方式采用代表性记忆方法和动态修正向量方法训练ResNet‑32模型;S4重载上一增量阶段训练的最佳模型,重复步骤S2~S3,评估在所有测试集上的性能,直到训练完所有增量数据。本发明提高了增量学习任务的识别能力,具有较高的实用价值。
Description
技术领域
本发明涉及知识蒸馏(Knowledge Distillation)技术和代表性记忆(Representative Memory)方法,利用动态修正向量(Dynamic Correction Vector)的技巧,在保持旧类别分类识别精度的前提下,同时提高对新增类别数据的分类精度,从而实现在原有数据集上的增量学习识别任务。
背景技术
近年来,深度卷积神经网络(Deep Convolutional Neural Network,DCNNs)大量用于检测、分割、物体识别以及图像的各个领域。尽管卷积神经网络应用的很成功,但是它被计算机视觉以及机器学习团队开始重视是在ImageNet竞赛。2012年,AlexNet通过实施Deep-CNN并将DCNNs推入大众视野下,该结果达到了前所未有的效果,几乎比当时最好的方法降低了一半的错误率,从而轻松赢得了ImageNet大规模视觉识别挑战(ISLVRC)。从此之后,DCNNs就主导了ISLVRC,并在MNIST、Cifar-100和ImageNet等流行的图像数据集上表现出色。
DCNNs能够在同一个模型中实现特征提取和分类识别,但是各个领域的任务大不相同,即使对模型的参数空间稍作修改都会对模型输出产生极大的影响。实际应用场景中,数据集都是随着时间逐步收集的。所以,DCNNs的学习任务通常分为多个阶段,称之为增量学习。传统的学习策略应用于增量学习会造成在新任务识别能力很高的同时,旧任务上的识别能力大幅度下降。这就是DCNN增量训练的另一个难题——灾难性遗忘问题,可参考文献1(I.J.Goodfellow,M.Mirza,D.Xiao,A.Courville,and Y.Bengio.“An empiricalinvestigation of catastrophic forgetting in gradient-based neural networks.”arXiv preprint arXiv:1312.6211,2013,即I.J.Goodfellow,M.Mirza,D.Xiao,A.Courville,and Y.Bengio.基于梯度的神经网络中灾难性遗忘的证实研究.arXivpreprint arXiv:1312.6211,2013)。由于新的数据被输入DCNNs时,模型会遗忘之前的学习任务,这要求在引入新数据的同时进行再次训练时使用先前的数据。
近年来在增量学习方面取得了较大进展,例如iCaRL,它是目前计算机视觉领域最先进的类别增量学习方法。它将深度学习与k近邻相结合,利用深度学习提取每个数据点的高级特征表示,并将KNN作为最终分类器。在分类过程中,它使用属于该类的所有训练数据(或保留的示例)计算某个类的平均数据表示,为测试数据找到最近的类别的平均表征,并相应地分配类标签。为了在类数量急剧增加时减少内存占用,该方法为每个类维护一个示例集。为了构造示例,它选择那些最接近该类的平均表示的数据点。通过新旧数据的结合,避免了灾难性遗忘,可参考文献2(Rebuffi,S.,Kolesnikov,A.,and Lampert,C.H.(2016).“iCaRL:Incremental classifier and representation learning.”CoRR,abs/1611.07725,即Rebuffi,S.,Kolesnikov,A.,and Lampert,C.H.(2016).iCaRL:增量分类器和表示学习CoRR,abs/1611.07725)。尽管该方法在一部分数据集上的性能令人印象深刻,但它在生物信息学数据集上的效果却急剧下降,说明这种方法缺乏泛化性。同时,突触可塑性理论在增量学习中也起着重要的作用。EWC就是受到该理论的启发,是一个非常实用的解决方案,可以解决训练一组序列分类模型时的灾难性遗忘问题。该方法通过考虑每个权值的Fisher信息,并在损失函数中添加一个惩罚项,在权值与旧数据上的分类器密切相关的情况下,防止权值变化过大,可参考文献3(Kirkpatrick J,Pascanu R,Rabinowitz N,etal.Overcoming catastrophic forgetting in neural networks[J].Proceedings ofthe national academy of sciences,2017,114(13):3521-3526,即Kirkpatrick J,Pascanu R,Rabinowitz N,et al.“克服神经网络中的灾难性遗忘”Proceedings of thenational academy of sciences,2017,114(13):3521-3526)。
大数据背景下,很多中小企业以及个人不能承担大型分布式计算集群的费用。增量学习作为一种减少对计算开销时间和系统内存依赖的有效手段,为普通用户进行大数据处理提供了一种新的解决方式,在经济社会的发展中起着重要的作用,需要对增量学习方法进行更深入和更广泛的研究。
发明内容
为了解决实际应用场景下深度模型对动态变化的数据集进行训练的问题,减小对分布式计算系统的依赖,并且节省大量的计算开销和系统内存,本发明提出以32层残差网络ResNet-32为基础,通过引入知识蒸馏技术和代表性记忆方法,利用动态修正向量的技巧,缓解了灾难性遗忘问题,提高了增量学习的性能。这种增量学习方法适应了实际应用场景的需求,在人工智能领域具有重要的研究和应用价值。
本发明实现上述发明目的所采用的技术方案为:
一种基于动态修正向量的图像增量学习方法,包括以下步骤:
S1:构造以ResNet-32网络层结构为模型的主干网络,用于识别增量阶段任务中出现的新旧类别,ResNet-32模型采用Adam训练优化器,同时,基础分类损失函数是Kullback-Leibler Divergence相对熵损失函数;
S2:ResNet-32引入知识蒸馏损失函数,帮助新模型学习旧类别中的知识,缓解灾难性遗忘问题;
S3:训练方式采用代表性记忆方法,即预定义的超参数K用于固定系统内存中保存的旧类别数据的数目,从而联合新到来的数据训练ResNet-32模型:内存中的每一类数据的数目都相同;每次增量训练结束后,随机删除内存中每一类的旧数据,为新到来的数据预留存储空间,动态修正向量用于训练过程中统计模型训练的数据类别,防止模型在预测阶段过多偏向于数据较多的类别;
S4:重载上一增量阶段训练的最佳模型,重复S2~S3步骤,评估在所有测试集上的性能,直到训练完所有增量数据。
进一步,所述步骤S1中,ResNet-32是一个残差结构的卷积神经网络,残差结构可以防止过拟合发生,提高模型在训练中的收敛速度,在增量学习中起着至关重要的作用。ResNet-32模型采用Adam训练优化器,提高了模型参数的优化速率,同时,基础分类损失函数是Kullback-Leibler Divergence相对熵损失函数。它有着比交叉熵损失更加低的数值,减小了超参数的选取的敏感性,定义为:
其中xi表示第i个数据,yi表示第i个数据的标签,表示标准的Kullback-Leibler Divergence相对熵损失函数,G(xi)表示新模型对于第i个数据的响应输出,/>表示本增量阶段的训练数据集。
再进一步,所述步骤S2中,ResNet-32引入知识蒸馏具体来说,在每一个增量步骤中,教师模型是前一个增量步骤中完全训练过的学生模型,而学生模型是当前步骤的更新模型。例如,假设F(xi)是教师模型在i增量步骤中预测的输入xi的概率分布,G(xi)是学生模型的softmax层的输出,随着分类类别数目的增长,存储在每个类的代表性内存中的样本会减少。为了解决这个问题,学生模型可以从教师模型中学习已有的知识,换句话说,旧数据的知识被表示为教师模型的参数,因此,从教师模型的概率标签中间接地学习已有的数据集;
概率标签由教师模型的分类层计算得到,训练数据有两个标签,分别是概率标签和真实标签,每个样本的概率标签与类的尺寸相同,为了计算F(xi)和G(xi)之间的距离,使用Kullback-Leibler Divergence作为知识提取过程中的损失函数,与常用的交叉熵损失相比,Kullback-Leibler Divergence损失较小,有利于超参数的调整,通过最小化蒸馏损失,学生模型可以从教师模型中获得足够的信息,知识蒸馏损失函数的定义如下:
上式中T是将概率标签提升到指数1/T的温度参数,参数T可以强化训练模型中已有的知识。特别是当T=1时,知识蒸馏损失函数退化为分类损失函数,当温度值大于0.9时,得分较低的等级对结果的影响更小,当T>1时,得分高的类对损失的影响较小,而得分低的类对损失的影响较大,因此,温度参数迫使网络更加关注细粒度分离,通过知识蒸馏,网络可以有选择地学习更加鲁棒的特征。
再进一步,所述步骤S3中,原有的知识蒸馏损失存在问题,对于现有的类别,教师模型中存在明显的噪声,会对学生模型产生误导。对于新的增量类别,由于教师模型使用旧类生成概率标签,因此它们可能是不正确的,并导致学生模型的性能恶化,为了解决这些问题,我们使用动态修正向量它可以修改学生模型G(xi)和教师模型F(xi)的输出,它记录了每一步中每个图像的真实标签yi和概率标签FT(xi)。当前向量/>派生于前一步中的向量。下面的公式中定义了动态校正向量/>
其中N是现有类的数量,k是新类的数量,·是点乘操作的符号,修正向量将教师模型生成的概率标签和分类损失生成的真实标签相加,因此,它在训练过程中增加的计算开销可以忽略不计,向量表示训练中概率标签和真实标签的统计信息,分类结果偏向于训练数据较多的类别,为了解决这个问题,输出乘以向量/>的倒数,因此,向量可以显著地减少偏差问题。但是,由于代表性记忆内存大小K的限制,在增量训练的后期仍然可能出现不平衡,因此,我们使用任务索引来限制/>的子向量的增长,如下面的公式所示。
其中是旧的类子向量,/>是新类子向量,I是从零开始的增量任务索引,任务索引I用于补偿过拟合问题,为了解决过拟合问题,向量/>由类向量和任务索引重新调整大小;
因此,通过结合动态修正向量技术,在下面的公式中推导出新的损失函数:
其中是存储在学生模型中的最后一个动态修正向量,因此,/>包含所有训练数据的统计信息。FT(xi)乘以/>以纠正概率标签并消除偏差;
因此,应用动态修正向量后,学生模型G′(X)在预测中的预测结果由下面的公式给出:
其中·为点乘法运算符号。该操作仅仅在测试集上运用的。
实验中数据集采用MNIST和CIFAR-100。
MNIST包含70,000张图片,其中60000张用于训练,10000张用于测试。它包括从0到9的手写数字图像。每个图像有28×28个灰度像素。在实验中,我们将增量步骤设置为2和5,即,新类分别依次添加2和5。在每一次增量训练结束时,我们都会对性能进行评估。
CIFAR-100包含60000个图像,分为100个对象类和20个超类。每班有500张训练图片和100张测试图片。100个对象类以随机顺序将任务分为5、10、20和50个任务。因此,分别有20步、10步、5步和2步增量训练。在每一次增量训练结束时,我们都会评估性能。
对比的增量学习实验方法采用LwF、iCaRL和DTM。模型分别采用VGG-16以及Resnet-32。我们将多类精度分为最后一个增量任务Alast的精度和平均增量任务Amean的精度两部分。Amean评估整个增量过程的性能。对于所有的增量阶段,它公平地反映了每种方法的平均精度。Alast强调最后一个增量阶段的准确性。
表1为各种增量学习技术在MNIST和CIFAR-100上的比较结果:
表1。
本发明的技术构思为:鉴于实际生活中数据集都是动态变化的,为了解决深度模型对动态变化的数据集进行训练的问题,减小对分布式计算系统的依赖,并且节省大量的计算开销和系统内存,本发明提出以32层残差网络ResNet-32为基础,通过引入知识蒸馏技术和代表性记忆方法,利用动态修正向量的技巧,缓解了灾难性遗忘问题,提高了增量学习的性能。这种增量学习方法适应了实际应用场景的需求,在人工智能领域具有重要的研究和应用价值。。
与现有的技术相比,本发明的有益效果是:与传统的增量学习方法相比,本发明大大节省了计算开销和对系统内存的依赖,并结合知识蒸馏和动态修正向量,成功缓解了增量学习中的灾难性遗忘问题。
附图说明
图1为构建ResNet-32的训练的流程图。
图2为采用代表性记忆的流程图。
图3为基于动态修正向量的图像增量学习方法的流程图。
具体实施方式
下面结合说明书附图对本发明做进一步说明。
参照图1~图3,一种基于动态修正向量的图像增量学习方法,解决了深度模型对动态变化的数据集进行训练的问题,减小对分布式计算系统的依赖,并且节省大量的计算开销和系统内存,本发明提出以32层残差网络ResNet-32为基础,通过引入知识蒸馏技术和代表性记忆方法,利用动态修正向量的技巧,缓解了灾难性遗忘问题,提高了增量学习的性能。
本发明包括以下步骤:
S1:构造以ResNet-32网络层结构为模型的主干网络,用于识别增量阶段任务中出现的新旧类别,ResNet-32模型采用Adam训练优化器,同时,基础分类损失函数是Kullback-Leibler Divergence相对熵损失函数;
S2:ResNet-32引入知识蒸馏损失函数,帮助新模型学习旧类别中的知识,缓解灾难性遗忘问题;
S3:训练方式采用代表性记忆方法,即预定义的超参数K用于固定系统内存中保存的旧类别数据的数目,从而联合新到来的数据训练ResNet-32模型:内存中的每一类数据的数目都相同;每次增量训练结束后,随机删除内存中每一类的旧数据,为新到来的数据预留存储空间,动态修正向量用于训练过程中统计模型训练的数据类别,防止模型在预测阶段过多偏向于数据较多的类别;
S4:重载上一增量阶段训练的最佳模型,重复S2~S3步骤,评估在所有测试集上的性能,直到训练完所有增量数据。
进一步,所述步骤S1中,ResNet-32是一个残差结构的卷积神经网络,残差结构可以防止过拟合发生,提高模型在训练中的收敛速度,在增量学习中起着至关重要的作用,ResNet-32模型采用Adam训练优化器,提高了模型参数的优化速率,同时,基础分类损失函数是Kullback-Leibler Divergence相对熵损失函数。它有着比交叉熵损失更加低的数值,减小了超参数的选取的敏感性,定义为:
其中xi表示第i个数据,yi表示第i个数据的标签,表示标准的Kullback-Leibler Divergence相对熵损失函数,G(xi)表示新模型对于第i个数据的响应输出,/>表示本增量阶段的训练数据集。
再进一步,所述步骤S2中,ResNet-32引入知识蒸馏具体来说,在每一个增量步骤中,教师模型是前一个增量步骤中完全训练过的学生模型,而学生模型是当前步骤的更新模型,例如,假设F(xi)是教师模型在i增量步骤中预测的输入xi的概率分布,G(xi)是学生模型的softmax层的输出,随着分类类别数目的增长,存储在每个类的代表性内存中的样本会减少。为了解决这个问题,学生模型可以从教师模型中学习已有的知识,换句话说,旧数据的知识被表示为教师模型的参数,因此,从教师模型的概率标签中间接地学习已有的数据集;
概率标签由教师模型的分类层计算得到,训练数据有两个标签,分别是概率标签和真实标签。每个样本的概率标签与类的尺寸相同,为了计算F(xi)和G(xi)之间的距离,我们使用Kullback-Leibler Divergence作为知识提取过程中的损失函数,与常用的交叉熵损失相比,Kullback-Leibler Divergence损失较小,有利于超参数的调整,通过最小化蒸馏损失,学生模型可以从教师模型中获得足够的信息,。知识蒸馏损失函数的定义如下:
上式中T是将概率标签提升到指数1/T的温度参数,参数T可以强化训练模型中已有的知识。特别是当T=1时,知识蒸馏损失函数退化为分类损失函数,当温度值大于0.9时,得分较低的等级对结果的影响更小。当T>1时,得分高的类对损失的影响较小,而得分低的类对损失的影响较大,因此,温度参数迫使网络更加关注细粒度分离。通过知识蒸馏,网络可以有选择地学习更加鲁棒的特征。
再进一步,所述步骤S3中,原有的知识蒸馏损失存在问题,对于现有的类别,教师模型中存在明显的噪声,会对学生模型产生误导,对于新的增量类别,由于教师模型使用旧类生成概率标签,因此它们可能是不正确的,并导致学生模型的性能恶化,为了解决这些问题,我们使用动态修正向量它可以修改学生模型G(xi)和教师模型F(xi)的输出,它记录了每一步中每个图像的真实标签yi和概率标签FT(xi)。当前向量/>派生于前一步中的向量。下面的公式中定义了动态校正向量/>
其中N是现有类的数量,k是新类的数量,·是点乘操作的符号,修正向量将教师模型生成的概率标签和分类损失生成的真实标签相加,因此,它在训练过程中增加的计算开销可以忽略不计,向量表示训练中概率标签和真实标签的统计信息,分类结果偏向于训练数据较多的类别,为了解决这个问题,输出乘以向量/>的倒数,因此,向量可以显著地减少偏差问题,但是,由于代表性记忆内存大小K的限制,在增量训练的后期仍然可能出现不平衡,因此,使用任务索引来限制/>的子向量的增长,如下面的公式所示。
其中是旧的类子向量,/>是新类子向量,I是从零开始的增量任务索引,任务索引I用于补偿过拟合问题,为了解决过拟合问题,向量/>由类向量和任务索引重新调整大小;
因此,通过结合动态修正向量技术,在下面的公式中推导出新的损失函数:
其中是存储在学生模型中的最后一个动态修正向量,因此,/>包含所有训练数据的统计信息,FT(xi)乘以/>以纠正概率标签并消除偏差;
因此,应用动态修正向量后,学生模型G′(X)在预测中的预测结果由下面的公式给出。
其中·为点乘法运算符号。该操作仅仅在测试集上运用的。
综上所述,本发明提出以32层残差网络ResNet-32为基础,通过引入知识蒸馏技术和代表性记忆方法,利用动态修正向量的技巧,缓解了灾难性遗忘问题,提高了增量学习的性能,有效地提高了实际应用价值,扩大了应用领域。对发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效,但都将落入本发明的保护范围内。
Claims (2)
1.一种基于动态修正向量的图像增量学习方法,其特征在于,所述方法包括如下步骤:
S1:构造以ResNet-32网络层结构为模型的主干网络,用于识别增量阶段任务中出现的新旧类别,ResNet-32模型采用Adam训练优化器,同时,基础分类损失函数是Kullback-Leibler Divergence相对熵损失函数;
S2:ResNet-32引入知识蒸馏损失函数,帮助新模型学习旧类别中的知识,缓解灾难性遗忘问题;
S3:训练方式采用代表性记忆方法,即预定义的超参数K用于固定系统内存中保存的旧类别数据的数目,从而联合新到来的数据训练ResNet-32模型:内存中的每一类数据的数目都相同;每次增量训练结束后,随机删除内存中每一类的旧数据,为新到来的数据预留存储空间,动态修正向量用于训练过程中统计模型训练的数据类别,防止模型在预测阶段过多偏向于数据较多的类别;
S4:重载上一增量阶段训练的最佳模型,重复S2~S3步骤,评估在所有测试集上的性能,直到训练完所有增量数据;
所述步骤S2中,ResNet-32引入知识蒸馏具体来说,在每一个增量步骤中,教师模型是前一个增量步骤中完全训练过的学生模型,而学生模型是当前步骤的更新模型,假设F(xi)是教师模型在i增量步骤中预测的输入xi的概率分布,G(xi)是学生模型的softmax层的输出;
概率标签由教师模型的分类层计算得到,训练数据有两个标签,分别是概率标签和真实标签,每个样本的概率标签与类的尺寸相同,为了计算F(xi)和G(xi)之间的距离,使用Kullback-Leibler Divergence作为知识提取过程中的损失函数,通过最小化蒸馏损失,学生模型从教师模型中获得足够的信息,知识蒸馏损失函数的定义如下:
上式中T是将概率标签提升到指数1/T的温度参数,参数T可以强化训练模型中已有的知识,当T=1时,知识蒸馏损失函数退化为分类损失函数,当温度参数T大于0.9且小于1时,得分较低的类对结果的影响更小,当T>1时,得分高的类对损失的影响变小,而得分低的类对损失的影响变大,因此,温度参数迫使网络更加关注细粒度分离,通过知识蒸馏,网络可以有选择地学习更加鲁棒的特征;
所述步骤S3中,使用动态修正向量修改学生模型G(xi)和教师模型F(xi)的输出,它记录了每一步中每个图像的真实标签yi和概率标签FT(xi),当前向量/>派生于前一步中的向量,下面的公式中定义了动态修正向量/>
其中N是现有类的数量,k是新类的数量,·是点乘操作的符号,修正向量将教师模型生成的概率标签和分类损失生成的真实标签相加,向量表示训练中概率标签和真实标签的统计信息,分类结果偏向于训练数据较多的类别,为了解决这个问题,输出乘以向量/>的倒数,因此,向量可以显著地减少偏差问题,由于代表性记忆内存大小K的限制,在增量训练的后期仍然可能出现不平衡,因此,使用任务索引来限制/>的子向量的增长,如下面的公式所示:
其中是旧的类子向量,/>是新类子向量,I是从零开始的增量任务索引,任务索引I用于补偿过拟合问题,为了解决过拟合问题,向量/>由类向量和任务索引重新调整大小;
因此,通过结合动态修正向量技术,在下面的公式中推导出新的损失函数:
其中是存储在学生模型中的最后一个动态修正向量,因此,/>包含所有训练数据的统计信息,FT(xi)乘以/>以纠正概率标签并消除偏差;
因此,应用动态修正向量后,学生模型G′(X)在预测中的预测结果由下面的公式给出:
其中·为点乘法运算符号,该操作仅仅在测试集上运用的。
2.如权利要求1所述的一种基于动态修正向量的图像增量学习方法,其特征在于:所述步骤S1中,ResNet-32是一个残差结构的卷积神经网络,残差结构可以防止过拟合发生,提高模型在训练中的收敛速度,在增量学习中起着至关重要的作用,ResNet-32模型采用Adam训练优化器,提高了模型参数的优化速率,同时,基础分类损失函数是Kullback-LeiblerDivergence相对熵损失函数,它有着比交叉熵损失更加低的数值,减小了超参数的选取的敏感性,定义为:
其中xi表示第i个数据,yi表示第i个数据的标签,表示标准的Kullback-LeiblerDivergence相对熵损失函数,G(xi)表示新模型对于第i个数据的响应输出,/>表示本增量阶段的训练数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911308607.5A CN111199242B (zh) | 2019-12-18 | 2019-12-18 | 一种基于动态修正向量的图像增量学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911308607.5A CN111199242B (zh) | 2019-12-18 | 2019-12-18 | 一种基于动态修正向量的图像增量学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111199242A CN111199242A (zh) | 2020-05-26 |
CN111199242B true CN111199242B (zh) | 2024-03-22 |
Family
ID=70747190
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911308607.5A Active CN111199242B (zh) | 2019-12-18 | 2019-12-18 | 一种基于动态修正向量的图像增量学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111199242B (zh) |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111784595B (zh) * | 2020-06-10 | 2023-08-29 | 北京科技大学 | 一种基于历史记录的动态标签平滑加权损失方法及装置 |
CN111667016B (zh) * | 2020-06-12 | 2023-01-06 | 中国电子科技集团公司第三十六研究所 | 一种基于prototype的增量式信息分类方法 |
CN111931807B (zh) * | 2020-06-24 | 2024-02-23 | 浙江大学 | 一种基于特征空间组合的小样本类增量学习方法 |
CN111814462B (zh) * | 2020-07-09 | 2021-02-09 | 四川大学 | 基于动态正则化的高效终身关系提取方法及系统 |
CN112115967B (zh) * | 2020-08-06 | 2023-08-01 | 中山大学 | 一种基于数据保护的图像增量学习方法 |
CN112183580B (zh) * | 2020-09-07 | 2021-08-10 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种基于动态知识路径学习的小样本分类方法 |
CN111932561A (zh) * | 2020-09-21 | 2020-11-13 | 深圳大学 | 基于集成知识蒸馏的实时肠镜影像分割方法及装置 |
CN112199535B (zh) * | 2020-09-30 | 2022-08-30 | 浙江大学 | 一种基于集成知识蒸馏的图像分类方法 |
CN112257864B (zh) * | 2020-10-22 | 2022-08-16 | 福州大学 | 一种用于解决灾难性遗忘问题的终生学习方法 |
CN112308211B (zh) * | 2020-10-29 | 2024-03-08 | 中科(厦门)数据智能研究院 | 一种基于元学习的领域增量方法 |
CN112508169A (zh) * | 2020-11-13 | 2021-03-16 | 华为技术有限公司 | 知识蒸馏方法和系统 |
CN112381169B (zh) * | 2020-11-23 | 2023-01-13 | 济南博观智能科技有限公司 | 一种图像识别方法、装置、电子设备及可读存储介质 |
CN112580797B (zh) * | 2020-11-26 | 2024-01-16 | 广东工业大学 | 一种多模态多标签预测模型的增量学习方法 |
CN112766501A (zh) * | 2021-02-26 | 2021-05-07 | 上海商汤智能科技有限公司 | 增量训练方法和相关产品 |
CN112990280B (zh) * | 2021-03-01 | 2023-08-25 | 华南理工大学 | 面向图像大数据的类增量分类方法、系统、装置及介质 |
CN113139487A (zh) * | 2021-04-29 | 2021-07-20 | 中国地质大学(武汉) | 一种面向遥感影像增量数据的建筑物特征学习方法 |
CN113222020B (zh) * | 2021-05-13 | 2024-05-24 | 中科(厦门)数据智能研究院 | 一种基于数据转换和知识蒸馏的域增量学习方法 |
CN113420123A (zh) * | 2021-06-24 | 2021-09-21 | 中国科学院声学研究所 | 语言模型的训练方法、nlp任务处理方法及装置 |
CN113281048B (zh) * | 2021-06-25 | 2022-03-29 | 华中科技大学 | 一种基于关系型知识蒸馏的滚动轴承故障诊断方法和系统 |
CN113554078B (zh) * | 2021-07-13 | 2023-10-17 | 浙江大学 | 一种基于对比类别集中提升连续学习下图分类精度的方法 |
CN113657607B (zh) * | 2021-08-05 | 2024-03-22 | 浙江大学 | 一种面向联邦学习的连续学习方法 |
CN113378866B (zh) * | 2021-08-16 | 2021-11-12 | 深圳市爱深盈通信息技术有限公司 | 图像分类方法、系统、存储介质及电子设备 |
CN114386482B (zh) * | 2021-12-15 | 2023-09-26 | 同济大学 | 一种基于半监督增量学习的图片分类系统及分类方法 |
CN113989943B (zh) * | 2021-12-27 | 2022-03-11 | 北京理工大学 | 一种基于蒸馏损失的人体动作增量识别方法及装置 |
CN114676839B (zh) * | 2022-03-02 | 2024-05-10 | 华南理工大学 | 基于随机敏感度的知识迁移方法 |
CN114863248B (zh) * | 2022-03-02 | 2024-04-26 | 武汉大学 | 一种基于深监督自蒸馏的图像目标检测方法 |
CN114283308A (zh) * | 2022-03-02 | 2022-04-05 | 科大天工智能装备技术(天津)有限公司 | 基于增量学习的农作物病害虫识别方法、装置及存储介质 |
CN114612721A (zh) * | 2022-03-15 | 2022-06-10 | 南京大学 | 基于多层次自适应特征融合类增量学习的图像分类方法 |
CN115064155A (zh) * | 2022-06-09 | 2022-09-16 | 福州大学 | 一种基于知识蒸馏的端到端语音识别增量学习方法及系统 |
CN115392451B (zh) * | 2022-08-02 | 2024-04-16 | 西安工业大学 | 一种可持续学习的人工神经网络避免遗忘方法 |
CN116089883B (zh) * | 2023-01-30 | 2023-12-19 | 北京邮电大学 | 用于提高已有类别增量学习新旧类别区分度的训练方法 |
CN116070138B (zh) * | 2023-03-06 | 2023-07-07 | 南方电网调峰调频发电有限公司检修试验分公司 | 一种抽水蓄能机组的状态监测方法、装置、设备及介质 |
CN116306875B (zh) * | 2023-05-18 | 2023-08-01 | 成都理工大学 | 基于空间预学习与拟合的排水管网样本增量学习方法 |
CN116522007B (zh) * | 2023-07-05 | 2023-10-20 | 中国科学技术大学 | 一种面向推荐系统模型的数据遗忘学习方法、装置及介质 |
CN116977635B (zh) * | 2023-07-19 | 2024-04-16 | 中国科学院自动化研究所 | 类别增量语义分割学习方法及语义分割方法 |
CN117556068B (zh) * | 2024-01-12 | 2024-05-17 | 中国科学技术大学 | 目标索引模型的训练方法、信息检索方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492765A (zh) * | 2018-11-01 | 2019-03-19 | 浙江工业大学 | 一种基于迁移模型的图像增量学习方法 |
CN109543838A (zh) * | 2018-11-01 | 2019-03-29 | 浙江工业大学 | 一种基于变分自编码器的图像增量学习方法 |
CN110162018A (zh) * | 2019-05-31 | 2019-08-23 | 天津开发区精诺瀚海数据科技有限公司 | 基于知识蒸馏与隐含层共享的增量式设备故障诊断方法 |
WO2019193462A1 (en) * | 2018-04-02 | 2019-10-10 | King Abdullah University Of Science And Technology | Incremental learning method through deep learning and support data |
-
2019
- 2019-12-18 CN CN201911308607.5A patent/CN111199242B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019193462A1 (en) * | 2018-04-02 | 2019-10-10 | King Abdullah University Of Science And Technology | Incremental learning method through deep learning and support data |
CN109492765A (zh) * | 2018-11-01 | 2019-03-19 | 浙江工业大学 | 一种基于迁移模型的图像增量学习方法 |
CN109543838A (zh) * | 2018-11-01 | 2019-03-29 | 浙江工业大学 | 一种基于变分自编码器的图像增量学习方法 |
CN110162018A (zh) * | 2019-05-31 | 2019-08-23 | 天津开发区精诺瀚海数据科技有限公司 | 基于知识蒸馏与隐含层共享的增量式设备故障诊断方法 |
Non-Patent Citations (2)
Title |
---|
M2KD:Multi-model and Multi-level Knowledge Distillation for Incremental Learning;Peng Zhou,et al;arxiv:1904.01769;全文 * |
基于典型样本的卷积神经网络增量学习研究;黄伟楠 等;电子测量技术;第第41卷卷(第第6期期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111199242A (zh) | 2020-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111199242B (zh) | 一种基于动态修正向量的图像增量学习方法 | |
WO2021023202A1 (zh) | 一种卷积神经网络的自蒸馏训练方法、设备和可伸缩动态预测方法 | |
RU2693916C1 (ru) | Распознавание символов с использованием иерархической классификации | |
CN111210000A (zh) | 一种基于固定特征的调制信号增量学习方法 | |
CN109885728B (zh) | 基于元学习的视频摘要方法 | |
US20210224647A1 (en) | Model training apparatus and method | |
CN114283350B (zh) | 视觉模型训练和视频处理方法、装置、设备及存储介质 | |
CN111062277B (zh) | 基于单目视觉的手语-唇语转化方法 | |
CN114067385A (zh) | 基于度量学习的跨模态人脸检索哈希方法 | |
CN114299362A (zh) | 一种基于k-means聚类的小样本图像分类方法 | |
CN114386482B (zh) | 一种基于半监督增量学习的图片分类系统及分类方法 | |
CN115329120A (zh) | 一种知识图谱嵌入注意力机制的弱标注哈希图像检索架构 | |
CN115035341A (zh) | 一种自动选择学生模型结构的图像识别知识蒸馏方法 | |
CN112528077B (zh) | 基于视频嵌入的视频人脸检索方法及系统 | |
CN112270696A (zh) | 一种基于融合元分类器的判别性目标跟踪方法 | |
WO2021059527A1 (ja) | 学習装置、学習方法、及び、記録媒体 | |
CN115862015A (zh) | 文字识别系统的训练方法及装置、文字识别方法及装置 | |
CN113313127B (zh) | 文本图像识别方法、装置、计算机设备和存储介质 | |
CN115577793A (zh) | 一种面向网络结构的映射式蒸馏方法及其训练方法 | |
CN116997908A (zh) | 用于分类类型任务的连续学习神经网络系统训练 | |
CN114663657A (zh) | 一种偏差上下文信息修正的增量语义分割方法 | |
CN114298160A (zh) | 一种基于孪生知识蒸馏与自监督学习的小样本分类方法 | |
CN109146058B (zh) | 具有变换不变能力且表达一致的卷积神经网络 | |
Mao et al. | Optimizing locally linear classifiers with supervised anchor point learning | |
CN117036698B (zh) | 一种基于双重特征知识蒸馏的语义分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |