CN115249313A - 一种基于元模块融合增量学习的图像分类方法 - Google Patents
一种基于元模块融合增量学习的图像分类方法 Download PDFInfo
- Publication number
- CN115249313A CN115249313A CN202210959633.XA CN202210959633A CN115249313A CN 115249313 A CN115249313 A CN 115249313A CN 202210959633 A CN202210959633 A CN 202210959633A CN 115249313 A CN115249313 A CN 115249313A
- Authority
- CN
- China
- Prior art keywords
- meta
- training
- layer
- network
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Abstract
本发明提供了一种基于元模块融合增量学习的图像分类方法,获取待分类图片,形成待分类图片集,依次将分类图片集输入至增量分类神经网络VGG网络或ResNet,训练元模型;在元模型的分类器后添加修正器,利用保留数据训练修正器,训练门控选择层,实现对元模型的融合;确定对应的具体图像类别。本发明能够使网络在长期增量阶段时,延缓精度下降,能有效的改善动态扩展重表达方法中存在的弊端,显著改进了识别精度,解决了现有的增量学习中图像分类精度下降过快的算法问题。本发明能在保持精度较高的情况下,实现在内存规模,网络增长规模和计算速度等多个上面的优势。
Description
技术领域
本发明涉及图像识别技术领域,通过有限网络模型扩张与分类器重训练,实现少量样本数据驱动的增量学习的图像识别。
背景技术
近年来,神经网络模型已经在很多机器学习领域取得了巨大成功,如图像识别、目标检测、自然语言处理、姿态估计等。但目前神经网络模型依然有很多不足,灾难性遗忘即是一个亟待解决的重要问题。增量学习能够解决网络学习中灾难性遗忘问题
不遗忘学习方法(LwF)是首次把知识蒸馏的思路应用到增量学习中,仅利用现有新样本就可以在学习新任务的同时,对旧任务保持记忆。但由于完全没有使用旧的类别样本,随着类的不断增加,整体准确率也急剧下降。增量分类器和特征重表达学习(iCaRL)是最经典的基于样本回放的增量学习模型,它在算法层面借鉴保留了前例中的蒸馏技术。同时采用特征提取器和分类器分离方法,并在固定内存规模的情况下,通过筛选出具有代表性的旧样本和新样本组成新的训练集,实现增量学习,因此较前者在准确率上有所提升,代价便是增大了内存容量。基于空间蒸馏损失的方法(PODNet),改进了特征的蒸馏方法,并将分类器与代理向量相结合,改进了分类器的损失形式,取得了不错的效果。小样本增量学习方法(FSCIL)沿用了特征提取器和分类器分开的思路。用拓扑关系来模拟特征空间上的关系,将特征提取后的特征空间上的位置做为神经气体网络的输入,以此输入分类器来分类。该方法在解决小样本增量学习问题上取得巨大成功。
最新的动态扩展重表达方法(DER)通过模型结构扩展的方式为每一个新任务训练一个特征提取器。在每个增量任务时候对特征进行扩展,都将上一个阶段提取出的特征进行固定,并且运用新的特征提取器再对特征进行提取。这就使得模型在保持旧任务知识的同时可以获得适用于新增量任务的新知识。但由于该方法在训练网络时把每次的增量类别都整合到同一个网络中去,这就造成了当网络长期处于增量阶段时,类别间分类精度的相互干扰,网络增量越多,准确率下降越快。
发明内容
为了克服现有技术的不足,本发明提供一种基于元模块融合增量学习的图像分类方法,能够使网络在长期增量阶段时,延缓精度下降,能有效的改善动态扩展重表达方法中存在的弊端。大量实验表明,本发明显著改进了识别精度。基于VGG网络和ResNet,在CUB、CIFAR-100和MiniImageNet,
本发明解决其技术问题所采用的技术方案包括以下步骤:
步骤一、获取待分类图片,形成待分类图片集,设定每次增量学习的新添类别数量为K,增量学习的增长步数为T,最大增长步数为Lmax;
步骤二、依次将步骤一中分类图片集输入至增量分类神经网络VGG网络或ResNet,训练元模型;
步骤三、在元模型的分类器后添加修正器,利用保留数据训练修正器。
在每次增量学习之后扩展修正器的输出,并重训练修正器;
步骤3.1、训练修正器;对步骤二中所有训练过的数据集进行抽样得到保留数据集Dr,在网络的分类层后添加一层全连接层FC做为修正器C,利用保留数据训练该FC层参数,训练方式采用交叉熵损失函数训练w个epoch,学习率从λ开始;
步骤3.2、如果训练步数t小于最大增长步数Lmax,则返回步骤二进行增量学习的元模块训练,即步骤二中的步骤2.2,如果训练步数大于等于最大增长步数Lmax,则完成元模型Mi的训练;
步骤四、训练门控选择层,实现对元模型的融合;
步骤4.2、维持已训练网络模型特征提取层参数不变,在θu对应的特征提取层后添加门控分类层G;
步骤4.3、在总的数据集中抽取部分样本组成新的保留数据集Dr训练新添的门控分类层G,训练损失函数为pi=η-mi,其中η表示输出向量,mi表示所有输出向量的平均,n表示训练元门控分类层G时输入样本数量;
步骤4.4、在测试阶段,输入图像依据门控分类层G的输出结果,选择对应的元模块,经过元模块的分类层,确定对应的具体图像类别。
所述步骤二中,增量分类神经网络训练元模型的具体步骤如下:
步骤2.1、训练初始网络;选择步骤一的数据输入初始神经网络VGG或ResNet中,神经网络采用随机初始化,采用交叉熵损失函数训练w个epoch,学习率从λ开始,得到神经网络特征提取层的参数θF=[θu,θs]和分类层参数θC;
步骤2.2、训练增量网络;保持初始网络特征提取层的后1/2层结构不变,θs是神经网络特征提取层的后1/2层的参数,选择新的增量类别扩展初始网络结构的前部分,即θu对应的特征提取层,利用新增数据训练新扩展层的参数,训练方式采用交叉熵损失函数训练w个epoch,学习率从λ开始。
所述epoch的w取值为小于等于100。
所述学习率λ取值为0.01。
本发明的有益效果在于通过提供一种基于元模块融合增量学习的图像分类方法,解决了现有的增量学习中图像分类精度下降过快的算法问题。通过将多个元模型融合的方式实现增量学习能有效的减少参数增长速度,延缓灾难性遗忘问题,保持分类精度在可靠范围内。相比与现有的方法能够在内存规模,网络模型规模,分类精度上达到一个较合适的平衡点。
相比于精度相当的算法例如,动态扩展重表达方法,能在内存规模和网络模型上形成优势,相比与内存规模相当的算法例如,增量分类器和特征重表达学习,能在精度和计算速断上形成优势。总的来说,本发明能在保持精度较高的情况下,实现在内存规模,网络增长规模和计算速度等多个上面的优势。
附图说明
图1为本发明总体的算法实现步骤图。
图2为元模型网络融合训练过程示意图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前已经成熟的增量学习分类算法无法兼顾分类准确率,存储成本和计算成本这三个要求,通常分类准确率高的算法的存储成本和计算成本往往高,而分类准确率低的算法成本往往也会随之降低;但在实际需求中,我们追求的往往是分类准确率高、并且存储成本和计算成本还低,对此本申请提出如下技术方案。为便于对本实施例进行理解,首先对本发明实施例所公开的基于元模块融合增量学习的图像分类算法进行详细介绍。
图1所展示的总的增量学习图像分类算法的流程示意图,该算法包括如下步骤:
第一步是元模型训练:将待学习的图像依次输入网络,再网络规模不断增长中学习新的特征,保留旧的特征;
1)CIFAR-100数据集包含100个不同图像类别,即N=100;将其分成5个大类,即I=5;每大类中包含了20类小类。每小类中含有该类数据的数量是相同的,均为500张32×32的彩色图像,即S=500。
2)选择其中的一个大类作为每个元模型训练的数据,将大类中包含的20类小类分为4组,即Lmax=4;每组5类小类,即K=5。通过依次增量输入的方式在VGG网络和ResNet上训练元模型;
具体参数选择如下:
梯度下降算法选择:SGD
批量大小:128
学习率:0.01。并且学习率在30、60、和90个epoch后的以0.1的速率开始衰减正则系数λ:0.75
3)第一组的训练过程如上,依次第二,第三,第四,第五组都是直接迁移使用第一组训练的特征提取层的前段参数。在本例中使用了VGG-16特征提取的后6层的卷积层作为共享参数;
4)将剩下的四个大类依次按照步骤2)和步骤3)中的描述训练生成元模型;
第二步训练修正器:在已训练的元模块的分类器后添加一层全连接层(FC),随机初始化全连接层的网络参数并保持特征提取器和分类器中参数不变。对每一类数据保留部分样本,这里选择每类数据集训练样本数的1/10。利用交叉熵损失函数作为损失函数,并保持特征提取器和分类器中参数不变;
具体参数如下:梯度下降算法选择SGD,批量大小为256,学习率为0.01;
第三步是元模型融合:将VGG-16网络训练的五个元模型融合,整合成一个完全的增量学习网络,图2为元模型融合训练过程,其中Mold表示已有的元模块,Mnew表示新训练得到的元模块,G表示门控选择层,该层能将新旧元模块关联起来,在测试阶段以便选择合适的元模块。
3.1)每个小类中利用特征分布最近中心原则选择50张图片作为保留图像;
3.2)设计一个具有三个特征提取层和一个分类层的旁支网络,并连接到每个元模型前7层的特征提取层后,利用空间特征分布距离作为损失函数,训练门控分类层;
3.3)门控分类层的作用在于融合各个独立的元模块,在测试阶段,输入图像能根据其分类结果选择对应的元模块,再根据元模块的分类结果确定其类别;
以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (4)
1.一种基于元模块融合增量学习的图像分类方法,其特征在于包括下述步骤:
步骤一、获取待分类图片,形成待分类图片集,设定每次增量学习的新添类别数量为K,增量学习的增长步数为T,最大增长步数为Lmax;
步骤二、依次将步骤一中分类图片集输入至增量分类神经网络VGG网络或ResNet,训练元模型;
步骤三、在元模型的分类器后添加修正器,利用保留数据训练修正器。
在每次增量学习之后扩展修正器的输出,并重训练修正器;
步骤3.1、训练修正器;对步骤二中所有训练过的数据集进行抽样得到保留数据集Dr,在网络的分类层后添加一层全连接层FC做为修正器C,利用保留数据训练该FC层参数,训练方式采用交叉熵损失函数训练w个epoch,学习率从λ开始;
步骤3.2、如果训练步数t小于最大增长步数Lmax,则返回步骤二进行增量学习的元模块训练,即步骤二中的步骤2.2,如果训练步数大于等于最大增长步数Lmax,则完成元模型Mi的训练;
步骤四、训练门控选择层,实现对元模型的融合;
步骤4.2、维持已训练网络模型特征提取层参数不变,在θu对应的特征提取层后添加门控分类层G;
步骤4.3、在总的数据集中抽取部分样本组成新的保留数据集Dr训练新添的门控分类层G,训练损失函数为pi=η-mi,其中η表示输出向量,mi表示所有输出向量的平均,n表示训练元门控分类层G时输入样本数量;
步骤4.4、在测试阶段,输入图像依据门控分类层G的输出结果,选择对应的元模块,经过元模块的分类层,确定对应的具体图像类别。
2.根据权利要求1所述的一种基于元模块融合增量学习的图像分类方法,其特征在于:
所述步骤二中,增量分类神经网络训练元模型的具体步骤如下:
步骤2.1、训练初始网络;选择步骤一的数据输入初始神经网络VGG或ResNet中,神经网络采用随机初始化,采用交叉熵损失函数训练w个epoch,学习率从λ开始,得到神经网络特征提取层的参数θF=[θu,θs]和分类层参数θC;
3.根据权利要求1所述的一种基于元模块融合增量学习的图像分类方法,其特征在于:
所述epoch的w取值为小于等于100。
4.根据权利要求1所述的一种基于元模块融合增量学习的图像分类方法,其特征在于:
所述学习率λ取值为0.01。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210959633.XA CN115249313A (zh) | 2022-08-11 | 2022-08-11 | 一种基于元模块融合增量学习的图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210959633.XA CN115249313A (zh) | 2022-08-11 | 2022-08-11 | 一种基于元模块融合增量学习的图像分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115249313A true CN115249313A (zh) | 2022-10-28 |
Family
ID=83700380
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210959633.XA Pending CN115249313A (zh) | 2022-08-11 | 2022-08-11 | 一种基于元模块融合增量学习的图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115249313A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116306875A (zh) * | 2023-05-18 | 2023-06-23 | 成都理工大学 | 基于空间预学习与拟合的排水管网样本增量学习方法 |
-
2022
- 2022-08-11 CN CN202210959633.XA patent/CN115249313A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116306875A (zh) * | 2023-05-18 | 2023-06-23 | 成都理工大学 | 基于空间预学习与拟合的排水管网样本增量学习方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110956185B (zh) | 一种图像显著目标的检测方法 | |
CN108920720B (zh) | 基于深度哈希和gpu加速的大规模图像检索方法 | |
CN109816032B (zh) | 基于生成式对抗网络的无偏映射零样本分类方法和装置 | |
CN110717526A (zh) | 一种基于图卷积网络的无监督迁移学习方法 | |
CN109743642B (zh) | 基于分层循环神经网络的视频摘要生成方法 | |
CN108595558B (zh) | 一种数据均衡策略和多特征融合的图像标注方法 | |
CN114332466B (zh) | 图像语义分割网络持续学习方法、系统、设备及存储介质 | |
CN111582230A (zh) | 基于空时特征的视频行为分类方法 | |
KR20220116270A (ko) | 학습 처리 장치 및 방법 | |
CN116089883B (zh) | 用于提高已有类别增量学习新旧类别区分度的训练方法 | |
CN111126278A (zh) | 针对少类别场景的目标检测模型优化与加速的方法 | |
CN110674326A (zh) | 一种基于多项式分布学习的神经网络结构检索方法 | |
CN113807176A (zh) | 一种基于多知识融合的小样本视频行为识别方法 | |
CN112101364A (zh) | 基于参数重要性增量学习的语义分割方法 | |
CN114299362A (zh) | 一种基于k-means聚类的小样本图像分类方法 | |
CN115035341A (zh) | 一种自动选择学生模型结构的图像识别知识蒸馏方法 | |
CN115249313A (zh) | 一种基于元模块融合增量学习的图像分类方法 | |
CN116168329A (zh) | 基于关键帧筛选像素块的视频动作检测方法、设备及介质 | |
CN108446605A (zh) | 复杂背景下双人交互行为识别方法 | |
CN111310820A (zh) | 基于交叉验证深度cnn特征集成的地基气象云图分类方法 | |
CN114492581A (zh) | 基于迁移学习和注意力机制元学习应用在小样本图片分类的方法 | |
CN110942463B (zh) | 一种基于生成对抗网络的视频目标分割方法 | |
CN117011515A (zh) | 基于注意力机制的交互式图像分割模型及其分割方法 | |
CN109461162B (zh) | 图像中目标分割的方法 | |
CN111046958A (zh) | 基于数据依赖的核学习和字典学习的图像分类及识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |