CN116310621A - 一种基于特征库构建的少样本图像识别方法 - Google Patents

一种基于特征库构建的少样本图像识别方法 Download PDF

Info

Publication number
CN116310621A
CN116310621A CN202211490992.1A CN202211490992A CN116310621A CN 116310621 A CN116310621 A CN 116310621A CN 202211490992 A CN202211490992 A CN 202211490992A CN 116310621 A CN116310621 A CN 116310621A
Authority
CN
China
Prior art keywords
feature
new
extraction network
class
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211490992.1A
Other languages
English (en)
Inventor
孟凡满
刘子敬
李宏亮
吴庆波
许林峰
潘力立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202211490992.1A priority Critical patent/CN116310621A/zh
Publication of CN116310621A publication Critical patent/CN116310621A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于特征库构建的少样本图像识别方法,属于图像分类领域;本发明能够在新类别训练样本数量及其不足的情况下完成该类别中的新类别物体的识别任务。首先是基于通道的主属性微调方法,只关注高响应的通道进行再训练。其次为了对新类图像信息进行补充,通过对已知类别图片进行特征提取并建立相应的特征库。最后对少数新类样本通过已知类别特征库进行多次局部特征替换,达到生成新类伪样本的效果,能够有效完成在少样本条件下对新类物体的识别任务。

Description

一种基于特征库构建的少样本图像识别方法
技术领域
本发明涉及少样本图像分类技术领域,具体涉及一种基于特征库构建的少样本图像识别方法,该方法可以在给定极少常规图片中的新类别样本下完成对新类别样本的识别。
背景技术
对于分类任务,在深度学习中常使用全监督的方式进行网络训练。但当面临有新类数据出现时,重新标注大量新类数据的代价过高,且重新训练网络时间过长。
为了解决上述问题,少样本学习方法被提出,其大致思路为:针对一个小样本任务,用少量新类样本,即支持图像,对网络进行更新或进行特征提取;而后对所有剩余的需要识别的新类样本,即查询图像,用更新的网络或支持图像的特征为基准进行识别。
现有的基于深度学习的少样本图片识别技术大多采用基础类训练+新类样本微调或基础类训练+直接对新类特征进行后处理进行分类;这些方法的理论核心在于:用基类数据为网络提供一定的特征提取能力,而后用此网络直接对新类样本进行鉴别。
尽管此类方法在少样本识别任务有不错的效果,但它们没有很好的利用基础类所学习的知识;同时,基础类别学习的网络对于新类的识别能力较差,所得的响应较低,使用原有网络特征所有的通道对新类样本进行分类并不适宜。因此亟需在极少量新类别图片(1-5张)的监督下,充分考虑已有基础类别和新类别之间的联系并加以应用,还能有效的提少样本识别效果的方法。
现有技术文献EASY–Ensemble Augmented-Shot Y-shaped Learning中公开了一种学习方法,该方法保留了上述基本的小样本学习模型框架,但没有对已知类别样本特征进行良好应用,而这对新类样本的识别至关重要。
发明内容
为解决现有技术中存在的问题,本发明提供了一种基于特征库构建的少样本图像识别方法,充分利用已有基础类数据和构建特征库,以局部特征替换的方式为新类别生成更多的伪样本来完成少样本识别任务,解决了上述背景技术中提到的问题。
为实现上述目的,本发明提供如下技术方案:一种基于特征库构建的少样本图像识别方法,包括如下步骤:
步骤1:基于已知类数据训练出一个能够有效提取针对已知类样本的特征提取网络;训练方法为:
步骤1.1:建立特征提取网络,该特征提取网络依次由四个卷积模块和最后的平均池化层构成,其中每个卷积模块有3个卷积层组成;
步骤1.2:在特征提取网络后通过两个平行结构的映射层构成双分支输出常规类别分类得分和旋转类别分类得分,分别用常规标签和人工设计的旋转标签进行约束,所述输出常规类别分类得分的平行结构映射层为常规监督分类分支,输出旋转类别分类得分的平行结构映射层为旋转自监督分支;
步骤1.3:采用常规监督分类分支使用数据标签对特征提取网络进行训练,使特征提取网络具有基本分类识别能力;
步骤1.4:采用旋转自监督分支对特征提取网络进行训练,特征提取网络输入的图像为已知类别图片按等比例进行0°、90°、180°、270°旋转后的图像,采用一起类别标签和旋转标签进行训练约束;
循环步骤1.3和步骤1.4,直到达到训练完毕的条件;
步骤1.5:保存特征提取网络;
步骤2:采用子任务训练方式对新的映射层进行训练;
步骤2.1:将步骤1保存的特征提取网络参数冻结,去除特征提取网络中最后一层平均池化层,然后在倒数第二层后建立新的映射层结构;
步骤2.2:对新的映射层结构的输出进行高响应的通道保持;将同一类别的两幅图像分别输入步骤2.1当前建立的网络,对网络的两次输出进行各点位特征相似度计算,采用损失函数1对相似的点位特征进一步加以约束,由此来训练新的映射网络;
Figure BDA0003963281260000021
其中,x1,x2分别表示同一类别的两幅图像对应网络的输出特征,下标i表示对应的输出通道,Q表示通道总数;
步骤2.3:在新的映射层后建立平均池化层,得到最终特征,采用损失函数2对新的映射层进行训练;
Figure BDA0003963281260000022
其中,N表示训练批次中的数据量,M表示总的类别数量,C表示类别,piC表示第i个样本对类别C的得分,yic表示第i个样本的类别C标签;
重复步骤2.2和步骤2.3,直到达到训练完毕的条件;
步骤3:构建特征库;
在训练好的特征提取网络删除平均池化层后连接步骤2训练好的新的映射层,得到新的特征提取网络,采用新的特征提取网络对所有图像进行特征提取,得到特征库;
步骤4:对新类样本进行增广;
步骤4.1:采用步骤3中新的特征提取网络对新类样本进行特征提取,得到新类样本特征;
步骤4.2:选取特征库中一个特征,将新类样本特征中每个点位特征与选取的特征的每个对应的点位特征进行相似度计算,选取相似度大于阈值的特征库中特征的点位特征替换新类样本特征对应位置的点位特征,得到增广特征;
步骤4.3:选取特征库中另一个特征,重复步骤2得到更多增广特征;
步骤5:将所有的增广特征与特征库中的特征一起进行聚类,得到每个类的聚类中心;对新得到的目标图像进行分类时,首先采用步骤3中新的特征提取网络进行特征提取,得到当前目标图像的特征,然后计算当前目标图像的特征与每个聚类中心进行距离计算,得到最终的分类。
进一步的,所述步骤2.2中对新的映射层结构的输出进行高响应的通道保持的方法为:
对特征进行低响应通道抑制,只保留高响应通道,表达式如下:
Val=topkK(fijc)c=0,1,…,m
Figure BDA0003963281260000031
其中,i、j为特征f中对应的坐标,c表示该坐标点位特征的某个通道响应,m表示特征的通道数,topkK(.)表示对特征通道维度响应排名第K位的响应值进行提取。
本发明因使用了所述特征库的建立和使用的方案,从而能够对新类样本特征用原有类别信息进行增广扩充,优化了模型对新类样本识别的精准度。
附图说明
图1为本发明建立的特征提取网络及两个分支的示意图;
图2为本发明在特征提取网络基础上建立新的映射层后的结构示意图;
图3为本发明特征库构建网络示意图;
图4为本发明使用特征库进行样本增广网络的示意图。
具体实施方式
本发明提供一种技术方案:一种基于特征库构建的少样本图像识别方法,整体流程如图1所示,包括如下步骤:
步骤1、基于基类数据训练出一个对基础类样本有良好鉴别能力的特征提取网络;特征提取网络由ResNet模型构成,同时由常规的监督分支和旋转自监督分支作为后续的双分支结构,二者均由全连接层构成。训练的同时采用了手动混合方式增加了模型的鲁棒性;训练使用的交叉熵损失函数可以表示为:
Figure BDA0003963281260000041
Figure BDA0003963281260000042
其中yc为样本原有的标签,yr为人为构造的四种不同的旋转类别标签;
步骤2、采用子任务训练方式对网络进行微调。将步骤1得到的主干网络参数冻结,添加相应的映射层进行再训练;考虑到新类样本整体响应较低的情形,为了模拟新类样本的情况,训练时只关注高响应通道参与梯度反传。其中映射层由多个全连接层构成;在子任务训练方式中,针对同类样本的两张图片,取出映射层输出的末端特征,计算二者各点位特征的特征相似度并用阈值构建相似对,用损失函数1约束,并保留末端的损失函数2保证基本的分类能力。考虑特征提取网络M、映射结构W和样本x,得到的初步特征表达式如下:
f=W(M:-1(x))
其中M:-1为除去最后平均池化层的特征提取网络。
对特征进行低响应通道抑制,只保留高响应通道,表达式如下:
Valtopk=topk(fijc)c=0,1,…,m
Figure BDA0003963281260000043
步骤3、基于已知类的特征库构建。对所有已知类的样本通过基于上一步的微调网络进行末端特征提取并重构,储存到最终的特征库中完成构建。考虑步骤2的特征提取网络M、训练好的映射结构W和基础类样本x,特征库的构建可以表示为:
fsave=W(M:-1(x))
fsave→K
其中,fsave表示提取出的需要保存的映射特征,K表示用于保存映射特征的特征库。
步骤4、新类支持样本的特征提取和基于特征库的增广。通过与步骤3相似的过程提取新类支持样本的特征得到基本的原始特征,而后用特征库的特征进行增广以扩大新类的伪样本。考虑新类样本的末端特征为fc×5×5与特征库K,将末端前池化特征中的多个点位特征与特征库储存特征以相似度的方式进行一次替换,生成多个伪特征。其中单个伪样本生成过程的表达式如下:
fc×25=reshape(fc×5×5)
Figure BDA0003963281260000051
Figure BDA0003963281260000052
Figure BDA0003963281260000053
其中,reshape(.)表示对特征维度的重构操作,indtopk表示筛选出的对应特征库中最高的前k个相似度值的二维索引,
Figure BDA0003963281260000054
表示对计算的相似度进行最高的前k个的二维索引筛选,/>
Figure BDA0003963281260000055
表示替换后的新特征,fc×i表示原有的点位特征,/>
Figure BDA0003963281260000056
表示对新特征重构后的伪特征,/>
Figure BDA0003963281260000057
表示通过索引筛选的特征库中的特征,cossimilarity(.)表示余弦相似度计算。
步骤5、将支持图片对应的增广特征与原始特征取平均,得到最终的类中心特征。并通过余弦最近邻的方式将查询样本特征与各个类中心进行匹配,得到最终的分类结果,过程表示如下:
Figure BDA0003963281260000058
scoresimilarity=cossimilarity(fquery,fproto)
其中,fproto表示合并后的类原型特征,
Figure BDA0003963281260000059
表示生成的伪特征集合,avgpool(.)表示平均池化层操作,mean表示取平均操作,score表示最查询图像特征与类原型特征之间的得分,fquery表示查询图像特征。
实验结果:
本发明方法能够在缺乏新样本的条件下(仅有5张),训练出少样本图像识别模型。为了充分挖掘不同类别图像间的关系,首先在基类数据上训练一个对于基础类样本具有良好识别能力的主干网络。其次是在旧类样本上以子任务训练的方式只考虑高响应通道微调映射层。接着是对旧类样本提取的特征进行特征库构建。最后是基于特征库的新类增广方法,用来对新类支持样本进行伪样本生成。该方法可以在少样本条件下有效地实现新类别物体识别的任务。
本方法在公开的小样本数据mini-ImageNet上能达到70.76%的识别效果,相较于参考文献中的单个ResNet框架性能有所提升,这证明了本发明设计的特征库构建和使用方法对于少样本图像分类任务的有效性。

Claims (2)

1.一种基于特征库构建的少样本图像识别方法,包括如下步骤:
步骤1:基于已知类数据训练出一个能够有效提取针对已知类样本的特征提取网络;训练方法为:
步骤1.1:建立特征提取网络,该特征提取网络依次由四个卷积模块和最后的平均池化层构成,其中每个卷积模块有3个卷积层组成;
步骤1.2:在特征提取网络后通过两个平行结构的映射层构成双分支输出常规类别分类得分和旋转类别分类得分,分别用常规标签和人工设计的旋转标签进行约束,所述输出常规类别分类得分的平行结构映射层为常规监督分类分支,输出旋转类别分类得分的平行结构映射层为旋转自监督分支;
步骤1.3:采用常规监督分类分支使用数据标签对特征提取网络进行训练,使特征提取网络具有基本分类识别能力;
步骤1.4:采用旋转自监督分支对特征提取网络进行训练,特征提取网络输入的图像为已知类别图片按等比例进行0°、90°、180°、270°旋转后的图像,采用一起类别标签和旋转标签进行训练约束;
循环步骤1.3和步骤1.4,直到达到训练完毕的条件;
步骤1.5:保存特征提取网络;
步骤2:采用子任务训练方式对新的映射层进行训练;
步骤2.1:将步骤1保存的特征提取网络参数冻结,去除特征提取网络中最后一层平均池化层,然后在倒数第二层后建立新的映射层结构;
步骤2.2:对新的映射层结构的输出进行高响应的通道保持;将同一类别的两幅图像分别输入步骤2.1当前建立的网络,对网络的两次输出进行各点位特征相似度计算,采用损失函数1对相似的点位特征进一步加以约束,由此来训练新的映射网络;
Figure FDA0003963281250000011
其中,x1,x2分别表示同一类别的两幅图像对应网络的输出特征,下标i表示对应的输出通道,Q表示通道总数;
步骤2.3:在新的映射层后建立平均池化层,得到最终特征,采用损失函数2对新的映射层进行训练;
Figure FDA0003963281250000021
其中,N表示训练批次中的数据量,M表示总的类别数量,C表示类别,piC表示第i个样本对类别C的得分,yic表示第i个样本的类别C标签;
重复步骤2.2和步骤2.3,直到达到训练完毕的条件;
步骤3:构建特征库;
在训练好的特征提取网络删除平均池化层后连接步骤2训练好的新的映射层,得到新的特征提取网络,采用新的特征提取网络对所有图像进行特征提取,得到特征库;
步骤4:对新类样本进行增广;
步骤4.1:采用步骤3中新的特征提取网络对新类样本进行特征提取,得到新类样本特征;
步骤4.2:选取特征库中一个特征,将新类样本特征中每个点位特征与选取的特征的每个对应的点位特征进行相似度计算,选取相似度大于阈值的特征库中特征的点位特征替换新类样本特征对应位置的点位特征,得到增广特征;
步骤4.3:选取特征库中另一个特征,重复步骤2得到更多增广特征;
步骤5:将所有的增广特征与特征库中的特征一起进行聚类,得到每个类的聚类中心;对新得到的目标图像进行分类时,首先采用步骤3中新的特征提取网络进行特征提取,得到当前目标图像的特征,然后计算当前目标图像的特征与每个聚类中心进行距离计算,得到最终的分类。
2.如权利要求1所述的一种基于特征库构建的少样本图像识别方法,其特征在于,所述步骤2.2中对新的映射层结构的输出进行高响应的通道保持的方法为:
对特征进行低响应通道抑制,只保留高响应通道,表达式如下:
Val=topkK(fijc)c=0,1,…,m
Figure FDA0003963281250000022
其中,i、j为特征f中对应的坐标,c表示该坐标点位特征的某个通道响应,m表示特征的通道数,topkK(.)表示对特征通道维度响应排名第K位的响应值进行提取。
CN202211490992.1A 2022-11-25 2022-11-25 一种基于特征库构建的少样本图像识别方法 Pending CN116310621A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211490992.1A CN116310621A (zh) 2022-11-25 2022-11-25 一种基于特征库构建的少样本图像识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211490992.1A CN116310621A (zh) 2022-11-25 2022-11-25 一种基于特征库构建的少样本图像识别方法

Publications (1)

Publication Number Publication Date
CN116310621A true CN116310621A (zh) 2023-06-23

Family

ID=86834706

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211490992.1A Pending CN116310621A (zh) 2022-11-25 2022-11-25 一种基于特征库构建的少样本图像识别方法

Country Status (1)

Country Link
CN (1) CN116310621A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117975567A (zh) * 2024-02-26 2024-05-03 北京天坦智能科技有限责任公司 一种基于少样本学习的自动WiFi跨域人类活动识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117975567A (zh) * 2024-02-26 2024-05-03 北京天坦智能科技有限责任公司 一种基于少样本学习的自动WiFi跨域人类活动识别方法

Similar Documents

Publication Publication Date Title
CN111881714B (zh) 一种无监督跨域行人再识别方法
CN107092870B (zh) 一种高分辨率影像语义信息提取方法
CN113379699A (zh) 基于深度学习的输电线路绝缘子缺陷检测方法
CN112347970B (zh) 一种基于图卷积神经网络的遥感影像地物识别方法
CN111178316A (zh) 一种基于深度架构自动搜索的高分辨率遥感影像土地覆盖分类方法
CN110598564B (zh) 基于OpenStreetMap的高空间分辨率遥感影像迁移学习分类方法
CN112633382A (zh) 一种基于互近邻的少样本图像分类方法及系统
CN114694038A (zh) 基于深度学习的高分辨率遥感影像分类方法及系统
CN113869418B (zh) 一种基于全局注意力关系网络的小样本船舶目标识别方法
CN111178312B (zh) 基于多任务特征学习网络的人脸表情识别方法
CN112347284A (zh) 一种组合商标图像检索方法
CN111783879B (zh) 基于正交注意力机制的层次化压缩图匹配方法及系统
CN113255892B (zh) 一种解耦合的网络结构搜索方法、设备及可读存储介质
CN114283285A (zh) 交叉一致性自训练遥感图像语义分割网络训练方法及装置
Ignjatić et al. Deep learning for historical cadastral maps digitization: Overview, challenges and potential
CN109871379A (zh) 一种基于数据块学习的在线哈希最近邻查询方法
CN115482387A (zh) 基于多尺度类别原型的弱监督图像语义分割方法及系统
CN107451617B (zh) 一种图转导半监督分类方法
CN115292532A (zh) 基于伪标签一致性学习的遥感图像域适应检索方法
CN116310621A (zh) 一种基于特征库构建的少样本图像识别方法
CN114399687A (zh) 基于空间校正的半监督自训练的高光谱遥感图像分类方法
CN116362294B (zh) 一种神经网络搜索方法、装置和可读存储介质
CN108898157B (zh) 基于卷积神经网络的数值型数据的雷达图表示的分类方法
CN115496948A (zh) 一种基于深度学习的网络监督细粒度图像识别方法和系统
CN115393713A (zh) 一种基于地块感知动态记忆的场景理解方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination