CN112766378A - 一种专注细粒度识别的跨域小样本图像分类模型方法 - Google Patents

一种专注细粒度识别的跨域小样本图像分类模型方法 Download PDF

Info

Publication number
CN112766378A
CN112766378A CN202110078446.6A CN202110078446A CN112766378A CN 112766378 A CN112766378 A CN 112766378A CN 202110078446 A CN202110078446 A CN 202110078446A CN 112766378 A CN112766378 A CN 112766378A
Authority
CN
China
Prior art keywords
image
identification
classification
mffe
small sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110078446.6A
Other languages
English (en)
Other versions
CN112766378B (zh
Inventor
于重重
萨良兵
谢涛
赵霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Technology and Business University
Original Assignee
Beijing Technology and Business University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Technology and Business University filed Critical Beijing Technology and Business University
Priority to CN202110078446.6A priority Critical patent/CN112766378B/zh
Publication of CN112766378A publication Critical patent/CN112766378A/zh
Application granted granted Critical
Publication of CN112766378B publication Critical patent/CN112766378B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公布了一种专注细粒度识别的跨域小样本图像分类模型方法,构建专注细粒度识别的跨域小样本分类模型FFGR,FFGR模型采用两步识别的方法,包括图像特征提取模块MFFE和图像特征分类识别模块BMF;通过前端专注特征编码器提取图像特征,再通过后端双线性度量函数利用图像特征进行图像分类识别。采用本发明方法,能够更快速并高效地提取到小样本图像特征信息,模型整体优化更加快捷精准,分类准确率高。

Description

一种专注细粒度识别的跨域小样本图像分类模型方法
技术领域
本发明涉及图像处理与跨域小样本图像分类识别技术,具体涉及一种专注细粒度识别的跨域小样本图像分类模型方法,属于计算机视觉与图像处理技术领域。
背景技术
近年来,由于强大的计算设备的出现(例如,分布式平台和图像处理单元),和大型数据集的诞生(例如,ImageNet图像数据集),使得深度学习模型在计算机视觉的分类任务中取得了巨大的成功。然而,这些监督学习方式需要大量带有标签的样本和足够的迭代次数来训练深度学习模型,才能使模型达到最优。在实际情况中,通过人工标注大量的数据成本过高,而且有些样本类别中并没有那么多的数据(例如,稀有的动植物等),这就降低了模型的泛化性。解决小样本问题可分为两种方法:采用数据增强技术扩充原有数据集,采用小样本学习方式提出属于小样本数据的模型方法。
2020年,朱克凡等人通过时间镜像数据增强方法扩充数据集,提高加权辅助分类生成对抗网络的雷达目标识别精度。(朱克凡,王杰贵,刘有军.小样本条件下基于数据增强和WACGAN的雷达目标识别算法[J].2020,48(06):1124-1131.)
2020年,疏颖等人利用自监督学习和生成对抗网络从而扩充小样本人脸属性训练数据集,达到提升识别精度的效果。(疏颖,毛龙彪,陈思,等.结合自监督学习和生成对抗网络的小样本人脸属性识别[J].2020,25(11):2391-2403.)
这些方法的核心思想是基于数据增强的手段扩充原有样本较少的数据集,从而提高识别精度。当原有数据量太少和数据增强效果不理想时,识别精度就会显著下降。
小样本学习大致可分为模型学习、优化学习和度量学习。针对小样本学习任务,研究学者们提出了许多的方法和模型,且都具有一定的效果。
2016年,Santoro等人基于神经网络图灵机的思想,将数据看成序列来训练,以增强记忆的方法来解决小样本学习任务。(Santoro A,Bartunov S,Botvinick M,et al.One-shot learning with memory-augmented neural networks[J].2016:48,1842-1850.)
2017年,Ravi等人提出一个基于长短期记忆网络(Long Short-term Memory,LSTM)的元学习模型,该模型可以学习到用于训练其他小样本分模型的最优化算法。(RaviS,Larochelle H.Optimization as a model for few-shot learning[C].2017.)
2017年,Finn等人提出一种与模型无关的元学习(Model-Agnostic Meta-Learning,MAML)算法应用于小样本学习,MAML算法学习初始参数使得模型通过少量迭代就能够快速获得适应新类识别的能力。(Finn C,Abbeel P,Levine S.Model-agnostic meta-learning for fast adaptation of deep networks[J].2017:70,1126-1135.)
此外,现有基于度量学习的小样本学习模型方法包括:2015年,Koch等人(Koch G,Zemel R,Ruslan S.Siamese neural networks for one-shot image recognition[C].2015:2.)提出了一个带有双通道卷积神经网络(Convolutional Neural Network,CNN)并权值共享的孪生网络,不同图像分别进入双通道,通过计算输出的特征向量的距离进行预测。2016年,Vinyals等人(Vinyals O,Blundell C,Lillicrap T,et al.Matchingnetworks for one shot learning[C].2016:3637-3645.)提出一个外部记忆增强神经网络与度量学习相结合的匹配网络(Matching network,MatchingNet),有效避免了在适应新类识别时需要微调的工作。2017年,Snell等人(Snell J,Swersky K,ZemelR.Prototypical networks for few-shot learning[C].2017:4080-4090.)提出的原型网络将特征映射到原型空间中,每个小样本类别都是一个原型的表达,都会靠近属于自己类别的原型中心。2017年,Garcia等人(Garcia V,Bruna J.Few-shot learning with graphneural networks.2017.)提出了一个图神经网络(Graph Neural Network,GNN)架构来解决小样本学习问题,由支持集和查询集经过特征编码器所提取的特征组成nodes向量,然后进入GNN进行预测。2018年,Sung等人(Sung F,Yang Y X,Zhang L,et al.Learning tocompare:relation network for few-shot learning[C].2018:1199-1208.)提出的关系网络(Relation Network,RelationNet)将支持集和查询集的特征向量进行融合,在由关系模块进行预测和计算均方差求loss。
总的来说,为了解决小样本学习问题,研究者们在利用CNN提取样本特征的同时,基于度量学习结合递归神经网络或图神经网络等提出自己的小样本学习模型,效果也十分显著。虽然近些年来小样本分类问题在Omniglot和mini-Imagenet数据集上的5-way 5-shot实验准确率可以达到99%和80%以上,似乎小样本学习问题很快就能从根本解决。但是,实际情况并不乐观,跨域问题逐渐被人们所讨论。
在小样本分类任务中存在着跨域问题,即待识别的新类别可能与训练集属于同一个域,也可能属于其他的域。这对小样本学习和模型提出了更高的识别要求和更高的泛化能力。
2019年,Chen等人通过大量实验说明随着域差别的增加,准确率呈现较大幅度下降,验证了小样本分类中存在的跨域问题。并且跨域小样本分类时预训练与微调相结合的学习方式所表现出来的性能要优于各种元学习模型。(Chen W Y,Liu Y C,Kira Z,et al.Acloser look at few-shot classification[C].2019.)
2020年,Guo等人经实验发现元学习模型在同一域下的性能表现相近,而一种元学习模型在不同目标域下的性能表现有明显差距。验证了小样本识别跨域问题的存在和元学习模型效果显著下降的问题。(Guo Y H,Codella N C,Karlinsky L,et al.A broaderstudy of cross-domain few-shot learning[C].2020:124-141.)
2020年,Shi等人在语音检测检测任务中发现元学习整体比微调方法有更好的表现,且原型网络最佳。这是由于声音信号会经过log-mel特征提取使得域差异减小,但在图像分类中由于域差异的增大,模型性能会随之大幅度下降。(Shi B,Sun M,Puvvada K C,etal.Few-shot acoustic event detection via meta-learning[C].2020:76-80.)
2020年,Tseng等人提出了一种明智的特征转换层(Feature-wiseTransformation,FT)并用于基于度量学习的特征编码器与度量函数相结合的结构,将FT代替模型中部分的批量归一化(Batch Normalization,BN)层,FT的参数有经验值0.3和0.5或是自学习得到,而且使用了多种度量框架在单跨域和多跨域上进行实验,效果显著。(TsengH Y,Lee H Y,Huang J B,et al.Cross-domain few-shot classification via learnedfeature-wise transformation[C].2020.)
虽然,跨域问题被人们逐渐深入研究并取得了一定的效果,但是,研究者们似乎都只在思考和研究域之间的差异性,和如何提高跨域的一个模型泛化能力问题,却忽略了一个细粒度识别的问题:在跨域分类时,域间或域内的某些数据之间整体分布差异性较小,细粒度分析时差异性较大的细粒度识别问题。如在Tseng和Chen等在跨域实验中使用了CUB据集,这个数据本身也是细粒度识别任务的经典数据集。
细粒度图像识别(Fine-grained image recognition,FGIR)是计算机视觉领域的任务之一,研究方法大致分为三种:基于细粒度特征学习方法、基于目标块的检测和对齐的方法、基于视觉注意力机制的方法等。
2015年,Lin等人提出了一种简单有效的双线性CNN架构,用于解决细粒度视觉识别问题。(Lin T Y,RoyChowdhury A,Maji S.Bilinear CNN models for fine-grainedvisual recognition[C].2015:1449-1457.)
2019年,葛疏雨等人采用核化方法改进了双线性CNN特征图之间的非线性关系。(葛疏雨,高子淋,张冰冰,等.基于核化双线性卷积网络的细粒度图像分类[J].2019,47(10):2134-2141.)
2017年,沈海鸿等人使用聚类算法指导构建分层双线性CNN模型,以此提升分类精度。(沈海鸿,杨兴,汪凌峰,等.分类错误指导的分层B-CNN模型用于细粒度分类[J].2017,22(07):906-914.)
2020年,吕政阳等人采用粗、细粒度图像不同识别方法对钣金件图像进行识别与分割。(吕政阳,邓涛,张丽艳.一种基于机器视觉的飞机钣金件跨粒度识别方法[J].2020,41(02):195-204.)
2017年,Fu等人提出了一个递归注意力CNN用相互强化的方式对判别区域注意力和基于区域的特征表征进行递归学习。(Fu J L,Zheng H L,Mei T.Look Closer to SeeBetter:Recurrent Attention Convolutional Neural Network for Fine-GrainedImage Recognition[C].Piscataway:IEEE,2017:4476-4484.)
目前针对FGIR问题的研究已经有了许多进展,但是对于小样本分类任务中细粒度问题尚未出现能有效解决的技术方案。
发明内容
为了解决上述现有技术存在的问题,本发明实现一种专注细粒度识别(FocusFine-grained Recognition,FFGR)的跨域小样本图像分类模型方法,通过引入残差注意力模块来指导模型前端的专注特征编码器(More Focused Feature Encoder,MFFE)提取跨域数据集的特征学习,并学习到了更专注的语义特征用于细粒度分析识别;为了跨域时域内不同类别存在的细粒度图像识别问题,本发明在模型后端提出双线性度量函数(BilinearMetric Function,BMF)结构,通过权值不共享的2个相同度量函数分别学习MFFE输出的图像特征,用于细粒度图像识别。最后,采用预测得分相乘的方式融合BMF识别情况,得到最终分类结果。
本发明主要针对特征编码器,提出对图像特征和度量函数分类识别的模型结构进行改进,主要解决跨域小样本图像分类时存在的细粒度图像识别问题。
本发明的方法包括3个阶段:搭建专注细粒度识别的跨域小样本分类模型-预训练专注特征编码器(MFFE)-专注细粒度识别(FFGR)模型分类识别:第1阶段是构建FFGR,即构建好MFFE和BMF的网络结构;第2阶段是对MFFE进行预训练,然后迁移到FFGR中用于图像特征提取;第3阶段是对提取到的特征信息进行预测分类。具体过程包括:1)搭建专注细粒度识别的跨域小样本分类FFGR模型:该模型通过前端专注特征编码器提取图像特征,和后端双线性度量函数利用图像特征进行分类识别来实现;2)预训练专注特征编码器(MFFE):在mini-ImageNet数据集上对图像分类识别进行预训练,然后将预训练好的MFFE模型和参数迁移到本发明的FFGR模型中与BMF相结合,作为FFGR的前端用于提取图像的特征信息;3)专注细粒度识别(FFGR)模型分类识别:利用BMF对MFFE提取到的特征进行学习,通过权值不共享的双线性通道分别学习图像的不同特征信息,最后采用预测得分相乘的方式融合BMF识别情况,实现图像的分类识别。
本发明中,专注特征编码器(MFFE)是由残差网络(Residual Network,ResNet)和残差注意力模块(Residual Attention Module,RAM)组成,需先单独进行预训练,然后将训练好的模型参数代入到本发明的FFGR模型(包括图像特征提取模块MFFE、图像分类识别模块BMF),最后使用小样本数据集进行最后的训练调优,即实现对图像进行分类识别。
具体来说,针对跨域小样本图像数据集中分类识别问题,本发明的方法包括下列步骤:
A.搭建专注细粒度识别的跨域小样本分类模型FFGR:该模型采用两步识别的策略实现图像的分类识别,即图像的特征信息提取和特征分类识别,具体实现如下:
A1.建立专注特征编码器(MFFE),用于图像的特征信息提取,提取并增强图像中对模型分类识别更重要的特征信息,得到特征图或特征向量;
首先建立用于图像特征提取的MFFE,然后采用微调的思想,先在小样本数据集上对MFFE进行预训练,将训练好的MFFE迁移到本发明搭建的FFGR模型结构中,最后在利用相同的小样本数据集对FFGR进行微调,得到训练好的最终的专注细粒度识别的跨域小样本分类模型FFGR,使得最终模型中的图像特征信息可以更好的服务于BMF的细粒度图像识别。
MFFE由ResNet和RAM组成,用于提取图像的特征信息。
A2.建立双线性度量函数(BMF)分类识别结构,用于特征分类识别,对MFFE提取到的图像特征信息进行分类识别:选择不同的度量函数,对每种度量函数建立BMF结构,对图像的特征信息进行分类识别。
建立专注特征编码器(MFFE),MFFE由ResNet和RAM组成。具体实现如下:
A11.MFFE使用ResNet10作为基础网络,使用了conv1、conv2_x到conv5_x的9个卷积模块作为网络模型的图像特征提取层。
A12.以堆叠的方式在ResNet10的conv2_x、conv3_x和conv4_x后面分别插入1个残差注意力模块(RAM),堆叠式的特征提取和注意力模块中的特征金字塔形式的特征融合,可以线性增强所提取到的图像特征信息,也不需要预训练RAM模块。
RAM中具体包含了残差块(Residual unit)、最大池化(MaxPool)和上采样(Upsampling)等,可使原有网络达到更深的层次,能够有效提取跨域时不同数据集的特征分布情况。而且,RAM中带有残差学习方法,由残差块和最大池化逐维提取不同空间和视野的深层特征,再由残差块和上采样保留各视野下的图像特征,不同层图像特征进行融合,然后再由Sigmoid得到M(x)为注意力参数,最后将注意力特征进行融合(如公式(1)、(2))。
F(x)=RU(x) (1)
F′(x)=(1+M(x))·F(x) (2)
式中,x为上一层所提取的特征图,RU(x)由三层残差块堆叠组成,F′(x)为x经过RAM后得到的结果。MFFE最后输出的特征向量E(x)维度由选取的度量函数决定。
A13.利用小样本图像数据集(mini-ImageNet)和交叉熵分类损失函数预训练MFFE。
A14.采用迁移学习的思想,将预训练好的MFFE迁移到本发明的FFGR模型中,作为小样本图像特征信息提取器。
A15.利用小样本图像数据集(mini-ImageNet),微调专注特征编码器(MFFE)的参数,使得该网络结构可以更加快速精准的提取到图像的特征信息。
小样本图像特征信息分类识别,针对基于度量学习的小样本跨域分类问题,模型旨在将图像数据映射到某个高维空间,在这个空间中同类数据聚集在一起,不同类数据相距越远越好。模型将数据映射到高维空间的过程,也是模型在提取图像数据关键特征的过程。跨域分类问题,就是解决如何细粒度地提取到某种特征以识别不同域的数据分布。本发明采用双线性度量函数(BMF)框架,权值不共享,在模型训练中各线性通道通过自学习方式确定自己应该提取图像的某部位特征。然后,各通道经过最后的全连接层分别得到各自对图像的预测得分情况。BMF分类识别结构,由2个度量函数并联通道组成;具体实现如下:
A21.建立双线性度量函数(BMF)结构,由2个度量函数并联组成。
A22.小样本图像经过专注特征编码器(MFFE)提取得到图像特征信息,然后分别经过双线性度量函数BMF结构的2个相同的度量函数进行细粒度识别学习。
由于BMF的权重参数是不共享的,所以各自所学习关注图像的特征也是不同的,2个度量函数称为度量函数A和度量函数B。本发明采用对应类别得分相乘的方式汇合得到融合预测得分(如公式(3))。
p(Y|xi)=pA(Y|xi)·pB(Y|xi) (3)
其中,第i张图像xi由MFFE得到的特征信息,然后分别进入相同度量函数但权重参数不共享的A和B得到预测得分pA(Y|x)、pB(Y|x),其维度均为1×C,C为类别数量。两个向量中对应元素表示两个度量函数将xi都预测为同一类的得分情况,将其相乘后得到融合预测结果p(Y|xi)。当不同通道对图像进行同一类预测时,如果他们各自所关注的特征最后得到的预测得分都很高,说明两种特征都很符合这个类所含的特征,这样预测得分相乘的方式会增强预测结果。反之,如果有一方预测得分较低,说明在此方所关注的特征得到的结果并不与当前预测的类的特征相似,最终预测得分就会受到抑制。
A23.模型优化采用交叉熵分类损失函数(如公式(4)),对每个样本所得到的最终预测结果进行处理。
Figure BDA0002904953510000071
其中,L(x)为交叉熵分类损失函数;第i张图像xi由MFFE得到的特征信息,在由公式(3)得到p(Y=yk|xi),k为类别标号,yk为真实标签,即预测xi所得到的结果与第k类真实标签相同的概率为p(Y=yk|xi)。
在专注细粒度识别的跨域小样本分类模型方法中,通过联合专注特征编码器和双线性度量函数,利用少量的图像数据优化训练网络模型,使得该模型能够完成跨域小样本图像分类识别任务。
与现有技术相比,本发明的有益效果是:
本发明提供一种专注细粒度识别的跨域小样本分类模型方法,专注特征编码器(MFFE)提取小样本图像特征信息;双线性度量函数(BFM)结构分别对特征信息进行学习分类预测,实现小样本图像特征信息的分类识别。具体地:
(1)针对跨域小样本图像特征信息的提取,存在类别数量较多和跨域数据特征分布不同使得ResNet10网络提取图像特征不足等问题,本发明在特征编码器中加入了残差注意力模块(RAM)和利用迁移学习的思想,使专注特征编码器(MFFE)更加快速并高效的提取到小样本图像特征信息,也让后续模型的整体优化更加快捷精准。
(2)针对跨域小样本存在细粒度图像识别的问题,本发明在分类识别网络中采用权重参数不共享的双线性度量函数(BMF)结构,分别对图像特征信息进行各自的学习,最后由预测得分相乘的方法将不同的分类预测识别结果进行融合,实施结果表明比现有最先进的技术的分类准确率要高。
附图说明
图1是本发明提供的一种专注细粒度识别的跨域小样本图像分类模型方法的流程框图。
图2是本发明提供的一种专注细粒度识别的跨域小样本分类模型的结构示意图。
图3是本发明提供的残差注意力模块结构示意图。
图4是本发明提供的双线性度量函数(BMF)选用RelationNet的网络结构示意图;
其中,MFFE是专注特征编码器。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
模型结构如图1所示。本发明方法包括:1)搭建专注细粒度识别的跨域小样本图像分类模型:该模型通过前端专注特征编码器提取图像特征,和后端双线性度量函数利用图像特征进行分类识别来实现;2)预训练专注特征编码器(MFFE):在mini-ImageNet数据集上对图像分类识别进行预训练,然后将预训练好的MFFE模型和参数迁移到本发明的FFGR模型中与BMF相结合,作为FFGR的前端用于提取图像的特征信息;3)专注细粒度识别(FFGR)模型分类识别:利用BMF对MFFE提取到的特征进行学习,通过权值不共享的双线性通道分别学习图像的不同特征信息,最后采用预测得分相乘的方式融合BMF识别情况,实现图像的分类识别。包括如下步骤:
A1.建立专注特征编码器(MFFE),提取并增强图像中对模型分类识别更重要的特征信息,得到特征图或特征向量;
首先建立用于图像特征提取的MFFE,然后采用微调的思想,先在小样本数据集上对MFFE进行预训练,将训练好的MFFE迁移到本发明搭建的FFGR模型结构中,最后在利用相同的小样本数据集对FFGR进行微调,得到最终的专注细粒度识别的跨域小样本分类模型,使得最终模型中的图像特征信息可以更好的服务于BMF的细粒度图像识别。
MFFE由ResNet和RAM组成,用于提取图像的特征信息。
A2.建立双线性度量函数(BMF)分类识别结构,对MFFE提取到的图像特征信息进行分类识别:选择不同的度量函数,对每种度量函数建立BMF结构,对图像的特征信息进行分类识别。
建立专注特征编码器(MFFE),MFFE由ResNet和RAM组成。具体实现如下:
B1.MFFE使用ResNet10作为基础网络,使用了conv1、conv2_x到conv5_x的9个卷积模块作为网络模型的图像特征提取层。
B2.以堆叠的方式在ResNet10的conv2_x、conv3_x和conv4_x后面分别插入1个残差注意力模块(RAM),堆叠式的特征提取和注意力模块中的特征金字塔形式的特征融合,可以线性增强所提取到的图像特征信息,也不需要预训练RAM模块。
RAM中具体包含了残差块(Residual unit)、最大池化(MaxPool)和上采样(Upsampling)等,可使原有网络达到更深的层次,能够有效提取跨域时不同数据集的特征分布情况。而且,RAM中带有残差学习方法,由残差块和最大池化逐维提取不同空间和视野的深层特征,再由残差块和上采样保留各视野下的图像特征,不同层图像特征进行融合,然后再由Sigmoid得到M(x)为注意力参数,最后将注意力特征进行融合(如公式(1)、(2))。
F(x)=RU(x) (5)
F′(x)=(1+M(x))·F(x) (6)
式中,x为上一层所提取的特征图,RU(x)由三层残差块堆叠组成,F′(x)为x经过RAM后得到的结果。MFFE最后输出的特征向量E(x)维度由选取的度量函数决定。
B3.利用小样本图像数据集(mini-ImageNet)和交叉熵分类损失函数预训练MFFE。
B4.采用迁移学习的思想,将预训练好的MFFE迁移到本发明的FFGR模型中,作为小样本图像特征信息提取器。
B5.利用小样本图像数据集(mini-ImageNet),微调专注特征编码器(MFFE)的参数,使得该网络结构可以更加快速精准的提取到图像的特征信息。
小样本图像特征信息分类识别,针对基于度量学习的小样本跨域分类问题,模型旨在将图像数据映射到某个高维空间,在这个空间中同类数据聚集在一起,不同类数据相距越远越好。模型将数据映射到高维空间的过程,也是模型在提取图像数据关键特征的过程。跨域分类问题,就是解决如何细粒度地提取到某种特征以识别不同域的数据分布。本发明采用双线性度量函数(BMF)框架,权值不共享,在模型训练中各线性通道通过自学习方式确定自己应该提取图像的某部位特征。然后,各通道经过最后的全连接层分别得到各自对图像的预测得分情况。BMF分类识别结构,由2个度量函数并联通道组成;具体实现如下:
C1.建立双线性度量函数(BMF)结构,由2个度量函数并联组成。
C2.小样本图像经过专注特征编码器(MFFE)提取得到图像特征信息,然后分别经过2个相同的度量函数进行细粒度识别学习。
由于BMF的权重参数是不共享的,所以各自所学习关注图像的特征也是不同的。本发明采用对应类别得分相乘的方式汇合得到融合预测得分(如公式(3))。
p(Y|xi)=pA(Y|xi)·pB(Y|xi) (7)
其中,第i张图像xi由MFFE得到的特征信息,然后分别进入相同度量函数但权重参数不共享的A和B得到预测得分pA(Y|x)、pB(Y|x),其维度均为1×C,C为类别数量。两个向量中对应元素表示两个度量函数将xi都预测为同一类的得分情况,将其相乘后得到融合预测结果p(Y|xi)。当不同通道对图像进行同一类预测时,如果他们各自所关注的特征最后得到的预测得分都很高,说明两种特征都很符合这个类所含的特征,这样预测得分相乘的方式会增强预测结果。反之,如果有一方预测得分较低,说明在此方所关注的特征得到的结果并不与当前预测的类的特征相似,最终预测得分就会受到抑制。
C3.模型优化采用交叉熵分类损失函数(如公式(4)),对每个样本所得到的最终预测结果进行处理。
Figure BDA0002904953510000101
在专注细粒度识别的跨域小样本分类模型方法中,通过联合专注特征编码器和双线性度量函数,利用少量的图像数据优化训练网络模型,使得该模型能够完成跨域小样本图像分类识别任务。
下面按照步骤,结合实例对本发明作进一步描述:
1专注特征编码器的预训练,MFFE的基础网络使用的是ResNet10,参数设置如表1所示。
表1 MFFE中的基础ResNet10网络结构参数设置
Figure BDA0002904953510000102
2对步骤1中的ResNet10的conv2_x、conv3_x和conv4_x后面分别插入1个残差注意力模块(RAM),RAM结构如图2所示。
3采用小样本数据集mini-ImageNet的训练集和交叉熵分类损失函数预训练MFFE的网络参数。并将预训练好的MFFE网络参数利用迁移学习的方法,迁移到本发明的专注细粒度识别(FFGR)模型中。
4设计针对跨域小样本存在的细粒度识别的分类网络,即FFGR模型中的分类识别部分:
4.1构建权重参数不共享的双线性度量函数(BMF)结构,度量函数可选择GnnNet、MatchingNet和RelationNet。以RelationNet为例BMF结构如图3所示。
小样本图像经过专注特征编码器(MFFE)提取得到图像特征信息,然后分别经过2个相同的度量函数进行细粒度识别学习。
4.2采用预测得分相乘的方法融合不同度量函数通道的预测结果。
两个度量函数通道得到两个结果,再采用相乘的方法将其融合。
由于BMF的权重参数是不共享的,所以各自所学习关注图像的特征也是不同的。
p(Y|xi)=pA(Y|xi)·pB(Y|xi) (3)
其中,第i张图像xi由MFFE得到的特征信息,然后分别进入相同度量函数但权重参数不共享的A和B得到预测得分pA(Y|x)、pB(Y|x),其维度均为1×C,C为类别数量。两个向量中对应元素表示两个度量函数将xi都预测为同一类的得分情况,将其相乘后得到融合预测结果p(Y|xi)。
5模型优化采用交叉熵分类损失函数,对每个样本所得到的最终预测结果进行处理。
Figure BDA0002904953510000111
6使用公共小样本数据集mini-ImageNet对本发明提出的专注细粒度识别的跨域小样本分类模型方法的参数进行微调和评估,执行操作如下:
6.1 mini-ImageNet共有100个类别,选取包含64个类、16个类、20个类的公开训练集、验证集、测试集作为本发明FFGR的训练集、验证集、测试集。选取CUB、Cars、Places和Plantae的4个数据集作为测试域;
6.2设置模型超参数,如表2所示:
表2模型超参数
Figure BDA0002904953510000112
Figure BDA0002904953510000121
6.3在CUB、Cars、Places和Plantae测试域中测试FFGR模型的效果,计算分类准确率,并采用了3种不同的度量函数:图神经网络(Graph Neural Network,GNN)、关系网络(Relation Network,RelationNet)、匹配网络(Matching Network,MchingNet),结果对比选择是最新方法:明智特征转换层(Feature-wise Transformation,FT),结果如表3所示:
表3 mini-ImageNet域上训练FFRG模型并在其他域评估训练后模型的性能情况。
Figure BDA0002904953510000122
7整体基于专注细粒度识别的跨域小样本分类模型性能评估:
表3中,CUB、Cars、Places和Plantae为四个图像数据集的名称。GNN、RelationNet、MatchingNet为三种度量函数。FT为已有实验方法。表3显示了本发明所提出的FFGR模型对于跨域小样本分类问题的良好性能。每个类别中所选图像数据量越少(如1-shot),对于模型优化能力所提出的要求就越高。然而,在5-way 1-shot下的实施结果均有不同幅度的涨点,尤其是“Our-MatchingNet”在CUB数据集下的评估结果相比“FT-MatchingNet”涨幅近13.82%。从实施结果可以看出,本发明的方法相比最新的“FT”的方法取得了更高的准确率,该方法在一定程度上可以提升跨域小样本图像分类识别的准确率。
最后需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (6)

1.一种专注细粒度识别的跨域小样本图像分类模型方法,构建专注细粒度识别的跨域小样本分类模型FFGR,FFGR模型采用两步识别的方法,包括图像特征提取模块MFFE和图像特征分类识别模块BMF;通过前端专注特征编码器提取图像特征,再通过后端双线性度量函数利用图像特征进行图像分类识别;包括如下步骤:
A1.建立专注特征编码器MFFE作为图像特征提取模块,包括残差网络ResNet和残差注意力模块RAM,用于进行图像特征提取,得到特征图或特征向量;包括步骤A11~A15:
A11.使用ResNet10作为基础网络,使用conv1、conv2_x到conv5_x的卷积模块作为网络模型的图像特征提取层;
A12.以堆叠的方式在ResNet10的conv2_x、conv3_x和conv4_x后面分别插入残差注意力模块RAM,堆叠式地提取特征和融合残差注意力模块RAM中的特征金字塔形式的特征,线性增强所提取到的图像特征信息,且不需要预训练RAM模块;
A13.利用小样本图像数据集和交叉熵分类损失函数预训练MFFE,得到预训练好的MFFE;
A14.采用迁移学习方法,将预训练好的MFFE迁移到FFGR模型中,作为小样本图像特征信息提取器;
A15.利用小样本图像数据集微调MFFE的参数,使其快速精准的提取到图像的特征信息;
A2.建立双线性度量函数分类识别结构模块BMF,对每种度量函数建立BMF结构,对MFFE提取到的图像特征信息进行分类识别;包括步骤A21~;
A21.建立双线性度量函数BMF结构,由2个度量函数并联组成;
A22.小样本图像经过专注特征编码器MFFE提取得到图像特征信息,分别经过双线性度量函数BMF结构的2个相同的度量函数进行细粒度识别学习;
BMF的权重参数不共享,通过权值不共享的双线性通道分别学习图像的不同特征信息,采用对应类别得分相乘的方式汇合得到融合预测得分;
A23.采用交叉熵分类损失函数进行模型优化,对每个样本所得到的最终预测结果进行处理;
通过上述步骤,采用联合专注特征编码器和双线性度量函数,利用少量的图像数据优化训练网络模型,实现专注细粒度识别的跨域小样本图像分类识别。
2.如权利要求1所述的专注细粒度识别的跨域小样本图像分类模型方法,其特征是,具体采用mini-ImageNet图像数据集进行预训练。
3.如权利要求1所述的专注细粒度识别的跨域小样本图像分类模型方法,其特征是,步骤A12中,RAM具体包括残差块、最大池化和上采样,用于使原有网络达到更深的层次,有效提取跨域时不同数据集的特征分布情况;RAM中还带有残差学习方法,由残差块和最大池化逐维提取不同空间和视野的深层特征,再由残差块和上采样保留各视野下的图像特征,不同层图像特征进行融合,然后再由Sigmoid得到M(x)为注意力参数,最后将注意力特征进行融合。
4.如权利要求3所述的专注细粒度识别的跨域小样本图像分类模型方法,其特征是,步骤A12中,注意力特征进行融合表示为式(1)、(2):
F(x)=RU(x) (1)
F′(x)=(1+M(x))·F(x) (2)
式中,x为上一层所提取的特征图,RU(x)由三层残差块堆叠组成,F′(x)为x经过RAM后得到的结果;MFFE最后输出的特征向量E(x)维度由选取的度量函数决定。
5.如权利要求1所述的专注细粒度识别的跨域小样本图像分类模型方法,其特征是,步骤A22中,BMF采用对应类别得分相乘的方式汇合得到融合预测得分p(Y|xi),表示为式(3):
p(Y|xi)=pA(Y|xi)·pB(Y|xi) (3)
其中,第i张图像xi由MFFE得到的特征信息,分别进入相同度量函数但权重参数不共享的A和B得到预测得分pA(Y|x)、pB(Y|x),其维度均为1×C,C为类别数量;两个向量中对应元素表示两个度量函数将xi均预测为同一类的得分情况,将其相乘后得到融合预测结果。
6.如权利要求5所述的专注细粒度识别的跨域小样本图像分类模型方法,其特征是,步骤A23中,进行模型优化采用的交叉熵分类损失函数表示为式(4):
Figure FDA0002904953500000021
其中,L(x)为交叉熵分类损失函数;第i张图像xi由MFFE得到的特征信息;由式(3)得到p(Y=yk|xi),k为类别标号,yk为真实标签,即预测xi所得到的结果与第k类真实标签相同的概率为p(Y=yk|xi)。
CN202110078446.6A 2021-01-19 2021-01-19 一种专注细粒度识别的跨域小样本图像分类模型方法 Active CN112766378B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110078446.6A CN112766378B (zh) 2021-01-19 2021-01-19 一种专注细粒度识别的跨域小样本图像分类模型方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110078446.6A CN112766378B (zh) 2021-01-19 2021-01-19 一种专注细粒度识别的跨域小样本图像分类模型方法

Publications (2)

Publication Number Publication Date
CN112766378A true CN112766378A (zh) 2021-05-07
CN112766378B CN112766378B (zh) 2023-07-21

Family

ID=75701881

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110078446.6A Active CN112766378B (zh) 2021-01-19 2021-01-19 一种专注细粒度识别的跨域小样本图像分类模型方法

Country Status (1)

Country Link
CN (1) CN112766378B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378937A (zh) * 2021-06-11 2021-09-10 西安电子科技大学 一种基于自监督增强的小样本图像分类方法及系统
CN114092742A (zh) * 2021-11-19 2022-02-25 西安交通大学 一种基于多角度的小样本图像分类装置和方法
CN116543269A (zh) * 2023-07-07 2023-08-04 江西师范大学 基于自监督的跨域小样本细粒度图像识别方法及其模型

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647912A (zh) * 2019-08-15 2020-01-03 深圳久凌软件技术有限公司 细粒度图像识别方法、装置、计算机设备及存储介质
CN111191737A (zh) * 2020-01-05 2020-05-22 天津大学 基于多尺度反复注意力机制的细粒度图像分类方法
US20200285896A1 (en) * 2019-03-09 2020-09-10 Tongji University Method for person re-identification based on deep model with multi-loss fusion training strategy
CN112132004A (zh) * 2020-09-21 2020-12-25 南水北调中线信息科技有限公司 一种基于多视角特征融合的细粒度图像识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200285896A1 (en) * 2019-03-09 2020-09-10 Tongji University Method for person re-identification based on deep model with multi-loss fusion training strategy
CN110647912A (zh) * 2019-08-15 2020-01-03 深圳久凌软件技术有限公司 细粒度图像识别方法、装置、计算机设备及存储介质
CN111191737A (zh) * 2020-01-05 2020-05-22 天津大学 基于多尺度反复注意力机制的细粒度图像分类方法
CN112132004A (zh) * 2020-09-21 2020-12-25 南水北调中线信息科技有限公司 一种基于多视角特征融合的细粒度图像识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邓旭冉;闵少波;徐静远;李攀登;谢洪涛;张勇东;: "深度细粒度图像识别研究综述", 南京信息工程大学学报(自然科学版), no. 06 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378937A (zh) * 2021-06-11 2021-09-10 西安电子科技大学 一种基于自监督增强的小样本图像分类方法及系统
CN113378937B (zh) * 2021-06-11 2023-08-11 西安电子科技大学 一种基于自监督增强的小样本图像分类方法及系统
CN114092742A (zh) * 2021-11-19 2022-02-25 西安交通大学 一种基于多角度的小样本图像分类装置和方法
CN114092742B (zh) * 2021-11-19 2024-02-06 西安交通大学 一种基于多角度的小样本图像分类装置和方法
CN116543269A (zh) * 2023-07-07 2023-08-04 江西师范大学 基于自监督的跨域小样本细粒度图像识别方法及其模型
CN116543269B (zh) * 2023-07-07 2023-09-05 江西师范大学 基于自监督的跨域小样本细粒度图像识别方法及其模型

Also Published As

Publication number Publication date
CN112766378B (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN110738146B (zh) 一种目标重识别神经网络及其构建方法和应用
CN112766378A (zh) 一种专注细粒度识别的跨域小样本图像分类模型方法
Chandio et al. Precise single-stage detector
CN111539370A (zh) 一种基于多注意力联合学习的图像行人重识别方法和系统
CN108090472B (zh) 基于多通道一致性特征的行人重识别方法及其系统
CN111881714A (zh) 一种无监督跨域行人再识别方法
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN114462555B (zh) 基于树莓派的多尺度特征融合配电网设备识别方法
US11804036B2 (en) Person re-identification method based on perspective-guided multi-adversarial attention
CN113326731A (zh) 一种基于动量网络指导的跨域行人重识别算法
CN110598018B (zh) 一种基于协同注意力的草图图像检索方法
CN113255892A (zh) 一种解耦合的网络结构搜索方法、设备及可读存储介质
CN111695531A (zh) 一种基于异构卷积网络的跨域行人再识别方法
CN115063832A (zh) 一种基于全局与局部特征的对抗学习跨模态行人重识别方法
CN114022703A (zh) 一种基于深度学习的高效车辆细粒度识别方法
CN113095479A (zh) 一种基于多尺度注意力机制的冰下层结构提取方法
CN113609927B (zh) 基于分支学习和分层伪标签的行人重识别网络训练方法
CN114780767A (zh) 一种基于深度卷积神经网络的大规模图像检索方法及系统
CN114898136A (zh) 一种基于特征自适应的小样本图像分类方法
CN113032612A (zh) 一种多目标图像检索模型的构建方法及检索方法和装置
Chen et al. Dual Attention Network for Unsupervised Domain Adaptive Person Re-identification
CN113837048B (zh) 基于少样本注意力的车辆重识别方法
CN112364892B (zh) 一种基于动态模型的图像识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant