CN110807465B - 一种基于通道损失函数的细粒度图像识别方法 - Google Patents

一种基于通道损失函数的细粒度图像识别方法 Download PDF

Info

Publication number
CN110807465B
CN110807465B CN201911072231.2A CN201911072231A CN110807465B CN 110807465 B CN110807465 B CN 110807465B CN 201911072231 A CN201911072231 A CN 201911072231A CN 110807465 B CN110807465 B CN 110807465B
Authority
CN
China
Prior art keywords
feature
features
loss function
depth
fine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911072231.2A
Other languages
English (en)
Other versions
CN110807465A (zh
Inventor
马占宇
常东良
谢吉洋
丁逸枫
司中威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201911072231.2A priority Critical patent/CN110807465B/zh
Publication of CN110807465A publication Critical patent/CN110807465A/zh
Application granted granted Critical
Publication of CN110807465B publication Critical patent/CN110807465B/zh
Priority to US17/039,346 priority patent/US11501518B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

本发明一种基于通道损失函数的细粒度图像识别方法,包括下列步骤:特征提取、特征判别性损失函数计算、特征多样性损失函数计算、模型优化损失函数计算,本发明综合考虑了细粒度图像类内差异大,类间差异小,背景噪声影响大等因素的一项,约束属于每个类别的特征图都具有判别性,且具有对应类别的特征,减小了类内的差异性,降低了学习的难度,学习到了更好的判别性特征;约束属于每个类别的特征图均具有多样性,从而增大了类间的差异性,从而取得了良好的效果,易于实际部署,在多个细粒度图像分类任务上起到了明显的效果提升。

Description

一种基于通道损失函数的细粒度图像识别方法
技术领域
本发明涉及细粒度图像识别技术领域,尤其是一种基于通道损失函数的细粒度图像识别方法。
背景技术
细粒度物体在现实生活中广泛存在,与之相对应的细粒度图像识别是计算机视觉识别中的一个重要问题,同时在日常生活中存在较大需求,当前细粒度图像识别主要存在以下三个方面的挑战:
(1)同类别的图像因形体、背景、遮挡等因素有较大的类内差异性;
(2)不同类别的图像因属于同一大类,具有较小的类间差异性;
(3)对细粒度图像的收集、标注费时费力;如图5所示;细粒度分类具有类内差异大,类间差异小的特性;图5左右两图分别为两个制造商制造的车辆;其中左侧图为每一行是一种model的车辆;
现有的细粒度图像识别方法主要通过以下三个方面达到识别的目的:
(1)对图像中的局部特征进行定位;
(2)提取具有判别力的特征用于图像识别;
(3)结合图像的全局特征与局部特征实现图像的细粒度分类;
例如,相似方案1:双线性池化细粒度图像分类(Bilinear pooling);通过预训练的孪生卷积神经网络(convolutional neural networks)提取特征,并在特征的各个通道层面进行双线性池化,得到特征的高阶表示,刻画目标图像内的细节特征。该方法通过一种新的池化方式,实现了细粒度图像识别准确率的提升;
相似方案1提出了一种新的双线性池化方式,但在细粒度图像类别间关系、模型参数量、细节区域的数量等方面没有针对细粒度图像识别进行有效的设计;没有考虑到细粒度图像蕴含多种细节信息,类间差异小,类内差异大等因素的影响;
相似方案2:多注意力卷积神经网络(multi-attention convolutional neuralnetwork);该方法通过预训练的卷积神经网络(convolutional neural networks)提取特征,并对特征的各个通道(channel)进行聚类,得到特征的部件化(细节化)表示,刻画目标图像类的多种细节特征。该方法通过一种新的对特征内通道的聚类方式,实现了细粒度图像识别准确率的提升。
对于相近方案2,虽然实现了对细粒度图像蕴含的多种细节信息的建模,但极大的增大了模型的参数量,且没有考虑到多种细节信息之间的关系,没有对类内类间的关系进行建模,因此在细粒度图像变化多样时,很难获得较好的性能,实际部署非常困难。
发明内容
为了克服上述现有技术的不足,本发明提供一种基于通道损失函数的细粒度图像识别方法,提升了细粒度图像识别的准确率。
一种基于通道损失函数的细粒度图像识别方法,包括下列步骤:
步骤一:特征提取:基于卷积神经网络(CNN)的网络结构,通过在数据集ImageNet上预训练权重后,形成特征提取网络,将输入图像输入到所述特征提取网络中,得到对应的深度特征;
作为一种举例说明,所述卷积神经网络包括:VGG、ResNet和DenseNet中的一种;
进一步的,可通过对所述卷积神经网络进行微调,即fine-tune操作,使得所述卷积神经网络适应特定的任务;
进一步的,所述输入图像为:
Figure GDA0002489956670000031
提取该输入图像对应的深度特征:
Figure GDA0002489956670000032
其中,N表示所述深度特征的通道数,W和H分别表示每一个深度特征的宽度和高度;此外,要求所述深度特征的通道数N等于c×ξ,其中,c表示训练数据集中总的类别数,ξ表示为每一个类别分配的特征图的数目;因此,所述深度特征F的第n维特征图可以表示为:
Figure GDA0002489956670000033
作为一种举例说明,所述深度特征为feature map,即特征图;
因此,属于第i类的所述深度特征可以被表示为
Figure GDA0002489956670000034
其中
Figure GDA0002489956670000035
即:
Figure GDA0002489956670000036
从而得到分组的深度特征F,即:
F={F0,F1,...,Fc-1};
步骤二:特征判别性损失函数计算:通过此步骤,可以使通过卷积神经网络获得的所述深度特征具有对分类有益的高维语义信息;该步骤包括:
A、特征随机注意力选取:将步骤一中得到的所述深度特征分为c组,并在每组深度特征中随机丢弃二分之一;
作为一种举例说明,所述c为训练数据集中总的类别数;
B、特征显著性融合:将余下的每组所述深度特征,在相同位置处取最大值,获得每组深度特征对应的显著特征;
C、类别预测值获取:对每一个所述显著特征求平均值,得到对应类别的预测值;
D、多分类交叉熵计算:对得到的所述预测值计算多分类交叉熵,即得到深度特征判别性损失;
进一步的,所述深度特征判别性损失的函数计算包括:
步骤A、通过随机注意力机制(CWA),对步骤一得到的深度特征F中每个类别对应的特征Fi进行随机丢弃,丢弃二分之一的通道数,即:
Fi=Maski*Fi
Maski=diag(Maski)
其中,
Figure GDA0002489956670000041
是一个只包含0,1的掩模矩阵,由一半的0和一半的1组成;所述diag()是一个点乘操作,从而实现了对深度特征的通道注意力;
步骤B、通过所述特征显著性融合(CCMP),对得到的经过所述特征随机注意力选取的Fi在不同特征图的相对位置取最大值,进而将特征图中每个位置的值加起来(CAP),即可获得每组特征的显著特征:
Figure GDA0002489956670000042
步骤C、通过对每一个显著特征求平均值,得到对应类别的所述预测值(Softmax),即:
Figure GDA0002489956670000043
步骤D、通过对得到的N类别所述预测值计算多分类交叉熵,即得到所述深度特征判别性损失Ldis(F),即:
Ldis(F)=LCE(y,pred)
其中,LCE表示分类交叉熵损失函数,其使用真实类别y与模型预测类别pred计算损失函数;
步骤三:特征多样性损失函数计算;通过此步骤可使通过所述卷积神经网络获得的深度特征具有差异性,包括:
A、特征值归一化:对所述步骤一中得到的每一个所述深度特征的通道做软最大化(Softmax),获得归一化的特征;
B、归一化的特征显著性融合:在每组归一化的特征的相同位置处取最大值,获得每组归一化的特征对应的归一化显著特征;
C、特征多样性损失函数计算:对每组经过所述归一化的特征显著性融合之后的特征值进行求和,得到该组(即每组只剩一个特征)特征的显著性,将多组特征的显著性求和,即可得到特征多样性损失;
进一步的,所述特征多样性损失函数计算,包括:
步骤A、通过对所述步骤一得到的每一个所述深度特征的通道做软最大化(Softmax),获得归一化的特征,Fi,即:
Figure GDA0002489956670000051
步骤B、通过所述归一化的特征显著性融合(CCMP),对所述Fi在不同特征图的相对位置取最大值,获得每组特征对应的显著特征,即:
Figure GDA0002489956670000052
其中,j表示特征图上位置;进而,将特征图中每个位置的值加起来(Sum),即可获得每组特征的显著性:
Figure GDA0002489956670000053
步骤C、将每组特征的显著性求均值(Average),即可得到所述特征多样性损失Ldiv(F),即:
Figure GDA0002489956670000054
步骤四:模型优化损失函数计算:
A、计算所述深度特征的多分类交叉熵损失;
B、将所述多分类交叉熵损失与所述特征判别性损失及特征多样性损失加权融合,即可得到模型优化损失函数;
进一步的,所述模型优化损失函数计算包括:
步骤A、将所述深度特征作为全连接层的输入,对深度特征的高维语义特征集性约束,得到交叉熵损失函数LCE(F).
步骤B、将所述特征判别性损失Ldis(F)和特征多样性损失Ldiv(F),以及所述交叉熵损失函数LCE(F)加权融合,即可得到模型优化损失函数Loss(F),即:
Figure GDA0002489956670000061
进一步的,所述模型优化损失函数,即通过所述特征判别性损失和特征多样性损失,获得了输入图像的更多更好的局部或区域特征,这是更好的解决细粒度图像分类任务的关键;
有益效果:
本发明综合考虑了细粒度图像类内差异大,类间差异小,背景噪声影响大等因素的一项,通过特征判别性损失函数,约束属于每个类别的特征图都具有判别性,且具有对应类别的特征,减小了类内的差异性,降低了学习的难度,学习到了更好的判别性特征;通过新的特征多样性损失函数,约束属于每个类别的特征图均具有多样性,从而增大了类间的差异性,进一步降低了模型的学习难度,学习到了更多的不同的特征;
综合以上两点,本发明在细粒度图像分类任务上获得了更多更有判别性的特征,从而取得了良好的效果,相比现有的方法更具针对性,效果更好,且易于实际部署,充分考虑了细粒度图像分类的特性,在多个细粒度图像分类任务上起到了明显的效果提升。
附图说明
图1为本发明一种基于通道损失函数的细粒度图像识别方法之特征判别性损失函数计算流程图
图2为本发明一种基于通道损失函数的细粒度图像识别方法之特征多样性损失函数计算流程图
图3为本发明一种基于通道损失函数的细粒度图像识别方法之模型优化损失函数计算流程图
图4为本发明一种基于通道损失函数的细粒度图像识别方法之特征可视化举例示意图
图5为本发明一种基于通道损失函数的细粒度图像识别方法之现有技术对细粒度图像的收集标注示意图
具体实施方式
下面对本发明的技术方案进行具体阐述,需要指出的是,本发明的技术方案不限于实施例所述的实施方式,本领域的技术人员参考和借鉴本发明技术方案的内容,在本发明的基础上进行的改进和设计,应属于本发明的保护范围。
参照图1至图5所示,一种基于通道损失函数的细粒度图像识别方法,包括下列步骤:
步骤一:特征提取:基于卷积神经网络(CNN)的网络结构,通过在数据集ImageNet上预训练权重后,形成特征提取网络,将输入图像输入到所述特征提取网络中,得到对应的深度特征;
作为一种举例说明,所述卷积神经网络包括:VGG、ResNet和Densenet中的一种;
进一步的,可通过对所述卷积神经网络进行微调,即fine-tune操作,使得所述卷积神经网络适应特定的任务;
进一步的,所述输入图像为:
Figure GDA0002489956670000071
提取该输入图像对应的深度特征:
Figure GDA0002489956670000072
其中,N表示所述深度特征的通道数,W和H分别表示每一个深度特征的宽度和高度;此外,要求所述深度特征的通道数N等于c×ξ,其中,c表示训练数据集中总的类别数,ξ表示为每一个类别分配的特征图的数目;因此,所述深度特征F的第n维特征图可以表示为:
Figure GDA0002489956670000081
作为一种举例说明,所述深度特征为feature map,即特征图;
因此,属于第i类的所述深度特征可以被表示为
Figure GDA0002489956670000082
其中
Figure GDA0002489956670000083
即:
Figure GDA0002489956670000084
从而得到分组的深度特征F,即:
F={F0,F1,...,Fc-1};
步骤二:特征判别性损失函数计算:通过此步骤,可以使通过卷积神经网络获得的所述深度特征具有对分类有益的高维语义信息;该步骤包括:
A、特征随机注意力选取:将步骤一中得到的所述深度特征分为c组,并在每组深度特征中随机丢弃二分之一;
作为一种举例说明,所述c为训练数据集中总的类别数;
B、特征显著性融合:将余下的每组所述深度特征,在相同位置处取最大值,获得每组深度特征对应的显著特征;
C、类别预测值获取:对每一个所述显著特征求平均值,得到对应类别的预测值;
D、多分类交叉熵计算:对得到的所述预测值计算多分类交叉熵,即得到深度特征判别性损失;
进一步的,所述深度特征判别性损失的函数计算包括:
步骤A、通过随机注意力机制(CWA),对步骤一得到的深度特征F中每个类别对应的特征Fi进行随机丢弃,丢弃二分之一的通道数,即:
Fi=Maski*Fi
Maski=diag(Maski)
其中,
Figure GDA0002489956670000091
是一个只包含0,1的掩模矩阵,由一半的0和一半的1组成;所述diag()是一个点成操作,从而实现了对深度特征的通道注意力;
步骤B、通过所述特征显著性融合(CCMP),对得到的经过所述特征随机注意力选取的Fi在不同特征图的相对位置取最大值,进而将特征图中每个位置的值加起来(CAP),即可获得每组特征的显著特征:
Figure GDA0002489956670000092
步骤C、通过对每一个显著特征求平均值,得到对应类别的所述预测值(Softmax),即:
Figure GDA0002489956670000093
步骤D、通过对得到的N类别所述预测值计算多分类交叉熵,即得到所述深度特征判别性损失Ldis(F),即:
Ldis(F)=LCE(y,pied)
其中,LCE表示分类交叉熵损失函数,其使用真实类别y与模型预测类别pred计算损失函数;
步骤三:特征多样性损失函数计算;通过此步骤可使通过所述卷积神经网络获得的深度特征具有差异性,包括:
A、特征值归一化:对所述步骤一中得到的每一个所述深度特征的通道做软最大化(Softmax),获得归一化的特征;
B、归一化的特征显著性融合:在每组归一化的特征的相同位置处取最大值,获得每组归一化的特征对应的归一化显著特征;
C、特征多样性损失函数计算:对每组经过所述归一化的特征显著性融合之后的特征值进行求和,得到该组(即每组只剩一个特征)特征的显著性,将多组特征的显著性求和,即可得到特征多样性损失;
进一步的,所述特征多样性损失函数计算,包括:
步骤A、通过对所述步骤一得到的每一个所述深度特征的通道做软最大化(Softmax),获得归一化的特征,Fi,即:
Figure GDA0002489956670000101
步骤B、通过所述归一化的特征显著性融合(CCMP),对所述Fi在不同特征图的相对位置取最大值,获得每组特征对应的显著特征,即:
Figure GDA0002489956670000102
其中,j表示特征图上位置;进而,将特征图中每个位置的值加起来(Sum),即可获得每组特征的显著性:
Figure GDA0002489956670000103
步骤C、将每组特征的显著性求均值(Average),即可得到所述特征多样性损失Ldiv(F),即:
Figure GDA0002489956670000104
步骤四:模型优化 损失函数计算:
A、计算所述深度特征的多分类交叉熵损失;
B、将所述多分类交叉熵损失与所述特征判别性损失及特征多样性损失加权融合,即可得到模型优化损失函数;
进一步的,所述模型优化损失函数计算包括:
步骤A、将所述深度特征作为全连接层的输入,对深度特征的高维语义特征集性约束,得到交叉熵损失函数LCE(F);
步骤B、将所述特征判别性损失Ldis(F)和特征多样性损失Ldiv(F),以及所述交叉熵损失函数LCE(F)加权融合,即可得到模型优化损失函数Loss(F),即:
Figure GDA0002489956670000111
进一步的,所述模型优化损失函数,即通过所述特征判别性损失和特征多样性损失,获得了输入图像的更多更好的局部或区域特征,这是更好的解决细粒度图像分类任务的关键;
参照图4所示,图中第一行:阴影区域即为模型关注区域,可以看到我们的模型关注到了图像中物体的细节特征,如鸟的头部、脚部、腹部、翅膀等;图中第二行:表示仅用步骤三(即去除步骤二),获得的阴影区域基本一致,表明模型获得的深度特征失去了多样性;同时图中第二行:表示仅用步骤二(即去除步骤三),获得的阴影区域只有一个是有效的,表明模型获得的深度特征失去了判别性;特别地,第一列为原图,第2-4列为获得的三个深度特征图(feature map),第5列为2-4列特征图的融合;
本发明综合考虑了细粒度图像类内差异大,类间差异小,背景噪声影响大等因素的一项,通过特征判别性损失函数,约束属于每个类别的特征图都具有判别性,且具有对应类别的特征,减小了类内的差异性,降低了学习的难度,学习到了更好的判别性特征;通过新的特征多样性损失函数,约束属于每个类别的特征图均具有多样性,从而增大了类间的差异性,进一步降低了模型的学习难度,学习到了更多的不同的特征;综合以上两点,本发明在细粒度图像分类任务上获得了更多更有判别性的特征,从而取得了良好的效果,相比现有的方法更具针对性,效果更好,且易于实际部署,充分考虑了细粒度图像分类的特性,在多个细粒度图像分类任务上起到了明显的效果提升。
以上所述的仅为本发明的优选实施例,所应理解的是,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想,并不用于限定本发明的保护范围,凡在本发明的思想和原则之内所做的任何修改、等同替换等等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于通道损失函数的细粒度图像识别方法,其特征在于,包括下列步骤:
步骤一:特征提取:基于卷积神经网络的网络结构,通过在数据集ImageNet上预训练权重后,形成特征提取网络,将输入图像输入到所述特征提取网络中,得到对应的深度特征;
步骤二:特征判别性损失函数计算:通过此步骤,可以使通过卷积神经网络获得的所述深度特征具有对分类有益的高维语义信息;该步骤包括:
A、特征随机注意力选取:将步骤一中得到的所述深度特征分为c组,并在每组深度特征中随机丢弃二分之一;
所述c为训练数据集中总的类别数;
B、特征显著性融合:将余下的每组所述深度特征,在相同位置处取最大值,获得每组深度特征对应的显著特征;
C、类别预测值获取:对每一个所述显著特征求平均值,得到对应类别的预测值;
D、多分类交叉熵计算:对得到的所述预测值计算多分类交叉熵,即得到深度特征判别性损失;
步骤三:特征多样性损失函数计算;通过此步骤可使通过所述卷积神经网络获得的深度特征具有差异性,包括:
A、特征值归一化:对所述步骤一中得到的每一个所述深度特征的通道做软最大化,获得归一化的特征;
B、归一化的特征显著性融合:在每组归一化的特征的相同位置处取最大值,获得每组归一化的特征对应的归一化显著特征;
C、特征多样性损失函数计算:对每组经过所述归一化的特征显著性融合之后的特征值进行求和,得到该组特征的显著性,将多组特征的显著性求和,即可得到特征多样性损失;
步骤四:模型优化损失函数计算:
A、计算所述深度特征的多分类交叉熵损失;
B、将所述多分类交叉熵损失与所述特征判别性损失及特征多样性损失加权融合,即可得到模型优化损失函数;
所述模型优化损失函数,即通过所述特征判别性损失和特征多样性损失,获得了输入图像的更多更好的局部或区域特征,这是更好的解决细粒度图像分类任务的关键。
2.根据权利要求1所述的一种基于通道损失函数的细粒度图像识别方法,其特征在于,所述卷积神经网络包括:VGG、ResNet和Densenet中的一种。
3.根据权利要求2所述的一种基于通道损失函数的细粒度图像识别方法,其特征在于,可通过对所述卷积神经网络进行微调,即fine-tune操作,使得所述卷积神经网络适应特定的任务。
4.根据权利要求1所述的一种基于通道损失函数的细粒度图像识别方法,其特征在于,所述输入图像为:
Figure FDA0002499800680000021
提取该输入图像对应的深度特征:
Figure FDA0002499800680000022
其中,N表示所述深度特征的通道数,W和H分别表示每一个深度特征的宽度和高度;此外,要求所述深度特征的通道数N等于c×ξ,其中,c表示训练数据集中总的类别数,ξ表示为每一个类别分配的特征图的数目;因此,所述深度特征F的第n维特征图可以表示为:
Figure FDA0002499800680000023
因此,属于第i类的所述深度特征可以被表示为
Figure FDA0002499800680000024
其中i=0,1,2,...,c-1,即:
Figure FDA0002499800680000025
从而得到分组的深度特征F,即:
F={F0,F1,...,Fc-1}。
5.根据权利要求4所述的一种基于通道损失函数的细粒度图像识别方法,其特征在于,所述深度特征为feature map,即特征图。
6.根据权利要求4所述的一种基于通道损失函数的细粒度图像识别方法,其特征在于,所述深度特征判别性损失的函数计算包括:
步骤A、通过随机注意力机制,对所述深度特征F中每个类别对应的特征Fi进行随机丢弃,丢弃二分之一的通道数,即:
Fi=Maski*Fi
Maski=diag(Maski)
其中,
Figure FDA0002499800680000031
是一个只包含0,1的掩模矩阵,由一半的0和一半的1组成;所述diag()是一个点成操作,从而实现了对深度特征的通道注意力;
步骤B、通过所述特征显著性融合,对得到的经过所述特征随机注意力选取的Fi在不同特征图的相对位置取最大值,进而将特征图中每个位置的值加起来,即可获得每组特征的显著特征:
Figure FDA0002499800680000032
步骤C、通过对每一个显著特征求平均值,得到对应类别的所述预测值,即:
Figure FDA0002499800680000033
步骤D、通过对得到的N类别所述预测值计算多分类交叉熵,即得到所述深度特征判别性损失Ldis(F),即:
Ldis(F)=LCE(y,pred)
其中,LCE表示分类交叉熵损失函数,其使用真实类别y与模型预测类别pred计算损失函数。
7.根据权利要求6所述的一种基于通道损失函数的细粒度图像识别方法,其特征在于,所述特征多样性损失函数计算,包括:
步骤A、通过对所述步骤一得到的每一个所述深度特征的通道做软最大化,获得归一化的特征,Fi,即:
Figure FDA0002499800680000041
步骤B、通过所述归一化的特征显著性融合,对所述Fi在不同特征图的相对位置取最大值,获得每组特征对应的显著特征,即:
Figure FDA0002499800680000042
其中,j表示特征图上位置;进而,将特征图中每个位置的值加起来,即可获得每组特征的显著性:
Figure FDA0002499800680000043
步骤C、将每组特征的显著性求均值,即可得到所述特征多样性损失Ldiv(F),即:
Figure FDA0002499800680000044
8.根据权利要求7所述的一种基于通道损失函数的细粒度图像识别方法,其特征在于,所述模型优化损失函数计算包括:
步骤A、将所述深度特征作为全连接层的输入,对深度特征的高维语义特征集性约束,得到交叉熵损失函数LCE(F);
步骤B、将所述特征判别性损失Ldis(F)和特征多样性损失Ldiv(F),以及所述交叉熵损失函数LCE(F)加权融合,即可得到模型优化损失函数Loss(F),即:
Figure FDA0002499800680000051
CN201911072231.2A 2019-11-05 2019-11-05 一种基于通道损失函数的细粒度图像识别方法 Active CN110807465B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201911072231.2A CN110807465B (zh) 2019-11-05 2019-11-05 一种基于通道损失函数的细粒度图像识别方法
US17/039,346 US11501518B2 (en) 2019-11-05 2020-09-30 Fine-grained image recognition method, electronic device and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911072231.2A CN110807465B (zh) 2019-11-05 2019-11-05 一种基于通道损失函数的细粒度图像识别方法

Publications (2)

Publication Number Publication Date
CN110807465A CN110807465A (zh) 2020-02-18
CN110807465B true CN110807465B (zh) 2020-06-30

Family

ID=69501250

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911072231.2A Active CN110807465B (zh) 2019-11-05 2019-11-05 一种基于通道损失函数的细粒度图像识别方法

Country Status (2)

Country Link
US (1) US11501518B2 (zh)
CN (1) CN110807465B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111680698A (zh) * 2020-04-21 2020-09-18 北京三快在线科技有限公司 图像识别方法、装置及图像识别模型的训练方法、装置
CN112132004A (zh) * 2020-09-21 2020-12-25 南水北调中线信息科技有限公司 一种基于多视角特征融合的细粒度图像识别方法
CN113011362A (zh) * 2021-03-29 2021-06-22 吉林大学 基于双线性池化与注意力机制的细粒度眼底图像分级算法
CN113240040B (zh) * 2021-05-27 2023-04-18 西安理工大学 一种基于通道注意力深度网络的极化sar图像分类方法
CN113177525A (zh) * 2021-05-27 2021-07-27 杭州有赞科技有限公司 一种ai电子秤系统和称量方法
CN113569639B (zh) * 2021-06-25 2023-07-25 湖南大学 一种基于样本中心损失函数的跨模态行人重识别方法
CN113449131B (zh) * 2021-06-29 2022-06-03 山东建筑大学 基于多特征信息捕捉和相关性分析的物品图像重识别方法
CN113869347B (zh) * 2021-07-20 2022-08-02 西安理工大学 一种面向恶劣天气图像的细粒度分类方法
CN113642554B (zh) * 2021-07-26 2023-07-11 华侨大学 一种图像识别的网络构建方法、装置及设备
CN113723407A (zh) * 2021-11-01 2021-11-30 深圳思谋信息科技有限公司 图像分类识别方法、装置、计算机设备和存储介质
CN114332544B (zh) * 2022-03-14 2022-06-07 之江实验室 一种基于图像块评分的细粒度图像分类方法和装置
CN114863189B (zh) * 2022-07-06 2022-09-02 青岛场外市场清算中心有限公司 一种基于大数据的图像智能识别方法
CN115424086A (zh) * 2022-07-26 2022-12-02 北京邮电大学 多视角的细粒度识别方法、装置、电子设备及介质
CN115754108B (zh) * 2022-11-23 2023-06-09 福建省杭氟电子材料有限公司 一种电子级六氟丁二烯的酸度测定系统及其方法
CN116342985B (zh) * 2023-02-14 2023-09-12 中南大学 一种用于动态智能货柜的鲁棒性特征学习方法
CN116051948B (zh) * 2023-03-08 2023-06-23 中国海洋大学 基于注意力交互及反事实注意力的细粒度图像识别方法
CN116543269B (zh) * 2023-07-07 2023-09-05 江西师范大学 基于自监督的跨域小样本细粒度图像识别方法及其模型

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107346328A (zh) * 2017-05-25 2017-11-14 北京大学 一种基于多粒度层级网络的跨模态关联学习方法
CN107480261A (zh) * 2017-08-16 2017-12-15 上海荷福人工智能科技(集团)有限公司 一种基于深度学习细粒度人脸图像快速检索方法
CN109359684A (zh) * 2018-10-17 2019-02-19 苏州大学 基于弱监督定位和子类别相似性度量的细粒度车型识别方法
CN109583481A (zh) * 2018-11-13 2019-04-05 杭州电子科技大学 一种基于卷积神经网络的细粒度服装的属性识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110517666B (zh) * 2019-01-29 2021-03-02 腾讯科技(深圳)有限公司 音频识别方法、系统、机器设备和计算机可读介质
CN110136149A (zh) * 2019-05-21 2019-08-16 闽江学院 基于深度神经网络的白细胞定位与分割方法
CN110222641B (zh) * 2019-06-06 2022-04-19 北京百度网讯科技有限公司 用于识别图像的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107346328A (zh) * 2017-05-25 2017-11-14 北京大学 一种基于多粒度层级网络的跨模态关联学习方法
CN107480261A (zh) * 2017-08-16 2017-12-15 上海荷福人工智能科技(集团)有限公司 一种基于深度学习细粒度人脸图像快速检索方法
CN109359684A (zh) * 2018-10-17 2019-02-19 苏州大学 基于弱监督定位和子类别相似性度量的细粒度车型识别方法
CN109583481A (zh) * 2018-11-13 2019-04-05 杭州电子科技大学 一种基于卷积神经网络的细粒度服装的属性识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《Fine-Grained Vehicle Classification With Channel Max Pooling Modified CNNs》;Zhanyu Ma 等;《IEEE》;20190221;第68卷(第4期);全文 *
Dual Cross-Entropy Loss for Small-Sample Fine-Grained Vehicle Classification;Xiaoxu Li 等;《IEEE》;20190128;第68卷(第5期);全文 *
Learning Multi-Attention Convolutional Neural Network for Fine-Grained Image Recognition;Heliang Zheng 等;《IEEE》;20171225;全文 *

Also Published As

Publication number Publication date
CN110807465A (zh) 2020-02-18
US11501518B2 (en) 2022-11-15
US20210133479A1 (en) 2021-05-06

Similar Documents

Publication Publication Date Title
CN110807465B (zh) 一种基于通道损失函数的细粒度图像识别方法
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
CN110717526B (zh) 一种基于图卷积网络的无监督迁移学习方法
CN110321967B (zh) 基于卷积神经网络的图像分类改进方法
CN104036255B (zh) 一种人脸表情识别方法
CN107862261A (zh) 基于多尺度卷积神经网络的图像人群计数方法
CN105808752B (zh) 一种基于cca和2pknn的自动图像标注方法
Sun et al. Quantized wavelet features and support vector machines for on-road vehicle detection
CN112883839B (zh) 基于自适应样本集构造与深度学习的遥感影像解译方法
Chherawala et al. Feature design for offline Arabic handwriting recognition: handcrafted vs automated?
CN108062543A (zh) 一种面部识别方法及装置
CN106570521A (zh) 多语言场景字符识别方法及识别系统
CN104268552B (zh) 一种基于部件多边形的精细类别分类方法
CN105930792A (zh) 一种基于视频局部特征字典的人体动作分类方法
CN106778834A (zh) 一种基于距离测度学习的ap聚类图像标注方法
CN115439715A (zh) 基于反标签学习的半监督少样本图像分类学习方法及系统
CN111310820A (zh) 基于交叉验证深度cnn特征集成的地基气象云图分类方法
CN114359632A (zh) 一种基于改进PointNet++神经网络的点云目标分类方法
US7634140B2 (en) Pattern feature selection method, classification method, judgment method, program, and device
Jenckel et al. Impact of Training LSTM-RNN with Fuzzy Ground Truth.
CN112070116A (zh) 一种基于支持向量机的艺术画作自动分类系统及方法
CN103927561A (zh) 一种基于概率融合和降维技术的行为识别方法
CN105718858A (zh) 一种基于正负广义最大池化的行人识别方法
CN114694019A (zh) 基于异常检测的遥感影像建筑物迁移提取方法
Shijin et al. Comparative study of feature dimension reduction algorithm for high-resolution remote sensing image classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant