CN113159066B

CN113159066B - 基于类间相似度的分布式标签的细粒度图像识别算法

Info

Publication number: CN113159066B
Application number: CN202110386579.XA
Authority: CN
Inventors: 唐振民; 孙泽人; 姚亚洲; 杜鹏桢
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2021-04-12
Filing date: 2021-04-12
Publication date: 2022-08-30
Anticipated expiration: 2041-04-12
Also published as: CN113159066A

Abstract

本发明公开了基于类间相似度的分布式标签的细粒度图像识别算法，包括以下步骤：(1)使用骨干网络提取输入图像的特征表示；(2)利用中心损失模块通过特征表示计算中心损失并更新类别中心；(3)分类损失模块利用特征表示和最终标签分布计算分类损失(例如交叉熵损失)，其中的最终标签分布通过计算独热标签分布和由类别中心生成的分布式标签分布的加权和得到；(4)由中心损失和分类损失加权求和得到最终的目标损失函数，以此优化整个模型。本发明通过降低模型预测的确信度有效地缓解了过拟合的问题，能够精确地学习细粒度数据的辨别性特征，精确高效地区分不同细粒度类别的数据，可广泛应用于视觉分类和多媒体领域。

Description

基于类间相似度的分布式标签的细粒度图像识别算法

技术领域

本发明涉及细粒度图像识别方法，特别涉及一种基于类间相似度的分布式标签的细粒度图像识别算法。

背景技术

图像识别，旨在对给定图像进行类别判定划分，是计算机视觉领域一个核心的研究课题。一般的图像识别任务(例如区分飞机、舰船、狗、猫动物等，区分不同的手写数字，区分各种不同类的对象，等等)旨在对不同大类的图像进行分类识别。细粒度图像识别，作为图像识别的一个重要而极具挑战性的子类，一直是一个活跃的计算机视觉研究领域。细粒度识别任务的目标是识别出同一个大类下的不同子类(比如区分不同类别的鸟、飞机、汽车等)。在现实生活中，细粒度图像识别有着非常广泛的应用场景，例如生物多样性观测、生态研究、气候变化评估、遥感图像识别、智能零售、智能交通、智能监控等等。因此一直受到工业节和学术界的广泛关注。

早期在深度卷积神经网络还未体现出在计算机视觉方面的强大学习的能力的时期，研究者们尝试在传统粗粒度图像识别的算法上进行研究和改进。近年来，随着算力的不断提升，深度学习技术逐渐成为学习特征表示的强大方法，在计算机视觉领域的各方面均取得了瞩目的成果与巨大的突破，这其中也包括细粒度识别。

细粒度图像识别可以区分同一大类下不同子类的细微差别，例如区分北极燕鸥和里海燕鸥。但是，适用于一般图像识别(粗粒度图像识别)任务的网络模型在细粒度识别任务中无法取得理想的效果，这主要是因为以下两个因素：(1)图像类间差异小：由于细粒度类别隶属于同一个大类(例如Acura RL Sedan 2012和Buick Verano Sedan 2012均属于汽车这一父类)，因此不同类别的图像往往具有相似的特征，这导致细粒度类别之间具有较高的相似性；(2)图像类内差异大：由于图像采集过程中光照、角度、遮挡、乃至采集设备的参数性能等方面的不同，同类别的图像往往视觉差异较大，尤其是细粒度类间相似度高这一情况的存在，使得同类别内图像之间的较大差异性在细粒度识别任务中变得尤为明显。

发明内容

发明目的：本发明提供一种引入细粒度类别之间的相似度信息，通过降低模型预测的确信度以有效地缓解网络过拟合问题，促使网络学到了更强力的细粒度特征表示的基于类间相似度的分布式标签的细粒度图像识别算法。

技术方案：基于类间相似度的分布式标签的细粒度图像识别算法，包括以下步骤：

(1)使用骨干网络提取输入图像的特征表示X，将提取到的图像特征表示输入到两个并行的模块；所述模块为中心损失模块及分类损失模块；

(2)中心损失模块通过特征表示X计算中心损失并更新类别中心C；

(3)计算独热标签分布和由类别中心C生成的分布式标签分布的加权和得到最终标签分布；

(4)分类损失模块利用特征表示X和最终标签分布计算分类交叉熵损失；

(5)由中心损失和分类损失加权求和得到最终用于优化整个模型的目标损失函数。

优选的，步骤(1)中，所述使用骨干网络提取输入图像特征为预先在ImageNet数据集上进行预训练的ResNet50网络。

优选的，步骤(2)中，所述中心损失模块通过特征表示X计算中心损失并更新类别中心C具体过程为：

为强化卷积神经网络提取出的特征的表示能力，同时也为促使特征空间中同类数据的特征尽可能紧凑，不同类数据的特征之间尽可能远离，本发明采用中心损失来与常规的交叉熵损失共同监督模型的训练，中心损失的定义具体为：

其中，X_i表示第i个训练数据x_i的深度特征表示(其所属类别为第y_i类)，

表示第y_i类的深度特征中心；在网络训练过程中，将类别中心{C_j}动态地进行更新，具体为：

其中，α表示类别中心的更新率，以避免在训练过程中错标样本可能造成的扰动问题。

针对类别中心的更新公式，利用加权更新的机制来动态调整类别中心，更具体地说，将ΔC_j的更新公式定义，具体为：

其中，m表示所有训练样本的数量，权重参数β_i被定义为训练样本x_i的预测概率分布的最大值，即：

β_i＝maxp(x_i)

事实上，β_i从侧面刻画了网络对该样本预测的确定性。从直觉上说，预测确定性更低的样本一般更有可能靠近分类边界，也因此更有可能包含使网络难以分类的特征。通过如此设计动态调整类别中心过程中的权重参数，促使类别中心在更新过程中更倾向于预测确定性高的样本，从而使得最后获得的类别中心更趋近于绝大多数的此类别样本在特征空间的平均中心。

优选的，步骤(3)中，所述计算由类别中心C生成的分布式标签分布的具体过程为：

在构建分布式标签的过程中引入类别之间的相似度，采用余弦相似度来度量类别之间的相似度，具体为：

其中，C_i和C_j分别表示第i和第j的深度特征中心；通过计算第k类的类别特征中心C_k和其他类别的特征中心的相似度，获得一个相似度向量V，其每一个元素

当i＝k时，V_i＝1；当i≠k时，V_i＝v∈[0,1)；然后，对V使用softmax函数进行归一化，最后得到第k类的基于类别相似度的标签分布，具体为：

最后，为了最大限度的利用好真值标签带来的先验知识，并给予模型训练过程以真值的正确引导，将最终的标签分布定义为基于类别相似度的标签分布与基于真值标签的平滑标签分布之间的加权和，具体为：

其中，w表示在模型训练过程中用于调整两种标签分布之间的权重的超参数。当i＝k时，q'_i＝1-∈；当i≠k时，q'_i＝∈/(N-1)；

为进一步获得更大的性能提升，提出一个自适应的加权模块来动态地调整w以更好的训练模型；具体为：

其中，设置w_init＞w_end；由于网络在训练初期区分能力较弱，在模型训练初期用一个更大的w的值来对标签分布进行加权，以更突出强调类别相似度这一细粒度识别任务中的隐含信息，降低了网络在预测过程中的确信度，也因此减慢了网络在训练集上的拟合，促使模型学习更具有表征性的特征。随着网络训练过程的渐进，缓缓降低w的值来让真值标签在模型优化过程中逐渐占主导，由此促使网络借助更强的真值标签信息来获取更强的分类识别能力。

优选的，步骤(4)中，计算分类交叉熵损失具体为：

优选的，步骤(5)中，所述最终用于优化整个模型的目标损失函数具体为：

有益效果：与现有技术相比，本发明具有以下显著效果：(1)在无需定位信息的情况下，通过利用细粒度类别之间的高度相似性，鼓励模型降低对样本预测的确定性，以避免过度确定的预测导致过拟合问题。(2)与经典的使用独热标签分布计算交叉熵的训练过程相比，本发明使用基于类别相似度的分布式标签更符合细粒度识别任务的特性和需要。同时，通过引入中心损失，在促使模型学习更紧凑的特征表示的同时，中心损失计算过程中得到的类别特征中心恰好可以很方便的被用来计算类别之间的相似度。

附图说明

图1为本发明工作流程图；

图2为本发明整体架构图；

图3为本发明降低预测确定性示意图。

具体实施例

下面结合实施例对本发明做详细说明。

如图1所示，基于类间相似度的分布式标签的细粒度图像识别算法，包括以下步骤：

使用CUB200-2011数据集，该数据集是细粒度识别任务中最广泛被使用的图像数据集，全称为Caltech-UCSD Birds-200-2011，该数据集集包含200个类别的鸟，共有11788张鸟的图像。通常该数据集的图像会被分成5994张训练图像(每类鸟的训练图像均在30张左右)和5794张测试图像。另外，该数据集中，每张图片包含一个图像内鸟的类别标签、一个图像内鸟目标的边界标注框、15个部件标注以及312个二值化的属性标注(隶属28个属性组)。首先利用骨干网络提取图像的特征表示。

具体地，预处理的方法是：调整图像大小，保持长宽比的情况下将短边调整为448，随后进行随机水平翻转，最后对图像进行随机剪裁使其大小变为448×448。然后如图2所示，将预处理后的图像输入在ImageNet上预训练过的骨干网络(ResNet50)中去，提取最后一层卷积层的输出并将其全局平均池化为2048维的相应图像特征表示X，特征随后被送入中心损失模块和分类损失模块中。

中心损失模块基于特征计算中心损失，具体过程为：

利用隶属于第y_i类的训练数据x_i提取到的深度特征表示X_i与第y_i类的2048维的深度特征中心

计算中心损失，表示为：

深度特征中心

的初始值通过利用预训练的骨干网络对各类图像提取图像特征后依次求取均值得到。

在训练过程中，深度特征中心

也是在通过深度神经网络不断更新的，具体过程为：

在网络训练过程中，将类别中心{C_j}动态地进行如下更新：

其中，α设为0.5，类别中心的更新率，可避免在训练过程中错标样本可能造成的扰动问题。

针对类别中心的更新公式，利用加权更新的机制来动态调整类别中心。更具体地说，如下计算ΔC_j：

其中，m是所有训练样本的数量，权重参数β_i被定义为训练样本x_i的预测概率分布的最大值，即：

β_i＝maxp(x_i)

利用类别中心C,采用如下的余弦相似度来度量类别之间的相似度，具体表示为：

当i＝k时，V_i＝1；当i≠k时，V_i＝v∈[0,1)；然后，对V使用softmax函数进行归一化，最后得到第k类的基于类别相似度的标签分布，具体表示为：

最后，为了最大限度的利用好真值标签带来的先验知识，并给予模型训练过程以真值的正确引导，将最终的标签分布定义为基于类别相似度的标签分布与基于真值标签的平滑标签分布之间的加权和，表示为：

其中，w是在模型训练过程中用于调整两种标签分布之间的权重的超参数。当i＝k时，q'i＝1-∈；当i≠k时，q'_i＝∈/(200-1)。

为进一步获得更大的性能提升，提出一个自适应的加权模块来动态地调整w以更好的训练模型；表示为：

设置w_init＞w_end；具体地，设置w_init＝0.7，w_end＝0.1，T_k＝10。另外设置∈＝0.1。

(4)分类损失模块利用特征表示X和最终标签分布计算分类损失；

具体地，利用最终标签分布，计算分类交叉熵损失，表示为：

最终，利用计算所得的交叉熵损失与中心损失一起作为整个网络的优化目标函数来监督模型的训练。最终的目标损失函数表示为：

具体的，设置λ＝0.003

超参数设置为：利用随机梯度下降法(SGD)对模型进行优化，将SGD的动量设置为0.9，将学习率设为0.01，权重衰减设为0.0001，批量送入的图片设为64张，训练120个回合，每训练10个回合，学习率降为之前的一半。

训练完成后，利用测试集测试，将测试图像输入已经训练好的深度神经网络中进行图像识别，最终得到图像分类预测。如图3所示，通过利用本发明的算法，图像样本在其真值标签类别上的预测概率明显降低，样本的预测确定性也因此减小。

本发明的细粒度图像识别方法事实上是一个灵活的插件，可以与现有先进的细粒度识别方法相结合。这里与两种先进的方法(iSQRT-COV和DCL)结合，与以下仅使用图像类别标签的弱监督细粒度图像识别方法的效果进行对比，采用平均分类准确度(ACA)作为识别的评价指标，ACA值越高，识别效果越优异。

[1]Lin T-y,Roychowdhury A,Maji S.Bilinear convolutional neuralnetworks for fine-grained visual recognition[J].IEEE Transactions on PatternAnalysis and Machine Intelligence(TPAMI),2017,40(6):1309–1322.

[2]Gao Y,Beijbom O,Zhang N,et al.Compact bilinear pooling[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR).2016:317–326.

[3]Kong S,Fowlkes C.Low-rank bilinear pooling for fine-grainedclassification[C]//Proceedings of the IEEE Conference on Computer Vision andPattern Recognition(CVPR).2017:365–374.

[4]Fu J,Zheng H,Mei T.Look closer to see better:Recurrent attentionconvolutional neural network for fine-grained image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR).2017:44384446.

[5]Lin T-y,Maji S.Improved bilinear pooling with cnns[C]//Proceedingsofthe British Machine Vision Conference(BMVC).2017.

[6]Moghimi M,Belongie S j,Saberian Mj,et al.Boosted ConvolutionalNeural Networks[C]//Proceedings of the British Machine Vision Conference(BMVC).2016.

[7]Cui Y,Zhou F,Wang J,et al.Kernel pooling for convolutional neuralnetworks[C]//Proceedings of the IEEE Conference on Computer Vision andPattern Recognition(CVPR).2017:2921–2930.

[8]Zheng H,Fu J,Mei T,et al.Learning multi-attention convolutionalneural network for fine-grained image recognition[C]//Proceedings of the IEEEInternational Conference on Computer Vision(ICCV).2017:5209–5217.

[9]Yu C,Zhao X,Zheng Q,et al.Hierarchical bilinear pooling for fine-grained visual recognition[C]//Proceedings ofthe European Conference onComputer Vision(ECCV).2018:574–589.

[10]Wang Y,Morariu V i,Davis L s.Learning a discriminative filterbank within a cnn for fine-grained recognition[C]//Proceedings ofthe IEEEConference on Computer Vision and Pattern Recognition(CVPR).2018:4148–4157.

[11]Yang Z,Luo T,Wang D,et al.Learning to navigate for fine-grainedclassification[C]//Proceedings of the European Conference on Computer Vision(ECCV).2018:420–435.

[12]Zheng H,Fu J,Zha Z-j,et al.Looking for the devil in the details:Learning trilinear attention sampling network for fine-grained imagerecognition[C]//Proceedings of the IEEE Conference on Computer Vision andPattern Recognition(CVPR).2019:5012–5021.

[13]Chen Y,Bai Y,Zhang W,et al.Destruction and construction learningfor fine-grained image recognition[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition(CVPR).2019:5157–5166.

[14]Li P,Xie J,Wang Q,et al.Towards faster training of globalcovariance pooling networks by iterative matrix square root normalization[C]//Proceedings of the IEEE Conference on Computer Vision and PatternRecognition(CVPR).2018:947–955.

表1细粒度图像识别结果对比

从表1可以看出，与原始iSQRT-COV和DCL方法的结果相比，通过引入本发明中的分布式标签以及中心损失使得学到的特征分别获得了0.6％和0.8％的性能提升，获得了更强的表征能力。