CN111144490B

CN111144490B - 一种基于轮替知识蒸馏策略的细粒度识别方法

Info

Publication number: CN111144490B
Application number: CN201911373992.1A
Authority: CN
Inventors: 周亮; 李昂; 康彬; 陈建新
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2022-09-06
Anticipated expiration: 2039-12-26
Also published as: CN111144490A

Abstract

一种基于轮替知识蒸馏策略的细粒度识别方法。包括如下步骤，步骤S1、利用卷积神经网络训练获取卷积特征图；步骤S2、对卷积特征图聚类，获取通道指示向量，通过通道指示向量训练channel group模块，生成注意力掩模；步骤S3、根据注意力掩模获取局部图，再将局部图与全局图通过轮替知识蒸馏策略训练，得到细粒度图像。本发明利用卷积神经网络训练获取卷积特征图;再对卷积特征图进行聚类得到通道指示向量，根据通道指示向量预训练channel group模块，生成注意力掩模，获取局部图，最后将局部图与全局图通过轮替知识蒸馏策略训练。通过本发明可以解决细粒度图像中局部信息缺失、传统方法抗干扰能力差等问题，极大的提高了细粒度图像分类的准确率。

Description

一种基于轮替知识蒸馏策略的细粒度识别方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于轮替知识蒸馏策略的细粒度识别方法。

背景技术

细粒度图像识别近年来受到越来越多人的关注，与传统图像识别不同的是，细粒度图像识别更关注同一大类不同子类的区分，所以在细粒度图像识别任务中，图像细微部分相当重要。细粒度图像识别的一般流程是：首先通过深度卷积网络定位具有区分能力的细微部分，然后对这些局部细微部分和整张图进行特征提取，分别得到局部信息和全局信息，最后两者整合后送入分类器识别。

Heliang Zheng，Jianlong Fu，Tao Mei以及Jiebo Luo在其发表的论文“LearningMulti-Attention Convolutional Neural Network for Fine-Grained ImageRecognition”(2017IEEE International Conference on Computer Vision)中公开了一种基于多注意力机制的细粒度识别方法。首先它训练了一个卷积神经网络以产生512个卷积特征图，然后通过channel group方法对这512个特征图进行聚类以得到四个注意力掩模，在原图上截取注意力掩模指示的最大响应区域即可得到局部图，最后将局部图和原图一并送入卷积网络进行特征提取，最后提取出的特征向量通过拼接操作合并成一个特征向量送入分类器分类。该方法的不足之处在于，所有特征之间没有联系，其局部特征和全局特征只是简单拼接，缺乏语义关联，对于一些局部被遮挡的目标识别结果较差。

发明内容

本发明所要解决的技术问题是克服现有技术的不足，提供一种基于轮替知识蒸馏策略的细粒度识别方法，首先利用卷积神经网络训练获取卷积特征图；再对卷积特征图进行聚类得到通道指示向量，根据通道指示向量预训练channel group模块，生成注意力掩模，获取局部图，最后将局部图与全局图通过轮替知识蒸馏策略训练。

本发明提供一种基于轮替知识蒸馏策略的细粒度识别方法。包括如下步骤，步骤S1、利用卷积神经网络训练获取卷积特征图；

步骤S2、对卷积特征图聚类，获取通道指示向量，通过通道指示向量训练channelgroup模块，生成注意力掩模；

步骤S3、根据注意力掩模获取局部图，再将局部图与全局图通过轮替知识蒸馏策略训练，得到细粒度图像。

作为本发明的进一步技术方案，步骤S1中的卷积神经网络采用由ImageNet预训练的VGG19网络，所述VGG19网络包括5组卷积块，每组卷积块包括若干个卷积层、一个池化层和一个激活层，5组卷积块的卷积层的卷积核数分别为64、128、256、512和512。

进一步的，步骤S2中，生成注意力掩模的具体流程为，

步骤S21、遍历所有样本，找出特征图中最大值的坐标，构建位置坐标；第K个特征图所对应的位置向量为

其中，W为训练样本数量，t_x，t_y为第i个样本第k个特征图的最大值坐标，位置向量的维数为2W维；

步骤S22、采用子空间聚类对位置向量进行聚类，簇数为4，划分为四种不同的局部区域；

步骤S23、根据聚类结果获取卷积特征图的通道指示向量；

步骤S24、构建channel group模块，该模块由全连接层FC1、激活层tanh、全连接层FC2和激活层sigmoid构成，通道指示向量作为channel group模块的标签，利用均方误差损失进行训练，使channel group模块的输出与通道指示向量保持一致；并通过损失函数L_cg微调channel group模块，该函数为：

L_cg＝L_cng+0.1L_bound；

其中，L_cng可凝聚相同位置的注意力掩模，并将不同位置的注意力掩模相互分离；

再利用I_bound优化channel group模块的参数，即：

H(t_x，t_y，t_w，t_h)＝[h(x-t_x)-h(x-t_x-t_w)]·[h(y-t_y)-h(y-t_y-t_h)]，

h(x)＝1/[l+exp(-kx)]，

其中，(t_x，t_y，t_w，t_h)为目标区域的位置，是通过卷积特征图生成的粗糙目标掩模，再通过CRF方法获取精细化的目标掩模，t_x，t_y为目标区域左上角坐标，t_w，t_h为目标区域框的大小，H(t_x，t_y，t_w，t_h)近似为二维阶跃函数，H(t_x，t_y，t_w，t_h)可由x轴方向上的sigmoid函数和y方向上的sigmoid函数构成，k控制sigmoid函数h(x)的梯度。

更进一步的，获取通道指示向量的方法为：

首先提取卷积特征图的最大响应位置，构成特征向量，通过子空间聚类对特征向量进行处理，通道指示向量表示为：

(I₁(·)，...I_k(·)，...I₅₁₂(·))_m；

其中，m＝1，2，3，4，如果第k个卷积特征图I_k(·)属于第m个簇，那么.I_k(·)＝1，否则，I_k(·)＝0。

进一步的，步骤S3中，将注意力掩模获取的局部图输入part-net卷积神经网络中获取局部特征，将从原图截取的全局图输入object-net卷积神经网络中获取全局特征，再将全局特征和局部特征拼接输入融合分类器classifier；采用轮替知识蒸馏策略进行局部特征与全局特征的语义增强。

进一步的，采用轮替知识蒸馏策略进行局部特征与全局特征的语义增强的具体流程为：object-net卷积神经网络输出经过分类器后得到向量p_object，part-net卷积神经网络输出经过分类器后得到向量p_part，将p_object和p_part的最大值位置与样本标签值label做比较，分类正确的一方作为teacher，分类错误的一方作为student，知识传递可由损失来体现，则知识蒸馏损失为：

Object-Net作为teacher时，

Part-Net作为teacher时，

其中，p_object和p_part为概率分布，N代表batch size，M代表满足条件的样本数量，x代表样本；

结合用于分类的交叉熵损失，联合同步训练Object-Net、Part-Net和classifier，其整体损失函数为：

其中，

分别为Object-Net、Part-Net、classifier的交叉熵损失函数，α为β是知识蒸馏损失的权重系数。

本发明利用卷积神经网络训练得到卷积特征图；对卷积特征图聚类，得到通道指示向量，根据该向量预训练channel group模块，在提出的多注意力损失函数的进一步优化下，channel group可生成鲁棒性强、信息丰富的注意力掩模；基于注意力掩模可获取局部图，考虑到局部信息与全局信息之间的语义关系，本发明将局部图与全局图通过轮替知识蒸馏策略训练。通过上述方案可以解决细粒度图像中局部信息缺失、传统方法抗干扰能力差等问题，极大的提高了细粒度图像分类的准确率。

附图说明

图1为本发明的方法流程图；

图2为本发明的网络结构示意图。

具体实施方式

请参阅图1和图2，本实施例提供一种基于轮替知识蒸馏策略的细粒度识别方法。包括如下步骤，

步骤S1、利用卷积神经网络训练获取卷积特征图；

步骤S1中的卷积神经网络采用由ImageNet预训练的VGG19网络，所述VGG19网络包括5组卷积块，每组卷积块包括若干个卷积层、一个池化层和一个激活层，5组卷积块的卷积层的卷积核数分别为64、128、256、512和512，使用由ImageNet预训练的VGG19在细粒度数据集上进行迁移学习，训练好后去除分类层，由最后一层卷积层conv5_4处理得到的特征图即可作为注意力掩模的来源。

步骤S2中，注意力掩模是一种对局部区域的响应图，注意力掩模的获取方式有很多种，本发明借鉴了“Learning Multi-Attention Convolutional Neural Network forFine-Grained Image Recognition”中channel group模块的基本框架，其基本流程为：

1)遍历所有训练样本，对步骤S1中512个特征图找出最大值所在坐标，构造512个位置向量

它表示第k个特征图所对应的位置向量，其中W代表训练样本数量，

代表第i个样本第k个特征图的最大值坐标，故一个位置向量维数为2W维。

2)聚类512个位置向量，由于位置向量维数过高(2W维)，一般聚类方法(K-means，谱聚类)处理结果不准确，无法划分开不同簇。因此这里使用子空间聚类来处理高维向量，簇数设为4，以划分四种不同的局部区域。

3)聚类结果可以设计为512个卷积特征图的通道指示向量，通道指示向量如下：首先提取卷积特征图的最大响应位置，构成特征向量，通过子空间聚类对特征向量进行处理，通道指示向量表示为：

(I1(·)，...Ik(·)，...I512(·))m；

4)构建channel group模块，该模块由全连接层FC1、激活层tanh、全连接层FC2和激活层sigmoid构成，通道指示向量作为channel group模块的标签，使得channel group的输出尽可能与通道指示向量一致，然后结合注意力区域的空间关系微调，使得生成的掩模更加有区分性。Channel group模块的输出称为通道权重向量d_k，得到通道权重向量以后，注意力掩模可以通过通道权重向量与512个特征图的加权和得到，即：

其中，c代表通道数量，这里为512，conv5_4是卷积特征图。

Channel group的训练包含以下两步：

a)首先将通道指示向量作为channel group模块的标签，利用均方误差损失进行训练，使得channel group模块的输出与通道指示向量保持一致，此时channel group模块学习到了2)的聚类结果。

b)为了使得生成的掩模更加有区分性，需要使得相同位置的掩模凝聚，不同位置的掩模相互分离，故利用如下损失微调channel group模块：

L_cng(M_i)＝Dis(M_i)+λDiv(M_i)，

其中，m_i(x,y)代表掩模，(t_x,t_y)代表掩模中最大值坐标，l代表权重系数，mrg代表边际，使得损失对噪声不要过于敏感。

然而，上述channel group得到的注意力掩模中依然存在干扰，由于注意力掩模是截取局部图的重要依据，干扰会使得截取的局部图像不是目标的一部分，尽管有mrg来提升对噪声的鲁棒性，但该问题依旧存在。所以，改进上述channelgroup方法，实现注意力掩模集中在目标区域内，具体而言，该改进主要有以下几点，

1)利用第4组和第5组卷积块特征图生成粗糙的目标掩模，然后通过全连接的CRF方法得到精细化的目标掩模，用以定位目标区域；

2)改进channel group流程中的4)b)，添加L_bound，使得目标区域外的干扰被抑制，即，

H(t_x，t_y，t_w，t_h)＝[h(x-t_x)-h(x-t_x-t_w)]·[h(y-t_y)-h(y-t_y-t_h)]，

h(x)＝1/[l+exp(-kx)]，

其中(t_x,t_y,t_w,t_h)代表目标区域的位置，t_x,t_y是左上角坐标，t_w,t_h是目标区域框的大小，H(t_x,t_y,t_w,t_h)可近似为一种二维阶跃函数，H(t_x,t_y,t_w,t_h)可由x轴方向上的sigmoid函数和y方向上的sigmoid函数构成，k可以控制sigmoid函数h(x)的梯度，k越大sigmoid函数越陡，H(t_x,t_y,t_w,t_h)则更加逼近二维阶跃函数；

L_bound的设计可以使得目标区域内部损失较小，目标区域外损失较大。将其添加在原有的L_cng，得到：

L_cg＝L_cng+0.1L_bound

使用新损失L_cg来微调预训练好的channel group模块，进一步提升了对干扰的鲁棒性。

步骤S3中，由注意力掩模和原图截取到的局部图和整张图片代表的全局图分别送入Part-Net和Object-Net，Part-Net和Object-Net均为卷积神经网络，这里选用Resnet50。如图2，Part-Net提取到的特征称为局部特征，Object-Net提取到的特征称为全局特征。局部特征与全局特征分别有自己的分类器，而最终结果是全局特征和局部特征拼接后送入融合分类器classifier分类，即一共存在三个分类器。在网络训练中，为了实现两类特征的互补，提升抗干扰能力和识别能力，我们基于传统单向知识蒸馏策略提出轮替知识蒸馏策略，实现多网络竞争决定teacher、student角色和多网络同步训练。训练过程如下：

1)Object-Net经过分类器后得到向量，Part-Net经过分类器后得到向量,和代表的是一种概率分布，该概率分布中的最大值位置可以指示分类结果。我们将和的最大值位置与样本标签值label做比较，如果结果正确而错误，则Object-Net作为teacher，Part-Net作为student，实现知识从Object-Net到Part-Net的传递；如果结果正确而结果错误，则Part-Net作为teacher，Object-Net作为student，实现知识从Part-Net到Object-Net的传递。知识的传递可以通过损失来体现，知识蒸馏损失为：

Object-Net作为teacher时，

Part-Net作为teacher时，

2)结合用于分类的交叉熵损失，联合同步训练Object-Net、Part-Net和classifier，其整体损失函数为：

其中，

本实施例在三个广泛使用的基准数据集中进行了验证实验。这三个基准数据集为别为鸟类数据集CUB2011-200、汽车数据集Stanford Cars和飞机数据集FGVC Aircraft，具体划分如下，

CUB2011-200：该数据集包含了来自200类鸟的11788张图片。其中5994张图片用于训练，5794张图片用于测试。

Stanford Cars：该数据集包含了来自196类车的16185张图片，其中8114张图片用于训练，8041张图片用于测试。

FGVC Aircraft：该数据集包含了来自100类飞机的10000张图片，其中6667张图片用于训练，3333张图片用于测试。

经过100个epoch训练(一个epoch代表遍历整个训练集)，可以得到以下结果：

以上显示和描述了本发明的基本原理、主要特征和优点。本领域的技术人员应该了解，本发明不受上述具体实施例的限制，上述具体实施例和说明书中的描述只是为了进一步说明本发明的原理，在不脱离本发明精神范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由权利要求书及其等效物界定。

Claims

1.一种基于轮替知识蒸馏策略的细粒度识别方法，其特征在于，包括如下步骤，

步骤S1、利用卷积神经网络训练获取卷积特征图；

步骤S3、根据注意力掩模获取局部图，再将局部图与全局图通过轮替知识蒸馏策略训练，得到细粒度图像；

步骤S2中，生成注意力掩模的具体流程为，

其中，W为训练样本数量，

为第i个样本第k个特征图的最大值坐标，位置向量的维数为2W维；

步骤S23、根据聚类结果获取卷积特征图的通道指示向量；

步骤S24、构建channel group模块，该模块由全连接层FC1、激活层tanh、全连接层FC2和激活层sigmoid构成，通道指示向量作为channel group模块的标签，利用均方误差损失进行训练，使channel group模块的输出与通道指示向量保持一致；并通过损失函数微调channel group模块，该函数为：

L_cg＝L_cng+0.1L_bound；

其中，L_cng可凝聚相同位置的注意力掩模，并将不同位置的注意力掩模相互分离；再利用L_bound优化channelgroup模块的参数，即：

H(t_x，t_y，t_w，t_h)＝[h(x-t_x)-h(x-t_x-t_w)]·[h(y-t_y)-h(y-t_y-t_h)]，

h(x)＝1/[1+exp(-kx)]，

2.根据权利要求1所述的一种基于轮替知识蒸馏策略的细粒度识别方法，其特征在于，所述步骤S1中的卷积神经网络采用由ImageNet预训练的VGG19网络，所述VGG19网络包括5组卷积块，每组卷积块包括若干个卷积层、一个池化层和一个激活层，5组卷积块的卷积层的卷积核数分别为64、128、256、512和512。

3.根据权利要求1所述的一种基于轮替知识蒸馏策略的细粒度识别方法，其特征在于，获取通道指示向量的方法为：

(I₁(·)，…I_k(·)，…I₅₁₂(·))_m；

4.根据权利要求1所述的一种基于轮替知识蒸馏策略的细粒度识别方法，其特征在于，所述步骤S3中，将注意力掩模获取的局部图输入part-net卷积神经网络中获取局部特征，将从原图截取的全局图输入object-net卷积神经网络中获取全局特征，再将全局特征和局部特征拼接输入融合分类器classifier；采用轮替知识蒸馏策略进行局部特征与全局特征的语义增强。

5.根据权利要求4所述的一种基于轮替知识蒸馏策略的细粒度识别方法，其特征在于，采用轮替知识蒸馏策略进行局部特征与全局特征的语义增强的具体流程为：object-net卷积神经网络输出经过分类器后得到向量p_object，part-net卷积神经网络输出经过分类器后得到向量p_part，将p_object和p_part的最大值位置与样本标签值label做比较，分类正确的一方作为teacher，分类错误的一方作为student，知识传递可由损失来体现，则知识蒸馏损失为：

Object-Net作为teacher时，

Part-Net作为teacher时，

其中，