CN110807465B

CN110807465B - 一种基于通道损失函数的细粒度图像识别方法

Info

Publication number: CN110807465B
Application number: CN201911072231.2A
Authority: CN
Inventors: 马占宇; 常东良; 谢吉洋; 丁逸枫; 司中威
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-11-05
Filing date: 2019-11-05
Publication date: 2020-06-30
Anticipated expiration: 2039-11-05
Also published as: CN110807465A; US11501518B2; US20210133479A1

Abstract

本发明一种基于通道损失函数的细粒度图像识别方法，包括下列步骤：特征提取、特征判别性损失函数计算、特征多样性损失函数计算、模型优化损失函数计算，本发明综合考虑了细粒度图像类内差异大，类间差异小，背景噪声影响大等因素的一项，约束属于每个类别的特征图都具有判别性，且具有对应类别的特征，减小了类内的差异性，降低了学习的难度，学习到了更好的判别性特征；约束属于每个类别的特征图均具有多样性，从而增大了类间的差异性，从而取得了良好的效果，易于实际部署，在多个细粒度图像分类任务上起到了明显的效果提升。

Description

一种基于通道损失函数的细粒度图像识别方法

技术领域

本发明涉及细粒度图像识别技术领域，尤其是一种基于通道损失函数的细粒度图像识别方法。

背景技术

细粒度物体在现实生活中广泛存在，与之相对应的细粒度图像识别是计算机视觉识别中的一个重要问题，同时在日常生活中存在较大需求，当前细粒度图像识别主要存在以下三个方面的挑战：

(1)同类别的图像因形体、背景、遮挡等因素有较大的类内差异性；

(2)不同类别的图像因属于同一大类，具有较小的类间差异性；

(3)对细粒度图像的收集、标注费时费力；如图5所示；细粒度分类具有类内差异大，类间差异小的特性；图5左右两图分别为两个制造商制造的车辆；其中左侧图为每一行是一种model的车辆；

现有的细粒度图像识别方法主要通过以下三个方面达到识别的目的：

(1)对图像中的局部特征进行定位；

(2)提取具有判别力的特征用于图像识别；

(3)结合图像的全局特征与局部特征实现图像的细粒度分类；

例如，相似方案1：双线性池化细粒度图像分类(Bilinear pooling)；通过预训练的孪生卷积神经网络(convolutional neural networks)提取特征，并在特征的各个通道层面进行双线性池化，得到特征的高阶表示，刻画目标图像内的细节特征。该方法通过一种新的池化方式，实现了细粒度图像识别准确率的提升；

相似方案1提出了一种新的双线性池化方式，但在细粒度图像类别间关系、模型参数量、细节区域的数量等方面没有针对细粒度图像识别进行有效的设计；没有考虑到细粒度图像蕴含多种细节信息，类间差异小，类内差异大等因素的影响；

相似方案2：多注意力卷积神经网络(multi-attention convolutional neuralnetwork)；该方法通过预训练的卷积神经网络(convolutional neural networks)提取特征，并对特征的各个通道(channel)进行聚类，得到特征的部件化(细节化)表示，刻画目标图像类的多种细节特征。该方法通过一种新的对特征内通道的聚类方式，实现了细粒度图像识别准确率的提升。

对于相近方案2，虽然实现了对细粒度图像蕴含的多种细节信息的建模，但极大的增大了模型的参数量，且没有考虑到多种细节信息之间的关系，没有对类内类间的关系进行建模，因此在细粒度图像变化多样时，很难获得较好的性能，实际部署非常困难。

发明内容

为了克服上述现有技术的不足，本发明提供一种基于通道损失函数的细粒度图像识别方法，提升了细粒度图像识别的准确率。

一种基于通道损失函数的细粒度图像识别方法，包括下列步骤：

步骤一：特征提取：基于卷积神经网络(CNN)的网络结构，通过在数据集ImageNet上预训练权重后，形成特征提取网络，将输入图像输入到所述特征提取网络中，得到对应的深度特征；

作为一种举例说明，所述卷积神经网络包括：VGG、ResNet和DenseNet中的一种；

进一步的，可通过对所述卷积神经网络进行微调，即fine-tune操作，使得所述卷积神经网络适应特定的任务；

进一步的，所述输入图像为：

提取该输入图像对应的深度特征：

其中，N表示所述深度特征的通道数，W和H分别表示每一个深度特征的宽度和高度；此外，要求所述深度特征的通道数N等于c×ξ,其中，c表示训练数据集中总的类别数，ξ表示为每一个类别分配的特征图的数目；因此，所述深度特征F的第n维特征图可以表示为：

作为一种举例说明，所述深度特征为feature map，即特征图；

因此，属于第i类的所述深度特征可以被表示为

其中

即：

从而得到分组的深度特征F，即：

F＝{F₀，F₁，...，F_c-1}；

步骤二：特征判别性损失函数计算：通过此步骤，可以使通过卷积神经网络获得的所述深度特征具有对分类有益的高维语义信息；该步骤包括：

A、特征随机注意力选取：将步骤一中得到的所述深度特征分为c组，并在每组深度特征中随机丢弃二分之一；

作为一种举例说明，所述c为训练数据集中总的类别数；

B、特征显著性融合:将余下的每组所述深度特征，在相同位置处取最大值，获得每组深度特征对应的显著特征；

C、类别预测值获取：对每一个所述显著特征求平均值，得到对应类别的预测值；

D、多分类交叉熵计算：对得到的所述预测值计算多分类交叉熵，即得到深度特征判别性损失；

进一步的，所述深度特征判别性损失的函数计算包括：

步骤A、通过随机注意力机制(CWA)，对步骤一得到的深度特征F中每个类别对应的特征F_i进行随机丢弃，丢弃二分之一的通道数，即：

F_i＝Mask_i*F_i

Mask_i＝diag(Mask_i)

其中，

是一个只包含0，1的掩模矩阵，由一半的0和一半的1组成；所述diag()是一个点乘操作，从而实现了对深度特征的通道注意力；

步骤B、通过所述特征显著性融合(CCMP)，对得到的经过所述特征随机注意力选取的F_i在不同特征图的相对位置取最大值，进而将特征图中每个位置的值加起来(CAP)，即可获得每组特征的显著特征：

步骤C、通过对每一个显著特征求平均值，得到对应类别的所述预测值(Softmax)，即：

步骤D、通过对得到的N类别所述预测值计算多分类交叉熵，即得到所述深度特征判别性损失L_dis(F)，即：

L_dis(F)＝L_CE(y，pred)

其中，L_CE表示分类交叉熵损失函数，其使用真实类别y与模型预测类别pred计算损失函数；

步骤三：特征多样性损失函数计算；通过此步骤可使通过所述卷积神经网络获得的深度特征具有差异性，包括：

A、特征值归一化：对所述步骤一中得到的每一个所述深度特征的通道做软最大化(Softmax),获得归一化的特征；

B、归一化的特征显著性融合:在每组归一化的特征的相同位置处取最大值，获得每组归一化的特征对应的归一化显著特征；

C、特征多样性损失函数计算：对每组经过所述归一化的特征显著性融合之后的特征值进行求和，得到该组(即每组只剩一个特征)特征的显著性，将多组特征的显著性求和，即可得到特征多样性损失；

进一步的，所述特征多样性损失函数计算，包括：

步骤A、通过对所述步骤一得到的每一个所述深度特征的通道做软最大化(Softmax),获得归一化的特征，F_i，即：

步骤B、通过所述归一化的特征显著性融合(CCMP)，对所述F_i在不同特征图的相对位置取最大值，获得每组特征对应的显著特征，即：

其中，j表示特征图上位置；进而，将特征图中每个位置的值加起来(Sum)，即可获得每组特征的显著性：

步骤C、将每组特征的显著性求均值(Average)，即可得到所述特征多样性损失L_div(F)，即：

步骤四：模型优化损失函数计算：

A、计算所述深度特征的多分类交叉熵损失；

B、将所述多分类交叉熵损失与所述特征判别性损失及特征多样性损失加权融合，即可得到模型优化损失函数；

进一步的，所述模型优化损失函数计算包括：

步骤A、将所述深度特征作为全连接层的输入，对深度特征的高维语义特征集性约束，得到交叉熵损失函数L_CE(F).

步骤B、将所述特征判别性损失L_dis(F)和特征多样性损失L_div(F)，以及所述交叉熵损失函数L_CE(F)加权融合，即可得到模型优化损失函数Loss(F),即：

进一步的，所述模型优化损失函数，即通过所述特征判别性损失和特征多样性损失，获得了输入图像的更多更好的局部或区域特征，这是更好的解决细粒度图像分类任务的关键；

有益效果：

本发明综合考虑了细粒度图像类内差异大，类间差异小，背景噪声影响大等因素的一项，通过特征判别性损失函数，约束属于每个类别的特征图都具有判别性，且具有对应类别的特征，减小了类内的差异性，降低了学习的难度，学习到了更好的判别性特征；通过新的特征多样性损失函数，约束属于每个类别的特征图均具有多样性，从而增大了类间的差异性，进一步降低了模型的学习难度，学习到了更多的不同的特征；

综合以上两点，本发明在细粒度图像分类任务上获得了更多更有判别性的特征，从而取得了良好的效果，相比现有的方法更具针对性，效果更好，且易于实际部署，充分考虑了细粒度图像分类的特性，在多个细粒度图像分类任务上起到了明显的效果提升。

附图说明

图1为本发明一种基于通道损失函数的细粒度图像识别方法之特征判别性损失函数计算流程图

图2为本发明一种基于通道损失函数的细粒度图像识别方法之特征多样性损失函数计算流程图

图3为本发明一种基于通道损失函数的细粒度图像识别方法之模型优化损失函数计算流程图

图4为本发明一种基于通道损失函数的细粒度图像识别方法之特征可视化举例示意图

图5为本发明一种基于通道损失函数的细粒度图像识别方法之现有技术对细粒度图像的收集标注示意图

具体实施方式

下面对本发明的技术方案进行具体阐述，需要指出的是，本发明的技术方案不限于实施例所述的实施方式，本领域的技术人员参考和借鉴本发明技术方案的内容，在本发明的基础上进行的改进和设计，应属于本发明的保护范围。

参照图1至图5所示，一种基于通道损失函数的细粒度图像识别方法，包括下列步骤：

进一步的，所述输入图像为：

提取该输入图像对应的深度特征：

作为一种举例说明，所述深度特征为feature map，即特征图；

因此，属于第i类的所述深度特征可以被表示为

其中

即：

从而得到分组的深度特征F，即：

F＝{F₀，F₁，...，F_c-1}；

作为一种举例说明，所述c为训练数据集中总的类别数；

进一步的，所述深度特征判别性损失的函数计算包括：

F_i＝Mask_i*F_i

Mask_i＝diag(Mask_i)

其中，

是一个只包含0，1的掩模矩阵，由一半的0和一半的1组成；所述diag()是一个点成操作，从而实现了对深度特征的通道注意力；

L_dis(F)＝L_CE(y，pied)

进一步的，所述特征多样性损失函数计算，包括：

步骤四：模型优化损失函数计算：

A、计算所述深度特征的多分类交叉熵损失；

进一步的，所述模型优化损失函数计算包括：

步骤A、将所述深度特征作为全连接层的输入，对深度特征的高维语义特征集性约束，得到交叉熵损失函数L_CE(F)；

参照图4所示，图中第一行：阴影区域即为模型关注区域，可以看到我们的模型关注到了图像中物体的细节特征，如鸟的头部、脚部、腹部、翅膀等；图中第二行：表示仅用步骤三(即去除步骤二)，获得的阴影区域基本一致，表明模型获得的深度特征失去了多样性；同时图中第二行：表示仅用步骤二(即去除步骤三)，获得的阴影区域只有一个是有效的，表明模型获得的深度特征失去了判别性；特别地，第一列为原图，第2-4列为获得的三个深度特征图(feature map)，第5列为2-4列特征图的融合；

本发明综合考虑了细粒度图像类内差异大，类间差异小，背景噪声影响大等因素的一项，通过特征判别性损失函数，约束属于每个类别的特征图都具有判别性，且具有对应类别的特征，减小了类内的差异性，降低了学习的难度，学习到了更好的判别性特征；通过新的特征多样性损失函数，约束属于每个类别的特征图均具有多样性，从而增大了类间的差异性，进一步降低了模型的学习难度，学习到了更多的不同的特征；综合以上两点，本发明在细粒度图像分类任务上获得了更多更有判别性的特征，从而取得了良好的效果，相比现有的方法更具针对性，效果更好，且易于实际部署，充分考虑了细粒度图像分类的特性，在多个细粒度图像分类任务上起到了明显的效果提升。

以上所述的仅为本发明的优选实施例，所应理解的是，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想，并不用于限定本发明的保护范围，凡在本发明的思想和原则之内所做的任何修改、等同替换等等，均应包含在本发明的保护范围之内。