CN113378883B

CN113378883B - 一种基于通道分组注意力模型的细粒度车辆分类方法

Info

Publication number: CN113378883B
Application number: CN202110514090.6A
Authority: CN
Inventors: 赵卫东; 赵丽娟
Original assignee: Shandong University of Science and Technology
Current assignee: Shandong University of Science and Technology
Priority date: 2021-05-12
Filing date: 2021-05-12
Publication date: 2024-01-23
Anticipated expiration: 2041-05-12
Also published as: CN113378883A

Abstract

本发明公开了一种基于通道分组注意力模型的细粒度车辆分类方法，属于细粒度图像分类领域，用通道分组与注意力模型相结合的方式构建CGA‑CNN网络，采用该网络进行分类时，输入的图像经过骨干网络和特征金字塔网络生成16倍和32倍下采样特征图；16倍下采样特征图经过全局平均池化层、全连接层和Softmax分类层得到初步分类结果；然后生成16倍下采样类激活图；再进行通道分组，将各组的类激活图相加生成注意力图；注意力图被下采样至32倍，与32倍下采样特征图进行元素级乘法，得到新的32倍下采样特征图；新得到的32倍下采样特征图经过全局平均池化层、全连接层和Softmax分类层得到最终分类结果。本发明能更好的识别图像的判别性区域，进一步提高车辆细粒度分类的精度。

Description

一种基于通道分组注意力模型的细粒度车辆分类方法

技术领域

本发明属于细粒度图像分类领域，具体涉及一种基于通道分组注意力模型的细粒度车辆分类方法。

背景技术

细粒度图像分类是在基本类别的基础上进行更精细的子类分类，比如对车辆厂家下的车系进行分类，这一直是计算机视觉中一个具有挑战性的工作。与粗粒度图像比起来，细粒度图像具有更加细微的特征，再加上光照、视角等噪声的影响，致使数据具有类间差异小、类内差异大的特点，这使得细粒度图像分类更加有难度。

对于细粒度车辆分类网络来说，最关键的一点是使网络具备提取判别性特征的能力。Branson等人提出了一种从多个姿态归一化区域中检测部分并提取CNN特征的方法，将低级特征层与姿态归一化提取程序和高级特征层与未对齐的图像特征集成在一起；Zhang等人提出了一种基于部分的R-CNN来学习整体对象和部分检测器，使用选择性搜索来生成零件建议并应用非参数几何约束来定位零件；Heliang Zheng等人提出了一种细粒度的多注意力卷积神经网络。由于类间差异小，一般的分类网络并不能达到令人满意的分类精度，究其原因，这些分类网络并没有一个有效的方法来注意到图像的判别性区域，而判别性区域是进行细粒度图像分类的关键。

发明内容

本发明针对现有的细粒度车辆分类类内差异小，传统分类网络分类精度低这一问题，提出了一种基于通道分组注意力模型的细粒度车辆分类方法。

为了实现上述目的，本发明采用如下技术方案：

一种基于通道分组注意力模型的细粒度车辆分类方法，采用通道分组与注意力模型相结合的方式构建CGA-CNN网络并进行训练，然后利用CGA-CNN网络进行多尺度的细粒度车辆分类；

采用所述CGA-CNN网络进行多尺度的细粒度车辆分类时，首先输入车辆图像，输入的图像经过骨干网络和特征金字塔网络生成16倍和32倍下采样特征图；16倍下采样特征图经过全局平均池化层、全连接层和Softmax分类层得到初步分类结果；然后生成16倍下采样类激活图；通过K均值聚类算法进行通道分组，将各组内的类激活图相加生成注意力图；注意力图被下采样至32倍，与32倍下采样特征图进行元素级乘法，得到新的32倍下采样特征图；最后，新得到的32倍下采样特征图经过全局平均池化层、全连接层和Softmax分类层得到最终车辆分类结果。

优选地，基于CGA-CNN网络进行多尺度的细粒度车辆分类方法具体包括如下步骤：

S1.从车辆数据集中选取图像X进行预处理，将图像X裁剪成448×448的尺寸，如果图像X为灰度图和二值图，则将图像X转换为RGB三通道格式；

S2.利用卷积神经网络提取预处理后图像X的特征图；

S3.利用特征金字塔网络生成预处理后图像X的金字塔特征图，从中选取16倍、32倍下采样的特征图，分别记为A₁、A₂，其中其中，w₁、h₁、w₂、h₂分别表示A₁、A₂的宽与高，c表示特征通道数；

S4.对A₁进行全局平均池化得到一个K维的特征向量V₁，其中K表示数据集中图像的类别数，V₁由对应的w₁、h₁代入公式(1)得到；

其中，f_k(x，y)表示类别k在最后一个卷积层位置(x，y)的激活；

S5.在V₁之后连接一个全连接层和softmax分类层得到图像X的预测向量P₁；P₁由公式(2)计算得到；

当为P₁中的最大值时，表示类别k被激活，/>表示softmax分类层的输入向量；其中，/>由公式(3)计算得到；

其中，表示类别k的第/>个参数；

S6.对于A₁中的每个特征通道，通过将被激活的类别k对应的全连接层中的节点的个参数组成的向量/>乘到相应的通道上，对应得到/>个激活图，每个激活图由公式(4)表示；

S7.在A₁中的每个特征通道中寻找最大响应值，得到其对应的坐标集合其中，/>是第i个特征通道的最大响应值的坐标，对M使用K均值聚类算法将通道分为N个通道组，其中K均值聚类算法的距离评价指标由公式(5)表示；

其中，D表示最大响应值之间的欧几里德距离，i，j∈1,...，c并且i≠j；第p个通道组内包含的通道由指示向量(6)表示，

[1{1},...，1{j},...，1{s}] (6)

其中，当第j个特征通道属于第p个通道组时，1{·}＝1，否则1{·}＝0；

S8.根据通道分组指示向量，将每个通道组内包含的激活图相加得到相应的注意力图T₁，此操作共产生N个T₁，组内激活图相加操作由公式(7)表示；

其中，表示16倍下采样的第/>个注意力图，/>表示通道组内第/>个激活图C；

S9.将步骤S8得到的N个T₁进行2倍下采样得到N个32倍下采样的注意力图T₂；

S10.每个32倍下采样的T₂中包含的通道与A₂中相应的通道进行元素级的乘法操作，得到融合后的特征图F，F的第i个特征通道由公式(8)表示；

其中，表示32倍下采样的第/>个注意力图在位置/>上的值，/>表示A₂中的第i个特征通道在位置/>上的值，/>

S11.对F进行GAP操作，得到一个K维的特征向量V₂，V₂通过将对应的w₂、h₂代入公式(1)得到；

S12.在V₂之后连接一个全连接层和softmax分类层得到最终的预测向量P₂；P₂由公式(9)计算得到；

其中，表示softmax分类层的输入向量；其中，/>由公式(10)计算得到；

其中，表示类别k的第/>个参数；

P₂中的最大值对应的类别为最后的分类结果。

优选地，所述CGA-CNN网络进行训练时，设置训练损失函数，计算训练损失值，X的损失函数定义由公式(11)表示：

其中，Y⁽ⁱ⁾表示对于类别k该网络的预测，Y^*表示正确的类别，s表示图像尺度；L_cls表示分类损失，由公式(12)表示：

其中，表示在s图像尺度上网络对于类别k预测的概率；L_rank表示ranking损失，由公式(13)表示，

其中，m为边缘参数，该网络使用m＝0.005作为缺省值；表示在s+1图像尺度上网络对于类别k预测的概率。

优选地，所述CGA-CNN网络进行训练时，首先在ResNeXt-101上预训练CGA-CNN网络的骨干网络，然后再训练CGA-CNN网络。

优选地，所述步骤S7中，某个特征通道最大响应点代表该特征通道对某种图像特征具有识别性，使用K均值聚类算法根据最大响应点坐标对特征通道进行分组，使每个组的特征通道集合表示特定模式的图像特征，有利于判别性区域的识别。

优选地，所述注意力图本质上是像素级别的权重矩阵，表示特征图上每个像素的重要程度；通过步骤S8，就能够将组内的激活图相加得到注意力图，得到特征图上的不同部分对应的关注度。

优选地，通过步骤S10将生成的注意力图与32倍下采样的特征图进行像素级乘法，得到新的特征图，使分类网络进一步注意到图像的判别性区域，提高图像分类精度。

本发明所带来的有益技术效果：

本发明采用通道分组与注意力模型相结合的方式将类激活图转化为注意力图，进而进行多尺度的细粒度车辆分类；

在模型构建阶段，生成激活图与通道组，每个通道组表示特定模式的图像特征，有利于判别性区域的识别；然后将通道组内包含的激活图相加生成多个注意力图，这样就能够得到特征图上的不同部分对应的重要度；然后在下一个尺度上将前面产生的注意力图与原始图像的特征图进行元素级乘法生成新的特征图，使分类网络进一步注意到图像的判别性区域；同时，在损失函数中加入ranking损失函数，可以使网络的分类精度更高；

本发明提出的网络能更好的识别图像的判别性区域，进一步提高车辆细粒度分类的精度。

附图说明

图1为本发明基于通道分组与注意力模型的细粒度车辆分类方法的流程图；

图2为本发明基于通道分组与注意力模型的细粒度车辆分类方法的结构图。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明：

如图1-2所示，本发明采用通道分组与注意力模型相结合的方式构建CGA-CNN(Channel Grouping Attention Convolutional Neural Networks)网络对细粒度车辆进行分类。网络训练和正向推理的步骤如下：

步骤1：从Stanford Cars-196或CompCars数据集中选取图像X并进行预处理，具体包括：将X裁剪成448×448的尺寸；

步骤2：利用卷积神经网络(Convolutional Neural Networks，CNN)提取X的特征图；

步骤3：利用特征金字塔网络(Feature Pyramid Networks，FPN)生成X的金字塔特征图，从中选取16倍、32倍下采样的特征图，分别记为A₁、A₂，其中w₁、h₁、w₂、h₂分别表示A₁、A₂的宽与高，c表示特征通道数；

步骤4：对A₁进行全局平均池化(Global Average Pooling，GAP)得到一个K维的特征向量V₁，其中K表示数据集中图像的类别数，V₁可由公式(1)得到；

步骤5：在V₁之后连接一个全连接层和softmax分类层得到X的预测向量P₁。P₁可由公式(2)计算得到；

当为P₁中的最大值时，表示类别k被激活，/>表示softmax分类层的输入向量。其中，/>可由公式(3)计算得到；

其中，表示类别k的第/>个参数；

步骤6：对于A₁中的每个特征通道，通过将被激活的类别k对应的全连接层中的节点的个参数组成的向量/>乘到相应的通道上，对应得到/>个激活图，每个激活图可由公式(4)表示；

步骤7：在A₁中的每个特征通道中寻找最大响应值，得到其对应的坐标集合其中，/>是第i个特征通道的最大响应值的坐标，对M使用K均值聚类算法(K-Means clustering algorithm，K-Means)将通道分为N个通道组，其中K-means的距离评价指标可由公式(5)表示；

[1{1},...，1{j},...，1{s}] (6)

某个特征通道最大响应点代表该特征通道对某种图像特征具有识别性，使用K均值聚类算法根据最大响应点坐标对特征通道进行分组，可以使每个组的特征通道集合表示特定模式的图像特征，有利于判别性区域的识别。

步骤8：根据通道分组指示向量，将每个通道组内包含的激活图相加得到相应的注意力图T₁，此操作共产生N个T₁，组内激活图相加操作可以由公式(7)表示；

其中，表示16倍下采样的第/>个注意力图，/>表示通道组内第/>个激活图C；；

注意力图本质上是像素级别的权重矩阵，表示特征图上每个像素的重要程度。通过步骤8，就能够将组内的激活图相加得到注意力图，就可以得到特征图上的不同部分对应的重要度。

步骤9：将步骤8得到的N个T₁进行2倍下采样得到N个32倍下采样的注意力图T₂；

步骤10：每个32倍下采样的T₂中包含的通道与A₂中相应的通道进行元素级的乘法操作，得到融合后的特征图F，F的第i个特征通道由公式(8)表示，

通过步骤10将生成的注意力图与32倍下采样的特征图进行像素级乘法，得到新的特征图，使分类网络进一步注意到图像的判别性区域，提高图像分类精度。

步骤11：对F进行GAP操作，得到一个K维的特征向量V₂，此操作可以由公式(1)表示；

步骤12：在V₂之后连接一个全连接层和softmax分类层得到最终的预测向量P₂。P₂可由公式(9)计算得到；

其中，表示类别k的第/>个参数；

步骤13：设置训练损失函数，计算训练损失值，X的损失函数定义可由公式(11)表示；

其中，Y⁽ⁱ⁾表示对于类别k该网络的预测，Y^*表示正确的类别，s表示图像尺度；L_cls表示分类损失，可以由公式(12)表示，

其中，表示在s图像尺度上网络对于类别k预测的概率。L_rank表示ranking损失，可以由公式(13)表示，

步骤14：在ResNeXt-101上预训练该网络的骨干网络，然后通过步骤4-步骤13训练本发明提出的CGA-CNN网络模型；

步骤15：在正向推理过程中，取步骤12产生的P₂中的最大值，该最大值对应的类别即为最后的分类结果。

实施例1

为了验证本发明提出方法的可行性，分别进行了验证实验与对比实验，验证实验选取图像X作为网络的输入，以下为验证实验的具体步骤：

实验环境配置：windows10操作系统、AMD Ryzen 3600X CPU@4.4GHz、16GB RAM、NVIDIA GTX1080Ti GPU。

实验选取Stanford Cars-196数据集与CompCars数据集，具体信息如表1：

表1Stanford Cars-196数据集与CompCars数据集信息

输入：图像X。

输出：图像X的分类结果。

步骤1：对X进行预处理，将数据集中的X裁剪成448×448的尺寸；

步骤2：利用CNN提取特征图；

步骤3：利用FPN生成金字塔特征图，从中选取16倍下采样、32倍下采样的特征图，分别记为A₁、A₂，对于Stanford Cars-196数据集，A₁的尺寸为28×28×196，A₂的尺寸为14×14×196，对于CopmCars数据集，A₁的尺寸为28×28×431，A₂的尺寸为14×14×431；

步骤4：对A₁进行GAP操作得到一个K维的特征向量V₁，对于Stanford Cars-196数据集，K＝196，对于CopmCars数据集，K＝431；

步骤5：在V₁之后连接一个全连接层，使用softmax分类函数得到X的预测向量P₁；

步骤6：对于A₁中的每个特征通道，通过将被激活的类别k对应的全连接层中的节点的权重乘到相应的通道上，得到类激活图；

步骤7：在A₁中的每个特征通道中寻找最大响应值，得到其对应的坐标集合对M使用K-Means算法将通道分为四个通道组；

步骤8：对分组后的类激活图在组内进行加法运算得到的注意力图T₁，该注意力图包含四个通道，分别对应四个组；

步骤9：将T₁进行2X下采样得到4个32倍下采样的注意力图T₂；

步骤10：T₂中相应的通道与A₂中对应的通道进行元素级的乘法操作，得到融合后的特征图F；

步骤11：对F进行GAP操作，得到特征向量V₂；

步骤12：在V₂之后连接一个全连接层和Softmax函数，得到X的分类结果，如AudiA4L、Audi A6L、Benz C Class等；

为了直观地观察本发明提出的方法是否能够对车辆判别性区域施加更高的关注力，本发明对32倍下采样特征图生成的类激活图进行了可视化。本发明用M_k表示类别k的判别性区域热图，M_k的每个元素可由公式(14)计算得到。

然后本发明使用最近邻算法将M_k上采样到输入X的尺寸，将M_k与输入X一起进行可视化。从可视化结果可以看出，高亮区域往往位于车辆车灯、车标、进气栅格等判别性区域。因此，可以得出结论，本发明提出的算法对判别性特征的提取和判别性区域的定位有明显的效果。

实施例2

为了检验本发明优劣，与Liu等人提出的FCAN方法、Wang等人提出的MDTP方法、Krausel等人提出的PA-CNN方法和Zheng等人提出的MA-CNN方法进行对比，结果如表2所示。

表2Stanford Cars-196数据集与CompCars数据集分类结果

从表2可以看出，在Stanford Cars-196数据集上，本发明提出的方法的分类精度比PA-CNN与MA-CNN方法提高了1.1％，比FCAN方法提高了5.5％。在CompCars数据集上，本发明提出的方法的分类精度比MDTP方法提高了3.1％，比MA-CNN方法提高了2.9％。可以看出在Stanford Cars-196数据集和CompCars数据集上，本发明提出的方法都达到了最高的分类精度，分别为93.9％，97.1％。

当然，上述说明并非是对本发明的限制，本发明也并不限于上述举例，本技术领域的技术人员在本发明的实质范围内所作出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.一种基于通道分组注意力模型的细粒度车辆分类方法，其特征在于，采用通道分组与注意力模型相结合的方式构建CGA-CNN网络并进行训练，然后利用CGA-CNN网络进行多尺度的细粒度车辆分类；

采用所述CGA-CNN网络进行多尺度的细粒度车辆分类时，首先输入车辆图像，输入的图像经过骨干网络和特征金字塔网络生成16倍和32倍下采样特征图；16倍下采样特征图经过全局平均池化层、全连接层和Softmax分类层得到初步分类结果；然后生成16倍下采样类激活图；通过K均值聚类算法进行通道分组，将各组内的类激活图相加生成注意力图；注意力图被下采样至32倍，与32倍下采样特征图进行元素级乘法，得到新的32倍下采样特征图；最后，新得到的32倍下采样特征图经过全局平均池化层、全连接层和Softmax分类层得到最终车辆分类结果；

基于CGA-CNN网络进行多尺度的细粒度车辆分类方法具体包括如下步骤：

S2.利用卷积神经网络提取预处理后图像X的特征图；

S5.在V1之后连接一个全连接层和softmax分类层得到图像X的预测向量P₁；P₁由公式(2)计算得到；

当为P₁中的最大值时，表示类别k被激活，/>表示softmax分类层的输入向量；其中，由公式(3)计算得到；

其中，表示类别k的第/>个参数；

其中，D表示最大响应值之间的欧几里德距离，i，j∈1，...，c并且i≠j；第p个通道组内包含的通道由指示向量(6)表示，

[1{1}，...，1{j}，...，1{s}] (6)

其中，表示类别k的第/>个参数；

P₂中的最大值对应的类别为最后的分类结果；

所述CGA-CNN网络进行训练时，设置训练损失函数，计算训练损失值，X的损失函数定义由公式(11)表示：

2.根据权利要求1所述的基于通道分组注意力模型的细粒度车辆分类方法，其特征在于，所述CGA-CNN网络进行训练时，首先在ResNeXt-101上预训练CGA-CNN网络的骨干网络，然后再训练CGA-CNN网络。

3.根据权利要求1所述的基于通道分组注意力模型的细粒度车辆分类方法，其特征在于，所述步骤S7中，某个特征通道最大响应点代表该特征通道对某种图像特征具有识别性，使用K均值聚类算法根据最大响应点坐标对特征通道进行分组，使每个组的特征通道集合表示特定模式的图像特征，有利于判别性区域的识别。

4.根据权利要求1所述的基于通道分组注意力模型的细粒度车辆分类方法，其特征在于，所述注意力图本质上是像素级别的权重矩阵，表示特征图上每个像素的重要程度；通过步骤S8，就能够将组内的激活图相加得到注意力图，得到特征图上的不同部分对应的关注度。

5.根据权利要求1所述的基于通道分组注意力模型的细粒度车辆分类方法，其特征在于，通过步骤S10将生成的注意力图与32倍下采样的特征图进行像素级乘法，得到新的特征图，使分类网络进一步注意到图像的判别性区域，提高图像分类精度。