CN113378883B - 一种基于通道分组注意力模型的细粒度车辆分类方法 - Google Patents
一种基于通道分组注意力模型的细粒度车辆分类方法 Download PDFInfo
- Publication number
- CN113378883B CN113378883B CN202110514090.6A CN202110514090A CN113378883B CN 113378883 B CN113378883 B CN 113378883B CN 202110514090 A CN202110514090 A CN 202110514090A CN 113378883 B CN113378883 B CN 113378883B
- Authority
- CN
- China
- Prior art keywords
- channel
- classification
- feature
- image
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000004913 activation Effects 0.000 claims abstract description 28
- 238000011176 pooling Methods 0.000 claims abstract description 10
- 238000013527 convolutional neural network Methods 0.000 claims description 23
- 238000010586 diagram Methods 0.000 claims description 17
- 230000004044 response Effects 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 12
- 238000003064 k means clustering Methods 0.000 claims description 11
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 4
- 238000007792 addition Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于通道分组注意力模型的细粒度车辆分类方法,属于细粒度图像分类领域,用通道分组与注意力模型相结合的方式构建CGA‑CNN网络,采用该网络进行分类时,输入的图像经过骨干网络和特征金字塔网络生成16倍和32倍下采样特征图;16倍下采样特征图经过全局平均池化层、全连接层和Softmax分类层得到初步分类结果;然后生成16倍下采样类激活图;再进行通道分组,将各组的类激活图相加生成注意力图;注意力图被下采样至32倍,与32倍下采样特征图进行元素级乘法,得到新的32倍下采样特征图;新得到的32倍下采样特征图经过全局平均池化层、全连接层和Softmax分类层得到最终分类结果。本发明能更好的识别图像的判别性区域,进一步提高车辆细粒度分类的精度。
Description
技术领域
本发明属于细粒度图像分类领域,具体涉及一种基于通道分组注意力模型的细粒度车辆分类方法。
背景技术
细粒度图像分类是在基本类别的基础上进行更精细的子类分类,比如对车辆厂家下的车系进行分类,这一直是计算机视觉中一个具有挑战性的工作。与粗粒度图像比起来,细粒度图像具有更加细微的特征,再加上光照、视角等噪声的影响,致使数据具有类间差异小、类内差异大的特点,这使得细粒度图像分类更加有难度。
对于细粒度车辆分类网络来说,最关键的一点是使网络具备提取判别性特征的能力。Branson等人提出了一种从多个姿态归一化区域中检测部分并提取CNN特征的方法,将低级特征层与姿态归一化提取程序和高级特征层与未对齐的图像特征集成在一起;Zhang等人提出了一种基于部分的R-CNN来学习整体对象和部分检测器,使用选择性搜索来生成零件建议并应用非参数几何约束来定位零件;Heliang Zheng等人提出了一种细粒度的多注意力卷积神经网络。由于类间差异小,一般的分类网络并不能达到令人满意的分类精度,究其原因,这些分类网络并没有一个有效的方法来注意到图像的判别性区域,而判别性区域是进行细粒度图像分类的关键。
发明内容
本发明针对现有的细粒度车辆分类类内差异小,传统分类网络分类精度低这一问题,提出了一种基于通道分组注意力模型的细粒度车辆分类方法。
为了实现上述目的,本发明采用如下技术方案:
一种基于通道分组注意力模型的细粒度车辆分类方法,采用通道分组与注意力模型相结合的方式构建CGA-CNN网络并进行训练,然后利用CGA-CNN网络进行多尺度的细粒度车辆分类;
采用所述CGA-CNN网络进行多尺度的细粒度车辆分类时,首先输入车辆图像,输入的图像经过骨干网络和特征金字塔网络生成16倍和32倍下采样特征图;16倍下采样特征图经过全局平均池化层、全连接层和Softmax分类层得到初步分类结果;然后生成16倍下采样类激活图;通过K均值聚类算法进行通道分组,将各组内的类激活图相加生成注意力图;注意力图被下采样至32倍,与32倍下采样特征图进行元素级乘法,得到新的32倍下采样特征图;最后,新得到的32倍下采样特征图经过全局平均池化层、全连接层和Softmax分类层得到最终车辆分类结果。
优选地,基于CGA-CNN网络进行多尺度的细粒度车辆分类方法具体包括如下步骤:
S1.从车辆数据集中选取图像X进行预处理,将图像X裁剪成448×448的尺寸,如果图像X为灰度图和二值图,则将图像X转换为RGB三通道格式;
S2.利用卷积神经网络提取预处理后图像X的特征图;
S3.利用特征金字塔网络生成预处理后图像X的金字塔特征图,从中选取16倍、32倍下采样的特征图,分别记为A1、A2,其中其中,w1、h1、w2、h2分别表示A1、A2的宽与高,c表示特征通道数;
S4.对A1进行全局平均池化得到一个K维的特征向量V1,其中K表示数据集中图像的类别数,V1由对应的w1、h1代入公式(1)得到;
其中,fk(x,y)表示类别k在最后一个卷积层位置(x,y)的激活;
S5.在V1之后连接一个全连接层和softmax分类层得到图像X的预测向量P1;P1由公式(2)计算得到;
当为P1中的最大值时,表示类别k被激活,/>表示softmax分类层的输入向量;其中,/>由公式(3)计算得到;
其中,表示类别k的第/>个参数;
S6.对于A1中的每个特征通道,通过将被激活的类别k对应的全连接层中的节点的个参数组成的向量/>乘到相应的通道上,对应得到/>个激活图,每个激活图由公式(4)表示;
S7.在A1中的每个特征通道中寻找最大响应值,得到其对应的坐标集合其中,/>是第i个特征通道的最大响应值的坐标,对M使用K均值聚类算法将通道分为N个通道组,其中K均值聚类算法的距离评价指标由公式(5)表示;
其中,D表示最大响应值之间的欧几里德距离,i,j∈1,...,c并且i≠j;第p个通道组内包含的通道由指示向量(6)表示,
[1{1},...,1{j},...,1{s}] (6)
其中,当第j个特征通道属于第p个通道组时,1{·}=1,否则1{·}=0;
S8.根据通道分组指示向量,将每个通道组内包含的激活图相加得到相应的注意力图T1,此操作共产生N个T1,组内激活图相加操作由公式(7)表示;
其中,表示16倍下采样的第/>个注意力图,/>表示通道组内第/>个激活图C;
S9.将步骤S8得到的N个T1进行2倍下采样得到N个32倍下采样的注意力图T2;
S10.每个32倍下采样的T2中包含的通道与A2中相应的通道进行元素级的乘法操作,得到融合后的特征图F,F的第i个特征通道由公式(8)表示;
其中,表示32倍下采样的第/>个注意力图在位置/>上的值,/>表示A2中的第i个特征通道在位置/>上的值,/>
S11.对F进行GAP操作,得到一个K维的特征向量V2,V2通过将对应的w2、h2代入公式(1)得到;
S12.在V2之后连接一个全连接层和softmax分类层得到最终的预测向量P2;P2由公式(9)计算得到;
其中,表示softmax分类层的输入向量;其中,/>由公式(10)计算得到;
其中,表示类别k的第/>个参数;
P2中的最大值对应的类别为最后的分类结果。
优选地,所述CGA-CNN网络进行训练时,设置训练损失函数,计算训练损失值,X的损失函数定义由公式(11)表示:
其中,Y(i)表示对于类别k该网络的预测,Y*表示正确的类别,s表示图像尺度;Lcls表示分类损失,由公式(12)表示:
其中,表示在s图像尺度上网络对于类别k预测的概率;Lrank表示ranking损失,由公式(13)表示,
其中,m为边缘参数,该网络使用m=0.005作为缺省值;表示在s+1图像尺度上网络对于类别k预测的概率。
优选地,所述CGA-CNN网络进行训练时,首先在ResNeXt-101上预训练CGA-CNN网络的骨干网络,然后再训练CGA-CNN网络。
优选地,所述步骤S7中,某个特征通道最大响应点代表该特征通道对某种图像特征具有识别性,使用K均值聚类算法根据最大响应点坐标对特征通道进行分组,使每个组的特征通道集合表示特定模式的图像特征,有利于判别性区域的识别。
优选地,所述注意力图本质上是像素级别的权重矩阵,表示特征图上每个像素的重要程度;通过步骤S8,就能够将组内的激活图相加得到注意力图,得到特征图上的不同部分对应的关注度。
优选地,通过步骤S10将生成的注意力图与32倍下采样的特征图进行像素级乘法,得到新的特征图,使分类网络进一步注意到图像的判别性区域,提高图像分类精度。
本发明所带来的有益技术效果:
本发明采用通道分组与注意力模型相结合的方式将类激活图转化为注意力图,进而进行多尺度的细粒度车辆分类;
在模型构建阶段,生成激活图与通道组,每个通道组表示特定模式的图像特征,有利于判别性区域的识别;然后将通道组内包含的激活图相加生成多个注意力图,这样就能够得到特征图上的不同部分对应的重要度;然后在下一个尺度上将前面产生的注意力图与原始图像的特征图进行元素级乘法生成新的特征图,使分类网络进一步注意到图像的判别性区域;同时,在损失函数中加入ranking损失函数,可以使网络的分类精度更高;
本发明提出的网络能更好的识别图像的判别性区域,进一步提高车辆细粒度分类的精度。
附图说明
图1为本发明基于通道分组与注意力模型的细粒度车辆分类方法的流程图;
图2为本发明基于通道分组与注意力模型的细粒度车辆分类方法的结构图。
具体实施方式
下面结合附图以及具体实施方式对本发明作进一步详细说明:
如图1-2所示,本发明采用通道分组与注意力模型相结合的方式构建CGA-CNN(Channel Grouping Attention Convolutional Neural Networks)网络对细粒度车辆进行分类。网络训练和正向推理的步骤如下:
步骤1:从Stanford Cars-196或CompCars数据集中选取图像X并进行预处理,具体包括:将X裁剪成448×448的尺寸;
步骤2:利用卷积神经网络(Convolutional Neural Networks,CNN)提取X的特征图;
步骤3:利用特征金字塔网络(Feature Pyramid Networks,FPN)生成X的金字塔特征图,从中选取16倍、32倍下采样的特征图,分别记为A1、A2,其中w1、h1、w2、h2分别表示A1、A2的宽与高,c表示特征通道数;
步骤4:对A1进行全局平均池化(Global Average Pooling,GAP)得到一个K维的特征向量V1,其中K表示数据集中图像的类别数,V1可由公式(1)得到;
其中,fk(x,y)表示类别k在最后一个卷积层位置(x,y)的激活;
步骤5:在V1之后连接一个全连接层和softmax分类层得到X的预测向量P1。P1可由公式(2)计算得到;
当为P1中的最大值时,表示类别k被激活,/>表示softmax分类层的输入向量。其中,/>可由公式(3)计算得到;
其中,表示类别k的第/>个参数;
步骤6:对于A1中的每个特征通道,通过将被激活的类别k对应的全连接层中的节点的个参数组成的向量/>乘到相应的通道上,对应得到/>个激活图,每个激活图可由公式(4)表示;
步骤7:在A1中的每个特征通道中寻找最大响应值,得到其对应的坐标集合 其中,/>是第i个特征通道的最大响应值的坐标,对M使用K均值聚类算法(K-Means clustering algorithm,K-Means)将通道分为N个通道组,其中K-means的距离评价指标可由公式(5)表示;
其中,D表示最大响应值之间的欧几里德距离,i,j∈1,...,c并且i≠j;第p个通道组内包含的通道由指示向量(6)表示,
[1{1},...,1{j},...,1{s}] (6)
其中,当第j个特征通道属于第p个通道组时,1{·}=1,否则1{·}=0;
某个特征通道最大响应点代表该特征通道对某种图像特征具有识别性,使用K均值聚类算法根据最大响应点坐标对特征通道进行分组,可以使每个组的特征通道集合表示特定模式的图像特征,有利于判别性区域的识别。
步骤8:根据通道分组指示向量,将每个通道组内包含的激活图相加得到相应的注意力图T1,此操作共产生N个T1,组内激活图相加操作可以由公式(7)表示;
其中,表示16倍下采样的第/>个注意力图,/>表示通道组内第/>个激活图C;;
注意力图本质上是像素级别的权重矩阵,表示特征图上每个像素的重要程度。通过步骤8,就能够将组内的激活图相加得到注意力图,就可以得到特征图上的不同部分对应的重要度。
步骤9:将步骤8得到的N个T1进行2倍下采样得到N个32倍下采样的注意力图T2;
步骤10:每个32倍下采样的T2中包含的通道与A2中相应的通道进行元素级的乘法操作,得到融合后的特征图F,F的第i个特征通道由公式(8)表示,
其中,表示32倍下采样的第/>个注意力图在位置/>上的值,/>表示A2中的第i个特征通道在位置/>上的值,/>
通过步骤10将生成的注意力图与32倍下采样的特征图进行像素级乘法,得到新的特征图,使分类网络进一步注意到图像的判别性区域,提高图像分类精度。
步骤11:对F进行GAP操作,得到一个K维的特征向量V2,此操作可以由公式(1)表示;
步骤12:在V2之后连接一个全连接层和softmax分类层得到最终的预测向量P2。P2可由公式(9)计算得到;
其中,表示softmax分类层的输入向量;其中,/>由公式(10)计算得到;
其中,表示类别k的第/>个参数;
步骤13:设置训练损失函数,计算训练损失值,X的损失函数定义可由公式(11)表示;
其中,Y(i)表示对于类别k该网络的预测,Y*表示正确的类别,s表示图像尺度;Lcls表示分类损失,可以由公式(12)表示,
其中,表示在s图像尺度上网络对于类别k预测的概率。Lrank表示ranking损失,可以由公式(13)表示,
其中,m为边缘参数,该网络使用m=0.005作为缺省值;表示在s+1图像尺度上网络对于类别k预测的概率。
步骤14:在ResNeXt-101上预训练该网络的骨干网络,然后通过步骤4-步骤13训练本发明提出的CGA-CNN网络模型;
步骤15:在正向推理过程中,取步骤12产生的P2中的最大值,该最大值对应的类别即为最后的分类结果。
实施例1
为了验证本发明提出方法的可行性,分别进行了验证实验与对比实验,验证实验选取图像X作为网络的输入,以下为验证实验的具体步骤:
实验环境配置:windows10操作系统、AMD Ryzen 3600X CPU@4.4GHz、16GB RAM、NVIDIA GTX1080Ti GPU。
实验选取Stanford Cars-196数据集与CompCars数据集,具体信息如表1:
表1Stanford Cars-196数据集与CompCars数据集信息
输入:图像X。
输出:图像X的分类结果。
步骤1:对X进行预处理,将数据集中的X裁剪成448×448的尺寸;
步骤2:利用CNN提取特征图;
步骤3:利用FPN生成金字塔特征图,从中选取16倍下采样、32倍下采样的特征图,分别记为A1、A2,对于Stanford Cars-196数据集,A1的尺寸为28×28×196,A2的尺寸为14×14×196,对于CopmCars数据集,A1的尺寸为28×28×431,A2的尺寸为14×14×431;
步骤4:对A1进行GAP操作得到一个K维的特征向量V1,对于Stanford Cars-196数据集,K=196,对于CopmCars数据集,K=431;
步骤5:在V1之后连接一个全连接层,使用softmax分类函数得到X的预测向量P1;
步骤6:对于A1中的每个特征通道,通过将被激活的类别k对应的全连接层中的节点的权重乘到相应的通道上,得到类激活图;
步骤7:在A1中的每个特征通道中寻找最大响应值,得到其对应的坐标集合 对M使用K-Means算法将通道分为四个通道组;
步骤8:对分组后的类激活图在组内进行加法运算得到的注意力图T1,该注意力图包含四个通道,分别对应四个组;
步骤9:将T1进行2X下采样得到4个32倍下采样的注意力图T2;
步骤10:T2中相应的通道与A2中对应的通道进行元素级的乘法操作,得到融合后的特征图F;
步骤11:对F进行GAP操作,得到特征向量V2;
步骤12:在V2之后连接一个全连接层和Softmax函数,得到X的分类结果,如AudiA4L、Audi A6L、Benz C Class等;
为了直观地观察本发明提出的方法是否能够对车辆判别性区域施加更高的关注力,本发明对32倍下采样特征图生成的类激活图进行了可视化。本发明用Mk表示类别k的判别性区域热图,Mk的每个元素可由公式(14)计算得到。
然后本发明使用最近邻算法将Mk上采样到输入X的尺寸,将Mk与输入X一起进行可视化。从可视化结果可以看出,高亮区域往往位于车辆车灯、车标、进气栅格等判别性区域。因此,可以得出结论,本发明提出的算法对判别性特征的提取和判别性区域的定位有明显的效果。
实施例2
为了检验本发明优劣,与Liu等人提出的FCAN方法、Wang等人提出的MDTP方法、Krausel等人提出的PA-CNN方法和Zheng等人提出的MA-CNN方法进行对比,结果如表2所示。
表2Stanford Cars-196数据集与CompCars数据集分类结果
从表2可以看出,在Stanford Cars-196数据集上,本发明提出的方法的分类精度比PA-CNN与MA-CNN方法提高了1.1%,比FCAN方法提高了5.5%。在CompCars数据集上,本发明提出的方法的分类精度比MDTP方法提高了3.1%,比MA-CNN方法提高了2.9%。可以看出在Stanford Cars-196数据集和CompCars数据集上,本发明提出的方法都达到了最高的分类精度,分别为93.9%,97.1%。
当然,上述说明并非是对本发明的限制,本发明也并不限于上述举例,本技术领域的技术人员在本发明的实质范围内所作出的变化、改型、添加或替换,也应属于本发明的保护范围。
Claims (5)
1.一种基于通道分组注意力模型的细粒度车辆分类方法,其特征在于,采用通道分组与注意力模型相结合的方式构建CGA-CNN网络并进行训练,然后利用CGA-CNN网络进行多尺度的细粒度车辆分类;
采用所述CGA-CNN网络进行多尺度的细粒度车辆分类时,首先输入车辆图像,输入的图像经过骨干网络和特征金字塔网络生成16倍和32倍下采样特征图;16倍下采样特征图经过全局平均池化层、全连接层和Softmax分类层得到初步分类结果;然后生成16倍下采样类激活图;通过K均值聚类算法进行通道分组,将各组内的类激活图相加生成注意力图;注意力图被下采样至32倍,与32倍下采样特征图进行元素级乘法,得到新的32倍下采样特征图;最后,新得到的32倍下采样特征图经过全局平均池化层、全连接层和Softmax分类层得到最终车辆分类结果;
基于CGA-CNN网络进行多尺度的细粒度车辆分类方法具体包括如下步骤:
S1.从车辆数据集中选取图像X进行预处理,将图像X裁剪成448×448的尺寸,如果图像X为灰度图和二值图,则将图像X转换为RGB三通道格式;
S2.利用卷积神经网络提取预处理后图像X的特征图;
S3.利用特征金字塔网络生成预处理后图像X的金字塔特征图,从中选取16倍、32倍下采样的特征图,分别记为A1、A2,其中其中,w1、h1、w2、h2分别表示A1、A2的宽与高,c表示特征通道数;
S4.对A1进行全局平均池化得到一个K维的特征向量V1,其中K表示数据集中图像的类别数,V1由对应的w1、h1代入公式(1)得到;
其中,fk(x,y)表示类别k在最后一个卷积层位置(x,y)的激活;
S5.在V1之后连接一个全连接层和softmax分类层得到图像X的预测向量P1;P1由公式(2)计算得到;
当为P1中的最大值时,表示类别k被激活,/>表示softmax分类层的输入向量;其中,由公式(3)计算得到;
其中,表示类别k的第/>个参数;
S6.对于A1中的每个特征通道,通过将被激活的类别k对应的全连接层中的节点的个参数组成的向量/>乘到相应的通道上,对应得到/>个激活图,每个激活图由公式(4)表示;
S7.在A1中的每个特征通道中寻找最大响应值,得到其对应的坐标集合其中,/>是第i个特征通道的最大响应值的坐标,对M使用K均值聚类算法将通道分为N个通道组,其中K均值聚类算法的距离评价指标由公式(5)表示;
其中,D表示最大响应值之间的欧几里德距离,i,j∈1,...,c并且i≠j;第p个通道组内包含的通道由指示向量(6)表示,
[1{1},...,1{j},...,1{s}] (6)
其中,当第j个特征通道属于第p个通道组时,1{·}=1,否则1{·}=0;
S8.根据通道分组指示向量,将每个通道组内包含的激活图相加得到相应的注意力图T1,此操作共产生N个T1,组内激活图相加操作由公式(7)表示;
其中,表示16倍下采样的第/>个注意力图,/>表示通道组内第/>个激活图C;
S9.将步骤S8得到的N个T1进行2倍下采样得到N个32倍下采样的注意力图T2;
S10.每个32倍下采样的T2中包含的通道与A2中相应的通道进行元素级的乘法操作,得到融合后的特征图F,F的第i个特征通道由公式(8)表示;
其中,表示32倍下采样的第/>个注意力图在位置/>上的值,/>表示A2中的第i个特征通道在位置/>上的值,/>
S11.对F进行GAP操作,得到一个K维的特征向量V2,V2通过将对应的w2、h2代入公式(1)得到;
S12.在V2之后连接一个全连接层和softmax分类层得到最终的预测向量P2;P2由公式(9)计算得到;
其中,表示softmax分类层的输入向量;其中,/>由公式(10)计算得到;
其中,表示类别k的第/>个参数;
P2中的最大值对应的类别为最后的分类结果;
所述CGA-CNN网络进行训练时,设置训练损失函数,计算训练损失值,X的损失函数定义由公式(11)表示:
其中,Y(i)表示对于类别k该网络的预测,Y*表示正确的类别,s表示图像尺度;Lcls表示分类损失,由公式(12)表示:
其中,表示在s图像尺度上网络对于类别k预测的概率;Lrank表示ranking损失,由公式(13)表示,
其中,m为边缘参数,该网络使用m=0.005作为缺省值;表示在s+1图像尺度上网络对于类别k预测的概率。
2.根据权利要求1所述的基于通道分组注意力模型的细粒度车辆分类方法,其特征在于,所述CGA-CNN网络进行训练时,首先在ResNeXt-101上预训练CGA-CNN网络的骨干网络,然后再训练CGA-CNN网络。
3.根据权利要求1所述的基于通道分组注意力模型的细粒度车辆分类方法,其特征在于,所述步骤S7中,某个特征通道最大响应点代表该特征通道对某种图像特征具有识别性,使用K均值聚类算法根据最大响应点坐标对特征通道进行分组,使每个组的特征通道集合表示特定模式的图像特征,有利于判别性区域的识别。
4.根据权利要求1所述的基于通道分组注意力模型的细粒度车辆分类方法,其特征在于,所述注意力图本质上是像素级别的权重矩阵,表示特征图上每个像素的重要程度;通过步骤S8,就能够将组内的激活图相加得到注意力图,得到特征图上的不同部分对应的关注度。
5.根据权利要求1所述的基于通道分组注意力模型的细粒度车辆分类方法,其特征在于,通过步骤S10将生成的注意力图与32倍下采样的特征图进行像素级乘法,得到新的特征图,使分类网络进一步注意到图像的判别性区域,提高图像分类精度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110514090.6A CN113378883B (zh) | 2021-05-12 | 2021-05-12 | 一种基于通道分组注意力模型的细粒度车辆分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110514090.6A CN113378883B (zh) | 2021-05-12 | 2021-05-12 | 一种基于通道分组注意力模型的细粒度车辆分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113378883A CN113378883A (zh) | 2021-09-10 |
CN113378883B true CN113378883B (zh) | 2024-01-23 |
Family
ID=77572570
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110514090.6A Active CN113378883B (zh) | 2021-05-12 | 2021-05-12 | 一种基于通道分组注意力模型的细粒度车辆分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113378883B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113780557B (zh) * | 2021-11-11 | 2022-02-15 | 中南大学 | 基于免疫理论的对抗图像攻击方法、装置、产品及介质 |
CN114004838B (zh) * | 2022-01-04 | 2022-04-12 | 深圳比特微电子科技有限公司 | 目标类别识别方法、训练方法及可读存储介质 |
CN117197127B (zh) * | 2023-11-02 | 2024-02-20 | 广东乾威精密连接器有限公司 | 一种基于机器视觉的汽车端子检测方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598029A (zh) * | 2019-09-06 | 2019-12-20 | 西安电子科技大学 | 基于注意力转移机制的细粒度图像分类方法 |
CN110619369A (zh) * | 2019-09-23 | 2019-12-27 | 常熟理工学院 | 基于特征金字塔与全局平均池化的细粒度图像分类方法 |
CN110751195A (zh) * | 2019-10-12 | 2020-02-04 | 西南交通大学 | 一种基于改进YOLOv3的细粒度图像分类方法 |
CN111144490A (zh) * | 2019-12-26 | 2020-05-12 | 南京邮电大学 | 一种基于轮替知识蒸馏策略的细粒度识别方法 |
CN111767954A (zh) * | 2020-06-30 | 2020-10-13 | 苏州科达科技股份有限公司 | 车辆细粒度识别模型生成方法、系统、设备及存储介质 |
CN112149720A (zh) * | 2020-09-09 | 2020-12-29 | 南京信息工程大学 | 一种细粒度车辆类型识别方法 |
AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
-
2021
- 2021-05-12 CN CN202110514090.6A patent/CN113378883B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598029A (zh) * | 2019-09-06 | 2019-12-20 | 西安电子科技大学 | 基于注意力转移机制的细粒度图像分类方法 |
CN110619369A (zh) * | 2019-09-23 | 2019-12-27 | 常熟理工学院 | 基于特征金字塔与全局平均池化的细粒度图像分类方法 |
CN110751195A (zh) * | 2019-10-12 | 2020-02-04 | 西南交通大学 | 一种基于改进YOLOv3的细粒度图像分类方法 |
CN111144490A (zh) * | 2019-12-26 | 2020-05-12 | 南京邮电大学 | 一种基于轮替知识蒸馏策略的细粒度识别方法 |
CN111767954A (zh) * | 2020-06-30 | 2020-10-13 | 苏州科达科技股份有限公司 | 车辆细粒度识别模型生成方法、系统、设备及存储介质 |
CN112149720A (zh) * | 2020-09-09 | 2020-12-29 | 南京信息工程大学 | 一种细粒度车辆类型识别方法 |
AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
Non-Patent Citations (2)
Title |
---|
基于卷积神经网络的车辆细粒度分类算法研究;马俊杰;中国优秀硕士论文全文库;全文 * |
基于本体特征的影评细粒度情感分类;侯艳辉 等;计算机应用;第40卷(第4期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113378883A (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113378883B (zh) | 一种基于通道分组注意力模型的细粒度车辆分类方法 | |
US11416710B2 (en) | Feature representation device, feature representation method, and program | |
JP6708385B2 (ja) | 識別器作成装置、識別器作成方法、およびプログラム | |
Zhang et al. | Vehicle detection using an extended hidden random field model | |
JP2016062610A (ja) | 特徴モデル生成方法及び特徴モデル生成装置 | |
CN111461213B (zh) | 一种目标检测模型的训练方法、目标快速检测方法 | |
CN111008576B (zh) | 行人检测及其模型训练、更新方法、设备及可读存储介质 | |
CN111898621A (zh) | 一种轮廓形状识别方法 | |
CN108427919B (zh) | 一种基于形状引导显著性模型的无监督油罐目标检测方法 | |
CN111507227B (zh) | 基于深度学习的多学生个体分割及状态自主识别方法 | |
CN106845458B (zh) | 一种基于核超限学习机的快速交通标识检测方法 | |
CN114913498A (zh) | 一种基于关键点估计的并行多尺度特征聚合车道线检测方法 | |
CN112488128A (zh) | 一种基于贝塞尔曲线的任意畸变图像线段检测方法 | |
CN114492634B (zh) | 一种细粒度装备图片分类识别方法及系统 | |
CN114626476A (zh) | 基于Transformer与部件特征融合的鸟类细粒度图像识别方法及装置 | |
Gupta et al. | Image-based Road Pothole Detection using Deep Learning Model | |
Al Zorgani et al. | Comparative study of image classification using machine learning algorithms | |
CN110111365B (zh) | 基于深度学习的训练方法和装置以及目标跟踪方法和装置 | |
CN110263836B (zh) | 一种基于多特征卷积神经网络的不良驾驶状态识别方法 | |
Barodi et al. | An enhanced artificial intelligence-based approach applied to vehicular traffic signs detection and road safety enhancement | |
Zhao et al. | Hybrid generative/discriminative scene classification strategy based on latent Dirichlet allocation for high spatial resolution remote sensing imagery | |
CN116872961B (zh) | 用于智能驾驶车辆的控制系统 | |
CN111401122B (zh) | 一种基于知识分类的复杂目标渐近识别方法及装置 | |
CN109815887B (zh) | 一种基于多智能体协作的复杂光照下人脸图像的分类方法 | |
CN112633169B (zh) | 一种基于改进型LeNet-5网络的行人识别算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |