CN114005096B

CN114005096B - 基于特征增强的车辆重识别方法

Info

Publication number: CN114005096B
Application number: CN202111317650.5A
Authority: CN
Inventors: 于明; 何坤; 于洋; 阎刚; 朱叶; 师硕; 郝小可; 郭迎春; 刘依; 吕华
Original assignee: Hebei University of Technology
Current assignee: Hebei University of Technology
Priority date: 2021-11-09
Filing date: 2021-11-09
Publication date: 2024-05-10
Anticipated expiration: 2041-11-09
Also published as: CN114005096A

Abstract

本发明为基于特征增强的车辆重识别方法，该方法以构建具有空间注意力引导的自适应特征擦除模块和多感受野残差注意力模块的基于多注意力引导的特征增强网络，通过多感受野残差注意力在不同大小的感受野下帮助主干网络获得丰富的车辆外观特征，利用空间注意力引导的自适应特征擦除模块有选择性的擦除车辆最显著特征，使多注意力引导的特征增强网络的局部分支能够挖掘潜在局部特征，融合全局分支的全局特征和擦除分支的潜在局部特征完成车辆重识别过程。本发明方法不仅能够克服复杂的环境变化，如光照剧烈变化、障碍物遮挡而造成局部显著信息丢失的问题，而且能够满足在安全监管、智能交通系统中高效、快速的查找目标车辆的需求。

Description

基于特征增强的车辆重识别方法

技术领域：

本发明涉及用于识别图形的记录载体的处理技术领域，具体地说是基于特征增强的车辆重识别方法，更优选地是将特征增强与知识蒸馏相结合的车辆重识别方法。

背景技术：

车辆重识别可以视为实例级对象搜索任务。与传统的车辆检测问题不同，车辆重识别问题是指在一个特定范围内的交通监控场景下，判断非重叠区域内拍摄的车辆图像是否属于同一辆车的检索问题。目前，国内外在交通发达的区域都安装了监控摄像头，如何更好地利用监控摄像头进行交通监管和刑侦，构建一个安全完善的智能监控系统系统，是一个非常值得研究的问题。随着深度神经网络的兴起和人工智能的快速发展，车辆重识别技术因其能够定位目标车辆而被广泛应用到城市智能监控领域。因此，提升车辆重识别的准确性成为近年来计算机视觉和多媒体领域的研究热点。

常见的车辆重识别方法主要利用多模态数据(例如，车型、颜色、车牌和时空信息等)和全局-局部特征相结合的形式来提高网络提取特征的能力。CN112560932A公开了一种基于双分支网络融合的车辆重识别方法，通过双分支网络提取全局和局部特征，并加入批处理擦除策略，突出了车辆图像的类内相似性和类间差异性，提高了车辆重识别检索的效率和精确性。但是该发明中的批处理擦除策略只能随机的对车辆特征进行擦除并未有选择性的擦除显著特征，会在车辆重识别过程中产生次优的结果。同时，未考虑车辆重识别任务在实际应用中由于网络过于复杂而造成效率不高、实时性差，无法满足交通监管和刑侦领域需求的问题。

本发明方法通过构建基于多注意力引导的特征增强网络，能够提取丰富的全局特征和潜在局部特征，能够解决车辆重识别任务在真实场景下容易受到图像模糊、视图转换以及光照变化而造成关键信息被忽视的问题，同时为了满足在安全监管、智能交通系统中高效、快速的查找目标车辆的需求，使用知识蒸馏方法减少网络参数量，降低网络的复杂度，提高车辆重识别的效率。

发明内容：

针对现有技术的不足，本发明所要解决的技术问题是：提供一种基于特征增强的车辆重识别方法。该方法以构建具有空间注意力引导的自适应特征擦除模块和多感受野残差注意力模块的基于多注意力引导的特征增强网络，通过多感受野残差注意力在不同大小的感受野下帮助主干网络获得丰富的车辆外观特征，利用空间注意力引导的自适应特征擦除模块有选择性的擦除车辆最显著特征，使多注意力引导的特征增强网络的局部分支能够挖掘潜在局部特征，最后，融合全局分支的全局特征向量和擦除分支的潜在局部特征向量完成车辆重识别过程。更优地，将带有四损失函数知识蒸馏方式引入，基于多注意力引导的特征增强网络作为教师网络，利用带有四损失函数的知识蒸馏方法将复杂的教师网络的知识转移到轻量的学生网络，使学生网络在保证重识别性能的前提下，网络参数量、测试效率得到有效的提升。本发明方法不仅能够克服复杂的环境变化，如光照剧烈变化、障碍物遮挡而造成局部显著信息丢失的问题，而且能够满足在安全监管、智能交通系统中高效、快速的查找目标车辆的需求，通过知识蒸馏方法对特征增强车辆重识别网络进行处理，使网络更加轻量、高效。

本发明解决该技术问题所采用的技术方案是：

一种基于特征增强的车辆重识别方法，该方法包括以下内容：

获取车辆图像，经预处理后获得训练集、查询集和图库集；在测试阶段，重识别时在查询集中每次选择一张图像，在图库集中寻找匹配的车辆图像；

构建基于多注意力引导的特征增强网络：该特征增强网络包括ResNet-50主干网络，在主干网络的最后四层的相邻层之间均引入多感受野残差注意力模块，主干网络最后一层的输出分别进入两个分支：全局分支和局部分支；

所述局部分支引入空间注意力引导的自适应擦除模块，所述空间注意力引导的自适应擦除模块也包括两个分支，分别为擦除剩余分支和多感受野分支；

擦除剩余分支利用空间注意力去定位高级语义特征中最显著的特征区域，并设置函数自动在通道、高度、宽度三个维度上寻找特征中的最大像素值，设置擦除概率，利用空间注意力定位的最显著的特征区域的最大像素值进行乘法计算擦除阈值，并将大于擦除阈值的像素值设置为0，小于擦除阈值的像素值设置为1得到二进制擦除掩膜，通过与主干网络在最后一层输出的高级语义特征进行元素相乘得到了擦除高级语义特征中最显著特征后的剩余特征；

多感受野分支直接由主干网络在最后一层输出连接一个多感受野残差注意力模块组成；

在基于多注意力引导的特征增强网络的下次分类时以等概率随机选择经过空间注意力引导的自适应特征擦除模块后得到的剩余特征或者经过多感受野残差注意力模块所提取的多感受野残差特征，捕捉和提取车辆的潜在局部特征；

所述多感受野残差注意力模块用于通过不同大小的感受野，学习不同层次的特征；

融合全局分支的全局特征和局部分支的潜在局部特征获得增强特征向量，完成车辆重识别过程。

车辆图像预处理的过程包括对在道路监控系统中采集的车辆图像进行裁剪、翻转等预处理。构建基于多注意力引导的特征增强网络，利用多感受野残差注意力模块在不同的感受野下提取更多的车辆外观特征。通过空间注意力定位具有最显著性特征区域并进行特征擦除来捕捉和提取车辆的潜在局部特征。

所述多感受野残差注意力模块包括四个感受野不同的分支，第一个分支的卷积核大小为1×1、第二个分支的卷积核大小为3×3，第三个分支使用两个卷积核大小为3×3的卷积串联形成与5×5卷积核相同的感受野，第四个分支使用三个卷积核大小为3×3的卷积串联形成与7×7卷积核相同的感受野；四个分支得到四个不同的子特征，四个子特征拼接后再利用3×3的卷积得到与原始特征具有相同维度、相同尺寸的多感受野特征，最后使用Sigmoid函数将多感受野特征归一化到(0，1)区间得到多感受野注意力特征，将多感受野残差注意力模块的原始输入特征与多感受野注意力特征相乘，得到最终多感受野残差特征。

该车辆重识别方法，以基于多注意力引导的特征增强网络作为教师网络，并设计一种类似于教师网络结构的、轻量的双分支网络作为学生网络，然后，使用四个损失函数来指导和监督学生网络，四个损失函数分别为交叉熵损失、三元组损失、蒸馏损失、相似度损失，学生网络不仅能够学习到教师网络的特征分布，而且能够让学生网络自主的学习与教师网络不同的车辆的特征。

具体地，本发明基于特征增强与知识蒸馏的车辆重识别方法，具体步骤如下：

第一步，车辆图像预处理：

首先，将在不同摄像头下采集的原始图像集X＝{x₁，x₂，…，x_m}划分为训练集T＝{x₁，x₂，…，x_t；t＜m}、查询集Q＝{x_t+1，…，x_q；t＜q＜m}、图库集G＝{x_q+1，…，x_m；q＜g≤m}。其中，x_i代表每一张原始车辆图像，车辆重识别数据集的划分是随机的，i∈[1，m]仅代表每一张图像的下标，t，q，g分别代表训练集、查询集、图库集中最后一张图像的下标，没有特殊的排序。训练集T的分类标签定义为Y_T＝{y₁，y₂，…，y_N}。其中，y_i代表训练集中车辆图像的标签，N代表训练集中有N种不同的车辆。然后，在训练阶段对训练集T中的车辆图像采用双线性内插法，将图像尺寸从原始大小转化为[256，256]并按照概率P＝0.5进行随机水平翻转。最后，根据公式(1)，按照ImageNet数据集标准的RGB模式均值和方差将车辆图像归一化并转化为tensor张量。

其中，均值mean＝[0.485，0.456，0.406]，方差std＝[0.229，0.224，0.225]，X_p表示原车辆图像像素值，Y表示归一化后的像素值。

第二步，构建基于多注意力引导的特征增强网络：

第2.1步，主干网络：

采用ResNet-50作为主干网络，ResNet-50网络共包含5层，分别定义为(stage0～4)。其中，stage1～stage4每层包含多个Bottleneck(ResNet-50网络的stage1包含3个Bottleneck，stage2包含4个Bottleneck，stage3包含6个Bottleneck，stage4包含3个Bottleneck)。在ResNet-50的stage4中将最后一个卷积层的步长设置为1来提高车辆特征的分辨率，保留更多的特征信息。根据主干网络预测的特征映射，在全局分支使用全局平均池化层将特征映射转化为全局特征向量，局部分支使用GeM池化将特征映射转化为局部特征向量。然后，全局分支和局部分支分别利用两个全连接层(FC-2048、FC-512)将特征向量从2048维编码到512维再到固定维。

第2.2步，构建多感受野残差注意力模块：

车辆重识别中的大部分注意力是基于空间和通道的软注意力，这种注意力的优点是确定性且可微的注意力。但是，基于空间和通道的注意力都只增加了网络的深度，在网络宽度上没有提高。而网络宽度的提高往往能够让网络学习到更加丰富的特征(例如，不同的视角，不同的纹理等)。因此，本发明使用带有四个不同卷积核大小(1×1、3×3、5×5、7×7)的多感受野残差注意力，能够通过不同大小的感受野，学习不同层次的特征。然后，在通道维度对不同的特征进行融合。最后，使用残差注意力的思想以防止出现梯度消失的情况。为了进一步减少网络参数的数量，分别用两个和三个较小的3×3卷积核来代替5×5和7×7的卷积核。

具体来说，原始输入特征利用四个并行的1×1卷积在通道维度上降维为四个相同尺寸的不同特征/>a＝1，2，3，4，其中C、H、W分别表示通道、高度和宽度。然后，每个特征I_a(1×1的卷积核分支除外)在经过不同大小的卷积核(1×1、3×3、5×5、7×7)进行卷积操作，得到不同感受野下的四个子特征/>对于每个卷积核，都有合适的填充和ReLU激活函数，以保证特征空间维度的不变性和网络的非线性能力，如公式(2)所示。

其中，δ(·)代表ReLU函数，W_1×1和W_3×3分别表示1×1和3×3的卷积核权重。

然后，通过在通道维度上对得到的四个不同的子特征F₁、F₂、F₃、进行拼接，再利用3×3的卷积得到与原始特征具有相同的维度、相同尺寸的多感受野特征/> 如公式(3)所示：

Z＝δ(W_3×3·(F₁；F₂；F₃；F₄)) (3)

其中，δ(·)代表激活函数ReLU，W₃×₃表示3×3卷积核的权重。

最后，通过使用Sigmoid函数将多感受野特征归一化到(0，1)区间得到多感受野注意力/>利用残差的思想让原始特征/>与多感受野注意力/> 相乘，得到最终多感受野残差特征。

第2.3步，空间注意力引导的自适应擦除模块：

通过在主干网络中添加多感受野残差注意力模块，经过全局平均池化后网络已经能够在车辆重识别的过程捕获到判别性特征。然而，在一些具有挑战性的场景中，由于相似车辆或者出现遮挡、光照变化等情况的影响，往往需要让的网络关注潜在的局部显著特征。因此，在训练过程中，首先通过将在主干网络中提取的高级语义特征作为输入，利用空间注意力定位高级语义特征中最显著的特征区域。然后，选择适当的擦除概率，利用空间注意力中最显著区域的最大像素值进行乘法计算擦除阈值并将大于擦除阈值的像素值设置为0，小于擦除阈值的像素值设置为1得到二进制擦除掩膜，再进行特征擦除得到剩余特征完成车辆重识别任务。擦除操作将主干网络提取的高级语义特征中最显著特征擦除，提取新的次显著特征并利用次显著特征进行下一步车辆图像分类。同时，为了避免最显著特征消失导致的特征增强网络提取特征的能力下降，通过引入多感受野残差注意力模块，将主干网络stage4阶段的输出特征以等概率随机选择的方式输入到多感受野残差注意力模块或者空间注意力引导的特征擦除模块其中之一并进行下一步车辆图像分类，来提高车辆重识别网络提取鲁棒性特征的能力。

空间注意力引导的自适应擦除模块就是将从主干网提取的高级语义特征作为输入，其中，高级语义特征代表经过若干次卷积后提取的抽象的、有利于分类任务的特征。然后，通过使用最大池化P_max和平均池化P_avg在通道维度上将原始特征的维度分别降至1得到/>并将池化结果在通道维度上进行拼接，再使用3×3的卷积降维至1来得到空间注意力。最后，使用Sigmoid函数将特征归一化到(0，1)区间得到空间注意力/> 如公式(4)-(6)所示：

SA＝σ(W_3×3·(S_max；S_avg)) (6)

其中，W_3×3表示3×3卷积核的权重，σ(·)代表激活函数Sigmoid。c，h，w表示高级语义特征S中像素点的索引。表示在通道维度上得到特征中的最大值。/>表示在通道维度上得到特征的平均值。然后，通过公式(7)计算擦除阈值τ。

τ＝α·max(SA(c，h，w)) (7)

其中，α是一个超参数，代表擦除的概率。max(·)表示得到特征中最大的像素值。然后，通过擦除阈值τ，将空间注意力中大于擦除阈值τ的值设置为0，小于擦除阈值τ的值设置为1来生成二进制擦除掩码/>

在获得二进制擦除掩码后，通过与主干网在stage4阶段提取的高级语义特征S进行元素相乘得到了擦除高级语义特征中最显著特征后的剩余特征。因此，网络被强制要求更多地关注潜在的重要局部特征。然而，如果训练过程的每次迭代中都应用二进制擦除掩码，擦除分支会因为无法提取最具辨别力的局部特征使网络的特征提取能力下降。这种方式得到的车辆重识别结果是次优的。因此，为了克服基于多注意力引导的特征增强网络提取特征能力下降问题，通过引入多感受野残差注意力模块，并在多注意力引导的特征增强网络的下次分类时以等概率随机选择多感受野残差注意力模块或者空间注意力引导的自适应特征擦除模块，使网络能够在辨别线索不明确的实际情况下捕捉和提取车辆的潜在局部特征。

第三步，构建知识蒸馏方法：

考虑到车辆重识别在真实场景下构建智能交通、城市监控系统中快速定位和跟踪可疑车辆的重要性，除了要考虑车辆重识别的准确性，还需要考虑车辆重识别的效率问题。因此，提出了一种知识蒸馏方法。通过将特征增强网络作为教师网络，并使用一种类似于教师网络结构的、轻量的双分支网络作为学生网络。然后，使用四个损失函数(交叉熵损失、三元组损失、蒸馏损失、相似度损失)来指导和监督学生网络。学生网络同样采用ResNet-50作为主干网络，通过复制ResNet-50的stage4结构，然后并行添加到ResNet-50中stage4阶段构建下分支，达到类似于教师网络结构的目的。

具体来说，蒸馏损失能够让学生网络的预测结果更加接近教师网络的预测结果，如公式(9)所示。

其中，y^ter＝softmax(q^ter/t_p)，y^stu＝softmax(q^stu/t_p)，分别代表教师网络和学生网络的预测概率。q^ter和q^stu代表教师网络和学生网络在网络深层中经过全连接层后的输出特征。t_p表示温度，t_p越高，网络的预测结果越趋于平滑，网络训练将更加关注负标签。

相似度损失能够让学生网络的特征分布与教师网络的特征分布相似，如公式(10)所示。

其中，表示教师网络在stage4阶段之后提取的高级语义特征，/>表示学生网络在stage4阶段之后提取的高级语义特征。t表示车辆训练集图像的数量。/>表示计算训练集图像损失之和。||·||₁表示L1范数。

交叉熵损失和三元组损失能够让学生网络自主的去学习车辆的特征表示。交叉熵损失如公式(11)所示：

其中，i∈{0，…，t-1}是训练集中图像的索引，n∈{0，…，N-1}是N个类的索引。q_i，n是输出向量中第i个样本的第n个值，即第i个样本属于第n个类的概率。p_i，n是一个平滑的标签，如公式(12)所示。

其中，ε∈[0，1]是一个超参数。y_n∈Y_T是第i个样本的标签。此外，三元组损失如公式(13)所示。

其中，分别表示目标样本、正样本、负样本，β是控制到目标样本的正样本和负样本之间的距离余量。||·||₂表示L2范数。

最终，学生网络不仅能够学习到教师网络的特征分布，而且能够让学生网络自主的学习与教师网络不同的车辆的特征。学生网络在保证准确率的情况下，提高了车辆重识别的效率。

与现有技术相比，本发明的有益效果是：

本发明的显著进步如下：

本发明提出了基于多注意力引导的特征增强网络，在不引入其它属性标签且不需要人工标注零件标签的情况下能够提取具有更好的判别性和鲁棒性的车辆增强特征。本发明通过在以ResNet50为主干网络中添加多感受野残差注意力模块，利用不同大小的感受野来帮助网络在不同尺度下获得更多、更具有代表性的车辆外观特征。然后，通过空间注意力引导的自适应特征擦除模块，利用空间注意力定位具有最显著性特征区域，对原始特征中的最显著特征区域进行特征擦除。定位最显著车辆局部后，选择局部最大像素值，并利用一个擦除概率与最大像素值相乘得到擦除阈值，由于最大像素值会随着最显著区域的变化而变化，因此是自适应的，利用公式(7)能够自适应调整擦除阈值，生成一个二进制擦除掩膜。针对在训练过程中特征擦除导致网络可能无法观察到车辆显著特征而学习能力下降的问题，通过再次引入多感受野残差注意力进行等概率随机选择的方式进行优化，来增强网络的学习能力，挖掘车辆的潜在判别性的局部特征。最后，通过结合全局与局部特征向量构建增强特征向量，得到车辆重识别网络。

除此之外，本发明通过将多注意力引导的特征增强网络作为教师网络，利用蒸馏损失和相似度损失监督学生网络预测的概率分布与教师网络一致，利用交叉熵损失和三元组损失指导学生网络自主的挖掘车辆区分性特征，最后，在保证车辆重识别性能的条件下，学生网络在网络参数量、效率方面优于教师网络，充分考虑了车辆重识别在实际应用中的快速、高效性。

本发明所提出的空间注意力引导的特征擦除模块是空间注意力定位车辆显著局部之后，通过擦除小部分显著特征后，在剩余特征中寻找车辆的潜在显著特征并与全局分支进行融合来完成特征增强，空间注意力引导的特征擦除模块能够有效的改善车辆重识别网络提取特征的能力，能够解决树木遮挡中显著信息不明显的情况，所以，能够避免次优结果产生。

本发明突出的实质性特点是：

(1)本发明所提出的注意力不同于车辆重识别中传统的基于空间和通道的软注意力。基于空间和通道的注意力都只增加了网络的深度，在网络宽度上没有提高。本发明所采用的多感受野残差注意力模块通过利用四个并行的1×1的卷积核将原始输入特征在通道维度上降为原始输入特征的1/4，而特征的尺寸不变。然后，利用四个不同尺寸的卷积核分别提取到不同的子特征再在通道维度上拼接为与原始特征相同通道数和尺寸的多感受野特征。这在很大程度上提高了网络宽度，能够让网络学习到更加丰富的特征(例如，不同的视角，不同的纹理等）。

(2)本发明所提出空间注意力引导的自适应特征擦除模块，通过使用空间注意力定位车辆图像中最具区分性的特征并使用二进制擦除掩膜将最具区分性特征擦除得到剩余特征。然后，通过在网络的下次分类时以等概率随机选择经过多感受野残差注意力输出的多感受野残差特征或者经过空间注意力引导的自适应特征擦除模块的剩余特征。这种方式使多注意力引导的特征增强网络能够在辨别线索不明确的实际情况下捕捉提取物体的潜在局部特征。对于解决图像模糊、视图转换以及光照变化而造成关键信息被忽视的问题是十分有效的。

(3)本发明所提出知识蒸馏方法，通过将多注意力引导的特征增强网络作为教师网络，并使用一种类似于教师网络结构的、轻量的双分支网络作为学生网络并使用四个损失函数(交叉熵损失、三元组损失、蒸馏损失、相似度损失)来指导和监督学生网络。其中，蒸馏损失能够让学生网络的预测结果更加接近教师网络的预测结果。相似度损失能够让学生网络的特征分布与教师网络的特征分布相似。而交叉熵损失和三元组损失能够使学生网络自主的学习车辆的特征。采用这种方式，学生网络不仅能够保证重识别的性能，而且能够提高重识别的效率，满足车辆重识别任务在构建智能交通、城市监控系统中快速定位和跟踪可疑车辆需求。

(4)本发明方法不使用颜色、车型标签和车牌信息，通过使用多感受野残差注意力模块帮助主干网络提取更加丰富的特征，为下一步全局分支的分类以及空间注意力引导的自适应擦除模块提供更多的选择。同时，空间注意力引导的自适应擦除模块通过擦除最显著局部特征，来强制网络关注潜在的显著特征，最后，结合擦除分支的局部特征向量和全局分支的全局特征向量构建增强特征向量能够实现最佳的车辆重识别结果。这种方式不仅能够最大限度的减少标签造成带来的负面影响，而且能够获得更加鲁棒的增强特征，解决车辆在光照变化明显、遮挡严重、车牌信息不明确的场景下显著特征较少的情况。

(4)本发明方法通过使用知识蒸馏方法，将复杂的特征增强网络作为教师网络，并设计一种轻量的学生网络，利用相似度损失约束学生网络与教师网络的特征分布一致，利用蒸馏损失约束学生网络的分类预测与教师网络分类预测一致，利用交叉熵损失和三元组损失保持学生网络自主捕获和提取车辆特征的能力。最终，在保证车辆重识别准确率的条件下，学生网络不仅模型参数量变小，而且重识别性能也有一定的提高，学生网络在网络参数量、效率方面优于教师网络，能够满足在安全监管、智能交通系统中高效、快速的查找目标车辆的需求。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是本发明一种实施例基于特征增强的车辆重识别方法流程示意图。

图2是本发明方法中多感受野残差注意力模块的结构示意图。

图3是本发明方法中空间注意力引导的自适应擦除模块的结构示意图。

图4是本发明一种实施例基于特征增强的车辆重识别方法的整体框架图。

图5为本发明方法中知识蒸馏的示意图。

具体实施方式

图1所示实施例表明，本发明方法的流程为：道路监控系统中车辆图像预处理→构建基于多注意力引导的特征增强网络(以ResNet-50为主干网络，在主干网络中引入多感受野残差注意力模块和空间注意力引导的自适应特征擦除模块，并完成训练和测试)→知识蒸馏方法(以基于多注意力引导的特征增强网络为教师网络，设计简单、类似于教师网络结构的学生网络，并使用四个损失函数实现知识蒸馏方法)。

图2所示实施例表明，本发明方法构建多感受野残差注意力模块的过程是：首先，多感受野残差注意力模块分别加入到主干网络ResNet-50的stage2、stage3和stage3、stage4之间。其中，位于ResNet-50的stage2、stage3之间的多感受野残差注意力模块以ResNet-50网络在stage2阶段的输出特征作为多感受野残差注意力模块的输入特征，位于ResNet-50的stage3、stage4之间的多感受野残差注意力模块以ResNet-50网络在stage3阶段的输出特征作为多感受野残差注意力模块的输入特征。然后，多感受野残差注意力模块通过将四个尺寸不同的卷积核(1×1、3×3、5×5、7×7)并行排列对输入特征进行卷积操作，得到四个尺寸相同的不同子特征(如公式2所示)。通过将四个子特征F_a在通道维度上进行融合得到与输入特征具有相同尺寸的多感受野特征/>(如公式3所示)。最后，多感受野特征Z经过Sigmoid激活函数将归一化到(0，1)区间得到多感受野注意力/>利用残差的思想让输入特征与多感受野注意力/>相乘，得到多感受野残差注意力模块的最终输出特征。其中，位于ResNet-50的stage2、stage3之间的多感受野残差注意力模块的最终输出特征作为ResNet-50的stage3阶段的输入特征，位于ResNet-50的stage3、stage4之间的多感受野残差注意力模块的最终输出特征作为ResNet-50的stage4阶段的输入特征。

图3所示实施例表明，本发明方法构建空间注意力引导的自适应特征擦除模块的过程是：首先，将主干网络ResNet-50的stage4阶段的输出特征作为空间注意力引导的自适应特征擦除模块的输入特征。通过使用最大池化P_max和平均池化P_avg操作在通道维度上将输入特征的维度分别降至1得到(如公式4、5所示)并将池化结果在通道维度上进行拼接，再使用3×3的卷积操作降维至1。然后，使用Sigmoid函数将特征归一化到(0，1)区间得到空间注意力/>(如公式6所示)。通过利用空间注意力中最大的像素值与擦除概率α相乘计算出阈值(如公式7所示)。通过使用阈值将大于阈值的像素值设置为0，将小于阈值的像素值设置为1来构建擦除掩膜/>(如公式8所示)。通过将空间注意力引导的自适应特征擦除模块的输入特征和擦除掩膜m_e进行元素相乘得到剩余特征。为了克服在整个训练过程中局部分支会因为无法提取最具辨别力的局部特征使网络的特征提取能力下降，通过在空间注意力引导的自适应特征擦除模块并行加入多感受野残差注意力模块，并在多注意力引导的特征增强网络的下次分类时以等概率随机选择经过多感受野残差注意力模块输出的多感受野残差特征或者经过空间注意力引导的自适应特征擦除模块输出的剩余特征，使多注意力引导的特征增强网络能够在辨别线索不明确的实际情况下捕捉提取物体的潜在细粒度特征。

本申请中的自适应擦除的概念是自适应擦除是在空间注意力引导自适应擦除模块中通过将空间注意力定位最显著车辆局部后，选择局部最大像素值，并利用一个擦出概率与最大像素值相乘得到擦除阈值。由于最大像素值会随着最显著区域的变化而变化，因此是自适应的。

图4所示实施例表明，本发明方法构建基于多注意力引导的特征增强网络的过程为：首先，通过在监控系统中不同摄像头下采集图像组成原始图像集并划分为训练集、查询集和测试集。在训练阶段，将训练集图像作为网络的输入。在测试阶段，将查询集和测试集作为网络的输入。然后，构建主干网络。主干网络ResNet-50共包含5层，分别定义为(stage0～4)。其其中，stage1～stage4每层包含多个Bottleneck(ResNet-50网络的stage1包含3个Bottleneck，stage2包含4个Bottleneck，stage3包含6个Bottleneck，stage4包含3个Bottleneck)。接下来，将多感受野残差注意力模块分别加入主干网络ReaNet-50中的stage2、stage3之间和stage3、stage4之间来帮助主干网络在不同大小的感受野下捕获更加丰富的特征。主干网络的输出分别经过两个分支，一个全局分支，一个局部分支，在全局分支中使用全局平均池化、全连接层(FC-2048、FC-512)将在主干网络中得到的特征转化为全局特征向量。在局部分支中，空间注意力引导的自适应特征擦除模块通过擦除最显著的特征，再通过在基于多注意力引导的特征增强网络的下次分类时以相同的概率随机选择多感受野残差特征和剩余特征的方式，使基于多注意力引导的特征增强网络能够在辨别特征不明确的实际情况下提取车辆的潜在局部特征，同时，使用GeM池化、全连接层(FC-2048、FC-512)将在主干网络中得到的特征转化为局部特征向量。在测试阶段，通过结合全局分支和局部分支的全局特征向量和局部特征向量实现最优的车辆重识别结果。

图4在主干网络中加入多感受野残差注意力是为了帮助特征增强网络提取更丰富的特征。图3空间注意力引导的自适应特征擦除模块中加入多感受野残差注意力模块是为了防止特征擦除可能会导致擦除分支无法观察到最显著特征而导致整个网络特征提取能力下降。因此，通过等概率随机选择多感受野残差注意力模块或者空间注意力引导的自适应特征擦除模块来进行下一步的分类任务。

图5所示实施例表明，本发明方法构建知识蒸馏方法的过程为：首先，设计和构建学生网络。学生网络同样采用ResNet-50作为主干网络。通过复制ResNet-50的stage4结构并添加到主干网络的下分支来构建双分支网络，达到类似于教师网络结构的目的。同样的，在ResNet-50的stage4中将最后一个卷积层的步长设置为1来提高车辆特征的分辨率，保留更多的特征信息。根据主干网络预测的特征映射，在每个分支都使用全局平均池化(GAP)层将特征映射转化为特征向量，然后利用两个全连接层(FC-2048、FC-512)将特征向量从2048维编码到512维再到固定维。然后，通过将多注意力引导的特征增强网络作为教师网络，同时使用蒸馏损失L_kd(如公式9所示)、相似度损失(如公式10所示)、交叉熵损失L_ce(如公式11所示)、三元组损失(如公式12所示)共同来指导和监督学生网络，完成知识蒸馏方法的构建。其中，蒸馏损失能够让学生网络的预测结果更加接近教师网络的预测结果。相似度损失能够让学生网络的特征分布与教师网络的特征分布相似，通过添加相似度损失约束学生网络和教师网络在征空间的分布一致。而交叉熵损失和三元组损失能够使学生网络自主的学习车辆的特征，提高学生网络预测能力。最终，结合四个损失函数不仅能够让教师网络的知识尽可能多的转移到学生网络中，而且学生网络也能够自主学习与教师网络不同的车辆特征，学生网络不仅能够学习到教师网络的特征分布，而且能够让学生网络自主的学习与教师网络不同的车辆的特征。学生网络在保证准确率的情况下，提高车辆重识别的效率。

实施例1

本发明基于特征增强的车辆重识别方法，通过不同的注意力，提取车辆全局特征向量和局部特征向量并通过知识蒸馏方法减少网络参数量的方法，具体步骤如下：

第一步，车辆图像预处理：

首先，将在不同摄像头下采集的原始图像集X＝{x₁，x₂，…，x_m}划分为训练集F＝{x₁，x₂，…，x_t；t＜m}、查询集Q＝{x_t+1，…，x_q；t＜q＜m}、图库集G＝{x_q+1，…，x_m；q＜g≤m}。其中，x_i代表每一张原始车辆图像，车辆重识别数据集的划分是随机的，i∈[1，m]仅代表每一张图像的下标，t，q，g分别代表训练集、查询集、图库集中最后一张图像的下标，没有特殊的排序。训练集T的分类标签定义为Y_T＝{y₁，y₂，…，y_N}。其中，y_i代表训练集中车辆图像的标签，N代表训练集中有N种不同的车辆。然后，在训练阶段对训练集F中的车辆图像采用双线性内插法，将图像尺寸从原始大小转化为[256，256]并按照概率P＝0.5进行随机水平翻转。最后，根据公式(1)，按照ImageNet数据集标准的RGB模式均值和方差将车辆图像归一化并转化为tensor张量。

第二步，构建基于多注意力引导的特征增强网络：

基于多注意力引导的特征增强网络中使用了多感受野残差注意力和空间注意力，因此命名为“多注意力”。

第2.1步，主干网络：

采用ResNet-50作为主干网络，ResNet-50网络共包含5层，分别定义为(stage0～4)。其中，stage1～stage4每层包含多个Bottleneck(ResNet-50网络的stage1包含3个Bottleneck，stage2包含4个Bottleneck，stage3包含6个Bottleneck，stage4包含3个Bottleneck)。在ResNet-50的stage4中将最后一个卷积层的步长设置为1来提高车辆特征的分辨率，保留更多的特征信息。根据主干网络预测的特征映射，在全局分支使用全局平均池化层将特征映射转化为特征向量，局部分支使用GeM池化将特征映射转化为特征向量。然后，利用两个全连接层(FC-2048、FC-512)将特征向量从2048维编码到512维再到固定维。通过池化得到特征向量的尺寸为(B，2048)，经过两个全连接层得到特征向量的尺寸分别为(B，512)，(B，固定维)。其中，B为训练时每一个批次的图像的数量。固定维是根据数据集的车辆身份的数量得到的。例如，Veri-776数据集的固定维是576。

第2.2步，构建多感受野残差注意力模块：

车辆重识别中的大部分注意力是基于空间和通道的软注意力，这种注意力的优点是确定性且可微的注意力。但是，基于空间和通道的注意力都只增加了网络的深度，在网络宽度上没有提高。而网络宽度的提高往往能够让网络学习到更加丰富的特征(例如，不同的视角，不同的纹理等)。因此，本发明使用带有四个不同卷积核大小(1×1、3×3、5×5、7×7)的多感受野残差注意力。使用的注意力能够通过不同大小的感受野，学习不同层次的特征。然后，在通道维度对不同的特征进行融合。最后，使用残差注意力的思想以防止出现梯度消失的情况。为了进一步减少网络参数的数量，分别用两个3×3卷积串联和三个3×3卷积核串联来代替5×5和7×7的卷积核，保证感受野大小不变。

具体来说，原始输入特征利用四个并行的1×1卷积核在通道维度降维为四个相同尺寸的不同特征/>a＝1，2，3，4，其中C、H、W分别表示通道、高度和宽度。然后，每个特征I_a(1×1的卷积核分支除外)在经过不同大小的卷积核(1×1、3×3、5×5、7×7)进行卷积操作，得到不同感受野下的四个子特征/>对于每个卷积核，都有合适的填充和ReLU激活函数，以保证特征空间维度的不变性和网络的非线性能力，如公式(2)所示。

Z＝δ(W_3×3·(F₁；F₂；F₃；F₄)) (3)

其中，δ(·)代表激活函数ReLU，W_3×3表示3×3卷积核的权重。

最后，通过使用Sigmoid函数将多感受野特征归一化到(0，1)区间得到多感受野注意力/>利用残差的思想让原始输入特征/>与多感受野注意力/> 相乘，得到最终多感受野残差注意力模块的输出特征。

第2.3步，空间注意力引导的自适应擦除模块：

通过在主干网络中添加多感受野残差注意力模块，然后经过全局平均池化后网络已经能够在车辆重识别的过程捕获到全局判别性特征。然而，在一些具有挑战性的场景中，由于相似车辆或者出现遮挡、光照变化等情况的影响，往往需要让的网络关注其它潜在的局部显著特征。因此，在训练过程中，首先通过将在主干网络中提取的高级语义特征作为输入，利用空间注意力去定位高级语义特征中最显著的特征区域。然后，选择适当的擦除概率，利用空间注意力中最显著区域的像素值进行乘法计算擦除阈值并将大于阈值的像素值设置为0，小于阈值的像素值设置为1得到二进制擦除掩膜，再进行特征擦除得到剩余特征完成车辆重识别任务。擦除操作将主干网络提取的高级语义特征中最显著特征，保留次显著特征并利用次显著特征进行下一步车辆图像分类。同时，通过将经过空间注意力引导的自适应特征擦除模块后得到的剩余特征或者经过多感受野残差注意力模块所提取的多感受野残差特征采用等概率随机选择的方式进行下一步车辆图像分类，来进一步提高车辆重识别网络提取鲁棒性特征的能力。

SA＝σ(W_3×3·(S_max；S_avg)) (6)

其中，W_3×3表示3×3卷积核的权重，σ(·)代表激活函数Sigmoid；c，h，w表示高级语义特征S中像素点的索引，表示在通道维度上得到特征中的最大像素值；表示在通道维度上得到特征的平均值；然后，通过公式(7)计算擦除阈值τ；/>

其中，α是一个超参数，代表擦除的概率。表示在通道、高度、宽度三个维度上得到特征中最大的像素值；

然后，通过擦除阈值τ，将空间注意力中大于擦除阈值τ的值设置为0，小于擦除阈值τ的值设置为1来生成二进制擦除掩码/>

在获得二进制擦除掩码后，通过与主干网在stage4阶段提取的高级语义特征S进行元素相乘得到了擦除高级语义特征中最显著特征后的剩余特征。因此，网络被强制要求更多地关注潜在的重要局部特征。然而，如果训练过程的每次迭代中都应用二进制擦除掩码，擦除分支会因为无法提取最具辨别力的局部特征使网络的特征提取能力下降。这种方式得到的车辆重识别结果是次优的。因此，为了克服网络提取特征能力下降问题，通过在基于多注意力引导的特征增强网络的下次分类时以等概率随机选择经过空间注意力引导的自适应特征擦除模块后得到的剩余特征或者经过多感受野残差注意力模块所提取的多感受野残差特征，使基于多注意力引导的特征增强网络能够在辨别线索不明确的实际情况下捕捉和提取车辆的潜在局部特征。

第三步，构建知识蒸馏方法：

考虑到车辆重识别在真实场景下构建智能交通、城市监控系统中快速定位和跟踪可疑车辆的重要性，除了要考虑车辆重识别的准确性，还需要考虑车辆重识别的效率问题。因此，提出了一种知识蒸馏方法。通过将特征增强网络作为教师网络，并使用一种类似于教师网络结构的、轻量的双分支网络作为学生网络。然后，使用四个损失函数(交叉熵损失、三元组损失、蒸馏损失、相似度损失)来指导和监督学生网络。

其中，y^ter＝softmax(q^ter/t_p)，y^stu＝softmax(q^stu/t_p)，分别代表教师网络和学生网络的预测概率；L_kd为蒸馏损失，KL代表KL散度。q^ter和q^stu代表教师网络和学生网络在网络深层中经过全连接层后的输出特征。t_p表示温度，t_p越高，网络的预测结果越趋于平滑，网络训练将更加关注负标签。

其中，表示教师网络在stage4阶段之后提取的高级语义特征，/>表示学生网络在stage4阶段之后提取的高级语义特征。t表示车辆训练集图像的数量。/>表示计算训练集图像损失之和。||·||₁表示L1范数。/>

最终，学生网络不仅能够学习到教师网络的特征分布，而且能够让学生网络自主的学习与教师网络不同的车辆的特征。学生网络在保证重识别性能的情况下，提高车辆重识别的效率。

本实施例基于特征增强的车辆重识别方法在数据库VeRi-776和VERI-Wild上进行了实验验证。其中，VeRi-776数据集是从真实世界的监控场景中收集的。它包含776辆车的大约51035张图像。VeRi-776数据集将576辆车用于训练，200辆车用于测试。查询集和图库分别包含1678和11579张图像。该数据集中的车辆分别呈现三个视点，即前视图、后视图和侧视图，使其成为最具挑战性的车辆重识别数据集之一。VeRi-776提供了车辆的标识、型号、颜色、摄像机之间的关系以及轨迹信息的注释。VERI-Wild数据集是在野外由一个包含174个摄像机，拍摄范围覆盖超过200平方公里的市区CCTV系统拍摄收集的数据。摄像机是24小时连续拍摄30天，其长时间的连续拍摄考虑了车辆真实的各种天气和光照问题。数据集收集了40671个车辆ID的416314张车辆图像。数据集将30671辆车辆的277797张图像用于训练。测试集被划分为三个，分别包含3000、5000、10000辆车辆的38862、64389、128518张图像。数据集还提供了丰富的上下文信息，例如摄像机ID，时间戳，摄像机之间的跟踪关系。本实验是基于Pytorch的，训练过程是在一台带有RTX-1080Ti显卡的PC机上完成的。实验结果如下所示：

本发明在衡量车辆跨域重识别性能时，采用的评价指标主要包括平均精度均值(mean average precision，mAP)和Rank-N。其中，平均精度均值用于评估车辆重识别的总体性能，表示所有检索结果精度的平均值。mAP首先需要对每一个查询集中图像的检索结果计算平均精度AP，如公式(12)所示。

其中，r表示图库集图像的索引，N_g表示测试图像的总数，N_gt表示正确匹配目标车辆的真实样本数，P(r)表示在检索列表中第r位之前的精度，gt(r)表示第r位图像是否与目标车辆具有相同ID。最后，对所有查询集检索结果的平均精度求均值，即为mAP，如公式(13)所示。

其中，Q代表查询图像的总数。

Rank-N是车辆重识别中比较常见的评价指标，一般选择Rank-1和Rank-5来衡量性能的好坏。Rank-1和Rank-5分别表示在检索结果列表中前1张和前5张图像正确匹配的概率。

将本实施例的方法与一些传统方法和目前最先进的方法进行了比较。其中，LOMO通过手工方法提取局部特征来处理视角和照明变化。GoogLeNet直接在CompCars数据集上预训练的GoogleNet中学习车辆全局特征。FACT用颜色和纹理特征联合进行车辆重识别，而PROVID利用车牌和时空信息进一步优化了FACT算法。AAVER通过利用车辆方向和局部关键点来捕获车辆的局部显著特征。为了解决视点变化的影响，VANet、PAMTRI使用了额外的视点估计器来提取车辆的突出特征。SAN通过使用多模态信息获得最终的车辆特征表示。MADRL准确地聚焦于多注意力区域，以提取鉴别性车辆特征。表1详细显示了本实施例MAFEN与其他方法的比较结果。粗体数字表示最优结果，而次优结果用下划线数字表示。

表1在VeRi-776数据集上本实施例与最先进的车辆重识别方法的比较。

如表1所示，可以看出基于深度学习的方法(即GoogLeNet、FACT、PROVID、AAVER、VANet、PAMTRI、SAN和MADRL)比基于手工制作的特征方法(即LOMO)表现出更具竞争力的结果。与使用额外的属性标签(即FACT，SAN)或时空信息(即PROVID)相比，本实施例MAFEN在Rank-1、Rank-5方面具有明显的提高。这表明本实施例可以在不使用额外信息的情况下提取更丰富的车辆显著特征。与解决视点问题的方法(即VANet、PAMTRI)即，本实施例MAFEN在Rank-1中也取得了最佳性能。这证明了MAFEN可以解决由视点变换引起的车辆显著局部特征被忽视的问题。与提取局部特征的方法(即AAVER)相比，本实施例MAFEN分别提高了在Rank-1、Rank-5分别提高了6.17％、2.62％。与使用注意力机制的方法(即MADRL)相比，MAFEN在Rank-1、Rank-5分别提高了3.87％、1.66％。综上所述，实验结果能够说明本实施例在解决由于树木遮挡、图像模糊和视角转换导致的细节特征消失的问题，以及由于光照变化导致的车辆颜色的剧烈变化方面是有效的。

在VERI-Wild数据集上，本实施例MAFEN与最先进的方法进行了比较。表2和表3显示了在三个不同规模的测试数据集上的比较结果。

表2在VERI-Wild数据集上与最先进的方法在mAP方面的比较。

表3在VERI-Wild数据集上与最先进的方法在Rank-1、Rank-5方面的比较。

如表2、3所示，在小、中、大数据集上，本实施例与上述最佳方法FDA-Net相比，MAFEN在三个测试数据集上mAP分别提高了34.67％、34.03％和33.13％，rank-1分别提高了27.13％、30.55％、34.39％，rank-5分别提高了13.85％、16.82％、22.16％。实验结果再一次说明本实施例能够很好地解决在处理复杂场景时，局部特征被忽略和图像模糊的问题。

考虑到车辆重识别在实际场景中的应用，通过在同一台机器上比较了学生网络和教师网络在两个数据集(即Veri-776和VERI-Wild)上的效率，如表4所示。其中，所有实验都是在一台装有Nvidia GeForce GTX 1080Ti GPU的计算机上训练和测试的。测试时间是指：测试阶段，在所有目标车辆图像的输入到网络时开始计时到正确匹配每个图库集图像为止所花费的时间。

在Veri-776数据集上，学生网络完成整个车辆重识别过程花费9.52s。与教师网络花费的13.01s的测试时间相比，学生网络实现了26.83％的效率提升。在VERI-Wild的三个测试数据集上，教师网络完成测试过程所花的时间分别为22.23s、30.41s和41.86s。相比之下，学生网络在三个测试数据集上只花了16.55s、23.09s和32.89s，效率至少提高了21.43％。。

上述实施例中所述MAFEN方法的英文为Multi-Attention Guided and FeatureEnhancement Network for Vehicle Re-Identification，中文译为基于多注意力引导的特征增强网络；其中LOMO、GoogLeNet、FACT、PROVID、AAVER、VANet、PAMTRI、SAN、MADRL、Triplet、Softmax、CCL、HDC、GSTE、Unlabled GAN、FDA-Net都是本领域公知的。

本申请通过在主干网络不同stage之间引入多感受野残差注意力，利用不同大小的卷积核来帮助主干网络在不同尺度，提取更加丰富的车辆外观特征。通过空间注意力引导的自适应擦除模块，利用空间注意力引导擦除最具有区分性的特征，并引入多感受野残差注意力进行等概率随机选择优化，使网络在优化过程中能够挖掘其它显著局部特征。通过将全局特征向量和局部特征向量相结合实现最佳的车辆重识别结果。最后，使用知识蒸馏方法，通过将MAFEN作为教师网络，利用四个损失函数来约束学生网络，使学生网络在保证重识别性能的前提下，网络参数量、测试效率优于教师网络。

本发明未述及之处适用于现有技术。

Claims

1.一种基于特征增强的车辆重识别方法，该方法包括以下内容：

获取车辆图像，经预处理后获得训练集、查询集和图库集；

融合全局分支的全局特征和局部分支的潜在局部特征获得增强特征向量，完成车辆重识别过程；

所述多感受野残差注意力模块包括四个感受野不同的分支，第一个分支的卷积核大小为1×1、第二个分支的卷积核大小为3×3，第三个分支使用两个卷积核大小为3×3的卷积串联形成与5×5卷积核相同的感受野，第四个分支使用三个卷积核大小为3×3的卷积串联形成与7×7卷积核相同的感受野；四个分支得到四个不同的子特征，四个子特征拼接后再利用3×3的卷积得到与原始特征具有相同维度、相同尺寸的多感受野特征，最后使用Sigmoid函数将多感受野特征归一化到(0,1)区间得到多感受野注意力特征，将多感受野残差注意力模块的原始输入特征与多感受野注意力特征相乘，得到最终多感受野残差特征。

2.根据权利要求1所述的基于特征增强的车辆重识别方法，其特征在于，该车辆重识别方法，以基于多注意力引导的特征增强网络作为教师网络，并使用一种类似于教师网络结构的、轻量的双分支网络作为学生网络，然后，使用四个损失函数来指导和监督学生网络，四个损失函数分别为交叉熵损失、三元组损失、蒸馏损失、相似度损失，学生网络不仅能够学习到教师网络的特征分布，而且能够让学生网络自主的学习与教师网络不同的车辆的特征。

3.根据权利要求2所述的基于特征增强的车辆重识别方法，其特征在于，

所述相似度损失按照公式(10)获得，能够让学生网络的特征分布与教师网络的特征分布相似，

其中，表示教师网络在主干网络最后一层输出的高级语义特征，/>表示学生网络在主干网络最后一层输出的高级语义特征；t表示车辆训练集图像的数量，/>表示计算训练集图像损失之和，||·||₁表示L1范数；

交叉熵损失和三元组损失能够让学生网络自主的去学习车辆的特征表示，所述三元组损失的公式为公式(13)，

其中，分别表示目标样本、正样本、负样本，β是控制到目标样本的正样本和负样本之间的距离余量，||·||₂表示L2范数。

4.根据权利要求1所述的基于特征增强的车辆重识别方法，其特征在于，该车辆重识别方法的具体步骤是：

第一步，车辆图像预处理：

首先，将在不同摄像头下采集的原始图像集X＝{x₁,x₂,…,x_m}划分为训练集T＝{x₁,x₂,…,x_t；t<m}、查询集Q＝{x_t+1,…,x_q；t<q<m}、图库集G＝{x_q+1,…,x_m；q<g≤m}，其中，x_i代表每一张原始车辆图像，车辆重识别数据集的划分是随机的，i∈[1,m]仅代表每一张图像的下标，t,q,g分别代表训练集、查询集、图库集中最后一张图像的下标；训练集T的分类标签定义为Y_T＝{y₁,y₂,…,y_N}，其中，y_i代表训练集中车辆图像的标签，N代表训练集中有N种不同的车辆；然后，在训练阶段对训练集T中的车辆图像采用双线性内插法，将图像尺寸从原始大小转化为[256,256]并按照概率P＝0.5进行随机水平翻转；最后，根据公式(1)，按照ImageNet数据集标准的RGB模式均值和方差将车辆图像归一化并转化为tensor张量；

其中，均值mean＝[0.485,0.456,0.406]，方差std＝[0.229,0.224,0.225]，X_p表示原车辆图像像素值，Y表示归一化后的像素值；

第二步，构建基于多注意力引导的特征增强网络：

第2.1步，主干网络：

采用ResNet-50作为主干网络，ResNet-50网络共包含5层，分别定义为stage0～4，其中，stage1～stage4每层包含多个Bottleneck，在ResNet-50的stage4中将最后一个卷积层的步长设置为1来提高车辆特征的分辨率，保留更多的特征信息；根据主干网络预测的特征映射，在全局分支使用全局平均池化层将特征映射转化为全局特征向量，局部分支使用GeM池化将特征映射转化为局部特征向量；然后，全局分支和局部分支分别利用两个全连接层(FC-2048、FC-512)将特征向量从2048维编码到512维再到固定维；

第2.2步，构建多感受野残差注意力模块：

原始输入特征利用四个并行的1×1卷积核按照通道维度降维为四个相同尺寸的不同特征/>其中C、H、W分别表示通道、高度和宽度；

然后，除1×1的卷积核分支外的每个特征I_a再按照公式(2)经过不同大小的卷积核(1×1、3×3、5×5、7×7)进行卷积操作，得到不同感受野下的四个子特征对于每个卷积核，都有合适的填充和ReLU激活函数，以保证特征空间维度的不变性和网络的非线性能力，

其中，δ(·)代表ReLU函数，W_1×1和W_3×3分别表示1×1和3×3的卷积核权重；

在通道维度上对得到的四个不同的子特征F₁、F₂、F₃、进行拼接，再利用3×3的卷积得到与原始输入特征具有相同的维度、相同尺寸的多感受野特征/>

最后，通过使用Sigmoid函数将多感受野特征归一化到(0,1)区间得到多感受野注意力/>让原始输入特征/>与多感受野注意力/>相乘，得到最终多感受野残差特征；

第2.3步，空间注意力引导的自适应擦除模块：

所述空间注意力引导的自适应擦除模块也包括两个分支，分别为擦除剩余分支和多感受野分支；

擦除剩余分支利用空间注意力去定位高级语义特征中最显著的特征区域，并设置函数自动在通道、高度、宽度三个维度上寻找特征中的最大像素值，设置擦除概率，利用空间注意力定位的最显著的特征区域的最大像素值进行乘法计算擦除阈值，并将大于擦除阈值的像素值设置为0，小于阈值的像素值设置为1得到二进制擦除掩膜，通过与主干网络在最后一层输出的高级语义特征进行元素相乘得到了擦除高级语义特征中最显著特征后的剩余特征；

具体是：将从主干网提取的高级语义特征作为输入，然后，通过使用最大池化P_max和平均池化P_avg在通道维度上将特征S的维度分别降至1得到S_max,/>并将池化结果在通道维度上进行拼接，再使用3×3的卷积降维至1来得到空间注意力；最后，使用Sigmoid函数将特征归一化到(0,1)区间得到空间注意力/>如公式(4)-(6)所示：

SA＝σ(W_3×3·(S_max；S_avg)) (6)

其中，W_3×3表示3×3卷积核的权重，σ(·)代表激活函数Sigmoid；c,h,w表示高级语义特征S中像素点的索引，表示在通道维度上得到特征中的最大值；/>表示在通道维度上得到特征的平均值；然后，通过公式(7)计算擦除阈值τ；

其中，α是一个超参数，代表擦除的概率；表示在通道、高度、宽度三个维度上得到特征中最大的像素值；

在获得二进制擦除掩码后，通过与主干网在stage4阶段提取的高级语义特征S进行元素相乘得到了擦除高级语义特征中最显著特征后的剩余特征；

第三步，构建知识蒸馏方法：

将基于多注意力引导的特征增强网络作为教师网络，并设计一种类似于教师网络结构的、轻量的双分支网络作为学生网络，再使用交叉熵损失、三元组损失、蒸馏损失、相似度损失四个损失函数来指导和监督学生网络；学生网络同样采用ResNet-50作为主干网络，通过复制ResNet-50的stage4结构，然后并行添加到ResNet-50中stage4阶段构建下分支，达到类似于教师网络结构的目的；

具体来说，蒸馏损失能够让学生网络的预测结果更加接近教师网络的预测结果，如公式(9)所示；

其中，y^ter＝sogtmax(q^ter/t_p)，y^stu＝softmax(q^stu/t_p)，分别代表教师网络和学生网络的预测概率；q^ter和q^stu代表教师网络和学生网络在网络深层中经过全连接层后的输出特征；t_p表示温度，t_p越高，网络的预测结果越趋于平滑，网络训练将更加关注负标签；

相似度损失能够让学生网络的特征分布与教师网络的特征分布相似，如公式(10)所示，

其中，表示教师网络在stage4阶段之后提取的高级语义特征，/>表示学生网络在stage4阶段之后提取的高级语义特征；t表示车辆训练集图像的数量；/>表示计算训练集图像损失之和；||·||₁表示L1范数；

交叉熵损失和三元组损失能够让学生网络自主的去学习车辆的特征表示，交叉熵损失如公式(11)所示：

其中，i∈{0,…,t-1}是训练集中图像的索引，n∈{0,…,N-1}是N个类的索引，q_i,n是输出向量中第i个样本的第n个值，即第i个样本属于第n个类的概率，p_i,n是一个平滑的标签，如公式(12)所示，

其中，ε∈[0,1]是一个超参数，y_n∈Y_T是第i个样本的标签；

三元组损失如公式(13)所示，

其中，分别表示目标样本、正样本、负样本，β是控制到目标样本的正样本和负样本之间的距离余量；||·||₂表示L2范数。