CN114581864B

CN114581864B - 基于transformer的动态密集对齐车辆重识别技术

Info

Publication number: CN114581864B
Application number: CN202210213377.XA
Authority: CN
Inventors: 董宇欣; 耿士卿; 张立国; 杨东梅; 刘杰; 吴丹丹
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2022-03-04
Filing date: 2022-03-04
Publication date: 2023-04-18
Anticipated expiration: 2042-03-04
Also published as: CN114581864A

Abstract

基于transformer的动态密集对齐车辆重识别技术，本发明涉及车辆重识别方法。本发明的目的是为了解决现有方法对车辆重识别准确率低的问题。具体过程为：一、采集不同视角的车辆图像数据集，分为训练集和测试集；二、建立主干网络，将训练集输入主干网络进行训练，直至收敛，得到训练好的主干网络；所述主干网络包括CNN网络模块、扁平化处理模块、可学习嵌入模块、车辆关键点检测模型、动态密集嵌入模块、Transformer编码器模块、BN、监督学习模块、ID损失、三元组损失；三、将测试集输入练好的主干网络，进行分类结果预测。本发明用于计算机视觉技术领域。

Description

基于transformer的动态密集对齐车辆重识别技术

技术领域

本发明涉及一种车辆重识别方法，属于计算机视觉技术领域。

背景技术

车辆重识别技术的目的是从一个大型图像数据库中检索一个给定的查询车辆的所有图像。近年来，由于监控和交通流量分析等实际应用，这项任务引起了越来越多的关注。车辆ReID有两个主要挑战。第一个挑战是，从不同视角捕获的车辆通常具有显著不同的视觉外观，这将导致特征空间无法对齐。第二个挑战是相同颜色的不同车辆和车型很可能会有非常相似的外观。为了解决这些挑战，一些研究人员如车辆类型、颜色、视角和时空来提高全局特征的表示能力。然而，这些方法缺乏强调车辆局部区域的差异，以及解决特征空间无法对齐的明确机制。因此，近年来的研究越来越关注于提供稳定识别线索的车辆的局部区域。然而，在局部区域级别上的特征对齐仍然过于粗糙，无法获得令人满意的结果。因此，设计一个密集的空间对齐体系结构对于促进车辆ReID的紧密对齐特征的有效学习至关重要，ReID为重识别。

近年来，一些方法应用了transformer进入计算机视觉任务，并取得优异的性能。其成功主要归因于变压器的自注意机制。此外，与CNN模型相比，多头自注意在捕捉远程依赖关系和驱动模型前往不同的车辆局部区域方面表现得更好。尽管如上所述，变压器具有巨大的优势，但它仍然需要专门为车辆ReID设计，以解决独特的挑战，如遮挡和视角变化问题。

发明内容

本发明的目的是为了解决现有方法对车辆重识别准确率低的问题，而提出基于transformer的动态密集对齐车辆重识别技术。

基于transformer的动态密集对齐车辆重新别技术具体过程为：

步骤一、采集不同视角的车辆图像数据集，分为训练集和测试集；

步骤二、建立主干网络，将采集不同视角的车辆图像数据集中的训练集输入主干网络进行训练，直至收敛，得到训练好的主干网络；

所述主干网络包括CNN网络模块、扁平化处理模块、可学习嵌入模块、车辆关键点检测模型、动态密集嵌入模块、Transformer编码器模块、BN、监督学习模块、ID损失、三元组损失；

步骤三、将不同视角的车辆图像数据集中的测试集输入练好的主干网络，进行分类结果预测。

本发明的有益效果为：

本发明提出了一种基于变压器的动态密集对齐网络(TDDA)，该网络获得了具有完全空间对齐的车辆的细粒度表示。首先，利用transformer编码器来提取具有全局上下文的扰动不变的鲁棒特征。其次，为了捕获对于视觉变化鲁棒的特征，提出了一个动态位置编码模块(DPE)，通过有效集成车辆关键点信息来提高空间对齐能力。与transformer的原始位置嵌入不同，DPE是针对不同的车辆姿态动态生成的。第三，关键点的嵌入只在稀疏水平上对齐特征。因此，本发明引入了一种基于最近邻插值(DEM)的密集嵌入方法。每个位置的嵌入由其加权的最近邻关键点的嵌入来定义，这可以通过生成密集对齐的特征来增强细粒度学习，提高了车辆重识别准确率。

本发明提出了一种基于变压器的动态密集对齐网络，该网络在像素级对齐特征，并为车辆重识别技术提取更具代表性和鲁棒的特征。

本发明提出了一种动态位置编码模块(DPE)，通过集成关键点信息来提高空间对齐能力。本发明进一步引入了一种基于最近邻插值(DEM)的密集嵌入方法来实现完整的空间对齐。这不仅缩短了实例间之间的距离，而且扩大了实例间的差异。

为了证明本发明的方法的有效性，本发明在三个车辆重识别技术基准上全面评估了本发明的方法。大量的实验结果表明，本发明方法优于目前先进的方法。

附图说明

图1为本发明流程图；

图2a为采集不同视角的车辆1图像带来的特征空间无法对齐示意图；

图2b为采集不同视角的车辆2图像带来的特征空间无法对齐示意图；

图3为主干网络整体结构图，CNN为卷积神经网络，Feature Map为特征图，FlattenFeature为扁平化特征，Position Embedding为原始位置嵌入，*为可学习嵌入标记，0、1、2、3、n为位置嵌入标记，1右边为扁平特征，扁平特征右边为具有缓解视角变换车辆重识别特征，2右边为扁平特征，扁平特征右边为具有缓解视角变换车辆重识别特征，3右边为扁平特征，扁平特征右边为具有缓解视角变换车辆重识别特征，n右边为扁平特征，扁平特征右边为具有缓解视角变换车辆重识别特征；Transformer Layer为Transformer编码器，m-1为m-1层，ID Loss为ID损失，Triplet Loss为三元组损失，Extra learnable[cls]embedding为可学习的嵌入标记和位置嵌入，Keypoints Detector为关键点检测器，Dynamic denseembedding为动态密集嵌入模块；

图4a为原始图像；

图4b为原始图像经DPM处理后的图像，DPM为动态位置编码模块；

图4c为原始图像经Interpolation process处理后的图像，Interpolationprocess为插值过程；

图4d为原始图像经DEM处理后的图像，DEM为动态密集嵌入模块；

图5a为采集的不同视角的车辆1原始图像和经DEM处理后的图像对比图；

图5b为采集的不同视角的车辆2原始图像和经DEM处理后的图像对比图，图5a、5b不仅关键点区域在粗级对齐，而且特征空间也在像素级对齐，动态密集嵌入后，相同位置的颜色在不同的视角是相同的，表明车辆在不同视角下其位置编码相同。

具体实施方式

具体实施方式一：本实施方式基于transformer的动态密集对齐车辆重新别技术具体过程为：

所述主干网络包括CNN网络模块、扁平化处理模块、可学习嵌入模块、车辆关键点检测模型、动态密集嵌入模块(DEM)、Transformer编码器模块、BN、监督学习模块、ID损失、三元组损失；

具体实施方式二：本实施方式与具体实施方式一不同的是，所述步骤二中建立主干网络，将采集不同视角的车辆图像数据集中的训练集输入主干网络进行训练，直至收敛，得到训练好的主干网络；具体过程为：

将采集的不同视角的车辆图像数据集中的训练集分别输入主干网络中的CNN网络模块和车辆关键点检测模型；

CNN网络模块对采集的不同视角的车辆图像数据集中的训练集进行处理，输出车辆图像的特征，车辆图像的特征输入扁平化处理模块，扁平化处理模块对车辆图像的特征进行扁平化处理，得到扁平特征；

车辆关键点检测模型对采集的不同视角的车辆图像数据集中的训练集进行处理，得到车辆图像的关键点；

车辆图像的关键点输入动态密集嵌入模块，动态密集嵌入模块对车辆图像的关键点进行处理，输出具有缓解视角变换车辆重识别特征；

可学习嵌入模块提供可学习的嵌入标记(x_cls，图3里的*)和位置嵌入(E_pos，图3里的0、1、2、3、n)；

将可学习的嵌入标记、位置嵌入、扁平特征、具有缓解视角变换车辆重识别特征输入Transformer编码器；

将Transformer编码器输出的具有动态位置编码的特征分别进行监督学习；

监督学习由三元组损失和交叉熵损失组成；

其中进行交叉熵损失的特征需要先通过BN；

(Transformer编码器输出的具有动态位置编码的特征进行三元组损失；

Transformer编码器输出的具有动态位置编码的特征通过BN后在进行交叉熵损失；)

所述CNN网络模块

Transformer编码器：编码器层建立在标准的transformer结构上，具有多头自注意模块(MSA)和前馈网络(FFN)。由于相同车辆部件的像素具有较高的相似性，不同于背景像素，因此捕获具有图像上下文信息的特征图相对于背景更加鲁棒。我们首先使用一个扁平化算子将空间维度构造位为一维。然后，得到了一个新的形状为N×D的特征图，其中N＝HW为输入特征的长度。空间维数的转换很重要，因为transformer编码器需要一个一维序列作为输入，因此特征映射可以表示为扁平化特征X＝[x_i]。

监督学习：在训练阶段，输出标记表示输入图像的全局特征。我们通过构造全局特征的ID损失和三元组损失来优化网络。共同减少ID损失和三元组损失。ID损失L_ID是指交叉熵损失。

其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是，所述扁平化处理模块对车辆图像的特征进行扁平化处理，得到扁平特征；具体过程为：

使用一个扁平化算子将二维的车辆图像的特征转为一维的车辆图像的特征，得到尺寸为N×D的扁平特征X＝[x₁,x₂,…,x_N]；

其中N为二维的车辆图像的特征的长度，N＝H×W，D为二维的车辆图像的特征通道维度，H为二维的车辆图像的特征的长，W为二维的车辆图像的特征的宽。

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一至三之一不同的是，所述三元组损失函数表示为：

L_triplet＝[d_p-d_n+α]₊

其中，d_p为特征空间中正样本对，特征空间中正样本对为同一ID车辆的特征距离；d_n为特征空间中负样本对，特征空间中负样本对为不同ID车辆的特征距离；d_p-d_n为特征空间中正样本对和负样本对的距离，α为三元组损失的边缘；[d_p-d_n+α]₊为使d_p-d_n+α大于0。

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：本实施方式与具体实施方式一至四之一不同的是，所述车辆图像的关键点输入动态密集嵌入模块，动态密集嵌入模块对车辆图像的关键点进行处理，输出具有缓解视角变换车辆重识别特征；

具体过程为：

动态位置编码：虽然基于transformer的网络在车辆ReID中可以取得令人印象深刻的性能，但由于特征空间无法对齐，训练后的模型很容易无法从不同的角度区分同一物体，因此，提出了一种动态位置编码(DPE)模块，将关键点信息集成到嵌入表示中，以提高特征对齐能力。在这项工作中，我们训练了一个沙漏模型(车辆关键点检测模型的典型模型)来检测所有数据集的车辆关键点，车辆关键点位于车辆的前、左、右、上和背面。

受可学习位置嵌入的启发，我们插入可学习的20-D嵌入来保留关键点信息。DPE与扁平化特征和原始位置嵌入一起插入到transformer编码器中。与不同图像在相同位置上不变的原始位置嵌入不同，DPE是针对不同的车辆姿态动态生成的。

每辆车有20个关键点，初始化一个20×20的对角矩阵，V_k为对角矩阵的行，k取值为1-20，k表示为关键点索引；

引入映射网络f，将V_k映射到中间隐含空间L_k∈R^1×D，该空间隐含表示关键点信息；

映射网络f依次包括全连接层1、ReLU激活层、全连接层2；

具体的地，我们初始化的动态位置编码如下：

其中，q_k为条件变量，

f_k为第k个关键点输入映射网络f对应的输出；

DPE为动态位置编码，

为扁平特征x_i的坐标；

基于初始化的动态位置编码得到结合了动态位置编码的特征；表达式为：

Z′₀＝Z₀+λDPE

Z₀＝[x_cls,x₁,x₂,…,x_N]+E_pos,E_pos∈R^(N+1)×D

其中Z₀表示输入特征，x_cls为可学习的嵌入标记，E_pos为位置嵌入，x₁,x₂,…,x_N为扁平特征；R表示实数，λ是平衡DPE重量的超参数；Z′₀表示结合了动态位置编码的特征；

将结合了动态位置编码的特征Z′₀输入transformer，得到具有缓解视角变换车辆重识别特征。

密集嵌入方法：虽然获得动态位置编码可以缓解视角变化问题，但由于关键点数量有限，DPE没有足够的空间位置信息。换句话说，我们只在稀疏级别上对齐特征。但是，更细粒度的部件仍然是错位的，如年检标志和车辆装饰，这对ReID也很重要。

为了解决上述挑战，我们提出了一种基于最近邻插值的密集嵌入方法(DEM)。每个特征像素的嵌入都是由最近邻的关键点来定义的。没有进行关键点嵌入，我们通过其最近邻的关键点嵌入来定义它。这样，具有不同视点和姿态的车辆图像就可以很好地密集地对齐。我们认为，在计算每个特征像素的位置信息时，不仅要考虑距离，还要考虑空间方向。

将关键点分配给四个象限

其中

是第j象限中关键点k的坐标，j＝1,2,3,4；

计算每个象限中的

与扁平特征x_i的坐标

之间的欧氏距离；

同时，关键点对扁平特征x_i的坐标

的影响与距离成反比。

最后，选择每个象限中具有代表性的关键点，嵌入的加权求和作为局部位置嵌入；

L_k＝f_k(V_k)

其中，

为权重，

为与扁平特征x_i的坐标

距离最近的

(具有代表性的关键点)，

为密集的位置编码；f_k为第k个关键点输入映射网络f对应的输出；

每辆车有k个关键点，初始化一个k×k的对角矩阵，V_k为对角矩阵的行，k取值为1-20，k表示为关键点索引；L_k为关键点信息，L_k∈R^1×D；

每辆车有k个关键点，初始化一个k×k的对角矩阵，V_k为对角矩阵的行，k取值为1-20，k表示为关键点索引；

为

与中心之间的最短距离。与仅嵌入稀疏关键点的DPE不同，DEM在基于三维曲面的车身规范表示之间建立了密集的位置对应关系

其中Z₀表示输入特征，λ是平衡DPE重量的超参数；Z′₀表示结合了动态位置编码的特征；

其它步骤及参数与具体实施方式一至四之一相同。

具体实施方式六：本实施方式与具体实施方式一至五之一不同的是，所述映射网络f依次包括全连接层1、ReLU激活层、全连接层2。

映射网络f，将V_k映射到中间隐含空间

该空间隐含表示关键点信息。

其它步骤及参数与具体实施方式一至五之一相同。

具体实施方式七：本实施方式与具体实施方式一至六之一不同的是，所述输入特征Z₀表示为：

Z₀＝[x_cls,x₁,x₂,…,x_N]+E_pos,E_pos∈R^(N+1)×D

其中Z₀表示输入特征，x_cls为可学习的嵌入标记，E_pos为位置嵌入，x₁,x₂,…,x_N为扁平特征；R表示实数。

其它步骤及参数与具体实施方式一至六之一相同。

上述过程的部分代码如下：

采用以下实施例验证本发明的有益效果：

实施例一：

通过实现堆叠沙漏网络来训练车辆关键点检测器。使用Adam优化器，用20个迭代来训练网络。学习速率设置为0.00035。

在车辆ReID网络的训练过程中，固定了车辆关键点检测模块的参数。所有的车辆图像都被调整到大小为256x256，然后增加数据增强有随机水平翻转、填充、随机裁剪和随机擦除。批处理大小设置为56，每个ID有4张图像。采用SGD优化器，动量为0.9，权重衰减为5e-4。学习率初始化为0.02，余弦学习率逐渐衰减。Transformer层数为6层。此外，在全局特征之后添加了一个批处理归一化层。添加一个完全连接的层，将全局特征映射到ID分类得分。在推理阶段，选择BNNeck层之前的特征作为最终的特征表示。

本发明在三个大规模的车辆ReID数据集上评估了本发明的模型，包括VERI-Wild和Vehicle-ID和VeRi-776。

VERI-Wild：是最大的车辆ReID数据集，创建在更具挑战性的环境。它包含了174个摄像头在不同天气和时间条件下收集的40,671辆汽车id的416,314张图像。测试图像被分为3个不同大小的部分。

Vehicle-ID：数据集包含了由40台相机捕获的26,267辆汽车的221,763辆图像。这些数据集的图像在正面或背面的视点下被捕获。测试集还分为3个不同尺寸(小、中、大)的子测试集。在推理阶段，随机选择每个车辆的一个图像形成图库集，留下剩下的图像形成查询集。

VeRi-776：车辆ReID任务的第一个基准测试。它包含大约50,000张图像，其中包括由20台相机捕获的776张车辆识别图像。训练集包含576辆车，而测试集包含其他200辆车。

评测方法：在我们的实验中，我们使用CMC@1和平均平均精度(mAP)作为评价标准。

基于transformer的动态密集对齐模型(TDDA)在三个数据集上进行比较。本发明使用了ResNet50作为本发明的baseline。

表1展示了在VERI-Wild数据集上的结果。可以发现，我们的方法的性能优于其他网络。与ResNet50相比，小、中、大数据集的变压器性能mAP分别提高了2.8％、4.8％和5.0％。这是因为transformer的自注意机制可以很好地捕获特征上下文信息。同时，与baseline(transformer)相比，TDDA的性能有了显著的改善，分别提高了1.6％、1.8％和1.9％。与SOTA的现有方法PVEN相比，SOTA的性能分别提高了2.3％、3.1％和3.3％

表1.VERI-Wild数据集上的结果

表2中展示了在Vehicle-ID数据集上的结果。比较了这个数据集上的CMC@1和CMC@5的分数，因为每个查询车辆只有一个地面真相。表5显示了三个不同大小的测试数据集的比较结果。在车辆中，几乎所有的车辆图像都是从正面和背面拍摄的。对于不同视野下的车辆图像，其共同面积非常小。我们的方法在这个数据集上的作用是非常有限的。然而，与baseline(transformer)相比，TDDA在所有指标上都取得了性能改进，三个测试集的CMC@1和CMC@5分别提高了2.6％和1.2％，1.7％和2.0％，1.7％和3.2％

表2.Vehicle-ID数据集上的结果

表3中展示了在VeRi-776数据集上的结果。其中采用了两个测量指标，包括mAP，CMC@1。具体来说，TDDA比baseline(transformer)提高了2.8％mAP和1.5％CMC@1。

表3.VeRi-776数据集上的结果

在本发明的框架中有三个重要的组件：transformer、DPE和DEM。在最具挑战性的数据集VERI-Wild上，当添加DPE时，+0.6％的mAP提高了性能。这表明DPE可以提高特征对齐能力。当同时加入DPE和DEM时，+性能显著提高了1.6％，达到84.8％的mAP，表示密集嵌入可以实现完全的空间对齐。

本发明分析了DEM模块的权重λ对性能的影响。随着λ的增加，mAP被提高到84.8％的mAP(λ＝0.5)。随着λ的持续增加，由于原始特征的权重减弱，性能下降，这也不利于学习。

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。