CN114067143A

CN114067143A - 一种基于双子网络的车辆重识别方法

Info

Publication number: CN114067143A
Application number: CN202111405169.1A
Authority: CN
Inventors: 夏立; 孙永丽; 李文鹏; 尉桦; 严定鑫; 孙光泽
Original assignee: Xi'an Fenghuo Software Technology Co ltd
Current assignee: Xi'an Fenghuo Software Technology Co ltd
Priority date: 2021-11-24
Filing date: 2021-11-24
Publication date: 2022-02-18
Anticipated expiration: 2041-11-24
Also published as: CN114067143B

Abstract

本发明公开了一种基于双子网络的车辆重识别方法，包括获取车辆图像数据集、车辆图像数据预处理、构建车辆图像特征提取神经网络、训练车辆重识别模型、提取待识别车辆图像特征向量并计算其与测试集图像的特征相似度共5大模块。该种基于双子网络的车辆重识别方法，旨在构建一个具有强判别能力的神经网络模型，进一步解决光照、视角等因素对车辆重识别结果的影响，提高车辆重识别的准确率。本发明在融合CNN和Transformer结构的基础上设计了一种双子网络，其在协同学习车辆图像区域的多粒度局部特征的同时，能够获取有效的全局特征信息，从而提升车辆重识别模型的判别性表征能力。

Description

一种基于双子网络的车辆重识别方法

技术领域

本发明涉及车辆重识别技术领域，具体为一种基于双子网络的车辆重识别方法。

背景技术

作为智慧城市和智慧交通的关键技术之一，车辆重识别技术近年来已受到学术界和工业界的广泛关注和深入研究。车辆重识别又称Vehicle Re-identification，本质和行人重识别相同，属于重识别任务的一种。该问题可以看成是一种图像检索问题，其基于已给定车辆图像，在跨摄像机场景的多视角任务下找到同一目标车辆图像。

随着深度学习领域的迅速发展，基于深度学习的车辆重识别技术也得到了长足进步。基于深度学习的方法通常首先需要根据训练数据集构建一个能够识别车辆身份信息的神经网络，再使用该网络提取输入车辆图像特征，最后计算车辆特征间的相似度，相似度高的车辆图像即认为是同一车辆。由于不同相机下的视角、光照、遮挡等情况存在较大差异，所以导致车辆重识别任务的类内样本距离大、类间样本距离小，这也是车辆重识别任务的主要难点。相关的方法可分为以下几类：

基于多维度信息融合的车辆重识别方法，其在车辆身份信息的基础上，融合时空信息、车辆颜色、车辆类型和摄像头身份等多个属性，从而获得车辆的辨别性特征。该类方法对车辆图像视角等的剧烈变化较为敏感。此外，由于车辆相关属性信息的获取和标注难度较大，导致该类方法严重受限；

基于度量学习的方法，该类方法通常将输入车辆图像映射到不同特征空间中，在各空间的同步约束下学习区分类间相似和类内差异样本的辨别性能力，其具有较好的性能表现，但复杂的视角变化仍会影响识别精度；

基于局部特征学习的车辆重识别方法，其依赖预先定义的区域或者关键点获取有区别的局部特征，用于区分不同样本。该类方法忽略了判别性特征可能出现在车辆的任意地方，因此对于存在局部细微差异的样本区分性弱；

基于生成对抗网络的方法，一些工作使用GAN生成难样本来辅助网络处理视点变化问题，但由于GAN生成能力的限制和对抗性样本的不足，生成内容的真实性较差。

发明内容

本发明提供了一种基于双子网络的车辆重识别方法，旨在构建一个具有强判别能力的神经网络模型，进一步解决光照、视角等因素对车辆重识别结果的影响，提高车辆重识别的准确率。本发明在融合CNN和Transformer结构的基础上设计了一种双子网络，其在协同学习车辆图像区域的多粒度局部特征的同时，能够获取有效的全局特征信息，从而提升车辆重识别模型的判别性表征能力，本发明提供了如下的技术方案：

本发明一种基于双子网络的车辆重识别方法，包括如下步骤：

S101、获取车辆重识别数据集，划分训练集和测试集；

S102、车辆图像数据预处理，对S101中的训练集执行尺度变化、颜色抖动、随机水平翻转、图像填充、随机裁剪和随机擦除操作，对于S101中的测试集执行尺度变化操作；

S103、构建车辆图像特征提取网络，具体步骤如下：

S1031、利用CNN卷积神经网络和Transformer结构构建一种双子网络，且该网络采用Resnet50的Layer[0]作为网络主干，Transformer分支共包含4个stage，该分支主要用于提取输入图像的全局特征，CNN卷积神经网络分支用于获取多粒度局部特征信息；

S1032、构建全局特征提取分支，以Transformer Encoder作为基础单元，整体网络可划分为4个stage，每个stage包含的Transformer Encoder数目分别为1、3、4、4，网络总深度为12，最后一个stage的class token作为全局特征进行输出；

S1033、构建多粒度局部特征提取分支，双子网络主干部分的输出特征图先后经过Block_1和Block_2模块，其中Block_1采用Resnet50的Layer[1:3]，Block_2采用Stride步长参数为1的Resnet50 Layer[3]结构，在经过自适应池化操作处理后，设置3个局部特征分支，这3个分支分别对特征图执行3、5、7份的竖切操作，然后通过协同注意力模块的邻域组合操作，获取各分支下的局部特征信息；

S1034、建立信息交互模块，将全局分支上的特征信息和局部分支上的细粒度信息进行相互传递与融合，丰富各分支下的特征表征内容，两个分支间特征向量的维度匹配主要依靠1×1卷积完成；

S104、训练车辆重识别模型，在划分并处理好车辆重识别数据集后，开始车辆重识别模型的训练和优化，每次选择固定数目的车辆图像，作为一个训练批次数据送入网络中进行学习，输出的全局特征和各局部特征送入各损失函数模块，不断优化车辆重识别模型；

S105、提取待识别车辆图像特征向量，并计算其与测试集图像的特征相似度，认为超过设定阈值的最高相似度图像与待识别车辆属于同一车辆。

作为本发明的一种优选技术方案，在所述S1032中的全局特征提取分支中，首先利用滑动窗方式对输入特征图进行切分获取Patches序列，对于输入尺寸为H*W的车辆特征图，假设滑动窗口大小为P，滑动窗的移动步长为S，这样即可获得N个Patches，具体计算如下所示：

由于不同摄像头下的车辆图像在外观、尺寸等方面存在较大差异，因此，在对Patches序列进行线性映射后，参考位置信息的引入方式将摄像头Cameras信息融合到编码模块。

作为本发明的一种优选技术方案，所述S1034中的具体操作为：CNN分支的Block_1模块输出信息传递至Transformer分支的stage_2；经过stage_2处理的输出信息添加至CNN分支中生成3个子局部分支的输入流中；stage_3的输出信息传递至CNN分支中的CollaborativeAttention输入流中。

作为本发明的一种优选技术方案，所述S104中的损失函数模块包含交叉熵损失函数、三元组损失函数和中心损失函数共三种，每个损失函数的作用通过权重分配系数进行控制，具体公式如下：

L＝α×L_CE+β×L_Trip+γ×L_C

上式中，L_CE、L_Trip和L_C分别表示交叉熵损失、三元组损失和中心损失函数，α、β和γ用于控制对应各损失函数的作用力度。

作为本发明的一种优选技术方案，所述交叉熵损失函数主要用于进行车辆类别分类任务；所述三元组损失函数基于不同的三元组样本对，约束同类样本和不同类样本的相对距离，来拉近同类样本，同时使不同类样本互相远离；所述中心损失函数能够拉近同一类别样本的距离，减少类内差异。

作为本发明的一种优选技术方案，所述S105的具体计算过程如下：

假设待识别车辆图像为image0，测试集TestDataset共包含K张车辆图像，具体表示为TestDataset＝[image1,image2,...,imageK|K∈N₊]，同时假定已训练好的车辆重识别模型为M，则可得到待识别车辆和测试集车辆图像的特征向量为：

f_i＝M(image_i),i＝0,1,2,...,K

此处，使用Concatenate操作将1条全局特征和12条局部特征进行拼接，作为最终的车辆图像表示特征；基于获取的特征向量，计算特征相似度，按照特征相似度的排序结果，输出待识别车辆的同一车辆图像，具体计算过程如下式所示：

F＝Sort(Sim(f₀,f_1,2,...,K))

上式中F表示待识别车辆与测试集中车辆特征向量相似度的排序结果，利用相似度阈值T对排序结果进行筛选，其中大于该阈值的测试图像记录到变量P中，最终P中的所有测试图像被认为与待识别车辆属于同一车辆。

本发明的有益效果是：

1、提供了一种新的车辆重识别网络模型结构，该结构有效提升了车辆重识别精度；

2、解决了CNN结构在提取全局特征时存在的细节信息丢失问题，引入Transformer结构，其多头注意力模块保证了模型在同一时间内可捕获车辆区域的长程相关性，引导模型关注更多的车辆图像内容；

3、设计的协同注意力机制提高了细粒度特征的判别力，通过采用切片和重组操作，获取不同尺度下的局部特征，并在不同维度下聚合各尺度局部特征，增加了内容信息的多样性，最终各尺度各维度下的局部特征以协同作用的方式引导模型学习车辆图像的判别力内容；

4、信息交互模块的设置，为全局和局部特征信息分支提供了一种显式耦合途径，有利于各分支下的特征学习；

5、全局表征和多粒度局部表征的结合，有效促进了更强大更具鲁棒性车辆特征的获取。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明一种基于双子网络的车辆重识别方法的整体流程图；

图2是本发明一种基于双子网络的车辆重识别方法的车辆特征提取网络示意图；

图3是本发明一种基于双子网络的车辆重识别方法的车辆重识别双子网络示意图；

图4是本发明一种基于双子网络的车辆重识别方法的全局特征提取网络分支示意图；

图5是本发明一种基于双子网络的车辆重识别方法的多粒度局部特征提取网络分支示意图；

图6是本发明一种基于双子网络的车辆重识别方法的实施流程示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例：如图1和图6所示，本发明一种基于双子网络的车辆重识别方法，包括获取车辆图像数据集(划分训练集和测试集)、车辆图像数据预处理、构建车辆图像特征提取神经网络、训练车辆重识别模型、提取待识别车辆图像特征向量并计算其与测试集图像的特征相似度(认为超过设定阈值的最高相似度图像与待识别车辆属于同一车辆)共5大模块。各模块具体内容如下：

步骤101.获取车辆重识别数据集，划分训练集和测试集

通过爬虫抓取、实地拍摄或者下载公开数据集等方式获取车辆重识别数据集。当前常用的车辆重识别公开数据集有VeRi-776、VehicleID和VeRi-Wild。

步骤102.车辆图像数据预处理

为了更好地训练车辆重识别模型，提高模型的泛化性能。需要对原始车辆数据进行预处理操作。

步骤103.构建车辆图像特征提取网络

如图2所示，车辆图像特征提取网络的构建是车辆重识别方法中的核心环节。本发明中的车辆图像特征提取网络基于Transformer结构和CNN卷积神经网络模块构建而成，具体涉及全局特征提取分支、多粒度局部特征提取分支和信息交互模块三部分。各部分详细内容如下：

步骤1031：双子网络

本发明中的车辆重识别网络是利用CNN卷积神经网络和Transformer结构构建的一种双子网络，具体结构如图3所示。该网络采用Resnet50的Layer[0]作为网络主干；Transformer分支共包含4个stage，该分支主要用于提取输入图像的全局特征；CNN卷积神经网络分支用于获取多粒度局部特征信息。此外，考虑到Transformer和CNN分支在提取全局和局部信息上的各自优势，本发明建立了信息交互模块，通过采用特征耦合的手段，使得Transformer分支中的全局信息和CNN分支中的局部信息进行互补，从而丰富当前分支所提取的特征内容。

步骤1032：构建全局特征提取分支

该分支主要用于提取输入车辆图像的全局特征，具体基于Transformer结构完成。在常用的CNN结构中，由于感受野的尺寸限制，卷积操作可视范围有限，使得网络仅能够同时关注图像的局部区域。而Transformer中的多头注意力结构通过获取图像内容的长程相关性，保证了信息的全面性，降低了信息损失。所以，我们采用Transformer结构完成全局特征的提取。此外，为了进一步减弱相机、视角等客观因素对识别结果的影响，本发明方法在全局特征提取分支中增加了相机信息模块。具体如图4所示。

在全局特征提取网络分支中，首先利用滑动窗方式对输入特征图进行切分获取Patches序列，对于输入尺寸为H*W的车辆特征图，假设滑动窗口大小为P，滑动窗的移动步长为S，这样即可获得N个Patches，具体计算如(1)式所示：

由于不同摄像头下的车辆图像在外观、尺寸等方面存在较大差异，因此，在对Patches序列进行线性映射后，参考位置信息的引入方式将摄像头Cameras信息融合到编码模块。因为摄像头属于非视觉信息，所以其能够辅助网络学习输入车辆图像的不变性特征。

在线性映射模块后，共设置有4个stage，总深度为12，其中，stage_1、stage_2、stage_3和stage_4深度分别为1、3、4、4。最终，全局特征提取网络分支输出一条全局特征。

步骤1033：多粒度局部特征提取分支的构建

样本的判别性信息往往出现在图像的任意局部区域内(如车辆大灯、轮胎等)，这就要求网络具备学习样本不同细粒度信息的能力。基于此，我们构建了如图5所示的多粒度局部特征提取网络，该网络采用Resnet50的Layer[1]、Layer[2]和Layer[3]作为Backbone，获取输入图像的特征表示。其中，为了尽可能地减少信息损失，我们将Resnet50网络最后一层卷积操作的步长参数Stride修改为1，以得到更大的特征图；然后，采用自适应池化操作(AdaptivePooling)同时捕获图像的局部显著特征和全局完整特征，在给定输入和输出尺寸后，该操作的其他超参数计算如公式(2)所示：

公式(2)中的IF表示输入特征图尺寸，OF表示输出特征图尺寸。

在自适应池化操作处理之后，引入协同注意力机制(CollaborativeAttention)，该机制通过设置三个分支网络，并对每个分支的特征图执行不同尺度下的垂直切分，分别切3、5、7份，驱使各分支学习输入图像的不同偏好信息，这充分考虑了判别性信息的实际分布情况。如图5所示，在各分支内部，协同注意力机制通过采用邻域结合操作，使得相邻区域协同作用，以达到让车辆的不同区域在不同视角下获取多样性学习的目的，提升模型对车辆判别性信息的挖掘能力。同时，三个不同尺度的分支机构在损失函数的驱动下，协同地将底层的判别性信息反馈到全局分支上。

然后，使用最大池化操作获得各分支下的局部特征向量。其中，每个分支下输出的局部特征数目等于对应邻域的组合数，即第一、二、三分支分别对应2、4、6条局部特征向量。

步骤1034：建立信息交互模块

全局特征提取分支能够提取到输入图像的完整特征，但是缺少局部细节信息。相比之下，多粒度局部分支能够提取到不同尺度下的判别性细节特征，但缺乏对全局完整性特征信息的感知。基于该实际情况，我们设计了信息交互机制，将全局分支上的特征信息和局部分支上的细粒度信息进行相互传递与融合，丰富各分支下的特征表征内容，两个分支间特征向量的维度匹配主要依靠1×1卷积完成。具体操作为：CNN分支的Block_1模块输出信息传递至Transformer分支的stage_2；经过stage_2处理的输出信息添加至CNN分支中生成3个子局部分支的输入流中；stage_3的输出信息传递至CNN分支中的CollaborativeAttention输入流中。

步骤104.训练车辆重识别模型

在划分并处理好车辆重识别数据集后，开始模型训练工作，每次随机选择P个车辆类别，每个类别随机选择了W张图像，送入车辆重识别网络进行训练，即每个训练批次包含P×W张图像。最终，Transformer分支输出的全局特征和CNN分支输出的12个局部特征分别进入损失函数模块。此处，构建的损失函数模块包含交叉熵损失函数(CrossEntropy)、三元组损失函数(Triplet Loss)和中心损失函数(Center Loss)共3种，每个损失函数的作用通过权重分配系数进行控制，具体见公式(3)：

L＝α×LCE+β×LTrip+γ×LC

(3)

上式(3)中，L_CE、L_Trip和L_C分别表示交叉熵损失、三元组损失和中心损失函数，α、β和γ用于控制对应各损失函数的作用力度。其中，交叉熵损失函数主要用于进行车辆类别分类任务；三元组损失函数基于不同的三元组样本对，约束同类样本和不同类样本的相对距离，来拉近同类样本，同时使不同类样本互相远离；而中心损失函数能够拉近同一类别样本的距离，减少类内差异。

步骤105.提取待识别车辆图像特征向量，并计算其与测试集图像的特征相似度(认为超过设定阈值的最高相似度图像与待识别车辆属于同一车辆)

假设待识别车辆图像为image0，测试集TestDataset共包含K张车辆图像，具体表示为TestDataset＝[image1,image2,...,imageK|K∈N₊]。同时假定已训练好的车辆重识别模型为M，则可得到待识别车辆和测试集车辆图像的特征向量为：

f_i＝M(image_i),i＝0,1,2,...,K (4)

此处，使用Concatenate操作将1条全局特征和12条局部特征进行拼接，作为最终的车辆图像表示特征。基于获取的特征向量，计算特征相似度，按照特征相似度的排序结果，输出待识别车辆的同一车辆图像，具体计算过程如下式所示：

公式(5)中的F表示待识别车辆与测试集中车辆特征向量相似度的排序结果，公式(6)利用相似度阈值T对排序结果进行了筛选，其中大于该阈值的测试图像记录到变量P中，最终P中的所有测试图像被认为与待识别车辆属于同一车辆。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于双子网络的车辆重识别方法，其特征在于，包括如下步骤：

S101、获取车辆重识别数据集，划分训练集和测试集；

S103、构建车辆图像特征提取网络，具体步骤如下：

2.根据权利要求1所述的一种基于双子网络的车辆重识别方法，其特征在于，在所述S1032中的全局特征提取分支中，首先利用滑动窗方式对输入特征图进行切分获取Patches序列，对于输入尺寸为H*W的车辆特征图，假设滑动窗口大小为P，滑动窗的移动步长为S，这样即可获得N个Patches，具体计算如下所示：

3.根据权利要求1所述的一种基于双子网络的车辆重识别方法，其特征在于，所述S1034中的具体操作为：CNN分支的Block_1模块输出信息传递至Transformer分支的stage_2；经过stage_2处理的输出信息添加至CNN分支中生成3个子局部分支的输入流中；stage_3的输出信息传递至CNN分支中的Collaborative Attention输入流中。

4.根据权利要求1所述的一种基于双子网络的车辆重识别方法，其特征在于，所述S104中的损失函数模块包含交叉熵损失函数、三元组损失函数和中心损失函数共三种，每个损失函数的作用通过权重分配系数进行控制，具体公式如下：

L＝α×L_CE+β×L_Trip+γ×L_C

5.根据权利要求4所述的一种基于双子网络的车辆重识别方法，其特征在于，所述交叉熵损失函数主要用于进行车辆类别分类任务；所述三元组损失函数基于不同的三元组样本对，约束同类样本和不同类样本的相对距离，来拉近同类样本，同时使不同类样本互相远离；所述中心损失函数能够拉近同一类别样本的距离，减少类内差异。

6.根据权利要求1所述的一种基于双子网络的车辆重识别方法，其特征在于，所述S105的具体计算过程如下：

f_i＝M(image_i),i＝0,1,2,...,K

F＝Sort(Sim(f₀,f_1,2,...,K))