CN112396027A

CN112396027A - 基于图卷积神经网络的车辆重识别方法

Info

Publication number: CN112396027A
Application number: CN202011384258.8A
Authority: CN
Inventors: 郎丛妍; 许喆铭; 李浥东; 魏莉莉; 汪敏; 梁俪倩; 李尊
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2021-02-23
Anticipated expiration: 2040-12-01
Also published as: CN112396027B

Abstract

本发明提供了一种基于图卷积神经网络的车辆重识别方法。包括：构建用于车辆重识别的网络模型，使用卷积神经网络提取待重识别的车辆图像的全局和局部特征，利用图卷积神经网络得到结构化特征，利用结构化特征计算网络模型的损失函数；根据损失函数训练网络模型，将待重识别的车辆图像和测试集的所有图像输入到训练好的网络模型中，分别得到待测图片和测试集的所有图像的图片特征，根据图片特征计算出待测图片和测试集的各个图像之间的相似性，根据相似性得到待重识别的车辆图像的重识别结果。本发明通过使用图卷积神经网络挖掘局部特征与局部特征、局部特征与全局特征之间的结构化信息，从而获得更优更全面的特征表达，提高了车辆重识别的精度。

Description

基于图卷积神经网络的车辆重识别方法

技术领域

本发明涉及车辆重识别技术领域，尤其涉及一种基于图卷积神经网络的车辆重识别方法。

背景技术

随着城镇化建设和人民经济基础的提高，车辆的保有量大幅提升。为了对这些车辆进行更好的管理和监测，城市内的交通路口等位置被安装了大量的摄像头，每天都能产生海量的交通数据。这些数据可以应用于交通管理、智能安防等领域中的自动收费、特定车辆搜寻追踪等场景。要实现这些应用均需要实现对特定车辆的检索，即对特定车辆的重新识别(车辆重识别)。车辆重识别任务是指:在给定一张测试图片的前提下，找出跨摄像头拍摄的同一辆车的图片。车牌作为车辆独一无二的标识，存在模糊、遮挡和虚假拍照的问题。另外由于涉及到隐私问题，科研人员往往无法获得具有车牌信息的数据集。因此，近些年车辆重识别方法大多数都是对车辆整体进行纯视觉的研究。

2012年后，随着算力的大幅提升和海量的数据产出，深度学习方法在各个领域不断刷新着性能表现的最高记录。另外，对于图结构等非欧式数据，基于卷积神经网络的深度学习方法不再适用，而基于图卷积神经网络的深度学习方法由于可以提取图结构的空间特征而逐渐显现出其优势，在视频分类、骨骼行为识别以及多标签图像识别等领域取得了显著成果。

近年来，车辆重识别任务基本上使用深度学习的方法来实现。按照训练损失划分，可以分为分类学习和度量学习；按照粒度划分，可以分为粗粒度学习和细粒度学习；按照数据类型的不同可以分为基于单帧图像的学习和基于视频序列的学习。另外还有使用生成对抗网络的方法以及加入时空信息提高准确率的方法。

尽管近年来车辆重识别的方法多样，一个大趋势是除了提取全局特征，还要提取更优更具代表性的车辆局部特征。有的方法直接将提取的全局特征水平划分为若干部分，有的方法训练了目标检测网络，检测车辆的车窗，车灯等局部区域并提取局部特征，还有的方法提取车辆结构关键点处的特征最终进行融合得到局部特征。但是，这些现有技术的方法都没有考虑局部特征与局部特征、局部特征与全局特征之间的结构化信息,使得提取出的特征存在信息上的缺失导致较难获得更优的结果。

发明内容

本发明的实施例提供了一种基于图卷积神经网络的车辆重识别方法，以克服现有技术的缺点。

为了实现上述目的，本发明采取了如下技术方案。

一种基于图卷积神经网络的车辆重识别方法，包括：

对车辆图片数据集中的图像数据进行预处理，将预处理后的车辆图片数据集划分为训练集和测试集；

构建用于车辆重识别的网络模型，使用卷积神经网络提取待重识别的车辆图像的全局特征和局部特征，构建具有六个顶点的图结构，将全局特征和局部特征作为所述图结构的顶点特征，输入到图卷积神经网络中学习结构化信息，得到结构化特征，利用所述结构化特征计算出所述网络模型的损失函数；

根据所述损失函数利用所述训练集中的图像数据对所述网络模型进行深度学习训练，得到训练好的深度学习网络模型；

将待重识别的车辆图像和所述测试集中的所有图像输入到所述训练好的深度学习网络模型中，分别得到待测图片和测试集中的所有图像的图片特征，根据图片特征计算出待测图片和测试集中的各个图像之间的相似性，根据相似性得到所述待重识别的车辆图像的重识别结果。

优选地，所述的对车辆图片数据集中的图像数据进行预处理，将预处理后的车辆图片数据集划分为训练集和测试集，包括：

获取公开的车辆图片数据集，对车辆图片数据集中的数据进行预处理，该预处理包括图像裁剪、图像镜面翻转和图像尺寸调整，将车辆图片数据集中的图像的尺寸统一调整为256×256，并随机地镜面翻转图像，将预处理后的车辆图片数据集划分为训练集和测试集。

优选地，所述的使用卷积神经网络提取待重识别的车辆图像的全局特征和局部特征，包括：构建用于车辆重识别的网络模型，该网络模型使用特征提取网络提取待重识别的车辆图像的全局特征，所述特征提取网络为卷积神经网络ResNet-50，该ResNet-50网络包含49个卷积层和1个全连接层；

将全局特征划分为5个局部特征，分别是位于左上、右上、居中、左下和右下的方形区域，每一个方形区域的边长为三分之二的图像边长，每个方形区域特征的尺寸为11×11。

优选地，所述的构建具有六个顶点的图结构，将全局特征和局部特征作为所述图结构的顶点特征，输入到图卷积神经网络中学习结构化信息，得到结构化特征，利用所述结构化特征计算出所述网络模型的损失函数，包括：

将所述用于车辆重识别的网络模型分为两个分支：

一个分支以所述全局特征作为输入，采用交叉熵损失函数进行表征学习，获得分类任务损失；

另一个分支将全局特征和5个局部特征作为顶点特征，构建图结构

其中，

为顶点集合，包含6个顶点，分别是全局、左上、右上、居中、左下、右下顶点，表示为：

为

中顶点构成的边的集合；

所述图结构的邻接矩阵A表示为：

在邻接矩阵A上相加一个单位矩阵I作为自循环，得到新的邻接矩阵

表示为：

根据

得到度矩阵

度矩阵

被用于对

进行归一化得到邻接矩阵

使得

的每一行数值之和为1，

表示为：

全局特征和5个局部特征作为6个顶点的特征向量构成初始的特征矩阵H⁽⁰⁾，将所述邻接矩阵

和特征矩阵H⁽⁰⁾输入到一个两层的图卷积神经网络，该图卷积神经网络的激活函数为ReLU函数，记每一层的权重矩阵为W^(l),l＝1,2，最终图卷积神经网络的输出特征矩阵H⁽²⁾表示为：

由特征矩阵H⁽²⁾得到新的全局特征和5个局部特征，每一个特征的维度为512，之后将所述的新获得的全局特征和5个局部特征进行特征拼接，得到一个新的特征向量，特征维度为3072，记这一新的特征向量为f_c，利用所述特征向量f_c采用三元组损失函数进行度量学习，得到损失值。

优选地，所述的利用所述特征向量f_c采用三元组损失函数进行度量学习，得到损失值，包括：

记

为一个批次训练中的样本集，记

分别表示锚点,最难正样本以及最难负样本，最难正样本指的是与锚点样本外观表征最不相似的正样本，最难负样本指的是外观表征与锚点最相似的负样本，这一关系表示为：

D(f_c(A),f_c(P^*))＝maxD(f_c(A),f_c(P))

D(f_c(A),f_c(N^*))＝minD(f_c(A),f_c(N))

其中D(x,y)表示x,y之间的欧几里得距离，f_c(x)表示x样本的特征，三元组损失希望将正样本与锚点的距离拉近，将负样本与锚点的距离推远，这个三元组损失函数L_triplet用公式表示为：

L_triplet＝max{D(f_c(A),f_c(P^*))+α-D(f_c(A),f_c(N^*)),0}。

优选地，所述的根据所述损失函数利用所述训练集中的图像数据对所述网络模型进行深度学习训练，得到训练好的深度学习网络模型，包括：

将所述分类任务损失和度量学习得到的损失值相加，得到一个多任务学习损失函数，将该多任务学习损失函数作为所述用于车辆重识别的网络模型的最终损失函数；

将车辆图片数据集的训练集按照每批次32张输入所述网络模型进行前向传播，训练集一个批次的输入图片数表示为m×n，其中m表示一个批次参与训练的车辆ID个数，n表示每个车辆ID参与训练的图片个数；

通过所述多任务学习损失函数计算出前向传播后的网络模型的多任务学习损失值，根据所述的多任务学习损失值沿网络层进行反向传播从而计算梯度，然后根据梯度更新优化网络参数，再将车辆图片数据集的训练集按照每批次32张输入反向传播后的网络模型进行前向传播，重复执行上述处理过程，直到多任务学习损失值趋于收敛时，停止训练，得到训练好的深度学习网络模型。

优选地，所述的将待重识别的车辆图像和所述测试集中的所有图像输入到所述训练好的深度学习网络模型中，分别得到待测图片和测试集中的所有图像的图片特征，根据图片特征计算出待测图片和测试集中的各个图像之间的相似性，根据相似性得到所述待重识别的车辆图像的重识别结果，包括：

获取待重识别的车辆图像，将所述待重识别的车辆图像与测试集图片输入到训练完毕的深度学习网络模型中，分别得到待测图片和测试集中的所有图像的图片特征；

分别计算待测图片特征与测试集中的每一个图片特征之间的欧几里得距离，将该欧几里得距离作为相似性度量，距离越小相似性越大，按照相似性从大到小的顺序对测试集中的各个图像进行重新排列，得到待重识别的车辆图像的车辆重识别的结果。

由上述本发明的实施例提供的技术方案可以看出，本发明实施例通过使用图卷积神经网络挖掘局部特征与局部特征、局部特征与全局特征之间的结构化信息，从而获得更优更全面的特征表达，提高了车辆重识别的精度。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于图卷积神经网络的车辆重识别方法的实现原理示意图；

图2为本发明实施例提供的一种基于图卷积神经网络的车辆重识别方法的具体处理流程图；

图3为本发明实施例提供的一种将全局特征和5个局部特征作为顶点特征构建的网络结构示意图；

图4为当对于待检索对象车辆，图库中只有单张该对象图像时，本发明在公共车辆图片数据集VehicleID的最大测试集(包含2400张测试图片)上的图像检索可视化结果。

图5为当对于待检索对象车辆，图库中有多张该对象图像但最多不超过6张时，本发明在公共车辆图片数据集VehicleID的最大测试集(包含2400张测试图片)上的图像检索可视化结果。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

本发明实施例提供的一种基于图卷积神经网络的车辆重识别方法包括：训练模型阶段和测试模型阶段。在训练模型阶段，本发明通过卷积神经网络提取全局特征并将其划分为5个局部特征。之后模型被分为两个分支进行训练。一个分支是进行分类任务学习获得有效的车辆的判别性特征，另一个分支先是通过图卷积神经网络学习局部及全局特征的结构信息从而得到更优的特征表达，然后进行度量学习。在测试模型阶段，本方法通过提出这种基于图卷积神经网络的车辆重识别方法，由训练好的模型对测试输入图像提取出更优的特征表达并进行相似度计算。

本发明实施例提供的一种基于图卷积神经网络的车辆重识别方法的实现原理示意图如图1所示，具体处理流程如图2所示，包括如下的处理步骤：

步骤S21：对车辆图片数据集中的图像数据进行预处理，将预处理后的车辆图片数据集划分为训练集和测试集。

获取一个公开的大型车辆图片数据集VehicleID，该车辆图片数据集已经被划分为训练集和测试集。对车辆图片数据集中的数据进行预处理，预处理可以包括图像裁剪，图像镜面翻转，图像尺寸调整。将车辆图片数据集中的图像的尺寸统一调整为256×256并随机地镜面翻转图像。

步骤S22：构建用于车辆重识别的网络模型。网络模型首先使用特征提取网络提取待重识别的车辆图像的全局特征。上述特征提取网络可以为卷积神经网络ResNet-50。该ResNet-50网络包含49个卷积层和1个全连接层。

之后网络进一步得到局部特征，做法为将全局特征划分为5个局部特征，分别是位于左上、右上、居中、左下和右下的方形区域。每一个方形区域的边长为三分之二的图像边长，由于ResNet-50提取到的特征图大小为16×16，因此每个方形区域特征的尺寸为11×11。

之后将局部与全局的特征图经过池化后作为输入送入一个GCN(图卷积神经网络)模型中，提取出结构特征。这个结构特征的提取得益于GCN网络模型的顶点可以将自身的特征信息传播给邻近顶点。提取出结构特征后，进行三元组损失的计算。同时使用全局特征进行分类任务。因此网络最后使用的是多任务学习。

将上述用于车辆重识别的网络模型分为两个分支：

一个分支以所述全局特征作为输入，采用交叉熵损失函数(softmaxloss)进行表征学习，获得分类任务损失；

另一个分支首先将全局特征和5个局部特征作为顶点特征，构建图3所示的图结构，图结构的表示公式为

其中，

为顶点集合，所示图结构的

包含6个顶点，分别是全局、左上、右上、居中、左下、右下顶点，可表示为：

为

中顶点构成的边的集合。所述图结构的邻接矩阵A可表示为：

然后在邻接矩阵A上相加一个单位矩阵I作为自循环，得到新的邻接矩阵

表示为：

之后计算

的每一列元素的和并将计算结果放置于矩阵对角线上，从而得到一个对称矩阵，即

的度矩阵

度矩阵

被用于对

进行归一化得到邻接矩阵

使得

的每一行数值之和为1。

可表示为：

全局特征和5个局部特征作为6个顶点的特征向量构成初始的特征矩阵H⁽⁰⁾。然后将所述邻接矩阵

和特征矩阵H⁽⁰⁾输入到一个两层的卷积神经网络。该卷积神经网络的激活函数为ReLU函数。记每一层的权重矩阵为W^(l),l＝1,2。最终卷积神经网络的输出特征矩阵H⁽²⁾可表示为：

由特征矩阵H⁽²⁾可以得到新的全局特征和5个局部特征。每一个特征的维度为512。之后将所述的新获得的全局特征和5个局部特征进行特征拼接，得到一个新的特征向量，特征维度为3072。记这一新的特征向量为f_c，用于计算三元组损失函数。

此分支采用三元组(triplet loss)损失函数进行度量学习，得到损失值。记

为一个批次训练中的样本集。记

分别表示锚点(Anchor),最难正样本(hardpostive),最难负样本(hardnegative)。最难正样本指的是与锚点样本外观表征最不相似的正样本，最难负样本指的是外观表征与锚点最相似的负样本。这一关系可以表示为：

D(f_c(A),f_c(P^*))＝maxD(f_c(A),f_c(P))

D(f_c(A),f_c(N^*))＝minD(f_c(A),f_c(N))

其中D(x,y)表示x,y之间的欧几里得距离。f_c(x)表示x样本的特征。三元组损失希望将正样本与锚点的距离拉近，将负样本与锚点的距离推远，用公式可表示为：

L_triplet＝max{D(f_c(A),f_c(P^*))+α-D(f_c(A),f_c(N^*)),0}

步骤S23：将步骤S22的分类任务损失和度量学习得到的损失值相加，得到一个多任务学习的损失函数，将该损失函数作为上述用于车辆重识别的网络模型的最终损失函数。

然后将车辆图片数据集的训练集按照每批次32张输入上述网络模型进行前向传播，训练集一个批次的输入图片数可表示为m×n，其中m表示一个批次参与训练的车辆ID个数，n表示每个车辆ID参与训练的图片个数，比如，一个批次中参与训练的车辆ID个数为8，每个车辆ID参与训练的图片个数为4。

通过所述多任务学习损失函数计算出前向传播后的网络模型的多任务学习损失值，然后根据所述的多任务学习损失值沿网络层进行反向传播从而计算梯度，然后根据梯度更新优化网络参数。再将车辆图片数据集的训练集按照每批次32张输入反向传播后的网络模型进行前向传播，重复执行上述处理过程，直到多任务学习损失值趋于收敛时，停止训练，得到训练好的深度学习网络模型。

在实际应用中，还采用自适应矩估计(Adam)优化方法对上述训练好的深度学习网络模型进行优化。Adam结合了动量，并根据梯度的一阶矩和二阶矩计算自适应学习率，从而对参数进行更新优化，提高收敛速度。具体优化过程公示如下：

m_t＝μ*m_t-1+(1-μ)*g_t

n_t＝v*n_t-1+(1-v)*g_t ²

其中，μ和v为常数，η为学习率，g_t表示梯度，m_t，n_t分别是g_t的一阶矩和二阶矩，对其进行校正后分别得到

最后对参数θ_t进行更新。∈用于保证分母不为零。

步骤S41：获取待重识别的车辆图像；所述待检索图片对应的目标车辆至少在车辆数据库的测试集中存在两张图片。将所述待重识别的车辆图像与测试集图片输入到训练完毕的深度学习网络模型中，分别得到待测图片和测试集中的所有图像的图片特征。

然后分别计算待测图片特征与测试集中的每一个图片特征之间的欧几里得距离，将该欧几里得距离作为相似性度量，距离越小相似性越大。然后按照相似性从大到小的顺序对测试集中的各个图像进行重新排列，得到待重识别的车辆图像的车辆重识别的结果。

计算Rank-1,Rank-5和mAP。其中，Rank-1,Rank-5为检索结果前1张或前5张中有正确对象的概率。Rank-1又称为首位命中率。mAP为平均准确率，常用于有多个正确的车辆图像的情况。测得的实验结果如表1。

表1车辆重识别方法在VehicleID数据集上的表现对比

在表1中，通过与现有方法的表现进行对比，验证了本发明对车辆重识别的精度有显著提升。如附图3和附图4所示，无论是在图库中仅有一张还是有多张正确图像的情况下，正确的图像(与待检测图像同一ID)均位于检索结果的前列。表1的量化评估结果以及附图3和附图4的可视化结果体现了本发明提出的方法的有效性和鲁棒性。

综上所述，本发明实施例通过使用图卷积神经网络挖掘局部特征与局部特征、局部特征与全局特征之间的结构化信息，从而获得更优更全面的特征表达，提高了车辆重识别的精度。

通过本发明，当输入车辆A的一张图像时，能够以更大的准确率和精度在图像数据库中检索到由其他摄像头拍摄到的车辆A的所有图像。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。