CN110399828B

CN110399828B - 一种基于多角度的深度卷积神经网络的车辆再识别方法

Info

Publication number: CN110399828B
Application number: CN201910665065.0A
Authority: CN
Inventors: 梁艳花; 秦贵和; 邹密; 晏婕; 赵睿; 许骞艺; 张钟翰; 成一铭
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2019-07-23
Filing date: 2019-07-23
Publication date: 2022-10-28
Anticipated expiration: 2039-07-23
Also published as: CN110399828A

Abstract

本发明公开了一种基于多角度的深度卷积神经网络的车辆再识别方法，所述方法包括将车辆图像数据集作为输入通过共享层输出处理后特征图集；所述特征图集经过三个不同的流，分别从度量、视觉、属性三个角度进行分类；将三个分类结果进行联合学习实现车辆再识别。其中所述三个不同的流为基于簇的三元组流、基于互补学习的外观流和基于车辆属性的属性流。本发明纠正了随机三元组采样带来的冗余性和误导性问题，有效地缓解了现有方法不能很好区分相似图像或网络不收敛的问题，降低了训练时间成本，能够获得更准确的车辆再识别结果。

Description

一种基于多角度的深度卷积神经网络的车辆再识别方法

技术领域

本发明涉及一种在数据库中搜索包含由多个摄像机捕获的同一车辆的图像，尤其是提供了一种基于多角度的深度卷积神经网络的车辆再识别方法；属于在公共安全、大规模监控图像和视频数据库中的车辆搜索和再识别技术领域。

背景技术

监控摄像头在公共安全领域的使用呈爆炸式增长，而车辆作为城市监控中的重要对象，在检测、跟踪、分类、验证等大量与车辆相关的任务中引起了广泛的关注。车辆再识别是找出与查询图像包含同一车辆的其他摄像机所捕获的图像或同一摄像头下不同光照、视角等情况下的车辆。通过车辆再识别，目标车辆可以跨多个摄像头自动发现、定位和跟踪，在日益增多的城市监控视频自动分析中起着重要作用，对于智能交通和智慧城市的应用也至关重要。它不仅面临着多摄像头下车辆之间巨大的类内差异和类间细微差异的挑战，而且也存在着由车辆的各种姿态、多样的光照、复杂的环境等因素造成的困难。因此，车辆再识别问题一直受到国内外研究学者的关注。

传统上，通过多个线索和/或传感器数据的组合来解决车辆再识别问题，例如通过时间和无线磁传感器。但是，这些方法要么需要额外的硬件成本，要么对变幻无常的环境敏感。此外，包含车辆唯一ID的车牌是一条重要线索，因此对车牌相关技术进行了深入研究。但是，特别是在犯罪情况下，车牌可能被故意遮挡、摘除甚至伪造。因此，纯粹基于外观的车辆再识别方法具有实用价值和研究意义。常用的目标再识别特征包括颜色或纹理直方图、局部二值模式(LBP)、尺度不变特征变换(SIFT)等，并且其在人脸或人的再识别问题中已经取得很好的效果。在车辆再识别问题中，提取对不同车辆具有区分性和对视角、光照具有鲁棒性的描述特征，利用这些提取的特征来直接或间接度量车辆图像之间的相似度。例如将HSV颜色直方图、RGB颜色直方图和LBP特征进行组合；或提取图像的HSV、RGB、YC_bC_r颜色直方图和Schinidt、Gabor纹理特征进行识别等。目标特征匹配法原理较为简单，但对光照、视角的变化没有很好的鲁棒性。

车辆再识别问题也可以被转化为计算目标图像和候选图像之间的距离度量问题。度量常用的距离包括欧式距离、马氏距离、余弦距离等。近两年，深度学习也是车辆再识别问题中常用的方法。例如训练一种多层的卷积神经网络同时提取车辆图像的特征和相应的相似性度量函数学习。基于深度学习的车辆再识别不需要人工提取车辆的特征，而是运用神经网络模型对大量车辆图像进行训练。但训练的复杂度较大，如果样本数量较少又会存在过拟合问题。

发明内容

为解决以上问题，本发明的目的在于提供一种基于多角度的深度卷积神经网络的车辆再识别方法，该方法采用基于聚类的动态参数来改进三元损失函数，利用提出的基于簇的三元采样方法在线筛选三元组，形成基于簇的三元组流；同时，实现外观流和属性流的特征学习；最后联合三种流进行融合，完成车辆再识别。本发明最大化地提高了车辆再识别的准确率。

本发明提供的一种基于多角度的深度卷积神经网络的车辆再识别方法，技术方案如下：

将车辆图像数据集作为输入通过共享层输出处理后特征图集；所述特征图集经过三个不同的流，分别从度量、视觉、属性三个角度进行分类；将三个分类结果进行联合学习实现车辆再识别。

所述输入是将在城市中真实的监控场景中捕获的同一车辆的多张图像作为正集，其他不同车辆的图像作为负集，将正集和负集作为所述共享层的输入；其中，车辆图像具有车辆ID、颜色、类型、边界框注释。

其中，所述特征图集经过三个不同的流，分别从度量、视觉、属性三个角度进行分类具体为：基于簇的三元组流分类：从度量的角度，将所述特征图集映射到欧几里德空间形成簇，进行边界参数设置和在线三元组采样，基于设置的边界参数和三元损失函数学习进行分类；基于互补学习的外观流分类：从视觉的角度，对所述特征图集提取全局特征，通过两个分支来学习互补，以得到对车辆再识别有用的区域信息，进行分类；以及基于车辆属性的属性流分类：从属性的角度，对所述特征图集提取车辆的属性，进行分类。

定义三元损失函数：设{X_i}为一系列三元组单元，

为所述三元组单元中给定的三个样本点，其中

为正集中同一车辆的正例对图像，即它们具有相同的车辆ID，

为属于不同车辆的负例对图像，即它们具有不同的车辆ID；f(x_i)表示被查询图像的特征表示，

表示所述正例图像的特征表示，

为所述负例图像的特征表示。

所述三元损失函数具体表示为：

其中，W表示深度卷积神经网络模型的参数，α表示边界参数。

所述边界参数设置为对正例对和负例对之间的最小边界α进行设置，具体为：对映射到欧几里德空间中的点采用k均值聚类算法进行聚类，形成k个簇，每个车辆ID作为一个类，其中，k为所述正集和负集图像中车辆ID的数量；根据任意两个簇的簇中心点之间的距离与这两个簇的“半径”的差确定三元损失函数中的参数α，所述α表示所述正例对和所述负例对之间的边界，即衡量车辆ID 相同的图像对与车辆ID不同的图像对之间差距的大小，其中所述参数α是一个动态值，随着网络迭代次数而动态变化。

其中，所述簇的“半径”为该簇中心点到该簇中最远的点的距离。

所述在线三元组采样的具体方法为：首先采样两个聚好的簇，在这两个簇中各采样一个点，定义其中一个点为anchor，另一个点为负例，然后在所述anchor 所在的簇中再采样一个点作为正例，这样就形成了一个三元组；固定所述anchor 和所述负例不变，从所述anchor所在的簇中随机选择一个点作为所述正例，这样就形成了多个三元组；当采样的簇中有一个簇中只有一个孤立点时，该点作为负例，当采样的两个簇均为孤立点时，舍弃；通过三元损失函数，判断所生成的三元组是否为正确的三元组，即判断该三元组是否对反向传播中参数的调整有贡献。

基于簇的动态距离来进行三元组采样，以消除传统三元损失存在的冗余性和误导性问题，同时解决区分不同车辆类的问题，可以有效地对网络进行迭代训练，提高车辆再识别的准确率。

本发明的积极效果在于：

在三元损失函数衡量相似度重要指标的设定中，提出了一种动态的方式来合理的设置边界参数α，而非像已有方法一样将该参数预定义为常数。在网络训练过程中，提出基于聚类的三元组生成方法代替了三元组的随机采样方法，同时，设计了互补学习的外观流分类模型和基于车辆属性的属性流分类模型。本发明既很好的区分了不同车辆模型之间的差异(即类间差异)，又保证了相同车辆模型中不同车辆之间的区分(即类内差异)。使用批处理模式对网络进行训练。在每次迭代中，只生成一小部分三元组，利用这些三元组计算梯度，然后更新深度神经网络模型的参数。本发明中特征提取组件和距离度量组件都包含在深度卷积网络中，从互补学习的全局特征、车辆属性和基于簇的三元采样得到的三元组中学习图像的表示。本发明纠正了随机三元组采样带来的冗余性和误导性问题，有效地缓解了现有方法不能很好区分相似图像或网络不收敛的问题，在缩减运算时间的同时，也显著地提高了识别率，获得更准确的车辆再识别结果。

附图说明

图1为车辆再识别任务的示意图；

图2为车辆再识别数据集VeRi的图像展示，其中，(a)是训练集中车辆图像数据的示例；(b)是测试集中车辆图像数据的示例；

图3为本发明基于多角度的深度卷积神经网络的车辆再识别的框架图；

图4为本发明中基于簇的三元组采样与三元损失学习示意图。

具体实施方式

下面将结合附图对本发明的具体实施方式作更详细地描述，以使本发明技术方案更易于理解和掌握，以下内容仅为本发明较好的具体实施方法，但本发明的保护范围并不局限于此，本发明还可以有其他多种具体实施方式，任何熟悉本技术领域的技术人员在本发明揭露的同等替换或等效变换，均涵盖在本发明要求保护的范围之内。

实施例1

如附图1所示直观地表示了车辆再识别任务的含义，车辆再识别的本质是目标的再识别，是从一个数据集中查找出与指定的目标图像属于同一目标的图像样本。即车辆再识别是对指定的某个车辆图像，在多个监控视频帧画面中匹配并查找出与该车辆为同一车辆的过程。它能很好地区分在人类视觉看来，可能会由于光照、角度等问题感觉上并非同一辆车，但实际上为同一辆车。

本发明在VeRi数据集下进行车辆再识别，将本实例下的样本尺寸调整为大小为128×128像素。

数据集：如附图2所示，需要训练数据和测试数据来进行车辆再识别，如图 2(a)给出了训练集中的一些示例，图2(b)所示为测试集中的一些示例。用于车辆再识别的车辆图像来源于VeRi数据集，该数据集是从现实世界城市监控场景中收集的，是一个大规模的车辆再识别基准数据集。为了方便，从中选取正例的图像数、负例的图像数均为5张，Batch-size设置为8，所以在每一次迭代训练时，需要输入8×(5+5)＝80张图像。

车辆再识别的框架模型如附图3所示，包括输入层、共享层、三个不同的流三大部分。基于多角度的深度卷积神经网络的车辆再识别方法的框架模型由在城市中真实的监控场景中捕获的正、负集车辆图像作为输入。共享层包含5层，其中，第一层和第二层为Conv+ReLU+LRN+Pooling(Conv表示卷积层，ReLU为激活函数，LRN是局部响应归一化层)；第三、四、五层为Conv+ReLU。三个不同的流分别为基于簇的三元组流、基于互补学习的外观流和基于车辆属性的属性流。

基于簇的三元组流将通过共享层得到的特征图经过L2正则化和一个全连接 FC层，期望学习从车辆图像到欧几里德空间的映射，所提出的基于聚类的三元组采样和动态边界距离学习计算距离和提供三元组损失约束以优化网络。基于互补学习的外观流将通过共享层得到的特征图分别馈给两个不同的分支来学习互补的全局特征。基于车辆属性的属性流将通过共享层得到的特征图再经过池化、全局平均池化GAP操作来实现。

外观流具有两个分支，一个分支通过一个池化Pooling层，两个全连接FC 层使用车辆ID进行训练，鼓励网络定位和集中在具有判别性的一些区域；另一个分支通过一个批处理归一化BN层，一个池化Pooling层，一个全连接FC层进行特征学习，激活与上一分支不同的车辆区域。两个分支形成互补全局特征，综合对车辆进行识别，增加其他区域的可见性，增加分类效果，防止过拟合，有效降低分类损失，对基于簇的三元组流能够起到补充作用，提高识别准确率。其中，批处理归一化BN层的插入一方面对网络初始化要求不那么敏感，可以提高网络的泛化能力，另一方面使网络训练速度快，收敛过程加快。

属性流通过一个池化Pooling层，一个全局平均池化GAP层，使用车辆属性标签对网络进行优化。这里用全局平均池化GAP层来代替全连接FC层，不仅可以减少参数量，防止过拟合，而且可以精确定位车辆的判别区域，作为其他两个流的补充。因为现有的数据集中均带有颜色、类型、模型等注释，而这些车辆固有的属性对视点、光照、背景等复杂变化具有很强的鲁棒性。

其中，共享层、外观流和属性流中的池化Pooling层均采用最大池化下采样。

三个不同的流都受到单个分类任务的训练，之后度量、视觉、属性三个角度的联合学习实现车辆再识别。其中，联合学习是通过将三个流的FC输出堆叠连接，然后通过两个全连接FC层实现的。在这三个不同的任务中对网络进行优化，总体目标函数可以表示为：

L(W)＝λ₁l_{c_tri}+λ₂l_app+λ₃l_att，

其中，W表示深度神经网络模型参数。λ_{c_tri}、λ_app和λ_att分别表示基于簇的三元组流、基于互补学习的外观流和基于车辆属性的属性流的损失函数。λ₁、λ₂和λ₃表示相对于损失的权重。

其中，基于簇的三元组流的损失函数与所述三元损失函数表达形式相同。基于互补学习的外观流和基于车辆属性的属性流的损失函数均采用交叉熵损失，其具体表示为：

其中，n表示训练集中一个batch中的样本数量。y⁽ⁱ⁾为样本的真实标签值，

为深度神经网络输出的预测概率值。

附图4直观地显示了三元组的一次采样过程，并给出三元损失学习过程。一个三元组由anchor、正例、负例三个样本组成。利用动态距离学习的三元损失函数判断所生成的三元组是否为正确的三元组。其中，如果anchor与正例之间的距离加上边界参数距离α大于anchor与负例之间的距离时，三元损失函数可以很容易地检测到异常的距离关系，因此，这个卷积神经网络在反向传播学习阶段，会通过梯度下降法修正网络参数，属于正确的三元组。如果anchor与正例之间的距离加上边界参数距离α小于等于anchor与负例之间的距离时，三元损失函数为零，因此，卷积神经网络在反向传播学习阶段，会忽视这个三元组，即该三元组为不正确的三元组。固定anchor和负例不变，从anchor所在的簇中随机采样一个点作为正例，这样就可以形成多个三元组，然后利用动态距离学习的三元损失函数进行距离比较。根据上述步骤，可以得到多组满足要求的三元组。

本发明中基于簇的三元组采样方法可以取得多组正确的三元组，这样损失函数就由多个样本来定义，而不止传统的三个。在三元损失函数反向传播中，anchor 和正例之间的距离被越拉越近，而anchor与负例之间的距离被越推越远。

测试例1

本发明通过深度卷积神经网络进行基于聚类的动态距离驱动特征学习框架，用于车辆再识别。为了避免三元组损失较易趋于零导致不能很好的区分相似图像，或三元组损失很难趋于零导致网络不收敛，采用动态的方式合理的设置三元组损失参数，而非像已有方法始终将其预定义为常数。为了纠正随机三元组采样带来的负例误导性问题，设计了一种基于簇的在线三元组采样方法。为了最大化车辆再识别准确率，设计了互补学习的外观流和具有强鲁棒性的属性流。本发明提出的的车辆再识别方式在减少运算时间的同时，匹配率也显著提高。

为了说明本发明的技术效果，采用VeRi数据集中的测试子集(image_train) 和查询集(image_query)来验证本发明的有效性。其中，查询集表示待识别车辆的集合，测试子集为图库集。VeRi数据集中的测试子集包含200个不同车辆 ID的11579张图像，查询集包含167个不同车辆ID的1678张图像。

共享层包含5层，其中，第一层和第二层中的Conv层的滤波器大小为5×5，步长为2。第三、四、五层的滤波器大小为3×3，步长为1。Conv后跟的激活函数均使用ReLU。基于簇的三元组流中的FC层的长度为1024。外观流中第一个分支中的两个FC层的长度均为1024，第二个分支中的FC层的长度为1024。三个不同流的损失权重均设置为1。

利用模式识别领域，如人脸识别、行人识别等任务中广泛使用的平均精度 (meanaverage precision，mAP)、Top-1和Top-5来作为评估本发明的性能指标。

其中，平均精度(mAP)是综合衡量准确率(Precision)和召回率(Recall) 的指标。这里举例说明其计算过程。假设待识别车辆A在图库集中出现了5次，即有5个同一辆车的样本，且与车辆A属于同一辆车的样本图像分别排在第1、 2、5、8位。对于车辆A来说，平均准确率AP为：

AP＝(1/1+2/2+3/5+4/8)/4＝0.77，

待识别车辆B在图库集中出现了3次，即有3个同一辆车的样本，与车辆B 属于同一辆车的样本图像分别排在第2、4、9位。对于车辆B来说，平均准确率AP为：

AP＝(1/2+2/4+3/9)/3＝0.44，

则，mAP＝(0.77+0.44)/2＝0.61。

Top-1表示返回来的结果中，第一张图片即为正确答案的比率。

Top-5表示返回来的结果中，前五张图片中包含正确答案的比率。

表1为在VeRi数据集上，基于VGG模型的基准方法、基于VGG模型而使用随机三元组采样的标准三元组损失(Triplet loss)和本发明中三个不同的流渐进式加入对同一组车辆图片的识别结果。其中，Share、T、Ap、At分别代表本发明中的共享层、所提出的基于簇的三元组流、外观流和属性流。

从表1中可以看出，本发明有助于实现比随机三元组采样的标准三元组损失更大的改进。总体而言，使用本发明的车辆再识别方法获得的图像mAP和Top-1、 Top-5均高于使用标准三元组损失算法的结果。本发明提出的在线三元组采样方法有助于实现比随机采样方法更好的效果，并且仅使用改进的三元组损失，即仅有基于簇的三元组流(Share+T)已经优于VGG+Triplet Loss，并且三个不同流的组合(Share+T+Ap+At)取得的效果更好。这些结果证明了本发明在车辆再识别中的有效性。

Claims

1.一种基于多角度的深度卷积神经网络的车辆再识别方法，其特征在于，所述方法包括：

(1)将车辆图像数据集作为输入数据，通过共享层输出处理后特征图集；

所述作为输入数据的车辆图像数据集是将在城市中真实的监控场景中捕获的同一车辆的多张图像作为正集，其他不同车辆的图像作为负集，将正集和负集作为所述共享层的输入；

(2)所述特征图集经过三个不同的流，分别从度量、视觉、属性三个角度进行分类；将三个分类结果进行联合学习实现车辆再识别；

其中所述特征图集经过三个不同的流，分别从度量、视觉、属性三个角度进行分类，具体为：

(2.1)基于簇的三元组流分类：

从度量的角度，将所述特征图集映射到欧几里德空间形成簇，进行边界参数设置和在线三元组采样，基于设置后的边界参数和三元损失学习，进行分类；

定义三元损失函数：

设{X_i}为一系列三元组单元，

为所述三元组单元中给定的三个样本点，其中

为正集中同一车辆的正例图像对，即它们具有相同的车辆ID，

为属于不同车辆的负例图像对，即它们具有不同的车辆ID；

f(x_i)表示被查询图像的特征表示；

表示所述正例图像的特征表示；

为所述负例图像的特征表示；

所述三元损失函数具体表示为：

其中，W表示深度卷积神经网络模型的参数，α为边界参数；

所述边界参数设置为对正例对和负例对之间的最小边界α进行设置，具体为：

对映射到欧几里德空间中的点采用k均值聚类算法进行聚类，形成k个簇，其中，k为所述图像数据集中车辆ID的数量；

根据任意两个簇的簇中心点之间的距离与这两个簇的“半径”的差确定三元损失函数中的参数α，其中所述参数α随着网络迭代次数而动态变化；

其中，所述簇的“半径”为该簇中心点到该簇中最远的点的距离；

所述在线三元组采样的具体方法为：首先采样两个聚好的簇，在这两个簇中各采样一个点，定义其中一个点为anchor，另一个点为负例，然后在所述anchor所在的簇中再采样一个点作为正例，所述anchor、所述正例和所述负例形成了一个三元组；

固定所述anchor和所述负例不变，从所述anchor所在的簇中随机选择一个点作为所述正例，这样就形成了多个三元组；

通过所述三元损失函数，判断所述三元组是否为正确的三元组，即判断所述三元组是否对反向传播中参数的调整有贡献；

(2.2)基于互补学习的外观流分类：

从视觉的角度，对所述特征图集提取全局特征，通过两个不同的分支来学习互补，以得到对车辆再识别有用的区域信息，进行分类；

所述两个不同的分支，其中一个分支通过一个池化Pooling层和两个全连接FC层进行车辆分类，鼓励网络定位和集中在具有判别性的一些区域；另一个分支通过一个批处理归一化BN层，一个池化Pooling层，一个全连接FC层进行车辆分类，增加其他区域的可见性，增加分类效果，防止过拟合；

所述两个不同的分支产生全局特征很好的互补，有效降低分类损失，对基于簇的三元组流能够起到补充作用，提高识别准确率；

(2.3)基于车辆属性的属性流分类：

从属性的角度，对所述特征图集提取车辆的属性，进行分类；

所述基于车辆属性的属性流分类具体为：

是对所述图像数据集通过深度神经网络模型进行属性特征提取，所述属性流为其余两个流的补充，使识别准确率最大化；

所述深度神经网络模型是通过一个池化Pooling层，一个全局平均池化GAP层对车辆进行分类。