CN114170516B

CN114170516B - 一种基于路侧感知的车辆重识别方法、装置及电子设备

Info

Publication number: CN114170516B
Application number: CN202111500605.3A
Authority: CN
Inventors: 张新钰; 李骏; 卢凤黎; 高鑫; 李志伟
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2022-09-13
Anticipated expiration: 2041-12-09
Also published as: CN114170516A

Abstract

本申请提供了一种基于路侧感知的车辆重识别方法、装置及电子设备，具体涉及车辆重识别技术领域，具体为：获取待识别车辆的图像及多张待匹配的图像；通过预先训练好的主干网络对待识别车辆的图像及多张待匹配的图像分别进行处理，得到待识别车辆的图像的特征图以及多张待匹配的图像的特征图；所述主干网络用于提取图像的特征图，该特征图包括加入采集图像的摄像头的拍摄角度信息的全局特征，以及反映图像细节的局部特征；计算待识别车辆的图像的特征图与各张待匹配的图像的特征图的相似度，获取大于阈值的相似度对应的待匹配的图像作为重识别的图像。本申请能够提高车辆重识别的准确度。

Description

一种基于路侧感知的车辆重识别方法、装置及电子设备

技术领域

本申请涉及车辆重识别技术领域，尤其是涉及一种基于路侧感知的车辆重识别方法、装置及电子设备。

背景技术

从不同场景下的图片和视频序列中识别特定的物体是重识别的主要目的。对于当下车辆重识别，通常都是直接采用CNN的方法来提取其特征；或者是先采用分割模型或者正则化等方法把车辆分割为几个面，再使用卷积神经网络的方法提取每个面上的特征；或者把提取的特征图分为全局特征和局部特征，用loss函数进行评估。

然而，在实际识别的过程中，即使同一种车辆，在不同视角下，实例会存在较大的差异；不同的车辆，相同的颜色也会有着相似的外观；在光照、粉尘、遮挡环境中，也会在摄像头中呈现的车辆外观与原外观差异很大。这些情况导致提取的特征图与原车辆的特征图差异巨大，在识别过程中很容易被当成其他车辆。

当前提取车辆特征的方法有如下缺陷：(1)用卷积神经网络(Resnet50为例)提取特征：在局部特征上提取有优势，但其采用分层的方式收集特征，难以提取全局的特征表示(如视觉元素中提取远距离关系)；(2)引用注意力模块：其注意力都是嵌入到深层，无法改变卷积神经网络的根本问题。

目前，视觉Transformer在目标检测、去雨、去雾等任务上展示了其优越性，也被用在重识别任务上。但是在处理目标重识别任务时，将每个图像分割为带有位置嵌入的小块，将摄像头编号作为可学习的参数进行分割，自主构建了拼图模块和平移模块，对被遮挡的部分进行补充，弥补被遮挡的信息。但在分割的过程中，会忽略前后信息的联系，会丢失一些局部信息，从而限制了重识别的效果。

发明内容

有鉴于此，本申请提供了一种基于路侧感知的车辆重识别方法、装置及电子设备，以解决现有技术的车辆重识别方法的准确不高的技术问题。

一方面，本申请实施例提供了一种基于路侧感知的车辆重识别方法，包括：

获取待识别车辆的图像及多张待匹配的图像；

通过预先训练好的主干网络对待识别车辆的图像及多张待匹配的图像分别进行处理，得到待识别车辆的图像的特征图以及多张待匹配的图像的特征图；所述主干网络用于提取图像的特征图，该特征图包括加入采集图像的摄像头的拍摄角度信息的全局特征，以及反映图像细节的局部特征；

计算待识别车辆的图像的特征图与各张待匹配的图像的特征图的相似度，获取大于阈值的相似度对应的待匹配的图像作为重识别的图像。

进一步的，所述主干网络包括：全局特征提取模块、级联模块和局部特征提取模块；

所述全局特征提取模块采用Transformer，用于将输入图像分割为多个图像块，提取分割后图像的特征并进行拼接，利用摄像头的拍摄角度对拼接后的特征图进行角度偏移操作，得到形式为[B,p,C+1]的偏移操作后的特征图，其中B为输入图像的个数，p为分割后图像的边长，C为图像的通道数；

所述级联模块，用于对Transformer输出的特征图进行重塑,向局部特征提取模块输出形式为[B,C,h,w]的特征图，h为输入图像的长，w为输入图像的宽；

所述局部特征提取模块采用卷积神经网络，用于提取形式为[B,C,h,w]的特征图的局部特征，输出输入图像的特征图。

进一步的，所述全局特征提取模块包括：图像分割单元、Embedding层、多头自注意力层、位置前馈网络和多层感知机；

所述图像分割单元：用于将图像x∈R^H*W*C分割成M块边长为p的图像块，将形式为[B,C,H,W]的输入图像转换为多个形式为[B,C,p]的图像块；

所述Embedding层，用于为多个形式为[B,C,p]的图像块添加拍摄图像x的摄像头的拍摄角度信息；

所述多头自注意力层，用于将每个图像块中的特征数据连接起来，提取每个图像块的特征图；

所述位置前馈网络，用于利用摄像头的拍摄角度，对各个图像块的特征图进行偏移操作：

其中，d_model是特征图的像元个数；pos是摄像头的拍摄角度，是一个待训练的参数；i代表像元的序号，PE_(pos,2i)是经过偏移处理后图像块；

所述多层感知机：用于将多个偏移处理后图像块的特征图合成一个特征图。

进一步的，所述方法还包括：对主干网络进行训练的步骤，包括：

利用VeRI数据集建立训练集，其中，VeRI数据集包括经过路径的摄像头所拍摄的图像，图像信息中包括拍摄该图像的摄像头的id号；

将训练集中的B个样本图像输入主干网络，得到B个样本图像对应的预测特征图；

基于B个样本图像对应的预测特征图和B个样本图像的标注结果，确定损失函数值；

基于损失函数值，更新主干网络的模型参数，其中，模型参数包括多个摄像头id号及该摄像头的拍摄角度。

进一步的，所述方法还包括：获取大于阈值的相似度对应的待匹配的图像的拍摄摄像头，将摄像头的位置作为待识别车辆的位置。

另一方面，本申请实施例提供了一种基于路侧感知的车辆重识别装置，包括：

获取单元，用于获取待识别车辆的图像及多张待匹配的图像；

特征图提取单元，用于通过预先训练好的主干网络对待识别车辆的图像及多张待匹配的图像分别进行处理，得到待识别车辆的图像的特征图以及多张待匹配的图像的特征图；所述主干网络用于提取图像的特征图，该特征图包括加入采集图像的摄像头的拍摄角度信息的全局特征，以及反映图像细节的局部特征；

重识别单元，用于计算待识别车辆的图像的特征图与各张待匹配的图像的特征图的相似度，选取大于阈值的相似度对应的待匹配的图像作为重识别的图像。

另一方面，本申请实施例提供了一种电子设备，包括：存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请实施例的的基于路侧感知的车辆重识别方法。

另一方面，本申请实施例一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时实现本申请实施例的的基于路侧感知的车辆重识别方法。

本申请的主干网络能够提取细粒度特征车辆信息，从而提高车辆重识别的准确度。

附图说明

为了更清楚地说明本申请具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的基于路侧感知的车辆重识别方法的流程图；

图2为本申请实施例提供的的基于路侧感知的车辆重识别装置的功能结构图；

图3为本申请实施例提供的电子设备的功能结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先对本申请实施例的设计思想进行简单介绍。

为了解决上述问题，本申请设计了一个Transformer+CNN的主干网络，能够提取更为细粒度的车辆特征图，从而可以识别同种车型，或者不同车型但存在着相似外观的车辆。主干网络采用Transformer来提取图片的全局特征，辨别种类上较大的差异；采用卷积神经网络固有的特点来提取局部特征，对全局信息进行补充，辨别同种类车型，或者不同车型相似外观之间的细小差异；此外，还设计了一个级联模块，将这两部分级联起来，并发执行。

本申请的主干网络可以同时弥补Transformer在提取特征时，前后联系丢失的情况；级联模块可以很好的桥接Transformer和CNN两种结构，使之并联执行；可以在提取全局特征之后有效地提取局部特征，为后面的计算损失函数提供更准确的特征数据。

在介绍了本申请实施例的应用场景和设计思想之后，下面对本申请实施例提供的技术方案进行说明。

如图1所示，本申请实施提供一种基于路侧感知的车辆重识别方法，包括：

步骤101：获取待识别车辆的图像及多张待匹配的图像；

步骤102：通过预先训练好的主干网络对待识别车辆的图像及多张待匹配的图像分别进行处理，得到待识别车辆的图像的特征图以及多张待匹配的图像的特征图；

在该步骤之前，首先构建一个用于提取细粒度特征车辆信息的主干网络；

主干网络包括三个部分：全局特征提取模块、局部特征提取模块和级联模块：

全局特征提取模块：把图像x∈R^H*W*C分割成N块边长为p的图像块，经过Embedding层，添加拍摄该图像的摄像头的拍摄角度的输入量，输入到多头自注意力层。具体地，把输入的图片大小规定为(256，256)，步长设置为16，dropout概率设置为0.1,激活函数设置为Adam。对于一个图像x∈R^H*W*C，将其分割成N块边长为p*p的图像块，即

由于没有对分割的图像块进行编号或者排序操作，使用attention的形式(多头自注意力层)对图像块连接。其中，attention的表示形式为：

attention_output＝Attention(Q,K,V)(Q:Query,K:key，V:Value)

通过线性变换对Q,K,V进行投影，最后将图像块的特征拼接起来。通过Concat的运算，把数据进行压缩处理，把输入长宽(H,W)转移为图像块的的边长p。具体过程为：输入数据由四维的[B,N,H,W],变为三维的[B,C,p](其中B:Bachsize，一次训练所选取的样本数)。自注意力的目的是为了将每个图像块中的特征数据连接起来，使之相互联系。因为，每个图像块都和其它图像块相连接，所以用多头自注意力层作为桥接方法。

此外，本申请实施例中，把采集图像的摄像头的拍摄角度(采集图像的相机编号)作为可学习的参数嵌入到主干网络中。将可学习的参数放入位置前馈网络中。摄像头的拍摄角度作为可学习的参数，默认角度为30°，对该摄像头拍摄的图像进行角度偏移操作。在进行训练时，进行自适应角度调节，把效果最好的偏移角度，作为该相机的偏移量，对数据进行偏移操作：

多层感知机：用于将多个偏移处理后图像块的特征图合成一个特征图。

级联模块：由于Transformer提取特征输出的形式为[B,p,C+1]的三维向量，而卷积神经网络所需要输入的是一个[B,C,h,w]四维向量。需要对Transformer Encoder的输出进行重塑,使之作为CNN的输入；

由于Transformer输出的特征图的size与CNN所需输入的size不同，将摄像头的拍摄角度删去，特征图变为[bs,p,C]；使用移位操作，变换特征图为[bs,C，p]；最后将p拆解为h*w的大小，转为成[bs,C,h,w]。

局部特征提取模块：使用特征金字塔的结构，即分辨率随着网络深度的增加而降低。通过再次提取特征的方法为局部细节的增加成为可能。

把重塑的特征作为输入到CNN部分，按层提取的方式再次提取特征，对Transformer的特征进行补充。总的来说，这部分一共分为两个分支，Identity Block和Conv Block。Identity Block可以串联多个，直接相加，因为其输入和输出的维度是一样的，保证前后层提取的信息不变性。Conv Block进行卷积操作后输出的维度与输入的维度不一致，在进行卷积运算以及下采样操作时会造成部分信息丢失。为解决这个问题，会进行跳跃某些层连接连接，把上一层的信息和经过卷积输出的信息进行聚合，避免信息丢失。

然后对主干网络进行训练；

VeRI数据集包括经过路径的摄像头所拍摄的图片，含有同款车型的图片较多。为了凸显本申请设计的主干网络在识别相似车辆上性能的优越性，主要使用VeRI数据集作为主要验证的车辆数据集。

使用两个数据集(VeRi-776、VeriWild)进行训练和测试。其中，VeRi-776车辆角度多，同一辆车的数据类型多。所以，主要使用VeRi-776进行验证。

VeRi-776包含776辆车的超过50,000张图像。其中的所有数据都是由20台摄像机在1平方公里的城市区域内24小时拍摄而来，并标注不同的属性。数据集包含776个不同的车辆，超过五万张图片。其中image_query文件包含1678张查询图片，image_test文件包含11579张测试图片，image_train包含37778张训练图片以及13个标注文件。

其中每一辆车的拍摄视角包含8-12个不同的角度，每种角度有6-15张图片。因为该数据集同种车辆的数据量大，且相似车型较多更能够体现本申请的优势。

由于车辆是刚体(近似为一个长方体)，并且在不同角度下不同种类的车辆具有相似的外观。首先使用现有的分割模型对车辆数据集进行分割，把车辆分割成前、后、上、侧(左右都称为侧面)四个面进行处理。以下所有数据集都是经过由分割模型分割后的数据。

训练设置：一共设置了120个epoch，初始学习率为3.5e-5，在第10个epoch后增加到3.5e-4，在第40、70epoch下降到3.5e-5、3.5e-6，收敛速度更快。首先在图像边缘添加10个像素，然后随机裁剪为256×256。还用随机擦除增加数据。Adam被用来优化模型。此外，在全局特性之后添加了一个批处理归一化层。

具体的训练步骤包括：

由于图像来自于多个不同的摄像头，因此，不断地使用VeRI数据集对主干网络进行训练，可以得到越来越多的摄像头的拍摄角度。

步骤103：计算待识别车辆的图像的特征图与各张待匹配的图像的特征图的相似度，获取大于阈值的相似度对应的待匹配的图像作为重识别的图像。

在查询过程中，会将三张图像一起对比。一张图像是所要查询的目标车辆，另外两张图像来自数据库中的图像。将这两张图像与目标车辆进行对比，相似度高的判别为正样本，相似度低的判别为负样本，然后每次返回正负样本。以此方法，把数据库中的所有图像都对比完成，然后按相似度的顺序返回图像编号。

本申请实施例的方法的另一种应用场景：

查询某一辆套牌车(或者车牌被遮住或者污损)的位置，将该图像输入预先训练好的主干网络，得到特征图；对某一区域的所有摄像头拍摄的视频进行逐帧分割，把摄像头中提取的图像输入预先训练好的主干网络，得到多个特征图；计算目标图像和拍摄图像的特征图的相似度；按照相似度从大到小的顺序对图像的摄像头的id进行排序；将排在最前的摄像头所在位置作为目标车辆的大致位置。

基于上述实施例，本申请实施例提供了一种基于路侧感知的车辆重识别装置，参阅图2所示，本申请实施例提供的基于路侧感知的车辆重识别装置200至少包括：

获取单元201，用于获取待识别车辆的图像及多张待匹配的图像；

特征图提取单元202，用于通过预先训练好的主干网络对待识别车辆的图像及多张待匹配的图像分别进行处理，得到待识别车辆的图像的特征图以及多张待匹配的图像的特征图；所述主干网络用于提取图像的特征图，该特征图包括加入采集图像的摄像头的拍摄角度信息的全局特征，以及反映图像细节的局部特征；

重识别单元203，用于计算待识别车辆的图像的特征图与各张待匹配的图像的特征图的相似度，选取大于阈值的相似度对应的待匹配的图像作为重识别的图像。

需要说明的是，本申请实施例提供的基于路侧感知的车辆重识别装置200解决技术问题的原理与本申请实施例提供的基于路侧感知的车辆重识别方法相似，因此，本申请实施例提供的基于路侧感知的车辆重识别装置200的实施可以参见本申请实施例提供的基于路侧感知的车辆重识别方法的实施，重复之处不再赘述。

基于上述实施例，本申请实施例还提供了一种电子设备，参阅图3所示，本申请实施例提供的电子设备300至少包括：处理器301、存储器302和存储在存储器302上并可在处理器301上运行的计算机程序，处理器301执行计算机程序时实现本申请实施例提供的基于路侧感知的车辆重识别方法。

本申请实施例提供的电子设备300还可以包括连接不同组件(包括处理器301和存储器302)的总线303。其中，总线303表示几类总线结构中的一种或多种，包括存储器总线、外围总线、局域总线等。

存储器302可以包括易失性存储器形式的可读介质，例如随机存储器(RandomAccess Memory，RAM)3021和/或高速缓存存储器3022，还可以进一步包括只读存储器(ReadOnly Memory，ROM)3023。

存储器302还可以包括具有一组(至少一个)程序模块3024的程序工具3025，程序模块3024包括但不限于：操作子系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

电子设备300也可以与一个或多个外部设备304(例如键盘、遥控器等)通信，还可以与一个或者多个使得用户能与电子设备300交互的设备通信(例如手机、电脑等)，和/或，与使得电子设备300与一个或多个其它电子设备300进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(Input/Output，I/O)接口305进行。并且，电子设备300还可以通过网络适配器306与一个或者多个网络(例如局域网(Local AreaNetwork，LAN)，广域网(Wide Area Network，WAN)和/或公共网络，例如因特网)通信。如图3所示，网络适配器306通过总线303与电子设备300的其它模块通信。应当理解，尽管图3中未示出，可以结合电子设备300使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of IndependentDisks，RAID)子系统、磁带驱动器以及数据备份存储子系统等。

需要说明的是，图3所示的电子设备300仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机指令，该计算机指令被处理器执行时实现本申请实施例提供的车辆重识别方法。具体地，该可执行程序可以内置或者安装在电子设备300中，这样，电子设备300就可以通过执行内置或者安装的可执行程序实现本申请实施例提供的基于路侧感知的车辆重识别方法。

本申请实施例提供的车辆重识别方法还可以实现为一种程序产品，该程序产品包括程序代码，当该程序产品可以在电子设备300上运行时，该程序代码用于使电子设备300执行本申请实施例提供的基于路侧感知的车辆重识别方法。

本申请实施例提供的程序产品可以采用一个或多个可读介质的任意组合，其中，可读介质可以是可读信号介质或者可读存储介质，而可读存储介质可以是但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合，具体地，可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、RAM、ROM、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、光纤、便携式紧凑盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请实施例提供的程序产品可以采用CD-ROM并包括程序代码，还可以在计算设备上运行。然而，本申请实施例提供的程序产品不限于此，在本申请实施例中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

最后所应说明的是，以上实施例仅用以说明本申请的技术方案而非限制。尽管参照实施例对本申请进行了详细说明，本领域的普通技术人员应当理解，对本申请的技术方案进行修改或者等同替换，都不脱离本申请技术方案的精神和范围，其均应涵盖在本申请的权利要求范围当中。

Claims

1.一种基于路侧感知的车辆重识别方法，其特征在于，包括：

获取待识别车辆的图像及多张待匹配的图像；

计算待识别车辆的图像的特征图与各张待匹配的图像的特征图的相似度，获取大于阈值的相似度对应的待匹配的图像作为重识别的图像；

所述主干网络包括：全局特征提取模块、级联模块和局部特征提取模块；

2.根据权利要求1所述的基于路侧感知的车辆重识别方法，其特征在于，所述全局特征提取模块包括：图像分割单元、Embedding层、多头自注意力层、位置前馈网络和多层感知机；

3.根据权利要求2所述的基于路侧感知的车辆重识别方法，其特征在于，所述方法还包括：对主干网络进行训练的步骤，包括：

4.根据权利要求1所述的基于路侧感知的车辆重识别方法，其特征在于，所述方法还包括：获取大于阈值的相似度对应的待匹配的图像的拍摄摄像头，将摄像头的位置作为待识别车辆的位置。

5.一种基于路侧感知的车辆重识别装置，其特征在于，包括：

重识别单元，用于计算待识别车辆的图像的特征图与各张待匹配的图像的特征图的相似度，选取大于阈值的相似度对应的待匹配的图像作为重识别的图像；

6.一种电子设备，其特征在于，包括：存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-4任一项所述的基于路侧感知的车辆重识别方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时实现如权利要求1-4任一项所述的基于路侧感知的车辆重识别方法。