CN114782865B

CN114782865B - 一种基于多视角和重识别的路口车辆定位方法及系统

Info

Publication number: CN114782865B
Application number: CN202210413332.7A
Authority: CN
Inventors: 李骏; 张新钰; 李志伟; 黄朝胜; 金宪伟; 周沫; 吴新刚; 李金伦
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-04-20
Filing date: 2022-04-20
Publication date: 2023-04-14
Anticipated expiration: 2042-04-20
Also published as: CN114782865A

Abstract

本发明公开了一种基于多视角和重识别的路口车辆定位方法及系统，基于路侧设备部署的多视角相机实现，所述方法包括：对多视角相机采集的路口原始图像进行预处理；对预处理后的视角图像依次进行特征提取、透视变换和聚合，生成路口车辆的分布鸟瞰图；将路口原始图像输入预先建立和训练好的车辆检测模型，得到路口车辆的搜索域；接收路口的车辆发送的环视图片和id信息，在搜索域中重识别该车辆，得到该车辆的某一视角图片；对重识别得到的某一视角图像进行特征提取和透视变换，并投影到鸟瞰图中，得到车辆在鸟瞰图中的位置信息；将位置信息及该车辆的id信息发送至该车辆，从而完成定位。

Description

一种基于多视角和重识别的路口车辆定位方法及系统

技术领域

本发明属于车辆定位领域，具体涉及一种利用多视角和重识别的路口车辆定位方法，特别涉及一种基于多视角和重识别的路口车辆定位方法及系统。

背景技术

现如今，人工智能技术在自动驾驶领域中得到广泛应用，定位精度的大幅度上升，极大地提高了自动驾驶过程的安全性。而在自动驾驶领域中，车辆的检测和定位是必不可少的步骤，它直接影响了自动驾驶的安全性。而大多数能提得到精确定位信息的方法，都是基于激光雷达采集到的点云信息得到的。但是，虽然激光雷达能够得到很高的定位精度，但却价格昂贵。

多视角的图片信息，作为一种可能替代的方式，在近年来被许多的学者进行研究。使用摄像头采集路口车辆的分布信息时，多个车辆之间相互遮掩的情况是非常普遍的，极大的影响了对车辆的定位精度。当采用多个摄像头在不同角度采集信息时，会极大的改善这种情况。

但总的来说，基于视觉的定位精度远不如使用激光雷达获得的定位精度。2018年，Yan Wang等人中提出，基于视觉的深度检测的效果比基于激光雷达的效果差，很大程度上是因为视觉的数据表达形式不合理，在文中将带有深度的图片信息反投影为3D点云，进而采用基于点云的目标检测和定位的算法中，取得了远优于普通的视觉检测效果。

重识别作为计算机视觉研究的另一个热门领域，是关于图像的检索问题，它能够用于判断图像中是否存在特定目标物的技术，进而将不同摄像机下同一目标物的轨迹关联起来。对于车辆重识别，长久依赖于直接采用CNN提取特征，但由于各种干扰(光照、遮挡、视角)的影响，提取到的特征图与原车辆的特征图差异巨大。

总的来说，常用的目标检测和重识别技术有以下缺陷：

1.多束激光雷达造价昂贵；

2.车载的激光雷达只能以车辆的视角，获得车辆自身一定范围内的环境信息；

3.重识别使用CNN有利于提取局部特征，但干扰等的影响，导致局部特征并不可靠，应该更关注于全局特征；

4.车载自动驾驶系统需要在有限的存储空间内处理庞大的数据信息。

发明内容

本发明的目的在于克服现有技术缺陷，提出了一种基于多视角和重识别的路口车辆定位方法及系统。

为了实现上述目的，本发明提出了一种基于多视角和重识别的路口车辆定位方法，基于路侧设备部署的多视角相机实现，所述方法包括：

步骤1)对多视角相机采集的路口原始图像进行预处理；

步骤2)对预处理后的视角图像依次进行特征提取、透视变换和聚合，生成路口车辆的分布鸟瞰图；

步骤3)将路口原始图像输入预先建立和训练好的车辆检测模型，得到路口车辆的搜索域；

步骤4)接收路口的车辆发送的环视图片和id信息，在搜索域中重识别该车辆，得到该车辆的某一视角图像；

步骤5)对重识别得到的某一视角图像进行特征提取和透视变换，并投影到鸟瞰图中，得到车辆在鸟瞰图中的位置信息；

步骤6)将位置信息及该车辆的id信息发送至该车辆，从而完成定位。

作为上述方法的一种改进，所述步骤1)的预处理包括白化和去噪处理。

作为上述方法的一种改进，所述步骤2)具体包括：

步骤2-1)将预处理后的视角图像依次输入预先建立和训练好的特征提取模型，得到每个视角图像对应的特征；

步骤2-2)通过联合旋转-平移矩阵对每个视角图像对应的特征进行转换，使用采样网格，根据透视变换将每个视角图像依次投影到地平面，视野外的区域用固定值填充得到特征图；

步骤2-3)使用2通道的坐标图记录平面位置的X-Y坐标，将经过透视变换的多个视角特征图和坐标图按通道方向进行拼接，得到(N×C+2)个通道的平面特征图，即为该路口车辆分布的鸟瞰图，其中，N为视角图片个数，C为每个视角得到的特征图通道数。

作为上述方法的一种改进，所述特征提取模型采用ResNet50作为主干网络。

作为上述方法的一种改进，所述步骤3)的车辆检测模型采用以VGG-16网络为主干网络的SSD网络，并将VGG-16网络第五层的最大池化部分的池化核设置为3×3、步距设置为1；

车辆检测模型的输入为设定尺寸的路口原始图像，输出为路口车辆的搜索域。

作为上述方法的一种改进，所述步骤4)具体包括：

步骤4-1)接收路口待识别车辆发送的id信息和包括前、后、左和右四张环视图片，并统一剪裁为一定尺寸；

步骤4-2)将剪裁后的图片输入Transformer网络，获得待识别车辆的特征，结合搜索域中的车辆特征，计算得到待识别车辆与搜索域中车辆的余弦相似度；

步骤4-3)根据余弦相似度确定待识别车辆某一视角图像。

一种基于多视角和重识别的路口车辆定位系统，所述系统设置在路测设备，包括预处理模块、鸟瞰图生成模块、搜索域生成模块、重识别模块和定位模块、定位发送模块和车辆检测模型，其中，

所述预处理模块，用于对多视角相机采集的路口原始图像进行预处理；

所述鸟瞰图生成模块，用于对预处理后的视角图像依次进行特征提取、透视变换和聚合，生成路口车辆的分布鸟瞰图；

所述搜索域生成模块，用于将路口原始图像输入预先建立和训练好的车辆检测模型，得到路口车辆的搜索域；

所述重识别模块，用于接收路口的车辆发送的环视图片和id信息，在搜索域中重识别该车辆，得到该车辆的某一视角图像；

所述定位模块，用于对重识别得到的某一视角图像进行特征提取和透视变换，并投影到鸟瞰图中，得到车辆在鸟瞰图中的位置信息；

所述定位发送模块，用于将位置信息及该车辆的id信息发送至该车辆，从而完成定位。

一种终端设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的方法。

一种非易失性存储介质，用于存储计算机程序，所述计算机程序当被处理器执行时执行上述的方法。

与现有技术相比，本发明的优势在于：

1、本发明的方法不需要使用激光雷达设备进行定位，避免了昂贵的费用；

2、本发明的重识别过程中桥接Transformer和CNN的结构，有效提取全局特征；

3、采用本发明的方法，车载系统的信息处理量变少，更多的内容集中在路侧设备上，车辆系统体量变小，有助于自动驾驶设备的推广；

4、采用本发明的方法，通过接收数据，车辆可以获得远超视线范围(如拐角)的道路信息，为后续的决策规划做准备。

附图说明

图1是本发明的基于多视角和重识别的路口车辆定位方法流程图；

图2是本发明整体模型结构图。

具体实施方式

本发明的目的是为了克服上述技术和应用上的缺陷，提出了一种利用路侧设备和车辆自身信息交互的形式，实现在不使用激光雷达的情况下的车辆的精确定位，有效的降低了量产自动驾驶车辆的费用。此外，大量的数据是在路侧设备中实时处理，并与车辆进行信息交互，不必占用车辆自身的数据存储空间。与此同时，提供了更丰富的道路信息，为后续自动驾驶车辆的决策规划等做准备。

为了实现上述目的，本发明提出了一个用于确定车辆位置信息的主干网络，包括步骤：

1.路侧设备中的多视角相机，捕获关于路口的多视角图片，并进行预处理；

2.对多视角图片进行特征提取、透视变换和聚合，生成路口车辆的分布鸟瞰图；

3.路侧设备对多视角图像进行车辆检测，得到路口车辆的搜索域；

4.车端将自身的多视角外观信息和根据车牌重构的id发送到路侧设备，并结合路口车辆搜索域重识别车辆；

5.路侧设备对重识别得到的某一视角图像进行特征提取和透视变换，并投影到鸟瞰图中，得到车辆在鸟瞰图中的位置信息；

6.路侧设备将该位置信息和车辆自身id发送到车辆完成定位。

为完成车辆定位任务，本发明主要包括三个部分，分别为获取路口车辆分布鸟瞰图、重识别车辆、投影定位车辆，具体流程如下：

1.路口车辆鸟瞰图：对路侧设备得到的多视角图片信息进行降噪等数据预处理操作，而后通过特征提取、透视变换和聚合，得到路口车辆的分布鸟瞰图；

2.重识别车辆：路侧设备对路口多视角图片进行车辆检测，提取出的车辆框作为重识别的搜索域。车端将自身的环视信息和车辆id发送给路侧设备并重识别该车辆，获得该车辆某一视角信息；

投影定位车辆：路侧设备将重识别得到的该车辆某一视角信息，经过特征提取、透视变换后投影到路口车辆分布鸟瞰图中，得到该车辆的位置信息。

下面结合附图和实施例对本发明的技术方案进行详细的说明。

实施例1

如图1所示，本发明的实施例1提出了一种基于多视角和重识别的路口车辆定位方法，图2是整体模型结构图，具体实施步骤如下：

步骤1)路侧设备对多视角相机原始数据进行预处理，包括白化、去噪等操作；

步骤2)路侧设备对多视角图像进行特征提取，具体包括：使用ResNet50作为主干网络，并引入“bottleneck design”的设计，为降低计算时间，将两个3×3的卷积，替换为1×1+3×3+1×1卷积层；为获得轻量化的特征提取模型，通过第一个1×1的卷积层将通道数从256降低到64，然后在最后再通过1×1的卷积恢复。

步骤3)特征投影和特征融合：具体包括：

步骤301)多视角特征投影：具体地，用透视变换原理将每一视角图像提取到的特征投影到一个鸟瞰图中，变换过程为：

其中s：实数比例因子；P_θ：3×4角度变换矩阵；A：3×3的固有参数矩阵；[R|t]：3×4联合旋转-平移矩阵，即外参文件中的外部参数矩阵，其中R表示旋转，t表示平移。使用自定义的采样网格形状[H，W]根据透视变换将多视角图像依次投影到地平面z＝0，视野外的区域用零填充。

步骤302)特征融合获得该路口的鸟瞰特征图：

将平面位置量化为H×W的网格，H和W分别为最终鸟瞰图的高度和宽度。使用2通道的坐标图记录平面位置的X-Y坐标。将经过透视变换的多视角特征图和坐标图一同按通道方向拼接起来，得到的(N×C+2)个通道的平面特征图即为该路口车辆分布的鸟瞰图，其中，N为视角图片个数，C为每个视角得到的特征图通道数。

步骤4)路侧设备对多视角的图像进行车辆检测(基于VGG-16的SSD算法)，形成路口车辆的搜索域。具体包括：

步骤401)图像经过网络之前，会将图片统一为300×300，然后通过VGG-16的第五个卷积的第三层，并将其中第五层的最大池化部分从池化核2×2、步距为2更改为3×3、步距为1；

步骤402)VGG-16第四个卷积的第三层作为一个预测特征层，通过VGG-16之后，将依次通过5个(1×1、3×3)的卷积层，并将每一组卷积层的输出作为一个预测特征层，一共得到6个预测特征层。并在这6个预测特征层上进行目标检测。

步骤5)车端将自身的环视图片信息和id发送到路侧设备，并在搜索域中重识别该车辆，得到该车辆的某一视角图片，具体包括：

步骤501)车端的自身环视图片包括前、后、左、右四张图片。将路口图片检测得到的车辆框和车端自身环视图片的尺寸大小统一为(256，256)；

步骤502)通过Transformer网络，获得待检索的车辆集合的特征与搜索域中的车辆特征：图片的尺寸都为(256，256)，加入余弦位置信息(Positional Encoding)和多头自注意力机制(Multi-Head Attention)，位置信息来源于每张车辆图片所属路口图片的相机编号，attention的表述形式为：attention_output＝Attention(Q,K,V)(Q:Query，K:key，V:Value)，后续通过1×1的卷积恢复带有通道形式的特征图并进行卷积操作。训练过程使用Adam方法进行损失的更新。

步骤503)计算待检测车辆的特征与车辆搜索域获得的特征的余弦相似度，得到重识别待检测车辆的某一视角图片；

步骤6)路侧设备将重识别得到的某一视角图片，通过与获得路口车辆分布鸟瞰图相同的网络进行特征提取和透视变换后投影到路口车辆分布鸟瞰图中：

步骤7)得到该车辆在鸟瞰图中的位置信息，并将该位置信息和车辆id发送回该车辆，完成定位。

实施例2

本发明的实施例2提出了一种基于多视角和重识别的路口车辆定位系统，系统设置在路测设备，包括预处理模块、鸟瞰图生成模块、搜索域生成模块、重识别模块和定位模块、定位发送模块和车辆检测模型，其中，

所述重识别模块，用于接收路口的车辆发送的环视图片和id信息，在搜索域中重识别该车辆，得到该车辆的某一视角图片；

实施例3

本发明的实施例3还可提供的一种计算机设备，包括：至少一个处理器、存储器、至少一个网络接口和用户接口。该设备中的各个组件通过总线系统耦合在一起。可理解，总线系统用于实现这些组件之间的连接通信。总线系统除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。

其中，用户接口可以包括显示器、键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

可以理解，本申请公开实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本文描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统和应用程序。

其中，操作系统，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本公开实施例方法的程序可以包含在应用程序中。

在本上述的实施例中，还可通过调用存储器存储的程序或指令，具体的，可以是应用程序中存储的程序或指令，处理器用于：

执行实施例1的方法的步骤。

实施例1的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行实施例1中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合实施例1所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本发明描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(Application Specific Integrated Circuits，ASIC)、数字信号处理器(Digital SignalProcessing，DSP)、数字信号处理设备(DSP Device，DSPD)、可编程逻辑设备(ProgrammableLogic Device，PLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本发明的功能模块(例如过程、函数等)来实现本发明技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

实施例4

本发明实施例4提供一种非易失性存储介质，用于存储计算机程序。当该计算机程序被处理器执行时可以实现实施例1中方法的各个步骤。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于多视角和重识别的路口车辆定位方法，基于路侧设备部署的多视角相机实现，所述方法包括：

步骤1)对多视角相机采集的路口原始图像进行预处理；

步骤6)将位置信息及该车辆的id信息发送至该车辆，从而完成定位；

所述步骤3)的车辆检测模型采用以VGG-16网络为主干网络的SSD网络，并将VGG-16网络第五层的最大池化部分的池化核设置为3×3、步距设置为1；将VGG-16第四个卷积的第三层作为一个预测特征层，通过VGG-16之后，再依次通过5个卷积层，并将每一个卷积层的输出作为一个预测特征层，一共得到6个预测特征层，并在这6个预测特征层上进行目标检测；

车辆检测模型的输入为设定尺寸的路口原始图像，输出为路口车辆的搜索域；

所述步骤4)具体包括：

步骤4-3)根据余弦相似度确定待识别车辆某一视角图像。

2.根据权利要求1所述的基于多视角和重识别的路口车辆定位方法，其特征在于，所述步骤1)的预处理包括白化和去噪处理。

3.根据权利要求1所述的基于多视角和重识别的路口车辆定位方法，其特征在于，所述步骤2)具体包括：

4.根据权利要求3所述的基于多视角和重识别的路口车辆定位方法，其特征在于，所述特征提取模型采用ResNet50作为主干网络。

5.一种基于多视角和重识别的路口车辆定位系统，其特征在于，所述系统设置在路侧设备，包括预处理模块、鸟瞰图生成模块、搜索域生成模块、重识别模块和定位模块、定位发送模块和车辆检测模型，其中，

所述定位发送模块，用于将位置信息及该车辆的id信息发送至该车辆，从而完成定位；

所述搜索域生成模块中的车辆检测模型采用以VGG-16网络为主干网络的SSD网络，并将VGG-16网络第五层的最大池化部分的池化核设置为3×3、步距设置为1；将VGG-16第四个卷积的第三层作为一个预测特征层，通过VGG-16之后，再依次通过5个卷积层，并将每一个卷积层的输出作为一个预测特征层，一共得到6个预测特征层，并在这6个预测特征层上进行目标检测；

所述重识别模块的处理过程具体包括：

步骤4-3)根据余弦相似度确定待识别车辆某一视角图像。

6.一种终端设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的方法。

7.一种非易失性存储介质，用于存储计算机程序，其特征在于，所述计算机程序当被处理器执行时执行权利要求1至4中任一项所述的方法。