CN112950786A

CN112950786A - 一种基于神经网络的车辆三维重建方法

Info

Publication number: CN112950786A
Application number: CN202110225554.1A
Authority: CN
Inventors: 李双全; 王洋洋
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2021-03-01
Filing date: 2021-03-01
Publication date: 2021-06-11

Abstract

本发明公开了一种基于神经网络的车辆三维重建方法，涉及三维重建技术领域；它的重建方法如下：步骤一：车辆行驶道路三维环境的感知目标为其中的车辆，通过采集道路环境的图像，经过图像分割，将其中的车辆分割出来；作为三维模型检索和神经网络的输入对象；步骤二：从三维模型库中提取出车辆的特征图，建立特征图字典；然后输入需要重建的车辆的图片，通过相似度量函数，在特征图字典中查找到最相似的特征向量，实现三维模型的检索；本发明利用单目摄像机完成对车辆行驶过程中道路环境中前方车辆的的分割、重建等研究工作；作为对激光雷达感知环境方案的补充，能更准确的定位前方车辆目标。

Description

一种基于神经网络的车辆三维重建方法

技术领域

本发明属于技术领域，具体涉及一种基于神经网络的车辆三维重建方法。

背景技术

随着信息高速传输技术和及其智能化技术的快速发展，无人驾驶驾驶受到越来越多的关注。为了更好的表示车辆的智能化程度，美国汽车工程师将自动驾驶分为了5个级别，级别越高，对自动驾驶系统的感知和决策要求越高。对L3级别以上的自动驾驶系统而言，驾驶操作将全部交由自动驾驶系统操作，系统必须结合实时路况信息和线下三维地图进行实时定位和决策。因此，当前行车环境的三维结构对于无人驾驶系统的感知和决策显得尤为重要。特别是无人车进行障碍物检测和路径规划时，重建当前驾驶环境下的三维结构并于线下生成的高精度地图进行结合，能更好的帮助无人驾驶系统进行决策。因此，为了提高无人驾驶决策的正确性，需要对当前行车环境进行实时的、准确的三维重建。

在自动驾驶技术中，其感知系统主要通过Lidar激光雷达、Camera相机、Radar毫米波雷达3个类别的传感器来进行道路环境感知。

摄像头方面，按视野覆盖位置可分为前视、环视(侧视+后视)及内视摄像头，其中前视摄像头最为关键，可以实现车道偏离警示系统(LDW)、前向碰撞预警系统(FCW)、行人识别警示(PCW)等功能。前视摄像头又有单目摄像头、双目摄像头，乃至多目摄像头等不同的解决方案。虽然双目或多目摄像头具有更高的测距精度和更广的视角，但由于其成本较高以及对精度和计算芯片的高要求，使得其仍未能大规模量产，目前以Mobileye的单目摄像头解决方案是市场的主流。

激光雷达是帮助自动驾驶系统进行正确感知的重要传感器。它通过发射和接收激光束,分析激光遇到目标对象后的折返时间,计算出目标对象与车的相对距离。并利用此过程中收集的目标对象表面大量密集的点的三维坐标、反射率和纹理等信息,快速复建出被测目标的三维模型及线、面、体等各种图件数据,建立三维点云图。然后在激光雷达采集的点云图像中,通过3D矩形或者语义分割将道路目标物体(多类型指定对象:包括但不限于车辆、行人等)精准标注出来。但是激光点云数据有一些无法克服的问题，其中最重要的就是稀疏性，提高雷达的线数是一个解决问题的途径，但是现有的高线数雷达的成本太高，现在还很难真正落地，而且高线数也无法从根本上解决远距离的稀疏问题。而且当遇到一些具有吸波性能的材质时并不能得到很好的反馈，从而导致降低环境感知的精度和完整性。

所以，为了避开激光雷达的性能缺陷，许多科研团队开始考虑利用应用机器视觉来实现道路环境三维目标的感知。还有一些研究者提出激光数据和图片数据相融合的方法，利用图像的2D目标检测模型提取目标2D区域，并将其映射到点云数据中,得到该目标的点云候选区域，然后预测候选区域的3D目标掩模，最后利用掩模对3D目标进行检测，但是最终不是很理想。

发明内容

为解决背景技术中的问题；本发明的目的在于提供一种基于神经网络的车辆三维重建方法。

本发明的一种基于神经网络的车辆三维重建方法，它的重建方法如下：

步骤一：车辆行驶道路三维环境的感知目标为其中的车辆，通过采集道路环境的图像，经过图像分割，将其中的车辆分割出来；作为三维模型检索和神经网络的输入对象；

步骤二：由于单张图片提供的信息有限，很难重建出高质量的三维模型，所以需要一定先验知识的指导；从三维模型库中提取出车辆的特征图，建立特征图字典；然后输入需要重建的车辆的图片，通过相似度量函数，在特征图字典中查找到最相似的特征向量，实现三维模型的检索；

步骤三：最后设计神经网络，进行车辆的三维模型重建；一是基于单视图的三维重建，能够通过之前得到的先验知识和单张图片的输入重建出物体的三维模型；二是基于多视图的重建，能够通过输入多张不同视角的环境目标图片，重建出精度更加准确的三维模型。

与现有技术相比，本发明的有益效果为：

一、利用单目摄像机完成对车辆行驶过程中道路环境中前方车辆的的分割、重建等研究工作。

二、作为对激光雷达感知环境方案的补充，能更准确的定位前方车辆目标。

附图说明

为了易于说明，本发明由下述的具体实施及附图作以详细描述。

图1为本发明中三维模型检索算法示意图；

图2为本发明中Inception结构示意图；

图3为本发明中神经网络模型图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图中示出的具体实施例来描述本发明。但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。本说明书附图所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

本具体实施方式采用以下技术方案：它的重建方法如下：

利用神经网络进行车辆的三维点云模型的重建。设计一种神经网络能够利用单目摄像机的输入完成重建，使用ShapeNet等数据集进行训练，而且这些数据集都是单纯背景的图像。目标的重建也分为单视图和多视图，在进行单视图的重建时需要使用先验知识作为指导，设计一种三维模型检索算法，能够找到一个与车辆相似的特征图作为神经网络的输入。

本具体实施方式的具有重建方式如下：

一、道路环境中目标车辆的分割：

基于神经网络的分割方法的基本思想是通过训练多层感知机来得到线性决策函数，然后用决策函数对像素进行分类来达到分割的目的。可以较好的解决图像中的噪声和不均匀问题。实例分割算法能够给同类物体中不同个体进行编号。

1.1实例分割算法YOLACT++：

YOLACT++算法能够在MS COCO数据集上达到33.5FPS/34.1mAP。

将实例分割任务分为两个平行任务，通过对这两个任务的结果进行融合来得到最终的实例分割结果。

第一分支：使用全卷积网络(FCN)作为分支来为整个映像预测一组k个原型Mask，称为protonet。第二分支：在目标检测的基础上添加额外的head，对每一个anchor都预测一个掩膜系数(mask coefficients)。原本的的输出是锚框的4个坐标值和物体的类别数目c。

将上述两个步骤得到的prototype mask和掩膜系数，通过做矩阵乘法配合sigmoid函数来合成mask，得到最终的预测结果：M＝σ(PC^T)

其中P是原型mask集合，c是系数的集合。

最后，在进行评估时，使用预测得到的边界框对得到的掩膜进行裁剪(清楚掉边界框外的掩膜)。

1.2实例分割算法SOLOv2：

SOLO的核心思想是将分割问题转换为位置分类问题。具体做法是：将图片划分为S*S的网格如果物体的中心(质心)落在了某个网格中，那么该网格就有了两个任务：(1)、Category Branch负责预测该物体语义类别；(2)、Mask Branch负责预测该物体的instancemask。这就对应了网络的两个分支。同时，SOLO在骨干网络后面使用了FPN，用来应对尺寸。FPN的每一层后都接上述两个并行的分支，进行类别和位置的预测，每个分支的网格数目也相应不同，小的实例对应更多的的网格。而SOLO系列算法经过不断的优化，在精度和预测速度的性价比方面均超越了YOLACT++。SOLOv2在COCO minival数据集上的mask AP达到38.8％，在单张Tesla V100上单卡预测速度达到38.6FPS。

因此选择SOLOv2算法进行车辆的分割，其在非常准确的同时保持实时运行。

如图1、图2所示，二、三维模型检索算法：

创建一个三维检索算法，进行重建物体的相似模型的检索，作为先验知识输入到三维重建网络中。

2.1、算法框架：

先建立起重建物体的特征图字典，利用数据集的物体的不同角度的图片，进行特征提取，完成特征图字典的搭建。重建车辆的图片先进行特征提取，再与特征图字典进行匹配，找到最相似的特征向量，完成检索。

2.2、特征图字典的搭建：

目前在图像处理领域，使用卷积神经网络提取图像特征已经称为普遍的做法，和传统的及其学习算法相比，卷积神经网络不需要手工提取特征和SIFT之类的特征提取算法，其能在训练过程中自动提取和抽象特征。

GoogleNet最重要的改进是在网络结构中引入了Inception结构，进一步提升了模型整体的性能。

Inception结构的基本组成结构有四个成分，1*1卷积，3*3卷积，5*5卷积，3*3的最大池化，最后对四个成分运算结果进行通道上的组合，这就是Inception的核心思想：利用不同大卷积核实现不同尺度的感知，最后进行融合，可以得到图像更好的表征。

对数据库中的每张图片做前向运算，得到特征向量，从而构建出每个三维模型的特征图字典，为下一步特征相似度匹配提供了检索基础。

2.3、特征相似性匹配：

利用上一步得到的特征图字典，对于输入图片抽取同样的特征向量，然后对比该向量与字典中向量的相似度，找出最相近的一些特征向量，其对应的三维模型即为检索结果。

相似度的计算一般是通过两个特征向量之间的距离来衡量的，距离小代表相似度大，距离大代表相似度小。常用的相似性度量算法有欧氏距离、曼哈顿距离、切比雪夫距离、夹角余弦距离、雅可比相似度系数、皮尔逊相关系数等。

如图3所示，三、进行车辆三维建模的神经网络的设计：

能够提出一种能够基于相似点云指导信息来进行单视图和多视图的车辆三维重建网络，可以利用相似点云结构很强的空间结构信息优势，帮助网络恢复在二维图片中看不到的三维信息，通过二维信息和三维信息相结合的方式来生成物体的三维点云。其中主要步骤为：

1)、利用前面的三维模型检索算法，得到与输入车辆图片最相似的三维点云模型。

2)、编码器，将输入车辆图像和相似点云共同编码为特征向量。

3)、GRU/LSTM，接收到输入图像序列后，保留图像的特征向量，并在得到新图像特征时进行更新。

4)、解码器，用3D反卷积输出一个点云空间。

3.1、1Encoder：

和大部分CNN重构不同，这个网络有两个不同的模式作为输入，因此需要两个CNN对输入进行编码。对于二维输入图像，我们使用2D-CNN。对于得到的三维模板，需要进行表面采样生成点云，然后输入到3D-CNN编码器中。然后简单的结合两种模式的信息。

对于编码器可以采用简单的前馈CNN，也可以加入残差块^[32]，从而加快深度网络的优化过程。

3.2、GRU/LSTM：

GRU和LSTM作为循环神经网络能够保留已经确定的内容，并在输入新图像后能够进行更新，通常用于输入为序列并具有相关性的情况。如果对一个物体拍摄多角度的图片，并对该物体进行三维重建时，每个角度的图片都是具有高度相关性和连续性的。因此可以将同一个物体的不同视角的图片看作连续的序列输入到神经网络中，使神经网络拥有对之前图片的记忆。

3.3、Decoder：

解码器采用3D反卷积网络，以扩展输出的空间大小。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于神经网络的车辆三维重建方法，其特征在于：它的重建方法如下：