CN114067142A

CN114067142A - 一种实现场景结构预测、目标检测和车道级定位的方法

Info

Publication number: CN114067142A
Application number: CN202111403259.7A
Authority: CN
Inventors: 冯明驰; 梁晓雄; 萧红; 岑明; 李成南; 王鑫; 宋贵林; 邓程木
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-11-24
Filing date: 2021-11-24
Publication date: 2022-02-18

Abstract

本发明请求保护一种实现场景结构预测、目标检测和车道级定位的方法，涉及自动驾驶、深度学习、计算机视觉等领域。首先本发明构建了一种车道级定位、场景结构预测和目标检测的神经网络，通过场景结构预测值和目标检测预测值与其真实值间的损失构建损失函数数学模型；通过图像和地图制作数据集并对网络进行训练；将网络部署于汽车上输出检测结果；最后将输出的场景结构通过匹配方法与地图进行检索匹配，矫正汽车的定位误差，实现车道级定位。该网络可以通过图像和地图制作数据集并对网络进行闭环训练且仅需要图像信息和地图信息就能完成场景结构预测、目标检测功能和车道级定位。场景结构预测结果里包含的道路结构可用于自动驾驶中。

Description

一种实现场景结构预测、目标检测和车道级定位的方法

技术领域

本发明属于自动驾驶、深度学习、计算机视觉等领域，为一种车道级定位、场景结构预测和目标检测的神经网络。

背景技术

随着深度学习的发展，自动驾驶技术越来越成熟，汽车对环境的感知能力已经逐步提升。如今大多数自动驾驶平台对环境感知解决方案仍然是利用一些强大的传感器(如激光雷达、精密GPS等)，但这些传感器大多价格昂贵且体积庞大，如仅仅使用视觉传感器完成环境感知任务，将大大降低成本。目前大多数用于定位的GPS由于精度不高，容易出现偏移或者定位不准的情况，而且GPS目前仍无法达到隧道内或偏远地区信号不良或无信号场景的精准定位。本发明提出多任务神经网络结合地图和图像方法，通过图像中目标与场景的布局预测配合地图，矫正GPS定位的偏移，达到车道级精准定位的目的。并且不受隧道或信号不良场景的影响。

综上所述，现有技术存在的问题是：目前大多数GPS定位精度不高且无法完成隧道或信号不良场景的精确定位。激光雷达、精密GPS等传感器对于环境感知来说成本较高。

经过检索，申请公布号为CN111047630A，一种神经网络和基于神经网络的目标检测及深度预测方法，所述神经网络包括：深度预测子网络、及目标检测子网络；所述深度预测子网络根据原始图像进行预处理以提取特征图，并将浅层特征图和深层特征图进行拼接，再通过深度预测输出多个不同尺度的视差图，据以得到深度图；所述目标检测子网络根据部分所述特征图通过感受野模块以进行多维度信息的目标检测；通过所述深度预测子网络与所述目标检测子网络结合实现单一网络，以同时输出所述深度图及目标检测结果。本申请通过单目视觉提供了精准且高效的FCW方案，能够为市面上绝大多数的汽车厂商所搭配，从而推进自动驾驶产业，发展前景巨大。从网络结构以及功能来看，该专利CN111047630A输出结果为深度图与目标检测结果。功能较少且对目标的距离或者前方布局并没有处理，本发明不仅有目标检测结果，还有场景结构和目标布局的预测，还可以完成车道级定位的功能。可以说，本发明将CN111047630A的输出结果进行了延申并且功能更多。从网络的适应性来看，该专利CN111047630A适应陌生场景的能力较差，因为如果是环境有稍大变化，该目标检测网络需要标注大量新的数据集进行训练。本发明数据集采用当前位置的地图获取数据集，可以完成闭环训练，减少大量的人力标注时间。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种实现场景结构预测、目标检测和车道级定位的方法。本发明的技术方案如下：

一种实现场景结构预测、目标检测和车道级定位的方法，其包括以下步骤：

构建车道级定位、场景结构预测和目标检测的多任务神经网络，该多任务神经网络由编码器、解码器、全局特征提取模块、局部特征提取模块、匹配模块、目标检测预测模块、场景结构预测模块组成。

通过场景结构预测值和目标检测预测值分别与真实值间的损失构建损失多任务神经网络函数数学模型网络；通过汽车拍摄图像和车辆车道地图制作准备数据集，使用数据集对多任务神经网络函数数学模型网络进行训练；

将多任务神经网络部署于汽车上输出目标检测结果、场景结构预测结果；将输出的场景结构通过匹配方法与地图进行检索匹配，矫正汽车的地图定位误差，实现车道级定位。

进一步的，所述构建车道级定位、场景结构预测和目标检测的多任务神经网络，具体包括以下步骤：

构建基于条件化变量共享上下文参数C的多任务神经网络，网络中多个任务分支共享一个编码器编码结果，该变量C仅使用图像信息I推导；图像信息

表示网络输入图像的特征。上下文参数C为编码器通过编码后的特征层，其中应包括车辆与道路的空间位置信息关系以及特征信息。

构建解码器，分为场景解码器和目标解码器，对共享上下文参数进行解码以生成场景的布局；该解码器由一系列的反卷积和上采样层组成，这些层将共享上下文参数映射到场景生成场景结构和目标布局；

构建参数化的鉴别器，通过将预测结果数据分布正则化，使其与合理场景几何图形的真实分布相似，从而正则化预测场景结构和目标布局；

构建全局特征提取和局部特征提取解码模块，用于对最后一层场景结构层进行局部特征解码，对地图真值进行全局特征解码。

进一步的，所述构建参数化的鉴别器，将预测结果数据分布正则化，具体包括：构建参数化的目标检测网络模块、场景结构预测网络模块，将预测结果数据分布正则化，使解码后的图片符合当前真实分布。

进一步的，所述构建全局特征提取和局部特征提取解码模块，具体包括：全局特征提取通过全卷积神经网络的卷积层以及池化层进行全局特征的提取，局部特征提取通过全卷积神经网络的卷积层以及注意力机制进行局部特征的提取。注意力机制为一个增强对图像局部特征注意力的模块，其核心思想是在输入序列上引入注意权重，以优先考虑存在相关信息的位置集，可更加有效提取图像中局部特征。

进一步的，所述通过场景结构预测值和目标检测预测值分别与真实值间的损失构建损失多任务神经网络函数数学模型网络，具体包括以下步骤：

使用地图提取各种场景图片为预置数据分布图用于匹配，然后依据经纬度提取汽车拍摄图像位置的地图；

根据场景结构预测和目标检测多任务神经网络的结构，将训练集标签分为两类：用于匹配的预置数据分布标签和用于训练多任务神经网络的地面场景真实值和目标检测场景结构图标签；

确定场景结构预测与目标检测任务中上下文编码器、场景解码器和目标场景解码器的参数φ、ν、ψ，通过使用小批量随机梯度下降法最小化目标函数；

使用L2误差项对场景结构和目标布局与真实值差值参数进行惩罚，使其与相应的地面真值布局接近，训练多任务神经网络；

利用提出的损失函数数学模型来进行参数优化，使网络参数达到最优；

将图像尺寸使用最近邻插值法放大或缩小为网络输入尺寸；将放大或缩小的图片进行归一化处理的视频帧送入神经网络中，经过网络的前向推理，得到场景结构和目标检测的结果输出。

进一步的，所使用L2误差项对场景结构和目标布局与真实值差值参数进行惩罚，使其与相应的地面真值布局接近，训练多任务神经网络，具体包括：公式如1所示：

其中Φ为上下文编码器的权重参数；ψ为车辆布局解码器参数；

为场景结构解码器参数；θ为共享上下文中的参数；其中θ_S表示场景在共享上下文中的参数；其中θ_D表示车辆在共享上下文中的参数；特征提取模块中，将会训练一个目标分类器，使用交叉熵损失作为损失函数，用于将各个目标的局部特征描述符相关系数表示出来；目标训练函数特征的表达式由一个加权的公式表示，公式如(5)所示，其中，y为网络的输出特征向量；W为注意力机制中的加权权重；α(*)为特征的一个分数函数；θ表示为函数α(*)的参数；用fn，n＝1，...，N表示要与注意力模型共同学习的n维特征；其中L_sup是一个L2监督误差项，用于惩罚预测场景和目标布局与其对应的地面真值的损失值，L_adv，L_discr是网络中解码器层和鉴别器的损失值；L_sup，L_adv，L_discr，L_spc计算公式如(2)，(3)，(4)所示：

y＝W(∑_nα(fn；θ)·fn) (5)

式中N表示网络训练时图片的数量；式中S_φ,ν表示网络预测的场景结构；式中

表示图像中的信息；式中

表示场景的布局真实值，式中i表示样本的个数；式中D_φ,ψ表示网络预测的车辆布局；式中

表示车辆的布局真实值，式中S表示对于场景结构预测的概率(0≤S≤1)；式中D表示对于车辆预测的概率(0≤D≤1)；其中

(*)为分布函数的期望值；其中

代表的是网络生成样本的分布；其中

代表的是真实样本的分布；对抗性损失L_adv和L_discr使得场景/目标场景解码器的布局估计分布P_fake与真实场景解码器P_true接近。

进一步的，所述将将多任务神经网络部署于汽车上输出目标检测结果、场景结构预测结果，具体包括以下子步骤：

在后处理程序中，将目标预测结果和场景结构预测结果的输出结果进行处理，使用图像处理软件将目标预测结果和场景结构预测结果的输出结果绘制在同一张图片上，用来输出对场景结构(包括被目标遮挡部分)的预测图像以及目标的布局图像，场景结构输出的道路结构可用于自动驾驶功能；

在部署时，采用深度学习框架和图像处理软件作为主要框架进行嵌入式开发板部署，并不断对摄像头输入图像进行预测得到实时结果。

进一步的，所述对场景结构层进行特征提取与全局地图的特征提取，具体包括以下子步骤：

将场景结构和地图送入特征提取网络部分。将地图进行全局特征与描述子的提取，将网络中的场景结构特征层进行局部特征与描述子的提取；

在连续的场景中，全局地图可时间间隔大一些提取一次全局特征，局部特征为每帧进行检索匹配。

进一步的，所述将输出的场景结构通过匹配方法与地图进行检索匹配，矫正汽车的地图定位误差，实现车道级定位，包括以下步骤：

将局部特征与当前位置地图全局特征进行检索匹配。

通过检索得到的地图图像与多任务神经网络的输出场景结构图矫正车辆定位偏移，得到车道级精确定位的实时场景重建图。

进一步的，得到车道级精确定位的实时场景重建图后，还包括以下步骤：

将最后输出的车道级定位场景结构图与当前车辆拍摄图像上传，制作数据集，并发送至多任务神经网络；

使用新的数据集继续进行网络的训练，通过网络预测部分的闭环训练使网络模型不断迭代更新。

本发明的优点及有益效果如下：

效果1：方法结合本地地图和汽车获取的图像信息就能进行网络的训练，避免了使用高精度的雷达或者其他高精度传感器进行地图重建，也避免了大批量的人工标注工作。构建了用于车道级定位的场景结构预测和目标检测的多任务神经网络，可以对当前车辆进行车道级精确定位，达到车道级的定位地图输出。

效果2：本发明采用图像结合离线地图的方式进行检索可实现隧道以及无信号场景的精确定位。具体通过预测场景结构进行匹配地图来替代GPS的定位。

效果3：本发明方法中的场景结构预测与目标检测多任务神经网络相比于其他的场景结构预测或目标检测神经网络，可以同时进行场景结构预测和目标检测两项任务，大大降低了图像的预测时间，还可对当前车辆位置进行车道级的定位输出。

效果4：本发明方法使用汽车拍摄图像和本地地图，搭建了一个闭环训练的多任务神经网络平台，可在使用过程中不断进行闭环训练以迭代更新模型权重。

效果5：本发明中预测结果中目标布局与场景结构预测结果可进行融合，构建一个实时的可视布局图像并达到车道级精确定位。不仅可以给驾驶人一个前方场景的布局提醒，对规划汽车的行驶路线起到重要作用，而且可以检测车辆前方目标(本发明方法中目标包括行人、车辆、建筑物、路牌、红绿灯等目标)，防止发生碰撞，增大汽车行驶的安全性。实现了车辆的精准车道级定位，可以使汽车在隧道和无信号场景得到精确定位，解决了目前GPS偏移较大问题。

本发明专利中不容易想到的点有：一：使用输出的场景布局图进行局部特征提取并与地图的全局特征进行检索匹配，完成矫正定位误差，实现车道级定位。目前对于汽车在隧道中或者信号不良的情况进行精确定位仍然是一大难题，本发明专利通过网络的布局预测与地图进行检索匹配并矫正定位误差，可以实现车道级定位解决难题，据我所知目前仍没有神经网络这样做。二：使用输出的车道级定位场景图上传回网络，并重建数据集对网络进行闭环训练，目前能达到闭环训练的神经网络较少。主要是因为自动化标注较难实现，所以较难想到这种闭环训练的方法。此处通过与地图的结合，可以实现网络的闭环学习。

附图说明

图1是本发明提供优选实施例提供的一种车道级定位、场景结构预测和目标检测的神经网络流程图；

图2是本发明实施例提供的一种车道级定位、场景结构预测和目标检测的神经网络网络结构示意图；

图3是本发明实施例提供的通过经纬度获取地图场景显示功能示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

如图1所示，本发明实施例提供的一种车道级定位、场景结构预测和目标检测的神经网络包括以下步骤：

1.构建具备车道级定位和场景结构预测及目标检测的多任务神经网络,场景结构预测和目标检测多任务神经网络结构如图2所示，本发明方法中的场景结构预测和目标检测多任务神经网络采用上下文参数共享模式，即引入一个变量C，该变量可以仅使用图像信息I进行推导，因此，目标布局参数和场景结构参数在给定C的情况下是条件独立的。我们将该条件化变量称为“共享上下文”因为它必须包含估计场景结构和目标布局边缘所需的信息。不同解码器共同使用一个任务共享层。解码器为一系列采样和反卷积结构组成，目标解码器与场景解码器结构相同，但使用同一个解码器网络较难收敛，故这里采2个不同任务的解码器。引入参数化的鉴别器，用于鉴别网络生成的图片真伪。通过将生成图片分布正则化，使其与合理场景几何图形的预置布局真实分布相似，这其中采用的是匹配的方式完成。调整预置场景结构分布，从而正则化预测的场景结构或目标布局。将预测出来的场景结构进行特征提取，提取后的特征与地图的全局特征进行检索匹配。匹配后矫正当前车辆的位置进行车道级定位。网络具体结构如图2所示。

本发明中的多任务神经网络共有三个任务，分别是目标布局任务、场景结构和车道级定位任务。

场景结构任务用来预测静态场景结构，可用于规划汽车行驶路线，目标检测预测前方目标的目标布局，可用于防碰撞预警。首先将一张图像利用编码器编码，图像作为输入，生成一个特征图作为输出，这个提取的特征映射就是网络中所需要的共享上下文变量。得到的特征图共享上下文参数后，使用两个具有相同架构的并行解码器来估计场景和目标布局。解码器由卷积块组成，以共享上下文参数的特征图作为输入。卷积块将此共享参数映射到特征图上。之后，采用反卷积模块，将特征图降维并增加分辨率。在这里的反卷积过程中，图片的最后通道数不同，其中在场景结构解码器中为2，在目标布局解码器中1。最后我们得到一个输出特征图。在此期间应用了dropout到倒数第二层，以实施随机正则化。输出的特征图对应于地面上的矩形区域。将输出的场景结构放入特征提取模块中提取局部特征，之后将局部特征与全局特征进行匹配检索。

到这里已经生成了一个地面场景结构图，将生成的图片放入鉴别器。特征图在这里将被鉴别器以真实标签为样本区分真伪，鉴别器包含一个非线性激活函数。使用本发明提出的损失函数进行网络的训练，通过与先前准备的各种场景的预置数据分布匹配，调整布局。网络的具体结构如图2所示。

2.通过汽车拍摄图像和车辆车道地图制作准备数据集，并且构建多任务神经网络损失函数数学模型训练网络。

使用L2误差项对场景结构和目标布局与真实值差值参数进行惩罚，使其与相应的地面真值布局接近，训练多任务神经网络。公式如1所示：

其中Φ为上下文编码器的权重参数；其中ψ为车辆布局解码器参数；其中

为场景结构解码器参数；其中θ为共享上下文中的参数；其中θ_S表示场景在共享上下文中的参数；其中θ_D表示车辆在共享上下文中的参数。特征提取模块中，将会训练一个目标分类器，使用交叉熵损失作为损失函数，用于将各个目标的局部特征描述符相关系数表示出来。目标训练函数特征的表达式由一个加权的公式表示，公式如5所示，其中，y为网络的输出特征向量；W为注意力机制中的加权权重；α(*)为特征的一个分数函数；θ表示为函数α(*)的参数；用fn，n＝1，...，N表示要与注意力模型共同学习的n维特征。其中L_sup是一个L2监督误差项，用于惩罚预测场景和目标布局与其对应的地面真值的损失值，L_adv，L_discr是网络中解码器层和鉴别器的损失值。L_sup，l_adv，L_discr，L_spc计算公式如2，3，4所示：

y＝W(∑_nα(fn；θ)·fn) (5)

表示图像中的信息；式中

表示车辆的布局真实值，式中i表示样本的个数；式中S表示对于场景结构预测的概率(0≤S≤1)；式中D表示对于车辆预测的概率(0≤D≤1)；其中E(*)为分布函数的期望值；其中

代表的是网络生成样本的分布；其中

代表的是真实样本的分布。对抗性损失L_adv和L_discr使得场景/目标场景解码器的布局估计分布P_fake与真实场景解码器P_true接近。

对网络进行训练，利用本发明提出的损失函数数学模型来进行参数优化，使网络参数达到最优。将图像尺寸使用最近邻插值法放大或缩小为网络输入尺寸；将放大或缩小的图片进行归一化处理(即图片像素值统一除以255，使图片像素值从0-255变为0-1)的视频帧送入神经网络中，经过网络的前向推理，得到场景结构和目标布局的场景结构图输出。

3.将场景结构预测和目标检测多任务神经网络部署于汽车上

采用深度学习框架将网络部署于开发板上，将视频帧的目标预测结果和场景结构预测结果进行合并处理，使用图像处理软件将目标预测结果和场景结构预测结果的输出结果绘制在同一张图片上。获取到的地图与图像信息可作为数据集再训练更新权重，达到闭环训练模式，并不断进行模型更新迭代。

4.对场景结构层进行特征提取与全局地图的特征提取

将场景结构和地图送入特征提取网络部分。将地图进行全局特征与描述子的提取，将网络中的场景结构特征层进行局部特征与描述子的提取。在连续的场景中，地图可时间间隔大一些提取一次全局特征，局部特征为每帧进行检索匹配。

5.将预测结果进行图像匹配矫正定位误差

将预测出来的场景结构图与当前位置地图进行匹配检索。通过检索得到的地图图像与多任务神经网络的输出场景结构图矫正车辆定位偏移，得到车道级精确定位的实时场景重建图。

6.将实时结果进行上传达到闭环训练效果

将最后输出的场景结构图与当前车辆拍摄图像上传，重新制作数据集，并上传至多任务神经网络替换原本的数据集。使用新的数据集继续进行网络的训练，通过网络预测部分的闭环训练使网络模型不断迭代更新。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种实现场景结构预测、目标检测和车道级定位的方法，其特征在于，包括以下步骤：

构建车道级定位、场景结构预测和目标检测的多任务神经网络，该多任务神经网络由编码器、解码器、全局特征提取模块、局部特征提取模块、匹配模块、目标检测预测模块、场景结构预测模块组成；

通过场景结构预测值和目标检测预测值分别与真实值间的损失构建损失多任务神经网络函数数学模型；通过汽车拍摄图像和车辆车道地图制作准备数据集，使用数据集对多任务神经网络函数数学模型进行训练；

2.根据权利要求1所述的一种实现场景结构预测、目标检测和车道级定位的方法，其特征在于，所述构建车道级定位、场景结构预测和目标检测的多任务神经网络，具体包括以下步骤：

表示网络输入图像的特征。上下文参数C为编码器通过编码后的特征层，其中应包括车辆与道路的空间位置信息关系以及特征信息；

3.根据权利要求2所述的一种实现场景结构预测、目标检测和车道级定位的方法，其特征在于，所述构建参数化的鉴别器，将预测结果数据分布正则化，具体包括：构建参数化的目标检测网络模块、场景结构预测网络模块，将预测结果数据分布正则化，使解码后的图片符合当前真实分布。

4.根据权利要求2所述的一种实现场景结构预测、目标检测和车道级定位的方法，其特征在于，所述构建全局特征提取和局部特征提取解码模块，具体包括：全局特征提取通过全卷积神经网络的卷积层以及池化层进行全局特征的提取，局部特征提取通过全卷积神经网络的卷积层以及注意力机制进行局部特征的提取。注意力机制为一个增强对图像局部特征注意力的模块，其核心思想是在输入序列上引入注意权重，以优先考虑存在相关信息的位置集，可更加有效提取图像中局部特征。

5.根据权利要求1-4之一所述的一种实现场景结构预测、目标检测和车道级定位的方法，其特征在于，所述通过场景结构预测值和目标检测预测值分别与真实值间的损失构建损失多任务神经网络函数数学模型，具体包括以下步骤：

6.根据权利要求5所述的一种实现场景结构预测、目标检测和车道级定位的方法，其特征在于，所使用L2误差项对场景结构和目标布局与真实值差值参数进行惩罚，使其与相应的地面真值布局接近，训练多任务神经网络，具体包括：公式如1所示：

为场景结构解码器参数；

为共享上下文中的参数；其中

表示场景在共享上下文中的参数；其中

表示车辆在共享上下文中的参数；特征提取模块中，将会训练一个目标分类器，使用交叉熵损失作为损失函数，用于将各个目标的局部特征描述符相关系数表示出来；目标训练函数特征的表达式由一个加权的公式表示，公式如(5)所示，其中，y为网络的输出特征向量；W为注意力机制中的加权权重；α(*)为特征的一个分数函数；θ表示为函数α(*)的参数；用fn，n＝1，...，N表示要与注意力模型共同学习的n维特征；其中L_sup是一个L2监督误差项，用于惩罚预测场景和目标布局与其对应的地面真值的损失值，L_adv，L_discr是网络中解码器层和鉴别器的损失值；L_sup，L_adv，L_discr，L_spc计算公式如(2)，(3)，(4)所示：