CN114048536A

CN114048536A - 一种基于多任务神经网络的道路结构预测与目标检测方法

Info

Publication number: CN114048536A
Application number: CN202111371245.1A
Authority: CN
Inventors: 冯明驰; 梁晓雄; 萧红; 岑明; 李成南; 王鑫; 宋贵林; 邓程木
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-11-18
Filing date: 2021-11-18
Publication date: 2022-02-15

Abstract

本发明请求保护一种基于多任务神经网络的道路结构预测与目标检测方法，涉及自动驾驶、深度学习、计算机视觉等领域。首先本发明构建了一个上下文参数共享机制的多任务神经网络，具有同时预测道路结构和目标检测的功能；并且通过道路结构预测值和车辆布局预测值与其真实值间的损失构建损失函数数学模型；其次通过图像和地图制作数据集并对网络的预测部分进行闭环训练；最后部署于汽车上，并应用于预测道路结构与目标检测中。本发明方法中的多任务神经网络仅需要图像信息就能完成道路结构预测与目标检测功能，对图像中不可见以及被遮挡区域也可进行道路结构与目标的预测。

Description

一种基于多任务神经网络的道路结构预测与目标检测方法

技术领域

本发明属于自动驾驶、深度学习、计算机视觉等领域，为一种道路结构预测与目标检测方法。

背景技术

随着深度学习的发展，自动驾驶技术越来越成熟，汽车对环境的感知能力已经逐步提升。如今大多数自动驾驶平台对环境感知解决方案仍然是利用一些强大的传感器(如激光雷达、精密GPS等)，但这些传感器大多价格昂贵且体积庞大，如仅仅使用视觉传感器完成环境感知任务，将大大降低成本。目前用于道路结构预测和目标检测的神经网络大部分仅能使用图像中呈现的信息进行预测，而不能利用到图像中被遮挡的线索。在训练过程中大部分网络必须结合雷达创建鸟瞰图进行训练，本发明提出多任务神经网络结合地图和图像方法，更轻易地获得了数据集，并能通过本发明方法达到闭环训练的目的。本发明提出的多任务神经网络可同时完成道路结构预测与目标检测任务。

综上所述，现有技术存在的问题是：激光雷达、精密GPS等传感器对于环境感知来说成本较高。目前大多数道路结构预测和目标检测网络达不到闭环训练且同时完成道路结构预测以及目标检测任务。

经过检索，申请公布号为CN 112183395 A，一种基于多任务学习神经网络的道路场景识别方法和系统，其中，所述方法包括以下步骤：获取道路场景的图像信息；对图像信息分别进行语义分割和目标检测标注以得到训练数据集；对训练数据集进行数据增强处理；构建多任务学习神经网络；根据增强处理后的训练数据集对多任务学习神经网络进行训练；根据训练后的多任务学习神经网络对道路场景图像进行目标检测和语义分割。本发明能够通过训练一个神经网络来同时实现语义分割和目标检测两个任务，从而能够有效减道路场景识别的时间，以提高道路场景识别效率，并能够节省显存资源。该发明为语义分割和目标检测的多任务神经网络，本发明为道路结构预测和目标检测多任务神经网络，任务上有较大区别。首先，该专利仅能使用图像中给出的信息，而舍弃了图像中道路场景内的目标与道路的空间关系。本发明通过上下文参数共享机制，能利用道路场景中目标与道路的空间关系，从而推理被目标遮挡的道路场景。CN 112183395 A该专利中多任务神经网络仅能对汽车拍摄图像进行目标检测与语义分割，本发明专利多任务神经网络能够得到目标与道路的空间分布布局图，并输出当前车辆位置的场景布局俯视图。该发明专利的多任务神经网络无法完成闭环训练任务，模型数据的训练需要大量的人工标注，耗费大量的人力，本发明专利实现闭环训练，大量减少了人工标注，网络模型不断进行闭环的训练，使得模型不断优化适应更多的场景。

申请公布号为CN 108304787 A，一种基于卷积神经网络的道路目标检测方法，其包括以下步骤：(1)制作道路目标的训练集和测试集；(2)搭建TensorFlow深度学习框架并引入VGG网络结构，对道路目标图像进行特征提取，其中检测模型的配置利用SSD算法完成；(3)把多目标检测问题转换为道路目标检测，所述道路目标包括车辆、步行的人和骑行的人；(4)用交叉熵代价函数作为置信度损失函数，并与预测框与真实框之间的位置损失函数进行加权求和，得到总体的损失函数对检测模型进行优化；(5)对得到的特征利用SoftMax算法进行分类，得到检测结果。该发明方法与本发明方法在在方向上不同，该发明方法主要是对图片中的目标进行检测。本发明方法为道路结构的检测和目标检测。该发明仅对输入图像进行目标检测处理，本发明采用多任务神经网络，能够同时预测道路结构以及目标检测。该专利中神经网络仅能完成目标检测任务，无法预测目标相对车辆自身的距离以及前方的目标分布布局，该专利中舍弃了输入图像中的道路和目标的空间关系，仅能使用图像表面呈现的信息进行推理。本发明专利多任务神经网络能够得到目标与道路的空间分布布局，并输出当前车辆位置的场景布局俯视图。该发明的神经网络无法完成闭环训练任务，模型数据的训练需要大量的人工标注，耗费大量的人力，本发明专利实现闭环训练，大量减少了人工标注并使模型不断优化。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种可以同时进行道路结构预测和目标检测两项任务，大大降低了图像的预测时间的基于多任务神经网络的道路结构预测与目标检测方法。本发明的技术方案如下：

一种基于多任务神经网络的道路结构预测与目标检测方法，其包括以下步骤：

构建道路结构预测与目标检测的多任务神经网络；该多任务神经网络可以同时进行道路结构预测以及目标检测任务，通过共享上下文参数机制，该网络对图像中不可见以及被遮挡区域也能进行道路结构与目标的预测。该多任务神经网络结合地图可以实现闭环训练的效果。

通过车辆拍摄图像和车辆道路地图制作数据集；

构建多任务神经网络损失函数数学模型；

将道路结构预测与目标检测多任务神经网络部署至车载嵌入式平台中，在嵌入式平台中运行模型检测汽车前方道路结构、车辆的布局，将检测到的信息发送至嵌入式平台控制中心；多任务神经网络预测出道路结构和目标布局，将前方道路的鸟瞰图预测出来，有颜色显示的区域就是道路和车辆；

通过图像与地图数据制作数据集，达到网络预测部分闭环训练。

进一步的，所述构建道路结构预测与目标检测的多任务神经网络，具体包括以下步骤：

构建基于共享上下文变量C的多任务神经网络，网络中多个任务分支共享一个编码器编码结果，共享上下文参数C仅由图像包含信息推导出，道路和目标是具有高度的位置相关性且并不是互相独立的，共享上下文参数C就包含道路和目标的布局空间关系。将一张图像利用编码器编码，图像作为输入，生成一个特征图作为输出，这个提取的特征映射就是网络中所需要的共享上下文变量；

构建解码器，分为道路解码器和车辆解码器，对共享上下文参数进行解码以生成场景的布局；该解码器由一系列的反卷积和上采样层组成，这些层将共享上下文参数映射到道路场景生成道路结构和车辆布局；

引入参数化的鉴别器，通过将预测结果数据分布正则化，使其与合理道路几何图形的真实分布相似，从而正则化预测道路结构和车辆布局。

进一步的，所述多任务神经网络共有两个任务，分别是车辆布局任务和道路布局任务；

道路布局任务用来预测车道布局，可用于规划汽车行驶路线，目标检测预测前方车辆的车辆布局，可用于防碰撞预警，提取特征映射作为共享上下文变量；得到的特征图共享上下文参数后，使用两个具有相同架构的并行解码器来估计道路和车辆布局，解码器由卷积块组成，以共享上下文参数的特征图作为输入，卷积块将此共享参数映射到特征图上，之后，采用反卷积模块，将特征图降维并增加分辨率，得到一个输出特征图。

进一步的，在反卷积过程中，图片的最后通道数不同，其中在道路布局解码器中为2，在车辆布局解码器中1，得到一个输出特征图，在此期间应用了dropout到倒数第二层，以实施随机正则化，输出的特征图对应于地面上的矩形区域。

进一步的，当生成了车辆当前位置道路结构图和目标布局图后，将生成的图片放入鉴别器；特征图在这里将被鉴别器以真实标签为样本区分真伪，鉴别器包含一个非线性激活函数，使用提出的损失函数进行网络的训练，通过与先前准备的各种道路的预置数据分布匹配，调整布局。

进一步的，所述通过车辆拍摄图像和车辆道路地图制作数据集，具体包括以下步骤：

使用地图接口提取各种道路图片，道路图片用于预置数据分布图的匹配，依据经纬度提取汽车拍摄图像位置的地图；

根据道路结构预测和目标检测多任务神经网络的结构，将训练集标签分为两类：用于匹配的预置数据分布标签和用于训练多任务神经网络的地面道路真实值和目标检测鸟瞰图标签。

进一步的，所述构建多任务神经网络损失函数数学模型，具体包括：

确定道路结构预测与目标检测任务中上下文编码器、道路场景解码器和车辆场景解码器的参数φ、v、ψ，通过使用小批量随机梯度下降法最小化目标函数；

使用L2误差项对道路结构和车辆布局与真实值差值参数进行惩罚，使其与相应的地面真值布局接近，训练多任务神经网络。

进一步的，所述使用L2误差项对道路结构和车辆布局与真实值差值参数进行惩罚，使其与相应的地面真值布局接近，训练多任务神经网络，具体包括：

其中Φ为上下文编码器的权重参数；其中ψ为车辆布局解码器参数；其中

为道路场景布局解码器参数；其中θ为共享上下文中的参数；其中θ_S表示道路在共享上下文中的参数；其中θ_D表示车辆在共享上下文中的参数。其中L_sup是一个L2监督误差项，用于惩罚预测道路和车辆布局与其对应的地面真值的损失值，L_adv，L_discr是网络中解码器层和鉴别器的损失值，L_sup，L_adv，L_discr计算公式如(2)，(3)，(4)所示：

式中N表示网络训练时图片的数量；式中S_φ，v表示网络预测的道路布局；式中

表示图像中的信息；式中

表示道路的布局真实值，式中i表示样本的个数；式中D_φ，ψ表示网络预测的车辆布局；式中

表示车辆的布局真实值，式中i表示样本的个数；式中S表示对于道路预测的概率(0≤S≤1)；式中D表示对于车辆预测的概率(0≤D≤1)；其中

为分布函数的期望值；其中

代表的是网络生成样本的分布；其中

代表的是真实样本的分布。对抗性损失L_adv和L_discr使得道路/车辆场景解码器的布局估计分布P_fake与真实场景解码器P_true接近。

进一步的，所述将道路结构预测与目标检测多任务神经网络部署至车载嵌入式平台中，在嵌入式平台中运行模型检测汽车前方道路结构、车辆的布局，具体包括以下子步骤：

利用损失函数数学模型来进行参数优化，使网络参数达到最优。

将图像尺寸使用最近邻插值法放大或缩小为网络输入尺寸；将放大或缩小的图片进行归一化处理的视频帧送入神经网络中，经过网络的前向推理，得到道路结构和车辆布局的鸟瞰图输出；

在后处理程序中，将车辆预测结果和道路预测结果的输出结果进行处理，使用图像处理软件将车辆预测结果和道路预测结果的输出结果绘制在同一张图片上，用来输出对道路结构的预测图像以及目标的布局图像；

在部署时，采用深度学习框架和图像处理软件作为主要框架进行嵌入式开发板部署，并不断对摄像头输入图像进行预测得到实时结果，获取到的地图与图像信息可作为数据集再训练更新权重，达到闭环训练模式，并不断进行模型更新迭代。

本发明的优点及有益效果如下：

效果1：本发明方法结合地图和图像信息就能进行网络的训练，避免了使用高精度的雷达或者其他高精度传感器进行地图重建，并且构建了用于道路结构预测和目标检测的多任务神经网络。

效果2：本发明方法中的道路结构预测与目标检测多任务神经网络相比于其他的道路结构预测或目标检测神经网络，本网络可以使用道路与车辆的空间结构构建共享上下文参数，进而使用图像中没有的信息进行强化预测。本网络可以同时进行道路结构预测和目标检测两项任务，大大降低了图像的预测时间。

效果3：本发明方法使用图像和地图，搭建一个闭环训练的多任务神经网络平台，可在使用过程中不断进行闭环训练以迭代更新模型。

效果4：本发明中预测结果中车辆布局与道路结构预测结果可进行融合，构建一个实时的可视布局图像，不仅可以给驾驶人一个前方道路的布局提醒，对规划汽车的行驶路线起到重要作用，而且可以检测车辆前方目标，防止发生碰撞，增大汽车行驶的安全性。

本发明技术在解决预测前方道路结构和目标布局时，采用到了结合地图的方式获取和制作数据集这种非常规的数据集获取方式，据我所知目前仍没有神经网络这样做，这样做大量减少了人工标注，目前大多数获取车辆当前位置场景布局图的方案仍是采用高精度雷达的方式获取当前位置的场景布局图。本发明中对输出结果进行再利用的方法，将输出的结果送回多任务神经网络进行再训练，达到闭环训练的效果，不仅省去了大量的人工标注过程，而且能够使网络模型在使用过程中不断优化。本发明方法通过共享上下文的方法利用到了图像中道路和目标的空间关系，这样做比常规的仅使用图像表面信息的方法使用到了更多的图像信息。

附图说明

图1是本发明提供优选实施例提供的道路结构预测和目标检测的多任务神经网络流程图。

图2是本发明实施例提供道路预测和目标检测的多任务神经网络结构示意图。

图3是本发明实施例提供的通过经纬度获取地图道路显示功能示意图。

图4是本发明实施例提供的部分预置道路结构鸟瞰图布局。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

如图1所示，本发明实施例提供的部署于汽车的道路结构预测和目标检测的多任务神经网络包括以下步骤：

1.构建具有道路结构预测和目标检测功能的多任务神经网络

道路结构预测和目标检测多任务神经网络结构如图2所示，本发明方法中的道路结构预测和目标检测多任务神经网络采用上下文参数共享模式，即引入一个变量C，该变量可以仅使用图像信息I进行推导，因此，车辆布局参数和道路结构参数在给定C的情况下是条件独立的。我们将该条件化变量称为“共享上下文”因为它必须包含估计道路结构和车辆布局边缘所需的信息。不同解码器共同使用一个任务共享层。解码器为一系列采样和反卷积结构组成，车辆解码器与道路解码器结构相同，但使用同一个解码器网络较难收敛，故这里采用2个不同任务的解码器。引入参数化的鉴别器，用于鉴别网络生成的图片真伪。通过将生成图片分布正则化，使其与合理道路几何图形的预置布局真实分布相似，这其中采用的是匹配的方式完成。调整预置道路布局分布，从而正则化预测的道路结构或车辆布局。网络具体结构如图2所示。

本发明中的多任务神经网络共有两个任务，分别是车辆布局任务和道路布局任务。

道路布局任务用来预测车道布局，可用于规划汽车行驶路线，目标检测预测前方车辆的车辆布局，可用于防碰撞预警。首先将一张图像利用编码器编码，图像作为输入，生成一个特征图作为输出，这个提取的特征映射就是网络中所需要的共享上下文变量。得到的特征图共享上下文参数后，使用两个具有相同架构的并行解码器来估计道路和车辆布局。解码器由卷积块组成，以共享上下文参数的特征图作为输入。卷积块将此共享参数映射到特征图上。之后，采用反卷积模块，将特征图降维并增加分辨率。在这里的反卷积过程中，图片的最后通道数不同，其中在道路布局解码器中为2，在车辆布局解码器中1。最后我们得到一个输出特征图。在此期间应用了dropout到倒数第二层，以实施随机正则化。输出的特征图对应于地面上的矩形区域。

到这里已经生成了一个车辆当前位置道路结构图和目标布局图，将生成的图片放入鉴别器。特征图在这里将被鉴别器以真实标签为样本区分真伪，鉴别器包含一个非线性激活函数。使用本发明提出的损失函数进行网络的训练，通过与先前准备的各种道路的预置数据分布匹配，调整布局。网络的具体结构如图2所示。

2.通过图像和地图制作数据集

根据道路结构预测和目标检测多任务神经网络的输出，将训练集标签分为两类：用于匹配的预置数据分布标签和用于训练多任务神经网络的地面道路结构真实值和车辆布局。预置数据分布标签如图4所示。

如图3所示，使用地图提取各种道路图片为预置数据分布图用于匹配，依据经纬度提取汽车拍摄图像位置的地图。如图3所示为地图中提取道路图片。

3.构建多任务神经网络损失函数数学模型

使用L2误差项对道路和车辆布局与真实值差值参数进行惩罚，使其与相应的地面真值布局接近，训练多任务神经网络。公式如1所示：

为道路场景布局解码器参数；其中θ为共享上下文中的参数；其中θ_S表示道路在共享上下文中的参数；其中θ_D表示车辆在共享上下文中的参数。其中L_sup是一个L2监督误差项，用于惩罚预测道路和车辆布局与其对应的地面真值的损失值，L_adv，L_discr是网络中解码器层和鉴别器层的损失值。L_sup，L_adv，L_discr计算公式如(2)，(3)，(4)所示：

表示图像中的信息；式中

为分布函数的期望值；其中

代表的是网络生成样本的分布；其中

代表的是真实样本的分布。对抗性损失L_adv和L_discr使得道路/车辆场景解码器的布局估计分布与真实场景解码器接近。

4.将道路预测和目标检测多任务神经网络部署于汽车上

采用深度学习框架将网络部署于开发板上，将视频帧的车辆预测结果和道路预测结果进行合并处理，使用图像处理软件将车辆预测结果和道路预测结果的输出结果绘制在同一张图片上。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于多任务神经网络的道路结构预测与目标检测方法，其特征在于，包括以下步骤：

构建道路结构预测与目标检测的多任务神经网络；该多任务神经网络可以同时进行道路结构预测以及目标检测任务，通过共享上下文参数机制，该网络对图像中不可见以及被遮挡区域也能进行道路结构与目标的预测；

通过汽车拍摄图像和车辆道路地图制作数据集；

构建多任务神经网络损失函数数学模型；

2.根据权利要求1所述的一种基于多任务神经网络的道路结构预测与目标检测方法，其特征在于，所述构建道路结构预测与目标检测的多任务神经网络，具体包括以下步骤：

构建基于共享上下文变量C的多任务神经网络，网络中多个任务分支共享一个编码器编码结果，共享上下文参数C仅由图像包含信息推导出，道路和目标具有高度位置相关性且并不是互相独立的，共享上下文参数C就包含道路和目标的布局空间关系信息；将一张图像利用编码器编码，图像作为输入，生成一个特征图作为输出，这个提取的特征映射就是网络中所需要的共享上下文变量；

3.根据权利要求2所述的一种基于多任务神经网络的道路结构预测与目标检测方法，其特征在于，所述多任务神经网络共有两个任务，分别是车辆布局任务和道路布局任务；

4.根据权利要求3所述的一种基于多任务神经网络的道路结构预测与目标检测方法，其特征在于，在反卷积过程中，图片的最后通道数不同，其中在道路布局解码器中为2，在车辆布局解码器中1，得到一个输出特征图，在此期间应用了dropout到倒数第二层，以实施随机正则化，输出的特征图对应于地面上的矩形区域。

5.根据权利要求4所述的一种基于多任务神经网络的道路结构预测与目标检测方法，其特征在于，当生成了车辆当前位置道路结构图和目标布局图后，将生成的图片放入鉴别器；特征图在这里将被鉴别器以真实标签为样本区分真伪，鉴别器包含一个非线性激活函数，使用提出的损失函数进行网络的训练，通过与先前准备的各种道路的预置数据分布匹配，调整布局。

6.根据权利要求1-5任一项所述的一种基于多任务神经网络的道路结构预测与目标检测方法，其特征在于，所述通过汽车拍摄图像和车辆道路地图制作数据集，具体包括以下步骤：

7.根据权利要求6所述的一种基于多任务神经网络的道路结构预测与目标检测方法，其特征在于，所述构建多任务神经网络损失函数数学模型，具体包括：

8.根据权利要求7所述的一种基于多任务神经网络的道路结构预测与目标检测方法，其特征在于，所述使用L2误差项对道路结构和车辆布局与真实值差值参数进行惩罚，使其与相应的地面真值布局接近，训练多任务神经网络，具体包括：

为道路场景布局解码器参数；其中θ为共享上下文中的参数；其中θ_S表示道路在共享上下文中的参数；其中θ_D表示车辆在共享上下文中的参数，其中L_sup是一个L2监督误差项，用于惩罚预测道路和车辆布局与其对应的地面真值的损失值，L_adv，L_discr是网络中解码器层和鉴别器的损失值，L_sup，L_adv，L_discr计算公式如(2)，(3)，(4)所示：

表示图像中的信息；式中

为分布函数的期望值；其中

代表的是网络生成样本的分布；其中

代表的是真实样本的分布，对抗性损失L_adv和L_discr使得道路/车辆场景解码器的布局估计分布P_fake与真实场景解码器P_true接近。

9.根据权利要求8所述的一种基于多任务神经网络的道路结构预测与目标检测方法，其特征在于，所述将道路结构预测与目标检测多任务神经网络部署至车载嵌入式平台中，在嵌入式平台中运行模型检测汽车前方道路结构、车辆的布局，具体包括以下子步骤：