CN108985269B

CN108985269B - 基于卷积和空洞卷积结构的融合网络驾驶环境感知模型

Info

Publication number: CN108985269B
Application number: CN201810933385.5A
Authority: CN
Inventors: 秦文虎; 张仕超
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2018-08-16
Filing date: 2018-08-16
Publication date: 2022-06-10
Anticipated expiration: 2038-08-16
Also published as: CN108985269A

Abstract

基于卷积和空洞卷积结构的融合网络驾驶环境感知模型，同时实现目标检测和语义分割。通过安装在车辆上的前视相机系统拍摄道路环境视频图像；采用残差网络模型得到图像底层特征图；设计融合网络，包括目标检测和语义分割2个子模块，这2个模块共享底层特征图。其中，目标检测模块负责预测目标框与类别置信度，语义分割模块负责对每个类别进行像素级预测。对两个模块分别选取合适的损失函数，先交替训练使感知模型在两个模块都趋于收敛；最后使用联合损失函数同时训练两个模块，得到最终感知模型。本发明可以用较小的运算量同时完成目标检测和语义分割，并且感知模型使用目标检测的大量数据辅助语义分割模块学习图像分布规律。

Description

基于卷积和空洞卷积结构的融合网络驾驶环境感知模型

技术领域

本发明涉及高级汽车驾驶员辅助技术领域，特别是涉及一种基于卷积和空洞卷积结构的融合网络驾驶环境感知模型。

背景技术

驾驶环境感知功能是高级汽车驾驶员辅助系统ADAS(Advanced DriverAssistance System)的一项重要功能。现有的驾驶环境感知主要包含目标检测(对感兴趣的目标，比如行人，车辆，自行车，交通标志等，得到目标在图像中的位置信息和类别信息)和语义分割(对图像的每个像素点分别标记类别)两大任务。驾驶环境感知可以用于辅助驾驶决策，减少交通事故的发生。

目前，为了完成目标检测和语义分割，多使用支持向量机等统计学习方法或者卷积神经网络分别对两个任务建立独立的模型。统计学习方法依赖繁琐复杂的特征工程，虽然计算速度很快但是准确率较低。卷积神经网络准确率较高，但是考虑到深度神经网络的运算量很大，如果对每个任务分别建立独立模型的话，目前的算力无法满足实时使用要求。本发明的融合网络模型可以很好地权衡计算速度和准确率，满足基本的实时使用要求。

目前的专利都是针对单任务提出模型，且大多数模型计算量很大。中国专利申请公布号CN108062756A的专利提出了一种基于全卷积网络和条件随机场的图像语义分割方法，该方法使用全卷积神经网络进行语义粗分割，之后用条件随机场细化分割边界。该方法虽然可以有效进行语义分割，但是条件随机场的运算量过大，无法满足实时要求，并且只能完成语义分割一项任务。中国专利申请公布号108009509A的专利提出了一种基于卷积神经网络的目标检测模型，但也是单任务模型，并且由于采用了滑窗法，检测速度很慢。

发明内容

为了以上问题，本发明提供一种基于卷积和空洞卷积结构的融合网络驾驶环境感知模型，解决目前驾驶环境感知模型计算量大，重复计算多，单任务模型解决问题单一，语义分割模型对语义分割数据集要求过高(像素级数据标注成本过高)，并且无法同时完成多任务驾驶环境感知的问题，为达此目的，本发明提供基于卷积和空洞卷积结构的融合网络驾驶环境感知模型，具体步骤如下，其特征在于：

1)通过安装在车辆前方的摄像机拍摄当前驾驶环境图像；

2)通过卷积层检测图像底层特征；

3)将得到的底层特征同时用于目标检测和语义分割模块；

4)分别为目标检测和语义分割模块设计损失函数，先交替训练这两个模块，使融合网络模型在两个模块上都趋于收敛；然后联合两个模块的损失函数得到总损失函数，同时训练两个模块，最终达到一个感知模型同时完成目标检测和语义分割的效果。

作为本发明进一步改进，所述步骤2)和3)中，目标检测和语义分割共享底层特征，底层特征采用残差卷积网络进行检测，包括3次下采样过程，图像大小变为原始图像的1/8，得到角点，边缘相关底层特征，并输出特征图。

作为本发明进一步改进，所述步骤3)中，目标检测和语义分割共享底层特征，共享大部分卷积层，大大减小重复计算，由于融合网络模型最初的卷积层提取的特征比较底层，比如角点、边缘、极值点等，这些特征无论对目标检测还是语义分割都是有效的，所以可以共享卷积层。

作为本发明进一步改进，所述步骤3)中，语义分割模块采用了空洞卷积结构，在不降低特征图分辨率、不增加网络参数数量的前提下快速聚合图像上下文信息，并使用图像金字塔对特征图进行多尺度描述，最后采用双线性插值上采样变回原始图像大小，其中图像金字塔由卷积核为3×3，采样率分别为6，12，18的空洞卷积层和一个卷积核为1×1大小的普通卷积层构成。之后对金字塔池化层进行一层1×1单卷积核卷积，最后采用双线性插值上采样，使特征图变回原始图像大小，得到分割结果。。

作为本发明进一步改进，所述步骤3)中，把底层特征图分割为21×7的网格，每个网格单元负责预测1个目标，并给出每个类别的置信度，目标检测模块借鉴YOLO模型思想。

作为本发明进一步改进，所述步骤4)中，首先使用残差网络预训练的参数初始化共享卷积层，使用xavier初始化目标检测和语义分割模块，模型训练前期，采用了交替训练的策略：先输入目标检测图片，完成目标检测模块的前向传播和反向传播参数更新；再输入语义分割图片，在上一步目标检测模块的更新参数的基础上，完成语义分割的前向传播和反向传播参数更新。交替进行两个模块的训练，直到两个模块都趋于收敛。

由于语义分割的数据集标注成本很高，难以获得大量语义分割标注数据，因此语义分割在大规模模型上容易过拟合；而目标检测的数据标注成本较低，容易获得大量标注数据，适合训练大规模模型，因此交替训练策略可以使语义分割模块借鉴目标检测模块的网络参数来学习图像分布规律，防止过拟合，提高泛化能力，从而提高语义分割准确率；同时，由于目标检测与语义分割交替训练，所以感知模型也可以保证目标检测模块处在不断动态修正之中，不会因为语义分割模块的影响而大幅降低识别效果。

作为本发明进一步改进，所述步骤4)中，交替训练完成后，将两个模块的损失函数按比例加权求和得到总损失函数，对总损失函数采用Adam算法进行优化，对两个损失函数设置合适的权值，最终融合网络模型可以只用一次计算，同时得出语义分割和目标检测的结果。

本发明一种基于卷积和空洞卷积结构的融合网络驾驶环境感知模型，与现有技术相比，具有以下优点：

本发明提出的技术方案可以使用一个感知模型同时得出语义分割和目标检测的结果，并且二者可以相互促进，提高准确率。语义分割模型在训练的时候需要数据集有像素级标注(对图像的每个像素点进行类别标注)，数据标注成本极高，即使采用公开数据集，也难以获得大量标注数据。而根据应用场景的变化，数据的分布会发生变化，只靠少量的语义分割数据难以学习数据分布规律。而目标检测的数据标注简单，成本较低，可以获得大量标注数据。本发明可以使目标检测和语义分割模块协同训练，语义分割模块借助目标检测的海量数据学习图像分布规律，并以语义分割的少量数据获得精细化结果，与此同时，模型也会得出精确地目标检测结果，从而以较低的运算成本和数据标注成本同时得出目标检测和语义分割结果。

附图说明

图1为本发明残差模块示意图；

图2为本发明融合网络模型示意图；

图3为本发明语义分割模块示意图；

图4为本发明目标检测模块示意图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述：

本发明提供一种基于卷积和空洞卷积结构的融合网络驾驶环境感知模型，解决目前驾驶环境感知模型计算量大，重复计算多，单任务模型解决问题单一，语义分割模型对语义分割数据集要求过高(像素级数据标注成本过高)，并且无法同时完成多任务驾驶环境感知的问题。

本发明一种基于卷积和空洞卷积的融合网络驾驶环境感知模型，包括以下步骤：

1)通过安装在车辆前方的摄像机拍摄当前驾驶环境图像；

2)通过卷积层检测图像底层特征；

3)将得到的底层特征同时用于目标检测和语义分割模块；

4)分别为目标检测和语义分割模块设计损失函数，先交替训练这两个模块，使融合网络模型在两个模块上都趋于收敛；然后联合两个模块的损失函数得到总损失函数，同时训练两个模块，最终实现一个感知模型同时完成目标检测和语义分割的效果。

本发明使用的前视相机采集的视频数据参数为1280×720@60FPS，视频帧为彩色图像，包含RGB三通道色彩信息，用(1280，720，3)维度的张量表示，张量中每个元素为整数，取值范围为[0，255]；

所述步骤2)中，采用残差卷积网络检测底层特征，包括3次下采样过程，图像大小变为原始图像的1/8。此步骤得到角点，边缘等底层特征，并输出特征图。此部分包括如下网络层：

(1)conv2d(7×7，64，2)

(2)max_pooling(2×2)

(3)block(1×1，64，3×3，64，1×1，256)

(4)block(1×1，128，3×3，128，1×1，512)

(5)block(1×1，256，3×3，256，1×1，1024)，此处第一层卷积步长为2

其中，conv2d表示二维卷积，其3个参数分别表示卷积核尺寸、输出通道数和步长；max_pooling表示最大池化层，其参数为池化核大小，默认步长为2；block表示残差模块，如图1所示，每个残差模块由3层卷积组成，其6个参数分别表示第1层卷积核尺寸、第1层卷积输出通道数、第2层卷积核尺寸、第2层卷积输出通道数、第3层卷积核尺寸、第3层卷积输出通道数。没有特殊说明时，残差模块每个卷积层的步长为均1。

所述步骤3)中，得到底层特征之后，目标检测和语义分割共享底层特征，共享大部分卷积层。如图2所示。

所述步骤3)中，语义分割模块的空洞卷积部分由以下部分组成，如图3所示：

(1)dilate_conv2d(3×3，rate＝2，stride＝1)

(2)

(3)conv2d(1×1，stride＝1)

(4)bilinear-upsample()

其中，dilate-conv2d表示空洞卷积。空洞卷积指的是稀疏卷积核，如图3所示，空洞卷积的卷积核只在深色部分有值，其它部分值为0；dilate-conv2d的3个参数分别表示卷积核尺寸、采样率以及步长。conv2d表示普通卷积，其2个参数分别表示卷积核尺寸以及步长。bilinear_upsample()表示双线性插值上采样。

其中，图像金字塔由卷积核为1×1的普通卷积和卷积核为3×3，采样率分别为6、12、18的空洞卷积组成，从而实现对特征图的多尺度描述。

所述步骤3)中，目标检测模块如图4所示，包括：

(1)conv2d(7×7，stride＝1，outdim＝192)

(2)conv2d(3×3，stride＝1.outdim＝256)

(3)conv2d(3×3.stride＝1.outdim＝512)

(4)fn(outdim＝1176)

其中，conv2d表示卷积层，其3个参数分别为卷积核尺寸、步长和输出通道数；fn()表示全连接层，其参数为输出向量维数。本模块最终的目标检测部分输出维数由所有网格的输出组成，每个网格的预测输出为置信度、目标框的4个坐标和3个类别概率(车辆，行人，骑自行车的人)，一共有21×7＝147个网格，共输出147×(4+1)＝1176维向量。

所述步骤4)中，语义分割部分采用交叉熵损失函数，目标检测部分采用坐标、置信度以及类别概率预测的最小二乘误差之和。融合网络模型采用标准Adam优化算法进行交替训练。具体训练策略如下：首先，使用预训练的残差网络模型初始化融合网络模型的共享部分，然后使用xavier初始化算法初始化融合网络模型其余参数；训练开始后，首先输入目标检测图片，训练目标检测模块，目标检测的前向传播过程如图2前向深色箭头(向右的深色箭头)所示，目标检测的反向传播过程如图2反向浅色箭头(向左的浅色箭头所示)；然后输入语义分割图片，训练语义分割模块，语义分割的前向传播过程如图2前向的浅色箭头(向右的浅色箭头)所示，语义分割的反向传播过程如图2反向深色箭头(向左的深色箭头)所示；交替训练目标检测和语义分割模块，直到两个模块都趋于收敛；最后将语义分割和目标检测的损失函数按权值相加得到总损失函数，使用总损失函数同时训练两个模块，直到融合网络模型收敛。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作任何其他形式的限制，而依据本发明的技术实质所作的任何修改或等同变化，仍属于本发明所要求保护的范围。

Claims

1.基于卷积和空洞卷积结构的融合网络驾驶环境感知模型，具体步骤如下，其特征在于：

1）通过安装在车辆前方的摄像机拍摄当前驾驶环境图像；

2）通过卷积层检测图像底层特征；

3）将得到的底层特征同时用于目标检测和语义分割模块；

所述步骤2）和3）中，目标检测和语义分割共享底层特征，底层特征采用残差卷积网络进行检测，包括3次下采样过程，图像大小变为原始图像的1/8，得到角点，边缘相关底层特征，并输出特征图；

所述步骤3）中，目标检测和语义分割共享底层特征，共享大部分卷积层，大大减小重复计算；

所述步骤3）中，语义分割模块采用了空洞卷积结构，在不降低特征图分辨率、不增加网络参数数量的前提下快速聚合图像上下文信息，并使用图像金字塔对特征图进行多尺度描述，最后采用双线性插值上采样变回原始图像大小；

所述步骤3）中，把底层特征图分割为

的网格，每个网格单元负责预测1个目标，并给出每个类别的置信度；

4）分别为目标检测和语义分割模块设计损失函数，先交替训练这两个模块，使融合网络模型在两个模块上都趋于收敛；然后联合两个模块的损失函数得到总损失函数，同时训练两个模块，最终达到一个感知模型同时完成目标检测和语义分割的效果；

所述步骤4）中，首先使用残差网络预训练的参数初始化共享卷积层，使用xavier初始化目标检测和语义分割模块，模型训练前期，采用了交替训练的策略：先输入目标检测图片，完成目标检测模块的前向传播和反向传播参数更新；再输入语义分割图片，在上一步目标检测模块的更新参数的基础上，完成语义分割的前向传播和反向传播参数更新；交替进行两个模块的训练，直到两个模块都趋于收敛；

所述步骤4）中，交替训练完成后，将两个模块的损失函数按比例加权求和得到总损失函数，对总损失函数采用Adam算法进行优化，对两个损失函数设置合适的权值，最终融合网络模型可以只用一次计算，同时得出语义分割和目标检测的结果。