CN114495050A

CN114495050A - 一种面向自动驾驶前向视觉检测的多任务集成检测方法

Info

Publication number: CN114495050A
Application number: CN202111599064.4A
Authority: CN
Inventors: 郭健; 范晟华; 罗马思阳
Original assignee: Suzhou Anzhi Auto Parts Co ltd
Current assignee: Suzhou Anzhi Auto Parts Co ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-05-13

Abstract

本发明公开了一种面向自动驾驶前向视觉检测的多任务集成检测方法，所述多任务集成检测方法包括：步骤S1、获取前视摄像头采集的初始图像；步骤S2、以ResNet18模型作为特征提取网络提取图像的浅层特征生成浅层特征图；步骤S3、利用Transformer Encoder网络模型对初始特征图的全局特征进行感知和特征增强生成增强特征图；步骤S4、将所述增强特征图进行共享分别进行人车辆检测识别、可行区域分割、车道线检测三个任务。本发明以ResNet18为骨干网络快速提取浅层特征，再使用Transformer Encoder网络对全局特征进行感知、特征增强，最后共享特征分别进行行人车辆检测识别、可行区域分割和车道线检测任务，在保持单模型精度的条件下，减少了对车载芯片算力和内存的要求，运行速度提升明显。

Description

一种面向自动驾驶前向视觉检测的多任务集成检测方法

技术领域

本发明涉及自动驾驶视觉检测技术领域，具体为一种面向自动驾驶前向视觉检测的多任务集成检测方法。

背景技术

当前人工智能蓬勃发展，图像识别与目标检测等技术近年来也发展迅速，为人们的生活带来了便捷的同时也进一步促进了自动驾驶技术甚至无人驾驶在未来广泛普及成为可能，在自动驾驶领域中，环境感知系统利用各种车载传感器进行数据采集和处理，为智能车辆提供自车与周围目标的位置和类别信息，以及相对距离、相对速度等信息，进而为上层的决策规划提供信息依据。现有的车载环境感知算法大多针对单一任务或单一目标多模型视觉检测的方案来设计前视摄像头的视觉检测算法，包括行人、车辆交通灯标志牌、车道线、可行区域检测等，基于深度学习的模型占用计算资源较多，算法运行耗时较长。

所以，现有技术中采用单任务多模型视觉检测方案的缺点是要加载多个模型，对车载芯片的算力和内存要求较高，速度比较慢，严重影响车载前向视觉检测的性能，工程落地比较难。

发明内容

本发明的目的在于提供了一种面向自动驾驶前向视觉检测的多任务集成检测方法，以ResNet18为骨干网络快速提取浅层特征，再使用Transformer Encoder网络对全局特征进行感知、特征增强，最后共享特征分别进行行人车辆检测识别、可行区域分割和车道线检测任务，在保持单模型精度的条件下，减少了对车载芯片算力和内存的要求，运行速度提升明显。

为实现上述目的，本发明提供如下技术方案：一种面向自动驾驶前向视觉检测的多任务集成检测方法，所述多任务集成检测方法包括：

步骤S1、获取前视摄像头采集的初始图像；

步骤S2、以ResNet18模型作为特征提取网络提取所述初始图像的浅层特征生成浅层特征图；

步骤S3、利用Transformer Encoder网络模型对浅层特征图的全局特征进行感知和特征增强生成增强特征图；

步骤S4、将所述增强特征图进行共享分别进行人车辆检测识别、可行区域分割、车道线检测三个任务。

优选的，所述步骤S2中ResNet18模型使用步长为2的卷积核对特征图进行两次下采样，快速提取初始图像的浅层特征。

优选的，所述步骤S3中的Transformer Encoder网络模型包括多头自注意力机制，通过计算特征之间的相关性进行全局特征感知。

优选的，所述步骤S4包括将所述增强特征图拷贝三份，并分别输入至ObjectDetetion模块、Lane Detection模块和Free Space Detection模块执行相应的人车辆检测识别任务、可行区域分割任务和车道线检测任务。

优选的，所述Object Detetion模块对输入的增强特征图中的特征分别使用3个1*1卷积得到用于目标分类的输出、用于预测目标检测框宽和高的输出以及用于补偿目标中心点坐标的输出。

优选的，所述Lane Detection模块包括第一前处理策略，所述第一前处理策略包括对输入的增强特征图进行两次全连接得到宽和高分别为初始图像四分之一的特征图一。

优选的，所述Free Space Detecion模块包括第二前处理策略，所述第二前处理策略包括对输入的增强特征图进行两次上采样，得到与初始图像尺寸一致的特征图二。

优选的，对于所述Object Detetion模块的目标分类输出使用Softmax损失进行训练，对于Object Detetion模块的预测目标检测框宽和高输出使用CIOU损失进行训练，对于Object Detetion模块的补偿目标中心点坐标输出使用Smooth L1损失进行训练。

优选的，对于所述Lane Detection模块的输出使用Softmax损失函数对各层网络的权重进行训练。

优选的，对于所述Free Space Detecion模块的输出使用全局Softmax损失函数对各层网络的权重进行训练。

与现有技术相比，本发明的有益效果是：利用ResNet18为骨干网络快速提取浅层特征，再使用Transformer Encoder网络对全局特征进行感知、特征增强，最后共享特征分别进行行人车辆检测识别、可行区域分割和车道线检测任务，在保持单模型精度的条件下，减少了对车载芯片算力和内存的要求，运行速度提升明显。

利用ResNet18模型作为特征提取网络提取使用步长为2的卷积核对特征图进行两次下采样生成浅层特征图，可以避免全连接层的参数冗余，快速提取初始图像的浅层特征，进一步提升运行速度。

利用Transformer Encoder网络模型对浅层特征图的全局特征进行感知和特征增强生成增强特征图，Transformer Encoder作为目前最新的图像方面特征提取器，因为内部的自注意力机制，可以对全局进行感知，因此在处理过程中可以感知全局特征，可以很好的进行特征增强。

附图说明

图1为本发明一种面向自动驾驶前向视觉检测的多任务集成检测方法的示意图；

图2为本发明一种面向自动驾驶前向视觉检测的多任务集成检测方法中ResNet18模型网络示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供的一种面向自动驾驶前向视觉检测的多任务集成检测方法，所述多任务集成检测方法包括如下步骤：

步骤S1、获取前视摄像头采集的初始图像；

多任务集成检测方法以ResNet18为骨干网络快速提取浅层特征，再使用Transformer Encoder网络对全局特征进行感知、特征增强，最后共享特征分别进行行人车辆检测识别、可行区域分割和车道线检测任务，在保持单模型精度的条件下，减少了对车载芯片算力和内存的要求，运行速度提升明显。

其中，所谓的浅层特征是和深层特征对应，一般来说就是指图像经过几层卷积得到的，没有大幅改变图像形状的特征图或者说浅层特征，在该实施例下指的是经过ResNet18骨干网络输出的特征图。

具体的，如图2所示，为ResNet18模型网络示意图，ResNet18模型包括17个卷积层(conv)+1个全连接层(fc)，只有layer2,layer3,layer4只在第一个BasicBlock进行downsample下采样，layer1没有下采样，每个layer包含2个BasicBlock,1个BasicBlock中有2次卷积。利用ResNet18模型作为特征提取网络提取使用步长为2的卷积核对特征图进行两次下采样生成浅层特征图，可以避免全连接层的参数冗余，快速提取初始图像的浅层特征，进一步提升运行速度。

优选的，所述步骤S3中的Transformer Encoder网络模型包括多头自注意力机制，通过计算特征之间的相关性进行全局特征感知。利用Transformer Encoder网络模型对浅层特征图的全局特征进行感知和特征增强生成增强特征图，Transformer Encoder作为目前最新的图像方面特征提取器，与传统的CNN相比，因为内部的自注意力机制，可以对全局进行感知，因此在处理过程中可以感知全局特征，同样相较于原有CNN，3*3大小的卷积核，或5*5的卷积核，使用CNN捕获的特征仍旧受限，而基于transformer Encoder因为其全局感知的特征，可以很好的进行特征增强。

优选的，所述步骤S4包括将所述增强特征图拷贝三份，并分别输入至ObjectDetetion模块、Lane Detection模块和Free Space Detection模块执行相应的人车辆检测识别任务、可行区域分割任务和车道线检测任务。3份相同的特征图分别进行行人车辆检测识别、可行区域分割、车道线检测，可以理解为Transformer Encoder模块作为上游网络，上游网络的输出是一系列特征图，而下游网络接上游网络输出的特征图，分别进行新的任务。

优选的，所述Object Detetion模块对输入的增强特征图中的特征分别使用3个1*1卷积得到用于目标分类的输出、用于预测Box宽和高的输出以及用于补偿目标中心点(x，y)坐标的输出，所谓的Box，就是目标检测框；宽和高分别为目标检测框的宽和高。

优选的，对于所述Object Detetion模块的目标分类输出使用Softmax损失进行训练，对于Object Detetion模块的预测目标检测框宽和高输出使用CIOU损失进行训练，对于Object Detetion模块的补偿目标中心点坐标输出使用Smooth L1损失进行训练；对于所述Lane Detection模块的输出使用Softmax损失函数对各层网络的权重进行训练；对于所述Free Space Detecion模块的输出使用全局Softmax损失函数对各层网络的权重进行训练。

其中，全局Softmax一般是在原始图片大小上对每一个像素点进行分类，而Softmax则是对经过多个Cnn处理后得到的大小为19*19的特征图上每一个像素点进行分类。

关于目标检测上物体的分类，或者语义分割上物体的分类使用Softmax损失，对于目标检测框使用CIOU作为损失进行训练，这样检测的效果是检测和分类的精度更高。对Object Detetion模块的目标分类输出使用Softmax损失进行训练的目的是为了更好的预测物体类别，对Object Detetion模块的Box宽和高输出使用CIOU损失进行训练的目的是为了更好的预测目标检测框的宽和高。具体训练的过程是原始数据依次通过BackBone模块、Transormer Encoder模块、Object Detection或Lane Detection或Free Space Detection模块后得到的预测结果和该原始数据真实标签进行对比，对比的方法是Softmax损失、CIOU损失，可以得到预测结果和真实标签的距离或者说损失，损失经过反向传播，将梯度更新至各层网络或者说模块上的权重上，实际训练的是各层网络或者说模块上的权重。

工作原理：多任务集成检测方法利用ResNet18为骨干网络快速提取浅层特征，再使用Transformer Encoder网络对全局特征进行感知、特征增强，最后共享特征分别进行行人车辆检测识别、可行区域分割和车道线检测任务，在保持单模型精度的条件下，减少了对车载芯片算力和内存的要求，运行速度提升明显。

该方案包含Backbone模块，Transformer Encoder模块，Object Detetion模块，Lane Detection模块，Free Space Detection模块。其中Backbone模块，由ResNet18构建，使用步长为2的卷积核对特征图进行2次下采样，快速提取图像浅层特征；利用ResNet18模型作为特征提取网络提取使用步长为2的卷积核对特征图进行两次下采样生成浅层特征图，可以避免全连接层的参数冗余，快速提取初始图像的浅层特征，进一步提升运行速度。Transformer Encoder模块，可以对捕获的特征进行全局感知实现特征增强；ObjectDetetion模块，可以对输入特征分别使用3个1*1卷积得到用于目标分类的输出、用于预测Box宽和高的输出和用于补偿中心点坐标的输出；Lane Detection模块，可以对输入特征进行两次全连接得到宽和高分别为原图四分之一的特征图；利用Transformer Encoder网络模型对浅层特征图的全局特征进行感知和特征增强生成增强特征图，TransformerEncoder作为目前最新的图像方面特征提取器，因为内部的自注意力机制，可以对全局进行感知，因此在处理过程中可以感知全局特征，可以很好的进行特征增强。

Free Space Detecion模块，可以对输入特征进行两次上采样，得到与原图尺寸一致的特征图；对于Object Detetion模块的目标分类输出使用Softmax损失进行训练，对于Object Detetion模块的Box宽和高输出使用CIOU损失进行训练，对于Object Detetion模块的补偿中心点坐标输出使用Smooth L1损失进行训练，对于Lane Detection模块的输出使用Softmax损失进行训练，对于Free Space Detecion模块的输出使用全局Softmax损失进行训练。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种面向自动驾驶前向视觉检测的多任务集成检测方法，其特征在于，所述多任务集成检测方法包括：

步骤S1、获取前视摄像头采集的初始图像；

2.根据权利要求1所述的面向自动驾驶前向视觉检测的多任务集成检测方法，其特征在于，所述步骤S2中ResNet18模型使用步长为2的卷积核对特征图进行两次下采样，快速提取初始图像的浅层特征。

3.根据权利要求2所述的面向自动驾驶前向视觉检测的多任务集成检测方法，其特征在于，所述步骤S3中的Transformer Encoder网络模型包括多头自注意力机制，通过计算特征之间的相关性进行全局特征感知。

4.根据权利要求3所述的面向自动驾驶前向视觉检测的多任务集成检测方法，其特征在于，所述步骤S4包括将所述增强特征图拷贝三份，并分别输入至Object Detetion模块、Lane Detection模块和Free Space Detection模块执行相应的人车辆检测识别任务、可行区域分割任务和车道线检测任务。

5.根据权利要求4所述的面向自动驾驶前向视觉检测的多任务集成检测方法，其特征在于，所述Object Detetion模块对输入的增强特征图中的特征分别使用3个1*1卷积得到用于目标分类的输出、用于预测目标检测框宽和高的输出以及用于补偿目标中心点坐标的输出。

6.根据权利要求5所述的面向自动驾驶前向视觉检测的多任务集成检测方法，其特征在于，所述Lane Detection模块包括第一前处理策略，所述第一前处理策略包括对输入的增强特征图进行两次全连接得到宽和高分别为初始图像四分之一的特征图一。

7.根据权利要求6所述的面向自动驾驶前向视觉检测的多任务集成检测方法，其特征在于，所述Free Space Detecion模块包括第二前处理策略，所述第二前处理策略包括对输入的增强特征图进行两次上采样，得到与初始图像尺寸一致的特征图二。

8.根据权利要求7所述的面向自动驾驶前向视觉检测的多任务集成检测方法，其特征在于，对于所述Object Detetion模块的目标分类输出使用Softmax损失进行训练，对于Object Detetion模块的预测目标检测框宽和高输出使用CIOU损失进行训练，对于ObjectDetetion模块的补偿目标中心点坐标输出使用Smooth L1损失进行训练。

9.根据权利要求8所述的面向自动驾驶前向视觉检测的多任务集成检测方法，其特征在于，对于所述Lane Detection模块的输出使用Softmax损失函数对各层网络的权重进行训练。

10.根据权利要求9所述的面向自动驾驶前向视觉检测的多任务集成检测方法，其特征在于，对于所述Free Space Detecion模块的输出使用全局Softmax损失函数对各层网络的权重进行训练。