CN113313094B

CN113313094B - 一种基于卷积神经网络的车载图像目标检测方法和系统

Info

Publication number: CN113313094B
Application number: CN202110867341.9A
Authority: CN
Inventors: 沈玉勤; 严凡; 孟夏冰; 王帅
Original assignee: Beijing Telecom Easiness Information Technology Co Ltd
Current assignee: Beijing Telecom Easiness Information Technology Co Ltd
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2021-09-24
Anticipated expiration: 2041-07-30
Also published as: CN113313094A

Abstract

本发明涉及一种基于卷积神经网络的车载图像目标检测方法和系统。所述车载图像目标检测方法，基于骨干网络ResNet101构建非对称卷积结构来获得多种形状的感受野，加强网络对不同外形及旋转角度下目标的特征敏感度，提升网络对目标的检测性能；并且，在包含非对称卷积结构的网络基础上，通过构建特征融合模块来融合不同层级的目标特征，使网络学习到丰富的多尺度上下文信息，能够有效避免中小尺度目标的细节信息损失，从而增强了对多尺度目标的特征表征能力。

Description

一种基于卷积神经网络的车载图像目标检测方法和系统

技术领域

本发明涉及图像处理技术领域，特别是涉及一种基于卷积神经网络的车载图像目标检测方法和系统。

背景技术

近年来，随着城市建设和互联网技术的快速发展，我国交通智能化水平得到了显著提升，智能交通已成为智慧城市建设需要突破的重要领域。基于车载图像进行交通场景下的目标检测，能起到驾驶辅助、提高交通安全指数和优化城市车流量分布等作用，在智能交通系统中有着极其重要的应用价值（邱康,王子磊.基于车载图像的目标车辆压线检测方法[J].计算机系统应用,2019,28(11):188-194.）。然而受到路面环境和拍摄角度的影响，车载图像中的目标往往具有外形、尺寸和方向丰富多变的特点，检测难度较大。

基于深度学习的目标检测算法具有自动提取目标关键特征的优势，可为车载图像目标检测提供有效的技术途径。现有算法多采用特征融合技术对经典目标检测网络进行改进，该技术可使特征图在包含丰富语义信息的同时保持较高的分辨率，从而提升神经网络的特征提取能力（鲍润嘉,侯庆山,邢进生.一种改进的SSD网络车载图像检测方法[J].计算机技术与发展,2021,31(02):85-90.）。这种方法对不同尺寸下的目标，尤其是小目标，具有良好的检测效果，但对车载图像中外形和方向多变的特殊目标而言，检测准确性还有待提升。

因此，提供一种能实现车载图像目标精确检测的技术是本领域亟待解决的技术问题。

发明内容

本发明的目的是提供一种基于卷积神经网络的车载图像目标检测方法和系统，能够实现车载图像目标的精确检测。

为实现上述目的，本发明提供了如下方案：

一种基于卷积神经网络的车载图像目标检测方法，包括：

基于骨干网络ResNet101构建非对称卷积结构得到第一神经网络；

基于所述第一神经网络构建特征融合模块得到第二神经网络；

基于所述第二神经网络构建区域建议网络得到第三神经网络；

基于所述第三神经网络构建网络检测头得到第四神经网络；

采用车载图像目标检测数据集对所述第四神经网络进行优化训练得到车载图像目标检测模型；

采用所述车载图像目标检测模型，以待检测的车载图像为输入得到目标检测结果。

优选地，所述非对称卷积结构包括：多个非对称卷积分支；

所述非对称卷积分支对骨干网络ResNet101中卷积块输出的特征图像进行非对称卷积处理。

优选地，所述非对称卷积分支对骨干网络ResNet101中卷积块输出的特征图像进行非对称卷积处理，包括：

第一非对称卷积分支对骨干网络ResNet101中卷积块输出的特征图像进行卷积核为1*1的卷积操作；

第二非对称卷积分支对骨干网络ResNet101中卷积块输出的特征图像进行卷积核为1*3和卷积核为3*1的卷积操作；

第三非对称卷积分支对骨干网络ResNet101中卷积块输出的特征图像进行卷积核为1*5和卷积核为5*1的卷积操作；

第四非对称卷积分支对骨干网络ResNet101中卷积块输出的特征图像进行卷积核为1*7和卷积核为7*1的卷积操作。

优选地，所述第二神经网络中包括：基于所述骨干网络ResNet101、所述非对称卷积结构和所述特征融合模块获得金字塔结构的特征图层。

优选地，所述区域建议网络包括卷积层、第一分类支路和第一回归支路；

所述卷积层用于以所述特征图层输出的特征图为输入得到候选区域；

所述第一分类支路用于以所述候选区域为输入得到前景目标的概率；

所述第一回归支路用于以所述候选区域为输入得到候选区域的参数；所述参数包括：所述候选区域的角坐标、边框宽度和边框高度。

优选地，所述网络检测头包括第二分类支路和第二回归支路；

所述第二分类支路用于以候选区域特征图为输入，利用分类损失函数进行背景和前景目标的分类以确定所述候选区域所属的目标类别；

所述第二回归支路用于以候选区域特征图为输入，利用回归损失完成边框回归操作，并获得目标的位置信息。

优选地，所述车载图像目标检测数据集的构建过程为：

采用车载相机采集多种驾驶场景中的路况图像；

采用Labelme软件对所述路况图像进行标注，生成与每张路况图像对应的标注文件；

对所述路况图像进行图像增强操作，得到车载图像数据集；

基于所述车载图像数据集和所述标注文件生成所述车载图像目标检测数据集。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供的基于卷积神经网络的车载图像目标检测方法，通过构建非对称卷积结构来获得多种形状的感受野，加强网络对不同外形及旋转角度下目标的特征敏感度，提升网络对目标的检测性能。并且，本发明通过构建特征融合模块来融合不同层级的目标特征，使网络学习到丰富的多尺度上下文信息，能够有效避免中小尺度目标的细节信息损失，从而增强了对多尺度目标的特征表征能力。

对应于上述提供的基于卷积神经网络的车载图像目标检测方法，本发明还对应提供了以下实施系统：

一种基于卷积神经网络的车载图像目标检测系统，包括：

非对称卷积结构构建模块，用于基于骨干网络ResNet101构建非对称卷积结构得到第一神经网络；

特征融合构建模块，用于基于所述第一神经网络构建特征融合模块得到第二神经网络；

区域建议网络构建模块，用于基于所述第二神经网络构建区域建议网络得到第三神经网络；

网络检测头构建模块，用于基于所述第三神经网络构建网络检测头得到第四神经网络；

优化训练模块，用于采用车载图像目标检测数据集对所述第四神经网络进行优化训练得到车载图像目标检测模型；

目标检测模块，用于采用所述车载图像目标检测模型，以待检测的车载图像为输入得到目标检测结果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的基于卷积神经网络的车载图像目标检测方法的流程图；

图2为本发明实施例提供的车载图像目标检测数据集的构建过程流程图；

图3为本发明实施例提供的基于卷积神经网络的车载图像目标检测方法的算法流程图；

图4为本发明提供的车载图像目标检测模型的结构示意图；

图5为本发明提供的基于卷积神经网络的车载图像目标检测系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明提供的一种基于卷积神经网络的车载图像目标检测方法，包括：

步骤100：基于骨干网络ResNet101构建非对称卷积结构得到第一神经网络。非对称卷积结构包括：多个非对称卷积分支。非对称卷积分支对骨干网络ResNet101中卷积块输出的特征图像进行非对称卷积处理，具体的：

第一非对称卷积分支对骨干网络ResNet101中卷积块输出的特征图像进行卷积核为1*1的卷积操作。

第二非对称卷积分支对骨干网络ResNet101中卷积块输出的特征图像进行卷积核为1*3和卷积核为3*1的卷积操作。

第三非对称卷积分支对骨干网络ResNet101中卷积块输出的特征图像进行卷积核为1*5和卷积核为5*1的卷积操作。

步骤101：基于第一神经网络构建特征融合模块得到第二神经网络。第二神经网络中包括：基于骨干网络ResNet101、非对称卷积结构和特征融合模块获得金字塔结构的特征图层。

步骤102：基于第二神经网络构建区域建议网络得到第三神经网络。区域建议网络包括卷积层、第一分类支路和第一回归支路。卷积层用于以特征图层输出的特征图为输入得到候选区域。第一分类支路用于以候选区域为输入得到前景目标的概率。第一回归支路用于以候选区域为输入得到候选区域的参数。参数包括：候选区域的左上角坐标、边框宽度和边框高度。

步骤103：基于第三神经网络构建网络检测头得到第四神经网络。网络检测头包括第二分类支路和第二回归支路。第二分类支路用于以候选区域特征图为输入，利用分类损失函数进行背景和前景目标的分类以确定候选区域所属的目标类别。第二回归支路用于以候选区域特征图为输入，利用回归损失完成边框回归操作，并获得目标的位置信息。

步骤104：采用车载图像目标检测数据集对第四神经网络进行优化训练得到车载图像目标检测模型。车载图像目标检测模型的结构具体如图4所示。其中，车载图像目标检测数据集的构建过程为：

采用车载相机采集多种驾驶场景中的路况图像。

采用Labelme软件对路况图像进行标注，生成与每张路况图像对应的标注文件。

对路况图像进行图像增强操作，得到车载图像数据集。

基于车载图像数据集和标注文件生成车载图像目标检测数据集。

步骤105：采用车载图像目标检测模型，以待检测的车载图像为输入得到目标检测结果。

下面基于具体应用过程对本发明上述提供的基于卷积神经网络的车载图像目标检测方法进行说明。

基于卷积神经网络的车载图像目标检测方法的具体实施过程包括：

步骤一、构建车载图像目标检测数据集。如图2所示，车载图像目标检测数据集的具体构建过程为：

首先，基于车载相机对多种驾驶场景中的路况进行拍摄采集，保存格式为JPEG。其次采用Labelme软件进行图像标注，在每张车载图像中标注出各个路面物体的所在位置及对应类别标签，并获得每张图像对应的标注文件（JSON格式），将其转化成XML文件格式。接下来，对车载图像进行数量增强，包括水平翻转和多角度旋转（90°、180°、270°）两类仿射变换操作，得到车载图像数据集。最后，基于车载图像数据集与标注文件获得VOC2007数据集格式的车载目标检测数据集，其中训练集与测试集的划分比例为7:3。

步骤二、搭建深度神经网络，并采用车载图像目标检测数据集的训练集进行深度神经网络训练，得到相应检测模型（即车载图像目标检测模型），以本发明输入车载图像512×512为例，描述具体过程如下：

（1）在骨干网络ResNet101的基础上，设计非对称卷积结构。

本发明选择ResNet101作为提取图像特征信息的骨干网络，其组成结构为五个依次连接的卷积块(conv1、conv2、conv3、conv4、conv5)，将各卷积块的输出特征图分别表示为C_1、C_2、C_3、C_4、C_5。设计非对称卷积结构，并将其嵌入ResNet101的卷积块之后，从而使后续特征图都能获取不同外形和旋转角度下的目标特征信息。如图3所示，以本发明输入车载图像512×512为例，展示非对称卷积结构的设计过程：

首先，将C_1、C_2、C_3、C_4、C_5作为非对称卷积结构的输入，其特征图尺寸依次为256×256×128、128×128×256、64×64×512、32×32×1024、16×16×2048。其次，为了对五个特征图的通道数进行统一，将各个特征图分别输入一个卷积核大小为1*1的卷积层中，该操作将特征图的通道数统一为固定值256，并保证特征图空间尺寸不变，即256×256×256、128×128×256、64×64×256、32×32×256、16×16×256。

如图4所示，对五个特征图分别进行如下相同操作，此处以C_3为例：为了在后续信息融合过程中保留特征图的原始特征信息，第一条非对称卷积分支对输入特征图进行一次卷积核为1*1的卷积操作。为了提取多样化的目标外形特征，展开三条不同形状的非对称卷积分支，第二条非对称卷积分支依次对输入特征图进行一次卷积核为1*3的非对称卷积操作和一次卷积核为3*1的非对称卷积操作。第三条非对称卷积分支依次对输入特征图进行一次卷积核为1*5的非对称卷积操作和一次卷积核为5*1的非对称卷积操作。第四条非对称卷积分支依次对输入特征图进行一次卷积核为1*7的非对称卷积操作和一次卷积核为7*1的非对称卷积操作。将特征图C_3分别输入四条非对称卷积分支中，获得四张尺寸均为64×64×256的特征图，并采用元素级加和操作对四张特征图进行特征信息融合，输出尺寸为64×64×256的特征图S_3。经过空洞卷积多分支结构后，依次得到特征图S_1、S_2、S_3、S_4、S_5，尺寸依次为256×256×256、128×128×256、64×64×256、32×32×256、16×16×256。

非对称卷积结构通过采用不同形状的非对称卷积核进行目标特征提取，可使卷积层获得多种形状的感受野，从而有助于获取不同形状和旋转角度下的目标特征信息。同时为了避免损失有助于精确定位的目标细节信息，此处采用第一条1*1卷积分支来保留特征图的原始特征信息。

（2）构建特征融合模块。

如图4所示，特征融合模块的具体操作过程为：此处将特征图S_5命名为F_5，则F_5尺寸为16×16×256。采用上采样操作，将F_5的尺寸放大为原来的2倍，即32×32×256，并将其与相同尺寸的S_4进行元素级相加操作，从而得到F_4。得到F_4后，再对F_4进行尺寸放大的2倍上采样操作，并与S_3进行元素级加和，获得F_3。接下来，依次对F_3和F_2重复上述特征融合操作，得到F_2和F_1特征层。为了消除融合过程中的特征混叠效应，此处对每个特征图进行一次卷积核为3×3的卷积操作，从而得到最终的F_1~F_5层。

特征融合模块通过在非对称卷积结构的基础上，构建多层级的金字塔网络，可使单一特征层在包含本层特征信息的同时，获得来自相邻高层的语义信息，从而生成具有丰富多尺度上下文特征信息的特征图层，增强了网络对不同尺寸目标的特征表达能力。

（3）构建区域建议网络（Region Proposal Network，RPN）。

如图4所示，目前已基于骨干网络、非对称卷积结构和特征融合模块获得金字塔结构的特征图层，F_1、F_2、F_3、F_4、F_5的尺寸依次为：256×256×256、128×128×256、64×64×256、32×32×256、16×16×256。

将F_1~F_5作为输入特征图，在RPN网络中首先经过一个卷积核为3×3的卷积操作，该过程采用滑动锚框分别在五个特征图上进行遍历操作，并生成一系列的候选区域。再分别输入到RPN的分类支路和回归支路，在分类支路预测候选区域为前景目标的概率，在回归支路预测候选区域边框的左上角坐标、边框宽度和高度。在训练RPN网络时，将与真实目标框的面积交并比大于0.7的目标判定为正样本，面积交并比小于0.3的目标判定为负样本。

（4）构建网络检测头。

为了统一候选区域特征图的尺寸，以便其输入后续的全连接层，分别将每个候选区域根据其面积大小映射到对应的特征层F_k，再通过ROI Align层输出一系列尺寸为7×7的候选区域特征图。

候选区域特征图经过两层全连接层进行特征提取和分类后，再分别输入MaskRCNN的检测头中，该检测头包括两个检测支路（回归支路和分类支路）：利用分类损失函数进行背景和前景目标的分类，确定候选区域所属的目标类别。利用回归损失完成边框回归操作，并获得目标的位置信息。对网络模型进行训练，计算Mask RCNN的多任务损失函数，并进行整个网络的参数更新，最终得到训练模型。多任务损失函数包括两个部分，即分类损失和回归损失，计算式如下：

式中，i表示每一个样本的下标，N _cls和N _reg均为归一化参数，λ为权重的平衡参数。L _cls表示分类损失。p _i表示该样本被预测为车辆的概率，

是已标注的真实数据标签。L _reg表示边框回归损失，定义为Smooth_L1(t-t*)，Smooth_L1函数的定义为：

式中，

表示样本为正样本时，即

不等于0时被激活。t _i={t _x、t _y、t _w、t _h}为Proposal预测框的平移缩放参数，

为Proposal对应的真实数据的平移缩放参数。

（5）采用车载图像目标检测数据集中的训练集，对以上步骤所获得的深度神经网络进行训练和参数优化，对每一张车载图像执行前向传播及反向传播步骤，并基于多任务损失函数更新模型内部参数，得到最终的目标检测模型。

步骤三、采用车载图像目标检测数据集的测试集作为测试实例，输入到步骤二训练好的网络模型中进行目标检测，具体过程如下：

（1）输入一组待测试的图像，限制输入图最大边长为512，经过骨干网络ResNet101、非对称卷积结构、特征融合模块的特征提取后，将输出特征图输入RPN网络，从而获得图中300个候选目标区域。

（2）将原图特征图和各候选目标区域输入ROI Align层，提取候选目标区域的特征图并输出相同尺寸的特征图，用于下一步的目标类别分类和位置定位。

（3）候选目标区域的特征信息经过全连接层、回归支路和分类支路得到各目标的检测框所在的矩形位置信息和类别信息。最终在原始图像中标出所有被标记为目标的外接矩形和类别。

（4）进行结果评测所用指标为平均精度AP及平均精度均值mAP。真反例(TureNegative, TN)：被判定为负样本，事实上也是负样本。真正例(Ture Positve, TP)：被判定为正样本，事实上也是正样本。假反例(False Negative, FN)：被判定为负样本，但实为正样本。假正例(False Positive, FP)：被判定为正样本，但实为负样本。召回率(Recall)=TP/(TP+FN)，准确率(Precision)=TP/(TP+FP)，Precision-Recall(P-R)曲线为以Precision和Recall作为纵、横轴坐标的二维曲线。平均精度AP为每个类别对应的P-R曲线围起来的面积，平均精度均值mAP为每个类别AP值的平均值。

上述提供的步骤100-步骤105为实施车载图像目标检测方法的整体框架，在实际应用过程中，具体计算处理过程可参见上述实施例。

对应于上述提供的基于卷积神经网络的车载图像目标检测方法，本发明还对应提供了一种基于卷积神经网络的车载图像目标检测系统。如图5所示，该车载图像目标检测系统包括：非对称卷积结构构建模块1、特征融合构建模块2、区域建议网络构建模块3、网络检测头构建模块4、优化训练模块5和目标检测模块6。

其中，非对称卷积结构构建模块1用于基于骨干网络ResNet101构建非对称卷积结构得到第一神经网络。

特征融合构建模块2用于基于第一神经网络构建特征融合模块得到第二神经网络。

区域建议网络构建模块3用于基于第二神经网络构建区域建议网络得到第三神经网络。

网络检测头构建模块4用于基于第三神经网络构建网络检测头得到第四神经网络。

优化训练模块5用于采用车载图像目标检测数据集对第四神经网络进行优化训练得到车载图像目标检测模型。

目标检测模块6用于采用车载图像目标检测模型，以待检测的车载图像为输入得到目标检测结果。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于卷积神经网络的车载图像目标检测方法，其特征在于，包括：

基于所述第三神经网络构建网络检测头得到第四神经网络；

2.根据权利要求1所述的基于卷积神经网络的车载图像目标检测方法，其特征在于，所述非对称卷积结构包括：多个非对称卷积分支；

3.根据权利要求2所述的基于卷积神经网络的车载图像目标检测方法，其特征在于，所述非对称卷积分支对骨干网络ResNet101中卷积块输出的特征图像进行非对称卷积处理，包括：

4.根据权利要求1所述的基于卷积神经网络的车载图像目标检测方法，其特征在于，所述第二神经网络中包括：基于所述骨干网络ResNet101、所述非对称卷积结构和所述特征融合模块获得金字塔结构的特征图层。

5.根据权利要求4所述的基于卷积神经网络的车载图像目标检测方法，其特征在于，所述区域建议网络包括卷积层、第一分类支路和第一回归支路；

6.根据权利要求5所述的基于卷积神经网络的车载图像目标检测方法，其特征在于，所述网络检测头包括第二分类支路和第二回归支路；

7.根据权利要求1所述的基于卷积神经网络的车载图像目标检测方法，其特征在于，所述车载图像目标检测数据集的构建过程为：

采用车载相机采集多种驾驶场景中的路况图像；

对所述路况图像进行图像增强操作，得到车载图像数据集；

8.一种基于卷积神经网络的车载图像目标检测系统，其特征在于，包括：