CN114202743A

CN114202743A - 自动驾驶场景下基于改进faster-RCNN的小目标检测方法

Info

Publication number: CN114202743A
Application number: CN202111061549.8A
Authority: CN
Inventors: 周彦; 文思捷; 李云燕; 王冬丽
Original assignee: Xiangtan University
Current assignee: Xiangtan University
Priority date: 2021-09-10
Filing date: 2021-09-10
Publication date: 2022-03-18

Abstract

本发明属于深度学习及计算机视觉领域，具体涉及一种自动驾驶场景下基于改进faster‑RCNN的小目标检测方法。本发明选取ResNet‑50作为主干特征提取网络，首先引入可变形卷积思路对主干网进行改进，提高了卷积神经网络的变换建模能力；然后在主干网络最后两层添加空间注意力机制，能准确定位小目标，提高小目标检测的准确率并增强小目标的特征提取；同时引入特征金字塔结构，结合了自上而下和自下而上以及高低维之间的特征融合策略，从而实现了特征增强；最后利用Soft‑NMS去除冗余边框，得到最好的检测结果；并利用多尺寸训练和大尺度检测的增强方法，提高模型鲁棒性。

Description

自动驾驶场景下基于改进faster-RCNN的小目标检测方法

技术领域

本发明属于深度学习及计算机视觉领域，具体涉及一种自动驾驶场景下基于改进faster-RCNN的小目标检测方法。

背景技术

近年来，随着市场需求变化和汽车行业的高速发展，自动驾驶成为汽车领域的研究热点之一。目前，国内外很多互联网公司以及汽车公司都纷纷涉足自动驾驶领域。目标检测是自动驾驶系统中的关键算法之一，因此针对这种复杂场景设计出高效的目标检测算法是具有挑战性的。

在自动驾驶领域中，主要检测的目标分为两类:静止目标以及运动目标。静止目标如交通标识、交通信号灯、障碍物等；运动目标如车辆、行人、非机动车等。其中对于运动目标的检测尤为重要，其存在很多难点，其中一个就是对于小目标的检测效果不好。因此，能否解决上述问题直接影响了自动驾驶的安全性能高低。

现有技术的缺陷在于，传统的目标检测算法大多利用滑窗，提取不同尺寸不同区域的特征，接着针对具体目标训练相应的分类器，利用训练好的分类器对提取的特征进行分类，比如利用HOG+SVM进行行人检测，利用Haar+AdaBoost进行人脸检测。由于传统的特征都是人类手工设计的特征，许多都是针对特定目标检测而设计的，使用具有局限性。人工设计特征在许多时候并不能刻画出图像的本质，因此在检测时易受各种干扰因素的影响，模型鲁棒性不高，无法在自动驾驶场景中应用。

在当前的研究成果中，基于深度学习的目标检测算法可以分为两类：一类是基于候选区域分类的二阶段目标检测算法，流程一般可以分为两步。首先提取候选区域，再对候选区域进行分类并且对位置坐标进行修正。这类算法精度高，但速度偏慢，代表有R-CNN、Fast-RCNN、Faster-RCNN、Mask-RCNN、Cascade-RCNN以及各种改进版本。另一类是基于候选区域的一阶段算法，将目标检测问题转化为分类问题。此类算法的代表有SSD、 YOLO、YOLOv3、YOLOv4以及各种改进版本。这类算法速度快、模型较小，但对小目标检测的效果很差，容易出现漏检和误检。在自动驾驶系统中，需要检测很远处的目标来提前做出决策。然而，远处的目标在图像中只占据很少的像素点，这给一阶段目标检测算法带来了很大的困难。

发明内容

针对现有现有技术对于小目标检测存在的速度慢，容易出现漏检、误检的技术问题。本发明的目的在于提供一种解决在自动驾驶场景下对小目标的漏检和误检问题的目标检测算法。

为了实现上述技术目的，本发明的技术方案是，

一种自动驾驶场景下基于改进faster-RCNN的小目标检测方法，包括以下步骤：

步骤1：在自动驾驶场景下所拍摄的照片中搜集与驾驶相关的目标数据，制作数据集；

步骤2：搭建神经网络模型框架；

所述的神经网络模型的框架基于Faster-RCNN构成，包括主干特征提取网络、特征融合网络、区域建议网络和分类与回归网络；

所述的主干特征提取网络采用ResNet-50，并用可变形卷积V2代替ResNet-50最后两层中的传统卷积，同时在最后两层中添加空间注意力机制；

所述的特征融合网络将主干特征提取网络提取的特征图进行改进的特征金字塔融合后传入区域建议网络生成一系列建议框，对目标进行初步定位，然后将建议框统一至相同大小，经过分类与回归网络处理得到最终结果；

步骤3：训练神经网络模型；

采用多尺度训练的方法训练神经网络模型，通过预热学习率的方式，以二分类交叉熵和Smooth L1 Loss作为分类损失函数和回归损失函数，并采用随机梯度下降法来优化损失函数；

步骤4：将待识别的图片输入训练好的神经网络模型中，得到检测结果。

所述的一种自动驾驶场景下基于改进faster-RCNN的小目标检测方法，所述的步骤1 中，与驾驶相关的目标数据包括车辆、行人、交通信号灯和交通标志。

所述的一种自动驾驶场景下基于改进faster-RCNN的小目标检测方法，所述的步骤2 中，所述的可变形卷积V2计算公式为：

其中y表示输出的特征图，w表示的是每个采样值的权重，p_n是卷积输出位置p₀对应所在的一个整数偏移，用来提供附近语义信息，x表示输入的特征图，Δp_n为偏移量，R 表示在输入的特征图上采样所使用的规则网格，R＝{(-1,-1),(-1,0),...,(0,1),(1,1)}，Δm_n表示每个偏移的采样点的权重，Δm_n∈[0，1]。

所述的一种自动驾驶场景下基于改进faster-RCNN的小目标检测方法，所述的步骤2 中，空间注意力机制是使用全局平均池化和全局最大值池化对输入的特征图F进行压缩操作，对输入的特征图F分别在通道维度上做mean和max操作，然后将得到的两个特征图按通道维度拼接，再经过一个卷积操作，降维为1个通道，使得到的特征图在空间维度上与输入的特征图一致，最后经过sigmoid函数生成空间注意力特征Ms；其中空间注意力机制M_s(F)计算公式为：

式中，σ表示Sigmoid函数，AvgPool(F)表示对输入的特征图进行平均池化，MaxPool(F)表示对输入的特征图进行最大池化，

和

分别代表全局平均池化和全局最大池化池化输出的特征，f^7*7表示空间注意力机制中使用的7×7卷积核；

所述的步骤2中添加空间注意力机制，是将上一层产生的特征图做一次卷积计算产生输入特征图F，F经过空间注意力模块后得到空间注意力特征Ms，将F与Ms进行逐元素乘法操作得到新的特征图F¹，然后将F¹与F进行相加操作，保留ResNet的残差模块，最后生成的特征图F²作为下一个模块的输入。

所述的一种自动驾驶场景下基于改进faster-RCNN的小目标检测方法，所述步骤2中所述的改进的特征金字塔融合，是在FPN的基础上加入自底向上的金字塔融合，即将主干特征提取网络生成的特征图C2-C5，经过一个自顶向下的特征金字塔融合得到特征图 P2-P5，再将P5经过两倍降采样得到特征图P6以增强鲁棒性；然后在FPN后面添加一个自底向上的金字塔融合，将底层的强定位特征传递上去，得到特征图N2-N6；再将这五个层次的特征统一缩放到N4大小，接着进行相加取平均操作，即：

其中C表示将输入进来的特征图相加取平均后的输出，L为相加取平均操作的特征图个数，C_l为第l层的特征，即特征提取网络后四层中的某一层的特征；

然后将C经过Non-local模块提炼后，缩放到原始尺寸大小，再和特征图N2-N6相加以增强原特征。

所述的一种自动驾驶场景下基于改进faster-RCNN的小目标检测方法，将建议框统一至相同大小是通过ROI Align模块进行池化来实现的。

所述的自动驾驶场景下基于改进faster-RCNN的小目标检测方法，所述的步骤3中训练神经网络模型包括以下步骤：首先加载Resnet-50在ImageNet上的预训练权重，然后采用随机梯度下降法SGD来优化损失函数，将初始学习率设置为0.005，并采用预热学习率的方式，即训练初期使用较0.005更小的学习率，当模型趋于稳定后，再选择预先设置的学习率进行训练；动量设为0.9，权值的衰减系数设为0.0001，批量大小设为2，一共训练 12个Epoch，在第9个Epoch和第12个Epoch分别将学习率设置为0.0005和0.00005，每迭代一个Epoch保存一次模型，最终选取精度最高的模型；并使用多尺度训练的增强方法，将输入图片大小设置为1333×640和1333×800，每张图片随机选取一种尺度训练，以提升模型鲁棒性。

所述的自动驾驶场景下基于改进faster-RCNN的小目标检测方法，所述的步骤3中所述的损失函数表达式L({p_i},{u_i})为：

式中，N_cls和N_reg分别表示分类的个数和候选框的个数，i代表锚点的编号，p_i表示候选框是正样本即作为前景的所要检测目标的概率，如果候选框为正样本，真实标签

如果候选框为负样本即背景，则

t_i表示预测框的边界参数，

代表前景目标的真实框边界参数，λ用来平衡两个损失函数在训练的总损失函数中的占比。

一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现前述的方法。

一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现前述的方法。

本发明的有益效果在于：

(1)本发明针对在自动驾驶场景下，目标尺度不一且形状多变，使用传统的卷积神经网络对物体的检测不够高效，采用的可变形卷积对普通卷积进行修改，提升CNN的形变建模能力，从而提升对小目标的检测效果。

(2)在目标检测数据集中，小目标像素的占比很小，本发明添加空间域注意力能准确定位小目标，提高小目标检测的准确率。

(3)针对FPN网络只增强了语义信息，对定位信息没有传递，并且忽略了关注非相邻层之间的特征图关系，本发明充分融合各个尺度的特征，减少特征融合中信息的丢失，从而提升检测精度。

(4)用软性非极大抑制代替传统极大抑制，避免同类物体重叠度角度较高时产生漏检的情况。

本发明应用了多尺度训练和大尺度测试的增强方法，提升了模型的鲁棒性和准确性。

附图说明

图1为本发明的神经网络模型结构图。

图2为本发明的总体流程示意图。

图3为可变形卷积的实现。

图4(a)为空间注意力机制模块实现。

图4(b)为添加了空间注意力的ResNet模块。

图5为本发明改进的特征金字塔模块

图6(a)为图片A的原图。

图6(b)为图片A基于Faster-RCNN的检测图。

图6(c)为图片A基于本发明神经网络框架下的检测图。

图7(a)为图片B的原图。

图7(b)为图片B基于Faster-RCNN的检测图。

图7(c)为图片B基于本发明神经网络框架下的检测图。

图8为本发明中可变形卷积V2与传统卷积区别。

具体实施方式

下面结合附图对本发明做进一步的描述。

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示为本发明的神经网络结构模型图，在图1所示的神经网络模型结构图中，依次包括主干特征提取网络，特征融合模块，区域建议网络和分类与回归网络。

如图2所示为本发明的流程示意图，主要包括以下几个步骤：1)自动驾驶场景下的数据收集；2)神经网络模型的搭建；3)网络模型参数的设置与修改；4)根据损失函数曲线图和MAP曲线图，针对检测结果进行分析。

本实施例的具体步骤如下：

S1、搜集街道场景下的数据集，包括车辆、行人、停车标志、交通信号灯等。

S2、搭建本发明所需要的神经网络模型框架。本发明的网络框架是基于Faster-RCNN 改进的，选择ResNet-50作为主干特征提取网络。并引入可变形卷积思路对主干网进行改进，即用可变形卷积V2代替ResNet-50最后两层中的传统卷积。从而提高了卷积神经网络的变换建模能力，赋予图像关键特征更大的权重，使边界框更好地匹配在目标上，从而提高模型对复杂场景下的适应能力。同时在主干网络最后两层添加空间注意力机制，能准确定位小目标，提高小目标检测的准确率。还引入特征金字塔(FPN)结构并针对其不足进行了改进，结合了自上而下和自下而上以及高低维之间的特征融合策略，从而实现了特征增强。本实施例使用一种软性非极大值抑制(Soft-NMS)的方法代替传统的非极大值抑制(NMS)，减少在密集和遮挡目标下的漏检情况。使用多尺度训练和大尺度测试的增强方法，提升模型的鲁棒性和实用性。

其中，步骤S2具体包括以下内容：

采用具有变换建模能力可变形卷积。其基本思想是对采样点学习一个偏移，使卷积核专注于感兴趣区域或者目标而不是固定位置的采样。本实施例中的可变形卷积V2计算公式为：

而传统的卷积结构的计算方式如下：

上式计算了对于在输出的特征图上的每个位置p₀，其中p_n是对R中所列位置的枚举。参见图8，本实施例中的可变形卷积V2的Δp_n基于一个平行网络学习offset即偏移，使得卷积核在输入特征图上的采样点发生偏移，且Δm_n为每个采样点的权重，集中于感兴趣的区域或者目标。由于标准卷积中的规则格点采样是导致网络难以适应几何形变的主要原因，为了削弱这个限制，故本实施例中对卷积核中每个采样点的位置都增加了一个偏移变量，可以实现在当前位置附近随意采样而不局限于之前的规则格点。其中Δp_n和Δm_n是由一个平行的卷积神经网络计算得到，通过卷积计算得到每个采样点的偏移以及偏移后采样点的权重。参见图3，其给出了可变形卷积实现方法，通过平行的卷积神经网络可将采样点偏移值和权重值纳入网络学习的过程中，由最终检测的损失函数监督学习最佳的偏移值和权重值。假设平行网络的输入特征图为N通道，采样点偏移部分对应于两个维度的偏移值，因此输出通道数对应于2N；而权重网络是每个采样点的权重值，通道数对应于输入通道数N。

本实施例中所引入空间注意力机制，是用于准确定位空间中的目标特征，在目标检测数据集中，小目标像素的占比很小，添加空间域注意力能准确定位小目标，提高检测的准确率。图4(a)给出了空间注意力机制实现方法，首先，使用全局平均池化和全局最大值池化对输入的特征图F进行压缩操作，对输入特征分别在通道维度上做mean和max操作。然后将得到的两个特征图按通道维度拼接，再经过一个卷积操作，降维为1个通道，保证得到的特征图在空间维度上与输入的特征图一致，最后经过sigmoid函数生成空间注意力特征Ms。

空间注意力模块的计算公式如下：

公式中，σ表示Sigmoid函数，

和

分别代表全局平均池化和全局最大池化池化输出的特征，卷积层使用7×7的卷积核。

图4(b)给出了在ResNet-50网络的结构块中添加空间注意力的方法。将上一层产生的特征图做一次卷积计算产生输入特征图F，F经过空间注意力模块后得到空间注意力特征M_s，将F与M_s进行逐元素乘法操作得到新的特征图F¹，然后将F¹与F进行相加操作，保留ResNet的残差模块，最后生成的特征图F²作为下一个模块的输入。

关于本实施例中引入改进的特征金字塔结构，在图5给出了具体融合操作，首先将ResNet50生成的特征图C2-C5，经过一个自顶向下的特征金字塔融合得到特征图P2-P5， P6由P5经过两倍降采样得到，以增强鲁棒性。然后在FPN后面添加一个自底向上的金字塔融合，将底层的强定位特征传递上去，得到特征图N2-N6。再将这五个层次的特征统一缩放到N4大小，进行简单的相加取平均操作，具体操作公式如下：

将得到的特征图C通过Non-local模块提炼后，缩放到原始尺寸大小，和原特征相加，增强原特征，得到Z2-Z6。在此过程中，每种尺度的特征图都可以从其他特征图中获得相等的信息，使得特征融合的过程更加平衡。

本实施例中利用Soft-NMS去除冗余边框。非极大值抑制(NMS)是一种去除非极大值的算法，可以去掉目标检测任务的重复检测框，找到最佳目标检测位置。在模型训练过程中，利用NMS算法对生成的大量候选框进行后处理，去除冗余候选框，得到最具代表性的结果，以加快目标检测的效率和提高检测精度。

Soft-NMS的特点是可按照目前分数递归对其进行重评，而不是粗暴得进行置零，这样就可以避免同类物体重叠度角度较高时产生漏检的情况，同时利用该算法无须对模型进行重新训练，不会增加训练开销。

S3、网络模型参数设置和修改。

本发明使用的GPU为2张NVIDIA 1080Ti。

采用预热学习率的方式，训练初期使用较小的学习率，当模型趋于稳定后，再选择预先设置的学习率进行训练。动量设为0.9，权值的衰减系数设为0.0001，批量大小设为2，一共训练12个Epoch，在第9个Epoch和第12个Epoch分别将学习率设置为0.0005和0.00005。并使用多尺度训练的增强方法，将输入图片大小设置为1333×640和1333×800，每张图片随机选取一种尺度训练，以提升模型鲁棒性。

采用二分类交叉熵和Smooth L1 Loss作为分类损失函数和回归损失函数，并采用随机梯度下降法来优化损失函数。

所述的损失函数表达式为：

式中，N_cls和N_reg分别表示分类的个数和候选框的个数，i代表锚点的编号，p_i表示候选框是正样本的概率，如果候选框为正样本，真实标签

如果候选框为负样本即背景，则

t_i表示预测框的边界参数，

S4、根据损失函数曲线图和MAP曲线图，针对检测结果进行分析。

图6(a)为图片A的原图，图6(b)为图片A基于Faster-RCNN的检测图，图6(c) 为图片A基于本发明神经网络框架下的检测图；图7(a)为图片B的原图，图7(b)为图片B基于Faster-RCNN的检测图，图7(c)为图片B基于本发明神经网络框架下的检测图。

通过检测效果图可以看出，本发明使用的神经网络模型框架检测出来的效果图精确度要更高一些，对小尺度行人及车辆检测效果更加优秀，且得分普遍较高，表明本发明采用的网络结构可以进一步提高检测效果。

根据本发明的实施例，本发明还提供了一种电子设备和一种计算机可读介质。

其中电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

具体使用中，用户能够通过作为终端设备的电子设备并基于网络来与同样作为电子设备的服务器进行交互，实现接收或发送消息等功能。终端设备一般是设有显示装置、基于人机界面来使用的各种电子设备，包括但不限于智能手机、平板电脑、笔记本电脑和台式电脑等。其中终端设备上根据需要可安装各种具体的应用软件，包括但不限于网页浏览器软件、即时通信软件、社交平台软件、购物软件等。

服务器是用于提供各种服务的网络服务端，如对收到的从终端设备传输过来的自动驾驶场景下的图片提供相应小目标检测服务的后台服务器。以实现对接收到的图片进行小目标检测，并将最终的小目标检测结果返回至终端设备。

本实施例所提供的小目标检测方法一般由服务器执行，在实际运用中，在满足必要条件下，终端设备亦可直接执行小目标检测。

类似的，本发明的计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明实施例的一种小目标检测方法。

本发明选择ResNet-50作为主干特征提取网络，并引入可变形卷积思路对主干网进行改进，提高了卷积神经网络的变换建模能力，赋予图像关键特征更大的权重，使边界框更好地匹配在目标上，从而提高模型对复杂场景下的适应能力；并在主干网络最后两层添加空间注意力机制，能准确定位小目标，提高小目标检测的准确率；同时引入特征金字塔结构，针对其不足进行了改进，结合了自上而下和自下而上以及高低维之间的特征融合策略，从而实现了特征增强；使用一种软性非极大值抑制的方法代替传统的非极大值抑制，减少在密集和遮挡目标下的漏检情况；使用多尺度训练和大尺度测试的增强方法，提升模型的鲁棒性和实用性。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种自动驾驶场景下基于改进faster-RCNN的小目标检测方法，其特征在于，包括以下步骤：

步骤2：搭建神经网络模型框架；

步骤3：训练神经网络模型；

2.根据权利要求1所述的一种自动驾驶场景下基于改进faster-RCNN的小目标检测方法，其特征在于，所述的步骤1中，与驾驶相关的目标数据包括车辆、行人、交通信号灯和交通标志。

3.根据权利要求1所述的一种自动驾驶场景下基于改进faster-RCNN的小目标检测方法，其特征在于，所述的步骤2中，所述的可变形卷积V2计算公式为：

其中y表示输出的特征图，w表示的是每个采样值的权重，p_n是卷积输出位置p₀对应所在的一个整数偏移，用来提供附近语义信息，x表示输入的特征图，Δp_n为偏移量，R表示在输入的特征图上采样所使用的规则网格，R＝{(-1,-1),(-1,0),...,(0,1),(1,1)}，Δm_n表示每个偏移的采样点的权重，Δm_n∈[0，1]。

4.根据权利要求1所述的一种自动驾驶场景下基于改进faster-RCNN的小目标检测方法，其特征在于，所述的步骤2中，空间注意力机制是使用全局平均池化和全局最大值池化对输入的特征图F进行压缩操作，对输入的特征图F分别在通道维度上做mean和max操作，然后将得到的两个特征图按通道维度拼接，再经过一个卷积操作，降维为1个通道，使得到的特征图在空间维度上与输入的特征图一致，最后经过sigmoid函数生成空间注意力特征Ms；其中空间注意力机制M_s(F)计算公式为：

和

5.根据权利要求1所述的一种自动驾驶场景下基于改进faster-RCNN的小目标检测方法，其特征在于，所述步骤2中所述的改进的特征金字塔融合，是在FPN的基础上加入自底向上的金字塔融合，即将主干特征提取网络生成的特征图C2-C5，经过一个自顶向下的特征金字塔融合得到特征图P2-P5，再将P5经过两倍降采样得到特征图P6以增强鲁棒性；然后在FPN后面添加一个自底向上的金字塔融合，将底层的强定位特征传递上去，得到特征图N2-N6；再将这五个层次的特征统一缩放到N4大小，接着进行相加取平均操作，即：

6.根据权利要求1所述的一种自动驾驶场景下基于改进faster-RCNN的小目标检测方法，其特征在于，将建议框统一至相同大小是通过ROIAlign模块进行池化来实现的。

7.根据权利要求1所述的自动驾驶场景下基于改进faster-RCNN的小目标检测方法，其特征在于：所述的步骤3中训练神经网络模型包括以下步骤：首先加载Resnet-50在ImageNet上的预训练权重，然后采用随机梯度下降法SGD来优化损失函数，将初始学习率设置为0.005，并采用预热学习率的方式，即训练初期使用较0.005更小的学习率，当模型趋于稳定后，再选择预先设置的学习率进行训练；动量设为0.9，权值的衰减系数设为0.0001，批量大小设为2，一共训练12个Epoch，在第9个Epoch和第12个Epoch分别将学习率设置为0.0005和0.00005，每迭代一个Epoch保存一次模型，最终选取精度最高的模型；并使用多尺度训练的增强方法，将输入图片大小设置为1333×640和1333×800，每张图片随机选取一种尺度训练，以提升模型鲁棒性。

8.根据权利要求1所述的自动驾驶场景下基于改进faster-RCNN的小目标检测方法，其特征在于：所述的步骤3中所述的损失函数表达式L({p_i},{u_i})为：

如果候选框为负样本即背景，则

t_i表示预测框的边界参数，

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。