CN114708566A

CN114708566A - 一种基于改进YOLOv4的自动驾驶目标检测方法

Info

Publication number: CN114708566A
Application number: CN202210352281.1A
Authority: CN
Inventors: 姜艳姝; 何小昆
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2022-04-05
Filing date: 2022-04-05
Publication date: 2022-07-05

Abstract

本发明公开了一种基于改进YOLOv4自动驾驶目标检测方法，属于图像处理技术领域。该方法步骤主要包括：S1：获取目标检测常用数据集，并对获得到的数据集通过Mosaic进行预处理；S2：利用NMS、Soft‑NMS以及CIOU损失函数，构建新的非极大值抑制算法Soft‑CIOU‑NMS；S3：改进YOLOv4的特征提取网络，将原YOVOv4的三尺度预测增加到四尺度预测；改进YOLOv4的普通卷积，用深度可分离卷积代替普通卷积，加快检测速度；改进YOLOv4网络结构，加入CBAM注意力机制，增强特征提取能力。本发明可以有效的提高遮挡目标检测的效果，同时对于小目标难以检测的问题也得到了改善。

Description

一种基于改进YOLOv4的自动驾驶目标检测方法

技术领域

本发明涉及自动驾驶目标检测领域，特别是涉及一种基于改进YOLOv4的自动驾驶目标检测方法，适用于提高YOLOv4目标检测对于小目标和遮挡目标的检测效果。

背景技术

汽车工业的发展，使得汽车的保有量不断增加，这就不可避免的带来了交通事故的频发，交通拥挤等问题，给人类的生命财产安全造成了极大的威胁。随着人工智能的发展，自动驾驶技术已经成为解决这些问题的关键手段。同时，随着目标检测的不断发展，常用的目标检测算法已经能够满足一般交通场景下的目标检测，但随着汽车保有量的不断增加，复杂的交通环境越来越多，人与人之间或人与物之间遮挡问题，行人与行人之间都存在着大量的遮挡问题，利用当前已有的目标检测等方法能在一定程度上处理局部的遮挡问题，但是效果不是很理想，还不能处理严重的遮挡问题，因此在复杂的交通场景下，不可避免的会出现小目标以及遮挡目标难以检测问题，因此解决复杂的交通场景下的小目标以及遮挡目标是目标检测算法的关键，也成为近年来目标检测研究的热点。

目标检测分为两个阶段，一个是传统的目标检测算法，一个是基于深度学习的目标检测算法。传统的目标检测框架主要包括三个步骤，首先利用不同尺寸的滑动窗口框住图片中的某一部分作为候选区域，然后提取候选区域的视觉特征，最后利用分类器进行识别。传统的目标检测存在时间复杂度高，检测速度慢，没有很好的鲁棒性等问题。随着深度学习的发展，大量优秀的算法被提出，主要分为基于候选框的两阶段算法和基于回归的单阶段检测算法。在自动驾驶中，要求算法具有实时性，基于回归的检测算法在检测的速度上明显快于两阶段检测算法。基于回归的检测算法以YOLO系列最为常见，将检测目标输入，经过深度神经网络直接得到目标的种类并返回边界框，因其结构简单使其获得了更快的检测速度。另外有研究者提出将焦点损失函数代替交叉熵损失函数，有效的缓解了小目标漏检的问题。

现有的网络虽然在检测速度和精度上都有所提高，但是在小目标以及遮挡目标难以检测的问题上仍然存在着诸多的问题。

发明内容

针对上述问题，本发明的目的在于，在复杂的交通环境下，使得小目标以及遮挡目标难以检测的问题得到缓解，提出一种基于改进YOLOv4的自动驾驶目标检测方法。

为了解决上述问题，本发明提出了一种基于改进YOLOv4的自动驾驶目标检测方法，其特征在于，包括如下步骤：

S1：获取目标检测常规数据集，并对获得到的数据集通过Mosaic进行预处理，将得到的数据集重新进行标注，以得到更适合最为研究对象的复杂数据集；

S2：利用NMS、Soft-NMS以及CIOU损失函数，构建新的非极大值抑制算法 Soft-CIOU-NMS，增强对遮挡目标的检测效果；

S3：改进YOLOv4的特征提取网络，将原YOVOv4的三尺度预测增加到四尺度预测，同时对于浅层信息加入增大感受野模块，增强对小目标的检测效果；

S4：改进YOLOv4的普通卷积，用深度可分离卷积代替普通卷积，加快检测速度；

S5：改进YOLOV4网络结构，加入CBAM注意力机制，增强特征提取能力。

作为对上述步骤的进一步阐述：

进一步的，所述S1的具体步骤为：

S1.1：从多个数据集中选出所需要的图像，将其合并成一个新的数据集；

S1.2：将得到的新的数据集重新进行类别标注，以得到适合自动驾驶目标检测的复杂数据集；

S1.3：对得到的标准数据集利用Mosaic进行处理，且对标准数据集进行划分，以得到训练数据集、验证数据集与测试数据集。

进一步的，所述S2的具体步骤为：

S2.1：损失函数IOU如下所示：

其中A表示预测框的面积，B表示真实框的面积，IOU是通过计算预测框与真实框的交集与并集的比值来反映预测的边框与真实的边框的重叠程度；

S2.2：NMS具体描述如下所示：

其中M为置信度得分最高的基准框与预测框b_i的IOU大于或等于阈值N_t时，直接将b_i的置信度s_i置0，也就是直接将这些预测框过滤掉；

S2.3：Soft-NMS具体描述如下所示：

Soft-NMS将M与预测框b_i的IOU作为f(x)的输入，然后将结果与置信度s_i相乘作为大于置信度的最终得分，衰减函数f(x)采用高斯衰减函数，相比于线性衰减函数，高斯函数的优势在于不存在不连续的问题衰减效果更好，其中σ＝0.5；

S2.4：CIOU具体描述如下所示：

其中b和b^gt分别表示预测边界框与真实边界框的中心点，ρ表示欧氏距离，c表示预测框与真实框的最小外接矩形的对角线距离，αν为惩罚因子，αv计算公式如下；

S2.5：Soft-CIOU-NMS具体描述如下所示：

Soft-CIOU-NMS将NMS和Soft-NMS以及CIOU结合，更好的解决了目标检测过程中目标间相互遮挡的问题。

进一步的，所述S3的具体步骤为：

S3.1：YOLOv4在经过特征提取网络后，进入特征融合网络，将浅层信息位置信息与高层的语义信息融合，最后输出三个尺度的预测网络，13×13、26×26、52×52，在原有的三个尺度的基础上将更浅层的信息融入到PANet网络，生成四个尺度的预测网络13×13、26×26、 52×52、104×104，对小目标的检测有很好的效果；

S3.2：RFB通过模拟人类视觉的感受野加强网络的特征提取能力，通过加入空洞卷积层，从而有效的增大了感受野，分为三个分支，每个分支的底层都经过不同大小的卷积核处理 (1×1，3×3，5×5)，这样使得不同分支都具有不同的感受野，最后将所有的特征图连接起来，使得检测速度和精度都有所提高。

进一步的，所述S4的具体步骤为：

S4.1：普通卷积运行正常卷积过程时，一个卷积核智能得到一个特征，仅仅提取到了图片的一个属性，若要得到更多的属性，则需要更多的滤波器，参数量大运算成本高；

S4.2：深度可分离卷积通过逐通道卷积和逐点卷积两个步骤，其中逐通道卷积的一个卷积核负责一个通道，一个通道只被一个卷积核卷积，通过第一次卷积，卷积核的数量与上一层的通道数量相同，特征图数量与输入层的通道数相同，没有有效的利用不同通道在相同空间位置上的特征信息，因此需要进行逐点卷积，逐点卷积与常规卷积类似，将第一次卷积的 map在深度方向上进行加权组合，生成新的特征图，相同的输入情况下，深度可分离卷积的参数个数是常规卷积的1/3。

进一步的，所述S5的具体步骤为：

S5.1：CBAM是一个轻量级的通用模块，可以无缝的集成到任何CNN框架中，并且一起进行端到端的训练，CBAM模块分为通道注意力模块和空间注意力模块，通道注意力模块关注哪个通道上的特征是有意义的，分别经过全局平均池化和全局最大池化得到两个特征图，将两个特征图分别送入两层全连接神经网络，最后将得到的两个特征图相加，通过Sigmoid 函数得到0～1之间的权重系数，将权重系数与特征图相乘，得到最终结果；

S5.2：将通道注意力模块的结果作为输入，输入到空间注意力模块中，分别进行一个通道维度的最大池化和平均池化得到两个特征图，然后拼接起来，再经过一个卷积核为7×7的卷积层，最后通过Sigmoid函数生成空间权重系数与输入特征图相乘。

本发明最为突出的特点和显著效果是：

通过自制的数据集，使得实验所需要的数据更能满足实验环境，并且实验数据经过Mosaic 数据加强，使样本数据正负更加平衡，有利于检测效果的增强，同时构建的Soft-CIOU-NMS 非极大值抑制算法原理更加的谨慎，在目标检测过程中对于遮挡目标的检测更加的友好，使检测效果得到了增强。

该方法采用的增加预测尺度，同时加入感受野的方法，使得特征融合更加全面，对于小目标的检测效果得到显著的提升，小目标的漏检率得到了降低。同时，采用的深度可分离卷积，在增加了参数的同时保证了检测的速度，保证了实时性，加入的CBAM注意力机制模型的表现能力有了提升，检测效果得到了很大改善。

附图说明

图1为本发明的系统框图；

图2为改进后的网络结构图；

图3为原网络的检测结果图；

图4为改进后的检测效果图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中实施例及实施例中的特征可以相互组合，下面对本发明进一步详细说明。

本发明采用YOLOv4检测框架，同时对框架的特征提取网络做出修改，在融合更浅层信息时加入增大感受野模块RFB，加强网络的融合力度，使网络对小目标的检测效果增强。同时，对于预测层网络增加一个预测头用于检测更小的目标，使小目标的漏检率得到降低。在最后阶段采用更加严谨的非极大值抑制算法，采用构建的Soft-CIOU-NMS非极大值抑制算法，使得网络对于遮挡目标的检测效果显著增强。在增强检测效果的同时也要保证检测的速度，因此在网络中引入深度可分离卷积，将普通卷积替换为深度可分离卷积，使得网络的检测速度提高，依旧满足实时性的要求。

本发明实例的基于YOLOv4的自动驾驶目标检测方法，如图1包括以下步骤：

S1：获取目标检测常用数据集，并对获得到的数据集通过Mosaic进行预处理，将得到的数据集重新进行标注，以得到更适合作为研究对象的复杂数据集；

所述步骤一具体为：

YOLO系列算法在实验时一般采用的现在的通用数据集如COCO、KITTI以及VOC数据集，但是传统的数据集包含的数据类型较杂，包含的种类较多，很多并不符合自动驾驶领域，因此在多个数据集中选出所需要的图像，将其合成一个新的数据集，将得到的新的数据集重新进行类别的标注，去除无用的类别，以得到适合自动驾驶目标检测的复杂数据集，对得到的标准数据集利用Mosaic进行处理，且对标准数据集进行划分，以得到训练数据集、验证数据集与测试数据集。

所述步骤二具体为：

YOLO系列算法在非极大值抑制算法中，选择交并比损失函数，损失函数如下：

当两个物体越接近同一个物体时，则IOU越接近1，则损失就越小，这样就可以通过不断降低损失来使得模型得到更好的预测结果。但是当不相交时或者两物体相距较远时，调整预测框的位置IOU仍等于0，这样网络需要多次迭代才能使两框有交集甚至一直不变花费时间长。同时当交并比相等时，但是重合度去不一样也会使的检测效果不佳。

针对IOU的问题，出现了GIOU，GIOU的具体描述为：

尽管GIOU解决了作为损失函数时梯度无法计算的问题，且加入了最小外包框作为惩罚项。但是依然存在问题，无法解决预测框在真实框内部且预测框大小一致的情况。

针对GIOU，有研究者提出DIOU，DIOU的具体描述为：

DIOU的惩罚项是基于中心点的距离和对角线的比值，避免了像GIOU在两框距离较远时，产生较大的外包框，Loss难以优化，但是DIOU无法解决预测框在真实框内且二者中心距相等的情况。

综合之前的损失函数，CIOU同时考虑了重叠面积、中心点距离以及长宽比三种因素，更好的解决了回归损失问题。

因此，选择CIOU代替IOU来解决交并比的缺陷，CIOU具体描述为：

其中b和b^gt分别表示预测边界框与真实边界框的中心点，ρ表示欧氏距离，c表示预测框与真实框的最小外接矩形的对角线距离，αν为惩罚因子，αν计算公式如下；

CIOU在IOU的基础上多考虑了重叠区域面积，中心点的距离，长宽比三种因素，可以在两个框不相交的情况下，根据惩罚来拉近两个框的距离，能更好的解决回归损失问题。

NMS具体描述如下所示：

传统的非极大值抑制算法，采用贪心策略，核心的思想是通过迭代的方式，其中M为置信度得分最高的基准框与预测框b_i的IOU大于或等于阈值N_t时，直接将b_i的置信度s_i置0，也就是直接将这些预测框过滤掉。传统的非极大值抑制算法过程简单，但是这种贪心的策略会使目标存在遮挡的情况下使得检测效果不佳，当预测框非常紧密时，无法分辨出是属于哪个目标，甚至导致目标直接被过滤，导致漏检。

Soft-NMS具体描述如下所示：

Soft-NMS将M与预测框b_i的IOU作为f(x)的输入，然后将结果与置信度s_i相乘作为大于置信度的最终得分，衰减函数f(x)采用高斯衰减函数，相比于线性衰减函数，高斯函数的优势在于不存在不连续的问题衰减效果更好，其中σ＝0.5，Soft-NMS并不是采用贪心策略，而是遵循IOU越大，得分越大的标准，不会出现漏检的情况，但是仍然采用的是IOU作为评价标准，对框与框的位置关系不能做出合理的评价。

Soft-CIOU-NMS具体描述如下所示：

所述步骤三具体为：

YOLOv4在经过特征提取网络后，进入特征融合网络，将特征融合网络，将浅层信息与高层的语义信息融合，最后输出三个尺度的预测网络，13×13、26×26、52×52，在原有的三个尺度的基础上将更浅层的信息融入到PANet网络，生成四个尺度的预测网络13×13、26×26、 52×52、104×104，对小目标的检测有很好的效果。

RFB通过模拟人类视觉的感受野加强网络的特征提取能力，通过加入空洞卷积层，从而有效的增大了感受野，分为三个分支，每个分支的底层都经过不同大小的卷积核处理(1×1， 3×3，5×5)，这样使得不同分支都具有不同的感受野，最后将所有的特征图连接起来，使得检测速度和精度都有所提高。

所述步骤四具体为：

普通卷积运行正常卷积过程时，一个卷积核智能得到一个特征，仅仅提取到了图片的一个属性，若要得到更多的属性，则需要更多的滤波器，参数量大运算成本高；深度可分离卷积通过逐通道卷积和逐点卷积两个步骤，其中逐通道卷积的一个卷积核负责一个通道，一个通道只被一个卷积核卷积，通过第一次卷积，卷积核的数量与上一层的通道数量相同，特征图数量与输入层的通道数相同，没有有效的利用不同通道在相同空间位置上的特征信息，因此需要进行逐点卷积，逐点卷积与常规卷积类似，将第一次卷积的map在深度方向上进行加权组合，生成新的特征图，相同的输入情况下，深度可分离卷积的参数个数是常规卷积的1/3。

所述步骤5具体为：

CBAM是一个轻量级的通用模块，可以无缝的集成到任何CNN框架中，并且一起进行端到端的训练，CBAM模块分为通道注意力模块和空间注意力模块，意通道注意力模块关注哪个通道上的特征是有意义的输入特征图，分别经过全局平均池化和全局最大池化得到两个特征图，将两个特征图分别送入两层全连接神经网络，最后将得到的两个特征图相加，通过 Sigmoid函数得到0～1之间的权重系数，将权重系数与特征图相乘，得到最终结果，将通道注意力模块的结果作为输入，输入到空间注意力模块中，分别进行一个通道维度的最大池化和平均池化得到两个特征图，然后拼接起来，再经过一个卷积核为7×7的卷积层，最后通过 Sigmoid函数生成空间权重系数与输入特征图相乘。

改进后的网络结构如图2所示。

本发明采用改进后的YOLOv4网络模型，特征提取网络采用深度可分离卷积代替普通卷积，参数量变小，使得检测速度增加，同时在网络中加入了增大感受野模块，将浅层的位置信息融合到预测网络，增大了特征表达能力，使小目标的检测效果明显得到改善。同时使用构建的新的非极大值抑制算法Soft-CIOU-NMS使回归效果更好，使遮挡目标的检测效果得到增强。

实施例

通过输入数据来验证本发明的有益效果，如图3所示：

将数据输入到原网络中，发现近处的遮挡目标有不同程度的漏检，同时远处的小目标也出现了漏检的情况，总体来说，检测效果不佳。

将数据输入到改进后的网络中，如图4所示：

在原网络中没有检测出的近点遮挡目标，以及远点的小目标都能准确的检测出来检测效果得到了明显的增强。同时在检测的精准度上也比原网络得到的提高。

从以上实验中可以得出如下结论：一、构建的新的非极大值抑制算法对于遮挡目标的检测有很好的效果，使得漏检率降低。二、采用的增加预测头的方法以及加入增大感受野模块的方法使得小目标的检测效果得到了改善，使得远处的小目标都能准确的得到检测。

以上所述仅为本发明的一个实施方式，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于改进YOLOv4的自动驾驶目标检测方法，其特征在于，包括以下步骤：

S2：利用NMS、Soft-NMS以及CIOU损失函数，构建新的非极大值抑制算法Soft-CIOU-NMS，增强对遮挡目标的检测效果；

2.根据权利要求1所述的一种基于改进YOLOv4的自动驾驶目标检测方法，其特征在于，所述步骤S1的具体步骤为：

3.根据权利要求1所述的一种基于改进YOLOv4的自动驾驶目标检测方法，其特征在于，所述步骤S2的具体步骤为：

S2.1：损失函数IOU如下所示：

S2.2：NMS具体描述如下所示：

S2.3；Soft-NMS具体描述如下所示：

S2.4：CIOU具体描述如下所示：

S2.5：Soft-CIOU-NMS具体描述如下所示：

4.根据权利要求1所述的一种基于改进YOLOv4的自动驾驶目标检测方法，其特征在于，所述步骤S3的具体步骤为：

S3.1：YOLOv4在经过特征提取网络后，进入特征融合网络，将浅层信息位置信息与高层的语义信息融合，最后输出三个尺度的预测网络，13×13、26×26、52×52，在原有的三个尺度的基础上将更浅层的信息融入到PANet网络，生成四个尺度的预测网络13×13、26×26、52×52、104×104，对小目标的检测有很好的效果；

S3.2：RFB通过模拟人类视觉的感受野加强网络的特征提取能力，通过加入空洞卷积层，从而有效的增大了感受野，分为三个分支，每个分支的底层都经过不同大小的卷积核处理(1×1，3×3，5×5)，这样使得不同分支都具有不同的感受野，最后将所有的特征图连接起来，使得检测速度和精度都有所提高。

5.根据权利要求1所述的一种基于改进YOLOv4的自动驾驶目标检测方法，其特征在于，所述步骤S4的具体步骤为：

S4.1：普通卷积运行正常卷积过程时，一个卷积核只能得到一个特征，仅仅提取到了图片的一个属性，若要得到更多的属性，则需要更多的滤波器，参数量大运算成本高；

S4.2：深度可分离卷积通过逐通道卷积和逐点卷积两个步骤，其中逐通道卷积的一个卷积核负责一个通道，一个通道只被一个卷积核卷积，通过第一次卷积，卷积核的数量与上一层的通道数量相同，特征图数量与输入层的通道数相同，没有有效的利用不同通道在相同空间位置上的特征信息，因此需要进行逐点卷积，逐点卷积与常规卷积类似，将第一次卷积的map在深度方向上进行加权组合，生成新的特征图，相同的输入情况下，深度可分离卷积的参数个数是常规卷积的1/3。

6.根据权利要求1所述的一种基于改进YOLOv4的自动驾驶目标检测方法，其特征在于，所述步骤S5的具体步骤为：

S5.1：CBAM是一个轻量级的通用模块，可以无缝的集成到任何CNN框架中，并且一起进行端到端的训练，CBAM模块分为通道注意力模块和空间注意力模块，通道注意力模块关注哪个通道上的特征是有意义的，分别经过全局平均池化和全局最大池化得到两个特征图，将两个特征图分别送入两层全连接神经网络，最后将得到的两个特征图相加，通过Sigmoid函数得到0～1之间的权重系数，将权重系数与特征图相乘，得到最终结果；