CN112801183B

CN112801183B - 一种基于YOLO v3的多尺度目标检测方法

Info

Publication number: CN112801183B
Application number: CN202110115719.XA
Authority: CN
Inventors: 陈宝远; 刘奕彤; 孙崐
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2023-09-08
Anticipated expiration: 2041-01-28
Also published as: CN112801183A

Abstract

本发明公开了一种基于YOLO v3的多尺度目标检测方法，包括：S1、对数据集图像进行预处理，将图像数据调整到网络设定的尺寸；S2、在骨干网络中加入改进后的DenseNet对图像进行不同层次信息的提取，输出四个尺寸不同的特征图；S3、在输出的四个特征层之后加入空间金字塔模块；S4、将经过空间金字塔模块的特征图分别与上一层尺寸较大的特征图进行融合，构成四个尺寸的多尺寸预测机制。本发明从特征的角度出发，通过加入密集连接结构、空间金字塔结构和优化多尺度预测机制，将特征进行深层与浅层、局部与全局之间的深度融合，提高对各尺寸目标的检测精准度，可应用于实际生活各复杂场景下的目标检测。

Description

一种基于YOLO v3的多尺度目标检测方法

技术领域

本发明创造属于计算机视觉检测领域，尤其是涉及一种基于YOLO v3的多尺度目标检测方法。

背景技术

目标检测的任务是找出图像或视频中的感兴趣物体，同时检测出它们的位置和大小，是机器视觉领域的核心问题之一，目前已经被广泛应用于X光图像检测、汽车辅助驾驶、交通标志识别、医学图像分析等多个领域。通过计算机视觉技术可以大大减少实际生产生活中的人力物力成本，因而在复杂环境下实现对各尺寸目标的精准识别在实际应用中有着重要的研究意义。

随着深度学习时代的来临，目标检测方法已经从基于手工特征提取的传统检测算法发展为基于深度学习的目标检测算法，通过深层次的神经网络学习更为复杂的特征信息，以进一步增强模型对图像的表达能力。目前基于深度学习的目标检测算法主要分为两个方向：二阶段检测算法和一阶段检测算法。二阶段检测算法以R-CNN系列为代表，使用最广泛的有Fast RCNN、Faster RCNN等，这类基于区域的检测算法首先要从图片中搜索出一些可能存在对象的候选区，然后再对每个候选区进行对象识别。而以YOLO、SSD和RetinaNet等为代表的一阶段检测算法则是直接在网络中提取特征来预测物体分类和位置，是一种端对端的目标检测方法，大大加快了检测速度。

YOLO(You Only Look Once)将候选区和对象识别合二为一，直接将检测任务当作一个回归任务来完成，由于整个检测通道是一个单一的网络，因此可以直接对检测性能进行端到端的优化。YOLO v3作为现阶段最经典的单阶段目标检测算法，在YOLO、YOLO v2的基础上进一步进行了改进，平衡了检测精度与检测速度之间的关系，创新性地使用多尺度特征进行对象检测，但是对于目标尺寸大小不同以及目标之间距离较近的情况无法准确识别。

发明内容

有鉴于此，本发明创造旨在克服上述现有技术中存在的缺陷，提出一种基于YOLOv3的多尺度目标检测方法。

为达到上述目的，本发明的技术方案是这样实现的：

一种基于YOLO v3的多尺度目标检测方法，包括：

S1、对数据集图像进行预处理；将图像数据调整到网络设定的尺寸；

S2、在骨干网络中加入改进后的DenseNet结构，使用改进后的骨干网络对输入图像进行下采样操作；

S3、在输出的几个不同尺寸的特征层之后加入空间金字塔结构；

S4、将经过空间金字塔模块后的特征图分别与上一层尺寸较大的特征图进行融合，构成四个尺寸的多尺寸预测机制；

S5、将输出的不同尺寸的特征图传递到进行检测预测的分类器中；

S6、对输入图像进行精确的类别预测、以及位置坐标的回归；

S7、计算分类网络与回归网络的多任务损失函数，并对网络进行训练优化，使分类与回归的损失函数达到收敛并保存网络的权重参数；

S8、部署优化后的参数，对目标进行检测。

进一步的，所述步骤S1的具体步骤如下：

S101、对图像进行颜色增强、平移变化、水平以及垂直翻转；

S102、使用线性插值法将所有图像数据大小放缩到416*416。

进一步的，所述步骤S2中加入DenseNet的具体方法为：

S201、对DenseNet-121的结构进行调整，利用改变卷积核步长的方法代替原结构中的池化操作；

S202、利用改进的DenseNet-121结构替换原骨干网络中的残差结构，在缓解梯度消失问题的同时加强特征的复用和传递。

进一步的，所述步骤S3中输出的四个不同尺寸的特征层后加入的空间金字塔池化模块的具体操作为：将空间金字塔池化模块中的最大的池化核设置为与需要池化的特征图大小相同的尺寸，如最后一层中最小尺度的特征图大小为13*13，此时将SPP模块最大池化核设置为13以实现局部特征和全局特征的特征图级别的融合。

进一步的，所述步骤S4中四个尺度特征融合的具体方法为：

S401、参考原骨干网络的融合方法，将经过第二次下采样，已经获得部分特征信息的104*104特征图与经过2倍上采样的52*52特征图进行融合，与尺寸为52*52，26*26和13*13的特征图共同进行特征预测；

S402、使用convolutional 3*3结构以及双层1*1卷积结构进行进一步卷积操作。

进一步的，所述步骤S5中使用的分类器为：Logistic分类器，支持多标签分类。

进一步的，所述步骤S6的具体方法为：

S601、将不同的输入图像分成s*s个单元格，对象中心坐标所在的单元格负责预测该对象的边界框信息。通过IoU值最大的预测框对输入图像进行精确的类别预测；

S602、根据单元格的左上角坐标(c_x,c_y)和先验框尺寸p_w、p_h计算预测框的中心坐标以及尺寸信息。

进一步的，所述步骤S7的具体方法为：

S701、使用均方差(Mean Square Error，MSE)计算坐标回归损失：

第一行和第二行分别为边框中心坐标及边框的宽度和高度误差。其中，式中表示第i个grid cell中存在对象，/>表示第i个grid cell的第j个bounding box中存在对象；

S702、使用交叉熵计算置信度损失和分类损失：

L₂为当边框内有、无对象时的误差，L₃为对象的分类误差。其中，表示第i个grid cell的第j个bounding box中不存在对象；

S703、最后计算总的损失函数：

在计算损失函数的过程中，负责预测的预测框的坐标和存在对象的单元格才计入计算；

S704、对全连接网络进行训练，使损失函数达到收敛。

相对于现有技术，本发明创造具有以下优势：

本发明创造使用改进后的Densene-121结构替换原YOLO v3骨干网络中的残差结构，与传统的ResNet网络相比，该网络所需的参数量不到ResNet的一半，并且进一步的缓解了随着网络深度增加带来的梯度消失问题，加强了特征信息的传递，使得网络能够学习到更多层次的特征信息。

本发明创造解决了YOLO v3在复杂场景中目标尺寸大小不同和小目标重叠距离较近时无法准确识别的问题。使用DenseNet密集连接网络来提高特征提取网络提取信息的能力，同时优化多尺度预测机制，构建第四个尺度的预测层对不同层次的信息进行融合，使得网络能都学习到能够提高小目标识别率的位置信息。加入的空间金字塔池化模块也能够实现局部特征与全局特征在特征图级别上的深度融合。从多尺度特征融合的角度出发，提升了检测算法对不同尺寸目标的检测能力，增强了检测模型的鲁棒性。

附图说明

构成本发明创造的一部分的附图用来提供对本发明创造的进一步理解，本发明创造的示意性实施例及其说明用于解释本发明创造，并不构成对本发明创造的不当限定。在附图中：

图1为本发明创造实施例所述基于YOLO v3的多尺度目标检测算法的网络结构图；

图2为本发明创造实施例中改进后的骨干网络结构图；

图3为本发明创造实施例中基于YOLO v3的多尺度目标检测算法网络的基本单元结构图；

图4为本发明创造实施例中改进的DenseNet-121的结构图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明创造中的实施例及实施例中的特征可以相互组合。

在本发明创造的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明创造和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明创造的限制。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明创造的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明创造的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以通过具体情况理解上述术语在本发明创造中的具体含义。

下面将参考附图并结合实施例来详细说明本发明创造。

一种基于YOLO v3的多尺度目标检测方法，如图1至图4所示，包括：

S1、对数据集图像进行预处理；将图像数据调整到网络设定的尺寸；S2、在骨干网络中加入改进的DenseNet结构，使用改进后的骨干网络对输入图像进行下采样操作；S3、在输出的几个不同尺寸的特征层之后加入空间金字塔结构；S4、将经过空间金字塔模块后的特征图分别与上一层尺寸较大的特征图进行融合，构成四个尺寸的多尺寸预测机制；S5、将输出的不同尺寸的特征图传递到进行检测预测的分类器中；S6、对输入图像进行精确的类别预测、以及位置坐标的回归；S7、计算分类网络与回归网络的多任务损失函数，并对网络进行训练优化，使分类与回归的损失函数达到收敛并保存网络的权重参数；S8、部署优化后的参数，对目标进行检测。

具体的，S8、将步骤7中保存的网络权重参数部署到网络中，输入包含目标的图像数据，通过训练好的参数网络对图像进行特征提取，融合，预测框的坐标计算，再对目标的类别与位置进行精确的预测与回归，最后输出目标类别与位置信息。

所述步骤S1的具体步骤如下：S101、对图像进行颜色增强、平移变化、水平以及垂直翻转；S102、使用线性插值法将所有图像数据大小放缩到416*416。

所述步骤S2中加入DenseNet的具体方法为：S201、对DenseNet-121的结构进行调整，利用改变卷积核步长的方法代替原结构中的池化操作；S202、利用改进的DenseNet-121结构替换原骨干网络中的残差结构，在缓解梯度消失问题的同时加强特征的复用和传递。

所述步骤S3中输出的四个不同尺寸的特征层后加入的空间金字塔池化模块的具体操作为：将空间金字塔池化模块中的最大的池化核设置为与需要池化的特征图大小相同的尺寸，如最后一层中最小尺度的特征图大小为13*13，此时将SPP模块最大池化核设置为13以实现局部特征和全局特征的特征图级别的融合。

所述步骤S4中四个尺度特征融合的具体方法为：S401、参考原骨干网络的融合方法，将经过第二次下采样，已经获得部分特征信息的104*104特征图与经过2倍上采样的52*52特征图进行融合，与尺寸为52*52，26*26和13*13的特征图共同进行特征预测；S402、使用convolutional 3*3结构以及双层1*1卷积结构进行进一步卷积操作。

所述步骤S5中使用的分类器为：Logistic分类器，支持多标签分类。

所述步骤S6的具体方法为：S601、将不同的输入图像分成s*s个单元格，对象中心坐标所在的单元格负责预测该对象的边界框信息。通过IoU值最大的预测框对输入图像进行精确的类别预测；S602、根据单元格的左上角坐标(c_x,c_y)和先验框尺寸p_w、p_h计算预测框的中心坐标以及尺寸信息；

所述步骤S7的具体方法为：S701、使用均方差(Mean Square Error，MSE)计算坐标回归损失：

S702、使用交叉熵计算置信度损失和分类损失：

S703、最后计算总的损失函数：

S704、对全连接网络进行训练，使损失函数达到收敛。

具体的，本发明创造中改进后的骨干网络的结构如图2所示。首先输入的待检测的图像(416*416)中包含不同尺寸的目标，本发明创造利用含有密集连接结构(如图4所示)的特征提取网络提取出不同尺度的特征图。为了使网络学习到不同层的位置信息与语义信息，进而得到更精确检测效果，将多尺度预测机制进行优化，增加第四个尺寸的特征层进行预测，再将输出的不同尺度的特征图输入到分类器中进行预测。改进后的骨干结构将多层次特征信息进行融合，将低分辨率，高层次的特征与高分辨率，低层次的特征进行特征图维度上的融合，在一定程度上增加了检测器对信息的感知能力。并且在每个检测层之前加入空间金子塔池化模块，对特征图进行不同大小的池化操作并进行融合，进一步使得局部特征与全局特征进行融合。

图1中，左侧结构为用于特征提取的骨干网络，本发明创造将原YOLO v3骨干网络中下采样层之前的残差结构替换为改进的DenseNet-121结构。改进后的DenseNet-121结构如图4所示，将不同数量的convolutional(如图3(a)所示)使用密集连接的方式(如图3(b)所示)进行连接组成密集块。并利用调整步长实现池化操作的思想，将过渡层中的池化层替换为步长为2的3*3卷积层，有效地解决了池化中有用的特征信息丢失的问题。同时保留原1*1卷积层，既减少输入特征图数量又融合了各个通道的特征。经过含有密集连接结构的骨干网络对特征进行提取使得每层的特征信息能够更好的向下传递。经过5次下采样后，网络输出尺寸分别为208*208、104*104、52*52、26*26、13*13。在原多尺度预测机制的基础上，本发明创造进一步将已经获得部分特征信息的104*104特征图与经过2倍上采样的52*52特征图进行融合，与尺寸为52*52，26*26和13*13的特征图共同进行特征预测。

为了消除融合后的混叠效应，再将四层特征图经过如图3(a)所示的convolutional 3*3及双层1*1卷积层对每个融合结果进行卷积。融合后网络的输出分别为y1(13*13d＝255),y2(26*26d＝255),y3(52*52d＝255),y4(102*102d＝255),然后将这些融合后的特征分别输入到后面的logistic分类器中。其中预测由一系列1*1的卷积层来完成，即预测的特征图与之前输出的特征图尺寸大小相同。

分类器将输入的特征图分成s*s个单元格，对象中心坐标所在的单元格就负责预测该对象的边界框信息，即该单元格对应的输出向量中该对象的类别概率(Pr(object))为1。本发明创造中的网络结构进行y1、y2、y3、y4四个尺度的预测，每个尺度上每个单元格使用3个锚框来预测3个预测框。再计算每个预测框的交并比来衡量预测框与真实框的相关度，选择交并比更大的预测框来预测该对象。在得到全部预测边框后，设置阈值将置信度较低的边界框去除，剩余边界框再通过非极大值抑制法得到目标边界框。

本发明创造使用改进后的Densene-121结构替换原YOLO v3骨干网络中的残差结构，与原ResNet网络相比，该网络所需的参数量不到ResNet的一半，并且进一步的缓解了随着网络深度增加带来的梯度消失问题，加强了特征信息的传递，使得网络能够学习到更多层次的特征信息。

以上所述仅为本发明创造的较佳实施例而已，并不用以限制本发明创造，凡在本发明创造的精神和原则之内，所作的任何修改、等同替换、改进等，均包含在本发明创造的保护范围之内。

Claims

1.一种基于YOLO v3的多尺度目标检测方法，其特征在于，包括以下步骤：

S2、对DenseNet-121密集连接结构进行改进，即将过渡层中的池化层替换为步长为2的3*3卷积层，并使用此改进后的DenseNet-121结构替换原骨干网络中的残差结构，对输入图像进行下采样操作；

S4、将经过空间金字塔模块后的特征图分别与上一层的特征图进行融合，构成四个尺寸的多尺寸预测机制；将经过第二次下采样，已经获得部分特征信息的104*104特征图与经过2倍上采样的52*52特征图进行融合，与尺寸为52*52，26*26和13*13的特征图共同进行特征预测，再使用convolutional 3*3结构以及双层1*1卷积结构进行进一步卷积操作；

S8、部署优化后的参数，对目标进行检测。

2.根据权利要求1所述的一种基于YOLO v3的多尺度目标检测方法，其特征在于，所述步骤S1的具体步骤如下：

S101、对图像进行颜色增强、平移变化、水平以及垂直翻转；

S102、使用线性插值法将所有图像数据大小放缩到416*416。

3.根据权利要求1所述的一种基于YOLO v3的多尺度目标检测方法，其特征在于，所述步骤S2中加入DenseNet的具体方法为：

4.根据权利要求1所述的一种基于YOLO v3的多尺度目标检测方法，其特征在于，所述步骤S3中输出的四个不同尺寸的特征层后加入的空间金字塔池化模块的具体操作为：将空间金字塔池化模块中的最大的池化核设置为与需要池化的特征图大小相同的尺寸，如最后一层中最小尺度的特征图大小为13*13，此时将SPP模块最大池化核设置为13以实现局部特征和全局特征的特征图级别的融合。

5.根据权利要求1所述的一种基于YOLO v3的多尺度目标检测方法，其特征在于，所述步骤S5中使用的分类器为：Logistic分类器，支持多标签分类。

6.根据权利要求1所述的一种基于YOLO v3的多尺度目标检测方法，其特征在于，所述步骤S6的具体方法为：

S601、将不同的输入图像分成s*s个单元格，对象中心坐标所在的单元格负责预测该对象的边界框信息，通过IoU值最大的预测框对输入图像进行精确的类别预测；

7.根据权利要求1所述的一种基于YOLO v3的多尺度目标检测方法，其特征在于，所述步骤S7的具体方法为：

S701、使用均方差Mean Square Error计算坐标回归损失：

第一行和第二行分别为边框中心坐标及边框的宽度和高度误差，式中表示第i个grid cell中存在对象,/>表示第i个grid cell的第j个bounding box中存在对象；

S702、使用交叉熵计算置信度损失和分类损失：

L₂为当边框内有、无对象时的误差，L₃为对象的分类误差，表示第I个grid cell的第j个bounding box中不存在对象；

S703、最后计算总的损失函数：

S704、对全连接网络进行训练，使损失函数达到收敛。