CN113792660B

CN113792660B - 基于改进YOLOv3网络的行人检测方法、系统、介质、设备

Info

Publication number: CN113792660B
Application number: CN202111080800.5A
Authority: CN
Inventors: 马国军; 韩松; 申佳玮; 朱琎
Original assignee: Jiangsu University of Science and Technology
Current assignee: Jiangsu University of Science and Technology
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2024-03-01
Anticipated expiration: 2041-09-15
Also published as: CN113792660A

Abstract

本发明公开了一种基于改进YOLOv3网络的行人检测方法，包括：1：构建特征提取网络Darknet的残差网络、特征提取网络；2：构建特征金字塔网络，将特征提取网络获取的4个卷积特征与YOLO输出的4种尺度信息进行融合；使YOLO输出层输出4种尺度的特征图；3：YOLOv3算法得到4种尺度特征图上的预测候选框；4：利用k‑means算法对预测候选框进行聚类；5：按照尺度从小到大的顺序确定坐标点队列；对坐标点队列进行尺度缩放，根据缩放后的坐标点得到对应的缩放后的目标候选框；6：运用NMS方法选出特征图上目标候选框中具有最大IOU的目标候选框，根据选出的目标候选框进行行人目标预测。该方法结合线性缩放来处理行人目标先验框，提升了网络的特征描述能力。

Description

基于改进YOLOv3网络的行人检测方法、系统、介质、设备

技术领域

本发明属于行人检测技术领域，具体涉及一种基于改进YOLOv3网络的行人检测方法、系统、介质、设备。

背景技术

随着科技快速的发展，行人检测在智能视频监控、车辆辅助驾驶、智能机器人等领域有着广泛的应用。行人检测作为智能设备的一种核心的技术，可以使机器设备获取图像信息，且对这些信息进行分析处理，帮助人们完成各种识别检测任务。

YOLOv3算法利用了特征金字塔网络(FPN)实现了三种尺度的预测，分别为13*13、26*26、52*52，其检测精度相比于YOLO、YOLOv2均有所提升。尽管目标检测算法在深度学习YOLOv3方法上已取得不错的成绩，但仍然存在以下问题：卷积神经网络中深层感受野大，经过多次下采样后，更难提取到行人特征，导致小尺寸行人目标存在漏检、误检等情况。

发明内容

发明目的：针对现有技术中存在的问题，本发明提供一种基于改进YOLOv3网络的行人检测方法，该方法结合线性缩放来处理行人目标先验框，提升了网络的特征描述能力。最终改进的网络拥有更高的准确率，同时保持了原有算法的鲁棒性。

技术方案：本发明一方面提供了一种基于改进YOLOv3网络的行人检测方法，包括以下步骤：

步骤1：构建特征提取网络Darknet的残差网络，将残差网络基本单元中BN层的参数合并到其卷积层；根据构建的残差网络构建特征提取网络，记为特征提取网络Darknet-53；

步骤2：构建特征金字塔网络，将特征提取网络Darknet-53经过5次下采样获取图像的4个卷积特征与YOLO输出13*13、26*26、52*52、104*104尺度信息进行融合；使YOLOv3算法中的YOLO输出层输出4种尺度的特征图，其中，4种尺度包括：13*13、26*26、52*52、104*104；

步骤3：YOLOv3算法得到4种尺度特征图上的预测候选框；

步骤4：利用k-means算法对4种尺度特征图上的预测候选框进行聚类，得到每种尺度特征图上的目标候选框；

步骤5：按照尺度从小到大的顺序将4种尺度特征图的目标候选框定位点排列为坐标点队列；对所述坐标点队列进行尺度缩放，缩放计算式为：

其中N为坐标点队列中坐标点的总数；m、n分别为缩小系数和放大系数，0<m<1，n>1；(x_i,y_i)和(x′_i,y′_i)分别为坐标点队列中第i个坐标点缩放前和缩放后的坐标值，i＝1,2,…,N；

根据缩放后的坐标点得到对应的缩放后的目标候选框；

步骤6：在缩放后的目标候选框中运用NMS方法，选出特征图上目标候选框中具有最大IOU的目标候选框，根据选出的目标候选框进行行人目标预测。

所述步骤1中将残差网络基本单元中BN层的参数合并到其卷积层，具体为：

步骤11：卷积层和BN层融合前，Darknet-53提取网络中卷积层输出y_conv为：

y_conv＝w*x+b

其中x、w、b分别为Darknet-53提取网络中卷积层的输入、权重和偏置；

步骤12：将y_conv输入到BN层，BN层输出y_bn为：

其中μ为BN层输入的均值，σ²为方差，γ为缩放因子，β为偏移量；ε为一个较小数；

步骤13：卷积层和BN层合并后，权重参数和偏置/>为：

步骤14：卷积层和BN层合并后，合并输出y′_融合为：

其中为合并后卷积权重，/>为合并后卷积偏置。

步骤5中的目标候选框定位点为目标候选框的左上角、右上角和几何中心处的坐标点。

所述步骤2中，特征提取网络Darknet-53经过5次下采样获取图像的4个卷积特征的具体步骤为：

步骤21：使用尺寸为416*416的图像作为Darknet-53的网络输入，进行第一次下采样；

步骤22：进行第二次下采样，对第二次下采样结果使用2个步骤1中构建的残差网络进行特征提取，输出第一卷积特征为104*104*128；

步骤23：进行第三次下采样，对第三次下采样结果使用8个步骤1中构建的残差网络进行特征提取，输出第二卷积特征为52*52*256；

步骤24：进行第四次下采样，对第四次下采样结果使用通道为512的卷积进行特征提取，输出第三卷积特征为26*26*512；

步骤25：进行第五次下采样，对第五次下采样结果使用4个步骤1中构建的残差网络进行特征提取，输出第四卷积特征为13*13*1024。

所述步骤4具体包括：

步骤41、将所有的bounding box坐标提取出来；

步骤42、聚类分析bounding box的宽高大小；

步骤43、初始化k个anchor box，通过在所有的boundingboxes中随机选取k个值作为k个anchor boxes的初始值；

步骤44、计算每个boundingbox与每个anchorbox的iou值；

步骤45、分类操作：经过前一步的计算可以的到每一个bounding box对于每个anchor box的误差d(n,k)，通过比较每个bounding box其对于每个anchor box的误差大小{d(i,1),d(i,2),...d(i,k)}，选取最小误差的那个anchor box，将这个bounding box分类给它，对于每个bounding box都做这个操作，最后记录下来每个anchor box有哪些bounding box属于它；

步骤46、anchor box更新；

步骤47、重复步骤44-46，直到在步骤45中发现对于全部bounding box其所属的anchor box类与之前所属的anchor box类完全一样；

步骤48、计算anchor boxes精确度后锚框在目标区域内就是目标候选区域。

另一方面，本发明提供了一种基于改进YOLOv3网络的行人检测系统，包括：

残差网络构建模块1，用于构建特征提取网络Darknet的残差网络，将残差网络基本单元中BN层的参数合并到其卷积层；根据构建的残差网络构建特征提取网络，记为特征提取网络Darknet-53；

特征金字塔网络构建模块2，用于构建特征金字塔网络，将特征提取网络Darknet-53经过5次下采样获取图像的4个卷积特征与YOLO输出13*13、26*26、52*52、104*104尺度信息进行融合；使YOLOv3算法中的YOLO输出层输出4种尺度的特征图，其中，4种尺度包括：13*13、26*26、52*52、104*104；

预测候选框获取模块3，用于采用YOLOv3算法得到4种尺度特征图上的预测候选框；

聚类模块4，用于利用k-means算法对4种尺度特征图上的预测候选框进行聚类，得到每种尺度特征图上的目标候选框；

目标候选框缩放模块5，用于对聚类后的目标候选框进行缩放，具体步骤为：

按照尺度从小到大的顺序将4种尺度特征图的目标候选框定位点排列为坐标点队列；对所述坐标点队列进行尺度缩放，缩放计算式为：

根据缩放后的坐标点得到对应的缩放后的目标候选框；

目标预测确定模块6，用于在缩放后的目标候选框中运用NMS方法，选出特征图上目标候选框中具有最大IOU的目标候选框，根据选出的目标候选框进行行人目标预测。

本发明还公开了一种计算机存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述行人检测方法。

本发明还公开了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述行人检测方法。

有益效果：与现有技术相比，本发明公开的基于改进YOLOv3网络的行人检测方法具有以下优点：

1、利用特征提取网络获取4种尺度的卷积特征，提高了对小尺度行人检测的精度；2、利用FPN将图像的深层特征信息与浅层特征信息充分融合，YOLOv3层输出由原来三种尺度特征图增加为四种尺度特征图，增强对大小行人目标与相互遮挡行人目标的检测效果，提高了行人检测的鲁棒性；3、对k-means算法聚类后的目标候选框进行线性尺度缩放，有效的发挥YOLOv3算法多尺度检测的优势，提高小尺寸行人目标检测准确率。

附图说明

图1为本发明公开行人检测方法流程图；

图2为残差网络级别单元示意图；

图3为特征提取网络Darket-53结构示意图；

图4为本发明改进的YOLOv3的网络结构示意图；

图5为线性缩放示意图；

图6为本发明公开的行人检测系统组成示意图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明。

本发明公开了一种基于改进YOLOv3网络的行人检测方法，如图1所示，包括：

如图2所示，残差网络的基本单元CBL包括卷积层Conv和BN层，结果经激活函数Leaky Relu后输出；如图3所示，为特征提取网络Darket-53结构示意图。

为了增加网络前向推理速度，本实施例中，将残差网络基本单元中BN层的参数合并到其卷积层，具体步骤为：

y_conv＝w*x+b

步骤12：将y_conv输入到BN层，BN层输出y_bn为：

步骤13：卷积层和BN层合并后，权重参数和偏置/>为：

步骤14：卷积层和BN层合并后，合并输出y′_融合为：

其中为合并后卷积权重，/>为合并后卷积偏置。

特征提取网络Darknet-53经过5次下采样获取图像的4个卷积特征的具体步骤为：

步骤A21：使用尺寸为416*416的图像作为Darknet-53的网络输入，进行第一次下采样；

步骤A22：进行第二次下采样，对第二次下采样结果使用2个步骤1中构建的残差网络进行特征提取，输出第一卷积特征为104*104*128；

步骤A23：进行第三次下采样，对第三次下采样结果使用8个步骤1中构建的残差网络进行特征提取，输出第二卷积特征为52*52*256；

步骤A24：进行第四次下采样，对第四次下采样结果使用通道为512的卷积进行特征提取，输出第三卷积特征为26*26*512；

步骤A25：进行第五次下采样，对第五次下采样结果使用4个步骤1中构建的残差网络进行特征提取，输出第四卷积特征为13*13*1024。

步骤A21-A25获得的4个卷积特征与YOLO输出13*13、26*26、52*52、104*104尺度信息进行融合，具体包括：

步骤B21、特征提取网络Darknet-53经过五次下采样获取图像的4个卷积特征，将第4卷积特征经过卷积获得13*13尺度的特征图；

构建特征金字塔网络，将13*13尺度的特征图通过特征金字塔网络与第三卷积特征进行特征融合，获得26*26尺度的特征图；

步骤B22、将26*26尺度的特征图通过特征金字塔网络与第二卷积特征进行特征融合，获得52*52尺度的特征图；

步骤B23、将52*52尺度的特征图通过特征金字塔网络与第一卷积特征进行特征融合，获得104*104尺度的特征图.

通过上述步骤中融合浅层信息与深层特征信息，增强了图像金字塔的表征能力，得到的13*13和26*26特征图适合图像中大尺寸行人目标的检测，得到的26*26和52*52特征图适合图像中大尺度行人目标检测，得到的104*104特征图适合图像中小尺寸行人目标的检测，降低了行人漏检率。

步骤3：YOLOv3算法得到4种尺度特征图上的预测候选框。

步骤1-3实现了对YOLOv3算法的改进，如图4所示。利用FPN将图像的深层特征信息与浅层特征信息充分融合，将YOLOv3层输出由原来三种尺度特征图增加为四种尺度特征图，增强了对大小行人目标与相互遮挡行人目标的检测效果，提高了行人检测的鲁棒性。

步骤4：利用k-means算法对4种尺度特征图上的预测候选框进行聚类，得到每种尺度特征图上的目标候选框；具体包括：

步骤41、将所有的bounding box坐标提取出来；

步骤42、聚类分析bounding box的宽高大小；

步骤43、初始化k个anchor box，通过在所有的boundingboxes中随机选取k个值作为k个anchor boxes的初始值；本实施例中，取k＝3；

步骤44、计算每个boundingbox与每个anchorbox的iou值；

步骤46、anchor box更新；

步骤5：按照尺度从小到大的顺序将4种尺度特征图的目标候选框定位点排列为坐标点队列；

本实施例中目标候选框定位点为目标候选框的左上角、右上角和几何中心处的坐标点，根据这三个点即可确定目标候选框。

对所述坐标点队列进行尺度缩放，缩放计算式为：

考虑到行人数据集中的目标尺寸大小比较集中，没有充分的发挥出YOLOv3多尺度的价值，因此将K-means算法聚类产生的候选框乘以一定比例系数，本实施例中m＝0.3，n＝1.2，使之大的尺度更大，小的尺度更小，提高对小尺寸行人检测的准确率。

根据缩放后的坐标点得到对应的缩放后的目标候选框；线性缩放如图5所示。

具体如下：

1)将提取的4个尺度特征图送入到YOLO网络中进行检测，本发明设置的最大迭代次数为4000次，batch_size设置为64，subdivisions设置为16，decay为0.0005，momentum为0.9，初始化学习率为0.001，根据损失下降的趋势，可以适当调节学习率和直至训练数据集输出的损失函数值小于等于阈值或达到设置的最大迭代次数时停止训练，得到训练好的改进网络。

2)采用非极大值抑制法选取最佳目标边界框，通过按照置信度的数值对候选框进行排列，计算候选框与真实目标框的IOU值生成IOU队列，选出IOU最大值的边界框后生成预测框，最后将预测框坐标转换到原图上输出预测结果。

实现上述行人检测方法的系统如图6所示，

根据缩放后的坐标点得到对应的缩放后的目标候选框；

本发明还公开了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述行人检测方法。为了提高行人检测系统检测速度，本实施例中的计算机设备配有NVIDIA GTX 1080Ti的GPU计算机，Ubuntu 16.04系统，可以实现实时检测。

以上实施例仅为说明本发明的技术思想，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于改进YOLOv3网络的行人检测方法，其特征在于，包括以下步骤：

步骤1：构建特征提取网络Darknet的残差网络，将残差网络基本单元中BN层的参数合并到其卷积层；根据构建的残差网络构建特征提取网络，记为特征提取网络Darknet-53；将残差网络基本单元中BN层的参数合并到其卷积层，具体为：

y_conv＝w*x+b

步骤12：将y_conv输入到BN层，BN层输出y_bn为：

其中，μ为BN层输入的均值，σ²为方差，γ为缩放因子，β为偏移量；ε为一个较小数；

步骤13：卷积层和BN层合并后，权重参数和偏置/>为：

步骤14：卷积层和BN层合并后，合并输出y′_融合为：

其中为合并后卷积权重，/>为合并后卷积偏置；

步骤2：构建特征金字塔网络，将特征提取网络Darknet-53经过5次下采样获取图像的4个卷积特征与YOLO输出13*13、26*26、52*52、104*104尺度信息进行融合；使YOLOv3算法中的YOLO输出层输出4种尺度的特征图，其中，4种尺度包括：13*13、26*26、52*52、104*104；特征提取网络Darknet-53经过5次下采样获取图像的4个卷积特征的具体步骤为：

步骤A25：进行第五次下采样，对第五次下采样结果使用4个步骤1中构建的残差网络进行特征提取，输出第四卷积特征为13*13*1024；

步骤3：YOLOv3算法得到4种尺度特征图上的预测候选框；

步骤41、将所有的bounding box坐标提取出来；

步骤42、聚类分析bounding box的宽高大小；

步骤43、初始化k个anchor box，通过在所有的boundingboxes中随机选取k个值作为k个anchor boxes的初始值；k＝3；

步骤44、计算每个boundingbox与每个anchorbox的iou值；

步骤45、分类操作：经过前一步的计算可以的到每一个bounding box对于每个anchorbox的误差d(n,k)，通过比较每个bounding box其对于每个anchor box的误差大小{d(i,1),d(i,2),...d(i,k)}，选取最小误差的那个anchor box，将这个bounding box分类给它，对于每个bounding box都做这个操作，最后记录下来每个anchor box有哪些bounding box属于它；

步骤46、anchor box更新；

步骤47、重复步骤44-46，直到在步骤45中发现对于全部bounding box其所属的anchorbox类与之前所属的anchor box类完全一样；

步骤48、计算anchor boxes精确度后锚框在目标区域内就是目标候选区域；

其中N为坐标点队列中坐标点的总数；m、n分别为缩小系数和放大系数；

0<m<1，n>1；(x_i,y_i)和(x′_i,y′_i)分别为坐标点队列中第i个坐标点缩放前和缩放后的坐标值，i＝1,2,…,N；

根据缩放后的坐标点得到对应的缩放后的目标候选框；目标候选框定位点为目标候选框的左上角、右上角和几何中心处的坐标点；

2.一种基于改进YOLOv3网络的行人检测系统，其特征在于，包括：

残差网络构建模块(1)，用于构建特征提取网络Darknet的残差网络，将残差网络基本单元中BN层的参数合并到其卷积层；根据构建的残差网络构建特征提取网络，记为特征提取网络Darknet-53；将残差网络基本单元中BN层的参数合并到其卷积层，具体为：

y_conv＝w*x+b

步骤12：将y_conv输入到BN层，BN层输出y_bn为：

步骤13：卷积层和BN层合并后，权重参数和偏置/>为：

步骤14：卷积层和BN层合并后，合并输出y′_融合为：

其中为合并后卷积权重，/>为合并后卷积偏置；

特征金字塔网络构建模块(2)，用于构建特征金字塔网络，将特征提取网络Darknet-53经过5次下采样获取图像的4个卷积特征与YOLO输出13*13、26*26、52*52、104*104尺度信息进行融合；使YOLOv3算法中的YOLO输出层输出4种尺度的特征图，其中，4种尺度包括：13*13、26*26、52*52、104*104；特征提取网络Darknet-53经过5次下采样获取图像的4个卷积特征的具体步骤为：

步骤A22：进行第二次下采样，对第二次下采样结果使用2个残差网络构建模块中构建的残差网络进行特征提取，输出第一卷积特征为104*104*128；

步骤A23：进行第三次下采样，对第三次下采样结果使用8个残差网络构建模块中构建的残差网络进行特征提取，输出第二卷积特征为52*52*256；

步骤A25：进行第五次下采样，对第五次下采样结果使用4个残差网络构建模块中构建的残差网络进行特征提取，输出第四卷积特征为13*13*1024；

预测候选框获取模块(3)，用于采用YOLOv3算法得到4种尺度特征图上的预测候选框；

聚类模块(4)，用于利用k-means算法对4种尺度特征图上的预测候选框进行聚类，得到每种尺度特征图上的目标候选框；具体包括：

步骤41、将所有的bounding box坐标提取出来；

步骤42、聚类分析bounding box的宽高大小；

步骤44、计算每个boundingbox与每个anchorbox的iou值；

步骤46、anchor box更新；

目标候选框缩放模块(5)，用于对聚类后的目标候选框进行缩放，具体步骤为：

根据缩放后的坐标点得到对应的缩放后的目标候选框；

目标预测确定模块(6)，用于在缩放后的目标候选框中运用NMS方法，选出特征图上目标候选框中具有最大IOU的目标候选框，根据选出的目标候选框进行行人目标预测。

3.一种计算机存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1所述的行人检测方法。

4.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1所述的行人检测方法。