CN111553387B

CN111553387B - 一种基于Yolov3的人员目标检测方法

Info

Publication number: CN111553387B
Application number: CN202010264730.8A
Authority: CN
Inventors: 罗炬锋; 蒋煜华; 李丹; 曹永长; 偰超; 张力; 崔笛扬; 郑春雷
Original assignee: Shanghai Internet Of Things Co ltd
Current assignee: Shanghai Internet Of Things Co ltd
Priority date: 2020-04-03
Filing date: 2020-04-03
Publication date: 2022-09-23
Anticipated expiration: 2040-04-03
Also published as: CN111553387A

Abstract

本发明涉及一种基于Yolov3的人员目标检测方法，包括：获取图像，构建基于Yolov3的基准网络时，使用K‑Means算法设置Anchor参数；使用Darknet‑53网络作为主干网络；引入特征金字塔结构对多尺度目标进行特征提取；使用交叉熵损失函数来计算预测框偏移量的损失；根据人员目标的高宽比设计所述Anchor的尺度；将Darknet‑53网络替换为MobileNet_v2网络；通过引入空洞卷积对特征金字塔结构进行改进；通过引入IoU置信度和soft‑NMS算法进行后处理优化，得到改进后的Yolov3的网络，并对人员目标进行识别和检测。通过本发明的优化和改进，能实现对人员目标的更快更精准的检测。

Description

一种基于Yolov3的人员目标检测方法

技术领域

本发明涉及计算机视觉应用技术领域，特别是涉及一种基于Yolov3的人员检测方法。

背景技术

传统的目标检测算法有背景差分法、帧间差分法等，但这类方法易受光照、复杂纹理等因素的影响，导致最终的检测效果不佳。深度卷积网络在图像中学习得到的高级特征具有较好的鲁棒性，这种高级特征并不会受光照的影响而是表现为目标本身的轮廓及纹理信息，故越来越多的研究者选择使用基于卷积神经网络的方法来进行目标检测和识别。2014年，R.Girshick等人首次提出了基于特征区域的目标检测方法，从此之后，基于卷积神经网络的目标检测算法得到了迅猛的发展。

基于深度学习的目标检测算法可分为两类：Two-stage目标检测算法和One-stage目标检测算法。前者将检测过程视为“从粗到精”的过程，而后者将其视为“一步完成”。

Two-stage目标检测算法分为两步，首先通过一种特征提议方法从图像中获取一定数量的候选框区域，然后再对该区域进行目标分类和检测。这类算法中比较典型的算法是RCNN、SPPNet、Fast-RCNN、Faster RCNN和FPN等。K.He等人于2014年提出了空间金字塔池化网络(SPPNet)，该网络的主要贡献是引入了空间金字塔池化层，该层能够对同一张特征图进行不同大小的缩放，从而避免重复计算卷积特征，SPPNet在没有降低精度的情况下其速度是RCNN的20倍以上，但其训练仍然是多阶段的。R.Girshick等人于2015年继续提出了Fast-RCNN目标检测算法，该算法对RCNN和SPPNet的作了进一步改进，Fast RCNN使得我们能够在相同网络配置的情况下同时训练检测器和边框回归，最终得到更好的检测效果，但其检测速度依然受到特征提议方法的影响。S.Ren等人于2015年提出了Faster RCNN算法，该算法的主要贡献是引入了区域提取网络(Region Proposal Network，RPN)，进一步提升了目标检测的速度和平均精度。2017年Lin等人在Faster RCNN的基础上提出了特征金字塔网络(Feature PyramidNetworks，FPN)，作者在FPN网络中开发了具有横向连接的自上而下的体系结构，用于构建各种规模的高级语义，该网络能够更好的实现对各种尺度物体的检测，FPN现已成为许多最新检测网络的基本构建块。

One-stage目标检测算法相比于Faster RCNN等Two-stage目标检测算法舍弃了RPN结构，并实现了端到端的目标检测，其推理速度相比于Two-stage目标检测算法得到了很大的提升。经典的One-stage目标检测算法有Yolo算法系列、SSD算法系列、RetinaNet等。R.joseph等人于2015年提出了Yolo算法，它是深度学习领域第一个One-stage目标检测算法，作者将单个神经网络应用于完整的图像，该网络将图像划分为多个区域，并同时预测每个区域的边界框和概率，后来，作者在Yolo算法的基础上进行了一系列改进，提出了v2和v3版本，这些版本进一步提高了目标检测精度和模型推理速度，尽管Yolo的检测速度有了很大的提高，但相比于Two-stage检测算法，它的精度却下降了。W.Liu等人于2015年提出了SSD目标检测算法，它是深度学习领域第二个One-stage目标检测算法，SSD算法的主要贡献在于使用了深浅特征层同时进行目标的检测框预测，并使用多分辨率技术对多尺度目标进行检测，SSD算法对小目标的检测精度相比Yolo算法有了明显提升，但其平均精度仍然小于Two-stage的目标检测算法。为了解决One-stage算法精度普遍落后于Two-stage算法精度的问题，T.-Y.Lin等人于2017年提出了RetinaNet，作者认为One-stage目标检测网络在训练过程中遇到的正负样本不平衡是其精度小于Two-stage目标检测算法的主要原因，为此，作者对目标检测算法中的原交叉熵损失的函数进行改进，提出了名为“Focal Loss”的损失函数，该损失函数使得模型在训练过程中能够更关注那些困难的、易分类错误的样本特征，从而提高目标检测精度，RetinaNet在保持非常高的推理速度的情况下其检测精度也能同样达到Two-stage算法的精度。

除了上述常见的目标检测算法之外，研究者们在近几年相继提出了许多新颖的目标检测方法。使用“anchor free”技术的目标检测方法在近几年受到了很大的关注，该方法的原理是直接通过对目标左上角点及右下角点这一对关键点进行检测来预测目标的具体空间位置，故其摒弃了使用anchor作为目标先验框的思想，这类方法的代表为CorcerNet、CenterNet等。而使用弱监督学习来实现目标检测也成为近几年目标检测领域的一大研究热点，由于目标检测训练通常需要大量的人力去手动标记真值目标框，故而标记的过程既耗时又效率抵下，弱监督目标检测算法能够将边框标注转为像素级标注，从而有效提高检测算法的使用效率。

发明内容

本发明所要解决的技术问题是提供一种基于Yolov3的人员目标检测方法，针对人员目标实现高精度检测、高准确度的定位检测。

本发明解决其技术问题所采用的技术方案是：提供一种基于Yolov3的人员目标检测方法，包括：步骤(1)：获取图像，构建基于Yolov3的基准网络，构建基于Yolov3的基准网络时，使用K-Means聚类算法对Anchor进行参数设定；使用Darknet-53网络作为Yolov3的主干网络；引入特征金字塔结构，用于对多尺度目标进行特征提取及检测；使用交叉熵损失函数来计算预测框偏移量的损失；

步骤(2)：根据人员目标的高宽比设计所述Anchor的尺度；

步骤(3)：改进Yolov3的主干网络，将所述Darknet-53网络替换为MobileNet_v2网络；

步骤(4)：通过引入空洞卷积对所述特征金字塔结构进行改进；

步骤(5)：通过引入IoU置信度和soft-NMS算法对网络后处理进行优化，得到改进后的基于Yolov3的基准网络；

步骤(6)：用所述改进后的基于Yolov3的基准网络对图像中的人员目标进行识别和检测。

所述步骤(2)具体为：将人员目标的高宽比设置为3:1、2:1和1:1三种类型，对框高进行一维聚类得到Anchor的框高值，通过所述Anchor的框高值来计算Anchor的宽度值。

所述步骤(3)中的MobileNet_v2网络通过引入分离卷积将3×3卷积拆分为Depthwise卷积和Pointwise卷积；所述Depthwise卷积用于对同一平面上的信息进行融合，所述Pointwise卷积用于对多通道信息进行融合。

所述步骤(4)具体为：通过引入空洞卷积来替换所述特征金字塔结构中的下采样过程，用于对多尺度目标的检测。

所述步骤(5)中引入的IoU置信度具体为：在Yolov3中的损失函数基础上添加IoU损失，得到改进后的损失函数，所述改进后的损失函数表达式为：

Loss＝loss_1+loss_2+loss_3+loss_4

其中，loss_1为预测框偏移量损失，loss_2为置信度损失，loss_3为类别损失，loss_4

为IoU损失；所述loss_4的表达式为：

其中，K为Anchor聚类簇数，obj为图像中的人员目标，i代表第i个预测框，j代表真值框，iou_i为第i个预测框与真值框的IoU；

利用目标置信度计算预测框的分数值，将所述预测框的分数值由高到底进行排序，所述预测框的分数值表达式为：

Score＝conf×IoU_conf

其中，conf为Yolov3中的目标置信度，IoU_conf为IoU置信度。

所述步骤(5)中，还通过soft-NMS算法进行非极大值抑制操作，当两个目标相近且预测框交并比大于预设的阈值时，通过降低两个预测框中分数值低的预测框的分数，使降低分数值后的预测框保留在排序列表内进行二次筛选。

有益效果

由于采用了上述的技术方案，本发明与现有技术相比，具有以下的优点和积极效果：本发明改进基于Yolov3基准网络中的Anchor的尺度，使其更符合人员本身的高宽比特点，能对人员目标检测更加准确；将基于Yolov3中的主干网络替换为MobileNet_v2，降低计算量，加快了模型推理速度；对Yolov3中的FPN结构引入空洞卷积进行改进，提高了模型对多尺度目标的检测精度；通过引入IoU置信度及soft-NMS算法对网络后处理进行优化，提高了预测框的准确度，降低了目标漏检的概率，通过多方面的优化和改进，整体网络获得了更快的推理时间、更准确的检测定位目标，具有较好的实用性。

附图说明

图1是本发明实施方式中结构流程示意图；

图2是本发明实施方式中Yolov3基准网络结构示意图；

图3是本发明实施方式中空洞卷积与普通卷积过程示意图；

图4是本发明实施方式中引入空洞卷积后的FPN网络结构图；

图5是本发明实施方式中基于人员目标的Anchor示意图；

图6是本发明实施方式中MobileNet_v2网络结构示意图；

图7是本发明实施方式中传统卷积与可分离卷积结构示意图；

图8是本发明实施方式中普通卷积、Depthwise卷积、Pointwise卷积过程示意图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明的实施方式涉及一种基于Yolov3的人员目标检测方法，包括：获取图像，构建基于Yolov3的基准网络时，使用K-Means算法设置Anchor参数；使用Darknet-53网络作为主干网络；引入特征金字塔结构对多尺度目标进行特征提取；使用交叉熵损失函数来计算预测框偏移量的损失；根据人员目标的高宽比设计所述Anchor的尺度；将Darknet-53网络替换为MobileNet_v2网络；通过引入空洞卷积对特征金字塔结构进行改进；通过引入IoU置信度和soft-NMS算法进行后处理优化，得到改进后的Yolov3的网络，并对人员目标进行识别和检测。

如图1所示，为本发明实施方式中结构流程示意图，S101表示本实施方式中用于人员识别而构建基于Yolov3的基准网络，S102表示为了更好实现对人员的识别，本实施方式基于人本身的宽高比，设计基于Yolov3的Anchor尺度，S103表示将基于Yolov3中的Darknet-53网络替换为MobileNet_v2网络，S104表示对Yolov3网络中的特征金字塔网络FPN结构引入空洞卷积进行优化，S105表示引入IoU置信度和soft-NMS算法对网络后处理进行优化，S106表示通过本实施方式对基于Yolov3的网络进行改进后，能获得高精度人员识别检测效果。

优选地，本发明实施方式提供一种针对人员的高精度目标检测方法，包括以下步骤：

(1)构建基于Yolov3的基准网络，主要包括Anchor设计的思想，即使用K-Means聚类算法(K-Means clustering algorithm，K-Means)对Anchor进行参数设定；在网络结构设计方面，使用Darknet-53作为网络主干结构；同时在网络中引入特征金字塔结构(FeaturePyramidNetworks，FPN)用于对多尺度目标进行特征提取及检测；使用了交叉熵损失函数来计算预测框偏移量的损失，加快了模型训练；

(2)为更适合对人员类别的目标进行高精度识别和检测，改进设计Yolov3的Anchor的尺度，使其更符合人本身的高宽比特点；

(3)为加快模型推理速度，将Yolov3的主干网络替换为MobileNet_v2网络；

(4)同时为了提高模型对多尺度目标的检测精度，对Yolov3的FPN网络结构引入空洞卷积进行改进；

(5)针对NMS算法存在的问题，引入IoU置信度及soft-NMS算法对网络后处理进行优化。

所述步骤(1)中的Yolov3的基准网络结构如图2所示，第一部分为特征提取层，即深度卷积网络，第二部分为FPN结构，第三部分为输出层，即用FPN结构的三层不同分辨率的特征层进行预测框的偏移量输出。Anchor设计为对特征图上的每一个特征点预设一组不同尺度大小的固定参考框，Anchor技术将原问题为“这个固定参考框中有没有认识的目标”转换为“目标框偏离参考框多远”的新问题，使得检测问题不再是“从无到有”的估计检测框，而是转为如何在原预设框的基础上作进一步优化，Anchor技术的核心问题是如何对其参数进行设定。Anchor的尺度设计涉及到很强的先验知识，如果直接进行人为设定，当设定不合理时，会造成模型训练难度加大且检测精度降低等问题，Yolov3算法中使用K-Means聚类算法对Anchor尺度进行设计。

所述步骤(2)中的改进设计Yolov3的Anchor的尺度，人体本身的结构具有比较明显的特点，行人在不同分辨率及姿态下的高宽比通常可以进行合理预测。

优选地，本实施方式中更适合对人员类别目标进行高精度识别和检测，根据人体本身的结构具有比较明显的特点，行人在不同分辨率及姿态下的高宽比通常接近3:1、2:1和1:1三种类型，故在对人员类别目标进行GroundTruthBox聚类时，可以利用该先验知识将原二维聚类问题转化为仅对框高进行聚类的一维聚类问题，然后在得到聚类后的Anchor框高的基础上得到Anchor的宽度值，最终实现Anchor的尺度设计。具体的步骤为：(a)K-Means聚类过程对人员类的GroundTruthBox进行聚类，其中将K设为3，目标聚类后得到3种不同的高度值；(b)利用目标高宽的比例先验，得到不同的宽度值；(c)最终得到9种不同尺度大小的Anchor。

如图5所示，为本实施方式中基于人员目标的Anchor示意图，通过聚类计算，得到针对人员类目标的Anchor的9种不同尺度的宽高为：

[(22,22)，(11,22)，(7,22)，(75,75)，(38,75)，(25,75)，(205,205)，(103,205)，(68,205)]。

优选地，本实施方式为加快模型推理速度，将所述步骤(3)中的Yolov3的主干网络替换为MobileNet_v2，Yolov3的主干网络是Darknet-53结构，其主要由11个残差块及若干池化层组成。针对单类别的目标检测任务而言，如此庞大的参数量反而容易引起网络模型过拟合及推理时间过长等问题。

如图6所示，为本发明实施方式中MobileNet_v2网络结构示意图，本实施方式采用MobileNet_v2结构来替换Darkent-53，通过引入分离卷积来实现网络结构的轻量化。

如图7所示，为发明实施方式中传统卷积与可分离卷积结构示意图，优选地，通过对比传统卷积，本实施方式中的分离卷积将普通的3×3卷积拆分为了Depthwise卷积和Pointwise卷积。

如图8所示，为本发明实施方式中普通卷积、Depthwise卷积、Pointwise卷积过程示意图，通过对比普通3×3卷积可以发现，Depthwise卷积只负责对同一平面上的信息进行融合，Pointwise卷积负责对多通道信息进行融合，故而分离卷积同样可以实现对输入特征图在通道及平面上的信息提取。

所述步骤(4)中对Yolov3的FPN结构中引入空洞卷积(dilated convolution)对其进行优化。

如图3所示，为本发明实施方式中空洞卷积过程示意图，图3中还包括普通卷积过程，用于与本实施方式中的空洞卷积进行对比。优选地，从图3中还可以发现，空洞率为2的空洞卷积所生成的感受野大小等于进行两次3×3卷积所生成的感受野大小，因此引入空洞卷积同样可以减少模型参数及计算量。

如图4所示，为本发明实施方式中引入空洞卷积后的FPN结构图，通过空洞卷积来替换原结构中的下采样过程，从而减少小目标信息的损失。FPN结构专用于多尺度语义信息提取的网络结构，该结构的主要特点是将神经网络的“自底向上”和“自上而下”两种推理结构相结合，“自底向上”的过程就是神经网络结合下采样后的正向传播过程，“自上而下”的过程就是把更抽象、语义信息更强的高层特征图进行上采样，然后把该层特征横向连接至前一层特征。FPN结构使得每一层输出所用的特征图都融合了不同分辨率、不同语义强度的特征，从而实现对不同尺度物体的识别。但FPN结构最初是针对分类和识别任务来设计的，对于复杂度更高的目标检测任务而言，FPN结构有其固有的弊端，目标检测任务需要同时对目标做位置框定和识别，而深层特征图虽然能够较好的获取目标的语义信息，但是随着下采样和卷积本身的特点会使得目标位置信息存在丢失并使得小目标的语义信息丢失，而浅层特征图虽然能够得到小目标的位置信息，但是语义信息不足，无法提高小目标的识别率。FPN结构的上下层多尺度信息融合并不能很好的处理上述情况。为了改善上述问题，本实施方式在FPN结构中引入空洞卷积对其进行优化，通过空洞卷积来替换原结构中的下采样过程，从而减少小目标信息的损失，进而更好的实现对多尺度目标的检测。

所述步骤(5)中针对NMS算法存在的问题进行改进，通过引入IoU置信度及soft-NMS算法对网络后处理进行优化。非极大值抑制(Non-Maximum Suppression，NMS)用于对不是极大值的元素进行抑制，是一种局部最大搜索方法，通常应用于计算机视觉领域的边缘检测、目标识别与目标检测等任务中。NMS算法中预测框根据目标置信度作为分数值由高到底进行排序，但目标置信度值的大小仅仅用于判断该预测框框定的区域是目标的可能性“大不大”，并不能说明预测框对目标框定的效果“好不好”，除此之外，NMS算法还可能造成目标的漏检问题，当两个不同的目标相距较近时，可能造成目标漏检。

优选地，本实施方式中在原损失函数的基础上添加IoU损失，从而得到一个新的置信度即IoU置信度。Yolov3原损失函数由三部分组成：预测框偏移量损失函数、类别损失函数和置信度损失函数。改进后的损失函数公式如下：

Loss＝loss_1+loss_2+loss_3+loss_4 (1)

其中：

其中，loss_1为预测框偏移量损失，loss_2为置信度损失，loss_3为类别损失，loss_4为IoU损失，K为Anchor聚类簇数，M为一张图像中Ground Truth box个数其中，obj为图像中的人员目标，i代表是预测框中某个框，j代表某个真值框，iou_i为第i个预测框与真值框的IoU。

本实施方式将NMS算法中的分数值按如下公式进行设定，其中conf为原置信度，IoU_conf为IoU置信度。

Score＝conf×IoU_conf (3)

通过上述方式得到的预测框的分数值既考虑到了预测框的正确性又考虑到了预测框的准确性。

进一步地，对于使用NMS算法可能造成的目标漏检问题，本实施方式使用soft-NMS算法来进行新的非极大值抑制操作，soft-NMS算法专门用以解决由NMS算法引起的当两个目标相近时的漏检问题。其核心思想是当两个预测框交并比大于预设的阈值时，并不直接剔除分数值更低的框，而是通过再次降低其分数值来使其保留在排序列表内进行二次筛选。

由此可见，本发明对人员目标检测更加准确，并且降低计算量，加快了模型推理速度，通过提高预测框的准确度，降低了目标漏检的概率，对Yolov3基准网络进行多方面优化和改进，使整体网络获得了更快的推理时间、更准确的检测定位目标，具有较好的实用性。

Claims

1.一种基于Yolov3的人员目标检测方法，其特征在于，包括：

步骤(1)：获取图像，构建基于Yolov3的基准网络，构建基于Yolov3的基准网络时，使用K-Means聚类算法对Anchor进行参数设定；使用Darknet-53网络作为Yolov3的主干网络；引入特征金字塔结构，用于对多尺度目标进行特征提取及检测；使用交叉熵损失函数来计算预测框偏移量的损失；

步骤(2)：根据人员目标的高宽比设计所述Anchor的尺度；

Loss＝loss_1+loss_2+loss_3+loss_4

其中，loss_1为预测框偏移量损失，loss_2为置信度损失，loss_3为类别损失，loss_4为IoU损失；所述loss_4的表达式为：

Score＝conf×IoU_conf

其中，conf为Yolov3中的目标置信度，IoU_conf为IoU置信度；

所述步骤(5)中，还通过soft-NMS算法进行非极大值抑制操作，当两个目标相近且预测框交并比大于预设的阈值时，通过降低两个预测框中分数值低的预测框的分数，使降低分数值后的预测框保留在排序列表内进行二次筛选；

2.根据权利要求1所述的基于Yolov3的人员目标检测方法，其特征在于，所述步骤(2)具体为：将人员目标的高宽比设置为3:1、2:1和1:1三种类型，对框高进行一维聚类得到Anchor的框高值，通过所述Anchor的框高值来计算Anchor的宽度值。

3.根据权利要求1所述的基于Yolov3的人员目标检测方法，其特征在于，所述步骤(3)中的MobileNet_v2网络通过引入分离卷积将3×3卷积拆分为Depthwise卷积和Pointwise卷积；所述Depthwise卷积用于对同一平面上的信息进行融合，所述Pointwise卷积用于对多通道信息进行融合。

4.根据权利要求1所述的基于Yolov3的人员目标检测方法，其特征在于，所述步骤(4)具体为：通过引入空洞卷积来替换所述特征金字塔结构中的下采样过程，用于对多尺度目标的检测。