CN112131933A

CN112131933A - 一种基于改进yolo网络的快速行人检测方法与系统

Info

Publication number: CN112131933A
Application number: CN202010802385.9A
Authority: CN
Inventors: 段运生; 竺德; 黄雪峰; 汪晨威
Original assignee: Anhui University; CERNET Corp
Current assignee: Anhui University; CERNET Corp
Priority date: 2020-08-11
Filing date: 2020-08-11
Publication date: 2020-12-25

Abstract

本发明公开了一种基于改进YOLO网络的快速行人检测方法及系统。所述基于改进YOLO网络的快速行人检测方法，包括如下步骤：输入图像；输入图像的大小为416×416；将图像分为S×S网格；若对象的中心落入网格单元，则该网格单元负责检测该对象；特征提取网络；使用DRKCELM和DLELM‑AE联合网络作为特征提取器进行分类和检测；边界框预测；每个网格单元预测B边界框和这些框的置信度得分；每个边界框负责预测以下四个值tx、ty、tw、th以及信心值to；最终检测结果；通过非最大抑制(NMS)算法获取最终目标检测结果。本发明旨在提出改进YOLO网络的快速行人检测，使其能够准确、有效地对视频中的行人进行检测和提取。

Description

一种基于改进YOLO网络的快速行人检测方法与系统

技术领域

本发明涉及基于视频的行人检测算法的技术领域，尤其涉及一种基于改进YOLO网络的快速行人检测方法与系统。

背景技术

随着互联网技术的飞速发展，大量的监控终端设备接入到网络，从而产生了大量的视频数据。因此基于视频的各类应用得到社会的广泛关注，例如智能监控、安防检测、行为分析等。在计算机视觉中，对象检测一直被认为是最具挑战性的问题之一，因为它需要在同一场景中对对象进行分类和定位。同时，这也是计算机视觉和人工智能领域的重要研究课题之一。基于视频的行人目标检测是对图像序列中的行人进行检测和提取，为目标的识别和分析提供基础数据。目前常见的行人检测算法有Faster R-CNN、SSD、YOLO等。然而这些算法均存在各自局限性，例如训练速度慢，人工干预，费时。

Faster R-CNN提出了基于SPP-Net的感兴趣区域(RoI)池化层。同时使用一种称为选择性搜索(SS)的方法来限制边界框的数量，Faster R-CNN直接生成潜在的边界框，可通过区域生成网络(RPN)进行检测。RPN训练包括真实值(ground truth)和损失函数(lossfunction)两部分。真实值就是anchor内是否有目标，如果某anchor与任一目标区域的IoU最大，则该anchor判定为有目标；假如某anchor与任一目标区域的IoU>0.7，则判定为有目标；假如某anchor与任一目标区域的IoU<0.3，则判定为背景。其中，IoU就是预测边框和真实边框的交集除以两者的并集。损失函数对应RPN的两条支路，即是否为目标的分类损失和边框的回归损失。

Faster R-CNN仍然使用ROI Pooling，导致之后的网络特征失去平移不变性，影响最终定位准确性；

ROI Pooling后每个区域经过多个全连接层，存在较多重复计算；

Faster R-CNN在特征图上使用锚点框对应原图，而锚点框经过多次下采样操作，对应原图一块较大的区域，导致Faster R-CNN检测小目标的效果并不是很好。

SSD利用不同卷积层的特征图，直接预测边框位置和类别，没有生成候选区域的过程。SSD算法是在原来VGG16的后面添加了几个卷积层来预测置信度和位置，SSD的主网络结构是VGG16，修改之处在于将VGG最后的两个全连接层改成了卷积层(conv6：3*3*1024的卷积，conv7：1*1*1024的卷积)，再增加4个卷积层构造网络结构。对conv4_3，conv7，conv8_2，conv9_2，conv10_2和conv11_2分别采用两个3*3大小的卷积核进行卷积，一个输出分类用的置信度，每个预设边框生成21个置信度(针对VOC数据集包含20个物体类别而言)；另一个输出回归用的位置，每个预设边框生成4个坐标值(x，y，w，h)。最后将前面三个计算结果分别合并然后传递给损失层。总的损失是位置损失和置信度损失之和。最后用非最大化抑制(non-maximum Suppression)确定物体的检测位置。

网络中检测框的基础大小和形状不能直接通过学习获得，需要人工设置超参数值。导致调试过程非常依赖经验。

对小目标的召回率一般，低级特征卷积层数少，存在特征提取不充分的问题。

YOLO直接选用整图作为训练模型，在图像的多个位置上回归出目标的边框以及其分类类别，是将物体检测转化成回归的方法。YOLO可以一次性预测多个边框位置和类别，能够实现端到端的目标检测和识别。

YOLO算法首先将输入图像尺寸调整到448*448，然后将图像划分为S*S个网格，如果一个物体的中心落在某网格内，则相应网格负责检测该物体。在训练和测试时，每个网络预测B个边框，每个边框对应5个预测参数：边框的中心点坐标(x,y)、宽高(w,h)和置信度评分。置信度评分反应了当前边框中含有物体的置信度Pr和预测位置的准确性IOU。如果边框内不存在物体，则Pr＝0。如果存在物体，则根据预测的边框和真实的边框计算IOU，同时会预测存在物体的情况下该物体属于某一类的概率Pr。

YOLO对相互靠的很近的物体，还有很小的群体检测效果不好，这是因为一个网格中只预测了两个框，并且只属于一类。

同一类物体出现的新的不常见的长宽比和其他情况时，泛化能力偏弱。

由于损失函数的问题，定位误差是影响检测效果的主要原因。尤其是大小物体的处理上，还有待加强。

因此，有必要提供一种新的基于改进YOLO网络的快速行人检测方法与系统，以解决上述技术问题。

发明内容

本发明的主要目的在于提供一种基于改进YOLO网络的快速行人检测方法，旨在解决相关技术中，无法进行快速和准确的行人检测，且不能有效对视频中的行人进行检测和提取的技术问题。

为实现上述目的，本发明提供的基于改进YOLO网络的快速行人检测方法，包括如下步骤：

输入图像；输入图像的大小为416×416；将图像分为S×S网格；若对象的中心落入网格单元，则该网格单元负责检测该对象；

特征提取网络；使用DRKCELM和DLELM-AE联合网络作为特征提取器进行分类和检测；

边界框预测；每个网格单元预测B边界框和这些框的置信度得分；每个边界框负责预测以下四个值tx、ty、tw、th以及信心值to；

其中，关于检测到的对象，每个网格单元还预测C个条件类别概率(tci，i＝1,2,...,C)；最终，得到了一个预测的张量，该张量用于回归；Faster-YOLO的最终预测是3-d张量：S×S×B×(5+C)；

最终检测结果；通过非最大抑制(NMS)算法获取最终目标检测结果。

为解决上述技术问题，本发明还提供一种基于改进YOLO网络的快速行人检测系统，包括：

输入图像模块；所述输入图像模块用于：

输入图像的大小为416×416；将图像分为S×S网格；若对象的中心落入网格单元，则该网格单元负责检测该对象；

特征提取网络模块；特征提取网络模块用于：

使用DRKCELM和DLELM-AE联合网络作为特征提取器进行分类和检测；

边界框预测模块；所述边界框预测模块用于：

每个网格单元预测B边界框和这些框的置信度得分；每个边界框负责预测以下四个值tx、ty、tw、th以及信心值to；

最终检测结果模块；最终检测结果模块用于：

通过非最大抑制(NMS)算法获取最终目标检测结果。

本发明提供的基于改进YOLO网络的快速行人检测方法，输入图像；输入图像的大小为416×416；将图像分为S×S网格；若对象的中心落入网格单元，则该网格单元负责检测该对象；特征提取网络；使用DRKCELM和DLELM-AE联合网络作为特征提取器进行分类和检测；边界框预测；每个网格单元预测B边界框和这些框的置信度得分；每个边界框负责预测以下四个值tx、ty、tw、th以及信心值to；其中，关于检测到的对象，每个网格单元还预测C个条件类别概率(tci，i＝1,2,...,C)；最终，得到了一个预测的张量，该张量用于回归；Faster-YOLO的最终预测是3-d张量：S×S×B×(5+C)；最终检测结果；通过非最大抑制(NMS)算法获取最终目标检测结果。

针对现有技术中的缺点和不足，本发明旨在提出改进YOLO网络的快速行人检测，使其能够准确、有效地对视频中的行人进行检测和提取。

本算法能够准确地检测视频中的行人，并且本发明提出的算法具有较好的特征提取能力，该特性主要得益于通过DRKCELM和DLELM-AE联合网络提取模型特征。

通过DRKCELM和DLELM-AE联合网络模型，以获取检测行人的特征。

通过搭建目标检测网络在行人识别中的贡献度，以及各网络结构的特性，实现快速行人检测。

附图说明

图1为本发明提供的基于改进YOLO网络的快速行人检测方法的算法流程图；

图2为本发明提供的基于改进YOLO网络的快速行人检测方法的RKCELM模型的结构图；

图3为本发明提供的基于改进YOLO网络的快速行人检测方法的DRKCELM和DLELM-AE联合网络体系结构图；

图4为本发明提供的基于改进YOLO网络的快速行人检测方法的位置预测的边界框图；

图5为本发明提供的基于改进YOLO网络的快速行人检测方法的检测结果图。

本发明目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种基于改进YOLO网络的快速行人检测方法。

请参阅图1，为实现上述目的，本发明的一实施例中，基于改进YOLO网络的快速行人检测方法，包括如下步骤：

S10，输入图像；输入图像的大小为416×416；将图像分为S×S网格；若对象的中心落入网格单元，则该网格单元负责检测该对象；

S20，特征提取网络；使用DRKCELM和DLELM-AE联合网络作为特征提取器进行分类和检测；

S30，边界框预测；每个网格单元预测B边界框和这些框的置信度得分；每个边界框负责预测以下四个值tx、ty、tw、th以及信心值to；

S40，最终检测结果；通过非最大抑制(NMS)算法获取最终目标检测结果。

针对基于改进YOLO网络的快速行人检测方法的工作原理，具体说明如下：

1)构建RKCELM

为了充分利用CNN在特征提取和基于ELM-LRF的ELM算法快速训练速度方面的优势，提出了一种结合ELM自动编码器(ELM-AE)和卷积神经网络(CNN)。ELM-AE是一种无监督的学习方法，它有助于堆叠网络获得更多抽象表示而不会丢失重要信息。其主要思想是将快速模型与复杂模型相结合，以充分发挥其优势。

卷积核对所有输入图执行卷积运算，并且可以根据高斯分布随机生成共享的卷积核参数。这等效于通过与输入图像的本地连接使用随机卷积内核来提取低级特征信息。然后，将ELM-AE完全连接到隐藏层和卷积特征图之间，并通过编码和重建来提取代表性特征。最后，平方根池以组合节点的形式使用，这使得RKCELM网络具有平移不变性。RKCELM模型的结构如图2所示，主要包括以下部分：随机卷积核，卷积层，ELM-AE层和组合池化层。

2)DRKCELM和DLELM-AE联合网络提取模型特征

考虑到YOLO中的Darknet复杂且参数过多，本发明将YOLO中的Darknet替换为DRKCELM和DLELM-AE联合网络，如图2所示。联合网络由两层RKCELM和一个双隐藏层极限学习机自动编码器(DLELM-AE)组成。RKCELM负责底层特征提取，而DLELM-AE则负责高层特征提取。DRKCELM和DLELM-AE联合网络的参数如表1所示。

表1 DRKCELM和DLELM-AE联合网络的参数设置

3)边界框预测

本发明使用维数聚类作为锚定框来预测边界框。网络的预测包括4个坐标的每个边界框。(c_x,c_y)是栅格距图片左上角的偏移量。(p_w,p_h)是先验边界框的宽度和高度。λ_w和λ_h表示最小锚点框和输入图像的宽度和高度之比。σ(·)是S型函数。相应的预测在图4中示出。

4)检测结果

本发明为了验证算法对检测结果的影响，如图5所示，在模型中分别检测出了单个行人和多个行人的。可以看出，改进YOLO网络的快速行人检测算法具有良好的检测性能。

本发明还提供一种基于改进YOLO网络的快速行人检测系统。

基于改进YOLO网络的快速行人检测系统，包括：

输入图像模块；所述输入图像模块用于：

特征提取网络模块；特征提取网络模块用于：

边界框预测模块；所述边界框预测模块用于：

最终检测结果模块；最终检测结果模块用于：

通过非最大抑制(NMS)算法获取最终目标检测结果。

针对基于改进YOLO网络的快速行人检测系统的工作原理，具体说明如下：

1)构建RKCELM

2)DRKCELM和DLELM-AE联合网络提取模型特征

表1 DRKCELM和DLELM-AE联合网络的参数设置

3)边界框预测

4)检测结果

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备进入本发明各个实施例所述的方法。

在本说明书的描述中，参考术语“一实施例”、“另一实施例”、“其他实施例”、或“第一实施例～第X实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料、方法步骤或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于改进YOLO网络的快速行人检测方法，其特征在于，包括如下步骤：

2.一种基于改进YOLO网络的快速行人检测系统，其特征在于，包括：

输入图像模块；所述输入图像模块用于：

特征提取网络模块；特征提取网络模块用于：

边界框预测模块；所述边界框预测模块用于：

最终检测结果模块；最终检测结果模块用于：

通过非最大抑制算法获取最终目标检测结果。