CN110728200A

CN110728200A - 一种基于深度学习的实时行人检测方法及系统

Info

Publication number: CN110728200A
Application number: CN201910897781.1A
Authority: CN
Inventors: 梁超; 焦黎; 王晓; 胡必成; 鲁铮; 叶力果; 王泽铠
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-09-23
Filing date: 2019-09-23
Publication date: 2020-01-24
Anticipated expiration: 2039-09-23
Also published as: CN110728200B

Abstract

本发明公开了一种基于深度学习的实时行人检测方法及系统，首先获取视频数据，并且将输入的视频图像进行尺寸调整，利用深度可分离卷积对输入图像进行特征提取。其中网络中的passthough layer结构通过对深层特征进行上采样操作，与浅层特征进行特征融合，随后输出分辨率较小的深层特征图和分辨率较高的融合了粗粒度特征与细粒度特征的特征图。最终在这两个不同尺度的特征图上进行回归与预测，输出每个行人检测结果的边界框和置信度。该方法在实际的监控场景中，实现了满足真实场景需要的基于高清视频的实时行人检测方法，在保证了准确率的情况下，提高了检测效率。

Description

一种基于深度学习的实时行人检测方法及系统

技术领域

本发明属于计算机图像识别技术领域，涉及一种实时行人检测方法及系统，尤其涉及一种基于深度学习的实时行人检测方法及系统。

背景技术

行人检测是目标检测中重要的组成部分，也是计算机视觉中的研究热点，广泛的应用于刑侦视频监控、智能驾驶和特定目标检索。近年来，得益于深度学习方面的不断发展，行人检测已经取得了很大的进展。但是由于深度网络模型结构复杂，参数计算量较大，很大程度上降低了检测速度。并且基于视频序列的检测速度，有实时性的要求。

现有的基于深度学习的目标检测方法可以大致分为基于候选区域方法和回归方法。基于候选区域的方法是以“候选区域特征提取+分类”的方式来实现检测，例如RCNN(Girshick R，Donahue J，Darrell T，et al.Rich feature hierarchies for accurateobject detection and semantic segmentation[C]//Proceedings of the IEEEconference on computer vision and pattern recognition.2014:580-587.)系列。而回归的方法是根据先验知识对输入图片进行预测，利用整张图片作为网络输入，直接输出行人的位置信息和置信度。例如YOLO(Redmon J，Divvala S，Girshick R，et al.You onlylook once:Unified，real-time object detection[C]//Proceedings of the IEEEconference on computer vision and pattern recognition.2016:779-788.)系列。RCNN系列的整体流程分为区域提取和目标分类两部分，这样做的特点虽然确保了精度，但速度非常慢。而YOLO系列是一步完成检测与分类，在速度上提升不少。两类方法在实际的监控场景中都能准确地定位出行人目标，但是都无法达到实时检测。

发明内容

为了解决现有的行人检测方法检测速度较慢的问题，本发明提出了一种基于深度学习的实时行人检测方法及系统，通过改进网络结构达到实时检测的效果。

本发明的方法所采用的技术方案是：一种基于深度学习的实时行人检测方法，其特征在于，包括以下步骤：

步骤1：对实际的监控视频数据进行统一地行人标注，作为训练图片；将训练图片送入深度网络中提取特征，经过若干次迭代更新网络权重参数，获得精度高于预设阈值的行人检测器；

步骤2：利用行人检测器对行人进行检测；

具体实现包括以下步骤：

步骤2.1：对输入的视频序列图像利用神经网络进行尺度大小处理；

步骤2.2：利用深度可分离卷积网络对处理后图像进行特征提取，获得的特征图feature map用P(X，Y，M)表示，其中X和Y表示特征图的横、纵坐标，M表示特征图的通道维度；

步骤2.3：在深度可分离卷积网络中加入一个passthrough layer的结构，是由深度可分离卷积层、池化或上采样层以及路由层组成；

步骤2.4：利用passthough layers的结构，通过池化或上采样操作融合高分辨率与低分辨率的卷积特征；

步骤2.5：将步骤2.4中融合后的特征图feature map通过先验知识预测图像中可能出现行人的位置，获得行人位置边界框的最终尺寸；

步骤2.6：针对步骤2.4中未经过池化的分辨率较高的特征图feature map通过先验知识预测图像中可能出现行人的位置，获得行人位置边界框的最终尺寸；

步骤2.7：最后一层包含两个分支，分别是对步骤2.5与步骤2.6中预测的边界框进行分类和边框回归，对步骤2.5与步骤2.6中预测的边界框进行分类和边框回归，最终输出行人的位置信息(x，y，w，h)、类别以及置信度，其中，(x，y)是行人矩形框中心在图像中对应的坐标信息，(w，h)为行人就行框的宽度和高度。

本发明的系统所采用的技术方案是：一种基于深度学习的实时行人检测系统，其特征在于：包括训练模块和检测模块；

所述训练模块，用于对实际的监控视频数据进行统一地行人标注，作为训练图片；将训练图片送入深度网络中提取特征，经过若干次迭代更新网络权重参数，获得精度高于预设阈值的行人检测器；

所述训练模块，包括训练集采集子模块、参数设置子模块、行人边界框预测子模块、高于预设阈值的行人检测器构建子模块；

所述训练集采集子模块，用于从不同点位的摄像头下获取视频数据，并从中选择视角不同，行人多于预设阈值的高清图片作为训练图片，利用LabelImg标注工具标注行人框，作为训练集；

所述参数设置子模块，用于在训练前对学习率、训练类别、batch size和迭代次数进行设置；

所述行人边界框预测子模块，用于输入训练图片，利用深度网络对图像进行两种尺度上的预测，让网络同时学习到深层和浅层的特征，通过叠加浅层特征图得到不同通道；最终对网络输出的两种不同分辨率下的特征图对应了3种不同大小的先验框anchor box，即预测出的行人边界框；

所述高于预设阈值的行人检测器构建子模块，用于网络训练损失，训练过程的损失函数主要由四部分组成：分别是行人中心坐标损失、anchor长宽回归值损失、置信度损失与分类损失；在平均损失在若干次迭代且不再减少时停止训练，最终获得不同迭代次数下的权重文件；经过若干次迭代更新网络权重参数，获得精度高于预设阈值的行人检测器；

所述检测模块，用于对输入的视频序列图像利用神经网络进行尺度大小处理；

所述检测模块，包括图像预处理子模块、特征提取子模块、深度卷积网络优化子模块、卷积特征融合子模块、第一预测子模块、第二预测子模块、行人检测子模块；

所述图像预处理子模块，用于对输入的视频序列图像利用神经网络进行尺度大小处理；

所述特征提取子模块，用于利用深度可分离卷积网络对处理后图像进行特征提取，获得的特征图feature map用P(X，Y，M)表示，其中X和Y表示特征图的横、纵坐标，M表示特征图的通道维度；

所述深度卷积网络优化子模块，用于在深度可分离卷积网络中加入一个passthrough layer的结构，是由深度可分离卷积层、池化或上采样层以及路由层组成；

所述卷积特征融合子模块，用于利用passthough layers的结构，通过池化或上采样操作融合高分辨率与低分辨率的卷积特征；

所述第一预测子模块，用于将融合后的特征图feature map通过先验知识预测图像中可能出现行人的位置，获得行人位置边界框的最终尺寸；

所述第二预测子模块，用于针对未经过池化的分辨率较高的特征图feature map通过先验知识预测图像中可能出现行人的位置，获得行人位置边界框的最终尺寸；

所述行人检测子模块，最后一层包含两个分支，分别是对步骤2.5与步骤2.6中预测的边界框进行分类和边框回归，对预测的边界框进行分类和边框回归，最终输出行人的位置信息(x，y，w，h)、类别以及置信度，其中，(x,y)是行人矩形框中心在图像中对应的坐标信息，(w,h)为行人就行框的宽度和高度。

本发明针对现有方法网络模型较大处理高清图片的检测速度较慢的问题，提出了一种简化复杂网络结构的方法,结合轻量级网络中的深度可分离卷积网络进行修改，通过减少模型参数以及减少卷积层来降低网络模型的复杂性，达到提升检测速度的目的。

附图说明

图1为本发明实施例的流程图；

图2为本发明实施例的网络框架。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明提供的一种基于深度学习的实时行人检测方法，包括以下步骤：

本实施例中，对实际的监控视频数据(分辨率1920×1080)进行统一地行人标注，并以xml文件格式保存标注的行人位置信息和类别。

步骤1的具体实现包括以下步骤：

步骤1.1：从不同点位的摄像头下获取视频数据，并从中选择视角不同，行人多于预设阈值的高清图片作为训练图片，利用LabelImg标注工具标注行人框，作为训练集；

本实施例中，采用的训练集格式是VOC数据格式，从不同点位的摄像头下获取视频数据，并从中选择视角不同，行人较多的高清图片作为训练图片，利用LabelImg标注工具标注行人框，作为训练中的Ground Truth，图片数量为1000张；

步骤1.2：在训练前对学习率、训练类别、batch size和迭代次数进行设置；

步骤1.3：输入训练图片，利用深度网络对图像进行两种尺度上的预测，让网络同时学习到深层和浅层的特征，通过叠加浅层特征图得到不同通道；最终对网络输出的两种不同分辨率下的特征图对应了3种不同大小的先验框anchor box，即预测出的行人边界框；

本实施例中，输入训练图片，利用深度网络(主要是深度可分离卷积结构)对图像进行两种尺度上的预测，让网络同时学习到深层和浅层的特征，通过叠加浅层特征图得到不同通道，此方式将26×26×512的特征图叠加在13×13×1024的特征图上，与原生的深层特征相连接，使网络有了细粒度特征。最终对网络输出的两种不同分辨率下的特征图对应了3种不同大小的先验框(anchor box)，即预测出的行人边界框；

步骤1.4：网络训练损失，训练过程的损失函数主要由四部分组成：分别是行人中心坐标损失、anchor长宽回归值损失、置信度损失与分类损失；在平均损失在若干次迭代且不再减少时停止训练，最终获得不同迭代次数下的权重文件；经过若干次迭代更新网络权重参数，获得精度高于预设阈值的行人检测器。

其中，行人中心坐标的损失L_xy为：

该函数计算了每一个网格单元i的每一个预测值j的总和，i＝0，...，S²，j＝0，...B；C_i表示当前行人预测框的置信度，areaPred表示预测框尺度w*h，L_cross是中心坐标的交叉熵损失，具体表示为：

式中，表示GroundTruth的坐标信息，t表示预测的中心坐标；

anchor长宽回归值损失L_wh为：

其中，w和h表示预测框的长和宽，

和表示GroundTruth的长和宽；

置信度损失与分类损失与中心坐标损失一致，都是使用二值交叉熵作为损失函数。对特征输出的四个部分进行回归优化，使检测结果更加接近于实际位置，很大程度上提高了检测精度。

步骤2：利用行人检测器对行人进行检测；

具体实现包括以下步骤：

本实施例中，输入的视频序列图像分辨率为1920×1080，通过下采样的方式进行尺度大小处理，使图片尺度大小为416×416或320×320。

本实施例中，给定的视频序列送入神经网络，每一帧图片用I(X，Y)表示，在网络中每帧图片按比例缩放到416×416或320×320大小，并利用深度可分离卷积层提取特征，得到特征图用P(X，Y，M)表示，其中X和Y表示特征图的横纵坐标，M表示特征图的通道维度；

请见图2，深度可分离卷积将标准卷积(卷积核假设为(3，3，N))分解成两个部分，分别是深度卷积和逐点卷积。实现方式主要是3×3和1×1的卷积层，深度卷积是对输入的图片或前一个卷积层输出的特征图进行卷积操作，提取特征，针对M个通道，卷积核形式以(3，3，M)表示；逐点卷积主要是对深度卷积后的特征图进行特征通道维度转化，卷积核形式为(1，1，N)两者共同完成标准卷积特征提取的过程，但是网络参数更少，最终经过深度可分离卷积层的输出特征为G(X，Y，N)。

本实施例中，具体实现步骤是：

1、该结构中主要由路由层指定网络中需要融合的特征，例如26×26×512维度的特征图与13×13×1024维特征图；

2、可以通过对13×13×1024维特征图进行2倍上采样，或是将高分辨率的浅层特征进行池化。

3、从之前浅层网络的高分辨率特征图与上采样特征利用点积的方式进行合并。这种方式较早期特征映射中的上采样特征和更细粒度的信息中获得更有意义的语义信息。

passthough layers(迁移层)，将两层分辨率不同的特征连接的技术，例如将前面一层的26*26的特征图和本层13*13的特征图进行连接。对于26*26*512的特征图，经passthrough层处理之后就变成了13*13*2048的新特征图(特征图大小变为1/4，而通道数变为以前的4倍)，然后与后面的13*13*1024特征图连接在一起形成13*13*3072的特征图。

本实施例中，在yolo层针对大小不同的feature map，每个cell都对应着3种anchor box所以最终网络输出了2535个预测框，并经过边框回归与分类，即选择得分最高的边界框，输出行人位置信息、person类别与置信度。

本实施例中，使用K-means聚类方法对步骤2.4与步骤2.5中预测的边界框进行分类，分别获得六种聚类结果，然后特征图的边框上均匀分割聚类维度；

在K-means聚类方法中选择欧式距离计算两个边框之间的距离，

d(box，centroid)＝1-IOU(box，centroid)

式中，centroid是聚类时被选作中心的边框，box就是其他的边框，d是两者之间的距离，IOU()为计算边框之间距离的函数；

本实施例中，两种尺度特征图对应六种聚类结果，其中anchor分配方式是在较小的13×13特征图上应用3个较大的先验框，因为在较小的特征图上有最大的感受野。在较大的26×26特征图上具有较小的感受野，所以对应较小的3个先验框。

本实施例中，边框回归是对上一步骤预测的边界框的中心坐标和长宽进行约束；对t_x和t_y分别经过sigmoid函数输出偏移量，与C_x和C_y(相对于左上角的位置)相加得到预测框中心点的位置；p_w，p_h是设置的anchor(锚点，负责预测行人框的特征层中的每个值都是一个锚点)宽和高，与t_w，t_h作用组成预测框的宽和高；

具体为：

b_x＝σ(t_x)+C_x

b_y＝σ(t_y)+C_y

其中，b_x和b_y是边框回归在预测框的中心坐标t_x和t_y上的约束，b_w和b_h是边框回归在预测框的宽度t_w和高度t_h上的约束，p_w，p_h是设置的框和高，C_x和C_y为横纵坐标的偏执项。

对于每帧输入图像，网络对其进行特征提取最终到2个尺度的输出张量，代表图像各个位置存在行人目标的概率。

本发明还提供了一种基于深度学习的实时行人检测系统，其特征在于：包括训练模块和检测模块；

训练模块，用于对实际的监控视频数据进行统一地行人标注，作为训练图片；将训练图片送入深度网络中提取特征，经过若干次迭代更新网络权重参数，获得精度高于预设阈值的行人检测器；

训练模块，包括训练集采集子模块、参数设置子模块、行人边界框预测子模块、高于预设阈值的行人检测器构建子模块；

训练集采集子模块，用于从不同点位的摄像头下获取视频数据，并从中选择视角不同，行人多于预设阈值的高清图片作为训练图片，利用LabelImg标注工具标注行人框，作为训练集；

参数设置子模块，用于在训练前对学习率、训练类别、batch size和迭代次数进行设置；

行人边界框预测子模块，用于输入训练图片，利用深度网络对图像进行两种尺度上的预测，让网络同时学习到深层和浅层的特征，通过叠加浅层特征图得到不同通道；最终对网络输出的两种不同分辨率下的特征图对应了3种不同大小的先验框anchor box，即预测出的行人边界框；

高于预设阈值的行人检测器构建子模块，用于网络训练损失，训练过程的损失函数主要由四部分组成：分别是行人中心坐标损失、anchor长宽回归值损失、置信度损失与分类损失；在平均损失在若干次迭代且不再减少时停止训练，最终获得不同迭代次数下的权重文件；经过若干次迭代更新网络权重参数，获得精度高于预设阈值的行人检测器；

检测模块，用于对输入的视频序列图像利用神经网络进行尺度大小处理；

检测模块，包括图像预处理子模块、特征提取子模块、深度卷积网络优化子模块、卷积特征融合子模块、第一预测子模块、第二预测子模块、行人检测子模块；

图像预处理子模块，用于对输入的视频序列图像利用神经网络进行尺度大小处理；

特征提取子模块，用于利用深度可分离卷积网络对处理后图像进行特征提取，获得的特征图feature map用P(X，Y，M)表示，其中X和Y表示特征图的横、纵坐标，M表示特征图的通道维度；

深度卷积网络优化子模块，用于在深度可分离卷积网络中加入一个passthroughlayer的结构，是由深度可分离卷积层、池化或上采样层以及路由层组成；

卷积特征融合子模块，用于利用passthough layers的结构，通过池化或上采样操作融合高分辨率与低分辨率的卷积特征；

第一预测子模块，用于将融合后的特征图feature map通过先验知识预测图像中可能出现行人的位置，获得行人位置边界框的最终尺寸；

第二预测子模块，用于针对未经过下采样(池化层的操作类似于下采样)的分辨率较高的特征图feature map通过先验知识预测图像中可能出现行人的位置，获得行人位置边界框的最终尺寸；

行人检测子模块，最后一层包含两个分支，分别是对步骤2.5与步骤2.6中预测的边界框进行分类和边框回归，对预测的边界框进行分类和边框回归，最终输出行人的位置信息(x，y，w，h)、类别以及置信度，其中，(x,y)是行人矩形框中心在图像中对应的坐标信息，(w,h)为行人就行框的宽度和高度。

应当理解的是，本说明书未详细阐述的部分均属于现有技术；上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于深度学习的实时行人检测方法，其特征在于，包括以下步骤：

步骤2：利用行人检测器对行人进行检测；

具体实现包括以下步骤：

步骤2.7：最后一层包含两个分支，分别是对步骤2.5与步骤2.6中预测的边界框进行分类和边框回归，最终输出行人的位置信息(x，y，w，h)、类别以及置信度，其中，(x，y)是行人矩形框中心在图像中对应的坐标信息，(w，h)为行人就行框的宽度和高度。

2.根据权利要求1所述的基于深度学习的实时行人检测方法，其特征在于，步骤1的具体实现包括以下步骤：

步骤1.4：网络训练损失，训练过程的损失函数主要由四部分组成：分别是行人中心坐标损失、anchor长宽回归值损失、置信度损失与分类损失；平均损失在若干次迭代且不再减少时停止训练，最终获得不同迭代次数下的权重文件；经过若干次迭代，直至更新的网络权重参数不再变动，获得参数稳定的行人检测器。

3.根据权利要求2所述的基于深度学习的实时行人检测方法，其特征在于：步骤1.4中，行人中心坐标的损失L_xy为：

该函数计算了每一个网格单元i的每一个预测值j的总和，i＝0，...，S²，j＝0，...B；C_i表示当前行人预测框的置信度，areaPred表示预测框尺度w*h，L_cross

是中心坐标的交叉熵损失，具体表示为：

式中，

表示Ground Truth的坐标信息，t表示预测的中心坐标；

anchor长宽回归值损失L_wh为：

其中，w和h表示预测框的长和宽，

和

表示Ground Truth的长和宽；

置信度损失与分类损失与中心坐标损失一致，都是使用二值交叉熵作为损失函数。

4.根据权利要求1所述的基于深度学习的实时行人检测方法，其特征在于：步骤2.1中，输入的视频序列图像分辨率为1920×1080，通过下采样的方式进行尺度大小处理，使图片尺度大小为416×416或320×320。

5.根据权利要求1所述的基于深度学习的实时行人检测方法，其特征在于：步骤2.2中，所述深度可分离卷积，是将标准化卷积分解为深度卷积与逐点卷积两个部分，利用3×3和1×1的卷积层实现，目的是降低参数数量；深度卷积是对输入图像或上一层输入的特征图feature map进行卷积，输出的特征通道维度为1；逐点卷积是将深度卷积后的特征图转换通道维度，卷积核大小为1×1。

6.根据权利要求1-5任意一项所述的基于深度学习的实时行人检测方法，其特征在于：步骤2.7中，使用K-means聚类方法对步骤2.4与步骤2.5中预测的边界框进行分类，分别获得六种聚类结果，然后特征图的边框上均匀分割聚类维度；

在K-means聚类方法中选择欧式距离计算两个边框之间的距离，

d(box，centroid)＝1-IOU(box，centroid)

两种尺度特征图对应六种聚类结果，其中anchor分配方式是在较小的特征图上应用3个较大的先验框，在较大的特征图上应用较小的3个先验框；

步骤2.7中，边框回归是对上一步骤预测的边界框的中心坐标和长宽进行约束；对t_x和t_y分别经过sigmoid函数输出偏移量，与C_x和C_y相加得到预测框中心点的位置；p_w，p_h是设置的锚点anchor宽和高，与t_w，t_h作用组成预测框的宽和高；

具体为：

b_x＝σ(t_x)+C_x

b_y＝σ(t_y)+C_y

7.一种基于深度学习的实时行人检测系统，其特征在于：包括训练模块和检测模块；

所述深度卷积网络优化子模块，用于在深度可分离卷积网络中加入一个passthroughlayer的结构，是由深度可分离卷积层、池化或上采样层以及路由层组成；

所述行人检测子模块，最后一层包含两个分支，分别是对步骤2.5与步骤2.6中预测的边界框进行分类和边框回归，对预测的边界框进行分类和边框回归，最终输出行人的位置信息(x，y，w，h)、类别以及置信度，其中，(x，y)是行人矩形框中心在图像中对应的坐标信息，(w，h)为行人就行框的宽度和高度。