CN110555425A

CN110555425A - 一种视频流实时行人检测方法

Info

Publication number: CN110555425A
Application number: CN201910859779.5A
Authority: CN
Inventors: 张春月; 史小宏; 易典; 徐浩
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2019-09-11
Filing date: 2019-09-11
Publication date: 2019-12-10

Abstract

一种视频流实时行人检测方法，对卷积神经网络的输入和权值进行二值化，使用卷积神经网络提取行人的卷积特征，融合卷积神经网络中的多重卷积特征，输出不同尺度的回归边界和分类概率，根据回归边界和分类概率，使用包含了分类误差、边界框坐标误差和边界框内目标可信度误差的损失函数对二值化后的卷积神经网络进行训练，得到最终的检测结果。本发明简化了计算量，实现对目标的实时快速检测，避免了检测时低维特征提取不敏感问题，提高了检测的准确率。

Description

一种视频流实时行人检测方法

技术领域

本发明涉及深度学习图像检测技术领域，尤其涉及一种基于深度学习的视频流实时行人检测方法。

背景技术

行人检测是指在交通场景下,判断图像或视频信息中是否包含行人，如果包含行人，则用框图标记出行人所在区域。行人跟踪是指在视频第一帧给出所关注行人位置信息的情况下，在后续视频信息中持续稳定的标记出目标行人所处位置。行人的检测和跟踪是智能硬件为人类提供各种服务的重要底层技术之一，有着深远的科研意义和丰富的应用场景。为保持社会稳定、减少公民生命财产损失，海量的监控设备安装在高铁站、购物超市、居住小区中。利用行人检测和跟踪技术分析这些海量视频信息，能够节省大量人力、效率较高。

目前一些汽车生产厂商、大学和研究机构相继开始了行人检测技术的研究。比如，欧洲戴姆勒、德国大众等就发起了旨在研究行人保护方案的PROTECTOR项目，并且已经取得了初步的成效。2004-2005年的SAVE-U项目实现的目标是减少行人和车辆碰撞造成的伤亡数量和事故等级，并在危险状况下驾驶员警告和车辆自动减速试验车辆。作为无人驾驶的先驱技术之一，行人检测系统在近几年也已成为研发热点，它通常整合到碰撞预防系统当中，利用雷达摄像头和感应器来检测行人，并及时减速刹车从而减少事故伤害。沃尔沃、丰田等车企已率先推出先进的行人检测系统，而福特也推出了先进的行人检测系统，能够识别路上的行人并进行动态分析，预测他们是否会闯入驾驶路线中。除了传统汽车公司外，很多互联网公司也在研发行人检测系统，以期实现智能汽车。谷歌最新的行人检测系统只靠摄像机影像来掌握行人动向，但是优化了速度问题。行人检测在智能交通等领域越来越受到重视。

行人检测方法主要分为两大类，基于手工特征提取和基于深度学习，其中：基于手工提取特征的方法有HOG，HOG-LBP，Haar等，主要利用从数据中提取出的相关特征训练SVM和Adaboost等分类器，其中目前最主流的是HOG+SVM，许多文献在HOG+SVM的基础上进行了优化。然而手工提取特征又称为特征工程，有着许多缺点。HOG特征对于遮挡问题效果不好，SIFT特征要求检测目标包含足够多的纹理信息，Haar特征有着计算量大、训练时间很长而且对复杂的目标的描述效果不够好的缺点。

基于深度学习方法，随着近几年深度学习理论的快速发展，取得了很大的进步，特别是检测精度比原有算法有较大的提高。大量文献表明深度学习自我学习的特征可以更好地描述检测目标的特性，避免了复杂的特征提取和数据建模过程。主流的是卷积神经网络CNN，最早用于Mnist手写数字字符数据集上。现在主流的目标检测算法是R-CNN系列，最早的R-CNN算法使用了Selective Search方法从一张图像生成约2000-3000个候选区域，然后通过卷积神经网络在候选区域提取特征并进行判断，之后出现的Fast R-CNN、Faster-RCNN算法都是R-CNN算法的提高。在行人检测领域，Sermanet等人提出了Convnet模型在行人检测数据库获得了很好的效果，Tian等人通过考虑行人和场景的语义属性学习更具有表达能力的特征，Cai等人提出复杂性的级联训练，成功结合了手工提取的特征和卷积神经网络得到的特征，Zhang等人提出了一种使用RPN得到候选区域，然后通过boosted forests分类的行人检测算法。

然而，目前虽然一些检测算法在已经获得了较高准确率，但是在很难以在实际应用中能够使用，其主要原因是深度神经网络庞大的网络结构导致的巨大的计算量难以满足实时的要求。

发明内容

本发明提供一种视频流实时行人检测方法，通过对卷积网络的输入和权值进行二值化，简化了计算量，实现对目标的实时快速检测，避免了检测时低维特征提取不敏感问题，提高了检测的准确率。

为了达到上述目的，本发明提供一种视频流实时行人检测方法，包含以下步骤：

步骤S1、对卷积神经网络的输入和权值进行二值化，使用卷积神经网络提取行人的卷积特征；

步骤S2、融合卷积神经网络中的多重卷积特征，输出不同尺度的回归边界和分类概率；

步骤S3、根据回归边界和分类概率，使用包含了分类误差、边界框坐标误差和边界框内目标可信度误差的损失函数对二值化后的卷积神经网络进行训练，得到最终的检测结果。

所述的卷积神经网络包含5类残差块，每类残差块跨2层连接，每类残差块包含2个卷积层和一个短连接，每类的数量分别为：1,2,8,8,4，最后输出1024维8×8的卷积特征。

所述的对卷积神经网络的输入和权值进行二值化的方法包含以下步骤：

步骤S1-1、卷积神经网络权值二值化；

引入标量参数α，使得W≈α＝B，其中，W为原始权值，B为二值化的权值，B＝sign(W)，表示对原始权值进行L1归一化之后除n；

步骤S1-2、卷积神经网络输入二值化；

将输入在通道维度计算归一化得到A，用w×h大小的卷积核k对A进行卷积得到K，k＝1/wh，之后只需要将Sign(I)与Sign(W)进行卷积，再乘K和α即可；

步骤S1-3、使用来替代二值化时的梯度计算。

所述的步骤S2具体包含以下步骤：

步骤S2.1、将卷积神经网络中最后一层的输出卷积特征进行softmax回归，得到第一个回归边界和分类概率，作为第一个融合尺度特征；

步骤S2.2、将来自卷积神经网络中倒数第1类残差块的最后一组的卷积特征与卷积神经网络的最后一层的输出卷积特征进行2倍上采样融合，然后进行4次卷积后，得到第二个回归边界和分类概率，作为第二个融合尺度特征；

步骤S2.3、将来自卷积神经网络中倒数第2类残差块的最后一组的卷积特征与第二个融合尺度特征进行2倍上采样的融合，然后进行4次卷积后，得到第三个回归边界和分类概率，作为第三个融合尺度特征。

步骤S3中，所述的损失函数L为：

其中，为边界框坐标误差损失函数，λ_coord为坐标惩罚参数，表示单位格i，边界框j中是否有目标存在，S为划分的单元格数目，x,y,w,h分别为边界框的中心坐标以及宽高，为边界框内目标可信度误差损失函数，c为该单元格出现目标概率，为分类误差，p为单元格内每种类别的概率，表示是否有目标中心点落在单元格i上，classes为训练中的种类参数。

本发明具有以下优点：

1、在卷积神经网络中添加了二值化参数的方法，包括网络输入和网络权值二值化，可以加速对图像中的目标检测，简化了计算量，达到实时的效果。

2、损失函数的改进，损失函数包括分类误差和边界框坐标误差和边界框内目标可信度误差。

3、采用多尺度进行融合预测，避免了检测时低维特征提取不敏感问题，提高了检测的准确率。

附图说明

图1是本发明提供的一种视频流实时行人检测方法的流程图。

图2是卷积神经网络的结构示意图。

图3是用本发明和现有的三种方法对Celtech行人检测数据库中小尺寸行人目标的检测结果图

图4是用本发明和现有的三种方法对Celtech行人检测数据库不限尺寸大小情况下的检测结果图。

具体实施方式

以下根据图1～图4，具体说明本发明的较佳实施例。

如图1所示，本发明提供一种视频流实时行人检测方法，包含以下步骤：

进一步，如图2所示，步骤S1中，所述的卷积神经网络包含5类残差块，每类残差块跨2层连接，即每相隔两个卷积层之间会有一个短连接，每类残差块包含2个卷积层和一个短连接(shotcut)，每类残差块的数量分别为：1,2,8,8,4，最后输出1024维8×8的卷积特征。

所述的对卷积神经网络的输入和权值进行二值化的方法具体包含以下步骤：

步骤S1-1、卷积神经网络权值二值化；

引入了一个标量(scale)参数α，使得W≈α×B，

其中，W为原始权值，B为二值化的权值且B＝sign(W)，表示对原始权值进行L1归一化之后除n，即α为一个标量参数。

步骤S1-2、卷积神经网络输入二值化；

类似于权值二值化，由于计算L1归一化时存在很多冗余的计算，二值化的卷积神经网络XNOR-Net采用了更有效的方式：将输入在通道channel维度计算归一化norm得到A，用k(k为w×h大小的卷积核，其值为1/wh)对A进行卷积得到K。之后只需要将Sign(I)与Sign(W)进行卷积，再乘K和α即可；

步骤S1-3、使用来替代二值化时的梯度计算；

卷积神经网络的值和每层的输入经过二值化后，产生的是离散的数据，这是一个不可导的函数，为了使得二值化的卷积神经网络能够进行反向传播训练，使用来替代二值化时的梯度计算。

所述的步骤S2具体包含以下步骤：

步骤S2.1、将卷积神经网络中最后一层的输出卷积特征(大小为8×8)进行softmax回归，得到第一个回归边界和分类概率，作为第一个融合尺度特征；

步骤S3中，所述的损失函数L为：

在本发明的一个实施例中，包含以下步骤：

步骤1、读取行人检测数据库中输入的视频数据，对其解码后作为卷积神经网络的输入，提取行人的卷积特征。卷积神经网络拥有5类残差块，每类残差数量分别为1,2,8,8,4，残差块由2个卷积层和一个shotcut层组成。

步骤2、多种不同尺度的输出。将最后3类残差块的卷积特征进行不同程度的融合和进一步的卷积分别得到8×8，16×16，32×32共3种尺度的输出。其中8×8的输出由最后一层的卷积特征进行回归分类得到，16×16由倒数第2类残差块最后一组卷积特征和卷积网络最后一层融合后，再进行4次卷积后得到，32×32由倒数第3类残差块最后一组卷积特征和16×16的融合特征再次融合后，再进行4次卷积后得到。

步骤3、每个尺度将图像分成S×S个单元格，每个单元格预测3个目标的边界框。根据输出的输出不同尺度的回归边界和分类概率对卷积神经网络进行训练，得到最终的检测模型参数。

对目标的分类概率与边界框(回归边界)的预测，在每个尺度的特征图上，分别为8×8，16×16，32×32的宽高，每个单元预测3个目标，对应的锚(anchors)＝10,13，16,30，33,23，30,61，62,45，59,119，116,90，156,198，mask＝7,8,9,4,5,6,0,1,2，总共得到9个边界框。

损失函数L如下：

其中，为边界框坐标误差损失函数，λ_coord为坐标惩罚参数，表示单位格i，边界框j中是否有目标存在，S为划分的单元格数目，x,y,w,h分别为边界框的中心坐标以及宽高，为边界框内目标可信度误差损失函数，c为该单元格出现目标概率，为分类误差，p为单元格内每种类别的概率，表示是否有目标中心点落在单元格i上。

通过反向传播迭代更新卷积神经网络中的权值10万次，使计算出的损失函数L的值逐渐减小，得到精确的最终检测结果。

下面结合仿真实验对本发明的效果做进一步的描述。

1、仿真条件：

硬件设施上，配有搭载内存为128GB的I7-5930K处理器及4块泰坦X显卡的高性能计算机。

实验使用Celtech行人检测数据库进行评估，该Celtech行人检测数据库是目前规模较大的行人数据库，采用车载摄像头拍摄，约10个小时左右，视频的分辨率为640×480，30帧/秒。标注了约250000帧，约137分钟，350000个矩形框，2300个行人，另外还对矩形框之间的时间对应关系及其遮挡的情况进行标注。

该Celtech行人检测数据库的数据集分为set00～set10，本发明在set00～set05数据集训练，在set06～set10数据集测试本发明训练后的效果。

仿真实验是本发明和现有的三种行人检测方法在Celtech行人检测数据库上进行的对比实验，其中第一种方法是发表在ICCV2015的卷积信道特征方法CCF，第二种方法是发表在ECCV2016的区域生成网络级联增强森林方法RPN+BF，第三种方法是发表在TPAMI2017的特征联合学习方法UDN+。

2、仿真内容：

仿真实验1：用本发明和现有的三种方法对Celtech行人检测数据库中70个像素下的小尺寸行人目标进行检测，得到MR-FPPI曲线，如图3所示，其中横坐标为丢失率MR，丢失率是正样本被错误判别为负样本的数目和全部正样本数目的比率，纵坐标为每张图像中错误正样本数目FPPI。其中错误正样本指检测结果为行人，实际上不是行人的一些样本。本实验指定FPPI的范围为[10-2,100]，图中数值为本发明和现有的三种方法在该FPPI范围内的平均丢失率。从图3可见，本发明对70个像素下的小尺寸行人目标的检测结果要优于其它三种方法。仿真实验1验证了本发明对小尺寸目标有良好的效果。

仿真实验2：用本发明和现有的三种方法对Celtech行人检测数据库在不限尺寸大小情况下进行检测，得到MR-FPPI曲线，如图4所示，其中横坐标为丢失率MR，丢失率是正样本被错误判别为负样本的数目和全部正样本数目的比率，纵坐标为每张图像中错误正样本数目FPPI。其中错误正样本指检测结果为行人，实际上不是行人的一些样本。本实验指定FPPI的范围为[0.01,1]，图中数值为本发明和现有的三种方法在该FPPI范围内的平均丢失率。从图4可见，本发明对不限尺寸的行人目标的检测结果要优于其它三种方法。仿真实验2验证了本发明对不限尺寸的行人目标同样有良好的效果。

上述仿真结果验证了本发明的正确性、有效性和可靠性。

本发明具有以下优点：

1、在one stage目标检测(就是本发明中的神经网络结构)中添加了二值化参数的方法，包括网络输入和网络权值二值化，可以加速对图像中的目标检测，达到实时的效果，简化了计算量。

2、损失函数的改进，损失函数包括分类误差和边界框坐标误差和边界框内目标可信度误差，提高模型预测的准确度。

3、采用多尺度进行融合预测，避免了检测时低维特征提取不敏感问题，进一步提高了检测的准确率。

本发明提供的一种基于深度学习的视频流实时行人检测方法，可以快速准确从输入视频中检测到行人，应用范围广泛，比如可以让计算机在没有专门传感器的情况下驾驶汽车，使辅助设备能够向人类用户传达实时的场景信息，并表现出对一般用途和响应机器人系统的潜力。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种视频流实时行人检测方法，其特征在于，包含以下步骤：

步骤S2、融合卷积神经征，输出不同尺度的回归边界和分类概率；

2.如权利要求1所述的视频流实时行人检测方法，其特征在于，所述的卷积神经网络包含5类残差块，每类残差块跨2层连接，每类残差块包含2个卷积层和一个短连接，每类的数量分别为：1，2，8，8，4，最后输出1024维8×8的卷积特征。

3.如权利要求2所述的视频流实时行人检测方法，其特征在于，所述的对卷积神经网络的输入和权值进行二值化的方法包含以下步骤：

步骤S1-1、卷积神经网络权值二值化；

引入标量参数α，使得W≈α×B，其中，W为原始权值，B为二值化的权值，B＝sign(W)，表示对原始权值进行L1归一化之后除n；

步骤S1-2、卷积神经网络输入二值化；

步骤S1-3、使用来替代二值化时的梯度计算。

4.如权利要求3所述的视频流实时行人检测方法，其特征在于，所述的步骤S2具体包含以下步骤：

5.如权利要求4所述的视频流实时行人检测方法，其特征在于，步骤S3中，所述的损失函数L为：

其中，为边界框坐标误差损失函数，λ_coord为坐标惩罚参数，表示单位格i，边界框j中是否有目标存在，S为划分的单元格数目，x，y，w，h分别为边界框的中心坐标以及宽高，为边界框内目标可信度误差损失函数，c为该单元格出现目标概率，为分类误差，p为单元格内每种类别的概率，表示是否有目标中心点落在单元格i上，classes为训练中的种类参数。