CN108664838A

CN108664838A - 基于改进rpn深度网络的端到端的监控场景行人检测方法

Info

Publication number: CN108664838A
Application number: CN201710187003.4A
Authority: CN
Inventors: 葛水英; 陆钧; 马琳靖
Original assignee: Beijing Zhongke Vision Culture Technology Co Ltd
Current assignee: Beijing Zhongke Vision Culture Technology Co Ltd
Priority date: 2017-03-27
Filing date: 2017-03-27
Publication date: 2018-10-16

Abstract

本发明公开了一种基于改进RPN深度网络的端到端的监控场景行人检测方法，其中，该方法包括步骤1：利用简化VGG16深度卷积网络进行行人监控场景图像的特征图计算；步骤2：利用RPN(Region Proposal Network)网络来提取特征图中的行人区域候选框；步骤3：依据RPN网络获取到的候选窗，利用ROI pooling操作计算目标窗口得分，通过设定阈值，最终将ROIs(region of interest)分成目标或背景区域；步骤4：基于上述三个步骤得到的改进的RPN深度网络，采用递进式的头肩模型训练，完成整个端到端的行人检测网络的参数计算。通过本发明的方法，可以使得监控场景行人检测的实时性和准确率得到大幅提升。

Description

基于改进RPN深度网络的端到端的监控场景行人检测方法

技术领域

本发明实施涉及计算机图像处理技术领域，尤其是涉及图像中行人检测方法。

背景技术

行人检测作为目标识别领域的一个重要分支，成为近几年的一大研究热点。行人检测技术是行人跟踪、行为分析、步态分析、行人身份识别等研究的基础和保障，在诸如辅助驾驶、智能监控、高级人机接口等领域中拥有广泛的应用前景。

行人兼具刚柔特性，尺度、姿态、视角、光照、部分遮挡等都是检测结果的影响因素。尽管目前已有诸多行人检测的研究成果，但很多问题仍有待进一步研究解决，尤其是检测的实时性与对部分遮挡环境的鲁棒性。监控场景中进行行人检测是该领域内的主要应用之一，而监控场景中，行人流量较大，部分遮挡程度高，且对检测具有实时性要求，这使得构建面向监控系统的行人检测器依旧存在很大挑战。

本发明旨在针对监控场景，提升行人检测的性能和实时性。本发明通过引入并改进RPN深度网络，以及采用头肩模型，实现了该场景下实时的、高性能的端到端行人检测。本发明主要贡献是针对监控场景行人检测问题：引入和改进了 RPN深度网络，并结合自己的卷积网络提高了行人检测的质量与实时性，实现了端到端的检测；引入“头肩”模型处理该场景中部分遮挡严重的问题，提升了检测性能，同时进一步提高了检测速度。

发明内容

本发明实施的主要目的是提供一种基于改进RPN深度网络的端到端的监控场景行人检测方法。

为了实现上述目的，根据本发明的一个方面，提供了以下技术方案：

一种基于改进RPN深度网络的端到端的监控场景行人检测方法，该方法至少包括：

步骤1：利用简化VGG16深度卷积网络进行行人监控场景图像的特征图计算；

步骤2：利用RPN(Region Proposal Network)网络来提取特征图中的行人区域候选框；

步骤3：依据RPN网络获取到的候选窗，利用ROI pooling操作计算目标窗口得分，通过设定阈值，最终将ROIs(region of interest)分成目标或背景区域；

步骤4：基于上述三个步骤得到的改进的RPN深度网络，采用递进式的头肩模型训练，完成整个端到端的行人检测网络的参数计算。

进一步地，所述步骤1具体包括：

传统的VGG16主要用于大型多类别的图像识别项目，本发明中行人检测问题与之比较，具有检测类别统一，任务规模趋于轻量级等特点。因此，本发明简化了VGG16 深度卷积网络中计算性能较低冗余层，进而设计形成了高性能的卷积特征提取网络。

简化后的VGG16深度卷积网络具体包括：5个卷积组合以及4次Max pooling操作。其中所有卷积操作的卷积核均为3*3，步长为1，每次卷积操作后使用Relu函数进行激活。利用简化后的VGG16深度卷积网络最终计算得到输入行人监控场景图像的512个特征图。

进一步地，所述步骤2具体包括：

将简化的VGG16深度卷积网络输出的特征图作为输入，直接在特征图上提取窗口，再对应到原图。首先，使用3*3的卷积核与第一部分输出的512个特征图进行卷积，其中，由3*3卷积核中心对应产生候选窗锚点，并映射到输入图像。

本发明创新地结合行人检测问题，设计和使用了性能更好的候选窗锚点。针对行人检测问题，由于人体(以及头肩区域)多呈现为近似竖直矩形形状，故本发明提出由卷积核的中心对应输入图像，预测3种“类竖直矩形”长宽比的行人候选窗锚点(1∶1，1∶1.5，1∶2)。预测尺度也为三种(128，256，512)，因此共生成K_anchor＝3*3个候选窗。那么总的生成候选窗个数为：

N_anchor＝W_Conv5*H_Conv5*K_anchor

其中W_Conv5和H_Conv5分别为简化的VGG16深度卷积网络输出的特征图的宽度和长度。

进一步的，本发明利用两个全连接卷积层rpn_cls_score层和rpn_bbox_pred层，分别判别目标或背景的概率得分，以及确定目标位置，具体包括：

对于每个候选窗，rpn_cls_score层输出其判别为目标和背景的概率得分 P_i(0or1)，对于每次产生的K_anchor个anchor，共输出2K_anchor个分数值。其中，与任意ground-truth样本的IoU(Intersection-over-union)值大于0.7的(均不大于0.7时，取IoU最大值样本)视为正样本，与所有ground-truth样本的IoU 小于0.3的为负样本，其余样本丢弃。

rpn_bbox_pred层用于窗口回归确定目标位置，包含目标位置的4个坐标元素 t_i(t_xi，t_yi，t_wi，t_hi)。对于每次产生的K_anchor个anchor，共输出4K_anchor个位置信息。该部分最终根据候选窗的得分高低，选取前300个候选窗作为后续步骤的输入。本部分的损失函数包含分类误差和目标样本的窗口位置偏差，其定义如下：

其中，i表示第i个候选窗，当anchor是正样本时负样本则为0。表示ground-true box相对于anchor box的偏移，学习目标即是让前者接近后者的值。根据权利要求1所述的方法，其特征在于，所述步骤3具体包括：

RoI pooling操作和分类器。RoI pooling用于计算目标窗口得分，通过设定阈值，最终将ROIs(region of interest)分成目标或背景。分类器中包含了两个全连接层和随机失活操作，最终返回检测结果。

进一步地，所述步骤4具体包括：

本发明在训练头肩模型时，对头肩样本进行了人工标注，之后使用深度方法扩大了样本量，并对样本进行了数据增强操作：

首先，从INRIA Person dataset数据集中挑选200张图片进行手工的行人头肩框标注，共获得457个头肩框正样本。

其次，将该批头肩样本投入网络进行训练，得到原始的头肩深度模型。使用该原始模型在INRIA Person dataset数据集中每个行人的全身框范围内进行检测，进而得到了在INRIA Person dataset数据集中所有行人的头肩框样本，共获得1826 个头肩样本；

最后，为进一步扩大样本量，对所有头肩正样本进行数据增强操作，通过横向翻转、小角度随机旋转、随机伸缩等操作增加样本量，之后送入网络进行训练。

渐进式的头肩模型训练结束后获得头肩深度模型的最终网络参数，用于行人检测场景头肩区域的检测。

附图说明

附图作为本发明的一部分，用来提供对本发明的进一步的理解，本发明的示意性实施例及其说明用于解释本发明，但不构成对本发明的不当限定。显然，下面描述中的附图仅仅是一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。在附图中：

图1为根据一示例性实施例示出的端到端的监控场景行人检测流程。

图2为根据一示例性实施例示出的本发明深度网络结构图。

图3为根据一示例性实施例示出的本发明针对行人检测问题设计的三种长宽比、三种尺度的候选窗。

图4为根据一示例性实施例示出的本发明的RPN网络中两个卷积网络的示意。

图5为根据一示例性实施例示出的本发明中头肩模型示意。

图6为根据一示例性实施例示出的模型在检测时部分层的特征输出。

图7为根据一示例性实施例示出的“全身”模型与“头肩”模型在实景检测中的结果对比。

这些附图和文字描述并不旨在以任何方式限制本发明的构思范围，而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

下面结合附图以及具体实施例对本发明实施例解决的技术问题，所采用的技术方案以及实现的技术效果进行清楚、完整的描述。显然，所描述的实施例仅仅是本申请的一部分实施例，并不是全部实施例。基于本申请中的实施例，本领域普通技术人员在不付出创造性劳动的前提下，所获的所有其它等同或明显变型的实施例均落在本发明的保护范围内。本发明实施例可以按照权利要求中限定和涵盖的多种不同方式来具体化。

如图1所示，基于改进RPN深度网络的端到端的监控场景行人检测方法包含四个步骤。详细介绍如下：

VGG16又称为OxfordNet，是牛津大学Andrew Zisserman教授等开发的卷积神经网络，在2014年的ILSVRC localization and classification两个问题上分别取得了第一名和第二名。VGG16主要用于大型多类别的图像识别项目，本发明行人检测问题与之比较，具有检测类别统一，任务规模轻量级等特点。因此，本发明简化了VGG16的一些冗余层，进而设计形成了自己的卷积网络，进一步提升了网络的速度。另外本发明针对行人检测问题改进了RPN网络，通过设计针对行人检测的候选窗锚点来提升网络性能。改进后的网络结构可分为Deep ConvNet， RPN，Classifier三部分，其中，Deep ConvNet被RPN与R-CNN网络共享使用。

(1)第一部分为卷积部分，包含了5个卷积组合以及4次Max pooling操作。其中所有卷积操作的卷积核均为3*3，步长为1，每次卷积操作后使用Relu函数进行激活。该部分最终输出输入对象的512个特征图谱。

(2)第二部分是用于输出候选窗的RPN网络，该网络实现了使用卷积神经网络直接产生候选窗口，即以第一部分输出的特征图作为输入，直接在特征图上提取窗口，再对应到原图。首先，使用3*3的卷积核与第一部分输出的512个特征图进行卷积，其中，由3*3卷积核中心对应产生候选窗锚点，并映射到输入图像。

本发明创新地结合行人检测问题，设计和使用了性能更好的候选窗锚点。针对行人检测问题，由于人体(以及头肩区域)多呈现为近似竖直矩形形状，故本文提出由卷积核的中心对应输入图像，预测3种“类竖直矩形”长宽比的行人候选窗锚点(1∶1，1∶1.5，1∶2)，如图2。预测尺度也为三种(128，256，512)，因此共生成K_anchor＝3*3个候选窗。那么总的生成候选窗个数为：

N_anchor＝W_Conv5*H_Conv5*K_anchor

其中W_Conv5和H_Conv5分别为第一部分输出的特征图的宽度和长度。

进一步地，本发明利用两个卷基层rpn_cls_score层和rpn_bbox_pred层，对于每个候选窗，rpn_cls_score层输出其判别为目标和背景的概率得分P_i(0or 1)，对于每次产生的K_anchor个anchor，共输出2K_anchor个分数值。其中，与任意 ground-truth样本的IoU(Intersection-over-union)值大于0.7的(均不大于0.7 时，取IoU最大值样本)视为正样本，与所有ground-truth样本的IoU小于0.3 的为负样本，其余样本丢弃。rpn_bbox_pred层用于窗口回归确定目标位置，包含目标位置的4个坐标元素t_i(t_xi，t_yi，t_wi，t_hi)。对于每次产生的K_anchor个anchor，共输出4K_anchor个位置信息，如图3。该部分最终根据候选窗的得分高低，选取前300个候选窗作为第三部分的输入。

该部分的损失函数包含分类误差和目标样本的窗口位置偏差，其定义如下：

其中，i表示第i个候选窗，当anchor是正样本时负样本则为0。表示ground-true box相对于anchor box的偏移，学习目标即是让前者接近后者的值。

(3)第三部分为RoI pooling操作和分类器。RoI pooling用于计算目标窗口得分，通过设定阈值，最终将ROIs(region of interest)分成目标或背景。分类器中包含了两个全连接层和随机失活操作，最终返回检测结果。

该网络可实现端到端检测，在训练和检测时，无需对原始输入图像做任何预处理，而是将resize工作放在卷积特征提取后，这样避免了crop/wrap等预处理使原始图像失真，丢失图像信息的问题。

现实监控场景中的行人流量较大，致使行人存在大量的部分遮挡，因此只有对部分遮挡具有高鲁棒性的检测器才能满足该场景的检测需要。如图4中部分行人的躯干部位、腿部由于外部环境、自身姿态和衣物等因素被遮挡，而头肩部位的可见性则是极高的。根据对行人数据集SED-PD的统计分析，在监控场景中，行人腿部的可见率是27％，躯干部位的可见率是63％，而头肩部位的可见率可以达到98％。同时，头肩部位的歧视性强，相比全身部位，能极大地减少衣物、行李箱包、身体形变等带来的检测误差。

因此将行人检测的全身检测转化成头肩部位的检测，对于解决该场景中的严重遮挡问题是十分适用的，图4给出本发明的头肩部位正样本。

本发明在训练头肩模型时，对头肩样本进行了人工标注，之后使用深度方法扩大了样本量，并对样本进行了数据增强操作。

(1)首先，从INRIA Person dataset数据集中挑选200张图片进行手工的行人头肩框标注，共获得457个头肩框正样本。

(2)将该批头肩样本投入网络进行训练，得到原始的头肩深度模型。使用该原始模型在INRIA Person dataset数据集中每个行人的全身框范围内进行检测，进而得到了在INRIA Person dataset数据集中所有行人的头肩框样本，共获得1826个头肩样本。

(3)训练前，为进一步扩大样本量，对所有头肩正样本进行数据增强操作，通过横向翻转、小角度随机旋转、随机伸缩等操作增加样本量，之后送入网络进行训练。

训练结束后获得头肩深度模型，用于头肩模型检测实验。待检测图片在检测前无需进行任何预处理，直接送入网络进行检测。图5展示了模型在检测时部分层的特征输出。

由于头肩部位的检测相比全身检测，计算量进一步减少，因此网络的检测速度得到进一步提高，平均检测速度为0.093s/per_image，即约10.75帧/秒。同条件下与全身检测相比，头肩模型有效排除了躯干、腿部等等由于环境、姿态、遮挡等造成的噪声干扰，最终有效降低了漏检率，能够检测到绝大部分行人，实景案例如图6，在处理监控场景中的行人部分遮挡问题中展现出更优异的性能。

本发明的各个步骤可以用通用的计算装置来实现，例如，它们可以集中在单个的计算装置上，例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备或者多处理器装置，也可以分布在多个计算装置所组成的网络上，它们可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。因此，本发明不限于任何特定的硬件和软件或者其结合。

本发明提供的方法可以使用可编程逻辑器件来实现，也可以实施为计算机程序软件或程序模块(其包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件或数据结构等等)，例如根据本发明的实施例可以是一种计算机程序产品，运行该计算机程序产品使计算机执行用于所示范的方法。所述计算机程序产品包括计算机可读存储介质，该介质上包含计算机程序逻辑或代码部分，用于实现所述方法。所述计算机可读存储介质可以是被安装在计算机中的内置介质或者可以从计算机主体上拆卸下来的可移动介质(例如：采用热插拔技术的存储设备)。所述内置介质包括但不限于可重写的非易失性存储器，例如：RAM、ROM、快闪存储器和硬盘。所述可移动介质包括但不限于：光存储介质(例如：CD-ROM 和DVD)、磁光存储介质(例如：MO)、磁存储介质(例如：磁带或移动硬盘)、具有内置的可重写非易失性存储器的媒体(例如：存储卡)和具有内置ROM的媒体(例如：ROM盒)。

本发明并不限于上述实施方式，在不背离本发明实质内容的情况下，本领域普通技术人员可以想到的任何变形、改进或替换均落入本发明的范围。

尽管上文已经示出、描述和指出了适用于各种实施方式的本发明的基本新颖特征的详细描述，但是将会理解，在不脱离本发明意图的情况下，本领域技术人员可以对系统的形式和细节进行各种省略、替换和改变。

Claims

1.一种基于改进RPN深度网络的端到端的监控场景行人检测方法，其特征在于，该方法至少包括：

2.根据权利要求1所述的方法，其特征在于，所述步骤1具体包括：

传统的VGG16主要用于大型多类别的图像识别项目，本发明中行人检测问题与之比较，具有检测类别统一，任务规模趋于轻量级等特点。因此，本发明简化了VGG16深度卷积网络中计算性能较低冗余层，进而设计形成了高性能的卷积特征提取网络。

3.根据权利要求1所述的方法，其特征在于，所述步骤2具体包括：

N_anchor＝W_Conv5*H_Conv5*K_anchor

进一步的，本发明利用两个全连接卷积层rpn_cls_score层和rpn_bbox_pred层，分别判别目标或背景的概率得分，以及确定目标位置。

4.根据权利要求3所述的方法，其特征在于，所述利用两个全连接卷积层，分别判别目标或背景的概率得分，以及确定目标位置，具体包括：

对于每个候选窗，rpn_cls_score层输出其判别为目标和背景的概率得分P_i(0 or 1)，对于每次产生的K_anchor个anchor，共输出2K_anchor个分数值。其中，与任意ground-truth样本的IoU(Intersection-over-union)值大于0.7的(均不大于0.7时，取IoU最大值样本)视为正样本，与所有ground-truth样本的IoU小于0.3的为负样本，其余样本丢弃。

rpn_bbox_pred层用于窗口回归确定目标位置，包含目标位置的4个坐标元素t_i(t_xi，t_yi，t_wi，t_hi)。对于每次产生的K_anchor个anchor，共输出4K_anchor个位置信息。该部分最终根据候选窗的得分高低，选取前300个候选窗作为后续步骤的输入。

本部分的损失函数包含分类误差和目标样本的窗口位置偏差，其定义如下：

5.根据权利要求1所述的方法，其特征在于，所述步骤3具体包括：

6.根据权利要求4所述的方法，其特征在于，所述步骤4具体包括：

其次，将该批头肩样本投入网络进行训练，得到原始的头肩深度模型。使用该原始模型在INRIA Person dataset数据集中每个行人的全身框范围内进行检测，进而得到了在INRIA Person dataset数据集中所有行人的头肩框样本，共获得1826个头肩样本；

渐进式的投建模型训练结束后获得头肩深度模型的最终网络参数，用于行人检测场景头肩区域的检测。