CN106960195B

CN106960195B - 一种基于深度学习的人群计数方法及装置

Info

Publication number: CN106960195B
Application number: CN201710188160.7A
Authority: CN
Inventors: 符祖峰; 向函; 赵勇; 谢锋; 陈胜红
Original assignee: Shenzhen Heju Information Technology Co Ltd
Current assignee: Shenzhen Heju Information Technology Co., Ltd
Priority date: 2017-03-27
Filing date: 2017-03-27
Publication date: 2020-04-03
Anticipated expiration: 2037-03-27
Also published as: CN106960195A

Abstract

本发明实施例公开了一种基于深度学习的人群计数方法及装置。该方法包括：将待检测人群图片划分为多个图片块；基于预先训练得到的RPN候选框生成模型，确定所述多个图片块中人头候选框区域和所述人头候选框区域的置信度；依据所述置信度对确定的人头候选框区域进行筛选，得到待检测区域；基于预先训练得到的Fast‑RCNN修正模型，对所述待检测区域进行分类预测，并依据分类预测的结果确定所述待检测人群图片中包含的人群数量。本发明实施例提出了一种高分辨率下的人群计数方法，提高了人群计数的准确率和鲁棒性。

Description

一种基于深度学习的人群计数方法及装置

技术领域

本发明实施例涉及计算机视觉和机器学习技术领域，尤其涉及一种基于深度学习的人群计数方法及装置。

背景技术

基于视频的人群计数有很广泛的应用价值。无论是广告机的广告投放效果分析还是安防监控中人数预警，或者是旅游景区人流量分析，基于视频的人群计数技术都是值得推广的方法。传统的基于人脸识别的人群计数方法多依靠人工来提取特征，依赖于专业领域知识，能够取得一定的效果。但是在对姿态各异的、不同侧面的人像进行计数时，特征提取就变得比较困难，从而造成这些方法就无法做出较为准确的判断。

目前基于神经网络的深度学习方法已经成为研究的热点，人们提出了各种各样的网络模型用于解决特定的问题。在目标识别与检测方面，虽然Faster-RCNN、YOLO、SSD和R-FCN等网络模型均有不错的表现，但这些网络模型因为网络结构的原因造成对目标较小的物体存在检测识别率不高的状况。同时对于高分辨率的人群图像和视频，因为图片尺寸较大，为了提高检测效率，以上方法均会对图像进行一定程度的缩小，造成图像细节的进一步丢失。

发明内容

本发明实施例提供一种基于深度学习的人群计数方法及装置，可以提高人群计数的准确性。

一方面，本发明实施例提供了一种基于深度学习的人群计数方法，包括：

将待检测人群图片划分为多个图片块；

基于预先训练得到的RPN候选框生成模型，确定所述多个图片块中人头候选框区域和所述人头候选框区域的置信度；

依据所述置信度对确定的人头候选框区域进行筛选，得到待检测区域；

基于预先训练得到的Fast-RCNN修正模型，对所述待检测区域进行分类预测，并依据分类预测的结果确定所述待检测人群图片中包含的人群数量。

另一方面，本发明实施例还提供了一种基于深度学习的人群计数装置，包括：

图片划分模块，用于将待检测人群图片划分为多个图片块；

人头候选框区域模块，用于基于预先训练得到的RPN候选框生成模型，确定所述多个图片块中人头候选框区域和所述人头候选框区域的置信度；

待检测区域模块，用于依据所述置信度对确定的人头候选框区域进行筛选，得到待检测区域；

人群数量模块，用于基于预先训练得到的Fast-RCNN修正模型，对所述待检测区域进行分类预测，并依据分类预测的结果确定所述待检测人群图片中包含的人群数量。

本发明实施例提供的技术方案，将待检测人群图片划分为多个图片块，并通过RPN候选框生成模型在多个层之间并发确定多个图片块中人头候选框区域和人头候选框区域的置信度，依据置信度对人头候选框区域进行筛选得到待检测区域，随后基于Fast-RCNN修正模型对待检测区域进行分类预测，并依据分类预测结果确定待检测人群图片中包含的人群数量。该方案提出了一种高分辨率下的人群计数方法，提高了人群计数的准确率和鲁棒性。

附图说明

图1为本发明实施例一中提供的一种基于深度学习的人群计数方法的流程图；

图2为本发明实施例一中使用的Faster-RCNN网络结构图；

图3为本发明实施例二中提供的一种基于深度学习的人群计数方法的流程图；

图4为本发明实施例三中提供的一种基于深度学习的人群计数装置的结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一中提供的一种基于深度学习的人群计数方法的流程图。本实施例的方法可以由基于深度学习的人群计数装置来执行，该装置可通过硬件和/或软件的方式实现。参考图1，本实施例提供的基于深度学习的人群计数方法具体可以包括如下：

步骤11、将待检测人群图片划分为多个图片块。

其中，待检测人群图片可以是高分辨率密集人群图片。高分辨率密集人群图片指的是图片尺寸大于预设的分辨率阈值，且图片中包含的人群数量超过预设的人群数量阈值，分辨率阈值可以是1280x1024，人群数量阈值可以是50，100等。

为了提高待检测人群图片的检测效率，对待检测人群图片进行划分。具体的，可以按照一定的切分策略对高分辨率图片进行切分。切分策略可以是采用等分切分法将图片切分成相同大小的图片块，且记录每个图片块的位置和尺寸信息。切分的图片块数以4-8块为宜。为了提高检测准确率允许图片块的边缘相互重叠。另外，在对待检测人群图片进行切分之前，可以采用背景检测算法，削去周边的背景。

目前在采用神经网络对高分辨率图片进行检测的过程中，为了保证目标检测的效率，通常神经网络模型先将高分辨率图片下采样到合适尺寸后再送入神经网络进行计算。由于密集人群图片中人体目标的尺寸较小，下采样后人体目标的相关信息进一步丢失，故现有的人群计数方法严重影响了检测效果。考虑到并行计算一般只能在神经网络每一层的前向或后向计算时采用，本实施例对待检测人群图片进行切分可以更大程度的借助于并行技术来提高检测速度，而且还可以保留更多的较小尺寸目标的相关信息，提高检测效果。

另外，在将待检测人群图片划分为多个图片块后，还可以对切分得到的各图片块进行筛选，以去除纯背景图片块。对视频进行人群计数时，因为摄像机的拍摄角度原因会造成画面中存在部分区域为固定背景，图片切分后就会存在某个图片块中没有目标对象，只有背景信息。采用基于时间差异或背景减除等方法来判断图片块是否为纯背景图片块，如果是就丢弃，否则在后续操作中作为RPN候选框生成模型的输入。

步骤12、基于预先训练得到的RPN候选框生成模型，确定所述多个图片块中人头候选框区域和所述人头候选框区域的置信度。

图2为本发明实施例一中使用的Faster-RCNN网络结构图。参考图2，Faster-RCNN网络包括候选区域生成网络(Region Proposal Network，简称RPN网络)和基于卷积神经网络的目标区域快速生成网络(简称Fast-RCNN网络)。Conv1-Conv5是指提取图片特征的5层卷积网络，Proposal layer用于对候选区域的筛选，Softmax输出目标边框的置信度，bboxregressor输出目标边框坐标的回归计算结果。

其中，RPN网络结构可以包括：conv1(卷积层，96个7x7的卷积核)+Relu层(激活函数为标准Relu函数)+LRN层(归一化层)，pooling层；conv2(卷积层，256个5x5的卷积核)+Relu层+LRN层，pooling层；conv3(卷积层，384个3x3的卷积核)+Relu层；conv4(卷积层，384个3x3的卷积核)+Relu层；conv5(卷积层，256个3x3的卷积核)+Relu层，RPN_conv层(卷积层，256个3x3的卷积核)+Relu层，RPN_cls_score层(卷积层，18个1x1的卷积核)，RPN_bbox_pred层(卷积层，36个1x1的卷积核)。

为了加快运算速度，对原始Fast-RCNN网络进行了修改，将两个全连接层换成了1个卷积层，得到的Fast-RCNN修正结构为：Roi-pooling层(下采样尺寸7x7)；conv1_last(卷积层，1000个1x1的卷积核)+Relu层；cls_score层(全连接层，num_output为2)+Softmax层(激活函数为Softmax函数)，bbox_pred层(全连接层，num_output为8)。

并且，RPN候选框生成模型和Fast-RCNN修正模型可以同时训练得到。在模型训练阶段，基于Brainwash数据集，采用常见的神经网络训练方法，用基于IMAGENET训练得到的ZFnet的卷积参数对RPN网络结构和Fast-RCNN修正结构中特征提取部分的参数进行初始化，其余部分的参数用正态分布(均值为0，标准差为0.01)随机生成初始数据。模型训练过程具体可以包括：将Brainwash数据集中的图片所带的标注修改为描述人头的边框(box)坐标，使用多任务损失函数综合考虑分类误差和边框回归误差，设置初始学习率为0.001(每20000次会下降学习率)，使用随机下降梯度来调整权重，进行迭代训练，迭代70000次结束训练。其中，标注是指在一张图片中人头的左上角点和右下角点的坐标。

具体的，将步骤11中得到的多个图片块作为RPN候选框生成模型的输入，经RPN候选框生成模型处理得到各图片块中人头候选框区域，以及各人头候选框区域的置信度。

步骤13、依据所述置信度对确定的人头候选框区域进行筛选，得到待检测区域。

具体的，由于步骤12中得到的人头候选框区域存在相互包含、交叉或重叠的情况，需要对人头候选框区域进行整理，消除被重叠的置信度低的人头候选框区域。

示例性的，步骤13可以包括：

A、针对每一图片块，执行如下操作：依据置信度从大到小对属于该图片块的人头候选框区域进行排序，并滤除置信度低于第一置信度阈值的人头候选框区域；将置信度值最高的人头候选框区域确定为该图片块的第一候选框区域，并计算该图片块中其他人头候选框区域与所述第一候选框区域之间的交叠比；若交叠比大于交叠比阈值，则滤除对应的其他人头候选框区域。

其中，第一置信度阈值可以从0.2-0.25中选取，交叠比阈值可以是0.7。交叠比计算公式如下：

其中Iou(A,B)指人头候选框区域A和人头候选框区域B的交叠比，area(·)是一种计算区域面积的运算。A∩B表示人头候选框区域A和人头候选框区域B的相交区域。

B、从所有图片块剩余的人头候选框区域中选择置信度排序在前的预设数值个人头候选框区域作为所述待检测区域。

其中，预设数值可以是300。

在筛选时也可以将所有图片块对应的人头候选框区域放在一起进行筛选，具体处理过程如下：按照置信度对所有人头候选框区域进行由大到小排序，并标注各人头候选框区域所属的图片块序号；滤除置信度小于第一置信度阈值的人头候选框区域；针对每一图片块，将属于该图片块且置信度最高的人头候选框区域记为目标候选框区域C_i，其中i取1,2,…,n，n为图片块的数量；针对剩余的每一其他人头候选框区域，分别计算该其他人头候选框区域与各目标候选框区域C_i之间的交叠比，若交叠比大于交叠比阈值，则滤除该其他人头候选框区域。随后，选择置信度排序在前的300个人头候选框区域作为待检测区域。需要说明的是，在交叠比计算过程中，若两个人头候选框区域所属的图片块不同，则可以直接将交叠比置为零。

步骤14、基于预先训练得到的Fast-RCNN修正模型，对所述待检测区域进行分类预测，并依据分类预测的结果确定所述待检测人群图片中包含的人群数量。

具体的，将待检测区域作为Fast-RCNN修正模型的输入，经Fast-RCNN修正模型处理得到待检测区域的分类预测结果，并依据分类预测的结果确定所述待检测人群图片中包含的人群数量。

本实施例提供的技术方案，将待检测人群图片划分为多个图片块，并通过RPN候选框生成模型在多个层之间并发确定多个图片块中人头候选框区域和人头候选框区域的置信度，依据置信度对人头候选框区域进行筛选得到待检测区域，随后基于Fast-RCNN修正模型对待检测区域进行分类预测，并依据分类预测结果确定待检测人群图片中包含的人群数量。该方案具有两大优势：一是对高分辨率图片分割后再并行检测，解决了高分辨率图片在送入Faster-RCNN网络时需要缩小尺寸而造成较小目标对象信息的丢失，同时并行计算不会对检测时间带来明显影响；二是训练的神经网络模型参数规模不大，容易在在嵌入式设备上实现。

示例性的，步骤12可以包括：将所述多个图片块作为RPN候选框生成模型的输入，依据所述RPN候选框生成模型提供的人头候选框的长宽比值和人头候选框的像素面积值，确定所述多个图片块中人头候选框区域，并确定所述人头候选框区域的置信度。

其中，为了能够更好的完成对较小目标的检测，且考虑到待识别目标的形状，Faster-RCNN网络模型中将RPN中锚点的个数修改为25，对应锚点的长宽比修改为0.667，0.75，1.0，1.33和1.5，大小尺度修改为2x16x16像素，4x16x16像素，6x16x16像素，8x16x16像素和16x16x16像素。也就是说，RPN候选框生成模型提供的人头候选框的长宽比值包括0.667，0.75，1.0，1.33和1.5，提供的人头候选框的像素面积值包括2x16x16，4x16x16，6x16x16，8x16x16和16x16x16。

为了降低计算复杂度，还对网络模型中的具有较多权重的卷积层进行了轻量化处理，减少了参数个数和计算复杂度。示例性的，RPN候选框生成模型的训练可以包括：针对RPN模型中的每一参数，若该参数的取值与至少一个候选取值之间的差值小于预设数值，则将候选取值作为该参数的取值。具体的，若有一个候选取值，则候选取值是零；若有两个候选取值，则候选取值是-1和1。

实施例二

图3为本发明实施例二中提供的一种基于深度学习的人群计数方法的流程图。参考图3，本实施例提供的基于深度学习的人群计数方法具体可以包括如下：

步骤21、将待检测人群图片划分为多个图片块。

步骤22、基于预先训练得到的RPN候选框生成模型，确定所述多个图片块中人头候选框区域和所述人头候选框区域的置信度。

步骤23、依据所述置信度对确定的人头候选框区域进行筛选，得到待检测区域。

步骤24、将所述待检测区域作为所述Fast-RCNN修正模型的输入，得到所述待检测区域的新置信度。

步骤25、将新置信度大于第二置信度阈值的待检测区域确定为人头区域。

其中，第二置信度阈值可以是0.7。

步骤26、若两个人头区域之间的交叠比大于交叠比阈值，则从两个人头区域中滤除新置信度相对较低的人头区域，直到剩余的任意两个人头区域之间的交叠比均小于或等于所述交叠比阈值。

具体的，可以按照新置信度对所有人头区域进行由大到小排序，分别计算人头区域D_i和人头区域D_j之间的交叠比，若两个人头区域的交叠比大于交叠比阈值，则滤除新置信度值较低的人头区域，使剩余的每一人头区域与除该人头区域以外的其他所有人头区域之间的交叠比均小于或等于交叠比阈值。其中i取1,2,…,「(m/2)，j取i+1,…,m,「为向上取整符号，m为人头区域的总数量。

步骤27、将剩余的人头区域的数量，作为所述待检测人群图片中包含的人群数量。

需要说明的是，Fast-RCNN修正模型还可以对人头区域进行边框回归处理，如在待检测人群图片中绘制出人头区域框。

本实施例提供的技术方案，基于Fast-RCNN修正模型对待检测区域进行分类预测得到待检测区域的新置信度，随后通过阈值筛选确定人头区域，采用非极大值抑制消除重叠的人头区域，并将剩余的人头区域的数量，作为所述待检测人群图片中包含的人群数量。该方案进一步提高了人群计数的效率和准确率。

实施例三

本实施例提供了一种基于深度学习的人群计数装置。图4为本发明实施例三中提供的一种基于深度学习的人群计数装置的结构图，如图4所示，该基于深度学习的人群计数装置可以包括：

图片划分模块31，用于将待检测人群图片划分为多个图片块；

人头候选框区域模块32，用于基于预先训练得到的RPN候选框生成模型，确定所述多个图片块中人头候选框区域和所述人头候选框区域的置信度；

待检测区域模块33，用于依据所述置信度对确定的人头候选框区域进行筛选，得到待检测区域；

人群数量模块34，用于基于预先训练得到的Fast-RCNN修正模型，对所述待检测区域进行分类预测，并依据分类预测的结果确定所述待检测人群图片中包含的人群数量。

示例性的，所述人头候选框区域模块32具体可以用于：

将所述多个图片块作为RPN候选框生成模型的输入，依据所述RPN候选框生成模型提供的人头候选框的长宽比值和人头候选框的像素面积值，确定所述多个图片块中人头候选框区域，并确定所述人头候选框区域的置信度。

示例性的，上述装置包括RPN候选框生成模型训练模块，所述RPN候选框生成模型训练模块用于在进行RPN候选框生成模型训练过程中，针对RPN模型中的每一参数，若该参数的取值与至少一个候选取值之间的差值小于预设数值，则将候选取值作为该参数的取值。

示例性的，待检测区域模块33具体可以用于：

针对每一图片块，执行如下操作：依据置信度从大到小对属于该图片块的人头候选框区域进行排序，并滤除置信度低于第一置信度阈值的人头候选框区域；将置信度值最高的人头候选框区域确定为该图片块的第一候选框区域，并计算该图片块中其他人头候选框区域与所述第一候选框区域之间的交叠比；若交叠比大于交叠比阈值，则滤除对应的其他人头候选框区域；

从所有图片块剩余的人头候选框区域中选择置信度排序在前的预设数值个人头候选框区域作为所述待检测区域。

示例性的，所述人群数量模块34具体可以用于：

将所述待检测区域作为所述Fast-RCNN修正模型的输入，得到所述待检测区域的新置信度；

将新置信度大于第二置信度阈值的待检测区域确定为人头区域；

若两个人头区域之间的交叠比大于交叠比阈值，则从两个人头区域中滤除新置信度相对较低的人头区域，直到剩余的任意两个人头区域之间的交叠比均小于或等于所述交叠比阈值；

将剩余的人头区域的数量，作为所述待检测人群图片中包含的人群数量。

示例性的，所述Fast-RCNN修正模型的网络结构包括：Roi-pooling层；conv1_last卷积层+Relu层；cls_score层；Softmax层；bbox_pred层，其中conv1_last卷积层有1000个1*1的卷积核。

本实施例提供的基于深度学习的人群计数装置，与本发明任意实施例所提供的基于深度学习的人群计数方法属于同一发明构思，可执行本发明任意实施例所提供的基于深度学习的人群计数方法，具备执行基于深度学习的人群计数方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明任意实施例提供的基于深度学习的人群计数方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于深度学习的人群计数方法，其特征在于，包括：

将待检测人群图片划分为多个图片块；其中，所述待检测人群图片为高分辨率密集人群图片，图片的尺寸大于预设分辨率阈值，且图片中包含的人群数量超过预设人群数量阈值；

对所述多个图片块进行筛选，去除纯背景图片块；

基于预先训练得到的RPN候选框生成模型，确定纯背景图片块去除后的多个图片块中人头候选框区域和所述人头候选框区域的置信度；

基于预先训练得到的Fast-RCNN修正模型，对所述待检测区域进行分类预测，并依据分类预测的结果确定所述待检测人群图片中包含的人群数量；

其中，基于预先训练得到的RPN候选框生成模型，确定所述多个图片块中人头候选框区域和所述人头候选框区域的置信度，包括：

将纯背景图片块去除后的多个图片块作为RPN候选框生成模型的输入，依据所述RPN候选框生成模型提供的人头候选框的长宽比值和人头候选框的像素面积值，确定所述多个图片块中人头候选框区域，并确定所述人头候选框区域的置信度。

2.根据权利要求1所述的方法，其特征在于，RPN候选框生成模型的训练包括：

针对RPN模型中的每一参数，若该参数的取值与至少一个候选取值之间的差值小于预设数值，则将候选取值作为该参数的取值。

3.根据权利要求1所述的方法，其特征在于，依据所述置信度对确定的人头候选框区域进行筛选，得到待检测区域，包括：

4.根据权利要求1所述的方法，其特征在于，基于预先训练得到的Fast-RCNN修正模型，对所述待检测区域进行分类预测，并依据分类预测的结果确定所述待检测人群图片中包含的人群数量，包括：

5.根据权利要求1所述的方法，其特征在于，所述Fast-RCNN修正模型的网络结构包括：Roi-pooling层；conv1_last卷积层+Relu层；cls_score层；Softmax层；bbox_pred层，其中conv1_last卷积层有1000个1*1的卷积核。

6.一种基于深度学习的人群计数装置，其特征在于，包括：

图片划分模块，用于将待检测人群图片划分为多个图片块；其中，所述待检测人群图片为高分辨率密集人群图片，图片的尺寸大于预设分辨率阈值，且图片中包含的人群数量超过预设人群数量阈值；

人头候选框区域模块，用于对所述多个图片块进行筛选，去除纯背景图片块；基于预先训练得到的RPN候选框生成模型，确定纯背景图片块去除后的多个图片块中人头候选框区域和所述人头候选框区域的置信度；

人群数量模块，用于基于预先训练得到的Fast-RCNN修正模型，对所述待检测区域进行分类预测，并依据分类预测的结果确定所述待检测人群图片中包含的人群数量；

其中，所述人头候选框区域模块具体用于：

7.根据权利要求6所述的装置，其特征在于，所述人群数量模块具体用于：

8.根据权利要求6所述的装置，其特征在于，所述Fast-RCNN修正模型的网络结构包括：Roi-pooling层；conv1_last卷积层+Relu层；cls_score层；Softmax层；bbox_pred层，其中conv1_last卷积层有1000个1*1的卷积核。