CN111666830A

CN111666830A - 一种密集人群计数检测框架

Info

Publication number: CN111666830A
Application number: CN202010418252.1A
Authority: CN
Inventors: 马天龙; 杜响成; 吴兴蛟
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2020-05-18
Filing date: 2020-05-18
Publication date: 2020-09-15

Abstract

本发明公开了一种密集人群计数的检测框架，其特点是该检测框架包括：特征提取器和四个自上而下的功能调制器，所述特征提取器提取多尺度的特征信息；所述自上而下的功能调制器以特征提取器的输出为基础，多尺度的信息在调制器中被融合并做出更加精确预测。本发明与现有技术相比具有人数统计的准确率高，局部化能力强，能可靠地检测稀疏以及密集人群中的人头，有足够精确的人员定位，尤其是密集人群的巨大多样性，实时性好。

Description

一种密集人群计数检测框架

技术领域

本发明涉及人群图像计数技术领域，尤其是一种基于定位和计数的密集人群计数检测框架。

技术背景

从图像或视频中进行人群统计，对于交通控制和公共安全等应用变得至关重要，特别是在公共安全和规划方面。快速分析密集人群是目前最受关注的技术之一。但是，人群图像或视频的自动推理是一个具有挑战性的计算机视觉任务，在密集的人群中，这个任务的难度非常大，通常会缩小到估计人数。

现有技术的计数模型预测图像的人群密度，由于不是检测每个人，这些回归方法无法对除计数之外的大多数应用程序进行足够精确的人员定位，尤其是密集人群的巨大多样性，人数统计的准确率低、实时性差。

发明内容

本发明的目的是针对现有技术的不足而提出的一种密集人群计数检测框架，采用特征提取器和四个自上而下的功能调制器构架的检测框架，将其定位场景中的密集人群，被检测到的每个人头上都有外接框，根据外接框预测密集人群数量，能够可靠地检测稀疏以及密集人群中的人头，基于定位对人群进行统计，做出更加精确预测，有效解决了传统视频计数方法定位和计数无法统一的缺陷，方法简便，统计精度高，实时性好，尤其适合密集人群巨大多样性的人数统计。

实现本发明目的具体技术方案是：一种密集人群计数的检测框架，其特点是该检测框架由图片预处理模块、特征提取器、调制模块和预测模块组成，将检测框架定位场景中的密集人群，被检测到的每个人头上都有外接框，根据外接框对密集人群数量进行精确预测，所述图片预处理模块将输入的图片生成密度图；所述特征提取器采用VGG-16网络的前五个卷积模块对输入的图片在多个尺度上进行特征的提取，生成1/2、1/4、1/8和1/16原分辨率大小的特征图；所述调制模块由四个自上而下的功能调制器组成，对提取的特征图进行融合；所述功能调制器在获取的特征图上采样到相同的尺寸，然后经过卷积操作将特征图调整到相同数量；所述预测模块采用非最大抑制(NMS) 对融合多尺度的特征图从多个分辨率图像上确定有效的预测结果，并结合生成精确预测的结果。

所述五个卷积模块除了第一个和最后一个卷积模块之外，每个模块上的网络分支都要复制下一个模块，并通过这些模块创建多尺度分辨率的特征信息。

所述功能调制器由特征获取模块、特征融合模块、特征分类模块和特征输出模块组成。

所述特征获取模块从特征提取器以及上一个自上而下的功能调制器中提取特征信息，所述特征获取模块从特征提取器中提取一个尺度的特征图，将其通过3×3的卷积层传递；所述特征获取模块从上一个自上而下的功能调制器中提取特征图经转置卷积操作调整到相同数量。

所述特征融合模块采用网络层将人群特征与多尺度的自顶向下特征进行融合。

所述特征输出模块根据特征融合模块提取下一个自上而下的功能调制器所需的特征。

所述特征分类模块为预测模块提供一个输出，它将每个像素分类为背景或到一个预定义的边界框。

本发明与现有技术相比具以下技术效果：

1）提出了一种能够自动学习的分类方法，通过对输入图像尺寸的不同响应，提供不同权重的输出，从而指导得到一种更为准确并且可以不断演进的技术框架。

2）解决了传统视频计数方法定位和计数无法统一的缺陷，效果在公共数据集上（ShanghaiTech Part A，ShanghaiTech Part B，UCF_CC_50, UCF-QNRF）得到了验证。

附图说明

图1为本发明结构示意图；

图2为特征提取器工作流程图；

图3为功能调制器结构示意图；

图4为实施例1操作流程图。

具体实施方式

参阅附图1，本发明由图片预处理模块1、特征提取器2、调制模块3和预测模块4组成，将检测框架定位场景中的密集人群，被检测到的每个人头上都有外接框，根据外接框预测密集人群数量，所述图片预处理模块1将输入的图片生成密度图；所述调制模块3由四个自上而下的功能调制器S（S₁、S₂、S₃和S₄）组成，并由其对提取的特征图进行融合；所述功能调制器S（S₁、S₂、S₃和S₄）在获取的特征图上采样到相同的尺寸，然后经过卷积操作将特征图调整到相同数量；所述预测模块4采用非最大抑制(NMS) 对融合多尺度的特征图从多个分辨率图像上确定有效的预测结果，并结合生成精确预测的结果。

参阅附图2，所述特征提取器2网络的输入是224×224大小的RGB图像，其结构采用了VGG-16的前五个卷积块对输入的图片在多个尺度上进行特征的提取，生成1/2、1/4、1/8和1/16原分辨率大小的特征图。

参阅附图3，所述功能调制器S由特征获取模块31、特征融合模块32、特征分类模块33和特征输出模块34组成。所述特征获取模块31从特征提取器2以及上一个自上而下的功能调制器S中提取特征信息，所述特征获取模块31从特征提取器2中提取一个尺度的特征图，将其通过3×3的卷积层传递；所述特征获取模块31从上一个自上而下的功能调制器S中提取特征图经转置卷积操作调整到相同数量。所述特征融合模块32采用网络层将人群特征与多尺度的自顶向下特征进行融合。所述特征输出模块33根据特征融合模块32提取下一个自上而下的功能调制器S所需的特征。所述特征分类模块34为预测模块4提供一个输出，它将每个像素分类为背景或到一个预定义的边界框。

通过以下具体实施例对本发明作进一步的详细说明。

实施例1

参阅附图4，本发明通过网络输入原始图像（密集人群定位网络），并由预处理模块1进行预处理操作。所述预处理操作是对图像矩阵的变换，将提取图片特征，得到每一阶段部分特征（特征完备程度不同，特征蕴含信息不同，粗细粒度的信息携带量有差异），然后对每一部分得到的特征进一步解码，解码后获的特征图通道并进行叠加。叠加后将信息进行输出。将已经训练好的模型载入网络，通过网络得到一个图像密度特征，最后将特征进行解码操作，经过一系列卷积操作之后得到一组特征通道，将特征通道数据进行归一化后再叠加到原始通道进行输出，其具体操作包括如下步骤：

步骤1：预处理模块1对原图片进行预处理，包括对原图片进行尺寸的缩放以及密度图的生成，所述预处理模块1使用MATLAB联合已有图片和人工标注（Ground True）得到该图片的密度图，也就是把离散的，独立的人员标注转换为连续的，能表征密度的人群分布热力图，连续化是为了形成输出标签与网络输出构造loss函数指导网络收敛方向。

步骤2：将密度图输入特征提取器2已经训练好的模型中，通过模型得到图像的密度特征，特征提取器2采用VGG-16的前五个卷积块对输入的图片在多个尺度上进行特征的提取，生成1/2、1/4、1/8和1/16原分辨率大小的特征图。将具有不同尺寸的特征图送入四个自上而下的功能调制器S（S₁、S₂、S₃和S₄）中进行特征的融合，并特征分类模块33将融合后的特征图输出。特征提取器2使用VGG作为特征提取网络，不同于一般的VGG网络，该特征提取网络是去除全连接层的VGG16，该VGG16使用ImageNet进行预训练。输入的密度图通过该特征提取网络之后，形成一组由特征通道构成的特征图。最后将特征图送入一个分层级预测网络，该分层预测网络用于处理不同维度的特征样例分别用于处理1/2，1/4,1/8以及1/16的输出样例。在特征输出图中，高分辨率的特征图可以定位高密度人群；而低分辨率的图对应着更高的感受野，适用于定位稀疏的人群。所述五个卷积模块除了第一个和最后一个模块之外，每个模块上的网络分支都要复制下一个模块，并通过这些模块创建多尺度分辨率的特征信息。

步骤3：多尺度的特征图被输入到一系列的自上而下的功能调制器S（S₁、S₂、S₃和S₄）中，分别构造权重系数，并将获得特征图输入预测模块4进行叠加。

步骤4：预测模块4将输入的特征图权重归一化后，叠加到原始输出通道，采用非最大抑制(NMS)从多个分辨率图像上确定有效的预测结果，最后融合出一张预测密度图，并对此预测图进行求和得到预测人数以及预测位置坐标。

以上各实施例只是对本发明做进一步说明，并非用以限制本发明专利，凡为本发明的等效实施，均应包含于本发明专利的权利要求范围之内。

Claims

1.一种密集人群计数的检测框架，其特征在于该检测框架由图片预处理模块、特征提取器、调制模块和预测模块组成，将检测框架定位场景中的密集人群，被检测到的每个人头上都有外接框，根据外接框预测密集人群数量，所述图片预处理模块将输入的图片生成密度图；所述特征提取器采用VGG-16网络的前五个卷积模块对输入的图片在多个尺度上进行特征的提取，生成1/2、1/4、1/8和1/16原分辨率大小的特征图；所述调制模块由四个自上而下的功能调制器对提取的特征图进行融合；所述功能调制器在获取的特征图上采样到相同的尺寸，然后经过卷积操作将特征图调整到相同数量；所述预测模块采用非最大抑制对融合多尺度的特征图从多个分辨率图像上确定有效的预测结果，并结合生成预测结果。

2.根据权利要求1所述密集人群计数的检测框架，其特征在所述五个卷积模块除了第一个和最后一个卷积模块外，每个模块上的网络分支都要复制下一个模块，并由这些模块创建多尺度分辨率的特征信息。

3.根据权利要求1所述密集人群计数的检测框架，其特征在于所述功能调制器由特征获取模块、特征融合模块、特征分类模块和特征输出模块组成。

4.根据权利要求3所述密集人群计数的检测框架结构，其特征在于所述特征获取模块从特征提取器以及上一个自上而下的功能调制器中提取特征信息，所述特征获取模块从特征提取器中提取一个尺度的特征图，将其通过3×3的卷积层传递；所述特征获取模块从上一个自上而下的功能调制器中提取特征图经转置卷积操作调整到相同数量。

5.根据权利要求3所述密集人群计数的检测框架，其特征在于所述特征融合模块采用网络层将人群特征与多尺度的自顶向下特征进行融合。

6.根据权利要求3所述密集人群计数的检测框架，其特征在于所述特征输出模块根据特征融合模块提取下一个自上而下的功能调制器所需的特征。

7.根据权利要求3所述密集人群计数的检测框架，其特征在于所述特征分类模块为预测模块提供一个输出，它将每个像素分类为背景或到一个预定义的边界框。