CN111666830A - 一种密集人群计数检测框架 - Google Patents

一种密集人群计数检测框架 Download PDF

Info

Publication number
CN111666830A
CN111666830A CN202010418252.1A CN202010418252A CN111666830A CN 111666830 A CN111666830 A CN 111666830A CN 202010418252 A CN202010418252 A CN 202010418252A CN 111666830 A CN111666830 A CN 111666830A
Authority
CN
China
Prior art keywords
feature
module
dense
prediction
modulator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010418252.1A
Other languages
English (en)
Inventor
马天龙
杜响成
吴兴蛟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN202010418252.1A priority Critical patent/CN111666830A/zh
Publication of CN111666830A publication Critical patent/CN111666830A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种密集人群计数的检测框架,其特点是该检测框架包括:特征提取器和四个自上而下的功能调制器,所述特征提取器提取多尺度的特征信息;所述自上而下的功能调制器以特征提取器的输出为基础,多尺度的信息在调制器中被融合并做出更加精确预测。本发明与现有技术相比具有人数统计的准确率高,局部化能力强,能可靠地检测稀疏以及密集人群中的人头,有足够精确的人员定位,尤其是密集人群的巨大多样性,实时性好。

Description

一种密集人群计数检测框架
技术领域
本发明涉及人群图像计数技术领域,尤其是一种基于定位和计数的密集人群计数检测框架。
技术背景
从图像或视频中进行人群统计,对于交通控制和公共安全等应用变得至关重要,特别是在公共安全和规划方面。快速分析密集人群是目前最受关注的技术之一。但是,人群图像或视频的自动推理是一个具有挑战性的计算机视觉任务,在密集的人群中,这个任务的难度非常大,通常会缩小到估计人数。
现有技术的计数模型预测图像的人群密度,由于不是检测每个人,这些回归方法无法对除计数之外的大多数应用程序进行足够精确的人员定位,尤其是密集人群的巨大多样性,人数统计的准确率低、实时性差。
发明内容
本发明的目的是针对现有技术的不足而提出的一种密集人群计数检测框架,采用特征提取器和四个自上而下的功能调制器构架的检测框架,将其定位场景中的密集人群,被检测到的每个人头上都有外接框,根据外接框预测密集人群数量,能够可靠地检测稀疏以及密集人群中的人头,基于定位对人群进行统计,做出更加精确预测,有效解决了传统视频计数方法定位和计数无法统一的缺陷,方法简便,统计精度高,实时性好,尤其适合密集人群巨大多样性的人数统计。
实现本发明目的具体技术方案是:一种密集人群计数的检测框架,其特点是该检测框架由图片预处理模块、特征提取器、调制模块和预测模块组成,将检测框架定位场景中的密集人群,被检测到的每个人头上都有外接框,根据外接框对密集人群数量进行精确预测,所述图片预处理模块将输入的图片生成密度图;所述特征提取器采用VGG-16网络的前五个卷积模块对输入的图片在多个尺度上进行特征的提取,生成1/2、1/4、1/8和1/16原分辨率大小的特征图;所述调制模块由四个自上而下的功能调制器组成,对提取的特征图进行融合;所述功能调制器在获取的特征图上采样到相同的尺寸,然后经过卷积操作将特征图调整到相同数量;所述预测模块采用非最大抑制(NMS) 对融合多尺度的特征图从多个分辨率图像上确定有效的预测结果,并结合生成精确预测的结果。
所述五个卷积模块除了第一个和最后一个卷积模块之外,每个模块上的网络分支都要复制下一个模块,并通过这些模块创建多尺度分辨率的特征信息。
所述功能调制器由特征获取模块、特征融合模块、特征分类模块和特征输出模块组成。
所述特征获取模块从特征提取器以及上一个自上而下的功能调制器中提取特征信息,所述特征获取模块从特征提取器中提取一个尺度的特征图,将其通过3×3的卷积层传递;所述特征获取模块从上一个自上而下的功能调制器中提取特征图经转置卷积操作调整到相同数量。
所述特征融合模块采用网络层将人群特征与多尺度的自顶向下特征进行融合。
所述特征输出模块根据特征融合模块提取下一个自上而下的功能调制器所需的特征。
所述特征分类模块为预测模块提供一个输出,它将每个像素分类为背景或到一个预定义的边界框。
本发明与现有技术相比具以下技术效果:
1)提出了一种能够自动学习的分类方法,通过对输入图像尺寸的不同响应,提供不同权重的输出,从而指导得到一种更为准确并且可以不断演进的技术框架。
2)解决了传统视频计数方法定位和计数无法统一的缺陷,效果在公共数据集上(ShanghaiTech Part A,ShanghaiTech Part B,UCF_CC_50, UCF-QNRF)得到了验证。
附图说明
图1为本发明结构示意图;
图2为特征提取器工作流程图;
图3为功能调制器结构示意图;
图4为实施例1操作流程图。
具体实施方式
参阅附图1,本发明由图片预处理模块1、特征提取器2、调制模块3和预测模块4组成,将检测框架定位场景中的密集人群,被检测到的每个人头上都有外接框,根据外接框预测密集人群数量,所述图片预处理模块1将输入的图片生成密度图;所述调制模块3由四个自上而下的功能调制器S(S1、S2、S3和S4)组成,并由其对提取的特征图进行融合;所述功能调制器S(S1、S2、S3和S4)在获取的特征图上采样到相同的尺寸,然后经过卷积操作将特征图调整到相同数量;所述预测模块4采用非最大抑制(NMS) 对融合多尺度的特征图从多个分辨率图像上确定有效的预测结果,并结合生成精确预测的结果。
参阅附图2,所述特征提取器2网络的输入是224×224大小的RGB图像,其结构采用了VGG-16的前五个卷积块对输入的图片在多个尺度上进行特征的提取,生成1/2、1/4、1/8和1/16原分辨率大小的特征图。
参阅附图3,所述功能调制器S由特征获取模块31、特征融合模块32、特征分类模块33和特征输出模块34组成。所述特征获取模块31从特征提取器2以及上一个自上而下的功能调制器S中提取特征信息,所述特征获取模块31从特征提取器2中提取一个尺度的特征图,将其通过3×3的卷积层传递;所述特征获取模块31从上一个自上而下的功能调制器S中提取特征图经转置卷积操作调整到相同数量。所述特征融合模块32采用网络层将人群特征与多尺度的自顶向下特征进行融合。所述特征输出模块33根据特征融合模块32提取下一个自上而下的功能调制器S所需的特征。所述特征分类模块34为预测模块4提供一个输出,它将每个像素分类为背景或到一个预定义的边界框。
通过以下具体实施例对本发明作进一步的详细说明。
实施例1
参阅附图4,本发明通过网络输入原始图像(密集人群定位网络),并由预处理模块1进行预处理操作。所述预处理操作是对图像矩阵的变换,将提取图片特征,得到每一阶段部分特征(特征完备程度不同,特征蕴含信息不同,粗细粒度的信息携带量有差异),然后对每一部分得到的特征进一步解码,解码后获的特征图通道并进行叠加。叠加后将信息进行输出。将已经训练好的模型载入网络,通过网络得到一个图像密度特征,最后将特征进行解码操作,经过一系列卷积操作之后得到一组特征通道,将特征通道数据进行归一化后再叠加到原始通道进行输出,其具体操作包括如下步骤:
步骤1:预处理模块1对原图片进行预处理,包括对原图片进行尺寸的缩放以及密度图的生成,所述预处理模块1使用MATLAB联合已有图片和人工标注(Ground True)得到该图片的密度图,也就是把离散的,独立的人员标注转换为连续的,能表征密度的人群分布热力图,连续化是为了形成输出标签与网络输出构造loss函数指导网络收敛方向。
步骤2:将密度图输入特征提取器2已经训练好的模型中,通过模型得到图像的密度特征,特征提取器2采用VGG-16的前五个卷积块对输入的图片在多个尺度上进行特征的提取,生成1/2、1/4、1/8和1/16原分辨率大小的特征图。将具有不同尺寸的特征图送入四个自上而下的功能调制器S(S1、S2、S3和S4)中进行特征的融合,并特征分类模块33将融合后的特征图输出。特征提取器2使用VGG作为特征提取网络,不同于一般的VGG网络,该特征提取网络是去除全连接层的VGG16,该VGG16使用ImageNet进行预训练。输入的密度图通过该特征提取网络之后,形成一组由特征通道构成的特征图。最后将特征图送入一个分层级预测网络,该分层预测网络用于处理不同维度的特征样例分别用于处理1/2,1/4,1/8以及1/16的输出样例。在特征输出图中,高分辨率的特征图可以定位高密度人群;而低分辨率的图对应着更高的感受野,适用于定位稀疏的人群。所述五个卷积模块除了第一个和最后一个模块之外,每个模块上的网络分支都要复制下一个模块,并通过这些模块创建多尺度分辨率的特征信息。
步骤3:多尺度的特征图被输入到一系列的自上而下的功能调制器S(S1、S2、S3和S4)中,分别构造权重系数,并将获得特征图输入预测模块4进行叠加。
步骤4:预测模块4将输入的特征图权重归一化后,叠加到原始输出通道,采用非最大抑制(NMS)从多个分辨率图像上确定有效的预测结果,最后融合出一张预测密度图,并对此预测图进行求和得到预测人数以及预测位置坐标。
以上各实施例只是对本发明做进一步说明,并非用以限制本发明专利,凡为本发明的等效实施,均应包含于本发明专利的权利要求范围之内。

Claims (7)

1.一种密集人群计数的检测框架,其特征在于该检测框架由图片预处理模块、特征提取器、调制模块和预测模块组成,将检测框架定位场景中的密集人群,被检测到的每个人头上都有外接框,根据外接框预测密集人群数量,所述图片预处理模块将输入的图片生成密度图;所述特征提取器采用VGG-16网络的前五个卷积模块对输入的图片在多个尺度上进行特征的提取,生成1/2、1/4、1/8和1/16原分辨率大小的特征图;所述调制模块由四个自上而下的功能调制器对提取的特征图进行融合;所述功能调制器在获取的特征图上采样到相同的尺寸,然后经过卷积操作将特征图调整到相同数量;所述预测模块采用非最大抑制对融合多尺度的特征图从多个分辨率图像上确定有效的预测结果,并结合生成预测结果。
2.根据权利要求1所述密集人群计数的检测框架,其特征在所述五个卷积模块除了第一个和最后一个卷积模块外,每个模块上的网络分支都要复制下一个模块,并由这些模块创建多尺度分辨率的特征信息。
3.根据权利要求1所述密集人群计数的检测框架,其特征在于所述功能调制器由特征获取模块、特征融合模块、特征分类模块和特征输出模块组成。
4.根据权利要求3所述密集人群计数的检测框架结构,其特征在于所述特征获取模块从特征提取器以及上一个自上而下的功能调制器中提取特征信息,所述特征获取模块从特征提取器中提取一个尺度的特征图,将其通过3×3的卷积层传递;所述特征获取模块从上一个自上而下的功能调制器中提取特征图经转置卷积操作调整到相同数量。
5.根据权利要求3所述密集人群计数的检测框架,其特征在于所述特征融合模块采用网络层将人群特征与多尺度的自顶向下特征进行融合。
6.根据权利要求3所述密集人群计数的检测框架,其特征在于所述特征输出模块根据特征融合模块提取下一个自上而下的功能调制器所需的特征。
7.根据权利要求3所述密集人群计数的检测框架,其特征在于所述特征分类模块为预测模块提供一个输出,它将每个像素分类为背景或到一个预定义的边界框。
CN202010418252.1A 2020-05-18 2020-05-18 一种密集人群计数检测框架 Pending CN111666830A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010418252.1A CN111666830A (zh) 2020-05-18 2020-05-18 一种密集人群计数检测框架

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010418252.1A CN111666830A (zh) 2020-05-18 2020-05-18 一种密集人群计数检测框架

Publications (1)

Publication Number Publication Date
CN111666830A true CN111666830A (zh) 2020-09-15

Family

ID=72383893

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010418252.1A Pending CN111666830A (zh) 2020-05-18 2020-05-18 一种密集人群计数检测框架

Country Status (1)

Country Link
CN (1) CN111666830A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112215129A (zh) * 2020-10-10 2021-01-12 江南大学 一种基于排序损失和双分支网络的人群计数方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948553A (zh) * 2019-03-20 2019-06-28 北京航空航天大学 一种多尺度密集人群计数方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948553A (zh) * 2019-03-20 2019-06-28 北京航空航天大学 一种多尺度密集人群计数方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DEEPAK BABU SAM等: ""Locate, Size and Count: Accurately Resolving People in Dense Crowds via Detection "", 《ARXIV》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112215129A (zh) * 2020-10-10 2021-01-12 江南大学 一种基于排序损失和双分支网络的人群计数方法及系统

Similar Documents

Publication Publication Date Title
CN113936339B (zh) 基于双通道交叉注意力机制的打架识别方法和装置
CN109977921B (zh) 一种输电线路隐患检测方法
WO2023083280A1 (zh) 一种场景文本识别方法和装置
CN108765279A (zh) 一种面向监控场景的行人人脸超分辨率重建方法
Yang et al. Spatiotemporal trident networks: detection and localization of object removal tampering in video passive forensics
CN105608454A (zh) 基于文字结构部件检测神经网络的文字检测方法及系统
CN113609896A (zh) 基于对偶相关注意力的对象级遥感变化检测方法及系统
CN112990122B (zh) 一种基于视频基础单元分析的复杂行为识别方法
WO2022205329A1 (zh) 对象检测方法、对象检测装置及对象检测系统
CN114648714A (zh) 一种基于yolo的车间规范行为的监测方法
Intwala et al. Indian sign language converter using convolutional neural networks
CN111401368B (zh) 一种基于深度学习的新闻视频标题提取方法
CN111950457A (zh) 油田安全生产图像识别方法及系统
CN103729620A (zh) 一种基于多视角贝叶斯网络的多视角行人检测方法
CN117409481A (zh) 一种基于2dcnn和3dcnn的动作检测方法
CN114359167B (zh) 一种复杂场景下基于轻量化YOLOv4的绝缘子缺陷检测方法
CN116523885A (zh) 一种基于多尺度融合及深度学习的pcb缺陷检测方法
CN116434341A (zh) 一种学生课堂异常行为的识别方法及系统
Manninen et al. Multi-stage deep learning networks for automated assessment of electricity transmission infrastructure using fly-by images
CN114266952A (zh) 基于深监督的实时语义分割方法
CN113887489A (zh) 基于位置增强和多尺度融合网络的车厢内人群计数方法
CN111666830A (zh) 一种密集人群计数检测框架
CN117253166A (zh) 基于海量视频的校园安全跨域跟踪方法及系统
CN112560668A (zh) 一种基于场景先验知识的人体行为识别方法
CN117152815A (zh) 一种学生活动伴随式数据分析方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200915

WD01 Invention patent application deemed withdrawn after publication