CN113538402A - 一种基于密度估计的人群计数方法及系统 - Google Patents
一种基于密度估计的人群计数方法及系统 Download PDFInfo
- Publication number
- CN113538402A CN113538402A CN202110865293.XA CN202110865293A CN113538402A CN 113538402 A CN113538402 A CN 113538402A CN 202110865293 A CN202110865293 A CN 202110865293A CN 113538402 A CN113538402 A CN 113538402A
- Authority
- CN
- China
- Prior art keywords
- layer
- convolution
- branch
- kernel size
- convolutional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30242—Counting objects in image
Abstract
本发明公开一种复杂场景下结合跨模态信息的人群计数方法及系统,涉及计算机视觉技术领域,包括:获取待计数复杂场景下人群的RGB图像和深度图像;将RGB图像和深度图像输入优化后的深度神经网络模型中,得到估计的人群密度图;其中,深度神经网络模型包括依次连接的低层特征提取层、第一跨模态循环注意力融合层、中层特征提取层、第二跨模态循环注意力融合层、高层特征提取层、第三跨模态循环注意力融合层和人群密度图估计层;将估计的人群密度图进行逐像素相加,得到人群中人数的估计值。本发明能够避免现有人群计数方法在人群任意分布的复杂场景中准确率下降的问题。
Description
技术领域
本发明涉及图像处理技术领域,特别是涉及一种基于密度估计的人群计数方法及系统。
背景技术
人群计数对于许多现实世界的应用非常重要,例如视频监控和人群管理。研究人员提出了大量的人群计数方法,现有计数方法主要从基于检测的方法和基于回归的方法转变为基于密度估计的方法,后者可以为相关人群分析任务提供空间线索。
考虑到不同场景中人群状态的复杂性,估计准确的人群数量到目前为止仍然是困难和具有挑战性的,尤其是人群规模变化的存在。根据主要的尺度变化问题,即人群密度估计任务中图像多尺度导致的人群密度估计准确率下降的问题,最近的人群计数工作开发了许多解决方案来减少其负面影响(人群密度估计任务中图像多尺度导致的人群密度估计准确率下降的影响),即主要采用具有不同核大小的多个纯卷积或具有不同膨胀速率的多个膨胀卷积。在使用多重纯卷积时引入大核纯卷积会增加计数模型的参数个数,导致冗余计算。与使用不同核大小的多个纯卷积相比,具有不同膨胀速率的多个膨胀卷积可以在一定程度上减少参数数量,但对于一些连续信息和细节方面的处理不尽人意,因而导致人群计数结果不准确。
发明内容
本发明的目的是提供一种基于密度估计的人群计数方法及系统,能够快速准确的得到人群计数结果。
为实现上述目的,本发明提供了如下方案:
一种基于密度估计的人群计数方法,所述方法包括:
获取待估计人群图像;
将所述待估计人群图像输入优化后的深度神经网络模型中,得到估计的人群密度图;所述深度神经网络模型包括依次连接的低层语义特征图提取层、第一尺度感知金字塔注意力层,依次连接的中层语义特征图提取层、第二尺度感知金字塔注意力层,依次连接的高层语义特征图提取层、第三尺度感知金字塔注意力层,以及与所述第一尺度感知金字塔注意力层、第二尺度感知金字塔注意力层和所述第三尺度感知金字塔注意力层均连接的特征融合层,与所述特征融合层连接的人群密度图估计层;所述优化后的深度神经网络模型采用不同人群图像以及与所述图像对应的真实人群密度图对所述深度神经网络模型进行训练和优化得到;
将所述估计的人群密度图进行逐像素相加,得到人群中人数的估计值;
将所述待估计人群图像输入优化后的深度神经网络模型中,得到估计的人群密度图,具体包括:
利用所述低层语义特征图提取层对所述待估计人群图像提取低层语义特征图;
利用所述中层语义特征图提取层对所述低层语义特征图提取中层语义特征图;
利用所述高层语义特征图提取层对所述中层语义特征图提取高层语义特征图;
利用所述第一尺度感知金字塔注意力层对所述低层语义特征图提取尺度感知信息特征,得到低层多尺度语义特征图;
利用所述第二尺度感知金字塔注意力层对所述中层语义特征图提取尺度感知信息特征,得到中层多尺度语义特征图;
利用所述第三尺度感知金字塔注意力层对所述高层语义特征图提取尺度感知信息特征,得到高层多尺度语义特征图;
利用所述特征融合层对所述低层多尺度语义特征图、所述中层多尺度语义特征图和所述高层多尺度语义特征图进行融合,得到多层次多尺度的融合特征图;
利用所述人群密度图估计层对所述多层次多尺度的融合特征图进行人群密度估计,得到估计的人群密度图。
可选地,所述第一尺度感知金字塔注意力层具体包括依次连接的第一两分支空间可分离卷积层、第一卷积层、第一Sigmoid函数变换层、第一按位相乘层,依次连接的第二两分支空间可分离卷积层、第二卷积层、第二Sigmoid函数变换层、第二按位相乘层,依次连接的第三两分支空间可分离卷积层、第三卷积层、第三Sigmoid函数变换层、第三按位相乘层,以及与所述第一按位相乘层、所述第二按位相乘层和所述第三按位相乘层均连接的第一融合层;所述第一按位相乘层还与所述第一两分支空间可分离卷积层连接;所述第二按位相乘层还与所述第二两分支空间可分离卷积层连接;所述第三按位相乘层还与所述第三两分支空间可分离卷积层连接;
所述第一两分支空间可分离卷积层、所述第二两分支空间可分离卷积层和所述第三两分支空间可分离卷积层均与所述低层语义特征图提取层连接;所述第一两分支空间可分离卷积层、所述第二两分支空间可分离卷积层和所述第三两分支空间可分离卷积层均用于对所述低层语义特征图提取尺度感知信息特征,得到低层尺度感知信息特征;
所述第一卷积层、所述第二卷积层和所述第三卷积层均用于对所述低层尺度感知信息特征进行维度变换,得到低层尺度语义特征图;
所述第一Sigmoid函数变换层、所述第二Sigmoid函数变换层和所述第三Sigmoid函数变换层均用于对所述低层尺度语义特征图进行非线性变换,得到变换后的低层尺度语义特征图;
所述第一按位相乘层、所述第二按位相乘层和所述第三按位相乘层均用于对所述变换后的低层尺度语义特征图和所述低层尺度感知信息特征进行按位相乘操作,得到按位相乘后的低层尺度语义特征图;
所述第一融合层用于对所述按位相乘后的低层尺度语义特征图进行逐元素累加操作,得到低层多尺度语义特征图。
可选地,所述第一两分支空间可分离卷积层包括第一分支和第二分支;所述第二两分支空间可分离卷积层包括第三分支和第四分支;所述第三两分支空间可分离卷积层包括第五分支和第六分支;
所述第一分支包括依次连接的卷积核尺寸为5*1的卷积层、卷积核尺寸为1*5的卷积层;所述第二分支包括依次连接的卷积核尺寸为1*5的卷积层、卷积核尺寸为5*1的卷积层;
所述第一分支中卷积核尺寸为5*1的卷积层与所述第二分支中卷积核尺寸为1*5的卷积层均与所述低层语义特征图提取层连接;所述第一分支中卷积核尺寸为1*5的卷积层与所述第二分支中卷积核尺寸为5*1的卷积层均与所述第一卷积层和所述第一按位相乘层连接;
所述第三分支包括依次连接的卷积核尺寸为7*1的卷积层、卷积核尺寸为1*7的卷积层;所述第四分支包括依次连接的卷积核尺寸为1*7的卷积层、卷积核尺寸为7*1的卷积层;
所述第三分支中卷积核尺寸为7*1的卷积层与所述第四分支中卷积核尺寸为1*7的卷积层均与所述低层语义特征图提取层连接;所述第三分支中卷积核尺寸为1*7的卷积层与所述第四分支中卷积核尺寸为7*1的卷积层均与所述第二卷积层和所述第二按位相乘层连接;
所述第五分支包括依次连接的卷积核尺寸为9*1的卷积层、卷积核尺寸为1*9的卷积层;所述第六分支包括依次连接的卷积核尺寸为1*9的卷积层、卷积核尺寸为9*1的卷积层;
所述第五分支中卷积核尺寸为9*1的卷积层与所述第六分支中卷积核尺寸为1*9的卷积层均与所述低层语义特征图提取层连接;所述第五分支中卷积核尺寸为1*9的卷积层与所述第六分支中卷积核尺寸为9*1的卷积层均与所述第三卷积层和所述第三按位相乘层连接;
所述第一分支中卷积核尺寸为5*1的卷积层和卷积核尺寸为1*5的卷积层,所述第二分支中卷积核尺寸为1*5的卷积层和卷积核尺寸为5*1的卷积层,所述第三分支中卷积核尺寸为7*1的卷积层和卷积核尺寸为1*7的卷积层,所述第四分支中卷积核尺寸为1*7的卷积层和卷积核尺寸为7*1的卷积层,所述第五分支中卷积核尺寸为9*1的卷积层和卷积核尺寸为1*9的卷积层以及所述第六分支中卷积核尺寸为1*9的卷积层和卷积核尺寸为9*1的卷积层均用于对所述低层语义特征图提取尺度感知信息特征,得到低层尺度感知信息特征。
可选地,所述第二尺度感知金字塔注意力层具体包括依次连接的第四两分支空间可分离卷积层、第四卷积层、第四Sigmoid函数变换层、第四按位相乘层,依次连接的第五两分支空间可分离卷积层、第五卷积层、第五Sigmoid函数变换层、第五按位相乘层,依次连接的第六两分支空间可分离卷积层、第六卷积层、第六Sigmoid函数变换层、第六按位相乘层,以及与所述第四按位相乘层、所述第五按位相乘层和所述第六按位相乘层均连接的第二融合层;所述第四按位相乘层还与所述第四两分支空间可分离卷积层连接;所述第五按位相乘层还与所述第五两分支空间可分离卷积层连接;所述第六按位相乘层还与所述第六两分支空间可分离卷积层连接;
所述第四两分支空间可分离卷积层、所述第五两分支空间可分离卷积层和所述第六两分支空间可分离卷积层均与所述中层语义特征图提取层连接;所述第四两分支空间可分离卷积层、所述第五两分支空间可分离卷积层和所述第六两分支空间可分离卷积层均用于对所述中层语义特征图提取尺度感知信息特征,得到中层尺度感知信息特征;
所述第四卷积层、所述第五卷积层和所述第六卷积层均用于对所述中层尺度感知信息特征进行维度变换,得到中层尺度语义特征图;
所述第四Sigmoid函数变换层、所述第五Sigmoid函数变换层和所述第六Sigmoid函数变换层均用于对所述中层尺度语义特征图进行非线性变换,得到变换后的中层尺度语义特征图;
所述第四按位相乘层、所述第五按位相乘层和所述第六按位相乘层均用于对所述变换后的低层尺度语义特征图和所述中层尺度感知信息特征进行按位相乘操作,得到按位相乘后的中层尺度语义特征图;
所述第二融合层用于对所述按位相乘后的中层尺度语义特征图进行逐元素累加操作,得到中层多尺度语义特征图。
可选地,所述第四两分支空间可分离卷积层包括第七分支和第八分支;所述第五两分支空间可分离卷积层包括第九分支和第十分支;所述第六两分支空间可分离卷积层包括第十一分支和第十二分支;
所述第七分支包括依次连接的卷积核尺寸为5*1的卷积层、卷积核尺寸为1*5的卷积层;所述第八分支包括依次连接的卷积核尺寸为1*5的卷积层、卷积核尺寸为5*1的卷积层;
所述第七分支中卷积核尺寸为5*1的卷积层与所述第八分支中卷积核尺寸为1*5的卷积层均与所述中层语义特征图提取层连接;所述第七分支中卷积核尺寸为1*5的卷积层与所述第八分支中卷积核尺寸为5*1的卷积层均与所述第四卷积层和所述第四按位相乘层连接;
所述第九分支包括依次连接的卷积核尺寸为7*1的卷积层、卷积核尺寸为1*7的卷积层;所述第十分支包括依次连接的卷积核尺寸为1*7的卷积层、卷积核尺寸为7*1的卷积层;
所述第九分支中卷积核尺寸为7*1的卷积层与所述第十分支中卷积核尺寸为1*7的卷积层均与所述中层语义特征图提取层连接;所述第九分支中卷积核尺寸为1*7的卷积层与所述第十分支中卷积核尺寸为7*1的卷积层均与所述第五卷积层和所述第五按位相乘层连接;
所述第十一分支包括依次连接的卷积核尺寸为9*1的卷积层、卷积核尺寸为1*9的卷积层;所述第十二分支包括依次连接的卷积核尺寸为1*9的卷积层、卷积核尺寸为9*1的卷积层;
所述第十一分支中卷积核尺寸为9*1的卷积层与所述第十二分支中卷积核尺寸为1*9的卷积层均与所述中层语义特征图提取层连接;所述第十一分支中卷积核尺寸为1*9的卷积层与所述第十二分支中卷积核尺寸为9*1的卷积层均与所述第六卷积层和所述第六按位相乘层连接;
所述第七分支中卷积核尺寸为5*1的卷积层和卷积核尺寸为1*5的卷积层,所述第八分支中卷积核尺寸为1*5的卷积层和卷积核尺寸为5*1的卷积层,所述第九分支中卷积核尺寸为7*1的卷积层和卷积核尺寸为1*7的卷积层,所述第十分支中卷积核尺寸为1*7的卷积层和卷积核尺寸为7*1的卷积层,所述第十一分支中卷积核尺寸为9*1的卷积层和卷积核尺寸为1*9的卷积层以及所述第十二分支中卷积核尺寸为1*9的卷积层和卷积核尺寸为9*1的卷积层均用于对所述中层语义特征图提取尺度感知信息特征,得到中层尺度感知信息特征。
可选地,所述第三尺度感知金字塔注意力层具体包括依次连接的第七两分支空间可分离卷积层、第七卷积层、第七Sigmoid函数变换层、第七按位相乘层,依次连接的第八两分支空间可分离卷积层、第八卷积层、第八Sigmoid函数变换层、第八按位相乘层,依次连接的第九两分支空间可分离卷积层、第九卷积层、第九Sigmoid函数变换层、第九按位相乘层,以及与所述第七按位相乘层、所述第八按位相乘层和所述第九按位相乘层均连接的第三融合层;所述第七按位相乘层还与所述第七两分支空间可分离卷积层连接;所述第八按位相乘层还与所述第八两分支空间可分离卷积层连接;所述第九按位相乘层还与所述第九两分支空间可分离卷积层连接;
所述第七两分支空间可分离卷积层、所述第八两分支空间可分离卷积层和所述第九两分支空间可分离卷积层均与所述高层语义特征图提取层连接;所述第七两分支空间可分离卷积层、所述第八两分支空间可分离卷积层和所述第九两分支空间可分离卷积层均用于对所述高层语义特征图提取尺度感知信息特征,得到高层尺度感知信息特征;
所述第七卷积层、所述第八卷积层和所述第九卷积层均用于对所述高层尺度感知信息特征进行维度变换,得到高层尺度语义特征图;
所述第七Sigmoid函数变换层、所述第八Sigmoid函数变换层和所述第九Sigmoid函数变换层均用于对所述高层尺度语义特征图进行非线性变换,得到变换后的高层尺度语义特征图;
所述第七按位相乘层、所述第八按位相乘层和所述第九按位相乘层均用于对所述变换后的高层尺度语义特征图和所述高层尺度感知信息特征进行按位相乘操作,得到按位相乘后的高层尺度语义特征图;
所述第三融合层用于对所述按位相乘后的高层尺度语义特征图进行逐元素累加操作,得到高层多尺度语义特征图。
可选地,所述第七两分支空间可分离卷积层包括第十三分支和第十四分支;所述第八两分支空间可分离卷积层包括第十五分支和第十六分支;所述第九两分支空间可分离卷积层包括第十七分支和第十八分支;
所述第十三分支包括依次连接的卷积核尺寸为5*1的卷积层、卷积核尺寸为1*5的卷积层;所述第十四分支包括依次连接的卷积核尺寸为1*5的卷积层、卷积核尺寸为5*1的卷积层;
所述第十三分支中卷积核尺寸为5*1的卷积层与所述第十四分支中卷积核尺寸为1*5的卷积层均与所述高层语义特征图提取层连接;所述第十三分支中卷积核尺寸为1*5的卷积层与所述第十四分支中卷积核尺寸为5*1的卷积层均与所述第七卷积层和所述第七按位相乘层连接;
所述第十五分支包括依次连接的卷积核尺寸为7*1的卷积层、卷积核尺寸为1*7的卷积层;所述第十六分支包括依次连接的卷积核尺寸为1*7的卷积层、卷积核尺寸为7*1的卷积层;
所述第十五分支中卷积核尺寸为7*1的卷积层与所述第十六分支中卷积核尺寸为1*7的卷积层均与所述高层语义特征图提取层连接;所述第十五分支中卷积核尺寸为1*7的卷积层与所述第十六分支中卷积核尺寸为7*1的卷积层均与所述第八卷积层和所述第八按位相乘层连接;
所述第十七分支包括依次连接的卷积核尺寸为9*1的卷积层、卷积核尺寸为1*9的卷积层;所述第十八分支包括依次连接的卷积核尺寸为1*9的卷积层、卷积核尺寸为9*1的卷积层;
所述第十七分支中卷积核尺寸为9*1的卷积层与所述第十八分支中卷积核尺寸为1*9的卷积层均与所述高层语义特征图提取层连接;所述第十七分支中卷积核尺寸为1*9的卷积层与所述第十八分支中卷积核尺寸为9*1的卷积层均与所述第九卷积层和所述第九按位相乘层连接;
所述第十三分支中卷积核尺寸为5*1的卷积层和卷积核尺寸为1*5的卷积层,所述第十四分支中卷积核尺寸为1*5的卷积层和卷积核尺寸为5*1的卷积层,所述第十五分支中卷积核尺寸为7*1的卷积层和卷积核尺寸为1*7的卷积层,所述第十六分支中卷积核尺寸为1*7的卷积层和卷积核尺寸为7*1的卷积层,所述第十七分支中卷积核尺寸为9*1的卷积层和卷积核尺寸为1*9的卷积层以及所述第十八分支中卷积核尺寸为1*9的卷积层和卷积核尺寸为9*1的卷积层均用于对所述高层语义特征图提取尺度感知信息特征,得到高层尺度感知信息特征。
可选地,所述特征融合层具体包括依次连接的第一上采样层、第四融合层、第二上采样层、第五融合层和级联层;
所述第一上采样层还与所述第三尺度感知金字塔注意力层连接;所述第四融合层还与所述第二尺度感知金字塔注意力层连接;所述第五融合层还与所述第一尺度感知金字塔注意力层连接;所述级联层还与所述低层语义特征图提取层和所述人群密度图估计层连接;
所述第一上采样层用于对所述高层多尺度语义特征图进行上采样,得到上采样后的高层多尺度语义特征图;
所述第四融合层用于对所述上采样后的高层多尺度语义特征图和所述中层多尺度语义特征图进行融合,得到融合高中两层的多尺度感知信息的特征;
所述第二上采样层用于对所述融合高中两层的多尺度感知信息的特征进行上采样,得到上采样后的融合高中两层的多尺度感知信息的特征;
所述第五融合层用于对所述上采样后的融合高中两层的多尺度感知信息的特征和所述低层多尺度语义特征图进行融合,得到融合高中低三层多尺度感知信息的特征;
所述级联层用于对所述融合高中低三层多尺度感知信息的特征和所述低层语义特征图进行级联操作,得到多层次多尺度的融合特征图。
本发明还提供了如下方案:
一种基于密度估计的人群计数系统,所述系统包括:
待估计人群图像获取模块,用于获取待估计人群图像;
人群密度图估计模块,用于将所述待估计人群图像输入优化后的深度神经网络模型中,得到估计的人群密度图;所述深度神经网络模型包括依次连接的低层语义特征图提取层、第一尺度感知金字塔注意力层,依次连接的中层语义特征图提取层、第二尺度感知金字塔注意力层,依次连接的高层语义特征图提取层、第三尺度感知金字塔注意力层,以及与所述第一尺度感知金字塔注意力层、第二尺度感知金字塔注意力层和所述第三尺度感知金字塔注意力层均连接的特征融合层,与所述特征融合层连接的人群密度图估计层;所述优化后的深度神经网络模型采用不同人群图像以及与所述图像对应的真实人群密度图对所述深度神经网络模型进行训练和优化得到;
人群中人数值估计模块,用于将所述估计的人群密度图进行逐像素相加,得到人群中人数的估计值;
所述低层语义特征图提取层用于对所述待估计人群图像提取低层语义特征图;
所述中层语义特征图提取层用于对所述低层语义特征图提取中层语义特征图;
所述高层语义特征图提取层用于对所述中层语义特征图提取高层语义特征图;
所述第一尺度感知金字塔注意力层用于对所述低层语义特征图提取尺度感知信息特征,得到低层多尺度语义特征图;
所述第二尺度感知金字塔注意力层用于对所述中层语义特征图提取尺度感知信息特征,得到中层多尺度语义特征图;
所述第三尺度感知金字塔注意力层用于对所述高层语义特征图提取尺度感知信息特征,得到高层多尺度语义特征图;
所述特征融合层用于对所述低层多尺度语义特征图、所述中层多尺度语义特征图和所述高层多尺度语义特征图进行融合,得到多层次多尺度的融合特征图;
所述人群密度图估计层用于对所述多层次多尺度的融合特征图进行人群密度估计,得到估计的人群密度图。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明公开的基于密度估计的人群计数方法及系统,通过第一尺度感知金字塔注意力层、第二尺度感知金字塔注意力层和第三尺度感知金字塔注意力层提取尺度感知信息特征,得到低层、中层和高层多尺度语义特征图,从而得到特征图的丰富的多尺度上下文特征。以第一尺度感知金字塔注意力层、第二尺度感知金字塔注意力层和第三尺度感知金字塔注意力层代替了单纯的卷积,减少了参数个数和计算量,可以从原始人群场景中提取丰富的尺度感知特征,可以得到更多的信息,对尺度变化问题具有更强的鲁棒性,能有效抑制人群密度估计任务中图像多尺度导致人群密度估计准确率下降的缺陷,从而快速准确的得到人群计数结果。通过特征融合层对主干网络不同阶段输出的不同层次的语义特征图进行处理和融合,生成多层次尺度感知特征,得到多层次多尺度的融合特征图。特征融合层可以对不同层次的特征进行整合,利用包含自然细节的低层特征来弥补在提取过程中经过多个最大池化层的高层语义特征中的信息损失。通过生成多尺度感知特征能够避免图像多尺度的干扰,进而提高人群计数的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于密度估计的人群计数方法实施例的流程图;
图2为本发明深度神经网络模型的整体结构示意图;
图3为采用本发明基于密度估计的人群计数方法进行人群计数的示意图;
图4为本发明基于密度估计的人群计数系统实施例的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于密度估计的人群计数方法及系统,能够快速准确的得到人群计数结果。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明基于密度估计的人群计数方法实施例的流程图。参见图1,该基于密度估计的人群计数方法包括:
步骤101:获取待估计人群图像。
步骤102:将待估计人群图像输入优化后的深度神经网络模型中,得到估计的人群密度图;深度神经网络模型包括依次连接的低层语义特征图提取层、第一尺度感知金字塔注意力层,依次连接的中层语义特征图提取层、第二尺度感知金字塔注意力层,依次连接的高层语义特征图提取层、第三尺度感知金字塔注意力层,以及与第一尺度感知金字塔注意力层、第二尺度感知金字塔注意力层和第三尺度感知金字塔注意力层均连接的特征融合层,与特征融合层连接的人群密度图估计层;优化后的深度神经网络模型采用不同人群图像以及与图像对应的真实人群密度图对深度神经网络模型进行训练和优化得到。
步骤103:将估计的人群密度图进行逐像素相加,得到人群中人数的估计值。
该步骤103根据生成的待估计人群图像对应的人群密度估计图(估计的人群密度图)得到待估计人群图像对应的人数估计结果(人群中人数的估计值),步骤102中人群密度图估计层,即人群密度估计后端模块最后输出结果为人群密度图,步骤103对人群密度图进行求和,得到人群密度估计结果,从而获得给定图像的人群密度图和人群密度估计结果。人群密度图是人群计数的中间结果,最终输出的人数估计值是人群计数的最终结果。
其中,步骤102具体包括:
利用低层语义特征图提取层对待估计人群图像(原始图像)提取低层语义特征图。图2为本发明深度神经网络模型的整体结构示意图,深度神经网络模型用于人群密度估计,参见图2中前端部分,该低层语义特征图提取层包括依次连接的两个卷积层、一个最大池化(Maxpooling)层、两个卷积层、一个最大池化层、三个卷积层和一个最大池化层;其中卷积层的卷积尺寸均为3*3,每个卷积层生成的特征图的通道数由输入至输出方向依次为:64、64、128、128、256、256和256;三个最大池化层的步长均为2。该低层语义特征图提取层总共包含七个卷积层和三个最大池化层。
利用中层语义特征图提取层对低层语义特征图提取中层语义特征图。该中层语义特征图提取层包括依次连接的三个卷积层和一个最大池化层;其中卷积层的卷积尺寸均为3*3,三个卷积层生成的特征图的通道数依次为:512、512和512;最大池化层的步长为2。
利用高层语义特征图提取层对中层语义特征图提取高层语义特征图。该高层语义特征图提取层包括依次连接的三个卷积层和一个最大池化层;其中卷积层的卷积尺寸均为3*3,三个卷积层生成的特征图的通道数依次为:512、512和512;最大池化层的步长为2。任意输入图像样本,通过低层、中层和高层语义特征图提取层,即图2中前端部分所示的特征提取阶段网络模块,最终得到低层、中层和高层语义特征图,此过程中共涉及十三个卷积层和五个最大池化层。
利用第一尺度感知金字塔注意力层对低层语义特征图提取尺度感知信息特征,得到低层多尺度语义特征图(低层语义特征图的尺度感知信息特征)。参见图2中尺度感知金字塔注意力模块部分,该第一尺度感知金字塔注意力层具体包括依次连接的第一两分支空间可分离卷积层、第一卷积层、第一Sigmoid函数变换层、第一按位相乘层,依次连接的第二两分支空间可分离卷积层、第二卷积层、第二Sigmoid函数变换层、第二按位相乘层,依次连接的第三两分支空间可分离卷积层、第三卷积层、第三Sigmoid函数变换层、第三按位相乘层,以及与第一按位相乘层、第二按位相乘层和第三按位相乘层均连接的第一融合层。依次连接的第一两分支空间可分离卷积层、第一卷积层、第一Sigmoid函数变换层、第一按位相乘层为一个子列(第一子列)。依次连接的第二两分支空间可分离卷积层、第二卷积层、第二Sigmoid函数变换层、第二按位相乘层为一个子列(第二子列)。依次连接的第三两分支空间可分离卷积层、第三卷积层、第三Sigmoid函数变换层、第三按位相乘层为一个子列(第三子列)。低层语义特征图经三个子列后,可以得到三个尺度的低层语义特征图。将三个尺度的低层语义特征图按元素累加,可以得到低层语义特征图对应的尺度感知信息特征。
其中,第一按位相乘层还与第一两分支空间可分离卷积层连接;第二按位相乘层还与第二两分支空间可分离卷积层连接;第三按位相乘层还与第三两分支空间可分离卷积层连接。
第一两分支空间可分离卷积层、第二两分支空间可分离卷积层和第三两分支空间可分离卷积层均与低层语义特征图提取层连接。
第一两分支空间可分离卷积层、第二两分支空间可分离卷积层和第三两分支空间可分离卷积层均用于对低层语义特征图提取尺度感知信息特征,得到低层尺度感知信息特征。第一卷积层、第二卷积层和第三卷积层均用于对低层尺度感知信息特征进行维度变换,得到低层尺度语义特征图。第一Sigmoid函数变换层、第二Sigmoid函数变换层和第三Sigmoid函数变换层均用于对低层尺度语义特征图进行非线性变换,得到变换后的低层尺度语义特征图。第一按位相乘层、第二按位相乘层和第三按位相乘层均用于对变换后的低层尺度语义特征图和低层尺度感知信息特征进行按位相乘操作,得到按位相乘后的低层尺度语义特征图。第一融合层用于对按位相乘后的低层尺度语义特征图进行逐元素累加操作,得到低层多尺度语义特征图。
其中,第一两分支空间可分离卷积层包括第一分支和第二分支;第二两分支空间可分离卷积层包括第三分支和第四分支;第三两分支空间可分离卷积层包括第五分支和第六分支。
第一分支包括依次连接的卷积核尺寸为5*1的卷积层、卷积核尺寸为1*5的卷积层;第二分支包括依次连接的卷积核尺寸为1*5的卷积层、卷积核尺寸为5*1的卷积层。
第一分支中卷积核尺寸为5*1的卷积层与第二分支中卷积核尺寸为1*5的卷积层均与低层语义特征图提取层连接;第一分支中卷积核尺寸为1*5的卷积层与第二分支中卷积核尺寸为5*1的卷积层均与第一卷积层和第一按位相乘层连接。
第三分支包括依次连接的卷积核尺寸为7*1的卷积层、卷积核尺寸为1*7的卷积层;第四分支包括依次连接的卷积核尺寸为1*7的卷积层、卷积核尺寸为7*1的卷积层。
第三分支中卷积核尺寸为7*1的卷积层与第四分支中卷积核尺寸为1*7的卷积层均与低层语义特征图提取层连接;第三分支中卷积核尺寸为1*7的卷积层与第四分支中卷积核尺寸为7*1的卷积层均与第二卷积层和第二按位相乘层连接。
第五分支包括依次连接的卷积核尺寸为9*1的卷积层、卷积核尺寸为1*9的卷积层;第六分支包括依次连接的卷积核尺寸为1*9的卷积层、卷积核尺寸为9*1的卷积层。
第五分支中卷积核尺寸为9*1的卷积层与第六分支中卷积核尺寸为1*9的卷积层均与低层语义特征图提取层连接;第五分支中卷积核尺寸为1*9的卷积层与第六分支中卷积核尺寸为9*1的卷积层均与第三卷积层和第三按位相乘层连接。
第一分支中卷积核尺寸为5*1的卷积层和卷积核尺寸为1*5的卷积层,第二分支中卷积核尺寸为1*5的卷积层和卷积核尺寸为5*1的卷积层,第三分支中卷积核尺寸为7*1的卷积层和卷积核尺寸为1*7的卷积层,第四分支中卷积核尺寸为1*7的卷积层和卷积核尺寸为7*1的卷积层,第五分支中卷积核尺寸为9*1的卷积层和卷积核尺寸为1*9的卷积层以及第六分支中卷积核尺寸为1*9的卷积层和卷积核尺寸为9*1的卷积层均用于对低层语义特征图提取尺度感知信息特征,得到低层尺度感知信息特征。
利用第二尺度感知金字塔注意力层对中层语义特征图提取尺度感知信息特征,得到中层多尺度语义特征图。该第二尺度感知金字塔注意力层具体包括依次连接的第四两分支空间可分离卷积层、第四卷积层、第四Sigmoid函数变换层、第四按位相乘层,依次连接的第五两分支空间可分离卷积层、第五卷积层、第五Sigmoid函数变换层、第五按位相乘层,依次连接的第六两分支空间可分离卷积层、第六卷积层、第六Sigmoid函数变换层、第六按位相乘层,以及与第四按位相乘层、第五按位相乘层和第六按位相乘层均连接的第二融合层。依次连接的第四两分支空间可分离卷积层、第四卷积层、第四Sigmoid函数变换层、第四按位相乘层为一个子列(第一子列)。依次连接的第五两分支空间可分离卷积层、第五卷积层、第五Sigmoid函数变换层、第五按位相乘层为一个子列(第二子列)。依次连接的第六两分支空间可分离卷积层、第六卷积层、第六Sigmoid函数变换层、第六按位相乘层为一个子列(第三子列)。将中层语义特征图输入第二尺度感知金字塔注意力层的三个子列中,可以得到三个尺度的中层语义特征图。将三个尺度的中层语义特征图按元素累加,可以得到中层语义特征图对应的尺度感知信息特征。
其中,第四按位相乘层还与第四两分支空间可分离卷积层连接;第五按位相乘层还与第五两分支空间可分离卷积层连接;第六按位相乘层还与第六两分支空间可分离卷积层连接。
第四两分支空间可分离卷积层、第五两分支空间可分离卷积层和第六两分支空间可分离卷积层均与中层语义特征图提取层连接。
第四两分支空间可分离卷积层、第五两分支空间可分离卷积层和第六两分支空间可分离卷积层均用于对中层语义特征图提取尺度感知信息特征,得到中层尺度感知信息特征。第四卷积层、第五卷积层和第六卷积层均用于对中层尺度感知信息特征进行维度变换,得到中层尺度语义特征图。第四Sigmoid函数变换层、第五Sigmoid函数变换层和第六Sigmoid函数变换层均用于对中层尺度语义特征图进行非线性变换,得到变换后的中层尺度语义特征图。第四按位相乘层、第五按位相乘层和第六按位相乘层均用于对变换后的低层尺度语义特征图和中层尺度感知信息特征进行按位相乘操作,得到按位相乘后的中层尺度语义特征图。第二融合层用于对按位相乘后的中层尺度语义特征图进行逐元素累加操作,得到中层多尺度语义特征图。
其中,第四两分支空间可分离卷积层包括第七分支和第八分支;第五两分支空间可分离卷积层包括第九分支和第十分支;第六两分支空间可分离卷积层包括第十一分支和第十二分支。
第七分支包括依次连接的卷积核尺寸为5*1的卷积层、卷积核尺寸为1*5的卷积层;第八分支包括依次连接的卷积核尺寸为1*5的卷积层、卷积核尺寸为5*1的卷积层。
第七分支中卷积核尺寸为5*1的卷积层与第八分支中卷积核尺寸为1*5的卷积层均与中层语义特征图提取层连接;第七分支中卷积核尺寸为1*5的卷积层与第八分支中卷积核尺寸为5*1的卷积层均与第四卷积层和第四按位相乘层连接。
第九分支包括依次连接的卷积核尺寸为7*1的卷积层、卷积核尺寸为1*7的卷积层;第十分支包括依次连接的卷积核尺寸为1*7的卷积层、卷积核尺寸为7*1的卷积层。
第九分支中卷积核尺寸为7*1的卷积层与第十分支中卷积核尺寸为1*7的卷积层均与中层语义特征图提取层连接;第九分支中卷积核尺寸为1*7的卷积层与第十分支中卷积核尺寸为7*1的卷积层均与第五卷积层和第五按位相乘层连接。
第十一分支包括依次连接的卷积核尺寸为9*1的卷积层、卷积核尺寸为1*9的卷积层;第十二分支包括依次连接的卷积核尺寸为1*9的卷积层、卷积核尺寸为9*1的卷积层。
第十一分支中卷积核尺寸为9*1的卷积层与第十二分支中卷积核尺寸为1*9的卷积层均与中层语义特征图提取层连接;第十一分支中卷积核尺寸为1*9的卷积层与第十二分支中卷积核尺寸为9*1的卷积层均与第六卷积层和第六按位相乘层连接。
第七分支中卷积核尺寸为5*1的卷积层和卷积核尺寸为1*5的卷积层,第八分支中卷积核尺寸为1*5的卷积层和卷积核尺寸为5*1的卷积层,第九分支中卷积核尺寸为7*1的卷积层和卷积核尺寸为1*7的卷积层,第十分支中卷积核尺寸为1*7的卷积层和卷积核尺寸为7*1的卷积层,第十一分支中卷积核尺寸为9*1的卷积层和卷积核尺寸为1*9的卷积层以及第十二分支中卷积核尺寸为1*9的卷积层和卷积核尺寸为9*1的卷积层均用于对中层语义特征图提取尺度感知信息特征,得到中层尺度感知信息特征。
利用第三尺度感知金字塔注意力层对高层语义特征图提取尺度感知信息特征,得到高层多尺度语义特征图。该第三尺度感知金字塔注意力层具体包括依次连接的第七两分支空间可分离卷积层、第七卷积层、第七Sigmoid函数变换层、第七按位相乘层,依次连接的第八两分支空间可分离卷积层、第八卷积层、第八Sigmoid函数变换层、第八按位相乘层,依次连接的第九两分支空间可分离卷积层、第九卷积层、第九Sigmoid函数变换层、第九按位相乘层,以及与第七按位相乘层、第八按位相乘层和第九按位相乘层均连接的第三融合层。依次连接的第七两分支空间可分离卷积层、第七卷积层、第七Sigmoid函数变换层、第七按位相乘层为一个子列(第一子列)。依次连接的第八两分支空间可分离卷积层、第八卷积层、第八Sigmoid函数变换层、第八按位相乘层为一个子列(第二子列)。依次连接的第九两分支空间可分离卷积层、第九卷积层、第九Sigmoid函数变换层、第九按位相乘层为一个子列(第三子列)。将高层语义特征图输入第三尺度感知金字塔注意力层的三个子列中,可以得到三个尺度的高层语义特征图。将三个尺度的高层语义特征图按元素累加,可以得到高层语义特征图对应的尺度感知信息特征。
其中,第七按位相乘层还与第七两分支空间可分离卷积层连接;第八按位相乘层还与第八两分支空间可分离卷积层连接;第九按位相乘层还与第九两分支空间可分离卷积层连接。
第七两分支空间可分离卷积层、第八两分支空间可分离卷积层和第九两分支空间可分离卷积层均与高层语义特征图提取层连接。
第七两分支空间可分离卷积层、第八两分支空间可分离卷积层和第九两分支空间可分离卷积层均用于对高层语义特征图提取尺度感知信息特征,得到高层尺度感知信息特征。第七卷积层、所述第八卷积层和第九卷积层均用于对高层尺度感知信息特征进行维度变换,得到高层尺度语义特征图。第七Sigmoid函数变换层、第八Sigmoid函数变换层和第九Sigmoid函数变换层均用于对高层尺度语义特征图进行非线性变换,得到变换后的高层尺度语义特征图。第七按位相乘层、第八按位相乘层和第九按位相乘层均用于对变换后的高层尺度语义特征图和高层尺度感知信息特征进行按位相乘操作,得到按位相乘后的高层尺度语义特征图。第三融合层用于对按位相乘后的高层尺度语义特征图进行逐元素累加操作,得到高层多尺度语义特征图。
其中,第七两分支空间可分离卷积层包括第十三分支和第十四分支;第八两分支空间可分离卷积层包括第十五分支和第十六分支;第九两分支空间可分离卷积层包括第十七分支和第十八分支。
第十三分支包括依次连接的卷积核尺寸为5*1的卷积层、卷积核尺寸为1*5的卷积层;第十四分支包括依次连接的卷积核尺寸为1*5的卷积层、卷积核尺寸为5*1的卷积层。
第十三分支中卷积核尺寸为5*1的卷积层与第十四分支中卷积核尺寸为1*5的卷积层均与高层语义特征图提取层连接;第十三分支中卷积核尺寸为1*5的卷积层与第十四分支中卷积核尺寸为5*1的卷积层均与第七卷积层和第七按位相乘层连接。
第十五分支包括依次连接的卷积核尺寸为7*1的卷积层、卷积核尺寸为1*7的卷积层;第十六分支包括依次连接的卷积核尺寸为1*7的卷积层、卷积核尺寸为7*1的卷积层。
第十五分支中卷积核尺寸为7*1的卷积层与第十六分支中卷积核尺寸为1*7的卷积层均与高层语义特征图提取层连接;第十五分支中卷积核尺寸为1*7的卷积层与第十六分支中卷积核尺寸为7*1的卷积层均与第八卷积层和第八按位相乘层连接。
第十七分支包括依次连接的卷积核尺寸为9*1的卷积层、卷积核尺寸为1*9的卷积层;第十八分支包括依次连接的卷积核尺寸为1*9的卷积层、卷积核尺寸为9*1的卷积层。
第十七分支中卷积核尺寸为9*1的卷积层与第十八分支中卷积核尺寸为1*9的卷积层均与高层语义特征图提取层连接;第十七分支中卷积核尺寸为1*9的卷积层与第十八分支中卷积核尺寸为9*1的卷积层均与第九卷积层和第九按位相乘层连接。
第十三分支中卷积核尺寸为5*1的卷积层和卷积核尺寸为1*5的卷积层,第十四分支中卷积核尺寸为1*5的卷积层和卷积核尺寸为5*1的卷积层,第十五分支中卷积核尺寸为7*1的卷积层和卷积核尺寸为1*7的卷积层,第十六分支中卷积核尺寸为1*7的卷积层和卷积核尺寸为7*1的卷积层,第十七分支中卷积核尺寸为9*1的卷积层和卷积核尺寸为1*9的卷积层以及第十八分支中卷积核尺寸为1*9的卷积层和卷积核尺寸为9*1的卷积层均用于对高层语义特征图提取尺度感知信息特征,得到高层尺度感知信息特征。
第一尺度感知金字塔注意力层、第二尺度感知金字塔注意力层和第三尺度感知金字塔注意力层均包括3个不同卷积核尺寸的子列(依次为第一子列、第二子列和第三子列)和一个将三个子列结果进行逐元素累加的操作;每个子列依次包含一个两分支空间可分离卷积、一个按元素添加操作、一个卷积层和一个逐元素乘法操作。每个子列都可以感知不同尺度的信息。将特征输入第一子列的两分支空间可分离卷积,在第一分支依次经过卷积核尺寸为5*1和1*5的卷积层,得到卷积特征结果,在第二分支依次经过卷积核尺寸为1*5和5*1的卷积层,得到保持原始输入特征的有用特征;卷积层的通道数与输入特征的通道数保持一致。将卷积特征结果按元素添加到有用特征中,得到卷积核尺寸为5的空间特征。将空间特征输入卷积核尺寸为1*1的卷积层进行卷积操作(维度变换),生成的特征通道数为512,得到通道数为512的特征图,将结果(通道数为512的特征图)进行Sigmoid函数变换,得到权重系数。将空间特征按元素乘以权重系数。经过两分支空间可分离卷积的输出(通道数为512的特征图)与经过Sigmoid函数变换的输出(通道数为512的特征图输入Sigmoid函数变换层中得到的结果)进行按位相乘操作得到第一子列输出特征图。将特征输入第二子列的两分支空间可分离卷积,在第一分支依次经过卷积核尺寸为7*1和1*7的卷积层,得到卷积特征结果,在第二分支依次经过卷积核尺寸为1*7和7*1的卷积层,得到保持原始输入特征的有用特征;卷积层的通道数与输入特征的通道数保持一致。将卷积特征结果按元素添加到有用特征中,得到卷积核尺寸为7的空间特征。将空间特征输入卷积核尺寸为1*1的卷积层进行卷积操作(维度变换),生成的特征通道数为512,得到通道数为512的特征图,将结果(通道数为512的特征图)进行函数变换,得到权重系数。将空间特征按元素乘以权重系数。经过两分支空间可分离卷积的输出(通道数为512的特征图)与经过Sigmoid函数变换的输出(通道数为512的特征图输入Sigmoid函数变换层中得到的结果)进行按位相乘操作得到第二子列输出特征图。将特征输入第三子列的两分支空间可分离卷积,在第一分支依次经过卷积核尺寸为9*1和1*9的卷积层,得到卷积特征结果,在第二分支依次经过卷积核尺寸为1*9和9*1的卷积层,得到保持原始输入特征的有用特征;卷积层的通道数与输入特征的通道数保持一致。将卷积特征结果按元素添加到有用特征中,得到卷积核尺寸为9的空间特征。将空间特征输入卷积核尺寸为1*1的卷积层进行卷积操作,生成的特征通道数为512,得到通道数为512的特征图,将结果(通道数为512的特征图)进行Sigmoid函数变换,得到权重系数。将空间特征按元素乘以权重系数。经过两分支空间可分离卷积的输出(通道数为512的特征图)与经过Sigmoid函数变换的输出(通道数为512的特征图输入Sigmoid函数变换层中得到的结果)进行按位相乘操作得到第三子列输出特征图。第一尺度感知金字塔注意力层、第二尺度感知金字塔注意力层和第三尺度感知金字塔注意力层均通过不同卷积尺寸的空间可分离卷积提取不同尺度的特征,对经过1*1卷积和Sigmoid函数变换层处理后的三个子列特征进行按位加操作得到多尺度语义特征图,即多尺度上下文信息特征图。每个元素的Sigmoid变换计算公式(Sigmoid函数的表达式)如下:式中,z是操作结果的每个元素,此处是指经过1*1卷积处理后的特征图,即通道数为512的特征图,f(z)为每个元素Sigmoid变换后的结果,每个元素Sigmoid变换后得到的结果均为一个图。
利用特征融合层对低层多尺度语义特征图、中层多尺度语义特征图和高层多尺度语义特征图这三种不同层次的多尺度语义特征图进行融合,得到多层次多尺度的融合特征图(得到多层次多尺度语义特征图)。参见图2中多层次多尺度特征融合部分中右半部分,该特征融合层具体包括依次连接的第一上采样层、第四融合层、第二上采样层、第五融合层和级联层。
其中,第一上采样层还与第三尺度感知金字塔注意力层连接;第四融合层还与第二尺度感知金字塔注意力层连接;第五融合层还与第一尺度感知金字塔注意力层连接;级联层还与低层语义特征图提取层和人群密度图估计层连接。
第一上采样层用于对高层多尺度语义特征图(高层语义特征图对应的尺度感知信息特征)使用双线性插值的方法进行上采样操作,得到上采样后的高层多尺度语义特征图(第一特征图)。第四融合层用于对上采样后的高层多尺度语义特征图和中层多尺度语义特征图(中层语义特征图对应的尺度感知信息特征)进行融合,即按元素添加操作,得到融合高中两层的多尺度感知信息的特征。第二上采样层用于对融合高中两层的多尺度感知信息的特征(融合高中两层特征的尺度感知信息特征)使用双线性插值的方法进行上采样操作,得到上采样后的融合高中两层的多尺度感知信息的特征(第二特征图)。第五融合层用于对上采样后的融合高中两层的多尺度感知信息的特征和低层多尺度语义特征图(低层语义特征图对应的尺度感知信息特征)进行融合,即按元素添加操作,得到融合高中低三层的多尺度感知信息的特征。级联层用于对融合高中低三层的多尺度感知信息的特征,即融合后得到的特征图和低层语义特征图进行级联操作,即连接操作,指特征图在通道维度上进行直接相连,得到多层次多尺度的融合特征图。通过与低层语义特征图进行级联操作,可以保留一些包含更多细节的特征,进一步增强最终融合特征图的尺度感知能力。特征融合阶段包括将经过第三尺度感知金字塔注意力层处理后的高层语义特征图进行上采样操作,其中上采样操作使用双线性插值的方法,将上采样操作后的结果与经第二尺度感知金字塔注意力层处理后的中层语义特征图进行按位相加操作,得到中高层多尺度语义特征图,将所述的中高层多尺度特征图使用双线性插值的方法进行上采样操作,结果与经第一尺度感知金字塔注意力层处理后的低层语义特征进行按位相加操作,得到的结果与低层语义特征图进行连接操作得到多层次多尺度语义特征图。
利用人群密度图估计层对多层次多尺度的融合特征图(多层次多尺度语义特征图)进行人群密度估计,得到估计的人群密度图。参见图2中后端部分,该人群密度图估计层(后端网络)包括六个卷积层,每个卷积层生成的特征图的通道数由输入至输出方向依次为512、256、128、64、32和16;六个卷积层的卷积核尺寸均为3*3。
具体的,步骤103之后还包括:使用欧氏距离函数作为深度神经网络模型的损失函数。根据深度神经网络模型的损失函数确定深度神经网络模型的误差。将误差反向传播,调整深度神经网络模型的参数,对深度神经网络模型进行优化。具体为:使用人群密度估计图和真实人群密度图的欧氏距离作为损失函数LD(Θ),N为训练样本数量,FD(Xi;Θ)为生成的人群密度估计图,Di为人群密度图x,对每一张单幅图像的人群密度估计图和人群密度图x求绝对差值,并对所有图像的绝对差值的总和求平均,得到损失函数的结果,计算公式如下:在每次得到待估计图像对应的人群密度估计图和人数估计结果(人群密度估计结果)之后,根据深度神经网络模型的损失函数确定深度神经网络模型的误差,将所述误差反向传播,调整所述深度神经网络模型的参数,对所述深度神经网络模型进行优化。待学习参数Θ采用随机梯度下降优化算法在每一次优化迭代中更新,直到加权和结果L(Θ)收敛到一个较小的值,保存参数及训练后的模型。使用训练后的深度神经网络模型对任意输入的图像进行人群计数(人群密度估计),将任意单张图像直接输入到训练后的模型中,即可得到对应的人群密度图和人群密度估计结果,如图3所示,图3为采用本发明基于密度估计的人群计数方法进行人群计数的示意图。
本发明公开的基于密度估计的人群计数方法,通过设置三个子列,每个子列包含两分支空间可分离卷积,即5*1+1*5和1*5+5*1并联,7*1+1*7和1*7+7*1并联,9*1+1*9和1*9+9*1并联,实现从原始人群场景中提取丰富的尺度感知特征,而非通过单独子列。其中,5*1+1*5相当于5*5的卷积,1*5+5*1相当于1*1的卷积,可以看出两分支空间可分离卷积的两分支特征感受野是不同的,其他子列类似,总的来说,每个子列分别相当于5*5和1*1并联、7*7和1*1并联、9*9和1*1并联,通过三个子列得到的特征对应的感受野也是不相同的,因此包含了丰富的多尺度感知特征。用两分支空间可分离卷积代替单纯的卷积,即用5*1和1*5及1*5和5*1的卷积,代替5*5的卷积,用7*1和1*7及1*7和7*1的卷积,代替7*7的卷积,用9*1和1*9及1*9和9*1的卷积,代替9*9的卷积,减少了参数个数和计算量,可以从原始人群场景中提取丰富的尺度感知特征,可以得到更多的信息,对尺度变化问题具有更强的鲁棒性,能有效抑制人群密度估计任务中图像多尺度导致人群密度估计准确率下降的缺陷。本发明有效解决了拥挤场景中常见的尺度变化问题,具有较高的准确性和较好的鲁棒性,提高了人群密度估计(人群计数)的准确率。
图4为本发明基于密度估计的人群计数系统实施例的结构图。参见图4,该基于密度估计的人群计数系统包括:
待估计人群图像获取模块401,用于获取待估计人群图像。
人群密度图估计模块402,用于将待估计人群图像输入优化后的深度神经网络模型中,得到估计的人群密度图;深度神经网络模型包括依次连接的低层语义特征图提取层、第一尺度感知金字塔注意力层,依次连接的中层语义特征图提取层、第二尺度感知金字塔注意力层,依次连接的高层语义特征图提取层、第三尺度感知金字塔注意力层,以及与第一尺度感知金字塔注意力层、第二尺度感知金字塔注意力层和第三尺度感知金字塔注意力层均连接的特征融合层,与特征融合层连接的人群密度图估计层;优化后的深度神经网络模型采用不同人群图像以及与图像对应的真实人群密度图对深度神经网络模型进行训练和优化得到。
人群中人数值估计模块403,用于将估计的人群密度图进行逐像素相加,得到人群中人数的估计值。
低层语义特征图提取层用于对待估计人群图像提取低层语义特征图。
中层语义特征图提取层用于对低层语义特征图提取中层语义特征图。
高层语义特征图提取层用于对中层语义特征图提取高层语义特征图。
第一尺度感知金字塔注意力层用于对低层语义特征图提取尺度感知信息特征,得到低层多尺度语义特征图。
第二尺度感知金字塔注意力层用于对中层语义特征图提取尺度感知信息特征,得到中层多尺度语义特征图。
第三尺度感知金字塔注意力层用于对高层语义特征图提取尺度感知信息特征,得到高层多尺度语义特征图。
特征融合层用于对低层多尺度语义特征图、中层多尺度语义特征图和高层多尺度语义特征图进行融合,得到多层次多尺度的融合特征图。
人群密度图估计层用于对多层次多尺度的融合特征图进行人群密度估计,得到估计的人群密度图。
本发明公开了一种基于卷积神经网络的人数统计方法,提出融合低层、中层和高层特征以解决图像在特征提取过程中低层语义信息丢失导致人数统计方法准确率降低的问题,在不增加网络层数和参数量的基础上有效提高了人数统计方法的准确率。提出使用空间可分离卷积提取多尺度的特征进行融合以解决多尺度导致人数统计方法准确率降低的问题,并且空间可分离卷积极大的减少了网络的参数数量,减少了网络参数的冗余,不仅对人数统计任务具有显著意义,也为其他视觉任务多尺度信息的抽取方式提供了参考。
本发明的优点是:(1)通过多层次特征融合网络来降低图像在特征提取过程中低层语义信息丢失导致人数统计准确率下降的影响。(2)通过尺度感知金字塔注意力层,可以提取不同尺度的信息,空间可分离卷积的使用减少网络参数的冗余,解决了尺度导致人数统计方法准确率降低的问题。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (9)
1.一种基于密度估计的人群计数方法,其特征在于,所述方法包括:
获取待估计人群图像;
将所述待估计人群图像输入优化后的深度神经网络模型中,得到估计的人群密度图;所述深度神经网络模型包括依次连接的低层语义特征图提取层、第一尺度感知金字塔注意力层,依次连接的中层语义特征图提取层、第二尺度感知金字塔注意力层,依次连接的高层语义特征图提取层、第三尺度感知金字塔注意力层,以及与所述第一尺度感知金字塔注意力层、第二尺度感知金字塔注意力层和所述第三尺度感知金字塔注意力层均连接的特征融合层,与所述特征融合层连接的人群密度图估计层;所述优化后的深度神经网络模型采用不同人群图像以及与所述图像对应的真实人群密度图对所述深度神经网络模型进行训练和优化得到;
将所述估计的人群密度图进行逐像素相加,得到人群中人数的估计值;
将所述待估计人群图像输入优化后的深度神经网络模型中,得到估计的人群密度图,具体包括:
利用所述低层语义特征图提取层对所述待估计人群图像提取低层语义特征图;
利用所述中层语义特征图提取层对所述低层语义特征图提取中层语义特征图;
利用所述高层语义特征图提取层对所述中层语义特征图提取高层语义特征图;
利用所述第一尺度感知金字塔注意力层对所述低层语义特征图提取尺度感知信息特征,得到低层多尺度语义特征图;
利用所述第二尺度感知金字塔注意力层对所述中层语义特征图提取尺度感知信息特征,得到中层多尺度语义特征图;
利用所述第三尺度感知金字塔注意力层对所述高层语义特征图提取尺度感知信息特征,得到高层多尺度语义特征图;
利用所述特征融合层对所述低层多尺度语义特征图、所述中层多尺度语义特征图和所述高层多尺度语义特征图进行融合,得到多层次多尺度的融合特征图;
利用所述人群密度图估计层对所述多层次多尺度的融合特征图进行人群密度估计,得到估计的人群密度图。
2.根据权利要求1所述的基于密度估计的人群计数方法,其特征在于,所述第一尺度感知金字塔注意力层具体包括依次连接的第一两分支空间可分离卷积层、第一卷积层、第一Sigmoid函数变换层、第一按位相乘层,依次连接的第二两分支空间可分离卷积层、第二卷积层、第二Sigmoid函数变换层、第二按位相乘层,依次连接的第三两分支空间可分离卷积层、第三卷积层、第三Sigmoid函数变换层、第三按位相乘层,以及与所述第一按位相乘层、所述第二按位相乘层和所述第三按位相乘层均连接的第一融合层;所述第一按位相乘层还与所述第一两分支空间可分离卷积层连接;所述第二按位相乘层还与所述第二两分支空间可分离卷积层连接;所述第三按位相乘层还与所述第三两分支空间可分离卷积层连接;
所述第一两分支空间可分离卷积层、所述第二两分支空间可分离卷积层和所述第三两分支空间可分离卷积层均与所述低层语义特征图提取层连接;所述第一两分支空间可分离卷积层、所述第二两分支空间可分离卷积层和所述第三两分支空间可分离卷积层均用于对所述低层语义特征图提取尺度感知信息特征,得到低层尺度感知信息特征;
所述第一卷积层、所述第二卷积层和所述第三卷积层均用于对所述低层尺度感知信息特征进行维度变换,得到低层尺度语义特征图;
所述第一Sigmoid函数变换层、所述第二Sigmoid函数变换层和所述第三Sigmoid函数变换层均用于对所述低层尺度语义特征图进行非线性变换,得到变换后的低层尺度语义特征图;
所述第一按位相乘层、所述第二按位相乘层和所述第三按位相乘层均用于对所述变换后的低层尺度语义特征图和所述低层尺度感知信息特征进行按位相乘操作,得到按位相乘后的低层尺度语义特征图;
所述第一融合层用于对所述按位相乘后的低层尺度语义特征图进行逐元素累加操作,得到低层多尺度语义特征图。
3.根据权利要求2所述的基于密度估计的人群计数方法,其特征在于,所述第一两分支空间可分离卷积层包括第一分支和第二分支;所述第二两分支空间可分离卷积层包括第三分支和第四分支;所述第三两分支空间可分离卷积层包括第五分支和第六分支;
所述第一分支包括依次连接的卷积核尺寸为5*1的卷积层、卷积核尺寸为1*5的卷积层;所述第二分支包括依次连接的卷积核尺寸为1*5的卷积层、卷积核尺寸为5*1的卷积层;
所述第一分支中卷积核尺寸为5*1的卷积层与所述第二分支中卷积核尺寸为1*5的卷积层均与所述低层语义特征图提取层连接;所述第一分支中卷积核尺寸为1*5的卷积层与所述第二分支中卷积核尺寸为5*1的卷积层均与所述第一卷积层和所述第一按位相乘层连接;
所述第三分支包括依次连接的卷积核尺寸为7*1的卷积层、卷积核尺寸为1*7的卷积层;所述第四分支包括依次连接的卷积核尺寸为1*7的卷积层、卷积核尺寸为7*1的卷积层;
所述第三分支中卷积核尺寸为7*1的卷积层与所述第四分支中卷积核尺寸为1*7的卷积层均与所述低层语义特征图提取层连接;所述第三分支中卷积核尺寸为1*7的卷积层与所述第四分支中卷积核尺寸为7*1的卷积层均与所述第二卷积层和所述第二按位相乘层连接;
所述第五分支包括依次连接的卷积核尺寸为9*1的卷积层、卷积核尺寸为1*9的卷积层;所述第六分支包括依次连接的卷积核尺寸为1*9的卷积层、卷积核尺寸为9*1的卷积层;
所述第五分支中卷积核尺寸为9*1的卷积层与所述第六分支中卷积核尺寸为1*9的卷积层均与所述低层语义特征图提取层连接;所述第五分支中卷积核尺寸为1*9的卷积层与所述第六分支中卷积核尺寸为9*1的卷积层均与所述第三卷积层和所述第三按位相乘层连接;
所述第一分支中卷积核尺寸为5*1的卷积层和卷积核尺寸为1*5的卷积层,所述第二分支中卷积核尺寸为1*5的卷积层和卷积核尺寸为5*1的卷积层,所述第三分支中卷积核尺寸为7*1的卷积层和卷积核尺寸为1*7的卷积层,所述第四分支中卷积核尺寸为1*7的卷积层和卷积核尺寸为7*1的卷积层,所述第五分支中卷积核尺寸为9*1的卷积层和卷积核尺寸为1*9的卷积层以及所述第六分支中卷积核尺寸为1*9的卷积层和卷积核尺寸为9*1的卷积层均用于对所述低层语义特征图提取尺度感知信息特征,得到低层尺度感知信息特征。
4.根据权利要求1所述的基于密度估计的人群计数方法,其特征在于,所述第二尺度感知金字塔注意力层具体包括依次连接的第四两分支空间可分离卷积层、第四卷积层、第四Sigmoid函数变换层、第四按位相乘层,依次连接的第五两分支空间可分离卷积层、第五卷积层、第五Sigmoid函数变换层、第五按位相乘层,依次连接的第六两分支空间可分离卷积层、第六卷积层、第六Sigmoid函数变换层、第六按位相乘层,以及与所述第四按位相乘层、所述第五按位相乘层和所述第六按位相乘层均连接的第二融合层;所述第四按位相乘层还与所述第四两分支空间可分离卷积层连接;所述第五按位相乘层还与所述第五两分支空间可分离卷积层连接;所述第六按位相乘层还与所述第六两分支空间可分离卷积层连接;
所述第四两分支空间可分离卷积层、所述第五两分支空间可分离卷积层和所述第六两分支空间可分离卷积层均与所述中层语义特征图提取层连接;所述第四两分支空间可分离卷积层、所述第五两分支空间可分离卷积层和所述第六两分支空间可分离卷积层均用于对所述中层语义特征图提取尺度感知信息特征,得到中层尺度感知信息特征;
所述第四卷积层、所述第五卷积层和所述第六卷积层均用于对所述中层尺度感知信息特征进行维度变换,得到中层尺度语义特征图;
所述第四Sigmoid函数变换层、所述第五Sigmoid函数变换层和所述第六Sigmoid函数变换层均用于对所述中层尺度语义特征图进行非线性变换,得到变换后的中层尺度语义特征图;
所述第四按位相乘层、所述第五按位相乘层和所述第六按位相乘层均用于对所述变换后的低层尺度语义特征图和所述中层尺度感知信息特征进行按位相乘操作,得到按位相乘后的中层尺度语义特征图;
所述第二融合层用于对所述按位相乘后的中层尺度语义特征图进行逐元素累加操作,得到中层多尺度语义特征图。
5.根据权利要求4所述的基于密度估计的人群计数方法,其特征在于,所述第四两分支空间可分离卷积层包括第七分支和第八分支;所述第五两分支空间可分离卷积层包括第九分支和第十分支;所述第六两分支空间可分离卷积层包括第十一分支和第十二分支;
所述第七分支包括依次连接的卷积核尺寸为5*1的卷积层、卷积核尺寸为1*5的卷积层;所述第八分支包括依次连接的卷积核尺寸为1*5的卷积层、卷积核尺寸为5*1的卷积层;
所述第七分支中卷积核尺寸为5*1的卷积层与所述第八分支中卷积核尺寸为1*5的卷积层均与所述中层语义特征图提取层连接;所述第七分支中卷积核尺寸为1*5的卷积层与所述第八分支中卷积核尺寸为5*1的卷积层均与所述第四卷积层和所述第四按位相乘层连接;
所述第九分支包括依次连接的卷积核尺寸为7*1的卷积层、卷积核尺寸为1*7的卷积层;所述第十分支包括依次连接的卷积核尺寸为1*7的卷积层、卷积核尺寸为7*1的卷积层;
所述第九分支中卷积核尺寸为7*1的卷积层与所述第十分支中卷积核尺寸为1*7的卷积层均与所述中层语义特征图提取层连接;所述第九分支中卷积核尺寸为1*7的卷积层与所述第十分支中卷积核尺寸为7*1的卷积层均与所述第五卷积层和所述第五按位相乘层连接;
所述第十一分支包括依次连接的卷积核尺寸为9*1的卷积层、卷积核尺寸为1*9的卷积层;所述第十二分支包括依次连接的卷积核尺寸为1*9的卷积层、卷积核尺寸为9*1的卷积层;
所述第十一分支中卷积核尺寸为9*1的卷积层与所述第十二分支中卷积核尺寸为1*9的卷积层均与所述中层语义特征图提取层连接;所述第十一分支中卷积核尺寸为1*9的卷积层与所述第十二分支中卷积核尺寸为9*1的卷积层均与所述第六卷积层和所述第六按位相乘层连接;
所述第七分支中卷积核尺寸为5*1的卷积层和卷积核尺寸为1*5的卷积层,所述第八分支中卷积核尺寸为1*5的卷积层和卷积核尺寸为5*1的卷积层,所述第九分支中卷积核尺寸为7*1的卷积层和卷积核尺寸为1*7的卷积层,所述第十分支中卷积核尺寸为1*7的卷积层和卷积核尺寸为7*1的卷积层,所述第十一分支中卷积核尺寸为9*1的卷积层和卷积核尺寸为1*9的卷积层以及所述第十二分支中卷积核尺寸为1*9的卷积层和卷积核尺寸为9*1的卷积层均用于对所述中层语义特征图提取尺度感知信息特征,得到中层尺度感知信息特征。
6.根据权利要求1所述的基于密度估计的人群计数方法,其特征在于,所述第三尺度感知金字塔注意力层具体包括依次连接的第七两分支空间可分离卷积层、第七卷积层、第七Sigmoid函数变换层、第七按位相乘层,依次连接的第八两分支空间可分离卷积层、第八卷积层、第八Sigmoid函数变换层、第八按位相乘层,依次连接的第九两分支空间可分离卷积层、第九卷积层、第九Sigmoid函数变换层、第九按位相乘层,以及与所述第七按位相乘层、所述第八按位相乘层和所述第九按位相乘层均连接的第三融合层;所述第七按位相乘层还与所述第七两分支空间可分离卷积层连接;所述第八按位相乘层还与所述第八两分支空间可分离卷积层连接;所述第九按位相乘层还与所述第九两分支空间可分离卷积层连接;
所述第七两分支空间可分离卷积层、所述第八两分支空间可分离卷积层和所述第九两分支空间可分离卷积层均与所述高层语义特征图提取层连接;所述第七两分支空间可分离卷积层、所述第八两分支空间可分离卷积层和所述第九两分支空间可分离卷积层均用于对所述高层语义特征图提取尺度感知信息特征,得到高层尺度感知信息特征;
所述第七卷积层、所述第八卷积层和所述第九卷积层均用于对所述高层尺度感知信息特征进行维度变换,得到高层尺度语义特征图;
所述第七Sigmoid函数变换层、所述第八Sigmoid函数变换层和所述第九Sigmoid函数变换层均用于对所述高层尺度语义特征图进行非线性变换,得到变换后的高层尺度语义特征图;
所述第七按位相乘层、所述第八按位相乘层和所述第九按位相乘层均用于对所述变换后的高层尺度语义特征图和所述高层尺度感知信息特征进行按位相乘操作,得到按位相乘后的高层尺度语义特征图;
所述第三融合层用于对所述按位相乘后的高层尺度语义特征图进行逐元素累加操作,得到高层多尺度语义特征图。
7.根据权利要求6所述的基于密度估计的人群计数方法,其特征在于,所述第七两分支空间可分离卷积层包括第十三分支和第十四分支;所述第八两分支空间可分离卷积层包括第十五分支和第十六分支;所述第九两分支空间可分离卷积层包括第十七分支和第十八分支;
所述第十三分支包括依次连接的卷积核尺寸为5*1的卷积层、卷积核尺寸为1*5的卷积层;所述第十四分支包括依次连接的卷积核尺寸为1*5的卷积层、卷积核尺寸为5*1的卷积层;
所述第十三分支中卷积核尺寸为5*1的卷积层与所述第十四分支中卷积核尺寸为1*5的卷积层均与所述高层语义特征图提取层连接;所述第十三分支中卷积核尺寸为1*5的卷积层与所述第十四分支中卷积核尺寸为5*1的卷积层均与所述第七卷积层和所述第七按位相乘层连接;
所述第十五分支包括依次连接的卷积核尺寸为7*1的卷积层、卷积核尺寸为1*7的卷积层;所述第十六分支包括依次连接的卷积核尺寸为1*7的卷积层、卷积核尺寸为7*1的卷积层;
所述第十五分支中卷积核尺寸为7*1的卷积层与所述第十六分支中卷积核尺寸为1*7的卷积层均与所述高层语义特征图提取层连接;所述第十五分支中卷积核尺寸为1*7的卷积层与所述第十六分支中卷积核尺寸为7*1的卷积层均与所述第八卷积层和所述第八按位相乘层连接;
所述第十七分支包括依次连接的卷积核尺寸为9*1的卷积层、卷积核尺寸为1*9的卷积层;所述第十八分支包括依次连接的卷积核尺寸为1*9的卷积层、卷积核尺寸为9*1的卷积层;
所述第十七分支中卷积核尺寸为9*1的卷积层与所述第十八分支中卷积核尺寸为1*9的卷积层均与所述高层语义特征图提取层连接;所述第十七分支中卷积核尺寸为1*9的卷积层与所述第十八分支中卷积核尺寸为9*1的卷积层均与所述第九卷积层和所述第九按位相乘层连接;
所述第十三分支中卷积核尺寸为5*1的卷积层和卷积核尺寸为1*5的卷积层,所述第十四分支中卷积核尺寸为1*5的卷积层和卷积核尺寸为5*1的卷积层,所述第十五分支中卷积核尺寸为7*1的卷积层和卷积核尺寸为1*7的卷积层,所述第十六分支中卷积核尺寸为1*7的卷积层和卷积核尺寸为7*1的卷积层,所述第十七分支中卷积核尺寸为9*1的卷积层和卷积核尺寸为1*9的卷积层以及所述第十八分支中卷积核尺寸为1*9的卷积层和卷积核尺寸为9*1的卷积层均用于对所述高层语义特征图提取尺度感知信息特征,得到高层尺度感知信息特征。
8.根据权利要求1所述的基于密度估计的人群计数方法,其特征在于,所述特征融合层具体包括依次连接的第一上采样层、第四融合层、第二上采样层、第五融合层和级联层;
所述第一上采样层还与所述第三尺度感知金字塔注意力层连接;所述第四融合层还与所述第二尺度感知金字塔注意力层连接;所述第五融合层还与所述第一尺度感知金字塔注意力层连接;所述级联层还与所述低层语义特征图提取层和所述人群密度图估计层连接;
所述第一上采样层用于对所述高层多尺度语义特征图进行上采样,得到上采样后的高层多尺度语义特征图;
所述第四融合层用于对所述上采样后的高层多尺度语义特征图和所述中层多尺度语义特征图进行融合,得到融合高中两层的多尺度感知信息的特征;
所述第二上采样层用于对所述融合高中两层的多尺度感知信息的特征进行上采样,得到上采样后的融合高中两层的多尺度感知信息的特征;
所述第五融合层用于对所述上采样后的融合高中两层的多尺度感知信息的特征和所述低层多尺度语义特征图进行融合,得到融合高中低三层多尺度感知信息的特征;
所述级联层用于对所述融合高中低三层多尺度感知信息的特征和所述低层语义特征图进行级联操作,得到多层次多尺度的融合特征图。
9.一种基于密度估计的人群计数系统,其特征在于,所述系统包括:
待估计人群图像获取模块,用于获取待估计人群图像;
人群密度图估计模块,用于将所述待估计人群图像输入优化后的深度神经网络模型中,得到估计的人群密度图;所述深度神经网络模型包括依次连接的低层语义特征图提取层、第一尺度感知金字塔注意力层,依次连接的中层语义特征图提取层、第二尺度感知金字塔注意力层,依次连接的高层语义特征图提取层、第三尺度感知金字塔注意力层,以及与所述第一尺度感知金字塔注意力层、第二尺度感知金字塔注意力层和所述第三尺度感知金字塔注意力层均连接的特征融合层,与所述特征融合层连接的人群密度图估计层;所述优化后的深度神经网络模型采用不同人群图像以及与所述图像对应的真实人群密度图对所述深度神经网络模型进行训练和优化得到;
人群中人数值估计模块,用于将所述估计的人群密度图进行逐像素相加,得到人群中人数的估计值;
所述低层语义特征图提取层用于对所述待估计人群图像提取低层语义特征图;
所述中层语义特征图提取层用于对所述低层语义特征图提取中层语义特征图;
所述高层语义特征图提取层用于对所述中层语义特征图提取高层语义特征图;
所述第一尺度感知金字塔注意力层用于对所述低层语义特征图提取尺度感知信息特征,得到低层多尺度语义特征图;
所述第二尺度感知金字塔注意力层用于对所述中层语义特征图提取尺度感知信息特征,得到中层多尺度语义特征图;
所述第三尺度感知金字塔注意力层用于对所述高层语义特征图提取尺度感知信息特征,得到高层多尺度语义特征图;
所述特征融合层用于对所述低层多尺度语义特征图、所述中层多尺度语义特征图和所述高层多尺度语义特征图进行融合,得到多层次多尺度的融合特征图;
所述人群密度图估计层用于对所述多层次多尺度的融合特征图进行人群密度估计,得到估计的人群密度图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110865293.XA CN113538402B (zh) | 2021-07-29 | 2021-07-29 | 一种基于密度估计的人群计数方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110865293.XA CN113538402B (zh) | 2021-07-29 | 2021-07-29 | 一种基于密度估计的人群计数方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113538402A true CN113538402A (zh) | 2021-10-22 |
CN113538402B CN113538402B (zh) | 2022-06-07 |
Family
ID=78089664
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110865293.XA Active CN113538402B (zh) | 2021-07-29 | 2021-07-29 | 一种基于密度估计的人群计数方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113538402B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114399728A (zh) * | 2021-12-17 | 2022-04-26 | 燕山大学 | 一种雾天场景人群计数方法 |
CN116071374A (zh) * | 2023-02-28 | 2023-05-05 | 华中科技大学 | 一种车道线实例分割方法及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188685A (zh) * | 2019-05-30 | 2019-08-30 | 燕山大学 | 一种基于双注意力多尺度级联网络的目标计数方法及系统 |
CN110705340A (zh) * | 2019-08-12 | 2020-01-17 | 广东石油化工学院 | 一种基于注意力神经网络场的人群计数方法 |
CN110765833A (zh) * | 2019-08-19 | 2020-02-07 | 中云智慧(北京)科技有限公司 | 一种基于深度学习的人群密度估计方法 |
CN111523449A (zh) * | 2020-04-22 | 2020-08-11 | 山东师范大学 | 基于金字塔注意力网络的人群计数方法及系统 |
CN111753671A (zh) * | 2020-06-02 | 2020-10-09 | 华东师范大学 | 一种现实场景的人群计数方法 |
CN112132023A (zh) * | 2020-09-22 | 2020-12-25 | 上海应用技术大学 | 基于多尺度上下文增强网络的人群计数方法 |
CN112597985A (zh) * | 2021-03-04 | 2021-04-02 | 成都西交智汇大数据科技有限公司 | 一种基于多尺度特征融合的人群计数方法 |
CN112784685A (zh) * | 2020-12-28 | 2021-05-11 | 山东师范大学 | 基于多尺度引导注意力机制网络的人群计数方法及系统 |
CN112801063A (zh) * | 2021-04-12 | 2021-05-14 | 广东众聚人工智能科技有限公司 | 神经网络系统和基于神经网络系统的图像人群计数方法 |
CN113011329A (zh) * | 2021-03-19 | 2021-06-22 | 陕西科技大学 | 一种基于多尺度特征金字塔网络及密集人群计数方法 |
-
2021
- 2021-07-29 CN CN202110865293.XA patent/CN113538402B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188685A (zh) * | 2019-05-30 | 2019-08-30 | 燕山大学 | 一种基于双注意力多尺度级联网络的目标计数方法及系统 |
CN110705340A (zh) * | 2019-08-12 | 2020-01-17 | 广东石油化工学院 | 一种基于注意力神经网络场的人群计数方法 |
CN110765833A (zh) * | 2019-08-19 | 2020-02-07 | 中云智慧(北京)科技有限公司 | 一种基于深度学习的人群密度估计方法 |
CN111523449A (zh) * | 2020-04-22 | 2020-08-11 | 山东师范大学 | 基于金字塔注意力网络的人群计数方法及系统 |
CN111753671A (zh) * | 2020-06-02 | 2020-10-09 | 华东师范大学 | 一种现实场景的人群计数方法 |
CN112132023A (zh) * | 2020-09-22 | 2020-12-25 | 上海应用技术大学 | 基于多尺度上下文增强网络的人群计数方法 |
CN112784685A (zh) * | 2020-12-28 | 2021-05-11 | 山东师范大学 | 基于多尺度引导注意力机制网络的人群计数方法及系统 |
CN112597985A (zh) * | 2021-03-04 | 2021-04-02 | 成都西交智汇大数据科技有限公司 | 一种基于多尺度特征融合的人群计数方法 |
CN113011329A (zh) * | 2021-03-19 | 2021-06-22 | 陕西科技大学 | 一种基于多尺度特征金字塔网络及密集人群计数方法 |
CN112801063A (zh) * | 2021-04-12 | 2021-05-14 | 广东众聚人工智能科技有限公司 | 神经网络系统和基于神经网络系统的图像人群计数方法 |
Non-Patent Citations (6)
Title |
---|
GUANGYU REN ET AL.: "Salient Object Detection Combining a Self-attention Module and a Feature Pyramid Network", 《ARXIV:2004.14552V1》 * |
GUANGYU REN ET AL.: "Salient Object Detection Combining a Self-attention Module and a Feature Pyramid Network", 《ARXIV:2004.14552V1》, 30 April 2020 (2020-04-30), pages 3 * |
ZHIKANG ZOU ET AL.: "Crowd Counting via Hierarchical Scale Recalibration Network", 《ARXIV:20003.03545V1》 * |
ZHIKANG ZOU ET AL.: "Crowd Counting via Hierarchical Scale Recalibration Network", 《ARXIV:20003.03545V1》, 7 March 2020 (2020-03-07), pages 3 * |
马皓 等: "基于特征金字塔网络的人群计数算法", 《计算机工程》 * |
马皓 等: "基于特征金字塔网络的人群计数算法", 《计算机工程》, vol. 45, no. 7, 31 July 2019 (2019-07-31), pages 1 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114399728A (zh) * | 2021-12-17 | 2022-04-26 | 燕山大学 | 一种雾天场景人群计数方法 |
CN114399728B (zh) * | 2021-12-17 | 2023-12-05 | 燕山大学 | 一种雾天场景人群计数方法 |
CN116071374A (zh) * | 2023-02-28 | 2023-05-05 | 华中科技大学 | 一种车道线实例分割方法及系统 |
CN116071374B (zh) * | 2023-02-28 | 2023-09-12 | 华中科技大学 | 一种车道线实例分割方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113538402B (zh) | 2022-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110111366B (zh) | 一种基于多级损失量的端到端光流估计方法 | |
CN109509152B (zh) | 一种基于特征融合的生成对抗网络的图像超分辨率重建方法 | |
CN112949565B (zh) | 基于注意力机制的单样本部分遮挡人脸识别方法及系统 | |
CN110378844B (zh) | 基于循环多尺度生成对抗网络的图像盲去运动模糊方法 | |
CN108171701B (zh) | 基于u网络和对抗学习的显著性检测方法 | |
CN109523470B (zh) | 一种深度图像超分辨率重建方法及系统 | |
CN111445418A (zh) | 图像去雾处理方法、装置及计算机设备 | |
CN111582483A (zh) | 基于空间和通道联合注意力机制的无监督学习光流估计方法 | |
CN111523546A (zh) | 图像语义分割方法、系统及计算机存储介质 | |
CN113538402B (zh) | 一种基于密度估计的人群计数方法及系统 | |
CN110060286B (zh) | 一种单目深度估计方法 | |
CN101877143A (zh) | 一种二维图像组的三维场景重建方法 | |
CN113554032B (zh) | 基于高度感知的多路并行网络的遥感图像分割方法 | |
CN113139904B (zh) | 一种图像盲超分辨率方法及系统 | |
CN110634103A (zh) | 基于生成对抗网络的图像去马赛克方法 | |
CN116258850A (zh) | 图像语义分割方法、电子设备以及计算机可读存储介质 | |
CN114529982A (zh) | 基于流式注意力的轻量级人体姿态估计方法及系统 | |
CN110570402B (zh) | 基于边界感知神经网络的双目显著物体检测方法 | |
CN111310767A (zh) | 一种基于边界增强的显著性检测方法 | |
CN113066089B (zh) | 一种基于注意力引导机制的实时图像语义分割方法 | |
CN112927236B (zh) | 一种基于通道注意力和自监督约束的服装解析方法及系统 | |
CN113450313B (zh) | 一种基于区域对比学习的图像显著性可视化方法 | |
CN112215241B (zh) | 一种基于小样本学习的图像特征提取装置 | |
CN113256603A (zh) | 一种双流网络二次融合的显著性物体检测方法 | |
CN113298174B (zh) | 一种基于渐进特征融合的语义分割模型的改进方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |