CN113239904A - 基于卷积神经网络的高分辨率密集目标计数方法 - Google Patents
基于卷积神经网络的高分辨率密集目标计数方法 Download PDFInfo
- Publication number
- CN113239904A CN113239904A CN202110775324.2A CN202110775324A CN113239904A CN 113239904 A CN113239904 A CN 113239904A CN 202110775324 A CN202110775324 A CN 202110775324A CN 113239904 A CN113239904 A CN 113239904A
- Authority
- CN
- China
- Prior art keywords
- map
- image
- layer
- feature
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30242—Counting objects in image
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于卷积神经网络的高分辨率密集目标计数方法,该方法为:对图像密度进行预估;基于标注数据通过高斯掩膜生成监督预测密度图;利用初级主干网络提取低层次特征;利用多路径扩张卷积层对多感受野的高级语义信息进行编码,获取全局的上下文信息;利用空间域注意力机制模块和通道域注意力机制模块进一步区分前景与背景,减少模型的误判率并输出加入了注意力掩膜的特征图谱;利用编码阶段的多路特征图谱通过解码网络恢复图像的空间信息以生成最终的高分辨率预测密度图;对密度图进行求和得到预测的人群计数结果。本发明改善了由人群分布不均匀、尺度变化较大和前后景纹理相似等造成的计数不准的情况,有效提高了密集人群计数的精度。
Description
技术领域
本发明涉及视觉人群密度分析技术领域,特别是一种基于卷积神经网络的高分辨率密集目标计数方法。
背景技术
密集目标技术是计算机视觉领域十分重要且应用广泛的任务,例如密集人群计数应用于城市安全、交通流量检测和大型商场景点人流量监控等至关重要的领域,该任务的目的是在图像中获取人群的分布情况以及人群中所包含的人头数目;密集细胞计数则广泛应用于生物医学领域;在工业化领域常使用密集目标计数方法对工业化设施进行实时统计等。
目前受到广泛关注的方法大多是基于卷积神经网络的计数方法,其中包括上下文自适应方法:扩大网络的接受域,提取丰富的上下文信息,对于空间和通道的上下文提取应用注意力机制以预测最终的尺度信息;尺度自适应方法:利用多列卷积神经网络对不同尺度进行特征提取,利用尺度信息约束最终的预测结果。
以最广泛应用的密集人群计数为例,Li等人提出了一种基于空洞卷积层的密集人群检测网络CSRNet,CSRNet通过将VGG-16网络最后的全连接层改为空洞卷积层,使得网络的感受野进一步扩大,同时对解码阶段的特征分辨率保持不变,输出了高分辨率的预测密度图(LiY, ZhangX, ChenD. CSRNet:Dilated Convolutional Neural Networks forUnderstanding the Highly CongestedScenes[J]. IEEE, 2018,pp. 1091-1100)。Liu等人在CSRNet的基础上基于空间金字塔池化提取多尺度上下文特征,提出了CANNet(LiuW,SalzmannM,FuaP. Context-AwareCrowdCounting[J]. 2018, pp. 5094-5103)。经典的多列结构密集人群计数网络MCNN利用多列卷积层提取多尺度信息,再将特征图谱融合形成包含尺度自适应的计数网络(ZhangY, ZhouD, ChenS, etal. Single-Image CrowdCounting via Multi-Column Convolutional Neural Network[C],2016, IEEEConferenceon Computer Visionand Pattern Recognition (CVPR). IEEE, 2016, pp.589-597.)。尽管上述方法在密集人群计数上有很大进步,但是这些方法在处理高密度密集人群技术时仍然表现不佳,主要原因在于,密集人群检测的最新数据集包含更大的尺度变化和密度不均匀问题。此外,这些方法没有形成完善的编解码网络,不能在保留细节信息的前提下生成高分辨率的特征图谱,不利于对高分辨率的图像进行预测。
姚等人所提出的专利——基于级联高分辨卷积神经网络的密集人群计数算法所使用的主干网较为复杂,运算时间较长,对于硬件环境要求比较高;陈等人提出的专利算法——一种基于注意力机制循环缩放的密集人群计数与精确定位方法和系统,利用了人群的定位信息和三分支的神经网络进行密度评定,虽然也利用了注意力机制获得了很好的效果,但这加重了前期的标注负担,且网络过于繁杂不利于训练和应用(张姗姗,姚肇亮,杨健. 基于级联高分辨卷积神经网络的密集人群计数算法[P]. 江苏省:CN111460912A,2020-07-28.)。
综上可知,目前密集人群计数当中存在因尺度变化过大、密度不均匀、遮挡或背景相似所造成的计数不准确的问题,并且网络的复杂度往往较高,运算量大、不利于训练和应用。
发明内容
本发明的目的在于提供一种基于卷积神经网络的高分辨率密集目标计数方法,通过设计一种编解码卷积神经网络,使其能够对较大的目标尺度变化做出合理的预测,同时适应非均匀的密度情况,获得高分辨率图像的密集目标计数结果。
实现本发明目的的技术解决方案为:一种基于卷积神经网络的高分辨率密集目标计数方法,包括如下步骤:
步骤1、对输入图像的密度等级进行判定,确定密集人群图像;
步骤2、利用几何自适应高斯响应计数估计密集人群图像中单个人头的尺度大小,生成监督预测密度图;
步骤3、将监督预测密度图先通过VGG-16 Net主干网络提取部分底层特征信息,再通过一个空洞卷积网络来提取全局低层特征信息,并输出空洞卷积网络中第四卷积层输出的特征图谱FC4、第七卷积层输出的特征图谱FC7以及最终输出第一特征图谱F1;
步骤4、基于紧密连接网络DenseNet构建多路径扩张卷积层,采用多路径扩张卷积层从第一特征图谱F1提取出具有多接受场的全局高级语义信息,并输出第二特征图谱F2;
步骤5、利用空间注意力机制模块和通道注意力机制模块对第二特征图谱F2进行加权,筛选第二特征图谱F2中所包含的全局高级语义信息,输出第三特征图谱F3;
步骤6、利用第三特征图谱F3、步骤3输出的包含低层次信息的特征图谱FC4、特征图谱FC7进行解码操作,逐步通过上采样操作和解码卷积网络恢复第三特征图谱F3的空间信息,并输出最终的高分辨率预测密度图;
步骤7、将高分辨率预测密度图的像素值进行累加求和,得到最终密集人群的计数结果。
本发明与现有技术相比,其显著优点为:
(1)设计了基于紧密连接网络DenseNet所设计的多路径扩张卷积层,使其输出的特征图谱具有多尺度高级语义特征信息;
(2)并行利用空间注意力机制和通道注意力机制对特征图谱进行加权,对其中的高级语义信息和初级特征进行筛选,在学习图像的密度图变化的同时减少背景纹理对于模型的误导性;
(3)在解码阶段利用编码阶段的多个特征图谱输出补充单纯上采样所带来的细节不足的问题,恢复了图像的空间信息,输出高分辨率预测密度图。
附图说明
图1为本发明的基于卷积神经网络的高分辨率密集人群计数方法流程图。
图2为本发明使用密集连接空洞卷积层来融合不同尺度大小的特征生成特征图谱F 2 示意图。
图3为本发明的多域注意力机制模块示意图。
图4为本发明多路径解码器生成最终高分辨预测密度图的示意图。
图5为本发明最终输出预测密度图和原始图像对比可视化图。
具体实施方式
本发明一种基于卷积神经网络的高分辨率密集目标计数方法,包括如下步骤:
步骤1、对输入图像的密度等级进行判定,确定密集人群图像;
步骤2、利用几何自适应高斯响应计数估计密集人群图像中单个人头的尺度大小,生成监督预测密度图;
步骤3、将监督预测密度图先通过VGG-16 Net主干网络提取部分底层特征信息,再通过一个空洞卷积网络来提取全局低层特征信息,并输出空洞卷积网络中第四卷积层输出的特征图谱FC4、第七卷积层输出的特征图谱FC7以及最终输出第一特征图谱F1;
步骤4、基于紧密连接网络DenseNet构建多路径扩张卷积层,采用多路径扩张卷积层从第一特征图谱F1提取出具有多接受场的全局高级语义信息,并输出第二特征图谱F2;
步骤5、利用空间注意力机制模块和通道注意力机制模块对第二特征图谱F2进行加权,筛选第二特征图谱F2中所包含的全局高级语义信息,输出第三特征图谱F3;
步骤6、利用第三特征图谱F3、步骤3输出的包含低层次信息的特征图谱FC4、特征图谱FC7进行解码操作,逐步通过上采样操作和解码卷积网络恢复第三特征图谱F3的空间信息,并输出最终的高分辨率预测密度图;
步骤7、将高分辨率预测密度图的像素值进行累加求和,得到最终密集人群的计数结果。
作为一种具体示例,步骤1所述对输入图像的密度等级进行判定,确定密集人群图像,具体如下:
利用图像分辨率和目标人数计算图像密度,z代表一张图像,ρ(z)为图像密度:
式中,height、weight分别表示图像的宽、高包含的像素个数,number为图像中包含的目标人数;
设定阈值ε,若图像密度ρ(z)超过该阈值则判定输入图像为密集人群图像,进行密集目标计数;阈值ε根据不同的数据集和训练结果进行不同的设置。
作为一种具体示例,步骤2中所述利用几何自适应高斯响应计数估计密集人群图像中单个人头的尺度大小,生成监督预测密度图,具体如下:
使用高斯模糊对头部标注进行模糊,并使监督预测密度图的分布遵循高斯均匀化,几何自适应高斯核定义为:
其中,D(a)为生成的监督预测密度图,先计算当前人头a和图像中所有其他人头a k 的平均距离,k=1,2,…,B-1,B为总人头数,高斯核函数的方差σ k 由平均距离乘以比例系数β得到,从而D(x)包含全局人头的像素分布,δ(·)为狄拉克函数,为方差为σ k 的高斯函数。
作为一种具体示例,步骤3所述将监督预测密度图先通过VGG-16 Net主干网络提取部分底层特征信息,再通过一个空洞卷积网络来提取全局低层特征信息,并输出空洞卷积网络的第四卷积层输出特征图谱FC4、第七卷积层输出特征图谱FC7以及最终输出第一特征图谱F1,具体为:
首先利用VGG-16 Net网络的前10个卷积层和最大池化层提取部分底层特征信息,接着利用6层空洞卷积网络提取全局低层特征信息,从而扩大提取出来的特征图谱的接受域,并将输入图像的通道数由3通道变为64通道,使所提取的特征维持在原始图像的八分之一大小的分辨率水平,输出结果为第一特征图谱F1;同时输出空洞卷积网络层中第四层卷积层输出的特征图谱FC4和第七层卷积层输出的特征图谱FC7。
作为一种具体示例,步骤4所述基于紧密连接网络DenseNet构建多路径扩张卷积层,采用多路径扩张卷积层从第一特征图谱F1提取出具有多接受场的全局高级语义信息,并输出第二特征图谱F2,具体为:
基于紧密连接网络DenseNet构建多路径扩张卷积层,具体内部结构包含五层空洞卷积,空洞率分别为3、6、12、18和24,相邻空洞卷积之间用1×1卷积相连调整输入通道数,此处的多路径扩张卷积层是指每一个空洞卷积会与之前所有卷积层进行空间连接,从而输出包含多路空洞卷积层信息的特征图谱,并在经过1×1卷积调整通道数量之后输入到后面的所有卷积层;该模块能够提取并融合不同尺度大小的特征,并最终输出具有多接受场的全局高级语义信息的特征图谱;
运行顺序为将第一特征图谱F1作为输入,通过上述多路径扩张卷积层提取全局高级语义信息,并输出第二特征图谱F2,且F2具有和F1相同的图像大小。
作为一种具体示例,步骤5所述利用空间注意力机制和通道注意力机制对第二特征图谱F2进行加权,筛选第二特征图谱F2中所包含的全局高级语义信息,输出第三特征图谱F3,具体如下;
空间注意力机制模块中,S代表空间、H和W代表图像的宽高;通道注意力机制模块中,C代表通道;
对于输入F2 ϵℝC×H×W,将其分别通过两个注意力模块的1×1卷积,通过形变和转置形变操作获得新的特征图谱S1, S2, C1和C2,其中{S1, C1}ϵℝC×HW并且{S2, C2}ϵℝHW×C;然后使用矩阵乘法将S1, S2矩阵相乘产生空间注意力图谱S3ϵℝHW×HW;同时将C1, C2矩阵相乘产生通道注意力图谱C3ϵℝC×C,公式如下:
其中表示第u个通道对第v个通道的影响,代表第u个空间区域对第v个空间区域的影响,将、通过图中形变层和SoftMax层得到和,再利用公式(5)、(6)中自学习因子、分别对和进行元素相乘,η和为实验中设置的超参数;在得到空间域和频率域的结果特征图谱Sfinal和Cfinal后,再将两种特征图谱通过连接操作和卷积操作得到最终的注意力图谱F3,公式定义如下:
作为一种具体示例,步骤6中利用第三特征图谱F3、步骤3输出的包含低层次信息的特征图谱FC4、特征图谱FC7进行解码操作,逐步通过上采样操作和解码卷积网络恢复第三特征图谱F3的空间信息,并输出最终的高分辨率预测密度图,具体方法如下:
利用步骤3中输出的特征图谱FC4和特征图谱FC7作为解码器的构建基础,首先对输入特征图谱F3进行两倍的上采样操作输入到第一个1×1的卷积层当中调整通道数,并输出具有与FC7相同通道数的特征图谱F3_1,接着将F3_1与特征图谱FC7拼接之后进行两倍上采样操作,再输入到第二个1×1的卷积层当中调整通道数并输出具有与FC4相同通道数的特征图谱F3_2,将特征图谱F3_2与FC4进行拼接之后进行两倍上采样操作得到恢复了部分细节信息的特征图谱F3_3,最后将F3_3通过两个卷积层输出最终的高分辨率预测密度图。
下面结合附图及具体实施例对本发明做进一步详细说明。
实施例
如图1所示,一种基于卷积神经网络的高分辨率密集目标计数方法EBM-Net,包括:对图像密度进行预估;基于图像人群标注数据通过高斯掩膜生成监督预测密度图;将监督预测密度图先通过VGG-16 Net主干网络提取部分底层特征信息,再通过一个空洞卷积网络来提取全局低层特征信息,并输出空洞卷积网络中第四卷积层输出的特征图谱FC4、第七卷积层输出的特征图谱FC7以及最终输出第一特征图谱F1;利用基于紧密连接网络DenseNet所设计的多路径扩张卷积层对F1提取出具有多接受场的全局高级语义信息,并输出特征图谱F2;步骤5中并行利用空间注意力机制和通道注意力机制对F2进行加权,对F2中所包含的高级语义信息和初级特征进行筛选,在学习图像的密度图变化的同时减少背景纹理对于模型的误导性,并输出特征图谱F3;利用编码阶段的多路特征图谱通过解码网络MDM恢复图像的空间信息以生成最终的高分辨率预测密度图;对密度图进行求和得到预测的人群计数结果。本发明有效提高了密集人群计数的精度,改善了预测任务中由人群分布不均匀、尺度变化较大和前后景纹理相似等造成的计数不准的情况。
步骤1、对输入图像的密度等级进行判定,确定密集人群图像,具体如下:
利用图像分辨率和目标人数计算图像密度,z代表一张图像,ρ(z)为图像密度:
式中,height、weight分别表示图像的宽、高包含的像素个数,number为图像中包含的目标人数;
设定阈值ε,若图像密度ρ(z)超过该阈值则判定输入图像为密集人群图像,进行密集目标计数;阈值ε根据不同的数据集和训练结果进行不同的设置。
步骤2、利用几何自适应高斯响应计数估计密集人群图像中单个人头的尺度大小,生成监督预测密度图,具体如下:
使用高斯模糊对头部标注进行模糊,并使监督预测密度图的分布遵循高斯均匀化,几何自适应高斯核定义为:
其中,D(a)为生成的监督预测密度图,先计算当前人头a和图像中所有其他人头a k 的平均距离,k=1,2,…,B-1,B为总人头数,高斯核函数的方差σ k 由平均距离乘以比例系数β得到,从而D(x)包含全局人头的像素分布,δ(·)为狄拉克函数,为方差为σ k 的高斯函数。
步骤3、将监督预测密度图先通过VGG-16 Net主干网络提取部分底层特征信息,再通过一个空洞卷积网络来提取全局低层特征信息,并输出空洞卷积网络的第四卷积层输出特征图谱FC4、第七卷积层输出特征图谱FC7以及最终输出第一特征图谱F1,具体为:
首先利用VGG-16 Net网络的前10个卷积层和最大池化层提取部分底层特征信息,接着利用6层空洞卷积网络提取全局低层特征信息,从而扩大提取出来的特征图谱的接受域,并将输入图像的通道数由3通道变为64通道,使所提取的特征维持在原始图像的八分之一大小的分辨率水平,输出结果为第一特征图谱F1;同时输出空洞卷积网络层中第四层卷积层输出的特征图谱FC4和第七层卷积层输出的特征图谱FC7。
步骤4、基于紧密连接网络DenseNet构建多路径扩张卷积层,采用多路径扩张卷积层从第一特征图谱F1提取出具有多接受场的全局高级语义信息,并输出第二特征图谱F2,具体为:
基于紧密连接网络DenseNet构建多路径扩张卷积层,具体内部结构包含五层空洞卷积,空洞率分别为3、6、12、18和24,相邻空洞卷积之间用1×1卷积相连调整输入通道数,此处的多路径扩张卷积层是指每一个空洞卷积会与之前所有卷积层进行空间连接,从而输出包含多路空洞卷积层信息的特征图谱,并在经过1×1卷积调整通道数量之后输入到后面的所有卷积层;该模块能够提取并融合不同尺度大小的特征,并最终输出具有多接受场的全局高级语义信息的特征图谱;
运行顺序为将第一特征图谱F1作为输入,通过上述多路径扩张卷积层提取全局高级语义信息,并输出第二特征图谱F2,且F2具有和F1相同的图像大小。
步骤5、利用空间注意力机制和通道注意力机制对第二特征图谱F2进行加权,筛选第二特征图谱F2中所包含的全局高级语义信息,输出第三特征图谱F3,具体如下;
空间注意力机制模块中,S代表空间、H和W代表图像的宽高;通道注意力机制模块中,C代表通道;
对于输入F2 ϵℝC×H×W,将其分别通过两个注意力模块的1×1卷积,通过形变和转置形变操作获得新的特征图谱S1, S2, C1和C2,其中{S1, C1}ϵℝC×HW并且{S2, C2}ϵℝHW×C;然后使用矩阵乘法将S1, S2矩阵相乘产生空间注意力图谱S3ϵℝHW×HW;同时将C1, C2矩阵相乘产生通道注意力图谱C3ϵℝC×C,公式如下:
其中表示第u个通道对第v个通道的影响,代表第u个空间区域对第v个空间区域的影响,将、通过图中形变层和SoftMax层得到和,再利用公式(5)、(6)中自学习因子、分别对和进行元素相乘,η和为实验中设置的超参数;在得到空间域和频率域的结果特征图谱Sfinal和Cfinal后,再将两种特征图谱通过连接操作和卷积操作得到最终的注意力图谱F3,公式定义如下:
步骤6、利用第三特征图谱F3、步骤3输出的包含低层次信息的特征图谱FC4、特征图谱FC7进行解码操作,逐步通过上采样操作和解码卷积网络恢复第三特征图谱F3的空间信息,并输出最终的高分辨率预测密度图,具体方法如下:
利用步骤3中输出的特征图谱FC4和特征图谱FC7作为解码器的构建基础,首先对输入特征图谱F3进行两倍的上采样操作输入到第一个1×1的卷积层当中调整通道数,并输出具有与FC7相同通道数的特征图谱F3_1,接着将F3_1与特征图谱FC7拼接之后进行两倍上采样操作,再输入到第二个1×1的卷积层当中调整通道数并输出具有与FC4相同通道数的特征图谱F3_2,将特征图谱F3_2与FC4进行拼接之后进行两倍上采样操作得到恢复了部分细节信息的特征图谱F3_3,最后将F3_3通过两个卷积层输出最终的高分辨率预测密度图。
步骤7、如图5所示,利用高分辨率密集人群预测密度图,对其像素值进行累加求和,得到最终密集人群的计数结果。左图时输入图像,中间为生成的密度图,右图时预测得到的F3,图像左下角为图像所对应的人群计数值。
表1本发明方法在数据集NWPU-Crowd数据集上的比较
表1是本发明方法EBM-Net,与其他基于密度图和卷积神经网络的人群计数方法在数据集NWPU-Crowd上结果的比较。评测指标包括MAE表示平均单张图像计数误差人数,MSE表示平均计数的方差,NAE表示平均绝对误差。可以发现,本发明在三项指标上都取得了最高的排名,此外,在不同人群密度等级(S0-S4)的预测结果中,本发明也处于领先地位。这充分证明了本发明不仅能提高密集人群计数的效果,还能适应不同尺度不同密集程度的人群大小。
本发明利用编解码卷积神经网络提取人群图像的高分辨率特征,采用了密集连接空洞卷积层提取多感受野特征,并利用多路径解码模块和上采样操作恢复图像的空间信息,从而生成具有丰富细节信息的高分辨率预测密度图,有效的解决了图像尺度变化、人群场景密度不均匀和前后景纹理相似等情况带来的计数不准的问题。
Claims (7)
1.一种基于卷积神经网络的高分辨率密集目标计数方法,其特征在于,包括如下步骤:
步骤1、对输入图像的密度等级进行判定,确定密集人群图像;
步骤2、利用几何自适应高斯响应计数估计密集人群图像中单个人头的尺度大小,生成监督预测密度图;
步骤3、将监督预测密度图先通过VGG-16 Net主干网络提取部分底层特征信息,再通过一个空洞卷积网络来提取全局低层特征信息,并输出空洞卷积网络中第四卷积层输出的特征图谱FC4、第七卷积层输出的特征图谱FC7以及最终输出第一特征图谱F1;
步骤4、基于紧密连接网络DenseNet构建多路径扩张卷积层,采用多路径扩张卷积层从第一特征图谱F1提取出具有多接受场的全局高级语义信息,并输出第二特征图谱F2;
步骤5、利用空间注意力机制模块和通道注意力机制模块对第二特征图谱F2进行加权,筛选第二特征图谱F2中所包含的全局高级语义信息,输出第三特征图谱F3;
步骤6、利用第三特征图谱F3、步骤3输出的包含低层次信息的特征图谱FC4、特征图谱FC7进行解码操作,逐步通过上采样操作和解码卷积网络恢复第三特征图谱F3的空间信息,并输出最终的高分辨率预测密度图;
步骤7、将高分辨率预测密度图的像素值进行累加求和,得到最终密集人群的计数结果。
4.根据权利要求1所述的基于卷积神经网络的高分辨率密集目标计数方法,其特征在于,步骤3所述将监督预测密度图先通过VGG-16 Net主干网络提取部分底层特征信息,再通过一个空洞卷积网络来提取全局低层特征信息,并输出空洞卷积网络的第四卷积层输出特征图谱FC4、第七卷积层输出特征图谱FC7以及最终输出第一特征图谱F1,具体为:
首先利用VGG-16 Net网络的前10个卷积层和最大池化层提取部分底层特征信息,接着利用6层空洞卷积网络提取全局低层特征信息,从而扩大提取出来的特征图谱的接受域,并将输入图像的通道数由3通道变为64通道,使所提取的特征维持在原始图像的八分之一大小的分辨率水平,输出结果为第一特征图谱F1;同时输出空洞卷积网络层中第四层卷积层输出的特征图谱FC4和第七层卷积层输出的特征图谱FC7。
5.根据权利要求1所述的基于卷积神经网络的高分辨率密集目标计数方法,其特征在于,步骤4所述基于紧密连接网络DenseNet构建多路径扩张卷积层,采用多路径扩张卷积层从第一特征图谱F1提取出具有多接受场的全局高级语义信息,并输出第二特征图谱F2,具体为:
基于紧密连接网络DenseNet构建多路径扩张卷积层,具体内部结构包含五层空洞卷积,空洞率分别为3、6、12、18和24,相邻空洞卷积之间用1×1卷积相连调整输入通道数,此处的多路径扩张卷积层是指每一个空洞卷积会与之前所有卷积层进行空间连接,从而输出包含多路空洞卷积层信息的特征图谱,并在经过1×1卷积调整通道数量之后输入到后面的所有卷积层;该模块能够提取并融合不同尺度大小的特征,并最终输出具有多接受场的全局高级语义信息的特征图谱;
运行顺序为将第一特征图谱F1作为输入,通过上述多路径扩张卷积层提取全局高级语义信息,并输出第二特征图谱F2,且F2具有和F1相同的图像大小。
6.根据权利要求1所述的基于卷积神经网络的高分辨率密集目标计数方法,其特征在于,步骤5所述利用空间注意力机制和通道注意力机制对第二特征图谱F2进行加权,筛选第二特征图谱F2中所包含的全局高级语义信息,输出第三特征图谱F3,具体如下;
空间注意力机制模块中,S代表空间、H和W代表图像的宽高;通道注意力机制模块中,C代表通道;
对于输入F2 ϵℝC×H×W,将其分别通过两个注意力模块的1×1卷积,通过形变和转置形变操作获得新的特征图谱S1, S2, C1和C2,其中{S1, C1}ϵℝC×HW并且{S2, C2}ϵℝHW×C;然后使用矩阵乘法将S1, S2矩阵相乘产生空间注意力图谱S3ϵℝHW×HW;同时将C1, C2矩阵相乘产生通道注意力图谱C3ϵℝC×C,公式如下:
其中表示第u个通道对第v个通道的影响,代表第u个空间区域对第v个空间区域的影响,将、通过图中形变层和SoftMax层得到和,再利用公式(5)、(6)中自学习因子、分别对和进行元素相乘,η和为实验中设置的超参数;在得到空间域和频率域的结果特征图谱Sfinal和Cfinal后,再将两种特征图谱通过连接操作和卷积操作得到最终的注意力图谱F3,公式定义如下:
7.根据权利要求1所述的基于卷积神经网络的高分辨率密集目标计数方法,其特征在于,步骤6中利用第三特征图谱F3、步骤3输出的包含低层次信息的特征图谱FC4、特征图谱FC7进行解码操作,逐步通过上采样操作和解码卷积网络恢复第三特征图谱F3的空间信息,并输出最终的高分辨率预测密度图,具体方法如下:
利用步骤3中输出的特征图谱FC4和特征图谱FC7作为解码器的构建基础,首先对输入特征图谱F3进行两倍的上采样操作输入到第一个1×1的卷积层当中调整通道数,并输出具有与FC7相同通道数的特征图谱F3_1,接着将F3_1与特征图谱FC7拼接之后进行两倍上采样操作,再输入到第二个1×1的卷积层当中调整通道数并输出具有与FC4相同通道数的特征图谱F3_2,将特征图谱F3_2与FC4进行拼接之后进行两倍上采样操作得到恢复了部分细节信息的特征图谱F3_3,最后将F3_3通过两个卷积层输出最终的高分辨率预测密度图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110775324.2A CN113239904B (zh) | 2021-07-09 | 2021-07-09 | 基于卷积神经网络的高分辨率密集目标计数方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110775324.2A CN113239904B (zh) | 2021-07-09 | 2021-07-09 | 基于卷积神经网络的高分辨率密集目标计数方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113239904A true CN113239904A (zh) | 2021-08-10 |
CN113239904B CN113239904B (zh) | 2021-09-28 |
Family
ID=77141308
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110775324.2A Active CN113239904B (zh) | 2021-07-09 | 2021-07-09 | 基于卷积神经网络的高分辨率密集目标计数方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113239904B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113869181A (zh) * | 2021-09-24 | 2021-12-31 | 电子科技大学 | 一种选择池化核结构的无人机目标检测方法 |
CN114264314A (zh) * | 2021-12-24 | 2022-04-01 | 上海应用技术大学 | 危险品安全运输管理系统及方法 |
CN117253184A (zh) * | 2023-08-25 | 2023-12-19 | 燕山大学 | 一种雾先验频域注意表征引导的雾天图像人群计数方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188685A (zh) * | 2019-05-30 | 2019-08-30 | 燕山大学 | 一种基于双注意力多尺度级联网络的目标计数方法及系统 |
CN111460912A (zh) * | 2020-03-12 | 2020-07-28 | 南京理工大学 | 基于级联高分辨卷积神经网络的密集人群计数算法 |
CN111507183A (zh) * | 2020-03-11 | 2020-08-07 | 杭州电子科技大学 | 一种基于多尺度密度图融合空洞卷积的人群计数方法 |
CN113033342A (zh) * | 2021-03-10 | 2021-06-25 | 西北工业大学 | 基于密度估计的拥挤场景行人目标检测与计数方法 |
-
2021
- 2021-07-09 CN CN202110775324.2A patent/CN113239904B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188685A (zh) * | 2019-05-30 | 2019-08-30 | 燕山大学 | 一种基于双注意力多尺度级联网络的目标计数方法及系统 |
CN111507183A (zh) * | 2020-03-11 | 2020-08-07 | 杭州电子科技大学 | 一种基于多尺度密度图融合空洞卷积的人群计数方法 |
CN111460912A (zh) * | 2020-03-12 | 2020-07-28 | 南京理工大学 | 基于级联高分辨卷积神经网络的密集人群计数算法 |
CN113033342A (zh) * | 2021-03-10 | 2021-06-25 | 西北工业大学 | 基于密度估计的拥挤场景行人目标检测与计数方法 |
Non-Patent Citations (3)
Title |
---|
JUN FU等: "Dual Attention Network for scene segmentation", 《HTTPS://ARXIV.ORG/ABS/1809.02983.PDF》 * |
YINGYING ZHANG等: "Sing-Image crowd counting via multi-coumn convolutional neural network", 《2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
YUHONG LI等: "《CSRNet: Dilated Convolutional Neural Networks for Understanding the Highly》", 《HTTPS//ARXIV.ORG/PDF/1809.02983.PDF》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113869181A (zh) * | 2021-09-24 | 2021-12-31 | 电子科技大学 | 一种选择池化核结构的无人机目标检测方法 |
CN113869181B (zh) * | 2021-09-24 | 2023-05-02 | 电子科技大学 | 一种选择池化核结构的无人机目标检测方法 |
CN114264314A (zh) * | 2021-12-24 | 2022-04-01 | 上海应用技术大学 | 危险品安全运输管理系统及方法 |
CN117253184A (zh) * | 2023-08-25 | 2023-12-19 | 燕山大学 | 一种雾先验频域注意表征引导的雾天图像人群计数方法 |
CN117253184B (zh) * | 2023-08-25 | 2024-05-17 | 燕山大学 | 一种雾先验频域注意表征引导的雾天图像人群计数方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113239904B (zh) | 2021-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113239904B (zh) | 基于卷积神经网络的高分辨率密集目标计数方法 | |
CN110378844B (zh) | 基于循环多尺度生成对抗网络的图像盲去运动模糊方法 | |
CN113936339B (zh) | 基于双通道交叉注意力机制的打架识别方法和装置 | |
CN111611878B (zh) | 一种基于视频图像的人群计数和未来人流量预测的方法 | |
CN111563447B (zh) | 一种基于密度图的人群密度分析与检测定位方法 | |
CN107862261A (zh) | 基于多尺度卷积神经网络的图像人群计数方法 | |
CN110705340B (zh) | 一种基于注意力神经网络场的人群计数方法 | |
CN110084201B (zh) | 一种监控场景下基于特定目标跟踪的卷积神经网络的人体动作识别方法 | |
CN111460912A (zh) | 基于级联高分辨卷积神经网络的密集人群计数算法 | |
CN109993269A (zh) | 基于注意力机制的单张图像人群计数方法 | |
CN108491766A (zh) | 一种端到端的基于深度决策森林的人群计数方法 | |
CN110532959B (zh) | 基于双通道三维卷积神经网络的实时暴力行为检测系统 | |
CN114898284B (zh) | 一种基于特征金字塔局部差异注意力机制的人群计数方法 | |
CN111079539A (zh) | 一种基于异常追踪的视频异常行为检测方法 | |
CN115063786A (zh) | 一种高位远景模糊车牌检测方法 | |
CN110991317A (zh) | 一种基于多尺度透视感知型网络的人群计数方法 | |
CN115424209A (zh) | 一种基于空间金字塔注意力网络的人群计数方法 | |
CN111931722A (zh) | 一种结合颜色比率特征的相关滤波跟踪方法 | |
CN111401209B (zh) | 一种基于深度学习的动作识别方法 | |
Son et al. | Partial convolutional LSTM for spatiotemporal prediction of incomplete data | |
CN111428809A (zh) | 基于空间信息融合与卷积神经网络的人群计数方法 | |
CN116403152A (zh) | 一种基于空间上下文学习网络的人群密度估计方法 | |
Huang et al. | Drone-based car counting via density map learning | |
CN116148864A (zh) | 一种基于DyConvGRU和Unet的预测细化结构的雷达回波外推方法 | |
CN115953736A (zh) | 一种基于视频监控与深度神经网络的人群密度估计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |