CN113239904A - 基于卷积神经网络的高分辨率密集目标计数方法 - Google Patents

基于卷积神经网络的高分辨率密集目标计数方法 Download PDF

Info

Publication number
CN113239904A
CN113239904A CN202110775324.2A CN202110775324A CN113239904A CN 113239904 A CN113239904 A CN 113239904A CN 202110775324 A CN202110775324 A CN 202110775324A CN 113239904 A CN113239904 A CN 113239904A
Authority
CN
China
Prior art keywords
map
image
layer
feature
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110775324.2A
Other languages
English (en)
Other versions
CN113239904B (zh
Inventor
练智超
顾思琦
李千目
李硕豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202110775324.2A priority Critical patent/CN113239904B/zh
Publication of CN113239904A publication Critical patent/CN113239904A/zh
Application granted granted Critical
Publication of CN113239904B publication Critical patent/CN113239904B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30242Counting objects in image

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于卷积神经网络的高分辨率密集目标计数方法,该方法为:对图像密度进行预估;基于标注数据通过高斯掩膜生成监督预测密度图;利用初级主干网络提取低层次特征;利用多路径扩张卷积层对多感受野的高级语义信息进行编码,获取全局的上下文信息;利用空间域注意力机制模块和通道域注意力机制模块进一步区分前景与背景,减少模型的误判率并输出加入了注意力掩膜的特征图谱;利用编码阶段的多路特征图谱通过解码网络恢复图像的空间信息以生成最终的高分辨率预测密度图;对密度图进行求和得到预测的人群计数结果。本发明改善了由人群分布不均匀、尺度变化较大和前后景纹理相似等造成的计数不准的情况,有效提高了密集人群计数的精度。

Description

基于卷积神经网络的高分辨率密集目标计数方法
技术领域
本发明涉及视觉人群密度分析技术领域,特别是一种基于卷积神经网络的高分辨率密集目标计数方法。
背景技术
密集目标技术是计算机视觉领域十分重要且应用广泛的任务,例如密集人群计数应用于城市安全、交通流量检测和大型商场景点人流量监控等至关重要的领域,该任务的目的是在图像中获取人群的分布情况以及人群中所包含的人头数目;密集细胞计数则广泛应用于生物医学领域;在工业化领域常使用密集目标计数方法对工业化设施进行实时统计等。
目前受到广泛关注的方法大多是基于卷积神经网络的计数方法,其中包括上下文自适应方法:扩大网络的接受域,提取丰富的上下文信息,对于空间和通道的上下文提取应用注意力机制以预测最终的尺度信息;尺度自适应方法:利用多列卷积神经网络对不同尺度进行特征提取,利用尺度信息约束最终的预测结果。
以最广泛应用的密集人群计数为例,Li等人提出了一种基于空洞卷积层的密集人群检测网络CSRNet,CSRNet通过将VGG-16网络最后的全连接层改为空洞卷积层,使得网络的感受野进一步扩大,同时对解码阶段的特征分辨率保持不变,输出了高分辨率的预测密度图(LiY, ZhangX, ChenD. CSRNet:Dilated Convolutional Neural Networks forUnderstanding the Highly CongestedScenes[J]. IEEE, 2018,pp. 1091-1100)。Liu等人在CSRNet的基础上基于空间金字塔池化提取多尺度上下文特征,提出了CANNet(LiuW,SalzmannM,FuaP. Context-AwareCrowdCounting[J]. 2018, pp. 5094-5103)。经典的多列结构密集人群计数网络MCNN利用多列卷积层提取多尺度信息,再将特征图谱融合形成包含尺度自适应的计数网络(ZhangY, ZhouD, ChenS, etal. Single-Image CrowdCounting via Multi-Column Convolutional Neural Network[C],2016, IEEEConferenceon Computer Visionand Pattern Recognition (CVPR). IEEE, 2016, pp.589-597.)。尽管上述方法在密集人群计数上有很大进步,但是这些方法在处理高密度密集人群技术时仍然表现不佳,主要原因在于,密集人群检测的最新数据集包含更大的尺度变化和密度不均匀问题。此外,这些方法没有形成完善的编解码网络,不能在保留细节信息的前提下生成高分辨率的特征图谱,不利于对高分辨率的图像进行预测。
姚等人所提出的专利——基于级联高分辨卷积神经网络的密集人群计数算法所使用的主干网较为复杂,运算时间较长,对于硬件环境要求比较高;陈等人提出的专利算法——一种基于注意力机制循环缩放的密集人群计数与精确定位方法和系统,利用了人群的定位信息和三分支的神经网络进行密度评定,虽然也利用了注意力机制获得了很好的效果,但这加重了前期的标注负担,且网络过于繁杂不利于训练和应用(张姗姗,姚肇亮,杨健. 基于级联高分辨卷积神经网络的密集人群计数算法[P]. 江苏省:CN111460912A,2020-07-28.)。
综上可知,目前密集人群计数当中存在因尺度变化过大、密度不均匀、遮挡或背景相似所造成的计数不准确的问题,并且网络的复杂度往往较高,运算量大、不利于训练和应用。
发明内容
本发明的目的在于提供一种基于卷积神经网络的高分辨率密集目标计数方法,通过设计一种编解码卷积神经网络,使其能够对较大的目标尺度变化做出合理的预测,同时适应非均匀的密度情况,获得高分辨率图像的密集目标计数结果。
实现本发明目的的技术解决方案为:一种基于卷积神经网络的高分辨率密集目标计数方法,包括如下步骤:
步骤1、对输入图像的密度等级进行判定,确定密集人群图像;
步骤2、利用几何自适应高斯响应计数估计密集人群图像中单个人头的尺度大小,生成监督预测密度图;
步骤3、将监督预测密度图先通过VGG-16 Net主干网络提取部分底层特征信息,再通过一个空洞卷积网络来提取全局低层特征信息,并输出空洞卷积网络中第四卷积层输出的特征图谱FC4、第七卷积层输出的特征图谱FC7以及最终输出第一特征图谱F1
步骤4、基于紧密连接网络DenseNet构建多路径扩张卷积层,采用多路径扩张卷积层从第一特征图谱F1提取出具有多接受场的全局高级语义信息,并输出第二特征图谱F2
步骤5、利用空间注意力机制模块和通道注意力机制模块对第二特征图谱F2进行加权,筛选第二特征图谱F2中所包含的全局高级语义信息,输出第三特征图谱F3
步骤6、利用第三特征图谱F3、步骤3输出的包含低层次信息的特征图谱FC4、特征图谱FC7进行解码操作,逐步通过上采样操作和解码卷积网络恢复第三特征图谱F3的空间信息,并输出最终的高分辨率预测密度图;
步骤7、将高分辨率预测密度图的像素值进行累加求和,得到最终密集人群的计数结果。
本发明与现有技术相比,其显著优点为:
(1)设计了基于紧密连接网络DenseNet所设计的多路径扩张卷积层,使其输出的特征图谱具有多尺度高级语义特征信息;
(2)并行利用空间注意力机制和通道注意力机制对特征图谱进行加权,对其中的高级语义信息和初级特征进行筛选,在学习图像的密度图变化的同时减少背景纹理对于模型的误导性;
(3)在解码阶段利用编码阶段的多个特征图谱输出补充单纯上采样所带来的细节不足的问题,恢复了图像的空间信息,输出高分辨率预测密度图。
附图说明
图1为本发明的基于卷积神经网络的高分辨率密集人群计数方法流程图。
图2为本发明使用密集连接空洞卷积层来融合不同尺度大小的特征生成特征图谱F 2 示意图。
图3为本发明的多域注意力机制模块示意图。
图4为本发明多路径解码器生成最终高分辨预测密度图的示意图。
图5为本发明最终输出预测密度图和原始图像对比可视化图。
具体实施方式
本发明一种基于卷积神经网络的高分辨率密集目标计数方法,包括如下步骤:
步骤1、对输入图像的密度等级进行判定,确定密集人群图像;
步骤2、利用几何自适应高斯响应计数估计密集人群图像中单个人头的尺度大小,生成监督预测密度图;
步骤3、将监督预测密度图先通过VGG-16 Net主干网络提取部分底层特征信息,再通过一个空洞卷积网络来提取全局低层特征信息,并输出空洞卷积网络中第四卷积层输出的特征图谱FC4、第七卷积层输出的特征图谱FC7以及最终输出第一特征图谱F1
步骤4、基于紧密连接网络DenseNet构建多路径扩张卷积层,采用多路径扩张卷积层从第一特征图谱F1提取出具有多接受场的全局高级语义信息,并输出第二特征图谱F2
步骤5、利用空间注意力机制模块和通道注意力机制模块对第二特征图谱F2进行加权,筛选第二特征图谱F2中所包含的全局高级语义信息,输出第三特征图谱F3
步骤6、利用第三特征图谱F3、步骤3输出的包含低层次信息的特征图谱FC4、特征图谱FC7进行解码操作,逐步通过上采样操作和解码卷积网络恢复第三特征图谱F3的空间信息,并输出最终的高分辨率预测密度图;
步骤7、将高分辨率预测密度图的像素值进行累加求和,得到最终密集人群的计数结果。
作为一种具体示例,步骤1所述对输入图像的密度等级进行判定,确定密集人群图像,具体如下:
利用图像分辨率和目标人数计算图像密度,z代表一张图像,ρ(z)为图像密度:
Figure 591213DEST_PATH_IMAGE002
式中,height、weight分别表示图像的宽、高包含的像素个数,number为图像中包含的目标人数;
设定阈值ε,若图像密度ρ(z)超过该阈值则判定输入图像为密集人群图像,进行密集目标计数;阈值ε根据不同的数据集和训练结果进行不同的设置。
作为一种具体示例,步骤2中所述利用几何自适应高斯响应计数估计密集人群图像中单个人头的尺度大小,生成监督预测密度图,具体如下:
使用高斯模糊对头部标注进行模糊,并使监督预测密度图的分布遵循高斯均匀化,几何自适应高斯核定义为:
Figure 570671DEST_PATH_IMAGE004
其中,D(a)为生成的监督预测密度图,先计算当前人头a和图像中所有其他人头a k 的平均距离
Figure 350408DEST_PATH_IMAGE005
k=1,2,…,B-1,B为总人头数,高斯核函数的方差σ k 由平均距离
Figure 807934DEST_PATH_IMAGE006
乘以比例系数β得到,从而D(x)包含全局人头的像素分布,δ(·)为狄拉克函数,
Figure 186088DEST_PATH_IMAGE007
为方差为σ k 的高斯函数。
作为一种具体示例,步骤3所述将监督预测密度图先通过VGG-16 Net主干网络提取部分底层特征信息,再通过一个空洞卷积网络来提取全局低层特征信息,并输出空洞卷积网络的第四卷积层输出特征图谱FC4、第七卷积层输出特征图谱FC7以及最终输出第一特征图谱F1,具体为:
首先利用VGG-16 Net网络的前10个卷积层和最大池化层提取部分底层特征信息,接着利用6层空洞卷积网络提取全局低层特征信息,从而扩大提取出来的特征图谱的接受域,并将输入图像的通道数由3通道变为64通道,使所提取的特征维持在原始图像的八分之一大小的分辨率水平,输出结果为第一特征图谱F1;同时输出空洞卷积网络层中第四层卷积层输出的特征图谱FC4和第七层卷积层输出的特征图谱FC7
作为一种具体示例,步骤4所述基于紧密连接网络DenseNet构建多路径扩张卷积层,采用多路径扩张卷积层从第一特征图谱F1提取出具有多接受场的全局高级语义信息,并输出第二特征图谱F2,具体为:
基于紧密连接网络DenseNet构建多路径扩张卷积层,具体内部结构包含五层空洞卷积,空洞率分别为3、6、12、18和24,相邻空洞卷积之间用1×1卷积相连调整输入通道数,此处的多路径扩张卷积层是指每一个空洞卷积会与之前所有卷积层进行空间连接,从而输出包含多路空洞卷积层信息的特征图谱,并在经过1×1卷积调整通道数量之后输入到后面的所有卷积层;该模块能够提取并融合不同尺度大小的特征,并最终输出具有多接受场的全局高级语义信息的特征图谱;
运行顺序为将第一特征图谱F1作为输入,通过上述多路径扩张卷积层提取全局高级语义信息,并输出第二特征图谱F2,且F2具有和F1相同的图像大小。
作为一种具体示例,步骤5所述利用空间注意力机制和通道注意力机制对第二特征图谱F2进行加权,筛选第二特征图谱F2中所包含的全局高级语义信息,输出第三特征图谱F3,具体如下;
空间注意力机制模块中,S代表空间、H和W代表图像的宽高;通道注意力机制模块中,C代表通道;
对于输入F2 ϵℝC×H×W,将其分别通过两个注意力模块的1×1卷积,通过形变和转置形变操作获得新的特征图谱S1, S2, C1和C2,其中{S1, C1}ϵℝC×HW并且{S2, C2}ϵℝHW×C;然后使用矩阵乘法将S1, S2矩阵相乘产生空间注意力图谱S3ϵℝHW×HW;同时将C1, C2矩阵相乘产生通道注意力图谱C3ϵℝC×C,公式如下:
Figure 70867DEST_PATH_IMAGE009
其中
Figure 337901DEST_PATH_IMAGE010
表示第u个通道对第v个通道的影响,
Figure 599118DEST_PATH_IMAGE011
代表第u个空间区域对第v个空间区域的影响,将
Figure 267996DEST_PATH_IMAGE010
Figure 323677DEST_PATH_IMAGE011
通过图中形变层和SoftMax层得到
Figure 373279DEST_PATH_IMAGE012
Figure 110291DEST_PATH_IMAGE013
,再利用公式(5)、(6)中自学习因子
Figure 961573DEST_PATH_IMAGE014
Figure 453734DEST_PATH_IMAGE015
分别对
Figure 695359DEST_PATH_IMAGE012
Figure 32800DEST_PATH_IMAGE013
进行元素相乘,η
Figure 240052DEST_PATH_IMAGE016
为实验中设置的超参数;在得到空间域和频率域的结果特征图谱Sfinal和Cfinal后,再将两种特征图谱通过连接操作和卷积操作得到最终的注意力图谱F3,公式定义如下:
Figure 575219DEST_PATH_IMAGE018
作为一种具体示例,步骤6中利用第三特征图谱F3、步骤3输出的包含低层次信息的特征图谱FC4、特征图谱FC7进行解码操作,逐步通过上采样操作和解码卷积网络恢复第三特征图谱F3的空间信息,并输出最终的高分辨率预测密度图,具体方法如下:
利用步骤3中输出的特征图谱FC4和特征图谱FC7作为解码器的构建基础,首先对输入特征图谱F3进行两倍的上采样操作输入到第一个1×1的卷积层当中调整通道数,并输出具有与FC7相同通道数的特征图谱F3_1,接着将F3_1与特征图谱FC7拼接之后进行两倍上采样操作,再输入到第二个1×1的卷积层当中调整通道数并输出具有与FC4相同通道数的特征图谱F3_2,将特征图谱F3_2与FC4进行拼接之后进行两倍上采样操作得到恢复了部分细节信息的特征图谱F3_3,最后将F3_3通过两个卷积层输出最终的高分辨率预测密度图。
下面结合附图及具体实施例对本发明做进一步详细说明。
实施例
如图1所示,一种基于卷积神经网络的高分辨率密集目标计数方法EBM-Net,包括:对图像密度进行预估;基于图像人群标注数据通过高斯掩膜生成监督预测密度图;将监督预测密度图先通过VGG-16 Net主干网络提取部分底层特征信息,再通过一个空洞卷积网络来提取全局低层特征信息,并输出空洞卷积网络中第四卷积层输出的特征图谱FC4、第七卷积层输出的特征图谱FC7以及最终输出第一特征图谱F1;利用基于紧密连接网络DenseNet所设计的多路径扩张卷积层对F1提取出具有多接受场的全局高级语义信息,并输出特征图谱F2;步骤5中并行利用空间注意力机制和通道注意力机制对F2进行加权,对F2中所包含的高级语义信息和初级特征进行筛选,在学习图像的密度图变化的同时减少背景纹理对于模型的误导性,并输出特征图谱F3;利用编码阶段的多路特征图谱通过解码网络MDM恢复图像的空间信息以生成最终的高分辨率预测密度图;对密度图进行求和得到预测的人群计数结果。本发明有效提高了密集人群计数的精度,改善了预测任务中由人群分布不均匀、尺度变化较大和前后景纹理相似等造成的计数不准的情况。
步骤1、对输入图像的密度等级进行判定,确定密集人群图像,具体如下:
利用图像分辨率和目标人数计算图像密度,z代表一张图像,ρ(z)为图像密度:
Figure 366457DEST_PATH_IMAGE002
式中,height、weight分别表示图像的宽、高包含的像素个数,number为图像中包含的目标人数;
设定阈值ε,若图像密度ρ(z)超过该阈值则判定输入图像为密集人群图像,进行密集目标计数;阈值ε根据不同的数据集和训练结果进行不同的设置。
步骤2、利用几何自适应高斯响应计数估计密集人群图像中单个人头的尺度大小,生成监督预测密度图,具体如下:
使用高斯模糊对头部标注进行模糊,并使监督预测密度图的分布遵循高斯均匀化,几何自适应高斯核定义为:
Figure 507589DEST_PATH_IMAGE019
其中,D(a)为生成的监督预测密度图,先计算当前人头a和图像中所有其他人头a k 的平均距离
Figure 5566DEST_PATH_IMAGE005
k=1,2,…,B-1,B为总人头数,高斯核函数的方差σ k 由平均距离
Figure 839530DEST_PATH_IMAGE006
乘以比例系数β得到,从而D(x)包含全局人头的像素分布,δ(·)为狄拉克函数,
Figure 85441DEST_PATH_IMAGE007
为方差为σ k 的高斯函数。
步骤3、将监督预测密度图先通过VGG-16 Net主干网络提取部分底层特征信息,再通过一个空洞卷积网络来提取全局低层特征信息,并输出空洞卷积网络的第四卷积层输出特征图谱FC4、第七卷积层输出特征图谱FC7以及最终输出第一特征图谱F1,具体为:
首先利用VGG-16 Net网络的前10个卷积层和最大池化层提取部分底层特征信息,接着利用6层空洞卷积网络提取全局低层特征信息,从而扩大提取出来的特征图谱的接受域,并将输入图像的通道数由3通道变为64通道,使所提取的特征维持在原始图像的八分之一大小的分辨率水平,输出结果为第一特征图谱F1;同时输出空洞卷积网络层中第四层卷积层输出的特征图谱FC4和第七层卷积层输出的特征图谱FC7
步骤4、基于紧密连接网络DenseNet构建多路径扩张卷积层,采用多路径扩张卷积层从第一特征图谱F1提取出具有多接受场的全局高级语义信息,并输出第二特征图谱F2,具体为:
基于紧密连接网络DenseNet构建多路径扩张卷积层,具体内部结构包含五层空洞卷积,空洞率分别为3、6、12、18和24,相邻空洞卷积之间用1×1卷积相连调整输入通道数,此处的多路径扩张卷积层是指每一个空洞卷积会与之前所有卷积层进行空间连接,从而输出包含多路空洞卷积层信息的特征图谱,并在经过1×1卷积调整通道数量之后输入到后面的所有卷积层;该模块能够提取并融合不同尺度大小的特征,并最终输出具有多接受场的全局高级语义信息的特征图谱;
运行顺序为将第一特征图谱F1作为输入,通过上述多路径扩张卷积层提取全局高级语义信息,并输出第二特征图谱F2,且F2具有和F1相同的图像大小。
步骤5、利用空间注意力机制和通道注意力机制对第二特征图谱F2进行加权,筛选第二特征图谱F2中所包含的全局高级语义信息,输出第三特征图谱F3,具体如下;
空间注意力机制模块中,S代表空间、H和W代表图像的宽高;通道注意力机制模块中,C代表通道;
对于输入F2 ϵℝC×H×W,将其分别通过两个注意力模块的1×1卷积,通过形变和转置形变操作获得新的特征图谱S1, S2, C1和C2,其中{S1, C1}ϵℝC×HW并且{S2, C2}ϵℝHW×C;然后使用矩阵乘法将S1, S2矩阵相乘产生空间注意力图谱S3ϵℝHW×HW;同时将C1, C2矩阵相乘产生通道注意力图谱C3ϵℝC×C,公式如下:
Figure 967947DEST_PATH_IMAGE020
其中
Figure 648327DEST_PATH_IMAGE010
表示第u个通道对第v个通道的影响,
Figure 653192DEST_PATH_IMAGE011
代表第u个空间区域对第v个空间区域的影响,将
Figure 91126DEST_PATH_IMAGE010
Figure 574060DEST_PATH_IMAGE011
通过图中形变层和SoftMax层得到
Figure 46630DEST_PATH_IMAGE012
Figure 723861DEST_PATH_IMAGE013
,再利用公式(5)、(6)中自学习因子
Figure 711409DEST_PATH_IMAGE014
Figure 935717DEST_PATH_IMAGE015
分别对
Figure 59530DEST_PATH_IMAGE012
Figure 406198DEST_PATH_IMAGE013
进行元素相乘,η
Figure 818725DEST_PATH_IMAGE016
为实验中设置的超参数;在得到空间域和频率域的结果特征图谱Sfinal和Cfinal后,再将两种特征图谱通过连接操作和卷积操作得到最终的注意力图谱F3,公式定义如下:
Figure 407576DEST_PATH_IMAGE021
步骤6、利用第三特征图谱F3、步骤3输出的包含低层次信息的特征图谱FC4、特征图谱FC7进行解码操作,逐步通过上采样操作和解码卷积网络恢复第三特征图谱F3的空间信息,并输出最终的高分辨率预测密度图,具体方法如下:
利用步骤3中输出的特征图谱FC4和特征图谱FC7作为解码器的构建基础,首先对输入特征图谱F3进行两倍的上采样操作输入到第一个1×1的卷积层当中调整通道数,并输出具有与FC7相同通道数的特征图谱F3_1,接着将F3_1与特征图谱FC7拼接之后进行两倍上采样操作,再输入到第二个1×1的卷积层当中调整通道数并输出具有与FC4相同通道数的特征图谱F3_2,将特征图谱F3_2与FC4进行拼接之后进行两倍上采样操作得到恢复了部分细节信息的特征图谱F3_3,最后将F3_3通过两个卷积层输出最终的高分辨率预测密度图。
步骤7、如图5所示,利用高分辨率密集人群预测密度图,对其像素值进行累加求和,得到最终密集人群的计数结果。左图时输入图像,中间为生成的密度图,右图时预测得到的F3,图像左下角为图像所对应的人群计数值。
表1本发明方法在数据集NWPU-Crowd数据集上的比较
Figure 589158DEST_PATH_IMAGE023
表1是本发明方法EBM-Net,与其他基于密度图和卷积神经网络的人群计数方法在数据集NWPU-Crowd上结果的比较。评测指标包括MAE表示平均单张图像计数误差人数,MSE表示平均计数的方差,NAE表示平均绝对误差。可以发现,本发明在三项指标上都取得了最高的排名,此外,在不同人群密度等级(S0-S4)的预测结果中,本发明也处于领先地位。这充分证明了本发明不仅能提高密集人群计数的效果,还能适应不同尺度不同密集程度的人群大小。
本发明利用编解码卷积神经网络提取人群图像的高分辨率特征,采用了密集连接空洞卷积层提取多感受野特征,并利用多路径解码模块和上采样操作恢复图像的空间信息,从而生成具有丰富细节信息的高分辨率预测密度图,有效的解决了图像尺度变化、人群场景密度不均匀和前后景纹理相似等情况带来的计数不准的问题。

Claims (7)

1.一种基于卷积神经网络的高分辨率密集目标计数方法,其特征在于,包括如下步骤:
步骤1、对输入图像的密度等级进行判定,确定密集人群图像;
步骤2、利用几何自适应高斯响应计数估计密集人群图像中单个人头的尺度大小,生成监督预测密度图;
步骤3、将监督预测密度图先通过VGG-16 Net主干网络提取部分底层特征信息,再通过一个空洞卷积网络来提取全局低层特征信息,并输出空洞卷积网络中第四卷积层输出的特征图谱FC4、第七卷积层输出的特征图谱FC7以及最终输出第一特征图谱F1
步骤4、基于紧密连接网络DenseNet构建多路径扩张卷积层,采用多路径扩张卷积层从第一特征图谱F1提取出具有多接受场的全局高级语义信息,并输出第二特征图谱F2
步骤5、利用空间注意力机制模块和通道注意力机制模块对第二特征图谱F2进行加权,筛选第二特征图谱F2中所包含的全局高级语义信息,输出第三特征图谱F3
步骤6、利用第三特征图谱F3、步骤3输出的包含低层次信息的特征图谱FC4、特征图谱FC7进行解码操作,逐步通过上采样操作和解码卷积网络恢复第三特征图谱F3的空间信息,并输出最终的高分辨率预测密度图;
步骤7、将高分辨率预测密度图的像素值进行累加求和,得到最终密集人群的计数结果。
2.根据权利要求1所述的基于卷积神经网络的高分辨率密集目标计数方法,其特征在于,步骤1所述对输入图像的密度等级进行判定,确定密集人群图像,具体如下:
利用图像分辨率和目标人数计算图像密度,z代表一张图像,ρ(z)为图像密度:
Figure 554904DEST_PATH_IMAGE001
式中,height、weight分别表示图像的宽、高包含的像素个数,number为图像中包含的目标人数;
设定阈值ε,若图像密度ρ(z)超过该阈值则判定输入图像为密集人群图像,进行密集目标计数;阈值ε根据不同的数据集和训练结果进行不同的设置。
3.根据权利要求1所述的基于卷积神经网络的高分辨率密集目标计数方法,其特征在于,步骤2中所述利用几何自适应高斯响应计数估计密集人群图像中单个人头的尺度大小,生成监督预测密度图,具体如下:
使用高斯模糊对头部标注进行模糊,并使监督预测密度图的分布遵循高斯均匀化,几何自适应高斯核定义为:
Figure 13567DEST_PATH_IMAGE002
其中,D(a)为生成的监督预测密度图,先计算当前人头a和图像中所有其他人头a k 的平均距离
Figure 621266DEST_PATH_IMAGE003
k=1,2,…,B-1,B为总人头数,高斯核函数的方差σ k 由平均距离
Figure 798170DEST_PATH_IMAGE004
乘以比例系数β得到,从而D(x)包含全局人头的像素分布,δ(·)为狄拉克函数,
Figure 782306DEST_PATH_IMAGE005
为方差为σ k 的高斯函数。
4.根据权利要求1所述的基于卷积神经网络的高分辨率密集目标计数方法,其特征在于,步骤3所述将监督预测密度图先通过VGG-16 Net主干网络提取部分底层特征信息,再通过一个空洞卷积网络来提取全局低层特征信息,并输出空洞卷积网络的第四卷积层输出特征图谱FC4、第七卷积层输出特征图谱FC7以及最终输出第一特征图谱F1,具体为:
首先利用VGG-16 Net网络的前10个卷积层和最大池化层提取部分底层特征信息,接着利用6层空洞卷积网络提取全局低层特征信息,从而扩大提取出来的特征图谱的接受域,并将输入图像的通道数由3通道变为64通道,使所提取的特征维持在原始图像的八分之一大小的分辨率水平,输出结果为第一特征图谱F1;同时输出空洞卷积网络层中第四层卷积层输出的特征图谱FC4和第七层卷积层输出的特征图谱FC7
5.根据权利要求1所述的基于卷积神经网络的高分辨率密集目标计数方法,其特征在于,步骤4所述基于紧密连接网络DenseNet构建多路径扩张卷积层,采用多路径扩张卷积层从第一特征图谱F1提取出具有多接受场的全局高级语义信息,并输出第二特征图谱F2,具体为:
基于紧密连接网络DenseNet构建多路径扩张卷积层,具体内部结构包含五层空洞卷积,空洞率分别为3、6、12、18和24,相邻空洞卷积之间用1×1卷积相连调整输入通道数,此处的多路径扩张卷积层是指每一个空洞卷积会与之前所有卷积层进行空间连接,从而输出包含多路空洞卷积层信息的特征图谱,并在经过1×1卷积调整通道数量之后输入到后面的所有卷积层;该模块能够提取并融合不同尺度大小的特征,并最终输出具有多接受场的全局高级语义信息的特征图谱;
运行顺序为将第一特征图谱F1作为输入,通过上述多路径扩张卷积层提取全局高级语义信息,并输出第二特征图谱F2,且F2具有和F1相同的图像大小。
6.根据权利要求1所述的基于卷积神经网络的高分辨率密集目标计数方法,其特征在于,步骤5所述利用空间注意力机制和通道注意力机制对第二特征图谱F2进行加权,筛选第二特征图谱F2中所包含的全局高级语义信息,输出第三特征图谱F3,具体如下;
空间注意力机制模块中,S代表空间、H和W代表图像的宽高;通道注意力机制模块中,C代表通道;
对于输入F2 ϵℝC×H×W,将其分别通过两个注意力模块的1×1卷积,通过形变和转置形变操作获得新的特征图谱S1, S2, C1和C2,其中{S1, C1}ϵℝC×HW并且{S2, C2}ϵℝHW×C;然后使用矩阵乘法将S1, S2矩阵相乘产生空间注意力图谱S3ϵℝHW×HW;同时将C1, C2矩阵相乘产生通道注意力图谱C3ϵℝC×C,公式如下:
Figure 95476DEST_PATH_IMAGE006
其中
Figure 874076DEST_PATH_IMAGE007
表示第u个通道对第v个通道的影响,
Figure 538276DEST_PATH_IMAGE008
代表第u个空间区域对第v个空间区域的影响,将
Figure 60524DEST_PATH_IMAGE009
Figure 493779DEST_PATH_IMAGE010
通过图中形变层和SoftMax层得到
Figure 443281DEST_PATH_IMAGE011
Figure 594776DEST_PATH_IMAGE012
,再利用公式(5)、(6)中自学习因子
Figure 389557DEST_PATH_IMAGE013
Figure 677319DEST_PATH_IMAGE014
分别对
Figure DEST_PATH_IMAGE015
Figure 656776DEST_PATH_IMAGE016
进行元素相乘,η
Figure 702092DEST_PATH_IMAGE017
为实验中设置的超参数;在得到空间域和频率域的结果特征图谱Sfinal和Cfinal后,再将两种特征图谱通过连接操作和卷积操作得到最终的注意力图谱F3,公式定义如下:
Figure 566143DEST_PATH_IMAGE018
7.根据权利要求1所述的基于卷积神经网络的高分辨率密集目标计数方法,其特征在于,步骤6中利用第三特征图谱F3、步骤3输出的包含低层次信息的特征图谱FC4、特征图谱FC7进行解码操作,逐步通过上采样操作和解码卷积网络恢复第三特征图谱F3的空间信息,并输出最终的高分辨率预测密度图,具体方法如下:
利用步骤3中输出的特征图谱FC4和特征图谱FC7作为解码器的构建基础,首先对输入特征图谱F3进行两倍的上采样操作输入到第一个1×1的卷积层当中调整通道数,并输出具有与FC7相同通道数的特征图谱F3_1,接着将F3_1与特征图谱FC7拼接之后进行两倍上采样操作,再输入到第二个1×1的卷积层当中调整通道数并输出具有与FC4相同通道数的特征图谱F3_2,将特征图谱F3_2与FC4进行拼接之后进行两倍上采样操作得到恢复了部分细节信息的特征图谱F3_3,最后将F3_3通过两个卷积层输出最终的高分辨率预测密度图。
CN202110775324.2A 2021-07-09 2021-07-09 基于卷积神经网络的高分辨率密集目标计数方法 Active CN113239904B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110775324.2A CN113239904B (zh) 2021-07-09 2021-07-09 基于卷积神经网络的高分辨率密集目标计数方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110775324.2A CN113239904B (zh) 2021-07-09 2021-07-09 基于卷积神经网络的高分辨率密集目标计数方法

Publications (2)

Publication Number Publication Date
CN113239904A true CN113239904A (zh) 2021-08-10
CN113239904B CN113239904B (zh) 2021-09-28

Family

ID=77141308

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110775324.2A Active CN113239904B (zh) 2021-07-09 2021-07-09 基于卷积神经网络的高分辨率密集目标计数方法

Country Status (1)

Country Link
CN (1) CN113239904B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113869181A (zh) * 2021-09-24 2021-12-31 电子科技大学 一种选择池化核结构的无人机目标检测方法
CN114264314A (zh) * 2021-12-24 2022-04-01 上海应用技术大学 危险品安全运输管理系统及方法
CN117253184A (zh) * 2023-08-25 2023-12-19 燕山大学 一种雾先验频域注意表征引导的雾天图像人群计数方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188685A (zh) * 2019-05-30 2019-08-30 燕山大学 一种基于双注意力多尺度级联网络的目标计数方法及系统
CN111460912A (zh) * 2020-03-12 2020-07-28 南京理工大学 基于级联高分辨卷积神经网络的密集人群计数算法
CN111507183A (zh) * 2020-03-11 2020-08-07 杭州电子科技大学 一种基于多尺度密度图融合空洞卷积的人群计数方法
CN113033342A (zh) * 2021-03-10 2021-06-25 西北工业大学 基于密度估计的拥挤场景行人目标检测与计数方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188685A (zh) * 2019-05-30 2019-08-30 燕山大学 一种基于双注意力多尺度级联网络的目标计数方法及系统
CN111507183A (zh) * 2020-03-11 2020-08-07 杭州电子科技大学 一种基于多尺度密度图融合空洞卷积的人群计数方法
CN111460912A (zh) * 2020-03-12 2020-07-28 南京理工大学 基于级联高分辨卷积神经网络的密集人群计数算法
CN113033342A (zh) * 2021-03-10 2021-06-25 西北工业大学 基于密度估计的拥挤场景行人目标检测与计数方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JUN FU等: "Dual Attention Network for scene segmentation", 《HTTPS://ARXIV.ORG/ABS/1809.02983.PDF》 *
YINGYING ZHANG等: "Sing-Image crowd counting via multi-coumn convolutional neural network", 《2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
YUHONG LI等: "《CSRNet: Dilated Convolutional Neural Networks for Understanding the Highly》", 《HTTPS//ARXIV.ORG/PDF/1809.02983.PDF》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113869181A (zh) * 2021-09-24 2021-12-31 电子科技大学 一种选择池化核结构的无人机目标检测方法
CN113869181B (zh) * 2021-09-24 2023-05-02 电子科技大学 一种选择池化核结构的无人机目标检测方法
CN114264314A (zh) * 2021-12-24 2022-04-01 上海应用技术大学 危险品安全运输管理系统及方法
CN117253184A (zh) * 2023-08-25 2023-12-19 燕山大学 一种雾先验频域注意表征引导的雾天图像人群计数方法
CN117253184B (zh) * 2023-08-25 2024-05-17 燕山大学 一种雾先验频域注意表征引导的雾天图像人群计数方法

Also Published As

Publication number Publication date
CN113239904B (zh) 2021-09-28

Similar Documents

Publication Publication Date Title
CN113239904B (zh) 基于卷积神经网络的高分辨率密集目标计数方法
CN110378844B (zh) 基于循环多尺度生成对抗网络的图像盲去运动模糊方法
CN113936339B (zh) 基于双通道交叉注意力机制的打架识别方法和装置
CN111611878B (zh) 一种基于视频图像的人群计数和未来人流量预测的方法
CN111563447B (zh) 一种基于密度图的人群密度分析与检测定位方法
CN107862261A (zh) 基于多尺度卷积神经网络的图像人群计数方法
CN110705340B (zh) 一种基于注意力神经网络场的人群计数方法
CN110084201B (zh) 一种监控场景下基于特定目标跟踪的卷积神经网络的人体动作识别方法
CN111460912A (zh) 基于级联高分辨卷积神经网络的密集人群计数算法
CN109993269A (zh) 基于注意力机制的单张图像人群计数方法
CN108491766A (zh) 一种端到端的基于深度决策森林的人群计数方法
CN110532959B (zh) 基于双通道三维卷积神经网络的实时暴力行为检测系统
CN114898284B (zh) 一种基于特征金字塔局部差异注意力机制的人群计数方法
CN111079539A (zh) 一种基于异常追踪的视频异常行为检测方法
CN115063786A (zh) 一种高位远景模糊车牌检测方法
CN110991317A (zh) 一种基于多尺度透视感知型网络的人群计数方法
CN115424209A (zh) 一种基于空间金字塔注意力网络的人群计数方法
CN111931722A (zh) 一种结合颜色比率特征的相关滤波跟踪方法
CN111401209B (zh) 一种基于深度学习的动作识别方法
Son et al. Partial convolutional LSTM for spatiotemporal prediction of incomplete data
CN111428809A (zh) 基于空间信息融合与卷积神经网络的人群计数方法
CN116403152A (zh) 一种基于空间上下文学习网络的人群密度估计方法
Huang et al. Drone-based car counting via density map learning
CN116148864A (zh) 一种基于DyConvGRU和Unet的预测细化结构的雷达回波外推方法
CN115953736A (zh) 一种基于视频监控与深度神经网络的人群密度估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant