CN113011329A - 一种基于多尺度特征金字塔网络及密集人群计数方法 - Google Patents

一种基于多尺度特征金字塔网络及密集人群计数方法 Download PDF

Info

Publication number
CN113011329A
CN113011329A CN202110293926.4A CN202110293926A CN113011329A CN 113011329 A CN113011329 A CN 113011329A CN 202110293926 A CN202110293926 A CN 202110293926A CN 113011329 A CN113011329 A CN 113011329A
Authority
CN
China
Prior art keywords
feature
channel
map
feature map
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110293926.4A
Other languages
English (en)
Other versions
CN113011329B (zh
Inventor
雷涛
张栋
孙瑞
王兴武
杜晓刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi University of Science and Technology
Original Assignee
Shaanxi University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi University of Science and Technology filed Critical Shaanxi University of Science and Technology
Priority to CN202110293926.4A priority Critical patent/CN113011329B/zh
Publication of CN113011329A publication Critical patent/CN113011329A/zh
Application granted granted Critical
Publication of CN113011329B publication Critical patent/CN113011329B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Abstract

本发明公开了一种基于多尺度特征金字塔网络及密集人群计数方法,目的在于解决复杂拥挤场景中密度图估计和人群计数问题,本发明利用特征提取模块对人群图像进行特征提取;利用特征金字塔融合模块有效捕获人群图像中多尺度上下文信息,进一步获取更好的特征表达;利用特征注意力感知模块聚焦人群图像中高密度位置,降低背景干扰;使用双线性差值将图像恢复到原始尺寸;输出预测密度图并统计人头数量,有效解决了密集场景中由于人头尺度变化较大、人群遮挡严重、光照条件差造成人群计数困难的问题,并且提高了模型对于噪声的鲁棒性,能够实现人群精确计数以及密度图的高质量预测,由于本发明利用分组卷积模块,因此具有较快的推理速度。

Description

一种基于多尺度特征金字塔网络及密集人群计数方法
技术领域
本发明属于图像处理领域,具体涉及一种基于多尺度特征金字塔网络及密集人群计数方法。
背景技术
密集人群分析在视频监控、交通疏导、公共安全防控以及智能环境设计等方面具有重要的应用价值。常见的密集人群分析任务主要包括人群计数、人群图像分割、人群检测及跟踪、人群行为识别和定位等方面。其中,人群计数是密集人群分析领域的一项基本任务。但是现实场景中,仍然存在因为拍摄视角及距离不同而导致图像中人头尺度变化较大的问题;此外拥挤场景中也存在背景变化复杂、人体严重遮挡等问题。这些问题对当前的人群计数模型的提出具有很大的挑战。当前的计数模型主要分为基于回归、基于检测以及基于密度图估计。
传统人群计数问题主要涉及基于回归和基于检测的方法。基于检测的方法是通过动态框检测器检测行人头部或外观形态的方式来计算人数。这些方法在稀疏场景下卓有成效,然而在人体严重遮挡以及背景复杂的场景下表现不佳。基于回归的方法是通过学习图像浅层特征与人群数量之间的映射关系,构造回归模型进行计数,如高斯混合回归、线性回归等。尽管这些基于回归的方法可以处理复杂场景下的密集人群计数问题,但是依赖于图像中的底层信息,忽略了图像空间位置的相关性,导致模型泛化能力和准确性较差。
随着社会经济和城市化的发展,人群聚集性活动日益频繁,单一的人群计数不能满足我们应对拥挤复杂场景问题的需求。因为计数仅侧重于整体情况的表示,密度图不仅能通过对整个图像的积分来预估人数而且能精细化局部位置的分布。因此,人群计数任务已经从简单的计数发展到能够代表复杂人群分布特征的密度图预测。由于传统基于密度图估计的方法依赖于手动提取的低级特征信息,对于具有高密度分布的场景准确性较低。随着深度学习在计算机视觉中的飞速发展,全卷积神经网络(Fully Convolutional NeuralNetwork,FCN)被广泛应用于像素级分类,因此,这一类模型也被拓展到密集人群分析领域。基于全卷积神经网络的人群密度图估计的方法可大致分为多列及单列模型。针对密集人群计数,相关技术公开了一种面向密集人群计数的多列卷积神经网络(Multi-columnConvolutional Neural Network,MCNN),该网络利用三列不同大小的卷积核(3×3,5×5,7×7)来提取图像中多尺度人头特征信息,然后将多尺度特征图直接进行拼接融合。最后,使用1×1卷积核进行解码得到预测密度图。由于该网络使用不同尺度的卷积核以获得丰富的感受野,进而实现了更为精确的人群密度估计。然而当网络较深时,臃肿的多列网络结构会导致参数和计算量的增加,使模型的复杂度变高。另外,将多尺度信息直接融合而不加甄别会导致信息冗余,模型对于背景噪声鲁棒性较差。
单列结构通常具有更深的网络分层,这种结构在不增加网络复杂性的同时可以提升特征表达能力。为了更有效的提取图像中的多尺度信息,研究者们提出利用级联小尺寸膨胀卷积来扩大感受野,相关技术还公开了一种空间全卷积网络(Spatial FullyConvolutional Network,SFCN),该网络使用膨胀率为2的膨胀卷积和空间编码器来整合全局上下文信息,膨胀卷积在不增加参数的情况下可以扩大感受野以提取多尺度特征,空间编码器考虑图像中局部位置之间的相关性以获得更好的特征表达。该方法能有效提升密度图预测任务的精度,然而该网络仅使用常规的卷积核进行卷积,因此不能更有效提取到丰富的多尺度特征,而没有考虑通道与空间之间的相互依赖性导致模型抗干扰能力差。
由于密集人群场景中人头尺度信息变化较大并且背景复杂,因此常规卷积的重复使用难以提取到丰富的多尺度特征。直接对特征图进行相加或堆叠的方式忽略了特征之间的空间相关性,导致信息冗余,使网络模型对背景噪声的鲁棒性差。据此,对于尺度变化较大和具有复杂背景的图像,如何提取图像多尺度特征进行上下文信息整合以及降低背景噪声的干扰显得尤为重要。
发明内容
为了解决现有技术中的问题,本发明提供了一种基于多尺度特征金字塔网络及密集人群计数方法,能够有效地解决拥挤场景中人群计数和密度图预测困难的问题,提高了对于噪声的鲁棒性,能够实现人群精确计数以及密度图的高质量预测。
为了实现以上目的,本发明提供了一种基于多尺度特征金字塔网络,包括特征提取模块、特征金字塔融合模块、特征注意力感知模块和输出模块,所述特征提取模块用于对输入的人群图像进行特征提取并输出特征图;所述特征金字塔融合模块用于对所述特征提取模块输出的特征图进行多尺度信息提取并输出多尺度信息特征图,所述特征金字塔融合模块采用变化膨胀率的卷积核,对输入的特征图进行分组并行卷积,捕获多尺度信息;所述特征注意力感知模块用于对所述特征金字塔融合模块输出的多尺度信息特征图通过动态聚焦图像中关键高密度分布位置选择不同尺度信息,学习空间与通道之间的视觉相关性,输出空间通道相关特征图;所述输出模块用于对所述特征注意力感知模块输出的空间通道相关特征图采用1×1卷积进行降维,再使用双线性插值方法输出预测密度图。
进一步地,所述特征提取模块为VGG16的前十层。
进一步地,所述特征金字塔融合模块包括四个卷积层,在每层中将特征图按照比例进行分块,再对每一块进行分组膨胀卷积。
进一步地,所述特征金字塔融合模块的多尺度信息提取包括:
1)输入特征图的通道数量为M,在第一层将特征图分为4块,每块特征图通道的数量为C1,C2,C3,C4,其中C1+C2+C3+C4=M,所有卷积核为带有不同膨胀率r(r=1,2,3,4)的3×3卷积核,分组数G以2n的形式增长;
2)将第一层输出的特征图作为第二层的输入,第二层将特征图分为3块,卷积核尺寸为3×3,膨胀率r和分组数G从1开始逐渐增长;
3)将第二层输出的特征图作为第三层的输入,第三层将特征图分为2块,执行分组数分别为1和2,膨胀率分别为1和2的卷积运算;
4)将第三层输出的特征图作为第四层的输入,第四层采用分组数G为1的标准卷积。
进一步地,所述特征金字塔融合模块中输入的特征图x经过所述特征金字塔模块输出的多尺度信息特征图yi(x)定义如下:
Figure BDA0002983581940000041
其中,PGconv(x,Ni,Gi,ri)为金字塔式分组膨胀卷积,L为层数,Ni为分块数,ri为膨胀率,Gi为每次卷积运算的分组数。
进一步地,所述特征金字塔融合模块中金字塔分组卷积计算量被定义为:
Figure BDA0002983581940000042
其中,N为按比例分的块数,Gi,Ki,
Figure BDA0002983581940000043
分别为第i次金字塔分组卷积的分组数、卷积核大小、输入通道数和输出通道数,1≤i≤N。
进一步地,所述特征注意力感知模块包括并行的位置注意力机制和通道注意力机制,利用位置注意力机制得到位置注意力特征图,利用通道注意力机制得到通道注意力特征图,然后将位置注意力特征图和通道注意力特征图进行融合进行输出。
进一步地,所述位置注意力机制包括:
首先将特征图
Figure BDA0002983581940000051
输入到一个卷积层中以获得两个特征图(G1,G2),将特征图降维到
Figure BDA0002983581940000052
空间中,C为特征图的通道数,H×W表示为空间维度,N=H×W代表像素点的数量;然后对G2的转置和G1执行矩阵相乘运算,即:
Figure BDA0002983581940000053
其次将得到的特征图输入到一个归一化层获得空间相关矩阵
Figure BDA0002983581940000054
Figure BDA0002983581940000055
其中
Figure BDA0002983581940000056
表示第j个位置和第i个位置之间的相关性(1≤i,j≤N),
Figure BDA0002983581940000057
表示特征图G1中第i个空间位置的值,
Figure BDA0002983581940000058
表示特征图G2中第j个空间位置的值
Figure BDA0002983581940000059
再次将G1和W(s)进行矩阵的乘法,即:G1×W(s),并且将得到的结果恢复到
Figure BDA00029835819400000510
获得局部位置相关性矩阵G(s),接下来将得到的结果乘以一个空间比例系数μ;最后与原图G进行逐像素相加以得到最终位置注意力特征图
Figure BDA00029835819400000511
其中位置比例系数μ为从0开始逐渐学习的参数;
所述通道注意力机制包括:
首先将得到的特征图
Figure BDA00029835819400000512
输入到一个卷积层中获得两个特征图F1和F2
Figure BDA00029835819400000513
将其变形到
Figure BDA00029835819400000514
空间,其中N=H×W表示图像中像素点的数量;然后执行矩阵的乘法即
Figure BDA00029835819400000515
获得全局相关性矩阵
Figure BDA00029835819400000516
将其输入到归一化层,定义为
Figure BDA00029835819400000517
其中
Figure BDA00029835819400000518
表示第j个通道在第i个通道上的权重关系(1≤i,j≤C),
Figure BDA00029835819400000519
表示特征图F1中第i个通道的特征图,
Figure BDA00029835819400000520
表示特征图F2中第j个通道的特征图;其次执行矩阵相乘W(c)×F2将其恢复到
Figure BDA00029835819400000521
获得通道之间的相关特征图F(c),对其乘以一个通道比例系数ρ;最后与原图进行逐像素相加
Figure BDA00029835819400000522
其中通道比例系数ρ从0开始逐渐进行学习;
所述位置注意力特征图和通道注意力特征图进行融合定义如下:
Figure BDA0002983581940000061
Figure BDA0002983581940000062
F′c表示最终的通道注意力特征图,G′s表示最终的位置注意力特征图,
Figure BDA0002983581940000063
表示拼接操作。
进一步地,所述预测密度图采用逐像素均方误差损失作为优化目标函数,优化模型参数θ,
Figure BDA0002983581940000064
其中B为批次大小,
Figure BDA0002983581940000065
为测试图像的真值标签密度图,
Figure BDA0002983581940000066
为预测密度图。
本发明还提供了一种采用上述基于多尺度特征金字塔网络的密集人群计数方法,包括以下步骤:
1)将密集人群图像输入到特征提取模块中获得特征图;
2)将得到的特征图输入特征金字塔融合模块中,捕获多尺度信息,得到多尺度信息特征图;
3)将得到的多尺度信息特征图输入到特征注意力感知模块中,利用注意力机制获得空间和通道之间的语义相关性,得到空间通道相关特征图;
4)在输出模块对空间通道相关特征图使用1×1卷积进行特征降维,再利用双线性插值将图像恢复到原始尺寸,输出预测的密度图并统计人数。
与现有技术相比,本发明在网络的编码结构中,提出特征金字塔融合模块,该模块采用变膨胀率的卷积核,对输入特征图进行分组并行卷积,能有效捕获图像多尺度上下文信息,获取更好的特征表达,解决了拥挤场景中由于视角不同而引起的多尺度问题。
在特征融合阶段,本发明引入特征注意力感知模块,通过动态聚焦图像中的高密度分布位置,有效选择不同尺度信息,学习空间与通道之间的视觉相关性,可以降低背景噪声的干扰,提高模型的鲁棒性。
本发明提出的基于多尺度特征金字塔网络(Multi-scale Feature PyramidNetwork,MFP-Net)采用并行卷积的方式,具有高效并行计算能力,能有效提升网络的训练和推理速度。
附图说明
图1是本发明的流程原理框图;
图2是本发明的特征金字塔融合模块的结构图;
图3是标准卷积和本发明的分组卷积的对比图;
图4是本发明的特征注意力感知模块的结构图;
图5是不同方法在NWPU-Crowd数据集上的可视化结果图,其中,第一行为原图,第二行为真值标签密度图,第三行为CSRNet方法预测的密度图,第四行是SFCN方法预测的密度图、第五行是SFCN+方法预测的密度图,第六行是本发明的MFP-Net方法预测的密度图,“GT count”表示真值标签的真实人数。
具体实施方式
下面结合说明书附图和具体的实施例对本发明作进一步地解释说明,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
由于拍摄视角及距离不同,因此图像中存在人头尺度变化较大、拥挤场景中背景变化复杂、人体遮挡严重等问题。尽管通过组合一些不同大小的标准卷积可以提取图像多尺度特征,但会造成模型训练困难、计算量和参数增加等问题。此外,如果将提取到的特征不进行区分并且不考虑特征之间的相关性而直接进行融合,则会导致网络模型对噪声的鲁棒性差。针对上述问题,本发明提供了一种基于多尺度特征金字塔网络及密集人群计数方法,本发明涉及卷积神经网络、计算机视觉、模式识别等技术,可应用于拥挤场景图像中的人群计数以及密度图估计。
参见图1,本发明的基于多尺度特征金字塔网络(Multi-scale Feature PyramidNetwork,MFP-Net)包括特征提取模块、特征金字塔融合模块、特征注意力感知模块和输出模块,特征提取模块用于对输入的人群图像进行特征提取并输出特征图;特征金字塔融合模块用于对特征提取模块输出的特征图进行多尺度信息提取并输出多尺度信息特征图,特征金字塔融合模块采用变化膨胀率的卷积核,对输入的特征图进行分组并行卷积,捕获多尺度信息;特征注意力感知模块用于对特征金字塔融合模块输出的多尺度信息特征图通过动态聚焦图像中关键高密度分布位置选择不同尺度信息,学习空间与通道之间的视觉相关性,输出空间通道相关特征图;输出模块用于特征注意力感知模块输出的空间通道相关特征图采用1×1卷积进行降维,再使用双线性插值方法输出预测密度图。特征提取模块为VGG16的前十层。特征金字塔融合模块包括四个卷积层,在每层中将特征图按照比例进行分块,再对每一块进行分组膨胀卷积。特征注意力感知模块包括并行的位置注意力机制和通道注意力机制,利用位置注意力机制得到位置注意力特征图,利用通道注意力机制得到通道注意力特征图,然后将位置注意力特征图和通道注意力特征图进行融合进行输出。
本发明的密集人群计数方法,首先通过特征提取模块对图像进行特征提取;其次将提取到的特征图输入特征金字塔融合模块中进行图像多尺度信息融合,该模块采用变化膨胀率的卷积核,对输入特征图进行分组并行卷积,能有效捕获图像多尺度上下文信息以获取更好的特征表达;然后将多尺度信息输入特征注意力感知模块中,该模块通过动态聚焦图像中关键高密度分布位置有效选择不同尺度信息,学习空间与通道之间的视觉相关性,可以降低背景噪声的干扰,提高模型的鲁棒性;最后输出模块利用1×1卷积对特征图进行降维,并使用双线性插值的方法将特征图恢复到原图尺寸以输出最终结果。与主流人群计数方法相比,本发明在人群计数方面能实现具有竞争力的结果,并且本发明采用并行卷积的方式,能有效提升网络的训练和推理速度。
具体包括:
(1)将VGG16的前十层作为特征提取模块,输入密集人群图像,输出特征图F;
(2)将得到的特征图F输入到特征金字塔融合模块中,进行多尺度信息提取,特征金字塔融合模块包括四个卷积层,在每层中将特征图按照比例进行分块,然后对每一块进行分组膨胀卷积。如图2所示,具体实现方式如下:
(a)输入特征图的通道数量为M,在第一层将特征图分为4块,每块特征图通道的数量为C1,C2,C3,C4,其中C1+C2+C3+C4=M,所有卷积核为带有不同膨胀率r(r=1,2,3,4)的3×3卷积核,这里分组数G以2n的形式增长,例如:G=(20,21,22,23)。
(b)将第一层输出的特征图作为第二层的输入,第二层将特征图分为3块,卷积核尺寸仍然为3×3,膨胀率r和分组数G从1开始逐渐增长。
(c)将第二层输出的特征图作为第三层的输入,第三层将特征图分为2块,对其执行分组数分别为1和2,膨胀率为1和2的卷积运算。
(d)将第三层输出的特征图作为第四层的输入,第四层采用分组数G为1的标准卷积。
这里输入特征图x经过特征金字塔模块输出特征图yi(x)定义如下:
Figure BDA0002983581940000091
其中PGconv(x,Ni,Gi,ri)为金字塔式分组膨胀卷积,L为层数,Ni为分块数,ri为膨胀率,Gi为每次卷积运算的分组数,在这里L,Ni,ri和Gi可以根据不同的任务进行灵活调整(1≤i≤L)。另外分组卷积具有并行计算的能力,可以提高网络的计算效率,如图3所示,将特征图分为两组进行卷积运算,其计算复杂度仅为标准卷积的1/2。分组卷积的计算量被定义为F(G,K,Cin,Cout)=(K2×Cin×Cout×H×W)/G,标准卷积的计算量为K2×Cin×Cout×H×W,其中G为分组数,K为卷积核大小,H和W为特征图的高和宽,Cin和Cout为输入和输出特征通道数。在此基础上,本发明使用的金字塔分组卷积计算量被定义为
Figure BDA0002983581940000101
N为按比例分的块数,Gi,Ki,
Figure BDA0002983581940000102
分别为第i次金字塔分组卷积的分组数、卷积核大小、输入输出通道数(1≤i≤N)。显然,金字塔分组卷积相比于标准卷积很大程度地减少了计算量。
(3)将特征金字塔融合模块输出的特征图输入到特征注意力感知模块中,该模块由位置注意力机制和通道注意力机制并行组成,根据图4具体描述如下:
(a)位置注意力机制:首先将特征图
Figure BDA0002983581940000103
输入到一个卷积层中以获得两个特征图(G1,G2),将特征图降维到
Figure BDA0002983581940000104
空间中,这里的C为特征图的通道数,H×W表示为空间维度,N=H×W代表像素点的数量;然后对G2的转置和G1执行矩阵相乘运算,即:
Figure BDA0002983581940000105
其次将得到的特征图输入到一个归一化层获得空间相关矩阵
Figure BDA0002983581940000106
其中
Figure BDA0002983581940000107
表示第j个位置和第i个位置之间的相关性(1≤i,j≤N),
Figure BDA0002983581940000108
表示特征图G1中第i个空间位置的值,
Figure BDA0002983581940000109
表示特征图G2中第j个空间位置的值
Figure BDA00029835819400001010
再次将G1和W(s)进行矩阵的乘法,即:G1×W(s),并且将得到的结果恢复到
Figure BDA00029835819400001011
获得局部位置相关性矩阵G(s),接下来将得到的结果乘以一个空间比例系数μ;最后为了保留更多的细节信息将与原图G进行逐像素相加以得到最终位置注意力特征图
Figure BDA00029835819400001012
Figure BDA00029835819400001013
其中位置比例系数μ为从0开始逐渐学习的参数。
(b)通道注意力机制:首先将得到的特征图
Figure BDA00029835819400001014
输入到一个卷积层中获得两个特征图F1和F2
Figure BDA00029835819400001015
将其变形到
Figure BDA00029835819400001016
空间,其中N=H×W表示图像中像素点的数量;然后执行矩阵的乘法即
Figure BDA00029835819400001017
获得全局相关性矩阵
Figure BDA0002983581940000111
将其输入到归一化层,定义为
Figure BDA0002983581940000112
其中
Figure BDA0002983581940000113
表示第j个通道在第i个通道上的权重关系(1≤i,j≤C),
Figure BDA0002983581940000114
表示特征图F1中第i个通道的特征图,
Figure BDA0002983581940000115
表示特征图F2中第j个通道的特征图;其次执行矩阵相乘W(c)×F2将其恢复到
Figure BDA0002983581940000116
获得通道之间的相关特征图F(c),对其乘以一个通道比例系数ρ;最后为保留更多的细节信息并与原图进行逐像素相加
Figure BDA0002983581940000117
Figure BDA0002983581940000118
其中通道比例系数ρ从0开始逐渐进行学习。
(c)特征融合:对特征注意力感知模块输出的特征图进行融合,定义如下:
Figure BDA0002983581940000119
F′c表示最终的通道注意力特征图,G′s表示最终的位置注意力特征图,
Figure BDA00029835819400001110
表示拼接操作。
(4)输出模块使用1×1卷积进行降维,然后使用双线性插值输出密度图,实现不同尺度信息的自适应融合。
(5)采用逐像素均方误差(MSE)损失作为MFP-Net的优化目标函数,优化模型参数θ,
Figure BDA00029835819400001111
其中B为批次大小,
Figure BDA00029835819400001112
为测试图像的真值标签密度图,
Figure BDA00029835819400001113
为预测密度图。
使用平均绝对误差(MAE)和均方误差(MSE)来评估本发明的性能,
Figure BDA00029835819400001114
其中N为测试集的样本数量,Yi为第i张测试图像的真实人数,
Figure BDA00029835819400001115
为模型的预估人头数,预估人头数是对得到的密度图进行积分。
本发明的效果可以通过以下实验进一步说明。
为了验证本发明对于密集人群的计数效果,在五个主流公开的数据集ShanghaiTech、NWPU-Crowd、UCF_CC_50、UCF-QRNF以及GCC上进行实验。ShanghaiTech数据集包含1198张图像,该数据集由A和B两部分组成,Part_A数据集包含482拥挤场景图像,并且尺寸大小不一致,其中300张用于训练,其余182张用于测试,在训练时将其随机裁剪为200×200的图像块。Part_B包含716张稀疏场景图像,400张用于训练,其余316张用于测试,图像尺寸大小为1024×768。NWPU-Crowd数据集共有5109张图像,351张负样本(即无人场景)为了进行数据增强,在训练过程中,将所有图像进行随机裁剪,尺寸为576×768。UCF_CC_50数据集中只有50张图像,采用5倍交叉验证的方法得到最终结果。UCF-QRNF总共有1535张高质量图像,在训练中,将图像随机裁剪为224×224的图像块,并采取0.5概率的水平翻转进行数据增强。GTA5 Crowd Counting(GCC)由15,212张图像组成,分辨率为1080×1920。将该数据集随机分为两组,训练集(75%),测试集(25%)。
本发明是基于深度学习的一个端到端的训练框架,将VGG16的前10层作为预训练模型进行微调,其他层采用标准差为0.01的高斯函数进行初始化。在训练过程中,本发明首先将真值标签转化为密度图,公式为
Figure BDA0002983581940000121
其中x表示像素点的位置,xi表示在注释图像δ中第i个人头的位置,
Figure BDA0002983581940000122
为高斯核卷积,σ为其标准差,统一设置为高斯核大小为15×15,σ为4。为了提高数据的多样性,采取0.5概率的水平翻转进行数据增强。在本发明中,采用Adam算法对MFP-Net进行优化,学习率lr=1×10-5,在显存为11GB的NVIDIA GTX2080 Ti上进行训练和评估,本发明是基于PyTorch 1.6.0框架实现。
为了进一步对比不同计数算法的性能,本发明采用四种算法指标对计数结果以及生成密度图结果进行测试,分别是均方误差(Mean Square Error,MSE)、平均绝对误差(Mean Absolute Error,MAE)、峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)、结构相似性(Structural SIMilarity,SSIM)。其中MSE和MAE的结果越小表示模型计数效果越好。PSNR和SSIM结果越大表示生成密度图的质量越高。另外,为了验证本发明相比其他主流技术的优越性,实验比较了不同网络结构的参数量以及计算量。
为了验证本发明提出模块的有效性,在ShanghaiTech数据集上进行了消融实验,表1中MFP-Net(A)表示将特征金字塔融合模块中的所有卷积操作替换为标准3×3卷积。MFP-Net(B)表示将特征金字塔融合模块中的所有卷积替换为膨胀率r=2的3×3卷积。MFP-Net(C)表示将特征感知注意力模块去掉。MFP-Net表示本发明的方法,其中的特征金字塔融合模块中膨胀率r=(1,2,3,4)。
表1在ShanghaiTech数据集上进行的消融实验结果
Figure BDA0002983581940000131
如表1所示,MFP-Net在ShanghaiTechPart_A的实验结果MAE为65.5,MSE为112.5,该结果相比于MFP-Net(A)分别提升24.7和47.5。在Part_B数据集上,MFP-Net实现了最好的结果,MAE和MSE分别为8.7和13.8,相比于MFP-Net(C)提升了2.3和1.3。总之,MFP-Net的实验结果优于MFP-Net(A),MFP-Net(B),这证明了本发明特征金字塔融合模块的有效性。MFP-Net的实验结果优于MFP-Net(C),这验证了本发明特征注意力感知模块的有效性。
将本发明MFP-Net在ShanghaiTech数据集上与主流技术MCNN,CSRNet,SFCN,SFCN+进行比较,如表2所示,其中“ImgNt”表示在ImageNet上进行预训练,“None”表示没有预训练。
表2在ShanghaiTech数据集上不同方法的对比实验结果。
Figure BDA0002983581940000132
Figure BDA0002983581940000141
从表2中可以看出,MFP-Net在密集场景Part A上具有最好的实验结果,相比于SFCN+在MAE指标上提升了2.6个点,在MSE指标上提升了0.8个点。MFP-Net在稀疏场景PartB上实现MSE为8.7,MAE为13.8,显然,本发明在不同尺度的场景下有更好的泛化能力,因为特征金字塔融合模块使用可变膨胀率的小尺寸卷积可以扩大感受野,提取拥挤图像中的多尺度信息,并且特征注意力感知模块结合两个域的注意力可以感知不同感受野下的特征,并且达到特征的自适应选择和融合,降低了背景的干扰。
将不同技术在NWPU-Crowd数据集上进行实验,结果如表3所示:
表3在NWPU-Crowd测试集上不同方法的对比实验结果
Figure BDA0002983581940000142
从表3可以看出,MFP-Net实现了最好的MAE为90.3,相比于SFCN+提升了4.7个点。本发明实现了最好的PSNR和SSIM,分别为30.61,0.955。本发明在特征融合阶段使用了特征注意力感知模块,有效结合了空间上下文信息以及局部位置信息,降低了噪声的干扰,实现了高质量的密度图预测。
不同网络模型的计算效率对比结果如表4所示:
表4不同网络模型的计算效率对比结果
Model operations(GFLOPs) parameters(M) storage usage(MB)
CSRNet 182.82 16.26 62.05
SFCN 183.83 16.33 62.34
SFCN+ 273.42 38.59 147.75
MFP-Net 128.55 8.41 32.10
本发明的特征金字塔融合模块采用分组卷积,具有较高的计算效率和较小的参数量,如表4所示,将输入图像大小统一设置为576×768×3,根据实验结果本发明的计算量为128.55GFLOPs,参数量为8.41M,比主流的方法计算效率更快,模型更加轻量化。
采用不同方法在NWPU-Crowd数据集上输出的密度图的进行对比,结果如图5所示,图5中第一行为原图,第二行为真值标签密度图,第三行为CSRNet方法预测的密度图,第四行是SFCN方法预测的密度图、第五行是SFCN+方法预测的密度图,第六行是本发明的MFP-Net方法预测的密度图,“GT count”表示真值标签的真实人数,图5中第一列是一个负样本,其纹理信息与密集人群相似。由于CSRNet直接对提取的特征进行融合,不进行区分,导致预测结果较差。SFCN和SFCN+采用空间编码器结构对上下文信息进行编码,对噪声抑制效果优于CSRNet。本发明提供了比SFCN+更好的结果,因为MFP-Net利用特征注意力感知算法对密集人群图像中的多尺度信息进行自适应动态感知,因此,提高了模型对噪声的鲁棒性。在第二列中,由于CSRNet,SFCN和SFCN+忽略了图像中一些严重遮挡的位置,因此预测结果较差。相比之下,MFP-Net充分利用了人群图像中的上下文关系,因此它得到的预测结果效果优于CSRNet和SFCN+。如图5中第三列和第五列所示,在光照条件极差的情况下,本发明仍然取得了很好的预测结果,这表明我们的模型具有较强的鲁棒性。第四列是一个高度拥挤的场景,所提出的MFP-Net比SFCN+有更好的人群计数精度。
在其他主流数据集上进行实验,结果如表5所示:
表5在其它主流数据集上不同方法的对比实验结果
Figure BDA0002983581940000151
Figure BDA0002983581940000161
从表5中可以看出,本发明的MFP-Net在UCF-QRNF数据集上获得的MAE/MSE为112.2/190.7,在GCC上获得的MAE/MSE为28.2/70.1。但是由于样本不平衡和数据集中的图像数量较少,因此本发明在UCF_CC_50数据集上的预测结果不是最佳的。实验表明,本发明相比于其他技术实现了具有竞争力的结果,具有较高的实用价值。
本发明有效解决了密集场景中由于人头尺度变化较大、人群遮挡严重、光照条件差造成人群计数困难的问题,并且提高了模型对于噪声的鲁棒性,能够实现人群精确计数以及密度图的高质量预测,由于本发明利用分组卷积模块,因此模型具有较快的推理速度。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims (10)

1.一种基于多尺度特征金字塔网络,其特征在于,包括特征提取模块、特征金字塔融合模块、特征注意力感知模块和输出模块,所述特征提取模块用于对输入的人群图像进行特征提取并输出特征图;所述特征金字塔融合模块用于对所述特征提取模块输出的特征图进行多尺度信息提取并输出多尺度信息特征图,所述特征金字塔融合模块采用变化膨胀率的卷积核,对输入的特征图进行分组并行卷积,捕获多尺度信息;所述特征注意力感知模块用于对所述特征金字塔融合模块输出的多尺度信息特征图通过动态聚焦图像中关键高密度分布位置选择不同尺度信息,学习空间与通道之间的视觉相关性,输出空间通道相关特征图;所述输出模块用于对所述特征注意力感知模块输出的空间通道相关特征图采用1×1卷积进行降维,再使用双线性插值方法输出预测密度图。
2.根据权利要求1所述的一种基于多尺度特征金字塔网络,其特征在于,所述特征提取模块为VGG16的前十层。
3.根据权利要求1所述的一种基于多尺度特征金字塔网络,其特征在于,所述特征金字塔融合模块包括四个卷积层,在每层中将特征图按照比例进行分块,再对每一块进行分组膨胀卷积。
4.根据权利要求3所述的一种基于多尺度特征金字塔网络,其特征在于,所述特征金字塔融合模块的多尺度信息提取包括:
1)输入特征图的通道数量为M,在第一层将特征图分为4块,每块特征图通道的数量为C1,C2,C3,C4,其中C1+C2+C3+C4=M,所有卷积核为带有不同膨胀率r(r=1,2,3,4)的3×3卷积核,分组数G以2n的形式增长;
2)将第一层输出的特征图作为第二层的输入,第二层将特征图分为3块,卷积核尺寸为3×3,膨胀率r和分组数G从1开始逐渐增长;
3)将第二层输出的特征图作为第三层的输入,第三层将特征图分为2块,执行分组数分别为1和2,膨胀率分别为1和2的卷积运算;
4)将第三层输出的特征图作为第四层的输入,第四层采用分组数G为1的标准卷积。
5.根据权利要求4所述的一种基于多尺度特征金字塔网络,其特征在于,所述特征金字塔融合模块中输入的特征图x经过所述特征金字塔模块输出的多尺度信息特征图yi(x)定义如下:
Figure FDA0002983581930000021
其中,PGconv(x,Ni,Gi,ri)为金字塔式分组膨胀卷积,L为层数,Ni为分块数,ri为膨胀率,Gi为每次卷积运算的分组数。
6.根据权利要求4所述的一种基于多尺度特征金字塔网络,其特征在于,所述特征金字塔融合模块中金字塔分组卷积计算量被定义为:
Figure FDA0002983581930000022
其中,N为按比例分的块数,Gi,Ki,
Figure FDA0002983581930000023
分别为第i次金字塔分组卷积的分组数、卷积核大小、输入通道数和输出通道数,1≤i≤N。
7.根据权利要求1所述的一种基于多尺度特征金字塔网络,其特征在于,所述特征注意力感知模块包括并行的位置注意力机制和通道注意力机制,利用位置注意力机制得到位置注意力特征图,利用通道注意力机制得到通道注意力特征图,然后将位置注意力特征图和通道注意力特征图进行融合进行输出。
8.根据权利要求7所述的一种基于多尺度特征金字塔网络,其特征在于,所述位置注意力机制包括:
首先将特征图
Figure FDA0002983581930000024
输入到一个卷积层中以获得两个特征图(G1,G2),将特征图降维到
Figure FDA0002983581930000031
空间中,C为特征图的通道数,H×W表示为空间维度,N=H×W代表像素点的数量;然后对G2的转置和G1执行矩阵相乘运算,即:
Figure FDA0002983581930000032
其次将得到的特征图输入到一个归一化层获得空间相关矩阵
Figure FDA0002983581930000033
Figure FDA0002983581930000034
其中
Figure FDA0002983581930000035
表示第j个位置和第i个位置之间的相关性(1≤i,j≤N),
Figure FDA0002983581930000036
表示特征图G1中第i个空间位置的值,
Figure FDA0002983581930000037
表示特征图G2中第j个空间位置的值
Figure FDA0002983581930000038
再次将G1和W(s)进行矩阵的乘法,即:G1×W(s),并且将得到的结果恢复到
Figure FDA0002983581930000039
获得局部位置相关性矩阵G(s),接下来将得到的结果乘以一个空间比例系数μ;最后与原图G进行逐像素相加以得到最终位置注意力特征图
Figure FDA00029835819300000310
其中位置比例系数μ为从0开始逐渐学习的参数;
所述通道注意力机制包括:
首先将得到的特征图
Figure FDA00029835819300000311
输入到一个卷积层中获得两个特征图F1和F2
Figure FDA00029835819300000312
将其变形到
Figure FDA00029835819300000313
空间,其中N=H×W表示图像中像素点的数量;然后执行矩阵的乘法即
Figure FDA00029835819300000314
获得全局相关性矩阵
Figure FDA00029835819300000315
将其输入到归一化层,定义为
Figure FDA00029835819300000316
其中
Figure FDA00029835819300000317
表示第j个通道在第i个通道上的权重关系(1≤i,j≤C),
Figure FDA00029835819300000318
表示特征图F1中第i个通道的特征图,
Figure FDA00029835819300000319
表示特征图F2中第j个通道的特征图;其次执行矩阵相乘W(c)×F2将其恢复到
Figure FDA00029835819300000320
获得通道之间的相关特征图F(c),对其乘以一个通道比例系数ρ;最后与原图进行逐像素相加
Figure FDA00029835819300000321
其中通道比例系数ρ从0开始逐渐进行学习;
所述位置注意力特征图和通道注意力特征图进行融合定义如下:
Figure FDA00029835819300000322
Figure FDA00029835819300000323
F′c表示最终的通道注意力特征图,G′s表示最终的位置注意力特征图,
Figure FDA00029835819300000324
表示拼接操作。
9.根据权利要求1所述的一种基于多尺度特征金字塔网络,其特征在于,所述预测密度图采用逐像素均方误差损失作为优化目标函数,优化模型参数θ,
Figure FDA0002983581930000041
Figure FDA0002983581930000042
其中B为批次大小,
Figure FDA0002983581930000043
为测试图像的真值标签密度图,
Figure FDA0002983581930000044
为预测密度图。
10.一种采用权利要求1至9中任一项所述的一种基于多尺度特征金字塔网络的密集人群计数方法,其特征在于,包括以下步骤:
1)将密集人群图像输入到特征提取模块中获得特征图;
2)将得到的特征图输入特征金字塔融合模块中,捕获多尺度信息,得到多尺度信息特征图;
3)将得到的多尺度信息特征图输入到特征注意力感知模块中,利用注意力机制获得空间和通道之间的语义相关性,得到空间通道相关特征图;
4)在输出模块对空间通道相关特征图使用1×1卷积进行特征降维,再利用双线性插值将图像恢复到原始尺寸,输出预测的密度图并统计人数。
CN202110293926.4A 2021-03-19 2021-03-19 一种基于多尺度特征金字塔网络及密集人群计数方法 Active CN113011329B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110293926.4A CN113011329B (zh) 2021-03-19 2021-03-19 一种基于多尺度特征金字塔网络及密集人群计数方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110293926.4A CN113011329B (zh) 2021-03-19 2021-03-19 一种基于多尺度特征金字塔网络及密集人群计数方法

Publications (2)

Publication Number Publication Date
CN113011329A true CN113011329A (zh) 2021-06-22
CN113011329B CN113011329B (zh) 2024-03-12

Family

ID=76402840

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110293926.4A Active CN113011329B (zh) 2021-03-19 2021-03-19 一种基于多尺度特征金字塔网络及密集人群计数方法

Country Status (1)

Country Link
CN (1) CN113011329B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113538402A (zh) * 2021-07-29 2021-10-22 燕山大学 一种基于密度估计的人群计数方法及系统
CN113887536A (zh) * 2021-12-06 2022-01-04 松立控股集团股份有限公司 一种基于高层语义引导的多阶段高效人群密度估计方法
CN114399728A (zh) * 2021-12-17 2022-04-26 燕山大学 一种雾天场景人群计数方法
CN114758306A (zh) * 2022-06-16 2022-07-15 松立控股集团股份有限公司 一种基于金字塔特征融合的人群密度估计方法
CN114898284A (zh) * 2022-04-08 2022-08-12 西北工业大学 一种基于特征金字塔局部差异注意力机制的人群计数方法
CN115619776A (zh) * 2022-12-02 2023-01-17 湖北凯乐仕通达科技有限公司 基于深度学习的物品计数方法和装置
CN115661429A (zh) * 2022-11-11 2023-01-31 四川川锅环保工程有限公司 一种锅炉水冷壁管缺陷识别系统、方法和存储介质
CN117115723A (zh) * 2023-10-23 2023-11-24 四川泓宝润业工程技术有限公司 一种消防设施计数方法、装置、存储介质及电子设备

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180005071A1 (en) * 2013-06-25 2018-01-04 University Of Central Florida Research Foundation, Inc. Multi-Source, Multi-Scale Counting in Dense Crowd Images
EP3391290A1 (en) * 2015-12-16 2018-10-24 Intel Corporation Fully convolutional pyramid networks for pedestrian detection
CN108921822A (zh) * 2018-06-04 2018-11-30 中国科学技术大学 基于卷积神经网络的图像目标计数方法
CN108921830A (zh) * 2018-06-21 2018-11-30 北京信息科技大学 一种基于图像检索的人数统计方法
CN109284670A (zh) * 2018-08-01 2019-01-29 清华大学 一种基于多尺度注意力机制的行人检测方法及装置
CN109598220A (zh) * 2018-11-26 2019-04-09 山东大学 一种基于多元输入多尺度卷积的人数统计方法
CN109948553A (zh) * 2019-03-20 2019-06-28 北京航空航天大学 一种多尺度密集人群计数方法
US20190377940A1 (en) * 2018-06-12 2019-12-12 Capillary Technologies International Pte Ltd People detection system with feature space enhancement
CN111259836A (zh) * 2020-01-20 2020-06-09 浙江大学 一种基于动态图卷积表征的视频行人重识别方法
CN111353433A (zh) * 2020-02-28 2020-06-30 江南大学 一种基于对抗尺度一致性追求特征自学习的人群计数方法
CN111476188A (zh) * 2020-04-14 2020-07-31 山东师范大学 基于特征金字塔的人群计数方法、系统、介质及电子设备
CN111488827A (zh) * 2020-04-10 2020-08-04 山东师范大学 一种基于多尺度特征信息的人群计数方法及系统
CN111626237A (zh) * 2020-05-29 2020-09-04 中国民航大学 基于增强型多尺度感知网络的人群计数方法及系统
CN111783589A (zh) * 2020-06-23 2020-10-16 西北工业大学 基于场景分类和多尺度特征融合的复杂场景人群计数方法
CN111814621A (zh) * 2020-06-29 2020-10-23 中国科学院合肥物质科学研究院 一种基于注意力机制的多尺度车辆行人检测方法及装置
KR20200136736A (ko) * 2019-05-28 2020-12-08 주식회사 엠제이비전테크 Cctv 영상 기반 딥 러닝을 이용한 다중객체 검출 시스템
CN112084868A (zh) * 2020-08-10 2020-12-15 北京航空航天大学 一种基于注意力机制的遥感图像中目标计数方法
KR20200143960A (ko) * 2019-06-17 2020-12-28 현대자동차주식회사 영상을 이용한 객체 인식 장치 및 그 방법
CN112446355A (zh) * 2020-12-15 2021-03-05 中电海康集团有限公司 一种公共场所行人识别方法及人流统计系统

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180005071A1 (en) * 2013-06-25 2018-01-04 University Of Central Florida Research Foundation, Inc. Multi-Source, Multi-Scale Counting in Dense Crowd Images
EP3391290A1 (en) * 2015-12-16 2018-10-24 Intel Corporation Fully convolutional pyramid networks for pedestrian detection
CN108921822A (zh) * 2018-06-04 2018-11-30 中国科学技术大学 基于卷积神经网络的图像目标计数方法
US20190377940A1 (en) * 2018-06-12 2019-12-12 Capillary Technologies International Pte Ltd People detection system with feature space enhancement
CN108921830A (zh) * 2018-06-21 2018-11-30 北京信息科技大学 一种基于图像检索的人数统计方法
CN109284670A (zh) * 2018-08-01 2019-01-29 清华大学 一种基于多尺度注意力机制的行人检测方法及装置
CN109598220A (zh) * 2018-11-26 2019-04-09 山东大学 一种基于多元输入多尺度卷积的人数统计方法
CN109948553A (zh) * 2019-03-20 2019-06-28 北京航空航天大学 一种多尺度密集人群计数方法
KR20200136736A (ko) * 2019-05-28 2020-12-08 주식회사 엠제이비전테크 Cctv 영상 기반 딥 러닝을 이용한 다중객체 검출 시스템
KR20200143960A (ko) * 2019-06-17 2020-12-28 현대자동차주식회사 영상을 이용한 객체 인식 장치 및 그 방법
CN111259836A (zh) * 2020-01-20 2020-06-09 浙江大学 一种基于动态图卷积表征的视频行人重识别方法
CN111353433A (zh) * 2020-02-28 2020-06-30 江南大学 一种基于对抗尺度一致性追求特征自学习的人群计数方法
CN111488827A (zh) * 2020-04-10 2020-08-04 山东师范大学 一种基于多尺度特征信息的人群计数方法及系统
CN111476188A (zh) * 2020-04-14 2020-07-31 山东师范大学 基于特征金字塔的人群计数方法、系统、介质及电子设备
CN111626237A (zh) * 2020-05-29 2020-09-04 中国民航大学 基于增强型多尺度感知网络的人群计数方法及系统
CN111783589A (zh) * 2020-06-23 2020-10-16 西北工业大学 基于场景分类和多尺度特征融合的复杂场景人群计数方法
CN111814621A (zh) * 2020-06-29 2020-10-23 中国科学院合肥物质科学研究院 一种基于注意力机制的多尺度车辆行人检测方法及装置
CN112084868A (zh) * 2020-08-10 2020-12-15 北京航空航天大学 一种基于注意力机制的遥感图像中目标计数方法
CN112446355A (zh) * 2020-12-15 2021-03-05 中电海康集团有限公司 一种公共场所行人识别方法及人流统计系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
韩萍,刘占锋,贾云飞,牛勇钢: "《多尺度特征融合的对抗神经网络人群计数算法》", 《中国民航大学学报》, vol. 39, no. 1, 28 February 2021 (2021-02-28), pages 17 - 22 *
马皓,殷保群,彭思凡: "《基于特征金字塔网络的人群计数算法》", 《计算机工程》, vol. 45, no. 7, 31 July 2019 (2019-07-31), pages 203 - 207 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113538402A (zh) * 2021-07-29 2021-10-22 燕山大学 一种基于密度估计的人群计数方法及系统
CN113538402B (zh) * 2021-07-29 2022-06-07 燕山大学 一种基于密度估计的人群计数方法及系统
CN113887536A (zh) * 2021-12-06 2022-01-04 松立控股集团股份有限公司 一种基于高层语义引导的多阶段高效人群密度估计方法
CN113887536B (zh) * 2021-12-06 2022-03-04 松立控股集团股份有限公司 一种基于高层语义引导的多阶段高效人群密度估计方法
CN114399728A (zh) * 2021-12-17 2022-04-26 燕山大学 一种雾天场景人群计数方法
CN114399728B (zh) * 2021-12-17 2023-12-05 燕山大学 一种雾天场景人群计数方法
CN114898284A (zh) * 2022-04-08 2022-08-12 西北工业大学 一种基于特征金字塔局部差异注意力机制的人群计数方法
CN114898284B (zh) * 2022-04-08 2024-03-12 西北工业大学 一种基于特征金字塔局部差异注意力机制的人群计数方法
CN114758306B (zh) * 2022-06-16 2022-08-23 松立控股集团股份有限公司 一种基于金字塔特征融合的人群密度估计方法
CN114758306A (zh) * 2022-06-16 2022-07-15 松立控股集团股份有限公司 一种基于金字塔特征融合的人群密度估计方法
CN115661429A (zh) * 2022-11-11 2023-01-31 四川川锅环保工程有限公司 一种锅炉水冷壁管缺陷识别系统、方法和存储介质
CN115661429B (zh) * 2022-11-11 2023-03-10 四川川锅环保工程有限公司 一种锅炉水冷壁管缺陷识别系统、方法和存储介质
CN115619776A (zh) * 2022-12-02 2023-01-17 湖北凯乐仕通达科技有限公司 基于深度学习的物品计数方法和装置
CN117115723A (zh) * 2023-10-23 2023-11-24 四川泓宝润业工程技术有限公司 一种消防设施计数方法、装置、存储介质及电子设备
CN117115723B (zh) * 2023-10-23 2024-01-23 四川泓宝润业工程技术有限公司 一种消防设施计数方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN113011329B (zh) 2024-03-12

Similar Documents

Publication Publication Date Title
CN113011329A (zh) 一种基于多尺度特征金字塔网络及密集人群计数方法
Liu et al. Crowd counting using deep recurrent spatial-aware network
CN110322446B (zh) 一种基于相似性空间对齐的域自适应语义分割方法
CN111639692B (zh) 一种基于注意力机制的阴影检测方法
CN111723693B (zh) 一种基于小样本学习的人群计数方法
CN111797841B (zh) 一种基于深度残差网络的视觉显著性检测方法
CN110532959B (zh) 基于双通道三维卷积神经网络的实时暴力行为检测系统
CN112329784A (zh) 一种基于时空感知及多峰响应的相关滤波跟踪方法
CN112084952B (zh) 一种基于自监督训练的视频点位跟踪方法
CN116740439A (zh) 一种基于跨尺度金字塔Transformer的人群计数方法
Aldhaheri et al. MACC Net: Multi-task attention crowd counting network
Gao et al. Adaptive random down-sampling data augmentation and area attention pooling for low resolution face recognition
CN117011655A (zh) 基于自适应区域选择特征融合方法、目标跟踪方法及系统
CN114612305B (zh) 一种基于立体图建模的事件驱动视频超分辨率方法
CN115953736A (zh) 一种基于视频监控与深度神经网络的人群密度估计方法
CN115631412A (zh) 基于坐标注意力和数据相关上采样的遥感图像建筑物提取方法
Li et al. A new algorithm of vehicle license plate location based on convolutional neural network
CN116403237A (zh) 一种基于关联信息与注意力机制的遮挡行人重识别方法
Wu et al. Video crowd counting via dynamic temporal modeling
CN115311327A (zh) 融合共现统计与fhog梯度特征的目标跟踪方法及系统
CN110503061B (zh) 一种融合多特征的多因素视频遮挡区域检测方法及系统
Tian et al. Lightweight dual-task networks for crowd counting in aerial images
Xiong et al. TFA-CNN: an efficient method for dealing with crowding and noise problems in crowd counting
Chen et al. Crowd Counting Based on Multiscale Spatial Guided Perception Aggregation Network
Xu et al. ESNet: An Efficient Framework for Superpixel Segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant