CN112801063A - 神经网络系统和基于神经网络系统的图像人群计数方法 - Google Patents

神经网络系统和基于神经网络系统的图像人群计数方法 Download PDF

Info

Publication number
CN112801063A
CN112801063A CN202110386075.8A CN202110386075A CN112801063A CN 112801063 A CN112801063 A CN 112801063A CN 202110386075 A CN202110386075 A CN 202110386075A CN 112801063 A CN112801063 A CN 112801063A
Authority
CN
China
Prior art keywords
module
convolution
image
density
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110386075.8A
Other languages
English (en)
Other versions
CN112801063B (zh
Inventor
张凯
贺甜甜
丁冬睿
逯天斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lingxin Huizhi Shandong Intelligent Technology Co ltd
Original Assignee
Guangdong Zhongju Artificial Intelligence Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Zhongju Artificial Intelligence Technology Co ltd filed Critical Guangdong Zhongju Artificial Intelligence Technology Co ltd
Priority to CN202110386075.8A priority Critical patent/CN112801063B/zh
Publication of CN112801063A publication Critical patent/CN112801063A/zh
Application granted granted Critical
Publication of CN112801063B publication Critical patent/CN112801063B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种神经网络系统和基于神经网络系统的图像人群计数方法。所述神经网络系统用于预测待预测人群图像的人群密度,包括:共享编码器,用于提取待预测人群图像的多尺度融合信息X’;密度特征预测分支,与所述共享编码器连接,用于获取所述待预测人群图像的S个密度特征图;像素级多尺度注意力分支,与所述共享编码器连接,用于获取所述待预测人群图像的S个注意力掩码;融合模块,与所述密度特征预测分支和所述像素级多尺度注意力分支连接,用于将所述S个密度特征图和所述S个注意力掩码进行融合。本发明考虑了像素级别的人群密度信息,并且融合了多尺度信息,提高了人群计数的精度。

Description

神经网络系统和基于神经网络系统的图像人群计数方法
技术领域
本发明实施例涉及计算机视觉技术领域,尤其涉及一种神经网络系统和基于神经网络系统的图像人群计数方法。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
随着社会的发展,城镇人口密度在持续快速地增长,城镇中大规模人口聚集场合也越来越多,及时高效地对人群密度进行监控管理能够有效的防止拥挤、踩踏等意外人身事故的发生,因此,近年来人群计数任务也受到了社会各界广泛的关注。图像人群计数方法可以在多种场景下稳定部署应用,例如应用在交通监测系统、安防机器人、商场安防系统等。
人群计数方法分为基于检测和回归的传统方法以及基于深度学习的计数方法。基于深度学习的方法在人群计数准确性方面较传统方法有明显的优势,也逐渐成为了主流。当我们在观察一副人群图像时,往往会结合各种局部细节来得到我们想要的信息。在计算机视觉领域中,这种给图像中各个局部区域赋予不同权重的方法称为注意力机制。
相关的基于深度学习的人群计数方法,在使用注意力机制时,往往是将人群图片分为不同人群密度等级的若干块,并分配不同的权重,这样做的缺点是与真实的基于像素的密度图不相匹配。此外,很多模型没有将不同卷积核大小的卷积所提取的多尺度图像特征进行精细化的处理。
发明内容
本发明提供一种神经网络系统和基于神经网络系统的图像人群计数方法,以解决现有技术中存在的上述问题。
第一方面,本发明实施例提供了一种神经网络系统。该系统用于预测待预测人群图像的人群密度,包括:
共享编码器,用于获取所述待预测人群图像,提取所述待预测人群图像的多尺度融合信息X’
密度特征预测分支,与所述共享编码器连接,将X’作为输入,用于基于X’获取所述待预测人群图像的S个密度特征图,其中,S为大于或等于1的整数;
像素级多尺度注意力分支,与所述共享编码器连接,将X’作为输入,用于基于X’获取所述待预测人群图像的S个注意力掩码,其中,每个密度特征图对应一个注意力掩码;
融合模块,与所述密度特征预测分支和所述像素级多尺度注意力分支连接,用于将所述S个密度特征图和所述S个注意力掩码进行融合,得到所述待预测人群图像的密度预测图。
在一实施例中,所述共享编码器包括:
第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块,其中,第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块串联,各自包括至少两个卷积层和一个最大池化层;所述待预测人群图像输入所述第一卷积模块,顺序经过所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块,所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块分别用于提取所述待预测人群图像的第一层语义信息、第二层语义信息、第三层语义信息和第四层语义信息;
拼接模块,与所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块连接,用于将所述第一层语义信息、第二层语义信息、第三层语义信息和第四层语义信息拼接成为X’
在一实施例中,所述第一卷积模块和第二卷积模块各自包括两个卷积层,卷积核大小均为3*3,所述第一卷积模块的通道数为64,所述第二卷积模块的通道数为128;
所述第三卷积模块和第四卷积模块各自包括三个卷积层,卷积核大小均为3*3,所述第三卷积模块的通道数为256,所述第四卷积模块的通道数为512。
在一实施例中,所述密度特征预测分支包括:
第一模块、第二模块、第三模块、第四模块和第五模块,其中,所述第一模块与所述共享编码器连接,所述第一模块、第二模块、第三模块、第四模块和第五模块串联,各自包括一个卷积层和一个反卷积层;X’输入所述第一模块,依次经过所述第一模块、第二模块、第三模块、第四模块和第五模块,所述第五模块输出所述S个密度特征图;
在一实施例中,所述像素级多尺度注意力分支包括:
1*1卷积核,与所述共享编码器连接,用于对X’进行降维,得到特征X’’
第一卷积层、第二卷积层和第三卷积层,其中,所述第一卷积层、第二卷积层和第三卷积层并联,各自与所述1*1卷积核连接,分别用于提取X’’的不同尺度的特征f 1 、f 2f 3
共享压缩激励模块,与所述第一卷积层、第二卷积层和第三卷积层连接,用于实现特征通道之间的信息交互,由f 1 、f 2f 3分别得到不同尺度的特征图Z 1 、Z 2Z 3
相加模块,与所述共享压缩激励模块连接,用于将Z 1 、Z 2Z 3按对应元素相加,得到XO
注意力掩码生成模块,与所述相加模块连接,将XO作为输入,用于基于XO生成所述S个注意力掩码。
在一实施例中,所述共享压缩激励模块包括:
全局平局池化GAP模块,与所述第一卷积层、第二卷积层和第三卷积层连接,用于分别将f a a = 1, 2, 3)压缩成大小为1*1*L的第一向量,其中,L表示所述第一向量的在一个维度上的大小;
第一全连接层,与所述全局平局池化GAP模块连接,用于将所述第一向量压缩为1*1*L*0.5的第二向量,其中,0.5为缩放参数;
relu激活函数模块和第二全连接层,其中,所述relu激活函数模块与所述第一全连接层连接,所述第二全连接层与所述relu激活函数模块连接;所述第二向量依次经过所述relu激活函数和第二全连接层后,得到大小为1*1*L的第三向量;
sigmoid激活函数模块,与所述第二全连接层连接,用于通过sigmoid激活函数计算各通道权重;
相乘模块,与所述sigmoid激活函数模块连接,用于将计算得到的各通道权重与f a 对应通道的二维矩阵相乘,得到Z a
在一实施例中,所述注意力掩码生成模块包括:
第六模块、第七模块、第八模块、第九模块和第十模块,其中,所述第六模块与所述相乘模块连接,所述第六模块、第七模块、第八模块、第九模块和第十模块串联,各自包括一个卷积层和一个反卷积层;XO输入所述第六模块,依次经过所述第七模块、第八模块、第九模块和第十模块;
softmax层,与所述第十模块连接,用于将所述第十模块的输出按通道进行归一化,生成所述S个注意力掩码。
第二方面,本发明实施例还提供了一种基于神经网络系统的图像人群计数方法。该方法包括:
S10:获取多个训练人群图像;对每个训练人群图像进行密度标注,生成所述每个训练人群图像的标签密度图;对所述标签密度图进行积分,得到所述每个训练人群图像中的人群总数;
S20:构建上述任意一项实施例所述的神经网络系统;
S30:依次将每个训练人群图像输入所述神经网络系统,得到将所述每个训练人群图像的密度预测图;将所述每个训练人群图像的标签密度图作为所述每个训练人群图像的真实密度图,利用所述每个训练人群图像的真实密度图和密度预测图构造损失函数,对所述神经网络系统的参数进行迭代优化,直到达到预定的终止条件;
S40:获取待计数人群图像;将所述待计数人群图像输入到训练好的神经网络结构中,得到所述待计数人群图像的密度预测图;对所述待计数人群图像的密度预测图进行积分,得到所述待计数人群图像中的人数。
在一实施例中,步骤S10中,对每个训练人群图像进行密度标注,生成所述每个训练人群图像的标签密度图,包括:
S110:在每个训练人群图像中,将第i个人头的中心点位置x i 标注为1,其余位置标注为0,将所述每个训练人群图像表示为
Figure 989195DEST_PATH_IMAGE001
,其中,i为大于或等于1的整数,M表示所述每个训练人群图像包含的人头个数,x表示所述每个人群训练图像中的像素位置,δ(·)表示狄拉克δ函数,
Figure 358996DEST_PATH_IMAGE002
,每个人头对应一个高斯核;
S120:将所述第i个人头与所述第i个人头对应的高斯核G σi (x)进行卷积操作,得到所述每个训练人群图像的标签密度图
Figure 311909DEST_PATH_IMAGE003
,其中,
Figure 108963DEST_PATH_IMAGE004
σ i 表示高斯核G σi (x)的标准差,
Figure 717799DEST_PATH_IMAGE005
β=0.3,
Figure 202876DEST_PATH_IMAGE006
表示所述第i个人头与所述第i个人头的第j个邻居人头之间的欧式距离,
Figure 213557DEST_PATH_IMAGE007
表示所述第i个人头与所述第i个人头的k个邻居人头之间的欧式距离的平均值。
在一实施例中,步骤S30中,利用所述每个训练人群图像的真实密度图和密度预测图构造损失函数,对所述神经网络系统的参数进行优化,直到预定的评价指标达到预定条件,包括:
S310:使用欧几里德损失来测量所述真实密度图和密度预测图之间的差异,损失函数为:
Figure 181513DEST_PATH_IMAGE008
,其中,θ表示所述神经网络系统中可学习的参数,N表示到当前迭代为止输入的训练人群图像数量,F(Xb,θ)和Yb分别表示所述密度预测图和真实密度图;
S320:基于Loss(θ),采用随机梯度下降法对所述神经网络系统的参数进行迭代优化,直到达所述预定的终止条件,其中,学习率为0.001,所述预定的终止条件为迭代次数达到180轮,或均方误差MSE和平均绝对误差MAE达到各自的阈值。
本发明的有益效果为:
1. 整个神经网络系统考虑了像素级别的人群密度信息,并且融合了多尺度信息,更好地捕获了图像的局部细节特征,提高了人群计数的精度。
2. 在共享编码器中,通过参数不同的卷积模块获取人群图像多层语义信息,并将多层语义信息输出按通道依次进行了拼接,使得浅层和高层的特征进行了有效融合,为后续的图像人群密度预测提供了更多的细节特征。
3. 像素级多尺度注意力分支将每个像素分类为一个特定的密度级别,使相同密度级别的像素形成一个注意掩码的区域,且最后输出的注意力掩码没有进行二值化,是可微的,其中的参数可以通过前向传播和反向反馈来进行学习,从而实现端到端的学习。
4. 通过共享的压缩激励模块学习通道之间的相关性,筛选出针对通道的注意力,有利于S个通道数的注意力掩码的生成。
附图说明
图1是本发明实施例提供的一种神经网络系统的主网络示意图。
图2是本发明实施例提供的一种共享编码器的结构示意图。
图3是本发明实施例提供的一种密度特征预测分支的结构示意图。
图4是本发明实施例提供的一种像素级多尺度注意力分支的结构示意图。
图5是本发明实施例提供的一种注意力掩码生成模块的结构示意图。
图6为本发明实施例提供的一种基于神经网络系统的图像人群计数方法的流程图。
图7A为本发明实施例提供的一种人群图像标注示意图。
图7B为本发明实施例提供的一种人群密度示意图。
图8为本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图与实施例对本发明做进一步说明。在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
本实施例提出一种神经网络系统,该系统基于像素级多尺度注意力机制,用于预测待预测人群图像的人群密度。对人群密度进行积分,可以实现待预测人群图像中的人群计数。该系统包括:共享编码器、密度特征预测分支、像素级多尺度注意力分支和融合模块。
共享编码器用于获取所述待预测人群图像,提取所述待预测人群图像的多尺度融合信息X’
密度特征预测分支与所述共享编码器连接,将X’作为输入,用于基于X’获取所述待预测人群图像的S个密度特征图,其中,S为大于或等于1的整数。
像素级多尺度注意力分支与所述共享编码器连接,将X’作为输入,用于基于X’获取所述待预测人群图像的S个注意力掩码,其中,每个密度特征图对应一个注意力掩码。
融合模块与所述密度特征预测分支和所述像素级多尺度注意力分支连接,用于将所述S个密度特征图和所述S个注意力掩码进行融合,得到所述待预测人群图像的密度预测图。
图1为本发明实施例提供的一种神经网络系统的主网络示意图。如图1所示,神经网络系统中设计了共享编码器以及两个子分支,分别为密度特征预测分支和像素级多尺度注意力分支。共享编码器在进行特征提取时,将多个卷积层的输出进行拼接,融合了人群图像中更多细节的信息。像素级多尺度注意力分支通过融合多尺度的信息以及共享的压缩激励模块,为图像中每个像素生成了相应密度等级的权重。最后将两个分支的输出特征进行融合得到最终的密度预测图,并且通过对密度预测图进行积分得到图像中人群数量的预测值。
在一实施例中,所述共享编码器包括: 第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块和拼接模块。
第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块串联,各自包括至少两个卷积层和一个最大池化层。所述待预测人群图像输入所述第一卷积模块,顺序经过所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块。所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块分别用于提取所述待预测人群图像的第一层语义信息、第二层语义信息、第三层语义信息和第四层语义信息。
拼接模块与所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块连接,用于将所述第一层语义信息、第二层语义信息、第三层语义信息和第四层语义信息拼接成为X’
在一实施例中,所述第一卷积模块和第二卷积模块各自包括两个卷积层,卷积核大小均为3*3,所述第一卷积模块的通道数为64,所述第二卷积模块的通道数为128;所述第三卷积模块和第四卷积模块各自包括三个卷积层,卷积核大小均为3*3,所述第三卷积模块的通道数为256,所述第四卷积模块的通道数为512。
图2是发明实施例提供的一种共享编码器的结构示意图。如图2所示,共享编码器包括四个卷积模块,通过四个卷积模块可以输出四层语义信息。考虑到一个高精确性的人群计数网络应该包含多层语义信息,这样能够捕捉到人群图像中更多的细节信息,因此在共享编码器中将四个卷积模块的输出按通道依次进行了拼接。
具体来说,前两个卷积模块中均包含两个卷积层和一个最大池化层,卷积核大小均为3*3,通道数分别为64,128;后两个卷积模块中均包含三个卷积层和一个最大池化层,卷积核大小均为3*3,通道数分别为256,512。最后,四个卷积模块的输出分别经过卷积核大小均为3*3,步长分别为16,8,4,2的卷积层,将得到的四个输出按通道拼接起来作为密度特征预测分支和像素级多尺度注意力分支的输入,使得浅层和高层的特征进行了有效融合,为后续的图像人群密度预测提供了更多的细节特征,而在四个卷积模块中使用不同的参数的主要目的也是为了生成不同层次且更加丰富完整的语义信息。
在一实施例中,所述密度特征预测分支包括:第一模块、第二模块、第三模块、第四模块和第五模块。
所述第一模块与所述共享编码器连接,所述第一模块、第二模块、第三模块、第四模块和第五模块串联,各自包括一个卷积层和一个反卷积层;X’输入所述第一模块,依次经过所述第一模块、第二模块、第三模块、第四模块和第五模块,所述第五模块输出所述S个密度特征图。
图3是发明实施例提供的一种密度特征预测分支的结构示意图。如附图3所示,密度特征预测分支包含五个模块,每个模块都包含一个反卷积层和一个卷积层,每个模块中反卷积层的卷积核大小为2*2,步长为2,卷积层中的卷积核大小为3*3,前四个模块中的通道数分别为512,256,128,64,通道数的逐步减少使得在不显著影响特征提取的情况下降低了网络复杂度。最后一个模块中反卷积层的通道数为64,卷积层的通道数为S,输出为S个密度特征图。反卷积层的作用是将特征图的尺寸变大,随后的卷积层对高分辨的特征图进行进一步的特征提取,最后使得输入在经过五个模块后逐步恢复到与原始图像相同大小的尺寸,并且提取到有用的特征。
在一实施例中,所述像素级多尺度注意力分支包括:1*1卷积核,第一卷积层、第二卷积层和第三卷积层,共享压缩激励模块,相加模块和注意力掩码生成模块。
1*1卷积核与所述共享编码器连接,用于对X’进行降维,得到特征X’’
第一卷积层、第二卷积层和第三卷积层并联,各自与所述1*1卷积核连接,分别用于提取X’’的不同尺度的特征f 1 、f 2f 3
共享压缩激励模块与所述第一卷积层、第二卷积层和第三卷积层连接,用于实现特征通道之间的信息交互,由f 1 、f 2f 3分别得到不同尺度的特征图Z 1 、Z 2Z 3
相加模块,与所述共享压缩激励模块连接,用于将Z 1 、Z 2Z 3按对应元素相加,得到XO
注意力掩码生成模块,与所述相加模块连接,将XO作为输入,用于基于XO生成所述S个注意力掩码。
在一实施例中,所述共享压缩激励模块包括:全局平局池化GAP模块、第一全连接层、relu激活函数模块和第二全连接层、sigmoid激活函数模块和相乘模块。
全局平局池化GAP模块与所述第一卷积层、第二卷积层和第三卷积层连接,用于分别将f a a = 1, 2, 3)压缩成大小为1*1*L的第一向量,其中,L表示所述第一向量的在一个维度上的大小。
第一全连接层与所述全局平局池化GAP模块连接,用于将所述第一向量压缩为1*1*L*0.5的第二向量,其中,0.5为缩放参数。
所述relu激活函数模块与所述第一全连接层连接,所述第二全连接层与所述relu激活函数模块连接。所述第二向量依次经过所述relu激活函数和第二全连接层后,得到大小为1*1*L的第三向量。
sigmoid激活函数模块与所述第二全连接层连接,用于通过sigmoid激活函数计算各通道权重。
相乘模块与所述sigmoid激活函数模块连接,用于将计算得到的各通道权重与f a 对应通道的二维矩阵相乘,得到Z a
在一实施例中,所述注意力掩码生成模块包括:第六模块、第七模块、第八模块、第九模块和第十模块和softmax层。
所述第六模块与所述相乘模块连接,所述第六模块、第七模块、第八模块、第九模块和第十模块串联,各自包括一个卷积层和一个反卷积层。XO输入所述第六模块,依次经过所述第七模块、第八模块、第九模块和第十模块。
softmax层与所述第十模块连接,用于将所述第十模块的输出按通道进行归一化,生成所述S个注意力掩码。
图4是本发明实施例提供的一种像素级多尺度注意力分支的结构示意图。相关的一些人群计数方法是将图像分割为若干块,每一块代表一个密度级别,这种方法与真实的密度分布没有很好地匹配,真实情况是图像中每一个像素都包含了密度信息,并且在这些方法中没有很好地融合多尺度的信息,所以提出了像素级多尺度注意力机制。密度图中每个像素代表一个特定的密度级别,例如,将密度等级数目设置为4,则类别分别为0,1,2,3,其中0代表了背景,1、2、3代表了不同的人群密度等级。如图4所示,在密度特征预测分支中最后一个卷积层中的通道数S(根据数据集来确定S的值)与密度等级数目相同。
像素级多尺度注意力分支中注意力掩码生成模块输出S个注意力掩码图,掩码图中每个值代表了各个像素点归类到某个密度等级中的概率。图5是本发明实施例提供的一种注意力掩码生成模块的结构示意图。如图5所示,注意力掩码生成模块与密度特征预测分支的结构基本相同,不同的是最后加入了softmax层,按通道进行归一化,最后产生代表S个不同密度水平的区域的注意掩码。也就是说,像素级多尺度注意力分支可以将每个像素分类为一个特定的密度级别。相同密度级别的像素形成一个注意掩码的区域。本实施例中最后输出的注意力掩码没有进行二值化,所以是可微的,其中的参数可以通过前向传播和反向反馈来进行学习,从而实现端到端的学习。
像素级多尺度注意力分支的具体工作过程如下。
首先,将共享编码器的输出当作此分支的输入X’∈R C*H*W ,其中,C为特征的通道数,HW分别为特征图的高度和宽度。X’经过卷积核为1*1的卷积操作来进行降维,减少了复杂度,降维过后的通道数由原来的960(共享编码器中最后将不同层图像特征按通道拼接之后得到通道数为960的特征图)减少为512,得到特征X’’
然后,将X’’送入三个卷积层中,卷积核大小分别为3*3,5*5,8*8,通道数不变,依然为512,从而得到三个不同尺度的特征f 1 、f 2f 3,使得最后的特征能够从整个空间尺度范围中捕获信息。将这三组特征分别输入一个共享的压缩激励模块来实现特征通道之间的信息交互。
在共享的压缩激励模中,首先将特征f a 通过全局平均池化(Global AveragePooling,GAP)压缩成大小为1*1*512的向量,然后通过第一个全连接层,输出1*1*512*0.5大小的向量,其中,0.5为缩放参数,经过relu激活函数,随即通过第二个全连接层,输出1*1*512大小的向量,并通过sigmoid激活函数,计算出来的各通道权重值表示每个通道的重要程度,其分别和原特征图f a 对应通道的二维矩阵相乘得到输出Z a 。此模块主要学习通道之间的相关性,筛选出针对通道的注意力,有利于后续S个通道数的注意力掩码的生成,掩码中的值表示每个像素位于相应密度等级中的概率。
最后,将得到的三个不同尺度的特征图按对应元素相加(这里的元素指共享的压缩激励模块输出的特征图中的每个值),得到大小为512*7*7的输出XO,其中,512为通道数,7为宽和高,然后将该输出送入注意力掩码生成模块中,最终得到S个注意力掩码Attention Mask,大小为224*224。
融合模块将像素级多尺度注意力分支和密度特征预测分支的输出按元素相乘,得到S个特征图,大小为224*224,然后将这S个特征图按元素(特征图中的对应的每一个值)相加得到最终密度预测图。
综上所述,本发明实施例提出的神经网络系统具有以下有益效果:
1. 整个神经网络系统考虑了像素级别的人群密度信息,并且融合了多尺度信息,更好地捕获了图像的局部细节特征,提高了人群计数的精度。
2. 在共享编码器中,通过参数不同的卷积模块获取人群图像多层语义信息,并将多层语义信息输出按通道依次进行了拼接,使得浅层和高层的特征进行了有效融合,为后续的图像人群密度预测提供了更多的细节特征。
3. 像素级多尺度注意力分支将每个像素分类为一个特定的密度级别,使相同密度级别的像素形成一个注意掩码的区域,且最后输出的注意力掩码没有进行二值化,是可微的,其中的参数可以通过前向传播和反向反馈来进行学习,从而实现端到端的学习。
4. 通过共享的压缩激励模块学习通道之间的相关性,筛选出针对通道的注意力,有利于S个通道数的注意力掩码的生成。
值得注意的是,上述实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
实施例二
本实施例提供一种基于神经网络系统的图像人群计数方法。该方法基于实施例1所述的神经网络系统,用于实现人群图像的人群计数。图6为本发明实施例提供的一种基于神经网络系统的图像人群计数方法的流程图。如图6所示,该方法包括步骤S10-S40。
S10:获取多个训练人群图像;对每个训练人群图像进行密度标注,生成所述每个训练人群图像的标签密度图;对所述标签密度图进行积分,得到所述每个训练人群图像中的人群总数。
S20:构建如实施例1所述的任意一种神经网络系统。
S30:依次将每个训练人群图像输入所述神经网络系统,得到将所述每个训练人群图像的密度预测图;将所述每个训练人群图像的标签密度图作为所述每个训练人群图像的真实密度图,利用所述每个训练人群图像的真实密度图和密度预测图构造损失函数,对所述神经网络系统的参数进行迭代优化,直到达到预定的终止条件。
S40:获取待计数人群图像;将所述待计数人群图像输入到训练好的神经网络结构中,得到所述待计数人群图像的密度预测图;对所述待计数人群图像的密度预测图进行积分,得到所述待计数人群图像中的人数。
在一实施例中,步骤S10中,对每个训练人群图像进行密度标注,生成所述每个训练人群图像的标签密度图,包括步骤S110-S120。
S110:在每个训练人群图像中,将第i个人头的中心点位置x i 标注为1,其余位置标注为0,将所述每个训练人群图像表示为
Figure 339962DEST_PATH_IMAGE001
,其中,i为大于或等于1的整数,M表示所述每个训练人群图像包含的人头个数,x表示所述每个人群训练图像中的像素位置,δ(·)表示狄拉克δ函数,
Figure 51566DEST_PATH_IMAGE002
,每个人头对应一个高斯核。
S120:将所述第i个人头与所述第i个人头对应的高斯核G σi (x)进行卷积操作,得到所述每个训练人群图像的标签密度图
Figure 916754DEST_PATH_IMAGE003
,其中,
Figure 55611DEST_PATH_IMAGE004
σ i 表示高斯核G σi (x)的标准差,
Figure 452089DEST_PATH_IMAGE005
β=0.3,
Figure 701805DEST_PATH_IMAGE006
表示所述第i个人头与所述第i个人头的第j个邻居人头之间的欧式距离,
Figure 687078DEST_PATH_IMAGE007
表示所述第i个人头与所述第i个人头的k个邻居人头之间的欧式距离的平均值。
在一实施例中,在步骤S30中,利用所述每个训练人群图像的真实密度图和密度预测图构造损失函数,对所述神经网络系统的参数进行优化,直到预定的评价指标达到预定条件,包括步骤S310-S320。
S310:使用欧几里德损失来测量所述真实密度图和密度预测图之间的差异,在第N次迭代中,损失函数为:
Figure 59154DEST_PATH_IMAGE008
,其中,θ表示所述神经网络系统中可学习的参数,N也是到当前迭代为止输入的训练人群图像数量,即每次迭代输入一个训练人群图像,第N次迭代中共输入了N个训练人群图像,F(Xb,θ)和Yb分别表示所述密度预测图和真实密度图。
S320:基于Loss(θ),采用随机梯度下降法对所述神经网络系统的参数进行迭代优化,直到达所述预定的终止条件,其中,学习率为0.001,所述预定的终止条件为迭代次数达到180轮,或均方误差MSE和平均绝对误差MAE达到各自的阈值。
基于以上发明构思,该方法可以包括以下几个部分。
(1)生成标签密度图,具体过程如下:
首先,对人群图像进行标注,其中,值为1的点表示标注的人头中心点的位置,值为0的点表示背景。然后,利用几何自适应高斯核来预测图像中人头的大小并且生成最终的标签密度图,作为真实密度图来对网络进行训练,并且可通过对标签密度图进行积分来得到该图像中的人群总数。
(2)构建神经网络系统,具体过程如下:
神经网络系统中设计了共享编码器以及两个子分支,分别为密度特征预测分支和像素级多尺度注意力分支。共享编码器在进行特征提取时,将多个卷积层的输出进行拼接,融合了人群图像中更多细节的信息。像素级多尺度注意力分支通过融合多尺度的信息以及共享的压缩激励模块,为图像中每个像素生成了相应密度等级的权重。最后,将两个分支的输出特征进行融合得到最终的密度预测图,并且通过对密度预测图进行积分得到图像中人群数量的预测值。
(3)网络训练,具体过程如下:
首先,将图像剪裁为224*224,输入到网络中,生成密度预测图,使用欧几里德损失来测量真实的密度图与密度预测图之间的差异,损失函数为:
Figure 129878DEST_PATH_IMAGE008
,其中,θ表示网络中可学习的参数,X i 表示输入图像,F(Xb,θ)和Yb分别为密度预测图和真实的密度图中的密度值,N表示到当前迭代为止输入的训练人群图像数量,最后将密度预测图中的密度值进行积分得到该图像中的人群总数。训练过程中采用了随机梯度下降来实现,其中学习率设为0.001,迭代次数为180轮。
评价指标采用均方误差(Mean Square Error,MSE)和平均绝对误差(MeanAbsolute Error,MAE):
Figure 183285DEST_PATH_IMAGE009
Figure 337579DEST_PATH_IMAGE010
其中,N表示到当前迭代为止输入的训练人群图像数量,yb
Figure 818239DEST_PATH_IMAGE011
分别表示第i张图像中人群数量的真实值和预测值。
通过损失函数对神经网络模型的参数进行优化,直到评价指标达到预定条件。其中,损失函数使用的是真实的密度图和预测到的密度预测图,评价指标中使用的是图像中人群数量的真实值和预测值,且均方误差和平均绝对误差是人群计数工作中主要的两个评价标准。
(4)获取待计数人群图像;将所述待计数人群图像输入到训练好的神经网络结构中,得到所述待计数人群图像的密度预测图;对所述待计数人群图像的密度预测图进行积分,得到所述待计数人群图像中的人数。
在生成标签密度图的过程中,首先,进行人群图像标注。
图7A为本发明实施例提供的一种人群图像标注示意图。图7B为本发明实施例提供的一种人群密度示意图。如图7A、7B所示,图像中包括4人,值为1的点表示标注的人头中心点的位置,值为0的点表示背景。假设图7A中每个人头大小都是3×3像素,则图7B是经过转换后的标签密度图,转换过程如下:
Figure 110680DEST_PATH_IMAGE012
个人头在标签密度图中用函数δ(x-x i )来表示,其中,x i 表示人头第i个人头中心的坐标位置。对于包含M个人头的图像则可以用函数
Figure 30094DEST_PATH_IMAGE001
表示,每个人头对应一个高斯核。将第i个人头与对应的高斯核G σi (x)进行卷积操作,得到连续的密度函数
Figure 724381DEST_PATH_IMAGE004
,其中,σ i 表示高斯核G σi (x)的标准差,
Figure 375942DEST_PATH_IMAGE005
β=0.3,
Figure 234308DEST_PATH_IMAGE006
表示所述第i个人头与其第j个邻居人头的欧式距离,
Figure 629517DEST_PATH_IMAGE007
表示图像中第i个人头与其k个邻居人头的欧式距离和的平均值。
标签密度图中每个人头区域的概率之和为1(这里的概率指在一个人头区域内,该人头落在每个像素位置的密度概率值),对整个图像的标签密度图进行积分后,可以得到该图像中的总人数。
综上所述,本发明实施例提出的图像人群计数方法具有以下有益效果:
1. 该方法考虑了像素级别的人群密度信息,并且融合了多尺度信息,更好地捕获了图像的局部细节特征,提高了人群计数的精度。
2. 在共享编码器中,通过参数不同的卷积模块获取人群图像多层语义信息,并将多层语义信息输出按通道依次进行了拼接,使得浅层和高层的特征进行了有效融合,为后续的图像人群密度预测提供了更多的细节特征。
3. 像素级多尺度注意力分支将每个像素分类为一个特定的密度级别,使相同密度级别的像素形成一个注意掩码的区域,且最后输出的注意力掩码没有进行二值化,是可微的,其中的参数可以通过前向传播和反向反馈来进行学习,从而实现端到端的学习。
4. 通过共享的压缩激励模块学习通道之间的相关性,筛选出针对通道的注意力,有利于S个通道数的注意力掩码的生成。
本发明实施例的图像人群计数方法与实施例一中的神经网络系统具有相同的技术原理和有益效果。未在本实施例中详尽描述的技术细节,请参照实施例一中的神经网络系统。
实施例三
图8为本发明实施例提供的一种计算机设备的结构示意图。如图8所示,该设备包括处理器810和存储器820。处理器810的数量可以是一个或多个,图8中以一个处理器810为例。
存储器820作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的基于神经网络系统的图像人群计数方法的程序指令/模块。处理器810通过运行存储在存储器820中的软件程序、指令以及模块,实现上述基于神经网络系统的图像人群计数方法。
存储器820可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器820可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器820可进一步包括相对于处理器810远程设置的存储器,这些远程存储器可以通过网络连接至设备/终端/服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实施例四
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以被设置为存储用于计算机程序,用于执行本发明任意实施例所提供的的基于神经网络系统的图像人群计数方法。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种神经网络系统,其特征在于,所述神经网络系统用于预测待预测人群图像的人群密度,包括:
共享编码器,用于获取所述待预测人群图像,提取所述待预测人群图像的多尺度融合信息X’
密度特征预测分支,与所述共享编码器连接,将X’作为输入,用于基于X’获取所述待预测人群图像的S个密度特征图,其中,S为大于或等于1的整数;
像素级多尺度注意力分支,与所述共享编码器连接,将X’作为输入,用于基于X’获取所述待预测人群图像的S个注意力掩码,其中,每个密度特征图对应一个注意力掩码;
融合模块,与所述密度特征预测分支和所述像素级多尺度注意力分支连接,用于将所述S个密度特征图和所述S个注意力掩码进行融合,得到所述待预测人群图像的密度预测图。
2.如权利要求1所述的神经网络系统,其特征在于,所述共享编码器包括:
第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块,其中,第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块串联,各自包括至少两个卷积层和一个最大池化层;所述待预测人群图像输入所述第一卷积模块,顺序经过所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块,所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块分别用于提取所述待预测人群图像的第一层语义信息、第二层语义信息、第三层语义信息和第四层语义信息;
拼接模块,与所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块连接,用于将所述第一层语义信息、第二层语义信息、第三层语义信息和第四层语义信息拼接成为X’
3.如权利要求2所述的神经网络系统,其特征在于,
所述第一卷积模块和第二卷积模块各自包括两个卷积层,卷积核大小均为3*3,所述第一卷积模块的通道数为64,所述第二卷积模块的通道数为128;
所述第三卷积模块和第四卷积模块各自包括三个卷积层,卷积核大小均为3*3,所述第三卷积模块的通道数为256,所述第四卷积模块的通道数为512。
4.如权利要求3所述的神经网络系统,其特征在于,所述密度特征预测分支包括:
第一模块、第二模块、第三模块、第四模块和第五模块,其中,所述第一模块与所述共享编码器连接,所述第一模块、第二模块、第三模块、第四模块和第五模块串联,各自包括一个卷积层和一个反卷积层;X’输入所述第一模块,依次经过所述第一模块、第二模块、第三模块、第四模块和第五模块,所述第五模块输出所述S个密度特征图。
5.如权利要求4所述的神经网络系统,其特征在于,所述像素级多尺度注意力分支包括:
1*1卷积核,与所述共享编码器连接,用于对X’进行降维,得到特征X’’
第一卷积层、第二卷积层和第三卷积层,其中,所述第一卷积层、第二卷积层和第三卷积层并联,各自与所述1*1卷积核连接,分别用于提取X’’的不同尺度的特征f 1 、f 2f 3
共享压缩激励模块,与所述第一卷积层、第二卷积层和第三卷积层连接,用于实现特征通道之间的信息交互,由f 1 、f 2f 3分别得到不同尺度的特征图Z 1 、Z 2Z 3
相加模块,与所述共享压缩激励模块连接,用于将Z 1 、Z 2Z 3按对应元素相加,得到XO
注意力掩码生成模块,与所述相加模块连接,将XO作为输入,用于基于XO生成所述S个注意力掩码。
6.如权利要求5所述的神经网络系统,其特征在于,所述共享压缩激励模块包括:
全局平局池化GAP模块,与所述第一卷积层、第二卷积层和第三卷积层连接,用于分别将f a a = 1, 2, 3)压缩成大小为1*1*L的第一向量,其中,L表示所述第一向量的在一个维度上的大小;
第一全连接层,与所述全局平局池化GAP模块连接,用于将所述第一向量压缩为1*1*L*0.5的第二向量,其中,0.5为缩放参数;
relu激活函数模块和第二全连接层,其中,所述relu激活函数模块与所述第一全连接层连接,所述第二全连接层与所述relu激活函数模块连接;所述第二向量依次经过所述relu激活函数和第二全连接层后,得到大小为1*1*L的第三向量;
sigmoid激活函数模块,与所述第二全连接层连接,用于通过sigmoid激活函数计算各通道权重;
相乘模块,与所述sigmoid激活函数模块连接,用于将计算得到的各通道权重与f a 对应通道的二维矩阵相乘,得到Z a
7.如权利要求6所述的神经网络系统,其特征在于,所述注意力掩码生成模块包括:
第六模块、第七模块、第八模块、第九模块和第十模块,其中,所述第六模块与所述相乘模块连接,所述第六模块、第七模块、第八模块、第九模块和第十模块串联,各自包括一个卷积层和一个反卷积层;XO输入所述第六模块,依次经过所述第七模块、第八模块、第九模块和第十模块;
softmax层,与所述第十模块连接,用于将所述第十模块的输出按通道进行归一化,生成所述S个注意力掩码。
8.一种基于神经网络系统的图像人群计数方法,其特征在于,包括:
S10:获取多个训练人群图像;对每个训练人群图像进行密度标注,生成所述每个训练人群图像的标签密度图;对所述标签密度图进行积分,得到所述每个训练人群图像中的人群总数;
S20:构建如权利要求1-7任意一项所述的神经网络系统;
S30:依次将每个训练人群图像输入所述神经网络系统,得到将所述每个训练人群图像的密度预测图;将所述每个训练人群图像的标签密度图作为所述每个训练人群图像的真实密度图,利用所述每个训练人群图像的真实密度图和密度预测图构造损失函数,对所述神经网络系统的参数进行迭代优化,直到达到预定的终止条件;
S40:获取待计数人群图像;将所述待计数人群图像输入到训练好的神经网络结构中,得到所述待计数人群图像的密度预测图;对所述待计数人群图像的密度预测图进行积分,得到所述待计数人群图像中的人数。
9.如权利要求8所述的图像人群计数方法,其特征在于,步骤S10中,对每个训练人群图像进行密度标注,生成所述每个训练人群图像的标签密度图,包括:
S110:在每个训练人群图像中,将第i个人头的中心点位置x i 标注为1,其余位置标注为0,将所述每个训练人群图像表示为
Figure 64269DEST_PATH_IMAGE001
,其中,i为大于或等于1的整数,M表示所述每个训练人群图像包含的人头个数,x表示所述每个人群训练图像中的像素位置,δ(·)表示狄拉克δ函数,
Figure 92268DEST_PATH_IMAGE002
,每个人头对应一个高斯核;
S120:将所述第i个人头与所述第i个人头对应的高斯核G σi (x)进行卷积操作,得到所述每个训练人群图像的标签密度图
Figure 336168DEST_PATH_IMAGE003
,其中,
Figure 525841DEST_PATH_IMAGE004
σ i 表示高斯核G σi (x)的标准差,
Figure 425664DEST_PATH_IMAGE005
β=0.3,
Figure 804823DEST_PATH_IMAGE006
表示所述第i个人头与所述第i个人头的第j个邻居人头之间的欧式距离,
Figure 106492DEST_PATH_IMAGE007
表示所述第i个人头与所述第i个人头的k个邻居人头之间的欧式距离的平均值。
10.如权利要求9所述的图像人群计数方法,其特征在于,在步骤S30中,利用所述每个训练人群图像的真实密度图和密度预测图构造损失函数,对所述神经网络系统的参数进行优化,直到预定的评价指标达到预定条件,包括:
S310:使用欧几里德损失来测量所述真实密度图和密度预测图之间的差异,损失函数为:
Figure 467066DEST_PATH_IMAGE008
,其中,θ表示所述神经网络系统中可学习的参数,N表示到当前迭代为止输入的训练人群图像数量,F(Xb,θ)和Yb分别表示所述密度预测图和真实密度图;
S320:基于Loss(θ),采用随机梯度下降法对所述神经网络系统的参数进行迭代优化,直到达所述预定的终止条件,其中,学习率为0.001,所述预定的终止条件为迭代次数达到180轮,或均方误差MSE和平均绝对误差MAE达到各自的阈值。
CN202110386075.8A 2021-04-12 2021-04-12 神经网络系统和基于神经网络系统的图像人群计数方法 Active CN112801063B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110386075.8A CN112801063B (zh) 2021-04-12 2021-04-12 神经网络系统和基于神经网络系统的图像人群计数方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110386075.8A CN112801063B (zh) 2021-04-12 2021-04-12 神经网络系统和基于神经网络系统的图像人群计数方法

Publications (2)

Publication Number Publication Date
CN112801063A true CN112801063A (zh) 2021-05-14
CN112801063B CN112801063B (zh) 2021-07-20

Family

ID=75816668

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110386075.8A Active CN112801063B (zh) 2021-04-12 2021-04-12 神经网络系统和基于神经网络系统的图像人群计数方法

Country Status (1)

Country Link
CN (1) CN112801063B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113538400A (zh) * 2021-07-29 2021-10-22 燕山大学 一种跨模态人群计数方法及系统
CN113538402A (zh) * 2021-07-29 2021-10-22 燕山大学 一种基于密度估计的人群计数方法及系统
CN113869285A (zh) * 2021-12-01 2021-12-31 四川博创汇前沿科技有限公司 一种人群密度估计装置、方法和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020606A (zh) * 2019-03-13 2019-07-16 北京工业大学 一种基于多尺度卷积神经网络的人群密度估计方法
CN110276264A (zh) * 2019-05-27 2019-09-24 东南大学 一种基于前景分割图的人群密度估计方法
US20200074186A1 (en) * 2018-08-28 2020-03-05 Beihang University Dense crowd counting method and apparatus
CN111507183A (zh) * 2020-03-11 2020-08-07 杭州电子科技大学 一种基于多尺度密度图融合空洞卷积的人群计数方法
CN111832489A (zh) * 2020-07-15 2020-10-27 中国电子科技集团公司第三十八研究所 一种基于目标检测的地铁人群密度估计方法及系统
CN112132023A (zh) * 2020-09-22 2020-12-25 上海应用技术大学 基于多尺度上下文增强网络的人群计数方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200074186A1 (en) * 2018-08-28 2020-03-05 Beihang University Dense crowd counting method and apparatus
CN110020606A (zh) * 2019-03-13 2019-07-16 北京工业大学 一种基于多尺度卷积神经网络的人群密度估计方法
CN110276264A (zh) * 2019-05-27 2019-09-24 东南大学 一种基于前景分割图的人群密度估计方法
CN111507183A (zh) * 2020-03-11 2020-08-07 杭州电子科技大学 一种基于多尺度密度图融合空洞卷积的人群计数方法
CN111832489A (zh) * 2020-07-15 2020-10-27 中国电子科技集团公司第三十八研究所 一种基于目标检测的地铁人群密度估计方法及系统
CN112132023A (zh) * 2020-09-22 2020-12-25 上海应用技术大学 基于多尺度上下文增强网络的人群计数方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113538400A (zh) * 2021-07-29 2021-10-22 燕山大学 一种跨模态人群计数方法及系统
CN113538402A (zh) * 2021-07-29 2021-10-22 燕山大学 一种基于密度估计的人群计数方法及系统
CN113538402B (zh) * 2021-07-29 2022-06-07 燕山大学 一种基于密度估计的人群计数方法及系统
CN113538400B (zh) * 2021-07-29 2022-08-26 燕山大学 一种跨模态人群计数方法及系统
CN113869285A (zh) * 2021-12-01 2021-12-31 四川博创汇前沿科技有限公司 一种人群密度估计装置、方法和存储介质
CN113869285B (zh) * 2021-12-01 2022-03-04 四川博创汇前沿科技有限公司 一种人群密度估计装置、方法和存储介质

Also Published As

Publication number Publication date
CN112801063B (zh) 2021-07-20

Similar Documents

Publication Publication Date Title
CN112801063B (zh) 神经网络系统和基于神经网络系统的图像人群计数方法
CN109978893B (zh) 图像语义分割网络的训练方法、装置、设备及存储介质
CN109543627B (zh) 一种判断驾驶行为类别的方法、装置、及计算机设备
CN109359564B (zh) 一种图像场景图生成方法及装置
CN110276406B (zh) 表情分类方法、装置、计算机设备及存储介质
CN112084331A (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
US20150347819A1 (en) Compact Face Representation
CN110569814B (zh) 视频类别识别方法、装置、计算机设备及计算机存储介质
CN110046550B (zh) 基于多层特征学习的行人属性识别系统及方法
CN110929622A (zh) 视频分类方法、模型训练方法、装置、设备及存储介质
Hii et al. Multigap: Multi-pooled inception network with text augmentation for aesthetic prediction of photographs
Bhardwaj et al. An unsupervised technique for optimal feature selection in attribute profiles for spectral-spatial classification of hyperspectral images
CN110246148B (zh) 多模态的深度信息融合和注意力学习的显著性检测方法
CN110728295B (zh) 半监督式的地貌分类模型训练和地貌图构建方法
CN109886330B (zh) 文本检测方法、装置、计算机可读存储介质和计算机设备
JP7096431B2 (ja) ビデオ分析方法及びそれに関連するモデル訓練方法、機器、装置
CN113255714A (zh) 图像聚类方法、装置、电子设备及计算机可读存储介质
CN109446897B (zh) 基于图像上下文信息的场景识别方法及装置
CN109598301B (zh) 检测区域去除方法、装置、终端和存储介质
CN112613349B (zh) 基于深度混合卷积神经网络的时序动作检测方法及装置
CN111639230B (zh) 一种相似视频的筛选方法、装置、设备和存储介质
CN112446888A (zh) 图像分割模型的处理方法和处理装置
CN115659966A (zh) 基于动态异构图和多级注意力的谣言检测方法及系统
CN115544239A (zh) 一种基于深度学习模型的布局偏好预测方法
CN116416478A (zh) 一种基于图结构数据特征的生物信息学分类模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Jiang Zhifang

Inventor after: Zhang Kai

Inventor after: He Tiantian

Inventor after: Ding Dongrui

Inventor after: Lu Tianbin

Inventor before: Zhang Kai

Inventor before: He Tiantian

Inventor before: Ding Dongrui

Inventor before: Lu Tianbin

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240207

Address after: Room 1609, 16th Floor, Building 2, Xinsheng Building, Northwest Corner of Xinluo Street and Yingxiu Road Intersection, Shunhua Road Street, Jinan Area, China (Shandong) Pilot Free Trade Zone, Jinan City, Shandong Province, 250014

Patentee after: Lingxin Huizhi (Shandong) Intelligent Technology Co.,Ltd.

Country or region after: China

Address before: Room 156-8, No.5 Lingbin Road, Dangan Town, Xiangzhou District, Zhuhai City, Guangdong Province 510000

Patentee before: Guangdong Zhongju Artificial Intelligence Technology Co.,Ltd.

Country or region before: China