CN113869285A - 一种人群密度估计装置、方法和存储介质 - Google Patents

一种人群密度估计装置、方法和存储介质 Download PDF

Info

Publication number
CN113869285A
CN113869285A CN202111447032.2A CN202111447032A CN113869285A CN 113869285 A CN113869285 A CN 113869285A CN 202111447032 A CN202111447032 A CN 202111447032A CN 113869285 A CN113869285 A CN 113869285A
Authority
CN
China
Prior art keywords
layer
module
convolution layer
crowd
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111447032.2A
Other languages
English (en)
Other versions
CN113869285B (zh
Inventor
张晓磊
闫超
赵燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Bochenghui Frontier Technology Co ltd
Original Assignee
Sichuan Bochenghui Frontier Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Bochenghui Frontier Technology Co ltd filed Critical Sichuan Bochenghui Frontier Technology Co ltd
Priority to CN202111447032.2A priority Critical patent/CN113869285B/zh
Publication of CN113869285A publication Critical patent/CN113869285A/zh
Application granted granted Critical
Publication of CN113869285B publication Critical patent/CN113869285B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种人群密度估计装置、方法和存储介质,网络模型包括上下文感知网络和多尺度特征提取网络,并用可监督的细致注意力模块进行横向链接,起到促进两分支循序渐进学习的作用。多尺度特征提取网络的输入图像是原始图像,反之上下文感知网络的输入图像是上采样图像。上下文感知网络主要提取样本对中上采样图像包含的上下文信息,适度上采样的图像可以放大原始图像的细节信息,模型可以通过学习这部分信息增加对小目标的检测。本发明通过细致注意力模块交叉融合不同特性的特征,跨阶段的、有监督的促进提高分支特征的表达能力,与此同时,实现了有效的信息共享,可以大幅度提升生成密度图的质量,增强人群密度估计性能。

Description

一种人群密度估计装置、方法和存储介质
技术领域
本发明属于人群计数的技术领域,具体涉及一种人群密度估计装置、方法和存储介质。
背景技术
随着国家经济的快速发展,城市化进程得到了加快,与此同时,城市包含的人口数量也出现了指数级增长,火车站、演唱会、广场活动等大型人群聚集场景愈加频繁,高度群集现象存在不可忽视的安全隐患,管理人员会很容易失去对人群的控制,人群一旦发生激进行为就可能出现踩踏事件,因此,如何合理安排管理人员,及时对人群进行疏导,有效地减少不良事件地发生,是许多研究者探讨的问题。
人群密度估计是一种通过视频监控对人群密度程度进行统计分析的技术方向,可以智能地管控人群,减少大量的人力和物力。除此之外,人群密度估计是人群计数的一个技术分支,早期,人群计数通过行人检测方法获得行人个数,这类方法在行人重叠程度大、遮挡严重的场景下存在较多的误检、漏检。随着时间的推移,研究学者为了解决早期人群计数的遗留问题,从而提出了基于人数回归的方法,这类方法通过利用各种特征描述子提取图像特征信息,再选用合适的分类器对行人数量进行回归,最终达到人群计数的目的,但是基于人数回归的人群计数方法只能统计行人数量,无法对行人进行定位。近几年,基于人群密度估计的人群计数方法运势而生,通过分析图像每个像素提取对应的人群密度图,同时获得行人数量和行人分布信息,解决遮挡场景下人群的定位和计数问题。
目前,大多数人群密度估计方法都是基于卷积神经网络搭建的,再通过各种技术方法提取多尺度特征和上下文特征,从而增强特征信息的表达能力,虽然利用卷积层的特性能融合能得到多尺度特征和上下文特征,但是这些特征也会因卷积层的局部提取操作受到一定的限制,尤其是在人群密度估计场景下存在较小的目标,增加了较大的检测难度。因此,急需提出一种能增强特征的多尺度性、提高上下文特征的质量的人群密度估计装置、方法。
发明内容
本发明的目的在于提供一种人群密度估计装置、方法和存储介质,通过细致注意力模块交叉融合不同特性的特征,跨阶段的、有监督的促进提高分支特征的表达能力,与此同时,实现了有效的信息共享,可以大幅度提升生成密度图的质量,增强人群密度估计性能。
本发明主要通过以下技术方案实现:
一种人群密度估计装置,包括数据采集模块、训练模块、检测模块,所述数据采集模块用于收集已标注人群数量的监控图像数据,并形成训练集;所述训练模块用于采用训练集训练网络模型,所述检测模块用于将待检测图片输入训练后的网络模型并输出人群密度估计结果;
所述网络模型包括上下文感知网络、多尺度特征提取网络以及若干个可监督的细致注意力模块,所述上下文感知网络与多尺度特征提取网络之间通过细致注意力模块进行横向链接,所述细致注意力模块用于利用真实密度图进行指导,将前一阶段计算出的注意力图精炼传播到下一阶段的特征信息;所述多尺度特征提取网络的输入图像为原始图像,用于利用不同层次的卷积层提取不同感受野、不同语义信息的特征信息f2;所述上下文感知网络的输入图像是原始图像的上采样图像,用于提取上采样图像的特征信息f1;所述细致注意力模块用于将特征信息f1和f2互补融合成新的信息,所述新的信息用于计算人群计数损失值,进而处理生成注意力图。
网络模型的主干部分网络采用多分支结构,分为上下文感知网络和多尺度特征提取网络,并用可监督的细致注意力模块进行横向链接,起到促进两分支循序渐进学习的作用。多尺度特征提取网络的输入图像是原始图像,反之上下文感知网络的输入图像是上采样图像。其中多尺度特征提取网络的主干网络采用ResNet结构。
上下文感知网络主要提取样本对中上采样图像包含的上下文信息,适度上采样的图像可以放大原始图像的细节信息,模型可以通过学习这部分信息增加对小目标的检测。在网络结构中,每次向前传播的特征信息是由可监督的细致注意力模块输出得到的,这种操作可以去除部分冗余特征,提高网络模型的训练速度,并且可以提高特征信息的质量。
为了更好地实现本发明,进一步地,所述细致注意力模块包括重组向量层、卷积层、S型激活函数层、特征相加层;所述卷积层包括第一卷积层、第二卷积层、第三卷积层、第四卷积层,所述f1通过重组向量层处理后分别与并列设置的第一卷积层、第二卷积层连接,所述f2分别与并列设置的第三卷积层、第四卷积层连接,所述第一卷积层、第三卷积层输出的特征为value特征,用于保留详细的特征信息进行检测;所述第二卷积层、第四卷积层输出的特征为key特征,用于生成注意力图,定位重要特征值;所述第二卷积层、第四卷积层通过特征相加层实现互补融合成新的信息,用于计算人群计数损失值,然后采用S型激活函数层处理生成注意力图。
f1向量的维度需与f2的维度保持一致,所以在f1输入到模块里先做了一个特征重组的操作。采用了4个并行的卷积层处理f1和f2特征,可监督的细致注意力图生成流程是先将第二卷积层和第四卷积层通过相加的方式互补融合成新的特征信息,然后用新生成的特征信息计算人群计数损失值,最后用激活函数生成注意力图,这种处理方式的优势是真实标注信息可以粗糙的纠正特征信息的偏差,使得注意力图能最大程度的抑制冗余信息,传播贡献度高的特征信息。
为了更好地实现本发明,进一步地,所述细致注意力模块还包括特征点乘层、特征拼接融合层以及损失计算模块,所述卷积层还包括第五卷积层;所述第一卷积层、第三卷积层的输出端分别与特征拼接融合层连接,所述第二卷积层、第四卷积层的输出端经过特征相加层后依次连接第五卷积层、S型激活函数层,所述第五卷积层与损失计算模块连接,用于计算人群计数损失值;所述S型激活函数层的输出与特征拼接融合层的输出经过特征点乘层后,再次与特征拼接融合层的输出经过特征相加层后输出注意力图。
为了更好地实现本发明,进一步地,所述第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层为不同通道、卷积核大小为1x1的卷积层。
为了更好地实现本发明,进一步地,所述上下文感知网络包括若干个从前至后依次设置的上下文特征提取模块,所述上下文特征提取模块用于提取上采样图像的特征信息f1;所述细致注意力模块与上下文特征提取模块交错设置。
为了更好地实现本发明,进一步地,所述上下文特征提取模块包括从前至后依次设置的特征拼接融合层、特征重组层、嵌入位置向量层、层归一化层以及自注意力变换模块;所述自注意力变换模块包括从前至后依次设置的若干个多头自注意力模块以及层归一化层、全连接层、激活函数层。
为了更好地实现本发明,进一步地,所述多尺度特征提取网络采用特征金字塔结构进行搭建;所述多尺度特征提取网络包括从前至后依次设置的卷积层、批归一化层、激活函数层、残差块、特征金字塔。
本发明主要通过以下技术方案实现:
一种人群密度估计方法,采用上述的装置进行,包括以下步骤:
步骤S100:收集已标注人群数量的监控图像数据,并利用标注内容对每张图像数据生成对应人群密度图,形成训练集;
步骤S200:将训练集里的每张图片处理成两种尺度样本对,然后由网络模型提取图片样本的深度特征,再级联生成预测密度图,最后计算预测人群密度图和真实人群密度图之间的损失值进行优化指导;
步骤S300:利用损失函数级联计算预测人群数量与真实人群数量之间的差异,以及计算预测人群密度图和真实人群密度图之间的误差;
步骤S400:设定最大迭代次数和适配的超参数,然后采用优化器对损失值进行衰减,随机初始化网络模型的相关参数准备训练,通过迭代训练可以找到网络模型的最优解,最后测试收敛网络模型;
步骤S500:将待测图片输入训练后的网络模型并输出人群密度估计结果。
为了更好地实现本发明,进一步地,所述步骤S300中损失函数包括人群计数损失函数和人群密度图回归损失函数,所述人群计数损失函数用于用于预测人群数量与真实人群数量之间的差异,所述人群密度图回归损失函数用于计算预测人群密度图和真实人群密度图之间的误差。
一种计算机可读存储介质,存储有计算机程序指令,所述程序指令被处理器执行时实现上述的方法。
本发明的有益效果:
(1)本发明通过可监督的细致注意力模块将真实标注的信息作为监督信息,可以粗糙的纠正特征信息的偏差,使得注意力图能最大程度的抑制冗余信息,传播贡献度高的特征信息;
(2)本发明通过细致注意力模块交叉融合不同特性的特征,跨阶段的、有监督的促进提高分支特征的表达能力,与此同时,实现了有效的信息共享,可以大幅度提升生成密度图的质量,增强人群密度估计性能,具有较好的实用性;
(3)本发明通过引入新的上下文感知网络,改善卷积操作带来的局限性,并且为了让上下文感知网络和多尺度特征提取网络能更好的共同学习,构建可监督的细致注意力模块,能使模型在训练过程中渐进式学习,去除前向传播中冗余的特征信息,从而大大提高特征的表征能力,增强小目标的检测精度。
附图说明
图1为整体网络结构示意图。
图2为上下文特征提取模块结构示意图。
图3为可监督的细致注意力模块结构示意图。
具体实施方式
实施例1:
一种人群密度估计装置,包括数据采集模块、训练模块、检测模块,所述数据采集模块用于收集已标注人群数量的监控图像数据,并形成训练集;所述训练模块用于采用训练集训练网络模型,所述检测模块用于将待检测图片输入训练后的网络模型并输出人群密度估计结果。
如图1所示,所述网络模型包括上下文感知网络、多尺度特征提取网络以及若干个可监督的细致注意力模块,所述上下文感知网络与多尺度特征提取网络之间通过细致注意力模块进行横向链接,所述细致注意力模块用于利用真实密度图进行指导,将前一阶段计算出的注意力图精炼传播到下一阶段的特征信息;所述多尺度特征提取网络的输入图像为原始图像,用于利用不同层次的卷积层提取不同感受野、不同语义信息的特征信息f2;所述上下文感知网络的输入图像是原始图像的上采样图像,用于提取上采样图像的特征信息f1;所述细致注意力模块用于将特征信息f1和f2互补融合成新的信息,所述新的信息用于计算人群计数损失值,进而处理生成注意力图。
进一步地,所述多尺度特征提取网络采用特征金字塔结构进行搭建;所述多尺度特征提取网络包括从前至后依次设置的卷积层、批归一化层、激活函数层、残差块、特征金字塔。
如图1所示,网络模型的主干部分网络采用多分支结构,分为上下文感知网络和多尺度特征提取网络,并用可监督的细致注意力模块进行横向链接,起到促进两分支循序渐进学习的作用。多尺度特征提取网络的输入图像是原始图像,反之上下文感知网络的输入图像是上采样图像。其中多尺度特征提取网络的主干网络采用ResNet结构。
上下文感知网络主要提取样本对中上采样图像包含的上下文信息,适度上采样的图像可以放大原始图像的细节信息,模型可以通过学习这部分信息增加对小目标的检测。在网络结构中,每次向前传播的特征信息是由可监督的细致注意力模块输出得到的,这种操作可以去除部分冗余特征,提高网络模型的训练速度,并且可以提高特征信息的质量。
本发明通过引入新的上下文感知网络,改善卷积操作带来的局限性,并且为了让上下文感知网络和多尺度特征提取网络能更好的共同学习,构建可监督的细致注意力模块,能使模型在训练过程中渐进式学习,去除前向传播中冗余的特征信息,从而大大提高特征的表征能力,增强小目标的检测精度。
实施例2:
本实施例是在实施例1的基础上进行优化,如图3所示,所述细致注意力模块包括重组向量层、卷积层、S型激活函数层、特征相加层;所述卷积层包括第一卷积层、第二卷积层、第三卷积层、第四卷积层,所述f1通过重组向量层处理后分别与并列设置的第一卷积层、第二卷积层连接,所述f2分别与并列设置的第三卷积层、第四卷积层连接,所述第一卷积层、第三卷积层输出的特征为value特征,用于保留详细的特征信息进行检测;所述第二卷积层、第四卷积层输出的特征为key特征,用于生成注意力图,定位重要特征值;所述第二卷积层、第四卷积层通过特征相加层实现互补融合成新的信息,用于计算人群计数损失值,然后采用S型激活函数层处理生成注意力图。
进一步地,所述细致注意力模块还包括特征点乘层、特征拼接融合层以及损失计算模块,所述卷积层还包括第五卷积层;所述第一卷积层、第三卷积层的输出端分别与特征拼接融合层连接,所述第二卷积层、第四卷积层的输出端经过特征相加层后依次连接第五卷积层、S型激活函数层,所述第五卷积层与损失计算模块连接,用于计算人群计数损失值;所述S型激活函数层的输出与特征拼接融合层的输出经过特征点乘层后,再次与特征拼接融合层的输出经过特征相加层后输出注意力图。
进一步地,所述第一卷积层、第二卷积层、第三卷积层、第四卷积层为不同通道、卷积核大小为1x1的卷积层。
f1向量的维度需与f2的维度保持一致,所以在f1输入到模块里先做了一个特征重组的操作。采用了4个并行的卷积层处理f1和f2特征,可监督的细致注意力图生成流程是先将第二卷积层和第四卷积层通过相加的方式互补融合成新的特征信息,然后用新生成的特征信息计算人群计数损失值,最后用激活函数生成注意力图,这种处理方式的优势是真实标注信息可以粗糙的纠正特征信息的偏差,使得注意力图能最大程度的抑制冗余信息,传播贡献度高的特征信息。
本实施例的其他部分与实施例1相同,故不再赘述。
实施例3:
本实施例是在实施例1或2的基础上进行优化,如图1所示,所述上下文感知网络包括若干个从前至后依次设置的上下文特征提取模块,所述上下文特征提取模块用于提取上采样图像的特征信息f1;所述细致注意力模块与上下文特征提取模块交错设置。
进一步地,如图2所示,所述上下文特征提取模块包括从前至后依次设置的特征拼接融合层、特征重组层、嵌入位置向量层、层归一化层以及自注意力变换模块;所述自注意力变换模块包括从前至后依次设置的若干个多头自注意力模块以及层归一化层、全连接层、激活函数层。其中激活函数层为高斯误差线性单元层。
上下文感知网络主要提取样本对中上采样图像包含的上下文信息,适度上采样的图像可以放大原始图像的细节信息,模型可以通过学习这部分信息增加对小目标的检测。在网络结构中,每次向前传播的特征信息是由可监督的细致注意力模块输出得到的,这种操作可以去除部分冗余特征,提高网络模型的训练速度,并且可以提高特征信息的质量。
本实施例的其他部分与上述实施例1或2相同,故不再赘述。
实施例4:
一种人群密度估计装置,如图1所示,网络模型主干部分网络采用多分支结构,分为上下文感知网络和多尺度特征提取网络,并用可监督的细致注意力模块进行横向链接,起到促进两分支循序渐进学习的作用,使各个分支提取的特征更精细,从而提高人群密度估计效果;其中,所述的可监督的细致注意力模块利用真实密度图进行指导,将前一阶段的分支特征计算出注意力图,用于精炼传播到下一阶段的特征信息。
多尺度特征提取网络的输入图像是原始图像,反之上下文感知网络的输入图像是上采样图像。其中多尺度特征提取网络的主干网络采用ResNet结构,图中①②③④标识表示4种不同层次卷积层输出的特征信息,尺度大小依次降低。所述的多尺度特征提取网络的核心思路就是利用不同层次的卷积层可以提取到不同感受野、不同语义信息的特征的特性。
如图2所示,上下文特征提取模块包括从前至后依次设置的特征拼接融合层、特征重组层、嵌入位置向量层、层归一化层以及自注意力变换模块,而自注意力变换模块从前至后由数个多头自注意力模块、层归一化层、全连接层、激活函数层构成,其中激活函数层为高斯误差线性单元层。这部分网络主要提取样本对中上采样图像包含的上下文信息,适度上采样的图像可以放大原始图像的细节信息,模型可以通过学习这部分信息增加对小目标的检测。如图1所示,在网络结构中,每次向前传播的特征信息是由可监督的细致注意力模块输出得到的,这种操作可以去除部分冗余特征,提高网络模型的训练速度,并且可以提高特征信息的质量。
如图3所示,可监督的细致注意力模块主要由卷积层、S型激活函数层、特征重组层、特征点乘层、特征拼接融合层以及损失计算模块构成。图中f1指上下文特征提取模块输出的特征信息,f2表示多尺度提取网络输出的特征信息,f1向量的维度需与f2的维度保持一致,所以在f1输入到模块里先做了一个特征重组的操作。其次,采用了4个并行的卷积层C1-C4处理f1和f2特征。如图3所示,C1和C3处理得到的特征称为value特征,用于保留详细的特征信息进行检测,而C2和C4处理得到的特征称为key特征,用于生成注意力图,定位重要特征值,且C1、C2、C3、C4、C5为不同通道、卷积核大小为1x1的卷积层。可监督的细致注意力图生成流程是先将C2和C4通过相加的方式互补融合成新的特征信息,然后用新生成的特征信息计算人群计数损失值,最后用激活函数生成注意力图,这种处理方式的优势是真实标注信息可以粗糙的纠正特征信息的偏差,使得注意力图能最大程度的抑制冗余信息,传播贡献度高的特征信息。
本发明通过引入新的上下文感知网络,改善卷积操作带来的局限性,并且为了让上下文感知网络和多尺度特征提取网络能更好的共同学习,构建可监督的细致注意力模块,能使模型在训练过程中渐进式学习,去除前向传播中冗余的特征信息,从而大大提高特征的表征能力,增强小目标的检测精度
实施例5:
一种人群密度估计方法,采用上述的装置进行,包括以下步骤:
步骤S100:收集已标注人群数量的监控图像数据,并利用标注内容对每张图像数据生成对应人群密度图,形成训练集;
步骤S200:将训练集里的每张图片处理成两种尺度样本对,然后由网络模型提取图片样本的深度特征,再级联生成预测密度图,最后计算预测人群密度图和真实人群密度图之间的损失值进行优化指导;
步骤S300:利用损失函数级联计算预测人群数量与真实人群数量之间的差异,以及计算预测人群密度图和真实人群密度图之间的误差;
步骤S400:设定最大迭代次数和适配的超参数,然后采用优化器对损失值进行衰减,随机初始化网络模型的相关参数准备训练,通过迭代训练可以找到网络模型的最优解,最后测试收敛网络模型;
步骤S500:将待测图片输入训练后的网络模型并输出人群密度估计结果。
进一步地,所述步骤S300中损失函数包括人群计数损失函数和人群密度图回归损失函数,所述人群计数损失函数用于用于预测人群数量与真实人群数量之间的差异,所述人群密度图回归损失函数用于计算预测人群密度图和真实人群密度图之间的误差。
所述人群计数损失函数公式如下:
Figure 968853DEST_PATH_IMAGE001
其中:M表示批处理样本的大小,i表示样本的索引,Q(·)为从人群密度图转化成预测人数的函数,Q(i)为预测的人数,P i 为真实的人数。
而人群密度图回归损失函数用于整体的网络模型的损失值计算,计算公式如下:
Figure DEST_PATH_IMAGE002
公式中j为样本的索引,G为估测的人群密度图,D为真实的人群密度图。最后,总的损失函数如下:
Figure 885994DEST_PATH_IMAGE003
其中
Figure DEST_PATH_IMAGE004
表示第一级细致注意力模块损失值、第二级细致注意力模块 损失值、第三级细致注意力模块损失值。
本发明构建的人群密度估计方法针对小目标的检测更加精准,能良好的处理人群遮挡问题。由实验可得,本发明提出的新的人群密度估计方法与已有的方法相比较,上下文信息感知能力更强,并且可监督的细致注意力模块的引入能更好的自适应筛选特征信息,大大提高模型的检测性能。
以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。

Claims (10)

1.一种人群密度估计装置,其特征在于,包括数据采集模块、训练模块、检测模块,所述数据采集模块用于收集已标注人群数量的监控图像数据,并形成训练集;所述训练模块用于采用训练集训练网络模型,所述检测模块用于将待检测图片输入训练后的网络模型并输出人群密度估计结果;
所述网络模型包括上下文感知网络、多尺度特征提取网络以及若干个可监督的细致注意力模块,所述上下文感知网络与多尺度特征提取网络之间通过细致注意力模块进行横向链接,所述细致注意力模块用于利用真实密度图进行指导,将前一阶段计算出的注意力图精炼传播到下一阶段的特征信息;所述多尺度特征提取网络的输入图像为原始图像,用于利用不同层次的卷积层提取不同感受野、不同语义信息的特征信息f2;所述上下文感知网络的输入图像是原始图像的上采样图像,用于提取上采样图像的特征信息f1;所述细致注意力模块用于将特征信息f1和f2互补融合成新的信息,所述新的信息用于计算人群计数损失值,进而处理生成注意力图。
2.根据权利要求1所述的一种人群密度估计装置,其特征在于,所述细致注意力模块包括重组向量层、卷积层、S型激活函数层、特征相加层;所述卷积层包括第一卷积层、第二卷积层、第三卷积层、第四卷积层,所述f1通过重组向量层处理后分别与并列设置的第一卷积层、第二卷积层连接,所述f2分别与并列设置的第三卷积层、第四卷积层连接,所述第一卷积层、第三卷积层输出的特征为value特征,用于保留详细的特征信息进行检测;所述第二卷积层、第四卷积层输出的特征为key特征,用于生成注意力图,定位重要特征值;所述第二卷积层、第四卷积层通过特征相加层实现互补融合成新的信息,用于计算人群计数损失值,然后采用S型激活函数层处理生成注意力图。
3.根据权利要求2所述的一种人群密度估计装置,其特征在于,所述细致注意力模块还包括特征点乘层、特征拼接融合层以及损失计算模块,所述卷积层还包括第五卷积层;所述第一卷积层、第三卷积层的输出端分别与特征拼接融合层连接,所述第二卷积层、第四卷积层的输出端经过特征相加层后依次连接第五卷积层、S型激活函数层,所述第五卷积层与损失计算模块连接,用于计算人群计数损失值;所述S型激活函数层的输出与特征拼接融合层的输出经过特征点乘层后,再次与特征拼接融合层的输出经过特征相加层后输出注意力图。
4.根据权利要求3所述的一种人群密度估计装置,其特征在于,所述第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层为不同通道、卷积核大小为1x1的卷积层。
5.根据权利要求1-4任一项所述的一种人群密度估计装置,其特征在于,所述上下文感知网络包括若干个从前至后依次设置的上下文特征提取模块,所述上下文特征提取模块用于提取上采样图像的特征信息f1;所述细致注意力模块与上下文特征提取模块交错设置。
6.根据权利要求5所述的一种人群密度估计装置,其特征在于,所述上下文特征提取模块包括从前至后依次设置的特征拼接融合层、特征重组层、嵌入位置向量层、层归一化层以及自注意力变换模块;所述自注意力变换模块包括从前至后依次设置的若干个多头自注意力模块以及层归一化层、全连接层、激活函数层。
7.根据权利要求1所述的一种人群密度估计装置,其特征在于,所述多尺度特征提取网络采用特征金字塔结构进行搭建;所述多尺度特征提取网络包括从前至后依次设置的卷积层、批归一化层、激活函数层、残差块、特征金字塔。
8.一种人群密度估计方法,采用权利要求1-7任一项所述的装置进行,其特征在于,包括以下步骤:
步骤S100:收集已标注人群数量的监控图像数据,并利用标注内容对每张图像数据生成对应人群密度图,形成训练集;
步骤S200:将训练集里的每张图片处理成两种尺度样本对,然后由网络模型提取图片样本的深度特征,再级联生成预测密度图,最后计算预测人群密度图和真实人群密度图之间的损失值进行优化指导;
步骤S300:利用损失函数级联计算预测人群数量与真实人群数量之间的差异,以及计算预测人群密度图和真实人群密度图之间的误差;
步骤S400:设定最大迭代次数和适配的超参数,然后采用优化器对损失值进行衰减,随机初始化网络模型的相关参数准备训练,通过迭代训练可以找到网络模型的最优解,最后测试收敛网络模型;
步骤S500:将待测图片输入训练后的网络模型并输出人群密度估计结果。
9.根据权利要求8所述的一种人群密度估计方法,其特征在于,所述步骤S300中损失函数包括人群计数损失函数和人群密度图回归损失函数,所述人群计数损失函数用于预测人群数量与真实人群数量之间的差异,所述人群密度图回归损失函数用于计算预测人群密度图和真实人群密度图之间的误差。
10.一种计算机可读存储介质,存储有计算机程序指令,其特征在于,所述程序指令被处理器执行时实现权利要求8或9所述的方法。
CN202111447032.2A 2021-12-01 2021-12-01 一种人群密度估计装置、方法和存储介质 Active CN113869285B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111447032.2A CN113869285B (zh) 2021-12-01 2021-12-01 一种人群密度估计装置、方法和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111447032.2A CN113869285B (zh) 2021-12-01 2021-12-01 一种人群密度估计装置、方法和存储介质

Publications (2)

Publication Number Publication Date
CN113869285A true CN113869285A (zh) 2021-12-31
CN113869285B CN113869285B (zh) 2022-03-04

Family

ID=78985446

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111447032.2A Active CN113869285B (zh) 2021-12-01 2021-12-01 一种人群密度估计装置、方法和存储介质

Country Status (1)

Country Link
CN (1) CN113869285B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114973386A (zh) * 2022-08-01 2022-08-30 成都市威虎科技有限公司 一种深度挖掘混合特征的工地场景人脸目标检测方法
CN114998840A (zh) * 2022-07-18 2022-09-02 成都东方天呈智能科技有限公司 一种基于深度级联有监督学习的老鼠目标检测方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111815665A (zh) * 2020-07-10 2020-10-23 电子科技大学 基于深度信息与尺度感知信息的单张图像人群计数方法
CN112132023A (zh) * 2020-09-22 2020-12-25 上海应用技术大学 基于多尺度上下文增强网络的人群计数方法
CN112507995A (zh) * 2021-02-05 2021-03-16 成都东方天呈智能科技有限公司 一种跨模型人脸特征向量的转换系统及方法
CN112541466A (zh) * 2020-12-21 2021-03-23 山东师范大学 基于上下文注意力机制网络的人群计数方法及系统
CN112541459A (zh) * 2020-12-21 2021-03-23 山东师范大学 基于多尺度感知注意力网络的人群计数方法及系统
CN112560828A (zh) * 2021-02-25 2021-03-26 佛山科学技术学院 一种轻量级口罩人脸识别方法、系统、存储介质及设备
CN112801063A (zh) * 2021-04-12 2021-05-14 广东众聚人工智能科技有限公司 神经网络系统和基于神经网络系统的图像人群计数方法
CN112816789A (zh) * 2021-01-29 2021-05-18 深圳博创汇能科技有限公司 导体内阻异常识别方法、装置、设备及计算机存储介质
WO2021097359A1 (en) * 2019-11-15 2021-05-20 Qualcomm Technologies, Inc. Permutation invariant convolution (pic) for recognizing long-range activities
CN113554125A (zh) * 2021-09-18 2021-10-26 四川翼飞视科技有限公司 结合全局与局部特征的目标检测装置、方法和存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021097359A1 (en) * 2019-11-15 2021-05-20 Qualcomm Technologies, Inc. Permutation invariant convolution (pic) for recognizing long-range activities
CN111815665A (zh) * 2020-07-10 2020-10-23 电子科技大学 基于深度信息与尺度感知信息的单张图像人群计数方法
CN112132023A (zh) * 2020-09-22 2020-12-25 上海应用技术大学 基于多尺度上下文增强网络的人群计数方法
CN112541466A (zh) * 2020-12-21 2021-03-23 山东师范大学 基于上下文注意力机制网络的人群计数方法及系统
CN112541459A (zh) * 2020-12-21 2021-03-23 山东师范大学 基于多尺度感知注意力网络的人群计数方法及系统
CN112816789A (zh) * 2021-01-29 2021-05-18 深圳博创汇能科技有限公司 导体内阻异常识别方法、装置、设备及计算机存储介质
CN112507995A (zh) * 2021-02-05 2021-03-16 成都东方天呈智能科技有限公司 一种跨模型人脸特征向量的转换系统及方法
CN112560828A (zh) * 2021-02-25 2021-03-26 佛山科学技术学院 一种轻量级口罩人脸识别方法、系统、存储介质及设备
CN112801063A (zh) * 2021-04-12 2021-05-14 广东众聚人工智能科技有限公司 神经网络系统和基于神经网络系统的图像人群计数方法
CN113554125A (zh) * 2021-09-18 2021-10-26 四川翼飞视科技有限公司 结合全局与局部特征的目标检测装置、方法和存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
QING YAN等: "Convolutional Residual-Attention: A Deep Learning Approach for Preciptitaion Nowcasting", 《HTTPS://DOI.ORG/10.1155.2020/6484812》 *
沈文祥等: "基于多级特征和混合注意力机制的室内人群检测网络", 《计算机应用》 *
王文凯等: "基于卷积神经网络和Tree-LSTM的微博情感分析", 《计算机应用研究》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114998840A (zh) * 2022-07-18 2022-09-02 成都东方天呈智能科技有限公司 一种基于深度级联有监督学习的老鼠目标检测方法
CN114973386A (zh) * 2022-08-01 2022-08-30 成都市威虎科技有限公司 一种深度挖掘混合特征的工地场景人脸目标检测方法
CN114973386B (zh) * 2022-08-01 2022-11-04 成都市威虎科技有限公司 一种深度挖掘混合特征的工地场景人脸目标检测方法

Also Published As

Publication number Publication date
CN113869285B (zh) 2022-03-04

Similar Documents

Publication Publication Date Title
CN113869285B (zh) 一种人群密度估计装置、方法和存储介质
Wang et al. FE-YOLOv5: Feature enhancement network based on YOLOv5 for small object detection
CN113486190B (zh) 一种融合实体图像信息和实体类别信息的多模态知识表示方法
CN111401149B (zh) 基于长短期时域建模算法的轻量级视频行为识别方法
CN112560733B (zh) 面向两期遥感影像的多任务处理系统及方法
CN110852295B (zh) 一种基于多任务监督学习的视频行为识别方法
CN112818849B (zh) 基于对抗学习的上下文注意力卷积神经网络的人群密度检测算法
Li et al. Robust deep neural networks for road extraction from remote sensing images
CN111507183A (zh) 一种基于多尺度密度图融合空洞卷积的人群计数方法
CN115019039A (zh) 一种结合自监督和全局信息增强的实例分割方法及系统
CN114219824A (zh) 基于深度网络的可见光-红外目标跟踪方法及系统
CN115131747A (zh) 基于知识蒸馏的输电通道工程车辆目标检测方法及系统
CN106204103A (zh) 一种移动广告平台寻找相似用户的方法
CN115171074A (zh) 一种基于多尺度yolo算法的车辆目标识别方法
Yang et al. C-RPNs: Promoting object detection in real world via a cascade structure of Region Proposal Networks
Wu et al. M-FasterSeg: An efficient semantic segmentation network based on neural architecture search
Rijal et al. Integrating Information Gain methods for Feature Selection in Distance Education Sentiment Analysis during Covid-19.
Son et al. Partial convolutional LSTM for spatiotemporal prediction of incomplete data
Long et al. Cascaded feature enhancement network model for real-time video monitoring of power system
CN115240271A (zh) 基于时空建模的视频行为识别方法与系统
Sheng et al. Weakly supervised coarse-to-fine learning for human action segmentation in HCI videos
Xia et al. Application of yolov7 and transformer structures to small object (license plate) detection in complex traffic scenes
Wang et al. Cross-layer progressive attention bilinear fusion method for fine-grained visual classification
CN113920127A (zh) 一种训练数据集独立的单样本图像分割方法和系统
Xia et al. Multi-stream network with key frame sampling for human action recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant