CN113887536A - 一种基于高层语义引导的多阶段高效人群密度估计方法 - Google Patents

一种基于高层语义引导的多阶段高效人群密度估计方法 Download PDF

Info

Publication number
CN113887536A
CN113887536A CN202111471734.4A CN202111471734A CN113887536A CN 113887536 A CN113887536 A CN 113887536A CN 202111471734 A CN202111471734 A CN 202111471734A CN 113887536 A CN113887536 A CN 113887536A
Authority
CN
China
Prior art keywords
training
convolution
density
network
crowd
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111471734.4A
Other languages
English (en)
Other versions
CN113887536B (zh
Inventor
刘寒松
王永
王国强
刘瑞
翟贵乾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sonli Holdings Group Co Ltd
Original Assignee
Sonli Holdings Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sonli Holdings Group Co Ltd filed Critical Sonli Holdings Group Co Ltd
Priority to CN202111471734.4A priority Critical patent/CN113887536B/zh
Publication of CN113887536A publication Critical patent/CN113887536A/zh
Application granted granted Critical
Publication of CN113887536B publication Critical patent/CN113887536B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于机器视觉及深度学习技术领域,涉及一种基于高层语义引导的多阶段高效人群密度估计方法,先通过主干网络提取底层卷积特征,再在不同的池化层后添加不同阶段的空洞卷积分支,其中不同阶段的分支使用来自主干网络的底层特征,减少了特征重复提取的计算消耗;并在不同阶段使用不同空洞因子的空洞卷积替换普通卷积,在增加计算量的基础上提高了网络对于不同尺度人群的感知能力;而且采用了逐点通道注意调制模块,每个空间位置的通道特征上下文分别聚合,提升了对于小目标的感知能力,解决了多尺度特征提取效率低的问题。

Description

一种基于高层语义引导的多阶段高效人群密度估计方法
技术领域
本发明属于机器视觉及深度学习技术领域,涉及一种人群计数方法,特别是一种基于高层语义引导的多阶段高效人群密度估计方法。
背景技术
随着人工智能、物联网、5G等技术的迅速发展,智能视频监控在智慧城市中发挥了重要作用,人群密度估计在智能视频监控体系扮演了重要的角色。准确估计公共基础设施中人群密度的重要意义不言而喻,即准确的疏导人群统计数据防止了踩踏、骚乱等多种危险事故的发生,在管理控制和商业决策方面起着重要的作用。
目前,人头存在较大的尺度变化是阻碍对人群进行精准计数的主要挑战之一,引起这种现象的主要原因是不同的人头距离相机的远近不一,如果可以提供人群图片对应的透视信息,便可以将不同尺度的人头归一化为相同大小,但是如果人头之间密度较高,存在明显的重叠,这个时候透视图可能会失效,甚至带来严重的失真。现有的基于卷积神经网络的方法往往使用多个输入或多个网络模型来提取尺度相关特征,这对于模型优化尤为复杂,如MCNN在网络中结合不同尺度语义的人头信息,使用多列的深度和浅层网络,每个网络都有不同的接受域,可以对特定尺度规模的人头进行计数,这种多列结构就是将这个思想扩展到两个以上的网络中,与现有多网络融合的方法相比,该方法可以对不同层次、不同尺度特征进行优化,它通过深度监督策略来增强单一网络规模的鲁棒性。然而,由于多列网络结构复杂、参数多,使得训练过程变得复杂,因此需要对各列分别进行训练,然后采用预先训练好的多列网络来构造多列结构,并对训练进行微调,增加了网络的冗余度和计算量。因此如何在考虑多尺度的基础上提高网络的效率是亟待解决的问题。另一方面,现有注意力模块倾向于聚合全局上下文特征,其基本假设是对象相对较大且分布更为全局,但是针对人群密度估计中密集的小目标,全局注意力模块会削弱它们的功能,并不能突出小目标。因此,除了高效的多尺度网络外,还需要重新设计注意模块和特征融合方法。
由此可见,针对智能视频监控场景,现有的人群密度估计方法普遍存在高低层语义特征利用不充分的问题,亟需一种更有效的方法对人群密度进行估计。
发明内容
为了克服上述现有技术的不足,本发明提供一种基于高层语义引导的多阶段高效人群密度估计方法,用于解决多尺度特征提取效率低的问题,可用于智能视频监控场景的人群密度估计任务中,能够高效的统计人群的密度和数量。
为了实现上述目的,本发明所述基于高层语义引导的多阶段高效人群密度估计方法,使用VGG16卷积神经网络作为主干网络用于底层特征的提取,并在第一个池化层和第二个池化层之后分支出两个阶段,用于不同尺度的特征提取,其中在不同阶段使用空洞卷积来替代普通卷积,并不断增大空洞卷积的空洞因子,增大同一阶段内的感受野的差异,提升对不同尺度人群的感知能力;在不同的阶段之间使用逐点通道注意调制模块进行关联,其中每个空间位置的通道特征上下文分别聚合;最后使用1×1卷积将不同阶段的特征聚合起来回归人群密度图,并通过对人群密度图积分实现人群计数,具体包括如下步骤:
(1)数据集预处理,生成密度图。
使用Shanghai Tech 数据集PartA作为训练和测试数据集,先通过经典的对称性增强方法对训练数据集进行增强,然后将训练集中的每张图片切成9块,每张图片的大小是原图的1/4,间隔是图片的1/6,每张训练集中的原图增强到18张,训练数据集为5400张图像,测试集为182张,数量保持不变;在后续进行训练的时候需要成对的人群图象块及其对应的真实密度图,数据集是以点注释的形式给出在每个人的头部中心,因此需要头部注释的坐标值到密度图的转换,假设在图像中的坐标处有个目标注释,则该点可以表示为
Figure 618557DEST_PATH_IMAGE001
函数
Figure 270118DEST_PATH_IMAGE002
,因此,对于具有
Figure 784276DEST_PATH_IMAGE003
个目标点的图像,密度方程卷积
Figure 772961DEST_PATH_IMAGE004
表示为:
Figure 56175DEST_PATH_IMAGE005
,高斯滤波器
Figure 472113DEST_PATH_IMAGE006
可以与密度方程卷积得到密度方程,将离散的密度方程转化为连续的,以此得到标记的人群密度图,用于后续网络训练,公式为:
Figure 473567DEST_PATH_IMAGE007
(2)底层特征提取。
首先构建人群密度估计网络结构的主干网络,将步骤(1)生成的训练数据集图片输入到VGG16卷积神经网络中作为主干网络用于特征的提取,从VGG16卷积神经网络切割前13层,其中包含10层卷积层和3层池化层,三层池化层分别连接在第二层卷积之后、第四层卷积之后和第七层卷积之后,并在最后的卷积层输出底层特征;
(3)多阶段特征提取。
在主干网络第一个池化层和第二个池化层之后分支出两个阶段,使用空洞卷积来替代普通卷积,并且不断增大空洞卷积的空洞因子,使得该阶段获得的感受野比不同阶段的感受野更大,增加不同阶段之间感受野的差距,每一个阶段在经过两个卷积操作之后均使用最大池化对特征图进行操作,其中第一个阶段使用的空洞卷积的空洞因子为2、3、4逐步增大,第二个阶段使用的空洞卷积的空洞因子为2、3,由此在两个阶段的最后一个卷积输出不同尺度的人群特征;
(4)高层语义引导的权重分配模块。
为了突出远距离小目标的细微细节,在步骤(3)的主干网络与不同阶段之间使用一种逐点通道权重分配模块进行关联,其中每个空间位置的通道特征上下文分别聚合,逐点通道权重模块以自下而上的方式传播上下文信息,用以丰富高层特征和底层特征的空间细节,高层语义引导的语义权重
Figure 406888DEST_PATH_IMAGE008
为:
Figure 660453DEST_PATH_IMAGE009
其中PConv表示逐点卷积,PConv1和PConv2的核大小分别为
Figure 388237DEST_PATH_IMAGE010
Figure 876987DEST_PATH_IMAGE011
Figure 207474DEST_PATH_IMAGE012
为ReLU激活函数,
Figure 465280DEST_PATH_IMAGE013
为Sigmoid函数,
Figure 629546DEST_PATH_IMAGE014
具有与底层特征Y相同的形状,能以元素方式突出 小目标,调制的底层语义特征
Figure 605592DEST_PATH_IMAGE015
为:
Figure 739770DEST_PATH_IMAGE016
,其中x为高层语义特征,Y是底层特征,通过 将权重和底层特征进行矩阵运算,得到权重重分配后的底层语义特征
Figure 117662DEST_PATH_IMAGE015
,最终将高层语义引 导的权重分配模块应用于不同的阶段之间,用于增强不同尺度特征之间的上下文关联,增 强高层语义对于底层特征的语义引导;
(5)多阶段特征融合。
将步骤(3)提取的VGG16底层特征和步骤(4)得到的两个阶段的特征共三个阶段的特征使用Concat操作合并在一起,最后使用采用1×1的卷积运算将Channel维度降为1,得到预测的人群密度图;
(6)训练网络结构,得到训练好的模型参数。
使用步骤(1)Shanghai Tech 数据集PartA增广裁剪后的训练集图像,图片尺寸为512
Figure 187249DEST_PATH_IMAGE017
512
Figure 650591DEST_PATH_IMAGE017
3,按照批次尺寸(B),依次输入到步骤(2)-步骤(5)构建的网络结构中,整个主干网络的输入
Figure 588460DEST_PATH_IMAGE018
,输出密度图的分类置信度
Figure 820858DEST_PATH_IMAGE019
,通过计算人工标注密度图和预测密度图之间的距离来进行有监督的训练,网络的损失函数定义为:
Figure 61347DEST_PATH_IMAGE020
其中
Figure 871040DEST_PATH_IMAGE021
是在完全卷积神经网络中学习的参数,
Figure 487966DEST_PATH_IMAGE022
表示训练集中的第
Figure 574871DEST_PATH_IMAGE023
个训练图像,N是训练集中的图像数,用
Figure 251840DEST_PATH_IMAGE024
Figure 548829DEST_PATH_IMAGE025
分别表示标记的人群密度图和预测的人群密度图;
Figure 703867DEST_PATH_IMAGE026
将标注密度图和预测的人群密度图之间的欧几里德距离来计算损失;经过设定次数(200次)完整训练集训练迭代后,保存验证集上结果最好的模型参数,作为最终模型训练好的参数,即得到训练好的人群密度估计网络参数;
(7)测试网络。
在测试过程中,使用步骤(2)-步骤(5)构建的网络结构加载步骤(6)训练好的人群密度估计网络参数,使用Shanghai Tech 数据集PartA中测试集合数据,保持图片尺寸不变,作为人群密度估计网络的输入,即可输出人群图对应的密度图,然后对密度图进行积分就是该图的人的数量,从而完成基于高层语义引导的多阶段高效人群密度估计方法的训练和测试,实现了对人群密度的估计和人群计数。
与现有技术相比,本发明的有益效果是:
(1)通过主干网络提取底层卷积特征,然后在不同的池化层后添加不同阶段的空洞卷积分支,其中不同阶段的分支使用来自主干网络的底层特征,采用多阶段的特征提取结构,减少了对训练微调的依赖程度,减少了特征重复提取的计算消耗,减少了网络的冗余度和计算量;
(2)在不同阶段使用不同空洞因子的空洞卷积替换普通卷积,在不增加计算量的基础上,提升了不同阶段特征的尺度差异,有益于不同尺度人群的密度估计;
(3)提出的注意力模块与自上而下的调制方式相反,这种调制方式以自下而上的方式传播上下文信息,以丰富高层特征和底层特征的空间细节,增加了高层语义信息对于底层语义信息的指导,提高了小目标的感知能力。本发明不仅可以用来进行智能监控场景的人群密度的估计,还可以用于智能交通场景道路上密集车辆的密度估计、车辆计数等各项密集场景计数任务。使用我们提出的基于高层语义引导的多阶段高效人群密度估计方法,在Shanghai Tech数据集PartA中,实现了MAE指标为65.1和MSE指标为104.9的高精度人群密度估计,同时减少了大量计算。
附图说明
图1为本发明提供的人群密度估计的结构框架示意图,其中(a)是高层语义引导的权重分配模块,图(b)为整个网络结构图。
图2为本发明提供的基于高层语义引导的多阶段高效人群密度估计方法的流程框图。
图3为本发明实施例在Shanghai Tech数据集PartA上某一原图的真实密度图(a)及预测密度图(b)。
图4为本发明实施例在Shanghai Tech数据集PartA上另一原图的真实密度图(a)及预测密度图(b)。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
实施例
本实施例所述基于高层语义引导的多阶段高效人群密度估计方法,使用VGG16卷积神经网络作为主干网络用于底层特征的提取,并在第一个池化层和第二个池化层之后分支出两个阶段,用于不同尺度的特征提取,其中在不同阶段使用空洞卷积来替代普通卷积,并不断增大空洞卷积的空洞因子,增大同一阶段内的感受野的差异,提升对不同尺度人群的感知能力;在不同的阶段之间使用一种逐点通道注意调制模块进行关联,其中每个空间位置的通道特征上下文分别聚合;最后使用1×1卷积将不同阶段的特征聚合起来回归人群密度图,并通过对人群密度图积分实现人群计数,如图1和图2所示,具体包括如下步骤:
(1)数据集预处理,生成密度图。
使用Shanghai Tech 数据集PartA作为训练和测试数据集,先通过经典的对称性增强方法对训练数据集进行增强,然后将训练集中的每张图片切成9块,每张图片的大小是原图的1/4,间隔是图片的1/6,每张训练集中的原图增强到18张,训练数据集为5400张图像,测试集为182张,数量保持不变。在进行训练的时候需要成对的人群图像块及其对应的真实密度图,数据集是以点注释的形式给出在每个人的头部中心,因此需要头部注释的坐标值到密度图的转换,假设在图像中的坐标处有个目标注释,则该点可以表示为
Figure 910857DEST_PATH_IMAGE001
函数
Figure 758727DEST_PATH_IMAGE027
,因此,对于具有
Figure 543013DEST_PATH_IMAGE003
个目标点的图像,密度方程卷积
Figure 501741DEST_PATH_IMAGE028
表示为:
Figure 297659DEST_PATH_IMAGE029
高斯滤波器
Figure 316431DEST_PATH_IMAGE030
可以与密度方程卷积得到密度方程,将离散的密度方程转化为连续的,以此得到标记的人群密度图,用于后续网络训练,公式如下所示:
Figure 588012DEST_PATH_IMAGE031
(2)底层特征提取。
首先构建人群密度估计网络结构的主干网络,将步骤(1)生成的训练数据集图片输入到VGG16卷积神经网络中作为主干网络用于特征的提取,从VGG16卷积神经网络切割前13层,其中包含10层卷积层和3层池化层,它们的连接顺序如图1所示,三层池化层分别连接在第二层卷积之后、第四层卷积之后和第七层卷积之后,并在最后的卷积层输出底层特征;
(3)多阶段特征提取。
在主干网络第一个池化层和第二个池化层之后分支出两个阶段,使用空洞卷积来替代普通卷积,并且不断增大空洞卷积的空洞因子,使得该阶段获得的感受野比不同阶段的感受野更大,增加不同阶段之间感受野的差距,每一个阶段在经过两个卷积操作之后均使用最大池化对特征图进行操作,其中第一个阶段使用的空洞卷积的空洞因子为2、3、4逐步增大,第二个阶段使用的空洞卷积的空洞因子为2、3,由此在两个阶段的最后一个卷积输出不同尺度的人群特征;
(4)高层语义引导的权重分配模块。
为了突出远距离小目标的细微细节,在步骤(3)的主干网络与不同阶段之间使用一种逐点通道权重分配模块进行关联,其中每个空间位置的通道特征上下文分别聚合,逐点通道权重模块以自下而上的方式传播上下文信息,用以丰富高层特征和底层特征的空间细节,其网络结构如图1(a)所示,高层语义引导的语义权重
Figure 350432DEST_PATH_IMAGE008
为:
Figure 266435DEST_PATH_IMAGE009
其中PConv表示逐点卷积,PConv1和PConv2的核大小分别为
Figure 190529DEST_PATH_IMAGE010
Figure 952336DEST_PATH_IMAGE011
Figure 252867DEST_PATH_IMAGE012
为ReLU激活函数,
Figure 288956DEST_PATH_IMAGE013
为Sigmoid函数,
Figure 383951DEST_PATH_IMAGE014
具有与底层特征Y相同的形状,能以元素方式突出 小目标,调制的底层语义特征
Figure 630125DEST_PATH_IMAGE015
为:
Figure 734347DEST_PATH_IMAGE016
,其中x为高层语义特征,Y是底层特征,通过 将权重和底层特征进行矩阵运算,得到权重重分配后的底层语义特征
Figure 359363DEST_PATH_IMAGE015
,最终将高层语义引 导的权重分配模块应用于不同的阶段之间,用于增强不同尺度特征之间的上下文关联,增 强高层语义对于底层特征的语义引导;;
(5)多阶段特征融合。
将步骤(3)提取的VGG16底层特征和步骤(4)得到的两个阶段的特征共三个阶段的特征使用Concat操作合并在一起,最后使用采用1×1的卷积运算将Channel维度降为1,得到预测的人群密度图;
(6)训练网络结构,得到训练好的模型参数。
使用步骤(1)Shanghai Tech 数据集PartA增广裁剪后的训练集图像,图片尺寸为512
Figure 890839DEST_PATH_IMAGE017
512
Figure 358729DEST_PATH_IMAGE017
3,按照批次尺寸(B),依次输入到步骤(2)-步骤(5)构建的网络结构中,整个主干网络的输入
Figure 266643DEST_PATH_IMAGE018
,输出密度图的分类置信度
Figure 11745DEST_PATH_IMAGE019
,通过计算人工标注密度图和预测密度图之间的距离来进行有监督的训练,网络的损失函数定义如下:
Figure 573176DEST_PATH_IMAGE020
其中
Figure 403729DEST_PATH_IMAGE021
是在完全卷积神经网络中学习的参数,
Figure 849754DEST_PATH_IMAGE022
表示训练集中的第
Figure 449362DEST_PATH_IMAGE023
个训练图像,N是训练集中的图像数,用
Figure 447274DEST_PATH_IMAGE024
Figure 765123DEST_PATH_IMAGE025
分别表示标记的人群密度图和预测的人群密度图,
Figure 749259DEST_PATH_IMAGE026
将标注密度图和预测的人群密度图之间的欧几里德距离来计算损失;经过设定次数(200次)完整训练集训练迭代后,保存验证集上结果最好的模型参数,作为最终模型训练好的参数,即得到训练好的人群密度估计网络参数;
7)测试网络。
在测试过程中,使用步骤(2)-步骤(5)构建的网络结构加载步骤(6)训练好的网络参数,使用Shanghai Tech 数据集PartA中测试集合数据,保持图片尺寸不变,作为人群密度估计网络的输入,即可输出人群图对应的密度图,然后对密度图进行积分就是该图的人的数量,从而完成基于高层语义引导的多阶段高效人群密度估计方法的训练和测试,实现了对人群密度的估计和人群计数。
本实施例采用上述方法得到的预测密度图跟在Shanghai Tech数据集PartA上真实密度图对比不同场景的结果如图3和图4所示,从密度图结果上采用的方法能够很好的预测不同尺度人群的密度图,并且在不同场景中具有良好的泛化性和鲁棒性,本实施例在不同的池化层后添加不同阶段的空洞卷积分支,其中不同阶段的分支使用来自主干网络的底层特征,减少了特征重复提取的计算消耗,提升了多尺度特征提取的效率,能够高效的统计人群的密度和数量。
需要注意的是,本实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (5)

1.一种基于高层语义引导的多阶段高效人群密度估计方法,其特征在于,包括如下步骤:
(1)数据集预处理,生成密度图:
使用Shanghai Tech 数据集PartA作为训练和测试数据集,并对训练数据集进行处理和训练;
(2)底层特征提取:
首先构建人群密度估计网络结构的主干网络,将步骤(1)生成的训练数据集图片输入到VGG16卷积神经网络中作为主干网络用于特征的提取,从VGG16卷积神经网络切割前13层,其中包含10层卷积层和3层池化层,三层池化层分别连接在第二层卷积之后、第四层卷积之后和第七层卷积之后,并在最后的卷积层输出底层特征;
(3)多阶段特征提取:
在主干网络第一个池化层和第二个池化层之后分支出两个阶段,使用空洞卷积来替代普通卷积,并且不断增大空洞卷积的空洞因子,使得该阶段获得的感受野比不同阶段的感受野更大,增加不同阶段之间感受野的差距,每一个阶段在经过两个卷积操作之后均使用最大池化对特征图进行操作,由此在两个阶段的最后一个卷积输出不同尺度的人群特征;
(4)高层语义引导的权重分配模块:
为了突出远距离小目标的细微细节,在步骤(3)的主干网络与不同阶段之间使用逐点通道权重分配模块进行关联,其中每个空间位置的通道特征上下文分别聚合,逐点通道权重模块以自下而上的方式传播上下文信息,用以丰富高层特征和底层特征的空间细节,通过将权重L(x)和底层特征Y进行矩阵运算,得到权重重分配后的底层语义特征
Figure 695821DEST_PATH_IMAGE001
,最终将高层语义引导的权重分配模块应用于不同的阶段之间,用于增强不同尺度特征之间的上下文关联,增强高层语义对于底层特征的语义引导;
(5)多阶段特征融合:
将步骤(3)提取的VGG16底层特征和步骤(4)得到的两个阶段的特征共三个阶段的特征使用Concat操作合并在一起,最后使用采用1×1的卷积运算将Channel维度降为1,得到预测的人群密度图;
(6)训练网络结构,得到训练好的模型参数:
使用步骤(1)Shanghai Tech 数据集PartA增广裁剪后的训练集图像,图片尺寸为512
Figure 802318DEST_PATH_IMAGE002
512
Figure 607463DEST_PATH_IMAGE002
3,按照批次尺寸(B),依次输入到步骤(2)-步骤(5)构建的网络结构中,整个主干网络的输入
Figure 208339DEST_PATH_IMAGE003
,输出密度图的分类置信度
Figure 782540DEST_PATH_IMAGE004
,通过计算人工标注密度图和预测密度图之间的距离来进行有监督的训练,经过设定次数完整训练集训练迭代后,保存验证集上结果最好的模型参数,作为最终模型训练好的参数,即得到训练好的人群密度估计网络参数;
(7)测试网络:
在测试过程中,使用步骤(2)-步骤(5)构建的网络结构加载步骤(6)训练好的人群密度估计网络参数,使用Shanghai Tech 数据集PartA中测试集合数据,保持图片尺寸不变,作为人群密度估计网络的输入,即可输出人群图对应的密度图,然后对密度图进行积分就是该图的人的数量,从而完成基于高层语义引导的多阶段高效人群密度估计方法的训练和测试,实现了对人群密度的估计和人群计数。
2.根据权利要求1所述基于高层语义引导的多阶段高效人群密度估计方法,其特征在于,对训练数据集进行处理和训练的具体过程为:先通过经典的对称性增强方法对训练数据集进行增强,然后将训练集中的每张图片切成9块,每张图片的大小是原图的1/4,间隔是图片的1/6,每张训练集中的原图增强到18张,训练数据集为5400张图像,测试集为182张,测试集数量保持不变;在训练的时候需要成对的人群图象块及其对应的真实密度图,数据集以点注释的形式给出在每个人的头部中心,需要头部注释的坐标值到密度图的转换,假设在图像中的坐标处有个目标注释,则该点可以表示为
Figure 59938DEST_PATH_IMAGE005
函数
Figure 86800DEST_PATH_IMAGE006
,因此,对于具有
Figure 943897DEST_PATH_IMAGE007
个目标点的图像,密度方程卷积
Figure 434921DEST_PATH_IMAGE008
表示为:
Figure 820903DEST_PATH_IMAGE009
,高斯滤波器
Figure 662957DEST_PATH_IMAGE010
可以与密度方程卷积得到密度方程,将离散的密度方程转化为连续的,以此得到标记的人群密度图,用于后续网络训练,公式为:
Figure 58167DEST_PATH_IMAGE011
3.根据权利要求1所述基于高层语义引导的多阶段高效人群密度估计方法,其特征在于,步骤(3)中第一个阶段使用的空洞卷积的空洞因子为2、3、4逐步增大,第二个阶段使用的空洞卷积的空洞因子为2、3。
4.根据权利要求1所述基于高层语义引导的多阶段高效人群密度估计方法,其特征在于,所述权重
Figure 341381DEST_PATH_IMAGE012
为高层语义引导的语义权重,具体为:
Figure 976892DEST_PATH_IMAGE013
其中PConv表示逐点卷积,PConv1和PConv2的核大小分别为
Figure 978346DEST_PATH_IMAGE014
Figure 177247DEST_PATH_IMAGE015
Figure 377284DEST_PATH_IMAGE016
为 ReLU激活函数,
Figure 370648DEST_PATH_IMAGE017
为Sigmoid函数,
Figure 921715DEST_PATH_IMAGE018
具有与底层特征Y相同的形状,能以元素方式突出小目 标,调制的底层语义特征
Figure 658726DEST_PATH_IMAGE019
为:
Figure 916532DEST_PATH_IMAGE020
,其中x为高层语义特征。
5.根据权利要求2所述基于高层语义引导的多阶段高效人群密度估计方法,其特征在于,步骤(6)中训练过程产生的网络损失函数定义为:
Figure 143114DEST_PATH_IMAGE021
,其中
Figure 853581DEST_PATH_IMAGE022
是在完全卷积神经网络中学习的参数,
Figure 394284DEST_PATH_IMAGE023
表示训练集中的第
Figure 585225DEST_PATH_IMAGE024
个训练图像,N是训练集中的图像数,用
Figure 654812DEST_PATH_IMAGE025
Figure 180472DEST_PATH_IMAGE026
分别表示标记的人群密度图和预测的人群密度图;
Figure 993707DEST_PATH_IMAGE027
将标注密度图和预测的人群密度图之间的欧几里德距离来计算损失。
CN202111471734.4A 2021-12-06 2021-12-06 一种基于高层语义引导的多阶段高效人群密度估计方法 Active CN113887536B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111471734.4A CN113887536B (zh) 2021-12-06 2021-12-06 一种基于高层语义引导的多阶段高效人群密度估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111471734.4A CN113887536B (zh) 2021-12-06 2021-12-06 一种基于高层语义引导的多阶段高效人群密度估计方法

Publications (2)

Publication Number Publication Date
CN113887536A true CN113887536A (zh) 2022-01-04
CN113887536B CN113887536B (zh) 2022-03-04

Family

ID=79016373

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111471734.4A Active CN113887536B (zh) 2021-12-06 2021-12-06 一种基于高层语义引导的多阶段高效人群密度估计方法

Country Status (1)

Country Link
CN (1) CN113887536B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114758306A (zh) * 2022-06-16 2022-07-15 松立控股集团股份有限公司 一种基于金字塔特征融合的人群密度估计方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563349A (zh) * 2017-09-21 2018-01-09 电子科技大学 一种基于VGGNet的人数估计方法
CN107862261A (zh) * 2017-10-25 2018-03-30 天津大学 基于多尺度卷积神经网络的图像人群计数方法
CN109389043A (zh) * 2018-09-10 2019-02-26 中国人民解放军陆军工程大学 一种无人机航拍图片的人群密度估计方法
CN109635763A (zh) * 2018-12-19 2019-04-16 燕山大学 一种人群密度估计方法
US20190147584A1 (en) * 2017-11-15 2019-05-16 NEC Laboratories Europe GmbH System and method for single image object density estimation
CN109919112A (zh) * 2019-04-02 2019-06-21 郑州大学 一种复杂场景中流动人群的分布与计数检测的方法
CN110020606A (zh) * 2019-03-13 2019-07-16 北京工业大学 一种基于多尺度卷积神经网络的人群密度估计方法
CN111144329A (zh) * 2019-12-29 2020-05-12 北京工业大学 一种基于多标签的轻量快速人群计数方法
CN113011329A (zh) * 2021-03-19 2021-06-22 陕西科技大学 一种基于多尺度特征金字塔网络及密集人群计数方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563349A (zh) * 2017-09-21 2018-01-09 电子科技大学 一种基于VGGNet的人数估计方法
CN107862261A (zh) * 2017-10-25 2018-03-30 天津大学 基于多尺度卷积神经网络的图像人群计数方法
US20190147584A1 (en) * 2017-11-15 2019-05-16 NEC Laboratories Europe GmbH System and method for single image object density estimation
CN109389043A (zh) * 2018-09-10 2019-02-26 中国人民解放军陆军工程大学 一种无人机航拍图片的人群密度估计方法
CN109635763A (zh) * 2018-12-19 2019-04-16 燕山大学 一种人群密度估计方法
CN110020606A (zh) * 2019-03-13 2019-07-16 北京工业大学 一种基于多尺度卷积神经网络的人群密度估计方法
CN109919112A (zh) * 2019-04-02 2019-06-21 郑州大学 一种复杂场景中流动人群的分布与计数检测的方法
CN111144329A (zh) * 2019-12-29 2020-05-12 北京工业大学 一种基于多标签的轻量快速人群计数方法
CN113011329A (zh) * 2021-03-19 2021-06-22 陕西科技大学 一种基于多尺度特征金字塔网络及密集人群计数方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
SAMI ABDULLA MOHSEN SALEH 等: "Recent survey on crowd density estimation and counting for visual surveillance", 《ENGINEERING APPLICATIONSOFARTIFICIAL INTELLIGENCE》 *
唐斯琪 等: "一种多列特征图融合的深度人群计数算法", 《郑州大学学报(理学版)》 *
贾翻连 等: "基于改进的卷积神经网络的人群密度估计", 《计算机技术与发展》 *
邓远志 等: "基于特征金字塔的人群密度估计方法", 《测控技术》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114758306A (zh) * 2022-06-16 2022-07-15 松立控股集团股份有限公司 一种基于金字塔特征融合的人群密度估计方法

Also Published As

Publication number Publication date
CN113887536B (zh) 2022-03-04

Similar Documents

Publication Publication Date Title
CN109740419B (zh) 一种基于Attention-LSTM网络的视频行为识别方法
CN110210551B (zh) 一种基于自适应主体敏感的视觉目标跟踪方法
CN113378906B (zh) 一种特征自适应对齐的无监督域适应遥感图像语义分割方法
CN113011329A (zh) 一种基于多尺度特征金字塔网络及密集人群计数方法
CN111310773A (zh) 一种高效的卷积神经网络的车牌定位方法
CN110222718B (zh) 图像处理的方法及装置
CN113744311A (zh) 基于全连接注意力模块的孪生神经网络运动目标跟踪方法
CN106815563B (zh) 一种基于人体表观结构的人群数量预测方法
CN113592894A (zh) 一种基于边界框和同现特征预测的图像分割方法
CN110163060B (zh) 图像中人群密度的确定方法及电子设备
CN114299285A (zh) 三维点云半自动标注方法、系统、电子设备及存储介质
Yuan et al. Few-shot scene classification with multi-attention deepemd network in remote sensing
CN113313176A (zh) 一种基于动态图卷积神经网络的点云分析方法
CN117218351A (zh) 基于局部和全局上下文感知的三维点云语义分割方法
CN111126155B (zh) 一种基于语义约束生成对抗网络的行人再识别方法
CN113887536B (zh) 一种基于高层语义引导的多阶段高效人群密度估计方法
CN115631513A (zh) 基于Transformer的多尺度行人重识别方法
CN118397465A (zh) 一种基于多维特征聚合增强与分发机制的遥感小目标检测方法
CN114358246A (zh) 三维点云场景的注意力机制的图卷积神经网络模块
CN116935249A (zh) 一种无人机场景下三维特征增强的小目标检测方法
CN117152580A (zh) 双目立体视觉匹配网络构建方法及双目立体视觉匹配方法
CN116246305A (zh) 一种基于混合部件变换网络的行人检索方法
CN112990336B (zh) 基于竞争注意力融合的深度三维点云分类网络构建方法
CN111126310B (zh) 一种基于场景迁移的行人性别识别方法
Sivaprakash et al. A convolutional neural network approach for crowd counting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant