CN113743422B - 多特征信息融合的人群密度估计方法、设备及存储介质 - Google Patents
多特征信息融合的人群密度估计方法、设备及存储介质 Download PDFInfo
- Publication number
- CN113743422B CN113743422B CN202111045858.6A CN202111045858A CN113743422B CN 113743422 B CN113743422 B CN 113743422B CN 202111045858 A CN202111045858 A CN 202111045858A CN 113743422 B CN113743422 B CN 113743422B
- Authority
- CN
- China
- Prior art keywords
- network
- crowd density
- density estimation
- layer
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000003860 storage Methods 0.000 title claims abstract description 10
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000004220 aggregation Methods 0.000 claims abstract description 21
- 230000002776 aggregation Effects 0.000 claims abstract description 21
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 230000010339 dilation Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000000605 extraction Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 238000001514 detection method Methods 0.000 description 4
- 230000001965 increasing effect Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 239000013589 supplement Substances 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种多特征信息融合的人群密度估计方法、设备及存储介质,具体步骤为,构建训练数据集,对训练数据集进行预处理;构建并训练多特征信息融合卷积神经网络,得到多特征信息融合的人群密度估计模型;所述多特征信息融合卷积神经网络分为上下两层,上层包括VGG16前10层,下层包括VGG16前10层后衔接的空间注意力透视网络、多尺度信息聚合网络、语义嵌入融合网络以及后端空洞卷积网络;使用多特征信息融合的人群密度估计模型对待检测数据集中的人群密度进行检测,输出最终的人群密度图;本发明提高了人群密度估计模型的准确度与鲁棒性,提升人群密度估计方法的性能,为人群密度估计算法在工业当中的实际部署落地做出有益尝试。
Description
技术领域
本发明属于人群密度估计技术领域,具体涉及一种多特征信息融合的人群密度估计方法、设备及存储介质。
背景技术
随着国民经济迅猛发展及城市化进度不断加快,城市人口数量急剧增加,由此带来的社会问题也不断增加,群众因各种原因可能聚集在不同的场景下,易造成交通拥堵、人员踩踏等不安全事故的发生,因此人群密度估计在视频监控、公共安全、城市规划等诸多领域具有较高的应用价值。
基于检测的人群计数方法主要是通过类似滑动窗口探测器检测图像中人员全身或者诸如脸、头等局部位置,但此方法对遮挡较多人群,存在计算量大、精度较差等问题;MCNN通过多列CNN结构并行提取多尺度信息,解决一定程度上的视角变化问题,但多列结构每一列具有相似的学习功能,视角的变化使得多列卷积核大小难以适用一些视角情况;CSRNet利用单列卷积神经网络VGG-16,在网络后端添加空洞卷积以扩大感受野,同时缩减网络参数,但其对空间信息的提取以及深度特征的提取能力较差;CAN针对尺度信息获取困难的问题,通过学习每个特征对图像位置的重要性,结合多特征信息结果,从而获取尺度上下文信息,但其对稀疏和较复杂场景时,因背景干扰及特征提取能力的问题,会导致错误的预测。
由上述可知,上下文信息、多列结构为多尺度的学习提供了一种有效手段,在一定程度上可以解决视角变化问题,但上述方法仍无法解决视角变化导致的全局上下文信息提取能力差、特征融合不充分、及特征空间信息丢失等问题,导致网络最终估计精度低,效果差。
发明内容
为了解决现有技术中存在的问题,本发明提出了一种多特征信息融合的人群密度估计方法、设备及存储介质,该方法利用骨架网络输出结果得到高层语义信息,并通过空间注意力透视网络来聚合图像的空间全局上下文信息,同时通过多尺度非对称卷积与不同膨胀率的空洞卷积组合使提取到的语义信息与尺度信息表达能力更强;最后使用语义嵌入的方法,将空间信息引入表达更强的高层语义信息,将高层语义信息引入低层空间信息,增强特征表达,以获取高质量的密度图,更准确的预估人群人数。
为实现上述目的,本发明提供如下技术方案:一种多特征信息融合的人群密度估计方法,具体步骤如下:
S1构建训练数据集,对训练数据集进行预处理;
S2构建并训练多特征信息融合卷积神经网络,得到多特征信息融合的人群密度估计模型;所述多特征信息融合卷积神经网络分为上下两层,上层包括VGG16前10层,下层包括VGG16前10层后衔接的空间注意力透视网络、多尺度信息聚合网络、语义嵌入融合网络以及后端空洞卷积网络;
S3使用多特征信息融合的人群密度估计模型对待检测数据集中的人群密度进行检测,输出最终的人群密度图。
进一步的,步骤S2中,
1)构建多特征信息融合的人群密度估计网络,将基础骨架VGG16中的第二、三、十层的结果分别输出,生成一组不同分辨率的初始特征图;
2)将第十层的初始特征图输入多尺度信息聚合网络,多尺度信息聚合网络通过多尺度非对称卷积捕捉第十层的特征图的多尺度特征,通过不同膨胀率的空洞卷积扩大多尺度特征的群感受野,得到多尺度图像上下文信息FM;
3)将第十层的特征图输入空间注意力透视网络,空间注意力透视网络对第十层的初始特征图进行四个方向的卷积得到四张特征图,对得到的特征图进行融合,得到空间全局上下文信息FP;
4)将第二、三层的初始特征图与步骤2中的多尺度图像上下文信息FM在语义嵌入融合网络中进行语义嵌入上采样,语义上采样后再进行语义嵌入融合得到语义嵌入特征图FSE。
5)将步骤3)空间全局上下文信息FP和步骤2)中的多尺度图像上下文信息FM拼接后输入空洞卷积网络第一层,步骤4)得到的语义嵌入特征图FSE输入空洞卷积网络第五层,通过后端空洞卷积网络输出得到预测密度图M;
6)根据预测密度图M与对应真值图计算人群密度估计损失值,利用人群密度估计损失值对所述多特征信息融合的人群密度估计网络进行训练得到多特征信息融合的人群密度估计模型。
进一步的,步骤2)中,所述多尺度非对称卷积采用1×1、3×3、5×5三种不同卷积核尺寸,所述多尺度非对称卷积包括训练和部署两个阶段,其中训练阶段为将现有网络每一个3×3卷积层替换成3×3、3×1、1×3三个卷积层,所述部署阶段为融合三个卷积核再对初始特征图进行卷积。
进一步的,步骤2)中,所述不同空洞率的空洞卷积包括rate=1、rate=3和rate=5的3×3扩张卷积。
进一步的,步骤3)中,所述四个方向的卷积依次为从左到右,从右到左,从上到下,从下到上的卷积。
进一步的,步骤4)中,所述语义嵌入融合如公式(3)所示:
ml=Upsample(ml)+F(ml-1,ml), (3)
FSE=m3,式中,l=[1,2,3],F(﹒)函数功能为矩阵逐元素相乘操作,Uupsample(ml)为对第l层的特征进行上采样,利用此方法从高级特征中引入更多的语义信息来提升特征融合的质量。
进一步的,步骤5)中,所述后端空洞卷积网络为六层。
进一步的,步骤S1中,所述预处理为对训练数据集进行数据增强。
本发明还提供一种计算机设备,所述计算机设备包括计算机、服务器或者其他具有计算功能的终端设备,所述设备包括通过总线连接的处理器、存储器,所述存储器中储存程序,并且该程序被配制成由处理器执行,程序包括用于执行上述多特征信息融合的人群密度估计方法。
本发明还提供一种计算机存储介质,所述计算机存储介质中存储有计算机程序,所述程序被处理器执行,处理器执行所述计算机程序时,实现上述多特征信息融合的人群密度估计方法。
与现有技术相比,本发明至少具有以下有益效果:
本发明公开一种多特征信息融合的人群密度估计方法,该方法利用基于VGG16前10层构成的卷积神经网络构建人群密度估计网络,利用骨架网络生成包含高层语义信息的特征图,而后同时利用空间注意力透视网络与多尺度信息聚合网络,生成包含注意力信息的全局空间上下文信息与包含多尺度的特征信息,最后通过细致语义特征嵌入融合方式,补充高层特征图的空间信息及低层特征图语义信息,并使上下文信息与尺度信息相互补充,提高了模型的准确度与鲁棒性,提升人群密度估计方法的性能,为人群密度估计算法在工业当中的实际部署落地做出有益尝试。
附图说明
图1为本发明多特征信息融合的人群密度估计模型匹配的流程图;
图2为本发明多特征信息融合的人群密度估计网络结构图;
图3为本发明空间注意力透视网络结构图;
图4为本发明多尺度信息聚合网络结构图;
图5为本发明在ShanghaiTech数据集的结果展示,其中图(a)为原图、图(b)为真值图、图(c)为预测密度图;
图6为本发明在Mall数据集的结果展示,其中图(a)为原图、图(b)真值图、图(c)预测密度图;
具体实施方式
下面结合附图和具体实施方式对本发明作进一步的说明。
本发明提供一种多特征信息融合的人群密度估计方法,其流程图如图1所示:
1.ShanghaiTech数据集及Mall数据集密度图制作,并对数据集图像进行预处理。
具体步骤包括:
下载ShanghaiTech数据集及Mall数据集图像,并对其图像进行数据筛查,确保数据图像的完整性。而后利用真值图生成程序,生成代表人群分布密度位置的特殊高亮真值密度图,程序核心采用高斯卷积核构成的密度函数F(x):
其中,函数δ(x-xi)表示人头标记点图像x中第i个坐标为xi的人头标记点的密度平滑区域,区域大小与积分为1的自适应高斯滤波器一致,N为图像中人头标记点总数,*表示卷积运算。为避免漏检,采用自适应高斯滤波器/>与δ(x-xi)进行卷积,其中滤波器大小/>式中,/>表示标记点xi与其最近的K个人头之间的平均距离。经大量实践验证,参数β=0.3时生成的密度图质量最好。并将ShanghaiTech数据集及Mall数据集按照3:1及1:1比例分别划分为检测训练数据集和测试数据集,并分别对检测训练数据集的图像进行预处理得到预处理训练数据集。
预处理阶段,本发明采用数据增强方法,对样本图像随机进行裁剪、旋转、放缩等操作,扩充数据集样本数量,增强CNN模型的鲁棒性。
2.构造多特征信息融合的人群密度估计网络。具体步骤包括:
如图2所示,基于多特征信息融合卷积神经网络结构包含:基础骨架网络(VGG-16),空间注意力透视网络(Perspective of spatial attention,PSA),多尺度信息聚合网络(Multi-Scale Information Aggregation,MSIA)、语义嵌入融合网络以及空洞卷积网络。
首先,利用基础骨架网络(VGG-16)生成初始特征图{F2,F3,F10};然后,将初始特征图F10分别送入PSA网络及MSIA网络,获取特征图的空间全局上下文信息FP和多尺度图像上下文信息FM;之后,将第二、三层的特征图F2和F3以及多尺度图像上下文信息FM送入语义嵌入融合网络,进行语义嵌入上采样,通过语义特征嵌入融合的方式,获得语义嵌入特征图FS;其次,MSIA得到的多尺度图像上下文信息FM、PSA网络得到的空间全局上下文信息FP融合后与语义嵌入特征图FSE输入空洞卷积网络,最终输出预测密度图M,完成整体多特征信息融合人群密度估计网络的构建。
3.基础骨架网络的执行,具体步骤包括:
将预处理训练数据集中的图像送入VGG16前十层,在图像卷积运算的过程中,第二、三、十层分别生成一组不同分辨率的初始特征图,将初始特征图标记为{F2,F3,F10}。
4.空间注意力透视网络的构建。具体步骤包括:
首先,空间注意力透视网络PSA结构如图3所示,由四个卷积类型(从左到右,从右到左,从上到下,从下到上)组成,分别处理四个方向,本发明将聚合方向称作左(Left),右(Right),上(Up),下(Down)四个方向以及相对应的注意力机制(Attention)。
其中,以Left方向为例,对卷积过程进行说明。初始特征图F10作为输入特征图,其大小为C×H×W,其中C为上一卷积层的卷积核的个数,H为特征图的高度,W为特征图的宽度。将输入特征图F的宽度W均分为等份N,则输入特征图F可被分为N个大小为的特征块,用/>表示第i个特征块,i∈[1,N]。
Left方向卷积层由大小的卷积核c与ReLU激活函数组成。按照公式(2)进行Leftto Right卷积过程运算。将特征块送入Left方向卷积层后,生成一个与/>同样大小的特征块,记作/>将/>与/>加和送入Left方向卷积层得到/>经过不断迭代之后,输出第N个特征块/>最后,将/>连接起来,生成Left层输出的特征图FD,其大小为C×H×W,与输入特征图F尺寸一致。
式中,L(*)表示进行Left方向卷积层(Conv+ReLU)运算。在空间注意力透视网络PSA中,其他三个方向Right,Up,Down的操作,除滑动方向不同外,计算与Left方向类似,将不同方向得到的结果最后进行拼接,获取特征图的空间全局上下文信息FP,减少背景噪声的影响,提升有效信息的获取能力。
5.多尺度信息聚合网络(MSIA)的构建。具体步骤包括:
首先,多尺度信息聚合网络(MSIA)如图4所示,初始特征图标F10作为输入特征图F,即输入为VGG16第十层的特征图,其大小为C×H×W,将输入特征图F进行多尺度非对称卷积与不同膨胀率的空洞卷积操作,得到多个中间过程特征图,将多个中间过程特征图进行有效融合,获得拥有更佳人员特征信息提取性能的多尺度信息聚合网络(MSIA)的输出特征图,即上文中提到的多尺度图像上下文信息FM。MSIA网络主要由不同卷积核尺寸的多尺度非对称卷积与不同扩张率的空洞卷积组成,两者结合用以模拟神经学中人眼感受野与离心率的变化,增强特征表达能力。
其中,多尺度非对称卷积采用1×1、3×3、5×5三种不同卷积核尺寸,非对称卷积增大对信息熵较大位置的信息提取,从而增强平方卷积核,提升获取图像特征的能力,其实质是一种提升特征表达的方法,其分为训练和部署两个阶段。
训练阶段:对卷积核进行额外的参数训练,利用训练后的卷积核参数初始化多尺度信息聚合网络(MSIA),将现有网络每一个3×3卷积层替换成3×3、3×1、1×3三个卷积层,在于强化特征提取,实现效果提升。
部署阶段:将三个卷积核做融合后,对输入特征图F进行先卷积后融合的结果,与先融合卷积核再对输入特征图F进行卷积的结果是一样的。部署阶段通过融合卷积核,可以达到结构不改变、不增加计算量、提升特征提取能力的目的。
其中,不同空洞率的空洞卷积如图4所示,图中rate=1表示标准的3×3卷积,其感受野仅为3×3;图中rate=3表示扩张率为3的3×3扩张卷积,其感受野可达9×9;图中rate=5表示扩张率为5的3×3扩张卷积,其感受野可达19×19。
最后,多尺度非对称卷积核负责捕获多尺度特征,对应不同扩张率的空洞卷积负责扩大群感受野,降低参数量的同时保留多尺度特征和图像上下文信息,最终得到高质量、更丰富语义的特征图的多尺度图像上下文信息FM。
6.语义嵌入融合网络的构建。具体步骤包括:
本发明利用多尺度的结构,将初始特征图F2和F3与多尺度信息聚合网络得到的多尺度图像上下文信息FM进行自低向上融合,得到包含丰富尺度信息的语义嵌入特征图FSE,增加低层特征的语义信息,改进低层的语义信息。
具体的,语义嵌入融合如公式(3)所示:
ml=Upsample(ml)+F(ml-1,ml), (3)
FSE=m3,式中,l=[1,2,3],F(﹒)函数功能为矩阵逐元素相乘操作,Uupsample(ml)为对第l层的特征进行上采样,利用此方法从高级特征中引入更多的语义信息来提升特征融合的质量。
7.后端空洞卷积网络
设计包含6层的后端空洞卷积网络,将融合得到的具有多尺度结构的语义嵌入特征图FSE送入后端空洞卷积网络的第五层,将空间全局上文信息FP和多尺度图像上下文信息FM拼接并送入后端空洞卷积网络第一层,通过后端空洞卷积网络第六层输出得到预测密度图M;
8.损失计算,具体步骤包括:
将预处理训练数据集送入多特征信息融合卷积神经网络得到预测密度图M,利用损失函数,通过欧氏距离计算预测密度图M的损失值,并采用Adam优化算法训练多特征信息融合卷积神经网络,获得最终的多特征信息融合卷积神经网络模型参数。
本发明的工作原理:
第一步,下载人群密度数据集ShanghaiTech及Mall,构建人群密度估计网络训练数据集,用于训练本方法所设计的网络;
第二步,构造多特征信息融合的人群密度估计网络,其基础骨架为VGG16前10层,提取将第二、三、十层的初始特征图,将初始特征图标记为{F2,F3,F10},后端衔接空间注意力透视网络与多尺度信息聚合网络,同时利用语义嵌入融合网络,补充高层特征图的空间信息及低层特征图语义信息;
第三步,空间注意力透视网络的执行,输入初始特征图F10,利用四个卷积类型(从左到右,从右到左,从上到下,从下到上),分别处理四个方向,且每个方向的特征块之间相互融合,特征结果相互影响,因此可将其中一个方向输出结果视为图像特征的一个聚合表示,对于不同的列,由于计算顺序不一致,每列聚合信息不同,这与视角变化是一一对应的,可获取对应的空间全局上文信息FP;
第四步,多尺度信息聚合网络的构造,输入初始特征图F10,利用多尺度非对称卷积与不同膨胀率的空洞卷积构造多尺度类分支,多尺度卷积核负责捕获多尺度特征,对应不同扩张率的空洞卷积负责扩大群感受野,降低参数量的同时保留多尺度特征和图像上下文信息,以模拟人眼感受野与离心率变化,重塑最终的表达,获取多尺度图像上下文信息FM;
第五步,语义嵌入融合网络的构造,将初始特征图F2和F3与多尺度信息聚合网络得到的多尺度图像上下文信息FM进行自低向上融合,得到包含丰富尺度信息的语义嵌入特征图FSE;
第六步,将包含丰富尺度信息的语义嵌入特征图FSE送入空洞卷积网络的第五层,将空间全局上文信息和多尺度图像上下文信息拼接并送入空洞卷积网络第一层,通过后层空洞卷积网络输出得到预测密度图M;
第七步,损失计算,根据人群预测密度图M与对应真值图,计算人群密度估计损失;
第八步,人群密度预测,采用训练及调整参数后的人群密度估计网络,预测数据集中测试集的人群人数及输出最终的密度图,实现人群密度估计。
本发明还提供一种计算机设备,该计算机设备可以是计算机,其包括通过总线连接的处理器、存储器,所述存储器中储存程序,并且该程序被配制成由处理器执行,程序包括用于执行上述多特征信息融合的人群密度估计方法。
上述计算机设备还可以是服务器或者是其他具有计算功能的终端设备。
本发明还提供一种计算机存储介质,其存储有计算机程序,所述程序被处理器执行,处理器执行存储器存储的计算机程序时,实现上述多特征信息融合的人群密度估计方法。
图5、图6为本发明在不同数据集ShanghaiTech及Mall的部分实验结果展示,其中图5中(a)为本发明在ShanghaiTech数据集中的原图,图(b)为真值图、图(c)为最终预测密度图及预测人数与真值人数对比结果,图6中(a)本发明在Mall数据集中的原图,图(b)为真值图、图(c)为最终预测密度图及预测人数与真值人数对比结果。从图中可以看出,本发明提出的人群密度估计方法,可有效改善二维图像中视角变化呈现较大差异、特征空间信息丢失、尺度特征及人群特征提取困难等问题,能较好的弱化视角变化带来的影响,人群密度估计性能更佳。
表1算法复杂度对比分析
由表1可以看出,Switch-CNN模型网络结构最大,运行速度也最慢;Zhang模型较小,但其采用全连接层导致速度较慢;MCNN、MSCNN模型采用了多列结构的同时,使用了尺寸较大的卷积核,导致模型参数量较高,运行速度较慢。
相较而言,本发明模型相对较小,且模型运行度较快。分析原因有以下3点:1)本发明所提模型运用了空洞卷积思想,在扩大感受野的基础上大大减少了参数量;2)本发明的多尺度信息模块部分,虽采用额外训练时间增强了卷积核的特征提取能力,但不影响模型速度,并且因采用组合卷积核的模式,在保留上下文信息的同时降低了参数量;3)本发明模型中拖慢速度及增大模型大小的原因是空间注意力透视网络,因其在获取图像的空间全局上下文信息时,卷积递进的过程增大模型大小、降低模型速度。
Claims (9)
1.一种多特征信息融合的人群密度估计方法,其特征在于,具体步骤如下:
S1构建训练数据集,对训练数据集进行预处理;
S2构建并训练多特征信息融合卷积神经网络,得到多特征信息融合的人群密度估计模型;所述多特征信息融合卷积神经网络分为上下两层,上层包括VGG16前10层,下层包括VGG16前10层后衔接的空间注意力透视网络、多尺度信息聚合网络、语义嵌入融合网络以及后端空洞卷积网络;
S3使用多特征信息融合的人群密度估计模型对待检测数据集中的人群密度进行检测,输出最终的人群密度图;
步骤S2中,
1)构建多特征信息融合的人群密度估计网络,将基础骨架VGG16中的第二、三、十层的结果分别输出,生成一组不同分辨率的初始特征图;
2)将第十层的初始特征图输入多尺度信息聚合网络,多尺度信息聚合网络通过多尺度非对称卷积捕捉第十层的特征图的多尺度特征,通过不同膨胀率的空洞卷积扩大多尺度特征的群感受野,得到多尺度图像上下文信息FM;
3)将第十层的特征图输入空间注意力透视网络,空间注意力透视网络对第十层的初始特征图进行四个方向的卷积得到四张特征图,对得到的特征图进行融合,得到空间全局上下文信息FP;
4)将第二、三层的初始特征图与步骤2中的多尺度图像上下文信息FM在语义嵌入融合网络中进行语义嵌入上采样,语义上采样后再进行语义嵌入融合得到语义嵌入特征图FSE;
5)将步骤3)空间全局上下文信息FP和步骤2)中的多尺度图像上下文信息FM拼接后输入空洞卷积网络第一层,步骤4)得到的语义嵌入特征图FSE输入空洞卷积网络第五层,通过后端空洞卷积网络输出得到预测密度图M;
6)根据预测密度图M与对应真值图计算人群密度估计损失值,利用人群密度估计损失值对所述多特征信息融合的人群密度估计网络进行训练得到多特征信息融合的人群密度估计模型。
2.根据权利要求1所述的一种多特征信息融合的人群密度估计方法,其特征在于,步骤2)中,所述多尺度非对称卷积采用、/>、/>三种不同卷积核尺寸,所述多尺度非对称卷积包括训练和部署两个阶段,其中训练阶段为将现有网络每一个/>卷积层替换成/>三个卷积层,所述部署阶段为融合三个卷积核再对初始特征图进行卷积。
3.根据权利要求1所述的一种多特征信息融合的人群密度估计方法,其特征在于,步骤2)中,所述不同膨胀率的空洞卷积包括rate=1、rate=3和rate=5的3×3扩张卷积。
4.根据权利要求1所述的一种多特征信息融合的人群密度估计方法,其特征在于,步骤3)中,所述四个方向的卷积依次为从左到右,从右到左,从上到下,从下到上的卷积。
5.根据权利要求1所述的一种多特征信息融合的人群密度估计方法,其特征在于,步骤4)中,所述语义嵌入融合算法如公式(3)所示:
,(3)
FSE=,式中,l=[1,2,3],/>函数功能为矩阵逐元素相乘操作,Uupsample(ml)为对第l层的特征进行上采样。
6.根据权利要求1所述的一种多特征信息融合的人群密度估计方法,其特征在于,步骤5)中,所述后端空洞卷积网络为六层。
7.根据权利要求1所述的一种多特征信息融合的人群密度估计方法,其特征在于,步骤S1中,所述预处理为对训练数据集进行数据增强。
8.一种计算机设备,其特征在于,所述计算机设备包括计算机、服务器或者其他具有计算功能的终端设备,所述设备包括通过总线连接的处理器、存储器,所述存储器中储存程序,并且该程序被配制成由处理器执行,程序包括用于执行权利要求1-7中任一项中所述的多特征信息融合的人群密度估计方法。
9.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有计算机程序,所述程序被处理器执行,处理器执行所述计算机程序时,实现权利要求1-7中任一项中所述的多特征信息融合的人群密度估计方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111045858.6A CN113743422B (zh) | 2021-09-07 | 2021-09-07 | 多特征信息融合的人群密度估计方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111045858.6A CN113743422B (zh) | 2021-09-07 | 2021-09-07 | 多特征信息融合的人群密度估计方法、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113743422A CN113743422A (zh) | 2021-12-03 |
CN113743422B true CN113743422B (zh) | 2024-05-03 |
Family
ID=78736646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111045858.6A Active CN113743422B (zh) | 2021-09-07 | 2021-09-07 | 多特征信息融合的人群密度估计方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113743422B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114821069B (zh) * | 2022-05-27 | 2024-04-26 | 昆明理工大学 | 融合富尺度特征的双分支网络遥感图像建筑语义分割方法 |
CN115293465B (zh) * | 2022-10-09 | 2023-02-14 | 枫树谷(成都)科技有限责任公司 | 一种人群密度预测方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020606A (zh) * | 2019-03-13 | 2019-07-16 | 北京工业大学 | 一种基于多尺度卷积神经网络的人群密度估计方法 |
WO2019154541A1 (en) * | 2018-02-09 | 2019-08-15 | Bayerische Motoren Werke Aktiengesellschaft | Methods and apparatuses for object detection in a scene represented by depth data of a range detection sensor and image data of a camera |
CN110674704A (zh) * | 2019-09-05 | 2020-01-10 | 同济大学 | 一种基于多尺度扩张卷积网络的人群密度估计方法及装置 |
CN110852267A (zh) * | 2019-11-11 | 2020-02-28 | 复旦大学 | 基于光流融合型深度神经网络的人群密度估计方法及装置 |
CN111242036A (zh) * | 2020-01-14 | 2020-06-05 | 西安建筑科技大学 | 一种基于编码-解码结构多尺度卷积神经网络的人群计数方法 |
CN111428809A (zh) * | 2020-04-02 | 2020-07-17 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于空间信息融合与卷积神经网络的人群计数方法 |
CN111507183A (zh) * | 2020-03-11 | 2020-08-07 | 杭州电子科技大学 | 一种基于多尺度密度图融合空洞卷积的人群计数方法 |
CN112036288A (zh) * | 2020-08-27 | 2020-12-04 | 华中师范大学 | 基于跨连接多特征融合卷积神经网络的面部表情识别方法 |
CN112132023A (zh) * | 2020-09-22 | 2020-12-25 | 上海应用技术大学 | 基于多尺度上下文增强网络的人群计数方法 |
CN112541459A (zh) * | 2020-12-21 | 2021-03-23 | 山东师范大学 | 基于多尺度感知注意力网络的人群计数方法及系统 |
CN112818907A (zh) * | 2021-02-22 | 2021-05-18 | 复旦大学 | 一种基于课程学习机制的人群密度估计方法及装置 |
-
2021
- 2021-09-07 CN CN202111045858.6A patent/CN113743422B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019154541A1 (en) * | 2018-02-09 | 2019-08-15 | Bayerische Motoren Werke Aktiengesellschaft | Methods and apparatuses for object detection in a scene represented by depth data of a range detection sensor and image data of a camera |
CN110020606A (zh) * | 2019-03-13 | 2019-07-16 | 北京工业大学 | 一种基于多尺度卷积神经网络的人群密度估计方法 |
CN110674704A (zh) * | 2019-09-05 | 2020-01-10 | 同济大学 | 一种基于多尺度扩张卷积网络的人群密度估计方法及装置 |
CN110852267A (zh) * | 2019-11-11 | 2020-02-28 | 复旦大学 | 基于光流融合型深度神经网络的人群密度估计方法及装置 |
CN111242036A (zh) * | 2020-01-14 | 2020-06-05 | 西安建筑科技大学 | 一种基于编码-解码结构多尺度卷积神经网络的人群计数方法 |
CN111507183A (zh) * | 2020-03-11 | 2020-08-07 | 杭州电子科技大学 | 一种基于多尺度密度图融合空洞卷积的人群计数方法 |
CN111428809A (zh) * | 2020-04-02 | 2020-07-17 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于空间信息融合与卷积神经网络的人群计数方法 |
CN112036288A (zh) * | 2020-08-27 | 2020-12-04 | 华中师范大学 | 基于跨连接多特征融合卷积神经网络的面部表情识别方法 |
CN112132023A (zh) * | 2020-09-22 | 2020-12-25 | 上海应用技术大学 | 基于多尺度上下文增强网络的人群计数方法 |
CN112541459A (zh) * | 2020-12-21 | 2021-03-23 | 山东师范大学 | 基于多尺度感知注意力网络的人群计数方法及系统 |
CN112818907A (zh) * | 2021-02-22 | 2021-05-18 | 复旦大学 | 一种基于课程学习机制的人群密度估计方法及装置 |
Non-Patent Citations (3)
Title |
---|
CSRNet: Dilated Convolutional Neural Networks for Understanding the Highly Congested Scenes;Yuhong Li et al.;2018 IEEE;20181231;第1091-1100页 * |
基于并行卷积神经网络的人群密度估计方法;贾翻连;张丽红;;测试技术学报;20180228(第01期);第71-75页 * |
基于跨列特征融合的人群计数方法;李佳倩等;计算机科学;20210630;第48卷(第6期);第119页右栏第3段至第120页右栏第1段,图1 * |
Also Published As
Publication number | Publication date |
---|---|
CN113743422A (zh) | 2021-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111047551B (zh) | 一种基于U-net改进算法的遥感影像变化检测方法及系统 | |
AU2019213369B2 (en) | Non-local memory network for semi-supervised video object segmentation | |
CN113077471B (zh) | 一种基于u型网络的医学图像分割方法 | |
CN111047548B (zh) | 姿态变换数据处理方法、装置、计算机设备和存储介质 | |
CN109902748A (zh) | 一种基于多层信息融合全卷积神经网络的图像语义分割方法 | |
CN113743422B (zh) | 多特征信息融合的人群密度估计方法、设备及存储介质 | |
CN110781775A (zh) | 一种多尺度特征支持的遥感影像水体信息精确分割方法 | |
Tian et al. | Instance and panoptic segmentation using conditional convolutions | |
CN111489357A (zh) | 一种图像分割方法、装置、设备及存储介质 | |
CN110246171B (zh) | 一种实时单目视频深度估计方法 | |
CN111353544A (zh) | 一种基于改进的Mixed Pooling-YOLOV3目标检测方法 | |
CN110909615A (zh) | 基于多尺度输入混合感知神经网络的目标检测方法 | |
CN115424209A (zh) | 一种基于空间金字塔注意力网络的人群计数方法 | |
CN116740439A (zh) | 一种基于跨尺度金字塔Transformer的人群计数方法 | |
CN111783862A (zh) | 多注意力导向神经网络的立体显著性物体检测技术 | |
CN113139544A (zh) | 一种基于多尺度特征动态融合的显著性目标检测方法 | |
CN117392375A (zh) | 一种针对微小物体的目标检测算法 | |
Wu et al. | Deep texture exemplar extraction based on trimmed T-CNN | |
CN117115563A (zh) | 基于区域语义感知的遥感土地覆盖分类方法及系统 | |
Wei et al. | 3D face image inpainting with generative adversarial nets | |
CN108460383B (zh) | 基于神经网络与图像分割的图像显著性精化方法 | |
CN114612456B (zh) | 一种基于深度学习的钢坯自动语义分割识别方法 | |
CN115810106A (zh) | 一种复杂环境下茶叶嫩梢品级精准识别方法 | |
CN115761118A (zh) | 一种基于深度学习的实时表面重建方法 | |
CN115578721A (zh) | 一种基于注意力特征融合的街景文本实时检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |