CN114897768A

CN114897768A - 一种基于语义细化的空间金字塔人群计数方法

Info

Publication number: CN114897768A
Application number: CN202210303312.4A
Authority: CN
Inventors: 周丽芳; 王佩雯; 罗俊; 丁相
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-03-24
Filing date: 2022-03-24
Publication date: 2022-08-12

Abstract

本发明请求保护一种基于语义细化的空间金字塔人群计数方法，属于计算机视觉技术领域。所述方法提出了一种新的编解码器模型，称为语义细化空间金字塔网络。所述方法主要包括以下步骤：首先，利用一系列的卷积神经层作为网络前端，在不增加额外计算成本的情况下获得更深层次的特征。此外，空间金字塔多尺度模块是拥有多个感受野的空间金字塔结构，用于捕捉多尺度特征。接着，语义增强模块用来细化网络捕获的多尺度特征，其利用深层语义信息来优化并且融合多尺度特征。最后，利用浅层纹理信息对特征图的细节进行补偿，以提高密度图的质量。本发明旨在建立一个尺度感知的计数网络来准确地估计人群中个体的数量。

Description

一种基于语义细化的空间金字塔人群计数方法

技术领域

本发明属于计算机视觉技术领域，具体属于一种人群计数方法。

背景技术

人群计数在计算机视觉领域中起着至关重要的作用，它旨在准确预测出现在密集场景中的个体数量。人群计数算法可广泛应用于许多领域，包括城市规划、公共安全和监控。然而，由于严重的遮挡、规模变化和背景杂波，精确地评估人群的数量成为一项非常具有挑战性的任务。随着人群密度的增加，上述所有问题都变得尤为困难。

近年来，基于卷积神经网络(Convolutional Neural Network,CNN)的人群计数算法达到了令人兴奋的性能，因为CNN模型具有压倒性的特征提取性能能力。不幸的是，人群计数的尺度变化还没有得到很好的解决。这些方法通常使用多列架构来处理尺度变化来增强特征学习，这意味着输入被输入到每列中以捕获多尺度特征。Zhang设计了一种基于CNN的三个分支方法，采用了三个尺度的卷积核。然而，模型中会引入许多冗余参数，使得网络更加复杂，难以训练。Sam等人训练了一个分类器，为每个图像补丁选择最合适的回归路径，这导致网络不能进行端到端训练。此外，Sindagi等人设计了一个网络结构来捕获局部和全局特征并将它们合并，可以产生误差更小的密度图。虽然多尺度卷积核在多列网络结构中被广泛应用，但所得到的特征图仍然存在严重的信息损失。流行的分割方法通过连接不同层的输出特征图来解决上述问题，这表明通过跳跃连接在不同层融合多个特征具有很大的有效性。受上述方法的启发，我们的目标是设计一种新的多列结构网络，每个列具有不同大小的接受域，并使用深度语义信息来细化多尺度特征。继Chen等人之后，我们的方法侧重于避免特征提取过程中图像细节的丢失。当网络层越来越深入时，所提取出的特征往往是难以理解的。由于网络主干内的池化或卷积，与头边界相关的详细信息被忽略。因此，该方法通过融合浅层细节特征和高级语义特征，保证了网络提取特征的全面性。最后，对从主干网络和分支中提取的特征进行串联融合，以获得特征的完整性。

经过检索，申请公开号CN111242036A，一种基于编码-解码结构多尺度卷积神经网络的人群计数方法，其特征在于，包括以下步骤：考虑图像的视角扭曲，采用自适应高斯滤波器，计算图像的真值密度图；采用编码-解码结构，搭建多尺度卷积神经网络模型，所述多尺度卷积神经网络模型的损失函数包括像素空间损失和计数误差描述；对搭建的多尺度卷积神经网络模型进行训练和测试，获得训练好的多尺度卷积神经网络模型；将待估图像输入训练好的多尺度卷积神经网络模型，预测获得人群密度图；对人群密度图进行回归估计，获得待估图像的人员数量。该专利发明的方法，能够保留尺度特征和图像的上下文信息，可提升密度图的输出质量。该方法利用了多列的平行结构来捕获多尺度特征，确实可以在一定程度上解决尺度变化的问题，但是该方法忽略了在捕获多尺度特征的过程中，会有不少细节信息的丢失，这对最终生成密度图是有影响的。我们方法提出的语义增强模块，利用骨干网络和提取的多尺度进行像素级别的相减操作，从而得到丢失的细节信息，再通过Sigmoid激活函数得到丢失细节信息的权重图。之后把权重图与提取到的多尺度特征进行相乘，以此增强多尺度特征的表达。

CN113011329A，一种基于多尺度特征金字塔网络及密集人群计数方法，目的在于解决复杂拥挤场景中密度图估计和人群计数问题，本发明利用特征提取模块对人群图像进行特征提取；利用特征金字塔融合模块有效捕获人群图像中多尺度上下文信息，进一步获取更好的特征表达；利用特征注意力感知模块聚焦人群图像中高密度位置，降低背景干扰；使用双线性差值将图像恢复到原始尺寸；输出预测密度图并统计人头数量，有效解决了密集场景中由于人头尺度变化较大、人群遮挡严重、光照条件差造成人群计数困难的问题，并且提高了模型对于噪声的鲁棒性，能够实现人群精确计数以及密度图的高质量预测，由于本发明利用分组卷积模块，因此具有较快的推理速度。该方法利用了不同空洞率的空洞卷积来捕获多尺度特征，并且利用到了注意力机制来降低背景的干扰，但是该方法忽略了浅层的纹理信息对于最终生成的密度图是很有帮助的。我们的方法利用到了骨干网络在浅层提取的纹理特征对提取到的多尺度特征进行细节信息的弥补，这能丰富特征图的完备性，使最终生成密度图更加精细。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种基于语义细化的空间金字塔人群计数方法。本发明的技术方案如下：

一种基于语义细化的空间金字塔人群计数方法，其包括以下步骤：

步骤1：获取人群图像数据集，并分为训练集和测试集，将训练集进行裁剪得到输入图像，输入图像进入基于VGG-16的骨干网络提取基础特征；

步骤2：设计空间金字塔多尺度模块(Spatial Pyramid Multi-scale Module,SPMM)，SPMM拥有多个具有不同的感受野的平行分支，这些拥有不同感受野的平行分支组成了空间金字塔结构，在步骤1的基础特征上捕获人群图像中的多尺度特征；

步骤3：设计语义增强模块(Semantic Enhancement Module,SEM)，SEM将骨干网络提取出来的基础特征与SPMM提取出来的多尺度特征进行像素级别的相减操作，之后再经过降维和激活函数后，得到丢失细节信息的权重图，再把权重图与对应的多尺度特征进行相乘，得到增强特征；

步骤4：利用步骤1骨干网络在浅层提取的纹理特征对步骤3得到的增强特征的细节信息进行补偿，用于丰富特征图的细节信息；

步骤5：将步骤4得到的特征图输入由一系列空洞卷积组成的解码结构，从而生成最终的密度图，将密度图进行积分操作，就能得到网络预测的个体数。

进一步的，所述步骤1：获取人群图像数据集，并分为训练集和测试集，将训练集进行裁剪得到输入图像，输入图像进入基于VGG-16的骨干网络提取基础特征，具体包含以下步骤：

A1：从数据集中的训练集中将人群图像，裁剪为576×768尺寸大小的输入图像I；

A2：将图像I输入到由VGG-16的前13层构成的骨干网络中提取特征，从第7层提取的特征F₇，从第13层提取的特征称为基础特征，用F_v表示，则F_v可以定义为：

F_v＝f_vgg(I) (4)

其中f_vgg骨干网络，F_v是通过骨干网络提取到的基础特征。

进一步的，所述步骤2设计空间金字塔多尺度模块(Spatial Pyramid Multi-scale Module,SPMM)，SPMM拥有多个具有不同的感受野的平行分支，这些拥有不同感受野的平行分支组成了空间金字塔结构，在步骤1的基础特征上捕获人群图像中的多尺度特征，具体包含以下步骤：

B1：根据步骤A2，将基础特征F_v输入到拥有四个平行分支的SPMM模块，具体地，SPMM第一个分支是卷积核大小3×3且空洞率为6的空洞卷积、第二个分支是卷积核大小3×3且空洞率为12的空洞卷积、第三个分支是卷积核大小3×3且空洞率为18的空洞卷积、第四个分支是输出特征图尺寸为1×1的全局自适应平均池化层；

B2：拥有四个分支的SPMM能够利用不同分支拥有的不同尺寸的感受野来捕获多尺度特征，以F_s ⁱ表示，其中的s表示尺度的意思，i的取值范围是1、2、3、4，分别对应了SPMM四个不同分支，F_s ¹、F_s ²、F_s ³、F_s ⁴分别表示SPMM从第一个分支到第四分支提取到的特征。

进一步的，所述步骤3设计语义增强模块(Semantic Enhancement Module,SEM)，SEM将骨干网络提取出来的基础特征与SPMM提取出来的多尺度特征进行像素级别的相减操作，之后再经过降维和激活函数后，得到丢失细节信息的权重图，再把权重图与对应的多尺度特征进行相乘，得到增强特征，具体包含以下步骤：

C1：将在A2步骤中提取到基础特征F_v输入到1×1卷积层进行降维，目的是让F_v与B2步骤中提取到的F_s ¹、F_s ²、F_s ³、F_s ⁴维度相同；

C2：接着，让C1步骤中得到的降维之后的基础特征F_v与B2步骤中提取到的多尺度特征F_s ¹、F_s ²、F_s ³、F_s ⁴进行相减操作，我们的方法认为相减操作得到的特征是丢失的细节特征，称为对比特征；

C3：然后，利用1×1的卷积层对C2步骤中提取到的对比特征进行降维；

C4：接着，把C3步骤中提取到的降维之后的对比特征输入到Sigmoid激活函数，得到一个丢失细节信息的权重图M_i，定义如下：

M_i＝Sigmoid(C_1×1(C_1×1(F_s ⁱ)-F_v)),i∈{1,2,3,4} (5)

其中F_s ⁱ是B2步骤中提取到的四个不同尺度的特征，F_v是A2步骤提取到的基础特征，C_1×1是1×1卷积层，Sigmoid是激活函数。

C5：最后，将C4得到的权重图M_i与B2步骤中提取到的四个不同尺度的特征F_s ⁱ进行逐像素相乘，以此利用丢失的细节信息权重图来优化多尺度特征，多尺度特征经过优化后得到的特征与A2步骤提取到的基础特征F_v进行通道方向上的融合，以保证特征提取的完备性，得到增强特征F_sem定义如下：

F_sem＝[M_i*F_s ⁱ|F_v],i∈{1,2,3,4} (6)

其中，*表示逐像素相乘，[.|.]表示的是像素方向的融合操作。

进一步的，所述步骤4：利用步骤1骨干网络在浅层提取的纹理特征对步骤3得到的增强特征的细节信息进行补偿，用于丰富特征图的细节信息，具体包含以下步骤：

D1：将C5步骤提取到的增强特征F_sem上采样4倍，目的是让其尺寸与从骨干网络第7层提取的特征F₇一致；

D2：将D1中上采样之后的增强特征F_sem与F₇进行通道方向的拼接，并且在此之后，利用3×3卷积层来融合特征，利用浅层纹理信息来弥补特征图中人头边缘信息的缺失，为之后生成高质量的密度图做准备。

进一步的，所述步骤5将步骤4得到的特征图输入由一系列空洞卷积组成的解码结构，从而生成最终的密度图，将密度图进行积分操作，就能得到网络预测的个体数，具体包括：

E1：将D2步骤中融合浅层和深层的特征输入一系列由空洞卷积组成的解码器，能够得到最终的密度图。

E2：具体来说，解码器由六层空洞卷积和一层1×1卷积组成，其中空洞卷积结构都是卷积核3×3且空洞率为2，不同的是通道数不断变小，依次是512、512、512、256、128、64。最后的通道数为64的特征图经过1×1的卷积层降维到1，就得到了最终的密度图。

E3：为了得到网络对密集人群图像预测的人数，只需要把密度图进行积分操作即可。

本发明的优点及有益效果如下：

本发明方法首先提出了一种新的编解码器模型，称为语义细化空间金字塔网络。采用全卷积网络作为前端，支持尺寸灵活的输入图像。利用大量的卷积滤波器(如3×3)来限制网络的复杂度。此外，为了捕捉人群图像中的多尺度特征，我们提出了SPMM。此外，还应用SEM对多尺度特征进行细化，使网络能够自适应地融合这些特征。此外，还获得了浅层的纹理特征，以丰富了多尺度特征，弥补了网络中像素信息的不足。主要优点及有益效果如下：

根据权利要求1所述的步骤2：设计空间金字塔多尺度模块(Spatial PyramidMulti-scale Module,SPMM)，SPMM拥有多个具有不同的感受野的平行分支，这些拥有不同感受野的平行分支组成了空间金字塔结构，在骨干网络提取的基础特征上捕获人群图像中的多尺度特征。

根据权利要求1所述的步骤3：设计语义增强模块(Semantic EnhancementModule,SEM)，SEM将骨干网络提取出来的基础特征与SPMM提取出来的多尺度特征进行像素级别的相减操作，之后再经过降维和激活函数后，得到丢失细节信息的权重图，再把权重图与对应的多尺度特征进行相乘，得到增强特征。

根据权利要求1所述的步骤4：利用步骤1骨干网络在浅层提取的纹理特征对步骤3得到的增强特征的细节信息进行补偿，用于丰富特征图的细节信息。

附图说明

图1是本发明提供优选实施例的方法总体框架图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

如附图1所示，一种基于语义细化的空间金字塔人群计数方法包括如下步骤：

1.如附图1所示，获取人群图像数据集，并分为训练集和测试集，将训练集进行裁剪得到输入图像，输入图像进入基于VGG-16的骨干网络提取基础特征：

F_v＝f_vgg(I) (7)

其中f_vgg骨干网络，F_v是通过骨干网络提取到的基础特征。

2.如附图1所示，设计空间金字塔多尺度模块(Spatial Pyramid Multi-scaleModule,SPMM)，SPMM拥有多个具有不同的感受野的平行分支，这些拥有不同感受野的平行分支组成了空间金字塔结构，在步骤1的基础特征上捕获人群图像中的多尺度特征：

3.如附图1所示，设计语义增强模块(Semantic Enhancement Module,SEM)，SEM将骨干网络提取出来的基础特征与SPMM提取出来的多尺度特征进行像素级别的相减操作，之后再经过降维和激活函数后，得到丢失细节信息的权重图，再把权重图与对应的多尺度特征进行相乘，得到增强特征：

M_i＝Sigmoid(C_1×1(C_1×1(F_s ⁱ)-F_v)),i∈{1,2,3,4} (8)

F_sem＝[M_i*F_s ⁱ|F_v],i∈{1,2,3,4} (9)

4.如附图1所示，利用步骤1骨干网络在浅层提取的纹理特征对步骤3得到的增强特征的细节信息进行补偿，用于丰富特征图的细节信息：

5.如附图1所示，将步骤4得到的特征图输入由一系列空洞卷积组成的解码结构，从而生成最终的密度图，将密度图进行积分操作，就能得到网络预测的个体数：

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于语义细化的空间金字塔人群计数方法，其特征在于，包括以下步骤：

步骤2：设计空间金字塔多尺度模块SPMM，SPMM拥有多个具有不同的感受野的平行分支，这些拥有不同感受野的平行分支组成了空间金字塔结构，在步骤1的基础特征上捕获人群图像中的多尺度特征；

步骤3：设计语义增强模块SEM，SEM将骨干网络提取出来的基础特征与SPMM提取出来的多尺度特征进行像素级别的相减操作，之后再经过降维和激活函数后，得到丢失细节信息的权重图，再把权重图与对应的多尺度特征进行相乘，得到增强特征；

2.根据权利要求1所述的一种基于语义细化的空间金字塔人群计数方法，其特征在于，所述步骤1：获取人群图像数据集，并分为训练集和测试集，将训练集进行裁剪得到输入图像，输入图像输入卷积神经层提取特征，具体包含以下步骤：

F_v＝f_vgg(I) (1)

其中f_vgg骨干网络，F_v是通过骨干网络提取到的基础特征。

3.根据权利要求2所述的一种基于语义细化的空间金字塔人群计数方法，其特征在于，所述步骤2设计SPMM，SPMM拥有多个具有不同的感受野的平行分支，这些拥有不同感受野的平行分支组成了空间金字塔结构，在步骤A2的基础特征上捕获人群图像中的多尺度特征，具体包含以下步骤：

4.根据权利要求3所述的一种基于语义细化的空间金字塔人群计数方法，其特征在于，所述步骤3设计SEM，SEM将骨干网络提取出来的基础特征与SPMM提取出来的多尺度特征进行像素级别的相减操作，之后再经过降维和激活函数后，得到丢失细节信息的权重图，再把权重图与对应的多尺度特征进行相乘，得到增强特征，具体包含以下步骤：

M_i＝Sigmoid(C_1×1(C_1×1(F_s ⁱ)-F_v)),i∈{1,2,3,4} (2)

F_sem＝[M_i*F_s ⁱ|F_v],i∈{1,2,3,4} (3)

5.根据权利要求4所述的一种基于语义细化的空间金字塔人群计数方法，其特征在于，所述步骤4：利用骨干网络在浅层提取的纹理特征对增强特征F_sem的细节信息进行补偿，用于丰富特征图的细节信息：

6.根据权利要求5所述的一种基于语义细化的空间金字塔人群计数方法，其特征在于，所述步骤5将D2得到的特征图输入由一系列空洞卷积组成的解码结构，从而生成最终的密度图，将密度图进行积分操作，就能得到网络预测的个体数，具体包括：