CN114120361A

CN114120361A - 一种基于编解码结构的人群计数定位方法

Info

Publication number: CN114120361A
Application number: CN202111374790.6A
Authority: CN
Inventors: 黄进; 杨涛; 王晴; 杨旭; 李剑波; 方铮; 冯义从
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2022-03-01
Anticipated expiration: 2041-11-19
Also published as: CN114120361B

Abstract

本发明公开了一种基于编解码结构的人群计数定位方法，涉及计算机视觉领域，解决现有技术中对特征的利用不够充分、标签图不能很好的兼顾计数和定位任务的问题，本发明技术方案其一是提出了一种编解码结构的计数定位网络，并在网络深层引入了多尺度特征融合模块，以及再解码部分引入了空间‑通道注意力上采样模块，多尺度特征融合模块使用不同膨胀率的空洞卷积捕捉多个尺度的特征并进行特征融合，提升了网络应对尺度变化的鲁棒性，空间‑通道注意力上采样模块通过高层的高级语义指导浅层特征进行高效率融合，减少了冗余特征及图片背景的干扰；其二是提出了一种新的标签图，该标签图既具有密度图简易计数的优势又具备FIDT图的定位性能。

Description

一种基于编解码结构的人群计数定位方法

技术领域

本发明涉及计算机视觉领域，具体涉及一种基于编解码结构的人群计数定位方法。

背景技术

人群计数及定位是通过算法预测人群中的数量信息及位置信息。该技术广泛用于城市管理，智能安防等领域，尤其是在人群聚集场所，对于预防各种意外事件的发生和加强区域管理具有重要意义。目前，在计数领域，广泛使用的方法是通过卷积神经网络回归得到密度图，然后对密度图进行积分求和得到人数信息。但是密度图在稍密集的区域便会出现重叠现象(如图8(b))，不利于定位，为了拓展网络应用场景，一种做法是利用FIDT图(如图8(c))替代密度图当做深度学习回归标签进行训练，再将图片送入训练好的网络得到预测图，然后通过LMDS算法寻求峰值点，从而给出定位和计数信息。然而，相较于密度图，FIDT图虽然定位性能更好，但其计数方式却更为繁琐且对标签图的回归质量有较高要求。此外，在网络结构方面，为了获得高质量的回归图，编解码结构被许多算法采用，其大致流程是将图片先进行编码提取特征，再逐步上采样至输入尺寸进行解码，但编解码结构在网络深层存在特征丢失，限制了其性能发挥；另一方面，实际场景中人头往往尺度不一，这就要求网络还要具备捕获多尺度信息的能力。对于上述问题，本文从标签图和特征融合两个方面进行解决。

现存技术存在的主要问题及缺陷是：

对特征的利用不够充分：现实场景中，由于摄像机透视效应的影响，同一张图片，人头部尺寸往往存在较大差异，但简单的编解码结构并不能很好的捕捉多尺度特征。此外，在编码过程中，会对特征图进行下采样，以获得更高级的语义信息，但这也会造成深层网络空间信息不足；值得注意的是，浅层网络中，虽然语义信息不足，却包含了丰富的空间位置信息，这些信息对于计数及定位性能非常重要。因此，如果直接在编码结束时，对特征图进行上采样，生成的预测图在图像质量上会显得比较粗糙。现有的部分方式是直接将浅层特征同高层特征进行融合，但浅层网络通畅包含大量的特征冗余，直接引入甚至可能导致性能下降。

标签图不能很好的兼顾计数和定位任务：当前主流算法采用的密度图，虽然计数方便，但定位性能较弱，在稍密集的区域就会出现重叠现象，不能准确突出人头峰值点；而FIDT图计数性能虽强但计数方式不如密度图简洁，其计数精度也同定位精度联系紧密，对标签图的回归质量具有较高要求。

解决以上问题及缺陷的难度为：编解码网络中，要想充分利用所提取的特征，特征融合就在所难免，考虑到浅层特征存在特征冗余，就需要设计一种注意力特征融合模块，而想要捕获多尺度特征，还需在网络中增加多尺度特征融合模块；在标签方面，为了灵活的进行计数和定位任务，需要标签图既要具有简洁的计数方式，又要兼顾良好的定位性能，但现存标签图均不具备此特征，需要对标签图的生成方式进行重新设计。

解决以上问题及缺陷的意义为：新的标签图可以兼顾计数和定位任务，可以直接替换已有算法训练所使用的密度图和FIDT图，增加任务灵活性。而提升了特征利用能力的编解码网络可以进一步的提高计数和定位性能，同时还可以在计算机视觉的其它领域如语义分割上迁移运用。

发明内容

本发明的目的在于：为了解决上述技术问题，本发明提供了一种基于编解码结构的人群计数定位方法。

本发明采用的技术方案如下：

一种标签图生成方法，所述方法包括以下步骤：

步骤S1、制作数据集；先采集实际场景中包括不同环境下的人群图像数据，先图像数据可以包括人群密度和光照天气，再对数据进行标注；

步骤S2、生成标签图；根据标注好的数据生成标签图，标签图的生成方式如下：

其中，B为标注点坐标集合，(x′,y′)为标记点在标签图中的像素坐标，其中x′表示标记点在标签图中横坐标，y′表示标记点在标签图中纵坐标；(x,y)表示图像中任意一点的像素坐标，其中x为图像中任意一点的横坐标，y为图像中任意一点的纵坐标，P(x，y)表示的是图中坐标(x，y)处到与之相距最近的标记点的距离,I(x，y)即为FIDT图中坐标(x，y)处对应点值，I′(x，y)表示本发明所提标签图坐标(x，y)处对应点的值，count表示图片中的真实人数，m、n分别表示图片的宽高，I(x_i，y_i)表示FIDT图中第i个点的值，(x_i，y_i)表示FIDT图中第i个点的坐标，其中，x_i和y_i分别表示FIDT图中第i个点的横纵坐标。

进一步地，所述S1中对数据进行标注时，采用头部中心进行标记。

一种基于编解码结构的人群计数定位方法，所述方法包括以下步骤：

步骤1：构建网络模型，以ResNet50作为编码部分的特征提取网络，在编码结束时融入多尺度特征融合模块，在解码部分采用上采样加卷积的方式进行解码，并通过空间-通道注意力上采样模块进行高低层特征的融合；

步骤2：利用步骤S1采集的数据、同步骤S2生成的标签进行训练，损失函数设计为欧式距离损失和平均绝对误差相结合的方式，如下所示：

其中，L(θ)表示损失函数，F_i为第i幅标签图，F_i(x_i，θ)为对应预测图，θ为学习参数，N为图片数量；训练时可对图片进行随机裁剪以及随机水平翻转等数据增强，以提高模型鲁棒性；

步骤3：进行计数定位测试，将图片送入训练好的模型中，若只需计数，将预测图进行积分求和即可，若还需定位，则利用LMDS算法对预测图进行进一步处理，得到定位信息及框图。

进一步地，所述步骤1中的特征提取网络，具体由Resnet50的7x7卷积、最大池化层及前三个残差模块构成，其中对将7x7卷积的步长调整为1，其余部分保持同原始的ResNet50不变，第一个残差模块不会压缩图像尺度，后两个残差模块都会将特征图尺度压缩到相应输入的一半，最终将图片尺度压缩为原图的1/8。

进一步地，所述多尺度特征融合模块包含四个分支，分别由膨胀率为1，2，3，6的四组空洞卷积构成，不同的分支负责捕获不同尺寸的特征，最后按通道进行拼接，通过1x1卷积，进一步融合特征并压缩通道维度。

进一步地，特征融合方式如下式：

其中，F_in和F_out分别表示输入特征和输出特征；

表示卷积核大小为k，膨胀率为i为的卷积运算，其中这里的i取值分别为1，2，3，6，分别对应四组膨胀卷积；concat表示特征拼接操作。

进一步地，所述空间-通道注意力上采样模块分为空间注意力模块和通道注意力模块，置于解码部分进行使用，且输入包含两个部分：高层特征和浅层特征，其中高层特征满足一次2倍上采样后的尺寸同低层特征相同。

进一步地，所述通道注意力模块生成如下：

F_C＝σ(W₁(M(F_H)))

其中，F_C表示通道注意力权重，W₁表示卷积核大小为1的卷积运算，M表示全局最大池化，F_H表示高层特征，σ表示Sigmoid激活函数；

空间注意力模块生成如下：

其中，F_S和F_L分别表示空间注意力权重和浅层特征，

表示按像素求和。

得到上述权重后进行特征融合，如下式：

concat表示拼接操作，U表示上采样，

表示乘积操作。

空间-通道注意力上采样模块将融合后的特征送入解码部分，解码部分使用3x3卷积加ReLu激活函数进行进一步的特征融合，并压缩通道数至下一次待融合的浅层特征维度。解码部分设置了3个空间-通道注意力上采样模块，分别与特征提取部分的3个尺度的特征进行融合，最终得到同输入图片相同尺度的特征图，再通过一个3x3卷积将通道数压缩至1得到预测图。

进一步地，所述LMDS算法先对预测图进行3x3，步长为1的最大池化，将小于最大值0.39倍的值置为零，再同原始预测图进行对比，所处位置的值未改变的即为峰值点，其坐标即为定位点坐标，也就是人头坐标，再根据下式计算出锚框大小，从而得到定位框图：

式中，P为LMSD算法给出的定位点坐标集合S_(x,y)∈P表示坐标(x，y)处锚框的大小，取(x，y)旁距离最近的k个点，

表示第k个点到(x，y)的距离，f和k为超参数，可根据具体目标大小进行调整，这里取0.3和3，w和h分别表示图片的宽和高。本发明的有益效果如下：

1.本发明在网络深层引入了多尺度特征融合模块，以及再解码部分引入了空间-通道注意力上采样模块，其总体结构如图1所示，多尺度特征融合模块使用不同膨胀率的空洞卷积捕捉多个尺度的特征并进行特征融合，提升了网络应对尺度变化的鲁棒性，空间-通道注意力上采样模块通过高层的高级语义指导浅层特征进行高效率融合，减少了冗余特征及图片背景的干扰；

2.本发明提出了一种新的标签图，该标签图既具有密度图简易计数的优势，又具备FIDT图优异的定位性能；

3.本发明所提标签图计数方式采用直接求和的方式。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，本说明书附图中的各个部件的比例关系不代表实际选材设计时的比例关系，其仅仅为结构或者位置的示意图，其中：

图1是本发明提供的编解码网络总体结构图；

图2是本发明提供的多尺度特征融合模块；

图3是本发明提供的空间-通道注意力上采样模块；

图4是LMDS算法流程图；

图5是本发明提供的方法在SHHA上的计数效果图；

图6是本发明提供的方法在SHHA上的定位效果图；

图7是本发明提供的方法步骤流程图；

图8是不同标签图可视化对比。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

下面结合图1至图8对本发明作详细说明。

实施例1

一种标签图生成方法，所述方法包括以下步骤：

步骤S1、制作数据集；先采集实际场景中包括不同环境下的人群图像数据，再对数据进行标注；

可以看出本发明所提标签图，在不改变FIDT图分布趋势的情况下，可以同密度图一样采取直接积分求和的计数方式。

本发明的工作原理/工作过程为：以人流量统计场景为例描述本发明的工作原理及过程。首先搜集所处区域的人群图片数据，要求在人群密度上尽可能涵盖密集、中等密集、稀疏等场景；在人群分布上尽可能涵盖分布不一、均匀等场景；此外还应尽可能考虑天气、光照、背景等因素，并确保拥有足够的数据量。此后，使用CCLabeler对图片进行标注，标注方式为点标注，具体而言是在每个人头部的中心进行标记，标记后将生成对应的h5文件，包含的内容即是标注点在图像中的像素坐标，坐标的个数即是图片中的人数。编写程序提取出h5文件中的像素坐标，新建一个同图像尺寸一致的二维数组，并将像素坐标处置1，其余置0。最后，利用上述生成标签图的公式，对二维数组的像素值进行处理，生成训练和测试所需的标签图。按照训练集和测试集4：1的比例划分数据集，利用本发明所提网络及损失函数进行训练，在测试集上进行计数和定位性能评估。由S2标签图生成方式可知，本发明所提标签图对FIDT图进行了线性变化，将人数信息融入标签之中的同时，保证了FIDT图的图像梯度不变。因此，所提标签图在计数方式上优于FIDT图，定位性能上优于密度图。

实施例2

本实施例目的是人群计数和定位，旨在通过算法给出图像中的人数和定位息。

计数部分选用公开数据集SHHA、SHHB和UCF_CC_50作为实验材料。其中，SHHA包含训练图片300张，测试图片182张；SHHB包含训练图片400张，测试图片316张；UCF_CC_50包含图片50张。

首先利用本发明所提出的标签生成方式将上述数据集的标注内容转换成标签图以待训练和测试使用。

其次，搭建网络模型，算法的总体结构如图1所示，编码部分包含7x7卷积、最大池化层、Res-1、Res-2、Res-3，除7×7步长为1以外，其余部分同ResNet50相对应结构相同。以输入图片3×256×256为例，经过7×7卷积后其尺度不变，通道上升，变为64×256×256,，随后经过最大池化及3个残差模块，尺度分别为：64×128×128、256×128×128、512×64×64、1024×32×32；最终提取到的特征图为原图尺寸的1/8，将最后一层特征送入多尺度特征融合模块进行多尺度特征提取及融合，多尺度特征融合模块如图2所示，它包含四个分支，分别由膨胀率为1，2，3，6的四组空洞卷积构成，不同的分支负责捕获不同尺寸的特征，最后按通道进行拼接，通过1×1卷积，进一步融合特征并压缩通道维度，这里将维度压缩为原来的一半，输出特征图尺度变为512×32×32，随后进入解码部分，先经过一个3×3卷积压缩通道数，尺寸变为256×32×32，然后同Res-2输出特征一起进入空间-通道注意力上采样模块进行特征融合，即256×32×32和512×64×64，空间-通道注意上采样模块结构如图3所示，在通道注意力部分，它首先对高层特征进行全局最大池化，然后进行1×1卷积加Sigmoid激活函数生成通道权重256×1×1，以此来指导浅层特征进行融合，浅层特征经过一次1×1卷积调整尺度为256×64×64，然后就可以和通道权重相乘得到待融合特征；空间注意力部分，首先浅层特征线和上采样后的高层特征经过1×1卷积调整维度为128×64×64，将两者进行相加得到128×64×64，最后通过1×1卷积得到空间注意力权重1×64×64，将权重同通道注意力得到的待融合特征进行相乘，然后再将得到特征和同高层上采样后的特征进行拼接，从而得到输出特征512×64×64，随后经过3x3卷积压缩通道数为128×64×64,后序解码过程同上述相似，将上一个模块输出得到的特征依次同Res-1和7×7卷积得到的特征进行融合，每次融合后都通过一个3×3卷积压缩维度，得到的特征图尺寸分别为64×128×128、32×256×256，最后经过一个1×1卷积将通道数压缩至1得到预测图片即1×256×256。将上述图片进行求和便得到了预测人数。

搭建完模型后便开始进行训练，采用发明内容部分所提损失函数，利用反向传播算法对网络参数进行优化。

训练结束后，对本算法进行计数性能进行评估。评估指标采用MAE和MSE，MAE即平均绝对误差，衡量算法平均精度，MSE即均方根误差，衡量算法鲁棒性，两者皆是越小越好，其定义如下：

其中，N表示测试图片数量，

表示预测人数，

表示真实人数。同一些主流方法的对比如表2和表3所示。

定位部分，选取SHHA作为实验材料，标签制作、模型搭建及训练同计数部分相同。得到预测图后，用LMDS算法对其进行处理，LMDS算法流程如图4，经过LMDS算法处理后将得到定位点的坐标，最后根据坐标生成框图，框的大小由前文所提公式给出。

定位部分的评估指标采用准确率(Pre)、召回率(Rec)和F1-m，准确率反应查准率，召回率反应查全率，F1-m则是前两者的调和平均，几个指标都是越大越好。评估时，当预测的定位点同真实点的坐标距离相差小于一个阈值时，被认为两者是相匹配的。这里分别取阈值为4和8进行评估，与部分主流定位算法的指标对比如表4。

表2SHHA和SHHB上计数性能对比

Method	MAE	MSE
			MCNN	377.6	509.1
MSCNN	363.7	363.7
			CMTL	322.8	397.9
CP-CNN	295.8	320.9
			CSRNet	266.1	397.5
SCNet	280.4	332.8
			HA-CCN	256.2	348.4
ours	241.7	339.8

表3UCF_CC_50上计数性能对比

表4SHHA上定位性能对比

实验结果表明，所提方法无论是在计数还是定位上都取得了较好的性能，并且其简易的计数方式和优异的计数性能提升了网络实际使用的灵活性。

此外，由于定位信息同样能提供人数信息。因此，我们使用不同的计数方式对计数性能进行了测试，结果如表5。可以看出，直接求和的计数方式会优于峰值点。

标签图	计数方式	MAE	MSE
				FIDT	峰值点	75.9	154.3
本发明所提	峰值点	82.2	152.3
				本发明所提	直接求和	65.1	105.1

表5不同计数方式结果对比

为了说明空间-通道注意力上采样模块和多尺度特征融合模块的有效性。在SHHA数据集上设置了以下三组对照实验进行计数性能分析，为了更具说服力，损失函数采用了领域内广泛使用的欧式距离损失，实验结果如表6。可以看出，所提模块对网络性能的提升效果明显。

(1)采用ResNet50前三个layer提取特征，并进行简单的解码。

(2)在(1)的基础上引入了空间-通道注意力上采样模块。

(3)在(2)的基础加入多尺度特征融合模块。

组别	MAE	MSE
			(1)	80.7	137.3
(2)	70.7	122.1
			(3)	69.2	117.8

表6不同组别实验结果对比。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种标签图生成方法，其特征在于，所述方法包括以下步骤：

其中，B为标注点坐标集合，(x′，y′)为标记点在标签图中的像素坐标，其中x′表示标记点在标签图中横坐标，y′表示标记点在标签图中纵坐标；(x，y)表示图像中任意一点的像素坐标，其中x为图像中任意一点的横坐标，y为图像中任意一点的纵坐标，P(x，y)表示的是图中坐标(x，y)处到与之相距最近的标记点的距离，I(x，y)即为FIDT图中坐标(x，y)处对应点值，I′(x，y)表示本发明所提标签图坐标(x，y)处对应点的值，count表示图片中的真实人数，m、n分别表示图片的宽高，I(x_i，y_i)表示FIDT图中第i个点的值，(x_i，y_i)表示FIDT图中第i个点的坐标，其中，x_i和y_i分别表示FIDT图中第i个点的横纵坐标。

2.根据权利要求1所述的一种基于编解码结构的人群计数定位方法，其特征在于，所述S1中对数据进行标注时，采用头部中心进行标记。

3.一种基于编解码结构的人群计数定位方法，其特征在于，所述方法包括以下步骤：

其中，L(θ)表示损失函数，F_i为第i幅标签图，F_i(x_i，θ)为对应预测图，θ为学习参数，N为图片数量；

4.根据权利要求3所述的一种基于编解码结构的人群计数定位方法，其特征在于，所述步骤1中的特征提取网络，具体由Resnet50的7x7卷积、最大池化层及前三个残差模块构成，其中对将7x7卷积的步长调整为1，其余部分保持同原始的ResNet50不变，第一个残差模块不会压缩图像尺度，后两个残差模块都会将特征图尺度压缩到相应输入的一半，最终将图片尺度压缩为原图的1/8。

5.根据权利要求3或4所述的一种基于编解码结构的人群计数定位方法，其特征在于，所述多尺度特征融合模块包含四个分支，分别由膨胀率为1，2，3，6的四组空洞卷积构成，不同的分支负责捕获不同尺寸的特征，最后按通道进行拼接，通过1x1卷积，进一步融合特征并压缩通道维度。

6.根据权利要求5所述的一种基于编解码结构的人群计数定位方法，其特征在于，特征融合方式如下式：

其中，F_in和F_out分别表示输入特征和输出特征；

7.根据权利要求3或4所述的一种基于编解码结构的人群计数定位方法，其特征在于，所述空间-通道注意力上采样模块分为空间注意力模块和通道注意力模块，置于解码部分进行使用，且输入包含两个部分：高层特征和浅层特征，其中高层特征满足一次2倍上采样后的尺寸同低层特征相同。

8.根据权利要求7所述的一种基于编解码结构的人群计数定位方法，其特征在于，所述通道注意力模块生成如下：

F_C＝σ(W₁(M(F_H)))

空间注意力模块生成如下：

其中，F_S和F_L分别表示空间注意力权重和浅层特征，

表示按像素求和；

得到上述权重后进行特征融合，如下式：

concat表示拼接操作，U表示上采样，F_out表示融合后的输出特征，

表示相乘操作。

9.根据权利要求3所述的一种基于编解码结构的人群计数定位方法，其特征在于，，所述LMDS算法先对预测图进行3x3，步长为1的最大池化，将小于最大值0.39倍的值置为零，再同原始预测图进行对比，所处位置的值未改变的即为峰值点，其坐标即为定位点坐标，也就是人头坐标，再根据下式计算出锚框大小，从而得到定位框图：

式中，P为LMSD算法给出的定位点坐标集合，S_(x，y)∈P表示坐标(x，y)处锚框的大小，取(x，y)旁距离最近的k个点，

表示第k个点到(x，y)的距离，f和k为超参数，可根据具体目标大小进行调整，这里取0.3和3，w和h分别表示图片的宽和高。