CN116311052A

CN116311052A - 一种人群计数方法、装置、电子设备及存储介质

Info

Publication number: CN116311052A
Application number: CN202310218745.4A
Authority: CN
Inventors: 程剑杰
Original assignee: Beijing Longzhi Digital Technology Service Co Ltd
Current assignee: Beijing Longzhi Digital Technology Service Co Ltd
Priority date: 2023-03-01
Filing date: 2023-03-01
Publication date: 2023-06-23

Abstract

本公开涉及计算机视觉领域，提供了一种人群计数方法、装置、电子设备及存储介质。该方法包括：获取人群图像；提取人群图像的多尺度融合特征；对多尺度融合特征进行编码和解码处理，得到多个特征级别的人头尺度密度特征；确定每一个特征级别的人头尺度密度特征对应的预测密度图；将每一个预测密度图均划分为多个图像切片，计算每一个图像切片在各个特征级别上的置信度标签，并根据置信度标签确定用于对图像切片进行人数预测的最优特征级别；根据每一个预测密度图的各个图像切片所对应的最优特征级别进行人数预测，得到人群图像的人群计数。本公开能够减少人头密集区域的过少计数和人头稀疏区域的过多计数情况，对密集人群的计数准确性较高。

Description

一种人群计数方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机视觉领域，尤其涉及一种人群计数方法、装置、电子设备及存储介质。

背景技术

在公共场合下，拥挤人群流量统计和秩序疏散一直都是备受关注的话题，如果能准确识别拍摄图片中的密集人群计数以及不同方向的人群密度的话，对于现场的指挥疏散和维持秩序都将起到关键作用。

目前的人群计数有两大主流计算方式，一种是通过对图片中的人群进行头肩或者半身进行检测的方式来进行人群计数，然而在密集场景下，由于人群密度高，头肩等身体部位非常容易出现被遮挡的情况，从而导致检测到的有效头肩等身体信息非常少，进而直接影响到计数的准确性。另一种是基于回归的方法，通过数据学习到图像低维特征到人群计数的映射，但是这种方法难以解决连续变化的人头尺度和密度的问题，导致局部区域计数过高或者计数过低，因而计数的准确性也不高。

发明内容

有鉴于此，本公开实施例提供了一种人群计数方法、装置、电子设备及存储介质，以解决现有技术中针对密集人群计数的方法难以解决连续变化的人头尺度和密度的问题，导致局部区域计数过高或者计数过低，因而计数的准确性不高的问题。

本公开实施例的第一方面，提供了一种人群计数方法，包括：

获取人群图像；

提取人群图像的多尺度融合特征；

对多尺度融合特征进行编码和解码处理，得到多个特征级别的人头尺度密度特征；

确定每一个特征级别的人头尺度密度特征对应的预测密度图；

将每一个预测密度图均划分为多个图像切片，计算每一个图像切片在各个特征级别上的置信度标签，并根据置信度标签确定用于对图像切片进行人数预测的最优特征级别；

根据每一个预测密度图的各个图像切片所对应的最优特征级别进行人数预测，得到人群图像的人群计数。

本公开实施例的第二方面，提供了一种人群计数装置，包括：

获取模块，被配置为获取人群图像；

提取模块，被配置为提取人群图像的多尺度融合特征；

编解码模块，被配置为对多尺度融合特征进行编码和解码处理，得到多个特征级别的人头尺度密度特征；

确定模块，被配置为确定每一个特征级别的人头尺度密度特征对应的预测密度图；

计算模块，被配置为将每一个预测密度图均划分为多个图像切片，计算每一个图像切片在各个特征级别上的置信度标签，并根据置信度标签确定用于对图像切片进行人数预测的最优特征级别；

计数模块，被配置为根据每一个预测密度图的各个图像切片所对应的最优特征级别进行人数预测，得到人群图像的人群计数。

本公开实施例的第三方面，提供了一种电子设备，包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。

本公开实施例的第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本公开实施例与现有技术相比，其有益效果至少包括：通过先获取人群图像，提取人群图像的多尺度融合特征，可在不增加额外的参数的前提下，能够对密集人群场景下连续变化的人头尺度和人头密度特征进行详细刻画，对于人头的定位也更准确；然后对多尺度融合特征进行编码和解码处理，得到多个特征级别的人头尺度密度特征；之后再确定每一个特征级别的人头尺度密度特征对应的预测密度图；将每一个预测密度图均划分为多个图像切片，计算每一个图像切片在各个特征级别上的置信度标签，并根据置信度标签确定用于对图像切片进行人数预测的最优特征级别；根据每一个预测密度图的各个图像切片所对应的最优特征级别进行人数预测，得到人群图像的人群计数，可以实现自适应地选择每个图像切片所对应的最优特征级别，对特征细节刻画更加完善和准确，可有效减少人头密集区域的过少计数和人头稀疏区域的过多计数情况，有利于提高密集人群场景下的人群计数准确度。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本公开实施例的提供的一种人群计数方法的流程示意图；

图2是本公开的一个实施例提供的原始输入的人群图像；

图3是本公开实施例提供的人群计数方法中的多尺度特征融合网络的网络结构示意图；

图4是本公开实施例提供的人群计数方法中的一种多尺度融合特征的提取过程示意图；

图5是本公开实施例提供的人群计数方法中的一种金字塔结构的编码-解码网络的结构示意图；

图6是本公开实施例提供的人群计数方法中的一种解码层的结构示意图；

图7是本公开的一个实施例提供的人头密度分布图；

图8是本公开实施例提供的一种密度分支的结构示意图；

图9是本公开实施例提供的一种人群计数网络的整体网络结构示意图；

图10是本公开的一个实施例提供的一种置信度标签的生成过程示意图；

图11是本公开实施例提供的一种人群计数装置的结构示意图；

图12是本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本公开实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本公开的描述。

下面将结合附图详细说明根据本公开实施例的一种人群计数方法及装置。

图1是本公开实施例提供的一种人群计数方法的流程示意图。图1的人群计数方法可以由服务器执行。如图1所示，该人群计数方法包括：

步骤S101，获取人群图像。

人群图像，可以是通过安装在公共场所(例如，街道、广场等)的监控摄像装置(如监控摄像头等)拍摄到的包含多个人的图像。示例性的，如图2所示的某条道路上的某个角度的人群图像。当然也可以是采用手机、电脑等具有拍摄功能的设备所拍摄到的人群图像。

步骤S102，提取人群图像的多尺度融合特征。

在密集人群基数的标注中，通常是标注人头的点来生成密度图作为标注数据，但是由于人头的分布是非常不均匀的，距离拍摄相机越近的人头尺度越大，相对点的密度就约稀疏。相反，距离拍摄相机越远的人头尺度就越小，相对点的密度就越密集。在同一张人群图像中使用同一种尺度的卷积去提取特征会造成较大的误差。另外，图像的标注本身是不包含密度、尺度区分的信息的，如果手动的给一些区域进行人工分为不同的密度区域，这样的代价十分巨大。

为了提取到人群图像中更多尺度的特征信息，本公开实施例通过巧妙设计的多尺度特征融合网络来提取人群图像的多尺度融合特征。在本公开实施例中，该多尺度特征融合网络的网络结构如图3所示。如图3所示，该多尺度特征融合网络300包括第一卷积层301、第二卷积层302、第三卷积层303和第四卷积层304。其中，第一卷积层301为卷积核大小为3×3，比率为1(conv3，DF＝1)的空洞卷积层。第二卷积层302包括第一卷积块3021、第二卷积块3022、第三卷积块3023和第四卷积块3024，第一卷积块3021为卷积核大小为3×3，比率为1(conv3，DF＝1)的空洞卷积块，第二卷积块3022为卷积核大小为3×3，比率为2(conv3，DF＝2)的空洞卷积块，第三卷积块3023为卷积核大小为3×3，比率为3(conv3，DF＝3)的空洞卷积块，第四卷积块3024为卷积核大小为3×3，比率为4(conv3，DF＝2)的空洞卷积块。第三卷积层303包括第五卷积块3031和第六卷积块3032，第五卷积块3031和第六卷积块3032均为卷积核大小为3×3，比率为1(conv3，DF＝1)的空洞卷积块。第四卷积层304为卷积核大小为3×3，比率为1(conv3，DF＝1)的空洞卷积层。

在一些实施例中，上述步骤S202具体可包括如下步骤：

对人群图像进行一次卷积处理，得到第一尺度卷积特征；

采用对第一尺度卷积特征分别进行二次、三次、四次和五次卷积处理，得到第二尺度卷积特征、第三尺度卷积特征、第四尺度卷积特征和第五尺度卷积特征；

对第二尺度卷积特征和第三尺度卷积特征进行融合，得到第一融合特征；

对第四尺度卷积特征和第五尺度卷积特征进行融合，得到第二融合特征；

对第一融合特征和第二融合特征进行融合，得到多尺度融合特征。

作为一示例，结合图3和图4，首先可将人群图像F输入第一卷积层301中，使得人群图像F经卷积核大小为3×3，比率为1的空洞卷积，提取得到第一尺度卷积特征F₁；然后，将第一尺度卷积特征F₁分别输入第二卷积层302的第一卷积块3021、第二卷积块3022、第三卷积块3023和第四卷积块3024中，经第一卷积块3021进行conv3，DF＝1空洞卷积，得到第二尺度卷积特征F₂，经第二卷积块3022进行conv3，DF＝2空洞卷积，得到第三尺度卷积特征F₃，经第三卷积块3023进行conv3，DF＝3空洞卷积，得到第四尺度卷积特征F₄，经第四卷积块3024进行conv3，DF＝4空洞卷积，得到第五尺度卷积特征F₅；之后，再将第二尺度卷积特征和第三尺度卷积特征输入第三卷积层303的第五卷积块3031中分别进行conv3，DF＝1的空洞卷积，再将卷积后的特征进行相加，得到第一融合特征F₆；将第四尺度卷积特征和第五尺度卷积特征输入第三卷积层303的第六卷积块3032中分别进行conv3，DF＝1的空洞卷积，再将卷积后的特征进行相加，得到第二融合特征F₇；最后，将第一融合特征F₆和第二融合特征F₇输入第四卷积层304中分别进行conv3，DF＝1的空洞卷积，再将卷积后的特征进行相加，得到多尺度融合特征F₈。

通过本公开实施例提供的多尺度特征融合网络，可以实现在不改变分辨率的情况下使用多种尺度的感受野来提取尺度连续变化的人头特征，且不增加额外的参数，此外，获得的多尺度特征经过两个阶段的特征融合，能够对密集人群场景下连续变化的尺度和密度特征详细刻画，对于人头的定位也更准确，且特征信息的表达能力更好。

步骤S103，对多尺度融合特征进行编码和解码处理，得到多个特征级别的人头尺度密度特征。

作为一示例，可以采用如图5所示的金字塔结构的编码-解码网络来对多尺度融合特征进行编码和解码处理。如图5所示，该金字塔结构的编码-解码网络500包括编码阶段的编码网络层501以及解码阶段的解码网络层502。编码网络层501包括依次连接的第一编码层5011、第二编码层5012、第三编码层5013、第四编码层5014和第五编码层5015。解码网络层502包括依次连接的第一解码层5021、第二解码层5022、第三解码层5023、第四解码层5024和第五解码层5025。第一编码层5011与第一解码层5021连接，第二编码层5012与第二解码层5022连接，第三编码层5013与第三解码层5023连接，第四编码层5014与第四解码层5024连接，第五编码层5015与第五解码层5025连接。

在一些实施例中，多个特征级别的人头尺度密度特征包括i个特征级别的人头尺度密度特征，i为≥3的正整数；

对多尺度融合特征进行编码和解码处理，得到多个特征级别的人头尺度密度特征，包括：

在编码阶段，对多尺度融合特征进行逐级降采样处理，得到第1至第j个特征级别的降采样特征，j为≥3的正整数；

在解码阶段，将第j个特征级别的降采样特征确定为第i个特征级别的人头尺度密度特征，根据第i个特征级别的人头尺度密度特征、第j-p个特征级别的降采样特征，确定第i-1至第1个特征级别的人头尺度密度特征，p＝1,2,...(j-1)。

在一个示例性实施例中，假设i＝5，j＝5，在编码阶段，首先可将多尺度融合特征F₈依次输入编码网络层501的第一编码层5011、第二编码层5012、第三编码层5013、第四编码层5014和第五编码层5015中进行逐级降采样处理，分别输出第1至第5个(j＝5)特征级别的降采样特征E₁(对应第一编码层5011的输出)、降采样特征E₂(对应第二编码层5012的输出)、降采样特征E₃(对应第三编码层5013的输出)、降采样特征E₄(对应第四编码层5014的输出)、降采样特征E₅(对应第五编码层5015的输出)。接下来，在解码阶段，可将第5个特征级别的降采样特征E₅(确定为第5个特征级别的人头尺度密度特征D₅。根据第5个特征级别的人头尺度密度特征、第5-p个(p＝1,2,3,4)特征级别的降采样特征，确定第4至第1个特征级别的人头尺度密度特征。

在一些实施例中，根据第i个特征级别的人头尺度密度特征、第j-p个特征级别的降采样特征，确定第i至第1个特征级别的人头尺度密度特征，具体可通过对第i个特征级别的人头尺度密度特征进行上采样，得到上采样特征；将上采样特征与第j-p个特征级别的降采样特征进行聚合，得到第i-q个特征级别的人头尺度密度特征，q＝1,2,...(i-1)；p＝q。

结合上述示例，结合图5和图6，当i＝1时，图6中的D_i+1为D₅，D_i为D₄，E_i为E₄。首先，将从第五解码层5025输出的人头尺度密度特征D₅输入第四解码层5024中进行上采样处理，得到与第四解码层5024的输出分辨率大小相同的上采样特征，然后再将该上采样特征与同分辨率大小的由第四编码层5014输出的降采样特征E₄进行聚合，之后再经过一个卷积核为3×3的卷积处理(conv3)，得到第4个特征级别的人头尺度密度特征D₄。

类似的，将从第四解码层5024输出的人头尺度密度特征D₄输入第三解码层5023中进行上采样处理，得到与第三解码层5023的输出分辨率大小相同的上采样特征，然后将该上采样特征与同分辨率大小的由第三编码层5013输出的降采样特征E₃进行聚合，之后再经过一个卷积核为3×3的卷积处理(conv3)，得到第3个特征级别的人头尺度密度特征D₃。将从第三解码层5023输出的人头尺度密度特征D₃输入第二解码层5022中进行上采样处理，得到与第二解码层5022的输出分辨率大小相同的上采样特征，然后将该上采样特征与同分辨率大小的由第二编码层5012输出的降采样特征E₂进行聚合，之后再经过一个卷积核为3×3的卷积处理(conv3)，得到第2个特征级别的人头尺度密度特征D₂。将从第二解码层5022输出的人头尺度密度特征D₂输入第一解码层5021中进行上采样处理，得到与第一解码层5021的输出分辨率大小相同的上采样特征，然后将该上采样特征与同分辨率大小的由第一编码层5011输出的降采样特征E₁进行聚合，之后再经过一个卷积核为3×3的卷积处理(conv3)，得到第1个特征级别的人头尺度密度特征D₁。

在本公开实施例中，在编码阶段，多尺度融合特征F₈的降采样特征的特征尺度从E₁逐级降低至E₅，在解码阶段，人头尺度密度特征的特征尺度从D₅逐级提升至D₁，可以使得多尺度融合特征在金字塔结构的编码-解码网络中进行逐级传递，以便于后续可在不同分辨率的特征空间下去自适应的学习最佳的学习区域以及该区域的人头尺度。其中，高分辨率特征层(如第一解码层5021)中丰富的细节信息有利于小尺度头的预测，而具有丰富上下文信息的低分辨率特征层(如第五解码层5025)对大尺度头的预测效果更好。

通过上述步骤，可以将如图2所示的原始输入的人群图像处理成如图7所示的人头密度分布图。对应于人头的变化尺度来看，可将人头密度分成对应的{P₁,P₂,P₃,P₄,P₅}五个特征级别。如图7所示，从下往上看，P₁特征级别对应的人头密度分布区域如图7中的紫色点分布区域所示，P₂特征级别对应的人头密度分布区域如图7中的蓝色点分布区域所示，P₃特征级别对应的人头密度分布区域如图7中的绿色点分布区域所示，P₄特征级别对应的人头密度分布区域如图7中的红色点分布区域所示，P₅特征级别对应的人头密度分布区域如图7的黄色点分布区域所示。{P₁,P₂,P₃,P₄,P₅}五个特征级别分别表示人头尺度逐渐变小、人头密度逐渐变大的情况。

在实际应用中，可以根据需要拟合的人头密度分布的区别大小来适当减少特征级别(特征密度级别)，例如，可根据需要拟合的人头密度分布的区别大小来确定最终输出的人头尺度密度特征的特征级别为3个或者4个。

在实际应用中，金字塔结构的编码-解码网络优选采用如图5所示的网络结构，具体的可以根据需要拟合的人头密度分布的区别大小，选择用其中的任意几层来形成3个或者4个特征级别的人头尺度密度特征。

步骤S104，确定每一个特征级别的人头尺度密度特征对应的预测密度图。

图8是本公开实施例提供的一种密度分支的结构示意图。如图8所示，该密度分支包括5个密度头，分别为第一密度头801、第二密度头802、第三密度头803、第四密度头804和第五密度头805，其中，第一密度头801与第一解码层5021连接，第二密度头802与第二解码层5022连接，第三密度头803与第三解码层5023连接，第四密度头804与第四解码层5024连接，第五密度头805与第五解码层5025连接。其中，每个密度头均包括3个卷积分支和1个跳跃连接分支。

在一些实施例中，上述步骤S204具体可包括如下步骤：

针对每一个特征级别的人头尺度密度特征，对人头尺度密度特征进行第一卷积处理，得到第一卷积特征；

对第一卷积特征分别进行第二卷积处理、第三卷积处理和第四卷积处理，得到第二卷积特征、第三卷积特征和第四卷积特征，第二卷积处理、第三卷积处理和第四卷积处理的卷积核大小不同；

对第二卷积特征、第三卷积特征和第四卷积特征进行级联，得到级联特征；

对级联特征进行第五卷积处理和上采样处理，得到每一个特征级别对应的预测密度图。

结合图8，结合上述示例，对于P₁特征级别对应的人头尺度密度特征D₁，首先，将人头尺度密度特征D₁输入第一密度头801中，先经过卷积核为1×1的卷积操作进行通道缩减，得到第一卷积特征；然后将第一卷积特征分别输入3个不同卷积核大小的卷积分支中进行第二卷积处理、第三卷积处理和第四卷积处理，获取不同感受野的上下文信息，得到各个卷积分支输出的第二卷积特征、第三卷积特征和第四卷积特征；接着，将第二卷积特征、第三卷积特征和第四卷积特征输入跳跃连接分支中，以将它们沿着通道维度进行级联，得到级联特征；最后，经过卷积核大小为1×1的卷积处理后再经上采样处理，得到与原始输入的人群图像大小相同的预测密度图DM₁。

类似的，参照获得上述预测密度图DM₁的方法，可以获得与P₂特征级别的人头尺度密度特征D₂对应的预测密度图DM₂；与P₃特征级别的人头尺度密度特征D₃对应的预测密度图DM₃；与P₄特征级别的人头尺度密度特征D₄对应的预测密度图DM₄；与P₅特征级别的人头尺度密度特征D₅对应的预测密度图DM₅。

在本公开实施例中，各个密度头可以使用真实密度图DM_gt进行监督训练，在训练过程中，使用预测密度图DM_i与DM_gt之间的欧氏距离作为损失函数来指导密度头的优化训练。最后，对不同特征级别层次的损失进行求和，得到密度损失函数L_density，如下公式(1)所示：

式(1)中，DM_i表示第i个特征级别对应的预测密度图，i＝1～5；DM_gt表示原始输入的人群图像的真实密度图。

步骤S105，将每一个预测密度图均划分为多个图像切片，计算每一个图像切片在各个特征级别上的置信度标签，并根据置信度标签确定用于对图像切片进行人数预测的最优特征级别。

在一些实施例中，将每一个预测密度图均划分为多个图像切片，计算每一个图像切片在各个特征级别上的置信度标签，包括：

对每一个预测密度图均进行降采样处理，得到与每一个预测密度图对应的多个图像切片；

针对每一个预测密度图的每一个图像切片，对图像切片进行卷积处理，得到图像切片卷积特征，并计算图像切片卷积特征在第1～第i个特征级别上的置信度标签。

以预测密度图DM₁为例，在算法模型训练阶段，首先可将预测密度图DM₁进行降采样到原始输入的人群图像的

大小，由此可将预测密度图DM₁划分成k个大小为k×k的图像切片。接着，分别对每一个图像切片进行2个卷积核为3×3的卷积处理，得到图像切片卷积特征。

作为一示例，假设将预测密度图DM₁进行降采样到原始输入的人群图像的1/4大小，由此可以将预测密度图DM₁划分成4个大小为4×4的图像切片。接下来，分别对每一个图像切片进行2个卷积核为3×3的卷积处理，得到这4个图像切片对应的图像切片卷积特征。之后，再分别计算每一个图像切片卷积特征在第1～第i个特征级别上的置信度标签。设有3个特征级别，分别为p₁特征级别、p₂特征级别和p₃特征级别，那么分别计算每一个图像切片卷积特征在p₁特征级别、p₂特征级别和p₃特征级别上的置信度标签。

在一些实施例中，计算图像切片卷积特征在第1～第i个特征级别上的置信度标签，包括：

获取与人群图像对应的真实密度图，真实密度图携带有真实计数标签；

截取出真实密度图中与图像切片卷积特征对应的真实密度图像切片；

根据真实计数标签确定真实密度图像切片对应的切片计数值；

确定图像切片卷积特征在第1～第i个特征级别上的预测计数值；

根据预测计数值和切片计数值，计算出图像切片卷积特征在第1～第i个特征级别上的置信度标签。

真实密度图，是指原始输入的人群图像所对应的人头密度分布点图。该真实密度图上标注有人头点以及真实人数标签(即真实计数标签)，通常一个人头点代表一个人。

作为一示例，按照与上述对预测密度图DM₁进行图像切片的划分规则，将真实密度图也划分成4个大小为4×4的真实密度图像切片，然后再截取出与图像切片卷积特征所对应的图像切片位置相对应的真实密度图像切片的切片计数值(即该真实密度图像切片区域的真实人数)。接下来，分别图像切片卷积特征获取在p₁特征级别、p₂特征级别和p₃特征级别上的预测人数(即预测计数值)；之后，再分别计算图像切片卷积特征获取在p₁特征级别、p₂特征级别和p₃特征级别上的预测人数和与该图像切片卷积特征位置相对应的真实密度图像切片的切片计数值之间的计数误差，并通过下述公式(2)将1的正标签分配给估计的人群数量最接近真实值的特征级别，将0的负标签分配给预测误差最大的特征级别。其他特征层的标签为-1，在算法模型训练过程中被忽略。

其中，式(2)中，

表示第i个特征级别上位于预测密度图像的(m,n)位置的图像切片的置信度标签，i为≥3的正整数，N_l,m,n表示第l个特征级别上位于预测密度图像的(m,n)位置的图像切片的预测人数，/>

表示第l个特征级别上位于真实密度图像的(m,n)位置的真实密度图像切片的真实人数，l为≥3的正整数，且l＝i。

图9是本公开实施例提供的一种人群计数网络的整体网络结构示意图。如图9所示，该人群计数网络包括输入端，与输入端连接的多尺度特征融合网络300，与所述多尺度特征融合网络300连接的金字塔结构的编码-解码网络500，分别与金字塔结构的编码-解码网络500中的第一解码层5021、第二解码层5022、第三解码层5023、第四解码层5024和第五解码层5025分别连接的第一密度头801、第二密度头802、第三密度头803、第四密度头804和第五密度头805，与金字塔结构的编码-解码网络500中的第一解码层5021、第二解码层5022、第三解码层5023、第四解码层5024和第五解码层5025分别连接的第一置信度分支901、第二置信度分支902、第三置信度分支903、第四置信度分支904和第五置信度分支905；与第一密度头801、第二密度头802、第三密度头803、第四密度头804和第五密度头805连接的第一融合分支1006；与一置信度分支901、第二置信度分支902、第三置信度分支903、第四置信度分支904和第五置信度分支905连接的第二融合分支907；与第一融合分支906、第二融合分支907连接的第三融合分支908，与第三融合分支908连接的输出端。

结合图9和图10，以预测密度图DM₁为例，首先将预测密度图DM₁输入第一置信度分支901中，将预测密度图DM₁划分成相同大小的4个图像切片，同样的，将真实密度图也划分为相同大小的4个真实密度图像切片。对于预测密度图DM₁的左上角位置的图像切片，分别估计该图像切片在p₁特征级别、p₂特征级别和p₃特征级别上的预测人数，结果分别为16.53、15.15、12.89。真实密度图的左上角位置的真实密度图像切片的真实人数为24.76，分别计算该图像切片在p₁特征级别、p₂特征级别和p₃特征级别上的预测人数与真实密度图的左上角位置的真实密度图像切片的真实人数之间的计数误差。根据计算结果可知，该图像切片在p₁特征级别上的预测人数与真实密度图的左上角位置的真实密度图像切片的真实人数之间的计数误差最小，在p₂特征级别上的预测人数与真实密度图的左上角位置的真实密度图像切片的真实人数之间的计数误差最大。因此，通过上述公式(1)可将1的正标签分配给p₁特征级别，0的负标签分配给p₂特征级别，-1标签分配给p₃特征级别。并将p₁特征级别确定为用于估计预测密度图DM₁的左上角位置的图像切片的人数的最优特征级别。

同理，对于预测密度图DM₁的右上角、左下角以及右下角位置的图像切片的置信度的确定方式可参照上述预测密度图DM₁的左上角的图像切片的置信度的确定方式来一一确定，在此不再赘述。根据上述步骤最后可确定预测密度图DM₁的左上角、右上角、左下角以及右下角位置的图像切片的置信度标签为1时所对应的特征级别分别是p₁特征级别、p₂特征级别、p₂特征级别、p₁特征级别。

关于预测密度图DM₂、预测密度图DM₃、预测密度图DM₄、预测密度图DM₅的各个图像切片在各个特征级别上的置信度标签的确定方式可参照上述预测密度图DM₁的各个图像切片在各个特征级别上的置信度标签的确定方式来一一确定，在此不再赘述。

在模型推理过程中，与上述模型训练过程不同的是，针对每一个预测密度图的每一个图像切片，对图像切片进行卷积处理，得到图像切片卷积特征之后，再通过Sigmoid激活函数得到该图像切片卷积特征在第1至第i个特征级别上的置信度得分，并将置信度得到最高的特征级别确定为该图像切片卷积特征的最优特征级别。

由于特定的特征级别P_i的感受野有限，它只适用于在较窄的尺度范围内预测头部。为了充分利用提取到的多尺度融合特征表示的优势，本公开实施例首先利用密度分支，以尺度无关的方式独立地使用P_i进行预测，得到各个特征级别所对应的预测密度图；然后在置信度分支的辅助下，确定每一个特征级别所对应的预测密度图中的每一个图像切片的最优特征级别，再根据最优特征级别得到最终的预测结果。由于特定的图像切片中的头共享大致相同的尺度信息，通过置信度分支选择用于估计该特定的图像切片的人数的最优特征级别能够实现较低的计数误差，有利于减少人头密集区域的过少计数和人头稀疏区域的过多计数情况，提高人数预测的准确性。

步骤S106，根据每一个预测密度图的各个图像切片所对应的最优特征级别进行人数预测，得到人群图像的人群计数。

结合上述示例，分别使用预测密度图DM₁预测密度图DM₂、预测密度图DM₃、预测密度图DM₄、预测密度图DM₅的各个图像切片所对应的最优特征级别进行人数预测，得到各个预测密度图的各个图像切片所对应的预测人数，再将所有的预测人数进行叠加，得到人群图像的人群计数。

本公开实施例提供的技术方案，通过先获取人群图像，提取人群图像的多尺度融合特征，可在不增加额外的参数的前提下，能够对密集人群场景下连续变化的人头尺度和人头密度特征进行详细刻画，对于人头的定位也更准确；然后对多尺度融合特征进行编码和解码处理，得到多个特征级别的人头尺度密度特征；之后再根据各个特征级别所对应的密度头确定每一个特征级别的人头尺度密度特征对应的预测密度图；通过各个特征级别所对应的置信度分支将每一个预测密度图均划分为多个图像切片，计算每一个图像切片在各个特征级别上的置信度标签，并根据置信度标签确定用于对图像切片进行人数预测的最优特征级别；根据每一个预测密度图的各个图像切片所对应的最优特征级别进行人数预测，得到人群图像的人群计数，可以实现自适应地选择每个图像切片所对应的最优特征级别，对特征细节刻画更加完善和准确，可有效减少人头密集区域的过少计数和人头稀疏区域的过多计数情况，有利于提高密集人群场景下的人群计数准确度。

在一些实施例中，在使用上述自适应选择策略获得各个特征级别所对应的最终预测密度图后，可进一步通过PRA(传播式启发式图搜索算法)损失选择密度图中计数困难的像素区域，并对其进行细粒度优化，以提高人数预测的准确性。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图11是本公开实施例提供的一种人群计数装置的示意图。如图10所示，该人群计数装置包括：

获取模块1101，被配置为获取人群图像；

提取模块1102，被配置为提取人群图像的多尺度融合特征；

编解码模块1103，被配置为对多尺度融合特征进行编码和解码处理，得到多个特征级别的人头尺度密度特征；

确定模块1104，被配置为确定每一个特征级别的人头尺度密度特征对应的预测密度图；

计算模块1105，被配置为将每一个预测密度图均划分为多个图像切片，计算每一个图像切片在各个特征级别上的置信度标签，并根据置信度标签确定用于对图像切片进行人数预测的最优特征级别；

计数模块1106，被配置为根据每一个预测密度图的各个图像切片所对应的最优特征级别进行人数预测，得到人群图像的人群计数。

在一些实施例中，提取模块1102具体可包括：

一次卷积单元，被配置为对人群图像进行一次卷积处理，得到第一尺度卷积特征；

二次卷积单元，被配置为采用对第一尺度卷积特征分别进行二次、三次、四次和五次卷积处理，得到第二尺度卷积特征、第三尺度卷积特征、第四尺度卷积特征和第五尺度卷积特征；

第一融合单元，被配置为对第二尺度卷积特征和第三尺度卷积特征进行融合，得到第一融合特征；

第二融合单元，被配置为对第四尺度卷积特征和第五尺度卷积特征进行融合，得到第二融合特征；

第三融合单元，被配置为对第一融合特征和第二融合特征进行融合，得到多尺度融合特征。

在一些实施例中，多个特征级别的人头尺度密度特征包括i个特征级别的人头尺度密度特征，i为≥3的正整数。上述编解码模块1103具体可包括：

编码单元，被配置为在编码阶段，对多尺度融合特征进行逐级降采样处理，得到第1至第j个特征级别的降采样特征，j为≥3的正整数；

解码单元，被配置为在解码阶段，将第j个特征级别的降采样特征确定为第i个特征级别的人头尺度密度特征，根据第i个特征级别的人头尺度密度特征、第j-p个特征级别的降采样特征，确定第i-1至第1个特征级别的人头尺度密度特征，p＝1,2,...(j-1)。

在一些实施例中，上述解码单元包括：

上采样组件，被配置为对第i个特征级别的人头尺度密度特征进行上采样，得到上采样特征；

聚合组件，被配置为将上采样特征与第j-p个特征级别的降采样特征进行聚合，得到第i-q个特征级别的人头尺度密度特征，q＝1,2,...(i-1)；p＝q。

在一些实施例中，确定模块1104具体可包括：

第一卷积单元，被配置为针对每一个特征级别的人头尺度密度特征，对人头尺度密度特征进行第一卷积处理，得到第一卷积特征；

第二卷积单元，被配置为对第一卷积特征分别进行第二卷积处理、第三卷积处理和第四卷积处理，得到第二卷积特征、第三卷积特征和第四卷积特征，第二卷积处理、第三卷积处理和第四卷积处理的卷积核大小不同；

级联单元，被配置为对第二卷积特征、第三卷积特征和第四卷积特征进行级联，得到级联特征；

第三卷积单元，被配置为对级联特征进行第五卷积处理和上采样处理，得到每一个特征级别对应的预测密度图。

在一些实施例中，上述计算模块1105包括：

切片单元，被配置为对每一个预测密度图均进行降采样处理，得到与每一个预测密度图对应的多个图像切片；

计算单元，被配置为针对每一个预测密度图的每一个图像切片，对图像切片进行卷积处理，得到图像切片卷积特征，并计算图像切片卷积特征在第1～第i个特征级别上的置信度标签。

在一些实施例中，上述计算单元包括：

获取组件，被配置为获取与人群图像对应的真实密度图，真实密度图携带有真实计数标签；

截取组件，被配置为截取出真实密度图中与图像切片卷积特征对应的真实密度图像切片；

第一确定组件，被配置为根据真实计数标签确定真实密度图像切片对应的切片计数值；

第二确定组件，被配置为确定图像切片卷积特征在第1～第i个特征级别上的预测计数值；

计算组件，被配置为根据预测计数值和切片计数值，计算出图像切片卷积特征在第1～第i个特征级别上的置信度标签。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本公开实施例的实施过程构成任何限定。

图12是本公开实施例提供的电子设备12的示意图。如图12所示，该实施例的电子设备12包括：处理器1201、存储器1202以及存储在该存储器1202中并且可在处理器1201上运行的计算机程序1203。处理器1201执行计算机程序1203时实现上述各个方法实施例中的步骤。或者，处理器1201执行计算机程序1203时实现上述各装置实施例中各模块/单元的功能。

电子设备12可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备12可以包括但不仅限于处理器1201和存储器1202。本领域技术人员可以理解，图12仅仅是电子设备12的示例，并不构成对电子设备12的限定，可以包括比图示更多或更少的部件，或者不同的部件。

处理器1201可以是中央处理单元(Central Processpng Unpt，CPU)，也可以是其它通用处理器、数字信号处理器(Dpgptal Spgnal Processor，DSP)、专用集成电路(Applpcatpon Specpfpc Pntegrated Cprcupt，ASPC)、现场可编程门阵列(Fpeld-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

存储器1202可以是电子设备12的内部存储单元，例如，电子设备12的硬盘或内存。存储器1202也可以是电子设备12的外部存储设备，例如，电子设备12上配备的插接式硬盘，智能存储卡(Smart Medpa Card，SMC)，安全数字(Secure Dpgptal，SD)卡，闪存卡(FlashCard)等。存储器1202还可以既包括电子设备12的内部存储单元也包括外部存储设备。存储器1202用于存储计算机程序以及电子设备所需的其它程序和数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本公开实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如，在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围，均应包含在本公开的保护范围之内。

Claims

1.一种人群计数方法，其特征在于，包括：

获取人群图像；

提取所述人群图像的多尺度融合特征；

对所述多尺度融合特征进行编码和解码处理，得到多个特征级别的人头尺度密度特征；

将每一个所述预测密度图均划分为多个图像切片，计算每一个所述图像切片在各个特征级别上的置信度标签，并根据所述置信度标签确定用于对所述图像切片进行人数预测的最优特征级别；

根据每一个所述预测密度图的各个图像切片所对应的最优特征级别进行人数预测，得到所述人群图像的人群计数。

2.根据权利要求1所述的方法，其特征在于，提取所述人群图像的多尺度融合特征，包括：

对所述人群图像进行一次卷积处理，得到第一尺度卷积特征；

采用对所述第一尺度卷积特征分别进行二次、三次、四次和五次卷积处理，得到第二尺度卷积特征、第三尺度卷积特征、第四尺度卷积特征和第五尺度卷积特征；

对所述第二尺度卷积特征和第三尺度卷积特征进行融合，得到第一融合特征；

对所述第四尺度卷积特征和第五尺度卷积特征进行融合，得到第二融合特征；

对所述第一融合特征和第二融合特征进行融合，得到多尺度融合特征。

3.根据权利要求1所述的方法，其特征在于，所述多个特征级别的人头尺度密度特征包括i个特征级别的人头尺度密度特征，i为≥3的正整数；

对所述多尺度融合特征进行编码和解码处理，得到多个特征级别的人头尺度密度特征，包括：

在编码阶段，对所述多尺度融合特征进行逐级降采样处理，得到第1至第j个特征级别的降采样特征，j为≥3的正整数；

4.根据权利要求3所述的方法，其特征在于，根据第i个特征级别的人头尺度密度特征、第j-p个特征级别的降采样特征，确定第i-1至第1个特征级别的人头尺度密度特征，包括：

对第i个特征级别的人头尺度密度特征进行上采样，得到上采样特征；

将所述上采样特征与所述第j-p个特征级别的降采样特征进行聚合，得到第i-q个特征级别的人头尺度密度特征，q＝1,2,...(i-1)；p＝q。

5.根据权利要求1所述的方法，其特征在于，确定每一个特征级别的人头尺度密度特征对应的预测密度图，包括：

针对每一个特征级别的人头尺度密度特征，对所述人头尺度密度特征进行第一卷积处理，得到第一卷积特征；

对所述第一卷积特征分别进行第二卷积处理、第三卷积处理和第四卷积处理，得到第二卷积特征、第三卷积特征和第四卷积特征，所述第二卷积处理、第三卷积处理和第四卷积处理的卷积核大小不同；

对所述第二卷积特征、第三卷积特征和第四卷积特征进行级联，得到级联特征；

对所述级联特征进行第五卷积处理和上采样处理，得到每一个特征级别对应的预测密度图。

6.根据权利要求3所述的方法，其特征在于，将每一个所述预测密度图均划分为多个图像切片，计算每一个所述图像切片在各个特征级别上的置信度标签，包括：

对每一个所述预测密度图均进行降采样处理，得到与每一个所述预测密度图对应的多个图像切片；

针对每一个所述预测密度图的每一个图像切片，对所述图像切片进行卷积处理，得到图像切片卷积特征，并计算所述图像切片卷积特征在第1～第i个特征级别上的置信度标签。

7.根据权利要求6所述的方法，其特征在于，计算所述图像切片卷积特征在第1～第i个特征级别上的置信度标签，包括：

获取与所述人群图像对应的真实密度图，所述真实密度图携带有真实计数标签；

截取出所述真实密度图中与所述图像切片卷积特征对应的真实密度图像切片；

根据所述真实计数标签确定所述真实密度图像切片对应的切片计数值；

确定所述图像切片卷积特征在第1～第i个特征级别上的预测计数值；

根据所述预测计数值和所述切片计数值，计算出所述图像切片卷积特征在第1～第i个特征级别上的置信度标签。

8.一种人群计数装置，其特征在于，包括：

获取模块，被配置为获取人群图像；

提取模块，被配置为提取所述人群图像的多尺度融合特征；

编解码模块，被配置为对所述多尺度融合特征进行编码和解码处理，得到多个特征级别的人头尺度密度特征；

计算模块，被配置为将每一个所述预测密度图均划分为多个图像切片，计算每一个所述图像切片在各个特征级别上的置信度标签，并根据所述置信度标签确定用于对所述图像切片进行人数预测的最优特征级别；

计数模块，被配置为根据每一个所述预测密度图的各个图像切片所对应的最优特征级别进行人数预测，得到所述人群图像的人群计数。

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。