CN111062275A

CN111062275A - 一种多层次监督的人群计数方法、装置、介质及电子设备

Info

Publication number: CN111062275A
Application number: CN201911214306.6A
Authority: CN
Inventors: 袁德胜; 王作辉; 张宏俊; 王海涛; 姚磊; 杨进参; 游浩泉; 刘耀文; 吴贺丰
Original assignee: Winner Technology Co ltd
Current assignee: Winner Technology Co ltd
Priority date: 2019-12-02
Filing date: 2019-12-02
Publication date: 2020-04-24

Abstract

本发明提供一种多层次监督的人群计数方法、装置、介质及电子设备，其中，方法包括将图像经由特征提取模块1依次输入所述特征提取模块1的各下级特征提取模块，以分别获得对应各所述特征提取模块i的输出特征图；将各所述特征提取模块i对应的输出特征图和所述特征提取模块i的各下级特征提取模块对应的输出特征图进行融合；分别将各所述融合结果进行密度图估计以分别获取对应各所述融合结果的子密度图；将各所述子密度图进行联合计算以获得最终密度图；根据所述最终密度图获取人群总数。本发明采用的多层次监督的网络能够融合多个密度图产生更加精确的最终密度图，避免一些误差，减少错误影响，以便更好统计人群总数。

Description

一种多层次监督的人群计数方法、装置、介质及电子设备

技术领域

本发明涉及图像处理领域，特别是涉及一种多层次监督的人群计数方法、装置、介质及电子设备。

背景技术

随着城市人口的日益增长，在地铁站，商场，各种节日集会中，超额聚集的人群带来潜在危险，极容易造成踩踏、骚乱等悲剧。近年来，人群计数和人群的密度分布估计成为安防领域的热门课题，同时人群计数的算法性能在与深度学习的结合下得到了很大的提升。因此，人群计数和人群密度估计有着重要研究价值。

人群计数的目的是找出特定场景中的人数，而人群密度分布估计需要获取空间密度信息和人数(密度图求和)。人群计数的难点在于，场景的变化跨度大，目标的尺度变化不尽相同，人和人、人和景物之间存在不同程度的遮挡等等。而且对高密度的人群图像来说，随着人群密度的提升，人群遮挡越来越严重。

近年来，众多使用深度学习的人群方法被提出。深度学习(Deep Learning，DL)根据图像块的内容信息来设计神经网络进行估算人群总数，无需对图片进行前景分割等预处理，无需人工设计和提取特征，可以输出不同大小的图像，网络可以实现端到端的训练，可以交替回归图像块的人群密度和人群总数来实现人数估计。

以下是一些常见的深度学习驱动的人群计数方法：

2016年提出的MCNN算法，提出了一种简单有效的多列卷积神经网络结构将图像映射到其人群密度图上。这类利用多个网络的模型具有较多的参数，计算量大，无法进行实时的人群计数预测。而且多阵列的网络并不能如所描述的一般，提取不同的人头特征。有很多低效的分支结构。

2017年提出的Switch-CNN同样使用了三个子网络和分类的思想，让不同密度等级的图像块通过相应的子网络，则所有图像块被更准确地预测，最终，所有图像块的准确预测构成了原图准确的人群估计。

实际场景中的人群，常常会出现传统人群计数问题难以解决的背景噪声，人与人之间的严重遮挡，人群密度分布不均的问题。现有技术很难针对具有较大背景噪声的人群进行人群计数和人群密度估计。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种多层次监督的人群计数方法、装置、介质及电子设备，用于解决现有技术中不能有效且准群的对人群密度进行估计的问题。

为实现上述目的及其他相关目的，本发明提供一种多层次监督的人群计数方法，预设N个特征提取模块，N为大于或等于2的整数，特征提取模块i的下级特征提取模块包括特征提取模块i+1到特征提取模块N，所述特征提取模块i的输出为所述特征提取模块i+1的输入，且所述特征提取模块i+1的特征提取精度大于所述特征提取模块i的特征提取精度，其中，i为所述特征提取模块的编号，i＝1～N；所述多层次监督的人群计数方法包括：将图像经由特征提取模块1依次输入所述特征提取模块1的各下级特征提取模块，以分别获得对应各所述特征提取模块i的输出特征图；将各所述特征提取模块i对应的输出特征图和所述特征提取模块i的各下级特征提取模块对应的输出特征图进行融合；分别将各所述融合结果进行密度图估计以分别获取对应各所述融合结果的子密度图；将各所述子密度图进行联合计算以获得最终密度图；根据所述最终密度图获取人群总数。

在一些实施例中，令特征提取模块1～特征提取模块j为基础特征提取模块，其中，1≤j＜N；所述基础特征提取模块的特征提取精度小于预设精度阈值。

在一些实施例中，不对所述基础特征提取模块对应的所述特征图进行所述融合。

在一些实施例中，根据对所述最终密度图的各像素值进行累加以获取所述人群总数。

在一些实施例中，所述特征提取模块i+1对应的输出特征图比所述所述特征提取模块i对应的输出特征图的图像大小减小，且通道数增加；所述特征提取模块i+1对应的输出特征图的代表语义信息比所述所述特征提取模块i对应的输出特征图的代表语义信息增多；所述特征提取模块i+1对应的输出特征图的空间信息比所述所述特征提取模块i对应的输出特征图的空间信息减少。

在一些实施例中，所述特征提取模块应用残差块进行特征提取。

在一些实施例中，使用均方误差作为损失函数计算关于所述最终密度图的误差。

为实现上述目的及其他相关目的，本发明还提供一种多层次监督的人群计数装置，所述多层次监督的人群计数装置包括：预设模块，预设N个特征提取模块，N为大于或等于2的整数，特征提取模块i的下级特征提取模块包括特征提取模块i+1到特征提取模块N，所述特征提取模块i的输出为所述特征提取模块i+1的输入，且所述特征提取模块i+1的特征提取精度大于所述特征提取模块i的特征提取精度，其中，i为所述特征提取模块的编号，i＝1～N；特征图获取模块，用以将图像经由特征提取模块1依次输入所述特征提取模块1的各下级特征提取模块，以分别获得对应各所述特征提取模块i的输出特征图；融合模块，用以将各所述特征提取模块i对应的输出特征图和所述特征提取模块i的各下级特征模块对应的输出特征图进行融合；子密度图获取模块，用以分别将各所述融合结果进行密度图估计以分别获取对应各所述融合结果的子密度图；最终密度图获取模块，用以将各所述子密度图进行联合计算以获得最终密度图；人群总数获取模块，用以根据所述最终密度图获取人群总数。

为实现上述目的及其他相关目的，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上任一项所述多层次监督的人群计数方法。

为实现上述目的及其他相关目的，本发明还提供一种电子设备，包括：处理器及存储器；所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述电子设备执行如上任一项所述多层次监督的人群计数方法。

如上所述，本发明提供一种多层次监督的人群计数方法、装置、介质及电子设备，其中，方法包括将图像经由特征提取模块1依次输入所述特征提取模块1的各下级特征提取模块，以分别获得对应各所述特征提取模块i的输出特征图；将各所述特征提取模块i对应的输出特征图和所述特征提取模块i的各下级特征提取模块对应的输出特征图进行融合；分别将各所述融合结果进行密度图估计以分别获取对应各所述融合结果的子密度图；将各所述子密度图进行联合计算以获得最终密度图；根据所述最终密度图获取人群总数。本发明采用的多层次监督的网络能够融合多个密度图产生更加精确的最终密度图，避免一些误差，减少错误影响，以便更好统计人群总数。

附图说明

图1显示为本发明的多层次监督的人群计数方法在一具体实施例中的流程示意图。

图2显示为本发明的多层次监督的人群计数方法在一具体实施例中的应用示意图。

图3显示为本发明的多层次监督的人群计数装置在一具体实施例中的组成示意图。

图4显示为本发明的电子设备在一具体实施例中的组成示意图。

元件标号说明

100 多层次监督的人群计数装置

101 预设模块

102 特征图获取模块

103 融合模块

104 子密度图获取模块

105 最终密度图获取模块

106 人群总数获取模块

200 电子设备

201 处理器

202 存储器

S11～S15 步骤

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

本发明针对实际场景中的人群，提出了一种多层次监督的神经网络，能够有效地解决上述问题。基于多层次监督的人群计数方法，采用多层次网络来提取不同粗细粒度的特征，将其融合来生产密度图，从而计算出人群总数。该方案很好地适应了应付各种人与人之间的重合，相互遮掩，不同情景的人群图像，能够更好的产生精确的人群密度图。

具体的，请参阅图1，显示为本发明的多层次监督的人群计数方法在一具体实施例中的流程示意图。其中，预设N个特征提取模块，N为大于或等于2的整数，特征提取模块i的下级特征提取模块包括特征提取模块i+1到特征提取模块N，所述特征提取模块i的输出为所述特征提取模块i+1的输入，且所述特征提取模块i+1的特征提取精度大于所述特征提取模块i的特征提取精度，其中，i为所述特征提取模块的编号，i＝1～N；所述多层次监督的人群计数方法S1包括：

S11：将图像经由特征提取模块1依次输入所述特征提取模块1的各下级特征提取模块，以分别获得对应各所述特征提取模块i的输出特征图；其中，所述特征提取模块可包括可变性卷积层，所述特征提取模块的网络结构可为VGG16、VGG19或Mobile Net等。所述特征提取模块的池化层可使用Max Pooling,去掉Feature Map中不重要的样本，进一步减少参数数量,可替换成Average Pooling。在训练所述特征提取模块的过程中，可以先训练好一个神经网络，使用预训练好的模型来产生特征图，再训练端到端计数网络。且，在训练过程中可不采用无人图像，只采用人群图像，该方案可减少网络的训练时间。

S12：将各所述特征提取模块i对应的输出特征图和所述特征提取模块i的各下级特征提取模块对应的输出特征图进行融合；即本发明利用多层特征的方法，逐渐融合从下层到上层的特征，采用多层次的网络来合成更精确的密度图，避免一些误差，减少错误影响以便更好统计人群总数。

S13：分别将各所述融合结果进行密度图估计以分别获取对应各所述融合结果的子密度图；

S14：将各所述子密度图进行联合计算以获得最终密度图；在一具体实施例中，将各所述子密度图在通道维度上拼接，通过一个卷积核大小为1x1，卷积核数量为1的卷积层进行联合计算以获得所述最终密度图。

S15：根据所述最终密度图获取人群总数。

且在执行步骤S12中，将各所述特征提取模块i对应的输出特征图和所述特征提取模块i的各下级特征提取模块对应的输出特征图进行融合；不对所述基础特征提取模块对应的所述特征图进行所述融合。所述基础特征提取模块只提取图片的一些底层的基础的特征，例如图片中的线、点和/或角等。且该底层的基础的特征如果与其下级的特征提取模块的输出特征图进行融合，会降低最终密度图的获取精度，不对所述基础特征提取模块对应的所述特征图进行所述融合，而只根据所述基础特征提取模块的输出特征图作为邻接的下一级的特征提取模块的输入特征图。

其中，根据对所述最终密度图的各像素值进行累加以获取所述人群总数。

且，所述特征提取模块i+1对应的输出特征图比所述所述特征提取模块i对应的输出特征图的图像大小减小，且通道数增加；所述特征提取模块i+1对应的输出特征图的代表语义信息比所述所述特征提取模块i对应的输出特征图的代表语义信息增多；所述特征提取模块i+1对应的输出特征图的空间信息比所述所述特征提取模块i对应的输出特征图的空间信息减少。即，特征每经过一个模块，图像都有不定程度的缩小，通道数不断增加，代表语义信息逐渐增强而空间信息逐渐减弱，结合语义信息和空间信息可以减少特征的丢失，增强特征的表达，并且能够通过增加相当的深度来提高准确率。其内部的残差块使用了跳跃连接，缓解了在深度神经网络中增加深度带来的梯度消失问题。残差网络能够比简单叠加层生产的深度网络更容易优化，而且，因为深度的增加，结果得到了明显提升。

在一些实施例中，使用均方误差作为损失函数计算关于所述最终密度图的误差。平均绝对误差(MAE)和均方误差(MSE)是常用的衡量算法性能的标准，MAE表示算法估计的准确性，MSE表示算法估计的稳定性。其定义为：

其中，N代表测试图像数量，C_i代表第i张图片实际人数，

代表第i张图片预测人数。

本发明提出了多层次监督的人群计数方法，采用多层次的网络来合成更精确的密度图，避免一些误差，减少错误影响以便更好统计人群总数。多层次的网络是本发明重要组成部分，用于合成精确的密度图，是得出准确人群总数的重要技术手段。

本发明网络结构中还采用了多尺度网络，提出了一种能够从任意人群密度和任意视角的个体图像中准确估计人群数量的方法，可以自动处理任意大小的图片和应付各种人与人之间的重合，相互遮掩等问题。

且本发明的融合模块是一种利用多层特征的方法，逐渐融合从下层到上层的特征，提出了一种对每层输出进行深度监督的方案。通过组合来自不同级别的特征，实现准确的密度估计计算。

进一步的参阅图2，显示为本发明的多层次监督的人群计数方法在一具体实施例中的应用示意图。如图2所示，在本实施例中，预设五个特征提取模块，分别为特征提取模块0、特征提取模块1、特征提取模块2、特征提取模块3以及特征提取模块4。(2)特征提取模块0生成的特征图会依次进入特征提取模块1～4提取更细粒度的特征(如：特征提取模块2比特征提取模块1提取出更细粒度的特征)。其中，所述特征提取模块0为所述基础特征提取模块，只能提取图像的基础特征，对于后续的融合结果具有干扰影响，在此，不将所述特征提取模块0的特征提取结果进行融合，且所述特征提取模块1、特征提取模块2以及特征提取模块3分别具有对应的融合模块，且所述特征提取模块1、特征提取模块2、特征提取模块3以及特征提取模块4分别具有对应的密度图估计模块。

其中，所述特征提取模块是指使用计算机提取图像中属于特征性的信息的方法及过程的模块。特征每经过一个模块，图像都有不定程度的缩小，通道数不断增加，代表语义信息逐渐增强而空间信息逐渐减弱，结合语义信息和空间信息可以减少特征的丢失，增强特征的表达，并且能够通过增加相当的深度来提高准确率。其内部的残差块使用了跳跃连接，缓解了在深度神经网络中增加深度带来的梯度消失问题。残差网络能够比简单叠加层生产的深度网络更容易优化，而且，因为深度的增加，结果得到了明显提升。

图2所示融合模块是将多级特征进行拼接，合并起来作为后续层的输入的模块。本技术是一种利用多层特征的方法，逐渐融合从下层到上层的特征，提出了一种对每层输出进行深度监督的方案。这种密集式连接的结构不是简单地融合从不同尺度提取的多级特征，而是在自上而下的视图中考虑这样的问题。通过组合来自不同级别的特征，所得到的体系结构在每一层提供丰富的多尺度特征图，高级特征可以转换为较浅的侧输出层，较浅侧输出层可以学习丰富的低级特征，这是实现准确的密度估计的保障。

各个特征提取模块提取的特征会和其他更细粒度的特征进入融合模块。(如特征提取模块1的特征图和特征提取模块2，特征提取模块3，特征提取模块4进入第一个融合模块；特征提取模块2的特征图和特征提取模块3，特征提取模块4进入第二个融合模块)。融合模块的作用是将多个特征图进行拼接，合并起来作为后续层的输入。

密度图估计模块是通过特征图的特征信息计算出人群密度的模块。融合模块输出的特征图输入密度图估计模块，以分别获得对应所述特征提取模块1的密度图D1、对应所述特征提取模块2的密度图D2、对应所述特征提取模块3的密度图D3以及对应所述特征提取模块4的密度图D4。如图2所示，将所述特征提取模块1、所述特征提取模块2、所述特征提取模块3以及所述特征提取模块4的输出进行融合后，对该融合结果进行密度图估计，可以获得所述密度图D1。将所述特征提取模块2、所述特征提取模块3以及所述特征提取模块4的输出进行融合后，对该融合结果进行密度图估计，可以获得所述密度图D2。将所述特征提取模块3以及所述特征提取模块4的输出进行融合后，对该融合结果进行密度图估计，可以获得所述密度图D3。所述特征提取模块4的输出进行密度图估计后，可以获得所述密度图D4。在一些实施例中，所述密度图估计模块参阅表1所示：

表1

其中，Concat层实现输入数据的拼接。Concat层的作用就是将两个及以上的特征图按照在通道维度上进行拼接，把多个分支合并起来作为后续层的输入。concat层可以用于利用不同尺度特征图的语义信息，又能实现较好的性能。

如图2所示的联合计算模块，将多级特征产生的密度图D1,D2,D3,D4输入联合计算模块，联合计算模块用于将不同级别特征产生的人群密度图合成，得到最终的人群密度图。

且根据该最终的人群密度图的各像素值累加后得出人群总数。

本实施例中，还可使用均方误差(MSE)作为损失函数计算误差，然后从输出层开始，反向依次计算每个隐藏层的误差项，从而调整网络中参数的值。

在一具体实施例中，本发明的实施过程包括以下步骤：

1.收集大量人群图像，将数据集划分为训练集和测试集。

2.对训练集进行剪裁，使数据扩充，无人街景图的人群计数设置为0，对数据增强后的图像进行Gaussian核模糊归一化处理，得到真实的人群密度图。

3.对训练集的数据进行图像增强，我们将原始图像分为9个小块，没隔小块的大小是原图的1/4，前4个小块是原图的1/4区域不重叠的部分，后面5个小块是随机截取出来的图像，再将这9个小块做翻转变换，使得数据集数量翻倍。

4..定义损失函数的计算，使用sigmoid作为激活函数，神经网络中通过使用MSE作为损失函数，可使网络参数能够快速的从错误中学习问题

5.搭建网络并进行初始化。对于使用的VGG16网络，初始权值为该模型在ImageNet上的预训练权重；对于网络结构里其他部分参数，采用均值为0，均方差为0.01的正态分布进行初始化，偏差采用0进行初始化。

6.把图片输入到端到端计数网络，网络可得到特征图，进行特征提取，产生多个特征图。

7.生成的的特征图会多层次融合，经过密度估计模块产生四个密度图，将四个密度图输入到联合计算模块得出最终的人群密度图。

8.用欧氏距离来测量人群计数网络生成的密度图和真实密度图之间的差异，使用反向传播算法从输出层开始，然后反向依次计算每个隐藏层的误差项，直到与输入层相连的那个隐藏层，计算最终的损失。

9.利用测试集评估模型，挑选最优模型作为最终模型。

10.用密度图累加后得出人群总数。

本发明可以应用于各大公共区域的实际情景输入摄像头拍摄的图片。人群图形经过本技术处理，可以计算出该公共区域的人群总数以及人群密度变化。

参阅图3，显示为本发明的多层次监督的人群计数装置在一具体实施例中的组成示意图。

所述多层次监督的人群计数装置100包括：预设模块101、特征图获取模块102、融合模块103、子密度图获取模块104、最终密度图获取模块105以及人群总数获取模块106。

所述预设模块101预设N个特征提取模块，N为大于或等于2的整数，特征提取模块i的下级特征提取模块包括特征提取模块i+1到特征提取模块N，所述特征提取模块i的输出为所述特征提取模块i+1的输入，且所述特征提取模块i+1的特征提取精度大于所述特征提取模块i的特征提取精度，其中，i为所述特征提取模块的编号，i＝1～N；

所述特征图获取模块102用以将图像经由特征提取模块1依次输入所述特征提取模块1的各下级特征提取模块，以分别获得对应各所述特征提取模块i的输出特征图；

所述融合模块103用以将各所述特征提取模块i对应的输出特征图和所述特征提取模块i的各下级特征模块对应的输出特征图进行融合；

所述子密度图获取模块104用以分别将各所述融合结果进行密度图估计以分别获取对应各所述融合结果的子密度图；

所述最终密度图获取模块105用以将各所述子密度图进行联合计算以获得最终密度图；

所述人群总数获取模块106用以根据所述最终密度图获取人群总数。

所述多层次监督的人群计数装置100为与所述多层次监督的人群计数方法S1对应的系统项，两者技术方案一一对应，所有关于所述多层次监督的人群计数方法S1的描述均可应用于本实施例中，在此不加赘述。

在一些实施例中，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如图1所示的多层次监督的人群计数方法S1。

在一些实施例中，参阅图4，显示为本发明的电子设备在一具体实施例中的组成示意图。本发明还提供一种电子设备200，包括：处理器201及存储器202；

所述存储器202用于存储计算机程序，所述处理器201用于执行所述存储器202存储的计算机程序，以使所述电子设备200执行如图1所示的所述多层次监督的人群计数方法S1。所述电子设备200例如为智能手机、台式电脑或平板电脑等具有智能数据处理功能的设备。

所述存储器202可包括高速随机存取存储器，并且还可包括非易失性存储器，例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备。在某些实施例中，存储器202还可以包括远离一个或多个处理单元的存储单元，例如经由RF电路或外部端口以及通信网络访问的网络附加存储单元，其中所述通信网络可以是因特网、一个或多个内部网、局域网(LAN)、广域网(WLAN)、存储局域网(SAN)等，或其适当组合。

所述处理器201为一种能够进行数值运算、逻辑运算及数据分析的设备，其包括但不限于：CPU、GPU、FPGA等。

综上所述，本发明提供一种多层次监督的人群计数方法、装置、介质及电子设备，其中，方法包括将图像经由特征提取模块1依次输入所述特征提取模块1的各下级特征提取模块，以分别获得对应各所述特征提取模块i的输出特征图；将各所述特征提取模块i对应的输出特征图和所述特征提取模块i的各下级特征提取模块对应的输出特征图进行融合；分别将各所述融合结果进行密度图估计以分别获取对应各所述融合结果的子密度图；将各所述子密度图进行联合计算以获得最终密度图；根据所述最终密度图获取人群总数。本发明采用的多层次监督的网络能够融合多个密度图产生更加精确的最终密度图，避免一些误差，减少错误影响，以便更好统计人群总数。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种多层次监督的人群计数方法，其特征在于，预设N个特征提取模块，N为大于或等于2的整数，特征提取模块i的下级特征提取模块包括特征提取模块i+1到特征提取模块N，所述特征提取模块i的输出为所述特征提取模块i+1的输入，且所述特征提取模块i+1的特征提取精度大于所述特征提取模块i的特征提取精度，其中，i为所述特征提取模块的编号，i＝1～N；所述多层次监督的人群计数方法包括：

将图像经由特征提取模块1依次输入所述特征提取模块1的各下级特征提取模块，以分别获得对应各所述特征提取模块i的输出特征图；

将各所述特征提取模块i对应的输出特征图和所述特征提取模块i的各下级特征提取模块对应的输出特征图进行融合；

分别将各所述融合结果进行密度图估计以分别获取对应各所述融合结果的子密度图；

将各所述子密度图进行联合计算以获得最终密度图；

根据所述最终密度图获取人群总数。

2.根据权利要求1所述的多层次监督的人群计数方法，其特征在于，令特征提取模块1～特征提取模块j为基础特征提取模块，其中，1≤j＜N；所述基础特征提取模块的特征提取精度小于预设精度阈值。

3.根据权利要求2所述的多层次监督的人群计数方法，其特征在于，不对所述基础特征提取模块对应的所述特征图进行所述融合。

4.根据权利要求1所述的多层次监督的人群计数方法，其特征在于，根据对所述最终密度图的各像素值进行累加以获取所述人群总数。

5.根据权利要求1所述的多层次监督的人群计数方法，其特征在于，所述特征提取模块i+1对应的输出特征图比所述所述特征提取模块i对应的输出特征图的图像大小减小，且通道数增加；所述特征提取模块i+1对应的输出特征图的代表语义信息比所述所述特征提取模块i对应的输出特征图的代表语义信息增多；所述特征提取模块i+1对应的输出特征图的空间信息比所述所述特征提取模块i对应的输出特征图的空间信息减少。

6.根据权利要求1所述的多层次监督的人群计数方法，其特征在于，所述特征提取模块应用残差块进行特征提取。

7.根据权利要求1所述的多层次监督的人群计数方法，其特征在于，使用均方误差作为损失函数计算关于所述最终密度图的误差。

8.一种多层次监督的人群计数装置，其特征在于，所述多层次监督的人群计数装置包括：

预设模块，预设N个特征提取模块，N为大于或等于2的整数，特征提取模块i的下级特征提取模块包括特征提取模块i+1到特征提取模块N，所述特征提取模块i的输出为所述特征提取模块i+1的输入，且所述特征提取模块i+1的特征提取精度大于所述特征提取模块i的特征提取精度，其中，i为所述特征提取模块的编号，i＝1～N；

特征图获取模块，用以将图像经由特征提取模块1依次输入所述特征提取模块1的各下级特征提取模块，以分别获得对应各所述特征提取模块i的输出特征图；

融合模块，用以将各所述特征提取模块i对应的输出特征图和所述特征提取模块i的各下级特征模块对应的输出特征图进行融合；

子密度图获取模块，用以分别将各所述融合结果进行密度图估计以分别获取对应各所述融合结果的子密度图；

最终密度图获取模块，用以将各所述子密度图进行联合计算以获得最终密度图；

人群总数获取模块，用以根据所述最终密度图获取人群总数。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至7中任一项所述多层次监督的人群计数方法。

10.一种电子设备，其特征在于，包括：处理器及存储器；

所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述电子设备执行如权利要求1至7中任一项所述多层次监督的人群计数方法。