CN109635763A

CN109635763A - 一种人群密度估计方法

Info

Publication number: CN109635763A
Application number: CN201811554516.5A
Authority: CN
Inventors: 张世辉; 李贺; 任卫东
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2018-12-19
Filing date: 2018-12-19
Publication date: 2019-04-16
Anticipated expiration: 2038-12-19
Also published as: CN109635763B

Abstract

本发明公开一种人群密度估计方法。包括：将待估计图像进行预处理，得到低层特征图；输入深度神经网络模型中的第一子网络，得到高层语义特征图；输入深度神经网络模型中的全连接层，得到人群密集等级；确定第二子网络的对应子列；将低层特征图输入对应子列中，得到主要特征图；将高层语义特征图输入人群位置掩膜模块，得到人群位置信息掩膜；将主要特征图与人群位置信息掩膜加权，并与主要特征图进行通道上的链接，得到添加人群位置信息的特征图；输入维度变换层，得到人群密度估计图和人数估计结果。本发明可以有效解决人群密度估计任务中由于不同场景存在多尺度和人群分布不均导致人群密度估计性能不佳的问题，具有较高的准确性和较好的鲁棒性。

Description

一种人群密度估计方法

技术领域

本发明涉及图像处理领域，特别是涉及一种人群密度估计方法。

背景技术

随着智能监控技术的发展，人群密度估计，作为人群异常检测、人群分析和场景理解最为基础且困难的任务之一，受到了学术界和工业界的广泛关注。人群密度估计是指对场景中的人群进行密度估计进而得到行人数目。

目前人群密度估计方法主要分为三类：基于检测的方法，基于回归的方法和基于密度图的方法。基于检测的方法和基于回归的方法在一定程度上由于人群严重遮挡和多尺度等现象性能受到限制，同时忽略了图像上关键的空间信息。因此近些年人群密度估计任务大多采用基于密度图的方法。同基于检测和回归的方法相比，基于密度图的人群密度估计方法一定程度上能够降低高密度人群带来的一系列问题，还能获取图像上关键的空间信息，这为异常检测、人群管理等一系列任务提供更多线索。现有的人群密度估计方法大多采用基于密度图方式的深度神经网络模型，但这些已有的用于人群密度估计的深度神经网络模型存在无法抑制图像多尺度和人群分布不均导致人群密度估计准确率下降的影响等问题。

发明内容

本发明的目的是提供一种人群密度估计方法，以提高人群密度估计的准确率。

为实现上述目的，本发明提供了如下方案：

一种人群密度估计方法，包括：

将灰度化处理后的待估计图像输入深度神经网络模型中进行预处理，得到低层特征图；

将所述低层特征图输入所述深度神经网络模型中的第一子网络，得到高层语义特征图；所述第一子网络包括多个卷积层和多个池化层；

将所述高层语义特征图输入所述深度神经网络模型中的全连接层，得到人群密集等级；所述全连接层的最后一层的不同神经元对应不同的人群密集等级；

根据所述人群密集等级确定所述深度神经网络模型中的第二子网络的对应子列；所述第二子网络包括多个具有不同卷积核尺寸的子列，所述子列的数量与所述全连接层最后一层的神经元数量相同；多个所述子列与多个人群密度等级一一对应；

将所述低层特征图输入所述第二子网络的对应子列中，得到用于人群密度估计的主要特征图；

将所述高层语义特征图输入人群位置掩膜模块，得到人群位置信息掩膜；

将所述用于人群密度估计的主要特征图与所述人群位置信息掩膜加权，并与所述用于人群密度估计的主要特征图进行通道上的链接，得到添加人群位置信息的特征图；

将所述添加人群位置信息的特征图输入所述深度神经网络模型中的维度变换层，得到所述待估计图像对应的人群密度估计图和人数估计结果。

可选的，所述将灰度化处理后的待估计图像输入深度神经网络模型中进行预处理，具体包括：

将所述灰度化处理后的待估计图像输入所述深度神经网络模型中的第一卷积层，得到第一图像；

将所述第一图像输入所述深度神经网络模型中的第二卷积层，得到所述低层特征图；所述第一卷积层与所述第二卷积层的尺寸均为11*11。

可选的，所述将所述低层特征图输入所述深度神经网络模型中的第一子网络，得到高层语义特征图，具体包括：

将所述低层特征图输入所述深度神经网络模型中的第一子网络，依次经过所述第一子网络中的三个卷积层、一个池化层、一个卷积层、一个池化层和三个卷积层，得到所述高层语义特征图；所述第一子网络中的所有卷积层的卷积尺寸均为3*3，每个卷积层生成的特征图的通道数由输入至输出方向依次为24、32、16、32、16、24和8；所述第一子网络中的所有池化层的步长均为2。

可选的，将所述高层语义特征图输入所述深度神经网络模型中的全连接层，得到人群密集等级，具体包括：

将所述高层语义特征图输入所述深度神经网络模型中的三个全连接层，得到人群密集等级；三个全连接层的神经元数量由输入至输出方向依次为512、256和5，对应5个不同的人群密集等级。

可选的，所述第二子网络包括5个具有不同卷积核尺寸的子列，依次为第一子列、第二子列、第三子列、第四子列和第五子列；每个子列均依次包括一个卷积层、一个池化层、一个卷积层、一个池化层和三个卷积层。

可选的，所述第一子列中的每个卷积层的卷积核尺寸由输入至输出方向依次为11*11、9*9、9*9、9*9和3*3，每个卷积层生成的特征图通道数由输入至输出方向依次为24、32、16、8和8；所述第一子列的两个池化层的步长均为2；

所述第二子列中的每个卷积层的卷积核尺寸由输入至输出方向依次为9*9、7*7、7*7、7*7和3*3，所述第二子列的每个卷积层生成的特征图通道数由输入至输出方向依次为24、32、16、8和8；所述第二子列的两个池化层的步长均为2；

所述第三子列中的每个卷积层的卷积核尺寸由输入至输出方向依次为7*7、5*5、5*5、5*5和3*3，所述第三子列的每个卷积层生成的特征图通道数由输入至输出方向依次为20、40、20、10和8；所述第三子列的两个池化层的步长均为2；

所述第四子列中的每个卷积层的卷积核尺寸由输入至输出方向依次为5*5、3*3、3*3、3*3和3*3，所述第四子列的每个卷积层生成的特征图通道数由输入至输出方向依次为24、48、24、12和8；所述第四子列的两个池化层的步长均为2；

所述第五子列中的每个卷积层的卷积核尺寸由输入至输出方向依次为3*3、3*3、3*3、3*3和3*3，所述第五子列的每个卷积层生成的特征图通道数由输入至输出方向依次为32、48、24、18和8；所述第五子列的两个池化层的步长均为2。

可选的，所述将所述高层语义特征图输入人群位置掩膜模块，得到人群位置信息掩膜，具体包括：

将所述高层语义特征图输入卷积核尺寸为1*1的卷积层进行卷积操作，生成的特征图通道数为8，得到第二特征图；

将所述第二特征图进行Sigmoid函数变换，得到人群位置信息掩膜。

可选的，所述将所述用于人群密度估计的主要特征图与所述人群位置信息掩膜加权，并与所述用于人群密度估计的主要特征图进行通道上的链接，得到添加人群位置信息的特征图，具体包括：

将所述人群位置信息掩膜与所述用于人群密度估计的主要特征图进行逐元素相乘，得到第三特征图；

将所述第三特征图与所述用于人群密度估计的主要特征图进行通道上的链接，得到添加人群位置信息的特征图。

可选的，所述将所述添加人群位置信息的特征图输入所述深度神经网络模型中的维度变换层，得到所述待估计图像对应的人群密度估计图和人数估计结果，具体包括：

将所述添加人群位置信息的特征图输入所述深度神经网络模型中的维度变换层，依次经过一个卷积层、两个转置卷积层和一个卷积层，得到人群密度估计图和人数估计结果；所述维度变换层的两个卷积层的卷积尺寸由输入至输出方向依次为3*3和1*1，生成的特征图通道数依次为8和1；所述维度变换层的两个转置卷积层的卷积尺寸均为4*4，生成的特征图通道数依次为16和8，步长均为2。

可选的，所述得到所述待估计图像对应的人群密度估计图和人数估计结果，之后还包括：

将全连接层的损失函数和维度变换层的损失函数的加权和确定为所述深度神经网络模型的整体损失函数；所述全连接的损失函数采用交叉熵函数，所述维度变换层的损失函数为人群密度估计图和真实人群密度图的欧氏距离函数；

根据所述深度神经网络模型的整体损失函数确定所述深度神经网络模型的误差；

将所述误差反向传播，调整所述深度神经网络模型的参数，对所述深度神经网络模型进行优化。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

(1)通过估计当前场景的人群密集等级灵活地调整网络结构，即选择人群密集等级对应的第二子网络的子列，以迎合当前场景的图像尺度，可以有效抑制人群密度估计任务中图像多尺度导致人群密度估计准确率下降的缺陷。

(2)采用人群位置掩膜模块将人群位置信息添加到网络中，可以避免人群分布不均导致人群密度估计不准确的问题，可以更加鲁棒地降低人群密度估计任务中人群分布不均导致人群密度估计性能不佳的影响。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明人群密度估计方法的流程示意图；

图2为本发明深度神经网络模型的整体结构示意图；

图3为本发明中人群密集等级的分级示意图；

图4为本发明中人群位置掩膜模块的结构示意图；

图5为采用本发明人群密度估计方法进行人群密度估计的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明人群密度估计方法的流程示意图。如图1所示，所述人群密度估计方法包括以下步骤：

步骤100：将灰度化处理后的待估计图像输入深度神经网络模型中进行预处理，得到低层特征图。其中，预处理过程涉及两个卷积层，将灰度化处理后的待估计图像输入深度神经网络模型中的第一卷积层，得到第一图像；将第一图像输入所述深度神经网络模型中的第二卷积层，得到低层特征图。所述第一卷积层与所述第二卷积层的尺寸均为11*11。待估计图像经过第一卷积层后生成32张特征图，再经过第二卷积层后生成64张特征图，即低层特征图。

步骤200：将低层特征图输入深度神经网络模型中的第一子网络，得到高层语义特征图。第一子网络包括多个卷积层和多个池化层。具体的，所述第一子网络包括七个卷积层和两个池化层，依次为：三个卷积层、一个池化层、一个卷积层、一个池化层和三个卷积层；其中卷积层的卷积尺寸均为3*3，生成的特征图通道数依次为：24、32、16、32、16、24和8；两个池化层步长均为2。将所述低层特征图输入所述深度神经网络模型中的第一子网络后，依次经过三个卷积层、一个池化层、一个卷积层、一个池化层和三个卷积层，经过第七个卷积层后生成高层语义特征图。

步骤300：将高层语义特征图输入深度神经网络模型中的全连接层，得到人群密集等级。全连接层的最后一层的不同神经元对应不同的人群密集等级。优选的，全连接层的个数为3个，三个全连接层的神经元个数依次为：512、256和5。此处对应5个人群密集等级：“极高密度”、“高密度”、“中等密度”、“低密度”、“极低密度”。本发明采用交叉熵函数作为全连接层的损失函数。

步骤400：根据人群密集等级确定深度神经网络模型中的第二子网络的对应子列。第二子网络包括多个具有不同卷积核尺寸的子列，子列的数量与全连接层最后一层的神经元数量相同；多个子列与多个人群密度等级一一对应。当全连接层最后一层的神经元个数为5时，

第二子网络包括5个具有不同卷积核尺寸的子列，依次为第一子列、第二子列、第三子列、第四子列和第五子列，每个子列对应一个人群密集等级，例如，“极高密度”等级对应第一子列，“高密度”等级对应第二子列，“中等密度”等级对应第三子列，“低密度”等级对应第四子列，“极低密度”等级对应第五子列。

下面对每个子列的结构进行具体说明：

第一子列依次包含一个卷积层，一个池化层，一个卷积层，一个池化层和三个卷积层，每个卷积层的卷积核尺寸由输入至输出方向依次为11*11、9*9、9*9、9*9和3*3，每个卷积层生成的特征图通道数由输入至输出方向依次为24、32、16、8和8；所述第一子列的两个池化层的步长均为2；

第二子列依次包含一个卷积层，一个池化层，一个卷积层，一个池化层和三个卷积层，每个卷积层的卷积核尺寸由输入至输出方向依次为9*9、7*7、7*7、7*7和3*3，所述第二子列的每个卷积层生成的特征图通道数由输入至输出方向依次为24、32、16、8和8；所述第二子列的两个池化层的步长均为2；

第三子列依次包含一个卷积层，一个池化层，一个卷积层，一个池化层和三个卷积层，每个卷积层的卷积核尺寸由输入至输出方向依次为7*7、5*5、5*5、5*5和3*3，所述第三子列的每个卷积层生成的特征图通道数由输入至输出方向依次为20、40、20、10和8；所述第三子列的两个池化层的步长均为2；

第四子列依次包含一个卷积层，一个池化层，一个卷积层，一个池化层和三个卷积层，每个卷积层的卷积核尺寸由输入至输出方向依次为5*5、3*3、3*3、3*3和3*3，所述第四子列的每个卷积层生成的特征图通道数由输入至输出方向依次为24、48、24、12和8；所述第四子列的两个池化层的步长均为2；

第五子列依次包含一个卷积层，一个池化层，一个卷积层，一个池化层和三个卷积层，每个卷积层的卷积核尺寸由输入至输出方向依次为3*3、3*3、3*3、3*3和3*3，所述第五子列的每个卷积层生成的特征图通道数由输入至输出方向依次为32、48、24、18和8；所述第五子列的两个池化层的步长均为2。

步骤500：将低层特征图输入第二子网络的对应子列中，得到用于人群密度估计的主要特征图。将低层特征图输入第二子网络时，采用对应子列进行密度估算。例如，当步骤300的输出结果为“极高密度”时，则选择第一子列进行密度估计，其余4列不参与计算；当步骤300的输出结果为“高密度”时，则选择第二子列进行密度估计，其余4列不参与计算；当步骤300的输出结果为“中等密度”时，则选择第三子列进行密度估计，其余4列不参与计算；当步骤300的输出结果为“低密度”时，则选择第四子列进行密度估计，其余4列不参与计算；当步骤300的输出结果为“极低密度”时，则选择第五子列进行密度估计，其余4列不参与计算。

步骤600：将高层语义特征图输入人群位置掩膜模块，得到人群位置信息掩膜。具体过程如下：

将高层语义特征图输入卷积核尺寸为1*1的卷积层进行卷积操作，生成的特征图通道数为8，得到第二特征图；

将第二特征图进行Sigmoid函数变换，得到人群位置信息掩膜。Sigmoid函数的表达式为：式中，z是操作结果的每个元素，此处是指第二特征图，f(z)为每个元素Sigmoid变换后的结果。

步骤700：将用于人群密度估计的主要特征图与人群位置信息掩膜加权，并与用于人群密度估计的主要特征图进行通道上的链接，得到添加人群位置信息的特征图。具体过程如下：

将人群位置信息掩膜与用于人群密度估计的主要特征图进行逐元素相乘，得到第三特征图；再将所述第三特征图与所述用于人群密度估计的主要特征图进行通道上的链接，得到添加人群位置信息的特征图。整个过程计算公式为：

式中，Sigmoid(F_locAfterCon)为第二特征图Sigmoid变换的结果，即人群位置信息掩膜；为逐元素相乘操作，F_den为用于人群密度估计的主要特征图，为通道上的链接操作，F_result为添加人群位置信息的特征图。

步骤800：将添加人群位置信息的特征图输入深度神经网络模型中的维度变换层，得到待估计图像对应的人群密度估计图和人数估计结果。所述维度变换层包含两个卷积层和两个转置卷积层，依次为一个卷积层、两个转置卷积层和一个卷积层；其中两个卷积层的卷积尺寸依次分别为3*3和1*1，生成的特征图通道数分别为8和1；两个转置卷积层的卷积尺寸均为4*4，生成的特征图通道数分别为16和8，步长均为2。将所述添加人群位置信息的特征图输入所述深度神经网络模型中的维度变换层，依次经过一个卷积层、两个转置卷积层和一个卷积层后，得到人群密度估计图和人数估计结果。

下面结合本发明的具体实施例来进一步说明本发明的方案。

步骤1：对图像进行灰度化，设彩色图像三通道值为R、G和B，灰度化后的图像为Gray，向右移位操作为＞＞，灰度化计算公式如下：

Gray＝(R*19595+G*38469+B*7472)＞＞16 (1)

步骤2：建立用于人群密度估计的深度神经网络模型，整体结构如图2所示，图2为本发明深度神经网络模型的整体结构示意图。建立深度神经网络模型的过程如下：

2.1)建立预处理卷积模块，任意输入灰度化后的图像样本x，获得预处理特征图，这一阶段包含两次卷积操作，尺寸均为11*11，分别生成32张和64张特征图，64张特征图为预处理特征图；

2.2)建立估计人群密集程度的分支分类网络：

2.2.1)建立语义特征提取模块，接收2.1)中预处理特征图作为输入，经过特征抽取操作获得高层语义特征图，这一阶段包含了7次卷积和2次池化。如图2所示，依次为3次卷积、1次池化、1次卷积、1次池化和3次卷积，卷积层卷积尺寸均为3*3，生成的特征图通道数分别为：24、32、16、32、16、24和8，两个池化层步长均为2，第七个卷积层后生成高层语义特征图，

2.2.2)建立预测分类模块，接收2.2.1)中高层语义特征图作为输入，获得任意输入灰度化后的图像样本数据x的人群密集程度，即人群密集等级，将灰度化后的图像样本数据并进行池化并获取相同长度的向量，并设置三个全连接层来输出人群密集程度，神经元数量分别为：512、256和5；

这一阶段采用的损失函数为交叉熵函数，训练样本数设为N，待学习参数为Θ，实际人群密集程度为yⁱ，估计人群密集程度为F_c(X_i,Θ)，人群密集程度总类别数为T，计算公式如下：

2.3)建立五列具有不同卷积核尺寸的子列，每列包含五个卷积层和两个池化层，依次为1次卷积、1次池化、1次卷积、1次池化和3次卷积，其中，1号子列的卷积尺寸依次为11*11、9*9、9*9、9*9和3*3，生成的特征图通道数分别为24、32、16、8和8，2号子列的卷积尺寸依次为9*9、7*7、7*7、7*7和3*3，生成的特征图通道数分别为24、32、16、8和8，3号子列的卷积尺寸依次为7*7、5*5、5*5、5*5和3*3，生成的特征图通道数分别为20、40、20、10和8，4号子列的卷积尺寸依次为5*5、3*3、3*3、3*3和3*3，生成的特征图通道数分别为24、48、24、12和8，5号子列的卷积尺寸依次为3*3、3*3、3*3、3*3和3*3，生成的特征图通道数分别为32、48、24、18和8，所有池化步长均为2；

2.4)根据2.2.2)的输出结果选择2.3)中五列具有不同卷积核尺寸的子列中的最佳列，将步骤2.1)的输出结果输入到最佳列，步骤2.2.2)的输出结果为人群密集程度，包括“极高密度”、“高密度”、“中等密度”、“低密度”、“极低密度”。图3为本发明中人群密集等级的分级示意图，如图3所示，分别依次对应分支分类网络第三个全连接层的5个神经元。若步骤2.2.2)的输出结果为“极高密度”，则选择1号子列进行密度估计，其余4列不参与计算；若步骤2.2.2)的输出结果为“高密度”，则选择2号子列进行密度估计，其余4列不参与计算；若步骤2.2.2)的输出结果为“中等密度”，则选择3号子列进行密度估计，其余4列不参与计算；若步骤2.2.2)的输出结果为“低密度”，则选择4号子列进行密度估计，其余4列不参与计算；若步骤2.2.2)的输出结果为“极低密度”，则选择5号子列进行密度估计，其余4列不参与计算；

2.5)建立人群位置掩膜模块。图4为本发明中人群位置掩膜模块的结构示意图，如图4所示，接收2.2.1)生成的高层语义特征图和2.4)最佳列的输出结果作为输入，对高层语义特征图进行一个卷积核尺寸为1*1的卷积操作，生成的特征图通道数为8，将操作结果F_locAfterCon中每个元素z进行Sigmoid变换，变换结果为f(z)，整体变换结果为Sigmoid(F_locAfterCon)，每个元素的Sigmoid变换计算公式如下：

将变换结果Sigmoid(F_locAfterCon)与2.4)最佳列的输出结果F_den进行逐元素相乘再将相乘结果与2.4)最佳列的输出结果F_den进行通道上的链接得到添加人群位置信息的特征图F_result，整个过程计算公式如下：

2.6)建立人群密度估计模块，接收2.5)中添加人群位置信息的特征图作为输入，这一模块包括2次卷积和2次转置卷积过程，依次为卷积、转置卷积、转置卷积和卷积；其中卷积的卷积核尺寸依次为3*3和1*1，生成的特征图通道数分别为8和1,，转置卷积的卷积核尺寸均为4*4，生成的特征图通道数分别为16和8，步长均为2，最后一个卷积层的输出结果为人群密度图，对人群密度图进行求和，得到人群密度估计结果，从而获得给定图像的人群密度图和人群密度估计结果；使用人群密度估计图和真实人群密度图的欧氏距离作为损失函数，N为训练样本数量，F_D(X_i；Θ)为生成的人群密度估计图，D_i为人群密度图x，对每一张单幅图像的人群密度估计图和人群密度图x求绝对差值，并对所有图像的绝对差值的总和求平均，得到损失函数的结果，计算公式如下：

在深度神经网络模型使用前，需要利用若干张从人群图像对建立的深度神经网络模型进行训练，得到待学习参数Θ的估计，设置权重项α，使得交叉熵函数和欧氏距离加权和结果最小，训练步骤如下：

为建立的层次上下文和多尺度特征融合网络的参数随机设定一个初始值，设置权重项α，使得交叉熵函数L_C和欧氏距离L_D加权和结果最小，计算公式如下：

L(Θ)＝L_D+αL_C (6)

在每次得到待估计图像对应的人群密度估计图和人数估计结果之后，根据深度神经网络模型的整体损失函数确定深度神经网络模型的误差，将所述误差反向传播，调整所述深度神经网络模型的参数，对所述深度神经网络模型进行优化。待学习参数Θ采用Adam优化算法在每一次优化迭代中更新，直到加权和结果L(Θ)收敛到一个较小的值，保存参数及训练后的模型。本发明采用步骤2.2.3中交叉熵损失函数L_C和步骤2.6中欧氏距离损失函数L_D的加权和作为网络的整体损失函数。

使用训练后的深度神经网路模型对任意输入灰度化后的图像进行人群密度估计或人群密度估计，将任意单张图像直接输入到训练后的模型中，即可得到对应的人群密度图和人群密度估计结果，如图5所示，图5为采用本发明人群密度估计方法进行人群密度估计的示意图。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种人群密度估计方法，其特征在于，包括：

2.根据权利要求1所述的人群密度估计方法，其特征在于，所述将灰度化处理后的待估计图像输入深度神经网络模型中进行预处理，具体包括：

3.根据权利要求1所述的人群密度估计方法，其特征在于，所述将所述低层特征图输入所述深度神经网络模型中的第一子网络，得到高层语义特征图，具体包括：

4.根据权利要求1所述的人群密度估计方法，其特征在于，将所述高层语义特征图输入所述深度神经网络模型中的全连接层，得到人群密集等级，具体包括：

5.根据权利要求4所述的人群密度估计方法，其特征在于，所述第二子网络包括5个具有不同卷积核尺寸的子列，依次为第一子列、第二子列、第三子列、第四子列和第五子列；每个子列均依次包括一个卷积层、一个池化层、一个卷积层、一个池化层和三个卷积层。

6.根据权利要求5所述的人群密度估计方法，其特征在于，所述第一子列中的每个卷积层的卷积核尺寸由输入至输出方向依次为11*11、9*9、9*9、9*9和3*3，每个卷积层生成的特征图通道数由输入至输出方向依次为24、32、16、8和8；所述第一子列的两个池化层的步长均为2；

7.根据权利要求1所述的人群密度估计方法，其特征在于，所述将所述高层语义特征图输入人群位置掩膜模块，得到人群位置信息掩膜，具体包括：

8.根据权利要求1所述的人群密度估计方法，其特征在于，所述将所述用于人群密度估计的主要特征图与所述人群位置信息掩膜加权，并与所述用于人群密度估计的主要特征图进行通道上的链接，得到添加人群位置信息的特征图，具体包括：

9.根据权利要求1所述的人群密度估计方法，其特征在于，所述将所述添加人群位置信息的特征图输入所述深度神经网络模型中的维度变换层，得到所述待估计图像对应的人群密度估计图和人数估计结果，具体包括：

10.根据权利要求1所述的人群密度估计方法，其特征在于，所述得到所述待估计图像对应的人群密度估计图和人数估计结果，之后还包括：