CN112989952B

CN112989952B - 一种基于遮罩引导的人群密度估计方法及装置

Info

Publication number: CN112989952B
Application number: CN202110191225.XA
Authority: CN
Inventors: 沈祥龙; 李文熙; 冯瑞
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2021-02-20
Filing date: 2021-02-20
Publication date: 2022-10-18
Anticipated expiration: 2041-02-20
Also published as: CN112989952A

Abstract

本发明提供了一种基于遮罩引导的人群密度估计方法，属于深度学习领域，其特征在于，包括如下步骤：步骤S1，对待测图像进行预处理获得预处理图像；步骤S2，搭建基于遮罩引导机制卷积神经网络模型；步骤S3，将包含多张训练图像的训练集输入步骤S2搭建的卷积神经网络模型，对该卷积神经网络模型进行训练得到训练完成的卷积神经网络模型；步骤S4，将预处理图像输入步骤S3训练完成的卷积神经网络模型，得到各个预处理图像中的人群密度结果并进行输出，其中，卷积神经网络模型包括遮罩引导模块以及分块预测模块，遮罩引导模块将预处理图像根据人群密度的稠密程度进行分层，再将多个图层分别对应输入分块预测模块中的多个与稠密程度相对应的预测网络层。

Description

一种基于遮罩引导的人群密度估计方法及装置

技术领域

本发明属于深度学习领域，涉及一种神经网络融合人群密度检测的方法及装置，具体涉及一种基于遮罩引导的卷积神经网络模型的人群密度检测的方法及装置。

背景技术

人群密度检测的任务主要是估计人群场景里的人数。这项技术也是需要智能人群分析技术的应用的关键所在，比如人群监控、场景理解和行为检测等。人群密度估计也被应用到很多实际任务，例如智能视频监控、人群态势分析等。

由于比例和视角，人群场景都很复杂。从广义上讲，我们可以把人群分为三种类型：稀疏人群、稠密人群和混合人群。稀疏人群一般包含可分辨的人物形状。稠密人群通常由大量的头部组成，身体大部分被遮挡。而混合人群一般同时包含了前两种特征，使得计数更加具有挑战性。

目前存在的人群密度估计技术往往尝试提取人物形状，检测头部进行计数。这些方法比较适合稀疏场景的应用。在稠密场景中，人物形状很难被准确识别到，人的头部也是斑点状分布，所以大部分算法都是尝试寻找斑点密度图和人群密度的关系。但是这些方法不能很好的解决稠密图和混合图的干扰，当估计稠密人群或混合人群图片的人群密度时，通常检测准确率较低，所以现有技术中的多种人群密度估计方法仍然不能应用于实际通用的估计任务中。

发明内容

为解决上述问题，提供一种基于遮罩引导的人群密度估计方法及装置，本发明采用了如下技术方案：

本发明提供了一种基于遮罩引导的人群密度估计方法，其特征在于，包括如下步骤：步骤S1，对待测图像进行预处理获得预处理图像；步骤S2，搭建基于遮罩引导机制卷积神经网络模型；步骤S3，将包含多张训练图像的训练集输入步骤S2搭建的卷积神经网络模型，对该卷积神经网络模型进行训练得到训练完成的卷积神经网络模型；步骤S4，将预处理图像输入步骤S3训练完成的卷积神经网络模型，得到各个预处理图像中的人群密度结果并进行输出，其中，卷积神经网络模型包括遮罩引导模块以及分块预测模块，遮罩引导模块将预处理图像根据人群密度的稠密程度进行分层得到多个不同稠密程度的图层，再将多个图层分别对应输入分块预测模块中的多个与稠密程度相对应的预测网络层。

本发明提供的基于遮罩引导的人群密度估计方法，还可以具有这样的特征，其中，卷积神经网络模型还包括特征混合预测模块，分块预测模块得到多个与人群密度的稠密程度相对应的人群密度特征图，特征混合预测模块将多个人群密度特征图进行特征混合并进行人群密度的预测。

本发明提供的基于遮罩引导的人群密度估计方法，还可以具有这样的特征，其中，特征混合预测模块使用两步混合策略将多个人群密度特征图进行特征混合。

本发明提供的基于遮罩引导的人群密度估计方法，还可以具有这样的特征，其中，分块预测模块包括稀疏人群预测网络层、稠密人群预测网络层以及骨干网络层，遮罩引导模块将预处理图像分离出稀疏人群图层、稠密人群图层以及混合人群图层并分别输入稀疏人群预测网络层、稠密人群预测网络层以及骨干网络层，稀疏人群预测网络层、稠密人群预测网络层以及骨干网络层分别得到稀疏人群特征图、稠密人群特征图和混合人群特征图。

本发明提供的基于遮罩引导的人群密度估计方法，还可以具有这样的特征，其中，步骤S1中的预处理为对待测图像进行降采样处理。

本发明提供的人群密度估计方法，还可以具有这样的特征，其中，构建基于遮罩引导机制的卷积神经网络模型包含的模型优化器为Adam，学习率为十的负五次方，步骤S3包括如下子步骤：步骤S3-1，将训练集中的各个训练图像依次输入构建好的卷积神经网络模型并进行一次迭代；步骤S3-2，采用卷积神经网络模型的每次迭代的最后一层的模型参数分别计算出损失误差，步骤S3-3，将计算得到的损失误差反向传播，从而更新卷积神经网络模型的模型参数；步骤S3-4，重复步骤S3-2至步骤S3-3直至达到训练完成条件，得到训练后的基于遮罩引导机制的卷积神经网络模型。

本发明提供的基于遮罩引导的人群密度估计方法，还可以具有这样的特征，其中，训练完成条件为卷积神经网络模型的各层的模型参数收敛。

本发明提供了一种基于遮罩引导的人群密度估计装置，其特征在于，包括：预处理部，对待测图像进行预处理获得预处理图像；以及密度预测部，用于从预处理图像中预测出人群密度结果并进行输出，该密度预测部包含一个训练好的基于遮罩引导机制的卷积神经网络模型，其中，卷积神经网络模型包括遮罩引导模块以及分块预测模块，分块预测模块包括与多个不同的人群密度的稠密程度相对应的预测网络层。

发明作用与效果

根据本发明提供的基于遮罩引导的人群密度估计方法及装置，该人群密度估计方法包括搭建基于遮罩引导机制的卷积神经网络模型后进行训练，然后将经过预处理的待测图像输入该训练完成的卷积神经网络模型后得到预测的人群密度，其中，该卷积神经网络模型包括遮罩引导模块以及分块预测模块，分块预测模块包括多个不同的人群密度的稠密程度相对应的预测网络层。分块预测模块能够将遮罩引导模块能将经过预处理的图像根据人群的稠密程度进行分层并输入分块预测模块，相比较于仅仅对稀疏人群或者稠密人群进行人群密度的预测，本实施例的人群密度估计方法能够将一张图片中不同稠密程度的人群进行分层预测，该预测模型的可以使模型更好的定位到人群和识别人群的密度，因此，此模型能够学习到更多的特征，更好地进行特征表达，更加适合高密度人群的人群密度估计任务，能够最终提高人群密度估计的精度，所以能够应用于通用的估计任务中。另外，该模型结构简单，不需要使用多任务训练以及度量学习等方法，因此，与现有的高精度模型相比，本实施例的模型构建快速方便，且训练过程所消耗的计算量也较小。

附图说明

图1是本发明实施例中人群密估计方法的流程图；

图2是本发明实施例的基于遮罩引导机制卷积神经网络模型的结构示意图；

图3是本发明实施例的骨干网络层的结构图。

具体实施方式

本实施例提供一种基于遮罩引导机制的卷积神经网络模型的人群密度估计方法及装置，用于估计待测图像的人群密度。

以下结合附图以及实施例来说明本发明的具体实施方式。

<实施例>

本实施例采用的数据集为ShanghaiTech、UCF_CC_50、UCF-QNRF、MALL。

ShanghaiTech数据集包含了part_A_final，part_B_final两部分。A部分训练集：300张图片，测试集：182张图片。B部分训练集：400张图片，测试集：316张图片。共1198张，330165个注释头。

UCF_CC_50是多来源多规模极度稠密人群的图像(Multi-source multi-scalecounting in extremely dense crowd images)，包括各种密度和不同的视角失真的不同场景。数据集是从公共可用的Web图像创建的。为了捕捉场景类型的多样性，作者收集了不同标签的图像，如音乐会，抗议，体育场馆和马拉松。它包含总共50个不同分辨率的图像，每个图像平均有1280个人。在整个数据集中共标记了63075个人。个人数量从94到4543不等，图像之间存在很大差异。本实施例将数据集被分成10组，并进行5次交叉验证。

UCF-QNRF数据集包括1535张图像，分别为训练集的1201张图像和测试集334张图像。

MALL数据集为一个具有不同光照条件和人群密度的新数据集。使用安装在购物中心中的监视摄像机收集数据集。除了具有各种密度水平外，它还具有不同的活动模式(静止和移动的人群)。另外，数据集中包含的场景具有严重的透视畸变，导致对象的大小和外观的大的变化。该数据集还呈现了由场景对象(例如沿着行走路径的室内植物)引起的严重遮挡。数据集中的视频序列由2000帧大小为320×240的帧组成，其中标记为行人的6000个实例。前800帧用于训练，剩余的1200帧用于评估。

另外，本实施例实现的硬件平台需要一张NVIDIA 1080Ti显卡(GPU加速)。

本实施例首先对数据集图片进行预处理，然后训练基于遮罩引导机制的卷积神经网络模型，最后通过该卷积神经网络模型得到图片的人群密度。具体包括4个过程：预处理、搭建模型、训练模型及密度预测。

图1是本发明实施例中人群密估计方法的流程图。

如图1所示，本发明的基于人群密度估计的卷积神经网络模型的人群密度估计方法包括如下步骤。

步骤S1，对待测图像进行预处理获得预处理图像。

本实施例中，待测图像为从ShanghaiTech、UCF_CC_50、UCF-QNRF、MALL数据集中得到的图像，由于该数据集的高分辨率，无法将图像直接输入到模型中，所以将待测图像进行预处理，即对待测图像进行降采样处理使待测图像的分辨率降至1024*768，提高训练速度。

步骤S2，搭建基于遮罩引导机制的卷积神经网络模型。

首先，利用现有的深度学习框架PyTorch，搭建基于遮罩引导机制的卷积神经网络模型。该基于遮罩引导机制的卷积神经网络模型是引入遮罩引导机制的卷积神经网络模型，包括遮罩引导模块、分块预测模块以及特征混合预测模块，本实施例中，遮罩引导模块即为基于遮罩引导机制的Mask前层网络，分块预测模块以及特征混合预测模块即为基于稀疏人群、稠密人群和混合人群进行人群密度预测的分块卷积神经网络。

具体地，本实施例的卷积神经网络模型的遮罩引导模块包括输入层以及遮罩网络层，分块预测模块包括稀疏人群预测网络层、稠密人群预测网络层、骨干网络层、卷积层以及池化层，特征混合预测模块包括特征混合预测层。

以下结合附图2说明本实施例的基于遮罩引导机制的卷积神经网络模型的具体结构。

图2是本发明实施例的基于遮罩引导机制卷积神经网络模型的结构示意图。

如图2所示，基于遮罩引导机制的卷积神经网络模型包括依次设置的如下结构：

(1)输入层(未在图中显示)：用于输入各个经过预处理的图像至遮罩网络层。

(2)遮罩网络层(Mask-Net)：由预训练好的遮罩R-CNN层构成，用于将预处理图片分离出稠密人群图层和稀疏人群图层，并将稀疏人群图层、稠密人群图层以及混合人群图层(即整体图)分别输入稀疏人群网络层、稠密人群网络层以及骨干网络层。

(3)稀疏人群网络层(Individual-Net)：用于对稀疏人群图层进行处理，使用U型深层网络学习稀疏人群的人体形状进行计数，该神经网络层使用编码器解码器结构，输出稀疏人群特征图F_I。

(4)稠密人群网络层(Crowed-Net)：用于对稠密人群图层进行处理，使用相对小的过滤器(3*3和5*5)，使用五个卷积层和两个最大池化层，输出稠密人群特征图F_C。

图3是本发明实施例的骨干网络层的结构图。

(5)骨干网络层：用于对将混合图层，即整体图片进行处理，如图3所示，骨干网络层使用在ImageNet预训练的ResNet结构，输出整体人群特征图F_B。

本实施例中，骨干网络层的ResNet结构包括卷积层1、卷积层2、卷积层3、卷积层4、后盾卷积层1、后盾卷积层2。卷积层1的卷积核大小为7×7，卷积层数为64，该卷积层叠加1次；卷积层2包括一个卷积核大小为1×1，卷积层数为64的卷积层，一个卷积核大小为3×3，卷积层数为64的卷积层以及一个卷积核大小为1×1，卷积层数为256的卷积层，卷积层2的卷积层均叠加3次；卷积层3包括一个卷积核大小为1×1，卷积层数为128的卷积层，一个卷积核大小为3×3，卷积层数为128的卷积层以及一个卷积核大小为1×1，卷积层数为512的卷积层，卷积层3的卷积层均叠加4次；卷积层4包括一个卷积核大小为1×1，卷积层数为256的卷积层，一个卷积核大小为3×3，卷积层数为256的卷积层以及一个卷积核大小为1×1，卷积层数为1024的卷积层，卷积层4的卷积层均叠加23次；后盾卷积层1的卷积核大小为3×3，卷积层数为512，该卷积层叠加1次；后盾卷积层2的卷积核大小为3×3，卷积层数为128，该卷积层叠加1次。

(6)特征混合和预测层：使用两步混合策略去混合稀疏特征图、稠密特征图和整体人群特征图，即将稀疏人群特征图与整体人群特征图混合以及将稠密人群特征图与整体人群特征图混合，再对第一步得到的两个混合图像进行混合得到特征混合图像，即密度图，最后对密度图进行预测得到人群密度。

即卷积神经网络模型的工作过程为：遮罩网络层将预处理图像经过处理分层输出的稀疏人群图层、稠密人群图层以及混合人群图层分别接入稀疏人群预测网络(稀疏人群网络层)、稠密人群预测网络(稠密人群网络层)和骨干网络(骨干网络层)，然后将它们分两步混合进行综合预测得到人群密度。

步骤S3，把训练集的训练数据输入搭建好的基于遮罩引导机制的卷积神经网络模型，从而进行模型训练。

本实施例中，采用的训练集为人群数据集ShanghaiTech、UCF_CC_50、UCF-QNRF、MALL，上述人群数据集中的数据即为训练数据。采用与步骤S1相同的方法，从该数据集中获得图像；将这些图像预处理，以实现数据增强。

将上述训练集中的经过预处理的图像分批次输入搭建的卷积神经网络模型中进行训练，本实施例中，每次进入卷积神经网络模型的训练图像批次大小为1，一共迭代训练300次。

本实施例的基于遮罩引导机制的卷积神经网络模型的包含的模型优化器为Adam，学习率为十的负五次方。

模型训练过程中，每次迭代(即训练集图像通过卷积神经网络模型)后，最后一层的模型参数分别计算出损失误差(Square Loss平方差损失)，然后将计算得到的损失误差(Square Loss)反向传播，从而更新模型参数。另外，模型训练的训练完成条件与常规的卷积神经网络模型相同，即，各层的模型参数收敛后就完成训练。

即步骤S3包括如下子步骤：

步骤S3-1，将训练集中的各个训练图像依次输入构建好的卷积神经网络模型并进行一次迭代；

步骤S3-2，采用卷积神经网络模型的每次迭代的最后一层的模型参数分别计算出损失误差，

步骤S3-3，将计算得到的损失误差反向传播，从而更新卷积神经网络模型的模型参数；

步骤S3-4，重复步骤S3-2至步骤S3-3直至达到训练完成条件，得到训练后的基于遮罩引导机制的卷积神经网络模型。

经过上述迭代训练并在迭代过程中进行误差计算和反向传播的过程，即可获得训练完成的基于遮罩引导机制的卷积神经网络模型。本实施例用该训练完成的卷积神经网络模型在复杂场景下进行人群密度估计。

本实施例还提供一种基于遮罩引导的人群密度估计装置，包括预处理部以及密度预测部，密度预测部包含一个由步骤S1-S3得到的训练完成的基于遮罩引导机制的卷积神经网络模型。

步骤S4，将经过预处理得到的预处理图像输入训练完成的基于遮罩引导机制的卷积神经网络模型，即人群密度估计装置，从而通过该卷积神经网络模型得出图像的人群密度结果并输出。

具体过程为：预处理部利用ShanghaiTech、UCF_CC_50、UCF-QNRF、MALL数据集，对其数据集中的多个图像进行如步骤S1所描述的预处理，预处理后的预处理图像作为测试集，依次输入密度预测部，即训练好的基于遮罩引导机制的卷积神经网络模型，生成对应的密度图并计算得到人群密度结果。

本实施例中，训练完成的基于遮罩机制的卷积神经网络模型对该测试集的人群密度的效果及发明人对现有技术中的其他人群密度估计模型对同样的测试集进行了对比测试，结果如下表1，表2，表3，表4所示。

表1本发明的方法以及现有技术的其他方法在ShanghaiTech数据集上人群密度估计的对比测试结果

表2本发明的方法以及现有技术的其他方法在UCF_CC_50数据集上人群密度估计的对比测试结果

表3本发明的方法以及现有技术的其他方法在UCF_QNRF数据集上人群密度估计的对比测试结果

表4本发明的方法以及现有技术的其他方法在MALL数据集上人群密度估计的对比测试结果

表1～表4中，MCNN、CL、TEDNet、CANet、DUBNet等会议文章中发表的模型为现有技术中常见人群密度估计准确率较高的几种模型。表中，MAE代表平均绝对误差，MSE代表均方误差。表1～表4中，本实施例的方法即使用训练完成的基于遮罩机制的卷积神经网络模型对测试集的人群密度，对比测试的结果如表1～表4所示。如表1所示，对ShanghaiTech数据集上人群密度估计的对比测试结果中，本实施例的方法得到的估计结果的平均绝对误差(MAE)以及均方误差(MSE)均小于现有技术中的估计方法，表明了本实施例的基于遮罩机制的卷积神经网络模型能够在ShanghaiTech数据集取得很高的准确率；同样的，如表2所示，对UCF_CC_50数据集上人群密度估计的对比测试结果中，本实施例的方法得到的估计结果的平均绝对误差(MAE)小于所有现有技术中的估计方法，而均方误差(MSE)虽大于DUBNet以及SANet，但数据也十分接近，表明了本实施例的基于遮罩机制的卷积神经网络模型能够在UCF_CC_50数据集取得很高的准确率；如表3所示，对UCF_QNRF数据集上人群密度估计的对比测试结果中，本实施例的方法得到的估计结果的平均绝对误差(MAE)小于所有现有技术中的估计方法，而均方误差(MSE)虽也十分接近其他技术方法，表明了本实施例的基于遮罩机制的卷积神经网络模型能够在UCF_QNRF数据集上取得较高的准确率；如表4所示，对MALL数据集的人群密度估计的对比测试结果中，本实施例的方法得到的估计结果的平均绝对误差(MAE)以及均方误差(MSE)均小于现有技术中的估计方法，表明了本实施例的基于遮罩机制的卷积神经网络模型能够在MALL数据集上取得很高的准确率。

综上所述，上述测试过程表明，本实施例的基于遮罩引导机制的卷积神经网络模型的人群密度估计方法能够在上述数据集上均取得很高的准确率。

表1，2，3，4的结果也可以证明，相比于传统的计算机视觉方法，本实施例的方法大幅提升了目标检测的准确率，在不同检测难度、不同检测环境下均具有良好的检测精度，尤其是在复杂场景中精度更好。

实施例作用与效果

根据本发明实例提供的基于遮罩引导机制的卷积神经网络模型的人群密度估计方法及装置，该人群密度估计方法包括搭建基于遮罩引导机制的卷积神经网络模型后进行训练，然后将经过预处理的待测图像输入该训练完成的卷积神经网络模型后得到预测的人群密度，其中，该卷积神经网络模型包括遮罩引导模块以及分块预测模块，分块预测模块包括多个不同的人群密度的稠密程度相对应的预测网络层。分块预测模块能够将遮罩引导模块能将经过预处理的图像根据人群的稠密程度进行分层并输入分块预测模块，相比较于仅仅对稀疏人群或者稠密人群进行人群密度的预测，本实施例的人群密度估计方法能够将一张图片中不同稠密程度的人群进行分层预测，该预测模型的可以使模型更好的定位到人群和识别人群的密度，因此，此模型能够学习到更多的特征，更好地进行特征表达，更加适合高密度人群的人群密度估计任务，能够最终提高人群密度估计的精度，所以能够应用于通用的估计任务中。另外，该模型结构简单，不需要使用多任务训练以及度量学习等方法，因此，与现有的高精度模型相比，本实施例的模型构建快速方便，且训练过程所消耗的计算量也较小。

进一步，本实施例的人群密度估计方法中的卷积神经网络模型还包括特征混合预测模块，即使用两步混合策略将稠密人群特征图以及稀疏人群特征图进行特征混合，得到特征混合图从而可以进行人群密度的预测，使得本实施例的人群密度估计方法的精度进一步提升。

进一步，本实施例的模型结构简单，不需要使用模型混合、多任务训练以及度量学习等方法，因此，与现有的高精度模型相比，本实施例的模型构建快速方便，训练集也不需要过多数据就能够实现训练，因此训练过程可以快速完成，且训练消耗的计算资源也较少。

上述实施例仅用于举例说明本发明的具体实施方式，而本发明不限于上述实施例的描述范围。

例如，上述实施例提供了一种基于遮罩机制的卷积神经网络模型的人群密度估计方法，该方法主要包括预处理、搭建模型、训练模型及估计人群密度的步骤。然而，为了实际使用时更为方便，本发明中的训练好的模型也可以打包形成一个密度估计部，该密度估计部可以与用于对待测图像进行预处理的预处理部构成基于人群密度估计的卷积神经网络模型的人群密度估计装置，使得待测图像经过预处理部处理后由训练好的基于人群密度估计的卷积神经网络模型估计出人群密度。

Claims

1.一种基于遮罩引导的人群密度估计方法，用于估计待测图像的人群密度，其特征在于，包括如下步骤：

步骤S1，对所述待测图像进行预处理获得预处理图像；

步骤S2，搭建基于遮罩引导机制的卷积神经网络模型；

步骤S3，将包含多张训练图像的训练集输入步骤S2搭建的所述卷积神经网络模型，对该卷积神经网络模型进行训练得到训练完成的所述卷积神经网络模型；

步骤S4，将所述预处理图像输入步骤S3训练完成的所述卷积神经网络模型，得到各个所述预处理图像中的人群密度结果并进行输出，

其中，所述卷积神经网络模型包括遮罩引导模块、分块预测模块以及特征混合预测模块，

所述分块预测模块包括稀疏人群预测网络层、稠密人群预测网络层以及骨干网络层，

所述遮罩引导模块将所述预处理图像分离出稀疏人群图层、稠密人群图层以及混合人群图层并分别输入所述稀疏人群预测网络层、所述稠密人群预测网络层以及所述骨干网络层，

所述稀疏人群预测网络层对所述稀疏人群图层进行处理，使用U型深层网络学习稀疏人群的人体形状进行计数，输出稀疏人群特征图；

所述稠密人群预测网络层对所述稠密人群图层进行处理，使用过滤器，输出稠密人群特征图；

所述骨干网络层对所述混合人群图层进行处理，使用在Image预训练的ResNet结构，输出整体人群特征图，

所述特征混合预测模块包括特征混合预测层，该特征混合预测层将所述稀疏人群特征图与所述整体人群特征图混合，将稠密人群特征图与整体人群特征图混合，再对得到的两个混合图像进行混合得到特征混合图像，即密度图，最后对所述密度图进行预测得到人群密度。

2.根据权利要求1所述的基于遮罩引导的人群密度估计方法，其特征在于：

其中，步骤S1中的所述预处理为对所述待测图像进行降采样处理。

3.根据权利要求1所述的基于遮罩引导的人群密度估计方法，其特征在于：

其中，构建基于遮罩引导机制的所述卷积神经网络模型包含的模型优化器为Adam，学习率为十的负五次方，

所述步骤S3包括如下子步骤：

步骤S3-1，将所述训练集中的各个所述训练图像依次输入构建好的所述卷积神经网络模型并进行一次迭代；

步骤S3-2，采用所述卷积神经网络模型的每次迭代的最后一层的模型参数分别计算出损失误差，

步骤S3-3，将计算得到的所述损失误差反向传播，从而更新所述卷积神经网络模型的模型参数；

步骤S3-4，重复步骤S3-2至步骤S3-3直至达到训练完成条件，得到训练后的基于遮罩引导机制的所述卷积神经网络模型。

4.根据权利要求3所述的基于遮罩引导的人群密度估计方法，其特征在于：

其中，所述训练完成条件为卷积神经网络模型的各层的所述模型参数收敛。

5. 一种基于遮罩引导的人群密度估计装置，其特征在于，包括：

预处理部，对待测图像进行预处理获得预处理图像；以及

密度预测部，用于从所述预处理图像中预测出人群密度结果并进行输出，该密度预测部包含一个训练完成的基于遮罩引导机制的卷积神经网络模型，

所述遮罩引导模块将所述预处理图像根据所述人群密度的稠密程度进行分层，并输入所述分块预测模块中的多个与所述稠密程度相对应的预测网络层，