CN112818907A

CN112818907A - 一种基于课程学习机制的人群密度估计方法及装置

Info

Publication number: CN112818907A
Application number: CN202110198582.9A
Authority: CN
Inventors: 鲍涟漪; 李文熙; 冯瑞
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2021-02-22
Filing date: 2021-02-22
Publication date: 2021-05-18

Abstract

本发明提供了一种基于课程学习机制的人群密度估计方法及装置，用于对与人群场景相关的待测图像进行人群密度估计得到人群密度结果，其特征在于，包括如下步骤：对训练数据集预处理得到预处理数据；构建基于课程学习机制的卷积神经网络模型，该卷积神经网络模型中包括主网络模块以及辅助网络模块；将预处理数据输入卷积神经网络模型，主网络模块从预处理数据中提取到预测密度图，辅助网络模块从预处理数据中提取到权重图；根据实际值、预测密度图以及权重图更新训练卷积神经网络模型得到训练好的卷积神经网络模型，并将其中的主网络模块作为人群密度估计模型；对待测图像预处理并输入人群密度估计模型从而得到人群密度结果。

Description

一种基于课程学习机制的人群密度估计方法及装置

技术领域

本发明属于数据识别领域，具体涉及一种基于课程学习机制的人群密度估计方法及装置。

背景技术

近年来，由于机器学习技术的发展以及计算机硬件性能的高速提升，计算机视觉、自然语言处理和语音检测等应用领域都取得了突破性进展。而人群密度估计作为计算机视觉领域一项基础的任务，其精度也得到了大幅提升。

其中，人群密度估计任务的具体过程为：对于拍摄的图片或者录制的视频以及摄像头下的人群场景，生成密度图用以表示单位面积内人群的密度，再以该密度图为基础，将密度图中单位面积人群密度加和，得到最终整体场景的人群密度，或者是整个视频的人群密度变化。

人群密度估计对计算机视觉领域和实际应用具有重要意义，在过去几十年里激励了大批研究人员密切关注并投入研究。随着机器学习的发展，人群密度估计课题相关的研究活动有增无减，每年都有最新的研究成果和实际应用发表和公布。不仅如此，人群密度估计也被应用到很多实际任务中，例如智能视频监控、人群态势分析等。

然而，现有的多种人群密度估计方法的检测准确率仍然较低从而无法应用在实际通用的估计任务中。因此，人群密度估计还远未被完美解决，仍旧是重要的挑战性的问题。而为了提高人群密度估计的准确率，常用的方法是增加预测模型训练时的训练数据。但是，收集大量的训练数据是一件极其困难的工作，而大量的训练数据又会导致模型训练时间延长，甚至有可能导致训练无法实际完成。

发明内容

为解决上述问题，提供一种结构简单、训练数据需求少的人群密度估计方法及装置，本发明采用了如下技术方案：

本发明提供了一种基于课程学习机制的人群密度估计方法，用于对与人群场景相关的待测图像进行人群密度估计得到人群密度结果，其特征在于，包括如下步骤：步骤S1，对人群密度相关的训练数据集进行预处理得到预处理数据；步骤S2，构建基于课程学习机制的卷积神经网络模型，该卷积神经网络模型中包括主网络模块以及带有课程学习机制的辅助网络模块；步骤S3，将预处理数据输入卷积神经网络模型，主网络模块对预处理数据进行特征提取得到预测密度图，辅助网络模块对预处理数据进行特征提取得到权重图；步骤S4，根据训练数据集对应的人群密度的实际值、预测密度图以及权重图构建损失函数，根据该损失函数进行反向传播从而更新训练卷积神经网络模型，直到卷积神经网络模型收敛从而得到训练好的卷积神经网络模型，并其中的主网络模块作为人群密度估计模型；步骤S5，对待测图像进行预处理并输入人群密度估计模型得到对应的密度图，根据该密度图得到人群密度结果。

根据本发明提供的一种基于课程学习机制的人群密度估计方法，还可以具有这样的技术特征，其中，辅助网络包括1个卷积层、1个最大池化层、3个第一残差块、4个第二残差块、6个第三残差块以及2个全连接层。

根据本发明提供的一种基于课程学习机制的人群密度估计方法，还可以具有这样的技术特征，其中，第一残差块包括卷积核大小为1×1、通道数为64的卷积层、卷积核大小为3×3、通道数为64的卷积层以及卷积核大小为1×1，通道数为256的卷积层，卷积层中的滑动步长均为1，第二残差块包括卷积核大小为1×1、通道数为128的卷积层、卷积核大小为3×3、通道数为128的卷积层以及卷积核大小为1×1、通道数为512的卷积层，卷积层中的滑动步长均为2，第三残差块包括卷积核大小为1×1、通道数为256的卷积层、卷积核大小为3×3、通道数为256的卷积层以及卷积核大小为1×1、通道数为1024的卷积层，卷积层中的滑动步长均为1。

根据本发明提供的一种基于课程学习机制的人群密度估计方法，还可以具有这样的技术特征，其中，步骤S3包括如下子步骤：步骤S3-1，将预处理数据输入卷积神经网络模型；步骤S3-2，主网络模块对预处理数据进行特征提取得到对应的特征图，并利用高斯核函数处理得到初始预测密度图；步骤S3-3，利用预定的比例因子将初始预测密度图按比例放大得到预测密度图；步骤S3-4，辅助网络模块对预处理数据进行特征提取得到对应的特征图，利用第一激活函数对该特征图进行处理得到处理后特征图，基于该处理后特征图利用预定的第二激活函数f(x)得到权重图：

式中，x为处理后特征图中的特征，T为可调整的权重。

根据本发明提供的一种基于课程学习机制的人群密度估计方法，还可以具有这样的技术特征，其中，步骤S4中损失函数根据实际值与预测密度图之间的平方误差以及权重图构建，损失函数包括主损失函数L_Main以及辅助损失函数L_Tutor：

式中，H，W为预处理数据的高以及宽，w_x，y为权重图，F(X,Θ)为主网络模块，Θ为主网络模块的参数，X为预处理数据，GT为预处理数据中的真实标记，e_x,y为平方误差，M为边际超参数，主网络模块根据主损失函数训练更新，辅助网络模块根据辅助损失函数训练更新。

根据本发明提供的一种基于课程学习机制的人群密度估计方法，还可以具有这样的技术特征，其中，步骤S2中主网络模块为MCNN、CSRNet、U-Net或DenseNet中的任意一种。

本发明提供了一种基于课程学习机制的人群密度估计装置，用于对人群场景相关的待测图像进行人群密度估计得到人群密度结果，其特征在于，包括：数据预处理模块，对人群密度相关的训练数据集进行预处理得到预处理数据；模型构建模块，构建基于课程学习机制的卷积神经网络模型，该卷积神经网络模型中包括主网络模块以及带有课程学习机制的辅助网络模块；特征提取模块，将预处理数据输入卷积神经网络模型，主网络模块对预处理数据进行特征提取得到预测密度图，辅助网络模块对预处理数据进行特征提取得到权重图；训练更新模块，根据训练数据集对应的人群密度的实际值、预测密度图以及权重图构建损失函数，根据该损失函数进行反向传播从而更新训练卷积神经网络模型，直到卷积神经网络模型收敛从而得到训练好的卷积神经网络模型，并将其中的主网络模块作为人群密度估计模型；以及人群密度估计模块，对待测图像进行预处理并输入人群密度估计模型得到对应的密度图，根据该密度图得到人群密度结果。

发明作用与效果

根据本发明的一种基于课程学习机制的人群密度估计方法及装置，由于主网络模块对预处理数据进行特征提取得到预测密度图，辅助网络模块对预处理数据进行特征提取得到权重图，然后根据训练数据集对应的人群密度的实际值、预测密度图以及权重图构建损失函数，根据该损失函数进行反向传播从而更新训练卷积神经网络模型，直到卷积神经网络模型收敛从而得到训练好的卷积神经网络模型，从而实现了通过权重图来调整主网络训练进度的目的，使得到的训练模型能够更好的定位到人群和识别人群的密度，因此，最后实际应用的人群密度估计模型能够学习到更多的特征，从而更好地进行特征表达，更加适合不同密度人群的人群密度估计任务，最终达到提高人群密度估计精度的目的。另外，由于卷积神经网络模型中只包括主网络模块以及辅助网络模块，因此，卷积神经网络模型整体结构简单，且不需要使用模型混合、多任务训练以及度量学习等方法，与现有的高精度模型相比，本发明中的卷积神经网络模型模型构建快速方便，且训练过程消耗的计算量也较小，可以应用在实际场景中，并且通用性好。

附图说明

图1为本发明实施例的一种基于课程学习机制的人群密度估计方法的流程图；

图2为本发明实施例的步骤S3子步骤的流程图；

图3为本发明实施例的卷积神经网络模型工作过程的流程示意图；

图4为本发明实施例的实验结果对比图；

图5为本发明实施例的一种基于课程学习机制的人群密度估计装置的结构框图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下结合实施例及附图对本发明的一种基于课程学习机制的人群密度估计方法及装置作具体阐述。

<实施例>

本实施例中的一种基于课程学习机制的人群密度估计方法及装置的训练在NVIDIA 1080Ti显卡辅助下完成。

图1为本发明实施例的一种基于课程学习机制的人群密度估计方法的流程图。

如图1所示，一种基于课程学习机制的人群密度估计方法包括如下步骤：

步骤S1，对人群密度相关的训练数据集进行预处理得到预处理数据。

本实施例中，人群密度相关的训练数据集为ShanghaiTech中B部分的数据以及Fudan-ShanghaiTech(简称FDST)。

其中，ShanghaiTech数据集包含了1198张带标记的图片，总共有330165个人，他们的头部中心都有标记。数据集由两部分组成，包括A部分和B部分。A部分的图片来自互联网，B部分的图片来自上海大都市繁华的街道。A部分的场景更加拥挤，B部分的场景更加稀疏。由于B部分的数据内容更接近真实场景，因此，本实施例中只选用B部分数据作为训练数据集。在B部分中，716幅图像用于训练，400幅图像用于测试。

另外，FDST数据集是最大的人群密度视频数据集。它包含100个视频序列，由13个不同场景的监控摄像头拍摄。训练集中有来自60个不同视频的总共9000个带标记的图像帧，测试集包括来自40个不同视频的总共6000个图像帧。

本实施例中，对训练数据集进行正则化处理从而保证输入图像的分布一致。

步骤S2，构建基于课程学习机制的卷积神经网络模型，该卷积神经网络模型中包括主网络模块以及带有课程学习机制的辅助网络模块。

本实施例中，利用深度学习框架PyTorch来搭建基于课程学习机制的卷积神经网络模型。

其中，步骤S2中主网络模块为MCNN、CSRNet、U-Net或DenseNet中的任意一种。

另外，辅助网络参考ResNet网络的结构，包含多个卷积结构，总共有43层，具体包括1个卷积层、1个最大池化层、3个第一残差块、4个第二残差块、6个第三残差块以及2个全连接层。

具体地，第一层为卷积核大小为7×7、滑动步长为2、输出通道数为64的卷积层，第二层为卷积核大小为3×3、滑动步长为2的最大池化层，第三层至第十一层由3个第一残差块组成，第十二层至第二十三层由4个第二残差块组成，第二十四层至第四十一层由6个第三残差块组成，第四十二层为大小为1×1、通道数为128、滑动步长为1的全连接层，第四十三层为大小为1×1、通道数为1、滑动步长为1的全连接层。

其中，第一残差块包括卷积核大小为1×1、通道数为64的卷积层、卷积核大小为3×3、通道数为64的卷积层以及卷积核大小为1×1，通道数为256的卷积层，卷积层中的滑动步长均为1。

第二残差块包括卷积核大小为1×1、通道数为128的卷积层、卷积核大小为3×3、通道数为128的卷积层以及卷积核大小为1×1、通道数为512的卷积层，卷积层中的滑动步长均为2。

第三残差块包括卷积核大小为1×1、通道数为256的卷积层、卷积核大小为3×3、通道数为256的卷积层以及卷积核大小为1×1、通道数为1024的卷积层，卷积层中的滑动步长均为1。

步骤S3，将预处理数据输入卷积神经网络模型，主网络模块对预处理数据进行特征提取得到预测密度图，辅助网络模块对预处理数据进行特征提取得到权重图。

图2为本发明实施例的步骤S3子步骤的流程图；

图3为本发明实施例的卷积神经网络模型工作过程的流程示意图。

如图2以及图3所示，步骤S3包括如下子步骤：

步骤S3-1，将预处理数据输入卷积神经网络模型。

步骤S3-2，主网络模块(即Main Network)对预处理数据进行特征提取得到对应的特征图，并利用高斯核函数处理得到初始预测密度图D^GT。

式中，δ(x-x_i)为图像中的人头中心标记点，G_σ为高斯核函数，参数σ为15，C为图像中人头标注点的个数。

步骤S3-3，利用预定的比例因子将初始预测密度图按比例放大得到预测密度图。

本实施例中，比例因子为1000。

步骤S3-4，辅助网络模块(即TutorNet)对预处理数据进行特征提取得到对应的特征图，利用第一激活函数对该特征图进行处理得到处理后特征图，基于该处理后特征图利用预定的第二激活函数f(x)得到权重图：

式中，x为处理后特征图中的特征，T为可调整的权重。

其中，第一激活函数为常规的激活函数(如Relu、Sigmoid等)，第二激活函数f(x)为特定设计的激活函数。

另外，步骤S3-1至步骤S3-4为前向传播。

步骤S4，根据训练数据集对应的人群密度的实际值、预测密度图以及权重图构建损失函数，根据该损失函数进行反向传播从而更新训练卷积神经网络模型，直到卷积神经网络模型收敛从而得到训练好的卷积神经网络模型，并其中的主网络模块作为人群密度估计模型。

其中，损失函数根据实际值与预测密度图之间的平方误差以及权重图构建。

损失函数包括主损失函数L_Main以及辅助损失函数L_Tutor：

式中，H，W为预处理数据的高以及宽，w_x,y为权重图，F(X，Θ)为主网络模块，Θ为主网络模块的参数，X为预处理数据，GT为预处理数据中的真实标记，e_x，y为平方误差，M为边际超参数。本实施例中，M设为0.8.

主网络模块根据主损失函数训练更新。

辅助网络模块根据辅助损失函数训练更新。

步骤S5，对待测图像进行预处理并输入人群密度估计模型得到对应的密度图，根据该密度图得到人群密度结果。

为了验证本发明的基于课程学习机制的人群密度估计方法的有效性，利用ShanghaiTech中B部分的测试集以及FDST的测试集上进行测试，通过平均绝对误差(MAE)以及均方误差(MSE)进行衡量，最后发现主网络模块为DenseNet时，MAE以及MSE最小，因此，后续与现有的人群密度估计方法进行实验对比时，以DenseNet主网络模块为基础进行实验。

另外，本实施例中在主网络模块为DenseNet的基础上结合辅助网络模块

与现有的人群密度估计方法MCNN、Switching-CNN、L2R、ACSCP、DRSAN、CSRNet、ADCrowdNet以及BL进行实验对比，实验结果如图4所示。

从图4可以看出，本发明的基于课程学习机制的人群密度估计方法的MAE以及MSE最小，分别为7.0以及12.2，从而证明本发明的基于课程学习机制的人群密度估计方法预测得到人群密度结果更加准确。

本实施例的基于课程学习机制的人群密度估计装置1包括数据预处理模块11、模型构建模块12、特征提取模块13、训练更新模块14以及人群密度估计模块15(如图5所示)。本实施例中，基于课程学习机制的人群密度估计装置基于本发明的基于课程学习机制的人群密度估计方法，用于对人群场景相关的待测图像进行人群密度估计，并可应用于嵌入式设备。

数据预处理模块11对人群密度相关的训练数据集进行预处理得到预处理数据。

模型构建模块12构建基于课程学习机制的卷积神经网络模型，该卷积神经网络模型中包括主网络模块以及带有课程学习机制的辅助网络模块。

特征提取模块13将预处理数据输入卷积神经网络模型，主网络模块对预处理数据进行特征提取得到预测密度图，辅助网络模块对预处理数据进行特征提取得到权重图。

训练更新模块14根据训练数据集对应的人群密度的实际值、预测密度图以及权重图构建损失函数，根据该损失函数进行反向传播从而更新训练卷积神经网络模型，直到卷积神经网络模型收敛从而得到训练好的卷积神经网络模型，并将其中的主网络模块作为人群密度估计模型。

人群密度估计模块15对待测图像进行预处理并输入人群密度估计模型得到对应的密度图，根据该密度图得到人群密度结果。

实施例作用与效果

根据本实施例提供的基于课程学习机制的人群密度估计方法及装置，由于主网络模块对预处理数据进行特征提取得到预测密度图，辅助网络模块对预处理数据进行特征提取得到权重图，然后根据训练数据集对应的人群密度的实际值、预测密度图以及权重图构建损失函数，根据该损失函数进行反向传播从而更新训练卷积神经网络模型，直到卷积神经网络模型收敛从而得到训练好的卷积神经网络模型，从而实现了通过权重图来调整主网络训练进度的目的，使得到的训练模型能够更好的定位到人群和识别人群的密度，因此，最后实际应用的人群密度估计模型能够学习到更多的特征，从而更好地进行特征表达，更加适合不同密度人群的人群密度估计任务，最终达到提高人群密度估计精度的目的。另外，由于卷积神经网络模型中只包括主网络模块以及辅助网络模块，因此，卷积神经网络模型整体结构简单，且不需要使用模型混合、多任务训练以及度量学习等方法，与现有的高精度模型相比，本发明中的卷积神经网络模型模型构建快速方便，且训练过程消耗的计算量也较小，可以应用在实际场景中，并且通用性好。

另外，在实施例中，由于主网络模块可以为MCNN、CSRNet、U-Net或DenseNet中的任意一种，因此辅助网络模块可以针对不同的主网络模块进行训练监控并调整训练进度，增强了卷积神经网络模型的通用性。

上述实施例仅用于举例说明本发明的具体实施方式，而本发明不限于上述实施例的描述范围。

Claims

1.一种基于课程学习机制的人群密度估计方法，用于对与人群场景相关的待测图像进行人群密度估计得到人群密度结果，其特征在于，包括如下步骤：

步骤S1，对人群密度相关的训练数据集进行预处理得到预处理数据；

步骤S2，构建基于课程学习机制的卷积神经网络模型，该卷积神经网络模型中包括主网络模块以及带有课程学习机制的辅助网络模块；

步骤S3，将所述预处理数据输入所述卷积神经网络模型，所述主网络模块对所述预处理数据进行特征提取得到预测密度图，所述辅助网络模块对所述预处理数据进行特征提取得到权重图；

步骤S4，根据所述训练数据集对应的人群密度的实际值、所述预测密度图以及所述权重图构建损失函数，根据该损失函数进行反向传播从而更新训练所述卷积神经网络模型，直到所述卷积神经网络模型收敛从而得到训练好的卷积神经网络模型，并将其中的主网络模块作为人群密度估计模型；

步骤S5，对所述待测图像进行预处理并输入所述人群密度估计模型得到对应的密度图，根据该密度图得到所述人群密度结果。

2.根据权利要求1所述的基于课程学习机制的人群密度估计方法，其特征在于：

其中，所述辅助网络包括1个卷积层、1个最大池化层、3个第一残差块、4个第二残差块、6个第三残差块以及2个全连接层。

3.根据权利要求2所述的基于课程学习机制的人群密度估计方法，其特征在于：

其中，所述第一残差块包括卷积核大小为1×1、通道数为64的卷积层、卷积核大小为3×3、通道数为64的卷积层以及卷积核大小为1×1，通道数为256的卷积层，所述卷积层中的滑动步长均为1，

所述第二残差块包括卷积核大小为1×1、通道数为128的卷积层、卷积核大小为3×3、通道数为128的卷积层以及卷积核大小为1×1、通道数为512的卷积层，所述卷积层中的滑动步长均为2，

所述第三残差块包括卷积核大小为1×1、通道数为256的卷积层、卷积核大小为3×3、通道数为256的卷积层以及卷积核大小为1×1、通道数为1024的卷积层，所述卷积层中的滑动步长均为1。

4.根据权利要求1所述的基于课程学习机制的人群密度估计方法，其特征在于：

其中，所述步骤S3包括如下子步骤：

步骤S3-1，将所述预处理数据输入所述卷积神经网络模型；

步骤S3-2，所述主网络模块对所述预处理数据进行特征提取得到对应的特征图，并利用高斯核函数处理得到初始预测密度图；

步骤S3-3，利用预定的比例因子将初始预测密度图按比例放大得到所述预测密度图；

步骤S3-4，所述辅助网络模块对所述预处理数据进行特征提取得到对应的特征图，利用第一激活函数对该特征图进行处理得到处理后特征图，基于该处理后特征图利用预定的第二激活函数f(x)得到所述权重图，

式中，x为所述处理后特征图中的特征，T为可调整的权重。

5.根据权利要求1所述的基于课程学习机制的人群密度估计方法，其特征在于：

其中，所述步骤S4中所述损失函数根据所述实际值与所述预测密度图之间的平方误差以及所述权重图构建，

所述损失函数包括主损失函数L_Main以及辅助损失函数L_Tutor：

式中，H，W为所述预处理数据的高以及宽，w_x,y为所述权重图，F(X,Θ)为所述主网络模块，Θ为所述主网络模块的参数，X为所述预处理数据，GT为所述预处理数据中的真实标记，e_x,y为所述平方误差，M为边际超参数，

所述主网络模块根据所述主损失函数训练更新，

所述辅助网络模块根据所述辅助损失函数训练更新。

6.根据权利要求1所述的基于课程学习机制的人群密度估计方法，其特征在于：

其中，所述步骤S2中所述主网络模块为MCNN、CSRNet、U-Net或DenseNet中的任意一种。

7.一种基于课程学习机制的人群密度估计装置，用于对人群场景相关的待测图像进行人群密度估计得到人群密度结果，其特征在于，包括：

数据预处理模块，对人群密度相关的训练数据集进行预处理得到预处理数据；

模型构建模块，构建基于课程学习机制的卷积神经网络模型，该卷积神经网络模型中包括主网络模块以及带有课程学习机制的辅助网络模块；

特征提取模块，将所述预处理数据输入所述卷积神经网络模型，所述主网络模块对所述预处理数据进行特征提取得到预测密度图，所述辅助网络模块对所述预处理数据进行特征提取得到权重图；

训练更新模块，根据所述训练数据集对应的人群密度的实际值、所述预测密度图以及所述权重图构建损失函数，根据该损失函数进行反向传播从而更新训练所述卷积神经网络模型，直到所述卷积神经网络模型收敛从而得到训练好的卷积神经网络模型，并将其中的主网络模块作为人群密度估计模型；以及

人群密度估计模块，对所述待测图像进行预处理并输入所述人群密度估计模型得到对应的密度图，根据该密度图得到所述人群密度结果。