CN110084155A

CN110084155A - 一种密集人数计数的方法、装置、设备以及存储介质

Info

Publication number: CN110084155A
Application number: CN201910294403.4A
Authority: CN
Inventors: 张莉; 陆金刚; 王邦军; 周伟达
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2019-04-12
Filing date: 2019-04-12
Publication date: 2019-08-02
Anticipated expiration: 2039-04-12
Also published as: CN110084155B

Abstract

本发明公开了一种密集人群计数的方法、装置、设备以及计算机可读存储介质，包括：将待测试图像输入预先完成训练的目标残差多尺度卷积神经网络，其中，所述目标残差多尺度卷积神经网络中的两个预选卷积层之间设有残差单元；利用所述目标残差多尺度卷积神经网络对所述待测试图像进行处理，得到所述待测试图像的估计密度图并输出；依据所述目标估计密度图，确定所述待测试图像中的人数。本发明所提供的方法、装置、设备以及计算机可读存储介质，利用残差单元有效解决了网络的退化问题，从而有效降低了密级人群计数的误差。

Description

一种密集人数计数的方法、装置、设备以及存储介质

技术领域

本发明涉及图像处理技术领域，特别是涉及一种密级人数计数的方法、装置、设备以及计算机可读存储介质。

背景技术

计算机视觉中的人群计数任务就是自动估算图像或视频中的人数。为了在诸如公众集会和体育赛事等许多场景中帮助控制人群数量和公共安全，准确的人群计数显得越来越重要。传统的密集人群计数方法包括两种：基于检测的方法和基于回归的方法。但是基于检测的方法会受到人群遮挡的影响，而基于回归的方法往往会受到视角和尺度急剧变化的影响。针对以上两种传统方法的不足，基于深度学习卷积神经网络的方法被用于密集人群图像的估计中。

目前主流的估计方法采用了密度图的思想，即设计一个神经网络，网络的输入为原始图像，而输出为人群的密度图。这类方法对密集人群图像处理的第一步，就是要通过一个高斯滤波器，根据图像的真实值ground-truth得到图像对应的密度图。Zhang等人在“Crowd counting via scale-adaptive convolutional neural network”中提出了一个多尺度卷积神经网络(SaCNN)。多尺度卷积神经网络以VGG16网络框架为主干，并且在此基础上，引入了多尺度的思想，即将分辨率相同、尺度不同的特征图在通道数上进行串联。该方法明显改善了以上两种传统方法的问题。然而，由于网络层数偏多，在训练时可能会引起退化问题，即在反向传播时会出现梯度消失或者爆炸，进而导致效果不佳。

综上所述可以看出，如何使多层数的卷积神经网络在训练时不引起退化问题是目前有待解决的问题。

发明内容

本发明的目的是提供一种密集人群计数的方法、装置、设备以及计算机可读存储介质，以便解决现有技术中多层数的卷积神经网络在训练时会引起退化问题的问题。

为解决上述技术问题，本发明提供一种密集人群计数的方法，包括：将待测试图像输入预先完成训练的目标残差多尺度卷积神经网络，其中，所述目标残差多尺度卷积神经网络中的两个预选卷积层之间设有残差单元；利用所述目标残差多尺度卷积神经网络对所述待测试图像进行处理，得到所述待测试图像的估计密度图并输出；依据所述目标估计密度图，确定所述待测试图像中的人数。

优选地，还包括：

获取预先构建的人群图像数据集，其中，所述人群图像数据集包括i张人群图像，与每张人群图像分别对应的人头坐标点图；

利用高斯滤波器对所述每张人群图像进行滤波处理后，利用所述每张人群图像的初始化为零矩阵的密度图和所述每张人群图像的人头中心坐标，确定所述每张人群图像的真实密度图；

利用所述每张人群图像和所述每张人群图像的人的真实密度图，构建目标训练集；

在多尺度卷积神经网络的两个预设卷积层之间添加所述残差单元，得到初始残差多尺度卷积神经网络模型；

利用所述目标训练集对所述初始残差多尺度卷积神经网络模型进行训练，得到完成训练后的目标残差多尺度卷积神经网络。

优选地，所述在多尺度卷积神经网络的两个预设卷积层之间添加所述残差单元，得到初始残差多尺度卷积神经网络模型包括：

在所述多尺度卷积神经网络的第五卷积层和第六卷积层之间添加一个所述残差单元，得到初始残差尺度卷积神经网络。

优选地，所述初始残差尺度卷积神经网络的网络结构包括：

第一卷积层，第二卷积层，第三卷积层，第四卷积层，第五卷积层，第六卷积层，反卷积层，第七卷积层，第八卷积层和第九卷积层；

其中，所述第一卷积层、所述第二卷积层、所述第三卷积层和所述第四卷积层均采用VGG16网络结构；

所述第一卷积层至所述第五卷积层之间均采用2×2区域，步长为2的最大池化，激活函数采用ReLU函数；

所述第五卷积层和所述第六卷积层之间采用3×3区域，步长为1 的最大池化；

所述第五卷积层输出的特征图和所述第六卷积层输出的特征图在通道上串联；

所述第五卷积层和所述第六卷积层之间设有所述残差单元；

所述第四卷积层输出的特征图和所述反卷积层采用得到的特征图在通道上串联；

所述第九卷积层的卷积核为1×1，并将所述第九卷积层输出的特征图作为所述初始残差尺度卷积神经网络的网络输出。

优选地，所述依据所述目标估计密度图，确定所述待测试图像中的人数包括：

根据所述目标估计密度图中所有像素值的和，确定所述待测试图像中的人数。

本发明还提供了一种密集人群计数的装置，包括：

输入模块，用于将待测试图像输入预先完成训练的目标残差多尺度卷积神经网络，其中，所述目标残差多尺度卷积神经网络中的两个预选卷积层之间设有残差单元；

输出模块，利用所述目标残差多尺度卷积神经网络对所述待测试图像进行处理，得到所述待测试图像的估计密度图并输出；

确定模块，用于依据所述目标估计密度图，确定所述待测试图像中的人数。

优选地，还包括：训练模块，用于获取预先构建的人群图像数据集，其中，所述人群图像数据集包括i张人群图像，与每张人群图像分别对应的人头坐标点图；

优选地，所述确定模块具体用于：

本发明还提供了一种密集人群计数的设备，包括：

存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现上述一种密集人群计数的方法的步骤。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述一种密集人群计数的方法的步骤。

本发明所提供的密集人群计数的方法，将待测试图像输入至预先完成训练的目标残差多尺度卷积神经网络中，利用所述目标残差多尺度卷积神经网络对所述待测试图像进行处理，得到所述待测试图像的目标估计密度图，并将所述目标估计密度图输出。根据所述目标估计密度图，确定所述待测试图像中的人数。本发明所提供的目标残差多尺度卷积神经网络中存在最优化网络层和冗余层，通过残差单元使冗余层网络恒等映射上一层的输入，从而使有冗余层的网络效果和没有冗余层的网络效果相同，有效解决了网络的退化问题，从而有效降低了密级人群计数的误差。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的密集人群计数的方法的第一种具体实施例的流程图；

图2为本发明所提供的密集人群计数的方法的第二种具体实施例的流程图；

图3为残差单元的结构示意图；

图4为本发明所提供的初始残差多尺度卷积神经网络的网络结构示意图；

图5为本发明实施例提供的一种密集人群计数的装置的结构框图。

具体实施方式

本发明的核心是提供一种密集人群计数的方法、装置、设备以及计算机可读存储介质，利用残差单元有效解决了网络的退化问题，从而提高了密级人群计数的准确性。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明所提供的密集人群计数的方法的第一种具体实施例的流程图；具体操作步骤如下：

步骤S101：将待测试图像输入预先完成训练的目标残差多尺度卷积神经网络，其中，所述目标残差多尺度卷积神经网络中的两个预选卷积层之间设有残差单元；

对所述目标残差多尺度卷积神经网络的训练过程包括：

获取预先采集的人群图像数据集其中，X_i为所述人群图像数据集的大小为m*n的第i张图像，Y_i为所述第i张图像对应的大小为m*n的人头坐标点图，N为所述人群图像数据集中图像总数。

利用高斯滤波器G对所述人群图像数据集中的每幅图像X_i进行滤波处理后，利用所述每幅图像X_i的初始化为零矩阵的密度图M_i和人头中心坐标，确定所述每幅图像X_i的真实密度图M'_i。当所述高斯滤波器的大小为k×k，k一般为奇数，将所述高斯滤波器G和初始化为零矩阵的密度图M_i在以人头坐标为中心的k×k的区域直接按像素值相加，这样得到真实密度图M'_i。

利用所述每幅图像X_i的真实密度图M'_i，构建目标训练集在多尺度卷积神经网络的两个预设卷积层之间添加所述残差单元，得到初始残差多尺度卷积神经网络模型。利用所述目标训练集对所述初始残差多尺度卷积神经网络模型进行训练，得到完成训练后的目标残差多尺度卷积神经网络。

在本实施例中，对所述初始残差多尺度卷积神经网络模型进行训练时，可以设定训练轮数，例如2000轮，轮数运行结束则认为训练结束。

步骤S102：利用所述目标残差多尺度卷积神经网络对所述待测试图像进行处理，得到所述待测试图像的估计密度图并输出；

步骤S103：依据所述目标估计密度图，确定所述待测试图像中的人数。

本实施例所提供的密集人群计数的方法，改进了现有技术中密级人群计数网络层数过多，在训练时会引起退化问题的缺点；提出基于残差多尺度卷积神经网络的密集人群计数方法，有效解决了网络的退化问题，从而有效提高了密级人群计数的准确率。

基于上述实施例，在本实施例中，在多尺度卷积神经网络的第五卷积层和第六卷积层之间添加一个所述残差单元，得到初始残差尺度卷积神经网络。对所述初始残差尺度卷积神经网络进行训练后得到目标残差尺度卷积神经网络，从而利用所述目标残差尺度卷积神经网络确认待检测图像的估计密度图。

步骤S201：将待测试图像输入至目标残差多尺度卷积神经网络，其中，所述目标残差多尺度卷积神经网络是对预先构建的初始残差多尺度卷积神经网络进行训练得到的；所述初始残差多尺度卷积神经网络是在多尺度卷积神经网络的第五卷积层和第六卷积层之间添加一个残差单元得到的；

所述残差单元的结构图如图3所示。所述初始残差多尺度卷积神经网络(RMsCNN)的网络结构如图4所示，包括第一卷积层，第二卷积层，第三卷积层，第四卷积层，第五卷积层，第六卷积层，反卷积层，第七卷积层，第八卷积层和第九卷积层。其中，所述第一卷积层、所述第二卷积层、所述第三卷积层和所述第四卷积层均采用 VGG16网络结构；所述第一卷积层至所述第五卷积层之间均采用2× 2区域，步长为2的最大池化，激活函数采用ReLU函数；所述第五卷积层和所述第六卷积层之间采用3×3区域，步长为1的最大池化；所述第五卷积层输出的特征图和所述第六卷积层输出的特征图在通道上串联；所述第五卷积层和所述第六卷积层之间设有所述残差单元；所述第四卷积层输出的特征图和所述反卷积层采用得到的特征图在通道上串联；所述第九卷积层的卷积核为1×1，并将所述第九卷积层输出的特征图作为所述初始残差尺度卷积神经网络的网络输出。

在本实施例中对所述初始残差多尺度卷积神经网络进行训练时，可以选用Shanghai tech数据集作为人群图像数据集。所述Shanghai tech数据集一共包含1198张标注的图像以及330165个人头中心标注。所述Shanghai tech数据集被划分为两个部分的数据集。其中，第一部分包括：482张随机从网上爬取的图像，其中300张用于训练，182 张用于测试。第二部分包括：716张在上海街头拍取的图像，其中400 张用于训练，316张用于测试。在本实施例中，可以所述Shanghai tech 数据集的第二部分设定为训练集其中，X_i为训练集第i 张图像，大小为768×1024，Y_i为第i张训练图像对应的人头坐标点图，大小同样为768×1024，400为训练集中图像总数。

步骤S202：利用所述目标残差多尺度卷积神经网络对所述待测试图像进行处理，得到所述待测试图像的估计密度图并输出；

步骤S203：根据所述目标估计密度图中所有像素值的和，确定所述待测试图像中的人数。

将所述待测试图像T输入至所述目标残差多尺度卷积神经网络，得到所述待测试图像T的估计密度图后，计算所述估计密度图中所有像素值的和，得到所述待测试图像中的人数

通过本实施例所提供的目标残差多尺度卷积神经网络，增加了残差单元，用以解决网络的退化问题。将所述目标残差多尺度卷积神经网络(RMsCNN)与多尺度卷积神经网络(SaCNN)在相同的数据集上做人群计数比较，从表1可以得到，本实施例所提供的目标残差多尺度卷积神经网络的计数结果的平均完全误差(MAE)和均方误差 (MSE)都比多尺度卷积神经网络的计数结果小，获得了更好的性能。

表-1人群计数结果的对比

请参考图5，图5为本发明实施例提供的一种密集人群计数的装置的结构框图；具体装置可以包括：

输入模块100，用于将待测试图像输入预先完成训练的目标残差多尺度卷积神经网络，其中，所述目标残差多尺度卷积神经网络中的两个预选卷积层之间设有残差单元；

输出模块200，利用所述目标残差多尺度卷积神经网络对所述待测试图像进行处理，得到所述待测试图像的估计密度图并输出；

确定模块300，用于依据所述目标估计密度图，确定所述待测试图像中的人数。

本实施例的密集人群计数的装置用于实现前述的密集人群计数的方法，因此密集人群计数的装置中的具体实施方式可见前文中的密集人群计数的方法的实施例部分，例如，输入模块100，输出模块200，确定模块300，分别用于实现上述密集人群计数的方法中步骤S101， S102和S103，所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再赘述。

本发明具体实施例还提供了一种密集人群计数的设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现上述一种密集人群计数的方法的步骤。

本发明具体实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述一种密集人群计数的方法的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程 ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的密集人群计数的方法、装置、设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种密集人群计数的方法，其特征在于，包括：

将待测试图像输入预先完成训练的目标残差多尺度卷积神经网络，其中，所述目标残差多尺度卷积神经网络中的两个预选卷积层之间设有残差单元；

利用所述目标残差多尺度卷积神经网络对所述待测试图像进行处理，得到所述待测试图像的估计密度图并输出；

依据所述目标估计密度图，确定所述待测试图像中的人数。

2.如权利要求1所述的方法，其特征在于，还包括：

3.如权利要求2所述的方法，其特征在于，所述在多尺度卷积神经网络的两个预设卷积层之间添加所述残差单元，得到初始残差多尺度卷积神经网络模型包括：

4.如权利要求3所述的方法，其特征在于，所述初始残差尺度卷积神经网络的网络结构包括：

所述第五卷积层和所述第六卷积层之间采用3×3区域，步长为1的最大池化；

所述第五卷积层和所述第六卷积层之间设有所述残差单元；

5.如权利要求1至4任一项所述的方法，其特征在于，所述依据所述目标估计密度图，确定所述待测试图像中的人数包括：

6.一种密集人群计数的装置，其特征在于，包括：

7.如权利要求6所述的装置，其特征在于，还包括：

训练模块，用于获取预先构建的人群图像数据集，其中，所述人群图像数据集包括i张人群图像，与每张人群图像分别对应的人头坐标点图；

8.如权利要求6所述的装置，其特征在于，所述确定模块具体用于：

9.一种密集人群计数的设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至5任一项所述一种密集人群计数的方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述一种密集人群计数的方法的步骤。