CN111428809B

CN111428809B - 基于空间信息融合与卷积神经网络的人群计数方法

Info

Publication number: CN111428809B
Application number: CN202010287687.7A
Authority: CN
Inventors: 张海军; 董丽
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2020-04-02
Filing date: 2020-04-13
Publication date: 2023-07-28
Anticipated expiration: 2040-04-13
Also published as: CN111428809A

Abstract

本发明提出了一种基于空间信息融合与卷积神经网络的人群计数方法，基于基础模块、多尺度模块和融合模块，包括以下步骤：通过所述基础模块进行低阶语义特征的提取：将获得的图片预处理后添加到一个小尺寸滤波器的单列模块中，来提取低层语义特征；通过所述多尺度模块进行多尺度特征的提取：使用不同大小的滤波器来提取对应尺度的人类头部特征；通过所述融合模块完成多阶段特征的融合。本发明提供的基于空间信息融合与卷积神经网络的人群计数方法不仅提升模块在人头尺度变换方面的鲁棒性，还解决了两类多尺度特征的融合问题。

Description

基于空间信息融合与卷积神经网络的人群计数方法

技术领域

本发明属于基于图片的人群计数领域，尤其涉及一种基于空间信息融合与卷积神经网络的人群计数方法。

背景技术

随着世界范围内人口流动和城市化的影响，使得大规模的人群聚集成了普遍现象。人群密度自动估计与计数技术在人群安全控制中受到越来越多的关注，在人群监控与管理中发挥着至关重要的作用。它可以用于人群舒适度的测量和潜在风险的检测，以防止人群拥挤灾害的发生。在视觉监控系统中，人群规模是检测骚乱、暴力抗议、战斗、群众恐慌和兴奋等威胁的重要主要指标之一。

得益于卷积神经网络强大的特征学习能力，当前基于卷积神经网络的人群计数模型在拥挤的人群场景中取得了比传统方法更好的性能。近几年很多尺度感知的神经网络被设计出来，用于解决人头尺度变化问题。但是，目前的方法中网络对尺度变化的鲁棒性比较差。

发明内容

本发明的目的在于提出了一种基于空间信息融合与卷积神经网络的人群计数方法，旨在提升网络对人头的多尺度的鲁棒性，并利用空间分布信息解决多尺度特征的融合问题。

本发明通过以下技术方案实现：一种基于空间信息融合与卷积神经网络的人群计数方法，其特征在于，基于基础模块、多尺度模块和融合模块，包括以下步骤：

通过所述基础模块进行低阶语义特征的提取：将获得的图片预处理后添加到一个小尺寸滤波器的单列模块中，来提取低层语义特征；

通过所述多尺度模块进行多尺度特征的提取：使用不同大小的滤波器来提取对应尺度的人类头部特征；

通过所述融合模块完成多阶段特征的融合。

进一步地，所述通过所述基础模块进行低阶语义特征的提取包括以下步骤：

训练数据的预处理，获得训练样本：将图像小于512像素的短边，调整为512像素；将图像尺寸随机缩放为原图的0.8倍或1.2倍；向每个图像中添加噪声，然后将其镜像为另一个样本；对于同时拥有彩色和灰度图像的数据集，将部分彩色图像随机变为灰度图像；随机裁剪多个尺寸为M*M的图片作为训练样本；

低阶语义特征的提取：将上述训练样本输入到基础模块，生成低阶语义特征；其中，基础模块由带批量归一化方法的预训练的VGG16网络的前四层组成。

进一步地，将图像尺寸随机缩放为原图的0.8倍或者1.2倍。

进一步地，所述数值M为380像素。

进一步地，所述通过所述多尺度模块进行多尺度特征的提取包括以下步骤：

构建提取多尺度特征的多列模块：采用三个阶段提取图片的高阶语义特征，其中每个阶段分别拥有四个采用不同尺寸卷积核的列，并在每个阶段的结尾，将来自四个列的特征堆叠在一起，作为下一阶段的输入；

为每一个阶段生成相应的人群密度图：其中第s阶段产生的人群密度图表示如下：

其中F^s表示生成第s阶段人群密度估计图的网络结构；ws表示相应的参数；F^s可以看作是一个用来生成阶段s人群密度图的非线性回归函数，当s＝1，F^s的输入为训练样本X_n；当s＞1，同时将输入图像X_n和基于前一阶段密度预测图的二维空间分布特征作为F^s的输入；

将每个阶段生成的所有人群密度图上采样到与原始图像相同的大小，并计算阶段损失；

为每一个阶段s生成相应的基于密度的二维空间分布所述基于密度的二维空间分布特征/>用于辅助融合来自不同列生成的多尺度特征，包括第s阶段生成的人群密度图/>和全局密度特征；

多尺度特征输出：将最后一个阶段生成的特征集及相应阶段的基于密度的二维空间分布特征堆叠到一起，输入到下一阶段。

进一步地，所述四个不同卷积核大小分别为：1×1、3×3、5×5、7×7，其中卷积为3×3、5×5、7×7的列均由两层网络堆叠而成。

进一步地，所述为每一个阶段s生成相应的基于密度的二维空间分布特征的具体步骤包括：

获取s阶段生成的人群密度图

在获取到的人群密度图上应用全局平均池化操作，并采用双线性插值的方法将其向上采样到与/>等大的尺寸得到全局密度特征；

将人群密度图和全部密度特征堆叠在一起组成对应的基于密度的二维空间分布特征。

进一步地，所述通过所述融合模块完成多阶段特征的融合包以下步骤：

将上一阶段提取的特征输入到包含两个阶段的解码器，将这些特征图还原到原始图像的1/2大小；

为上述两个阶段分别生成一张密度图，之后根据每一张人群密度图生成对应的基于密度的二维空间分布特征；

通过递归补偿基于上一阶段预测值的二维空间分布特征，来提高每一个阶段的预测值；

生成基于第五阶段生成的人群密度图的四维空间分布特征/>采用该四维空间特征分布特征/>来融合各个阶段生成的多尺度特征；

通过融合各个阶段产生的多尺度特征及多维的空间分布特征来生成最终的密度图具体表示如下：

其中F^f表示为生成最终人群密度图的网络结构；w^f是相应的参数；/>表示阶段一到阶段四生成的多尺度特征；/>是阶段一到阶段四，产生的基于密度的二维空间分布特征；/>代表基于阶段五生成的密度图的四维空间分布特征；F^f可以被看成是一个把X_n,/>和/>作为输入,/>作为输出的非线性回归函数。

进一步地，所述生成基于第五阶段生成的人群密度图的四维空间分布特征包括以下步骤：

获取第五阶段生成的人群密度图

获取全局密度特征图，在上应用全局平均池化操作，采用双线性插值的方法将其向上采样到与/>等大的尺寸；

分别在上应用两次具有不同卷积核大小的均值池化操作，形成四个不同的特征；

将所述四个不同的特征叠加到一起组成基于密度的四维空间分布特征。

进一步地，分别在上应用两次卷积核大小为15×15、45×45的均值池化操作。

本发明提供的基于空间信息融合与卷积神经网络的人群计数方法，通过提取两种不同的多尺度特征，并使用基于中间结果的多维空间特征，融合这两种多尺度特征，并生成最终的人群密度图，以完成图像中的人数估计。本发明不仅提升模块在人头尺度变换方面的鲁棒性，还解决了两类多尺度特征的融合问题。

附图说明

图1是本发明实施例提供的基于空间信息融合与卷积神经网络的人群计数方法的模型框架图；

图2是本发明实施例提供的多尺度模块框架图；

图3是本发明实施例提供的生成人群密度及计数结果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

附图1示出了本发明提出的一种基于空间信息融合与卷积神经网络的人群计数方法的模型框架图，该方法涉及基础模块、多尺度模块和融合模块，具体地，通过基础模块进行低阶语义特征的提取，通过多尺度模块进行多尺度特征的提取，通过融合模块完成多阶段特征的融合，详细步骤如下：

S1：通过基础模块进行低阶语义特征的提取。本模块需要利用预训练的VGG16网络的前四层，对输入的数据样本进行低阶特征抽取。数据集可以选用人群计数的公开数据集，例如，Shanghaitech数据集,UCF_QNRF数据集,UCF_CC_50数据集,和UCSD数据集，具体步骤如下：

S11：图像数据准备：对于给定的具有人头标注的数据集，为其生成相应的人群密度图真值。此外，在模型训练之前，还需对数据进行预处理及数据增广。具体如下：第一，将数据集中图像中短边小于512像素的边调整为512像素。第二，将图像尺寸随机缩放为原图的0.8倍或者1.2倍。第三，通过给每个训练图像中添加噪声及镜像操作将数据集扩充为原来的一倍。第四，对于同时拥有彩色和灰度图像的数据集，本发明将部分彩色图像随机变为灰度图像。第五，随机裁剪四处尺度为380×380像素的图片作为训练样本。

S12：低阶语义特征提取：将预处理过的训练样本输入到基础模块提取低阶语义特征。基础模块取自经过预训练的带批量归一化(Batch Normalization，BN)层的VGG16网络的前四层。

S2：多尺度特征提取。本发明通过多尺度模块完成多尺度特征的提取，在该步骤中，使用不同大小的滤波器来提取对应尺度头的特征。具有较小感受野的列，更利于捕获表示较小的人头特性。由于人的密度分布可以提供关于人头部大小的信息。从直观上看，人群密度高的区域人头大小往往较小，而稀疏区域人头大小相对较大。因此，本发明使用前一阶段生成的空间信息作为先验的监督信息，指导当前模块选择合适尺度的特征。该模块的详细结构如图2所示。

具体步骤如下：

S21：构建提取多尺度特征的多列模块。如图2所示，该模块采用三个阶段提取图片的高阶语义特征，每个阶段分别采用四个具有不同大小的卷积核的列，进行特征提取。具体的卷积核的大小为：1×1、3×3、5×5、7×7。其中除了卷积为1×1的列，其他列均由两层网络堆叠而成。每一列的第一层输出的特征数，为基础模块输出特征数的1/2。最后在每个阶段的结尾，将来自四个列的特征堆叠在一起，作为下一阶段的输入。

S22：为了获得空间先验信息，为每一个阶段生成相应的人群密度图。在每个阶段的特征的结尾，将该阶段最后一层生成的特征输入到卷积核为1×1的卷积层生成该阶段的人群密度预测图。具体的每一个阶段的人群密度图可以表示如下：

其中F^s表示生成第s阶段人群密度估计图的网络结构；w^s表示相应的参数.F^s可解释成一个用来生成第s阶段的人群密度图的非线性回归函数.当s＝1，F^s的输入为训练样本X_n。当s＞1，同时将输入图像X_n和基于密度的二维空间分布特征作为F^s的输入。

S23：将每个阶段生成的人群密度图用双线性插值的方法恢复到原始图像相同的大小，并为各阶段生成的密度图计算阶段损失。每个阶段的损失函数可以表述如下：

其中N代表训练批次中样本的数目；Y_n(i,j)代表人群密度真值图上在像素(i,j)处的取值；表示由阶段s为训练样本X_n生成的人群密度预测图。W和H代表训练样本X_n的宽和高.

S24：为每一个阶段s生成相应的基于密度的二维空间分布特征第一步获取s阶段生成的人群密度图/>第二步在获取到的人群密度图/>上应用全局平均池化操作，并采用双线性插值的方法将其向上采样到与/>等大的尺寸得到全局密度特征。第三步将人群密度图/>和全部密度特征堆叠在一起组成对应的基于密度的二维空间分布特征。

S25：最后将该模块最后一个阶段生成的特征集及相应阶段的基于密度的二维空间分布特征堆叠到一起，输入到下一阶段。

S3：通过融合模块完成多阶段特征的融合。

S31：将多尺度模块提取的特征输入到包含来两个阶段的解码器，将这些特征图还原到原始图像的1/2大小。具体的每个阶段的网络结构如表一所示：

表一

S32：将每一个阶段最后一层生成的特征，应用卷积核大小为1×1的卷积层，进行卷积，并使用双线性插值法生成该阶段对应的人群密度图。之后按照步骤S24为每个阶段生成对应的二维空间分布特征。最后通过递归补偿基于上一阶段预测值的二维空间分布特征，来提高每一个阶段的预测值。即每一个阶段的输入为上一阶段产生的特征及对应的基于密度的二维空间分布特征的叠加。

S33：生成基于阶段五生成的人群密度图的四维空间分布特征/>分为如下步骤：首先获取第五阶段生成的人群密度图/>第二获取基于/>的全局密度特征图。即在/>上应用全局平均池化操作，最后采用双线性插值的方法将其向上采样到与/>等大的尺寸的特征图。第三，分别在/>上应用具有不同卷积核大小的均值池化操作。用的卷积核大小为：15×15、45×45。最后将这四个不同的特征叠加到一起组成基于密度的四维空间分布特征。

S34：最后通过融合各个阶段产生的多尺度特征及多维的空间分布特征来生成最终的密度图具体表示如下：

其中F^f表示为生成最终人群密度图的网络结构；w^f是相应的参数；/>表示阶段一到阶段四生成的多尺度特征；/>表示阶段一到阶段四，生成的基于密度的二维空间分布特征。/>代表基于阶段五生成的真值的四维空间分布特征。具体的，F^f可以被看成是一个把X_n,/>和/>作为输入,/>作为输出的非线性回归函数。最后图片中的人数为融和阶段生成的/>的像素值积分求和。

本发明通过提取两种不同的多尺度特征，并使用基于中间结果的多维空间特征，融合这两种多尺度特征，并生成最终的人群密度图，以完成图像中的人数估计。本发明不仅提升模块在人头尺度变换方面的鲁棒性，还解决了多尺度的融合问题。

Claims

1.基于空间信息融合与卷积神经网络的人群计数方法，其特征在于，基于基础模块、多尺度模块和融合模块，包括以下步骤：

通过所述融合模块完成多阶段特征的融合；

其中，所述通过所述多尺度模块进行多尺度特征的提取包括以下步骤：

其中F^s表示生成第s阶段人群密度估计图的网络结构；w^s表示相应的参数；F^s可以看作是一个用来生成阶段s人群密度图的非线性回归函数，当s＝1，F^s的输入为训练样本X_n；当s＞1，同时将输入图像X_n和基于前一阶段密度预测图的二维空间分布特征作为F^s的输入；

为每一个阶段s生成相应的基于密度的二维空间分布特征所述基于密度的二维空间分布特征/>用于辅助融合来自不同列生成的多尺度特征，包括第s阶段生成的人群密度图/>和全局密度特征；

多尺度特征输出：将最后一个阶段生成的特征集及相应阶段的基于密度的二维空间分布特征堆叠到一起，输入到下一阶段；

所述通过所述融合模块完成多阶段特征的融合包括以下步骤：

其中F^f表示为生成最终人群密度图的网络结构；w^f是相应的参数；/>表示阶段一到阶段四生成的多尺度特征；/>是阶段一到阶段四，产生的基于密度的二维空间分布特征；/>代表基于阶段五生成的密度图的四维空间分布特征；F^f可以被看成是一个把/>和/>作为输入,/>作为输出的非线性回归函数。

2.根据权利要求1所述的基于空间信息融合与卷积神经网络的人群计数方法，其特征在于，所述通过所述基础模块进行低阶语义特征的提取包括以下步骤：

3.根据权利要求2所述的基于空间信息融合与卷积神经网络的人群计数方法，其特征在于，将图像尺寸随机缩放为原图的0.8倍或者1.2倍。

4.根据权利要求2所述的基于空间信息融合与卷积神经网络的人群计数方法，其特征在于，所述M为380像素。

5.根据权利要求1所述的基于空间信息融合与卷积神经网络的人群计数方法，其特征在于，所述四个不同卷积核大小分别为：1×1、3×3、5×5、7×7，其中卷积为3×3、5×5、7×7的列均由两层网络堆叠而成。

6.根据权利要求1所述的基于空间信息融合与卷积神经网络的人群计数方法，其特征在于，所述为每一个阶段s生成相应的基于密度的二维空间分布的具体步骤包括：

获取s阶段生成的人群密度图

7.根据权利要求1所述的基于空间信息融合与卷积神经网络的人群计数方法，其特征在于，所述生成基于第五阶段生成的人群密度图的四维空间分布特征/>包括以下步骤：

获取第五阶段生成的人群密度图

分别在上应用两次具有不同卷积核大小的均值池化操作，形成两个不同的特征；

将四个不同的特征叠加到一起组成基于密度的四维空间分布特征。

8.根据权利要求7所述的基于空间信息融合与卷积神经网络的人群计数方法，其特征在于，分别在上应用两次卷积核大小为15×15、45×45的均值池化操作。