CN110705340A

CN110705340A - 一种基于注意力神经网络场的人群计数方法

Info

Publication number: CN110705340A
Application number: CN201910741312.0A
Authority: CN
Inventors: 甄先通; 简治平; 张磊; 李欣; 左利云
Original assignee: Guangdong University of Petrochemical Technology
Current assignee: Guangdong University of Petrochemical Technology
Priority date: 2019-08-12
Filing date: 2019-08-12
Publication date: 2020-01-17
Anticipated expiration: 2039-08-12
Also published as: CN110705340B

Abstract

本发明公开了一种基于注意力神经网络场的人群计数方法，属于神经网络领域，一种基于注意力神经网络场的人群计数方法，可以实现通过在卷积神经网络中引入条件随机场，构建注意力神经网络场，利用卷积神经网络进行特征学习，利用条件随机场捕获长范围空间相关性的能力，来统计多尺度特征，同时引入层间和层内注意力机制，在相同尺度和不同尺度之间提取空间相关性，将感受野扩展到了整个图像，能有效解决图像中尺度变化大、人群密度分布不均匀等问题。

Description

一种基于注意力神经网络场的人群计数方法

技术领域

本发明涉及人群计数方法领域，更具体地说，涉及一种基于注意力神经网络场的人群计数方法。

背景技术

人群计数任务的主要目的是在一个场景中精确预测总人数，其应用广泛，包括视频监控和城市规划，在大部分人群计数任务中，输入数据都来源于悬挂在人群上方的监控摄像头所拍摄的图片，然后通过计算机视觉技术对照片中的人数进行统计，目前现有的人群计数方法主要包括以下三种：

(i)基于检测的方法：

计算机视觉中的目标检测技术早已在现实应用中取得巨大成功，而人是目标检测中最经常研究的类别之一，检测方法可分为两大类，一种是基于整体的检测，另一种是基于部分身体的检测，前者主要是训练一个分类器，利用从行人全身提取的小波、HOG(方向梯度直方图)、边缘等特征去检测行人，基于整体检测的方法主要适用于稀疏的人群计数，随着人群密度的提升，人与人之间的遮挡变得越来越严重，所以提出了基于部分身体检测的方法，通过检测身体部分结构如头、肩膀等去统计人群数量，这种方法比整体检测方法在效果上略有提升。

(ii)基于回归的方法：

无论基于何种检测的方法，都很难处理人群之间严重的遮挡问题，所以，研究者们又提出了基于回归的方法，它的主要思想是通过人群图像学习一种特征到人群数量的映射，而不用明确地定位每个人位置，这类方法主要分为两步：第一步提取低级特征，如前景特征、边缘特征、纹理和梯度特征等；第二步是学习一个回归模型，如多元回归技术中的线性回归、分段线性回归、岭回归、高斯过程回归等方法，从而学习到一个低级特征到人群数的映射关系。

(iii)基于密度图的方法：

基于密度图的方法在近年被提出并发展出多种形式，它在人群计数任务中发挥着重要作用，与前两种方法相比，基于密度图的方法能够提取人群图像中更丰富的空间信息，比如Sindagi等人提出一种上下文金字塔CNN(卷积神经网络)，它利用多种估计器来提取全局和局部上下文信息，这些信息与CNN提取的高维特征映射集成在一起；Li等人用扩张的核函数代替池化操作来融合多尺度的上下文信息，提出CSRNet等，尺度变化是密度图估计的关键问题之一。为了解决这个问题，Boominathan等人采用多列体系结构来提取每列中多个感受野的尺度变化，其中多列特征由1×1卷积层融合以进行人群密度回归。

但是，基于检测的方法对图像质量如分辨率、完整程度等要求较高，因此鲁棒性较差，现实中获得的图像总会存在各种各样的问题，如遮挡、尺寸过小和质量低等，即使是性能最佳的检测方法也无法达到人群计数任务的令人满意的精度；基于回归的方法着重解决算法过于依赖图像质量和细节的问题，通过学习并建立一种特征到人群数量的映射关系，能有效提高存在遮挡、分辨率低等问题的图像的人群计数精度，但是该方法忽略了空间信息，对于尺度变化大、人群密度分布不均匀的一些图像，其效果也还有待提高；基于密度图的方法主要通过各种途径来提取多尺度空间信息来改善方法性能，比如近两年提出的上下文金字塔算法CP-CNN，用扩张的核函数代替池化操作的CSRNet，将前一阶段的低分辨率密度图与提取的特征相结合生成高分辨率密度图的IC-CNN，采用多列体系结构来提取每列中多个感受野的尺度变化的CrowdNet等，这些方法均比较复杂。

发明内容

1.要解决的技术问题

针对现有技术中存在的问题，本发明的目的在于提供一种基于注意力神经网络场的人群计数方法，它可以实现通过在卷积神经网络中引入条件随机场，构建注意力神经网络场，利用卷积神经网络进行特征学习，利用条件随机场捕获长范围空间相关性的能力，来统计多尺度特征，同时引入层间和层内注意力机制，在相同尺度和不同尺度之间提取空间相关性，将感受野扩展到了整个图像，能有效解决图像中尺度变化大、人群密度分布不均匀等问题。

2.技术方案

为解决上述问题，本发明采用如下的技术方案。

一种基于注意力神经网络场的人群计数方法，包括以下步骤：

S1：在卷积神经网络的编码器F-解码器H架构中，向所述解码器H的第1-4层内加入条件随机场和注意力机制，构建注意力神经网络场；

S2：将所述注意力机制作用于层内和层间，得到层内注意力变量A和层间注意力变量M；

S3：对层内注意力变量A、层间注意力变量M以及解码器H进行优化，将感受野扩展至整个图像。

进一步的，所述编码器F和解码器H均包括6个残差卷积块，每个所述残差卷积块均对特征映射做下采样，且输出具有相同通道数量的特征映射。

进一步的，所述残差卷积块包括64个滤波器组，位于所述编码器F中的64个滤波器组的后端连接有2×2的最大池化层。

进一步的，所述注意力神经网络场包括编码器F中各层的滤波器参数、解码器H中各层的滤波器参数、层内注意力变量A以及层间注意力变量M。

进一步的，所述编码器F中各层的滤波器参数均由ImageNet训练得到，所述注意力神经网络场的网络结构参数包括{H，A，M}。

进一步的，所述S2中层内注意力变量A为矩阵结构，所述矩阵的行和列均为相应层的特征映射图的像素大小。

进一步的，所述S2中层间注意力变量M为矩阵结构，所述矩阵的行和列大小分别是相邻两个层次间特征映射图的像素个数。

进一步的，所述S3中层内注意力变量A的优化实现过程包括三个步骤，所述第一步骤为计算中间变量

所述第二步骤为计算层内注意力变量

所述第三步骤为使用softmax函数实现层内注意力变量的归一化。

进一步的，所述S3中层间注意力变量M的优化实现过程包括三个步骤，所述第一步骤为计算中间变量

所述第二步骤为计算层间注意力变量

所述第三步骤为使用softmax函数实现层间注意力变量的归一化。

进一步的，所述S3中解码器H的优化实现过程包括三个步骤，所述第一步骤为计算中间变量

所述第二步骤为计算中间变量

所述第三步骤为更新特征映射

3.有益效果

相比于现有技术，本发明的优点在于：

(1)本方案通过在卷积神经网络中引入条件随机场，构建注意力神经网络场，利用卷积神经网络进行特征学习，利用条件随机场捕获长范围空间相关性的能力，来统计多尺度特征，同时引入层间和层内注意力机制，在相同尺度和不同尺度之间提取空间相关性，将感受野扩展到了整个图像，能有效解决图像中尺度变化大、人群密度分布不均匀等问题。

(2)编码器F和解码器H均包括6个残差卷积块，每个残差卷积块均对特征映射做下采样，且输出具有相同通道数量的特征映射。

(3)残差卷积块包括64个滤波器组，位于编码器F中的64个滤波器组的后端连接有2×2的最大池化层。

(4)注意力神经网络场包括编码器F中各层的滤波器参数、解码器H中各层的滤波器参数、层内注意力变量A以及层间注意力变量M。

(5)编码器F中各层的滤波器参数均由ImageNet训练得到，注意力神经网络场的网络结构参数包括{H，A，M}。

(6)S2中层内注意力变量A为矩阵结构，矩阵的行和列均为相应层的特征映射图的像素大小。

(7)S2中层间注意力变量M为矩阵结构，矩阵的行和列大小分别是相邻两个层次间特征映射图的像素个数。

(8)S3中层内注意力变量A的优化实现过程包括三个步骤，第一步骤为计算中间变量

第二步骤为计算层内注意力变量

第三步骤为使用softmax函数实现层内注意力变量的归一化。

(9)S3中层间注意力变量M的优化实现过程包括三个步骤，第一步骤为计算中间变量

第二步骤为计算层间注意力变量

第三步骤为使用softmax函数实现层间注意力变量的归一化。

(10)S3中解码器H的优化实现过程包括三个步骤，第一步骤为计算中间变量第二步骤为计算中间变量

第三步骤为更新特征映射

附图说明

图1为本发明的注意力神经网络场的结构示意图；

图2为本发明的残差卷积块的基本结构示意图；

图3为本发明在ShanghaiTech数据集上的实验结果对比图；

图4为本发明ShanghaiTech数据集的密度估计图；

图5为本发明在UCF-50数据集上的实验结果对比图；

图6为本发明多个数据集的混合密度估计图(其中前两列是UCF-50，中间两列是UCF-QNRF，最后两列是WorldExpo10)；

图7为本发明在UCF-QNRF数据集上的实验结果对比图；

图8为本发明在WorldExpo10数据集上的实验结果对比图。

具体实施方式

下面将结合本发明实施例中的附图；对本发明实施例中的技术方案进行清楚、完整地描述；显然；所描述的实施例仅仅是本发明一部分实施例；而不是全部的实施例，基于本发明中的实施例；本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例；都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“上”、“下”、“内”、“外”、“顶/底端”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“设置有”、“套设/接”、“连接”等，应做广义理解，例如“连接”，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1：

请参阅图1，一种基于注意力神经网络场的人群计数方法，包括以下步骤：

S1：在卷积神经网络的编码器F-解码器H架构中，向解码器H的第1-4层内加入条件随机场和注意力机制，构建注意力神经网络场；

S2：将注意力机制作用于层内和层间，得到层内注意力变量A和层间注意力变量M；

S3：在相同尺度和不同尺度之间提取更多的空间相关性，将感受野扩展至整个图像，在解码器H的第1-4层内加入条件随机场和注意力机制，用于实现从最左端的原始图像到最后端的密度图的映射。

1.注意力神经网络场的网络结构设计：

图1为注意力神经网络场的网络结构，其中Fi表示由编码器卷积神经网络(CNN)提取的特征图，Hi表示解码器的特征图，A方块表示层内注意力机制，M方块表示层间注意力机制，实线箭头表示消息传递中估计变量之间的依赖关系，虚线箭头表示涉及注意力神经网络场模型的更新，在图1中经过第1次迭代更新(iteration 1)到第n次迭代更新(iterationn)。

请参阅图2，编码器F和解码器H均包括6个残差卷积块，每个残差卷积块均对特征映射做下采样，且输出具有相同通道数量的特征映射，残差卷积块包括64个滤波器组，位于编码器F中的64个滤波器组的后端连接有2×2的最大池化层，层内注意力变量A为矩阵结构，矩阵的行和列均为相应层的特征映射图的像素大小，层间注意力变量M为矩阵结构，矩阵的行和列大小分别是相邻两个层次间特征映射图的像素个数。

2.注意力神经网络场的网络结构参数学习：

请参阅图1，注意力神经网络场包括编码器F中各层的滤波器参数、解码器H中各层的滤波器参数、层内注意力变量A以及层间注意力变量M，编码器F的参数由ImageNet训练得到，注意力神经网络场的网络结构参数包括{H，A，M}，具体参数优化过程如下：

输入：观察到的图像X的多尺度特征图F，以及对应输出的密度图D；

输出：多尺度表示层间注意力变量

以及层内注意力变量

具体优化过程：

对A矩阵、M矩阵以及H各滤波器参数随机赋初始值，依次从A矩阵优化、M矩阵优化以及H各滤波器参数优化为一个循环，多次重复该循环，直到收敛为止。

将

中的元素表示为

其中

P表示像素点的个数；

中的元素表示为

S3中层内注意力变量A的优化实现过程包括三个步骤，第一步骤为计算中间变量

即

其中K_s为解码器中对应s层的卷积核，其大小为c_s×c_s；c_s为解码器s层对应滤波器个数，即对应该层的输出特征图的个数；

为解码器对应s层的像素j的平均值，第二步骤为计算层内注意力变量

即

第三步骤为使用softmax函数实现层内注意力变量的归一化，即

其中其中N_s为解码器s层输出特征映射对应的像素点个数。

S3中层间注意力变量M的优化实现过程包括三个步骤，第一步骤为计算中间变量

即

其中G_s为解码器中对应s层和s-1层的卷积核，其大小为c_s×c_s-1，c_s-1为解码器s-1层对应滤波器个数，第二步骤为计算层间注意力变量即

第三步骤为使用softmax函数实现层间注意力变量的归一化，即

S3中解码器H的优化实现过程包括三个步骤，第一步骤为计算中间变量

第二步骤为计算中间变量

第三步骤为更新特征映射

3.对注意力神经网络场进行测试：

过程为输入：观察到的图像X，多尺度表示

层间注意力变量

以及层内注意力变量

输出：对应输出的密度图D。

步骤1：根据观察到的图像X和编码器参数，得到多尺度特征图F

步骤2：根据层间注意力变量M和层内注意力变量A，以及解码器H各层的参数，得到输出的密度图D。

4.神经网络的实验结果：

4.1 ShanghaiTech数据集：由1198个带注释的图像组成，包括互联网和街景图像，数据集分为两部分：PartA有482个图像，PartB有716个图像，将两部分训练图像数分别设置为300和400，此数据集具有相当低的人体密度和图像分辨率，请参阅图3，采用本方案的方法后，PartA中的平均绝对误差MAE(表示预测结果的准确性)和均方误差MSE(测量鲁棒性)最好，PartB中平均绝对误差MAE和均方误差MSE次之，请参阅图4，为ShanghaiTech数据集的密度估计图样本，前四列显示人口密度分布不均匀，人群头部存在多尺度问题，采用此模型能准确定位每个人的位置，而其他物体对密度图的干扰很小。

4.2 UCF-50：由50个带注释的图像组成，此数据集的图像分辨率相当大，平均达2101×2888，图像中的人数存在较大差异，从96到4633不等，图像数量有限使其成为训练神经网络较具挑战性的一个数据集，请参阅图5，本方案的注意力神网络经场在MAE方面效果最好，并且在MSE方面效果排名靠前，请参阅图6，图6中前两列是UCF-50，中间两列是UCF-QNRF，最后两列是WorldExpo10，密度估计图样本见图6的前两列。

4.3 UCF-QNRF：包含各种各样的视点、密度和光照变化图像的大型数据集，图像中的人数范围从49到12865，图像平均分辨率高达2013×2902，将训练集和测试集分别设置为1201和334个图像，将图像设置为1024×1024像素单元格，请参阅图7，注意力神网络经场在MAE方面效果最好，并且在MSE方面效果排名靠前。

4.4 WorldExpo10：由2010年上海世博会108个监控摄像头拍摄的1132个带注释的视频序列组成，分为5个不同的场景，每个场景包含120帧，将3380帧用作训练集，600帧用作测试集，请参阅图8，注意力神网络经场在S1和S2上效果最好，在S4和S5上效果排名靠前，密度估计图样本见图8的最后两列

本方案通过在卷积神经网络中引入条件随机场，构建注意力神经网络场，利用卷积神经网络进行特征学习，利用条件随机场捕获长范围空间相关性的能力，来统计多尺度特征，同时引入层间和层内注意力机制，在相同尺度和不同尺度之间提取空间相关性，将感受野扩展到了整个图像，能有效解决图像中尺度变化大、人群密度分布不均匀等问题。

以上所述；仅为本发明较佳的具体实施方式；但本发明的保护范围并不局限于此；任何熟悉本技术领域的技术人员在本发明揭露的技术范围内；根据本发明的技术方案及其改进构思加以等同替换或改变；都应涵盖在本发明的保护范围内。

Claims

1.一种基于注意力神经网络场的人群计数方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于注意力神经网络场的人群计数方法，其特征在于：所述编码器F和解码器H均包括6个残差卷积块，每个所述残差卷积块均对特征映射做下采样，且输出具有相同通道数量的特征映射。

3.根据权利要求2所述的一种基于注意力神经网络场的人群计数方法，其特征在于：所述残差卷积块包括64个滤波器组，位于所述编码器F中的64个滤波器组的后端连接有2×2的最大池化层。

4.根据权利要求1所述的一种基于注意力神经网络场的人群计数方法，其特征在于：所述注意力神经网络场包括编码器F中各层的滤波器参数、解码器H中各层的滤波器参数、层内注意力变量A以及层间注意力变量M。

5.根据权利要求4所述的一种基于注意力神经网络场的人群计数方法，其特征在于：所述编码器F中各层的滤波器参数均由ImageNet训练得到，所述注意力神经网络场的网络结构参数包括{H，A，M}。

6.根据权利要求1所述的一种基于注意力神经网络场的人群计数方法，其特征在于：所述S2中层内注意力变量A为矩阵结构，所述矩阵的行和列均为相应层的特征映射图的像素大小。

7.根据权利要求1所述的一种基于注意力神经网络场的人群计数方法，其特征在于：所述S2中层间注意力变量M为矩阵结构，所述矩阵的行和列大小分别是相邻两个层次间特征映射图的像素个数。

8.根据权利要求1所述的一种基于注意力神经网络场的人群计数方法，其特征在于：所述S3中层内注意力变量A的优化实现过程包括三个步骤，所述第一步骤为计算中间变量

所述第二步骤为计算层内注意力变量

9.根据权利要求1所述的一种基于注意力神经网络场的人群计数方法，其特征在于：所述S3中层间注意力变量M的优化实现过程包括三个步骤，所述第一步骤为计算中间变量

所述第二步骤为计算层间注意力变量

10.根据权利要求1所述的一种基于注意力神经网络场的人群计数方法，其特征在于：所述S3中解码器H的优化实现过程包括三个步骤，所述第一步骤为计算中间变量

所述第二步骤为计算中间变量

所述第三步骤为更新特征映射