CN109271960B

CN109271960B - 一种基于卷积神经网络的人数统计方法

Info

Publication number: CN109271960B
Application number: CN201811169086.5A
Authority: CN
Inventors: 张世辉; 李贺; 桑榆
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2018-10-08
Filing date: 2018-10-08
Publication date: 2020-09-04
Anticipated expiration: 2038-10-08
Also published as: CN109271960A

Abstract

本发明公开了一种基于卷积神经网络的人数统计方法，涉及计算机视觉领域。首先对图像样本数据进行处理并生成样本图像实际的人群密度图；然后通过提取处理分支网络中的特征图获取层次上下文信息并输送到主干网络中，在主干网络中选择性融合低层和高层特征图，建立一种层次上下文和多尺度特征融合网络；利用处理后的样本数据对建立的网络进行训练；最后使用训练后的模型对任意图像进行人数统计。本发明有效解决了人数统计任务中由于图像尺度不一致导致准确率下降的问题，并提高了方法在不同场景下的普适性。

Description

一种基于卷积神经网络的人数统计方法

技术领域

本发明涉及计算机视觉领域，尤其涉及一种基于卷积神经网络的人数统计方法。

背景技术

人数统计，作为人群分析、场景理解以及视频监控等领域最为基础且困难的任务之一，受到了学术界和工业界的广泛关注。人数统计是指通过获取给定图像对应的密度图来定位人群并估计人群数量。

目前针对单幅图像的人数统计方法主要分为三类：基于检测的方法，基于回归的方法和基于密度图的方法。基于检测的方法和基于回归的方法在一定程度上由于人群严重遮挡和多尺度等现象性能受到限制，同时忽略了图像上关键的空间信息。因此近些年人数统计任务大多采用基于密度图的方法。同基于检测和回归的方法相比，基于密度图的人数统计方法一定程度上能够降低高密度人群带来的一系列问题，还能获取图像上关键的空间信息，这为异常检测、人群管理等一系列任务提供更多线索。现有的人数统计方法大多采用基于密度图方式的卷积神经网络，但这些方法存在无法抑制图像尺度不一致导致人数统计准确率下降的影响、不同场景下普适性不足等问题。近些年来基于密度图方式的人数统计方法的研究成果如下：Boominathan L和Kruthiventi S S S在文章“CrowdNet:A DeepConvolutional Network for Dense Crowd Counting[C]//ACM on MultimediaConference.Amsterdam:ACM,2016:640-644.”所提出的方法无法降低图像尺度不一致导致人数统计准确率下降的影响，同时存在不同场景下方法普适性不足的问题，Zhang Y和ZhouD在文章“Single-Image Crowd Counting via Multi-Column Convolutional NeuralNetwork[C]//IEEE Conference on Computer Vision and Pattern Recognition.LasVegas:IEEE Computer Society,2016:589-597.”中所提出的方法存在不同场景下方法普适性不足的问题，Sindagi V A和Patel V M在文章“CNN-Based cascaded multi-tasklearning of high-level prior and density estimation for crowd counting[C]//IEEE International Conference on Advanced Video and Signal BasedSurveillance.Lecce:IEEE,2017:1-6”中所提出的方法虽然获取一定的上下文信息提高方法普适性，但未考虑图像尺度不一致导致方法准确率下降的问题，D.B.Sam和S.Surya在文章“Switching convolutional neural network for crowd counting[C]//IEEEConference on Computer Vision and Pattern Recognition.Hawaii:IEEE,2017:6-17.”所提方法存在不同场景下方法普适性不足的缺陷。

发明内容

针对现有技术存在的问题，本发明的目的在于提供一种基于卷积神经网络的人数统计方法，通过多尺度特征融合网络有效地改善图像尺度不一致导致人数统计准确率下降的问题，通过提取层次上下文来获取更多的上下文信息以提高人数统计方法在不同场景的普适性，从而达到精确人数统计的目的。

本发明通过以下技术方案实现：一种基于卷积神经网络的人数统计方法，其特征在于，该方法包括以下步骤：

(1)对图像样本数据进行灰度化预处理、分块，并生成多幅基于人头的人群密度图；其中，人群密度图中每个人头目标用一个圆形高斯核表示，高斯核的中心位于人头目标的中心位置，将人群密度图中所有人头目标对应的高斯核叠加在一起即可得到基于人头的人群密度图；

(2)将步骤(1)分块处理后的图像样本数据输入卷积神经网络中的第一个卷积层，再将结果输入到第二个卷积层；

(3)建立层次上下文和多尺度特征融合网络：

(3.1)将上一层的输出结果输入到卷积神经网络中的第一子网络；

(3.2)将上一层的输出结果输入到卷积神经网络中的转置卷积层；

(3.3)将上一层的输出结果和第一子网络中第一个池化层输出结果以及第一子网络中第三个卷积层输出结果在通道维度上链接在一起；

(3.4)将步骤(3.1)的输出结果输入到卷积神经网络中的全连接层，采用交叉熵函数作为全连接层的损失函数；

(3.5)将步骤(2)输出结果输入到卷积神经网络中的第二子网络；其中，步骤(3.3)的输出结果和第二子网络中第三个卷积层输出结果在通道维度上链接在一起；第二子网络中第1个卷积层输出结果输入到第二子网络中第一次池化层，其输出结果和第二子网络中第6个卷积层输出结果在通道维度上链接在一起，第二子网络中第二个卷积层输出结果和第二子网络中第1个转置卷积层输出结果在通道维度上链接在一起；

(3.6)将上一层的输出结果输入到卷积神经网络中的维度变换层，获得给定图像对应的人群密度估计图和人数估计统计结果；其中，采用人群密度估计图和步骤(1)的人群密度图的欧氏距离作为维度变换层的损失函数；

(3.7)采用步骤(3.4)中交叉熵损失函数和步骤(3.6)中欧氏距离损失函数的加权和作为整体损失函数，利用步骤(1)的人群密度图对网络的全连接层输出结果和维度变换层输出结果同时进行训练；

(4)使用训练后的模型对任意输入单幅图像进行人数统计。

进一步的技术方案在于，步骤(1)的具体步骤包括：

1a)对图像样本数据中的图像进行灰度化，计算公式如下：

Gray＝R*0.299+G*0.587+B*0.114

式中，R、G和B为彩色图像三通道值，Gray为灰度化后的图像，

并通过对数据进行图像分块，增加样本数据量，

1b)将所有人头目标对应的高斯核叠加在一起生成实际的人群密度图，计算公式如下：

式中，设x为单幅图像上任意像素，x_g为人头所在像素，S为人所在位置周围的像素集合，G_σ为标准差为σ的二维高斯核，δ(x-x_g)为脉冲函数，*为卷积运算，D(x)获得的图像对应的人群密度图。

进一步的技术方案在于，步骤(2)包含两个卷积层，尺寸分别为9*9和7*7，分别生成16张和32张特征图，32张特征图为预处理特征图。

进一步的技术方案在于，所述第一子网络包含了五个卷积层和两个池化层。

进一步的技术方案在于，所述第一子网络依次包含一个卷积层，一个池化层，三个卷积层，一个池化层和一个卷积层；其中卷积层卷积尺寸依次分别为9*9、7*7、7*7、7*7和7*7，生成的特征图通道数分别为：16、32、16、20和8，两个池化层步长均为2，第五个卷积层后生成分类特征图。

进一步的技术方案在于，所述全连接层为三个，神经元数量分别为：512、256和10。

进一步的技术方案在于，所述第二子网络包括六个卷积层、两个转置卷积层和两个池化层。

进一步的技术方案在于，所述第二子网络依次包含一个卷积层，一个池化层，三个卷积层，一个池化层，两个卷积层，两个转置卷积层；其中卷积层卷积尺寸依次分别为7*7、5*5、5*5、5*5、3*3和3*3，生成的特征图通道数分别为16、32、16、32、24和16，两个池化层步长均为2；两个转置卷积层的卷积尺寸均为4*4，生成的特征图通道数分别为24和8，步长均为2。

进一步的技术方案在于，所述维度变换层为一个1*1的卷积核层。

进一步的技术方案在于，步骤(3.7)的具体操作步骤为：

利用步骤(3.6)的人群密度估计图和步骤(1)的人群密度图的欧氏距离作为维度变换层的损失函数，N为训练样本数量，F_D(X_i；Θ)为步骤(3.6)生成的人群密度估计图，D_i为步骤(1)生成的真实的人群密度图，对每一张单幅图像的人群密度估计图和真实的人群密度图求绝对差值，并对所有图像的绝对差值的总和求平均，得到损失函数的结果，计算公式如下：

利用步骤(1)处理后的人群密度图对建立的层次上下文和多尺度特征融合网络进行训练，得到待学习参数Θ的估计，设置权重项β，使得交叉熵函数和欧氏距离加权和结果最小，训练步骤如下：

1)根据图像样本数据中的图像和标记，确定每张图像的人群密集程度，查找所有样本数据中包含人数最多的图像，最多人数值记为g_max，查找所有样本数据中包含人数最少的图像，最少人数值记为g_min，通过对最多人数值和最少人数值作差并除以人群密集程度总类别数T得到密集区间Λ，计算公式如下：

每张包含人数为M的图像对应的人群密集程度t可通过如下计算公式得出：

2)为建立的层次上下文和多尺度特征融合网络的参数随机设定一个初始值，设置权重项β，使得交叉熵函数L_C和欧氏距离L_D加权和结果最小，计算公式如下：

L(Θ)＝L_D+βL_C

待学习参数Θ采用随机梯度下降法在每一次优化迭代中更新,直到加权和结果L(Θ)收敛到一个较小的值，保存参数及训练后的模型。

本发明首先对样本数据进行数据增强和生成实际人群密度图，然后建立一个层次上下文和多尺度特征融合网络并训练，通过多尺度特征融合来降低尺度不一致导致人数统计方法准确率下降的影响，通过提取层次上下文信息提高人数统计方法在不同场景的普适性，进而使用训练后的网络对任意输入单幅图像完成人数统计任务。

由于采用上述技术方案，本发明提供的一种基于卷积神经网络的人数统计方法，与现有的方法相比优势在于：

(1)通过多尺度融合网络有效降低图像尺度不一致带来方法准确率下降的缺陷；

(2)通过建立的层次上下文提取模块，可以在不增加主干网络复杂度的基础上，获取更多的上下文信息来增加人数统计方法在不同场景下的普适性。

附图说明

图1是本发明一种基于卷积神经网络的人数统计方法的流程图。

图2是层次上下文和多尺度特征融合网络的整体结构示意图。

图3是用于提取层次上下文的分支分类网络结构示意图。

图4是多尺度特征融合主干网络结构示意图。

图5是使用训练后的模型对任意输入单幅图像进行人数统计的示意图。

具体实施方式

为使本发明技术方案更加清晰明了，以下结合附图对本发明做进一步详细说明。

本发明公开了一种基于卷积神经网络的人数统计方法，其特征在于，该方法包括以下步骤：

其中，具体步骤包括：

1a)对图像样本数据中的图像进行灰度化，计算公式如下：

Gray＝R*0.299+G*0.587+B*0.114

式中，R、G和B为彩色图像三通道值，Gray为灰度化后的图像，

并通过对数据进行图像分块，增加样本数据量，

其中，包含两个卷积层，尺寸分别为9*9和7*7，分别生成16张和32张特征图，32张特征图为预处理特征图。

(3)建立层次上下文和多尺度特征融合网络：

其中，所述第一子网络包含了五个卷积层、两个池化层；依次为一个卷积层，一个池化层，三个卷积层，一个池化层和一个卷积层；其中卷积层卷积尺寸依次分别为9*9、7*7、7*7、7*7和7*7，生成的特征图通道数分别为：16、32、16、20和8，两个池化层步长均为2，第五个卷积层后生成分类特征图。

(3.4)将步骤(3.1)的输出结果输入到卷积神经网络中的全连接层，采用交叉熵函数作为全连接层的损失函数；其中，全连接层为三个，神经元数量分别为：512、256和10。

其中，所述第二子网络依次包含一个卷积层，一个池化层，三个卷积层，一个池化层，两个卷积层，两个转置卷积层；其中卷积层卷积尺寸依次分别为7*7、5*5、5*5、5*5、3*3和3*3，生成的特征图通道数分别为16、32、16、32、24和16，两个池化层步长均为2；两个转置卷积层卷积尺寸均为4*4，生成的特征图通道数分别为24和8，步长均为2。

(3.6)将上一层的输出结果输入到卷积神经网络中的维度变换层，获得给定图像对应的人群密度估计图和人数估计统计结果；其中，采用人群密度估计图和步骤(1)的人群密度图的欧氏距离作为维度变换层的损失函数。

其中，具体操作步骤为：

L(Θ)＝L_D+βL_C

(4)使用训练后的模型对任意输入单幅图像进行人数统计。

实施例

图1是本发明一种基于卷积神经网络的人数统计方法的流程图，该方法包括以下步骤：

步骤1：对图像样本数据进行处理后生成实际人群密度图：

1.1)对图像样本数据中的图像进行灰度化，设彩色图像三通道值为R、G和B，灰度化后的图像为Gray，灰度化计算公式如下：

Gray＝R*0.299+G*0.587+B*0.114 (1)

并通过对数据进行图像分块，增加样本数据量，

1.2)设单幅图像上任意像素为x，人头所在像素为x_g，S为人所在位置周围的像素集合，使用一个标准差为σ的二维高斯核G_σ与脉冲函数δ(x-x_g)做卷积*运算，获得图像对应的人群密度图D(x)，计算公式如下：

步骤2：建立层次上下文和多尺度特征融合网络，整体结构如图2所示：

2.1)建立用于提取层次上下文模块的分支分类网络，结构如图3所示：

2.1.1)建立预处理卷积模块，任意输入单幅分块处理后的图像样本数据x，获得预处理特征图，这一阶段包含两次卷积操作，尺寸分别为9*9和7*7，分别生成16张和32张特征图，32张特征图为预处理特征图；

2.1.2)建立层次上下文提取模块，接收2.1.1)中预处理特征图作为输入，经过层次上下文抽取操作获得层次上下文特征图，经过特征抽取操作获得分类特征图，这一阶段包含了5次卷积、2次池化和1次转置卷积，如图3中虚线框所示，圆角矩形表示卷积操作，按图中从左至右的顺序，卷积尺寸分别为9*9、7*7、7*7、7*7和7*7，生成的特征图通道数分别为：16、32、16、20和8，2次池化操作穿插在卷积操作中，步长均为2，第5次卷积后生成分类特征图。

在最后一层卷积后设置转置卷积操作用于调整生成特征图尺寸，位于图3中虚线框右下角，将转置卷积生成的特征图T和第1次池化生成的特征图M₁以及第3次卷积生成的特征图F₃在通道维度上链接在一起，用

表示，其结果F_context作为提取的层次上下文特征图，计算公式如下：

2.1.3)建立预测分类模块，接收2.1.2)中分类特征图作为输入，获得任意输入单幅分块处理后的图像样本数据x的人群密集程度，将单幅分块处理后的图像样本数据并进行池化并获取相同长度的向量，并设置三个全连接层来输出人群密集程度，神经元数量分别为：512、256和10，

2.1.4)这一阶段采用的损失函数为交叉熵函数，训练样本数设为N，待学习参数为Θ，实际人群密集程度为yⁱ，估计人群密集程度为F_c(X_i,Θ)，人群密集程度总类别数为T，计算公式如下：

2.2)建立多尺度特征融合主干网络，结构如图4所示：

2.2.1)建立多尺度特征融合模块，接收2.1.1)中预处理特征图，这一模块共包括6次卷积、2次转置卷积和2次池化过程，依次为卷积、池化、卷积、池化、卷积、两个转置卷积；其中卷积尺寸依次分别为7*7、5*5、5*5、5*5、3*3和3*3，生成的特征图通道数分别为16、32、16、32、24和16，两个池化步长均为2；两个转置卷积的卷积尺寸均为4*4，生成的特征图通道数分别为24和8，步长均为2。在这一模块中进行了选择性地将低层特征和高层特征进行融合处理，卷积和转置卷积的尺寸如图4所示，图4下方的数字第一行代表这一层输出的特征图通道数，第二行代表该层卷积或转置卷积的尺寸，将多尺度特征融合阶段第3次卷积后的特征图C₃和接收2.1.2)层次上下文特征图F_context在通道上进行链接

链接结果H作为第4次卷积的输入，计算公式如下：

将这一阶段第1次卷积后的特征图C₁进行池化，池化结果为Maxpooling(C₁)，并与和第6次后的卷积图C₆在通道上进行链接

将这阶段第2次卷积后的特征图C₂和第1次转置卷积后的特征图T₁在通道上进行链接

计算公式如下：

第8次卷积后的特征图作为获得的融合特征图，

2.2.2)建立人数统计模块，接收2.2.1)中特征融合结果特征图作为输入，过一个1*1的卷积核对输入的特征图进行操作，得到人群密度估计图，对人群密度估计图进行求和，得到人数估计统计结果，从而获得给定图像对应的人群密度估计图和人数估计统计结果，

2.2.3)使用人群密度估计图和2.1.1)的单幅分块处理后的图像样本数据x的人群密度图的欧氏距离作为损失函数，N为训练样本数量，F_D(X_i；Θ)为生成的人群密度估计图，D_i为人群密度图x，对每一张单幅图像的人群密度估计图和人群密度图x求绝对差值，并对所有图像的绝对差值的总和求平均，得到损失函数的结果，计算公式如下：

步骤3：利用步骤1的人群密度图对建立的层次上下文和多尺度特征融合网络进行训练，得到待学习参数Θ的估计，设置权重项β，使得交叉熵函数和欧氏距离加权和结果最小，训练步骤如下：

3.1)根据图像样本数据中的图像和标记，确定每张图像的人群密集程度，查找所有样本数据中包含人数最多的图像，最多人数值记为g_max，查找所有样本数据中包含人数最少的图像，最少人数值记为g_min，通过对最多人数值和最少人数值作差并除以人群密集程度总类别数T得到密集区间Λ，计算公式如下：

3.2)为建立的层次上下文和多尺度特征融合网络的参数随机设定一个初始值，设置权重项β，使得交叉熵函数L_C和欧氏距离L_D加权和结果最小，计算公式如下：

L(Θ)＝L_D+βL_C (11)

待学习参数Θ采用随机梯度下降法在每一次优化迭代中更新,直到加权和结果L(Θ)收敛到一个较小的值，保存参数及训练后的模型；

步骤4：使用训练后的模型对任意输入单幅图像进行人数统计或人群密度估计，将任意单张图像直接输入到3中训练后的模型中，即可得到对应的人群密度图和人数统计结果，如图5所示。

Claims

1.一种基于卷积神经网络的人数统计方法，其特征在于，该方法包括以下步骤：

(3)建立层次上下文和多尺度特征融合网络：

(4)使用训练后的模型对任意输入单幅图像进行人数统计。

2.根据权利要求1所述的一种基于卷积神经网络的人数统计方法，其特征在于，步骤(1)的具体步骤包括：

1a)对图像样本数据中的图像进行灰度化，计算公式如下：

Gray＝R*0.299+G*0.587+B*0.114

式中，R、G和B为彩色图像三通道值，Gray为灰度化后的图像，

并通过对数据进行图像分块，增加样本数据量，

3.根据权利要求1所述的一种基于卷积神经网络的人数统计方法，其特征在于，步骤(2)包含两个卷积层，尺寸分别为9*9和7*7，分别生成16张和32张特征图，32张特征图为预处理特征图。

4.根据权利要求1所述的一种基于卷积神经网络的人数统计方法，其特征在于，所述第一子网络包含了五个卷积层和两个池化层。

5.根据权利要求4所述的一种基于卷积神经网络的人数统计方法，其特征在于，所述第一子网络依次包含一个卷积层，一个池化层，三个卷积层，一个池化层和一个卷积层；其中卷积层卷积尺寸依次分别为9*9、7*7、7*7、7*7和7*7，生成的特征图通道数分别为：16、32、16、20和8，两个池化层步长均为2，第五个卷积层后生成分类特征图。

6.根据权利要求1所述的一种基于卷积神经网络的人数统计方法，其特征在于，所述全连接层为三个，神经元数量分别为：512、256和10。

7.根据权利要求1所述的一种基于卷积神经网络的人数统计方法，其特征在于，所述第二子网络包括六个卷积层、两个转置卷积层和两个池化层。

8.根据权利要求1所述的一种基于卷积神经网络的人数统计方法，其特征在于，所述第二子网络依次包含一个卷积层，一个池化层，三个卷积层，一个池化层，两个卷积层，两个转置卷积层；其中卷积层卷积尺寸依次分别为7*7、5*5、5*5、5*5、3*3和3*3，生成的特征图通道数分别为16、32、16、32、24和16，两个池化层步长均为2；两个转置卷积层的卷积尺寸均为4*4，生成的特征图通道数分别为24和8，步长均为2。

9.根据权利要求1所述的一种基于卷积神经网络的人数统计方法，其特征在于，所述维度变换层为一个1*1的卷积核层。

10.根据权利要求1所述的一种基于卷积神经网络的人数统计方法，其特征在于，步骤(3.7)的具体操作步骤为：

L(Θ)＝L_D+βL_C