CN109598220B

CN109598220B - 一种基于多元输入多尺度卷积的人数统计方法

Info

Publication number: CN109598220B
Application number: CN201811415338.8A
Authority: CN
Inventors: 元辉; 贺黎恒
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2018-11-26
Filing date: 2018-11-26
Publication date: 2021-07-30
Anticipated expiration: 2038-11-26
Also published as: CN109598220A

Abstract

本发明涉及一种基于多元输入多尺度卷积的人数统计方法，包括步骤如下：(1)对图像进行大尺度卷积处理，并且提取图像特征；(2)对图像进行小尺度卷积处理，并且提取图像特征；(3)对密度图进行最大池化，并且提取特征；(4)通过图像和密度图的特征向量计算图像中的人数。本发明提高了网络对尺度变化的鲁棒性，降低了在测试集上的均方误差。

Description

一种基于多元输入多尺度卷积的人数统计方法

技术领域

本发明涉及一种基于多元输入多尺度卷积的人数统计方法，属于图像处理技术领域。

背景技术

从静态图像中准确估计人数是为了实现重点区域内的人群密度监控，以防范可能发生的群众聚集和踩踏事件。在数字图像中，随着人群密度的增加，每个人在图像中所占的像素数量也越来越少，人数统计也越来越难。受到复杂背景、物体遮挡和透视失真等因素影响，图像中人数的精确估计非常困难。近年来，基于卷积神经网络的深度学习技术得到广泛的研究。针对人数的精确估计，研究人员设计了相应的卷积神经网络结构，极大提高了人数统计的准确度。

Zhang[1]等人提出了一种基于多列卷积神经网络的单张图像人群计数算法，如图3所示，其中的多列卷积神经网络有三个子网络，每个子网络用到卷积核的大小不同，每个子网络的输入为同一张图像，在经过四次卷积和两次池化后，三个子网络输出的特征图在“通道”维度上链接在一起，再用一个1×1的核卷积得到人群的密度图。但是，这三个子网络只在网络的高层链接在一起，在网络浅层的多尺度特征没有被充分融合，造成了几何特征丢失，影响了人数估计的精度。

Daniel[2]提出了一种基于多尺度块的多分支卷积网络，如图4所示。该方案由三个不同的子网组成，虽然输入块有不同的尺度，但是，该专利的三个子网络的结构是一样的，并且这三个子网络只在网络的高层链接在一起，在网络浅层的多尺度特征没有被充分融合，造成了几何特征丢失，影响了人数估计的精度。

Han[3]提出了基于残差网络(ResNet)和条件随机场相结合的方法，如图5所示。该方案首先从每张图像中有重叠地采样出若干个块，然后用残差网络计算出每个块的人数预测值，然后把这些块的人数预测值送到条件随机场计算图像中的人数预测值。但是，该方案必须先用残差网络计算出每个块的预测值，然后才能利用条件随机场预测出图像中的人数；也就是说，该方案是分步执行的，并且这两个步骤不能合并成一个步骤。

中国专利文献CN107657226 A公开了一种基于深度学习的人数估计方法，属于基于深度学习的人群密度估计。采用一种基于卷积层和池化层的单列卷积神经网络，通过大量样本的训练，学习人群特征，从而估计输入图像的人群密度图，进而对密度图进行积分，得到该图像上人群的人数估计。虽然，该专利采用基于单列卷积神经网络，降低了网络复杂度，但是不能证明对密度图进行积分就能得到该图像上人数的准确估计。

中国专利文献CN105528589A公开了一种基于多列卷积神经网络的单张图像人群计数算法，其中的多列卷积神经网络有三个子网络，每个子网络用到卷积核的大小不同，每个子网络的输入为同一张图像，在经过四次卷积和两次池化后，三个子网络输出的特征图在“通道”维度上链接在一起，再用一个1×1的核卷积得到人群的密度图。但是，该专利的三个子网络只在网络的高层链接在一起，在网络浅层的多尺度特征没有被充分融合，造成了几何特征丢失，影响了人数估计的精度。

上述两篇现有专利文献中虽然都采用了卷积神经网络及密度图统计人数，但是各个子网络之间没有交叉链接实现信息交流。此外，也并没有证据表明密度图的积分等于图像中的人数。

通过实验发现，图像中物体遮挡和透视失真较严重时，Zhang[1]等人提出的一种基于多列卷积神经网络的单张图像人群计数算法、Daniel[2]提出的一种基于多尺度块的多分支卷积网络及Han[3]提出了基于残差网络(ResNet)和条件随机场相结合的方法的准确度仍然较低。比如说，Zhang[1]与中国专利文献CN105528589A提出的方案虽然每个子网络的尺度不同，但是，在浅层的多尺度特征没有被充分融合，仅仅融合了高层的多尺度特征。Daniel[2]提出的方案虽然利用了多列卷积网络，但是每列的结构相同，多尺度特征仅仅体现在训练集包含的块具有不同的尺度而已。Han[3]提出的方案需要先计算每个块的人数预测值，然后基于这些块的预测值计算图像中人数的预测值，然而对于复杂纹理区域从图像中有重叠地采样可能会给模型增加噪声。因此基于深度学习的人数估计算法还有很大的提升空间。

发明内容

针对现有静态图像人数统计技术存在的不足，本发明提出一种基于多元输入多尺度卷积的人数统计方法。

本发明涉及图像分析中的特征提取技术和统计分析中的回归模型，采用深度卷积网络提取特征，并将指示局部人群密度的密度图当作辅助信息，用监督学习的方式训练网络，将得到的网络参数用于未知图像人数的预测，降低了预测的误差。

术语解释：

1.批归一化(Batch Normalization)处理，包括以下四个步骤：

①求每一个训练批次数据的均值；

②求每一个训练批次数据的方差；

③使用求得的均值和方差对该批次的训练数据做规范化，即把该批次的每一个训练数据减去均值后再除以标准差；

④乘以尺度因子γ，再加上平移因子β。

2.线性整流(ReLU)激活函数，是指f(x)＝max(0,x)。

3.最大池化(即“下采样”)操作，是指对邻域内的特征点取最大。

4.S函数(sigmoid)激活函数，是指

5.mini-batch随机梯度下降算法，一阶最优化算法，要使用梯度下降法找到一个函数的局部极小值，必须向函数上当前点对应梯度(或者是近似梯度)的反方向的规定步长进行迭代搜索。而mini-batch随机梯度下降算法在更新每一参数时都只使用“一部分”样本。

6.大尺度卷积模块，如图1所示，图像同时经过尺寸为11×11,9×9,7×7的卷积核卷积，每一个尺度的卷积之后都经过一次批归一化和一次线性整流激活函数，最后将所得的特征图在特征维度上链接在一起。图中的N1表示卷积核的个数。

7.小尺度卷积模块，如图2所示，图像同时经过尺寸为5×5,3×3的卷积核卷积，每一个尺度的卷积之后都经过一次批归一化和一次线性整流激活函数，最后将所得的特征图在特征维度上链接在一起。图中的N2表示卷积核的个数。

发明概述：

一种基于多元输入多尺度卷积的人数统计方法，包括步骤如下：

(1)对图像进行大尺度卷积处理，并且提取特征；

(2)对图像进行小尺度卷积处理，并且提取特征；

(3)对密度图进行最大池化操作，并且提取特征；

(4)通过图像和密度图的特征向量计算图像中的人数。

本发明的技术方案为：

A、训练过程

(1)获取多尺度数据，多尺度数据是指多尺度数据训练集(I,M,C)，每个样本用(I_i,M_i,C_i)表示，即I_i表示图像i，M_i表示图像i的密度图，C_i表示图像i中的人数。

根据本发明优选的，所述步骤(1)，获取多尺度数据，包括：

①对图像数据库中的每一幅图像做随机裁剪，得到M个大小为a×b、N个大小为c×d的图像块，M取值范围是1-100，N的取值范围是1-100，a的取值范围是1-320，b的取值范围是1-240，c的取值范围是1-320，d的取值范围是1-240，a、b、c、d的单位为像素；

进一步优选的，所述步骤①中，对图像数据库中的每一幅图像做随机裁剪，得到5个大小为120×80、5个大小为150×100的图像块。

②将图像数据库中的每一幅图像，以及步骤①随机截取的每个图像块的分辨率调整为e×f，e的取值范围是80-640，f的取值范围是60-480；

进一步优选的，所述步骤②中，将图像数据库中的每一幅图像，以及步骤①随机截取的每个图像块的分辨率调整为320×240。

③对图像数据库中的每一幅图像以及每个图像块都分别依次进行水平翻转、垂直翻转、中心对称变换、高斯噪声添加共4种操作，获得新的图像集合，记为I；

④对新的图像集合I中的每一幅图像的人头位置进行标注，得到图像集合I的标注模板图集合，记为L，以及新的图像集合I中所有图像中人数的集合C；

⑤通过式(Ⅱ)对标注模板集合L中每一幅图像进行处理，得到图像集合I的密度图集合，记为M：

式(Ⅱ)中，{(x_k,y_k),0≤k≤C_i}表示图像i中标记出的人的像素位置，C_i表示图像i中的人数，M_i(x,y)表示图像i对应的密度图，σ是标准差，i表示图像的编号，0_dxc表示尺寸为e×f的全零矩阵；σ的取值范围是0.05到10；

进一步优选的，σ＝3.0。

⑥获得多尺度数据训练集(I,M,C)，每个样本用(I_i,M_i,C_i)表示，即I_i表示图像i，M_i表示图像i的密度图，C_i表示图像i中的人数；

(2)对多尺度数据进行多级多尺度卷积处理；

运行于基于多输入源的级联多尺度深度卷积模型；该模型包括三个子网络，包括子网络一、子网络二、子网络三，子网络一和子网络二用到卷积核的大小不同，输入图像在子网络一依次经过一个大尺度卷积模块、一个小尺度卷积模块、一个全连接层处理，得到64维特征向量；同时，输入图像在子网络二依次经过三个小尺度卷积模块，再经过一个全连接层处理，得到64维特征向量；密度图在子网络三内经过两次最大池化和一次批归一化，在子网络三的输出，得到64维特征向量；将在子网络一得到的64维特征向量、子网络二得到的64维特征向量和子网络三得到的64维特征向量同时输入全连接层，输出一个数，这个数就表示图像中的人数；

网络结构部署如下：

进一步优选的，所述步骤(2)中，子网络一对图像集合I做大尺度卷积处理，获得特征向量：包括：

a、采用N1为16的大尺度卷积模块，并且采用均值为0、方差为1的高斯分布，对该大尺度卷积模块内的4个卷积核进行随机初始化；

b、采用该大尺度卷积模块对大小为320×240的输入图像进行卷积；

c、采用滑动窗口为3、步长为2的最大池化对大尺度卷积模块的卷积结果进行下采样操作，将输出图像集合标记为Ο₁₁；

d、采用N2为8的小尺度卷积模块，并且采用均值为0、方差为1的高斯分布，对小尺度卷积模块内的3个卷积核进行随机初始化；

e、采用该小尺度卷积模块对Ο₁₁进行卷积，再进行一次批归一化处理；将输出图像的集合记为Ο₁₂；

f、采用一个输入有1131个神经单元，输出有64个神经单元的全连接层MLP₁₁，用最小值为

最大值为

的均匀分布初始化全连接层的权重矩阵W₁₁，并将偏置项b初始化为0；采用全连接层MLP₁₁处理Ο₁₂，经过线性整流(ReLU)激活函数，得到64维的特征向量v₁₁。

进一步优选的，所述步骤(2)中，子网络二，对图像集合I做小尺度卷积处理，并且获得特征向量，包括：

g、采用N2为16的小尺度卷积模块，并且采用均值为0、方差为1的高斯分布，对该小尺度卷积模块的3个卷积核进行随机初始化；

h、采用该小尺度卷积模块对大小为320×240的输入图像进行卷积；再进行一次批归一化处理，将所得图像集合标记为Ο₂₁；

i、采用滑动窗口为3、步长为2的最大池化对Ο₂₁进行下采样操作，将所得图像集合标记为Ο₂₂；

j、采用N2为8的小尺度卷积模块，并且采用均值为0、方差为1的高斯分布，对该小尺度卷积模块的3个卷积核进行随机初始化；

k、采用该小尺度卷积模块对Ο₂₂进行卷积，接着进行一次批归一化处理，将所得图像集合标记为Ο₂₃；

l、采用N2为6的小尺度卷积模块，并且采用均值为0、方差为1的高斯分布，对该小尺度卷积模块的3个卷积核进行随机初始化；

m、采用N2为6的小尺度卷积模块对Ο₂₃进行卷积，再进行一次批归一化处理，将所得图像集合标记为Ο₂₄；

n、采用一个输入有285个神经单元、输出有64个神经单元的全连接层MLP₂₁，用最小值为

最大值为

的均匀分布初始化全连接层的权重矩阵W₂₁，并将偏置项b初始化为0；用全连接层MLP₂₁处理Ο₂₄，经过线性整流(ReLU)激活函数，得到64维的特征向量v₂₁。

进一步优选的，所述步骤(2)中，子网络三，从密度图集合M获得特征向量，包括：

o、对密度图依次进行滑动窗口为3、步长为2的最大池化和滑动窗口为2、步长为1的最大池化；

p、经过批归一化处理，将输出的图像的集合标记为Ο₃₁；

q、采用一个输入有18644个神经单元、输出有64个神经单元的全连接层MLP₃₁，用最小值为

最大值为

的均匀分布初始化全连接层的权重矩阵W₃₁，并将偏置项b初始化为0；

r、用全连接层MLP₃₁处理Ο₃₁和Ο₂₁，并且经过一种常见的S函数(sigmoid)激活函数，得到64维的特征向量v₃₁。

进一步优选的，所述步骤(2)中，利用图像和密度图的特征向量计算图像中的人数，包括：

s、利用一个输入有192个神经单元、输出有64个神经单元的全连接层MLP_im，用最小值为

最大值为

的均匀分布初始化全连接层的权重矩阵W₁₁，并将偏置项b初始化为0；

t、用全连接层MLP_im同时处理v₁₁，v₁₂和v₁₃，并且经过线性整流(ReLU)激活函数，得到1维的标量

这个标量

就是图像中的人数。

(3)网络训练：

ⅰ、定义损失函数，即待优化的目标函数如式(Ⅰ)所示：

式(Ⅰ)中，n表示训练集增广后的样本数量，即n＝70400。F(I_j,M_j,Θ)表示整个网络学习到的函数，j表示图像编号，λ表示正则项的权重，I_j，M_j，Θ分别表示主、从输入和网络参数；

ⅱ、应用mini-batch随机梯度下降算法最小化损失函数，mini-batch为16；

ⅲ、在训练网络之前，设置超参数，包括初始学习率base_lr，每t次迭代学习率降低到原来的r％，最大迭代次数n，网络参数更新冲量m；网络参数衰减系数beta；base_lr的取值范围为1e-1～1e-6，t的取值范围为1～10000，r的取值范围为0.01～100，n的取值范围为1000～100000，m的取值范围为0.09～0.99，beta的取值范围为0.00005～0.5；

进一步优选的，base_lr的取值范围为1e-5；t的取值为2000；r的取值为10；n的取值为10000；m的取值为0.95；beta的取值为0.0005。

ⅳ、采取分级预训练的策略训练整个基于多输入源的级联多尺度深度卷积模型：

首先，预训练子网络一，用所得参数初始化子网络一；然后，预训练子网络二，用所得参数初始化子网络二；最后，训练整个模型；

B、测试过程：

利用训练所得的模型参数，初始化基于多输入源的级联多尺度深度卷积模型，把测试集中的图像及其对应的密度图分别作为模型的主、从输入，模型直接输出图像中的人数。如果在实际应用中，只有测试图像没有对应的密度图，则可以用全卷积网络产生的密度图代替真实的密度图。

本发明的有益效果为：

1.本发明提出了一种图像(块)多尺度和卷积核多尺度相结合的方法，提高了网络对尺度变化的鲁棒性，降低了在测试集上的均方误差；

2.本发明利用密度图作为辅助信息，提高了人数估计的准确度；

3.本发明提出了多层级联的多尺度卷积网络结构，增强了网络的特征提取能力。

附图说明

图1为大尺度卷积模块的结构框图；

图2为小尺度卷积模块的结构框图；

图3是Zhang等人提出的多列卷积网络的架构图。

图4是Daniel等人提出的一种基于多尺度块的多分支卷积网络的架构图。

图5是Han等人提出的一种将残差网络(ResNet)、全连接网络和马尔可夫随机场相结合的架构图。

图6是本发明提出的一种基于多输入源的级联多尺度深度卷积模型的网络结构图。

具体实施方式

下面结合说明书附图和实施例对本发明作进一步限定，但不限于此。

实施例1

A、训练过程

(2)对多尺度数据进行多级多尺度卷积处理；

运行于基于多输入源的级联多尺度深度卷积模型；如图6所示，该模型包括三个子网络，包括子网络一、子网络二、子网络三，子网络一和子网络二用到卷积核的大小不同，输入图像在子网络一依次经过一个大尺度卷积模块、一个小尺度卷积模块、一个全连接层处理，得到64维特征向量；同时，输入图像在子网络二依次经过三个小尺度卷积模块，再经过一个全连接层处理，得到64维特征向量；密度图在子网络三内经过两次最大池化和一次批归一化，在子网络三的输出，得到64维特征向量；将在子网络一得到的64维特征向量、子网络二得到的64维特征向量和子网络三得到的64维特征向量同时输入全连接层，输出一个数，这个数就表示图像中的人数；图1为大尺度卷积模块的结构框图如图1所示，小尺度卷积模块的结构框图如图2所示。

(3)网络训练：

ⅰ、定义损失函数，即待优化的目标函数如式(Ⅰ)所示：

B、测试过程：

利用训练所得的模型参数，初始化基于多输入源的级联多尺度深度卷积模型，把测试集中的图像及其对应的密度图分别作为模型的主、从输入，模型直接输出图像中的人数。

实施例2

根据实施例1所述的一种基于多元输入多尺度卷积的人数统计方法，其区别在于：

步骤(1)，获取多尺度数据，包括：

步骤(2)中，子网络一对图像集合I做大尺度卷积处理，获得特征向量：包括：

最大值为

步骤(2)中，子网络二，对图像集合I做小尺度卷积处理，并且获得特征向量，包括：

最大值为

p、经过批归一化处理，将输出的图像的集合标记为Ο₃₁；

最大值为

步骤(2)中，利用图像和密度图的特征向量计算图像中的人数，包括：

最大值为

这个标量

就是图像中的人数。

实施例3

步骤(1)，获取多尺度数据，包括：

①对图像数据库中的每一幅图像做随机裁剪，得到5个大小为120×80、5个大小为150×100的图像块。

②将图像数据库中的每一幅图像，以及步骤①随机截取的每个图像块的分辨率调整为320×240。

③对图像数据库中的每一幅图像以及每个图像块都分别依次进行水平翻转、垂直翻转、中心对称变换、高斯噪声添加共4种操作，获得新的图像集合，记为I；该步骤仅对训练集有效，对测试集无效。

④对新的图像集合I中的每一幅图像的人头位置进行标注，得到图像集合I的标注模板图集合，记为L，以及新的图像集合I中所有图像中人数的集合C；对测试集的每一幅图像执行同样的操作；

式(Ⅱ)中，{(x_k,y_k),0≤k≤C_i}表示图像i中标记出的人的像素位置，C_i表示图像i中的人数，M_i(x,y)表示图像i对应的密度图，σ是标准差，i表示图像的编号，0_dxc表示尺寸为e×f的全零矩阵；σ＝3.0。

最大值为

最大值为

步骤(2)中，子网络三，从密度图集合M获得特征向量，包括：

p、经过批归一化处理，将输出的图像的集合标记为Ο₃₁；

最大值为

最大值为

这个标量

就是图像中的人数。

步骤(3)中，网络训练，包括：

ⅰ、定义损失函数，即待优化的目标函数如式(Ⅰ)所示：

ⅲ、在训练网络之前，设置超参数，包括初始学习率base_lr，每t次迭代学习率降低到原来的r％，最大迭代次数n，网络参数更新冲量m；网络参数衰减系数beta；base_lr的取值范围为1e-5；t的取值为2000；r的取值为10；n的取值为10000；m的取值为0.95；beta的取值为0.0005。

本实施例的效果可以通过实验进一步说明。表1比较了采用本发明与Zhang等人的方法、Daniel等人的方法和Han等人的方法在UCSD和MALL图像数据库的测试集上的预测误差。表中“(用真实密度图计算)”是指：把真实密度图的像素和看作是对应图像中的真实人数。

表1

由表1可知，本发明的方法比其它四种方法更准确。

Claims

1.一种基于多元输入多尺度卷积的人数统计方法，其特征在于，包括步骤如下：

A、训练过程

(1)获取多尺度数据，多尺度数据是指多尺度数据训练集(I,M,C)，每个样本用(I_i,M_i,C_i)表示，即I_i表示图像i，M_i表示图像i的密度图，C_i表示图像i中的人数；

(2)对多尺度数据进行多级多尺度卷积处理；运行于基于多输入源的级联多尺度深度卷积模型；该模型包括三个子网络，包括子网络一、子网络二、子网络三，子网络一和子网络二用到卷积核的大小不同，输入图像在子网络一依次经过一个大尺度卷积模块、一个小尺度卷积模块、一个全连接层处理，得到64维特征向量；同时，输入图像在子网络二依次经过三个小尺度卷积模块，再经过一个全连接层处理，得到64维特征向量；密度图在子网络三内经过两次最大池化和一次批归一化，在子网络三的输出，得到64维特征向量；将在子网络一得到的64维特征向量、子网络二得到的64维特征向量和子网络三得到的64维特征向量同时输入全连接层，输出一个数，这个数就表示图像中的人数；

(3)网络训练：

ⅰ、定义损失函数，即待优化的目标函数如式(Ⅰ)所示：