CN108491766B

CN108491766B - 一种端到端的基于深度决策森林的人群计数方法

Info

Publication number: CN108491766B
Application number: CN201810179743.8A
Authority: CN
Inventors: 纪庆革; 马天俊; 朱婷
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-03-05
Filing date: 2018-03-05
Publication date: 2021-10-26
Anticipated expiration: 2038-03-05
Also published as: CN108491766A

Abstract

本发明提供一种端到端的基于深度决策森林的人群计数方法，将视频帧图像与人数标签分布联系起来，标签分布反映了不同标签对该视频帧的贡献程度。采用深度回归森林来学习人数标签分布模型，输入测试数据便可得到对应的分布预测，其中描述程度最大的标记便是该图像数据对应的人数。本发明定义了一个基于分布的森林损失函数，使所有的树能够共同学习，并且通过变分边界可以导出叶节点预测的更新函数，从而保证了损失函数的严格下降。

Description

一种端到端的基于深度决策森林的人群计数方法

技术领域

本发明涉及行人检测领域，更具体地，涉及一种端到端的基于深度决策森林的人群计数方法。

背景技术

视频人群计数问题是计算机视觉领域中一个重要组成部分。目前的技术算法可以分为基于行人检测的方法，基于轨迹聚类的方法和基于特征回归的方法。基于检测的方法一般适用于人群较为稀疏的场景，不能很好解决人群拥挤遮挡问题。视觉特征轨迹聚类算法对于视频监控，一般用KLT跟踪器和聚类的方法，通过轨迹聚类得到的数目来估计人数。而基于特征的回归:建立图像特征和图像人数的回归模型，通过测量图像特征从而估计场景中的人数。由于拥挤情况下采用直接法容易受到遮挡等难点问题的影响，而间接法从人群的整体特征出发，具有大规模人群计数的能力。

传统方法在提取图像特征时，往往使用手工设计特征进行提取的方法，如SIFT，HOG，LBP等，这些手工提取特征过于依赖设计者的先验知识，难以利用大数据的优势，在特征提取的效果方面也受限于各种因素的影响，深度学习与传统方法的最大不同在于，通过大量数据的训练，神经网络能够自动学习特征，相比于人工特征对人群有更好的表述能力。

同时，传统特征回归算法提取的特征往往只考虑了每幅视频帧上特征的空间信息，而忽略了视频帧序列之间的时序特性。在判断确切人数的时候，人们总是习惯将猜测帧和大脑已存的视频帧相比较，然后综合比较结果估计出确切的人数。每个视频帧的人数总与相邻帧相关联。所以人群计数问题也可以转化为标记分布学习问题求解，达到信息的复用，学习出视频帧特征和标记分布之间的函数关系。

发明内容

本发明为克服上述现有技术所述的至少一种缺陷，提供一种端到端的基于深度决策森林的人群计数方法。

为解决上述技术问题，本发明的技术方案如下：

一种端到端的基于深度决策森林的人群计数方法，包括以下步骤：

S1：利用深度学习框架caffe(卷积神经网络框架，Convolutional Architecturefor Fast Feature Embedding)建立卷积神经网络，对视频帧图像进行深度特征提取；

S2：利用卷积神经网络全连接层输出，将决策森林替代卷积神经网络的softmax层训练深度回归森林；

S3：对视频帧图像按角度旋转、图像的多尺度缩放、图像的镜像以及图像金字塔缩放的操作实现图像数据增强；

S4：将视频人群图片输入给卷积神经网络训练，通过反向传播不断地优化最终得到训练好的卷积神经网络模型；

S5：输入测试图像得到的分布预测，其中描述程度最大的标记便是该图像对应的人数，最终预测结果是森林中所有决策树的均值。

优选地，步骤S1中，采用一个类似VGG-16的网络结构对视频帧图像进行深度特征提取，所述卷积神经网络有5个卷积层和3个全连接层，卷积神经网络中所有的卷积层都是同样大小的滤波器，尺寸为3*3，卷积步长为1，填充为1；有5个步长为2的最大池化层，最终的特征图大小只有输入图像尺寸的1/32，同时在VGG-16结构的基础上将最终全连接层的输出从1000个改为128个输出单元，对于一个输入样本x，第n个输出单元输出f_n(x；θ)＝θ^Tx，其中n∈[1,128]，θ是卷积神经网络参数。

优选地，步骤S2中，利用决策森林来代替卷积神经网络的softmax层包括以下步骤：

S21:决策森林由5棵决策树组成，记为

森林中所有树都共享卷积神经网络的网络参数θ，对于第i颗树

而言：(1)深度为7层，包括分裂节点和预测节点；(2)索引函数

将S1的输出单元映射到决策树的分裂节点上；

S22:分裂节点即决策树的非叶子节点，分裂节点集合记为

每个分裂节点

都定义了一个分裂函数

γ是sigmod函数，使分裂函数的输出映射到[0,1]，

表示分裂节点n通过该决策树的索引函数

对应的神经网络的输出单元值，通过分裂函数结果得出一个样本x分类为该节点左孩子的概率t_n(x；θ)；以及分类为右孩子的概率：1-t_n(x；θ)；

S23:预测节点是决策树的叶子节点，预测节点集合记为

每个叶子节点

都定义了一个概率分布函数q_l(y)作为预测结果输出，为了计算简便，初始设定q_l(y)是一个高斯分布，∫q_l(y)＝1；

据上，一个样本x落入某个预测节点l的概率为：

其中

和

分别表示S22中定义的分裂节点n的左子树和右子树；Ι(·)是指示函数；t_n(x；θ)为该叶子节点与决策树根节点之间路径上的分裂节点上的分裂函数，所以一个样本x在一棵决策树下最终预测对应的标记分布y的概率为：

所以对于训练集

定义森林的loss函数是所有树的loss函数和的均值，记为

定义如下：

其中N为森林中决策树的数量，其余变量如前文所示，预测节点的概率分布q和网络参数θ为训练目标。

优选地，步骤S3采用不同的图像增强办法对训练集进行数据量扩充，包括以下步骤：

S31:利用有限的有标记训练集数据，图像增强是扩充训练数据集的一种办法，图像增强包括：(1)图像的翻转：对视频帧的翻转包括沿着水平方向翻转图像；(2)图像的旋转：通过以原始图像的中心为原点旋转一定的角度，从而得到一张新的图片；(3)对数据集进行前景分割，提取出背景放入训练集；

S32：给定训练集

其中x_i∈X是一个样本视频帧图像，

是第i个样本x_i的有序标签分布，y代表了标签集，即人数范围；为不失一般性，x_i对应的标记分布p(y|x)定义为一个以其真实人数μ为中心的高斯分布作为先验标记分布，即：

其中σ是高斯分布的标准差，μ为该样本中包含的真实人数。

优选地，步骤S4训练的目标是从训练集

中学习出一个条件概率质量函数p(y|x)，对于给定的视频帧图像产生一个自适应于其真实人数的标记分布，步骤S4包括以下步骤：

S41：随机初始化：在训练阶段，决策森林

由N棵决策树组成，森林中所有的树设定相同的θ初始值，训练是求使得损失函数最小的q和θ；

S42：由于神经网络中θ参数量太大，采用随机梯度下降法学习参数θ，又因为节点的分裂使用soft函数，所以loss函数是可微的，则S23中定义的loss函数

对θ求偏导又可表示为：

其中

为S22所定义，由此可见反向传播分为两个部分，第一部分A是决策树的反向传播，第二部分B是深度神经网络的反向传播，此处设定最大迭代次数为γ＝30000，学习率α＝0.05，每完成10000次迭代，α＝α*0.5；

S43:对预测节点，不同的叶子节点标记了不同的分布，所以这里5棵树同时训练，函数约束如下：

其中

为S23定义的loss函数，q_l为决策树中叶子节点l定义的分布，

这里采用mini-batch梯度下降策略，是为了应对大数据量的计算而实现的一种快速收敛的求解，在完成S42阶段后，根据其训练处的θ参数，进行对预测节点分布的学习训练，此处设定的最大迭代次数为τ＝20，mini-batch设置为50；

S44：训练森林采用交替迭代的方法，依次执行S42更新决策函数的参数和S43更新预测节点的分布；直到loss函数收敛或者达到最大迭代次数；

S45：通过已给训练集学习得到标签描述程度，输入一个新的视频帧则可以得到与之相对应的人数标签分布，而分布中最大的描述程度所对应的人数标签为该决策树预测出的人数标签，即：

其中p(y|x；θ)为深度森林输出的概率分布，而

为预测的人数，即为使得p(y|x；θ)最大的y值；

最后预测结果是森林中所有单颗树预测的平均结果。

与现有技术相比，本发明技术方案的有益效果是：本发明提供一种端到端的基于深度决策森林的人群计数方法，将视频帧图像与人数标签分布联系起来，标签分布反映了不同标签对该视频帧的贡献程度，采用深度回归森林来学习人数标签分布模型，输入测试数据便可得到对应的分布预测，其中描述程度最大的标记便是该图像数据对应的人数。本发明定义了一个基于分布的森林损失函数，使所有的树能够共同学习，并且通过变分边界可以导出叶节点预测的更新函数，从而保证了损失函数的严格下降。

将分类树模型和深度神经网络的特征学习相结合进行端到端训练的深度学习方法。使用深度决策森林作为最终的预测模型，在手写数据库MNIST和图像分类数据库ImageNet的实验中都取得了很好的结果。

附图说明

图1为本发明基于深度决策森林的人群计数方法的流程图。

图2为本发明的卷及神经网络参数示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，一种端到端的基于深度决策森林的人群计数方法，包括以下步骤：

优选地，步骤S1中，如图2所示，采用一个类似VGG-16的网络结构对视频帧图像进行深度特征提取，所述卷积神经网络有5个卷积层和3个全连接层，卷积神经网络中所有的卷积层都是同样大小的滤波器，尺寸为3*3，卷积步长为1，填充为1；有5个步长为2的最大池化层，最终的特征图大小只有输入图像尺寸的1/32，同时在VGG-16结构的基础上将最终全连接层的输出从1000个改为128个输出单元，对于一个输入样本x，第n个输出单元输出f_n(x；θ)＝θ^Tx，其中n∈[1,128]，θ是卷积神经网络参数。

S21:决策森林由5棵决策树组成，记为

而言：(1)深度为7层，包括分裂节点和预测节点；(2)索引函数

将S1的输出单元映射到决策树的分裂节点上；

S22:分裂节点即决策树的非叶子节点，分裂节点集合记为

每个分裂节点

都定义了一个分裂函数

γ是sigmod函数，使分裂函数的输出映射到[0,1]，

表示分裂节点n通过该决策树的索引函数

S23:预测节点是决策树的叶子节点，预测节点集合记为

每个叶子节点

据上，一个样本x落入某个预测节点l的概率为：

其中

和

所以对于训练集

定义森林的loss函数是所有树的loss函数和的均值，记为

定义如下：

S32：给定训练集S＝{(x₁,D₁),(x₂,D₂),…,(x_n,D_n),}，其中x_i∈X是一个样本视频帧图像，

其中σ是高斯分布的标准差，μ为该样本中包含的真实人数。

优选地，步骤S4训练的目标是从训练集

S41：随机初始化：在训练阶段，决策森林

对θ求偏导又可表示为：

其中

其中

为S23定义的loss函数，q_l为决策树中叶子节点l定义的分布，

其中p(y|x；θ)为深度森林输出的概率分布，而

为预测的人数，即为使得p(y|x；θ)最大的y值；

最后预测结果是森林中所有单颗树预测的平均结果。

本发明提供一种端到端的基于深度决策森林的人群计数方法，将视频帧图像与人数标签分布联系起来，标签分布反映了不同标签对该视频帧的贡献程度，采用深度回归森林来学习人数标签分布模型，输入测试数据便可得到对应的分布预测，其中描述程度最大的标记便是该图像数据对应的人数。本发明定义了一个基于分布的森林损失函数，使所有的树能够共同学习，并且通过变分边界可以导出叶节点预测的更新函数，从而保证了损失函数的严格下降。

Claims

1.一种端到端的基于深度决策森林的人群计数方法，其特征在于，包括以下步骤：

S1：利用深度学习框架caffe建立卷积神经网络，对视频帧图像进行深度特征提取；

S2：利用卷积神经网络全连接层输出，将决策森林替代卷积神经网络的softmax层训练深度回归森林；步骤S2中，利用决策森林来代替卷积神经网络的softmax层包括以下步骤：

S21:决策森林由5棵决策树组成，记为

而言：(1)深度为7层，包括分裂节点和预测节点；(2)索引函数

将S1的输出单元映射到决策树的分裂节点上；

S22:分裂节点即决策树的非叶子节点，分裂节点集合记为

每个分裂节点

都定义了一个分裂函数

γ是sigmod函数，使分裂函数的输出映射到[0,1]，

表示分裂节点n通过该决策树的索引函数

对应的神经网络的输出单元值，通过分裂函数结果得出一个样本x分类为该节点左子树的概率t_n(x；θ)；以及分类为右子树的概率：1-t_n(x；θ)；

S23:预测节点是决策树的叶子节点，预测节点集合记为

每个叶子节点

都定义了一个概率分布函数

作为预测结果输出，为了计算简便，初始设定

是一个高斯分布，

据上，一个样本x落入某个预测节点l的概率为：

其中

和

所以对于训练集

定义森林的loss函数是所有树的loss函数和的均值，记为

定义如下：

其中N为森林中决策树的数量，其余变量如前文所示，预测节点的概率分布q和网络参数θ为训练目标；

2.根据权利要求1所述的端到端的基于深度决策森林的人群计数方法，其特征在于，步骤S1中，所述卷积神经网络有5个卷积层和3个全连接层，卷积神经网络中所有的卷积层都是同样大小的滤波器，尺寸为3*3，卷积步长为1，填充为1；有5个步长为2的最大池化层，最终的特征图大小只有输入图像尺寸的1/32，同时在VGG-16结构的基础上将最终全连接层的输出从1000个改为128个输出单元，对于一个输入样本x，第n个输出单元输出f_n(x；θ)＝θ^Tx，其中n∈[1,128]，θ是卷积神经网络参数。

3.根据权利要求2所述的端到端的基于深度决策森林的人群计数方法，其特征在于，步骤S3采用不同的图像增强办法对训练集进行数据量扩充，包括以下步骤：

S32：给定训练集