CN108491766B - 一种端到端的基于深度决策森林的人群计数方法 - Google Patents

一种端到端的基于深度决策森林的人群计数方法 Download PDF

Info

Publication number
CN108491766B
CN108491766B CN201810179743.8A CN201810179743A CN108491766B CN 108491766 B CN108491766 B CN 108491766B CN 201810179743 A CN201810179743 A CN 201810179743A CN 108491766 B CN108491766 B CN 108491766B
Authority
CN
China
Prior art keywords
forest
distribution
image
decision
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810179743.8A
Other languages
English (en)
Other versions
CN108491766A (zh
Inventor
纪庆革
马天俊
朱婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201810179743.8A priority Critical patent/CN108491766B/zh
Publication of CN108491766A publication Critical patent/CN108491766A/zh
Application granted granted Critical
Publication of CN108491766B publication Critical patent/CN108491766B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Abstract

本发明提供一种端到端的基于深度决策森林的人群计数方法,将视频帧图像与人数标签分布联系起来,标签分布反映了不同标签对该视频帧的贡献程度。采用深度回归森林来学习人数标签分布模型,输入测试数据便可得到对应的分布预测,其中描述程度最大的标记便是该图像数据对应的人数。本发明定义了一个基于分布的森林损失函数,使所有的树能够共同学习,并且通过变分边界可以导出叶节点预测的更新函数,从而保证了损失函数的严格下降。

Description

一种端到端的基于深度决策森林的人群计数方法
技术领域
本发明涉及行人检测领域,更具体地,涉及一种端到端的基于深度决策森林的人群计数方法。
背景技术
视频人群计数问题是计算机视觉领域中一个重要组成部分。目前的技术算法可以分为基于行人检测的方法,基于轨迹聚类的方法和基于特征回归的方法。基于检测的方法一般适用于人群较为稀疏的场景,不能很好解决人群拥挤遮挡问题。视觉特征轨迹聚类算法对于视频监控,一般用KLT跟踪器和聚类的方法,通过轨迹聚类得到的数目来估计人数。而基于特征的回归:建立图像特征和图像人数的回归模型,通过测量图像特征从而估计场景中的人数。由于拥挤情况下采用直接法容易受到遮挡等难点问题的影响,而间接法从人群的整体特征出发,具有大规模人群计数的能力。
传统方法在提取图像特征时,往往使用手工设计特征进行提取的方法,如SIFT,HOG,LBP等,这些手工提取特征过于依赖设计者的先验知识,难以利用大数据的优势,在特征提取的效果方面也受限于各种因素的影响,深度学习与传统方法的最大不同在于,通过大量数据的训练,神经网络能够自动学习特征,相比于人工特征对人群有更好的表述能力。
同时,传统特征回归算法提取的特征往往只考虑了每幅视频帧上特征的空间信息,而忽略了视频帧序列之间的时序特性。在判断确切人数的时候,人们总是习惯将猜测帧和大脑已存的视频帧相比较,然后综合比较结果估计出确切的人数。每个视频帧的人数总与相邻帧相关联。所以人群计数问题也可以转化为标记分布学习问题求解,达到信息的复用,学习出视频帧特征和标记分布之间的函数关系。
发明内容
本发明为克服上述现有技术所述的至少一种缺陷,提供一种端到端的基于深度决策森林的人群计数方法。
为解决上述技术问题,本发明的技术方案如下:
一种端到端的基于深度决策森林的人群计数方法,包括以下步骤:
S1:利用深度学习框架caffe(卷积神经网络框架,Convolutional Architecturefor Fast Feature Embedding)建立卷积神经网络,对视频帧图像进行深度特征提取;
S2:利用卷积神经网络全连接层输出,将决策森林替代卷积神经网络的softmax层训练深度回归森林;
S3:对视频帧图像按角度旋转、图像的多尺度缩放、图像的镜像以及图像金字塔缩放的操作实现图像数据增强;
S4:将视频人群图片输入给卷积神经网络训练,通过反向传播不断地优化最终得到训练好的卷积神经网络模型;
S5:输入测试图像得到的分布预测,其中描述程度最大的标记便是该图像对应的人数,最终预测结果是森林中所有决策树的均值。
优选地,步骤S1中,采用一个类似VGG-16的网络结构对视频帧图像进行深度特征提取,所述卷积神经网络有5个卷积层和3个全连接层,卷积神经网络中所有的卷积层都是同样大小的滤波器,尺寸为3*3,卷积步长为1,填充为1;有5个步长为2的最大池化层,最终的特征图大小只有输入图像尺寸的1/32,同时在VGG-16结构的基础上将最终全连接层的输出从1000个改为128个输出单元,对于一个输入样本x,第n个输出单元输出fn(x;θ)=θTx,其中n∈[1,128],θ是卷积神经网络参数。
优选地,步骤S2中,利用决策森林来代替卷积神经网络的softmax层包括以下步骤:
S21:决策森林由5棵决策树组成,记为
Figure BDA0001588418640000021
森林中所有树都共享卷积神经网络的网络参数θ,对于第i颗树
Figure BDA0001588418640000022
而言:(1)深度为7层,包括分裂节点和预测节点;(2)索引函数
Figure BDA0001588418640000023
将S1的输出单元映射到决策树的分裂节点上;
S22:分裂节点即决策树的非叶子节点,分裂节点集合记为
Figure BDA0001588418640000024
每个分裂节点
Figure BDA0001588418640000025
都定义了一个分裂函数
Figure BDA0001588418640000026
γ是sigmod函数,使分裂函数的输出映射到[0,1],
Figure BDA0001588418640000027
表示分裂节点n通过该决策树的索引函数
Figure BDA0001588418640000028
对应的神经网络的输出单元值,通过分裂函数结果得出一个样本x分类为该节点左孩子的概率tn(x;θ);以及分类为右孩子的概率:1-tn(x;θ);
S23:预测节点是决策树的叶子节点,预测节点集合记为
Figure BDA0001588418640000029
每个叶子节点
Figure BDA0001588418640000031
都定义了一个概率分布函数ql(y)作为预测结果输出,为了计算简便,初始设定ql(y)是一个高斯分布,∫ql(y)=1;
据上,一个样本x落入某个预测节点l的概率为:
Figure BDA0001588418640000032
其中
Figure BDA0001588418640000033
Figure BDA0001588418640000034
分别表示S22中定义的分裂节点n的左子树和右子树;Ι(·)是指示函数;tn(x;θ)为该叶子节点与决策树根节点之间路径上的分裂节点上的分裂函数,所以一个样本x在一棵决策树下最终预测对应的标记分布y的概率为:
Figure BDA0001588418640000035
所以对于训练集
Figure BDA0001588418640000036
定义森林的loss函数是所有树的loss函数和的均值,记为
Figure BDA0001588418640000037
定义如下:
Figure BDA0001588418640000038
其中N为森林中决策树的数量,其余变量如前文所示,预测节点的概率分布q和网络参数θ为训练目标。
优选地,步骤S3采用不同的图像增强办法对训练集进行数据量扩充,包括以下步骤:
S31:利用有限的有标记训练集数据,图像增强是扩充训练数据集的一种办法,图像增强包括:(1)图像的翻转:对视频帧的翻转包括沿着水平方向翻转图像;(2)图像的旋转:通过以原始图像的中心为原点旋转一定的角度,从而得到一张新的图片;(3)对数据集进行前景分割,提取出背景放入训练集;
S32:给定训练集
Figure BDA0001588418640000039
其中xi∈X是一个样本视频帧图像,
Figure BDA00015884186400000310
是第i个样本xi的有序标签分布,y代表了标签集,即人数范围;为不失一般性,xi对应的标记分布p(y|x)定义为一个以其真实人数μ为中心的高斯分布作为先验标记分布,即:
Figure BDA00015884186400000311
其中σ是高斯分布的标准差,μ为该样本中包含的真实人数。
优选地,步骤S4训练的目标是从训练集
Figure BDA00015884186400000312
中学习出一个条件概率质量函数p(y|x),对于给定的视频帧图像产生一个自适应于其真实人数的标记分布,步骤S4包括以下步骤:
S41:随机初始化:在训练阶段,决策森林
Figure BDA0001588418640000041
由N棵决策树组成,森林中所有的树设定相同的θ初始值,训练是求使得损失函数最小的q和θ;
S42:由于神经网络中θ参数量太大,采用随机梯度下降法学习参数θ,又因为节点的分裂使用soft函数,所以loss函数是可微的,则S23中定义的loss函数
Figure BDA0001588418640000042
对θ求偏导又可表示为:
Figure BDA0001588418640000043
Figure BDA0001588418640000044
Figure BDA0001588418640000045
其中
Figure BDA0001588418640000046
为S22所定义,由此可见反向传播分为两个部分,第一部分A是决策树的反向传播,第二部分B是深度神经网络的反向传播,此处设定最大迭代次数为γ=30000,学习率α=0.05,每完成10000次迭代,α=α*0.5;
S43:对预测节点,不同的叶子节点标记了不同的分布,所以这里5棵树同时训练,函数约束如下:
Figure BDA0001588418640000047
其中
Figure BDA0001588418640000048
为S23定义的loss函数,ql为决策树中叶子节点l定义的分布,
这里采用mini-batch梯度下降策略,是为了应对大数据量的计算而实现的一种快速收敛的求解,在完成S42阶段后,根据其训练处的θ参数,进行对预测节点分布的学习训练,此处设定的最大迭代次数为τ=20,mini-batch设置为50;
S44:训练森林采用交替迭代的方法,依次执行S42更新决策函数的参数和S43更新预测节点的分布;直到loss函数收敛或者达到最大迭代次数;
S45:通过已给训练集学习得到标签描述程度,输入一个新的视频帧则可以得到与之相对应的人数标签分布,而分布中最大的描述程度所对应的人数标签为该决策树预测出的人数标签,即:
Figure BDA0001588418640000049
其中p(y|x;θ)为深度森林输出的概率分布,而
Figure BDA0001588418640000051
为预测的人数,即为使得p(y|x;θ)最大的y值;
最后预测结果是森林中所有单颗树预测的平均结果。
与现有技术相比,本发明技术方案的有益效果是:本发明提供一种端到端的基于深度决策森林的人群计数方法,将视频帧图像与人数标签分布联系起来,标签分布反映了不同标签对该视频帧的贡献程度,采用深度回归森林来学习人数标签分布模型,输入测试数据便可得到对应的分布预测,其中描述程度最大的标记便是该图像数据对应的人数。本发明定义了一个基于分布的森林损失函数,使所有的树能够共同学习,并且通过变分边界可以导出叶节点预测的更新函数,从而保证了损失函数的严格下降。
将分类树模型和深度神经网络的特征学习相结合进行端到端训练的深度学习方法。使用深度决策森林作为最终的预测模型,在手写数据库MNIST和图像分类数据库ImageNet的实验中都取得了很好的结果。
附图说明
图1为本发明基于深度决策森林的人群计数方法的流程图。
图2为本发明的卷及神经网络参数示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种端到端的基于深度决策森林的人群计数方法,包括以下步骤:
S1:利用深度学习框架caffe(卷积神经网络框架,Convolutional Architecturefor Fast Feature Embedding)建立卷积神经网络,对视频帧图像进行深度特征提取;
S2:利用卷积神经网络全连接层输出,将决策森林替代卷积神经网络的softmax层训练深度回归森林;
S3:对视频帧图像按角度旋转、图像的多尺度缩放、图像的镜像以及图像金字塔缩放的操作实现图像数据增强;
S4:将视频人群图片输入给卷积神经网络训练,通过反向传播不断地优化最终得到训练好的卷积神经网络模型;
S5:输入测试图像得到的分布预测,其中描述程度最大的标记便是该图像对应的人数,最终预测结果是森林中所有决策树的均值。
优选地,步骤S1中,如图2所示,采用一个类似VGG-16的网络结构对视频帧图像进行深度特征提取,所述卷积神经网络有5个卷积层和3个全连接层,卷积神经网络中所有的卷积层都是同样大小的滤波器,尺寸为3*3,卷积步长为1,填充为1;有5个步长为2的最大池化层,最终的特征图大小只有输入图像尺寸的1/32,同时在VGG-16结构的基础上将最终全连接层的输出从1000个改为128个输出单元,对于一个输入样本x,第n个输出单元输出fn(x;θ)=θTx,其中n∈[1,128],θ是卷积神经网络参数。
优选地,步骤S2中,利用决策森林来代替卷积神经网络的softmax层包括以下步骤:
S21:决策森林由5棵决策树组成,记为
Figure BDA0001588418640000061
森林中所有树都共享卷积神经网络的网络参数θ,对于第i颗树
Figure BDA0001588418640000062
而言:(1)深度为7层,包括分裂节点和预测节点;(2)索引函数
Figure BDA0001588418640000063
将S1的输出单元映射到决策树的分裂节点上;
S22:分裂节点即决策树的非叶子节点,分裂节点集合记为
Figure BDA0001588418640000064
每个分裂节点
Figure BDA0001588418640000065
都定义了一个分裂函数
Figure BDA0001588418640000066
γ是sigmod函数,使分裂函数的输出映射到[0,1],
Figure BDA0001588418640000067
表示分裂节点n通过该决策树的索引函数
Figure BDA0001588418640000068
对应的神经网络的输出单元值,通过分裂函数结果得出一个样本x分类为该节点左孩子的概率tn(x;θ);以及分类为右孩子的概率:1-tn(x;θ);
S23:预测节点是决策树的叶子节点,预测节点集合记为
Figure BDA0001588418640000069
每个叶子节点
Figure BDA00015884186400000610
都定义了一个概率分布函数ql(y)作为预测结果输出,为了计算简便,初始设定ql(y)是一个高斯分布,∫ql(y)=1;
据上,一个样本x落入某个预测节点l的概率为:
Figure BDA00015884186400000611
其中
Figure BDA00015884186400000612
Figure BDA00015884186400000613
分别表示S22中定义的分裂节点n的左子树和右子树;Ι(·)是指示函数;tn(x;θ)为该叶子节点与决策树根节点之间路径上的分裂节点上的分裂函数,所以一个样本x在一棵决策树下最终预测对应的标记分布y的概率为:
Figure BDA0001588418640000071
所以对于训练集
Figure BDA0001588418640000072
定义森林的loss函数是所有树的loss函数和的均值,记为
Figure BDA0001588418640000073
定义如下:
Figure BDA0001588418640000074
其中N为森林中决策树的数量,其余变量如前文所示,预测节点的概率分布q和网络参数θ为训练目标。
优选地,步骤S3采用不同的图像增强办法对训练集进行数据量扩充,包括以下步骤:
S31:利用有限的有标记训练集数据,图像增强是扩充训练数据集的一种办法,图像增强包括:(1)图像的翻转:对视频帧的翻转包括沿着水平方向翻转图像;(2)图像的旋转:通过以原始图像的中心为原点旋转一定的角度,从而得到一张新的图片;(3)对数据集进行前景分割,提取出背景放入训练集;
S32:给定训练集S={(x1,D1),(x2,D2),…,(xn,Dn),},其中xi∈X是一个样本视频帧图像,
Figure BDA0001588418640000075
是第i个样本xi的有序标签分布,y代表了标签集,即人数范围;为不失一般性,xi对应的标记分布p(y|x)定义为一个以其真实人数μ为中心的高斯分布作为先验标记分布,即:
Figure BDA0001588418640000076
其中σ是高斯分布的标准差,μ为该样本中包含的真实人数。
优选地,步骤S4训练的目标是从训练集
Figure BDA0001588418640000079
中学习出一个条件概率质量函数p(y|x),对于给定的视频帧图像产生一个自适应于其真实人数的标记分布,步骤S4包括以下步骤:
S41:随机初始化:在训练阶段,决策森林
Figure BDA0001588418640000077
由N棵决策树组成,森林中所有的树设定相同的θ初始值,训练是求使得损失函数最小的q和θ;
S42:由于神经网络中θ参数量太大,采用随机梯度下降法学习参数θ,又因为节点的分裂使用soft函数,所以loss函数是可微的,则S23中定义的loss函数
Figure BDA0001588418640000078
对θ求偏导又可表示为:
Figure BDA0001588418640000081
Figure BDA0001588418640000082
Figure BDA0001588418640000083
其中
Figure BDA0001588418640000084
为S22所定义,由此可见反向传播分为两个部分,第一部分A是决策树的反向传播,第二部分B是深度神经网络的反向传播,此处设定最大迭代次数为γ=30000,学习率α=0.05,每完成10000次迭代,α=α*0.5;
S43:对预测节点,不同的叶子节点标记了不同的分布,所以这里5棵树同时训练,函数约束如下:
Figure BDA0001588418640000085
其中
Figure BDA0001588418640000086
为S23定义的loss函数,ql为决策树中叶子节点l定义的分布,
这里采用mini-batch梯度下降策略,是为了应对大数据量的计算而实现的一种快速收敛的求解,在完成S42阶段后,根据其训练处的θ参数,进行对预测节点分布的学习训练,此处设定的最大迭代次数为τ=20,mini-batch设置为50;
S44:训练森林采用交替迭代的方法,依次执行S42更新决策函数的参数和S43更新预测节点的分布;直到loss函数收敛或者达到最大迭代次数;
S45:通过已给训练集学习得到标签描述程度,输入一个新的视频帧则可以得到与之相对应的人数标签分布,而分布中最大的描述程度所对应的人数标签为该决策树预测出的人数标签,即:
Figure BDA0001588418640000087
其中p(y|x;θ)为深度森林输出的概率分布,而
Figure BDA0001588418640000088
为预测的人数,即为使得p(y|x;θ)最大的y值;
最后预测结果是森林中所有单颗树预测的平均结果。
本发明提供一种端到端的基于深度决策森林的人群计数方法,将视频帧图像与人数标签分布联系起来,标签分布反映了不同标签对该视频帧的贡献程度,采用深度回归森林来学习人数标签分布模型,输入测试数据便可得到对应的分布预测,其中描述程度最大的标记便是该图像数据对应的人数。本发明定义了一个基于分布的森林损失函数,使所有的树能够共同学习,并且通过变分边界可以导出叶节点预测的更新函数,从而保证了损失函数的严格下降。
将分类树模型和深度神经网络的特征学习相结合进行端到端训练的深度学习方法。使用深度决策森林作为最终的预测模型,在手写数据库MNIST和图像分类数据库ImageNet的实验中都取得了很好的结果。

Claims (4)

1.一种端到端的基于深度决策森林的人群计数方法,其特征在于,包括以下步骤:
S1:利用深度学习框架caffe建立卷积神经网络,对视频帧图像进行深度特征提取;
S2:利用卷积神经网络全连接层输出,将决策森林替代卷积神经网络的softmax层训练深度回归森林;步骤S2中,利用决策森林来代替卷积神经网络的softmax层包括以下步骤:
S21:决策森林由5棵决策树组成,记为
Figure FDA0003155671680000011
森林中所有树都共享卷积神经网络的网络参数θ,对于第i颗树
Figure FDA0003155671680000012
而言:(1)深度为7层,包括分裂节点和预测节点;(2)索引函数
Figure FDA0003155671680000013
将S1的输出单元映射到决策树的分裂节点上;
S22:分裂节点即决策树的非叶子节点,分裂节点集合记为
Figure FDA0003155671680000014
每个分裂节点
Figure FDA0003155671680000015
都定义了一个分裂函数
Figure FDA0003155671680000016
γ是sigmod函数,使分裂函数的输出映射到[0,1],
Figure FDA0003155671680000017
表示分裂节点n通过该决策树的索引函数
Figure FDA0003155671680000018
对应的神经网络的输出单元值,通过分裂函数结果得出一个样本x分类为该节点左子树的概率tn(x;θ);以及分类为右子树的概率:1-tn(x;θ);
S23:预测节点是决策树的叶子节点,预测节点集合记为
Figure FDA0003155671680000019
每个叶子节点
Figure FDA00031556716800000110
都定义了一个概率分布函数
Figure FDA00031556716800000111
作为预测结果输出,为了计算简便,初始设定
Figure FDA00031556716800000112
是一个高斯分布,
Figure FDA00031556716800000113
据上,一个样本x落入某个预测节点l的概率为:
Figure FDA00031556716800000115
其中
Figure FDA00031556716800000116
Figure FDA00031556716800000117
分别表示S22中定义的分裂节点n的左子树和右子树;Ι(·)是指示函数;tn(x;θ)为该叶子节点与决策树根节点之间路径上的分裂节点上的分裂函数,所以一个样本x在一棵决策树下最终预测对应的标记分布y的概率为:
Figure FDA00031556716800000118
所以对于训练集
Figure FDA00031556716800000119
定义森林的loss函数是所有树的loss函数和的均值,记为
Figure FDA0003155671680000021
定义如下:
Figure FDA0003155671680000022
其中N为森林中决策树的数量,其余变量如前文所示,预测节点的概率分布q和网络参数θ为训练目标;
S3:对视频帧图像按角度旋转、图像的多尺度缩放、图像的镜像以及图像金字塔缩放的操作实现图像数据增强;
S4:将视频人群图片输入给卷积神经网络训练,通过反向传播不断地优化最终得到训练好的卷积神经网络模型;
S5:输入测试图像得到的分布预测,其中描述程度最大的标记便是该图像对应的人数,最终预测结果是森林中所有决策树的均值。
2.根据权利要求1所述的端到端的基于深度决策森林的人群计数方法,其特征在于,步骤S1中,所述卷积神经网络有5个卷积层和3个全连接层,卷积神经网络中所有的卷积层都是同样大小的滤波器,尺寸为3*3,卷积步长为1,填充为1;有5个步长为2的最大池化层,最终的特征图大小只有输入图像尺寸的1/32,同时在VGG-16结构的基础上将最终全连接层的输出从1000个改为128个输出单元,对于一个输入样本x,第n个输出单元输出fn(x;θ)=θTx,其中n∈[1,128],θ是卷积神经网络参数。
3.根据权利要求2所述的端到端的基于深度决策森林的人群计数方法,其特征在于,步骤S3采用不同的图像增强办法对训练集进行数据量扩充,包括以下步骤:
S31:利用有限的有标记训练集数据,图像增强是扩充训练数据集的一种办法,图像增强包括:(1)图像的翻转:对视频帧的翻转包括沿着水平方向翻转图像;(2)图像的旋转:通过以原始图像的中心为原点旋转一定的角度,从而得到一张新的图片;(3)对数据集进行前景分割,提取出背景放入训练集;
S32:给定训练集
Figure FDA0003155671680000023
其中xi∈X是一个样本视频帧图像,
Figure FDA0003155671680000024
是第i个样本xi的有序标签分布,y代表了标签集,即人数范围;为不失一般性,xi对应的标记分布p(y|x)定义为一个以其真实人数μ为中心的高斯分布作为先验标记分布,即:
Figure FDA0003155671680000031
其中σ是高斯分布的标准差,μ为该样本中包含的真实人数。
4.根据权利要求3所述的端到端的基于深度决策森林的人群计数方法,其特征在于,步骤S4训练的目标是从训练集
Figure FDA00031556716800000310
中学习出一个条件概率质量函数p(y|x),对于给定的视频帧图像产生一个自适应于其真实人数的标记分布,步骤S4包括以下步骤:
S41:随机初始化:在训练阶段,决策森林
Figure FDA0003155671680000032
由N棵决策树组成,森林中所有的树设定相同的θ初始值,训练是求使得损失函数最小的q和θ;
S42:由于神经网络中θ参数量太大,采用随机梯度下降法学习参数θ,又因为节点的分裂使用soft函数,所以loss函数是可微的,则S23中定义的loss函数
Figure FDA0003155671680000033
对θ求偏导又可表示为:
Figure FDA0003155671680000034
Figure FDA0003155671680000035
Figure FDA0003155671680000036
其中
Figure FDA0003155671680000037
为S22所定义,由此可见反向传播分为两个部分,第一部分A是决策树的反向传播,第二部分B是深度神经网络的反向传播,此处设定最大迭代次数为γ=30000,学习率α=0.05,每完成10000次迭代,α=α*0.5;
S43:对预测节点,不同的叶子节点标记了不同的分布,所以这里5棵树同时训练,函数约束如下:
Figure FDA0003155671680000038
其中
Figure FDA0003155671680000039
为S23定义的loss函数,ql为决策树中叶子节点l定义的分布,
这里采用mini-batch梯度下降策略,是为了应对大数据量的计算而实现的一种快速收敛的求解,在完成S42阶段后,根据其训练处的θ参数,进行对预测节点分布的学习训练,此处设定的最大迭代次数为τ=20,mini-batch设置为50;
S44:训练森林采用交替迭代的方法,依次执行S42更新决策函数的参数和S43更新预测节点的分布;直到loss函数收敛或者达到最大迭代次数;
S45:通过已给训练集学习得到标签描述程度,输入一个新的视频帧则可以得到与之相对应的人数标签分布,而分布中最大的描述程度所对应的人数标签为该决策树预测出的人数标签,即:
Figure FDA0003155671680000041
其中p(y|x;θ)为深度森林输出的概率分布,而
Figure FDA0003155671680000042
为预测的人数,即为使得p(y|x;θ)最大的y值;
最后预测结果是森林中所有单颗树预测的平均结果。
CN201810179743.8A 2018-03-05 2018-03-05 一种端到端的基于深度决策森林的人群计数方法 Active CN108491766B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810179743.8A CN108491766B (zh) 2018-03-05 2018-03-05 一种端到端的基于深度决策森林的人群计数方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810179743.8A CN108491766B (zh) 2018-03-05 2018-03-05 一种端到端的基于深度决策森林的人群计数方法

Publications (2)

Publication Number Publication Date
CN108491766A CN108491766A (zh) 2018-09-04
CN108491766B true CN108491766B (zh) 2021-10-26

Family

ID=63341517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810179743.8A Active CN108491766B (zh) 2018-03-05 2018-03-05 一种端到端的基于深度决策森林的人群计数方法

Country Status (1)

Country Link
CN (1) CN108491766B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109523520B (zh) * 2018-10-25 2020-12-18 北京大学第三医院 一种基于深度学习的染色体自动计数方法
CN109446090A (zh) * 2018-10-31 2019-03-08 南开大学 基于深度神经网络和概率决策森林的软件缺陷预测模型
CN110111310B (zh) * 2019-04-17 2021-03-05 广州思德医疗科技有限公司 一种评估标签图片的方法及装置
CN110414567B (zh) * 2019-07-01 2020-08-04 阿里巴巴集团控股有限公司 数据处理方法、装置和电子设备
CN110516537B (zh) * 2019-07-15 2022-03-15 电子科技大学 一种基于自步学习的人脸年龄估计方法
CN111414875B (zh) * 2020-03-26 2023-06-02 电子科技大学 基于深度回归森林的三维点云头部姿态估计系统
CN111553389B (zh) * 2020-04-08 2023-06-13 哈尔滨工程大学 一种用于理解深度学习模型目标分类决策机制的决策树生成方法
CN113421192B (zh) * 2021-08-24 2021-11-19 北京金山云网络技术有限公司 对象统计模型的训练方法、目标对象的统计方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106548207A (zh) * 2016-11-03 2017-03-29 北京图森互联科技有限责任公司 一种基于神经网络的图像处理方法及装置
US9646212B2 (en) * 2012-09-12 2017-05-09 Avigilon Fortress Corporation Methods, devices and systems for detecting objects in a video
CN107301387A (zh) * 2017-06-16 2017-10-27 华南理工大学 一种基于深度学习的图像高密度人群计数方法
CN107679503A (zh) * 2017-10-12 2018-02-09 中科视拓(北京)科技有限公司 一种基于深度学习的人群计数算法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9646212B2 (en) * 2012-09-12 2017-05-09 Avigilon Fortress Corporation Methods, devices and systems for detecting objects in a video
CN106548207A (zh) * 2016-11-03 2017-03-29 北京图森互联科技有限责任公司 一种基于神经网络的图像处理方法及装置
CN107301387A (zh) * 2017-06-16 2017-10-27 华南理工大学 一种基于深度学习的图像高密度人群计数方法
CN107679503A (zh) * 2017-10-12 2018-02-09 中科视拓(北京)科技有限公司 一种基于深度学习的人群计数算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Large scale crowd analysis based on convolutional neural network;Cao L 等;《Pattern Recogn》;20151031;第48卷(第10期);第1-2页 *
协同运动状态估计的多目标跟踪算法;纪庆革 等;《计算机科学》;20171130;第44卷(第11A期);第1-2页 *

Also Published As

Publication number Publication date
CN108491766A (zh) 2018-09-04

Similar Documents

Publication Publication Date Title
CN108491766B (zh) 一种端到端的基于深度决策森林的人群计数方法
Mukhoti et al. Evaluating bayesian deep learning methods for semantic segmentation
Kae et al. Augmenting CRFs with Boltzmann machine shape priors for image labeling
CN109815826B (zh) 人脸属性模型的生成方法及装置
CN112069929B (zh) 一种无监督行人重识别方法、装置、电子设备及存储介质
CN106778796B (zh) 基于混合式协同训练的人体动作识别方法及系统
CN110929679B (zh) 一种基于gan的无监督自适应行人重识别方法
CN112507901B (zh) 一种基于伪标签自纠正的无监督行人重识别方法
US11640714B2 (en) Video panoptic segmentation
CN109598268A (zh) 一种基于单流深度网络的rgb-d显著目标检测方法
CN109002755B (zh) 基于人脸图像的年龄估计模型构建方法及估计方法
CN112819065B (zh) 基于多重聚类信息的无监督行人难样本挖掘方法和系统
WO2022062419A1 (zh) 基于非督导金字塔相似性学习的目标重识别方法及系统
CN108595558B (zh) 一种数据均衡策略和多特征融合的图像标注方法
CN112364791B (zh) 一种基于生成对抗网络的行人重识别方法和系统
JP7136500B2 (ja) ノイズチャネルに基づくランダム遮蔽回復の歩行者再識別方法
WO2021243947A1 (zh) 对象再识别方法及装置、终端和存储介质
CN107563319A (zh) 一种基于图像的亲子间人脸相似性度量计算方法
CN113591529A (zh) 动作分割模型的处理方法、装置、计算机设备和存储介质
CN111126155B (zh) 一种基于语义约束生成对抗网络的行人再识别方法
CN113221770A (zh) 基于多特征混合学习的跨域行人重识别方法及系统
CN113283282A (zh) 一种基于时域语义特征的弱监督时序动作检测方法
CN115240024A (zh) 一种联合自监督学习和半监督学习的地外图片分割方法和系统
CN113111716A (zh) 一种基于深度学习的遥感影像半自动标注方法和装置
CN115293217A (zh) 一种基于射频信号的无监督伪标签优化行人重识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant