CN111414875B - 基于深度回归森林的三维点云头部姿态估计系统 - Google Patents

基于深度回归森林的三维点云头部姿态估计系统 Download PDF

Info

Publication number
CN111414875B
CN111414875B CN202010223912.0A CN202010223912A CN111414875B CN 111414875 B CN111414875 B CN 111414875B CN 202010223912 A CN202010223912 A CN 202010223912A CN 111414875 B CN111414875 B CN 111414875B
Authority
CN
China
Prior art keywords
point cloud
depth
forest
feature
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010223912.0A
Other languages
English (en)
Other versions
CN111414875A (zh
Inventor
王旭鹏
桑楠
马祥天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010223912.0A priority Critical patent/CN111414875B/zh
Publication of CN111414875A publication Critical patent/CN111414875A/zh
Application granted granted Critical
Publication of CN111414875B publication Critical patent/CN111414875B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于深度回归森林的三维点云头部姿态估计系统,所述头部姿态采用欧拉角表示方法,即将头部姿态表示为俯仰角、偏航角和翻滚角,主要包含三个模块,包括:特征提取模块,用于对采样后的三维点云数据进行特征提取,并输出头部点云的全局特征;深度回归森林模块,用于根据特征提取模块学习到的头部特征分别预测出俯仰角、偏航角和翻滚角,还用于计算损失函数;参数更新模块,用于根据所述损失函数,对特征提取模块和深度回归森林模块进行网络参数更新。本发明将头部姿态估计抽象为一个多任务回归问题,以点云数据作为模型的输入提取深度特征,利用三组深度回归森林分别对描述头部姿态的三个欧拉角进行预测。

Description

基于深度回归森林的三维点云头部姿态估计系统
技术领域
本发明涉及头部姿态估计领域,尤其涉及基于深度回归森林的三维点云头部姿态估计系统。
背景技术
头部姿态估计是计算机视觉领域中较为热门的研究方向之一,是指通过算法预测空间中人体头部的姿态信息,头部姿态估计通常是以描述头部姿态的俯仰角(pitch)、偏航角(yaw)和翻滚角(roll)为回归目标的回归问题。随着表情识别、驾驶辅助等技术的出现,越来越多的行业需要鲁棒准确的头部姿态信息,其通常被作为可靠的数据基础用于工程中的数据分析,例如疲劳驾驶预警等。
头部姿态估计通常依赖于RGB图像和深度图像,然而从RGB图像中获取头部姿态信息面临诸多困难,因为在复杂的应用条件下很难避免光照、阴影等外部因素对图像质量造成的影响。随着近年来三维传感技术的发展与深度采集设备的廉价化与普及,深度信息的获取变得简单与可行,且对于深度信息的分析在一定程度上解决了RGB图像易受其他因素影响的劣势。
随机森林是一组随机决策树。每棵树都依赖于一个随机向量的值,这个随机向量是独立采样的,并且对于森林中的所有树都具有相同的分布(Breiman L.Random Forests[J].Machine Learning,2001,45(1):5-32)。在Fanelli等人的工作中(Fanelli G,Gall J,Gool L J V.Real time head pose estimation with random regression forests[C]//The 24th IEEE Conference on Computer Vision and Pattern Recognition,CVPR2011,Colorado Springs,CO,USA,20-25June 2011.IEEE,2011),一个使用深度信息实现头部姿态估计的随机森林模型被提出。这种算法在头部姿态估计中的优势在于它采用了集成算法的思想并且有能力处理大型数据集,尽管随机森林模型的精度高于大多数单个弱分类器,但当森林中决策树个数很多时,训练时就需要更多的空间和时间,在某些噪声比较大的样本集上,该方法陷入过拟合的风险较高。另外,决策树对样本的路由方式通常基于贪心算法,在树的每个非叶子节点进行局部最优路由选择,因此,原始的随机森林回归算法很难与深度神经网络联合学习。
针对上述问题,提出了一种新的深度学习模型——深度回归森林网络用以解决头部姿态估计问题。该算法首次将深度回归森林用于解决头部姿态估计问题,将头部姿态估计抽象为一个多任务回归问题,以点云数据作为模型的输入提取深度特征,利用三组深度回归森林分别对描述头部姿态的三个欧拉角进行预测。
发明内容
本发明的目的在于克服现有技术的不足,提供基于深度回归森林的三维点云头部姿态估计系统。
本发明的目的是通过以下技术方案来实现的:
本发明的第一方面,提供基于深度回归森林的三维点云头部姿态估计系统,所述头部姿态包括俯仰角、偏航角和翻滚角,包括:
特征提取模块,用于对采样后的三维点云数据进行特征提取,并输头部点云的全局特征;
深度回归森林模块,用于根据特征提取模块学习到的头部特征分别预测出俯仰角、偏航角和翻滚角,还用于计算损失函数;
参数更新模块,用于根据所述损失函数,对特征提取模块和深度回归森林模块进行网络参数更新;
所述特征提取模块包括:
第一多层感知器,用于对所述三维点云数据进行独立特征提取和维度转换;
最大池化层,用于将第一多层感知器输出的特征进行融合处理,以得到全局特征;
第二多层感知器,包括对应俯仰角、偏航角和翻滚角的三个分支感知器,输入端均与最大池化层连接,用于对池化处理后的全局特征进行学习;
所述深度回归森林模块包括:
三个分支森林,分别对应于三个分支感知器的输出。
进一步地,所述第一多层感知层包括五个顺次连接的卷积层;所述三个分支感知器均包括三个顺次连接的全连接层。
进一步地,每个所述分支森林F={T}注重一维姿态角,均由多个作为弱分类器的概率决策树T组成,每棵决策树T由两种类型的节点构成,包括拆分节点d∈D和叶子节点l∈L;在每个拆分节点d上定义一个拆分函数Rd,其值域为[0,1],Rd表示输入样本x在节点d向某一子节点路由的概率;在每个叶子节点l上定义一个概率密度分布fl用于表示标签θ的分布,其中标签θ=(θy,θp,θr),θy、θp、θr分别表示俯仰角、偏航角和翻滚角,拆分函数Rd能够给出样本x到达其所有相邻子节点的概率;
定义Rd(x)=sigmoid(EIndex(d)(x)),其中Index(d)表示样本x的特征E(x)与拆分节点d的对应关系;E(x)与Rd(x)的对应关系在模型初始化阶段随机生成;给定特征E(x),定义Rd(x)表示样本x被路由到当前节点的左子节点的概率,则样本x被路由到叶子节点l的概率为:
Figure BDA0002427015270000021
其中si(i∈{l,r})是一个值域为{0,1}的函数;
在x被路由到叶子节点l的过程中,当经过当前节点且被路由到它的子节点i时si=1,其余情况si=0;样本x到达叶子节点l的概率满足
Figure BDA0002427015270000031
根据以上推导,该概率决策树T对θ的概率密度分布为:
Figure BDA0002427015270000032
对于一个训练样本集合X={(xjj)},j∈N,N表示样本x的数量,目标是通过概率决策树学习一个用来描述在输入样本x的条件下标签θ的概率密度分布函数f(θ|x);
损失函数L(θ,P(θ|x))为:
Figure BDA0002427015270000033
fl(θ|x)表示叶子节点l上的θ的概率密度分布。
进一步地,在网络参数优化过程中需要找到一组参数使得样本数据的似然度最大,因此通过最小化对数似然损失完成这一过程;因此为了使损失函数L(θ,P(θ|x))最小,需要学习的变量是与概率决策树拆分节点对应的特征E与叶子节点上的概率密度分布f(θ),即:
(E*,f(θ)*)=argminL(E,f(θ);X)
为了求出公式中的两个最优参数,采用交替优化的策略:在第i次迭代过程中,使用在第i-1次被更新的网络参数n(i-1)学习样本x的特征E(x;n(i-1)),再通过该特征E更新样本x到达每个叶子节点的概率P(l|x;E),并由此计算整个网络结构的损失函数并优化每个叶子节点的概率密度分布fl(θ|x);最后通过参数更新模块在梯度反向传播的过程中更新网络参数n(i)
其中对于学习样本特征E(x,n):在梯度反向传播的过程中更新网络参数n;通过更新参数n优化网络对样本x的特征E(x,n)的学习;计算损失函数关于E的梯度如公式所示:
Figure BDA0002427015270000034
在网络学习过程中,该算法使用随机梯度下降算法优化网络参数n;
而在学习叶子节点分布fl(θ|x)的过程中,定义每个叶子节点上的概率密度分布满足高斯分布,如下所示:
Figure BDA0002427015270000035
式中,μ表示该分布的均值,k表示该多元高斯分布的具有k个变量,T表示转置。
进一步地,利用Jensen不等式得到损失函数L(E,f(θ);X)的上界:
Figure BDA0002427015270000041
其中,
Figure BDA0002427015270000042
Figure BDA0002427015270000043
的值域为[0,1],且
Figure BDA0002427015270000044
定义:
Figure BDA0002427015270000045
其中
Figure BDA0002427015270000046
是损失函数L(E,f(θ);X)的上界,通过最小化上界函数
Figure BDA0002427015270000047
来优化叶节点的概率密度分布。
进一步地,在在测试和估计阶段,森林F的输出是所有树木的平均预测值:
Figure BDA0002427015270000048
式中,H表示森林中树的数量,μ表示高斯分布的均值。
进一步地,所述的特征提取模块还包括:
三个软注意力子模块,分别位于三个分支感知器之前,用于使深度回归森林模块能够产生特定于某项任务的特征;而在软注意力子模块内部通过学习特征维度对应的权重系数以提高姿态回归的性能。
进一步地,所述软注意力子模块包括第一卷积层L、第二卷积层M、全连接层N;软注意力子模块的输入为最大池化层输出的全局特征F,所述全局特征F依次经过第一卷积层L和第二卷积层M后进行归一化处理得到第一数据,所述全局特征F还经过全连接层N处理后得到第二数据,将第一数据和第二数据进行点乘后得到加权后的特定特征f,公式如下:
f=N(F)⊙σ(M(L(F)))
式中,⊙表示按元素的乘法运算符,σ(·)表示归一化处理。
进一步地,所述的损失函数为:
Figure BDA0002427015270000051
其中,LP LY LR分别表示三个分支森林的计算得到的损失,wp wy wr为三个分支森林的对应的损失权重。
进一步地,在训练阶段,采用特征提取模块、深度回归森林模块和参数更新模块对系统进行训练;在测试和/或估计阶段,采用特征提取模块、深度回归森林模块对输入数据进行数据处理以进行头部姿态估计。
本发明的有益效果是:
(1)在本发明的其中一示例性实施例中,将头部姿态估计抽象为一个多任务回归问题,以点云数据作为模型的输入提取深度特征,利用三组深度回归森林分别对描述头部姿态的三个欧拉角进行预测。该示例性实施例实现了样本数据在树的非叶子节点上的概率划分,即对于一棵决策树,样本有概率被路由到所有的叶子节点上,该示例性实施例意味着所有叶子节点均参与描述标签的分布。同时与原始的随机森林回归算法相比,该示例性实施例解决了决策树在非叶子节点上单一划分的劣势并且能够更好地描述标签的分布规律,按照样本到达每个叶子节点的概率求得预测值的数学期望作为树的最终预测值具有更高的准确率。即首次将深度回归森林用于解决头部姿态估计问题;原因是深度回归森林能够与神经网络实现端到端联合学习,且能够学习标签的潜在分布。同时相较于三各回归森林,时间复杂性和空间复杂度更低。
(2)在本发明的其中一示例性实施例中,针对前述示例性实施例中所使用的损失函数很难计算的情况,主要原因是其涉及难以解决的界限问题,使用变分边界法来解决这个约束凸优化问题。
(3)在本发明的其中一示例性实施例中,首次将注意力机制与深度回归森林结合:因为深度回归森林只适用于单标签学习,为了解决头部姿态估计这种多标签学习任务,需要使用分支网络,利用多组森林对不同属性的标签分别学习,这就引入多任务学习问题。而网络在优化过程中,每条分支网络都会计算损失函数,公共的特征提取部分的参数优化变得困难,因为公共特征提取部分网络不会针对某一分支优化参数,所以每个分支都无法达到最优效果。但其中一示例性实施例中,引入注意力机制可解决这一问题,在特征学习的同时,对特征维度的权重进行学习,二者做矩阵乘法后能够得到针对某一特定任务的特征,使各个分支达到更好的效果。在公开数据集测试中,该方法在头部姿态估计这一问题上取得了目前最好的效果。
附图说明
图1为本发明其中一示例性实施例公开的系统框图;
图2为本发明其中一示例性实施例公开的A实验中森林中树的个数与平均绝对误差之间的关系示意图;
图3为本发明其中一示例性实施例公开的A实验中森林中树的深度与平均绝对误差之间的关系示意图;
图4为本发明其中一示例性实施例公开的软注意力子模块结构示意图;
图5为本发明其中一示例性实施例公开的B实验中森林中树的个数与平均绝对误差之间的关系示意图;
图6为本发明其中一示例性实施例公开的A实验中森林中树的深度与平均绝对误差之间的关系示意图。
具体实施方式
下面结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
下述示例性实施例采用端到端学习方式解决多任务回归问题,以描述头部姿态的三个欧拉角——俯仰角(pitch)、偏航角(yaw)和翻滚角(roll)为回归目标,以头部点云数据作为输入,预测三维空间中头部姿态信息。
参见图1,图1示出了一示例性实施例公开的基于深度回归森林的三维点云头部姿态估计系统,所述头部姿态包括俯仰角、偏航角和翻滚角,包括:
特征提取模块,用于对采样后的三维点云数据进行特征提取,并输出头部点云的全局特征;
深度回归森林模块,用于根据特征提取模块学习到的头部特征分别预测出俯仰角、偏航角和翻滚角,还用于计算损失函数;
参数更新模块,用于根据所述损失函数,对特征提取模块和深度回归森林模块进行网络参数更新;
所述特征提取模块包括:
第一多层感知器,用于对所述三维点云数据进行独立特征提取和维度转换;
最大池化层,用于将第一多层感知器输出的特征进行融合处理,以得到全局特征;
第二多层感知器,包括对应俯仰角、偏航角和翻滚角的三个分支感知器,输入端均与最大池化层连接,用于对池化处理后的全局特征进行学习;
所述深度回归森林模块包括:
三个分支森林,分别对应于三个分支感知器的输出。
其中,该系统的特征提取模块包含两个MLP(多层感知器),在第一个MLP后将抽象得到的特征做池化处理,后将其传递给三个分支网络,经由第二个MLP到达深度回归森林并由森林预测出表示头部姿态的欧拉角。
具体地,特征提取模块的输入是经过采样后的三维点云数据,采样的目的是将无序且不规则的点云采样到固定数目的空间中的点,以此满足网络对于输入数据的规则限制。特征提取模块由两个多层感知器以及最大池化层组成,其中第一多层感知器包含五个卷积层,其目的是对每个点进行独立特征提取,在其中一示例性实施例中,将每个输入点的表示维度由三维转换为1024维。最大池化层的目的是将点云中每个点的特征进行融合处理以得到全局特征,聚焦来自所有点的信息,并在此基础上计算出点云的全局特征向量。经过最大池化层处理的点云舍弃了部分点的特征,进而减少了参数矩阵的尺寸,输入网络的原始点云中点的数量为4096,经过第一个多层感知器与池化处理后的点云只有小于或等于1024个点的特征被保留。
而经过池化后的全局特征通过一个第二多层感知器(优选为三层感知器)对点云的特性进行学习,学习的特征最终被对应到森林中的拆分节点上的拆分函数。该三层感知器由三个分支组成,每个分支包含三个全连接层,从池化处理后的1024维全局特征中对点云的特性进行学习。而全连接层的目的是将各个特征维度所关注的局部特征相关联,经过第二多层感知器,网络可以从局部到全局捕获头部的信息。
另外,三个森林的参数不共用,每个森林的参数互不相同。
更优地,在一示例性实施例中,所述第一多层感知层包括五个顺次连接的卷积层;所述三个分支感知器均包括三个顺次连接的全连接层。
具体地,对于样本x∈X(X表示整个样本集合),解决该问题的方法是找到一个映射函数:x→θ。假设对于给定输入样本x,回归目标θ的概率密度函数为f(θ|x),则对样本x的预测值满足:
θ'=∫θ·(∫f(θ|x)dθ)dθ
其中∫f(θ|x)dθ表示对于输入样本x输出值为θ的概率。
从上式可以得出,回归的对象θ'由θ的概率密度分布f(θ|x)所决定。
更优地,在一示例性实施例中,每个所述分支森林F={T}注重一维姿态角,均由多个作为弱分类器的概率决策树T组成,每棵决策树T由两种类型的节点构成,包括拆分节点d∈D和叶子节点l∈L;在每个拆分节点d上定义一个拆分函数Rd,其值域为[0,1],Rd表示输入样本x在节点d向某一子节点路由的概率;在每个叶子节点l上定义一个概率密度分布fl用于表示标签θ的分布,其中标签θ=(θy,θp,θr),θy、θp、θr分别表示俯仰角、偏航角和翻滚角,拆分函数Rd能够给出样本x到达其所有相邻子节点的概率;
需要说明的是,在每个叶子节点l上定义一个概率密度分布fl用于表示标签θ的分布。不同于原始的决策树模型,概率决策树的拆分节点不会仅仅把样本x路由到它的子节点的其中一个,对于划分节点d,划分函数Rd能够给出样本x到达其所有相邻子节点的概率。因此,样本x有概率被路由到所有的叶子节点,并且所有的叶子节点共同描述了回归目标θ的概率密度分布。
定义Rd(x)=sigmoid(EIndex(d)(x)),其中Index(d)表示样本x的特征E(x)与拆分节点d的对应关系;E(x)与Rd(x)的对应关系在模型初始化阶段随机生成;给定特征E(x),定义Rd(x)表示样本x被路由到当前节点的左子节点的概率,则样本x被路由到叶子节点l的概率为:
Figure BDA0002427015270000081
其中si(i∈{l,r})是一个值域为{0,1}的函数;
在x被路由到叶子节点l的过程中,当经过当前节点且被路由到它的子节点i时si=1,其余情况si=0;样本x到达叶子节点l的概率满足
Figure BDA0002427015270000082
根据以上推导,该概率决策树T对θ的概率密度分布为:
Figure BDA0002427015270000083
因此,x到θ的映射函数可以表示为:
θ'=∫θ·(∫fT(θ|x)dθ)dθ
而对于一个训练样本集合X={(xjj)},j∈N,N表示样本x的数量,目标是通过概率决策树学习一个用来描述在输入样本x的条件下标签θ的概率密度分布函数f(θ|x);
在网络参数优化过程中需要找到一组参数使得样本数据的似然度最大,因此,本算法通过最小化对数似然损失完成这一过程,其损失函数L(θ,P(θ|x))为:
Figure BDA0002427015270000091
fl(θ|x)表示叶子节点l上的θ的概率密度分布。
更优地,在一示例性实施例中,在网络参数优化过程中需要找到一组参数使得样本数据的似然度最大,因此通过最小化对数似然损失完成这一过程;因此为了使损失函数L(θ,P(θ|x))最小,需要学习的变量是与概率决策树拆分节点对应的特征E与叶子节点上的概率密度分布f(θ),即:
(E*,f(θ)*)=argminL(E,f(θ);X)
为了求出公式中的两个最优参数,采用交替优化的策略:在第i次迭代过程中,使用在第i-1次被更新的网络参数n(i-1)学习样本x的特征E(x;n(i-1)),再通过该特征E更新样本x到达每个叶子节点的概率P(l|x;E),并由此计算整个网络结构的损失函数并优化每个叶子节点的概率密度分布fl(θ|x);最后通过参数更新模块在梯度反向传播的过程中更新网络参数n(i)。
其中对于学习样本特征E(x,n):在梯度反向传播的过程中更新网络参数n;通过更新参数n优化网络对样本x的特征E(x,n)的学习;计算损失函数关于E的梯度如公式所示:
Figure BDA0002427015270000092
在网络学习过程中,该算法使用随机梯度下降算法优化网络参数n;
而在学习叶子节点分布fl(θ|x)的过程中,定义每个叶子节点上的概率密度分布满足高斯分布,如下所示:
Figure BDA0002427015270000093
式中,μ表示该分布的均值,k表示该多元高斯分布的具有k个变量,T表示转置。
更优地,在一示例性实施例中,由于该算法所使用的损失函数很难计算,主要原因是其涉及难以解决的界限问题,针对此问题,该示例性实施例使用变分边界法来解决这个约束凸优化问题。在变分边界中,一个要最小化的原始目标函数被其边界迭代替换,由此得到fl的参数更新规则。利用Jensen不等式得到损失函数L(E,f(θ);X)的上界:
Figure BDA0002427015270000101
其中,
Figure BDA0002427015270000102
Figure BDA0002427015270000103
的值域为[0,1],且
Figure BDA0002427015270000104
定义:
Figure BDA0002427015270000105
其中
Figure BDA0002427015270000106
是损失函数L(E,f(θ);X)的上界,通过最小化上界函数
Figure BDA0002427015270000107
来优化叶节点的概率密度分布。
更优地,在一示例性实施例中,在在测试和估计阶段,森林F的输出是所有树木的平均预测值:
Figure BDA0002427015270000108
式中,H表示森林中树的数量,μ表示高斯分布的均值。
针对上述示例性实施例中,下述内容通过实验验证了系统的有效性,研究了不同网络参数对Biwi头部姿态数据集测试结果的影响,在实验基础上对Biwi头部姿态数据集进行了最新的技术比较。在该数据集上,仅使用深度点云数据作为网络的输入,通过描述头部姿态高斯角的平均绝对误差和标准差来评价模型的性能。
A1、参数设置
与模型相关的超参数设置如下:输入模型的点云大小为4096,训练过程中每个batch的大小为32,学习率为0.001,学习率衰减方式为step,其中衰减系数为0.5,衰减步长为20000,最大迭代次数为300个epoch。深度回归森林的相关参数为:每个森林中树的数量为5,每棵树其深度为11,每个森林接收到的第二个深层感知器的输出维度(即特征提取部分的输出维度)是2048,更新叶节点分布时的迭代次数为20,用于更新叶节点分布的batch数量为405。
A2、数据集
Biwi数据集使用Kinect传感器创建,由24个序列组成,共15.6K帧。每一帧提供一个RGB图像和一个深度图像。数据集给出了头部姿势的真实值。它提供了头部的中心位置和传感器的内置参数。我们在实验中使用序列11和12进行测试,其他序列用于训练。深度传感器以一定的视角采集场景的三维几何信息,并将其保存为深度图像。因此,需要对传感器采集的数据进行处理,获得三维点云数据。另外,神经网络要求输入数据的维数一致。为了符合这一点,本文对得到的原始点云做最远点采样,经过此方法处理的点云具有相同的点数。同时,对点云数据的三个通道分别进行标准化,使数据的平均值为0,方差为1。该过程的主要目的是加快网络训练的收敛速度,减少计算时间。
A3、结果分析与评价
在本节中,将本文提出的方法与近年来使用Biwi数据集进行头部姿态估计的实验结果进行对比,比较分析该算法的性能指标。在评价过程中,使用平均绝对误差作为模型准确率的评价指标,平均标准差作为算法稳定性的评价指标。
实验的结果如下表所示,表1比较了不同算法之间的平均绝对误差,表2使用平均标准差比较了不同算法的稳定性差异。
Figure BDA0002427015270000111
表1平均绝对误差比较
其中,Fanelli表示Fanelli G,Gall J,Gool L J V.Real time head poseestimation with random regression forests[C]//The 24th IEEE Conference onComputer Vision and Pattern Recognition,CVPR 2011,Colorado Springs,CO,USA,20-25June 2011.IEEE,2011;Padeleris表示Padeleris P,Zabulis X,Argyros AA.Head poseestimation on depth data based on Particle Swarm Optimization[C]//Workshop onHuman Activity Understanding from 3D Data(CVRP Workshops).IEEE,2012;Ahn表示Ahn B,Park J,Kweon I S.Real-Time Head Orientation from a Monocular CameraUsing Deep Neural Network[C]//Asian Conference on Computer Vision.SpringerInternational Publishing,2014;Drouard表示DrouardV,Silèye Ba,Evangelidis G,etal.Head Pose Estimation via Probabilistic High-Dimensional Regression[C]//IEEE International Conference on Image Processing.IEEE,2015;Papazov表示Papazov C,Marks T K,Jones M.Real-time 3D Head Pose and Facial LandmarkEstimation from Depth Images Using Triangular Surface Patch Features[C]//IEEEConference on Computer Vision and Pattern Recognition(CVPR'15).IEEE,2015;Saeed表示Saeed A,Al-Hamadi A.Boosted human head pose estimation using kinectcamera[C]//IEEE International Conference on Image Processing.IEEE,2015:1752-1756;Borghi表示Borghi G,Fabbri M,Vezzani R,et al.Face-from-Depth for HeadPose Estimation on Depth Images[J].IEEE Transactions on Pattern Analysis andMachine Intelligence,2017,PP(99)。
表1给出了近年来不同算法在Biwi数据集上的实验结果,表中给出了各个算法模型的输入数据类型,描述头部姿态的三个欧拉角的平均绝对误差值以及平均误差值。由表1可知,上述示例性实施例所提出的方法相较于其他算法在准确率方面表现出良好的性能,偏航角、俯仰角与翻滚角的平均绝对误差分别为2.4、2.2、2.2。
Figure BDA0002427015270000121
表2平均标准差比较
其中,Fanelli表示Fanelli G,Gall J,Gool L J V.Real time head poseestimation with random regression forests[C]//The 24th IEEE Conference onComputer Vision and Pattern Recognition,CVPR 2011,Colorado Springs,CO,USA,20-25June 2011.IEEE,2011;Yang表示Yang J,Liang W,Jia Y.Face pose estimation withcombined 2D and 3D HOG features[C]//Proceedings ofthe 21st InternationalConference on Pattern Recognition(ICPR2012).IEEE,2013;Liu表示Liu X,Liang W,Wang Y,et al.3D head pose estimation with convolutional neural networktrained on synthetic images[C]//2016IEEE International Conference on ImageProcessing(ICIP).IEEE,2016;Drouard表示Drouard V,Silèye Ba,Evangelidis G,etal.Head Pose Estimation via Probabilistic High-Dimensional Regression[C]//IEEE International Conference on Image Processing.IEEE,2015;Papazov表示Papazov C,Marks T K,Jones M.Real-time 3D Head Pose and Facial LandmarkEstimation from Depth Images Using Triangular Surface Patch Features[C]//IEEEConference on Computer Vision and Pattern Recognition(CVPR'15).IEEE,2015;Saeed表示SaeedA,Al-Hamadi A.Boosted human head pose estimation using kinectcamera[C]//IEEE International Conference on Image Processing.IEEE,2015:1752-1756;Borghi表示Borghi G,Fabbri M,Vezzani R,et al.Face-from-Depth for HeadPose Estimation on Depth Images[J].IEEE Transactions on PatternAnalysis andMachine Intelligence,2017,PP(99)。
表2给出了实验中标准差的对比结果,标准差通常用作模型稳定性的评价指标。由表2可知,上述示例性实施例所提出的方法相较于其他算法在稳定性方面表现出良好的性能,偏航角、俯仰角与翻滚角的平均绝对误差分别为3.2、3.4、3.1。
A4、参数讨论
在本节中,将讨论不同网络参数对模型性能的影响,由于深度回归森林是一个集成模型,因此森林中树的数量能够对模型的性能产生影响,树的深度是决策树影响模型性能的另一个重要参数,树的深度d与特征学习网络的输出维度F之间存在一个隐式约束,即F≥2d-1-1,2d-1-1是一棵深度为d的树所具有的内部拆分节点数。本节将依照单一变量原则分别对深度回归森林中树的数量以及树的深度对实验结果的影响进行比较。
对于森林中树的数量n,本文在研究中设置森林中树的深度为6,特征提取层输出特征维度为128,设置树的深度为6的目的是减小网络参数,增大树的数量的可选区间,迭代总次数为300个epoch,在相同实验条件下仅改变森林中树的个数获得实验结果,图2给出了森林中树的个数(横坐标)与平均绝对误差(纵坐标)之间的关系。由此可得出,模型的性能会随树的增加而提升,但提升的效果逐渐减弱。分析该结果产生的原因,由于每棵树的拆分节点与特征提取网络输出的特征维度随机对应,因此随着树的数量的增加,特征利用越充分,因此能够得到更好的效果。树的数量超过一定阈值后对模型性能的提升效果减弱,原因是特征利用率逐渐达到峰值。
对于森林中树的深度d,上述示例性实施例在研究中设置森林中树的数量为5,特征提取层输出特征维度为2d+2,例如:当树的深度为7时,特征提取层输出特征维度为512。迭代总次数为300个epoch,在相同实验条件下改变森林中树的深度与对应特征提取层的特征输出维度,图3给出了森林中树的个数(横坐标)与平均绝对误差(纵坐标)之间的关系。由此可得出,存在一个深度临界值,当树的深度小于该临界值时,模型的性能随深度增加而提升,但当树的深度超过临界值时,模型的性能不再提升甚至衰退。
分析对实验结果造成影响的原因,除去网络参数(包括森林参数)能够对实验产生影响,训练过程中输入网络的点云中点的数量、以及特征提取层输出的特征与森林中概率决策树拆分节点的随机对应关系同样可能对实验结果产生影响。
更优地,在一示例性实施例中,所述的特征提取模块还包括:
三个软注意力子模块,分别位于三个分支感知器之前,用于使深度回归森林能够产生特定于某项任务的特征,在模块内部通过学习特征维度对应的权重系数以提高姿态回归的性能。
对于前述示例性实施例,为深度回归森林只适用于单标签学习,为了解决头部姿态估计这种多标签学习任务,需要使用分支网络,利用多组森林对不同属性的标签分别学习,这就引入多任务学习问题。网络在优化过程中,每条分支网络都会计算损失函数,公共的特征提取部分的参数优化变得困难,因为公共特征提取部分网络不会针对某一分支优化参数,所以每个分支都无法达到最优效果。
因此,在该示例性实施例中,引入注意力机制可解决这一问题,在特征学习的同时,对特征维度的权重进行学习,二者做矩阵乘法后能够得到针对某一特定任务的特征,使各个分支达到更好的效果。
更优地,在一示例性实施例中,如图4所示,所述软注意力子模块包括第一卷积层L、第二卷积层M、全连接层N;软注意力子模块的输入为最大池化层输出的全局特征F,所述全局特征F依次经过第一卷积层L和第二卷积层M后进行归一化处理得到第一数据,所述全局特征F还经过全连接层N处理后得到第二数据,将第一数据和第二数据进行点乘后得到加权后的特定特征f,公式如下:
f=N(F)⊙σ(M(L(F)))
式中,⊙表示按元素的乘法运算符,σ(·)表示归一化处理。
更优地,在一示例性实施例中,所述的损失函数为:
Figure BDA0002427015270000141
其中,LP LY LR分别表示三个分支森林的计算得到的损失,wp wy wr为三个分支森林的对应的损失权重。
针对上述示例性实施例中,下述内容进行了一系列的实验来验证所提出的框架的有效性。首先在Biwi数据集上对网络进行研究。在Biwi头部姿势和Pandora数据集上进行了与现有技术的比较。用位姿角的平均绝对误差(MAE)和标准差(SD)来评价系统的性能。输入到网络的点云是从裁剪的头部深度图像中导出的。数据集中的所有点云都被下采样到一致的点数(在我们的实验中为1024个点),并转换为标准正态分布以快速收敛。
B1、参数设置
Biwi数据集是用Kinect传感器创建的。它由24个序列组成,总帧数为15.6K。首先给出了头部姿态的地面真实值,并给出了传感器的固有参数。接下来,序列11和序列12作为测试集,其他序列作为训练集。
Pandora数据集是使用Kinect传感器为汽车环境生成的。记录了10位男性和12为女性,得到110个深度超过250K的序列图像。与数据集一起给出了真实标签。序列10、14、16和20作为测试集,其余作为训练集。
B2、结果分析与评论
在这一部分中,在Biwi数据集上对该示例性实施例的框架进行了研究。
首先,我们检验了本示例性实施例公开的软注意深度回归森林(SA-DRF)对头部姿态估计的有效性。为此,我们设计了一个深度网络,其中SA-DRF被三个完全连接的层所取代(即A1~A4部分的示例性实施例)。实验结果见下表3。
Figure BDA0002427015270000151
表3全连接层与软注意深度回归森林的数据对比
由表可知,全连接层的结果分别为1.8±2.4、2.0±2.7、2.1±2.8,而SA-DRF的结果分别为1.6±2.1、1.5±2.3、1.4±2.1。头部姿态的均方误差和标准差均有明显改善。这是因为深度回归森林具有很强的学习潜在分布的能力。
其次,研究了不同参数化对SA-DRF的影响,包括树的深度d和森林中树的数量n。
为了检验树的数量对框架的影响,我们将树的深度设置为6,并在不同的n下进行实验。实验结果如图5所示。
图5中显示,随着树的数目(横坐标)从2增加到5,所有姿态尺寸的平均绝对误差(纵坐标)从大约2减少到1.5。这是因为在一个深度回归森林中,更多的树提供了更高的分布学习能力。当n从5上升到20时,精度几乎保持不变。因此,在下面的实验中,树的数目被设置为6。
为了测试树的深度对网络的影响,我们在其他参数设为常数的情况下,进行了变d的实验。实验结果如图6所示。
从图6中可以看出,网络的性能(纵坐标)随着树的深度(横坐标)的增加而提高,最终保持不变。由图可见,偏航角的平均绝对误差(纵坐标)从7减小到2以下,d从1增大到5。这是因为树的深度越大,数据抽象的能力就越强。表现力的提高是有限度的,这可能是由表象学习引起的。
B3、定量结果
在这一部分中,我们将所提出的方法与Biwi头部姿势和Pandora数据集上的最新技术进行了比较。参数是在先前实验的基础上设定的。具体来说,森林中的树的个数设置为6,树的深度设置为5。两个数据集的实验结果分别显示在表4和表5中。
Figure BDA0002427015270000161
表4在Biwi数据集上的平均绝对误差比较
Figure BDA0002427015270000162
表5在Pandora数据集上的平均绝对误差比较
其中,Fanelli为Gabriele Fanelli,Matthias Dantone,Juergen Gall,AndreaFossati,and Luc Van Gool,“Random forests for real time 3D face analysis,”International Journal ofComputerVision,vol.101,no.3,pp.437–458,2013;Drouard为Vincent Drouard,Silèye Ba,Georgios Evangelidis,Antoine Deleforge,andRaduHoraud,“Headpose estimation viaprobabilistic high-dimensional regression,”inIEEE International Conference on Image Processing,2015;Papazov为ChavdarPapazov,Tim K.Marks,and Michael J.Jones,“Real-time 3D headpose and faciallandmark estimation from depth images using triangular surface patchfeatures,”in IEEE Conference on Computer Vision and Pattern Recognition,Boston,MA,USA,June 7-12,2015,2015,pp.4722–4730;Ruiz为Nataniel Ruiz,EunjiChong,and James M.Rehg,“Fine-grained headpose estimation without keypoints,”in 2018IEEE Conference on ComputerVision and Pattern RecognitionWorkshops,Salt Lake City,UT,USA,June 18-22,2018,2018,pp.2074–2083;Hsu为Heng-Wei Hsu,Tung-YuWu,Sheng Wan,Wing Hung Wong,and Chen-Yi Lee,“Quatnet:Quaternion-basedheadpose estimation with multiregression loss,”IEEE Trans.Multimedia,vol.21,no.4,pp.1035–1046,2019;Borghi为G.Borghi,M.Fabbri,R.Vezzani,s.calderara,andR.Cucchiara,“Face-from-depth for headpose estimation on depth images,”IEEETransactions on PatternAnalysis and Machine Intelligence,pp.1–1,2018。
表4和表5表明,我们提出的框架在两个数据集上都取得了优异的性能。在Biwi数据集上,我们的方法得到的平均绝对误差约为1.5,标准差很小。在Pandora数据集上,偏航角和翻滚角的精度有了明显的提高。这说明我们的方法具有很强的从点云中提取特征的能力,并且能够对深回归森林的头部姿态进行回归。特别是基于深度图像的方法优于基于RGB图像的方法。这可以归因于深度图像捕获几何信息,更适合于头部姿态估计。
更优地,在一示例性实施例中,在训练阶段,采用特征提取模块、深度回归森林模块和参数更新模块对系统进行训练;在测试和/或估计阶段,采用特征提取模块、深度回归森林模块对输入数据进行数据处理以进行头部姿态估计。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定,对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其他不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (8)

1.基于深度回归森林的三维点云头部姿态估计系统,所述头部姿态包括俯仰角、偏航角和翻滚角,其特征在于:包括:
特征提取模块,用于对采样后的三维点云数据进行特征提取,并输出头部点云的全局特征;
深度回归森林模块,用于根据特征提取模块学习到的头部特征分别预测出俯仰角、偏航角和翻滚角,还用于计算损失函数;
参数更新模块,用于根据所述损失函数,对特征提取模块和深度回归森林模块进行网络参数更新;
所述特征提取模块包括:
第一多层感知器,用于对所述三维点云数据进行独立特征提取和维度转换,将每个输入点的表示维度由三维转换为1024维;
最大池化层,用于将第一多层感知器输出的特征进行融合处理,以得到全局特征;
第二多层感知器,包括对应俯仰角、偏航角和翻滚角的三个分支感知器,输入端均与最大池化层连接,用于对池化处理后的全局特征进行学习;所述三个分支感知器均包括三个顺次连接的全连接层,从池化处理后的全局特征中对点云的特性进行学习,将各个特征维度所关注的局部特征相关联;
三个软注意力子模块,分别位于三个分支感知器之前,用于使深度回归森林模块能够产生特定于某项任务的特征;在软注意力子模块内部通过学习特征维度对应的权重系数以提高姿态回归的性能;即在特征学习的同时,对特征维度的权重进行学习,二者做矩阵乘法后能够得到针对某一特定任务的特征,使各个分支达到更好的效果;
所述软注意力子模块包括第一卷积层L、第二卷积层M、全连接层N;软注意力子模块的输入为最大池化层输出的全局特征F,所述全局特征F依次经过第一卷积层L和第二卷积层M后进行归一化处理得到第一数据,所述全局特征F还经过全连接层N处理后得到第二数据,将第一数据和第二数据进行点乘后得到加权后的特定特征f,公式如下:
f=N(F)⊙σ(M(L(F)))
式中,⊙表示按元素的乘法运算符,σ(·)表示归一化处理;
所述深度回归森林模块包括:
三个分支森林,分别对应于三个分支感知器的输出。
2.根据权利要求1所述的基于深度回归森林的三维点云头部姿态估计系统,其特征在于:所述第一多层感知层包括五个顺次连接的卷积层。
3.根据权利要求1所述的基于深度回归森林的三维点云头部姿态估计系统,其特征在于:每个所述分支森林F={T}注重一维姿态角,均由多个作为弱分类器的概率决策树T组成,每棵决策树T由两种类型的节点构成,包括拆分节点d∈D和叶子节点l∈L;在每个拆分节点d上定义一个拆分函数Rd,其值域为[0,1],Rd表示输入样本x在节点d向某一子节点路由的概率;在每个叶子节点l上定义一个概率密度分布fl用于表示标签θ的分布,其中标签θ=(θy,θp,θr),θy、θp、θr分别表示俯仰角、偏航角和翻滚角,拆分函数Rd能够给出样本x到达其所有相邻子节点的概率;
定义Rd(x)=sigmoid(EIndex(d)(x)),其中Index(d)表示样本x的特征E(x)与拆分节点d的对应关系;E(x)与Rd(x)的对应关系在模型初始化阶段随机生成;给定特征E(x),定义Rd(x)表示样本x被路由到当前节点的左子节点的概率,则样本x被路由到叶子节点l的概率为:
Figure FDA0004041459750000021
其中si(i∈{l,r})是一个值域为{0,1}的函数;
在x被路由到叶子节点l的过程中,当经过当前节点且被路由到它的子节点i时si=1,其余情况si=0;样本x到达叶子节点l的概率满足
Figure FDA0004041459750000022
根据以上推导,该概率决策树T对θ的概率密度分布为:
Figure FDA0004041459750000023
对于一个训练样本集合X={(xjj)},j∈N,N表示样本x的数量,目标是通过概率决策树学习一个用来描述在输入样本x的条件下标签θ的概率密度分布函数f(θ|x);
损失函数L(θ,P(θ|x))为:
Figure FDA0004041459750000024
fl(θ|x)表示叶子节点l上的θ的概率密度分布。
4.根据权利要求3所述的基于深度回归森林的三维点云头部姿态估计系统,其特征在于:在网络参数优化过程中需要找到一组参数使得样本数据的似然度最大,因此通过最小化对数似然损失完成这一过程;因此为了使损失函数L(θ,P(θ|x))最小,需要学习的变量是与概率决策树拆分节点对应的特征E与叶子节点上的概率密度分布f(θ),即:
(E*,f(θ)*)=arg min L(E,f(θ);X)
为了求出公式中的两个最优参数,采用交替优化的策略:在第i次迭代过程中,使用在第i-1次被更新的网络参数n(i-1)学习样本x的特征E(x;n(i-1)),再通过该特征E更新样本x到达每个叶子节点的概率P(l|x;E),并由此计算整个网络结构的损失函数并优化每个叶子节点的概率密度分布fl(θ|x);最后通过参数更新模块在梯度反向传播的过程中更新网络参数n(i)
其中对于学习样本特征E(x,n):在梯度反向传播的过程中更新网络参数n;通过更新参数n优化网络对样本x的特征E(x,n)的学习;计算损失函数关于E的梯度如公式所示:
Figure FDA0004041459750000031
在网络学习过程中,该算法使用随机梯度下降算法优化网络参数n;
而在学习叶子节点分布fl(θ|x)的过程中,定义每个叶子节点上的概率密度分布满足高斯分布,如下所示:
Figure FDA0004041459750000032
式中,μ表示该分布的均值,k表示该多元高斯分布的具有k个变量,T表示转置。
5.根据权利要求4所述的基于深度回归森林的三维点云头部姿态估计系统,其特征在于:利用Jensen不等式得到损失函数L(E,f(θ);X)的上界:
Figure FDA0004041459750000033
其中,
Figure FDA0004041459750000034
Figure FDA0004041459750000035
的值域为[0,1],且
Figure FDA0004041459750000036
定义:
Figure FDA0004041459750000037
其中
Figure FDA0004041459750000038
是损失函数L(E,f(θ);X)的上界,通过最小化上界函数
Figure FDA0004041459750000039
来优化叶节点的概率密度分布。
6.根据权利要求4所述的基于深度回归森林的三维点云头部姿态估计系统,其特征在于:在在测试和估计阶段,森林F的输出是所有树木的平均预测值:
Figure FDA0004041459750000041
式中,H表示森林中树的数量,μ表示高斯分布的均值。
7.根据权利要求1所述的基于深度回归森林的三维点云头部姿态估计系统,其特征在于:所述的损失函数为:
Figure FDA0004041459750000042
其中,LP LY LR分别表示三个分支森林的计算得到的损失,wp wy wr为三个分支森林的对应的损失权重。
8.根据权利要求1所述的基于深度回归森林的三维点云头部姿态估计系统,其特征在于:在训练阶段,采用特征提取模块、深度回归森林模块和参数更新模块对系统进行训练;在测试和/或估计阶段,采用特征提取模块、深度回归森林模块对输入数据进行数据处理以进行头部姿态估计。
CN202010223912.0A 2020-03-26 2020-03-26 基于深度回归森林的三维点云头部姿态估计系统 Active CN111414875B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010223912.0A CN111414875B (zh) 2020-03-26 2020-03-26 基于深度回归森林的三维点云头部姿态估计系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010223912.0A CN111414875B (zh) 2020-03-26 2020-03-26 基于深度回归森林的三维点云头部姿态估计系统

Publications (2)

Publication Number Publication Date
CN111414875A CN111414875A (zh) 2020-07-14
CN111414875B true CN111414875B (zh) 2023-06-02

Family

ID=71494517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010223912.0A Active CN111414875B (zh) 2020-03-26 2020-03-26 基于深度回归森林的三维点云头部姿态估计系统

Country Status (1)

Country Link
CN (1) CN111414875B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131931B (zh) * 2020-08-07 2023-08-29 中国地质大学(武汉) 基于注意力机制的深度森林高光谱图像分类方法和系统
CN112085123B (zh) * 2020-09-25 2022-04-12 北方民族大学 基于显著点采样的点云数据分类和分割方法
CN113177555B (zh) * 2021-05-21 2022-11-04 西南大学 基于跨层级跨尺度跨注意力机制的目标处理方法及装置
CN114241179A (zh) * 2021-12-06 2022-03-25 电子科技大学 一种基于自步学习的视线估计方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019081623A1 (en) * 2017-10-25 2019-05-02 Deepmind Technologies Limited SELF-REGRESSIVE NEURAL NETWORK SYSTEMS INCLUDING A SOFTWARE ATTENTION MECHANISM USING SUPPORT DATA CORRECTIVES
CN110458165A (zh) * 2019-08-14 2019-11-15 贵州大学 一种引入注意力机制的自然场景文本检测方法
CN110675623A (zh) * 2019-09-06 2020-01-10 中国科学院自动化研究所 基于混合深度学习的短时交通流量预测方法、系统、装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8660306B2 (en) * 2012-03-20 2014-02-25 Microsoft Corporation Estimated pose correction
CN110383292A (zh) * 2017-04-07 2019-10-25 英特尔公司 用于深度神经网络的经预算和经简化的训练的方法和系统
CN111050642A (zh) * 2017-07-07 2020-04-21 国立大学法人大阪大学 利用了趋势分析的疼痛判别、机器学习、经济性判别模型及应用了IoT的医疗装置、定制化机器学习、以及新型疼痛判别用脑波特征量
CN108491766B (zh) * 2018-03-05 2021-10-26 中山大学 一种端到端的基于深度决策森林的人群计数方法
US11295197B2 (en) * 2018-08-27 2022-04-05 International Business Machines Corporation Facilitating extraction of individual customer level rationales utilizing deep learning neural networks coupled with interpretability-oriented feature engineering and post-processing
CN109345011A (zh) * 2018-09-19 2019-02-15 中冶赛迪重庆信息技术有限公司 一种基于深度回归森林的空调负荷预测方法及系统
CN110516537B (zh) * 2019-07-15 2022-03-15 电子科技大学 一种基于自步学习的人脸年龄估计方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019081623A1 (en) * 2017-10-25 2019-05-02 Deepmind Technologies Limited SELF-REGRESSIVE NEURAL NETWORK SYSTEMS INCLUDING A SOFTWARE ATTENTION MECHANISM USING SUPPORT DATA CORRECTIVES
CN110458165A (zh) * 2019-08-14 2019-11-15 贵州大学 一种引入注意力机制的自然场景文本检测方法
CN110675623A (zh) * 2019-09-06 2020-01-10 中国科学院自动化研究所 基于混合深度学习的短时交通流量预测方法、系统、装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
QuatNet:quaternion-based head pose estimation with multiregression loss;HSU H-W等;《IEEE Transactions on Multimedia》;第21卷(第4期);第1035-1046页 *
基于深度学习的三维点云头部姿态估计;肖仕华等;《计算机应用》;20191120;第1-5页 *

Also Published As

Publication number Publication date
CN111414875A (zh) 2020-07-14

Similar Documents

Publication Publication Date Title
CN108805083B (zh) 单阶段的视频行为检测方法
CN111414875B (zh) 基于深度回归森林的三维点云头部姿态估计系统
CN111523621B (zh) 图像识别方法、装置、计算机设备和存储介质
CN111814584B (zh) 基于多中心度量损失的多视角环境下车辆重识别方法
CN106951825B (zh) 一种人脸图像质量评估系统以及实现方法
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN107529650B (zh) 闭环检测方法、装置及计算机设备
CN108447080B (zh) 基于分层数据关联和卷积神经网络的目标跟踪方法、系统和存储介质
CN111767882A (zh) 一种基于改进yolo模型的多模态行人检测方法
CN111291809B (zh) 一种处理装置、方法及存储介质
CN111161315B (zh) 一种基于图神经网络的多目标跟踪方法和系统
CN110120064B (zh) 一种基于互强化与多注意机制学习的深度相关目标跟踪算法
CN109002755B (zh) 基于人脸图像的年龄估计模型构建方法及估计方法
CN108230291B (zh) 物体识别系统训练方法、物体识别方法、装置和电子设备
US20180157892A1 (en) Eye detection method and apparatus
CN108932479A (zh) 一种人体异常行为检测方法
CN109255289B (zh) 一种基于统一式生成模型的跨衰老人脸识别方法
CN112288011A (zh) 一种基于自注意力深度神经网络的图像匹配方法
CN113361549A (zh) 一种模型更新方法以及相关装置
CN108280421A (zh) 基于多特征深度运动图的人体行为识别方法
CN115187786A (zh) 一种基于旋转的CenterNet2目标检测方法
CN114503131A (zh) 检索装置、检索方法、检索程序和学习模型检索系统
CN112084895A (zh) 一种基于深度学习的行人重识别方法
CN111860823A (zh) 神经网络训练、图像处理方法及装置、设备及存储介质
Kadim et al. Deep-learning based single object tracker for night surveillance.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant