CN111428619A

CN111428619A - 基于有序回归和软标签的三维点云头部姿态估计系统和方法

Info

Publication number: CN111428619A
Application number: CN202010201707.4A
Authority: CN
Inventors: 王旭鹏; 桑楠; 肖仕华
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-03-20
Filing date: 2020-03-20
Publication date: 2020-07-17
Anticipated expiration: 2040-03-20
Also published as: CN111428619B

Abstract

本发明公开了基于有序回归和软标签的三维点云头部姿态估计系统和方法，系统包括：特征学习网络模块，用于对点云数据进行分层特征提取；预测网络模块，用于将特征学习网络模块得到的特征映射到头姿态角获得角度预测值，并将所述角度预测值和作为标签的头姿态角带入第一损失函数；排序网络模块，用于将头姿态角进行维度划分形成若干子任务、将作为标签的头姿态角与所述子任务之间存在的关系生成软标签、将特征学习网络模块得到的特征进行值预测、将点云数据的值预测和所述软标签带入第二损失函数；网络更新模块。本发明将排序网络模块和预测网络模块的损失相结合，其目的是引入排序网络，从而引导预测网络学习，使得特征提取更加精准，以提高预测网络的精度。

Description

基于有序回归和软标签的三维点云头部姿态估计系统和方法

技术领域

本发明涉及头部姿态估计领域，尤其涉及基于有序回归和软标签的三维点云头部姿态估计系统和方法。

背景技术

稳健的头姿态估计是计算机视觉和计算机图形学中许多问题的基础，在人机交互中有着广泛的应用，例如：VR/AR，驾驶员行为分析等。近年来，利用RGB图像进行头部姿态估计取得了很大的进展，并已成功地应用于受约束的场景。然而，无约束的场景所带来的挑战，如光照变化、较大的位姿变化和更严重的遮挡，使得基于RGB的方法不可靠。此外，使用RGB图像传递面部外观信息被认为是对个人隐私的威胁，这是现代社会关注的主要问题之一，并限制了其进一步应用。

随着三维深度相机的普及，人们提出了基于深度图像的解决方案，并取得了良好的效果。它具有解决基于RGB方法的问题的潜力，因为深度数据捕获场景的几何信息，并且不受光照变化的影响。

传统的方法是计算深度图像和三维模型之间的配准。在现有技术中，在可变形模型的基础上生成一个人特定的三维头部模型，然后用刚性迭代最近邻点(ICP)方法对深度图像进行配准，预测姿态角。考虑到ICP容易失败，初始化能力差，结合ICP引入粒子群优化来寻找头部的可靠部分。为了解决遮挡问题，根据头部模型相对于深度图像的可见性，另外一个现有技术提出了一种基于光线可见性约束的头部姿态正则化方法。

基于深度学习的方法也被引入来解决头部姿态估计的问题。在论文(SankhaS.Mukherjee and Neil Martin Robertson,Deep headpose:Gaze-direction estimationin multimodal video,”IEEE Trans.Multimedia,vol.17,no.11,pp.2094–2107,2015.)中，该问题被表述为人类注视方向的分类，然后由一个使用学习特征的微调回归器给出精确的姿态角。在论文(G.Borghi,M.Fabbri,R.Vezzani,s.calderara,and R.Cucchiara,“Face-from-depth for head pose estimation on depth images,”IEEE Transactionson Pattern Analysis and Machine Intelligence,pp.1–1,2018.)中，设计了一种新型的头部姿态估计深度回归神经网络，该神经网络将头部姿态估计作为三种数据类型的输入，即深度图像，恢复的灰度图像和运动图像。

对于头部姿态估计这一技术领域，现有技术常见的头部姿态估计通常采用全连接直接输出三个预测角度的方式(即硬回归的方式)。但是其均忽略了标签之间具有相关性的这一信息，使得数据识别效果不好。

发明内容

本发明的目的在于克服现有技术的不足，提供基于有序回归和软标签的三维点云头部姿态估计系统和方法，解决现有技术采用硬回归数据识别效果不好的问题。

本发明的目的是通过以下技术方案来实现的：

本发明的第一方面，提供基于有序回归和软标签的三维点云头部姿态估计系统，包括：

特征学习网络模块，用于对输入的由深度图像生成的头部点云数据进行分层特征提取；

预测网络模块，用于将特征学习网络模块得到的特征映射到头姿态角获得角度预测值，并将所述角度预测值和作为标签的头姿态角带入第一损失函数；

排序网络模块，用于将头姿态角进行维度划分形成若干子任务、将作为标签的头姿态角与所述子任务之间存在的关系生成软标签、将特征学习网络模块得到的特征进行值预测、将点云数据的值预测和所述软标签带入第二损失函数；

网络更新模块，用于将第一损失函数和第二损失函数按照一定比例进行结合形成总损失函数后，对所述特征学习网络模块、预测网络模块和排序网络模块的参数进行更新。

进一步地，所述头姿态角包括俯仰角pitchθ^p、侧倾角rollθ^r和偏航角yawθ^y。

进一步地，所述特征学习网络模块包括顺次连接的第一下采样层、第一PointNet层、第二下采样层、第二PointNet层、第三PointNet层。

进一步地，所述的第一损失函数为：

式中，

分别表示对第i个点云数据的俯仰角、侧倾角、偏航角的预测值，N为点云数据的数量；i表示第i个点云数据。

进一步地，所述将头姿态角进行维度划分形成若干子任务包括：

将位姿变化空间按头姿态角的各个维度进行划分，形成等距区间，包括：

其中，K为划分的总区间数，j表示第j个区间；

产生三个与相应序数秩相关的分类任务，即

进一步地，所述将作为标签的头姿态角与所述子任务之间存在的关系生成软标签包括：

对于某一点云数据x_i，具有标签

其中i表示第i个点云数据；其中

被编码为1×K维的向量

即生成软标签，其中向量

的元素

定义如下：

式中，φ(·,·)表示描述类之间相似性的度量损失函数；向量

和

采用相同的方式进行定义。

进一步地，所述将所述软标签和点云数据的值预测带入第二损失函数包括：

所述排序网络模块包含三个结构一致的分类网络，分别对应俯仰角、侧倾角和偏航角；三个分类网络分别输出第i个点云数据的值预测

所述的第二损失函数为：

式中，N为点云数据的数量。

进一步地，所述总损失函数为：

L＝L_pred+λL_rank

式中，L_pred为第一损失函数，L_rank为第二损失函数，λ为控制排序网络模块在网络训练期间的贡献参数。

本发明的第二方面，提供基于有序回归和软标签的三维点云头部姿态估计方法，采用所述的系统；所述方法包括训练步骤和姿态估计步骤；所述训练步骤包括以下子步骤：

将训练样本输入特征学习网络模块进行特征提取；

预测网络模块和排序网络模块均将接收特征学习网络模块的输入，并输出至网络更新模块；

网络更新模块对所述特征学习网络模块、预测网络模块和排序网络模块的参数进行更新；

所述姿态估计步骤包括以下子步骤：

将待姿态估计的点云数据输入至特征学习网络模块进行特征提取；

预测网络模块将特征学习网络模块得到的特征映射到头姿态角获得角度预测值并输出，得到姿态估计结果。

进一步地，所述网络更新模块对所述特征学习网络模块、预测网络模块和排序网络模块的参数进行更新包括：

采用多种不同比例的第一损失函数和第二损失函数的总损失函数，对所述特征学习网络模块、预测网络模块和排序网络模块的参数进行更新；从而选择效果最好的比例进行姿态估计步骤；

和/或：

所述将头姿态角进行维度划分形成若干子任务包括：

采用多种区间划分方式，将头姿态角进行维度划分形成若干子任务；从而选择效果最好的区间划分方式进行为姿态估计步骤。

本发明的有益效果是：

本申请地系统由特征学习网络模块、排序网络模块、预测网络模块、网络更新模块四个模块组成。其中，头部点云数据表示可以从具有相机内部参数的深度图像生成。特征学习网络模块从点云中提取特性，之后采用排序网络模块和预测网络模块。该排序网络模块将头部姿态估计问题转化为一个带有软标签的有序回归问题，并通过分类网络的集成来解决。预测网络模块利用所学习的特征来预测头姿态角。网络更新模块将预测网络模块和排序网络模块的损失函数进行按照一定比例进行结合形成总损失函数后，对所述特征学习网络模块、预测网络模块和排序网络模块的参数进行更新。

排序网络模块和预测网络模块损失相结合目的是引入排序网络，从而引导预测网络学习。当两者结合，在训练时，是会更新网络所有节点的，理想情况是：使得排序网络模块的全连接层权重能更好的学习标签相关性，同时引入标签的关联微调特征提取网络，使得特征提取能够更加精准，从而提高预测网络的精度。

附图说明

图1为本发明一示例性实施例公开的系统框图；

图2为本发明一实例性实施例公开的参数选择示意图；

图3为本发明一实例性实施例公开的本申请在Biwi数据集上的表现示意图；

图4为本发明一实例性实施例公开的本申请在Pandora数据集上的表现示意图。

具体实施方式

下面结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

参见图1，图1示出了一示例性实施例提供基于有序回归和软标签的三维点云头部姿态估计系统，包括：

特征学习网络模块，用于对输入的由深度图像生成的头部点云数据进行特征提取；

具体地，对于任意一示例性实施例，给定一个头部的点云数据x_i，头部姿态估计的目标是预测摄像机参考系中的头部姿态角θ_i。在本申请中，采用欧拉角表示。它被表示为θ＝(θ^p,θ^r,θ^y)，其中，θ^p,θ^r,θ^y分别表示俯仰角(pitch)，侧倾角(roll)和偏航角(yaw)。

对于训练阶段，定义{(x_i,θ_i),i∈[1,N]}作为一组训练样本，其中N表示总数。本示例性实施例提出的头部姿态估计框架如图1所示：

由特征学习网络模块、排序网络模块、预测网络模块、网络更新模块四个模块组成。其中，头部点云数据表示可以从具有相机内部参数的深度图像生成。特征学习网络模块从点云中提取特性，之后采用排序网络模块和预测网络模块。该排序网络模块将头部姿态估计问题转化为一个带有软标签的有序回归问题，并通过分类网络的集成来解决。预测网络模块利用所学习的特征来预测头姿态角。网络更新模块将预测网络模块和排序网络模块的损失函数进行按照一定比例进行结合形成总损失函数后，对所述特征学习网络模块、预测网络模块和排序网络模块的参数进行更新。

在完成训练后，进行头部姿态估计，采用的是特征学习网络模块和预测网络模块，而不需要采用排序网络模块和网络更新模块。

更优地，在一示例性实施例中，所述头姿态角包括俯仰角pitchθ^p、侧倾角rollθ^r和偏航角yawθ^y。

更优地，在一示例性实施例中，所述特征学习网络模块包括顺次连接的第一下采样层、第一PointNet层、第二下采样层、第二PointNet层、第三PointNet层。

具体地，特征学习网络模块利用了PointNet++体系结构从点云中提取特征，因为它是简洁的，并且已经被证明能够近似定义在点集上的任意连续函数。在基本的PointNet体系结构中，每个点通过多层感知器嵌入到一个特征空间中。最大池化层用于将点功能聚合到点云的全局描述中。为了捕获点云的局部几何信息，提出了一种面向点云的PointNet++体系结构。在本示例性实施例中，由三个抽象层(PointNet层)组成，其中，在前两次抽象操作前每个PointNet层都向下采样点(实现了分层特征提取)，并使用PointNet模型描述点及其邻近点。邻域尺度的增加被用来编码每个点的多尺度上下文信息。点云的全局描述是在最后一个抽象层中使用额外的点网体系结构生成的。

如图1所示，本示例性实施例使用了一个具有三个抽象层次的PointNet++体系结构，它以一个包含N个点的点集作为输入。D设为3，因为只使用点坐标。网络样本在前两层中N₁＝512,N₂＝128，分别提取了维度C₁＝128,C₂＝256的特征。相邻点的数量一致设置为k＝64进行点描述。点云是由一个1024维的特征向量来描述的。

其中，D表示输入点云数据的维度，例如数据输入维度：B×N×D，B为batch size，N为最初输入的点数，D为每个点的三维空间坐标(x,y,z)。N₁，N₂如图1所示，分别表示前两层下采样的特征点数目。C₁，C₂如图1所示，分别表示每个特征点经过抽象层，获得的特征向量的维度。

更优地，在一示例性实施例中，所述的第一损失函数为：

式中，

分别表示对第i个点数据的俯仰角、侧倾角、偏航角的预测值，N为点数据的数量；i表示第i个点云数据。

具体地，对于预测网络模块，其作用是直接预测姿态角度。在其中一示例性实施例中，预测网络通过三个连续的全连接层(即图1中的FC Layers)将学习到的特征映射到头姿态角。

分别表示对第i个点云数据的俯仰角、侧倾角、偏航角的预测。之后预测网络模块利用L2回归损失L_pred，即上式。

更优地，在一示例性实施例中，所述将头姿态角进行维度划分形成若干子任务包括：

其中，K为划分的总区间数，j表示第j个区间；

产生三个与相应序数秩相关的分类任务，即

在现有技术中，分类网络提供属于某个类的输入实例的可能性。对于具有独立类的训练样本，通常通过将类标签编码到一个热向量中来进行分类。硬标签将属于一个类的实例的概率设置为零，真实值除外。另一方面，对于具有自然顺序的类，可以将类标签转换为域上的概率分布。这种可能性可以用它的类间距离来表示，一个类越接近真实值，它的概率就越高。与硬标签相比，软标签表示了标签中包含的更丰富的信息。因此在此基础上，本示例性实施例提出将头部姿态估计问题表述为一个带有软标签的有序回归问题。

具体地，对于头部姿态估计这一技术领域，常见的头部姿态估计采用全连接直接输出三个预测角度的方式(硬回归)。但是考虑到标签之间具有相关性，上述方式(即硬回归)忽略了这一信息。因此在本示例性实施例中，使用排序网络模块的目的为：通过该网络学习标签的相关性，促进特征学习网络的神经节点的权重更新，可以理解为排序网络模块引导预测网络模块进行回归预测。

本示例性实施例的排序网络模块解决了传统分类网络的问题。首先将将位姿变化空间按头姿态角的各个维度进行划分，形成等距区间，包括：

其中，K为划分的总区间数，j表示第j个区间；产生三个与相应序数秩相关的分类任务，即

在一示例性实施例中，可以理解为按角度值划分，例如：对数据集给的标签，俯仰角Pitch的角度可能取值范围为[-90,90]，按等距划分为6个等距区间(bins)，即{[-90,-60],[-60,-30],...,[60,90]}。而

表示上面这个K＝6的bins集合，

表示[-90,-60](任务1)，可以理解为将pitch角标签分成了6个分类子任务。

与上述相同，只是分别表示不同姿态角，即侧倾角和偏航角。需要说明的是，j也可以表示为第j个任务。

更优地，在一示例性实施例中，所述将作为标签的头姿态角与所述子任务之间存在的关系生成软标签包括：

对于某一点云数据x_i，具有标签

其中i表示第i个点云数据；其中

被编码为1×K维的向量

即生成软标签，其中向量

的元素

定义如下：

式中，φ(·,·)表示描述类之间相似性的度量损失函数；向量

和

采用相同的方式进行定义。

具体地，上述公式是通过输入标签

与每个任务

之间存在关系生成一个软标签的过程。以上述K＝6为例，加入

那么将生成一个1×6的向量，该向量满足第一个元素值最大，离真实区间越远值越小，且向量和为1的一个概率分布。

在又一示例性实施例中，φ(·,·)使用了欧式距离。

更优地，在一示例性实施例中，所述将所述软标签和点云数据的值预测带入第二损失函数包括：

所述的第二损失函数为：

式中，N为点云数据的数量。

具体地，如图1所示，该排序网络模块包含三个结构一致的分类网络，分别对应俯仰角、侧倾角和偏航角。每个分类网络由三个完全连通的层(三个全连接层，FC Layers)组成，大小分别为512、256、K，表示

作为第i个点云数据的值预测。排序网络的损失函数L_rank利用交叉熵定义，如上式所示。

因此综上，相对于硬标签的有序回归，本示例性实施例提出的基于软标签的方法尊重了标签分布的连续性，充分利用了标签中包含的有序信息。

更优地，在一示例性实施例中，所述总损失函数为：

L＝L_pred+λL_rank

式中，L_pred为第一损失函数(预测网络模块输出)，L_rank为第二损失函数(排序网络模块输出)，λ为控制排序网络模块在网络训练期间的贡献参数。

具体地，排序网络模块和预测网络模块损失相结合目的是引入排序网络，从而引导预测网络学习，由于排序网络模块在整个网络学习中，只是起到引导学习的作用。当两者结合，在训练时，是会更新网络所有节点的，理想情况是：使得排序网络模块的全连接层权重能更好的学习标签相关性，同时引入标签的关联微调特征提取网络，使得特征提取能够更加精准，从而提高预测网络的精度。而训练网络收敛后，即进行后期测试和实际姿态估计中时，排序网络不被使用。

更为具体地，对于不使用排序网络模块的硬回归，就好比直接让整个网络在[-90,90]区间进行回归，猜出姿态角度(假如真实值是10度)；而使用排序网络引导，有了引导，就好比在10∈[0,30]区间进行回归，猜出姿态角度。由传统的回归问题，转为分类+回归问题处理，这样精度也更高。

另外，总损失函数常用可以采用常规梯度下降方法-Adam优化器对整个网络进行参数更新。

本申请的又一示例性实施例，提供基于有序回归和软标签的三维点云头部姿态估计方法，采用上述任意示例性实施例所述的系统；所述方法包括训练步骤和姿态估计步骤；所述训练步骤包括以下子步骤：

将训练样本输入特征学习网络模块进行特征提取；

所述姿态估计步骤包括以下子步骤：

更优地，在一示例性实施例中，所述网络更新模块对所述特征学习网络模块、预测网络模块和排序网络模块的参数进行更新包括：

和/或：

所述将头姿态角进行维度划分形成若干子任务包括：

具体地，下述内容为进行了一系列的实验来测试本申请提出的系统和方法的有效性。在Biwi Head Pose数据集(Gabriele Fanelli,Matthias Dantone,Juergen Gall,Andrea Fossati,and Luc Van Gool,“Random forests for real time 3d faceanalysis,”International Journal of Computer Vision,vol.101,no.3,pp.437–458,2013.)测试网络消融的影响以及参数的影响。在Biwi Head Pose数据集和Pandora数据集上，与先进的技术进行了比较(Guido Borghi,Marco Venturelli ,Roberto Vezzani,andRita Cucchiara,“Poseidon:Face-from-depth for driver pose estimation,”in2017IEEE Conference on Computer Vision and Pattern Recognition,CVPR 2017,Honolulu,HI,USA,July 21-26,2017,2017,pp.5494–5503.)。所有数据集都只使用深度图像。通过头部姿态角的平均绝对误差(μ)和标准差(σ)来评估性能。

一、数据集

Biwi数据集是使用Kinect传感器创建的，由24个序列组成，共15K帧。每一帧都有一个RGB图像和一个深度图像。首先给出了真实头姿态和相机固有的参数。序列11、12分别用于检测，其余序列用于训练。

Pandora数据集是为汽车环境下的头部定位和姿态估计任务而创建的。它由110个序列组成，10个雄性和12名女性记录了5次。每一帧都提供RGB图像和深度图像，以及真实标签。序列10、14、16、20分别作为测试集和训练集。

二、参数学习

在Biwi数据集上对头部点网进行了消融研究，以检验排序网络的有效性，并研究参数λ和K的影响。结果见图2。从图2可以看出，排序网络模块的部署大大提高了网络的性能。例如λ＝0表示排序网络模块没有被定义，此时俯仰角、侧倾角、偏航角的平均绝对误差(μ)和标准差(σ)达到3.0±1.7，2.2±1.7，2.8±1.8。这是因为头姿态变化的非平稳特性使得点云与姿态角通过回归直接映射很难收敛。因此，我们提出的排序网络模块将类标签划分为区间，并将这些标签编码为域上的概率分布，从而引导网络提取有区别的特征进行位姿预测。

此外，随着λ从0.1增加到10，排序网络模块对整个网络的贡献也越来越大，准确率也大大降低。这是因为排序网络模块提供了头部姿势的粗略估计。它被部署来促进培训过程中的特性学习。随着K从5增加到20，性能逐渐下降。由于非平稳特性，面部特征在小的角度间隔内几乎是相同的。较大的K值会在较小的区间内产生排序，并在特征学习过程中产生歧义。

基于上述测试，我们将网络所用的参数λ设为0.1，K设为5作为最终的使用结果。

三、定量分析

在本节中，在Biwi数据集上比较了本申请和各种数据类型的最新方法，包括采用RGB图像的QuatNet方法(Lu Sheng,Jianfei Cai,Tat-Jen Cham,Vladimir Pavlovic,andKing Ngi Ngan,“Visibility constrained generative model for depth-based 3dfacial pose tracking,”IEEE Trans.PatternAnal.Mach.Intell.,vol.41,no.8,pp.1994–2007,2019.)，采用深度图的随机森林(RF)(Gabriele Fanelli,MatthiasDantone,Juergen Gall,Andrea Fossati,and Luc Van Gool,“Random forests for realtime 3d face analysis,”International Journal ofComputer Vision,vol.101,no.3,pp.437–458,2013.)和粒子群优化(PSO)(Gregory P.Meyer,Shalini Gupta,Iuri Frosio,Dikpal Reddy,and Jan Kautz,“Robust model-based 3d head pose estimation,”inIEEE International Conference on Computer Vision,Santiago,Chile,December 7-13,2015,2015,pp.3649–3657.)，和POSEidon网络(G.Borghi,M.Fabbri,R.Vezzani,s.calderara,and R.Cucchiara,“Face-from-depth for head pose estimation ondepth images,”IEEE Transactions on Pattern Analysis and Machine Intelligence,pp.1–1,2018.)采用深度图像，从深度图恢复人脸灰度图(FfD)和运动图像(MI)。在Pandora数据集上，我们的方法在不同的输入条件下与POSEidon进行了比较，获得了迄今为止最好的性能。结果分别见图3和图4。

从图3可以看出，我们提出的头部点网络优于基于RGB的方法，并且在具有深度图像的方法中取得了最好的性能。RGB图像是从三维空间到二维图像的投影，丢失了三维头部姿态估计的重要信息。结果表明，POSEidon网络的平均绝对误差分别达到6.0、4.2和4.9，是本申请的3倍。此外，现有的基于深度的方法，如随机森林，将二维图像的方法应用于三维头部姿态估计。没有考虑深度数据的特性，导致性能显著下降。与此相反，我们的头点网处理点云数据，并为三维头姿态估计提取鉴别特征。请注意，POSEidon在Biwi数据集上实现了更好的性能。这是因为POSEdion，FfD和MI作为深度图像之外的输入，并在数据集上进行了高度优化。

如图4所示，本申请在单输入下的性能优于POSEidon。在Pandora数据集上，俯仰角、侧倾角和偏航角分别为6.1±5.6、4.3±4.5、8.6±9.8，与输入完整的POSEidon相比，有明显的性能改进，俯仰角的精度例外。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定，对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其他不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。