CN108345843A

CN108345843A - 一种基于混合深度回归网络的头部姿态估计方法

Info

Publication number: CN108345843A
Application number: CN201810072571.4A
Authority: CN
Inventors: 黄仰光; 潘力立
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-01-25
Filing date: 2018-01-25
Publication date: 2018-07-31
Anticipated expiration: 2038-01-25
Also published as: CN108345843B

Abstract

该发明公开了一种基于混合深度回归网络的头部姿态估计方法，是基于混合深度回归网络的头部姿态估计算法，属于计算机视觉和机器学习领域。它在传统回归算法和深度网络框架的基础上，首次在头部姿态估计问题中使用了不同模态的图像信息，并将训练得到的多个模态的子网络进行融合，得到了最终的混合深度回归网络。与其它头部姿态估计方法相比，该算法能够取得更好的估计精度并具有良好的鲁棒性。此外，本发明的方法还具有一定的通用性，不仅适用于典型的头部姿态估计问题，如人机交互、安全驾驶和人脸识别，也可以将问题场景拓展到其它深度回归问题中。

Description

一种基于混合深度回归网络的头部姿态估计方法

技术领域

本发明属于计算机视觉和机器学习领域，涉及视觉映射中的头部姿态估计问题。

背景技术

头部姿态估计是指根据包含头部的数字图像，利用机器学习和计算机视觉的方法准确快速地估计该图像中对应头部的偏转角度，也称为头部姿态。它是近年来计算机视觉和机器学习领域研究的热门问题，在人机交互、安全驾驶和人脸识别等方面都有非常广泛的应用。例如：在人机交互领域，头部的偏转角度可以用于控制电脑或机器显示的方向和位置；在安全驾驶领域，头部姿态可用于辅助视线估计，从而提示驾驶员正确的视线方向；在人脸识别领域，头部姿态估计可以预先确定人脸的朝向，从而有利于下一步特征点的定位。现有头部姿态估计方法可以分为三个大的类别：1.基于容貌的方法；2.基于分类的方法；3.基于回归的方法。

基于容貌的头部姿态估计方法的基本原理是将输入的头部图像与数据库中已有的图像进行一一比对，并将找到的最相似的图像所对应的角度作为待估计图像的头部姿态(即角度)。该类方法最大的缺陷在于其只能输出离散的头部偏转角度，并且由于需要与所有已有图像进行依次比对，运算量巨大。参见文献：D.J.Beymer,Face Recognitionunder Varying Pose,IEEE Conference on Computer Vision and PatternRecognition,pp.756-761,1994和J.Sherrah,S.Gong, and E.J.Ong,Face Distributionsin Similarity Space under Varying Head Pose Image and Vision Computing,vol.19,no.12,pp.807-819,2001。

基于分类的头部姿态估计方法是指根据输入图像的特征和对应头部偏转角度训练分类器，并利用学习好的分类器区分待估计图像头部偏转角度所属的类别，从而确定头部姿态的大致范围。该类方法中常用的分类器包括支持向量机(Support VectorMachine,SVM)，线性判决分析 (Linear Discriminative Analysis,LDA)，核线性判决分析(Kernel Linear Discriminative Analysis, KLDA)，这类方法的主要缺点是无法估计输出连续的头部姿态，参见文献：J.Huang,X.Shao, and H.Wechsler,Face PoseDiscrimination using Support Vector Machines(SVM),International Conference onPattern Recognition,pp.154-156,1998。

基于回归的头部姿态估计方法是目前最常用的估计方法，该方法的基本原理是利用已有图像特征和对应的头部角度建立映射函数，并利用映射函数估计待处理图像对应的头部姿态。该类方法解决了前述两种方法无法估计输出连续姿态的问题，同时减少了运算复杂度，参见文献 G.Fanelli,J.Gall,and L.Van Gool,Real Time Head PoseEstimation with Random Regression Forests,IEEE Conference on Computer Visionand Pattern Recognition,2011,pp.617-624和文献 H.Ji,R.Liu,F.Su,Z.Su,andY.Tian,Convex Regularized Sparse Regression for Head Pose Estimation,IEEEInternational Conference on Image Processing,pp.3617-3620,2011。

近年来，基于回归的头部姿态估计方法在深度学习理论发展的基础上，有了新的突破。借助于深度网络，可以更好的拟合已有图像特征和对应的头部姿态之间的映射关系，这种改进大大提高了传统回归方法的精确度和鲁棒性。参见文献M.Venturelli,G.Borghi,R.Vezzani,and R. Cucchiara,Deep Head Pose Estimation from Depth Datafor In-car Automotive Applications, International Conference on PatternRecognition,pp.138-140,2016。

深度网络在头部姿态估计中的应用还有很多值得挖掘改进的地方，至今还未出现将多模态的深度回归网络进行融合的方法，本发明将围绕这个角度展开工作。

发明内容

本发明的任务是提供一种基于混合深度回归网络的头部姿态估计方法。该方法提取不同模态头部图像的梯度方向直方图(Histogram of Oriented Gradient,HoG)特征，并训练不同的深度回归网络模型来建立图像特征与头部姿态之间的非线性映射关系，然后借鉴高斯混合回归方法将训练所得的单模态网络进行融合，最后使用混合得到的网络对头部图像进行姿态估计。通过上述方法，充分利用了多种图像模态信息，同时利用深度回归网络，提高了现有方法的准确度和鲁棒性。

为了方便地描述本发明内容，首先对一些术语进行定义。

定义1：头部姿态。在三维空间中头部旋转的角度通常由一个向量表示，该向量由三个元素构成，第一个元素为俯仰角，第二个元素为偏航角，第三个元素为旋转角。

定义2：俯仰角。在图2(b)所示的x-y-z坐标系中，俯仰角是指以x轴为中心旋转的角度θ。

定义3：偏航角。在图2(a)所示的x-y-z坐标系中，偏航角是指以z轴为中心旋转的角度φ。

定义4：旋转角。在图2(c)所示的x-y-z坐标系中，旋转角是指以z’为中心旋转的角度Ψ。

定义5：RGB图像。RGB图像是指色彩模式是RGB模型的图像。RGB色彩模式是工业界的一种颜色标准，是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的。R、G、B即是代表红、绿、蓝三个通道的颜色，这个标准几乎包括了人类视力所能感知的所有颜色，是目前运用最广的颜色系统之一。图3(a)为RGB图像示意图。

定义6：深度图像。在计算机视觉领域，深度图像是包含与视点的场景对象的表面的距离有关的信息的图像或图像通道。其中，深度图像类似于灰度图像，只是它的每个像素值是传感器距离物体的实际距离。通常RGB图像和深度图像是配准的，因而像素点之间具有一对一的对应关系。图3(b)为深度图像示意图。

定义7：梯度方向直方图特征(Histogram of Oriented Gradient,HoG)。利用像素强度梯度或边缘的方向分布描述图像形状的视觉特征提取方法。其实现方法先将图像分成小的叫做方格单元的连通区域；然后采集方格单元中各像素点的梯度方向或边缘方向直方图；最后把这些直方图组合起来就可以构成特征描述子。为了提高精确度，还可以把这些局部直方图在图像的更大的区间(block)中进行对比度归一化(contrast-normalized)，此方法通过先计算各直方图在这个区间(block)中的密度，然后根据这个密度值对区间中的各个方格单元做归一化。通过该归一化能对光照变化和阴影有更强的鲁棒性。

定义8：自编码器(Auto Encoder)和隐变量。自编码器是机器学习领域中用于学习数据特征的一种方法。对于一个网络，如果假设任务是使输入与输出尽可能相同，同时控制网络中间层数据节点的数量。这样为了恢复原信号，数量有限的中间层节点必须尽可能地表示原信号所包含的信息。中间层节点的数据就是提取出的信号的特征，也称作隐变量。图4为自编码器示意图。

定义9：深度回归网络。本专利使用的深度回归网络是指将自编码器网络运用到回归问题中。在头部姿态估计问题中，网络的输入是头部图像的特征，中间层经过对特征降维，最后输出为头部姿态的三个角度。

定义10：高斯分布。又名正态分布，是一个在数学、物理及工程等领域都非常重要的概率分布。具体是指：对于任意随机变量x，若其概率密度函数满足其中μ 为正态分布的中心，σ为正态分布的方差，则称其满足高斯分布，常用符号表示。

定义11：混合模型。是指将多个子模型混合得到的结果。

定义12：混合系数。在混合模型中代表样本x属于某一子模型的概率。

定义13：似然函数。似然函数是一种关于统计模型中参数的函数，表示模型参数的似然性或可能性。

定义14：期望最大值算法。它是一种可以用来求解混合回归模型参数似然函数最大值的优化方法，它通常包含两个基本的步骤，即：期望步骤(E步)和最大化步骤(M步)；

定义15：Q函数。在求解混合回归模型似然函数最大值的期望最大值算法中，Q函数为似然函数的下界函数。

本发明技术方案为一种基于混合深度回归网络的头部姿态估计方法，该方法包含以下步骤：

步骤1：对数据集进行预处理；

获取头部姿态数据集，包括头部区域RGB图像和深度图像；再根据采集数据集中每幅图像时摄像头的位置，读取N幅图像各自对应的头部俯仰、偏航和旋转角度，即头部姿态向量 t_n∈R³，t_n的第一维表示俯仰角，第二维表示倾斜角，第三维表示旋转角，下标n表示第n幅图像对应的姿态；对采集的RGB图像进行RGB图像转灰度图像的处理，若采集图像已经为灰度图像则无需再进行转化处理；

步骤2：对数据集进行特征提取；

将步骤1得到的头部区域图像归一化为尺寸相等的图像，对每一幅输入图像提取HoG特征，并记模态k下第n幅图像对应的HoG特征向量为x_nk；

步骤3：输入特征和姿态标签的归一化；

设总共有K种模态的图像，对于某一种模态k，将所有的N幅图像对应的HoG特征向量在列方向上，按顺序排列得到特征矩阵X_k，若HoG特征的总维度数为H，则矩阵大小为H×N，即X_k＝[x_1k,...x_Nk]_H×N，并对HoG特征向量的每一维特征进行归一化；将每一幅图像对应的头部姿态向量在列方向上，按顺序排列为标签矩阵T，由于每一幅图像对应的头部姿态向量的维度为3，故矩阵大小为3×N，即T＝[t₁,...,t_N]_3×N,并对每一维角度进行归一化；X_k和T的归一化方法一致，如下式所示，vⁱ表示选取X_k的第i行构建的行向量，uⁱ表示选取T的第i行构建的行向量；表示vⁱ所有分量中的最小值，表示uⁱ所有分量中的最小值；表示vⁱ所有分量中的最大值，表示uⁱ所有分量中的最大值；表示经过归一化以后的vⁱ，表示经过归一化以后的uⁱ；1表示单位向量：

按照以上的公式处理数据矩阵后，得到的归一化的特征矩阵和标签矩阵为：

步骤4：构建和初始化单模态子网络；

子网络的构建采用自编码器网络，训练分为无监督预训练和有监督的微调两步完成；如下式所示，L(·)表示矩阵的2-范数，E_U是无监督预训练时的编码器，E_S有监督微调时的编码器，D为解码器，其中解码器D和编码器E_U权值共享；对于某一种模态k，x_nk表示第n幅图像提取的特征，t_n表示第n幅图像的姿态标签；

模态k下的无监督预训练的代价函数这部分代价来源于特征的重构误差，训练时通过最小化代价函数来更新D和E_U：

模态k下的有监督微调的代价函数这部分代价来源于网络输出与标签的均方误差，训练时通过最小化代价函数来更新E_S：

整个深度回归子网络模型为：首先将归一化以后的单模态特征X_{k_norm}按照mini-batch送入预训练部分网络，经过逐层无监督训练收敛后，得到预训练模型；然后基于预训练网络，构建微调部分网络，将X_{k_norm}和归一化后的标签矩阵T_norm以同样的方式送入微调网络进行有监督训练，得到微调网络，至此，各个单模态子网络初始化完毕；

步骤5：构建子网络混合模型；

1)经过步骤4中的预训练和微调之后，两个单模态网络初始化完毕；接下来需要训练得到深度回归子网络的混合模型，来预测多模态的输入和头部姿态之间的映射关系；混合模型的表达式如下：

x_k表示来源于模态k的输入特征，π_k表示混合系数，f(·)表示训练好的深度回归子网络模型；

2)在概率性框架下将上式改写，得到头部姿态混合模型的参数形式如下：

其中t为头部姿态的观测值，θ表示模型的所有参数的集合，包括子网络中的参数{W_k,b_k}，混合系数{π_k}和方差β^-1，I表示单位矩阵；

3)将上式改写为对数形式，假设已有N个人的K个不同的模态的特征，记作{x_1k,...,x_Nk}，其中k＝1,...,K，表示第n个人的第k个模态的特征；当给定输出观测值T和输入观测值X＝{x_1k,...,x_Nk},(k＝1,...,K)时，模型的对数似然函数表达式为：

步骤6：子网络混合模型的训练；

利用EM算法，在E步骤中，首先根据初始化的子网络对训练集的预测结果为每一个样本加权，然后重新构建代价函数；在M步骤中，优化E步骤中的代价函数；样本的加权以及重新训练是一个迭代的过程，即第一次模型训练结束后需要重复上述过程，直到混合模型精度收敛时，停止训练；若训练完毕，最终的混合网络为子网络的加权和；

步骤7：当给定一个新的多模态头部姿态图片数据集或者多模态头部姿态图片提取的特征，记作{x_c1,...,x_cK}，可以推断出相应的头部姿态为：

其中y表示预测的头部姿态向量，表示各个头部姿态预测值对于不同模态特征的期望。

进一步的，所述步骤2的具体方法为：

将输入图像的头部区域图像归一化为大小为64×64像素的图像，对每一幅输入图像提取 HoG特征；在HoG特征计算的过程中，区域个数的参数设置为2×2，每一区域中图像单元的个数参数设置为8×8，方向柱的个数设置为9，最后得到任意一幅图像对应的HoG特征的维数为1764，并记模态k下第n幅图像对应的HoG特征向量为x_nk。

进一步的，所述步骤6的具体方法为：

E步骤：假设子网络k对每个样本x_nk的预测服从于计算每个子网络对每个样本的后验概率，记为γ_nk：

如果γ_nk大则说明第k个子网络对第n个样本的预测值接近于真实标签，即表现为给此样本加上较大的权重，根据这种后验概率可以构建Q函数，其中θ^old初始化后的θ：

M步骤：最大化Q(θ,θ^old)函数；这个过程中保持γ_nk固定，将θ视为变量。考虑到最大化过程与子网络参数{W_k,b_k}有关，于是对于第k个子网络，上式改写为：

在训练的过程中，γ_nk初始化为本发明中使用两个子网络，则初始化值为0.5；使用梯度下降法得到最优参数后，再将β视为自变量，最大化Q(θ,θ^old)函数，上式改写为：

将上式对β的微分设置为0可得：

为了得到模型的混合系数π_k，考虑到∑_kπ_k＝1，根据拉格朗日乘数法，可得：

本发明的创新之处在于：

该专利在传统回归算法和深度网络框架的基础上，提出了基于混合深度回归网络的头部姿态估计方法。在头部姿态估计问题中，首次使用了两种不同模态信息的头部姿态图像的特征去分别训练子网络。另外，对于初始化完毕的子网络，提出了一种基于期望最大值算法的迭代加权训练的模型混合方法。一方面，深度回归网络的训练使得特征到角度的映射关系更加精确；另一方面，由于采用了多种模态的头部姿态图像特征，通过本专利提出的模型混合方法，不仅进一步提高了子网络的精确性，同时也增加了模型的鲁棒性。本专利的方法还具有一定的通用性，这种多模态特征融合的算法，不仅可以从两种模态拓展到多种模态，也可以将问题场景拓展到其他深度回归问题中，可以作为下一步研究的方向。

附图说明

图1为本发明头部姿态估计示意图；

图2为俯仰角，偏航角和旋转角的定义示意图；

图3为RGB图像和彩色图像示意图；

图4为自编码器结构示意图；

图5为本发明深度回归子网络模型示意图；

图6为本发明多模态子网络混合算法模型示意图。

具体实施方式

步骤1：对数据集进行预处理；

对于BIWI(https://data.vision.ee.ethz.ch/cvl/gfanelli/head_pose/head_forest.html#)头部姿态数据集，从压缩的数据格式中读取对应的头部姿态RGB图像和深度图像，并分别保存；再根据采集每幅图像时摄像头的位置，读取N幅图像各自对应的头部俯仰、偏航和旋转角度，即头部姿态向量t_n∈R³，t_n的第一维表示俯仰角，第二维表示倾斜角，第三维表示旋转角，下标 n表示第n幅图像对应的姿态；对采集的RGB图像进行RGB图像转灰度图像的处理，若采集图像已经为灰度图像则无需再进行转化处理；

步骤2：对数据集进行特征提取；

将输入图像的头部区域图像归一化为大小为64×64像素的图像，对每一幅输入图像提取 HoG特征；在HoG特征计算的过程中，区域个数的参数设置为2×2，每一区域中图像单元的个数参数设置为8×8，方向柱的个数设置为9，最后得到任意一幅图像对应的HoG特征的维数为1764，并记模态k下第n幅图像对应的HoG特征向量为x_nk；

步骤3：输入特征和姿态标签的归一化；

假设总共有K种模态的图像，对于某一种模态k，将所有的N幅图像对应的HoG特征向量在列方向上，按顺序排列可以得到特征矩阵X_k，由于每一幅图像对应HoG特征的维度为 1764，故矩阵大小为1764×N，即X_k＝[x_1k,...x_Nk]_1764×N，并对每一维特征进行归一化；将每一幅图像对应的头部姿态向量在列方向上，按顺序排列为标签矩阵T，由于每一幅图像对应的头部姿态向量的维度为3，故矩阵大小为3×N，即T＝[t₁,...,t_N]_3×N,并对每一维角度进行归一化；X_k和T的归一化方法一致，如下式所示，vⁱ表示选取X_k的第i行构建的行向量，uⁱ表示选取T的第i行构建的行向量；表示vⁱ所有分量中的最小值，表示uⁱ所有分量中的最小值；表示vⁱ所有分量中的最大值，表示uⁱ所有分量中的最大值；表示经过归一化以后的vⁱ，表示经过归一化以后的uⁱ；1表示单位向量：

按照以上的公式处理两个数据矩阵后，得到的归一化的特征矩阵和标签矩阵为

经过归一化以后，每一维数据的基本度量单位得到统一，同时一定程度上消除了极端值对网络训练过程的影响；

步骤4：构建和初始化单模态子网络；

子网络的构建采用自编码器网络，训练分为无监督预训练和有监督的微调两步完成。如下式所示，L(·)表示矩阵的2-范数，E_U是无监督预训练时的编码器，E_S有监督微调时的编码器，D为解码器，其中解码器D和编码器E_U权值共享。对于某一种模态k，x_nk表示第n幅图像提取的特征，t_n表示第n幅图像的姿态标签；

整个深度回归子网络模型训练框图如图5所示：首先将归一化以后的单模态特征X_k__no_rm按照mini-batch送入预训练部分网络，经过逐层无监督训练收敛后，得到预训练模型；然后基于预训练网络，构建微调部分网络，将X_k__norm和归一化后的标签矩阵T_norm以同样的方式送入微调网络进行有监督训练，得到微调网络，至此，各个单模态子网络初始化完毕；

步骤5：构建子网络混合模型；

1)经过步骤4中的预训练和微调之后，两个单模态网络初始化完毕。接下来需要训练得到深度回归子网络的混合模型，来预测多模态的输入和头部姿态之间的映射关系。混合模型的表达式如下：

x_k表示来源于模态k的输入特征，π_k表示混合系数，f(·)表示训练好的深度回归子网络模型，图6为多模态子网络混合模型示意图；

其中t为头部姿态的观测值，θ表示模型的所有参数的集合，包括子网络中的参数{W_k,b_k}，混合系数{π_k}和方差β-¹，I表示单位矩阵；

3)将上式改写为对数形式。假设已有N个人的K个不同的模态的特征，记作{x_1k,...,x_Nk}，其中k＝1,...,K，表示第n个人的第k个模态的特征；当给定输出观测值T和输入观测值X＝{x_1k,...,x_Nk},(k＝1,...,K)时，模型的对数似然函数表达式为：

步骤6：子网络混合模型的训练。利用EM算法，在E步骤中，首先根据初始化的子网络对训练集的预测结果为每一个样本加权，然后重新构建代价函数；在M步骤中，优化E步骤中的代价函数。样本的加权以及重新训练是一个迭代的过程，即第一次模型训练结束后需要重复上述过程，直到混合模型精度收敛时，停止训练。若训练完毕，最终的混合网络为子网络的加权和；

1)E步骤：假设子网络k对每个样本x_nk的预测服从于计算每个子网络对每个样本的后验概率，记为γ_nk：

2)M步骤：最大化Q(θ,θ^old)函数。这个过程中保持γ_nk固定，将θ视为变量。考虑到最大化过程与子网络参数{W_k,b_k}有关，于是对于第k个子网络，上式改写为：

将上式对β的微分设置为0可得：

重复步骤6直至最后预测的结果收敛，便可使用训练好的模型进行推断。

步骤7：当给定一个新的多模态头部姿态图片数据集(比如深度图像和RGB图像)或者多模态头部姿态图片提取的特征，记作{x_c1,...,x_cK}，可以推断出相应的头部姿态为：

根据本发明的方法，首先提取头部姿态图片的HoG特征，然后使用Python语言和Tensorflow深度学习框架实现图5所示的模型。接着将归一化以后的HoG特征以批次(Mini-batch)的方式送入网络进行训练。当代价函数不再变化或者变化很小时表示子网络初始化结束。然后对于初始化完毕的子网络，采用图6所示的结构，对两个网络进行混合迭代训练，直到模型的精度收敛时，即可停止训练。具体的实验参数如下：

图片大小：64×64

特征维度：1764

高斯混合参数初始化：β＝0.0002

训练批次大小：120(模型初始化阶段)、100(混合阶段)

学习率：0.0001

编码器参数；预训练Auto Encoder编码器和解码器都是3层隐层，分别为300、250、200，从输入开始，前三层使用ReLU激活函数，最后一层到输出层使用Sigmoid激活函数。微调阶段只需要编码器，参数和预训练阶段一致。

Claims

1.一种基于混合深度回归网络的头部姿态估计方法，该方法包含以下步骤：

步骤1：对数据集进行预处理；

获取头部姿态数据集，包括头部区域RGB图像和深度图像；再根据采集数据集中每幅图像时摄像头的位置，读取N幅图像各自对应的头部俯仰、偏航和旋转角度，即头部姿态向量t_n∈R³，t_n的第一维表示俯仰角，第二维表示倾斜角，第三维表示旋转角，下标n表示第n幅图像对应的姿态；对采集的RGB图像进行RGB图像转灰度图像的处理，若采集图像已经为灰度图像则无需再进行转化处理；

步骤2：对数据集进行特征提取；

步骤3：输入特征和姿态标签的归一化；

按照以上的公式处理两个数据矩阵后，得到的归一化的特征矩阵和标签矩阵为:

步骤4：构建和初始化单模态子网络；

步骤5：构建子网络混合模型；

步骤6：子网络混合模型的训练；

2.如权利要求1所述的一种基于混合深度回归网络的头部姿态估计方法，其特征在于所述步骤2的具体方法为：

将输入图像的头部区域图像归一化为大小为64×64像素的图像，对每一幅输入图像提取HoG特征；在HoG特征计算的过程中，区域个数的参数设置为2×2，每一区域中图像单元的个数参数设置为8×8，方向柱的个数设置为9，最后得到任意一幅图像对应的HoG特征的维数为1764，并记模态k下第n幅图像对应的HoG特征向量为x_nk。

3.如权利要求1所述的一种基于混合深度回归网络的头部姿态估计方法，其特征在于所述步骤6的具体方法为：

将上式对β的微分设置为0可得：