CN109977757A

CN109977757A - 一种基于混合深度回归网络的多模态的头部姿态估计方法

Info

Publication number: CN109977757A
Application number: CN201910078126.3A
Authority: CN
Inventors: 唐佩军; 程深; 潘力立
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2019-07-05
Anticipated expiration: 2039-01-28
Also published as: CN109977757B

Abstract

该发明公开了一种基于混合深度回归网络的多模态的头部姿态估计方法，属于机器学习和计算机视觉领域。该方法首先将头部图像转换为多种不同的模态，并从不同模态的头部图像中提取梯度方向直方图特征，其次通过训练不同模态的深度回归网络模型来拟合图像特征与对应的头部姿态估计之间的映射关系，然后借鉴高斯混合密度网络的方法，将训练所得的单模态网络融合为多模态网络，并且同时训练不同图像的混合系数，最后使用混合得到的多模态网络对输入的头部图像进行头部姿态估计。本发明更好的拟合了图像特征与头部姿态估计之间的非线性映射，提高了现有方法的精确度和鲁棒性。

Description

一种基于混合深度回归网络的多模态的头部姿态估计方法

技术领域

本发明属于机器学习和计算机视觉领域，主要涉及多模态的头部姿态估计问题。

背景技术

头部姿态估计在计算机视觉中一般定义为根据包含头部的数字图像，利用机器学习的方法估计该图像中的头部与摄像机之间的相对偏转角度，通常人的头部姿态有三个自由度方向，分别是水平方向上的偏航角、垂直方向上的俯仰角和图像平面上的旋转角。在身份验证、安全驾驶以及人机交互等方面需求的背景下，头部姿态估计作为这些实际应用中的关键问题，近年来在计算机视觉和机器学习领域得到了越来越多的关注。例如：在身份验证领域，头部姿态估计预先估计人脸的朝向，从而有利于下一步特征点的定位与之后的处理；在安全驾驶领域，头部姿态估计可以辅助视线估计，从而实现对驾驶员注意力的监控；在人机交互领域，头部姿态估计可以辅助表情识别进行行为预测等。

现有的针对人脸头部姿态估计的算法，主要分为基于分类的方法和基于回归的方法。

基于分类的方法主要是学习头部图像与姿态标签之间的分类判别函数，然后利用训练好的分类器去估计待测试图像头部姿态所属的类别，从而确定头部姿态估计。目前常用的分类器有支持向量机(Support Vector Machine,SVM)，线性判别分析(LinearDiscriminative Analysis,LDA)和贝叶斯分类器(Bayesian,NB),但是这些方法只能提供离散的头部姿态估计，导致估计值并不精准。参见文献：J.Huang,X.Shao,andH.Wechsler,Face Pose Discrimination using Support Vector Machines,IEEEInternational Conference on Pattern Recognition,pp.154-156,1998.和S.O.Ba,J.M.Odobez,A Probabilistic Framework for Joint Head Tracking and PoseEstimation,IEEE International Conference on Pattern Recognition,2004.

基于回归的方法主要是学习头部图像与连续的姿态标签值之间的映射函数，然后利用训练好的模型去估计待测试图像的头部姿态角度值，目前常用的回归函数包括支持向量回归(Support Vector Regression,SVR)，高斯过程回归(Gaussian ProcessRegression,GPR)，和神经网络(Neural Network,NN),这类方法解决了前两种方法无法输出连续的头部姿态角度值的缺点。参见文献：R.Ananth,Y.Ming-Hsuan,H.Jeffrey,OnlineSparse Gaussian Process Regression and Its Applications,IEEE Transactions onImage Processing,2011.和G.Fanelli,J.Gall,and L.Van Gool,Real Time Head PoseEstimation with Random Regression Forests,IEEE Conference on Computer Visionand Pattern Recognition,pp.617-624,2011.

近年来，随着深度学习理论的不断发展，借助于深度网络的发展与应用，可以更好的拟合图像特征与对应的头部姿态估计之间的映射关系，这种改进大大提高了传统回归方法的精确度和鲁棒性，深度网络在头部姿态估计中还有很多值得挖掘改进的地方。显然不同图像在不同模态上的头部姿态估计的好坏程度是不同的，但至今还未出现将多模态的混合深度回归网络进行融合的方法，本发明将围绕这个角度展开工作。

发明内容

本发明的任务是提供一种基于混合深度回归网络的多模态的头部姿态估计方法。该方法首先将头部图像转换为多种不同的模态，并从不同模态的头部图像中提取梯度方向直方图(Histogram of Oriented Gradient,HoG)特征，其次通过训练不同模态的深度回归网络模型来拟合图像特征与对应的头部姿态估计之间的映射关系，然后借鉴高斯混合密度网络的方法，将训练所得的单模态网络融合为多模态网络，并且同时训练不同图像的混合系数，最后使用混合得到的多模态网络对输入的头部图像进行头部姿态估计。

通过上述方法，本发明充分利用了图像的多种模态信息，且考虑了不同图像在不同模态上识别效果的差异，同时利用混合深度回归网络，更好的拟合了图像特征与头部姿态估计之间的非线性映射，提高了现有方法的精确度和鲁棒性。

为了方便地描述本发明内容，首先对一些术语进行定义。

定义1：头部姿态。通常认为人体头部可以建模为一个无实体的刚体对象，根据这种假设，头部姿态被限制为三个自由度的向量表示，该向量由三个元素构成，分别为俯仰角，偏航角和旋转角，如图1所示。

定义2：俯仰角。在三维空间中，俯仰角是指以水平轴为中心旋转的角度，为人体头部上下翻转的角度，如图2中所示的角度Pitch。

定义3：偏航角。在三维空间中，偏航角是指以竖直轴为中心旋转的角度，为人体头部左右翻转的角度，如图2中所示的角度Yaw。

定义4：旋转角。在三维空间中，旋转角是指在图像平面中中心旋转的角度，为人体头部在平面内旋转的角度，如图2中所示的角度Roll。

定义5：RGB图像。RGB色彩模式是工业界的一种颜色标准，是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的，RGB即是代表红、绿、蓝三个通道的颜色，这个标准几乎包括了人类视力所能感知的所有颜色，是目前运用最广的颜色系统之一。图3(a)为RGB图像示意图。

定义6：深度图像。在计算机视觉领域，深度图像是包含与视点的场景对象的表面的距离有关的信息的图像或图像通道。深度图像也被称为距离影像，是指将从图像采集器到场景中各点的距离(深度)作为像素值的图像，它直接反映了景物可见表面的几何形状。深度图像的每个像素点的灰度值可用于表征图像中某一点到图像采集器平面的距离，通常RGB图像和深度图像是匹配的，因而像素点之间具有一对一的对应关系。图3(b)为深度图像示意图。

定义7：灰度图像。灰度数字图像是每个像素只有一个采样颜色的图像。这个图像通常显示为从最暗的黑色到最亮的白色之间的不同颜色深浅的灰度。灰度图像与黑白图像不同，在计算机图像领域中黑白图像只有黑白两种颜色，灰度图像在黑色与白色之间还有许多级的颜色深度。

定义8：方向梯度直方图(Histogram of Oriented Gradient,HOG)特征。它是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子，通过计算和统计图像局部区域的方向梯度直方图来构成特征。首先将图像分成小的连通区域，这些连通区域被称作细胞单元。然后采集细胞单元中各像素点的梯度或边缘的方向直方图。最后把这些直方图组合起来，就可以构成特征描述符。将这些局部直方图在图像的更大的范围内(称为区间)进行对比度归一化，可以提高该算法的性能，所采用的方法是：先计算各直方图在这个区间中的密度，然后根据这个密度对区间中的各个细胞单元做归一化。通过这个方法，在光照变化和阴影的影响下能获得更好的效果。

定义9：自编码器(Auto Encoder)。自编码器是机器学习领域中用于学习数据特征的一种方法，整个自编码器其实就是一个人工神经网络，它的输出和输入近似相等，中间为降维后的编码信号。自编码器是一种无监督机器学习算法，通过计算自编码输出与原输入之间的误差，不断调节自编码器的参数，最终训练出模型；也可以用于压缩输入信息，用于信号降维，提取有用的输入特征，同时降维之后的信号能够很好的重建原信号。

定义10：混合深度回归网络。在本专利中是指将自编码器运用到多模态的头部姿态估计的回归问题中。在头部姿态估计问题中，网络的输入是多种模态的头部图像的特征，中间层经过特征降维，考虑不同头部图像在不同模态上的差异性，最后综合输出头部姿态估计的三个角度值。

定义11：正态分布。也称常态分布，又名高斯分布，是一个在数学、物理及工程等领域都非常重要的概率分布，在统计学的许多方面有着重大的影响力。若随机变量x，其概率密度函数满足其中μ为正态分布的数学期望，σ²为正态分布的方差，则称其满足正态分布，常记作

定义12：混合系数。在混合网络中代表某样本属于某一模态子模型的概率。

定义13：似然函数。在数理统计学中，似然函数是一种关于统计模型中参数的函数，表示模型参数的似然性或可能性。给定输出x时，关于参数θ的似然函数L(θ|x)在数值上等于给定参数θ后变量X的概率：L(θ|x)＝P(X＝x|θ)。

定义14：对数似然函数。即似然函数的自然对数形式。求解一个函数的极大化往往需要求解该函数的关于未知参数的偏导数。由于对数函数是单调递增的，而且对数似然函数在极大化求解时较为方便，所以对数似然函数常用在最大似然估计及相关领域中。

定义15：多模态混合网络。即对不同模态的特征进行混合学习的网络，目的是考虑不同模态特征信息的差异化，以期望达到更高的准确度和鲁棒性。本发明采用的是：每一种模态都有一个独立的多层子网络，用于学习不同模态的异构特征，由此可以得到不同模态所对应的权值，并选择出对于当前学习任务而言最重要的特征，从而达到剔除冗余信息和降低噪声干扰的作用。

因而本发明技术方案为一种基于混合深度回归网络的多模态的头部姿态估计方法，该方法包括：

步骤1：对样本数据集进行预处理，获得样本数据集中各图像的三种模态图像，包括：RGB图像、深度图像、灰度图像，并且标记每幅图像对应的头部姿态标签；

步骤2：对数据集进行特征提取；

首先将各种模态的图像分别进行归一化处理，然后对每一个模态的每一幅输入图像提取HOG特征；

步骤3：对各模态图像提取的HOG特征和头部姿态标签一起进行归一化处理；

步骤4：构建和初始化单模态子网络；

单模态的子网络采用自动编码器网络来构建，训练过程分为无监督的预训练和有监督的微调两个步骤；

步骤4-1：预训练时采用基于自编码器网络的无监督逐层训练算法，如下式所示：

其中：表示矩阵的2-范数，E_U表示无监督预训练时的编码器，D为对应的解码器，目的是重构编码器的输入，其中解码器D和编码器E_U权值共享，x_nk表示在模态k的情况下第n幅图像的特征；模态k下的无监督预训练的代价函数这部分代价来源于图像特征的重构误差，训练时通过最小化代价函数来更新D和E_U；

步骤4-2：微调时根据预训练时的网络局部最优参数进行训练，如下式所示：

其中：表示矩阵的2-范数，E_S表示有监督微调时的编码器，x_nk表示在模态k的情况下第n幅图像的特征，t_n表示第n幅图像对应的姿态标签；模态k下的有监督微调的代价函数这部分代价来源于网络输出与标签的均方误差，训练时通过最小化代价函数来更新E_S；

步骤5：构建多模态的混合网络；

步骤5-1：训练得到深度回归子网络的多模态混合网络，多模态网络来预测多模态的输入和头部姿态之间的映射关系的混合模型表达式如下：

x_nk表示来源于第n个样本在模态k情况下的输入特征，π_k(x_nk)表示第n个样本的在模态k情况下的混合系数，y_k(·)表示训练好的模态k的深度回归子网络模型；

步骤5-2：在概率性框架下将上式改写，得到头部姿态混合模型的参数形式如下：

其中t_n为第n个样本的头部姿态的观测值，θ表示模型的每层网络层可训练参数的集合，包括权重参数向量{w_k}和偏置参数向量{b_k}，为模态k的样本的各向同性高斯分布的方差，子函数π_k(·)为模态k的混合系数，y_k(·)表示模态k时的预测函数；表示以y_k(x_nk)为期望，为方差的随机变量t_n的正态分布；

其中μ为正态分布的数学期望，σ²为正态分布的方差，则称其满足正态

步骤5-3：对于多模态混合网络模型，各子网络层均使用全连接层，设该模型共有L层子网络，前L-1层网络的输出形式如下：

其中，x_nk表示第n个样本在模态k情况下的输入特征，也即整个网络的输入，为第l层子网络的权重参数矩阵，为第l层的偏置参数矩阵，为第l层子网络的输出；

混合模型参数通过影响混合系数π_k(x_nk)，模态k情况下的头部姿态预测值y_k(x_nk)，及方差以此影响以x_nk作为输入的网络的最终输出，采用如下文所示的函数来训练模型的所有参数，并由此预测网络的最终输出；

混合系数必须满足下面的限制：

为了将混合系数转换为概率值，通过使用softmax输出来实现；设L为网络的最后一层，π_k(x_nk)为第L层子网络的混合系数的输出，为上一层子网络的输出，为第L层子网络与混合系数有关的一个中间值，为该层子网络与有关的权重参数，为该层子网络与有关的偏置参数；

类似的，方差必须满足：

可以使用对应的网络激活函数的指数形式进行表示，σ_k(x_nk)为第L层子网络的方差的输出，为第L层子网络与方差有关的一个中间值，为该层子网络与有关的权重参数，为该层子网络与有关的的偏置参数；

最后，模态k的第n个样本图像的头部姿态的预测值y_k(x_nk)为实向量，可以直接用网络的输出激活表示，y_k(x_nk)为第L层子网络的头部姿态估计的输出，为该层子网络与y_k(x_nk)有关的权重参数，为该层子网络与y_k(x_nk)有关的的偏置参数；

由此，根据以上步骤计算得到的混合系数，可以选择出对于当前学习任务而言最重要的特征进行头部姿态估计的预测；

步骤5-4：综上步骤5-1到步骤5-3的步骤，对于给定的N个独立的样本数据，可将概率形式下的头部姿态混合模型的似然函数改写为对数形式；当给定输出标签值T和输入观测值X＝{x_1k，...，x_Nk}，k＝1，...，K时，则模型的对数似然函数表达式为：

上式可以通过最大似然法确定，或者使用最小化误差函数的方法来确定，误差函数的形式为：

步骤6：多模态混合网络的训练；

训练的目标是最小化误差函数l(θ)，若已经得到误差函数关于输出单元的激活函数的导数的表达式，则再通过标准的反向传播方法可以计算误差函数关于各参数分量的导数。我们可以考虑对于特定的样本n的l_n(θ)的导数，然后通过求和的方式找到l(θ)的导数；

步骤7：对测试图像进行测试；

当给定一个新的多模态头部姿态图片数据集，假设有t个样本，K种模态，记作{x_t1，...，x_tK}，可以推断出相应的头部姿态为：

其中y表示预测的头部姿态向量值，表示对于不同模态特征的各个头部姿态预测值的期望。

进一步的，所述步骤2的具体方法为：首先将不同模态的输入图像的头部区域进行归一化处理，归一化后的大小为64×64像素；再对每一个模态的每一幅输入图像提取HOG特征，提取过程中，区域个数设置为2×2，每一区域中的图像单元个数设置为8×8，方向柱的个数设置为9，最后得到的每一个模态的每一幅图像对应的HOG特征的维数为1764，记模态k下第n幅图像对应的HoG特征向量为r_nk∈R¹⁷⁶⁴。

进一步的，所述步骤3的具体方法为：假设总共有K种模态的图像，对于某一种模态k，k＝1，2，3，将每一幅图像对应的HoG特征向量按顺序排列为列向量，列向量对应的维度为1764，再将该模态的所有的N幅图像对应排列的列向量进行堆叠，可以得到特征矩阵R_k，矩阵大小为1764×N，即R_k＝[r_1k，...r_Nk]_1764×N，并对每一维特征进行归一化；将每一幅图像对应的头部姿态标签向量按顺序排列为列向量，列向量对应的维度为3，再将该模态的所有的N幅图像对应排列的列向量进行堆叠，得到标签矩阵L，故矩阵大小为3×N，即L＝[l₁，...，l_N]_3×N,并对每一维角度进行归一化；

R_k和L的归一化方法一致，如下式所示，rⁱ表示选取R_k的第i行构建的行向量，lⁱ表示选取L的第i行构建的行向量；表示rⁱ所有分量中的最小值，r_min表示由N个构成的行向量，表示lⁱ所有分量中的最小值，l_min表示由N个构成的行向量；表示rⁱ所有分量中的最大值，表示lⁱ所有分量中的最大值；表示经过归一化以后的rⁱ，表示经过归一化以后的lⁱ；归一化公式如下：

按照以上的公式处理数据矩阵后，得到的归一化的特征矩阵和标签矩阵为:

再重新对归一化后的特征矩阵X_k和标签矩阵T进行按列分块，即归一化后的头部图像特征矩阵为X_k＝[x_1k，...x_Nk]_1764×N，归一化后的姿态标签矩阵为T＝[t₁，...，t_N]_3×N；经过归一化以后，消除了每一维数据之间的量纲影响，使得基本度量单位得到统一，以便数据指标的后续比较与计算，同时使得预处理的数据被限定在一定的范围内，从而消除奇异样本数据导致的不良影响。

本发明技术方案为一种基于混合深度回归网络的多模态的头部姿态估计方法，该方法充分利用了图像的多种模态信息，且考虑了不同图像在不同模态上识别效果的差异，同时利用混合深度回归网络，更好的拟合了图像特征与头部姿态估计之间的非线性映射，提高了现有方法的精确度和鲁棒性。

附图说明

图1为头部姿态估计的示意图；

图2为头部姿态的三个自由度：偏航角，俯仰角和旋转角的定义示意图；

图3为RGB图像和深度图像示意图；

图4为本发明多模态混合网络算法示意图

图5为本发明多模态混合网络模型示意图；

具体实施方式

步骤1：对数据集进行预处理；

对BIWI(https://data.vision.ee.ethz.ch/cvl/gfanelli/head_pose/head_forest.html)头部姿态数据集经过预处理后，将得到三种不同模态的图像，包括RGB、深度与灰度图像，以及每幅图像所对应的头部姿态标签。

具体步骤为先从BIWI头部姿态数据集中的压缩数据格式中读取对应的头部姿态RGB图像和深度图像，再将采集的RGB图像转换为灰度图像，并分别保存；然后采集每幅图像的头部与摄像头之间的相对位置来获取头部姿态的真实标签，即读取N幅头部图像各自对应的头部姿态的三个自由度，包括俯仰角、偏航角和旋转角，则头部姿态向量l_n∈R³，l_n表示第n张图像的头部姿态标签，其中第一维表示俯仰角，第二维表示偏航角，第三维表示旋转角，最终保存为头部姿态标签；

步骤2：对数据集进行特征提取；

即对输入图像进行HOG特征提取。首先将不同模态的输入图像的头部区域进行归一化处理，归一化后的大小为64×64像素；再对每一个模态的每一幅输入图像提取HOG特征，提取过程中，区域个数设置为2×2，每一区域中的图像单元个数设置为8×8，方向柱的个数设置为9，最后得到的每一个模态的每一幅图像对应的HOG特征的维数为1764，记模态k下第n幅图像对应的HoG特征向量为r_nk∈R¹⁷⁶⁴；

步骤3：输入的多模态图像特征和头部姿态真实标签的归一化；

假设总共有K种模态的图像，对于某一种模态k，将每一幅图像对应的HoG特征向量按顺序排列为列向量，列向量对应的维度为1764，再将该模态的所有的N幅图像对应排列的列向量进行堆叠，可以得到特征矩阵R_k，矩阵大小为1764×N，即R_k＝[r_1k，...r_Nk]_1764×N，并对每一维特征进行归一化；将每一幅图像对应的头部姿态标签向量按顺序排列为列向量，列向量对应的维度为3，再将该模态的所有的N幅图像对应排列的列向量进行堆叠，得到标签矩阵L，故矩阵大小为3×N，即L＝[l₁，...，l_N]_3×N,并对每一维角度进行归一化；

R_k和L的归一化方法一致，如下式所示，rⁱ表示选取R_k的第i行构建的行向量，lⁱ表示选取L的第i行构建的行向量；表示rⁱ所有分量中的最小值，r_min表示由N个构成的行向量，表示lⁱ所有分量中的最小值，l_min表示由N个构成的行向量；表示rⁱ所有分量中的最大值，表示lⁱ所有分量中的最大值；表示经过归一化以后的rⁱ，表示经过归一化以后的lⁱ。归一化公式如下：

再重新对归一化后的特征矩阵X_k和标签矩阵T进行按列分块，即归一化后的头部图像特征矩阵为X_k＝[x_1k，...x_Nk]_1764×N，归一化后的姿态标签矩阵为T＝[t₁，...，t_N]_3×N。经过归一化以后，消除了每一维数据之间的量纲影响，使得基本度量单位得到统一，以便数据指标的后续比较与计算，同时使得预处理的数据被限定在一定的范围内，从而消除奇异样本数据导致的不良影响；

步骤4：构建和初始化单模态子网络；

单模态的子网络采用自动编码器网络来构建，训练过程分为无监督的预训练和有监督的微调两个步骤。

预训练时采用基于自编码器网络的无监督逐层训练算法，如下式所示，表示矩阵的2-范数，E_U表示无监督预训练时的编码器，D为对应的解码器，目的是重构编码器的输入，其中解码器D和编码器E_U权值共享，x_nk表示在模态k的情况下第n幅图像的特征。

模态k下的无监督预训练的代价函数这部分代价来源于图像特征的重构误差，训练时通过最小化代价函数来更新D和E_U：

微调时根据预训练时的网络局部最优参数进行训练，如下式所示，表示矩阵的2-范数，E_S表示有监督微调时的编码器，x_nk表示在模态k的情况下第n幅图像的特征，t_n表示第n幅图像对应的姿态标签；

模态k下的有监督微调的代价函数这部分代价来源于网络输出与标签的均方误差，训练时通过最小化代价函数来更新E_S：

深度回归子网络的模型的构建，即首先将归一化后的模态的特征X_k按照mini-batch进行逐层无监督预训练，得到各网络参数层的预训练模型；由于每个自编码器都只是优化了一层隐藏层，所以每个隐藏层的参数都只是局部最优的。预训练完成之后，我们把优化后的网络参数作为神经网络的初始值，然后将归一化后的模态的特征X_k和归一化后的标签矩阵T按照mini-batch进行有监督的微调训练，直到最终收敛，得到各模态子网络模型。

步骤5：构建多模态的混合网络；

1)经过步骤4中的预训练和微调之后，两个单模态网络初始化完毕。接下来需要训练得到深度回归子网络的多模态混合网络，如图5所示，由此多模态网络来预测多模态的输入和头部姿态之间的映射关系。混合模型的表达式如下：

2)在概率性框架下将上式改写，得到头部姿态混合模型的参数形式如下：

其中t_n为第n个样本的头部姿态的观测值，θ表示模型的每层网络层可训练参数的集合，包括权重参数向量{w_k}和偏置参数向量{b_k}，为模态k的样本的各向同性高斯分布的方差，子函数π_k(·)为模态k的混合系数，y_k(·)表示模态k时的预测函数；

3)对于多模态混合网络模型，如图4所示，各子网络层均使用全连接层，设该模型共有L层子网络，前L-1层网络的输出形式如下：

其中，x_nk表示第n个样本在模态k情况下的输入特征，也即整个网络的输入，为第l层子网络的权重参数矩阵，为第l层的偏置参数矩阵，为第l层子网络的输出。

混合模型参数通过影响混合系数π_nk(x_nk)，模态k情况下的头部姿态预测值y_k(x_nk)，及方差以此影响以x_nk作为输入的网络的最终输出，本发明采用如下文所示的函数来训练模型的所有参数，并由此预测网络的最终输出。

混合系数必须满足下面的限制：

为了将混合系数转换为概率值，可以通过使用softmax输出来实现。设L为网络的最后一层，π_k(x_nk)为第L层子网络的混合系数的输出，为上一层子网络的输出，为第L层子网络与混合系数有关的一个中间值，为该层子网络与有关的权重参数，为该层子网络与有关的的偏置参数。

类似的，方差必须满足：

可以使用对应的网络激活函数的指数形式进行表示，σ_k(x_nk)为第L层子网络的方差的输出，为第L层子网络与方差有关的一个中间值，为该层子网络与有关的权重参数，为该层子网络与有关的的偏置参数。

最后，模态k的第n个样本图像的头部姿态的预测值y_k(x_nk)为实向量，可以直接用网络的输出激活表示，y_k(x_nk)为第L层子网络的头部姿态估计的输出，为该层子网络与y_k(x_nk)有关的权重参数，为该层子网络与y_k(x_nk)有关的的偏置参数。

由此，根据以上步骤计算得到的混合系数，可以选择出对于当前学习任务而言最重要的特征进行头部姿态估计的预测。

4)由以上步骤可知，对于给定的N个独立的样本数据，可将概率形式下的头部姿态混合模型的似然函数改写为对数形式。当给定输出标签值T和输入观测值X＝{x_1k，...，x_Nk}，(k＝1，...，K)时，则模型的对数似然函数表达式为：

上式可以通过最大似然法确定，或者使用最小化误差函数(负对数似然函数)的方法来确定，误差函数的形式为：

步骤6：多模态混合网络的训练；

训练的目标是最小化误差函数l(θ)，若已经得到误差函数关于输出单元的激活函数的导数的表达式，则再通过标准的反向传播方法可以计算误差函数关于各参数分量的导数。我们可以考虑对于特定的样本n的l_n(θ)的导数，然后通过求和的方式找到l(θ)的导数。

本文采用Google的tensorflow深度学习框架下tf.train.AdamOptimizer函数进行梯度计算，直至最后的训练结果收敛。接下来便可使用训练好的模型对测试图像进行预测；

步骤7：对测试图像进行测试；

根据本发明的方法，整体算法模型如图5，本专利使用Python语言和Google的Tensorflow深度学习框架。首先提取头部姿态图片的HoG特征，将归一化以后的HoG特征在不同模态的情况下以mini-batch的方式送入自编码器网络进行预训练与微调，当代价函数不再变化或者变化很小时表示子网络初始化结束。然后对于初始化完毕的子网络，采用图4所示的结构，对不同模态的子网络同时训练混合系数，再进行混合迭代训练，直到模型的精度收敛时，即可停止训练。具体的实验参数如下：

图片大小：64×64

特征维度：1764

训练批次大小：120

迭代次数：30000

学习率：0.0001

单模态子网络编码器参数：预训练Auto Encoder编码器和解码器都是3层隐层，分别为300、250、200，输出层为3，从输入开始，前三层使用ReLU激活函数，头部姿态输出层使用Sigmoid激活函数。微调阶段与混合阶段只需要编码器，参数和预训练阶段一致。

多模态混合网络参数：使用与单模态子网络一致的参数，同时在单模态子网络的输出层再加入一个并列的混合系数输出层，此输出层不使用激活函数。

实验结果：初步实验的头部姿态估计值的平均绝对误差值在1.43°左右，较之前的头部姿态估计方法的平均绝对误差值降低了约12.5％。

Claims

1.一种基于混合深度回归网络的多模态的头部姿态估计方法，该方法包括：

步骤2：对数据集进行特征提取；

步骤4：构建和初始化单模态子网络；

步骤5：构建多模态的混合网络；

其中t_n为第n个样本的头部姿态的观测值，θ表示模型的每层网络层可训练参数的集合，包括权重参数向量{w_k}和偏置参数向量{bk}，为模态k的样本的各向同性高斯分布的方差，子函数π_k(·)为模态k的混合系数，y_k(·)表示模态k时的预测函数；表示以y_k(x_nk)为期望，为方差的随机变量t_n的正态分布；

其中杜为正态分布的数学期望，σ²为正态分布的方差，则称其满足正态

混合系数必须满足下面的限制：

类似的，方差必须满足：

步骤6：多模态混合网络的训练；

训练的目标是最小化误差函数l(θ)，若已经得到误差函数关于输出单元的激活函数的导数的表达式，则再通过标准的反向传播方法可以计算误差函数关于各参数分量的导数；我们可以考虑对于特定的样本n的l_n(θ)的导数，然后通过求和的方式找到l(θ)的导数；

步骤7：对测试图像进行测试；

2.如权利要求1所述的一种基于混合深度回归网络的多模态的头部姿态估计方法，其特征在于所述步骤2的具体方法为：首先将不同模态的输入图像的头部区域进行归一化处理，归一化后的大小为64×64像素；再对每一个模态的每一幅输入图像提取HOG特征，提取过程中，区域个数设置为2×2，每一区域中的图像单元个数设置为8×8，方向柱的个数设置为9，最后得到的每一个模态的每一幅图像对应的HOG特征的维数为1764，记模态k下第n幅图像对应的HoG特征向量为r_nk∈R¹⁷⁶⁴。

3.如权利要求2所述的一种基于混合深度回归网络的多模态的头部姿态估计方法，其特征在于所述步骤3的具体方法为：假设总共有K种模态的图像，对于某一种模态k，k＝1，2，3，将每一幅图像对应的HoG特征向量按顺序排列为列向量，列向量对应的维度为1764，再将该模态的所有的N幅图像对应排列的列向量进行堆叠，可以得到特征矩阵R_k，矩阵大小为1764×N，即R_k＝[r_1k，...r_Nk]_1764×N，并对每一维特征进行归一化；将每一幅图像对应的头部姿态标签向量按顺序排列为列向量，列向量对应的维度为3，再将该模态的所有的N幅图像对应排列的列向量进行堆叠，得到标签矩阵L，故矩阵大小为3×N，即L＝[1₁，...，l_N]_3×N，并对每一维角度进行归一化；

R_k和L的归一化方法一致，如下式所示，rⁱ表示选取R_k的第i行构建的行向量，lⁱ表示选取L的第i行构建的行向量；表示rⁱ所有分量中的最小值，r_min表示由N个构成的行向量，表示lⁱ所有分量中的最小值，lmin表示由N个构成的行向量；表示rⁱ所有分量中的最大值，表示lⁱ所有分量中的最大值；表示经过归一化以后的rⁱ，表示经过归一化以后的lⁱ；归一化公式如下：

按照以上的公式处理数据矩阵后，得到的归一化的特征矩阵和标签矩阵为：