CN108345843A - 一种基于混合深度回归网络的头部姿态估计方法 - Google Patents

一种基于混合深度回归网络的头部姿态估计方法 Download PDF

Info

Publication number
CN108345843A
CN108345843A CN201810072571.4A CN201810072571A CN108345843A CN 108345843 A CN108345843 A CN 108345843A CN 201810072571 A CN201810072571 A CN 201810072571A CN 108345843 A CN108345843 A CN 108345843A
Authority
CN
China
Prior art keywords
network
training
image
head pose
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810072571.4A
Other languages
English (en)
Other versions
CN108345843B (zh
Inventor
黄仰光
潘力立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201810072571.4A priority Critical patent/CN108345843B/zh
Publication of CN108345843A publication Critical patent/CN108345843A/zh
Application granted granted Critical
Publication of CN108345843B publication Critical patent/CN108345843B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • G06V10/507Summing image-intensity values; Histogram projection analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

该发明公开了一种基于混合深度回归网络的头部姿态估计方法,是基于混合深度回归网络的头部姿态估计算法,属于计算机视觉和机器学习领域。它在传统回归算法和深度网络框架的基础上,首次在头部姿态估计问题中使用了不同模态的图像信息,并将训练得到的多个模态的子网络进行融合,得到了最终的混合深度回归网络。与其它头部姿态估计方法相比,该算法能够取得更好的估计精度并具有良好的鲁棒性。此外,本发明的方法还具有一定的通用性,不仅适用于典型的头部姿态估计问题,如人机交互、安全驾驶和人脸识别,也可以将问题场景拓展到其它深度回归问题中。

Description

一种基于混合深度回归网络的头部姿态估计方法
技术领域
本发明属于计算机视觉和机器学习领域,涉及视觉映射中的头部姿态估计问题。
背景技术
头部姿态估计是指根据包含头部的数字图像,利用机器学习和计算机视觉的方法准确快速 地估计该图像中对应头部的偏转角度,也称为头部姿态。它是近年来计算机视觉和机器学习领 域研究的热门问题,在人机交互、安全驾驶和人脸识别等方面都有非常广泛的应用。例如:在 人机交互领域,头部的偏转角度可以用于控制电脑或机器显示的方向和位置;在安全驾驶领域, 头部姿态可用于辅助视线估计,从而提示驾驶员正确的视线方向;在人脸识别领域,头部姿态 估计可以预先确定人脸的朝向,从而有利于下一步特征点的定位。现有头部姿态估计方法可以 分为三个大的类别:1.基于容貌的方法;2.基于分类的方法;3.基于回归的方法。
基于容貌的头部姿态估计方法的基本原理是将输入的头部图像与数据库中已有的图像进 行一一比对,并将找到的最相似的图像所对应的角度作为待估计图像的头部姿态(即角度)。 该类方法最大的缺陷在于其只能输出离散的头部偏转角度,并且由于需要与所有已有图像进行 依次比对,运算量巨大。参见文献:D.J.Beymer,Face Recognitionunder Varying Pose,IEEE Conference on Computer Vision and PatternRecognition,pp.756-761,1994和J.Sherrah,S.Gong, and E.J.Ong,Face Distributionsin Similarity Space under Varying Head Pose Image and Vision Computing,vol.19,no.12,pp.807-819,2001。
基于分类的头部姿态估计方法是指根据输入图像的特征和对应头部偏转角度训练分类器, 并利用学习好的分类器区分待估计图像头部偏转角度所属的类别,从而确定头部姿态的大致范 围。该类方法中常用的分类器包括支持向量机(Support VectorMachine,SVM),线性判决分析 (Linear Discriminative Analysis,LDA),核线性判决分析(Kernel Linear Discriminative Analysis, KLDA),这类方法的主要缺点是无法估计输出连续的头部姿态,参见文献:J.Huang,X.Shao, and H.Wechsler,Face PoseDiscrimination using Support Vector Machines(SVM),International Conference onPattern Recognition,pp.154-156,1998。
基于回归的头部姿态估计方法是目前最常用的估计方法,该方法的基本原理是利用已有图 像特征和对应的头部角度建立映射函数,并利用映射函数估计待处理图像对应的头部姿态。该 类方法解决了前述两种方法无法估计输出连续姿态的问题,同时减少了运算复杂度,参见文献 G.Fanelli,J.Gall,and L.Van Gool,Real Time Head PoseEstimation with Random Regression Forests,IEEE Conference on Computer Visionand Pattern Recognition,2011,pp.617-624和文献 H.Ji,R.Liu,F.Su,Z.Su,andY.Tian,Convex Regularized Sparse Regression for Head Pose Estimation,IEEEInternational Conference on Image Processing,pp.3617-3620,2011。
近年来,基于回归的头部姿态估计方法在深度学习理论发展的基础上,有了新的突破。借 助于深度网络,可以更好的拟合已有图像特征和对应的头部姿态之间的映射关系,这种改进大 大提高了传统回归方法的精确度和鲁棒性。参见文献M.Venturelli,G.Borghi,R.Vezzani,and R. Cucchiara,Deep Head Pose Estimation from Depth Datafor In-car Automotive Applications, International Conference on PatternRecognition,pp.138-140,2016。
深度网络在头部姿态估计中的应用还有很多值得挖掘改进的地方,至今还未出现将多模态 的深度回归网络进行融合的方法,本发明将围绕这个角度展开工作。
发明内容
本发明的任务是提供一种基于混合深度回归网络的头部姿态估计方法。该方法提取不同模 态头部图像的梯度方向直方图(Histogram of Oriented Gradient,HoG)特征,并训练不同的深度回 归网络模型来建立图像特征与头部姿态之间的非线性映射关系,然后借鉴高斯混合回归方法将 训练所得的单模态网络进行融合,最后使用混合得到的网络对头部图像进行姿态估计。通过上 述方法,充分利用了多种图像模态信息,同时利用深度回归网络,提高了现有方法的准确度和 鲁棒性。
为了方便地描述本发明内容,首先对一些术语进行定义。
定义1:头部姿态。在三维空间中头部旋转的角度通常由一个向量表示,该向量由三个元 素构成,第一个元素为俯仰角,第二个元素为偏航角,第三个元素为旋转角。
定义2:俯仰角。在图2(b)所示的x-y-z坐标系中,俯仰角是指以x轴为中心旋转的角度θ。
定义3:偏航角。在图2(a)所示的x-y-z坐标系中,偏航角是指以z轴为中心旋转的角度φ。
定义4:旋转角。在图2(c)所示的x-y-z坐标系中,旋转角是指以z’为中心旋转的角度Ψ。
定义5:RGB图像。RGB图像是指色彩模式是RGB模型的图像。RGB色彩模式是工业 界的一种颜色标准,是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠 加来得到各式各样的颜色的。R、G、B即是代表红、绿、蓝三个通道的颜色,这个标准几乎包括了人类视力所能感知的所有颜色,是目前运用最广的颜色系统之一。图3(a)为RGB图像示意图。
定义6:深度图像。在计算机视觉领域,深度图像是包含与视点的场景对象的表面的距离 有关的信息的图像或图像通道。其中,深度图像类似于灰度图像,只是它的每个像素值是传感 器距离物体的实际距离。通常RGB图像和深度图像是配准的,因而像素点之间具有一对一的 对应关系。图3(b)为深度图像示意图。
定义7:梯度方向直方图特征(Histogram of Oriented Gradient,HoG)。利用像素强度梯度或 边缘的方向分布描述图像形状的视觉特征提取方法。其实现方法先将图像分成小的叫做方格单 元的连通区域;然后采集方格单元中各像素点的梯度方向或边缘方向直方图;最后把这些直方 图组合起来就可以构成特征描述子。为了提高精确度,还可以把这些局部直方图在图像的更大 的区间(block)中进行对比度归一化(contrast-normalized),此方法通过先计算各直方图在这个区 间(block)中的密度,然后根据这个密度值对区间中的各个方格单元做归一化。通过该归一化能 对光照变化和阴影有更强的鲁棒性。
定义8:自编码器(Auto Encoder)和隐变量。自编码器是机器学习领域中用于学习数据特 征的一种方法。对于一个网络,如果假设任务是使输入与输出尽可能相同,同时控制网络中间 层数据节点的数量。这样为了恢复原信号,数量有限的中间层节点必须尽可能地表示原信号所 包含的信息。中间层节点的数据就是提取出的信号的特征,也称作隐变量。图4为自编码器示 意图。
定义9:深度回归网络。本专利使用的深度回归网络是指将自编码器网络运用到回归问 题中。在头部姿态估计问题中,网络的输入是头部图像的特征,中间层经过对特征降维,最后 输出为头部姿态的三个角度。
定义10:高斯分布。又名正态分布,是一个在数学、物理及工程等领域都非常重要的概 率分布。具体是指:对于任意随机变量x,若其概率密度函数满足其中μ 为正态分布的中心,σ为正态分布的方差,则称其满足高斯分布,常用符号表示。
定义11:混合模型。是指将多个子模型混合得到的结果。
定义12:混合系数。在混合模型中代表样本x属于某一子模型的概率。
定义13:似然函数。似然函数是一种关于统计模型中参数的函数,表示模型参数的似然 性或可能性。
定义14:期望最大值算法。它是一种可以用来求解混合回归模型参数似然函数最大值的 优化方法,它通常包含两个基本的步骤,即:期望步骤(E步)和最大化步骤(M步);
定义15:Q函数。在求解混合回归模型似然函数最大值的期望最大值算法中,Q函数为 似然函数的下界函数。
本发明技术方案为一种基于混合深度回归网络的头部姿态估计方法,该方法包含以下步骤:
步骤1:对数据集进行预处理;
获取头部姿态数据集,包括头部区域RGB图像和深度图像;再根据采集数据集中每幅图 像时摄像头的位置,读取N幅图像各自对应的头部俯仰、偏航和旋转角度,即头部姿态向量 tn∈R3,tn的第一维表示俯仰角,第二维表示倾斜角,第三维表示旋转角,下标n表示第n幅 图像对应的姿态;对采集的RGB图像进行RGB图像转灰度图像的处理,若采集图像已经为 灰度图像则无需再进行转化处理;
步骤2:对数据集进行特征提取;
将步骤1得到的头部区域图像归一化为尺寸相等的图像,对每一幅输入图像提取HoG特 征,并记模态k下第n幅图像对应的HoG特征向量为xnk
步骤3:输入特征和姿态标签的归一化;
设总共有K种模态的图像,对于某一种模态k,将所有的N幅图像对应的HoG特征向量 在列方向上,按顺序排列得到特征矩阵Xk,若HoG特征的总维度数为H,则矩阵大小为H×N, 即Xk=[x1k,...xNk]H×N,并对HoG特征向量的每一维特征进行归一化;将每一幅图像对应的头 部姿态向量在列方向上,按顺序排列为标签矩阵T,由于每一幅图像对应的头部姿态向量的维 度为3,故矩阵大小为3×N,即T=[t1,...,tN]3×N,并对每一维角度进行归一化;Xk和T的归一 化方法一致,如下式所示,vi表示选取Xk的第i行构建的行向量,ui表示选取T的第i行构 建的行向量;表示vi所有分量中的最小值,表示ui所有分量中的最小值;表示vi所 有分量中的最大值,表示ui所有分量中的最大值;表示经过归一化以后的vi表示经过归一化以后的ui;1表示单位向量:
按照以上的公式处理数据矩阵后,得到的归一化的特征矩阵和标签矩阵为:
步骤4:构建和初始化单模态子网络;
子网络的构建采用自编码器网络,训练分为无监督预训练和有监督的微调两步完成;如下 式所示,L(·)表示矩阵的2-范数,EU是无监督预训练时的编码器,ES有监督微调时的编码 器,D为解码器,其中解码器D和编码器EU权值共享;对于某一种模态k,xnk表示第n幅图像提取的特征,tn表示第n幅图像的姿态标签;
模态k下的无监督预训练的代价函数这部分代价来源于特征的重构误差,训练时通 过最小化代价函数来更新D和EU
模态k下的有监督微调的代价函数这部分代价来源于网络输出与标签的均方误差, 训练时通过最小化代价函数来更新ES
整个深度回归子网络模型为:首先将归一化以后的单模态特征Xk_norm按照mini-batch送 入预训练部分网络,经过逐层无监督训练收敛后,得到预训练模型;然后基于预训练网络,构 建微调部分网络,将Xk_norm和归一化后的标签矩阵Tnorm以同样的方式送入微调网络进行有监 督训练,得到微调网络,至此,各个单模态子网络初始化完毕;
步骤5:构建子网络混合模型;
1)经过步骤4中的预训练和微调之后,两个单模态网络初始化完毕;接下来需要训练得 到深度回归子网络的混合模型,来预测多模态的输入和头部姿态之间的映射关系;混合模型的 表达式如下:
xk表示来源于模态k的输入特征,πk表示混合系数,f(·)表示训练好的深度回归子网络 模型;
2)在概率性框架下将上式改写,得到头部姿态混合模型的参数形式如下:
其中t为头部姿态的观测值,θ表示模型的所有参数的集合,包括子网络中的参数{Wk,bk},混合系数{πk}和方差β-1,I表示单位矩阵;
3)将上式改写为对数形式,假设已有N个人的K个不同的模态的特征,记作{x1k,...,xNk}, 其中k=1,...,K,表示第n个人的第k个模态的特征;当给定输出观测值T和输入观 测值X={x1k,...,xNk},(k=1,...,K)时,模型的对数似然函数表达式为:
步骤6:子网络混合模型的训练;
利用EM算法,在E步骤中,首先根据初始化的子网络对训练集的预测结果为每一个样本 加权,然后重新构建代价函数;在M步骤中,优化E步骤中的代价函数;样本的加权以及重新 训练是一个迭代的过程,即第一次模型训练结束后需要重复上述过程,直到混合模型精度收敛 时,停止训练;若训练完毕,最终的混合网络为子网络的加权和;
步骤7:当给定一个新的多模态头部姿态图片数据集或者多模态头部姿态图片提取的特 征,记作{xc1,...,xcK},可以推断出相应的头部姿态为:
其中y表示预测的头部姿态向量,表示各个头部姿态预测值对于不同模态特征的期 望。
进一步的,所述步骤2的具体方法为:
将输入图像的头部区域图像归一化为大小为64×64像素的图像,对每一幅输入图像提取 HoG特征;在HoG特征计算的过程中,区域个数的参数设置为2×2,每一区域中图像单元的 个数参数设置为8×8,方向柱的个数设置为9,最后得到任意一幅图像对应的HoG特征的维 数为1764,并记模态k下第n幅图像对应的HoG特征向量为xnk
进一步的,所述步骤6的具体方法为:
E步骤:假设子网络k对每个样本xnk的预测服从于计算每个子网络 对每个样本的后验概率,记为γnk
如果γnk大则说明第k个子网络对第n个样本的预测值接近于真实标签,即表现为给此样本 加上较大的权重,根据这种后验概率可以构建Q函数,其中θold初始化后的θ:
M步骤:最大化Q(θ,θold)函数;这个过程中保持γnk固定,将θ视为变量。考虑到最大化过 程与子网络参数{Wk,bk}有关,于是对于第k个子网络,上式改写为:
在训练的过程中,γnk初始化为本发明中使用两个子网络,则初始化值为0.5;使用 梯度下降法得到最优参数后,再将β视为自变量,最大化Q(θ,θold)函数,上式改写为:
将上式对β的微分设置为0可得:
为了得到模型的混合系数πk,考虑到∑kπk=1,根据拉格朗日乘数法,可得:
本发明的创新之处在于:
该专利在传统回归算法和深度网络框架的基础上,提出了基于混合深度回归网络的头部姿 态估计方法。在头部姿态估计问题中,首次使用了两种不同模态信息的头部姿态图像的特征去 分别训练子网络。另外,对于初始化完毕的子网络,提出了一种基于期望最大值算法的迭代加 权训练的模型混合方法。一方面,深度回归网络的训练使得特征到角度的映射关系更加精确; 另一方面,由于采用了多种模态的头部姿态图像特征,通过本专利提出的模型混合方法,不仅 进一步提高了子网络的精确性,同时也增加了模型的鲁棒性。本专利的方法还具有一定的通用 性,这种多模态特征融合的算法,不仅可以从两种模态拓展到多种模态,也可以将问题场景拓 展到其他深度回归问题中,可以作为下一步研究的方向。
附图说明
图1为本发明头部姿态估计示意图;
图2为俯仰角,偏航角和旋转角的定义示意图;
图3为RGB图像和彩色图像示意图;
图4为自编码器结构示意图;
图5为本发明深度回归子网络模型示意图;
图6为本发明多模态子网络混合算法模型示意图。
具体实施方式
步骤1:对数据集进行预处理;
对于BIWI(https://data.vision.ee.ethz.ch/cvl/gfanelli/head_pose/head_forest.html#)头部姿态数 据集,从压缩的数据格式中读取对应的头部姿态RGB图像和深度图像,并分别保存;再根据 采集每幅图像时摄像头的位置,读取N幅图像各自对应的头部俯仰、偏航和旋转角度,即头 部姿态向量tn∈R3,tn的第一维表示俯仰角,第二维表示倾斜角,第三维表示旋转角,下标 n表示第n幅图像对应的姿态;对采集的RGB图像进行RGB图像转灰度图像的处理,若采集 图像已经为灰度图像则无需再进行转化处理;
步骤2:对数据集进行特征提取;
将输入图像的头部区域图像归一化为大小为64×64像素的图像,对每一幅输入图像提取 HoG特征;在HoG特征计算的过程中,区域个数的参数设置为2×2,每一区域中图像单元的 个数参数设置为8×8,方向柱的个数设置为9,最后得到任意一幅图像对应的HoG特征的维 数为1764,并记模态k下第n幅图像对应的HoG特征向量为xnk
步骤3:输入特征和姿态标签的归一化;
假设总共有K种模态的图像,对于某一种模态k,将所有的N幅图像对应的HoG特征向 量在列方向上,按顺序排列可以得到特征矩阵Xk,由于每一幅图像对应HoG特征的维度为 1764,故矩阵大小为1764×N,即Xk=[x1k,...xNk]1764×N,并对每一维特征进行归一化;将每一 幅图像对应的头部姿态向量在列方向上,按顺序排列为标签矩阵T,由于每一幅图像对应的头 部姿态向量的维度为3,故矩阵大小为3×N,即T=[t1,...,tN]3×N,并对每一维角度进行归一化;Xk和T的归一化方法一致,如下式所示,vi表示选取Xk的第i行构建的行向量,ui表示选 取T的第i行构建的行向量;表示vi所有分量中的最小值,表示ui所有分量中的最小 值;表示vi所有分量中的最大值,表示ui所有分量中的最大值;表示经过归一化 以后的vi表示经过归一化以后的ui;1表示单位向量:
按照以上的公式处理两个数据矩阵后,得到的归一化的特征矩阵和标签矩阵为
经过归一化以后,每一维数据的基本度量单位得到统一, 同时一定程度上消除了极端值对网络训练过程的影响;
步骤4:构建和初始化单模态子网络;
子网络的构建采用自编码器网络,训练分为无监督预训练和有监督的微调两步完成。如下 式所示,L(·)表示矩阵的2-范数,EU是无监督预训练时的编码器,ES有监督微调时的编码 器,D为解码器,其中解码器D和编码器EU权值共享。对于某一种模态k,xnk表示第n幅图像提取的特征,tn表示第n幅图像的姿态标签;
模态k下的无监督预训练的代价函数这部分代价来源于特征的重构误差,训练时通 过最小化代价函数来更新D和EU
模态k下的有监督微调的代价函数这部分代价来源于网络输出与标签的均方误差, 训练时通过最小化代价函数来更新ES
整个深度回归子网络模型训练框图如图5所示:首先将归一化以后的单模态特征Xk_norm按 照mini-batch送入预训练部分网络,经过逐层无监督训练收敛后,得到预训练模型;然后基于 预训练网络,构建微调部分网络,将Xk_norm和归一化后的标签矩阵Tnorm以同样的方式送入微 调网络进行有监督训练,得到微调网络,至此,各个单模态子网络初始化完毕;
步骤5:构建子网络混合模型;
1)经过步骤4中的预训练和微调之后,两个单模态网络初始化完毕。接下来需要训练得 到深度回归子网络的混合模型,来预测多模态的输入和头部姿态之间的映射关系。混合模型的 表达式如下:
xk表示来源于模态k的输入特征,πk表示混合系数,f(·)表示训练好的深度回归子网络 模型,图6为多模态子网络混合模型示意图;
2)在概率性框架下将上式改写,得到头部姿态混合模型的参数形式如下:
其中t为头部姿态的观测值,θ表示模型的所有参数的集合,包括子网络中的参数{Wk,bk},混合系数{πk}和方差β-1,I表示单位矩阵;
3)将上式改写为对数形式。假设已有N个人的K个不同的模态的特征,记作{x1k,...,xNk}, 其中k=1,...,K,表示第n个人的第k个模态的特征;当给定输出观测值T和输入观 测值X={x1k,...,xNk},(k=1,...,K)时,模型的对数似然函数表达式为:
步骤6:子网络混合模型的训练。利用EM算法,在E步骤中,首先根据初始化的子网络 对训练集的预测结果为每一个样本加权,然后重新构建代价函数;在M步骤中,优化E步骤 中的代价函数。样本的加权以及重新训练是一个迭代的过程,即第一次模型训练结束后需要重 复上述过程,直到混合模型精度收敛时,停止训练。若训练完毕,最终的混合网络为子网络的 加权和;
1)E步骤:假设子网络k对每个样本xnk的预测服从于计算每个子网络对每个样本的后验概率,记为γnk
如果γnk大则说明第k个子网络对第n个样本的预测值接近于真实标签,即表现为给此样本 加上较大的权重,根据这种后验概率可以构建Q函数,其中θold初始化后的θ:
2)M步骤:最大化Q(θ,θold)函数。这个过程中保持γnk固定,将θ视为变量。考虑到最大化过程与子网络参数{Wk,bk}有关,于是对于第k个子网络,上式改写为:
在训练的过程中,γnk初始化为本发明中使用两个子网络,则初始化值为0.5;使用 梯度下降法得到最优参数后,再将β视为自变量,最大化Q(θ,θold)函数,上式改写为:
将上式对β的微分设置为0可得:
为了得到模型的混合系数πk,考虑到∑kπk=1,根据拉格朗日乘数法,可得:
重复步骤6直至最后预测的结果收敛,便可使用训练好的模型进行推断。
步骤7:当给定一个新的多模态头部姿态图片数据集(比如深度图像和RGB图像)或者 多模态头部姿态图片提取的特征,记作{xc1,...,xcK},可以推断出相应的头部姿态为:
其中y表示预测的头部姿态向量,表示各个头部姿态预测值对于不同模态特征的期 望。
根据本发明的方法,首先提取头部姿态图片的HoG特征,然后使用Python语言和Tensorflow深度学习框架实现图5所示的模型。接着将归一化以后的HoG特征以批次(Mini-batch)的方式送入网络进行训练。当代价函数不再变化或者变化很小时表示子网络初 始化结束。然后对于初始化完毕的子网络,采用图6所示的结构,对两个网络进行混合迭代训练,直到模型的精度收敛时,即可停止训练。具体的实验参数如下:
图片大小:64×64
特征维度:1764
高斯混合参数初始化:β=0.0002
训练批次大小:120(模型初始化阶段)、100(混合阶段)
学习率:0.0001
编码器参数;预训练Auto Encoder编码器和解码器都是3层隐层,分别为300、250、200, 从输入开始,前三层使用ReLU激活函数,最后一层到输出层使用Sigmoid激活函数。微调阶 段只需要编码器,参数和预训练阶段一致。

Claims (3)

1.一种基于混合深度回归网络的头部姿态估计方法,该方法包含以下步骤:
步骤1:对数据集进行预处理;
获取头部姿态数据集,包括头部区域RGB图像和深度图像;再根据采集数据集中每幅图像时摄像头的位置,读取N幅图像各自对应的头部俯仰、偏航和旋转角度,即头部姿态向量tn∈R3,tn的第一维表示俯仰角,第二维表示倾斜角,第三维表示旋转角,下标n表示第n幅图像对应的姿态;对采集的RGB图像进行RGB图像转灰度图像的处理,若采集图像已经为灰度图像则无需再进行转化处理;
步骤2:对数据集进行特征提取;
将步骤1得到的头部区域图像归一化为尺寸相等的图像,对每一幅输入图像提取HoG特征,并记模态k下第n幅图像对应的HoG特征向量为xnk
步骤3:输入特征和姿态标签的归一化;
设总共有K种模态的图像,对于某一种模态k,将所有的N幅图像对应的HoG特征向量在列方向上,按顺序排列得到特征矩阵Xk,若HoG特征的总维度数为H,则矩阵大小为H×N,即Xk=[x1k,...xNk]H×N,并对HoG特征向量的每一维特征进行归一化;将每一幅图像对应的头部姿态向量在列方向上,按顺序排列为标签矩阵T,由于每一幅图像对应的头部姿态向量的维度为3,故矩阵大小为3×N,即T=[t1,...,tN]3×N,并对每一维角度进行归一化;Xk和T的归一化方法一致,如下式所示,vi表示选取Xk的第i行构建的行向量,ui表示选取T的第i行构建的行向量;表示vi所有分量中的最小值,表示ui所有分量中的最小值;表示vi所有分量中的最大值,表示ui所有分量中的最大值;表示经过归一化以后的vi表示经过归一化以后的ui;1表示单位向量:
按照以上的公式处理两个数据矩阵后,得到的归一化的特征矩阵和标签矩阵为:
步骤4:构建和初始化单模态子网络;
子网络的构建采用自编码器网络,训练分为无监督预训练和有监督的微调两步完成;如下式所示,L(·)表示矩阵的2-范数,EU是无监督预训练时的编码器,ES有监督微调时的编码器,D为解码器,其中解码器D和编码器EU权值共享;对于某一种模态k,xnk表示第n幅图像提取的特征,tn表示第n幅图像的姿态标签;
模态k下的无监督预训练的代价函数这部分代价来源于特征的重构误差,训练时通过最小化代价函数来更新D和EU
模态k下的有监督微调的代价函数这部分代价来源于网络输出与标签的均方误差,训练时通过最小化代价函数来更新ES
整个深度回归子网络模型为:首先将归一化以后的单模态特征Xk_norm按照mini-batch送入预训练部分网络,经过逐层无监督训练收敛后,得到预训练模型;然后基于预训练网络,构建微调部分网络,将Xk_norm和归一化后的标签矩阵Tnorm以同样的方式送入微调网络进行有监督训练,得到微调网络,至此,各个单模态子网络初始化完毕;
步骤5:构建子网络混合模型;
1)经过步骤4中的预训练和微调之后,两个单模态网络初始化完毕;接下来需要训练得到深度回归子网络的混合模型,来预测多模态的输入和头部姿态之间的映射关系;混合模型的表达式如下:
xk表示来源于模态k的输入特征,πk表示混合系数,f(·)表示训练好的深度回归子网络模型;
2)在概率性框架下将上式改写,得到头部姿态混合模型的参数形式如下:
其中t为头部姿态的观测值,θ表示模型的所有参数的集合,包括子网络中的参数{Wk,bk},混合系数{πk}和方差β-1,I表示单位矩阵;
3)将上式改写为对数形式,假设已有N个人的K个不同的模态的特征,记作{x1k,...,xNk},其中k=1,...,K,表示第n个人的第k个模态的特征;当给定输出观测值T和输入观测值X={x1k,...,xNk},(k=1,...,K)时,模型的对数似然函数表达式为:
步骤6:子网络混合模型的训练;
利用EM算法,在E步骤中,首先根据初始化的子网络对训练集的预测结果为每一个样本加权,然后重新构建代价函数;在M步骤中,优化E步骤中的代价函数;样本的加权以及重新训练是一个迭代的过程,即第一次模型训练结束后需要重复上述过程,直到混合模型精度收敛时,停止训练;若训练完毕,最终的混合网络为子网络的加权和;
步骤7:当给定一个新的多模态头部姿态图片数据集或者多模态头部姿态图片提取的特征,记作{xc1,...,xcK},可以推断出相应的头部姿态为:
其中y表示预测的头部姿态向量,表示各个头部姿态预测值对于不同模态特征的期望。
2.如权利要求1所述的一种基于混合深度回归网络的头部姿态估计方法,其特征在于所述步骤2的具体方法为:
将输入图像的头部区域图像归一化为大小为64×64像素的图像,对每一幅输入图像提取HoG特征;在HoG特征计算的过程中,区域个数的参数设置为2×2,每一区域中图像单元的个数参数设置为8×8,方向柱的个数设置为9,最后得到任意一幅图像对应的HoG特征的维数为1764,并记模态k下第n幅图像对应的HoG特征向量为xnk
3.如权利要求1所述的一种基于混合深度回归网络的头部姿态估计方法,其特征在于所述步骤6的具体方法为:
E步骤:假设子网络k对每个样本xnk的预测服从于计算每个子网络对每个样本的后验概率,记为γnk
如果γnk大则说明第k个子网络对第n个样本的预测值接近于真实标签,即表现为给此样本加上较大的权重,根据这种后验概率可以构建Q函数,其中θold初始化后的θ:
M步骤:最大化Q(θ,θold)函数;这个过程中保持γnk固定,将θ视为变量。考虑到最大化过程与子网络参数{Wk,bk}有关,于是对于第k个子网络,上式改写为:
在训练的过程中,γnk初始化为本发明中使用两个子网络,则初始化值为0.5;使用梯度下降法得到最优参数后,再将β视为自变量,最大化Q(θ,θold)函数,上式改写为:
将上式对β的微分设置为0可得:
为了得到模型的混合系数πk,考虑到∑kπk=1,根据拉格朗日乘数法,可得:
CN201810072571.4A 2018-01-25 2018-01-25 一种基于混合深度回归网络的头部姿态估计方法 Active CN108345843B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810072571.4A CN108345843B (zh) 2018-01-25 2018-01-25 一种基于混合深度回归网络的头部姿态估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810072571.4A CN108345843B (zh) 2018-01-25 2018-01-25 一种基于混合深度回归网络的头部姿态估计方法

Publications (2)

Publication Number Publication Date
CN108345843A true CN108345843A (zh) 2018-07-31
CN108345843B CN108345843B (zh) 2020-12-29

Family

ID=62960900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810072571.4A Active CN108345843B (zh) 2018-01-25 2018-01-25 一种基于混合深度回归网络的头部姿态估计方法

Country Status (1)

Country Link
CN (1) CN108345843B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109697413A (zh) * 2018-12-13 2019-04-30 合肥工业大学 基于头部姿态的人格分析方法、系统和存储介质
CN109977757A (zh) * 2019-01-28 2019-07-05 电子科技大学 一种基于混合深度回归网络的多模态的头部姿态估计方法
CN110276805A (zh) * 2019-06-28 2019-09-24 联想(北京)有限公司 一种数据处理方法及电子设备
CN111008583A (zh) * 2019-11-28 2020-04-14 清华大学 一种利用肢体特征辅助的行人和骑车人姿态估计方法
CN111507111A (zh) * 2020-03-19 2020-08-07 北京百度网讯科技有限公司 语义表示模型的预训练方法、装置、电子设备及存储介质
CN113298097A (zh) * 2021-07-27 2021-08-24 电子科技大学 基于卷积神经网络的特征点提取方法、设备及存储介质
CN117686937A (zh) * 2024-02-02 2024-03-12 河南科技学院 一种用于电池系统内单体电池的健康状态估计方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150347871A1 (en) * 2014-06-03 2015-12-03 Raytheon Company Data fusion analysis for maritime automatic target recognition
CN105760898A (zh) * 2016-03-22 2016-07-13 电子科技大学 一种基于混合组回归方法的视觉映射方法
CN105956601A (zh) * 2016-04-15 2016-09-21 北京工业大学 一种基于轨迹模仿的机器人汉字书写学习方法
US9565404B2 (en) * 2012-07-30 2017-02-07 Apple Inc. Encoding techniques for banding reduction
CN106599994A (zh) * 2016-11-23 2017-04-26 电子科技大学 一种基于深度回归网络的视线估计方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9565404B2 (en) * 2012-07-30 2017-02-07 Apple Inc. Encoding techniques for banding reduction
US20150347871A1 (en) * 2014-06-03 2015-12-03 Raytheon Company Data fusion analysis for maritime automatic target recognition
CN105760898A (zh) * 2016-03-22 2016-07-13 电子科技大学 一种基于混合组回归方法的视觉映射方法
CN105956601A (zh) * 2016-04-15 2016-09-21 北京工业大学 一种基于轨迹模仿的机器人汉字书写学习方法
CN106599994A (zh) * 2016-11-23 2017-04-26 电子科技大学 一种基于深度回归网络的视线估计方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PILLAI S ET AL: "《Towards Visual ego-motion Learning in Robots》", 《IEEE》 *
徐娟娟等: "《基于Gabor滤波器和深度学习的图像检索方法》", 《沈阳工业大学学报》 *
敖道敢: "《无监督特征学习结合神经网络应用于图像识别》", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109697413A (zh) * 2018-12-13 2019-04-30 合肥工业大学 基于头部姿态的人格分析方法、系统和存储介质
CN109977757A (zh) * 2019-01-28 2019-07-05 电子科技大学 一种基于混合深度回归网络的多模态的头部姿态估计方法
CN109977757B (zh) * 2019-01-28 2020-11-17 电子科技大学 一种基于混合深度回归网络的多模态的头部姿态估计方法
CN110276805A (zh) * 2019-06-28 2019-09-24 联想(北京)有限公司 一种数据处理方法及电子设备
CN111008583A (zh) * 2019-11-28 2020-04-14 清华大学 一种利用肢体特征辅助的行人和骑车人姿态估计方法
CN111507111A (zh) * 2020-03-19 2020-08-07 北京百度网讯科技有限公司 语义表示模型的预训练方法、装置、电子设备及存储介质
CN111507111B (zh) * 2020-03-19 2021-11-23 北京百度网讯科技有限公司 语义表示模型的预训练方法、装置、电子设备及存储介质
CN113298097A (zh) * 2021-07-27 2021-08-24 电子科技大学 基于卷积神经网络的特征点提取方法、设备及存储介质
CN113298097B (zh) * 2021-07-27 2021-10-26 电子科技大学 基于卷积神经网络的特征点提取方法、设备及存储介质
CN117686937A (zh) * 2024-02-02 2024-03-12 河南科技学院 一种用于电池系统内单体电池的健康状态估计方法
CN117686937B (zh) * 2024-02-02 2024-04-12 河南科技学院 一种用于电池系统内单体电池的健康状态估计方法

Also Published As

Publication number Publication date
CN108345843B (zh) 2020-12-29

Similar Documents

Publication Publication Date Title
CN108345843A (zh) 一种基于混合深度回归网络的头部姿态估计方法
CN108345869B (zh) 基于深度图像和虚拟数据的驾驶人姿态识别方法
CN109977757B (zh) 一种基于混合深度回归网络的多模态的头部姿态估计方法
CN108932500B (zh) 一种基于深度神经网络的动态手势识别方法及系统
CN105975931B (zh) 一种基于多尺度池化的卷积神经网络人脸识别方法
CN111814584B (zh) 基于多中心度量损失的多视角环境下车辆重识别方法
Rozantsev et al. On rendering synthetic images for training an object detector
US11182644B2 (en) Method and apparatus for pose planar constraining on the basis of planar feature extraction
CN105869178B (zh) 一种基于多尺度组合特征凸优化的复杂目标动态场景无监督分割方法
CN108090403A (zh) 一种基于3d卷积神经网络的人脸动态识别方法及系统
CN107808129A (zh) 一种基于单个卷积神经网络的面部多特征点定位方法
CN109544603B (zh) 基于深度迁移学习的目标跟踪方法
CN108681725A (zh) 一种加权稀疏表示人脸识别方法
CN109543632A (zh) 一种基于浅层特征融合引导的深层网络行人检测方法
CN112560967B (zh) 一种多源遥感图像分类方法、存储介质及计算设备
CN107451594B (zh) 一种基于多元回归的多视角步态分类方法
US7593566B2 (en) Data recognition device
CN106599810B (zh) 一种基于栈式自编码的头部姿态估计方法
CN114399533B (zh) 一种基于多层次注意力机制的单目标追踪方法
CN113870157A (zh) 一种基于CycleGAN的SAR图像合成方法
CN108921064B (zh) 基于多特征融合的行人重识别方法
CN111126494A (zh) 基于各向异性卷积的图像分类方法及系统
CN113255602A (zh) 基于多模态数据的动态手势识别方法
CN114037640A (zh) 图像生成方法及装置
CN115205903A (zh) 一种基于身份迁移生成对抗网络的行人重识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant