CN108109198A

CN108109198A - 一种基于级联回归的三维表情重建方法

Info

Publication number: CN108109198A
Application number: CN201711368813.6A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2017-12-18
Filing date: 2017-12-18
Publication date: 2018-06-01

Abstract

本发明中提出的一种基于级联回归的三维表情重建方法，其主要内容包括：标记拟合、特征提取、回归和评估，其过程为，先对每个输入图像使用算法分别检测内部标记边界标记，然后将2D标记拟合到3D形变模型，估计模型参数和映射矩阵，接着从3D标记投影周围的输入图像的局部块中提取方向梯度直方图特征，用标记位移特征定义为每个标记位置与其对应模型顶点的投影位置之间的差异，再使用级联回归来估计模型参数，并且同时迭代地更新映射矩阵，最后用均方根误差和均值误差进行评估。本发明使用级联回归来估计三维形变模型参数，克服了缩放、旋转和不同光照的影响，重建较高逼真度的三维脸部形状，提高了重建的质量和鲁棒性。

Description

一种基于级联回归的三维表情重建方法

技术领域

本发明涉及表情重建领域，尤其是涉及了一种基于级联回归的三维表情重建方法。

背景技术

人脸在人类的交流中起着十分重要的信息表达功能，传递着人类的情感和精神状态。而脸部的表情在表情分析中很重要，因为它表达了人们的情绪、思想和意图。人脸表情识别、重建和合成技术具有广泛的应用前景，如通过人脸表情重建和合成，使计算机能够产生细腻逼真的人脸表情动画，能够进一步增加人机交互的趣味性，创造更为良好的交互氛围；在娱乐、游戏、动画等中利用表情重建技术模拟角色等，可以大大降低制作成本，提高工作效率；通过重建与合成技术，再现嫌疑人的脸部，可以为案件侦破和追捕提高关键线索；通过人脸表情动画合成功能，可以为设计心理学交互模型和脸部外科手术的预测提供研究平台。传统的表情重建方法在标记时往往采用人工标记，这种标记方式效率低又耗费人力，同时由于利用单个RGB图像重建人脸几何形状，使得其容易受到各种照明条件、缩放和旋转的影响，不利于实现表情的重建。

本发明提出了一种基于级联回归的三维表情重建方法，先对每个输入图像使用算法分别检测内部标记边界标记，然后将2D标记拟合到3D形变模型，估计模型参数和映射矩阵，接着从3D标记投影周围的输入图像的局部块中提取方向梯度直方图特征，用标记位移特征定义为每个标记位置与其对应模型顶点的投影位置之间的差异，再使用级联回归来估计模型参数，并且同时迭代地更新映射矩阵，最后用均方根误差和均值误差进行评估。本发明使用级联回归来估计三维形变模型参数，克服了缩放、旋转和不同光照的影响，重建较高逼真度的三维脸部形状，提高了重建的质量和鲁棒性。

发明内容

针对人工标记方式效率低又耗费人力等问题，本发明的目的在于提供一种基于级联回归的三维表情重建方法，先对每个输入图像使用算法分别检测内部标记边界标记，然后将2D标记拟合到3D形变模型，估计模型参数和映射矩阵，接着从3D标记投影周围的输入图像的局部块中提取方向梯度直方图特征，用标记位移特征定义为每个标记位置与其对应模型顶点的投影位置之间的差异，再使用级联回归来估计模型参数，并且同时迭代地更新映射矩阵，最后用均方根误差和均值误差进行评估。

为解决上述问题，本发明提供一种基于级联回归的三维表情重建方法，其主要内容包括：

(一)标记拟合；

(二)特征提取；

(三)回归；

(四)评估。

其中，所述的基于级联回归的三维表情重建方法，对于每个训练样本，使用现有技术的脸部对齐算法来检测二维标记；使用标记拟合过程来计算模型参数和映射矩阵的初始化，该过程使二维标记位置与三维标记投影之间的距离最小化；学习级联回归器来估计初始参数与标定好的真实参数之间的残差；方向梯度直方图(HOG)特征在初始形状标记的投影位置周围的局部块中被提取；测量3D标记投影和2D标记之间差异的标记位移(LD)特征也被使用。

进一步地，所述的方向梯度直方图(HOG)和标记位移(LD)，HOG和LD被矢量化和级联以形成整体特征向量；使用所有训练样本的特征向量和参数残差Δp来学习回归器；然后，更新每个样本的模型参数，并进一步更新映射矩阵；下一次迭代从更新后的三维形状和映射矩阵开始；这个更新过程迭代直到它收敛。

其中，所述的标记拟合，对于每个输入图像I，使用算法分别检测49个内部标记和17个边界标记l；然后，将2D标记拟合到3D形变模型(3DMM)，估计模型参数α,β和映射矩阵c；首先，通过将模型参数拟合到平均值来解得c：

c＝solver(l,C_r,i∈L×₂μ_α×₃μ_β) (1)

其中，l是图像坐标中的二维标记，i∈L表示标记顶点；μ_α和μ_β分别是身份和表情的平均参数；solver(·)是线性求解器；使用下式c来估计身份和表情：

其中，P_i(·)计算第i个3D标记的投影；Q_α和Q_β是对角矩阵，分别包含每个同一性和表达式参数方差的倒数；公式(2)中的正则化项对平均值的偏差进行惩罚，其中λ₁和λ₂控制正则化强度；这个处理步骤为特征提取提供初始化，并帮助回归过程更快收敛。

进一步地，所述的3D形变模型(3DMM)，3DMM是从匹配的3D人脸扫描得到的统计模型；匹配的3D人脸扫描具有两个主要部分：几何S＝[X₁,Y₁,Z₁,…,X_n,Y_n,Z_n]和纹理T＝[R₁,G₁,B₁,…,R_n,G_n,B_n]，它们分别代表每个顶点的3D位置和RGB颜色；主成分分析(PCA)应用于由所有脸部扫描的几何S或纹理T组成的矩阵；特征向量可以用来合成不同的形状和纹理：

其中，α和γ是形状和纹理的参数；s_i和t_i是它们相应的特征向量；3DMM提供了强大的正则化，并将3×n(通常大于10000)变量的优化转换为更低的维度(大约100)；双线性人脸模型可以使用下式合成具有不同身份和表情的人脸：

S＝C_r×₂α_id×₃β_exp (4)

其中，C_r是一个减少核心张量；运算×_n是模式n乘法；α_id和β_exp是身份和表情参数，其大小分别选择为50和25；重构形状S包含所有顶点的x,y,z坐标值；为了从3D到图像坐标的映射，可以使用透视或正交投影。

进一步地，所述的正交投影，对于第i个顶点：

v_i＝C_r,i×₂α_id×₃β_exp (5)

C_r,i是与第i个顶点相关的减少核心张量的一部分；v_i的正交投影是：

p＝A(R*v_i+T) (6)

或同样地，

其中，p是图像坐标中的投影向量；A是缩放的正交投影矩阵；R是3×3旋转矩阵，T是2×1转换矢量；所提出的方法估计两组变量：3DMM参数g＝[α；β]和映射矩阵c＝{A,R,T}。

其中，所述的特征提取，使用两个特征，即HOG和LD；HOG特征是从3D标记投影周围的输入图像I的64×64个局部块中提取的；LD特征定义为每个标记位置l_i与其对应模型顶点p_i的投影位置之间的差异：

其中，

u_i＝l_i-p_i(g,c) (9)

LD使用3D和2D标记之间的强大对应关系，并且对照明变化十分稳健；另一方面，HOG特征使用局部图像块的像素颜色，其包含关于面部反照率、几何形状和照明条件的丰富信息；HOG和LD的联合特性充分利用了输入数据的优势，并且对照明、缩放和旋转变化具有很强的鲁棒性。

其中，所述的回归，使用级联回归来估计模型参数，并且同时使用公式(1)迭代地更新映射矩阵；将公式(5)和公式(6)组合成函数P(g,c)来计算三维形状的正交投影；提出了监督下降法(SDM)，其中回归器的估计增量值为Δg而不是参数g，如下所示：

其中，g^*表示标定好的真实数据，Δg是增量值：

在公式(11)中，提取以三维标记P_i∈L(g,c)的投影为中心的输入I的色块中的特征，是回归器；

在每个回归阶段，模型参数g和映射矩阵c都被更新；

在第k阶段，使用学习的回归器更新g^k，如上式所示。

进一步地，所述的模型参数，使用回归来估计模型参数，使用公式(6)中给出的线性求解器来计算映射矩阵；应用学习组合式级联回归器的算法来进行训练；

首先输入训练数据和标记l_j，用公式(7)初始化第j个样本的对于k＝1→K，用和l_j提取特征通过公式(12)估算R^k，通过公式(11)估算并根据第j个样本更新当前参数更新第j个样本的映射c_j，最终输出级联回归

其中，所述的评估，使用了两个质量指标：均方根误差(RMSE)和均值误差(MAE)；RMSE评估z坐标上的误差，而MAE评估x,y,z坐标上的误差；

RMSE定义为：

其中，n是顶点的数量，和z_i分别是地面实况的第i个顶点和重建形状的z坐标值；

MAE被定义为标定好的真实数据和重建形状之间的平均欧氏距离：

其中，和v_i分别是标定好的真实数据的第i个顶点和重构形状的三维位置；

除了这两个质量指标之外，还使用了对不同面部区域的评估；主要脸部区域的误差测量眼睛、鼻子和嘴巴等内部属性的准确度；整个脸部区域的误差还包括耳朵和其它脸部边界区域。

附图说明

图1是本发明一种基于级联回归的三维表情重建方法的系统流程图。

图2是本发明一种基于级联回归的三维表情重建方法的标记拟合。

图3是本发明一种基于级联回归的三维表情重建方法的面部评估。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于级联回归的三维表情重建方法的系统流程图。主要包括标记拟合，特征提取，回归和评估。

基于级联回归的三维表情重建方法，对于每个训练样本，使用现有技术的脸部对齐算法来检测二维标记；使用标记拟合过程来计算模型参数和映射矩阵的初始化，该过程使二维标记位置与三维标记投影之间的距离最小化；学习级联回归器来估计初始参数与标定好的真实参数之间的残差；方向梯度直方图(HOG)特征在初始形状标记的投影位置周围的局部块中被提取；测量3D标记投影和2D标记之间差异的标记位移(LD)特征也被使用。

HOG和LD被矢量化和级联以形成整体特征向量；使用所有训练样本的特征向量和参数残差Δp来学习回归器；然后，更新每个样本的模型参数，并进一步更新映射矩阵；下一次迭代从更新后的三维形状和映射矩阵开始；这个更新过程迭代直到它收敛。

特征提取，使用两个特征，即HOG和LD；HOG特征是从3D标记投影周围的输入图像I的64×64个局部块中提取的；LD特征定义为每个标记位置l_i与其对应模型顶点p_i的投影位置之间的差异：

其中，

u_i＝l_i-p_i(g,c) (2)

回归，使用级联回归来估计模型参数，并且同时使用公式(6)迭代地更新映射矩阵；将公式(10)和公式(11)组合成函数P(g,c)来计算三维形状的正交投影；提出了监督下降法(SDM)，其中回归器的估计增量值为Δg而不是参数g，如下所示：

其中，g^*表示标定好的真实数据，Δg是增量值：

在公式(4)中，提取以三维标记P_i∈L(g,c)的投影为中心的输入I的色块中的特征，是回归器；

在每个回归阶段，模型参数g和映射矩阵c都被更新；

在第k阶段，使用学习的回归器更新g^k，如上式所示。

使用回归来估计模型参数，使用公式(11)中给出的线性求解器来计算映射矩阵；应用学习组合式级联回归器的算法来进行训练；

首先输入训练数据和标记l_j，用公式(12)初始化第j个样本的对于k＝1→K，用和l_j提取特征通过公式(5)估算R^k，通过公式(11)估算并根据第j个样本更新当前参数更新第j个样本的映射c_j，最终输出级联回归

图2是本发明一种基于级联回归的三维表情重建方法的标记拟合。如图所示，传统方法运用了24个标记，本方法运用了66个标记。本方法对于每个输入图像I，使用算法分别检测49个内部标记和17个边界标记l；然后，将2D标记拟合到3D形变模型(3DMM)，估计模型参数α,β和映射矩阵c；首先，通过将模型参数拟合到平均值来解得c：

c＝solver(l,C_r,i∈L×₂μ_α×₃μ_β) (6)

其中，P_i(·)计算第i个3D标记的投影；Q_α和Q_β是对角矩阵，分别包含每个同一性和表达式参数方差的倒数；公式(7)中的正则化项对平均值的偏差进行惩罚，其中λ₁和λ₂控制正则化强度；这个处理步骤为特征提取提供初始化，并帮助回归过程更快收敛。

3DMM是从匹配的3D人脸扫描得到的统计模型；匹配的3D人脸扫描具有两个主要部分：几何S＝[X₁,Y₁,Z₁,…,X_n,Y_n,Z_n]和纹理T＝[R₁,G₁,B₁,…,R_n,G_n,B_n]，它们分别代表每个顶点的3D位置和RGB颜色；主成分分析(PCA)应用于由所有脸部扫描的几何S或纹理T组成的矩阵；特征向量可以用来合成不同的形状和纹理：

S＝C_r×₂α_id×₃β_exp (9)

对于第i个顶点：

v_i＝C_r,i×₂α_id×₃β_exp (10)

p＝A(R*v_i+T) (11)

或同样地，

图3是本发明一种基于级联回归的三维表情重建方法的面部评估。如图所示显示了整个脸部和主要脸部区域的定义。面部评估使用了两个质量指标：均方根误差(RMSE)和均值误差(MAE)；RMSE评估z坐标上的误差，而MAE评估x,y,z坐标上的误差；

RMSE定义为：

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于级联回归的三维表情重建方法，其特征在于，主要包括标记拟合(一)；特征提取(二)；回归(三)；评估(四)。

2.基于权利要求书1所述的基于级联回归的三维表情重建方法，其特征在于，对于每个训练样本，使用现有技术的脸部对齐算法来检测二维标记；使用标记拟合过程来计算模型参数和映射矩阵的初始化，该过程使二维标记位置与三维标记投影之间的距离最小化；学习级联回归器来估计初始参数与标定好的真实参数之间的残差；方向梯度直方图(HOG)特征在初始形状标记的投影位置周围的局部块中被提取；测量3D标记投影和2D标记之间差异的标记位移(LD)特征也被使用。

3.基于权利要求书2所述的方向梯度直方图(HOG)和标记位移(LD)，其特征在于，HOG和LD被矢量化和级联以形成整体特征向量；使用所有训练样本的特征向量和参数残差Δp来学习回归器；然后，更新每个样本的模型参数，并进一步更新映射矩阵；下一次迭代从更新后的三维形状和映射矩阵开始；这个更新过程迭代直到它收敛。

4.基于权利要求书1所述的标记拟合(一)，其特征在于，对于每个输入图像I，使用算法分别检测49个内部标记和17个边界标记l；然后，将2D标记拟合到3D形变模型(3DMM)，估计模型参数α,β和映射矩阵c；首先，通过将模型参数拟合到平均值来解得c：

c＝solver(l,C_r,i∈L×₂μ_α×₃μ_β) (1)

5.基于权利要求书4所述的3D形变模型(3DMM)，其特征在于，3DMM是从匹配的3D人脸扫描得到的统计模型；匹配的3D人脸扫描具有两个主要部分：几何S＝[X₁,Y₁,Z₁,…,X_n,Y_n,Z_n]和纹理T＝[R₁,G₁,B₁,…,R_n,G_n,B_n]，它们分别代表每个顶点的3D位置和RGB颜色；主成分分析(PCA)应用于由所有脸部扫描的几何S或纹理T组成的矩阵；特征向量可以用来合成不同的形状和纹理：

<mrow> <mi>S</mi> <mo>=</mo> <mover> <mi>S</mi> <mo>&OverBar;</mo> </mover> <mo>+</mo> <msub> <mi>&Sigma;&alpha;</mi> <mi>i</mi> </msub> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mi>a</mi> <mo>)</mo> </mrow> </mrow>

<mrow> <mi>T</mi> <mo>=</mo> <mover> <mi>T</mi> <mo>&OverBar;</mo> </mover> <mo>+</mo> <msub> <mi>&Sigma;&gamma;</mi> <mi>i</mi> </msub> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mi>b</mi> <mo>)</mo> </mrow> </mrow>

S＝C_r×₂α_id×₃β_exp (4)

6.基于权利要求书5所述的正交投影，其特征在于，对于第i个顶点：

v_i＝C_r,i×₂α_id×₃β_exp (5)

p＝A(R*v_i+T) (6)

或同样地，

7.基于权利要求书1所述的特征提取(二)，其特征在于，使用两个特征，即HOG和LD；HOG特征是从3D标记投影周围的输入图像I的64×64个局部块中提取的；LD特征定义为每个标记位置l_i与其对应模型顶点p_i的投影位置之间的差异：

其中，

u_i＝l_i-p_i(g,c) (9)

8.基于权利要求书1所述的回归(三)，其特征在于，使用级联回归来估计模型参数，并且同时使用公式(1)迭代地更新映射矩阵；将公式(5)和公式(6)组合成函数P(g,c)来计算三维形状的正交投影；提出了监督下降法(SDM)，其中回归器的估计增量值为Δg而不是参数g，如下所示：

<mrow> <munder> <mi>min</mi> <mrow> <mi>&Delta;</mi> <mi>g</mi> </mrow> </munder> <mo>|</mo> <mo>|</mo> <msup> <mi>g</mi> <mo>*</mo> </msup> <mo>-</mo> <mrow> <mo>(</mo> <mi>g</mi> <mo>+</mo> <mi>&Delta;</mi> <mi>g</mi> <mo>)</mo> </mrow> <mo>|</mo> <mo>|</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>10</mn> <mo>)</mo> </mrow> </mrow>

其中，g^*表示标定好的真实数据，Δg是增量值：

在每个回归阶段，模型参数g和映射矩阵c都被更新；

在第k阶段，使用学习的回归器更新g^k，如上式所示。

9.基于权利要求书8所述的模型参数，其特征在于，使用回归来估计模型参数，使用公式(6)中给出的线性求解器来计算映射矩阵；应用学习组合式级联回归器的算法来进行训练；

10.基于权利要求书1所述的评估(四)，其特征在于，使用了两个质量指标：均方根误差(RMSE)和均值误差(MAE)；RMSE评估z坐标上的误差，而MAE评估x,y,z坐标上的误差；

RMSE定义为：

<mrow> <mi>R</mi> <mi>M</mi> <mi>S</mi> <mi>E</mi> <mo>=</mo> <msqrt> <mfrac> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msup> <mrow> <mo>(</mo> <msubsup> <mi>z</mi> <mi>i</mi> <mo>*</mo> </msubsup> <mo>-</mo> <msub> <mi>z</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> <mi>n</mi> </mfrac> </msqrt> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>13</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mi>M</mi> <mi>A</mi> <mi>E</mi> <mo>=</mo> <mfrac> <mrow> <mi>&Sigma;</mi> <mo>|</mo> <mo>|</mo> <msubsup> <mi>v</mi> <mi>i</mi> <mo>*</mo> </msubsup> <mo>-</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mo>|</mo> <mn>2</mn> </msub> </mrow> <mi>n</mi> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>14</mn> <mo>)</mo> </mrow> </mrow>