CN114049442A

CN114049442A - 三维人脸视线计算方法

Info

Publication number: CN114049442A
Application number: CN202111376077.5A
Authority: CN
Inventors: 陆峰; 梁家栋
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2022-02-15
Also published as: US20220254106A1; US11734889B2

Abstract

本发明提出了一种三维人脸视线计算方法，通过精确重构三维人脸从而准确计算该人脸的视线方向。本发明将视线方向计算任务分解为视线对齐的三维人脸重构和通过旋转来实现的视线接触两个子任务。首先使用三维形变模型以二维参考人脸图像作为输入来重构基本三维人脸。随后，对基本三维人脸进行形状调整得到形状对齐的三维重构人脸以保证三维人脸的眼部区域与输入的参考二维人脸图像眼部区域精确对齐。最后，通过替换形状对齐的三维人脸眼部区域的纹理而得到视线对齐的三维人脸。对于视线接触的子任务，本发明提出了全新的通过旋转三维人脸来实现视线接触的方法，该方法并不依赖于过多的假设，可广泛的应用于虚拟现实领域。

Description

三维人脸视线计算方法

技术领域

本发明涉及三维人脸重构和视线估计技术领域，是一种三维人脸视线计算方法。

背景技术

一直以来，三维人脸重构都是计算机视觉和计算机图像学最为热门的研究领域，现存的大量的工作分别以单张人脸图像、多视角图像、视频RGBD图像以及特定目标图像集合为输入来完成三维人脸的重构。本发明聚焦于以二维参考人脸图像作为输入完成视线对齐的三维人脸重构，这在视线方向计算和虚拟现实领域有着广泛的应用。视线跟踪技术作为新颖的人机交互方式，对理解用户行为意图具有重要意义。大脑感知的80％以上的信息都是经过视觉系统接收；基于视线的交互也比手势和语音交互需要更少的体力，并且提供更自然的体验，近年来在虚拟现实领域和人机交互领域中被积极探索。而视线方向计算是实现最终的最直接的方法，然而现有的视线方向计算技术大多聚焦于以二维人脸图像作为输入直接输出三维空间中的视线方向，这一方面影响了模型的泛化能力，另一方面由二维图片作为输入直接计算得到的三维空间中的视线方向会不可避免的产生误差，本发明则提出了一种全新的直接应用于三维人脸的视线计算方法，通过旋转视线对齐的三维人脸进行视线接触，来完成三维人脸视线方向的计算，其中，在完成视线接触的过程中三维人脸在水平和垂直方向上旋转的角度就是三维人脸旋转前在三维空间中的视线方向。

在现有的基于单张参考二维人脸图像完成三维人脸重构的方法中，三维形变模型(3D Morphable Models)起着至关重要的作用。基于收集到的标准人脸数据，三维形变模型将三维人脸在空间中的复杂分布简化为固定人脸形状的线性组合。然而这些方法通常需要精心优化才能完成高质量的三维人脸重建。伴随着深度学习的迅速发展，卷积神经网络被广泛的应用于三维人脸重建。Tuan首先使用卷积神经网络直接从输入图像回归三维形变模型形状和纹理参数。Dou通过在端到端训练框架中设计多任务损失函数，进一步提高了三维人脸重建的准确性。对于这些基于CNN的方法，一个潜在的缺陷是在训练阶段缺乏标记数据，另一个潜在缺陷是他们主要关注了例如皱纹的面部形状细节，而作为虚拟现实中最重要的交互器官，眼睛区域纹理和形状的准确性却很少被考虑。本发明提出了具有精确眼部区域的3D人脸重建方法，首先通过三维形变模型完成基本三维人脸的重建，随后通过对基本三维人脸执行形状对齐和纹理对齐最终完成视线对齐的三维人脸的重构。本发明重构的视线对齐的三维人脸的视线方向与参考二维人脸图像的视线方向保持一致，为通过旋转三维人脸来重构视线方向和完成视线接触提供了基础。

在早期，视线接触的实现依赖于特定的硬件，定制硬件较高的成本限制了这一类方法的应用前景。完成视线接触的一种直观而直接的方法是基于三维眼球模型根据输入的二维参考人脸图像完成三维眼球的重构，随后通过对重构的三维眼球的纹理和形状进行控制或者直接旋转眼球来完成视线接触。其中，Banf采用虹膜在眼部区域的坐标进行纹理坐标插值，可以在小角度偏移的情况下实现眼睛接触。但是仅针对眼部区域的插值会造成眼部区域与脸部区域在纹理上的不连续性，影响视线接触整体的真实性。Gazedirector则是通过旋转重构的三维眼球来执行视线接触。然而，这些基于三维眼球模型的方法依赖于过多的假设，这导致他们在实际场景的应用中实现视线接触的效果并不好。随着深度学习的在计算机视觉上的革命性的进展，一些方法使用深度神经网络来完成视线接触。Ganin等人提出了一种深度神经网络(DNNs)来合成眼部区域的图像并通过替换眼部区域的像素来完成视线接触。受限于生成器的性能，该方法只能生成模糊眼部区域图像。随后，He等人采用生成对抗网络(GAN)来合成具有高视觉质量的眼部区域图像。然而，受限于训练数据集的分布，该方法只能实现正面的眼神接触，对于具有较大偏移头部姿态的例子，该方法依旧无法较好的合成真实眼部区域图像。为了环节数据量过少对模型性能造成的影响，Zhang等人提出了一种无监督学习框架来训练生成对抗网络，该模型可以针对输入人脸的各种头部姿势完成视线接触。但是所有现有的方法都专注于通过直接改变眼部区域的纹理或形状来完成视线接触，这存在着两个主要局限性，一是重构的眼部区域图像视觉质量依旧较低。而是视线接触的精度依旧较差。

本发明将视线计算任务分解为视线对齐的三维人脸重构和通过旋转来实现的视线接触两个子任务。具体来说，本发明提出了视线对齐的三维人脸重构模块，以确保重构的认为人脸的眼部区域的精确性和真实性。首先使用三维形变模型以二维参考人脸图像作为输入来重构基本三维人脸。随后，对基本三维人脸进行形状调整得到形状对齐的三维重构人脸以保证三维人脸的眼部区域与输入的参考二维人脸图像眼部区域精确对齐。最后，通过替换形状对齐的三维人脸眼部区域的纹理而得到视线对齐的三维人脸。对于视线接触的子任务，本发明提出了全新的通过旋转三维人脸来实现视线接触的方法，该方法并不依赖于过多的假设，可广泛的应用于虚拟现实领域。

发明内容

根据上述实际需求和技术难题，本发明提供了一种三维人脸视线计算方法。

本发明是通过以下步骤实现的：

步骤一，对每张参考二维人脸图像提取重构系数，根据三维形变模型重构对应的基本三维人脸。

设参考二维人脸图片RGB三通道表示为I_i，将I_i输入卷积神经网络(CNN)提取出上述的一组重构系数W，具体计算方式如下：

W＝(W_S，W_e，W_t，γ，r，t)，

其中，W_S用于控制基本三维重构人脸的形状，W_e用于控制基本三维人脸的表情，W_t用于控制基本三维人脸的纹理，γ用于控制基本三维人脸的光照，r用于控制基本三维人脸的旋转，t用于控制基本三维人脸的平移。将重构系数输入三维形变模型便可得到基本三维重构人脸M_c，具体计算方式如下：

M_c＝F_3DMM(w)，w＝F_e(I_i)，

其中，w为一组重构系数，F_e为上述卷积神经网络，F_3DMM为上述三维形变模型，I_i为参考二维人脸图片RGB三通道。

步骤二，对每个基本三维重构人脸，优化局部区域细节，得到形状对齐的三维重构人脸；

将基本三维重构人脸M_c映射到二维平面上得到基本二维重构人脸I_c，将I_c和I_i相比较，设计三个损失函数来对基本三维重构人脸M_c进行优化，最终得到优化结果形状对齐的三维重构人脸M_f，具体计算方式如下：

I_c＝P(M_c)

L_3D＝L_photo(I_i，I_c)+L_landmarks(I_i，I_c)+L_reg(w)

其中，arg min为取最小值函数，M_c为基本三维重构人脸，L_3D是优化过程中的目标损失函数，通过L_3D最小化完成对M_c的优化，当M_c优化为M_f时候，所对应的L_3D最小，P表示由三维到二维的映射函数，I_c为基本二维重构人脸，图片损失L_photo通过计算参考二维人脸图片和基本二维重构人脸图片之间的欧几里得距离，来保证人脸外观的一致性，标记点损失L_landmarks通过计算二维人脸图片和基本二维重构人脸图片分别提取的人脸标记点之间的差异性来保证人脸轮廓和头部姿态的一致性，正则化损失L_reg通过衡量模型参数的复杂程度来保证重构人脸的形状和纹理不会变形。

步骤三，对每个形状对齐的三维重构人脸，将其眼部区域纹理与参考二维人脸图像对齐，得到视线对齐的三维重构人脸；

将形状对齐的三维重构人脸M_f的眼部区域在二维平面上的投影与参考二维人脸图片的眼部区域是严格对齐的，M_f眼部区域中的每一个点都与参考二维人脸图片眼部区域中的某个像素点相对应，通过将M_f眼部区域中的每一个点的RGB数值替换为相应二维人脸图片眼部区域中像素点的RGB值，可完成两者眼部区域的纹理对齐，得到视线对齐的三维重构人脸M_o。

步骤四，利用三维重构人脸在各个旋转角度的图片和设计特定的梯度损失函数训练视线接触判别器；

上述视线接触判别器D_g由特征提取器和梯度计算器两部分构成，特征提取器用于获取步骤三中所获取的M_o旋转前后的视觉特征d_s和d_e：

d_s＝E_s(I_s)，d_e＝E_e(I_e)，

其中，I_s是M_o旋转前映射到二维平面二维重构人脸图片，I_e是M_o旋转后映射到二维平面二维重构人脸图片，E_s和E_e为卷积神经网络模块，d_s和d_e为提取的相应的视觉特征，随后将d_s和d_e进行差分操作作为由一系列残差模块构成的梯度计算器E_r的输入，最终完成视线对齐的三维重构人脸M_o旋转后视线方向相较于视线接触方向偏移的梯度g(s，e)的计算：

g_(s，e)＝E_r(d_e-d_s)，

设计特定的梯度损失函数L_g完成视线接触判别器D_g的训练：

g_(s，e)＝F_g(∠A(e)-∠A(s))

其中，

表示

的范数，F_g是一个映射函数，负责将角度误差映射为梯度，

是通过D_g直接估计得到的梯度，∠A(s)是M_o旋转前视线方向在三维空间中的角度，∠A(e)是M_o旋转后其视线方向在三维空间中的角度，通过反向传播的方法优化梯度损失函数L_g最终完成对D_g的优化。

步骤五，对每个等待实现视线接触的视线对齐的三维重构人脸，使用视线接触判别器计算其在各个方向旋转后的视线方向相较于视线接触方向偏移的梯度，设计特定的旋转方法，对三维重构人脸不断进行旋转直至完成视线接触。

上述的三维人脸旋转方法中，进行旋转的具体步骤为，将M_O随机进行M次预旋转，得到M个方向的梯度

选择梯度最小的预旋转方向作为备选旋转方向，上述过程可用公式表示：

其中，arg min为取最小值函数，第C次预旋转的方向对应的梯度最小，当

时进行第一步旋转，选择第C次预旋转的方向作为第一次旋转方向，设s＝e_c，在通过多次旋转之后若

中所有方向的梯度值都大于0，终止旋转，此时的M_o通过不断的旋转完成了视线接触。

附图说明

图1是本发明三维人脸视线计算方法的流程图；

图2是本发明三维人脸视线计算方法的视线接触总体流程图；

图3是本发明三维人脸视线计算方法的视线对齐的三维人脸重构流程图；

图4是本发明三维人脸视线计算方法的视线接触判别器训练数据分布图；

图5是本发明三维人脸视线计算方法的视线接触判别器结构图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例。相反，提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。下面结合附图和具体实施方式对本发明的具体实施方式做进一步详细描述。以下实施例或者附图用于说明本发明，但不用来限制本发明的范围。

图1为本发明一种三维人脸视线计算方法流程示意图，包括以下步骤：

步骤101：对每张参考二维人脸图像提取重构系数，根据三维形变模型(3DMorphable Models)重构对应的基本三维人脸；

步骤102：对每个基本三维重构人脸，优化局部区域细节，得到形状对齐的三维重构人脸；

步骤103：对每个形状对齐的三维重构人脸，将其眼部区域纹理与参考二维人脸图像对齐，得到视线对齐的三维重构人脸；

步骤104：利用三维重构人脸在各个旋转角度的图片和设计特定的梯度损失函数训练视线接触判别器；

步骤105：对每个等待实现视线接触的视线对齐的三维重构人脸，使用视线接触判别器计算其在各个方向旋转后的视线方向相较于视线接触方向偏移的梯度，设计特定的旋转方法，对三维重构人脸不断进行旋转直至完成视线接触。

图2是二维参考人脸图像为输入而实现三维空间中视线接触的流程图，首先针对二维参考人脸图像完成视线对齐的三维人脸的重构，随后通过预设的旋转方法来完成三维人脸的视线接触。

如图3所示，设参考二维人脸图片RGB三通道表示为I_i，将I_i输入卷积神经网络(CNN)提取出上述的一组重构系数W，具体计算方式如下：

W＝(W_s，W_e，W_t，γ，r，t)，

M_c＝F_3DMM(w)，w＝F_e(I_i)，

其中，w为一组重构系数，F_e为上述卷积神经网络，F_3DMM为上述三维形变模型。

I_c＝P(M_c)

L_3D＝L_photo(I_i，I_c)+L_landmarks(I_i，I_c)+L_reg(w)

其中，arg min为取最小值函数，M_c为基本三维重构人脸，L_3D是优化过程中的目标损失函数，通过L_3D最小化完成对M_c的优化，当M_c优化为M_f时候，所对应的L_3D最小，P表示由三维到二维的映射函数，图片损失L_photo通过计算参考二维人脸图片和基本二维重构人脸图片之间的欧几里得距离，来保证人脸外观的一致性，标记点损失L_landmarks通过计算二维人脸图片和基本二维重构人脸图片分别提取的人脸标记点之间的差异性来保证人脸轮廓和头部姿态的一致性，正则化损失L_reg通过衡量模型参数的复杂程度来保证重构人脸的形状和纹理不会变形。

上述形状对齐的三维重构人脸M_f，其眼部区域在二维平面上的投影与参考二维人脸图片的眼部区域是严格对齐的，M_f眼部区域中的每一个点都与参考二维人脸图片眼部区域中的某个像素点相对应，通过将M_f眼部区域中的每一个点的RGB数值替换为相应二维人脸图片眼部区域中像素点的RGB值，可完成两者眼部区域的纹理对齐，得到视线对齐的三维重构人脸M_o。

如图4所示，通过不断旋转视线对齐的三维重构人脸M_o并收集每次旋转后所对应的二维重构人脸图片来构建用于训练视线接触判别器D_g的数据集。具体来讲，设旋转前的视线对齐的三维重构人脸M_o在三维空间中的注视方向在水平方向和垂直方向偏移的角度为∠A(x，y)，映射在二维平面的二维重构人脸图像为I_(x，y)；第i次旋转后M_o的注视方向为

其中，

为M_o在水平方向旋转的角度，

为M_o在垂直方向旋转的角度，映射在二维平面的二维重构人脸图像为

经过N次旋转，对于一个视线对齐的三维重构人脸M_o可构建总数为N的数据集

当

时，M_o在第i次旋转后完成视线接触，所构建的二维重构人脸图片数据集对应的相对于视线接触方向在三维空间的角度偏移为

如图5所示，上述视线接触判别器D_g由特征提取器和梯度计算器两部分构成，其中，特征提取器以两个卷积神经网络(CNNs)模块组成，以视线对齐的三维重构人脸M_o旋转前后所分别映射到二维平面上的二维人脸图片为输入，提取相应的视觉特征d_s和d_e：

d_s＝E_s(I_s)，d_e＝E_e(I_e)，

其中，I_s是M_o旋转前映射到二维平面二维重构人脸图片，I_e是M_o旋转后映射到二维平面二维重构人脸图片，E_s和E_e为上述的卷积神经网络模块Resnet-18，d_s和d_e为提取的相应的视觉特征，随后将d_s和d_e进行差分操作Subtraction作为由一系列残差模块ResnetBlock构成的梯度计算器E_r的输入，其中，上述梯度计算器E_r包括，残差模块Resnet Block，全连接层FC和激活函数Tanh，最终完成视线对齐的三维重构人脸M_o旋转后视线方向相较于视线接触方向偏移的梯度g(s，e)的计算：

g_(s，e)＝E_r(d_e-d_s)，

根据视线接触判别器的具体网络结构和数据及分布设计特定的梯度损失函数L_g完成视线接触判别器D_g的训练：

其中，

表示

的范数，F_g是一个映射函数，负责将一个角度误差映射为梯度，通过反向传播的方法优化梯度损失函数L_g来完成视线接触判别器D_g的训练。

三维人脸旋转方法，三维人脸旋转分为三个阶段，分别是开始旋转、连续旋转和结束旋转，具体来讲：

对于第一步旋转的具体步骤为，将视线对齐的三维重构人脸M_o随机进行M次预旋转，得到M个方向的梯度

选择梯度最小的预旋转方向作为备选旋转方向：

其中，argmin为取最小值函数，第c次预旋转的方向对应的梯度最小，当

时进行第一步旋转，选择第c次预旋转的方向作为第一次旋转方向，设

为下次旋转开始前三维重构人脸的视线方向在三维空间中相对于水平方向和垂直方向的偏移。

第i步旋转的具体步骤为，将视线方向相对于三维空间中水平方向和垂直方向的偏移为

的M_o随机进行M次预旋转，得到M个方向的梯度如下所示：

选择梯度最小的预旋转方向作为备选旋转方向，具体计算方式如下：

其中，argmin为取最小值函数,第c次预旋转的方向对应的梯度最小，当

时进行第i步旋转，选择第c次预旋转的方向作为第i步的旋转方向，更新

当时M_o在所有方向旋转的梯度都大于0时，终止旋转，此时M_o通过不断的旋转完成了视线接触。

以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开的实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种三维人脸视线计算方法，包括以下步骤：

步骤一，对每张参考二维人脸图像提取重构系数，根据三维形变模型重构对应的基本三维人脸；

2.根据权利要求1所述的方法，其中，所述对每张参考二维人脸图像提取重构系数，根据三维形变模型重构对应的基本三维人脸，包括：

采用三维形变模型作为重构模型，采用卷积神经网络提取的重构系数作为三维形变模型的输入，完成基本三维人脸M_c的重构。

3.根据权利要求1所述的方法，其中，所述形状对齐的三维重构人脸M_f构造方法中，步骤二通过将基本三维人脸与参考二维人脸图像相比较，设计损失函数完成对基本三维人脸局部区域细节的优化。

4.根据权利要求1所述的方法，其中，所述视线对齐的三维重构人脸M_o的构造方法中，由步骤二得到的M_f，其眼部区域在二维平面上的投影与参考二维人脸图片的眼部区域是严格对齐的，M_f眼部区域中的每一个顶点都在参考二维人脸图片眼部区域有像素点相对应，步骤三通过将M_f眼部区域的纹理完全替换为二维人脸图像眼部区域中的纹理，可完成两者眼部区域的纹理对齐。

5.根据权利要求1所述的方法，其中，所述视线接触判别器D_g由特征提取器和梯度计算器两部分构成，特征提取器用于获取步骤三中所获取的M_o旋转前后的视觉特征d_s和d_e：

d_s＝E_s(I_s)，d_e＝E_e(I_e)，

其中，I_s是M_o旋转前映射到二维平面二维重构人脸图片，I_e是M_o旋转后映射到二维平面二维重构人脸图片，E_s和E_e为卷积神经网络模块，d_s和d_e为提取的相应的视觉特征，随后将d_s和d_e进行差分操作，将由一系列残差模块构成的梯度计算器E_r输入，最终完成视线对齐的三维重构人脸M_o旋转后视线方向相较于视线接触方向偏移的梯度g(s，e)的计算：

g_(s，e)＝E_r(d_e-d_s)，

其中，E_r为梯度计算器，d_s和d_e为提取的相应的视觉特征。

6.根据权利要求1所述的方法，其中，所述利用三维重构人脸在各个旋转角度的图片和设计特定的梯度损失函数训练视线接触判别器，包括：

设计特定的梯度损失函数L_g完成视线接触判别器D_g的训练：