CN110717928B

CN110717928B - 人脸运动单元AUs的参数估计方法、装置和电子设备

Info

Publication number: CN110717928B
Application number: CN201911002961.5A
Authority: CN
Inventors: 宋新慧; 袁燚; 范长杰; 胡志鹏
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2019-10-21
Filing date: 2019-10-21
Publication date: 2022-03-18
Anticipated expiration: 2039-10-21
Also published as: CN110717928A

Abstract

本发明提供了一种人脸运动单元AUs的参数估计方法、装置和电子设备，包括：先提取该实际人脸图像的实际标签特征，再基于预设的人脸AUs的初始参数值得到虚拟的人脸基础图像和该人脸基础图像的虚拟标签特征，基于虚拟标签特征与上述实际标签特征的比较结果，调整人脸AUs的当前参数值，进而调整这个虚拟的人脸基础图像的虚拟标签特征，直到满足预设终止条件为止，将最后一次调整得到的人脸AUs的当前参数值作为实际人脸图像对应的人脸AUs的参数值。该方法得到的实际人脸图像对应的人脸AUs的参数值更加准确。

Description

人脸运动单元AUs的参数估计方法、装置和电子设备

技术领域

本发明涉及计算机视觉的技术领域，尤其是涉及一种人脸运动单元AUs的参数估计方法、装置和电子设备。

背景技术

在计算机视觉领域，人脸表情分析是一个重要的课题。自动人脸表情分析可以应用于很多领域，比如，人机交互、行为研究、表情迁移和心理学领域。Ekman和Friesen开发了一套人脸行为编码系统(FACS)，用于描述人脸表情。人脸表情可以由AUs(Action Units，运动单元)组合而成。但由于头部姿态、身份和光照等影响，使得人脸AUs的参数估计成为了一个很难的课题。

近来，深度学习在很多领域取得了优异的成绩。在人脸AUs的参数估计方面，也有很多基于深度学习的方法。目前用于人脸AUs的参数估计方法有基于人脸关键点拟合的方法，该方法需要依赖检测的人脸关键点的准确性，并且无法表达与关键点无关的表情，估计的准确性差。

发明内容

本发明实施例的目的在于提供一种人脸运动单元AUs的参数估计方法、装置和电子设备，以准确的估计实际人脸图像对应的人脸AUs的参数值。

本发明实施例提供的一种人脸运动单元AUs的参数估计方法，包括：

通过人脸特征提取器提取实际人脸图像的实际标签特征；所述实际标签特征用于表示所述实际人脸图像中各个像素点所属的类别对应的特征；

以预设的人脸AUs的初始参数值作为所述人脸AUs的当前参数值，对所述人脸AUs的当前参数值，执行以下操作：

将所述人脸AUs的当前参数值输入图像生成器，得到虚拟的人脸基础图像；

通过所述人脸特征提取器提取所述人脸基础图像的虚拟标签特征；所述虚拟标签特征用于表示所述人脸基础图像中各个像素点所属的类别对应的特征；

比较所述虚拟标签特征和所述实际标签特征，根据比较结果调整所述人脸AUs的当前参数值，重复所述操作的上述步骤，直到满足预设终止条件为止；

将满足所述预设终止条件时的所述人脸AUs的当前参数值，确定为所述实际人脸图像对应的人脸AUs的参数值。

进一步的，比较所述虚拟标签特征和所述实际标签特征的步骤包括：通过预设损失函数计算所述虚拟标签特征和所述实际标签特征之间的特征距离；基于所述特征距离调整所述人脸AUs的当前参数值。

进一步的，通过预设损失函数计算所述虚拟标签特征和所述实际标签特征之间的特征距离的步骤包括：通过预设损失函数L_E(x,y_r)＝||W(G(x))F(G(x))-W(y_r)F(y_r)||₁计算所述虚拟标签特征和所述实际标签特征之间的特征距离；L_E(x,y_r)表示所述虚拟标签特征和所述实际标签特征之间的特征距离，x表示所述人脸AUs的当前参数值，G(x)表示生成的所述人脸基础图像，W(G(x))表示生成的所述人脸基础图像中，每个像素点所属的类别的概率，F(G(x))表示所述人脸特征提取器提取的所述人脸基础图像的前M层特征，y_r表示所述实际人脸图像，W(y_r)表示所述实际人脸图像中，每个像素点所属的类别的概率，F(y_r)表示所述人脸特征提取器提取的所述实际人脸图像的前M层特征，M为预设值。

进一步的，在通过人脸特征提取器提取实际人脸图像的实际标签特征之前，所述方法还包括：对所述实际人脸图像进行人脸对齐处理，得到对齐后的实际人脸图像，进而通过所述人脸特征提取器提取所述对齐后的实际人脸图像的实际标签特征。

进一步的，对所述实际人脸图像进行人脸对齐处理的步骤包括：对所述实际人脸图像进行特征点检测，得到所述实际人脸图像中的脸部特征点；通过所述脸部特征点和脸部模板中的特征点计算仿射矩阵；所述脸部模板为预先设置的包含脸部各个器官的特征点的模板；通过所述仿射矩阵对所述实际人脸图像中的各个像素点进行仿射变换，得到所述对齐后的实际人脸图像。

进一步的，所述预设终止条件包括：所述操作达到预设操作次数。

进一步的，所述预设终止条件包括：所述特征距离不大于预设阈值。

进一步的，在将满足所述预设终止条件时的所述人脸AUs的当前参数值，确定为所述实际人脸图像对应的人脸AUs的参数值之后，所述方法还包括：通过所述实际人脸图像对应的人脸AUs的参数值驱动虚拟人物模型，得到与所述实际人脸图像具有相同表情的虚拟人物模型。

进一步的，训练所述图像生成器的步骤包括：获取第一训练样本；所述第一训练样本包括：随机输入至游戏渲染器中的人脸AUs的参数值，以及所述游戏渲染器根据所述人脸AUs的参数值渲染得到的虚拟人脸图像样本，所述人脸AUs的参数值包括：多维的头部角度参数值、多维的人脸表情参数值和多维的人脸身份参数值，每一维的人脸AUs的参数值能够决定渲染得到的虚拟人脸图像样本的局部区域；通过所述第一训练样本和第一损失函数对原始图像生成器进行训练，得到所述图像生成器。

进一步的，在获取第一训练样本之后，在通过所述第一训练样本和第一损失函数对原始图像生成器进行训练之前，所述方法还包括：对所述第一训练样本中的虚拟人脸图像样本进行人脸对齐处理，得到对齐处理后的所述第一训练样本，进而通过对齐处理后的所述第一训练样本和所述第一损失函数对所述原始图像生成器进行训练，得到所述图像生成器。

进一步的，所述第一损失函数包括：L_G＝L_app+wL_per；L_G表示所述图像生成器的损失，L_app表示渲染得到的所述虚拟人脸图像样本和生成的人脸图像的各对应像素之间的距离和，L_per表示视觉几何群网络提取的渲染得到的所述虚拟人脸图像样本的特征与生成的人脸图像的特征之间的距离，w表示预设权重。

进一步的，训练所述人脸特征提取器的步骤包括：获取第二训练样本；所述第二训练样本包括：ImageNet数据集中的数据；通过所述第二训练样本和交叉熵损失函数对原始人脸特征提取器进行训练，得到所述人脸特征提取器。

本发明实施例还提供了人脸运动单元AUs的参数估计装置，包括：

特征提取单元，用于通过人脸特征提取器提取实际人脸图像的实际标签特征；所述实际标签特征用于表示所述实际人脸图像中各个像素点所属的类别对应的特征；

循环操作单元，用于以预设的人脸AUs的初始参数值作为所述人脸AUs的当前参数值，对所述人脸AUs的当前参数值，执行以下操作：

进一步的，所述循环操作单元还用于：通过预设损失函数计算所述虚拟标签特征和所述实际标签特征之间的特征距离；基于所述特征距离调整所述人脸AUs的当前参数值。

进一步的，所述循环操作单元还用于：通过预设损失函数L_E(x,y_r)＝||W(G(x))F(G(x))-W(y_r)F(y_r)||₁计算所述虚拟标签特征和所述实际标签特征之间的特征距离；L_E(x,y_r)表示所述虚拟标签特征和所述实际标签特征之间的特征距离，x表示所述人脸AUs的当前参数值，G(x)表示生成的所述人脸基础图像，W(G(x))表示生成的所述人脸基础图像中，每个像素点所属的类别的概率，F(G(x))表示所述人脸特征提取器提取的所述人脸基础图像的前M层特征，y_r表示所述实际人脸图像，W(y_r)表示所述实际人脸图像中，每个像素点所属的类别的概率，F(y_r)表示所述人脸特征提取器提取的所述实际人脸图像的前M层特征，M为预设值。

进一步的，所述装置还包括：人脸对齐处理单元，用于对所述实际人脸图像进行人脸对齐处理，得到对齐后的实际人脸图像，进而通过所述人脸特征提取器提取所述对齐后的实际人脸图像的实际标签特征。

进一步的，所述人脸对齐处理单元还用于：对所述实际人脸图像进行特征点检测，得到所述实际人脸图像中的脸部特征点；通过所述脸部特征点和脸部模板中的特征点计算仿射矩阵；所述脸部模板为预先设置的包含脸部各个器官的特征点的模板；通过所述仿射矩阵对所述实际人脸图像中的各个像素点进行仿射变换，得到所述对齐后的实际人脸图像。

进一步的，所述装置还包括：驱动单元，用于通过所述实际人脸图像对应的人脸AUs的参数值驱动虚拟人物模型，得到与所述实际人脸图像具有相同表情的虚拟人物模型。

进一步的，所述装置还用于：获取第一训练样本；所述第一训练样本包括：随机输入至游戏渲染器中的人脸AUs的参数值，以及所述游戏渲染器根据所述人脸AUs的参数值渲染得到的虚拟人脸图像样本，所述人脸AUs的参数值包括：多维的头部角度参数值、多维的人脸表情参数值和多维的人脸身份参数值，每一维的人脸AUs的参数值能够决定渲染得到的虚拟人脸图像样本的局部区域；通过所述第一训练样本和第一损失函数对原始图像生成器进行训练，得到所述图像生成器。

进一步的，所述装置还用于：对所述第一训练样本中的虚拟人脸图像样本进行人脸对齐处理，得到对齐处理后的所述第一训练样本，进而通过对齐处理后的所述第一训练样本和所述第一损失函数对所述原始图像生成器进行训练，得到所述图像生成器。

进一步的，所述第一损失函数包括：L_G＝L_app+wL_per；L_G表示所述图像生成器的损失，L_app表示渲染得到的所述虚拟人脸图像样本和生成的人脸基图像的各对应像素之间的距离和，L_per表示视觉几何群网络提取的渲染得到的所述虚拟人脸图像样本的特征与生成的人脸图像的特征之间的距离，w表示预设权重。

进一步的，所述装置还用于：获取第二训练样本；所述第二训练样本包括：ImageNet数据集中的数据；通过所述第二训练样本和交叉熵损失函数对原始人脸特征提取器进行训练，得到所述人脸特征提取器。

本发明实施例还提供了一种电子设备，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现上述内容中所述的人脸运动单元AUs的参数估计方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现上述内容中所述的人脸运动单元AUs的参数估计方法的步骤。

在本发明实施例提供的上述人脸运动单元AUs的参数估计方法、装置和电子设备中，为了得到实际人脸图像的人脸AUs的参数值，先提取该实际人脸图像的实际标签特征，再基于预设的人脸AUs的初始参数值得到虚拟的人脸基础图像和该人脸基础图像的虚拟标签特征，基于虚拟标签特征与上述实际标签特征的比较结果，调整人脸AUs的当前参数值，进而调整这个虚拟的人脸基础图像的虚拟标签特征，直到满足预设终止条件为止，将最后一次调整得到的人脸AUs的当前参数值作为实际人脸图像对应的人脸AUs的参数值。上述参数估计过程中，人脸特征提取器提取人脸图像(包括实际人脸图像和人脸基础图像)的标签特征，该标签特征表示人脸图像中各个像素点所属的类别对应的特征，例如：图像的深度特征(人脸的关键点特征和人脸的纹理特征)，这样，在对提取得到的虚拟标签特征和实际标签特征进行比较后，得到的比较结果的信息更加丰富，进而根据丰富的比较结果的信息对人脸AUs的当前参数值进行调整时，使得最终调整得到的人脸AUs的当前参数值更加准确，也就是最后估计得到的实际人脸图像对应的人脸AUs的参数值更加准确，缓解了现有的人脸AUs的参数估计方法准确性差的技术问题。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的人脸表情迁移的应用场景的示意图；

图2为本发明实施例提供的人脸运动单元AUs的参数估计方法的流程图；

图3为本发明实施例提供的人脸AUs的参数估计过程的示意图；

图4为本发明实施例提供的五组实际人脸图像与对应的虚拟人物模型的对比图；

图5为本发明实施例提供的基于人脸关键点拟合的过程示意图；

图6为本发明实施例提供的图像生成器的训练过程示意图；

图7为本发明实施例提供的人脸特征提取器的训练过程示意图；

图8为本发明实施例提供的人脸运动单元AUs的参数估计装置的示意图；

图9为本发明实施例提供的电子设备的示意图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在计算机视觉领域中，人脸表情分析具有很多实际的意义，比如，通过对人脸表情的分析实现人机交互、行为研究和表情的迁移等。

目前，对于人脸表情的迁移可以为：对实际人脸图像中的人脸表情进行分析得到其对应的人脸AUs的参数，进而通过得到的人脸AUs的参数驱动虚拟人物模型，使得虚拟人物模型具备与实际人脸图像相同的表情。这种形式的人脸表情迁移可用于驱动游戏中的虚拟人物模型，进而快速的得到多种表情的虚拟人物模型，进而用于游戏场景中。

图1中示出了上述人脸表情迁移的应用场景的示意图。其中，先获取得到一张实际人脸图像，然后通过本实施例中的人脸AUs的参数估计方法估计得到实际人脸图像对应的人脸AUs的参数值，进而，通过实际人脸图像对应的人脸AUs的参数值驱动虚拟人物模型，便能得到与实际人脸图像具有相同表情的虚拟人物模型。

下面对本发明实施例的人脸AUs的参数估计方法的过程进行详细介绍。

图2是根据本发明实施例的一种人脸运动单元AUs的参数估计方法的流程图，该参数估计方法可以应用于配置有图像生成器和人脸特征提取器的设备。参考图2，上述人脸运动单元AUs的参数估计方法包括如下步骤：

步骤S202，通过人脸特征提取器提取实际人脸图像的实际标签特征。

其中，实际标签特征用于表示实际人脸图像中各个像素点所属的类别对应的特征。

在本发明实施例中，人脸特征提取器是预先训练得到的，能够提取人脸图像的标签特征。

上述实际人脸图像可以表示真实的人脸图像，可以通过图像拍摄设备对现实中的人物进行拍摄得到，也可以是从目标位置中下载得到的真实的人脸图像，本发明实施例对上述实际人脸图像的获取形式不进行限定。

上述的实际标签特征用于表示实际人脸图像中各个像素点所属的类别对应的特征。例如，表示实际人脸图像中各个像素点的类别(如，人脸的类别、左眼眉的类别、右眼眉的类别、左眼的类别、右眼的类别、鼻子的类别、上嘴唇的类别、牙齿的类别、下嘴唇的类别、头发的类别和背景的类别等)、各类别的概率，以及人脸特征提取器提取的实际人脸图像的前M层特征(M的值可以为3，本发明实施例对M的值不进行限定)。

上述人脸特征提取器能够提取得到图像的深度特征，其中不仅包含了人脸的关键点特征，还包含了人脸的纹理特征，信息更加丰富。

步骤S204，以预设的人脸AUs的初始参数值作为人脸AUs的当前参数值。

在本发明实施例中，上述预设的人脸AUs的初始参数值可以为0.5，本发明实施例对其不进行限定。

另外，人脸AUs的参数可以包括：头部角度参数、人脸表情参数和人脸身份参数。其中，头部角度参数(本实施例中，用h表示，h∈R^1×2或h∈R^1×3)可以包括：俯仰角度和偏航角度，当然，也可以包括旋转角度；人脸表情参数(本实施例中，用α_exp表示，α_exp∈R^1×23，当然，可以不止23维)可以包括：表示眼睛闭合的参数、上眼睑上升的参数、眼睑收敛的参数、内眉毛上升的参数、外眉毛上升的参数、眉毛下降的参数、嘴巴张开的参数、皱鼻的参数、上嘴唇上升的参数、下嘴唇下降的参数、微笑的参数、嘴角拉伸的参数、嘟嘴的参数、嘴角下拉的参数、上嘴唇闭合的参数、下嘴唇闭合的参数、鼓腮的参数、抿嘴的参数和左右歪嘴的参数等等；人脸身份参数(本实施例中，用α_id表示，α_id∈R^1×244，当然，可以不止244维)用于控制人脸每个局部的平移、旋转和俯仰，直接控制脸部的变化。例如，控制人脸的鼻尖向上向下的参数等。

然后，对于人脸AUs的当前参数值，执行以下步骤S2041至步骤S2043的操作：

步骤S2041，将人脸AUs的当前参数值输入图像生成器，得到虚拟的人脸基础图像。

在本发明实施例中，图像生成器是预先训练得到的，该图像生成器能够根据人脸AUs的当前参数值生成虚拟的人脸基础图像。需要说明的是，人脸AUs的当前参数值中的任何一个维度的参数变化时，都能改变生成的虚拟的人脸基础图像的局部特征，其是基于可解释的每一维参数训练得到的图像生成器。

步骤S2042，通过人脸特征提取器提取人脸基础图像的虚拟标签特征。

其中，虚拟标签特征用于表示人脸基础图像中各个像素点所属的类别对应的特征。该虚拟标签特征与上述的实际标签特征相似，只是对于不同人脸图像的不同命名，以用于区分，这里不再赘述。

步骤S2043，比较虚拟标签特征和实际标签特征，根据比较结果调整人脸AUs的当前参数值。

通过比较虚拟标签特征和实际标签特征，就能够反映实际人脸图像和生成的虚拟的人脸基础图像之间的差别，得到差别后进而便能根据上述差别调整人脸AUs的当前参数值，以使后续生成的虚拟的人脸基础图像与实际人脸图像更加接近。当二者没有差别或差别很小时，就能根据最后调整得到的人脸AUs的当前参数值确定实际人脸图像对应的人脸AUs的参数值。

步骤S206，确定上述操作是否满足预设终止条件。如果不满足，则返回步骤S2041；如果满足，则执行步骤S208。

上述预设终止条件可以为：操作达到预设操作次数。

步骤S208，停止上述操作，将满足预设终止条件时的人脸AUs的当前参数值，确定为实际人脸图像对应的人脸AUs的参数值。

在比较虚拟标签特征和实际标签特征时，有多种实现方式，本实施例给出了比较虚拟标签特征和实际标签特征的一种实现方式，具体可以包括如下(1)和(2)的步骤：

(1)通过预设损失函数计算虚拟标签特征和实际标签特征之间的特征距离。

具体包括：通过预设损失函数L_E(x,y_r)＝||W(G(x))F(G(x))-W(y_r)F(y_r)||₁计算虚拟标签特征和实际标签特征之间的特征距离；L_E(x,y_r)表示虚拟标签特征和实际标签特征之间的特征距离，x表示人脸AUs的当前参数值，G(x)表示生成的人脸基础图像，W(G(x))表示生成的人脸基础图像中，每个像素点所属的类别的概率，F(G(x))表示人脸特征提取器提取的人脸基础图像的前M层特征，y_r表示实际人脸图像，W(y_r)表示实际人脸图像中，每个像素点所属的类别的概率，F(y_r)表示人脸特征提取器提取的实际人脸图像的前M层特征，M为预设值。

上述预设损失函数利用人脸特征提取器提取特征，给这些特征增加人脸特征提取器预测的分类概率作为注意力机制，特征是指人脸特征提取器第1、2、3层输出的特征映射，这些特征通过与最终的某个类别的分类概率相乘得到具有注意力的特征。注意力机制就是对不同的部分有不同的重点。

(2)基于特征距离调整人脸AUs的当前参数值。

在该种实现方式下，上述预设终止条件还可以为：特征距离不大于预设阈值。

考虑到通过人脸特征提取器直接对实际人脸图像进行实际标签特征的提取时，由于实际人脸图像不够标准，提取得到的实际标签特征准确性差，基于此，在通过人脸特征提取器提取实际人脸图像的实际标签特征之前，该方法还包括：

对实际人脸图像进行人脸对齐处理，得到对齐后的实际人脸图像，进而通过人脸特征提取器提取对齐后的实际人脸图像的实际标签特征。

其中，对实际人脸图像进行人脸对齐处理包括如下(i)至(iii)的过程：

(i)对实际人脸图像进行特征点检测，得到实际人脸图像中的脸部特征点；

(ii)通过脸部特征点和脸部模板中的特征点计算仿射矩阵；

其中，脸部模板为预先设置的包含脸部各个器官的特征点的模板。

(iii)通过仿射矩阵对实际人脸图像中的各个像素点进行仿射变换，得到对齐后的实际人脸图像。

为了便于理解，下面以通俗的语言对人脸对齐的过程进行整体说明：本实施例中采用Dlib库中的人脸检测和人脸关键点提取算法实现。首先，对输入的人脸图像(即上述实际人脸图像)进行人脸识别，得到人脸位置的图像；然后，提取基准脸(即上述脸部模板，可以为无表情的正面的平均脸)和输入的人脸图像的特征点(例如，得到两组68个特征点)；最后，可以根据其中的左右眼睛中心、鼻尖、左右嘴角五个特征点对计算仿射矩阵，利用该仿射矩阵把输入的人脸图像变换成与基准脸大小相等、五官位置相对应的人脸图像。

下面结合图3再对本发明的人脸AUs的参数估计过程进行整体说明：

实现时，加载脸部模板、预先训练得到的图像生成器和人脸特征提取器；获取实际人脸图像y_r，对实际人脸图像y_r进行人脸对齐处理，得到对齐后的实际人脸图像，进而，通过人脸特征提取器提取对齐后的实际人脸图像的实际标签特征；以预设的人脸AUs的初始参数值作为人脸AUs的当前参数值x；将人脸AUs的当前参数值输入图像生成器，得到虚拟的人脸基础图像

通过人脸特征提取器提取人脸基础图像

的虚拟标签特征；根据预设损失函数L_E(x,y_r)计算虚拟标签特征和实际标签特征之间的特征距离，根据特征距离(具体可通过梯度)调整人脸AUs的当前参数值x，再将调整后的人脸AUs的当前参数值x作为人脸AUs的当前参数值，返回将人脸AUs的当前参数值输入图像生成器的步骤，如此对人脸AUs的当前参数值x进行多次调整，直至上述操作满足预设终止条件为止，将最后得到的人脸AUs的当前参数值作为实际人脸图像对应的人脸AUs的参数值

在将满足预设终止条件时的人脸AUs的当前参数值，确定为实际人脸图像对应的人脸AUs的参数值之后，该方法还包括：

通过实际人脸图像对应的人脸AUs的参数值驱动虚拟人物模型，得到与实际人脸图像具有相同表情的虚拟人物模型。具体的，通过实际人脸图像对应的人脸AUs的参数值中的头部角度参数值和人脸表情参数值驱动虚拟人物模型，得到与实际人脸图像具有相同的表情的虚拟人物模型。

如图4所示，给出了五组将实际人脸图像对应的人脸AUs的参数值迁移至虚拟人物模型后的对比结果，其中，第一行为实际人脸图像，第二行为与第一行中的实际人脸图像对应的虚拟人物模型。

上述内容对本发明的人脸运动单元AUs的参数估计方法进行了详细介绍，下面分别对图像生成器和人脸特征提取器的训练过程进行描述。

本发明实施例给出了训练图像生成器的步骤的实现方式，包括(A)和(B)的过程：

(A)获取第一训练样本。

其中，第一训练样本包括：随机输入至游戏渲染器中的人脸AUs的参数值，以及游戏渲染器根据人脸AUs的参数值渲染得到的虚拟人脸图像样本，人脸AUs的参数值包括：多维的头部角度参数值、多维的人脸表情参数值和多维的人脸身份参数值，每一维的人脸AUs的参数值能够决定渲染得到的虚拟人脸图像样本的局部区域。

现有技术中，用于人脸AUs的参数估计方法有基于人脸关键点拟合的方法(实际为半监督的方法)，参考图5，过程为：人脸图像I经过人脸关键点检测后，得到人脸图像I的关键点s_2d；获取3DMM模型(3DMM模型是一种描述3D人脸空间的方法，通过人脸扫描的3D模型线性组合而成，其中，每一维参数都有多种含义，是不可解释的)，然后，根据弱透视映射把3DMM模型中的3D人脸模型对应的三维人脸关键点映射到平面上，得到二维平面上的关键点s_2dt，进而，计算二维平面上的关键点s_2dt和人脸图像I的关键点s_2d的损失，根据计算得到的损失调整3DMM模型的参数，调整后，再进行弱透视映射，得到二维平面上的关键点s_2dt，再计算损失，如此进行多次参数调整，直至最终计算得到的损失满足条件为止，满足条件时3DMM模型的参数就作为人脸AUs的参数值。

一方面，上述方法需要依赖检测的人脸关键点的准确性，无法表达与关键点无关的表情；另一方面，3DMM模型中的每一维参数都有多种含义，是不可解释的。

本发明实施例在训练图像生成器时，第一训练样本包括：随机输入至游戏渲染器中的人脸AUs的参数值，以及游戏渲染器根据人脸AUs的参数值渲染得到的虚拟人脸图像样本。上述每个维度的人脸AUs的参数值都服从均匀分布下随机产生，通过把这些人脸AUs的参数值写入游戏渲染器渲染出对应的虚拟人脸图像样本，也就是，改变人脸AUs的参数值中的任一维度数值，对应的就会产生一个局部发生改变的虚拟人脸图像样本，即每一维的人脸AUs的参数值能够决定渲染得到的虚拟人脸图像样本的局部区域，因此，在通过第一训练样本对原始图像生成器进行训练后，当人脸AUs的当前参数值中的任何一个维度的参数变化时，都能改变生成的虚拟的人脸基础图像的局部特征，也就是是基于可解释的每一维参数训练得到的图像生成器。

另外，为了确保训练后的图像生成器所生成的人脸图像与脸部模板对齐，更加便于后续人脸特征提取器提取其中的特征，所以，在通过第一训练样本和第一损失函数对原始图像生成器进行训练之前，该方法还包括：对第一训练样本中的虚拟人脸图像样本进行人脸对齐处理，得到对齐处理后的第一训练样本。

(B)通过对齐处理后的第一训练样本和第一损失函数对原始图像生成器进行训练，得到图像生成器。

其中，第一损失函数包括：L_G＝L_app+wL_per；其中，L_G表示图像生成器的损失，L_app表示渲染得到的虚拟人脸图像样本和生成的人脸图像的各对应像素之间的距离和，L_per表示视觉几何群网络提取的渲染得到的虚拟人脸图像样本的特征与生成的人脸图像的特征之间的距离，w表示预设权重。

下面结合图6再对图像生成器的训练过程进行介绍：

上述图像生成器是由一系列反卷积层构成的卷积神经网络组成，表达式为y＝G(x)，输入为：人脸AUs的参数值x＝[h,α_exp,α_id](具体可以参考上述对人脸AUs的参数的介绍，从中可知，本发明中的人脸AUs的参数值更加丰富)，输出为生成的图像

图像大小可以为512*512，进而，计算生成的图像

与游戏渲染器根据上述人脸AUs的参数值渲染得到的虚拟人脸图像样本的各对应像素之间的距离和，作为外观损失L_app(采用L1损失函数计算生成的图像

与渲染得到的虚拟人脸图像样本的各对应像素之间的距离和)；另外，为了使得生成的图像的局部更加真实，还引入了感知损失函数L_per。参考图6，感知损失函数L_per的应用过程为：通过视觉几何群网络(VGG16网络)分别提取生成的图像

和对应的渲染得到的虚拟人脸图像样本的特征，进而计算生成的图像的特征与渲染得到的虚拟人脸图像样本的特征之间的距离，作为感知损失L_per(采用L2损失函数计算上述两个特征之间的距离)。将外观损失L_app和感知损失L_per的加权和作为图像生成器的损失，进而通过图像生成器的损失对图像生成器的参数进行调整，直到图像生成器的损失达到预设阈值，完成对图像生成器的训练。

本发明实施例给出了训练人脸特征提取器的步骤的实现方式，包括(a)和(b)的过程：

(a)获取第二训练样本；第二训练样本包括：ImageNet数据集中的数据；

(b)通过第二训练样本和交叉熵损失函数对原始人脸特征提取器进行训练，得到人脸特征提取器。

在本发明实施例中，利用人脸语义分割网络作为人脸特征提取器。参考图7，该网络输入为一张人脸图像I∈R^H×W×11，输出是对人脸图像的实际标签特征。人脸特征提取器模型的参数由ImageNet数据集预训练得到。网络结构是一个编码器和解码器组合的网络结构。分割网络的损失函数为交叉熵损失函数：其中，

p_c表示预测为c类别的概率，y_c表示为c类别的真值。

现有技术中，用于人脸AUs的参数估计方法还包括：有监督的方法，该方法需要收集大量准确的标注数据，但是，目前人脸AUs标注数据缺失，并且人脸AUs标注数据的获取难度大(需要专家通过人工标注的方式得到)，所以，一般都是基于某个数据集(例如，CK+数据集，为带有AUs标签的数据库)对原始模型进行训练，得到人脸AUs的预测模型，但是，由于数据集的数据量很少并且都是正脸图像，这样，在通过训练得到的人脸AUs的预测模型对其它数据集或者自然界中的数据进行人脸AUs的预测时，预测效果差，即训练得到的人脸AUs的预测模型泛化能力差，无法在实际中应用。

而本发明实施例中的人脸AUs的参数估计方法中，在对图像生成器和人脸特征提取器进行训练时，不需要进行人脸AUs数据的标注，省时；训练时的人脸AUs的参数丰富，那么，相应的估计得到的人脸AUs的参数值也更加丰富；还能得到与纹理特征相关的表情，准确性好。

综上，本发明的人脸AUs的参数估计方法可以输入一张人脸图像，得到其对应的人脸AUs的参数值，进一步通过输出的人脸AUs的参数值渲染出对应的游戏人物模型。该方法将人脸AUs的参数作为自变量，生成的人脸图像作为因变量。通过优化人脸AUs的参数，使得生成的人脸图像和输入的人脸图像在特征上越来越接近，进而就能得到输入的人脸图像所对应的人脸AUs的参数值。

本发明实施例还提供了一种人脸运动单元AUs的参数估计装置，该参数估计装置可以应用于配置有图像生成器和人脸特征提取器的设备，该装置主要用于执行本发明实施例上述内容所提供的人脸运动单元AUs的参数估计方法，以下对本发明实施例提供的人脸运动单元AUs的参数估计装置做具体介绍。

图8是根据本发明实施例的一种人脸运动单元AUs的参数估计装置的示意图，如图8所示，该人脸运动单元AUs的参数估计装置主要包括：特征提取单元10和循环操作单元20，其中：

特征提取单元，用于通过人脸特征提取器提取实际人脸图像的实际标签特征，其中，实际标签特征用于表示实际人脸图像中各个像素点所属的类别对应的特征；

循环操作单元，用于以预设的人脸AUs的初始参数值作为人脸AUs的当前参数值，对于人脸AUs的当前参数值，执行以下操作：

将人脸AUs的当前参数值输入图像生成器，得到虚拟的人脸基础图像；

通过人脸特征提取器提取人脸基础图像的虚拟标签特征；虚拟标签特征用于表示人脸基础图像中各个像素点所属的类别对应的特征；

比较虚拟标签特征和实际标签特征，根据比较结果调整人脸AUs的当前参数值，重复操作的上述步骤，直到满足预设终止条件为止；

将满足预设终止条件时的人脸AUs的当前参数值，确定为实际人脸图像对应的人脸AUs的参数值。

在本发明实施例提供的上述人脸运动单元AUs的参数估计装置中，为了得到实际人脸图像的人脸AUs的参数值，先提取该实际人脸图像的实际标签特征，再基于预设的人脸AUs的初始参数值得到虚拟的人脸基础图像和该人脸基础图像的虚拟标签特征，基于虚拟标签特征与上述实际标签特征的比较结果，调整人脸AUs的当前参数值，进而调整这个虚拟的人脸基础图像的虚拟标签特征，直到满足预设终止条件为止，将最后一次调整得到的人脸AUs的当前参数值作为实际人脸图像对应的人脸AUs的参数值。上述参数估计过程中，人脸特征提取器提取人脸图像(包括实际人脸图像和人脸基础图像)的标签特征，该标签特征表示人脸图像中各个像素点所属的类别对应的特征，例如：图像的深度特征(人脸的关键点特征和人脸的纹理特征)，这样，在对提取得到的虚拟标签特征和实际标签特征进行比较后，得到的比较结果的信息更加丰富，进而根据丰富的比较结果的信息对人脸AUs的当前参数值进行调整时，使得最终调整得到的人脸AUs的当前参数值更加准确，也就是最后估计得到的实际人脸图像对应的人脸AUs的参数值更加准确，缓解了现有的人脸AUs的参数估计方法准确性差的技术问题。

上述循环操作单元还用于：通过预设损失函数计算虚拟标签特征和实际标签特征之间的特征距离；基于特征距离调整人脸AUs的当前参数值。

上述循环操作单元还用于：通过预设损失函数L_E(x,y_r)＝||W(G(x))F(G(x))-W(y_r)F(y_r)||₁计算虚拟标签特征和实际标签特征之间的特征距离；L_E(x,y_r)表示虚拟标签特征和实际标签特征之间的特征距离，x表示人脸AUs的当前参数值，G(x)表示生成的人脸基础图像，W(G(x))表示生成的人脸基础图像中，每个像素点所属的类别的概率，F(G(x))表示人脸特征提取器提取的人脸基础图像的前M层特征，y_r表示实际人脸图像，W(y_r)表示实际人脸图像中，每个像素点所属的类别的概率，F(y_r)表示人脸特征提取器提取的实际人脸图像的前M层特征，M为预设值。

上述装置还包括：人脸对齐处理单元，用于对实际人脸图像进行人脸对齐处理，得到对齐后的实际人脸图像，进而通过人脸特征提取器提取对齐后的实际人脸图像的实际标签特征。

上述人脸对齐处理单元还用于：对实际人脸图像进行特征点检测，得到实际人脸图像中的脸部特征点；通过脸部特征点和脸部模板中的特征点计算仿射矩阵；脸部模板为预先设置的包含脸部各个器官的特征点的模板；通过仿射矩阵对实际人脸图像中的各个像素点进行仿射变换，得到对齐后的实际人脸图像。

上述预设终止条件包括：操作达到预设操作次数。

上述预设终止条件包括：特征距离不大于预设阈值。

上述装置还包括：驱动单元，用于通过实际人脸图像对应的人脸AUs的参数值驱动虚拟人物模型，得到与实际人脸图像具有相同表情的虚拟人物模型。

上述装置还用于：获取第一训练样本；第一训练样本包括：随机输入至游戏渲染器中的人脸AUs的参数值，以及游戏渲染器根据人脸AUs的参数值渲染得到的虚拟人脸图像样本，人脸AUs的参数值包括：多维的头部角度参数值、多维的人脸表情参数值和多维的人脸身份参数值，每一维的人脸AUs的参数值能够决定渲染得到的虚拟人脸图像样本的局部区域；通过第一训练样本和第一损失函数对原始图像生成器进行训练，得到图像生成器。

上述装置还用于：对第一训练样本中的虚拟人脸图像样本进行人脸对齐处理，得到对齐处理后的第一训练样本，进而通过对齐处理后的第一训练样本和第一损失函数对原始图像生成器进行训练，得到图像生成器。

上述第一损失函数包括：L_G＝L_app+wL_per；L_G表示图像生成器的损失，L_app表示渲染得到的虚拟人脸图像样本和生成的人脸图像的各对应像素之间的距离和，L_per表示视觉几何群网络提取的渲染得到的虚拟人脸图像样本的特征与生成的人脸图像的特征之间的距离，w表示预设权重。

上述装置还用于：获取第二训练样本；第二训练样本包括：ImageNet数据集中的数据；通过第二训练样本和交叉熵损失函数对原始人脸特征提取器进行训练，得到人脸特征提取器。

本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

本发明实施例还提供了一种电子设备，用于运行上述人脸运动单元AUs的参数估计方法；参见图9所示，该电子设备包括存储器101和处理器102，其中，存储器101用于存储一条或多条计算机指令，一条或多条计算机指令被处理器102执行，以实现上述人脸运动单元AUs的参数估计方法。

进一步地，图9所示的电子设备还包括总线103和通信接口104，处理器102、通信接口104和存储器101通过总线103连接。

其中，存储器101可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口104(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。总线103可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

处理器102可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器102中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器102可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processor，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器101，处理器102读取存储器101中的信息，结合其硬件完成前述实施例的方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有机器可执行指令，该机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现上述人脸运动单元AUs的参数估计方法，具体实现可参见方法实施例，在此不再赘述。

本发明实施例所提供的人脸运动单元AUs的参数估计方法、装置和电子设备的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和/或电子设备的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种人脸运动单元AUs的参数估计方法，其特征在于，包括：

通过人脸特征提取器提取实际人脸图像的实际标签特征；所述实际标签特征用于表示所述实际人脸图像中各个像素点所属的类别对应的特征，所述实际人脸图像中各个像素点所属的类别对应的特征包括：所述实际人脸图像中各个像素点的类别、各类别的概率，以及所述人脸特征提取器提取的所述实际人脸图像的前M层特征；

通过所述人脸特征提取器提取所述人脸基础图像的虚拟标签特征；所述虚拟标签特征用于表示所述人脸基础图像中各个像素点所属的类别对应的特征，所述人脸基础图像中各个像素点所属的类别对应的特征包括：所述人脸基础图像中各个像素点的类别、各类别的概率，以及所述人脸特征提取器提取的所述人脸基础图像的前M层特征；

2.根据权利要求1所述的方法，其特征在于，比较所述虚拟标签特征和所述实际标签特征的步骤包括：

通过预设损失函数计算所述虚拟标签特征和所述实际标签特征之间的特征距离；

基于所述特征距离调整所述人脸AUs的当前参数值。

3.根据权利要求2所述的方法，其特征在于，通过预设损失函数计算所述虚拟标签特征和所述实际标签特征之间的特征距离的步骤包括：

通过预设损失函数L_E(x,y_r)＝||W(G(x))F(G(x))-W(y_r)F(y_r)||₁计算所述虚拟标签特征和所述实际标签特征之间的特征距离；L_E(x,y_r)表示所述虚拟标签特征和所述实际标签特征之间的特征距离，x表示所述人脸AUs的当前参数值，G(x)表示生成的所述人脸基础图像，W(G(x))表示生成的所述人脸基础图像中，每个像素点所属的类别的概率，F(G(x))表示所述人脸特征提取器提取的所述人脸基础图像的前M层特征，y_r表示所述实际人脸图像，W(y_r)表示所述实际人脸图像中，每个像素点所属的类别的概率，F(y_r)表示所述人脸特征提取器提取的所述实际人脸图像的前M层特征，M为预设值。

4.根据权利要求1所述的方法，其特征在于，在通过人脸特征提取器提取实际人脸图像的实际标签特征之前，所述方法还包括：

对所述实际人脸图像进行人脸对齐处理，得到对齐后的实际人脸图像，进而通过所述人脸特征提取器提取所述对齐后的实际人脸图像的实际标签特征。

5.根据权利要求4所述的方法，其特征在于，对所述实际人脸图像进行人脸对齐处理的步骤包括：

对所述实际人脸图像进行特征点检测，得到所述实际人脸图像中的脸部特征点；

通过所述脸部特征点和脸部模板中的特征点计算仿射矩阵；所述脸部模板为预先设置的包含脸部各个器官的特征点的模板；

通过所述仿射矩阵对所述实际人脸图像中的各个像素点进行仿射变换，得到所述对齐后的实际人脸图像。

6.根据权利要求1所述的方法，其特征在于，所述预设终止条件包括：所述操作达到预设操作次数。

7.根据权利要求2所述的方法，其特征在于，所述预设终止条件包括：所述特征距离不大于预设阈值。

8.根据权利要求1所述的方法，其特征在于，在将满足所述预设终止条件时的所述人脸AUs的当前参数值，确定为所述实际人脸图像对应的人脸AUs的参数值之后，所述方法还包括：

通过所述实际人脸图像对应的人脸AUs的参数值驱动虚拟人物模型，得到与所述实际人脸图像具有相同表情的虚拟人物模型。

9.根据权利要求1所述的方法，其特征在于，训练所述图像生成器的步骤包括：

获取第一训练样本；所述第一训练样本包括：随机输入至游戏渲染器中的人脸AUs的参数值，以及所述游戏渲染器根据所述人脸AUs的参数值渲染得到的虚拟人脸图像样本，所述人脸AUs的参数值包括：多维的头部角度参数值、多维的人脸表情参数值和多维的人脸身份参数值，每一维的人脸AUs的参数值能够决定渲染得到的虚拟人脸图像样本的局部区域；

通过所述第一训练样本和第一损失函数对原始图像生成器进行训练，得到所述图像生成器。

10.根据权利要求9所述的方法，其特征在于，在获取第一训练样本之后，在通过所述第一训练样本和第一损失函数对原始图像生成器进行训练之前，所述方法还包括：

对所述第一训练样本中的虚拟人脸图像样本进行人脸对齐处理，得到对齐处理后的所述第一训练样本，进而通过对齐处理后的所述第一训练样本和所述第一损失函数对所述原始图像生成器进行训练，得到所述图像生成器。

11.根据权利要求9所述的方法，其特征在于，

所述第一损失函数包括：L_G＝L_app+wL_per；L_G表示所述图像生成器的损失，L_app表示渲染得到的所述虚拟人脸图像样本和生成的人脸图像的各对应像素之间的距离和，L_per表示视觉几何群网络提取的渲染得到的所述虚拟人脸图像样本的特征与生成的人脸图像的特征之间的距离，w表示预设权重。

12.根据权利要求1所述的方法，其特征在于，训练所述人脸特征提取器的步骤包括：

获取第二训练样本；所述第二训练样本包括：ImageNet数据集中的数据；

通过所述第二训练样本和交叉熵损失函数对原始人脸特征提取器进行训练，得到所述人脸特征提取器。

13.一种人脸运动单元AUs的参数估计装置，其特征在于，包括：

特征提取单元，用于通过人脸特征提取器提取实际人脸图像的实际标签特征；所述实际标签特征用于表示所述实际人脸图像中各个像素点所属的类别对应的特征，所述实际人脸图像中各个像素点所属的类别对应的特征包括：所述实际人脸图像中各个像素点的类别、各类别的概率，以及所述人脸特征提取器提取的所述实际人脸图像的前M层特征；

14.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现权利要求1至12任一项所述的人脸运动单元AUs的参数估计方法的步骤。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现权利要求1至12任一项所述的人脸运动单元AUs的参数估计方法的步骤。