CN113327212A

CN113327212A - 人脸驱动、模型的训练方法、装置、电子设备及存储介质

Info

Publication number: CN113327212A
Application number: CN202110883457.1A
Authority: CN
Inventors: 李天琦
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2021-08-03
Filing date: 2021-08-03
Publication date: 2021-08-31
Anticipated expiration: 2041-08-03
Also published as: CN113327212B

Abstract

本申请实施例提供了一种人脸驱动、模型的训练方法、装置、电子设备及存储介质，该方法包括：获取第一对象的第一人脸图像和第一对象的第二人脸图像；提取第一人脸图像中的第一表情信息；将第一表情信息和第二人脸图像输入预设人脸驱动模型，得到第一对象从第二表情信息变换为第一表情信息的第一预测人脸图像；根据第一预测人脸图像和第一人脸图像，以及第一预测人脸图像中的预设五官和第一人脸图像中的预设五官，分别确定第一损失值和第二损失值；若根据第一损失值和第二损失值确定预设人脸驱动模型收敛，则结束对预设人脸驱动模型的训练。应用本申请实施例提供的技术方案，能够改善人脸驱动中的面部运动细节。

Description

人脸驱动、模型的训练方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机视觉技术领域，特别是涉及一种人脸驱动、模型的训练方法、装置、电子设备及存储介质。

背景技术

随着计算机视觉技术的不断发展，人脸驱动技术被广泛应用新闻播报、娱乐直播、远程通讯等场景中，这在降低人力成本的同时，也为人们的生活提供极大的便利。

然而，相关技术中，利用人脸驱动方法生成的人脸图像中，缺乏面部运动细节。

发明内容

本申请实施例的目的在于提供一种人脸驱动、模型的训练方法、装置、电子设备及存储介质，以改善人脸驱动中的面部运动细节。具体技术方案如下：

在本申请实施的第一方面，首先提供了一种人脸驱动模型的训练方法，所述方法包括：

获取第一对象的第一人脸图像和所述第一对象的第二人脸图像，所述第一人脸图像包括所述第一对象的第一表情信息，所述第二人脸图像包括所述第一对象的第二表情信息；

提取所述第一人脸图像中的所述第一表情信息；

将所述第一表情信息和所述第二人脸图像输入预设人脸驱动模型，得到所述第一对象从所述第二表情信息变换为所述第一表情信息的第一预测人脸图像；

根据所述第一预测人脸图像和所述第一人脸图像，以及所述第一预测人脸图像中的预设五官和所述第一人脸图像中的预设五官，分别确定第一损失值和第二损失值；

若根据所述第一损失值和第二损失值确定所述预设人脸驱动模型收敛，则结束对所述预设人脸驱动模型的训练。

可选的，所述预设五官包括眼睛；

所述提取所述第一人脸图像中的所述第一表情信息的步骤，包括：

提取所述第一人脸图像中的五官关键点，所述五官关键点包括眼睛关键点；

利用所述眼睛关键点，确定眼球中心点；

其中，所述五官关键点和所述眼球中心点构成所述第一人脸图像中的所述第一表情信息。

可选的，所述利用所述眼睛关键点，确定眼球中心点的步骤，包括：

利用所述眼睛关键点，确定所述眼睛是否处于睁眼状态；

若是，则确定所述眼睛中目标区域的中心点为眼球中心点，所述目标区域为像素值低于预设像素阈值的区域；

若否，则将所述眼睛的中心点作为眼球中心点。

可选的，所述利用所述眼睛关键点，确定所述眼睛是否处于睁眼状态的步骤，包括：

利用所述眼睛关键点，确定所述眼睛的高度和宽度的比例，得到所述眼睛的睁眼比例；

判断所述睁眼比例是否小于预设比例阈值；

若是，则确定所述眼睛处于闭眼状态；

若否，则确定所述眼睛处于睁眼状态。

可选的，所述确定所述眼睛中目标区域的中心点为眼球中心点的步骤，包括：

对所述第一人脸图像进行灰度化处理，得到灰度人脸图像；

确定所述灰度人脸图像的眼睛中目标区域的中心点为眼球中心点。

可选的，所述确定所述灰度人脸图像的眼睛中目标区域的中心点为眼球中心点的步骤，包括：

对所述灰度人脸图像进行二值化处理，得到二值化人脸图像；以所述二值化人脸图像中黑色区域作为目标区域，计算所述目标区域的中心点为眼球中心点；或者，

计算最大像素值与每个目标像素点的像素值的差值，以及每个目标像素点对应的差值与该目标像素点的坐标的乘积值，所述目标像素点为所述灰度人脸图像的眼睛中的像素点；计算第一和值与第二和值的比值，得到眼球中心点，其中，第一和值为每个目标像素点对应的乘积值的和值，第二和值为每个目标像素点对应的差值的和值。

可选的，所述方法还包括：

若根据所述第一损失值和第二损失值确定所述预设人脸驱动模型未收敛，则调整所述预设人脸驱动模型的参数，返回执行所述将所述第一表情信息和所述第二人脸图像输入预设人脸驱动模型，得到所述第一对象从所述第二表情信息变换为所述第一表情信息的第一预测人脸图像的步骤。

在本申请实施的第二方面，还提供了一种人脸驱动方法，所述方法包括：

获取第二对象的第三人脸图像和第一对象的第四人脸图像；所述第三人脸图像包括所述第二对象的第三表情信息，所述第四人脸图像包括所述第一对象的第四表情信息；

提取所述第三人脸图像中的所述第三表情信息；

将所述第三表情信息和所述第四人脸图像输入预设人脸驱动模型，得到所述第一对象从所述第四表情信息变换为所述第三表情信息的第二预测人脸图像；

其中，所述预设人脸驱动模型为根据第一方面任一所述的方法得到的人脸驱动模型。

在本申请实施的第三方面，还提供了一种人脸驱动模型的训练装置，所述装置包括：

第一获取单元，用于获取第一对象的第一人脸图像和所述第一对象的第二人脸图像，所述第一人脸图像包括所述第一对象的第一表情信息，所述第二人脸图像包括所述第一对象的第二表情信息；

第一提取单元，用于提取所述第一人脸图像中的所述第一表情信息；

第一预测单元，用于将所述第一表情信息和所述第二人脸图像输入预设人脸驱动模型，得到所述第一对象从所述第二表情信息变换为所述第一表情信息的第一预测人脸图像；

确定单元，用于根据所述第一预测人脸图像和所述第一人脸图像，以及所述第一预测人脸图像中的预设五官和所述第一人脸图像中的预设五官，分别确定第一损失值和第二损失值；

训练单元，用于若根据所述第一损失值和第二损失值确定所述预设人脸驱动模型收敛，则结束对所述预设人脸驱动模型的训练。

可选的，所述预设五官包括眼睛；

所述第一提取单元，具体用于：

利用所述眼睛关键点，确定眼球中心点；

可选的，所述第一提取单元，具体用于：

利用所述眼睛关键点，确定所述眼睛是否处于睁眼状态；

若否，则将所述眼睛的中心点作为眼球中心点。

可选的，所述第一提取单元，具体用于：

判断所述睁眼比例是否小于预设比例阈值；

若是，则确定所述眼睛处于闭眼状态；

若否，则确定所述眼睛处于睁眼状态。

可选的，所述第一提取单元，具体用于：

对所述第一人脸图像进行灰度化处理，得到灰度人脸图像；

可选的，所述第一提取单元，具体用于：

可选的，所述训练单元，还用于：

在本申请实施的第四方面，还提供了一种人脸驱动装置，所述装置包括：

第二获取单元，用于获取第二对象的第三人脸图像和第一对象的第四人脸图像；所述第三人脸图像包括所述第二对象的第三表情信息，所述第四人脸图像包括所述第一对象的第四表情信息；

第二提取单元，用于提取所述第三人脸图像中的所述第三表情信息；

第二预测单元，用于将所述第三表情信息和所述第四人脸图像输入预设人脸驱动模型，得到所述第一对象从所述第四表情信息变换为所述第三表情信息的第二预测人脸图像；

其中，所述预设人脸驱动模型为根据第三方面提供的任一所述的装置得到的人脸驱动模型。

在本申请实施的又一方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面提供的任一所述的人脸驱动模型的训练方法。

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第二方面提供的任一所述的人脸驱动方法。

在本申请实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面提供的任一所述的人脸驱动模型的训练方法。

在本申请实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第二方面提供的任一所述的人脸驱动方法。

在本申请实施的又一方面，还提供了一种计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面提供的任一所述的人脸驱动模型的训练方法。

在本申请实施的又一方面，还提供了一种计算机程序产品，当其在计算机上运行时，使得计算机执行上述第二方面提供的任一所述的人脸驱动方法。

本申请实施例提供的提供技术方案中，基于整张预测人脸图像和整张人脸图像，确定人脸图像整体的损失值，同时基于预测人脸图像和整张人脸图像中预设五官，确定预设五官的损失值，利用二种损失值，确定预设人脸驱动模型是否收敛，进而实现对预设人脸驱动模型进行训练。由于本申请实施例中训练预设人脸驱动模型时，即考虑了整张人脸区域的损失值，也考虑了预设五官的损失值，避免了因预设五官占整个人脸区域的比例较小，导致预设五官的损失值被整张人脸图像的损失值稀释的问题，因此，提高了预设人脸驱动模型预测的人脸图像中预设五官细节描述的准确度，改善了人脸驱动中的面部运动细节。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的人脸驱动模型的训练方法的第一种流程示意图。

图2为本申请实施例提供的人脸驱动模型的训练方法的第二种流程示意图。

图3为本申请实施例提供的人脸驱动模型的训练方法的第三种流程示意图。

图4为图3中步骤S122的一种细化示意图。

图5为本申请实施例提供的眼睛关键点的一种示意图。

图6为图4中步骤S1222的一种细化示意图。

图7为本申请实施例提供的眼球检测模块的一种示意图。

图8为本申请实施例提供的眼球检测模块的处理流程的一种示意图。

图9为本申请实施例提供的人脸驱动模型的训练方法的第四种流程示意图。

图10为本申请实施例提供的人脸驱动方法的一种流程示意图。

图11为本申请实施例提供的人脸驱动模型的训练装置的一种结构示意图。

图12为本申请实施例提供的人脸驱动装置的一种结构示意图。

图13为本申请实施例提供的电子设备的第一种结构示意图。

图14为本申请实施例提供的电子设备的第二种结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员基于本申请所获得的所有其他实施例，都属于本申请保护的范围。

然而，相关技术中，利用人脸驱动方法生成的人脸图像中，缺乏面部运动细节，主要表现为：眼球不会动；对于张嘴动作，牙齿比较模糊等。导致这一问题的主要原因在于：

一方面，人脸驱动模型缺乏有针对性的运动信息的输入。

以相关技术中，基于五官关键点的人脸驱动方法为例，该人脸驱动方法中，作为人脸驱动模型输入的五官关键点，或没有眼球的关键点，或眼球的关键点不够准确，这导致人脸驱动模型最终无法有效驱动眼球。

另一方面，在训练人脸驱动模型时缺乏对运动细节区域的有效约束。

嘴巴和眼睛的运动，对于整体人脸驱动的效果至关重要。相关人脸驱动方法中，在训练人脸驱动模型时，对整个人脸区域计算损失值。但嘴巴和眼睛占整个人脸区域的比例很小，这会导致嘴巴和眼睛的损失被整个人脸区域的损失稀释，使得在训练人脸驱动模型时无法对细节区域进行有效的约束。

为提高人脸驱动模型预测得到的人脸图像中细节描述的准确度，改善人脸驱动中的面部运动细节，本申请实施例提供了一种人脸驱动模型的训练方法，如图1所示。该方法包括如下步骤：

步骤S11，获取第一对象的第一人脸图像和第一对象的第二人脸图像，第一人脸图像包括第一对象的第一表情信息，第二人脸图像包括第一对象的第二表情信息。

步骤S12，提取第一人脸图像中的第一表情信息。

步骤S13，将第一表情信息和第二人脸图像输入预设人脸驱动模型，得到第一对象从第二表情信息变换为第一表情信息的第一预测人脸图像。

步骤S14，根据第一预测人脸图像和第一人脸图像，以及第一预测人脸图像中的预设五官和第一人脸图像中的预设五官，分别确定第一损失值和第二损失值。

步骤S15，若根据第一损失值和第二损失值确定预设人脸驱动模型收敛，则结束对预设人脸驱动模型的训练。

本申请实施例提供的技术方案中，基于整张预测人脸图像和整张人脸图像，确定人脸图像整体的损失值，同时基于预测人脸图像和整张人脸图像中预设五官，确定预设五官的损失值，利用二种损失值，确定预设人脸驱动模型是否收敛，进而实现对预设人脸驱动模型进行训练。由于本申请实施例中训练预设人脸驱动模型时，即考虑了整张人脸图像的损失值，也考虑了预设五官的损失值，避免了因预设五官占整个人脸区域的比例较小，导致预设五官的损失值被整张人脸图像的损失值稀释的问题，因此，提高了预设人脸驱动模型预测的人脸图像中预设五官细节描述的准确度，改善了人脸驱动中的面部运动细节。

下面具体对上述人脸驱动模型的训练方法进行说明。上述人脸驱动模型的训练方法可以应用于服务器、个人计算机或其他具有数据处理功能的电子设备。为便于理解，下面以电子设备为执行主体进行说明，不起限定作用。

上述步骤S11中，需要驱动的人脸所属对象的数量可以为一个或多个，第一对象为上述需要驱动的人脸所属的任一对象，这里仅以第一对象为例进行说明，并不起限定作用。当需要训练得到能够对第一对象的人脸进行驱动的人脸驱动模型时，获取第一对象的两张人脸图像，分别为第一人脸图像和第二人脸图像，其中，第一人脸图像包括第一对象的第一表情信息，第二人脸图像包括第一对象的第二表情信息。

在本申请实施例中，第一人脸图像和第二人脸图像可以为用户输入电子设备，也可以为电子设备中预先存储的。

为了提高训练好的预设人脸驱动模型进行人脸驱动准确性，本申请实施例中，电子设备可以获取多组第一对象的人脸图像，每组人脸图像中包括两张第一对象的人脸图像，且这两张人脸图像包括的表情信息不同。

获取人脸图像的组数越多，训练得到的预设人脸驱动模型进行人脸驱动的准确性越高，对电子设备的性能要求也越高。具体获取人脸图像的组数可以根据实际需求进行设定。

上述步骤S12中，第一表情信息可以由多个五官关键点构成，也可以由纹理信息构成，还可以由其他信息构成，对此不进行限定。

下面以第一表情信息由多个五官关键点构成为例进行说明。构成第一表情信息的五官关键点的数量可以根据实际需求进行设定。例如，五官关键点的数量可以为68、106或117。若需要精度较高的人脸驱动模型，则五官关键点的数量可以设置为较大的值。若需要较高的训练效率，则五官关键点的数量可以设置为较小的值。

在本申请实施例中，电子设备在获取第一人脸图像和第二人脸图像后，可以提取第一人脸图像中多个点位的五官关键点。由提取到的多个五官关键点构成人脸的第一表情信息。

上述步骤S13中，电子设备中含有预设人脸驱动模型，该预设人脸驱动模型的输入为表情信息和身份信息，输出为与输入的表情信息和身份信息相同的预测人脸图像。

电子设备以第二人脸图像作为人脸的目标身份信息，结合人脸的目标表情信息，即步骤S12中提到的第一表情信息，将人脸的目标表情信息和目标身份信息输入预设人脸驱动模型。预设人脸驱动模型对人脸的目标表情信息和目标身份信息进行处理，输出与输入的目标表情信息和目标身份信息相同的预测人脸图像，即第一对象从第二表情信息变换为第一表情信息的第一预测人脸图像。

上述步骤S14中，预设五官可以包括但不限于眼睛、嘴巴、鼻子或眉毛等。第一人脸图像为真实的第一对象具有第一表情信息的人脸图像，第一预测人脸图像为预测的第一对象具有第一表情信息的人脸图像。电子设备根据第一预测人脸图像和第一人脸图像，可确定整个人脸区域的损失值，即第一损失值。

另外，电子设备从第一预测人脸图像和第一人脸图像中分别提取预设五官。电子设备根据第一预测人脸图像中的预设五官和第一人脸图像中的预设五官，确定预设五官区域的损失值，即第二损失值。

上述步骤S15中，电子设备根据第一损失值和第二损失值，判断预设人脸驱动模型是否收敛。若确定预设人脸驱动模型收敛，则电子设备可确定预设人脸驱动模型精度达到要求，结束对预设人脸驱动模型的训练。

通过本申请实施例，训练预设人脸驱动模型时，单独考虑了预设五官区域的损失，即考虑了人脸图像的局部损失，加强了对细节区域的约束，进而可以有效改善细节效果。例如，预设五官为嘴巴时，可以有效提高嘴巴区域的细节，提高执行张嘴动作时牙齿清晰度。

一个可选的实施例中，电子设备可以预先设置全局损失阈值和局部损失阈值。若第一损失值小于全局损失阈值，第二损失值小于局部损失阈值，则电子设备可确定预设人脸驱动模型收敛。否则，电子设备确定预设人脸驱动模型未收敛。

另一个可选的实施例中，电子设备可以预先设置总损失阈值。若第一损失值和第二损失值的和值小于总损失阈值，则电子设备可确定预设人脸驱动模型收敛。否则，电子设备确定预设人脸驱动模型未收敛。

本申请实施例中，还可以采用其他方式确定预设人脸驱动模型是否收敛。对此不进行限定。

基于上述人脸驱动模型的训练方法，本申请实施例还提供了一种人脸驱动模型的训练方法，如图2所示，该方法还可以包括步骤S16。

步骤S16，若根据第一损失值和第二损失值，确定预设人脸驱动模型未收敛，则调整预设人脸驱动模型的参数，返回执行步骤S13。

在本申请实施例中，电子设备可以在确定人脸驱动模型未收敛的情况下，可以采用反向传播算法或梯度下降算法，调整预设人脸驱动模型的参数，并返回执行步骤S13，将第一表情信息和第二人脸图像输入预设人脸驱动模型，得到第一对象从第二表情信息变换为第一表情信息的第一预测人脸图像。

通过本申请实施例提供的技术方案，可以有效提高预设人脸驱动模型预测的人脸图像的准确性。

实际应用中，眼球运动是人脸驱动技术的关键。在表情信息由五官关键点构成时，为进一步改善人脸驱动中的面部运动细节，在本申请的一个实施例中，预设五官包括眼睛，这种情况下，如图3所示，上述步骤S12可以细化为步骤S121和S122。

步骤S121，提取第一人脸图像中的五官关键点，五官关键点包括眼睛关键点。

步骤S122，利用眼睛关键点，确定眼球中心点；其中，五官关键点和眼球中心点构成第一人脸图像中的第一表情信息。

本申请实施例中，电子设备基于提取的眼睛关键点，确定眼球中心点，并将眼球中心点作为最终的第一表情信息中的关键点。这种情况下，预设人脸驱动模型的输入中就包括了眼球中心点这一关键点。而眼睛的灵活运动，主要体现在眼球的运动上。因此，在训练预设人脸驱动模型时，考虑了眼球中心点这一关键点，可以有效提高后续预设人脸驱动模型对眼睛的运动细节的描述，改善眼睛区域的驱动细节效果。

上述步骤S121中，电子设备中预先设定了需要从人脸图像中提取的五官关键点的数量，即预设数量。电子设备从第一人脸图像中提取预设数量个的五官关键点。该五官关键点可以包括但不限于眼睛区域的关键点（后续简称为眼睛关键点）、眉毛区域的关键点、鼻子区域的关键点、嘴巴区域的关键点和人脸脸型的关键点等。

上述步骤S122中，电子设备可以从五官关键点中获取眼睛关键点，利用眼睛关键点，确定眼球中心点。由五官关键点和眼球中心点构成后续预设人脸驱动模型的输入，即五官关键点和眼球中心点构成第一人脸图像中的第一表情信息。

例如，电子设备提取到117个五官关键点，再确定左眼和右眼的眼球中心点。这样，电子设备最终确定117+2=119个五官关键点。这119个五官关键点为最终预设人脸驱动模型的输入。

在本申请的一个实施例中，如图4所示，该种人脸驱动模型的训练方法中，上述步骤S122可以细化为步骤S1221、S1222和S1223。

步骤S1221，利用眼睛关键点，确定眼睛是否处于睁眼状态。若是，则执行步骤S1222。若否，则执行步骤S1223。

步骤S1222，确定眼睛中目标区域的中心点为眼球中心点，目标区域为像素值低于预设像素阈值的区域。

步骤S1223，将眼睛的中心点作为眼球中心点。

本申请实施例中，电子设备中预先设定了像素的阈值，即预设像素阈值，预设像素阈值可以根据实际需求进行设定。眼睛中，眼球所在区域像素值较低。电子设备利用预设像素阈值，确定出目标区域的中心点，即眼球所在区域的中心点，提高了所确定的眼球中心点的准确性。

通过眼睛的状态，确定眼球中心点，例如，当眼睛处于睁眼状态时，将眼睛中目标区域的中心点为眼球中心点，当眼睛处于闭眼状态时，直接将眼睛的中心点作为眼球中心点，不需要做复杂的计算。可见，通过本申请实施例，在保证准确确定眼球中心点的情况下，提高了确定眼球中心点的效率。

上述步骤S1221中，电子设备利用眼睛关键点，确定眼睛是否处于睁眼状态。

一个可选的实施例中，电子设备可以利用眼睛关键点，确定上眼缘和下眼缘间的距离；进而电子设备利用上眼缘和下眼缘间的距离，确定眼睛是否处于睁眼状态。

例如，当上眼缘和下眼缘间的距离小于等于预设距离阈值时，确定眼睛处于闭眼状态；当上眼缘和下眼缘间的距离大于预设距离阈值时，确定眼睛处于睁眼状态。预设距离阈值可以根据实际需求进行设定。

另一个可选的实施例中，电子设备可以利用眼睛关键点，确定眼睛的高度和宽度的比例，得到眼睛的睁眼比例；进而电子设备利用睁眼比例，确定眼睛是否处于睁眼状态。

例如，电子设备判断睁眼比例是否小于预设比例阈值；若是，则确定眼睛处于闭眼状态；若否，则确定眼睛处于睁眼状态。预设比例阈值可以根据实际需求进行设定。

一个示例中，一只眼睛的眼睛关键点如图5所示，此时，电子设备可以采用如下公式，确定睁眼比例b：

其中，P_i表示眼睛关键点，i=0，..，7；D(P_i，P_j)表示眼睛关键点P_i和P_j间的距离。

上述步骤S1222中，眼睛中目标区域即为眼球所在区域。电子设备检测眼睛中目标区域的中心点，将该目标区域的中心点作为眼球中心点。

一个可选的实施例中，为了提高确定的眼球中心点的准确性，如图6所示，上述步骤S1222具体可以细分步骤S12221和步骤S12222。

步骤S12221，对第一人脸图像进行灰度化处理，得到灰度人脸图像。

步骤S12222，确定灰度人脸图像的眼睛中目标区域的中心点为眼球中心点。

通过对第一人脸图像进行灰度化处理，使得眼睛中眼白区域和眼球区域的区分更为明显，降低了其他颜色的影响，进而提高了确定的眼球中心点的准确性。

本申请实施例中，电子设备可以分别截取第一人脸图像中的左眼区域和右眼区域，得到左眼图像和右眼图像。电子设备对左眼图像和右眼图像分别进行灰度化处理，进而分别确定左眼的眼球中心点和右眼的眼球中心点。本申请实施例中，电子设备不需要对整张人脸图像进行灰度化处理，提高了眼球中心点的确定效率。

一个可选的实施例中，为了提高确定的眼球中心点的准确性，上述步骤S12222具体可以为：对灰度人脸图像进行二值化处理，得到二值化人脸图像；以二值化人脸图像中黑色区域作为目标区域，计算目标区域的中心点为眼球中心点。

本申请实施例中，电子设备对灰度人脸图像进行二值化处理，得到二值化人脸图像。该二值化人脸图像中，眼睛的眼白区域和眼球区域分界明显。电子设备可以准确的确定眼球区域（即黑色区域），并将黑色区域作为目标区域，进而计算目标区域的中心点作为眼球中心点。

一个可选的实施例中，为了提高确定的眼球中心点的准确性，上述步骤S12222具体还可以为：计算最大像素值与每个目标像素点的像素值的差值，以及每个目标像素点对应的差值与该目标像素点的坐标的乘积值，目标像素点为灰度人脸图像的眼睛中的像素点，每个目标像素点对应的差值即为：最大像素值与每个目标像素点的像素值的差值；计算第一和值与第二和值的比值，得到眼球中心点，其中，第一和值为每个目标像素点对应的乘积值的和值，第二和值为每个目标像素点对应的差值的和值，每个目标像素点对应的乘积值即为：最大像素值与每个目标像素点对应的差值与该目标像素点的坐标的乘积值。

例如，像素值取值范围为0-255，即最大像素值为255。电子设备可以利用如下公式，确定眼球中心点I_c：

其中，p为目标像素点的坐标，A(p)为p处像素点的像素值，即目标像素点的像素值。

本申请实施例中，眼白区域的像素值高，眼球区域的像素值低。利用本申请实施例，电子设备可以确定出眼睛区域中像素值的重心位置，并将该重心位置作为眼球中心点I_c。

在本申请的一个实施例中，为提高眼球中心点的确定效率，电子设备中可以设置眼球检测模块，利用眼球检测模块确定眼球中心点。

下面结合图7所示的眼球检测模块和图8所示的眼球检测模块的处理流程，对本申请实施例提供的眼球中心点的确定流程进行详细说明。电子设备将眼睛图像和眼睛区域的关键点输入眼球检测模块，眼球检测模块按照图8所示的流程进行处理，具体可以包括如下步骤：

步骤S81，获取眼睛图像和眼睛区域的关键点。

步骤S82，利用眼睛区域的关键点，确定眼睛的睁眼比例。

步骤S83，利用睁眼比例，确定眼睛是否处于睁眼状态。若否，则执行步骤S84；若是，则执行步骤S85。

步骤S84，将眼睛的中心点作为眼球中心点。

步骤S85，对眼睛图像进行灰度化处理，得到灰度眼睛图像。

步骤S86，确定灰度眼睛图像中目标区域的中心点为眼球中心点。

步骤S87，输出眼球中心点。

上述步骤S81-S87部分的描述相对简单，具体可参见上述图3-6部分的描述，此处不再赘述。

下面结合图9所示的人脸驱动模型的训练流程，对本申请实施例提供的人脸驱动模型的训练流程进行详细说明。该人脸驱动模型的训练流程可以包括：

步骤一，执行五官关键点检测，提取人脸图像A中的五官关键点，如图9中提取了117个点。其中，人脸图像A可以为上述第一人脸图像。

步骤二，执行眼球检测，如上述图7和图8所示的眼球检测模块的处理流程，得到人脸图像A中2个眼球中心点，即左眼的眼球中心点和右眼的眼球中心点。

步骤三，将人脸图像B和步骤一和步骤二得到的关键点输入预设人脸驱动模型，得到预测人脸图像，该预测人脸图像为：预测得到的人脸图像B中的对象做人脸图像A的表情的人脸图像。人脸图像B和人脸图像A中对象相同。

步骤四，将预测人脸图像分别输入眼部判别器和嘴部判别器，得到眼睛区域的局部损失值1和嘴巴区域的局部损失值2。

其中，局部损失值1和局部损失值2统称为第二损失值。

本申请实施例中，电子设备可以利用五官关键点，确定左眼、右眼和嘴巴的区域框和mask（掩膜）。电子设备基于确定的左眼、右眼和嘴巴的区域框和mask，可以从人脸图像A和B中，分别截取出相应的左眼图像、右眼图像和嘴巴图像。

电子设备可以分别将左眼图像和右眼图像输入眼部判别器，得到左眼睛区域的局部损失值，以及右眼睛区域的局部损失值，也可以将合并左眼图像和右眼图像，将合并后的眼睛图像输入眼部判别器，得到整个眼睛区域的局部损失值。

另外，电子设备将嘴巴图像输入嘴部判别器，得到嘴巴图像的局部损失值。

步骤五，基于预测人脸图像和人脸图像B确定全局损失值。

其中，全局损失值可以理解为第一损失值。

本申请实施例中不限定上述步骤四和步骤五的执行顺序。

步骤六，基于局部损失值1、局部损失值2和全局损失值，采用反向传播算法，对预设人脸驱动模型进行训练。

上述图9中仅示出了眼部判别器和嘴部判别器，即在训练预设人脸驱动模时，增加了对眼睛和嘴巴的约束，并不起限定作用。实际应用中，可以根据实际需求设置五官的约束，例如，可以设置眉毛区域判别器或鼻子区域判别器等。

通过上述图1-9任一实施例提供的预设人脸驱动模型的训练方法，训练得到预设人脸驱动模型后，基于该预设人脸驱动模型可以进行人脸驱动处理，如图10所示，该人脸驱动方法可以包括如下步骤：

步骤S101，获取第二对象的第三人脸图像和第一对象的第四人脸图像，第三人脸图像包括第二对象的第三表情信息，第四人脸图像包括第一对象的第四表情信息。

步骤S102，提取第三人脸图像中的第三表情信息。

步骤S103，将第三表情信息和第四人脸图像输入预设人脸驱动模型，得到第一对象从第四表情信息变换为第三表情信息的第二预测人脸图像。

本申请实施例提供的技术方案中，由于训练预设人脸驱动模型时，加强了对细节区域的约束，因此，利用该预设人脸驱动模型进行人脸区域，可以有效改善人脸中细节的驱动效果。

上述步骤S101中，第二对象为提供表情信息的对象。第一对象为提供身份信息的对象，即上述训练预设人脸驱动模型时所采用的对象。

第三人脸图像可以为预先存储的第二对象的视频中的任一帧图像，该视频包括第二对象的人脸。第三人脸图像也可以为实时采集的第二对象的人脸图像，对此不进行限定。

上述步骤S102中，电子设备提取第三人脸图像中的五官关键点，即提取第三表情信息。

上述步骤S103中，电子设备将所提取的第三表情信息和第四人脸图像输入预设人脸驱动模型，得到第一对象的第二预测人脸图像。该第二预测人脸图像中的第一对象的表情信息为预设人脸驱动模型输入的表情信息，即第三表情信息。

以第四人脸图像中的表情信息为表情信息1，第三人脸图像中的表情信息为表情信息2。通过上述步骤S101-S103，实现了第一对象的表情信息从表情信息1变换为表情信息2，实现了人脸驱动。

基于上述人脸驱动模型的训练方法，本申请实施例还提供了一种人脸驱动模型的训练装置，如图11所示，该装置包括：

第一获取单元111，用于获取第一对象的第一人脸图像和第一对象的第二人脸图像，第一人脸图像包括第一对象的第一表情信息，第二人脸图像包括第一对象的第二表情信息；

第一提取单元112，用于提取第一人脸图像中的第一表情信息；

第一预测单元113，用于将第一表情信息和第二人脸图像输入预设人脸驱动模型，得到第一对象从第二表情信息变换为第一表情信息的第一预测人脸图像；

确定单元114，用于根据第一预测人脸图像和第一人脸图像，以及第一预测人脸图像中的预设五官和第一人脸图像中的预设五官，分别确定第一损失值和第二损失值；

训练单元115，用于若根据第一损失值和第二损失值确定预设人脸驱动模型收敛，则结束对预设人脸驱动模型的训练。

一个可选的实施例中，预设五官可以包括眼睛；

第一提取单元112，具体可以用于：

提取第一人脸图像中的五官关键点，五官关键点包括眼睛关键点；

利用眼睛关键点，确定眼球中心点；

其中，五官关键点和眼球中心点构成第一人脸图像中的第一表情信息。

一个可选的实施例中，第一提取单元112，具体可以用于：

利用眼睛关键点，确定眼睛是否处于睁眼状态；

若是，则确定眼睛中目标区域的中心点为眼球中心点，目标区域为像素值低于预设像素阈值的区域；

若否，则将眼睛的中心点作为眼球中心点。

一个可选的实施例中，第一提取单元112，具体可以用于：

利用眼睛关键点，确定眼睛的高度和宽度的比例，得到眼睛的睁眼比例；

判断睁眼比例是否小于预设比例阈值；

若是，则确定眼睛处于闭眼状态；

若否，则确定眼睛处于睁眼状态。

一个可选的实施例中，第一提取单元112，具体可以用于：

对第一人脸图像进行灰度化处理，得到灰度人脸图像；

确定灰度人脸图像的眼睛中目标区域的中心点为眼球中心点。

一个可选的实施例中，第一提取单元112，具体可以用于：

一个可选的实施例中，训练单元115，还可以用于：

若根据第一损失值和第二损失值确定预设人脸驱动模型未收敛，则调整预设人脸驱动模型的参数，返回执行将第一表情信息和第二人脸图像输入预设人脸驱动模型，得到第一对象从第二表情信息变换为第一表情信息的第一预测人脸图像的步骤。

基于上述训练得到的预设人脸驱动模型，本申请实施例还提供了一种人脸驱动装置，如图12所示，该装置还可以包括：

第二获取单元121，用于获取第二对象的第三人脸图像和第一对象的第四人脸图像；第三人脸图像包括第二对象的第三表情信息，第四人脸图像包括第一对象的第四表情信息；

第二提取单元122，用于提取第三人脸图像中的第三表情信息；

第二预测单元123，用于将第三表情信息和第四人脸图像输入预设人脸驱动模型，得到第一对象从第四表情信息变换为第三表情信息的第二预测人脸图像；

其中，预设人脸驱动模型为根据图11提供的人脸驱动模型的训练装置得到的人脸驱动模型。

基于上述人脸驱动模型的训练方法，本申请实施例还提供了一种电子设备，如图13所示，包括处理器131、通信接口132、存储器133和通信总线134，其中，处理器131、通信接口132和存储器133通过通信总线134完成相互间的通信；

存储器133，用于存放计算机程序；

处理器131，用于执行存储器133上所存放的程序时，实现上述图1-9任一所述的人脸驱动模型的训练方法步骤。

基于上述人脸驱动方法，本申请实施例还提供了一种电子设备，如图14所示，包括处理器141、通信接口142、存储器143和通信总线144，其中，处理器141、通信接口142和存储器143通过通信总线144完成相互间的通信；

存储器143，用于存放计算机程序；

处理器141，用于执行存储器143上所存放的程序时，实现上述图10所述的人脸驱动方法步骤。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中任一所述的人脸驱动模型的训练方法步骤。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中所述的人脸驱动方法步骤。

在本申请提供的又一实施例中，还提供了一种计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的人脸驱动模型的训练方法步骤。

在本申请提供的又一实施例中，还提供了一种计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中所述的人脸驱动方法步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线（DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质（例如固态硬盘Solid State Disk (SSD)）等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、存储介质和计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种人脸驱动模型的训练方法，其特征在于，所述方法包括：

提取所述第一人脸图像中的所述第一表情信息；

2.根据权利要求1所述的方法，其特征在于，所述预设五官包括眼睛；

利用所述眼睛关键点，确定眼球中心点；

3.根据权利要求2所述的方法，其特征在于，所述利用所述眼睛关键点，确定眼球中心点的步骤，包括：

利用所述眼睛关键点，确定所述眼睛是否处于睁眼状态；

若否，则将所述眼睛的中心点作为眼球中心点。

4.根据权利要求3所述的方法，其特征在于，所述利用所述眼睛关键点，确定所述眼睛是否处于睁眼状态的步骤，包括：

判断所述睁眼比例是否小于预设比例阈值；

若是，则确定所述眼睛处于闭眼状态；

若否，则确定所述眼睛处于睁眼状态。

5.根据权利要求3所述的方法，其特征在于，所述确定所述眼睛中目标区域的中心点为眼球中心点的步骤，包括：

对所述第一人脸图像进行灰度化处理，得到灰度人脸图像；

6.根据权利要求5所述的方法，其特征在于，所述确定所述灰度人脸图像的眼睛中目标区域的中心点为眼球中心点的步骤，包括：

7.根据权利要求1-6任一项所述的方法，其特征在于，所述方法还包括：

8.一种人脸驱动方法，其特征在于，所述方法包括：

提取所述第三人脸图像中的所述第三表情信息；

其中，所述预设人脸驱动模型为根据权利要求1-7任一所述的方法得到的人脸驱动模型。

9.一种人脸驱动模型的训练装置，其特征在于，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，所述预设五官包括眼睛；

所述第一提取单元，具体用于：

利用所述眼睛关键点，确定眼球中心点；

11.根据权利要求10所述的装置，其特征在于，所述第一提取单元，具体用于：

利用所述眼睛关键点，确定所述眼睛是否处于睁眼状态；

若否，则将所述眼睛的中心点作为眼球中心点。

12.根据权利要求11所述的装置，其特征在于，所述第一提取单元，具体用于：

判断所述睁眼比例是否小于预设比例阈值；

若是，则确定所述眼睛处于闭眼状态；

若否，则确定所述眼睛处于睁眼状态。

13.根据权利要求11所述的装置，其特征在于，所述第一提取单元，具体用于：

对所述第一人脸图像进行灰度化处理，得到灰度人脸图像；

14.根据权利要求13所述的装置，其特征在于，所述第一提取单元，具体用于：

15.根据权利要求9-14任一项所述的装置，其特征在于，所述训练单元，还用于：

16.一种人脸驱动装置，其特征在于，所述装置包括：

其中，所述预设人脸驱动模型为根据权利要求9-15任一所述的装置得到的人脸驱动模型。

17.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1-7任一所述的方法步骤。

18.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求8所述的方法步骤。

19.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求8所述的方法步骤。