CN113705368A

CN113705368A - 人脸表情迁移方法、装置以及计算机设备

Info

Publication number: CN113705368A
Application number: CN202110906728.0A
Authority: CN
Inventors: 申子宜
Original assignee: Shanghai Hode Information Technology Co Ltd
Current assignee: Shanghai Hode Information Technology Co Ltd
Priority date: 2021-08-09
Filing date: 2021-08-09
Publication date: 2021-11-26

Abstract

本申请公开了一种人脸表情迁移方法，该方法包括：获取第一人脸图像和第二人脸图像；将所述第一人脸图像和所述第二人脸图像分别执行三维转换，得到对应的第三人脸图像和第四人脸图像；通过预设的自监督表情重建模型提取所述第四人脸图像的表情数据并融合到所述第三人脸图像，得到新第三人脸图像；对所述新第三人脸图像执行二维转换，得到新第一人脸图像，所述新第一人脸图像的表情与所述第二人脸图像的表情相一致。本申请还提供一种人脸表情迁移装置、计算机设备以及计算机可读存储介质。本申请通过自监督表情重建模型对一个三维人脸图像的表情数据进行提取然后迁移到另一个三维人脸图像，从而实现准确而又快速地实现人脸表情迁移。

Description

人脸表情迁移方法、装置以及计算机设备

技术领域

本申请涉及机器学习技术领域，尤其涉及一种人脸表情迁移方法、装置、计算机设备及计算机可读存储介质。

背景技术

人脸表情迁移技术是指通过某种映射关系，将输入人脸的表情映射到目标人脸上。该技术不仅可以使得用户通过输入人脸来控制目标图片或视频中的人脸表情，还能为人脸识别任务提供数据增强服务。

但由于人脸特征多样性，相同表情且同一程度的人脸数据无法收集，因此，对于人脸表情重建过程，十分耗时，且表情无法准确迁移。

发明内容

有鉴于此，本申请提出一种人脸表情迁移方法、装置、计算机设备及计算机可读存储介质，能够解决上述的人脸表情迁移中的耗时长、精确度低的问题。

首先，为实现上述目的，本申请提供一种人脸表情迁移方法，所述方法包括：

获取第一人脸图像和第二人脸图像；将所述第一人脸图像和所述第二人脸图像分别执行三维转换，得到对应的第三人脸图像和第四人脸图像；通过预设的自监督表情重建模型提取所述第四人脸图像的表情数据并替换到所述第三人脸图像，得到新第三人脸图像；对所述新第三人脸图像执行二维转换，得到新第一人脸图像，所述新第一人脸图像的表情与所述第二人脸图像的表情相一致。

在一个例子中，所述将所述第一人脸图像和所述第二人脸图像分别执行三维转换，得到对应的第三人脸图像和第四人脸图像，包括：通过学习在不进行三维监督的情况下从图像中回归三维人脸形状和表情的方式，分别从所述第一人脸图像和所述第二人脸图像中分别得到所述第三人脸图像和所述第四人脸图像。

在一个例子中，所述自监督表情重建模型是预先将第五人脸图像和第六人脸图像作为训练数据对初始自监督表情重建模型进行训练得到的，其中，所述第五人脸图像和所述第六人脸图像均为三维图像。

在一个例子中，所述将第五人脸图像和第六人脸图像作为训练数据对初始自监督表情重建模型进行训练，包括：将所述第五人脸图像和所述第六人脸图像输入到初始自监督表情重建模型进行训练，输出第七人脸图像和第八人脸图像，其中，所述第七人脸图像包括所述第五人脸图像的人脸且表情与所述第六人脸图像的表情相一致，所述第八人脸图像包括所述第六人脸图像的人脸且表情与所述第五人脸图像的表情相一致；将所述第七人脸图像和所述第八人脸图像输入到初始自监督表情重建模型进行训练，输出第九人脸图像和第十人脸图像，其中，所述第九人脸图像包括所述第五人脸图像的人脸且表情与所述第五人脸图像的表情相一致，所述第十人脸图像包括所述第六人脸图像的人脸且表情与所述第六人脸图像的表情相一致；判断所述第九人脸图像的表情与所述第五人脸的表情的相似度是否超过预设的第一阈值和/或所述第十人脸图像的表情与所述第六人脸的表情的相似度是否超过预设的第二阈值；若所述第九人脸图像的表情与所述第五人脸的表情的相似度超过所述第一阈值和/或所述第十人脸图像的表情与所述第六人脸的表情的相似度超过所第二阈值，将训练后的初始自监督表情重建模型作为自监督表情重建模型输出；否则，重复执行以上训练步骤。

在一个例子中，所述通过预设的自监督表情重建模型提取所述第四人脸图像的表情数据并融合到所述第三人脸图像，得到新第三人脸图像，包括：根据所述自监督表情重建模型中的编码器，对第三和第四人脸图像进行编码，得到编码的第三和第四人脸表情特征；根据所述自监督表情重建模型中的特征提取网络，对第四人脸的表情数据和第四人脸的无表情数据之间的差值进行特征提取，得到差值的特征；通过所述自监督表情重建模型中的解码器，将所述第四人脸差值的特征和第三人脸表情特征进行融合解码，得到新第三人脸表情图像。

在一个例子中，所述编码器和/或所述解码器为所述自监督表情重建模型中的深度学习子网络。

在一个例子中，所述自监督表情重建模型中的深度学习卷积神经网络的公式包括：

其中，A函数表示图模型；l为深度学习卷积神经网络的层，v为人脸图像中的所有标识点，u为v为人脸图像中的普通标识点，a为人脸图像中的关键点，M为动态加权矩阵。

此外，为实现上述目的，本申请还提供一种人脸表情迁移装置，所述装置包括：

获取模块，用于获取第一人脸图像和第二人脸图像；第一转换模块，用于将所述第一人脸图像和所述第二人脸图像分别执行三维转换，得到对应的第三人脸图像和第四人脸图像；重建模块，用于通过预设的自监督表情重建模型提取所述第四人脸图像的表情数据并融合到所述第三人脸图像，得到新第三人脸图像；第二转换模块，用于对所述新第三人脸图像执行二维转换，得到新第一人脸图像，所述新第一人脸图像的表情与所述第二人脸图像的表情相一致。

进一步地，本申请还提出一种计算机设备，所述计算机设备包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述的人脸表情迁移方法的步骤。

进一步地，为实现上述目的，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序可被至少一个处理器执行，以使所述至少一个处理器执行如上述的人脸表情迁移方法的步骤。

相较于现有技术，本申请所提出的人脸表情迁移方法、装置、计算机设备及计算机可读存储介质，能够获取第一人脸图像和第二人脸图像；将所述第一人脸图像和所述第二人脸图像分别执行三维转换，得到对应的第三人脸图像和第四人脸图像；通过预设的自监督表情重建模型提取所述第四人脸图像的表情数据并融合到所述第三人脸图像，得到新第三人脸图像；对所述新第三人脸图像执行二维转换，得到新第一人脸图像，所述新第一人脸图像的表情与所述第二人脸图像的表情相一致。通过自监督表情重建模型对一个三维人脸图像的表情数据进行提取然后迁移到另一个三维人脸图像，从而实现准确而又快速地实现人脸表情迁移。

附图说明

图1是本申请一实施例的应用环境示意图；

图2是本申请人脸表情迁移方法一具体实施例的流程示意图；

图3是本申请一示例性例子中对于自监督表情重建模型的训练过程的流程效果图；

图4是本申请一示例性例子中构建深度学习卷积神经网络对应的人脸标识点的效果图；

图5是本申请一示例性例子中对于视频数据中的人脸图像执行表情迁移的流程效果图；

图6是是本申请人脸表情迁移装置一实施例的程序模块示意图；

图7是本申请计算机设备一可选的硬件架构的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本申请中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

目前，实现人脸表情迁移的技术主要有几种：对表情源的人脸图像中的人脸的各网格进行仿射参数估计，并直接赋予到后台3D(3-Dimensions，三维)目标人脸模版，基于仿射参数对其他局部网格进行仿射变换，实现形变操作，最终达到整体人脸结构化信息空间变换的目的；此类算法需要进行逐网格的参数估计及重建操作，十分耗时。或者，分别利用解耦模型，对源3D人脸及目标人脸的表情信息进行降维估计，直接交换二者表情信息，再利用新的表情信息对模版人脸进行反向重建；此类算法的降维过程对表情特征的表征能力有限，无法实现丰富表情的迁移。再或者，基于深度卷积神经网络的方法对各种人脸表情进行学习；然而，该方式需要不同人脸具有完全相同程度的表情，但真实场景中此类数据无法获取，该情况在一定程度限制了表情迁移的重建效果。

图1是本申请一实施例的应用环境示意图。参阅图1所示，所述计算机设备1可以从网络上，或者与所述计算机设备1连接的其他终端上获取到待执行表情迁移的两张人脸图像，也可以直接从自身存储中获取待执行表情迁移的两张人脸图像，其中一张人脸图像作为待变换表情的第一人脸图像，另一张人脸图像即为人脸表情源数据，即第二人脸图像。当然，所述计算机设备1也可以获取视频数据中的人脸图像作为第一人脸图像，然后将另一视频数据中的人脸图像作为人脸表情源数据。

在本实施例中，所述计算机设备1包括自监督表情重建模型，所述计算机设备1获取第一人脸图像和第二人脸图像后，将所述第一人脸图像和所述第二人脸图像分别执行三维转换，得到对应的第三人脸图像和第四人脸图像；接着，通过预设的自监督表情重建模型提取所述第四人脸图像的表情数据并替换到所述第三人脸图像，得到新第三人脸图像；最后，对所述新第三人脸图像执行二维转换，得到新第一人脸图像，所述新第一人脸图像的表情与所述第二人脸图像的表情相一致，即具有第二人脸图像的表情的新第一人脸图像。在本实施例中，所述计算机设备1可作为终端设备如人脸表情服务器，移动终端，PC机等。在其他实施例中，所述计算机设备1也可以作为独立的功能模块，然后附加到人脸表情服务器，移动终端，PC机上，以实现人脸表情迁移的功能，这里不做限制。

实施例一

图2是本申请人脸表情迁移方法一实施例的流程示意图。可以理解，本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以图1所示的应用环境为例，以计算机设备为执行主体进行示例性描述。

如图2所示，所述人脸表情迁移方法可以包括步骤S200～S206，其中：

步骤S200，获取第一人脸图像和第二人脸图像。

步骤S202，将所述第一人脸图像和所述第二人脸图像分别执行三维转换，得到对应的第三人脸图像和第四人脸图像。

具体的，所述计算机设备1可以提供一个用户交互界面，然后接收用户在所述用户交互界面上触发的对于目标人脸图像，即第一人脸图像，的人脸表情迁移请求，以及接收用户指定的人脸表情源数据对应的人脸图像，即第二人脸图像。比如，用户可以输入两个视频数据，其中一个视频数据作为待执行人脸表情迁移，另一个视频数据作为人脸表情源数据。那么，所述计算机设备1则会从待执行人脸表情迁移的视频数据中，逐帧读取其中的人脸图像视频帧，作为第一人脸图像，同时，逐帧读取人脸表情源数据对应的视频数据中的人脸图像视频帧，作为第二人脸图像。

接着，所述计算机设备1将所述第一人脸图像和所述第二人脸图像分别执行三维转换，得到对应的第三人脸图像和第四人脸图像，包括：通过学习在不进行三维监督的情况下从图像中回归三维人脸形状和表情的方式，分别从所述第一人脸图像和所述第二人脸图像中分别得到所述第三人脸图像和所述第四人脸图像。其中，学习在不进行三维监督的情况下从图像中回归三维人脸形状和表情的技术，能够将二维人脸图像有效地转换成三维人脸图像，而且保持丰富的人脸表情。

步骤S204，通过预设的自监督表情重建模型提取所述第四人脸图像的表情数据并融合到所述第三人脸图像，得到新第三人脸图像。

在本实施例中，所述自监督表情重建模型是所述计算机设备1预先将第五人脸图像和第六人脸图像作为训练数据对初始自监督表情重建模型进行训练得到的，其中，所述第五人脸图像和所述第六人脸图像均为三维图像。比如，所述计算机设备1预先采集预设数量级，比如千万级的三维图像作为训练数据对预设的初始自监督表情重建模型进行训练，从而得到所述自监督表情重建模型。

其中，所述计算机设备1将第五人脸图像和第六人脸图像作为训练数据对初始自监督表情重建模型进行训练，包括：将所述第五人脸图像和所述第六人脸图像输入到初始自监督表情重建模型进行训练，输出第七人脸图像和第八人脸图像，其中，所述第七人脸图像包括所述第五人脸图像的人脸且表情与所述第六人脸图像的表情相一致，所述第八人脸图像包括所述第六人脸图像的人脸且表情与所述第五人脸图像的表情相一致；将所述第七人脸图像和所述第八人脸图像输入到初始自监督表情重建模型进行训练，输出第九人脸图像和第十人脸图像，其中，所述第九人脸图像包括所述第五人脸图像的人脸且表情与所述第五人脸图像的表情相一致，所述第十人脸图像包括所述第六人脸图像的人脸且表情与所述第六人脸图像的表情相一致；判断所述第九人脸图像的表情与所述第五人脸的表情的相似度是否超过预设的第一阈值和/或所述第十人脸图像的表情与所述第六人脸的表情的相似度是否超过预设的第二阈值；若所述第九人脸图像的表情与所述第五人脸的表情的相似度超过所述第一阈值和/或所述第十人脸图像的表情与所述第六人脸的表情的相似度超过所第二阈值，将训练后的初始自监督表情重建模型作为自监督表情重建模型输出；否则，重复执行以上训练步骤。

在一示例性例子中，所述自监督表情重建模型是由多个网络模型级联到一个深度学习卷积神经网络上共同实现人脸表情重建功能的模型，包括：特征提取网络、编码网络和解码网络。

所述计算机设备1所述通过预设的自监督表情重建模型提取所述第四人脸图像的表情数据并融合到所述第三人脸图像，得到新第三人脸图像，包括：根据所述自监督表情重建模型中的编码器，对第三和第四人脸图像进行编码，得到编码的第三和第四人脸表情特征；根据所述特征提取网络，对第四人脸的表情数据和第四人脸的无表情数据之间的差值进行特征提取，得到差值的特征；通过所述自监督表情重建模型中的解码器，将所述第四人脸差值的特征和第三人脸表情特征进行融合解码，得到新第三人脸表情图像。其中，所述编码器和/或所述解码器为所述自监督表情重建模型中的深度学习子网络。

参阅图3所示，图3是本申请一示例性例子中对于自监督表情重建模型的训练过程的流程效果图。在本实施例中，所述计算机设备1通过将两个初始自监督表情重建模型进行级联，即第一初始自监督表情重建模型与第二初始自监督表情重建模型前后级联，并共享权重。接着，所述计算机设备1将第五人脸图像Xt和第六人脸图像Ys输入到第一初始自监督表情重建模型，通过其中的特征提取网络T(·)提取第六人脸图像Ys中的无表情第六人脸图像Y0和第六人脸图像的差值中的特征s，然后经由编码网络E(·)将s输入到深度学习卷积神经网络，进行训练，最后经由解码网络D(·)对输入的图像数据进行表情重构，从而输出与第六人脸图像Ys具有一致表情的第七人脸图像Xs1，以及与第五人脸图像Xt具有一致表情的第八人脸图像Yt1。

接着，所述计算机设备1将第七人脸图像Xs1和第八人脸图像Ys1输入到第二初始自监督表情重建模型，通过其中的特征提取网络T(·)提取第五人脸图像Xt中的无表情第五人脸图像X0和第五人脸图像的差值中的特征t，然后经由编码网络E(·)将t输入到深度学习卷积神经网络进行训练，最后经由解码网络D(·)对输入的图像数据进行表情重构，从而输出与第六人脸图像Ys具有一致表情的第十人脸图像Ys2，以及与第五人脸图像Xt具有一致表情的第九人脸图像Xt2。

最后，判断所述Xt与Xt2之间的相似度是否超过预设的第一阈值；若超过第一阈值则结束训练，将训练好的初始自监督表情重建模型作为最终的自监督表情重建模型输出，否则，重复以上的训练过程。

其中，所述自监督表情重建模型中的深度学习卷积神经网络的公式包括：

其中，A函数表示图模型；l为深度学习卷积神经网络的层，v为人脸图像中的所有标识点，u为v为人脸图像中的普通标识点，a为人脸图像中的关键点，M为动态加权矩阵。参阅图4所示，图4是本申请一示例性例子中构建深度学习卷积神经网络对应的人脸标识点的效果图。其中，

表示在深度学习卷积神经网络的第l层对应的描述人脸图像上所有标识点的点与点之间的关系函数；

表示在深度学习卷积神经网络的第l层对应的描述人脸图像上普通标识点的点与点之间的关系函数；

表示在深度学习卷积神经网络的第l层对应的描述人脸图像上所有标识点与关键点(即，图4中的上部分图中的圆圈圈中的关键点与其它普通标识点)之间的关系函数；M表示加权矩阵，即表示关键点与其他所有标识点之间的距离矩阵，

表现为图4中的下部分图中，关键点与每一个其他标识点除了点间关系还有距离关系，能够很好地表现出到其他某个人脸标识点的位置发生变化时产生对于关键点以及其他人脸标识点的位置联动关系。因此，最终计算得到的

能够很好地反应人脸图像上的所有标识点的位置关系和运动关系，所以，能够更好地描述出人脸表情。

步骤S206，对所述新第三人脸图像执行二维转换，得到新第一人脸图像，所述新第一人脸图像的表情与所述第二人脸图像的表情相一致。

最后，所述计算机设备1对经由自监督表情重建模型进行表情重建后的新第三人脸图像执行二维转换，例如，直接将三维人脸图像数据映射成二维人脸图像数据，从而得到新第一人脸图像，也就是与第二人脸图像表情相一致的第一人脸图像。

参阅图5所示，图5是本申请一示例性例子中对于视频数据中的人脸图像执行表情迁移的流程效果图。在本实施例中，所述计算机设备1先接收用户输入的2D人脸视频，然后将2D人脸视频进行逐帧处理，依次执行：将人脸图像从2D到3D的空间映射，然后输入到针对3D人脸数据的自监督表情重建模型，得到表情重建后的3D人脸图像；接着再将人脸图像从3D到2D的空间映射，得到表情迁移后的2D人脸图像，最后拼接成2D视频，从而输出表情迁移视频。

从上文可知，本实施例所提出的人脸表情迁移方法能够获取第一人脸图像和第二人脸图像；将所述第一人脸图像和所述第二人脸图像分别执行三维转换，得到对应的第三人脸图像和第四人脸图像；通过预设的自监督表情重建模型提取所述第四人脸图像的表情数据并替换到所述第三人脸图像，得到新第三人脸图像；对所述新第三人脸图像执行二维转换，得到新第一人脸图像，所述新第一人脸图像的表情与所述第二人脸图像的表情相一致。通过自监督表情重建模型对一个三维人脸图像的表情数据进行提取然后迁移到另一个三维人脸图像，从而实现准确而又快速地实现人脸表情迁移。

实施例二

图6示意性示出了根据本申请实施例二的人脸表情迁移装置的框图，该人脸表情迁移装置可以被分割成一个或多个程序模块，一个或者多个程序模块被存储于存储介质中，并由一个或多个处理器所执行，以完成本申请实施例。本申请实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，以下描述将具体介绍本实施例中各程序模块的功能。

如图6所示，该人脸表情迁移装置400可以包括获取模块410、第一转换模块420、重建模块430和第二转换模块440，其中：

获取模块410，用于获取第一人脸图像和第二人脸图像。

第一转换模块420，用于将所述第一人脸图像和所述第二人脸图像分别执行三维转换，得到对应的第三人脸图像和第四人脸图像。

重建模块430，用于通过预设的自监督表情重建模型提取所述第四人脸图像的表情数据并融合到所述第三人脸图像，得到新第三人脸图像。

第二转换模块440，用于对所述新第三人脸图像执行二维转换，得到新第一人脸图像，所述新第一人脸图像的表情与所述第二人脸图像的表情相一致。

在一示例性例子中，第一转换模块420，还用于：通过学习在不进行三维监督的情况下从图像中回归三维人脸形状和表情的方式，分别从所述第一人脸图像和所述第二人脸图像中分别得到所述第三人脸图像和所述第四人脸图像。

在一示例性例子中，所述自监督表情重建模型是预先将第五人脸图像和第六人脸图像作为训练数据对初始自监督表情重建模型进行训练得到的，其中，所述第五人脸图像和所述第六人脸图像均为三维图像。其中，所述自监督表情重建模型中的深度学习卷积神经网络的公式包括：

在一示例性例子中，重建模块430，还用于：将所述第五人脸图像和所述第六人脸图像输入到初始自监督表情重建模型进行训练，输出第七人脸图像和第八人脸图像，其中，所述第七人脸图像包括所述第五人脸图像的人脸且表情与所述第六人脸图像的表情相一致，所述第八人脸图像包括所述第六人脸图像的人脸且表情与所述第五人脸图像的表情相一致；将所述第七人脸图像和所述第八人脸图像输入到初始自监督表情重建模型进行训练，输出第九人脸图像和第十人脸图像，其中，所述第九人脸图像包括所述第五人脸图像的人脸且表情与所述第五人脸图像的表情相一致，所述第十人脸图像包括所述第六人脸图像的人脸且表情与所述第六人脸图像的表情相一致；判断所述第九人脸图像的表情与所述第五人脸的表情的相似度是否超过预设的第一阈值和/或所述第十人脸图像的表情与所述第六人脸的表情的相似度是否超过预设的第二阈值；若所述第九人脸图像的表情与所述第五人脸的表情的相似度超过所述第一阈值和/或所述第十人脸图像的表情与所述第六人脸的表情的相似度超过所第二阈值，将训练后的初始自监督表情重建模型作为自监督表情重建模型输出；否则，重复执行以上训练步骤。

在一示例性例子中，重建模块430，还用于：根据所述自监督表情重建模型中的编码器，对第三和第四人脸图像进行编码，得到编码的第三和第四人脸表情特征；根据所述自监督表情重建模型中的特征提取网络，对第四人脸的表情数据和第四人脸的无表情数据之间的差值进行特征提取，得到差值的特征；通过所述自监督表情重建模型中的解码器，将所述第四人脸差值的特征和第三人脸表情特征进行融合解码，得到新第三人脸表情图像；其中，所述编码器和/或所述解码器为所述自监督表情重建模型中的深度学习子网络。

实施例三

图7示意性示出了根据本申请实施例三的适于实现人脸表情迁移方法的计算机设备1对应的计算机设备的硬件架构示意图。本实施例中，所述计算机设备1是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。例如，可以是具有网关功能的机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。如图7所示，所述计算机设备至少包括但不限于：可通过系统总线相互通信链接存储器510、处理器520、网络接口530。其中：

存储器510至少包括一种类型的计算机可读存储介质，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器510可以是所述计算机设备的内部存储模块，例如所述计算机设备1的硬盘或内存。在另一些实施例中，存储器510也可以是所述计算机设备的外部存储设备，例如所述计算机设备1上配备的插接式硬盘，智能存储卡(Smart Media Card，简称为SMC)，安全数字(Secure Digital，简称为SD)卡，闪存卡(Flash Card)等。当然，存储器510还可以既包括所述计算机设备1的内部存储模块也包括其外部存储设备。本实施例中，存储器510通常用于存储安装于所述计算机设备的操作系统和各类应用软件，例如人脸表情迁移方法的程序代码等。此外，存储器510还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器520在一些实施例中可以是中央处理器(Central Processing Unit，简称为CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器520通常用于控制所述计算机设备的总体操作，例如执行与所述计算机设备1进行数据交互或者通信相关的控制和处理等。本实施例中，处理器520用于运行存储器510中存储的程序代码或者处理数据。

网络接口530可包括无线网络接口或有线网络接口，该网络接口530通常用于在所述计算机设备与其他设备之间建立通信链接。例如，网络接口530用于通过网络将所述计算机设备与外部终端相连，在所述计算机设备1与外部终端之间的建立数据传输通道和通信链接等。网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，简称为GSM)、宽带码分多址(Wideband CodeDivision Multiple Access，简称为WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

需要指出的是，图7仅示出了具有部件510-530的所述计算机设备1，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。

在本实施例中，存储于存储器510中的人脸表情迁移方法的程序代码，还可以被分割为一个或者多个程序模块，并由一个或多个处理器(本实施例为处理器520)所执行，以完成本申请实施例。

实施例四

本实施例还提供一种计算机可读存储介质，计算机可读存储介质其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取第一人脸图像和第二人脸图像；将所述第一人脸图像和所述第二人脸图像分别执行三维转换，得到对应的第三人脸图像和第四人脸图像；所述通过预设的自监督表情重建模型提取所述第四人脸图像的表情数据并融合到所述第三人脸图像，得到新第三人脸图像；对所述新第三人脸图像执行二维转换，得到新第一人脸图像，所述新第一人脸图像的表情与所述第二人脸图像的表情相一致。

本实施例中，计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，计算机可读存储介质可以是计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，计算机可读存储介质也可以是计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card，简称为SMC)，安全数字(Secure Digital，简称为SD)卡，闪存卡(Flash Card)等。当然，计算机可读存储介质还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，计算机可读存储介质通常用于存储安装于计算机设备的操作系统和各类应用软件，例如实施例中人脸表情迁移方法的程序代码等。此外，计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的各类数据。

显然，本领域的技术人员应该明白，上述的本申请实施例的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请实施例不限制于任何特定的硬件和软件结合。

以上仅为本申请实施例的优选实施例，并非因此限制本申请实施例的专利范围，凡是利用本申请实施例说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请实施例的专利保护范围内。

Claims

1.一种人脸表情迁移方法，其特征在于，所述方法包括：

获取第一人脸图像和第二人脸图像；

将所述第一人脸图像和所述第二人脸图像分别执行三维转换，得到对应的第三人脸图像和第四人脸图像；

通过预设的自监督表情重建模型提取所述第四人脸图像的表情数据并融合到所述第三人脸图像，得到新第三人脸图像；

对所述新第三人脸图像执行二维转换，得到新第一人脸图像，所述新第一人脸图像的表情与所述第二人脸图像的表情相一致。

2.如权利要求1所述的人脸表情迁移方法，其特征在于，所述将所述第一人脸图像和所述第二人脸图像分别执行三维转换，得到对应的第三人脸图像和第四人脸图像，包括：

通过学习在不进行三维监督的情况下从图像中回归三维人脸形状和表情的方式，分别从所述第一人脸图像和所述第二人脸图像中分别得到所述第三人脸图像和所述第四人脸图像。

3.如权利要求1或2所述的人脸表情迁移方法，其特征在于，所述自监督表情重建模型是预先将第五人脸图像和第六人脸图像作为训练数据对初始自监督表情重建模型进行训练得到的，其中，所述第五人脸图像和所述第六人脸图像均为三维图像。

4.如权利要求3所述的人脸表情迁移方法，其特征在于，所述将第五人脸图像和第六人脸图像作为训练数据对初始自监督表情重建模型进行训练，包括：

将所述第五人脸图像和所述第六人脸图像输入到初始自监督表情重建模型进行训练，输出第七人脸图像和第八人脸图像，其中，所述第七人脸图像包括所述第五人脸图像的人脸且表情与所述第六人脸图像的表情相一致，所述第八人脸图像包括所述第六人脸图像的人脸且表情与所述第五人脸图像的表情相一致；

将所述第七人脸图像和所述第八人脸图像输入到初始自监督表情重建模型进行训练，输出第九人脸图像和第十人脸图像，其中，所述第九人脸图像包括所述第五人脸图像的人脸且表情与所述第五人脸图像的表情相一致，所述第十人脸图像包括所述第六人脸图像的人脸且表情与所述第六人脸图像的表情相一致；

判断所述第九人脸图像的表情与所述第五人脸的表情的相似度是否超过预设的第一阈值和/或所述第十人脸图像的表情与所述第六人脸的表情的相似度是否超过预设的第二阈值；

若所述第九人脸图像的表情与所述第五人脸的表情的相似度超过所述第一阈值和/或所述第十人脸图像的表情与所述第六人脸的表情的相似度超过所第二阈值，将训练后的初始自监督表情重建模型作为自监督表情重建模型输出；否则，重复执行以上训练步骤。

5.如权利要求1-4中任一项所述的人脸表情迁移方法，其特征在于，所述通过预设的自监督表情重建模型提取所述第四人脸图像的表情数据并融合到所述第三人脸图像，得到新第三人脸图像，包括：

根据所述自监督表情重建模型中的编码器，对第三和第四人脸图像进行编码，得到编码的第三和第四人脸表情特征；

根据所述自监督表情重建模型中的特征提取网络，对第四人脸的表情数据和第四人脸的无表情数据之间的差值进行特征提取，得到差值的特征；

通过所述自监督表情重建模型中的解码器，将所述第四人脸差值的特征和第三人脸表情特征进行融合解码，得到新第三人脸表情图像。

6.如权利要求5所述的人脸表情迁移方法，其特征在于，所述编码器和/或所述解码器为所述自监督表情重建模型中的深度学习子网络。

7.如权利要求1-6中任一项所述的人脸表情迁移方法，其特征在于，所述自监督表情重建模型中的深度学习卷积神经网络的公式包括：

8.一种人脸表情迁移装置，其特征在于，所述装置包括：

获取模块，用于获取第一人脸图像和第二人脸图像；

第一转换模块，用于将所述第一人脸图像和所述第二人脸图像分别执行三维转换，得到对应的第三人脸图像和第四人脸图像；

重建模块，用于通过预设的自监督表情重建模型提取所述第四人脸图像的表情数据并融合到所述第三人脸图像，得到新第三人脸图像；

第二转换模块，用于对所述新第三人脸图像执行二维转换，得到新第一人脸图像，所述新第一人脸图像的表情与所述第二人脸图像的表情相一致。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-7任一项所述的人脸表情迁移方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序可被至少一个处理器执行，以使所述至少一个处理器执行如权利要求1-7中任一项所述的人脸表情迁移方法的步骤。