CN113313085A

CN113313085A - 一种图像处理方法、装置、电子设备及存储介质

Info

Publication number: CN113313085A
Application number: CN202110853982.9A
Authority: CN
Inventors: 范音
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2021-08-27
Anticipated expiration: 2041-07-28
Also published as: CN113313085B

Abstract

本发明实施例提供了一种图像处理方法、装置、电子设备及存储介质，方法包括：获取源图像中源人物的第一三维人脸信息及驱动视频的每帧目标图像中的目标人物的第二三维人脸信息，基于第一三维人脸信息包括的身份信息及每帧目标图像对应的第二三维人脸信息包括的表情信息和姿态信息，渲染处理得到初始人脸图像，基于源人物的人脸关键点和目标人物的人脸关键点确定目标光流信息，提取每帧初始人脸图像和源图像的图像特征，将源图像的图像特征按照目标光流信息进行变换，得到变换后的图像特征，基于变换后的图像特征与每帧初始人脸图像的图像特征共同确定目标视频。变换后的图像特征和每帧初始人脸图像的图像特征相互补充完善，改善人脸驱动效果。

Description

一种图像处理方法、装置、电子设备及存储介质

技术领域

本发明涉及多媒体数据处理技术领域，特别是涉及一种图像处理方法、装置、电子设备及存储介质。

背景技术

人脸驱动技术是根据给定的一个源图像以及一个目标人物的驱动视频，生成人物为源图像中人物，表情和姿态与驱动视频中目标人物的表情和姿态相同的一段目标视频的技术，其可以应用到社交娱乐、视频压缩、在线会议等多种场景中。

目前的人脸驱动方式是根据源图像A和驱动视频B中包括的各个图像的关键点，估计出光流信息，进而将源图像A按照估计出的光流信息做二维变换，得到人物为源图像A中人物a，表情和姿态与驱动视频B中目标人物b的表情和动作相同的目标视频。

但是，由于源图像和驱动视频中的人物的表情和姿态可能相差较大，所以采用上述二维变换的方式得到目标视频中可能会出现人物扭曲变形、画面模糊的问题，人脸驱动效果不佳。

发明内容

本发明实施例的目的在于提供一种图像处理方法、装置、电子设备及存储介质，以提高人脸驱动效果。具体技术方案如下：

第一方面，本发明实施例提供了一种图像处理方法，所述方法包括：

获取源图像中源人物的第一三维人脸信息以及驱动视频的每帧目标图像中的目标人物的第二三维人脸信息，其中，所述三维人脸信息至少包括身份信息、表情信息、姿态信息；

基于所述第一三维人脸信息包括的身份信息以及每帧目标图像对应的所述第二三维人脸信息包括的表情信息和姿态信息，进行渲染处理得到每帧目标图像对应的初始人脸图像；

基于所述源图像中源人物的人脸关键点和所述每帧目标图像中目标人物的人脸关键点确定从所述源图像到所述每帧目标图像的目标光流信息；

分别提取每帧初始人脸图像以及所述源图像的图像特征，并将所述源图像的图像特征按照所述目标光流信息进行变换，得到所述每帧目标图像对应的变换后的图像特征；

基于所述变换后的图像特征与所述每帧初始人脸图像的图像特征，确定目标视频。

可选的，所述基于所述变换后的图像特征与每帧所述初始人脸图像的图像特征，确定目标视频的步骤，包括：

将所述每帧目标图像对应的变换后的图像特征与对应的初始人脸图像的图像特征进行特征拼接，得到该帧初始人脸图像对应的拼接后的图像特征；

将所述每帧初始人脸图像对应的拼接后的图像特征输入预设的图像生成器，以使所述图像生成器基于所述拼接后的图像特征生成具有所述源图像的背景和细节的目标视频。

可选的，所述目标光流信息用于标识所述源图像相对于所述目标图像的运动趋势的变换矩阵；

所述将所述源图像的图像特征按照所述目标光流信息进行变换，得到所述每帧目标图像对应的变换后的图像特征的步骤，包括：

将所述源图像的图像特征与所述每帧目标图像对应的变换矩阵的乘积，确定为该帧目标图像对应的变换后的图像特征。

可选的，所述基于所述源图像中源人物的人脸关键点和所述目标图像中目标人物的人脸关键点确定从所述源图像到所述每帧目标图像的目标光流信息的步骤，包括：

提取所述源图像中源人物的人脸关键点，作为第一人脸关键点；

提取所述每帧目标图像中目标人物的人脸关键点，作为第二人脸关键点；

基于所述第一人脸关键点以及所述每帧目标图像对应的第二人脸关键点分别与预设参考图像中预设关键点之间的映射关系，确定所述第一人脸关键点到该帧目标图像对应的第二人脸关键点的光流信息；

将所有关键点对应的光流信息进行叠加，得到从所述源图像到该帧目标图像的目标光流信息。

可选的，所述基于所述第一三维人脸信息包括的身份信息以及每帧目标图像对应的所述第二三维人脸信息包括的表情信息和姿态信息，进行渲染处理得到每帧目标图像对应的初始人脸图像的步骤，包括：

基于所述第一三维人脸信息包括的身份信息以及每帧目标图像对应的所述第二三维人脸信息包括的表情信息和姿态信息，调整标准三维可变形人脸模型的参数，得到每帧目标图像对应的三维人脸模型；

将所述每帧目标图像对应的三维人脸模型渲染成二维图像，得到所述每帧目标图像对应的初始人脸图像。

第二方面，本发明实施例提供了一种图像处理装置，所述装置包括：

获取模块，用于获取源图像中源人物的第一三维人脸信息以及驱动视频的每帧目标图像中的目标人物的第二三维人脸信息，其中，所述三维人脸信息至少包括身份信息、表情信息、姿态信息；

渲染模块，用于基于所述第一三维人脸信息包括的身份信息以及每帧目标图像对应的所述第二三维人脸信息包括的表情信息和姿态信息，进行渲染处理得到每帧目标图像对应的初始人脸图像；

光流信息确定模块，用于基于所述源图像中源人物的人脸关键点和所述每帧目标图像中目标人物的人脸关键点确定从所述源图像到所述每帧目标图像的目标光流信息；

特征提取模块，用于分别提取每帧初始人脸图像以及所述源图像的图像特征，并将所述源图像的图像特征按照所述目标光流信息进行变换，得到所述每帧目标图像对应的变换后的图像特征；

确定模块，用于基于所述变换后的图像特征与所述每帧初始人脸图像的图像特征，确定目标视频。

可选的，所述确定模块包括：

拼接单元，用于将所述每帧目标图像对应的变换后的图像特征与对应的初始人脸图像的图像特征进行特征拼接，得到该帧初始人脸图像对应的拼接后的图像特征；

生成单元，用于将所述每帧初始人脸图像对应的拼接后的图像特征输入预设的图像生成器，以使所述图像生成器基于所述拼接后的图像特征生成具有所述源图像的背景和细节的目标视频。

可选的，所述特征提取模块包括：

变换单元，用于将所述源图像的图像特征与所述每帧目标图像对应的变换矩阵的乘积，确定为该帧目标图像对应的变换后的图像特征。

可选的，所述光流信息确定模块包括：

第一提取单元，用于提取所述源图像中源人物的人脸关键点，作为第一人脸关键点；

第二提取单元，用于提取所述每帧目标图像中目标人物的人脸关键点，作为第二人脸关键点；

光流信息确定单元，用于基于所述第一人脸关键点以及所述每帧目标图像对应的第二人脸关键点分别与预设参考图像中预设关键点之间的映射关系，确定所述第一人脸关键点到该帧目标图像对应的第二人脸关键点的光流信息；

叠加单元，用于将所有关键点对应的光流信息进行叠加，得到从所述源图像到该帧目标图像的目标光流信息。

可选的，所述渲染模块包括：

调整单元，用于基于所述第一三维人脸信息包括的身份信息以及每帧目标图像对应的所述第二三维人脸信息包括的表情信息和姿态信息，调整标准三维可变形人脸模型的参数，得到每帧目标图像对应的三维人脸模型；

渲染单元，用于将所述每帧目标图像对应的三维人脸模型渲染成二维图像，得到所述每帧目标图像对应的初始人脸图像。

第三方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面任一所述的方法步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面任一所述的方法步骤。

本发明实施例提供的方案中，电子设备可以获取源图像中源人物的第一三维人脸信息以及驱动视频的每帧目标图像中的目标人物的第二三维人脸信息，其中，三维人脸信息至少包括身份信息、表情信息、姿态信息，基于第一三维人脸信息包括的身份信息以及每帧目标图像对应的第二三维人脸信息包括的表情信息和姿态信息，进行渲染处理得到每帧目标图像对应的初始人脸图像，基于源图像中源人物的人脸关键点和每帧目标图像中目标人物的人脸关键点确定从源图像到每帧目标图像的目标光流信息，分别提取每帧初始人脸图像以及源图像的图像特征，并将源图像的图像特征按照目标光流信息进行变换，得到每帧目标图像对应的变换后的图像特征，进而，基于变换后的图像特征与每帧初始人脸图像的图像特征，确定目标视频。

这样，电子设备可以根据三维人脸信息确定具有源人物身份以及目标人物表情和姿态的初始人脸图像，得到一个初步的人脸驱动结果，同时根据光流信息对源图像的图像特征进行变换，得到能够表征源人物变换到目标人物的运动趋势的变换后的图像特征，进而基于该变换后的图像特征与每帧初始人脸图像的图像特征确定目标视频，变换后的图像特征和每帧初始人脸图像的图像特征相互补充完善，使得目标视频中源人物的身份、表情和动作等均更加准确稳定，因此可以生成更加稳定的驱动结果，改善人脸驱动效果。当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例所提供的一种图像处理方法的流程图；

图2为基于图1所示实施例中步骤S105的一种具体流程图；

图3为基于图1所示实施例中步骤S103的一种具体流程图；

图4为基于图1所示实施例中步骤S102的一种具体流程图；

图5为基于图4所示实施例的初始人脸图像的确定方式的一种流程示意图；

图6为本发明实施例的图像处理方法的一种流程示意图；

图7为本发明实施例所提供的一种图像处理装置的结构示意图；

图8为本发明实施例所提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

为了提高人脸驱动效果，本发明实施例提供了一种图像处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品。下面首先对本发明实施例所提供的一种图像处理方法进行介绍。

本发明实施例所提供的一种图像处理方法可以应用于任何需要进行人脸驱动处理的电子设备，例如，可以为手机、电脑、平板电脑等，在此不做具体限定。为了描述清楚，以下称为电子设备。

如图1所示，一种图像处理方法，所述方法包括：

S101，获取源图像中源人物的第一三维人脸信息以及驱动视频的每帧目标图像中的目标人物的第二三维人脸信息；

其中，所述三维人脸信息至少包括身份信息、表情信息、姿态信息。

S102，基于所述第一三维人脸信息包括的身份信息以及每帧目标图像对应的所述第二三维人脸信息包括的表情信息和姿态信息，进行渲染处理得到每帧目标图像对应的初始人脸图像；

S103，基于所述源图像中源人物的人脸关键点和所述每帧目标图像中目标人物的人脸关键点确定从所述源图像到所述每帧目标图像的目标光流信息；

S104，分别提取每帧初始人脸图像以及所述源图像的图像特征，并将所述源图像的图像特征按照所述目标光流信息进行变换，得到所述每帧目标图像对应的变换后的图像特征；

S105，基于所述变换后的图像特征与所述每帧初始人脸图像的图像特征，确定目标视频。

可见，本发明实施例提供的方案中，电子设备可以获取源图像中源人物的第一三维人脸信息以及驱动视频的每帧目标图像中的目标人物的第二三维人脸信息，其中，三维人脸信息至少包括身份信息、表情信息、姿态信息，基于第一三维人脸信息包括的身份信息以及每帧目标图像对应的第二三维人脸信息包括的表情信息和姿态信息，进行渲染处理得到每帧目标图像对应的初始人脸图像，基于源图像中源人物的人脸关键点和每帧目标图像中目标人物的人脸关键点确定从源图像到每帧目标图像的目标光流信息，分别提取每帧初始人脸图像以及源图像的图像特征，并将源图像的图像特征按照目标光流信息进行变换，得到每帧目标图像对应的变换后的图像特征，进而，基于变换后的图像特征与每帧初始人脸图像的图像特征，确定目标视频。这样，电子设备可以根据三维人脸信息确定具有源人物身份以及目标人物表情和姿态的初始人脸图像，得到一个初步的人脸驱动结果，同时根据光流信息对源图像的图像特征进行变换，得到能够表征源人物变换到目标人物的运动趋势的变换后的图像特征，进而基于该变换后的图像特征与每帧初始人脸图像的图像特征确定目标视频，变换后的图像特征和每帧初始人脸图像的图像特征相互补充完善，使得目标视频中源人物的身份、表情和动作等均更加准确稳定，因此可以生成更加稳定的驱动结果，改善人脸驱动效果。

当用户想要使用人脸驱动功能，也就是想要得到一段人物为源图像中源人物，表情和姿态与驱动视频中目标人物的表情和姿态相同的目标视频时，电子设备可以获取源图像和驱动视频，其中，驱动视频包含多帧目标图像，每帧目标图像中包括目标人物。

在一种实施方式中，上述源图像以及驱动视频可以为用户使用拍摄设备采集并上传至电子设备的。在另一种实施方式中，用户可以从网络下载源图像以及驱动视频，并将源图像以及驱动视频保存至电子设备。在此不做具体限定。

为了获得准确的人脸信息以保证人脸驱动效果，电子设备可以获取源图像中源人物的第一三维人脸信息以及驱动视频的每帧目标图像中的目标人物的第二三维人脸信息。

作为一种实施方式，电子设备可以将源图像以及每帧目标图像分别输入预先训练完成的三维人脸信息提取模型，进而，该三维人脸信息提取模型可以根据输入图像中人脸特征确定对应的三维人脸信息，并输出该三维人脸信息。电子设备便可以获取到三维人脸信息提取模型输出的源图像以及每帧目标图像分别对应的三维人脸信息。

其中，三维人脸信息至少可以包括身份信息（Identity Information，id）、表情信息（Expression Information，Exp）、姿态信息（Pose Information，Pose）。身份信息为能够表征图像中人物身份的信息，也就是能够表示人物的长相的信息，可以包括人脸特征，例如，可以包括嘴唇形状参数、眼高参数、眼宽参数、脸型参数等。表情信息为能够表征图像中人物表情的参数，也就是能够表征人物的喜、怒、哀、乐等表情的参数，例如，可以包括表征人物微笑的一组参数、表征人物皱眉毛的一组参数等。姿态信息为能够表征图像中人物姿态的参数，例如，表征人脸右偏的角度的参数，在此不做具体限定。

因此，身份信息、表情信息和姿态信息可以唯一确定人脸的长相、表情和姿态，所以在获取到上述第一三维人脸信息和第二三维人脸信息后，电子设备可以基于第一三维人脸信息包括的身份信息以及每帧目标图像对应的第二三维人脸信息包括的表情信息和姿态信息，进行渲染处理得到每帧目标图像对应的初始人脸图像。该初始人脸图像中的人脸即为与源人物长相相同，且具有目标人物的表情和姿态的人脸，也就是初步的人脸驱动结果。

作为一种实施方式，电子设备可以将第一三维人脸信息包括的身份信息以及每帧目标图像对应的第二三维人脸信息包括的表情信息和姿态信息输入渲染器，进而经过渲染器进行渲染处理后，得到该帧目标图像对应的初始人脸图像。

例如，源图像中源人物的第一三维人脸信息的身份信息为A，驱动视频的第一帧目标图像中的目标人物的第二三维人脸信息的表情信息为表征目标人物微笑的一组表情参数，姿态信息为表征目标人物人脸向右偏30度的姿态参数，那么，电子设备可以将身份信息A、表征目标人物微笑的表情参数以及表征目标人物人脸向右偏30度的姿态参数输入渲染器，进而经过渲染器进行渲染处理后，得到该第一帧目标图像对应的初始人脸图像，其中，该初始人脸图像中的人脸便为身份为A，表情为微笑，姿态为向右偏30度的人脸。

在上述步骤S103中，电子设备可以基于源图像中源人物的人脸关键点和每帧目标图像中目标人物的人脸关键点确定从源图像到每帧目标图像的目标光流信息。

作为一种实施方式，电子设备可以确定源图像中源人物的人脸关键点以及每帧目标图像中的目标人物的人脸关键点，进而通过光流约束方程计算出从源人物的人脸关键点与目标图像中的目标人物的人脸关键点的映射关系，得到目标光流信息。

上述步骤S103与上述步骤S101-步骤S102的执行顺序不做限定，可以先执行上述步骤S103再执行上述步骤S101-步骤S102；可以先执行上述步骤S101-步骤S102再执行上述步骤S103；还可以同时执行上述步骤S103和上述步骤S101-步骤S102，这都是合理的。

得到每帧目标图像对应的初始人脸图像以及目标光流信息后，电子设备可以执行上述步骤S104，即分别提取每帧初始人脸图像以及源图像的图像特征，并将源图像的图像特征按照目标光流信息进行变换，得到每帧目标图像对应的变换后的图像特征。

在一种实施方式中，电子设备可以将每帧初始人脸图像以及源图像输入卷积神经网络（Convolutional Neural Networks, CNN），卷积神经网络可以提取每帧初始人脸图像的图像特征以及源图像的图像特征，输出每帧初始人脸图像的图像特征以及源图像的图像特征，进而电子设备便可以得到每帧初始人脸图像的图像特征以及源图像的图像特征。图像特征可以包括：颜色特征、纹理特征、形状特征、空间关系特征。

其中，颜色特征为基于像素点的特征，一般采用颜色直方图的方法，颜色直方图可以描述不同色彩在整幅图像中所占的比例。上述纹理特征需要在包含多个像素点的区域进行统计计算，一般采用统计方法，即通过对图像的能量谱函数的计算，提取纹理的粗细度即方向性等特征参数。上述形状特征包括轮廓特征以及区域特征。上述空间关系特征是指图像中分割出来的多个目标之间的相互的空间位置或相对方向的关系。

由于目标光流信息表征了源人物的人脸关键点与目标图像中的目标人物的人脸关键点的映射关系，所以电子设备可以将源图像的图像特征按照上述目标光流信息进行变换，由于目标光流信息是表征的是人脸关键点之间的映射关系，所以变换得到的每帧目标图像对应的变换后的图像特征中，源图像中的背景信息、源人物的头发细节信息对应的图像特征保持不变。

进而，在上述步骤S105中，电子设备可以将每帧目标图像对应的变换后的图像特征与每帧初始人脸图像的图像特征进行融合处理，得到目标视频。这样，变换后的图像特征和每帧初始人脸图像的图像特征可以在进行融合处理的过程中相互补充完善，进而使得目标视频中源人物的身份、表情和动作等均更加准确稳定，可以生成更加稳定的驱动结果，改善人脸驱动效果。

作为本发明实施例的一种实施方式，如图2所示，上述基于所述变换后的图像特征与每帧所述初始人脸图像的图像特征，确定目标视频的步骤，可以包括：

S201，将所述每帧目标图像对应的变换后的图像特征与对应的初始人脸图像的图像特征进行特征拼接，得到该帧初始人脸图像对应的拼接后的图像特征；

在得到每帧目标图像对应的变换后的图像特征和初始人脸图像的图像特征之后，电子设备可以将每帧目标图像对应的变换后的图像特征与对应的初始人脸图像的图像特征进行特征拼接，便可以得到该帧初始人脸图像对应的拼接后的图像特征。

拼接后的图像特征所表示的人脸的长相与源图像中源人物长相一致，表情和姿态与对应的目标图像中目标人物表情和姿态一致，背景、人物的头发细节、衣服等与源图像中对应的图像细节一致。

例如，目标图像A对应的变换后的图像特征1表示为c1*h*w，目标图像A对应的初始人脸图像的图像特征2表示为c2*h*w，其中，c1和c2是通道数，h是图像特征的高度，w是图像特征的宽度。电子设备可以将图像特征1和图像特征2按通道进行拼接，得到拼接后的图像特征，表示为（c1+c2）*h*w。

S202，将所述每帧初始人脸图像对应的拼接后的图像特征输入预设的图像生成器，以使所述图像生成器基于所述拼接后的图像特征生成具有所述源图像的背景和细节的目标视频。

在得到该帧初始人脸图像对应的拼接后的图像特征后，电子设备可以将每帧初始人脸图像对应的拼接后的图像特征输入预设的图像生成器，由于每帧初始人脸图像对应的拼接后的图像特征为目标图像对应的变换后的图像特征与对应的初始人脸图像的图像特征进行特征拼接，即变换后的图像特征和每帧初始人脸图像的图像特征相互补充完善，因此图像生成器可以基于拼接后的图像特征生成人脸的长相为源图像中源人物长相，人脸的表情和姿态为每帧目标图像中的目标人物的表情和姿态，并且背景和细节为源图像的背景和细节的目标视频。

在一种实施方式中，在得到该帧初始人脸图像对应的拼接后的图像特征后，电子设备可以将每帧初始人脸图像对应的拼接后的图像特征输入到生成式对抗网络（Generative Adversarial Networks，GAN）中的图像生成器，以得到目标视频。

可见，在本实施例中，电子设备可以将每帧目标图像对应的变换后的图像特征与对应的初始人脸图像的图像特征进行特征拼接，得到该帧初始人脸图像对应的拼接后的图像特征，再将每帧初始人脸图像对应的拼接后的图像特征输入预设的图像生成器，以使图像生成器基于拼接后的图像特征生成具有源图像的背景和细节的目标视频，这样得到的目标视频中源人物的身份、表情和动作等均更加准确稳定，因此可以生成更加稳定的驱动结果，改善人脸驱动效果。

作为本发明实施例的一种实施方式，上述目标光流信息可以用于标识所述源图像相对于所述目标图像的运动趋势的变换矩阵。

相应的，上述将所述源图像的图像特征按照所述目标光流信息进行变换，得到所述每帧目标图像对应的变换后的图像特征的步骤，可以包括：

由于目标光流信息可以标识源图像以及目标图像相对于预设参考图像的运动趋势的变换矩阵，因此，电子设备可以将源图像的图像特征与每帧目标图像对应的变换矩阵相乘，进而将相乘之后的结果确定为该帧目标图像对应的变换后的图像特征。

例如，源图像的图像特征为特征矩阵A，源图像相对于目标图像a的变换矩阵即目标光流信息为变换矩阵B，那么电子设备便可以将特征矩阵A与变换矩阵B相乘，进而得到变换后的图像特征，即为特征矩阵A*B。

可见，在本实施例中，电子设备可以利用标识源图像相对于目标图像的运动趋势的变换矩阵，将源图像的图像特征与每帧目标图像对应的变换矩阵的乘积，确定为该帧目标图像对应的变换后的图像特征。通过这样的方式，可以得到更加精确的变换后的图像特征，进而可以生成更加稳定的驱动结果，改善人脸驱动效果。

作为本发明实施例的一种实施方式，如图3所示，上述基于所述源图像中源人物的人脸关键点和所述目标图像中目标人物的人脸关键点确定从所述源图像到所述每帧目标图像的目标光流信息的步骤，可以包括：

S301，提取所述源图像中源人物的人脸关键点，作为第一人脸关键点；

S302，提取所述每帧目标图像中目标人物的人脸关键点，作为第二人脸关键点；

在一种实施方式中，电子设备可以采用多任务卷积神经网络（Multi-taskconvolutional neural network，MTCNN）提取源图像中源人物的人脸关键点，并将其作为第一人脸关键点。同理的，电子设备可以采用MTCNN提取每帧目标图像中目标人物的人脸关键点，并将其作为第二人脸关键点。

其中，人脸关键点用于标识人脸五官的相对位置，例如，采用6个关键点标注嘴唇、眼睛、鼻子的相对位置，嘴唇用三个关键点标识，眼睛用两个关键点标识，鼻子用一个关键点标识。

在另一种实施方式中，电子设备可以采用一阶运动模型（First Order MotionModel）中的dense motion网络确定人脸关键点以及对应的光流信息，具体来说，电子设备可以将源图像以及目标图像输入至dense motion网络，进而dense motion网络便可以对源图像以及目标图像进行处理，得到源图像对应的第一人脸关键点、目标图像对应的第二人脸关键点以及二者对应的光流信息。

S303，基于所述第一人脸关键点以及所述每帧目标图像对应的第二人脸关键点分别与预设参考图像中预设关键点之间的映射关系，确定所述第一人脸关键点到该帧目标图像对应的第二人脸关键点的光流信息；

在一种实施方式中，由于源人物与目标人物的长相、表情、姿态可能相差较大，如果将第一人脸关键点直接按照该第一人脸关键点与对应的第二人脸关键点之间的光流信息进行变换，可能会造成图像扭曲或模糊，所以可以假设在源图像和目标图像之间存在预设参考图像，进而，通过预设参考图像确定第一人脸关键点到对应的第二人脸关键点的光流信息。

具体来说，电子设备可以计算第一人脸关键点到预设参考图像中预设关键点的第一映射关系，用于表征将源图像中源人物的第一人脸关键点转化为预设参考图像中的预设关键点。计算第二人脸关键点到预设关键点的第二映射关系，用于表征将每帧目标图像中目标人物的第二人脸关键点转化为预设参考图像中的预设关键点。这样，实现源图像以及每帧目标图像均以预设参考图像为基准的效果。

进而，电子设备便可以根据第一映射关系以及第二映射关系计算出第一人脸关键点到该帧目标图像对应的第二人脸关键点的光流信息。由于源图像以及每帧目标图像均以预设参考图像为基准，那么根据第一映射关系以及第二映射关系计算出第一人脸关键点到该帧目标图像对应的第二人脸关键点的光流信息便会更加准确。

S304，将所有关键点对应的光流信息进行叠加，得到从所述源图像到该帧目标图像的目标光流信息。

在获得第一人脸关键点到每帧目标图像对应的第二人脸关键点的光流信息后，电子设备可以将该帧目标图像对应的所有关键点对应的光流信息叠加得到一个整体的光流信息，即一个光流信息矩阵，进而将该矩阵作为源图像到该帧目标图像的目标光流信息。

例如，得到第一人脸关键点到目标图像b的第二人脸关键点的光流信息后，可以将所有第二人脸关键点对应的光流信息叠加得到一个光流信息矩阵C。该光流信息矩阵C即为目标图像b对应的目标光流信息。

可见，本实施例中，电子设备可以提取源图像中源人物的人脸关键点，作为第一人脸关键点，提取每帧目标图像中目标人物的人脸关键点，作为第二人脸关键点，基于第一人脸关键点以及每帧目标图像对应的第二人脸关键点分别与预设参考图像中预设关键点之间的映射关系，确定第一人脸关键点到该帧目标图像对应的第二人脸关键点的光流信息，将所有关键点对应的光流信息进行叠加，得到从源图像到该帧目标图像的目标光流信息。通过这样的方式，在源人物与目标人物的长相、表情、姿态可能相差较大时，由于通过预设参考图像确定第一人脸关键点到对应的第二人脸关键点的光流信息，可以得到更加稳定的源图像到每帧目标图像的目标光流信息，所以避免造成图像扭曲或模糊的情况，便可以得到更加准确的从源图像到该帧目标图像的目标光流信息，进而可以生成更加稳定的驱动结果，改善人脸驱动效果。

作为本发明实施例的一种实施方式，如图4所示，上述基于所述第一三维人脸信息包括的身份信息以及每帧目标图像对应的所述第二三维人脸信息包括的表情信息和姿态信息，进行渲染处理得到每帧目标图像对应的初始人脸图像的步骤，可以包括：

S401，基于所述第一三维人脸信息包括的身份信息以及每帧目标图像对应的所述第二三维人脸信息包括的表情信息和姿态信息，调整标准三维可变形人脸模型的参数，得到每帧目标图像对应的三维人脸模型；

在一种实施方式中，由于三维可变形人脸模型（3D Morphable Models，3DMM）是一种可以进行人脸重建的技术，其可以采用不同的身份信息、表情信息、姿态信息来表示不同的人脸三维模型。所以电子设备可以调整标准三维可变形人脸模型的参数，以得到每帧目标图像对应的三维人脸模型。

具体来说，电子设备可以调整标准三维可变形人脸模型的身份参数为第一三维人脸信息包括的身份信息，分别调整标准三维可变形人脸模型的表情参数以及姿态参数为每帧目标图像对应的第二三维人脸信息包括的表情信息和姿态信息，进而，得到每帧目标图像对应的三维人脸模型。

其中，每帧目标图像对应的三维人脸模型即为长相与源人物相同，表情以及姿态为该帧目标图像中目标人物的表情以及姿态的三维人脸模型。

例如，源人物对应的身份信息为参数A、目标图像c对应的表情信息为参数B，姿态信息为参数C。电子设备则可以调整标准三维可变形人脸模型的身份参数为参数A，调整标准三维可变形人脸模型的表情参数为参数B，调整标准三维可变形人脸模型的姿态参数为参数C，这样就能够得到目标图像c对应的三维人脸模型。

如图5所示，电子设备可以将包含源人物的源图像（Source）510和包含目标人物的驱动视频的每帧目标图像（Target）520输入至三维人脸信息提取模型530中，得到源图像中源人物的第一三维人脸信息540，其包含身份信息id1，表情信息Exp1，姿态信息Pose1，以及驱动视频的每帧目标图像中的目标人物的第二三维人脸信息550，其包含身份信息id2，表情信息Exp2，姿态信息Pose2，基于第一三维人脸信息540和第二三维人脸信息550调整标准三维可变形人脸模型的参数，便可以得到将第一三维人脸信息540包括的身份信息id1以及每帧目标图像对应的第二三维人脸信息550包括的表情信息Exp2和姿态信息Pose2构成的三维人脸模型560。

S402，将所述每帧目标图像对应的三维人脸模型渲染成二维图像，得到所述每帧目标图像对应的初始人脸图像。

为了方便后续图像处理过程，电子设备可以将每帧目标图像对应的三维人脸模型渲染成二维图像，得到每帧目标图像对应的初始人脸图像。具体渲染方式可以采用任一能够根据三维人脸模型渲染得到二维图像的方式，在此不做具体限定。

例如，如图5所示，在得到由第一三维人脸信息540包括的身份信息id1以及每帧目标图像对应的第二三维人脸信息550包括的表情信息Exp2和姿态信息Pose2构成的三维人脸信息560后，电子设备可以根据三维人脸信息560输入至渲染器570，渲染器570进行渲染处理得到每帧目标图像对应的初始人脸图像（Result）580。

可见，在本实施例中，电子设备可以基于第一三维人脸信息包括的身份信息以及每帧目标图像对应的第二三维人脸信息包括的表情信息和姿态信息，调整标准三维可变形人脸模型的参数，得到每帧目标图像对应的三维人脸模型，再将每帧目标图像对应的三维人脸模型渲染成二维图像，得到每帧目标图像对应的初始人脸图像，通过这样的方式，可以得到更加精确的每帧目标图像对应的初始人脸图像，进而可以生成更加稳定的驱动结果，改善人脸驱动效果。

下面结合图6对本发明实施例所提供的图像处理方法进行举例介绍。电子设备可以通过图5所示的方式，基于源图像601和驱动视频的每帧目标图像602通过3D模块（3DModule）603得到每帧目标图像对应的初始人脸图像（Result）604，将初始人脸图像604以及源图像601输入到卷积神经网络（Encoder）605进行图像特征提取，与此同时，可以将源图像601和驱动视频的该帧目标图片602输入至光流信息生成器（Motion Module）606，得到源图像到驱动视频的每帧目标图像目标光流信息608以及背景遮挡信息607，进而可以利用变形模块610（Deform）将目标光流信息608以及背景遮挡信息607进行变换，得到每帧目标图像对应的变换后的图像特征，进而可以将每帧目标图像对应的变换后的图像特征与对应的初始人脸图像604的图像特征进行融合，将融合后的结果输入至预设的图像生成器（Generator）609，得到目标视频（Result）611。

可见，在本实施例中，电子设备可以根据三维人脸信息确定具有源人物身份以及目标人物表情和姿态的初始人脸图像，得到一个初步的人脸驱动结果，同时根据光流信息对源图像的图像特征进行变换，得到能够表征源人物变换到目标人物的运动趋势的变换后的图像特征，进而基于该变换后的图像特征与每帧初始人脸图像的图像特征确定目标视频，变换后的图像特征和每帧初始人脸图像的图像特征相互补充完善，使得目标视频中源人物的身份、表情和动作等均更加准确稳定，因此可以生成更加稳定的驱动结果，改善人脸驱动效果。

相应于上述一种图像处理方法，本发明实施例还提供了一种图像处理装置，下面对本发明实施例所提供的一种图像处理装置进行介绍。

如图7所示，一种图像处理装置，所述装置包括：

获取模块710，用于获取源图像中源人物的第一三维人脸信息以及驱动视频的每帧目标图像中的目标人物的第二三维人脸信息；

渲染模块720，用于基于所述第一三维人脸信息包括的身份信息以及每帧目标图像对应的所述第二三维人脸信息包括的表情信息和姿态信息，进行渲染处理得到每帧目标图像对应的初始人脸图像；

光流信息确定模块730，用于基于所述源图像中源人物的人脸关键点和所述每帧目标图像中目标人物的人脸关键点确定从所述源图像到所述每帧目标图像的目标光流信息；

特征提取模块740，用于分别提取每帧初始人脸图像以及所述源图像的图像特征，并将所述源图像的图像特征按照所述目标光流信息进行变换，得到所述每帧目标图像对应的变换后的图像特征；

确定模块750，用于基于所述变换后的图像特征与所述每帧初始人脸图像的图像特征，确定目标视频。

作为本发明实施例的一种实施方式，上述确定模块750可以包括：

作为本发明实施例的一种实施方式，上述特征提取模740可以包括：

作为本发明实施例的一种实施方式，上述光流信息确定模块730可以包括：

作为本发明实施例的一种实施方式，上述渲染模块720可以包括：

本发明实施例还提供了一种电子设备，如图8所示，包括处理器801、通信接口802、存储器803和通信总线804，其中，处理器801，通信接口802，存储器803通过通信总线804完成相互间的通信，

存储器803，用于存放计算机程序；

处理器801，用于执行存储器803上所存放的程序时，实现上述任一实施例所述的一种图像处理方法。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中任一所述的图像处理方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的图像处理方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线（DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质（例如固态硬盘Solid State Disk (SSD)）等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于方法、装置、电子设备、计算机可读存储介质以及计算机程序产品，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述变换后的图像特征与每帧所述初始人脸图像的图像特征，确定目标视频的步骤，包括：

3.根据权利要求1所述的方法，其特征在于，所述目标光流信息用于标识所述源图像相对于所述目标图像的运动趋势的变换矩阵；

4.根据权利要求1所述的方法，其特征在于，所述基于所述源图像中源人物的人脸关键点和所述目标图像中目标人物的人脸关键点确定从所述源图像到所述每帧目标图像的目标光流信息的步骤，包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述基于所述第一三维人脸信息包括的身份信息以及每帧目标图像对应的所述第二三维人脸信息包括的表情信息和姿态信息，进行渲染处理得到每帧目标图像对应的初始人脸图像的步骤，包括：

6.一种图像处理装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述确定模块包括：

8.根据权利要求6所述的装置，其特征在于，所述特征提取模块包括：

9.根据权利要求6所述的装置，其特征在于，所述光流信息确定模块包括：

10.根据权利要求6-9任一项所述的装置，其特征在于，所述渲染模块包括：

11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5任一所述的方法步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。