CN113239857B

CN113239857B - 视频合成方法及其装置

Info

Publication number: CN113239857B
Application number: CN202110587312.7A
Authority: CN
Inventors: 王秋霖; 张陆; 李博; 裴积全
Original assignee: Jingdong Technology Holding Co Ltd
Current assignee: Jingdong Technology Holding Co Ltd
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2023-11-03
Anticipated expiration: 2041-05-27
Also published as: CN113239857A

Abstract

本公开提出了一种视频合成方法及其装置，涉及计算机视觉技术领域。本公开通过对源图像和驱动图像进行3D人脸重建，获取3D人脸重演图像和3D光流；对源图像和驱动图像进行一阶运动关键点检测，获取N个一阶2D仿射光流，生成N个仿射形变源图像；基于3D人脸重演图像、N个仿射形变源图像和源图像，对3D光流、N个一阶2D仿射光流和恒等映射光流进行光流融合，生成全局稠密光流；提取源图像的特征图像对其进行形变，生成目标图像；根据驱动视频中每帧驱动图像，获取源图像对应的目标图像，合成目标视频。本申请避免了合成视频中出现维度退化或人脸区域出现不真实的扭曲，能很好的保持源图像人脸的身份信息，对背景与被遮挡区域能取得较好的生成效果。

Description

视频合成方法及其装置

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种视频合成方法及其装置。

背景技术

人脸动作视频合成/人脸驱动(Face Animation)是指利用计算机视觉相关技术，通过给定一张源(source)人脸图片和一段驱动(driving)人脸视频，来生成一段由源图片中人脸模仿驱动视频中人脸动作的视频。

相关技术中，在通过给定一张源人脸图片和一段驱动人脸视频，来生成一段由源人脸图片中人脸模仿驱动人脸视频中人脸动作的视频时，会出现人脸区域失真、背景区域或者被遮挡区域重建效果较差的问题。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的一个目的在于提出一种视频合成方法，通过对源图像和驱动图像进行3D人脸重建，并基于重建的3D人脸，获取3D人脸重演图像和3D光流，其中，源图像携带源人脸，驱动图像为驱动视频中携带被替换人脸的帧图像；对源图像和驱动图像进行一阶运动关键点检测，以获取N个一阶2D仿射光流，并基于N个一阶2D仿射光流，生成N个仿射形变源图像；基于3D人脸重演图像、N个仿射形变源图像和源图像，对3D光流、N个一阶2D仿射光流和恒等映射光流进行光流融合，生成全局稠密光流；提取源图像的特征图像，基于全局稠密光流对特征图像进行形变，并根据形变后的特征图像，生成源图像对应的目标图像；根据驱动视频中每一帧驱动图像，获取源图像对应的目标图像，并基于所有的目标图像合成目标视频。本申请通过一阶运动关键点检测，提取出源图像和驱动图像的光流信息，能够捕捉到待替换视频中的驱动人脸的运动特征，避免了出现维度退化问题或者合成视频中人脸区域出现不真实的扭曲，通过采集源图像和驱动图像的3D人脸，对于人脸的大角度姿态变换和大幅度平移运动能够非常有效的建模，能够很好的保持源图像中人脸的身份信息，且对背景和被遮挡区域能够取得更好的生成效果。

本申请的第二个目的在于提出一种视频合成装置。

本申请的第三个目的在于提出一种电子设备。

本申请的第四个目的在于提出一种非瞬时计算机可读存储介质。

本申请的第五个目的在于提出一种计算机程序产品。

为达上述目的，本申请第一方面实施方式提出了一种视频合成方法，包括：对源图像和驱动图像进行3D人脸重建，并基于重建的3D人脸，获取3D人脸重演图像和3D光流，其中，所述源图像携带源人脸，所述驱动图像为驱动视频中携带被替换人脸的帧图像；对所述源图像和所述驱动图像进行一阶运动关键点检测，以获取N个一阶2D仿射光流，并基于N个所述一阶2D仿射光流，生成N个仿射形变源图像；基于所述3D人脸重演图像、N个所述仿射形变源图像和所述源图像，对所述3D光流、N个所述一阶2D仿射光流和恒等映射光流进行光流融合，生成全局稠密光流；提取所述源图像的特征图像，基于所述全局稠密光流对所述特征图像进行形变，并根据形变后的特征图像，生成所述源图像对应的目标图像；根据所述驱动视频中每一帧驱动图像，获取所述源图像对应的所述目标图像，并基于所有的所述目标图像合成目标视频。

根据本申请的一种实施方式，所述提取所述源图像的特征图像，基于所述全局稠密光流对所述特征图像进行形变，并根据形变后的特征图像，生成所述源图像对应的目标图像，包括：通过编码器中M个卷积层逐层提取所述源图像的多层特征图像；基于所述全局稠密光流对每层所述特征图像进行形变，并对应输入解码器M个卷积层进行解码，生成所述目标图像，其中，所述解码器中的M个卷积层与所述编码器的M个卷积层尺寸对应。

根据本申请的一种实施方式，所述视频合成方法，还包括：根据所述3D人脸重演图像、N个所述仿射形变源图像和所述源图像，获取所述源图像中遮挡区域的图像掩模；基于所述图像掩模，将所述驱动图像的3D人脸的特征图像融合至所述编码器的第M个卷积层提取的第M层特征图像中，生成融合特征图像；基于所述全局稠密光流对所述融合特征图像进行形变，并对应输入所述解码器的第M个卷积层中进行解码。

根据本申请的一种实施方式，所述基于所述图像掩模，将所述驱动图像的3D人脸的特征图像融合至所述编码器的第M个卷积层提取的第M层特征图像中，生成融合特征图像，包括：基于所述图像掩模生成互补图像掩模；对所述驱动图像的3D人脸的特征图像与所述图像掩模，以及所述第M层特征图像与所述互补图像掩模进行特征加权，生成所述融合特征图像。

根据本申请的一种实施方式，所述对源图像和驱动图像进行3D人脸重建，包括：将所述源图像和所述驱动图像分别输入3D可变型模型3DMM编码器中，提取所述源图像对应的第一3DMM特征参数和所述驱动图像对应的第二3DMM特征参数；将所述第一3DMM特征参数和所述第二3DMM特征参数输入3DMM解码器中，生成所述源图像对应的第一3D人脸和所述驱动图像对应的第二3D人脸。

根据本申请的一种实施方式，所述基于重建的3D人脸，获取3D人脸重演图像和3D光流，包括：从所述源图像中提取纹理信息，并将所述纹理信息映射到所述第二3D人脸上；将映射后的第二3D人脸输入可微分渲染器进行渲染，生成所述3D人脸重演图像；获取所述第一3D人脸与所述第二3D人脸的3D坐标差；将所述3D坐标差输入所述可微分渲染器进行渲染，生成所述3D光流。

根据本申请的一种实施方式，所述将所述纹理信息映射到所述第二3D人脸上，包括：基于所述源图像与所述第一3D人脸的投影关系，从所述第一3D人脸上提取所述纹理信息对应的第一顶点，将所述纹理信息映射到与所述第一顶点对应的所述第二3D人脸的第二顶点上。

根据本申请的一种实施方式，所述对所述源图像和所述驱动图像进行一阶运动关键点检测，以获取N个一阶2D仿射光流，包括：将所述源图像和所述驱动图像分别输入一阶运动关键点检测器中，输出所述源图像对应的N个第一一阶运动信息，以及所述驱动图像对应的N个第二一阶运动信息，其中，所述第一一阶运动信息包括第一一阶关键点和所述第一一阶关键点对应的第一雅克比矩阵，所述第二一阶运动信息包括第二一阶关键点和所述第二一阶关键点对应的第二雅克比矩阵；对N个所述第一一阶运动信息和N个所述第二一阶运动信息进行一阶运动估计，生成N个所述一阶2D仿射光流。

根据本申请的一种实施方式，所述基于所述3D人脸重演图像、N个所述仿射形变源图像和所述源图像，对所述3D光流、N个所述一阶2D仿射光流和恒等映射光流进行光流融合，生成全局稠密光流，包括：根据所述3D人脸重演图像、N个所述仿射形变源图像和所述源图像，分别生成所述3D人脸重演图像对应的第一权重、N个所述仿射形变源图像对应的N个第二权重，以及所述源图像对应的第三权重；分别对所述3D光流与所述第一权重、N个所述一阶2D仿射光流与对应的所述第二权重，以及所述恒等映射光流与所述第三权重，进行光流加权处理，生成所述全局稠密光流。

为达上述目的，本申请第二方面实施方式提出了一种视频合成装置，包括：人脸重建模块，用于对源图像和驱动图像进行3D人脸重建，并基于重建的3D人脸，获取3D人脸重演图像和3D光流，其中，所述源图像携带源人脸，所述驱动图像为驱动视频中携带被替换人脸的帧图像；一阶运动模块，用于对所述源图像和所述驱动图像进行一阶运动关键点检测，以获取N个一阶2D仿射光流，并基于N个所述一阶2D仿射光流，生成N个仿射形变源图像；光流融合模块，用于基于所述3D人脸重演图像、N个所述仿射形变源图像和所述源图像，对所述3D光流、N个所述一阶2D仿射光流和恒等映射光流进行光流融合，生成全局稠密光流；目标图像获取模块，用于提取所述源图像的特征图像，基于所述全局稠密光流对所述特征图像进行形变，并根据形变后的特征图像，生成所述源图像对应的目标图像；目标视频合成模块，用于根据所述驱动视频中每一帧驱动图像，获取所述源图像对应的所述目标图像，并基于所有的所述目标图像合成目标视频。

根据本申请的一种实施方式，所述目标图像获取模块，还用于：通过编码器中M个卷积层逐层提取所述源图像的多层特征图像；基于所述全局稠密光流对每层所述特征图像进行形变，并对应输入解码器M个卷积层进行解码，生成所述目标图像，其中，所述解码器中的M个卷积层与所述编码器的M个卷积层尺寸对应。

根据本申请的一种实施方式，所述目标图像获取模块，还用于：根据所述3D人脸重演图像、N个所述仿射形变源图像和所述源图像，获取所述源图像中遮挡区域的图像掩模；基于所述图像掩模，将所述驱动图像的3D人脸的特征图像融合至所述编码器的第M个卷积层提取的第M层特征图像中，生成融合特征图像；基于所述全局稠密光流对所述融合特征图像进行形变，并对应输入所述解码器的第M个卷积层中进行解码。

根据本申请的一种实施方式，所述目标图像获取模块，还用于：基于所述图像掩模生成互补图像掩模；对所述驱动图像的3D人脸的特征图像与所述图像掩模，以及所述第M层特征图像与所述互补图像掩模进行特征加权，生成所述融合特征图像。

根据本申请的一种实施方式，所述人脸重建模块，还用于：将所述源图像和所述驱动图像分别输入3D可变型模型3DMM编码器中，提取所述源图像对应的第一3DMM特征参数和所述驱动图像对应的第二3DMM特征参数；将所述第一3DMM特征参数和所述第二3DMM特征参数输入3DMM解码器中，生成所述源图像对应的第一3D人脸和所述驱动图像对应的第二3D人脸。

根据本申请的一种实施方式，所述人脸重建模块，还用于：从所述源图像中提取纹理信息，并将所述纹理信息映射到所述第二3D人脸上；将映射后的第二3D人脸输入可微分渲染器进行渲染，生成所述3D人脸重演图像；获取所述第一3D人脸与所述第二3D人脸的3D坐标差；将所述3D坐标差输入所述可微分渲染器进行渲染，生成所述3D光流。

根据本申请的一种实施方式，所述人脸重建模块，还用于：基于所述源图像与所述第一3D人脸的投影关系，从所述第一3D人脸上提取所述纹理信息对应的第一顶点，将所述纹理信息映射到与所述第一顶点对应的所述第二3D人脸的第二顶点上。

根据本申请的一种实施方式，所述一阶运动模块，还用于：将所述源图像和所述驱动图像分别输入一阶运动关键点检测器中，输出所述源图像对应的N个第一一阶运动信息，以及所述驱动图像对应的N个第二一阶运动信息，其中，所述第一一阶运动信息包括第一一阶关键点和所述第一一阶关键点对应的第一雅克比矩阵，所述第二一阶运动信息包括第二一阶关键点和所述第二一阶关键点对应的第二雅克比矩阵；对N个所述第一一阶运动信息和N个所述第二一阶运动信息进行一阶运动估计，生成N个所述一阶2D仿射光流。

根据本申请的一种实施方式，所述光流融合模块，还用于：根据所述3D人脸重演图像、N个所述仿射形变源图像和所述源图像，分别生成所述3D人脸重演图像对应的第一权重、N个所述仿射形变源图像对应的N个第二权重，以及所述源图像对应的第三权重；分别对所述3D光流与所述第一权重、N个所述一阶2D仿射光流与对应的所述第二权重，以及所述恒等映射光流与所述第三权重，进行光流加权处理，生成所述全局稠密光流。

为达上述目的，本申请第三方面实施方式提出了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以实现如本申请第一方面实施方式所述的视频合成方法。

为达上述目的，本申请第四方面实施方式提出了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于实现如本申请第一方面实施方式所述的视频合成方法。

为达上述目的，本申请第五方面实施方式提出了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如本申请第一方面实施方式所述的视频合成方法。

附图说明

图1是本申请一个实施例的一种视频合成方法的示意图；

图2是本申请另一个实施例的一种视频合成方法的示意图；

图3是本申请另一个实施例的一种视频合成方法的示意图；

图4是本申请另一个实施例的一种视频合成方法的示意图；

图5是本申请另一个实施例的一种视频合成方法的示意图；

图6是本申请另一个实施例的一种视频合成方法的示意图；

图7是本申请另一个实施例的一种视频合成方法的示意图；

图8是本申请另一个实施例的一种视频合成方法的示意图；

图9是本申请另一个实施例的一种视频合成方法的示意图；

图10是本申请另一个实施例的一种视频合成方法的结构图；

图11是本申请一个实施例的一种视频合成装置的示意图；

图12是本申请一个实施例的电子设备的示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

图1为本申请示出的一种视频合成方法的示意图，如图1所示，该视频合成方法，包括以下步骤：

S101，对源图像和驱动图像进行3D人脸重建，并基于重建的3D人脸，获取3D人脸重演图像和3D光流，其中，源图像携带源人脸，驱动图像为驱动视频中携带被替换人脸的帧图像。

需要说明的是，本申请实施例中，将待替换人脸的图像，作为源图像。将携带被替换人脸的视频，作为驱动视频，将驱动视频中携带被替换人脸的帧图像作为驱动图像。其中，源图像和驱动图像都携带人脸，可选地，源图像和驱动图像中的人脸可以是同一个人，也可以是不同的人。

发明人发现人脸动作视频合成技术可以采用基于3D人脸的合成方法，该类方法通过源图像和驱动视频中的帧图像分别重建出3D人脸，并将驱动视频的3D人脸的姿态和表情转移到源3D人脸上，在通过图形渲染或生成对抗网络(Generative AdversarialNetworks，GAN)的方法合成动作视频。该方法虽然能够对人脸的3D结构有较好的建模效果，生成视频中的人脸姿态和运动能够更准确的模仿驱动视频，并且人脸的身份信息能够很好的保持，但该方法通常对于背景区域和被遮挡区域的重建效果较差。

基于上述，本申请实施例中，将源图像输入3D编码器中，输出源图像对应的特征参数，并将源图像对应的特征参数输入3D解码器中，输出源图像对应的3D人脸。

将驱动图像输入3D编码器中，输出驱动图像对应的特征参数，并将驱动图像对应的特征参数输入3D解码器中，输出驱动图像对应的3D人脸。

可选地，3D编码器可以为三维形变统计模型(3D Morphable Models，3DMM)编码器，3D解码器为3DMM解码器。

可选地，3D编码器可以为阴影恢复形状(Shape from Shading,SfS)编码器，3D解码器为SfS解码器。为了减小待替换人脸和被替换人脸之间的差异，从源图像中提取源图像人脸对应的纹理信息，其中，纹理特征刻画了图像中重复出现的局部模式与他们的排列规则，是一种全局特征，描述了图像或图像区域所对应景物的表面性质。将纹理信息映射到驱动图像对应的3D人脸上，可以使得映射后的3D人脸能够反应出源人脸的纹理特征，与源人脸的3D人脸更加相似，能够保证换脸效果更加逼真。进一步地，根据映射后的3D人脸，生成3D人脸重演图像。

可选地，由于源图像对应的3D人脸和驱动图像对应的3D人脸的顶点是一一对应的，可根据源图像对应的3D人脸和驱动图像对应的3D人脸每个像素点的坐标差，可以得到驱动图像对应的3D光流。其中，光流(optical flow)可以反映空间运动物体在观察成像平面上的像素运动的瞬时速度。

本申请引入的3D人脸建模能使模型更好的理解驱动图像中的前景和背景的关系，从而对背景，被遮挡区域能够取得更好的生成效果。

S102，对源图像和驱动图像进行一阶运动关键点检测，以获取N个一阶2D仿射光流，并基于N个一阶2D仿射光流，生成N个仿射形变源图像。

发明人发现人脸动作视频合成技术可以采用人脸关键点的合成方法，该方法以人脸关键点的位置信息作为GAN的一个条件输入，基于给定的驱动视频中人脸关键点的位置来合成相应的动作视频，往往需要大量的训练数据来使模型具有泛化能力。该方法虽然能够表征从源人脸到驱动人脸的运动信息，但该方法在保持生成视频的人脸身份信息不变，以及处理在源人脸图片中被遮挡但在驱动人脸图片中暴露出来的区域方面，表现出相对较差的效果。

发明人发现人脸动作视频合成技术还可以采用基于一阶运动模型的合成方法，该方法融合若干个一阶2D仿射变换来估计一个整体的稠密光流，进而将源图像变形，并利用GAN进行修复，生成最后的结果。虽然一阶2D仿射变换对于头发，胡须，衣服等区域的建模效果很好，但对于刚性更强的人脸区域，当人脸出现大角度的姿态变换和大幅度的平移运动时，单纯的2D仿射变换不足以用来建模人脸在3D空间中的运动，因此导致在人脸区域通常会出现失真的扭曲效果。

基于上述，本申请实施例将源图像和驱动图像输入到一阶运动关键点检测器中进行一阶运动关键点检测，分别输出源图像和驱动图像对应的N个一阶运动信息，其中，一阶运动信息包括一阶运动关键点和对应的雅克比矩阵。

可选地，结合源图像的N个一阶运动信息和驱动图像的N个一阶运动信息进行运动估计，可以估计出N个一阶2D仿射光流，这些一阶2D仿射光流用来建模头发，胡须，衣服等区域。实现中，可以对N个一阶运动信息和驱动图像的N个一阶运动信息进行一阶泰勒展开，即可生成N个一阶2D仿射光流。

进一步地，利用上述估计的N个一阶2D仿射光流，对源图像进行形变，得到N个经过2D仿射形变的仿射形变源图像。

本申请将一阶运动模型与3D人脸模型相结合，避免了纯2D仿射变换建模出现的维度退化问题，同时3D人脸对于人脸的大角度姿态变换和大幅度平移运动能够非常有效的建模，能够避免合成视频中人脸区域出现不真实的扭曲，并能够很好的保持源图片中人脸的身份信息。

S103，基于3D人脸重演图像、N个仿射形变源图像和源图像，对3D光流、N个一阶2D仿射光流和恒等映射光流进行光流融合，生成全局稠密光流。

稠密光流(Dense Optical Flow)是一种针对图像进行逐点匹配的图像配准方法，不同于稀疏光流只针对图像上若干个特征点，稠密光流计算图像上所有的点的偏移量，从而形成一个稠密的光流场。通过这个稠密的光流场，可以进行像素级别的图像配准，所以其配准后的效果也明显优于稀疏光流配准的效果。

根据3D人脸重演图像、N个仿射形变源图像和源图像，可分别获得其对应的权重，分别将3D光流与3D人脸重演图像对应的权重、N个一阶2D仿射光流与仿射形变源图像对应的N个权重、恒等映射光流与源图像对应的权重相乘，将得到的三组结果进行光流融合，生成全局稠密光流。

可选地，可以基于源图像，确定一个可以映射出自身的恒等映射光流，通过该恒等映射光流进行形变，可以映射出源图像本身，同样的，由于背景区域为图像中静止不动的区域，在通过该恒等映射光流映射会对背景区域进行建模，从而可以通过一个恒等映射光流反映出该背景区域的运动。

S104，提取源图像的特征图像，基于全局稠密光流对特征图像进行形变，并根据形变后的特征图像，生成源图像对应的目标图像。

将源图像输入编码器，提取源图像的多层特征图像，基于全局稠密光流，根据预先设置的形变算子，对每层特征图像进行形变，将形变后的每层特征图像输入解码器中对应层进行解码，最终生成源图像对应的目标图像。

S105，根据驱动视频中每一帧驱动图像，获取源图像对应的目标图像，并基于所有的目标图像合成目标视频。

获取驱动视频中每一帧驱动图像，对于每一帧驱动图像都可以采用上述方法，得到一帧与源图像对应的目标图像。例如，从驱动视频中的第1帧驱动图像开始，对第1帧驱动图像按照上述步骤进行处理后，可以获取到第1帧目标图像，对于第i帧驱动图像按照上述步骤进行处理后，可以获取到第i帧目标图像。

将所有的目标图像按照驱动视频中每一帧驱动图像的顺序进行组合或拼接，即可得到将源图像与驱动图像进行换脸后的视频，作为目标视频。

本申请实施例提出一种视频合成方法，通过对源图像和驱动图像进行3D人脸重建，并基于重建的3D人脸，获取3D人脸重演图像和3D光流，其中，源图像携带源人脸，驱动图像为驱动视频中携带被替换人脸的帧图像；对源图像和驱动图像进行一阶运动关键点检测，以获取N个一阶2D仿射光流，并基于N个一阶2D仿射光流，生成N个仿射形变源图像；基于3D人脸重演图像、N个仿射形变源图像和源图像，对3D光流、N个一阶2D仿射光流和恒等映射光流进行光流融合，生成全局稠密光流；提取源图像的特征图像，基于全局稠密光流对特征图像进行形变，并根据形变后的特征图像，生成源图像对应的目标图像；根据驱动视频中每一帧驱动图像，获取源图像对应的目标图像，并基于所有的目标图像合成目标视频。本申请通过一阶运动关键点检测，提取出源图像和驱动图像的光流信息，能够捕捉到待替换视频中的驱动人脸的运动特征，避免了出现维度退化问题或者合成视频中人脸区域出现不真实的扭曲，通过采集源图像和驱动图像的3D人脸，对于人脸的大角度姿态变换和大幅度平移运动能够非常有效的建模，能够很好的保持源图像中人脸的身份信息，且对背景和被遮挡区域能够取得更好的生成效果。

图2为本申请示出的一种视频合成方法的示意图，如图2所示，在上述实施例基础之上，步骤S104提取源图像的特征图像，基于全局稠密光流对特征图像进行形变，并根据形变后的特征图像，生成源图像对应的目标图像，可以包括以下步骤：

S201，通过编码器中M个卷积层逐层提取源图像的多层特征图像。

采用自监督的训练策略，在训练人脸动作视频中采样源图像和驱动图像对，生成驱动后的图像，并利用真实的驱动图像进行监督，训练出一个编码器-解码器结构的U型网络。将源图像输入编码器中，编码器中的M个卷积层对源图像进行逐层提取，得到源图像的多层特征图像。

S202，基于全局稠密光流对每层特征图像进行形变，并对应输入解码器M个卷积层进行解码，生成目标图像，其中，解码器中的M个卷积层与编码器的M个卷积层尺寸对应。

基于全局稠密光流，根据预先设置的形变算子，和上述获得的驱动图像对应的特征参数，对上述源图像的多层特征图像得每层特征图像进行形变，并将形变后的每层特征图像输入解码器，解码器的M个卷积层会对形变后的每层特征图像进行解码，生成源图像对应的目标图像。其中，解码器中的M个卷积层与编码器的M个卷积层尺寸一一对应，比如说解码器中的第2个卷积层与编码器的第2个卷积层尺寸对应，解码器中的第i个卷积层与编码器的第i个卷积层尺寸对应。

本申请实施例提取源图像的特征图像，基于全局稠密光流对特征图像进行形变，并根据形变后的特征图像，生成源图像对应的目标图像，将源图像与驱动图像进行了人脸变换，取得更好的变换效果。

图3为本申请示出的一种视频合成方法的示意图，如图3所示，基于上述实施例的基础上，为了保证视频中换脸效果逼真，在生成目标图像的过程中，还需要考虑源图像中的遮挡区域和驱动图像的3D人脸的特征，该视频合成方法还可以将驱动图像的3D人脸的特征图像融合与编码器第M个卷积层提取的第M层特征图像进行特征融合，以对最深层的特征图像进行修复，以保证目标图像换脸逼真自然。如图3所示，可以包括以下步骤：

S301，根据3D人脸重演图像、N个仿射形变源图像和源图像，获取源图像中遮挡区域的图像掩模。

可选地，Sigmoid函数是一种常见的S型函数，也称为S型生长曲线，其取值范围为(0,1)，它可以将一个实数映射到(0,1)的区间，可以用来做二分类。本申请实施例中，将3D人脸重演图像、N个仿射形变源图像和源图像输入到包含Sigmoid函数的预先训练好的网络中，经Sigmoid函数将各图像的图像值映射到(0,1)的区间，得到源图像中遮挡区域的图像掩模。

S302，基于图像掩模，将驱动图像的3D人脸的特征图像融合至编码器的第M个卷积层提取的第M层特征图像中，生成融合特征图像。

为了对最深层的特征图像进行修复，以保证目标图像换脸逼真自然，本申请实施例基于图像掩模，将驱动图像的3D人脸的特征图像融合与编码器第M个卷积层提取的第M层特征图像进行特征融合，生成融合特征图像。该融合特征图像能够将驱动图像人脸的表情、位姿等信息注入到源图像人脸中，以保证目标图像换脸更加逼真自然。

作为一种可能的实现方式，如图4所示，基于图像掩模，将驱动图像的3D人脸的特征图像融合至编码器的第M个卷积层提取的第M层特征图像中，生成融合特征图像，包括以下步骤：

S401，基于图像掩模生成互补图像掩模。

其中，图像掩模中每个像素点之和为1，因此可以将上述获得的图像掩模中的每个像素点的取值与1进行作差，并将得到的差值的绝对值作为该像素点的互补取值，从而形成源图像中遮挡区域的互补图像掩模。

S402，对驱动图像的3D人脸的特征图像与图像掩模，以及第M层特征图像与互补图像掩模进行特征加权，生成融合特征图像。

将驱动图像的3D人脸输入编码器的第M个卷积层提取的第M层特征图像，将驱动图像的3D人脸的特征图像与图像掩模，以及第M层特征图像与互补图像掩模分别进行特征加权，生成融合特征图像。

S303，基于全局稠密光流对融合特征图像进行形变，并对应输入解码器的第M个卷积层中进行解码。

基于全局稠密光流，根据预先设置的形变算子，对上述源图像的多层特征图像得每层特征图像进行形变，并将形变后的第M层特征图像输入解码器的第M个卷积层，进行解码，生成源图像对应的目标图像。

本申请实施例基于图像掩模，将驱动图像的3D人脸的特征图像融合至编码器的第M个卷积层提取的第M层特征图像中，生成融合特征图像，能很好的在生成视频中生成源图像中被遮挡的在生成的视频中需要展露出来的区域。

图5为本申请示出的一种视频合成方法的示意图，如图5所示，对源图像和驱动图像进行3D人脸重建，包括以下步骤：

S501，将源图像和驱动图像分别输入3D可变型模型3DMM编码器中，提取源图像对应的第一3DMM特征参数和驱动图像对应的第二3DMM特征参数。

将源图像和驱动图像分别输入3D可变型模型3DMM编码器中，分别输出源图像对应的特征参数和驱动图像对应的特征参数，将源图像对应的特征参数作为第一3DMM特征参数，将驱动图像对应的特征参数作为第二3DMM特征参数。其中，第一3DMM特征参数能展现源图像人脸对应的第一3DMM参数信息，包括源图像人脸的形状，表情，位姿等。同样的，第二3DMM特征参数同样能展现驱动图像人脸对应的第二3DMM参数信息，包括驱动图像人脸的形状，表情，位姿等。

S502，将第一3DMM特征参数和第二3DMM特征参数输入3DMM解码器中，生成源图像对应的的第一3D人脸和驱动图像对应的第二3D人脸。

将第一3DMM特征参数输入3DMM解码器中，3DMM解码器可根据第一3DMM特征参数对应的源图像人脸的形状，表情，位姿等第一3DMM参数信息，输出源图像对应的3D人脸，作为第一3D人脸。同样的，将第二3DMM特征参数输入3DMM解码器中，3DMM解码器可根据第二3DMM特征参数对应的驱动图像人脸的形状，表情，位姿等第二3DMM参数信息，输出驱动图像对应的3D人脸，作为第一3D人脸。其中，根据第一3DMM特征参数，生成第一3DMM参数向量，第一3DMM特征参数是以第一3DMM参数向量的形式输入解码器的，同样的，根据第二3DMM特征参数，生成第二3DMM参数向量，第二3DMM特征参数是以第二3DMM参数向量的形式输入解码器的。

本申请实施例对源图像和驱动图像进行3D人脸重建，能够对人脸的3D结构有较好的建模效果，生成视频中的人脸姿态和运动能够更准确的模仿驱动视频，并且人脸的身份信息能够很好的保持。

图6为本申请示出的一种视频合成方法的示意图，如图6所示，在上述实施例基础之上，基于重建的3D人脸，获取3D人脸重演图像和3D光流，可以包括以下步骤：

S601，从源图像中提取纹理信息，并将纹理信息映射到第二3D人脸上。

为了减小待替换人脸和被替换人脸之间的差异，从源图像中提取人脸的纹理信息，其中，纹理是一种反映图像中同质现象的视觉特征，它体现了物体表面的具有缓慢变化或者周期性变化的表面结构组织排列属性。根据源图像与第一3D人脸的投影关系，从第一3D人脸上提取纹理信息对应的顶点，作为第一顶点，将纹理信息映射到与第一顶点对应的第二3D人脸的第二顶点上。

作为一种可实现的方式，提取源图像中人脸的纹理信息的方法可采用灰度共生矩阵法(Gray-level co-occurrence matrix，GLCM)，就是通过计算灰度图像得到它的共生矩阵，然后通过计算该共生矩阵得到矩阵的部分特征值，来分别代表图像的某些纹理特征。

作为另一种可实现的方式，提取源图像中人脸的纹理信息的方法可采用局部二值模式法(Local Binary Pattern，LBP)，LBP是一种用来描述图像局部纹理特征的算子，具有多分辨率、灰度尺度不变、旋转不变等特性，主要用于特征提取中的纹理提取。

S602，将映射后的第二3D人脸输入可微分渲染器进行渲染，生成3D人脸重演图像。

将上述映射后得到的第二3D人脸输入可微分渲染器进行渲染，生成3D人脸重演图像。其中，可微分渲染器(Differentiable Renderer)，输入为3D人脸和对应的顶点属性(RGB纹理/法向量/3D顶点运动等)，输出一张渲染得到的2D图片，2D图片的像素点的值为对应顶点属性的线性插值结果。

S603，获取第一3D人脸与第二3D人脸的3D坐标差。

第一3D人脸与第二3D人脸的顶点是一一对应的，根据源图像对应的第一3D人脸和驱动图像对应的第二3D人脸的每个像素点的坐标值，计算第一3D人脸与第二3D人脸每个像素点的3D坐标差，即得到从第一3D人脸到第二3D人脸中每个顶点的运动信息。

S604，将3D坐标差输入可微分渲染器进行渲染，生成3D光流。

将上述获取到的3D坐标差输入可微分渲染器进行渲染，生成3D光流。其中，3D光流是空间运动物体在观察成像平面上的像素运动的瞬时速度，是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息的一种方法。一般而言，光流是由于场景中前景目标本身的移动、相机的运动，或者两者的共同运动所产生的。

本申请实施例基于重建的3D人脸，获取3D人脸重演图像和3D光流，能够对人脸的3D结构有较好的建模效果，生成视频中的人脸姿态和运动能够更准确的模仿驱动视频，并且人脸的身份信息能够很好的保持。

图7为本申请示出的一种视频合成方法的示意图，如图7所示，对源图像和驱动图像进行一阶运动关键点检测，以获取N个一阶2D仿射光流，包括以下步骤：

S701，将源图像和驱动图像分别输入一阶运动关键点检测器中，输出源图像对应的N个第一一阶运动信息，以及驱动图像对应的N个第二一阶运动信息，其中，第一一阶运动信息包括第一一阶关键点和第一一阶关键点对应的第一雅克比矩阵，第二一阶运动信息包括第二一阶关键点和第二一阶关键点对应的第二雅克比矩阵。

本申请中，除了对3D人脸进行建模外，还需要对3D人脸以外的区域，如头发，胡须，衣服等进行建模。将源图像输入一阶运动关键点检测器中，输出源图像对应的N个一阶关键点，作为第一一阶关键点，及N个第一一阶关键点对应的雅克比矩阵，作为第一雅克比矩阵。将第一一阶关键点和第一一阶关键点对应的第一雅克比矩阵作为第一一阶运动信息。

同样的，将驱动图像输入一阶运动关键点检测器中，输出驱动图像对应的N个一阶关键点，作为第二一阶关键点，及N个第二一阶关键点对应的雅克比矩阵，作为第二雅克比矩阵。将第二一阶关键点和第二一阶关键点对应的第二雅克比矩阵作为第二一阶运动信息。

S702，对N个第一一阶运动信息和N个第二一阶运动信息进行一阶运动估计，生成N个一阶2D仿射光流。

可选地，根据上述获得的第一一阶运动信息和第二一阶运动信息，通过一阶泰勒展开即可估计出对应的N个一阶2D仿射光流，这些一阶2D仿射光流用来建模头发，胡须，衣服等区域。

本申请实施例中，人脸关键点能够表征从源图像人脸到驱动图像人脸的运动信息，并且一阶2D仿射变换对于头发，胡须，衣服等区域的建模效果比较好。

图8为本申请示出的一种视频合成方法的示意图，如图8所示，基于3D人脸重演图像、N个仿射形变源图像和源图像，对3D光流、N个一阶2D仿射光流和恒等映射光流进行光流融合，生成全局稠密光流，包括以下步骤：

S801，根据3D人脸重演图像、N个仿射形变源图像和源图像，分别生成3D人脸重演图像对应的第一权重、N个仿射形变源图像对应的N个第二权重，以及源图像对应的第三权重。

可选地，Softmax函数用于多分类过程中，它将多个神经元的输出，映射到(0,1)区间内，并且归一化保证和为1，从而使得多分类的概率之和也刚好为1，可以看成概率来理解，从而来进行多分类。本申请实施例中，将3D人脸重演图像、N个仿射形变源图像和源图像输入到包含Softmax函数的预先训练好的网络中，经Softmax函数将各图像的图像值映射到(0,1)的区间，将各图像的映射概率值作为其权重。其中，将3D人脸重演图像对应的权重，称为第一权重；将N个仿射形变源图像分别对应的N个权重，称为第二权重；将源图像对应的权重，称为第三权重。

S802，分别对3D光流与第一权重、N个一阶2D仿射光流与对应的第二权重，以及恒等映射光流与第三权重，进行光流加权处理，生成全局稠密光流。

将3D光流与其对应的第一权重进行相乘、N个一阶2D仿射光流与其各自对应的第二权重进行相乘、恒等映射光流与其对应的第三权重进行相乘，对得到的三个相乘后的结果进行光流加权处理，生成全局稠密光流。

本申请实施例基于3D人脸重演图像、N个仿射形变源图像和源图像，对3D光流、N个一阶2D仿射光流和恒等映射光流进行光流融合，生成全局稠密光流，能够很好的表示从源图像到驱动图像的全局运动。

图9为本申请示出的一种视频合成方法的示意图，如图9所示，该视频合成方法，包括以下步骤：

S901，将源图像和驱动图像分别输入3D可变型模型3DMM编码器中，提取源图像对应的第一3DMM特征参数和驱动图像对应的第二3DMM特征参数。

S902，将第一3DMM特征参数和第二3DMM特征参数输入3DMM解码器中，生成源图像的第一3D人脸和驱动图像对应的第二3D人脸。

关于步骤S901～S902，上述实施例已做具体介绍，在此不再进行赘述。

S903，从源图像中提取纹理信息，并将纹理信息映射到第二3D人脸上。

S904，将映射后的第二3D人脸输入可微分渲染器进行渲染，生成3D人脸重演图像。

S905，获取第一3D人脸与第二3D人脸的3D坐标差。

S906，将3D坐标差输入可微分渲染器进行渲染，生成3D光流。

关于步骤S903～S906，上述实施例已做具体介绍，在此不再进行赘述。

S907，对源图像和驱动图像进行一阶运动关键点检测，以获取N个一阶2D仿射光流，并基于N个一阶2D仿射光流，生成N个仿射形变源图像。

S908，根据3D人脸重演图像、N个仿射形变源图像和源图像，分别生成3D人脸重演图像对应的第一权重、N个仿射形变源图像对应的N个第二权重，以及源图像对应的第三权重。

S909，分别对3D光流与第一权重、N个一阶2D仿射光流与对应的第二权重，以及恒等映射光流与第三权重，进行光流加权处理，生成全局稠密光流。

关于步骤S907～S909，上述实施例已做具体介绍，在此不再进行赘述。

S910，通过编码器中M个卷积层逐层提取源图像的多层特征图像。

S911，基于全局稠密光流对每层特征图像进行形变，并对应输入解码器M个卷积层进行解码，生成目标图像。

关于步骤S910～S911，上述实施例已做具体介绍，在此不再进行赘述。

S912，根据驱动视频中每一帧驱动图像，获取源图像对应的目标图像，并基于所有的目标图像合成目标视频。

本申请实施例提出一种视频合成方法，通过对源图像和驱动图像进行3D人脸重建，并基于重建的3D人脸，获取3D人脸重演图像和3D光流，其中，源图像携带源人脸，驱动图像为驱动视频中携带被替换人脸的帧图像；对源图像和驱动图像进行一阶运动关键点检测，以获取N个一阶2D仿射光流，并基于N个一阶2D仿射光流，生成N个仿射形变源图像；基于3D人脸重演图像、N个仿射形变源图像和源图像，对3D光流、N个一阶2D仿射光流和恒等映射光流进行光流融合，生成全局稠密光流；提取源图像的特征图像，基于全局稠密光流对特征图像进行形变，并根据形变后的特征图像，生成源图像对应的目标图像；根据驱动视频中每一帧驱动图像，获取源图像对应的目标图像，并基于所有的目标图像合成目标视频。本申请通过一阶运动关键点检测，提取出源图像和驱动图像的光流信息，能够捕捉到待替换视频中的驱动人脸的运动特征，避免了出现维度退化问题或者合成视频中人脸区域出现不真实的扭曲，通过采集源图像和驱动图像的3D人脸，对于人脸的大角度姿态变换和大幅度平移运动能够非常有效的建模，能够很好的保持源图像中人脸的身份信息，且对背景和被遮挡区域能够取得更好的生成效果。图10为本申请实施例提供的一种视频合成系统的结构框图，如图10所示，视频合成系统用于实现本申请实施例提出的视频合成方法。该视频合成系统包括：3D模块、一阶运动模块、稠密光流模块和生成模块。其中，3D模块对源图像和驱动图像进行3D人脸重建，并基于重建的3D人脸，获取3D人脸重演图像和3D光流。其中，3D模块包括3DMM编码器、3DMM解码器、纹理特征提取单元、3D运动获取单元和可微分渲染器。首先源图像和驱动图像分别输入到3DMM编码器中，输出源图像对应的第一3DMM特征参数和驱动图像对应的第二3DMM特征参数，将输出的源图像对应的第一3DMM特征参数和驱动图像对应的第二3DMM特征参数输入3DMM解码器中，生成源图像对应的第一3D人脸和驱动图像对应的第二3D人脸；从源图像中提取纹理信息，并将纹理信息映射到第二3D人脸上；将映射后的第二3D人脸输入可微分渲染器进行渲染，生成3D人脸重演图像；获取第一3D人脸与第二3D人脸的3D坐标差；将3D坐标差输入可微分渲染器进行渲染，生成3D光流。

其中，一阶运动模块对源图像和驱动图像进行一阶运动关键点检测，以获取N个一阶2D仿射光流，并基于N个一阶2D仿射光流，生成N个仿射形变源图像。其中，一阶运动模块包括一阶运动关键点检测器、一阶运动估计单元、形变算子单元。首先将源图像和驱动图像分别输入一阶运动关键点检测器中，输出源图像对应的N个第一一阶运动信息，以及驱动图像对应的N个第二一阶运动信息，其中，第一一阶运动信息包括第一一阶关键点和第一一阶关键点对应的第一雅克比矩阵，第二一阶运动信息包括第二一阶关键点和第二一阶关键点对应的第二雅克比矩阵；对N个第一一阶运动信息和N个第二一阶运动信息进行一阶运动估计，生成N个一阶2D仿射光流。

其中，稠密光流模块基于3D人脸重演图像、N个仿射形变源图像和源图像，对3D光流、N个一阶2D仿射光流和恒等映射光流进行光流融合，生成全局稠密光流。其中，稠密光流模块包括稠密光流估计单元，遮挡区域掩模单元。首先根据3D人脸重演图像、N个仿射形变源图像和源图像，分别生成3D人脸重演图像对应的第一权重、N个仿射形变源图像对应的N个第二权重，以及源图像对应的第三权重；分别对3D光流与第一权重、N个一阶2D仿射光流与对应的第二权重，以及恒等映射光流与第三权重，进行光流加权处理，生成全局稠密光流。

其中，生成模块提取源图像的特征图像，基于全局稠密光流对特征图像进行形变，并根据形变后的特征图像，生成源图像对应的目标图像。其中，生成模块包括编码器、解码器、形变算子单元、特征注入单元。首先通过编码器中M个卷积层逐层提取源图像的多层特征图像；基于全局稠密光流对每层特征图像进行形变，并对应输入解码器M个卷积层进行解码，生成目标图像，其中，解码器中的M个卷积层与编码器的M个卷积层尺寸对应。

本申请实施例通过对源图像和驱动图像进行一阶运动关键点检测，以获取N个一阶2D仿射光流，并基于N个一阶2D仿射光流，生成N个仿射形变源图像；基于3D人脸重演图像、N个仿射形变源图像和源图像，对3D光流、N个一阶2D仿射光流和恒等映射光流进行光流融合，生成全局稠密光流；提取源图像的特征图像，基于全局稠密光流对特征图像进行形变，并根据形变后的特征图像，生成源图像对应的目标图像；根据驱动视频中每一帧驱动图像，获取源图像对应的目标图像，并基于所有的目标图像合成目标视频。本申请避免了出现维度退化问题或者合成视频中人脸区域出现不真实的扭曲，并能够很好的保持源图片中人脸的身份信息，且对背景，被遮挡区域能够取得更好的生成效果。

图11为本申请实施例示出的一种视频合成装置的示意图，如图11所示，该视频合成装置1100包括人脸重建模块1101、一阶运动模块1102、光流融合模块1103、目标图像获取模块1104和目标视频合成模块1105，其中：

人脸重建模块1101，用于对源图像和驱动图像进行3D人脸重建，并基于重建的3D人脸，获取3D人脸重演图像和3D光流，其中，源图像携带源人脸，驱动图像为驱动视频中携带被替换人脸的帧图像。

一阶运动模块1102，用于对源图像和驱动图像进行一阶运动关键点检测，以获取N个一阶2D仿射光流，并基于N个一阶2D仿射光流，生成N个仿射形变源图像。

光流融合模块1103，用于基于3D人脸重演图像、N个仿射形变源图像和源图像，对3D光流、N个一阶2D仿射光流和恒等映射光流进行光流融合，生成全局稠密光流。

目标图像获取模块1104，用于提取源图像的特征图像，基于全局稠密光流对特征图像进行形变，并根据形变后的特征图像，生成源图像对应的目标图像。

目标视频合成模块1105，用于根据驱动视频中每一帧驱动图像，获取源图像对应的目标图像，并基于所有的目标图像合成目标视频。

本申请提出的视频合成装置，通过对源图像和驱动图像进行3D人脸重建，并基于重建的3D人脸，获取3D人脸重演图像和3D光流，其中，源图像携带源人脸，驱动图像为驱动视频中携带被替换人脸的帧图像；对源图像和驱动图像进行一阶运动关键点检测，以获取N个一阶2D仿射光流，并基于N个一阶2D仿射光流，生成N个仿射形变源图像；基于3D人脸重演图像、N个仿射形变源图像和源图像，对3D光流、N个一阶2D仿射光流和恒等映射光流进行光流融合，生成全局稠密光流；提取源图像的特征图像，基于全局稠密光流对特征图像进行形变，并根据形变后的特征图像，生成源图像对应的目标图像；根据驱动视频中每一帧驱动图像，获取源图像对应的目标图像，并基于所有的目标图像合成目标视频。本申请避免了出现维度退化问题或者合成视频中人脸区域出现不真实的扭曲，并能够很好的保持源图片中人脸的身份信息，且对背景，被遮挡区域能够取得更好的生成效果。

进一步地，目标图像获取模块1104，还用于：通过编码器中M个卷积层逐层提取源图像的多层特征图像；基于全局稠密光流对每层特征图像进行形变，并对应输入解码器M个卷积层进行解码，生成目标图像，其中，解码器中的M个卷积层与编码器的M个卷积层尺寸对应。

进一步地，目标图像获取模块1104，还用于：根据3D人脸重演图像、N个仿射形变源图像和源图像，获取源图像中遮挡区域的图像掩模；基于图像掩模，将驱动图像的3D人脸的特征图像融合至编码器的第M个卷积层提取的第M层特征图像中，生成融合特征图像；基于全局稠密光流对融合特征图像进行形变，并对应输入解码器的第M个卷积层中进行解码。

进一步地，目标图像获取模块1104，还用于：基于图像掩模生成互补图像掩模；对驱动图像的3D人脸的特征图像与图像掩模，以及第M层特征图像与互补图像掩模进行特征加权，生成融合特征图像。

进一步地，人脸重建模块1101，还用于：将源图像和驱动图像分别输入3D可变型模型3DMM编码器中，提取源图像对应的第一3DMM特征参数和驱动图像对应的第二3DMM特征参数；将第一3DMM特征参数和第二3DMM特征参数输入3DMM解码器中，生成源图像对应的第一3D人脸和驱动图像对应的第二3D人脸。

进一步地，人脸重建模块1101，还用于：从源图像中提取纹理信息，并将纹理信息映射到第二3D人脸上；将映射后的第二3D人脸输入可微分渲染器进行渲染，生成3D人脸重演图像；获取第一3D人脸与第二3D人脸的3D坐标差；将3D坐标差输入可微分渲染器进行渲染，生成3D光流。

进一步地，人脸重建模块1101，还用于：基于源图像与第一3D人脸的投影关系，从第一3D人脸上提取纹理信息对应的第一顶点，将纹理信息映射到与第一顶点对应的第二3D人脸的第二顶点上。

进一步地，一阶运动模块1102，还用于：将源图像和驱动图像分别输入一阶运动关键点检测器中，输出源图像对应的N个第一一阶运动信息，以及驱动图像对应的N个第二一阶运动信息，其中，第一一阶运动信息包括第一一阶关键点和第一一阶关键点对应的第一雅克比矩阵，第二一阶运动信息包括第二一阶关键点和第二一阶关键点对应的第二雅克比矩阵；对N个第一一阶运动信息和N个第二一阶运动信息进行一阶运动估计，生成N个一阶2D仿射光流。

进一步地，光流融合模块1103，还用于：根据3D人脸重演图像、N个仿射形变源图像和源图像，分别生成3D人脸重演图像对应的第一权重、N个仿射形变源图像对应的N个第二权重，以及源图像对应的第三权重；分别对3D光流与第一权重、N个一阶2D仿射光流与对应的第二权重，以及恒等映射光流与第三权重，进行光流加权处理，生成全局稠密光流。

为了实现上述实施例，本申请实施例还提出一种电子设备1200，如图12所示，该电子设备1200包括：处理器1201和处理器通信连接的存储器1202，存储器1202存储有可被至少一个处理器执行的指令，指令被至少一个处理器1201执行，以实现如上述实施例所示的视频合成方法。

为了实现上述实施例，本申请实施例还提出一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机实现如上述实施例所示的视频合成方法。

为了实现上述实施例，本申请实施例还提出一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如上述实施例所示的视频合成方法。

在本申请的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种视频合成方法，其特征在于，包括：

对源图像和驱动图像进行3D人脸重建，并基于重建的3D人脸，获取3D人脸重演图像和3D光流，其中，所述源图像携带源人脸，所述驱动图像为驱动视频中携带被替换人脸的帧图像；

对所述源图像和所述驱动图像进行一阶运动关键点检测，以获取N个一阶2D仿射光流，并基于N个所述一阶2D仿射光流，生成N个仿射形变源图像；

基于所述3D人脸重演图像、N个所述仿射形变源图像和所述源图像，对所述3D光流、N个所述一阶2D仿射光流和恒等映射光流进行光流融合，生成全局稠密光流；

提取所述源图像的特征图像，基于所述全局稠密光流对所述特征图像进行形变，并根据形变后的特征图像，生成所述源图像对应的目标图像；

根据所述驱动视频中每一帧驱动图像，获取所述源图像对应的所述目标图像，并基于所有的所述目标图像合成目标视频。

2.根据权利要求1所述的方法，其特征在于，所述提取所述源图像的特征图像，基于所述全局稠密光流对所述特征图像进行形变，并根据形变后的特征图像，生成所述源图像对应的目标图像，包括：

通过编码器中M个卷积层逐层提取所述源图像的多层特征图像；

基于所述全局稠密光流对每层所述特征图像进行形变，并对应输入解码器M个卷积层进行解码，生成所述目标图像，其中，所述解码器中的M个卷积层与所述编码器的M个卷积层尺寸对应。

3.根据权利要求2所述的方法，其特征在于，还包括：

根据所述3D人脸重演图像、N个所述仿射形变源图像和所述源图像，获取所述源图像中遮挡区域的图像掩模；

基于所述图像掩模，将所述驱动图像的3D人脸的特征图像融合至所述编码器的第M个卷积层提取的第M层特征图像中，生成融合特征图像；

基于所述全局稠密光流对所述融合特征图像进行形变，并对应输入所述解码器的第M个卷积层中进行解码。

4.根据权利要求3所述的方法，其特征在于，所述基于所述图像掩模，将所述驱动图像的3D人脸的特征图像融合至所述编码器的第M个卷积层提取的第M层特征图像中，生成融合特征图像，包括：

基于所述图像掩模生成互补图像掩模；

对所述驱动图像的3D人脸的特征图像与所述图像掩模，以及所述第M层特征图像与所述互补图像掩模进行特征加权，生成所述融合特征图像。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述对源图像和驱动图像进行3D人脸重建，包括：

将所述源图像和所述驱动图像分别输入3D可变型模型3DMM编码器中，提取所述源图像对应的第一3DMM特征参数和所述驱动图像对应的第二3DMM特征参数；

将所述第一3DMM特征参数和所述第二3DMM特征参数输入3DMM解码器中，生成所述源图像对应的第一3D人脸和所述驱动图像对应的第二3D人脸。

6.根据权利要求5所述的方法，其特征在于，所述基于重建的3D人脸，获取3D人脸重演图像和3D光流，包括：

从所述源图像中提取纹理信息，并将所述纹理信息映射到所述第二3D人脸上；

将映射后的第二3D人脸输入可微分渲染器进行渲染，生成所述3D人脸重演图像；

获取所述第一3D人脸与所述第二3D人脸的3D坐标差；

将所述3D坐标差输入所述可微分渲染器进行渲染，生成所述3D光流。

7.根据权利要求6所述的方法，其特征在于，所述将所述纹理信息映射到所述第二3D人脸上，包括：

基于所述源图像与所述第一3D人脸的投影关系，从所述第一3D人脸上提取所述纹理信息对应的第一顶点，将所述纹理信息映射到与所述第一顶点对应的所述第二3D人脸的第二顶点上。

8.根据权利要求1-4任一项所述的方法，其特征在于，所述对所述源图像和所述驱动图像进行一阶运动关键点检测，以获取N个一阶2D仿射光流，包括：

将所述源图像和所述驱动图像分别输入一阶运动关键点检测器中，输出所述源图像对应的N个第一一阶运动信息，以及所述驱动图像对应的N个第二一阶运动信息，其中，所述第一一阶运动信息包括第一一阶关键点和所述第一一阶关键点对应的第一雅克比矩阵，所述第二一阶运动信息包括第二一阶关键点和所述第二一阶关键点对应的第二雅克比矩阵；

对N个所述第一一阶运动信息和N个所述第二一阶运动信息进行一阶运动估计，生成N个所述一阶2D仿射光流。

9.根据权利要求8所述的方法，其特征在于，所述基于所述3D人脸重演图像、N个所述仿射形变源图像和所述源图像，对所述3D光流、N个所述一阶2D仿射光流和恒等映射光流进行光流融合，生成全局稠密光流，包括：

根据所述3D人脸重演图像、N个所述仿射形变源图像和所述源图像，分别生成所述3D人脸重演图像对应的第一权重、N个所述仿射形变源图像对应的N个第二权重，以及所述源图像对应的第三权重；

分别对所述3D光流与所述第一权重、N个所述一阶2D仿射光流与对应的所述第二权重，以及所述恒等映射光流与所述第三权重，进行光流加权处理，生成所述全局稠密光流。

10.一种视频合成装置，其特征在于，包括：

人脸重建模块，用于对源图像和驱动图像进行3D人脸重建，并基于重建的3D人脸，获取3D人脸重演图像和3D光流，其中，所述源图像携带源人脸，所述驱动图像为驱动视频中携带被替换人脸的帧图像；

一阶运动模块，用于对所述源图像和所述驱动图像进行一阶运动关键点检测，以获取N个一阶2D仿射光流，并基于N个所述一阶2D仿射光流，生成N个仿射形变源图像；

光流融合模块，用于基于所述3D人脸重演图像、N个所述仿射形变源图像和所述源图像，对所述3D光流、N个所述一阶2D仿射光流和恒等映射光流进行光流融合，生成全局稠密光流；

目标图像获取模块，用于提取所述源图像的特征图像，基于所述全局稠密光流对所述特征图像进行形变，并根据形变后的特征图像，生成所述源图像对应的目标图像；

目标视频合成模块，用于根据所述驱动视频中每一帧驱动图像，获取所述源图像对应的所述目标图像，并基于所有的所述目标图像合成目标视频。

11.根据权利要求10所述的装置，其特征在于，所述目标图像获取模块，还包括：

12.根据权利要求11所述的装置，其特征在于，所述目标图像获取模块，还包括：

13.根据权利要求12所述的装置，其特征在于，所述目标图像获取模块，还包括：

基于所述图像掩模生成互补图像掩模；

14.根据权利要求10-13任一项所述的装置，其特征在于，所述人脸重建模块，还用于：

15.根据权利要求14所述的装置，其特征在于，所述人脸重建模块，还用于：

获取所述第一3D人脸与所述第二3D人脸的3D坐标差；

16.根据权利要求15所述的装置，其特征在于，所述人脸重建模块，还用于：

17.根据权利要求10-13任一项所述的装置，其特征在于，所述一阶运动模块，还用于：

18.根据权利要求17所述的装置，其特征在于，所述光流融合模块，还用于：

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。