CN112215927A

CN112215927A - 人脸视频的合成方法、装置、设备及介质

Info

Publication number: CN112215927A
Application number: CN202010990287.2A
Authority: CN
Inventors: 汪淼; 温馨; 胡事民
Original assignee: Tencent Technology Shenzhen Co Ltd; Beihang University
Current assignee: Tencent Technology Shenzhen Co Ltd; Beihang University
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2021-01-12
Anticipated expiration: 2040-09-18
Also published as: CN112215927B

Abstract

本申请公开了一种人脸视频的合成方法、装置、设备及存储介质，涉及视频合成领域。该方法包括：获取音频数据；将所述音频数据映射为三维形变模型的表情参数序列；将所述表情参数序列与从目标角色的样本视频中提取到的三维形变模型序列进行融合，得到所述目标角色的人脸图像序列；根据所述人脸图像序列合成得到所述目标角色的人脸视频。本申请可以采用任意的音频数据驱动，生成目标角色的人脸视频。

Description

人脸视频的合成方法、装置、设备及介质

技术领域

本申请涉及视频合成领域，特别涉及一种人脸视频的合成方法。

背景技术

语音驱动模型是指输入一段音频数据之后，神经网络模型会根据输入的语音做出相应的脸部表情。

相关技术会先采集动画角色的大量视频数据和音频数据，对视频数据处理，生成该动画角色模型。在生成相应的动画角色模型之后，根据音频数据驱动动画角色模型，生成动画角色的人脸动画。

上述方法使用同一动画角色的音频数据和动画角色模型，来生成该动画角色的人脸动画。

发明内容

本申请实施例提供了一种人脸视频的合成方法、装置、设备及介质，可以使用任意音频数据来驱动目标角色的三维形变模型，生成目标角色的人脸视频的问题。所述技术方案如下：

根据本申请的一个方面，提供了一种人脸视频的合成方法，所述方法包括：

获取音频数据；

将所述音频数据映射为三维形变模型的表情参数序列；

将所述表情参数序列与从目标角色的样本视频中提取到的三维形变模型序列进行融合，得到所述目标角色的人脸图像序列；

根据所述人脸图像序列合成得到所述目标角色的人脸视频。

根据本申请的另一个方面，提供了一种人脸视频的合成装置，所述装置包括：

获取模块，用于获取音频数据；

音频数据映射模块，用于将所述音频数据映射为三维形变模型的表情参数序列；

序列融合模块，用于将所述表情参数序列与从目标角色样本视频中提取到的三维形变模型序列进行融合，得到所述目标角色的人脸图像序列；

合成模块，用于根据所述人脸图像序列合成得到所述目标角色的人脸视频。

根据本申请的另一方面，提供了一种计算机设备，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方面所述的人脸视频的合成方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方面所述的人脸视频的合成方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过将音频数据映射为三维形变模型的表情参数序列，融合获得的表情参数序列和目标角色的三维形变模型序列，得到相应的人脸图像序列，再根据人脸图像序列获得目标角色的人脸视频。由于表情参数序列和三维形变模型序列不存在耦合关系，因此表情参数序列可以运用到任意三维形变模型序列上，故该方法可以输入任意音频数据并将其运用到任意角色上。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的一种人脸视频合成方法的原理示意图；

图2是本申请一个示例性实施例提供的一种人脸视频的合成方法的流程图；

图3是本申请一个示例性实施例提供的一种三维形变模型序列获取方法的流程图；

图4是本申请一个示例性实施例提供的一种三维形变模型的建立流程图；

图5是本申请一个示例性实施例提供的一种人脸视频的合成方法的流程图；

图6是本申请一个示例性实施例提供的一种三维形变模型融合的示意图；

图7是本申请一个示例性实施例提供的第一图像区域对合成视频影响的示意图；

图8是本申请一个示例性实施例提供的一种第一图像区域确定方法的示意图；

图9是本申请一个示例性实施例提供的一种生成对抗网络的训练方法；

图10是本申请一个示例性实施例提供的一种虚拟主播直播的流程附图；

图11是本申请一个示例性实施例提供的一种虚拟主播的实施示意图；

图12是本申请一个示例性实施例提供的一种实时通讯的流程附图；

图13是本申请一个示例性实施例提供的一种实时通讯的实施示意图；

图14是本申请一个示例性实施例提供的一种结果比对可视化差异图；

图15是本申请一个示例性实施例提供的一种德语音频合成结果示意图；

图16是本申请一个示例性实施例提供的一种视频合成结果示意图；

图17是本申请一个示例性实施例提供的另一种视频合成结果比对图；

图18是本申请一个示例性实施例提供的另一种视频合成结果比对图；

图19是本申请一个示例性实施例提供的另一种视频合成结果比对图；

图20是本申请一个示例性实施例提供的一种人脸视频合成装置的结构示意图；

图21是本申请一个示例性实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

先对本申请权利要求书所涉及的名词进行解释：

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

单目三维人脸重建：从给定的一张人脸图片中重构出三维人脸模型的技术。

三维形变模型(3D Morphable Model，3DMM)：也称人脸三维形变统计模型，是指一种三维人脸的参数化统计模型，具有一组基底和对应的参数。基底包括材质基底、几何基底和表情基底中的至少一种，参数包括身份参数、材质参数和表情参数中的至少一种。相关技术人员可以通过基底和/或参数控制三维形变模型的形状变化。

人脸图像序列：将人脸图像按时序进行排列后得到的序列，可以认为是人脸时频。

融合：将表情参数序列代入到上述的三维形变模型所对应的参数中，以得到新的三维形变模型。

渲染：计算机用语，指在计算机中从三维形变模型生成二维图像的过程。即按照预设的参数将三维场景中的模型，二维投影成数字图形的过程。示例性的，上述预设的参数，可以是三维形变模型中的基底和对应的参数。

映射神经网络：属于神经网络的一种。当该神经网络接收外界的输入数据时，该神经网络会根据该输入数据和预先存储的映射关系，得到映射结果。在本申请中，映射神经网络会将音频数据映射为相应的表情参数序列。

生成对抗网络：一种神经网络范式，包含一个生成器和一个判别器，生成器用于生成图像，判别器用于对生成器生成的图像进行判别，两者在训练的过程中进行零和博弈。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能中的人脸视频合成技术，具体通过如下实施例进行说明:

图1示出了本申请一个示例性实施例提供的一种人脸视频合成方法的原理示意图(图中黑条为了保护人物隐私而添加，实际过程中不存在该黑条)。计算机设备100包括：映射神经网络101、三维形变模型102和生成对抗网络103。

音频数据104和样本视频105为计算机设备100的输入，合成视频106为计算机设备100的输出。

在一个示例中，计算机设备100获取音频数据104，并按照用户的实际需求获取目标角色的样本视频105，目标角色可以是动画人物或真实人物。计算机设备100使用映射神经网络101将音频数据104映射为与音频对应的表情参数序列107。另一方面，计算机设备100根据样本视频105建立与目标角色对应的三维形变模型102，并提取三维形变模型的参数108，其中三维形变模型的参数108包括：表情参数、几何参数、质地参数、姿势参数和光照参数中的至少一种。

计算机设备100使用与音频对应的表情参数107替换三维形变模型的参数108中的表情参数，获得融合后三维形变模型的参数109基于融合后的三维形变模型的参数109，创建融合后的三维形变模型110。将融合后的三维形变模型110渲染为二维图像之后，和第一预设区域111进行合成，将合成结果输入生成对抗网络103，获得前景图像帧112，将前景图像帧112和样本视频105合成，获得合成视频106。示意性的，第一预设区域109是嘴部附近区域。

综上所述，通过将音频数据映射为三维形变模型的表情参数序列，融合获得的表情参数序列和目标角色的三维形变模型序列，得到相应的非真实感人脸图像序列，再根据非真实感人脸图像序列获得目标角色的真实感人脸视频。由于表情参数序列和三维形变模型序列不存在耦合关系，因此表情参数序列可以运用到任意三维形变模型序列上，故该方法可以输入任意音频数据并将其运用到任意角色上。

图2示出了本申请一个示例性实施例提供的一种人脸视频的合成方法的流程图，该方法可应用于如图1所示的计算机设备100中。该方法包括如下步骤：

步骤201，获取音频数据。

终端获取音频数据。

音频数据指数字化后的语音数据。该语音是男声、女声、童声、合成语音或前述语音的叠加中的至少一种。该音频数据可以是实时音频数据，比如网络传输来的音频数据；也可以是历史音频数据，比如录制的音频数据。

终端上搭载有获取音频数据的硬件或应用程序。示例性的，终端搭载了麦克风或麦克风阵列，该麦克风或麦克风阵列用于采集音频数据。示例性的，该终端具有联网能力，该终端下载或接收音频数据。

上述终端获取音频数据的方式可以有多种，示例性的，终端接收来自另一终端的音频数据。示例性的，终端查询并获取历史音频数据，该历史音频数据为某一历史时刻被存储于终端中。示例性的，终端下载互联网上的音频数据，比如来自主播客户端或通话客户端的音频数据。

步骤202，将音频数据映射为三维形变模型的表情参数序列。

终端将音频数据映射为三维形变模型的表情参数序列。

三维形变模型指在终端中，将二维图片还原为三维形状后获得的模型。三维形变模型具有表情变化能力。示例性的，该三维形变模型可以是真人的人脸模型，也可以是真人的全身模型，也可以是动画人物的人脸模型，也可以是动画人物的全身模型。三维形变模型可以使用各类参数描述三维形变模型的各项特征，该参数包括：身份参数、材质参数和表情参数中的至少一种。

表情参数用于描述三维形变模型的表情。示例性的，使用δ₁描述三维形变模型“兴奋”这一表情，使用δ₂描述三维形变模型“悲伤”这一表情。

表情参数序列指将从音频数据映射获得的表情参数按时序进行排列所得到的一串序列。对于任一时间戳的音频数据，存在相同时间戳的表情参数可以描述这一时间戳的音频数据。

示意性的，计算机设备包括映射神经网络。映射神经网络用于将音频数据映射为三维形变模型的表情参数序列，映射神经网络中存储有音频数据和表情参数序列的映射关系。示例性的，还可以使用映射函数将音频数据映射为三维形变模型的表情序列。

步骤203，将表情参数序列与从目标角色的样本视频中提取到的三维形变模型序列进行融合，得到目标角色的人脸图像序列。

终端将表情参数序列与从目标角色的样本视频中提取到的三维形变模型序列进行融合，得到目标角色的非真实感人脸图像序列。

表情参数序列即上述从音频数据映射获得的表情参数按时序进行排列所得到的一串序列。

目标角色的三维形变模型序列指在提取样本视频中的每一帧人脸图像后，根据每一帧人脸图像建立相应的三维形变模型，将得到的三维形变模型按时序进行排列所获得的一串序列。该样本视频至少存在一帧目标角色的人脸图像。

已知在三维形变模型中可以使用表情参数描述三维形变模型的表情。故步骤203中的将表情参数序列与目标角色的三维形变模型序列进行融合，即为使用表情参数序列替换目标角色的三维形变模型中的表情参数序列。

步骤204，根据人脸图像序列合成得到目标角色的人脸视频。

终端根据非真实感人脸图像序列合成得到目标角色的真实感人脸视频。

示例性的，将上述非真实感人脸图像序列以每秒n张的帧率播放，可以得到目标角色的人脸视频。N可以是25、40、60、120等。

综上所述，通过将获取的音频数据转换为表情参数序列，并将表情参数序列和目标角色的三维形变模型进行融合，即可得到相应的非真实感人脸图像序列，并根据非真实感人脸图像序列获得目标角色的真实感人脸视频。由于表情参数序列和三维形变模型序列不存在耦合关系，因此表情参数序列可以运用到任意三维形变模型序列上，故该方法可以输入任意音频数据并将其运用到任意角色上。

在上一个实施例中介绍了一种人脸视频的合成方法，目标角色的三维形变模型序列中的各个三维形变模型可以是预先生成或实时生成的。在该步骤403之前，还有获取三维形变模型序列的过程。参照图3，图3示出了本申请一个示例性实施例提供的一种三维形变模型序列获取方法的流程图。该流程图包括以下步骤：

步骤301，获取目标角色的样本视频，样本视频包括按照时序排列的多个样本视频帧。

终端获取目标角色的样本视频，样本视频包括按照时序排列的多个样本视频帧。

目标角色是任意角色，该目标角色可以是真实人物角色，也可以是虚拟人物角色。

样本视频帧显示目标角色的人脸图像。该人脸图像可以显示在对应样本视频帧的中央区域，也可以显示在对应样本视频帧的左侧区域，也可以显示在对应样本视频帧的右侧区域。本申请实施例对人脸图像的显示区域不做限定。

步骤302，对多个样本视频帧中的每个样本视频帧进行单目三维人脸重建，得到每个样本视频帧对应的模型参数和表情参数。

终端对多个样本视频帧中的每个样本视频帧中的人脸图像进行单目三维人脸重建，得到每个样本视频帧对应的模型参数和表情参数。

单目三维人脸重建指将样本视频帧中的二维人脸图像重构出三维人脸模型。

模型参数包括：身份参数、材质参数和平均几何参数中的至少一种。

步骤303，根据每个样本视频帧对应的模型参数和表情参数，重建得到每个样本视频帧对应的三维形变模型。

终端根据每个样本视频帧对应的模型参数和表情参数，重建得到每个样本视频帧对应的三维形变模型。

终端可以根据模型参数和表情参数，重新建立三维形变模型。

可选地，该步骤还可以包括以下子步骤，图4示出了本申请一个示例性实施例提供的一种三维形变模型的建立流程图，如下所示：

步骤303-a：根据每个样本视频帧对应的模型参数和表情参数，重建得到每个样本视频帧对应的三维形变模型。

步骤303-b：渲染上述重建后的三维形变模型，获得二维人脸图像。

终端渲染上述重建后的三维形变模型，获得二维人脸图像。

为得到准确的三维形变模型，还需要对环境光进行估计。示例性的，使用球谐光照对环境光进行估计。上述球谐光照可以表示为：

其中C(r_i,n_i,γ)为球谐函数。i为三维形变模型中的像素点。r_i为像素点i的反射率。n_i为像素点i的法向向量。γ代表球谐光照。Y_b(n_i)为球谐函数的基函数。B为球谐函数波段的个数，为一常量，示例性的，B＝3。b代表球谐函数波段。⊙代表元素积。

示例性的，采用以下算法渲染出二维图像：

u_i(χ)＝∏(Φ_R,T(v_i(α,β)))；

c_i(χ)＝C(r_i(β),k_i,γ)；

其中，C(r_i(β),k_i,γ)为球谐函数。χ为人脸模型的种类。Φ_R,T(v_i(α,β))函数指v_i((α,β))的标准正态分布。将函数模型的三维刚性运动分解为平移和旋转，分别用R和T表示。v_i(α,β)为三维模型中顶点位置的集合。r_i(β)表示每个像素点对应的漫反射参数。k_i表示像素点i的法向向量，其中，k_i为变量，可以通过修改该变量来调整二维人脸图像。在渲染过程中，终端根据u_i(χ)(模型中像素点i在投影后在平面上的坐标)和c_i(χ)(像素点i对应的颜色)在二维平面上进行绘制。

步骤303-c：比较二维人脸图像和对应的样本视频帧，获得相应的图像重建损失。

终端比较二维人脸图像和对应的样本视频帧，获得相应的图像重建损失。

图像重建损失为二维人脸图像和对应的样本视频帧在各个像素点上的光一致性损失。

步骤303-d：根据图像重建损失，修改模型参数和/或表情参数。

终端根据图像重建损失，修改模型参数和/或表情参数。

步骤303-e：重复上四个步骤，直至图像重建损失收敛，得到三维形变模型序列。

终端重复上四个步骤，直至图像重建损失收敛，得到三维形变模型序列。

接下来继续对图4所示的实施例进行说明。

步骤304，将每个样本视频帧对应的三维形变模型按照时序排列，得到三维形变模型序列。

终端将每个样本视频帧对应的三维形变模型按照时序排列，得到三维形变模型序列。

综上所述，通过建立准确的三维形变模型。保证了接下来可以获得理想的人脸图像序列，间接提高了合成视频的真实感。

在图所示的示例性实施例中介绍了本申请的一种人脸视频的合成方法，接下来对该合成方法进行进一步的说明。图5示出了本申请一个示例性实施例提供的一种人脸视频的合成方法的流程图，该方法可运用于图1所示的终端100中。该方法包括以下步骤：

步骤500，获取音频数据。

终端获取音频数据。

步骤501，提取音频数据中的高层特征。

终端提取音频数据中的高层特征。

高层特征指音频数据对应的语音的语义。示例性的，一段音频为“谢谢，你是个好人”，终端提取其中的高层特征，即识别这段音频的具体语义，在两个实际场景中，一个女孩和跟自己表白的男孩说“谢谢，你是个好人”，女孩可能是在委婉拒绝；而路人帮助警察抓住小偷，警察对路人说“谢谢，你是个好人”，警察是在称赞路人的品行好。

示例性的，终端使用ATNet(Adaptive Transfer Network，自适应传输网络)提取音频数据中的高层特征。ATNet使用自适应学习的参数将音频数据和对应的高层特征集成到一起，在对ATNet进行训练之后，可以得到音频数据和高层特征的对应关系。

步骤502，调用映射神经网络对高层特征进行处理，得到三维形变模型的表情参数序列。

终端调用映射神经网络对高层特征进行处理，得到三维形变模型的表情参数序列。

映射神经网络中存储有高层特征的表情参数序列的对应关系。

步骤503，在多个表情参数和多个三维形变模型中，确定具有相同时间戳的表情参数和三维形变模型。

在多个表情参数和多个三维形变模型中，终端确定具有相同时间戳的表情参数和三维形变模型。

表情参数序列和三维形变模型序列均按照时序排列，在每一个表情参数和三维形变模型上均携带有时间戳，同一序列中不同的表情参数上携带的时间戳不同，同理，不同的三维形变模型上携带的时间戳也不同，时间戳用于分辨表情参数和三维形变模型。示例性的，一表情参数上携带的时间戳表示该表情参数是在音频数据的第56帧出现，则携带有相同时间戳的三维形变模型是在样本视频的第56帧出现。

步骤504，使用表情参数替换三维形变模型中的原有表情参数，得到融合后的三维形变模型。

终端使用表情参数替换三维形变模型中的原有表情参数，得到融合后的三维形变模型。

原有表情系数指在步骤304中，完成三维形变模型的建立之后，该三维形变模型存在对应的表情参数，此处的表情参数即为原有表情参数。

终端仅替换三维形变模型中的原有表情参数，对其他模型参数不做修改。

示例性的，使用表情参数δ₁替换三维形变模型中的原有表情参数δ。

步骤505，将融合后的三维形变模型按照时序依次排列，得到融合后的多个三维形变模型。

终端将融合后的三维形变模型按照时序依次排列，得到融合后的多个三维形变模型。

图6示出了本申请实施例的一种三维形变模型融合的示意图(图中黑条为了保护人物隐私而添加，实际过程中不存在该黑条)。图中示出了将表情参数601和三维形变模型604融合得到融合后的三维形变模型607，表情参数601和三维形变模型604上携带的时间戳相同，同理，将表情参数602和三维形变模型605融合得到融合后的三维形变模型608，表情参数602和三维形变模型605上携带的时间戳相同，表情参数603和三维形变模型606融合得到融合后的三维形变模型609，表情参数603和三维形变模型606上携带的时间戳相同。其中，表情参数601、表情参数602和表情参数603按时序排列，同样地，三维形变模型604、三维形变模型605和三维形变模型606也按时序排列。

步骤506，将融合后的多个三维形变模型按照时序分别渲染为人脸图像，得到目标角色的人脸图像序列。

终端将融合后的多个三维形变模型按照时序分别渲染为人脸图像，得到目标角色的非真实感人脸图像序列。

步骤507，将人脸图像序列的嘴部对应的第一图像区域，提取为前景图像帧序列。

终端将非真实感人脸图像序列的嘴部对应的第一图像区域，提取为前景图像帧序列。

接下来讨论第一图像区域，此处为了减少终端的计算量仅使用嘴部对应的第一图像区域作为网络的输入，而不是整张图像。在该步骤中，若第一图像区域仅为人物的嘴部，则最后得到的合成图像会出现如图7所示的情况。图7示出了本申请实施例中的第一图像区域对合成视频影响的示意图(图中黑条为了保护人物隐私而添加，实际过程中不存在该黑条)。图像701和图像702均为选取第一图像区域不合理而获得的合成视频，图像703和图像704为对应的正常图像。经过对比，可以看到在图像701和图像702的方框区域，人脸图像出现了双颚阴影(人脸图像上出现了两个下颚)，这会破坏合成视频的真实感。

为解决上述的问题，需要选取恰当的第一图像区域，如图8所示，图8示出了本申请实施例中的一种第一图像区域确定方法的示意图(图中黑条为了保护人物隐私而添加，实际过程中不存在该黑条)。该示意图包括：样本视频帧105、人脸图像110、第一选取区域111、样本选取图像帧801和前景图像帧112。其中：

第一选取区域111的作用是从人脸图像110中选取出第一图像区域，示例性的，其中一种选取方法如下所示：将第一选取区域111和人脸图像110重合放置，此时截取第一选取区域111的白色区域(该白色区域为选取区域)和人脸图像110的重合图像，该重合图像即为第一图像区域。在图8中，前景图像帧112即为人脸图像108的第一图像区域，作为对比，样本选取图像帧801为样本视频帧102的第一图像区域。

第一图像区域为嘴部区域或嘴部附近区域。

步骤508，调用生成对抗网络中的生成器对前景图像帧序列中的人脸图像进行真实化处理，得到处理后的前景图像帧序列。

调用生成对抗网络中的生成器对前景图像帧序列中的人脸图像进行真实化处理，得到处理后的前景图像帧序列。

可选地，若将步骤507中获得的前景图像帧序列直接合成为相应的视频，则获得的视频缺少真实感，故需要将前景图像帧序列通过生成对抗网络，提高合成视频的真实感。

生成对抗网络中的生成器可以根据非真实感人脸图像序列中的人脸图像生成相应的具有真实感的图像。

步骤509，获取目标角色的样本视频，样本视频包括按照时序排列的多个样本视频帧。

上述终端获取样本视频的方式可以有多种，示例性的，终端接收来自另一终端的样本视频。示例性的，终端查询并获取历史样本视频，该历史样本视频为某一历史时刻被存储于终端中。示例性的，终端下载互联网上的样本视频。示例性的，终端实时拍摄样本视频。

步骤510，将多个样本视频帧中的第二图像区域，提取为背景图像帧序列。

终端将多个样本视频帧中的第二图像区域，提取为背景图像帧序列。

示例性的，第二图像区域可以是样本视频帧的整个图像区域，也可以是除第一图像区域以外的全部或部分区域。

步骤511，将背景图像帧序列和前景图像帧序列进行合成，得到目标角色的人脸视频。

终端将背景图像帧序列和前景图像帧序列进行合成，得到目标角色的真实感人脸视频。

示例性的，将前景图像帧序列覆盖至背景图像帧序列上，得到目标角色的真实感人脸视频。

在上一个实施例中，提到调用映射神经网络，而在调用映射神经网络之前，还需要对映射神经网络进行训练。映射神经网络是根据样本集训练到的，样本集包括每一帧音频的高层特征和与该帧对应的表情系数。示例性的，提取样本视频中每一帧音频的高层特征和对应帧的表情参数。对于前述的每一帧音频，示例性的，使用上述的ATNet网络提取出一个256维的高维向量组，将每相邻的7个向量拼接起来，得到7*256的映射神经网络输入，将对应帧的表情参数作为映射神经网络的训练标签，对该映射神经网络进行训练。映射神经网络的结构如表1所示，该映射神经网络的输入尺寸为7*256维的高维向量，在经过第一层的一维卷积层(该卷积层内核为3，步长为1)之后，得到的输出为5*254维的向量组，类似的，在5*254维的向量组经过第二层的一维卷积层(该卷积层内核为3，步长为1)之后，得到的输出为3*252维的向量组，类似的，在3*252维的向量组经过第三层的一维卷积层(该卷积层内核为3，步长为1)之后，得到的输出为1*250维的向量组，在1*250维的向量组经过全连接层之后，获得64维的向量，该64维的向量可以用来作为表情参数。

表1高层特征-表情参数映射神经网络结构

重复训练该映射神经网络，直至完成映射神经网络的训练，将音频数据对应的高层特征输入该训练完成的映射神经网络，可输出得到准确的三维形变模型的表情参数序列。

综上所述，该实施例给出了一种映射神经网络的训练方法，由于该映射神经网络获得的表情参数序列和三维形变模型序列不存在耦合关系，因此表情参数序列可以运用到任意三维形变模型序列上，故该方法可以输入任意音频数据并将其运用到任意角色上。

在图5所示的实施例中，生成对抗网络还包括判别器。图9示出了本申请实施例的一种生成对抗网络的训练方法，生成器和判别器按如下的方式训练：

步骤901，获取样本图像集，样本图像集：成对出现的重建样本图像和真实样本图像。

终端获取样本图像集，样本图像集：成对出现的重建样本图像和真实样本图像。

示例性的，重建样本图像为图8中示出的前景图像帧112，真实样本图像为图8中示出的样本选取图像帧801，样本选取图像帧801和前景图像帧112呈对应关系。

步骤902，固定判别器的网络参数，根据重建损失对生成器进行训练；重建损失是第一预测图像和真实样本图像之间的误差损失，第一预测图像是生成器对重建样本图像进行真实化处理得到的。

终端固定判别器的网络参数，根据重建损失对生成器进行训练；重建损失是第一预测图像和真实样本图像之间的误差损失，第一预测图像是生成器对重建样本图像进行真实化处理得到的。

生成对抗网络由生成器和判别器组成，生成对抗网络进行训练所使用的损失函数为：

L(G,D)＝L_rec(G)+λL_adv(G,D)；

其中，L_rec(G)为重建损失函数。L_adv(G,D)为对抗损失函数。G代表生成器。D代表判别器。λ用于平衡重建损失函数和对抗损失函数，λ为一常量，示例性的，λ＝100。其中：

L_rec(G)＝||I_t-G(T_t)||₁；

L_adv(G,D)＝logD(I_t)+log(1-D(G(T_t)))；

其中，T_t代表多个张量堆叠而成的张量组，

其中，N_w为一常量，示例性的，N_w＝3。1≤t≤M(M为输入生成对抗网络的样本图像数数量)，且t为整数。

代表第一预测图像或第二预测图像。I代表真实样本图像。log指对数运算，该运算可以是以10为底所进行的运算，也可以是以e(自然对数)为底所进行的运算。

重建损失即为重建损失函数的值。

示例性的，生成器采用U-net(U形网络)结构。

步骤903，固定生成器的网络参数，根据对抗损失对判别器进行训练；对抗损失是第二预测图像和真实样本图像之间的误差损失，第二预测图像是生成器对重建样本图像进行真实化处理得到的。

终端固定生成器的网络参数，根据对抗损失对判别器进行训练；对抗损失是第二预测图像和真实样本图像之间的误差损失，第二预测图像是生成器对所述重建样本图像进行真实化处理得到的。

示例性的，生成器的网络参数为神经网络的层数、卷积核种类以及卷积核个数等。

第一预测图像和第二预测图像为生成器在不同时刻对重建样本图像进行真实化处理得到的.

对抗损失即为对抗损失函数的值。

第一预测图像和第二预测图像均由生成器产生。示例性的，先固定判别器的网络参数，由生成器生成第一预测图像，将第一预测图像输入判别器，得到重建损失，并根据重建损失优化生成器的网络参数；再固定生成器的网络参数，由生成器生成第二预测图像，将第二预测图像输入判别器，得到对抗损失，并根据对抗损失优化判别器的网络参数。

示例性的，生成器和判别器均为神经网络结构。

步骤902和步骤903不分先后。

步骤904，交替执行上述两个步骤，训练得到判别器和生成器。

终端交替执行上述两个步骤，训练得到判别器和生成器。

综上所述，该生成对抗网络的训练方法得到的生成对抗网络可以提高输入图像的真实感，且训练过程容易实现，有利于合成视频的实时播放。

语音驱动模型具有多种运用场景，常被运用于虚拟主播的直播或是实时通讯中。虚拟主播是指使用虚拟的形象进行直播的主播。用户可以在终端上通过不同的直播平台(即直播应用程序)观看到不同类型的直播。直播的类型包括但不限于以下类型：才艺表演、交友恋爱、户外活动、游戏、赛事、展览、发布会、动漫、二次元、绘画、美食、影视、语音、电台、教育等类型中的至少一种，本申请对直播的类型不作限定。在实时通讯中，用户双方会选择在终端上通过不同的通讯平台进行远程视频通话，在通信带宽受限的情形下，会选择只传输音频信号，不传输图像信号，通讯双方在接收到对方的音频信号之后，相应的终端会对音频信号进行处理，得到相应的视频，满足双方视频通讯的需求。

图10示出了本申请一个示例性实施例提供的一种虚拟主播直播方法的流程附图。

步骤1001，计算机设备接收来自通讯客户端的第一音频数据，主播客户端是主播角色对应的客户端。步骤1002，计算机设备将音频数据映射为三维形变模型的表情系数序列。步骤1003，计算机设备将表情系数序列与从主播角色的样本视频中提取到的三维形变模型序列进行融合，得到主播角色的人脸图像序列。步骤1004，计算机设备根据人脸图像序列合成得到主播角色的人脸视频。步骤1005，计算机设备显示主播角色的视频通话界面，视频通话界面包括主播角色的人脸视频的播放画面。示意性的，如图11所示的例子中(图中黑条为了保护人物隐私而添加，实际过程中不存在该黑条)，第一用户1101为观看直播的用户，第二用户1102为主播。第一用户201使用第一终端206观看直播，第二用户1102使用第二终端1107进行直播，第一终端1106可以实现如图1所示计算机设备100的全部功能，第二终端安装和运行有采集声音的设备和/或应用程序。第二终端采集第二用户1102的语音并将其转换为音频数据1103。示例性的，第二终端采集到第一用户说的“开始上课”，并将其转换为音频数据1103。第二终端将音频数据1103发送至第一终端1106。第一终端1106会获取第二用户1102的样本视频1104，该样本视频1104中有第二用户1102使用的虚拟形象(该虚拟形象以真人的形象出现)，该获取过程可以在获得音频数据1103之前进行，也可以在获得音频数据1103之后进行，也可以和获得音频数据1103同时进行。样本视频1104可以获取自互联网，也可以获取自第一终端1106存储的历史视频。第一终端1106在获取样本视频1104和音频数据1103之后，会对样本视频1104和音频数据1103进行处理，获得合成视频1105，并在第一终端1106上播放显示，图11中该视频位于第一终端1106显示器的右下角。

可选地，第一终端1106和第二终端1107的设备类型相同或不同，该设备类型包括：智能手机、平板电脑、电子书阅读器、MP3播放器、MP4播放器、膝上型便携计算机和台式计算机中的至少一种。

本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述第二终端1107可以仅为一个，第一终端1106为多个，或者第一终端1106可以仅为一个，第二终端1107为多个，或者第一终端1106和第二终端1107均为多个。本申请实施例对终端的数量和设备类型不加以限定。

综上所述，该方法可以仅传输主播的第一音频信号，并在观众的计算机设备上显示主播的直播视频。仅传输第一音频信号，可以减小传输信号所需要的带宽，保证音频信号的传输效率，保证观众客户端的直播正常进行。

图12示出了本申请一个示例性实施例提供的一种实时通讯方法的流程图。步骤1201，计算机设备接收来自通讯客户端的第二音频数据，通话客户端是通话对象角色对应的客户端。步骤1202，计算机设备将音频数据映射为三维形变模型的表情系数序列。步骤1203，计算机设备将表情系数序列与从通话对象角色的样本视频中提取到的三维形变模型序列进行融合，得到通话对象角色的人脸图像序列。步骤1204，计算机设备根据人脸图像序列合成得到通话对象角色的人脸视频。步骤1205，计算机设备显示通话对象角色的视频通话界面，视频通话界面包括通话对象角色的人脸视频的播放画面。示意性的，如图13所示的例子中(图中黑条为了保护人物隐私而添加，实际过程中不存在该黑条)，第一用户1301和第二用户1302进行实时视频通讯，第一用户1301使用第一终端1306，第二用户1302使用第二终端1307进行通讯，第一终端1306和第二终端1307安装和运行有采集声音的设备和应用程序，第一终端1306和第二终端1307可以实现如图1所示的终端100的所有功能。下面以第一终端1306完成视频合成为例，第二终端采集第二用户1302的语音并将其转换为音频数据1303。示例性的，第二终端1307采集到第二用户1302说的“好久不见”，并将其转换为音频数据1303。第二终端1307将音频数据1303发送至第一终端1306。第一终端1306会获取第二用户1302的样本视频1304，该获取过程可以在获得音频数据1303之前进行，也可以在获得音频数据1303之后进行，也可以和获得音频数据1304同时进行。样本视频1304可以获取自互联网，也可以获取自第一终端1306存储的历史视频。第一终端1306在获取样本视频1304和音频数据1303之后，会对样本视频1304和音频数据1303进行处理，获得合成视频1305，并在第一终端1306上播放显示。

可选地，第一终端1306和第二终端1307的设备类型相同或不同，该设备类型包括：智能手机、平板电脑、电子书阅读器、MP3播放器、MP4播放器、膝上型便携计算机和台式计算机中的至少一种。

本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述第二终端1307可以仅为一个，第一终端1306为多个，或者第一终端1306可以仅为一个，第二终端1307为多个，或者第一终端1306和第二终端1307均为多个。本申请实施例对终端的数量和设备类型不加以限定。

综上所述，该方法可以仅传输通讯双方的音频信号，并在另一方的计算机设备上显示对方的通讯视频。仅传输音频信号，可以减小传输信号所需要的带宽，使得用户可以在通讯带宽不足的情况下实现视频通讯。

图14出了本申请实施例的一种结果比对可视化差异图(图中黑条为了保护人物隐私而添加，实际过程中不存在该黑条)。该图包括：生成结果1401、真实帧1402和像素差异图1403。从像素差异图1403中可以直观地看出本申请具有优秀的合成结果，口形和语音贴合较好，贴近实际情形。

图15示出了本申请实施例的一种德语音频合成结果示意图(图中黑条为了保护人物隐私而添加，实际过程中不存在该黑条)。该示意图包括：德语样本视频1501和1503、生成视频1502和1504。从该图中可以直观地得到本申请所述方法具有优秀的合成结果，贴近实际情形。

图16示出了本申请实施例的一种视频合成结果示意图(图中黑条为了保护人物隐私而添加，实际过程中不存在该黑条)。该示意图包括：目标帧1601和合成结果1602。目标帧1601为输入语音对应的代表帧，合成结果1602为输入语音驱动其他角色说话的相应帧图像。从该图中可以直观地得到本申请所述方法具有优秀的合成结果，口形和语音贴合较好，贴近实际情形。

图17示出了本申请实施例的另一种视频合成结果比对图(图中黑条为了保护人物隐私而添加，实际过程中不存在该黑条)。该图包括：样本视频帧1701、DAVS(DisentangledAudio-ViSual，音频画面解耦方法)结果1702、ATVG(Association of Tennessee ValleyGovernments，自动测试向量生成)结果1703、LipGAN(img.)(特定脸给定语音口形合成(图片))结果1704、LiPGAN(vid.)(特定脸给定语音口形合成(视频))结果1705和本申请方法结果1706。使用SSIM(Structural SIMilarity，结构相似性，用于衡量两幅图像相似度)来衡量本申请的方法和其他方法的合成结果，得到表2。

表2本申请方法和其他方法SSIM指标统计表

综合比较上述方法的结果，可以直观地看出本申请所述方法具有优秀的合成结果，口形和语音贴合较好，贴近实际情形。

图18出了本申请实施例的另一种视频合成结果比对图(图中黑条为了保护人物隐私而添加，实际过程中不存在该黑条)。该图包括：样本视频1801和1404、Audio2Obama方法14小时训练结果1802、Audio2Obama方法3分钟训练结果1805和本申请方法1803和1806。Audio2Obama(奥巴马语音驱动2)是为Obama专门开发应用的语音驱动程序。其中图中箭头部分说明Audio2Obama仍存在合成不正确的情况，从该图中可以直观地得到本申请所述方法具有优秀的合成结果，口形和语音贴合较好，贴近实际情形。对图17和图18的图像进行调查，得到表3用户反馈表。

表3用户反馈表(从-2“强烈反对”到+2“强烈赞同”，表中每行示出了用户的选择百分比和平均得分)

从表3中也可以得到，得到本申请所述方法具有优秀的合成结果，口形和语音贴合较好，贴近实际情形。

图19出了本申请实施例的另一种视频合成结果比对图(图中黑条为了保护人物隐私而添加，实际过程中不存在该黑条)。该图包括：本申请结果1901、SDA(基于生成对抗网络的语音驱动动画方法)使用第一数据集合成结果1902、SDA使用第二数据集合成结果1903和SDA使用第三数据集合成结果1904。从该图中可以直观地得到本申请所述方法具有优秀的合成结果，口形和语音贴合较好，贴近实际情形。

以下为本申请的装置实施例，对于装置实施例中未详细描述的细节，可以结合参考上述方法实施例中相应的记载，本文不再赘述。

图20示出了本申请的一个示例性实施例提供的一种人脸视频合成装置的结构示意图。该装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分，该装置包括：

获取模块2001，用于获取音频数据；

音频数据映射模块2002，用于将所述音频数据映射为三维形变模型的表情参数序列；

序列融合模块2003，用于将所述表情参数序列与从目标角色的样本视频中提取到的三维形变模型序列进行融合，得到所述目标角色的人脸图像序列；

合成模块2004，用于根据所述人脸图像序列合成得到所述目标角色的人脸视频。

可选地，序列融合模块2003包括：

表情参数合并子模块2008，用于将所述多个表情参数按照所述时序依次合并至所述多个三维形变模型中，得到融合后的多个三维形变模型；

渲染子模块2009，用于将所述融合后的多个三维形变模型按照所述时序分别渲染为人脸图像，得到所述目标角色的人脸图像序列。

可选地，表情参数合并子模块2008包括：

确定单元2010，用于在所述多个表情参数和所述多个三维形变模型中，确定具有相同时间戳的表情参数和三维形变模型；

替换单元2011，用于使用所述表情参数替换所述三维形变模型中的原有表情参数，得到融合后的三维形变模型；

排列单元2012，用于将所述融合后的三维形变模型按照所述时序依次排列，得到融合后的多个三维形变模型。

可选地，所述装置还包括：

映射神经网络模块2006，用于调用映射神经网络对所述音频数据进行处理，得到所述三维形变模型的表情参数序列。

可选地，所述获取模块2001，还用于获取所述目标角色的样本视频，所述样本视频包括按照所述时序排列的多个样本视频帧。

可选地，所述装置还包括：

人脸模型建造模块2005，用于对所述多个样本视频帧分别进行单目三维人脸重建得到所述三维形变模型序列，所述三维形变模型序列中的三维形变模型与所述样本视频帧一一对应。

可选地，所述合成模块2004，还用于将所述人脸图像序列的嘴部对应的第一图像区域，提取为前景图像帧序列；调用生成对抗网络中的生成器对所述前景图像帧序列中的人脸图像进行真实化处理，得到处理后的前景图像帧序列；根据所述处理后的前景图像帧序列合成得到所述目标角色的人脸视频。

可选地，所述装置还包括：

生成对抗网络训练模块2007，用于获取样本图像集，所述样本图像集：成对出现的重建样本图像和真实样本图像；固定所述判别器的网络参数，根据重建损失对所述生成器进行训练；所述重建损失是第一预测图像和所述真实样本图像之间的误差损失，所述第一预测图像是所述生成器对所述重建样本图像进行真实化处理得到的；固定所述生成器的网络参数，根据对抗损失对所述判别器进行训练；所述对抗损失是第二预测图像和所述真实样本图像之间的误差损失，所述第二预测图像是所述生成器对所述重建样本图像进行真实化处理得到的，所述第一预测图像和所述第二预测图像为所述生成器在不同时刻对所述重建样本图像进行真实化处理得到的预测图像；交替执行上述两个步骤，训练得到所述判别器和所述生成器。

可选地，所述合成模块2001还用于将所述多个样本视频帧中的第二图像区域，提取为背景图像帧序列；将所述背景图像帧序列和所述处理后的前景图像帧序列进行合成，得到所述目标角色的人脸视频。

本申请实施例提供的装置带来的有益效果至少包括：

通过将音频数据映射为三维形变模型的表情参数序列，融合获得的表情参数序列和目标角色的三维形变模型序列，得到相应的非真实感人脸图像序列，再再根据非真实感人脸图像序列获得目标角色的人脸视频。该方法可以创建真人的三维形变模型，并且由特定的映射关系获得相应的表情参数序列，该映射关系不受目标角色身份的影响，可运用到任意角色上，因而该方法泛化能力强，可适用于任何音频，且降低了运算量。

下面是对本申请实施例的计算机设备结构进行说明，图21是本申请一个实施例提供的计算机设备的结构示意图。计算机设备2100包括中央处理单元(英文：CentralProcessing Unit，简称：CPU)2101、包括随机存取存储器(英文：random access memory，简称：RAM)2102和只读存储器(英文：read-only memory，简称：ROM)2103的系统存储器2104，以及连接系统存储器2104和中央处理单元2101的系统总线2105。所述计算机设备2100还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)2106，和用于存储操作系统2113、应用程序2114和其他程序模块2115的大容量存储设备2107。

所述基本输入/输出系统2106包括有用于显示信息的显示器2108和用于用户输入信息的诸如鼠标、键盘之类的输入设备2109。其中所述显示器2108和输入设备2109都通过连接到系统总线2105的输入/输出控制器2110连接到中央处理单元2101。所述基本输入/输出系统2106还可以包括输入/输出控制器2110以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入/输出控制器2110还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备2107通过连接到系统总线2105的大容量存储控制器(未示出)连接到中央处理单元2101。所述大容量存储设备2107及其相关联的计算机可读介质为计算机设备2100提供非易失性存储。也就是说，所述大容量存储设备2107可以包括诸如硬盘或者只读光盘(英文：Compact Disc Read-Only Memory，简称：CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(英文：erasable programmable read-only memory，简称：EPROM)、电可擦除可编程只读存储器(英文：electrically erasable programmableread-only memory，简称：EEPROM)、闪存或其他固态存储其技术，CD-ROM、数字通用光盘(英文：Digital Versatile Disc，简称：DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器2104和大容量存储设备2107可以统称为存储器。

根据本申请的各种实施例，所述计算机设备2100还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备2100可以通过连接在所述系统总线2105上的网络接口单元2111连接到网络2112，或者说，也可以使用网络接口单元2111来连接到其他类型的网络或远程计算机系统(未示出)。

本申请还提供了一种计算机设备，该计算机设备包括：处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的人脸视频的合成方法。

本申请还提供了一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述各方法实施例提供的人脸视频的合成方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种人脸视频的合成方法，其特征在于，所述方法包括：

获取音频数据；

将所述音频数据映射为三维形变模型的表情参数序列；

根据所述人脸图像序列合成得到所述目标角色的人脸视频。

2.根据权利要求1所述的方法，其特征在于，所述表情参数序列包括按照时序排列的多个表情参数，所述三维形变模型序列包括按照时序排列的多个三维形变模型；

所述将所述表情参数序列与从目标角色的样本视频中提取到的三维形变模型序列进行融合，得到所述目标角色的人脸图像序列，包括：

将所述多个表情参数按照所述时序依次合并至所述多个三维形变模型中，得到融合后的多个三维形变模型；

将所述融合后的多个三维形变模型按照所述时序分别渲染为人脸图像，得到所述目标角色的人脸图像序列。

3.根据权利要求2所述的方法，其特征在于，所述将所述多个表情参数按照所述时序依次合并至所述多个三维形变模型中，得到融合后的多个三维形变模型，包括：

在所述多个表情参数和所述多个三维形变模型中，确定具有相同时间戳的表情参数和三维形变模型；

使用所述表情参数替换所述三维形变模型中的原有表情参数，得到融合后的三维形变模型；

将所述融合后的三维形变模型按照所述时序依次排列，得到融合后的多个三维形变模型。

4.根据权利要求1至3任一所述的方法，其特征在于，所述将所述音频数据映射为三维形变模型的表情参数序列，包括：

提取所述音频数据的高层特征；

调用映射神经网络对所述高层特征进行处理，得到所述三维形变模型的表情参数序列。

5.根据权利要求1至3任一所述的方法，其特征在于，所述方法还包括：

获取所述目标角色的样本视频，所述样本视频包括按照所述时序排列的多个样本视频帧；

对所述多个样本视频帧分别进行单目三维人脸重建得到所述三维形变模型序列，所述三维形变模型序列中的三维形变模型与所述样本视频帧一一对应。

6.根据权利要求5所述的方法，其特征在于，所述对所述多个样本视频帧分别进行单目三维人脸重建得到所述三维形变模型序列，包括：

对所述多个样本视频帧中的每个样本视频帧进行单目三维人脸重建，得到所述每个样本视频帧对应的模型参数和表情参数；

根据所述每个样本视频帧对应的模型参数和表情参数，重建得到所述每个样本视频帧对应的三维形变模型；

将所述每个样本视频帧对应的三维形变模型按照所述时序排列，得到所述三维形变模型序列。

7.根据权利要求1至3任一所述的方法，其特征在于，所述根据所述人脸图像序列合成得到所述目标角色的人脸视频，包括：

将所述人脸图像序列的嘴部对应的第一图像区域，提取为前景图像帧序列；

调用生成对抗网络中的生成器对所述前景图像帧序列中的人脸图像进行真实化处理，得到处理后的前景图像帧序列；

根据所述处理后的前景图像帧序列合成得到所述目标角色的人脸视频。

8.根据权利要求7所述的方法，其特征在于，所述生成对抗网络还包括判别器，所述生成器和所述判别器是采用如下训练方式训练得到的：

获取样本图像集，所述样本图像集：成对出现的重建样本图像和真实样本图像；

固定所述判别器的网络参数，根据重建损失对所述生成器进行训练；所述重建损失是第一预测图像和所述真实样本图像之间的误差损失，所述第一预测图像是所述生成器对所述重建样本图像进行真实化处理得到的；

固定所述生成器的网络参数，根据对抗损失对所述判别器进行训练；所述对抗损失是第二预测图像和所述真实样本图像之间的误差损失，所述第二预测图像是所述生成器对所述重建样本图像进行真实化处理得到的；

交替执行上述两个步骤，训练得到所述判别器和所述生成器。

9.根据权利要求7所述的方法，其特征在于，所述根据所述处理后的前景图像帧序列合成得到所述目标角色的人脸视频，包括：

将所述多个样本视频帧中的第二图像区域，提取为背景图像帧序列；

将所述背景图像帧序列和所述处理后的前景图像帧序列进行合成，得到所述目标角色的人脸视频。

10.根据权利要求1至3任一所述的方法，其特征在于，所述目标角色包括主播角色，所述获取音频数据，包括：

接收来自主播客户端的第一音频数据，所述主播客户端是所述主播角色对应的客户端；

所述方法还包括：

显示所述主播角色的直播界面，所述直播界面包括所述主播角色的人脸视频的播放画面。

11.根据权利要求1至3任一所述的方法，其特征在于，所述目标角色包括通话对象角色，所述获取音频数据，包括：

接收来自通讯客户端的第二音频数据，所述通讯客户端是所述通话对象角色对应的客户端；

所述方法还包括：

显示所述通话对象角色的视频通话界面，所述视频通话界面包括所述通话对象角色的人脸视频的播放画面。

12.一种人脸视频的合成装置，其特征在于，所述装置包括：

获取模块，用于获取音频数据；

数据映射模块，用于将所述音频数据映射为三维形变模型的表情参数序列；

序列融合模块，用于将所述表情参数序列与从目标角色的样本视频中提取到的三维形变模型序列进行融合，得到所述目标角色的人脸图像序列；

13.一种计算机设备，其特征在于，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至9任一项所述的人脸视频的合成方法。

14.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至9任一项所述的人脸视频的合成方法。