CN113160799B

CN113160799B - 视频生成方法和装置、计算机可读存储介质、电子设备

Info

Publication number: CN113160799B
Application number: CN202110437410.2A
Authority: CN
Inventors: 赵靖
Original assignee: Seashell Housing Beijing Technology Co Ltd
Current assignee: Seashell Housing Beijing Technology Co Ltd
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2022-05-31
Anticipated expiration: 2041-04-22
Also published as: CN113160799A

Abstract

本公开实施例公开了一种视频生成方法和装置、计算机可读存储介质、电子设备，其中，方法包括：获得一个第一三维人头模型；其中，所述第一三维人头模型包括多个顶点和顶点之间的连接关系；基于目标语音数据改变所述第一三维人头模型中n个顶点的位置，得到包括多帧视频图像的第一视频；其中，所述第一视频中包括的人脸嘴部动作与所述目标语音数据相对应，n为大于等于0的整数；基于目标对象的第一人脸图像和所述第一视频，得到所述目标对象讲述所述目标语音数据的目标视频；本实施例简化了视频生成的过程，提高了目标视频的生成效率。

Description

视频生成方法和装置、计算机可读存储介质、电子设备

技术领域

本公开涉及图像视频技术领域，尤其是一种视频生成方法和装置、计算机可读存储介质、电子设备。

背景技术

随着计算机技术的发展，为更便利的服务用户，减少用户的阅读时间，现有技术提出将文本转换为语音的语音合成技术，语音合成是通过机械的、电子的方法产生人造语音的技术；例如，TTS技术(又称文语转换技术)隶属于语音合成，它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术；但现有技术仅能提供语音缺少与之结合的视频显示，不能为用户提供更直观的体验。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种视频生成方法和装置、计算机可读存储介质、电子设备。

根据本公开实施例的一个方面，提供了一种视频生成方法，包括：

获得一个第一三维人头模型；其中，所述第一三维人头模型包括多个顶点和顶点之间的连接关系；

基于目标语音数据改变所述第一三维人头模型中n个顶点的位置，得到包括多帧视频图像的第一视频；其中，所述第一视频中包括的人脸嘴部动作与所述目标语音数据相对应，n为大于等于0的整数；

基于目标对象的第一人脸图像和所述第一视频，得到所述目标对象讲述所述目标语音数据的目标视频。

可选地，所述基于目标语音数据改变所述第一三维人头模型中n个顶点的位置，得到包括多帧视频图像的第一视频，包括：

对所述目标语音数据进行切分处理，得到多个语音片段；

基于所述多个语音片段分别改变多个所述第一三维人头模型中每个第一三维模型中n个顶点的位置，得到多个第二三维人头模型；其中，每个所述语音片段对应一个所述第一三维人头模型；

基于所述多个第二三维人头模型得到所述第一视频。

可选地，所述基于所述多个语音片段分别改变多个所述第一三维人头模型中每个第一三维模型中n个顶点的位置，得到多个第二三维人头模型，包括：

基于所述多个语音片段和多个第一三维人头模型得到多组输入数据；其中，每组所述输入数据包括一个语音片段和对应的所述第一三维人头模型；

基于语音驱动模型分别对每组所述输入数据进行处理，得到多个所述第二三维人头模型；其中，所述第二三维人头模型与所述第一三维人头模型的区别在于部分顶点位置不同。

可选地，在基于语音驱动模型分别对每组所述输入数据进行处理，得到多个所述第二三维人头模型之前，还包括：

利用样本数据集对所述语音驱动模型进行训练；其中，所述样本数据集包括多对样本数据对，每对所述样本数据对中包括样本三维模型和与该样本三维模型对应的样本语音片段。

可选地，所述基于所述多个第二三维人头模型得到所述第一视频，包括：

分别对所述多个第二三维人头模型中的每个第二三维人头模型进行渲染，得到多张第二人脸图像；

连接所述多张第二人脸图像，得到所述第一视频。

可选地，所述基于目标对象的第一人脸图像和所述第一视频，得到所述目标对象讲述所述目标语音数据的目标视频，包括：

将所述第一视频分解为多帧第三人脸图像；

基于所述第一人脸图像分别对所述多帧第三人脸图像中的每帧第三人脸图像进行处理，得到多帧目标人脸图像；

基于所述多帧人脸图像得到所述目标视频。

可选地，所述基于所述第一人脸图像分别对所述多帧第三人脸图像中的每帧第三人脸图像进行处理，得到多帧目标人脸图像，包括：

将所述多帧第三人脸图像中每帧第三人脸图像分别与所述第一人脸图像组成一对数据对，得到多对数据对；

利用视频驱动模型分别对每对所述数据对进行处理，使所述数据对中第三人脸图像中的人脸替换为所述目标对象的人脸，得到一个所述目标人脸图像；

基于所述多对数据对得到多帧所述目标人脸图像。

可选地，所述视频驱动模型包括关键点检测子网络、光流估计子网络和图像生成子网络；

所述利用视频驱动模型分别对每对所述数据对进行处理，使所述数据对中第三人脸图像中的人脸替换为所述目标对象的人脸，得到一个所述目标人脸图像，包括：

基于所述关键点检测子网络对所述数据对中的第一人脸图像和第三人脸图像进行关键点检测，得到第一关键点特征图和第二关键点特征图；

基于所述光流估计子网络得到从所述第一关键点特征图到所述第二关键点特征图的光流，基于所述光流控制所述第一关键点特征图中的关键点与所述第二关键点特征图中的关键点对齐，得到第三关键点特征图；

基于所述图像生成子网络对所述第三关键点特征图进行处理，得到所述目标人脸图像。

根据本公开实施例的另一方面，提供了一种视频生成装置，包括：

模型获得模块，用于获得一个第一三维人头模型；其中，所述第一三维人头模型包括多个顶点和顶点之间的连接关系；

模型驱动模块，用于基于目标语音数据改变所述第一三维人头模型中n个顶点的位置，得到包括多帧视频图像的第一视频；其中，所述第一视频中包括的人脸嘴部动作与所述目标语音数据相对应，n为大于等于0的整数；

人脸替换模块，用于基于目标对象的第一人脸图像和所述第一视频，得到所述目标对象讲述所述目标语音数据的目标视频。

可选地，所述模型驱动模块，包括：

语音切分单元，用于对所述目标语音数据进行切分处理，得到多个语音片段；

顶点驱动单元，用于基于所述多个语音片段分别改变多个所述第一三维人头模型中每个第一三维模型中n个顶点的位置，得到多个第二三维人头模型；其中，每个所述语音片段对应一个所述第一三维人头模型；

视频获得单元，用于基于所述多个第二三维人头模型得到所述第一视频。

可选地，所述顶点驱动单元，具体用于基于所述多个语音片段和多个第一三维人头模型得到多组输入数据；其中，每组所述输入数据包括一个语音片段和对应的所述第一三维人头模型；基于语音驱动模型分别对每组所述输入数据进行处理，得到多个所述第二三维人头模型；其中，所述第二三维人头模型与所述第一三维人头模型的区别在于部分顶点位置不同。

可选地，所述顶点驱动单元，还用于利用样本数据集对所述语音驱动模型进行训练；其中，所述样本数据集包括多对样本数据对，每对所述样本数据对中包括样本三维模型和与该样本三维模型对应的样本语音片段。

可选地，所述视频获得单元，具体用于分别对所述多个第二三维人头模型中的每个第二三维人头模型进行渲染，得到多张第二人脸图像；连接所述多张第二人脸图像，得到所述第一视频。

可选地，所述人脸替换模块，包括：

视频分解单元，用于将所述第一视频分解为多帧第三人脸图像；

图像处理单元，用于基于所述第一人脸图像分别对所述多帧第三人脸图像中的每帧第三人脸图像进行处理，得到多帧目标人脸图像；

视频生成单元，用于基于所述多帧人脸图像得到所述目标视频。

可选地，所述图像处理单元，具体用于将所述多帧第三人脸图像中每帧第三人脸图像分别与所述第一人脸图像组成一对数据对，得到多对数据对；利用视频驱动模型分别对每对所述数据对进行处理，使所述数据对中第三人脸图像中的人脸替换为所述目标对象的人脸，得到一个所述目标人脸图像；基于所述多对数据对得到多帧所述目标人脸图像。

所述图像处理单元在利用视频驱动模型分别对每对所述数据对进行处理，使所述数据对中第三人脸图像中的人脸替换为所述目标对象的人脸，得到一个所述目标人脸图像时，用于基于所述关键点检测子网络对所述数据对中的第一人脸图像和第三人脸图像进行关键点检测，得到第一关键点特征图和第二关键点特征图；基于所述光流估计子网络得到从所述第一关键点特征图到所述第二关键点特征图的光流，基于所述光流控制所述第一关键点特征图中的关键点与所述第二关键点特征图中的关键点对齐，得到第三关键点特征图；基于所述图像生成子网络对所述第三关键点特征图进行处理，得到所述目标人脸图像。

根据本公开实施例的又一方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述任一实施例所述的视频生成方法。

根据本公开实施例的还一方面，提供了一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述任一实施例所述的视频生成方法。

基于本公开上述实施例提供的一种视频生成方法和装置、计算机可读存储介质、电子设备，获得一个第一三维人头模型；其中，所述第一三维人头模型包括多个顶点和顶点之间的连接关系；基于目标语音数据改变所述第一三维人头模型中n个顶点的位置，得到包括多帧视频图像的第一视频；其中，所述第一视频中包括的人脸嘴部动作与所述目标语音数据相对应，n为大于等于0的整数；基于目标对象的第一人脸图像和所述第一视频，得到所述目标对象讲述所述目标语音数据的目标视频；本实施例通过获得任意人物的三维人头模型并基于目标语音数据进行驱动，获得对应目标语音数据的任意人物的第一视频，在得到第一视频作为模板之后，仅需目标对象的一张第一人脸图像即可获得目标对象讲述目标语音数据的目标视频，简化了视频生成的过程，提高了目标视频的生成效率。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开一示例性实施例提供的视频生成方法的流程示意图。

图2是本公开图1所示的实施例中步骤104的一个流程示意图。

图3是本公开图1所示的实施例中步骤106的一个流程示意图。

图4是本公开图3所示的实施例中步骤1062的一个流程示意图。

图5是本公开图4所示的实施例中步骤402的一个流程示意图。

图6是本公开一示例性实施例提供的视频生成装置的结构示意图。

图7是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

申请概述

在实现本公开的过程中，发明人发现，现有技术仅提供了语音生成的技术，至少存在以下问题：不能为用户提供更直观的视频体验。

示例性方法

图1是本公开一示例性实施例提供的视频生成方法的流程示意图。本实施例可应用在电子设备上，如图1所示，包括如下步骤：

步骤102，获得一个第一三维人头模型。

其中，第一三维人头模型包括多个顶点和顶点之间的连接关系。

可选地，本实施例中的第一三维人头模型可以三维网格模型，例如，三角网格或多边形网格等，第一三维人头模型通过顶点和顶点之间的连接关系对目标对象的人头在三维空间中的结构进行描述；本实施例中的第一三维人头模型可以是任意人物的，其获取渠道可以从网络下载，或从任意人脸图像通过三维重建模型重建第一三维人头模型，例如，采用人脸3D形变统计模型(3DMM)作为三维重建模型。

步骤104，基于目标语音数据改变第一三维人头模型中n个顶点的位置，得到包括多帧视频图像的第一视频。

其中，第一视频中包括的人脸嘴部动作与目标语音数据相对应，n为大于等于0的整数。

在本申请的一些实施例中，改变三维人头模型中的部分顶点的位置即可改变该三维人头模型对应的人物的面部表情和面部动作，例如，改变嘴部顶点的位置，对应的人脸上会出现不同的嘴部动作；本实施例基于目标语音数据对第一三维人头模型进行驱动，使得到的视频图像中的嘴部动作对应该目标语音数据，并且，由于目标语音数据是一段话，对应的嘴部动作必然包括多个，因此，由多帧视频图像进行表示。

步骤106，基于目标对象的第一人脸图像和第一视频，得到目标对象讲述目标语音数据的目标视频。

可选地，通过第一视频驱动第一人脸图像，获得对应第一视频帧数的多帧动作变换的人脸图像，以获得的多帧人脸图像连接即可的目标视频，本实施例基于第一视频作为模板，实现了快速替换的目标视频生成方式，提高了目标视频的生成效率。

本公开上述实施例提供的一种视频生成方法，获得一个第一三维人头模型；其中，所述第一三维人头模型包括多个顶点和顶点之间的连接关系；基于目标语音数据改变所述第一三维人头模型中n个顶点的位置，得到包括多帧视频图像的第一视频；其中，所述第一视频中包括的人脸嘴部动作与所述目标语音数据相对应，n为大于等于0的整数；基于目标对象的第一人脸图像和所述第一视频，得到所述目标对象讲述所述目标语音数据的目标视频；本实施例通过获得任意人物的三维人头模型并基于目标语音数据进行驱动，获得对应目标语音数据的任意人物的第一视频，在得到第一视频作为模板之后，仅需目标对象的一张第一人脸图像即可获得目标对象讲述目标语音数据的目标视频，简化了视频生成的过程，提高了目标视频的生成效率。

如图2所示，在上述图1所示实施例的基础上，步骤104可包括如下步骤：

步骤1041，对目标语音数据进行切分处理，得到多个语音片段。

本实施例中，可根据实际语音内容将目标语音数据切分为多个具有一定时间跨度语音片段，例如，每个语音片段50ms等，并且，为了保证得到的目标视频中口型的连贯性，每两个相邻的语音片段中存在重叠部分；接收的语音数据可以是语音时域信号或直接是语音特征，当接收的语音数据为语音时域信号(波形)时，对语音数据提取MFCC特征(对时间窗口的波形进行傅里叶变换，将时域信号转换为频域信号)，或者神经网络提取语音特征，以语音特征对三维模型中的顶点位置进行改变；对应的语音切分的长度可根据傅里叶变换的窗口决定。

步骤1042，基于多个语音片段分别改变多个第一三维人头模型中每个第一三维人头模型中n个顶点的位置，得到多个第二三维人头模型。

其中，每个语音片段对应一个第一三维人头模型。

本实施例中，通过每个语音片段对一个第一三维人头模型中的n个顶点进行位置改变。

步骤1043，基于多个第二三维人头模型得到第一视频。

可选地，分别对多个第二三维人头模型中的每个第二三维人头模型进行渲染，得到多张第二人脸图像；其中，每个第二三维人头模型经过渲染得到一张第二人脸图像。

连接多张第二人脸图像，得到第一视频。

本实施例中，按照语音片段在目标语音数据中的顺序联系多帧视频图像，即可获得对应目标语音数据的第一视频。

其中，渲染在电脑绘图中是指用软件从模型生成图像的过程，在本实施例中，通过渲染从第二三维人头模型可得到对应的人脸图像作为视频图像；将多帧视频图像按照对应的语音片段在目标语音数据中的顺序进行连接，即可得到目标视频，实现视频中的人脸口型动作对应目标语音数据。

在上述实施例的基础上，步骤1042可以包括：

基于多个语音片段和多个第一三维人头模型得到多组输入数据。

其中，每组输入数据包括一个语音片段和对应的第一三维人头模型。

基于语音驱动模型分别对每组输入数据进行处理，得到多个第二三维人头模型。

其中，第二三维人头模型与第一三维人头模型的区别在于部分顶点位置不同。

本实施例通过语音驱动三维人头模型的运动，该语音驱动模型的输入为一个第一三维人头模型和一个语音片段，输出为对应该语音片段动作的第二三维模型，该第二三维人头模型的中顶点之间的连接关系不变，只改变部分顶点的位置，使第二三维人头模型的神情(例如，眼部动作等)和口型动作与语音片段相对应。可选地，语音驱动模型的结构可采用编码器-解码器(encoder-decoder)的结构，编码器将输入的语音片段和第一三维模型进行编码，再通过解码器解码出新的模型顶点位置，使得第二三维人头模型的顶点位置对应的模型神情和口型与语音片段一致。

当语音驱动模型为深度神经网络时，在基于语音驱动模型分别对每组输入数据进行处理，得到多个第二三维人头模型之前，还包括：

利用样本数据集对语音驱动模型进行训练。

其中，样本数据集包括多对样本数据对，每对样本数据对中包括样本三维模型和与样本三维模型对应的样本语音片段。

本实施例通过训练使语音驱动模型学习到语音片段与三维人头模型之间的对应关系；可选地，训练过程可以包括：将每对样本数据对输入语音驱动模型，得到预测三维模型；以预测三维模型和样本数据对中的样本三维模型之间的差异作为损失，基于该损失通过反向梯度传播调整该语音驱动模型的网络参数，迭代执行上述网络参数调整过程，直到符合收敛条件，得到训练后的语音驱动模型，其中，收敛条件可以包括但不限于：得到的损失小于第一预设值、两次迭代之间损失的差异小于第二预设值、迭代的次数达到第三预设值等，第一、第二、第三预设值根据实际场景进行设置。

本实施例通过对语音驱动模型进行训练，使训练后的语音驱动模型更适合本申请的场景，即，训练后的语音驱动模型能够获得更符合语音片段的三维模型，提高了语音驱动三维人头模型的运动的准确率。

如图3所示，在上述图1所示实施例的基础上，步骤106可包括如下步骤：

步骤1061，将第一视频分解为多帧第三人脸图像。

可选地，将第一视频按照时间顺序进行分解，即可得到多帧第三人脸图像。

步骤1062，基于第一人脸图像分别对多帧第三人脸图像中的每帧第三人脸图像进行处理，得到多帧目标人脸图像。

通过多帧第二人脸图像逐帧驱动第一人脸图像，即可得到帧数与第一视频对应的目标人脸图像，该目标人脸图像在动作上与第三人脸图像相对应，仅替换了人脸特征为目标对象。

步骤1063，基于多帧人脸图像得到目标视频。

可选地，将多帧人脸图像按照多帧第三人脸图像的顺序进行连接，即可得到语音内容对应目标语音数据的目标视频，该目标视频中表现为目标对象讲述目标语音数据；本实施例实现了视频A中包含人物甲讲话的动作，现有一张包含人物乙的图片B，视频驱动图像的结果是：生成一个新的视频C，其中包含人物乙做出视频A中甲的动作。

如图4所示，在上述图3所示实施例的基础上，步骤1062可包括如下步骤：

步骤401，将多帧第三人脸图像中每帧第三人脸图像分别与第一人脸图像组成一对数据对，得到多对数据对。

本实施例中，为了获得与多帧第二人脸图像中动作相同的多帧第一人脸图像，首先建立每帧第二人脸图像与一帧第一人脸图像的对应关系，以数据对中的第二人脸图像的动作驱动对应的第一人脸图像。

步骤402，利用视频驱动模型分别对每对数据对进行处理，使数据对中第三人脸图像中的人脸替换为目标对象的人脸，得到一个目标人脸图像。

步骤403，基于多对数据对得到多帧目标人脸图像。

本实施例中，视频驱动模型对每帧第三人脸图像中的人脸替换为目标对象的人脸，而其中动作不变，即，获得目标对象执行第三人脸图像动作的目标人脸图像；可选地，视频驱动模型可以为深度学习网络等。

如图5所示，在上述图4所示实施例的基础上，其中，视频驱动模型包括关键点检测子网络、光流估计子网络和图像生成子网络；步骤402可包括如下步骤：

步骤4021，基于关键点检测子网络对数据对中的第一人脸图像和第三人脸图像进行关键点检测，得到第一关键点特征图和第二关键点特征图。

本实施例中，关键点检测子网络分别对第一人脸图像和第三人脸图像进行关键点检测，以获得用于区分不同人脸的关键点特征；该关键点检测网络可以是现有技术中的关键点检测网络，经过训练对人脸关键点进行检测。

步骤4022，基于光流估计子网络得到从第一关键点特征图到第二关键点特征图的光流，基于光流控制第一关键点特征图中的关键点与第二关键点特征图中的关键点对齐，得到第三关键点特征图。

光流(optical flow)法是运动图像分析的重要方法，它的概念是由JamesJ.Gibson于20世纪40年代首先提出的，是指时变图像中模式运动速度。因为当物体在运动时，它在图像上对应点的亮度模式也在运动。这种图像亮度模式的表观运动(apparentmotion)就是光流。

步骤4023，基于图像生成子网络对第三关键点特征图进行处理，得到目标人脸图像。

本实施例，基于关键点检测子网络分别对两张图像进行面部关键点检测，将检测结果输入给光流估计子网络生成光流，最终使用光流对第一人脸图像的关键点特征做形变，使之与第二人脸图像的关键点特征基本对齐。最后将形变后的第一人脸图像的关键点特征输入给图像生成子网络，将关键点特征恢复为图像；可选地，除了本实施例所示的关键点检测和光流对齐，还可以，通过骨骼识别获得面部骨骼分布，在基于面部骨骼对齐，实现以第二人脸图像的动作驱动第一人脸图像的动作。

综上，本公开实施例提供的视频生成方法，通过目标语音数据驱动一个第一三维人头模型得到第一视频，并以第一视频为模板，将第一视频中的人脸替换为目标对象的人脸，即可获得目标对象讲述目标语音数据的目标视频，实现了快速获得指定对象讲述目标语音数据的视频的目的，得到了简化视频生成过程，提高视频生成效率的效果。

本公开实施例提供的任一种视频生成方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种视频生成方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种视频生成方法。下文不再赘述。

示例性装置

图6是本公开一示例性实施例提供的视频生成装置的结构示意图。如图6所示，本实施例提供的装置，包括：

模型获得模块61，用于获得一个第一三维人头模型。

模型驱动模块62，用于基于目标语音数据改变第一三维人头模型中n个顶点的位置，得到包括多帧视频图像的第一视频。

人脸替换模块63，用于基于目标对象的第一人脸图像和第一视频，得到目标对象讲述目标语音数据的目标视频。

本公开上述实施例提供的一种视频生成装置，获得一个第一三维人头模型；其中，所述第一三维人头模型包括多个顶点和顶点之间的连接关系；基于目标语音数据改变所述第一三维人头模型中n个顶点的位置，得到包括多帧视频图像的第一视频；其中，所述第一视频中包括的人脸嘴部动作与所述目标语音数据相对应，n为大于等于0的整数；基于目标对象的第一人脸图像和所述第一视频，得到所述目标对象讲述所述目标语音数据的目标视频；本实施例通过获得任意人物的三维人头模型并基于目标语音数据进行驱动，获得对应目标语音数据的任意人物的第一视频，在得到第一视频作为模板之后，仅需目标对象的一张第一人脸图像即可获得目标对象讲述目标语音数据的目标视频，简化了视频生成的过程，提高了目标视频的生成效率。

在一些可选的实施例中，模型驱动模块62，包括：

语音切分单元，用于对目标语音数据进行切分处理，得到多个语音片段；

顶点驱动单元，用于基于多个语音片段分别改变多个第一三维人头模型中每个第一三维模型中n个顶点的位置，得到多个第二三维人头模型；其中，每个语音片段对应一个第一三维人头模型；

视频获得单元，用于基于多个第二三维人头模型得到第一视频。

可选地，顶点驱动单元，具体用于基于多个语音片段和多个第一三维人头模型得到多组输入数据；其中，每组输入数据包括一个语音片段和对应的第一三维人头模型；基于语音驱动模型分别对每组输入数据进行处理，得到多个第二三维人头模型；其中，第二三维人头模型与第一三维人头模型的区别在于部分顶点位置不同。

可选地，顶点驱动单元，还用于利用样本数据集对语音驱动模型进行训练；其中，样本数据集包括多对样本数据对，每对样本数据对中包括样本三维模型和与该样本三维模型对应的样本语音片段。

可选地，视频获得单元，具体用于分别对多个第二三维人头模型中的每个第二三维人头模型进行渲染，得到多张第二人脸图像；连接多张第二人脸图像，得到第一视频。

在一些可选的实施例中，人脸替换模块63，包括：

视频分解单元，用于将第一视频分解为多帧第三人脸图像；

图像处理单元，用于基于第一人脸图像分别对多帧第三人脸图像中的每帧第三人脸图像进行处理，得到多帧目标人脸图像；

视频生成单元，用于基于多帧人脸图像得到目标视频。

可选地，图像处理单元，具体用于将多帧第三人脸图像中每帧第三人脸图像分别与第一人脸图像组成一对数据对，得到多对数据对；利用视频驱动模型分别对每对数据对进行处理，使数据对中第三人脸图像中的人脸替换为目标对象的人脸，得到一个目标人脸图像；基于多对数据对得到多帧目标人脸图像。

可选地，视频驱动模型包括关键点检测子网络、光流估计子网络和图像生成子网络；

图像处理单元在利用视频驱动模型分别对每对数据对进行处理，使数据对中第三人脸图像中的人脸替换为目标对象的人脸，得到一个目标人脸图像时，用于基于关键点检测子网络对数据对中的第一人脸图像和第三人脸图像进行关键点检测，得到第一关键点特征图和第二关键点特征图；基于光流估计子网络得到从第一关键点特征图到第二关键点特征图的光流，基于光流控制第一关键点特征图中的关键点与第二关键点特征图中的关键点对齐，得到第三关键点特征图；基于图像生成子网络对第三关键点特征图进行处理，得到目标人脸图像。

综上，本公开实施例提供的视频生成装置，通过目标语音数据驱动一个第一三维人头模型得到第一视频，并以第一视频为模板，将第一视频中的人脸替换为目标对象的人脸，即可获得目标对象讲述目标语音数据的目标视频，实现了快速获得指定对象讲述目标语音数据的视频的目的，得到了简化视频生成过程，提高视频生成效率的效果。

示例性电子设备

下面，参考图7来描述根据本公开实施例的电子设备。该电子设备可以是第一设备100和第二设备200中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。

图7图示了根据本公开实施例的电子设备的框图。

如图7所示，电子设备70包括一个或多个处理器71和存储器72。

处理器71可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备70中的其他组件以执行期望的功能。

存储器72可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器71可以运行所述程序指令，以实现上文所述的本公开的各个实施例的视频生成方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备70还可以包括：输入装置73和输出装置74，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是第一设备100或第二设备200时，该输入装置73可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号。在该电子设备是单机设备时，该输入装置73可以是通信网络连接器，用于从第一设备100和第二设备200接收所采集的输入信号。

此外，该输入装置73还可以包括例如键盘、鼠标等等。

该输出装置74可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出装置74可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图7中仅示出了该电子设备70中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备70还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的视频生成方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的视频生成方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种视频生成方法，其特征在于，包括：

基于目标语音数据改变所述第一三维人头模型中n个顶点的位置，得到多个第二三维人头模型；基于所述多个第二三维人头模型得到包括多帧视频图像的第一视频；其中，所述第一视频中包括的人脸嘴部动作与所述目标语音数据相对应，n为大于等于0的整数；所述第一视频中包括的第二三维人头模型中的顶点之间的连接关系与所述第一三维人头模型相同，第二三维人头模型中的部分顶点的位置与所述第一三维人头模型不同；

基于目标对象的第一人脸图像和所述第一视频对应的多帧第三人脸图像，得到多帧目标人脸图像；包括：

基于视频驱动模型中的关键点检测子网络对数据对中的第一人脸图像和第三人脸图像进行关键点检测，得到第一关键点特征图和第二关键点特征图；

基于视频驱动模型中的光流估计子网络得到从所述第一关键点特征图到所述第二关键点特征图的光流，基于所述光流控制所述第一关键点特征图中的关键点与所述第二关键点特征图中的关键点对齐，得到第三关键点特征图；

基于视频驱动模型中的图像生成子网络对所述第三关键点特征图进行处理，得到所述目标人脸图像，基于多对所述数据对得到多帧所述目标人脸图像；

基于多帧人脸图像得到所述目标对象讲述所述目标语音数据的目标视频。

2.根据权利要求1所述的方法，其特征在于，所述基于目标语音数据改变所述第一三维人头模型中n个顶点的位置，得到多个第二三维人头模型，包括：

对所述目标语音数据进行切分处理，得到多个语音片段；

基于所述多个语音片段分别改变多个所述第一三维人头模型中每个第一三维模型中n个顶点的位置，得到多个第二三维人头模型；其中，每个所述语音片段对应一个所述第一三维人头模型。

3.根据权利要求2所述的方法，其特征在于，所述基于所述多个语音片段分别改变多个所述第一三维人头模型中每个第一三维模型中n个顶点的位置，得到多个第二三维人头模型，包括：

基于语音驱动模型分别对每组所述输入数据进行处理，得到多个所述第二三维人头模型。

4.根据权利要求3所述的方法，其特征在于，在基于语音驱动模型分别对每组所述输入数据进行处理，得到多个所述第二三维人头模型之前，还包括：

5.根据权利要求1-4任一所述的方法，其特征在于，所述基于所述多个第二三维人头模型得到所述第一视频，包括：

连接所述多张第二人脸图像，得到所述第一视频。

6.根据权利要求1-4任一所述的方法，其特征在于，所述基于目标对象的第一人脸图像和所述第一视频，得到多帧目标人脸图像，包括：

将所述第一视频分解为多帧第三人脸图像；

基于所述第一人脸图像分别对所述多帧第三人脸图像中的每帧第三人脸图像进行处理，得到多帧目标人脸图像。

7.根据权利要求1-4任一所述的方法，其特征在于，在基于所述关键点检测子网络对数据对中的第一人脸图像和第三人脸图像进行关键点检测，得到第一关键点特征图和第二关键点特征图之前，还包括：

将所述多帧第三人脸图像中每帧第三人脸图像分别与所述第一人脸图像组成一对数据对，得到多对数据对。

8.一种视频生成装置，其特征在于，包括：

模型驱动模块，用于基于目标语音数据改变所述第一三维人头模型中n个顶点的位置，得到多个第二三维人头模型；基于所述多个第二三维人头模型得到包括多帧视频图像的第一视频；其中，所述第一视频中包括的人脸嘴部动作与所述目标语音数据相对应，n为大于等于0的整数；所述第一视频中包括的第二三维人头模型中的顶点之间的连接关系与所述第一三维人头模型相同，第二三维人头模型中的部分顶点的位置与所述第一三维人头模型不同；

人脸替换模块，用于基于目标对象的第一人脸图像和所述第一视频对应的多帧第三人脸图像，得到多帧目标人脸图像；所述人脸替换模块，具体用于基于视频驱动模型中的关键点检测子网络对数据对中的第一人脸图像和第三人脸图像进行关键点检测，得到第一关键点特征图和第二关键点特征图；基于视频驱动模型中的光流估计子网络得到从所述第一关键点特征图到所述第二关键点特征图的光流，基于所述光流控制所述第一关键点特征图中的关键点与所述第二关键点特征图中的关键点对齐，得到第三关键点特征图；基于视频驱动模型中的图像生成子网络对所述第三关键点特征图进行处理，得到所述目标人脸图像，基于多对所述数据对得到多帧所述目标人脸图像；

视频生成模块，用于基于多帧人脸图像得到所述目标对象讲述所述目标语音数据的目标视频。

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-7任一所述的视频生成方法。

10.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-7任一所述的视频生成方法。