CN114170648A

CN114170648A - 视频生成方法、装置、电子设备及存储介质

Info

Publication number: CN114170648A
Application number: CN202111333611.4A
Authority: CN
Inventors: 饶强; 黄旭为; 张国鑫
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-11-11
Filing date: 2021-11-11
Publication date: 2022-03-11

Abstract

本公开关于一种视频生成方法、装置、电子设备及存储介质，涉及计算机技术领域，其中，方法包括：电子设备获取人脸图像后，将获取的人脸图像输入一阶运动模型进行动作合成，得到初始视频，初始视频中各视频帧人脸图像带有脸部动作；对初始视频中各视频帧人脸图像进行特征提取，得到各视频帧人脸图像对应的第一表情系数序列；将歌词输入多模态模型，得到歌词对应的第二表情系数序列；其中，多模态模型是根据歌词样本和表情系数序列之间的映射关系训练得到的；根据第一表情系数序列和第二表情系数序列对各视频帧人脸图像中的关键点进行调整，得到人脸动作与歌词匹配目标视频。由此，不仅节省了用户的时间，还提升了用户的使用体验。

Description

视频生成方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种视频生成方法、装置、电子设备及存储介质。

背景技术

随着视频通信技术和移动设备的发展，以及近年来直播、短视频的盛行，在终端设备上拍摄短视频已成为用户的一种基本需求。

相关技术中，用户制作唱歌的短视频时，使用终端设备在用户唱歌的时候进行录制，以得到用户唱歌的短视频。但是，整个短视频的生成过程需要该用户全程参与，浪费了用户的大量时间。

发明内容

本公开提供一种视频生成方法、装置及电子设备，以至少解决相关技术中视频的生成过程需要用户全程参与，导致浪费用户的大量时间的技术问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频生成方法，包括：

获取人脸图像；

将人脸图像输入一阶运动模型进行动作合成，得到初始视频；一阶运动模型是根据人脸视频和预设的一阶运动算法训练得到的；初始视频中各视频帧人脸图像带有脸部动作；

对初始视频中各视频帧人脸图像进行特征提取，得到各视频帧人脸图像对应的第一表情系数序列；

将歌词输入多模态模型，得到歌词对应的第二表情系数序列；其中，多模态模型是根据歌词样本和表情系数序列之间的映射关系训练得到的；

根据第一表情系数序列和第二表情系数序列对各视频帧人脸图像中的关键点进行调整，得到目标视频；目标视频中人脸动作与歌词匹配。

可选地，根据第一表情系数序列和第二表情系数序列对各视频帧人脸图像中的关键点进行调整，得到目标视频，包括：

根据第一表情系数序列和第二表情系数序列对各视频帧人脸图像进行三维重建，得到每个视频帧人脸图像对应的目标三维人脸图像；

将每个视频帧人脸图像对应的目标三维人脸图像进行拼接，得到目标视频。

可选地，第一表情系数序列包括第一口型系数序列，第二表情系数序列包括第二口型系数序列，根据第一表情系数序列和第二表情系数序列对各视频帧人脸图像进行三维重建，得到每个视频帧人脸图像对应的目标三维人脸图像，包括：

将第一口型系数序列中的每一个第一口型系数替换为第二口型系数序列中对应的第二口型系数，得到目标表情系数序列；

根据目标表情系数序列对各视频帧人脸图像进行三维重建，得到每个视频帧人脸图像对应的目标三维人脸图像。

可选地，将每个视频帧人脸图像对应的目标三维人脸图像进行拼接，得到目标视频，包括：

对每个视频帧人脸图像对应的目标三维人脸图像进行渲染，得到每个视频帧人脸图像对应的目标人脸图像；

对每个视频帧人脸图像对应的目标人脸图像进行裁剪处理，得到第一下半脸图像序列；其中，第一下半脸图像序列包括每个视频帧人脸图像对应的目标人脸图像的部分关键点特征；

将第一下半脸图像序列输入第二表情特征序列控制的图像处理模型，得到第二下半脸图像序列；

将第二下半脸图像序列和各视频帧人脸图像进行融合处理，得到目标视频。

可选地，部分关键点特征包括下巴、嘴巴、鼻子和脸颊的关键点特征；第一下半脸图像序列包括每个视频帧人脸图像对应的目标人脸图像的下巴、嘴巴、鼻子和脸颊的下半脸图像序列。

可选地，将第二下半脸图像序列和各视频帧人脸图像进行融合，得到目标视频，包括：

将第二下半脸图像序列和各视频帧人脸图像进行融合处理，得到每个视频帧人脸图像对应的目标视频帧；

将每个视频帧人脸图像对应的目标视频帧进行拼接，得到目标视频。

可选地，多模态模型是根据歌词样本、歌词样本对应的音效参数和表情系数序列之间的映射关系训练得到的；

目标视频中人脸动作与歌词以及歌词对应的音效参数相匹配。

可选地，将歌词输入多模态模型，得到歌词对应的第二表情系数序列，包括：

将歌词和歌词对应的音效参数输入多模态模型，得到歌词对应的第二表情系数序列。

根据本公开实施例的第二方面，提供一种视频生成装置，包括：

获取模块，被配置为获取人脸图像；

视频生成模块，被配置为将人脸图像输入一阶运动模型进行动作合成，得到初始视频；一阶运动模型是根据人脸视频和预设的一阶运动算法训练得到的；初始视频中各视频帧人脸图像带有脸部动作；

特征提取模块，被配置为对初始视频中各视频帧人脸图像进行特征提取，得到各视频帧人脸图像对应的第一表情系数序列；

输入模块，被配置为将歌词输入多模态模型，得到歌词对应的第二表情系数序列；其中，多模态模型是根据歌词样本和表情系数序列之间的映射关系训练得到的；

调整模块，被配置为根据第一表情系数序列和第二表情系数序列对各视频帧人脸图像中的关键点进行调整，得到目标视频；目标视频中人脸动作与歌词匹配。

可选地，调整模块，包括：

重建单元，被配置为根据第一表情系数序列和第二表情系数序列对各视频帧人脸图像进行三维重建，得到每个视频帧人脸图像对应的目标三维人脸图像；

拼接单元，被配置为将每个视频帧人脸图像对应的目标三维人脸图像进行拼接，得到目标视频。

可选地，第一表情系数序列包括第一口型系数序列，第二表情系数序列包括第二口型系数序列，重建单元，还被配置为：

可选地，拼接单元，还被配置为：

可选地，输入模块，还被配置为：

根据本公开实施例的第三方面，提供一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行指令，以实现上述第一方面实施例的视频生成方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述第一方面实施例的视频生成方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现上述第一方面实施例的视频生成方法。

本公开的实施例提供的技术方案至少带来以下有益效果：由于电子设备可以根据一阶运动模型和多模态模型，生成人脸图像的动态初始视频和歌词的表情系数序列，因此，电子设备根据人脸图像和歌词，可以自动生成该人脸图像对应的用户的具有脸部节奏动效和嘴巴与歌词匹配的唱歌视频，整个视频生成过程无需该用户参与，不仅节省了用户的时间，还提升了用户的使用体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种视频生成方法的流程图；

图2是根据一示例性实施例示出的一种生成目标视频的方法的流程示意图；

图3是根据一示例性实施例示出的对目标三维人脸图像进行拼接的方法的流程图；

图4是根据一示例性实施例示出的另一种视频生成方法的流程图；

图5是根据一示例性实施例示出的一种视频生成场景图；

图6是根据一示例性实施例示出的一种视频生成装置的框图；

图7是根据一示例性实施例示出的一种电子设备的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

相关技术中，用户在制作唱歌的短视频时，用户可以使用电子设备在用户唱歌的时候进行录制，以得到用户唱歌的短视频。但是，整个短视频的生成过程需要该用户全程参与，浪费了用户的大量时间。

为此，本公开实施例提供了一种视频生成方法，通过电子设备获取人脸图像后，将获取的人脸图像输入一阶运动模型进行动作合成，得到初始视频，其中，一阶运动模型是根据人脸视频和预设的一阶运动算法训练得到的；初始视频中各视频帧人脸图像带有脸部动作；然后，对初始视频中各视频帧人脸图像进行特征提取，得到各视频帧人脸图像对应的第一表情系数序列；将歌词输入多模态模型，得到歌词对应的第二表情系数序列；其中，多模态模型是根据歌词样本和表情系数序列之间的映射关系训练得到的；根据第一表情系数序列和第二表情系数序列对各视频帧人脸图像中的关键点进行调整，得到目标视频；目标视频中人脸动作与歌词匹配。由此，电子设备根据人脸图像和歌词，可以自动生成该人脸图像对应的用户的具有脸部节奏动效和嘴巴与歌词匹配的唱歌视频，整个视频生成过程无需该用户参与，不仅节省了用户的时间，还提升了用户的使用体验。

在一些实施例中，上述视频生成方法可以用于电子设备中，当电子设备为终端时，终端可以是手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本，以及蜂窝电话、个人数字助理(personal digital assistant，PDA)、增强现实(augmented reality，AR)\虚拟现实(virtual reality，VR)设备等设备，本公开对该终端的具体形态不作特殊限制。

图1是根据一示例性实施例示出的一种视频生成方法的流程图，如图1所示，视频生成方法用于电子设备中，包括以下步骤。

在步骤S101中，获取人脸图像。

其中，人脸图像可以包括一张人脸，也可以包括多张人脸，本公开实施例中对此不做限定。

本公开实施例中，人脸图像，可以为电子设备采集的未经过处理的图像，还可以为电子设备采集的视频中的视频帧人脸图像，还可以为从服务器下载的预先存储的人脸图像，等等。本公开实施例中对人脸图像的获取方式不做限定。

在步骤S102中，将人脸图像输入一阶运动模型进行动作合成，得到初始视频。

其中，一阶运动模型(First Order Motion Model，FOMM)是根据人脸视频和预设的一阶运动算法(FOMM算法)训练得到的。其中，上述用于对一阶运动模型进行训练的人脸视频，可以是根据多帧人脸图像合成的动态图，也可以是图像互换格式(GraphicsInterchange Format，GIF)动态图，也可以为包括人脸图像的人脸视频等，本公开实施例中对此不做限定。

在本公开实施例中，电子设备获取到人脸图像后，可以将获取的人脸图像输入经过训练的一阶运动模型进行动作合成，一阶运动模块可以输出各视频帧人脸图像带有脸部动作的初始视频。

在本公开实施例中，由于一阶运动模型为基于人脸视频和预设的FOMM算法训练得到的人脸表情模仿的模型，通过一阶运动模型输出的初始视频中各视频帧人脸图像带有脸部动作，从而提高了后续生成目标视频的效率以及目标视频中用户的表情动作的逼真程度。

在步骤S103中，对初始视频中各视频帧人脸图像进行特征提取，得到各视频帧人脸图像对应的第一表情系数序列。

其中，第一表情系数序列中包括各视频帧人脸图像对应的三维表情系数。表情系数用于表征带有语义的表情的幅度。例如，第一表情系数序列中可以包括大哭的表情系数、微笑的表情系数、抿嘴的表情系数以及大笑的表情系数等等。

在本公开实施例中，电子设备将人脸图像输入一阶运动模型得到初始视频后，通过对该初始视频中各视频帧人脸图像进行特征提取，可以得到各视频帧人脸图像对应的三维表情系数。

在一些实施例中，电子设备对初始视频中各视频帧人脸图像进行解优化，得到各视频帧人脸图像对应的三维表情系数。可选地，电子设备可以采用共轭梯度方法(Conjugate Gradient，CG)对初始视频中各视频帧人脸图像进行最小值解优化，得到上述各视频帧人脸图像对应的第一表情系数序列。具体的实现过程可以参见CG算法的相关技术，此处不再赘述。

在步骤S104中，将歌词输入多模态模型，得到歌词对应的第二表情系数序列。

在本公开的一些实施例中，多模态模型可以是根据歌词样本和表情系数序列之间的映射关系训练得到的。由于多模态模型已经学习得到的歌词和表情系数之间的对应关系，本公开实施例中，将歌词输入经过训练的多模态模型，可以得到该歌词对应的第二表情系数序列，从而得到了歌词中每一个词或句子对应的口型系数。

在本公开的一些实施例中，电子设备可以采用歌词样本和对应的样本表情系数对多模态模型进行训练，可选地，电子设备将歌词样本输入多模态模型后，根据多模态模型输出的表情系数与歌词样本对应的样本表情系数之间的差异，对多模态模型的模型参数进行调整，使得调整后的多模态模型输出的表情系数与样本表情系数之间的差异最小。

可以理解为，一首歌的歌词和音乐之间是对应的，电子设备确定了一首歌的歌词，则该歌词对应的音效参数也是确定的。因此，电子设备将歌词输入多模态模型，可以得到该歌词对应的第二表情系数序列。

在本公开的另一些实施例中，多模态模型还可以是根据歌词样本、歌词样本对应的音效参数和表情系数序列之间的映射关系训练得到的。由于多模态模型已经学习得到的歌词、歌词的音效参数和表情系数之间的对应关系，本公开实施例中，将歌词和歌词对应的音效参数输入经过训练的多模态模型，可以得到该歌词对应的第二表情系数序列，从而得到了歌词中每一个词或句子对应的口型系数。由此，有利于提高后续生成的目标视频中人脸的嘴部动作与歌词的匹配度。

可选地，电子设备将歌词样本和歌词样本对应的音效参数输入多模态模型后，根据多模态模型输出的表情系数与歌词对应的样本表情系数之间的差异，对多模态模型的模型参数进行调整，使得调整后的多模态模型输出的表情系数与样本表情系数之间的差异最小。

上述电子设备将歌词输入多模态模型时，可以将歌词对应的文本信息或歌词对应的语音信号输入多模态模型，以得到该歌词对应的第二表情系数序列，本公开实施例中对此不做限定。

在一些实施例中，电子设备可以首先将歌词生成对应的语音信号，然后，将歌词对应的语音信号输入多模态模型，得到该语音信号对应的第二表情系数序列。

需要解释的是，本公开实施例中对上述步骤S103和步骤S104的执行顺序不做限定，也可以先执行步骤S104，再执行步骤S103，或者，还可以同时执行步骤S103和步骤S104，等等，此处不做限定。

在步骤S105中，根据第一表情系数序列和第二表情系数序列对各视频帧人脸图像中的关键点进行调整，得到目标视频。

其中，目标视频中的人脸动作与歌词匹配。

在本公开实施例，电子设备生成歌词对应的第二表情系数序列后，可以基于第二表情系数序列和初始视频中各视频帧人脸图像对应的第一表情系数序列，对各视频帧人脸图像中的人脸关键点进行调整，以得到目标视频。

作为本公开实施例的一种可能的实现方式，电子设备得到各视频帧人脸图像对应的第一表情系数序列，以及歌词对应的第二表情系数序列后，可以根据第一表情系数序列和第二表情系数序列之间的差距，对初始视频中各视频帧人脸图像中的人脸关键点进行调整，以得到调整后的目标视频。

由于第一表情系数序列中包括各视频帧人脸图像对应的第一口型系数序列，第二表情系数序列中包括歌词对应的人脸图像的第二口型系数序列，电子设备可以根据第二口型系数序列和第一口型系数序列之间的差距，对初始视频中各视频帧人脸图像中的人脸关键点进行调整，以得到调整后的各视频帧人脸图像。

上述实施例提供的技术方案至少带来以下有益效果：电子设备在获取人脸图像后，将获取的人脸图像输入一阶运动模型进行动作合成，得到初始视频，初始视频中各视频帧人脸图像带有脸部动作；然后，电子设备对初始视频中各视频帧人脸图像进行特征提取，得到各视频帧人脸图像对应的第一表情系数序列；将歌词输入多模态模型，得到歌词对应的第二表情系数序列；进而，根据第一表情系数序列和第二表情系数序列对各视频帧人脸图像中的关键点进行调整，得到人脸动作与歌词匹配的目标视频。由于电子设备可以根据一阶运动模型和多模态模型，生成人脸图像的动态初始视频和歌词的表情系数序列，因此，电子设备根据人脸图像和歌词，可以自动生成该人脸图像对应的用户的具有脸部节奏动效和嘴巴与歌词匹配的唱歌视频，整个视频生成过程无需该用户参与，不仅低成本的生成了用户唱歌视频，还节省了用户的时间，提升了用户的使用体验。

在本公开的一些可能的实现方式中，在根据第一表情系数序列和第二表情系数序列对各视频帧人脸图像中的关键点进行调整，得到目标视频时，还可以对初始视频的各视频帧人脸图像进行重建，得到各目标人脸三维图像后，对各目标人脸三维图像进行拼接。

可选地，图2是根据一示例性实施例示出的一种生成目标视频的方法的流程示意图。

如图2所示，上述方法可以包括以下步骤：

在步骤S201中，根据第一表情系数序列和第二表情系数序列对各视频帧人脸图像进行三维重建，得到每个视频帧人脸图像对应的目标三维人脸图像。

其中，第一表情系数序列可以包括各视频帧人脸图像对应的第一口型系数序列，第二表情系数序列可以包括歌词对应的第二口型系数序列。

可选地，电子设备可以将第一口型系数序列中的每一个第一口型系数替换为第二口型系数序列中对应的第二口型系数，得到目标表情系数序列。然后，电子设备基于目标表情系数序列对各视频帧人脸图像进行三维重建，得到每个视频帧人脸图像对应的目标三维人脸图像。

在本公开实施例中，电子设备可以根据第一口型系数序列和第二口型系数序列中的时序，将第一口型系数序列中的每一个第一口型系数替换为第二口型系数序列中对应的第二口型系数，得到目标表情系数序列。由此，通过包括第二口型系数序列的目标表情系数序列对各视频帧人脸图像进行三维重建，提高了各帧目标三维人脸图像中的嘴巴与歌词的匹配度。

在本公开实施例对各视频帧人脸图像进行三维重建的具体方法不做限定，例如，可以基于三维人脸可变性模型(3D Morphable Model，3DMM)对各视频帧人脸图像进行三维重建。采用3DMM模型对各视频帧人脸图像进行三维重建的过程可以参见相关技术，在此不再赘述。

在步骤S202中，将每个视频帧人脸图像对应的目标三维人脸图像进行拼接，得到目标视频。

在本公开实施例中，电子设备对各视频帧人脸图像进行三维重建，得到每个视频帧人脸图像对应的目标三维人脸后，可以将每个视频帧人脸图像对应的目标三维人脸图像进行拼接，得到目标视频。

可选地，电子设备可以根据每个视频帧人脸图像对应的目标三维人脸图像的时间戳，对视频帧人脸图像对应的目标三维人脸图像进行排序，将排序后的各视频帧人脸图像对应的目标三维人脸图像进行拼接，得到目标视频。

由此，基于第一表情系数序列和第二表情系数序列对各视频帧人脸图像进行三维重建，提高了后续生成的目标视频中各视频帧人脸图像的逼真度，且重建得到的每个视频帧人脸图像对应的目标三维人脸图像中的嘴部与歌词更加匹配。

在一个可选的实施例中，如图3所示，图3是根据一示例性实施例示出的对目标三维人脸图像进行拼接的方法的流程图。相应的，该方法可以包括以下步骤：

在步骤S301中，对每个视频帧人脸图像对应的目标三维人脸图像进行渲染，得到每个视频帧人脸图像对应的目标人脸图像。

其中，图像渲染是将三维的光能传递处理转换为一个二维图像的过程。

在本公开实施例中，电子设备可以对每个视频帧人脸图像对应的目标三维人脸图像进行渲染，得到每个视频帧人脸图像对应的二维的目标人脸图像。

在步骤S302中，对每个视频帧人脸图像对应的目标人脸图像进行裁剪处理，得到第一下半脸图像序列。

其中，第一下半脸图像序列包括每个视频帧人脸图像对应的目标人脸图像的部分关键点特征。在一些实施例中，部分关键点特征可以包括嘴巴和鼻子的关键点特征。这种情况下，第一下半脸图像序列包括每个视频帧人脸图像对应的目标人脸图像的嘴巴和鼻子的下半脸图像序列。在另一些实施例中，部分关键点特征可以包括嘴巴、鼻子、下巴和脸颊的关键点特征。这种情况下，第一下半脸图像序列包括每个视频帧人脸图像对应的目标人脸图像的嘴巴、鼻子、下巴和脸颊的下半脸图像序列。

在本公开实施例中，电子设备得到每个视频帧人脸图像对应的目标人脸图像后，可以对每个视频帧人脸图像对应的目标人脸图像进行裁剪处理，得到第一下半脸图像序列。

可选地，电子设备可以对每个视频帧人脸图像对应的目标人脸图像进行关键点特征提取，得到各目标人脸图像的关键点特征向量。然后，电子设备在在对齐的各目标人脸图像，选择双眼中心到嘴巴的连线的一个关键点，作为分隔对各目标人脸图像进行裁剪，得到各下半脸图像。

可选地，电子设备对每个视频帧人脸图像对应的目标人脸图像进行关键点特征提取，得到各目标人脸图像的关键点特征向量后，还可以将各目标人脸图像的关键点特征向量输入经过训练的裁剪模型，得到各目标人脸图像的下半脸图像。

需要解释的是，上述电子设备对各目标人脸图像进行裁剪的方法仅作为示例性描述，本公开实施例中对此不做限定。

在步骤S303中，将第一下半脸图像序列输入第二表情特征序列控制的图像处理模型，得到第二下半脸图像序列。

其中，图像处理模型可以通过配对数据训练得到的模型，例如，图像处理模型可以为带条件控制的对等模型(Peer to Peer，P2P)，该带条件控制的P2P模型用于对第一下半脸图像序列中的下半脸图像进行真实化处理。在本公开实施例中，条件可以为表情系数，例如，上述条件可以为第二表情特征序列。

为了提高每个目标人脸图像中的下半脸图像的真实度，电子设备将第一下半脸图像序列输入第二表情特征序列控制的图像处理模型，可以得到对下半脸图像进行真实化处理后的第二下半脸图像序列。

作为一种示例，假设第一下半脸图像序列包括各目标人脸图像的下巴和嘴巴部分的关键点特征向量，电子设备可以将各目标人脸图像的下巴和嘴巴部分的关键点特征向量，输入第二表情特征序列控制的图像处理模型，可以得到对下巴和嘴巴部分进行真实化处理后的第二下半脸图像序列。

在步骤S304中，将第二下半脸图像序列和各视频帧人脸图像进行融合处理，得到目标视频。

本公开实施例中，电子设备得到真实化的第二下半脸图像序列后，可以将第二下半脸图像序列和各视频帧人脸图像进行融合处理，得到目标视频。

在一种可能的情况下，电子设备可以对各视频帧人脸图像进行裁剪处理，得到各视频帧人脸图像的上半脸图像序列，进而，电子设备将第二下半脸图像序列与各视频帧人脸图像的上半脸图像序列进行融合处理，得到目标视频。

在另一种可能的情况下，电子设备将第二下半脸图像序列和各视频帧人脸图像的整个图像进行融合处理，得到目标视频。

可选地，电子设备可以将第二下半脸图像序列和各视频帧人脸图像进行融合处理，得到每个视频帧人脸图像对应的目标视频帧，进而，将每个视频帧人脸图像对应的目标视频帧进行拼接，得到目标视频。

由此，电子设备对每个视频帧人脸图像对应的目标人脸图像中的下半脸图像进行真实化处理后，将处理后的第二下半脸图像序列与各视频帧人脸图像进行融合处理，得到所述目标视频，提高了目标视频对应的各视频帧人脸图像中下半脸的真实度，从而提高了嘴巴部分与歌词的匹配度。

在本公开实施例中，如图4所示，电子设备获取到人脸图像后，将获取的人脸图像输入一阶运动模型(比如，FOMM模型)进行动作合成，得到带有脸部动作的初始视频。此外，电子设备将歌词和音效参数输入多模态模型，得到歌词对应的第二表情系数序列。然后，电子设备对初始视频中各视频帧人脸图像进行特征提取，得到各视频帧人脸图像对应的第一表情系数序列。进而，根据第一表情系数序列和第二表情系数序列对各视频帧人脸图像进行三维重建，得到每个视频帧人脸图像对应的目标三维人脸图像。由此，对各视频帧人脸图像进行三维重建得到的各目标三维人脸图像的表情系数与歌词对应的第二表情系数匹配，从而有利于提高后续生成的目标视频的嘴巴动作与歌词的匹配度。

电子设备对每个视频帧人脸图像对应的目标三维人脸图像进行渲染，得到每个视频帧人脸图像对应的目标人脸图像。电子设备对每个视频帧人脸图像对应的目标人脸图像进行裁剪处理，得到第一下半脸图像序列。电子设备将第一下半脸图像序列输入第二表情特征序列控制的图像处理模型对下半脸图像进行真实化处理，得到第二下半脸图像序列，进而，将第二下半脸图像序列和各视频帧人脸图像进行融合处理，得到目标视频。

由于电子设备可以根据一阶运动模型和多模态模型，生成人脸图像的动态初始视频和歌词的表情系数序列，因此，电子设备根据人脸图像和歌词，可以自动生成该人脸图像对应的用户的具有脸部节奏动效和嘴巴与歌词匹配的唱歌视频，整个视频生成过程无需该用户参与，不仅低成本的生成了用户唱歌视频，还节省了用户的时间，提升了用户的使用体验。

作为一种示例，如图5所示，假设电子设备获取到的人脸图像为无表情的人脸图像，歌词为“小燕子，穿花衣”，通过上述视频生成方法，可以生成人脸的嘴部与歌词匹配的唱歌视频。例如，图5中歌词“小”对应的嘴部动作为嘴巴张开，生成的唱歌视频中人脸的嘴部动作为与歌词匹配的动作。

可以理解的，在实际实施时，本公开实施例所述的电子设备可以包含有用于实现前述对应数据处理方法的一个或多个硬件结构和/或软件模块，这些执行硬件结构和/或软件模块可以构成一个电子设备。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的算法步骤，本公开能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

为了实现上述实施例中，本公开提出了一种视频生成装置。

图6是根据一示例性实施例示出的一种视频生成装置框图。参照图6，该视频生成装置600包括获取模块610，视频生成模块620，特征提取模块630，输入模块640和调整模块650。

其中，获取模块610，被配置为获取人脸图像。

视频生成模块620，被配置为将人脸图像输入一阶运动模型进行动作合成，得到初始视频；其中，一阶运动模型是根据人脸视频和预设的一阶运动算法训练得到的；初始视频中各视频帧人脸图像带有脸部动作。

特征提取模块630，被配置为对初始视频中各视频帧人脸图像进行特征提取，得到各视频帧人脸图像对应的第一表情系数序列。

输入模块640，被配置为将歌词输入多模态模型，得到歌词对应的第二表情系数序列；其中，多模态模型是根据歌词样本和表情系数序列之间的映射关系训练得到的。

调整模块650，被配置为根据第一表情系数序列和第二表情系数序列对各视频帧人脸图像中的关键点进行调整，得到目标视频；目标视频中的人脸动作与歌词匹配。

可选地，调整模块650，可以包括：

可选地，第一表情系数序列可以包括第一口型系数序列，第二表情系数序列可以包括第二口型系数序列，重建单元，还可以被配置为：

将第一口型系数序列中的每一个第一口型系数替换为第二口型系数序列中对应的第二口型系数，得到目标表情系数序列；根据目标表情系数序列对各视频帧人脸图像进行三维重建，得到每个视频帧人脸图像对应的目标三维人脸图像。

可选地，拼接单元，还可以被配置为：

对每个视频帧人脸图像对应的目标三维人脸图像进行渲染，得到每个视频帧人脸图像对应的目标人脸图像；对每个视频帧人脸图像对应的目标人脸图像进行裁剪处理，得到第一下半脸图像序列；其中，第一下半脸图像序列包括每个视频帧人脸图像对应的目标人脸图像的部分关键点特征；将第一下半脸图像序列输入第二表情特征序列控制的图像处理模型，得到第二下半脸图像序列；将第二下半脸图像序列和各视频帧人脸图像进行融合处理，得到目标视频。

可选地，部分关键点特征包括嘴巴、鼻子和脸颊的关键点特征；第一下半脸图像序列包括每个视频帧人脸图像对应的目标人脸图像的嘴巴、鼻子和脸颊的下半脸图像序列。

可选地，拼接单元，还可以被配置为：

将第二下半脸图像序列和各视频帧人脸图像进行融合处理，得到每个视频帧人脸图像对应的目标视频帧；将每个视频帧人脸图像对应的目标视频帧进行拼接，得到目标视频。

可选地，多模态模型是根据歌词样本、歌词样本对应的音效参数和表情系数序列之间的映射关系训练得到的；目标视频中人脸动作与歌词以及歌词对应的音效参数相匹配。

可选地，输入模块640，还可以被配置为：

本公开实施例的视频生成装置，在获取到人脸图像后，将获取的人脸图像输入一阶运动模型进行动作合成，得到初始视频，初始视频中各视频帧人脸图像带有脸部动作；然后，电子设备对初始视频中各视频帧人脸图像进行特征提取，得到各视频帧人脸图像对应的第一表情系数序列；将歌词输入多模态模型，得到歌词对应的第二表情系数序列；进而，根据第一表情系数序列和第二表情系数序列对各视频帧人脸图像中的关键点进行调整，得到人脸动作与歌词匹配的目标视频。由于电子设备可以根据一阶运动模型和多模态模型，生成人脸图像的动态初始视频和歌词的表情系数序列，因此，电子设备根据人脸图像和歌词，可以自动生成该人脸图像对应的用户的具有脸部节奏动效和嘴巴与歌词匹配的唱歌视频，整个视频生成过程无需该用户参与，不仅低成本的生成了用户唱歌视频，还节省了用户的时间，提升了用户的使用体验。

如上所述，本公开实施例可以根据上述方法示例对电子设备进行功能模块的划分。其中，上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。另外，还需要说明的是，本公开实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

为了实现上述实施例，本公开还提出了一种电子设备。

其中，电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现上述实施例的视频生成方法。

作为一种示例，该电子设备可以是手机、电脑等用户终端。图7是根据一示例性实施例示出的一种电子设备的结构示意图。该电子设备可以包括至少一个处理器71，通信总线72，存储器73以及至少一个通信接口74。

处理器71可以是一个处理器(central processing units，CPU)，微处理单元，ASIC，或一个或多个用于控制本公开方案程序执行的集成电路。

通信总线72可包括一通路，在上述组件之间传送信息。

通信接口74，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如服务器、以太网，无线接入网(radio access network，RAN)，无线局域网(wireless localarea networks，WLAN)等。

存储器73可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理单元相连接。存储器也可以和处理单元集成在一起。

其中，存储器73用于存储执行本公开方案的应用程序代码，并由处理器71来控制执行。处理器71用于执行存储器73中存储的应用程序代码，从而实现本公开方法中的功能。

在具体实现中，作为一种实施例，处理器71可以包括一个或多个CPU，例如图7中的CPU0和CPU1。

在具体实现中，作为一种实施例，电子设备可以包括多个处理器，例如图7中的处理器71和处理器75。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，电子设备还可以包括输入设备76和输出设备77。输入设备76和输出设备77通信，可以以多种方式接受用户的输入。例如，输入设备76可以是鼠标、键盘、触摸屏设备或传感设备等。输出设备77和处理器71通信，可以以多种方式来显示信息。例如，输出设备71可以是液晶显示器(liquid crystal display，LCD)，发光二级管(light emitting diode，LED)显示设备等。

本领域技术人员可以理解，图7中示出的结构并不构成对电子设备的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，本公开还提供了一种包括指令的计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述计算机可读存储介质中的指令由计算机设备的处理器执行时，使得计算机能够执行上述所示实施例提供的视频生成方法。

在示例性实施例中，本公开还提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现上述实施例的视频生成方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频生成方法，其特征在于，包括：

获取人脸图像；

将所述人脸图像输入一阶运动模型进行动作合成，得到初始视频；其中，所述一阶运动模型是根据人脸视频和预设的一阶运动算法训练得到的；所述初始视频中各视频帧人脸图像带有脸部动作；

对所述初始视频中各视频帧人脸图像进行特征提取，得到所述各视频帧人脸图像对应的第一表情系数序列；

将歌词输入多模态模型，得到所述歌词对应的第二表情系数序列；其中，所述多模态模型是根据歌词样本和表情系数序列之间的映射关系训练得到的；

根据所述第一表情系数序列和所述第二表情系数序列对所述各视频帧人脸图像中的关键点进行调整，得到目标视频；所述目标视频中的人脸动作与所述歌词匹配。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一表情系数序列和所述第二表情系数序列对所述各视频帧人脸图像中的关键点进行调整，得到目标视频，包括：

根据所述第一表情系数序列和所述第二表情系数序列对所述各视频帧人脸图像进行三维重建，得到每个视频帧人脸图像对应的目标三维人脸图像；

3.根据权利要求2所述的方法，其特征在于，所述第一表情系数序列包括第一口型系数序列，所述第二表情系数序列包括第二口型系数序列；所述根据所述第一表情系数序列和所述第二表情系数序列对所述各视频帧人脸图像进行三维重建，得到每个视频帧人脸图像对应的目标三维人脸图像，包括：

将所述第一口型系数序列中的每一个第一口型系数替换为所述第二口型系数序列中对应的第二口型系数，得到所述目标表情系数序列；

根据所述目标表情系数序列对所述各视频帧人脸图像进行三维重建，得到每个视频帧人脸图像对应的目标三维人脸图像。

4.根据权利要求2所述的方法，其特征在于，所述将每个视频帧人脸图像对应的目标三维人脸图像进行拼接，得到所述目标视频，包括：

对所述每个视频帧人脸图像对应的目标三维人脸图像进行渲染，得到每个视频帧人脸图像对应的目标人脸图像；

对所述每个视频帧人脸图像对应的目标人脸图像进行裁剪处理，得到第一下半脸图像序列；其中，所述第一下半脸图像序列包括所述每个视频帧人脸图像对应的目标人脸图像的部分关键点特征；

将所述第一下半脸图像序列输入所述第二表情特征序列控制的图像处理模型，得到第二下半脸图像序列；

将所述第二下半脸图像序列和所述各视频帧人脸图像进行融合处理，得到所述目标视频。

5.根据权利要求4所述的方法，其特征在于，所述部分关键点特征包括下巴、嘴巴、鼻子和脸颊的关键点特征；所述第一下半脸图像序列包括所述每个视频帧人脸图像对应的目标人脸图像的下巴、嘴巴、鼻子和脸颊的下半脸图像序列。

6.根据权利要求4所述的方法，其特征在于，所述将所述第二下半脸图像序列和所述各视频帧人脸图像进行融合，得到所述目标视频，包括：

将所述第二下半脸图像序列和所述各视频帧人脸图像进行融合处理，得到每个视频帧人脸图像对应的目标视频帧；

将所述每个视频帧人脸图像对应的目标视频帧进行拼接，得到所述目标视频。

7.一种视频生成装置，其特征在于，包括：

获取模块，被配置为获取人脸图像；

视频生成模块，被配置为将所述人脸图像输入一阶运动模型进行动作合成，得到初始视频；其中，所述一阶运动模型是根据人脸视频和预设的一阶运动算法训练得到的；所述初始视频中各视频帧人脸图像带有脸部动作；

特征提取模块，被配置为对所述初始视频中各视频帧人脸图像进行特征提取，得到所述各视频帧人脸图像对应的第一表情系数序列；

输入模块，被配置为将歌词输入多模态模型，得到所述歌词对应的第二表情系数序列；其中，所述多模态模型是根据歌词样本和表情系数序列之间的映射关系训练得到的；

调整模块，被配置为根据所述第一表情系数序列和所述第二表情系数序列对所述各视频帧人脸图像中的关键点进行调整，得到目标视频；所述目标视频中的人脸动作与所述歌词匹配。

8.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的视频生成方法。

9.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至6中任一项所述的视频生成方法。

10.一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现权利要求1至6中任一项所述的视频生成方法。