CN113132797A

CN113132797A - 视频生成方法和装置、计算机可读存储介质、电子设备

Info

Publication number: CN113132797A
Application number: CN202110437420.6A
Authority: CN
Inventors: 赵靖
Original assignee: Beijing Fangjianghu Technology Co Ltd
Current assignee: Seashell Housing Beijing Technology Co Ltd
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2021-07-16
Also published as: US20220345796A1; US11968433B2

Abstract

本公开实施例公开了一种视频生成方法和装置、计算机可读存储介质、电子设备，其中，方法包括：获取包括目标对象的人脸图像的第一时长的第一视频；基于目标语音数据的第二时长对所述第一视频进行处理，得到时长为所述第二时长的第二视频；根据所述目标语音数据将所述第二视频中的嘴部动作进行替换，得到所述目标对象讲述所述目标语音数据的目标视频；本实施例仅通过嘴部动作的替换，以得到目标对象讲述目标语音数据的视频，使获得的目标视频更真实，能更真实的模拟真人在讲话时的表情和动作，大大提高了用户的观感。

Description

视频生成方法和装置、计算机可读存储介质、电子设备

技术领域

本公开涉及图像视频技术领域，尤其是一种视频生成方法和装置、计算机可读存储介质、电子设备。

背景技术

随着计算机技术的发展，为更便利的服务用户，减少用户的阅读时间，现有技术提出将文本转换为语音的语音合成技术，语音合成是通过机械的、电子的方法产生人造语音的技术；例如，TTS技术(又称文语转换技术)隶属于语音合成，它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术；但现有技术仅能提供语音缺少与之结合的视频显示，不能为用户提供更直观的体验。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种视频生成方法和装置、计算机可读存储介质、电子设备。

根据本公开实施例的一个方面，提供了一种视频生成方法，包括：

获取包括目标对象的人脸图像的第一时长的第一视频；

基于目标语音数据的第二时长对所述第一视频进行处理，得到时长为所述第二时长的第二视频；

根据所述目标语音数据将所述第二视频中的嘴部动作进行替换，得到所述目标对象讲述所述目标语音数据的目标视频。

可选地，所述基于目标语音数据的第二时长对所述第一视频进行处理，得到时长为所述第二时长的第二视频，包括：

确定所述第一时长是否小于所述第二时长；

响应于所述第一时长大于或等于所述第二时长，将所述第一视频中设定时间开始获取所述第二时长的视频内容，得到所述第二视频；

响应于所述第一时长小于所述第二时长，将多个所述第一视频按照设定顺序进行组合，得到所述第二视频。

可选地，所述根据所述目标语音数据将所述第二视频中的嘴部动作进行替换，得到所述目标对象讲述所述目标语音数据的目标视频，包括：

基于所述第二视频得到多帧连续的第一人脸图像；

基于所述目标语音数据对所述多帧第一人脸图像中每帧第一人脸图像中的嘴部进行替换，得到多帧第二人脸图像；

按照所述多帧第一人脸图像的顺序连接所述多帧第二人脸图像，得到目标视频。

可选地，所述基于所述目标语音数据对所述多帧第一人脸图像中每帧第一人脸图像中的嘴部进行替换，得到多帧第二人脸图像，包括：

对所述目标语音数据进行切分处理，得到多个语音片段；其中，每个所述语音片段与所述多帧第一人脸图像中每帧第一人脸图像相对应；

基于每个所述语音片段与所述语音片段对应的第一人脸图像，生成所述第二人脸图像，得到多帧所述第二人脸图像；其中，所述第二人脸图像中的人脸口型对应所述语音片段。

可选地，所述基于每个所述语音片段与所述语音片段对应的第一人脸图像，生成所述第二人脸图像，包括：

基于神经网络对所述语音片段和所述语音片段对应的第一人脸图像进行处理，得到所述第二人脸图像。

可选地，在基于神经网络对所述语音片段和所述语音片段对应的第一人脸图像进行处理，得到所述第二人脸图像之前，还包括：

利用样本数据集对对抗生成网络进行训练；其中，所述对抗生成网络包括所述神经网络和判别网络，所述样本数据集包括多对样本数据对，每对所述样本数据对中包括一个样本语音片段和一个嘴部与所述样本语音片段对应的样本人脸图像。

可选地，所述利用训练数据集对对抗生成网络进行训练，包括：

将所述样本数据对输入所述对抗生成网络中的神经网络，得到生成图像；

将所述生成图像和所述样本数据对中的样本人脸图像输入所述判别网络，得到判别结果；

基于所述判别结果对所述判别网络和神经网络交替训练，得到训练后的神经网络。

可选地，所述基于所述第二视频得到多帧连续的第一人脸图像，包括：

对所述第二视频中的每帧视频图像进行人脸检测，得到多帧所述第一人脸图像。

根据本公开实施例的另一方面，提供了一种视频生成装置，包括：

第一视频获取模块，用于获取包括目标对象的人脸图像的第一时长的第一视频；

第二视频确定模块，用于基于目标语音数据的第二时长对所述第一视频进行处理，得到时长为所述第二时长的第二视频；

替换模块，用于根据所述目标语音数据将所述第二视频中的嘴部动作进行替换，得到所述目标对象讲述所述目标语音数据的目标视频。

可选地，所述第二视频确定模块，具体用于确定所述第一时长是否小于所述第二时长；响应于所述第一时长大于或等于所述第二时长，将所述第一视频中设定时间开始获取所述第二时长的视频内容，得到所述第二视频；响应于所述第一时长小于所述第二时长，将多个所述第一视频按照设定顺序进行组合，得到所述第二视频。

可选地，所述替换模块，包括：

视频分解单元，用于基于所述第二视频得到多帧连续的第一人脸图像；

嘴部替换单元，用于基于所述目标语音数据对所述多帧第一人脸图像中每帧第一人脸图像中的嘴部进行替换，得到多帧第二人脸图像；

图像连接单元，用于按照所述多帧第一人脸图像的顺序连接所述多帧第二人脸图像，得到目标视频。

可选地，所述嘴部替换单元，具体用于对所述目标语音数据进行切分处理，得到多个语音片段；其中，每个所述语音片段与所述多帧第一人脸图像中每帧第一人脸图像相对应；基于每个所述语音片段与所述语音片段对应的第一人脸图像，生成所述第二人脸图像，得到多帧所述第二人脸图像；其中，所述第二人脸图像中的人脸口型对应所述语音片段。

可选地，所述嘴部替换单元在基于每个所述语音片段与所述语音片段对应的第一人脸图像，生成所述第二人脸图像时，用于基于神经网络对所述语音片段和所述语音片段对应的第一人脸图像进行处理，得到所述第二人脸图像。

可选地，所述嘴部替换单元，还用于利用样本数据集对对抗生成网络进行训练；其中，所述对抗生成网络包括所述神经网络和判别网络，所述样本数据集包括多对样本数据对，每对所述样本数据对中包括一个样本语音片段和一个嘴部与所述样本语音片段对应的样本人脸图像。

可选地，所述嘴部替换单元在利用训练数据集对对抗生成网络进行训练时，用于将所述样本数据对输入所述对抗生成网络中的神经网络，得到生成图像；将所述生成图像和所述样本数据对中的样本人脸图像输入所述判别网络，得到判别结果；基于所述判别结果对所述判别网络和神经网络交替训练，得到训练后的神经网络。

可选地，所述视频分解单元，具体用于对所述第二视频中的每帧视频图像进行人脸检测，得到多帧所述第一人脸图像。

根据本公开实施例的又一方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述任一实施例所述的视频生成方法。

根据本公开实施例的还一方面，提供了一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述任一实施例所述的视频生成方法。

基于本公开上述实施例提供的一种视频生成方法和装置、计算机可读存储介质、电子设备，获取包括目标对象的人脸图像的第一时长的第一视频；基于目标语音数据的第二时长对所述第一视频进行处理，得到时长为所述第二时长的第二视频；根据所述目标语音数据将所述第二视频中的嘴部动作进行替换，得到所述目标对象讲述所述目标语音数据的目标视频；本实施例仅通过嘴部动作的替换，以得到目标对象讲述目标语音数据的视频，使获得的目标视频更真实，能更真实的模拟真人在讲话时的表情和动作，大大提高了用户的观感。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开一示例性实施例提供的视频生成方法的流程示意图。

图2是本公开图1所示的实施例中步骤104的一个流程示意图。

图3是本公开图1所示的实施例中步骤106的一个流程示意图。

图4是本公开图3所示的实施例中步骤1062的一个流程示意图。

图5是本公开一示例性实施例提供的视频生成装置的结构示意图。

图6是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

申请概述

在实现本公开的过程中，发明人发现，根据语音生成视频是一个新兴领域，现有技术中没有比较成熟的解决方案。

示例性方法

图1是本公开一示例性实施例提供的视频生成方法的流程示意图。本实施例可应用在电子设备上，如图1所示，包括如下步骤：

步骤102，获取包括目标对象的人脸图像的第一时长的第一视频。

本实施例中，第一时长可根据实际情况进行设置，只需在第一视频中包括目标对象的至少一次除嘴部变化之外的其他面部变化即可，例如，第一时长为10秒等；第一视频中对于目标图像的嘴部动作不作限制，可以是张开或闭合都可以，例如，闭嘴或微笑；在该第一视频中，目标对象还可以轻微晃动；本实施例获取第一视频的目的在于获得该目标对象在正常说话时的脸部神情，以实现获得更加逼真的目标视频。

步骤104，基于目标语音数据的第二时长对第一视频进行处理，得到时长为第二时长的第二视频。

可选地，为了实现基于目标语音数据对第一视频中的嘴部进行替换，需要将第二时长与第一时长相对应，由于最后希望得到的是对应目标语音数据的目标视频，即目标视频的时长为第二时长，因此，本实施例对第一视频进行处理，以得到第二视频。

步骤106，根据目标语音数据将第二视频中的嘴部动作进行替换，得到目标对象讲述目标语音数据的目标视频。

本实施例中仅对第二视频中的嘴部进行替换，而视频中脸部其余部分可能会有分辨率的变化，但整体的神情，例如，是否眨眼等没有发生变化。因而在眨眼效果，头部轻微摇晃、脸部肌肉微表情效果等方面没有改变，可以达到以假乱真的效果。

本公开上述实施例提供的一种视频生成方法，获取包括目标对象的人脸图像的第一时长的第一视频；基于目标语音数据的第二时长对所述第一视频进行处理，得到时长为所述第二时长的第二视频；根据所述目标语音数据将所述第二视频中的嘴部动作进行替换，得到所述目标对象讲述所述目标语音数据的目标视频；本实施例仅通过嘴部动作的替换，以得到目标对象讲述目标语音数据的视频，使获得的目标视频更真实，能更真实的模拟真人在讲话时的表情和动作，大大提高了用户的观感。

如图2所示，在上述图1所示实施例的基础上，步骤104可包括如下步骤：

步骤1041，确定第一时长是否小于第二时长，如果是，执行步骤1043；否则，执行步骤1042。

步骤1042，将第一视频中设定时间开始获取第二时长的视频内容，得到第二视频。

步骤1043，将多个第一视频按照设定顺序进行组合，得到第二视频。

本实施例中，为了获得第二时长的第二视频，需比较第一时长与第二时长，当第一时长大于或等于第二时长时，只需从第一视频中截取第二时长的视频片段即可作为第二视频，截取的开始时间和结束时间由第二时长决定，可以从第一视频的开始时间开始截取到第二时长的视频内容作为第二视频，或者，从任意时间开始，只需能够截取到足够第二时长的视频片段即可，截取剩余的部分视频丢弃即可；而当第一时长小于第二时长时，需要对第一视频进行重复播放，该重复的方式可以包括多种，例如，包括但不限于：从第一视频的第一秒开始到最后一秒重复多次播放；或者，从第一视频的第一秒播放到任意时间点，再从该时间点向前播放，循环多次，直到得到第二时长的视频；或者，将第一视频从第一秒正序播放到最后一秒，再从最后一秒倒播到第一秒，再继续循环播放等；或者，正向播放和倒向播放任意组合；在循环过程中倒播可以解决两次循环的连接时间点的嘴型差异。

如图3所示，在上述图1所示实施例的基础上，步骤106可包括如下步骤：

步骤1061，基于第二视频得到多帧连续的第一人脸图像。

由于第二视频的时长是第二时长，因此，其中包括多帧视频图像，本实施例首先将第二视频分解为多帧视频图像，并分别基于每帧视频图像得到一帧第一人脸图像，第一人脸图像中包含的人脸图像为目标对象的人脸图像。

可选地，对第二视频中的每帧视频图像进行人脸检测，得到多帧第一人脸图像。人脸检测可基于现有技术中的人脸检测网络或其他人脸检测方法，本实施例中人脸检测的目的是为了去除视频图像中的背景对后续操作的影响，只以视频图像中的人脸部分作为嘴部替换的对象，提高了嘴部替换的准确性；本实施不限制人脸检测的具体方法，只需实现能够检测获得人脸图像即可。

步骤1062，基于目标语音数据对多帧第一人脸图像中每帧第一人脸图像中的嘴部进行替换，得到多帧第二人脸图像。

本实施例中，基于目标语音数据对每帧第一人脸图像中的嘴部或包括嘴部的鼻子以下的脸部进行替换，使得到的第二人脸图像中的嘴部动作与目标语音数据相对应，可选地，替换过程中可采用逐帧替换的方式实现。

步骤1063，按照多帧第一人脸图像的顺序连接多帧第二人脸图像，得到目标视频。

将替换了嘴部的多帧第二人脸图像按照第一人脸图像的顺序进行连接，即得到了嘴部动作对应完整目标语音数据的目标视频，目标视频与第二视频的时长一制，并且，目标视频中的人脸动作除了嘴部之外与第二视频完全相同，实现了在微表情和动作上的真实模拟，因此，目标视频更接近真实的目标对象讲述目标语音数据的情况；而在需要替换语音内容时，只需通过需要替换的语音内容对第二视频中的嘴部进行相应的替换即可，实现了快速生成目标视频的效果。

如图4所示，在上述图3所示实施例的基础上，步骤1062可包括如下步骤：

步骤401，对目标语音数据进行切分处理，得到多个语音片段。

其中，每个语音片段与多帧第一人脸图像中每帧第一人脸图像相对应。

本实施例中，可根据实际语音内容将目标语音数据切分为多个具有一定时间跨度语音片段，例如，每个语音片段50ms等，并且，为了保证得到的目标视频中口型的连贯性，每两个相邻的语音片段中存在重叠部分；可选地，接收的语音数据可以是语音时域信号或直接是语音特征，当接收的语音数据为语音时域信号(波形)时，对语音数据提取MFCC特征(对时间窗口的波形进行傅里叶变换，将时域信号转换为频域信号)，或者神经网络提取语音特征，以语音特征对第一人脸图像中的嘴部进行替换；对应的语音切分的长度可根据傅里叶变换的窗口决定。

步骤402，基于每个语音片段与语音片段对应的第一人脸图像，生成第二人脸图像，得到多帧第二人脸图像。

其中，第二人脸图像中的人脸口型对应语音片段。

本实施例中，分别通过每个语音片段对对应的一帧第一人脸图像中的嘴部进行替换，可选地，可基于深度学习算法实现嘴部图像的替换，例如，基于神经网络对语音片段和语音片段对应的第一人脸图像进行处理，得到第二人脸图像。

在一个可选示例中，通过神经网络接收语音片段和一帧第一人脸图像，输出替换了嘴部图像的第二人脸图像，第二人脸图像与第一人脸图像的区别仅在于嘴部图像语音片段相对应，为了获得嘴型符合语音片段的第二人脸图像，在应用神经网络之前，可选地，还包括：

利用样本数据集对对抗生成网络进行训练。

其中，对抗生成网络包括神经网络和判别网络，样本数据集包括多对样本数据对，每对样本数据对中包括一个样本语音片段和一个嘴部与样本语音片段对应的样本人脸图像。

可选地，本实施例中的神经网络可以是生成网络。

本实施例的训练中，样本人脸图像既输入神经网络，同时还输入到判别网络，通过对抗生成网络中的判别网络可以判断输入的图像是神经网络生成的还是真实图像(训练中是指样本人脸图像)，通过对对抗生成网络中的神经网络和判别网络交替训练，再以训练后的神经网络作为目标网络，生成接近真实情况的嘴型与语音片段对应的人脸图像。

可选地，训练过程可包括：

将样本数据对输入对抗生成网络中的神经网络，得到生成图像；

将生成图像和样本数据对中的样本人脸图像输入判别网络，得到判别结果；

基于判别结果对判别网络和神经网络交替训练，得到训练后的神经网络。

对抗生成网络的训练过程与现有技术类似，区别仅在于应用的样本数据不同，本实施例中的样本数据对包括：样本语音片段和嘴型与样本语音片段对应的样本人脸图像，训练的目标是使训练后的神经网络基于输入的样本语音片段和样本人脸图像输出与样本人脸图像之间差异较小的生成图像，而判别网络的训练目标是能够准确识别输入的图像是否是真实的图像；本实施例提供的基于对抗生成网络中的神经网络实现人脸图像中的嘴部图像替换仅为一种示例，实现过程中只需能够实现将第一图像中的嘴型部分替换为语音片段对应的嘴型即可。

综上，本公开的实施例提供的视频生成方法，通过对包括目标对象的人脸图像的第二视频中的嘴部动作进行替换，实现获得目标对象讲述目标语音数据的目标视频，得到的目标视频更接近真实情况下目标对象讲述目标语音数据的表情和动作。通过本公开实施例的方案，可以只采集目标对象的第一视频，提供任意内容的目标语音数据，即可生成目标对象讲述目标语音数据的视频，提高了视频生成的效率以及真实性。

本公开实施例提供的任一种视频生成方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种视频生成方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种视频生成方法。下文不再赘述。

示例性装置

图5是本公开一示例性实施例提供的视频生成装置的结构示意图。如图5所示，本实施例提供的装置包括：

第一视频获取模块51，用于获取包括目标对象的人脸图像的第一时长的第一视频。

第二视频确定模块52，用于基于目标语音数据的第二时长对第一视频进行处理，得到时长为第二时长的第二视频。

替换模块53，用于根据目标语音数据将第二视频中的嘴部动作进行替换，得到目标对象讲述目标语音数据的目标视频。

本公开上述实施例提供的一种视频生成装置，获取包括目标对象的人脸图像的第一时长的第一视频；基于目标语音数据的第二时长对所述第一视频进行处理，得到时长为所述第二时长的第二视频；根据所述目标语音数据将所述第二视频中的嘴部动作进行替换，得到所述目标对象讲述所述目标语音数据的目标视频；本实施例仅通过嘴部动作的替换，以得到目标对象讲述目标语音数据的视频，使获得的目标视频更真实，能更真实的模拟真人在讲话时的表情和动作，大大提高了用户的观感。

在一些可选的实施例中，第二视频确定模块52，具体用于确定第一时长是否小于第二时长；响应于第一时长大于或等于第二时长，将第一视频中设定时间开始获取第二时长的视频内容，得到第二视频；响应于第一时长小于第二时长，将多个第一视频按照设定顺序进行组合，得到第二视频。

在一些可选的实施例中，替换模块53，包括：

视频分解单元，用于基于第二视频得到多帧连续的第一人脸图像；

嘴部替换单元，用于基于目标语音数据对多帧第一人脸图像中每帧第一人脸图像中的嘴部进行替换，得到多帧第二人脸图像；

图像连接单元，用于按照多帧第一人脸图像的顺序连接多帧第二人脸图像，得到目标视频。

可选地，嘴部替换单元，具体用于对目标语音数据进行切分处理，得到多个语音片段；其中，每个语音片段与多帧第一人脸图像中每帧第一人脸图像相对应；基于每个语音片段与语音片段对应的第一人脸图像，生成第二人脸图像，得到多帧第二人脸图像；其中，第二人脸图像中的人脸口型对应语音片段。

可选地，嘴部替换单元在基于每个语音片段与语音片段对应的第一人脸图像，生成第二人脸图像时，用于基于神经网络对语音片段和语音片段对应的第一人脸图像进行处理，得到第二人脸图像。

可选地，嘴部替换单元，还用于利用样本数据集对对抗生成网络进行训练；其中，对抗生成网络包括神经网络和判别网络，样本数据集包括多对样本数据对，每对样本数据对中包括一个样本语音片段和一个嘴部与样本语音片段对应的样本人脸图像。

可选地，嘴部替换单元在利用训练数据集对对抗生成网络进行训练时，用于将样本数据对输入对抗生成网络中的神经网络，得到生成图像；将生成图像和样本数据对中的样本人脸图像输入判别网络，得到判别结果；基于判别结果对判别网络和神经网络交替训练，得到训练后的神经网络。

可选地，视频分解单元，具体用于对第二视频中的每帧视频图像进行人脸检测，得到多帧第一人脸图像。

综上，本公开的实施例提供的视频生成装置，通过对包括目标对象的人脸图像的第二视频中的嘴部动作进行替换，实现获得目标对象讲述目标语音数据的目标视频，得到的目标视频更接近真实情况下目标对象讲述目标语音数据的表情和动作。通过本公开实施例的方案，可以只采集目标对象的第一视频，提供任意内容的目标语音数据，即可生成目标对象讲述目标语音数据的视频，提高了视频生成的效率以及真实性。

示例性电子设备

下面，参考图6来描述根据本公开实施例的电子设备。该电子设备可以是第一设备100和第二设备200中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。

图6图示了根据本公开实施例的电子设备的框图。

如图6所示，电子设备60包括一个或多个处理器61和存储器62。

处理器61可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备60中的其他组件以执行期望的功能。

存储器62可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器61可以运行所述程序指令，以实现上文所述的本公开的各个实施例的视频生成方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备60还可以包括：输入装置63和输出装置64，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是第一设备100或第二设备200时，该输入装置63可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号。在该电子设备是单机设备时，该输入装置63可以是通信网络连接器，用于从第一设备100和第二设备200接收所采集的输入信号。

此外，该输入装置63还可以包括例如键盘、鼠标等等。

该输出装置64可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出装置64可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图6中仅示出了该电子设备60中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备60还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的视频生成方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的视频生成方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种视频生成方法，其特征在于，包括：

获取包括目标对象的人脸图像的第一时长的第一视频；

2.根据权利要求1所述的方法，其特征在于，所述基于目标语音数据的第二时长对所述第一视频进行处理，得到时长为所述第二时长的第二视频，包括：

确定所述第一时长是否小于所述第二时长；

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述目标语音数据将所述第二视频中的嘴部动作进行替换，得到所述目标对象讲述所述目标语音数据的目标视频，包括：

基于所述第二视频得到多帧连续的第一人脸图像；

4.根据权利要求3所述的方法，其特征在于，所述基于所述目标语音数据对所述多帧第一人脸图像中每帧第一人脸图像中的嘴部进行替换，得到多帧第二人脸图像，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于每个所述语音片段与所述语音片段对应的第一人脸图像，生成所述第二人脸图像，包括：

6.根据权利要求5所述的方法，其特征在于，在基于神经网络对所述语音片段和所述语音片段对应的第一人脸图像进行处理，得到所述第二人脸图像之前，还包括：

7.根据权利要求3-6任一所述的方法，其特征在于，所述基于所述第二视频得到多帧连续的第一人脸图像，包括：

8.一种视频生成装置，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-7任一所述的视频生成方法。

10.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-7任一所述的视频生成方法。