CN112927712A

CN112927712A - 视频生成方法、装置和电子设备

Info

Publication number: CN112927712A
Application number: CN202110101623.8A
Authority: CN
Inventors: 李林橙; 张智勐; 王苏振; 丁彧; 郑一星; 范长杰; 胡志鹏
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2021-06-08

Abstract

本发明提供了一种视频生成方法、装置和电子设备；其中，该方法包括：基于目标语音对应的语音文字，生成人脸动作参数；人脸动作参数用于指示人物说目标语音时的脸部动作；基于人脸动作参数和包含目标人物的第一视频，生成目标视频；其中，目标视频包括：目标人物说目标语音的视频图像。该方式中，基于目标语音对应的语音文字生成人脸动作参数，由于文字具有较高的结构化属性，且不带有语音音色这种个性化的信息，因而可以避免音色问题导致的算法模型的性能下降，从而提高了最终输出的视频图像的质量。

Description

视频生成方法、装置和电子设备

技术领域

本发明涉及图像处理技术领域，尤其是涉及一种视频生成方法、装置和电子设备。

背景技术

高仿真人脸视频，主要是基于输入的语音生成高仿真人脸的说话视频；其目的是希望生成的视频图像中，人物的口型、表情、头部的运动与给定的语音相匹配，同时还能保证视频图像的清晰、逼真并且无合成痕迹。相关技术中，通常利用目标人物说话较多的视频图像训练神经网络，使神经网络建立该目标人物从语音到口型的映射；训练完成后，基于该神经网络先生成与目标语音相匹配的该目标人物的嘴部口型图像块，然后将生成的嘴部口型图像块嵌入包含目标人物的视频图像中，并对图像块与视频图像的接缝处予以处理，从而替换视频图像中该目标人物原始的口型，得到目标人物说目标语音的视频图像。由于不同人之间说话语音的音色差异较大，神经网络的训练数据很难覆盖所有人说话的语音音色，当神经网络输入的语音音色与训练数据差异较大时，会导致神经网络的性能下降，难以生成准确的嘴部口型图像块，使得最终输出的视频图像的质量较低。

发明内容

有鉴于此，本发明的目的在于提供一种视频生成方法、装置和电子设备，以避免音色问题导致的算法模型的性能下降，从而提高最终输出的视频图像的质量。

第一方面，本发明实施例提供了一种视频生成方法，方法包括：基于目标语音对应的语音文字，生成人脸动作参数；人脸动作参数用于指示人物说目标语音时的脸部动作；基于人脸动作参数和包含目标人物的第一视频，生成目标视频；其中，目标视频包括：目标人物说目标语音的视频图像。

上述人脸动作参数包括口型参数、表情参数和头部姿态参数中的一种或多种。

上述人脸动作参数包括口型参数；上述基于目标语音对应的语音文字，生成人脸动作参数的步骤，包括：生成语音文字对应的音素序列；其中，音素序列包括多个音素；语音文字中的每个文字对应至少一个音素；多个音素按照语音文字中的文字顺序排列；基于音素序列生成口型参数。

上述生成语音文字对应的音素序列的步骤，包括：生成语音文字中每个文字对应的音素；根据目标语音中的时间戳，调整每个音素的数量，得到音素序列；其中，音素序列中，每个时间戳对应一个音素。

上述基于音素序列生成口型参数的步骤，包括：从预设的音素与音素特征的对应关系中，获取音素序列中音素的音素特征；按照音素序列的音素排列顺序组合获取到的音素特征，得到音素特征序列；将音素特征序列输入至预先训练完成的第一参数输出网络中，输出口型参数。

上述人脸动作参数包括表情参数和/或头部姿态参数；上述基于目标语音对应的语音文字，生成人脸动作参数的步骤，包括：生成语音文字对应的文字序列；语音文字中的每个第一文字对应文字序列中的至少一个第二文字；第一文字对应的第二文字的数量，与第一文字在目标语音中对应的时间戳数量相匹配；从预设的文字与文字特征的对应关系中，获取文字序列中文字的文字特征；按照文字序列中的文字排列顺序组合获取到的文字特征，得到文字特征序列；基于文字特征序列生成人脸动作参数。

上述基于文字特征序列生成人脸动作参数的步骤，包括：获取目标语音对应的情绪类别；从预设的情绪类别与情绪特征的对应关系中，获取目标语音对应的情绪类别的情绪特征；基于文字特征序列和情绪特征，生成人脸动作参数。

上述人脸动作参数包括表情参数和头部姿态参数；上述基于文字特征序列和情绪特征，生成人脸动作参数的步骤，包括：将文字特征序列和情绪特征输入至预先训练完成的第二参数输出网络中，输出表情参数；将文字特征序列和情绪特征输入至预先训练完成的第三参数输出网络中，输出头部姿态参数。

上述基于人脸动作参数和包含目标人物的第一视频，生成目标视频的步骤，包括：从第一视频中提取目标人物的第一特定动作参数；第一特定动作参数用于指示目标人物在说话时的脸部动作；基于第一特定动作参数和人脸动作参数生成目标视频。

上述基于第一特定动作参数和人脸动作参数生成目标视频的步骤，包括：将人脸动作参数映射至第一特定动作参数中，得到第二特定动作参数；第二特定动作参数用于指示目标人物在说目标语音时的脸部动作；基于第二特定动作参数生成目标视频。

上述人脸动作参数包括口型参数；上述第一特定动作参数包括嘴部动作参数；上述将人脸动作参数映射至第一特定动作参数中，得到第二特定动作参数的步骤，包括：将口型参数映射至嘴部动作参数中，得到映射后的嘴部动作参数；其中，映射后的嘴部动作参数用于指示目标人物在说目标语音时的嘴部动作；将映射后的嘴部动作参数保存至第二特定动作参数中。

上述基于第二特定动作参数生成目标视频的步骤，包括：从第一视频中提取目标人物的人脸形状信息；基于人脸形状信息和第二特定动作参数，确定目标人物的人脸关键点位置信息；其中，第二特定动作参数包括：嘴部动作参数、表情参数和头部姿态参数；人脸关键点位置信息包括：目标人物在第二特征动作参数指示的动作下，人脸关键点的位置；基于人脸关键点位置信息生成目标视频。

上述基于人脸形状信息和第二特定动作参数，确定目标人物的人脸关键点位置信息的步骤，包括：基于人脸形状信息建立目标人物的初始脸部三维模型；基于第二特定动作参数，调整目标人物的初始脸部三维模型，得到目标人物的当前面部三维模型；将目标人物的当前面部三维模型中的关键点投影至二维平面中，得到目标人物的人脸关键点位置信息。

上述基于人脸关键点位置信息生成目标视频的步骤，包括：从人脸关键点位置信息中提取人脸关键点特征；将人脸关键点特征输入至预先训练完成的视频生成模型中，输出目标视频；其中，视频生成模型用于：基于人脸关键点信息和预先学习到的目标视频的图像信息，生成目标视频。

上述从人脸关键点位置信息中提取人脸关键点特征的步骤，包括：从人脸关键点位置信息中提取第一初始特征；对人脸关键点位置信息进行下采样处理，从处理后的人脸关键点位置信息中提取第二初始特征；合并第一初始特征和第二初始特征，得到人脸关键点特征。

上述视频生成模型包括第一分支网络和第二分支网络；上述将人脸关键点特征输入至预先训练完成的视频生成模型中，输出目标视频的步骤，包括：将人脸关键点特征输入至第一分支网络，输出目标人物的脸部局部图像；将人脸关键点特征输入至第二分支网络，输出包含目标人物以及背景图像的全局图像；基于脸部局部图像和全局图像，生成目标视频的视频图像。

上述第一分支网络还用于输出掩码图像；掩码图像用于提供脸部局部图像和全局图像在各个像素位置的融合权重；上述基于脸部局部图像和全局图像，生成目标视频的视频图像的步骤，包括：基于掩码图像，对脸部局部图像和全局图像进行融合处理，得到目标视频的视频图像。

第二方面，本发明实施例提供了一种视频生成装置，装置包括：参数生成模块，用于基于目标语音对应的语音文字，生成人脸动作参数；人脸动作参数用于指示人物说目标语音时的脸部动作；视频生成模块，用于基于人脸动作参数和包含目标人物的第一视频，生成目标视频；其中，目标视频包括：目标人物说目标语音的视频图像。

第三方面，本发明实施例提供了一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的机器可执行指令，处理器执行机器可执行指令以实现上述视频生成方法。

第四方面，本发明实施例提供了一种机器可读存储介质，机器可读存储介质存储有机器可执行指令，机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现上述视频生成方法。

本发明实施例带来了以下有益效果：

上述视频生成方法、装置和电子设备，首先基于目标语音对应的语音文字，生成人脸动作参数；该人脸动作参数用于指示人物说目标语音时的脸部动作；然后基于人脸动作参数和包含目标人物的第一视频，生成目标视频；该目标视频包括：目标人物说目标语音的视频图像。该方式中，基于目标语音对应的语音文字生成人脸动作参数，由于文字具有较高的结构化属性，且不带有语音音色这种个性化的信息，因而可以避免音色问题导致的算法模型的性能下降，从而提高了最终输出的视频图像的质量。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种视频生成方法的流程图；

图2为本发明实施例提供的一种口型参数的生成方式示意图；

图3为本发明实施例提供的一种表情参数或头部姿态参数的生成方式示意图；

图4为本发明实施例提供的一种生成人脸关键点位置信息的方式示意图；

图5为本发明实施例提供的一种目标视频的生成方式示意图；

图6为本发明实施例提供的一种视频生成方法的整体流程示意图；

图7为本发明实施例提供的一种视频生成装置的结构示意图；

图8为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

高仿真人脸视频，可广泛应用于虚拟助手、智能客服、新闻播报、远程会议、电子游戏等多个领域；高仿真人脸视频可以满足上述领域对智能虚拟形象的功能需求和性能需求，并基于人工智能大幅度降低相关行业的人工劳动。

相关技术中，一种高仿真人脸视频的生成方式基于视频拼接的思想实现；该方式使用人工指定规则或者学习语音到口型的映射，根据语音从大量的数据集中挑选出合适的视频帧，然后将这些视频帧组合成新的人脸说话视频。但是该方式得到的拼接视频帧的视频帧之间的连贯性较差，前后帧之间存在大量的伪影和抖动，导致生成的视频逼真效果较差。

另一种高仿真人脸视频的生成方式基于深度学习的思想实现；该方式利用目标人物说话较多的视频数据训练神经网络，建立从语音到目标口型的映射。训练完成的神经网络先基于输入的语音生成人物嘴部口型匹配的图像块，然后将生成的口型图像块嵌入一段参考视频并融合接缝处，替换原来的口型图像，从而得到参考视频中的人物说指定的输入语音的结果。该方式中，神经网络需要从语音中学习口型，但不同人之间语音的音色差异很大，训练数据很难覆盖所有人的音色。因此，当输入语音的音色和训练数据差异较大时，神经网络的性能会大幅下降，难以生成准确的嘴部口型图像块，使得最终输出的视频图像的质量较低。

基于上述问题，本发明实施例提供一种视频生成方法、装置和电子系统，该技术可以应用于高仿真人脸视频的生成，例如可以应用于虚拟助手、智能客服、新闻播报、远程会议、电子游戏等多个领域中。

首先，参见图1所示的一种视频生成方法的流程图，该方法包括如下步骤：

步骤S102，基于目标语音对应的语音文字，生成人脸动作参数；该人脸动作参数用于指示人物说目标语音时的脸部动作；

该目标语音可以理解为待生成的目标视频中，需要目标人物说的语音；该目标语音可以包含在已有的语音文件中，通过训练完成的人工智能模型或其他相关算法识别目标语音中的文字，得到上述语音文字。其他情况中，可以仅存在目标语音对应的语音文字，该目标语音尚未生成，后期可以基于语音文字生成该目标语音。

人物在说不同发音的文字时，所产生的人脸动作也不同；具体的，人物在说不同发音的文字时，口型不同，同时嘴部可能会牵拉人脸其他区域的肌肉，导致人脸整体的动作都发生变化。基于此，可以预先收集各类文字的发音对应的人脸动作，再将人脸动作转化为人脸动作参数，形成文字与人脸动作参数的对应关系，基于该对应关系，即可得到上述语音文字对应的人脸动作参数。如果上述语音文字包括多个文字，则人脸动作参数可以包括每个文字对应的人脸动作参数；每个文字对应的人脸动作参数排列起来即可得到人物在说目标语音时，发生的一系列脸部动作。其他方式中，也可以对文字的发音进一步拆分成音素，一个文字对应一个或多个音素，基于每个音素对应的人脸动作参数，得到上述目标语音的人脸动作参数。

步骤S104，基于人脸动作参数和包含目标人物的第一视频，生成目标视频；其中，目标视频包括：目标人物说目标语音的视频图像。

该目标视频可以理解为一种仿真视频，模拟目标人物说目标语音；为了使目标视频具有较高的逼真度，目标人物在说目标语音时，脸部需要具有与目标语音相匹配的人脸动作，上述人脸动作参数用于指示人物说目标语音时的脸部动作，因而可以保证目标人物的人脸动作与目标语音相匹配。包含目标人物的第一视频，可以为目标人物在说话的视频，说话内容可能与目标语音不同，因而第一视频中目标人物的人脸动作通常与目标语音不匹配，但该第一视频可以提供相对完整的视频图像，包括目标人物的头部、部分身体的图像，以及背景图像等。通过上述人脸动作参数对第一视频中目标人物的人脸动作进行调整，即可得到目标人物的与目标语音相匹配的目标视频。该目标视频可以仿真目标人物说目标语音的视频图像。

上述视频生成方法，首先基于目标语音对应的语音文字，生成人脸动作参数；该人脸动作参数用于指示人物说目标语音时的脸部动作；然后基于人脸动作参数和包含目标人物的第一视频，生成目标视频；该目标视频包括：目标人物说目标语音的视频图像。该方式中，基于目标语音对应的语音文字生成人脸动作参数，由于文字具有较高的结构化属性，且不带有语音音色这种个性化的信息，因而可以避免音色问题导致的算法模型的性能下降，从而提高了最终输出的视频图像的质量。

相关技术中，大多只是在参考视频中修改嘴部区域的图像，以使人物的口型匹配输入语音，虽然能够生成和输入语音匹配的口型，但是保留了参考视频原来的眉眼表情和头部动作。这些眉眼表情和头部动作和输入语音并不一定匹配，这种不匹配和不自然很容易被用户注意到，无法满足逼真、自然的应用需求。基于此，本实施例对人脸动作参数进行了扩展和丰富，该人脸动作参数包括口型参数、表情参数和头部姿态参数中的一种或多种。其中的口型参数可以理解为人物的嘴部动作，表情参数可以理解为人物脸部整体的表情动作，如高兴、愤怒、平静等；表情参数可能涉及到人物脸部一种或多种五官的动作或姿势；头部姿态参数可以理解为人物头部的动作，例如晃动头部、倾斜头部等。通过对人脸动作参数进行丰富和扩展，可以使目标视频中人物的口型、表情、头部姿态等均与目标语音相匹配，提高视频的自然逼真程度。

下述实施例分别描述每种人脸动作参数的生成方式。

当人脸动作参数包括口型参数时，对于口型参数，首先生成语音文字对应的音素序列；其中，该音素序列包括多个音素；语音文字中的每个文字对应至少一个音素；多个音素按照语音文字中的文字顺序排列；然后基于该音素序列生成口型参数。音素是根据语音的自然属性划分出来的最小语音单位。对于一个文字而言，该文字的发音可能仅包括一个音素，例如“啊”字，音素只包括“a”；一个文字的发音也可能包括多个音素，例如，“你”字，音素包括“n”和“i”。当语音文字为“你好吗”时，其对应的音素序列为{n，i，h，ao，m，a}。音素序列中音素的排列顺序根据语音文字中文字排序顺序确定。

考虑到在视频播放中视频帧播放速度较快，而人物说话语速较慢，因而一个音素可能会横跨多个视频帧，为了使音素序列中音素的数量与视频帧的数量相匹配，生成语音文字中每个文字对应的音素之后，根据目标语音中的时间戳，调整每个文字对应的音素的数量，得到音素序列；其中，音素序列中，每个时间戳对应一个音素。具体可以使用音素识别工具，识别目标语音中每个时间戳对应的音素。当一个音素对应多个时间戳时，说明该音素需要对应多帧视频帧，此时需要对该音素进行复制操作，使得该音素的数量与该音素对应的时间戳的数量相同。在音频和视频的帧率相同的情况下，音频和视频的时间戳相互对齐，为了使视频的每一帧均对应有一个音素，音素序列中的音素数量需要与视频的时间戳的数量相同。以每秒30帧的音频为例，如果音素“a”在音频中持续了1秒钟，则在音素序列中音素“a”的数量为30个。作为示例，当语音文字为“你好吗”时，其对应的音素序列为{n，i，h，ao，m，a}。调整各音素的数量后，得到的最终的音素序列可以为{n，n，n，i，i，h，h，h，ao，ao，ao，ao，m，m，a，a，a}。

得到目标语音对应的音素序列后，从预设的音素与音素特征的对应关系中，获取音素序列中音素的音素特征；按照音素序列的音素排列顺序组合获取到的音素特征，得到音素特征序列；将音素特征序列输入至预先训练完成的第一参数输出网络中，输出口型参数。上述音素与音素特征的对应关系，可以预先建立；例如，可以先收集某一语种(如汉语)的发音涉及的全部音素，然后通过反复训练的方式，为每个音素设置对应的音素特征。一种具体的方式中，音素与音素特征的对应关系可以保存在一个音素查找表中，该音素查找表与上述第一参数输出网络同时训练，网络训练完成后，即可得到音素与音素特征的对应关系。音素特征具体可以理解为使用一个高维向量对音素进行编码得到，在训练过程中，编码在不断变化，最终得到与音素较为匹配的音素特征。

针对上述音素序列中的每个音素，可以从上述对应关系中获取到该音素对应的音素特征，按照音素序列中的音素排列顺序，排列获取到的音素特征，得到音素特征序列。上述第一参数输出网络可以通过卷积神经网络实现。音素特征序列输入至第一参数输出网络后，即可输出口型参数。具体的，该口型参数也可以为序列的形式，包括多个参数，每个参数对应音素特征序列中的一个音素特征；因而该口型参数中的参数数量也与视频的时间戳数量相匹配。

为了便于理解，图2示出了口型参数的生成方式示意图；从语音文字中提取每个文字对应的音素，从目标语音中识别每个音素覆盖的时间戳，从而得到与时间戳对齐的音素序列；从音素查找表中查找每个音素对应的音素特征，得到音素特征序列，该音素特征序列可以表示为向量编码序列。音素特征序列输入至训练好的卷积神经网络中，输出目标语音对应的口型参数。

对于人脸动作参数中的表情参数和头部姿态参数，生成这些参数时，首先生成语音文字对应的文字序列；该语音文字中的每个第一文字对应文字序列中的至少一个第二文字；第一文字对应的第二文字的数量，与第一文字在目标语音中对应的时间戳数量相匹配；其中，相互对应的第一文字和第二文字通常为同一个文字，这里只是为了对语音文字与文字序列中的文字进行命名上的区分。例如，语音文字中的第一文字“你”，在文字序列中可能对应一个或多个第二文字“你”。为了便于理解，仅作为示例，以每秒30帧的音频为例，如果第一文字“吗”在音频中持续了1秒钟，则在文字序列中，第二文字“吗”的数量为30个。语音文字包括三个第一文字，为“你好吗”，则对应的文字序列可能为{你，你，你，好，好，好，好，好，吗，吗，吗，吗，吗，吗，吗，吗}。

然后，从预设的文字与文字特征的对应关系中，获取文字序列中文字的文字特征；按照文字序列中的文字排列顺序组合获取到的文字特征，得到文字特征序列；基于文字特征序列生成人脸动作参数。上述文字与文字特征的对应关系，可以预先建立；例如，可以先收集某一语种(如汉语)的全部文字，然后通过反复训练的方式，为每个文字设置对应的文字特征。一种具体的方式中，文字与文字特征的对应关系可以保存在一个文字查找表中，该文字查找表与下述的第二参数输出网络或第三参数输出网络同时训练，网络训练完成后，即可得到文字与文字特征的对应关系。文字特征具体可以理解为使用一个高维向量对文字进行编码得到，在训练过程中，编码在不断变化，最终得到与文字较为匹配的文字特征。针对上述文字序列中的每个第二文字，可以从上述对应关系中获取到该文字对应的文字特征，按照文字序列中的文字排列顺序，排列获取到的文字特征，得到文字特征序列。

另外，人脸动作参数中的表情参数和头部姿态参数，除了受到人物说出的文字的影响，可能还会受到人物情绪的影响，基于此，在生成这些参数时，还需要获取目标语音对应的情绪类别；目标语音对应的情绪类别可以有一个或多个；如果包括多个，可以将目标语音划分为多段，为每段语音设置一个情绪类别。然后从预设的情绪类别与情绪特征的对应关系中，获取目标语音对应的情绪类别的情绪特征；基于文字特征序列和情绪特征，生成人脸动作参数。该情绪类别可以从目标语音中识别出来，也可以由人工手动设置；该情绪类别可以包括喜悦、兴奋、平静、悲伤、愤怒等。在生成参数时，不仅参考语音的文字内容，还引入了人物的情绪类别，使生成的动作参数与说话内容更加匹配；同时，还可以得到在不同的情绪下人物说同一内容的视频。

上述情绪类别与情绪特征的对应关系，可以预先建立；例如，可以先设置好全部可能的情绪类别，然后通过反复训练的方式，为每个情绪类别设置对应的情绪特征。一种具体的方式中，情绪类别与情绪特征的对应关系可以保存在一个情绪查找表中，该情绪查找表与下述的第二参数输出网络或第三参数输出网络同时训练，网络训练完成后，即可得到情绪类别与情绪特征的对应关系。情绪特征具体可以理解为使用一个高维向量对情绪类别进行编码得到，在训练过程中，编码在不断变化，最终得到与情绪类别较为匹配的情绪特征。

当人脸动作参数同时包括表情参数和头部姿态参数时，可以分别为每种参数设置一个参数输出网络；具体的，将文字特征序列和情绪特征输入至预先训练完成的第二参数输出网络中，输出表情参数；如上述实施例所述，该第二参数输出网络可以与文字查找表、情绪查找表共同训练；将文字特征序列和情绪特征输入至预先训练完成的第三参数输出网络中，输出头部姿态参数；该第三参数输出网络可以与文字查找表、情绪查找表共同训练。

需要说明的是，上述第二参数输出网络用于输出表情参数，与第二参数输出网络共同训练的文字查找表中的数据，可以与第三参数输出网络共同训练的文字查找表的数据不同；例如，与第二参数输出网络共同训练的文字查找表A，与第三参数输出网络共同训练的文字查找表B，两个查找表中的文字相同，但由于共同训练的网络不同，网络输出的数据不同，可能导致两个查找表中同一文字对应的文字特征不同。同理，与第二参数输出网络共同训练的情绪查找表中的数据，可以与第三参数输出网络共同训练的情绪查找表的数据不同。其他方式中，上述第二参数输出网络和第三参数输出网络可以为同一个输出网络，该输出网络输入文字特征序列和情绪特征后，同时输出表情参数和头部姿态参数。

上述第二参数输出网络和第三参数输出网络均可以通过卷积神经网络实现。考虑到情绪特征的特征量通常比文字特征序列的特征量短，为了便于网络处理特征数据中，在输入至网络之前，可以将情绪特征沿着时间维度进行复制，复制到与文字特征序列的长度相同，然后将复制后的情绪特征与文字特征序列沿着时间维度拼接在一起，再输入至网络中。例如，复制后的情绪特征为T*128，T为时间维度上的长度，128是每个时刻对应的情绪特征的长度；文字特征序列也为T*128，T为时间维度上的长度，128是每个时刻对应的文字特征的长度；拼接后的特征为T*256，T为时间维度上的长度，256是每个时刻对应的拼接特征的长度；情绪特征和文字特征序列进行拼接后，时间维度上的长度不变，每个时刻的特征长度增加。

上述表情参数或头部姿态参数也可以为序列的形式，包括多个参数，每个参数对应文字特征序列中的一个文字特征；因而表情参数或头部姿态参数中的参数数量也与视频的时间戳数量相匹配。

为了便于理解，图3示出了表情参数或头部姿态参数的生成方式示意图；基于语音文字得到与时间戳对齐的文字序列，再从文字查找表中查找文字序列中每个文字的文字特征，得到文字特征序列，也称为文字向量编码序列。基于情绪类别，从情绪查找表中查找与该情绪类别相匹配的情绪特征，然后将该情绪特征的长度扩展至与上述文字特征序列相同；文字特征序列与情绪特征沿着时间维度拼接组合后，输入至卷积神经网络中，输出情绪参数或头部姿态参数。

通过上述方式，可以得到口型参数、情绪参数和头部姿态参数共三种参数，避免仅基于口型参数修改视频中人物嘴部图像造成的人物表情和头部姿态与说话内容不匹配的问题，使生成的视频更加流畅自然逼真。

下述实施例继续说明基于人脸动作参数和包含目标人物的第一视频，生成目标视频的具体实现方式。首先，从第一视频中提取目标人物的第一特定动作参数；该第一特定动作参数用于指示目标人物在说话时的脸部动作；基于第一特定动作参数和人脸动作参数生成目标视频。上述人脸动作参数是受到说话内容和情绪影响的，与人物的个性化习惯没有关联；而目标人物的第一特定动作参数，可以理解为目标人物在说话时的特有的动作风格；例如，人物A在说话时习惯于噘着嘴，人物B在说话时习惯于昂着头等。目标人物的第一特定动作参数可以从包含该目标人物的第一视频中提取得到。具体的，可以利用包含目标人物的第一视频，采用三维人脸重建的相关算法，建立目标人物的人脸三维模型，在该人脸三维模型的基础上计算得出目标人物的第一特定动作参数。具体的，该第一特征动作参数可以包括目标人物特有的嘴部动作参数，当前也可以包括其他五官相关的动作参数。

基于第一特定动作参数和人脸动作参数生成目标视频，可以是目标视频中的目标人物的脸部动作，既与说话内容相匹配，也与该人物惯有的风格相匹配，从而提高视频的逼真效果。

为了将第一特定动作参数和人脸动作参数相结合，一种具体的实现方式中，将人脸动作参数映射至第一特定动作参数中，得到第二特定动作参数；第二特定动作参数用于指示目标人物在说目标语音时的脸部动作；基于该第二特定动作参数生成目标视频。该第二特定动作参数中，既包含了说目标语音时所需的人脸动作，也包含了目标人物个性化的脸部动作风格，因而该第二特定动作参数可以指示目标人物在说目标语音时的脸部动作。具体可以采用非线性映射的方式，将人脸动作参数映射至第一特定动作参数中。另一种实现方式中，人脸动作参数可以理解为标准人脸在说目标语音时的人脸动作；第一特定动作参数可以理解为目标人物的人脸在说话时的特有动作；将该人脸动作参数从标准人脸映射至目标人物的人脸上，在目标人物的第一特定动作参数的基础上，再融合人脸动作参数，得到目标人物在说目标语音时的整体的动作，即上述第二特征动作参数。另外，目标人物的脸型或各个五官的形状，可能与标准人脸不同，因此在映射的过程中，也需要参考标准人脸和目标人物的人脸的脸型或五官形状之间的区别。通过将人脸动作参数映射至第一特定动作参数中，可以使生成的视频中目标人物的动作既与该人物特有的风格相匹配，也与说话内容相匹配，使视频更加逼真自然。

一种具体的实现方式，如果目标人物在说话时的特有风格的动作集中在嘴部，该情况下，则需要将人脸动作参数中的口型参数与第一特定动作参数中的嘴部动作参数相结合。具体的。将口型参数映射至嘴部动作参数中，得到映射后的嘴部动作参数；其中，映射后的嘴部动作参数用于指示目标人物在说目标语音时的嘴部动作；将映射后的嘴部动作参数保存至第二特定动作参数中。同理，如果目标人物在说话时的特有风格的动作集中在其他五官，也可以采用上述方式将同一五官的参数进行映射。

上述第二特定动作参数中既包括人物在说目标语音时的人脸动作，也包括目标人物的人脸在说话时的特有动作；基于此，在生成目标视频时，可以先从第一视频中提取目标人物的人脸形状信息；具体的，可以利用包含目标人物的第一视频，采用三维人脸重建的相关算法，建立目标人物的人脸三维模型，在该人脸三维模型的基础上计算得出目标人物的人脸形状信息。该人脸形状信息可以包括目标人物的人脸的脸型、各个五官的位置等。然后，再基于人脸形状信息和第二特定动作参数，确定目标人物的人脸关键点位置信息；其中，第二特定动作参数包括：嘴部动作参数、表情参数和头部姿态参数；人脸关键点位置信息包括：目标人物在第二特征动作参数指示的动作下，人脸关键点的位置；基于人脸关键点位置信息生成目标视频。人脸关键点可以预先设置，例如，嘴角位置点、鼻头位置点、眼部周围的位置点、脸颊轮廓位置点等等；在上述目标人物的人脸三维模型中，人脸关键点具有初始的位置；但上述第二特定动作参数会导致目标人物的人脸发生形变、头部姿态也会变化，导致人脸关键点的位置发生变化，基于第二特征动作参数变化后的人脸关键点的位置，即上述目标人物的人脸关键点位置信息。

一种具体的实现方式中，基于人脸形状信息建立目标人物的初始脸部三维模型；在实际实现时，可以先建立一个默认的脸部三维模型，然后再将目标人物的人脸形状信息作用在该默认的脸部三维模型上，得到目标人物的初始脸部三维模型；然后，基于第二特定动作参数，调整目标人物的初始脸部三维模型，得到目标人物的当前面部三维模型；前述初始脸部三维模型中的目标人物通常不具有脸部表情和头部姿势，或者仅具有默认的脸部表情和头部姿势；通过上述第二特定动作参数对目标人物的初始脸部三维模型进行调整，可以使三维模型具有与第二特定动作参数匹配的口型、表情和头部姿态。最后，将目标人物的当前面部三维模型中的关键点投影至二维平面中，得到目标人物的人脸关键点位置信息。人脸关键点位置信息具体可以包括人脸关键点在二维平面中的二维坐标。可以采用透视投影的方式，将三维模型上的关键点投影至二维平面中，得到人脸关键点的二维坐标，然后根据人脸关键点的二维坐标，将人脸关键点设置到二维图像中。

为了便于理解，图4示出了生成人脸关键点位置信息的方式。人脸动作参数中包括口型参数、表情参数和头部姿态参数；人脸动作参数为人物说目标语音时产生的人脸动作，与目标语音相关。给定视频片段中包括目标人物，基于给定视频片段，可以建立目标人物的初始三维模型，从该三维模型中可以提取目标人物的第一特定动作参数，该第一特定动作参数可以包括目标人物特有的口型参数和表情参数，用于指示目标人物特有的动作风格。通过第一特定动作参数中的口型参数，对上述人脸动作参数中的口型参数进行说话风格的映射，最终得到第二特定动作参数；该第二特定动作参数，和人脸形状信息建立目标人物的当前面部三维模型；再通过透视投影的方式，得到目标人物的人脸关键点位置信息，该人脸关键点位置信息可以通过人脸关键点图像的方式实现。

本实施例中，将人脸关键点位置作为中间变量，表示动作参数对应的空间位置，可以直接基于动作参数生成视频图像产生的视频模糊或视频出现伪影的问题，提高了视频的清晰度。

下述实施例继续描述基于人脸关键点位置信息生成目标视频的实现方式。首先，从人脸关键点位置信息中提取人脸关键点特征；提取人脸关键点特征可以通过训练好的特征提取网络实现；人脸关键点位置信息可以以图像的形式输入至特征提取网络，从而输出对应的人脸关键点特征。然后将人脸关键点特征输入至预先训练完成的视频生成模型中，输出目标视频；其中，该视频生成模型用于：基于人脸关键点信息和预先学习到的目标视频的图像信息，生成目标视频。该视频生成模型可以采用包含目标人物的视频进行训练，从而学习到该目标人物脸部以及部分身体外观的图像信息，同时也可以学习到目标视频中的背景信息。当人脸关键点特征输入至视频生成模型后，视频生成模型可以基于人脸关键点特征，以及学习到的图像信息，输出完整的目标视频。

在提取人脸关键点特征时，一种具体实现方式中，从人脸关键点位置信息中提取第一初始特征；对人脸关键点位置信息进行下采样处理，从处理后的人脸关键点位置信息中提取第二初始特征；合并第一初始特征和第二初始特征，得到人脸关键点特征。当人脸关键点位置信息以人脸关键点图像的形式实现时，对人脸关键点图像进行下采样，可以缩小人脸关键点的尺度；例如，人脸关键点的原尺度为512*512，下采样后的尺度可以为256*256。上述第二初始特征从下采样处理后的人脸关键点位置信息中提取得到，因而第二初始特征可能包含人脸关键点位置信息中更多的全局信息，上述第一初始特征可能包含人脸关键点位置信息中更多的细节信息。从而使人脸关键点特征更加丰富。

合并上述第一初始特征和上述第二初始特征时，可以先采用预设的编解码算法对第二初始特征进行编码处理，再进行解码处理；编解码处理后的第二初始特征的尺度与上述第一初始特征的尺度相同，例如，都可以是256*256大小。对尺度相同的第一初始特征和第二初始特征进行合并，具体可以采用逐点相加的方式实现。

人脸关键点特征处理完成后，将该人脸关键点特征输入至预先训练完成的视频生成模型中；该视频生成模型包括第一分支网络和第二分支网络；具体的，将人脸关键点特征输入至第一分支网络，输出目标人物的脸部局部图像；将人脸关键点特征输入至第二分支网络，输出包含目标人物以及背景图像的全局图像；基于脸部局部图像和全局图像，生成目标视频的视频图像。上述第一分支网络和第二分支网络均可以采用残差网络实现；第一分支网络输出的目标人物的脸部局部图像，具有较为精确的脸部细节纹理特征，例如，脸部的口型、表情、头部姿态等；上述第二分支网络输出的全局图像，具有目标人物除脸部外的其他图像信息，例如目标人物的外貌穿着、以及背景图像等；全局图像中，目标人物的脸部通常会有些模糊，缺乏脸部的细节纹理特征，将第一分支网络输出的脸部局部图像与全局图像融合，可以弥补全局图像中缺乏的细节纹理特征，从而得到完整的目标人物的视频图像，同时该视频图像中目标人物脸部的口型、表情、头部姿态等也和目标人物的说话内容相匹配。

一种具体的实现方式中，上述第一分支网络还用于输出掩码图像；该掩码图像用于提供脸部局部图像和全局图像在各个像素位置的融合权重；该第一分支网络可以采用三个残差子网络实现，其中，第一残差子网络分别于第二残差子网络和第三残差子网络连接；人脸关键点特征首先输入至第一残差子网络中，通过第一残差子网络解码一些人脸局部图像和掩码图像的共用特征；然后，通过第二残差子网络对共用特征进行进一步解码，最终输出脸部局部图像；通过第三残差子网络对共用特征进行进一步解码，最终输出掩码图像。该掩码图像具体可以是一个灰度图像，图像中每个像素位置中存储有一个权重值。基于掩码图像，对脸部局部图像和全局图像进行融合处理，得到目标视频的视频图像。例如，在目标人脸的面部区域，需要着重体现人脸局部图像中包含的脸部细节特征，此时，在面部区域中，人脸局部图像对应的权重值通常大于全局图像中面部区域的权重值；而在背景区域中，由于人脸局部图像中不包含背景图像，此时全局图像中背景区域的权重值通常大于人脸局部图像在背景区域中的权重值。

为了便于理解，图5示出了目标视频的生成方式示意图。仅作为示例，包含人脸关键点位置信息的人脸关键点图像经下采样层进行特征提取，得到第一初始特征；人脸关键点图经过下采样后，得到较小尺度的人脸关键点图；较小尺度的人脸关键点图经两层下采样层进行编码处理，经一层残差网络处理，再将两层上采样层进行解码处理，得到上述第二初始特征；第一初始特征和第二初始特征合并后，得到人脸关键点特征；人脸关键点特征输入至第一分支网络，经过该第一分支网络中的三个残差子网络处理后，输出局部人脸图像和掩码图像；人脸关键点特征输入至第二分支网络，经过一层残差网络处理后，输出全局图像；全局图像和局部人脸图像基于掩码图像进行融合，得到视频图像。

上述方式中，通过融合人脸局部图像和全局图像，可以得到具有精细五官细节，同时具有目标人物完整头部、躯干与背景的完整视频图像，可以避免在眼睛、嘴部等动作较多的区域生成的图像容易模糊的问题，提高了视频清晰度和整体质量。

这里需要说明的是，目标视频通常包含多帧视频图像，需要逐一生成每帧视频图像；每帧视频图像对应一个时间戳。由上述实施例可知，音素序列和文字序列都是与时间戳的数量相匹配的，因而上述人脸动作参数中，每个时间戳对应一个人脸动作参数；上述人脸关键点位置信息中，每个时间戳对应一个人脸关键点位置信息；基于每个时间戳对应的人脸关键点位置信息，即可生成该时间戳对应的视频图像；每个时间戳对应的视频图像按照时间戳的先后顺序排列，得到目标视频。

图6示出了上述实施例中视频生成方法的整体流程；文字经G^hed网络处理后，输出头部姿态参数；G^hed网络的运行原理可以参考前述实施例中头部姿态参数的生成方式的相关内容；文字经G^upp网络处理后，输出表情参数；G^upp网络的运行原理可以参考前述实施例中表情参数的生成方式的相关内容；文字经G^mou网络处理后，输出口型参数；G^mou网络的运行原理可以参考前述实施例中口型参数的生成方式的相关内容。口型参数、表情参数和头部姿态参数组合成人脸动作参数，该人脸动作参数经过G^ldmk网络处理后，得到人脸关键点图像；G^ldmk网络的运行原理可以参考前述实施例中目标人物的人脸关键点位置信息生成方式的相关内容；人脸关键点图像再经过G^vid网络处理后，得到视频帧图像；该G^vid网络的运行原理可以参考前述实施例中目标视频生成方式的相关内容。

对应于上述方法实施例，参见图7所示的一种视频生成装置的结构示意图，该装置包括：

参数生成模块70，用于基于目标语音对应的语音文字，生成人脸动作参数；人脸动作参数用于指示人物说目标语音时的脸部动作；

视频生成模块72，用于基于人脸动作参数和包含目标人物的第一视频，生成目标视频；其中，目标视频包括：目标人物说目标语音的视频图像。

上述视频生成装置，首先基于目标语音对应的语音文字，生成人脸动作参数；该人脸动作参数用于指示人物说目标语音时的脸部动作；然后基于人脸动作参数和包含目标人物的第一视频，生成目标视频；该目标视频包括：目标人物说目标语音的视频图像。该方式中，基于目标语音对应的语音文字生成人脸动作参数，由于文字具有较高的结构化属性，且不带有语音音色这种个性化的信息，因而可以避免音色问题导致的算法模型的性能下降，从而提高了最终输出的视频图像的质量。

上述人脸动作参数包括口型参数；上述参数生成模块还用于：生成语音文字对应的音素序列；其中，音素序列包括多个音素；语音文字中的每个文字对应至少一个音素；多个音素按照语音文字中的文字顺序排列；基于音素序列生成口型参数。

上述参数生成模块还用于：生成语音文字中每个文字对应的音素；根据目标语音中的时间戳，调整每个音素的数量，得到音素序列；其中，音素序列中，每个时间戳对应一个音素。

上述参数生成模块还用于：从预设的音素与音素特征的对应关系中，获取音素序列中音素的音素特征；按照音素序列的音素排列顺序组合获取到的音素特征，得到音素特征序列；将音素特征序列输入至预先训练完成的第一参数输出网络中，输出口型参数。

上述人脸动作参数包括表情参数和/或头部姿态参数；上述参数生成模块还用于：生成语音文字对应的文字序列；语音文字中的每个第一文字对应文字序列中的至少一个第二文字；第一文字对应的第二文字的数量，与第一文字在目标语音中对应的时间戳数量相匹配；从预设的文字与文字特征的对应关系中，获取文字序列中文字的文字特征；按照文字序列中的文字排列顺序组合获取到的文字特征，得到文字特征序列；基于文字特征序列生成人脸动作参数。

上述参数生成模块还用于：获取目标语音对应的情绪类别；从预设的情绪类别与情绪特征的对应关系中，获取目标语音对应的情绪类别的情绪特征；基于文字特征序列和情绪特征，生成人脸动作参数。

上述人脸动作参数包括表情参数和头部姿态参数；上述参数生成模块还用于：将文字特征序列和情绪特征输入至预先训练完成的第二参数输出网络中，输出表情参数；将文字特征序列和情绪特征输入至预先训练完成的第三参数输出网络中，输出头部姿态参数。

上述视频生成模块还用于：从第一视频中提取目标人物的第一特定动作参数；第一特定动作参数用于指示目标人物在说话时的脸部动作；基于第一特定动作参数和人脸动作参数生成目标视频。

上述视频生成模块还用于：将人脸动作参数映射至第一特定动作参数中，得到第二特定动作参数；第二特定动作参数用于指示目标人物在说目标语音时的脸部动作；基于第二特定动作参数生成目标视频。

上述人脸动作参数包括口型参数；第一特定动作参数包括嘴部动作参数；上述视频生成模块还用于：将口型参数映射至嘴部动作参数中，得到映射后的嘴部动作参数；其中，映射后的嘴部动作参数用于指示目标人物在说目标语音时的嘴部动作；将映射后的嘴部动作参数保存至第二特定动作参数中。

上述视频生成模块还用于：从第一视频中提取目标人物的人脸形状信息；基于人脸形状信息和第二特定动作参数，确定目标人物的人脸关键点位置信息；其中，第二特定动作参数包括：嘴部动作参数、表情参数和头部姿态参数；人脸关键点位置信息包括：目标人物在第二特征动作参数指示的动作下，人脸关键点的位置；基于人脸关键点位置信息生成目标视频。

上述视频生成模块还用于：基于人脸形状信息建立目标人物的初始脸部三维模型；基于第二特定动作参数，调整目标人物的初始脸部三维模型，得到目标人物的当前面部三维模型；将目标人物的当前面部三维模型中的关键点投影至二维平面中，得到目标人物的人脸关键点位置信息。

上述视频生成模块还用于：从人脸关键点位置信息中提取人脸关键点特征；将人脸关键点特征输入至预先训练完成的视频生成模型中，输出目标视频；其中，视频生成模型用于：基于人脸关键点信息和预先学习到的目标视频的图像信息，生成目标视频。

上述视频生成模块还用于：从人脸关键点位置信息中提取第一初始特征；对人脸关键点位置信息进行下采样处理，从处理后的人脸关键点位置信息中提取第二初始特征；合并第一初始特征和第二初始特征，得到人脸关键点特征。

上述视频生成模型包括第一分支网络和第二分支网络；上述视频生成模块还用于：将人脸关键点特征输入至第一分支网络，输出目标人物的脸部局部图像；将人脸关键点特征输入至第二分支网络，输出包含目标人物以及背景图像的全局图像；基于脸部局部图像和全局图像，生成目标视频的视频图像。

上述第一分支网络还用于输出掩码图像；掩码图像用于提供脸部局部图像和全局图像在各个像素位置的融合权重；上述视频生成模块还用于：基于掩码图像，对脸部局部图像和全局图像进行融合处理，得到目标视频的视频图像。

本实施例还提供一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的机器可执行指令，处理器执行机器可执行指令以实现上述视频生成方法。该电子设备可以是服务器，也可以是终端设备。

参见图8所示，该电子设备包括处理器100和存储器101，该存储器101存储有能够被处理器100执行的机器可执行指令，该处理器100执行机器可执行指令以实现上述视频生成方法。

进一步地，图8所示的电子设备还包括总线102和通信接口103，处理器100、通信接口103和存储器101通过总线102连接。

其中，存储器101可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。总线102可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

处理器100可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器100中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器100可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processor，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器101，处理器100读取存储器101中的信息，结合其硬件完成前述实施例的方法的步骤。

本实施例还提供一种机器可读存储介质，机器可读存储介质存储有机器可执行指令，机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现上述视频生成方法。

本发明实施例所提供的视频生成方法、装置、电子设备及存储介质的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种视频生成方法，其特征在于，所述方法包括：

基于目标语音对应的语音文字，生成人脸动作参数；所述人脸动作参数用于指示人物说所述目标语音时的脸部动作；

基于所述人脸动作参数和包含目标人物的第一视频，生成目标视频；其中，所述目标视频包括：所述目标人物说所述目标语音的视频图像。

2.根据权利要求1所述的方法，其特征在于，所述人脸动作参数包括口型参数、表情参数和头部姿态参数中的一种或多种。

3.根据权利要求1所述的方法，其特征在于，所述人脸动作参数包括口型参数；所述基于目标语音对应的语音文字，生成人脸动作参数的步骤，包括：

生成所述语音文字对应的音素序列；其中，所述音素序列包括多个音素；所述语音文字中的每个文字对应至少一个音素；所述多个音素按照所述语音文字中的文字顺序排列；

基于所述音素序列生成所述口型参数。

4.根据权利要求3所述的方法，其特征在于，生成所述语音文字对应的音素序列的步骤，包括：

生成所述语音文字中每个文字对应的音素；

根据所述目标语音中的时间戳，调整每个音素的数量，得到所述音素序列；其中，所述音素序列中，每个所述时间戳对应一个音素。

5.根据权利要求3所述的方法，其特征在于，基于所述音素序列生成所述口型参数的步骤，包括：

从预设的音素与音素特征的对应关系中，获取所述音素序列中音素的音素特征；按照所述音素序列的音素排列顺序组合获取到的音素特征，得到音素特征序列；

将所述音素特征序列输入至预先训练完成的第一参数输出网络中，输出所述口型参数。

6.根据权利要求1所述的方法，其特征在于，所述人脸动作参数包括表情参数和/或头部姿态参数；所述基于目标语音对应的语音文字，生成人脸动作参数的步骤，包括：

生成所述语音文字对应的文字序列；所述语音文字中的每个第一文字对应所述文字序列中的至少一个第二文字；所述第一文字对应的第二文字的数量，与所述第一文字在所述目标语音中对应的时间戳数量相匹配；

从预设的文字与文字特征的对应关系中，获取所述文字序列中文字的文字特征；按照所述文字序列中的文字排列顺序组合获取到的文字特征，得到文字特征序列；

基于所述文字特征序列生成所述人脸动作参数。

7.根据权利要求6所述的方法，其特征在于，基于所述文字特征序列生成所述人脸动作参数的步骤，包括：

获取所述目标语音对应的情绪类别；

从预设的情绪类别与情绪特征的对应关系中，获取所述目标语音对应的情绪类别的情绪特征；

基于所述文字特征序列和所述情绪特征，生成所述人脸动作参数。

8.根据权利要求7所述的方法，其特征在于，所述人脸动作参数包括表情参数和头部姿态参数；所述基于所述文字特征序列和所述情绪特征，生成所述人脸动作参数的步骤，包括：

将所述文字特征序列和所述情绪特征输入至预先训练完成的第二参数输出网络中，输出所述表情参数；

将所述文字特征序列和所述情绪特征输入至预先训练完成的第三参数输出网络中，输出所述头部姿态参数。

9.根据权利要求1所述的方法，其特征在于，基于所述人脸动作参数和包含目标人物的第一视频，生成目标视频的步骤，包括：

从所述第一视频中提取所述目标人物的第一特定动作参数；所述第一特定动作参数用于指示所述目标人物在说话时的脸部动作；

基于所述第一特定动作参数和所述人脸动作参数生成目标视频。

10.根据权利要求9所述的方法，其特征在于，基于所述第一特定动作参数和所述人脸动作参数生成目标视频的步骤，包括：

将所述人脸动作参数映射至所述第一特定动作参数中，得到第二特定动作参数；所述第二特定动作参数用于指示所述目标人物在说所述目标语音时的脸部动作；

基于所述第二特定动作参数生成目标视频。

11.根据权利要求10所述的方法，其特征在于，所述人脸动作参数包括口型参数；所述第一特定动作参数包括嘴部动作参数；

所述将所述人脸动作参数映射至所述第一特定动作参数中，得到第二特定动作参数的步骤，包括：

将所述口型参数映射至所述嘴部动作参数中，得到映射后的所述嘴部动作参数；其中，映射后的所述嘴部动作参数用于指示所述目标人物在说所述目标语音时的嘴部动作；

将映射后的所述嘴部动作参数保存至所述第二特定动作参数中。

12.根据权利要求10所述的方法，其特征在于，基于所述第二特定动作参数生成目标视频的步骤，包括：

从所述第一视频中提取所述目标人物的人脸形状信息；

基于所述人脸形状信息和所述第二特定动作参数，确定所述目标人物的人脸关键点位置信息；其中，所述第二特定动作参数包括：嘴部动作参数、表情参数和头部姿态参数；所述人脸关键点位置信息包括：所述目标人物在所述第二特征动作参数指示的动作下，人脸关键点的位置；

基于所述人脸关键点位置信息生成所述目标视频。

13.根据权利要求12所述的方法，其特征在于，基于所述人脸形状信息和所述第二特定动作参数，确定所述目标人物的人脸关键点位置信息的步骤，包括：

基于所述人脸形状信息建立所述目标人物的初始脸部三维模型；

基于所述第二特定动作参数，调整所述目标人物的初始脸部三维模型，得到所述目标人物的当前面部三维模型；

将所述目标人物的当前面部三维模型中的关键点投影至二维平面中，得到所述目标人物的人脸关键点位置信息。

14.根据权利要求12所述的方法，其特征在于，基于所述人脸关键点位置信息生成所述目标视频的步骤，包括：

从所述人脸关键点位置信息中提取人脸关键点特征；

将所述人脸关键点特征输入至预先训练完成的视频生成模型中，输出所述目标视频；其中，所述视频生成模型用于：基于所述人脸关键点信息和预先学习到的目标视频的图像信息，生成所述目标视频。

15.根据权利要求14所述的方法，其特征在于，从所述人脸关键点位置信息中提取人脸关键点特征的步骤，包括：

从所述人脸关键点位置信息中提取第一初始特征；

对所述人脸关键点位置信息进行下采样处理，从处理后的所述人脸关键点位置信息中提取第二初始特征；

合并所述第一初始特征和所述第二初始特征，得到所述人脸关键点特征。

16.根据权利要求14所述的方法，其特征在于，所述视频生成模型包括第一分支网络和第二分支网络；

所述将所述人脸关键点特征输入至预先训练完成的视频生成模型中，输出所述目标视频的步骤，包括：

将所述人脸关键点特征输入至所述第一分支网络，输出所述目标人物的脸部局部图像；将所述人脸关键点特征输入至所述第二分支网络，输出包含所述目标人物以及背景图像的全局图像；

基于所述脸部局部图像和所述全局图像，生成所述目标视频的视频图像。

17.根据权利要求16所述的方法，其特征在于，所述第一分支网络还用于输出掩码图像；所述掩码图像用于提供所述脸部局部图像和所述全局图像在各个像素位置的融合权重；

所述基于所述脸部局部图像和所述全局图像，生成所述目标视频的视频图像的步骤，包括：

基于所述掩码图像，对所述脸部局部图像和所述全局图像进行融合处理，得到所述目标视频的视频图像。

18.一种视频生成装置，其特征在于，所述装置包括：

参数生成模块，用于基于目标语音对应的语音文字，生成人脸动作参数；所述人脸动作参数用于指示人物说所述目标语音时的脸部动作；

视频生成模块，用于基于所述人脸动作参数和包含目标人物的第一视频，生成目标视频；其中，所述目标视频包括：所述目标人物说所述目标语音的视频图像。

19.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现权利要求1-17任一项所述的视频生成方法。

20.一种机器可读存储介质，其特征在于，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现权利要求1-17任一项所述的视频生成方法。