CN117640994A

CN117640994A - 一种视频生成方法及相关设备

Info

Publication number: CN117640994A
Application number: CN202311352647.6A
Authority: CN
Inventors: 程平; 吴松城
Original assignee: Xiamen Black Mirror Technology Co ltd
Current assignee: Xiamen Black Mirror Technology Co ltd
Priority date: 2023-10-18
Filing date: 2023-10-18
Publication date: 2024-03-01

Abstract

本发明公开了一种视频生成方法及相关设备，该方法包括：先根据目标人的真实说话视频获取样本视频帧序列和样本语音，再对样本视频帧序列中各样本视频帧的预设区域进行掩码处理，获取掩码帧序列，然后根据样本视频帧序列、样本语音和掩码帧序列对预设wav2lip模型进行训练，训练完成后生成目标wav2lip模型，最后将目标语音和目标人的人脸视频帧序列输入目标wav2lip模型，生成目标人发出目标语音的唇形同步视频；其中，与原始wav2lip模型相比，预设wav2lip模型中的预设人脸编码器和预设人脸解码器增加了至少一个卷积层，使训练出的目标wav2lip模型可以满足更高分辨率的人脸视频帧输入和输出更高分辨率的唇形同步视频，从而提高了唇形同步视频的视频质量。

Description

一种视频生成方法及相关设备

技术领域

本申请涉及计算机技术领域，更具体地，涉及一种视频生成方法及相关设备。

背景技术

根据一段音频和目标人的视频，生成目标人发出该语音的唇形同步视频，它可以应用在数字虚拟人、游戏、动漫角色配音及音唇同步语音翻译等场景。

现有技术中，可以基于wav2lip模型生成唇形同步视频，其通过对抗生成网络(GAN)的唇形动作迁移方法，将视频人物的口型与语音同步。该模型可以对动态视频进行唇形转换，针对任意给定的语音信号，可实现高精度的唇形同步效果。

然而，现有的原始wav2lip模型要求输入的图像分辨率较小，生成的图像分辨率也较低，特别是生成的视频中人脸的下半部分较模糊，牙齿不清晰，无法满足高质量视频的生成。

因此，如何提高唇形同步视频的视频质量，是目前有待解决的技术问题。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本申请实施例提出了一种视频生成方法及相关设备，通过对原始wav2lip模型的网络结构进行修改，用以提高唇形同步视频的视频质量。

第一方面，提供一种视频生成方法，所述方法包括：根据目标人的真实说话视频获取样本视频帧序列和样本语音；对所述样本视频帧序列中各样本视频帧的预设区域，进行掩码处理，获取掩码帧序列；根据所述样本视频帧序列、所述样本语音和所述掩码帧序列对预设wav2lip模型进行训练，训练完成后生成目标wav2lip模型；将目标语音和所述目标人的人脸视频帧序列，输入所述目标wav2lip模型，生成所述目标人发出所述目标语音的唇形同步视频；其中，所述预设wav2lip模型中包括预设人脸编码器和预设人脸解码器，所述预设人脸编码器和所述预设人脸解码器是对原始wav2lip模型中的原始人脸编码器和原始人脸解码器，分别增加至少一个卷积层后得到的。

第二方面，提供一种视频生成装置，所述装置包括：获取模块，用于根据目标人的真实说话视频获取样本视频帧序列和样本语音；处理模块，用于对所述样本视频帧序列中各样本视频帧的预设区域，进行掩码处理，获取掩码帧序列；训练模块，用于根据所述样本视频帧序列、所述样本语音和所述掩码帧序列对预设wav2lip模型进行训练，训练完成后生成目标wav2lip模型；生成模块，用于将目标语音和所述目标人的人脸视频帧序列，输入所述目标wav2lip模型，生成所述目标人发出所述目标语音的唇形同步视频；其中，所述预设wav2lip模型中包括预设人脸编码器和预设人脸解码器，所述预设人脸编码器和所述预设人脸解码器是对原始wav2lip模型中的原始人脸编码器和原始人脸解码器，分别增加至少一个卷积层后得到的。

第三方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行第一方面所述视频生成方法。

第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的视频生成方法。

通过应用以上技术方案，先根据目标人的真实说话视频获取样本视频帧序列和样本语音，再对样本视频帧序列中各样本视频帧的预设区域，进行掩码处理，获取掩码帧序列，然后根据样本视频帧序列、样本语音和掩码帧序列对预设wav2lip模型进行训练，训练完成后，生成目标wav2lip模型，最后将目标语音和目标人的人脸视频帧序列输入目标wav2lip模型，生成目标人发出目标语音的唇形同步视频；其中，预设wav2lip模型中包括预设人脸编码器和预设人脸解码器，预设人脸编码器和预设人脸解码器是对原始wav2lip模型中的原始人脸编码器和原始人脸解码器，分别增加至少一个卷积层后得到的，以此通过对原始wav2lip模型的网络结构进行修改，使训练出的目标wav2lip模型可以满足更高分辨率的人脸视频帧输入和输出更高分辨率的唇形同步视频，从而提高了唇形同步视频的视频质量。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例提出的一种视频生成方法的流程示意图；

图2示出了本发明实施例中确定预设区域的流程示意图；

图3示出了本发明实施例中对预设wav2lip模型进行训练的流程示意图；

图4示出了现有技术中掩码帧的效果示意图；

图5示出了本发明实施例中掩码帧的效果示意图；

图6示出了本发明实施例提出的一种视频生成装置的结构示意图；

图7示出了本发明实施例提出的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求部分指出。

应当理解的是，本申请并不局限于下面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

本申请可用于众多通用或专用的计算装置环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本申请实施例提供一种视频生成方法，如图1所示，该方法包括以下步骤：

步骤S101，根据目标人的真实说话视频获取样本视频帧序列和样本语音。

本实施例中，目标人的真实说话视频可为多段目标人在不同环境下的人脸说话视频，各目标人的真实说话视频中各视频帧中包括完整的人脸。根据目标人的真实说话视频的各视频帧获取样本视频帧序列，同时根据目标人的真实说话视频的音频数据获取样本语音，其中，可基于现有的视频帧提取工具(如FFmpeg和OpenCV等)提取各视频帧，基于音频提取工具(如剪映、FFmpeg命令行工具等)提取音频数据。

可选的，可以将从多个预设视频中选择的一个预设视频作为目标人的真实说话视频，也可以将用户上传的视频作为目标人的真实说话视频。目标人的真实说话视频的格式可以为现有视频格式中的任一种，如AVI、MP4、DAT、DVR、VCD、MOV、SVCD、VOB、DVD、DVTR、DVR、BBC、EVD、FLV、RMVB、WMV、MKV、3GP等。

为了提高最终输出的唇形同步视频的视频质量，在本申请一些实施例中，目标人的真实说话视频的时长不低于预设时长，如2分钟，分辨率不低于预设分辨率，如1080P。

步骤S102，对所述样本视频帧序列中各样本视频帧的预设区域，进行掩码处理，获取掩码帧序列。

本实施例中，各样本视频帧的预设区域为与目标人的说话特点相关的区域，掩码处理即mask处理，对预设区域进行掩码处理具体是将预设区域置零，使预设区域显示为全黑区域。掩码帧序列中各掩码帧提供了人脸的姿势信息，比如头部和脸部的方向和角度等信息，确保合成的唇部动作与目标人的人脸姿势一致，后续通过参考帧对掩码帧中的预设区域进行重建。

步骤S103，根据所述样本视频帧序列、所述样本语音和所述掩码帧序列对预设wav2lip模型进行训练，训练完成后，生成目标wav2lip模型。

本实施例中，原始wav2lip模型中包括为卷积网络结构的原始人脸编码器和原始人脸解码器，为了提高输出的唇形同步视频的分辨率，对原始wav2lip模型中的原始人脸编码器和原始人脸解码器分别增加至少一个卷积层，得到预设wav2lip模型，其中，原始wav2lip模型为与wav2lip模型的git项目对应的模型，可以从相应的git地址或其他网络地址下载，获取原始wav2lip模型。

通过对原始wav2lip模型的网络结构进行修改，使预设wav2lip模型可以支持较高分辨率的训练图像和输出更高分辨率的生成图像，进而使输出的唇形同步视频的分辨率更高，牙齿清晰可见。其中，本领域技术人员可根据实际需要灵活设定增加的卷积层的数量，本申请实施例对此不做限定。

将样本视频帧序列、样本语音和掩码帧序列输入预设wav2lip模型进行训练，训练完成后得到目标wav2lip模型，后续可基于目标wav2lip模型进行推理，生成唇形同步视频。

步骤S104，将目标语音和所述目标人的人脸视频帧序列，输入所述目标wav2lip模型，生成所述目标人发出所述目标语音的唇形同步视频。

本实施例中，目标人的人脸视频帧序列可以是从包括目标人的人脸视频中提取的，也可以是基于目标人的一个或多个人脸图像生成的。将目标语音和目标人的人脸视频帧序列输入目标wav2lip模型，经目标wav2lip模型推理后，输出目标人发出目标语音的唇形同步视频，由于目标wav2lip模型中的人脸编码器和人脸解码器在原始wav2lip模型的基础上增加了卷积层，与现有技术相比，可以满足更高分辨率的人脸视频帧输入，并使该唇形同步视频的分辨率更高，牙齿更清晰。

本申请实施例中的视频生成方法，先根据目标人的真实说话视频获取样本视频帧序列和样本语音，再对样本视频帧序列中各样本视频帧的预设区域，进行掩码处理，获取掩码帧序列，然后根据样本视频帧序列、样本语音和掩码帧序列对预设wav2lip模型进行训练，训练完成后生成目标wav2lip模型，最后将目标语音和目标人的人脸视频帧序列输入目标wav2lip模型，生成目标人发出目标语音的唇形同步视频；其中，预设wav2lip模型中包括预设人脸编码器和预设人脸解码器，预设人脸编码器和预设人脸解码器是对原始wav2lip模型中的原始人脸编码器和原始人脸解码器，分别增加至少一个卷积层后得到的，通过对原始wav2lip模型的网络结构进行修改，使训练出的目标wav2lip模型可以满足更高分辨率的人脸视频帧输入和输出更高分辨率的唇形同步视频，从而提高了唇形同步视频的视频质量。

在本申请任一实施例的基础上，在对所述样本视频帧序列中各样本视频帧的预设区域，进行掩码处理，获取掩码帧序列之前，如图2所示，该方法还包括以下步骤：

步骤S21，对所述样本视频帧进行人脸检测，获取目标人脸。

本实施例中，对样本视频帧进行人脸检测，将从样本视频帧中检测到的人脸作为目标人脸。

可选的，可采用包括基于相关匹配的方法、特征脸方法、线性判别分析方法、奇异值分解方法、神经网络方法、动态连接匹配方法、基于隐马尔柯夫模型的方法，基于主动形状模型的方法和基于主动外观模型的方法等检测方法中的任一种，对样本视频帧进行人脸检测。

步骤S22，基于预设关键点检测算法确定所述目标人脸中的多个关键点。

在获取目标人脸后，基于预设关键点检测算法检测目标人脸的关键点，确定多个关键点。

可选的，预设关键点检测算法为包括提取21个关键点、29个关键点、68个关键点、98个关键点、106个关键点、200个以上关键点等关键点检测算法中的任一种。

步骤S23，从各所述关键点中确定处于所述目标人脸的下半部分的目标关键点。

本实施例中，目标人的说话特点与目标人脸的下半部分相关，因此，确定处于目标人脸的下半部分的目标关键点。

具体的，可根据目标人脸的高度确定将目标人脸平均分成上下两部分的分界线，将该分界线以下部分的关键点作为目标关键点。也可根据目标人脸中鼻子上的预设位置确定处于目标人脸中间位置的关键点，将该关键点以下的关键点作为目标关键点。

步骤S24，根据各所述目标关键点确定所述预设区域。

在确定各目标关键点后，可根据目标关键点对应的人脸轮廓确定预设区域，也可在该人脸轮廓的基础上按预设比例进行扩展，确定预设区域，由于该预设区域是由目标人脸的目标关键点确定的，避免了预设wav2lip模型对与人脸无关区域的学习，提高了模型的精度，并可提高损失函数的收敛速度。

在本申请一些实施例中，所述根据各所述目标关键点确定所述预设区域，包括：

将各所述目标关键点中的各外围关键点连接，确定第一轮廓线；

按预设距离对所述第一轮廓线进行扩张，确定第二轮廓线，并将所述第二轮廓线以内的区域作为所述预设区域。

本实施例中，各目标关键点中包括外围关键点和内部关键点，外围关键点表征了目标人脸的下半部分的脸部轮廓，内部关键点为脸部轮廓以内的关键点，如鼻子、唇部等部位的关键点。先将各外围关键点连接，具体为将各外围关键点沿目标人脸下半部分的脸部轮廓连接，确定第一轮廓线，由于人脸在说话时会存在脸部轮廓的变化，因此按预设距离对第一轮廓线进行扩张，确定第二轮廓线，以使预设区域中包括不同说话状态下的脸部轮廓，最后将第二轮廓线以内的区域作为预设区域。

可选的，预设距离可根据目标人脸嘴部张开最大时的脸部轮廓确定，也可根据试验数据确定。

通过将目标人脸下半部分的人脸轮廓进行适当扩张，确定进行掩码处理的预设区域，增强了预设区域与目标人脸的相关性，避免了预设wav2lip模型对与人脸无关区域的学习，提高了模型的稳定性。

如图4所示为现有技术中掩码帧的效果示意图，如图5所示为本发明实施例中掩码帧的效果示意图，可以看出，现有技术中将视频帧的下半部分全部进行掩码处理，包括了较多的无关区域，相比之下，本申请实施例中只对视频帧中人脸的下半部分进行适当扩张后进行掩码处理，与现有技术相比，可避免预设wav2lip模型对与人脸无关区域的学习，提高模型的稳定性。

在本申请任一实施例的基础上，所述预设wav2lip模型包括口型生成器、唇音同步判别器和视觉质量判别器，所述口型生成器包括所述预设人脸编码器、预设音频编码器和所述预设人脸解码器，所述根据所述样本视频帧序列、所述样本语音和所述掩码帧序列对预设wav2lip模型进行训练，如图3所示，包括以下步骤：

步骤S31，将预设数量的参考帧和所述掩码帧序列中所述预设数量的掩码帧，按通道维度进行拼接并输入所述预设人脸编码器，生成人脸特征数据，其中，所述参考帧是从所述样本视频帧序列中随机选取的。

本实施例中，预设wav2lip模型包括口型生成器、唇音同步判别器和视觉质量判别器。

口型生成器负责生成包含目标口型的人脸图像，是一个2D-CNN编码器-解码器结构，包含三个由卷积网络组成的模块：预设人脸编码器、预设音频编码器和预设人脸解码器。

唇音同步判别器用于评估生成的唇部动作与音频的同步性，它是由syncNet改进而来，唇音同步判别器可以在训练过程中对口型生成器进行优化，提高口型生成器生成口型的准确性。

使用唇音同步判别器可以使口型生成器生成准确的口型形状，但有时候会导致生成区域出现模糊或者伪影，为了提高生成图像质量，在预设wav2lip模型设置了视觉质量判别器。在对口型生成器的训练过程中，将训练完成的唇音同步判别器保持冻结，视觉质量判别器只对生成的人脸的质量进行监督，不负责口型同步，视觉质量判别器由多个卷积块组成。

参考帧是从样本视频帧序列中按预设数量随机选取的，参考帧包含目标人脸的完整外观特征，如嘴唇的形状、颜色和纹理等，用于唇部形状和运动的合成。将预设数量的参考帧和掩码帧，按通道维度进行拼接并输入预设人脸编码器，由预设人脸编码器进行特征编码并输出人脸特征数据。将参考帧和掩码帧共同作为输入，确保生成的人脸的外观、口型和姿态更加准确。

步骤S32，将所述样本语音输入所述预设音频编码器，生成音频特征数据。

预设音频编码器用于编码输入的样本语音，将样本语音输入预设音频编码器，预设音频编码器输出音频特征数据。

步骤S33，将所述人脸特征数据和所述音频特征数据进行融合，并输入所述预设人脸解码器，并根据所述预设人脸解码器的输出结果获取生成视频帧。

预设人脸解码器用于通过反卷积进行上采样，重建人脸图像。将获取的人脸特征数据和音频特征数据进行融合，并输入预设人脸解码器，由预设人脸解码器输出生成视频帧。

步骤S34，根据所述生成视频帧和所述样本语音训练所述唇音同步判别器，并根据训练完成的唇音同步判别器，确定所述生成视频帧和所述样本语音之间的同步损失。

将连续的生成视频帧的序列以及样本语音输入唇音同步判别器，根据唇音同步判别器的输出结果确定生成视频帧和样本语音之间的同步损失，通过最小化同步损失来提高生成的帧的口型同步质量，其中，同步损失可为余弦相似度二元交叉熵损失。

步骤S35，根据所述视觉质量判别器确定所述生成视频帧和所述样本视频帧之间的对抗损失。

将生成视频帧和样本视频帧输入视觉质量判别器，由视觉质量判别器确定相应的对抗损失。

步骤S36，根据所述同步损失和所述对抗损失调整所述口型生成器的参数，直至满足预设训练完成条件。

通过最小化同步损失和对抗损失，调整口型生成器的参数，在满足预设训练完成条件时，确定训练完成，得到目标wav2lip模型，其中，预设训练完成条件可以为：同步损失和对抗损失的加权之和小于预设阈值。

另外，在对口型生成器的训练过程中，由于唇音同步判别器是从真实视频中的口型数据训练的，无需改变，因此保持训练完成的唇音同步判别器中的权重参数不变。

通过唇音同步判别器确定同步损失，通过视觉质量判别器确定对抗损失，并通过同步损失和对抗损失训练口型生成器，在保证唇形同步的基础上，提高了生成图像质量，进而提高了目标wav2lip模型的准确性。

在本申请一些实施例中，所述口型生成器的输出端连接预设超分辨率模型，所述根据所述预设人脸解码器的输出结果获取生成视频帧，包括：

将所述口型生成器的输出结果输入所述预设超分辨率模型；

根据所述预设超分辨率模型的输出结果获取所述生成视频帧。

本实施例中，在口型生成器的输出端连接预设超分辨率模型，预设超分辨率模型用于从观测到的低分辨率图像重建出相应的高分辨率图像。通过将口型生成器的输出结果输入预设超分辨率模型，由预设超分辨率模型对口型生成器的输出结果进行图像重建，输出生成视频帧，从而进一步提高了生成视频帧的图像质量。

可选的，预设超分辨率模型可以为包括SRCNN、SRResNet&SRGAN、EDSR、ESRGAN、RDN、DIC、TTSR、GLEAN、LIIF中的任一种。

在本申请一些实施例中，所述视觉质量判别器包括依次连接的多个子判别器，各所述子判别器分别用于在不同预设尺度上，判断输入图像是否为真实人脸图像，所述根据所述视觉质量判别器确定所述生成视频帧和所述样本视频帧之间的对抗损失，包括：

根据各所述预设尺度，对所述生成视频帧依次进行预设次数的平均池化操作，得到多个第一图像；

根据各所述预设尺度，对所述样本视频帧依次进行预设次数的平均池化操作，得到多个第二图像；

将所述生成视频帧、所述样本视频帧、各所述第一图像和各所述第二图像分别输入与自身尺度一致的子判别器，并根据各所述子判别器的判别结果确定所述对抗损失；

其中，首个子判别器的输入分别为所述生成视频帧和所述样本视频帧，非首个子判别器的输入分别为所述第一图像和所述第二图像。

本实施例中，视觉质量判别器包括依次连接的多个子判别器，各子判别器分别用于在不同预设尺度上，判断输入图像是否为真实人脸图像，单个预设尺度可以包括：256(像素)*256(像素)、128(像素)*128(像素)或64(像素)*64(像素)等。

根据各预设尺度对生成视频帧依次进行预设次数的平均池化操作，以生成多个第一图像，根据各预设尺度对样本视频帧依次进行预设次数的平均池化操作，以生成多个第二图像，然后将生成视频帧和样本视频帧输入首个子判别器进行判别，将第一图像和第二图像输入与自身尺度一致的子判别器进行判别，最后根据各子判别器判别结果确定对抗损失。

通过在不同尺度对生成视频帧进行判别，提升了视觉质量判别器的判别能力，提高了对生成高质量图像的监督作用，从而进一步提高了对抗损失的准确性。

在本申请一些实施例中，所述根据各所述子判别器的判别结果确定所述对抗损失，包括：

根据公式一确定所述对抗损失，所述公式一为：

其中，L_dis为所述对抗损失，k表示第k个子判别器，n表示子判别器的数量，n为大于2的正整数，D_k(g)为第k个子判别器对样本视频帧或所述第二图像的判别结果，为第k个子判别器对生成视频帧或所述第一图像的判别结果。

本实施例中，通过多尺度的子判别器的判别结果确定损失函数L_dis，使对抗损失更加符合实际的图像损失，从而提高了对预设wav2lip模型训练过程中的稳定性。

与本申请实施例中的一种视频生成方法相对应，本申请实施例还提出了一种视频生成装置，如图6所示，该装置包括：获取模块601，用于根据目标人的真实说话视频获取样本视频帧序列和样本语音；处理模块602，用于对所述样本视频帧序列中各样本视频帧的预设区域，进行掩码处理，获取掩码帧序列；训练模块603，用于根据所述样本视频帧序列、所述样本语音和所述掩码帧序列对预设wav2lip模型进行训练，训练完成后，生成目标wav2lip模型；生成模块604，用于将目标语音和所述目标人的人脸视频帧序列，输入所述目标wav2lip模型，生成所述目标人发出所述目标语音的唇形同步视频；其中，所述预设wav2lip模型中包括预设人脸编码器和预设人脸解码器，所述预设人脸编码器和所述预设人脸解码器是对原始wav2lip模型中的原始人脸编码器和原始人脸解码器，分别增加至少一个卷积层后得到的。

在具体的应用场景中，该装置还包括确定模块，用于：对所述样本视频帧进行人脸检测，获取目标人脸；基于预设关键点检测算法确定所述目标人脸中的多个关键点；从各所述关键点中确定处于所述目标人脸的下半部分的目标关键点；根据各所述目标关键点确定所述预设区域。

在具体的应用场景中，该确定模块，具体用于：将各所述目标关键点中的各外围关键点连接，确定第一轮廓线；按预设距离对所述第一轮廓线进行扩张，确定第二轮廓线，并将所述第二轮廓线以内的区域作为所述预设区域。

在具体的应用场景中，所述预设wav2lip模型包括口型生成器、唇音同步判别器和视觉质量判别器，所述口型生成器包括所述预设人脸编码器、预设音频编码器和所述预设人脸解码器，训练模块603，具体用于：将预设数量的参考帧和所述掩码帧序列中所述预设数量的掩码帧，按通道维度进行拼接并输入所述预设人脸编码器，生成人脸特征数据，其中，所述参考帧是从所述样本视频帧序列中随机选取的；将所述样本语音输入所述预设音频编码器，生成音频特征数据；将所述人脸特征数据和所述音频特征数据进行融合，并输入所述预设人脸解码器，并根据所述预设人脸解码器的输出结果获取生成视频帧；根据所述生成视频帧和所述样本语音训练所述唇音同步判别器，并根据训练完成的唇音同步判别器，确定所述生成视频帧和所述样本语音之间的同步损失；根据所述视觉质量判别器确定所述生成视频帧和所述样本视频帧之间的对抗损失；根据所述同步损失和所述对抗损失调整所述口型生成器的参数，直至满足预设训练完成条件；其中，在对所述口型生成器的训练过程中，所述训练完成的唇音同步判别器中的权重参数保持不变。

在具体的应用场景中，所述口型生成器的输出端连接预设超分辨率模型，训练模块603，还具体用于：将所述口型生成器的输出结果输入所述预设超分辨率模型；根据所述预设超分辨率模型的输出结果获取所述生成视频帧。

在具体的应用场景中，所述视觉质量判别器包括依次连接的多个子判别器，各所述子判别器分别用于在不同预设尺度上，判断输入图像是否为真实人脸图像，训练模块603，还具体用于：根据各所述预设尺度，对所述生成视频帧依次进行预设次数的平均池化操作，得到多个第一图像；根据各所述预设尺度，对所述样本视频帧依次进行预设次数的平均池化操作，得到多个第二图像；将所述生成视频帧、所述样本视频帧、各所述第一图像和各所述第二图像分别输入与自身尺度一致的子判别器，并根据各所述子判别器的判别结果确定所述对抗损失；其中，首个子判别器的输入分别为所述生成视频帧和所述样本视频帧，非首个子判别器的输入分别为所述第一图像和所述第二图像。

在具体的应用场景中，训练模块603，还具体用于：根据公式一确定所述对抗损失，所述公式一为：其中，L_dis为所述对抗损失，k表示第k个子判别器，n表示子判别器的数量，n为大于2的正整数，D_k(g)为第k个子判别器对样本视频帧或所述第二图像的判别结果，/>为第k个子判别器对生成视频帧或所述第一图像的判别结果。

本申请实施例中的视频生成装置包括：获取模块，用于根据目标人的真实说话视频获取样本视频帧序列和样本语音；处理模块，用于对样本视频帧序列中各样本视频帧的预设区域，进行掩码处理，获取掩码帧序列；训练模块，用于根据样本视频帧序列、样本语音和掩码帧序列对预设wav2lip模型进行训练，训练完成后，生成目标wav2lip模型；生成模块，用于将目标语音和目标人的人脸视频帧序列，输入目标wav2lip模型，生成目标人发出目标语音的唇形同步视频；其中，预设wav2lip模型中包括预设人脸编码器和预设人脸解码器，预设人脸编码器和预设人脸解码器是对原始wav2lip模型中的原始人脸编码器和原始人脸解码器，分别增加至少一个卷积层后得到的，以此通过对原始wav2lip模型的网络结构进行修改，使训练出的目标wav2lip模型可以满足更高分辨率的人脸视频帧输入和输出更高分辨率的唇形同步视频，从而提高了唇形同步视频的视频质量。

本发明实施例还提供了一种电子设备，如图7所示，包括处理器701、通信接口702、存储器703和通信总线704，其中，处理器701，通信接口702，存储器703通过通信总线704完成相互间的通信，

存储器703，用于存储处理器的可执行指令；

处理器701，被配置为经由执行所述可执行指令来执行：

根据目标人的真实说话视频获取样本视频帧序列和样本语音；对所述样本视频帧序列中各样本视频帧的预设区域，进行掩码处理，获取掩码帧序列；根据所述样本视频帧序列、所述样本语音和所述掩码帧序列对预设wav2lip模型进行训练，训练完成后，生成目标wav2lip模型；将目标语音和所述目标人的人脸视频帧序列，输入所述目标wav2lip模型，生成所述目标人发出所述目标语音的唇形同步视频；其中，所述预设wav2lip模型中包括预设人脸编码器和预设人脸解码器，所述预设人脸编码器和所述预设人脸解码器是对原始wav2lip模型中的原始人脸编码器和原始人脸解码器，分别增加至少一个卷积层后得到的。

上述通信总线可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(Extended Industry Standard Architecture，扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括非易失性存储器，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processing，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的视频生成方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如上所述的视频生成方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘)等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种视频生成方法，其特征在于，所述方法包括：

根据目标人的真实说话视频获取样本视频帧序列和样本语音；

对所述样本视频帧序列中各样本视频帧的预设区域，进行掩码处理，获取掩码帧序列；

根据所述样本视频帧序列、所述样本语音和所述掩码帧序列对预设wav2lip模型进行训练，训练完成后，生成目标wav2lip模型；

将目标语音和所述目标人的人脸视频帧序列，输入所述目标wav2lip模型，生成所述目标人发出所述目标语音的唇形同步视频；

其中，所述预设wav2lip模型中包括预设人脸编码器和预设人脸解码器，所述预设人脸编码器和所述预设人脸解码器是对原始wav2lip模型中的原始人脸编码器和原始人脸解码器，分别增加至少一个卷积层后得到的。

2.如权利要求1所述的方法，其特征在于，在对所述样本视频帧序列中各样本视频帧的预设区域，进行掩码处理，获取掩码帧序列之前，所述方法还包括：

对所述样本视频帧进行人脸检测，获取目标人脸；

基于预设关键点检测算法确定所述目标人脸中的多个关键点；

从各所述关键点中确定处于所述目标人脸的下半部分的目标关键点；

根据各所述目标关键点确定所述预设区域。

3.如权利要求2所述的方法，其特征在于，所述根据各所述目标关键点确定所述预设区域，包括：

4.如权利要求1所述的方法，其特征在于，所述预设wav2lip模型包括口型生成器、唇音同步判别器和视觉质量判别器，所述口型生成器包括所述预设人脸编码器、预设音频编码器和所述预设人脸解码器，所述根据所述样本视频帧序列、所述样本语音和所述掩码帧序列对预设wav2lip模型进行训练，包括：

将预设数量的参考帧和所述掩码帧序列中所述预设数量的掩码帧，按通道维度进行拼接并输入所述预设人脸编码器，生成人脸特征数据，其中，所述参考帧是从所述样本视频帧序列中随机选取的；

将所述样本语音输入所述预设音频编码器，生成音频特征数据；

将所述人脸特征数据和所述音频特征数据进行融合，并输入所述预设人脸解码器，并根据所述预设人脸解码器的输出结果获取生成视频帧；

根据所述生成视频帧和所述样本语音训练所述唇音同步判别器，并根据训练完成的唇音同步判别器，确定所述生成视频帧和所述样本语音之间的同步损失；

根据所述视觉质量判别器确定所述生成视频帧和所述样本视频帧之间的对抗损失；

根据所述同步损失和所述对抗损失调整所述口型生成器的参数，直至满足预设训练完成条件；

其中，在对所述口型生成器的训练过程中，所述训练完成的唇音同步判别器中的权重参数保持不变。

5.如权利要求4所述的方法，其特征在于，所述口型生成器的输出端连接预设超分辨率模型，所述根据所述预设人脸解码器的输出结果获取生成视频帧，包括：

将所述口型生成器的输出结果输入所述预设超分辨率模型；

6.如权利要求4所述的方法，其特征在于，所述视觉质量判别器包括依次连接的多个子判别器，各所述子判别器分别用于在不同预设尺度上，判断输入图像是否为真实人脸图像，所述根据所述视觉质量判别器确定所述生成视频帧和所述样本视频帧之间的对抗损失，包括：

7.如权利要求4所述的方法，其特征在于，所述根据各所述子判别器的判别结果确定所述对抗损失，包括：

根据公式一确定所述对抗损失，所述公式一为：

8.一种视频生成装置，其特征在于，所述装置包括：

获取模块，用于根据目标人的真实说话视频获取样本视频帧序列和样本语音；

处理模块，用于对所述样本视频帧序列中各样本视频帧的预设区域，进行掩码处理，获取掩码帧序列；

训练模块，用于根据所述样本视频帧序列、所述样本语音和所述掩码帧序列对预设wav2lip模型进行训练，训练完成后，生成目标wav2lip模型；

生成模块，用于将目标语音和所述目标人的人脸视频帧序列，输入所述目标wav2lip模型，生成所述目标人发出所述目标语音的唇形同步视频；

9.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1～7中任意一项所述视频生成方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～7中任意一项所述的视频生成方法。