CN116228895B

CN116228895B - 视频生成方法、深度学习模型训练方法、装置以及设备

Info

Publication number: CN116228895B
Application number: CN202310076637.8A
Authority: CN
Inventors: 周航; 孙亚圣; 何栋梁
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-01-16
Filing date: 2023-01-16
Publication date: 2023-11-17
Anticipated expiration: 2043-01-16
Also published as: CN116228895A

Abstract

本公开提供了一种视频生成方法、深度学习模型训练方法，涉及人工智能技术领域，尤其涉及计算机视觉、增强现实、虚拟现实、深度学习等技术领域，可应用于元宇宙、虚拟数字人等场景。具体实现方案为：对掩码视频帧进行编码，得到掩码视频帧特征，掩码视频帧是对初始视频帧添加掩码得到的，掩码视频帧包括覆盖目标对象的唇形区域的掩码区域；根据掩码视频帧特征、参考视频帧特征以及音频特征，确定与每一个掩码子区域对应的掩码子区域特征离散编码，参考视频帧特征是对参考视频帧编码得到的；根据初始视频帧，确定目标索引；根据目标索引、掩码子区域特征离散编码以及掩码视频帧特征，生成目标视频帧。

Description

视频生成方法、深度学习模型训练方法、装置以及设备

技术领域

本公开涉及人工智能技术领域，尤其涉及计算机视觉、增强现实、虚拟现实、深度学习等技术领域，可应用于元宇宙、虚拟数字人等场景。

背景技术

随着计算机技术和互联网技术的发展，基于音频数据对唇形进行修改可以应用于例如虚拟人驱动、计算机视觉等场景。如何基于音频数据进行唇形修改，实现真实、高效的视频生成成为一个亟需解决的技术问题。

发明内容

本公开提供了一种视频生成方法、深度学习模型训练方法、视频生成装置、深度学习模型训练装置、设备、存储介质以及程序产品。

根据本公开的一方面，提供了一种视频生成方法，包括：对掩码视频帧进行编码，得到掩码视频帧特征，其中，掩码视频帧是对初始视频帧添加掩码得到的，掩码视频帧包括覆盖目标对象的唇形区域的掩码区域；根据掩码视频帧特征、参考视频帧特征以及音频特征，确定与每一个掩码子区域对应的掩码子区域特征离散编码，其中，参考视频帧特征是对参考视频帧编码得到的，参考视频帧、初始视频帧以及掩码视频帧包括相同的目标对象；根据初始视频帧，确定目标索引，目标索引表征子区域特征与离散编码之间的映射关系；以及根据目标索引、掩码子区域特征离散编码以及掩码视频帧特征，生成目标视频帧。

根据本公开的另一方面，提供了一种深度学习模型训练方法，包括：获取样本图像序列和初始深度学习模型，其中，样本图像序列包括多个样本图像，初始深度学习模型包括第一初始子网络和第二初始子网络；根据样本图像序列对第一初始子网络进行训练，得到第一目标子网络，其中，第一目标子网络用于确定目标索引，目标索引表征子区域特征与离散编码之间的映射关系；利用第二初始子网络对掩码样本图像特征、参考样本图像特征以及音频样本特征进行处理，得到每一个样本掩码子区域对应的样本掩码子区域特征离散编码，其中，掩码样本图像特征、参考样本图像特征分别由包括相同的目标对象的掩码样本图像、参考样本图像得到，掩码样本图像包括覆盖目标对象的唇形区域的样本掩码区域；根据目标索引、样本掩码子区域特征离散编码以及掩码样本图像特征，确定目标样本图像；根据目标样本图像与目标损失函数，确定目标反馈数值；以及根据目标反馈数值对初始深度学习模型的模型参数进行调整，得到目标深度学习模型。

根据本公开的另一方面，提供了一种视频生成装置，包括：掩码视频帧特征确定模块，用于对掩码视频帧进行编码，得到掩码视频帧特征，其中，掩码视频帧是对初始视频帧添加掩码得到的，掩码视频帧包括覆盖目标对象的唇形区域的掩码区域；离散编码第一确定模块，用于根据掩码视频帧特征、参考视频帧特征以及音频特征，确定与每一个掩码子区域对应的掩码子区域特征离散编码，其中，参考视频帧特征是对参考视频帧编码得到的，参考视频帧、初始视频帧以及掩码视频帧包括相同的目标对象；索引第一确定模块，用于根据初始视频帧，确定目标索引，目标索引表征子区域特征与离散编码之间的映射关系；以及目标视频帧生成模块，用于根据目标索引、掩码子区域特征离散编码以及掩码视频帧特征，生成目标视频帧。

根据本公开的另一方面，提供了一种深度学习模型训练装置，包括：模型获取模块，用于获取样本图像序列和初始深度学习模型，其中，样本图像序列包括多个样本图像，初始深度学习模型包括第一初始子网络和第二初始子网络；第一目标子网络确定模块，用于根据样本图像序列对第一初始子网络进行训练，得到第一目标子网络，其中，第一目标子网络用于确定目标索引；离散编码第二确定模块，用于利用第二初始子网络对掩码样本图像特征、参考样本图像特征以及音频样本特征进行处理，得到每一个样本掩码子区域对应的样本掩码子区域特征离散编码，其中，掩码样本图像特征、参考样本图像特征分别由包括相同的目标对象的掩码样本图像、参考样本图像得到，掩码样本图像是对样本图像添加掩码得到的，掩码样本图像包括覆盖目标对象的唇形区域的样本掩码区域；目标样本图像确定模块，用于根据目标索引、样本掩码子区域特征离散编码以及掩码样本图像特征，确定目标样本图像；目标反馈数值确定模块，用于根据目标样本图像与目标损失函数，确定目标反馈数值；以及目标深度学习模型确定模块，用于根据目标反馈数值对初始深度学习模型的模型参数进行调整，得到目标深度学习模型。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器和与至少一个处理器通信连接的存储器。其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开实施例的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行本公开实施例的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，计算机程序存储于可读存储介质和电子设备其中至少之一上，计算机程序存储于可读存储介质和电子设备其中至少之一上，计算机程序在被处理器执行时实现本公开实施例的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示意性示出了根据本公开实施例的视频生成方法、深度学习模型训练方法和装置的系统架构图；

图2示意性示出了根据本公开实施例的深度学习模型训练方法的流程图；

图3示意性示出了根据本公开实施例的深度学习模型训练方法的示意图；

图4示意性示出了根据本公开另一实施例的视频生成方法的流程图；

图5示意性示出了根据本公开实施例的深度学习模型训练装置的框图；

图6示意性示出了根据本公开实施例的视频生成装置的框图；以及

图7示意性示出了可以实现本公开实施例的视频生成方法、深度学习模型训练方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

唇形修改可以理解为在保持基准视频帧不变的情况下，根据输入的音频数据，修改视频帧中目标对象的唇形的技术，可以应用于根据语音驱动真人虚拟人形象的场景，也可以应用于娱乐场景中对目标对象的说话内容的修改。

一些实施方式，通过设计一个卷积神经网络构成的图像生成器，将音频数据对应的音频特征送入生成器中，使得音频特征与底板图像的图像特征在特征空间进行拼接，生成唇形修改后的视频帧，图像生成器的网络结构一般是U-Net结构(U-Net：ConvolutionalNetworks for Biomedical Image Segmentation)，损失函数使用重建损失函数，使用自监督训练基于音频的唇形恢复。这种实施方式生成的视频帧的唇形较为模糊、真实性较低。

图1示意性示出了根据本公开一实施例的视频生成方法、深度学习模型训练方法和装置的系统架构。需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，本公开实施例中系统架构100可以包括：用于获取样本图像序列的终端101、用于深度学习模型训练的终端102和用于视频生成的终端103。

本公开实施例中，终端101可以用于获得用于深度学习模型训练的样本图像序列。终端102可以根据终端101获得的样本图像序列集执行对应的深度学习模型训练方法以实现初始深度学习模型的模型训练。终端103可以基于终端102获得的训练后的目标深度学习模型进行视频生成，得到目标视频帧。

需要说明的是，视频生成和深度学习模型的训练可以在同一终端上实现，也可在不同终端实现。

终端101、终端102和终端103可以是服务器，还可以是服务器集群。

应该理解，图1中终端101、终端102和终端103的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端101、终端102和终端103。

应注意，本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

本公开实施例提供了一种深度学习模型训练方法，下面结合图1的系统架构，参考图2～图3来描述根据本公开示例性实施方式的深度学习模型训练方法。本公开实施例的深度学习模型训练方法例如可以由图1所示的终端102来执行。

图2示意性示出了根据本公开一实施例的深度学习模型训练方法200的流程图。

如图2所示，本公开实施例的深度学习模型训练方法200例如可以包括操作S210～操作S260。

在操作S210，获取样本图像序列和初始深度学习模型。

样本图像序列包括多个样本图像，初始深度学习模型包括第一初始子网络和第二初始子网络。

在操作S220，根据样本图像序列对第一初始子网络进行训练，得到第一目标子网络。

第一目标子网络用于确定目标索引。目标索引表征子区域特征与离散编码之间的映射关系。

离散编码可以包括样本掩码子区域特征离散编码，子区域特征可以包括样本掩码子区域特征。

在操作S230，利用第二初始子网络对掩码样本图像特征、参考样本图像特征以及音频样本特征进行处理，得到每一个样本掩码子区域对应的样本掩码子区域特征离散编码。

掩码样本图像特征、参考样本图像特征分别由掩码样本图像、参考样本图像得到。掩码样本图像、参考样本图像以及样本图像包括相同的目标对象，掩码样本图像包括覆盖目标对象的唇形区域的样本掩码区域。

示例性地，以目标对象为人物对象为例，样本掩码区域可以覆盖人物对象的唇形区域，样本掩码区域还可以覆盖人物对象的面部下半部分。可以理解的是，在样本掩码区域覆盖人物对象的面部下半部分的情况下，样本掩码区域同时也覆盖人物对象的唇形区域。

在操作S240，根据目标索引、样本掩码子区域特征离散编码以及掩码样本图像特征，确定目标样本图像。

在操作S250，根据目标样本图像与目标损失函数，确定目标反馈数值。

在操作S260，根据目标反馈数值对初始深度学习模型的模型参数进行调整，得到目标深度学习模型。

示例性地，根据目标反馈数值对初始深度学习模型的模型参数进行调整，得到目标深度学习模型例如可以包括：根据目标反馈数值对第二初始子网络的网络参数进行调整，得到第二目标子网络。目标深度学习模型包括第一目标子网络和第二目标子网络。

根据本公开实施例的深度学习模型训练方法，通过根据样本图像序列对初始深度学习模型进行训练，根据目标损失函数确定的目标反馈数值可以表征当前初始深度学习模型确定的目标样本图像与样本图像的标签之间的差异程度，并根据目标反馈数值对初始深度学习模型的模型参数进行调整(后向传播)，由此训练得到的目标深度学习模型在唇形修改、图像生成方面具有更优的性能，可以用于生成唇形更准确、真实以及图像质量更高的图像等。

具体地，根据本公开实施例的深度学习模型训练方法，掩码样本图像包括覆盖目标对象的唇形区域的样本掩码区域，因此掩码样本图像的样本掩码区域遮挡了唇形区域，后续可以对唇形进行修改，修改后的唇形可以用于补充掩码样本图像的样本掩码区域，得到目标样本图像。音频样本特征可以指导唇形修改，由于参考样本图像、掩码样本图像(以及样本图像)包括相同的目标对象，参考样本图像的样本唇形区域并未被遮挡，因此参考样本图像可以提供目标对象的唇形纹理等特征，后续得到的目标样本图像具有与音频样本特征匹配的唇形，还可以恢复例如唇形纹理等，这使得根据本公开实施例的深度学习模型训练方法得到的目标深度学习模型可以生成唇形更加准确和真实的图像。

根据本公开实施例的视频生成方法，通过利用第二初始子网络对掩码样本图像特征、参考样本图像特征以及音频样本特征进行处理，得到每一个样本掩码子区域对应的样本掩码子区域特征离散编码，可以将特征向量离散化。通过根据样本图像序列对第一初始子网络进行训练，得到的第一目标子网络可以确定目标索引，目标索引可以表征每一个离散编码与子区域特征之间的映射关系。由于子区域相比于整个样本图像更加细粒度，后续基于目标索引，可以逐个对例如样本掩码子区域等子区域的局部特征进行细粒度地图像重建，相比于利用全局特征直接重建目标样本图像，本公开实施例的深度学习模型训练方法得到的目标深度学习模型可以生成图像质量更高的图像，例如可以支持更高的图像像素等。

示例性地，样本图像序列的多个样本图像例如可以是经过预处理的。例如，多个样本图像可以经过预处理后为相同的尺寸大小(尺寸大小例如可以是512*512)。每一个子区域的尺寸大小也相同(16*16)，在特征维度方面，样本图像例如可以是3通道的特征维度，经过编码等处理后的特征维度可以是512。

图3示意性示出了根据本公开另一实施例的深度学习模型训练方法的示意图。

如图3所示，根据本公开实施例的深度学习模型训练方法，掩码样本图像还包括样本掩码区域之外的样本非掩码区域。

例如可以利用以下实施例实现根据目标索引、样本掩码子区域特征离散编码以及掩码样本图像特征，确定目标样本图像的具体示例：根据目标索引，确定样本掩码子区域特征离散编码对应的样本掩码子区域特征以及样本非掩码子区域对应的样本非掩码子区域特征。根据样本掩码子区域特征、样本非掩码区域特征，确定目标样本图像特征。对目标样本图像特征进行解码，得到目标样本图像。

目标索引表征子区域特征与离散编码之间的映射关系。

离散编码可以包括样本非掩码子区域特征离散编码，子区域特征可以包括样本非掩码子区域特征。

示例性地，例如可以根据掩码样本图像特征、参考样本图像特征以及音频样本特征，确定每一个样本非掩码子区域对应的样本非掩码子区域特征离散编码掩码。例如可以根据目标索引和样本非掩码子区域特征离散编码，确定样本非掩码子区域特征。

基于音频样本特征指导的唇形修改涉及唇部区域，唇形修改不涉及样本图像中除了唇部区域的其他部位区域。根据本公开实施例的深度学习模型训练方法，通过根据目标索引，确定的样本掩码子区域特征可以表征唇形特征，样本非掩码子区域特征可以表征目标对象的除了掩码区域之外的其他区域特征，也是以特征向量离散化的方式细粒度地确定相应的特征。通过根据样本掩码子区域特征、样本非掩码区域特征，确定的目标样本图像特征是可以重建图像的全局特征，由此，目标深度学习模型可以准确、高效地重建包括目标对象的完整图像，完整图像为目标样本图像。目标样本图像的图像质量更高。

图3的示例中，示意性示出了初始深度学习模型Mi包括第一初始子网络N1、第二初始子网络N2的示意。

图3的示例中，示意性示出了例如针对任意一个样本图像Ik，对该样本图像利用编码器E_Q进行向量离散化编码操作q，得到离散化的样本图像子区域特征zk。还可以利用编码器De_Q对离散化的样本图像子区域特征zk进行反离散化解码q-1，得到重建的样本图像Ik^Q。可以根据目标索引确定与每一个样本图像子区域特征相映射的离散编码。

图3的示例中，示意性示出了根据第一目标子网络，对样本图像Ik进行处理，得到包括被分割为多个样本图像子区域的样本图像Target Image Patches。可以在样本图像Target Image Patches上添加掩码，得到样本掩码图像Masked Image Patches(样本掩码区域即为样本掩码图像Masked Image Patches的黑色部分，样本掩码子区域为M)。

图3的示例中，示意性示出了根据第二初始子网络N2对掩码样本图像特征、参考样本图像特征fr以及音频样本特征f_k ^a进行处理，得到每一个样本掩码子区域M对应的样本掩码子区域特征离散编码的具体示例。参考样本图像特征fr由参考样本图像ReferenceImage经过编码器Er编码得到，音频样本特征f_k ^a由音频样本Spectrograms经过编码器Ea编码得到。

示例性地，如图3所示，例如还可以利用第二初始子网络对掩码样本图像特征、参考样本图像特征以及音频样本特征进行处理，得到每一个样本非掩码子区域对应的样本非掩码子区域特征离散编码。

在图3的示例中示意性示出了第二初始子网络N2为transformer网络结构的示例。

示例性地，第一初始子网络N1例如可以包括视觉生成网络VQ-GAN(VectorQuatization-Generative Adversarial Network)。

视觉生成网络VQ-GAN可以根据输入的RGB三通道图片x∈R^H×W×3，通过编码器Encoder编码后得到中间特征变量z∈R^h×w×n。相比于z直接送入解码器中进行图像重建，VQ-GAN可以将z进行进一步的离散化编码，具体做法为：预先生成一个离散数值的codebook Z，在z的每一个编码位置都去Z中去寻找其距离最近的code，生成具有相同维度的变量z_q∈R^h ^×w×n。这里z，z_q和Z中的单个编码特征的维度都为n。可以在已经数值离散化的z_q基础上使用解码器进行解码，得到重建的图像。

示例性地，根据本公开又一实施例的深度学习模型训练方法，针对任意一个样本图像，样本图像的序列与掩码样本图像的序列相同，掩码样本图像的序列与参考样本图像的序列不同。

根据本公开实施例的深度学习模型训练方法，由于掩码样本图像、参考样本图像以及样本图像包括相同的目标对象。在根据样本图像得到的掩码样本图像的序列与样本图像的序列相同、掩码样本图像的序列与参考样本图像的序列不同的情况下，掩码样本图像的目标对象与参考样本图像的目标对象的唇部区域姿态是不同的。根据本公开实施例的深度学习模型训练方法，可以不受当前样本图像的影响，从不同序列的参考样本图像中更好地学习到对应样本掩码区域的唇形区域相关特征。

示例性地，样本图像包括目标对象。根据本公开实施例的深度学习模型训练方法还可以包括：对多个样本图像，基于目标对象的关键特征点进行对齐操作，得到对齐后的多个样本图像。

关键特征点具有针对目标对象的更优的表征性。

以目标对象为人物形象为例，目标对象的关键特征点例如可以包括人物对象的眼睛区域的中心。

根据本公开实施例的深度学习模型训练方法，通过对多个样本图像，基于目标对象的关键特征点进行对齐操作，得到的对齐后的多个样本图像基于目标对象所在区域的重合率更高，便于准确地在样本图像的唇形区域添加掩码等。

如图3所示，根据本公开又一实施例的深度学习模型训练方法，初始深度学习模型Mi还包括第三初始子网络N3，第三初始子网络N3包括生成子网络和判别子网络。例如可以利用以下实施例实现对目标样本图像特征进行解码，得到目标样本图像的具体示例：利用生成子网络对目标样本图像特征进行解码，生成针对任意一个样本图像的中间样本图像。根据多个连续的样本图像对应的中间样本图像，得到连接样本图像。利用判别子网络对连接样本图像进行筛选，得到满足筛选阈值的目标样本图像。

在例如视频生成等场景下，期望相邻帧的图像之间衔接更加流畅。尤其是在虚拟人驱动等场景下，相邻帧的图像之间的细微的唇形变化期望是连续、衔接流畅的，以使得虚拟人驱动的唇形变化更加真实。

根据本公开实施例的深度学习模型，还通过第三初始子网络，生成中间样本图像，并对中间样本图像进行判别，以得到更优的目标样本图像。通过根据多个连续的样本图像对应的中间样本图像，得到连接样本图像。利用判别子网络对连接样本图像进行筛选，得到满足筛选阈值的目标样本图像。这使得第三初始子网络可以学习到连续的多个中间样本图像的特征，后续根据目标深度学习模型进行例如视频生成的情况下，生成的连续的视频帧之间的衔接更加流畅也更加真实。

示例性地，第三初始子网络N3例如可以包括生成-对抗网络。

示例性地，根据本公开又一实施例的深度学习模型训练方法，例如可以利用以下实施例实现根据样本图像序列对第一初始子网络进行训练，得到第一目标子网络的具体示例：将样本图像序列的每一个样本图像输入第一初始子网络，得到针对任意一个样本图像的多个样本图像子区域。根据第一初始子网络，对每一个样本图像子区域进行编码，得到样本图像子区域特征。根据第一初始子网络，确定与样本图像子区域特征映射的样本图像子区域特征离散编码，得到初始索引。根据初始索引和第一损失函数，确定第一反馈数值。根据第一反馈数值对第一初始子网络的网络参数进行调整，得到第一目标子网络。

初始索引表征子区域与特征离散编码之间的初始的映射关系。后续对于第一初始子网络的网络参数的调整，在得到第一目标子网络的情况下，可以根据第一目标子网络得到目标索引。

示例性地，根据本公开又一实施例的深度学习模型训练方法，例如可以利用以下实施例实现根据目标样本图像与目标损失函数，确定目标反馈数值的具体示例：根据针对第二初始子网络的第二损失函数以及样本掩码子区域特征离散编码，确定第二反馈数值。根据针对第三初始子网络的第三损失函数以及目标样本图像，确定第三反馈数值。根据第一反馈数值、第二反馈数值以及第三反馈数值，确定目标反馈数值，目标反馈数值用于调整第二初始子网络以及第三初始子网络的网络参数。

根据本公开实施例的深度学习模型训练方法，由于初始深度学习模型包括执行不同操作的第一初始子网络N1、第二初始子网络N2以及第三初始子网络N3。可以针对每一种子网络执行的操作，分别利用第一损失函数、第二损失函数以及第三损失函数分别确定对应第一初始子网络的第一反馈数值、对应第二初始子网络的第二反馈数值以及对应第三初始子网络的第三反馈数值。并根据第一反馈数值、第二反馈数值以及第三反馈数值，确定目标反馈数值。利用目标反馈数值调整第二初始子网络的网络参数、第三初始子网络的网络参数，可以确保目标深度学习模型的整体性能更优。

示例性地，第一损失函数例如可以包括平方损失、交叉熵损失等。

示例性地，第二损失函数和第三损失函数例如可以包括交叉熵损失函数。

本公开实施例提供了一种视频生成方法，下面结合图1的系统架构，参考图4来描述根据本公开示例性实施方式的视频生成方法。本公开实施例的视频生成方法例如可以由图1所示的终端103来执行。

图4示意性示出了根据本公开一实施例的视频生成方法的流程图。

如图4所示，本公开实施例的视频生成方法400例如可以包括操作S410～操作S440。

在操作S410，对掩码视频帧进行编码，得到掩码视频帧特征。

掩码视频帧是对初始视频帧添加掩码得到的，掩码视频帧包括覆盖目标对象的唇形区域的掩码区域。

在操作S420，根据掩码视频帧特征、参考视频帧特征以及音频特征，确定与每一个掩码子区域对应的掩码子区域特征离散编码。

示例性地，音频特征例如是对音频数据进行处理得到的频谱特征。

参考视频帧特征是对参考视频帧编码得到的。参考视频帧、初始视频帧以及掩码视频帧包括相同的目标对象。

示例性地，以目标对象为人物对象为例，掩码区域可以覆盖人物对象的唇形区域，掩码区域还可以覆盖人物对象的面部下半部分。可以理解的是，在掩码区域覆盖人物对象的面部下半部分的情况下，掩码区域同时也覆盖人物对象的唇形区域。

示例性地，以基于初始视频，生成匹配于音频信息的目标视频为例，初始视频例如包括初始视频帧序列，初始视频帧序列包括多个初始视频帧，针对当前的任意一个初始视频帧，在初始视频帧添加掩码后可以得到掩码视频帧。例如可以将当前的初始视频帧作为参考视频帧，或者，可以将初始视频帧序列中与当前的初始视频帧不同的任意一个初始视频帧作为参考视频帧。基于每一个初始视频帧，可以通过掩码视频帧、参考视频帧以及音频特征，确定目标视频帧，由此可以确定包括多个目标视频帧的目标视频。

示例性地，例如还可以基于一个基准图像，将该基准图像作为初始视频帧，生成匹配于音频信息的目标视频，例如可以对该基准图像添加掩码后得到掩码视频帧。还可以将该基准图像作为参考视频帧。

在操作S430，根据初始视频帧，确定目标索引。

目标索引用于表征子区域特征与离散编码之间的映射关系。离散编码可以包括掩码子区域特征离散编码，子区域特征可以包括掩码子区域特征。

在操作S440，根据目标索引、掩码子区域特征离散编码以及掩码视频帧特征，生成目标视频帧。

根据本公开实施例的视频生成方法，基于初始视频帧确定的掩码视频帧包括覆盖唇形区域的掩码区域，因此掩码视频帧的掩码区域遮挡了唇形区域，后续可以对唇形进行修改，可以利用修改后的唇形补充掩码视频帧的掩码区域，得到目标视频帧。音频特征可以指导唇形修改，由于参考视频帧与初始视频帧包括相同的目标对象，参考视频帧的唇形区域并未被遮挡，因此参考视频帧可以提供目标对象的唇形纹理等特征，后续得到的目标视频帧具有与音频特征匹配的唇形，还可以恢复例如唇形纹理等，这使得根据本公开实施例的视频生成方法得到的目标视频帧的唇形更加准确和真实。

根据本公开实施例的视频生成方法，通过根据掩码视频帧特征、参考视频帧特征以及音频特征，确定的与每一个掩码子区域对应的掩码子区域特征离散编码可以将特征向量离散化。通过根据初始视频帧，确定的目标索引可以表征子区域特征与离散编码之间的映射关系。根据本公开实施例的视频生成方法，由于子区域相比于整个初始视频帧更加细粒度，后续基于目标索引，可以逐个对例如掩码子区域等子区域的局部特征进行细粒度地图像重建，相比于利用全局特征直接重建目标视频帧的方式，本公开实施例的视频生成方法，生成的目标视频帧具有更高的图像质量，更高的图像质量例如体现在分辨率更高。

示例性地，根据本公开另一实施例的视频生成方法，掩码视频帧还包括掩码区域之外的非掩码区域。

示例性地，例如可以利用以下实施例实现根据目标索引、掩码子区域特征离散编码以及掩码视频帧特征，生成目标视频帧的具体示例：根据目标索引，确定掩码子区域特征离散编码对应的掩码子区域特征以及非掩码子区域对应的非掩码子区域特征。根据掩码子区域特征、非掩码区域特征，确定目标视频帧特征。对目标视频帧特征进行解码，得到目标视频帧。

目标索引用于表征子区域特征与离散编码之间的映射关系。离散编码还可以包括非掩码子区域特征离散编码，子区域特征可以包括非掩码子区域特征。

示例性地，例如可以根据掩码视频帧特征、参考视频帧特征以及音频特征，确定每一个非掩码子区域对应的非掩码子区域特征离散编码。例如可以根据目标索引和非掩码子区域特征离散编码，确定非掩码子区域特征。

掩码视频帧的掩码区域覆盖目标对象的唇形区域，例如掩码区域覆盖目标对象的面部下半部分，此时非掩码区域为目标对象的面部上半部分。

基于音频特征指导的唇形修改涉及唇部区域，唇形修改不涉及初始视频帧中目标对象的其他部位区域。根据本公开实施例的视频生成方法，通过根据目标索引，确定的掩码子区域特征可以表征唇形特征，非掩码子区域特征可以表征目标对象的除了掩码区域之外的其余区域特征。通过根据掩码子区域特征、非掩码区域特征，确定的目标视频帧特征是可以重建图像的全局特征，根据目标视频帧特征可以重建质量更高的目标视频帧，目标视频帧包括的目标对象也更加真实。

根据本公开实施例的视频生成方法，对图像进行离散化处理，将图像空间的唇形修改问题转化到了离散空间。基于图像离散化，通过确定子区域特征离散编码(由目标深度学习模型预测子区域特征离散编码)以及子区域特征与离散编码之间的映射关系，得到全局特征，再通过解码器对全局特征进行处理，可以恢复图像，实现图像质量更高的唇形修改。

示例性地，根据本公开实施例的视频生成方法例如可以由目标深度学习模型执行。目标深度学习模型是根据上述实施例的深度学习模型训练方法得到的，关于根据上述实施例的深度学习模型训练方法训练得到目标深度学习模型的相关内容已在上述实施例说明，在此不再赘述。

示例性地，例如可以由上述目标深度学习模型执行以下操作：根据掩码视频帧特征、参考视频帧特征以及音频特征，确定与每一个掩码子区域对应的掩码子区域特征离散编码，其中，参考视频帧特征是对参考视频帧编码得到的，参考视频帧、初始视频帧以及掩码视频帧包括相同的目标对象；根据初始视频帧，确定目标索引，目标索引表征子区域特征与离散编码之间的映射关系；以及根据目标索引、掩码子区域特征离散编码以及掩码视频帧特征，生成目标视频帧。

图5示意性示出了根据本公开一实施例的视频生成装置的框图。

如图5所示，本公开实施例的视频生成装置500例如包括掩码视频帧特征确定模块510、离散编码第一确定模块520、索引第一确定模块530以及目标视频帧生成模块540。

掩码视频帧特征确定模块5l0，用于对掩码视频帧进行编码，得到掩码视频帧特征，其中，掩码视频帧是对初始视频帧添加掩码得到的，掩码视频帧包括覆盖目标对象的唇形区域的掩码区域。

离散编码第一确定模块520，用于根据掩码视频帧特征、参考视频帧特征以及音频特征，确定与每一个掩码子区域对应的掩码子区域特征离散编码，其中，参考视频帧特征是对参考视频帧编码得到的，参考视频帧、初始视频帧以及掩码视频帧包括相同的目标对象。

索引第一确定模块530，用于根据初始视频帧，确定目标索引，目标索引表征子区域特征与离散编码之间的映射关系。

目标视频帧生成模块540，用于根据目标索引、掩码子区域特征离散编码以及掩码视频帧特征，生成目标视频帧。

示例性地，掩码视频帧还包括掩码区域之外的非掩码区域；目标视频帧生成模块包括：子区域特征第一确定子模块，用于根据目标索引，确定掩码子区域特征离散编码对应的掩码子区域特征以及非掩码子区域对应的非掩码子区域特征；目标视频帧特征确定子模块，用于根据掩码子区域特征、非掩码区域特征，确定目标视频帧特征；目标视频帧生成子模块，用于对目标视频帧特征进行解码，得到目标视频帧。

图6示意性示出了根据本公开一实施例的深度学习模型训练装置的框图。

如图6所示，本公开实施例的深度学习模型训练装置600例如包括模型获取模块610、第一目标子网络确定模块620、离散编码第二确定模块630、目标样本图像确定模块640、目标反馈数值确定模块650以及目标深度学习模型确定模块660。

模型获取模块610，用于获取样本图像序列和初始深度学习模型，其中，样本图像序列包括多个样本图像，初始深度学习模型包括第一初始子网络和第二初始子网络。

第一目标子网络确定模块620，用于根据样本图像序列对第一初始子网络进行训练，得到第一目标子网络，其中，第一目标子网络用于确定目标索引，目标索引表征子区域特征与离散编码之间的映射关系。

离散编码第二确定模块630，用于利用第二初始子网络对掩码样本图像特征、参考样本图像特征以及音频样本特征进行处理，得到每一个样本掩码子区域对应的样本掩码子区域特征离散编码，其中，掩码样本图像特征、参考样本图像特征分别由包括相同的目标对象的掩码样本图像、参考样本图像得到，掩码样本图像是对样本图像添加掩码得到的，掩码样本图像包括覆盖目标对象的唇形区域的样本掩码区域。

目标样本图像确定模块640，用于根据目标索引、样本掩码子区域特征离散编码以及掩码样本图像特征，确定目标样本图像。

目标反馈数值确定模块650，用于根据目标样本图像与目标损失函数，确定目标反馈数值。

目标深度学习模型确定模块660，用于根据目标反馈数值对初始深度学习模型的模型参数进行调整，得到目标深度学习模型。

示例性地，掩码样本图像还包括样本掩码区域之外的样本非掩码区域；目标样本图像确定包括：索引第二确定子模块，用于根据目标索引，确定样本掩码子区域特征离散编码对应的样本掩码子区域特征以及样本非掩码子区域对应的样本非掩码子区域特征；目标样本图像特征确定子模块，用于根据样本掩码子区域特征、样本非掩码区域特征，确定目标样本图像特征；目标样本图像确定子模块，用于对目标样本图像特征进行解码，得到目标样本图像。

示例性地，初始深度学习模型还包括第三初始子网络，第三初始子网络包括生成子网络和判别子网络；目标样本图像确定子模块包括：中间样本图像确定单元，用于利用生成子网络对目标样本图像特征进行解码，生成针对任意一个样本图像的中间样本图像；连接样本图像确定单元，用于根据多个连续的样本图像对应的中间样本图像，得到连接样本图像；目标样本图像确定单元，用于利用判别子网络对连接样本图像进行筛选，得到满足筛选阈值的目标样本图像。

示例性地，第一目标子网络确定模块包括：样本图像子区域确定子模块，用于将样本图像序列的每一个样本图像输入第一初始子网络，得到针对任意一个样本图像的多个样本图像子区域；样本图像子区域特征确定子模块，用于根据第一初始子网络，对每一个样本图像子区域进行编码，得到样本图像子区域特征；初始索引确定子模块，用于根据第一初始子网络，确定与样本图像子区域特征映射的样本图像子区域特征离散编码，得到初始索引；第一反馈数值确定子模块，用于根据初始索引和第一损失函数，确定第一反馈数值；第一目标子网络确定子模块，用于根据第一反馈数值对第一初始子网络的网络参数进行调整，得到第一目标子网络。

示例性地，目标反馈数值确定模块包括：第二反馈数值确定子模块，用于根据针对第二初始子网络的第二损失函数以及样本掩码子区域特征离散编码，确定第二反馈数值；第三反馈数值确定子模块，用于根据针对第三初始子网络的第三损失函数以及目标样本图像，确定第三反馈数值；目标反馈数值确定子模块，用于根据第一反馈数值、第二反馈数值以及第三反馈数值，确定目标反馈数值，目标反馈数值用于调整第二初始子网络以及第三初始子网络的网络参数。

示例性地，样本图像包括目标对象；装置还包括：对齐模块，用于对多个样本图像，基于目标对象的关键特征点进行对齐操作，得到对齐后的多个样本图像。

示例性地，针对任意一个样本图像，样本图像的序列与掩码样本图像的序列相同，掩码样本图像的序列与参考样本图像的序列不同。

应该理解，本公开装置部分的实施例与本公开方法部分的实施例对应相同或类似，所解决的技术问题和所达到的技术效果也对应相同或类似，本公开在此不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如视频生成方法、深度学习模型训练方法。例如，在一些实施例中，视频生成方法、深度学习模型训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的视频生成方法、深度学习模型训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行视频生成方法、深度学习模型训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种深度学习模型训练方法，包括：

获取样本图像序列和初始深度学习模型，其中，所述样本图像序列包括多个样本图像，所述初始深度学习模型包括第一初始子网络和第二初始子网络；

将所述样本图像序列的每一个所述样本图像输入所述第一初始子网络，得到针对任意一个所述样本图像的多个样本图像子区域；

根据所述第一初始子网络，对每一个所述样本图像子区域进行编码，得到样本图像子区域特征；

根据所述第一初始子网络，确定与所述样本图像子区域特征映射的样本图像子区域特征离散编码，得到初始索引；

根据所述初始索引和第一损失函数，确定第一反馈数值；以及

根据所述第一反馈数值对所述第一初始子网络的网络参数进行调整，得到第一目标子网络，其中，所述第一目标子网络用于确定目标索引，所述目标索引表征子区域特征与离散编码之间的映射关系；

利用所述第二初始子网络对掩码样本图像特征、参考样本图像特征以及音频样本特征进行处理，得到每一个样本掩码子区域对应的样本掩码子区域特征离散编码，其中，所述掩码样本图像特征、所述参考样本图像特征分别由包括相同的目标对象的掩码样本图像、参考样本图像得到，所述掩码样本图像是对所述样本图像添加掩码得到的，所述掩码样本图像包括覆盖所述目标对象的唇形区域的样本掩码区域；

根据目标索引、所述样本掩码子区域特征离散编码以及所述掩码样本图像特征，确定目标样本图像；

根据所述目标样本图像与目标损失函数，确定目标反馈数值；以及

根据所述目标反馈数值对所述初始深度学习模型的模型参数进行调整，得到目标深度学习模型。

2.根据权利要求1所述的方法，其中，所述掩码样本图像还包括所述样本掩码区域之外的样本非掩码区域；所述根据目标索引、所述样本掩码子区域特征离散编码以及所述掩码样本图像特征，确定目标样本图像包括：

根据所述目标索引，确定所述样本掩码子区域特征离散编码对应的样本掩码子区域特征以及样本非掩码子区域对应的样本非掩码子区域特征；

根据所述样本掩码子区域特征、样本非掩码区域特征，确定目标样本图像特征；以及

对所述目标样本图像特征进行解码，得到所述目标样本图像。

3.根据权利要求2所述的方法，其中，所述初始深度学习模型还包括第三初始子网络，所述第三初始子网络包括生成子网络和判别子网络；所述对所述目标样本图像特征进行解码，得到所述目标样本图像包括：

利用所述生成子网络对所述目标样本图像特征进行解码，生成针对任意一个所述样本图像的中间样本图像；

根据多个连续的所述样本图像对应的所述中间样本图像，得到连接样本图像；以及

利用所述判别子网络对所述连接样本图像进行筛选，得到满足筛选阈值的所述目标样本图像。

4.根据权利要求3所述的方法，其中，所述根据所述目标样本图像与目标损失函数，确定目标反馈数值包括：

根据针对所述第二初始子网络的第二损失函数以及所述样本掩码子区域特征离散编码，确定第二反馈数值；

根据针对所述第三初始子网络的第三损失函数以及所述目标样本图像，确定第三反馈数值；以及

根据所述第一反馈数值、第二反馈数值以及所述第三反馈数值，确定所述目标反馈数值，所述目标反馈数值用于调整所述第二初始子网络以及所述第三初始子网络的网络参数。

5.根据权利要求1-4中任一项所述的方法，其中，所述样本图像包括目标对象；所述方法还包括：

对多个所述样本图像，基于所述目标对象的关键特征点进行对齐操作，得到对齐后的所述多个样本图像。

6.根据权利要求1-4中任一项所述的方法，其中，针对任意一个所述样本图像，所述样本图像的序列与所述掩码样本图像的序列相同，所述掩码样本图像的序列与所述参考样本图像的序列不同。

7.一种视频生成方法，包括：

对掩码视频帧进行编码，得到掩码视频帧特征，其中，所述掩码视频帧是对初始视频帧添加掩码得到的，所述掩码视频帧包括覆盖目标对象的唇形区域的掩码区域；

利用目标深度学习模型执行以下操作：

根据所述掩码视频帧特征、参考视频帧特征以及音频特征，确定与每一个掩码子区域对应的掩码子区域特征离散编码，其中，所述参考视频帧特征是对参考视频帧编码得到的，所述参考视频帧、所述初始视频帧以及所述掩码视频帧包括相同的所述目标对象；

根据所述初始视频帧，确定目标索引，所述目标索引表征子区域特征与离散编码之间的映射关系；以及

根据所述目标索引、所述掩码子区域特征离散编码以及所述掩码视频帧特征，生成目标视频帧，

其中，所述目标深度学习模型是利用如权利要求1-6任一项所述的方法训练的。

8.根据权利要求7所述的方法，其中，所述掩码视频帧还包括所述掩码区域之外的非掩码区域；所述根据目标索引、所述掩码子区域特征离散编码以及所述掩码视频帧特征，生成目标视频帧包括：

根据所述目标索引，确定所述掩码子区域特征离散编码对应的掩码子区域特征以及非掩码子区域对应的非掩码子区域特征；

根据所述掩码子区域特征、非掩码区域特征，确定目标视频帧特征；以及

对所述目标视频帧特征进行解码，得到所述目标视频帧。

9.一种深度学习模型训练装置，包括：

模型获取模块，用于获取样本图像序列和初始深度学习模型，其中，所述样本图像序列包括多个样本图像，所述初始深度学习模型包括第一初始子网络和第二初始子网络；

样本图像子区域确定子模块，用于将所述样本图像序列的每一个所述样本图像输入所述第一初始子网络，得到针对任意一个所述样本图像的多个样本图像子区域；

样本图像子区域特征确定子模块，用于根据所述第一初始子网络，对每一个所述样本图像子区域进行编码，得到样本图像子区域特征；

初始索引确定子模块，用于根据所述第一初始子网络，确定与所述样本图像子区域特征映射的样本图像子区域特征离散编码，得到初始索引；

第一反馈数值确定子模块，用于根据所述初始索引和第一损失函数，确定第一反馈数值；以及

第一目标子网络确定子模块，用于根据所述第一反馈数值对所述第一初始子网络的网络参数进行调整，得到第一目标子网络，其中，所述第一目标子网络用于确定目标索引，所述目标索引表征子区域特征与离散编码之间的映射关系；

离散编码第二确定模块，用于利用所述第二初始子网络对掩码样本图像特征、参考样本图像特征以及音频样本特征进行处理，得到每一个样本掩码子区域对应的样本掩码子区域特征离散编码，其中，所述掩码样本图像特征、所述参考样本图像特征分别由包括相同的目标对象的掩码样本图像、参考样本图像得到，所述掩码样本图像是对所述样本图像添加掩码得到的，所述掩码样本图像包括覆盖目标对象的唇形区域的样本掩码区域；

目标样本图像确定模块，用于根据目标索引、所述样本掩码子区域特征离散编码以及所述掩码样本图像特征，确定目标样本图像；

目标反馈数值确定模块，用于根据所述目标样本图像与目标损失函数，确定目标反馈数值；以及

目标深度学习模型确定模块，用于根据所述目标反馈数值对所述初始深度学习模型的模型参数进行调整，得到目标深度学习模型。

10.根据权利要求9所述的装置，其中，所述掩码样本图像还包括所述样本掩码区域之外的样本非掩码区域；所述目标样本图像确定包括：

索引第二确定子模块，用于根据所述目标索引，确定所述样本掩码子区域特征离散编码对应的样本掩码子区域特征以及样本非掩码子区域对应的样本非掩码子区域特征；

目标样本图像特征确定子模块，用于根据所述样本掩码子区域特征、样本非掩码区域特征，确定目标样本图像特征；以及

目标样本图像确定子模块，用于对所述目标样本图像特征进行解码，得到所述目标样本图像。

11.根据权利要求10所述的装置，其中，所述初始深度学习模型还包括第三初始子网络，所述第三初始子网络包括生成子网络和判别子网络；所述目标样本图像确定子模块包括：

中间样本图像确定单元，用于利用所述生成子网络对所述目标样本图像特征进行解码，生成针对任意一个所述样本图像的中间样本图像；

连接样本图像确定单元，用于根据多个连续的所述样本图像对应的所述中间样本图像，得到连接样本图像；以及

目标样本图像确定单元，用于利用所述判别子网络对所述连接样本图像进行筛选，得到满足筛选阈值的所述目标样本图像。

12.根据权利要求11所述的装置，其中，所述目标反馈数值确定模块包括：

第二反馈数值确定子模块，用于根据针对所述第二初始子网络的第二损失函数以及所述样本掩码子区域特征离散编码，确定第二反馈数值；

第三反馈数值确定子模块，用于根据针对所述第三初始子网络的第三损失函数以及所述目标样本图像，确定第三反馈数值；以及

目标反馈数值确定子模块，用于根据所述第一反馈数值、第二反馈数值以及所述第三反馈数值，确定所述目标反馈数值，所述目标反馈数值用于调整所述第二初始子网络以及所述第三初始子网络的网络参数。

13.根据权利要求9-12中任一项所述的装置，其中，所述样本图像包括目标对象；所述装置还包括：

对齐模块，用于对多个所述样本图像，基于所述目标对象的关键特征点进行对齐操作，得到对齐后的所述多个样本图像。

14.根据权利要求9-12中任一项所述的装置，其中，针对任意一个所述样本图像，所述样本图像的序列与所述掩码样本图像的序列相同，所述掩码样本图像的序列与所述参考样本图像的序列不同。

15.一种视频生成装置，包括：

掩码视频帧特征确定模块，用于对掩码视频帧进行编码，得到掩码视频帧特征，其中，所述掩码视频帧是对初始视频帧添加掩码得到的，所述掩码视频帧包括覆盖目标对象的唇形区域的掩码区域；

离散编码第一确定模块，用于根据所述掩码视频帧特征、参考视频帧特征以及音频特征，确定与每一个掩码子区域对应的掩码子区域特征离散编码，其中，所述参考视频帧特征是对参考视频帧编码得到的，所述参考视频帧、所述初始视频帧以及所述掩码视频帧包括相同的所述目标对象；

索引第一确定模块，用于根据所述初始视频帧，确定目标索引，所述目标索引表征子区域特征与离散编码之间的映射关系；以及

目标视频帧生成模块，用于根据所述目标索引、所述掩码子区域特征离散编码以及所述掩码视频帧特征，生成目标视频帧，

其中，所述离散编码第一确定模块、所述索引第一确定模块和所述目标视频帧生成模块用于利用目标深度学习模型执行相应操作，所述目标深度学习模型是利用如权利要求9-14任一项所述的装置训练的。

16.根据权利要求15所述的装置，其中，所述掩码视频帧还包括所述掩码区域之外的非掩码区域；所述目标视频帧生成模块包括：

子区域特征第一确定子模块，用于根据所述目标索引，确定所述掩码子区域特征离散编码对应的掩码子区域特征以及非掩码子区域对应的非掩码子区域特征；

目标视频帧特征确定子模块，用于根据所述掩码子区域特征、非掩码区域特征，确定目标视频帧特征；以及

目标视频帧生成子模块，用于对所述目标视频帧特征进行解码，得到所述目标视频帧。

17. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。