CN114332671A

CN114332671A - 基于视频数据的处理方法、装置、设备及介质

Info

Publication number: CN114332671A
Application number: CN202111313785.4A
Authority: CN
Inventors: 王鑫宇; 常向月; 刘致远; 刘云峰
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2021-11-08
Filing date: 2021-11-08
Publication date: 2022-04-12
Anticipated expiration: 2041-11-08
Also published as: CN114332671B

Abstract

本申请涉及一种基于视频数据的处理方法、装置、设备及介质，涉及计算机技术领域，该基于视频数据的处理方法包括：依据获取到的视频数据确定待处理嘴区域图像数据；针对所述待处理嘴区域图像数据，获取目标非嘴区域图像数据和目标参考图像数据；依据所述待处理嘴区域图像数据、所述目标非嘴区域图像数据以及所述目标参考图像数据，通过预先训练的形象生成模型，生成所述待处理嘴区域图像数据对应的目标形象图像数据。本申请在满足图像实时生效成效果的前提下提升嘴型生成效果。

Description

基于视频数据的处理方法、装置、设备及介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种基于视频数据的处理方法、装置、设备及介质。

背景技术

数字人，是一种利用信息科学的方法对人体在不同水平的形态和功能进行虚拟仿真。随着计算机技术的快速发展，数字人的生成技术越来越成熟。

在实际处理中，如果数字人生成技术想要应用在商业，实现实时交互，则数字人生成方案至少需要满足两点：生成效果好和推理速度快；其中，数字人的生成效果好是必要的前提，推理速度快是商业的需要。目前，数字人生成技术主要是将真实图片或真实图片的素描图输入到生成器模型中，以通过生成器模型生成视频、音频对应的数字人图片，以便后续可以基于该生成器模型生成的数字人图片生成数字人视频并输出。

发明内容

有鉴于此，本申请提供了一种基于视频数据的处理方法、装置、设备及介质，以在保证生成效果和视频帧之间稳定性的前提下，满足实时推理要求，以及提升嘴型生成效果。

第一方面，本申请实施例提供了一种基于视频数据的处理方法，包括：依据获取到的视频数据确定待处理嘴区域图像数据；针对所述待处理嘴区域图像数据，获取目标非嘴区域图像数据和目标参考图像数据；依据所述待处理嘴区域图像数据、所述目标非嘴区域图像数据以及所述目标参考图像数据，通过预先训练的形象生成模型，生成所述待处理嘴区域图像数据对应的目标形象图像数据。

可选的，所述依据获取到的视频数据确定待处理嘴区域图像数据，包括：从所述视频数据中提取各待处理帧图像数据；针对每一待处理帧图像数据，确定所述待处理帧图像数据对应的轮廓线图数据，并将所述轮廓线图数据中的嘴区域图像数据提取为所述待处理嘴区域图像数据。

可选的，所述所述依据获取到的视频数据确定待处理嘴区域图像数据，包括：从所述视频数据中提取各待处理帧音频数据；针对每一待处理帧音频数据，通过预先训练的图像生成模型，生成所述待处理帧音频数据对应的嘴区域图像数据，并将所述待处理帧音频数据对应的嘴区域图像数据作为所述待处理嘴区域图像数据。

可选的，所述针对每一待处理帧音频数据，通过预先训练的图像生成模型，生成所述待处理帧音频数据对应的嘴区域图像数据，包括：针对每一待处理帧音频数据，获取目标3D信息，并提取所述待处理帧音频数据的音频特征信息；将所述目标3D信息和所述音频特征信息输入所述图像生成模型，并将所述图像生成模型输出的嘴区域图像数据，确定为所述待处理帧音频数据对应的嘴区域图像数据。

可选的，针对所述待处理嘴区域图像数据，获取目标非嘴区域图像数据，包括：针对所述待处理嘴区域图像数据，获取目标样本图像数据；从所述目标样本图像数据中提取目标非嘴区域图像数据。

可选的，针对所述待处理嘴区域图像数据，获取目标参考图像数据，包括：若待处理嘴区域图像数据对应的视频帧为视频首帧，则从预设样本形象图像数据集中提取目标样本图像数据，并将提取到的目标样本图像数据确定为所述目标参考图像数据；若所述待处理嘴区域图像数据对应的视频帧为非视频首帧，则获取参考帧的目标形象图像数据，并确定为所述目标参考图像数据，所述参考帧为所述视频帧的前一帧。

可选的，所述依据所述待处理嘴区域图像数据、所述目标非嘴区域图像数据以及所述目标参考图像数据，通过预先训练的形象生成模型，生成所述待处理嘴区域图像数据对应的目标形象图像数据，包括：针对每一视频帧对应的待处理嘴区域图像数据，结合所述目标非嘴区域图像数和所述目标参考图像数据进行图像合成，得到每一视频帧对应的目标合成图像数据；将所述目标合成图像数据输入所述形象生成模型中的生成器，得到所述生成器输出的所述目标形象图像数据。

可选的，上述基于视频数据的处理方法，还包括：从预设的训练数据集中获取待训练视频图像数据，所述待训练视频图像数据包含第一分辨率的视频图像数据和第二分辨率的视频图像数据；依据所述第一分辨率的视频图像数据进行模型训练，得到第一分辨率图像模型；基于所述第一分辨率图像模型的权重参数信息，采用所述第一分辨率的视频图像数据和所述第二分辨率的视频图像数据进行模型训练，得到所述形象生成模型。

可选的，所述依据所述第一分辨率的视频图像数据进行模型训练，包括：

基于所述第一分辨率的视频图像数据，确定待训练嘴区域图像数据和待训练非嘴区域图像数据，所述第一分辨率的视频图像数据包含第一视频图像数据和第二视频图像数据，所述待训练嘴区域图像数据包含所述第一视频图像数据对应的第一嘴区域图像数据和所述第二视频图像数据对应的第二嘴区域图像数据，所述待训练非嘴区域图像数据包含所述第一视频图像数据对应的第一非嘴区域图像数据和所述第二视频图像数据对应的第二非嘴区域图像数据；

依据所述第一嘴区域图像数据、所述第一非嘴区域图像数据以及所述第一视频图像数据对应的参考形象图像数据，生成第一合成图像数据，并通过预先构建的生成器生成所述第一合成图像数据对应的第一虚拟形象图数据；

依据所述第一虚拟形象图数据、第二嘴区域图像数据以及所述第二非嘴区域图像数据，生成第二合成图像数据，并通过所述生成器生成所述第二合成图像数据对应的第二虚拟形象图数据；

依据所述第一嘴区域图像数据、第二嘴区域图像数据、所述第一合成图像数据、所述第二合成图像数据、所述第一视频图像数据、所述第二视频图像数据、所述第一虚拟形象图数据以及所述第二虚拟形象图数据，确定第一模型损失值；

若所述第一模型损失值不符合预设的第一收敛条件，则基于所述第一模型损失值更新所述生成器的参数，并基于更新参数后的生成器进行迭代训练，直到所述第一模型损失值符合预设的第一收敛条件。

可选的，所述依据所述第一嘴区域图像数据、所述第一非嘴区域图像数据以及所述第一视频图像数据对应的参考形象图像数据，生成第一合成图像数据之前，还包括：

针对所述第一视频图像数据，从所述第一分辨率的视频图像数据中选取所述参考形象图像数据，所述参考形象图像数据为所述视频图像数据中任一视频帧图像数据，且所述参考形象图像数据与所述第一视频图像数据不同。

可选的，所述依据所述第一嘴区域图像数据、所述第二嘴区域图像数据、所述第一合成图像数据、所述第二合成图像数据、所述第一视频图像数据、所述第二视频图像数据、所述第一虚拟形象图数据以及所述第二虚拟形象图数据，确定第一模型损失值，包括：

依据所述第一嘴区域图像数据、所述第二嘴区域图像数据、所述第一虚拟形象图数据中的嘴区域数据以及所述第二虚拟形象图数据中的嘴区域数据，确定嘴区域生成器损失值；

将所述第一合成图像数据、所述第二合成图像数据、所述第一视频图像数据以及所述第二视频图像数据输入到所述第一模型的判别器中，得到所述判别器输出的第一损失信息；

将所述第一合成图像数据、所述第二合成图像数据、所述第一虚拟形象图数据以及所述第二虚拟形象图数据输入到所述判别器中，得到所述判别器输出的第二损失信息；

基于所述第一损失信息和所述第二损失信息，确定目标判别器损失值和目标生成器损失值；

依据所述目标判别器损失值、目标生成器损失值、以及所述嘴区域生成器损失值，确定所述第一模型损失值。

可选的，所述第一分辨率图像模型的权重参数信息包含判别器的权重参数信息和中间层特征权重信息，所述基于所述第一分辨率图像模型的权重参数信息，采用所述第一分辨率的视频图像数据和所述第二分辨率的视频图像数据进行模型训练，包括：

固定所述判别器的权重参数信息，并通过预先构建的生成器，分别生成所述第一分辨率的视频图像数据对应的第一分辨率形象图数据和所述第二分辨率的视频图像数据对应的第二分辨率形象图数据；

基于所述中间层特征权重信息和第一中间层权重信息，确定第一分辨率中间层损失信息，并依据所述第一分辨率中间层损失信息和第一分辨率对应的形象图损失信息确定第一分辨率损失值，其中，所述第一中间层权重信息为所述生成器生成所述第一分辨率形象图数据时的中间层权重信息，所述第一分辨率对应的形象图损失信息为所述第一分辨率的视频图像数据与所述第一分辨率形象图数据之间的损失信息；

基于所述第一分辨率，分别对所述第二分辨率的视频图像数据和所述第二分辨率形象图数据进行调整，得到调整视频图像数据和调整形象图数据，并将所述调整视频图像数据与所述调整形象图数据之间的损失信息确定为第二分辨率对应的形象图损失信息；

基于所述中间层特征权重信息和第二中间层权重信息，确定第二分辨率中间层损失信息，并依据所述第二分辨率中间层损失信息和所述第二分辨率对应的形象图损失信息确定第二分辨率损失值，其中，所述第二中间层权重信息为所述生成器生成所述第二分辨率形象图数据时的中间层权重信息，所述第二分辨率对应的形象图损失信息为所述第二分辨率的视频图像数据与所述第一分辨率形象图数据之间的损失信息；

若所述第一分辨率损失值和/或所述第二分辨率损失值不符合预设的第二收敛条件，则基于所述第一分辨率损失值和所述第二分辨率损失值更新所述生成器的参数，并基于更新参数后的生成器进行迭代训练，直到所述第一分辨率损失值和所述第二分辨率损失值均符合所述第二收敛条件。

第二方面，本申请实施例提供了一种基于视频数据的处理装置，包括：

嘴区域图像确定模块，用于依据获取到的视频数据确定待处理嘴区域图像数据；

图像获取模块，用于针对所述待处理嘴区域图像数据，获取目标非嘴区域图像数据和目标参考图像数据；

形象生成模块，用于依据所述待处理嘴区域图像数据、所述目标非嘴区域图像数据以及所述待处理嘴区域图像数据对应的参考图像数据，通过预先训练的形象生成模型，生成所述待处理嘴区域图像数据对应的目标形象图像数据。

第三方面，本申请实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现如第一方面任一项所述的基于视频数据的处理方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项所述的基于视频数据的处理方法的步骤。

本申请实施例通过依据获取到的视频数据确定待处理嘴区域图像数据，并针对待处理图像数据获取目标非嘴区域图像数据和目标参考数据数据，以结合目标非嘴区域图像数据和目标参考图像数据，随后通过预先训练好的形象生成模型，生成待处理嘴区域图像数据对应的目标形象图像数据，从而使得单一模型可以支持不同形象图像的生成，节约模型部署成本，并可在满足图像实时生效成效果的前提下提升嘴型生成效果，以便后续可以利用该待处理嘴区域图像数据对应的目标形象图像数据生成目标形象视频，进而可以在保证生成效果和视频帧之间稳定性的前提下，满足实时推理要求，以及提升嘴型生成效果。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种基于视频数据的处理方法的步骤流程图；

图2为本申请一个可选实施例提供的一种基于视频数据的处理方法的步骤流程图；

图3为本申请可选实施例提供的一种基于视频数据的处理方法的步骤流程图；

图4为本申请实施例提供的一种基于视频数据的处理装置的结构框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

参照图1，示出了本申请实施例提供的一种基于视频数据的处理方法的步骤流程图。具体的，本申请提供的基于视频数据的处理方法可以适用于视频数据的处理情况，如适用于基于视频数据的虚拟形象图像、视频生成情况；其中，虚拟形象图像可以是视频中的数字人图像，具体可以用于表示数字人视频中的数字人。如图1所示，本申请实施例中的基于视频数据的处理方法具体可以包括如下步骤：

步骤110，依据获取到的视频数据确定待处理嘴区域图像数据。

在实际处理中，视频通常包含一个或多个视频帧，且每个视频帧可以包含图像数据、音频数据以及字幕文本数据；其中，图像数据可以用于显示视频图像；音频数据可以用于播放视频中的音频；字幕文本信息可以用于在视频图像上显示相应的字幕文本，如可以在视频图像上显示音频对应的台词文本等。本申请实施例在获取到视频数据后，可以根据该视频数据确定出当前所需要处理的待处理嘴区域图像数据。其中，视频数据可以是指视频中所包含的各种数据，如可以是视频中所包含的图像数据、音频数据、字幕文本数据等，本申请实施例对此不作具体限制；待处理嘴区域图像数据可以表示待处理的嘴区域图像。

例如，在获取到视频数据后，可以从该视频数据中提取出一帧或多帧图像数据，以作为待处理图像数据，随后可从每一帧待处理图像数据或该待处理图像数据的轮廓线图中提取出待处理嘴区域数据。因此，在一个可选实施方式中，本申请实施例依据获取到的视频数据确定待处理嘴区域图像数据，具体可以包括：从所述视频数据中提取各待处理帧图像数据；针对每一待处理帧图像数据，确定所述待处理帧图像数据对应的轮廓线图数据，并将所述轮廓线图数据中的嘴区域图像数据提取为所述待处理嘴区域图像数据。其中，待处理帧图像数据对应的轮廓线图数据可以用于表示待处理帧图像数据的轮廓线所形成的轮廓线图；轮廓线图数据中的嘴区域图像数据可以用于确定轮廓线图中的嘴区域图像，具体可以包含轮廓线图中的嘴区域所对应的数据。

具体而言，本申请实施例在获取到视频数据后，可以从该视频数据中提取一个或多个视频帧的图像数据，并可将提取到的视频帧的图像数据作为待处理帧图像数据，从而可以得到从视频数据中提取的各个待处理帧图像数据；随后，可针对每一个待处理帧图像数据进行关键点检测，以基于检测到的人脸关键点，获得该待处理帧图像数据的轮廓线，进而可以基于该轮廓线画出待处理帧图像数据的轮廓线图，并可将该轮廓线线图中的嘴区域数据提取出来，以作为待处理嘴区域图像数据。

当然，本发明实施例除了可以依据视频数据中的图像数据确定出待处理嘴区域图像数据之外，还可以采用其他类型的视频数据确定出待处理嘴区域图像数据，如可以根据视频数据中的音频数据和/或文本数据确定出待处理嘴区域图像数据，本申请实施例对此不作具体限制。在另一可选实施方式中，本申请实施例依据获取到的视频数据确定待处理嘴区域图像数据，具体可以包括：从所述视频数据中提取各待处理帧音频数据；针对每一待处理帧音频数据，通过预先训练的图像生成模型，生成所述待处理帧音频数据对应的嘴区域图像数据，并将所述待处理帧音频数据对应的嘴区域图像数据作为所述待处理嘴区域图像数据。具体的，本申请实施例在获取到视频数据后，可以从该视频数据中提取一个或多个视频帧的音频数据，并可将提取到的视频帧的音频数据作为待处理帧音频数据，从而可以得到从视频数据中提取的各个待处理帧音频数据；随后，可将每一个待处理帧音频数据输入到预先训练好的图像生成模型中，以通过预先训练好的图像生成模型推理生成每一个待处理帧音频数据对应的嘴区域图像数据，随后可将每一个待处理帧音频数据对应的嘴区域图像数据作为待处理嘴区域图像数据，以便后续可以依据每一个待处理帧对应的待处理嘴区域图像数据生成最终的目标形象图像数据，提升最终生成的目标形象图像的嘴型生成效果。

在实际处理中，本申请实施例可以借助人脸3D信息，推理生成待处理帧音频数据对应的嘴型区域图像数据。其中，3D信息可以包含代表目标形象形状和纹理的主要成分信息，如在3D信息为人脸3D信息的情况下，该3D信息可以包含代表人脸形状和纹理的主成分信息，具体可以包括有：表情参数(expression)，形状参数(face_id/shape),仿射参数(projection)，人脸纹理参数(texture)、姿态(pose)参数信息等，本实施例对此不作限制。进一步而言，本申请实施例针对每一待处理帧音频数据，通过预先训练的图像生成模型，生成所述待处理帧音频数据对应的嘴区域图像数据，具体可以包括：针对每一待处理帧音频数据，获取目标3D信息，并提取所述待处理帧音频数据的音频特征信息；将所述目标3D信息和所述音频特征信息输入所述图像生成模型，并将所述图像生成模型输出的嘴区域图像数据，确定为所述待处理帧音频数据对应的嘴区域图像数据。具体的，在从视频数据提取出的待处理帧音频数据后，可以针对该待处理帧音频数据获取预先借助预设3D模型提取的人脸3D信息，以作为目标3D信息，同时可对待处理帧音频数据进行音频特征提取，得到待处理帧音频数据的音频特征信息；随后可将提取到的目标3D信息和音频特征信息输入到预先训练好的图像生成模型中，以通过图像生成模型中的编码器对目标3D信息和音频特征信息进行编码处理，得到目标3D信息对应的中间隐藏变量和音频特征信息对应的音频特征向量，并可在图像生成模型中的全连接层进行特征向量结合，以将中间隐藏变量和音频特征向量进行结合，得到到对象特征向量，随后可依据该对象特征向量进行推理，生成带有角度的68个人脸关键点，并可基于这68个人脸关键点生成虚拟形象图像数据，从而可提取该虚拟形象图像数据中的嘴区域图像数据并输出，以作为待处理帧音频数据对应的嘴区域图像数据。其中，预设3D模型可以是开源的3D模型，如可以是诸如Deep3DFaceReconstruction、DECA、3DMM等3D模型，本申请实施例对此不限制。

进一步而言，本实施例在获取到的视频数据为视频的字幕文本数据时，如在获取到的视频数据为用户针对视频输入的字幕文本数据时，可以通过语音转换方式，将该字幕文本数据转换为音频数据，如基于从文本到语音(Text To Speech，TTS)模型，把字幕文本数据转换生成音频数据，并且生成的音频数据经过预先训练的图像生成模型，使得图像生成模型推理生成音频数据对应的嘴区域图像数据，以为待处理嘴区域图像数据，以便后续可以依据待处理嘴区域图像数据生成最终的目标形象图像数据，提升最终生成的目标形象图像的嘴型生成效果。

步骤120，针对所述待处理嘴区域图像数据，获取目标非嘴区域图像数据和目标参考图像数据。

在本申请实施例中，目标非嘴区域图像数据和目标参考图像数据可以用于控制最终生成的目标形象，如可以用于决定最终生成的虚拟数字人形象。其中，目标非嘴区域图像数据可以是指获取到的不包含嘴区域的图像，如可以是预先设置的不含嘴区域的图像数据，也可以是从预设设置的目标样本图像数据中提取到的非嘴区域图像数据等。

可选的，本申请实施例针对所述待处理嘴区域图像数据，获取目标非嘴区域图像数据，具体可以包括：针对所述待处理嘴区域图像数据，获取目标样本图像数据；从所述目标样本图像数据中提取目标非嘴区域图像数据。需要说明的是，本申请实施例中的目标样本图像数据可以是指预先针对目标形象预先设置的图像数据，如可以是视频当前帧真实图片。具体的，本申请实施例可以针对待处理嘴区域图像数据后，从预设的样本图像数据集中提取出目标形象对应预设的图像数据以作为目标样本图像数据，并可去除该目标样本图像数据中的嘴区域，得到去除嘴区域的图片Refer_Img(RI)，进而可将去嘴区域的图片所包含的数据确定为目标非嘴区域图像数据，达到从目标样本图像数据中提取目标非嘴区域图像数据的目的。

步骤130，依据所述待处理嘴区域图像数据、所述目标非嘴区域图像数据以及所述目标参考图像数据，通过预先训练的形象生成模型，生成所述待处理嘴区域图像数据对应的目标形象图像数据。

具体而言，本申请实施例在确定当前所需要处理的待处理嘴区域图像数据后，可以针对该待处理图像数据获取目标非嘴区域图像数据和目标参考数据数据，以结合目标非嘴区域图像数据和目标参考图像数据，通过预先训练的形象生成模型，生成待处理嘴区域图像数据对应的目标形象图像数据，从而使得单一模型可以支持不同形象图像的生成，节约模型部署成本，并可在满足图像实时生效成效果的前提下提升嘴型生成效果，以便后续可以利用该待处理嘴区域图像数据对应的目标形象图像数据生成目标形象视频，进而可以在保证生成效果和视频帧之间稳定性的前提下，满足实时推理要求，以及提升嘴型生成效果。

进一步的，本申请实施例依据所述待处理嘴区域图像数据、所述目标非嘴区域图像数据以及所述目标参考图像数据，通过预先训练的形象生成模型，生成所述待处理嘴区域图像数据对应的目标形象图像数据，具体可以包括：针对每一视频帧对应的待处理嘴区域图像数据，结合所述目标非嘴区域图像数和所述目标参考图像数据进行图像合成，得到每一视频帧对应的目标合成图像数据；将所述目标合成图像数据输入所述形象生成模型中的生成器，得到所述生成器输出的所述目标形象图像数据。具体的，本申请实施例视频生成过程中，在确定各个视频帧对应的待处理嘴区域图像数据后，可以针对该每一个视频帧对应的待处理嘴区域图像数据，将该待处理嘴区域图像数据与目标非嘴区域图像数以及目标参考图像数据进行合成，得到每一个视频帧对应的目标合成图像数据，并可将每一个视频帧对应的目标合成图像数据输入到预先训练好的形象生成模型的生成器，以通过该生成器依据该目标合成图像数据推理生成对应的目标形象图像数据，并输出，以作为该视频帧对应的目标形象图像数据，从而可以得到多个视频帧对应的目标形象图像数据，以便后续可以多个视频帧对应的目标形象图像数据生成对应的而目标形象视频，如在目标形象为数字人形象的情况下，可以依据多个视频帧对应的数字人形象图像数据生成对应的数字人视频，达到生成目标形象的数字人视频的目的。

在实际处理中，本申请实施例可以预先采用训练数据集中的待训练视频图像数据进行模型训练，以训练出支持多个分辨率和多个形象的形象生成模型，以便后续可以利用该形象生成模型中的生成器推理生成待处理嘴区域图像数据对应的目标形象图像数据。其中，生成器可以用于依据待处理嘴区域图像数据对应的目标合成图像数据生成目标形象图像数据，该目标合成图像数据可以是由嘴区域图像数据和非嘴区域图像数据以及参考图像数据所合成的图像数据；训练数据集可以是指用于模型训练的数据的集合，具体可以包括一个或多个不同分辨率的视频数据，如可以包括一个视频中用于训练的连续多帧视频图像数据；待训练视频图像数据可以是指待训练的视频图像数据。

进一步而言，在上述实施例的基础上，本申请实施例提供的基于视频数据的处理方法，还可以包括：从预设的训练数据集中获取待训练视频图像数据，所述待训练视频图像数据包含第一分辨率的视频图像数据和第二分辨率的视频图像数据；依据所述第一分辨率的视频图像数据进行模型训练，得到第一分辨率图像模型；基于所述第一分辨率图像模型的权重参数信息，采用所述第一分辨率的视频图像数据和所述第二分辨率的视频图像数据进行模型训练，得到所述形象生成模型。

在具体实现中，预设的训练数据集可以包含有不同分辨率的视频图像数据，以作为用于模型训练的待训练视频图像数据，如待训练视频图像数据的分辨率可以是512、256和/或1024等。因此，本申请实施例在模型训练阶段，可以通过获取不同分辨率的视频图像数据进行模型训练，以训练出基于单一模型支持不同分辨率的生成器，从而可以基于该生成器构成支持多分辨率的形象生成模型。具体的，本申请实施例在从训练数据集中获取出第一分辨率的视频图像数据后，可以采用该第一分辨率的视频图像数据进行模型训练，以训练得到第一分辨率对应的第一模型，并可将训练得到的第一模型作为第一分辨率图像模型。随后，可以固定该第一分辨率图像模型的权重参数信息，采用所述第一分辨率的视频图像数据和所述第二分辨率的视频图像数据进行模型训练，以训练得到支持第一分辨率和第二分辨率的第二模型，随后可固定第二模型的权重参数信息，并采用第一分辨率的视频图像数据、第二分辨率的视频图像数据以及第三分辨率的视频图像数据进行模型训练，以训练得到支持第一分辨率、第二分辨率以及第三分辨率的第三模型……如此类推，通过固定第(N-1)模型的权重参数信息，并采用第一分辨率的视频图像数据、第二分辨率的视频图像数据、第三分辨率的视频图像数据……第(N-1)分辨率的视频图像数据以及第N分辨率的视频图像数据进行模型训练，可以训练得到支持第一分辨率、第二分辨率、第三分辨率……第(N-1)分辨率以及第N分辨率的第N模型，从而可以将第N模型确定为最终能够支持不分辨率的形象生成模型。其中，N为大于或等于2的整数，具体可以根据形象生成模型所需要支持的分辨率种类进行设置，本申请实施例对此不作具体限制。

在实际处理中，为提升图像生成效果，本申请实施例可以通过采用同一个视频数据的连续两帧视频图像数据进行模型训练，以解决现有技术中只采用一帧视频图像数据进行模型训练导致的问题。进一步而言，本申请实施例依据所述第一分辨率的视频图像数据进行模型训练，具体可以包括：基于所述第一分辨率的视频图像数据，确定待训练嘴区域图像数据和待训练非嘴区域图像数据，所述第一分辨率的视频图像数据包含第一视频图像数据和第二视频图像数据，所述待训练嘴区域图像数据包含所述第一视频图像数据对应的第一嘴区域图像数据和所述第二视频图像数据对应的第二嘴区域图像数据，所述待训练非嘴区域图像数据包含所述第一视频图像数据对应的第一非嘴区域图像数据和所述第二视频图像数据对应的第二非嘴区域图像数据；依据所述第一嘴区域图像数据、所述第一非嘴区域图像数据以及所述第一视频图像数据对应的参考形象图像数据，生成第一合成图像数据，并通过预先构建的生成器生成所述第一合成图像数据对应的第一虚拟形象图数据；依据所述第一虚拟形象图数据、第二嘴区域图像数据以及所述第二非嘴区域图像数据，生成第二合成图像数据，并通过所述生成器生成所述第二合成图像数据对应的第二虚拟形象图数据；依据所述第一嘴区域图像数据、第二嘴区域图像数据、所述第一合成图像数据、所述第二合成图像数据、所述第一视频图像数据、所述第二视频图像数据、所述第一虚拟形象图数据以及所述第二虚拟形象图数据，确定第一模型损失值；若所述第一模型损失值不符合预设的第一收敛条件，则基于所述第一模型损失值更新所述生成器的参数，并基于更新参数后的生成器进行迭代训练，直到所述第一模型损失值符合预设的第一收敛条件。其中，第一模型损失值可以是指训练模型的损失值，具体可以用于确定当前训练模型是否已收敛，进而可以在第一模型损失值符合预设的第一收敛条件时确定在当前训练的模型已收敛，以在当前训练的模型已收敛的情况下确定为第一分辨率图像模型，以便后续可以通过固第一分辨率图像模型的权重参数信息采用第一分辨率的视频图像数据和第二分辨率的视频图像数据继续进行模型训练，以训练得到支持不同分辨率的形象生成模型。

下文以形象生成模型支持两种不同分辨率为例，对本申请实施例提供的基于视频数据的处理方法进行进一步的说明。

参照图2，示出了本申请一个可选实施例提供的一种基于视频数据的处理方法的步骤流程图。具体而言，本申请实施例提供的基于视频数据的处理方法可以作为一种形象生成模型的训练方法，应用在模型训练阶段，具体可以包括如下步骤：

步骤210，从预设的训练数据集中获取待训练视频图像数据，所述待训练视频图像数据包含第一分辨率的视频图像数据和第二分辨率的视频图像数据。

例如，在训练数据集不仅包含有图片大小为512*512的视频图像数据，还包含有图片大小为256*256的视频图像数据的情况下，可以从训练数据集获取图片大小为512*512的视频图像数据，以作为第一分辨率的视频图像数据，并可从训练数据集中获取图片大小为256*256的视频图像数据，以作为第二分辨率的视频图像数据。其中，第一分辨率为512，第二分辨率为256。

步骤220，基于所述第一分辨率的视频图像数据，确定待训练嘴区域图像数据和待训练非嘴区域图像数据。

其中，第一分辨率的视频图像数据包含第一视频图像数据和第二视频图像数据，所述待训练嘴区域图像数据包含所述第一视频图像数据对应的第一嘴区域图像数据和所述第二视频图像数据对应的第二嘴区域图像数据，所述待训练非嘴区域图像数据包含所述第一视频图像数据对应的第一非嘴区域图像数据和所述第二视频图像数据对应的第二非嘴区域图像数据。

在具体实现中，本申请实施例可以基于第一分辨率，从训练数据集中提取出同一个视频的连续N帧视频图像数据，以作为第一分辨率的视频图像数据进行模型训练，如可以从训练数据集中获取同一个视频中的连续两帧视频图像数据进行模型训练，以便后续应用阶段可以在满足生成效果和速度要求的同时提高生成视频帧的稳定性，其中N为大于1的整数。需要说明的是，本申请实施例中的第一视频图像数据可以用于表示第一分辨率视频的连续两帧视频图像中的第一帧视频图像；第二视频图像数据可以表示第一分辨率视频的连续两帧视频图像中的第二帧视频图像，即第二帧视频图像为第一帧视频图像的后一帧视频图像。

作为本申请的一个示例，在获取到第一分辨率的第一视频图像数据R1后，可以将该第一视频图像数据中的嘴区域图像数据提取为第一嘴区域图像数据M1，如可以基于人脸关键点构造一个数组ArrMouth，该数组ArrMouth的格式是嘴周围的区域为1，其他区域为0，通过采用数组ArrMouth与第一视频图像数据R1进行运算，如按照公式ArrMouth*R1＝M进行运算，可以得到第一视频图像数据R1中的嘴区域图像数据M，从而可以将第一视频图像数据R1中的嘴区域图像数据M确定为第一嘴区域图像数据M1，并可将该第一视频图像数据中的非嘴区域图像数确定为第一非嘴区域图像数据RI1，即将第一视频图像数据去除嘴区域数据后所得到的不含嘴区域的图像数据确定为第一非嘴区域图像数据RI1。同理，在获取到第一分辨率的第二视频图像数据R2后，可以将该第二视频图像数据中的嘴区域图像数据提取为第二嘴区域图像数据M2，将第二视频图像数据R2去除嘴区域数据后所得到的不含嘴区域的图像数据确定为第二非嘴区域图像数据RI2。可见，本示例中的原始的视频图像数据经过运行后，可以得到对应的嘴区域图像数据M。

步骤230，依据第一嘴区域图像数据、第一非嘴区域图像数据以及第一视频图像数据对应的参考形象图像数据，生成第一合成图像数据，并通过预先构建的生成器生成所述第一合成图像数据对应的第一虚拟形象图数据。

其中，第一视频图像数据对应的参考形象图像数据用于表示第一视频图像对应的参考形象图。在实际处理中，可以从第一分辨率的视频中随机选择任意一帧视频图像数据，以作为参考形象图像数据进行模型训练，从而提高模型训练效率，且选择的视频图像数据与当前训练的第一视频图像数据不是同一帧视频图像数据。进一步而言，本申请实施例在依据所述第一嘴区域图像数据、所述第一非嘴区域图像数据以及所述第一视频图像数据对应的参考形象图像数据，生成第一合成图像数据之前，还可以包括：针对所述第一视频图像数据，从所述第一分辨率的视频图像数据中选取所述参考形象图像数据，所述参考形象图像数据为所述视频图像数据中任一视频帧图像数据，且所述参考形象图像数据与所述第一视频图像数据不同。

例如，结合上述示例，在确定第一嘴区域图像数据M1和第一非嘴区域图像数据RI1后，可以按照通道合并方式，把第一嘴区域图像数据M1、第一非嘴区域图像数据RI1以及第一视频图像数据对应的参考形象图像数据RF1合并成第一合成图像数据S1，并将合并成的第一合成图像数据S1输入到预先构建的生成器，以通过生成器依据输入的第一合成图像数据S1推理生成第一虚拟形象图数据F1。

步骤240，依据所述第一虚拟形象图数据、第二嘴区域图像数据以及所述第二非嘴区域图像数据，生成第二合成图像数据，并通过所述生成器生成所述第二合成图像数据对应的第二虚拟形象图数据。

具体的，本申请实施例在得到第一虚拟形象图数据后，可以将该第一虚拟形象图数据与第二嘴区域图像数据以及第二非嘴区域图像数据进行合并，生成第二合成图像数据，并可将第二合成图像数据输入生成器中，以通过生成器依据该第二合成图像数据推理生成对应的第二虚拟形象图数据。例如，结合上述例子，在生成第一虚拟形象图数据F1后，可以将第一虚拟形象图数据F1与第二嘴区域图像数据M2以及第二非嘴区域图像数据RI2进行合并，以把这三张图像数据按通道合并，得到第二合成图像数据S2，并可将该第二合成图像数据S2输入到生成器，通过生成器推理生成对应的第二虚拟形象图数据F2。

步骤250，依据第一嘴区域图像数据、第二嘴区域图像数据、第一合成图像数据、第二合成图像数据、第一视频图像数据、第二视频图像数据、第一虚拟形象图数据以及第二虚拟形象图数据，确定第一模型损失值。

具体的，本申请实施例在得到第二合成图像数据对应的第二虚拟形象图数据后，可以将第一合成图像数据、所述第二合成图像数据、所述第一虚拟形象图数据以及所述第二虚拟形象图数据合并后输入到判别器中，得到N个值，随后可以利用这N个值确定出生成器损失值和判别器损失值，以依据生成器损失值和判别器损失值确定第一模型损失值。其中，N可以是大约1的整数，如N可以是2或3等，本实施对此不作具体限制。

当然，本申请实施例还可以采用其他方式来确定生成器损失值和/或判别器损失值，如可以将第一合成图像数据、所述第二合成图像数据、所述第一视频图像数据以及所述第二视频图像数据合并后输入到判别器，以通过计算判别器输出的N个值与1的距离来确定出判别器损失值；和/或，可以通过分别第一虚拟形象图数据和第一视频图像数据之间的感知损失(Perceptual Loss)、第二虚拟形象图数据和第二视频图像数据之间的PerceptualLoss，然后可以将这两个Perceptual Loss相加，得到生成器损失值等等，本申请实施例对此也不作限制。

进一步而言，本申请实施例依据所述第一嘴区域图像数据、所述第二嘴区域图像数据、所述第一合成图像数据、所述第二合成图像数据、所述第一视频图像数据、所述第二视频图像数据、所述第一虚拟形象图数据以及所述第二虚拟形象图数据，确定第一模型损失值，具体可以包括：依据所述第一嘴区域图像数据、所述第二嘴区域图像数据、所述第一虚拟形象图数据中的嘴区域数据以及所述第二虚拟形象图数据中的嘴区域数据，确定嘴区域生成器损失值；将所述第一合成图像数据、所述第二合成图像数据、所述第一视频图像数据以及所述第二视频图像数据输入到所述第一模型的判别器中，得到所述判别器输出的第一损失信息；将所述第一合成图像数据、所述第二合成图像数据、所述第一虚拟形象图数据以及所述第二虚拟形象图数据输入到所述判别器中，得到所述判别器输出的第二损失信息；基于所述第一损失信息和所述第二损失信息，确定目标判别器损失值和目标生成器损失值；依据所述目标判别器损失值、目标生成器损失值、以及所述嘴区域生成器损失值，确定所述第一模型损失值。

在具体实现中，通过将生成器生成的虚拟形象图数据经过与数组ArrMouth进行运算，可以得到该虚拟形象图数据中的嘴区域数据Lf，随后可通过该虚拟形象图数据中的嘴区域数据Lf和真实的视频数据的嘴区域数据M进行运算，得到嘴区域生成器损失值。例如，在确定第一嘴区域图像数据M1与第一虚拟形象图数据中的嘴区域数据Lf1之间的损失为第一损失，以及，第二嘴区域图像数据M2与第二虚拟形象图数据中的嘴区域数据Lf2之间的损失为第二损失后，可以通过计算第一损失和第二损失的平均值确定嘴区域生成器损失值，以作为嘴巴区域生成器的损失(Loss)。可见，本申请实施例在模型训练过程中增加了额外的嘴巴区域生成器的损失，从而可以提高最终的形象生成模型生成的形象图像数据中的嘴巴清晰度，提升嘴巴生成效果。

本申请实施例的目标判别器损失值作为整体判别器Loss，可以通过计算假图片概率的损失和/或真图片概率的损失来确定；其中，真图片概率的损失通过计算判别器输出的第一损失信息与预设数值1之间的距离来确定，且第一损失信息与预设数值1之间的距离值越小，表示该判别器越能判断出真图像；假图片概率的损失可以通过计算判别器输出的第二损失信息与预设数值0之间的距离来确定，且第二损失信息与预设数值0之间的距离值越小，表示该判别器越能判断出假图像。可选的，本申请实施例基于所述第一损失信息和所述第二损失信息，确定目标判别器损失值，具体可以包括：根据第一损失信息与第一信息值，确定第一距离值信息；根据第二损失信息与预设的第二信息值，确定第二距离值信息；依据第一距离值信息和第二距离值信息进行计算，得到目标判别器损失值。

具体而言，本申请实施例中的目标判别器损失值可以包含两部分，第一部分可以是假图片概率的损失，第二部分可以是真图片概率的损失。例如，结合上述示例，在第一信息值预设为1，第二信息值预设为0的情况下，可以将第一合成图像数据S1、所述第二合成图像数据S2、所述第一视频图像数据R1以及所述第二视频图像数据R2这四部分按照通道合成的方式合并成一张图片，输入到判别器D中，得到作为第一损失信息的N个值，然后可以用预设的损失函数L1 loss计算这N个值和1的距离，从而可以将计算得到的距离值确定为第一距离值信息，且该第一距离值信息可以表示真图片概率的损失，计算得到的距离值越小，表示该判别器越能判断出真图像；并且，可以将所述第一合成图像数据S1、所述第二合成图像数据S2、所述第一虚拟形象图数据F1以及所述第二虚拟形象图数据F2这四部分合并，输入到判别器D中，得到K个值，然后可将这K个值作为判别器D输出的第二损失信息，随后可利用预设的损失函数L1 loss计算这K个值和0的距离，以将计算得到的距离值确定为第二距离值信息，且第二距离值信息可以表示假图片概率的损失，计算得到的距离值越小，表示该判别器越能判断出假图像。在确定出假图片概率的损失和真图片概率的损失后，可以通过对该假图片概率的损失和真图片概率的损失进行累加，以将累加结果确定为判别器损失值。其中，K可以是大约1的整数，如K可以是2或3等，本示例对此不作具体限制。

在本申请实施例中，目标生成器损失值作为整体生成器损失，可以通过判别器输出的第二损失信息来确定。例如，结合上述例子，在按照通道合成的方式将所述第一合成图像数据S1、所述第二合成图像数据S2、所述第一虚拟形象图数据F1以及所述第二虚拟形象图数据F2这四部分合并，输入到判别器D后，可将判别器D输出的K个值作为第二损失信息，并可利用预设的损失函数L1 loss计算这K个值和1的距离，从而可以将计算得到的距离值确定为第三距离值信息，且第三距离值信息作为生成器的第一个损失函数值。生成器的第一个损失函数值越小，可以表示生成器生成的图片越逼真，即图片生成效果就越好。

当然，目标生成器损失值除了可以包含利用损失函数L1 loss计算出的第一个损失函数值之外，还可以包括有其他损失函数值，如还可以包含第二个损失函数值、特征匹配损失值(Feature Matching Loss)等，本申请实施例对此不作具体限制。其中，第二个损失函数值可以通过计算生成的虚拟对象图像与真实图片之间的感知损失(Perceptual Loss)来确定，如可以将第一虚拟形象图数据F1和第一视频图像数据R1输入到VGG网络模型中，以通过计算第一虚拟形象图数据F1和第一视频图像数据R1在VGG网络模型不同层(Layer)的特征值，得到距离值，从而可以将该距离值作为第一虚拟形象图数据F1和第一视频图像数据R1之间的感知损失PL1；同理，可以将第二虚拟形象图数据F2和第二视频图像数据R2输入到VGG网络模型中，以通过计算第二虚拟形象图数据F2和第二视频图像数据R2在VGG网络模型不同Layer的特征值，得到第二虚拟形象图数据F2和第二视频图像数据R2之间的感知损失PL2，随后可以将感知损失PL1和感知损失PL2相加进行求熵，得到作为生成器的第二个损失函数值的熵结果。此外，可以通过将所述第一合成图像数据S1、所述第二合成图像数据S2、所述第一虚拟形象图数据F1以及所述第二虚拟形象图数据F2输入到判别器中进行计算，得到生成器的特征匹配损失值。

在得到目标判别器损失值、目标生成器损失值、以及所述嘴区域生成器损失值后，可以依据目标判别器损失值、目标生成器损失值、以及所述嘴区域生成器损失值进行累加，得到当前训练模型的损失值，以作为第一模型损失值。

步骤260，若所述第一模型损失值不符合预设的第一收敛条件，则基于所述第一模型损失值更新所述生成器的参数，并基于更新参数后的生成器进行迭代训练，直到所述第一模型损失值符合预设的第一收敛条件。

具体的，本申请实施例在得到第一模型损失值后，可以通过判断第一模型损失值是否符合预设的第一收敛条件，来确定当前训练得到的模型是否已经收敛，从而可以在训练模型收敛的情况下将已经训练好的模型确定为第一分辨率图像模型。例如，在第一模型损失值大于第一收敛条件中的收敛损失阈值时，可以确定判断当前的第一模型损失值不符合预设的第一收敛条件，需要继续进行模型训练，随后可利用反向传播算法，基于第一模型损失值更新生成器的参数，并基于更新参数后的生成器，采用第一分辨率的第一视频图像数和第二视频图像数据进行迭代训练，直到第一模型损失值等于或小于第一收敛条中的收敛损失阈值时，确定当前训练得到的模型收敛，进而可以将已经训练好的模型确定为第一分辨率图像模型。

步骤270，基于第一分辨率图像模型的权重参数信息，采用所述第一分辨率的视频图像数据和所述第二分辨率的视频图像数据进行模型训练，得到所述形象生成模型。

其中，第一分辨率图像模型的权重参数信息可以包括有第一分辨率图像模型中的生成器和判别器的权重参数。具体的，本申请实施例在训练第一分辨率图像模型结束后，可以固定第一分辨率图像模型的判别器的权重参数信息，以在训练多分辨率的形象生成模型时加载第一分辨率图像模型的判别器的权重参数信息，从而可以基于第一分辨率图像模型的判别器的权重参数信息，采用第一分辨率的视频图像数据和第二分辨率的视频图像数据进行模型训练，得到形象生成模型。

例如，在采用图片分辨率大小为512的视频图片训练出512模型Gen_512Model后，可以将该512模型Gen_512Model作为第一分辨率图像模型，并可将512模型Gen_512Model的判别器的权重参数作为判别器的权重参数信息。在训练多分辨率的形象生成模型GMulModel时，可以固定512模型Gen_512Model的判别器的权重参数，采用图片分辨率大小为512*512和256*256的视频图像数据进行模型训练，使得训练得到形象生成模型GMulModel能够学习到256模型Gen_256Model的效果，即形象生成模型GMulModel能够学习图像缩放的能力，可以依据输入到的256*256的视频图像数推理生成256*256的虚拟形象图数据，也可以依据输入的512*512视频图像数推理生成512*512的虚拟形象图数据。需要说明的是，256模型与512模型Gen_512Model的结构基本是一样的；512模型Gen_512Model作为第一分辨率图像模型，通过加载512模型Gen_512Model的权重参数信息，能够更快更好地训练出形象生成模型，同时可以减少形象生成模型的训练时间。形象生成模型的训练步骤具体可以参照512模型Gen_512Model的训练步骤实现过程，本示例在此不重复描述。

进一步而言，本申请实施例中的第一分辨率图像模型的权重参数信息可以包含判别器的权重参数信息和中间层特征权重信息，上述基于所述第一分辨率图像模型的权重参数信息，采用所述第一分辨率的视频图像数据和所述第二分辨率的视频图像数据进行模型训练，具体可以包括：固定所述判别器的权重参数信息，并通过预先构建的生成器，分别生成所述第一分辨率的视频图像数据对应的第一分辨率形象图数据和所述第二分辨率的视频图像数据对应的第二分辨率形象图数据；基于所述中间层特征权重信息和第一中间层权重信息，确定第一分辨率中间层损失信息，并依据所述第一分辨率中间层损失信息和第一分辨率对应的形象图损失信息确定第一分辨率损失值，其中，所述第一中间层权重信息为所述生成器生成所述第一分辨率形象图数据时的中间层权重信息，所述第一分辨率对应的形象图损失信息为所述第一分辨率的视频图像数据与所述第一分辨率形象图数据之间的损失信息；基于所述第一分辨率，分别对所述第二分辨率的视频图像数据和所述第二分辨率形象图数据进行调整，得到调整视频图像数据和调整形象图数据，并将所述调整视频图像数据与所述调整形象图数据之间的损失信息确定为第二分辨率对应的形象图损失信息；基于所述中间层特征权重信息和第二中间层权重信息，确定第二分辨率中间层损失信息，并依据所述第二分辨率中间层损失信息和所述第二分辨率对应的形象图损失信息确定第二分辨率损失值，其中，所述第二中间层权重信息为所述生成器生成所述第二分辨率形象图数据时的中间层权重信息，所述第二分辨率对应的形象图损失信息为所述第二分辨率的视频图像数据与所述第一分辨率形象图数据之间的损失信息；若所述第一分辨率损失值和/或所述第二分辨率损失值不符合预设的第二收敛条件，则基于所述第一分辨率损失值和所述第二分辨率损失值更新所述生成器的参数，并基于更新参数后的生成器进行迭代训练，直到所述第一分辨率损失值和所述第二分辨率损失值均符合所述第二收敛条件。

具体的，在训练多分辨率的形象生成模型时，训练数据不仅有第一分辨率的视频图像数据，还有第二分辨率的视频图像数据，通过固定第一分辨率图像模型的判别器的权重参数信息进行训练，形象生成模型中的判别器可以使用第一分辨率图像模型的判别器，在将图片数据输入到判别器之前可以将输入图片数据的分辨率大小调整为第一分辨率，即在输入判别器前把图片大小都调整到第一分辨率，以通过判别器确定第二分辨率对应的形象图损失信息和第一分辨率对应的形象图损失信息，从而可以基于第二分辨率对应的形象图损失信息和第一分辨率对应的形象图损失信息确定第一分辨率损失值和所述第二分辨率损失值，进而可以在第一分辨率损失值和所述第二分辨率损失值均符合第二收敛条件时，确定当前训练得到的模型已经收敛，进而可以将当前训练得到模型确定为已经训练好的形象生成模型，以便后续可以利用该形象生成模型生成不同分辨率对应的目标形象图像数据，使得一个模型可以支撑不同的形象和分辨率。

可见，本申请实施例在模型训练阶段，通过从预设的训练数据集中获取不同分辨率的待训练视频图像数据进行模型训练，如获取第一分辨率的视频图像数据和第二分辨率的视频图像数据进行模型训练，并且在依据第一分辨率的视频图像数据训练得到第一分辨率图像模型后，通过固定该第一分辨率图像模型的判别器的权重参数信息，并额外提取该第一分辨率图像模型的中间层特征权重信息，以将第一分辨率图像模型的中间层特征权重信息与形象生成模型生成器中间层的权重参数信息的差值的平方作为额外的损失，从而使得最终训练得到的形象生成模型可以支持不同分辨率图片的输入，并可针对不同分辨率的输入推理生成不同分辨率的目标形象图像数据，达到单一模型支撑多分辨率的目的，节约模型部署成本。其中，第一中间层权重信息可以是生成器在依据第一分辨率的视频图像数据推理生成第一分辨率形象图数据时中间层的权重参数信息，第一分辨率损失值可以是第一分辨率图像模型的中间层特征权重信息与形象生成模型生成器在生成第一分辨率形象图数据时中间层的权重参数信息的差值的平方；同理，第二中间层权重信息可以是生成器在依据第二分辨率的视频图像数据推理生成第二分辨率形象图数据时中间层的权重参数信息；第二分辨率损失值可以是第二分辨率图像模型的中间层特征权重信息与形象生成模型生成器在生成第二分辨率形象图数据时中间层的权重参数信息的差值的平方。

参照图3，示出了本申请可选实施例提供的一种基于视频数据的处理方法的步骤流程图。具体而言，本申请实施例提供的基于视频数据的处理方法可以应用于模型应用推理阶段，具体可以包括如下步骤：

步骤310，依据获取到的视频数据确定待处理嘴区域图像数据。

步骤320，针对所述待处理嘴区域图像数据，获取目标非嘴区域图像数据和目标参考图像数据。

具体的，目标非嘴区域图像数据和目标参考图像数据可以用于控制最终生成的目标形象，如可以用于决定最终生成的虚拟数字人形象。因此，在需要生成某一目标对象时，可以基于该目标对象获取其去除嘴区域的图像数据，以作为目标非嘴区域图像数据，并基于该目标对象获取任意一张参考图像数据，以作为目标参考图像数据。

其中，目标参考图像数据可以是指用于控制目标形象生成的参考图像。在一个可选实施方式中，本申请实施例针对所述待处理嘴区域图像数据，获取目标参考图像数据，具体可以包括：若待处理嘴区域图像数据对应的视频帧为视频首帧，则从预设样本形象图像数据集中提取目标样本图像数据，并将提取到的目标样本图像数据确定为所述目标参考图像数据；若所述待处理嘴区域图像数据对应的视频帧为非视频首帧，则获取参考帧的目标形象图像数据，并确定为所述目标参考图像数据，所述参考帧为所述视频帧的前一帧。

具体而言，在视频生成场景中，本申请实施例在确定待处理嘴区域图像数据后，可以通过判断待处理嘴区域图像数据对应的视频帧是否是视频首帧，来确定是否需要从预设样本形象图像数据集中提取目标样本图像数据，以在待处理嘴区域图像数据对应的视频帧为视频首帧时，基于所需要生成的目标对象从预设样本形象图像数据集中提取对应的目标样本图像数据，作为该待处理嘴区域图像数据对应的目标参考图像数据；而在待处理嘴区域图像数据对应的视频帧为非视频首帧，即在待处理嘴区域图像数据对应的视频帧不是视频首帧时，可以获取该视频帧的前一帧的目标形象图像数据，以作为当前视频帧的待处理嘴区域图像数据对应的目标参考图像数据。

步骤330，针对每一视频帧对应的待处理嘴区域图像数据，结合所述目标非嘴区域图像数和所述目标参考图像数据进行图像合成，得到每一视频帧对应的目标合成图像数据。

步骤340，将所述目标合成图像数据输入所述形象生成模型中的生成器，得到所述生成器输出的所述目标形象图像数据。

作为本申请的一个示例，在数字人视频的生成场景中，在依据视频数据确定第t帧的待处理嘴区域图像数据Mt后，可将该第t帧的待处理嘴区域图像数据Mt与其对应的目标非嘴区域图像数RIt以及目标参考图像数据RF进行进行图像合成，得到第t帧的目标合成图像数据St，该目标合成图像数据St包含待处理嘴区域图像数据Mt与其对应的目标非嘴区域图像数RIt以及目标参考图像数据RF这三部分内容，随后可将该目标合成图像数据St输入到形象生成模型中的生成器G中，使得生成器G依据第t帧的目标合成图像数据St生成第t帧的目标形象图像数据Ft，并输出，以作为第t帧的数字人虚拟形象图像。

在生成第t帧的目标形象图像数据Ft后，可以将生成第t帧的目标形象图像数据Ft作为后一帧待处理嘴区域图像数据对应的目标参考图像数据，即可以将第t帧的目标形象图像数据Ft作为第(t+1)帧待处理嘴区域图像数据M(t+1)对应的目标参考图像数据，与第(t+1)帧待处理嘴区域图像数据M(t+1)以及第(t+1)帧的目标非嘴区域图像数RI(t+1)进行图像合成，得到第(t+1)帧对应的目标合成图像数据S(t+1)，并可将第(t+1)帧对应的目标合成图像数据S(t+1)输入到生成器G，从而使得生成器G依据第(t+1)帧对应的目标合成图像数据S(t+1)推理生成对应的目标形象图像数据F(t+1)，并输出，作为第(t+1)帧的数字人虚拟形象图像……如此类推，可以依据生成器推理生成的多帧数字人虚拟形象图像生成数字人视频，实现数字人视频的生成。其中，t为大于零的整数。

进一步的，本申请实施例提供的基于视频数据的处理方法，在将所述目标合成图像数据输入所述形象生成模型中的生成器，得到所述生成器输出的所述目标形象图像数据之后，还可以包括：依据所述目标形象图像数据生成目标形象视频，如该目标形象视频可以是数字人视频等，本申请实施例对此不作限制。

综上，本申请实施例在模型应用推理阶段，通过依据获取到的视频数据确定待处理嘴区域图像数据，并针对待处理图像数据获取目标非嘴区域图像数据和目标参考数据数据，以结合目标非嘴区域图像数据和目标参考图像数据，随后通过预先训练好的形象生成模型，生成待处理嘴区域图像数据对应的目标形象图像数据，从而能够在满足图像实时生效成效果的前提下提升嘴型生成效果，以便后续可以利用该待处理嘴区域图像数据对应的目标形象图像数据生成目标形象视频，进而可以在保证生成效果和视频帧之间稳定性的前提下，满足实时推理要求，以及提升嘴型生成效果。

此外，本申请实施例在模型训练过程中，通过从预设的训练数据集中获取不同分辨率的待训练视频图像数据进行模型训练，如获取第一分辨率的视频图像数据和第二分辨率的视频图像数据进行模型训练，并且在依据第一分辨率的视频图像数据训练得到第一分辨率图像模型后，通过固定该第一分辨率图像模型的判别器的权重参数信息，并额外提取该第一分辨率图像模型的中间层特征权重信息，以将第一分辨率图像模型的中间层特征权重信息与形象生成模型生成器中间层的权重参数信息的差值的平方作为额外的损失，使得最终训练得到的形象生成模型可以支持不同分辨率，达到单一模型可以同时支撑多形象和多分辨率的目的，从而可以部署上节约部署成本；以及，增加了额外的嘴巴区域生成器的损失，从而可以提高形象生成模型生成的形象图像数据中的嘴巴清晰度，进而提升嘴巴生成效果。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。

本申请实施例还提供了一种基于视频数据的处理装置。如图4所示，本申请实施例提供的基于视频数据的处理装置400，具体可以包括如下模块：

嘴区域图像确定模块410，用于依据获取到的视频数据确定待处理嘴区域图像数据；

图像获取模块420，用于针对所述待处理嘴区域图像数据，获取目标非嘴区域图像数据和目标参考图像数据；

形象生成模块430，用于依据所述待处理嘴区域图像数据、所述目标非嘴区域图像数据以及所述待处理嘴区域图像数据对应的参考图像数据，通过预先训练的形象生成模型，生成所述待处理嘴区域图像数据对应的目标形象图像数据。

可选的，嘴区域图像确定模块410包括：

处理帧图像提取子模块，用于从所述视频数据中提取各待处理帧图像数据；

轮廓线图确定子模块，用于针对每一待处理帧图像数据，确定所述待处理帧图像数据对应的轮廓线图数据；

待处理嘴区域图像子模块，用于将所述轮廓线图数据中的嘴区域图像数据提取为所述待处理嘴区域图像数据。

可选的，嘴区域图像确定模块410包括：

待处理帧音频提取子模块，用于从所述视频数据中提取各待处理帧音频数据；

嘴区域图像生成子模块，用于针对每一待处理帧音频数据，通过预先训练的图像生成模型，生成所述待处理帧音频数据对应的嘴区域图像数据，并将所述待处理帧音频数据对应的嘴区域图像数据作为所述待处理嘴区域图像数据。

可选的，嘴区域图像生成子模块可以包括如下单元：

3D信息单元，用于针对每一待处理帧音频数据，获取目标3D信息；

音频特征单元，用于提取所述待处理帧音频数据的音频特征信息；

嘴区域图像单元，用于将所述目标3D信息和所述音频特征信息输入所述图像生成模型，并将所述图像生成模型输出的嘴区域图像数据，确定为所述待处理帧音频数据对应的嘴区域图像数据。

可选的，图像获取模块420包括：

目标样本图像获取子模块，用于针对所述待处理嘴区域图像数据，获取目标样本图像数据；

目标非嘴区域提取子模块，用于从所述目标样本图像数据中提取目标非嘴区域图像数据。

可选的，图像获取模块420包括：目标参考图像子模块，用于在待处理嘴区域图像数据对应的视频帧为视频首帧时，从预设样本形象图像数据集中提取目标样本图像数据，并将提取到的目标样本图像数据确定为所述目标参考图像数据；在所述待处理嘴区域图像数据对应的视频帧为视频首帧时，获取参考帧的目标形象图像数据，并确定为所述目标参考图像数据，所述参考帧为所述视频帧的前一帧。

可选的，所述形象生成模块430包括如下子模块：

图像合成子模块，用于针对每一视频帧对应的待处理嘴区域图像数据，结合所述目标非嘴区域图像数和所述目标参考图像数据进行图像合成，得到每一视频帧对应的目标合成图像数据；

目标形象生成子模块，用于将所述目标合成图像数据输入所述形象生成模型中的生成器，得到所述生成器输出的所述目标形象图像数据。

可选的，上述基于视频数据的处理装置还包括如下模块：

待训练视频图像模块，用于从预设的训练数据集中获取待训练视频图像数据，所述待训练视频图像数据包含第一分辨率的视频图像数据和第二分辨率的视频图像数据；

第一模型训练模块，用于依据所述第一分辨率的视频图像数据进行模型训练，得到第一分辨率图像模型；

形象生成模型训练模块，用于基于所述第一分辨率图像模型的权重参数信息，采用所述第一分辨率的视频图像数据和所述第二分辨率的视频图像数据进行模型训练，得到所述形象生成模型。

可选的，第一模型训练模块，包括如下子模块：

待训练数据确定子模块：用于基于所述第一分辨率的视频图像数据，确定待训练嘴区域图像数据和待训练非嘴区域图像数据，所述第一分辨率的视频图像数据包含第一视频图像数据和第二视频图像数据，所述待训练嘴区域图像数据包含所述第一视频图像数据对应的第一嘴区域图像数据和所述第二视频图像数据对应的第二嘴区域图像数据，所述待训练非嘴区域图像数据包含所述第一视频图像数据对应的第一非嘴区域图像数据和所述第二视频图像数据对应的第二非嘴区域图像数据；

第一虚拟形象图子模块，用于依据所述第一嘴区域图像数据、所述第一非嘴区域图像数据以及所述第一视频图像数据对应的参考形象图像数据，生成第一合成图像数据，并通过预先构建的生成器生成所述第一合成图像数据对应的第一虚拟形象图数据；

第二虚拟形象图子模块，用于依据所述第一虚拟形象图数据、第二嘴区域图像数据以及所述第二非嘴区域图像数据，生成第二合成图像数据，并通过所述生成器生成所述第二合成图像数据对应的第二虚拟形象图数据；

第一模型损失值子模块，用于依据所述第一嘴区域图像数据、第二嘴区域图像数据、所述第一合成图像数据、所述第二合成图像数据、所述第一视频图像数据、所述第二视频图像数据、所述第一虚拟形象图数据以及所述第二虚拟形象图数据，确定第一模型损失值；

第一迭代训练子模块，用于在所述第一模型损失值不符合预设的第一收敛条件时，基于所述第一模型损失值更新所述生成器的参数，并基于更新参数后的生成器进行迭代训练，直到所述第一模型损失值符合预设的第一收敛条件。

第一模型训练模块，还包括参考形象图像选取子模块。该参考形象图像选取子模块，用于在针对所述第一视频图像数据，从所述第一分辨率的视频图像数据中选取所述参考形象图像数据，所述参考形象图像数据为所述视频图像数据中任一视频帧图像数据，且所述参考形象图像数据与所述第一视频图像数据不同。例如，在第一虚拟形象图子模块依据所述第一嘴区域图像数据、所述第一非嘴区域图像数据以及所述第一视频图像数据对应的参考形象图像数据，生成第一合成图像数据之前，参考形象图像选取子模块针对所述第一视频图像数据，从所述第一分辨率的视频图像数据中选取所述参考形象图像数据，所述参考形象图像数据为所述视频图像数据中任一视频帧图像数据，且所述参考形象图像数据与所述第一视频图像数据不同。

可选的，第一模型损失值子模块包括如下单元：

嘴区域生成器损失值单元，用于依据所述第一嘴区域图像数据、所述第二嘴区域图像数据、所述第一虚拟形象图数据中的嘴区域数据以及所述第二虚拟形象图数据中的嘴区域数据，确定嘴区域生成器损失值；

第一损失信息单元，用于将所述第一合成图像数据、所述第二合成图像数据、所述第一视频图像数据以及所述第二视频图像数据输入到所述第一模型的判别器中，得到所述判别器输出的第一损失信息；

第二损失信息单元，用于将所述第一合成图像数据、所述第二合成图像数据、所述第一虚拟形象图数据以及所述第二虚拟形象图数据输入到所述判别器中，得到所述判别器输出的第二损失信息；

损失值确定单元，用于基于所述第一损失信息和所述第二损失信息，确定目标判别器损失值和目标生成器损失值；

第一模型损失值单元，用于依据所述目标判别器损失值、目标生成器损失值、以及所述嘴区域生成器损失值，确定所述第一模型损失值。

可选的，形象生成模型训练模块包括如下子模块：

判别器权重参数固定子模块，用于固定所述判别器的权重参数信息；

生成器子模块，用于通过预先构建的生成器，分别生成所述第一分辨率的视频图像数据对应的第一分辨率形象图数据和所述第二分辨率的视频图像数据对应的第二分辨率形象图数据；

第一分辨率损失值子模块，用于基于所述中间层特征权重信息和第一中间层权重信息，确定第一分辨率中间层损失信息，并依据所述第一分辨率中间层损失信息和第一分辨率对应的形象图损失信息确定第一分辨率损失值，其中，所述第一中间层权重信息为所述生成器生成所述第一分辨率形象图数据时的中间层权重信息，所述第一分辨率对应的形象图损失信息为所述第一分辨率的视频图像数据与所述第一分辨率形象图数据之间的损失信息；

形象图损失信息子模块，用于基于所述第一分辨率，分别对所述第二分辨率的视频图像数据和所述第二分辨率形象图数据进行调整，得到调整视频图像数据和调整形象图数据，并将所述调整视频图像数据与所述调整形象图数据之间的损失信息确定为第二分辨率对应的形象图损失信息；

第二分辨率损失值子模块，用于基于所述中间层特征权重信息和第二中间层权重信息，确定第二分辨率中间层损失信息，并依据所述第二分辨率中间层损失信息和所述第二分辨率对应的形象图损失信息确定第二分辨率损失值，其中，所述第二中间层权重信息为所述生成器生成所述第二分辨率形象图数据时的中间层权重信息，所述第二分辨率对应的形象图损失信息为所述第二分辨率的视频图像数据与所述第一分辨率形象图数据之间的损失信息；

迭代训练子模块，用于在所述第一分辨率损失值和/或所述第二分辨率损失值不符合预设的第二收敛条件时，基于所述第一分辨率损失值和所述第二分辨率损失值更新所述生成器的参数，并基于更新参数后的生成器进行迭代训练，直到所述第一分辨率损失值和所述第二分辨率损失值均符合所述第二收敛条件。

需要说明的是，上述提供的基于视频数据的处理装置可执行本申请任意实施例所提供的基于视频数据的处理方法，具备执行方法相应的功能和有益效果。

进一步的，本申请实施例还提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现上述任意一个方法实施例所述的基于视频数据的处理方法的步骤。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一个方法实施例所述的基于视频数据的处理方法步骤。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置、设备、存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本申请的具体实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于视频数据的处理方法，其特征在于，包括：

依据获取到的视频数据确定待处理嘴区域图像数据；

针对所述待处理嘴区域图像数据，获取目标非嘴区域图像数据和目标参考图像数据；

依据所述待处理嘴区域图像数据、所述目标非嘴区域图像数据以及所述目标参考图像数据，通过预先训练的形象生成模型，生成所述待处理嘴区域图像数据对应的目标形象图像数据。

2.根据权利要求1所述的基于视频数据的处理方法，其特征在于，所述依据获取到的视频数据确定待处理嘴区域图像数据，包括：

从所述视频数据中提取各待处理帧图像数据；

针对每一待处理帧图像数据，确定所述待处理帧图像数据对应的轮廓线图数据，并将所述轮廓线图数据中的嘴区域图像数据提取为所述待处理嘴区域图像数据。

3.根据权利要求1所述的基于视频数据的处理方法，其特征在于，所述所述依据获取到的视频数据确定待处理嘴区域图像数据，包括：

从所述视频数据中提取各待处理帧音频数据；

针对每一待处理帧音频数据，通过预先训练的图像生成模型，生成所述待处理帧音频数据对应的嘴区域图像数据，并将所述待处理帧音频数据对应的嘴区域图像数据作为所述待处理嘴区域图像数据。

4.根据权利要求3所述的基于视频数据的处理方法，其特征在于，所述针对每一待处理帧音频数据，通过预先训练的图像生成模型，生成所述待处理帧音频数据对应的嘴区域图像数据，包括：

针对每一待处理帧音频数据，获取目标3D信息，并提取所述待处理帧音频数据的音频特征信息；

将所述目标3D信息和所述音频特征信息输入所述图像生成模型，并将所述图像生成模型输出的嘴区域图像数据，确定为所述待处理帧音频数据对应的嘴区域图像数据。

5.根据权利要求1所述的基于视频数据的处理方法，其特征在于，针对所述待处理嘴区域图像数据，获取目标非嘴区域图像数据，包括：

针对所述待处理嘴区域图像数据，获取目标样本图像数据；

从所述目标样本图像数据中提取目标非嘴区域图像数据。

6.根据权利要求1所述的基于视频数据的处理方法，其特征在于，针对所述待处理嘴区域图像数据，获取目标参考图像数据，包括：

若待处理嘴区域图像数据对应的视频帧为视频首帧，则从预设样本形象图像数据集中提取目标样本图像数据，并将提取到的目标样本图像数据确定为所述目标参考图像数据；

若所述待处理嘴区域图像数据对应的视频帧为视频首帧，则获取参考帧的目标形象图像数据，并确定为所述目标参考图像数据，所述参考帧为所述视频帧的前一帧。

7.根据权利要求1所述的基于视频数据的处理方法，其特征在于，所述依据所述待处理嘴区域图像数据、所述目标非嘴区域图像数据以及所述目标参考图像数据，通过预先训练的形象生成模型，生成所述待处理嘴区域图像数据对应的目标形象图像数据，包括：

针对每一视频帧对应的待处理嘴区域图像数据，结合所述目标非嘴区域图像数和所述目标参考图像数据进行图像合成，得到每一视频帧对应的目标合成图像数据；

将所述目标合成图像数据输入所述形象生成模型中的生成器，得到所述生成器输出的所述目标形象图像数据。

8.根据权利要求1至7任一所述的基于视频数据的处理方法，其特征在于，还包括：

从预设的训练数据集中获取待训练视频图像数据，所述待训练视频图像数据包含第一分辨率的视频图像数据和第二分辨率的视频图像数据；

依据所述第一分辨率的视频图像数据进行模型训练，得到第一分辨率图像模型；

基于所述第一分辨率图像模型的权重参数信息，采用所述第一分辨率的视频图像数据和所述第二分辨率的视频图像数据进行模型训练，得到所述形象生成模型。

9.根据权利要求8所述的基于视频数据的处理方法，其特征在于，所述依据所述第一分辨率的视频图像数据进行模型训练，包括：

10.根据权利要求9所述的基于视频数据的处理方法，其特征在于，所述依据所述第一嘴区域图像数据、所述第一非嘴区域图像数据以及所述第一视频图像数据对应的参考形象图像数据，生成第一合成图像数据之前，还包括：

11.根据权利要求9所述的基于视频数据的处理方法，其特征在于，所述依据所述第一嘴区域图像数据、所述第二嘴区域图像数据、所述第一合成图像数据、所述第二合成图像数据、所述第一视频图像数据、所述第二视频图像数据、所述第一虚拟形象图数据以及所述第二虚拟形象图数据，确定第一模型损失值，包括：

12.根据权利要求8所述的基于视频数据的处理方法，其特征在于，所述第一分辨率图像模型的权重参数信息包含判别器的权重参数信息和中间层特征权重信息，所述基于所述第一分辨率图像模型的权重参数信息，采用所述第一分辨率的视频图像数据和所述第二分辨率的视频图像数据进行模型训练，包括：

13.一种基于视频数据的处理装置，其特征在于，包括：

14.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-12任一项所述的基于视频数据的处理方法的步骤。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-12任一项所述的基于视频数据的处理方法的步骤。