CN116828129A

CN116828129A - 一种超清2d数字人生成方法及系统

Info

Publication number: CN116828129A
Application number: CN202311075837.8A
Authority: CN
Inventors: 袁海杰
Original assignee: Xiaoduo Intelligent Technology Beijing Co ltd
Current assignee: Xiaoduo Intelligent Technology Beijing Co ltd
Priority date: 2023-08-25
Filing date: 2023-08-25
Publication date: 2023-09-29
Anticipated expiration: 2043-08-25
Also published as: CN116828129B

Abstract

本申请公开了一种超清2D数字人生成方法及系统。本方法首先拍摄并获取真人播报的面部动作视频数据集；然后通过面部动作视频数据集确定音频到图像像素的映射关系，并通过原始人脸图像和原始音频基于映射关系生成第一数字人视频；最后将第一数字人视频输入到训练完成的唇音同步模型中生成高精度数字人视频，并缩短高精度数字人视频中的不同步片段时长，得到目标数字人视频。本申请通过音频信号来对遮蔽嘴部的人脸按语音内容进行修复，并通过超分算法对低清的人脸进行分辨率和保真度的增强。

Description

一种超清2D数字人生成方法及系统

技术领域

本发明涉及数字人生成技术领域，特别涉及一种超清2D数字人生成方法及系统。

背景技术

随着近年来数字人生成技术的发展，数字人在众多场景下使用广泛，例如，远程视频会议、虚拟角色生成、三维人脸动画制作和动画视频创作等。数字人的生成通常将图像到图像转换网络合成照片般真实的结果，例如面部标志和基于3D人脸重建的面部标志。

对于数字人嘴型与音频内容，现有技术例如SynthesizeObama算法可以在特定说话人上取得满意的结果，但需要对目标说话人的说话语料库进行训练以获得个性化模型，而这并不总是可用的。另一方面，当前的通用方法会产生模糊的下脸或唇形同步不准确，并且现有技术也不支持情感编辑。

可以看出，现有技术对于数字人生成的过程具有以下问题：生成的视频分辨率较低；生成的视频，嘴型与音频内容难以对应上；面部贴图与背景不能很好地衔接。

发明内容

基于此，本申请实施例提供了一种超清2D数字人生成方法及系统，能够通过音频信号来对遮蔽嘴部的人脸按语音内容进行修复，并通过超分算法对低清的人脸进行分辨率和保真度的增强。

第一方面，提供了一种超清2D数字人生成方法，该方法包括：

拍摄并获取真人播报的面部动作视频数据集；

通过所述面部动作视频数据集确定音频到图像像素的映射关系，并通过原始人脸图像和原始音频基于所述映射关系生成第一数字人视频；

将所述第一数字人视频输入到训练完成的唇音同步模型中生成高精度数字人视频；

缩短高精度数字人视频中的不同步片段时长，得到目标数字人视频。

可选地，所述唇音同步模型的训练过程具体包括：

基于视频训练数据集对自编码器进行训练；其中，所述自编码器用于处理视频图像中人脸像素的概率分布特征图；

通过音频编码器对音频进行编码得到音频特征，通过跨模态注意力机制将音频特征与自编码器生成的特征图进行多模态融合。

可选地，方法还包括：

通过训练完成的wav2vec2.0模型作为音频编码器提取音频嘴型信息；

并基于超分算法对生成的人脸嘴型图像进行增强。

可选地，所述超分算法可以为ESRGAN算法。

第二方面，提供了一种超清2D数字人生成系统，该系统包括：

获取模块，用于拍摄并获取真人播报的面部动作视频数据集；

映射模块，用于通过所述面部动作视频数据集确定音频到图像像素的映射关系，并通过原始人脸图像和原始音频基于所述映射关系生成第一数字人视频；

生成模块，用于将所述第一数字人视频输入到训练完成的唇音同步模型中生成高精度数字人视频；

处理模块，用于缩短高精度数字人视频中的不同步片段时长，得到目标数字人视频。

可选地，所述唇音同步模型的训练过程具体包括：

可选地，方法还包括：

并基于超分算法对生成的人脸嘴型图像进行增强。

可选地，所述超分算法可以为ESRGAN算法。

本申请实施例提供的技术方案中首先拍摄并获取真人播报的面部动作视频数据集；然后通过面部动作视频数据集确定音频到图像像素的映射关系，并通过原始人脸图像和原始音频基于映射关系生成第一数字人视频；最后将第一数字人视频输入到训练完成的唇音同步模型中生成高精度数字人视频，并缩短高精度数字人视频中的不同步片段时长，得到目标数字人视频。可以看出，本发明的有益效果在于：

（1）本方法能够通过音频内容进行人脸嘴型的驱动；

（2）本方法实现对音频信息的准确提取，并传递至最终生成图像嘴型中；

（3）最终达到4K超清效果。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引申获得其它的实施附图。

图1为本申请实施例提供的一种超清2D数字人生成方法步骤流程图；

图2为本申请实施例提供的一种超清2D数字人生成系统框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本发明的描述中，除非另有说明“多个”的含义是两个或两个以上。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等旨在区别指代的对象。对于具有时序流程的方案，这种术语表述方式不必理解为描述特定的顺序或先后次序，对于装置结构的方案，这种术语表述方式也不存在对重要程度、位置关系的区分等。

此外，术语“包括”、“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包括了一系列步骤或单元的过程、方法、系统、产品或设备不必限于已明确列出的那些步骤或单元，而是还可包含虽然并未明确列出的但对于这些过程、方法、产品或设备固有的其它步骤或单元，或者基于本发明构思进一步的优化方案所增加的步骤或单元。

对于数字人嘴型与音频内容，任意身份的方法旨在创建一个不需要针对不同身份进行重新训练的通用模型。Speech2Vid算法借助上下文编码器，可以使用不同的音频片段重新配音源视频。最近很流行通过修复来重建下半脸。例如，LipGAN算法设计一个神经网络来填充下半脸作为先验姿势。Wav2Lip算法使用预训练的SyncNet作为唇形同步鉴别器扩展了LipGAN，以生成准确的唇形同步。基于Wav2Lip、SyncTalkFace涉及音频唇形存储器来隐式存储唇部运动特征并在推理时检索它们。另一类方法首先预测中间表示，然后，通过图像到图像转换网络合成照片般真实的结果，例如面部标志和基于3D人脸重建的面部标志。然而，所有这些方法都在努力合成具有可编辑情感的高质量结果。

个性化视觉配音比通用配音更容易，因为这些方法仅限于已知环境中的某个人。例如，SynthesizeObama算法可以通过音频到地标网络合成指定人物的嘴部区域。受到面部重演方法的启发，最近的视觉配音方法侧重于从音频生成中间表示，然后通过图像到图像翻译网络渲染照片般逼真的结果。例如，几部作品关注音频特征的表达系数，并通过图像生成网络渲染逼真的结果。面部标志和边缘也是通过投影3D渲染面部的流行选择，因为它包含稀疏信息。此外，基于3D网格和基于NeRF方法也很强大。虽然这些方法可以合成照片般逼真的结果，它们的应用相对有限，因为它们需要针对特定的人和环境重新训练模型。

与视觉配音不同，单图像人脸动画旨在通过单一驱动的音频生成动画，它也受到了视频驱动的人脸动画的影响。例如，使用循环神经网络从音频生成运动通过对抗性表示学习来分离主题相关信息和语音相关信息的输入。将音频视为潜在代码并通过图像生成器驱动面部动画。中间表示也是此任务中的流行选择。ATV和MakeItTalk首先从音频生成面部标志，然后使用标志到视频网络渲染视频。稠密流场是另一个活跃的研究方向。从音频预测3DMM系数，然后将这些参数传输到基于流的扭曲网络中。

根据输入语音音频编辑头部特写视频的任务具有重要的现实应用，例如将整个视频翻译成不同的语言，或者在视频录制后修改语音。这项任务被称为视觉配音，已经在之前的几部作品中进行了研究通过修改面部动画和情感以匹配目标音频来编辑输入的头部说话视频，同时保持所有其他动作不变。

SynthesizeObama算法可以在特定说话人上取得满意的结果，但需要对目标说话人的说话语料库进行训练以获得个性化模型，而这并不总是可用的。另一方面，当前的通用方法会产生模糊的下脸或唇形同步不准确，这在视觉上是侵入性的。

本申请的目的在于设计出一种网络结构使得能通过音频信号来对遮蔽嘴部的人脸按语音内容进行修复；使用预训练好的音频编码器作为音频特征提取器；通过超分算法对低清的人脸进行分辨率和保真度的增强。

具体地，请参考图1，其示出了本申请实施例提供的一种超清2D数字人生成方法的流程图，该方法可以包括以下步骤：

步骤101，拍摄并获取真人播报的面部动作视频数据集。

在本实施例中，传统的2D唇形同步人脸生成算法仅停留在从静态图片来完成唇音同步人脸生成的效果。但是基于静态图像生成的视频，即使唇音同步能达到一定要求，但是视频中的人物依然会在眼神、表情、阴影角度等细节出现表情不自然等问题。除此之外，为了获得更加自然可靠的呈现效果，利用深度神经网络驱动音频获得自然可靠而高保真度的人物播报视频是当前最前沿的技术方法。由于音频决定了嘴型以及周边的面部肌肉，而给定的视频帧决定了人脸的表情以及其他细节。因此，从音频映射到具体的像素，能够很好将音频的信息和人物的信息进行关联。

步骤102，通过面部动作视频数据集确定音频到图像像素的映射关系，并通过原始人脸图像和原始音频基于映射关系生成第一数字人视频。

然而，仅从视频中抽帧并对每帧图像进行处理而忽视了帧与帧之间的时间上的上下文关系，导致模型很难预测下一步的变化，因此导致生成的人脸视频出现唇形不同步的现象。并且由于视频中人物姿态以及尺寸的变化，导致生成的人物唇形产生大量的伪影等问题，从而导致的糟糕的呈现效果。针对上述，我们需要提出新的可靠的唇音同步算法生成具有高保真效果的2D唇形同步生成算法。

在本申请中，构建从音频到具体的像素的映射关系，将音频信息与人物的信息进行关联的具体过程如下：

音频特征提取：首先，从音频数据中提取关键的声学特征。这些特征可能包括音频的频谱内容、声调、语速等。常用的提取方法包括短时傅里叶变换（Short-Time FourierTransform，STFT）、梅尔频率倒谱系数（Mel-Frequency Cepstral Coefficients，MFCC）等。

面部动作数据预处理：对面部动作视频数据集进行预处理，例如视频帧的采样、人脸检测和跟踪等。这可以确保只有与音频对应的面部动作被提取和使用。

面部动作特征提取：从预处理后的面部动作视频中提取关键的面部动作特征。这些特征可能包括面部关键点坐标、面部表情、嘴部形状等。常用的方法包括基于深度学习的人脸关键点检测和跟踪算法，如人脸关键点检测器（Face Landmark Detector）和人脸姿态估计器（Face Pose Estimator）。

建立映射关系：通过将音频特征与面部动作特征进行对应，建立从音频到具体的像素的映射关系。这可以通过机器学习算法来实现，例如使用神经网络或其他回归模型。训练这样的模型需要使用已有的音频和相应的面部动作数据集进行监督学习，以学习音频和面部动作之间的关联。

预测像素细节：一旦建立了映射关系模型，就可以将新的音频数据输入到模型中，预测出对应的面部动作特征。然后，利用这些面部动作特征生成具体的像素细节，以获取与音频内容相匹配的逼真面部动画。

步骤103，将第一数字人视频输入到训练完成的唇音同步模型中生成高精度数字人视频。

其中，唇音同步模型的训练过程具体包括：

基于视频训练数据集对自编码器进行训练；其中，自编码器用于处理视频图像中人脸像素的概率分布特征图；

考虑唇形同步的2D数字人生成的精度和泛化能力之间衡量的问题，把自编码器模型应用于2D数字人生成方面。针对图像生成精度和对人物身份及音频的泛化能力，需要训练阶段可分为两个阶段。

（1）图像概率分布模型

第一个阶段是通过大型人物演讲视频数据集去训练一个自编码器，使得该自编码器能够很好地学习到2D说话人视频数据集中人脸像素的概率分布。该阶段使得预训练好的自编码器能够实现高精度的人脸图像反演过程，从而解决图像生成精度问题。

（2）图像条件概率分布模型

第二阶段是训练关于语音特征到图像生成之间的条件概率模型。该阶段使用预训练好的自编码器，音频编码器对音频进行编码得到潜在特征向量后，通过跨模态注意力机制的方式，将音频特征与自编码器模型的中间编码解码的特征图进行多模态融合，从而通过在潜在空间加噪和去噪的方式，实现音频条件可控的图像生成过程。该阶段能很好地解决因为人脸图像生成精度和对人物身份、音频特征等泛化能力的权衡的问题。

（3）基于大数据预训练的音频编码器

由于定制人物的语料不足以音频特征的学习，因而需要使用在大数据量的语料上预训练好的wav2vec2.0模型作为音频编码器依次提取可靠的音频嘴型信息。具体而言，音频频谱信息通过预训练好的音频编码器，编码为与音频内容相关的信息。由于音频编码器在大型数据集下提前训练好，因此即使在有噪环境或者因为人物音色等与内容无关的信息的存在，也能得到很好地排除。为了使得音频编码后的结果能够更平滑，以避免最终控制生成的人脸嘴型发生高频抖动等问题，通过对编码后的音频特征加窗的方式，由时序滤波器对其进行时序平滑，以实现更自然的嘴型驱动效果。

本申请中可选地，研究高保真效果的2D虚拟数字人唇形同步算法的具体过程如下：

数据收集：首先需要收集包含真实人物嘴部运动的视频数据集。这些视频可以是由真实人物进行口型播报的视频，以捕捉真实的嘴部运动和唇形信息。

数据预处理：对收集到的视频数据进行预处理，例如人脸检测、人脸跟踪和关键点定位等。这一步骤旨在确保只有嘴部区域被提取和使用，并且准确获取嘴部的关键点位置。

嘴部关键点跟踪：通过跟踪嘴部关键点的位置，可以获得嘴部的形状和运动变化。常用的方法包括基于特征点匹配的光流法或基于深度学习的关键点检测和跟踪算法。

学习嘴部运动模型：利用收集到的视频数据，可以训练嘴部运动模型。这个模型可以是传统的机器学习方法，如隐马尔可夫模型（Hidden Markov Model，HMM）或条件随机场（Conditional Random Field，CRF），也可以是基于深度学习的方法，如循环神经网络（Recurrent Neural Network，RNN）或卷积神经网络（Convolutional Neural Network，CNN）。通过学习嘴部运动模型，可以捕捉到真实嘴部运动的统计特征和规律。

音频特征提取：从音频数据中提取关键的声学特征。这些特征可能包括音频的频谱内容、声调、语速等。常用的提取方法包括短时傅里叶变换（Short-Time FourierTransform，STFT）、梅尔频率倒谱系数（Mel-Frequency Cepstral Coefficients，MFCC）等。

嘴部形状生成：将音频特征输入到嘴部运动模型中，根据学习到的嘴部运动特征，生成虚拟数字人的嘴部形状。这一步骤可以使用插值或变形等技术，将学习到的嘴部形状与音频特征进行同步。

图像合成：将生成的嘴部形状与虚拟数字人的面部图像进行合成，生成最终的虚拟数字人唇形同步视频。

步骤104，缩短高精度数字人视频中的不同步片段时长，得到目标数字人视频。

在本步骤中具体实现了基于超分算法的人脸图像增强方法。由于自编码器属于语音人脸的概率模型，为了自编码器架构对语音以及人脸图像的概率分布能够有充分的学习，需要将人脸增强算法与自编码器架构进行分离。本算法采用ESRGAN算法对生成的人脸嘴型图像进行增强，以达到4K的效果。

在可选的实施例中，缩短高精度数字人视频中不同步片段的时长，可以通过以下步骤来实现：

获取原始高精度数字人视频：首先，需要获得原始的高精度数字人视频，这可以是从摄像机或其他来源采集到的视频。

视频剪辑和分析：使用视频编辑软件或编程工具，对原始视频进行剪辑和分析。确定需要缩短时长的不同步片段，并记录它们的起始时间和结束时间。

选择合适的剪辑技术：根据需要缩短的时长，选择合适的剪辑技术。常见的剪辑技术包括剪切、删除或变速。

剪切：将不同步片段从原始视频中直接剪切掉。这样可以去除不需要的部分，但可能会导致视频流畅性的问题。

删除：在不同步片段的起始时间和结束时间之间删除一些帧或关键帧。这样可以减少视频的时长，但可能会导致画面跳动或不连续的问题。

变速：通过改变不同步片段中的帧速率或播放速度，达到缩短时长的目的。这样可以保持视频的流畅性，但可能会导致音频与视频同步不准确。

应用剪辑技术：根据选择的剪辑技术，对不同步片段进行相应的处理。使用视频编辑软件或编程工具，按照预定的时间范围进行剪切、删除或变速操作。

导出目标数字人视频：完成剪辑之后，导出剪辑过的视频文件，得到目标数字人视频。这个视频将包含缩短了时长的不同步片段。

综上可以看出，本发明具体实现了：

1、音频内容的提取方法：

为了使得提取的音频内容能够干净无噪声，因此使用了预训练的音频编码器Wav2Vec2.0

2、网络架构设计：

设计出了一种基于CBAM和FFC的自编码器架构用于音频嘴型图像的驱动和生成。

3、超分算法的引入：

为了提升到4K效果，基于ESRGAN进行图像像素的增强。

如图2，本申请实施例还提供的一种超清2D数字人生成系统。系统包括：

映射模块，用于通过面部动作视频数据集确定音频到图像像素的映射关系，并通过原始人脸图像和原始音频基于映射关系生成第一数字人视频；

生成模块，用于将第一数字人视频输入到训练完成的唇音同步模型中生成高精度数字人视频；

在本申请可选的实施例中，唇音同步模型的训练过程具体包括：

在本申请可选的实施例中，方法还包括：

并基于超分算法对生成的人脸嘴型图像进行增强。

在本申请可选的实施例中，超分算法可以为ESRGAN算法。

本申请实施例提供的超清2D数字人生成系统用于实现上述超清2D数字人生成方法，关于超清2D数字人生成系统的具体限定可以参见上文中对于超清2D数字人生成方法的限定，在此不再赘述。上述超清2D数字人生成系统中的各个部分可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于设备中的处理器中，也可以以软件形式存储于设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种超清2D数字人生成方法，其特征在于，所述方法包括：

拍摄并获取真人播报的面部动作视频数据集；

2.根据权利要求1所述的超清2D数字人生成方法，其特征在于，唇音同步模型的训练过程具体包括：

3.根据权利要求2所述的超清2D数字人生成方法，其特征在于，方法还包括：

并基于超分算法对生成的人脸嘴型图像进行增强。

4.根据权利要求3所述的超清2D数字人生成方法，其特征在于，所述超分算法可以为ESRGAN算法。

5.一种超清2D数字人生成系统，其特征在于，所述系统包括：

6.根据权利要求5所述的超清2D数字人生成系统，其特征在于，唇音同步模型的训练过程具体包括：

7.根据权利要求6所述的超清2D数字人生成系统，其特征在于，方法还包括：

并基于超分算法对生成的人脸嘴型图像进行增强。

8.根据权利要求7所述的超清2D数字人生成系统，其特征在于，所述超分算法可以为ESRGAN算法。