CN116884066A

CN116884066A - 一种基于唇型合成技术的2d真人数字化身生成方法

Info

Publication number: CN116884066A
Application number: CN202310839290.8A
Authority: CN
Inventors: 邓珺礼; 杨雪婷; 任笑田; 范肇心; 徐昊
Original assignee: Shenstrontium Technology Beijing Co ltd
Current assignee: Shenstrontium Technology Beijing Co ltd
Priority date: 2023-07-10
Filing date: 2023-07-10
Publication date: 2023-10-13

Abstract

本发明公开了一种基于唇型合成技术的2D真人数字化身生成方法，属于计算机音频分析和图像处理技术领域，包括以下步骤：S1、数据预处理；S2、音频特征提取；S3、人脸特征提取；S4、音频到唇形的映射，使用基于卷积神经网络的唇型合成器，将音频特征和人脸特征合并后映射到唇部区域的像素输出；S5、高清人脸修复，包括学习高清人脸图像特征码本、码表查询网络学习和可控特征融合模块学习；S6、后处理。本发明一种基于唇型合成技术的2D真人数字化身生成方法，从大量数据中学习人脸及唇部的模型和特征，自动进行建模和合成，节省时间和人力资源；通过学习真实数据的分布、仅改变唇型的算法设计和人脸修复网络的后处理，使生成的数字化身更具逼真感。

Description

一种基于唇型合成技术的2D真人数字化身生成方法

技术领域

本发明涉及计算机音频分析和图像处理技术领域，尤其是涉及一种基于唇型合成技术的2D真人数字化身生成方法。

背景技术

真人数字化身生成在虚拟现实和增强现实领域有广泛的应用。通过合成逼真的数字化身与用户进行互动，可以增强用户在虚拟环境中的沉浸感和参与感，提供更加真实的虚拟体验。

数字化身通常通过手工建模的方式来创建。这种方法涉及人工设计和建模师使用专业的建模软件，根据人体解剖知识和参考资料来逐步创建人体模型。然而，这种手工建模的过程非常耗时且需要大量的人力资源。此外，手工建模的过程也可能存在一些准确性和逼真感的挑战。建模师需要根据自己的经验和感受来调整人体模型的比例、形状和细节等，很难保证每个人物的唇形能够被准确地建模和同步。因此，传统的数字化身生成方法存在工作量大，泛化性差，真实感弱等问题。

发明内容

本发明的目的是提供一种基于唇型合成技术的2D真人数字化身生成方法，从大量的数据中学习人脸及唇部的模型和特征，自动进行建模和合成，大大节省了时间和人力资源；同时，通过学习真实数据的分布、仅改变唇型的算法设计以及人脸修复网络的后处理，使得生成的数字化身更具逼真感。本方法不仅在数字娱乐、人机交互等领域具有广泛应用前景，还可以为智能医疗、公共安全等领域提供有力支持。

为实现上述目的，本发明提供了一种基于唇型合成技术的2D真人数字化身生成方法，包括以下步骤：

S1、数据预处理，对音频和视频进行预处理；

S2、音频特征提取，使用音频特征编码器对每个语音片段的音频进行特征处理；音频特征包括音频的语义信息和音频的时间信息；

S3、人脸特征提取，使用人脸特征编码器对视频帧中的人脸进行特征提取；人脸特征包括人脸的形状、纹理和运动信息；

S4、音频到唇形的映射，使用基于卷积神经网络的唇型合成器，将音频特征和人脸特征合并后映射到唇部区域的像素输出；

S5、高清人脸修复，包括学习高清人脸图像特征码本、码表查询网络学习和可控特征融合模块学习；

S6、后处理。

优选的，所述S4中生成包括合成唇形的低清人脸图像帧，通过唇型同步专家网络求得唇型同步损失，通过判别器求得人脸保真度损失。

优选的，所述S5的学习高清人脸图像特征码本中，首先通过高清人脸自我重建学习，训练向量离散化生成对抗网络，得到高清码本空间，该高清码本空间作为本方法的离散人脸先验。

优选的，所述S5的码表查询网络学习中，基于得到的高清码本空间，在原编码器后嵌入一个Transformer模块，对低清人脸特征进行全局建模，以实现更好的代码序列预测。

优选的，所述S5的可控特征融合模块学习中，由于向量离散化生成对抗网络的码本空间并不能百分百完美地重建出任意人脸，比如个人特有面部特征或首饰，引入可控特征融合模块来控制对输入低清人脸的依赖，通过设计可控特征融合模块控制编码器特征和解码器特征融合的比例；调小编码器特征融合的比例，模型输出质量更高；调大编码器特征融合的比例，模型输出能保持更好的身份一致性；在本方法中，保留了较多的编码器特征，以保证最后输出图像帧的身份一致性。

因此，本发明一种基于唇型合成技术的2D真人数字化身生成方法，具有以下有益效果：

(1)保留真实人脸的特征，唇型驱动方法直接利用真实人脸的唇形运动来生成虚拟数字化身的唇形动画。这样可以保留真实人脸的特征，使得虚拟数字化身更加逼真。

(2)提高生成效率，唇型驱动方法只需要关注唇部区域的运动和表情，全脸生成的算法来说，需要生成的参数更少，从而提高了生成的效率；这对于实时应用、如视频聊天或实时游戏中的虚拟数字化身生成是非常重要的。人脸修复算法固定解码器和码表，只需学习Transformer模块并微调编码器。将原本的复原任务转变为离散代码序列预测任务，区别于传统人脸图像复原任务的固有范式，提升了图像修复网络的速度。

(3)提供更好的个性化表达，唇型驱动方法可以更好地捕捉每个人的独特的唇形动作和特征。个人的唇形特征在区分口型和语音特征上起到了重要作用，通过对特定目标人物微调的唇型驱动方法可以更好地保留和表达个体的口型和语音特征，使得虚拟数字化身具有更好的个性化特点。

(4)具有更强的鲁棒性，人脸修复网络可以帮助修复一些由于输入图像质量较低或变化较大而导致的错误合成。为了降低低清图像到高清图像映射之间的不确定性，我们设计尽量小的码本空间和尽量短的码本序列作为人脸的离散表达。因此，我们采用了大的压缩比(32倍)，即将原来的人脸图片压缩为的离散码本序列。该设计使得码本中代码具有更丰富的上下文信息，有助于提升网络表达能力以及鲁棒性。

(5)并行计算优势，本方法基于CV-CUDA库对计算密集型的图像处理操作，如高斯滤波、仿射变换等，在GPU上实现了并行执行。利用现代GPU专门优化的硬件单元，如纹理内存、共享内存等，进行更高效的图像数据访问和计算，分发挥GPU的并行计算能力，提高算法的效率。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明一种基于唇型合成技术的2D真人数字化身生成方法实施例的流程图。

具体实施方式

以下通过附图和实施例对本发明的技术方案作进一步说明。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

实施例

如图1所示，本实施例使用了PyTorch和CV-CUDA库进行实现。

S1、数据预处理：从输入的视频中提取每一帧的音频，通过RetinaFace算法提取人脸图像。

S2、音频特征提取：对音频进行处理，提取音频梅尔频谱(Mel Spectrogram)并经过卷积神经网络得到音频特征图。

S3、人脸特征提取：对每一帧的人脸图像进行预处理，包括人脸检测、对齐等步骤并经过卷积神经网络提取出人脸区域的特征。

S4、音频到唇形的映射：基于U-net架构，将音频特征与人脸特征进行特征融合。融合特征经过生成器输出为带合成唇型的人脸视频帧

S5、高清人脸修复：通过Transformer进行全局人脸建模，在码表中找到对应高清人脸图像的特征代码序列，生成器根据高清人脸图像的特征代码序列，并结合可控特征融合模块传过来的人脸身份特征，输出高清人脸图像。

S6、后处理：采用CV-CUDA库对图像处理算子进行并行化加速，将抠出来的人脸图像拼接回目标人物人体，并进行膨胀腐蚀，边缘高斯模糊等步骤提高图像帧的逼真度，最后通过FFmpeg将图像帧合成为一个连续的视频。

本实施例实现了以下功能：在给定目标语音以及要转化的原视频的前提下，生成视频人物唇形与目标语音同步且脸部贴切的视频，生成了视频人物的真人数字化身。

因此，本发明一种基于唇型合成技术的2D真人数字化身生成方法，从大量的数据中学习人脸及唇部的模型和特征，自动进行建模和合成，大大节省了时间和人力资源。同时，通过学习真实数据的分布、仅改变唇型的算法设计以及人脸修复网络的后处理，使得生成的数字化身更具逼真感。本方法不仅在数字娱乐、人机交互等领域具有广泛应用前景，还可以为智能医疗、公共安全等领域提供有力支持。

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims

1.一种基于唇型合成技术的2D真人数字化身生成方法，其特征在于，包括以下步骤：

S1、数据预处理，对音频和视频进行预处理；

S2、音频特征提取，使用音频特征编码器对每个语音片段的音频进行特征处理；

S3、人脸特征提取，使用人脸特征编码器对视频帧中的人脸进行特征提取；

S6、后处理。

2.根据权利要求1所述的一种基于唇型合成技术的2D真人数字化身生成方法，其特征在于：所述S4中生成包括合成唇形的低清人脸图像帧，通过唇型同步专家网络求得唇型同步损失，通过判别器求得人脸保真度损失。

3.根据权利要求2所述的一种基于唇型合成技术的2D真人数字化身生成方法，其特征在于：所述S5的学习高清人脸图像特征码本中，首先通过高清人脸自我重建学习，训练向量离散化生成对抗网络，得到高清码本空间。

4.根据权利要求3所述的一种基于唇型合成技术的2D真人数字化身生成方法，其特征在于：所述S5的码表查询网络学习中，基于得到的高清码本空间，在原编码器后嵌入一个Transformer模块，对低清人脸特征进行全局建模。

5.根据权利要求4所述的一种基于唇型合成技术的2D真人数字化身生成方法，其特征在于：所述S5的可控特征融合模块学习中，引入可控特征融合模块，控制编码器特征和解码器特征融合的比例。