CN117557695A

CN117557695A - 一种音频驱动单张照片生成视频的方法及装置

Info

Publication number: CN117557695A
Application number: CN202311481775.0A
Authority: CN
Inventors: 袁海杰
Original assignee: Xiaoduo Intelligent Technology Beijing Co ltd
Current assignee: Xiaoduo Intelligent Technology Beijing Co ltd
Priority date: 2023-11-08
Filing date: 2023-11-08
Publication date: 2024-02-13

Abstract

本申请公开了一种音频驱动单张照片生成视频的方法及装置，涉及音频驱动人脸动画技术领域，通过获取图像数据集和音频数据集；将图像数据集和音频数据集进行数据预处理和匹配；提取音频数据集的音频特征；将图像数据集输入到3DMM中生成虚拟人脸的形状和纹理；将音频特征和虚拟人脸的形状和纹理输入到生成器网络中生成对应的图像帧；将图像帧按照时序顺序进行组合，得到完整的视频文件；将视频文件进行渲染，得到最终的视频文件。本申请提供的一种音频驱动单张照片生成视频的方法及装置可以准确地捕捉人脸的形状和纹理信息，从而生成逼真的人脸动画，使得音频内容与人脸图像更加匹配。

Description

一种音频驱动单张照片生成视频的方法及装置

技术领域

本申请涉及音频驱动人脸动画技术领域，具体涉及一种音频驱动单张照片生成视频的方法及装置。

背景技术

随着科技的不断发展与进步，跨模态学习和建模技术在计算机视觉、计算机图形学和多媒体等领域得到了广泛的研究和应用。音频驱动人脸动画技术作为其中的一种跨模态技术，在虚拟主播、角色扮演类游戏以及三维动画制作等领域有着重要的应用。

音频驱动人脸动画技术是一种利用音频信号来生成人脸动画的技术。它通过分析音频中的声音特征和语音内容，以及与之相关联的人脸运动数据，从而生成与音频相匹配的逼真人脸动画，能够为虚拟形象和角色赋予更真实、生动的语音表达能力。

现有的音频驱动人脸动画技术主要包括DeepAudioFace、Face2Face、Deepfake、LipGAN和Wav2Pix。

DeepAudioFace是一种使用深度学习技术生成音频驱动人脸动画的方法，它通过将人脸表情与音频特征进行关联，然后使用生成对抗网络(GAN)来生成逼真的人脸动画，该方法可以根据音频的内容和情感生成具有丰富表情的人脸动画。但是，该方法在生成音频驱动的人脸动画时，存在人脸形状和纹理失真的问题。由于模型对人脸的形状和纹理进行学习，如果输入的音频与训练数据中的音频差异较大，生成的人脸动画可能会失真或不准确。

Face2Face也是一种使用深度学习技术实现音频驱动人脸动画的方法，它通过将人脸的形状和纹理与音频特征进行对齐，并使用卷积神经网络(CNN)对人脸进行重建，该方法可以生成具有高度准确性和逼真性的人脸动画，能够根据音频的内容和情感进行表情变化。但是，该方法在音频驱动的人脸动画生成中，存在嘴唇同步不准确的问题。由于模型对音频和人脸之间的对齐进行学习，如果音频与人脸的运动不完全匹配，生成的嘴唇动画可能会与音频不同步，导致出现不自然的效果。

Deepfake是一种以深度学习为基础的技术，它可以将一个人的脸部特征合成到另一个人的图像或视频中，从而实现逼真的人脸替换。该方法可以将音频驱动的人脸生成与图像合成相结合，从而生成具有音频驱动的人脸动画。但是，该方法存在伦理道德和隐私问题。由于其能够将一个人的脸部特征合成到另一个人的图像或视频中，因此可能被滥用于虚假信息传播、身份欺诈等，从而损害个人隐私和社会安全。

LipGAN是一种使用深度学习技术生成音频驱动的嘴唇动画的方法，它通过将音频的声音特征与嘴唇的运动进行关联，并使用生成对抗网络(GAN)生成逼真的嘴唇动画。该方法可以根据音频的内容和情感生成准确的嘴唇运动，实现逼真的嘴唇同步效果。但是，该方法在音频驱动的嘴唇动画生成中，存在嘴唇形状和运动不准确的问题。由于模型对音频和嘴唇之间的关联进行学习，如果音频的语音内容复杂或存在口音等特殊情况，生成的嘴唇动画可能会出现错误的形状和运动。

Wav2Pix是一种使用深度学习技术实现音频驱动的图像生成的方法，它通过将音频特征与图像特征进行关联，并使用生成对抗网络(GAN)生成逼真的图像。该方法可以根据音频的内容和情感生成具有高质量和真实感的图像。但是，该方法在音频驱动的图像生成中，可能存在生成图像质量不高的问题。由于模型对音频和图像之间的关联进行学习，如果音频的内容和情感较复杂，生成的图像可能会出现模糊、失真或不真实的情况。

综上可知，现有的音频驱动人脸动画技术由于模型复杂度高、所需算力过多以及训练时间过长等导致训练过程中特征图的冗余信息过多，从而导致生成的图像可能会出现细节不清晰、纹理模糊或形状失真等问题，使得生成的结果与真实图像之间存在明显的差异，而且对于包含复杂语音内容或多种情感表达的音频，其难以准确地捕捉到其细微的变化和特征，导致生成的人脸动画缺乏对应的表情和情感变化，无法准确地反映音频内容的丰富性。

发明内容

为此，本申请提供一种音频驱动单张照片生成视频的方法及装置，以解决现有技术生成的人脸动画不逼真以及与音频不匹配的问题。

为了实现上述目的，本申请提供如下技术方案：

第一方面，一种音频驱动单张照片生成视频的方法，包括：

步骤1：获取图像数据集和音频数据集；

步骤2：将所述图像数据集和所述音频数据集进行数据预处理和匹配；

步骤3：提取所述音频数据集的音频特征；

步骤4：将所述图像数据集输入到3DMM中生成虚拟人脸的形状和纹理；

步骤5：将所述音频特征和所述虚拟人脸的形状和纹理输入到生成器网络中生成对应的图像帧；

步骤6：将所述图像帧按照时序顺序进行组合，得到完整的视频文件；

步骤7：将所述视频文件进行渲染，得到最终的视频文件。

作为优选，所述步骤3中，提取所述音频特征时采用torch audio库中的Mel频率倒谱系数转换来提取。

作为优选，所述步骤5中，所述生成器网络为StyleGAN模型或VAE-GAN模型。

作为优选，所述步骤5中，所述生成器网络生成对应的图像帧时采用U-Net进行图像分割。

作为优选，所述步骤5中，所述生成器网络生成对应的图像帧时使用FILM根据所述音频特征动态调整所述生成器网络中的特征表示。

作为优选，所述步骤5中，所述生成器网络生成对应的图像帧时使用混合自注意力学习来提取图像的局部特征。

作为优选，所述步骤5中，所述生成器网络生成对应的图像帧时使用感知损失和L1损失来衡量生成图像与原图像之间的差异。

作为优选，所述步骤5中，所述生成器网络生成对应的图像帧时使用AdaIN将所述音频特征和所述虚拟人脸的形状和纹理进行融合。

第二方面，一种音频驱动单张照片生成视频的装置，包括：

数据获取模块，用于获取图像数据集和音频数据集；

数据处理模块，用于将所述图像数据集和所述音频数据集进行数据预处理和匹配；

特征提取模块，用于提取所述音频数据集的音频特征；

人脸形状和纹理生成模块，用于将所述图像数据集输入到3DMM中生成虚拟人脸的形状和纹理；

图像生成模块，用于将所述音频特征和所述虚拟人脸的形状和纹理输入到生成器网络中生成对应的图像帧；

视频合成模块，用于将所述图像帧按照时序顺序进行组合，得到完整的视频文件；

视频渲染模块，用于将所述视频文件进行渲染，得到最终的视频文件。

第三方面，一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现一种音频驱动单张照片生成视频的方法的步骤。

相比现有技术，本申请至少具有以下有益效果：

本申请提供了一种音频驱动单张照片生成视频的方法及装置，通过获取图像数据集和音频数据集；将图像数据集和音频数据集进行数据预处理和匹配；提取音频数据集的音频特征；将图像数据集输入到3DMM中生成虚拟人脸的形状和纹理；将音频特征和虚拟人脸的形状和纹理输入到生成器网络中生成对应的图像帧；将图像帧按照时序顺序进行组合，得到完整的视频文件；将视频文件进行渲染，得到最终的视频文件。本申请提供的一种音频驱动单张照片生成视频的方法及装置可以准确地捕捉人脸的形状和纹理信息，从而生成逼真的人脸动画，使得音频内容与人脸图像更加匹配。

附图说明

为了更直观地说明现有技术以及本申请，下面给出几个示例性的附图。应当理解，附图中所示的具体形状、构造，通常不应视为实现本申请时的限定条件；例如，本领域技术人员基于本申请揭示的技术构思和示例性的附图，有能力对某些单元(部件)的增/减/归属划分、具体形状、位置关系、连接方式、尺寸比例关系等容易作出常规的调整或进一步的优化。

图1为本申请实施例一提供的一种音频驱动单张照片生成视频的方法流程图。

具体实施方式

以下结合附图，通过具体实施例对本申请作进一步详述。

在本申请的描述中：除非另有说明，“多个”的含义是两个或两个以上。本申请中的术语“第一”、“第二”、“第三”等旨在区别指代的对象，而不具有技术内涵方面的特别意义(例如，不应理解为对重要程度或次序等的强调)。“包括”、“包含”、“具有”等表述方式，同时还意味着“不限于”(某些单元、部件、材料、步骤等)。

本申请中所引用的如“上”、“下”、“左”、“右”、“中间”等的用语，通常是为了便于对照附图直观理解，而并非对实际产品中位置关系的绝对限定。在未脱离本申请揭示的技术构思的情况下，这些相对位置关系的改变，当亦视为本申请表述的范畴。

实施例一

请参阅图1，本实施例提供了一种音频驱动单张照片生成视频的方法，包括：

步骤1：获取图像数据集和音频数据集；

步骤2：将图像数据集和音频数据集进行数据预处理和匹配；

具体的，将图像数据集和音频数据集进行数据预处理和匹配是为了确保它们可以在后续的步骤中正确地对应和使用。

步骤3：提取音频数据集的音频特征；

具体的，音频特征提取是将原始音频信号转换为可用于模型处理的特征表示的过程。本步骤采用torch audio库中的MFCC(Mel频率倒谱系数)转换来提取音频特征。

步骤4：将图像数据集输入到3DMM中生成虚拟人脸的形状和纹理；

具体的，3DMM(3D Morphable Model)是一种用于对人脸形状和纹理进行建模的统计模型，它通过对大量人脸数据进行分析和建模，可以捕捉人脸的形状和纹理的变化。本步骤使用3DMM来生成虚拟人脸的形状和纹理，可以准确地捕捉人脸的形状和纹理信息，从而生成逼真的人脸动画。

步骤5：将音频特征和虚拟人脸的形状和纹理输入到生成器网络中生成对应的图像帧；

具体的，生成器网络可以是StyleGAN模型，也可以是VAE-GAN模型。StyleGAN是一种生成对抗网络(GAN)的变体，可以用于生成逼真的图像，它通过引入样式向量来控制生成图像的风格和变化。在本方法中，StyleGAN可以用于生成器网络的训练和生成过程中，以提高生成图像的质量和多样性。VAE-GAN模型是一种结合了VAE和GAN的生成模型，它可以同时考虑图像的重构和生成质量，在本方法中，可以使用VAE-GAN模型，通过学习音频特征的潜在表示和对应的图像生成，实现高质量的人脸图像生成。

本步骤中，生成器网络输入音频特征和3DMM生成的虚拟人脸的形状和纹理参数，并生成对应的图像帧。为了提高生成图像的质量和逼真度，本步骤采用了U-Net、FILM、混合自注意力学习、感知损失、L1损失和AdaIN等技术。

U-Net是一种用于图像分割的深度学习网络结构。它由一个编码器和一个解码器组成，它通过跳跃连接的方式将低级特征和高级特征进行融合，提高了图像分割的准确性。在本方法中，U-Net可以用于图像生成过程中的图像分割任务，以提高生成图像的质量和真实感。

FILM(Feature-wise LinearModulation)是一种用于图像生成的技术，通过线性调制特征图的均值和方差，以增强生成器网络对不同条件的适应能力。在本方法中，FILM可以用于生成器网络的条件输入，以根据音频特征动态调整生成器网络中的特征表示，从而生成与音频内容相匹配的人脸图像。

混合自注意力学习是一种用于提取特征的技术，它可以在特征图中学习不同的特征。在本方法中，使用混合自注意力学习来提取图像的局部特征，以提高生成图像与音频的一致性，从而增强低分辨率特征。自注意力机制可以有效地捕捉图像中的长程依赖关系，并提高图像特征的表示能力。

感知损失是一种损失函数，它可以衡量生成图像与真实图像之间的差异。在本方法中，可以使用感知损失来衡量生成图像与原图像之间的差异，帮助优化生成模型的训练，从而生成更逼真的人脸图像。

L1损失是一种基于像素级别的损失函数，用于衡量生成图像和真实图像之间的差异，它计算生成图像和真实图像之间每个像素的绝对差值，并求和得到总的损失值。在本方法中，L1损失可以用作生成器网络的损失函数之一，以促使生成图像与真实图像在像素级别上更加接近。

AdaIN(Adaptive Instance Normalization)是一种用于图像风格迁移的技术，通过调整图像的均值和方差，将一个图像的风格应用到另一个图像上。在本方法中，AdaIN可以用于生成器网络的条件输入，以将音频特征和虚拟人脸的形状和纹理进行融合，生成具有音频驱动特征的图像。AdaIN通过对抗训练的自编码器网络，能够学习到音频和图像之间的对应关系，从而实现根据音频生成对应的人脸图像。

在图像生成过程中，根据音频的时序信息逐帧生成图像，从而生成完整的视频。通过将连续的图像帧组合在一起，形成一个流畅的人脸动画，使其与音频内容和情感一致。

通过本步骤的图像生成能够将虚拟人脸的形状和纹理转换为逼真的图像帧，实现根据音频内容和情感生成动态的人脸动画，这为最终的音频驱动单张图片生成视频的目标提供了基础，使的能够以视觉的方式呈现音频的内容和情感。

步骤6：将图像帧按照时序顺序进行组合，得到完整的视频文件；

在视频合成阶段，将生成的图像帧按照一定的时序顺序组合起来，形成一个完整的视频。

步骤7：将视频文件进行渲染，得到最终的视频文件。

在视频渲染和输出阶段，将合成的视频进行渲染，各种后处理然后输出为最终的视频文件。

本实施例提供的一种音频驱动单张照片生成视频的方法可以准确地捕捉人脸的形状和纹理信息，从而生成逼真的人脸动画，使得音频内容与人脸图像更加匹配。

实施例二

本实施例提供了一种音频驱动单张照片生成视频的装置，包括：

数据获取模块，用于获取图像数据集和音频数据集；

数据处理模块，用于将图像数据集和音频数据集进行数据预处理和匹配；

特征提取模块，用于提取音频数据集的音频特征；

人脸形状和纹理生成模块，用于将图像数据集输入到3DMM中生成虚拟人脸的形状和纹理；

图像生成模块，用于将音频特征和虚拟人脸的形状和纹理输入到生成器网络中生成对应的图像帧；

视频合成模块，用于将图像帧按照时序顺序进行组合，得到完整的视频文件；

视频渲染模块，用于将视频文件进行渲染，得到最终的视频文件。

关于一种音频驱动单张照片生成视频的装置的具体限定可以参见上文中对于一种音频驱动单张照片生成视频的方法的限定，在此不再赘述。

实施例三

本实施例提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现一种音频驱动单张照片生成视频的方法的步骤。

以上实施例的各技术特征可以进行任意的组合(只要这些技术特征的组合不存在矛盾)，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述；这些未明确写出的实施例，也都应当认为是本说明书记载的范围。

上文中通过一般性说明及具体实施例对本申请作了较为具体和详细的描述。应当理解，基于本申请的技术构思，还可以对这些具体实施例作出若干常规的调整或进一步的创新；但只要未脱离本申请的技术构思，这些常规的调整或进一步的创新得到的技术方案也同样落入本申请的权利要求保护范围。

Claims

1.一种音频驱动单张照片生成视频的方法，其特征在于，包括：

步骤1：获取图像数据集和音频数据集；

步骤3：提取所述音频数据集的音频特征；

步骤7：将所述视频文件进行渲染，得到最终的视频文件。

2.根据权利要求1所述的音频驱动单张照片生成视频的方法，其特征在于，所述步骤3中，提取所述音频特征时采用torch audio库中的Mel频率倒谱系数转换来提取。

3.根据权利要求1所述的音频驱动单张照片生成视频的方法，其特征在于，所述步骤5中，所述生成器网络为StyleGAN模型或VAE-GAN模型。

4.根据权利要求1所述的音频驱动单张照片生成视频的方法，其特征在于，所述步骤5中，所述生成器网络生成对应的图像帧时采用U-Net进行图像分割。

5.根据权利要求1所述的音频驱动单张照片生成视频的方法，其特征在于，所述步骤5中，所述生成器网络生成对应的图像帧时使用FILM根据所述音频特征动态调整所述生成器网络中的特征表示。

6.根据权利要求1所述的音频驱动单张照片生成视频的方法，其特征在于，所述步骤5中，所述生成器网络生成对应的图像帧时使用混合自注意力学习来提取图像的局部特征。

7.根据权利要求1所述的音频驱动单张照片生成视频的方法，其特征在于，所述步骤5中，所述生成器网络生成对应的图像帧时使用感知损失和L1损失来衡量生成图像与原图像之间的差异。

8.根据权利要求1所述的音频驱动单张照片生成视频的方法，其特征在于，所述步骤5中，所述生成器网络生成对应的图像帧时使用AdaIN将所述音频特征和所述虚拟人脸的形状和纹理进行融合。

9.一种音频驱动单张照片生成视频的装置，其特征在于，包括：

数据获取模块，用于获取图像数据集和音频数据集；

特征提取模块，用于提取所述音频数据集的音频特征；

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。