CN113793408A

CN113793408A - 一种实时音频驱动人脸生成方法、装置及服务器

Info

Publication number: CN113793408A
Application number: CN202111082204.0A
Authority: CN
Inventors: 司马华鹏; 屈奇勋; 范宏伟; 李佳斌
Original assignee: Suqian Silicon Based Intelligent Technology Co ltd
Current assignee: Suqian Silicon Based Intelligent Technology Co ltd
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2021-12-14
Anticipated expiration: 2041-09-15
Also published as: CN113793408B

Abstract

一种实时音频驱动人脸生成方法、装置及服务器，方法包括：获取训练视频的图像信息和与训练视频同步的音频信息；对图像信息进行特征提取，得到每帧图像的人脸姿态特征和像素位置特征；对音频信息进行特征提取，得到每帧图像的音频特征；构建神经辐射场模型，根据每帧图像的人脸姿态特征、像素位置特征和所述音频特征训练神经辐射场模型，以获取目标神经辐射场模型；输入与目标视频同步的音频信息至目标神经辐射场模型中进行图像渲染，以生成当前视角及音频条件下的目标图像。本申请通过使用包括编码器和解码器结构的卷积神经网络作为神经辐射场模型，以及将图像像素位置特征作为输入训练神经辐射场，从而达到实时语音驱动人脸视频的生成。

Description

一种实时音频驱动人脸生成方法、装置及服务器

技术领域

本申请涉及人脸图像处理技术领域，尤其涉及一种实时音频驱动人脸生成方法、装置及服务器。

背景技术

随着近年来图像处理领域技术的发展，基于人工智能的音频驱动人脸视频在众多场景下使用广泛，例如，远程视频会议、虚拟角色生成、三维人脸动画制作和动画视频创作等。与视频图像驱动技术不同的是，基于音频驱动人脸视频生成是根据输入的音频信息中的特征信息，来预测面部形变。例如，构建一个神经网络模型，对模型依次进行训练和学习。当输入一段音频数据之后，神经网络模型会根据输入的音频作出相应的人脸表情。

目前通常采用多层感知器对神经辐射场模型进行训练和学习。多层感知器是将图像像素作为输入，根据图像像素对应的特征向量对像素的颜色值进行回归，以获得后续渲染图像。上述方法虽然能够生成人脸视频，但运行效率低，且无法基于音频驱动实时生成人脸视频。

发明内容

本申请提供了一种实时音频驱动人脸生成方法、装置及服务器，以解决无法基于音频驱动实时生成人脸视频的问题。

第一方面，本申请提供了一种实时音频驱动人脸生成方法，包括：

获取训练视频的图像信息和与所述训练视频同步的音频信息；

对所述图像信息进行特征提取，得到每帧图像的人脸姿态特征和像素位置特征；

对所述音频信息进行特征提取，得到每帧图像的音频特征；

构建神经辐射场模型，所述神经辐射场模型用于生成渲染图像；

根据每帧图像的所述人脸姿态特征、像素位置特征和所述音频特征训练所述神经辐射场模型，以获取目标神经辐射场模型；

将输入地与目标视频同步的音频信息作为条件信息，使用所述目标神经辐射场模型进行图像渲染，以生成当前视角及音频条件下的目标图像。

进一步地，所述像素位置特征由以下步骤得到：

根据所述图像信息获取每帧图像的图像尺寸，所述图像尺寸对应的图像包括多个像素，所述像素对应有原始像素位置特征；

将每个所述像素利用预设公式进行编码，得到每个所述像素对应编码后的像素位置特征；

将所述编码后的像素位置特征与所述原始像素位置特征进行拼接并更新所述原始像素位置特征，以获得更新后的像素位置特征。

进一步地，所述神经辐射场模型包括卷积网络编码器和卷积网络解码器；

所述卷积网络编码器包括卷积层、激活层、池化层和归一化层，所述卷积网络解码器卷积层、激活层、归一化层、升采样层和反卷积层。

进一步地，将所述图像信息进行特征提取，得到每帧图像的人脸姿态特征；包括：

获取人脸视频集合，所述人脸视频集合包括多个区域子集合；所述多个区域子集合包括图像非人脸区域、不包含唇部的人脸区域和上唇、下唇及双唇所包围的区域；

对多个所述区域子集合逐帧进行分割得到多个所述区域子集合对应的每帧分割结果；

将多个所述区域子集合对应的每帧分割结果采用不同数值进行对应标记。

进一步地，还包括：

对所述每帧分割结果进行人脸关键点检测，得到二维人脸关键点；

将所述二维人脸关键点与预设三维人脸模型进行关键点匹配，得到对应的三维人脸关键点；

根据所述二维人脸关键点和对应的所述三维人脸关键点确定关键点转换关系；

根据所述关键点转换关系获取当前图像的人脸姿态特征；

将所述人脸姿态特征进行特征变换，得到对应的摄像机姿态特征；所述摄像机姿态特征包括摄像机相对人脸的旋转矩阵和平移向量。

进一步地，还包括：

获取全部帧的所述平移向量，根据全部帧的所述平移向量计算所述平移向量的均值及标准差；

根据所述平移向量的均值及标准差对全部帧的所述平移向量进行标准化处理，获得像素姿态特征。

进一步地，根据每帧图像的所述人脸姿态特征和所述音频特征训练所述神经辐射场模型，包括：

将所述训练视频中每帧图像的所述像素位置特征、像素姿态特征和音频特征作为条件信息，输入至所述神经辐射场模型中进行图像渲染生成渲染图像；

根据所述渲染图像与所述训练视频的原图像计算得到预设损失函数，所述预设损失函数用于反向传播并训练所述神经辐射场模型，以生成所述目标神经辐射场模型。

进一步地，还包括：

通过所述摄像机姿态特征确定摄像机姿态方向；

对所述训练视频中每帧图像在所述摄像机姿态方向上进行采样，得到多个采样点；

根据所述像素姿态特征、所述像素位置特征与所述音频特征得到多个所述采样点处的像素颜色值和像素密度值；

将多个所述采样点处的所述像素颜色值和像素密度值进行渲染，以获得渲染图像。

第二方面，本申请提供了一种实时音频驱动人脸生成装置，包括：

获取模块，获取训练视频的图像信息和与所述训练视频同步的音频信息；对所述图像信息进行特征提取，得到每帧图像的人脸姿态特征和像素位置特征；对所述音频信息进行特征提取，得到每帧图像的音频特征；

训练模块，用于构建神经辐射场模型，所述神经辐射场模型用于生成渲染图像；根据每帧图像的所述人脸姿态特征、像素位置特征和所述音频特征训练所述神经辐射场模型，以获取目标神经辐射场模型；

渲染模块，用于将输入地与目标视频同步的音频信息作为条件信息，使用所述目标神经辐射场模型进行图像渲染，以生成当前视角及音频条件下的目标图像。

第三方面，本申请提供了一种服务器，包括存储器和处理器，所述存储器中存储有程序指令，所述处理器通过运行所述程序指令，执行下述步骤：

对所述音频信息进行特征提取，得到每帧图像的音频特征；

由以上技术方案可知，基于本申请提供的实时音频驱动人脸生成方法，通过使用包括编码器和解码器结构的卷积神经网络作为神经辐射场模型，以及使用图像像素位置特征作为输入用于训练神经辐射场。显著提升了音频驱动人脸生成过程的运算速度，达到实时语音驱动人脸视频的生成。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单的介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示例性示出了本申请实施例提供的实时音频驱动人脸生成方法的流程示意图；

图2示例性示出了本申请实施例提供的神经辐射场模型的结构示意图；

图3示例性示出了本申请实施例提供的神经辐射场模型训练过程的流程示意图；

图4示例性示出了本申请实施例提供的神经辐射场模型推断过程的流程示意图。

具体实施方式

为使本申请的目的和实施方式更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三” 等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其他组件。术语“模块”是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

本申请公开了一种实时音频驱动人脸生成方法，方法是根据一段3-5分钟的人脸讲话视频，通过使用包括编码器和解码器结构的卷积神经网络作为神经辐射场模型，以及使用图像像素位置特征作为输入训练神经辐射场模型，即为神经辐射场模型的训练过程。进一步地，进行神经辐射场模型的运用过程。将目标视频对应的连续音频片段输入至训练完成的神经辐射场模型中，借助图像渲染技术，实时生成并渲染高质量的人脸目标视频。为便于说明，在下述实施例中，将神经辐射场模型的训练过程称为模型训练过程。将神经辐射场模型的运用过程称为模型推断过程。

本申请提供的实时音频驱动人脸生成方法，参见图1，该方法可以包括如下步骤：

S1，获取训练视频的图像信息和与训练视频同步的音频信息；对图像信息进行特征提取，得到每帧图像的人脸姿态特征和像素位置特征；对音频信息进行特征提取，得到每帧图像的音频特征。

示例性的，获取的训练视频为单人讲话视频，视频中人物所做动作为正面面对摄像机讲话。训练视频的数据获取可以通过爬取网络视频或自制视频等两种方式。视频数据包括多个视频属性。其中，视频画面颜色为彩色，视频中人物讲话时间长度为3至5分钟，视频分辨率为720P、1080P、2K或4K，视频帧率为25帧/秒，视频的音频码率为 128kb/s，音频采样率为44100Hz。在上述视频属性中，除视频时间长度和分辨率外，其他属性可根据实际情况自行设计。

示例性的，获取与训练视频同步的音频信息，进行音频特征提取。音频特征提取具体包括以下步骤：S11，对原始的视频音频重采样至一固定采样频率；S12，使用重采样后的音频，计算音频的频域特征，可以采用梅尔频谱或梅尔倒谱系数；S13，将音频的频域特征输入语音识别模型，提取出语音识别模型中间隐层特征，此语音识别模型可为中文语音识别模型，也可为非中文语音识别模型；S14，将音频的频域特征与语音识别模型中间隐层特征进行对应帧拼接，获得新的音频特征。即得到每帧图像对应音频的音频特征。

需要说明的是，S12为必要步骤，即可以仅使用音频的频域特征作为音频特征。S11为可选步骤，即也可以不对视频的音频做重采样操作。S13为可选步骤，即可以不使用语音识别模型中间隐层特征作为音频特征；在未做S13的情况下，不需要S14。在进行 S13的情况下，S14也为可选步骤，即仅使用语音识别模型中间隐层特征作为音频特征。综上，视频的音频特征可分为三种情况，音频的频域特征、语音识别模型中间隐层特征或两种特征的拼接，三种特征可根据实际情况选择其中一种。

在一些实施例中，S1中还包括：获取人脸视频集合，人脸视频集合包括多个区域子集合；多个区域子集合包括图像非人脸区域、不包含唇部的人脸区域和上唇、下唇及双唇所包围的区域；对多个区域子集合逐帧进行分割得到多个区域子集合对应的每帧分割结果；将多个区域子集合对应的每帧分割结果采用不同数值进行对应标记。

示例性的，通过采集训练视频的图像信息，从获取的图像信息中裁剪出人脸部分。人脸部分的裁剪方法包括人工裁剪和自动裁剪。人工裁剪是通过人对视频每一帧图像的观察，手动划定出一固定图像区域，使视频每帧图像中的人脸区域均被包含在此手动划定的区域，将视频每帧图像中的此人工划定区域提取出来，产生新的仅包含人脸区域的视频。自动裁剪是通过人脸检测算法，自动检测视频每一帧图像中的人脸区域，然后根据所有帧图像的人脸检测区域，计算出一更大的图像区域，使得所有帧图像的人脸检测区域均为此更大区域的子集，将视频每帧图像中的此更大区域提取出来，产生新的仅包含人脸区域的视频。

进一步地，获取包含人脸区域的视频集合，人脸视频集合包括多个区域子集合；使用人脸分割模型，对多个区域子集合逐帧进行分割，获得视频每帧图像不同区域的掩模。不同区域子集合包括非人脸区域(背景、人体躯干部分等)，不包含唇部的人脸区域，上唇、下唇及双唇所包围的区域。将每个区域得到的视频每帧图像的分割结果使用不同的数值进行对应标记。

在一些实施例中，S1还包括：对每帧分割结果进行人脸关键点检测，得到二维人脸关键点；将二维人脸关键点与预设三维人脸模型进行关键点匹配，得到对应的三维人脸关键点；根据二维人脸关键点和对应的三维人脸关键点确定关键点转换关系；根据关键点转换关系获取当前图像的人脸姿态特征；将人脸姿态特征进行特征变换，得到对应的摄像机姿态特征；摄像机姿态特征包括摄像机相对人脸的旋转矩阵和平移向量。

示例性的，获取视频每帧图像包括人脸区域子集合，可以理解的是，使用仅包含人脸区域的视频。从视频每帧图像中检测二维人脸关键点，将二维人脸关键点匹配至一固定的三维人脸模型的关键点，对应求解三维关键点和对应二维关键点的转换关系，估计出当前视频帧图像中人脸相对摄像机的旋转矩阵和平移向量，用以获得当前视频帧图像的人脸姿态特征。对视频中每一帧均计算出人脸姿态特征。记每帧人脸姿态特征的旋转矩阵为

平移向量为

其中

均为列向量。根据第一公式，变换此人脸特征，获得摄像机相对人脸的姿态特征，获得的旋转矩阵为R_c，平移向量为

在视频拍摄过程中，摄像机姿态固定，人脸姿态是动态变化的。经过此变换后，人脸姿态是固定的，相对地，摄像机姿态是动态变化的。即得到人脸区域视频中每帧图像的摄像机姿态特征。

第一公式为：

其中，R_f为人脸姿态特征的旋转矩阵；

为人脸姿态特征的平移向量；R_c为摄像机姿态特征的旋转矩阵；

为摄像机姿态特征的平移向量。

在一些实施例中，S1还包括，像素位置特征由以下步骤得到：根据图像信息获取每帧图像的图像尺寸，图像尺寸对应的图像包括多个像素，像素对应有原始像素位置特征；将每个像素利用预设公式进行编码，得到每个像素对应编码后的像素位置特征；将编码后的像素位置特征与原始像素位置特征进行拼接并更新所述原始像素位置特征，以获得更新后的像素位置特征。

示例性的，由于视频帧图像的尺寸是固定的且图像尺寸对应的图像包括多个像素。在给定射线采样深度的前提下，每帧图像的像素位置特征是固定的，每个像素的位置特征包含像素所在的行、列及深度。使用预设公式，如正余弦周期函数对像素的位置特征进行编码，将编码后的特征作为像素的位置特征。

正余弦周期函数如下：

γ(p)＝(sin(2⁰πp),cos(2⁰πp),…,sin(2^L-1πp),cos(2^L-1πp))；

其中，p为像素各位置特征；L为特征编码组数；L取值为10。

进一步地，对每一个像素的各个位置特征进行正余弦周期函数编码后，将编码后的像素位置特征与原始的位置特征拼接，并更新原始像素位置特征，拼接后生成新的位置特征，即作为最终输入至神经辐射场模型中的像素位置特征。需要说明的是，预设公式还包括傅里叶编码或MIP编码等，以对每一个像素的各个位置特征进行编码。

S2，构建神经辐射场模型，神经辐射场模型用于生成渲染图像；根据每帧图像的人脸姿态特征、像素位置特征和音频特征训练神经辐射场模型，以获取目标神经辐射场模型。

在一些实施例中，S2还包括，获取全部帧的平移向量，根据全部帧的平移向量计算平移向量的均值及标准差；根据平移向量的均值及标准差对全部帧的平移向量进行标准化处理，获得像素姿态特征。

示例性的，上述提取出的视频每帧摄像机姿态特征包含摄像机相对人脸的旋转矩阵和平移向量，记旋转矩阵为

平移向量为

其中

均为列向量。将旋转矩阵修改为

使用所有视频帧的平移向量计算并记录平移向量的均值及标准差，该均值及标准差用于后续模型推断过程。进一步地，使用计算出的均值及标准差对所有视频帧的平移向量进行标准化，即标准化后的平移向量＝(平移向量-平移向量均值)/平移向量标准差。将处理后的每帧摄像机姿态特征映射到以视频帧图像为范围的标准化设备坐标上。此步骤是计算在摄像机相对人脸方向上，以摄像机为源点，以图像上每个像素为终点，摄像机相对像素点的姿态特征。即将此特征作为像素姿态特征。

同样地，对提取出音频的频域特征进行计算特征值的均值及标准差，记录此均值及标准差用于后续模型的推断过程。同时，使用计算出的均值及标准差对音频的频域特征进行标准化。即对音频特征进行预处理得到标准化后的频域特征。

在一些实施例中，S2还包括，神经辐射场模型包括卷积网络编码器和卷积网络解码器；卷积网络编码器包括卷积层、激活层、池化层和归一化层，卷积网络解码器包括卷积层、激活层、归一化层、升采样层和反卷积层。

示例性的，参见图2，卷积网络编码器的作用是将输入图像特征编码至隐层空间，获得对输入特征的抽象表达。卷积网络编码器由卷积层、激活层、池化层、归一化层等神经网络基本结构构成。卷积网络编码器结构可以为图像分类、分割、检测、超分辨率、去噪等任务的卷积神经网络的编码器构成，也可使用基本结构自行设计编码器网络结构。

卷积网络解码器的作用是将编码器获得的抽象表达映射至图像空间，获得在某一视角下的图像中每个图像像素颜色值(图像RGB)及密度值。卷积网络解码器由卷积层、激活层、归一化层、升采样层、反卷积层等神经网络基本结构构成。卷积网络解码器结构可以为图像分割、超分辨率、去噪等任务的卷积神经网络的解码器构成，也可使用基本结构自行设计解码器网络结构。

在一些实施例中，神经辐射场模型中的卷积网络编码器设置为E，卷积网络解码器设置为D。将上述获得的像素位置特征f_p、像素姿态特征f_c和音频特征f_a输入神经辐射场中，通过神经辐射场模型输出为图像中每个图像像素颜色值(图像RGB)及密度值。

示例性的，将上述图2的神经辐射场模型记为NeRF₁。

在NeRF₁中，直接拼接像素位置特征f_p、像素姿态特征f_c和音频特征f_a，将拼接后特征输入卷积网络编码器E获得隐层特征，再输入卷积网络解码器为D获得输出，此过程可由第二公式表达。

第二公式为：

NeRF₁(f_p,f_c,f_a)＝D(E(f_p,f_c,f_a))；

需要说明的是，本申请提供的神经辐射场模型包括卷积网络编码器E和卷积网络解码器D，并不指定某种特定的神经网络结构，可根据实际情况自行设计。例如，还可以包括多模态注意力模块，将卷积网络编码器和卷积网络解码器与多模态注意力模块进行结合。其中，多模态注意力模块包括特征编码器、特征注意力层和特征融合层等三部分。在本申请中能达到功能的神经网络结构均可以用来构成特定模块。

在一些实施例中，S2还包括，通过摄像机姿态特征确定摄像机姿态方向；对训练视频中每帧图像在摄像机姿态方向上进行采样，得到多个采样点；根据像素姿态特征、像素位置特征与音频特征得到多个采样点处的像素颜色值和像素密度值；将多个采样点处的像素颜色值和像素密度值进行渲染，以获得渲染图像。

示例性的，将上述计算得到的每帧图像的摄像机姿态确定为摄像机姿态方向，接着在摄像机姿态方向上进行采样，得到多个采样点，将每帧图像的摄像机姿态方向设置为d。各特征经过神经辐射场模型后，输出图像像素颜色值(图像RGB)结果记为c，图像像素密度值结果记为σ。图像像素密度值σ可以理解为光线沿摄像机姿态方向，也就是在经过当前像素时被物体像素终止的概率，即此像素的不透明度。此像素的颜色即为光线沿摄像机姿态方向。经过所有像素颜色的累积，可由积分方式得到。进一步地，将沿摄像机姿态方向的光线r记为r(t)＝o+td，其中o为光线原点，d为前述摄像机姿态方向，t为光线上采样点，t_n和t_f分别表示光线穿过物体的距离摄像机的近端与远端边界。当以视频某帧图像作为输入时，在当前摄像机姿态方向上，观察到的任意一个像素的颜色值可以使用第三公式进行计算。

第三公式为：

其中，T(t)为光线从t_n到t这一段路径上的所有像素的累积密度值；t_n为光线穿过物体的距离摄像机的近端边界；t_f为光线穿过物体的距离摄像机的远端边界；c(r(t))为光线r 上的采样点t处的图像像素颜色值；σ(r(t))为光线r上的采样点t处的密度值。

进一步地，T(t)为光线从t_n到t这一段路径上的所有像素的累积密度值，使用第四公式计算。

第四公式为：

其中，t为光线上采样点；t_n为光线穿过物体的距离摄像机的近端边界；σ(r(s))为光线r上的采样点s处的密度值。

即上述各特征输入并经过神经辐射场模型后，通过第三公式和第四公式可以计算出输出的图像像素颜色值结果c和图像像素密度值结果σ。

进一步地，在实际应用中，由于图像由离散像素构成，需对连续点的图像渲染过程进行离散处理，也就是采用离散近似的图像渲染方式。将摄像机姿态方向光线上需要积分的区域分为N个区间，在每个区间中进行均匀随机采样。这样，在光线上既采样到离散点，又保证了采样点的连续性，第i个采样点由第五公式进行计算。

第五公式为：

进一步地，基于上述离散采样点，将第五公式中的积分进行形式简化得到求和形式第六公式。

第六公式为：

其中，i为第i个采样点，i的取值范围为[1，N]；c_i为在光线r下第i个采样点的图像像素颜色值，即上述c(r(t)，d)的离散表示；δ_i＝t_i+1-t_i为邻近两采样点间的距离，T_i为离散形式的T(t)，T_i通过第七公式进行计算；σ_i为在光线r下第i个采样点的密度值，即上述σ(r(t))的离散表示。

第七公式为：

其中，j为第j个采样点，j的范围为[1，i-1]。

综上，将上述图像像素颜色值结果c和图像像素密度值结果σ用于进行离散空间下的渲染，同时作为渲染过程的输入，经过第五公式、第六公式和第七公式，进行渲染过程后输出图像渲染结果

最终获得当前摄像机姿态下的渲染图像。

在一些实施例中，S2还包括，将训练视频中每帧图像的像素位置特征、像素姿态特征和音频特征作为条件信息，输入至神经辐射场模型中进行图像渲染生成渲染图像；根据渲染图像与训练视频的原图像计算得到预设损失函数，预设损失函数用于反向传播并训练神经辐射场模型，以生成目标神经辐射场模型。

示例性的，将训练视频逐帧作为输入，根据按提取特征并进行处理后得到像素位置特征f_p、像素姿态特征f_c和音频特征f_a。将上述特征输入至神经辐射场模型中并进行图像渲染处理获得渲染结果后，需计算渲染结果与原视频帧图像的差异。本申请中提供了多种计算渲染结果与原视频帧图像差异的方法，也就是渲染结果与训练视频帧图像的差异。多种方法包括L2距离、加权L2距离和感知损失函数。其中，L2距离的计算采用第八公式获得，计算

与所有像素的平均差异。

第八公式为：

其中，

为图像渲染结果，I为输入的原视频帧图像，H为输入的原视频帧图像的高度，W为输入的原视频帧图像的宽度。

进一步地，加权L2距离中的权重来自于输入的训练视频帧图像的分割结果。将上述已分割出输入训练视频帧图像的不同区域，即非人脸区域(背景、人体躯干部分等)、不包含唇部的人脸区域和上唇、下唇及双唇所包围的区域。对分割结果中的不同区域赋予不同的数值，获得权重矩阵w_I，数值越大的区域获得更高的L2距离权重，对L2距离损失函数的贡献越大，加权L2距离的计算采用第九公式获得。

第九公式为：

其中，

为图像渲染结果，I为输入的原视频帧图像，H为输入的原视频帧图像的高度，W为输入的原视频帧图像的宽度；i为第i行像素点，取值范围为[1，H]；j为第j列像素点，取值范围为[1，W]。

需要说明的是，不能同时使用L2距离和加权L2距离，两者可根据实际情况任取其一使用。无论使用何种L2距离，均不影响本申请整体流程的完整性，仅对最终的输出效果存在影响。除使用L2距离或加权L2距离外，还可使用其他任何可以描述预测数值与目标数值差异的可微的损失函数，如L1距离、感知损失函数、感知损失函数与L2距离结合和感知损失函数与加权L2距离结合等。

进一步地，计算出图像渲染结果与原始视频帧图像的损失函数后，进行反向传播过程。根据计算出的损失函数，对神经辐射场模型中各组件的参数计算梯度，使用梯度下降方法优化更新神经辐射场模型中各组件参数。神经辐射场模型训练过程包含若干轮次，每个轮次均执行上述神经辐射场模型训练过程，直到达成训练终止条件，完成神经辐射场模型的训练，即得到目标神经辐射场模型。

综上，图3为神经辐射场模型训练过程的流程图。参见图3，通过提取训练视频中的特征，将获取的上述音频特征、像素位置特征和像素姿态特征输入至神经辐射场模型中，得到图像渲染过程后的渲染图像。将渲染图像与训练视频中的原图像进行差异计算，得到损失函数。损失函数用于反向传播过程，通过多次对神经辐射场模型训练，优化模型中的多个参数，以生成目标神经辐射场模型。

S3，将输入地与目标视频同步的音频信息作为条件信息，使用目标神经辐射场模型进行图像渲染，以生成当前视角及音频条件下的目标图像。

示例性的，执行神经辐射场模型训练过程之后，接着进行神经辐射场模型的推断过程，即实际使用过程。图4为神经辐射场模型推断过程的流程图，与图3所示的神经辐射场模型训练过程相比，神经辐射场模型推断过程仅需要对输入的音频按上述音频特征的提取及处理进行计算。

进一步地，在神经辐射场模型训练过程中，像素位置特征仅与输入视频帧图像的尺寸大小相关，与视频帧图像内容无关。则在固定输入视频帧图像尺寸大小的情况下，神经辐射场模型推断过程使用的像素位置特征可以在神经辐射场模型训练过程中获取。

进一步地，在神经辐射场模型推断过程中，由于没有参考视频帧图像的输入，因此无法计算像素姿态特征。故像素姿态特征可以从以下途径获取：在神经辐射场模型训练过程中的训练数据中获取、从一段已知的连续的训练数据获取像素姿态特征、重复使用一组固定的训练数据的像素姿态特征、在训练数据像素姿态特征的基础上做整体的修改获取新的像素姿态特征、根据预先录制一段视频计算出这段视频的像素姿态特征。

进一步地，将音频特征、像素位置特征和像素姿态特征输入目标神经辐射场模型中，获得在当前姿态条件下，图像像素的RBG值和密度值。根据上述第五公式、第六公式和第七公式进行图像的渲染，获得最终的渲染图像输出。当输入连续的音频片段，获得连续的图像渲染结果后，将所有的图像渲染结果进行合并，即可获得与连续音频对应的人脸视频。由此，神经辐射场模型的推断过程完成，不再需要后续计算损失函数和更新模型参数的过程。

综上，图4为神经辐射场模型推断过程的流程图。参见图4，通过输入与目标视频同步的音频信息，提取出音频特征。将音频特征、已知的像素位置特征和像素姿态特征输入至目标神经辐射场模型中进行图像渲染，获得最终的渲染图像输出，也就是当前视角及音频条件下的目标图像。将所有目标图像进行合并，即可实时获得与连续音频对应的人脸目标视频。

进一步地，本申请提供的实时音频驱动人脸生成方法，具体实施例包括如下步骤：

首先进行神经辐射场模型训练过程的实施例描述：

(1)使用一段时长3分钟、2K分辨率、25帧/秒的单人说话彩色训练视频，该训练视频的音频码率为128kb/s，音频采样率为44100Hz。

(2)通过dlib人脸检测算法，从训练视频中裁剪出仅包含完整人脸区域的视频，将视频每帧图像的尺寸调整为512x512，此视频每帧图像为渲染目标图像。

(3)使用上述仅包含完整人脸区域的视频，使用基于BiSeNet的人脸分割模型，将视频每帧图像分割为非人脸区域(背景、人体躯干部分等)、不包含唇部的人脸区域和上唇、下唇及双唇所包围的区域。

(4)根据每帧图像人脸分割结果，生成每帧图像的像素权重矩阵w_I，其中非人脸区域权重为0.3，不包含唇部的人脸区域权重为1.0，上唇、下唇及双唇所包围的区域权重为3.0(此不同区域的权重为参考值，此处仅为示例)。

(5)使用上述仅包含完整人脸区域的视频，使用dlib人脸关键点检测算法，逐帧获得人脸68关键点坐标，将此二维人脸关键点匹配至一固定的三维人脸模型关键点，计算得出每帧人脸姿态；然后使用第一公式计算出摄像机姿态(此68关键点坐标为示例，也可使用其他个数的人脸关键点)。

(6)使用上述仅包含完整人脸区域的视频所包含的音频，首先将此音频重采样至16000Hz，进而计算出音频的MFCC特征。MFCC特征也为25帧/秒，与视频数据相匹配。

(7)对每帧图像的摄像机姿态做标准化预处理，计算获得每帧图像的像素姿态特征。

(8)对每帧音频的MFCC特征做标准化预处理。

(9)采用正余弦周期函数计算像素位置特征。

(10)使用UNet的结构作为神经辐射场模型，编码器部分替换为RegNet的编码器，解码器部分为UNet的解码器；使用简单的卷积层、全连接层组合，组成多模态注意力模块。

(11)将上述每帧的像素姿态特征、像素位置特征和音频特征输入第二公式的以NeRF₁为结构的神经辐射场模型中，预测每帧图像像素颜色值(图像RGB)和密度值。

(12)将预测的图像像素颜色值(图像RGB)和密度值代入至第五公式、第六公式和第七公式获得图像渲染结果。

(13)使用图像渲染结果与渲染目标图像，结合像素权重矩阵w_I，利用第九公式计算加权L2距离确定损失函数。

(14)进行反向传播过程，对神经辐射场模型中各组件的参数计算梯度，使用Adam优化器更新神经辐射场模型中各组件参数。

(15)神经辐射场模型训练过程包含若干轮次，每个轮次均执行上述模型训练过程，直到达成训练终止条件，完成模型的训练，获得目标神经辐射场模型。

接着进行与上述神经辐射场模型训练过程匹配的神经辐射场模型推断过程的实施例描述。

(1)给定任意一段音频，首先将此音频重采样至16000Hz，进而计算出音频的MFCC特征，MFCC特征为25帧/秒。

(2)使用一组给定摄像机姿态特征，对其做标准化预处理，计算获得每帧图像的像素姿态特征。

(3)根据正余弦周期函数计算像素位置特征。

(4)使用上述模型训练过程中已经完成训练得到的目标神经辐射场模型，预测每帧图像像素颜色值(图像RGB)和密度值。

(5)将预测的图像像素颜色值(图像RGB)和密度值，使用第五公式、第六公式和第七公式获得图像渲染结果，将所有的图像渲染结果进行合并，即可获得与连续音频对应的人脸视频。

需要说明的是，上述过程中的dlib人脸检测算法、dlib人脸关键点检测算法、BiSeNet、 UNet、RegNet、Adam等方法均可替换为其他方法，此处仅为说明实施例而列举的特征方法。

进一步地，本申请还提供了一种实时音频驱动人脸生成装置，包括：

摄像与音频采集模块，用于采集训练视频的图像信息与训练视频同步的音频信息。

获取模块，获取训练视频的图像信息和与训练视频同步的音频信息；对图像信息进行特征提取，得到每帧图像的人脸姿态特征和像素位置特征；对音频信息进行特征提取，得到每帧图像的音频特征；

训练模块，用于构建神经辐射场模型，神经辐射场模型用于生成渲染图像；根据每帧图像的人脸姿态特征、像素位置特征和音频特征训练神经辐射场模型，以获取目标神经辐射场模型；

渲染模块，用于将输入地与目标视频同步的音频信息作为条件信息，使用目标神经辐射场模型进行图像渲染，以生成当前视角及音频条件下的目标图像。

进一步地，本申请提供了一种服务器，包括存储器和处理器，存储器中存储有程序指令，处理器通过运行程序指令，执行包括上述终端设备各实施例中处理器用于执行或被配置的其他程序步骤，这里不再赘述。服务器可以为云服务器，也可以为本地服务器。

由以上技术方案可以看出，首先，本申请直接将音频特征作为条件信号作用于神经辐射场模型中，无需其他任何中间模态的转换，如人脸表情，人脸关键点等，进一步提高了语音到人脸形状映射的准确性。其次，本申请不需要大量成对的语音-视频数据集中用于训练，只需要单个人三至五分钟的视频即可用于神经辐射场模型的训练。最后，基于本申请提供的实时音频驱动人脸生成方法，通过使用包括编码器和解码器结构的卷积神经网络作为神经辐射场模型，以及使用图像像素位置特征作为输入用于训练神经辐射场。显著提升了音频驱动人脸生成过程的运算速度，达到实时语音驱动人脸视频的生成。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM、U盘或移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本发明各个实施例所述的方法。

Claims

1.一种实时音频驱动人脸生成方法，其特征在于，包括：

对所述音频信息进行特征提取，得到每帧图像的音频特征；

2.根据权利要求1所述的方法，其特征在于，所述像素位置特征由以下步骤得到：

3.根据权利要求1所述的方法，其特征在于，所述神经辐射场模型包括卷积网络编码器和卷积网络解码器；

所述卷积网络编码器包括卷积层、激活层、池化层和归一化层，所述卷积网络解码器包括卷积层、激活层、归一化层、升采样层和反卷积层。

4.根据权利要求1所述的方法，其特征在于，将所述图像信息进行特征提取，得到每帧图像的人脸姿态特征；包括：

5.根据权利要求4所述的方法，其特征在于，还包括：

根据所述关键点转换关系获取当前图像的人脸姿态特征；

6.根据权利要求5所述的方法，其特征在于，还包括：

7.根据权利要求6所述的方法，其特征在于，根据每帧图像的所述人脸姿态特征和所述音频特征训练所述神经辐射场模型，包括：

8.根据权利要求7所述的方法，其特征在于，还包括：

通过所述摄像机姿态特征确定摄像机姿态方向；

9.一种实时音频驱动人脸生成装置，其特征在于，包括：

10.一种服务器，其特征在于，包括存储器和处理器，所述存储器中存储有程序指令，所述处理器通过运行所述程序指令，执行下述步骤：

对所述音频信息进行特征提取，得到每帧图像的音频特征；