CN113822969B

CN113822969B - 训练神经辐射场模型和人脸生成方法、装置及服务器

Info

Publication number: CN113822969B
Application number: CN202111096356.6A
Authority: CN
Inventors: 司马华鹏; 屈奇勋; 范宏伟; 李佳斌
Original assignee: Suqian Silicon Based Intelligent Technology Co ltd
Current assignee: Suqian Silicon Based Intelligent Technology Co ltd
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2023-06-09
Anticipated expiration: 2041-09-15
Also published as: CN113822969A

Abstract

本申请提供了训练神经辐射场模型和人脸生成方法、装置及服务器，方法包括：采集预置的训练视频，训练视频至少包括一个训练视频图像，训练视频图像包括图像信息和与图像信息同步的音频信息；将图像信息和音频信息输入至预先建立的初始神经辐射场模型中，输出渲染图像；初始神经辐射场模型包括卷积网络编码器、卷积网络解码器和多模态注意力模块；根据渲染图像与训练视频图像计算得到预设损失函数，预设损失函数用于反向传播并训练初始神经辐射场模型，将训练完成的初始神经辐射场模型作为音频驱动人脸生成的神经辐射场模型。本申请通过使用预设损失函数训练作为音频驱动人脸生成的神经辐射场模型，解决无法实时生成高清音频驱动人脸视频的问题。

Description

训练神经辐射场模型和人脸生成方法、装置及服务器

技术领域

本申请涉及人脸图像处理技术领域，尤其涉及训练神经辐射场模型和人脸生成方法、装置及服务器。

背景技术

随着近年来图像处理领域技术的发展，基于人工智能的音频驱动人脸视频在众多场景下使用广泛，如远程视频会议、虚拟角色生成、三维人脸动画制作和动画视频创作等。与视频图像驱动技术不同的是，基于音频驱动人脸视频生成是根据输入的音频信息中的特征信息，来预测面部形变。通过构建一个神经网络模型，对模型依次进行训练和学习。当输入一段音频数据之后，神经网络模型会根据输入的音频作出相应的人脸表情。

目前常采用多层感知器对神经辐射场模型进行训练和学习。多层感知器使用图像像素作为输入，将像素的特征向量对像素的颜色值进行回归后，获得后续渲染图像。上述方法虽然能实现人脸视频的生成，但渲染结果清晰度低，无法基于音频驱动实时生成高清的人脸视频。

发明内容

本申请提供了训练神经辐射场模型和人脸生成方法、装置及服务器，以至少解决无法实时生成高清音频驱动人脸视频的问题。

第一方面，本申请提供了一种训练神经辐射场模型的方法，包括：

采集预置的训练视频，其中，所述训练视频至少包括一个训练视频图像，所述训练视频图像包括图像信息和与所述图像信息同步的音频信息；

将所述图像信息和所述音频信息输入至预先建立的初始神经辐射场模型中，输出渲染图像；其中，所述初始神经辐射场模型包括卷积网络编码器、卷积网络解码器和多模态注意力模块；

根据所述渲染图像与所述训练视频图像计算得到预设损失函数，所述预设损失函数用于反向传播并训练所述初始神经辐射场模型，将训练完成的所述初始神经辐射场模型作为音频驱动人脸生成的神经辐射场模型。

可选的，所述卷积网络编码器包括卷积层、激活层、池化层和归一化层，用于将输入图像特征编码至隐层空间，以获取对所述输入图像特征的抽象表达；

所述卷积网络解码器卷积层、激活层、归一化层、升采样层和反卷积层，用于将所述输入图像特征的抽象表达映射至图像空间，以生成在某一视角下的图像像素颜色值和密度值；

所述多模态注意力模块包括特征编码器、特征注意力层和特征融合层，用于将所述输入图像特征的抽象表达生成所述输入图像特征的嵌入向量。

可选的，还包括：

分别获取加权L2函数和感知损失函数对应的权重系数；

根据加权L2函数和感知损失函数对应的权重系数对所述加权L2函数和感知损失函数进行加权求和得到所述预设损失函数。

可选的，所述感知损失函数为：

其中，P为VGG19神经网络模型，

为渲染图像，I为输入的视频帧图像，L为P被使用的总中间隐层层数，l为P的任意一层中间隐层，H_l为l层输出特征图的高度，W_l为l层输出特征图的宽度。

可选的，还包括：

根据所述图像信息进行特征提取，得到每帧图像的人脸姿态特征；

将所述人脸姿态特征进行特征变换，得到对应的摄像机姿态特征；所述摄像机姿态特征包括摄像机相对人脸的平移向量；

获取全部帧的所述平移向量，根据全部帧的所述平移向量计算所述平移向量的均值及标准差；

根据所述平移向量的均值及标准差对全部帧的所述平移向量进行标准化处理，获得每帧图像对应的像素姿态特征。

可选的，还包括：

根据所述图像信息获取每帧图像的图像尺寸，根据所述图像尺寸确定对应图像中多个像素，所述像素对应有原始像素位置特征；

将每个所述像素利用预设公式进行编码，得到每个所述像素对应编码后的像素位置特征；

将所述编码后的像素位置特征与所述原始像素位置特征进行拼接，以更新所述原始像素位置特征。

第二方面，本申请提供了一种人脸生成方法，包括：

将连续的音频片段输入如权利要求1-6中任一项所述的方法训练的音频驱动人脸生成的神经辐射场模型中，输出多个姿态条件下的图像像素颜色值和密度值；

根据所述图像像素颜色值和密度值采用预设公式进行图像渲染，得到连续的渲染图像；

将所述连续渲染图像进行合并，生成与所述连续的音频片段对应的人脸视频。

第三方面，本申请提供了一种训练神经辐射场模型的装置，包括：

摄像与音频采集模块，用于采集预置的训练视频，其中，所述训练视频至少包括一个训练视频图像，所述训练视频图像包括图像信息和与所述图像信息同步的音频信息；

训练与渲染模块，用于将所述图像信息和所述音频信息输入至预先建立的初始神经辐射场模型中，输出渲染图像；其中，所述初始神经辐射场模型包括卷积网络编码器、卷积网络解码器和多模态注意力模块；

第四方面，本申请提供了一种人脸生成装置，包括：

转换模块，用于将连续的音频片段输入如权利要求1-6中任一项所述的方法训练的音频驱动人脸生成的神经辐射场模型中，输出多个姿态条件下的图像像素颜色值和密度；

渲染模块，用于根据所述图像像素颜色值和密度采用预设公式进行图像渲染，得到连续的渲染图像；

生成模块，用于将所述连续渲染图像进行合并，生成与所述连续的音频片段对应的人脸视频。

第五方面，本申请提供了一种服务器，包括存储器和处理器，所述存储器中存储有程序指令，所述处理器通过运行所述程序指令，执行如权利要求1-7中任意一项所述的方法。

由以上技术方案可知，本申请提供了训练神经辐射场模型和人脸生成方法、装置及服务器，方法包括：采集预置的训练视频，训练视频至少包括一个训练视频图像，训练视频图像包括图像信息和与图像信息同步的音频信息；将图像信息和音频信息输入至预先建立的初始神经辐射场模型中，输出渲染图像；初始神经辐射场模型包括卷积网络编码器、卷积网络解码器和多模态注意力模块；根据渲染图像与训练视频图像计算得到预设损失函数，预设损失函数用于反向传播并训练初始神经辐射场模型，将训练完成的初始神经辐射场模型作为音频驱动人脸生成的神经辐射场模型。本申请通过使用初始神经辐射场模型和预设损失函数训练出作为音频驱动人脸生成的神经辐射场模型，以及将图像像素位置特征作为输入训练神经辐射场，解决无法实时生成高清音频驱动人脸视频的问题。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单的介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示例性示出了本申请实施例提供的训练神经辐射场模型的方法的流程示意图；

图2示例性示出了本申请实施例提供的多模态注意力模块的结构示意图；

图3示例性示出了本申请实施例提供的一种神经辐射场模型的结构示意图；

图4示例性示出了本申请实施例提供的另一种神经辐射场模型的结构示意图；

图5示例性示出了本申请实施例提供的训练神经辐射场模型的方法(神经辐射场模型训练过程)的流程示意图；

图6示例性示出了本申请实施例提供的人脸生成方法(神经辐射场模型推断过程)的流程示意图。

具体实施方式

为使本申请的目的和实施方式更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其他组件。术语“模块”是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

本申请公开了一种训练神经辐射场模型的方法，方法是根据一段3-5分钟的人脸讲话视频，通过使用包括编码器和解码器结构的卷积神经网络和多模态注意力模块作为神经辐射场模型，以及使用图像像素位置特征作为输入训练神经辐射场模型，即为神经辐射场模型的训练过程。进一步地，本申请提供了一种人脸生成方法，方法为进行神经辐射场模型的运用过程。将目标视频对应的连续音频片段输入至训练完成的神经辐射场模型中，借助图像渲染技术，实时生成并渲染高质量的人脸目标视频。为便于说明，在下述实施例中，将神经辐射场模型的训练过程称为模型训练过程。将人脸生成过程称为模型推断过程。

本申请提供的训练神经辐射场模型的方法，参见图1，该方法可以包括如下步骤：

S1，采集预置的训练视频，其中，训练视频至少包括一个训练视频图像，训练视频图像包括图像信息和与图像信息同步的音频信息。

示例性的，获取的训练视频为单人讲话视频，视频中人物所做动作为正面面对摄像机讲话。训练视频的数据获取可以通过爬取网络视频或自制视频等两种方式。训练视频至少包括一个训练视频图像，训练视频图像包括图像信息和与图像信息同步的音频信息。训练视频包括多个视频属性。其中，视频画面颜色为彩色，视频中人物讲话时间长度为3至5分钟，视频分辨率为720P、1080P、2K或4K，视频帧率为25帧/秒，视频的音频码率为128kb/s，音频采样率为44100Hz。在上述视频属性中，除视频时间长度和分辨率外，其他属性可根据实际情况自行设计。

S2，将图像信息和音频信息输入至预先建立的初始神经辐射场模型中，输出渲染图像；其中，初始神经辐射场模型包括卷积网络编码器、卷积网络解码器和多模态注意力模块。

示例性的，获取与训练视频中与图像信息同步的音频信息，进行音频特征提取。音频特征提取具体包括以下步骤：S21，对原始的视频音频重采样至一固定采样频率；S22，使用重采样后的音频，计算音频的频域特征，可以采用梅尔频谱或梅尔倒谱系数；S23，将音频的频域特征输入语音识别模型，提取出语音识别模型中间隐层特征，此语音识别模型可为中文语音识别模型，也可为非中文语音识别模型；S24，将音频的频域特征与语音识别模型中间隐层特征进行对应帧拼接，获得新的音频特征。即得到每帧图像对应音频的音频特征。

需要说明的是，S22为必要步骤，即可以仅使用音频的频域特征作为音频特征。S21为可选步骤，即也可以不对视频的音频做重采样操作。S23为可选步骤，即可以不使用语音识别模型中间隐层特征作为音频特征；在未做S23的情况下，不需要S24。在进行S23的情况下，S24也为可选步骤，即仅使用语音识别模型中间隐层特征作为音频特征。综上，视频的音频特征可分为三种情况，音频的频域特征、语音识别模型中间隐层特征或两种特征的拼接，三种特征可根据实际情况选择其中一种。

在一些实施例中，S2中还包括：根据图像信息进行特征提取，得到每帧图像的人脸姿态特征；将人脸姿态特征进行特征变换，得到对应的摄像机姿态特征；摄像机姿态特征包括摄像机相对人脸的平移向量；获取全部帧的平移向量，根据全部帧的平移向量计算平移向量的均值及标准差；根据平移向量的均值及标准差对全部帧的平移向量进行标准化处理，获得每帧图像对应的像素姿态特征。

示例性的，首先获取人脸视频集合，人脸视频集合包括多个区域子集合；多个区域子集合包括图像非人脸区域、不包含唇部的人脸区域和上唇、下唇及双唇所包围的区域；对多个区域子集合逐帧进行分割得到多个区域子集合对应的每帧分割结果；将多个区域子集合对应的每帧分割结果采用不同数值进行对应标记。

根据图像信息中裁剪出人脸部分。人脸部分的裁剪方法包括人工裁剪和自动裁剪。人工裁剪是通过人对视频每一帧图像的观察，手动划定出一固定图像区域，使视频每帧图像中的人脸区域均被包含在此手动划定的区域，将视频每帧图像中的此人工划定区域提取出来，产生新的仅包含人脸区域的视频。自动裁剪是通过人脸检测算法，自动检测视频每一帧图像中的人脸区域，然后根据所有帧图像的人脸检测区域，计算出一更大的图像区域，使得所有帧图像的人脸检测区域均为此更大区域的子集，将视频每帧图像中的此更大区域提取出来，产生新的仅包含人脸区域的视频。

进一步地，获取包含人脸区域的视频集合，人脸视频集合包括多个区域子集合；使用人脸分割模型，对多个区域子集合逐帧进行分割，获得视频每帧图像不同区域的掩模。不同区域子集合包括非人脸区域(背景、人体躯干部分等)，不包含唇部的人脸区域，上唇、下唇及双唇所包围的区域。将每个区域得到的视频每帧图像的分割结果使用不同的数值进行对应标记。

进一步地，对每帧分割结果进行人脸关键点检测，得到二维人脸关键点；将二维人脸关键点与预设三维人脸模型进行关键点匹配，得到对应的三维人脸关键点；根据二维人脸关键点和对应的三维人脸关键点确定关键点转换关系；根据关键点转换关系获取当前图像的人脸姿态特征；将人脸姿态特征进行特征变换，得到对应的摄像机姿态特征；摄像机姿态特征包括摄像机相对人脸的旋转矩阵和平移向量。

示例性的，获取视频每帧图像的包括人脸区域子集合，可以理解的是，使用仅包含人脸区域的视频。从视频每帧图像中检测二维人脸关键点，将二维人脸关键点匹配至一固定的三维人脸模型的关键点，对应求解三维关键点和对应二维关键点的转换关系，估计出当前视频帧图像中人脸相对摄像机的旋转矩阵和平移向量，用以获得当前视频帧图像的人脸姿态特征。对视频中每一帧均计算出人脸姿态特征。记每帧人脸姿态特征的旋转矩阵为

平移向量为/>

其中/>

均为列向量。根据第一公式，变换此人脸特征，获得摄像机相对人脸的姿态特征，获得的旋转矩阵为R_c，平移向量为/>

在视频拍摄过程中，摄像机姿态固定，人脸姿态是动态变化的。经过此变换后，人脸姿态是固定的，相对地，摄像机姿态是动态变化的。即得到人脸区域视频中每帧图像的摄像机姿态特征。

第一公式为：

R_c＝R_f ^-1；

其中，R_f为人脸姿态特征的旋转矩阵；

为人脸姿态特征的平移向量；R_c为摄像机姿态特征的旋转矩阵；/>

为摄像机姿态特征的平移向量。

进一步地，上述提取出的视频每帧摄像机姿态特征包含摄像机相对人脸的旋转矩阵和平移向量，记旋转矩阵为

平移向量为/>

其中/>

均为列向量。将旋转矩阵修改为/>

使用所有视频帧的平移向量计算并记录平移向量的均值及标准差，该均值及标准差用于后续模型推断过程。进一步地，使用计算出的均值及标准差对所有视频帧的平移向量进行标准化，即标准化后的平移向量＝(平移向量-平移向量均值)/平移向量标准差。将处理后的每帧摄像机姿态特征映射到以视频帧图像为范围的标准化设备坐标上。此步骤是计算在摄像机相对人脸方向上，以摄像机为源点，以图像上每个像素为终点，摄像机相对像素点的姿态特征。即将此特征作为像素姿态特征。像素姿态特征包含上述旋转矩阵与标准化处理的平移向量。

同样地，对提取出音频的频域特征进行计算特征值的均值及标准差，记录此均值及标准差用于后续模型的推断过程。同时，使用计算出的均值及标准差对音频的频域特征进行标准化。即对音频特征进行预处理得到标准化后的频域特征。

在一些实施例中，S2还包括，根据图像信息获取每帧图像的图像尺寸，图像尺寸对应的图像包括多个像素，像素对应有原始像素位置特征；将每个像素利用预设公式进行编码，得到每个像素对应编码后的像素位置特征；将编码后的像素位置特征与原始像素位置特征进行拼接并更新所述原始像素位置特征，以获得更新后的像素位置特征。

示例性的，由于视频帧图像的尺寸是固定的且图像尺寸对应的图像包括多个像素。在给定射线采样深度的前提下，每帧图像的像素位置特征是固定的，每个像素的位置特征包含像素所在的行、列及深度。使用预设公式，如正余弦周期函数对像素的位置特征进行编码，将编码后的特征作为像素的位置特征。

正余弦周期函数如下：

γ(p)＝(sin(2⁰πp),cos(2⁰πp),…,sin(2^L-1πp)，cos(2^L-1πp))；

其中，p为像素各位置特征；L为特征编码组数；L取值为10。

进一步地，对每一个像素的各个位置特征进行正余弦周期函数编码后，将编码后的像素位置特征与原始的位置特征拼接，并更新原始像素位置特征，拼接后生成新的位置特征，即作为最终输入至神经辐射场模型中的像素位置特征。需要说明的是，预设公式还包括傅里叶编码或MIP编码等，以对每一个像素的各个位置特征进行编码。

在一些实施例中，S2还包括，卷积网络编码器包括卷积层、激活层、池化层和归一化层，用于将输入图像特征编码至隐层空间，以获取对所述输入图像特征的抽象表达；卷积网络解码器卷积层、激活层、归一化层、升采样层和反卷积层，用于将输入图像特征的抽象表达映射至图像空间，以生成在某一视角下的图像像素颜色值和密度值；多模态注意力模块包括特征编码器、特征注意力层和特征融合层，用于将输入图像特征的抽象表达生成输入图像特征的嵌入向量。

进一步地，将上述得到的像素姿态特征、像素位置特征和音频特征输入至初始神经辐射场模型中。初始神经辐射场模型包括卷积网络编码器、卷积网络解码器和多模态注意力模块。

卷积网络编码器的作用是将输入图像特征编码至隐层空间，获得对输入特征的抽象表达。卷积网络编码器由卷积层、激活层、池化层、归一化层等神经网络基本结构构成。卷积网络编码器结构可以为目前常用的图像分类、分割、检测、超分辨率、去噪等任务的卷积神经网络的编码器构成，也可使用基本结构自行设计编码器网络结构。

卷积网络解码器的作用是将编码器获得的抽象表达映射至图像空间，获得在某一视角下的图像各像素RGB值及密度。卷积网络解码器由卷积层、激活层、归一化层、升采样层、反卷积层等神经网络基本结构构成。卷积网络解码器结构可以为目前常用的图像分割、超分辨率、去噪等任务的卷积神经网络的解码器构成，也可使用基本结构自行设计解码器网络结构。

多模态注意力模块的作用是对输入的不同模态的各类特征学习特征权重，根据任务自动分配不同模态特征重要性。多模态注意力模块包含特征编码器、特征注意力层和特征融合层等三部分。特征编码器由卷积层、全连接层、激活层、池化层、归一化层等神经网络基本结构构成，其作用是获得输入特征的抽象表达，产生输入特征的嵌入向量。如图2中所示，分别对像素姿态特征和音频特征设计特征编码器，分别计算各特征的嵌入向量，将嵌入向量输入特征注意力层。多模态特征注意力层由全连接层、激活层、归一化层等神经网络基本结构组成，其作用是对输入的各模态特征计算权重，所有模态的权重和为1。在本申请中，使用多模态特征注意力层获得像素姿态特征权重w_c，同时获得音频特征权重w_a。在多模态特征融合层中，将各模态特征与其对应的特征权重相乘，然后拼接不同模态特征，作为多模态注意力模块的输出并用于后续过程。

本申请提供的多模态注意力模块可以自动学习像素姿态特征与音频特征。多模态注意力模块的具体计算过程如下：

步骤1：像素姿态特征f_c是二维矩阵，首先使用卷积网络编码器E_c将像素姿态特征从二维矩阵转换至一维向量，记为E_c(f_c)，用于后续过程；此卷积网络编码器E_c由卷积层、全连接层、池化层、激活层、归一化层等神经网络基本结构组成。

步骤2：音频特征f_a是二维矩阵，首先使用卷积网络编码器E_a将像素姿态特征从二维矩阵转换至一维向量，记为E_a(f_a)，用于后续过程；此卷积网络编码器E_a由卷积层、全连接层、池化层、激活层、归一化层等神经网络基本结构组成。

步骤3：将E_c(f_c)与E_a(f_a)拼接。

步骤4：将拼接后的特征向量输入多模态注意力层A，多模态注意力层A由全连接层、激活层、归一化层等神经网络基本结构组成，多模态注意力层A输出一长度为2的向量，记为w_A；

步骤5：使用Softmax函数将w_A包含的两个值转换为权重，Softmax函数如以下公式所示：

其中，i为w_A向量元素的序号，i取值为1或2，因为w_A向量包含两个元素。经过Softmax操作后获得的长度为2的向量，w_c为像素姿态特征权重，w_a为音频特征权重，w_c与w_a的取值范围均为[0，1](大于等于0，小于等于1)，且w_c+w_a＝1。

步骤6：以上步骤1至步骤5可以使用以下公式说明：

[w_c，w_a]＝Softmax(A(E_c(f_c),E_a(f_a)))；

步骤7：w_c为像素姿态特征权重，w_a为音频特征权重，通过多模态特征融合层M对像素姿态特征与音频特征进行拼接；将原始的像素姿态特征f_c与其权重w_c相乘，将原始的音频特征f_a与其权重w_a相乘，然后将两种特征进行通道维度的拼接即完成两种特征的融合；

M(f_c,f_a,w_c,w_a)＝[f_c·w_c，f_a·w_a]；

步骤8：以上步骤1至步骤7记为MMA(f_c,f_a)，即像素姿态特征与音频特征通过多模态注意力模块进行融合的过程。

进一步，获得像素姿态特征与音频特征的融合特征MMA(f_c,f_a)后，将上述融合特征使用至初始神经辐射场模型中。

在一些实施例中，初始神经辐射场模型和最终作为音频驱动人脸生成的神经辐射场模型均由上述三种模块组成，分别记卷积网络编码器为E，卷积网络解码器为D，多模态注意力模块为MMA。神经辐射场的输入为像素位置特征f_p、像素姿态特征f_c和音频特征f_a，输出为图像中每个图像像素颜色值(图像RGB)及密度值。神经辐射场模型可分为三种结构，分别记为NeRF₁、NeRF₂和NeRF₃。

图3为本申请实施例提供的一种神经辐射场模型的结构示意图。参见图3，在NeRF₁中，像素位置特征f_p输入卷积网络编码器E获得隐层特征；像素姿态特征f_c和音频特征f_a输入多模态注意力模块为MMA获得两种特征的融合特征；此融合特征与卷积网络编码器E获得的隐层特征拼接，再输入卷积网络解码器为D获得输出。此过程可由第二公式表达。

第二公式为：

NeRF₁(f_p,f_c,f_a)＝D(E(f_p),MMA(f_c，f_a))；

图4为本申请实施例提供的第二种神经辐射场模型的结构示意图。参见图4，在NeRF₂中，像素姿态特征f_c和音频特征f_a输入多模态注意力模块MMA获得两种特征的融合特征；此融合特征与像素位置特征f_p拼接，输入卷积网络编码器E获得隐层特征，再输入卷积网络解码器为D获得输出，此过程可由第三公式表达。

第三公式为：

NeRF₂(f_p，f_c，f_a)＝D(E(f_p,MMA(f_c,f_a)))；

在上述NeRF₁、NeRF₂神经辐射场模型结构中，本申请提供了第二种神经辐射场模型的结构，可以直接拼接像素位置特征f_p、像素姿态特征f_c和音频特征f_a，将拼接后特征输入卷积网络编码器E获得隐层特征，再输入卷积网络解码器为D获得输出，此过程可由第四公式表达。

第四公式为：

NeRF₃(f_p,f_c，f_a)＝D(E(f_p,f_c,f_a))；

需要说明的是，组成神经辐射场模型的三种模块，即卷积网络编码器E、卷积网络解码器D和多模态注意力模块MMA，并不指定某种特定的神经网络结构，可根据实际情况自行设计。在本申请中能达到所述功能的神经网络结构均可以用来构成特定模块。上述三种神经辐射场模型结构均不影响本申请的完整性，但在输出效果上，NeRF₁优于NeRF₂，NeRF₂优于NeRF₃。由此，本申请提供的卷积网络编码器E、卷积网络解码器D和多模态注意力模块MMA构成的神经辐射场模型，生成输出结果的口型与输入音频的匹配度较高，且生成的口型不受像素姿态特征的影响。

在一些实施例中，S2还包括，通过摄像机姿态特征确定摄像机姿态方向；对训练视频中每帧图像在摄像机姿态方向上进行采样，得到多个采样点；根据像素姿态特征、像素位置特征与音频特征得到多个采样点处的像素颜色值和像素密度值；将多个采样点处的像素颜色值和像素密度值进行渲染，以获得渲染图像。

示例性的，将上述计算得到的每帧图像的摄像机姿态确定为摄像机姿态方向，接着在摄像机姿态方向上进行采样，得到多个采样点，将每帧图像的摄像机姿态方向设置为d。各特征经过神经辐射场模型后，输出图像像素颜色值(图像RGB)结果记为c，图像像素密度值结果记为σ。图像像素密度值σ可以理解为光线沿摄像机姿态方向，也就是在经过当前像素时被物体像素终止的概率，即此像素的不透明度。此像素的颜色即为光线沿摄像机姿态方向。经过所有像素颜色的累积，可由积分方式得到。进一步地，将沿摄像机姿态方向的光线r记为r(t)＝o+td，其中o为光线原点，d为前述摄像机姿态方向，t为光线上采样点，t_n和t_f分别表示光线穿过物体的距离摄像机的近端与远端边界。当以视频某帧图像作为输入时，在当前摄像机姿态方向上，观察到的任意一个像素的颜色值可以使用第五公式进行计算。

第五公式为：

其中，T(t)为光线从t_n到t这一段路径上的所有像素的累积密度值；t_n为光线穿过物体的距离摄像机的近端边界；t_f为光线穿过物体的距离摄像机的远端边界；c(r(t))为光线r上的采样点t处的图像像素颜色值；σ(r(t))为光线r上的采样点t处的密度值。

进一步地，T(t)为光线从t_n到t这一段路径上的所有像素的累积密度值，使用第六公式计算。

第六公式为：

其中，t为光线上采样点；t_n为光线穿过物体的距离摄像机的近端边界；σ(r(s))为光线r上的采样点s处的密度值。

即上述各特征输入并经过神经辐射场模型后，通过第三公式和第四公式可以计算出输出的图像像素颜色值结果c和图像像素密度值结果σ。

进一步地，在实际应用中，由于图像由离散像素构成，需对连续点的图像渲染过程进行离散处理，也就是采用离散近似的图像渲染方式。将摄像机姿态方向光线上需要积分的区域分为N个区间，在每个区间中进行均匀随机采样。这样，在光线上既采样到离散点，又保证了采样点的连续性，第i个采样点由第七公式进行计算。

第七公式为：

进一步地，基于上述离散采样点，将第五公式中的积分进行形式简化得到求和形式第八公式。

第八公式为：

其中，i为第i个采样点，i的取值范围为[1，N]；c_i为在光线r下第i个采样点的图像像素颜色值，即上述c(r(t)，d)的离散表示；δ_i＝t_i+1-t_i为邻近两采样点间的距离，T_i为离散形式的T(t)，T_i通过第九公式进行计算；σ_i为在光线r下第i个采样点的密度值，即上述σ(r(t))的离散表示。

第九公式为：

其中，j为第j个采样点，j的范围为[1，i-1]。

综上，将上述图像像素颜色值结果c和图像像素密度值结果σ用于进行离散空间下的渲染，同时作为渲染过程的输入，经过第七公式、第八公式和第九公式，进行渲染过程后输出图像渲染结果

最终获得当前摄像机姿态下的渲染图像。

S3，根据渲染图像与训练视频图像计算得到预设损失函数，预设损失函数用于反向传播并训练初始神经辐射场模型，将训练完成的初始神经辐射场模型作为音频驱动人脸生成的神经辐射场模型。

示例性的，将训练视频中每帧图像的像素位置特征、像素姿态特征和音频特征作为条件信息，输入至初始神经辐射场模型中。将训练视频逐帧作为输入，根据按提取特征并进行处理后得到像素位置特征f_p、像素姿态特征f_c和音频特征f_a。将上述特征输入至初始神经辐射场模型中并进行图像渲染处理获得渲染结果后，需计算渲染结果与原视频帧图像的差异。本申请中提供了多种计算渲染结果与原视频帧图像差异的方法，也就是渲染结果与训练视频帧图像的差异。多种方法包括L2距离、加权L2距离和感知损失函数。其中，L2距离的计算采用第十公式获得，计算

与所有像素的平均差异。

第十公式为：

其中，

为图像渲染结果，I为输入的原视频帧图像，H为输入的原视频帧图像的高度，W为输入的原视频帧图像的宽度。

进一步地，加权L2距离中的权重来自于输入的训练视频帧图像的分割结果。将上述已分割出输入训练视频帧图像的不同区域，即非人脸区域(背景、人体躯干部分等)、不包含唇部的人脸区域和上唇、下唇及双唇所包围的区域。对分割结果中的不同区域赋予不同的数值，获得权重矩阵w_I，数值越大的区域获得更高的L2距离权重，对L2距离损失函数的贡献越大，加权L2距离的计算采用第十一公式获得。

第十一公式为：

其中，

为图像渲染结果，I为输入的原视频帧图像，H为输入的原视频帧图像的高度，W为输入的原视频帧图像的宽度；i为第i行像素点，取值范围为[1，H]；j为第j列像素点，取值范围为[1，W]。

需要说明的是，不能同时使用L2距离和加权L2距离，两者可根据实际情况任取其一使用。无论使用何种L2距离，均不影响本申请整体流程的完整性，仅对最终的输出效果存在影响。除使用L2距离或加权L2距离外，还可使用其他任何可以描述预测数值与目标数值差异的可微的损失函数，如L1距离等。

进一步地，感知损失函数的使用是将上述图像渲染结果

与输入的训练视频帧图像I输入神经网络模型P，神经网络模型P包括VGG19、VGG16和AlexNet等使用ImageNet数据集训练的分类模型。本申请采用ImageNet数据集训练的分类模型进而获得中间隐层的特征图输出，通过第十二公式计算两种输入获得的特征图的L2距离，即感知损失函数。

第十二公式为：

其中，

为图像渲染结果，I为输入的原视频帧图像，L为神经网络模型P全部被使用的中间隐层层数，l为神经网络模型P的任意一层中间隐层，Hl为l层输出特征图的高度，Wl为l层输出特征图的宽度，i为特征图的行序号，j为特征图的列序号。

需要说明的是，在计算感知损失函数的过程中，计算特征图的差异时，并不限制使用L2距离，也可使用其他任何可以度量差异的可微的损失函数，也可使用其他任何度量图像相似度的可微的损失函数。在计算感知损失函数的过程中，计算两种输入获得的不同神经网络模型P可以为现有图像任务的模型或设计新模型。神经网络模型P的参数可以随机生成，也可以由某项图像任务预训练生成，也可在本申请模型训练过程中学习产生。

在一些实施例中，S3还包括，分别获取加权L2函数和感知损失函数对应的权重系数；根据加权L2函数和感知损失函数对应的权重系数对所述加权L2函数和感知损失函数进行加权求和得到预设损失函数。

进一步地，感知损失函数可以与L2距离或加权L2距离合并，参见如下第十三公式和第十四公式，分别给感知损失函数和L2距离或加权L2距离赋予不同的权值，再将二者相加，产生新的损失函数

第十三公式为：

其中，α，β为预设参数；L₂为L2距离；

为感知损失函数。

第十四公式为：

其中，α，β为预设参数；wL₂为加权L2距离；

为感知损失函数。

进一步地，计算出图像渲染结果与原始视频帧图像的损失函数后，进行反向传播过程。根据计算出的预设损失函数，对初始神经辐射场模型中各组件的参数计算梯度，使用梯度下降方法优化更新初始神经辐射场模型中各组件参数。神经辐射场模型的训练过程包含若干轮次，每个轮次均执行上述神经辐射场模型训练过程，直到达成训练终止条件，完成神经辐射场模型的训练，即将训练完成的初始神经辐射场模型作为音频驱动人脸生成的神经辐射场模型。

综上，图5为神经辐射场模型训练过程的流程图，其中神经辐射场模型是以图3中的NeRF₁为例。参见图5，通过提取训练视频中的特征，将获取的上述音频特征、像素位置特征和像素姿态特征输入至初始神经辐射场模型中，得到图像渲染过程后的渲染图像。将渲染图像与训练视频中的原图像进行差异计算，得到预设损失函数。预设损失函数用于反向传播过程，通过多次对初始神经辐射场模型训练，优化模型中的多个参数，以生成作为音频驱动人脸生成的神经辐射场模型。

本申请提供了一种人脸生成方法，方法为进行神经辐射场模型的运用过程。方法包括将连续的音频片段输入训练完成的音频驱动人脸生成的神经辐射场模型中，输出多个姿态条件下的图像像素颜色值和密度值；根据图像像素颜色值和密度值采用预设公式进行图像渲染，得到连续的渲染图像；将连续渲染图像进行合并，生成与连续的音频片段对应的人脸视频。

示例性的，执行神经辐射场模型训练过程之后，接着进行神经辐射场模型的推断过程，即人脸视频生成(实际运用)过程。图6为神经辐射场模型推断过程的流程图，与图5所示的神经辐射场模型训练过程相比，神经辐射场模型推断过程仅需要对输入的音频按上述音频特征的提取及处理进行计算。

进一步地，在神经辐射场模型训练过程中，像素位置特征仅与输入视频帧图像的尺寸大小相关，与视频帧图像内容无关。则在固定输入视频帧图像尺寸大小的情况下，神经辐射场模型推断过程使用的像素位置特征可以在神经辐射场模型训练过程中获取。

进一步地，在神经辐射场模型推断过程中，由于没有参考视频帧图像的输入，因此无法计算像素姿态特征。故像素姿态特征可以从以下途径获取：在神经辐射场模型训练过程中的训练数据中获取、从一段已知的连续的训练数据获取像素姿态特征、重复使用一组固定的训练数据的像素姿态特征、在训练数据像素姿态特征的基础上做整体的修改获取新的像素姿态特征、根据预先录制一段视频计算出这段视频的像素姿态特征。

进一步地，将音频特征、像素位置特征和像素姿态特征输入作为音频驱动人脸生成的神经辐射场模型中，获得在当前姿态条件下，图像像素的RBG值和密度值。根据上述第七公式、第八公式和第九公式进行图像的渲染，获得最终的渲染图像输出。当输入连续的音频片段，获得连续的图像渲染结果后，将所有的图像渲染结果进行合并，即可获得与连续音频对应的人脸视频。由此，神经辐射场模型的推断过程完成，不再需要后续计算预设损失函数和更新模型参数的过程。

综上，图6为神经辐射场模型推断过程的流程图，其中神经辐射场模型是以图3中的NeRF₁为例。参见图6，通过输入连续的音频片段，获取音频信息，提取出音频特征。将音频特征、已知的像素位置特征和像素姿态特征输入至训练完成的神经辐射场模型中进行图像渲染，获得最终的渲染图像输出，也就是输出当前视角及音频条件下的图像。将所有图像进行合并，即可实时获得与连续音频对应的高清人脸视频。

进一步地，本申请提供的训练神经辐射场模型的方法，具体实施例包括如下步骤：

首先进行神经辐射场模型训练过程的实施例描述：

(1)使用一段时长3分钟、2K分辨率、25帧/秒的单人说话彩色训练视频，该训练视频的音频码率为128kb/s，音频采样率为44100Hz。

(2)通过dlib人脸检测算法，从训练视频中裁剪出仅包含完整人脸区域的视频，将视频每帧图像的尺寸调整为512x512，此视频每帧图像为渲染目标图像。

(3)使用上述仅包含完整人脸区域的视频，使用基于BiSeNet的人脸分割模型，将视频每帧图像分割为非人脸区域(背景、人体躯干部分等)、不包含唇部的人脸区域和上唇、下唇及双唇所包围的区域。

(4)根据每帧图像人脸分割结果，生成每帧图像的像素权重矩阵w_I，其中非人脸区域权重为0.3，不包含唇部的人脸区域权重为1.0，上唇、下唇及双唇所包围的区域权重为3.0(此不同区域的权重为参考值，此处仅为示例)。

(5)使用上述仅包含完整人脸区域的视频，使用dlib人脸关键点检测算法，逐帧获得人脸68关键点坐标，将此二维人脸关键点匹配至一固定的三维人脸模型关键点，计算得出每帧人脸姿态；然后使用第一公式计算出摄像机姿态(此68关键点坐标为示例，也可使用其他个数的人脸关键点)。

(6)使用上述仅包含完整人脸区域的视频所包含的音频，首先将此音频重采样至16000Hz，进而计算出音频的MFCC特征。MFCC特征也为25帧/秒，与视频数据相匹配。

(7)对每帧图像的摄像机姿态做标准化预处理，计算获得每帧图像的像素姿态特征。

(8)对每帧音频的MFCC特征做标准化预处理。

(9)采用正余弦周期函数计算像素位置特征。

(10)使用UNet的结构作为神经辐射场模型，编码器部分替换为RegNet的编码器，解码器部分为UNet的解码器；使用简单的卷积层、全连接层组合，组成多模态注意力模块。

(11)将上述每帧的像素姿态特征、像素位置特征和音频特征输入第二公式的以NeRF₁为结构的神经辐射场模型中，预测每帧图像像素颜色值(图像RGB)和密度值。

(12)将预测的图像像素颜色值(图像RGB)和密度值代入至第七公式、第八公式和第九公式获得图像渲染结果。

(13)使用图像渲染结果与渲染目标图像，结合像素权重矩阵w_I，利用第十一公式计算加权L2距离，接着利用第十二公式计算感知损失函数，将加权L2距离和感知损失函数利用第十四公式确定预设损失函数。其中，α为100，β为1。

(14)进行反向传播过程，对神经辐射场模型中各组件的参数计算梯度，使用Adam优化器更新初始神经辐射场模型中各组件参数。

(15)初始神经辐射场模型训练过程包含若干轮次，每个轮次均执行上述模型训练过程，直到达成训练终止条件，完成模型的训练，获得训练完成的神经辐射场模型。

接着进行与上述神经辐射场模型训练过程匹配的神经辐射场模型推断过程的实施例描述。

(1)给定任意一段音频，首先将此音频重采样至16000Hz，进而计算出音频的MFCC特征，MFCC特征为25帧/秒。

(2)使用一组给定摄像机姿态特征，对其做标准化预处理，计算获得每帧图像的像素姿态特征。

(3)根据正余弦周期函数计算像素位置特征。

(4)使用上述模型训练过程中已经完成训练得到的神经辐射场模型，预测每帧图像像素颜色值(图像RGB)和密度值。

(5)将预测的图像像素颜色值(图像RGB)和密度值，使用第七公式、第八公式和第九公式获得图像渲染结果，将所有的图像渲染结果进行合并，即可获得与连续音频对应的人脸视频。

需要说明的是，上述过程中的dlib人脸检测算法、dlib人脸关键点检测算法、BiSeNet、UNet、RegNet、Adam等方法均可替换为其他方法，此处仅为说明实施例而列举的特征方法。

进一步地，本申请还提供了一种训练神经辐射场模型的装置，包括：

摄像与音频采集模块，用于采集预置的训练视频，其中，训练视频至少包括一个训练视频图像，训练视频图像包括图像信息和与图像信息同步的音频信息；

训练与渲染模块，用于将图像信息和音频信息输入至预先建立的初始神经辐射场模型中，输出渲染图像；其中，初始神经辐射场模型包括卷积网络编码器、卷积网络解码器和多模态注意力模块；

根据渲染图像与所述训练视频图像计算得到预设损失函数，预设损失函数用于反向传播并训练初始神经辐射场模型，将训练完成的初始神经辐射场模型作为音频驱动人脸生成的神经辐射场模型。

进一步地，本申请还提供了一种人脸生成装置，包括：

转换模块，用于将连续的音频片段输入上述训练的音频驱动人脸生成的神经辐射场模型中，输出多个姿态条件下的图像像素颜色值和密度；

渲染模块，用于根据图像像素颜色值和密度采用预设公式进行图像渲染，得到连续的渲染图像；

生成模块，用于将连续渲染图像进行合并，生成与连续的音频片段对应的人脸视频。

进一步地，本申请提供了一种服务器，包括存储器和处理器，存储器中存储有程序指令，处理器通过运行程序指令，执行包括上述终端设备各实施例中处理器用于执行或被配置的其他程序步骤，这里不再赘述。服务器可以为云服务器，也可以为本地服务器。

由以上技术方案可以看出，首先，本申请直接将音频特征作为条件信号作用于神经辐射场模型中，无需其他任何中间模态的转换，如人脸表情，人脸关键点等，进一步提高了语音到人脸形状映射的准确性。其次，本申请不需要大量成对的语音-视频数据集中用于训练，只需要单个人三至五分钟的视频即可用于神经辐射场模型的训练。最后，基于本申请提供的训练神经辐射场模型的方法，通过使用包括编码器和解码器结构的卷积神经网络和多模态注意力模块作为神经辐射场模型，使用图像像素位置特征作为输入用于训练神经辐射场以及设计了感知损失函数由于优化神经网络参数。显著提升了音频驱动人脸生成过程中渲染结果的清晰度，避免出现渲染图像出现局部模糊的情况，提高了图像高频(细节)差异感知，达到实时语音驱动高清人脸视频的生成。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM、U盘或移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本发明各个实施例所述的方法。

本申请提供的实施例之间的相似部分相互参见即可，以上提供的具体实施方式只是本申请总的构思下的几个示例，并不构成本申请保护范围的限定。对于本领域的技术人员而言，在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。

Claims

1.一种训练神经辐射场模型的方法，其特征在于，包括：

将所述图像信息和所述音频信息输入至预先建立的初始神经辐射场模型中，输出渲染图像；其中，所述初始神经辐射场模型包括卷积网络编码器、卷积网络解码器和多模态注意力模块，所述卷积网络编码器包括卷积层、激活层、池化层和归一化层，用于将输入图像特征编码至隐层空间，以获取对所述输入图像特征的抽象表达；所述卷积网络解码器卷积层、激活层、归一化层、升采样层和反卷积层，用于将所述输入图像特征的抽象表达映射至图像空间，以生成在某一视角下的图像像素颜色值和密度值；所述多模态注意力模块包括特征编码器、特征注意力层和特征融合层，用于将所述输入图像特征的抽象表达生成所述输入图像特征的嵌入向量；

2.根据权利要求1所述的方法，其特征在于，还包括：

分别获取加权L2函数和感知损失函数对应的权重系数；

3.根据权利要求2所述的方法，其特征在于，所述感知损失函数为：

其中，P为VGG19神经网络模型，

4.根据权利要求1所述的方法，其特征在于，还包括：

5.根据权利要求1所述的方法，其特征在于，还包括：

6.一种人脸生成方法，包括：

将连续的音频片段输入如权利要求1-5中任一项所述的方法训练的音频驱动人脸生成的神经辐射场模型中，输出多个姿态条件下的图像像素颜色值和密度值；

7.一种训练神经辐射场模型的装置，包括：

训练与渲染模块，用于将所述图像信息和所述音频信息输入至预先建立的初始神经辐射场模型中，输出渲染图像；其中，所述初始神经辐射场模型包括卷积网络编码器、卷积网络解码器和多模态注意力模块，所述卷积网络编码器包括卷积层、激活层、池化层和归一化层，用于将输入图像特征编码至隐层空间，以获取对所述输入图像特征的抽象表达；所述卷积网络解码器卷积层、激活层、归一化层、升采样层和反卷积层，用于将所述输入图像特征的抽象表达映射至图像空间，以生成在某一视角下的图像像素颜色值和密度值；所述多模态注意力模块包括特征编码器、特征注意力层和特征融合层，用于将所述输入图像特征的抽象表达生成所述输入图像特征的嵌入向量；

8.一种人脸生成装置，其特征在于，包括：

转换模块，用于将连续的音频片段输入如权利要求1-5中任一项所述的方法训练的音频驱动人脸生成的神经辐射场模型中，输出多个姿态条件下的图像像素颜色值和密度；

9.一种服务器，其特征在于，包括存储器和处理器，所述存储器中存储有程序指令，所述处理器通过运行所述程序指令，执行如权利要求1-6中任意一项所述的方法。