CN112887698B

CN112887698B - 基于神经辐射场的高质量人脸语音驱动方法

Info

Publication number: CN112887698B
Application number: CN202110158687.1A
Authority: CN
Inventors: 张举勇; 郭玉东; 陈柯宇
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2022-05-17
Anticipated expiration: 2041-02-04
Also published as: CN112887698A

Abstract

本发明提供了一种基于神经辐射场的高质量人脸语音驱动方法，包括以下步骤：利用基于文本的语音识别模型对视频同步的语音信息进行特征提取，获得提取后的语音特征；对初始人脸说话视频集合逐帧进行分割；使用预训练好的三维人脸重建模型估计每帧人脸的姿态信息；利用多层感知器学习针对目标图片的神经辐射场模型；将所述语音特征作为条件信息，采用神经渲染的方式生成当前视角及语音条件下的图片。由基于神经辐射场训练的人脸说话模型，具有隐式表示三维人脸人体位移，包括刚性和非刚性运动的能力。由于神经渲染支持不同射线角度和不同密度的采样设置，其生成的人脸说话视频具有高质量且稳定的特点。

Description

基于神经辐射场的高质量人脸语音驱动方法

技术领域

本发明涉及人脸图像处理技术领域，尤其涉及一种基于神经辐射场的高质量人脸语音驱动方法。

背景技术

随着近年来图像处理领域技术的发展，基于人工智能的数字人在例如远程视频会议、虚拟角色生成和动画视频创作等应用中需求十分广泛。如何构建真实逼真且高质量的虚拟人物成为了一个广受关注的问题。其中，使用任意输入的语音信号驱动目标人脸并生成自然的说话视频序列是一个核心应用。

在过去，高质量的人脸语音驱动主要有三种方法：手动建模，通过预先对目标人脸的一系列说话嘴型进行建模，再将语音信号手动分解为相应的动作序列，从而生成符合预先建模动作的说话模型。手工建模作为最早的三维建模手段，现在仍然被广泛地使用。手工建模一般需要有经验的专业人士借助Autodesk Maya，3DMax等软件来完成。由于手动建模需要耗费大量的人力与时间，该技术通常只能应用于高成本的电影电视等卡通动画制作中，且最终成果严重依赖于负责手动建模的三维动画艺术家的个人审美。基于生成对抗网络的人脸语音驱动技术是指通过大量收集的人脸说话视频及语音序列，借助生成对抗训练得到一个从语音映射到人脸图片的生成对抗网络。该方法相比于传统的手工建模方法，不需要大量的专业美术人士的工作，较为节省人力和时间。然而由于该方法需要对众多成对的人脸视频和语音进行“黑箱式”训练，其最终效果和稳定性依然难以保证。基于神经辐射场的人脸语音驱动方法是将深度学习中针对图片的生成对抗网络改进为使用神经辐射场的神经渲染方式，该方法虽然仍依赖于自动的神经网络优化方法，但在模型设计中隐式表示了目标图片中人物及背景的三维形状特征。借助该设计的人脸语音驱动方法具有较为容易训练、对训练数据规模要求不高以及结果质量高且稳定等优势，因此具备更好的应用前景。

在生成语音驱动的人脸视频序列时，通常可以将该问题视为从语音信号到人脸视频信号的跨模态任务。由于输入与输出的模态信号之间差异较大，之前的解决思路主要分为两种。一种是使用大规模数据集拟合一个复杂的映射函数，即从语音信号直接生成人脸视频。该方法借助的生成对抗网络由于自身难以稳定训练，常常在生成的目标人脸嘴型及图片局部特征处表现不佳；另一种思路是将语音到人脸视频的映射分解为多个中间模态，例如语音信号到人脸表情系数再到显式三维人脸模型，最终渲染得到目标人脸的说话视频序列。该方法中虽然仍利用了生成对抗网络作为中间映射，但是借助了可编辑的三维人脸模型，结果相对稳定；不过在保持原目标人脸的细节如光照、皱纹以及背景融合等方面，则达不到逼真的效果。

发明内容

有鉴于此，本发明的主要目的在于提供一种基于神经辐射场的高质量人脸语音驱动方法，以期部分地解决上述技术问题中的至少之一。

为了实现上述目的，本发明提供了一种基于神经辐射场的高质量人脸语音驱动方法，包括以下步骤：

利用基于文本的语音识别模型对视频同步的语音信息进行特征提取，获得提取后的语音特征；

对初始人脸说话视频集合逐帧进行分割；

使用预训练好的三维人脸重建模型估计每帧人脸的姿态信息；

利用多层感知器学习针对目标图片的神经辐射场模型；

将所述语音特征作为条件信息，采用神经渲染的方式生成当前视角及语音条件下的图片。

其中，所述对初始人脸说话视频集合逐帧进行分割时所依据的图像分割要素包括人脸、除人脸部分上半身躯干和背景的抠图以及对应的标签；所述对初始人脸说话视频集合逐帧进行分割后的分割结果包括若干连续帧彩色人脸图像以及对应的头部、躯干、背景；每一彩色人脸图像均为RGB三通道图像。

其中，所述三维人脸重建模型包括基于参数化人脸模型和神经网络；和/或

所述基于文本的语音识别模型包括针对特定语种训练的语音识别模型。

其中，所述神经辐射场模型为全连接神经网络模型，依次包括：输入层、卷积层、非线性层、池化层、全连接层与损失层。

其中，所述神经辐射场模型建立了以语音特征作为条件信号的隐式函数，如下式所示：

其中，a是经过语音预训练模型提取的语音特征，d是根据人脸姿态参数和相机位置变换后的射线方向，x是射线方向对应的像素点在三维坐标系下的位置；c是隐式函数输出的在该射线方向和位置上的像素点颜色值，σ是该点的密度值。

其中，利用学习到的隐式函数表示和体素化特征，采用神经渲染的方式生成相应的图片，包括：

按照像素点和相机位置采样射线方向；

根据射线方向、当前语音特征得到一系列RGB像素值与相应密度值。

其中，所述像素点最终的颜色信息C如下：

其中，r代表当前相机视角Π下的采样射线方向，θ是表征该隐式函数的神经网络参数，a是当前时刻的语音特征编码，C和σ_θ分别表示在当前视线方向射线上的颜色与密度值，r(t)和d则表示随射线方向r连续采样空间位置点，T(t)表示从相机起点t_n至当前位置t_f的连续积分。

其中，根据预先分割好的人脸区域，上半身人体区域以及背景区域，首先将人脸的位姿信息作用于对应的人脸区域，学习以人脸区域为前景的神经辐射场模型；再针对人体上半身区域，学习以躯干部分为前景的神经辐射场。

其中，所述神经辐射场将沿射线输出变换后的密度值，通过如下积分转换后得到更新后的前景背景融合结果；

其中，所述方法还包括经过神经辐射场模型渲染得到的图片与原图片一起计算图像真实度损失函数，用于反向传播并训练神经辐射场模型。

基于上述技术方案可知，本发明的人脸语音驱动方法相对于现有技术至少具有如下有益效果之一或其中的一部分：

(1)由基于神经辐射场训练的人脸说话模型，具有隐式表示三维人脸人体位移，包括刚性和非刚性运动的能力。由于神经渲染支持不同射线角度和不同密度的采样设置，其生成的人脸说话视频具有高质量且稳定的特点；

(2)通过分别对目标人物说话视频中人脸和上半身躯干部分分别建模神经辐射场，该方法可以生成自然逼真的人体和人头运动视频；

(3)通过替换输入的语音条件信号，可以生成不同语音信息下相应的人脸说话动作；

(4)不需要大量成对的语音-视频数据集用于训练，只需要单个人三至五分钟的视频即可构造该目标人物的说话人脸视频生成模型；

(5)通过神经辐射场对说话时运动的人脸和人体进行隐式函数建模，可以生成高质量的人脸说话视频结果；

(6)直接将语音特征作为条件信号作用于隐式函数中，无需其他任何中间模态的转换，如人脸表情，人脸关键点等，进一步提高了语音到人脸形状映射的准确性。

附图说明

图1为本发明实施例提供的一种基于神经辐射场的高质量人脸语音驱动方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

在语音驱动的人脸视频生成领域，传统的基于手工建模的方法效果较好，但是依赖于专业技能，耗时长且最终效果取决于建模工程师的个人水平；基于二维图像的生成对抗网络模型，需要大规模成对数据集，训练难度大，效果质量不稳定。

为此，本发明公开了一种基于神经辐射场的高质量人脸语音驱动方法，该方法根据一段较短的人脸说话视频(三至五分钟)，分别对视频中人脸和上半身躯干部分建立两个不同的神经辐射场模型，借助神经渲染技术，可以建立一个以语音特征作为条件信号的隐式函数，用于生成并渲染高质量的人脸说话视频。

基于神经辐射场的神经渲染方法则是将显示的三维人脸建模替换为模拟真实成像的隐式函数，通过沿视线方向估计图片的颜色和密度特征以进行渲染，从而得到与原图非常一致的重建结果。借助该方法，可以将语音信号作为学习该映射方式的条件信号，从而使得在测试阶段，可以仅输入语音信号，即输出相应的高质量人脸说话视频。

如图1所示，该方法主要包括如下步骤：

步骤1、利用基于文本的语音识别模型对视频同步的语音信息进行特征提取；

所述基于文本的语音识别模型包括各种公开的语音特征提取模型，包括且不限于针对特定语种训练的语音识别模型。

步骤2、对初始人脸视频集合V逐帧进行分割；

所述人脸视频集合V中包括：若干连续帧彩色说话人脸图像以及对应的同步语音数据；

每一帧彩色人脸图像均为RGB三通道图像；对应语音信号总时长与视频长度一致。

所述图像分割要素包括人脸、除人脸部分上半身躯干和背景的抠图以及对应的标签。

步骤3、使用预训练好的三维人脸重建方法估计每帧人脸的姿态信息，，包含三维空间中人脸相应的旋转和平移矩阵Π＝{R，t}；

所述的用于估计人脸位姿信息的预训练三维人脸重建方法包括基于参数化人脸模型和神经网络的各种人脸重建模型。

步骤4、利用多层感知器学习针对目标图片的神经辐射场

所述针对目标图片学习神经辐射场的多层感知器为全连接神经网络模型，依次包括：输入层、卷积层、非线性层、池化层、全连接层与损失层。

将语音作为条件信息，利用多层感知器学习针对目标图片的隐式函数：

上式中，θ表示多层感知器中的可学习参数，该隐式函数的输入参数包括：检索位置x，检索方向d以及语音的条件信号a；c表示当前输入下隐式函数输出的像素颜色信息，σ表示对应像素的密度信息。

利用上述学习到的隐式函数表示和体素化特征，采用神经渲染的方式生成相应的图片。该流程包括：按照像素点和相机位置采样射线方向d；根据射线方向d、当前语音特征a得到一系列RGB像素值与相应密度值；根据以下公式计算该像素点最终的颜色信息C如下：

其中，C和σ分别表示在当前视线方向射线上的颜色与密度值。根据预先分割好的人脸区域，上半身人体区域以及背景区域，首先将人脸的位姿变换Π作用于对应的人脸区域，学习一个以人脸区域为前景的神经辐射场模型；下一步，再针对人体上半身区域(不包含人头)，学习以躯干部分为前景的神经辐射场；上述的神经辐射场将沿射线输出变换后的密度值，通过如下积分转换后可以得到更新后的前景背景融合结果

最终，经过神经辐射场模型渲染得到的图片与原图片一起计算图像真实度损失函数，用于反向传播并训练神经辐射场模型。

s.t.I_r(w，h)＝C(r_w，h；θ，Π，a)

上式中，I_r表示经过神经辐射场渲染生成的图片，I_g为原图片，且两张图片尺寸均为W×H，两图片之间的差异由L2距离刻画。

步骤5、将语音特征作为条件信息，采用神经渲染的方式生成当前视角及语音条件下的图片。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于神经辐射场的高质量人脸语音驱动方法，其特征在于，包括以下步骤：

对初始人脸说话视频集合逐帧进行分割；

利用多层感知器学习针对目标图片的神经辐射场模型，其中，所述神经辐射场模型建立了以语音特征作为条件信号的隐式函数，如下式所示：

；

其中，

表示具有可学习参数的隐式函数，

表示多层感知器中的可学习参数，a是经过语音预训练模型提取的语音特征，d是根据人脸姿态参数和相机位置变换后的射线方向，x是射线方向对应的像素点在三维坐标系下的位置；c是隐式函数输出的在该射线方向和位置上的像素点颜色值，

是该点的密度值；

2.根据权利要求1所述的高质量人脸语音驱动方法，其特征在于，所述对初始人脸说话视频集合逐帧进行分割时所依据的图像分割要素包括人脸、除人脸部分上半身躯干和背景的抠图以及对应的标签；所述对初始人脸说话视频集合逐帧进行分割后的分割结果包括若干连续帧彩色人脸图像以及对应的头部、躯干、背景；每一彩色人脸图像均为RGB三通道图像。

3.根据权利要求1所述的高质量人脸语音驱动方法，其特征在于，所述三维人脸重建模型包括基于参数化人脸模型和神经网络；和/或

4.根据权利要求1所述的高质量人脸语音驱动方法，其特征在于，所述神经辐射场模型为全连接神经网络模型，依次包括：输入层、卷积层、非线性层、池化层、全连接层与损失层。

5.根据权利要求1所述的高质量人脸语音驱动方法，其特征在于，利用学习到的隐式函数表示和体素化特征，采用神经渲染的方式生成相应的图片，包括：

按照像素点和相机位置采样射线方向；

6.根据权利要求5所述的高质量人脸语音驱动方法，其特征在于，所述像素点最终的颜色信息C 如下：