CN116524087A

CN116524087A - 融合神经辐射场的音频驱动的说话人视频合成方法及系统

Info

Publication number: CN116524087A
Application number: CN202310541557.5A
Authority: CN
Inventors: 祝阅兵; 冯思为; 李永源
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2023-05-15
Filing date: 2023-05-15
Publication date: 2023-08-01

Abstract

本发明提供一种融合神经辐射场的音频驱动的说话人视频合成方法及系统，该方法包括获取环境中的视频数据集，任意选取一段时间的视频数据集并从中解析出视频序列和音频序列；从所述视频序列中提取人脸特征以及从所述音频序列中提取音频特征；构建一个音频条件隐式函数Fθ，将提取的人脸特征和音频特征参数放入构建好的音频条件隐式函数Fθ进行训练，计算出音频的颜色值和体密度；根据音频的颜色值和体密度，使用体渲染技术从动态神经辐射场渲染出视觉人脸及背景信息，合成与音频信号相对应的高保真语音说话人视频。本发明借助于神经辐射场，不需要借助中间表示，直接合成与音频信号对应的高保真的说话人视频合成。

Description

融合神经辐射场的音频驱动的说话人视频合成方法及系统

技术领域

本发明涉及说话人视频合成技术领域，尤其涉及一种融合神经辐射场的音频驱动的说话人视频合成方法及系统。

背景技术

近年来，随着深度学习技术的不断发展，说话人视频合成技术取得了很大的进展。音频驱动的说话人视频合成技术是指利用语音作为输入，生成与该语音内容相匹配的人物视频。这种技术在虚拟人物、语音合成、视频会议等领域具有广泛的应用前景。音频驱动的说话人视频合成，其目的就是通过一段源音频驱动对应目标视频的生成，且目标视频的口型与输入的源音频保持一致。

目前常见的音频驱动的说话人视频合成方法有基于纯图像的方法和基于模型的方法。基于纯图像的方法：采用深度学习的方法提取各种人物图片的特征，建立一个神经网络模型以此应用于新的目标人物，使用目标人物的人脸控制给定面部的姿势和表情。该模型可以用于轻量级、复杂的视频和图像编辑。基于模型的说话人合成方法：在生成逼真的人脸图像时采用先验信息的方法，即这种方法的核心是统计模型，例如面部形状的3DMorphable models(三维形变模型)或者2D landmarks(关键点特征)，通过音频特征和3DMM模型的面部特征相结合，生成目标说话人的面部表情动画。

但是现有技术存在以下的不足：

1.基于纯图像的说话人合成方法：只能生成静止的人脸裁剪图像。无法生成具有背景和目标人物自然拍摄风格的全尺寸图像，且受到输入图片尺寸的大小，无法生成高分辨率的图像。

2.基于模型的说话人合成方法：例如3DMM依赖于中间表示(即中间过程所生成的三维参数)，以弥合音频输入和视频输出之间的差距，由于中间表示造成的信息损失，可能会导致原始音频信号与学习到的人脸形变之间的语义不匹配，在表示人脸的形状和纹理方面具有一定的限制，例如无法很好地处理头发、眼睛、嘴唇等细节区域，限制了模型的精度和逼真度。3DMM模型的训练需要大量的高质量的面部数据，但是很难获得具有足够多样性的面部数据集，这限制了模型的泛化能力和适应性。

发明内容

为此，本发明实施例提供了一种融合神经辐射场的音频驱动的说话人视频合成方法及系统，用于解决现有技术中只能生成静止的人脸裁剪图像以及依赖于中间表示导致原始音频信号与学习到的人脸形变之间的语义不匹配的问题。

为了解决上述问题，本发明实施例提供一种融合神经辐射场的音频驱动的说话人视频合成方法，该方法包括：

S1：获取环境中的视频数据集，任意选取一段时间的视频数据集并从中解析出视频序列和音频序列；

S2：从所述视频序列中提取人脸特征以及从所述音频序列中提取音频特征；

S3：构建一个音频条件隐式函数Fθ，将提取的人脸特征和音频特征参数放入构建好的音频条件隐式函数Fθ进行训练，计算出音频的颜色值和体密度，所述隐式函数Fθ用于表示动态神经辐射场；

S4：根据音频的颜色值和体密度，使用体渲染技术从动态神经辐射场渲染出视觉人脸及背景信息，合成与音频信号相对应的高保真语音说话人视频。

优选地，还包括使用SyncNet scores模块计算视听同步得分，用来评估口型一致性，通过修改音频特征a和姿态参数Π实现音频驱动和姿态操纵的说话人视频合成

优选地，从所述视频序列中提取人脸特征的方法为：

采用人脸面部解析方法分割视频序列中的人脸部位并提取干净的背景，得到解析后的视频帧，对解析后的视频帧序列进行平移和旋转，将人脸特征转换到规范空间。

优选地，从所述音频序列中提取音频特征的方法为：

使用语音识别工具从所述音频序列中提取音频特征。

优选地，所述音频条件隐式函数Fθ模型为：

Fθ:(a,d,x)→(c,σ)

其中a表示音频特征，d表示观看方向，x表示物体的3D位置，c表示颜色值，σ表示体密度。

优选地，根据音频条件隐式函数Fθ模型得出颜色值c和体密度σ，接着使用体渲染技术，将采样的体密度σ和颜色值c沿着每个像素投射的光线进行累积，计算图像渲染结果的输出颜色C，计算公式为：

其中，r(t)＝o+td，o表示相机中心，d表示观看方向，tn表示近界，tf表示远界，θ表示角度，Π表示姿态参数，σ_θ(·)和c_θ(·)表示隐式函数Fθ模型的输出，T(t)为从tn到t沿光线的累计透射率。

优选地，使用L2损失函数，优化渲染出的图像和训练真实图像之间的误差，表示如下：

其中，I_r表示渲染出的图像，I_r∈R^W×H×3，I_g表示训练的真实图片，I_g∈R^W×H×3，W表示宽度，H表示高度，a表示音频特征，Π表示姿态参数，θ表示角度，w表示宽度，h表示高度。

本发明实施例还提供了一种融合神经辐射场的音频驱动的说话人视频合成系统，该系统包括：

采集模块，用于获取环境中的视频数据集，任意选取一段时间的视频数据集并从中解析出视频序列和音频序列；

特征提取模块，用于从所述视频序列中提取人脸特征以及从所述音频序列中提取音频特征；

计算模块，用于构建一个音频条件隐式函数Fθ，将提取的人脸特征和音频特征参数放入构建好的音频条件隐式函数Fθ进行训练，计算出音频的颜色值和体密度，所述隐式函数Fθ用于表示动态神经辐射场；

合成模块，用于使用体渲染技术从动态神经辐射场渲染出视觉人脸及背景信息，合成与音频信号相对应的高保真语音说话人视频；

评估模块，使用SyncNet scores模块计算视听同步得分，用来评估口型一致性，通过修改音频特征a和姿态参数Π实现音频驱动和姿态操纵的说话人视频合成。

本发明实施例还提供了一种电子装置，其特征在于，包括处理器、存储器和总线系统，所述处理器和存储器通过该总线系统相连，所述存储器用于存储指令，所述处理器用于执行存储器存储的指令，以实现上述任意一项所述的融合神经辐射场的音频驱动的说话人视频合成方法。

本发明实施例还提供了一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机软件产品，所述计算机软件产品包括的若干指令，用以使得一台计算机设备执行上述任意一项所述的融合神经辐射场的音频驱动的说话人视频合成方法。

从以上技术方案可以看出，本发明申请具有以下优点：

1.相较于基于纯图像的说话人合成方法，本发明借助于神经辐射场生成具有背景和目标人物自然拍摄风格的图像，使得生成的图像不是静止的人脸裁剪图像，且不受输入图像大小的限制。

2.相较于基于模型的说话人合成方法，由于中间表示造成的信息损失，可能会导致原始音频信号与学习到的人脸变形之间的语义不匹配。本发明不依赖于任何中间表示，将输入音频信号的特征直接输入到条件隐式函数中，生成动态神经辐射场，之后用合成与音频对应的高保真视频，且支持音频信号，观看方向和背景图像的自由调整。

3.本发明不同于现有的方法，只需要一段3-5分钟的短视频序列，不依赖于中间表示过程，简化了生成过程，借助于改进的神经辐射场，生成高保真全场景的说话人合成视频。

附图说明

为了更清楚地说明本发明实施案例或现有技术中的技术方案，下边将对实施例中所需要使用的附图做简单说明，通过参考附图会更清楚的理解本发明的特征和优点，附图是示意性的而不应该理解为对本发明进行任何限制，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，可以根据这些附图获得其他的附图。其中：

图1为根据实施例中提供的一种融合神经辐射场的音频驱动的说话人视频合成方法的流程图；

图2为根据实施例中提供的一种融合神经辐射场的音频驱动的说话人视频合成系统的框图。

具体实施方式

为使本发明实施例的目的、技术方案与优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提出一种融合神经辐射场的音频驱动的说话人视频合成方法，该方法包括：

S5：使用SyncNet scores模块计算视听同步得分，用来评估口型一致性，通过修改音频特征a和姿态参数Π实现音频驱动和姿态操纵的说话人视频合成。

本发明提出一种融合神经辐射场的音频驱动的说话人视频合成方法，通过任意选取一段时间的视频数据集并从中解析出视频序列和音频序列，将提取的人脸特征和音频特征参数放入构建好的音频条件隐式函数Fθ进行训练，本发明不依赖于任何中间表示，简化了生成过程，生成动态神经辐射场，之后用合成与音频对应的高保真视频，且支持音频信号，观看方向和背景图像的自由调整。本发明借助于神经辐射场生成具有背景和目标人物自然拍摄风格的图像，使得生成的图像不是静止的人脸裁剪图像，且不受输入图像大小的限制。

进一步地，获取环境中的视频数据集，选取一段3-5min的视频数据集视频V(帧率为25fps)和音频A，使用face-parsing(人脸解析方法)将人脸和背景图片分开，得到解析后的视频帧；使用DeepSpeech模型提取音频特征a∈R^16*29。

进一步地，对解析后的视频帧序列进行平移和旋转，即为Π＝{R^3*3,T^3*1}，将人脸特征转换到规范空间，由于在说话过程中人脸会移动，故做此操作仅保留嘴唇部位的变动。

进一步地，构建一个音频条件隐式函数Fθ，将提取的人脸特征和音频特征参数放入构建好的音频条件隐式函数Fθ进行训练，计算出音频的颜色值和体密度，所述隐式函数Fθ用于表示动态神经辐射场，所述隐式函数Fθ是由多层感知器(MLP)实现。

所述音频条件隐式函数Fθ模型为：

Fθ:(a,d,x)→(c,σ)

根据音频条件隐式函数Fθ模型得出颜色值c和体密度σ，接着使用体渲染技术，将采样的体密度σ和颜色值c沿着每个像素投射的光线进行累积，计算图像渲染结果的输出颜色C，计算公式为：

进一步地，根据音频的颜色值和体密度，使用体渲染技术从动态神经辐射场渲染出视觉人脸及背景信息，合成与音频信号相对应的高保真语音说话人视频。(体渲染volumerender，体渲染是一种图形学技术，用于可视化三维数据集。它将三维数据集中的密度或属性值转换为可见的二维或三维图像。)

使用L2损失函数，优化渲染出的图像和训练真实图像之间的误差，表示如下：

进一步地，使用SyncNet scores模块计算视听同步得分，用来评估口型一致性，通过修改音频特征a和姿态参数Π实现音频驱动和姿态操纵的说话人视频合成。

如图2所示，本发明提供一种融合神经辐射场的音频驱动的说话人视频合成系统，该系统包括：

采集模块10，用于获取环境中的视频数据集，任意选取一段时间的视频数据集并从中解析出视频序列和音频序列；

特征提取模块20，用于从所述视频序列中提取人脸特征以及从所述音频序列中提取音频特征；

计算模块30，用于构建一个音频条件隐式函数Fθ，将提取的人脸特征和音频特征参数放入构建好的音频条件隐式函数Fθ进行训练，计算出音频的颜色值和体密度，所述隐式函数Fθ用于表示动态神经辐射场；

合成模块40，用于使用体渲染技术从动态神经辐射场渲染出视觉人脸及背景信息，合成与音频信号相对应的高保真语音说话人视频；

评估模块50，使用SyncNet scores模块计算视听同步得分，用来评估口型一致性，通过修改音频特征a和姿态参数Π实现音频驱动和姿态操纵的说话人视频合成。

所述系统，用以实现上述所述的融合神经辐射场的音频驱动的说话人视频合成方法，为了避免冗余，在此不再赘述。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种融合神经辐射场的音频驱动的说话人视频合成方法，其特征在于，包括：

2.根据权利要求1所述的融合神经辐射场的音频驱动的说话人视频合成方法，其特征在于，还包括使用SyncNet scores模块计算视听同步得分，用来评估口型一致性，通过修改音频特征a和姿态参数Π实现音频驱动和姿态操纵的说话人视频合成。

3.根据权利要求1所述的融合神经辐射场的音频驱动的说话人视频合成方法，其特征在于，从所述视频序列中提取人脸特征的方法为：

4.根据权利要求1所述的融合神经辐射场的音频驱动的说话人视频合成方法，其特征在于，从所述音频序列中提取音频特征的方法为：

使用语音识别工具从所述音频序列中提取音频特征。

5.根据权利要求1所述的融合神经辐射场的音频驱动的说话人视频合成方法，其特征在于，所述音频条件隐式函数Fθ模型为：

Fθ:(a,d,x)→(c,σ)

6.根据权利要求1所述的融合神经辐射场的音频驱动的说话人视频合成方法，其特征在于，根据音频条件隐式函数Fθ模型得出颜色值c和体密度σ，接着使用体渲染技术，将采样的体密度σ和颜色值c沿着每个像素投射的光线进行累积，计算图像渲染结果的输出颜色C，计算公式为：

7.根据权利要求1所述的融合神经辐射场的音频驱动的说话人视频合成方法，其特征在于，使用L2损失函数，优化渲染出的图像和训练真实图像之间的误差，表示如下：

I_r(w，h)＝c(r_w，h；θ，∏，a)

8.一种融合神经辐射场的音频驱动的说话人视频合成系统，其特征在于，包括：

9.一种电子装置，其特征在于，包括处理器、存储器和总线系统，所述处理器和存储器通过该总线系统相连，所述存储器用于存储指令，所述处理器用于执行存储器存储的指令，以实现权利要求1至7任意一项所述的融合神经辐射场的音频驱动的说话人视频合成方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机软件产品，所述计算机软件产品包括的若干指令，用以使得一台计算机设备执行权利要求1至7任意一项所述的融合神经辐射场的音频驱动的说话人视频合成方法。