CN117689783B

CN117689783B - 一种基于超参数神经辐射场的人脸语音驱动方法及装置

Info

Publication number: CN117689783B
Application number: CN202410151128.1A
Authority: CN
Inventors: 邓正秋; 黎维
Original assignee: Hunan Malanshan Video Advanced Technology Research Institute Co ltd
Current assignee: Hunan Malanshan Video Advanced Technology Research Institute Co ltd
Priority date: 2024-02-02
Filing date: 2024-02-02
Publication date: 2024-04-30
Anticipated expiration: 2044-02-02
Also published as: CN117689783A

Abstract

一种基于超参数神经辐射场的人脸语音驱动方法及装置，涉及人脸图像处理技术领域，包括以下步骤：S1、将采集到的人像说话视频数据逐帧进行分割并提取出头部特征、音频特征及躯干特征；S2、将所述头部特征和音频特征输入至基于动态神经辐射场相互构建的超参数网络中计算出头部采样点颜色和密度；S3、将所述头部特征和所述躯干特征输入到基于网格的神经辐射场网络提取出躯干采样点颜色和透明度；S4、采用体渲染合成说话数字头像和躯干图像并合成整体动画；本发明解决了音频与面部合成动画显得生硬不自然的问题，通过头部特征和音频特征之间的相互引导优化，使得面部表情更贴合说话者的实际情感变化，能高度逼真地反映说话者的表情变化。

Description

一种基于超参数神经辐射场的人脸语音驱动方法及装置

技术领域

本发明涉及人脸图像处理技术领域，尤其是涉及一种基于超参数神经辐射场的人脸语音驱动方法及装置。

背景技术

基于音频驱动的数字人像动画合成在多个领域都具有非常重要的应用场景，如虚拟助手、娱乐产业等。在现今信息技术高度发达的时代，通过音频输入实现与人工智能的自然交互是不可或缺的一环。为了实现这一目标，如何以高度逼真的方式还原说话者的面部表情成为了关键。

在基于音频驱动的数字人像动画建模方面，面临多方面挑战。首先，准确建模音频与面部动画的复杂关系至关重要，以确保最终动画能高度逼真地反映说话者的表情变化。同时，保持嘴部运动的自然流畅性需要精细处理细节。

传统基于缝合的技术通过规则定义音频-嘴型关系来修改嘴部形状，但其在处理不同发音和口型的说话者上存在局限性，导致合成动画显得生硬不自然，失去真实感。

另一方面，利用面部标志与3D变形模型等结构表示辅助说话者合成也存在误差引入问题，影响动画质量。

发明内容

为了克服背景技术中的不足，本发明公开了一种基于超参数神经辐射场的人脸语音驱动方法及装置。

为实现上述发明目的，本发明采用如下技术方案：

一种基于超参数神经辐射场的人脸语音驱动方法，包括以下步骤：

S1、将采集到的人像说话视频数据逐帧进行分割并提取出头部特征、音频特征及躯干特征/>；

S2、将所述头部特征和音频特征/>输入至基于动态神经辐射场相互构建的超参数网络中提取出头部高层语义特征/>和音频高层语义特征/>，并根据所述头部高层语义特征/>和音频高层语义特征/>计算出头部采样点颜色与头部采样点密度；

S3、将所述头部特征和所述躯干特征/>输入到基于网格的神经辐射场网络提取出躯干采样点颜色与躯干采样点透明度；

S4、采用体渲染合成说话数字头像和躯干图像并合成整体图像，具体为：根据所述头部采样点颜色与头部采样点密度进行体渲染获得头部图像，并根据所述躯干采样点颜色和躯干采样点透明度进行体渲染获得躯干图像，最后将所述头部图像和所述躯干图像合成整体图像。

具体的，步骤S2中将所述头部特征和音频特征/>输入至基于动态神经辐射场相互构建的超参数网络中提取出头部高层语义特征/>和音频高层语义特征/>具体包括以下步骤：

S21、通过所述音频特征为头部特征构建第一超参数网络获得超参数头部矩阵，如式(4)所示：

(4)

其中，为超参数头部权重矩阵，/>为超参数头部偏差矩阵，MLP是多层感知机；

S22、通过所述头部特征为音频特征构建第二超参数网络获得超参数音频矩阵，如式(5)所示：

(5)

其中，为超参数音频权重矩阵，/>为超参数音频偏差矩阵，MLP是多层感知机；

S23、通过所述头部特征与所述超参数头部矩阵输入到预设第一超参数网络的获得所述头部高层语义特征，如式(6)所示：

(6)

其中，为一种S型激活函数；

S24、通过所述音频特征与所述超参数音频矩阵输入到预设第二超参数网络的获得所述音频高层语义特征，如式(7)所示：

(7)

其中，为一种S型激活函数。

具体的，步骤S2根据所述头部高层语义特征和音频高层语义特征/>计算出头部采样点颜色与头部采样点密度具体包括以下步骤：

S25、在第i帧时，从原点o以角度发出一条射线，以式（8）在射线上进行采样，

(8)

其中，代表在射线路径上采样的第y个点的三维坐标； />为在射线上的距离参数，即步长；

S26、通过多层感知机结合潜在外观嵌入计算所有采样点的颜色与密度，如式（9）所示：

(9)

其中，为潜在外观嵌入；/>与/>为第i帧所有头部采样点的颜色与密度；头部采样点/>颜色表示为/>，头部采样点/>密度表示为/>。

具体的，所述步骤S1具体包括以下步骤：

S11、将视频数据分解成视频帧数组，并通过分割算法将每个视频帧分解成头部图像、音频信号/>和躯干图像/>，其中i表示当前视频帧的序号；

S12、从头部图像中提取出头部特征/>，如式(1)所示，

(1)

其中，表示在第i帧处的头部输入信息；/>为头部的3D坐标；为观测方向，/>与/>分别为观测的方位角与俯仰角；/>为时间信息，是帧数i的线性变换；

S13、将音频信号转化为声谱图提取出音频特征/>，如式(2)所示，

(2)

其中，表示在第i帧处的音频输入；/>是希尔伯特窗口函数；/>是复指数项，表示频率的相位，其中j是虚数单位的虚部；u是时间的自变量，du表示从负无穷到正无穷，表示对整个时间轴进行积分，以考虑整个信号的信息；

S14、从躯干的图像中提取出躯干特征/>，如式(3)所示，

(3)

其中，表示在第i帧处的躯干输入信息；/>代表躯干的2D坐标。

具体的，步骤S3具体包括以下步骤：

S31、将躯干图像分割为网格，并将其离散化为网格单元，所述网格单元包含局部躯干特征；

S32、对每个网格单元内部进行多点采样获得采样点；

S33、通过计算采样点与网格单元的边界的欧式距离得到i帧下躯干所有采样点的欧氏距离集合；

S34、结合所述头部特征的观测方向与多层感知与残差结构计算躯干所有采样点的透明度与颜色，如式（10）所示:

(10)

其中，表示第i帧所有躯干采样点的颜色，/>表示第i帧所有躯干采样点的透明度。具体的，步骤S4具体包括以下步骤：

S41、根据每个像素颜色的均方差损失函数来训练网络生成头部模型，如式(11)所示：

(11)

其中，N表示帧的总数，Y表示在采样点的总数，表示在由模型计算出的第i帧下头部沿点/>采集的第y个采样点的预测颜色，而/>则表示第i帧下头部沿点/>采集的第y个采样点的真实颜色。

S42、根据头部采样点的预测颜色与密度的对头部模型进行体渲染获得头部渲染结果，如式（12）所示：

(12)

其中，表示点/>处的渲染结果，/>表示沿点/>以方向/>和步长/>进行的采样的集合，/>是光线传播的衰减系数；

S43、根据每个像素颜色的均方差损失函数来训练网络生成躯干模型，如式(13)所示：

(13)

其中，N表示帧的总数，Y表示在采样点的总数，表示在由模型计算出的第i帧下躯干沿点/>采集的第y个采样点的预测颜色，而/>则表示第i帧下躯干沿点采集的第y个采样点的真实颜色；

S44、根据躯干采样点的预测颜色与透明度的对躯干模型进行体渲染获得躯干渲染结果，如式（14）所示：

(14)

其中，表示点/>处的渲染结果，/>表示沿点/>以方向/>和步长进行的采样的集合，/>是光线传播的衰减系数；

S45、将头部渲染结果和躯干渲染结果进行合成得到整体图像。

具体的，步骤S12从头部图像中提取出头部特征/>采用的方法是短时傅里叶变换方法。

具体的，步骤S45中合成方法为阿尔法合成方法。

本发明还公开了一种基于超参数神经辐射场的人脸语音驱动装置，包含如下单元：

视频预处理单元，用于将采集到的人像说话视频数据逐帧进行分割并提取出头部特征、音频特征/>及躯干特征/>；

头部采样单元，用于将所述头部特征和音频特征/>输入至基于动态神经辐射场相互构建的超参数网络中提取出头部高层语义特征/>和音频高层语义特征/>，并根据所述头部高层语义特征/>和音频高层语义特征/>计算出头部采样点颜色与头部采样点密度；

躯干采样单元，用于将所述头部特征和所述躯干特征输入到基于网格的神经辐射场网络提取出躯干采样点颜色与躯干采样点透明度；

体渲染合成单元，采用体渲染合成说话数字头像和躯干图像并合成整体图像，具体为：根据所述头部采样点的颜色与密度进行体渲染获得头部图像，并根据所述躯干采样点的颜色和透明度进行体渲染获得躯干图像，最后将头部图像和躯干图像合成整体图像。

本发明公开的一种基于超参数神经辐射场的人脸语音驱动方法，包括以下步骤：S1、将采集到的人像说话视频数据逐帧进行分割并提取出头部特征、音频特征及躯干特征；S2、将所述头部特征和音频特征输入至基于动态神经辐射场相互构建的超参数网络中提取出头部高层语义特征和音频高层语义特征，并根据所述头部高层语义特征和音频高层语义特征计算出头部采样点颜色与头部采样点密度；S3、将所述头部特征和所述躯干特征输入到基于网格的神经辐射场网络提取出躯干采样点颜色与躯干采样点透明度；S4、采用体渲染合成说话数字头像和躯干图像并合成整体图像。本发明通过头部特征和音频特征之间的相互引导优化，头部特征在嘴部运动中起到引导作用，使得合成动画的口型更准确地反映了音频输入。同时，音频特征也能反过来对头部特征进行微调，使得面部表情更贴合说话者的实际情感变化，从而能够准确建模音频与面部动画的复杂关系，使得最终动画能高度逼真地反映说话者的表情变化；

进一步的，本发明通过构建两个超参数网络，分别以头部特征和音频特征作为输入，实现了对音频与头部的高层语义特征的提取，双重网络的相互优化也使得合成结果更具准确性和真实感，从而有效保持了精细处理的细节，使得嘴部运动更加自然流畅。

进一步的，本发明采用了细粒度合成，分别渲染头部和躯干，然后通过阿尔法合成整体图像，提高了渲染的灵活性，并且整体图像可以与任何提供的背景图像结合，产生更逼真的数字人物模型，使其在视觉上更具真实感和立体感。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例提供的一种基于超参数神经辐射场的人脸语音驱动方法流程图；

图2是根据本发明实施例提供一种基于超参数神经辐射场的人脸语音驱动方法结构示意图；

图3是根据本发明实施例提供的一种基于超参数神经辐射场的人脸语音驱动装置示意图；

图4是根据本发明实施例提供的一种基于超参数神经辐射场的人脸语音驱动设备的结构示意图。

具体实施方式

通过下面的实施例可以详细的解释本发明，公开本发明的目的旨在保护本发明范围内的一切技术改进，在本发明的描述中，需要理解的是，若有术语“上”、“下”、“前”、“后”、“左”、“右”等指示的方位或位置关系，仅是与本申请的附图对应，为了便于描述本发明，而不是指示或暗示所指的装置或元件必须具有特定的方位。

实施例一

参考图1-2，根据本实施例公开了一种基于超参数神经辐射场的人脸语音驱动方法，包含以下步骤：

在音频驱动的说话人像动画合成过程中，首要步骤是对视频数据进行预处理。此阶段旨在将原始视频数据进行切割、转换，以获取头部、音频和躯干三个部分，并将它们分别转换为相应的输入表示，参考图2中步骤一所示。

具体的，所述步骤S1具体包括以下步骤：

首先，对采集到的视频数据进行帧级别的分析。假设我们的视频数据由N帧组成，记作。每一帧/>包含了头部、音频和躯干等信息。

我们将通过一个分割算法将每一帧分成头部/>、音频/>和躯干/>三个部分。这一步骤能够将视频数据的不同部分进行解耦，以便后续的独立处理。

具体的，所述分割算法为人像分割算法Bisenet，具体可参见论文：Yu C, Wang J,Peng C, et al. Bisenet: Bilateral segmentation network for real-time semanticsegmentation[C]//Proceedings of the European conference on computer vision(ECCV). 2018: 325-341。

接下来，针对每个部分进行输入转换，将其转换为模型需要的输入信息。

S12、从头部图像中提取出头部特征/>，如式(1)所示，

(1)

其中，表示在第i帧处的头部输入信息，包括一些空间位置信息；为头部的3D坐标；/>为观测方向，/>与/>分别为观测的方位角与俯仰角；/>为时间信息，是帧数i的线性变换；

当使用动态神经辐射场进行头部特征建模时，关键在于我们需要从每一帧的头部信息中提取出关键的特征，这样动态神经辐射场才能准确地模拟头部的三维形态变化。具体来说，在第i帧，我们使用3D网格编码器从中提取出头部特征：/>，具体可参考论文：Tang J, Wang K, Zhou H, et al. Real-time neural radiance talkingportrait synthesis via audio-spatial decomposition[J]. arXiv preprint arXiv:2211.12368, 2022。

(2)

其中，表示在第i帧处的音频输入，即短时傅里叶变换值；/>是希尔伯特窗口函数；/>是复指数项，表示频率的相位，其中j是虚数单位的虚部；u是时间的自变量，du表示从负无穷到正无穷，表示对整个时间轴进行积分，以考虑整个信号的信息；

将音频信号转化为声谱图表示，可以使用短时傅里叶变换技术，具体的可以参考论文：Kaneko T, Tanaka K, Kameoka H, et al. iSTFTNet: Fast and lightweightmel-spectrogram vocoder incorporating inverse short-time Fourier transform[C]//ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech andSignal Processing (ICASSP). IEEE, 2022: 6207-6211。

S14、从躯干的图像中提取出躯干特征/>，如式(3)所示，

(3)

当处理躯干部分时，我们注意到躯干的摆动幅度相对较小，同时也高度依赖于头部的摆向。基于这一观察，我们可以将视频序列中的每一帧视作一个二维图像，通过利用这些图像来建模动态场景的几何和外观属性，具体的可以参考论文：Dhiman A, Srinath R,Sarkar S, et al. CoRF: Colorizing Radiance Fields using KnowledgeDistillation[J]. arXiv preprint arXiv:2309.07668, 2023。

基于动态神经辐射场的技术来驱动音频完成数字人像的合成，这一过程需要头部输入和音频输入进行精细建模和匹配，来提高层语义特征。

由于音频与人脸是具有高度相关性的，人脸对音频对彼此都有重要的指导意义。人的面部表情和嘴部运动直接受音频的影响，因此音频输入是我们合成数字人像的关键驱动因素，参考论文：Song Y, Zhu J, Li D, et al. Talking face generation byconditional recurrent adversarial network[J]. arXiv preprint arXiv:1804.04786, 2018。

反过来，人脸的表情和运动也提供了对音频的重要补充信息，使得说话者的声音和面部动作更加贴合自然，参考论文：Zeng D, Zhao S, Zhang J, et al. Expression-tailored talking face generation with adaptive cross-modal weighting[J].Neurocomputing, 2022, 511: 117-130。因此，我们通过相互构建超参数网络来实现音频和人脸特征的互相引导和优化。最后，以求取在不同射线下每个像素点的密度和颜色，通过使用这些参数来渲染合成数字人像，参考图2中步骤二所示。具体可分为两个阶段：

(4)

(5)

第一个阶段为构建超参数网络，我们需要构建两个超参数网络，以学习对音频与头部输入的互相引导与优化。

具体的，超参数网络能够有助于外部特征的补充，参考论文：Jagzap J B, PatilS S, Gade V J, et al. Effectiveness of three different irrigants-17%ethylenediaminetetraacetic acid, Q-MIX, and phytic acid in smear layerremoval: A comparative scanning electron microscope study[J]. Contemporaryclinical dentistry, 2017, 8(3): 459。

具体的，所述两个超参数网络包括第一超参数网络和第二超参数网络；第一超参数网络以音频特征作为补充外部特帧对头部特征进行构建，用于获得超参数头部特征；第二超参数网络以头部特征作为补充特征对音频特征进行构建，用于获取超参数音频矩阵。

具体的，超参数头部矩阵包括超参数头部权重矩阵和超参数头部偏差矩阵；

具体的，超参数音频矩阵包括超参数头部权重矩阵和超参数头部偏差矩阵；

MLP（Multi-Layer Perceptron）是多层感知机，分别表示了超参数头部权重矩阵与超参数头部偏差矩阵，通过音频特征输入经过多层感知机学习得出；相应地，表示了超参数音频权重矩阵与超参数音频偏差矩阵，通过头部特征输入经过多层感知机学习得出。

(6)

其中，为一种S型激活函数；

(7)

获得超参数矩阵后，我们将利用残差机制结合超参数矩阵对头部特征与音频特征进一步的提取高层语义特征。

第二个阶段为计算采样点的颜色与密度，我们运用从超参数网络中获得的高层语义特征，来进行密度和颜色的计算，为合成过程做准备。具体而言，我们依靠高层语义特征和 />来计算密度和颜色。在动态神经辐射场中，密度的计算和颜色的计算是基于场景中不同射线下采样的点的特征和属性来进行的。

(8)

其中，代表在射线路径上采样的第y个点的三维坐标； />为在射线上的距离参数，即步长，它决定了采样点的位置；

(9)

其中，为潜在外观嵌入，由预训练好的模型计算出来，表示外观特征的低维度向量或特征空间，可以捕捉到一个人像的抽象特征，与颜色、纹理等视觉属性相关；/>与/>为第i帧所有头部采样点的颜色与密度；头部采样点/>颜色表示为/>，头部采样点/>密度表示为/>。

如图2步骤三所示，本发明基于网格的神经辐射场技术来完成数字人躯干的建模。在这一过程中，躯干的摆动偏向与人体头部的运动具有密切关联，参考论文：Li J, ZhangJ, Bai X, et al. Efficient region-aware neural radiance fields for high-fidelity talking portrait synthesis[C]//Proceedings of the IEEE/CVFInternational Conference on Computer Vision. 2023: 7568-7578。因此，我们通过头部的方向来指导躯干建模的完成。具体来说，我们需要网格建模并计算颜色与透明度。

具体的，步骤S3具体包括以下步骤：

S32、对每个网格单元内部进行多点采样获得采样点；

(10)

其中，表示第i帧所有躯干采样点的颜色，/>表示第i帧所有躯干采样点的透明度。

首先，我们将躯干分割为网格，将其离散化为网格单元。每个网格单元包含了躯干的局部信息。对于每个网格单元，我们对其内部进行多点采样。这些采样点用来表示网格单元内的细节。对于每个采样点，我们计算它与网格单元的边界的欧式距离，用于确定它在网格单元中的位置，记为，表示i帧下躯干所有采样点的欧氏距离集合。基于此，我们结合头部的射线方向与多层感知与残差结构计算躯干所有采样点的透明度与颜色。

如图1步骤四所示，在这个阶段，我们将之前计算得到的头部与躯干的高层语义特征进行体渲染，完成最终数字人说话肖像的合成。这个步骤可以分为模型训练阶段与模型推理阶段两个类别。

在训练阶段，模型需要根据步骤二与步骤三中计算的密度、颜色、透明度等参数来计算损失函数以更新模型。

具体的，步骤S4具体包括以下步骤：

(11)

其中，N表示帧的总数，Y表示在采样点的总数，表示在由模型计算出的第i帧下头部采集的第y个采样点的预测颜色，而/>则表示第i帧下头部采集的第y个采样点的真实颜色。

(12)

在模型推理阶段时，我们则需要根据预测的颜色与密度的进行体渲染来完成数字人物的建模。我们使用体绘制的方法来进行渲染。

通过对每个体素以及颜色进行积分运算，我们可以获得最终的体渲染结果，从而完成数字人物说话动画的建模过程。

(13)

(14)

躯干部分的体渲染过程与头部体渲染的过程类似，我们则需要根据预测的颜色与透明度的进行体渲染来完成数字人物躯干的建模。我们使用体绘制的方法来进行渲染。

通过对每个体素以及颜色进行积分运算，我们可以获得最终的体渲染结果，从而完成数字人物躯干的建模过程。

具体的，步骤S45中合成方法为阿尔法合成方法,对于每个像素或采样点，使用阿尔法合成方法计算合成后的颜色。对于每个像素或采样点合成的颜色如式（15）所示：

(15)

其中，表示合成后的点/>处颜色结果，合成的颜色是躯干颜色和头部颜色的加权和，权重由躯干的透明度决定。

最后，我们通过阿尔法合成躯干与头部完成最终的结果输出，这使得我们可以与任何提供的背景图像结合，产生更逼真的数字人物模型，使其在视觉上更具真实感和立体感。

实施例二

参考图3，本实施例公开了一种基于超参数神经辐射场的人脸语音驱动装置，包含如下单元：

体渲染合成单元，用于采用体渲染合成说话数字头像和躯干图像并合成整体图像，具体为：用于根据所述头部采样点的颜色与密度进行体渲染获得头部图像，并根据所述躯干采样点的颜色和透明度进行体渲染获得躯干图像，最后将头部图像和躯干图像合成整体图像。

本发明实施例所提供的一种基于超参数神经辐射场的人脸语音驱动装置可执行本发明任意实施例所提供的一种基于超参数神经辐射场的人脸语音驱动方法，具备执行方法相应的功能模块和有益效果。值得注意的是，上述基于超参数神经辐射场的人脸语音驱动装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

实施例三

参考图4，图4是本实施例的一种基于超参数神经辐射场的人脸语音驱动设备的结构示意图。该实施例的基于超参数神经辐射场的人脸语音驱动设备20包括处理器21、存储器22以及存储在所述存储器22中并可在所述处理器21上运行的计算机程序。所述处理器21执行所述计算机程序时实现上述方法实施例中的步骤。或者，所述处理器21执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器22中，并由所述处理器21执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述基于超参数神经辐射场的人脸语音驱动设备20中的执行过程。例如，所述计算机程序可以被分割成实施例二中的各个模块,各模块具体功能请参考上述实施例所述的装置的工作过程，在此不再赘述。

所述基于超参数神经辐射场的人脸语音驱动设备20可包括，但不仅限于，处理器21、存储器22。本领域技术人员可以理解，所述示意图仅仅是基于超参数神经辐射场的人脸语音驱动设备20的示例，并不构成对基于超参数神经辐射场的人脸语音驱动设备20的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述基于超参数神经辐射场的人脸语音驱动设备20还可以包括输入输出设备、网络接入设备、总线等。

所述处理器21可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器21是所述基于超参数神经辐射场的人脸语音驱动设备20的控制中心，利用各种接口和线路连接整个基于超参数神经辐射场的人脸语音驱动设备20的各个部分。

所述存储器22可用于存储所述计算机程序和/或模块，所述处理器21通过运行或执行存储在所述存储器22内的计算机程序和/或模块，以及调用存储在存储器22内的数据，实现所述基于超参数神经辐射场的人脸语音驱动设备20的各种功能。所述存储器22可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡（Smart Media Card,SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述基于超参数神经辐射场的人脸语音驱动设备20集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器21执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明未详述部分为现有技术，对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明；因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，旨在将落在等同要件的含义和范围内的所有变化囊括在本发明内。

Claims

1.一种基于超参数神经辐射场的人脸语音驱动方法，其特征在于，包括以下步骤：

S1、将采集到的人像说话视频数据逐帧进行分割并提取出头部特征、音频特征/>及躯干特征/>；

S4、采用体渲染合成说话数字头像和躯干图像并合成整体图像，具体为：根据所述头部采样点颜色与头部采样点密度进行体渲染获得头部图像，并根据所述躯干采样点颜色和躯干采样点透明度进行体渲染获得躯干图像，最后将所述头部图像和所述躯干图像合成整体图像；

步骤S2中将所述头部特征和音频特征/>输入至基于动态神经辐射场相互构建的超参数网络中提取出头部高层语义特征/>和音频高层语义特征/>具体包括以下步骤：

；

S23、通过所述头部特征与所述超参数头部矩阵输入到预设第一超参数网络获得所述头部高层语义特征，如式(6)所示：

；

其中，为一种S型激活函数；

S24、通过所述音频特征与所述超参数音频矩阵输入到预设第二超参数网络获得所述音频高层语义特征，如式(7)所示：

；

其中，为一种S型激活函数。

2.根据权利要求1所述的方法，其特征在于，步骤S2根据所述头部高层语义特征和音频高层语义特征/>计算出头部采样点颜色与头部采样点密度具体包括以下步骤：

；

其中，代表在射线路径上采样的第y个点的三维坐标；/>为在射线上的距离参数，即步长；

；

其中，为潜在外观嵌入；/>与/>为第i帧所有头部采样点的颜色与密度；头部采样点颜色表示为/>，头部采样点/>密度表示为/>。

3.根据权利要求2所述的方法，其特征在于，所述步骤S1具体包括以下步骤：

S12、从头部图像中提取出头部特征/>，如式(1)所示，

；

其中，表示在第i帧处的头部输入信息；/>为头部的3D坐标；/>为观测方向，/>与/>分别为观测的方位角与俯仰角；/>为时间信息，是帧数i的线性变换；

；

其中，表示在第i帧处的音频输入；/>是希尔伯特窗口函数；/>是复指数项，表示频率的相位，其中j是虚数单位的虚部；u是时间的自变量；

S14、从躯干的图像中提取出躯干特征/>，如式(3)所示，

；

4.根据权利要求3所述的方法，其特征在于，步骤S3具体包括以下步骤：

S32、对每个网格单元内部进行多点采样获得采样点；

S34、结合所述头部特征的观测方向与多层感知与残差结构计算躯干所有采样点的透明度与颜色，如式（10）所示：

；

5.根据权利要求4所述的方法，其特征在于，步骤S4具体包括以下步骤：

；

其中，N表示帧的总数，Y表示在采样点的总数，表示在由模型计算出的第i帧下头部采集的第y个采样点的预测颜色，而/>则表示第i帧下头部采集的第y个采样点的真实颜色；

；

其中，N表示帧的总数，Y表示在采样点的总数，表示在由模型计算出的第i帧下躯干沿点/>采集的第y个采样点的预测颜色，而/>则表示第i帧下躯干沿点/>采集的第y个采样点的真实颜色；

；

其中，表示点/>处的渲染结果，/>表示沿点/>以方向/>和步长/>行的采样的集合，/>是光线传播的衰减系数；

6.根据权利要求3所述的方法，其特征在于，步骤S12从头部图像中提取出头部特征采用的方法是短时傅里叶变换方法。

7.根据权利要求5所述的方法，其特征在于，步骤S45中合成方法为阿尔法合成方法。

8.一种基于超参数神经辐射场的人脸语音驱动装置，其特征在于，包含如下单元：

头部采样单元，用于将所述头部特征和音频特征/>输入至基于动态神经辐射场相互构建的超参数网络中提取出头部高层语义特征/>和音频高层语义特征/>，根据所述头部高层语义特征/>和音频高层语义特征/>计算出头部采样点颜色与头部采样点密度；将所述头部特征/>和音频特征/>输入至基于动态神经辐射场相互构建的超参数网络中提取出头部高层语义特征/>和音频高层语义特征/>，具体包括以下步骤：

；

其中，为一种S型激活函数；

；

其中，为一种S型激活函数；