CN113838173B

CN113838173B - 一种受语音和背景声联合驱动的虚拟人头部运动合成方法

Info

Publication number: CN113838173B
Application number: CN202111111750.2A
Authority: CN
Inventors: 曾鸣; 刘鹏飞
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2021-09-23
Filing date: 2021-09-23
Publication date: 2023-08-22
Anticipated expiration: 2041-09-23
Also published as: CN113838173A

Abstract

一种受语音和背景声联合驱动的虚拟人头部运动合成方法，涉及计算机视觉。对待合成的人脸参考图像进行人脸三维重建，提取其人脸身份参数、人脸纹理参数；输入音乐音频流进行音声分离，分离出背景声音频流和语音音频流；提取音频特征，分别输出背景声特征序列和语音特征序列；分别向第一～四网络输入音频特征，输出头部姿态参数序列、面部表情参数序列；计算三维人脸模型形状和纹理并进行投影渲染，输出二维人脸渲染图像序列；对第五网络输入二维人脸渲染图像序列，输出纹理优化后的虚拟人头部形象视频帧序列。可驱动虚拟人头部姿态、面部表情、眼睛、口型等协同运动，合成神态表情丰富、动作感真实、表现力强的虚拟人头部形象视频。

Description

一种受语音和背景声联合驱动的虚拟人头部运动合成方法

技术领域

本发明涉及计算机视觉技术领域，尤其是涉及一种受语音和背景声联合驱动的虚拟人头部运动合成方法。

背景技术

传统的虚拟人头部形象合成技术需要真人动作驱动，可以合成与真人动作一致、表情丰富的虚拟形象动画，但合成过程复杂且成本较高。语音驱动的虚拟人头部形象合成技术能够从一段语音音频合成一段虚拟人说话的视频，但仅局限于说话情景，合成的虚拟人面部表情往往呆滞死板，表现力差。

论文Suwajanakorn S,Seitz S M,Kemelmacher-Shlizerman I.Synthesizingobama:learning lip sync from audio[J].ACM Transactions on Graphics(ToG),2017,36(4):1-13.中通过输入一段语音音频，从中提取梅尔频率倒谱系数，再借助LSTM网络生成与语音一致的口型形状，但该项技术仅能控制口型的生成，其他头部特征如头部姿态无法生成。论文Yi R,Ye Z,Zhang J,et al.Audio-driven talking face video generationwith learning-based personalized head pose[J].arXiv preprint arXiv:2002.10137,2020.在口型的基础上增加了生成头部姿态的功能，但由于该算法采用监督方式回归头部姿态参数，生成的头部姿态大部分保持静止，效果呆板，表现力差。

发明内容

本发明的目的在于针对传统基于语音驱动的虚拟人头部形象动画合成表情呆滞死板的问题，提供一种受语音和背景声联合驱动的虚拟人头部运动合成方法，可以合成表情丰富、表现力强的虚拟人头部形象。

本发明包括以下步骤：

1)对待合成的人脸参考图像进行人脸三维重建，提取其人脸身份参数、人脸纹理参数；

2)输入音乐音频流进行音声分离，分离出背景声音频流和语音音频流；

3)对步骤2)和3)得到的背景声音频流和语音音频流提取音频特征，分别输出背景声特征序列和语音特征序列；

4)对第一网络输入背景声特征序列和语音特征序列，输出头部姿态参数序列；

5)对第二网络输入背景声特征序列和语音特征序列，输出人脸眼睛混合形状参数序列；

6)对第三网络输入语音特征序列，输出人脸口型混合形状参数序列；

7)对第四网络输入语音特征序列，输出人脸其他混合形状系数序列；

8)步骤4)～6)的输出组成面部表情参数序列，固定人脸身份参数、人脸纹理参数，对三维人脸模型渲染模块输入面部表情参数序列、头部姿态参数序列，输出二维人脸渲染图像序列；

9)对第五网络输入步骤7)得到的二维人脸渲染图像序列，得到加入人脸纹理细节和背景的最终视频帧序列。

在步骤1)中，所述人脸三维重建采用人脸3D形变统计模型，经过人脸三维重建后可从人脸参考图像得到人脸身份参数、人脸纹理参数、人脸面部表情参数、头部姿态参数，丢弃后二者而保留前二者。

在步骤2)中，所述音声分离表示使用音频编辑软件从音乐中分离出背景声和唱歌语音，从而能够对之后各人脸参数的生成进行驱动。

在步骤3)中，所述背景声特征和语音特征均为人耳听觉相关的音频特征，如梅尔频率倒谱系数。

在步骤4)中，所述第一网络为头部姿态参数生成网络，是生成对抗网络，分为生成器模块和判别器模块，其中生成器模块分为音频特征提取模块、上下文建模模块、头部姿态参数生成模块；所述头部姿态参数序列可从高斯噪声中生成，具体步骤如下：

(1)对背景声特征序列和语音特征序列在时序上分帧加窗，分别得到背景声特征窗口，语音特征窗口；

(2)从高斯噪声中采样得到与音频特征窗口维度相同的噪声特征窗口；

(3)将步骤(1)得到的背景声特征窗口、语音特征窗口、步骤(2)得到的噪声特征窗口在特征维上进行拼接，得到输入特征；

(4)将输入特征输入音频特征编码模块，得到高层次的音频特征；

(5)将高层次音频特征输入上下文建模模块，输出带有前后关联的特征；

(6)将带有前后关联的特征输入头部姿态参数生成模块，输出头部姿态参数序列。

在步骤5)中，所述第二网络为人脸眼睛混合形状参数生成网络，为生成对抗网络；其中生成器分为音频特征编码模块、上下文建模模块、人脸眼睛混合形状参数生成模块；人脸眼睛混合形状参数生成网络与头部姿态参数生成网络架构相近，作用相似；特殊地，可设计为二者共用同一个网络部分；具体步骤与步骤4)类似。

在步骤6)中，所述第三网络为人脸口型混合形状参数生成网络，分为语音特征提取模块，上下文建模模块、人脸口型参数回归模块；具体步骤如下：

(1)对语音特征序列在时序上加窗，得到语音特征窗口；

(2)对语音特征提取模块输入语音特征窗口，提取高层次语音特征；

(3)将高层次音频特征输入上下文建模模块，提取带有前后关联的特征；

(4)将带有前后关联的特征输入人脸口型参数回归模块，输出人脸口型混合形状参数序列。

在步骤7)中，所述第四网络为人脸其他混合形状参数生成网络，包含语音特征提取模块、上下文关系建模模块、其他混合形状参数生成模块；人脸其他混合形状参数生成网络与人脸口型混合形状参数生成网络架构相近，特殊地，可设计为二者共用同一个网络部分；具体步骤与步骤6)类似。

在步骤9)中，所述第五网络为人脸纹理优化网络，是生成对抗网络；人脸纹理优化网络用于完成视频-视频转换任务，将二维人脸渲染图像组成的视频转换为纹理更加丰富、背景更加真实、总体表现力更强的虚拟人头部形象视频。

本发明利用背景声和语音之间的相互联系，可以从背景声提取出背景声节奏等信息，从语音提取出情绪信息、语音节奏信息，二者相互结合共同驱动虚拟人头部姿态、面部表情、眼睛、口型等部分协同运动，合成神态表情丰富、动作感真实、表现力强的虚拟人头部形象视频。

附图说明

图1为本发明的整体流程示意图。

图2为本发明的头部姿态参数生成网络整体流程示意图。

图3为本发明的人脸口型混合形状参数生成网络整体流程示意图。

具体实施方式

以下具体实施例将结合附图对本发明作进一步说明。

参见图1～3，本实施例包括以下步骤：

S1：对待合成的人脸参考图象进行人脸三维重建、提取其人脸身份参数b、人脸纹理参数t；

S2：对输入音乐音频进行音声分离，分离出背景声音频流和语音音频流；

S3：对得到的背景声音频流和语音音频流提取音频特征，具体地，分帧加窗后提取梅尔频率倒谱系数，分别输出长度为N的背景声特征序列和语音特征序列。

S4：对第一网络输入背景声特征序列和语音特征序列，输出头部姿态参数序列P＝(p₀,p₁,…,p_N-1)，其中p_i＝[α,β,γ,t_x,t_y,t_z]^T表示三维人脸模型的刚体变换，α,β,γ表示三维旋转量，t_x,t_y,t_z表示三维方向上的平移量；

S5：对第二网络输入背景声特征序列和语音特征序列，输出人脸眼睛混合形状参数序列E＝(e₀,e₁,…,e_N-1)；

S6：对第三网络输入语音特征序列，输出人脸口型混合形状参数序列M＝(m₀,m₁,…,m_N-1)；

S7：对第四网络输入语音特征序列，输出人脸其他混合形状系数序列O＝(o₀,o₁,…,o_N-1)；

S8：步骤S5～S7的输出组成人脸面部表情参数序列D＝(d₀,d₁,…,d_N-1)，其中d_i＝[e_i；m_i；o_i]^T，固定人脸身份参数b、人脸纹理参数t，对三维人脸模型渲染模块输入人脸面部表情参数序列D、头部姿态参数序列P，使用公式分别计算初平滑的三维人脸模型形状和纹理，再进行投影渲染输出二维人脸渲染图像序列X，其中S,/>分别表示人脸模型的目标形状和平均形状，T,/>分别表示人脸模型的目标纹理和平均纹理，B,C,W分别表示三维人脸模型的身份基，表情基，纹理基。

S9：对第五网络输入S8得到的二维人脸渲染图像序列X，输出加入人脸纹理细节和背景的输出视频帧序列Y。

以上实施例中，背景声和语音特征均采用梅尔频率倒谱系数，提取过程具体步骤如下：

(1)对音频进行响度归一化。

(2)对音频采样点以25ms为窗口大小、10ms为步长大小进行分帧加窗。

(3)对信号窗口预强化，通过高通滤波器并进行傅立叶变换至频域。

(4)将频谱通过梅尔滤波器获得梅尔刻度。

(5)在每个梅尔刻度上提取对数能量并进行离散傅立叶反变换，变换到倒频谱域，得到13维的梅尔频率倒谱系数。

受语音和背景声联合驱动的虚拟人头部姿态、面部表情及口型一致合成方法：

传统的语音驱动的虚拟人头部形象生成技术能够从音频中提取节奏等时序信息，生成符合语音节奏的虚拟人说话视频。但这种方式局限于说话场景，表现形式单一、表情呆滞死板，头部运动简单，整体表现力弱，真实感差。

为了改进传统基于语音驱动的虚拟人头部形象合成方法，本发明提供一种受语音和背景声联合驱动的虚拟人头部运动合成方法。该方法在传统语音驱动的基础上，加入对背景声建模和处理，由语音节奏和背景声节奏联合驱动头部姿态、人脸眼睛变化、人脸表情变化，结合单独的语音驱动的口型变化，共同合成出真实感强、表现力丰富的虚拟人脸形象。该算法主要包括6个部分：

(1)三维人脸重建，包括步骤S1；

(2)语音和背景声联合驱动的人脸参数生成，包括步骤S2～S7；

(3)三维人脸渲染，包括步骤S8；

(4)人脸纹理优化，包括步骤S9；其中三维人脸重建用于提取出合成过程中固定不变的人脸参数，这些参数反映合成过程中人脸中固定不变的因素，包括人脸身份参数、人脸纹理参数。语音和背景声共同驱动的人脸参数生成用于生成随音频变化而变化的人脸因素，包括头部姿态参数、人脸眼睛混合形状参数、人脸口型混合形状参数、人脸其他混合形状参数，它们的变化越多样，则最后合成结果表现力也越强。而后，结合前两步得到的人脸参数，构建出三维人脸模型并进行二维渲染，得到二维人脸渲染图像，为最后的纹理优化提供先验指导信息。最后，将二维人脸渲染图像使用人脸纹理优化网络补充纹理细节，生成纹理丰富、表现力强的虚拟人脸形象。

以上所述步骤(2)语音和背景声联合驱动的人脸参数生成中第一网络至第四网络的具体结构及流程为本发明的关键内容，现结合具体实施例分别阐述具体实施过程。

头部姿态参数生成网络：

在虚拟人脸形象合成场景中，头部姿态表示虚拟人头部在三维空间上的旋转、平移量。和背景声、语音声节奏相一致的头部姿态变化有利于提高虚拟人头部形象整体的表现力和真实感。鉴于头部姿态与音频为弱相关且具有较强随机性，本发明采用生成对抗网络来生成与音频节奏相一致的头部姿态参数序列。结合附图2，具体实施案例如下：

(1)对背景声特征序列和语音特征序列进行以T＝9为窗口大小、步长为1在时序上进行分帧加窗，分别得到背景声特征窗口序列G＝(g₀,g₁,…,g_i,…)和语音特征窗口序列S＝(s₀,s₁,…,s_i,…)，每个时刻特征维度均为T×M，其中M为梅尔频率倒谱系数的维度大小。

(2)从均值为μ，方差为σ²的高斯噪声中采样得到维度为T×M的噪声特征序列N＝(n₀,n₁,…,n_i,…)。

(3)将步骤(1)得到的背景声特征窗口g_i、语音特征窗口s_i、步骤(2)得到的噪声特征窗口n_i在特征维上进行拼接，得到维度为T×3M的输入特征。

(4)将步骤(3)得到的输入特征输入音频特征编码模块，得到高层次的音频特征。音频编码模块为神经网络架构，本实施例采用卷积神经网络，但可选择范围并不局限于此。

(5)将步骤(4)得到的高层次音频特征输入上下文建模模块，输出带有前后关联的特征。上下文建模模块为循环神经网络架构，本实施例采用LSTM网络，输出特征维度为512，但可选择范围并不局限于此。

(6)将步骤(5)得到的带有前后关联的特征输入头部姿态参数生成模块(即图中的生成器模块)，输出头部姿态参数序列P＝(p₀,p₁,…,p_i,…)。头部姿态参数生成模块为简单的参数回归系统，本实施例采用全连接网络，但可选择范围并不局限于此。

(7)将步骤(3)的到的输入特征和步骤(6)的到的头部姿态参数序列P拼接起来输入判别器模块，计算判别器损失用于训练所述网络参数。判别器模块为简单的分类系统，本实施例采用卷积神经网络，但可选择范围并不局限于此。

人脸眼睛混合形状参数生成网络：

本发明采用人眼相关的人脸混合形状参数来建模虚拟人眼睛的眨眼、闭眼、张眼等动作。合成的虚拟人眨眼分布越和真实相似、闭眼张眼动作越和音频节奏相吻合，合成的虚拟人视频效果越真实。鉴于人脸眼睛和头部姿态均与音频为弱相关且具有较强随机性，本发明采用与头部姿态参数生成网络相似的网络结构和运算过程来生成与音频节奏一致的人脸眼睛混合形状参数序列，仅将输出特征换为人脸眼睛混合形状参数即可，具体过程不再赘述。特殊的，头部姿态参数和人脸眼睛混合形状参数的推理可共用同一个网络结构。

人脸口型混合形状参数生成网络：

人脸口型混合形状参数生成网络用于生成与语音内容、节奏一致的人脸口型形状，分为语音特征提取模块，上下文建模模块、人脸口型参数回归模块。该任务为简单的回归任务，本实施例采用卷积神经网络对该任务进行建模。结合附图3，具体实施案例如下：

(1)对语音特征序列以T＝9为窗口大小、步长为1在时序上分帧加窗，得到语音特征窗口序列S＝(s₀,s₁,…,s_i,…)。每个时刻特征维度均为T×N，其中N为梅尔频率倒谱系数的维度大小。

(2)将步骤(1)得到的语音特征窗口s_i输入语音特征提取模块，得到高层次的音频特征。语音特征提取模块为神经网络架构，本实施例采用卷积神经网络，但可选择范围并不局限于此。

(3)将步骤(2)得到的高层次音频特征输入上下文建模模块，输出带有前后关联的特征。上下文建模模块为循环神经网络架构，本实施例采用LSTM网络，输出特征维度为512，但可选择范围并不局限于此。

(4)将步骤(3)得到的带有前后关联的特征输入人脸口型参数回归模块，输出人脸口型混合形状参数序列M＝(m₀,m₁,…,m_i,…)。人脸口型参数回归模块为简单的参数回归系统，本实施例采用全连接网络，但可选择范围并不局限于此。

人脸其他混合形状参数生成网络：

本发明采用除眼睛、嘴巴其他部位的混合形状参数来建模虚拟人关于表情方面的面部动作，进一步丰富了虚拟人面部表情的多样性。鉴于人脸表情与语音中内含的情绪信息为强相关，本发明采用与人脸口型混合形状参数生成网络相似的网络结构和运算过程来生成与语音情感一致的人脸其他混合形状参数序列，仅将输出特征换为人脸其他混合形状参数即可，具体过程不再赘述。特殊地，人脸口型混合形状参数和人脸其他混合形状参数的推理可共用同一个网络结构。

人脸纹理优化网络并不属于本发明的关键内容，本实施例对于人脸纹理优化网络采用vid2vid生成对抗网络完成视频转换任务，但可选择的范围并不局限于此，任何可完成视频转换任务的生成对抗网络均可作为本发明的人脸纹理优化网络。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种受语音和背景声联合驱动的虚拟人头部运动合成方法，其特征在于包括以下步骤：

1）对待合成的人脸参考图像进行人脸三维重建，提取其人脸身份参数、人脸纹理参数；

2）输入音乐音频流进行音声分离，分离出背景声音频流和语音音频流；

3）对步骤2）得到的背景声音频流和语音音频流提取音频特征，分别输出背景声特征序列和语音特征序列；

4）对第一网络输入背景声特征序列和语音特征序列，输出头部姿态参数序列；

5）对第二网络输入背景声特征序列和语音特征序列，输出人脸眼睛混合形状参数序列；

6）对第三网络输入语音特征序列，输出人脸口型混合形状参数序列；

7）对第四网络输入语音特征序列，输出人脸其他混合形状系数序列；

8）步骤5）～7）的输出组成面部表情参数序列，固定人脸身份参数、人脸纹理参数，对三维人脸模型渲染模块输入面部表情参数序列、头部姿态参数序列，输出二维人脸渲染图像序列；

9）对第五网络输入步骤8）得到的二维人脸渲染图像序列，得到加入人脸纹理细节和背景的最终视频帧序列。

2.如权利要求1所述一种受语音和背景声联合驱动的虚拟人头部运动合成方法，其特征在于在步骤1）中，所述人脸三维重建采用人脸3D形变统计模型，经过人脸三维重建后从人脸参考图像得到人脸身份参数、人脸纹理参数、人脸面部表情参数、头部姿态参数，丢弃后二者而保留前二者。

3.如权利要求1所述一种受语音和背景声联合驱动的虚拟人头部运动合成方法，其特征在于在步骤2）中，所述音声分离是使用音频编辑软件从音乐中分离出背景声和唱歌语音，从而对之后各人脸参数的生成进行驱动。

4.如权利要求1所述一种受语音和背景声联合驱动的虚拟人头部运动合成方法，其特征在于在步骤3）中，所述背景声特征和语音特征均为人耳听觉相关的音频特征，包括梅尔频率倒谱系数。

5.如权利要求1所述一种受语音和背景声联合驱动的虚拟人头部运动合成方法，其特征在于在步骤4）中，所述第一网络为头部姿态参数生成网络，是生成对抗网络，分为生成器模块和判别器模块，其中生成器模块分为音频特征提取模块、上下文建模模块、头部姿态参数生成模块；所述头部姿态参数序列从高斯噪声中生成，具体步骤如下：

（1）对背景声特征序列和语音特征序列在时序上分帧加窗，分别得到背景声特征窗口，语音特征窗口；

（2）从高斯噪声中采样得到与音频特征窗口维度相同的噪声特征窗口；

（3）将步骤（1）得到的背景声特征窗口、语音特征窗口、步骤（2）得到的噪声特征窗口在特征维上进行拼接，得到输入特征；

（4）将输入特征输入音频特征编码模块，得到高层次的音频特征；

（5）将高层次音频特征输入上下文建模模块，输出带有前后关联的特征；

（6）将带有前后关联的特征输入头部姿态参数生成模块，输出头部姿态参数序列。

6.如权利要求1所述一种受语音和背景声联合驱动的虚拟人头部运动合成方法，其特征在于在步骤5）中，所述第二网络为人脸眼睛混合形状参数生成网络，为生成对抗网络；其中生成器分为音频特征编码模块、上下文建模模块、人脸眼睛混合形状参数生成模块。

7.如权利要求1所述一种受语音和背景声联合驱动的虚拟人头部运动合成方法，其特征在于在步骤6）中，所述第三网络为人脸口型混合形状参数生成网络，分为语音特征提取模块，上下文建模模块、人脸口型参数回归模块。

8.如权利要求1所述一种受语音和背景声联合驱动的虚拟人头部运动合成方法，其特征在于在步骤6）中，所述对第三网络输入语音特征序列，输出人脸口型混合形状参数序列的具体步骤如下：

（1）对语音特征序列在时序上加窗，得到语音特征窗口；

（2）对语音特征提取模块输入语音特征窗口，提取高层次语音特征；

（3）将高层次音频特征输入上下文建模模块，提取带有前后关联的特征；

（4）将带有前后关联的特征输入人脸口型参数回归模块，输出人脸口型混合形状参数序列。

9.如权利要求1所述一种受语音和背景声联合驱动的虚拟人头部运动合成方法，其特征在于在步骤7）中，所述第四网络为人脸其他混合形状参数生成网络，包含语音特征提取模块、上下文关系建模模块、其他混合形状参数生成模块。

10.如权利要求1所述一种受语音和背景声联合驱动的虚拟人头部运动合成方法，其特征在于在步骤9）中，所述第五网络为人脸纹理优化网络，是生成对抗网络；人脸纹理优化网络用于完成视频-视频转换任务，将二维人脸渲染图像组成的视频转换为纹理更加丰富、背景更加真实、总体表现力更强的虚拟人头部形象视频。