CN116385606A

CN116385606A - 一种语音信号驱动的个性化三维人脸动画生成方法及其应用

Info

Publication number: CN116385606A
Application number: CN202211621760.5A
Authority: CN
Inventors: 周昆; 柴宇进; 翁彦琳; 邵天甲
Original assignee: Faceunity Technology Co ltd; Zhejiang University ZJU
Current assignee: Faceunity Technology Co ltd; Zhejiang University ZJU
Priority date: 2022-12-16
Filing date: 2022-12-16
Publication date: 2023-07-04

Abstract

本发明涉及人脸动画领域，尤其涉及一种语音信号驱动的个性化三维人脸动画生成方法及其应用。一种语音信号驱动的个性化三维人脸动画生成方法，对于目标人物的正脸演讲视频重建三维人脸动作序列，并从视频的语音信号中提取语音特征序列；通过一个解耦网络将所重建的三维人脸动作序列分解为内容特征序列和个性化风格特征两部分，其中内容特征序列包含三维人脸动作中语音内容发音所需的必要动作信息，个性化风格特征包含三维人脸动作中反应人物个性的风格信息；同时通过另一个语音动画网络将所分解的个性化风格特征与所提取的语音特征序列相结合，生成个性化三维人脸动画。

Description

一种语音信号驱动的个性化三维人脸动画生成方法及其应用

技术领域

本发明涉及人脸动画领域，尤其涉及一种语音信号驱动的个性化三维人脸动画生成方法及其应用。

背景技术

传统的语音信号驱动的程序式个性化人脸动画生成技术(Yuyu Xu,Andrew WFeng,Stacy Marsella,and Ari Shapiro.一种游戏中的实用且可配置的口型同步方法,Apractical and configurable lip sync method for games.In Proceedings of Motionon Games,pages 131–140.ACM,2013.)(Pif Edwards,Chris Landreth,Eugene Fiume,andKaran Singh.JALI：一种为动画师设计的唇形同步发音模型，Jali:an animator-centricviseme model for expressive lip synchronization.ACM Transactions on Graphics(TOG),35(4):127,2016.)，从语音信号中自动识别反映发音的音素序列(例如英语中的音节、中文中的拼音)，并根据人类在发音时嘴唇的形状将音素分组为视素，且为每个视素制作目标人物个性化的动画关键帧；而后通过人工制定的规则连接整个序列，得到连贯的个性化人脸动画。这些技术需要对每个目标人物制作动画关键帧，重复的人工工作量大；并且其生成动画的质量通常受限于音素识别的准确度和人工所制定规则的合理性。

近年来，一些技术运用深度神经网络(Deep Neural Network，DNN)为目标人物从语音信号中生成高质量的个性化人脸动画；例如Talyor等人(Sarah Taylor,Taehwan Kim,Yisong Yue,Moshe Mahler,James Krahe,Anastasio Garcia Rodriguez,JessicaHodgins,and Iain Matthews.一种适用于通用语音动画的深度学习方法，A deeplearning approach for generalized speech animation.ACM Transactions onGraphics(TOG),36(4):93,2017.)对一个目标人物采集超过2000个句子的正脸演说视频，然后为该目标人物训练其专用的深度神经网络，该网络可以将语音中的音素序列映射到人脸的主动外观模型(Active Appearance Model，AAM)系数序列；Suwajanakorn等人(Supasorn Suwajanakorn,Steven M Seitz,and Ira Kemelmacher-Shlizerman.这些技术虽然能够为目标人物生成高质量的个性化人脸动画，但受限于数据需求量过高的要求，难以适用于任意目标人物。

在单个目标人物数据量有限的情况下，一些技术通过混合多个目标人物以扩大模型训练的整体数据量，并通过控制风格以生成其中某个特定目标人物的个性化人脸动画；例如，Cudeiro等人(Daniel Cudeiro,Timo Bolkart,Cassidy Laidlaw,Anurag Ranjan,and Michael Black.采集、学习与合成三维演讲风格，Capture,learning,and synthesisof 3Dspeaking styles.Computer Vision and Pattern Recognition(CVPR),pages10101-10111,2019.)对十二个不同目标人物各采取40句的演讲三维人脸动画，训练一个卷积神经网络(Convolutional Neural Network)将语音信号映射到三维人脸动画，网络中使用人物编号对应的独热编码向量(One-Hot Vector)控制输出为对应目标人物的个性化人脸动画；Thies等人(Justus Thies,Mohamed Elgharib,Ayush Tewari,ChristianTheobalt,Matthias Nieβner.语音驱动的脸部重演，Neural voice puppetry:Audio-driven facial reenactment.European Conference on Computer Vision(ECCV),pages716-731,Springer,Cham,2020.)从德国新闻评论视频中收集116个目标人物的正脸演讲视频数据，用所有目标人物的数据训练一个共用的卷积神经网络将语音信号映射到共用的混合变形(Blend Shape)模型系数序列，再为每个目标人物优化一个线性映射矩阵将共用的混合变形模型系数映射到目标人物个性化的混合变形模型系数。这些技术依赖于风格控制的方法以生成某个特定目标人物的个性化人脸动画，虽然这些技术对不同人物的个性化风格加以区分，但是没有显式地区分每个人物数据内部的个性化风格信息与语音内容发音动作信息，导致其所训练的网络模型无法准确地学习人物的个性化风格。

发明内容

本发明的目的在于针对现有技术的不足，提供了一种语音信号驱动的个性化三维人脸动画生成方法。

一种语音信号驱动的个性化三维人脸动画生成方法，对于目标人物的正脸演讲视频重建三维人脸动作序列，并从视频的语音信号中提取语音特征序列；通过一个解耦网络将所重建的三维人脸动作序列分解为内容特征序列和个性化风格特征两部分，其中内容特征序列包含三维人脸动作中语音内容发音所需的必要动作信息，个性化风格特征包含三维人脸动作中反应人物个性的风格信息；同时通过另一个语音动画网络将所分解的个性化风格特征与所提取的语音特征序列相结合，生成个性化三维人脸动画。

对于目标人物的一分钟左右时长的正脸演讲视频，本发明运用现有技术从视频中重建三维人脸动作序列，并利用现有语音识别技术从视频的语音信号中提取语音特征序列。本发明通过一个深度神经网络(称为解耦网络)将所重建的三维人脸动作序列分解为内容特征序列和个性化风格特征两部分，其中内容特征序列包含三维人脸动作中语音内容发音所需的必要动作信息，个性化风格特征包含三维人脸动作中反应人物个性的风格信息；并且，本发明通过另一个深度神经网络(称为语音动画网络)将所分解的个性化风格特征与所提取的语音特征序列相结合，生成个性化三维人脸动画。

具体的，本发明的目的是通过以下技术方案来实现的，由语音信号驱动的个性化三维人脸动画生成方法，包括以下步骤：

(1)处理目标人物视频数据：对所给目标人物的正脸演讲视频中的每一帧画面使用现有三维可形变人脸模型技术进行三维重建，并移除头部运动，得到目标人物的三维人脸模型模板以及三维人脸动作序列；所述模型模板是由顶点维度、空间维度组成的二维张量；所述三维人脸动作序列是相对于模型模板的顶点偏移序列，是由序列维度、顶点维度、空间维度组成的三维张量；对所给视频提取语音信号。

(2)获取辅助人物数据：从现有的公开的语音同步三维人脸动画数据库中获取辅助人物数据，其中每个辅助人物的数据包括三维人脸模型模板、三维人脸动作序列、以及同步的语音信号；所述语音同步三维人脸动画数据库不包含目标人物的三维数据。

(3)提取语音特征序列：对步骤(1)与步骤(2)中所得语音信号，使用现有语音识别技术提取语音特征序列；所述语音特征序列是由序列维度、窗口维度、特征图维度组成的三维张量。

(4)训练深度神经网络：使用步骤(1)与(2)所得三维人脸动作序列和步骤(3)所得语音特征序列同时训练两个深度神经网络，分别称为解耦网络与语音动画网络；

所述解耦网络将三维人脸动作序列分解为内容特征序列和个性化风格特征两部分；

所述内容特征序列是由序列维度、特征图维度组成的二维张量，包含三维人脸动作中语音内容发音所需的必要动作信息；所述个性化风格特征是由特征图维度组成的一维张量，包含三维人脸动作中反应人物个性的风格信息；所述语音动画网络将所分解的个性化风格特征与语音特征序列结合，输出个性化三维人脸动作序列。

(5)获取目标人物个性化风格特征：对步骤(1)中所得的目标人物三维人脸动作序列，使用步骤(4)训练所得的解耦网络分解出目标人物的个性化风格特征。

(6)生成语音同步的个性化三维人脸动画：对输入的任意语音信号使用与步骤(3)中相同的方法提取语音特征序列；使用步骤(4)训练所得语音动画网络将所提取语音特征序列与步骤(5)所得目标人物的个性化风格特征结合，输出个性化三维人脸动作序列；所得三维人脸动作序列加上步骤(1)所得目标人物的三维人脸模型模板，得到个性化三维人脸动画；所述个性化三维人脸动画与输入的语音保持同步，并具有目标人物个性化的风格。

1.其中，所述步骤(4)包含如下子步骤：

(4.1)使用步骤(1)与步骤(2)中所得三维人脸动作序列训练一个深度神经网络：解耦网络；所述解耦网络由一个内容编码器、一个风格编码器、以及一个动作解码器组成。所述内容编码器对三维人脸动作序列中的每一帧首先进行三次螺旋卷积；

每次螺旋卷积操作之后进行顶点下采样，并使用负数倾斜率为0.2的带泄漏线性整流函数激活；随后将三次螺旋卷积之后的所有顶点特征连接成一维向量，再通过一个线性矩阵将其映射到内容特征；三维人脸动作序列中所有帧经过映射之后得到内容特征序列；所述内容特征序列是由序列维度、特征图维度组成的二维张量。所述风格编码器对三维人脸动作序列中的每一帧进行与前述内容编码器相同的三次螺旋卷积、顶点下采样、激活与后续线性映射操作，但使用不同的参数将每一帧映射到中间风格特征；三维人脸动作序列中所有帧映射到中间风格特征序列之后，用一个标准的长短时记忆单元循环地处理中间风格特征序列并得到个性化风格特征；所述个性化风格特征是由特征图维度组成的一维向量。所述动作解码器对内容编码器所得内容特征序列进行三次一维卷积，每次卷积之前，将风格编码器所得个性化风格特征与输入的每帧特征相连接，并且在序列前端以零特征向量填补以保证卷积之后的序列长度不变；每次卷积之后，使用负数倾斜率为0.2的带泄漏线性整流函数进行激活；再通过五层全连接层映射，输出个性化三维人脸动作序列。所述训练过程使用标准Adam优化器优化网络中的可训练参数，以最小化解耦目标函数；所述解耦目标函数包括：重构项，风格交换项，以及循环一致项；所述重构项利用内容编码器和风格编码器将步骤(1)与步骤(2)中所得三维人脸动作序列编码为内容特征序列和个性化风格特征，并使用原始数据监督动作解码器从内容特征序列和个性化风格特征解码输出的个性化三维人脸动作序列；所述风格交换项利用内容编码器和风格编码器将步骤(1)与步骤(2)

中所得三维人脸动作序列编码为内容特征序列和个性化风格特征，然后交换任意两个序列数据的个性化风格特征，使之与来源不同的内容特征序列结合并经过动作解码器输出个性化风格特征交换之后的个性化三维人脸动作序列，风格交换项对该输出进行监督；所述循环一致项对前述个性化风格特征交换之后的个性化三维人脸动作序列再次利用内容编码器和风格编码器编码并再次交换编码后的个性化风格特征，经过动作解码器输出两次个性化风格特征交换之后的个性化三维人脸动作序列，循环一致项对该输出进行监督。

(4.2)使用步骤(3)所得语音特征序列与步骤(4.1)中解耦网络所分解的个性化风格特征，训练另一个深度神经网络：语音动画网络，该步骤与步骤(4.1)同时进行。所述语音动画网络由一个语音编码器以及一个动作解码器组成。所述语音编码器对语音特征序列中的每一帧特征窗口，将整个窗口作为源，窗口中间帧作为询问，使用标准的变形器网络进行编码；对序列中所有帧进行编码得到编码后的语音特征序列；所述编码后的语音特征序列是由序列维度、特征图维度组成的二维张量。所述动作解码器对编码后的语音特征序列进行三次一维卷积，每次卷积之前，将步骤(4.1)所分解的个性化风格特征与输入的每帧特征相连接，并且在序列前端以零特征向量填补以保证卷积之后的序列长度不变；每次卷积之后，使用负数倾斜率为0.2的带泄漏线性整流函数进行激活；再通过五层全连接层映射，输出个性化三维人脸动作序列。该动作解码器与步骤(4.1)中的解耦网络中的动作解码器除输入之外完全相同，即步骤(4.1)中的解耦网络与该步骤中的语音动画网络共用同一个动作解码器。所述训练过程使用标准Adam优化器优化网络中的可训练参数，以最小化语音动画目标函数；所述语音动画目标函数包括：语音动画重构项，语音动画风格交换项，以及语音动画循环一致项；所述语音动画重构项计算方法与步骤(4.1)中的重构项相似，仅将解耦网络的输出替换为对应的语音动画网络输出；所述语音动画风格交换项计算方法与步骤(4.1)中的风格交换项相似，仅将解耦网络的输出替换为对应的语音动画网络输出；所述语音动画循环一致项计算方法与步骤(4.1)中的循环一致项相似，仅将解耦网络的输出替换为对应的语音动画网络输出。

本发明公开了一种语音信号驱动的个性化三维人脸动画生成方法：在给定目标人物一段一分钟左右正脸演讲视频的情况下，可以学习其个性化三维人脸动作风格，并对任意输入的语音信号生成语音同步的、具有该人物个性化风格的三维人脸动画；所生成动画质量达到当前最先进的语音信号驱动的个性化三维人脸动画技术水平。该方法主要分为六个步骤：处理目标人物视频数据、获取辅助人物数据、提取语音特征序列、训练深度神经网络、获取目标人物个性化风格特征、以及生成语音同步的个性化三维人脸动画。其中，步骤(2)获取辅助人物数据只需执行一次，并且在目标人物视频数据量较少的前提下(仅一分钟左右)，辅助人物数据能够有效扩大数据量，有利于后续步骤(4)的执行。步骤(4)中训练一个解耦网络显式地将三维人脸动作序列分解为内容特征序列和个性化风格特征，使得步骤(5)中所获取的目标人物个性化风格特征能准确地反映目标人物的个性化风格信息而不受语音内容发音的影响；步骤(4)中训练的另一个语音动画网络能够结合个性化风格特征和语音特征序列，使得步骤(6)中所生成的个性化三维人脸动画既能准确反映目标人物个性化风格又能保持与输入语音的同步。

本发明可以用于不同场景下的语音信号驱动的个性化三维人脸动画生成任务，如VR虚拟社交、虚拟语音助手、以及游戏等。

附图说明

图1是本发明的方法流程示意图；

图2是本发明的方法中步骤(4)中子步骤(4.1)中重构项的计流程示意图；

图3是本发明的方法中步骤(4)中子步骤(4.1)中风格交换项的计流程示意图；

图4是本发明的方法中步骤(4)中子步骤(4.1)中循环一致项的计流程示意图；

图5是本发明实施实例中输入语音信号驱动不同目标人物个性化三维人脸动画生成的动画关键帧节选；其中，五个不同的目标人物以各自个性化地方式说出英文单词“climate”。

具体实施方式

本发明的核心技术训练一个深度神经网络(解耦网络)将三维人脸动作分解为内容特征序列和个性化风格特征，同时训练另一个深度神经网络(语音动画网络)将所分解的个性化风格特征与从语音信号提取的语音特征序列结合并输出语音同步的个性化三维人脸动作。如图1所示，该方法主要分为六个步骤：处理目标人物视频数据、获取辅助人物数据、提取语音特征序列、训练深度神经网络、获取目标人物个性化风格特征、以及生成语音同步的个性化三维人脸动画。

(1)处理目标人物视频数据：对目标人物的正脸演讲视频中的每一帧图像使用现有的三维可形变人脸模型技术(例如：FLAME，网址：https://flame.is.tue.mpg.de/，参考文献：Tianye Li,Timo Bolkart,Michael J Black,Hao Li and Javier Romero.

从四维扫描中学习人脸形状和表情。FLAME:Learning a model of facial shapeandexpression from 4D scans.ACM Trans.Graph.,36(6):194:1-194:17,2017)进行三维重建，并移除所有头部运动，得到目标人物的三维人脸模型模板I⁰以及三维人脸动作序列

0为目标人物编号，n表示序列中的帧序号集合{1,2,…,|n|}，/>

表示序列中的第t帧人脸动作，即相较于模型模板的顶点偏移；其中，I⁰和/>

是形状为V×3的张量，/>

是形状为|n|×V×3的张量，|n|表示序列长度，V表示三维人脸模型顶点数量，3表示三维空间。同时，从目标人物的视频中分离出语音的音频信号X₀。

(2)获取辅助人物数据：从现有的公开的语音同步三维人脸动画数据库(例如：VOCASET，网址：https://voca.is.tue.mpg.de/，参考文献：Daniel Cudeiro,TimoBolkart,Cassidy Laidlaw,Anurag Ranjan,and Michael Black.采集、学习与合成三维演讲风格，Capture,learning,and synthesis of 3D speaking styles.ComputerVisionand Pattern Recognition(CVPR),pages 10101-10111,2019.)中获取辅助人物数据。数据库中的每个辅助人物的数据包括三维人脸模型模板I^u、三维人脸动作序列

以及同步的语音信号X_u；其中，u为该数据对应人物的编号，m表示序列中的帧序号集合{1,2,…,|m|}，/>

表示序列中的第t帧人脸动作，I^u和/>

是形状为V×3的张量，/>

是形状为|m|×V×3的张量，|m|表示序列长度，V表示三维人脸模型顶点数量，3表示三维空间。所述语音同步三维人脸动画数据库不包含目标人物的三维数据，即满足u＞0，并且其数据的三维人脸模型的拓扑结构与步骤(1)中所使用的三维人脸模型的拓扑结构一致。

(3)提取语音特征序列：对步骤(1)与步骤(2)中所得语音信号X_i，使用现有语音识别技术(例如DeepSpeech，网址：https://github.com/mozilla/DeepSpeech，参考文献：Awni Hannun,Carl Case,Jared Casper,Bryan Catanzaro,Greg Diamos,Erich Elsen,Ryan Prenger,Sanjeev Satheesh,Shubho Sengupta,Adam Coates,AndrewY.Ng.DeepSpeech:扩大规模的端到端语音识别。DeepSpeech:Scaling up end-to-endspeech recognition[J].arXiv preprint arXiv:1412.5567,2014.)

提取中间特征x_i，其是形状为|i|×C_x的张量，再对其进行分窗操作得到语音特征序列W_i＝{w_t}_t∈i，其是形状为|i|×W×C_x的张量；其中，i≥0为包括目标人物和辅助人物的人物编号，i表示序列中的帧序号集合{1,2,…,|i|}，w_t表示第t帧语音特征，|i|表示序列长度，与对应的三维人脸动作序列长度一致，W表示每一帧特征的窗口长度，C_x表示特征图数量；所述分窗操作对x_i序列上的每一帧取其前后各

帧作为一个窗口，超出序列范围的部分取零填补。

(4)训练深度神经网络：使用步骤(1)与步骤(2)所得三维人脸动作序列和步骤(3)所得语音特征序列同时训练两个深度神经网络，分别称为解耦网络与语音动画网络。包含以下子步骤：

(4.1)训练解耦网络：使用步骤(1)与步骤(2)中所得三维人脸动作序列

训练一个深度神经网络，称为解耦网络；其中，k≥0表示包括目标人物和辅助人物的人物编号，i表示序列中的帧序号集合{1,2,…,|i|}，/>

为序列中第t帧三维人脸动作；所述解耦网络由一个内容编码器E_C、一个风格编码器E_S、以及一个动作解码器D组成，其运算过程定义如下：

其中，C_i为编码

所得内容特征序列，s^k为编码/>

所得个性化风格特征，/>

为结合s^k和C_i并解码之后生成的个性化三维人脸动作序列。

所述内容编码器E_C对三维人脸动作序列

中的第t帧/>

首先进行三次螺旋卷积(SpiralConv)；每次螺旋卷积操作之后进行顶点下采样，并使用负数倾斜率为0.2的带泄漏线性整流(Leaky ReLU)函数进行激活；随后，将卷积所得的所有顶点特征连接成一维向量，再通过一个可训练的线性矩阵将其映射到第t帧内容特征c_t；三维人脸动作序列中所有帧映射之后得到内容特征序列C_i＝{c_t}_t∈i；所述内容特征序列C_i是形状为|i|×C_c的张量，|i|表示序列长度，C_c表示特征图数量。所述螺旋卷积定义在输入的顶点维度上，其形式如下：

其中，v_j表示输入螺旋卷积的第j个顶点的特征，是形状为C的向量，C表示特征数量；

表示对第i个顶点预定义的L个邻接顶点的集合，/>

表示将输入的第i个顶点的邻接顶点集合中所有顶点的特征连接成形状为LC的一维向量，γ为可训练的线性映射，/>

表示螺旋卷积输出的第i个顶点的特征。所述预定义的邻接顶点集合是在三维人脸模型模板上预计算所得，对模型模板上的第i个顶点取其自身与拓扑结构周围环上的共L个顶点。所述顶点下采样定义在顶点维度上，其形式如下：

V^*＝M_dV⁺ (3)

其中，

为螺旋卷积输出的所有顶点，下标中N为螺旋卷积输出的顶点数量；M_d是下采样矩阵，在三维人脸模型模板上预计算所得；V^*是下采样之后的结果，其顶点数量为V⁺的/>

所述风格编码器E_S对三维人脸动作序列

中的第t帧/>

首先进行三次螺旋卷积(SpiralConv)；每次螺旋卷积操作之后进行顶点下采样，并使用负数倾斜率为0.2的带泄漏线性整流(Leaky ReLU)函数进行激活；随后，将卷积所得的所有顶点特征连接成一维向量，再通过一个可训练的线性矩阵将其映射到第t帧中间风格特征/>

三维人脸动作序列中所有帧映射为中间风格特征之后，再使用一个长短时记忆单元循环地处理中间风格特征序列

得到个性化风格特征s^k；所述个性化风格特征s^k是形状为C_s的向量，C_s为特征图数量。所述螺旋卷积以及顶点下采样与内容编码器中的方法一致，但使用不同的参数。所述长短时记忆单元具有一个存储历史信息的状态器和三个门：输入门i_t作用于第t帧中间风格特征/>

与记忆单元第t-1帧输出h_t-1，表示是否允许新的中间风格特征信息加入到记忆单元的状态器中，数值为0到1，如果输入门数值为1，即开门，则加入新信息，如果为0，即关门，则加入零向量，如果为0到1中间数值则将新信息乘以门数值再加入；遗忘门f_t作用于记忆单元的状态器，表示是否保留状态器存储的第t-1帧历史信息S_t-1，数值为0到1，如果遗忘门数值为1，即开门，则保留存储的信息，如果为0，即关门，则重置存储信息为零向量，如果为0到1中间数值则将存储信息乘以门数值再保留；输出门o_t作用于记忆单元的状态器，表示是否将记忆单元当前第t帧状态S_t作为输出，数值为0到1，如果为1，即开门，则当前记忆单元的状态作为输出，如果为0，即关门，则输出零向量，如果为0到1中间数值则将当前记忆单元的状态乘以门数值再作为输出；三个门的具体数值由当前第t帧输入/>

与该记忆单元第t-1帧的输出h_t-1连接、投影得到，其具体公式如下：

其中，

为当前第t帧输入的中间风格特征，h_t-1为记忆单元第t-1帧的输出，

表示将/>

和h_t-1的特征图相连接；i_t为输入门数值，W_i、b_i分别为输入门的权重与偏置；f_t为输入门数值，W_f、b_f分别为遗忘门的权重与偏置；o_t为输入门数值，W_o、b_o分别为输出门的权重与偏置；/>

为对当前帧输入和上一帧输出的投影，W_x、b_x分别为投影的权重与偏置；S_t-1、S_t分别为第t-1帧与当前第t帧的记忆单元状态器的状态；h_t为第t帧记忆单元的输出；W_i,W_f,W_o,W_x均为形状为C_s×C_s的矩阵，b_i,b_f,b_o,b_x均为形状为C_s的向量，W_i,W_f,W_o,W_x,b_i,b_f,b_o,b_x均为可训练的参数。

所述动作解码器D对前述步骤所得内容特征序列C_i＝{c_t}_t∈i进行三次一维卷积，每次卷积之前，将前述步骤所得个性化风格特征s^k与输入的每帧特征相连接，并且在序列前端以零特征向量填补以保证卷积之后的序列长度不变；每次卷积之后，使用负数倾斜率为0.2的带泄漏线性整流函数进行激活；对三层卷积之后的序列中的第t帧，再通过五层全连接层映射，生成第t帧三维人脸动作

最终输出三维人脸动作序列为/>

所述训练过程使用标准Adam优化器优化网络中的可训练参数，以最小化解耦目标函数L_decomp。所述解耦目标函数L_decomp包括：重构项L_rec，风格交换项L_swp，以及循环一致项L_cyc：

L_decomp＝λ_recL_rec+λ_swpL_swp+λ_cycL_cyc. (5)

其中，λ_rec,λ_swp,λ_cyc分别为相应的权重。

所述重构项计算流程如图2所示，其定义如下：

其中，L_seq是对三维人脸动作序列定义的监督损失函数，其定义如下：

上式中的标记忽略人物编号；其中，y_t为监督数据序列Y_i中的第t帧，

为生成动作序列/>

中的第t帧；/>

计算生成动作第t帧与监督数据第t帧之间的l₂距离，以监督所生成动作的准确性；/>

计算生成动作第t-1帧与第t帧之间变化幅度与监督数据第t-1帧与第t帧之间变化幅度的l₂距离，以监督所生成动作的平滑性；/>

计算生成动作第t帧唇部张开高度与监督数据第t帧唇部张开高度的l₂距离，以监督所生成动作有准确的唇部动作；其中LipH·根据预先选定的唇部顶点计算在y轴上的平均高度差，以近似唇部张开的高度；λ_m和λ_l为相应的权重。

所述风格交换项的计算流程如图3所示，其计算方法定义在一对三维人脸动作序列上：

其中，p≥0,q≥0表示包括目标人物和辅助人物的人物编号，i,j表示对应序列中的帧序号集合。对于这样两个序列，使用内容编码器和风格编码器分别编码：

再将两个序列所得个性化风格特征s^p与s^q相交换，与另一个序列的内容特征序列相结合并生成交换个性化风格特征之后的三维人脸动作序列

对于交换个性化风格特征之后的三维人脸动作序列计算所述风格交换项L_swp，需考虑两种情况：

其中，第一种情况为p＝q，即两段三维人脸动作序列来自于同一个人物，则直接使用输入的序列作为监督数据，计算损失函数。第二种情况为p≠q，即两段三维人脸动作序列来自于不同人物，对于这种情况，只有部分序列对

满足可以计算的要求：人物p在/>

中所说的语言内容也必须被人物q说过，即存在/>

且该序列中所说的语言内容与序列/>

相同；然而i^′的序列长度可能与i不同，通过标准的动态时间规整算法将/>

对齐到序列/>

上，对齐后的序列标记为/>

被用于监督/>

相似地,使用对齐的序列/>

监督/>

对于所述第二种情况，仅在满足要求的情况下计算。

所述循环一致项的计算流程如图4所示，对前述交换个性化风格特征之后生成的三维人脸动作序列

再次使用内容编码器和风格编码器分别编码，并再次交换编码所得个性化风格特征s^q′与s^p′，与另一个序列的内容特征序列相结合并生成两次交换个性化风格特征之后的三维人脸动作序列/>

经过两次交换之后，个性化风格特征与原始匹配的内容特征序列相结合，因此其输出应该恢复原始的输入序列；循环一致项L_cyc使用原始的输入序列进行监督：

(4.2)训练语音动画网络：使用步骤(3)所得语音特征序列W_i＝{w_t}_t∈i与步骤(4.1)中解耦网络所分解的个性化风格特征s^k，训练另一个深度神经网络，称为语音动画网络；其中，W_i与前述三维人脸动作序列

同步，并拥有相同序列长度与帧编号。所述语音动画网络由一个语音编码器E_A以及一个动作解码器D组成：

其中，A_i为编码W_i后的语音特征序列，

为结合s^k与A_i并解码输出的个性化三维人脸动作序列。

所述语音编码器E_A对语音特征序列W_i＝{w_t}_t∈i中的第t帧特征窗口w_t，将整个窗口作为源(Source)，窗口中间帧作为询问(Query)，使用标准的变形器网络(TransformerNetwork)进行编码，得到第t帧编码后的语音特征a_t；对整个序列重复操作得到编码后的语音特征序列A_i＝{a_t}_t∈i；所述编码后的语音特征序列A_i是形状为|i|×C_a的二维张量，|i|表示序列长度，C_a表示特征图数量。

所述动作解码器D对编码后的语音特征序列A_i＝{a_t}_t∈i进行三次一维卷积，每次卷积之前，将步骤(4.1)所得个性化风格特征s^k与输入的每帧特征相连接，并且在序列前端以零特征向量填补以保证卷积之后的序列长度不变；每次卷积之后，使用负数倾斜率为0.2的带泄漏线性整流函数进行激活；对三层卷积之后的序列中的第t帧，再通过五层全连接层映射，生成第t帧三维人脸动作

最终输出三维人脸动作序列为/>

该动作解码器与步骤(4.1)中的解耦网络中的动作解码器除输入之外完全相同，即步骤(4.1)中的解耦网络与该步骤中的语音动画网络共用同一个动作解码器。

所述训练过程使用标准Adam优化器优化网络中的可训练参数，以最小化语音动画目标函数L_anome。所述语音动画目标函数与步骤(4.1)中所述解耦目标函数相似，由三个相似的项目构成：语音动画重构项

语音动画风格交换项/>

语音动画循环一致项/>

将式(6)中的/>

替换成语音动画网络生成的/>

得到语音动画重构项/>

将与式(8)中

分别同步的语音特征W_i,W_j,经过编码得到A_i,A_j之后，分别与来自式(8)交换之后的个性化风格特征s^q与s^p结合并解码得到/>

再用与式(10)相同的方法计算语音动画风格交换项

将A_i,A_j分别与来自式(11)两次交换之后的个性化风格特征s^p′与s^q′结合并解码得到

再用与式(12)相同的方法计算语音动画循环一致项

所述语音动画目标函数L_anime表示为三项加权和：

其中，

为各项相应的权重。所述训练过程与步骤(4.1)中的训练过程同步进行，即L_decomp与L_anime组成联合目标函数L_joint：

L_joint＝L_decomp+L_anime. (20)

(5)获取目标人物个性化风格特征：对步骤(1)中所得的目标人物三维人脸动作序列

使用步骤(4)训练所得的解耦网络分解出目标人物的个性化风格特征s⁰。

(6)生成语音同步的个性化三维人脸动画：对任意的语音信号使用与步骤(3)中相同的方法提取语音特征序列；使用步骤(4)训练所得语音动画网络将所提取语音特征序列与步骤(5)所得目标人物的个性化风格特征s⁰结合，输出个性化三维人脸动作序列；所得个性化三维人脸动作序列加上步骤(1)中所得目标人物的三维人脸模型模板I⁰，得到个性化三维人脸动画；所述个性化三维人脸动画与输入的语音保持同步，并具有目标人物个性化的风格。

实施实例

训练实例：发明人在一台配备Intel Core i7-8700K中央处理器(3.70GHz)，NVIDIA GTX1080Ti图形处理器(显存11GB)的计算机上实施本发明的实例。实施过程中，步骤(1)中的目标人物视频来源于互联网络与个人拍摄；步骤(2)中辅助人物数据来源于公开数据库VOCASET(Daniel Cudeiro,Timo Bolkart,Cassidy Laidlaw,Anurag Ranjan,andMichael Black.Capture,learning,and synthesis of 3D speaking styles.ComputerVision and Pattern Recognition(CVPR),pages 10101–10111,2019.)。

模型参数：发明人在实施本发明的实例时，步骤(1)到(4)所涉及的参数如下：

(1)处理目标人物视频数据：使用的现有三维可形变人脸模型技术为FLAME(网址：

https://flame.is.tue.mpg.de/，参考文献：Tianye Li,Timo Bolkart,Michael

J Black,Hao Li and Javier Romero.从四维扫描中学习人脸形状和表情。FLAME:

Learning a model of facial shape and expression from 4D scans.ACMTrans.

Graph.,36(6):194:1-194:17,2017)；模型中顶点数量V＝5023。

(2)获取辅助人物数据：使用现有的公开的语音同步三维人脸动画数据库VOCASET

(网址：https://voca.is.tue.mpg.de/，参考文献：Daniel Cudeiro,TimoBolkart,

Cassidy Laidlaw,Anurag Ranjan,and Michael Black.采集、学习与合成三维演讲风格。Capture,learning,and synthesis of 3D speaking styles.ComputerVisionand Pattern Recognition(CVPR),pages 10101-10111,2019.)。

(3)提取语音特征序列：使用的现有语音识别技术为DeepSpeech(网址：

https://github.com/mozilla/DeepSpeech，参考文献：Awni Hannun,Carl Case,

Jared Casper,Bryan Catanzaro,Greg Diamos,Erich Elsen,Ryan Prenger,

Sanjeev Satheesh,Shubho Sengupta,Adam Coates,Andrew Y.Ng.DeepSpeech:

扩大规模的端到端语音识别。DeepSpeech:Scaling up end-to-endspeechrecognition[J].arXiv preprint arXiv:1412.5567,2014.)；语音特征窗口大小W＝16，特征图数量C_x＝29；使用的标准变形器网络(Transformer Network)

模型维度为64，注意力头数量为4，编码层数为3，解码层数为1。

(4)训练深度神经网络：螺旋卷积使用L＝12个邻接顶点，三层螺旋卷积的特征图数量分别为16、32、32；螺旋卷积中的邻接顶点集合预定义、下采样矩阵的预计算使用现有技术(网址：https://github.com/sw-gong/spiralnet_plus，参考文献：Shunwang Gong,Lei Chen,Michael Bronstein,Stefanos Zafeiriou.SpiralNet++:一种快速高效的网格卷积算子。SpiralNet++:A Fast and Highly Efficient Mesh ConvolutionOperator.Proceedings of the IEEE/CVF International Conference on ComputerVision Workshops.2019)；内容特征序列的特征图数量C_c＝64；个性化风格特征的特征图数量C_s＝32；编码后的语音特征序列的特征图数量C_a＝64；动作解码器中的三层一维卷积核大小分为别5、3、3，特征图数量分别为64、128、256；式(5)中的权重为λ_rec＝1,λ_swp＝3,λ_cyc＝1；式(7)中的权重为λ_m＝5,λ_l＝1；式(19)中的权重为

Adam优化器的学习率为0.0001。

动画节选：发明人实施本发明实例，用语音信号驱动个性化三维人脸动画的生成。如图5所示的生成结果的关键帧节选，五个不同目标人物分别个性化地说出英文单词“climate”(关键帧依次对应音节/k/,/aI/,与/m/)。

Claims

1.一种语音信号驱动的个性化三维人脸动画生成方法，其特征在于，对于目标人物的正脸演讲视频重建三维人脸动作序列，并从视频的语音信号中提取语音特征序列；通过一个解耦网络将所重建的三维人脸动作序列分解为内容特征序列和个性化风格特征两部分，其中内容特征序列包含三维人脸动作中语音内容发音所需的必要动作信息，个性化风格特征包含三维人脸动作中反应人物个性的风格信息；同时通过另一个语音动画网络将所分解的个性化风格特征与所提取的语音特征序列相结合，生成个性化三维人脸动画。

2.根据权利要求1所述的语音信号驱动的个性化三维人脸动画生成方法，其特征在于：包括以下步骤：

(1)处理目标人物视频数据：对所给目标人物的正脸演讲视频中的每一帧画面使用现有三维可形变人脸模型技术进行三维重建，并移除头部运动，得到目标人物的三维人脸模型模板以及三维人脸动作序列；所述模型模板是由顶点维度、空间维度组成的二维张量；所述三维人脸动作序列是相对于模型模板的顶点偏移序列，是由序列维度、顶点维度、空间维度组成的三维张量；对所给视频提取语音信号；

(2)获取辅助人物数据：从现有的公开的语音同步三维人脸动画数据库中获取辅助人物数据，其中每个辅助人物的数据包括三维人脸模型模板、三维人脸动作序列、以及同步的语音信号；所述语音同步三维人脸动画数据库不包含目标人物的三维数据；

(3)提取语音特征序列：对步骤(1)与步骤(2)中所得语音信号，使用现有语音识别技术提取语音特征序列；所述语音特征序列是由序列维度、窗口维度、特征图维度组成的三维张量；

所述内容特征序列是由序列维度、特征图维度组成的二维张量，包含三维人脸动作中语音内容发音所需的必要动作信息；所述个性化风格特征是由特征图维度组成的一维张量，包含三维人脸动作中反应人物个性的风格信息；所述语音动画网络将所分解的个性化风格特征与语音特征序列结合，输出个性化三维人脸动作序列；

(5)获取目标人物个性化风格特征：对步骤(1)中所得的目标人物三维人脸动作序列，使用步骤(4)训练所得的解耦网络分解出目标人物的个性化风格特征；

(6)生成语音同步的个性化三维人脸动画：对输入的任意语音信号使用与步骤(3)中相同的方法提取语音特征序列；使用步骤(4)训练所得语音动画网络将所提取语音特征序列与步骤(5)所得目标人物的个性化风格特征结合，输出个性化三维人脸动作序列；所得三维人脸动作序列加上步骤(1)所得目标人物的三维人脸模型模板，得到个性化三维人脸动画；所述个性化三维人脸动画与输入的语音保持同步，

并具有目标人物个性化的风格。

3.根据权利要求2所述的语音信号驱动的个性化三维人脸动画生成方法，其特征在于，所述步骤(4)包含如下子步骤：

(4.1)使用步骤(1)与步骤(2)中所得三维人脸动作序列训练一个深度神经网络：解耦网络；所述解耦网络由一个内容编码器、一个风格编码器、以及一个动作解码器组成；所述内容编码器对三维人脸动作序列中的每一帧首先进行三次螺旋卷积；每次螺旋卷积操作之后进行顶点下采样，并使用负数倾斜率为0.2的带泄漏线性整流函数激活；随后将三次螺旋卷积之后的所有顶点特征连接成一维向量，再通过一个线性矩阵将其映射到内容特征；三维人脸动作序列中所有帧经过映射之后得到内容特征序列；所述内容特征序列是由序列维度、特征图维度组成的二维张量；所述风格编码器对三维人脸动作序列中的每一帧进行与前述内容编码器相同的三次螺旋卷积、顶点下采样、激活与后续线性映射操作，但使用不同的参数将每一帧映射到中间风格特征；三维人脸动作序列中所有帧映射到中间风格特征序列之后，用一个标准的长短时记忆单元循环地处理中间风格特征序列并得到个性化风格特征；所述个性化风格特征是由特征图维度组成的一维向量。所述动作解码器对内容编码器所得内容特征序列进行三次一维卷积，每次卷积之前，将风格编码器所得个性化风格特征与输入的每帧特征相连接，并且在序列前端以零特征向量填补以保证卷积之后的序列长度不变；每次卷积之后，使用负数倾斜率为0.2的带泄漏线性整流函数进行激活；再通过五层全连接层映射，输出个性化三维人脸动作序列。所述训练过程使用标准Adam优化器优化网络中的可训练参数，以最小化解耦目标函数；所述解耦目标函数包括：重构项，风格交换项，以及循环一致项；所述重构项利用内容编码器和风格编码器将步骤(1)与步骤(2)中所得三维人脸动作序列编码为内容特征序列和个性化风格特征，并使用原始数据监督动作解码器从内容特征序列和个性化风格特征解码输出的个性化三维人脸动作序列；所述风格交换项利用内容编码器和风格编码器将步骤(1)与步骤(2)

4.根据权利要求2所述的语音信号驱动的个性化三维人脸动画生成方法，其特征在于：具体步骤如下：

(1)处理目标人物视频数据：对目标人物的正脸演讲视频中的每一帧图像使用现有的三维可形变人脸模型技术，进行三维重建，并移除所有头部运动，得到目标人物的三维人脸模型模板I⁰以及三维人脸动作序列

0为目标人物编号，n表示序列中的帧序号集合{1，2，...，|n|}，/>

是形状为V×3的张量，/>

是形状为|n|×V×3的张量，|n|表示序列长度，V表示三维人脸模型顶点数量，3表示三维空间；同时，从目标人物的视频中分离出语音的音频信号X₀；

(2)获取辅助人物数据：从现有的公开的语音同步三维人脸动画数据库，获取辅助人物数据；数据库中的每个辅助人物的数据包括三维人脸模型模板I^u、三维人脸动作序列

以及同步的语音信号X_u；其中，u为该数据对应人物的编号，m表示序列中的帧序号集合{1，2，...，|m|}，/>

表示序列中的第t帧人脸动作，I^u和/>

是形状为V×3的张量，

是形状为|m|×V×3的张量，|m|表示序列长度，V表示三维人脸模型顶点数量，3表示三维空间；所述语音同步三维人脸动画数据库不包含目标人物的三维数据，即满足u＞0，并且其数据的三维人脸模型的拓扑结构与步骤(1)中所使用的三维人脸模型的拓扑结构一致；

(3)提取语音特征序列：对步骤(1)与步骤(2)中所得语音信号X_i使用现有语音识别技术，提取中间特征x_i，其是形状为|i|×C_x的张量，再对其进行分窗操作得到语音特征序列W_i＝{w_t}_t∈i，其是形状为|i|×W×C_x的张量；其中，i≥0为包括目标人物和辅助人物的人物编号，i表示序列中的帧序号集合{1，2，...，|i|}，w_t表示第t帧语音特征，|i|表示序列长度，与对应的三维人脸动作序列长度一致，W表示每一帧特征的窗口长度，C_x表示特征图数量；所述分窗操作对x_i序列上的每一帧取其前后各

帧作为一个窗口，超出序列范围的部分取零填补；

(4)训练深度神经网络：使用步骤(1)与步骤(2)所得三维人脸动作序列和步骤(3)所得语音特征序列同时训练两个深度神经网络，分别称为解耦网络与语音动画网络；包含以下子步骤：

训练一个深度神经网络，称为解耦网络；其中，k≥0表示包括目标人物和辅助人物的人物编号，i表示序列中的帧序号集合{1，2，...，|i|}，/>

其中，C_i为编码

所得内容特征序列，s^k为编码/>

所得个性化风格特征，/>

为结合s^k和C_i并解码之后生成的个性化三维人脸动作序列；

所述内容编码器E_C对三维人脸动作序列

中的第t帧/>

首先进行三次螺旋卷积；每次螺旋卷积操作之后进行顶点下采样，并使用负数倾斜率为0.2的带泄漏线性整流函数进行激活；随后，将卷积所得的所有顶点特征连接成一维向量，再通过一个可训练的线性矩阵将其映射到第t帧内容特征c_t；三维人脸动作序列中所有帧映射之后得到内容特征序列C_i＝{c_t}_t∈i；所述内容特征序列C_i是形状为|i|×C_c的张量，|i|表示序列长度，C_c表示特征图数量；所述螺旋卷积定义在输入的顶点维度上，其形式如下：

表示对第i个顶点预定义的L个邻接顶点的集合，/>

表示将输入的第i个顶点的邻接顶点集合中所有顶点的特征连接成形状为LC的一维向量，γ为可训练的线性映射，

表示螺旋卷积输出的第i个顶点的特征；所述预定义的邻接顶点集合是在三维人脸模型模板上预计算所得，对模型模板上的第i个顶点取其自身与拓扑结构周围环上的共L个顶点；所述顶点下采样定义在顶点维度上，其形式如下：

V^*＝M_dV⁺ (3)

其中，

所述风格编码器E_S对三维人脸动作序列

中的第t帧/>

首先进行三次螺旋卷积；每次螺旋卷积操作之后进行顶点下采样，并使用负数倾斜率为0.2的带泄漏线性整流函数进行激活；随后，将卷积所得的所有顶点特征连接成一维向量，再通过一个可训练的线性矩阵将其映射到第t帧中间风格特征/>

三维人脸动作序列中所有帧映射为中间风格特征之后，再使用一个长短时记忆单元循环地处理中间风格特征序列/>

得到个性化风格特征s^k；所述个性化风格特征s^k是形状为C_s的向量，C_s为特征图数量；所述螺旋卷积以及顶点下采样与内容编码器中的方法一致，但使用不同的参数；所述长短时记忆单元具有一个存储历史信息的状态器和三个门：输入门i_t作用于第t帧中间风格特征/>

其中，

为当前第t帧输入的中间风格特征，h_t-1为记忆单元第t-1帧的输出，/>

表示将/>

和h_t-1的特征图相连接；i_t为输入门数值，W_i、b_i分别为输入门的权重与偏置；f_t为输入门数值，W_f、b_f分别为遗忘门的权重与偏置；o_t为输入门数值，W_o、n_o分别为输出门的权重与偏置；/>

为对当前帧输入和上一帧输出的投影，W_x、b_x分别为投影的权重与偏置；S_t-1、S_t分别为第t-1帧与当前第t帧的记忆单元状态器的状态；h_t为第t帧记忆单元的输出；W_i，W_f，W_o，W_x均为形状为C_s×C_s的矩阵，b_i，b_f，b_o，b_x均为形状为C_s的向量，W_i，W_f，W_o，W_x，b_i，b_f，b_o，b_x均为可训练的参数；

最终输出三维人脸动作序列为/>

所述训练过程使用标准Adam优化器优化网络中的可训练参数，以最小化解耦目标函数L_decomp；所述解耦目标函数L_decomp包括：重构项L_rec，风格交换项L_swp，以及循环一致项L_cyc：

L_decomp＝λ_recL_rec+λ_swpL_swp+λ_cycL_cyc. (5)

其中，λ_rec，λ_swp，λ_cyc分别为相应的权重；

所述重构项定义如下：

为生成动作序列

中的第t帧；/>

计算生成动作第t帧唇部张开高度与监督数据第t帧唇部张开高度的l₂距离，以监督所生成动作有准确的唇部动作；其中LipH(·)根据预先选定的唇部顶点计算在y轴上的平均高度差，以近似唇部张开的高度；λ_m和λ_l为相应的权重；

所述风格交换项的计算方法定义在一对三维人脸动作序列上：

其中，p≥0，q≥0表示包括目标人物和辅助人物的人物编号，i，j表示对应序列中的帧序号集合；对于这样两个序列，使用内容编码器和风格编码器分别编码：

其中，第一种情况为p＝q，即两段三维人脸动作序列来自于同一个人物，则直接使用输入的序列作为监督数据，计算损失函数；第二种情况为p≠q，即两段三维人脸动作序列来自于不同人物，对于这种情况，只有部分序列对

满足可以计算的要求：人物p在/>

中所说的语言内容也必须被人物q说过，即存在/>

且该序列中所说的语言内容与序列/>

相同；然而i′的序列长度可能与i不同，通过标准的动态时间规整算法将/>

对齐到序列/>

上，对齐后的序列标记为/>

被用于监督/>

相似地，使用对齐的序列/>

监督/>

对于所述第二种情况，仅在满足要求的情况下计算；

所述循环一致项对前述交换个性化风格特征之后生成的三维人脸动作序列

同步，并拥有相同序列长度与帧编号；所述语音动画网络由一个语音编码器E_A以及一个动作解码器D组成：

其中，A_i为编码W_i后的语音特征序列，

为结合s^k与A_i并解码输出的个性化三维人脸动作序列；

所述语音编码器E_A对语音特征序列W_i＝{w_t}_t∈i中的第t帧特征窗口w_t，将整个窗口作为源，窗口中间帧作为询问，使用标准的变形器网络进行编码，得到第t帧编码后的语音特征a_t；对整个序列重复操作得到编码后的语音特征序列A_i＝{a_t}_t∈i；所述编码后的语音特征序列A_i是形状为|i|×C_a的二维张量，|i|表示序列长度，C_a表示特征图数量；