CN116385606A - 一种语音信号驱动的个性化三维人脸动画生成方法及其应用 - Google Patents
一种语音信号驱动的个性化三维人脸动画生成方法及其应用 Download PDFInfo
- Publication number
- CN116385606A CN116385606A CN202211621760.5A CN202211621760A CN116385606A CN 116385606 A CN116385606 A CN 116385606A CN 202211621760 A CN202211621760 A CN 202211621760A CN 116385606 A CN116385606 A CN 116385606A
- Authority
- CN
- China
- Prior art keywords
- sequence
- voice
- personalized
- dimensional
- style
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 230000001815 facial effect Effects 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims description 46
- 230000006870 function Effects 0.000 claims description 40
- 239000013598 vector Substances 0.000 claims description 35
- 238000013528 artificial neural network Methods 0.000 claims description 29
- 230000001360 synchronised effect Effects 0.000 claims description 24
- 238000013507 mapping Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 12
- 239000004973 liquid crystal related substance Substances 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 10
- 125000004122 cyclic group Chemical group 0.000 claims description 7
- 230000003213 activating effect Effects 0.000 claims description 6
- 229910052799 carbon Inorganic materials 0.000 claims description 6
- 230000004886 head movement Effects 0.000 claims description 4
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 2
- 101150048797 LIPH gene Proteins 0.000 claims description 2
- 230000001537 neural effect Effects 0.000 claims description 2
- 230000005236 sound signal Effects 0.000 claims description 2
- 239000000284 extract Substances 0.000 abstract description 3
- 238000003909 pattern recognition Methods 0.000 description 4
- 241000269350 Anura Species 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 241000212977 Andira Species 0.000 description 1
- 206010016035 Face presentation Diseases 0.000 description 1
- 208000017604 Hodgkin disease Diseases 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- TUWJQNVAGYRRHA-UHFFFAOYSA-N Menadiol dibutyrate Chemical compound C1=CC=C2C(OC(=O)CCC)=CC(C)=C(OC(=O)CCC)C2=C1 TUWJQNVAGYRRHA-UHFFFAOYSA-N 0.000 description 1
- 244000078856 Prunus padus Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- BWRHOYDPVJPXMF-UHFFFAOYSA-N cis-Caran Natural products C1C(C)CCC2C(C)(C)C12 BWRHOYDPVJPXMF-UHFFFAOYSA-N 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 229910003460 diamond Inorganic materials 0.000 description 1
- 239000010432 diamond Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 229940088594 vitamin Drugs 0.000 description 1
- 229930003231 vitamin Natural products 0.000 description 1
- 235000013343 vitamin Nutrition 0.000 description 1
- 239000011782 vitamin Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L2021/105—Synthesis of the lips movements from speech, e.g. for talking heads
Abstract
本发明涉及人脸动画领域,尤其涉及一种语音信号驱动的个性化三维人脸动画生成方法及其应用。一种语音信号驱动的个性化三维人脸动画生成方法,对于目标人物的正脸演讲视频重建三维人脸动作序列,并从视频的语音信号中提取语音特征序列;通过一个解耦网络将所重建的三维人脸动作序列分解为内容特征序列和个性化风格特征两部分,其中内容特征序列包含三维人脸动作中语音内容发音所需的必要动作信息,个性化风格特征包含三维人脸动作中反应人物个性的风格信息;同时通过另一个语音动画网络将所分解的个性化风格特征与所提取的语音特征序列相结合,生成个性化三维人脸动画。
Description
技术领域
本发明涉及人脸动画领域,尤其涉及一种语音信号驱动的个性化三维人脸动画生成方法及其应用。
背景技术
传统的语音信号驱动的程序式个性化人脸动画生成技术(Yuyu Xu,Andrew WFeng,Stacy Marsella,and Ari Shapiro.一种游戏中的实用且可配置的口型同步方法,Apractical and configurable lip sync method for games.In Proceedings of Motionon Games,pages 131–140.ACM,2013.)(Pif Edwards,Chris Landreth,Eugene Fiume,andKaran Singh.JALI:一种为动画师设计的唇形同步发音模型,Jali:an animator-centricviseme model for expressive lip synchronization.ACM Transactions on Graphics(TOG),35(4):127,2016.),从语音信号中自动识别反映发音的音素序列(例如英语中的音节、中文中的拼音),并根据人类在发音时嘴唇的形状将音素分组为视素,且为每个视素制作目标人物个性化的动画关键帧;而后通过人工制定的规则连接整个序列,得到连贯的个性化人脸动画。这些技术需要对每个目标人物制作动画关键帧,重复的人工工作量大;并且其生成动画的质量通常受限于音素识别的准确度和人工所制定规则的合理性。
近年来,一些技术运用深度神经网络(Deep Neural Network,DNN)为目标人物从语音信号中生成高质量的个性化人脸动画;例如Talyor等人(Sarah Taylor,Taehwan Kim,Yisong Yue,Moshe Mahler,James Krahe,Anastasio Garcia Rodriguez,JessicaHodgins,and Iain Matthews.一种适用于通用语音动画的深度学习方法,A deeplearning approach for generalized speech animation.ACM Transactions onGraphics(TOG),36(4):93,2017.)对一个目标人物采集超过2000个句子的正脸演说视频,然后为该目标人物训练其专用的深度神经网络,该网络可以将语音中的音素序列映射到人脸的主动外观模型(Active Appearance Model,AAM)系数序列;Suwajanakorn等人(Supasorn Suwajanakorn,Steven M Seitz,and Ira Kemelmacher-Shlizerman.这些技术虽然能够为目标人物生成高质量的个性化人脸动画,但受限于数据需求量过高的要求,难以适用于任意目标人物。
在单个目标人物数据量有限的情况下,一些技术通过混合多个目标人物以扩大模型训练的整体数据量,并通过控制风格以生成其中某个特定目标人物的个性化人脸动画;例如,Cudeiro等人(Daniel Cudeiro,Timo Bolkart,Cassidy Laidlaw,Anurag Ranjan,and Michael Black.采集、学习与合成三维演讲风格,Capture,learning,and synthesisof 3Dspeaking styles.Computer Vision and Pattern Recognition(CVPR),pages10101-10111,2019.)对十二个不同目标人物各采取40句的演讲三维人脸动画,训练一个卷积神经网络(Convolutional Neural Network)将语音信号映射到三维人脸动画,网络中使用人物编号对应的独热编码向量(One-Hot Vector)控制输出为对应目标人物的个性化人脸动画;Thies等人(Justus Thies,Mohamed Elgharib,Ayush Tewari,ChristianTheobalt,Matthias Nieβner.语音驱动的脸部重演,Neural voice puppetry:Audio-driven facial reenactment.European Conference on Computer Vision(ECCV),pages716-731,Springer,Cham,2020.)从德国新闻评论视频中收集116个目标人物的正脸演讲视频数据,用所有目标人物的数据训练一个共用的卷积神经网络将语音信号映射到共用的混合变形(Blend Shape)模型系数序列,再为每个目标人物优化一个线性映射矩阵将共用的混合变形模型系数映射到目标人物个性化的混合变形模型系数。这些技术依赖于风格控制的方法以生成某个特定目标人物的个性化人脸动画,虽然这些技术对不同人物的个性化风格加以区分,但是没有显式地区分每个人物数据内部的个性化风格信息与语音内容发音动作信息,导致其所训练的网络模型无法准确地学习人物的个性化风格。
发明内容
本发明的目的在于针对现有技术的不足,提供了一种语音信号驱动的个性化三维人脸动画生成方法。
一种语音信号驱动的个性化三维人脸动画生成方法,对于目标人物的正脸演讲视频重建三维人脸动作序列,并从视频的语音信号中提取语音特征序列;通过一个解耦网络将所重建的三维人脸动作序列分解为内容特征序列和个性化风格特征两部分,其中内容特征序列包含三维人脸动作中语音内容发音所需的必要动作信息,个性化风格特征包含三维人脸动作中反应人物个性的风格信息;同时通过另一个语音动画网络将所分解的个性化风格特征与所提取的语音特征序列相结合,生成个性化三维人脸动画。
对于目标人物的一分钟左右时长的正脸演讲视频,本发明运用现有技术从视频中重建三维人脸动作序列,并利用现有语音识别技术从视频的语音信号中提取语音特征序列。本发明通过一个深度神经网络(称为解耦网络)将所重建的三维人脸动作序列分解为内容特征序列和个性化风格特征两部分,其中内容特征序列包含三维人脸动作中语音内容发音所需的必要动作信息,个性化风格特征包含三维人脸动作中反应人物个性的风格信息;并且,本发明通过另一个深度神经网络(称为语音动画网络)将所分解的个性化风格特征与所提取的语音特征序列相结合,生成个性化三维人脸动画。
具体的,本发明的目的是通过以下技术方案来实现的,由语音信号驱动的个性化三维人脸动画生成方法,包括以下步骤:
(1)处理目标人物视频数据:对所给目标人物的正脸演讲视频中的每一帧画面使用现有三维可形变人脸模型技术进行三维重建,并移除头部运动,得到目标人物的三维人脸模型模板以及三维人脸动作序列;所述模型模板是由顶点维度、空间维度组成的二维张量;所述三维人脸动作序列是相对于模型模板的顶点偏移序列,是由序列维度、顶点维度、空间维度组成的三维张量;对所给视频提取语音信号。
(2)获取辅助人物数据:从现有的公开的语音同步三维人脸动画数据库中获取辅助人物数据,其中每个辅助人物的数据包括三维人脸模型模板、三维人脸动作序列、以及同步的语音信号;所述语音同步三维人脸动画数据库不包含目标人物的三维数据。
(3)提取语音特征序列:对步骤(1)与步骤(2)中所得语音信号,使用现有语音识别技术提取语音特征序列;所述语音特征序列是由序列维度、窗口维度、特征图维度组成的三维张量。
(4)训练深度神经网络:使用步骤(1)与(2)所得三维人脸动作序列和步骤(3)所得语音特征序列同时训练两个深度神经网络,分别称为解耦网络与语音动画网络;
所述解耦网络将三维人脸动作序列分解为内容特征序列和个性化风格特征两部分;
所述内容特征序列是由序列维度、特征图维度组成的二维张量,包含三维人脸动作中语音内容发音所需的必要动作信息;所述个性化风格特征是由特征图维度组成的一维张量,包含三维人脸动作中反应人物个性的风格信息;所述语音动画网络将所分解的个性化风格特征与语音特征序列结合,输出个性化三维人脸动作序列。
(5)获取目标人物个性化风格特征:对步骤(1)中所得的目标人物三维人脸动作序列,使用步骤(4)训练所得的解耦网络分解出目标人物的个性化风格特征。
(6)生成语音同步的个性化三维人脸动画:对输入的任意语音信号使用与步骤(3)中相同的方法提取语音特征序列;使用步骤(4)训练所得语音动画网络将所提取语音特征序列与步骤(5)所得目标人物的个性化风格特征结合,输出个性化三维人脸动作序列;所得三维人脸动作序列加上步骤(1)所得目标人物的三维人脸模型模板,得到个性化三维人脸动画;所述个性化三维人脸动画与输入的语音保持同步,并具有目标人物个性化的风格。
1.其中,所述步骤(4)包含如下子步骤:
(4.1)使用步骤(1)与步骤(2)中所得三维人脸动作序列训练一个深度神经网络:解耦网络;所述解耦网络由一个内容编码器、一个风格编码器、以及一个动作解码器组成。所述内容编码器对三维人脸动作序列中的每一帧首先进行三次螺旋卷积;
每次螺旋卷积操作之后进行顶点下采样,并使用负数倾斜率为0.2的带泄漏线性整流函数激活;随后将三次螺旋卷积之后的所有顶点特征连接成一维向量,再通过一个线性矩阵将其映射到内容特征;三维人脸动作序列中所有帧经过映射之后得到内容特征序列;所述内容特征序列是由序列维度、特征图维度组成的二维张量。所述风格编码器对三维人脸动作序列中的每一帧进行与前述内容编码器相同的三次螺旋卷积、顶点下采样、激活与后续线性映射操作,但使用不同的参数将每一帧映射到中间风格特征;三维人脸动作序列中所有帧映射到中间风格特征序列之后,用一个标准的长短时记忆单元循环地处理中间风格特征序列并得到个性化风格特征;所述个性化风格特征是由特征图维度组成的一维向量。所述动作解码器对内容编码器所得内容特征序列进行三次一维卷积,每次卷积之前,将风格编码器所得个性化风格特征与输入的每帧特征相连接,并且在序列前端以零特征向量填补以保证卷积之后的序列长度不变;每次卷积之后,使用负数倾斜率为0.2的带泄漏线性整流函数进行激活;再通过五层全连接层映射,输出个性化三维人脸动作序列。所述训练过程使用标准Adam优化器优化网络中的可训练参数,以最小化解耦目标函数;所述解耦目标函数包括:重构项,风格交换项,以及循环一致项;所述重构项利用内容编码器和风格编码器将步骤(1)与步骤(2)中所得三维人脸动作序列编码为内容特征序列和个性化风格特征,并使用原始数据监督动作解码器从内容特征序列和个性化风格特征解码输出的个性化三维人脸动作序列;所述风格交换项利用内容编码器和风格编码器将步骤(1)与步骤(2)
中所得三维人脸动作序列编码为内容特征序列和个性化风格特征,然后交换任意两个序列数据的个性化风格特征,使之与来源不同的内容特征序列结合并经过动作解码器输出个性化风格特征交换之后的个性化三维人脸动作序列,风格交换项对该输出进行监督;所述循环一致项对前述个性化风格特征交换之后的个性化三维人脸动作序列再次利用内容编码器和风格编码器编码并再次交换编码后的个性化风格特征,经过动作解码器输出两次个性化风格特征交换之后的个性化三维人脸动作序列,循环一致项对该输出进行监督。
(4.2)使用步骤(3)所得语音特征序列与步骤(4.1)中解耦网络所分解的个性化风格特征,训练另一个深度神经网络:语音动画网络,该步骤与步骤(4.1)同时进行。所述语音动画网络由一个语音编码器以及一个动作解码器组成。所述语音编码器对语音特征序列中的每一帧特征窗口,将整个窗口作为源,窗口中间帧作为询问,使用标准的变形器网络进行编码;对序列中所有帧进行编码得到编码后的语音特征序列;所述编码后的语音特征序列是由序列维度、特征图维度组成的二维张量。所述动作解码器对编码后的语音特征序列进行三次一维卷积,每次卷积之前,将步骤(4.1)所分解的个性化风格特征与输入的每帧特征相连接,并且在序列前端以零特征向量填补以保证卷积之后的序列长度不变;每次卷积之后,使用负数倾斜率为0.2的带泄漏线性整流函数进行激活;再通过五层全连接层映射,输出个性化三维人脸动作序列。该动作解码器与步骤(4.1)中的解耦网络中的动作解码器除输入之外完全相同,即步骤(4.1)中的解耦网络与该步骤中的语音动画网络共用同一个动作解码器。所述训练过程使用标准Adam优化器优化网络中的可训练参数,以最小化语音动画目标函数;所述语音动画目标函数包括:语音动画重构项,语音动画风格交换项,以及语音动画循环一致项;所述语音动画重构项计算方法与步骤(4.1)中的重构项相似,仅将解耦网络的输出替换为对应的语音动画网络输出;所述语音动画风格交换项计算方法与步骤(4.1)中的风格交换项相似,仅将解耦网络的输出替换为对应的语音动画网络输出;所述语音动画循环一致项计算方法与步骤(4.1)中的循环一致项相似,仅将解耦网络的输出替换为对应的语音动画网络输出。
本发明公开了一种语音信号驱动的个性化三维人脸动画生成方法:在给定目标人物一段一分钟左右正脸演讲视频的情况下,可以学习其个性化三维人脸动作风格,并对任意输入的语音信号生成语音同步的、具有该人物个性化风格的三维人脸动画;所生成动画质量达到当前最先进的语音信号驱动的个性化三维人脸动画技术水平。该方法主要分为六个步骤:处理目标人物视频数据、获取辅助人物数据、提取语音特征序列、训练深度神经网络、获取目标人物个性化风格特征、以及生成语音同步的个性化三维人脸动画。其中,步骤(2)获取辅助人物数据只需执行一次,并且在目标人物视频数据量较少的前提下(仅一分钟左右),辅助人物数据能够有效扩大数据量,有利于后续步骤(4)的执行。步骤(4)中训练一个解耦网络显式地将三维人脸动作序列分解为内容特征序列和个性化风格特征,使得步骤(5)中所获取的目标人物个性化风格特征能准确地反映目标人物的个性化风格信息而不受语音内容发音的影响;步骤(4)中训练的另一个语音动画网络能够结合个性化风格特征和语音特征序列,使得步骤(6)中所生成的个性化三维人脸动画既能准确反映目标人物个性化风格又能保持与输入语音的同步。
本发明可以用于不同场景下的语音信号驱动的个性化三维人脸动画生成任务,如VR虚拟社交、虚拟语音助手、以及游戏等。
附图说明
图1是本发明的方法流程示意图;
图2是本发明的方法中步骤(4)中子步骤(4.1)中重构项的计流程示意图;
图3是本发明的方法中步骤(4)中子步骤(4.1)中风格交换项的计流程示意图;
图4是本发明的方法中步骤(4)中子步骤(4.1)中循环一致项的计流程示意图;
图5是本发明实施实例中输入语音信号驱动不同目标人物个性化三维人脸动画生成的动画关键帧节选;其中,五个不同的目标人物以各自个性化地方式说出英文单词“climate”。
具体实施方式
本发明的核心技术训练一个深度神经网络(解耦网络)将三维人脸动作分解为内容特征序列和个性化风格特征,同时训练另一个深度神经网络(语音动画网络)将所分解的个性化风格特征与从语音信号提取的语音特征序列结合并输出语音同步的个性化三维人脸动作。如图1所示,该方法主要分为六个步骤:处理目标人物视频数据、获取辅助人物数据、提取语音特征序列、训练深度神经网络、获取目标人物个性化风格特征、以及生成语音同步的个性化三维人脸动画。
(1)处理目标人物视频数据:对目标人物的正脸演讲视频中的每一帧图像使用现有的三维可形变人脸模型技术(例如:FLAME,网址:https://flame.is.tue.mpg.de/,参考文献:Tianye Li,Timo Bolkart,Michael J Black,Hao Li and Javier Romero.
从四维扫描中学习人脸形状和表情。FLAME:Learning a model of facial shapeandexpression from 4D scans.ACM Trans.Graph.,36(6):194:1-194:17,2017)进行三维重建,并移除所有头部运动,得到目标人物的三维人脸模型模板I0以及三维人脸动作序列0为目标人物编号,n表示序列中的帧序号集合{1,2,…,|n|},/>表示序列中的第t帧人脸动作,即相较于模型模板的顶点偏移;其中,I0和/>是形状为V×3的张量,/>是形状为|n|×V×3的张量,|n|表示序列长度,V表示三维人脸模型顶点数量,3表示三维空间。同时,从目标人物的视频中分离出语音的音频信号X0。
(2)获取辅助人物数据:从现有的公开的语音同步三维人脸动画数据库(例如:VOCASET,网址:https://voca.is.tue.mpg.de/,参考文献:Daniel Cudeiro,TimoBolkart,Cassidy Laidlaw,Anurag Ranjan,and Michael Black.采集、学习与合成三维演讲风格,Capture,learning,and synthesis of 3D speaking styles.ComputerVisionand Pattern Recognition(CVPR),pages 10101-10111,2019.)中获取辅助人物数据。数据库中的每个辅助人物的数据包括三维人脸模型模板Iu、三维人脸动作序列以及同步的语音信号Xu;其中,u为该数据对应人物的编号,m表示序列中的帧序号集合{1,2,…,|m|},/>表示序列中的第t帧人脸动作,Iu和/>是形状为V×3的张量,/>是形状为|m|×V×3的张量,|m|表示序列长度,V表示三维人脸模型顶点数量,3表示三维空间。所述语音同步三维人脸动画数据库不包含目标人物的三维数据,即满足u>0,并且其数据的三维人脸模型的拓扑结构与步骤(1)中所使用的三维人脸模型的拓扑结构一致。
(3)提取语音特征序列:对步骤(1)与步骤(2)中所得语音信号Xi,使用现有语音识别技术(例如DeepSpeech,网址:https://github.com/mozilla/DeepSpeech,参考文献:Awni Hannun,Carl Case,Jared Casper,Bryan Catanzaro,Greg Diamos,Erich Elsen,Ryan Prenger,Sanjeev Satheesh,Shubho Sengupta,Adam Coates,AndrewY.Ng.DeepSpeech:扩大规模的端到端语音识别。DeepSpeech:Scaling up end-to-endspeech recognition[J].arXiv preprint arXiv:1412.5567,2014.)
提取中间特征xi,其是形状为|i|×Cx的张量,再对其进行分窗操作得到语音特征序列Wi={wt}t∈i,其是形状为|i|×W×Cx的张量;其中,i≥0为包括目标人物和辅助人物的人物编号,i表示序列中的帧序号集合{1,2,…,|i|},wt表示第t帧语音特征,|i|表示序列长度,与对应的三维人脸动作序列长度一致,W表示每一帧特征的窗口长度,Cx表示特征图数量;所述分窗操作对xi序列上的每一帧取其前后各帧作为一个窗口,超出序列范围的部分取零填补。
(4)训练深度神经网络:使用步骤(1)与步骤(2)所得三维人脸动作序列和步骤(3)所得语音特征序列同时训练两个深度神经网络,分别称为解耦网络与语音动画网络。包含以下子步骤:
(4.1)训练解耦网络:使用步骤(1)与步骤(2)中所得三维人脸动作序列训练一个深度神经网络,称为解耦网络;其中,k≥0表示包括目标人物和辅助人物的人物编号,i表示序列中的帧序号集合{1,2,…,|i|},/>为序列中第t帧三维人脸动作;所述解耦网络由一个内容编码器EC、一个风格编码器ES、以及一个动作解码器D组成,其运算过程定义如下:
所述内容编码器EC对三维人脸动作序列中的第t帧/>首先进行三次螺旋卷积(SpiralConv);每次螺旋卷积操作之后进行顶点下采样,并使用负数倾斜率为0.2的带泄漏线性整流(Leaky ReLU)函数进行激活;随后,将卷积所得的所有顶点特征连接成一维向量,再通过一个可训练的线性矩阵将其映射到第t帧内容特征ct;三维人脸动作序列中所有帧映射之后得到内容特征序列Ci={ct}t∈i;所述内容特征序列Ci是形状为|i|×Cc的张量,|i|表示序列长度,Cc表示特征图数量。所述螺旋卷积定义在输入的顶点维度上,其形式如下:
其中,vj表示输入螺旋卷积的第j个顶点的特征,是形状为C的向量,C表示特征数量;表示对第i个顶点预定义的L个邻接顶点的集合,/>表示将输入的第i个顶点的邻接顶点集合中所有顶点的特征连接成形状为LC的一维向量,γ为可训练的线性映射,/>表示螺旋卷积输出的第i个顶点的特征。所述预定义的邻接顶点集合是在三维人脸模型模板上预计算所得,对模型模板上的第i个顶点取其自身与拓扑结构周围环上的共L个顶点。所述顶点下采样定义在顶点维度上,其形式如下:
V*=MdV+ (3)
所述风格编码器ES对三维人脸动作序列中的第t帧/>首先进行三次螺旋卷积(SpiralConv);每次螺旋卷积操作之后进行顶点下采样,并使用负数倾斜率为0.2的带泄漏线性整流(Leaky ReLU)函数进行激活;随后,将卷积所得的所有顶点特征连接成一维向量,再通过一个可训练的线性矩阵将其映射到第t帧中间风格特征/>三维人脸动作序列中所有帧映射为中间风格特征之后,再使用一个长短时记忆单元循环地处理中间风格特征序列得到个性化风格特征sk;所述个性化风格特征sk是形状为Cs的向量,Cs为特征图数量。所述螺旋卷积以及顶点下采样与内容编码器中的方法一致,但使用不同的参数。所述长短时记忆单元具有一个存储历史信息的状态器和三个门:输入门it作用于第t帧中间风格特征/>与记忆单元第t-1帧输出ht-1,表示是否允许新的中间风格特征信息加入到记忆单元的状态器中,数值为0到1,如果输入门数值为1,即开门,则加入新信息,如果为0,即关门,则加入零向量,如果为0到1中间数值则将新信息乘以门数值再加入;遗忘门ft作用于记忆单元的状态器,表示是否保留状态器存储的第t-1帧历史信息St-1,数值为0到1,如果遗忘门数值为1,即开门,则保留存储的信息,如果为0,即关门,则重置存储信息为零向量,如果为0到1中间数值则将存储信息乘以门数值再保留;输出门ot作用于记忆单元的状态器,表示是否将记忆单元当前第t帧状态St作为输出,数值为0到1,如果为1,即开门,则当前记忆单元的状态作为输出,如果为0,即关门,则输出零向量,如果为0到1中间数值则将当前记忆单元的状态乘以门数值再作为输出;三个门的具体数值由当前第t帧输入/>与该记忆单元第t-1帧的输出ht-1连接、投影得到,其具体公式如下:
其中,为当前第t帧输入的中间风格特征,ht-1为记忆单元第t-1帧的输出,表示将/>和ht-1的特征图相连接;it为输入门数值,Wi、bi分别为输入门的权重与偏置;ft为输入门数值,Wf、bf分别为遗忘门的权重与偏置;ot为输入门数值,Wo、bo分别为输出门的权重与偏置;/>为对当前帧输入和上一帧输出的投影,Wx、bx分别为投影的权重与偏置;St-1、St分别为第t-1帧与当前第t帧的记忆单元状态器的状态;ht为第t帧记忆单元的输出;Wi,Wf,Wo,Wx均为形状为Cs×Cs的矩阵,bi,bf,bo,bx均为形状为Cs的向量,Wi,Wf,Wo,Wx,bi,bf,bo,bx均为可训练的参数。
所述动作解码器D对前述步骤所得内容特征序列Ci={ct}t∈i进行三次一维卷积,每次卷积之前,将前述步骤所得个性化风格特征sk与输入的每帧特征相连接,并且在序列前端以零特征向量填补以保证卷积之后的序列长度不变;每次卷积之后,使用负数倾斜率为0.2的带泄漏线性整流函数进行激活;对三层卷积之后的序列中的第t帧,再通过五层全连接层映射,生成第t帧三维人脸动作最终输出三维人脸动作序列为/>
所述训练过程使用标准Adam优化器优化网络中的可训练参数,以最小化解耦目标函数Ldecomp。所述解耦目标函数Ldecomp包括:重构项Lrec,风格交换项Lswp,以及循环一致项Lcyc:
Ldecomp=λrecLrec+λswpLswp+λcycLcyc. (5)
其中,λrec,λswp,λcyc分别为相应的权重。
所述重构项计算流程如图2所示,其定义如下:
其中,Lseq是对三维人脸动作序列定义的监督损失函数,其定义如下:
上式中的标记忽略人物编号;其中,yt为监督数据序列Yi中的第t帧,为生成动作序列/>中的第t帧;/>计算生成动作第t帧与监督数据第t帧之间的l2距离,以监督所生成动作的准确性;/>计算生成动作第t-1帧与第t帧之间变化幅度与监督数据第t-1帧与第t帧之间变化幅度的l2距离,以监督所生成动作的平滑性;/>计算生成动作第t帧唇部张开高度与监督数据第t帧唇部张开高度的l2距离,以监督所生成动作有准确的唇部动作;其中LipH·根据预先选定的唇部顶点计算在y轴上的平均高度差,以近似唇部张开的高度;λm和λl为相应的权重。
所述风格交换项的计算流程如图3所示,其计算方法定义在一对三维人脸动作序列上:其中,p≥0,q≥0表示包括目标人物和辅助人物的人物编号,i,j表示对应序列中的帧序号集合。对于这样两个序列,使用内容编码器和风格编码器分别编码:
对于交换个性化风格特征之后的三维人脸动作序列计算所述风格交换项Lswp,需考虑两种情况:
其中,第一种情况为p=q,即两段三维人脸动作序列来自于同一个人物,则直接使用输入的序列作为监督数据,计算损失函数。第二种情况为p≠q,即两段三维人脸动作序列来自于不同人物,对于这种情况,只有部分序列对满足可以计算的要求:人物p在/>中所说的语言内容也必须被人物q说过,即存在/>且该序列中所说的语言内容与序列/>相同;然而i′的序列长度可能与i不同,通过标准的动态时间规整算法将/>对齐到序列/>上,对齐后的序列标记为/>被用于监督/>相似地,使用对齐的序列/>监督/>对于所述第二种情况,仅在满足要求的情况下计算。
所述循环一致项的计算流程如图4所示,对前述交换个性化风格特征之后生成的三维人脸动作序列再次使用内容编码器和风格编码器分别编码,并再次交换编码所得个性化风格特征sq′与sp′,与另一个序列的内容特征序列相结合并生成两次交换个性化风格特征之后的三维人脸动作序列/>
经过两次交换之后,个性化风格特征与原始匹配的内容特征序列相结合,因此其输出应该恢复原始的输入序列;循环一致项Lcyc使用原始的输入序列进行监督:
(4.2)训练语音动画网络:使用步骤(3)所得语音特征序列Wi={wt}t∈i与步骤(4.1)中解耦网络所分解的个性化风格特征sk,训练另一个深度神经网络,称为语音动画网络;其中,Wi与前述三维人脸动作序列同步,并拥有相同序列长度与帧编号。所述语音动画网络由一个语音编码器EA以及一个动作解码器D组成:
所述语音编码器EA对语音特征序列Wi={wt}t∈i中的第t帧特征窗口wt,将整个窗口作为源(Source),窗口中间帧作为询问(Query),使用标准的变形器网络(TransformerNetwork)进行编码,得到第t帧编码后的语音特征at;对整个序列重复操作得到编码后的语音特征序列Ai={at}t∈i;所述编码后的语音特征序列Ai是形状为|i|×Ca的二维张量,|i|表示序列长度,Ca表示特征图数量。
所述动作解码器D对编码后的语音特征序列Ai={at}t∈i进行三次一维卷积,每次卷积之前,将步骤(4.1)所得个性化风格特征sk与输入的每帧特征相连接,并且在序列前端以零特征向量填补以保证卷积之后的序列长度不变;每次卷积之后,使用负数倾斜率为0.2的带泄漏线性整流函数进行激活;对三层卷积之后的序列中的第t帧,再通过五层全连接层映射,生成第t帧三维人脸动作最终输出三维人脸动作序列为/>该动作解码器与步骤(4.1)中的解耦网络中的动作解码器除输入之外完全相同,即步骤(4.1)中的解耦网络与该步骤中的语音动画网络共用同一个动作解码器。
所述训练过程使用标准Adam优化器优化网络中的可训练参数,以最小化语音动画目标函数Lanome。所述语音动画目标函数与步骤(4.1)中所述解耦目标函数相似,由三个相似的项目构成:语音动画重构项语音动画风格交换项/>语音动画循环一致项/>将式(6)中的/>替换成语音动画网络生成的/>得到语音动画重构项/>
所述语音动画目标函数Lanime表示为三项加权和:
Ljoint=Ldecomp+Lanime. (20)
(6)生成语音同步的个性化三维人脸动画:对任意的语音信号使用与步骤(3)中相同的方法提取语音特征序列;使用步骤(4)训练所得语音动画网络将所提取语音特征序列与步骤(5)所得目标人物的个性化风格特征s0结合,输出个性化三维人脸动作序列;所得个性化三维人脸动作序列加上步骤(1)中所得目标人物的三维人脸模型模板I0,得到个性化三维人脸动画;所述个性化三维人脸动画与输入的语音保持同步,并具有目标人物个性化的风格。
实施实例
训练实例:发明人在一台配备Intel Core i7-8700K中央处理器(3.70GHz),NVIDIA GTX1080Ti图形处理器(显存11GB)的计算机上实施本发明的实例。实施过程中,步骤(1)中的目标人物视频来源于互联网络与个人拍摄;步骤(2)中辅助人物数据来源于公开数据库VOCASET(Daniel Cudeiro,Timo Bolkart,Cassidy Laidlaw,Anurag Ranjan,andMichael Black.Capture,learning,and synthesis of 3D speaking styles.ComputerVision and Pattern Recognition(CVPR),pages 10101–10111,2019.)。
模型参数:发明人在实施本发明的实例时,步骤(1)到(4)所涉及的参数如下:
(1)处理目标人物视频数据:使用的现有三维可形变人脸模型技术为FLAME(网址:
https://flame.is.tue.mpg.de/,参考文献:Tianye Li,Timo Bolkart,Michael
J Black,Hao Li and Javier Romero.从四维扫描中学习人脸形状和表情。FLAME:
Learning a model of facial shape and expression from 4D scans.ACMTrans.
Graph.,36(6):194:1-194:17,2017);模型中顶点数量V=5023。
(2)获取辅助人物数据:使用现有的公开的语音同步三维人脸动画数据库VOCASET
(网址:https://voca.is.tue.mpg.de/,参考文献:Daniel Cudeiro,TimoBolkart,
Cassidy Laidlaw,Anurag Ranjan,and Michael Black.采集、学习与合成三维演讲风格。Capture,learning,and synthesis of 3D speaking styles.ComputerVisionand Pattern Recognition(CVPR),pages 10101-10111,2019.)。
(3)提取语音特征序列:使用的现有语音识别技术为DeepSpeech(网址:
https://github.com/mozilla/DeepSpeech,参考文献:Awni Hannun,Carl Case,
Jared Casper,Bryan Catanzaro,Greg Diamos,Erich Elsen,Ryan Prenger,
Sanjeev Satheesh,Shubho Sengupta,Adam Coates,Andrew Y.Ng.DeepSpeech:
扩大规模的端到端语音识别。DeepSpeech:Scaling up end-to-endspeechrecognition[J].arXiv preprint arXiv:1412.5567,2014.);语音特征窗口大小W=16,特征图数量Cx=29;使用的标准变形器网络(Transformer Network)
模型维度为64,注意力头数量为4,编码层数为3,解码层数为1。
(4)训练深度神经网络:螺旋卷积使用L=12个邻接顶点,三层螺旋卷积的特征图数量分别为16、32、32;螺旋卷积中的邻接顶点集合预定义、下采样矩阵的预计算使用现有技术(网址:https://github.com/sw-gong/spiralnet_plus,参考文献:Shunwang Gong,Lei Chen,Michael Bronstein,Stefanos Zafeiriou.SpiralNet++:一种快速高效的网格卷积算子。SpiralNet++:A Fast and Highly Efficient Mesh ConvolutionOperator.Proceedings of the IEEE/CVF International Conference on ComputerVision Workshops.2019);内容特征序列的特征图数量Cc=64;个性化风格特征的特征图数量Cs=32;编码后的语音特征序列的特征图数量Ca=64;动作解码器中的三层一维卷积核大小分为别5、3、3,特征图数量分别为64、128、256;式(5)中的权重为λrec=1,λswp=3,λcyc=1;式(7)中的权重为λm=5,λl=1;式(19)中的权重为Adam优化器的学习率为0.0001。
动画节选:发明人实施本发明实例,用语音信号驱动个性化三维人脸动画的生成。如图5所示的生成结果的关键帧节选,五个不同目标人物分别个性化地说出英文单词“climate”(关键帧依次对应音节/k/,/aI/,与/m/)。
Claims (5)
1.一种语音信号驱动的个性化三维人脸动画生成方法,其特征在于,对于目标人物的正脸演讲视频重建三维人脸动作序列,并从视频的语音信号中提取语音特征序列;通过一个解耦网络将所重建的三维人脸动作序列分解为内容特征序列和个性化风格特征两部分,其中内容特征序列包含三维人脸动作中语音内容发音所需的必要动作信息,个性化风格特征包含三维人脸动作中反应人物个性的风格信息;同时通过另一个语音动画网络将所分解的个性化风格特征与所提取的语音特征序列相结合,生成个性化三维人脸动画。
2.根据权利要求1所述的语音信号驱动的个性化三维人脸动画生成方法,其特征在于:包括以下步骤:
(1)处理目标人物视频数据:对所给目标人物的正脸演讲视频中的每一帧画面使用现有三维可形变人脸模型技术进行三维重建,并移除头部运动,得到目标人物的三维人脸模型模板以及三维人脸动作序列;所述模型模板是由顶点维度、空间维度组成的二维张量;所述三维人脸动作序列是相对于模型模板的顶点偏移序列,是由序列维度、顶点维度、空间维度组成的三维张量;对所给视频提取语音信号;
(2)获取辅助人物数据:从现有的公开的语音同步三维人脸动画数据库中获取辅助人物数据,其中每个辅助人物的数据包括三维人脸模型模板、三维人脸动作序列、以及同步的语音信号;所述语音同步三维人脸动画数据库不包含目标人物的三维数据;
(3)提取语音特征序列:对步骤(1)与步骤(2)中所得语音信号,使用现有语音识别技术提取语音特征序列;所述语音特征序列是由序列维度、窗口维度、特征图维度组成的三维张量;
(4)训练深度神经网络:使用步骤(1)与(2)所得三维人脸动作序列和步骤(3)所得语音特征序列同时训练两个深度神经网络,分别称为解耦网络与语音动画网络;
所述解耦网络将三维人脸动作序列分解为内容特征序列和个性化风格特征两部分;
所述内容特征序列是由序列维度、特征图维度组成的二维张量,包含三维人脸动作中语音内容发音所需的必要动作信息;所述个性化风格特征是由特征图维度组成的一维张量,包含三维人脸动作中反应人物个性的风格信息;所述语音动画网络将所分解的个性化风格特征与语音特征序列结合,输出个性化三维人脸动作序列;
(5)获取目标人物个性化风格特征:对步骤(1)中所得的目标人物三维人脸动作序列,使用步骤(4)训练所得的解耦网络分解出目标人物的个性化风格特征;
(6)生成语音同步的个性化三维人脸动画:对输入的任意语音信号使用与步骤(3)中相同的方法提取语音特征序列;使用步骤(4)训练所得语音动画网络将所提取语音特征序列与步骤(5)所得目标人物的个性化风格特征结合,输出个性化三维人脸动作序列;所得三维人脸动作序列加上步骤(1)所得目标人物的三维人脸模型模板,得到个性化三维人脸动画;所述个性化三维人脸动画与输入的语音保持同步,
并具有目标人物个性化的风格。
3.根据权利要求2所述的语音信号驱动的个性化三维人脸动画生成方法,其特征在于,所述步骤(4)包含如下子步骤:
(4.1)使用步骤(1)与步骤(2)中所得三维人脸动作序列训练一个深度神经网络:解耦网络;所述解耦网络由一个内容编码器、一个风格编码器、以及一个动作解码器组成;所述内容编码器对三维人脸动作序列中的每一帧首先进行三次螺旋卷积;每次螺旋卷积操作之后进行顶点下采样,并使用负数倾斜率为0.2的带泄漏线性整流函数激活;随后将三次螺旋卷积之后的所有顶点特征连接成一维向量,再通过一个线性矩阵将其映射到内容特征;三维人脸动作序列中所有帧经过映射之后得到内容特征序列;所述内容特征序列是由序列维度、特征图维度组成的二维张量;所述风格编码器对三维人脸动作序列中的每一帧进行与前述内容编码器相同的三次螺旋卷积、顶点下采样、激活与后续线性映射操作,但使用不同的参数将每一帧映射到中间风格特征;三维人脸动作序列中所有帧映射到中间风格特征序列之后,用一个标准的长短时记忆单元循环地处理中间风格特征序列并得到个性化风格特征;所述个性化风格特征是由特征图维度组成的一维向量。所述动作解码器对内容编码器所得内容特征序列进行三次一维卷积,每次卷积之前,将风格编码器所得个性化风格特征与输入的每帧特征相连接,并且在序列前端以零特征向量填补以保证卷积之后的序列长度不变;每次卷积之后,使用负数倾斜率为0.2的带泄漏线性整流函数进行激活;再通过五层全连接层映射,输出个性化三维人脸动作序列。所述训练过程使用标准Adam优化器优化网络中的可训练参数,以最小化解耦目标函数;所述解耦目标函数包括:重构项,风格交换项,以及循环一致项;所述重构项利用内容编码器和风格编码器将步骤(1)与步骤(2)中所得三维人脸动作序列编码为内容特征序列和个性化风格特征,并使用原始数据监督动作解码器从内容特征序列和个性化风格特征解码输出的个性化三维人脸动作序列;所述风格交换项利用内容编码器和风格编码器将步骤(1)与步骤(2)
中所得三维人脸动作序列编码为内容特征序列和个性化风格特征,然后交换任意两个序列数据的个性化风格特征,使之与来源不同的内容特征序列结合并经过动作解码器输出个性化风格特征交换之后的个性化三维人脸动作序列,风格交换项对该输出进行监督;所述循环一致项对前述个性化风格特征交换之后的个性化三维人脸动作序列再次利用内容编码器和风格编码器编码并再次交换编码后的个性化风格特征,经过动作解码器输出两次个性化风格特征交换之后的个性化三维人脸动作序列,循环一致项对该输出进行监督。
(4.2)使用步骤(3)所得语音特征序列与步骤(4.1)中解耦网络所分解的个性化风格特征,训练另一个深度神经网络:语音动画网络,该步骤与步骤(4.1)同时进行。所述语音动画网络由一个语音编码器以及一个动作解码器组成。所述语音编码器对语音特征序列中的每一帧特征窗口,将整个窗口作为源,窗口中间帧作为询问,使用标准的变形器网络进行编码;对序列中所有帧进行编码得到编码后的语音特征序列;所述编码后的语音特征序列是由序列维度、特征图维度组成的二维张量。所述动作解码器对编码后的语音特征序列进行三次一维卷积,每次卷积之前,将步骤(4.1)所分解的个性化风格特征与输入的每帧特征相连接,并且在序列前端以零特征向量填补以保证卷积之后的序列长度不变;每次卷积之后,使用负数倾斜率为0.2的带泄漏线性整流函数进行激活;再通过五层全连接层映射,输出个性化三维人脸动作序列。该动作解码器与步骤(4.1)中的解耦网络中的动作解码器除输入之外完全相同,即步骤(4.1)中的解耦网络与该步骤中的语音动画网络共用同一个动作解码器。所述训练过程使用标准Adam优化器优化网络中的可训练参数,以最小化语音动画目标函数;所述语音动画目标函数包括:语音动画重构项,语音动画风格交换项,以及语音动画循环一致项;所述语音动画重构项计算方法与步骤(4.1)中的重构项相似,仅将解耦网络的输出替换为对应的语音动画网络输出;所述语音动画风格交换项计算方法与步骤(4.1)中的风格交换项相似,仅将解耦网络的输出替换为对应的语音动画网络输出;所述语音动画循环一致项计算方法与步骤(4.1)中的循环一致项相似,仅将解耦网络的输出替换为对应的语音动画网络输出。
4.根据权利要求2所述的语音信号驱动的个性化三维人脸动画生成方法,其特征在于:具体步骤如下:
(1)处理目标人物视频数据:对目标人物的正脸演讲视频中的每一帧图像使用现有的三维可形变人脸模型技术,进行三维重建,并移除所有头部运动,得到目标人物的三维人脸模型模板I0以及三维人脸动作序列0为目标人物编号,n表示序列中的帧序号集合{1,2,...,|n|},/>表示序列中的第t帧人脸动作,即相较于模型模板的顶点偏移;其中,I0和/>是形状为V×3的张量,/>是形状为|n|×V×3的张量,|n|表示序列长度,V表示三维人脸模型顶点数量,3表示三维空间;同时,从目标人物的视频中分离出语音的音频信号X0;
(2)获取辅助人物数据:从现有的公开的语音同步三维人脸动画数据库,获取辅助人物数据;数据库中的每个辅助人物的数据包括三维人脸模型模板Iu、三维人脸动作序列以及同步的语音信号Xu;其中,u为该数据对应人物的编号,m表示序列中的帧序号集合{1,2,...,|m|},/>表示序列中的第t帧人脸动作,Iu和/>是形状为V×3的张量,是形状为|m|×V×3的张量,|m|表示序列长度,V表示三维人脸模型顶点数量,3表示三维空间;所述语音同步三维人脸动画数据库不包含目标人物的三维数据,即满足u>0,并且其数据的三维人脸模型的拓扑结构与步骤(1)中所使用的三维人脸模型的拓扑结构一致;
(3)提取语音特征序列:对步骤(1)与步骤(2)中所得语音信号Xi使用现有语音识别技术,提取中间特征xi,其是形状为|i|×Cx的张量,再对其进行分窗操作得到语音特征序列Wi={wt}t∈i,其是形状为|i|×W×Cx的张量;其中,i≥0为包括目标人物和辅助人物的人物编号,i表示序列中的帧序号集合{1,2,...,|i|},wt表示第t帧语音特征,|i|表示序列长度,与对应的三维人脸动作序列长度一致,W表示每一帧特征的窗口长度,Cx表示特征图数量;所述分窗操作对xi序列上的每一帧取其前后各帧作为一个窗口,超出序列范围的部分取零填补;
(4)训练深度神经网络:使用步骤(1)与步骤(2)所得三维人脸动作序列和步骤(3)所得语音特征序列同时训练两个深度神经网络,分别称为解耦网络与语音动画网络;包含以下子步骤:
(4.1)训练解耦网络:使用步骤(1)与步骤(2)中所得三维人脸动作序列训练一个深度神经网络,称为解耦网络;其中,k≥0表示包括目标人物和辅助人物的人物编号,i表示序列中的帧序号集合{1,2,...,|i|},/>为序列中第t帧三维人脸动作;所述解耦网络由一个内容编码器EC、一个风格编码器ES、以及一个动作解码器D组成,其运算过程定义如下:
所述内容编码器EC对三维人脸动作序列中的第t帧/>首先进行三次螺旋卷积;每次螺旋卷积操作之后进行顶点下采样,并使用负数倾斜率为0.2的带泄漏线性整流函数进行激活;随后,将卷积所得的所有顶点特征连接成一维向量,再通过一个可训练的线性矩阵将其映射到第t帧内容特征ct;三维人脸动作序列中所有帧映射之后得到内容特征序列Ci={ct}t∈i;所述内容特征序列Ci是形状为|i|×Cc的张量,|i|表示序列长度,Cc表示特征图数量;所述螺旋卷积定义在输入的顶点维度上,其形式如下:
其中,vj表示输入螺旋卷积的第j个顶点的特征,是形状为C的向量,C表示特征数量;表示对第i个顶点预定义的L个邻接顶点的集合,/>表示将输入的第i个顶点的邻接顶点集合中所有顶点的特征连接成形状为LC的一维向量,γ为可训练的线性映射,表示螺旋卷积输出的第i个顶点的特征;所述预定义的邻接顶点集合是在三维人脸模型模板上预计算所得,对模型模板上的第i个顶点取其自身与拓扑结构周围环上的共L个顶点;所述顶点下采样定义在顶点维度上,其形式如下:
V*=MdV+ (3)
所述风格编码器ES对三维人脸动作序列中的第t帧/>首先进行三次螺旋卷积;每次螺旋卷积操作之后进行顶点下采样,并使用负数倾斜率为0.2的带泄漏线性整流函数进行激活;随后,将卷积所得的所有顶点特征连接成一维向量,再通过一个可训练的线性矩阵将其映射到第t帧中间风格特征/>三维人脸动作序列中所有帧映射为中间风格特征之后,再使用一个长短时记忆单元循环地处理中间风格特征序列/>得到个性化风格特征sk;所述个性化风格特征sk是形状为Cs的向量,Cs为特征图数量;所述螺旋卷积以及顶点下采样与内容编码器中的方法一致,但使用不同的参数;所述长短时记忆单元具有一个存储历史信息的状态器和三个门:输入门it作用于第t帧中间风格特征/>与记忆单元第t-1帧输出ht-1,表示是否允许新的中间风格特征信息加入到记忆单元的状态器中,数值为0到1,如果输入门数值为1,即开门,则加入新信息,如果为0,即关门,则加入零向量,如果为0到1中间数值则将新信息乘以门数值再加入;遗忘门ft作用于记忆单元的状态器,表示是否保留状态器存储的第t-1帧历史信息St-1,数值为0到1,如果遗忘门数值为1,即开门,则保留存储的信息,如果为0,即关门,则重置存储信息为零向量,如果为0到1中间数值则将存储信息乘以门数值再保留;输出门ot作用于记忆单元的状态器,表示是否将记忆单元当前第t帧状态St作为输出,数值为0到1,如果为1,即开门,则当前记忆单元的状态作为输出,如果为0,即关门,则输出零向量,如果为0到1中间数值则将当前记忆单元的状态乘以门数值再作为输出;三个门的具体数值由当前第t帧输入/>与该记忆单元第t-1帧的输出ht-1连接、投影得到,其具体公式如下:
其中,为当前第t帧输入的中间风格特征,ht-1为记忆单元第t-1帧的输出,/>表示将/>和ht-1的特征图相连接;it为输入门数值,Wi、bi分别为输入门的权重与偏置;ft为输入门数值,Wf、bf分别为遗忘门的权重与偏置;ot为输入门数值,Wo、no分别为输出门的权重与偏置;/>为对当前帧输入和上一帧输出的投影,Wx、bx分别为投影的权重与偏置;St-1、St分别为第t-1帧与当前第t帧的记忆单元状态器的状态;ht为第t帧记忆单元的输出;Wi,Wf,Wo,Wx均为形状为Cs×Cs的矩阵,bi,bf,bo,bx均为形状为Cs的向量,Wi,Wf,Wo,Wx,bi,bf,bo,bx均为可训练的参数;
所述动作解码器D对前述步骤所得内容特征序列Ci={ct}t∈i进行三次一维卷积,每次卷积之前,将前述步骤所得个性化风格特征sk与输入的每帧特征相连接,并且在序列前端以零特征向量填补以保证卷积之后的序列长度不变;每次卷积之后,使用负数倾斜率为0.2的带泄漏线性整流函数进行激活;对三层卷积之后的序列中的第t帧,再通过五层全连接层映射,生成第t帧三维人脸动作最终输出三维人脸动作序列为/>
所述训练过程使用标准Adam优化器优化网络中的可训练参数,以最小化解耦目标函数Ldecomp;所述解耦目标函数Ldecomp包括:重构项Lrec,风格交换项Lswp,以及循环一致项Lcyc:
Ldecomp=λrecLrec+λswpLswp+λcycLcyc. (5)
其中,λrec,λswp,λcyc分别为相应的权重;
所述重构项定义如下:
其中,Lseq是对三维人脸动作序列定义的监督损失函数,其定义如下:
上式中的标记忽略人物编号;其中,yt为监督数据序列Yi中的第t帧,为生成动作序列中的第t帧;/>计算生成动作第t帧与监督数据第t帧之间的l2距离,以监督所生成动作的准确性;/>计算生成动作第t-1帧与第t帧之间变化幅度与监督数据第t-1帧与第t帧之间变化幅度的l2距离,以监督所生成动作的平滑性;/>计算生成动作第t帧唇部张开高度与监督数据第t帧唇部张开高度的l2距离,以监督所生成动作有准确的唇部动作;其中LipH(·)根据预先选定的唇部顶点计算在y轴上的平均高度差,以近似唇部张开的高度;λm和λl为相应的权重;
所述风格交换项的计算方法定义在一对三维人脸动作序列上:其中,p≥0,q≥0表示包括目标人物和辅助人物的人物编号,i,j表示对应序列中的帧序号集合;对于这样两个序列,使用内容编码器和风格编码器分别编码:
对于交换个性化风格特征之后的三维人脸动作序列计算所述风格交换项Lswp,需考虑两种情况:
其中,第一种情况为p=q,即两段三维人脸动作序列来自于同一个人物,则直接使用输入的序列作为监督数据,计算损失函数;第二种情况为p≠q,即两段三维人脸动作序列来自于不同人物,对于这种情况,只有部分序列对满足可以计算的要求:人物p在/>中所说的语言内容也必须被人物q说过,即存在/>且该序列中所说的语言内容与序列/>相同;然而i′的序列长度可能与i不同,通过标准的动态时间规整算法将/>对齐到序列/>上,对齐后的序列标记为/>被用于监督/>相似地,使用对齐的序列/>监督/>对于所述第二种情况,仅在满足要求的情况下计算;
所述循环一致项对前述交换个性化风格特征之后生成的三维人脸动作序列再次使用内容编码器和风格编码器分别编码,并再次交换编码所得个性化风格特征sq′与sp′,与另一个序列的内容特征序列相结合并生成两次交换个性化风格特征之后的三维人脸动作序列/>
经过两次交换之后,个性化风格特征与原始匹配的内容特征序列相结合,因此其输出应该恢复原始的输入序列;循环一致项Lcyc使用原始的输入序列进行监督:
(4.2)训练语音动画网络:使用步骤(3)所得语音特征序列Wi={wt}t∈i与步骤(4.1)中解耦网络所分解的个性化风格特征sk,训练另一个深度神经网络,称为语音动画网络;其中,Wi与前述三维人脸动作序列同步,并拥有相同序列长度与帧编号;所述语音动画网络由一个语音编码器EA以及一个动作解码器D组成:
所述语音编码器EA对语音特征序列Wi={wt}t∈i中的第t帧特征窗口wt,将整个窗口作为源,窗口中间帧作为询问,使用标准的变形器网络进行编码,得到第t帧编码后的语音特征at;对整个序列重复操作得到编码后的语音特征序列Ai={at}t∈i;所述编码后的语音特征序列Ai是形状为|i|×Ca的二维张量,|i|表示序列长度,Ca表示特征图数量;
所述动作解码器D对编码后的语音特征序列Ai={at}t∈i进行三次一维卷积,每次卷积之前,将步骤(4.1)所得个性化风格特征sk与输入的每帧特征相连接,并且在序列前端以零特征向量填补以保证卷积之后的序列长度不变;每次卷积之后,使用负数倾斜率为0.2的带泄漏线性整流函数进行激活;对三层卷积之后的序列中的第t帧,再通过五层全连接层映射,生成第t帧三维人脸动作最终输出三维人脸动作序列为/>该动作解码器与步骤(4.1)中的解耦网络中的动作解码器除输入之外完全相同,即步骤(4.1)中的解耦网络与该步骤中的语音动画网络共用同一个动作解码器;
所述训练过程使用标准Adam优化器优化网络中的可训练参数,以最小化语音动画目标函数Lanime;所述语音动画目标函数与步骤(4.1)中所述解耦目标函数相似,由三个相似的项目构成:语音动画重构项语音动画风格交换项/>语音动画循环一致项/>将式(6)中的/>替换成语音动画网络生成的/>得到语音动画重构项/>
所述语音动画目标函数Lanime表示为三项加权和:
Ljoint=Ldecomp+Lanime. (20)
(6)生成语音同步的个性化三维人脸动画:对任意的语音信号使用与步骤(3)中相同的方法提取语音特征序列;使用步骤(4)训练所得语音动画网络将所提取语音特征序列与步骤(5)所得目标人物的个性化风格特征s0结合,输出个性化三维人脸动作序列;所得个性化三维人脸动作序列加上步骤(1)中所得目标人物的三维人脸模型模板I0,得到个性化三维人脸动画;所述个性化三维人脸动画与输入的语音保持同步,并具有目标人物个性化的风格。
5.权利要求1-4任一所述的语音信号驱动的个性化三维人脸动画生成方法在VR虚拟社交、虚拟语音助手或游戏中的应用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211621760.5A CN116385606A (zh) | 2022-12-16 | 2022-12-16 | 一种语音信号驱动的个性化三维人脸动画生成方法及其应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211621760.5A CN116385606A (zh) | 2022-12-16 | 2022-12-16 | 一种语音信号驱动的个性化三维人脸动画生成方法及其应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116385606A true CN116385606A (zh) | 2023-07-04 |
Family
ID=86977431
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211621760.5A Pending CN116385606A (zh) | 2022-12-16 | 2022-12-16 | 一种语音信号驱动的个性化三维人脸动画生成方法及其应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116385606A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117115312A (zh) * | 2023-10-17 | 2023-11-24 | 天度(厦门)科技股份有限公司 | 一种语音驱动面部动画方法、装置、设备及介质 |
-
2022
- 2022-12-16 CN CN202211621760.5A patent/CN116385606A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117115312A (zh) * | 2023-10-17 | 2023-11-24 | 天度(厦门)科技股份有限公司 | 一种语音驱动面部动画方法、装置、设备及介质 |
CN117115312B (zh) * | 2023-10-17 | 2023-12-19 | 天度(厦门)科技股份有限公司 | 一种语音驱动面部动画方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Guo et al. | Ad-nerf: Audio driven neural radiance fields for talking head synthesis | |
Thies et al. | Neural voice puppetry: Audio-driven facial reenactment | |
Lu et al. | Live speech portraits: real-time photorealistic talking-head animation | |
Chuang et al. | Mood swings: expressive speech animation | |
Cao et al. | Expressive speech-driven facial animation | |
CN113269872A (zh) | 基于三维人脸重构和视频关键帧优化的合成视频生成方法 | |
CN113255457A (zh) | 基于人脸表情识别的动画角色面部表情生成方法及系统 | |
CN110751708A (zh) | 一种实时的语音驱动人脸动画的方法和系统 | |
Ma et al. | Real‐Time Facial Expression Transformation for Monocular RGB Video | |
Wang et al. | 3d-talkemo: Learning to synthesize 3d emotional talking head | |
Fan et al. | Joint audio-text model for expressive speech-driven 3d facial animation | |
CN116385606A (zh) | 一种语音信号驱动的个性化三维人脸动画生成方法及其应用 | |
Huang et al. | Object-occluded human shape and pose estimation with probabilistic latent consistency | |
Liu et al. | Talking face generation via facial anatomy | |
Liu et al. | 4D facial analysis: A survey of datasets, algorithms and applications | |
CN116721190A (zh) | 一种语音驱动三维人脸动画生成方法 | |
CN115984485A (zh) | 一种基于自然文本描述的高保真三维人脸模型生成方法 | |
CN113436302B (zh) | 一种人脸动画合成方法及系统 | |
Lou et al. | Diversemotion: Towards diverse human motion generation via discrete diffusion | |
Tu et al. | Acquiring identity and expression information from monocular face image | |
Chuang | Analysis, synthesis, and retargeting of facial expressions | |
CN113763236A (zh) | 一种商业短视频根据地域动态调整脸部特征的方法 | |
Mishra et al. | Environment descriptor for the visually impaired | |
CN113076918A (zh) | 基于视频的人脸表情克隆方法 | |
He et al. | Speech4Mesh: Speech-Assisted Monocular 3D Facial Reconstruction for Speech-Driven 3D Facial Animation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |