CN116385606A - 一种语音信号驱动的个性化三维人脸动画生成方法及其应用 - Google Patents

一种语音信号驱动的个性化三维人脸动画生成方法及其应用 Download PDF

Info

Publication number
CN116385606A
CN116385606A CN202211621760.5A CN202211621760A CN116385606A CN 116385606 A CN116385606 A CN 116385606A CN 202211621760 A CN202211621760 A CN 202211621760A CN 116385606 A CN116385606 A CN 116385606A
Authority
CN
China
Prior art keywords
sequence
voice
personalized
dimensional
style
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211621760.5A
Other languages
English (en)
Inventor
周昆
柴宇进
翁彦琳
邵天甲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Faceunity Technology Co ltd
Zhejiang University ZJU
Original Assignee
Faceunity Technology Co ltd
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Faceunity Technology Co ltd, Zhejiang University ZJU filed Critical Faceunity Technology Co ltd
Priority to CN202211621760.5A priority Critical patent/CN116385606A/zh
Publication of CN116385606A publication Critical patent/CN116385606A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Abstract

本发明涉及人脸动画领域,尤其涉及一种语音信号驱动的个性化三维人脸动画生成方法及其应用。一种语音信号驱动的个性化三维人脸动画生成方法,对于目标人物的正脸演讲视频重建三维人脸动作序列,并从视频的语音信号中提取语音特征序列;通过一个解耦网络将所重建的三维人脸动作序列分解为内容特征序列和个性化风格特征两部分,其中内容特征序列包含三维人脸动作中语音内容发音所需的必要动作信息,个性化风格特征包含三维人脸动作中反应人物个性的风格信息;同时通过另一个语音动画网络将所分解的个性化风格特征与所提取的语音特征序列相结合,生成个性化三维人脸动画。

Description

一种语音信号驱动的个性化三维人脸动画生成方法及其应用
技术领域
本发明涉及人脸动画领域,尤其涉及一种语音信号驱动的个性化三维人脸动画生成方法及其应用。
背景技术
传统的语音信号驱动的程序式个性化人脸动画生成技术(Yuyu Xu,Andrew WFeng,Stacy Marsella,and Ari Shapiro.一种游戏中的实用且可配置的口型同步方法,Apractical and configurable lip sync method for games.In Proceedings of Motionon Games,pages 131–140.ACM,2013.)(Pif Edwards,Chris Landreth,Eugene Fiume,andKaran Singh.JALI:一种为动画师设计的唇形同步发音模型,Jali:an animator-centricviseme model for expressive lip synchronization.ACM Transactions on Graphics(TOG),35(4):127,2016.),从语音信号中自动识别反映发音的音素序列(例如英语中的音节、中文中的拼音),并根据人类在发音时嘴唇的形状将音素分组为视素,且为每个视素制作目标人物个性化的动画关键帧;而后通过人工制定的规则连接整个序列,得到连贯的个性化人脸动画。这些技术需要对每个目标人物制作动画关键帧,重复的人工工作量大;并且其生成动画的质量通常受限于音素识别的准确度和人工所制定规则的合理性。
近年来,一些技术运用深度神经网络(Deep Neural Network,DNN)为目标人物从语音信号中生成高质量的个性化人脸动画;例如Talyor等人(Sarah Taylor,Taehwan Kim,Yisong Yue,Moshe Mahler,James Krahe,Anastasio Garcia Rodriguez,JessicaHodgins,and Iain Matthews.一种适用于通用语音动画的深度学习方法,A deeplearning approach for generalized speech animation.ACM Transactions onGraphics(TOG),36(4):93,2017.)对一个目标人物采集超过2000个句子的正脸演说视频,然后为该目标人物训练其专用的深度神经网络,该网络可以将语音中的音素序列映射到人脸的主动外观模型(Active Appearance Model,AAM)系数序列;Suwajanakorn等人(Supasorn Suwajanakorn,Steven M Seitz,and Ira Kemelmacher-Shlizerman.这些技术虽然能够为目标人物生成高质量的个性化人脸动画,但受限于数据需求量过高的要求,难以适用于任意目标人物。
在单个目标人物数据量有限的情况下,一些技术通过混合多个目标人物以扩大模型训练的整体数据量,并通过控制风格以生成其中某个特定目标人物的个性化人脸动画;例如,Cudeiro等人(Daniel Cudeiro,Timo Bolkart,Cassidy Laidlaw,Anurag Ranjan,and Michael Black.采集、学习与合成三维演讲风格,Capture,learning,and synthesisof 3Dspeaking styles.Computer Vision and Pattern Recognition(CVPR),pages10101-10111,2019.)对十二个不同目标人物各采取40句的演讲三维人脸动画,训练一个卷积神经网络(Convolutional Neural Network)将语音信号映射到三维人脸动画,网络中使用人物编号对应的独热编码向量(One-Hot Vector)控制输出为对应目标人物的个性化人脸动画;Thies等人(Justus Thies,Mohamed Elgharib,Ayush Tewari,ChristianTheobalt,Matthias Nieβner.语音驱动的脸部重演,Neural voice puppetry:Audio-driven facial reenactment.European Conference on Computer Vision(ECCV),pages716-731,Springer,Cham,2020.)从德国新闻评论视频中收集116个目标人物的正脸演讲视频数据,用所有目标人物的数据训练一个共用的卷积神经网络将语音信号映射到共用的混合变形(Blend Shape)模型系数序列,再为每个目标人物优化一个线性映射矩阵将共用的混合变形模型系数映射到目标人物个性化的混合变形模型系数。这些技术依赖于风格控制的方法以生成某个特定目标人物的个性化人脸动画,虽然这些技术对不同人物的个性化风格加以区分,但是没有显式地区分每个人物数据内部的个性化风格信息与语音内容发音动作信息,导致其所训练的网络模型无法准确地学习人物的个性化风格。
发明内容
本发明的目的在于针对现有技术的不足,提供了一种语音信号驱动的个性化三维人脸动画生成方法。
一种语音信号驱动的个性化三维人脸动画生成方法,对于目标人物的正脸演讲视频重建三维人脸动作序列,并从视频的语音信号中提取语音特征序列;通过一个解耦网络将所重建的三维人脸动作序列分解为内容特征序列和个性化风格特征两部分,其中内容特征序列包含三维人脸动作中语音内容发音所需的必要动作信息,个性化风格特征包含三维人脸动作中反应人物个性的风格信息;同时通过另一个语音动画网络将所分解的个性化风格特征与所提取的语音特征序列相结合,生成个性化三维人脸动画。
对于目标人物的一分钟左右时长的正脸演讲视频,本发明运用现有技术从视频中重建三维人脸动作序列,并利用现有语音识别技术从视频的语音信号中提取语音特征序列。本发明通过一个深度神经网络(称为解耦网络)将所重建的三维人脸动作序列分解为内容特征序列和个性化风格特征两部分,其中内容特征序列包含三维人脸动作中语音内容发音所需的必要动作信息,个性化风格特征包含三维人脸动作中反应人物个性的风格信息;并且,本发明通过另一个深度神经网络(称为语音动画网络)将所分解的个性化风格特征与所提取的语音特征序列相结合,生成个性化三维人脸动画。
具体的,本发明的目的是通过以下技术方案来实现的,由语音信号驱动的个性化三维人脸动画生成方法,包括以下步骤:
(1)处理目标人物视频数据:对所给目标人物的正脸演讲视频中的每一帧画面使用现有三维可形变人脸模型技术进行三维重建,并移除头部运动,得到目标人物的三维人脸模型模板以及三维人脸动作序列;所述模型模板是由顶点维度、空间维度组成的二维张量;所述三维人脸动作序列是相对于模型模板的顶点偏移序列,是由序列维度、顶点维度、空间维度组成的三维张量;对所给视频提取语音信号。
(2)获取辅助人物数据:从现有的公开的语音同步三维人脸动画数据库中获取辅助人物数据,其中每个辅助人物的数据包括三维人脸模型模板、三维人脸动作序列、以及同步的语音信号;所述语音同步三维人脸动画数据库不包含目标人物的三维数据。
(3)提取语音特征序列:对步骤(1)与步骤(2)中所得语音信号,使用现有语音识别技术提取语音特征序列;所述语音特征序列是由序列维度、窗口维度、特征图维度组成的三维张量。
(4)训练深度神经网络:使用步骤(1)与(2)所得三维人脸动作序列和步骤(3)所得语音特征序列同时训练两个深度神经网络,分别称为解耦网络与语音动画网络;
所述解耦网络将三维人脸动作序列分解为内容特征序列和个性化风格特征两部分;
所述内容特征序列是由序列维度、特征图维度组成的二维张量,包含三维人脸动作中语音内容发音所需的必要动作信息;所述个性化风格特征是由特征图维度组成的一维张量,包含三维人脸动作中反应人物个性的风格信息;所述语音动画网络将所分解的个性化风格特征与语音特征序列结合,输出个性化三维人脸动作序列。
(5)获取目标人物个性化风格特征:对步骤(1)中所得的目标人物三维人脸动作序列,使用步骤(4)训练所得的解耦网络分解出目标人物的个性化风格特征。
(6)生成语音同步的个性化三维人脸动画:对输入的任意语音信号使用与步骤(3)中相同的方法提取语音特征序列;使用步骤(4)训练所得语音动画网络将所提取语音特征序列与步骤(5)所得目标人物的个性化风格特征结合,输出个性化三维人脸动作序列;所得三维人脸动作序列加上步骤(1)所得目标人物的三维人脸模型模板,得到个性化三维人脸动画;所述个性化三维人脸动画与输入的语音保持同步,并具有目标人物个性化的风格。
1.其中,所述步骤(4)包含如下子步骤:
(4.1)使用步骤(1)与步骤(2)中所得三维人脸动作序列训练一个深度神经网络:解耦网络;所述解耦网络由一个内容编码器、一个风格编码器、以及一个动作解码器组成。所述内容编码器对三维人脸动作序列中的每一帧首先进行三次螺旋卷积;
每次螺旋卷积操作之后进行顶点下采样,并使用负数倾斜率为0.2的带泄漏线性整流函数激活;随后将三次螺旋卷积之后的所有顶点特征连接成一维向量,再通过一个线性矩阵将其映射到内容特征;三维人脸动作序列中所有帧经过映射之后得到内容特征序列;所述内容特征序列是由序列维度、特征图维度组成的二维张量。所述风格编码器对三维人脸动作序列中的每一帧进行与前述内容编码器相同的三次螺旋卷积、顶点下采样、激活与后续线性映射操作,但使用不同的参数将每一帧映射到中间风格特征;三维人脸动作序列中所有帧映射到中间风格特征序列之后,用一个标准的长短时记忆单元循环地处理中间风格特征序列并得到个性化风格特征;所述个性化风格特征是由特征图维度组成的一维向量。所述动作解码器对内容编码器所得内容特征序列进行三次一维卷积,每次卷积之前,将风格编码器所得个性化风格特征与输入的每帧特征相连接,并且在序列前端以零特征向量填补以保证卷积之后的序列长度不变;每次卷积之后,使用负数倾斜率为0.2的带泄漏线性整流函数进行激活;再通过五层全连接层映射,输出个性化三维人脸动作序列。所述训练过程使用标准Adam优化器优化网络中的可训练参数,以最小化解耦目标函数;所述解耦目标函数包括:重构项,风格交换项,以及循环一致项;所述重构项利用内容编码器和风格编码器将步骤(1)与步骤(2)中所得三维人脸动作序列编码为内容特征序列和个性化风格特征,并使用原始数据监督动作解码器从内容特征序列和个性化风格特征解码输出的个性化三维人脸动作序列;所述风格交换项利用内容编码器和风格编码器将步骤(1)与步骤(2)
中所得三维人脸动作序列编码为内容特征序列和个性化风格特征,然后交换任意两个序列数据的个性化风格特征,使之与来源不同的内容特征序列结合并经过动作解码器输出个性化风格特征交换之后的个性化三维人脸动作序列,风格交换项对该输出进行监督;所述循环一致项对前述个性化风格特征交换之后的个性化三维人脸动作序列再次利用内容编码器和风格编码器编码并再次交换编码后的个性化风格特征,经过动作解码器输出两次个性化风格特征交换之后的个性化三维人脸动作序列,循环一致项对该输出进行监督。
(4.2)使用步骤(3)所得语音特征序列与步骤(4.1)中解耦网络所分解的个性化风格特征,训练另一个深度神经网络:语音动画网络,该步骤与步骤(4.1)同时进行。所述语音动画网络由一个语音编码器以及一个动作解码器组成。所述语音编码器对语音特征序列中的每一帧特征窗口,将整个窗口作为源,窗口中间帧作为询问,使用标准的变形器网络进行编码;对序列中所有帧进行编码得到编码后的语音特征序列;所述编码后的语音特征序列是由序列维度、特征图维度组成的二维张量。所述动作解码器对编码后的语音特征序列进行三次一维卷积,每次卷积之前,将步骤(4.1)所分解的个性化风格特征与输入的每帧特征相连接,并且在序列前端以零特征向量填补以保证卷积之后的序列长度不变;每次卷积之后,使用负数倾斜率为0.2的带泄漏线性整流函数进行激活;再通过五层全连接层映射,输出个性化三维人脸动作序列。该动作解码器与步骤(4.1)中的解耦网络中的动作解码器除输入之外完全相同,即步骤(4.1)中的解耦网络与该步骤中的语音动画网络共用同一个动作解码器。所述训练过程使用标准Adam优化器优化网络中的可训练参数,以最小化语音动画目标函数;所述语音动画目标函数包括:语音动画重构项,语音动画风格交换项,以及语音动画循环一致项;所述语音动画重构项计算方法与步骤(4.1)中的重构项相似,仅将解耦网络的输出替换为对应的语音动画网络输出;所述语音动画风格交换项计算方法与步骤(4.1)中的风格交换项相似,仅将解耦网络的输出替换为对应的语音动画网络输出;所述语音动画循环一致项计算方法与步骤(4.1)中的循环一致项相似,仅将解耦网络的输出替换为对应的语音动画网络输出。
本发明公开了一种语音信号驱动的个性化三维人脸动画生成方法:在给定目标人物一段一分钟左右正脸演讲视频的情况下,可以学习其个性化三维人脸动作风格,并对任意输入的语音信号生成语音同步的、具有该人物个性化风格的三维人脸动画;所生成动画质量达到当前最先进的语音信号驱动的个性化三维人脸动画技术水平。该方法主要分为六个步骤:处理目标人物视频数据、获取辅助人物数据、提取语音特征序列、训练深度神经网络、获取目标人物个性化风格特征、以及生成语音同步的个性化三维人脸动画。其中,步骤(2)获取辅助人物数据只需执行一次,并且在目标人物视频数据量较少的前提下(仅一分钟左右),辅助人物数据能够有效扩大数据量,有利于后续步骤(4)的执行。步骤(4)中训练一个解耦网络显式地将三维人脸动作序列分解为内容特征序列和个性化风格特征,使得步骤(5)中所获取的目标人物个性化风格特征能准确地反映目标人物的个性化风格信息而不受语音内容发音的影响;步骤(4)中训练的另一个语音动画网络能够结合个性化风格特征和语音特征序列,使得步骤(6)中所生成的个性化三维人脸动画既能准确反映目标人物个性化风格又能保持与输入语音的同步。
本发明可以用于不同场景下的语音信号驱动的个性化三维人脸动画生成任务,如VR虚拟社交、虚拟语音助手、以及游戏等。
附图说明
图1是本发明的方法流程示意图;
图2是本发明的方法中步骤(4)中子步骤(4.1)中重构项的计流程示意图;
图3是本发明的方法中步骤(4)中子步骤(4.1)中风格交换项的计流程示意图;
图4是本发明的方法中步骤(4)中子步骤(4.1)中循环一致项的计流程示意图;
图5是本发明实施实例中输入语音信号驱动不同目标人物个性化三维人脸动画生成的动画关键帧节选;其中,五个不同的目标人物以各自个性化地方式说出英文单词“climate”。
具体实施方式
本发明的核心技术训练一个深度神经网络(解耦网络)将三维人脸动作分解为内容特征序列和个性化风格特征,同时训练另一个深度神经网络(语音动画网络)将所分解的个性化风格特征与从语音信号提取的语音特征序列结合并输出语音同步的个性化三维人脸动作。如图1所示,该方法主要分为六个步骤:处理目标人物视频数据、获取辅助人物数据、提取语音特征序列、训练深度神经网络、获取目标人物个性化风格特征、以及生成语音同步的个性化三维人脸动画。
(1)处理目标人物视频数据:对目标人物的正脸演讲视频中的每一帧图像使用现有的三维可形变人脸模型技术(例如:FLAME,网址:https://flame.is.tue.mpg.de/,参考文献:Tianye Li,Timo Bolkart,Michael J Black,Hao Li and Javier Romero.
从四维扫描中学习人脸形状和表情。FLAME:Learning a model of facial shapeandexpression from 4D scans.ACM Trans.Graph.,36(6):194:1-194:17,2017)进行三维重建,并移除所有头部运动,得到目标人物的三维人脸模型模板I0以及三维人脸动作序列
Figure SMS_1
0为目标人物编号,n表示序列中的帧序号集合{1,2,…,|n|},/>
Figure SMS_2
表示序列中的第t帧人脸动作,即相较于模型模板的顶点偏移;其中,I0和/>
Figure SMS_3
是形状为V×3的张量,/>
Figure SMS_4
是形状为|n|×V×3的张量,|n|表示序列长度,V表示三维人脸模型顶点数量,3表示三维空间。同时,从目标人物的视频中分离出语音的音频信号X0
(2)获取辅助人物数据:从现有的公开的语音同步三维人脸动画数据库(例如:VOCASET,网址:https://voca.is.tue.mpg.de/,参考文献:Daniel Cudeiro,TimoBolkart,Cassidy Laidlaw,Anurag Ranjan,and Michael Black.采集、学习与合成三维演讲风格,Capture,learning,and synthesis of 3D speaking styles.ComputerVisionand Pattern Recognition(CVPR),pages 10101-10111,2019.)中获取辅助人物数据。数据库中的每个辅助人物的数据包括三维人脸模型模板Iu、三维人脸动作序列
Figure SMS_5
以及同步的语音信号Xu;其中,u为该数据对应人物的编号,m表示序列中的帧序号集合{1,2,…,|m|},/>
Figure SMS_6
表示序列中的第t帧人脸动作,Iu和/>
Figure SMS_7
是形状为V×3的张量,/>
Figure SMS_8
是形状为|m|×V×3的张量,|m|表示序列长度,V表示三维人脸模型顶点数量,3表示三维空间。所述语音同步三维人脸动画数据库不包含目标人物的三维数据,即满足u>0,并且其数据的三维人脸模型的拓扑结构与步骤(1)中所使用的三维人脸模型的拓扑结构一致。
(3)提取语音特征序列:对步骤(1)与步骤(2)中所得语音信号Xi,使用现有语音识别技术(例如DeepSpeech,网址:https://github.com/mozilla/DeepSpeech,参考文献:Awni Hannun,Carl Case,Jared Casper,Bryan Catanzaro,Greg Diamos,Erich Elsen,Ryan Prenger,Sanjeev Satheesh,Shubho Sengupta,Adam Coates,AndrewY.Ng.DeepSpeech:扩大规模的端到端语音识别。DeepSpeech:Scaling up end-to-endspeech recognition[J].arXiv preprint arXiv:1412.5567,2014.)
提取中间特征xi,其是形状为|i|×Cx的张量,再对其进行分窗操作得到语音特征序列Wi={wt}t∈i,其是形状为|i|×W×Cx的张量;其中,i≥0为包括目标人物和辅助人物的人物编号,i表示序列中的帧序号集合{1,2,…,|i|},wt表示第t帧语音特征,|i|表示序列长度,与对应的三维人脸动作序列长度一致,W表示每一帧特征的窗口长度,Cx表示特征图数量;所述分窗操作对xi序列上的每一帧取其前后各
Figure SMS_9
帧作为一个窗口,超出序列范围的部分取零填补。
(4)训练深度神经网络:使用步骤(1)与步骤(2)所得三维人脸动作序列和步骤(3)所得语音特征序列同时训练两个深度神经网络,分别称为解耦网络与语音动画网络。包含以下子步骤:
(4.1)训练解耦网络:使用步骤(1)与步骤(2)中所得三维人脸动作序列
Figure SMS_10
训练一个深度神经网络,称为解耦网络;其中,k≥0表示包括目标人物和辅助人物的人物编号,i表示序列中的帧序号集合{1,2,…,|i|},/>
Figure SMS_11
为序列中第t帧三维人脸动作;所述解耦网络由一个内容编码器EC、一个风格编码器ES、以及一个动作解码器D组成,其运算过程定义如下:
Figure SMS_12
其中,Ci为编码
Figure SMS_13
所得内容特征序列,sk为编码/>
Figure SMS_14
所得个性化风格特征,/>
Figure SMS_15
为结合sk和Ci并解码之后生成的个性化三维人脸动作序列。
所述内容编码器EC对三维人脸动作序列
Figure SMS_16
中的第t帧/>
Figure SMS_17
首先进行三次螺旋卷积(SpiralConv);每次螺旋卷积操作之后进行顶点下采样,并使用负数倾斜率为0.2的带泄漏线性整流(Leaky ReLU)函数进行激活;随后,将卷积所得的所有顶点特征连接成一维向量,再通过一个可训练的线性矩阵将其映射到第t帧内容特征ct;三维人脸动作序列中所有帧映射之后得到内容特征序列Ci={ct}t∈i;所述内容特征序列Ci是形状为|i|×Cc的张量,|i|表示序列长度,Cc表示特征图数量。所述螺旋卷积定义在输入的顶点维度上,其形式如下:
Figure SMS_18
其中,vj表示输入螺旋卷积的第j个顶点的特征,是形状为C的向量,C表示特征数量;
Figure SMS_19
表示对第i个顶点预定义的L个邻接顶点的集合,/>
Figure SMS_20
表示将输入的第i个顶点的邻接顶点集合中所有顶点的特征连接成形状为LC的一维向量,γ为可训练的线性映射,/>
Figure SMS_21
表示螺旋卷积输出的第i个顶点的特征。所述预定义的邻接顶点集合是在三维人脸模型模板上预计算所得,对模型模板上的第i个顶点取其自身与拓扑结构周围环上的共L个顶点。所述顶点下采样定义在顶点维度上,其形式如下:
V*=MdV+ (3)
其中,
Figure SMS_22
为螺旋卷积输出的所有顶点,下标中N为螺旋卷积输出的顶点数量;Md是下采样矩阵,在三维人脸模型模板上预计算所得;V*是下采样之后的结果,其顶点数量为V+的/>
Figure SMS_23
所述风格编码器ES对三维人脸动作序列
Figure SMS_24
中的第t帧/>
Figure SMS_25
首先进行三次螺旋卷积(SpiralConv);每次螺旋卷积操作之后进行顶点下采样,并使用负数倾斜率为0.2的带泄漏线性整流(Leaky ReLU)函数进行激活;随后,将卷积所得的所有顶点特征连接成一维向量,再通过一个可训练的线性矩阵将其映射到第t帧中间风格特征/>
Figure SMS_26
三维人脸动作序列中所有帧映射为中间风格特征之后,再使用一个长短时记忆单元循环地处理中间风格特征序列
Figure SMS_27
得到个性化风格特征sk;所述个性化风格特征sk是形状为Cs的向量,Cs为特征图数量。所述螺旋卷积以及顶点下采样与内容编码器中的方法一致,但使用不同的参数。所述长短时记忆单元具有一个存储历史信息的状态器和三个门:输入门it作用于第t帧中间风格特征/>
Figure SMS_28
与记忆单元第t-1帧输出ht-1,表示是否允许新的中间风格特征信息加入到记忆单元的状态器中,数值为0到1,如果输入门数值为1,即开门,则加入新信息,如果为0,即关门,则加入零向量,如果为0到1中间数值则将新信息乘以门数值再加入;遗忘门ft作用于记忆单元的状态器,表示是否保留状态器存储的第t-1帧历史信息St-1,数值为0到1,如果遗忘门数值为1,即开门,则保留存储的信息,如果为0,即关门,则重置存储信息为零向量,如果为0到1中间数值则将存储信息乘以门数值再保留;输出门ot作用于记忆单元的状态器,表示是否将记忆单元当前第t帧状态St作为输出,数值为0到1,如果为1,即开门,则当前记忆单元的状态作为输出,如果为0,即关门,则输出零向量,如果为0到1中间数值则将当前记忆单元的状态乘以门数值再作为输出;三个门的具体数值由当前第t帧输入/>
Figure SMS_29
与该记忆单元第t-1帧的输出ht-1连接、投影得到,其具体公式如下:
Figure SMS_30
其中,
Figure SMS_31
为当前第t帧输入的中间风格特征,ht-1为记忆单元第t-1帧的输出,
Figure SMS_32
表示将/>
Figure SMS_33
和ht-1的特征图相连接;it为输入门数值,Wi、bi分别为输入门的权重与偏置;ft为输入门数值,Wf、bf分别为遗忘门的权重与偏置;ot为输入门数值,Wo、bo分别为输出门的权重与偏置;/>
Figure SMS_34
为对当前帧输入和上一帧输出的投影,Wx、bx分别为投影的权重与偏置;St-1、St分别为第t-1帧与当前第t帧的记忆单元状态器的状态;ht为第t帧记忆单元的输出;Wi,Wf,Wo,Wx均为形状为Cs×Cs的矩阵,bi,bf,bo,bx均为形状为Cs的向量,Wi,Wf,Wo,Wx,bi,bf,bo,bx均为可训练的参数。
所述动作解码器D对前述步骤所得内容特征序列Ci={ct}t∈i进行三次一维卷积,每次卷积之前,将前述步骤所得个性化风格特征sk与输入的每帧特征相连接,并且在序列前端以零特征向量填补以保证卷积之后的序列长度不变;每次卷积之后,使用负数倾斜率为0.2的带泄漏线性整流函数进行激活;对三层卷积之后的序列中的第t帧,再通过五层全连接层映射,生成第t帧三维人脸动作
Figure SMS_35
最终输出三维人脸动作序列为/>
Figure SMS_36
所述训练过程使用标准Adam优化器优化网络中的可训练参数,以最小化解耦目标函数Ldecomp。所述解耦目标函数Ldecomp包括:重构项Lrec,风格交换项Lswp,以及循环一致项Lcyc
Ldecomp=λrecLrecswpLswpcycLcyc. (5)
其中,λrecswpcyc分别为相应的权重。
所述重构项计算流程如图2所示,其定义如下:
Figure SMS_37
其中,Lseq是对三维人脸动作序列定义的监督损失函数,其定义如下:
Figure SMS_38
上式中的标记忽略人物编号;其中,yt为监督数据序列Yi中的第t帧,
Figure SMS_39
为生成动作序列/>
Figure SMS_40
中的第t帧;/>
Figure SMS_41
计算生成动作第t帧与监督数据第t帧之间的l2距离,以监督所生成动作的准确性;/>
Figure SMS_42
计算生成动作第t-1帧与第t帧之间变化幅度与监督数据第t-1帧与第t帧之间变化幅度的l2距离,以监督所生成动作的平滑性;/>
Figure SMS_43
计算生成动作第t帧唇部张开高度与监督数据第t帧唇部张开高度的l2距离,以监督所生成动作有准确的唇部动作;其中LipH·根据预先选定的唇部顶点计算在y轴上的平均高度差,以近似唇部张开的高度;λm和λl为相应的权重。
所述风格交换项的计算流程如图3所示,其计算方法定义在一对三维人脸动作序列上:
Figure SMS_44
其中,p≥0,q≥0表示包括目标人物和辅助人物的人物编号,i,j表示对应序列中的帧序号集合。对于这样两个序列,使用内容编码器和风格编码器分别编码:
Figure SMS_45
再将两个序列所得个性化风格特征sp与sq相交换,与另一个序列的内容特征序列相结合并生成交换个性化风格特征之后的三维人脸动作序列
Figure SMS_46
Figure SMS_47
对于交换个性化风格特征之后的三维人脸动作序列计算所述风格交换项Lswp,需考虑两种情况:
Figure SMS_48
其中,第一种情况为p=q,即两段三维人脸动作序列来自于同一个人物,则直接使用输入的序列作为监督数据,计算损失函数。第二种情况为p≠q,即两段三维人脸动作序列来自于不同人物,对于这种情况,只有部分序列对
Figure SMS_51
满足可以计算的要求:人物p在/>
Figure SMS_52
中所说的语言内容也必须被人物q说过,即存在/>
Figure SMS_55
且该序列中所说的语言内容与序列/>
Figure SMS_50
相同;然而i的序列长度可能与i不同,通过标准的动态时间规整算法将/>
Figure SMS_54
对齐到序列/>
Figure SMS_57
上,对齐后的序列标记为/>
Figure SMS_58
被用于监督/>
Figure SMS_49
相似地,使用对齐的序列/>
Figure SMS_53
监督/>
Figure SMS_56
对于所述第二种情况,仅在满足要求的情况下计算。
所述循环一致项的计算流程如图4所示,对前述交换个性化风格特征之后生成的三维人脸动作序列
Figure SMS_59
再次使用内容编码器和风格编码器分别编码,并再次交换编码所得个性化风格特征sq′与sp′,与另一个序列的内容特征序列相结合并生成两次交换个性化风格特征之后的三维人脸动作序列/>
Figure SMS_60
Figure SMS_61
Figure SMS_62
经过两次交换之后,个性化风格特征与原始匹配的内容特征序列相结合,因此其输出应该恢复原始的输入序列;循环一致项Lcyc使用原始的输入序列进行监督:
Figure SMS_63
(4.2)训练语音动画网络:使用步骤(3)所得语音特征序列Wi={wt}t∈i与步骤(4.1)中解耦网络所分解的个性化风格特征sk,训练另一个深度神经网络,称为语音动画网络;其中,Wi与前述三维人脸动作序列
Figure SMS_64
同步,并拥有相同序列长度与帧编号。所述语音动画网络由一个语音编码器EA以及一个动作解码器D组成:
Figure SMS_65
其中,Ai为编码Wi后的语音特征序列,
Figure SMS_66
为结合sk与Ai并解码输出的个性化三维人脸动作序列。
所述语音编码器EA对语音特征序列Wi={wt}t∈i中的第t帧特征窗口wt,将整个窗口作为源(Source),窗口中间帧作为询问(Query),使用标准的变形器网络(TransformerNetwork)进行编码,得到第t帧编码后的语音特征at;对整个序列重复操作得到编码后的语音特征序列Ai={at}t∈i;所述编码后的语音特征序列Ai是形状为|i|×Ca的二维张量,|i|表示序列长度,Ca表示特征图数量。
所述动作解码器D对编码后的语音特征序列Ai={at}t∈i进行三次一维卷积,每次卷积之前,将步骤(4.1)所得个性化风格特征sk与输入的每帧特征相连接,并且在序列前端以零特征向量填补以保证卷积之后的序列长度不变;每次卷积之后,使用负数倾斜率为0.2的带泄漏线性整流函数进行激活;对三层卷积之后的序列中的第t帧,再通过五层全连接层映射,生成第t帧三维人脸动作
Figure SMS_67
最终输出三维人脸动作序列为/>
Figure SMS_68
该动作解码器与步骤(4.1)中的解耦网络中的动作解码器除输入之外完全相同,即步骤(4.1)中的解耦网络与该步骤中的语音动画网络共用同一个动作解码器。
所述训练过程使用标准Adam优化器优化网络中的可训练参数,以最小化语音动画目标函数Lanome。所述语音动画目标函数与步骤(4.1)中所述解耦目标函数相似,由三个相似的项目构成:语音动画重构项
Figure SMS_69
语音动画风格交换项/>
Figure SMS_70
语音动画循环一致项/>
Figure SMS_71
将式(6)中的/>
Figure SMS_72
替换成语音动画网络生成的/>
Figure SMS_73
得到语音动画重构项/>
Figure SMS_74
Figure SMS_75
将与式(8)中
Figure SMS_76
分别同步的语音特征Wi,Wj,经过编码得到Ai,Aj之后,分别与来自式(8)交换之后的个性化风格特征sq与sp结合并解码得到/>
Figure SMS_77
Figure SMS_78
再用与式(10)相同的方法计算语音动画风格交换项
Figure SMS_79
Figure SMS_80
将Ai,Aj分别与来自式(11)两次交换之后的个性化风格特征sp′与sq′结合并解码得到
Figure SMS_81
Figure SMS_82
再用与式(12)相同的方法计算语音动画循环一致项
Figure SMS_83
Figure SMS_84
所述语音动画目标函数Lanime表示为三项加权和:
Figure SMS_85
其中,
Figure SMS_86
为各项相应的权重。所述训练过程与步骤(4.1)中的训练过程同步进行,即Ldecomp与Lanime组成联合目标函数Ljoint
Ljoint=Ldecomp+Lanime. (20)
(5)获取目标人物个性化风格特征:对步骤(1)中所得的目标人物三维人脸动作序列
Figure SMS_87
使用步骤(4)训练所得的解耦网络分解出目标人物的个性化风格特征s0
(6)生成语音同步的个性化三维人脸动画:对任意的语音信号使用与步骤(3)中相同的方法提取语音特征序列;使用步骤(4)训练所得语音动画网络将所提取语音特征序列与步骤(5)所得目标人物的个性化风格特征s0结合,输出个性化三维人脸动作序列;所得个性化三维人脸动作序列加上步骤(1)中所得目标人物的三维人脸模型模板I0,得到个性化三维人脸动画;所述个性化三维人脸动画与输入的语音保持同步,并具有目标人物个性化的风格。
实施实例
训练实例:发明人在一台配备Intel Core i7-8700K中央处理器(3.70GHz),NVIDIA GTX1080Ti图形处理器(显存11GB)的计算机上实施本发明的实例。实施过程中,步骤(1)中的目标人物视频来源于互联网络与个人拍摄;步骤(2)中辅助人物数据来源于公开数据库VOCASET(Daniel Cudeiro,Timo Bolkart,Cassidy Laidlaw,Anurag Ranjan,andMichael Black.Capture,learning,and synthesis of 3D speaking styles.ComputerVision and Pattern Recognition(CVPR),pages 10101–10111,2019.)。
模型参数:发明人在实施本发明的实例时,步骤(1)到(4)所涉及的参数如下:
(1)处理目标人物视频数据:使用的现有三维可形变人脸模型技术为FLAME(网址:
https://flame.is.tue.mpg.de/,参考文献:Tianye Li,Timo Bolkart,Michael
J Black,Hao Li and Javier Romero.从四维扫描中学习人脸形状和表情。FLAME:
Learning a model of facial shape and expression from 4D scans.ACMTrans.
Graph.,36(6):194:1-194:17,2017);模型中顶点数量V=5023。
(2)获取辅助人物数据:使用现有的公开的语音同步三维人脸动画数据库VOCASET
(网址:https://voca.is.tue.mpg.de/,参考文献:Daniel Cudeiro,TimoBolkart,
Cassidy Laidlaw,Anurag Ranjan,and Michael Black.采集、学习与合成三维演讲风格。Capture,learning,and synthesis of 3D speaking styles.ComputerVisionand Pattern Recognition(CVPR),pages 10101-10111,2019.)。
(3)提取语音特征序列:使用的现有语音识别技术为DeepSpeech(网址:
https://github.com/mozilla/DeepSpeech,参考文献:Awni Hannun,Carl Case,
Jared Casper,Bryan Catanzaro,Greg Diamos,Erich Elsen,Ryan Prenger,
Sanjeev Satheesh,Shubho Sengupta,Adam Coates,Andrew Y.Ng.DeepSpeech:
扩大规模的端到端语音识别。DeepSpeech:Scaling up end-to-endspeechrecognition[J].arXiv preprint arXiv:1412.5567,2014.);语音特征窗口大小W=16,特征图数量Cx=29;使用的标准变形器网络(Transformer Network)
模型维度为64,注意力头数量为4,编码层数为3,解码层数为1。
(4)训练深度神经网络:螺旋卷积使用L=12个邻接顶点,三层螺旋卷积的特征图数量分别为16、32、32;螺旋卷积中的邻接顶点集合预定义、下采样矩阵的预计算使用现有技术(网址:https://github.com/sw-gong/spiralnet_plus,参考文献:Shunwang Gong,Lei Chen,Michael Bronstein,Stefanos Zafeiriou.SpiralNet++:一种快速高效的网格卷积算子。SpiralNet++:A Fast and Highly Efficient Mesh ConvolutionOperator.Proceedings of the IEEE/CVF International Conference on ComputerVision Workshops.2019);内容特征序列的特征图数量Cc=64;个性化风格特征的特征图数量Cs=32;编码后的语音特征序列的特征图数量Ca=64;动作解码器中的三层一维卷积核大小分为别5、3、3,特征图数量分别为64、128、256;式(5)中的权重为λrec=1,λswp=3,λcyc=1;式(7)中的权重为λm=5,λl=1;式(19)中的权重为
Figure SMS_88
Adam优化器的学习率为0.0001。
动画节选:发明人实施本发明实例,用语音信号驱动个性化三维人脸动画的生成。如图5所示的生成结果的关键帧节选,五个不同目标人物分别个性化地说出英文单词“climate”(关键帧依次对应音节/k/,/aI/,与/m/)。

Claims (5)

1.一种语音信号驱动的个性化三维人脸动画生成方法,其特征在于,对于目标人物的正脸演讲视频重建三维人脸动作序列,并从视频的语音信号中提取语音特征序列;通过一个解耦网络将所重建的三维人脸动作序列分解为内容特征序列和个性化风格特征两部分,其中内容特征序列包含三维人脸动作中语音内容发音所需的必要动作信息,个性化风格特征包含三维人脸动作中反应人物个性的风格信息;同时通过另一个语音动画网络将所分解的个性化风格特征与所提取的语音特征序列相结合,生成个性化三维人脸动画。
2.根据权利要求1所述的语音信号驱动的个性化三维人脸动画生成方法,其特征在于:包括以下步骤:
(1)处理目标人物视频数据:对所给目标人物的正脸演讲视频中的每一帧画面使用现有三维可形变人脸模型技术进行三维重建,并移除头部运动,得到目标人物的三维人脸模型模板以及三维人脸动作序列;所述模型模板是由顶点维度、空间维度组成的二维张量;所述三维人脸动作序列是相对于模型模板的顶点偏移序列,是由序列维度、顶点维度、空间维度组成的三维张量;对所给视频提取语音信号;
(2)获取辅助人物数据:从现有的公开的语音同步三维人脸动画数据库中获取辅助人物数据,其中每个辅助人物的数据包括三维人脸模型模板、三维人脸动作序列、以及同步的语音信号;所述语音同步三维人脸动画数据库不包含目标人物的三维数据;
(3)提取语音特征序列:对步骤(1)与步骤(2)中所得语音信号,使用现有语音识别技术提取语音特征序列;所述语音特征序列是由序列维度、窗口维度、特征图维度组成的三维张量;
(4)训练深度神经网络:使用步骤(1)与(2)所得三维人脸动作序列和步骤(3)所得语音特征序列同时训练两个深度神经网络,分别称为解耦网络与语音动画网络;
所述解耦网络将三维人脸动作序列分解为内容特征序列和个性化风格特征两部分;
所述内容特征序列是由序列维度、特征图维度组成的二维张量,包含三维人脸动作中语音内容发音所需的必要动作信息;所述个性化风格特征是由特征图维度组成的一维张量,包含三维人脸动作中反应人物个性的风格信息;所述语音动画网络将所分解的个性化风格特征与语音特征序列结合,输出个性化三维人脸动作序列;
(5)获取目标人物个性化风格特征:对步骤(1)中所得的目标人物三维人脸动作序列,使用步骤(4)训练所得的解耦网络分解出目标人物的个性化风格特征;
(6)生成语音同步的个性化三维人脸动画:对输入的任意语音信号使用与步骤(3)中相同的方法提取语音特征序列;使用步骤(4)训练所得语音动画网络将所提取语音特征序列与步骤(5)所得目标人物的个性化风格特征结合,输出个性化三维人脸动作序列;所得三维人脸动作序列加上步骤(1)所得目标人物的三维人脸模型模板,得到个性化三维人脸动画;所述个性化三维人脸动画与输入的语音保持同步,
并具有目标人物个性化的风格。
3.根据权利要求2所述的语音信号驱动的个性化三维人脸动画生成方法,其特征在于,所述步骤(4)包含如下子步骤:
(4.1)使用步骤(1)与步骤(2)中所得三维人脸动作序列训练一个深度神经网络:解耦网络;所述解耦网络由一个内容编码器、一个风格编码器、以及一个动作解码器组成;所述内容编码器对三维人脸动作序列中的每一帧首先进行三次螺旋卷积;每次螺旋卷积操作之后进行顶点下采样,并使用负数倾斜率为0.2的带泄漏线性整流函数激活;随后将三次螺旋卷积之后的所有顶点特征连接成一维向量,再通过一个线性矩阵将其映射到内容特征;三维人脸动作序列中所有帧经过映射之后得到内容特征序列;所述内容特征序列是由序列维度、特征图维度组成的二维张量;所述风格编码器对三维人脸动作序列中的每一帧进行与前述内容编码器相同的三次螺旋卷积、顶点下采样、激活与后续线性映射操作,但使用不同的参数将每一帧映射到中间风格特征;三维人脸动作序列中所有帧映射到中间风格特征序列之后,用一个标准的长短时记忆单元循环地处理中间风格特征序列并得到个性化风格特征;所述个性化风格特征是由特征图维度组成的一维向量。所述动作解码器对内容编码器所得内容特征序列进行三次一维卷积,每次卷积之前,将风格编码器所得个性化风格特征与输入的每帧特征相连接,并且在序列前端以零特征向量填补以保证卷积之后的序列长度不变;每次卷积之后,使用负数倾斜率为0.2的带泄漏线性整流函数进行激活;再通过五层全连接层映射,输出个性化三维人脸动作序列。所述训练过程使用标准Adam优化器优化网络中的可训练参数,以最小化解耦目标函数;所述解耦目标函数包括:重构项,风格交换项,以及循环一致项;所述重构项利用内容编码器和风格编码器将步骤(1)与步骤(2)中所得三维人脸动作序列编码为内容特征序列和个性化风格特征,并使用原始数据监督动作解码器从内容特征序列和个性化风格特征解码输出的个性化三维人脸动作序列;所述风格交换项利用内容编码器和风格编码器将步骤(1)与步骤(2)
中所得三维人脸动作序列编码为内容特征序列和个性化风格特征,然后交换任意两个序列数据的个性化风格特征,使之与来源不同的内容特征序列结合并经过动作解码器输出个性化风格特征交换之后的个性化三维人脸动作序列,风格交换项对该输出进行监督;所述循环一致项对前述个性化风格特征交换之后的个性化三维人脸动作序列再次利用内容编码器和风格编码器编码并再次交换编码后的个性化风格特征,经过动作解码器输出两次个性化风格特征交换之后的个性化三维人脸动作序列,循环一致项对该输出进行监督。
(4.2)使用步骤(3)所得语音特征序列与步骤(4.1)中解耦网络所分解的个性化风格特征,训练另一个深度神经网络:语音动画网络,该步骤与步骤(4.1)同时进行。所述语音动画网络由一个语音编码器以及一个动作解码器组成。所述语音编码器对语音特征序列中的每一帧特征窗口,将整个窗口作为源,窗口中间帧作为询问,使用标准的变形器网络进行编码;对序列中所有帧进行编码得到编码后的语音特征序列;所述编码后的语音特征序列是由序列维度、特征图维度组成的二维张量。所述动作解码器对编码后的语音特征序列进行三次一维卷积,每次卷积之前,将步骤(4.1)所分解的个性化风格特征与输入的每帧特征相连接,并且在序列前端以零特征向量填补以保证卷积之后的序列长度不变;每次卷积之后,使用负数倾斜率为0.2的带泄漏线性整流函数进行激活;再通过五层全连接层映射,输出个性化三维人脸动作序列。该动作解码器与步骤(4.1)中的解耦网络中的动作解码器除输入之外完全相同,即步骤(4.1)中的解耦网络与该步骤中的语音动画网络共用同一个动作解码器。所述训练过程使用标准Adam优化器优化网络中的可训练参数,以最小化语音动画目标函数;所述语音动画目标函数包括:语音动画重构项,语音动画风格交换项,以及语音动画循环一致项;所述语音动画重构项计算方法与步骤(4.1)中的重构项相似,仅将解耦网络的输出替换为对应的语音动画网络输出;所述语音动画风格交换项计算方法与步骤(4.1)中的风格交换项相似,仅将解耦网络的输出替换为对应的语音动画网络输出;所述语音动画循环一致项计算方法与步骤(4.1)中的循环一致项相似,仅将解耦网络的输出替换为对应的语音动画网络输出。
4.根据权利要求2所述的语音信号驱动的个性化三维人脸动画生成方法,其特征在于:具体步骤如下:
(1)处理目标人物视频数据:对目标人物的正脸演讲视频中的每一帧图像使用现有的三维可形变人脸模型技术,进行三维重建,并移除所有头部运动,得到目标人物的三维人脸模型模板I0以及三维人脸动作序列
Figure FDA0004002386110000031
0为目标人物编号,n表示序列中的帧序号集合{1,2,...,|n|},/>
Figure FDA0004002386110000041
表示序列中的第t帧人脸动作,即相较于模型模板的顶点偏移;其中,I0和/>
Figure FDA0004002386110000042
是形状为V×3的张量,/>
Figure FDA0004002386110000043
是形状为|n|×V×3的张量,|n|表示序列长度,V表示三维人脸模型顶点数量,3表示三维空间;同时,从目标人物的视频中分离出语音的音频信号X0
(2)获取辅助人物数据:从现有的公开的语音同步三维人脸动画数据库,获取辅助人物数据;数据库中的每个辅助人物的数据包括三维人脸模型模板Iu、三维人脸动作序列
Figure FDA0004002386110000044
以及同步的语音信号Xu;其中,u为该数据对应人物的编号,m表示序列中的帧序号集合{1,2,...,|m|},/>
Figure FDA0004002386110000045
表示序列中的第t帧人脸动作,Iu和/>
Figure FDA0004002386110000046
是形状为V×3的张量,
Figure FDA0004002386110000047
是形状为|m|×V×3的张量,|m|表示序列长度,V表示三维人脸模型顶点数量,3表示三维空间;所述语音同步三维人脸动画数据库不包含目标人物的三维数据,即满足u>0,并且其数据的三维人脸模型的拓扑结构与步骤(1)中所使用的三维人脸模型的拓扑结构一致;
(3)提取语音特征序列:对步骤(1)与步骤(2)中所得语音信号Xi使用现有语音识别技术,提取中间特征xi,其是形状为|i|×Cx的张量,再对其进行分窗操作得到语音特征序列Wi={wt}t∈i,其是形状为|i|×W×Cx的张量;其中,i≥0为包括目标人物和辅助人物的人物编号,i表示序列中的帧序号集合{1,2,...,|i|},wt表示第t帧语音特征,|i|表示序列长度,与对应的三维人脸动作序列长度一致,W表示每一帧特征的窗口长度,Cx表示特征图数量;所述分窗操作对xi序列上的每一帧取其前后各
Figure FDA0004002386110000048
帧作为一个窗口,超出序列范围的部分取零填补;
(4)训练深度神经网络:使用步骤(1)与步骤(2)所得三维人脸动作序列和步骤(3)所得语音特征序列同时训练两个深度神经网络,分别称为解耦网络与语音动画网络;包含以下子步骤:
(4.1)训练解耦网络:使用步骤(1)与步骤(2)中所得三维人脸动作序列
Figure FDA0004002386110000049
训练一个深度神经网络,称为解耦网络;其中,k≥0表示包括目标人物和辅助人物的人物编号,i表示序列中的帧序号集合{1,2,...,|i|},/>
Figure FDA00040023861100000410
为序列中第t帧三维人脸动作;所述解耦网络由一个内容编码器EC、一个风格编码器ES、以及一个动作解码器D组成,其运算过程定义如下:
Figure FDA00040023861100000411
其中,Ci为编码
Figure FDA0004002386110000051
所得内容特征序列,sk为编码/>
Figure FDA0004002386110000052
所得个性化风格特征,/>
Figure FDA0004002386110000053
为结合sk和Ci并解码之后生成的个性化三维人脸动作序列;
所述内容编码器EC对三维人脸动作序列
Figure FDA0004002386110000054
中的第t帧/>
Figure FDA0004002386110000055
首先进行三次螺旋卷积;每次螺旋卷积操作之后进行顶点下采样,并使用负数倾斜率为0.2的带泄漏线性整流函数进行激活;随后,将卷积所得的所有顶点特征连接成一维向量,再通过一个可训练的线性矩阵将其映射到第t帧内容特征ct;三维人脸动作序列中所有帧映射之后得到内容特征序列Ci={ct}t∈i;所述内容特征序列Ci是形状为|i|×Cc的张量,|i|表示序列长度,Cc表示特征图数量;所述螺旋卷积定义在输入的顶点维度上,其形式如下:
Figure FDA0004002386110000056
其中,vj表示输入螺旋卷积的第j个顶点的特征,是形状为C的向量,C表示特征数量;
Figure FDA0004002386110000057
表示对第i个顶点预定义的L个邻接顶点的集合,/>
Figure FDA0004002386110000058
表示将输入的第i个顶点的邻接顶点集合中所有顶点的特征连接成形状为LC的一维向量,γ为可训练的线性映射,
Figure FDA0004002386110000059
表示螺旋卷积输出的第i个顶点的特征;所述预定义的邻接顶点集合是在三维人脸模型模板上预计算所得,对模型模板上的第i个顶点取其自身与拓扑结构周围环上的共L个顶点;所述顶点下采样定义在顶点维度上,其形式如下:
V*=MdV+ (3)
其中,
Figure FDA00040023861100000510
为螺旋卷积输出的所有顶点,下标中N为螺旋卷积输出的顶点数量;Md是下采样矩阵,在三维人脸模型模板上预计算所得;V*是下采样之后的结果,其顶点数量为V+的/>
Figure FDA00040023861100000511
所述风格编码器ES对三维人脸动作序列
Figure FDA00040023861100000512
中的第t帧/>
Figure FDA00040023861100000513
首先进行三次螺旋卷积;每次螺旋卷积操作之后进行顶点下采样,并使用负数倾斜率为0.2的带泄漏线性整流函数进行激活;随后,将卷积所得的所有顶点特征连接成一维向量,再通过一个可训练的线性矩阵将其映射到第t帧中间风格特征/>
Figure FDA00040023861100000514
三维人脸动作序列中所有帧映射为中间风格特征之后,再使用一个长短时记忆单元循环地处理中间风格特征序列/>
Figure FDA00040023861100000515
得到个性化风格特征sk;所述个性化风格特征sk是形状为Cs的向量,Cs为特征图数量;所述螺旋卷积以及顶点下采样与内容编码器中的方法一致,但使用不同的参数;所述长短时记忆单元具有一个存储历史信息的状态器和三个门:输入门it作用于第t帧中间风格特征/>
Figure FDA0004002386110000061
与记忆单元第t-1帧输出ht-1,表示是否允许新的中间风格特征信息加入到记忆单元的状态器中,数值为0到1,如果输入门数值为1,即开门,则加入新信息,如果为0,即关门,则加入零向量,如果为0到1中间数值则将新信息乘以门数值再加入;遗忘门ft作用于记忆单元的状态器,表示是否保留状态器存储的第t-1帧历史信息St-1,数值为0到1,如果遗忘门数值为1,即开门,则保留存储的信息,如果为0,即关门,则重置存储信息为零向量,如果为0到1中间数值则将存储信息乘以门数值再保留;输出门ot作用于记忆单元的状态器,表示是否将记忆单元当前第t帧状态St作为输出,数值为0到1,如果为1,即开门,则当前记忆单元的状态作为输出,如果为0,即关门,则输出零向量,如果为0到1中间数值则将当前记忆单元的状态乘以门数值再作为输出;三个门的具体数值由当前第t帧输入/>
Figure FDA0004002386110000062
与该记忆单元第t-1帧的输出ht-1连接、投影得到,其具体公式如下:
Figure FDA0004002386110000063
其中,
Figure FDA0004002386110000064
为当前第t帧输入的中间风格特征,ht-1为记忆单元第t-1帧的输出,/>
Figure FDA0004002386110000065
表示将/>
Figure FDA0004002386110000066
和ht-1的特征图相连接;it为输入门数值,Wi、bi分别为输入门的权重与偏置;ft为输入门数值,Wf、bf分别为遗忘门的权重与偏置;ot为输入门数值,Wo、no分别为输出门的权重与偏置;/>
Figure FDA0004002386110000067
为对当前帧输入和上一帧输出的投影,Wx、bx分别为投影的权重与偏置;St-1、St分别为第t-1帧与当前第t帧的记忆单元状态器的状态;ht为第t帧记忆单元的输出;Wi,Wf,Wo,Wx均为形状为Cs×Cs的矩阵,bi,bf,bo,bx均为形状为Cs的向量,Wi,Wf,Wo,Wx,bi,bf,bo,bx均为可训练的参数;
所述动作解码器D对前述步骤所得内容特征序列Ci={ct}t∈i进行三次一维卷积,每次卷积之前,将前述步骤所得个性化风格特征sk与输入的每帧特征相连接,并且在序列前端以零特征向量填补以保证卷积之后的序列长度不变;每次卷积之后,使用负数倾斜率为0.2的带泄漏线性整流函数进行激活;对三层卷积之后的序列中的第t帧,再通过五层全连接层映射,生成第t帧三维人脸动作
Figure FDA0004002386110000071
最终输出三维人脸动作序列为/>
Figure FDA0004002386110000072
所述训练过程使用标准Adam优化器优化网络中的可训练参数,以最小化解耦目标函数Ldecomp;所述解耦目标函数Ldecomp包括:重构项Lrec,风格交换项Lswp,以及循环一致项Lcyc
Ldecomp=λrecLrecswpLswpcycLcyc. (5)
其中,λrec,λswp,λcyc分别为相应的权重;
所述重构项定义如下:
Figure FDA0004002386110000073
其中,Lseq是对三维人脸动作序列定义的监督损失函数,其定义如下:
Figure FDA0004002386110000074
上式中的标记忽略人物编号;其中,yt为监督数据序列Yi中的第t帧,
Figure FDA0004002386110000075
为生成动作序列
Figure FDA0004002386110000076
中的第t帧;/>
Figure FDA0004002386110000077
计算生成动作第t帧与监督数据第t帧之间的l2距离,以监督所生成动作的准确性;/>
Figure FDA0004002386110000078
计算生成动作第t-1帧与第t帧之间变化幅度与监督数据第t-1帧与第t帧之间变化幅度的l2距离,以监督所生成动作的平滑性;/>
Figure FDA0004002386110000079
计算生成动作第t帧唇部张开高度与监督数据第t帧唇部张开高度的l2距离,以监督所生成动作有准确的唇部动作;其中LipH(·)根据预先选定的唇部顶点计算在y轴上的平均高度差,以近似唇部张开的高度;λm和λl为相应的权重;
所述风格交换项的计算方法定义在一对三维人脸动作序列上:
Figure FDA00040023861100000710
其中,p≥0,q≥0表示包括目标人物和辅助人物的人物编号,i,j表示对应序列中的帧序号集合;对于这样两个序列,使用内容编码器和风格编码器分别编码:
Figure FDA00040023861100000711
再将两个序列所得个性化风格特征sp与sq相交换,与另一个序列的内容特征序列相结合并生成交换个性化风格特征之后的三维人脸动作序列
Figure FDA0004002386110000081
Figure FDA0004002386110000082
对于交换个性化风格特征之后的三维人脸动作序列计算所述风格交换项Lswp,需考虑两种情况:
Figure FDA0004002386110000083
其中,第一种情况为p=q,即两段三维人脸动作序列来自于同一个人物,则直接使用输入的序列作为监督数据,计算损失函数;第二种情况为p≠q,即两段三维人脸动作序列来自于不同人物,对于这种情况,只有部分序列对
Figure FDA0004002386110000084
满足可以计算的要求:人物p在/>
Figure FDA0004002386110000085
中所说的语言内容也必须被人物q说过,即存在/>
Figure FDA0004002386110000086
且该序列中所说的语言内容与序列/>
Figure FDA0004002386110000087
相同;然而i′的序列长度可能与i不同,通过标准的动态时间规整算法将/>
Figure FDA0004002386110000088
对齐到序列/>
Figure FDA0004002386110000089
上,对齐后的序列标记为/>
Figure FDA00040023861100000810
被用于监督/>
Figure FDA00040023861100000811
相似地,使用对齐的序列/>
Figure FDA00040023861100000812
监督/>
Figure FDA00040023861100000813
对于所述第二种情况,仅在满足要求的情况下计算;
所述循环一致项对前述交换个性化风格特征之后生成的三维人脸动作序列
Figure FDA00040023861100000814
再次使用内容编码器和风格编码器分别编码,并再次交换编码所得个性化风格特征sq′与sp′,与另一个序列的内容特征序列相结合并生成两次交换个性化风格特征之后的三维人脸动作序列/>
Figure FDA00040023861100000815
Figure FDA00040023861100000816
经过两次交换之后,个性化风格特征与原始匹配的内容特征序列相结合,因此其输出应该恢复原始的输入序列;循环一致项Lcyc使用原始的输入序列进行监督:
Figure FDA00040023861100000817
(4.2)训练语音动画网络:使用步骤(3)所得语音特征序列Wi={wt}t∈i与步骤(4.1)中解耦网络所分解的个性化风格特征sk,训练另一个深度神经网络,称为语音动画网络;其中,Wi与前述三维人脸动作序列
Figure FDA00040023861100000818
同步,并拥有相同序列长度与帧编号;所述语音动画网络由一个语音编码器EA以及一个动作解码器D组成:
Figure FDA0004002386110000091
其中,Ai为编码Wi后的语音特征序列,
Figure FDA0004002386110000092
为结合sk与Ai并解码输出的个性化三维人脸动作序列;
所述语音编码器EA对语音特征序列Wi={wt}t∈i中的第t帧特征窗口wt,将整个窗口作为源,窗口中间帧作为询问,使用标准的变形器网络进行编码,得到第t帧编码后的语音特征at;对整个序列重复操作得到编码后的语音特征序列Ai={at}t∈i;所述编码后的语音特征序列Ai是形状为|i|×Ca的二维张量,|i|表示序列长度,Ca表示特征图数量;
所述动作解码器D对编码后的语音特征序列Ai={at}t∈i进行三次一维卷积,每次卷积之前,将步骤(4.1)所得个性化风格特征sk与输入的每帧特征相连接,并且在序列前端以零特征向量填补以保证卷积之后的序列长度不变;每次卷积之后,使用负数倾斜率为0.2的带泄漏线性整流函数进行激活;对三层卷积之后的序列中的第t帧,再通过五层全连接层映射,生成第t帧三维人脸动作
Figure FDA0004002386110000093
最终输出三维人脸动作序列为/>
Figure FDA0004002386110000094
该动作解码器与步骤(4.1)中的解耦网络中的动作解码器除输入之外完全相同,即步骤(4.1)中的解耦网络与该步骤中的语音动画网络共用同一个动作解码器;
所述训练过程使用标准Adam优化器优化网络中的可训练参数,以最小化语音动画目标函数Lanime;所述语音动画目标函数与步骤(4.1)中所述解耦目标函数相似,由三个相似的项目构成:语音动画重构项
Figure FDA0004002386110000095
语音动画风格交换项/>
Figure FDA0004002386110000096
语音动画循环一致项/>
Figure FDA0004002386110000097
将式(6)中的/>
Figure FDA0004002386110000098
替换成语音动画网络生成的/>
Figure FDA0004002386110000099
得到语音动画重构项/>
Figure FDA00040023861100000910
Figure FDA00040023861100000911
将与式(8)中
Figure FDA00040023861100000912
分别同步的语音特征Wi,Wj,经过编码得到Ai,Aj之后,分别与来自式(8)交换之后的个性化风格特征sq与sp结合并解码得到/>
Figure FDA00040023861100000913
Figure FDA00040023861100000914
再用与式(10)相同的方法计算语音动画风格交换项
Figure FDA0004002386110000101
Figure FDA0004002386110000102
将Ai,Aj分别与来自式(11)两次交换之后的个性化风格特征sp′与sq′结合并解码得到
Figure FDA0004002386110000103
Figure FDA0004002386110000104
再用与式(12)相同的方法计算语音动画循环一致项
Figure FDA0004002386110000105
Figure FDA0004002386110000106
所述语音动画目标函数Lanime表示为三项加权和:
Figure FDA0004002386110000107
其中,
Figure FDA0004002386110000108
为各项相应的权重;所述训练过程与步骤(4.1)中的训练过程同步进行,即Ldecomp与Lanime组成联合目标函数Ljoint
Ljoint=Ldecomp+Lanime. (20)
(5)获取目标人物个性化风格特征:对步骤(1)中所得的目标人物三维人脸动作序列
Figure FDA0004002386110000109
使用步骤(4)训练所得的解耦网络分解出目标人物的个性化风格特征s0
(6)生成语音同步的个性化三维人脸动画:对任意的语音信号使用与步骤(3)中相同的方法提取语音特征序列;使用步骤(4)训练所得语音动画网络将所提取语音特征序列与步骤(5)所得目标人物的个性化风格特征s0结合,输出个性化三维人脸动作序列;所得个性化三维人脸动作序列加上步骤(1)中所得目标人物的三维人脸模型模板I0,得到个性化三维人脸动画;所述个性化三维人脸动画与输入的语音保持同步,并具有目标人物个性化的风格。
5.权利要求1-4任一所述的语音信号驱动的个性化三维人脸动画生成方法在VR虚拟社交、虚拟语音助手或游戏中的应用。
CN202211621760.5A 2022-12-16 2022-12-16 一种语音信号驱动的个性化三维人脸动画生成方法及其应用 Pending CN116385606A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211621760.5A CN116385606A (zh) 2022-12-16 2022-12-16 一种语音信号驱动的个性化三维人脸动画生成方法及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211621760.5A CN116385606A (zh) 2022-12-16 2022-12-16 一种语音信号驱动的个性化三维人脸动画生成方法及其应用

Publications (1)

Publication Number Publication Date
CN116385606A true CN116385606A (zh) 2023-07-04

Family

ID=86977431

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211621760.5A Pending CN116385606A (zh) 2022-12-16 2022-12-16 一种语音信号驱动的个性化三维人脸动画生成方法及其应用

Country Status (1)

Country Link
CN (1) CN116385606A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117115312A (zh) * 2023-10-17 2023-11-24 天度(厦门)科技股份有限公司 一种语音驱动面部动画方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117115312A (zh) * 2023-10-17 2023-11-24 天度(厦门)科技股份有限公司 一种语音驱动面部动画方法、装置、设备及介质
CN117115312B (zh) * 2023-10-17 2023-12-19 天度(厦门)科技股份有限公司 一种语音驱动面部动画方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
Guo et al. Ad-nerf: Audio driven neural radiance fields for talking head synthesis
Thies et al. Neural voice puppetry: Audio-driven facial reenactment
Lu et al. Live speech portraits: real-time photorealistic talking-head animation
Chuang et al. Mood swings: expressive speech animation
Cao et al. Expressive speech-driven facial animation
CN113269872A (zh) 基于三维人脸重构和视频关键帧优化的合成视频生成方法
CN113255457A (zh) 基于人脸表情识别的动画角色面部表情生成方法及系统
CN110751708A (zh) 一种实时的语音驱动人脸动画的方法和系统
Ma et al. Real‐Time Facial Expression Transformation for Monocular RGB Video
Wang et al. 3d-talkemo: Learning to synthesize 3d emotional talking head
Fan et al. Joint audio-text model for expressive speech-driven 3d facial animation
CN116385606A (zh) 一种语音信号驱动的个性化三维人脸动画生成方法及其应用
Huang et al. Object-occluded human shape and pose estimation with probabilistic latent consistency
Liu et al. Talking face generation via facial anatomy
Liu et al. 4D facial analysis: A survey of datasets, algorithms and applications
CN116721190A (zh) 一种语音驱动三维人脸动画生成方法
CN115984485A (zh) 一种基于自然文本描述的高保真三维人脸模型生成方法
CN113436302B (zh) 一种人脸动画合成方法及系统
Lou et al. Diversemotion: Towards diverse human motion generation via discrete diffusion
Tu et al. Acquiring identity and expression information from monocular face image
Chuang Analysis, synthesis, and retargeting of facial expressions
CN113763236A (zh) 一种商业短视频根据地域动态调整脸部特征的方法
Mishra et al. Environment descriptor for the visually impaired
CN113076918A (zh) 基于视频的人脸表情克隆方法
He et al. Speech4Mesh: Speech-Assisted Monocular 3D Facial Reconstruction for Speech-Driven 3D Facial Animation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination