CN110751708B - 一种实时的语音驱动人脸动画的方法和系统 - Google Patents

一种实时的语音驱动人脸动画的方法和系统 Download PDF

Info

Publication number
CN110751708B
CN110751708B CN201910990919.2A CN201910990919A CN110751708B CN 110751708 B CN110751708 B CN 110751708B CN 201910990919 A CN201910990919 A CN 201910990919A CN 110751708 B CN110751708 B CN 110751708B
Authority
CN
China
Prior art keywords
model
module
neural network
face
convolutional neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910990919.2A
Other languages
English (en)
Other versions
CN110751708A (zh
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Shenzhi Technology Co ltd
Original Assignee
Beijing Zhongke Shenzhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Shenzhi Technology Co ltd filed Critical Beijing Zhongke Shenzhi Technology Co ltd
Priority to CN201910990919.2A priority Critical patent/CN110751708B/zh
Publication of CN110751708A publication Critical patent/CN110751708A/zh
Application granted granted Critical
Publication of CN110751708B publication Critical patent/CN110751708B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种实时的语音驱动人脸动画的方法和系统,该方法包括获取来自第一说话人的中性语音视听数据集;使用主动外观模型跟踪并参数化人脸视频数据;将语音数据转换为音素标签序列;训练基于滑动窗口的深度卷积神经网络模型;将参考人脸模型重定目标到目标角色模型;将来自第二说话人的目标音素标签序列输入重定目标到目标角色模型的深度卷积神经网络模型进行预测。本发明提供的系统包括:获取模块、人脸转换模块、音素转换模块、训练模块、重定目标模块和目标预测模块。本发明提供的方法及系统,解决了现有的语音动画方法依赖于特定的说话人、说话风格,且不能够将生成的动画重定目标到任何面部装备的问题。

Description

一种实时的语音驱动人脸动画的方法和系统
技术领域
本发明涉及虚拟现实和动画领域,特别涉及一种实时的语音驱动人脸动画的方法和系统。
背景技术
语音动画是生成真实感动画的一个重要而耗时的方面。广义上讲,语音动画是指移动图形(或机器人)模型的面部特征,使嘴唇运动与语音同步,并给人以语音生成的印象。作为人类,我们都是面部专家,糟糕的语音动画会让人分心、不愉快和困惑。例如,视听语言的不匹配有时会改变观众认为他们听到的内容,高逼真度的语音动画对于有效的角色动画至关重要。
然而,现有的基于机器学习的语音动画方法通常是根据与训练集分布相同的测试样本来评估的,其结果依赖于特定的说话人,说话风格,不能够重定目标,即不能将生成的动画重定目标到其他面部装备,实用性低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
为解决上述技术问题,本发明的目的在于提供一种与说话人无关,并可重定目标到任何动画装备的实时的语音驱动人脸动画的方法和系统,以解决现有的语音动画方法依赖于特定的说话人、说话风格,且不能够将生成的动画重定目标到任何面部装备的问题。
第一方面,本发明实施例提供一种实时的语音驱动人脸动画的方法,包括以下步骤:
获取来自第一说话人的中性语音视听数据集,所述中性语音视听数据集包括语音数据和与所述语音数据对应的人脸视频数据;
使用主动外观模型跟踪并参数化所述人脸视频数据中第一说话人的面部特征,得到参考人脸模型;
将所述语音数据转换为音素标签序列;
使用所述音素标签序列和与所述音素标签序列相对应的参考人脸模型作为待训练样本,训练基于滑动窗口的深度卷积神经网络模型的目标参数的参数值,得到训练之后的所述深度卷积神经的网络模型;
计算目标角色的重定目标函数,将训练之后的所述深度卷积神经网络模型的参考人脸模型重定目标到目标角色模型;
将来自第二说话人的目标音素标签序列输入重定目标到目标角色模型的所述深度卷积神经网络模型进行预测,输出基于目标角色的语音动画。
进一步地,,所述使用主动外观模型跟踪并参数化所述人脸视频数据中第一说话人的面部特征,得到参考人脸模型的步骤包括:
使用主动外观模型跟踪并参数化所述人脸视频数据中第一说话人的面部特征,面部特征包括形状特征和外观特征,将所述人脸视频数据中位于下脸和下颚的34个顶点设置成所述主动外观模型的形状分量,所述主动外观模型分成2个不重叠区域,所述不重叠区域包括内嘴区域及位于所述内嘴区域以外的区域,得到参考人脸模型的表达式如下:
Figure RE-GDA0002286604980000021
其中,q=104,ji表示三种变化模式。
进一步地,,在所述训练基于滑动窗口的深度卷积神经网络模型的目标参数的参数值的步骤之前,所述方法还包括:
设置所述滑动窗口的输入窗口长度为11,输出窗口长度为5。
进一步地,,所述使用所述音素标签序列和与所述音素标签序列相对应的参考人脸模型作为待训练样本,训练基于滑动窗口的深度卷积神经网络模型的目标参数的参数值,得到训练之后的所述深度卷积神经的网络模型的步骤包括:
将所述输入音素标签序列分解为一个重叠的定长输入序列
Figure RE-GDA0002286604980000022
对于每个
Figure RE-GDA0002286604980000023
使用深度卷积神经网络进行预测,从而产生重叠的固定长度输出序列
Figure RE-GDA0002286604980000024
通过混合所述固定长度输出序列,使用帧平均值构造最终动画序列
Figure RE-GDA0002286604980000025
进一步地,,所述计算目标角色的重定目标函数,将训练之后的所述深度卷积神经网络模型的参考人脸模型重定目标到目标角色模型的步骤包括:
在目标角色上手动设置参考人脸模型表示的形状基和平均形状s0的子集,预先计算跨越深度卷积神经网络动画空间的重定目标函数;
将所述参考人脸模型的输出字符设置平均值的+3和-3标准偏差,创建一组8个姿势;
为所述目标角色模型创建与所述8个姿势一一对应的8个对应姿势;
存储对应于所述8个对应姿势的装备参数,对所述装配参数进行组合。
第二方面,本发明实施例提供一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行任意一种上述的方法。
第三方面,本发明实施例提供一种处理器,上述处理器用于运行程序,其中,所述程序运行时执行任意一种上述的方法。
第四方面,本发明实施例提供一种电子设备,包括:一个或多个处理器,存储器,显示装置以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置为由上述一个或多个处理器执行,上述一个或多个程序包括用于执行任意一种上述的方法。
第五方面,本发明实施例提供一种实时的语音驱动人脸动画的系统,所述系统包括:
获取模块,用于获取来自第一说话人的中性语音视听数据集,所述中性语音视听数据集包括语音数据和与所述语音数据对应的人脸视频数据;
人脸转换模块,用于使用主动外观模型跟踪并参数化所述人脸视频数据中第一说话人的面部特征,得到参考人脸模型;
音素转换模块,用于将所述语音数据转换为音素标签序列;
训练模块,用于使用所述音素标签序列和与所述音素标签序列相对应的参考人脸模型作为待训练样本,训练基于滑动窗口的深度卷积神经网络模型的目标参数的参数值,得到训练之后的所述深度卷积神经的网络模型;
重定目标模块,用于计算目标角色的重定目标函数,将训练之后的所述深度卷积神经网络模型的参考人脸模型重定目标到目标角色模型;
目标预测模块,用于将来自第二说话人的目标音素标签序列输入重定目标到目标角色模型的所述深度卷积神经网络模型进行预测,输出基于目标角色的语音动画。
进一步地,所述人脸转换模块还用于:
使用主动外观模型跟踪并参数化所述人脸视频数据中第一说话人的面部特征,面部特征包括形状特征和外观特征,将所述人脸视频数据中位于下脸和下颚的34个顶点设置成所述主动外观模型的形状分量,所述主动外观模型分成2个不重叠区域,所述不重叠区域包括内嘴区域及位于所述内嘴区域以外的区域,得到参考人脸模型的表达式如下:
Figure RE-GDA0002286604980000041
其中,q=104,ji表示三种变化模式。
进一步地,所述系统还包括:
设置模块,用于设置所述滑动窗口的输入窗口长度为11,输出窗口长度为5。
进一步地,所述训练模块包括:
输入模块:用于将所述输入音素标签序列分解为一个重叠的定长输入序列
Figure RE-GDA0002286604980000042
序列预测模块:用于对于每个
Figure RE-GDA0002286604980000043
使用深度卷积神经网络进行预测,从而产生重叠的固定长度输出序列
Figure RE-GDA0002286604980000044
混合输出模块:用于通过混合所述固定长度输出序列,使用帧平均值构造最终动画序列
Figure RE-GDA0002286604980000045
进一步地,所述重定目标模块包括:
重定函数模块:用于在目标角色上手动设置参考人脸模型表示的形状基和平均形状s0的子集,预先计算跨越深度卷积神经网络动画空间的重定目标函数;
姿势创建模块,用于将所述参考人脸模型的输出字符设置平均值的+3和-3标准偏差,创建一组8个姿势;
目标姿势模块,用于为所述目标角色模型创建与所述8个姿势一一对应的8个对应姿势;
组合模块:用于存储对应于所述8个对应姿势的装备参数,对所述装配参数进行组合。
有益效果
在本发明实例中,通过获取来自第一说话人的中性语音视听数据集,我们可以经济有效地收集一个全面的数据集,即只针对一个说话人,全面捕获各种各样的语音模式。通过将语音数据转换为音素标签序列,可以使语音动画与说话人无关,并能够轻松地将语音动画融入到任何装备、任何扬声器中,并且以易于编辑和样式化,生成的动画能够准确反映可见语音运动中存在的复杂语音模式,如联合发音效果。通过基于滑动窗口的深度卷积神经网络方法,能够生成实时、连续,高逼真度的语音动画。通过装配空间重定目标,能够将生成的动画重定目标到任何面部装备且易于动画师进行编辑和风格化,使其能轻松集成到现有的生产管道中。
附图说明
图1为本发明方法的一种实施方式的流程图;
图2为本发明系统的一种实施方式的结构图;
图3为使用主动外观模型AAM进行人脸跟踪的示例图;
图4为基于滑动窗口的深度卷积神经网络训练的示意图;
图5为重定目标后的目标角色人脸示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本发明实施中,提供一种实时的语音驱动人脸动画的方法,如图1所示,该方法包括如下步骤:
步骤S100,获取来自第一说话人的中性语音视听数据集,中性语音视听数据集包括语音数据和与语音数据对应的人脸视频数据;
步骤S102,使用主动外观模型跟踪并参数化人脸视频数据中第一说话人的面部特征,得到参考人脸模型;
步骤S104,将语音数据转换为音素标签序列;
步骤S106,使用音素标签序列和与音素标签序列相对应的参考人脸模型作为待训练样本,训练基于滑动窗口的深度卷积神经网络模型的目标参数的参数值,得到训练之后的深度卷积神经的网络模型;
步骤S108,计算目标角色的重定目标函数,将训练之后的深度卷积神经网络模型的参考人脸模型重定目标到目标角色模型;
步骤S110,将来自第二说话人的目标音素标签序列输入重定目标到目标角色模型的深度卷积神经网络模型进行预测,输出基于目标角色的语音动画。
其中,为了满足高逼真度,我们采用数据驱动的方法来精确捕捉自然语音动画的复杂结构。中性语音视听数据集可以使用KB-2k数据集,KB-2k是一个大型的视听数据集,包含来自同一说话人朗诵的2543个语音多样的中性语气的句子。视频中的脸是正面的,且在同一位置处拍摄,数据集中的所有句子在Arpabet语音代码中手动注释,KB-2k被设计成一个语音多样的语音训练数据集,在最大限度地减少所需的语音记录量的同时,实现了相关协同发音效果的高覆盖率。通过关注单个参考说话人人脸和中性语音,我们可以经济有效地收集一个全面的数据集,即只针对一个说话人,全面捕获各种各样的语音模式。
其中,为了使语音动画与说话人无关,并能够轻松地将语音动画融入到任何装备、任何扬声器中,并且以易于编辑和样式化的方式,我们可以使用现有的语音识别软件将语音数据转换为音素标签序列,将音素标签序列映射到语音动画,而不是直接从音频特征映射,使得我们的自动语音动画可以推广到任何输入扬声器,任何风格的语音。
其中,本发明使用AAM(Active Appearance Model,主动外观模型)进行人脸跟踪,使用主动外观模型跟踪并参数化所述人脸视频数据中第一说话人的面部特征,面部特征包括形状特征和外观特征,然后自动地将这些面部特征转换为两个部分的控制参数,即表情控制参数和三维头部姿态参数,利用主动外观模型(AAM)优化的下面部形状和外观的线性模型系数,对中性语音视听数据集的人脸视频数据进行了紧凑的参数化处理,以跟踪视频帧,形状分量表示n=34个,顶点,s={u1,υ1,u2,υ2,...,uN,υN}T
,作为线性模型,如图3(a)所示,显示了AAM形状组件的34个顶点,
Figure RE-GDA0002286604980000061
使用M=16模式捕捉99%的形状变化,如图3(b)所示,显示了AAM形状分量的前三个变化模式(最高能量)显示为平均值的±3标准偏差。平均形状为 s0,每个si为形状基向量,形状参数为pi
外观模型被分成k=2个不重叠区域Ak(u),其中u表示在s0处采样的40000(u,v)像素坐标集。使用两个区域可以使内嘴区域(可见时)内的像素独立于嘴唇和下巴的其余面部像素变化,
Figure RE-GDA0002286604980000071
每个区域的平均外观是
Figure RE-GDA0002286604980000072
基向量
Figure RE-GDA0002286604980000073
和外观参数
Figure RE-GDA0002286604980000074
参考人脸模型表示y是q=104维的描述,描述了语音期间人脸的变形和强度变化,描述为连接的形状和外观参数的线性投影。适当的权重W,平衡了强度和形状参数的能量差,即参考人脸模型表示公式如下:
Figure RE-GDA0002286604980000075
其中,ji表示前三种变化模式,如图3(c)所示,显示了组合AAM模型的前三种变化模式显示为平均值的±3标准偏差。
图4描述了我们的深度学习滑动窗口回归管道。我们将音素标签序列x作为输入(a)的逐帧序列开始。我们将x转换成一系列重叠的定长输入
Figure RE-GDA0002286604980000076
(b)。我们应用我们所学习的基于滑动窗口的深度卷积神经网络模型对每个
Figure RE-GDA0002286604980000077
进行预测,这将导致一系列重叠的固定长度输出
Figure RE-GDA0002286604980000078
(d)。我们混合
Figure RE-GDA0002286604980000079
通过平均帧来达到最终输出y(e)。注意,
Figure RE-GDA00022866049800000710
的中心框突出显示,但所有预测值都有助于y。为了清楚起见,仅显示第一个预测参数值。
我们的滑动窗口神经网络深度学习方法受到了并基于以下假设。
假设1.共振态效应可以在时域上表现出广泛的上下文相关曲率。例如,第一个AAM参数图4(e)的曲率可以平滑或急剧变化,这取决于本地语音上下文,图4(a)。
假设2.共发音效应是局部的,不表现出很长的依赖性。例如,一个人如何表达“预测”的结尾实际上与一个人如何表达“构造”的结尾是一样的,并且不太依赖于任何一个词的开头。
这些假设激发了我们学习方法中的主要归纳偏差,即训练一个滑动窗口回归器,该回归器学习预测动画的任意固定长度子序列。图4描述了我们的预测管道,可以总结为:
(1)将输入语音序列X分解为一个重叠的定长输入序列
Figure RE-GDA00022866049800000711
窗口尺寸为Kx(图4(b))。
(2)对于每个
Figure RE-GDA0002286604980000081
使用h预测,从而产生重叠的固定长度输出序列
Figure RE-GDA0002286604980000082
每个窗口大小为Ky(图4(c)和图4(d))。
(3)通过混合y构造最终动画序列
Figure RE-GDA0002286604980000083
使用帧平均值,如图4(e)所未。
由于从语音子序列到动画子序列的映射非常复杂,我们使用一个深神经网络来实例化h。我们的学习目标是最小化训练数据中地面真值定长子序列与其相应预测输出之间的平方损失。
在我们的实验中,我们使用一个完全连接的前馈神经网络,其中一个(滑动窗口)输入层连接到三个完全连接的隐藏层和一个最终输出层。每个隐藏层有3000个隐藏单元,每个单元使用双曲正切传递函数。采用标准的小批量随机梯度下降法进行训练,最小批量为100。为了避免过度拟合,我们使用了衰减中止概率为50%。最后的输出层是标准的多元线性回归训练,以最小化平方损失。我们可以使用任何现成的深度学习平台来训练这个模型。
如前所述,我们的深度学习滑动窗口方法的关键特性是它可以同时对多个帧进行联合预测,这是直接由我们应该集中于捕获视觉语音中的局部时间曲率的假设驱动的。我们可以等效地将滑动窗口预测器视为卷积深度学习架构的变体。
相比之下,最近许多用于序列到序列预测的深度学习方法使用递归神经网络(及其基于记忆的扩展),并通过隐藏单元激活和状态向量(在LSTMs的情况下)将信息从帧传播到帧,从而间接地对这种依赖进行建模。虽然rnns和LSTMs具有捕获复杂时间曲率的能力,但它们的归纳偏差并不一定与我们的建模假设一致,因此在能够可靠地学习好的预测器之前,可能需要大量的训练数据。相反,我们把学习的重点放在捕捉上下文的邻域和协同发音效果上。实验表明,滑动窗口结构在视觉语音动画方面明显优于LSTMs。
我们的方法有两个调谐参数,Kx和Ky。输入窗口长度Kx必须足够大以捕捉显著的共发音效果,而输出窗口长度Ky必须足够大以捕捉显著的Y局部曲率。例如,使Kx变小将不允许模型在两个似是而非的共发音之间消除歧义(D由于消除了输入窗口外的音素歧义,并且Ky太小会导致噪声预测。然而Kx和Ky越大,学习一个精确模型所需的训练数据就越多,因为模型类的内在复杂性(因此过度拟合有限训练集的风险)随着,Kx和Ky。的增加而增加。
我们发现,Kx和Ky。很容易调整,部分原因是我们的模型训练的速度。从我们的实验中,我们发现Kx=11和Ky=5在我们的训练和测试集上给出了最好的结果。
其中,要推广到新的输出面模型,必须重新定位预测的动画。AAM参考人脸表示捕获了语音过程中的形状和外观变化(例如牙齿和舌头可见性),并且可以使用任何潜在的复杂和内容相关的重定目标功能,如图5(a)显示了参考形状模型的四个模式在平均值的±3σ处创建八个语音重定目标形状,5(b)显示了艺术家将相应的姿势转移到了各种面部装备上,为任何装备实现和角色样式计算动画参数。
重定目标方法是可以通过利用AAM表示捕获的已知面部运动子空间预先计算一次的方法。要实现这一点,重定目标功能必须在参考面模型可以采用的整个姿势范围内定义良好。一种有效的方法是使用分段线性重定目标,其中一小组姿势从参考面模型手动映射到目标面模型。但是,我们注意到可以使用任何其他重定目标方法。
我们的实现通过在目标角色上手动设置参考AAM表示的形状基和平均形状s0的子集,预先计算跨越神经网络动画空间的重定目标函数。我们使用前四个形状模式进行重定目标,因为这些模式描述下半部最重要的运动(91%的能量),并且可以由动画师解释。
为了更好地表示我们设置的目标装备上的非线性行为,我们将,即
Figure RE-GDA0002286604980000091
其中,相对于平均姿势s0,
Figure RE-GDA0002286604980000092
图5描述了一个重定目标过程的示例。对于参考面的八个重定目标姿势中的每一个,我们在每个目标装配上创建一个一次性的对应姿势。我们发现手动设置这些形状的姿势很简单,这主要是因为参考面中的基本形状易于解释。例如,第一种模式对应于嘴巴的张开程度。
存储对应于八个姿势(有效的装备特征向量)的装备参数
Figure RE-GDA0002286604980000093
相对于平均姿势r0。随后,由神经网络预测的语音动画可以通过形成R列的线性组合(即装配空间插值)直接传输到目标装配。确定每个姿势的8维权重向量w通过以下公式计算:
Figure RE-GDA0002286604980000094
其中
Figure RE-GDA0002286604980000095
是神经网络预测的形状分量,u∈{-3,+3}取决于姿势是否与平均值的负偏差或正偏差相关。要将预测姿势重定目标为角色,装备参数组合如下:
Rt=(R-r0)w+r0
初始角色设置仅对每个新角色执行一次,并且与装备的实现方式无关(例如,混合变形、基于变形器等)。然后动画管道是全自动的。使用此装备空间重定目标方法创建的动画示例显示在补充视频中。装配空间重定目标是一种简单的可计算方法,它捕获语音清晰度的能量,并生成一致的高质量动画。对于装配良好的角色,动画师很容易编辑生成的中性语音动画,例如覆盖情感表达。
其他的重定目标方法是可能的,并且通过设计,独立于我们的语音动画预测方法。例如,网格变形传输可用于自动重新定位钻机空间变形的参考形状。变形传输也可用于每帧将预测动画传输到未装配的角色网格。
在本发明实施中,还提供一种存储介质,存储介质包括存储的程序,其中,程序执行任意一种上述的方法。
在本发明实施中,还提供一种处理器,上述处理器用于运行程序,其中,程序运行时执行任意一种上述的方法。
在本发明实施中,还提供一种电子设备,包括:一个或多个处理器,存储器,显示装置以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置为由上述一个或多个处理器执行,上述一个或多个程序包括用于执行任意一种上述的方法。
在本发明实施中,还提供一种实时的语音驱动人脸动画的系统,如图2所示,所述系统包括:
获取模块202,用于获取来自第一说话人的中性语音视听数据集,中性语音视听数据集包括语音数据和与语音数据对应的人脸视频数据;
人脸转换模块204,用于使用主动外观模型跟踪并参数化人脸视频数据中第一说话人的面部特征,得到参考人脸模型;
音素转换模块206,用于将语音数据转换为音素标签序列;
训练模块208,用于使用音素标签序列和与音素标签序列相对应的参考人脸模型作为待训练样本,训练基于滑动窗口的深度卷积神经网络模型的目标参数的参数值,得到训练之后的深度卷积神经的网络模型;
重定目标模块210,用于计算目标角色的重定目标函数,将训练之后的深度卷积神经网络模型的参考人脸模型重定目标到目标角色模型;
目标预测模块212,用于将来自第二说话人的目标音素标签序列输入重定目标到目标角色模型的深度卷积神经网络模型进行预测,输出基于目标角色的语音动画。
可选的,所述人脸转换模块还用于:
使用主动外观模型跟踪并参数化所述人脸视频数据中第一说话人的面部特征,面部特征包括形状特征和外观特征,将所述人脸视频数据中位于下脸和下颚的34个顶点设置成所述主动外观模型的形状分量,所述主动外观模型分成2个不重叠区域,所述不重叠区域包括内嘴区域及位于所述内嘴区域以外的区域,得到参考人脸模型的表达式如下:
Figure RE-GDA0002286604980000111
其中,q=104,ji表示三种变化模式。
可选的,所述系统还包括:
设置模块,用于设置所述滑动窗口的输入窗口长度为11,输出窗口长度为5。
可选的,所述训练模块包括:
输入模块:用于将所述输入音素标签序列分解为一个重叠的定长输入序列
Figure RE-GDA0002286604980000112
序列预测模块:用于对于每个
Figure RE-GDA0002286604980000113
使用深度卷积神经网络进行预测,从而产生重叠的固定长度输出序列
Figure RE-GDA0002286604980000114
混合输出模块:用于通过混合所述固定长度输出序列,使用帧平均值构造最终动画序列
Figure RE-GDA0002286604980000115
可选的,所述重定目标模块包括:
重定函数模块:用于在目标角色上手动设置参考人脸模型表示的形状基和平均形状s0的子集,预先计算跨越深度卷积神经网络动画空间的重定目标函数;
姿势创建模块,用于将所述参考人脸模型的输出字符设置平均值的+3和-3标准偏差,创建一组8个姿势;
目标姿势模块,用于为所述目标角色模型创建与所述8个姿势一一对应的8个对应姿势;
组合模块:用于存储对应于所述8个对应姿势的装备参数,对所述装配参数进行组合。
本发明实施例提供的方法和系统,通过获取来自第一说话人的中性语音视听数据集,我们可以经济有效地收集一个全面的数据集,即只针对一个说话人,全面捕获各种各样的语音模式。通过将语音数据转换为音素标签序列,可以使语音动画与说话人无关,并能够轻松地将语音动画融入到任何装备、任何扬声器中,并且以易于编辑和样式化,生成的动画能够准确反映可见语音运动中存在的复杂语音模式,如联合发音效果。通过基于滑动窗口的深度卷积神经网络方法,能够生成实时、连续,高逼真度的语音动画。通过装配空间重定目标,能够将生成的动画重定目标到任何面部装备且易于动画师进行编辑和风格化,使其能轻松集成到现有的生产管道中。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims (6)

1.一种实时的语音驱动人脸动画的方法,其特征在于,包括:
获取来自第一说话人的中性语音视听数据集,所述中性语音视听数据集包括语音数据和与所述语音数据对应的人脸视频数据;
使用主动外观模型跟踪并参数化所述人脸视频数据中第一说话人的面部特征,得到参考人脸模型,具体包括:
使用主动外观模型跟踪并参数化所述人脸视频数据中第一说话人的面部特征,面部特征包括形状特征和外观特征,将所述人脸视频数据中位于下脸和下颚的34个顶点设置成所述主动外观模型的形状分量,所述主动外观模型分成2个不重叠区域,所述不重叠区域包括内嘴区域及位于所述内嘴区域以外的区域,得到参考人脸模型的表达式如下:
Figure FDA0002939464270000011
其中,q=104,ji表示三种变化模式;
将所述语音数据转换为音素标签序列;
使用所述音素标签序列和与所述音素标签序列相对应的参考人脸模型作为待训练样本,训练基于滑动窗口的深度卷积神经网络模型的目标参数的参数值,得到训练之后的所述深度卷积神经的网络模型;
计算目标角色的重定目标函数,将训练之后的所述深度卷积神经网络模型的参考人脸模型重定目标到目标角色模型;
将来自目标角色的目标音素标签序列输入重定目标到目标角色模型的所述深度卷积神经网络模型进行预测,输出基于目标角色的语音动画。
2.根据权利要求1所述的方法,其特征在于,在所述训练基于滑动窗口的深度卷积神经网络模型的目标参数的参数值的步骤之前,所述方法还包括:
设置所述滑动窗口的输入窗口长度为11,输出窗口长度为5。
3.根据权利要求2所述的方法,其特征在于,所述使用所述音素标签序列和与所述音素标签序列相对应的参考人脸模型作为待训练样本,训练基于滑动窗口的深度卷积神经网络模型的目标参数的参数值,得到训练之后的所述深度卷积神经的网络模型的步骤包括:
将所述输入音素标签序列分解为一个重叠的定长输入序列
Figure FDA0002939464270000021
对于每个
Figure FDA0002939464270000022
使用深度卷积神经网络进行预测,从而产生重叠的固定长度输出序列
Figure FDA0002939464270000023
通过混合所述固定长度输出序列,使用帧平均值构造最终动画序列(^z1,^z2,...,^zT)。
4.一种实时的语音驱动人脸动画的系统,其特征在于,包括:
获取模块,用于获取来自第一说话人的中性语音视听数据集,所述中性语音视听数据集包括语音数据和与所述语音数据对应的人脸视频数据;
人脸转换模块,用于使用主动外观模型跟踪并参数化所述人脸视频数据中第一说话人的面部特征,得到参考人脸模型,具体包括:
使用主动外观模型跟踪并参数化所述人脸视频数据中第一说话人的面部特征,面部特征包括形状特征和外观特征,将所述人脸视频数据中位于下脸和下颚的34个顶点设置成所述主动外观模型的形状分量,所述主动外观模型分成2个不重叠区域,所述不重叠区域包括内嘴区域及位于所述内嘴区域以外的区域,得到参考人脸模型的表达式如下:
Figure FDA0002939464270000031
其中,q=104,ji表示三种变化模式;
音素转换模块,用于将所述语音数据转换为音素标签序列;
训练模块,用于使用所述音素标签序列和与所述音素标签序列相对应的参考人脸模型作为待训练样本,训练基于滑动窗口的深度卷积神经网络模型的目标参数的参数值,得到训练之后的所述深度卷积神经的网络模型;
重定目标模块,用于计算目标角色的重定目标函数,将训练之后的所述深度卷积神经网络模型的参考人脸模型重定目标到目标角色模型;
目标预测模块,用于将来自目标角色的目标音素标签序列输入重定目标到目标角色模型的所述深度卷积神经网络模型进行预测,输出基于目标角色的语音动画。
5.根据权利要求4所述的系统,其特征在于,所述系统还包括:
设置模块,用于设置所述滑动窗口的输入窗口长度为11,输出窗口长度为5。
6.根据权利要求5所述的系统,其特征在于,所述训练模块包括:
输入模块:用于将所述输入音素标签序列分解为一个重叠的定长输入序列;
序列预测模块:用于对于重叠的定长输入序列中的每个对象使用深度卷积神经网络进行预测,从而产生重叠的固定长度输出序列;
混合输出模块:用于通过混合所述固定长度输出序列,使用帧平均值构造最终动画序列。
CN201910990919.2A 2019-10-21 2019-10-21 一种实时的语音驱动人脸动画的方法和系统 Active CN110751708B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910990919.2A CN110751708B (zh) 2019-10-21 2019-10-21 一种实时的语音驱动人脸动画的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910990919.2A CN110751708B (zh) 2019-10-21 2019-10-21 一种实时的语音驱动人脸动画的方法和系统

Publications (2)

Publication Number Publication Date
CN110751708A CN110751708A (zh) 2020-02-04
CN110751708B true CN110751708B (zh) 2021-03-19

Family

ID=69278835

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910990919.2A Active CN110751708B (zh) 2019-10-21 2019-10-21 一种实时的语音驱动人脸动画的方法和系统

Country Status (1)

Country Link
CN (1) CN110751708B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328076B (zh) * 2020-11-06 2021-10-29 北京中科深智科技有限公司 一种语音驱动人物手势的方法和系统
CN112541957B (zh) * 2020-12-09 2024-05-21 北京百度网讯科技有限公司 动画生成方法、装置、电子设备以及计算机可读介质
CN112581569B (zh) * 2020-12-11 2021-11-23 中国科学院软件研究所 自适应情感表达的说话人面部动画生成方法及电子装置
CN112887698B (zh) * 2021-02-04 2022-05-17 中国科学技术大学 基于神经辐射场的高质量人脸语音驱动方法
CN113178206B (zh) * 2021-04-22 2022-05-31 内蒙古大学 Ai合成主播生成方法、电子设备及可读存储介质
US20220374637A1 (en) * 2021-05-20 2022-11-24 Nvidia Corporation Synthesizing video from audio using one or more neural networks
CN115272537A (zh) 2021-08-06 2022-11-01 宿迁硅基智能科技有限公司 基于因果卷积的音频驱动表情方法及装置
CN114245230A (zh) * 2021-11-29 2022-03-25 网易(杭州)网络有限公司 视频的生成方法、装置、电子设备及存储介质
CN116051692B (zh) * 2023-04-03 2023-07-07 成都索贝数码科技股份有限公司 一种基于语音驱动的三维数字人脸部动画生成方法
CN116664731B (zh) * 2023-06-21 2024-03-29 华院计算技术(上海)股份有限公司 人脸动画生成方法及装置、计算机可读存储介质、终端
CN117095672A (zh) * 2023-07-12 2023-11-21 支付宝(杭州)信息技术有限公司 一种数字人唇形生成方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279970A (zh) * 2013-05-10 2013-09-04 中国科学技术大学 一种实时的语音驱动人脸动画的方法
CN105551071A (zh) * 2015-12-02 2016-05-04 中国科学院计算技术研究所 一种文本语音驱动的人脸动画生成方法及系统
CN109377540A (zh) * 2018-09-30 2019-02-22 网易(杭州)网络有限公司 面部动画的合成方法、装置、存储介质、处理器及终端
CN109523616A (zh) * 2018-12-04 2019-03-26 科大讯飞股份有限公司 一种面部动画生成方法、装置、设备及可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107431635B (zh) * 2015-03-27 2021-10-08 英特尔公司 化身面部表情和/或语音驱动的动画化

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279970A (zh) * 2013-05-10 2013-09-04 中国科学技术大学 一种实时的语音驱动人脸动画的方法
CN105551071A (zh) * 2015-12-02 2016-05-04 中国科学院计算技术研究所 一种文本语音驱动的人脸动画生成方法及系统
CN109377540A (zh) * 2018-09-30 2019-02-22 网易(杭州)网络有限公司 面部动画的合成方法、装置、存储介质、处理器及终端
CN109523616A (zh) * 2018-12-04 2019-03-26 科大讯飞股份有限公司 一种面部动画生成方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN110751708A (zh) 2020-02-04

Similar Documents

Publication Publication Date Title
CN110751708B (zh) 一种实时的语音驱动人脸动画的方法和系统
CN111145322B (zh) 用于驱动虚拟形象的方法、设备和计算机可读存储介质
Brand Voice puppetry
Mattheyses et al. Audiovisual speech synthesis: An overview of the state-of-the-art
US8224652B2 (en) Speech and text driven HMM-based body animation synthesis
Cao et al. Expressive speech-driven facial animation
US6735566B1 (en) Generating realistic facial animation from speech
CN112887698B (zh) 基于神经辐射场的高质量人脸语音驱动方法
Chuang et al. Mood swings: expressive speech animation
CN110880315A (zh) 一种基于音素后验概率的个性化语音和视频生成系统
CN112581569B (zh) 自适应情感表达的说话人面部动画生成方法及电子装置
JP2003529861A (ja) 音響信号により駆動される人間の顔の合成モデルのアニメ化方法
Jia et al. Head and facial gestures synthesis using PAD model for an expressive talking avatar
CN110910479B (zh) 视频处理方法、装置、电子设备及可读存储介质
CN114144790A (zh) 具有三维骨架正则化和表示性身体姿势的个性化语音到视频
CN113838174B (zh) 一种音频驱动人脸动画生成方法、装置、设备与介质
CN114357135A (zh) 交互方法、交互装置、电子设备以及存储介质
CN116597857A (zh) 一种语音驱动图像的方法、系统、装置及存储介质
CN116309984A (zh) 一种基于文本驱动的口型动画生成方法及系统
CN116934926B (zh) 一种基于多模态数据融合的识别方法和系统
Wei et al. A practical model for live speech-driven lip-sync
Wang et al. Talking faces: Audio-to-video face generation
Li et al. A novel speech-driven lip-sync model with CNN and LSTM
CN113362432B (zh) 一种面部动画生成方法及装置
Deena et al. Speech-driven facial animation using a shared Gaussian process latent variable model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: 100000 room 311a, floor 3, building 4, courtyard 4, middle Yongchang Road, Beijing Economic and Technological Development Zone, Beijing

Patentee after: Beijing Zhongke Shenzhi Technology Co.,Ltd.

Address before: 100000 303 platinum international building, block C, fortune World Building, No. 1, Hangfeng Road, Fengtai District, Beijing

Patentee before: Beijing Zhongke Shenzhi Technology Co.,Ltd.

CP02 Change in the address of a patent holder
CP03 Change of name, title or address

Address after: Room 911, 9th Floor, Block B, Xingdi Center, Building 2, No.10, Jiuxianqiao North Road, Jiangtai Township, Chaoyang District, Beijing, 100000

Patentee after: Beijing Zhongke Shenzhi Technology Co.,Ltd.

Country or region after: China

Address before: 100000 room 311a, floor 3, building 4, courtyard 4, middle Yongchang Road, Beijing Economic and Technological Development Zone, Beijing

Patentee before: Beijing Zhongke Shenzhi Technology Co.,Ltd.

Country or region before: China

CP03 Change of name, title or address