CN113383384A - 语音动画的实时生成 - Google Patents

语音动画的实时生成 Download PDF

Info

Publication number
CN113383384A
CN113383384A CN202080008157.2A CN202080008157A CN113383384A CN 113383384 A CN113383384 A CN 113383384A CN 202080008157 A CN202080008157 A CN 202080008157A CN 113383384 A CN113383384 A CN 113383384A
Authority
CN
China
Prior art keywords
animation
animated
speech
segments
muscle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080008157.2A
Other languages
English (en)
Inventor
M·萨加尔
T·吴
谭霞妮
张雪源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Somerset Intelligence Co ltd
Original Assignee
Somerset Intelligence Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Somerset Intelligence Co ltd filed Critical Somerset Intelligence Co ltd
Publication of CN113383384A publication Critical patent/CN113383384A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/802D [Two Dimensional] animation, e.g. using sprites
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L21/12Transforming into visible information by displaying time domain information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Processing Or Creating Images (AREA)

Abstract

为了以动画方式真实地显示字符串(诸如句子),提供了一种分级搜索算法以按子字符串长度的递减顺序搜索该字符串的子字符串的存储示例(动画片段),并且级联所检索的子字符串以完成语音动画的字符串。在一个实施方案中,实时生成语音动画使用模型视素来预测视素开始时的动画序列,并且使用基于查找表(数据驱动)的算法来预测视素转换处的动力学。具体摆出的模型视素可与使用另一种方法在要表达视素时的动画中的对应时间点处生成的语音动画调和。输出加权函数用于将语音输入和表情输入映射到基于肌肉的描述符加权中。

Description

语音动画的实时生成
技术领域
本发明的实施方案涉及语音动画的实时生成。
背景技术
用于以动画方式显示语音的计算机面部动画技术包括过程、数据驱动或基于表演捕获的技术。
语料库(文本集合)中的每个句子可被表示为音素序列(不同语音/声音的单位)和表示为视素序列(示出音素被发音的音素的视觉等效)。过程语音动画包括将音素转变为视素的规则或查找表。语音的3D动画曲线的在线实时生成可通过使用音素查找视素的动画序列来执行。此类方法受到动画序列的小型集的限制,因为呆板机械的动画、不真实的动画和重复的动画经常且尤其是在视素转换时被观察到。
数据驱动(统计)方法拼接来自大型语料库的面部动画数据的片段,以匹配输入语音轨道。面部动力学由多维形变模型、隐马尔可夫(Markov)模型和主动外观模型(AAM)捕获。数据驱动方法的质量通常受到可用数据的限制。统计模型直接驱动面部,从而控制面部远离动画器。
基于表演捕获的语音动画将所获取的运动数据从人类表演者传输到数字面部模型上。一种方法使用预先捕获的数据库来用经过训练的深度神经网络校正表演捕获,以从音频输入中实时提取音素概率。训练此类模型需要手绘动画序列或表演的大型数据集。所得模型通常是复杂的,使得回播和推断难以实时实现。动画质量受限于所捕获的表演者的能力,因为动画器很难进行提炼。
先前的语音动画技术也无法充分地适应语音动画与情绪表达动画的组合。
发明目的
本发明的目的是改进语音动画的实时生成或至少为公众或业界提供有用的选择。
发明内容
一种用于以动画方式显示语音的方法,该方法包括:接收:要以动画方式显示的字符串,该字符串包括多个社交话语(例如,语音)原子;多个集合,每个集合包括多个项,该多个项包括独特原子字符串,每个集合存储不同长度的项;以及每个项包括该项的至少一个动画片段;在该集合中以分级方式搜索与该字符串的子字符串相匹配的项;检索所匹配的项的动画片段以覆盖语音原子;以及组合所检索的动画片段以动画方式显示该字符串。
一种用于以动画方式显示语音的方法,该方法包括:接收:要以动画方式显示的音素字符串;和多个动画片段,该多个动画片段包括多音字符串和部分音素字符串,该字符串被配置为在音素的最稳定部分处或附近级联;搜索并检索与该音素字符串的子字符串相匹配的动画片段以覆盖该音素字符串;以及组合所检索动画片段以动画方式显示该字符串。
一种用于在上下文中以动画方式显示音素的方法,该方法包括:接收:模型视素,和动画片段,该动画片段与在上下文中发音的该音素的动画权重的时间序列相对应;在该模型视素的该动画权重与该动画片段的该动画权重之间进行调和,以在上下文中以动画方式显示该音素。
一种用于表达性语音动画的方法,该方法包括:接收第一动画输入和第二动画输入,该第一动画输入与基于肌肉的描述符信息相关联,该第二动画输入与基于肌肉的描述符信息相关联;使用该第一动画输入和该第二动画输入作为输出加权函数中的自变量,该输出加权函数被配置为将该动画输入映射到基于肌肉的描述符加权,以用于以动画方式显示该表达性语音动画,其中该输出加权函数被配置为协调来自该第一动画输入和该第二动画输入的基于肌肉的描述符信息,以及;使用所映射的基于肌肉的描述符加权以动画方式显示。
附图说明
图1示出了用于生成语音动画的过程的流程图;
图2示出了创建查找表的流程图;
图3示出了以动画方式显示语音的方法的流程图;
图4示出了用于构建查找表的文本处理;
图5示出了将来自不同集合的子字符串与句子相匹配的示例;
图6示出了所检索动画片段以动画方式显示图5的字符串的组合;
图7示出了将来自不同集合的子字符串与句子相匹配的示例;
图8示出了所检索动画片段以动画方式显示图7的字符串的组合;
图9示出了视素姿势示例;
图10示出了修改的高斯函数的示例;
图11示出了两个重叠的高斯曲线的示例;
图12示出了动画系统;
图13示出了根据一个实施方案的动画优先级值的表;
图14示出了在动画合成器中使用的乘数值的表;
图15示出了与对语音具有优先级的高兴表情调和的视素姿势示例;并且
图16示出了与对语音具有优先级的担忧表情调和的视素姿势示例。
具体实施方式
如部分1“分级查找和多音级联”中所述,从记录的表演中回播动画序列以开发视素序列并填充查找表。这引入了视素转换的动力学变化并且结合了个人风格。记录的动画序列的选择基于计算有效的级联单元选择模型(使用分级搜索算法)。
可在音素开始时引入人工创建或具体选择的视素的(模型)动画序列(与从部分1所述的方法获得的动画序列调和),以确保出于唇读的目的完全开发视觉提示。这在部分2“与模型视素调和”有详细描述。所生成的语音动画序列可被平滑并调和以减少视觉伪影。部分3解释了在部分1和部分2中所公开的方法可如何在语音动画之外应用于手势动画。
部分4描述了用于允许面部表情叠加到语音动画上以将情绪变化引入语音的技术。输出加权函数确保语音和表情肌肉不会以冲突的方式表达。
本文所述的技术可用于以动画方式显示虚拟角色或数字实体(也称为化身、数字角色或自主智能体)的语音。
1.分级查找和多音级联
技术问题
过程语音动画和3D动画曲线的在线实时生成受到动画序列的小型集的限制,因为呆板机械的动画、不真实的动画和重复的动画经常且尤其是在视素转换时被观察到。
以动画方式显示语音的另一个挑战是人类协同发音,换句话讲,视素可能重叠并彼此拥挤,从而使语音的视觉表示复杂化。仅将视素序列拼接在一起不会捕获语音中发生的自然变化,因为嘴部移动可以根据其上下文(诸如先前和/或后续的视素)而变化。即,对应于音素的嘴部形状不仅取决于所说的音素本身,而且还取决于在瞬时音素之前和/或之后说出的音素。不考虑协同发音效应的动画方法对于观察者而言将被认为是虚假的,因为嘴部形状可与在与使用那些嘴部形状不一致的上下文中说出的音素结合使用。
此外,先前的语音动画技术无法明确地对语音风格建模;即,由语音的有意变化和/或与人相关的说话风格(类似于视觉口音)表现的视素形状连续体。
技术解决方案
为了以动画方式真实地显示语音字符串(诸如句子),提供了一种分级搜索算法,以便于按子字符串长度的递减顺序搜索字符串的子字符串的存储示例(动画片段),以及将所检索的子字符拼接在一起,使得它们完成语音动画的字符串。
子字符串可以是多音的独特部分音素字符串和部分(或半)音素。子字符串可以级联在音素的中点处,该中点通常是音素的最稳定部分(无论相邻音素如何,改变最小的部分),从而增加了级联子字符串之间平滑转换的机会。
模型创建
富含语音的语料库生成密集填充的查找表,该查找表中的每个项生成有动画片段的多个示例。图2示出了创建查找表的流程图。在步骤202处,对由表演者针对富含音素的语料库进行的语音表演进行运动捕获。表演者以中性面部表情进行语音表演(例如,阅读语料库)。在语音表演期间可跟踪面部界标。可例如使用亮色脸彩来在表演者面部上识别和标记跟踪作为一次讲话的面部肌肉的移动的基准界标。基准界标对面部尤其是嘴部区域中优选地具有良好覆盖,并且在视频记录中具有与表演者面部特征的良好对比度。可以在视频记录的每一帧中人工或自动地跟踪基准界标。
步骤204包括利用时间戳对语音表演进行自动化音素标记,诸如通过生成语音的上下文信息(例如,韵律标签和部分语音标签)的自然语言处理。步骤206包括将3D调和形状绑定器面部重定向到语音表演上以生成调和形状权重的时间序列。面部基准界标的移动被重定向到FACS动作单元(AU)上。如WO2017044499A1(由本申请人拥有,并且以引用的方式并入本文)中所述的图像正则化和重定向系统可用于在创建用于级联模型的数据时重定向面部表演。步骤208包括创建存储面部调和形状权重的时间序列的查找表。
查找表创建
语音动画模型的查找表基于语料库中的音素、音节、字词和句子被以分级方式组织、构建。此类信息可从文本处理模块获取,该文本处理模块包括分词器(tokeniser)、文本归一化、部分语音标注器和音素化(phonemisation)。在一个实施方案中,查找表包括九个项的集合,即,左半音、右半音、双音、句子边界双音、以元音为中心的三音、以辅音为中心的三音、句子边界三音、音节和字词集合。在每个查找表的集合中,可有一个或多个符合集合的描述的项。查找表中的项可以是部分(例如,一半)音素字符串。
语音合成中的双音级联系统的特征在于:音素可被分成左半音素和右半音素(半音)。双音(diphone或dipho)是从一个音素的中间延伸到下一个音素的中间的声学单元(即,由前一个的右半音(半音素)和后一个的左半音构成,包括每个部分(或半)音素之间的转换)。使用双音级联的合成提供了良好的语音质量,因为每个双音与相邻的双音级联在一起,其中开始和结束音素已达到稳定状态,并且因为每个双音记录了音素间的实际转换。以类似的方式,在语音动画中,为了将视素图像映射到双音,包括一系列图像的“视素”动态地描绘唇部、牙齿和舌部定位以捕获两个视素之间的转换。视素(如双音)开始于一个视素(音)期间某处,结束于下一个视素(音)期间某处。
图4中给出了示例,其示出了将句子分解成由包括多音和半音素的集合分类的项。图4示出了用于将动画片段添加到查找表的句子“Author of the danger trail PhillipSteels et cetera”的文本处理。当构建查找表时,语料库中的每个句子都经历语音分析,以显示出涉及产生该句子的声音的音素序列。穷举搜索音素序列以提供每个查找表项集合的示例性动画片段。查找表的每个集合中的项可不包含根据其持续时间分类的动画片段的示例,或者包含其一个或多个示例。
在一个实施方案中,集合包括具有不同多音单元的项。多音包括两个(双音)、三个(三音)或更多个音的组,并且可通过在稳定区域(通常为中间音素)分割期望的音分组来存储。因此,通过将多音视为基本子单元,在记录的子单元中保持两个相邻音之间的转换,并且在类似的语音姿势之间进行级联。因此,当来自不同时间点的动画片段在音素的中点处或其附近调和时,查找表中的动画片段的第一个音素和最后一个音素分别是右半音和左半音。从一个音素到另一个音素的转换是从连续成块的动画片段获得的,以确保所生成的动画的平滑流动。
字词集合包含多于一个音节的字词的动画片段。示例性句子“Author of thedanger trail Philip Steels et cetera”具有四个多于一个音节的字词。这些字词的动画片段是字词集合中不同的查找表项。在该示例中不存在的情况下,重复字词和具有相同发音的字词将进入与不同示例相同的查找项中。音节是包括一个或多个音素的发音单元,但它们中的仅一个是元音。音节集合包含用于音节和单个音节的字词的动画片段。
图4的示例性句子具有单个音节的五个字词。这些字词的动画片段是音节集合中不同/单独的查找表项。具有多个音节的字词也被分解成音节以提供用于音节查找项的示例性动画片段。例如,字词“author”被分成音节“O”和“D@”。这些音节中的每个音节进入不同的查找项。具有相同发音的音节将进入与不同示例相同的查找项中。
三音是由前面的右半音、中间的全音素和后面的右半音构成的声音单元。以元音为中心的三音集合包含所有三音的动画片段,其中中心音素为元音。穷举搜索示例性句子中的音素序列的以元音为中心的三音。具有音素的示例性句子中的第一个以元音为中心的三音“/D@O/”具有来自字词“author”的元音音素“@”。“@”前后的音素分别是来自字词“author”的“D”和来自字词“of”的“O”。以辅音为中心的三音集合包含所有三音的动画片段,其中中心音素为辅音。句子边界三音集合包含句子开始或结束时三音的动画片段。在该集合中,静音之前或之后的静音被认为是半音。在每个句子中存在两个句子边界三音,并且其来自句子中的第一个和最后一个音素。在示例性句子中,它们是来自字词“author”的/OT/和来自字词“cetera”的/r@/。由于句子之前或之后的静音在该集合中也被认为是半音,所以/O T/示例包括句子之前的静音的右半部、整个音素/O/,以及/T/的左半音。类似地,/r@/示例包括/r/的右半音、整个音素/@/,以及句子之后的静音的左半部。
双音集合包含所有双音的动画片段。句子边界双音集合包含句子开始或结束时的动画片段。在该集合中,静音之前和之后的静音被认为是半音。因此,该集合包含句子开始时的第一个半音的动画片段和句子结束时的最后一个右半音的动画片段。在每个句子中存在两个句子边界双音,并且其来自句子中的第一个和最后一个音素。在该示例性句子中,第一句子边界双音是该句子之前的静音的左半部,即来自字词“author”的右半音/O/。第二句子边界双音是来自字词“cetera”的右半音/@/和句子之后的静音的左半部。
左半音集合包含用于所有左半音的动画片段,并且右半音集合包含用于所有右半音的动画片段。
上述集合的分类仅为一种可能的分类;在其他实施方案中,集合可包括较少的颗粒集合,诸如句子集合或多字词集合。
动画的实时生成
图3示出了以动画方式显示语音的方法的流程图;在步骤302处,生成输入句子的音素时间戳和上下文信息。上下文信息包括音高、重读、音节和字词信息等。在步骤304处,如在“语音动画的生成”下所解释,基于步骤302中提供的信息来级联、选择面部调和形状权重的时间序列,以形成一个连续的“数据驱动”语音动画。在步骤306处,将与不同嘴部形状(例如,p、b、m、f、w)相关的音素与人工摆出的视素示例调和,以获得更好的视觉提示(如部分2“与模型视素调和”中进一步详细描述的)。在步骤308处,对动画进行平滑和调和。在步骤310处,基于能量来调制语音动画。在步骤312处,与音频同步地回播动画。
语音动画的生成
在接收要转变为语音的文本之后,由语音分析软件生成音素序列。使用分级算法从查找表中执行动画片段的选择。尽可能使用较大的连续成块的动画片段。查找表中的集合的搜索是穷举性的,并且仅在无法找到附加匹配时才进入分级结构中的下一个集合。
图5和图7示出了来自使用1231个句子的语料库构建的查找表的动画片段级联的示例。
图7示出了句子“And we will go meet her Wednesday at the trainstation”。在702处,搜索查找表的字词集合以用于匹配字词。在示例性句子中识别多于一个音节的字词。字词“wednesday”和“station”存在于语料库中,并且选择它们相应的动画片段。在这些动画片段的最前半个音素和最后半个音素处执行调和。在704处,在查找表的音节集合中搜索除已由步骤702处找到的字词覆盖的音节之外的音节。单音节字词和来自多音节的个别音节的字词经历分级搜索过程。匹配的音节在图的“音节”行中列出。在706处,搜索以元音为中心的三音集合。使用字词和音节集合为大多数音素找到匹配的动画片段,然而,不能为音节集合中的字词“train”(/t r EI n/)定位匹配。因此,搜索分级继续到以元音为中心的三音集合并找到用于/r EI n/的示例。在不具有在示例性句子中选择的动画片段的剩余半音中,找到匹配的以辅音为中心的三音708序列/@s d/。句子边界三音集合中没有检索到匹配的示例,因为已经为句子的第一个音素分配了右半音并且为句子的最后一个音素分配了左半音。
通过匹配双音710集合中的动画片段来填充每对两个连续音节之间的间隙,包括前部中的音节的最后一个音节的右半部以及后部处的音节的第一个音节的左半部。这两个示例性句子中的第一个半音和最后一个半音由句子边界双音集合中的匹配动画片段填充。当在两个示例性句子中不存在任何剩余间隙时,分级搜索完成。不需要在左半音和右半音集合中进行搜索,因为所有间隙都完全由来自分类中更高的集合的动画片段填充。
动画片段的选择
在记录语音表演时,记录每个动画片段在查找表中的记录索引、开始时间和结束时间。当针对被查询的给定项存在两个或更多个动画片段时,可以任何合适的方式检索动画片段。在一个实施方案中,随机检索动画片段。在另一个实施方案中,动画片段具有与对应语音片段最接近的持续时间(结束时间减去开始时间)。可基于语音特征或要生成的输入句子的上下文信息来选择动画片段。上下文信息可包括音高、重读、音节和字词信息等。在一个实施方案中,动画片段的选择可被伪随机化,使得匹配某个范围内的对应语音片段的持续时间,但在给定某个对应语音片段长度的情况下不确定地返回相同的(即,最近的)动画片段。
源(相关联的动画片段记录)语音和目标(合成)语音在大多数情况下将具有不同的音频持续时间。源动画因此被拉伸(或压缩)以适配在目标音频持续时间内。该拉伸(或压缩)可使用分段多项式插值来完成,其中源动画上的音素边界被变换以匹配目标音频。
在一个实施方案中,动画片段与它们所描绘的初始语音和/或其他声音/音频相关联。如步骤202所述,这可例如通过在表演者进行语音表演时捕获音频以及视频来实现。高质量麦克风架可以阻挡一个或多个相机记录表演者嘴部移动的方式围绕表演者定位。另选地,和/或除此之外,整个图像/视频捕获设备可位于被配置用于音频记录的隔音室中。因此,动画片段可以被存储为被级联的视觉信息和音频信息的组合,或者动画片段可以与与其对应的源音频信息相关联。
还可应用基于维特比(Viterbi)的动态编程来共同使目标成本和连接成本最小化。在这种情况下,目标成本可被定义为源(集合)语音和目标(合成)语音之间的音素持续时间、能量和音高等的差值。连接成本是级联两个音素时肌肉通道差异的总和。
2.与模型视素调和
技术问题
语音动画的一些过程模型可以包括真实的协同发音方案,例如,使用重叠的主导函数的主导模型;给定给定视素的音素相近度的情况下,给出指示给定视素达到其目标形状的接近程度的值。然而,主导模型无法准确确保双唇音的唇部闭合(/m b p/)和某些其他音素的正确描绘。
技术解决方案
在一个实施方案中,语音动画的实时生成使用模型视素来预测视素开始时的动画序列,并且使用基于查找表(数据驱动的)算法来预测视素转换处的动力学。具体摆出的模型视素可与使用另一种方法(诸如在部分1“分级查找和多音级联”下描述的方法)在要表达视素时的动画中的对应时间点处生成的语音动画调和。
模型视素
一个或多个音素的视觉示例(也称为视素)可被人工地摆出或有意地选择为模型视觉示例,这些模型视觉示例真实地示出了在其开始时的视素(下文称为“模型视素”)。模型视素可以是针对与不同嘴部形状相关的音素创建的可唇读视素,并且可有助于描绘视觉提示的完全开发以用于唇读。视素的静态姿势可以由有经验的技艺者通过改变单帧的表情权重来人工创建。图9示出了视素姿势示例(从左到右):中性、音素/m/、音素/f/、音素/w/。
有经验的技艺者可通过改变表情(FACS)权重或通过扫描真实受试者并在调和形状模型中作为增量组合调和形状添加来人工地创建视素的静态姿势。在一个实施方案中,为需要唇部或牙齿压在一起的音素(例如,/b/、/p/、/m/、/f/和/v/)以及为需要唇部嘟起的音素(例如,/o/和/w/)创建视素。这些快照在其对应音素的持续时间内的激活水平由具有平顶和峰值1(全激活)的修改的高斯函数来描述。
平顶高斯函数确保音素的视觉描绘在其完全激活下保持一定持续时间(例如,至少一个帧),使得其对于用户是可见的。该修改的高斯函数可为左偏斜的。这是为了反映视素的完全激活可发生在声音期间的任何点处的事实。例如,在产生音素“b”或“p”的声音之前,将唇部完全压在一起。基于当前音素以及当前音素之前(左侧)和之后(右侧)的音素的持续时间来自动调节高斯函数的偏斜度和幅度。
激活曲线
这些快照在其对应音素的持续时间内的激活水平由具有平顶和峰值1(全激活)的修改的高斯函数(应注意,这与平顶高斯函数不同)来描述。修改的高斯函数的权重还用作级联的动画片段与人工摆出的视素快照之间的调和权重。当帧处的修改的高斯函数的权重为1时,该帧的表情权重仅来自对应视素的人工创建的快照。当修改的高斯函数的权重为0时,该表情权重仅来自级联的动画片段。
当多个高斯函数重叠时,执行归一化步骤以调整较低优先级形状的强度。该归一化基于用户分配给每个音素的优先级权重来执行。例如,当来自/b/的视素高斯曲线与/o/的视素高斯曲线重叠时,可调节它们的强度,使得/b/主导动画以在发出/b/音素期间保持唇部的闭合。图11示出了(a)归一化之前和(b)归一化之后的两条重叠高斯曲线的示例。这些参数可通过经验或基于生理和解剖学观察来分配,诸如发音的位置。
在一个实施方案中,动画基于基于肌肉的描述符的调和形状,诸如FACS AU,并且将模型视素与使用上述“分级查找和多音级联”技术生成的动画序列调和。使用由技艺者定义的映射将所得的音素高斯曲线映射到FACS上,并且调和到级联的动画片段中。修改的高斯函数的权重用作级联的动画片段与人工摆出的视素快照之间的调和权重。当帧处的修改的高斯函数的权重为1时,该帧的表情权重仅来自对应视素的人工创建的快照。当修改的高斯函数的权重为0时,该表情权重仅来自级联的动画片段。
在更一般的方法中,描述音素形成的每个阶段处的唇部形状的参数化样条模型可用于代替修改的高斯函数。
级联的动画的平滑
在一个实施方案中,所生成的FACS动画经历两个阶段的平滑和增强过程。平滑的第一阶段对音节域上的表情权重进行操作。如果需要附加平滑,则平滑的第二阶段在句子域上对表情权重进行操作。
平滑的第一阶段使用分级滤波策略,其中将低通巴特沃斯(Butterworth)滤波器应用于每个音节,然后应用于每个字词,然后应用于每个短语。在每个水平下,巴特沃斯滤波器的截止频率从先前水平增加。这确保了与音节边界相比更高的平滑应用于音节内,并且类似地,与字词边界相比更高的平滑应用于字词内。此外,音节和字词的截止频率基于合成音素的平均持续时间来调整。这确保了与语音速率无关地保持平滑度。
平滑的第二阶段由标准动画清理操作的集合组成,诸如界定动画权重,拟合样条曲线以移除异常值,以及应用S形开窗操作来确保在语音结束之后嘴部形状返回到期望的静止位置。此外,基于语音的能量来进一步增强动画权重。例如,较大的语音将转化为一些动画通道的诸如颌部张开的较大移动。
3.通过级联生成头部和眉毛动画
头部移动和眉毛动画以与“分级查找和多音级联”中所述类似的方式生成。对于头部移动动画,使倾斜、俯仰和摇晃以及肩部平移级联。对于眉毛动画,使与眉毛运动相关的AU(诸如内眉毛抬高器和外眉毛抬高器、眉毛压低器等)级联。然而,与唇部同步动画不同,头部和眉毛动画在短语单元上操作。
头部和眉毛动画的实时生成涉及以下步骤:
1.句子和字词时间戳的生成以及输入句子的上下文信息。
2.基于步骤1中提供的信息选择的头部旋转和平移的时间序列的级联。
3.基于步骤1中提供的信息选择的眉毛动画的时间序列的级联。
4.动画的平滑和调和。
5.将情绪添加到动画信号中。
6.回播与音频同步的动画。
短语收集
收集每个短语中的音节数以找到匹配的动画片段。如果发现多个动画片段,则基于短语内的重读音节位置的相似性对它们排序。如果找到具有匹配的重读音节位置的多个短语,则通过该短语的持续时间对它们再次排序。如果在输入短语上没有找到匹配的动画片段,则该短语在连接字词的字词边界处被分成子短语。如果没有找到连接字词,则系统切换以仅匹配短语中的重读数量。如果仍然没有找到匹配,则系统将开始在最靠近短语的中点的字词边界处拆分短语(即,二分裂)。
关键字集合
某些关键词诸如good、bad、yes和no等通常与特定的头部和眉毛移动(即,点头、摇头和抬高眉毛等)相关联。如果在该短语内找到那些关键字词,则那些字词上的动画被在该集合中找到的动画片段替换。一旦生成动画,然后就过滤动画序列以使噪声平滑并移除级联伪影。
由示例性姿势生成舌部动画
由于在正常语音期间难以运动捕获舌部移动,因此舌部动画由针对每个音素的人工创建的示例性姿势生成。如“与模型视素调和”下所述,示例性姿势可以与动画调和。类似地,可基于那些音素的发音位置来导出归一化权重。
4.情绪语音
技术问题
先前方法已预先记录了以不同情绪状态拍摄的语音动画的若干示例,并且通过选择具有所期望情绪的语音动画而产生情绪语音。然而,创建这种动画模型是耗时的,因为所记录的语音量将乘以在语音期间可被表示的情绪状态的量。这是无法按比例缩放的,并且不允许微妙情绪状态容易地散布并与语音整合。其他方法已将面部分割成说话区域和情绪表达区域,并且单独地控制这些区域以动画方式显示情绪和语音。结果看起来不自然或不真实,因为整个面部可表达情绪;并且所涉及的肌肉不相互排斥。
技术解决方案
输出加权函数用于将语音输入和表情输入映射到基于肌肉的描述符加权中。
语音动画可以与表情动画组合以形成表达性语音动画。图12示出了动画系统;在简化的实施方案下,动画合成器1205接收两个动画输入,包括语音动画和表情动画。动画合成器1205使用输出加权函数来协调所接收的动画输入。例如,每当语音动画与表情动画同时被接收时,被定义为“语音主导”的动画通道(动作单元)被抑制(或被约束,换句话讲,在加权/降权的基础上被抑制),使得那些动画通道的输出动画仅受或主要受来自语音动画引擎的其相应输入的影响。
表情动画可以任何合适的方式生成。在一个实施方案中,使用对被以动画方式显示的受试者的内部情绪状态进行建模的神经行为模型/虚拟中枢神经系统来生成动画。使用神经行为模型来以动画方式显示虚拟对象或数字实体进一步公开于WO2015016723A1中,该申请也转让给本发明的受让人,并且以引用的方式并入本文中。在另一个实施方案中,可在交互期间通过受试者的共情镜像来提供动画。另选地和/或附加地,还可提供预先记录的情绪或社交表情的动画。可提供如上文所述或以其他方式的描述的任何合适的动画输入的组合。表情动画可被呈现为被添加到语音(唇部同步)动画的时变FACS AU权重的集合。
基于肌肉的描述符类别加权
为了防止表情动画干扰语音唇部同步动画或反之语音唇部同步动画干扰表情动画,定义了两个基于肌肉的描述符类别,即表情AU和语音AU。然后为每个AU分配两个类别加权(总计达1.0),从而确定每个AU在表达不同类型的动画序列(诸如语音序列或表情序列)中的相对重要性。在一些实施方案中,基于肌肉的描述符类别加权可以是输出加权函数中语音和表情动画输入的系数。
在一些实施方案中,可以应用约束,使得动画的最终肌肉权重被约束为小于或等于一,即Sum(AU)<=1。例如,微笑的完全激活(激活颧大肌AU12)与语音驱动的颧大肌AU12的激活的组合可通过使用情绪加权和语音加权两者的激活驱动最终动画来激活,但将颧大肌的最终激活约束为1。例如,似笑非笑(AU12=0.5),并说出字词“sheep”(AU12=0.75)将导致Sum(AU12)=0.5+0.75=1.25,其被约束为1。
优先级加权
在动画合成期间,每个动画输入可具有每个类别的优先级值(也总计达1.0)。该优先级值可被认为是期望被更清楚地优先化或描绘的动画序列的类型。例如,当动画旨在以清楚且可理解的方式示出语音时,可增加语音的优先级加权。相反,当动画旨在以其阻碍数字角色的语音的程度示出数字角色有情绪时,表情或情绪的优先级加权可大于语音的优先级加权,或至少有所增加。
动画合成器
动画合成器接收优先级加权,并且动画合成器确定其用于增强输入序列的乘数。在一个实施方案中,函数定义如下:
w=αs·wse·we
αs=ps+pe·(cs-ce)
αe=pe+ps·(ce-cs)
其中:
ws=输入语音权重
we=输入表情权重
ps=对语音的优先级加权
pe=对表情的优先级加权
cs=对语音的基于肌肉的描述符类别加权(分类权重)
ce=对表情的基于肌肉的描述符类别加权
αs=对语音的输出乘数
αe=对表情的输出乘数
并且αs和αe介于0和1之间。
图13示出了AU12、AU22和AU26(分别为唇角拉扯器、嘟起器和颌部张开AU)的动画优先级。在该示例中,AU12具有高表情类别加权并且没有语音类别加权,而AU22具有高语音类别加权并且没有表情类别加权。另一方面,AU26为两者的混合。当给予表情动画优先级时,让来自表情动画引擎的AU12通过(利用单位乘数),而来自语音动画引擎的AU12被完全抑制,从而防止其干扰表情占主导的动画(例如,这将在受试者也正在表达悲伤时防止受试者拉扯唇角)。然而,来自语音动画引擎的AU22将被允许通过,使得受试者将尝试形成说出的字词(例如,在哭泣时尝试说话)。由于AU22不与情绪发生冲突,因此其不受阻碍。当类别加权相等(即AU26)时,还将抑制语音通道以防止其双重激活和破坏表情动画。
当给予语音动画优先级时,让来自表情动画引擎和语音动画引擎两者的AU12通过。这是因为AU12是以表情为主的AU,并且不干扰语音动画。将允许来自语音动画引擎的AU22形成说出的字词,但将抑制表情动画引擎以防止干扰。类似地,还将禁止来自表情动画引擎的AU26,但来自语音动画引擎的AU26将被允许通过。
对于其他类别加权组合(例如,AU24,唇下压器在表情动画和语音动画上分别具有0.2和0.8的类别加权),动画合成器将在零和一之间将非单位乘数应用于输入动画序列以减轻干扰。
图14示出了用于AU24的动画合成器的增强的示例。图15示出了与具有对语音(左上)高兴表情、(右上)音素/m/、(左下)音素/f/、(右下)音素/w/的优先级的高兴表情调和的视素姿势示例。AU26(颌部张开)被抑制,但是AU06(脸颊抬高器)和AU12(唇角拉扯器)在形成视素形状时保持存在。图16示出了与具有对语音(左上)担忧表情、(右上)音素/m/、(左下)音素/f/、(右下)音素/w/的优先级的担忧表情调和的视素姿势示例。AU24(唇部下压器)被抑制,但是AU04(眉毛压低器)在形成视素形状时保持存在。
针对语音动画定制“口音”
视素示例性姿势和高斯函数修改器的可定制性允许用户调整化身的说话风格和个性。这(与可使解剖结构、面部表情以及皮肤纹理变形的数字角色调和系统(如prov.App.NZ747626中所述)相结合))将允许创建具有独特说话个性的新角色。
此外,该系统可结合多个查找表,这些查找表是来自说不同语言、口音或发音风格的不同人的捕获。在动画生成阶段期间,用户可以选择从哪个表中重构动画以便匹配调和的化身的视觉外观。
与插值组合
将所得的语音动画馈送到调和形状插值和动画框架[NZ Prov.App.747627]中,以产生具有组合和增量形状的非线性插值的可信调和形状动画。此外,视素示例性姿势可从表演者/女性表演者的3D扫描创建或由数字技艺者刻画。然后可将这些示例性姿势添加为增量组合形状,从而允许对这些音素上的所得唇部形状进行附加定制。
此外,代替在FACS调和形状上操作,可使用基于视素的调和形状。使用NZ747627定义的命名方案,动画框架可用于在动画阶段期间将基于视素的调和形状分解成FACS AU。该方法的优点在于它将为用户提供更直观的控件。此外,这也将约束面部重定向系统仅解析基于视素的调和形状,从而产生对语音序列的更干净的解析结果。
示例性实施方案
在一个实施方案中,AU通道被分类为以下组:
·语音嘴部AU,例如:AU08唇部相向、AU18唇部噘起器、AU22唇部嘟起器等。
·情绪嘴部AU,例如AU12唇角拉扯器、AU15唇角下撇器、AU21颈部紧缩器
·其他嘴部AU,例如AU16下唇下撇器、AU25唇部微张、AU35脸颊吮吸等。
·非嘴部AU,例如AU01内眉毛抬高器、AU05上眼帘抬高器、AU09鼻子皱起器等。
在一个实施方案中,当以动画方式显示的数字角色/虚拟实体开始说话时,时间平滑的抑制信号被激活。抑制信号初始为零,并且随着化身讲话而逐渐增加到最大值一(增加速率是可调整的参数,其可以设置为约100ms)。抑制信号减少了来自情绪流(表情动画输入)的某些AU组的贡献。抑制百分比可通过其他网络人工设定和/或动态改变。在一个实施方案中,如上定义的AU分类减少如下:
·语音嘴部AU-减少100%
·情绪嘴部AU-减少50%
·其他嘴部AU-减少100%
·非嘴部AU-减少10%
除了AU组之外,还可设置各个AUC上的特定减少因子。当化身结束说话时,抑制信号逐渐减小并返回到零。通常将减小速率设定为较慢的节奏(约500ms),以允许在化身结束说话之后充分的表达力返回到面部。
附图标记列表
1 动画片段
2 查找表
3 集合
4 项
5 实例
6 模型视素
7 字符串
8 基于肌肉的描述符类别加权
9 优先级加权
10 输出加权函数
11 语音
12 表情
13 基于肌肉的描述符
14 动画合成器
解释
虽然已经参考英语语言描述了上述方法和技术,但是本发明在这个方面不受限制。可修改实施方案以促进任何语言的语音动画。可使用基于骨骼的动画绑定或任何其他合适的动画技术来代替调和形状动画。
在上述一些实施方案中,肌肉变形描述符是由面部动作编码系统(FACS)识别的动作单元(AU)420。动作单元的示例包括“内眉毛抬高器”、“外眉毛抬高器”、“唇角拉扯器”、“颌部张开”和“唇角拉扯器和颌部张开”。然而,可使用肌肉变形描述符的任何合适分类。例如,肌肉变形描述符也可以统计方式计算。例如,可使用主分量分析(PCA)来计算动画中帧的网格形状变化的主分量。当在动画中仅涉及感兴趣的肌肉时,所计算的主分量可用作肌肉变形描述符。
所描述的方法和系统可用于任何合适的电子计算系统。根据下文所述的实施方案,电子计算系统使用各种模块和引擎来利用本发明的方法。
电子计算系统可包括:至少一个处理器;一个或多个存储器装置或用于连接到一个或多个存储器装置的接口;输入接口和输出接口,该输入接口和输出接口用于连接到外部装置,以便使系统能够根据来自一个或多个用户或外部系统的指令接收和操作;数据总线,该数据总线用于各种组件之间的内部和外部通信;以及合适的电源。此外,电子计算系统可包括用于与外部和内部装置通信的一个或多个通信装置(有线或无线),以及一个或多个输入/输出装置,诸如显示器、指向装置、键盘或打印装置。
处理器被布置成执行作为程序指令存储在存储器装置内的程序的步骤。程序指令使如本文所述执行本发明的各种方法能够被执行。程序指令可使用任何合适的软件编程语言和工具包(诸如例如基于C的语言和编译器)来开发或实现。此外,程序指令可以任何合适的方式存储,使得它们可被传输到存储器装置或由处理器读取,诸如例如存储在计算机可读介质上。计算机可读介质可以是用于有形地存储程序指令的任何合适的介质,诸如例如固态存储器、磁带、光盘(CD-ROM或CD-R/W)、存储器卡、闪存存储器、光盘、磁盘或任何其他合适的计算机可读介质。电子计算系统被布置成与数据存储系统或装置(例如,外部数据存储系统或装置)通信以便检索相关数据。
应当理解,本文所述的系统包括被布置成执行如本文所述的各种功能和方法的一个或多个元件。本文所述的实施方案旨在向读者提供构成系统的元件的各种模块和/或引擎可如何互连以实现要实施功能的示例。此外,本说明书的实施方案以系统相关的细节解释了可如何执行本文所述的方法的步骤。提供概念图是为了向读者指示如何由各种不同模块和/或引擎在不同阶段处理各种数据元。
应当理解,模块或引擎的布置和构造可根据系统和用户要求相应地进行调整,使得各种功能可由与本文所述的那些不同的模块或引擎执行,并且某些模块或引擎可组合成单个模块或引擎。
应当理解,可使用任何合适形式的技术利用指令来实现并设置所描述的模块和/或引擎。例如,模块或引擎可使用以任何合适的语言编写的任何合适的软件代码来实现或创建,其中代码随后被编译以产生可在任何合适的计算系统上运行的可执行程序。另选地,或是结合可执行程序,模块或引擎可使用硬件、固件和软件的任何合适的混合来实现。例如,模块的部分可使用专用集成电路(ASIC)、片上系统(SoC)、现场可编程门阵列(FPGA)或任何其他合适的自适应或可编程处理装置来实现。
本文所述的方法可使用被特别编程以执行所述步骤的通用计算系统来实现。另选地,本文所述的方法可使用特定的电子计算机系统来实现,诸如数据分类和可视化计算机、数据库查询计算机、图形分析计算机、数据分析计算机、制造数据分析计算机、商业智能计算机、人工智能计算机系统等,其中计算机已特别适于对从与特定字段相关联的环境捕获的特定数据执行所述步骤。

Claims (29)

1.一种用于以动画方式显示社交话语的方法,所述方法包括:接收:
字符串,所述字符串要以动画方式显示,所述字符串包括多个社交话语原子,
多个集合,每个集合包括多个项,所述多个项包括独特原子字符串,每个集合存储不同长度的项;并且
每个项包括所述项的至少一个动画片段;
在所述集合中以分级方式搜索与所述字符串的子字符串相匹配的项;
检索所匹配的项的动画片段以覆盖社交话语原子;以及
组合所检索的动画片段以动画方式显示所述字符串。
2.根据权利要求1所述的方法,其中所述社交话语是语音。
3.根据权利要求1或权利要求2所述的方法,其中所述分级顺序有利于更长的项。
4.根据权利要求1至3中任一项所述的方法,其中至少一个项包括多个动画片段,并且动画片段被随机检索。
5.根据权利要求1至3中任一项所述的方法,其中至少一个项包括多个动画片段,并且动画片段基于其持续时间来检索。
6.根据权利要求1至3中任一项所述的方法,其中至少一个项包括多个动画片段,并且动画片段基于对应语音特征来检索。
7.根据任一前述权利要求所述的方法,其中动画片段与声音相关联,所述声音与所述动画相对应。
8.根据权利要求7所述的方法,所述方法包括以下步骤:压缩和/或拉伸动画片段以与所述声音相匹配,所述声音与所述动画相对应。
9.根据任一前述权利要求所述的方法,其中所述多个集合中的每个集合中的所述项为一个项类型,所述项类型选自由以下各项组成的组:左半音、右半音、双音、句子边界双音、以元音为中心的三音、以辅音为中心的三音、句子边界三音、音节字词或单音节字词,以及多音节字词。
10.根据任一前述权利要求所述的方法,其中所述项包括部分音素字符串。
11.根据权利要求1至10中任一项所述的方法,其中动画片段存储基于骨骼的动画绑定器的变形参数。
12.根据权利要求1至10中任一项所述的方法,其中动画片段存储基于肌肉的描述符权重。
13.根据权利要求1至10中任一项所述的方法,其中动画片段存储调和形状权重。
14.一种用于以动画方式显示语音的方法,所述方法包括:
接收:
要以动画方式显示的音素字符串,和
多个动画片段,所述多个动画片段包括多音字符串和部分音素字符串,所述字符串被配置为在音素的最稳定部分处或附近级联;
搜索并检索与所述音素字符串的子字符串相匹配的动画片段以覆盖所述音素字符串;
以及组合所检索的动画片段以动画方式显示所述字符串。
15.根据权利要求14所述的方法,其中部分音素为半音素。
16.一种用于在上下文中以动画方式显示音素的方法,所述方法包括:
接收:
模型视素,和
动画片段,所述动画片段与在上下文中发音的所述音素的动画权重的时间序列相对应;
在所述模型视素的所述动画权重和所述动画片段的所述动画权重之间进行调和,以在上下中以动画方式显示所述音素。
17.根据权利要求16所述的方法,其中所述模型视素为可唇读视素,所述可唇读视素以可唇读方式描绘所述音素。
18.根据权利要求16所述的方法,其中所述模型视素为不同的嘴部形状,所述嘴部形状选自由以下各项组成的组:p、b、m、f、w。
19.根据权利要求16所述的方法,其中所述模型视素被表示为基于肌肉的语音描述符。
20.根据权利要求16所述的方法,其中所述模型视素被表示为动画序列。
21.根据权利要求16至20中任一项所述的方法,其中通过高斯函数对所述模型视素随时间推移的调和程度进行建模,其中所述高斯函数的峰值在所述音素发音的峰值处或附近。
22.根据权利要求21所述的方法,其中所述高斯函数为平顶函数。
23.根据权利要求21或权利要求22所述的方法,其中所述高斯函数是左偏斜的。
24.一种用于表达性语音动画的方法,所述方法包括:接收:
第一动画输入,所述第一动画输入与基于肌肉的描述符信息相关联,和
第二动画输入,所述第二动画输入与基于肌肉的描述符信息相关联;
使用所述第一动画输入和所述第二动画输入作为输出加权函数中的自变量,所述输出加权函数被配置为将所述动画输入映射到基于肌肉的描述符加权,以用于以动画方式显示所述表达性语音动画,
其中所述输出加权函数被配置为协调来自所述第一动画输入和所述第二动画输入的基于肌肉的描述符信息,以及;
使用所映射的基于肌肉的描述符加权以动画方式显示。
25.根据权利要求24所述的方法,所述方法包括以下步骤:为每个基于肌肉的描述符定义至少一个基于肌肉的描述符类别加权,其中所述输出加权函数是所述基于肌肉的描述符类别加权的函数。
26.根据权利要求24或25所述的方法,所述方法包括以下步骤:接收每个动画输入的优先级加权,其中所述输出加权函数是所述优先级加权的函数。
27.根据权利要求24至26中任一项所述的方法,其中所述第一动画输入用于以动画方式显示语音。
28.根据权利要求24至27中任一项所述的方法,其中所述第二动画输入用于以动画方式显示表情。
29.一种非暂态计算机可读介质,所述非暂态计算机可读介质存储程序,所述程序使得计算机实现根据权利要求1至28中任一项所述的方法。
CN202080008157.2A 2019-01-25 2020-01-27 语音动画的实时生成 Pending CN113383384A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
NZ750233 2019-01-25
NZ75023319 2019-01-25
PCT/IB2020/050620 WO2020152657A1 (en) 2019-01-25 2020-01-27 Real-time generation of speech animation

Publications (1)

Publication Number Publication Date
CN113383384A true CN113383384A (zh) 2021-09-10

Family

ID=71736559

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080008157.2A Pending CN113383384A (zh) 2019-01-25 2020-01-27 语音动画的实时生成

Country Status (8)

Country Link
US (1) US20220108510A1 (zh)
EP (1) EP3915108B1 (zh)
JP (1) JP2022518721A (zh)
KR (1) KR20210114521A (zh)
CN (1) CN113383384A (zh)
AU (1) AU2020211809A1 (zh)
CA (1) CA3128047A1 (zh)
WO (1) WO2020152657A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116912376A (zh) * 2023-09-14 2023-10-20 腾讯科技(深圳)有限公司 口型动画生成方法、装置、计算机设备和存储介质
CN117037255A (zh) * 2023-08-22 2023-11-10 北京中科深智科技有限公司 基于有向图的3d表情合成方法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111354370B (zh) * 2020-02-13 2021-06-25 百度在线网络技术(北京)有限公司 一种唇形特征预测方法、装置和电子设备
US11756251B2 (en) * 2020-09-03 2023-09-12 Sony Interactive Entertainment Inc. Facial animation control by automatic generation of facial action units using text and speech
CN112215927B (zh) * 2020-09-18 2023-06-23 腾讯科技(深圳)有限公司 人脸视频的合成方法、装置、设备及介质
CN112333179B (zh) * 2020-10-30 2023-11-10 腾讯科技(深圳)有限公司 虚拟视频的直播方法、装置、设备及可读存储介质
KR102555103B1 (ko) * 2021-09-02 2023-07-17 (주)씨유박스 얼굴영상을 이용한 액티브 라이브니스 검출 방법 및 장치
CN116188649B (zh) * 2023-04-27 2023-10-13 科大讯飞股份有限公司 基于语音的三维人脸模型驱动方法及相关装置

Family Cites Families (84)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5657426A (en) * 1994-06-10 1997-08-12 Digital Equipment Corporation Method and apparatus for producing audio-visual synthetic speech
US5880788A (en) * 1996-03-25 1999-03-09 Interval Research Corporation Automated synchronization of video image sequences to new soundtracks
US6208356B1 (en) * 1997-03-24 2001-03-27 British Telecommunications Public Limited Company Image synthesis
US6970172B2 (en) * 1997-03-27 2005-11-29 At&T Corp. Method for defining MPEG 4 animation parameters for an animation definition interface
US6147692A (en) * 1997-06-25 2000-11-14 Haptek, Inc. Method and apparatus for controlling transformation of two and three-dimensional images
WO2000030069A2 (en) * 1998-11-13 2000-05-25 Lernout & Hauspie Speech Products N.V. Speech synthesis using concatenation of speech waveforms
US6504546B1 (en) * 2000-02-08 2003-01-07 At&T Corp. Method of modeling objects to synthesize three-dimensional, photo-realistic animations
US6539354B1 (en) * 2000-03-24 2003-03-25 Fluent Speech Technologies, Inc. Methods and devices for producing and using synthetic visual speech based on natural coarticulation
WO2002025595A1 (en) * 2000-09-21 2002-03-28 The Regents Of The University Of California Visual display methods for use in computer-animated speech production models
WO2002050813A2 (en) * 2000-12-19 2002-06-27 Speechview Ltd. Generating visual representation of speech by any individuals of a population
US6654018B1 (en) * 2001-03-29 2003-11-25 At&T Corp. Audio-visual selection process for the synthesis of photo-realistic talking-head animations
US7209882B1 (en) * 2002-05-10 2007-04-24 At&T Corp. System and method for triphone-based unit selection for visual speech synthesis
US20100085363A1 (en) * 2002-08-14 2010-04-08 PRTH-Brand-CIP Photo Realistic Talking Head Creation, Content Creation, and Distribution System and Method
US7257538B2 (en) * 2002-10-07 2007-08-14 Intel Corporation Generating animation from visual and audio input
US7168953B1 (en) * 2003-01-27 2007-01-30 Massachusetts Institute Of Technology Trainable videorealistic speech animation
WO2004100128A1 (en) * 2003-04-18 2004-11-18 Unisay Sdn. Bhd. System for generating a timed phomeme and visem list
GB2404040A (en) * 2003-07-16 2005-01-19 Canon Kk Lattice matching
US7990384B2 (en) * 2003-09-15 2011-08-02 At&T Intellectual Property Ii, L.P. Audio-visual selection process for the synthesis of photo-realistic talking-head animations
KR20060090687A (ko) * 2003-09-30 2006-08-14 코닌클리케 필립스 일렉트로닉스 엔.브이. 시청각 콘텐츠 합성을 위한 시스템 및 방법
US20060009978A1 (en) * 2004-07-02 2006-01-12 The Regents Of The University Of Colorado Methods and systems for synthesis of accurate visible speech via transformation of motion capture data
US7388586B2 (en) * 2005-03-31 2008-06-17 Intel Corporation Method and apparatus for animation of a human speaker
US20080294433A1 (en) * 2005-05-27 2008-11-27 Minerva Yeung Automatic Text-Speech Mapping Tool
US20070033042A1 (en) * 2005-08-03 2007-02-08 International Business Machines Corporation Speech detection fusing multi-class acoustic-phonetic, and energy features
CN1991982A (zh) * 2005-12-29 2007-07-04 摩托罗拉公司 一种使用语音数据激励图像的方法
CA2654960A1 (en) * 2006-04-10 2008-12-24 Avaworks Incorporated Do-it-yourself photo realistic talking head creation system and method
KR100813034B1 (ko) * 2006-12-07 2008-03-14 한국전자통신연구원 캐릭터 형성방법
TWI454955B (zh) * 2006-12-29 2014-10-01 Nuance Communications Inc 使用模型檔產生動畫的方法及電腦可讀取的訊號承載媒體
US20090044112A1 (en) * 2007-08-09 2009-02-12 H-Care Srl Animated Digital Assistant
JP5109038B2 (ja) * 2007-09-10 2012-12-26 株式会社国際電気通信基礎技術研究所 リップシンクアニメーション作成装置及びコンピュータプログラム
US8380503B2 (en) * 2008-06-23 2013-02-19 John Nicholas and Kristin Gross Trust System and method for generating challenge items for CAPTCHAs
US8392190B2 (en) * 2008-12-01 2013-03-05 Educational Testing Service Systems and methods for assessment of non-native spontaneous speech
WO2010074786A2 (en) * 2008-12-04 2010-07-01 Total Immersion Software, Inc. System and methods for dynamically injecting expression information into an animated facial mesh
US20100332229A1 (en) * 2009-06-30 2010-12-30 Sony Corporation Apparatus control based on visual lip share recognition
US20110106792A1 (en) * 2009-11-05 2011-05-05 I2 Limited System and method for word matching and indexing
BRPI0904540B1 (pt) * 2009-11-27 2021-01-26 Samsung Eletrônica Da Amazônia Ltda método para animar rostos/cabeças/personagens virtuais via processamento de voz
KR101153736B1 (ko) * 2010-05-31 2012-06-05 봉래 박 발음기관 애니메이션 생성 장치 및 방법
US20120130717A1 (en) * 2010-11-19 2012-05-24 Microsoft Corporation Real-time Animation for an Expressive Avatar
US8744856B1 (en) * 2011-02-22 2014-06-03 Carnegie Speech Company Computer implemented system and method and computer program product for evaluating pronunciation of phonemes in a language
CN103650002B (zh) * 2011-05-06 2018-02-23 西尔股份有限公司 基于文本的视频生成
KR101558202B1 (ko) * 2011-05-23 2015-10-12 한국전자통신연구원 아바타를 이용한 애니메이션 생성 장치 및 방법
JP5752060B2 (ja) * 2012-01-19 2015-07-22 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、大語彙連続音声認識方法及びプログラム
JP5665780B2 (ja) * 2012-02-21 2015-02-04 株式会社東芝 音声合成装置、方法およびプログラム
US9094576B1 (en) * 2013-03-12 2015-07-28 Amazon Technologies, Inc. Rendered audiovisual communication
US10170114B2 (en) * 2013-05-30 2019-01-01 Promptu Systems Corporation Systems and methods for adaptive proper name entity recognition and understanding
KR20140146965A (ko) * 2013-06-18 2014-12-29 삼성전자주식회사 디스플레이 장치, 서버를 포함하는 변환 시스템 및 디스플레이 장치의 제어 방법
GB2517212B (en) * 2013-08-16 2018-04-25 Toshiba Res Europe Limited A Computer Generated Emulation of a subject
US20150287403A1 (en) * 2014-04-07 2015-10-08 Neta Holzer Zaslansky Device, system, and method of automatically generating an animated content-item
US9956407B2 (en) * 2014-08-04 2018-05-01 Cochlear Limited Tonal deafness compensation in an auditory prosthesis system
US20190147838A1 (en) * 2014-08-22 2019-05-16 Zya, Inc. Systems and methods for generating animated multimedia compositions
US10360716B1 (en) * 2015-09-18 2019-07-23 Amazon Technologies, Inc. Enhanced avatar animation
WO2017075452A1 (en) * 2015-10-29 2017-05-04 True Image Interactive, Inc Systems and methods for machine-generated avatars
US9911218B2 (en) * 2015-12-01 2018-03-06 Disney Enterprises, Inc. Systems and methods for speech animation using visemes with phonetic boundary context
US9837069B2 (en) * 2015-12-22 2017-12-05 Intel Corporation Technologies for end-of-sentence detection using syntactic coherence
US10217261B2 (en) * 2016-02-18 2019-02-26 Pinscreen, Inc. Deep learning-based facial animation for head-mounted display
JP6690484B2 (ja) * 2016-09-15 2020-04-28 富士通株式会社 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
US11145100B2 (en) * 2017-01-12 2021-10-12 The Regents Of The University Of Colorado, A Body Corporate Method and system for implementing three-dimensional facial modeling and visual speech synthesis
US10839825B2 (en) * 2017-03-03 2020-11-17 The Governing Council Of The University Of Toronto System and method for animated lip synchronization
US10530928B1 (en) * 2017-03-15 2020-01-07 Noble Systems Corporation Answering machine detection (“AMD”) for a contact center by using AMD meta-data
JP6866715B2 (ja) * 2017-03-22 2021-04-28 カシオ計算機株式会社 情報処理装置、感情認識方法、及び、プログラム
US20200027440A1 (en) * 2017-03-23 2020-01-23 D&M Holdings, Inc. System Providing Expressive and Emotive Text-to-Speech
US10629223B2 (en) * 2017-05-31 2020-04-21 International Business Machines Corporation Fast playback in media files with reduced impact to speech quality
US10732708B1 (en) * 2017-11-21 2020-08-04 Amazon Technologies, Inc. Disambiguation of virtual reality information using multi-modal data including speech
US10586369B1 (en) * 2018-01-31 2020-03-10 Amazon Technologies, Inc. Using dialog and contextual data of a virtual reality environment to create metadata to drive avatar animation
US10643602B2 (en) * 2018-03-16 2020-05-05 Microsoft Technology Licensing, Llc Adversarial teacher-student learning for unsupervised domain adaptation
WO2019219968A1 (en) * 2018-05-18 2019-11-21 Deepmind Technologies Limited Visual speech recognition by phoneme prediction
US10699705B2 (en) * 2018-06-22 2020-06-30 Adobe Inc. Using machine-learning models to determine movements of a mouth corresponding to live speech
US11468616B1 (en) * 2018-09-17 2022-10-11 Meta Platforms Technologies, Llc Systems and methods for improving animation of computer-generated avatars
US11238885B2 (en) * 2018-10-29 2022-02-01 Microsoft Technology Licensing, Llc Computing system for expressive three-dimensional facial animation
US10825224B2 (en) * 2018-11-20 2020-11-03 Adobe Inc. Automatic viseme detection for generating animatable puppet
US11024071B2 (en) * 2019-01-02 2021-06-01 Espiritu Technologies, Llc Method of converting phoneme transcription data into lip sync animation data for 3D animation software
US20200279553A1 (en) * 2019-02-28 2020-09-03 Microsoft Technology Licensing, Llc Linguistic style matching agent
US11049308B2 (en) * 2019-03-21 2021-06-29 Electronic Arts Inc. Generating facial position data based on audio data
US11627283B2 (en) * 2019-05-09 2023-04-11 Present Communications, Inc. Method for enabling synthetic autopilot video functions and for publishing a synthetic video feed as a virtual camera during a video call
US20230353707A1 (en) * 2019-05-09 2023-11-02 Present Communications, Inc. Method for enabling synthetic autopilot video functions and for publishing a synthetic video feed as a virtual camera during a video call
US11671562B2 (en) * 2019-05-09 2023-06-06 Present Communications, Inc. Method for enabling synthetic autopilot video functions and for publishing a synthetic video feed as a virtual camera during a video call
US11551393B2 (en) * 2019-07-23 2023-01-10 LoomAi, Inc. Systems and methods for animation generation
US11593984B2 (en) * 2020-02-07 2023-02-28 Apple Inc. Using text for avatar animation
US11417041B2 (en) * 2020-02-12 2022-08-16 Adobe Inc. Style-aware audio-driven talking head animation from a single image
US11244668B2 (en) * 2020-05-29 2022-02-08 TCL Research America Inc. Device and method for generating speech animation
US20210390949A1 (en) * 2020-06-16 2021-12-16 Netflix, Inc. Systems and methods for phoneme and viseme recognition
US11682153B2 (en) * 2020-09-12 2023-06-20 Jingdong Digits Technology Holding Co., Ltd. System and method for synthesizing photo-realistic video of a speech
US20230111633A1 (en) * 2021-10-08 2023-04-13 Accenture Global Solutions Limited Lead conversion using conversational virtual avatar
US20230130287A1 (en) * 2021-10-27 2023-04-27 Samsung Electronics Co., Ltd. Light-weight machine learning models for lip sync animation on mobile devices or other devices
US20230237987A1 (en) * 2022-01-21 2023-07-27 International Business Machines Corporation Data sorting for generating rnn-t models

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117037255A (zh) * 2023-08-22 2023-11-10 北京中科深智科技有限公司 基于有向图的3d表情合成方法
CN116912376A (zh) * 2023-09-14 2023-10-20 腾讯科技(深圳)有限公司 口型动画生成方法、装置、计算机设备和存储介质
CN116912376B (zh) * 2023-09-14 2023-12-22 腾讯科技(深圳)有限公司 口型动画生成方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
EP3915108B1 (en) 2023-11-29
EP3915108A4 (en) 2022-09-07
WO2020152657A1 (en) 2020-07-30
US20220108510A1 (en) 2022-04-07
CA3128047A1 (en) 2020-07-30
AU2020211809A1 (en) 2021-07-29
JP2022518721A (ja) 2022-03-16
KR20210114521A (ko) 2021-09-23
EP3915108A1 (en) 2021-12-01
EP3915108C0 (en) 2023-11-29

Similar Documents

Publication Publication Date Title
CN113383384A (zh) 语音动画的实时生成
Taylor et al. A deep learning approach for generalized speech animation
Cao et al. Expressive speech-driven facial animation
US8224652B2 (en) Speech and text driven HMM-based body animation synthesis
US9361722B2 (en) Synthetic audiovisual storyteller
US9959657B2 (en) Computer generated head
US7663628B2 (en) Apparatus and method for efficient animation of believable speaking 3D characters in real time
US20120130717A1 (en) Real-time Animation for an Expressive Avatar
CN110880315A (zh) 一种基于音素后验概率的个性化语音和视频生成系统
US20020024519A1 (en) System and method for producing three-dimensional moving picture authoring tool supporting synthesis of motion, facial expression, lip synchronizing and lip synchronized voice of three-dimensional character
US8078466B2 (en) Coarticulation method for audio-visual text-to-speech synthesis
US20140210831A1 (en) Computer generated head
KR20110081364A (ko) 캐릭터의 발화와 감정표현 제공 시스템 및 방법
CN115311731B (zh) 一种手语数字人的表情生成方法和装置
Breen et al. An investigation into the generation of mouth shapes for a talking head
Pan et al. VOCAL: Vowel and Consonant Layering for Expressive Animator-Centric Singing Animation
CN113362432B (zh) 一种面部动画生成方法及装置
D’alessandro et al. Reactive statistical mapping: Towards the sketching of performative control with data
EP0982684A1 (en) Moving picture generating device and image control network learning device
Verma et al. Animating expressive faces across languages
Kolivand et al. Realistic lip syncing for virtual character using common viseme set
Wang et al. A real-time Cantonese text-to-audiovisual speech synthesizer
Edge et al. Model-based synthesis of visual speech movements from 3D video
Çakmak et al. HMM-based generation of laughter facial expression
Chu et al. CorrTalk: Correlation Between Hierarchical Speech and Facial Activity Variances for 3D Animation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination