CN113383384A

CN113383384A - 语音动画的实时生成

Info

Publication number: CN113383384A
Application number: CN202080008157.2A
Authority: CN
Inventors: M·萨加尔; T·吴; 谭霞妮; 张雪源
Original assignee: Somerset Intelligence Co ltd
Current assignee: Somerset Intelligence Co ltd
Priority date: 2019-01-25
Filing date: 2020-01-27
Publication date: 2021-09-10
Also published as: EP3915108B1; EP3915108A4; WO2020152657A1; US20220108510A1; CA3128047A1; AU2020211809A1; JP2022518721A; KR20210114521A; EP3915108A1; EP3915108C0

Abstract

为了以动画方式真实地显示字符串(诸如句子)，提供了一种分级搜索算法以按子字符串长度的递减顺序搜索该字符串的子字符串的存储示例(动画片段)，并且级联所检索的子字符串以完成语音动画的字符串。在一个实施方案中，实时生成语音动画使用模型视素来预测视素开始时的动画序列，并且使用基于查找表(数据驱动)的算法来预测视素转换处的动力学。具体摆出的模型视素可与使用另一种方法在要表达视素时的动画中的对应时间点处生成的语音动画调和。输出加权函数用于将语音输入和表情输入映射到基于肌肉的描述符加权中。

Description

语音动画的实时生成

技术领域

本发明的实施方案涉及语音动画的实时生成。

背景技术

用于以动画方式显示语音的计算机面部动画技术包括过程、数据驱动或基于表演捕获的技术。

语料库(文本集合)中的每个句子可被表示为音素序列(不同语音/声音的单位)和表示为视素序列(示出音素被发音的音素的视觉等效)。过程语音动画包括将音素转变为视素的规则或查找表。语音的3D动画曲线的在线实时生成可通过使用音素查找视素的动画序列来执行。此类方法受到动画序列的小型集的限制，因为呆板机械的动画、不真实的动画和重复的动画经常且尤其是在视素转换时被观察到。

数据驱动(统计)方法拼接来自大型语料库的面部动画数据的片段，以匹配输入语音轨道。面部动力学由多维形变模型、隐马尔可夫(Markov)模型和主动外观模型(AAM)捕获。数据驱动方法的质量通常受到可用数据的限制。统计模型直接驱动面部，从而控制面部远离动画器。

基于表演捕获的语音动画将所获取的运动数据从人类表演者传输到数字面部模型上。一种方法使用预先捕获的数据库来用经过训练的深度神经网络校正表演捕获，以从音频输入中实时提取音素概率。训练此类模型需要手绘动画序列或表演的大型数据集。所得模型通常是复杂的，使得回播和推断难以实时实现。动画质量受限于所捕获的表演者的能力，因为动画器很难进行提炼。

先前的语音动画技术也无法充分地适应语音动画与情绪表达动画的组合。

发明目的

本发明的目的是改进语音动画的实时生成或至少为公众或业界提供有用的选择。

发明内容

一种用于以动画方式显示语音的方法，该方法包括：接收：要以动画方式显示的字符串，该字符串包括多个社交话语(例如，语音)原子；多个集合，每个集合包括多个项，该多个项包括独特原子字符串，每个集合存储不同长度的项；以及每个项包括该项的至少一个动画片段；在该集合中以分级方式搜索与该字符串的子字符串相匹配的项；检索所匹配的项的动画片段以覆盖语音原子；以及组合所检索的动画片段以动画方式显示该字符串。

一种用于以动画方式显示语音的方法，该方法包括：接收：要以动画方式显示的音素字符串；和多个动画片段，该多个动画片段包括多音字符串和部分音素字符串，该字符串被配置为在音素的最稳定部分处或附近级联；搜索并检索与该音素字符串的子字符串相匹配的动画片段以覆盖该音素字符串；以及组合所检索动画片段以动画方式显示该字符串。

一种用于在上下文中以动画方式显示音素的方法，该方法包括：接收：模型视素，和动画片段，该动画片段与在上下文中发音的该音素的动画权重的时间序列相对应；在该模型视素的该动画权重与该动画片段的该动画权重之间进行调和，以在上下文中以动画方式显示该音素。

一种用于表达性语音动画的方法，该方法包括：接收第一动画输入和第二动画输入，该第一动画输入与基于肌肉的描述符信息相关联，该第二动画输入与基于肌肉的描述符信息相关联；使用该第一动画输入和该第二动画输入作为输出加权函数中的自变量，该输出加权函数被配置为将该动画输入映射到基于肌肉的描述符加权，以用于以动画方式显示该表达性语音动画，其中该输出加权函数被配置为协调来自该第一动画输入和该第二动画输入的基于肌肉的描述符信息，以及；使用所映射的基于肌肉的描述符加权以动画方式显示。

附图说明

图1示出了用于生成语音动画的过程的流程图；

图2示出了创建查找表的流程图；

图3示出了以动画方式显示语音的方法的流程图；

图4示出了用于构建查找表的文本处理；

图5示出了将来自不同集合的子字符串与句子相匹配的示例；

图6示出了所检索动画片段以动画方式显示图5的字符串的组合；

图7示出了将来自不同集合的子字符串与句子相匹配的示例；

图8示出了所检索动画片段以动画方式显示图7的字符串的组合；

图9示出了视素姿势示例；

图10示出了修改的高斯函数的示例；

图11示出了两个重叠的高斯曲线的示例；

图12示出了动画系统；

图13示出了根据一个实施方案的动画优先级值的表；

图14示出了在动画合成器中使用的乘数值的表；

图15示出了与对语音具有优先级的高兴表情调和的视素姿势示例；并且

图16示出了与对语音具有优先级的担忧表情调和的视素姿势示例。

具体实施方式

如部分1“分级查找和多音级联”中所述，从记录的表演中回播动画序列以开发视素序列并填充查找表。这引入了视素转换的动力学变化并且结合了个人风格。记录的动画序列的选择基于计算有效的级联单元选择模型(使用分级搜索算法)。

可在音素开始时引入人工创建或具体选择的视素的(模型)动画序列(与从部分1所述的方法获得的动画序列调和)，以确保出于唇读的目的完全开发视觉提示。这在部分2“与模型视素调和”有详细描述。所生成的语音动画序列可被平滑并调和以减少视觉伪影。部分3解释了在部分1和部分2中所公开的方法可如何在语音动画之外应用于手势动画。

部分4描述了用于允许面部表情叠加到语音动画上以将情绪变化引入语音的技术。输出加权函数确保语音和表情肌肉不会以冲突的方式表达。

本文所述的技术可用于以动画方式显示虚拟角色或数字实体(也称为化身、数字角色或自主智能体)的语音。

1.分级查找和多音级联

技术问题

过程语音动画和3D动画曲线的在线实时生成受到动画序列的小型集的限制，因为呆板机械的动画、不真实的动画和重复的动画经常且尤其是在视素转换时被观察到。

以动画方式显示语音的另一个挑战是人类协同发音，换句话讲，视素可能重叠并彼此拥挤，从而使语音的视觉表示复杂化。仅将视素序列拼接在一起不会捕获语音中发生的自然变化，因为嘴部移动可以根据其上下文(诸如先前和/或后续的视素)而变化。即，对应于音素的嘴部形状不仅取决于所说的音素本身，而且还取决于在瞬时音素之前和/或之后说出的音素。不考虑协同发音效应的动画方法对于观察者而言将被认为是虚假的，因为嘴部形状可与在与使用那些嘴部形状不一致的上下文中说出的音素结合使用。

此外，先前的语音动画技术无法明确地对语音风格建模；即，由语音的有意变化和/或与人相关的说话风格(类似于视觉口音)表现的视素形状连续体。

技术解决方案

为了以动画方式真实地显示语音字符串(诸如句子)，提供了一种分级搜索算法，以便于按子字符串长度的递减顺序搜索字符串的子字符串的存储示例(动画片段)，以及将所检索的子字符拼接在一起，使得它们完成语音动画的字符串。

子字符串可以是多音的独特部分音素字符串和部分(或半)音素。子字符串可以级联在音素的中点处，该中点通常是音素的最稳定部分(无论相邻音素如何，改变最小的部分)，从而增加了级联子字符串之间平滑转换的机会。

模型创建

富含语音的语料库生成密集填充的查找表，该查找表中的每个项生成有动画片段的多个示例。图2示出了创建查找表的流程图。在步骤202处，对由表演者针对富含音素的语料库进行的语音表演进行运动捕获。表演者以中性面部表情进行语音表演(例如，阅读语料库)。在语音表演期间可跟踪面部界标。可例如使用亮色脸彩来在表演者面部上识别和标记跟踪作为一次讲话的面部肌肉的移动的基准界标。基准界标对面部尤其是嘴部区域中优选地具有良好覆盖，并且在视频记录中具有与表演者面部特征的良好对比度。可以在视频记录的每一帧中人工或自动地跟踪基准界标。

步骤204包括利用时间戳对语音表演进行自动化音素标记，诸如通过生成语音的上下文信息(例如，韵律标签和部分语音标签)的自然语言处理。步骤206包括将3D调和形状绑定器面部重定向到语音表演上以生成调和形状权重的时间序列。面部基准界标的移动被重定向到FACS动作单元(AU)上。如WO2017044499A1(由本申请人拥有，并且以引用的方式并入本文)中所述的图像正则化和重定向系统可用于在创建用于级联模型的数据时重定向面部表演。步骤208包括创建存储面部调和形状权重的时间序列的查找表。

查找表创建

语音动画模型的查找表基于语料库中的音素、音节、字词和句子被以分级方式组织、构建。此类信息可从文本处理模块获取，该文本处理模块包括分词器(tokeniser)、文本归一化、部分语音标注器和音素化(phonemisation)。在一个实施方案中，查找表包括九个项的集合，即，左半音、右半音、双音、句子边界双音、以元音为中心的三音、以辅音为中心的三音、句子边界三音、音节和字词集合。在每个查找表的集合中，可有一个或多个符合集合的描述的项。查找表中的项可以是部分(例如，一半)音素字符串。

语音合成中的双音级联系统的特征在于：音素可被分成左半音素和右半音素(半音)。双音(diphone或dipho)是从一个音素的中间延伸到下一个音素的中间的声学单元(即，由前一个的右半音(半音素)和后一个的左半音构成，包括每个部分(或半)音素之间的转换)。使用双音级联的合成提供了良好的语音质量，因为每个双音与相邻的双音级联在一起，其中开始和结束音素已达到稳定状态，并且因为每个双音记录了音素间的实际转换。以类似的方式，在语音动画中，为了将视素图像映射到双音，包括一系列图像的“视素”动态地描绘唇部、牙齿和舌部定位以捕获两个视素之间的转换。视素(如双音)开始于一个视素(音)期间某处，结束于下一个视素(音)期间某处。

图4中给出了示例，其示出了将句子分解成由包括多音和半音素的集合分类的项。图4示出了用于将动画片段添加到查找表的句子“Author of the danger trail PhillipSteels et cetera”的文本处理。当构建查找表时，语料库中的每个句子都经历语音分析，以显示出涉及产生该句子的声音的音素序列。穷举搜索音素序列以提供每个查找表项集合的示例性动画片段。查找表的每个集合中的项可不包含根据其持续时间分类的动画片段的示例，或者包含其一个或多个示例。

在一个实施方案中，集合包括具有不同多音单元的项。多音包括两个(双音)、三个(三音)或更多个音的组，并且可通过在稳定区域(通常为中间音素)分割期望的音分组来存储。因此，通过将多音视为基本子单元，在记录的子单元中保持两个相邻音之间的转换，并且在类似的语音姿势之间进行级联。因此，当来自不同时间点的动画片段在音素的中点处或其附近调和时，查找表中的动画片段的第一个音素和最后一个音素分别是右半音和左半音。从一个音素到另一个音素的转换是从连续成块的动画片段获得的，以确保所生成的动画的平滑流动。

字词集合包含多于一个音节的字词的动画片段。示例性句子“Author of thedanger trail Philip Steels et cetera”具有四个多于一个音节的字词。这些字词的动画片段是字词集合中不同的查找表项。在该示例中不存在的情况下，重复字词和具有相同发音的字词将进入与不同示例相同的查找项中。音节是包括一个或多个音素的发音单元，但它们中的仅一个是元音。音节集合包含用于音节和单个音节的字词的动画片段。

图4的示例性句子具有单个音节的五个字词。这些字词的动画片段是音节集合中不同/单独的查找表项。具有多个音节的字词也被分解成音节以提供用于音节查找项的示例性动画片段。例如，字词“author”被分成音节“O”和“D@”。这些音节中的每个音节进入不同的查找项。具有相同发音的音节将进入与不同示例相同的查找项中。

三音是由前面的右半音、中间的全音素和后面的右半音构成的声音单元。以元音为中心的三音集合包含所有三音的动画片段，其中中心音素为元音。穷举搜索示例性句子中的音素序列的以元音为中心的三音。具有音素的示例性句子中的第一个以元音为中心的三音“/D@O/”具有来自字词“author”的元音音素“@”。“@”前后的音素分别是来自字词“author”的“D”和来自字词“of”的“O”。以辅音为中心的三音集合包含所有三音的动画片段，其中中心音素为辅音。句子边界三音集合包含句子开始或结束时三音的动画片段。在该集合中，静音之前或之后的静音被认为是半音。在每个句子中存在两个句子边界三音，并且其来自句子中的第一个和最后一个音素。在示例性句子中，它们是来自字词“author”的/OT/和来自字词“cetera”的/r@/。由于句子之前或之后的静音在该集合中也被认为是半音，所以/O T/示例包括句子之前的静音的右半部、整个音素/O/，以及/T/的左半音。类似地，/r@/示例包括/r/的右半音、整个音素/@/，以及句子之后的静音的左半部。

双音集合包含所有双音的动画片段。句子边界双音集合包含句子开始或结束时的动画片段。在该集合中，静音之前和之后的静音被认为是半音。因此，该集合包含句子开始时的第一个半音的动画片段和句子结束时的最后一个右半音的动画片段。在每个句子中存在两个句子边界双音，并且其来自句子中的第一个和最后一个音素。在该示例性句子中，第一句子边界双音是该句子之前的静音的左半部，即来自字词“author”的右半音/O/。第二句子边界双音是来自字词“cetera”的右半音/@/和句子之后的静音的左半部。

左半音集合包含用于所有左半音的动画片段，并且右半音集合包含用于所有右半音的动画片段。

上述集合的分类仅为一种可能的分类；在其他实施方案中，集合可包括较少的颗粒集合，诸如句子集合或多字词集合。

动画的实时生成

图3示出了以动画方式显示语音的方法的流程图；在步骤302处，生成输入句子的音素时间戳和上下文信息。上下文信息包括音高、重读、音节和字词信息等。在步骤304处，如在“语音动画的生成”下所解释，基于步骤302中提供的信息来级联、选择面部调和形状权重的时间序列，以形成一个连续的“数据驱动”语音动画。在步骤306处，将与不同嘴部形状(例如，p、b、m、f、w)相关的音素与人工摆出的视素示例调和，以获得更好的视觉提示(如部分2“与模型视素调和”中进一步详细描述的)。在步骤308处，对动画进行平滑和调和。在步骤310处，基于能量来调制语音动画。在步骤312处，与音频同步地回播动画。

语音动画的生成

在接收要转变为语音的文本之后，由语音分析软件生成音素序列。使用分级算法从查找表中执行动画片段的选择。尽可能使用较大的连续成块的动画片段。查找表中的集合的搜索是穷举性的，并且仅在无法找到附加匹配时才进入分级结构中的下一个集合。

图5和图7示出了来自使用1231个句子的语料库构建的查找表的动画片段级联的示例。

图7示出了句子“And we will go meet her Wednesday at the trainstation”。在702处，搜索查找表的字词集合以用于匹配字词。在示例性句子中识别多于一个音节的字词。字词“wednesday”和“station”存在于语料库中，并且选择它们相应的动画片段。在这些动画片段的最前半个音素和最后半个音素处执行调和。在704处，在查找表的音节集合中搜索除已由步骤702处找到的字词覆盖的音节之外的音节。单音节字词和来自多音节的个别音节的字词经历分级搜索过程。匹配的音节在图的“音节”行中列出。在706处，搜索以元音为中心的三音集合。使用字词和音节集合为大多数音素找到匹配的动画片段，然而，不能为音节集合中的字词“train”(/t r EI n/)定位匹配。因此，搜索分级继续到以元音为中心的三音集合并找到用于/r EI n/的示例。在不具有在示例性句子中选择的动画片段的剩余半音中，找到匹配的以辅音为中心的三音708序列/@s d/。句子边界三音集合中没有检索到匹配的示例，因为已经为句子的第一个音素分配了右半音并且为句子的最后一个音素分配了左半音。

通过匹配双音710集合中的动画片段来填充每对两个连续音节之间的间隙，包括前部中的音节的最后一个音节的右半部以及后部处的音节的第一个音节的左半部。这两个示例性句子中的第一个半音和最后一个半音由句子边界双音集合中的匹配动画片段填充。当在两个示例性句子中不存在任何剩余间隙时，分级搜索完成。不需要在左半音和右半音集合中进行搜索，因为所有间隙都完全由来自分类中更高的集合的动画片段填充。

动画片段的选择

在记录语音表演时，记录每个动画片段在查找表中的记录索引、开始时间和结束时间。当针对被查询的给定项存在两个或更多个动画片段时，可以任何合适的方式检索动画片段。在一个实施方案中，随机检索动画片段。在另一个实施方案中，动画片段具有与对应语音片段最接近的持续时间(结束时间减去开始时间)。可基于语音特征或要生成的输入句子的上下文信息来选择动画片段。上下文信息可包括音高、重读、音节和字词信息等。在一个实施方案中，动画片段的选择可被伪随机化，使得匹配某个范围内的对应语音片段的持续时间，但在给定某个对应语音片段长度的情况下不确定地返回相同的(即，最近的)动画片段。

源(相关联的动画片段记录)语音和目标(合成)语音在大多数情况下将具有不同的音频持续时间。源动画因此被拉伸(或压缩)以适配在目标音频持续时间内。该拉伸(或压缩)可使用分段多项式插值来完成，其中源动画上的音素边界被变换以匹配目标音频。

在一个实施方案中，动画片段与它们所描绘的初始语音和/或其他声音/音频相关联。如步骤202所述，这可例如通过在表演者进行语音表演时捕获音频以及视频来实现。高质量麦克风架可以阻挡一个或多个相机记录表演者嘴部移动的方式围绕表演者定位。另选地，和/或除此之外，整个图像/视频捕获设备可位于被配置用于音频记录的隔音室中。因此，动画片段可以被存储为被级联的视觉信息和音频信息的组合，或者动画片段可以与与其对应的源音频信息相关联。

还可应用基于维特比(Viterbi)的动态编程来共同使目标成本和连接成本最小化。在这种情况下，目标成本可被定义为源(集合)语音和目标(合成)语音之间的音素持续时间、能量和音高等的差值。连接成本是级联两个音素时肌肉通道差异的总和。

2.与模型视素调和

技术问题

语音动画的一些过程模型可以包括真实的协同发音方案，例如，使用重叠的主导函数的主导模型；给定给定视素的音素相近度的情况下，给出指示给定视素达到其目标形状的接近程度的值。然而，主导模型无法准确确保双唇音的唇部闭合(/m b p/)和某些其他音素的正确描绘。

技术解决方案

在一个实施方案中，语音动画的实时生成使用模型视素来预测视素开始时的动画序列，并且使用基于查找表(数据驱动的)算法来预测视素转换处的动力学。具体摆出的模型视素可与使用另一种方法(诸如在部分1“分级查找和多音级联”下描述的方法)在要表达视素时的动画中的对应时间点处生成的语音动画调和。

模型视素

一个或多个音素的视觉示例(也称为视素)可被人工地摆出或有意地选择为模型视觉示例，这些模型视觉示例真实地示出了在其开始时的视素(下文称为“模型视素”)。模型视素可以是针对与不同嘴部形状相关的音素创建的可唇读视素，并且可有助于描绘视觉提示的完全开发以用于唇读。视素的静态姿势可以由有经验的技艺者通过改变单帧的表情权重来人工创建。图9示出了视素姿势示例(从左到右)：中性、音素/m/、音素/f/、音素/w/。

有经验的技艺者可通过改变表情(FACS)权重或通过扫描真实受试者并在调和形状模型中作为增量组合调和形状添加来人工地创建视素的静态姿势。在一个实施方案中，为需要唇部或牙齿压在一起的音素(例如，/b/、/p/、/m/、/f/和/v/)以及为需要唇部嘟起的音素(例如，/o/和/w/)创建视素。这些快照在其对应音素的持续时间内的激活水平由具有平顶和峰值1(全激活)的修改的高斯函数来描述。

平顶高斯函数确保音素的视觉描绘在其完全激活下保持一定持续时间(例如，至少一个帧)，使得其对于用户是可见的。该修改的高斯函数可为左偏斜的。这是为了反映视素的完全激活可发生在声音期间的任何点处的事实。例如，在产生音素“b”或“p”的声音之前，将唇部完全压在一起。基于当前音素以及当前音素之前(左侧)和之后(右侧)的音素的持续时间来自动调节高斯函数的偏斜度和幅度。

激活曲线

这些快照在其对应音素的持续时间内的激活水平由具有平顶和峰值1(全激活)的修改的高斯函数(应注意，这与平顶高斯函数不同)来描述。修改的高斯函数的权重还用作级联的动画片段与人工摆出的视素快照之间的调和权重。当帧处的修改的高斯函数的权重为1时，该帧的表情权重仅来自对应视素的人工创建的快照。当修改的高斯函数的权重为0时，该表情权重仅来自级联的动画片段。

当多个高斯函数重叠时，执行归一化步骤以调整较低优先级形状的强度。该归一化基于用户分配给每个音素的优先级权重来执行。例如，当来自/b/的视素高斯曲线与/o/的视素高斯曲线重叠时，可调节它们的强度，使得/b/主导动画以在发出/b/音素期间保持唇部的闭合。图11示出了(a)归一化之前和(b)归一化之后的两条重叠高斯曲线的示例。这些参数可通过经验或基于生理和解剖学观察来分配，诸如发音的位置。

在一个实施方案中，动画基于基于肌肉的描述符的调和形状，诸如FACS AU，并且将模型视素与使用上述“分级查找和多音级联”技术生成的动画序列调和。使用由技艺者定义的映射将所得的音素高斯曲线映射到FACS上，并且调和到级联的动画片段中。修改的高斯函数的权重用作级联的动画片段与人工摆出的视素快照之间的调和权重。当帧处的修改的高斯函数的权重为1时，该帧的表情权重仅来自对应视素的人工创建的快照。当修改的高斯函数的权重为0时，该表情权重仅来自级联的动画片段。

在更一般的方法中，描述音素形成的每个阶段处的唇部形状的参数化样条模型可用于代替修改的高斯函数。

级联的动画的平滑

在一个实施方案中，所生成的FACS动画经历两个阶段的平滑和增强过程。平滑的第一阶段对音节域上的表情权重进行操作。如果需要附加平滑，则平滑的第二阶段在句子域上对表情权重进行操作。

平滑的第一阶段使用分级滤波策略，其中将低通巴特沃斯(Butterworth)滤波器应用于每个音节，然后应用于每个字词，然后应用于每个短语。在每个水平下，巴特沃斯滤波器的截止频率从先前水平增加。这确保了与音节边界相比更高的平滑应用于音节内，并且类似地，与字词边界相比更高的平滑应用于字词内。此外，音节和字词的截止频率基于合成音素的平均持续时间来调整。这确保了与语音速率无关地保持平滑度。

平滑的第二阶段由标准动画清理操作的集合组成，诸如界定动画权重，拟合样条曲线以移除异常值，以及应用S形开窗操作来确保在语音结束之后嘴部形状返回到期望的静止位置。此外，基于语音的能量来进一步增强动画权重。例如，较大的语音将转化为一些动画通道的诸如颌部张开的较大移动。

3.通过级联生成头部和眉毛动画

头部移动和眉毛动画以与“分级查找和多音级联”中所述类似的方式生成。对于头部移动动画，使倾斜、俯仰和摇晃以及肩部平移级联。对于眉毛动画，使与眉毛运动相关的AU(诸如内眉毛抬高器和外眉毛抬高器、眉毛压低器等)级联。然而，与唇部同步动画不同，头部和眉毛动画在短语单元上操作。

头部和眉毛动画的实时生成涉及以下步骤：

1.句子和字词时间戳的生成以及输入句子的上下文信息。

2.基于步骤1中提供的信息选择的头部旋转和平移的时间序列的级联。

3.基于步骤1中提供的信息选择的眉毛动画的时间序列的级联。

4.动画的平滑和调和。

5.将情绪添加到动画信号中。

6.回播与音频同步的动画。

短语收集

收集每个短语中的音节数以找到匹配的动画片段。如果发现多个动画片段，则基于短语内的重读音节位置的相似性对它们排序。如果找到具有匹配的重读音节位置的多个短语，则通过该短语的持续时间对它们再次排序。如果在输入短语上没有找到匹配的动画片段，则该短语在连接字词的字词边界处被分成子短语。如果没有找到连接字词，则系统切换以仅匹配短语中的重读数量。如果仍然没有找到匹配，则系统将开始在最靠近短语的中点的字词边界处拆分短语(即，二分裂)。

关键字集合

某些关键词诸如good、bad、yes和no等通常与特定的头部和眉毛移动(即，点头、摇头和抬高眉毛等)相关联。如果在该短语内找到那些关键字词，则那些字词上的动画被在该集合中找到的动画片段替换。一旦生成动画，然后就过滤动画序列以使噪声平滑并移除级联伪影。

由示例性姿势生成舌部动画

由于在正常语音期间难以运动捕获舌部移动，因此舌部动画由针对每个音素的人工创建的示例性姿势生成。如“与模型视素调和”下所述，示例性姿势可以与动画调和。类似地，可基于那些音素的发音位置来导出归一化权重。

4.情绪语音

技术问题

先前方法已预先记录了以不同情绪状态拍摄的语音动画的若干示例，并且通过选择具有所期望情绪的语音动画而产生情绪语音。然而，创建这种动画模型是耗时的，因为所记录的语音量将乘以在语音期间可被表示的情绪状态的量。这是无法按比例缩放的，并且不允许微妙情绪状态容易地散布并与语音整合。其他方法已将面部分割成说话区域和情绪表达区域，并且单独地控制这些区域以动画方式显示情绪和语音。结果看起来不自然或不真实，因为整个面部可表达情绪；并且所涉及的肌肉不相互排斥。

技术解决方案

输出加权函数用于将语音输入和表情输入映射到基于肌肉的描述符加权中。

语音动画可以与表情动画组合以形成表达性语音动画。图12示出了动画系统；在简化的实施方案下，动画合成器1205接收两个动画输入，包括语音动画和表情动画。动画合成器1205使用输出加权函数来协调所接收的动画输入。例如，每当语音动画与表情动画同时被接收时，被定义为“语音主导”的动画通道(动作单元)被抑制(或被约束，换句话讲，在加权/降权的基础上被抑制)，使得那些动画通道的输出动画仅受或主要受来自语音动画引擎的其相应输入的影响。

表情动画可以任何合适的方式生成。在一个实施方案中，使用对被以动画方式显示的受试者的内部情绪状态进行建模的神经行为模型/虚拟中枢神经系统来生成动画。使用神经行为模型来以动画方式显示虚拟对象或数字实体进一步公开于WO2015016723A1中，该申请也转让给本发明的受让人，并且以引用的方式并入本文中。在另一个实施方案中，可在交互期间通过受试者的共情镜像来提供动画。另选地和/或附加地，还可提供预先记录的情绪或社交表情的动画。可提供如上文所述或以其他方式的描述的任何合适的动画输入的组合。表情动画可被呈现为被添加到语音(唇部同步)动画的时变FACS AU权重的集合。

基于肌肉的描述符类别加权

为了防止表情动画干扰语音唇部同步动画或反之语音唇部同步动画干扰表情动画，定义了两个基于肌肉的描述符类别，即表情AU和语音AU。然后为每个AU分配两个类别加权(总计达1.0)，从而确定每个AU在表达不同类型的动画序列(诸如语音序列或表情序列)中的相对重要性。在一些实施方案中，基于肌肉的描述符类别加权可以是输出加权函数中语音和表情动画输入的系数。

在一些实施方案中，可以应用约束，使得动画的最终肌肉权重被约束为小于或等于一，即Sum(AU)＜＝1。例如，微笑的完全激活(激活颧大肌AU12)与语音驱动的颧大肌AU12的激活的组合可通过使用情绪加权和语音加权两者的激活驱动最终动画来激活，但将颧大肌的最终激活约束为1。例如，似笑非笑(AU12＝0.5)，并说出字词“sheep”(AU12＝0.75)将导致Sum(AU12)＝0.5+0.75＝1.25，其被约束为1。

优先级加权

在动画合成期间，每个动画输入可具有每个类别的优先级值(也总计达1.0)。该优先级值可被认为是期望被更清楚地优先化或描绘的动画序列的类型。例如，当动画旨在以清楚且可理解的方式示出语音时，可增加语音的优先级加权。相反，当动画旨在以其阻碍数字角色的语音的程度示出数字角色有情绪时，表情或情绪的优先级加权可大于语音的优先级加权，或至少有所增加。

动画合成器

动画合成器接收优先级加权，并且动画合成器确定其用于增强输入序列的乘数。在一个实施方案中，函数定义如下：

w＝α_s·w_s+α_e·w_e

α_s＝p_s+p_e·(c_s-c_e)

α_e＝p_e+p_s·(c_e-c_s)

其中：

w_s＝输入语音权重

w_e＝输入表情权重

p_s＝对语音的优先级加权

p_e＝对表情的优先级加权

c_s＝对语音的基于肌肉的描述符类别加权(分类权重)

c_e＝对表情的基于肌肉的描述符类别加权

α_s＝对语音的输出乘数

α_e＝对表情的输出乘数

并且α_s和α_e介于0和1之间。

图13示出了AU12、AU22和AU26(分别为唇角拉扯器、嘟起器和颌部张开AU)的动画优先级。在该示例中，AU12具有高表情类别加权并且没有语音类别加权，而AU22具有高语音类别加权并且没有表情类别加权。另一方面，AU26为两者的混合。当给予表情动画优先级时，让来自表情动画引擎的AU12通过(利用单位乘数)，而来自语音动画引擎的AU12被完全抑制，从而防止其干扰表情占主导的动画(例如，这将在受试者也正在表达悲伤时防止受试者拉扯唇角)。然而，来自语音动画引擎的AU22将被允许通过，使得受试者将尝试形成说出的字词(例如，在哭泣时尝试说话)。由于AU22不与情绪发生冲突，因此其不受阻碍。当类别加权相等(即AU26)时，还将抑制语音通道以防止其双重激活和破坏表情动画。

当给予语音动画优先级时，让来自表情动画引擎和语音动画引擎两者的AU12通过。这是因为AU12是以表情为主的AU，并且不干扰语音动画。将允许来自语音动画引擎的AU22形成说出的字词，但将抑制表情动画引擎以防止干扰。类似地，还将禁止来自表情动画引擎的AU26，但来自语音动画引擎的AU26将被允许通过。

对于其他类别加权组合(例如，AU24，唇下压器在表情动画和语音动画上分别具有0.2和0.8的类别加权)，动画合成器将在零和一之间将非单位乘数应用于输入动画序列以减轻干扰。

图14示出了用于AU24的动画合成器的增强的示例。图15示出了与具有对语音(左上)高兴表情、(右上)音素/m/、(左下)音素/f/、(右下)音素/w/的优先级的高兴表情调和的视素姿势示例。AU26(颌部张开)被抑制，但是AU06(脸颊抬高器)和AU12(唇角拉扯器)在形成视素形状时保持存在。图16示出了与具有对语音(左上)担忧表情、(右上)音素/m/、(左下)音素/f/、(右下)音素/w/的优先级的担忧表情调和的视素姿势示例。AU24(唇部下压器)被抑制，但是AU04(眉毛压低器)在形成视素形状时保持存在。

针对语音动画定制“口音”

视素示例性姿势和高斯函数修改器的可定制性允许用户调整化身的说话风格和个性。这(与可使解剖结构、面部表情以及皮肤纹理变形的数字角色调和系统(如prov.App.NZ747626中所述)相结合))将允许创建具有独特说话个性的新角色。

此外，该系统可结合多个查找表，这些查找表是来自说不同语言、口音或发音风格的不同人的捕获。在动画生成阶段期间，用户可以选择从哪个表中重构动画以便匹配调和的化身的视觉外观。

与插值组合

将所得的语音动画馈送到调和形状插值和动画框架[NZ Prov.App.747627]中，以产生具有组合和增量形状的非线性插值的可信调和形状动画。此外，视素示例性姿势可从表演者/女性表演者的3D扫描创建或由数字技艺者刻画。然后可将这些示例性姿势添加为增量组合形状，从而允许对这些音素上的所得唇部形状进行附加定制。

此外，代替在FACS调和形状上操作，可使用基于视素的调和形状。使用NZ747627定义的命名方案，动画框架可用于在动画阶段期间将基于视素的调和形状分解成FACS AU。该方法的优点在于它将为用户提供更直观的控件。此外，这也将约束面部重定向系统仅解析基于视素的调和形状，从而产生对语音序列的更干净的解析结果。

示例性实施方案

在一个实施方案中，AU通道被分类为以下组：

·语音嘴部AU，例如：AU08唇部相向、AU18唇部噘起器、AU22唇部嘟起器等。

·情绪嘴部AU，例如AU12唇角拉扯器、AU15唇角下撇器、AU21颈部紧缩器

·其他嘴部AU，例如AU16下唇下撇器、AU25唇部微张、AU35脸颊吮吸等。

·非嘴部AU，例如AU01内眉毛抬高器、AU05上眼帘抬高器、AU09鼻子皱起器等。

在一个实施方案中，当以动画方式显示的数字角色/虚拟实体开始说话时，时间平滑的抑制信号被激活。抑制信号初始为零，并且随着化身讲话而逐渐增加到最大值一(增加速率是可调整的参数，其可以设置为约100ms)。抑制信号减少了来自情绪流(表情动画输入)的某些AU组的贡献。抑制百分比可通过其他网络人工设定和/或动态改变。在一个实施方案中，如上定义的AU分类减少如下：

·语音嘴部AU-减少100％

·情绪嘴部AU-减少50％

·其他嘴部AU-减少100％

·非嘴部AU-减少10％

除了AU组之外，还可设置各个AUC上的特定减少因子。当化身结束说话时，抑制信号逐渐减小并返回到零。通常将减小速率设定为较慢的节奏(约500ms)，以允许在化身结束说话之后充分的表达力返回到面部。

附图标记列表

1 动画片段

2 查找表

3 集合

4 项

5 实例

6 模型视素

7 字符串

8 基于肌肉的描述符类别加权

9 优先级加权

10 输出加权函数

11 语音

12 表情

13 基于肌肉的描述符

14 动画合成器

解释

虽然已经参考英语语言描述了上述方法和技术，但是本发明在这个方面不受限制。可修改实施方案以促进任何语言的语音动画。可使用基于骨骼的动画绑定或任何其他合适的动画技术来代替调和形状动画。

在上述一些实施方案中，肌肉变形描述符是由面部动作编码系统(FACS)识别的动作单元(AU)420。动作单元的示例包括“内眉毛抬高器”、“外眉毛抬高器”、“唇角拉扯器”、“颌部张开”和“唇角拉扯器和颌部张开”。然而，可使用肌肉变形描述符的任何合适分类。例如，肌肉变形描述符也可以统计方式计算。例如，可使用主分量分析(PCA)来计算动画中帧的网格形状变化的主分量。当在动画中仅涉及感兴趣的肌肉时，所计算的主分量可用作肌肉变形描述符。

所描述的方法和系统可用于任何合适的电子计算系统。根据下文所述的实施方案，电子计算系统使用各种模块和引擎来利用本发明的方法。

电子计算系统可包括：至少一个处理器；一个或多个存储器装置或用于连接到一个或多个存储器装置的接口；输入接口和输出接口，该输入接口和输出接口用于连接到外部装置，以便使系统能够根据来自一个或多个用户或外部系统的指令接收和操作；数据总线，该数据总线用于各种组件之间的内部和外部通信；以及合适的电源。此外，电子计算系统可包括用于与外部和内部装置通信的一个或多个通信装置(有线或无线)，以及一个或多个输入/输出装置，诸如显示器、指向装置、键盘或打印装置。

处理器被布置成执行作为程序指令存储在存储器装置内的程序的步骤。程序指令使如本文所述执行本发明的各种方法能够被执行。程序指令可使用任何合适的软件编程语言和工具包(诸如例如基于C的语言和编译器)来开发或实现。此外，程序指令可以任何合适的方式存储，使得它们可被传输到存储器装置或由处理器读取，诸如例如存储在计算机可读介质上。计算机可读介质可以是用于有形地存储程序指令的任何合适的介质，诸如例如固态存储器、磁带、光盘(CD-ROM或CD-R/W)、存储器卡、闪存存储器、光盘、磁盘或任何其他合适的计算机可读介质。电子计算系统被布置成与数据存储系统或装置(例如，外部数据存储系统或装置)通信以便检索相关数据。

应当理解，本文所述的系统包括被布置成执行如本文所述的各种功能和方法的一个或多个元件。本文所述的实施方案旨在向读者提供构成系统的元件的各种模块和/或引擎可如何互连以实现要实施功能的示例。此外，本说明书的实施方案以系统相关的细节解释了可如何执行本文所述的方法的步骤。提供概念图是为了向读者指示如何由各种不同模块和/或引擎在不同阶段处理各种数据元。

应当理解，模块或引擎的布置和构造可根据系统和用户要求相应地进行调整，使得各种功能可由与本文所述的那些不同的模块或引擎执行，并且某些模块或引擎可组合成单个模块或引擎。

应当理解，可使用任何合适形式的技术利用指令来实现并设置所描述的模块和/或引擎。例如，模块或引擎可使用以任何合适的语言编写的任何合适的软件代码来实现或创建，其中代码随后被编译以产生可在任何合适的计算系统上运行的可执行程序。另选地，或是结合可执行程序，模块或引擎可使用硬件、固件和软件的任何合适的混合来实现。例如，模块的部分可使用专用集成电路(ASIC)、片上系统(SoC)、现场可编程门阵列(FPGA)或任何其他合适的自适应或可编程处理装置来实现。

本文所述的方法可使用被特别编程以执行所述步骤的通用计算系统来实现。另选地，本文所述的方法可使用特定的电子计算机系统来实现，诸如数据分类和可视化计算机、数据库查询计算机、图形分析计算机、数据分析计算机、制造数据分析计算机、商业智能计算机、人工智能计算机系统等，其中计算机已特别适于对从与特定字段相关联的环境捕获的特定数据执行所述步骤。

Claims

1.一种用于以动画方式显示社交话语的方法，所述方法包括：接收：

字符串，所述字符串要以动画方式显示，所述字符串包括多个社交话语原子，

多个集合，每个集合包括多个项，所述多个项包括独特原子字符串，每个集合存储不同长度的项；并且

每个项包括所述项的至少一个动画片段；

在所述集合中以分级方式搜索与所述字符串的子字符串相匹配的项；

检索所匹配的项的动画片段以覆盖社交话语原子；以及

组合所检索的动画片段以动画方式显示所述字符串。

2.根据权利要求1所述的方法，其中所述社交话语是语音。

3.根据权利要求1或权利要求2所述的方法，其中所述分级顺序有利于更长的项。

4.根据权利要求1至3中任一项所述的方法，其中至少一个项包括多个动画片段，并且动画片段被随机检索。

5.根据权利要求1至3中任一项所述的方法，其中至少一个项包括多个动画片段，并且动画片段基于其持续时间来检索。

6.根据权利要求1至3中任一项所述的方法，其中至少一个项包括多个动画片段，并且动画片段基于对应语音特征来检索。

7.根据任一前述权利要求所述的方法，其中动画片段与声音相关联，所述声音与所述动画相对应。

8.根据权利要求7所述的方法，所述方法包括以下步骤：压缩和/或拉伸动画片段以与所述声音相匹配，所述声音与所述动画相对应。

9.根据任一前述权利要求所述的方法，其中所述多个集合中的每个集合中的所述项为一个项类型，所述项类型选自由以下各项组成的组：左半音、右半音、双音、句子边界双音、以元音为中心的三音、以辅音为中心的三音、句子边界三音、音节字词或单音节字词，以及多音节字词。

10.根据任一前述权利要求所述的方法，其中所述项包括部分音素字符串。

11.根据权利要求1至10中任一项所述的方法，其中动画片段存储基于骨骼的动画绑定器的变形参数。

12.根据权利要求1至10中任一项所述的方法，其中动画片段存储基于肌肉的描述符权重。

13.根据权利要求1至10中任一项所述的方法，其中动画片段存储调和形状权重。

14.一种用于以动画方式显示语音的方法，所述方法包括：

接收：

要以动画方式显示的音素字符串，和

多个动画片段，所述多个动画片段包括多音字符串和部分音素字符串，所述字符串被配置为在音素的最稳定部分处或附近级联；

搜索并检索与所述音素字符串的子字符串相匹配的动画片段以覆盖所述音素字符串；

以及组合所检索的动画片段以动画方式显示所述字符串。

15.根据权利要求14所述的方法，其中部分音素为半音素。

16.一种用于在上下文中以动画方式显示音素的方法，所述方法包括：

接收：

模型视素，和

动画片段，所述动画片段与在上下文中发音的所述音素的动画权重的时间序列相对应；

在所述模型视素的所述动画权重和所述动画片段的所述动画权重之间进行调和，以在上下中以动画方式显示所述音素。

17.根据权利要求16所述的方法，其中所述模型视素为可唇读视素，所述可唇读视素以可唇读方式描绘所述音素。

18.根据权利要求16所述的方法，其中所述模型视素为不同的嘴部形状，所述嘴部形状选自由以下各项组成的组：p、b、m、f、w。

19.根据权利要求16所述的方法，其中所述模型视素被表示为基于肌肉的语音描述符。

20.根据权利要求16所述的方法，其中所述模型视素被表示为动画序列。

21.根据权利要求16至20中任一项所述的方法，其中通过高斯函数对所述模型视素随时间推移的调和程度进行建模，其中所述高斯函数的峰值在所述音素发音的峰值处或附近。

22.根据权利要求21所述的方法，其中所述高斯函数为平顶函数。

23.根据权利要求21或权利要求22所述的方法，其中所述高斯函数是左偏斜的。

24.一种用于表达性语音动画的方法，所述方法包括：接收：

第一动画输入，所述第一动画输入与基于肌肉的描述符信息相关联，和

第二动画输入，所述第二动画输入与基于肌肉的描述符信息相关联；

使用所述第一动画输入和所述第二动画输入作为输出加权函数中的自变量，所述输出加权函数被配置为将所述动画输入映射到基于肌肉的描述符加权，以用于以动画方式显示所述表达性语音动画，

其中所述输出加权函数被配置为协调来自所述第一动画输入和所述第二动画输入的基于肌肉的描述符信息，以及；

使用所映射的基于肌肉的描述符加权以动画方式显示。

25.根据权利要求24所述的方法，所述方法包括以下步骤：为每个基于肌肉的描述符定义至少一个基于肌肉的描述符类别加权，其中所述输出加权函数是所述基于肌肉的描述符类别加权的函数。

26.根据权利要求24或25所述的方法，所述方法包括以下步骤：接收每个动画输入的优先级加权，其中所述输出加权函数是所述优先级加权的函数。

27.根据权利要求24至26中任一项所述的方法，其中所述第一动画输入用于以动画方式显示语音。

28.根据权利要求24至27中任一项所述的方法，其中所述第二动画输入用于以动画方式显示表情。

29.一种非暂态计算机可读介质，所述非暂态计算机可读介质存储程序，所述程序使得计算机实现根据权利要求1至28中任一项所述的方法。