CN103971393A - 计算机生成的头部 - Google Patents

计算机生成的头部 Download PDF

Info

Publication number
CN103971393A
CN103971393A CN201410050837.7A CN201410050837A CN103971393A CN 103971393 A CN103971393 A CN 103971393A CN 201410050837 A CN201410050837 A CN 201410050837A CN 103971393 A CN103971393 A CN 103971393A
Authority
CN
China
Prior art keywords
expression
head
bunch
sequence
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410050837.7A
Other languages
English (en)
Inventor
J·拉多勒-马丁内兹
V·P·L·万
B·斯腾格尔
R·安德森
R·滋波拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of CN103971393A publication Critical patent/CN103971393A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/802D [Two Dimensional] animation, e.g. using sprites
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明涉及计算机生成的头部。一种动画制作计算机生成头部的方法,头部具有根据要由头部输出的语音动作的嘴部,方法包括:提供与要由嘴唇动作输出的语音相关的输入;将输入分成声音单元序列;为输入文本选择表情特性;使用统计模型将声音单元序列转换为图像矢量序列,其中模型具有描述将声音单元与图像矢量相关的概率分布的多个模型参数,图像矢量包括定义头部的脸部的多个参数;以及将图像矢量序列输出为视频,这样头部的嘴部动作以用选择的表情模仿与输入文本相关联的语音其中将选择的表情中每个概率分布的预定类型的参数表示为相同类型的参数的加权之和,并且其中所用的权重为表情相关的,其中按簇提供参数,并且每个簇包括至少一个子簇。

Description

计算机生成的头部
技术领域
本文一般性描述的本发明的实施例涉及计算机生成的头部和用于动画制作这种头部的方法。
背景技术
计算机生成的会说话的头部能够用在若干不同的情况下。例如,用于通过公共地址系统提供信息,用于提供信息给计算机的用户,等等。这种计算机生成的动画头部还可以用于计算机游戏,以及使计算机生成的图形“说话”。
然而,一直都有让这种头部看起来更为真实的需求。
发明内容
在一个实施例中,提供了一种用于动画制作计算机生成头部的方法,所述头部具有根据要由头部输出的语音动作的嘴部,
所述方法包括:
提供与要由嘴唇动作输出的语音相关的输入;
将所述输入分成声音单元序列;
为输入文本选择表情特性;
使用统计模型将所述声音单元序列转换为图像矢量序列,其中所述模型具有描述将声音单元与图像矢量相关的概率分布的多个模型参数,所述图像矢量包括定义所述头部的脸部的多个参数;以及
将所述图像矢量序列输出为视频,这样所述头部的嘴部动作以用选择的表情模仿与输入文本相关联的语音。
其中将所述选择的表情中每个概率分布的预定类型的参数表示为相同类型的参数的加权之和,并且其中所用的权重为表情相关的,这样将所述声音单元序列转换为图像矢量序列包括为所述选择的表情获取(retrieve)表情相关权值,其中按簇提供所述参数,并且每个簇包括至少一个子簇,其中为每个簇获取所述表情相关权值,这样每个子簇有一个权值。
应该注意到所述嘴部意指嘴的任一部分,例如嘴唇、颚、舌头等。在另一实施例中,所述嘴唇动作以模仿所述输入的语音。
上述头部能够根据头部嘴唇的动作可视地输出语音。在另一实施例中,所述模型进一步配置为将所述声音单元转换为语音矢量,其中所述模型具有描述将声音单元与语音矢量相关的概率分布的多个模型参数,所述方法进一步包括将所述语音矢量序列输出为与头部的嘴唇动作同步的音频。因此,所述头部能够输出音频和视频。
所述输入可以是被分成声音单元序列的文本输入。在另一实施例中,所述输入是作为音频输入的语音输入,所述语音输入被分成声音单元序列,并作为音频随头部视频输出。一旦划分成声音单元,能够运行所述模型以将从语音输入导出的声音单元与图像矢量相关联,这样能够生成所述头部以与音频语音信号一起可视地输出语音信号。
在一个实施例中,每个子簇可以包括至少一个决策树,所述决策树基于关于语言、语音或韵律差异中至少一种的问题。所述簇的决策树之间以及子簇内的树之间可能存在结构差异。可以从高斯分布、泊松分布、伽玛分布、学生-t分布或拉普拉斯分布中选择所述概率分布。
可以从不同情绪、口音或说话风格中的至少一种中选择所述表情特性。说话时语音的变化时常会导致说话者脸上显示的表情的微妙变化,而上述方法能用来捕捉这些变化以让头部显得自然。
在一个实施例中,选择表情特性包括提供输入以允许通过所述输入选择权重。而且,选择表情特性包括从要输出的语音预测应该使用的权重。在另一实施例中,选择表情特性包括从关于要输出的语音的外部信息来预测应该使用的权重。
所述方法还可以适配新的表情特性。例如,选择表情包括接收包含脸部的视频输入并改变权重以模拟所述视频输入的脸部的表情特性。
在输入数据为包含语音的音频文件的情况下,能够从音频语音输入获得用于控制头部的权重。
在另一实施例中,选择表情特性包括从多个预存的权重集中随机选择权重集,其中每个权重集包括用于所有子簇的权重。
所述图像矢量包括参数,所述参数允许从这些参数重建脸部。在一个实施例中,所述图像矢量包括允许从模式的加权之和构建脸部的参数,其中所述模式表示脸部或其部分的重建。在另一实施例中,所述模式包括表示脸部的形状及外观的模式。相同权重参数可以用于形状模式及其对应的外观模式。
所述模式可以用于表示脸部姿态、脸部区域的变形、眨眼等。可以用固定的形状和肌理给头部的静态特征建模。
在另一实施例中,提供了一种使用于呈现计算机生成的头部的系统适配新表情的方法,所述头部具有根据要由头部输出的语音动作的嘴部,
所述系统包括:
输入端,用于接收数据给要由嘴部动作输出的语音;
处理器,其被配置为:
将所述输入数据分成声音单元序列;
允许为输入文本选择表情特性;
使用统计模型将所述声音单元序列转换为图像矢量序列,其中所述模型具有描述将声音单元与图像矢量相关的概率分布的多个模型参数,所述图像矢量包括定义所述头部的脸部的多个参数;以及
将所述图像矢量序列输出为视频,这样所述头部的嘴部动作以用选择的表情模仿与输入文本相关联的语音,
其中将所述选择的表情中每个概率分布的预定类型的参数表示为相同类型的参数的加权之和,并且其中所用的权重为表情相关的,这样将所述声音单元序列转换为图像矢量序列包括为所述选择的表情获取表情相关权值,其中按簇提供所述参数,并且每个簇包括至少一个子簇,其中为每个簇获取所述表情相关权值,这样每个子簇有一个权值,
所述方法包括:
接收新的输入视频文件;
计算施加给所述簇的权值,以最大化生成的图像与新视频文件之间的相似度。
以上方法还可以包括使用所述新视频文件的数据创建新簇;以及
计算施加给包含所述新簇的簇的权值,以最大化生成的图像与新视频文件之间的相似度。
在一个实施例中,提供了一种用于呈现计算机生成的头部的系统,所述头部具有根据要由头部输出的语音动作的嘴部,
所述系统包括:
输入端,用于接收数据给要由嘴部动作输出的语音;
处理器,其被配置为:
将所述输入数据分成声音单元序列;
允许为输入文本选择表情特性;
使用统计模型将所述声音单元序列转换为图像矢量序列,其中所述模型具有描述将声音单元与图像矢量相关的概率分布的多个模型参数,所述图像矢量包括定义所述头部的脸部的多个参数;以及
将所述图像矢量序列输出为视频,这样所述头部的嘴部动作以用选择的表情模仿与输入文本相关联的语音,
其中将所述选择的表情中每个概率分布的预定类型的参数表示为相同类型的参数的加权之和,并且其中所用的权重为表情相关的,这样将所述声音单元序列转换为图像矢量序列包括为所述选择的表情获取表情相关权值,其中按簇提供所述参数,并且每个簇包括至少一个子簇,其中为每个簇获取所述表情相关权值,这样每个子簇有一个权值。
在一个实施例中,提供了一种用于呈现计算机生成的头部的可适配系统,所述头部具有根据要由头部输出的语音动作的嘴部,所述系统包括:
输入端,用于接收数据给要由嘴部动作输出的语音;
处理器,其被配置为:
将所述输入数据分成声音单元序列;
允许为输入文本选择表情特性;
使用统计模型将所述声音单元序列转换为图像矢量序列,其中所述模型具有描述将声音单元与图像矢量相关的概率分布的多个模型参数,所述图像矢量包括定义所述头部的脸部的多个参数;以及
将所述图像矢量序列输出为视频,这样所述头部的嘴部动作以用选择的表情模仿与输入文本相关联的语音,
其中将所述选择的表情中每个概率分布的预定类型的参数表示为相同类型的参数的加权之和,并且其中所用的权重为表情相关的,这样将所述声音单元序列转换为图像矢量序列包括为所述选择的表情获取表情相关权值,其中按簇提供所述参数,并且每个簇包括至少一个子簇,其中为每个簇获取所述表情相关权值,这样每个子簇有一个权值,
所述系统进一步包括存储器,该存储器被配置为存储按簇及子簇提供的所述参数和用于所述子簇的权值,
所述系统进一步被配置为接收新的输入视频文件;
所述处理器被配置为重新计算施加给所述子簇的权值,以最大化生成的图像与新视频文件之间的相似度。
可以用2D或3D呈现上述生成的头部。对于3D,图像矢量以三维定义所述头部。在3D中,在3D数据中补偿姿态变化。然而,可以如上所述处理眨眼和静态特征。
由于能由软件实现根据实施例的某些方法,某些实施例涵盖了任一适当载体介质上的供给通用计算机的计算机代码。所述载体介质能够包括任一存储介质,例如软盘、CD ROM,磁性装置或可编程存储装置,或者诸如任一信号的任何暂时性介质,比如电、光或微波信号。
附图说明
现在,将参考附图来描述根据非限制性实施例的系统和方法:
图1为用于计算机生成头部的系统的示意图;
图2为表示根据本发明的实施例的用于呈现(render)动画制作生成的头部的基本步骤的流程图;
图3(a)为具有用户界面的生成的头部的图像,图3(b)为该界面的线条图;
图4为表示表情特性可以如何被选择的系统的示意图;
图5为图4系统的变型;
图6为图4系统的另一变型;
图7为高斯概率函数的示意图;
图8为根据本发明实施例的方法中所用的簇化数据排列的示意图;
图9为展示根据本发明实施例的训练头部生成系统的方法的流程图;
图10为根据本发明的实施例所用的决策树的示意图;
图11为表示根据本发明实施例的系统的适配的流程图;以及
图12为表示根据本发明另一实施例的系统适配的流程图;
图13为表示在分解权重的情况下训练用于头部生成系统的系统的流程图;
图14为详细表示图13流程图的步骤之一的子步骤的流程图;
图15为详细表示图13流程图的步骤之一的子步骤的流程图;
图16为表示参考图13描述的系统适配的流程图;
图17为能够与根据本发明实施例的方法及系统一起使用的图像模型;
图18(a)为图17模型的变型;
图18(b)为图18(a)模型的变型;
图19为表示训练图18(a)和(b)的模型的流程图;
图20为表示参考图19描述的训练基础的示意图;
图21(a)为误差相对于参考图17、18(a)和(b)描述的图像模型中所用的模式数目的曲线图,图21(b)为训练所用的句子数目相对于训练模型中测量到的误差的曲线图;
图22(a)到(d)为用于测试数据中显示的情绪的混淆矩阵;以及
图23为表示对图像模型变型的偏好(preference)的表。
具体实施方式
图1为用于计算机生成能够说话的头部的系统的示意图。系统1包括执行程序5的处理器3。系统1进一步包括存储装置或存储器7。存储装置7存储了由程序5用来在显示器19上呈现头部的数据。文本到语音系统1进一步包括输入模块11和输出模块13。输入模块11连接到数据的输入端,该数据与将要由头部输出的语音和将要随文本输出的情绪或表情有关。输入数据的类型可以采取后面将更详述的许多形式。输入端15可以是允许用户直接输入数据的界面。另选地,该输入端可以是用于从外部存储介质或网络接收数据的接收器。
连接到输出模块13的输出端为视听输出端17。输出端17包括将显示生成的头部的显示器19。
在使用中,系统1通过数据输入端15接收数据。在处理器3上执行的程序5将输入数据转换为将要由头部输出的语音和头部将要显示的表情。该程序访问存储装置以基于输入数据选择参数。该程序呈现头部。所述头部在被动画制作时,根据将要输出的语音移动其嘴唇并显示期望的表情。所述头部还具有输出包含所述语音的音频信号的音频输出端。所述音频语音与头部的嘴唇动作同步。
图2为用于动画制作并呈现所述头部的基本过程的示意图。在步骤S201,接收与将要由说话的头部输出的语音相关的输入,该输入还会包含与在头部说文本时应该展现的表情相关的信息。
在这个特定的实施例中,与语音相关的输入为文本。在图2中,该文本与表情输入分离。然而,与语音相关的输入不一定是文本输入,它可以是使头部能够输出语音的任一类型信号。例如,能够从语音输入、视频输入、合成语音及视频输入中选择所述输入。另一可能的输入可以是与已经生成的脸部/语音集、或预定义的文本/表情相关的任意形式的索引,例如使系统说“请”或“对不起”的图标。
为免生疑问,应该注意到,通过输出语音,头部嘴唇根据要输出的语音而动作。然而,音频输出的音量可以静音。在一个实施例中,在通过嘴唇动作而在视觉上输出话语的情况下,就存在头部模仿单词发声的视觉表现。在另外的实施例中,这可以或不伴以话语的音频输出。
当文本作为输入而被接收时,其然后被转换为声音单元的序列,声音单元可以是音素、字素(grapheme)、上下文相关音素或字素以及单词或其部分。
在一个实施例中,在输入中给出额外信息以允许在步骤S205选择表情。接着,这允许在步骤S207导出表情权值(weight),将结合图9更详细描述表情权值。
在某些实施例中,合并步骤S205和S207。这可以若干不同方式实现。例如,图3表示了用于选择表情的界面。此处,用户例如使用鼠标在屏幕上拖放点、使用键盘输入数字(figure)等来直接选择权重(weighting)。在图3(b)中,包括鼠标、键盘等的选择单元251使用显示器253选择权重。在这个实例中,显示器253具有显示权重的雷达图。用户能够使用选择单元251来通过雷达图改变各个簇的主导地位。本领域技术人员将理解可以在界面中使用其它显示方法。在某些实施例中,用户可以直接输入文本,情绪的权值,音高、速度(speed)及深度(depth)的权值。
当音高变得太高或太低且以类似的方式改变深度随大人和小孩的嗓音而变化时,脸部动作会不同,因此音高和深度能够影响脸部动作。通过持续时间分布修改被分配给每个模型的帧数,能够将速度作为额外参数进行控制。
图3(a)表示了具有生成的头部的整个单元。所述头部被部分显示为没有肌理的网状结构。正常使用时,所述头部将布满肌理。
在另一实施例中,所述系统设置有保存预定权重矢量集的存储器。每个矢量可以被设计为允许使用不同的表情通过头部输出文本。所述表情由头部显示,还在音频输出中体现。能从高兴、悲伤、中性(neutral)、愤怒、害怕、温和等中选择表情。在另外的实施例中,表情能够关于用户的说话风格,例如,低语、叫喊等,或者用户的口音。
图4示出了根据这一实施例的系统。此处,显示器253示出了可由选择单元251选择的不同表情。
在另一实施例中,用户没有单独输入关于表情的信息,此处,如图2所示,在S207中导出的表情权重是直接从步骤S203中的文本导出的。
图5显示了这一系统。例如,该系统可能需要经说话的头部输出对应于被识别为命令或问题的文本的语音。该系统可以被配置为输出电子书。该系统可以从文本(例如,从引号)识别何时相对于叙述者的书中角色在说某事,并改变权重以引入将要在输出中使用的新表情。类似地,该系统可以被配置为识别是否重复所述文本。在这一情形下,可以为第二输出改变嗓音(voice)特性。进一步,该系统可以被配置为识别所述文本是否指的是高兴时刻或焦急时刻,并使用适当的表情输出文本。步骤S211中示意性示出了这一情况:直接从文本预测表情权值。
在图5所示的上述系统中,提供了存储器261,其存储了要在文本中检查的属性和规则。所述输入文本由单元263提供给存储器261。检查所述文本的规则,接着将关于表情类型的信息传给选择单元265。选择单元265然后查找所选择的表情的权重。
在游戏中的角色说话的情况下,上述系统及注意事项还可以应用于计算机游戏中所用的系统。
在另一实施例中,该系统接收关于头部应该如何从另一个源输出语音的信息。图6示出了这一系统的实例。例如,在电子书的情况下,该系统可以接收指示文本的某些部分应该如何被输出的输入。
在计算机游戏中,该系统将能够从所述游戏判定正在说话的角色是否受伤,躲起来因此不得不低语,努力吸引某人的注意,成功完成了游戏的一个阶段,等等。
在图6的系统中,从单元271接收关于头部应该如何输出语音的进一步信息。单元271接着发送这一信息给存储器273。存储器273然后获取(retrieve)关于应该如何输出嗓音的信息,并将此发送给单元275。单元275接着获取用于头部期望输出的权重。
另一实施例中,在步骤209直接输入语音。此处,步骤S209可以包括三个子块:从所述语音中检测文本的自动语音识别器(ASR),同步文本和语音的校准器(aligner),以及自动表情识别器。在S207,将识别的表情转换为表情权值。所识别的文本接着流入文本输入203。这一安排允许音频输入到生成视听输出的说话头部系统。例如,这允许有真实表情的语音,并由此为它合成适合的脸部。
在另一实施例中,对应于语音的输入文本能够被用来通过去除或简化ASR子模块的工作来改进模块S209的性能。
在步骤S213,将文本及表情权值输入到声音模型,其在这一实施例中为簇适配训练HMM或CAT-HMM。
然后将文本转换为声音单元的序列。这些声音单元可以是音素或字素。这些单元可以是上下文相关的,例如三音素、五音素等,不仅要考虑已选择的音素,还要考虑前后音素、单词中音素的位置、音素所属单词中的音节数,等等。使用本领域公知的技术将文本转换为声音单元的序列,此处将不做进一步解释。
有许多可用于生成脸部的模型。就例如关键点/特征、肌肉结构等而言,其中的一些模型取决于脸部的参数化。
因此,能够根据这种脸部模型中所用参数的“脸部”矢量来定义脸部,以生成脸部。这类似于从语音矢量生成输出语音的语音合成的情形。在语音合成中,语音矢量具有与声音单元相关的概率,而不是一一对应。类似地,脸部矢量仅有与声音单元相关的概率。因此,能够以与对待语音矢量类似的方式操纵脸部矢量,以生成能够输出角色说话的语音及视觉表示的说话头部。因而,可以与对待语音矢量相同的方式处理脸部矢量,并根据相同数据训练它。
查找将声音单元与图像参数相关的概率分布。在这一实施例中,所述概率分布会是由均值和方差定义的高斯分布。但是可以使用其它分布,例如泊松、学生-t、拉普拉斯或伽玛分布,其中某些分布由均值及方差之外的变量定义。
在这一实施例中,起初只考虑图像处理,每个声音单元没有与使用本领域术语的“脸部矢量”或“观测(observation)”明确的一一对应。由参数矢量构成的所述脸部矢量,定义了在给定帧处的脸部姿态。许多声音单元以类似的方式发音,并受周围的声音单元、它们在单词或句子中位置的影响,或者取决于说话者的表情、情绪状态、口音、说话风格等以不同方式发音。因此,每个声音单元仅有与脸部矢量相关的概率,文本到语音系统计算许多概率,并在给定声音单元序列的情况下选择最有可能的观测序列。
图7示出了高斯分布。图7能被认为是与脸部矢量相关的声音单元的概率分布。例如,示为X的语音矢量具有对应于音素或其它声音单元的概率P1,其具有图7所示分布。
所述高斯的形状和位置由其均值和方差定义。这些参数在系统训练期间确定。
然后在步骤S213中将这些参数用在称作“头部模型”的模型中。“头部模型”为语音合成中所用的声音模型的视觉或视听版本。在本说明书中,所述头部模型为隐藏马尔可夫模型(HMM)。然而,还能够使用其它模型。
说话头部系统的存储器将存储许多概率密度函数,其将声音单元(即音素、字素、单词或其部分)与语音参数相关。由于通常使用高斯分布,这些概率密度函数通常称作高斯或分量。
在隐藏马尔可夫模型或其它类型的头部模型中,必须考虑关于特定声音单元的所有可能脸部矢量的概率。然后,考虑最有可能对应于声音单元序列的脸部矢量序列。这意味着序列的所有声音单元的全局优化要考虑两个单元相互影响的方式。因此,当考虑声音单元序列时,有可能用于特定声音单元的最有可能的脸部矢量不是最优的脸部矢量。
在图2的流程图中,示出了用于将图像矢量建模为“压缩表情视频模型”的一个流(stream)。在某些实施例中,会有多个分别用高斯建模的不同状态。例如,在一个实施例中,所述说话头部系统包括多个流。这些流可能表示仅用于嘴部,或仅用于舌头或眼睛等的参数。所述流还可以进一步划分成诸如静音(sil)、短停顿(pau)和说话(spe)等的类。在一个实施例中,会使用HMM给每个流及类的数据建模。所述HMM可以包括不同数量的状态,例如,在一个实施例中,可以使用5态HMM给某些上述流及类的数据建模。为每个HMM状态确定高斯分量。
上述集中在头部可视地输出话语。然而,除了所述可视输出外,所述头部还可以输出音频。返回图3,“头部模型”用于通过一个或多个流生成图像矢量,此外还通过一个或多个流生成语音矢量。图2、3中示出了音频流,其为频谱、LogF0和BAP/
簇适配训练为隐藏马尔可夫模型文本到语音(HMM-TTS)的扩展。HMM-TTS为语音合成的参数方法,其使用具有有限数量(通常为5)的发射状态的HMM对上下文相关语音单元(CDSU)建模。连接(concatenate)HMM并从中采样来生成参数集,该参数集然后能被重新合成为合成语音。通常,使用决策树来簇化CDSU以处理训练数据中的稀疏。对于任一给定的CDSU,可以使用决策树查找要用在HMM中的均值和方差。
CAT使用多个决策树来捕获风格或情绪相关信息。在从步骤S207导出权重入的情况下,这通过根据加权参数之和表示每个参数来进行。如图8所示,合并所述参数。
因而,在一个实施例中,将具有(用于语音或脸部参数的)选择表情的高斯均值表示为高斯的独立均值的加权之和。
μ m ( s ) = Σ i λ i ( s ) μ c ( m , j )
方程1
其中为具有选择表情s的分量m的均值,i∈{1,......,P}为簇的索引,P为簇的总数,为针对表情s的第i个簇的表情相关内插权值;μc(m,j)为簇i中分量m的均值。在一个实施例中,一个簇,例如,簇i=1,所有的权值总是被设为1.0。这个簇叫做“偏置(bias)簇”。每个簇包括至少一个决策树。簇中会有用于每个分量的决策树。为了简化表情,c(m,i)∈{1,......,N}指示第i个簇的均值矢量决策树中分量m的总叶(general leaf)节点索引,N为遍及所有簇的决策树的叶节点总数。后面将解释决策树的细节。
对于所述头部模型,系统查找以可访问方式存储的均值和方差。所述头部模型还从步骤S207接收表情权重。本领域技术人员会理解可以在查找均值前后查找嗓音特性相关权重。
然后,在步骤S213中将表情相关均值(即使用均值并施加权重)用于头部模型。
簇化独立于脸部特性的均值。在一个实施例中,每个簇包括至少一个决策树,所述树中使用的决策基于语言、语音和韵律的变化。在一个实施例中,作为簇中成员的每个分量都有决策树。韵律、语音和语言的上下文会影响脸部姿态。语音上下文一般影响嘴部的位置和动作,而韵律(例如,音节)和语言(例如,单词话语部分)上下文影响诸如持续时间(节奏)的韵律和脸部其它部分,例如眼睛眨动。每个簇可以包括一个或多个子簇,其中,每个子簇包括至少一个所述决策树。
上述还可以被认为是获取每个子簇的权值或每个簇的权值矢量,所述权值矢量的分量为每个子簇的权重。
根据本发明的实施例,可以使用以下配置。在这一实施例中,为了给该数据建模,使用了5态HMM。对于这一实例,将该数据分成三类:静音、短停顿、说话。在这个特定的实施例中,按子簇分配决策树和权值如下。
在这个特定的实施例中,每个簇使用了以下流:
频谱:1个流,5个状态,每个状态1个树x3个类
LogF0:3个流,每个流5个状态,每个状态和流1个树x3个类
BAP:1个流,5个状态,每个状态1个树x3个类
VID:1个流,5个状态,每个状态1个树x3个类
持续时间:1个流,5个状态,1个树x3个类(每个树由所有状态共享)
总计:3x31=93个决策树
对于上述,将以下权值施加给每个表情特性的每个流:
频谱:1个流,5个状态,每个流1个权值x3个类
LogF0:3个流,每个流5个状态,每个流1个权值x3个类
BAP:1个流,5个状态,每个流1个权值x3个类
VID:1个流,5个状态,每个流1个权值x3个类
持续时间:1个流,5个状态,每个状态和流1个权值x3个类
总计:3x11=33个权值
如这一实例所示,可能给不同的决策树分配同一个权值(VID)或给同一个决策树分配一个以上的权值(持续时间),或是任一其它组合。如本文所用,施加了同一个权重的决策树被认为形成了一个子簇。
在一个实施例中,合成期间音频流(频谱,logF0)不用于生成说话头部的视频,但训练期间需要用文本校准(align)视听流。
下表显示了根据本发明实施例,哪些流用于校准、视频和音频。
在一个实施例中,将具有选择的嗓音特性的高斯分布的均值表示为高斯分量的均值的加权之和,其中求和使用每个簇的一个均值,基于当前处理的声音单元的韵律、语言和语音上下文来选择均值。
将参考图9至11详细解释步骤S213中所用的模型训练。图2示出了具有4个流的简化模型,关于生成语音矢量的3个流(1个频谱、1个LogF0和1个持续时间),关于脸部/VID参数的1个流。(然而,从上述应该注意到许多实施例会使用额外的流,可以使用多个流给每个语音或视频参数建模。例如在这个图中,为了简化去除了BAP流。这对应于简单的脉冲/噪音类型的激励。然而,包含它或任一其它视频或音频流的机制,对于所表示的流是相同的。)这些生成了在步骤S215输出的语音矢量序列和脸部矢量序列。
接着在步骤S217,将语音矢量送入语音生成单元,语音生成单元在步骤S219将这些语音矢量转换为语音声音文件。然后在步骤S221,将脸部矢量送入脸部图像生成单元,脸部图像生成单元在步骤S223将这些参数转换为视频。接着,在步骤S225合并所述视频和声音文件以生成动画的说话头部。
接下来,将参考图9描述根据本发明实施例的系统训练。
在基于隐藏马尔可夫模型(HMM)的图像处理系统中,所述HMM通常表示为:
M=(A,B,∏) 方程2
其中且为状态转换概率分布,为状态输出概率分布,而为初始状态概率分布,N为HMM中的状态数。
如上所述,能以与语音矢量参数相同的方式从HMM导出脸部矢量参数。
在当前的实施例中,根据本领域公知的过程确定状态转换概率分布A和初始状态概率分布。因此,本说明书的剩余部分将关注状态输出概率分布。
通常在说话头部系统中,模型集M中的第m个高斯分量的状态输出矢量或图像矢量o(t)为
P ( o ( t ) | m , s , M ) = N ( o ( t ) ; μ m ( s ) , Σ m ( s ) )
方程3
其中μ(s) m和∑(s) m为针对说话者s的第m个高斯分量的均值和协方差。
训练常规的说话头部系统时,目标是估计模型参数集M,其最大化给定的观测序列的可能性。在常规模型中,从一个说话者收集数据,且情绪是中性的,因此对于所有分量m,所述模型参数集为μ(s) mm和Σ(s) mm
由于不可能基于所谓的最大似然(ML)准则纯解析地获得上述模型集,所以通常使用称为预期最大化(EM)算法(通常称作鲍姆-韦尔奇算法)的迭代方法来处理该问题。此处,导出辅助函数(“Q”函数):
Q ( M , M ′ ) = Σ m , t γ m ( t ) log p ( o ( t ) , m | M )
方程4
其中γm(t)为给定当前的模型参数M,生成观测o(t)的分量m的后验概率,M为新参数集。每次迭代后,用最大化Q(M,M′)的新参数集M替换参数集M’。p(o(t),m|M)是生成模型,例如GMM、HMM等。
在本实施例中,使用具有如下状态输出矢量的HMM:
P ( o ( t ) | m , s , M ) = N ( o ( t ) ; μ ) m ( s ) , Σ ′ v ( m ) ( s ) )
方程5
其中m∈{1,......,MN}、t∈{1,......,T}和s∈{1,......,S}分别为用于分量、时间和表情的索引,MN、T和S分别是分量、帧和说话者表情的总数。此处,从一个说话者收集数据,但该说话者会展示不同的表情。
的确切形式取决于所应用的表情相关变换的类型。以最一般的方式,所述表情相关变换包括:
- 表情相关权值集
- 表情相关簇
- 线性变换集
在步骤211应用所有可能的表情相关变换后,针对表情s的概率分布m的均值矢量和协方差矩阵变为
μ ) m ( s ) = A r ( m ) ( s ) - 1 ( Σ i λ i ( s ) μ c ( m , i ) + ( μ c ( m , x ) ( s ) - b r ( m ) ( s ) ) )
方程6
Σ ) m ( s ) = ( A r ( m ) ( s ) T Σ v ( s ) - 1 A r ( m ) ( s ) ) - 1
方程7
其中μc(m,i)为方程1中描述的针对分量m的簇I的均值,为针对表情s的额外簇的分量m的均值矢量,其将在后面描述,而为针对表情s的与回归类r(m)相关联的线性变换矩阵和偏置矢量。
R为回归类的总数,且r(m)∈{1,......,R}表示分量m所属的回归类。
假如没有施加线性变换,分别变为单位矩阵和零矢量。
由于后面将要解释的原因,这一实施例中,协方差被簇化并被排列成决策树,其中,v(m)∈{1,......,V}表示分量m的协方差矩阵所属的协方差决策树中的叶结点,且V是方差决策树叶节点的总数。
使用上述,能够将辅助函数表示为:
Q ( M , M ′ ) = - 1 2 Σ m , t , s γ m ( t ) { lot | Σ ) v ( m ) | + ( o ( t ) - μ ) m ( s ) ) T Σ ) v ( m ) - 1 ( o ( t ) - μ ) m ( s ) ) } + C
方程8
其中C为独立于M的常量。
因此,使用上述并在方程8中替代方程6、7,该辅助函数表示可以将模型参数分成4个不同的部分。
第一部分为正则(canonical)模型的参数,即独立于表情的均值{μn}和独立于表情的协方差{Σk},上述索引n和k指示后面将描述的均值及方差决策树的叶节点。第二部分为表情相关权值s指示表情,i为簇索引参数。第三部分为表情相关簇的均值μc(m,x),第四部分为CMLLR约束最大似然线性回归变换其中s指示表情,d指示分量或分量m所属的表情回归类。
具体地,为了确定均值的ML估计,执行下面的过程。
为了简化下面的方程,假设没有施加线性变换。
假如施加了线性变换,必须用如下变换矢量代替原始观测矢量{or(t)}。
{ o ^ r ( m ) ( s ) ( t ) = A r ( m ) ( s ) o ( t ) + b r ( m ) ( s ) }
方程9
类似地,假设没有额外的簇。在训练期间引入额外的簇就相当于对其增加线性变换,为单位矩阵且
首先,相对于μn求方程4的辅助函数的微分如下:
∂ Q ( M ; M ^ ) ∂ μ n = k n - G nn μ n - Σ v ≠ n G nv μ v
方程10
其中
G nv = Σ m , i , j c ( m , j ) = n c ( m , j ) = v G ij ( m ) , k n = Σ m , j c ( m , j ) = n k i ( m ) .
方程11
为累计的统计数据
G ij ( m ) = Σ t , s γ m ( t , s ) λ i , q ( m ) ( s ) Σ v ( m ) - 1 λ j , q ( m ) ( s ) k i ( m ) = Σ t , s γ m ( t , s ) λ i , q ( m ) ( s ) Σ v ( m ) - 1 o ( t )
方程12
通过将导数设为0,以正交(normal)方式最大化该方程,针对μn的ML估计(即)获得以下公式:
μ ^ n = G nn - 1 ( k n - Σ v ≠ n G nv μ v )
方程13
应该注意到,μn的ML估计还取决于μk,其中k不等于n。索引n用于表示均值矢量的决策树的叶节点,而索引k表示协方差决策树的叶节点。因此,必须通过对所有μn进行迭代直至收敛来执行优化。
这能通过解以下方程同时优化所有μn来执行。
方程14
然而,假如训练数据很小,或者N相当大,方程7的系数矩阵就不可能为满秩。通过使用奇异值分解或其它公知的矩阵因式分解技术,能够避免这个问题。
然后,执行同一过程以执行协方差的ML估计,即,相对于∑k求方程(8)中所示的辅助函数的微分,以给出下式:
Σ ^ k = Σ t , s , m v ( m ) = k γ m ( t , s ) o ‾ ( t ) o ‾ ( t ) T Σ t , s , m v ( m ) = k γ m ( t , s )
方程15
其中
o ‾ ( t ) = o ( t ) - μ m ( s )
方程16
也能以同样的方式获得针对表情相关权值和表情相关线性变换的ML估计,即,相对于需要ML估计的参数求所述辅助函数的微分,然后将微分的值设为0。
对于表情相关权值,这生成了
λ q ( s ) = ( Σ t , m γ m ( t , s ) M m T M - 1 M m ) - 1 Σ t , m q ( m ) = q γ m ( t , s ) M m T Σ - 1 o ( t )
方程17
在优选的实施例中,以迭代方式执行该过程。参考图9的流程图来解释该基本系统。
在步骤S301中,接收视频图像的多个输入。在这一示例中,使用了1个说话者,但该说话者说话时展现了3种不同的情绪,还用中性的表情说话。收集音频及视频数据,这样就有一个用于中性表情的数据集,另有三个数据集,每个用于3种表情之一。
接下来,在步骤303,为4个数据集中的每一个数据集训练并生成视听模型。将输入的可视数据参数化以生成训练数据。对于图19,结合用于图像模型的训练来解释可能的方法。收集所述训练数据,这样就有与语音矢量和图像矢量均相关的声音单元。在这一实施例中,4个模型中的每一个数据集仅用一个脸部的数据来训练。
簇适配模型被初始化并进行如下训练:
在步骤305,将簇P的数目设为V+1,其中V为表情的数目(4)。在步骤S307,将一个簇(簇1)确定为偏置簇。在一个实施例中,这将是用于中性表情的簇。使用在步骤S303生成最优模型的表情来初始化偏置簇的决策树和相关联的簇均值矢量。在这个实例中,给予每个脸部标签“表情A(中性)”、“表情B”、“表情C”和“表情D”,此处还给表情A(中性)模型初始化协方差矩阵、用于多空间概率分布(MSD)的空间权值及它们的参数共享结构。
从表示所有上下文的一个根节点开始,以局部最优方式构建每个二进制(binary)决策树。在这个实施例中,上下文使用了以下基本要素:语音、语言和韵律。创建每个节点时,选择关于上下文的下一个最优问题。基于哪个问题导致最大似然性增长以及训练实例中生成的终端节点来选择所述问题。
接着,搜索终端节点集以找出一个节点,该节点能够利用其最优问题对其进行分裂以给训练数据提供总似然性的最大增长。假如这一增长超过了阈值,就使用该最优问题划分该节点,创建出两个新的终端节点。当由于任意的进一步分裂都不会超过施加给似然性分裂的阈值而不能形成新的终端节点时,该过程停止。
例如,图10显示了这一过程。通过问题q将均值决策树中第n个终端节点划分成两个新终端节点如下能够计算这一分裂所获得的似然性增益:
方程18
其中S(n)表示与节点n相关联的分量集。注意并不包含相对于μn恒定的项。
其中C为独立于μn的常数项。方程13给出了μn的最大似然性。因此,上述能被写作:
方程19
因此,下式给出了通过将节点n分裂为所增加的似然性:
方程20
使用上述,可以为每个簇构建决策树,其中将该树排列为使得在树中首先问最优问题,并且根据分裂的似然性按等级顺序排列决策。然后,给每个簇施加权重。
还可以为方差构建决策树。协方差决策树的构建如下:如果通过问题q将协方差决策树中的终端节点划分成两个新的终端节点分裂所得的簇协方差矩阵和增益表示如下:
Σ k = Σ m , t , s v ( m ) = k γ m ( t ) Σ u ( m ) Σ m , t , s v ( m ) = k γ m ( t )
方程21
方程22
其中D为独立于{∑k}的常数。因此,似然性的增量为:
方程23
在步骤S309,给2,......,P簇各分配特定的表情标签,例如,簇2、3、4和5分别对应于表情B、C、D和A。注意,由于表情A(中性)用于初始化偏置簇,将它分配给要初始化的最后一个簇。
在步骤S311,根据分配的表情(下称“voicetag”),将CAT内插权值集仅设为1或0:
在这一实施例中,每个表情、每个流都有全局权值。对于每个表情/流组合,将3个权值集设为:用于静音、图像和停顿。
在步骤S313,对于每个簇2,......,P-1,如下依次初始化所述簇。使用步骤S303中训练的相关联脸部的单一说话者模型来校准用于相关联表情(例如用于簇2的表情B)的脸部数据。考虑到这些校准,计算统计数据并估计簇的决策树和均值。使用在步骤S311设定的权值将簇的均值计算为簇均值的归一化(normalised)加权之和,即实践中,这导致给定上下文的均值为该上下文的偏置簇均值和该上下文在簇2中的表情B模型均值的加权之和(两种情况下权值都为1)。
在步骤S315中,接着使用所有4个脸部的全部数据来为偏置簇重建决策树,并重新估计相关联的均值和方差参数。
在加入用于表情B、C和D的簇后,同时使用所有4个表情重新估计偏置簇。
在步骤S317,现在仅使用表情A的数据初始化簇P(表情A),至于其它簇,如步骤S313中所述。
一旦如上初始化了所述簇,接着如下更新/训练CAT模型。
在步骤S319,从簇1至P逐簇重建决策树,CAT权值保持固定。在步骤S321,在CAT模型中估计新均值和方差。接下来在步骤S323,为每个簇估计新的CAT权值。在一个实施例中,该过程循环回到S321直至收敛。利用通过使用鲍姆-韦尔奇算法的辅助函数执行的最大似然性计算,估计所述参数和权值以获得所述参数的较优估计。
如前所述,通过迭代过程估计参数。
在另一实施例中,在步骤S323,过程循环回到步骤S319,这样在每次迭代期间重建决策树,直至收敛。
在另一实施例中,使用如前所述的表情相关变换。此处,在步骤S323后插入表情相关变换,这样施加所述变换,然后迭代变换的模型直至收敛。在一个实施例中,每次迭代都会更新所述变换。
图10以决策树的形式示出了簇1至P。在这一简化实例中,簇1中恰好有4个终端节点,簇P中有3个终端节点。重要的是要注意到决策树不必是对称的,即每个决策树能有不同数目的终端节点。树中终端节点的数目和分支的数目纯粹由在首次决策处获得最大分裂的对数似然性分裂来确定,然后按照造成较大分裂的问题的顺序来问问题。一旦获得的分裂低于阈值,就终止节点的分裂。
上述生成了一个正则模型,其允许执行下列合成:
1.能够使用对应于4种表情中任一种的最终权值矢量集来合成该表情。
2.通过将权值矢量设为任意位置,能够从CAT模型所跨越的视听空间来合成随机表情。
另一实例中,使用助手来合成表情特性,其中给系统输入具有相同特性的目标表情。
另一实例中,使用助手来合成表情,其中给系统输入展示表情的说话者。
图11显示了一个实例。首先,在步骤501接收输入的目标表情。接下来,在步骤503调整正则模型的权重(即,先前已训练过的簇的权重),以匹配目标表情。
然后,使用步骤S503中导出的新权重输出脸部视频。
另一实施例中,使用了更复杂的方法,其中为新表情提供新簇。这将参考图12来描述。
如图11中,首先,在步骤S501接收说话时展现目标表情的说话者的数据。接着,在步骤S503调整权重以最优匹配该目标表情。
然后,在步骤S507给目标表情的模型增加新簇。接下来,以与参考图9所述的相同方式为新的表情簇创建决策树。
接着,在步骤S511为新簇计算模型参数,即在这一实例中为均值。
接下来,在步骤S513,为所有簇更新权值。然后,在步骤S515,更新所述新簇的结构。
如前,在步骤505,使用具有新簇的新权重输出具有新目标表情的语音矢量和脸部矢量。
注意这一实施例中,在步骤S515,这次没有更新其它簇,因为合成时这需要可用的训练数据。
另一实施例中,在步骤S515后更新簇,因此流程图循环回到步骤S509直至收敛。
最后,在一个实施例中,能在模型的顶部施加诸如CMLLR的线性变换,以进一步提高与目标表情的相似度。这一变换的回归类能够是全局的或表情相关的。
在第二种情况下,在给正则模型施加表情相关权值并增加额外的簇后,能够从表情相关簇的决策树或者从所获得的分布簇化,导出所述回归类的聚类结构(tying structure)。
开始时,偏置簇表示独立于表情的特性,而其它簇表示它们相关联的嗓音数据集。随着训练的进行,簇到表情的精确分配变得不太精确。所述簇和CAT权值现在表示宽广的声音空间。
上述实施例指的是只使用一个属性(即表情)的簇化。然而,还可能分解嗓音和脸部属性以获得进一步的控制。在随后的实施例中,将表情细分为说话风格(s)和情绪(e),并针对这两种类型或表情或属性因式分解模型。此处,模型集M中的状态输出矢量或包括第m个高斯分量的模型参数o(t)的矢量为
P ( o ( t ) | m , s , M ) = N ( o ( t ) ; μ m ( s ) , Σ m ( s ) )
方程24
其中为针对说话风格s和情绪e的第m个高斯分量的均值和协方差。
在这一实施例中,s指的是说话风格/嗓音,说话风格能用来表示诸如低语、叫喊等的风格。它还能用来指口音等。
类似地,在这一实施例中仅考虑了两个因素,但能将该方法扩展到其它语音因素,或者能将这些因素进一步细分,并为每个细分执行分解。
训练常规的文本到语音系统时的目标是估计模型参数集M,其最大化给定观测序列的似然性。在常规模型中有一种风格和表情/情绪,因此对于所有的分量m,模型参数集为μ(s,e) mm和∑(s,e) m=∑m
由于不可能纯解析地基于所谓的最大似然(ML)准则来获得上述模型集,所以一般使用称为预期最大化(EM)算法(通常叫做鲍姆-韦尔奇算法)的迭代方法来解决该问题。此处,导出辅助函数(“Q”函数):
Q ( M , M ′ ) = Σ m , t γ m ( t ) log p ( o ( t ) , m | M )
方程25
其中γm(t)为给定当前的模型参数M’,生成观测o(t)的分量m的后验概率,M为新参数集。每次迭代后,用最大化Q(M,M′)的新参数集M替换参数集M′。p(o(t),m|M)为生成模型,例如GMM、HMM等。
本实施例中,使用的HMM具有以下状态输出矢量:
P ( o ( t ) | m , s , e , M ) = N ( o ( t ) ; μ ) m ( s ) , Σ ′ v ( m ) ( s ) )
方程26
其中m∈{1,......,MN}、t∈{1,......,T}、s∈{1,......,S}和e∈{1,......,E}分别为用于分量、时间、说话风格和表情/情绪的索引,MN、T、S和E分别为分量、帧、说话风格和表情的总数。
的确切形式取决于施加的说话风格和情绪相关变换的类型。以最一般的方式,风格相关变换包括:
-风格-情绪相关权值集
-风格-情绪相关簇
-线性变换集这些变换能够只取决于风格、只取决于情绪或取决于两者。
在施加所有可能的风格相关变换后,针对风格s和情绪e的概率分布m的均值矢量和协方差矩阵变为:
μ ) m ( s ) = A r ( m ) ( s ) - 1 ( Σ i λ i ( s ) μ c ( m , i ) + ( μ c ( m , x ) ( s ) - b r ( m ) ( s ) ) )
方程27
Σ ) m ( s ) = ( A r ( m ) ( s ) T Σ v ( s ) - 1 A r ( m ) ( s ) ) - 1
方程28
其中μc(m,i)为针对分量m的簇I的均值,为针对风格s、情绪e的额外簇的分量m的均值矢量,其后面将解释,为针对风格s、情绪e的与回归类r(m)相关联的线性变换矩阵和偏置矢量。
R为回归类的总数,r(m)∈{1,......,R}表示分量m所属的回归类。
假如没有施加线性变换,分别变为单位矩阵和零矢量。
由于后面将要解释的理由,在这一实施例中,协方差被簇化并被排列成决策树,其中v(m)∈{1,......,V}表示分量m的协方差矩阵所属的协方差决策树中的叶节点,V为方差决策树叶节点的总数。
使用上述,能将辅助函数表示为:
Q ( M , M ′ ) = - 1 2 Σ m , t , s γ m ( t ) { lot | Σ ) v ( m ) | + ( o ( t ) - μ ) m ( s ) ) T Σ ) v ( m ) - 1 ( o ( t ) - μ ) m ( s ) ) } + C
方程29
其中C为独立于M的常数。
因此,使用上述并在方程29中替代方程27、28,辅助函数表示可以将模型参数分为4个不同部分。
第一部分为正则模型的参数,即,独立于风格和表情的均值{μn},独立于风格和表情的协方差{Σk},上述索引n和k指示后面将描述的均值及方差决策树的叶节点。第二部分为风格-表情相关权值其中s指示说话风格,e指示表情,i为簇索引参数。第三部分为风格-表情相关簇的均值μc(m,x),第四部分为CMLLR约束最大似然线性回归变换其中s指示风格,e指示表情,d指示分量或分量m所属的风格-情绪回归类。
一旦以上述方式表示辅助函数,接着相对于每个变量依次将它最大化,以获得风格和情绪/表情特性参数、风格相关参数及表情/情绪相关参数的ML值。
具体地,为了确定均值的ML估计,执行以下过程:
为了简化下列方程,假设没有施加线性变换。
假如施加了线性变换,必须用以下变换观测矢量替代原始观测矢量{or(t)}。
{ o ^ r ( m ) ( s ) ( t ) = A r ( m ) ( s ) o ( t ) + b r ( m ) ( s ) }
方程19
类似地,假设没有额外的簇。训练期间引入额外的簇就相当于对其增加线性变换,为单位矩阵和
首先,相对于μn求方程29的辅助函数的微分如下:
∂ Q ( M ; M ^ ) ∂ μ n = k n - G nn μ n - Σ v ≠ n G nv μ v
方程31
其中
G nv = Σ m , i , j c ( m , j ) = n c ( m , j ) = v G ij ( m ) , k n = Σ m , j c ( m , j ) = n k i ( m ) .
方程32
为累计的统计数据
G ij ( m ) = Σ t , s γ m ( t , s ) λ i , q ( m ) ( s ) Σ v ( m ) - 1 λ j , q ( m ) ( s )
k i ( m ) = Σ t , s γ m ( t , s ) λ i , q ( m ) ( s ) Σ v ( m ) - 1 o ( t ) .
方程33
通过将导数设为0,以正交方式最大化该方程,针对μn的ML估计,即获得以下公式:
μ ^ n = G nn - 1 ( k n - Σ v ≠ n G nv μ v )
方程34
应该注意到,μn的ML估计也取决于μk,k不等于n。索引n用于表示均值矢量的决策树的叶节点,而索引k表示协方差决策树的叶节点。因此,必须通过对所有的μn进行迭代直至收敛来执行优化。
这能通过解以下方程而同时优化所有的μn来执行。
方程35
然而,假如训练数据很小,或者N相当大,方程35的系数矩阵就不可能满秩。通过使用奇异值分解或其它公知的矩阵分解技术能够避免这一问题。
接着,执行相同过程以执行协方差的ML估计,即,相对于∑k对方程29中所示的辅助函数求微分以给出:
Σ ^ k = Σ t , s , m v ( m ) = k γ m ( t , s ) o ‾ q ( m ) ( s , e ) ( t ) o ‾ q ( m ) ( s , e ) ( t ) T Σ t , s , e , m v ( m ) = k γ m ( t , s , e )
方程36
其中
o ‾ q ( m ) ( s , e ) ( t ) = o ( t ) - M m λ q ( s , e )
方程37
还能以相同的方式获得风格相关权值和风格相关线性变换的ML估计,即相对于需要ML估计的参数求辅助函数的微分,然后将微分的值设置为0。
对于表情/情绪相关权值,这生成了
λ q ( s ) = ( Σ t , m q ( m ) = q , s γ m ( t , s , e ) M m ( e ) T Σ v ( m ) - 1 M m ( e ) ) - 1 Σ t , m , s q ( m ) = q γ m ( t , s , e ) M m ( e ) T Σ v ( m ) - 1 ) o ^ q ( m ) ( s ) ( t )
方程38
其中
o ^ q ( m ) ( s ) ( t ) = o ( t ) - μ c ( m , 1 ) - M m ( s ) λ q ( s )
类似地,对于风格相关权值
λ q ( s ) = ( Σ t , m q ( m ) = q , s γ m ( t , s , e ) M m ( e ) T Σ v ( m ) - 1 M m ( e ) ) - 1 Σ t , m , s q ( m ) = q γ m ( t , s , e ) M m ( e ) T Σ v ( m ) - 1 ) o ^ q ( m ) ( s ) ( t )
其中
o ^ q ( m ) ( s ) ( t ) = o ( t ) - μ c ( m , 1 ) - M m ( s ) λ q ( s )
在优选实施例中,以迭代方式执行该过程。参考图13至15的流程图来解释这一基础系统。
在步骤S401,接收音频及视频的多个输入。在这一示例中,使用了4种风格。
接下来,在步骤S403,为4种嗓音/风格各训练并生成一个声音模型,每个都用中性情绪说话。在这一实施例中,4个模型中的每一个仅用具有一种说话风格的数据进行训练。将参考图14的流程图更详细地解释S403。
在图14的步骤S805,将簇P的数目设为V+1,其中V为嗓音的数目(4)。
在步骤S807,将一个簇(簇1)确定为偏置簇。使用在步骤S303中生成最优模型的嗓音初始化偏置簇的决策树和相关联的簇均值矢量。在这一实例中,给予每种嗓音标签“风格A”、“风格B”、“风格C”和“风格D”,此处假设风格A已生成了最优模型。还给风格A模型初始化协方差矩阵、用于多空间概率分布(MSD)的空间权值及其参数共享结构。
从表示所有上下文的一个根节点开始,以局部最优的方式构建每个二进制决策树。在这个实施例中,上下文使用以下基本要素:语音、语言和韵律。创建每个节点时,选择关于上下文的下一个最优问题。基于哪个问题会导致最大似然性增长以及训练实例中生成的终端节点来选择问题。
接着,搜索终端节点集以找出一个节点,该节点能够利用其最优问题对其进行分裂以给训练数据提供总似然性的最大增长,如上参考图9至12所解释。
如上所解释,还可以为方差构建决策树。
在步骤S809,给2,......,P簇各分配一个特定的嗓音标签,例如簇2、3、4、5分别用于风格B、C、D和A。注意,由于风格A用于初始化偏置簇,所以将它分配给要初始化的最后一个簇。
在步骤S811,根据分配的嗓音标签,将CAT内插权值集仅设为1或0:
在这个实施例中,每种风格、每个流都有全局权值。
在步骤S813,对于每个簇2,......,(P-1),如下依次初始化所述簇。使用在步骤S303中训练的相关联风格的单一风格模型来校准用于相关联风格(例如用于簇2的风格B)的嗓音数据。给定这些校准,计算统计数据,并估计用于簇的决策树和均值。使用步骤S811中设置的权值,将簇的均值计算为簇均值的归一化加权之和,即实践中,这导致给定上下文的均值为该上下文的偏置簇均值和该上下文在簇2中的风格B模型均值的加权之和(两种情况下权值都为1)。
在步骤S815,接着使用全部4种风格的所有数据为偏置簇重建决策树,并重新估计相关联的均值和方差参数。
在增加用于风格B、C和D的簇后,同时使用全部4种风格来重新估计偏置簇。
在步骤S817,现在只使用风格A的数据初始化簇P(风格A),至于其它簇,如步骤S813中所述。
一旦如上初始化了所述簇,然后如下更新/训练CAT模型:
在步骤S819,从簇1至P逐簇重建决策树,CAT权值保持固定。在步骤S821,在CAT模型中估计新的均值和方差。接下来在步骤S823,为每个簇估计新的CAT权值。在一个实施例中,所述过程循环回到S821直至收敛。利用通过使用鲍姆-韦尔奇算法的辅助函数执行的最大似然性计算,估计参数和权值,以获得所述参数的较优估计。
如前所述,通过迭代过程估计参数。
另一实施例中,在步骤S823,所述过程循环回到步骤S819,这样在每次迭代期间重建决策树,直至收敛。
该过程然后返回至图13的步骤S405,其中接着针对嗓音和脸部的不同情绪训练模型。
在这一实施例中,以与步骤S403中所述的给说话风格建模相同的方式,使用簇适配训练给情绪建模。首先,在步骤S405初始化“情绪簇”。这将参考图15更详细地解释。
然后,为至少一种风格收集数据,此外根据脸部表情或嗓音,输入数据也是情绪性的。可能仅收集一种风格的数据,说话者提供该风格的若干数据采样,每个展现不同的情绪,或者说话者提供多种风格和具有不同情绪的数据采样。在这一实施例中,将假设所提供的用于训练系统以展现情绪的语音采样来自于被用于收集在步骤S403中训练初始CAT模型的数据的风格。然而,该系统还能使用具有不同说话风格的收集数据进行训练以展现情绪,不同说话风格的数据在S403中不使用。
在步骤S451,接着将非中性情绪数据分成Ne个组。在步骤S453,将Ne个额外的簇加到模型情绪。一个簇与每个情绪组相关联。例如,簇与“高兴”关联,等等。
除了步骤S403中形成的中性风格簇外,还提供了这些情绪簇。
在步骤S455,初始化用于情绪簇权重的二进制矢量,这样假如语音数据要用于训练展现一种情绪,将与该情绪相关联的簇设为“1”,所有其它情绪簇的权值为“0”。
这一初始化阶段期间,将中性情绪说话风格簇设为与该数据的说话风格相关联的权重。
接下来,在步骤S457为每个情绪簇创建决策树。最后,在步骤S459基于所有数据重新估计权值。
如上所解释初始化了情绪簇后,在步骤S407针对所有簇(偏置、风格和情绪)重新估计高斯均值和方差。
接下来,如上面步骤S409所述,重新估计情绪簇的权值。然后在步骤S411重新计算决策树。接下来,该过程循环回到步骤S407,随后是步骤S409中的权重,再后是步骤S411重建决策树,执行模型参数直至收敛。在一个实施例中,数次重复循环S407-S409。
接下来,在步骤S413,针对所有簇(偏置、风格和情绪),重新估计模型方差和均值。在步骤S415,针对说话风格簇重新估计权值,在步骤S417重建决策树。该过程接着循环回到步骤S413,重复这一循环直至收敛。然后,该过程循环回到步骤S407,重复关于情绪的循环直至收敛。继续该过程,直至两个循环共同达到收敛。
在另一实施例中,该系统用于适配新属性,例如新情绪。这将参考图16描述。
首先,在步骤S601接收目标嗓音,为以新属性说话的嗓音收集数据。首先,在步骤S603调整用于中性风格簇的权重以最优匹配该目标嗓音。
接着在步骤S607,针对新情绪给现有的情绪簇增加新的情绪簇。接下来,从步骤S455向前,结合图12描述了初始化新簇的决策树。然后,如结合图13所描述,针对所有簇重新估计并重建模型参数和树。
上述方法展示了一个允许计算机生成的头以自然方式输出语音的系统,这是因为所述头能够采用并适配不同的表情。数据的簇化形式允许以较小的占地建立系统,因为运行该系统的数据以非常有效的方式存储,而且如上所述该系统还能很容易适配新表情,同时需要相对小的数据量。
上面已详细解释了如何应用CAT-HMM以呈现并动画制作头部。如上所解释,脸部矢量包括多个脸部参数。一个用于支持矢量的合适模型为主动外观模型(AAM)。但是还可以使用其它统计模型。
基于v个顶点的网格定义AAM。该模型的形状,s=(x1;y1;x2;y2;:xv;yv)T,定义了每个网格顶点的2D位置(xi;yi),且为下式给出的线性模型:
s = s 0 + Σ i = 1 M c i s i
方程2.1
其中s0为该模型的均值形状,si为M个线性形状模式的第i个模式,ci为其对应参数,能被认作“权重参数”。将参考图19更详细地描述所述模式以及如何训练它们。然而,所述形状模式能被视作脸部表情集。可以由形状模式的加权之和来生成脸部的形状,其中参数ci提供权重。
通过以这种方式定义输出的表情,所述脸部可以表示连续的表情。
然后,通过a=(r1;g1;b1;r2;g2;b2;.....;rP;gP;bP)T,将颜色值纳入所述模型的外观;其中(ri;gibi)为投射到均值形状s0的P个像素中的第i个的RGB表示。与形状模型相似,由下式给出了外观:
s = s 0 + Σ i = 1 M c i a i
方程2.2
其中a0为该模型的均值外观矢量,ai为第i个外观模式。
在这个实施例中,使用合成的外观模型,方程2.1和2.2中的参数ci相同,并控制形状和外观。
图17显示了这一AAM的示意图。在步骤S1001,将参数输入该模型。然后将这些权值导入形状模型1003和外观模型1005。
图17示出了形状模型1003的模式s0,s1.....sM和外观模型的模式a0,a1.....aM。在步骤S1011中,合并形状模型1003的输出1007和外观模型的输出1009,以生成期望的脸部图像。
能将输入该模型的参数用作上述说明书结合附图2所提到的脸部矢量。
AAM的全局性质使得某些模式能处理由于3D姿态(pose)改变以及局部变形(deformation)导致的变化。
在这个实施例中,所用的AAM模式纯粹对应于头部旋转或其它具有物理意义的动作。这在数学上能表示为:
s = s 0 + Σ i = 1 K c i s i pose + Σ i = K + 1 M c i s i deform
方程2.3
在这个实施例中,还针对外观导出类似的表达式。然而,AAM中形状和外观的结合使这成为一个难题。为了解决这一问题,训练期间,首先导出形状分量,其通过记录具有固定中性表情的头部旋转的短训练序列并将PCA施加给观测的均值规则化(normalized)形状建模。接下来,将投射到所跨越的姿态变化空间,以估计上述方程2.3中的参数
c i = s ^ T s i pose | | s i pose | | 2
方程2.4
求出这些参数后,从每个训练形状去除姿态分量,以获得姿态规则化训练形状s*:
s * = s ^ - Σ i = 1 k c i s i pose
方程2.5
假如形状和外观实际上是独立的,那么能够使用如方程2.5中规则化的形状采样训练集的主分量分析(PCA)来求出变形分量,确保仅求出与姿态模式正交的模式。
然而,不能保证使用方程(2.4计算的参数对于形状和外观模式是相同的,这意味着不可能使用从它们导出的模型来重建训练实例。
为了克服这个问题,使用下式计算外观及形状参数的每个的均值:
c i = 1 2 ( s ^ T s i pose | | s i pose | | 2 + a ^ T a i pose | | a i pose | | 2 )
方程2.6
然后,通过在方程2.5中使用这些参数,并根据完整训练集的采样求出变形模式,构建模型。
在另外的实施例中,适配该模型以适应局部变形,例如眼睛眨动。这能通过上述方法的修改版本实现,根据包含眨眼(blinking)而没有其它头部动作的视频来学习模型眨眼。
将上面教导的用于隔离姿态的方法直接应用于从训练集中除去这些眨眼模式,这可能引入人工产物(artifact)。如果考虑到大部分动作都在眼睑的眨眼所关联的形状模式,其原因显而易见。这意味着假如眼睛处于相对于脸部面心(centroid)的不同位置(例如,假如嘴部张开,降低了面心),那么眼睑移向均值眼睑位置,即使人为地睁或闭眼睛。使用拉普拉斯算子实现相对形状坐标,而不是计算方程2.6中绝对坐标的参数:
c i blink = 1 2 ( L ( S ^ ) T L ( s i blink ) | | L ( s i blink ) | | 2 + a ^ T a i blink | | a i blink | | 2 )
方程2.7
基于形状采样定义拉普拉算子L(),这样能够使用下式,根据该形状内每个顶点i的原始位置pi计算其相对位置δi
δ i = Σ j ∈ N P i - P j | | d ij | | 2
方程2.8
其中N为AAM网格上定义的一个邻域,dij为均值形状中顶点i和j之间的距离。这种方法正确地规则化用于眨眼的训练采样,由于给眼睛内的相对动作建模,而不是针对脸部内的眼睛位置。
另外的实施例还包含了这一事实:近乎独立地移动脸部的不同区域。上面已解释过将模式分解为姿态及变形分量。这允许根据变形分量影响的局部区域对变形分量进行进一步分离。模型能被分为R个区域,并能根据下式给其形状建模:
s = s 0 + Σ i = 1 K c i s i pose + Σ j = 1 R Σ i ∈ 1 j c i s i j
方程2.9
其中Ij为与区域j相关联的分量索引集。在一个实施例中,根据在均值形状中标出的手动选择的边界,通过仅考虑所述模型的顶点的子集来学习每个区域的模式。通过大量地增加与区域对应的模式,迭代地引入模式,直至最大数量,这允许模型表示训练集中最大比例的观测方差。
将类似的模型用于外观。在区域边界附近局部地应用线性混和。这种方法用于将脸部分为上下两半。这样的好处是合成期问嘴部形状的变化不会在上半脸部导致人工产物。由于全局模式用于给姿态建模,所以不会出现上下两半脸部具有不同姿态的风险。
图18示出了如上所述的增强型AAM。对于图17的AAM,图18(a)的AAM的输入权重能够形成要在参考图2描述的算法中使用的脸部矢量。
然而,此处将输入参数ci划分成在S1051输入的用于姿态的参数、在S1053输入的用于眨眼的参数,作为在S1055输入的给每个区域中的变形建模的参数。在图18中,示出了区域1至R。
接下来,将这些参数送入形状模型1057和外观模型1059。此处:
姿态参数用于给形状模型1057的姿态模式1061和外观模型的姿态模式1063加权;
眨眼参数用于给形状模型1057的眨眼模式1065和外观模型的眨眼模式1067加权;以及
区域变形参数用于给形状模型1057的区域变形模式1069和外观模型的区域变形模式1071加权。
至于图17,在步骤S1073输出生成的形状,在步骤S1075输出生成的外观。接着,在步骤S1077合并生成的形状和生成的外观以产生生成的图像。
由于在许多训练实例中牙齿和舌头没有咬合,这些区域的合成可能导致明显的人工产物。为了减少这些人工产物,使用用于上下牙齿的固定形状和纹理。上下牙齿中心处顶点的偏置分别造成了这些静态纹理的偏移。牙齿的呈现先于脸部其余部分,确保正确咬合发生。
图18(b)示出了图18(a)的修改,首先呈现静态的人工产物。在步骤S1073和S1075分别生成了形状和外观后,在步骤S1081确定牙齿位置。在一个实施例中,确定牙齿处于相对于脸上固定可视点的位置。然后,在步骤S1083通过假设牙齿的固定形状和纹理,呈现所述牙齿。接下来,在步骤S1085渲染脸部的其余部分。
图19为表示根据本发明实施例的系统训练的流程图。在步骤S1301,收集训练图像。在一个实施例中,收集涵盖了一系列表情的训练图像。例如,可以通过利用被设置收集说话者的脸部表情的相机和收集音频的麦克风,收集视听数据。说话者能够读出句子,并接收关于在读出特定句子时需要用到的情绪或表情的指令。
选择数据,这样可以从对应于每种情绪中常见音素集的训练图像中选择帧集。在某些实施例中,使用了大约7000个训练句子。然而,这些数据许多用于训练语音模型以生成前述的语音矢量。
除了上述的训练数据,还要捕获另外的训练数据以隔离由于姿态变化导致的模式。例如,在保持固定的中性表情时捕获说话者转头的视频。
而且,在他们的脸部其余部分保持静止时捕获说话者眨眼的视频。
在步骤S1303,选择用于创建AAM的图像。在一个实施例中,创建AAM仅需要约100个帧。选择允许在一系列帧上收集数据的图像,其中说话者展现大范围的情绪。例如,可以选择这样的帧,其中说话者展现不同的表情,例如不同的嘴部形状、眼睛睁开、眼闭、眼睛睁大等。在一个实施例中,选择对应于要由头部显示的每种情绪中常见音素集的帧。
在另一实施例中,能够使用更大量的帧,例如,长视频序列中的所有帧。另一实施例中,可以选择这样的帧,其中说话者做出大致对应于不同肌肉群活动的一组脸部表情。
在步骤S1305中,标记在步骤S1303选择的帧上的兴趣点。在一个实施例中,这通过直观地识别脸上的关键点来进行,例如眼角、嘴角以及痣或斑。还可以标记某些轮廓(例如,脸部及头发轮廓和嘴唇),通过将所述轮廓等距地细分为多个点,可以从这些轮廓自动地生成关键点。
在其它实施例中,使用训练的关键点检测器来自动找到关键点。而在另一实施例中,通过自动校准多个脸部图像来找出关键点。在另一实施例中,能够将两种或更多种上述方法与手动标记结合,这样通过从该过程期间用户所提供的标记推出某些遗失信息,提供半自动过程。
在步骤S1307,选择捕获的给姿态变化建模的帧,并创建AAM单独给姿态建模。
接下来,在步骤S1309,选择捕获的给眨眼建模的帧,创建AAM模式单独给眨眼建模。
接下来,使用选择的所有帧(包括用于给姿态和眨眼建模的帧),创建另一个AAM。但是,在创建所述模型之前,从上述数据中消除k个模式的效应。
选择AAM表现不好的帧。然后,手工标记这些帧,并加入训练集。重复该过程,直至增加新图像也几乎没有进一步的改善。
一旦创建了用于模式(姿态、眨眼和变形)的所有AAM参数,就训练了AAM。
图20为如何创建AAM的示意图。标记训练图像1361,并导出形状模型1363。还为每个脸部模型提取肌理1365。一旦如上所述计算AAM模式和参数,合并形状模型1363和肌理模型365以生成脸部1367。
在一个实施例中,在如前所述的CAT-HMM训练算法的输入处,使用AAM参数及其一阶时间导数(first time derivate)。
在另一实施例中,将先前训练的AAM的空间域扩展到更多的域,而不会影响现有的模型。例如,可利用它扩展仅在包含头发和耳朵区域的脸部区域上训练的模型,以增强现实感。
已知用于现有AAM的一组N个训练图像,用于这些图像的原始模型系数矢量cj∈RM。然后标记要包含在该模型中的区域,生成新的一组N个训练形状和外观给定具有M个模式的原始模型,新的形状模式应该满足以下约束:
c 1 T · · · c N T s 1 T · · · s M T = ( S ~ 1 ext ) T · · · ( S ~ N ext ) T ,
方程2.10
其表明能够使用原始模型系数合成新的模式,以重建扩展的训练形状假设训练采样N的数目大于模式M的数目,能够将新的形状模式获得为最小二乘解。类似地求出新的外观模式。
为了说明上述内容,进行一个实验。此处,使用划分为6种情绪(中性、温和、愤怒、害怕、高兴和悲伤)的6925个句子的语料库。从数据中取出300个句子作为测试集,剩余数据用于训练语音模型。使用标准特征集参数化语音数据,该标准特征集由45维梅尔频率倒谱系数、log-F0(音高)和25个带非周期成分(band aperiodicity)以及这些特征的一阶及二阶时间导数(first and second time derivatives)构成。使用下述的不同AAM来参数化可视数据。训练某些AAM以评估通过所提出的扩展获得的改进。在每种情况下,AAM由17个参数控制,在CAT模型中使用所述参数值及其一阶时间导数。
根据71个训练图像创建所用的第一模型AAMbase,其中手工标记了47个脸部关键点。此外,标记双眼、内外唇、脸部边缘的轮廓,以均匀间隔沿其长度方向采样点。第二模型AAMdecomp将3D头部旋转(由2个模式建模)和眨眼(由1个模式建模)从变形模式中分离。第三模型AAMregions以与AAMdecomp相同的方式创建,除了使用8个模式给下半脸部建模,6个模式给上半脸部建模。最后一个模型AAMfull与AAMregions相同,除了修改嘴部区域以对静态形状进行不同的处理。在首次实验中,基于包括约1百万个帧的由6925个句子构成的完整数据集量化评估每个AAM的重建误差。将所述重建误差测量为在每个AAM的均值形状上弯曲的输入图像与生成的外观之间的每个像素差的L2范数。
图21(a)示出了重建误差如何随AAM模式的数目变化。能够看出,在模式不多的情况下,AAMbase具有最少的重建误差,随着模式数目增加,误差的差异减少。换言之,语义意义的模式所提供的灵活性不应该以减少追踪准确性为代价。事实上,修改的模型被发现比基础模型更鲁棒(robust),具有较低的最差情况的平均误差,如图21(b)所示。这可能是由于AAMregions和AAMdecomp更能推广到未见过的实例,因为它们通过学习不同脸部区域之间的伪相关性而不过度拟合训练数据。
为了评估合成视频的感知质量,执行了若干大规模的用户学习。通过众包(crowd sourcing)网站发布实验,向用户提供所提出的系统生成的视频。
在第一次学习中,评估了所提出的VTTS系统表达一系列情绪的能力。向用户提供测试集中单个句子的视频或音频片段,要求用户从6种情绪的列表选择,识别说话者表达的情绪。使用AAMregions模型生成用于这一评估的合成视频数据。还将它与仅有合成视频和仅有合成音频的版本以及实际视频片段的剪裁版本比较。在每种情况下,6种情绪中各有10个句子被20个人评估,生成的总样本量为1200。
平均识别率,对于捕获的片段为73%,对于我们生成的视频(带有音频)为77%,对于仅有合成视频为52%,对于仅有合成音频为68%。这些结果指示合成生成的结果的识别率是可比的,甚至稍高于真实片段的识别率。这可能是由于合成时将表情风格化了。在图22中示出不同表情之间的混淆矩阵。在所有情况下,最容易混淆温和中性表情。尽管仅有音频时更好识别某些情绪,但使用两种线索时整体识别率较高。
为了确定AAM对最终系统的定性影响,在使用不同AAM所建立的系统上执行偏好测试。对于每次偏好测试,6种情绪中各有10个句子由并排呈现的2个模型生成。10个用户估计每对AAM,要求用户在左模型、右模型之间选择,或没有偏好(在实验之间切换我们模型呈现的顺序以避免偏见),每次偏好测试产生总计为600个两两比较。
在这一实验中,为了关注脸部模型的质量,显示视频而没有音频。从图23中所示的表1,能够看出AAMfull获得了最高分,对AAMregions的偏好超过了标准的AAM。对于有大量的头部动作的诸如愤怒的表情,这种偏好最为明显,对于不涉及头部明显动作的诸如中性及温和的情绪,这种偏好则不太明显。
尽管描述了特定实施例,但只是通过举例的方式提供这些实施例,而不意在限制本发明的范围。实际上,本文描述的新颖的方法和装置可以各种其它形式实现;而且,可以对本文描述的方法和装置的形式进行各种省略、替换和改变,而不偏离本发明的精神。所附的权利要求及其等同物旨在涵盖这些落入本发明的范围和精神内的修改形式。

Claims (25)

1.一种动画制作计算机生成头部的方法,所述头部具有根据要由头部输出的语音动作的嘴部,
所述方法包括:
提供与要由嘴唇动作输出的语音相关的输入;
将所述输入分成声音单元序列;
为输入文本选择表情特性;
使用统计模型将所述声音单元序列转换为图像矢量序列,其中所述模型具有描述将声音单元与图像矢量相关的概率分布的多个模型参数,所述图像矢量包括定义所述头部的脸部的多个参数;以及
将所述图像矢量序列输出为视频,这样所述头部的嘴部动作以用选择的表情模仿与输入文本相关联的语音,
其中将所述选择的表情中每个概率分布的预定类型的参数表示为相同类型的参数的加权之和,并且其中所用的权重为表情相关的,这样将所述声音单元序列转换为图像矢量序列包括为所述选择的表情获取表情相关权值,其中按簇提供所述参数,并且每个簇包括至少一个子簇,其中为每个簇获取所述表情相关权值,这样每个子簇有一个权值。
2.根据权利要求1的方法,其中所述模型进一步配置为将所述声音单元转换为语音矢量,其中所述模型具有描述将声音单元与语音矢量关联的概率分布的多个模型参数,所述方法进一步包括将所述语音矢量序列输出为与头部的嘴唇动作同步的音频。
3.根据权利要求1的方法,其中所述输入为被分成声音单元序列的文本输入。
4.根据权利要求1的方法,其中所述输入为语音输入,该语音输入被分成声音单元序列并作为音频随头部的视频输出。
5.根据权利要求1的方法,其中每个子簇包括至少一个决策树,所述决策树基于关于语言、语音或韵律差异中至少一种的问题。
6.根据权利要求1的方法,其中从不同情绪、口音或说话风格中的至少一种中选择表情特性。
7.根据权利要求1的方法,其中选择表情特性包括提供输入以允许通过所述输入选择权重。
8.根据权利要求1的方法,其中选择表情特性包括从要输出的语音预测应该使用的权重。
9.根据权利要求1的方法,其中选择表情特性包括从关于要输出的语音的外部信息预测应该使用的权重。
10.根据权利要求1的方法,其中选择表情包括接收包含脸部的视频输入,并改变所述权重以模拟所述视频输入的脸部的表情特性。
11.根据权利要求1的方法,其中选择表情特性包括接收包含要输出的语音的音频输入,以及从音频语音输入获得所述权重。
12.根据权利要求1的方法,其中选择表情特性包括从多个预存的权重集中随机选择权重集,其中每个权重集包括用于所有子簇的权重。
13.根据权利要求1的方法,其中所述图像矢量包括允许从模式的加权之和构建脸部的参数,并且其中所述模式表示脸部或其部分的重建。
14.根据权利要求13的方法,其中所述模式包括表示脸部的形状和外观的模式。
15.根据权利要求14的方法,其中相同权重参数用于形状模式及其对应的外观模式。
16.根据权利要求13的方法,其中至少一个模式表示脸部的姿态。
17.根据权利要求13的方法,其中多个模式表示脸部区域的变形。
18.根据权利要求13的方法,其中至少一个所述模式表示眨眼。
19.根据权利要求13的方法,其中用固定的形状和肌理给头部的静态特征建模。
20.一种使用于呈现计算机生成的头部的系统适配新表情的方法,所述头部具有根据要由头部输出的语音动作的嘴部,
所述系统包括:
输入端,用于接收数据给要由嘴部动作输出的语音;
处理器,其被配置为:
将所述输入数据分成声音单元序列;
允许为输入文本选择表情特性;
使用统计模型将所述声音单元序列转换为图像矢量序列,其中所述模型具有描述将声音单元与图像矢量相关的概率分布的多个模型参数,所述图像矢量包括定义所述头部的脸部的多个参数;以及
将所述图像矢量序列输出为视频,这样所述头部的嘴部动作以用选择的表情模仿与输入文本相关联的语音,
其中将所述选择的表情中每个概率分布的预定类型的参数表示为相同类型的参数的加权之和,并且其中所用的权重为表情相关的,这样将所述声音单元序列转换为图像矢量序列包括为所述选择的表情获取表情相关权值,其中按簇提供所述参数,并且每个簇包括至少一个子簇,其中为每个簇获取所述表情相关权值,这样每个子簇有一个权值,
所述方法包括:
接收新的输入视频文件;
计算施加给所述簇的权值,以最大化生成的图像与新视频文件之间的相似度。
21.根据权利要求20的方法,进一步包括:
使用所述新视频文件的数据创建新簇;以及
计算施加给包含所述新簇的簇的权值,以最大化生成的图像与新视频文件之间的相似度。
22.一种用于呈现计算机生成的头部的系统,所述头部具有根据要由头部输出的语音动作的嘴部,
所述系统包括:
输入端,用于接收数据给要由嘴部动作输出的语音;
处理器,其被配置为:
将所述输入数据分成声音单元序列;
允许为输入文本选择表情特性;
使用统计模型将所述声音单元序列转换为图像矢量序列,其中所述模型具有描述将声音单元与图像矢量相关的概率分布的多个模型参数,所述图像矢量包括定义所述头部的脸部的多个参数;以及
将所述图像矢量序列输出为视频,这样所述头部的嘴部动作以用选择的表情模仿与输入文本相关联的语音,
其中将所述选择的表情中每个概率分布的预定类型的参数表示为相同类型的参数的加权之和,并且其中所用的权重为表情相关的,这样将所述声音单元序列转换为图像矢量序列包括为所述选择的表情获取表情相关权值,其中按簇提供所述参数,并且每个簇包括至少一个子簇,其中为每个簇获取所述表情相关权值,这样每个子簇有一个权值。
23.一种用于呈现计算机生成的头部的可适配系统,所述头部具有根据要由头部输出的语音动作的嘴部,所述系统包括:
输入端,用于接收数据给要由嘴部动作输出的语音;
处理器,其被配置为:
将所述输入数据分成声音单元序列;
允许为输入文本选择表情特性;
使用统计模型将所述声音单元序列转换为图像矢量序列,其中所述模型具有描述将声音单元与图像矢量相关的概率分布的多个模型参数,所述图像矢量包括定义所述头部的脸部的多个参数;以及
将所述图像矢量序列输出为视频,这样所述头部的嘴部动作以用选择的表情模仿与输入文本相关联的语音,
其中将所述选择的表情中每个概率分布的预定类型的参数表示为相同类型的参数的加权之和,并且其中所用的权重为表情相关的,这样将所述声音单元序列转换为图像矢量序列包括为所述选择的表情获取表情相关权值,其中按簇提供所述参数,并且每个簇包括至少一个子簇,其中为每个簇获取所述表情相关权值,这样每个子簇有一个权值,
所述系统进一步包括存储器,该存储器被配置为存储按簇及子簇提供的所述参数和用于所述子簇的权值,
所述系统进一步被配置为接收新的输入视频文件;
所述处理器被配置为重新计算施加给所述子簇的权值,以最大化生成的图像与新视频文件之间的相似度。
24.一种载体介质,包括被配置为使计算机执行权利要求1的方法的计算机可读代码。
25.一种载体介质,包括被配置为使计算机执行权利要求20的方法的计算机可读代码。
CN201410050837.7A 2013-01-29 2014-01-29 计算机生成的头部 Pending CN103971393A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB1301583.9A GB2510200B (en) 2013-01-29 2013-01-29 A computer generated head
GB1301583.9 2013-01-29

Publications (1)

Publication Number Publication Date
CN103971393A true CN103971393A (zh) 2014-08-06

Family

ID=47890966

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410050837.7A Pending CN103971393A (zh) 2013-01-29 2014-01-29 计算机生成的头部

Country Status (5)

Country Link
US (1) US9959657B2 (zh)
EP (1) EP2760023A1 (zh)
JP (2) JP2014146339A (zh)
CN (1) CN103971393A (zh)
GB (1) GB2510200B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106327555A (zh) * 2016-08-24 2017-01-11 网易(杭州)网络有限公司 一种获得唇形动画的方法及装置
CN109447234A (zh) * 2018-11-14 2019-03-08 腾讯科技(深圳)有限公司 一种模型训练方法、合成说话表情的方法和相关装置
CN110347867A (zh) * 2019-07-16 2019-10-18 北京百度网讯科技有限公司 用于生成嘴唇动作视频的方法和装置
CN111415677A (zh) * 2020-03-16 2020-07-14 北京字节跳动网络技术有限公司 用于生成视频的方法、装置、设备和介质
CN112907706A (zh) * 2021-01-31 2021-06-04 云知声智能科技股份有限公司 基于多模态的声音驱动动漫视频生成方法、装置及系统

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2516965B (en) 2013-08-08 2018-01-31 Toshiba Res Europe Limited Synthetic audiovisual storyteller
US9378735B1 (en) * 2013-12-19 2016-06-28 Amazon Technologies, Inc. Estimating speaker-specific affine transforms for neural network based speech recognition systems
JP6767224B2 (ja) 2016-09-29 2020-10-14 株式会社東芝 コミュニケーション装置、コミュニケーション方法、およびコミュニケーションプログラム
US10554957B2 (en) * 2017-06-04 2020-02-04 Google Llc Learning-based matching for active stereo systems
US10586368B2 (en) 2017-10-26 2020-03-10 Snap Inc. Joint audio-video facial animation system
CN107977674B (zh) * 2017-11-21 2020-02-18 Oppo广东移动通信有限公司 图像处理方法、装置、移动终端及计算机可读存储介质
EP3815050B1 (en) * 2018-05-24 2024-01-24 Warner Bros. Entertainment Inc. Matching mouth shape and movement in digital video to alternative audio
KR102079453B1 (ko) * 2018-07-31 2020-02-19 전자부품연구원 비디오 특성에 부합하는 오디오 합성 방법
AU2020211809A1 (en) * 2019-01-25 2021-07-29 Soul Machines Limited Real-time generation of speech animation
CN110035271B (zh) * 2019-03-21 2020-06-02 北京字节跳动网络技术有限公司 保真图像生成方法、装置及电子设备
US10957304B1 (en) * 2019-03-26 2021-03-23 Audible, Inc. Extracting content from audio files using text files
WO2020256471A1 (ko) * 2019-06-21 2020-12-24 주식회사 머니브레인 머신 러닝 기반의 발화 동영상 생성 방법 및 장치
US11151979B2 (en) * 2019-08-23 2021-10-19 Tencent America LLC Duration informed attention network (DURIAN) for audio-visual synthesis
CN113468883B (zh) * 2020-03-30 2024-04-30 株式会社理光 位置信息的融合方法、装置及计算机可读存储介质
CN118135992A (zh) * 2020-12-24 2024-06-04 北京猎户星空科技有限公司 语音合成模型训练和语音合成方法、装置、设备及介质
WO2023287416A1 (en) * 2021-07-15 2023-01-19 Hewlett-Packard Development Company, L.P. Rendering avatar to have viseme corresponding to phoneme within detected speech
CN117275129B (zh) * 2023-10-29 2024-04-16 浙江华屹物联技术有限公司 一种基于物联网的语音结合人脸识别的门禁系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1243304A (zh) * 1998-04-30 2000-02-02 松下电器产业株式会社 包括最大似然方法的基于本征音的发言者和环境适应
CN1253353A (zh) * 1998-09-04 2000-05-17 松下电器产业株式会社 使用本征话音技术使说话者规范化并使其与环境相适应
CN1466104A (zh) * 2002-07-03 2004-01-07 中国科学院计算技术研究所 基于统计与规则结合的语音驱动人脸动画方法
US8224652B2 (en) * 2008-09-26 2012-07-17 Microsoft Corporation Speech and text driven HMM-based body animation synthesis
US20120284029A1 (en) * 2011-05-02 2012-11-08 Microsoft Corporation Photo-realistic synthesis of image sequences with lip movements synchronized with speech

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6735566B1 (en) * 1998-10-09 2004-05-11 Mitsubishi Electric Research Laboratories, Inc. Generating realistic facial animation from speech
US6366885B1 (en) 1999-08-27 2002-04-02 International Business Machines Corporation Speech driven lip synthesis using viseme based hidden markov models
JP3822828B2 (ja) 2002-03-20 2006-09-20 沖電気工業株式会社 3次元画像生成装置およびその画像生成方法ならびにその画像生成プログラムを記録したコンピュータ読取り可能な記録媒体
WO2005031654A1 (en) 2003-09-30 2005-04-07 Koninklijke Philips Electronics, N.V. System and method for audio-visual content synthesis
US7613613B2 (en) * 2004-12-10 2009-11-03 Microsoft Corporation Method and system for converting text to lip-synchronized speech in real time
JP2007006182A (ja) 2005-06-24 2007-01-11 Fujifilm Holdings Corp 画像処理装置および方法並びにプログラム
US7784580B2 (en) 2005-11-18 2010-08-31 Toyota Jidosha Kabushiki Kaisha Fuel supply system component protective construction
JP4543263B2 (ja) 2006-08-28 2010-09-15 株式会社国際電気通信基礎技術研究所 アニメーションデータ作成装置及びアニメーションデータ作成プログラム
KR101541907B1 (ko) 2008-10-14 2015-08-03 삼성전자 주식회사 음성 기반 얼굴 캐릭터 형성 장치 및 방법
US8204301B2 (en) 2009-02-25 2012-06-19 Seiko Epson Corporation Iterative data reweighting for balanced model learning
US8260038B2 (en) 2009-02-25 2012-09-04 Seiko Epson Corporation Subdivision weighting for robust object model fitting
WO2010142928A1 (en) * 2009-06-10 2010-12-16 Toshiba Research Europe Limited A text to speech method and system
CN108090940A (zh) * 2011-05-06 2018-05-29 西尔股份有限公司 基于文本的视频生成
GB2501062B (en) 2012-03-14 2014-08-13 Toshiba Res Europ Ltd A text to speech method and system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1243304A (zh) * 1998-04-30 2000-02-02 松下电器产业株式会社 包括最大似然方法的基于本征音的发言者和环境适应
CN1253353A (zh) * 1998-09-04 2000-05-17 松下电器产业株式会社 使用本征话音技术使说话者规范化并使其与环境相适应
CN1466104A (zh) * 2002-07-03 2004-01-07 中国科学院计算技术研究所 基于统计与规则结合的语音驱动人脸动画方法
US8224652B2 (en) * 2008-09-26 2012-07-17 Microsoft Corporation Speech and text driven HMM-based body animation synthesis
US20120284029A1 (en) * 2011-05-02 2012-11-08 Microsoft Corporation Photo-realistic synthesis of image sequences with lip movements synchronized with speech

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A.TANJU ERDEM .ET: ""Advanced authoring tools for game-based training"", 《FORMERLY WITH MOMENTUM DIGITAL MEDIA TECHNOLOGIES》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106327555A (zh) * 2016-08-24 2017-01-11 网易(杭州)网络有限公司 一种获得唇形动画的方法及装置
CN109447234A (zh) * 2018-11-14 2019-03-08 腾讯科技(深圳)有限公司 一种模型训练方法、合成说话表情的方法和相关装置
CN109447234B (zh) * 2018-11-14 2022-10-21 腾讯科技(深圳)有限公司 一种模型训练方法、合成说话表情的方法和相关装置
CN110347867A (zh) * 2019-07-16 2019-10-18 北京百度网讯科技有限公司 用于生成嘴唇动作视频的方法和装置
CN110347867B (zh) * 2019-07-16 2022-04-19 北京百度网讯科技有限公司 用于生成嘴唇动作视频的方法和装置
CN111415677A (zh) * 2020-03-16 2020-07-14 北京字节跳动网络技术有限公司 用于生成视频的方法、装置、设备和介质
CN112907706A (zh) * 2021-01-31 2021-06-04 云知声智能科技股份有限公司 基于多模态的声音驱动动漫视频生成方法、装置及系统

Also Published As

Publication number Publication date
JP2014146339A (ja) 2014-08-14
JP2016042362A (ja) 2016-03-31
EP2760023A1 (en) 2014-07-30
US9959657B2 (en) 2018-05-01
US20140210830A1 (en) 2014-07-31
GB201301583D0 (en) 2013-03-13
JP6109901B2 (ja) 2017-04-05
GB2510200B (en) 2017-05-10
GB2510200A (en) 2014-07-30

Similar Documents

Publication Publication Date Title
CN103971393A (zh) 计算机生成的头部
US9361722B2 (en) Synthetic audiovisual storyteller
US11144597B2 (en) Computer generated emulation of a subject
CN104424943B (zh) 语音处理系统和方法
Fan et al. Photo-real talking head with deep bidirectional LSTM
US20140210831A1 (en) Computer generated head
Françoise et al. Motion-sound mapping through interaction: An approach to user-centered design of auditory feedback using machine learning
CN103578462A (zh) 语音处理系统
JP2013214063A (ja) テキスト読み上げシステム
Ramanarayanan et al. Spatio-temporal articulatory movement primitives during speech production: Extraction, interpretation, and validation
CN107452379A (zh) 一种方言语言的识别技术及虚拟现实教学方法和系统
Zhao et al. Enhancing audio perception in augmented reality: a dynamic vocal information processing framework
Jiang et al. Speech driven photo realistic facial animation based on an articulatory DBN model and AAM features
Yu et al. A realistic 3D articulatory animation system for emotional visual pronunciation
Li et al. Application of virtual human sign language translation based on speech recognition
d’Alessandro et al. Reactive statistical mapping: Towards the sketching of performative control with data
Abdoli et al. Deep Deterministic Policy Gradient in Acoustic to Articulatory Inversion
Savran et al. Speaker-independent 3D face synthesis driven by speech and text
Turkmani Visual analysis of viseme dynamics
GB2537907A (en) Speech synthesis using dynamical modelling with global variance
Yu et al. Realization of voice-driven lip synthesis system
CN118658128A (zh) 基于课堂视频的ai多维教学行为分析方法及系统
CN117635892A (zh) 人脸模型的表情调整方法、装置、设备及存储介质
Inanoglu et al. MULTIMODAL SPEAKER IDENTITY CONVERSION-CONTINUED

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140806