CN1639738A

CN1639738A - 产生漫画化的正在说话的头部的方法和系统

Info

Publication number: CN1639738A
Application number: CNA038045044A
Authority: CN
Inventors: K·S·查拉帕里; G·马马罗波洛斯
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-02-25
Filing date: 2003-02-12
Publication date: 2005-07-13
Also published as: EP1481372A1; WO2003071487A1; US20030163315A1; JP2005518581A; AU2003205988A1

Abstract

所公开的产生文本－语音合成应用中的正在说话的头部的方法和系统用来将输入图像修改成使观看者更感兴趣。经修改的图像可以至少有几分象是漫画式的(即，象是合成的)。这些漫画可以通过手动或自动方式用过滤器生成。

Description

产生漫画化的正在说话的头部的方法和系统

本发明与面部图像的领域有关。具体地说，本发明涉及在文本-语音合成应用中产生正在说话的头部的方法和系统，它将输入的面部图像修改成使观众更感兴趣。

在文本-视听语音(“TTAVS”)系统中，可以将“正在说话的头部”的集成用于各种应用。这种应用可以包括例如用于视频电话的基于模型的图像压缩、演示、虚拟会客厅场景、诸如电子邮件读出和游戏之类的智能计算机用户接口，以及许多其他操作。这种智能用户接口的一个例子是采用正在说话的头部来表示所发送的电子邮件消息的电子邮件系统。电子邮件消息的发送方可以通过包括带或不带文字的情绪记号来注释电子邮件消息。在这方面，用户可以发送一个呈现为一张快乐的脸的电子邮件消息给另一个人以表示祝贺。也可以模仿其他诸如忧伤、愤怒或失望之类的情绪。

为了取得所期望的效果，动画的头部必须是可信的，即对于观众来说看来是真实的。必须考虑面部的摄影特征(例如，自然的皮肤外表、没有重现伪像、形状真实)和动画逼真质量(例如，与正在播放的音频同步的真实的嘴唇和头部的动作)这两个方面，因为人们对人面部的动作和外观是很敏感的。做得好，可视化TTAVS可以是攫取观看者注意的有力工具。这为用户提供了用户能与之建立联系的真实感。

现有各种实现视听TTAVS合成算法的传统方法，例如可以用简单的动画/卡通。通常，所用的动画越精细，对观众的影响越大。然而，由于它们是明显的人工外貌，卡通具有非常有限的效果。实现TTAVS方法的另一种传统方法是采用说话人的录像。随后将这些录像集成入计算机程序。这种视频方法比卡通动画更为真实。然而，这种录像方法的效用局限于事前已知所说的文字和存储器内有足够供视频剪辑用的存储空间的情况。这些情况对于普通所用的TTAVS应用通常是不存在的。

也可以将三维(3D)建模技术用于许多TTAVS应用。这种3D模型提供了灵活性，因为这些模型可以修改成适应不同的语音和情绪表示。不幸的是，这些3D模型通常不适合由计算机系统自动实现。随着当前模型被增强为更有真实感，三维模型的编程也越来越复杂。在这种3D建模技术中，用来产生3D合成景象的多边形的数目按指数增大。这大大地提高了对存储器和计算机处理能力的要求。

如上面所述，卡通没有多少灵活性，因为卡通图像全部是预先确定的，而且必须事前知道需追随的言语。此外，卡通是看起来最不真实的方法。虽然视频序列逼真，但没有多少灵活性，因为视频序列全部要预先确定。三维建模由于其完全合成特性因此是灵活的。这种3D模型可以表示任何面部外貌和透视。然而，这种3D模型的完全合成特性降低了真实感。

基于图像的技术充分考虑了真实感和灵活性。这种技术看起来真实，因为可以高度精确地近似面部的动作、形状和颜色。此外，可用活生生的对象视频图像来创建基于图像的模型。基于图像的技术也是灵活的，因为可以取得足够多的样本来调换头部和面部部分以适应各式各样的言语和情绪。

在这种基于图像的系统中，使用了一个发出音素的人的可得出独特口形(或视位(viseme))的一组N张(例如，16张)照片。在TTAVS系统中，将文本处理以得到音素和定时信息，再将其传送给语音合成器和面部动画合成器。面部动画合成器用适当的视位图像(来自该组N张照片)逐音素地与音素和语素一同进行显示。这表达了与音频同步的面部动作(例如，嘴唇)的外观。这样的传统系统可参见T.Ezzat等人的“麦克谈话：基于语素视位的说话者面部显示”(“Miketalk：A talkingfacial display based on morphing visemes”，Proc ComputerAnimation Conf.pp.96-102，Philadelphia，PA，1998)和E.Cosatto等人的“从图像样本得到的具有照片真实度的正在说话的头部”(“Photo-realistic talking-heads from image samples”，IEEETrans.On Multimedia，Vol.2，No.3，Sept.2000)。

然而，上面所论及的这些传统的基于图像的系统的一个显著缺点是用户会有所显示的图像与所播放的合成语音或音频不匹配的感觉。这是因为图像是具有照片真实度的，而语音却是合成的(即，由计算机产生的或机器人式的)。

因此，本发明的一个目的是为TTAVS系统提供一种使观看者对所显示的图像的感觉与所播放的合成语音相匹配的技术。

本发明的另一个目的是能够为可以由计算机(包括个人计算机)自动实现的文本-语音应用产生经漫画化的正在说话的头部图像和音频。

本发明的另一个目的是揭示一种修改可用于传统的TTAVS环境中的基于图像的样本的漫画过滤器。

本发明的另一个目的是提供一种灵活的用于产生TTAVS应用中的正在说话的头部的基于图像方法。

按照本发明的原理，本发明的这些及其他目的是通过提供一种用于合成TTAVS应用中正在说话的头部的基于图像的方法来实现的，其中对一个人的视位图像(即图像)进行处理，使得视位图像至少部分地感觉像是漫画(即，有几分象合成的)。这些漫画可以通过手动或自动方式用过滤器生成。漫画的风格例如可以是水彩画、连环画、刮刀画、铅笔画、壁画等。利用漫画化的图像，TTAVS系统更能引起观看者的兴趣，因为在保持图像的真实感的同时，系统的视听部分至少具有部分合成的感觉。

本发明的一个实施例针对一种包括一个能显示正在说话的头部的显示器、一个音频合成单元和一个漫画过滤器的视听系统。一个处理器被安排用来控制视听系统的工作。正在说话的头部在由显示器显示前，由漫画过滤器处理。

本发明的另一个实施例针对一种为文本-语音合成应用创建正在说话的头部图像的方法。这种方法包括对一个正在说话的头部的图像进行采样、将所采样的这些图像分解成图像片和从这些图像片中再现正在说话的头部图像这些步骤。这种方法还包括对正在说话的头部图像施加漫画过滤的步骤。

本发明的又一个实施例针对一种显示正在说话的头部的视听系统装置。一开始用对象的图像形成正在说话的头部。这种系统还包括合成音频的装置和一个漫画过滤器。过滤器将正在说话的头部的外貌修改后由显示装置显示。经修改的正在说话的头部与用对象的图像形成的未修改的正在说话的头部相比至少部分地具有人工的外貌。

从附图和以下对各优选实施例的详细说明中可以更为清楚地看到本发明的其他特征和方面以及本发明的各种优点。

图1示出了可以实现本发明的一个优选实施例的系统的示意图；

图2示出了说明按照本发明的一个优选实施例的产生经漫画化的正在说话的头部图像的基于图像方法的流程图；以及

图3示出了按照本发明几个实施例的经漫画化的图像的例子。

为了能对本发明有深入的理解，在以下说明中给出了一些具体细节，诸如特定的体系结构、接口、技术之类，这些都是例示性的而不是限制性的。然而，熟悉该技术领域的人员显然清楚，本发明可以用与这些具体细节不同的其他实施例实现。此外，为了简明起见，略去了对一些众所周知的设备、电路和方法的详细说明，以免让不必要的细节模糊了对本发明的说明。

图1示出了可以实现本发明的各实施例的典型物理结构的示意图。该例示描述了一种利用个人计算机内含有的部件的方法的实现情况。这种方法可以用各种硬件和软件手段和各式各样的控制器和处理器实现。要注意的是，也可以使用例如膝上型或掌上型计算机、个人数字助理(PDA)、带显示器的电话机、电视机、机顶盒，或者任何其他类型的类似设备。

图1所示的系统10包括一个包括处理器20和存储器22的创建系统11。处理器20可以代表例如一个微处理器、中央处理单元、计算机、电路卡、专用集成电路(ASIC)之类。存储器22可以代表例如基于盘片的光或磁存储装置、电子存储器，以及这些和其他存储装置的部分或组合。

音频(例如，语音)被输入音频输入单元23(例如一个麦克风，或者通过网络连接输入)。语音提供最终将由正在说话的头部100追随的输入。创建系统11被设计成能创建一个库30，以便能在输出部件12的显示器24(例如，计算机屏幕)上描画正在说话的头部的图像，并具有通过音频输出单元26输出的与输入激励(例如音频)相应且与正在说话的头部100同步的语音输出。

如图1所示，输出部件12不必与创建系统11集成为一体。(输出部件12内代表语音识别器27和库30的方框用虚线示出，以表明如果使用集成配置就不需要重复配置。)输出部件12可以通过数据连接而可移动地与创建系统11连接或耦合。非集成配置使库建立功能和动画显示功能可以分开。同时应该理解，输出部件12可以包括它自己的处理器、存储器和通信单元，它们执行与在本文中对处理器20、存储器22和通信单元40所述的类似的功能。

可以考虑各种输入激励(代替前面提到的音频)，包括几乎是任何形式的文本输入，这取决于具体应用。例如，文本输入激励可以是一个二进制数据流。音频输入单元23可以连接到语音识别器27上。在这个例子中，语音识别器27也起着将输入语音变换成二进制数据以供进一步处理的语音-数据变换器的作用。语音识别器27也在最初对对象采样时使用。

在输出部件12内，跟踪输入激励的音频在这个例子中由把来自语音-数据变换器29的音频信号变换成语音的语音合成器28产生。如果只是用文本作为输入激励，在输出部件12内就可以不需要语音识别器27。

对于基于图像的合成来说，声音、动作和图像的样本在对象正自然地说话时捕获。这些样本捕获了演讲人的特征，诸如他或她在说特定音素时的声音，他或她的口形，以及他或她在音素之间的发音过渡方式。图像样本经处理后存储在一个小型的动画库(例如，存储器22)内。

与系统10关联的各个功能操作可以完全或部分地由存储在存储器22内的由处理器20执行的一个或多个软件程序实现。处理器20考虑语音识别器27输出的文本数据，从存储器22内的库中取回适当的样本，将所取回的样本连接起来，并使所最终得到的动画序列输出给显示器24。处理器20还可以有一个时钟，用来将语音和图像打上时间标记，以维持同步。处理器20可以用所打的时间标记来确定哪些图像与所合成的正在说话的头部100所说出的哪些声音相对应。

库30可以含有至少一个动画库和一个协同发音库(coarticulation library)。一个库内的数据可以用来从另一个库提取样本。例如，处理器20可以用从协同发音库提取的数据来从动画库中选择需输出给显示器24的适当帧参数。存储器22还可以含有由处理器20执行的动画合成软件。

图2示出了说明按照本发明的一个优选实施例的用于合成具有照片真实度的正在说话的头部的基于图像的方法的流程图。这种方法从录取人类对象的样本开始(步骤200)。录取步骤(200)，或者说采样步骤，可以用各种方式执行，诸如视频记录、计算机生成之类。可以用视频的形式捕获样本，并将数据以二进制方式传送给计算机。样本可以包括图像样本(即，对象的照片)、关联的声音样本和动作样本。应指出的是，所捕获的所有图像样本不必都要有一个声音样本。例如，在产生口形样本谱以存储在动画库内时，在有些实施例中所关联的声音样本不是必需的。

然后，在步骤201，将图像样本分解成一个图像的片的分层结构，每个图像片表示样本的一个部分(诸如面部部分)。分解图像样本是有益的，因为这大大降低了在实现动画序列时对存储器的要求。这些分解了的图像片被存储在一个动画库内(步骤202)。这些图像片最终将用来构造动画序列的正在说话的头部100。

然后，对对象处在稍有不同的面部位置(诸如口形不同)的下一个图像的其他样本进行采样(步骤203)。这个过程一直继续到得到图像片的一个代表性的谱、并产生数量多到足以进行动画合成的口形。现在产生了动画库，从而完成了动画通道的的采样过程。为了创建一个有效的正在说话的头部的动画库，必须采样充分的口形谱，以对应于可以在合成中表示的不同的音素或声音。由于嘴唇的变形和下巴运动有生理限制，不同口形的数量实际上是相当少的。

另一种采样方法是首先从自然说话人的一个视频序列提取所有的样本图像。然后，利用自动面部/面部特征位置，对这些样本进行配准，使它们规格化。经规格化的样本用所测得的各自参数标注。然后，为了减少样本总数，可以对与每个样本关联的这些参数进行矢量量化。

还要注意的是还执行协同发音。协同发音的目的是适应最终合成输出中的协同发音效果。协同发音的原理认识到：与一个音素相应的口形不仅取决于所发出的这个音素本身而且还取决于这个时刻的音素之前(有时还有之后)发出的音素。不考虑协同发音效果的动画方法在观看者看来会觉得是人造的，因为结合所说出一个音素所用的口形与在这个语境内应该用的口形不一致。

在步骤204，动画序列开始。输入诸如文本之类的某种激励(步骤205)。这种激励代表动画序列将追随的特定数据。激励可以是语音、文本或其他类型的二进制或编码信息，其可以由处理器解读为启动和处理一个动画序列的触发信号。作为一个例示，在计算机接口用正在说话的头部100来将电子邮件消息发送给一个远端方的情况下，输入激励就是发送方所创建的电子邮件消息。处理器20将产生追随发送方消息、文本的讲话头部或产生与发送方消息文本关联的语音。

如果输入是文本，处理器20就查询电路或软件，将文本与特定的音素或音素序列相关联。根据当前音素序列的标识，处理器20对协同发音库进行查询，并从库中取回正在说话的头部所需的数据(步骤206)。

在步骤207，图像数据被提供给漫画过滤器31(见图1)。漫画过滤器31被用来修改图像数据，使得所显示的正在说话的头部100至少部分地具有合成的感觉。漫画过滤过程可以自动执行或者每当需显示正在说话的头部100时经由手动的用户输入执行。漫画的风格例如可以是水彩画、连环画、刮刀画、铅笔画、壁画等。图3示出了用各个过滤器得到的经漫画化的正在说话的头部的一些例子。利用经漫画化的正在说话的头部100，TTAVS系统更能引起观看者的兴趣，因为在保持图像的真实感的同时，系统的视听部分至少部分地具有合成的感觉，

系统10的用户例如也可以动态地改变经漫画化的正在说话的头部100的外貌。此外，还可以创建用户简档并将其存储在存储器22内，用来为一些预定应用自动设置优选的过滤器类型(例如，水彩画或壁画)。

此时(步骤208)，动画过程开始显示正在说话的头部100。在向显示器24输出正在说话的头部100同时，处理器20利用存储在协同发音库内的音频向音频输出单元26输出与适当的音素序列关联的语音。结果，就得到追随输入数据的正在说话的头部。

应指出的是对象的样本不必局限于人。按照本发明，也可以追随动物、昆虫和无生命对象的正在说话的头部。还要注意的是，正在说话的头部100要用的图像数据可以被预先存储或者通过远程数据连接访问。

在一个实施例中，作为交互式的TTAVS系统的系统10可以是一个用于低带宽视频会议或非正式聊天会话的替换系统。这个系统合并了具有面部动画参数(情绪参数)和语音产生能力(嘴唇同步)的人类头部的三维模型。在发送者一方，用户通过键盘输入文本语句，这些文本语句通过通信单元40(例如，以太网、蓝牙、蜂窝网、拨号或分组数据接口)被发送给对应方的PC。在接收端，系统将输入的文本变换成语音。接收者将看到一个具有适当面部情绪和嘴唇动作的三维头部模型和听到与所发送的文本相应的语音。用户可以用预定的一组符号来表示某些感情，随后在接收方再现这些感情。因此，聊天会话得到增强，尽管不能达到高带宽视频会议的质量。

虽然上面是以一些具体实施例来对本发明进行说明的，但可以理解，本发明并不希望被局限或限制于本文所揭示的这些实施例。相反，本发明旨在涵盖在所附权利要求书的精神实质和专利保护范围内所包括的各种结构及其修改。

Claims

1.一种视听系统(10)，包括：

一个能显示正在说话的头部(100)的显示器(24)；

一个音频合成单元(28)；

一个漫画过滤器(31)；以及

一个被配置用来控制视听系统(10)的工作的处理器(20)，

其中在由显示器(24)显示正在说话的头部(100)前，由漫画过滤器(31)处理该正在说话的头部(100)。

2.权利要求1的系统(10)，其中所述正在说话的头部(100)是基于一个对象的图像样本的。

3.权利要求2的系统(10)，其中所述漫画过滤器(31)对图像样本进行修改，以给出与原始的图像样本相比至少部分地为合成的外观(图3)。

4.权利要求3的系统(10)，其中漫画过滤器(31)是从包括水彩画、连环画、刮刀画、铅笔画和壁画型过滤器的组中选出的。

5.权利要求1的系统，还包括一个通信单元(40)。

6.权利要求1的系统，还包括耦合到处理器(20)上的一个语音识别器(27)和一个语音-数据变换器(29)。

7.权利要求6的系统(10)，其中所述系统是一个文本-视听语音系统。

8.一种为文本-语音合成应用生成正在说话的头部图像的方法(图2)，所述方法包括下列步骤：

对一个正在说话的头部的图像进行采样(200)；

将所采样的图像分解成图像片(201)；

从图像片中再现正在说话的头部图像(204)；以及

对正在说话的头部图像进行漫画过滤(207)。

9.按照权利要求8所述的方法，还包括显示漫画化的正在说话的头部的步骤(208)。

10.按照权利要求8所述的方法，其中所述进行过滤的步骤包括对正在说话的头部图像进行水彩画过滤、连环画过滤、刮刀画过滤、铅笔画过滤或壁画过滤。

11.权利要求1的系统(10)，其中所述漫画过滤器(31)根据用户输入被有选择地应用。

12.权利要求1的系统(10)，其中所述漫画过滤器(31)被自动应用。

13.权利要求4的系统(10)，其中所应用的过滤器的类型可以由用户动态改变。