CN1860504A

CN1860504A - 用于视听内容合成的系统和方法

Info

Publication number: CN1860504A
Application number: CNA2004800282271A
Authority: CN
Inventors: N·迪米特罗瓦; A·米勒; D·李
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2003-09-30
Filing date: 2004-09-28
Publication date: 2006-11-08
Also published as: KR20060090687A; WO2005031654A1; JP2007507784A; EP1671277A1; US7636662B2; US20060290699A1

Abstract

提供了一种用于在视频图像处理器中合成视听内容的系统和方法。内容合成应用处理器从表示正在讲话的讲话者的视听输入信号中提取音频特征和视频特征。处理器使用所提取的视觉特征来创建讲话者脸部的计算机产生的动画模型。然后处理器使讲话者脸部的动画模型的面部运动与用于表示讲话者谈话的多个音频逻辑单元(诸如音素)同步。依照这种方式处理器合成讲话者脸部的视听表示，其与讲话者谈话准确地同步。

Description

用于视听内容合成的系统和方法

本发明总体上涉及视听系统，并且更准确地说涉及用于在视频图像处理器中合成视听内容的系统和方法。

计算机科学的发展继续增加计算机的速度和计算能力。当计算机与人类计算机用户通信时，大部分通信依照在图形显示器中的文本消息的形式进行，所述人类计算机用户从计算机屏幕读取所述文本消息。某些计算机应用，尤其是那些发展来显示计算机游戏图形的计算机应用，能够依照由计算机产生讲话者的视觉图像的形式来向计算机用户给出计算机输出。特别地是，计算机产生人脸的动画模型来表示谁是讲话者并且同时输出所述讲话者的谈话。

计算机系统很难创建由计算机产生的讲话人的逼真的视觉图像。这是由于人脸在讲话的过程中会表现出各种各样的面部表情。人脸可以示出许多表达情绪并且为所讲的话给出了附加含义的微妙特征。每个人从出生开始就在识别和解释面部表情。因此，人类计算机用户能够迅速地察觉计算机产生的劣质的动画人脸。劣质的动画人脸常常困扰着人类计算机用户。在最坏的情况下，劣质的动画人脸甚至可能防碍理解所述动画人脸所讲的消息。

因此在本领域中需要一种能够创建讲话者的逼真视听表示的系统和方法。在本领域中还需要一种能够为计算机产生的动画人脸创建逼真的面部表情的系统和方法。

为了解决上述现有技术的缺陷，本发明的系统和方法能够提供讲话者的逼真视听表示。本发明的系统和方法还能够为计算机产生的动画人脸创建逼真的面部表情。

本发明的系统和方法包括位于视频图像处理器的计算机系统中的内容合成应用处理器。内容合成应用处理器从表示正在讲话的讲话者的视听输入信号中提取音频特征和视频特征。处理器使用所提取的视觉特征来创建计算机产生的讲话者脸部的动画模型。处理器通过使用隐藏马尔可夫模型(Hidden Markov Model)或时延神经网络(Time Delayed Neural Network)来分类讲话者面部特征的视觉脸部运动分量，以便表示讲话者脸部的运动分量。

内容合成应用处理器包括学习模块，用于提取并分类讲话者谈话的音频特征和视频特征。处理器通过使用隐藏马尔可夫模型或时延神经网络来分类所提取的讲话者谈话的音频特征以便表示诸如音素之类的音频逻辑单元。然后处理器使讲话者脸部的动画模型的面部运动与用于表示讲话者谈话的多个音频逻辑单元同步。依照这种方式处理器合成与讲话者的谈话准确同步的讲话者脸部的逼真的视听表示。

在本发明的一个有益实施例中，在训练阶段中，处理器根据讲话者脸部的音频特征和视频特征来创建视听输入向量。然后处理器通过使用隐藏马尔可夫模型或时延神经网络来根据视听输入向量创建视听讲话脸部运动分量。然后处理器对视听输入向量执行语义关联过程，以便获得在用于表示讲话者脸部的音素和用于表示讲话者脸部的视位之间的关联。

在识别阶段中，处理器分析新的输入视频。处理器提取讲话者谈话的音频特征并且使用语义关联过程来找到所述音频特征的相应视频表示。然后处理器通过使用隐藏马尔可夫模型或时延神经网络来把相应的视频表示与视听讲话脸部运动分量相匹配。然后处理器为每个选择的视听讲话脸部运动分量创建计算机产生的动画脸部，并且使每个计算机产生的动画脸部与所述讲话者谈话同步。最终结果是用于提供与讲话者谈话同步的讲话者脸部的视听表示的输出。

本发明的目的是提供用于创建并显示与人脸有关的多媒体信息的系统和方法。

本发明的另一目的是提供用于创建并显示讲话者的逼真视听表示的系统和方法。

本发明的又一目的是提供用于创建并显示计算机产生的动画人脸的逼真面部表情的系统和方法。

本发明的另一目的是提供用于使讲话者脸部的动画模型的面部运动与用于表示讲话者谈话的多个音频逻辑单元同步的系统和方法。

本发明的又一目的是提供用于在视频图像处理器中合成视听内容的系统和方法。

上文相当宽泛地概括了本发明的特征和技术优点，以便那些本领域技术人员可以更好地理解随后的具体实施方式。以下将要描述本发明那些附加特征和优点，其形成了本发明权利要求的主题。那些本领域技术人员应当理解，可以容易地使用公开的概念和具体实施例作为基础来修改或设计其它结构从而实现与本发明相同的目的。那些本领域技术人员还应当认识到，这种等效构造在本发明的最宽形式内并不脱离其精神和范围。

在进行对本发明的具体描述之前，阐明本专利文献中所使用的特定词和短语的定义是有益的：术语“包括”和“包含”及其衍生词汇意指无限制地包括；术语“或”是相容的，意指和/或；短语“与...相关联”和“与其相关联的”及其衍生词汇可以意指包括、包括在内、与之互连、包含、包含在内、连接到或与之连接、耦合到或与之耦合、与之通信、与之合作、交错、并列、接近于、绑定到、具有、具有属性等；并且术语“控制器”、“处理器”或“设备”意指控制至少一个操作的任何装置、系统或其部分，这种装置可以用硬件、固件或软件或者至少两者的组合来实现。应当注意，与任何特定的控制器相关联的功能可以是集中式或分布式的，无论是本地的还是远程的。特别地是，控制器可以包括一个或多个数据处理器，以及相关联的输入/输出装置和存储器，所述一个或多个数据处理器执行一个或多个应用程序和/或操作系统程序。提供了本专利文献中的特定词和短语的定义。本领域内普通技术人员应当理解，在许多实例(如果不是大部分实例的话)中，这种定义适用于这种定义的词和短语的先前的使用以及将来的使用。

为了更完整地理解本发明及其优点，现在参考以下结合附图的描述，其中相同的数字指代相同的对象，并且其中：

图1是用于图示显示部件和示例性计算机的框图，所述计算机包括依照本发明原理的内容合成应用处理器；

图2是用于更详细地图示本发明的内容合成应用处理器的框图；

图3是用于图示本发明的某些软件模块的框图；

图4是用于图示本发明的内容合成应用处理器怎样获得讲话脸部运动分量(speaking face movement component SFMC)的框图；

图5是用于图示本发明的内容合成应用处理器怎样使用讲话脸部运动分量(SFMC)及其它参数来合成讲话者脸部动画并使其与讲话者谈话同步的框图；

图6图示了用于示出本发明方法的有益实施例的第一部分步骤的流程图；

图7图示了用于示出本发明方法的有益实施例的第二部分步骤的流程图；和

图8图示了用于示出本发明方法的有益实施例的第三部分步骤的流程图。

下述的图1到8和在本专利文献中用于描述发明原理的各个实施例仅仅是用于举例说明的目的，而不应当被解释对本发明的范围的任何限制。可以在任何合适的视听系统中使用本发明。

图1是用于图示显示部件110(具有显示屏115)和示例性计算机120的框图，所述计算机120包括依照本发明原理的内容合成应用处理器190。计算机120接收来自视听信号源130的视听信号。源130可以向计算机120提供先前所记录的视听信号。源130还可以向计算机120提供实况的或“流式”视听信号。计算机120还接收来自用户输入部件140的用户输入信号。用户输入部件140可以包括任何常规的用户输入信号源(例如，键盘、鼠标、计算机磁盘文件)。

计算机120包括中央处理器(CPU)150和存储器160。存储器160包括操作系统软件170和应用程序180。计算机120还包括本发明的内容合成应用处理器190。为了描述方便，将把内容合成应用处理器190作为与CPU 150和存储器160分离的部件来描述其结构和操作。然而应当理解，内容合成应用处理器190可以访问并利用在计算机120内的CPU 150和存储器160设备以便实现本发明的方法。

如稍后将更完整地描述，内容合成应用处理器190分析来自源130的视听输入信号，所述视听输入信号用于表示讲话者。内容合成应用处理器190从来自源130的视听输入信号中提取音频特征和视觉特征，并且使用所述音频特征和视觉特征来创建计算机产生的讲话者面部的动画模型，并且使所述讲话者面部的动画模型与讲话者谈话同步。计算机产生的讲话者面部的动画模型(与同步的谈话)可以在显示部件110的显示屏115上显示。显示部件110可以包括任何常规类型的显示部件(例如，电视、计算机监视器、平板显示屏)。

图2是用于更详细地图示本发明的内容合成应用处理器190的框图。内容合成应用处理器190能够把视听信号(及其各个分量)存储在存储部件220中。存储部件220可以包括随机存取存储器(RAM)。存储部件220可以包括诸如闪速存储器之类的非易失性随机存取存储器(RAM)。存储部件220可以包括诸如硬盘驱动器(未示出)之类的大量数据存储装置。存储部件220还可以包括用于读取可读/可写DVD或可再写的CD-ROM的附属外围驱动器或可移动磁盘驱动器(嵌入或附加的)。如图2所图示，此类的可移动磁盘驱动器能够接收并读取可再写的CD-ROM光盘225。

内容合成应用处理器190向控制器230提供视听信号。控制器230还能够从内容合成应用处理器190接收控制信号并且向内容合成应用处理器190发送控制信号。控制器230还通过存储部件220耦合到内容合成应用处理器190。

如图2所示，控制器230包括内容合成应用软件235。内容合成应用软件235包括能够实现本发明方法的计算机软件。在图3中示出了本发明的某些软件模块。

内容合成应用软件235包括(1)用于获得脸部的视觉显示的模块310，(2)用于跟踪面部特征的模块320，(3)学习模块330，(4)用于获得音频谈话部分的模块340，(5)用于提取谈话音频特征的模块350，(6)面部视听特征匹配和分类模块360，(7)针对选择参数的面部动画模块370，和(8)讲话脸部动画和同步模块380。下面更完整地描述软件模块的功能。

内容合成应用处理器190包括控制器230和内容合成应用软件235。控制器230和内容合成应用软件235一起构成能够实现本发明的内容合成应用处理器。

如上所述，内容合成应用处理器190从视听输入信号提取音频特征和视觉特征并且使用所述音频特征和视觉特征来创建计算机产生的讲话者的动画脸部。内容合成应用处理器190还使计算机产生的讲话者的动画脸部与讲话者谈话同步。为了实现此结果，内容合成应用处理器190首先从视听信号中获得音频特征和视觉特征。

图4图示了内容合成应用处理器190怎样从视听信号中获得讲话脸部运动分量(SFMC)。在图4中所示出的元素总体上用附图标记400来指代。图4中的输入视听信号由源410表示。源410向模块310提供视听信号。模块310从所述视听信号中获得讲话者脸部的视觉显示。模块310可以包括由W.R.Rabiner和A.Jacquin在论文“Object Tracking Using Motion-Adaptive Modeling of SceneContent”中所描述的类型的系统，96年全球通信系统学报，卷2，第877-881页(1996年11月)。然后模块310向模块320提供讲话者面部的视觉显示。

模块320跟踪讲话者面部的面部特征。模块320可以包括由G.Hager和K.Toyama在论文“The XVision System：A General PurposeSubstrate for Portable Real-Time Vision Applications”中所描述的类型的XVision软件系统，计算机视觉和理解，卷69(1)，第23-37页(1997)。XVision系统提供了多个不同的基于特征和基于关联的跟踪器，所述跟踪器能够跟踪视频流内的边缘、拐角或区域。模块320向学习模块330提供讲话者面部特征的跟踪信息。

视听信号的源410还向模块340提供了视听信号。模块340获得讲话者的音频信号的谈话部分，所述讲话者的脸部由模块310识别。模块340可以包括由Dongge Li、Ishwar K.Seti、Nevenka Dimitrova和Thomas McGee在论文“Classification of General Audio Datafor Content-Based Retrieval”中所描述的类型的系统，模式识别学，卷22(5)，第533-544页(2001)。然后模块340向模块350提供讲话者的谈话。模块350提取讲话者谈话的音频特征。模块350还可以包括在上面引用的论文“Classification of GeneralAudio Data for Content-Based Retrieval”中所描述的类型的系统。然后模块350向学习模块330提供所提取的讲话者谈话的音频特征。如稍后将更完整地描述的，学习模块330分类来自模块320的输入以及来自模块350的输入以便获得讲话脸部运动分量(speaking face movement component SFMC)420。讲话脸部运动分量(SFMC)420被存储在数据库505中(在图5中所示)。

学习模块330包括能够执行几种不同类型过程的软件模块。由学习模块330所执行的一类过程使用隐藏马尔可夫模型以便使用Baum-Welch算法来训练。由学习模块330所执行的另一类过程使用隐藏马尔可夫模型以便使用维特比(Viterbi)算法来识别。学习模块330还可以使用时延神经网络(TDNN)来作为隐藏马尔可夫模型的替代。学习模块330还能够执行用于执行语义关联计算的过程。

在本发明的一个有益实施例中，学习模块330使用隐藏马尔可夫模型(HMM)来分类讲话者面部的面部特征(从模块320输入)以及所提取的讲话者谈话的音频特征(从模块350输入)。来自模块320和模块350的数据值被用作n维特征向量f＝f(f₁，f₂，f₃，...，f_n)的分量。对于时间分段记录该特征向量。然后把观测值符号馈送到隐藏马尔可夫模型(HMM)。

隐藏马尔可夫模型(HMM)是在信号处理中广泛使用的通用技术。隐藏马尔可夫模型(HMM)构造用于解释观测(符号)出现的模型并且使用所述模型来识别其它观测序列。至于关于隐藏马尔可夫模型(HMM)及其应用的背景信息，参阅L.R.Rabiner的论文“A Tutorialon Hidden Markov Models and Selected Applications in SpeechRecognition”，IEEE学报，卷77，第257-285页(1989)。

在HMM中，存在有限数目个可用的状态，并且所述HMM总是在那些状态之一。在每个时钟时间，HMM根据取决于先前状态的转移概率分送来进入新状态。在转移之后，HMM根据取决于当前状态的概率分布来产生输出符号。在HMM的形式定义中，状态被表示为Q＝{q₁，q₂，q₃，...，q_N}，其中N是状态的数目。观测符号被表示为V＝{v₁，v₂，v₃，...，v_M}，其中M是符号的数目。在状态之间的转移概率分布由矩阵A＝{a_ij}表示，其中a_ij＝Pr{在t+1的q_j|在t的q_i}，并且观测符号概率分布由矩阵B＝{b_j(k)}表示，其中b_j(k)是当当前状态为q_j时产生v_k的概率。

在学习模块330中的HMM的操作分两个阶段进行。第一阶段是训练阶段，而第二阶段是分类阶段。首先描述训练阶段。学习模块330构造多个不同的HMM，其中每个HMM对应于不同的逻辑单元。逻辑单元可以是词或音素或视位。在本发明的一个有益实施例中，逻辑单元是音素。音素是表示话语的语言中的声音单元。每个所讲语言具有不同的音素集。依照美国英语的朗曼词典，在美国英语中存在四十六个(46)音素。美国英语中的音素数目是某些讨论的主题。某些人认为存在四十(40)、四十三(43)、四十八(48)或五十(50)个这种音素。

在本发明的另一有益实施例中，逻辑单元是视位。视位是可以用来描述特定声音的通用面部图像。当人们发出每个单个特殊声音时，嘴以特殊的方式使讲话者的嘴唇形成某一形状。对应于声音的面部图像被称作视位。视位是音素的视觉等效物。听力受损的那些人可以通过观看视位来从视觉上察觉声音。这是听力受损的人怎样“唇读”讲话者脸部来确定他在讲什么。

学习模块330通过利用特征向量值的集合的训练来构造多个不同的HMM。HMM训练实质上包括调节参数拉姆达(λ)其中λ＝(A，B，π)以便使观测序列Pr(O|λ)的概率最大化。符号π表示初始状态分布并且被定义为π＝{π_i}，其中π_i是HMM的初始状态是q_i的概率。字母O表示观测序列。

学习模块330收集已经通过记录谈话者的正面视图所获得的数据集。从语音数据库的文本语料库中选择预定数目的句子(例如，两百个句子)。音频信号和视频信号都以三十帧每秒(30fps)被数字化并且分析。这创建了视听训练数据样本。所述数据样本的一半用于训练。所述数据样本的一半用于分类(即，测试)。

首先考虑音频数据样本。对于每个语音分段，计算选择的不同的音频系数作为音频特征。存在可用于分类的多个声学特征。它们包括：MFCC(梅尔倒频谱系数，Mel Cepstral FrequencyCoefficients)、LPC(线性预测编码系数Linear Predictive CodingCoefficients)、Delta MFCC、Delta LPC、自相关MFCC、几种时间特征和几个频谱特征。可以使用滤波器组快速傅里叶变换(FastFourier Transform FFT)频谱的离散余弦变换(Discrete CosineTransform DCT)来提取MFCC特征。例如参见A.M.Noll的论文“Cepstrum Pitch Determination”，美国声学协会期刊，卷41，号2，第293-309页(1967)。沿着时间轴对窗口式输入数据逐帧地执行MFCC计算。可以使用的窗口类型包括方窗(Square window)和汉明窗(Hamming window)。

可以使用自相关方法来提取LPC特征。例如参见R.P.Ramachandrian等人的论文“A Comparative Study of Robust LinearPredictive Analysis Methods with Applications to SpeakerIdentification”，关于语音和音频处理的IEEE学报中，卷3，号2，第117-125页(1995年3月)。

可以使用下面的公式来用MFCC特征提取Delta MFCC特征：

ΔMFCC_i(v)＝MFCC_i+1(v)-MFCC_i(v) (1)

Delta MFCC值是在MFCC相邻值之间的差值。

可以使用下面的公式来用LPC特征提取Delta LPC特征：

ΔLPC_i(v)＝LPC_i+1(v)-LPC_i(v) (2)

Delta LPC值是在LPC相邻值之间的差值。

可以使用下面的公式来用MFCC特征提取自相关MFCC特征：

{ACMFCC}_{i}^{(l)} (v) = \frac{1}{L} Σ_{j = 1}^{i + L} (MFC C_{j} (v) \cdot {MFCC}_{j + l} (v)) - - - (3)

其中值L表示窗口长度，而下标i表示时间实例，并且下标j表示另一时间实例。

现在考虑视觉数据样本。内容合成应用处理器190使用面部运动跟踪算法来分析视觉脸部运动分量。视觉脸部运动分量对应于在确定粒度级(例如，词、声音)的面部失真(即，从静态模型的变换)。输出是对应于具体讲话脸部运动分量(SFMC)参数的所训练的HMM。此数据集用于训练音频到视觉的映射。训练过程的目标在于找到所有HMM的模型λ。本发明的图形驱动的面部动画制作系统和方法为递送并显示与人脸有关的多媒体信息的问题提供了有效的解决方案。

在本发明的另一有益实施例中，逻辑单元是一种视听输入向量。在训练过程期间，学习模块330结合音频特征和视频特征来创建视听输入向量。由于视听输入向量是呈现音素和视位的属性的逻辑单元，所以所述视听输入向量是混合逻辑单元，所述音素和视位对应于用于表示所讲音素的特定视听讲话脸部运动分量。输出是对应于具体讲话脸部运动分量(SFMC)参数的所训练的HMM。

考虑诸如在Matthew Brand的论文“Voice Puppetry”中所描述的现有技术系统，刊登于计算机绘图学报，ACM SIGGRAPH，第21-28页(1999年8月)。在语音木偶系统中，相关的讲话脸部运动分量只处于视觉空间。相比之下，本发明中的相关讲话脸部运动分量处于视听空间。使用视听空间中的讲话脸部运动分量的优点在于它提供了更综合且正确的分析。例如，在视觉空间中，音节“pa”和音节“ba”看起来是相同的。但是这两个音节的发音是不同的。在本发明的视听空间中，清楚地辨别“pa”音节的视听输入向量和“ba”音节的视听输入向量。

学习模块330还提供了语义关联(也被称为交叉模态关联)以便对于每个视听输入向量识别在音素和视位之间的映射。在交叉模态关联中，可以根据同步的相关型式来把从不同的介质源(例如，音频和图像)所提取的低级特征彼此相匹配。另外，可以使用交叉模态关联来进行根据第一类型的介质源(例如，音频)搜索在不同类型的介质源(例如，图像序列)上的内容的查询。例如参见D.Li和N.Dimitrova于2002年11月15日所提交的美国专利申请序号[概要号703002]“Content Retrieval Based on SemanticAssociation”。专利申请“Content Retrieval Based on SemanticAssociation”为本发明的受让人所占有，并且通过引用在此结合以供参考。

由学习模块330所使用的交叉模态技术比诸如在上述的语音木偶系统中所利用的现有技术更为有效。语音木偶系统要求非常复杂且昂贵的方法来把音频和视觉模式相关联。由学习模块330所使用的交叉模态搜索依照类似于传统的基于内容的多媒体检索系统的方式而直接基于低级特征。由学习模块330所使用的交叉模态搜索可以利用(1)潜在的语义索引，(2)典型相关或(3)交叉模态因素分析。

潜在的语义索引(LSI)是文本信息获取中的有力工具，其用于发现在不同的文本单元(例如，关键词和段)之间的基础语义关系。用于检测在视觉脸部和相关谈话之间的语义关联的方法可以是基于LSI的。此方法由四个步骤组成：构造联合多模态特征空间、标准化、奇异值分解(singular value decomposition SVD)和语义关联测量。

在t个视频帧中的每个给定n个视觉特征和m个音频特征，联合特征空间可以被表示为：

X＝[V₁，V₂，...，V_n，A₁，A₂，...，A_m] (1)

其中

V_i＝(v_i(1)，v_i(2)，...，v_i(t))^T (2)

并且A_i＝(a_i(1)，a_i(2)，...，a_i(t))^T (3)

各种视觉和音频特征可以具有完全不同的变化。因而需要对联合空间中每个特征依照其最大元素(或确定的其它统计度量)进行标准化并且标准化可以被表示为：

{\hat{X}}_{l} (:) = \frac{X_{l} (:)}{\max (abs (X_{l} (:)))} - - - (4)

在标准化之后，标准化的矩阵

中的所有元素具有在-1和1之间的值。然后SVD可以如下执行：

\hat{X} = S \cdot V \cdot D^{T} - - - (5)

其中S和D是构成左和右奇异向量的矩阵，并且V是奇异值按递减次序的对角矩阵。

只把和最重要的前k个奇异向量保持在S和D中，我们可以导出具有减少的特征维数的最佳近似其中主要保存在视觉和音频特征之间的语义(相关)信息并且大大地减少了无关的噪声。然后可以使用传统的皮尔森(Pearson)相关或交互信息计算以便有效地识别并测量在不同模态之间的语义关联。实验示出LSI的有效性并且其优点超过直接使用传统的相关计算。

最小二乘意义上的

的上述优化可以被表示为：

\hat{X} &cong; \tilde{X} = \tilde{S} \cdot \tilde{V} \cdot {\tilde{D}}^{T} - - - (6)

其中

分别由S、V和D中的前k个向量组成。在所述文献中对于k选择适当的值仍然是未解决的问题。一般说来，k必须足够大到保持大部分语义结构并且足够小到除去某些无关的噪声。方程式(6)不适于使用全局或脱机训练的应用，这是因为必须即时执行分解。然而，由于奇异向量的正交属性，我们可以依照下列新形式来重写(6)：

\tilde{X} &cong; \tilde{X} = X \cdot \tilde{D} \cdot {\tilde{D}}^{T} - - - (7)

此导出的新形式(7)对那些需要全局或脱机训练的SVD结果的应用来说是重要的。

分析新的输入音频可以由语义关联方法来执行以便找到匹配视频和最可能的面部运动。在语义关联的所有三个方法中，变换矩阵用来把低阶特征变换为减少的特征空间，其中可以估算在查询和搜索不同类型介质源的候选物之间的匹配。例如，对于潜在的语义索引，我们将使用根据上面方程式(7)所导出的变换矩阵。然后可以根据在变换空间中的皮尔森相关或交互信息来执行匹配估算以便找到最高相关(即，最佳匹配)。

在本发明的另一有益实施例中，学习模块330使用时延神经网络(Time Delayed Neural Network TDNN)来分类讲话者面部的面部特征(从模块320输入)以及所提取的讲话者谈话的音频特征(从模块350输入)。对于涉及时延神经网络(TDNN)的一般体系结构的背景信息，参阅S.Curinga等人的论文“Lip Movements SynthesisUsing Time-Delay”，欧洲信号处理会议论文集，1996(1996)。

TDNN在没有音素识别的情况下提供发音参数的估算，并且可以适当地建模协同发音效果。对于每个神经元通过计算窗口的每个位置的输入窗口的加权和，并且向所述和应用S形激活函数来计算TDNN中神经元的激活。每个输入节点组(称作具有共享权重的感受范围)只采取输入符号流的小窗口，所述输入符号流在每个时间步骤中通过窗口更进一步地“前进”。隐藏层的输出也用使用共享权重的感受窗口来覆盖。网络输出由输出神经元的不同时间步骤的平方和构成。

训练过程对TDNN的输入由HMM情况下的输入符号系列构成。由TDNN所执行的分类过程与由HMM执行的分类过程类似。学习模块330也能使用TDNN来分类讲话者脸部的面部特征(从模块320输入)以及所提取的讲话者谈话的音频特征(从模块350输入)以便创建先前所描述类型的视听输入向量。

图5图示了内容合成应用处理器190怎样使用讲话脸部运动分量(SFMC)及其它参数来合成讲话者脸部动画并使之与讲话者谈话同步。在图5中所示出的元素被总称为面部动画部件500。在涉及把信号经由通信信道发送到远程位置的任何应用中，面部动画部件500可以位于通信信道的接收器端。在通信信道的发送器端执行分类过程。在通信信道的接收器端执行面部动画和同步过程。

面部动画部件500的面部视听特征匹配和分类模块360被耦合到数据库505并且接收来自所述数据库505的输入。数据库505包含讲话脸部运动分量(SFMC)。面部视听特征匹配和分类模块360还接收来自讲话脸部视觉参数模块510的讲话脸部视觉参数。谈话模块520向音频特征提取模块530提供讲话者所讲词汇的音频。音频特征提取模块530从所述谈话中提取音频特征并且把它们提供到面部视听匹配和分类模块360。

在分类过程期间，依照先前为训练过程所描述的相同方法从视听信号提取相同的视听符号。面部视听特征匹配和分类模块360执行所述分类过程以便把视听特征分类为先前为训练过程所描述的预定义类之一。分类过程的粒度(例如，词、音素)是与训练过程相同等级的粒度。

然后面部视听特征匹配和分类模块360向选择参数面部动画模块370发送分类信息。选择参数面部动画模块370接收来自三维(3D)面部模型模块540和结构映射模块550的附加输入。选择参数面部动画模块370使用对应于适当分类的面部动画参数来合成讲话者脸部(即，创建计算机产生的讲话者脸部的动画模型)。

大部分现有技术系统是基于音素且基于视位的嘴唇同步系统。这种系统通过在表情之间内插或样条方法(splining)来解决合成讲话者脸部的问题。相比之下，本发明使用语义(交叉模态)关联来发现单个视位序列以及单个视位序列的序列。

然后把选择参数面部动画模块370的输出发送到讲话脸部动画和同步模块380。讲话脸部动画和同步模块380还接收来自谈话模块520的输入。讲话脸部动画和同步模块380使面部动画信息与来自谈话模块520的语音输入同步，以便创建并输出与讲话者谈话同步的讲话者脸部的动画图像。

可选择的音频表达分类模块560可以耦合在音频特征提取模块530和讲话脸部动画和同步模块380之间。音频表达分类模块560能够确定音频表达等级(例如，大声语音、兴奋语音、正常语音、温和语音)并且依照所述确定来分类音频。根据音频表达分类，讲话脸部动画和同步模块380可以修改动画面部参数来强调某些特征以便更准确地表达讲话者脸部的面部动画。

图6图示了用于示出本发明方法的有益实施例的第一部分步骤的流程图。在图6中所示出的方法步骤总体上用附图标记600来指代。在第一步骤中，内容合成应用处理器190接收讲话者的视听信号(步骤610)。内容合成应用处理器190分析视听信号以便获得讲话者脸部的视觉显示(步骤620)。然后内容合成应用处理器190获得讲话者空间特征的跟踪信息(步骤630)。然后学习模块330使用隐藏马尔可夫模型分类视觉脸部运动分量以便表示每个讲话脸部运动分量(SFMC)(步骤640)。然后本发明的方法继续到在图7中所示出的步骤710(步骤650)。

在步骤620所描述的操作同时，内容合成应用处理器190获得包含讲话者谈话的音频部分(步骤660)。然后内容合成应用处理器190提取讲话者谈话的音频特征(步骤670)。然后学习模块330使用隐藏马尔可夫模型来分类音频特征以便表示每个音频逻辑单元(例如音素)(步骤680)。然后本发明的方法继续到在图7中所示出的步骤710(步骤650)。

图7图示了用于示出本发明方法的有益实施例的第二部分步骤的流程图。在图7中所示出的方法步骤总体上用附图标记700来指代。在图7所示出的第一步骤中，内容合成应用处理器190接收(1)要分析的新音频信号和(2)来自步骤640的讲话脸部运动分量(SFMC)以及(3)来自步骤680的分类音频特征作为输入(步骤710)。然后内容合成应用处理器190把每个讲话脸部分量(SFMC)与每个相应的分类音频特征相匹配(步骤720)。然后内容合成应用处理器190为每个所选择的视听参数创建计算机产生的动画脸部，其用于表示所述讲话者(步骤730)。

内容合成应用处理器190使计算机产生的每个讲话者的动画脸部与讲话者谈话同步(步骤740)。这创建了与所述讲话者谈话同步的讲话者脸部的视听表示。然后把所述讲话者脸部的视听表示输出到显示部件110(步骤750)。

图8图示了用于示出本发明方法的有益实施例的第三部分步骤的流程图。在图8中所示出的方法步骤总体上用附图标记800来指代。学习模块330接收视听输入向量并且使用隐藏马尔可夫模型来创建视听讲话脸部运动分量(SFMC)(步骤810)。学习模块330接收视听输入向量并且创建视听讲话脸部运动分量(SFMC)，并且使用语义关联以便获得在音素和视位之间的关联(即，映射)(步骤820)。

然后内容合成应用处理器190接收要分析的新的音频信号并且使用模块350来提取讲话者谈话的音频特征(步骤830)。然后内容合成应用处理器190使用语义关联来找到对应于所提取音频特征的视频表示(步骤840)。然后内容合成应用处理器190使用隐藏马尔可夫模型把音频表示与视听讲话脸部运动分量(SFMC)相匹配(步骤850)。

然后内容合成应用处理器190为每个所选择的视听讲话脸部运动分量(SFMC)创建计算机产生的动画脸部，其用于表示所述讲话者(步骤860)。内容合成应用处理器190使计算机产生的每个讲话者的动画脸部与讲话者谈话同步(步骤870)。这创建了与所述讲话者谈话同步的讲话者脸部的视听表示。然后把所述讲话者脸部的视听表示输出到显示部件110(步骤880)。

在先前所描述的步骤730、740和750中以及在先前所描述的步骤860、870和880中，使用计算机绘图方法来制作脸部动画。然而，可以使用替代方法。在替代方法中，使用所存储的讲话者视频片段以便生成对应于所讲短语或句子的视觉输出。在使用语义关联获得视听片段之后，我们获得视频片段序列。每个片段对应于单个音素。然而，在“缝合”时间点的过程中，所产生的视频可能呈现出不平稳的模式。可以把这些片段一起编辑为对应于整个句子或短语的单个视频。可以使用视频变形和编辑来减少在单个视频片段之间的不平稳性。此方法的优点在于不必使用3D模型和结构映射，而这是计算机绘图方法的基础。

本发明的系统和方法例如可以用在视频会议、交互式视频应用和对象级视频编辑中。为了给出能正确表示对应于所讲言语的面部运动的动画脸部，用户只需发送文本或谈话。本发明会通过在传输的接收端合成视觉语音元素来产生表示文本的语音模型的动画交谈脸部。本发明的系统和方法穿过传输信道发送音频信号。本发明的系统和方法还发送几个参数，所述参数告诉传输的接收端怎样驱动动画脸部以使得它对于所讲的词呈现正确的视觉特征。所述参数与在发送器端所执行的视听分类相关。

遍及本专利文献，已经把本发明描述为能够创建并使用讲话脸部运动分量(SFMC)。可以理解的是，本发明不局限于创建并使用讲话脸部运动分量(SFMC)。本发明还能够产生并使用其它类型的视听配置。讲话脸部运动分量只是本发明能够创建并使用的视听配置的一个特定实施例。

虽然已经相对于本发明的某些实施例详细描述了本发明，然而那些本领域技术人员应当理解在不脱离本发明最宽形式的原理和范围的情况下，可以在本发明内进行各种改变、替换、修改、变换和更改。

Claims

1.一种数字传输系统中的设备，能够接收表示正在讲话的讲话者的视听输入信号并且能够使用表示讲话者谈话的多个音频逻辑单元来创建讲话者脸部的动画模型，所述设备包括内容合成应用处理器，所述内容合成应用处理器进行以下操作：

从所述视听输入信号中提取所述讲话者谈话的音频特征以及所述讲话者脸部的视觉特征；

根据所述音频特征和视觉特征来创建视听输入向量；

根据所述视听输入向量来创建视听配置；并且

对视听输入向量执行语义关联过程，以便获得在表示所述讲话者谈话的音素和表示所述讲话者脸部的视位之间的关联。

2.如权利要求1所述的设备，其中所述内容合成应用处理器能够通过下列操作来分析输入音频信号：

提取讲话者谈话的音频特征；

使用语义关联过程来找到所述音频特征的相应视频表示；并且

把所述相应视频表示与所述视听配置相匹配。

3.如权利要求2所述的设备，其中所述内容合成应用处理器还能够：

为每个选择的视听配置创建计算机产生的动画脸部；

使每个计算机产生的动画脸部与所述讲话者谈话同步；并且

输出与所述讲话者谈话同步的讲话者脸部的视听表示。

4.如权利要求1所述的设备，其中所述内容合成应用处理器从视听输入信号中所提取的音频特征包括梅尔倒频谱系数、线性预测编码系数、Delta梅尔倒频谱系数、Delta线性预测编码系数和自相关梅尔倒频谱系数之一。

5.如权利要求1所述的设备，其中所述内容合成应用处理器使用隐藏马尔可夫模型和时延神经网络之一来根据所述视听输入向量创建视听配置。

6.如权利要求2所述的设备，其中所述内容合成应用处理器使用隐藏马尔可夫模型和时延神经网络之一来把相应的视频表示与所述视听配置相匹配。

7.如权利要求3所述的设备，其中所述内容合成应用处理器还包括：

面部视听特征匹配和分类模块，用于把多个视听配置中的每个与相应分类的音频特征相匹配，以便创建面部动画参数；和

选择参数面部动画模块，用于为所选择的面部动画参数创建讲话者脸部的动画模型。

8.如权利要求7所述的设备，其中所述选择参数面部动画模块通过使用(1)具有纹理贴图的3D模型和(2)视频编辑之一来创建讲话者脸部的动画模型。

9.如权利要求2所述的设备，其中所述语义关联过程包括潜在语义索引、典型相关和交叉模态因素分析之一。

10.如权利要求1所述的设备，其中所述视听配置包括视听讲话脸部运动分量。

11.如权利要求8所述的设备，其中所述内容合成应用处理器还包括：

讲话脸部动画和同步模块，用于使讲话者脸部的每个动画模型与讲话者谈话的音频特征同步以便创建与所述讲话者谈话同步的所述讲话者脸部的视听表示；和

音频表达分类模块，用于确定讲话者谈话的音频表达等级，并且向所述讲话脸部动画和同步模块提供所述讲话者谈话音频表达等级，以便修改所述讲话者动画面部参数。

12.一种用于在视频图像处理器中合成视听内容的方法，所述方法包括步骤：

接收表示正在讲话的讲话者的视听输入信号；

根据所述音频特征和视觉特征来创建视听输入向量；

根据所述视听输入向量来创建视听配置；并且

对所述视听输入向量执行语义关联过程，以便获得在表示所述讲话者谈话的音素和表示所述讲话者脸部的视位之间的关联。

13.如权利要求12所述的方法，还包括步骤：

分析讲话者谈话的输入音频信号；

提取所述讲话者谈话的音频特征；

把所述相应视频表示与所述视听配置相匹配。

14.如权利要求13所述的方法，还包括步骤：

为每个选择的视听配置创建计算机产生的动画脸部；

使每个计算机产生的动画脸部与所述讲话者谈话同步；并且

输出与所述讲话者谈话同步的讲话者脸部的视听表示。

15.如权利要求12所述的方法，其中从所述视听输入信号中所提取的音频特征包括梅尔倒频谱系数、线性预测编码系数、Delta梅尔倒频谱系数、Delta线性预测编码系数和自相关梅尔倒频谱系数之一。

16.如权利要求12所述的方法，其中使用隐藏马尔可夫模型和时延神经网络之一来根据所述视听输入向量创建所述视听配置。

17.如权利要求13所述的方法，其中使用隐藏马尔可夫模型和时延神经网络之一来把相应的视频表示与所述视听配置相匹配。

18.如权利要求12所述的方法，还包括步骤：

把多个视听配置中的每个与相应分类的音频特征相匹配，以便创建面部动画参数；并且

为所选择的面部动画参数创建讲话者脸部的动画模型。

19.如权利要求18所述的方法，还包括步骤：

通过使用(1)具有纹理贴图的3D模型和(2)视频编辑之一来创建讲话者脸部的动画模型。

20.如权利要求13所述的方法，其中所述语义关联过程包括潜在语义索引、典型相关和交叉模态因素分析之一。

21.如权利要求12所述的方法，其中所述视听配置包括视听讲话脸部运动分量。

22.如权利要求20所述的方法，还包括步骤：

使讲话者脸部的每个动画模型与讲话者谈话的音频特征同步；

创建与所述讲话者谈话同步的讲话者脸部的视听表示；

确定所述讲话者谈话的音频表达等级；并且

响应于确定所述讲话者谈话的音频表达等级来修改所述讲话者动画面部参数。

23.一种由用于在视频图像处理器中合成视听内容的方法所产生的合成视听信号，其中所述方法包括步骤：

接收表示正在讲话的讲话者的视听输入信号；

从所述视听输入信号中提取讲话者谈话的音频特征以及讲话者脸部的视觉特征；

根据所述音频特征和视觉特征来创建视听输入向量；

根据所述视听输入向量来创建视听配置；并且

24.如权利要求23所述的合成视听信号，其中所述方法还包括步骤：

分析讲话者谈话的输入音频信号；

提取所述讲话者谈话的音频特征；

把相应的视频表示与所述视听配置相匹配。

25.如权利要求24所述的合成视听信号，其中所述方法还包括步骤：

为每个选择的视听配置创建计算机产生的动画脸部；

使每个计算机产生的动画脸部与所述讲话者谈话同步；并且

输出与所述讲话者谈话同步的讲话者脸部的视听表示。

26.如权利要求23所述的合成视听信号，其中从所述视听输入信号中所提取的音频特征包括梅尔倒频谱系数、线性预测编码系数、Delta梅尔倒频谱系数、Delta线性预测编码系数和自相关梅尔倒频谱系数之一。

27.如权利要求23所述的合成视听信号，其中使用隐藏马尔可夫模型和时延神经网络之一来根据所述视听输入向量创建所述视听配置。

28.如权利要求24所述的合成视听信号，其中使用隐藏马尔可夫模型和时延神经网络之一来把相应的视频表示与所述视听配置相匹配。

29.如权利要求25所述的合成视听信号，其中所述方法还包括步骤：

为所选择的面部动画参数创建讲话者脸部的动画模型。

30.如权利要求29所述的合成视听信号，所述方法还包括步骤：

31.如权利要求24所述的合成视听信号，其中所述语义过程包括潜在语义索引、典型相关和交叉模态因素分析之一。

32.如权利要求23所述的合成视听信号，其中所述视听配置包括视听讲话脸部运动分量。

33.如权利要求31所述的合成视听信号，其中所述方法还包括步骤：

创建与所述讲话者谈话同步的讲话者脸部的视听表示；

确定所述讲话者谈话的音频表达等级；并且