CN101199208A

CN101199208A - 使用嘴唇和牙齿特征来测量音频视频同步的方法、系统和程序产品

Info

Publication number: CN101199208A
Application number: CNA2006800211843A
Authority: CN
Inventors: J·库珀; 米尔科·杜山·沃吉诺维科; 克里斯多佛·史密斯; 吉班阿南达·罗伊; 萨乌拉博·简恩
Original assignee: Pixel Instruments Corp
Current assignee: Pixel Instruments Corp
Priority date: 2005-04-13
Filing date: 2006-04-13
Publication date: 2008-06-11
Also published as: GB0622592D0; CA2565758A1; GB2440384A; EP1938622A2; CN101199207A; WO2007035183A3; WO2007035183A2; AU2005330569A1; GB2440384B; AU2005330569A8

Abstract

用于测量音频视频同步的方法、系统和程序产品。这通过首先采集音频视频信息进入音频视频同步系统内来完成。数据采集的步骤之后，分析音频信息和分析视频信息。接着，分析视频信息以在其中定位与讲话者个人语音特征有关的声音的出现。在分析阶段，根据音频和视频信息计算音频和视频MuEv－S，且将音频和视频信息分类为包括AA、EE、OO、B、V、TH、F、无声、其它音素以及未分类音位的元音音素。嘴唇之间的内部空间也被识别和确认。该信息用于确定和关联视频帧中的主要音频类别。确定匹配位置，以及确定视频和音频的偏移量。

Description

使用嘴唇和牙齿特征来测量音频视频同步的方法、系统和程序产品

相关申请

本申请要求基于2004年5月14日提交的美国申请号No.10/846,133和2005年4月13日提交的PCT申请号No.PCT/US2005/012588的优先权，其正文和附图在这里通过引用被并入。

背景技术

本发明涉及多媒体娱乐、教育和其它至少具有视频和关联信息的节目编制(programming)的创建、操作、传输、储存等，尤其是同步。

多媒体娱乐、教育和其它至少具有视频和关联信息的节目编制的创建、操作、传输、储存等需要同步。这样的节目编制的典型例子是电视和电影节目。通常这些节目包括视觉或视频部分、听觉或音频部分，并还可包括一个或更多不同的数据类型部分。典型的数据类型部分包括隐藏式字幕(closed captioning)、针对盲人的叙述式描述、例如网站和其它信息指示等附加节目信息数据以及包括在压缩(例如MPEG和JPEG)系统中的各种元数据。

通常视频及关联信号节目以使得前述音频、视频和/或数据中的各项的同步被影响的方式而被制作、操作、储存或传送。例如，音频和视频的同步，通常称为唇型同步(lip sync)，在节目被制作时可能会不协调。如果节目以正确的唇型同步制作，则定时可能受到随后的操作例如节目的处理、储存或传输等干扰。认识到以完整的唇型同步制作的电视节目随后可能使唇型同步受到干扰是重要的。通过分析造成这样的随后干扰的音频和视频信号处理延迟差异(delay differential)可纠正该干扰。如果电视节目最初以错误的唇型同步制作，则该错误的随后纠正要难得多，但可用本发明纠正。根据这里的教导，这些问题及其解决方案都通过本发明被理解。

多媒体节目编制的一个方面是在音频-视频表现(presentation)如电视节目中维持音频和视频同步，例如以防止对观众的骚扰、便于对节目进行进一步的操作或便于节目的分析。在发布的专利中描述了对这个难题的各种方法：美国专利4,313,135、美国专利4,665,431、美国专利4,703,355、美国专利Re.33,535、美国专利5,202,761、美国专利5,530,483、美国专利5,550,594、美国专利5,572,261、美国专利5,675,388、美国专利5,751,368、美国专利5,920,842、美国专利5,946,049、美国专利6,098,046、美国专利6,141,057、美国专利6,330,033、美国专利6,351,281、美国专利6,392,707、美国专利6,421,636、美国专利6,469,741和美国专利6,989,869。这些专利一般处理检测、维持和纠正唇型同步和其它类型的视频和相关信号同步。

美国专利5,572,261描述了视频信号中实际嘴部图像的使用，以预测正在讲的音节，并比较该信息和关联音频信号中的声音，来测量相对同步。不幸的是，当没有嘴部图像时，就没有确定正在讲哪个音节的能力。

作为另一个例子，在有能力测量节目的音频和视频部分之间的关系的系统中，音频信号可相应于多个视频信号中的一个或更多，且希望确定相应于哪一个。例如，在电视演播室中，三个讲话者中的每一个都戴着麦克风，且每个演员都有给讲话者摄像的相应摄像机，音频节目编制与来自摄像机的视频信号相关是期望的。这样的相关性(correlation)的一个使用是自动选择摄像机(用于传输或记录)，该摄像机将当前正在讲话的演员拍摄成电视节目。作为另一个例子，当选择了特定的摄像机时，选择相应于那个视频信号的音频是有用的。在又一个例子中，检查输出视频信号并确定它相应于哪一组视频信号是有用的，从而便于相应音频的自动选择或定时。通常描述这些类型的系统的指定专利在美国专利5,530,483和5,751,368中被描述。

关于上面的专利包含的现有技术教导，这些专利在这里通过引用被全部并入。

通常，除美国专利5,572,261、5,530,483和5,751,368以外，上面的专利描述了在没有任何对视频信号图像的检查或响应的情况下的操作。因此，这些专利的说明书的适用性限于利用各种视频定时信息等的特定系统。专利5,530,483和5,751,368涉及通过检查视频信号中传送的图像来测量视频延迟并识别视频信号，但没有进行视频和音频信号的任何比较或其它检查。专利5,572,261教导使用视频信号中的实际嘴唇图像和关联音频信号中的声音，以测量相对同步。美国专利5,572,261描述了在嘴唇和音频中检测嘴部声音的出现的操作模式。例如，当嘴唇呈现用于发出像E的声音的位置且E出现在音频中时，这两个事件的出现之间的时间关系用作其间相对延迟的测量。美国专利5,572,261中的说明，描述了使用共同属性，例如嘴唇产生的特定声音，共同属性可在音频和视频信号中检测到。对于相应于某些声音的嘴唇的视觉位置和相应声音的听觉呈现的检测及相关性计算起来强度很高，导致高成本和复杂性。

在论文中，J.Hershey和J.R.Movellan(″Audio-Vision：Locating soundsvia audio-visual synchrony″Advances in Neural Information ProcessingSystems 12，编辑S.A.Solla，T.K.Leen，K-R Muller，MIT Press，Cambridge，MA(MIT Press，Cambridge，Mass.，(c)2000))认识到声音可用于识别视频图像中相应的单独像素。音频信号和图像中单个像素之间的相关性用于创建显示视频区域的电影，该视频区域与音频有高度相关性，且它们根据相关性数据估计图像活动的质心，并用其来找到正在说话的脸。Hershey等人描述了一种能力，这种能力通过将声音和脸的不同部分相关以检测同步，来识别电视图像中两个讲话者中的哪一个正在讲话。Hershey等人特别注意到，“有趣的是，同步性被一些部分如眼睛共享，这些部分没有直接对声音起作用，但仍然对沟通起作用”。更具体地，Hershey等人注意到，脸的这些部分，包括嘴唇，也对沟通起作用。Hershey和Movellan没有提到他们的算法可测量同步或执行本发明的任一其它特征。此外，他们特别宣称它们没有对声音直接起作用。在这个引用中，算法仅仅根据特征的运动或不运动来识别谁在讲话。

在另一论文中，M.Slaney和M.Covell(″FaceSync：A linear operator formeasuring synchronization of video facial images and audio tracks″，可在www.slaney.org得到)描述了本征点(Eigen Point)可用于识别讲话者的嘴唇，而Yehia、Ruben、Batikiotis-Bateson的算法可用于对相应的音频信号进行操作，以提供脸上参照点(fiduciary point)的位置。类似的来自图像的嘴唇参照点和来自Yehia算法的参照点然后用于比较，以确定唇型同步。Slaney和Covell继续描述“在最佳线性检测器中”最佳化该比较，“所述线性检测器等效于Wiener滤波器，其组合来自所有像素的信息以测量音频-视频同步”。特别注意的是，在FaceSync算法中“使用来自所有像素的信息”，因此由于从明显无关的像素获取信息而降低了效率。进一步地，该算法需要使用对特定的已知面部图像的训练，并被进一步描述为“依赖于训练和测验数据大小”。因此，虽然Slaney和Covell提供了他们的算法的数学解释，他们没有揭示执行或操作算法以实现唇型同步测量的任何实用方法。重要的是，Slaney和Covell方法依赖于脸上的参照点，如嘴角和嘴唇上的点。

而且，Silver的美国专利5,387,943描述了一种要求由操作员识别嘴部的方法。以及像上面讨论的美国专利5,572,261一样，利用视频嘴唇运动。在这些引用的任一个中，仅仅关注纯粹的嘴唇运动。在任一个这些公开的方法中，都没有考虑嘴唇或其它面部特征的其它特征，例如嘴唇的形状。特别是，在任一个这些引用中，都没有检测或考虑嘴唇的空间形状，仅仅考虑运动，张开或闭合。

人类语音的知觉方面，如音调、音量、音色和定时(与速度和节奏有关)通常被认为或多或少地彼此独立，且它们被认为分别与声信号的基本频率f₀、幅度、频谱包络和时间变量有关。不幸的是，当尝试传统的语音识别技术和同步技术时，它们极大程度地被个体讲话者的特征影响，如低或高语音音调、口音、词尾变化和其它语音特征，这些特征很难识别、量化或以其他方式确认。

应看到，识别讲话者的嘴唇和牙齿的不同运动以更好地识别不同的元音音素是有用的。因此，在本领域中存在对改进的视频和音频同步系统的需要，该系统解释不同的嘴部特征和牙齿特征，例如嘴唇，包括嘴唇之间的内部区域。如将要看到的，本发明以非常好的方式实现了此目的。

发明内容

所述的方法、系统和程序产品消除了现有技术的缺点。

本发明提供了对在信号的视频部分中传送的图像与如音频信号等关联信号中的特征的直接比较。更具体地，其公开了一种用于测量音频视频同步的方法、系统和程序产品，其与讲话者的具体特征无关，不管是深沉音调的讲话者如大男人，还是高音质音调的讲话者如小女人。在一个实施例中，本发明目的在于测量嘴唇的形状，以考虑由这样的形状产生的元音和其它音调(tone)。与仅仅考虑张开或闭合的运动的传统方法不同，本发明考虑嘴唇的形状和运动，实质上通过视频特征提供了所讲单词的音频和视频同步的改善的准确性。而且，与仅仅考虑张开或闭合的运动的传统方法不同，本发明考虑嘴唇的形状，并且也考虑嘴唇的运动。此外，本发明提供了一种方法，其通过确定牙齿是否出现在张开的嘴唇之间，例如当字母“v”或“s”被发音时，来确定不同的讲话声音。因此，根据本发明配置的系统可减少或消除与不同讲话者有关的语音特征一个或更多影响。

虽然在优选实施例中描述的本发明用于使音频和视频与讲话人同步，应理解，它的应用不被如此限制，且可用于任何声源，对这些声源希望定位和/或识别定时和辨识的具体特征。本发明可利用的这样的非人类声源的仅有的一个例子是计算机产生的语音。

我们引入术语音频和视频MuEv(Audio and Video MuEv，参考美国专利申请20040227856)。MuEv是相互事件(mutual event)的缩写，意思是出现在图像、信号或数据中的事件，其足够唯一，可伴随有关联信号中的另一个MuEv。这样的两个MuEv，有例如音频和视频MuEv，其中确定的视频质量(或序列)相应于唯一且匹配的音频事件。

本发明提供了在信号的视频部分中传送的图像与如音频信号等关联信号中的特征的直接比较。更具体地，其公开了一种以与讲话者的个人语音特征无关的方式来测量音频视频同步的方法、系统和程序产品。

这通过首先从输入的音频-视频信号中采集音频和视频MuEv并使用它们校准音频视频同步系统来完成。MuEv采集和校准阶段之后，分析音频信息和分析视频信息。由此，音频MuEv和视频MuEv根据音频和视频信息被计算，且音频和视频信息被分类为元音音素，元音音素包括但不限于AA、EE、OO(大写的双字母分别表示元音a、e、o的声音)、字母“s”、“v”、“z”和“f”——即当牙齿出现时闭合的嘴唇形状、字母“p”、“b”、“m”——即当牙齿没有出现时闭合的嘴唇形状、无声以及其它未分类音位。该信息用于确定主要的音频类别，并将其与一个或更多相应的视频帧关联起来。确定匹配位置，以及确定视频和音频的偏移量。简单解释的例子是，声音EE(音频MuEv)可被识别为出现在音频信息中并匹配相应的图像特征，例如形成与说元音EE(视频MuEv)联系的形状的嘴唇，其中相对定时被测量或否则用于确定或纠正唇型同步错误。

本发明提供了在信号的视频部分中传送的图像与如音频信号等关联信号中的特征的直接比较。更具体地，其公开了一种用于测量音频视频同步的方法、系统和程序产品。这首先通过接收音频视频信息来将数据采集进音频视频同步系统中来完成。以使得数据采集的时间可稍后用于确定相对的音频和视频定时的方式，来执行数据采集。在这个方面，音频和视频数据被同时捕获并储存在存储器中的已知位置处是优选的，以便可能仅仅通过参考这样的已知存储器位置，来从存储器中调用最初时间一致的音频和视频。这样从存储器中的调用对音频和视频可为同时的或按需要，以便于处理。然而，数据采集、储存和调用的其它方法可利用，并可修改成本发明的特定应用。例如，数据可在它被捕获时分析，而没有中间的储存。

优选地，数据采集之后，分析所捕获的音频信息和分析所捕获的视频信息。由此，根据音频和视频信息计算声门脉冲，且音频和视频信息被分类为元音音素，元音音素包括AA、EE、OO、无声以及其它未分类音位。该信息用于确定和关联视频帧中的主要音频类别。确定匹配位置，以及确定视频和音频的偏移量。

本发明的一个方面是一种用于测量音频视频同步的方法。该方法包括步骤：首先接收例如电视节目的视频部分和关联音频部分；分析音频部分以在其中定位特定音位(phoneme)的出现，以及还分析视频部分以在其中定位特定视位(viseme)的出现。这之后，分析音位和视位，以确定有关音位和视位的相对定时，并定位MuEv。

本发明的另一个方面是一种通过下列步骤来测量音频视频同步的方法，所述步骤包括：接收视频和关联音频信息，分析音频信息以定位特定声音的出现和分析视频信息以定位相应于特定声音的形成的嘴唇形状的出现，以及比较特定声音的位置与相应的嘴唇形状的位置以确定音频和视频例如MuEv的相对定时。

本发明的又一个方面指向特别一种用于分析内部嘴唇区域的系统和方法。在操作中，关于视位识别，提供了准确提取和检查嘴唇区域的过程。分析嘴唇中间部分的窄条，以估计(上和下)嘴唇、牙齿和牙齿之间的张开空间的百分比。该过程准确地检测闭合的嘴唇、张大的嘴唇和所有牙齿和嘴唇。

本发明的又一个方面是一种用于测量音频视频同步的方法，包括步骤：接收电视节目的视频部分和关联音频部分，分析音频部分以定位特定的元音音素的出现，同时分析视频部分以定位相应于发出特定的元音音素的嘴唇形状的出现，以及分析步骤b)中定位的元音音素的出现和/或位置与步骤c)中相应嘴唇形状的位置)以确定其相对定时。本发明进一步分析讲话者独特的个人语音特征的音频部分，并将其过滤出来。因此，与给定音频帧有关的说话语音的音频表示实质上可被标准化，其中讲话者语音的个人特征实质上被过滤出来。

本发明提供了用于识别并定位MuEv的方法、系统和程序产品。如这里所使用的，术语“MuEv”是MUtual EVent(相互事件)的缩写，意思是出现在图像、信号或数据中的足够唯一的事件，可伴随有关联信号中的另一个MuEv。因此，图像MuEv有可能匹配关联信号中的MuEv。例如对于击打棒球的球棒，在音频信号中球棒的噼啪声是一个MuEv，球棒的挥动是一个MuEv，以及球即刻改变方向也是一个MuEv。显然每个MuEv都有及时匹配其它MuEv的可能性。视频MuEv的检测可伴随有寻找运动，特别是在图像的一个或几个有限区域内的快速运动，而图像的剩余部分是静止的，即，投掷球的球手和向球挥棒的击球手。在音频中，球棒的噼啪声可通过寻找短促的撞击声来检测到，该撞击声与其它短促的撞击声在时间上分离。本领域的普通技术人员应认识到，根据这些教导，在关联信号中的其它MuEv可被识别并用于本发明。

附图说明

附图中示出我们的发明的各个实施例和范例。

图1是用于实现本发明方法的系统的概述图。

图2示出具有由视频信号传送的图像和由关联信号传送的关联信息以及同步输出的本发明的简图。

图3示出与传送图像的视频信号和传送关联信息的音频信号一起使用的本发明的简图。

图4是示出本发明方法的“数据采集阶段”的流程图，“数据采集阶段”也称为“A/V MuEv采集和校准阶段”。

图5是示出本发明方法的“音频分析阶段”的流程图。

图6是示出本发明方法的视频分析的流程图。

图7是示出也称为声门脉冲的音频MuEv的推导和计算的流程图。

图8是示出本发明方法的测试阶段的流程图。

图9是示出也称为声门脉冲的音频MuEv的特征的流程图。

图10是示出根据本发明从音频/视频表现的音频部分中除去个人语音特征的过程的流程图。

具体实施方式

本发明的优选实施例具有图像输入、提供图像MuEv的图像相互事件鉴别器、以及关联信息输入、提供关联信息MuEv的关联信息相互事件鉴别器。图像MuEv和关联信息MuEv适当地耦合到比较操作，其比较两种类型的MuEv以确定它们的相对定时。在本发明的特定实施例中，可对于传送图像或关联信息的方法标注MuEv，或可对于图像或关联信息的性质标注MuE。例如，视频MuEv、明暗度MuEv、红色MuEv、色度MuEv和亮度MuEv是一些类型的图像MuEv，而音频MuEv、数据MuEv、重量MuEv、速度MuEv和温度MuEv是可普遍利用的一些类型的关联MuEv。

图1示出本发明的优选实施例，其中视频传送图像，而关联信号传送关联信息。图2具有视频输入1、具有MuEv输出5的相互事件鉴别器3、关联信号输出2、具有MuEv输出6的相互事件鉴别器4、具有输出8的比较7。

在操作中，视频信号1耦合到图像MuEv鉴别器3，图像MuEv鉴别器3操作来比较视频的多个图像帧，以识别在由视频信号传送的图像内的元素的运动(如果存在)。通常用于视频压缩如MPEG压缩的运动向量的计算，对此功能是有用的。有用的是，丢弃只指示少量运动的运动向量，且只使用按照图像高度5％或更多的次序来指示有效运动(significantmotion)的运动向量。当检测到这样的运动时，它相对于视频信号运动的剩余部分被检查，以确定它是否可能是关联信号中具有相应MuEv的事件。在一个实施例中，当由于任何特定的视频内容导致没有其它描述的方法可用时，例如嘴唇形状，这时基于运动的视频MuEv检测仅仅用作可依靠的东西。原因是，如果可利用嘴唇形状检测，它优于运动检测(并且也优于上面讨论的‘261专利的嘴唇运动方法)，因为它准确得多，由于具有匹配特定声音(例如AA、OO、EE)的较强大能力，而不是仅仅基于运动的方法。这是因为基于严格运动的检测可能与由相同运动产生的不同声音混淆。此外，嘴唇形状检测可用单帧执行，而基于运动的检测需要多个帧。

MuEv输出在5产生，指示视频域或帧内MuEv的出现，在有运动的这个例子中，运动可能在关联信号中有相应MuEv。在优选形式中，期望二进制数字是每个帧的输出，该数字指示MuEv的数量，即，相对于前面的帧移到那个帧中的小区域元素，同时帧的剩余部分保持相对静止。

可能注意到，虽然视频被显示为将图像传送到图像MuEv鉴别器3的优选方法，可利用其它类型的图像传送工具，如文件、录像剪辑、数据等，因为本发明的操作不限于传送图像的特定方法。也可利用其它类型的图像MuEv，以便针对特定的视频信号或由视频信号传送的特定类型的预期图像而最佳化本发明。例如，也可单独或组合地利用特定区域内的明暗度变化、视频信号包络的变化、传送图像的视频信号的频率或能量内容的变化以及视频信号的属性的其它变化的使用，以产生MuEv。

关联信号2耦合到相互事件鉴别器4，相互事件鉴别器4配置成识别关联信号内关联信号MuEv的出现。当MuEv识别为出现在关联信号中时，在6提供MuEv输出。MuEv输出优选地为指示MuEv数量的二进制数字，该MuEv出现在关联信号2的邻近部分内，尤其是在长度上相应于视频信号1的场或帧周期的部分内，视频信号1用于输出运动信号数字5。此时间周期可通过适当的联结器9从运动鉴别器3耦合到MuEv鉴别器4，如本领域普通技术人员根据这里的说明书将了解的。可选地，为了这个和其它目的，视频1可直接耦合到MuEv鉴别器4，如根据这些教导将了解的。

可能注意到，虽然信号显示为将关联信息传送到关联信息MuEv鉴别器4的优选方法，可利用其它类型的关联信息传送工具，如文件、录像剪辑、数据等，因为本发明的操作不限于传送关联信息的特定方法。在图1的优选实施例中，由于优选使用信号进行传送，关联信息也称为关联信号。类似地，关联信息MuEv也称为关联信号MuEv。在关联信号中MuEv的检测很大部分依赖于关联信号的性质。例如，由设备或响应于设备而提供的数据可能出现在图像中，例如从顾客输入到出纳员机器的数据是一个典型的MuEv。可能与运动相关的音频特征是典型的MuEv，如以下讨论的。作为另外的例子，也可单独或组合地利用关联信号的特定区域内的变化、信号包络的变化、信号的信息、频率或能量内容的变化以及信号属性的其它变化的使用，以产生MuEv。下面将提供关于本发明详细实施例的特定信号类型中识别MuEv的更多细节。

因此，在每个图像，作为视频场或帧周期传送的MuEv输出在5出现，而MuEv输出在6出现。图像MuEv输出和关联信号MuEv输出适当地耦合到比较7，由于使用视频作为传送图像的方法，图像MuEv输出在优选实施例中也称为视频MuEv，并且比较7操作来确定两个输出在滑动时标上的最佳匹配。在优选实施例中，比较优选地为确定两个信号之间的最佳匹配和其间相对时间的相关性。

我们基于识别MuEv，如元音音素、无声和辅音音素，优选地包括至少三个元音个元音音素和无声，实现了AVSync(音频视频同步检测)。典型的元音音素是三个元音音素/AA/、/EE/和/OO/。这里所述的过程假定在其最后实现中具有讲话者独立性。

第一阶段是最初的数据采集阶段，也称为图4一般示出的音频/视频MuEv采集和校准阶段。在最初的数据采集阶段中，实验数据用于建立判别边界，并为音位建立分段的音频区域，即，音频MuEv的/AA/、/EE/和/OO/。本方法不限于仅仅三个元音，而是它可扩展到包括其它元音或音节，例如“咬嘴唇的”“V”和“F”等。

同时产生相应的视位，即，视频MuEv，以建立不同的视频区域。

那些MuEv稍后用在AVI分析期间，这些元音的位置在音频和视频流中被识别。在分析音频中的元音位置和相应的视频帧内检测的元音，来估计音频-视频同步。

除了音频视频MuEv匹配以外，音频和视频中的无声中断也被检测到，并用于建立A/V同步的程度。

在AVI分析期间，这些元音的位置在音频和视频流中被识别。通过分析音频中的元音位置和在相应的视频帧内检测的元音，来估计音频-视频同步。

除了音位-视位匹配以外，音频和视频中的无声中断也被检测到，并用于建立A/V同步的程度。

下一步骤是如图5所示的音频MuEv分析和分类以及如图6a所示的视频MuEv分析和分类。音频MuEv分类基于声门脉冲分析。在图5详细示出并描述的声门脉冲分析中，收集音频样本，且计算非无声区域中来自音频样本的声门脉冲。对每个声门脉冲周期，计算平均值以及第二矩和第三矩。矩在平均值附近集中和归一化(normalize)。在下面讨论的图6(b)中，矩被绘制为散布图。区分大多数元音类别的判别边界被划定并储存为音频分类的参数。

在图6b中较详细示出和描述的视频分析和分类的实质上并行的阶段中，使用面部检测器和嘴唇跟踪仪来提取每个视频帧的嘴唇区域。强度值优选地被归一化，以消除任何不均匀的效果。嘴唇区域分成子区域，一般为三个子区域-内部、外部和差异区域。内部区域通过从外部嘴唇区域的所有四侧去除约25％的像素而形成。外部嘴唇区域和内部区域之间的差异被认为是差异区域。计算所有三个区域的平均值和标准偏差。三个区域的平均值/标准偏差被认为是所讲的元音的视频测量，因而形成相应的视频MuEv。注意，该视频MuEv实质上基于外部、内部和差异区域，其实质上又以嘴唇形状为基础，而不是仅仅嘴唇运动。用寻找视频MuEv的这种方法配置的系统比传统系统能够找到更多的MuEv，传统系统一般是严格基于运动的系统。例如，相应于讲话者的元音音素EE的嘴唇形状，可针对出现该形状的每个帧而进行识别。通过比较，使用仅仅利用嘴唇运动来确定EE声的系统将需要几个帧来找到，因为需要嘴唇对那几个帧进行这种运动的冗余测量来确定嘴唇正在发出哪一个声音。根据本发明，考虑嘴唇的形状实质上减少了确定讲话者发出的声音所需要的帧的数量。此外，根据本发明，特别教导了系统可辨别嘴唇形状的方式。这些教导可用于实质上提供嘴唇发出的声音的较快识别和较准确的对准。

在下一阶段中，在图7中较详细地示出并描述了检测阶段。图7示出的检测阶段的一个可能的实现是一帧接一帧地处理测试数据。采用大量的样本，例如约450个音频样本或更多，作为音频窗。对于具有大于某个片段例如80％的每个音频窗，处理非无声数据以计算音频MuEv或GP(声门脉冲)。对于MuEv或GP样本，计算音频特征。多个音频帧的平均频谱值用于此目的，例如高于10个或更多具有10％的偏移量的连续音频帧。这些被分类为元音音素，如/AA/、/OO/、/EE/，和其他元音音素、辅音音素以及例如当牙齿出现在视频中时的“F”和“V”声。对于所有这些具有多于两个相同的连续类别的样本，检验相应的视频帧。此帧的视频特征被计算，并被分类为相应的视频MuEv。通过分析这些数据来检验同步性。

在测试阶段，如图8中较详细描述的，音频帧中主要音频类别被确定并与视频帧关联以定位MuEv。这通过确定位定匹配位置和估计音频和视频的偏移量来完成。

如图4示出了在音频视频同步系统中用输入音频视频信息来采集数据的步骤，即，音频/视频MuEv采集和校准的步骤。数据采集包括步骤：接收音频视频信息(201)，分开提取音频信息和视频信息(203)，分析音频信息(205)和视频信息(207)，以及从其恢复音频和视频分析数据。音频和视频数据被储存(209)且重复利用。

分析数据包括根据音频数据绘制音频矩的散布图(211)，划定音频判别边界并储存随之产生的音频判别数据(213)，根据视频数据绘制视频矩的散布图(215)，以及划定视频判别边界(217)，并储存随之产生的视频判别数据(219)。

例如通过图5所示的方法来分析音频信息。该方法包括步骤：接收音频流(310)，直到捕获的音频样本的片段(fraction)达到阈值(303)。如果捕获的音频样本的片段达到阈值，则确定捕获的音频样本的音频MuEv或声门脉冲(307)。下一步骤是对偏移量内的音频MuEv或声门脉冲的大小的连续音频数据组，计算快速傅立叶变换(或离散余弦变换或DCT)(309)。这通过计算快速傅立叶变换(或DCT)的平均频谱来完成(311)。接着计算声门脉冲的快速傅立叶变换(或DCT)的频谱的音频统计(313)，并返回音频统计。检测的音频统计(313)包括一个或更多集中且归一化的M1(平均值)、M2BAR(第二个矩)、M3BAR(第三个矩)，其中“BAR”表示逻辑“非”。这在下面被进一步讨论和详述。

如图7所示，通过包括下列步骤的方法，根据音频和视频信息来计算音频MuEv或声门脉冲，以找到捕获的音频样本的音频MuEv或声门脉冲：接收3N个音频样本(501)，且对i＝0到N个样本，执行步骤：

i)确定N+1个音频样本的快速傅立叶变换(或DCT)(503)；

ii)计算前四个奇次谐波的和，S(I)(505)；

iii)找到具有最大变化率的S(I)的局部极小值S(I)，S(K)(507)；

以及

iv)计算音频MuEv或声门脉冲，GP＝(N+K)/2(509)。

如图6(a)所示，通过包括下列步骤的方法来分析视频信息：接收视频流并从视频帧获得视频帧(410)，在视频帧中找到脸部的嘴唇区域(403)，以及如果视频帧是无声帧，接收随后的视频帧(405)。如果视频帧不是无声帧，优选的是界定脸的内部和外部嘴唇区域(407)，计算脸的内部和外部嘴唇区域的平均值和方差(409)，以及计算嘴唇的宽度和高度(411)。该方法提供了不依赖于运动的基于空间的MuEv。此外注意，所有这些基于空间的信息可从视频的单个帧或甚至单个场得到。因此，与传统的嘴唇运动的基于运动(时间上的)的分析比较，快速找到很多基于空间的视频MuEv的可能性实质上增加了。然而，这并不是说，基于运动的MuEv没有用，而是如果希望，它们可被单独使用或与基于空间的MuEv结合使用。在过程的结尾，返回视频特征，并接收下一个帧。

参考图6(b)，其示出显示元音和匹配的嘴部形状的散布图600的说明。有三个讲话者的视图602a、602b和602c。如可看到的，所示不同的嘴部形状相应于不同的元音音素。它们相应的声音可绘制在散布图600上。Y轴是基于矩测量的Y分量，而X轴是基于矩测量的X分量。如所示，讲话者602a的嘴部形状发出/AA/元音音素，且通过散布图604a上的点可看到声音的散布图输出。嘴部形状是张开的，如当/AA/元音被讲时的情况。类似地，讲话者形状602b输出元音音素/OO/，且声音的输出显示在散布点604b中。此外，嘴部是张开的，但/OO/声音的形状不同于较早示出的/AA/声。根据本发明，不同的嘴部形状相应于不同的声音，包括元音和其它声音，例如/V/、/F/、/S/、/ZZ/，以及很多其它声音。形状602c具有相应于/EE/元音的形状，且散布图示出相应的点604c，其在图上处于与/AA/声音和/OO/形状不同的位置。因此，该图示出散布图如何根据基于矩的测量来定义不同的声音，并且还示出不同的声音及相应的嘴部形状是如何区分的。

通过例如图8所示的方法，来确定和关联视频帧中的主要音频类别，定位匹配位置，以及估计音频和视频的偏移量。该方法包括步骤：接收音频和视频信息流(601)，取回单独的音频和视频信息(603)，分析音频(605)和视频信息(613)，并给音频(607)和视频信息分类(615)，音频信息包括/AA/、/EE/、/OO/、/M/、/P/、/B/、/V/、/S/和其它声音，视频信息包括/AA/、/EE/、/OO/、/M/、/P/、/B/、/V/、/S/和其它声音。在这个过程中可利用不同的声音，且本发明可利用不同的声音来实践。本领域技术人员应理解，给定本说明书，可利用不同的声音，以便适合特定期望水平的性能与复杂性，而不偏离本发明。

该图示出在音频分析和视频分析中分类的声音是相同的。然而可能在不同情况下，它们可以不同。虽然可使用与所提出的声音不同的声音，它们一般对双方都是相同的。在一个实施例中，由于处理的容易或困难，对一个(音频或视频)比对另一个使用较大(重叠的)组的不同声音可能是有用的。例如在视频中，系统可使用/AA/、/EE/、/OO/、/M/、/P/、/B/、/V/、/S/，但如果音频是嘈杂或变形的或由于某种与应用有关的其它原因，可能只使用/AA/、/EE/和/OO/。如果视频是嘈杂或变形的而音频是干净的，可能发生相反的情况。由于内容或缺乏内容而导致本来较难处理的信号(音频或视频)，可(暂时)使用比其它信号(视频或音频)更少分类的声音。没有出现头部的视频，在没有头部的持续时间内，例如可使用两个、一个或零个声音。有很多正在讲话的头部的视频最初可使用小组，同时它辨别哪个头部是相应于该声音的头部(即，哪个头部有麦克风)。在另一实施例中，当采集新的图像或音频时，较小组可用于加速采集，之后使用较大组以促进最初采集之后的准确性。这个较小/较大组可与音频和视频一起或任一个一起出现。

这之后过滤音频(609)和视频信息(617)，以消除随机出现的类别，将最主要的音频类别与相应的视频帧关联(611)，找到匹配的位置(619)，以及估计异步偏移量(621)。

音频和视频信息分类为元音音素，至少包括/AA/、/EE/、/OO/，无声，/M/、/P/、/B/、/V/、/S/和其它音素，以及未分类音位。这不排除其它元音音素和辅音音素。

我们的发明的进一步的方面是一种执行上述测量音频视频同步的方法的系统。这通过包括下列步骤的方法来完成：音频视频同步系统的最初A/VMuEv采集和校准阶段，因而建立有关的音频和视频MuEv的相关性，以及分析阶段，其包括获取输入的音频视频信息，分析音频信息，分析视频信息，根据音频和视频信息计算音频MuEv和视频MuEv，以及确定和关联视频帧中的主要音频类别，定位匹配位置和估计音频和视频的偏移量。

我们的发明的进一步的方面是一种包括用于测量音频视频同步的计算机可读代码的程序产品。这通过包括下列步骤的方法来完成：音频视频同步系统的最初A/V MuEv采集和校准阶段，因而建立有关的音频和视频MuEv的相关性，以及分析阶段，其包括获取输入的音频视频信息，分析音频信息，分析视频信息，根据音频和视频信息计算音频MuEv和视频MuEv，以及确定和关联视频帧中的主要音频类别，定位匹配位置和估计音频和视频的偏移量。

本发明例如可通过将下列各种装置作为软件应用程序(作为操作系统元件)、专用处理器或具有专用代码的专用处理器来实现，包括：接收视频信号和关联信号的装置，识别音频-视觉事件的装置，以及比较视频信号和关联信号音频-视觉事件以确定相对定时的装置。软件执行一系列机器可读指令，也可称为代码。这些指令可驻留在各种类型的信号承载介质中。在此方面，本发明的一个方面涉及一种程序产品，包括信号承载介质或信号承载媒体，其实际上体现为可由数字处理装置执行的机器可读指令的程序，用于执行用于接收视频信号和关联信号、识别音频-视觉事件并比较视频信号和关联信号视频-视觉事件以确定相对定时的方法。

此信号承载介质可包括例如在服务器中的存储器。服务器中的存储器可为非易失性存储器、数据磁盘或甚至用来下载到处理器以便安装的卖主服务器上的存储器。可选地，指令可包含在信号承载介质中，如光学数据储存磁盘。可选地，指令可储存在任何种类的机器可读数据存储介质或媒体上，其可包括例如“硬驱动器”、RAID阵列、RAMAC、磁数据存储磁盘(例如软盘)、磁带、数字光带、RAM、ROM、EPROM、EEPROM、闪存、点阵(lattice)或三维阵列型光存储器、磁光存储器、纸穿孔卡片或任何其它适当的信号承载媒体，包括传输媒体，例如可为电、光和/或无线的数字和/或模拟通信链路。作为例子，机器可读指令可包括由语言如“C++”编译的软件对象代码。

此外，程序代码可例如被压缩、加密或两者，并可包括可执行文件、脚本文件和用于安装的向导，如在Zip文件和cab文件中的。如这里所使用的，术语驻留在信号承载媒体内或上的机器可读指令或代码包括上面所有的分发方法。

音频MuEv(声门脉冲)分析。方法、系统和程序产品基于声门脉冲分析而被描述。声门脉冲的概念由其它语音分析和会话方法的缺点而产生。特别地，大多数现有技术的语音会话方法主要处理语音的频谱特征。然而，频谱分析的缺点是语音的源特征不能全部在频谱域中处理。语音的源特征影响语言的语音质量，该语言定义语音是否存在语气(正常)、紧迫、伴有呼吸声、叽叽嘎嘎、刺耳或轻声的特点。语音的质量被声襞(vocalfold)的外形长度、厚度、质量和张力以及被脉冲流的音量和频率影响。

完整的语音会话方法需要包括源特征的映射。语音质量特征(如参考声门脉冲)在时域中比在频域中明显得多。获得声门脉冲的一种方法以推导时域中声门脉冲的形状的估计开始。声门脉冲的估计改进了源和声道去卷积以及共振峰估计和映射的准确性。

根据声门脉冲分析的一种方法，多个参数，喉音参数用于描述声门脉冲。参数以图9所示的LF(Liljencrants/Fant)模型为基础。根据LF模型，声门脉冲具有两个主要的截然不同的时间特征：张开系数(open quotient)(OQ＝T_c/T₀)是声襞保持张开的每个周期的片段，而脉冲或速度系数的偏离(skew)(a＝T_p/T_c)是张开阶段保持张开状态的持续时间T_p与声襞的张开阶段的总持续时间T_c的比率。为了完善声门流描述，音调(pitch)周期T₀、闭合率(RC＝(T_c-T_p)/T_c))和幅度(AV)被包括。

LF模型的五个参数的估计需要声门闭合瞬间(GCI)的估计。GCI的估计利用最小相移信号(minimum phase signal)的平均组延迟值与信号起点和分析窗起点之间的偏移成比例的事实。在两者符合时的时刻，平均组延迟为零值。分析窗长度设置为仅仅稍微高于相应的音调周期的值。它在时间上越过信号偏移一个样本，且每次LPC剩余的未展开的相位谱被提取。通过线性回归适合的斜率，找到相应于分析窗起点的平均组延迟值。随后的过滤不影响信号的时间特性，但消除了可产生伪零交叉的可能的波动。GCI因此是平均延迟的正斜率期间的零交叉瞬间。

在GCI的估计之后，LF模型参数从动态时间校正方法对估计声门脉冲序列的迭代应用得到。声门脉冲的初始估计通过LP反向过滤器得到。LP模型的参数的估计基于音调同步方法，使用与声门脉冲周期的闭合阶段一致的零激发周期。确定参数的过程可分为两个阶段：

(a)LP模型参数的初始估计。每个参数的初始估计从激发序列的初始估计的分析得到。参数T_e相应于当声门导数信号(derivative signal)达到其局部极小值时的时刻。参数AV是在此时刻的信号的幅度。参数T_p可估计为T_e左边的第一零交叉。参数T_c可被认为是T_e右边的小于某个预定阈值的第一样本。类似地，参数T₀可估计为当信号低于某个阈值时T_p左边的时刻，并被张开系数的值限制。得到T_a的准确估计特别难，所以它被简单地设置为2/3*(T_e-T_c)。由于这个简化引起的在准确性方面的明显降低只是暂时的，所以在应用非线性优化技术之后，Ta被估计为在闭合阶段期间归一化频谱(由AV归一化)的幅度。

(b)参数的限制性非线性优化技术。动态时间规整(dynamic timewarping，DTW)方法被使用。DTW对使合成生成的声门脉冲与通过反向过滤得到的声门脉冲进行时间校准。校准的信号是建模信号的较平滑的形式，其定时属性未失真，但在合成信号中没有出现短期或其它时间波动。本技术被迭代使用，因为对准的信号可代替估计的声门脉冲，作为来自其的新模板，以估计LF参数。

在本发明的另一实施例中，提供了音频同步方法，该方法提供了实质上独立于特定讲话者的个人特征的音频输出。当音频输出产生时，它对任何数量的讲话者实质上是类似的，与任何个体讲话者特征无关。根据本发明，如此配置的音频/视频系统可减少或消除与不同讲话者有关的语音特征的一个或更多的影响。

如根据教导本领域普通技术人员将要了解的，分析是信息或数据的方法检查，包括计算和逻辑判别，并优选地为(但不限于)可产生判别的观测资料。

如根据教导本领域普通技术人员将要了解的，计算是信息或数据利用数学进行的计算(computation)、运算(ciphering)、推算(reckoning)、估计(estimate)或评估(evaluation)，并优选地(但不限于)产生逻辑或数值输出。

根据这里的教导，普通技术人员能够以适于特定应用的形式实现适合于实践本发明的适当分析和/或计算。

人类语音最重要的知觉方面是音调、音量、音质和定时(与速度和节奏有关)。这些特征通常被认为或多或少地彼此独立，且它们被认为分别与声信号的基本频率f₀、幅度、频谱包络和时间变量有关。

已经观察到，一个人的个人音调(pitch)f₀由个人声带的个人身体共鸣(胸腔、喉咙、口腔)和长度确定。音调信息局限于个人语音的较低频谱中。根据本发明，新颖方法集中于在频域中评估个人语音特征，然后首先消除几个谐波或整个较低的频带。结果留下了由人类讲话装置产生的个人智能声音、音位的本质或谐波频谱。输出是与讲话者个人特征无关的音频输出。

在操作中，傅立叶变换(或DCT)和音频归一化(normolization)的矩用于消除对幅度和时间变量的依赖性，因而进一步提高语音识别方法。

如下计算矩：

让f_i为傅立叶变换(或DCT)的第i个谐波，且n为样本相对于10ms数据的数量，则第k个矩被定义为，

m_{k} = \frac{Σ_{i = 0}^{n} i^{k} f_{i}}{Σ_{i = 0}^{n} f_{i}}

i的值按照比例决定，以使它覆盖全部频率范围。在这种情况下，只使用n中的m(相应于6KHz)个数量的频谱值。

第k个中心矩(对k＞1)定义为，

\overset{&OverBar;}{m_{k}} = \frac{Σ_{i = 0}^{n} (i^{k} - m_{1}) f_{i}}{Σ_{i = 0}^{n} f_{i}}

从上面的方程，我们得到

\overset{&OverBar;}{m_{2}} = m_{2} - m_{1}^{2}

\overset{&OverBar;}{m_{3}} = m_{3} - {3 m}_{1} m_{2} + {2 m}_{1}^{3}

其它被考虑的矩是，

m_{20} = \frac{m_{2}}{m_{1}} - m_{1}

m_{23} = \frac{\overset{&OverBar;}{m_{3}}}{\overset{&OverBar;}{m_{2}}}

m_{24} = \frac{\overset{&OverBar;}{m_{23}}}{\sqrt{\overset{&OverBar;}{m_{2}}}}

参考图10，其示出根据本发明的方法的一个实施例。图10示出以步骤1000开始的过程。过程在步骤1002开始，在该步骤中，取回音频样本，例如10毫秒，且在步骤1004计算DFT和幅度。在步骤1006，音频指针从1002的样本的最后一个帧的起点偏移了一个增量值，例如在本例中为0.5毫秒。从此，该循环重复预定数量的次数，在本例中为10个循环，且过程返回到包含具有音位的音频数据的存储器1018。该循环再次重复10次，接着过程前进到步骤1008，其中执行通过取立方根来给频谱值和标度取平均的过程。然后过程前进到DC值、第一谐波和第二谐波减少的步骤1010。此外，减少了相应于多于一个预定频率的频谱值，在本例中为16千赫兹。接着过程前进到为M1 M2 BAR、M3 BAR、M20、M23和M24而计算归一化中心矩的步骤1012。在步骤1014，M1按照1000的比例决定，以及其它矩按照1,000,000的比例决定。在步骤1016，音频指针从步骤1002直到1008，从初始音频帧的第一音频帧的起点偏移了预定数量的时间，在本例中为9毫秒。在步骤1020，为其它音位计算矩。在步骤1022，分割矩特征。过程在步骤1024结束。如本领域技术人员将理解的，与在我们自己的例子中一样，可使用结合图10所描述的值和过程步骤以及其它值，而不偏离在所附权利要求及其等效形式中确定的本发明的实质和范围。

对于实现嘴唇跟踪以建立音频和视频同步联系，10ms音频的傅立叶变换(或DCT)的矩被考虑为音位特征。在一个实现中，通过偏移10％的样本，来计算9组或更多组的傅立叶变换(或DCT)。这些傅立叶变换(或DCT)系数的频谱的平均值用于计算矩特征。在计算矩时最初的三个频谱分量减少。以10％的重叠采用下一组音频样本。然后按照比例决定(scale)并成对地标绘矩。分割允许在两维矩空间中的x/y标绘图上标绘。

如这里所定义的，嘴唇形状和嘴部形状是可区别的。因此，嘴唇形状仅仅是嘴唇，而嘴部形状包括嘴唇和其它形状，例如口腔、牙齿和其它嘴部特征。给定本发明的公开，本领域技术人员应理解，嘴部区域及周围的不同形状可被分析并用在根据本发明的系统和过程中。

对于视位识别，实现了基于嘴唇区域周围的平均倾斜度(averagegradient)的过程，该过程准确地提取嘴唇区域。三个嘴唇区域定义为：包围整个嘴部区域的“外部嘴唇区域”，界定嘴张开和牙齿的区域的“内部嘴唇区域”，以及“嘴唇区域”，其为“外部嘴唇区域”和“内部嘴唇区域”之间的差别，其界定上嘴唇和下嘴唇的区域。该过程准确地检测闭合的嘴唇、张大的嘴部以及各种嘴部形状和开口。该过程也准确检测“内部嘴唇区域”内的牙齿。这通过检测“内部嘴唇区域”内的明暗度水平来完成。张大的嘴可分类为/AA/，没有出现牙齿的闭合的嘴为/M/、/P/、/B/，以及当牙齿出现时为/V/、/EE/、/F/、/Z/、/ZZ/(如pizza)和/S/。可建立嘴部形状和声音的一致性。

虽然在具有这里作为例子的各种特征和功能的优选实施例中描述了本发明，本领域的普通技术人员应认识到，本发明可用在各种其它实施例和结构中，特别是可适于提供具有优选输入和输出的期望操作，而不偏离本发明的实质和范围。本领域的普通技术人员应理解，本发明可以各种形式(步骤、方法、硬件、软件、固件等)来实践，并且部分地，可以包括在其它设备、系统、过程或方法中或作为它们的特征。

Claims

1.一种用于测量音频视频同步的方法，所述方法包括步骤：

接收组合的音频和视觉表现的视频部分和关联音频部分；

分析所述音频部分来识别和过滤音频数据，以减少与讲话者的个人语音特征有关的音频数据，从而产生过滤的音频信号；

分析所述过滤的音频信号，以在其中定位特定音位的出现；

分析所述视频部分，以通过分析嘴部区域来在所述视频部分中定位特定视位的出现；以及

分析所述音位和视位，以确定其相关的音位和视位的相对定时。

2.一种用于测量音频视频同步的方法，包括：

接收视频和关联音频信息；

分析所述音频信息，以在其中定位与讲话者的个人语音特征有关的声音的出现；

除去与讲话者的个人语音特征有关的数据，以产生过滤的音频表示；

分析所述过滤的音频表示，以识别特定的声音；

分析与相应于特定声音的形成的嘴部形状有关的所述视频信息；以及

比较所定位的特定声音的位置与相应的嘴唇形状的位置，以确定其相对定时。

3.一种用于测量音频视频同步的方法，包括：

a)接收电视节目的视频部分和关联音频部分；

b)分析所述音频信息，以在其中定位与讲话者的个人语音特征有关的声音的出现；

c)除去与讲话者的个人语音特征有关的数据，以产生过滤的音频表示；

d)分析所述过滤的音频部分，以在其中定位特定的元音音素的出现；

e)分析所述视频部分，以在其中定位相应于发出特定的讲话声音的嘴部形状；

f)分析在步骤d)中定位的元音声的出现和位置与步骤e)的相应的嘴唇形状的位置和牙齿的出现，以确定其相对定时。

4.一种用于测量音频视频同步的方法，包括：

采集输入音频视频信息到音频视频同步系统中；

分析所述过滤的音频信息；

分析包括嘴部形状的所述视频信息和所述嘴部形状的位置；

根据所述音频和视频信息来计算音频MuEv和视频MuEv；以及

确定并关联视频帧中的主要音频类别，定位匹配位置，以及估计音频和视频的偏移量。

5.如权利要求4所述的方法，其中采集输入音频视频信息到音频视频同步系统中的所述步骤包括步骤：

接收音频视频信息；

分开地提取所述音频信息和所述视频信息；

分析所述音频信息和所述视频信息，并从其恢复音频和视频分析数据；以及

储存所述音频和视频分析数据，并重复使用所述音频和视频分析数据。

6.如权利要求5所述的方法，包括根据所述音频数据提供音频矩的散布图。

7.如权利要求6所述的方法，包括提供音频判别边界和储存随之产生的音频判别数据。

8.如权利要求5所述的方法，包括根据所述视频数据提供视频矩的散布图。

9.如权利要求8所述的方法，包括提供视频判别边界和储存随之产生的视频判别数据。

10.如权利要求7所述的方法，包括通过包括下列步骤的方法来分析所述音频信息：

接收音频流，直到捕获的音频样本的片段达到阈值；

找到所述捕获的音频样本的声门脉冲；

对偏移范围内的所述声门脉冲的大小的连续音频数据组，计算快速傅立叶变换(或DCT)；

计算所述快速傅立叶变换(或DCT)的平均频谱；

计算所述声门脉冲的所述快速傅立叶变换(或DCT)的频谱的音频统计；以及

返回所述音频统计。

11.如权利要求10所述的方法，其中所述音频统计包括所述傅立叶变换(或DCT)的一个或更多集中和归一化的矩。

12.如权利要求11所述的方法，其中所述音频统计包括所述傅立叶变换(或DCT)的一个或更多集中和归一化的矩，所述矩包括M1(平均值)、M2BAR(第二个矩)和M3BAR(第三个矩)中的一个。

13.如权利要求10所述的方法，包括通过包括下列步骤的方法根据音频和视频信息来计算声门脉冲，以找到所述捕获的音频样本的声门脉冲：

接收3N个音频样本；

对i＝0到N个样本，

i)确定N+1个音频样本的所述快速傅立叶变换(或DCT)；

ii)计算前四个奇次谐波的和，S(I)；

iii)找到具有最大变化率的S(I)的局部极小值，S(K)；以及

iv)计算所述声门脉冲，GP＝(N+K)/2。

14.如权利要求4所述的方法，包括通过包括下列步骤的方法来分析所述视频信息：

接收视频流，并从其采集视频帧；

在所述视频帧中找到脸部的嘴唇区域；

如果所述视频帧是无声帧，则将所述帧识别为无声的，然后重新开始接收随后的视频帧；以及

如果所述视频帧不是无声帧，则

定义脸部的内部和外部嘴唇区域；

计算脸部的所述内部和外部嘴唇区域的平均值和方差；

计算嘴唇的宽度和高度；

确定嘴唇之间的内部空间；以及

返回视频特征，并接收下一个帧。

15.如权利要求4所述的方法，包括通过包括下列步骤的方法，来确定和关联视频帧内的主要音频类别，定位匹配位置，以及估计音频和视频的偏移量：

接收音频和视频信息的流；

从其取回单独的音频和视频信息；

分析所述音频和视频信息，无论嘴唇张开还是闭合，都包括所述内部嘴唇区域，并给所述音频和视频信息分类；

过滤所述音频和视频信息，以除去随机出现的类别；

将最主要的音频类别与相应的视频帧关联；

找到匹配位置；以及

估计异步偏移量。

16.如权利要求15所述的方法，包括将所述音频和视频信息分类为元音音素，包括AA、EE、OO、无声和未分类音位。

17.一种通过包括下列步骤的方法来测量音频视频同步的系统：

采集输入音频视频信息到音频视频同步系统中；

分析所述过滤的音频表示，以识别特定的声音和无声；

分析所述视频信息，包括对应于分类的声音的嘴部形状；

根据所述过滤的音频和视频信息，计算音频MuEv和视频MuEv；以及

18.如权利要求17所述的系统，其中采集输入音频视频信息到音频视频同步系统中的所述步骤，包括步骤：

接收音频视频信息；

分开地提取所述音频信息和所述视频信息；

19.如权利要求18所述的系统，其中所述系统根据所述音频数据绘制音频矩的散布图。

20.如权利要求19所述的系统，其中所述系统划定音频判别边界，并且储存随之产生的音频判别数据。

21.如权利要求18所述的系统，其中所述系统根据所述视频数据绘制视频矩的散布图。

22.如权利要求21所述的系统，其中所述系统划定视频判别边界，并且储存随之产生的视频判决数据。

23.如权利要求20所述的系统，其中所述系统通过包括下列步骤的方法来分析所述音频信息：

接收音频流，直到捕获的音频样本的片段达到阈值；

找到所述捕获的音频样本的声门脉冲；

计算所述快速傅立叶变换(或DCT)的平均频谱；

返回所述音频统计。

24.如权利要求23所述的系统，其中所述音频统计包括所述傅立叶变换(或DCT)的一个或更多集中和归一化的矩。

25.如权利要求23所述的系统，其中所述系统通过包括下列步骤的方法根据音频和视频信息来计算声门脉冲，以找到所述捕获的音频样本的声门脉冲：

接收3N个音频样本；

对i＝0到N个样本，

v)确定N+1个音频样本的所述快速傅立叶变换(或DCT)；

vi)计算前四个奇次谐波的和，S(I)；

vii)找到具有最大变化率的S(I)的局部极小值，S(K)；以及

viii)计算所述声门脉冲，GP＝(N+K)/2。

26.如权利要求20所述的系统，其中所述系统通过包括下列步骤的方法来分析所述视频信息：

接收视频流，并从其采集视频帧；

在所述视频帧中找到脸部的嘴唇区域；

如果所述视频帧不是无声帧，则

定义脸部的内部和外部嘴唇区域；

计算脸部的所述内部和外部嘴唇区域的平均值和方差；

计算嘴唇的宽度和高度；

计算嘴唇之间的内部空间；以及

返回视频特征，并接收下一个帧。

27.如权利要求20所述的系统，其中所述系统通过包括下列步骤的方法，来确定和关联视频帧内的主要音频类别，定位匹配位置，以及估计音频和视频的偏移量：

接收音频和视频信息的流；

从其取回单独的音频和视频信息；

分析所述音频和视频信息，并给所述音频和视频信息分类，包括分析所述内部嘴唇区域是否指示张开的嘴部；

过滤所述音频和视频信息，以除去随机出现的类别；

将最主要的音频类别与相应的视频帧关联；

找到匹配位置；以及

估计异步偏移量。

28.如权利要求27所述的系统，其中所述系统将所述音频和视频信息分类为元音音素，包括AA、EE、OO、无声和未分类音位。

29.一种包括计算机可读代码的程序产品，所述程序产品用于通过包括下列步骤的方法来测量音频视频同步：

a)接收视频和关联音频信息；

d)分析所述音频信息，以在其中定位声门事件的出现；

e)分析所述视频信息，以在其中确定相应于音频声门事件的嘴部形状；

f)分析在步骤d)中定位的声门事件的位置和/或出现以及步骤e)的相应的视频信息，以确定其相对定时。

30.一种通过包括下列步骤的方法来分析来自视频信号的视频信息的方法：

接收视频流，并从其获取视频帧；

在所述视频帧中找到脸部的嘴唇区域；

如果所述视频帧不是无声帧，则

定义脸部的内部和外部嘴唇区域；

计算嘴部形状的平均值和方差；

计算嘴唇的宽度和高度；

返回视频特征，并接收下一个帧。

31.如权利要求31所述的方法，包括将所述音频和视频信息分类为元音音素，包括AA、EE、OO、F、V、B、无声和未分类音位。

32.如权利要求31所述的方法，包括将所述音频和视频信息分类为包括AA、EE、OO、无声和未分类音位的元音音素，且如果嘴唇是张开的，则将所述音频和视频信息分类为包括AA、EE、OO的元音音素，以及如果嘴唇是闭合的，则将所述音频和视频信息分类为包括字母M、P、B、V的发音的音素，以及当牙齿出现时，将所述音频和视频音素分类为EE和字母S的发音。

33.一种确定音频程序和视频程序的相对定时的方法，包括：

接收所述视频程序，并在其中识别脸部的图像；

识别脸部的嘴部形状；

接收所述音频程序，并在其中识别与所述嘴部形状相对应的相应声音；以及

使用所述识别的嘴部形状和相应声音的在时间上的出现，来确定两者的定时是否相同。

34.如权利要求33所述的方法，其中确定在所述识别的形状的出现和所述声音的出现之间的定时的量值。

35.一种获得关于音频程序和视频程序的信息的方法，包括：

接收所述视频程序，并在其中识别脸部的图像；

识别脸部的嘴唇形状；

接收所述音频程序，并在其中识别与所述嘴唇形状相对应的相应声音；以及

使用所述识别的嘴唇形状和相应声音来获取所述信息。

36.如权利要求35所述的方法，其中所获取的信息是所述音频程序相对于所述视频程序的相对定时。

37.如权利要求35所述的方法，其中所获取的信息是所述音频程序相应于所述视频程序的验证。