CN101199207A

CN101199207A - 用于独立于说话者特征测量音频视频同步的方法、系统和程序产品

Info

Publication number: CN101199207A
Application number: CNA2005800501339A
Authority: CN
Inventors: J·卡尔·库珀; 米尔科·杜山·沃吉诺维科; 吉班阿南达·罗伊; 萨乌拉博·简; 克里斯多佛·史密斯
Original assignee: Pixel Instruments Corp
Current assignee: Pixel Instruments Corp
Priority date: 2005-04-13
Filing date: 2005-11-16
Publication date: 2008-06-11
Also published as: AU2005330569A1; GB2440384B; WO2007035183A2; CA2565758A1; EP1938622A2; WO2007035183A3; GB0622592D0; GB2440384A; CN101199208A; AU2005330569A8

Abstract

一种用于测量音频视频同步的方法、系统和程序产品。首先通过将音频视频信息采集进音频视频同步系统中，来执行。数据采集步骤之后，分析音频信息，并分析视频信息。接着，分析音频信息，以在其中定位与说话者的个人语音特征有关的声音的呈现。然后，通过去除与说话者的个人语音特征有关的数据，来过滤音频信息，以产生过滤的音频信息。在该阶段，分析过滤的音频信息和视频信息，确定音频和视频MuEv的判别边界，并使有关的音频和视频MuEv相关。在分析阶段，由音频和视频信息计算音频和视频MuEv，并将音频和视频信息分类为元音音素，包括AA、EE、OO、无声和未分类音位。该信息被用于确定并关联视频帧中的主要音频类别。确定匹配位置，并确定视频和音频的偏移量。

Description

用于独立于说话者特征测量音频视频同步的方法、系统和程序产品

相关申请

本申请要求基于2004年5月14日提交的美国申请No.10/846,133以及2005年4月13日提交的PCT申请No.PCT/US2005/012588的优先权，其文本和附图并入在本文中。

背景技术

本发明涉及至少具有视频和相关信息的多媒体娱乐、教育和其他节目编制(programming)的制作、处理、传送、存储等，特别是同步。

至少具有视频和相关信息的多媒体娱乐、教育和其他编制节目的制作、处理、传送、存储等要求同步。这种节目编制的典型例子是电视和电影节目(program)。通常，这些节目包括视觉或者视频部分、听觉或者音频部分，并且还可以包括一个或更多的不同数据类型部分。典型数据类型部分包括隐藏式字幕(closed captioning)、针对盲人的叙述性描述、例如网站和其它信息指示等附加节目信息数据、以及包括在压缩系统(举例而言，例如MPEG和JPEG)中的各种元数据。

通常制作、运行、存储或传播视频和相关信号程序的过程中，前述音频、视频和/或数据中的各项的同步会受到影响。例如，当制作节目时，一般称为口形同步(lip sync)的音频和视频的同步可能会不协调。如果以准确的唇形同步制作节目，该定时可能会受到后续操作的干扰，例如节目的处理、存储或传送。认识到以完整的唇形同步制作的电视节目的唇形同步会受到后续干扰是重要的。这种干扰可以通过分析引起该后续干扰的音频和视频信号处理延时差异(delay differential)而得到纠正。如果电视节目开始制作时就具有唇形同步上的误差，那么该误差的后续纠正就非常困难，但是可以利用本发明进行纠正。通过本文中讲授的内容，可以正确地理解这些问题和藉由本发明的解决方案。

多媒体节目编制的一个方面在于维护视听表现(audio-visualpresentation)例如电视节目中的音频和视频同步，以防止给观众带来不便，并且方便节目的进一步运行或者有利于节目的分析。在共同转让、授权的专利中描述了应对该挑战的各种方法。美国专利4,313,135、美国专利4,665,431、美国专利4,703,355、美国专利Re.33,535、美国专利5,202,761、美国专利5,530,483、美国专利5,550,594、美国专利5,572,261、美国专利5,675,388、美国专利5,751,368、美国专利5,920,842、美国专利5,946,049、美国专利6,098,046、美国专利6,141,057、美国专利6,330,033、美国专利6,351,281、美国专利6,392,707、美国专利6,421,636以及美国专利6,469,741。大体而言，这些专利处理检测、维护以及纠正唇形同步和其他类型的视频和相关信号的同步。

美国专利5,572,261描述了视频信号中的实际口部图像(mouth image)的使用，以预测正在发出的音节，并将该信息与相关音频信号中的声音进行比较，从而测量相对的同步。不幸地是，当没有口部图像时，就不能够确定正在发出的是哪个音节。

作为另一个例子，在能够测量节目的音频和视频部分之间关系的系统中，音频信号可以对应于多个视频信号中的一个或更多，并且期望确定出是哪一个。例如，在电视演播室中，三个说话者中每个人都佩戴一个扩音器，并且每个表演者具有拍摄说话者图像的对应摄影机，期望使得音频节目编制与来自摄影机的视频信号相关。这种相关性的一个用途在于自动地选择(传送或记录)拍摄当前正在说话的表演者的摄影机。作为另一例子，在选择了具体的摄影机时，用于选择对应于该视频信号的音频。在又一例子中，用于检查输出视频信号，并且确定它对应于一组视频信号中的哪一组，从而有利于对应音频的自动选择或者定时。在美国专利5,530,483和5,751,368中记叙了描写这些类型的系统的共同转让的专利。

上述专利包括的关于现有技术的教导通过引用整体并入本文中。

一般，除了美国专利5,572,261、5,530,483和5,751,368之外，上述专利描述了在不对视频信号图像进行检查或者响应的情况下的运行。因此，该类专利描述的应用范围限定于使用各种视频定时信息的特定系统。专利5,530,483和5,751,368涉及通过对视频信号中携带的图像进行检查，来测量视频延时并识别视频信号，但是没有对视频和音频信号进行任何比较或者其它检查。专利5,572,261讲述了使用视频信号中实际口部图像和相关音频信号中的声音来测量相对同步。美国专利5,572,261描述了一种在唇部和音频中检测口部发音的出现的运行模式。例如，当唇部处于用于发出像E的声音的位置并且E出现在音频中时，这两个事件发生之间的时间关系被用于测量它们之间的相对延时。美国专利5,572,261中的描述记叙了使用的共同属性，举例来说，例如由唇部发出的特定声音，其可以在音频和视频信号中进行检测。对于对应于某种声音的唇部的视觉定位以及相应声音的听觉呈现的检测和相关，计算起来强度很高，导致高成本以及高复杂性。

在J.Hershey，and J.R.Movellan的论文(“Audio-Vision：Locatingsounds via audio-visual synchrony”Advances in Neural InformationProcessing Systems 12，由S.A.Solla，T.K.Leen，K-R Muller编辑，MIT Press，Cambridge，MA(MIT Press，Cambridge，Mass.，(c)2000))中，认识到声音可以用于鉴别视频图像中对应的单个像素。音频信号和图像中的单个像素之间的相关性被用于制作电影，这种电影示出了与音频具有高相关性的视频区域，并且从该相关性数据中它们估计出图像活动的中心(centroid)，以及利用它来找出说话的面孔。Hershey等人描述了通过使声音和脸部的不同部分相关来检测同步从而鉴别出电视图像中两个说话者中哪一个正在讲话的能力。Hershey等人尤其提及“有意思的是同步性由一些部位共同分享，例如，眼睛，它不会直接地对声音产生影响，但却有助于交流”。更具体地，Hershey等人表示面部的这些部位包括唇部都会对交流具有贡献。Hershey和Movellan没有表示他们的算法能够测量同步或者实现本发明的任何其他特征。他们再一次具体说明它们不能直接地对声音产生影响。在该参考文献中，算法仅仅根据特征的运动或者不运动而鉴别出是谁正在说话。

在另一篇论文中，M.Slaney和M.Covell(“FaceSync：A linear operatorfor measuring synchronization of video facial images and audio tracks”，可在www.slaney.org上获得)描述将本征点(Eigen Point)用于确定说话者的唇部，Yehia、Ruben、Batikiotis-Bateson提供的算法可以用于对相应的音频信号进行运算，以提供面部参照点(fiduciary point)的位置。接着，使用图像中类似的唇部参考点和Yehia算法中的参考点来进行比较，以确定唇形同步。Slaney和Covell继续描述了在“最优化线性检测器”中对该比较进行优化，该最优化线性检测器“等效于维纳滤波器，它将来自所有像素的信息进行组合以测量音频-视频同步”。尤其提及在脸部同步算法(FaceSyncalgorithm)中“使用来自所有像素的信息”，因而由于从明显无关的像素中提取信息而降低了效率。进一步地，算法要求对特定的已知面部图像使用训练(training)，并且进一步地描述为“依赖于训练和测试数据大小”。此外，尽管Slaney和Covell提供了其算法的数学解释，但是他们没有给出实施或者运算该算法来完成唇形同步测量的具体方法。重要地是，Slaney和Covell方法依赖于面部参照点，例如嘴角和唇上的点。

同样，Silver的美国专利5,387,943描述了一种要求由操作者鉴别口部的方法。并且，上述类似的美国专利No.5,572,261利用了视频的唇部运动。这些参考资料中的任何一个都仅仅关注于纯粹的唇部运动。在任何一个这些公开的方法中，都没有考虑唇部的其他特征或其他面部部位，例如，唇部的形状。尤其，在这些参考资料中，没有检测或者考虑空间的唇部形状，仅仅只有打开和闭合的运动。

人类声音的最重要的知觉方面是音调、响度、音质和定时(与速度和节奏有关)。一般认为这些特征或多或少地彼此独立，并且认为它们分别与声学信号的基本频率f₀、振幅、频谱包络(spectral envelope)以及时间变化有关。不幸地是，当尝试传统的语音识别技术和同步技术时，它们受到个体说话特征很大地影响，例如，低或高的语音音调、口音、音调调整和难于识别、量化或者鉴别的其他语音特性。

应该看出，消除或者至少降低不同说话者的与语音特征有关的一个或者更多影响将是有益的。因此，本领域需要一种解决不同说话者语音特征的改进的视频和音频同步系统。正如将会看到的那样，本发明以一种优质方法达到了这个目标。

发明内容

通过本文中所述的方法、系统以及程序产品消除现有技术的缺陷。

本发明提供对在信号的视频部分中传送的图像与例如音频信号等关联信号中的特征进行直接的比较。更具体地，公开了一种用于测量音频视频同步的方法、系统和程序产品，其独立于说话者的具体特征，无论是音调深沉的说话者，例如高大的男人，还是音调高的说话者，例如娇小的女人。在一个实施方案中，本发明涉及测量唇部的形状以考虑由该形状产生的元音和其他音调(tone)。与仅仅考虑打开或闭合运动的传统方法不同，本发明考虑唇部的形状和运动，实质上通过视频特征而提供所讲单词的音频和视频同步的改进精确度。此外，与仅仅考虑打开或闭合运动的传统方法不同，本发明考虑形状，并且也可以考虑唇部的运动。因此，根据本发明配置的系统可以降低或消除与不同说话者有关的语音特征的一个或更多影响。

尽管以用于同步关于人类说话者的音频和视频的优选实施方案描述本发明，应该理解，其应用并不受限于此，并且可以用于定时和鉴别的特定特征期望定位和/或鉴别的任何声音源。本发明可以用于的这种非人类声音源的仅仅一个实施例是计算机产生的语音。

发明人引入术语音频和视频MuEv(Audio and Video MuEv，参照美国专利申请20040227856)。MuEv是相互事件(Mutual Event)的缩写，意指发生在图像、信号或者数据中的充分唯一的事件，其可以伴随着关联信号中的另一个MuEv。这样两个MuEv有例如音频和视频MuEv，其中，某个视频品质(或序列)对应于唯一且匹配的音频事件。

本发明提供对在信号的视频部分中传送的图像与例如音频信号等关联信号中的特征进行直接的比较。更具体地，公开了一种以独立于说话者的个人语音特征的方式测量音频视频同步的方法、系统和程序产品。

通过以下步骤进行实施：首先从输入音频-视频信号中采集音频和视频MuEv，并将它们用于校准音频视频同步系统。MuEv采集和校准阶段之后，分析音频信息，并分析视频信息。由此，从音频和视频信息中计算音频MuEv和视频MuEv，并将音频和视频信息分类为元音音素(vowelsound)，包括但不限于AA、EE、OO(两个大写字母分别表示元音a、e和o的声音)、无声以及其他未分类音位(phoneme)。将这种信息用于确定主要音频类别，并使得主要音频类别与一个或更多对应的视频帧相关联。确定匹配位置，并确定视频和音频的偏移量。简单说明的实施例是可以将音素EE(音频MuEv)鉴别为出现在音频信息中并匹配至对应的图像特征，例如形成与发出元音EE有关的形状的唇部(视频MuEv)，从而测量其相对定时(relative timing)，或者将其用于确定或纠正唇部同步误差。

本发明提供对在信号的视频部分中传送的图像与例如音频信号等关联信号中的特征进行直接的比较。更具体地，公开了一种用于测量音频视频同步的方法、系统和程序产品。通过以下步骤进行实施：首先通过接收音频视频信息将数据采集进音频视频同步系统。可以采取数据采集时间随后用于确定相对的音频和视频定时的方式来执行数据采集。在这点上，优选地，同时捕获音频和视频数据，并将其存储在已知位置的存储器上，使得有可能简单地通过参考该已知的存储器位置而从存储器中再调用(recall)最初时间一致的音频和视频。从存储器中再调用可以同时针对音频和视频，或者按照需要以有利于处理。然而，可以使用采集、存储和再调用数据的其他方法，并且可以进行调整以适应本发明的具体应用。例如，当没有中间存储器的情况下捕获数据时，可以对数据进行分析。

优选地，数据采集之后，分析捕获的音频信息，并分析捕获的视频信息。由此，从音频和视频信息中计算声门脉冲，并将音频和视频信息分类为包括AA、EE、OO、无声以及其他未分类音位的元音音素。将这种信息用于确定并关联视频帧中的主要音频类别。确定匹配位置，并确定视频和音频的偏移量。

本发明的一个方面在于一种用于测量音频视频同步的方法。该方法包括以下步骤：首先接收例如电视节目的视频部分及关联的音频部分；分析音频部分，以在其中定位特定音位的呈现；以及还分析视频部分，以在其中定位特定视位(viseme)的出现。接着，分析音位和视位，以确定相关音位及其视位的相对定时，并定位muev。

本发明的另一方面在于一种通过以下步骤测量音频视频同步的方法：接收视频信息和关联的音频信息，分析音频信息以定位特定声音的呈现，并且分析视频信息以定位对应于特定声音形成的唇部形状的呈现，以及将特定声音的位置与对应的唇部形状的位置进行比较，以确定音频和视频的相对定时，例如muev。

本发明的再一方面在于一种测量音频视频同步的方法，其包括以下步骤：接收电视节目的视频部分和关联的音频部分，以及分析音频部分以定位特定元音音素的呈现，同时分析视频部分，以定位对应于发出特定元音音素的唇部形状的呈现，以及分析在步骤b)中定位的元音音素的出现和/或位置和步骤c)的对应唇部形状的位置，以确定其相对定时。本发明还分析对于说话者唯一的个人语音特征的音频部分，并将其过滤掉。因此，实质上可以标准化与给定视频帧相关的口语语音的音频表示(audiorepresentation)，其中，实质上过滤掉说话者语音的个人特征。

本发明提供了用于识别和定位muev的方法、系统和程序产品。如本文中所使用，术语“muev”是相互事件(MUtual EVent)的缩写，意指发生在图像、信号或者数据中的充分唯一的事件，其可以伴随着关联信号中的另一个MuEv。因此，图像muev具有匹配关联信号中的muev的可能性。例如，对于球棒击打棒球，音频信号中球棒击打的声音是一个muev，球棒的摆动是一个muev，并且球立即地改变方向也是一个muev。显然，每个muev具有在时间上匹配其他muev的可能性。通过在图像的一个或几个受限区域中寻找运动尤其是快速运动，即，抛球的投手和击球的击球手，来实现视频muev的检测，而图像的剩余部分是静止的。在音频中，可以通过寻找短促的、敲击的声音，这些声音在时间上与其他短促的敲击音隔离，来检测球棒的击打声。本领域的普通技术人员应该从这些教导中认识到，其他muev可以在关联信号中鉴别并可以用于本发明。

附图说明

附图中示出了本发明的各种实施方案和范例。

图1为执行本发明的方法的系统的概图；

图2示出了本发明的框图，其中，图像通过视频信号传送，并且关联信息通过关联信号和同步输出传送；

图3示出了与传送图像的视频信号和传送关联信息的音频信号一起使用的本发明的框图；

图4为示出本发明的方法的“数据采集阶段”的流程图，“数据采集阶段”还称为“A/V MuEv采集和校准阶段”。

图5为示出本发明的方法的“音频分析阶段”的流程图；

图6为示出本发明的方法的视频分析的流程图；

图7为示出还被称为声门脉冲(Glottal Pulse)的音频MuEv的推导和计算的流程图；

图8为示出本发明的方法的测试阶段的流程图；

图9为示出还被称为声门脉冲的音频MuEv的特性的流程图；以及

图10为示出根据本发明的从音频/视频表现的音频部分中去除个人语音特征的处理的流程图。

具体实施方式

本发明的优选实施例具有图像输入、提供图像相互事件的图像相互事件鉴别器、以及关联信息输入、提供关联信息相互事件的关联信息相互事件鉴别器。图像相互事件和关联信息相互事件适当地连接至比较运算，该比较运算将两种类型的相互事件进行比较而确定其相对定时。在本发明的具体实施方案中，可以关于传送图像或关联信息的方法来标注相互事件，或者关于图像或者关联信息的性质来标注相互事件。例如，视频相互事件、亮度相互事件、红色相互事件、色度相互事件以及亮度(luma)相互事件是一些类型的图像相互事件，而音频相互事件、数据相互事件、重量相互事件、速度相互事件以及温度相互事件是通常使用的一些类型的关联相互事件。

图1示出了本发明的优选实施方案，其中，视频传送图像和传送关联信息的关联信号。图1具有视频输入1、具有相互事件输出5的相互事件鉴别器3、关联信号输入2、具有相互事件输出6的相互事件鉴别器4、具有输出8的比较7。

运行时，视频信号1连接至图像相互事件鉴别器3，图像相互事件鉴别器3运行来比较视频的多幅图像帧，以识别由视频信号传送的图像中的元素的运动(如果存在)。通常用于视频压缩例如MPEG压缩的运动向量的计算对于该项功能是有益的。有益的是放弃仅仅表示少量运动的运动向量，并仅仅使用按照图片高度5％或更多的次序表示有效运动(significantmotion)的运动向量。当检测到这种运动时，针对该运动来检查相关的剩余部分的视频信号运动，以确定它是否是可能在关联信号中具有对应muev的事件。

在5处产生表示视频场或帧中存在相互事件的相互事件输出，在该样例中，存在可能在关联信号中具有对应相互事件的运动。在优选形式中，期望针对每一个帧输出二进制数，该数表示相互事件的数目，相互事件就是在该帧中相对于前一帧运动的小区域单元，而该帧的剩余部分保持相对静止。

可以注意到，虽然将视频表示为将图像传送至图像相互事件鉴别器3的优选方法，但是也可以利用其他类型的图像传送，例如，文件、软件包、数据等，因为本发明的操作并不受限于传送图像的具体方法。为了针对特定视频信号或者由视频信号传送的特定类型的期望图像来最优化本发明，还可以使用其他类型的图像相互事件。例如，单独地或者结合起来利用具体区域中的亮度变化、视频信号包络的变化、承载图像的视频信号的频率或能含量(energy content)的变化以及视频信号性能的其他变化，来产生相互事件。

关联信号2连接至相互事件鉴别器4，相互事件鉴别器4配置成确定关联信号中关联信号相互事件的出现。当确定相互事件出现在关联信号中时，在6处提供相互事件输出。优选地，相互事件输出为二进制数，该二进制数表示已经出现在关联信号2的连续片断(segment)中的相互事件的数目，且更具体地，该片断是在长度上与用于输出运动信号数目5的视频信号1的场或帧周期对应的片断。该时间周期可以从运动鉴别器3经由适当连接9连接至相互事件鉴别器4，本领域的普通技术人员将由本文的描述而了解。可选地，出于该目的或其他目的，如当前的这些教导所了解，视频1可以直接地连接至相互事件鉴别器4。

可以注意到，虽然将信号表示为将关联信息传送至关联信息相互事件鉴别器4的优选方法，但是由于本发明的操作并不受限于传送关联信息的具体方法，也可以利用其他类型的关联信息传送，例如，文件、软件包、数据等。在图1的优选实施例中，由于信号对于传送的优选用途，关联信息还被称为关联信号。类似地，关联信息相互事件还称为关联信号相互事件。关联信号中相互事件的检测会很大程度上依赖于关联信号的属性。例如，可能出现在图像中的由设备提供的或者响应于设备而提供的数据，例如由用户输入至柜员机(teller machine)的数据，可以是优良的相互事件。如以下所讨论，可能与运动相关的音频特性是优良的相互事件。作为其他样例，单独地或者结合起来使用关联信号的具体区域中的变化、信号包络的变化、信号的信息、频率或能含量的变化以及信号性能的其他变化，来产生相互事件。在以下本发明的详细实施方案中，将提供对具体信号类型中的相互事件进行鉴别的更多详情。

因此，对于作为视频场或帧周期而传送的每幅图像，在5处出现一个相互事件输出，并且在6处出现一个相互事件输出。因为在该优选实施方案中将视频作为传送图像的方法，所以图像相互事件输出还被称为视频相互事件，并且关联信号相互事件输出适当地连接至比较7，比较7的作用在于根据滑动时标确定两个输出的最佳匹配。在优选实施方案中，比较优选地为确定两个信号之间的最佳匹配和两个信号之间的相对时间的相关性(correlation)。

发明人实施AVSync(Audio Video Sync detection，音频视频同步检测)基于对Muev的鉴别，例如，元音音素、无声以及辅音音素，优选地，包括至少三个元音音素和无声。示例的元音音素为三个元音音素：/AA/、/EE/和/OO/。本文中所述的算法假设在其最终实施中说话者独立。

第一阶段是图4中大致示出的初始数据采集阶段，还称为音频/视频MuEv采集和校准阶段。在初始数据采集阶段，实验数据用于产生判别边界并建立音位的分割音频区域，即，音频MuEv的/AA/，/00/，/EE/。本发明不限于仅仅三种元音，其可以拓展至包括其他元音或者音节，例如“lip-biting”、“V”和“F”等。

同时，产生对应的视位(viseme)，即视频MuEv，以确立不同的视频区域。

这些稍后在AVI分析期间进行使用，在音频和视频流中识别这些元音的位置。通过分析音频中元音位置和对应的视频帧中检测的元音，估计音频-视频同步。

除了音频-视频MuEv匹配之外，还检测音频和视频中的无声中断(silence break)，并且无声中断用于确定A/V同步的程度。

AVI分析期间，在音频和视频流中识别这些元音的位置。通过分析音频中的元音位置和对应的视频帧中检测的元音，估计音频-视频同步。

除了音位-视位匹配之外，可以检测音频和视频中的无声中断，无声中断还用于确定A/V同步的程度。

下一步骤为如图5中所示的音频MuEv分析和分类以及如图6中所示的视频MuEv分析和分类。音频MuEv分类基于声门脉冲分析。在图5中所示并详细描述的声门脉冲分析中，收集音频采样，并计算非无声区域中的来自音频采样的声门脉冲。针对每个声门脉冲周期，计算平均值(theMean)以及第二个矩(the Second Moment)和第三个矩(the Third Moment)。这些矩被集中并围绕平均数进行归一化。将矩绘制成分布图。提取分隔大部分元音类别的判别边界，并将其存储为用于音频分类的参数。

在图6中所示并详细描述的音频分析和分类的实质上并行的阶段，通过使用面部检测器和唇部跟踪器提取每个音频帧的唇部区域。优选地，归一化亮度值以去除任何照明影响。唇部区域被划分成子区域，典型地为三个子区域：内部、外部和相异区域。内部区域通过从外部唇部区域的整个四边中除去大约25％的像素而形成。外部唇部区域和内部区域的差异被看作相异区域。计算所有三个区域的平均值和标准偏差。认为这些区域的平均值/标准偏差是说话者元音的视频测量，因此形成相应的视频MuEv。注意，该视频MuEv实质上基于外部、内部和相异区域，而外部、内部和相异区域实质上基于唇部形状，而不是纯粹的唇部运动。利用寻找视频MuEv的本方法配置的系统能够找到比传统系统更多的MuEv，传统系统一般是一种严格基于运动的系统。例如，对于出现形状的每一帧，可以识别对应于说话者元音音素“EE”的唇部形状。通过比较，使用仅仅利用唇部运动来确定EE音素的系统会需要几个帧才能找到，因为需要这几帧中这种唇部运动的冗余测量来确定唇部正在发出哪种声音。根据本发明，考虑唇部的形状实质上减少了确定说话者正在发出的声音所需要的帧的数量。同样，根据本发明，描述了系统可以识别出唇部形状所采用的方式的具体教导。这些教导可以用于提供对于唇部正在发出的声音的实质上更快速的鉴别和更加精确的校准。

下一阶段，在图7中示出并更加详细描述了检测阶段。图7中所示的检测阶段的一个可能的实施为逐帧地处理检测数据。大量采样，例如大约450个或者更多的音频采样，用作音频窗口。对于超过一些片段例如80％的每个音频窗口，处理非无声数据以计算音频MuEv或者GP(声门脉冲)。对于音频MuEv或者GP采样，计算音频特征。出于该目的，使用多个音频帧的平均频谱值，例如具有10％移位的10个或者更多连续音频帧。将这些分类成元音音素，例如，/AA/、/OO/、/EE/，以及其他元音音素、辅音音素和“F”和“V”音素。对于具有超过两个相同的连续分类的所有这些采样，检查对应的视频帧。计算用于该帧的视频特征，并将其分类为对应的视频MuEv。通过分析这些数据而校验同步。

在如图8中所示并进行更加详细描述的检测阶段，确定视频帧中主要的音频类别，并将其关联至视频帧以确定MUEV。该步骤通过定位匹配位置以及估计音频和视频的偏移量而完成。

图4中示出了在具有输入音频和视频信息的音频视频同步系统中采集数据的步骤，即，音频/视频MuEv采集和校准。数据采集包括以下步骤：接收音频视频信息201，分别提取音频信息和视频信息203，分析音频信息205和分析视频信息207，以及从其中恢复音频和视频分析数据。存储音频和视频数据209并再次使用。

分析数据包括以下步骤：由音频数据绘制出音频矩的分布图211，划定音频判别边界并存储随之产生的音频判别数据213，由视频数据绘制视频矩的分布图215，以及划定视频判别边界217并存储随之产生的视频判别数据219。

通过例如图5中所示的方法分析音频信息。该方法包括以下步骤：接收音频流301，直到捕获的音频采样的片段达到阈值303。如果捕获的音频的片段达到阈值，确定捕获的音频采样的音频MuEv或声门脉冲307。下一步骤计算一个移位(shift)之内的音频MuEv或声门脉冲大小的连续音频数据组的快速傅立叶变换。该步骤通过以下处理进行：计算快速傅立叶变换的平均频谱311，接着计算声门脉冲的快速傅立叶变换的频谱的音频统计313；并返回音频统计。检测的音频统计313包括一个或更多的集中的或者归一化的M1(平均值)、M2B AR(第二个矩)、M3BAR(第三个矩)。

如图7所示，通过包括以下步骤的方法，从音频和视频信息中计算音频MuEv或者声门脉冲，以找出捕获的音频采样的音频MuEv或声门脉冲。该方法包括：接收3N个音频采样的步骤501，以及对于i＝0至N个采样，执行以下步骤：

i)确定N+1个音频采样的快速傅立叶变换，步骤503；

ii)计算前四个奇次谐波的和，S(I)，步骤505；

iii)找出具有最大变化率的S(I)的局部最小值，S(K)，步骤507；以及

iv)计算音频MuEv或者声门脉冲，GP＝(N+K)/2，步骤509。

通过包括以下步骤的方法实现如图6所示的视频信息的分析：接收视频流并从视频帧获取视频帧401，在视频帧中找出面部的唇部区域403，以及如果视频帧为无声帧，接收随后的视频帧405。如果视频帧不为无声帧，优选地，定义面部的内部和外部唇部区域407，计算面部的内部和外部唇部区域的平均值和方差409，并计算唇部的宽度和高度411。该方法提供了不依赖于运动的基于空间的MuEv。再次注意，所有这种基于空间的信息可以源于视频的单个帧甚至单个场。因此，与传统的唇部运动的基于运动的(时间)分析相比，实质上增加了快速地找出很多基于空间的视频MuEv的潜力。但是，这并不是说基于运动的MuEv是无用的，而是说如果需要，可以单独地或者结合基于空间的MuEv来使用它们。在处理过程的最后，返回视频特征，并接收下一帧。

通过如图8中所示的方法，确定并关联视频帧中的主要音频类别，定位匹配的位置，并估计音频和视频的偏移量。该方法包括以下步骤：接收音频和视频信息流601，重新获取(retrieve)单个音频和视频信息602，分析音频信息605和视频信息613，以及分类音频信息607和视频信息615。接着，过滤音频信息609和视频信息617，以清除随机出现的类别，以及将最主要音频类别与对应视频帧关联611，找出匹配位置619，并估计异步偏移量(asynchronous offset)621。

将音频和视频信息分类为至少包括AA、EE、OO、无声和未分类音位的元音音素。该步骤不排除其他元音音素，也不排除辅音音素。

本发明的又一方面在于一种用于实现上述测量音频视频同步的方法的系统。其通过包括以下步骤的方法实现：音频视频同步系统的初始A/VMuEv采集和校准阶段，因而建立有关音频和视频MuEv的相关性，以及分析阶段，所述分析阶段包括：采集输入音频视频信息，分析音频信息，分析视频信息，由音频信息和视频信息计算音频MuEv和视频MuEv；以及确定和关联视频帧中的主要音频类别，定位匹配位置，以及估计音频和视频的偏移量。

本发明的再一方面在于包括一种用于测量音频视频同步的计算机可读代码的程序产品。其通过包括以下步骤的方法实现：音频视频同步系统的初始A/V MuEv采集和校准阶段，因而建立有关音频和视频MuEv的相关性，以及分析阶段，所述分析阶段包括：采集输入音频视频信息，分析音频信息，分析视频信息，由音频信息和视频信息计算音频MuEv和视频MuEv；以及确定和关联视频帧中的主要音频类别，定位匹配位置，以及估计音频和视频的偏移量。

本发明可以通过诸如以下各种装置作为软件应用程序(如操作系统元素)、专用处理器或者具有专用代码的专用处理器实施：接收视频信号和关联信号的装置、识别音频-视频事件并将视频信号和关联信号音频-视频事件进行比较以确定相对定时的装置。软件执行一系列还可以称为代码的机器可读指令。这些指令可以存储在各种类型的承载信号的介质中。在这点上，本发明的一个方面涉及一种程序产品，包括承载信号的介质或者可触摸地包含机器可读指令的程序的承载信号的介质，其可由数字处理设备执行以实现以下方法：接收视频信号和关联信号，识别音频-视频事件，并比较视频信号和关联信号音频-视频事件，以确定相对定时。

该承载信号的介质可以包括例如服务器中的存储器。服务器中的存储器可以为非易失性内部存储器、数据盘、或者甚至用于下载至处理器以进行安装的卖方服务器上的存储器。可选地，可以在承载信号的介质中例如光学数据存储盘中包含指令。可选地，指令可以存储在任何种类的机器可读数据存储介质或多个介质上，其可以包括例如：“硬驱”、RAID阵列、RAMAC、磁性数据存储磁盘(例如软盘)、磁带、数字光带、RAM、ROM、EPROM、EEPROM、快闪存储器、点阵或三维阵列类型光学存储器、磁光存储器、纸穿孔卡片(paper punch card)或者任何其它合适的承载信号的介质，包括传输介质，例如数字和/或模拟通信链路，可以为电子、光学和/或无线的。作为样例，机器可读指令可以包括由诸如“C++”等语言编译的软件对象代码。

此外，例如，可以将程序代码压缩、加密或既压缩又加密，并且程序代码可以包括可执行文件、脚本文件和用于安装的向导，如采用Zip文件和cab文件。如本文中所使用，术语存储在承载信号的介质之中或之上的“机器可读指令”或“代码”包括以上所有的传送装置。

音频MuEv(声门脉冲)分析。所述的方法、系统和程序产品基于声门脉冲分析。声门脉冲的概念因为缺少其他语音分析和变换方法而产生。具体地，现有技术中主要的语音变换方法大部分处理语音的频谱特征。

然而，频谱分析的一个缺点在于不能够在频谱域内完整地处理语音的源特性。语音的源特性影响说话语音质量，其定义语音是否具有语气(正常)的、强调的、带呼吸声的、吱吱嘎嘎声的、刺耳的或者轻声的品质。语音的质量受到声带的外形长度、厚度、质量和压力的影响，以及受到脉冲流动的量和频率的影响。

完整的语音变换方法需要包括源特性的映射。时间域内语音质量特性(还称为声门脉冲)比频率域更加明显。通过估计时间域内的声门脉冲的形状，开始用于获取声门脉冲的一个方法。对声门脉冲的估计提高了源和声道(vocal tract)去卷积(deconvolution)及共振峰估计和映射的精度。

根据声门脉冲分析的一种方法，多个参数，喉部参数，用于描述声门脉冲。参数基于图9中所示的LF(Liljencrants/Fant)模型。根据LF模型，声门脉冲具有两个主要的独特时间特性：打开系数(open quotient)(OQ＝T_c/T_o)是声带保持打开的每个周期的片段，脉冲的斜率或者速度商(a＝T_p/T_c)是打开阶段的打开状态的持续时间T_p与声带闭合(fold)的打开阶段的整个持续时间T_c的比值。为了完成声门流(flow)的描述，包括音调周期T_o、闭合率(RC＝(T_c-T_p)/T_c)和数量(AV)。

LF模型的5个参数的估计要求估计声门闭合瞬间(glottal closureinstant，GCI)。GCI的估计使用以下事实：最小相位信号的平均组延时值与信号开始和分析窗口开始之间的移位成比例。在两个一致的瞬间，平均组延时值为零值。分析窗口长度设置成仅仅稍微大于对应音调周期的值。其在时间上移位信号内的一个采样，并且每次提取LPC剩余的未展开的相位谱。对应于分析窗口的开始的平均组延时值由线性回归拟合(regression fit)的斜率找出。随后的过滤不影响信号的时间性质，但是消除可能会产生伪零相交的涨落(fluctuation)。因此，在平均延时的正斜率期间GCI是零相交瞬间。

在估计GCI之后，通过将动态时间校正方法迭代应用到声门脉冲序列的估计而获取LF模型参数。经由LP反向滤波器而获取声门脉冲的初始估计。LP模型参数的估计基于利用与声门脉冲循环的闭合相位一致的零激发(zero-excitation)周期的音调同步方法。参数处理可以分划为以下两个阶段：

(a)LF参数的初始估计。从激发序列的初始估计的分析中获取每个参数的初始估计。当声门导数信号(glottal derivative signal)达到局部最小值时，参数T_e对应于该瞬间。参数AV为该瞬间信号的数量。参数T_p可以作为T_e左侧的第一个零相交进行估计。可以发现参数T_c是T_e右侧的第一个采样，其小于某个预置阈值。类似地，当信号小于某个阈值并且受限于打开系数的值时，可以将参数T_o估计为T_p左侧的瞬间。特别困难的是获得T_a的精确估计，所以简单地将其设置为2/3*(T_e-T_c)。在应用非线性优化技术之后，由于该简化导致的精度方面的损失仅仅是临时的，估计T_a是在闭合阶段期间的归一化频谱(由AV归一化)的数量。

(b)参数的受约束非线性优化。使用动态时变(dynamic time warping，DTW)方法。DTW对合成产生的声门脉冲与通过反向滤波获取的声门脉冲进行时间对准。对准的信号比建模的信号更加平滑，其定时特性不失真，但是没有出现在合成信号中的短期的或者其他时间的涨落。因为对准的信号可以将估计的声门脉冲替换为可以由其估计LF参数的新模板，所以可以迭代地使用该项技术。

在本发明的另一实施方案中，提供了一种音频同步方法，其提供了实质上独立于给定说话者的个人特征的音频输出。一旦产生输出，不管任何个别说话者特征，其实质上类似于任何数量的说话者。根据本发明，如此配置的音频/视频系统可以降低或者消除与不同说话者有关的语音特征的一个或更多的影响。

人类声音的最重要的知觉方面是音调、响度、音质和定时(与速度和节奏有关)。一般认为这些特性彼此或多或少地独立，并且认为它们分别与声音信号的基本频率f₀、振幅、频谱包络以及时间变化有关。

已经观察到一个人的个人音调f₀由个人身体共振(胸腔、喉、口腔)和一个人声带的长度决定。音调信息位于一个人语音的较低频谱中。根据本发明，新颖的方法关注于评估频率域中一个人的语音特征，接着消除最初的几个谐波或者整个较低频带。结果留下了由人类讲话器官产生的个体智能声音、音位的本质或谐波频谱。输出是独立于说话者个人特征的音频输出。

工作时，傅立叶变换和音频归一化的矩(moment)用于估计对振幅和时间变化的依赖性，因此进一步增强了语音识别方法。如下那样计算矩：

使f_i为傅立叶变换的第i个谐波，并且n为关于10ms数据的采样数，接着将第k个矩定义为：

m_{k} = \frac{Σ_{i = 0}^{n} i^{k} f_{i}}{Σ_{i = 0}^{n} f_{i}}

依比例决定i的值，使得其覆盖整个频率范围。在这种情况下，仅仅使用n中的m个(对应于6 KHz)频谱值。

将第k个(k＞1)中心矩定义为：

\overset{&OverBar;}{m_{k}} = \frac{Σ_{i = 0}^{n} (i^{k} - m_{1}) f_{i}}{Σ_{i = 0}^{n} f_{i}}

从上述等式，可以得到：

\overset{&OverBar;}{m_{2}} = m_{2} - {m_{1}}^{2}

\overset{&OverBar;}{m_{3}} = m_{3} - 3 m_{1} m_{2} + 2 {m_{1}}^{3}

考虑的其他矩为：

m_{20} = \frac{m_{2}}{m_{1}} - m_{1}

m_{23} = \frac{\overset{&OverBar;}{m_{3}}}{\overset{&OverBar;}{m_{2}}}

m_{24} = \frac{\overset{&OverBar;}{m_{23}}}{\sqrt{\overset{&OverBar;}{m_{2}}}}

参照图10，示出了根据本发明的方法的一个实施方案。图10中所示的过程在步骤1000开始。处理在步骤1002处开始，在其中重新获取音频采样，例如在该步骤中为10毫秒，并且在步骤1004中计算DFT和振幅。在步骤1006中，从步骤1002中采样的最后帧的开始，将音频指针移位一增加值，如本实施例中的0.5毫秒。由此，该循环重复预定次数，在该实施例中为10个循环，并且过程返回至存储器1018，包括具有音位的音频数据。再次，该循环重复10次，接着处理继续至步骤1008，其中，执行通过取立方根来平均频谱值和比例(scale)的过程。过程继续进行至步骤1010，其中，DC值、第一谐波和第二谐波减小。同样，对应于超过预定频率的频谱值也减小，预定频率在该实施例中为16 khz。过程继续进行至步骤1012，其中，针对M1 M2 BAR、M3 BAR、M20、M23和M24，计算归一化且集中的矩。在步骤1014中，M1按照1000的比例决定，而其他矩按照1,000,000的比例决定。在步骤1016中，从步骤1002到步骤1008中初始音频帧的第一个音频帧的开始，使音频指针移位一预定量的时间，如本实施例中的9毫秒。在步骤1020中，计算其他音位的矩。在步骤1022中，分割(segment)矩特征。处理在1024时结束。如本领域的技术人员所理解的，尽管结合图10描述了值和处理步骤，其与发明人的实施例相同，但是在不背离所附权利要求及其等效方案所限定的本发明的精神和范围的情况下，可以使用其他值。

对于用于唇部追踪以使得音频与视频同步的实施例，认为10ms音频的傅立叶变换的矩为音位特征。在一个实施例中，通过移位10％的采样而计算多于9组的傅立叶变换。这些傅立叶变换系数的频谱的平均值用于计算矩特征。当计算矩时，最初的三个频谱分量减少。利用10％的重叠获取下一组音频采样。接着，依比例决定矩，并成对地绘图。这种分割允许在两维矩空间中绘制出x/y曲线图。

尽管已经利用本文中作为实施例的各种特征和函数以优选实施方案对本发明进行了描述，本领域的普通技术人员应该认识到本发明可以用于各种其他实施方案和结构中，并且更具体地，可以适于在不背离本发明的精神和范围的情况下为期望的操作提供优选输入和输出。

Claims

1.一种用于测量音频视频同步的方法，所述方法包括以下步骤：

接收组合的音频和视频表现的视频部分和关联的音频部分；

分析所述音频部分以识别和过滤音频数据，从而减少与说话者个人语音特征有关的音频数据，进而产生过滤的音频信号；

分析所述过滤的音频信号，以在其中定位特定音位的出现；

分析所述视频部分，以在其中定位特定视位的出现；以及

分析所述音位和所述视位，以确定有关的音位及其视位的相对定时。

2.一种用于测量音频视频同步的方法，其包括：

接收视频和关联的音频信息；

分析所述音频信息，以在其中定位与说话者的个人语音特征有关的声音的出现；

去除与说话者的个人语音特征有关的数据，以产生过滤的音频表示；

分析所述过滤的音频表示，以识别特定声音；

分析所述视频信息，以在其中定位与所述特定声音的形成对应的唇部形状的出现；以及

将定位的特定声音的位置与对应的唇部形状的位置进行比较，以确定其相对定时。

3.一种用于测量音频视频同步的方法，其包括：

接收电视节目的视频部分和关联的音频部分；

分析音频信息，以在其中定位与说话者的个人语音特征有关的声音的出现；

分析所述过滤的音频部分，以在其中定位特定元音音素的出现；

分析所述视频部分，以在其中定位与发出特定元音音素对应的唇部形状的出现；以及

分析在步骤d)中定位的元音音素的出现和/或位置和步骤e)的对应的唇部形状的位置，以确定其相对定时。

4.一种测量音频视频同步的方法，其包括：

将输入音频视频信息采集进音频视频同步系统中；

分析所述过滤的音频信息；

分析所述视频信息；

从所述音频和视频信息中计算音频MuEv和视频MuEv；以及

确定并关联视频帧中的主要音频类别，定位匹配位置，以及估计音频和视频的偏移量。

5.根据权利要求4所述的方法，其中，将输入音频视频信息采集进具有输入音频视频信息的音频视频同步系统中的所述步骤包括以下步骤：

接收音频视频信息；

分别提取所述音频信息和所述视频信息；

分析所述音频信息和所述视频信息，并从其中恢复音频和视频分析数据；

存储所述音频和视频分析数据，并重复应用所述音频和视频分析数据。

6.根据权利要求5所述的方法，其包括：根据所述音频数据提供音频矩的分布图。

7.根据权利要求6所述的方法，其包括：提供音频判别边界并存储随之产生的音频判别数据。

8.根据权利要求5所述的方法，其包括：根据所述视频数据提供视频矩的分布图。

9.根据权利要求8所述的方法，其包括：提供视频判别边界并存储随之产生的视频判别数据。

10.根据权利要求7所述的方法，其包括：通过包括以下步骤的方法分析所述音频信息：

接收音频流，直到捕获的音频采样的片段达到一个阈值；

找出所述捕获的音频采样的声门脉冲；

计算在一个移位之内的声门脉冲大小的连续音频数据组的快速傅立叶变换；

计算所述快速傅立叶变换的平均频谱；

计算所述声门脉冲的快速傅立叶变换的频谱的音频统计；以及

返回所述音频统计。

11.根据权利要求10所述的方法，其中，所述音频统计包括所述傅立叶变换的一个或更多的集中且归一化的矩。

12.据权利要求11所述的方法，其中，所述音频统计包括所述傅立叶变换的一个或更多的集中且归一化的矩，包括M1(平均值)、M2BAR(第二个矩)和M3BAR(第三个矩)中的一个。

13.根据权利要求10所述的方法，其包括通过包括以下步骤的方法从所述音频和视频信息中计算所述声门脉冲，以找出所述捕获的音频采样的声门脉冲：

接收3N个音频采样；

对于i＝0至N个采样

i)确定N+1个音频采样的快速傅立叶变换；

ii)计算前四个奇次谐波的和，S(I)；

iii)找出具有最大变化率的S(I)的局部最小值，S(K)；以及

iv)计算所述声门脉冲，GP＝(N+K)/2。

14.根据权利要求4所述的方法，其包括通过包括以下步骤的方法分析所述视频信息：

接收视频流，并从其中获取视频帧；

在所述视频帧中找出面部的唇部区域；

如果所述视频帧为无声帧，将所述帧识别为无声，接着重新开始接收随后的视频帧；以及

如果视频帧不为无声帧，

定义面部的内部和外部唇部区域；

计算面部的内部和外部唇部区域的平均值和方差；

计算唇部的宽度和高度；以及

返回视频特征，并接收下一帧。

15.根据权利要求4所述的方法，其包括通过包括以下步骤的方法，确定并关联视频帧中主要音频类别，定位匹配位置，以及估计音频和视频的偏移量：

接收音频和视频信息流，

从其中重新获取单独的音频和视频信息；

分析所述音频和视频信息，并分类所述音频和视频信息；

过滤所述音频和视频信息，以去除随机出现的类别；

使得最主要音频类别与对应的视频帧相关联；

找出匹配位置；以及

估计异步偏移量。

16.根据权利要求15所述的方法，其包括：将所述音频和视频信息分类为包括AA、EE、OO、无声和未分类音位的元音音素。

17.一种用于通过包括以下步骤的方法测量音频视频同步的系统：

将输入音频视频信息捕获进音频视频同步系统中；

分析所述过滤的音频表示，以识别特定声音和无声；

分析所述视频信息；

从所述过滤的音频信息和所述过滤的视频信息中计算音频MuEv和视频MuEv；以及

18.根据权利要求17所述的系统，其中，将输入音频视频信息采集进音频视频同步系统中的所述步骤包括以下步骤：

接收音频视频信息；

分别提取所述音频信息和所述视频信息；

分析所述音频信息和所述视频信息，并从其中重新获取音频和视频分析数据；

19.根据权利要求18所述的系统，其中，所述系统根据所述音频数据绘制音频矩的分布图。

20.根据权利要求19所述的系统，其中，所述系统划定音频判别边界，并存储随之产生的音频判别数据。

21.根据权利要求18所述的系统，其中，所述系统根据所述视频数据绘制视频矩的分布图。

22.根据权利要求21所述的系统，其中，所述系统划定视频判别边界，并存储随之产生的视频判别数据。

23.根据权利要求20所述的系统，其中，所述系统通过包括以下步骤的方法分析所述音频信息：

接收音频流，直到捕获的音频采样的片段达到一个阈值；

找出所述捕获的音频采样的声门脉冲；

计算所述快速傅立叶变换的平均频谱；

计算所述声门脉冲的快速傅立叶变换的频谱的音频统计；以及返回所述音频统计。

24.根据权利要求23所述的系统，其中，所述音频统计包括所述傅立叶变换的一个或更多的集中且归一化的矩。

25.根据权利要求23所述的系统，其中，所述系统通过包括以下步骤的方法从所述音频和视频信息中计算所述声门脉冲，以找出所述捕获的音频采样的声门脉冲：

接收3N个音频采样；

对于i＝0至N个采样

确定N+1个音频采样的快速傅立叶变换；

计算前四个奇次谐波的和，S(I)；

找出具有最大变化率的S(I)的局部最小值，S(K)；以及

计算所述声门脉冲，GP＝(N+K)/2。

26.根据权利要求20所述的系统，其中，所述系统通过包括以下步骤的方法分析所述视频信息：

接收视频流，并从其中获取视频帧；

在所述视频帧中找出面部的唇部区域；

如果视频帧不为无声帧，

定义面部的内部和外部唇部区域；

计算面部的内部和外部唇部区域的平均值和方差；

计算唇部的宽度和高度；以及

返回视频特征，并接收下一帧。

27.根据权利要求20所述的系统，其中，所述系统通过包括以下步骤的方法，确定并关联视频帧中主要音频类别，定位匹配位置，以及估计音频和视频的偏移量：

接收音频和视频信息流，

从其中重新获取单独的音频和视频信息；

分析所述音频和视频信息，并分类所述音频和视频信息；

过滤所述音频和视频信息，以去除随机出现的类别；

使得最主要音频类别与对应的视频帧相关联；

找出匹配位置；以及

估计异步偏移量。

28.根据权利要求27所述的系统，其中，所述系统将所述音频和视频信息分类为包括AA、EE、OO、无声和未分类音位的元音音素。

29.一种包括通过包括以下步骤的方法测量音频视频同步的计算机可读代码的程序产品：

接收视频和关联的音频信息；

分析所述音频信息，以在其中定位声门事件的出现；

分析所述视频信息，以在其中定位对应于音频声门事件的唇部形状的出现；以及

分析在步骤d)中定位的声门事件的位置和/或出现以及步骤e)的对应的视频信息，以确定其相对定时。

30.一种包括通过包括以下步骤的方法测量音频视频同步的计算机可读代码的程序产品：

将音频视频输入信息采集进音频视频同步系统中；

分析所述音频信息；

分析所述视频信息；

从所述音频信息和所述视频信息中计算音频MuEv和视频MuEv；以及

31.根据权利要求30所述的程序产品，其中，将音频视频输入信息采集进音频视频同步系统中的所述步骤包括以下步骤：

接收音频视频信息；

分别提取所述音频信息和所述视频信息；

分析所述音频信息和所述视频信息，并从其中重新获取音频和视频分析数据；以及

32.根据权利要求30所述的程序产品，其中，将音频视频输入信息采集进音频视频同步系统中的所述步骤还包括以下步骤：根据所述音频数据提供音频矩的分布图。

33.根据权利要求32所述的程序产品，其中，将音频视频输入信息采集进音频视频同步系统中的所述步骤还包括以下步骤：提供音频判别边界，并存储随之产生的音频判别数据。

34.根据权利要求31所述的程序产品，其中，在音频和视频同步系统中分析音频和视频流还包括：根据所述视频数据提供视频矩的分布图。

35.根据权利要求34所述的程序产品，其中，在音频和视频同步系统中分析音频和视频流还包括：提供视频判别边界，并存储随之产生的视频判别数据。

36.根据权利要求30所述的程序产品，其中，在音频和视频同步系统中分析音频和视频流还包括：通过包括以下步骤的程序产品分析所述音频信息：

接收音频流，直到捕获的音频采样的片段达到一个阈值；

找出所述捕获的音频采样的声门脉冲；

计算所述快速傅立叶变换的平均频谱；

返回所述音频统计。

37.根据权利要求36所述的程序产品，其中，所述音频统计包括所述傅立叶变换的一个或更多的集中且归一化的矩。

38.根据权利要求36所述的程序产品，其中，在音频和视频同步系统中分析音频和视频流还包括：通过包括以下步骤的程序产品从所述音频和视频信息中计算所述声门脉冲，以找出所述捕获的音频采样的声门脉冲：

接收3N个音频采样；以及

对于i＝0至N个采样

确定N+1个音频采样的快速傅立叶变换；

计算前四个奇次谐波的和，S(I)；

找出具有最大变化率的S(I)的局部最小值，S(K)；以及

计算所述声门脉冲，GP＝(N+K)/2。

39.根据权利要求30所述的程序产品，其中，在音频和视频同步系统中分析音频和视频流还包括：通过包括以下步骤的程序产品分析所述视频信息：

接收视频流，并从其中获取视频帧；

在所述视频帧中找出面部的唇部区域；

如果视频帧不为无声帧，

定义面部的内部和外部唇部区域；

计算面部的内部和外部唇部区域的平均值和方差；

计算唇部的宽度和高度；以及

返回视频特征，并接收下一帧。

40.根据权利要求30所述的程序产品，其中，在音频和视频同步系统中分析音频和视频流还包括：通过包括以下步骤的程序产品，确定并关联视频帧中主要音频类别，定位匹配位置，以及估计音频和视频的偏移量：

接收音频和视频信息流，

从其中重新获取单独的音频和视频信息；

分析所述音频和视频信息，并分类所述音频和视频信息；

过滤所述音频和视频信息，以去除随机出现的类别；

使得最主要音频类别与对应的视频帧相关联；

找出匹配位置；以及

估计异步偏移量。

41.根据权利要求40所述的程序产品，在音频和视频同步系统中分析音频和视频流还包括：将所述音频和视频信息分类为包括AA、EE、OO、无声和未分类音位的元音音素。

42.一种通过包括以下步骤的方法从音频信号中计算声门脉冲以找出捕获的音频采样的声门脉冲的方法：

接收3N个音频采样；以及

对于i＝0至N个采样

确定N+1个音频采样的快速傅立叶变换；

计算前四个奇次谐波的和，S(I)；

找出具有最大变化率的S(I)的局部最小值，S(K)；以及

计算所述声门脉冲，GP＝(N+K)/2。

43.一种通过包括以下步骤的方法从视频信号中分析视频信息的方法：

接收视频流，并从其中获取视频帧；

在所述视频帧中找出面部的唇部区域；

如果视频帧不为无声帧，

定义面部的内部和外部唇部区域；

计算面部的内部和外部唇部区域的平均值和方差；

计算唇部的宽度和高度；以及

返回视频特征，并接收下一帧。

44.一种方法，通过包括以下步骤的方法确定并关联视频帧中主要音频类别，定位匹配位置，以及估计音频和视频的偏移量：

接收音频和视频信息流，

从其中重新获取单独的音频和视频信息；

分析所述音频和视频信息，并分类所述音频和视频信息；

过滤所述音频和视频信息，以去除随机出现的类别；

使得最主要音频类别与对应的视频帧相关联；

找出匹配位置；以及

估计异步偏移量。

45.根据权利要求14所述的方法，其包括：将所述音频和视频信息分类为包括AA、EE、OO、无声和未分类音位的元音音素。