CN103077734A

CN103077734A - 录制的音频信号的时间对准

Info

Publication number: CN103077734A
Application number: CN 201210358569
Authority: CN
Inventors: J.基尔希
Original assignee: Crown Audio Inc
Current assignee: Harman International Industries Inc; Crown Audio Inc
Priority date: 2011-09-23
Filing date: 2012-09-24
Publication date: 2013-05-01
Also published as: EP2573773A3; US20130077805A1; US9111580B2; BR102012024233A2; EP2573773A2; JP2013084334A

Abstract

本发明公开了用于时间对准第一媒体信号和第二媒体信号的系统和方法。所述第一媒体信号和所述第二媒体信号可以是经过录制用于组合为一个音频性能或音视频录制的音频部分的音频信号。所述系统检索所述音频信号作为使用共同采样率所生成的数字样本。所述系统包括用于减小所述第一信号与所述第二信号之间的初始未对准的至少一个粗对准函数。所述粗对准函数可以被配置来生成粗移位的第二信号。精对准函数通过执行所述第一信号与所述粗移位的第二信号之间的互相关而确定所述粗移位的第二信号与所述第一信号之间的对准时移。

Description

录制的音频信号的时间对准

技术领域

本发明涉及用于处理媒体文件的系统和方法，且更特定来说涉及用于对准来自相同声源的不同录制的信号的系统和方法。

背景技术

舞台上的场景或表演的音频和视频录制例如通常涉及在与舞台相隔一段距离之处录制视频以确保可见到整个场景。这使摄影机上的麦克风难以获得质量良好的音频。摄影机上的麦克风可以拾取人群噪声、风噪声、HVAC/建筑噪声、交通噪声，且可能对过多的高频回响和吸收更敏感。此外，摄影机上的麦克风可能质量不够好。使用位于声源附近的麦克风理想地录制音频以减小拾取环境中的所提及噪声的机会。特定声源上的个别麦克风（举例来说，例如一支乐队中的每个乐器）可以进一步减小对噪声的敏感性。在音乐会的背景下，为了加强由摄影机上的麦克风所拾取的音频的目的，舞台通常在舞台地板上局部配备有音频拾音器，或音频拾音器从舞台上方的天花板上悬挂下来。在生成最终音频中，从近场麦克风所录制的音频信号可以优于来自摄影机麦克风的音频，或与摄影机麦克风音频混合，可以通过带通滤波、衰减和合计到近场麦克风音频以提供最终音频混合的临场感而受处理。

混合相同场景的音频信号录制与视频信号录制的一个问题是信号本质上是不同步的。混合信号需要信号对准。例如，在涉及对白的场景中，音频应当与视讯对准使得音频不会落后于人物说话的视频描绘，或反之亦然。高端录制系统使用SMPTE时间代码时间戳记和使不同的音频信号同步。这时间戳记对消费层面的设备不是一直有效。可以在录制期间使用近场麦克风与摄影机之间的电缆线路或无线链路使音频同步。然而，在录制期间同步需要在录制通常未完成前就进行规划和设定。

可以使用麦克风作为一个音频和视频源且近场麦克风作为另一源的摄影机进行录制。接着可以使用编辑工具将音频的第二源集成到视频录制中。这些编辑工具包括例如Roxio Creator^TM和Sony Vegas^TM。使用编辑工具将来自第二源的音频与视频录制集成在一起通常是一项需要编辑者以正确对准方式将音频手动定位在视频中的费劲任务。即便曾正确对准，但是音频可能由于两个录制之间的漂移而导致甚至仅在播放一分钟后就慢慢变得未对准。

录制之间的漂移可能是由于来自不同录制器的时钟彼此频率稍有不同。漂移也有可能是由于音频编解码器具有可能不会以相同准确度保留绝对时间的可变比特率。漂移的另一原因可能是由于在录制表演期间摄影机有所移动。近场麦克风信号与摄影机音频信号将要混合时的漂移效应大于单个音频信号（即，如果近场麦克风信号替换远场麦克风信号）保存在最终文件中的情况下的漂移效应。由于混合信号随着时间而远离彼此漂移得更远，所以和数可以被声音梳过滤，接着回响，接着过度回响，且接着具有不连续的回波。对于单个信号来说，回响和回波可能不算问题，然而视频与音频之间的唇音同步会在播放期间变得较差。

已在来自放置在与场景相隔一段距离之处的摄影机的录制和来自放置在场景附近的麦克风的音频录制的背景下描述对准来自一个声源的音频录制与来自另一声源的相同场景的视频或音频录制的难度。例如当将声音录制在影片场景上并在演播室中重录对白以使之包括在最终影片中时出现类似问题。称作自动对白替换（ADR）的这个过程用来使对白更易理解（具噪音更少和回响较少），以将对白转译成外语或者删除或替换原始对白中的亵渎语言。替换音频录制可能不是与场景的视频录制同期的录制。然而，当混合音频与最初录制的视频时出现对准问题，出于本描述的目的可以视为被混合的录制的相同场景。在可能不涉及视频录制的其它应用或方案中，可能出现对准音频信号的问题。

在流式传输媒体信号的背景下，也可能出现对准问题。媒体信号的流式传输已变得无处不在，且可能在各种应用中出现对准问题。例如，高清（“HD”）无线电台广播包含相同内容的模拟传输和数字传输两者。广播装置尝试（且有时无法）手动对准这些传输。而接收器（即，收听者的无线电接收单元）没有条件对准所述两个传输。天气和地形（例如小山和其它不规则表面）可能导致损失数字信号，此时接收器恢复为接收模拟信号。数字信号可以渐强渐弱使得接收器在模拟信号与数字信号之间来回切换。如果模拟信号和数字信号未对准，那么来回接收产生恼人的收听体验。

需要更容易和可靠地对准使用不同源拍摄相同场景的音频录制的方法。

发明内容

本发明公开用于时间对准第一媒体信号和第二媒体信号的系统和方法。所述第一媒体信号和所述第二媒体信号可以是经过录制用于组合为一个音频性能或音视频录制的音频部分的音频信号。所述音频信号可以是从不同源对相同表演的录制。所述系统检索所述音频信号作为使用共同采样率所生成的数字样本。所述系统包括用于减小所述第一信号与所述第二信号之间的初始未对准的至少一个粗对准函数。所述粗对准函数可以被配置来生成粗移位的第二信号。精对准函数通过执行所述第一信号与所述粗移位的第二信号之间的未对准估计而确定所述粗移位的第二信号与所述第一信号之间的对准时移。不同的粗对准函数可以用来减小所述信号之间的初始未对准，且用来减小实质未对准所要的处理和存储器资源的负载。

在检查下文图和详述时，本发明的其它器件、装置、系统、方法、特征和优点对所属领域技术人员来说将是显而易见的。希望所有这些额外系统、方法、特征和优点包括在本描述内，包括在本发明的范畴内，且受随附权利要求书保护。

附图说明

可以通过参考下文图而更佳地了解下文描述。图中的组件不必按比例绘制，而是重点阐释本发明的原理。在图中，相同参考数字指定在不同图各处的对应部件。

图1A是示出用于对准媒体文件的示例性系统的操作的示意图；

图1B是用于对准媒体文件的系统的实施例的方框图；

图2A是可以在图1B中所示的系统中使用的粗对准函数的实施例的方框图；

图2B至图2C是示出两个信号之间的相关性的结果的直方图的实施例；

图3A和图3B是可以在图1B中所示的系统中使用的粗对准函数的另一实施例的方框图；

图4是可以在图1B中所示的系统中使用的粗对准函数的另一实施例的方框图；

图5是可以在图1B中所示的系统中使用的精对准函数的实施例的方框图；

图6是示出用于对准媒体文件的方法的实施例的流程图。

具体实施方式

图1A是示出用于对准媒体文件的示例性系统100的操作的示意图。图1A中的系统100包括多媒体录制器102、舞台104和用于对准来自摄影机的媒体文件与来自舞台104的媒体文件的时间对准系统106。多媒体录制器102包括信号录制器110、摄影机112和摄影机麦克风114。可以由从对多媒体录制器102提供所要视野的位置录制舞台104上的场景或表演的视频的用户操作系统100中的多媒体录制器102。所述选定位置可能与舞台104相隔一段距离，其足以由于舞台104的环境（在124处）中的结构影响在多媒体录制器102处所录制的音频的质量而导致背景噪声或回响效应。信号录制器110录制舞台104上的表演并将所述表演的视频和音频录制存储为具有音频的视频文件。

一个或多个近场麦克风116a至116c可以位于舞台104上或非常接近舞台104。可以定位近场麦克风116a至116c以拾取舞台104上的表演的所要音频部分。所要音频可以传输到混合器118，混合器118可以被配置来将混合版本的所要音频传输到音频录制器120。混合器118可以用来以受控制方式组合从每个近场麦克风116a至116c所接收的音频信号。音频录制器120使用混合版本的所要音频生成舞台104上的表演的音频部分的音频录制或音频文件。

在示例性实施方式中，可以在后处理来自在舞台104附近的近场麦克风116a至116c处所录制的表演的音频部分的音频文件中混合具有音频的视频文件。在近场麦克风116a至116c处所录制的表演的音频部分的质量可以基本上高于由多媒体录制器102所录制的音频的质量，且更适于被处理用于播放。从不受影响多媒体录制器102的音频录制的环境条件124支配的位置录制在近场麦克风116a至116c处所录制的表演的音频部分。在混合具有音频的视频文件与来自在近场麦克风116a至116c处所录制的表演的音频部分的音频文件前，时间对准系统106对准所述文件以确保从与表演有关的相同时间点开始混合所述文件。

应当注意当录制的媒体文件以某种形式的存储器存储可用时，可以在后处理中提供时间对准系统106。文件可以被访问并以任何合适方式输入到时间对准系统106，这可能取决于存储所述文件的存储器的类型和时间对准系统106可用的文件输入资源。在示例性实施方式中，可以在具有基本计算机系统资源的任何合适的计算机控制的器件中操作时间对准系统106。时间对准系统106可以包括任何合适的文件访问系统（包括到便携式存储器件（例如USB器件、闪存驱动器、存储卡（例如SD卡））的界面、用于存储在电子磁带上的文件的磁带驱动器界面）和适于访问媒体文件的任何其它类型的文件访问系统。时间对准系统106还可以包括用户界面器件，例如显示器、键盘、鼠标、小键盘、旋钮、按钮等。应当注意用户界面对对准过程自身的要求可以限于开始所述过程和开始基本反馈，因为所述过程基本上是自动的。还应当注意时间对准系统106可以实施为用于在标准计算系统（例如台式计算机、膝上型计算机或工作站）上或在具有除时间对准外的其它函数的多媒体处理系统上操作的软件应用程序。

在示例性实施方式中，录制的媒体文件可以提供为任何合适格式的模拟信号或数字信号。合适格式的实施例包括但不限于任何MPEG格式（举例来说，例如MP3）、M4A、MOV、QTFF（QuickTime）、WMA和流行的PCM格式（例如WAV和AIFF）。应当了解时间对准系统106的示例性实施方式可以被配置来接收任何合适格式的媒体文件中的数据。媒体文件中的音频数据作为采样的音频信号或作为维持如所录制音频的时间线的任何类型的数据或信号而被访问。音频数据还可以提供为两个实时流。可以在任何类型的电子连接（例如数据网络或无线广播）上接收实时流。

图1B是用于对准媒体文件的系统的实施例的方框图。图1B中的系统可以实施为图1A中的时间对准系统106。时间对准系统106包括粗对准函数160、精对准函数162和信号组合器170。时间对准系统106接收第一媒体信号150和第二媒体信号152以进行对准。第一媒体信号150可以是例如具有音频信号的视频文件，或具有由图1A中的多媒体录制器102所录制的音频的视频文件的音频部分。第二媒体信号152可以是由接收被图1A中的近场麦克风116a至116c所拾取的音频信号的录制器120所录制的表演的音频部分。在任何示例性实施方式中，第一媒体信号150和第二媒体信号152可以是从不同源录制且将被组合或合并用于播放的任何两个媒体信号。从不同源所录制的两个媒体信号可能来自相同表演的录制。在示例性实施方式中，媒体信号之一可以是被集成用于在另一媒体信号的对应部分中播放的音频的一个或多个部分。这个实施方式包括例如进行配音以播放不同语言或修改对白以删除不良语言或其它类似应用。

第一媒体信号150和第二媒体信号152可以呈允许访问代表音频信号的数字样本且提供包括定时信息的信息的格式。例如，第一媒体信号150和第二媒体信号152可以是从对应模拟信号的模拟表示转换而来的数字样本的流。数字样本的流可以呈未压缩的形式且使用已知采样率而从模拟转换而来。第一媒体信号150和第二媒体信号152也可以是压缩的数字音频信号。然而，应当了解如下文所描述以未压缩的形式或以使用并维持与表演有关的信号中的定时的方式处理第一媒体信号150和第二媒体信号152。在下文描述中，应当了解第一媒体信号150和第二媒体信号152是以已知采样率转换而来的转换式模拟音频信号的数字样本的流。数字样本可以以序列存储为阵列或其它合适的数据结构。每个第一媒体信号150和第二媒体信号152还可以包括用于存储关于每个信号的信息（例如样本数量（大小）、起点、采样率、录制开始时间、录制停止时间、日期和可以对维持有用的其它信息）的标头或信息块。

参考图1B，时间对准系统106在粗对准函数160处接收第一媒体信号150和第二媒体信号152。粗对准函数160通过执行媒体信号的近似对准而减小所述媒体信号的初始未对准。两个媒体信号150、152最初可能未对准到不同程度。在精尺度上，两个音频录制移位的时间可以小于一毫秒。在粗尺度上，如果在与源（如参考图1A所描述）相隔不同距离之处执行音频录制，那么声波的传输时间可以产生数十或数百毫秒等级的未对准。在甚至更粗的尺度上，可能在产生数以百万样本的未对准的其它录制前几分钟已开始音频录制之一。在非常粗的尺度上，媒体信号150、152可以是短剪辑（例如20秒）和长录制（例如一小时）；且需要在长录制中找到短剪辑或找到将短剪辑插入长录制中的位置。第一媒体信号150与第二媒体信号152之间的初始未对准越大，对准第一媒体信号150与第二媒体信号152的过程的计算负载将越大。

粗对准函数160确定指示会引起媒体信号之一近似时间对准另一媒体信号的粗时移的粗时间延迟。粗对准函数160还可以使第一媒体信号或第二媒体信号之一相对于另一媒体信号而移位。在下文实施例的描述中，为了描述实施方式的目的，第二媒体信号152移位且输出为粗移位的第二信号。在特定实施方式中，任一信号可以根据所述实施方式的特定要求而相对于另一信号移位。

图1B中的粗对准函数160生成粗移位的第二信号作为到精对准函数162的输入。粗移位的第二信号可以生成为第二媒体信号152的实质副本，其中信号的起点已时移。例如，可以由第二媒体信号152中的样本顺序中的索引指示信号的起点。索引可以设置成0或1作为默认值，且接着根据粗时间延迟而进行修改。例如，索引可以根据给定的采样率而增量（或如果在其它方向上移位且索引不指示信号中的第一样本，那么减量）达相当于粗时间延迟的样本数量。

精对准函数162执行第一媒体信号150和粗移位的第二信号的‘根据样本’对准。‘根据样本’对准可以包括执行两个信号之间的未对准的未对准估计，且接着使所述信号之一移位达所述确定的未对准。在示例性实施方式中，未对准估计可以包括确定两个信号的相关性并分析所述相关性的结果以确定是否存在任何所分析时移的峰。如果检测到峰，那么粗移位的第二信号移位达精时间延迟而生成精移位的第二信号。精移位的第二信号接着可以在信号组合器170中与第一媒体信号150组合。

信号组合器170可以以认为适于使用对准系统的特定应用的任何方式组合信号。在图1A中所示的实施例中，媒体信号之一是具有由多媒体录制器102所录制的音频的视频信号，且另一媒体信号是表演的音频部分。信号组合器170可以通过用精移位的第二信号替换由多媒体录制器102所录制的音频或通过简单地去除具有音频和视频两者的媒体信号的音频部分而生成组合信号180。信号还可以与具有以较低水平合计以提供组合信号的临场感的音频和视频两者的媒体信号中的音频信号混合。信号组合器170还可以生成如具有一个音频信道中的第一媒体信号150和另一信道中的精移位的第二信号的组合信号180。

应当注意未对准估计在本文描述为执行相关函数而非意在限制如何确定未对准。相关函数可以是“互相关”函数；然而，也可以实施其它方法。可以用来确定两个信号之间的未对准的其它方法包括但不限于时间延迟谱测定法、相位展开和基于所述两个信号的相关性、相干性或交互信息的任何合适分析。任何合适的时间延迟估计函数可以用于执行未对准估计。类似地，可以使用任何合适的相关函数或合适的时间延迟估计函数执行在粗对准函数160中粗时间延迟的确定。如下文所描述，还可以使用模式匹配技术或一个媒体剪辑位于另一媒体剪辑中的其它类似方法确定粗时间延迟。

还应当注意未对准确定在本文描述为包括识别互相关的结果中（例如直方图中）的“峰”。可以从可以是正或负的相关值中检测到峰。所要峰在相关性中具有最大的绝对值。还可以通过计算互相关结果中的质心而确定未对准。在质心计算中，使用等于相关值的绝对值的加权平均化互相关中的每个位置。可以使用质心更佳地估计广泛且偏斜的峰。非常强的峰将具有等于会通过模式辨别或其它不太精确的方法识别到的峰的质心。峰还可以通过区分结果而被检测到且可以包括使用已知算法，举例来说例如希耳伯特变换。应当了解术语“峰”在本文指代未对准估计计算的结果（而不管用来确定未对准的技术）中的未对准估计的指示。

在图1B的时间对准系统106的示例性实施方式中，可以取决于未对准的应用和/或程度而使用不同的粗对准函数。在示例性实施方式中，可以在执行媒体信号的根据样本的精对准前依序执行一个或多个粗信号对准。参考图2至图4所描述的粗对准函数包括用于减小计算负载的信号调节过程。可以使用三种类型的信号调节过程：（1）子采样，（2）包络检测，和（3）特征抽出。图2至图4示出使用这三个过程的三个粗对准函数的实施例。

图2A是可以在图1B中所示的系统中使用的第一粗对准函数200的实施例的方框图。图2A中的第一粗对准函数200示出第一媒体信号202a和第二媒体信号202b的块处理。第一媒体信号202a和第二媒体信号202b可以对应于上文参考图1B所描述的媒体信号150、152。第一媒体信号202a和第二媒体信号202b还可以是已在对准过程的先前步骤中使用粗信号对准部分对准的粗对准的媒体信号。

图2A示出将媒体信号202a、202b分成多个块203。较小块203的处理可以在媒体信号202a、202b需要非常大的存储器资源时有用。较小块203还可以用来校正由录制器件的漂移导致的可能对准误差。录制器件（例如多媒体录制器102和音频录制器120（在图1A中））可以随着时间漂移且某些录制器件的漂移多于其它录制器件。两个录制器（举例来说，例如图1A中的多媒体录制器102与音频录制器120）之间的漂移差可能造成对准误差。可以通过执行两个媒体信号202a、202b的互相关并分析所述互相关的结果的直方图而估计录制器之间的漂移。可以通过测量直方图中主峰的宽度而确趸两个录制器之间的漂移差。还可以通过估计不同块处的有效延迟而确定漂移。有效延迟可能由于漂移而随着时间增大。较宽的峰是多个峰已扫尾在一起的指示。峰的宽度可以确定个别块203的大小。

块203a、203b的大小应当设置成大小大出最大可能漂移多倍。块可以经过处理使得计算每个块的未对准。每个块的未对准可以用来如处理每个块般重新定义后续块，从而减小两个媒体信号202a与202b之间的可能漂移。例如，如果确定M个样本的未对准是开始于在开始录制持续D个样本后的T个样本的时间块T处，那么第二信号块203b的块X中的信号移位达M个样本。第一信号块203a的块X+1定义为开始于T+D个样本，然而第二信号块203b的块X+1定义为开始于T+D+M个样本。

图2B和2C是被提供来示出块大小对有效延迟的效应的直方图的实施例。图2B示出分成具有四个不同大小的块的两个信号之间的四个相关性的结果，所述信号之间不具固定延迟。图2B中的四个结果包括100毫秒块相关性250、500毫秒块相关性260、1000毫秒块相关性264和4000毫秒块相关性266。100毫秒块相关性250具有100毫秒块峰252；500毫秒块相关性260具有500毫秒峰262；1000毫秒块相关性264具有1000毫秒块峰266；且4000毫秒块相关性266具有4000毫秒块峰269。图2B中的相关性250、260、264和266示出随着块大小增大，所述相关性的峰值（在252、262、266和269处）减小且具有促成峰的更多样本。峰周围的区也随着块大小增大而变得噪声更大。

图2C示出分成具有四个不同大小的块的两个信号之间的另一组四个相关性的结果，但是所述信号之间具有50毫秒的固定延迟。图2C中的四个结果包括100毫秒块相关性270、500毫秒块相关性278、1000毫秒块相关性280和4000毫秒块相关性286。如在图2C中所示的相关信号之一延迟于另一信号达50毫秒。100毫秒块相关性270具有未示出任何延迟的100毫秒块峰272。500毫秒块相关性260在反映出固定延迟和漂移的50毫秒279a和另一10毫秒279b处具有500毫秒峰279。1000毫秒块相关性264也在示出固定的50毫秒延迟的50毫秒281a和示出漂移的另一10毫秒281b处具有1000毫秒块峰281。4000毫秒块相关性286在50毫秒287a和10毫秒287b漂移处具有4000毫秒块峰287。

在图2B中示出不具任何有意插入的固定延迟的结果示出造成约10毫秒有效延迟的漂移。可以所有块大小检测到漂移。图2C中的结果具有有意插入的50毫秒延迟，还示出造成10毫秒有效延迟的漂移。然而，由于有意的50毫秒延迟，可在下面的三个图中（在278、280和286处）检测到有效延迟，但是无法在具有小型（100毫秒）块大小的100毫秒块270中检测到有效延迟。

在图2A中所示的媒体信号202a、202b的块处理示出分成多个第一信号块203a的第一信号202a和分成多个第二信号块203b的第二信号。如下文更详细描述，接着使用子采样处理第一信号块203a和第二信号块203b以确定粗对准。在示例性实施方式中，可以使用来自每个信号的对应对块执行粗对准处理。例如，来自每个信号的第一块可以用于粗对准。取决于应用或信号特征或基于用户偏好的选定参数，可以通过处理每个信号中的所有块或某些块而执行粗对准。多个粗时间延迟可以用于分析，或用于确定近似单个最佳值，或用于其它所要目的。一旦确定粗时间延迟且信号对准是近似的，那么生成粗移位的块212。对于根据样本对准或对于精对准信号202a、202b，通过块230与对应的粗移位的块212的精对准而处理所有第一信号块203a以生成精移位的块220。

应当注意虽然参考图2A中的子采样粗对准函数而描述媒体信号202a、202b的划分，但是可以对于在图2至图4中所示的任何粗信号分析器执行分成多个块。还应当注意图2A中的子采样粗对准函数不需要任何抗混叠滤波器，因为混叠组件可以协助子采样的信号之间的时移检测。在相关性用来检测时移的实施例中，混叠组件协助相关性函数。参考图2A，第一粗对准函数200使用媒体信号的子采样以通过减小媒体信号的大小而减小计算负载。在图2A中的第一粗对准函数200中，由对应的子采样器204a、204b各子采样第一信号202a和第二信号202b。图2A中的第一粗对准函数200根据子采样通过使用来自每个第一信号202a和第二信号202b的第一信号块203a和第二信号块203b而执行粗对准。子采样器204a、204b接收第一信号块203a和第二信号块203b并以子采样因子（其可以是指示以彼此的每个子采样因子值的待提采样本的整数）提采样本。例如，每个子采样器204a、204b可以从对应的输入信号块203a、203b提取每第八个样本，从而使每个信号块203a、203b的大小减小达子采样因子8。子采样器204a、204b生成对应的子采样的第一块206a和子采样的第二块206b。子采样的第一块206a和子采样的第二块206b用于对准对应的第一块和第二块，所述对准涉及确定两个块之间的延迟的第一步骤和根据所述延迟而使所述块之一相对于另一块移位的第二步骤。在图2A中所示的实施例中，第一个和第二个子采样的第一块206a与子采样的第二块206b作为输入信号提供给粗未对准估计器208。在示例性实施方式中，粗未对准估计器208执行第一个和第二个子采样的第一块206a与子采样的第二块206b的互相关。两个信号的互相关是所属领域技术人员熟知的函数且不需要任何进一步详细描述。互相关可以生成绘制互相关值对在预定范围内信号之间的时间延迟或时移的直方图。直方图和其在分析互相关结果中的使用也为所属领域技术人员所熟知。在具有最高相关的直方图上两个信号之间的时间延迟具有最高程度且作为直方图中的峰出现。如果在直方图中出现峰，那么对应于所述峰的时间延迟指定为块206a、206b之一应当相对于另一块移位以使块206a、206b对准所需的时间。

应当注意虽然粗未对准估计器208在本文描述为并入互相关函数以通过识别相关结果中的峰中的漂移而确定两个信号块206a、206b之间的延迟，但是粗未对准估计器208不限于互相关函数的使用。可以使用的其它延迟检测函数包括但不限于时间延迟谱测定法、相位展开和基于两个信号的相关性、相干性或交互信息的任何合适分析。粗未对准估计器208还可以执行相关性并分析峰检测的直方图。峰检测还可以包括区分结果，可以包括使用已知算法，例如希耳伯特变换。相关性结果的合适质心计算还可以用于峰检测。

由图2A中的粗未对准估计器208所提供的对准是粗对准，因为已子采样在互相关中所使用的块206a、206b。如果因由图2A中的粗未对准估计器208所执行的互相关造成未在直方图中检测到峰，那么可以重复粗信号对准。可以使用图2A中的第一粗对准函数200使用不同参数重复粗信号对准。例如，由子采样器204a、204b所执行的子采样可以以小于先前子采样因子的子采样因子（例如从每8个到每6个）子采样多个块。较小的子采样因子会具有进一步减小块大小的效应。或者，可以使用其它粗对准函数之一进行粗信号对准的另一尝试。

当粗未对准估计器208确定从直方图中检测到的峰开始的粗时移时，粗信号移位器210使用粗时移（图2A中的Δτ_coarse）对在互相关中使用且对应于媒体信号之一的块206a、206b执行粗信号移位。粗信号移位器210可以通过以用来生成第一子采样的块206a和第二子采样的块206b的子采样因子校正粗时移Δτ_coarse而执行信号移位。校正的粗时移接着可以用来使用作到第二子采样器204b的输入的第二信号块移位。应当注意虽然在图2A中所示的实施例中第二信号移位，但是第一信号可以是根据特定实施方式移位的信号。在信号移位期间，粗信号移位器210可能涉及在一侧上填充具有例如零值的信号之一，或在另一侧上截断另一信号。

粗信号移位器210处理所有第二信号块203b以生成粗移位的块212的对应集合。接着可以通过对块230精对准而处理粗移位的块212和第一信号块203a以生成精移位的块220。

图3A是可以在图1B中所示的系统中使用的第二粗对准函数300的实施例的方框图。图3A中的第二粗对准函数300包括第一音频载波解调器304a、第二音频载波解调器304b、第一下采样器306a、第二下采样器306b、粗未对准估计器310和粗信号移位器312。图3中的第二粗对准函数300通过检测音频信号的包络并对所述包络执行互相关而操作。可以通过解调音频载波而执行每个媒体信号202a、202b的包络检测。音频载波解调器304a、304b可以通过根据例如y(n)＝(1-α)y(n-1)+abs(ax(n))对每个信号进行整流和低通滤波而检测包络。

下采样器306a、306b接收对应于第一媒体信号202a和第二媒体信号202b的检测到的包络并下采样每个包络。可以通过几乎多达1000的因子下采样包络以减轻CPU负载和存储器需求。对于某些信号来说，重的下采样可以删除色调或音调信息，其可能产生非常有节奏的通道中的有效延迟的多个错误估计且使对准变得更难。可以使用与多个（每组）包络检测器级联的滤波器组恢复音调信息以使个别延迟估计变得更可靠。图3B示出使用包络检测和滤波器组的示例性粗对准函数350。

图3B中的粗对准函数350示出作为待对准的输入媒体信号的音频文件352a和具有音频的视频文件352b。音频文件352a输入到具有低通滤波器354a、第一带通滤波器356a、第二带通滤波器358a和高通滤波器360a的滤波器组。如在图3B中所示，可以使用两个以上带通滤波器356a、358a。具有音频的视频文件352b输入到具有低通滤波器354b、第一带通滤波器356b、第二带通滤波器358b和高通滤波器360b的第二滤波器组。第一滤波器组中的滤波器354a、356a、358a、360a对应于第二滤波器组中的滤波器354b、356b、358b、360b。第一滤波器组中的每个滤波器354a、356a、358a、360a输入到对应的包络检测器函数362a、364a、366a、368a。第一滤波器组中的每个滤波器354b、356b、358b、360b输入到对应的包络检测器函数362b、364b、366b、368b。

第一相关器函数370执行在包络检测器362a处从低通滤波的音频信号所生成的包络和在包络检测器362b处从具有音频信号的低通滤波的视频文件所生成的包络的相关性。第二相关器函数372执行在包络检测器364a处从带通滤波的音频信号所生成的包络和在包络检测器364b处从具有音频信号的带通滤波的视频文件所生成的包络的相关性。第三相关器函数374执行在包络检测器366a处从带通滤波的音频信号所生成的包络和在包络检测器366b处从具有音频信号的带通滤波的视频文件所生成的包络的相关性。第四相关器函数376执行在包络检测器368a处从高通滤波的音频信号所生成的包络和在包络检测器368b处从具有音频信号的高通滤波的视频文件所生成的包络的相关性。接着在直方图合计函数380处合计在第一相关器370、第二相关器372、第三相关器374和第四相关器376处所执行的相关性的结果以提供可以检测到占有信号带宽的峰的结果。

重新参考图3A，下采样器306a生成下采样的第一包络308a且下采样器306b生成下采样的第二包络308b。使用互相关函数310而使第一下采样的包络308a和第二下采样的包络308b互相关。互相关函数310生成粗时移（在图3A中是Δτ_coarse），这可能基于在如上文参考图2A所描述的互相关的直方图中所检测到的峰。粗时移Δτ_coarse接着可以被粗信号移位器312用来对准第一信号202a和第二信号202b。粗信号移位器312可以通过使第二信号202b粗移位达校正的粗时移Δτ_coarse而执行信号对准以产生粗移位的第二信号320。接着可以在另一粗对准函数中或在精对准中通过根据样本移位而使用粗移位的第二信号320以实现更精确的对准。

图4是可以在图1B中所示的系统中使用的第三粗对准函数400的实施例的方框图。可以在允许用不必与原始音频录制同期录制的第二音频剪辑代替音频录制中的音频剪辑的应用中使用图4中的第三粗对准函数400。第二剪辑还可以是另一源的录制。涉及音频剪辑的这个代替的应用的实施例包括电影或电视原声带中的配音或自动对白替换（ADR）。另一实施例涉及在作曲中交替使用乐器。

在操作中，第三粗对准函数400可以将原始音频录制用作第一信号402且将待插入所述原始录制中的第二剪辑用作第二信号403。第三粗对准函数400包括用于识别可以比较第二信号403中的特征或模式的在第一信号402中的特征或模式的第一特征提取函数404。第二特征提取函数406可以用来识别比较由第一特征提取函数404所识别的特征或模式的测试特征或模式。第一特征提取函数404和第二特征提取函数406可以根据用作输入的信号402、403的类型而识别特征或模式。特征或模式可以被提取用于包括对白的音频信号402、403的语音辨别。特征或模式还可以被提取用于包括音乐的音频信号的模式辨别。特征提取函数404、406生成分别供特征比较器412比较的第一信号提取特征408与第二信号测试特征410。

特征比较器412可以根据所比较的信号的类型使用已知语音或模式辨别函数匹配提取的特征。应当了解可以根据特定应用以多种方式排列特征提取函数404、406和特征比较器412。特征比较器412识别特征匹配。如果确定两个特征要相匹配，那么特征延迟估计器414确定时间延迟（在图4中是Δτ_Match）以进行匹配。时间延迟可以是在代表到匹配的特征的起点的原始音频录制的第一信号402中所经过的时间。应当注意第一信号402和第二信号403可能源于不同声源的录制。对应于由特征延迟估计器414所确定的时间延迟的两个信号402、403的对准分辨率可能取决于两个录制的类似性。时间延迟Δτ_Match可以被粗信号移位器416用来生成粗移位的第二信号420。在一个实施例中，粗移位的第二信号420可以是第二信号403的副本，其具有指示其可以插入第一信号402中的点的定时信息。

在图2、3和4中所示的粗对准函数200、300、400可以分别用来减小可能存在于第一媒体信号和第二媒体信号中的实质未对准。可以使用相同或不同的粗对准函数反复或重复执行粗对准，每次执行都取决于两个信号的未对准程度。可以在示例性实施方式中通过追踪每次执行互相关时所确定的时间延迟的减小而追踪两个信号的未对准程度。当信号近似对准时，可以由精对准函数处理所述信号以使所述信号实质对准。

图5是可以在图1B中所示的系统中使用的精对准函数500的实施例的方框图。精对准函数500包括用于确定第一信号502与第二信号504之间的延迟的精未对准估计器506。精未对准估计器506生成精对准时间延迟（在图5中是Δτ_Fine），所述精对准时间延迟可以被精信号移位器508用来使两个信号之一移位达精对准时间延迟Δτ_Fine。在图5中所示的实施例中，第二信号504可以移位达精对准时间延迟Δτ_Fine以产生精移位的第二信号520。信号组合器530可以根据使用时间对准系统的特定应用而组合精移位的第二信号520与第一信号502以生成组合信号550。

图5中的精未对准估计器506可以包括互相关函数，所述互相关函数被配置来执行两个信号的互相关并生成如具有指示所述两个信号之间的延迟的峰的直方图的结果。精未对准估计器506还可以包括延迟检测函数，例如但不限于：时间延迟谱测定法、相位展开和基于两个信号的相关性、相干性或交互信息的任何合适分析。精未对准估计器506还可以执行相关性并分析峰检测的直方图。峰检测还可以包括使用区分或希尔伯特变换或相关结果的合适质心计算。

图6是示出用于对准媒体文件的方法的实施例的流程图600。可以在用于对准上文参考图1A所描述的媒体文件100的系统中执行在流程图600中所示的示例性方法。所述方法通过接收媒体文件或通过首先将所述文件分解成多个块而处理所述文件。可以依序输入多个块直到处理完组成每个文件的所有块为止。

在步骤602处，输入第一对信号块以进行处理。随着过程继续进行，步骤602执行检索下一对信号块以进行处理的步骤。所述对块中的每个块是在对准第一信号和第二信号中要处理的下一块。在步骤604处，可以对输入对块执行互相关。初始的互相关是可以提供用于对准没有明显未对准的块的时间延迟的逐个样本互相关。

在决定方框606处，可以分析互相关结果。在一个实施例中，可以通过生成在时间延迟范围内的直方图而分析结果。检查直方图的峰。如果检测到峰，那么可以校正块之间的未对准使之达在所述峰处所指示的时间延迟。在步骤608处，使用块的时间延迟以使在例如图1A中的近场麦克风处所录制的信号移位。使用时间延迟确定在决定方框606处由峰所确定的时间延迟中样本的数量。如在步骤608处所示，可以使用样本数量以使整个信号移位。

如果在决定方框606处未检测到峰，那么可以选择另一粗对准函数用于处理所述对块。在步骤607处，可以检索较大的信号块用于下一粗对准函数。在步骤610处，可以对所述对块执行子采样粗对准函数。子采样粗对准可以如上文参考图2A所描述般执行。可以根据估计的未对准而确定子采样因子，或可以使用默认值。在对所述对块执行互相关前，可以从所述对块并行提取被样本的子采样因子数值分开的每个样本。在决定方框612处，分析互相关的结果以检测峰。如果检测到峰，那么在步骤614处例如对应于从在图1A中所示的近场麦克风所录制的块移位达对应于由所述检测到的峰所指示的时间延迟的样本数量。可以通过子采样因子校正时间延迟（和样本数量）。移位的块和对应于由图1A中的多媒体录制器所捕获的视频和音频信号的音频部分的块提供给精对准函数，其中逐个样本互相关如由图6中的步骤604所示般执行。

如果在决定方框612处未检测到峰，那么可以选择另一粗对准函数用于处理所述对块。在步骤615处，可以检索较大的信号块用于下一粗对准函数。在步骤616处，可以对所述对块执行包络检测粗对准函数616。步骤616处的包络检测粗对准函数可以如上文参考图3所描述般进行。在步骤618处，对每个块的包络执行互相关。在决定方框620处，分析互相关结果的峰。如果检测到峰，那么在步骤624处例如对应于在图1A中所示的近场麦克风所录制的块的块移位达对应于由所述检测到的峰所指示的时间延迟的样本数量。在步骤610处，移位的块和对应于由图1A中的多媒体录制器所捕获的视频和音频信号的音频部分的块接着可以提供给子采样粗对准函数以使对准在执行精对准前更近似。

如果在决定方框620处未检测到峰，那么可以选择另一粗对准函数用于所述对块。在步骤621处，可以检索较大的信号块用于下一粗对准函数。在步骤622处，可以对所述对块执行语义或模式特征提取粗对准函数。特征提取粗对准函数可以如上文参考图4所描述般执行。可以对选定特征执行模式或语音辨别函数。这些函数通常涉及对选定特征或经过处理版本的选定特征执行互相关。在决定方框626处，测试模式或语音辨别的结果以检测峰。如果检测到峰，那么在步骤628处例如对应于从在图1A中所示的近场麦克风所录制的块的块移位达对应于由所述检测到的峰所指示的时间延迟的样本数量。在步骤616处，移位的块和对应于由图1A中的多媒体录制器所捕获的视频和音频信号的音频部分的块接着可以提供给包络检测粗对准函数以使对准在执行精对准前更近似。

如果在决定方框626处未检测到峰，那么块的未对准或块的其它特征可能不允许合适的对准。例如，录制可能不是充分类似。录制可能在尝试重新对准信号前经受进一步处理。

应当注意用于对准信号的示例性方法不需要所有粗对准函数。此外，如果使用对准函数之一无法检测到峰，那么可以使用不同参数重复对准函数。

所属领域技术人员将会了解和明白可以由硬件和/或软件执行结合图1至图6所描述的一个或多个过程、子过程或过程步骤。如果由软件执行过程，那么所述软件可能常驻在合适的电子处理组件或系统（例如，在图1至图6中示意性描绘的一个或多个功能组件或模块）中的软件存储器（未示出）中。软件存储器中的软件可以包括用于实施逻辑功能（即，可以以数字形式（例如数字电路或源代码）或以模拟形式（例如模拟电路或模拟源（例如模拟的电信号、声音信号或视频信号））实施的“逻辑”）的可执行指令的有序清单，且可以在供指令执行系统、装置或器件（例如基于计算机的系统、包含处理器的系统或可以从所述指令执行系统、装置或器件选择性获取所述指令并执行所述指令的其它系统）使用或供结合所述指令执行系统、装置或器件使用的任何计算机可读介质中选择性具体实施。在本公开内容的背景下，“计算机可读介质”是可以包含、存储或传达供指令执行系统、装置或器件使用或结合指令执行系统、装置或器件使用的程序的任何构件。计算机可读介质可以选择性地作为例如但不限于电子、磁、光学、电磁、红外或半导体系统、装置或器件。计算机可读介质的更多特定实施例但尽管如此非详尽的清单可能包括以下项：便携式计算机磁盘（磁的）、RAM（电子的）、只读内存“ROM”（电子的）、可擦可编程只读内存（EPROM或闪存）（电子的）和便携式光盘只读内存“CDROM”（光学的）。应当注意计算机可读介质甚至可以是纸或将程序打印在其上的任何合适介质，如可以经由例如光学扫描纸或其它介质而电捕获所述程序，且如果有必要的话那么接着编译、解译或否则以合适方式处理所述程序，且接着将其存储在计算机内存中。

为了阐释和描述目的已呈现实施方式的前文描述。这还不够详尽且并非将本发明限于所公开的精确形式。修改和变化根据上文描述是可行的或可以在实践本发明中获得。权利要求书和其等效物定义本发明的范畴。

Claims

1.一种用于时间对准第一媒体信号和第二媒体信号的方法，所述方法包括：

接收所述第一媒体信号和所述第二媒体信号作为使用采样率所生成的数字样本的流；

确定所述第一媒体信号与所述第二媒体信号之间的近似未对准；

根据所述近似未对准而确定粗时移；

使所述第二媒体信号移位达所述粗时移以生成粗移位的第二信号；

确定所述第一媒体信号与所述粗移位的第二信号之间的对准时移；和

使所述粗移位的第二信号移位达所述对准时移以生成对准所述第一媒体信号的移位的第二信号。

2.根据权利要求1所述的方法，其中确定所述对准时移的步骤包括使用以下方法中的任何方法：

执行所述第一媒体信号和所述粗移位的第二信号的互相关，并识别时间延迟的选定范围中的互相关结果集合中的峰；

执行时间延迟谱测定法；

执行相关性并区分峰检测的结果；

执行相关性并将希耳伯特变换用于峰检测；

执行相关性并将质心计算用于峰检测；

执行相位展开；和

根据所述第一媒体信号和所述第二媒体信号的交互信息而执行分析。

3.根据权利要求1所述的方法，其中：

使用粗对准函数的步骤包括从多个粗对准函数中选择所述粗对准函数。

4.根据权利要求3所述的方法，其中：

确定粗时移的步骤包括当无法使用所述第一选定粗对准函数确定所述粗时移时使用所述多个粗对准函数中的一个不同函数。

5.根据权利要求3所述的方法，其还包括：

在使所述第二媒体信号移位的步骤后，执行以下步骤：使用所述粗对准函数，确定所述粗时移，和使所述第二媒体信号移位以生成第二个粗移位的第二信号，其中所述待对准的信号是所述第一媒体信号和所述粗移位的第二信号，且使用所述粗对准函数的步骤包括选择所述多个粗对准函数之一的步骤。

6.根据权利要求5所述的方法，其还包括：

重复以下步骤：使用所述粗对准函数，确定所述粗时移，和使所述第二媒体信号移位以生成另一粗移位的第二信号，其中所述待对准的信号是所述第一媒体信号和所述先前粗移位的第二信号，且其中使用所述粗对准函数的步骤包括选择所述多个粗对准函数之一的步骤。

7.根据权利要求1所述的方法，其中使用所述粗对准函数的步骤包括：

通过子采样因子而子采样每个所述第一信号和所述第二信号；和

检测所述第一子采样的信号与第二子采样的信号之间的延迟；

其中确定所述粗时移的步骤包括使用所述检测到的延迟。

8.根据权利要求7所述的方法，其中检测所述延迟的步骤包括使用以下方法中的任何方法：

执行所述第一子采样的信号和所述第二子采样的信号的互相关，其中确定所述粗时移的步骤包括识别时间延迟的选定范围中的互相关结果集合中的峰；

执行时间延迟谱测定法；

执行相关性并区分峰检测的结果；

执行相关性并将希耳伯特变换用于峰检测；

执行相关性并将质心计算用于峰检测；

执行相位展开；和

9.根据权利要求1所述的方法，其中使用所述粗对准函数的步骤包括：

解调每个所述第一信号和所述第二信号以检测第一信号包络和第二信号包络；

通过下采样因子而下采样所述第一信号包络和所述第二信号包络以生成第一下采样的包络和第二下采样的包络；和

检测所述第一下采样的包络与所述第二下采样的包络之间的延迟；

其中确定所述粗时移的步骤包括使用所述检测到的延迟。

10.根据权利要求9所述的方法，其中检测所述延迟的步骤包括使用以下方法中的任何方法：

执行所述第一下采样的包络和所述第二下采样的包络的互相关，其中确定所述粗时移的步骤包括识别时间延迟的选定范围中的互相关结果集合中的峰；

执行时间延迟谱测定法；

执行相关性并区分峰检测的结果；

执行相关性并将希耳伯特变换用于峰检测；

执行相关性并将质心计算用于峰检测；

执行相位展开；和

11.根据权利要求1所述的方法，其中使用所述粗对准函数的步骤包括：

从所述第二信号提取信号特征；

从所述第一信号提取信号部分；

比较所述信号特征与所述信号部分；

如果所述信号部分匹配所述信号特征，那么识别到所述第一信号中的所述信号部分的开始时间的时间延迟；和

重复从第一信号提取所述信号部分和比较所述信号特征与所述信号部分的步骤直到所述信号部分匹配所述信号特征为止。

12.根据权利要求11所述的方法，其中：

提取信号特征和信号部分的步骤包括提取所述第一信号和所述第二信号中的语音元素；和

比较所述信号特征与所述信号部分的步骤包括执行语音辨别函数。

13.根据权利要求11所述的方法，其中：

提取信号特征和信号部分的步骤包括提取所述第一信号和所述第二信号中的信号模式或语义特征；和

比较所述信号特征与所述信号部分的步骤包括执行模式辨别函数。

14.根据权利要求1所述的方法，其中接收所述第一媒体信号和所述第二媒体信号的步骤还包括：

确定小于媒体信号大小的块大小；

将每个第一媒体信号和第二媒体信号分成多个块；和

在使用所述粗对准函数和确定粗时移的步骤中处理所述第一媒体信号和所述第二媒体信号的对应块。

15.一种用于时间对准第一媒体信号和第二媒体信号的系统，所述系统包括：

至少一个粗对准函数，其用于减小所述第一信号与所述第二信号之间的初始未对准，所述粗对准函数被配置来生成粗移位的第二信号；和

精对准函数，其被配置来确定所述第一信号与所述粗移位的第二信号之间的所述粗移位的第二信号与所述第一信号之间的对准时移。

16.根据权利要求15所述的系统，其中所述精对准函数包括被配置来通过使用以下方法中的任何方法而检测延迟的未对准估计器：

执行时间延迟谱测定法；

执行相关性并区分峰检测的结果；

执行相关性并将希耳伯特变换用于峰检测；

执行相关性并将质心计算用于峰检测；

执行相位展开；和

17.根据权利要求15所述的系统，其中所述至少一个粗对准函数包括：

第一子采样函数和第二子采样函数，其被配置来通过子采样因子而子采样所述第一信号和所述第二信号，以生成第一子采样的信号和第二子采样的信号，其中所述第一子采样的信号和所述第二子采样的信号用来确定所述第一子采样的信号与所述第二子采样的信号之间的粗时间延迟；和

粗信号移位器，其被配置来通过使所述第二信号移位达对应于所述粗时间延迟的样本的时移数量而生成所述粗移位的第二信号。

18.根据权利要求17所述的系统，其还包括被配置来通过使用以下方法中的任何方法确定所述粗时间延迟的未对准估计器：

执行所述第一子采样的信号和所述第二子采样的信号的互相关，并识别时间延迟的选定范围中的互相关结果集合中的峰；

执行时间延迟谱测定法；

执行相关性并将希耳伯特变换用于峰检测；

执行相关性并将质心计算用于峰检测；

合计所述第一子采样的信号和所述第二子采样的信号，并检测所述和中的陷波；和

执行相位展开。

19.根据权利要求15所述的系统，其中所述至少一个粗对准函数包括：

第一包络解调器和第二包络解调器，其被配置来解调所述第一信号和所述第二信号以检测对应包络；

第一下采样器和第二下采样器，其被配置来通过下采样因子而下采样所述第一包络和所述第二包络以生成第一下采样的包络和第二下采样的包络，其中所述第一下采样的包络和所述第二下采样的包络用来确定所述第一下采样的信号与所述第二下采样的信号之间的粗时间延迟；

20.根据权利要求19所述的系统，其还包括被配置来使用以下方法中的任何方法确定所述粗时间延迟的未对准估计器：

执行所述第一下采样的信号和所述第二下采样的信号的互相关，并识别时间延迟的选定范围中的互相关结果集合中的峰；

执行时间延迟谱测定法；

执行相关性并将希耳伯特变换用于峰检测；

执行相关性并将质心计算用于峰检测；

执行相位展开；和

21.根据权利要求15所述的系统，其中所述至少一个粗对准函数包括：

特征提取函数，其被配置来提取用来在所述第二信号中进行比较的特征；

匹配模式提取函数，其被配置来提取用来匹配于来自所述第一信号的所述特征的模式或语义特征；

特征比较器，其用于匹配与所述用来比较的特征的所述匹配；

特征延迟比较器，其被配置来确定用来匹配所述第一信号中的模式的时移；和

粗信号移位器，其被配置来根据所述时移而对准所述第二信号与所述第一信号。