CN1264137C

CN1264137C - 使用基于听觉事件的特征化的时间对准音频信号的方法

Info

Publication number: CN1264137C
Application number: CNB028106725A
Authority: CN
Inventors: 布莱特·G.·克罗克特; 迈克尔·J.·史密斯尔斯
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2001-05-25
Filing date: 2002-02-25
Publication date: 2006-07-12
Anticipated expiration: 2022-02-25
Also published as: MXPA03010751A; HK1066902A1; KR20040004647A; CN1272765C; EP2549475A1; DE60236648D1; EP1390942A1; ES2400700T3; KR100871607B1; JP4763965B2; JP2004528600A; KR100873396B1; WO2002097791A1; JP4906230B2; EP1390942B1; HK1066087A1; CN1620684A; CN1511311A; MXPA03010750A; ATE470927T1

Abstract

本发明涉及一种用于时间对准音频信号的方法，其中一个信号已经从另一信号导出或者两个信号均已经从另一个信号导出，包括：导出基于听觉事件分析的所述音频信号的简化信息特征，计算一个特征相对于另一个特征的时间偏差，响应所述时间偏差，修改相对于彼此的所述音频信号的时间关系以便所述音频信号基本上彼此相符。这些原理也可以应用到用于时间对准将会遇到不同时间偏差的视频信号和音频信号的方法上。

Description

使用基于听觉事件的特征化的时间对准音频信号的方法

技术领域

本发明涉及音频信号。更具体地说，本发明涉及特征化音频信号和使用特征化来时间对准或使音频信号同步化，其中一个信号已经从另一个导出，或其中两个均从相同的另一个信号导出。这种同步在例如恢复电视音频或视频同步化(声象吻合)和检测嵌入音频信号中的水印(将水印信号与信号的未加水印版本进行比较)是很有用的。本发明可能实现成低处理能力过程将两种这样的音频信号带入基本的时间对准。

背景技术

将声音划分成感知为单独的单位有时称为“听觉事件分析”或“听觉场景分析”(“ASA”)。Albert S.Bregman在其书AuditoryScene Analysis-The perceptual Organization of Sound、MassachusettsInstitute of Technology，1991，第四次印刷，2001，Second MIT Press平装版中阐述了听觉场景分析的详细论述。另外，1999年12月14日，Bhadkamkar等的美国专利6,002,776引用了回溯至1976年的公开物如“prior art work related to sound separation by auditory sceneanalysis。”。然而，Bhadkamkar等专利的不利之处在于实际使用听觉场景分析，推断出“尽管对根据人的听觉处理的模型的科学观点感兴趣，但涉及听觉场景分析的技术目前来说计算需求太多并且太专业因而不被视为用于声音分离的实用技术直到得出基本进展为止”。

Bregman在一篇文章中指出“当声音在音质、音调、音高或空间中的(最小程度的)位置方面突然变化时，听到不连续的单元”。(Auditory Scene Analysis-The Perceptual Organization of Sound，见上文第469页)。Bregman还论述了当例如，按频率分离它们时，多个同时声音流的感觉。

有许多用于从音频抽取特性或特征的方法。适当地定义所提供的特征或特性，使用自动过程能执行它们的抽取。例如，“ISO/IECJTC1/SC 29/WG 11”(MPEG)当前正标准化各种音频描述符作为MPEG-7标准的一部分。这些方法的共同缺点在于它们忽略了ASA。这些方法试图定期地测量某些“典型”信号处理参数诸如音调、振幅、功率、谐波结构和频谱平滑性(spectral flatness)。这些参数尽管提供有用的信息，但不能分析和将音频信号特征化为单独地根据人的认识力感知的元素。

听觉场景分析试图通过识别根据人的认识力分开的元素，用类似于人的感知的方式特征化音频信号。通过开发这些方法，能实现精确地执行至今仍需要人的帮助的任务的自动处理。

识别单独感知的元素允许使用实际上比整个信号本身更少的信息来唯一识别音频信号。可以利用基于听觉事件的紧密和唯一识别来例如识别从另一信号拷贝(或可从与另一信号相同的初始信号拷贝)的信号。

发明内容

根据本发明第一方面，提供一种用于时间对准第一和第二音频信号的方法，其中一个音频信号已经从另一音频信号导出或者这两个音频信号均已经从第三音频信号导出，所述方法包括：导出所述第一和第二音频信号的每一个的简化信息特征，每个特征包括比从中导出所述特征的音频信号少的信息，其中每个所述简化信息特征基于听觉场景分析，每个所述特征具有与从中导出所述特征的音频信号基本上相同的相对定时关系，计算一个特征相对于另一个特征的时间偏差，响应所述时间偏差，修改相对于彼此的所述音频信号的时间关系以便所述音频信号基本上彼此相符。

根据本发明第二方面，提供一种用于时间对准音频信号和另一信号的方法，其中当所述音频信号与所述另一信号基本上同步时，将所述音频信号的第一简化信息特征嵌入所述另一信号中，其中所述第一特征基于听觉场景分析，该方法包括：在所述音频信号和所述另一信号已经遇到不同时间偏差后，由所述另一信号恢复嵌入的所述音频信号的第一特征，并用与导出所述音频信号的第一特征相同的方式，从所述音频信号导出所述音频信号的第二简化信息特征，计算第一特征相对于第二特征的时间偏差，响应所述时间偏差，修改音频信号相对于另一信号的时间关系，以便所述音频信号和所述另一信号基本上彼此同步。

描述了生成可以用来识别音频信号的该音频信号的唯一简化信息特征的方法。该特征可以看作音频信号的“签名”或“指纹”。根据本发明，执行听觉场景分析(ASA)以便将听觉事件识别成用于特征化音频信号的基础。理想地，听觉场景分析识别即使在该音频经过处理，诸如低位率编码或经过扬声器的声传输后，也最可能由听众感知的听觉事件。可以通过听觉事件的边界定位，以及可选地，通过每个听觉事件的主频率子带(dominant frequency subband)特征化音频信号。最终的信息模式构成可以用来与相关的音频信号的指纹或签名相比较以便快速或通过低处理能力确定初始音频信号间的时间偏差的紧密音频指纹或签名。简化信息特征实质上具有与它们所表示的音频信号相同的相对定时(timing)。

根据本发明的听觉场景分析方法提供通过比较包含听觉事件信息的签名，时间对准两个音频信号、特别是音乐的快速和精确的方法。与抽取对感知音频信号间的相似性不太主要的特征(诸如音调振幅、功率和谐波结构)的传统方法相比，ASA抽取作为感知相似性的基础的信息。使用ASA改进找出已经经过典型的处理，诸如低位率编码或通过扬声器的声传输的材料中的相似性，从而进行时间对准的改变。

在如下所述的实施例中，假定从共用源取得下面讨论的两个音频信号。本发明的方法确定一个这种音频信号相对于另一个的时间偏差以便可以使它们相对于彼此开始几乎同步。

尽管在原理上，可以在模拟或数字域(或两者的一些组合)中实施本发明，但在本发明的具体实施例中，在数字域中用数据块中的样值表示音频信号并进行处理。

参考图1A，听觉场景分析2被应用到音频信号上以便产生与那个信号有关的“签名”或“指纹”。在这种情况下，有两个重要的音频信号。它们很相似，因为一个是从另一个导出或两者以前均是从相同的初始信号导出的。因此，将听觉场景分析应用到两个信号上。为简单起见，图1A仅表示将ASA应用到一个信号上。如图1B所示，将用于两个音频信号的签名，签名1和签名2应用到计算“偏差”输出的时间偏差计算函数4上，“偏差”输出是两个签名间的相对时间偏差的量度。

因为签名代表音频信号但实际上比所导出的音频信号短(即，它们更紧密或具有更少的位)，能比确定音频信号间的时间偏差更快地确定签名间的时间偏差。此外，因为签名基本上保持与它们所导出的音频信号相同的相对时间关系，签名间的偏差的计算可用于时间对准初始音频信号。因此，可将函数4的偏差输出应用到时间对准函数6上。时间对准函数还接收两个音频信号，音频信号1和音频信号2(从其导出签名1和2)，并提供两个音频信号输出，音频信号3和音频信号4。所需的是相对于音频信号2对准音频信号1的相对时间以便它们处于时间对准(同步)或几乎时间对准。为实现此，一个可相对于另一个移时，或者原理上，两者均可移时。实际上，音频信号的一个是“经过”音频信号1或音频信号2(即，它们实际上是相同的信号)以及另一个是已经被时间修改的另一个音频信号的移时型以便根据偏差计算和时间对准函数的分辨率精确度，使音频信号3和音频信号4彼此时间同步或几乎时间同步。如果需要更大的对准精确度，通过不形成本发明的部分的一个或多个其他处理，可将进一步处理应用到音频信号3和/或音频信号4上。

例如在还原电视音频-视频同步(声象吻合)和检测嵌入音频信号中的水印方面，信号的时间对准是很用的。在前一情况下，在会导致音频和视频不同步的传输或存储之前，将音频的签名嵌入视频信号中。在再现时，可以从音频信号导出签名并与嵌入视频信号中的签名进行比较以便恢复它们的同步。在美国专利Re33,535、5,202,761、6,211,919和6,246,439中描述了不采用基于听觉场景分析的特征化的那种类型的系统，所有均在此引入，作为参考。在第二种情况中，将初始版本的音频信号与音频信号的水印版本进行比较以便恢复水印。这种恢复需要两个音频信号接近时间对准。如在此所述，这可以通过导出每个音频信号的签名以帮助初始音频信号的时间对准的至少第一对准度来实现。图1A和1B的进一步细节在下面阐述。

对一些应用来说，图1A和1B的过程应当是实时的。对其他应用来说，它们不需要实时。在实时应用中，该过程对每个输入信号存储听觉事件分析的历史(例如几秒)。定期地，采用那个事件历史来更新偏差计算以便连续地校正时间偏差。可以实时生成用于每个输入信号的听觉场景分析信息，或用于任何一个信号的信息已经存在(假定已经执行一些脱机听觉场景处理)。实时系统的一个用途是例如如上所述的音频/视频对准器。事件边界的一种序列是从音频导出的，事件边界的另一序列是从视频恢复的(假定一些先前嵌入到视频中的音频事件边界)能定期地将这两种事件边界序列相比较来确定音频和视频间的时间偏差以便提高例如声象吻合。

因此，可以在几乎相同的时间由音频信号生成签名以便签名的时间偏差被计算并用来修改音频信号的对准以实现它们的基本重合。另外，通过将签名嵌入另一个信号中，诸如视频信号，可包括将比较的一个签名及导出它的音频信号，如前面所述的音频和视频对准的情况。如另一种备选方案，两种签名可预先生成并仅实时执行比较和时间修改。例如，在相同电视节目(具有视频和音频)的两种源的情况下，两者均具有嵌入的音频签名，通过比较所恢复的签名，可以使各个电视信号(具有伴随的音频)同步(视频和音频)。在每个电视信号中的视频和音频的相对时间关系可以仍然保持不变。电视信号同步可以实时发生，但既不是在那时也不是彼此同时地生成签名。

根据本发明的方面，提供用于将音频划分成倾向于感知为单独的时间片段或“听觉事件”的计算上有效的方法。

所感知的听觉事件的开始或结束的有效指示器被认为是频谱含量的改变。为检测音色和音调(频谱含量)的变化，以及作为附属结果，振幅中的一些变化，根据本发明的方面的音频事件检测方法相对于时间检测频谱合成中的变化。可选地，根据本发明的另一方面，该方法还可以检测通过检测相对于时间的频谱合成中的变化而不能检测的相对于时间的振幅的变化。

在其最低计算上的需求实现中，该方法通过分析音频信号的整个频带(整个带宽音频)或基本上整个频带(在实际实现中通常采用在频谱的结尾处的带限滤波)以及向最高音频信号分量提供最大加权来将音频划分成片段。这种方法利用音质现象，其中在较小的时标(20毫秒(msec)或更低)，在指定时间耳朵倾向于关注单个听觉事件。这意味着当同时发生多个事件时，一个分量倾向于感知上更突出并且可以被单个处理好象它是仅发生的事件似的。利用这种效果还允许相对于正处理的音频的复杂度调整听觉事件检测。例如，如果正处理的输入音频信号是独奏乐器，所识别的音频事件将很可能是正演奏的各个音符。类似地，对输入语音信号，语音的各个分量，例如元音和辅音将很可能被识别为各个音频元素。随着音频复杂度的增加，诸如具有鼓声的或多个乐器和嗓音的音乐，听觉事件检测在任何指定时间识别最突出(即，最大声)的音频元素。另外，“最突出”音频元素可通过考虑听觉阈值和频率响应来确定。

可选地，根据本发明的另一方面，以较大计算复杂度为代价，该过程也可以考虑到相对于不连续频带(固定或动态确定或固定和动态确定频带)而不是整个频带中的时间的频谱合成中的变化。这一备选方法将考虑不同频带中的不止一个音频流而不是假设仅在特定时间可感知的单个流。

甚至已经发现根据本发明的方面，用于分段音频的简单和计算上有效的方法对识别听觉事件也很有用。

本发明的听觉事件检测方法可通过将时间域音频波形划分成间隔或块，然后使用滤波器组或时间-频率变换，诸如离散傅里叶变换(DFT)(为了速度实现为快速傅里叶变换(FFT))，将每个块中的数据转换成频率域来实现。可使每个块的频谱含量的振幅规格化以便消除或降低振幅变化的影响。每个最终频率域表示提供特定块中的音频的频谱含量(作为频率的函数的振幅)的表示。比较连续块的频谱含量以及可采用大于阈值的每个变化来表示听觉事件的时间开始或时间结束。

为最小化计算复杂度，可以仅处理时间域音频波形的频率的单个频带，优选地是频谱的整个频带(在平均质量的音乐系统的情况下，可以是约50Hz至15kHz)或基本上是整个频带(例如，频带定义滤波器(band defining filter)可排除高和低频率极限值)。

优选地，可使频率域数据规格化，如下所述。频率域数据需要规格化的程度给出了振幅表示。因此，如果在该程度中的变化超出预定阈值，会采用太多来表示事件边界。由频谱变化和振幅变化产生的事件开始和结束点可一起相“OR”以便可以识别由任一类型的变化引起的事件边界。

在实际的实施例中，其中用划分成块的样值表示音频，每个听觉事件时间开始和停止点边界必定与时间域音频波形所划分的块的边界相符。在实时处理需求(当较大的块需要较小的处理开销)和事件定位的分辨率(越小的块提供有关听觉事件的位置的更详细的信息)的折衷。

作为另一选择，如上面所建议的，但以更大的计算复杂度为代价，代替处理单个频率带中的时间域波形的频谱含量，可以将在频率域转换之前的时间域波形的频谱划分成两个或多个频带。然后将每个频带转换成频率域并处理，好象它是独立的频道一样。然后，将最终事件边界一起“OR”来定义用于那个频道的事件边界。多个频带可以是固定的、自适应的或固定和自适应的组合。例如，可采用在音频噪声降低中采用的跟踪滤波器技术和其他技术来定义自适应频带(例如，在800Hz和2kHz的主要同时正弦波能产生集中在那两个频率上的两个自适应确定的频带)。

可以采用用于提供听觉事件分析的其他技术来识别本发明中的听觉事件。

附图说明

图1A是表示根据本发明，来自音频信号的签名抽取方法的流程图。音频信号可以是例如，代表音乐(例如，音乐合成或“歌曲”)。

图1B是示例说明根据本发明，用于两个音频信号的时间对准的方法的流程图。

图2是表示根据本发明，从音频信号抽取音频事件位置和可选地抽取主要子带的方法的流程图。

图3是根据本发明，描述频谱分析的步骤的原理性示意表示。

图4A和4B是根据本发明，表示多个听觉事件位置和听觉事件边界的理想化音频波形。

具体实施方式

在本发明的具体实施例中，用在512个样值的块中处理过的样值表示音频信号，其对应于在采样率44.1kHz的约11.6msec的输入音频。所期望的是具有低于最短可感知听觉事件的持续时间(约20msec)的时间的块长度。将理解本发明的方面不限于这一具体的实施例。本发明的原理不要求在确定听觉事件前将音频排列成样值块，如果它们是的话，也不需要提供恒定长度的块。然而，为最小化复杂度，因为三个主要原因，512个固定长度的样值(或2的一些其他次方的样值数)是很有用的。首先，对实时处理应用而言，它提供足够低可接受的等待时间。其次，它是2次方的样值数，对快速傅里叶变换(FFT)分析来说是很用的。第三，它提供适当大的窗口大小以执行有用的听觉场景分析。

在下述论述中，将输入信号假定为具有在范围[-1，+1]中的振幅值的数据。

听觉场景分析2(图1A)

在音频输入数据块(未示出)后，在图1A的过程2(“听觉场景分析”)中，将输入音频信号划分成听觉事件，每个听觉事件倾向于感知为单独的。听觉场景分析可通过如上所述的听觉场景分析(ASA)方法来实现。尽管下面更详细地描述了用于执行听觉场景分析的一种适当的方法，本发明预料到可以采用用于执行ASA的其他有用技术。

图2略述了可用作图1A的听觉场景分析方法的根据本发明的技术的方法。ASA步骤或方法2由三个通用处理子步骤组成。第一子步骤2-1(“执行频谱分析”)获得音频信号，将其划分成块并对每个块计算频谱概图(spectral profile)或频谱含量。频谱分析将音频信号变换成短期频率域。这能使用任一滤波器组，或基于变换或带通滤波器组，以及以线性或弯曲频率间隔(诸如较接近于人耳的特征的Bark标度或临界频带)来执行。用任一滤波器组，存在时间和频率间的折衷。较大的时间分辨率并由此的较短时间间隔导致较低的频率分辨率。较大的频率分辨率并由此的较窄子带导致较长的时间间隔。

第一子步骤计算音频信号的连续时间段的频谱含量。在具体的实施例中，如上所述，ASA块大小是输入音频信号的512个样值(图3)。在第二子步骤2-2中，确定逐块的频谱含量的差值(“执行频谱概图差值测量”)。因此，第二子步骤计算音频信号的连续时间段间的频谱含量中的差值。在第三子步骤2-3(“识别听觉事件边界的位置”)中，当一个频谱概图块与下一频谱概图块间的频谱差值大于阈值时，将该块边界视为听觉事件边界。因此，当这些连续时间段间的频谱概图含量中的差值超出阈值时，第三子步骤设置连续时间段间的听觉事件边界。如上所述，所感知的听觉事件的开始或结束的有效指示符被视为频谱含量中的变化。将事件边界的位置存储为签名。可选的方法步骤2-4(“识别域子带”)使用频谱分析来识别也可以存储为签名的一部分的主频率于带。

在这一实施例中，听觉事件边界定义具有为一个频谱概图块的最小长度的整数倍频谱概图块的长度的听觉事件(在这一例子中为512个样值)。原理上，事件边界不必限定于此。

音频的重叠或非重叠段可以开窗并用来计算输入音频的频谱概图。重叠导致关于听觉事件的位置的更精细的分辨率，并使其更不可能错过事件，诸如瞬变现象。然而，随着时间分辨率增加，频率分辨率降低。重叠还增加计算复杂度。因此，可以省略重叠。图3表示正开窗并通过离散傅里叶变换(DFT)变换成频率域的不重叠的512个样值的原理表示。每个块可被开窗并通过使用诸如DFT，为了速度优选地实现为快速傅里叶变换(FFT)被变换成频率域。

可使用下述变量来计算输入块的频谱概图：

N＝输入信号中的样值数量

M＝用来计算频谱概图的开窗样值的数量

P＝频谱计算重叠的样值的数量

Q＝所计算的频谱窗口/区域的数量

总的来说，任何整数可用于上述变量。然而，如果将M设置成2的幂以便标准的FFT可用于频谱概图计算，该实施方式将更有效。在听觉场景分析方法的具体实施例中，所列出的参数可设置成：

M＝512样值(或在44.1kHz时为11.6msec)

P＝0样值(无重叠)

上述列出值被实验上确定并通常发现具有足够精确度地识别听觉事件的位置和持续时间。然而，已经发现在识别一些很难发现的事件中，设置P至256样值(50％重叠)的值是很有用的。尽管可以使用许多不同类型的窗口来最小化由于开窗的频谱假象，用在频谱概图计算中的窗口是M-point Hanning，Kaiser-Besel或其他适合的，优选地是非矩形的窗口。在当它们显示出在大量的音频材料上提供很好的结果的广泛的实验分析后，选择上述指出的值和Hanning窗口类型。对具有主要为低频含量的音频信号的处理来说，推荐非矩形开窗。矩形开窗产生可导致不正确的事件检测的频谱假象。与整个重叠/加法过程必须提供恒定水平诸如在此不应用约束以及为了特性，诸如其时间/频率分辨率和阻带抑制，可选择窗口的某些编译码应用不同。

在子步骤2-1(图2)中，通过用M-point Hanning，Kaiser-Bessel或其他适当的窗口开窗数据，使用M-Point快速傅里叶变换转换成频率域，以及计算FFT系数的大小来计算每个M样值块的频谱。使结果数据规格化以便并使最大大小设置成1，以及将M个数的规格化阵列转换成对数域(log domain)。该阵列不必转换成对数域，但该转换简化在子步骤2-2中的差值量度的计算。此外，对数域更精密地与人的听觉系统的对数域振幅属性匹配。最终的对数域值具有负无穷大到0的范围。在具体的实施例中，可将下限任加于值的范围上。该限度可以是固定的，例如-60dB，或频率相关的以反映在低和非常高的频率的无噪声声音的更低可听性。(注意，可以将阵列的大小降低到M/2，因为FFT表示负和正频率)。

子步骤2-2计算相邻块的频谱间的差值的度量。对每个块来说，由来自子步骤2-1的M(对数)频谱系数的每一个减去用于在前块的相应的系数，以及所计算差值的大小(忽略符号)。然后将这些M个差值合计成一个数字。因此，对整个音频信号来说，结果是Q个正数的阵列。该数字越大，频谱中块与在前块的差值越大。这一差值度量可以表示为通过将差值度量除以用在合计中的频谱系数的数量(在这一情况下为M个系数)的每个频谱系数的平均差值。

子步骤2-3通过将阈值应用到具有阈值的来自子步骤2-2的不同度量的阵列上来识别听觉事件边界的位置。当不同度量超过阈值时，认为频谱中的变化足以发新事件信号以及将变化的块号记录为事件边界。对上述给出的M和P值以及对以dB为单位表示的对数域值(在子步骤2-1中)，如果比较整个大小FFT(包括镜像部分)，可以将阈值设置成2500，如果比较一半的FFT(如上面提到，FFT表示负和正频率-对FFT的大小来说，一个是另一个的镜像)，则设置成1250。用实验方法选择这一值以及它提供良好的听觉事件边界检测。可改变这一参数值以降低(增加该阈值)或增加(降低该阈值)事件的检测。

这一具体实施例的细节并不重要。可以采用计算音频信号的连续时间段的频谱含量、计算连续时间段间的差值，以及当这些连续时间段间的频谱概图含量中的差值超出阈值时，设置连续时间段间的各个边界的听觉事件边界的其他方法。

对由Q块(大小M样值)组成的音频信号，图1A的函数2的听觉场景分析方法的输出是表示听觉事件边界的位置的信息的阵列b(q)其中，q＝0，1，…，Q-1。对M＝512样值的块大小来说，P＝0样值和44.1kHz的信号采样率的重叠，听觉事件分析函数2每秒输出约86个值。优选地，将阵列b(q)存储为签名，以便在其基本形式中，没有可靠的主要子带频率信息，音频信号的签名是表示音频事件边界的串的阵列b(q)。

用于两个不同信号的听觉场景分析的结果的例子如图4A和4B所示。上面图，图4A表示听觉场景处理的结果，其中在样值1024和1536已经识别出听觉事件边界。下面图，图4B表示在样值1024、2048和3072识别事件边界。

识别主要子带(可选的)

对每个块来说，在ASA处理(如图2所示)中的可选的另外的步骤是从表示块的主频率“子带”的音频信号抽取信息(在每个块中的数据转换成频率域导致划分成频率子带的信息)。这一基于块的信息可被转换成基于听觉事件的信息，以便识别用于每个听觉事件的主频率子带。用于每个听觉事件的这一信息通过除听觉事件边界信息外的另外的信息提供相关处理(描述如下)。可从在人耳最敏感的频率的范围或频带内的多个子带，例如三个或四个选择主要(最大振幅)子带。另外，可以使用其他标准来选择子带。

频谱可划分成例如三个子带。最佳子带的频率范围是：

子带1 301Hz至560Hz

子带2 560Hz至1938Hz

子带3 1938Hz至9948Hz

为确定主要子带，合计用于每个子带的幅度频谱(或功率幅度频谱)的平方。计算这一用于每个子带的最终总和并选择最大值。也可以在选择最大值之前，加权子带。加权可以采用将用于每个子带的总和除以该子带中的频谱值的数量的形式，或另外采用加法或乘法以强调在另一个频带的重要性的形式。在平均起来，一些子带上具有比其他子带更多的能量但从感知上不太重要的情况下，这会很有用。

考虑由Q块组成的音频信号，主要子带处理的输出是表示在每个块(q＝0，1，...，Q-1)中主要子带的信息的阵列DS(q)。优选地，阵列DS(q)连同阵列B(q)一起存储在签名中。因此，通过可选的主要子带信息，音频信号的签名是分别表示每个块内的听觉事件边界串和主频率子带的两个阵列B(q)和DS(q)。因此，在理想化的例子中，两个阵列能具有下述值(对有三个可能主要子带的情形而言)。

1 0 1 0 0 0 1 0 0 1 0 0 0 0 0 1 0(事件边界)

1 1 2 2 2 2 1 1 1 3 3 3 3 3 3 1 1(主要子带)

在大多数情况下，主要子带在每个听觉事件内保持相同，如这一例子所示，或在对事件内的所有块来说不统一的情况下，具有平均值。因此，对每个听觉事件可确定主要子带，以及可以修改阵列DS(q)以提供指定给事件内的每个块的相同的主要子带。

时间偏差计算

签名抽取(图1A)的输出是存储为签名的听觉场景分析信息的一个或多个阵列，如上所述。时间偏差计算函数(图1B)采用两个签名和计算它们的时间偏差的度量。这是使用已知的互相关方法来执行的。

设S₁(长度Q₁)为来自签名1的阵列以及S₂(长度Q₂)为来自签名2的阵列。首先，计算互相关阵列R_E1E2(见，例如，JohnG.Proakis，Dimitris G.Manolakis，Digital Signal Processing：Principles，Algorithms，and applications，Macmillan Publishing Company，1992，ISBN0-02-396815-X)。

R_{E_{1} E_{2}} (1) = Σ_{Q = - \infty}^{\infty} S_{1} (q) S_{2} (q - 1), 1 = 0, &PlusMinus; 1, &PlusMinus; 2 . . . - - - (1)

在具体的实施例中，使用基于标准的FFT的技术来执行互相关以降低执行时间。

由于S₁和S₂在长度上是有限的，因此R_E1E2的非零分量具有Q_i+Q₂-1的长度。对应于R_E1E2的最大元素的滞后l表示相对于S₁的S₂的时间偏差。

这一偏差与签名阵列S₁和S₂具有相同的单位。在具体的实现中，S₁和S₂的元素具有等效于用来生成阵列的音频块大小减去相邻块的重叠的更新率：即，M-P＝512-0＝512样值。因此，偏差具有512音频样值单位。

时间对准

时间对准函数(图1B)使用所计算的偏差来时间对准两个音频信号。它将音频信号1和2(用来生成两个签名)和一个相对于另一个的偏差作为输入以便在时间方面使它们更紧密地对准。两个对准的信号被输出作为音频信号3和4。所应用的延迟或偏差量是签名S₂和S₁间的相对签名延迟l_peak与签名的样值中的分辨率M-P的乘积。

对仅对两个源公用的通路感兴趣的应用来说(如在直接比较未标记和标记的信号的水印检测的情况中)，截断两个源以便仅保持那个公用通路。

对不丢失信息的应用来说，可通过插入上沿样值(leadingsample)来偏移一个信号。例如，设置x₁(n)为具有长度N₁样值的音频信号1的样值，以及x₂(n)为具有N₂样值的长度的音频信号2的样值。同时l_peak表示以M-P音频样值为单位，相对于S₁的S₂的偏差。

相对于音频信号1的音频信号2的样值偏差D₂₁是签名偏差l_peak和M-P的乘积。

D₂₁＝l_peak·(M-P) (3)

如果D₂₁为零，两个输入信号被未修改的输出为信号3和4(见图1B)。如果D₂₁为正，那么通过插入上沿样值修改输入信号x₁(n)。

信号x₁(n)和x₂(n)被输出为信号3和4(见图1B)。如果D₂₁为负，那么通过插入上沿样值来修改输入信号x₂(n)。

计算复杂度和精确度

计算偏差所需的计算能力与签名阵列Q₁和Q₂的长度成比例。因为所述的方法具有一些偏差误差，本发明的时间对准方法可以在直接与信号作用而不是签名的具有更精细的分辨率的传统方法之后。例如，这种方法可以采用对准的音频信号部分(稍微比偏差误差长以确保一些重叠)以及直接互相关这些部分以确定细微偏差的精确样值误差。

由于使用签名阵列来计算样值偏差，时间对准方法的精确度限定为用来生成签名的音频块大小：在这一实现中，为512样值。换句话说，这一方法将在近似加上/减去一半的块大小的样值偏差中具有误差：在这一实现中为±256样值。

这一误差可通过增加签名的分辨率来降低；然而，存在精确度和计算复杂度之间的折衷。偏差误差越低，在签名阵列中要求越精细的分辨率(更多的阵列元素)，以及这在计算互相关中要求更高的处理能力。越高的偏差误差，在签名阵列中要求越粗略的分辨率(更少的阵列元素)并且这在计算互相关中要求更低的处理能力。

应用

水印涉及通过用一些预定的方式修改信号，包括增加其他的信号将信息嵌入信号中，以创建标记信号。检测或提取嵌入信息通常依赖于将标记信号与初始源进行的比较。同时所标记的信号通常还经过其他的处理，包括音频编码和扬声器/麦克风声通路传输。本发明提供将所标记的信号与初始源进行时间对准，从而便于抽取所嵌入的信息的方法。

用于确定音频编码器质量的主观和客观方法将编码的信号与用来生成编码信号的初始源进行比较，以便创建信号恶化的度量(例如，ITU-R5点失真分)。该比较依赖于编码音频信号和初始源信号的时间对准。这一方法提供时间对准源和编码信号的手段。

本发明的其他应用是可能的，例如，改善音频和视频信号的声象吻合，如上所述。

应理解到本发明的其他变形和修改及其不同方面的实现对本领域的技术人员来说是显而易见的，以及本发明不由所述的这些特定的实施例来限定。因此，本发明预期覆盖落在在此公开和要求的基本原理的精神和范围内的任一和所有修改、变形或等效。

可以按在数字信号处理器、通用编程数字计算机，和/或专用数字计算机中执行的软件功能实现本发明及其各个方面。模拟和数字信号流间的接口可用适当的硬件和/或按软件和/或固件的功能实现。

Claims

1.一种用于时间对准第一和第二音频信号的方法，其中一个音频信号已经从另一音频信号导出或者这两个音频信号均已经从第三音频信号导出，所述方法包括：

导出所述第一和第二音频信号的每一个的简化信息特征，每个特征包括比从中导出所述特征的音频信号少的信息，其中每个所述简化信息特征基于听觉场景分析，每个所述特征具有与从中导出所述特征的音频信号基本上相同的相对定时关系，

计算一个特征相对于另一个特征的时间偏差，

响应所述时间偏差，修改相对于彼此的所述音频信号的时间关系以便所述音频信号基本上彼此相符。

2.如权利要求1所述的方法，其中计算时间偏差包括执行所述特征的互相关。

3.如权利要求1所述的方法，其中基于听觉场景分析的所述简化信息特征是至少表示听觉事件边界的位置的信息阵列。

4.如权利要求1所述的方法，其中以相同的方式导出每一个所述音频信号的简化信息特征。

5.一种用于时间对准音频信号和另一信号的方法，其中当所述音频信号与所述另一信号基本上同步时，将所述音频信号的第一简化信息特征嵌入所述另一信号中，其中所述第一特征基于听觉场景分析，该方法包括：

在所述音频信号和所述另一信号已经遇到不同时间偏差后，由所述另一信号恢复嵌入的所述音频信号的第一特征，并用与导出所述音频信号的第一特征相同的方式，从所述音频信号导出所述音频信号的第二简化信息特征，

计算第一特征相对于第二特征的时间偏差，

响应所述时间偏差，修改所述音频信号相对于另一信号的时间关系，以便所述音频信号和所述另一信号基本上彼此同步。

6.如权利要求5所述的方法，其中所述另一信号是视频信号。

7.如权利要求5所述的方法，其中计算时间偏差包括执行所述特征的互相关。

8.如权利要求5至7的任何一个所述的方法，其中基于听觉场景分析的所述简化信息特征是至少表示听觉事件边界的位置的信息阵列。

9.如权利要求8所述的方法，其中所述信息阵列还表示所述听觉事件的每一个的主频率子带。

10.如权利要求8所述的方法，其中所述听觉事件边界是由以下确定的

计算所述音频信号的连续时间段的频谱含量，

计算所述音频信号的连续时间段之间的频谱含量中的差值；以及

当这些连续时间段间的频谱含量中的差值超出阈值时，将听觉事件边界识别为连续时间段间的边界。

11.如权利要求10所述的方法，其中所述信息阵列还表示所述听觉事件的每一个的主频率子带。