CN1620684A

CN1620684A - 利用基于听觉事件的表征比较音频

Info

Publication number: CN1620684A
Application number: CNA028106709A
Authority: CN
Inventors: 布莱特·G.·克罗克特; 迈克尔·J.·史密斯尔斯
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2001-05-25
Filing date: 2002-02-22
Publication date: 2005-05-25
Anticipated expiration: 2022-02-22
Also published as: JP4763965B2; HK1066902A1; KR20040004648A; HK1066087A1; KR20040004647A; MXPA03010751A; JP4906230B2; WO2002097791A1; EP1390942B1; ATE470927T1; CN1511311A; CN1272765C; KR100873396B1; ES2400700T3; KR100871607B1; KR100911679B1; EP2549475B1; CN1264137C; DK1393300T3; EP2549475A1

Abstract

用于确定一个音频信号是否源于另一音频信号，或者两个音频信号是否源于相同音频信号的方法比较所述音频信号的简化信息表征，其中所述简化信息表征以音频情景分析为基础。所述比较从表征中消除时间漂移或延迟对音频信号的影响，或者使表征中，时间漂移或延迟对音频信号的影响降至最小(5－1)，计算相似性的量度(5－2)，和对照阈值，比较相似性的量度。在一种备选方案中，通过使两个表征互相关，消除时间漂移或延迟的影响或者使之降至最小。在另一种备选方案中，通过把表征变换到和时间延迟影响无关的域中，例如频域中，消除时间漂移或延迟的影响或者使之降至最小。在这两种情况下，通过计算相关系数，计算相似性的量度。

Description

利用基于听觉事件的表征比较音频

技术领域

本发明涉及音频信号。更具体地说，本发明涉及表征音频信号，并利用表征(characterization)确定一个音频信号是否来源于另一音频信号，或者两个音频信号是否来源于相同的音频信号。

背景技术

把声音分成被感知为独立的单元有时被称为“听觉事件分析”或“听觉情景分析”(“ASA”)。Albert S.Bregman在他的著作Auditory Scene Analysis-The Perceptual Organization of Sound，Massachusetts Institute of Technology，1991，Fourth printing2001，Second MIT Press paperback edition中陈述了听觉情景分析的大量论述。另外，Bhadkamkar等的美国专利6002776(1999年12月14日)把日期回溯到1976的出版物引用为“与借助听觉情景分析的声音分离相关的现有著作”。但是，Bhadkamkar等的专利不赞成听觉情景分析的实际应用，推定“虽然从科学观点来看，作为人类听觉处理的模型是有趣的，不过在获得重要进展之前，涉及听觉情景分析的技术目前计算要求非常大，非常专业化，以致不能被认为是实用的声音分离技术”。

Bregman在一段中指出“当声音在音质、音调、音量或者(在较小的程度上)空间位置方面突然变化时，我们听到离散的单元。”(Auditory Scene Analysis-The Perceptual Organization of Sound，supra at page 469)。Bregman还讨论了当在频率方面分离多个同时发生的声音流时，所述多个同时声音流的感知。

存在用于从音频抽取特征或特点的多种不同方法。如果恰当地定义了特点或特征，则可利用自动化过程完成特点或特征的抽取。例如“ISO/IEC JTC 1/SC 29/WG 11”(MPEG)目前正在使各种音频描述符标准化，作为MPEG-7标准的一部分。这些方法的一个常见缺陷是它们忽略了ASA。这些方法试图定期测量某些“传统的”信号处理参数，例如音调、振幅、功率、谐波结构和频谱平直度。这些参数虽然提供有用的信息，但是并不把音频信号分析和表征成根据人类认知独立感知的元素。

听觉情景分析试图通过识别按照人类认知独立的元素，以和人类感知相似的方式表征音频信号。通过研究这种方法，可实现准确完成迄今为止需要人类帮助的任务的自动化过程。

独立感知元素的识别允许利用比完整信号本身少得多的信息，唯一地识别音频信号。例如，可采用基于听觉事件的简洁且唯一的识别确定复制自另一信号(或者复制自作为另一信号的相同原始信号)的信号。

发明内容

描述了一种产生音频信号的唯一的简化信息表征(reduced-information characterization)的方法，所述简化信息表征可用于识别所述音频信号。所述表征可被看作音频信息的“签名”或“指纹”。根据本发明，执行听觉情景分析(ASA)，以把听觉事件识别为表征音频信号的基础。理想地，听觉情景分析识别即使音频经过处理，例如低位速率编码或者通过扬声器的声传输，听众也能感知的听觉事件。音频信号可由听觉事件的边界位置表征，可选的是，还可由每个听觉事件的主子频段表征。所得到的信息模式构成简洁的音频指纹或签名，所述音频指纹或签名可和一个或多个其它这样的音频指纹或签名比较。确定相应签名的至少一部分相同(按照所需的置信度)表明从其得到相应签名的音频信号的相关部分相同，或者源于相同的音频信号。

根据本发明听觉情景分析方法通过根据听觉事件信息，比较签名，提供一种快速、准确地比较两个音频信号(尤其是音乐)的方法。和传统的抽取对察觉音频信号之间相似性不太重要的特征(例如音调、振幅、功率和谐波结构)的特征抽取方法相反，ASA抽取成为相似性察觉的基础的信息或特征。ASA的应用提高了在已经历重要处理，例如低位速率编码或通过扬声器的声传输的材料(material)中发现相似性的机会。

虽然实际上可在模拟或数字领域(或者它们的某一组合)内实践本发明，不过在本发明的实际实施例中，用数据的成组采样表示音频信号，并在数字领域中进行处理。

参见图1A，对音频信号应用听觉情景分析2，以便产生和该信号相关的“签名”或“指纹”。这种情况下，关心的音频信号有两个。它们可能是相似的，因为一个音频信号可能来源于另一音频信号，或者这两个音频信号先前来源于相同的初始信号，但是事先并不知道这一点。从而，对这两个信号应用听觉情景分析。为了简化起见，图1A只表示了对一个信号应用ASA。如图1B中所示，这两个音频信号的签名，签名1和签名2被提供给产生相关性评分的相关器或相关子例程4。用户可设置最小相关性评分，规定这两个签名的至少一部分相同的所需置信度。实际上，这两个签名可以是保存的数据。在一种实际应用中，签名之一可源于，例如音乐作品的擅自复制，另一签名可以是数据库中的大量签名之一(每个签名源于版权所有者的音乐作品)，对照数据库中的大量签名，比较擅自复制的签名，直到获得按照所需置信度(如果有的话)的匹配。这可由机器自动实现，其细节在本发明的范围之外。

由于签名代表音频信号，但是要比签名源于的音频信号短得多(即，它们更简洁或者具有较少的位)，因此和确定两个音频信号之间的相似性相比，可更快速地确定两个签名之间的相似性(或者两个签名缺乏相似性)。

下面说明图1A和1B的其它细节。

根据本发明的一方面，提供一种把音频分成被感知为独立的时间片断或“听觉事件”的高效计算方法。

感知的听觉事件的起点和终点的有效指示符是频谱内容的改变。为了检测音质和音调(频谱内容)的变化，作为附属结果，振幅方面的某些变化，根据本发明一方面的音频事件检测方法检测频谱成分相对于时间的变化。可选的是，根据本发明的另一方面，该方法还可检测振幅相对于时间的变化，检测频谱成分相对于时间的变化检测不出振幅相对于时间的变化。

在其计算要求最小的实现中，该方法通过分析音频信号的整个频段(全带宽音频)或者基本整个频段(在实际实现中，通常采用在频谱末端的限带滤波)，并向最响亮的音频信号分量赋予最大权重，把音频分成时间片断。该方法利用了音质现象，其中在较小的时标(20毫秒及更小)下，耳朵会专注于指定时间的单一听觉事件。这意味着虽然同一时间可能发生多个事件，但是一个分量会是知觉上最突出的，并且会被单独处理，好象只发生该唯一事件一样。利用该效果还允许听觉事件检测随着被处理音频的复杂性而缩放。例如，如果被处理的输入音频信号是独奏曲，那么被识别的音频事件可能是正在演奏的单个音符。类似地对于输入的语音信号，语音的各个分量，例如元音和辅音可能被识别为单个的音频元素。随着音频复杂性的增大，例如具有鼓声或多种乐器及歌声的音乐，听觉事件检测识别在任意指定时刻最突出(即最响亮的)音频元素。另一方面，通过考虑到听觉阈值和频率响应，确定“最突出的”音频元素。

可选的是，根据本发明的另一方面，以更大的计算复杂性为代价，该方法还可考虑离散频段(固定的或动态确定的频段，或者固定和动态确定的频段)中，而不是整个带宽中，频谱成分相对于时间的变化。这种备选方法会考虑不同频段中一个以上的音频流，而不是假定在特定时间，只能感知单个音频流。

甚至根据本发明一个方面的简单、计算高效的音频分割方法也可用于识别听觉事件。

通过把时域音频波形分成时间间隔或组，随后利用滤波器组，或者时间-频率变换，例如离散傅里叶变换(DFT((考虑到速度，实现为快速傅里叶变换(FFT))，把每组中的数据转换到频域，可实现本发明的听觉事件检测方法。每组的频谱内容的振幅被归一化，以便消除或减小振幅变化的影响。得到的频域表示提供特定组中的音频的频谱内容(随频率变化的振幅)的指示。比较连续各组的频谱内容，获得大于阈值的变化，以指示听觉事件的时间起点或时间终点。

为了使计算复杂性降至最小，可以只处理时域音频波形的单一频带，最好是频谱的整个频带(就一般质量的音乐系统来说，约为50Hz～15kHz)或者大体上是整个频带(例如，限带滤波器可排除高频或低频极端)。

频域数据最好被归一化，如下所述。频域数据需要被归一化的程度给出振幅的指示。从而，如果该程度的变化超过预定的阈值，那么该变化也可被用于指示事件边界。源于频谱变化和源于振幅变化的事件起点和终点可进行“或”运算，从而识别源于这两种变化的事件边界。

在借助分成组的采样表示音频的实际实施例中，每个听觉事件时间起点和终点必须与时域音频波形分成的组的边界相符。实时处理要求(因为较大的组需要较小的处理开销)和事件位置的分辨率(较小的组提供更详细的听觉事件的位置信息)之间存在折衷。

作为另一种选择，如上所述，代替处理单一频带中时域波形的频谱内容，在频域转换之前，时域波形的频谱可被分成两个或者更多的频带，其代价是计算复杂性较大。随后把每个频带转换到频域，并如同其是独立通道那样进行处理。随后对得到的事件边界进行“或”运算，以便确定该通道的事件边界。多个频带可以是固定频带，自适应频带，或者固定频带和自适应频带的组合。例如，可采用音频降噪和其它技术中采用的跟踪滤波器技术确定自适应频段(例如，800Hz和2kHz下的同时主正弦波会导致两个以这两个频率为中心的自适应确定的频段)。

本发明中，也可采用提供听觉情景分析的其它技术来识别听觉事件。

附图说明

图1A是表示根据本发明，从音频信号抽取签名的流程图。音频信号可代表，例如音乐(例如音乐作品或者“歌曲”)。

图1B是图解说明根据本发明，使两个签名相关的流程图。

图2是表示根据本发明，从音频信号抽取音频事件位置，以及可选地，从音频信号抽取主要子频段的流程图。

图3是描述根据本发明的频谱分析步骤的示意原理图。

图4A和4B是根据本发明，表示多个音频事件位置或事件边界的理想化音频波形。

图5是根据本发明的图2的相关性4，更详细地表示使两个签名相关的流程图。

图6A-D是根据本发明，图解说明签名对准的例子的信号的示意原理图。图6A-D未按比例绘制。在数字音频信号由采样表示的情况下，水平轴表示保存在每个签名阵列中的离散数据的顺序。

具体实施方式

在本发明的实际实施例中，音频信号由以512个采样为一组(block)处理的采样表示，在44.1kHz的采样频率下，512个采样大约对应于11.6毫秒的输入音频。时间小于可感知的最短听觉事件(auditory event)的持续时间(约20毫秒)的组长度是合意的。本发明的各个方面显然并不局限于这样的实际实施例。本发明的原理不要求在确定音频事件之前，把音频排列成采样组，如果音频被排列成采样组，也不要求提供恒定长度的采样组。但是，为了使复杂性降至最小，出于三个主要原因，512个采样的固定组长度(或者为2的其它幂的采样数)是有益的。首先，它为实时处理应用提供可接受的足够低的等待时间。其次，采样数是2的幂，对于快速傅里叶变换(FFT)分析是有益的。第三，提供适当大小的窗口大小，以完成有用的听觉情景分析。

在下面的讨论中，输入信号被假定为振幅值在[-1，+1]范围内的数据。

听觉情景分析2(图1A)

在音频输入数据分组(未示出)之后，在图1A的过程2(“听觉情景分析”)中，输入音频信号被分成听觉事件，每个听觉事件会感知为是独立的。可借助上面讨论的听觉情景分析(ASA)过程完成听觉情景分析。虽然下面更详细地说明了实现听觉情景分析的一种恰当过程，不过也可采用用于完成ASA的其它有用技术。

图2根据本发明的技术概述了可用作图1A的听觉情景分析过程的过程。ASA步骤或过程2由三个一般的处理子步骤构成。第一子步骤2-1(“执行频谱分析”)获得音频信号，把音频信号分成组，并计算每组的频谱曲线(spectral profile)或频谱内容。频谱分析把音频信号变换到短期(short-term)频域。这可利用任意过滤器组来实现；基于变换或多组带通滤波器，并且在线性频率空间或者在卷曲(warped)的频率空间(例如更接近于人耳特性的Bark标度或临界频带)中。对于任意滤波器组来说，存在时间和频率之间的折衷。时间分辨率越高，从而时间间隔越短，导致频率分辨率越低。频率分辨率越高，从而子频段越窄，导致时间间隔越长。

第一子步骤2-1计算音频信号的连续时间片断(segment)的频谱内容。在实际的实施例中，如下所述，ASA组大小为输入音频信号的512个采样(图3)。在第二子步骤2-2中，确定组之间频谱内容的差别(“执行频谱曲线差别测量”)。从而，第二子步骤计算音频信号的连续时间片段之间频谱内容的差别。在第三子步骤2-3(“识别听觉事件边界的位置”)中，当一个频谱曲线组和下一频谱曲线组之间的频谱差别大于阈值时，组边界被认为是听觉事件边界。从而，当连续时间片段之间的频谱曲线内容的差别超过阈值时，第三子步骤在这样的连续时间片段之间设置听觉事件边界。如上所述，感知的听觉事件的开始或结束的有效指示符被认为是频谱内容方面的变化。事件边界的位置被保存为签名(signature)。可选的处理步骤2-4(“识别主要(dominant)子频段”)使用频谱分析识别也可保存为签名一部分的主要子频段。

本实施例中，听觉事件边界确定长度为频谱曲线组的整数倍(最小长度为一个频谱曲线组(本例中为512个采样))的听觉事件。原则上，事件边界无需被这样限制。

音频的重叠或非重叠片断都可被开窗(windowed)，并被用于计算输入音频的频谱曲线。重叠导致更好的听觉事件的位置分辨率，并使得不容易错过某一事件，例如瞬态(transient)。但是，随着时间分辨率的提高，频率分辨率降低。重叠还会增大计算复杂性。从而，可忽略重叠。图3表示了正被开窗，并借助离散傅里叶变换(DFT)转换到频域的非重叠512采样组的原理图。每个采样组可被开窗，并通过利用DFT(出于速度的考虑，最好实现为快速傅里叶变换(FFT))，被变换到频域中。

下述变量可用于计算输入组的频谱曲线：

N＝输入信号中采样的数目

M＝用于计算频谱曲线的开窗采样的数目

P＝频谱计算重叠的采样的数目

Q＝计算的频谱窗口/区域的数目

一般来说，上述变量可使用任意整数。但是，如果M被设置成等于2的幂，从而标准FFT可用于频谱曲线计算，那么实现将更高效。在听觉情景分析过程的实际实施例中，列举的参数可被设置为：

M＝512个采样(或者在44.1kHz下为11.6毫秒)

P＝0采样(无重叠)

上面列举的数值是根据实验确定的，并且通常发现能以足够的精度确定听觉事件的位置和持续时间。但是，已发现把P的值设置为256个采样(50％重叠)有助于识别某些难以发现的事件。虽然许多不同类型的窗口可被用于使起因于开窗的频谱非自然信号(artifact)降至最小，不过频谱曲线计算中使用的窗口是M-pointHanning(汉宁)，Kaiser-Bessel或者其它适宜的窗口，最好是非矩形窗口。在大量的实验分析之后，选择了上面指出的数值和Hanning窗口，因为它们已被证明可在大量的音频材料范围内，提供极好的结果。对于低频率内容占主要的音频信号的处理来说，优选非矩形开窗。矩形开窗产生频谱非自然信号，会导致事件的不正确检测。和整体重叠/相加过程必须提供恒定电平的某些编译码器应用不同，这种约束条件不适用于此，可关于特征，例如其时间/频率分辨率和带阻(stop-band rejection)选择窗口。

在子步骤2-1(图2)中，通过利用M-point Hanning，Kaiser-Bessel或者其它适宜的窗口对数据开窗，利用M-point快速傅里叶变换转换成频域，并计算FFT系数的量值，可计算每个M-采样组的频谱。所得到的数据被归一化，从而最大的量值被置为1，M个数字的归一化阵列被转换到对数(log)域。该阵列不必被转换到对数域，但是该转换简化了子步骤2-2中差别量度的计算。此外，对数域更紧密地和人类听觉系统的对数域振幅本质相符。得到的对数域数值的范围为-∞到零。在实际的实施例中，可对该范围的数值施加一个下限；该下限可以是固定的，例如-60dB，或者可和频率相关，以便反映低频率和甚高频下静寂声音的较低可听度。(注意也可把阵列的大小减小到M/2，因为FFT代表负频率以及正频率)。

子步骤2-2计算相邻组的频谱之间的差别的量度。对于每组，从前一组的对应系数减去步骤2-1得到的M(对数)频谱系数中的每一个系数，并计算差别的量值(忽略符号)。随后把这M个差值加和成一个数字。从而，对于整个音频信号，结果是一组Q个正数；数字越大，采样组和前一采样组在频谱方面的差别越大。通过把差别量度(measure)除以求和中使用的频谱系数的数目(这种情况下，M个系数)，也可用每个频谱系数的平均差别表示该差别量度。

子步骤2-3通过对子步骤2-2的具有阈值的该组差别量度应用阈值，确定听觉事件边界的位置。当差别量度超过阈值时，认为频谱方面的变化足以表示新的事件，该变化的组编号(number)被记录为事件边界。对于上面给出的M和P的数值，以及对于以dB为单位表示的对数域数值(子步骤2-1中)，如果比较整个量值FFT(包括镜像部分)，那么阈值可被设置为2500，如果比较1/2FFT(如上所述，FFT代表负频率及正频率-对于FFT的量值来说，一个量值是另一量值的镜像)，则阈值可被置为1250。根据实验选择该数值，该数值提供良好的听觉事件边界检测。可改变该参数值，以便减少(增大阈值)或者增加(降低阈值)事件的检测。该实际实施例的细节并不重要。也可采用其它方式计算音频信号的连续时间片断的频谱内容，计算连续时间片断之间的差别，并当这种连续时间片断之间频谱曲线内容的差别超过阈值时，在连续时间片断之间的相应边界设置听觉事件边界。

对于由Q组(每组M个采样)构成的音频信号，图1A的子例程(function)2的听觉情景分析过程的输出是表示听觉事件边界的位置的信息阵列B(q)，q＝0，1，…，Q-1。对于M＝512采样的组大小，P＝0采样的重叠以及44.1kHz的信号采样速率来说，听觉情景分析子例程2每秒大约输出86个数值。阵列B(q)最好被保存为签名，从而就其基本形式来说(无可选的主要子频段频率信息)，音频信号的签名是代表一串听觉事件边界的阵列B(q)。

图4A和4B中表示了两种不同信号的听觉情景分析的结果的例子。上面的曲线图(图4A)表示听觉情景处理的结果，在采样1024和1536确定了听觉事件边界。下面的曲线图(图4B)表示了在采样1024、2048和3072的事件边界的识别。

识别主要的子频段(可选)

对于每个组，ASA处理(图2中所示)中的可选附加步骤是从音频信号抽取指示该组的主频率“子频段”的信息(每组中的数据向频域的转换导致分离到频率子频段中的信息)。基于组的信息可被转换成基于听觉事件的信息，从而关于每个听觉事件识别主要的子频段。除了听觉事件边界信息之外，每个听觉事件的该信息还为相关性处理(下面说明)提供另外的信息。

可从位于人耳最敏感的频率范围或频带内的多个子频段，例如3个或4个子频段，选择主要的(最大振幅)子频段。另一方面，可使用其它标准来选择子频段。例如，频谱可被分成三个子频段。子频段的优选频率范围是：

子频段1： 301Hz～560Hz

子频段2： 560Hz～1938Hz

子频段3： 1938Hz～9948Hz

为了确定主要的子频段，为每个子频段计算量值频谱(或者功率量值频谱)的平方和。计算每个子频段的最终和数，并选择最大的和数。在选择最大的和数之前，子频段也可被加权。加权可采取把每个子频段的和数除以该子频段中频谱数值的数目的形式，或者可采取加法或乘法的形式，以强调某一频段和另一频段相比的重要性。在一些子频段平均具有比其它子频段更多的能量，但是在感知上不太重要的情况下，这是有用的。

考虑由Q组构成的音频信号，主子频段处理的输出是代表每组中的主子频段的信息阵列DS(q)(q＝0，1，…Q-1)。阵列DS(q)最好和阵列B(q)一起保存在签名中。从而，借助可选的主子频段信息，音频信号的签名是两个阵列B(q)和DS(q)，分别代表一串听觉事件边界和每组内的主频率子频段。从而，在理想化的例子中，这两个阵列可具有下述数值(对于存在三个可能的主子频段的情况)。

1 0 1 0 0 0 1 0 0 1 0 0 0 0 0 1 0(事件边界)

1 1 2 2 2 2 1 1 1 3 3 3 3 3 3 1 1(主子频段)

多数情况下，主子频段在每个听觉事件内保持相同，如本例中所示，或者如果对于事件内的所有组来说，它是不均匀的，则具有平均值。从而，可为每个听觉事件确定一个主子频段，阵列DS(q)可被修改，以保证相同的主子频段被分配给事件内的每组。

相关性

借助相关子例程或过程，可确定一个签名是否和另一保存的签名相同或者相似。相关子例程或过程比较两个签名，确定它们的相似性。如这可分两步完成，图5中所示：步骤5-1消除或者使时间漂移或延迟对签名的影响降至最小，之后的步骤5-2计算签名间相似性的量度。

首先提及的步骤5-1使两个签名之间的任意延迟的影响降至最小。这种延迟可能被故意加到音频信号上，或者可以是信号处理和/或低位速率音频编码的结果。该步骤的输出是呈适合于计算它们相似性量度的形式的两个已修改签名。

其次提及的步骤5-2比较修改后的两个签名，找出它们相似性的定量量度(相关性评分)。随后可对照阈值，比较相似性的量度，以确定在所需的置信度下，签名是相同还是不同。说明了两种适宜的相关过程或子例程。这两种相关子例程或过程中的任意一种或者其它某一适宜的相关过程或子例程可用作本发明的一部分。

第一相关过程或子例程

时间延迟影响的消除

该相关子例程或过程从每个签名中分离出单一区域或部分，从而这两个区域是相应签名中最相似的部分，并且具有相同的长度。隔离区域可以是两个签名之间的全部重叠区域，如图6A-D中的例子中所示，或者隔离区域可以小于重叠区域。

优选方法使用两个签名的整个重叠区域。图6中表示了一些例子。两个签名的重叠区域可以是由一个签名的尾部和另一签名的头部构成的部分(图6B和6C)。如果签名之一小于另一签名，则这两个签名之间的重叠区域可以是较小签名的全部和较大签名的一部分(图6A和6D)。

从两个数据阵列中分离出公共区域的不同方法有许多种。标准的数学方法涉及使用互相关查找数据阵列之间的时滞(lag)或延迟量度。当两个数据阵列中每个数据阵列的起点被对准时，认为时滞或延迟为0。当两个数据阵列中每个数据阵列的起点未被对准时，时滞或延迟不为0。互相关计算两个数据阵列之间各个可能的时滞或延迟的量度：该量度被保存为阵列(互相关子例程的输出)。代表互相关阵列中峰值的时滞或延迟被认为是一个数据阵列相对于另一数据阵列的时滞或延迟。下面的段落以数学方式表示了这种相关方法。

假定S₁(长度N₁)是来自签名1的阵列，S₂(长度N₂)是来自签名2的阵列。首先计算互相关阵列R_E1E2(例如，参见John G.Proakis，Dimitris G.Manolakis，Digital Signal Processing：Principles，Algorithms，and Applications，Macmillan PublishingCompany，1992，ISBN 0-02-396815-X)。

R_{E_{1} E_{2}} (l) = Σ_{n = - \infty}^{\infty} S_{1} (n) . S_{2} (n - l) - - - - l = 0, &PlusMinus; 1, &PlusMinus; 2, . . . - - - - (1)

最好利用基于标准FFT的技术执行互相关，以减少执行时间。

由于S₁和S₂被限制范围，因此R_E1E2的长度为N₁+N₂-1。假定S₁和S₂相似，对应于R_E1E2中的最大元素的时滞l代表S₂相对于S₁的延迟。

对于MAX(R_E1E2(l))，l_peak＝l (2)

由于该时滞代表延迟，签名S₁和S₂的公共空间区域或者空间重叠部分被记为S₁′和S₂′；分别具有相同的长度N₁₂。

表述为等式，签名S₁和S₂的重叠部分S₁′和S₂′被定义为：

S₁′和S₂′的长度为：

第一相关过程或子例程

相似性量度

该步骤比较这两个签名，找出它们相似性的定量量度。优选的方法使用相关系数(等式5)。这是一种标准的教课书方法(William Mendenhall，Dennis D.Wackerly，Richard L.Scheaffer，Mathematical Statistics with Applications：Forth Edition，Duxbury Press，1990，ISBN 0-534-92026-8)。

ρ = \frac{Cov (S_{1}^{'}, S_{2}^{'})}{σ_{1} σ_{2}} - - - - (5)

这里σ₁和σ₂分别是S₁′和S₂′的标准偏差。

S₁′和S₂′的协方差被定义为：

Cov (S_{1}^{'}, S_{2}^{'}) = \frac{Σ_{m = 0}^{N_{12} - 1} (S_{1}^{'} (m) - μ_{1}) (S_{2}^{'} (m) - μ_{2})}{N_{12}} - - - - (6)

这里μ₁和μ₂分别是S₁′和S₂′的平均值(means)。

相关系数，ρ，在-1≤ρ≤1的范围内，这里-1和1表示理想相关。最好，对该量度的绝对值应用一个阈值，以便指示正确的匹配。

实际上，可调整阈值的数值(根据一组大量的训练签名)，以确保可接受的错误否定和(rejection)检测率。

对于具有较大失调(misalignment)或者延迟的签名，以及对于其中一个签名的长度显著小于另一签名的长度的签名，优选第一相关过程或子例程。

第二相关过程或子例程

时间延迟影响的消除

第二相关过程或子例程把签名从它们的当前时域变换到和时间延迟影响无关的域。该方法导致具有相同长度的两个修改签名，从而可使它们直接相关或者被比较。

按照这种方式变换数据的方式有许多种。优选的方法使用离散傅里叶变换(DFT)。信号的DFT可被分离成幅度和相位。信号的空间漂移或时间延迟(DFT的输入)改变DFT的相位，但是不改变幅度。从而，信号的DFT的幅度可被认为是信号的非时变表示。

DFT的这种特性允许这两个签名中的每个签名被变换成非时变表示。如果两个签名具有相同的长度，则可直接为每个签名计算幅度DFT，结果被保存为修改的签名。如果每个签名的长度不同，则在计算DFT之前，或者可把较长的签名截短，以便具有和较短的签名相同的长度，或者较短的签名可被补零或延伸，以便具有和较长签名相同的长度。下面的段落以数学形式表示了该方法。

假定S₁(长度N₁)是来自签名1的阵列，S₂(长度N₂)是来自签名2的阵列。首先，较长的签名被截短，或者较长的签名被补零，从而这两个签名具有相同的长度N₁₂。通过如下进行幅度DFT，产生变换后的签名阵列S₁′和S₂′：

S_{1}^{'} (k) = | Σ_{n = 0}^{N_{12} - 1} S_{1} (n) . e^{- j 2 πkn / N_{12}} | - - - - k = 0,1,2, . . ., N_{12} - 1 - - - - (8)

S_{2}^{'} (k) = | Σ_{n = 0}^{N_{12} - 1} S_{2} (n) . e^{- j 2 πkn / N_{12}} | - - - - k = 0,1,2, . . ., N_{12} - 1 - - - - (9)

实际上，对于每个签名，在计算DFT之前，最好减去其平均数。在进行离散傅里叶变换之前，也可对S₁和S₂签名应用某一开窗，但是，实际上没有发现任何特殊的开窗产生最佳结果。

第二相关过程或子例程

相似性量度

该相似性量度步骤比较这两个签名，以便查找它们的相似性的定量量度。优选的方法使用相关系数(等式9)。这是一种标准的教课书方法(William Mendenhall，Dennis D.Wackerly，Richard L.Scheaffer，Mathematical Statistics with Applications：Forth Edition，Duxbury Press，1990，ISBN 0-534-92026-8)。

ρ = \frac{Cov (S_{1}^{'}, S_{2}^{'})}{σ_{1} σ_{2}} - - - - (9)

这里σ₁和σ₂分别是S₁′和S₂′的标准偏差。

S₁′和S₂′的协方差被定义为：

Cov (S_{1}^{'}, S_{2}^{'}) = \frac{Σ_{k = 0}^{N_{12} - 1} (S_{1}^{'} (k) - μ_{1}) (S_{2}^{'} (k) - μ_{2})}{N_{12}} - - - - (10)

这里μ₁和μ₂分别是S₁′和S₂′的平均值。

实际上，可调整阈值的数值(根据一组大量的训练签名)，以确保可接受的错误否定和检测率。

在实际应用中，许多签名可保存在一起，形成代表“已知的”音频内容的签名库。这种情况下，通过计算平均签名，并分别从比较中的两个签名减去该平均签名，可提高区别签名的能力。

例如，在已知包含W个签名S₀′～S_W-1′的数据库的情况下，如下计算平均签名。

S_{MEAN}^{'} (k) = \frac{1}{W} Σ_{w = 0}^{W - 1} S_{w}^{'} (k) - - - - k = 0,1,2, . . ., N_{12} - 1 - - - - (12)

当比较两个签名时(即使签名之一不在签名库中)，在计算协方差(随后用在相关系数中)之前，从两个签名中减去平均签名。协方差变成：

Cov (S_{1}^{'}, S_{2}^{'}) = \frac{Σ_{k = 0}^{N_{12} - 1} [(S_{1}^{'} (k) - S_{MEAN}^{'} (k)) - μ_{1}] . [(S_{2}^{'} (k) - S_{MEAN}^{'} (k) μ_{2})]}{N_{12}} - - - - (13)

这里μ₁和μ₂分别是S₁′-S_MEAN′和S₂′-S_MEAN′的平均值。

对于具有较小失调或延迟的签名，以及对于签名的长度相似的签名，优选第二相关过程或子例程。它还显著快于第一相关过程或子例程。但是，由于不可避免地丢失一些信息(通过丢弃DFT的阶段(phase))，它导致准确性稍差的相似性量度。

应用

如前简要所述，本发明的应用能够搜索音频数据库；例如录音公司的曲库。可为库中的所有歌曲产生签名，签名保存在数据库中。本发明提供获得未知出处的歌曲，计算其签名，并对照数据库中的所有签名，比较其签名，从而确定该未知歌曲的身份的手段。

实际上，相似性量度的准确性(或者置信度)正比于被比较的签名的大小。签名的长度越大，则比较中使用的数据的量越大，从而相似性量度的置信度或准确性越大。已发现根据大约30秒的音频产生的签名提供良好的辨别力。但是，签名越大，进行比较所需的时间越长。

结论

应明白对于本领域的技术人员来说，本发明的其它变化和修改的实现及本发明的各个方面是显而易见的，本发明不受描述的这些具体实施例限制。于是，本发明意图覆盖落入这里公开和要求的基本原理的精神和范围内的任意修改、变化或等同物。

本发明及其各个方面可实现为在数字信号处理器，程控通用数字计算机和/或专用数字计算机中执行的软件子例程。可用适当的硬件和/或作为软件和/或固件中的子例程，实现模拟和数字信号流之间的接口。

Claims

1、一种确定一个音频信号是否源于另一音频信号，或者两个音频信号是否源于相同音频信号的方法，包括：

比较所述音频信号的简化信息表征，其中所述简化信息表征以音频情景分析为基础。

2、按照权利要求1所述的方法，其中所述比较包括：

从表征中消除时间漂移或延迟对音频信号的影响，或者使表征中时间漂移或延迟对音频信号的影响降至最小，

计算相似性的量度，和

对照阈值，比较相似性的量度。

3、按照权利要求2所述的方法，其中所述消除识别每个所述表征中的一部分，从而各部分是各表征中的最相似部分，并且各部分具有相同长度。

4、按照权利要求3所述的方法，其中所述消除通过执行互相关，识别每个所述表征中的一部分。

5、按照权利要求4所述的方法，其中所述计算通过计算每个所述表征中识别部分的相关系数，计算相似性的量度。

6、按照权利要求2所述的方法，其中所述消除把表征变换到和时间延迟影响无关的域中。

7、按照权利要求6所述的方法，其中所述消除把表征变换到频域中。

8、按照权利要求7所述的方法，其中所述计算通过计算每个所述表征中识别部分的相关系数，计算相似性的量度。

9、按照权利要求1-8任一所述的方法，其中所述表征之一是来自代表已知音频内容的表征库的表征。

10、按照权利要求9所述的方法，还包括在所述消除之后、所述比较之前，从两个表征中减去所述库中表征的平均值。

11、按照权利要求1-10任一所述的方法，其中基于听觉情景分析的所述简化信息表征是至少代表听觉事件边界的位置的多组信息。

12、按照权利要求11所述的方法，其中确定所述听觉事件边界的步骤包括：

计算所述音频信号的连续时间片断的频谱内容，

计算所述音频信号的连续时间片断之间频谱内容的差别，和

当连续时间片断之间频谱内容的差别超过阈值时，把听觉事件边界识别为所述连续时间片断之间的边界。

13、按照权利要求12或13所述的方法，其中所述多组信息还代表每个所述听觉事件的主子频段。