CN1524258B

CN1524258B - 把音频信号分割成听觉事件

Info

Publication number: CN1524258B
Application number: CN028106717A
Authority: CN
Inventors: 布莱特·G.·克罗克特
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2001-05-25
Filing date: 2002-02-26
Publication date: 2012-03-21
Anticipated expiration: 2022-02-26
Also published as: EP1519363B1; MXPA03010749A; CA2448182A1; CA2447911A1; AU2002242265B2; JP4272050B2; WO2002097790A8; EP1519363A1; WO2002097792A1; CA2448178C; CA2448182C; AU2002252143B2; AU2002240461B2; AU2002242265B8; EP1393298A1; EP1393298B1; CN1524258A; EP1393300B1; JP2004528599A; CA2447911C

Abstract

一方面，通过计算音频信号的连续时间组的频谱内容(5-1)，计算音频信号的连续时间组之间频谱内容的差别(5-2)，并且当这样的连续时间组之间频谱内容的差别超过阈值时，把听觉事件边界看作连续时间组之间的边界(5-3)，本发明把音频信号分成被感知为独立的并且不同的听觉事件。另一方面，通过把音频信号分成被感知为独立的并且不同的听觉事件，格式化并保存和听觉事件相关的信息(5-4)，本发明产生音频信号的简化信息表现。可选的是，本发明还可向一个或多个听觉事件指定特征(5-5)。

Description

把音频信号分割成听觉事件

技术领域

本发明涉及音频信号的音质处理。更具体地说，本发明涉及把音频信号分成或分割成被感知为独立的并且不同的“听觉事件”(auditory event)的各个方面，涉及根据听觉事件，以及根据这种音频事件内音频信号的特征或特性(可选)，产生音频信号的简化信息表现的各个方面。音频事件可用于定义由“ISO/IEC JTC 1/SC29/WG 11”提出的MPGE-7“音频片断”。

背景技术

把声音分成独立并且截然不同地感知的单元或片断(segment)有时被称为“听觉事件分析”或“听觉情景分析”(“ASA”)。AlbertS.Bregman在他的著作Auditory Scene Analysis-The Perceptual Organization of Sound，Massachusetts Institute of Technology，1991，Fourth printing 2001，Second MIT Press paperback edition中陈述了听觉情景分析的大量论述。另外，Bhadkamkar等的美国专利6002776(1999年12月14日)把日期回溯到1976的出版物引用为“与借助听觉情景分析的声音分离相关的现有著作”。但是，Bhadkamkar等的专利不赞成听觉情景分析的实际应用，推定“虽然从科学观点来看，作为人类听觉处理的模型是有趣的，不过在获得重要进展之前，涉及听觉情景分析的技术目前计算要求非常大，非常专业化，以致不能被认为是实用的声音分离技术”。

存在用于从音频抽取特征或特点的多种不同方法。如果恰当地定义了特点或特征，则可利用自动化程序完成特点或特征的抽取。例如“ISO/IEC JTC 1/SC 29/WG 11”(MPEG)目前正在使各种音频描述符标准化，作为MPEG-7标准的一部分。这些方法的一个常见缺陷是它们忽略了听觉情景分析。这些方法试图定期测量某些“传统的”信号处理参数，例如音调、振幅、功率、谐波结构和频谱平直度。这些参数虽然提供有用的信息，但是并不把音频信号分析和表征成根据人类认知独立并且截然不同地感知的元素。但是，MPEG-7描述可用于表征根据本发明的各个方面识别的听觉事件。

发明内容

根据本发明，提供了一种把多通道数字音频信号的每一个分成被感知为独立的并且不同的听觉事件的方法，包括：获取时域音频信号，将时域音频信号分成组并将时域音频信号变换到短期频域；在每个通道中，确定组之间频谱内容的差别；和在每一通道中，当一个组和下一个组之间的频谱差别大于阈值时，将它们之间的组边界定义为听觉事件边界，其中每一听觉事件是相邻边界之间的音频片断，在这样的相邻的边界之间仅有一个听觉事件，每一边界表示前一事件的结束和下一事件的开始，使得获得连续的听觉事件。

根据本发明的各个方面，提供一种把音频分成时间片断或者“听觉事件”的计算效率高的方法，所述时间片断或“听觉事件”被感知为是独立的并且截然不同的。这些听觉事件的边界的位置(音频事件相对于时间的开始和结束之处)提供可用于描述音频信号的有用信息。可集合听觉事件边界的位置，产生音频信号的简化信息表示(reduced information representation)(“签名”或“指纹”)，所述简化信息表现可被保存，以便供与其它类似产生的签名(例如已知作品数据库中的签名)的比较分析之用。

Bregman指出“当声音在音质、音调、音量或者(在较小的程度上)空间位置方面突然变化时，我们听到离散的单元。”(Auditory Scene Analysis-The Perceptual Organization of Sound，supra at page 469)。Bregman还讨论了当在频率方面分离多个同时发生的声音流时，所述多个同时声音流的感知。

为了检测音质和音调方面的变化，和振幅方面的某些变化，根据本发明一个方面的音频事件检测方法检测频谱成分相对于时间的变化。当应用于其中通道代表空间方向的多通道声音时，根据本发明一个方面的方法还检测源于空间位置相对于时间的变化的听觉事件。可选的是，根据本发明的另一方面，该方法还可检测振幅相对于时间的变化，检测频谱成分相对于时间的变化检测不出振幅相对于时间的变化。

在其计算要求最低的实现中，该方法通过分析整个频段(全带宽音频)或者几乎整个频段(在实际实现中，通常采用在频谱末端的限带滤波)，并向最响亮的音频信号分量赋予最大权重，把音频分成时间片断。该方法利用了声学现象(psychoacoustic)，其中在较小的时标(20毫秒及更小)下，耳朵会专注于指定时间的单一听觉事件。这意味着虽然同时可能发生多个事件，但是一个分量会是知觉上最突出的，并且会被单独处理，如同只发生该唯一事件一样。利用该效果还允许听觉事件检测随着被处理音频的复杂性而缩放。例如，如果被处理的输入音频信号是独奏曲，那么识别的音频事件可能是正在演奏的单个音符。类似地，对于输入的语音信号，语音的各个分量，例如元音和辅音可能被识别为单个的音频元素。随着音频复杂性的增大，例如具有鼓声或多种乐器及歌声的音乐，听觉事件检测识别在任意指定时刻“最突出”(即最响亮的)音频元素。另一方面，通过考虑听觉阈值和频率响应，确定最突出的音频元素。

虽然根据全带宽音频计算的听觉事件边界的位置提供和音频信号的内容相关的有用信息，不过可能希望提供进一步描述音频事件的内容，供音频信号分析之用的附加信息。例如，可跨越两个或更多子频段分析音频信号，确定子频段听觉事件的位置，并使用其传送和听觉事件的内容的本质相关的更多详细信息。这种详细信息可提供不能从宽带分析获得的附加信息。

从而，可选的是，根据本发明的另一方面，以更大的计算复杂性为代价，该方法还可考虑离散子频段(固定的或动态确定的子频段，或者固定和动态确定的子频段)中，而不是整个带宽中，频谱成分相对于时间的变化。这种备选方法会考虑不同子频段中一个以上的音频流，而不是假定在特定时间，只能感知单个音频流。

甚至根据本发明一个方面的简单、计算高效的方法也可用于识别听觉事件。

通过把时域音频波形分成时间间隔或组，随后利用滤波器组，或者时间-频率变换，例如FFT，把每组中的数据转换到频域，可实现根据本发明的听觉事件检测方法。每组的频谱内容的振幅被归一化，以便消除或减小振幅变化的影响。得到的每个频域表示提供特定组中的音频的频谱内容(随频率变化的振幅)的指示。比较连续各组的频谱内容，获得大于阈值的变化，以指示听觉事件的时间起点或时间终点。图1表示了图解说明听觉事件的单声道管弦乐的理想波形。当播放新音符时发生的频谱(spectral)变化分别在采样2048和2560触发新的听觉事件2和3。

如上所述，为了使计算复杂性降至最小，可以只处理时域音频波形的单一频段，最好是频谱的整个频段(就一般质量的音乐系统来说，约为50Hz～15kHz)或者几乎整个频段(例如，限带滤波器(band defining filter)可排除高频或低频极端)。

频域数据最好被归一化，如下所述。频域数据需要被归一化的程度给出振幅的指示。从而，如果该程度的变化超过预定的阈值，那么该变化也可被用于指示事件边界。源于频谱变化和源于振幅变化的事件起点和终点可进行“或”运算，从而识别源于频谱变化或振幅变化的事件边界。

就分别代表一个空间方向的多个音频通道来说，每个通道可单独处理，并且关于所有通道得到事件边界可进行“或”运算。从而，例如，突然转换方向的听觉事件可能会在一个通道中导致“事件终止”边界，在另通道中导致“事件开始”边界。当进行“或”运算时，会识别两个事件。从而，本发明的听觉事件检测方法能够根据频谱(音质和音调)，振幅和方向变化，检测听觉事件。

作为另一种选择，如上所述，代替处理单一频段中时域波形的频谱内容，在频域转换之前，时域波形的频谱可被分成两个或者更多的频段，其代价是计算复杂性较大。随后可把每个频段转换到频域，并如同其是独立通道那样，按照上述方式进行处理。随后对得到的事件边界进行“或”运算，以便确定该通道的事件边界(boundary)。多个频段可以是固定频段，自适应频段，或者固定频段和自适应频段的组合。例如，可采用音频降噪和其它技术中采用的跟踪滤波器技术确定自适应频段(例如，800Hz和2kHz下的同时主正弦波会导致两个以这两个频率为中心的自适应确定的频段)。虽然可在转换到频域之前过滤数据，不过更好的是把全带宽音频转换到频域，随后只处理感兴趣的那些子频段分量。就利用FFT转换全带宽音频来说，只会同时处理和感兴趣的子频段对应的sub-bin。

另一方面，就多个子频段或多个通道来说，可保存事件边界信息，而不是对听觉事件边界进行“或”运算，这会导致信息的丢失。

如图2中所示，数字音频信号的频域量值包含Fs/2频率之外的可用频率信息，Fs是数字音频信号的采样频率。通过把音频信号的频谱分成两个或多个子频段(不必具有相同带宽，也不必达到Fs/2Hz的频率)，可按照和全带宽听觉事件检测方法类似的方式，相对时间分析子频段。

子频段听觉事件信息提供和音频信号相关的附加信息，所述附加信息更准确地描述音频信号，并把该音频信号和其它音频信号区分开。如果音频签名信息将被用于从大量的音频签名(signature)中识别匹配的音频信号，那么这种提高的区别能力是有用的。例如，如图2中所示，子频段听觉事件分析(听觉事件边界分辨率为512个采样)发现了不同地开始于采样1024和1536，并不同地终止于采样2560、3072和3584的多个子频段听觉事件。单一的宽带听觉情景分析不可能获得这种程度的信号细节。

子频段听觉事件信息可用于得到每个子频段的听觉事件签名。虽然这会增大音频信号的签名的大小，并且可能增大比较多个签名所需的计算时间，但是它也可极大地降低错误地把两个签名列为相同签名的概率。可根据应用，实现签名大小、计算复杂性和信号准确性之间的折衷。另一方面，代替为每个子频段提供一个签名，可对听觉事件进行“或”运算，从而提供单一的一组“组合”听觉事件边界(在采样1024、1536、1560、3072和3584)。虽然这会导致某些信息的丢失，但是它可提供代表组合听觉事件的单一一组事件边界，和单一子频段或宽带分析的信息相比，所述单一的一组事件边界提供更多的信息。

虽然子频段听觉事件信息独自提供有用的信号信息，不过可分析子频段听觉事件的位置之间的关系，并使用所述关系更深入地理解音频信号的本质。例如，子频段听觉事件的位置和强度可被用作音频信号的音质(频率内容)的指示。子频段中出现的彼此和谐相关的听觉事件还可提供关于音频的和声本质的有益理解。单个子频段中听觉事件的存在也可提供关于音频信号的音调本质的信息。分析多个通道间的子频段听觉事件的关系也可提供空间内容信息。

就分析多个音频通道来说，每个通道被独立分析，每个通道的听觉事件边界信息可单独保留或者可被组合，以便提供组合听觉事件信息。这和多个子频段的情况有些类似。参考图3可更好地理解组合听觉事件，图3表示了关于两通道音频信号的听觉情景分析结果。图3表示了两个通道中音频数据的同时片断。第一通道中音频的ASA处理(图3的上面的波形)识别在为512个采样频谱曲线组规模(sample spectral-profile block size)的倍数的采样(本例中为1024和1536个采样)处的听觉事件边界。图3的下面的波形是第二通道，ASA处理导致位于同样是频谱曲线组规模的倍数的采样(本例中为1024、2048和3072个采样)处的事件边界。这两个通道的组合听觉事件分析导致具有位于采样1024、1536、2048和3072(对通道的听觉事件边界进行“或”运算)的边界的组合听觉事件片断。要认识到，听觉事件边界的精确性实际上取决于频谱曲线组规模的大小(本例中N为512个采样)，因为事件边界只能出现于组边界处。不过，已发现512个采样(sample)的组规模以足以提供满意结果的精度确定听觉事件边界。

图3A表示了三个听觉事件。这些事件包括(1)瞬变(transient)前的音频的静止部分，(2)瞬时事件，和(3)音频瞬变的回波/持续部分。图3B中表示了语音信号，所述语音信号具有突出的高频咝音事件，以及当咝音演化或“形成(morphs)”为元音，元音的前半部和元音的后半部时的事件。

图3还表示了当在两个通道的时间一致的数据组间共享听觉事件数据时的组合事件边界。这种事件分割提供五个组合听觉事件区(对事件边界进行“或”运算)。

图4表示了四通道输入信号的例子。通道1和4分别包含三个听觉事件，通道2和3分别包含两个听觉事件。所有四个通道间，时间相同的数据组的组合听觉事件边界位于采样数512、1024、1536、2560和3072，如图4的下部所示。

原则上，处理后的音频可以是数字的或者模拟的，不必被分成组(block)。但是，在实际的应用中，输入信号可能是由采样表示的一个或多个通道的数字音频，其中每个通道中的连续采样被分成例如为4096个采样的组(如上面图1、3和4的例子中那样)。在这里陈述的实际实施例中，通过检查最好代表约20ms或更少音频的音频采样数据组，确定听觉事件，20ms的音频被认为是人耳能够识别的最短听觉事件。从而，实际上，可通过检查更大的音频采样数据组内例如多个512个采样块组，确定组合听觉事件，所述512个采样对应于44.1kHz采样频率下，约11.6ms的输入音频。但是，在本文献内，当提到检查音频数据的片断，以便检测听觉事件边界时，涉及的是“组”而不是“子组”。由于成组地检查音频采样数据，因此实际上，听觉事件时间起点和终点边界必须均与组边界相符。在实时处理要求(因为较大的组需要较少的处理开销)和事件位置的分辨率(较小的组提供更详细的听觉事件位置信息)之间存在折衷。

阅读和理解本发明的详细说明，可理解和明白本发明的其它方面。

附图说明

图1是图解说明听觉的单通道管弦乐的理想波形。

图2是图解说明把全带宽音频分成子频段，以便识别子频段听觉事件的原理的理想示意原理图。水平刻度是采样，垂直刻度是频率。

图3是两个音频通道中的一系列理想化波形，表示每个通道中的音频事件和这两个通道间的组合音频事件。

图4是四个音频通道中的一系列理想化波形，表示每个通道中的音频事件和这四个通道间的组合音频事件。

图5是表示根据本发明，从音频信号抽取音频事件位置和抽取主子频段(可选)的流程图。

图6是描述根据本发明的频谱分析的示意原理图。

具体实施方式

根据本发明一个方面的实施例，听觉情景分析由如图5的一部分中所示的三个一般处理步骤构成。第一步骤5-1(“执行频谱分析”)获取时域音频信号，把时域音频信号分成组，并计算每组的频谱曲线(spectral profile)或频谱内容。频谱分析把音频信号变换到短期(short-term)频域。这可利用任意过滤器组，基于变换或多组带通滤波器，并且在线性频率空间或者在卷曲(warped)的频率空间(例如更接近于人耳特性的Bark标度或临界频带)中实现。对于任意滤波器组来说，存在时间和频率之间的折衷。时间分辨率越高，从而时间间隔越短，导致频率分辨率越低。频率分辨率越高，从而子频段越窄，导致时间间隔越长。

如图6中所示，第一步骤计算音频信号的连续时间片断的频谱内容。在实际的实施例中，ASA组规模为输入音频信号的512个采样。在第二步骤5-2中，确定组之间频谱内容的差别(“执行频谱曲线差别测量”)。从而，第二子步骤计算音频信号的连续时间片段之间频谱内容的差别。如上所述，感知的听觉事件的起点或终点的有力指示符是频谱内容的变化。在第三步骤5-3(“识别听觉事件边界的位置”)中，当一个频谱曲线组和下一频谱曲线组之间的频谱差别大于阈值时，组边界被认为是听觉事件边界。相邻边界之间的音频片断构成一个听觉事件。从而，当连续时间片段之间的频谱曲线内容的差别超过阈值时，第三步骤在这样的连续时间片段之间设置听觉事件边界，从而确定听觉事件。本实施例中，听觉事件边界定义长度为具有一个频谱曲线组的最小长度(本例中为512采样)的频谱曲线组的整数倍的听觉事件。原则上，无需这样限制事件边界。作为这里讨论的实际实施例的备选方案，输入组规模可以变化，例如以致基本上为听觉事件的大小。

事件边界的位置可保存为简化信息表征或“签名”，并根据需要被格式化，如步骤5-4中所示。可选的处理步骤5-5(“识别主子频段”)使用步骤5-1的频谱分析识别也可保存为签名一部分的主子频段。主子频段信息可和听觉事件边界信息组合，以便确定每个听觉事件的特征。

音频的重叠或非重叠片断都可被开窗(windowed)，并被用于计算输入音频的频谱曲线。重叠导致更好的听觉事件的位置分辨率，并使得不容易错过某一事件，例如瞬变。但是，重叠也会增大计算复杂性。从而，可忽略重叠。图6表示了正被开窗，并借助离散傅里叶变换(DFT)转换到频域的非重叠512采样组的原理图。每个采样组可被开窗，并通过利用DFT(出于速度的考虑，最好实现为快速傅里叶变换(FFT))，被变换到频域中。

下述变量可用于计算输入组的频谱曲线：

N＝输入信号中采样的数目

M＝用于计算频谱曲线的组中的开窗采样的数目

P＝频谱计算重叠的采样的数目

Q＝计算的频谱窗口/区域的数目

一般来说，上述变量可使用任意整数。但是，如果M被设置成等于2的幂，从而标准FFT可用于频谱曲线计算，那么实现将更为高效。另外，如果N、M和P被选择成以致Q是一个整数，那么这会在N个采样的末端，避免欠运行或过运行的音频。在听觉情景分析过程的实际实施例中，列举的参数可被设置为：

M＝512采样(或者在44.1kHz下为11.6毫秒)

P＝0采样(无重叠)

上面列举的数值是根据实验确定的，并且通常发现能以足够的精度确定听觉事件的位置和持续时间。但是，已发现把P的值设置为256采样(50％重叠)而非0采样有助于识别某些难以发现的事件。虽然许多不同类型的窗口可被用于使起因于开窗的频谱非自然信号(artifact)降至最小，不过频谱曲线计算中使用的窗口是M-pointHanning(汉宁)，Kaiser-Bessel或者其它适宜的窗口，最好是非矩形窗口。在大量的实验分析之后，选择上面指出的数值和Hanning窗口，因为它们已被证明可在大量的音频材料范围内，提供极好的结果。对于低频率内容占主要的音频信号的处理来说，优选非矩形开窗。矩形开窗产生频谱非自然信号，会导致事件的不正确检测。和整体重叠/相加过程必须提供恒定电平的某些编码器/解码器(编译码器)应用不同，这种约束条件不适用于此，可关于特征，例如其时间/频率分辨率和带阻(stop band rejection)选择窗口。

在步骤5-1(图5)中，通过利用M-point Hanning，Kaiser-Bessel或者其它适宜的窗口对数据开窗，利用M-point快速傅里叶变换转换到频域，并计算复数FFT系数的量值(magnitude)，可计算每个M-采样组的频谱。所得到的数据被归一化，从而最大的量值被置为1，M个数字的归一化阵列被转换到对数(log)域。该阵列不必被转换到对数域(log domain)，但是该转换简化了步骤5-2中差别量度的计算。此外，对数域更紧密地和人类听觉系统的本质相符。得到的对数域数值的范围为-∞到零。在实际的实施例中，可对该范围的数值施加一个下限；该下限可以是固定的，例如-60dB，或者可和频率相关，以便反映低频率和甚高频下静寂声音的较低可听度。(注意也可把阵列的大小减小到M/2，因为FFT代表负频率以及正频率)。

步骤5-2计算相邻组的频谱之间的差别的量度(measure)。对于每组，从前一组的对应系数减去步骤5-1得到的M(对数)频谱系数中的每个系数，并计算差别的量值(忽略符号)。随后把这M个差值加和成一个数字。从而，对于音频的包含Q组的连续时间片断，结果是一组Q个正数，每个数字用于一个组。数字越大，采样组和前一采样组在频谱方面的差别越大。通过把差别量度除以求和中使用的频谱系数的数目(这种情况下，M个系数)，也可用每个频谱系数的平均差别表示该差别量度。

步骤5-3通过对步骤5-2的具有阈值的该组差别量度应用阈值，确定听觉事件边界的位置。当差别量度超过阈值时，认为频谱方面的变化足以表示新的事件，该变化的组编号被记录为事件边界。对于上面给出的M和P的数值，以及对于以dB为单位表示的对数域数值(步骤5-1中)，如果比较整个量值FFT(包括镜像部分)，那么阈值可被设置为2500，如果比较1/2FFT(如上所述，FFT代表负频率及正频率-对于FFT的量值来说，一个量值是另一量值的镜像)，则阈值可被置为1250。根据实验选择该数值，该数值提供良好的听觉事件边界检测。可改变该参数值，以便降低(增大阈值)或者增加(降低阈值)事件的检测。

对于由Q组(每组M个采样)构成的音频信号，图5的步骤5-3的输出可被保存，并在步骤5-4中格式化成表示听觉事件边界的位置的信息阵列B(q)，q＝0，1，…，Q-1。对于M＝512个采样的组规模，P＝0采样的重叠以及44.1kHz的信号采样速率来说，听觉情景分析子例程2每秒大约输出86个数值。阵列B(q)最好被保存为签名，从而就其基本形式来说(无步骤5-5的可选主子频段频率信息)，音频信号的签名是代表一串听觉事件边界的阵列B(q)。

识别主子频段(可选)

对于每个组，图5的处理中的可选附加步骤是从音频信号抽取指示该组的主频率“子频段”的信息(每组中的数据向频域的转换导致分到子频段中的信息)。基于组的信息可被转换成基于听觉事件的信息，从而关于每个听觉事件识别主子频段。每个听觉事件的这种信息提供和听觉事件本身相关的信息，并且有助于提供音频信号的更详细并且独特的简化信息表现。在确定全带宽音频的听觉事件的情况下，而不是把音频分为多个子频段，确定每个子频段的听觉事件的情况下，采用主子频段信息更恰当。

可从位于人耳最敏感的频率范围或频段内的多个子频段，例如3个或4个子频段，选择主要的(最大振幅)子频段。另一方面，可使用其它标准来选择子频段。例如，频谱可被分成三个子频段。子频段的有用频率范围是(这些特定频率不是关键性的)：

子频段1：300Hz-550Hz

子频段2：550Hz-2000Hz

子频段3：2000Hz-10000Hz

为了确定主子频段，为每个子频段计算量值频谱(或者功率量值频谱)的平方和。计算每个子频段的最终和数，并选择最大的和数。在选择最大的和数之前，子频段也可被加权。加权可采取把每个子频段的和数除以该子频段中频谱数值的数目的形式，或者可采取加法或乘法的形式，以强调某一频段和另一频段相比的重要性。在一些子频段平均具有比其它子频段更大的能量，但是在感知上不太重要的情况下，这是有用的。

考虑由Q组构成的音频信号，主子频段处理的输出是代表每组中的主子频段的信息阵列DS(q)(q＝0，1，…Q-1)。阵列DS(q)最好被格式化并和阵列B(q)一起保存在签名中。从而，借助可选的主子频段信息，音频信号的签名是两个阵列B(q)和DS(q)，分别代表一串听觉事件边界和每组内的主子频段，如果需要，可根据其确定每个听觉事件的主子频段。从而，在理想化例子中，这两个阵列可具有下述数值(对于存在三个可能的主子频段的情况)。

10100010010000010(事件边界)

11222211133333311(主子频段)

多数情况下，主子频段(dominant subband)在每个听觉事件内保持相同，如本例中所示，或者如果对于事件内的所有组来说，它是不均匀的，则具有平均值。从而，可为每个听觉事件确定一个主子频段，阵列DS(q)可被修改，以保证相同的主子频段被分配给事件内的每组。

可借助图7、8和9的等同方案更一般地表示图5的过程。在图7中，平行于把音频信号分成听觉事件(每个听觉事件会被独立并且截然不同地感知)的“识别听觉事件”子例程(function)或步骤7-1，以及平行于可选的“识别听觉事件的特征”子例程或步骤7-2，应用音频信号。可采用图5的过程把音频信号分成听觉事件，或者可采用其它一些适当的方法。根据需要，“保存和格式化”子例程或步骤7-3保存和格式化子例程或步骤7-1确定的听觉事件信息(可以是听觉事件边界的标识)。可选的“识别特征”子例程或步骤7-3还接收听觉事件信息。“识别特征”子例程或步骤7-3可借助一个或多个特征表征一些或全部听觉事件。如同结合图5的过程说明的那样，这种特征可包括听觉事件的主子频段的标识。特征还可包括一个或多个MPEG-7音频描述符，例如包括听觉事件的功率的量度(measure)，听觉事件的振幅的量度，听觉事件的频谱平直性的量度，以及听觉事件是否基本寂静(silent)。特征还可包括其它特征，例如听觉事件是否包括瞬变。一个或多个听觉事件的特征还被“保存和格式化”子例程或步骤7-3接收，并和听觉事件信息一起被保存和格式化。

图8和9中表示了图7的方案的备选方案。在图8中，并不直接把音频输入信号提供给“识别特征”子例程或步骤8-3，而是“识别特征”子例程或步骤8-3从“识别听觉事件”子例程或步骤8-1接收信息。图5的方案是这种方案的具体例子。在图9中，串联排列子例程或步骤9-1、9-2和9-3。

该实际实施例的细节并不关键。可采用其它方式计算音频信号的连续时间片断的频谱内容，计算连续时间片断之间的差别，当连续时间片断之间频谱曲线内容的差异超过阈值时，在这样的连续时间片断之间的相应边界设置听觉事件边界。

应明白对于本领域的技术人员来说，本发明的其它变化和修改的实现及本发明的各个方面是显而易见的，本发明不受描述的这些具体实施例限制。于是，本发明意图覆盖落入这里公开和要求的基本原理的精神和范围内的任意修改、变化或等同物。

本发明及其各个方面可实现为在数字信号处理器，程控通用数字计算机和/或专用数字计算机中执行的软件子例程。可用适当的硬件和/或作为软件和/或固件中的子例程，实现模拟和数字信号流之间的接口。

Claims

1.一种把多通道数字音频信号的每一个分成被感知为独立的并且不同的听觉事件的方法，包括：

获取时域音频信号，将时域音频信号分成组并将时域音频信号变换到短期频域；

在每个通道中，确定组之间频谱内容的差别；和

在每一通道中，当一个组和下一个组之间的频谱差别大于阈值时，将它们之间的组边界定义为听觉事件边界，其中每一听觉事件是相邻边界之间的音频片断，每一边界表示前一事件的结束和下一事件的开始，使得获得连续的听觉事件。

2.按照权利要求1所述的方法，还包括响应任意通道中听觉事件边界的识别，识别通道的组合听觉事件边界。

3.按照权利要求2所述的方法，其中各通道中的音频表示各自空间方向。

4.按照权利要求2所述的方法，其中各通道中的音频表示音频信号的频段。

5.按照权利要求1所述的方法，其中各通道中的音频表示各自空间方向。

6.按照权利要求1所述的方法，其中各通道中的音频表示音频信号的频段。

7.按照权利要求1所述的方法，其中确定组之间的频谱差别包括检测每个通道中音频信号的连续时间组之间频谱内容的变化。

8.按照权利要求7所述的方法，其中连续时间组中的音频数据由系数表示，检测每个通道中音频信号的连续时间组之间频谱内容的变化包括：

将一个组的系数的量值从相邻组的对应系数的量值中减去。

9.按照权利要求8所述的方法，其中检测每个通道中音频信号的连续时间组之间频谱内容的变化还包括：

计算通过将一个组的系数的量值从相邻组的对应系数的量值中减去得到的差值之和，并比较差值总和和阈值。

10.按照权利要求9所述的方法，其中当差值总和超过所述阈值时，识别听觉事件边界。

11.按照权利要求1所述的方法，其中所述方法还包括向一个或多个听觉事件指定一个特征。

12.按照权利要求11所述的方法，其中可向一个或多个听觉事件指定的特征包括下述一个或多个：听觉事件的频谱的主子频段，听觉事件的功率的量度，听觉事件的振幅的量度，听觉事件的频谱平直性的量度，听觉事件是否基本寂静，以及听觉事件是否包括瞬变。

13.按照权利要求12所述的方法，还包括格式化并保存听觉事件边界和指定给听觉事件的特征的标识。

14.按照权利要求1所述的方法，还包括格式化并保存听觉事件边界。

15.按照权利要求1所述的方法，还包括使频域数据归一化。

16.按照权利要求15所述的方法，其中确定组之间的频谱差别包括检测每个通道中音频信号的连续时间组之间频谱内容的变化。

17.按照权利要求16所述的方法，还包括检测每个通道中音频信号的连续时间组之间振幅的变化。

18.按照权利要求17所述的方法，其中依据频域数据被归一化的程度，检测所述振幅变化。

19.按照权利要求1所述的方法，其中确定组之间的频谱差别还包括使频域数据归一化，并把归一化数据转换到对数域。

20.按照权利要求19所述的方法，其中确定组之间的频谱差别还包括检测每个通道中音频信号的连续时间组之间振幅的变化。

21.按照权利要求20所述的方法，其中依据频域数据被归一化的程度，检测所述振幅变化。