CN1511312A

CN1511312A - 音频信号的高质量时间标度和音调标度

Info

Publication number: CN1511312A
Application number: CNA028081447A
Authority: CN
Inventors: 布莱特・克罗克特; 布莱特·克罗克特
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2001-04-13
Filing date: 2002-02-12
Publication date: 2004-07-07
Anticipated expiration: 2022-02-12
Also published as: JP4152192B2; CA2443837A1; CA2443837C; EP1377967A2; EP2261892A2; CN1279511C; EP2261892A3; WO2002084645A2; EP1377967B1; JP2004527000A; TWI226602B; WO2002084645A3; EP2261892B1; HK1066088A1; MXPA03009357A

Abstract

在一种可选实施方式中，使用多个心理声学标准分析一个音频信号以识别出在其中进行时间标度和/或音调偏移处理将是不可听的或者最低可听性的一个信号区域，并在该区域内时间标度和/或音调偏移该信号。在另一种可选实施方式中，将信号划分成多个听觉事件，并在一个听觉事件内时间标度和/或音调偏移该信号。在又一种可选实施方式中，将信号划分成多个听觉事件，使用一个心理声学标准分析这些听觉事件以识别出在其中进行信号的时间标度和/或音调偏移处理将是不可听的或者最低可听性的那些听觉事件。还为音频的多声道提供了其它的可选实施方式。

Description

音频信号的高质量时间标度和音调标度

技术领域

本发明涉及音频信号的心理声学处理领域。具体而言，本发明涉及在何处和/或如何执行音频信号的时间标度和/或音调标度(音调偏移)等方面。所述处理尤其适用于用抽样代表的音频信号，例如数字音频信号。本发明还涉及将音频划分成“听觉事件”等方面，每个“听觉事件”都将被独立地感知到。

背景技术

时间标度是指改变一个音频信号的时间进程或者持续时间，而不改变该信号的频谱内容(可感知音色)或可感知音调(其中音调是一个与周期音频信号有关的特性)。音调标度是指修改一个音频信号的频谱内容或者可感知音调，而不影响其时间进程或者持续时间。时间标度和音调标度是互为对偶的方法。例如，通过时间标度将一个数字化音频信号的持续时间提高5％，然后以提高5％的抽样率(例如通过重新抽样)读取这些抽样，从而维持其原来的持续时间，可以将该数字化音频信号的音调调高5％，而不影响其持续时间。所获得的信号具有与原来的信号相同的持续时间，但是具有修改了的音调或频谱特性。如下面将要进一步讨论的，可以使用重新抽样，但其并非一个基本步骤，除非希望维持一个恒定的输出抽样率或者维持输入和输出抽样率相同。

一种能够独立地控制音频信号的时间和音调特性的高质量的方法有许多种用途。对于高保真度、多声道的音频信号来说更是如此，所述高保真和多声道的音频信号可以包含从单音信号到话音信号和复杂音乐片段的很宽范围的内容。时间和音调标度的用途包括音频/视频广播、音频/视频后期制作的同步和多音轨音频记录和混音。在音频/视频广播和后期制作环境中，可能必需以与原始素材不同的速率重放视频，产生伴音信号的音调标度信号。音调标度音频可以维持音频和视频之间的同步，同时保持原始素材的音色和音调。在多音轨音频或音频/视频的后期制造中，可能需要使新的素材匹配一个音频或视频片段的时间约束的持续时间。时间标度该音频可以在时间上约束新的音频片段，而不修改原始音频的音色和音调。

发明内容

根据本发明的一个方面，提供一种时间标度和/或音调偏移一个音频信号的方法。使用多个心理声学标准分析该信号以识别出该音频信号的一个区域，其中进行该音频信号的时间标度和/或音调偏移处理将是不可听的或者最低可听性的，然后在该区域内时间标度和/或音调偏移该信号。

根据本发明的另一个方面，提供一种时间标度和/或音调偏移音频信号的多个声道的方法。使用至少一个心理声学标准分析所述音频信号的多个声道中的每个声道以识别出在其中进行所述音频信号的时间标度和/或音调偏移处理将是不可听的或者最低可听性的这些音频信号声道中的区域，在音频信号至少一个声道中的一个识别出的区域内的一个时间片段期间，时间标度和/或音调偏移音频信号的所有的多个声道。

根据本发明的另一个方面，提供一种时间标度和/或音调偏移一个音频信号的方法，其中将该音频信号划分成多个听觉事件，该信号在一个听觉事件内被时间标度和/或音调偏移。

根据本发明的另一个方面，提供一种时间标度和/或音调偏移多个音频信号声道的方法，其中将每个声道内的音频信号划分成多个听觉事件。确定组合听觉事件，当一个音频事件边界出现在多个音频信号声道中的任一个声道中时，每个组合听觉事件具有一个边界。所有的音频信号声道在一个组合听觉事件中被时间标度和/或音调偏移，以便时间标度和/或音调偏移在每个声道中的一个听觉事件内。

根据本发明的另一个方面，提供一种时间标度和/或音调偏移一个音频信号的方法，其中将该信号划分成多个听觉事件，使用一个心理声学标准分析该多个听觉事件以识别出在其中进行音频信号的时间标度和/或音调偏移处理将是不可听的或者最低可听性的那些听觉事件。在一个听觉事件中执行时间标度和/或音调偏移处理，所述听觉事件是被识别为音频信号的时间标度和/或音调偏移处理将是不可听的或者最低可听性的一个听觉事件。

根据本发明的另一个方面，提供一种时间标度和/或音调偏移音频信号的多个声道的方法，其中将每个声道中的音频信号划分成多个听觉事件。使用至少一个心理声学标准分析该多个听觉事件以识别出在其中进行音频信号的时间标度和/或音调偏移处理将是不可听的或者最低可听性的那些听觉事件。确定组合听觉事件，每个组合听觉事件具有一个边界，其中一个听觉事件边界出现在每个声道的音频信号中。在一个组合听觉事件中执行时间标度和/或音调偏移处理，所述组合听觉事件是被识别为在音频信号多个声道中的时间标度和/或音调偏移处理将是不可听的或者最低可听性的一个组合听觉事件。

根据本发明的另一个方面，使用多个心理声学标准分析该音频信号包括分析音频信号以识别出音频信号的一个区域，其中的音频满足一组心理声学标准中的至少一个标准。

根据本发明的另一个方面，所述心理声学标准包括下面的一种或多种标准：(1)音频信号的识别区域因为一个瞬变基本上被前掩蔽或后掩蔽；(2)音频信号的识别区域基本上是不可听的；(3)音频信号的识别区域主要在高频上；和(4)音频信号的识别区域是一个音频信号片段中的一个较安静的部分，其中该区域之前和/或之后片段的一个部分或多个部分音量更大。下面将讨论一些心理声学掩蔽的基本原理。

本发明的一个方面是可以按照因时间标度和/或音调标度处理所产生的人为杂音递增可听性的递减顺序来排列该组心理声学标准(即一个标准的分级)。根据本发明的另一个方面，当满足最高等级的心理声学标准(即导致最低可听性人为杂音的标准)时，识别出一个区域。另外，即使满足一个标准，也可以寻找其它标准以识别出该音频中满足该标准的一个或多个其它区域。在多声道音频的情况下，后一方法可能很有用，以确定满足任何一个标准的所有可能区域的位置，所述标准包括该分级下面的那些标准，以便有多个声道之间的多个可能的公共拼接点。

尽管本发明的各个方面可以使用其它类型的时间标度和/或音调偏移处理(例如，参见在美国专利公开文献US 6,266,003 B1中所公开的处理，该专利在此全文引用作为参考)，本发明的各个方面可以有利地使用一种时间标度和/或音调偏移处理，其中：

在该音频信号的一个区域中选择一个拼接点，从而定义在时间上引导该拼接点的一个音频信号引导片段。

选择与该拼接点隔开的一个结束点，从而定义在时间上尾随该结束点的一个音频信号尾随片段，和在该拼接点和该结束点之间的一个音频信号目标片段。

在该拼接点处拼接该引导片段和尾随片段，从而当该结束点在时间上晚于所述拼接点(具有一个更高的抽样编号)时，通过省去目标片段来缩短该音频信号的时间周期(在用抽样表示一个数字音频信号的情况下，减少音频信号抽样数量)，或者当该结束点在时间上早于所述拼接点(具有一个更低的抽样编号)时，通过重复该目标片段来加长时间周期(增加抽样数量)，和

在一个产生所需要的时间标度和/或音调偏移的速率读出拼接后的引导和尾随片段。

可以在一个速率读出拼接后的引导和尾随片段，以使：

与原持续时间相同的一个持续时间导致音调偏移该音频信号；

在省去目标片段的情况下，以与抽样数量减少中的相对变化相同比例减少的一个持续时间导致时间压缩该音频信号；

在重复目标片段的情况下，以与抽样数量增加中的相对变化相同比例增加的一个持续时间导致时间扩展该音频信号；

以与抽样数量减少中的相对变化不同的一个比例降低的一个持续时间导致时间压缩和音调偏移该音频信号；或

以与抽样数量增加中的相对变化不同的一个比例增加的一个持续时间导致时间扩展和音调偏移该音频信号。

无论是省去(数据压缩)还是重复(数据扩展)一个目标片段，都仅有一个拼接点和一个拼接。在省去目标片段的情况下，拼接位于所省去的目标片段的拼接点和结束点彼此接合或拼接的位置上。在重复一个目标片段的情况下，依然只有一个拼接点-该拼接处于该目标片段第一再现的结束(拼接点)接合该目标片段的第二再现的开始(结束点)的位置上。对于减少音频抽样数量(数据压缩)的情况来说，针对除了前掩蔽或后掩蔽之外的标准，可能希望结束点处于所识别的区域内(除了应当始终处于所识别的区域内的拼接点之外)。对于通过一个瞬变前掩蔽或后掩蔽拼接点的压缩情况来说，结束点不需要在所识别的区域内。对于其它的情况来说(除了如下面所述当处理发生在一个听觉事件内时)，结束点最好在所识别的区域中，以便不省去或者重复任何可能可听到的音频。在增加音频抽样数量(数据扩展)的情况下，原始音频中的结束点最好处于音频信号的所识别的区域内。如下面所描述的，可能的拼接点位置具有一个最早和一个最晚时间，可能的结束点位置具有一个最早和一个最晚时间。当使用缓冲存储器内一块数据中的抽样来表示音频时，可能的拼接点位置具有该块内的最小和最大位置，它们分别代表可能的最早和最晚拼接点时间，结束点也具有该块内的最小和最大位置，它们分别代表最早和最晚结束点时间。

在处理多声道音频时，希望维持各个声道之间的相对幅度和相位关系，从而不干扰方向暗示。因此，如果将要省去或者重复一个声道内音频的目标片段，其它声道内的相应片段(具有相同的抽样编号)也应当被省去或者重复。因此，必需找到基本上所有声道都共有的一个目标片段，它允许在所有声道内不可听的拼接。

定义

在整篇文献中，术语“数据压缩”是指通过省去一个片段减少抽样数量，导致时间压缩，而术语“数据扩展”是指通过重复一个片段增加抽样数量，导致时间扩展。音频“区域”、“片段”和“部分”分别表示在时间上任意两个瞬时之间概念上的单个声道中音频的有限连续部分。这样一个区域、片段或部分可以用具有连续抽样或者索引编号的抽样来表示。“所识别的区域”是指使用心理声学标准识别出的音频区域、片段或者部分，拼接点和通常结束点将存在其中。“相关处理区域”是指一个音频区域、片段或者部分，在搜索一个结束点或者一个拼接点和一个结束点时将在其上执行相关。“心理声学标准”可以包括以时域掩蔽、频域掩蔽和/或其它心理声学因素为基础的标准。如上所述，“目标片段”是在数据压缩的情况下删除的音频部分，或者在数据扩展的情况下重复的音频部分。

掩蔽

本发明的多个方面利用人类听觉，具体而言，称作掩蔽的心理声学现象。一些简单的掩蔽概念可以通过参考图1和下面的讨论来理解，图1中的实线表示诸如一个正弦波或者窄带噪声的声音恰好可被听到的声压级，即听觉阈值。在该曲线之上级别的声音可以被听到；在该曲线之下级别的声音不能被听到。这个阈值显然与频率密切相关。与50Hz或15kHz相比，一个人可以在4kHz上听到一个小得多的声音。在25kHz上，阈值超过了刻度：无论声音有多大，人类都无法听到。

考虑在出现某一频率上声音很大的信号的情况下的阈值，所述信号例如是12所示的一个500Hz的正弦波。修改后的阈值14在500Hz附近显著提高，在频率上更远的位置上也有所提高，但是在可听到范围的所有远端部分上没有提高。

这种阈值的提高称作掩蔽。在出现高声500Hz正弦波信号(“掩蔽信号”)时，在这个阈值，也可以称作“掩蔽阈值”之下的信号被所述高声信号掩盖或者掩蔽。此外，其它的信号可能在级别上稍微提高到高于该非信号阈值，但是依然低于新的掩蔽阈值，因此不能被听到。然而，在非信号阈值未改变的频谱远端部分中，在没有500Hz掩蔽声音的情况下可以听到的所有声音依然可以被听到。因此，掩蔽并不仅取决于一个或多个掩蔽信号的出现；它还取决于掩蔽信号的频谱位置。一些音乐片段，例如，包含分布在整个可听频率范围上的多个频谱分量，因此，产生一条在所有位置上相对于非信号阈值曲线提高的掩蔽阈值曲线。其它的音乐片段，例如，包括一个独奏乐器的音量很大的声音，它具有限制于一小段频谱的频谱分量，因此产生差不多接近于图1的正弦波掩蔽信号例子的一条掩蔽曲线。

掩蔽还具有取决于掩蔽信号和被掩蔽信号之间时间关系的时间特征。一些掩蔽信号造成基本上仅在该掩蔽信号存在时的掩蔽(“同时掩蔽”)。另一些掩蔽信号造成不仅在掩蔽信号出现时，而且在此时间之前(“后向掩蔽”或“前掩蔽”)和之后(“前向掩蔽”或“后掩蔽”)的掩蔽。一个“瞬变”，一个在信号电平上突然、短暂和显著的增加，可以产生所有三种“类型”的掩蔽：后向掩蔽、同时掩蔽和前向掩蔽，而一个稳态或者准稳态信号仅可以产生同时掩蔽。在本发明的环境下，不应当利用一个瞬变导致的同时掩蔽，因为不希望通过放置与一个瞬变一致或者几乎一致的一个拼接点而干扰该瞬变。

音频瞬变数据是长期以来提供前向和后向时间掩蔽的公知方法。瞬变音频素材“掩蔽”在瞬变之前和之后的可听素材，以便其之前和之后的音频是听者感觉不到的(不使用通过一个瞬变的同时掩蔽，以避免重复或者干扰该瞬变)。前掩蔽已经被测量，相对较短，并且仅持续若干毫秒，而后掩蔽可以持续超过50毫秒。在本发明的各个方面中可以结合使用前瞬变掩蔽和后瞬变掩蔽，尽管因为后掩蔽更长的持续时间，通常更加有用。

本发明的一个方面是瞬变检测。在下面描述的一个实际的实施方式中，检查多个子块(一块音频抽样的多个部分)。比较它们的幅度测量值与代表一直到该点的信号的幅度的平滑移动平均值。可以为整个音频频谱和仅为高频分别执行该操作，以确保该高频瞬变不被更大更低频的信号所冲淡，因而丢失。另外，也可以使用任何合适的已知方式来检测瞬变。

一个拼接点可能产生一个导致人为杂音的干扰，所述人为杂音具有随着时间衰落的频谱分量。拼接人为杂音的频谱(和幅度)取决于：(1)被拼接的信号的频谱(如下面进一步讨论的，认为人为杂音可能具有一个不同于所拼接信号的频谱)；(2)当在拼接点处拼接在一起时波形匹配的程度(避免不连续性)；(3)在拼接点处拼接在一起的波形的匀滑转换的形状和持续时间。下面将进一步描述根据本发明多个方面的匀滑转换。下面还将描述协助匹配结合波形的相关技术。根据本发明的一个方面，希望拼接人为杂音被掩蔽或者不可听或者最低可听性。本发明的多个方面所使用的心理声学标准包括应当使人为杂音被掩蔽、不可听或者最低可听性的标准。可以将不可听或者最低可听性视为掩蔽类型。掩蔽要求在时间和频率上限制人为杂音以使其低于掩蔽信号的掩蔽阈值(或者，在掩蔽信号不存在，低于可听的非信号阈值，这可以被视为一种形式的掩蔽)。人为杂音的持续时间很好地定义为第一近似，基本上是匀滑转换的长度(持续时间)。匀滑转换越低，人为杂音的频谱越窄，但是它们的持续时间越长。

可以通过考虑上升信号电平的连续性来理解与提供一个不可听或者最低可听性的拼接有关的一些基本原理。考虑拼接提供小的掩蔽或者不提供掩蔽的低电平信号的情况。一个很好的拼接(即，具有最低不连续性的准确匹配的波形)将引入在幅度上稍微低于或者可能低于听觉阈值的人为杂音，因此不需要掩蔽信号。随着电平提高，这些信号开始用作掩蔽信号，提高了听觉阈值。人为杂音还在幅度上增加，所以除了听觉阈值已经被提高之外，所述人为杂音也高于非信号阈值(如上面结合图1所讨论的)。

理想地，根据本发明的一个方面，对于用一个瞬变来掩蔽人为杂音来说，人为杂音出现在该瞬变的后向掩蔽或前向掩蔽的时间区域内，每个人为杂音的频谱分量的幅度在时间中的每个瞬间上低于该瞬变的掩蔽阈值。然而，在实际的实施方式中，并非人为杂音的所有频谱分量都可以在所有的时间瞬间上被掩蔽。

理想地，根据本发明的另一个方面，对于用一个稳态或者准稳态信号来掩蔽人为杂音来说，人为杂音出现在与掩蔽信号相同的时间上(同时掩蔽)，而每个频谱分量在时间中的每个瞬间上低于所述稳态信号的掩蔽阈值。

根据本发明的另一方面，还有其它的可能性，即人为杂音的频谱分量幅度低于人类可听性的非信号阈值。在这种情况下，不需要任何掩蔽信号，尽管可以将这种不可听性视为一个人为杂音的掩蔽。

在原理上，使用足够的处理能力和/或处理时间，可以根据被拼接的信号来预测人为杂音的时间和频谱特性以确定人为杂音将被掩蔽或者是不可听的。然而，为了节省处理能力和时间，通过考虑在拼接点附近(具体而言在匀滑转换中)被拼接的信号幅度，或者在该信号中的一个稳态或者准稳态的主要高频识别区域的情况下，仅仅通过考虑被拼接的信号的频率内容而不考虑幅度，可以获得有用的结果。

因为拼接产生的人为杂音的幅度通常小于或者类似于被拼接的信号的幅度。然而，通常，预测人为杂音的频谱是不现实的。如果拼接点位于低于人类可听性阈值的音频信号的区域内，产生的人为杂音尽管在幅度上较低或者是等量齐观的，但是也可能高于人类可听性的阈值，因为它们可能包含人耳更加敏感的频率(具有一个较低的阈值)。因此，在评估可听性时，最好比较信号幅度与一个固定电平，在耳朵最敏感的频率(大约4kHz)上的听觉阈值，而不是与实际频率相关的听觉阈值。这种保守的方法确保处理的人为杂音将低于听觉的实际阈值，无论它们出现在频谱的哪个位置上。在这种情况下，匀滑转换的长度应当不影响可听性，但是可能希望使用较短的匀滑转换以允许数据压缩或扩展的最大空间。

人类的耳朵对在主要的高频波形中的不连续性缺乏敏感度(例如与一个低频卡塔声相比，因高频波形不连续性产生的一个高频卡塔声更可能被掩蔽或者不可听)。在高频波形的情况下，人为杂音的分量也将主要是高频的，并将被掩蔽，而不考虑在拼接点处的信号幅度(因为所识别区域的稳态或准稳态特性，在拼接点处的幅度将类似于在用作掩蔽信号的所识别区域中的信号幅度)。这可以被视为一个同时掩蔽的情况。在这种情况下，尽管匀滑转换的长度并不影响人为杂音的可听性，可能希望使用一个较短的匀滑转换以允许数据压缩或扩展处理的最大空间。

如果拼接点位于一个被识别为由瞬变掩蔽(即通过前掩蔽或者后掩蔽)的音频信号的区域内，考虑所应用的匀滑转换特性，包括匀滑转换长度，被拼接的每个信号的幅度确定一个特定的拼接点是否将被所述瞬变掩蔽。用一个瞬变提供的掩蔽量值将随着时间衰落。因此，在通过一个瞬变前掩蔽或后掩蔽的情况下，希望使用一个较短的匀滑转换，导致较大的干扰，但是可能持续较短的时间，并且更可能位于前掩蔽或者后掩蔽的持续时间内。

当拼接点位于作为瞬变结果未被前掩蔽或者后掩蔽的音频信号的区域内时，本发明的一个方面是选择在一个音频信号片段中(实际上，该片段可以是缓冲存储器内的一组抽样)最安静的音频信号子片段。在这种情况下，考虑所应用的匀滑转换特性，包括匀滑转换长度，被拼接的每个信号的幅度确定因拼接干扰所导致的人为杂音将可听的程度。如果子片段的电平很低，人为杂音分量的电平也将很低。根据低子片段的电平和频谱，可能存在一些同时掩蔽。此外，围绕低电平子片段的音频的更高电平部分也可以提供一些时间前掩蔽或者后掩蔽，在匀滑转换过程中提高阈值。人为杂音并非始终都是听不见的，但是与如果在音量更高的区域中执行拼接相比，将具有较低的可听性。通过使用更长的匀滑转换长度，并很好地匹配拼接点处的波形，可以最小化这种可听性。然而，一个很长的匀滑转换限制目标片段的长度和位置，因为它有效地加长即将改变的音频片段，并迫使拼接点和/或结束点进一步远离一块的结尾(在实际的情况下，将音频抽样划分成多个块)。因此，最大的匀滑转换长度是一种折衷方法。

听觉情景分析

尽管使用心理声学分析降低在一个处理中不希望的可听人为杂音以提供时间和/或音调标度非常有用，但是通过将音频划分成时间片段，可以将每个时间片段称作“事件”或“声学事件”，每个都可以被独立地听觉感知到，并通过在这些事件中执行时间标度和/或音调标度，也可以实现降低不希望的可听人为杂音。将声音划分成可被独立听觉感知到的“单元”有时被称作“听觉事件分析”或者“听觉情景分析”(“ASA”)。尽管可以独立地使用心理声学分析和听觉情景分析以在时间和/或音调标度处理中帮助降低不希望的人为杂音，它们也可以有利地相互结合地使用。

提供与(1)单独的心理声学分析，(2)单独的听觉情景分析和(3)相互结合的心理声学和听觉情景分析相结合的时间和/或音调标度是本发明的所有方面。本发明的其它方面还包括使用心理声学分析和/或听觉情景分析作为时间和/或音调标度的一部分，所述时间和/或音调标度是除了删除或重复音频片段之外的其它类型。例如，通过将所公开的处理技术仅应用于满足在此所述的一种或多种心理声学标准的音频片段和/或仅应用于不超过一个听觉事件的每个音频片段，可以改进在美国专利公开文献US 6,266,003 B1中所公开的时间标度和/或音调修改音频信号的处理。

Albert S.Bregman在他的书中《听觉情景分析-声音的可感知结构(Auditory Scene Analysis-The Perceptual Organization ofSound)》(麻省理工学院，1991年，2001年第四次印刷，MIT出版社平装本第二版)中阐述了对听觉情景分析的大量讨论。此外，1999年12月14日授权给Bhadkamkar等人的美国专利US6,002,776引用了1976年的公开文献作为“通过听觉情景分析的声音分割有关的现有技术(prior art work related to sound separation byauditory scene analysis)”。然而，Bhadkamkar等人的专利并不鼓励实际使用听觉情景分析，并得出结论“尽管从科学的观点来看作为人类听觉处理的模型，但听觉情景分析的相关技术当前计算量过大，并且不能视为声音分离的实际专用技术，除非取得重大改进”。

根据本发明的多个方面，提供一种有效的计算处理方法，用于将音频划分成将被独立听觉感知到的时间片段或者“听觉事件”。

Bregman在一段中指出”当声音在音色、音调、响度或者(在一定的略小程度上)空间位置上突然改变时，我们听到离散的单元”(《听觉情景分析-声音的可感知结构》第469页)。Bregman还讨论了多个同时声音流的听觉感知，例如当它们在频率上分离时。

为了检测在音色和音调上的变化以及在幅度上的某些变化，根据本发明一个方面的听觉事件检测处理检测频谱成分在时间上的变化。当应用于一个多声道声音设备时，其中声道代表空间方向，根据本发明一个方面的处理还检测空间位置在时间上的变化所产生的听觉事件。可选择地，根据本发明的另一个方面，该处理还可以检测幅度在时间上的变化，这将不通过检测频谱成分在时间上的变化来检测。在一个听觉事件中执行时间标度和/或音调标度可能导致更小的可听人为杂音，因为一个事件中的音频相当恒定，可以被很恒定地听觉感知到，或者本身就是一个音频实体(例如一个乐器所发出的音符)。

在它的最低计算要求的实施方式中，该处理通过分析整个频带(全带宽音频)或者基本上的整个频带(在实际的实施方式中，通常使用在频谱边缘上的带限滤波器)，并给最响的音频信号分量提供最大的加权，将音频划分成时间片段。该方法利用了这样一种心理声学现象，即在较低的时间标度(20毫秒或更小)上，耳朵在一个给定时间上将集中于单个听觉事件。这暗示虽然可能同时出现多个事件，一个分量将被听觉感知为最主要的，并可以被单独地处理，如同它是所发生的唯一事件。利用这种效应，还允许听觉事件检测根据所处理音频的复杂性来标度。例如，如果所处理的输入音频信号是一个独奏乐器，则所识别的听觉事件将可能是所演奏的单个音符。类似地，对于一个输入话音信号来说，诸如元音和辅音的单个语音分量将可能被识别为单个音频单元。随着音频复杂性的增加，例如带有打鼓声或多个乐器的音乐和话音，听觉事件检测识别在任意给定瞬间上的最重要的(即最响的)音频单元。也可以通过考虑听觉阈值和频率响应来确定“最重要的”音频单元。

可选地，根据本发明的另一方面，以更高的计算复杂性为代价，该处理还可以考虑在离散频带(固定或者动态确定的或者同时和固定和动态确定的频带)而不是在整个带宽中频谱成分随着时间的变化。这种替代方法将考虑不同频带中的多个音频流，而不是假设在一个特定时间上仅可以听觉感知到单个音频流。

根据本发明一个方面的用于分割音频的简单和高效计算处理已经被发现非常有用于识别听觉事件，和当与时间和/或音调修改技术一起使用时降低可听人为杂音。

通过将一个时域音频波形分割成时间间隔或者时间块，然后使用一个滤波器组或者一个诸如FFT的时间频率转换，将每块中的数据转换到频域，可以实现本发明的一个听觉事件检测处理。可以规格化每块的频谱内容幅度以消除或者降低幅度变化效应。所获得的每个频域表达提供了一个在特定块中音频频谱内容(作为一个频率函数的幅度)的指示。比较连续块的频谱内容，并可以使用大于一个阈值的改变来指示一个听觉事件的时间起点或时间结束点。

为了最小化计算复杂性，可以仅处理时域音频波形的单个频带，最好是处理频谱的整个频带(在一个平均质量音乐系统的情况下可以是大约50Hz至15kHz)，或者基本上是整个频带(例如，一个频带限制滤波器可以排除高频和低频边缘)。

需要将频域数据规格化到的等级提供了一个幅度指示。因此，如果在该等级上的变化超过一个预定阈值，则很可能表示一个事件边界。可以将因为频谱改变和幅度改变所产生的事件起始点和结束点在一起或(OR)运算，从而识别出任一种改变所产生的事件边界。

实际上，听觉事件的时间起始点和结束点边界将必然各与一个音频块的边界一致，所述音频块是由时域音频波形分割而来的。在实时处理要求(越大的音频块需要越少的处理开销)和事件位置的分辨度(越小的音频块提供与听觉事件位置有关的更详细信息)之间存在折衷。

在多个声道的情况下，每个声道代表空间上的一个方向，可以独立地处理每个声道，然后可以将所获得的所有声道的事件边界在一起或运算。因此，例如，一个突然切换方向的听觉事件将可能产生在一个声道中的“事件结束”边界和在另一个声道中的“事件开始”边界。当在一起或运算时，将识别出两个事件。因此，本发明的听觉事件检测处理能够根据频谱(音色和音调)、幅度和方向变化来检测听觉事件。

作为另一个选择，但是以更高的计算复杂性为代价，并不处理单个频带内时域波形的频谱内容，可以将频域转换之前的时域波形频谱分割成两个或多个频带。然后，可以以上面所描述的方式，如同一个独立声道，将每个频带转换到频域并处理。然后，可以将所获得的事件边界在一起或运算以为该声道定义事件边界。多个频带可以是固定的、自适应的、或者固定和自适应的组合。例如，可以使用在音频降噪所使用的跟踪滤波器技术以及其它的技术来定义自适应频带(例如，在800Hz和2kHz上同时发生的主要正弦波可能产生以这两个频率为中心的两个自适应确定的频带)。

在本发明的各个方面中，可以使用其它用于提供听觉情景分析的技术来识别听觉事件。

在这里所描述的实际实施例中，将音频分割成固定长度的抽样块。然而，本发明各个方面的原理既不要求将音频整理成抽样块，而且，如果是抽样块的话，也不提供恒定长度的抽样块(这些块可以是可变长度的，每个长度基本上是一个听觉事件的长度)。当将音频分割成抽样块时，本发明的另一方面，在单声道和多声道的情况下，不处理某些抽样块。

当阅读并理解本发明的详细描述之后将理解本发明的其它方面。

附图描述

图1是在无声音存在(实线)和存在一个500Hz正弦波(虚线)时的人类听觉阈值的理想曲线。水平标度是以赫兹(Hz)为单位的频率，垂直标度则以相对于20微帕的分贝(dB)为单位。

图2A和2B是图示通过删除一个目标片段的数据压缩概念的示意概念图。水平轴代表时间。

图2C和2D是图示通过重复一个目标片段的数据扩展概念的示意概念图。水平轴代表时间。

图3A是用抽样表示的一个音频数据块的示意概念图，图示在数据压缩的情况下的最小拼接点位置和最大拼接点位置。水平轴是抽样并代表时间。垂直轴是规格化的幅度。

图3B是用抽样表示的一个音频数据块的示意概念图，图示在数据扩展的情况下的最小拼接点位置和最大拼接点位置。水平轴是抽样并代表时间。垂直轴是规格化的幅度。

图4是用抽样表示的一个音频数据块的示意概念图，图示拼接点、最小结束点位置、最大结束点位置、相关处理区域和最大处理点位置。水平轴是抽样并代表时间。垂直轴是规格化的幅度。

图5是一个流程图，描述根据本发明一个方面的时间和音调标度处理，其中执行心理声学分析。

图6是一个流程图，图示图5的心理声学分析步骤206的细节。

图7是一个流程图，图示瞬变分析步骤的瞬变检测子步骤。

图8是在瞬变分析缓冲区中的一个数据抽样块的示意概念图。水平轴是在该块中的各抽样。

图9是图示一个音频块分析例子的示意概念图，其中一个450Hz正弦波的中部在电平上比它在该块中的开始和结束部分低6dB。水平轴是代表时间的抽样，垂直轴是规格化的幅度。

图10是可如何执行匀滑转换的示意概念图，图示一个使用根据汉宁窗所成形的非线性匀滑转换的数据片段拼接的例子。水平标度代表时间，垂直标度代表幅度。

图11是图示图5的多声道拼接点选择步骤210的细节的流程图。

图12是在四个声道中的一系列理想波形，代表音频数据抽样块，图示在每个声道中的一个识别区域，各满足一个不同的标准，并图示一个公共多声道拼接点可能位于其中的多个识别区域的重叠部分。水平轴是抽样并代表时间。垂直轴是规格化的幅度。

图13图示一个示范性语音信号的高度周期性部分的时域信息。图示最大化所丢弃数据片段每一侧上数据类似性的合理选择的拼接点和结束点的一个例子。水平标度是抽样并代表时间，垂直标度是幅度。

图14是波形的理想示意图，图示叠加在一个时域信号x(n)上以弧度表示的一个语音信号的瞬时相位。水平标标度是抽样，垂直标度是规格化的幅度和相位(以弧度表示)。

图15是一个图示图5的相关步骤214的细节的流程图。图15包括理想化的波形，图示五个声道中每个中相位相关的结果和五个声道中每个中时域相关的结果。这些波形代表音频数据抽样块。水平轴是代表时间的抽样，垂直轴是规格化的幅度。

图16是一个示意概念图，它具有方框图和流程图的特征，并且还包括一个理想化的波形，图示一个加性加权相关分析处理的例子。波形的水平轴是代表时间的抽样，垂直轴是规格化幅度。

图17是一个流程图，描述根据本发明一个方面的时间和音调标度处理，其中同时执行心理声学分析和听觉情景分析。

图18是一个流程图，图示图17处理的听觉情景分析步骤706的细节。

图19是普通的频谱轮廓计算方法的示意概念图。

图20是两个声道中的一系列理想化波形，图示每个声道中的听觉事件和跨越两个声道的组合听觉事件。

图21是图示图17处理的心理声学分析步骤708的细节的流程图。

图22是在一个瞬变分析缓冲区中的一块数据抽样的示意概念图。水平轴是该块中的抽样。

图23是一个单声道管弦音乐的理想波形，图示听觉事件和心理声学标准。

图24是在四个声道中的一系列理想波形，图示听觉事件、心理声学标准和组合听觉事件的等级。

图25更详细地图示图24的一个组合听觉事件。

图26是一个单声道的理想波形，图示可以跳过的低心理声学质量等级的听觉事件的例子。

图27是一个示意概念图，包括一个单声道中的理想波形，图示根据本发明另一方面为单声道音频选择拼接点和结束点位置中的一个初始步骤。

图28类似于图27，除了它图示移位N个抽样的拼接点区域Tc。

图29是一个示意概念图，图示当拼接点区域连续被超前Tc个抽样时多个相关计算的例子。这三个处理步骤被叠加在音频数据块数据曲线上。如图29所示的处理产生三个相关函数，每个函数分别具有一个如图30A-C所示的最大值。

图30A是用于图29所示的第一拼接点区域Tc位置的情况的一个理想相关函数。

图30B是用于图29所示的第二拼接点区域Tc位置的情况的一个理想相关函数。

图30C是用于图29所示的第三拼接点区域Tc位置的情况的一个理想相关函数。

图31是一个具有三个组合听觉事件区域的理想化音频波形，图示选择第一组合事件区域中363个抽样的目标片段的一个例子。

实现本发明的最佳方式

图2A和图2B示意性地图示通过删除一个目标片段的数据压缩的概念，而图2C和图2D示意性地图示通过重复一个目标片段的数据扩展的概念。实际上，数据压缩和数据扩展处理被应用于一个或多个缓冲存储器内的数据，这些数据是代表一个音频信号的抽样。

尽管在图2A至图2D中的识别区域满足因为一个信号瞬变被后掩蔽的标准，图2A至图2D所示实例的基本原理还可以应用于满足其它心理声学标准的识别区域，所述其它的心理声学标准包括上述的其它三个标准。

参见图2A，图示数据压缩，音频102具有一个瞬变104，该瞬变104导致音频102的一部分是一个构成“识别区域”的心理声学上后掩蔽的区域106。分析该音频，并在识别区域106内选择一个拼接点108。如下面结合图3A和图3B进一步解释的，如果用缓冲区内的一块数据代表该音频，则在该数据块中存在一个最小或最早的拼接点位置(即如果用抽样代表数据，则它具有一个较低的抽样或索引编号)和一个最大或最晚的拼接点位置(即如果用抽样代表数据，则它具有一个较高的抽样或索引编号)。在从最小拼接点位置到最大拼接点位置的可能拼接点位置的范围内选择所述拼接点的位置，并且要求并不严格，尽管在大多数情况下，希望将拼接点定位在最小或最早拼接点位置上或者附近，从而使目标片段的大小最大化。可以使用一个缺省的拼接点位置，即在识别区域开始之后的短时间内(例如5毫秒)。下面描述另外一种提供更优化的拼接点位置的方法。

在音频上继续分析，并选择一个结束点110。在一种可选方式中，分析包括在从拼接点108前向(向着更高的抽样或索引编号)直到最大处理点位置115的区域112内音频102的自相关。实际上，如下面进一步解释的，最大结束点位置早于(具有一个较低的抽样或索引编号)最大处理点一个等于匀滑转换时间一半的时间(或者与该时间相当的多个抽样)。此外，如下面进一步解释的，自相关处理寻找最小结束点位置116和最大结束点位置114之间的相关最大值，并可以使用时域相关或者同时使用时域相关和相位相关。下面描述一种确定最大和最小结束点位置的方式。对于时间压缩，通过自相关确定的结束点110在拼接点108之后的一个时间上(即，如果用抽样代表音频，则它具有一个更高的抽样或索引编号)。拼接点108定义一个引导拼接点的音频的引导片段118(即，如果用抽样代表数据，则它具有一个比拼接点低的抽样编号或者索引)。结束点110定义一个尾随结束点的尾随片段120(即，如果用抽样代表数据，则它具有一个比结束点高的抽样编号或者索引)。拼接点108和结束点110定义一个音频片段即目标片段122的端点。

为了数据压缩，删除目标片段，并且在图2B中，最好使用匀滑转换(在该图中未图示)在拼接点处连接、对接或者拼接引导片段与尾随片段，拼接点保留在识别区域106内。因此，匀滑转换后的拼接“点”可以被特性化为一个拼接“区域”。拼接人为杂音的成分主要保留在处于识别区域106内最小化数据压缩可听性的匀滑转换中。在图2B中，用参考标号102’标识压缩数据。

在各幅图中，相同的参考标号将用于表示类似的单元，而带有主标记的参考数字将用于表示相关的但修改后的单元。

参见图2C，图示数据扩展，音频124具有一个瞬变126，该瞬变126导致音频124的一部分是一个构成“识别区域”的心理声学上后掩蔽的区域128。在数据扩展的情况下，分析该音频，并在识别区域128内也选择一个拼接点130。如下面进一步解释的，如果用缓冲区内的一块数据代表该音频，则在该数据块中存在一个最小拼接点位置和一个最大拼接点位置。从拼接点前向(更高的抽样编号或索引，如果用抽样代表数据的话)和后向(更低的抽样编号或索引，如果用抽样代表数据的话)分析该音频，从而定位一个结束点。执行该前向和后向搜索以发现在最类似于在将适合于复制和重复的拼接点处和之后的数据的拼接点之前的数据。更具体地说，前向搜索是从拼接点130向前直到第一最大处理点位置132，后向搜索是从拼接点130向后直到第二最大处理点位置134。这两个最大处理位置可以但不必需距离拼接点130相同的抽样个数。如下面进一步解释的，分别从拼接点到最大搜索点位置和最大结束点位置的两个信号片段被互相关，从而搜索一个最大相关值。互相关可以使用时域相关或者同时使用时域相关和相位相关。实际上，如下面进一步解释的，最大结束点位置135比第二最大处理点134晚(具有一个更高的抽样或索引编号)一个等于匀滑转换时间一半的时间(或者与时间相当的多个抽样)。

与图2A和图2B的数据压缩相反，通过互相关确定的结束点136在拼接点130之前的时间上(即，如果用抽样代表时间，则它具有一个更低的抽样或索引编号)。拼接点130定义一个引导拼接点的音频的引导片段138(即，如果用抽样代表音频，则它具有比拼接点低的抽样编号或者索引)。结束点136定义一个尾随结束点的尾随片段140(即，如果用抽样代表音频，则它具有比结束点更高的抽样编号或索引)。拼接点130和结束点136定义一个音频片段即目标片段142的端点。因此，对于数据压缩的情况和数据扩展的情况来说，拼接点、结束点、引导片段、尾随片段和目标片段的定义是相同的。然而，在数据压缩的情况中，目标片段同时是引导片段和尾随片段的一部分(因此它被重复)，而在数据压缩的情况下，目标片段并非两者中任意一者的一部分(因此它被删除)。

在图2D中，最好使用匀滑转换(在该图中未图示)在拼接点处拼接引导片段与目标片段，使目标片段在所获得的音频124’中重复。在数据压缩的情况下，结束点136应当处于原始音频的识别区域128内(因此将原始音频内的所有目标片段放置在识别区域中)。目标片段的第一再现142’(该部分是引导片段的一部分)和拼接点130保留在掩蔽区域128内。目标片段的第二再现142”(该部分是尾随片段的一部分)在拼接点130之后，并可以但不必需延伸在掩蔽区域128之外。然而，在掩蔽区域之外的延伸部分并不具有可听效应，因为目标片段继之以原始音频和时间扩展形式的尾随片段。

一个目标片段最好不包括一个瞬变，以避免在压缩情况下省去该瞬变，或者在扩展情况下重复该瞬变。因此，拼接点和结束点应当在瞬变的同一侧上，以便它们都早于(即如果用抽样代表音频，则它们具有更低的抽样或索引编号)或者晚于(即如果用抽样代表音频，则它们具有更高的抽样或索引编号)该瞬变。

本发明的另一方面在于可以通过匀滑转换形状的选择和通过响应于音频信号改变匀滑转换的形状和持续时间来进一步降低一个拼接的可听性。下面结合图10及其描述来进一步描述匀滑转换的具体细节。实际上，如下面进一步解释的，匀滑转换的时间可能略微影响拼接点和结束点极限位置的放置。

图3A和图3B描述在代表用于压缩的输入音频(图3A)和用于扩展的输入音频(图3B)的一块抽样中确定最小和最大拼接点位置的例子。最小(最早)拼接点位置具有比最大(最晚)拼接点位置更低的抽样或索引编号。拼接点相对于用于数据压缩和数据扩展的抽样块结尾的最小和最大位置在多个方面上与在拼接中使用的匀滑转换长度和相关处理区域的最大长度有关。将结合图4进一步解释相关处理区域的最大长度的确定。对于时间标度压缩来说，相关处理区域是在自相关处理中拼接点之后的音频数据区域以识别一个合适的结束点。对于时间标度扩展来说，存在两个相关处理区域，它们可以是但并不必须是相同长度的，一个在拼接点之前，另一个在拼接点之后。它们定义在自相关处理中所使用的两个区域以确定一个合适的结束点。

每个音频数据块都具有一个最小拼接点位置和一个最大拼接点位置。如图3A所示，相对于在压缩情况下代表最早时间的抽样块结束点的最小拼接点位置用匀滑转换长度的一半来限定，因为在拼接点附近的音频数据在结束点附近被匀滑转换。类似地，对于时间标度压缩来说，相对于在压缩情况下代表最晚时间的抽样块结束点的最大拼接点位置用最大相关处理长度来限定(最大结束点位置比最大处理长度结尾“早”半个匀滑转换长度)。

图3B图示为了时间标度扩展的最小和最大拼接点位置的确定。以类似于为时间标度压缩确定最大拼接点的方式(最小结束点位置比最大相关处理长度的结尾“晚”半个匀滑转换长度)，相对于代表时间标度扩展最早时间的抽样块结尾的最小拼接点位置与相关处理区域的最大长度有关。相对于代表时间标度扩展最晚时间的抽样块结尾的最大拼接点位置仅与最大相关处理长度有关。原因是时间标度扩展的拼接点之后的数据仅用于相关处理，一个结束点将不会定位在最大拼接点位置之后。

尽管针对一块输入数据描述了图3A和图3B，如下文中进一步讨论的，相同的原理适用于为分别处理的包括一个听觉事件的任意一个输入数据子集(即一组连续抽样)设置最大和最小结束点。

如图4所示，对于时间标度压缩的情况来说，用于相关处理的区域位于拼接点之后。拼接点和最大处理点位置定义了相关处理区域的长度。图4所示的拼接点和最大处理点的位置是随意设置的例子。最小结束点位置指示在拼接点之后结束点可以位于的最小抽样或索引值。类似地，最大结束点位置指示在拼接点之后结束点可以位于的最大抽样或索引值。最大结束点位置比最大处理点位置“早”半个匀滑转换长度。一旦选定拼接点，最小和最大结束点位置控制可用于目标片段的数据量，并可以指定缺省值(可使用的数值可以分别是7.5和25毫秒)。最小和最大结束点位置也可以是可变的，从而根据音频内容和/或所希望的时间标度量值动态地改变(最小结束点可以根据所希望的时间标度率而变化)。例如，对于一个主要频率分量是50Hz和在44.1kHz上抽样的信号来说，音频波形的单个周期在长度上大约是882个抽样(或20毫秒)。这表明最大结束点位置应当产生足够长以包含至少一个周期的音频数据的目标片段。在任何情况下，最大处理点可以不晚于处理块的结尾(在这个例子中，4096个抽样，或者如下面所解释的，当考虑听觉事件时，不晚于一个听觉事件的结尾)。类似地，如果将最小结束点位置选择为拼接点之后的7.5毫秒和所处理的音频包含通常选择最小结束点位置附近的结束点的一个信号，则时间标度的最大百分比取决于每个输入数据块的长度。例如，如果输入数据块大小是4096个抽样(或者在44.1kHz抽样率上的大约93毫秒)，则如果选择最小结束点位置，一个7.5毫秒的最小目标片段长度将产生一个最大时间标度率7.5/93＝8％。可以将用于时间标度压缩的最小结束点位置设置为低于7％变化速率的7.5毫秒(用于44.1kHz的331抽样)，并设置等于：

最小结束点位置＝((时间标度率-1.0)×块大小)

其中对于时间标度压缩来说时间标度率大于1.0(1.10＝在重放速率增加10％)，当前块的大小是在44.1kHz上的4096个抽样。这些例子说明允许最小和最大结束点位置根据音频内容和所希望的时间标度百分比改变的好处。在任何情况下，最小结束点都不应当过大或者过于靠近最大结束点以至于过于限制搜索区域。

本发明的另外一个方面在于为了进一步降低一个可听拼接的可能性，可以使用一个比较技术来匹配在拼接点和结束点处的信号波形以降低对掩蔽或不可听性的依赖。构成本发明另外一个方面的匹配技术寻求同时匹配在拼接点处拼接波形的幅度和相位。这又可能涉及相关，如上面所描述的，这也是本发明的一个方面。相关可以包括对耳朵敏感性随频率的变化的补偿。

如结合图2A至2D所描述的，在本发明的多个方面中使用的数据压缩或扩展技术检测或重复多个音频部分。在上面所描述的第一可选方式中，使用普通预先定义的系统参数和/或考虑某些其它的信号条件来选择拼接点位置，所述系统参数以匀滑转换长度或者所希望的拼接点位置与诸如瞬变的信号分量的距离为基础。在稍微任意的拼接点附近执行更详细的音频分析(例如相关)以确定结束点。

根据第二种可选方式，以一种更加基于信号的方式来选择拼接点和结束点位置。一系列试用拼接点位置附近的加窗数据与一个相关处理区域内的数据相关以选择一个有关的试用结束点位置。将在所有的试用拼接点位置中具有最强相关的试用拼接点位置选择为最终的拼接点，并基本上在最强相关的位置上定位一个试用结束点。尽管在原理上，试用拼接点之间的间距可以仅是一个抽样，为了降低处理的复杂性，试用拼接点可以间距地更宽。如下所述，匀滑转换区域的宽度是一个用于试用拼接点的合理增量。这种选择拼接点和结束点位置的可选方法同时适用于数据压缩和数据扩展处理。尽管下面结合本发明使用听觉情景分析的一个方面更详细地描述这种选择拼接点和结束点位置的可选方法，它也可以与所描述的使用心理声学分析的本发明第一实施例一齐使用。

心理声学分析的实施例

在图5中图示一个流程图，它描述根据本发明涉及心理声学分析的多个方面的单声道或多声道时间标度和/或音调标度处理。在图17中图示一个流程图，它描述根据本发明同时涉及心理声学分析和听觉事件分析的多个方面的单声道或多声道时间标度和/或音调标度处理，在下文中进行描述。本发明的其它方面构成图5和图17处理的多个部分或者变化。可以使用这些处理来执行实时音调标度和非实时音调和时间标度。一个低延迟时间标度处理无法实时有效地操作，因为它将必须缓冲输入音频信号从而以一个不同的速率进行播放，因此导致缓冲区下溢或者上溢-在与接收输入数据不同的速率缓冲区将是空的。

输入数据202(图5)

参见图5，第一个步骤，判断步骤202(“输入数据？”)确定是否有可进行数据压缩或数据扩展处理的数字化输入音频数据。数据源可以是一个计算机文件或者一块输入数据，例如可存储在一个实时输入缓冲区内。如果存在数据，则由步骤204(“为每个声道获取N个抽样”)累积代表同时片段的N个时间同步抽样的数据块，每个数据块用于将被数据压缩或者数据扩展处理的每个输入声道(声道数量大于或者等于1)。该处理所使用的输入数据抽样的数量N可以固定在任意合理的抽样数量上，从而将输入数据划分成块。原理上，所处理的音频可以是数字或者模拟的，并且不需要将其划分成块。

将结合本发明多个方面的一个实际实施例来描述图5，其中以4096个抽样的数据块来数据压缩或数据扩展处理每个声道的输入数据，所述4096个抽样对应于以44.1kHz抽样率的大约93毫秒的输入音频。将理解本发明的多个方面并不限制于这样一个实际的实施例。如上所述，本发明各个方面的原理并不要求将音频排列成抽样块，如果要求的话，也不需要提供恒定长度的块。然而，为了最小化复杂性，4096个抽样(或者2的其它幂个抽样)的固定块长度因为三方面的主要原因是有用的。首先，它提供实时处理应用可接受的足够低的延迟。其次，它是2的幂个抽样，这对于快速傅立叶变换(FFT)分析是很有用的。第三，它提供一个合适大小的窗口以执行一个有用的输入信号的心理声学分析。

在下面的讨论中，假设输入信号是幅度值在[-1，+1]范围内的数据。

心理声学分析206(图5)

在输入数据块之后，对每个声道的输入数据块执行心理声学分析206(“对每个输入数据块执行心理声学分析”)。在多声道的情况下，可以并行地为所有声道或者逐声道地执行心理声学分析206和随后的步骤(当提供合理的每条声道数据的存储和分析时)。尽管并行处理需要更强的处理能力，但是对于实时应用来说可能是优选的。图5的描述假设并行地处理这些声道。

在图6中图示了步骤206的具体细节。分析206可以识别出满足一个心理声学标准的每个声道数据块中的一个或多个区域(或者，对于一些信号条件来说，它可以不识别这样在一块中的区域)，并且确定每个所识别区域内的一个可能或临时的拼接点位置。如果仅有一个声道，则跳过后面的步骤210(“选择公共拼接点”)，并可以使用在步骤206所识别区域之一中的一个临时拼接点位置(最好是根据一个标准的分级选择该块中的“最佳”区域)。对于多声道的情况来说，步骤210重新检查所识别的区域，识别公共重叠区域，并选择在这些公共重叠区域内的一个最佳公共拼接点位置，这个拼接点可以但不必须是在心理声学分析步骤206中所识别出的一个临时拼接点位置。

使用心理声学分析以最小化在音频时间标度和/或音调标度中的可听人为杂音是本发明的一个方面。心理声学分析可以包括使用上面所描述的四种标准中的一个或多个标准，或者识别音频片段的其它心理声学标准，所述识别音频片段将抑制或者最小化因为在其中拼接波形或者在其中执行时间和/或音调标度所产生的人为杂音。

在这里所描述的图5的处理中，在一块中可能有多个心理声学识别区域，每个区域具有一个暂时拼接点。然而，在一种可选的实施例中，在单声道的情况下，最好选择在每个输入数据块中一个最大的心理声学识别区域进行数据压缩或扩展处理，而在多声道的情况下，最好选择在每组时间并行输入数据块(用于每个声道的一个数据块)中一个最大的心理声学识别区域的重叠部分进行数据压缩或扩展处理。优选地，分别当在一个或多个输入数据块中存在多个识别区域或识别区域的多个重叠部分时选择物理声学上“最佳”的识别区域或者识别区域的重叠部分(例如根据在此所描述的一个分级)。

可选择地，可以在每个或每组时间并行输入数据块中为处理分别地选择多个识别区域或识别区域的重叠部分，在这种情况下，所选择的这些识别区域或者识别区域的重叠部分最好是在心理声学上最佳的(例如根据在此所描述的一个分级)，或者也可以选择每个识别事件。

在单声道的情况下，并不将一个临时拼接点放置在每个识别区域中，可以在为处理选择区域之后将拼接点放置在一个识别区域中(在这种情况下它将不是“临时的”，它将是一个实际的拼接点)。在多声道的情况下，可以仅在将识别区域确定为重叠之后，才将临时拼接点被放置在多个识别区域内。

原理上，当存在多个声道时，临时拼接点的识别是不必要的，因为最好在一个重叠区域内选择一个公共拼接点，该公共拼接点一般不同于在各个声道中的每个临时拼接点。然而，作为一种具体的实施方式，临时拼接点的识别是有用的，因为它允许在需要一个临时拼接点的单声道的情况下操作(它成为实际的拼接点)，或者在可以忽略临时拼接点的多声道的情况下操作。

图6是图5的心理声学分析处理206的操作流程图。该心理声学分析处理206包括五个普通的处理子步骤。前四个子步骤是以一个分级排列的多个心理声学标准分析子步骤，以便满足第一个子步骤或者第一个标准的音频区域具有该区域内的拼接(或者其它时间偏移或音调偏移处理)是不可听或者最低可听性的最高似然性，而随后的标准具有在该区域内的拼接是不可听或者最低可听性的逐渐降低的似然性。

每个子步骤的心理声学标准分析可以使用一个心理声学子块，所述子块大小是输入数据块大小的六十四分之一。在这个例子中，心理声学子块大约是1.5毫秒(或者在44.1kHz上的64个抽样)，如图8所示。虽然心理声学子块的大小不必是1.5毫秒，但是在实际执行过程中选择这个大小，因为它提供了实时处理要求(越大的子块需要越少的心理声学处理开销)和满足一个心理声学标准的一个片段的分辩度(越小的子块提供与这些片段位置有关的越详细的信息)。原理上，心理声学子块大小对于每种心理声学标准分析来说不必相同，但是在实际的实施例中，为了便于实施，这是优选的。

瞬变检测206-1(图6)

处理206-1分析每个声道的数据块，并确定音频信号瞬变的位置，如果有的话。在掩蔽分析和选择一个临时拼接点位置中使用时间瞬变信息(在这个例子的心理声学分析处理中的最后一个子步骤)。如上面所讨论的，瞬变引入时间掩蔽(同时隐藏在瞬变出现之前和之后的音频信息)是公知的。

如图7的流程图所示，在瞬变检测子步骤206-1中的第一子步骤206-1a(“高通滤波所输入的全带宽的音频”)是滤波所输入的数据块(将数据块内容视为一个时间函数)。例如使用3dB截止频率大约是8kHz的二阶IIR高通滤波器高通滤波所述输入数据块。对截止频率和滤波特性的要求不是很严格。然后在瞬变分析中使用滤波后的数据和原始未滤波的数据。同时使用全带宽和高通滤波的数据提高了即使在诸如音乐的复杂素材中识别瞬变的能力。“全带宽”数据可以是带宽受限的，例如通过滤除高频和低频端值。该数据也可以使用一个或多个具有其它截止频率的附加滤波器来高通滤波。一个信号的高频瞬变分量的幅度可能远低于较低的频率分量，但是听众依然可以完全听得到。滤波输入数据隔离了高频瞬变，并使它们更易于识别，

在下一个子步骤206-1b中(“在全带宽和滤波后的音频子块中定位最大绝对值的抽样”)，可以在如图8所示的大约1.5毫秒(或者在44.1kHz上的64个抽样)的子块中处理全范围和滤波后的输入块，从而在所述全带宽和滤波后的音频子块中定位最大绝对值的抽样。

瞬变检测子步骤206-1的第三子步骤(“使用低通滤波器平滑全带宽和滤波后的峰值数据”)执行在每个64抽样子块中所包含的最大绝对值数据值的低通滤波或者泄漏平均(将这些数据值视为一个时间函数)。执行这个处理以平滑最大绝对值数据，并提供在该输入块中平均峰值的一个普通指示，所述平均峰值可以与实际的子块最大绝对数据值相比。

瞬变检测处理206-1的第四子步骤206-1d(“比较每个全带宽和滤波后子块的标度峰值绝对值与平滑后的数据”)比较在每个子块中的峰值与在平滑后移动平均峰值的阵列中的对应编号以确定是否存在一个瞬变。虽然存在比较这两个测量值的多种方法，但是下面所描述的方法允许使用一个已经设置以最佳地执行的标度因子来调整所述比较，所述标度因子是通过分析一个宽范围的音频信号确定的。

在判断子步骤206-1e(“标度数据＞平滑数据？”)，第k个子块的峰值乘以一个标度值，并与所计算的平滑后移动平均峰值的第k个值比较。如果子块的标度峰值大于该移动平均值，则标志存在一个瞬变。存储该瞬变在该子块中的存在及其位置以继续处理。同时对未滤波和滤波后的数据执行这个操作。标记为一个瞬变的一个子块或者标记为一个瞬变的一个连续子块串指示一个瞬变的存在和位置。在该处理的其它部分中使用这个信息以指示，例如，通过该瞬变提供的前掩蔽和后掩蔽的位置和应当避免数据压缩或扩展以防止受到该瞬变干扰的位置(例如，参见图6的子步骤310)。

在瞬变检测之后，在子步骤206-1f(“执行校正检查以取消瞬变”)中执行多个校正检查以确定是否应当取消用于一个64抽样子块的瞬变标记(将真重置为假)。执行这些检查以减少错误的瞬变检测。首先，如果全范围或高频峰值低于一个最小峰值，则取消该瞬变(以消除将提供非常小或者不提供时间掩蔽的低电平瞬变)。其次，如果在一个子块中的尖峰引起一个瞬变，但是并不显著大于前一子块，它也将产生一个瞬变标记，则消除当前子块中的瞬变。这减少了与一个瞬变位置有关的信息的错误。为每个声道，存储瞬变的数量和它们的位置以在随后的心理声学分析步骤中使用。

本发明并不限制于刚才所描述的具体的瞬变检测。也可以使用其它合适的瞬变检测方案。

听觉阈值分析206-2(图6)

再次参见图6，在心理声学分析处理中的第二步骤206-2即听觉阈值分析确定具有足够低的信号强度可以被预测在听觉阈值上或者低于听觉阈值的音频片段的位置和持续时间。如上面所讨论的，对这些音频片段感兴趣是因为时间标度和音调偏移引入的人为杂音在这些区域内更不可能被听到。

如上面所讨论的，听觉阈值是一个频率函数(较低和较高的频率比中间频率的可听性低)。为了最小化实时处理应用的处理，用于分析的听觉阈值模型可以假定一个统一的听觉阈值(将在最敏感的频率范围内的听觉阈值应用于所有频率)。这个保守的假设允许收听者将重放音量调得高于听觉敏感性曲线所假设的音量，并降低了在低能量处理之前在输入数据上执行频率相关处理的要求。

该听觉阈值分析步骤处理未滤波的音频，并还可以处理大约1.5毫秒子块中的输入(44.1kHz输入数据的64个抽样)，并可以使用上面所描述的相同的平滑移动平均计算。在这个计算之后，比较每个子块的平滑移动平均值与一个阈值以确定该子块是否被标记为一个不可听的子块。存储在输入块中每个低于听觉阈值的片段的位置和持续时间以便随后在这个分析步骤中使用。一个足够长度的连续标记子块串可以构成一个满足下述听觉阈值心理声学标准的识别区域。可以设置一个最小长度(时间周期)以确保识别区域足够长，从而可以作为一个拼接点或者同时作为一个拼接点和一个结束点的有用位置。如果在输入块中仅识别出一个区域，则这对于仅识别标记子块的最长连续串是有用的。

高频分析206-3(图6)

第三个子步骤206-3即高频分析步骤确定包含主要高频音频内容的音频片段的位置和长度。在心理声学分析中对高于大约10-12kHz的高频片段感兴趣，因为在安静环境中的听觉阈值在大约10-12kHz之上增加很快，因为耳朵对主要高频波形中的不连续比对主要较低频率波形中的不连续更不敏感。虽然存在许多种方法可用于确定一个音频信号是否主要包含高频能量，在此所描述的方法提供很好的检测结果，并使计算要求最小化。当然也可以使用其它方法。如果一个区域同时包含很强的低频内容和高频内容，所描述的方法并不将该区域分类为高频。这是因为当数据压缩或数据扩展处理时低频内容更可能产生可听的人为杂音。

该高频分析步骤还可以以64抽样的子块来处理输入块，并可以使用每个子块的过零信息来确定它是否主要包含高频数据。可以设置过零阈值(即在将一块标记为一个高频音频块之前在该块中所包含的过零个数)，以使它对应于在大约10至12kHz范围内的一个频率。换句话说，将一个子块标记为包含高频音频内容，如果它至少包含与在大约10至12kHz信号范围内一个信号相对应的数目的过零(一个10kHz的信号在44.1抽样频率的64抽样子块中具有29个过零)。在听觉阈值分析的情况下，足够长度的连续标记子块串可以构成一个满足高频内容心理声学标准的识别区域。可以设置一个最小长度(时间周期)以确保识别区域足够长，从而可以作为一个拼接点或者同时作为一个拼接点和一个结束点的有用位置。如果在输入块中仅识别出一个区域，则这对于仅识别标记子块的最长连续串是有用的。

音频声级分析206-4(图6)

在心理声学分析处理中的第四个子步骤206-4，音频数据块声级分析，分析输入数据块并确定在输入数据块中最低信号强度(幅度)的音频片段的位置。如果当前输入块不包含在处理过程中可以使用的心理声学掩蔽事件(例如，如果输入是一个不包含瞬变或者低于听觉阈值的音频片段的稳态信号)，则使用音频声级分析信息。在这种情况下，根据较低声级的音频片段产生低声级或不可听拼接人为杂音的基本原理，时间标度处理最好给予输入块音频的最低声级或最安静的片段(如果存在任何这样的片段的话)。在图9中图示了一个使用450Hz音调(正弦波)的简单例子。如图9所示的音调信号不包含瞬变、低于听觉阈值或高频的内容。然而，信号的中部在声级上比该块中信号的开始和结束部分低6dB。相信将注意力集中于较为安静的中部而不是较响的结束部分使可听的数据压缩或数据扩展处理的人为杂音最小化。

虽然可以将输入音频块分割成任意数量的可变长度的音频声级片段，已经发现将该音频块划分成三个相等部分比较合适，并在每块中信号的第一、第二和最后的第三部分上执行音频数据块声级分析，从而寻找比其它部分更安静的一个部分或两个连续部分。可选择地，以类似于用于低于听觉阈值和高频标准的这些块的子块分析方式，根据它们的峰值声级排列这些子块，最安静子块的最长连续串构成该块的最安静部分。在任何一种情况下，这个子步骤作为一个输出提供一个满足最安静区域心理声学标准的识别区域。除了在异常的信号条件下，例如一个在所分析的整个块中幅度恒定的信号，该最后的心理声学分析，普通音频声级，将始终提供一个“最后的选择(1astresort)”的识别区域。在刚刚描述的子步骤的情况下，可以设置一个最小长度(时间周期)以确保所识别的区域足够长，从而可以作为一个拼接点或者同时作为一个拼接点和一个结束点的有用位置。

设置临时拼接点和匀滑转换参数206-5(图6)

在图6的心理声学分析处理中的最后一个子步骤206-5(“设置临时拼接点和匀滑转换参数”)使用从前面步骤中收集的信息来在输入块中选择心理声学上的最佳识别区域，并在该识别区域中设置拼接点和匀滑转换长度。

设置匀滑转换参数

如上所述，使用匀滑转换来最小可听人为杂音。图10在概念上图示如何使用匀滑转换。所获得的匀滑转换跨越在将波形拼接在一起的拼接点处。在图10中，在拼接点之前开始的虚线表示应用于该信号波形从最大幅度到最小幅度的非线性向下渐弱，在拼接点处降低到一半。经过拼接点的渐弱是从时间t₁到t₂。在结束点之前开始的虚线表示应用于该信号波形从最小幅度到最大幅度的互补非线性向上渐强，在结束点处增加到一半。经过结束点的渐强是从时间t₃至t₄。渐弱和渐将是对称的，其总和是单一的(汉宁窗和恺撒-贝塞耳窗具有该属性；因此，如果以这些窗口的方式形成匀滑转换，则将满足这一要求)。从t₁到t₂的持续时间与从t₃到t₄相同。在这个时间压缩的例子中，希望丢弃在拼接点和结束点之间的数据(用删除示出)。这通过丢弃抽样表示t₂和抽样表示t₃之间的数据来实现。然后，将拼接点和结束点(在概念上)彼此叠加以便将从t₁到t₂和从t₃至t₄的数据叠加在一齐，产生一个由互补的渐将和渐弱特性组成的匀滑转换。

通常，较长的匀滑转换比较短的匀滑转换更好地掩蔽拼接的可听人为杂音。然而，匀滑转换的长度受输入数据块固定大小的限制。较长的匀滑转换也将减少可用于时间标度处理的数据量。这是因为匀滑转换受块边界(和/或受听觉事件边界，当考虑听觉事件时)的限制，当前数据块(和/或当前听觉事件，当考虑听觉事件时)之前和之后的数据可能无法在数据压缩或数据扩展处理和匀滑转换中使用。然而，瞬变的掩蔽属性可用于缩短匀滑转换的长度，因为较短匀滑转换产生的可听人为杂音的一部分或全部被瞬变所掩蔽。

虽然匀滑转换长度根据音频内容是可变的，合适的缺省匀滑转换长度是10毫秒，因为它为一个宽范围的素材引入最小的可听拼接人为杂音。瞬变前掩蔽和后掩蔽可以允许将匀滑转换长度设置得更短些，例如5毫秒。然而，当考虑听觉事件时，可以在某些情况下使用长于10毫秒的匀滑转换。

设置临时拼接点

如果通过图6的子步骤206-1确定存在一个瞬变信号，则根据瞬变在该块中的位置和是否执行时间扩展或压缩处理，最好将临时拼接点设置在该块中瞬变之前或之后的时间掩蔽区域内，以避免重复或者干扰该瞬变(即，瞬变的组成部分应当最好不在匀滑转换内)。瞬变信息还用于确定匀滑转换的长度。如果出现多个瞬变，所以存在多个可用的时间掩蔽区域，可以将最佳的掩蔽区域(例如考虑它在块中的位置、它的长度和它的强度)选择为将在其中放置临时拼接点的识别区域、

如果没有信号瞬变，则该设置临时拼接点和匀滑转换参数的子步骤206-5在寻找放置一个临时拼接点的心理声学识别区域时分析子步骤206-2、206-3和206-4的听觉阈值片段、高频和音频声级分析结果。如果存在等于或低于听觉阈值片段的一个或多个低声级，则在这样一个片段或者最佳片段内设置一个临时拼接点，(例如考虑它在该块内的位置和它的长度)。如果不存在低于听觉阈值的片段，则该步骤在该数据块内搜索高频片段，并在这样一个片段或者最佳片段内设置一个临时拼接点，例如考虑它在该块内的位置和它的长度。如果没有发现高频片段，则该步骤搜索任意低声级的音频片段，并在这样一个片段或最佳片段内设置一个临时拼接点(例如考虑它在该块内的位置和它的长度)。因此，在每个输入块内将只有一个放置临时拼接点的识别区域。如上所述，在极少的情况下，在一块中可能不存在满足一个心理声学标准的片段，在这种情况下，在该块内将没有临时拼接点。

可选择地，如上面在讨论心理声学分析细节之前所述的，并不在每个输入块内仅选择一个满足一个心理声学标准的区域和(可选择的)将一个临时拼接点放置在该识别区域内，而可以选择满足一个心理声学标准的多个区域和(可选择地)将一个临时拼接点放置它们中的每个区域内。这可以通过多种方式来实现。例如，即使识别出满足较高级别的心理声学标准之一的一个区域，并(可选择地)在其中放置一个临时拼接点，还可以在该特定输入块内选择在心理声学分级中具有较低级别的一个或者多个其它的识别区域，并在它们中的每个区域内设置一个临时拼接点。另外一种方式是如果在一个特定块内找到满足相同心理声学标准的多个区域，假设所有这些附加识别区域都是可以使用的(例如考虑它的长度和它在该块内的位置)，则可以选择这些区域中的多个区域(并在每个区域内放置一个临时拼接点)。另外一种方式是无论在该子块内是否存在其它的识别区域，并且不考虑该识别区域满足哪一种心理声学标准，选择每个识别区域，并可选择地，在每个选择区域内设置一个临时拼接点。如下面将进一步描述的，当寻找在多个声道之间的一个公共拼接点时，每个块内的多个识别区域可能是有用的。

因此，图6的心理声学分析处理(图5的步骤206)根据心理声学标准识别输入块内的多个区域，并在这些区域中的每个区域内，它(可选择地)设置一个临时拼接点。它还提供用于识别临时拼接点的标准(例如是否因瞬变、听觉阈值、高频和最低音频声级而被掩蔽)和在每个输入块内瞬变的数量和位置的识别，如下面进一步描述的，当存在多个声道时为了确定一个公共拼接点或者为了其它目的，所有这些都是有用的。

选择一个公共多声道拼接点210(图5)

如上所述，将图6的心理声学分析处理应用于每个声道的输入块。再次参见图5，如果正在处理多个声道，如通过判决步骤208所确定的(“声道数＞1？”)，如果将临时拼接点放置在步骤206的选择上，则可能在多个声道之间不一致(例如，一些或所有声道可能包含与其它声道无关的音频内容)。下一步骤210(“选择公共拼接点”)使用由心理声学分析步骤206提供的信息来识别在多个声道中的重叠识别区域，以便可以在多个声道中的每个时间并行块内选择一个公共拼接点。

尽管，作为一种选择，可以从图5的步骤206选择确定的每个声道中的一个或多个临时拼接点之中选择一个公共拼接点，例如最佳整体拼接点，但是最好在多个声道之间重叠的识别区域内选择一个可能更佳的公共拼接点，该拼接点可能不同于图5步骤206所确定的所有临时拼接点。

在概念上，每个声道的识别区域在一起与运算以生成一个公共重叠片段。注意到在一些情况下，可能不存在公共重叠片段，而在其它情况下，当使用在一块内识别多个心理声学区域的可选方式时，可能存在多个公共重叠片段。不同声道的识别区域可能不是完全一致的，但是足以使它们重叠，所以可以在每个声道的识别区域内选择多个声道之中的一个公共拼接点位置。多声道拼接处理选择步骤仅为每个声道选择一个公共拼接点，并不修改或更改数据本身的位置或内容。

例如根据心理声学标准的分级，可以使用一个重叠区域的等级来在多个重叠区域的情况下选择用于处理的一个或多个最佳重叠区域。尽管不同声道的识别区域不必根据相同的心理声学标准获得，但是在声道之间标准类型的分配将影响重叠区域的质量(当在该重叠区域内执行处理时最低的可听性产生最高的质量)。考虑在各个声道中所满足的心理声学标准，可以对一个重叠区域的质量分级。例如，可以将其中每个声道内的识别区域满足“因为一个瞬变后掩蔽”标准的这样一个重叠区域排列为最高等级。可以将其中一个声道满足“因为一个瞬变后掩蔽”标准而另一声道满足“低于听觉阈值”标准的这样一个重叠区域排列为下一等级，等等。分级方案的细节要求并不严格。

另外，可以为了处理而选择在多个声道之间的一个公共区域，即使在这些声道中仅一些而非全部的心理声学识别区域相互重叠。在这种情况下，在一个或多个声道中满足一种心理声学标准的失败应当可能导致最低的不希望存在的可听人为杂音。例如，交叉声道掩蔽可能意味着一些声道不需要具有一个公共重叠识别区域；例如，一个来自另一声道的掩蔽信号可能使在一个区域内执行一次拼接可以被接受，而如果该声道被单独听到的话，这样一个拼接将是不可接受的。

选择一个公共拼接点的另一个变型是根据如果作为公共拼接点各个临时拼接点中的哪一个拼接点将产生最低的不希望有的人为杂音的确定，选择一个声道的临时拼接点作为公共拼接点。

跳跃

作为步骤210的一部分(图5)，还可以使用一个重叠区域的分级来确定是否应当跳过在一个特定重叠区域内的处理。例如，可以跳跃这样一个重叠区域，其中所有的识别区域都只满足最低等级标准即“最安静部分”标准。在某些情况下，可能不能为一组特定的时间并行输入块在多个声道之间识别出多个识别区域的一个公共重叠，在这种情况下作为步骤210的一部分为该组块设置一个跳跃标记。还可以存在其它的设置一个跳跃标记的因素。例如，如果在一个或多个声道中存在多个瞬变，所以在不删除或重复一个瞬变情况下就没有足够的空间进行数据压缩或数据扩展处理，也可以设置一个跳跃标记。

当删除或重复音频片段时最好在时间并行块中选择一个公共拼接点(和公共结束点)以保持在多个声道之间的相位同步。这对于双声道处理来说尤其重要，其中心理声学研究表明可以听觉感知到两个声道之间最低10微秒差别的立体声声象中的漂移，在44.1kHz抽样率上这对应于小于1个抽样。在环绕编码素材的情况下相位同步也很重要。应当维持环绕编码立体声声道的相位关系，否则解码信号的质量将会降低。

然而，在一些情况下，可以处理多声道数据，以便所有声道不是完全抽样对准的(即，为至少一些声道处理具有未对准和独立拼接点和结束点位置的声道)。例如，(为电影院或DVD信号)对准L、C、R(左、中、右)声道的拼接点和结束点，然后分别处理对准后的LS和RS(左环绕和右环绕)声道是很有的。可以在图5处理的多个处理步骤中共享信息，以能够逐块地调整处理中的轻微相位偏差以使差别最小化。

多声道拼接点选择的例子

图11图示图5的多声道拼接点选择分析步骤的具体步骤。第一处理步骤210-1(“分析每个声道块以定位心理声学上的识别区域”)分析每个声道的输入块以定位使用如上所述的心理声学分析识别出的区域。处理步骤210-2(“分组重叠的识别区域”)分组识别区域的重叠部分(它将所有声道的识别区域在一起与运算)。接着，处理步骤210-3(“根据优先重叠识别区域选择公共拼接点……”)选择在多个声道之间的一个公共拼接点。在多个重叠识别区域的情况下，在将识别区域的重叠部分分级时可以使用与每个识别区域的重叠部分有关的标准分级，最好根据如上所述的心理声学分级。在将多个识别区域的重叠部分分级时还可以考虑交叉声道掩蔽效应。步骤210-3还考虑在每个声道中是否存在多个瞬变，瞬变相互之间的近似性以及是否执行时间压缩或扩展。处理的类型(压缩或扩展)也非常重要，因为它表明结束点在拼接点之前还是之后(结合图2A至图2D解释的)。

图12图示在时间标度压缩的情况下，使用在各个声道的心理声学处理中被识别为适合于执行数据压缩或数据扩展处理的区域，选择一个公共多声道拼接点的例子。图12中的声道1和声道3都包含多个提供显著时间后掩蔽的瞬变，如图所示。图12中声道2内的音频包含可以用于数据压缩或数据扩展处理的一个相对安静部分的音频，并主要包含在声道2的音频块的后半部中。声道4中的音频包含一个低于听觉阈值和主要位于数据块前3300个抽样的部分。图12底部的图例表示重叠的识别区域，它提供一个很好的整体区域，其中可以在每个声道中以最小的可听性执行数据压缩或数据扩展处理。可以忽略在每个识别区域内的临时拼接点，并在识别区域的公共重叠部分中选择一个公共拼接点。公共拼接点最好略晚于公共重叠部分的起点(在这个例子中仅有一个公共重叠区域)，如图12所示，以防止识别区域之间的过度产生匀滑转换，并使可能的目标片段大小最大化。

选择结束点位置

再次参见图11，一旦在步骤210-3中识别出一个公共拼接点，处理步骤210-4(“设置最小和最大结束点位置……”)根据时间标度率(即所希望的数据压缩或扩展比例)设置最小和最大结束点位置，并维持在识别区域重叠部分内的相关处理区域。可选择地，并不在相关之前考虑时间标度率和识别区域的大小，在获知目标片段长度之前，可以通过缺省值确定最小和最大结束点位置，例如分别是上述的7.5和25毫秒。步骤210-4输出用于所有声道的公共多声道拼接点(如图12所示)和最小和最大结束点位置。步骤210-4还可以输出由步骤206(图5)的子步骤206-5(图6)提供的匀滑转换参数信息。在存在多个声道内或者声道间瞬变的情况下，最大结束点位置很重要。最好设置拼接点以使数据压缩或数据扩展处理出现在瞬变之间。在正确地设置结束点位置时(因此，最终地，由拼接点位置、结束点位置和匀滑转换长度确定的目标片段长度)，可能必需考虑其它的瞬变以及在同一或其它声道中的数据压缩或数据扩展处理。

块处理判决212(图5)

再次参见图5，处理中的下一个步骤是输入块处理判决212(“根据复杂性跳跃？”)。该步骤检查确定步骤210是否设置处理跳跃标记。如果是，则不处理当前的数据块。

相关处理214(图5)

如果确定将要处理当前的输入数据块，则如在图5的相关步骤214所示，可以针对这样的每个数据块提供两种相关处理。数据块时域信息的相关处理由子步骤214-1(“加权”)和214-2(“每块时域数据的相关处理”)来提供。输入信号相位信息的相关处理由子步骤214-3(“计算每块的相位”)和214-4(“每块相位数据的相关处理”)来提供。使用输入块数据的组合相位和时间域信息与仅使用时域信息相比为从语音到复杂音乐的信号提供了更高质量的时间标度结果。如果可以接受略差的性能，也可以仅处理和使用时域信息。在解释一些基本原理之后，下面描述相关处理的具体细节。

如上面所讨论和在图2A至图2D中所图示的，根据本发明多个方面的时间标度通过丢弃或者重复输入块片段来执行工作。根据第一可选实施例，如果选择拼接点和结束点位置使对于一个给定拼接点来说结束点最大地维持信号周期性，将减少可听的人为杂音。在图13中图示了最大化周期性的准确选择的拼接点和结束点位置的一个例子。图13所示的信号是一个语音信号的高度周期性部分的时域信息。

一旦确定一个拼接点，就需要一种确定一个合适的结束点位置的方法。如果这样，希望以一种方式加权该音频以便具有与人类听觉的某种关系，然后执行相关。信号时域幅度数据的相关操作提供了一个易于使用的信号周期性的估计值，这在选择一个结束点位置时很有用。尽管在时域内可以实现加权和相关，但是在频域中也可以有效地计算。可以使用一个快速傅立叶变换(FFT)来有效地计算一个信号功率谱的估计值，该值与一个信号相关的傅立叶变换有关。例如，参见William H.Press等人的《C中的数字方法，科学计算技术(Numerical Recipes in C，The Art of Scientific Computing)》中的“使用FFT的相关和自相关(Correlation and Autocorrelation Usingthe FFT)”12.5节，剑桥大学出版社，纽约，1988年，第432-434页。

使用输入数据块的相位和时域信息的相关数据来确定一个合适的结束点位置。对于时间压缩来说，使用拼接点位置和最大处理点之间音频的自相关(参见图2A、3A和4)。使用自相关的原因在于它提供数据周期性的测量值，并帮助确定如何删除所述音频主要频率分量的整数个周期。对于时间扩展来说，计算拼接点位置之前和之后数据的互相关值以估计将要重复以增加音频持续时间的数据的周期性(参见图2C、3B和4)。

相关(时间压缩的自相关或者时间扩展的互相关)的计算在拼接点处开始并在先前处理返回的的最大处理长度(在这里最大处理长度是最大结束点位置加上半个匀滑转换长度，如果在结束点之后有一个匀滑转换的话)或者一个全局最大处理长度(一个缺省的最大处理长度)中的任一个上结束。

可以在子步骤214-1中为每个输入声道数据块计算时域数据的频率加权相关。进行频率加权从而将相关处理集中在人类听觉最敏感的频率范围上，并代替在相关处理之前的时域数据滤波。虽然可以使用多个不同的加权响度曲线，一个合适的曲线是改进型B加权响度曲线。这个改进型曲线是使用下述等式计算的标准B加权曲线：

Rb (f) = \frac{12200^{2} * f^{3}}{(f^{2} + {20.6}^{2}) (f^{2} + 12200^{2}) ({(f^{2} + {158.5}^{2})}^{0.5})}

其中将低频分量(大约97Hz和更低的频率)设置等于0.5。

低频信号分量即使是不可听的，当拼接时也可能产生可以听到的高频人为杂音。因此，希望给低频分量提供与标准未改进的B加权曲线中所提供的加权相比更大的加权。

在加权之后，在处理214-2中，时域相关可以计算如下：

1)通过用零加大x(n)形成一个L点序列(2的某次幂)；

2)计算x(n)的L点FFT；

3)将复数FFT结果乘以它的共轭；和

4)计算L点逆FFT。

其中x(n)是在相关处理区域内代表音频抽样的输入数据块中所包含的数字化时域数据，其中n代表抽样或索引编号，长度L是大于该处理中抽样数的2的某次幂。

如上所述，通过使将要在频域中相关的信号乘以一个加权响度曲线可以有效地实现加权和相关。在这种情况下，在加权和相关之前应用一个FFT，在相关过程中应用加权，然后应用逆傅立叶变化。不管在时域还是在频域内执行，然后都要为下一步骤的处理存储相关值。

如图5所示，在子步骤214-3中计算每个输入声道数据块的瞬时相位，其中将瞬时相位定义如下：

phase(n)＝arctan(imag(analytic(x(n))/real(analytic(x(n)))

其中x(n)是在相关处理区域中代表音频抽样的输入数据块中包含的数字化时域数据，其中n代表抽样或索引编号。

函数analytic()代表x(n)的复数解析形式。通过对x(n)希耳波特变换并建立一个复数信号，该信号的实部是x(n)，该信号的虚部是x(n)的希耳波特变换，从而产生所述解析信号。在这种实现方式中，通过对输入信号x(n)傅立叶变化，用零取代频域信号的负值频率分量，然后执行逆傅立叶变换，可以有效地计算所述解析信号。所获得的是复数解析信号。通过将解析信号虚部的反正切值除以解析信号的实部来计算x(n)的相位。使用x(n)的解析信号的瞬时相位，因为它包含与信号本地状态有关的重要信息，这将有助于x(n)周期性的分析。

图14图示叠加在时域信号x(n)上的以弧度表示的一个语音信号的瞬时相位。在K.Sam Shanmugam、John Wiley和Sons等人的《数字和模拟通信系统(Digital and Analog CommunicationSystems)》(纽约，1979，第278至280页)中6.4.1节(“角度调制信号(Angle Modulated Signals)”)中阐述了“瞬时相位”的概念。通过同时考虑相位和时域特性，获得提高在拼接点处匹配波形能力的附加信息。在拼接点处最小化相位失真将降低不希望的人为杂音。

时域信号x(n)与x(n)的解析信号的瞬时相位相关，如下：

x(n)的负过零交叉＝+π/2(在相位上)；

x(n)的正过零交叉＝-π/2(在相位上)；

x(n)的本地最大值＝0(在相位上)；

x(n)的本地最小值＝±π(在相位上)。

这些映射以及中间点提供了与幅度x(n)有关的信息。在计算每个声道数据的相位之后，在步骤214-4中计算每个声道的相位信息的相关值，并存储以便随后进行处理。

多相关处理(216，图5，图15和图16)

一旦已经为每个输入声道的数据块计算出相位和时域相关，如图15中更详细地图示的，图5的相关处理步骤216(“处理多个相关以确定匀滑转换的位置”)处理这些相关。图15图示用于包含音乐的五个(左、中、右、左环绕和右环绕)输入声道的相位和时域相关。在图16中概念地图示的相关处理步骤作为输入接收每个声道的相位和时域相关，将每个都乘以一个加权值，然后求和以形成单个相关函数，它代表所有输入的所有输入声道的时域和相位相关信息。换句话说，图16的方案可以被视为一个超级相关函数，它将十个不同的相关求和以生成单个相关。图16的波形表示在大约抽样500上构成一个所希望的公共结束点的一个最大相关值，它位于最小和最大结束点位置之间。在这个例子中，拼接点在抽样0上。可以选择加权值以允许特定的声道或相关类型(例如时域对相位)在整个多声道分析中起主要作用。还可以将加权值选择为相关函数抽样点的函数，它将相互加重某些周期的信号。一个非常简单但有用的加权函数是声道之间相对响度的测量值。这样一种加权最小化在声级上足够低以至于可以忽略的信号的作用。也可以使用其它的加权函数。例如可以赋予瞬变更大的加权。组合各个相关的加权的“超级相关”的目的是尽可能地寻找一个最好的公共结束点。因为多声道在波形上可能不同，不存在理想的解决方案，也不存在寻找一个公共结束点的理想技术。下面描述一种寻找一对最佳的拼接点和结束点位置的可选处理方法。

每个相关的加权之和提供所有声道输入块的整体周期特性的有用信息。在拼接点和最大相关处理位置之间的相关处理区域内搜索所获得的整体相关值以确定最大的相关值。

处理块判决步骤218(图5)

返回图5的描述，块处理判决步骤218(“处理块？”)比较已经时间标度的数据量与所请求的时间标度量。例如，在压缩的情况下，该判决步骤保持累积跟踪与所希望的压缩比相比已经执行的压缩量。输出的时间标度因子是逐块不同的，在所请求的时间标度因子附近略微变化(在任意给定时间上可以大于或低于所希望的量值)。如果在每个时间同步(“当前”)块(一组代表时间同步音频片段的输入数据块，一个用于每个声道的块)中仅允许一个公共重叠区域，该块处理判决步骤比较所请求的时间标度因子与输出时间标度因子，并判断是否处理当前的输入数据块。该判断以当前块内公共重叠区域中目标片段的长度为基础，如果有公共重叠区域的话。例如，如果请求110％的时间标度因子和输出标度因子低于所请求的标度因子，则处理当前的输入块。反之，跳过当前块。如果在一组时间并行的输入数据块中允许多个公共重叠区域，该块处理判决步骤可以确定处理一个重叠区域、多个重叠区域或者跳过当前的多个块。也可以使用用于处理或跳过的其它标准。例如，并不根据当前累积的扩展或压缩是否超过所需要的程度来判断是否跳过当前的块，该判断可以基于处理当前块是否将累积扩展或压缩向所希望的程度改变，即使在处理当前块之后结果依然错误地在相反方向上。

匀滑转换处理220(图5)

在确定拼接点和结束点位置和判断是否处理该块之后，由图5的匀滑转换块步骤220(“匀滑转换每个声道的块”)处理每个声道的数据块。这个步骤接收每个声道的数据块、公共拼接点、结束公共点和匀滑转换信息。

再次参见图10，将一个合适形状的匀滑转换应用于输入数据，并将两个片段拼接在一起，省去(如图10所示)或重复目标片段。匀滑转换的长度最好是10毫秒的最大值，但是根据在前面分析步骤中所确定的匀滑转换参数可以更短。然而，当考虑听觉事件时，如下面所讨论的，在某些情况下可以使用更长的匀滑转换。例如根据半个汉宁窗口形状的非线性匀滑转换可能产生比线性(直线)匀滑转换更少的可听人为杂音，尤其对于诸如纯音和纯音扫描的简单单频信号来说，因为一个汉宁窗口并不具有直线匀滑转换斜率的不连续性。其它的形状，例如恺撒-贝塞耳窗口，也可以提供满意的结果，假设上升和下降的匀滑转换在50％上交叉，并在整个匀滑转换持续时间上总和是单一的。

音调标度处理222(图5)

在匀滑转换处理之后，图5的判决步骤222(“音调标度”)检查以确定是否执行音调偏移(标度)。如上面所描述的，由于缓冲区下溢或上溢，不能实时地执行时间标度。然而，因为重新抽样”步骤224(“重新抽样所有数据块”)的操作，能够实时地执行音调标度。重新抽样步骤以不同的速率读取这些抽样。在使用一个固定输出时钟的数字实施方式中，这通过重新抽样来实现。因此，重新抽样步骤224重新抽样时间标度输入信号，产生一个音调标度信号，该信号具有与输入信号相同的时间周期或持续时间，但是具有改变的频谱信息。为了实时地实现，可以使用专用硬件抽样率转换器执行重新抽样以减少DSP实现方式中的计算。应当指出仅当希望维持一个恒定输出抽样率或者维持输入抽样率和输出抽样率相同时才要求重新抽样。在一个数字系统中，通常需要一个恒定的输出抽样率或相同的输入/输出抽样率。然而，如果所关心的输出被转换到模拟域，一个可变的输出抽样率将是没有意义的。因此，重新抽样不是本发明任一方面的一个必需部分。

在音调标度确定和可能的重新抽样之后，在步骤226(“输出处理后的数据块”)将所有的处理后输入数据块输出为一个文件，用于非实时操作，或者为了实时操作输出为一个输出数据块。该处理然后检查其它的输入数据并继续处理。

心理声学分析和听觉情景分析实施例

在图17中图示根据本发明多个方面同时使用心理声学分析和听觉情景分析的一个多声道时间和/或音调标度处理的实施例。尽管在输入信号是用抽样表示的数字音频的一个或多个声道，和将每个声道中的连续抽样划分成4096个抽样的块的情况下描述该处理，但是这些实施上的细节要求并不严格。原理上，处理后的音频可以是数字的或者模拟的，并且不需要被划分成块。

参见图17，第一步骤，判决步骤702(“输入数据？”)确定是否有数字化输入音频数据可用于数据压缩或数据扩展处理。数据源可以是一个计算机文件或者一块输入数据，例如可以将其存储在一个实时输入缓冲区中。如果数据可用，则由步骤704累积代表时间并行片段的N个时间同步抽样的数据块(“为每个声道获取N个抽样”)，每块用于每个将被数据压缩或者数据扩展处理的输入声道(声道数大于或等于1)。处理所用的输入数据抽样数N可以固定在任意合适的抽样数量上，从而将输入数据划分成多个块。原理上，所处理的音频可以是数字的或者模拟的，不需要将其分割成块。

将结合本发明多个方面的一个实际实施例来讨论图17，其中每个声道的输入数据是在4096个抽样的多个块中处理的数据压缩或数据扩展，上述4096个抽样对应于44.1kHz抽样速率的大约93毫秒的输入音频。将理解本发明的多个方面并不限制于这样一个实际的实施例。如上面所指出的，本发明各个方面的原理并不需要将音频排列成抽样块，而且，如果是这样的话也不需要提供固定长度的块。然而，为了最小化复杂性，4096个抽样(或者2的其它某次幂个抽样)的固定块长度因为三方面的主要原因是很有用的。首先，它提供实时处理应用可接受的足够低的延迟。其次，它是2的某次幂个抽样，这对于快速傅立叶变换(FFT)分析是很有用的。第三，它提供一个适当大小的窗口以执行有用的输入信号的听觉情景和心理声学分析。

听觉情景分析706(图17)

在音频输入数据块之后，将每个声道的数据块内容划分成听觉事件，每个听觉事件将被独立地听觉感知到(“在每个声道的块上执行听觉情景分析”)(步骤706)。在多声道的情况下，可以并行地为所有声道或者逐声道地执行听觉情景分析706和随后的步骤(当提供合理的每个声道数据的存储和分析时)。尽管并行处理需要更强的处理能力，但是对于实时应用来说可能是优选的。图17的描述假设并行地处理这些声道。

可以通过上面所讨论的听觉情景分析(ASA)处理来实现听觉情景分析。尽管在此描述用于执行听觉情景分析的一个合适的处理方法，本发明也可以使用其它的用于执行ASA的有用技术。因为一个听觉事件将被相当恒定地听觉感知到，听觉情景分析结果在执行高质量时间和音调标度以及减少引入可听处理人为杂音时提供重要的有用信息。通过识别，然后分别地处理听觉事件，可以显著地减少因为时间和音调标度处理可能大量引入的可听人为杂音。

图18简单地描述可以在图17的听觉情景分析步骤中使用的根据本发明技术的一个处理方法。该ASA步骤包括三个普通处理子步骤。第一子步骤706-1(“计算输入音频块的频谱轮廓”)提取N个抽样的输入块，将其划分成子块，并为每个子块计算一个频谱轮廓或频谱内容。因此，第一子步骤计算音频信号连续时间片段的频谱内容。在一个实际的实施例中，如下面所描述的，ASA子块大小是输入数据块大小(例如4096个抽样)的八分之一(例如512个抽样)。在第二子步骤706-2中，确定子块与子块之间频谱内容上的差别(“执行频谱轮廓差别测量”)。因此，第二子步骤计算音频信号连续时间片段之间频谱内容上的差别。在第三子步骤706-3中(“识别听觉事件边界的位置”)，当一个频谱轮廓子块和下一子块之间的频谱差别大于一个阈值时，采取该子块边界作为一个听觉事件边界。因此，当连续时间片段之间频谱轮廓内容上的差值超过一个阈值时，第三子步骤在这样的连续时间片段之间设置一个听觉事件边界。如上面所讨论的，将一个可感知听觉事件的开始或结束上的有效标志视为一个在频谱内容上的改变。

在这个实施例中，听觉事件边界定义长度为频谱轮廓子块整数倍的听觉事件，并具有一个频谱轮廓子块的最小长度(在这个例子中是512个抽样)。原理上，不需要如此限制事件边界。还应当指出输入块大小限制一个听觉事件的最大长度，除非该输入块大小是可变的(作为在这里讨论的实际实施例的一种替代方案，例如，输入块的大小是可变的，使其基本上是一个听觉事件的大小)。

图19图示计算随时间变化的频谱轮廓的普通方法。在图19中，音频的重叠片段被加窗，并用于计算输入音频的频谱轮廓。重叠导致在听觉事件位置上更好的分辨度，而且，更不可能错过一个事件，例如一个瞬变。然而，随着时间分辨度增加，频率分辨率将降低。重叠还增加了计算的复杂性。因此，在下面所述的一个实际例子中，省去重叠。

下面的变量可用于计算输入块的频谱轮廓：

N＝输入音频块中的抽样数量

M＝用于计算频谱轮廓的加窗抽样数量

P＝频谱计算重叠的抽样数量

Q＝所计算的频谱窗口/区域的数量

通常，可以将任意整数用于上述变量。然而，如果将M设置为2的某次幂，以便可以将标准FFT用于频谱轮廓计算，实现的效率将更高。此外，如果选择N、M和P以使Q是一个整数，这将避免在N抽样块的结尾上欠载运行或过载运行音频。在听觉情景分析处理的一个实际实施例中，可以将所列出的参数设置如下：

N＝4096个抽样(或者44.1kHz上的93毫秒)

M＝512个抽样(或者44.1kHz上的12毫秒)

P＝0个抽样(无重叠)

Q＝8块

上面所列出的数值是经过实验确定的，发现它们通常能够以足够的精确度识别出音频事件的位置和持续时间以进行时间标度和音调偏移。然而，已经发现在识别一些难于发现的事件中将P的值设置为256个抽样(50％重叠)是很有用的。虽然可以使用多种不同类型的窗口来最小化加窗导致的频谱人为杂音，但是在频谱轮廓计算中使用的窗口是一个M点汉宁、恺撒-贝塞耳或者其它合适的最好是非矩形的窗口。在大量的实验分析之后，因为上述数值和汉宁窗口已经显示出可以在很宽范围的音频素材上提供非常好的结果，所以选择它们。对于处理主要是低频内容的音频信号来说，非矩形的加窗是优选的。矩形加窗所产生的频谱人为杂音可能导致错误的事件检测。

在子步骤706-1，可以通过一个M点汉宁、恺撒-贝塞耳或者其它合适的窗口给数据加窗，使用一个M点快速傅立叶变换将其转换到频域，并计算FFT系数的幅度，来计算每个M抽样子块的频谱。规格化所获得的数据以将最大幅度设置为一，然后将规格化后的M个数量的阵列转换到对数域。该阵列不必需转换到对数域，但是这种转换简化了在子步骤706-2中的差值测量计算。此外，对数域更贴近地匹配人类听觉系统的对数域幅度特性。所获得的对数域数值范围是负无穷大到零。在一种实际的实施例中，可以给该数值范围加一个下限；该下限例如可以固定在-60dB，或者可以根据频率以反映在低频和甚高频上安静声音的最低可听性。(应当指出在FFT代表正值和负值频率时可以将该阵列的大小降低到M/2)。

子步骤706-2计算相邻子块频谱之间差值的测量值。对于每个子块来说，将从子步骤706-1获得的每一个M(对数)频谱系数从前一子块的相应系数中减去，并计算差值的幅度。然后将这M个差值求和成一个数值。因此，对于整个音频信号来说，结果是一个Q个正数的阵列；数值越大，则该子块在频谱上与前一子块的差别越大。这个差值测量还可以表示为通过将差值测量值除于在求和中所使用的频谱系数个数(在这种情况下M个系数)所获得的每个频谱系数的一个平均差值。

子步骤706-3通过将一个阈值应用于从子步骤706-2获得的差值测量阵列来识别听觉事件边界的位置。当一个差值测量值超过一个阈值时，频谱上的变化足以表明一个新的事件，将该变化的子块编号记录为一个事件边界。对于上面给出的M、N、P和Q的值和以dB为单位表示的对数域值(在子步骤706-2中)来说，如果比较整个FFT(包括镜像部分)，可以将所述阈值设置为2500，如果比较半个FFT(如上所述，FFT代表正值和负值频率一对于整个FFT来说，一个是另一个的镜像)，可以将所述阈值设置为1250。这个数值是通过实验来选择的，它提供很好的听觉事件边界检测。可以改变这个参数值以降低(提高阈值)或者增加(降低阈值)事件的检测。

这个实际实施例的具体细节的要求并不严格。也可以使用其它的方式来计算音频信号连续时间片段的频谱内容，计算连续时间片段之间的差值，并且当这样的连续时间片段之间的频谱轮廓内容上的差值超过一个阈值时在该连续时间片段之间的相应边界上设置听觉事件边界。

图17的听觉情景分析处理步骤706的输出是听觉事件边界的位置、在输入块中检测到的听觉事件数量以及为N点输入块计算的最后一个或第L个频谱轮廓块。如先前所描述的，为每个声道的输入数据块执行一次听觉分析处理。如下面结合步骤710更详细地描述的，如果处理多个声道，可以组合听觉事件信息(创建“组合听觉事件”片段)以为所有声道建立一个总的听觉事件概况。这便于相位同步多声道处理。以这种方式，可以将多个声道理解为混合在一起以创建一个复杂音频情景的多个单音频“音轨”。在图20中图示了用于两个声道的事件检测处理的例子，下面进行描述。

听觉事件的心理声学分析708(图17)

再次参见图17，在输入数据分块和听觉情景分析之后，在每个输入数据块中为每个听觉事件执行心理声学分析(“对每个数据块的每个事件执行心理声学分析”)(步骤708)。通常，心理声学特性在一个声道中在一个听觉事件的长度或时间周期上保持基本上一致，因为一个听觉事件中的音频将被相当恒定地听觉感知到。因此，即使与听觉事件检测处理相比在心理声学分析处理中更仔细地检查音频信息，在在此所公开的实际例子中所述听觉事件检测处理检查512个抽样的子块，而在所公开的实际例子中所述心理声学分析处理检查64个抽样的子块，所述心理声学分析处理在一个听觉事件中通常仅能发现一个主要的心理声学状态，并相应地标记该事件。作为图17处理的一部分执行的心理声学分析与作为图5处理的一部分执行的心理声学分析的主要不同之处在于它在一个输入块内应用于每个听觉事件而不是整个输入块。

听觉事件的心理声学分析通常提供两个主要信息-首先，它识别哪一个输入信号的事件，如果处理的话，最可能产生可听的人为杂音，其次，可以使用输入信号的哪一部分来有利地掩蔽所执行的处理。图21阐述了一个在心理声学分析处理中所使用的与上述图6的处理相类似的处理。该心理声学分析处理包括四个主要的处理子步骤。如上所述，每个心理声学处理子步骤使用一个大小为频谱轮廓子块的八分之一(或者输入块大小的六十四分之一)的心理声学子块。因此，在这个例子中，如图22所示，心理声学子块大约是1.5毫秒(或者在44.1kHz上的64个抽样)。虽然心理声学子块的实际大小并不限制于1.5毫秒，并可以具有一个不同的数值，但这个数值被选择用于实际实施本发明，因为它提供了实时处理要求(越大的子块要求越少的心理声学处理开销)和瞬变位置的分辨力(越小的子块提供与瞬变位置有关的越详细的信息)之间很好的折中。原理上，心理声学子块大小对于每种心理声学分析来说不必是相同的，但是在实际的实施例中，为了便于实施，这是优选的。

瞬变检测708(图21)

参见图21，第一子步骤708-1(“执行瞬变检测/掩蔽分析”)分析每个声道输入块中的每个听觉事件片段以确定每个这样的片段是否包含一个瞬变。即使ASA处理的频谱改变方面本来就考虑了瞬变，并可能已经将包含一个瞬变的音频片段识别为一个听觉事件(因为瞬变导致频谱改变)，这也是必需的，因为在此所述的基于频谱的ASA处理并不通过听觉事件是否包含一个瞬变来识别一个听觉事件。所获得的时间瞬变信息在掩蔽分析中使用，并有助于设置临时或公共拼接点位置。如上面所讨论的，瞬变引入时间掩蔽(在瞬变出现之前和之后隐藏音频信息)是公知的。最好将在一个特定块内的一个听觉事件片段标记为一个瞬变，而不管该瞬变是否占有该事件的全部长度或时间周期。除了仅分析构成一个听觉事件的一个输入块的片段之外，在心理声学分析步骤中的瞬变检测处理与上面所描述的瞬变检测处理基本上相同。因此，为了瞬变检测处理的具体细节，可以参考上面所述的图8的处理流程图。

听觉阈值分析708-3(图21)

再次参见图21，心理声学分析处理中的第二步骤708-2，“执行听觉阈值分析”子步骤，分析在每个声道输入块中的每个听觉事件片段以确定每个这样的片段是否基本上是一个强度足够低以至可以将其视为等于或低于听觉阈值的信号。如上所述，一个听觉事件在它的全部长度或时间周期上将被相当恒定地听觉感知到，当然，由于频谱轮廓子块大小的间隔尺寸，在其边界附近可能变化(例如，除了在可能的事件边界上很精确之外，音频可以改变其特性)。除了仅分析构成一个听觉事件的一个输入块的片段之外，在该心理声学分析步骤中的听觉阈值分析处理与上面所描述的听觉阈值分析处理基本上相同(例如，参见对图6子步骤206-2的描述)，因此，可以参考先前的描述。对音频事件感兴趣，是因为时间标度和音调偏移这样的听觉事件所引入的人为杂音比较不可能在这样的区域内被听到。

高频分析708-3(图21)

第三子步骤708-3(图21)(“执行高频分析”)分析每个声道输入块内的每个听觉事件以确定这样的每个片段是否主要包含高频音频内容。在心理声学分析中关注高频片段的原因是在安静环境中听觉阈值快速增加到大约10-12kHz以上，并且与主要为低频的波形中的不连续性相比，人耳对主要为高频的波形中的不连续性较不敏感。虽然有很多方法可用于确定一个音频信号是否主要包含高频能量，上面结合图6的子步骤206-3描述的方法提供很好的检测结果，最小化计算要求，并可以用于分析构成听觉事件的片段。

音频声级分析708-4(图21)

心理声学分析处理中的第四子步骤708-4(图21)，“执行普通音频块声级分析”子步骤，分析每个声道输入块中的每个听觉事件片段以计算该事件信号强度的测量值。如果在处理过程中事件并不具有上述可以使用的任意一个心理声学特性，则使用这些信息。在这种情况下，根据音频较低声级的片段生成比较不可能被听到的低声级处理人为杂音的基本原理，数据压缩或扩展处理可能倾向于输入数据块中的最低声级或最安静的听觉事件。在图23中图示使用管弦音乐单声道的一个简单例子。在一个新的音调上出现的频谱改变分别触发在抽样2048和2560上的新事件2和3。图23中所示的管弦信号不包含瞬变、低于听觉阈值或高频内容。然而，该信号的第一听觉事件在声级上低于该块的第二和第三事件。通过选择这样一个较安静的事件进行数据扩展或压缩处理而不是更响的后面的事件，相信使可听处理人为杂音最小化。

为了计算一个听觉事件的普通声级，子步骤708-4提取被划分成64个抽样子块的事件中的数据，找到每个子块中的最大抽样的幅度，并在该事件中64抽样子块的数量上平均这些最大幅度。存储每个事件的普通音频声级以随后进行比较。

确定组合听觉事件和设置一个公共拼接点710(图17)

如图17所示，在每块内构成一个听觉事件的每块的听觉情景分析和心理声学分析之后，该处理中的下一步骤710(“确定组合听觉事件和设置公共拼接点”)是确定在所有声道中并行块内组合听觉事件的边界(下面将结合图20进一步描述组合听觉事件)，在每组并行块内为一个或多个组合听觉事件片段确定在所有声道中并行块内的一个公共拼接点，并排列该组合听觉事件片段内听觉事件的心理声学质量。这样一个排列可以基于上面描述的心理声学标准的分级。在处理单声道的事件中，以与该说明书中处理多声道组合听觉事件相同的方式处理单声道中的听觉事件。

除了考虑组合听觉事件而不是一个识别区域的公共重叠之外，通常以上面结合图5描述的方式执行一个或多个公共拼接点的设置。因此，例如，在压缩的情况下，通常可以将一个公共拼接点设置在组合听觉事件周期中较早的位置上，而在扩展的情况下，则通常设置在组合听觉事件较晚的位置上。例如，可以使用组合听觉事件开始之后5毫秒的缺省时间。

可以考虑每个声道中组合听觉事件片段的心理声学质量以确定数据压缩或扩展处理是否应当出现在一个特定组合听觉事件内。原理上，心理声学质量确定可以在每个组合事件片段中设置一个公共拼接点之后执行或者可以在每个组合事件片段中设置一个公共拼接点之前执行(在这种情况下，不需要为根据复杂性被跳过的具有一个负值心理声学质量等级的一个组合事件设置公共拼接点)。

一个组合事件的心理声学质量等级可以基于在组合事件时间片段中各个声道内音频的心理声学特性(利用一个瞬变掩蔽每个声道的一个组合事件可以具有最高的心理声学质量等级，而没有声道满足任何心理声学标准的一个组合事件可以具有最低的心理声学质量等级)。例如，可以使用上面描述的心理声学标准的分级。然后可以结合下面进一步描述的第一判决步骤(步骤712)使用多个组合事件的相对心理声学质量等级，所述第一判决步骤考虑在各个声道中的组合事件片段的复杂性。一个复杂片段是一个执行数据压缩或扩展将可能产生可听人为杂音的片段。例如，一个复杂片段可以是至少一个声道不满足任何心理声学标准(如上所述)或者包含一个瞬变(如上所述，不希望改变一个瞬变)的片段。在最复杂的情况下，例如，每个声道都不能满足一个心理声学标准或者包含一个瞬变。下面描述的第二判决步骤(步骤718)考虑目标片段的长度(它受组合事件片段长度的影响)。在单声道的情况下，根据其心理声学标准排列事件以确定是否应当跳过它。

通过参考图20可以更好地理解组合听觉事件，图20图示对于双声道音频信号的听觉情景分析结果。图20图示在两个声道中音频数据的并行块。图20的上部波形，第一声道中音频的ASA处理在大小为多个频谱轮廓子块多倍的抽样上识别听觉事件边界，在这个例子中为1024和1536个抽样。图20的下部波形是第二声道和在大小也是频谱轮廓子块多倍的抽样上的事件边界中ASA处理的结果，在这个例子中在抽样1024、2048和3072上。一个用于双声道的组合听觉事件分析产生边界在抽样1024、1536、2048和3072上的组合听觉事件片段(每个声道的听觉事件边界在一起或运算)。实际上，听觉事件边界的准确度显然取决于频谱轮廓子块的大小(在这个实际实施例中N是512个抽样)，因为事件边界可以仅出现在子块边界上。不过，512个抽样的子块大小已经被发现可以以足够的准确度来确定听觉事件边界，从而提供满意的结果。

继续参见图20，如果仅处理在该图上部包含一个瞬变的音频单声道，则将存在三个独立的听觉事件可以用于数据压缩或扩展处理。这些事件包括(1)瞬变之前音频的安静部分，(2)瞬变事件，和(3)音频瞬变的回声/延续部分。类似地，如果仅处理在该图下部中表示的语音信号，则将存在四个独立的听觉事件可以用于数据压缩或扩展处理。这些事件包括主要为高频的齿音事件、当齿音演化或“变体”成元音的事件、元音的前半部和元音的后半部。

图20还图示当在两个声道的并行数据块间共享听觉事件数据时的组合事件边界。这样的事件分段提供在其中可能出现数据压缩或扩展处理的五个组合听觉事件区域(将事件边界在一起或运算)。在一个组合听觉事件分段内的处理确保处理在每个声道的一个听觉事件中出现。应当指出，根据所使用的数据压缩或扩展的方法和音频数据的内容，仅处理在一个组合事件或者一些组合事件(而不是所有的组合事件)中两个声道内的数据可能是最合适的。应当指出尽管组合听觉事件边界是通过或运算所有声道的事件边界获得的结果，但是可以使用它们来定义数据压缩或扩展处理的片段，所述数据压缩或扩展处理在每个并行输入声道块内的数据上独立地执行。因此，如果仅为处理选择单个组合事件，则在该组合事件的长度或事件片段中处理每个声道的数据。例如，在图20中，如果所希望的整体时间标度量是10％，则如果仅在每个声道中处理组合事件区域四，组合事件区域四内的抽样数量充分改变以致全部N个抽样的长度被改变0.10×N个抽样，则可能引入最低量值的可听人为杂音。然而，还可以分配这些处理，并处理每个组合事件以便在所有组合事件中长度上的总改变之和是0.10×N个抽样。在下面描述的步骤718中确定为处理所选择的组合事件的数量和具体的组合事件。

图24图示一个四声道输入信号的例子。声道1和声道4分别包含三个听觉事件，声道2和声道3分别包含两个听觉事件。如图24底部所表示的，在所有四个声道上并行数据块的组合听觉事件边界位于抽样编号512、1024、1536、2560和3072上。这说明可以在四个声道上处理所有六个组合听觉事件。然而，一些组合听觉事件可能具有较低的心理声学排列(即它们可能过于复杂)或者可能太短以致于不希望在它们内部进行处理。在图24的例子中，最希望进行处理的组合听觉事件是组合事件区域4，其次是组合事件区域6。其它三个组合事件区域大小都是最小的。而且，组合事件区域2在声道1中包含一个瞬变。如上面所指出的，最好避免在一个瞬变中进行处理。希望使用组合事件区域4是因为它最长，而且它的每个声道的心理声学特性都是满意的-它在声道1中具有瞬变后掩蔽，声道4低于听觉阈值，声道2和声道3的声级较低。

最大相关处理长度和匀滑转换长度限制了在一个组合听觉事件时间片段内可以删除或重复的音频的最大量值。最大相关处理长度受组合听觉事件时间片段的长度或者一个无论有多小的预定数值的限制。最大相关处理长度应当使数据压缩或扩展处理在一个事件的开始和结束边界内。如果不这样的话，将导致事件边界的“干扰”或“模糊”，这是可以听到的。

图25图示使用这些声道的第四个组合听觉事件时间片段作为一个将要处理的片段的图24的四声道数据压缩处理例子的具体细节。在这个例子中，声道1包含在组合事件2中的一个瞬变。对于这个例子来说，将拼接点位置选择在抽样1757上，该抽样位于声道1中抽样650上瞬变之后的最大组合听觉事件中。根据放置在前面的组合事件边界之后5毫秒(匀滑转换的半个长度或者在44.1kHz上的221个抽样)以避免在匀滑转换过程中干扰事件边界的标准来选择这个拼接点位置。在这个分段内放置拼接点位置还利用了由组合事件2中的瞬变所提供的后掩蔽。

在图25所示的例子中，最大处理长度考虑在处理和匀滑转换过程中应当避免在抽样2560上组合多声道听觉事件边界的位置。作为步骤710的一部分，将最大处理长度设置为582抽样。假设5毫秒的半匀滑转换长度(在44.1kHz上221个抽样)，将这个值计算如下：

最大处理长度＝事件边界-匀滑转换长度-处理拼接点位置

582＝2560-221-1757

步骤710的输出是每个组合听觉事件的边界、用于每个组合听觉事件在这些声道上的并行数据块内的公共拼接点、组合听觉事件的心理声学质量等级、匀滑转换参数信息和用于每个组合听觉事件在这些声道中的最大处理长度。

如上面所解释的，一个具有低心理声学质量等级的组合听觉事件表明在这些声道中的这个分段内不应当执行数据压缩或扩展。例如，如仅考虑一个单声道的图26所示，在长度为512个抽样的事件3和4内的音频主要包含低频内容，这不适合于数据压缩或扩展处理(没有足够可用的主要频率的周期性)。可以给这种事件分配一个很低的心理声学质量等级，并可以跳过它们。

根据复杂性的跳跃712(图17)

因此，当心理声学质量等级很低时(表示很高的复杂性)，步骤712(“根据复杂性跳跃？”)设置一个跳跃标记。通过在下面描述的相关处理步骤714之前而不是之后执行这个复杂性判决，可以避免执行不必要的相关处理。应当指出下面描述的步骤718进行进一步的判决以确定是否应当处理在一个特定组合听觉事件片段内各个声道中的音频。步骤718考虑与当前处理长度的要求有关的组合听觉事件中目标片段的长度。目标片段的长度是未知的，直到在将要描述的相关步骤714中确定公共结束点。

Claims

1.一种时间标度和/或音调偏移一个音频信号的方法，包括：

使用多个心理声学标准分析所述音频信号，以识别出该音频信号的一个区域，其中该音频信号的时间标度和/或音调偏移处理将是不可听的或者是最低可听性的；和

在所述区域内时间标度和/或音调偏移处理该音频信号。

2.权利要求1的方法，其中所述时间标度和/或音调偏移处理包括：

在该音频信号的所述区域内选择一个拼接点；

删除在该拼接点处开始的一部分音频信号或者重复在该拼接点处结束的一部分音频信号；和

以一个产生所想要的时间标度和/或音调偏移的速率读出所获得的音频信号。

3.权利要求1的方法，其中所述时间标度和/或音调偏移处理包括：

在该音频信号的所述区域内选择一个拼接点，从而定义引导该拼接点的该音频信号的一个引导片段；

选择与所述拼接点隔开的一个结束点，从而定义尾随该结束点的该音频信号的一个尾随片段，和在该拼接点和结束点之间的该音频信号的一个目标片段；

在所述拼接点处拼接所述引导片段和尾随片段，从而当该结束点具有比所述拼接点更高的抽样编号时，通过省去该目标片段来降低音频信号抽样数量，或者当该结束点具有比所述拼接点更低的抽样编号时，通过重复该目标片段来增加抽样数量；和

以一个产生所想要的时间标度和/或音调偏移的速率读出所拼接的引导和尾随片段。

4.权利要求2或权利要求3的方法，其中以一个速率读出拼接的引导和尾随片段，以使：

以与抽样数量减少中的相对变化不同的一个比例减少的一个持续时间导致时间压缩和音调偏移该音频信号；或

5.权利要求3的方法，其中还将结束点选择在所述区域内。

6.权利要求3的方法，其中使用多个心理声学标准分析所述音频信号包括分析所述音频信号以识别出该音频信号的一个区域，其中该音频满足一组心理声学标准中至少一个标准。

7.权利要求6的方法，其中所述心理声学标准包括下述标准中的至少一个：

所述音频信号的识别区域因为一个瞬变基本上被前掩蔽或后掩蔽；

所述音频信号的识别区域基本上是不可听的；

所述音频信号的识别区域主要在高频上；和

所述音频信号的识别区域是该音频信号的一个片段中一个较安静的部分，在该音频信号的片段中，在该区域之前和/或之后该片段的一个部分或者多个部分音量更大。

8.权利要求3的方法，其中在拼接点处拼接所述引导和尾随片段的所述步骤包括匀滑转换该引导和尾随片段。

9.权利要求3的方法，其中在通过省去目标片段降低音频信号抽样数量的情况下，通过自相关尾随该拼接点的一个音频片段来选择所述结束点。

10.权利要求3的方法，其中在通过重复目标片段增加音频信号抽样数量的情况下，通过互相关引导和尾随该拼接点的音频片段来选择所述结束点。

11.权利要求3的方法，其中在通过省去目标片段降低音频信号抽样数量或者通过重复目标片段增加音频抽样数量的情况下，通过下述步骤来选择拼接点位置和结束点位置：

相关一个围绕一系列试用拼接点位置的音频抽样的窗口和一个与所述一系列试用拼接点位置中的每个试用拼接点位置相邻的音频抽样的区域；和

确定导致最强相关的试用拼接点位置，将该试用拼接点位置指定为拼接点，并基本上在最强相关的位置上设置结束点位置。

12.权利要求11的方法，其中所述窗口是一个矩形窗口。

13.权利要求12的方法，其中所述窗口的宽度基本上等于匀滑转换宽度。

14.权利要求11的方法，其中所述一系列试用拼接点位置间隔大于一个音频抽样。

15.权利要求14的方法，其中所述一系列试用拼接点位置间隔基本上为所述窗口的宽度。

16.权利要求15的方法，其中所述窗口的宽度基本上等于匀滑转换宽度。

17.权利要求11的方法，对于通过省去目标片段降低音频抽样数量的情况，其中与所述一系列试用拼接点位置中的每个试用拼接点位置相邻的音频抽样的区域在每个试用拼接点位置之后，因此，拼接点在结束点之前。

18.权利要求11的方法，对于通过重复目标片段增加音频抽样数量的情况，其中与所述一系列试用拼接点位置中的每个试用拼接点位置相邻的音频抽样的区域在每个试用拼接点位置之后，并倒换拼接点和结束点的身份，因此，结束点在拼接点之前。

19.权利要求11的方法，对于通过重复目标片段增加音频抽样数量的情况，其中与所述一系列试用拼接点位置中的每个试用拼接点位置相邻的音频抽样的区域在每个试用拼接点位置之前，因此，结束点在拼接点之前。

20.权利要求3的方法，其中在通过省去目标片段降低音频信号抽样数量或者通过重复目标片段增加音频抽样数量的情况下，通过下述步骤选择拼接点位置和结束点位置：

相关一个围绕一系列试用拼接点位置的音频抽样的窗口和一个与所述一系列试用拼接点位置中的每个试用拼接点位置相邻的音频抽样的区域，其中所有的所述音频抽样以因子M抽取；

确定导致最强相关的试用拼接点位置，并将该试用拼接点位置指定为抽取拼接点；

相关一个围绕所述抽取拼接点的M个抽样内第二系列试用拼接点位置的未抽取音频抽样的窗口和一个与该第二系列试用拼接点位置中的每个试用拼接点位置相邻的未抽取音频抽样的区域；和

确定在所述第二系列中导致最强相关的试用拼接点位置，将该试用拼接点位置指定为拼接点，并将结束点位置基本上设置在最强相关的位置上。

21.一种时间标度和/或音调偏移音频信号的多个声道的方法，包括：

使用至少一个心理声学标准分析所述音频信号多个声道中的每个声道，以识别出在所述音频信号的多个声道中音频信号的时间标度和/或音调偏移处理将是不可听的或者最低可听性的区域；和

在音频信号的至少一个所述声道中的一个识别区域内的一个时间片段期间，时间标度和/或音调偏移处理音频信号的所述多个声道中的所有声道。

22.权利要求21的方法，还包括识别出在音频信号的多个声道之中所识别区域的一个公共重叠部分；和

在所述识别区域的公共重叠部分内时间标度和/或音调偏移处理音频信号的所述多个声道中的所有声道，因此，所述处理出现在每个声道中的一个识别区域内。

23.权利要求22的方法，其中存在识别区域的多个公共重叠部分，并通过将一个心理声学标准的分级应用于每个识别区域公共重叠部分中的识别区域来选择最佳公共重叠部分，为时间标度和/或音调偏移处理选择识别区域的所述公共重叠部分。

24.权利要求21的方法，其中所述时间标度和/或音调偏移处理包括：

选择音频信号多个声道之间的一个公共拼接点，因此在音频信号多个声道中每个声道内的所述公共拼接点产生的拼接点基本上是相互对准的，其中所述公共拼接点在音频信号的所述多个声道中的至少一个声道内的一个识别区域内；

删除在该拼接点处开始的音频信号每个声道的一部分或者重复在该拼接点处结束的音频信号每个声道的一部分；和

以一个为音频的多个声道产生所想要的时间标度和/或音调偏移的速率读出所获得的音频信号声道。

25.权利要求24的方法，还包括识别一个其中存在所识别区域的一个公共重叠部分的时间片段，并在所识别区域的所述公共重叠部分内选择多个音频信号声道之间的所述公共拼接点。

26.权利要求24的方法，其中所述选择一个公共拼接点通过使用至少一个心理声学标准还考虑交叉声道效应来选择所述公共拼接点位置。

27、权利要求21的方法，其中所述时间标度和/或音调偏移处理包括：

在音频信号的每个声道内的一个识别区域内选择一个公共拼接点，因此，在音频信号多个声道中每个声道内的所述公共拼接点产生的拼接点基本上是相互对准的，每个拼接点定义一个引导该拼接点的音频信号引导片段；

在所述识别区域内并与所述拼接点隔开地选择一个公共结束点，因此，多个音频信号声道内的结束点基本上是相互对准的，从而定义一个尾随该结束点的音频信号尾随片段和一个在该拼接点和该结束点之间的音频信号目标片段；

在音频信号的每个声道内在所述拼接点处拼接所述引导片段和尾随片段，从而当该结束点具有一个比所述拼接点更高的抽样编号时，通过省去该目标片段来降低音频信号抽样数量，或者当该结束点具有一个比所述拼接点更低的抽样编号时，通过重复该目标片段来增加抽样数量；和

以一个为音频的多个声道产生一个所想要的时间标度和/或音调偏移的速率读出在每个音频信号声道中拼接的引导和尾随片段。

28.权利要求24或权利要求27的方法，其中以一个速率读出拼接的引导和尾随片段，以使：

29.权利要求27的方法，还包括在一个或多个识别区域内定位一个临时拼接点，其中所述选择一个公共拼接点选择多个声道中一个声道内的一个临时拼接点的位置作为一个公共拼接点位置，其中被选择作为公共拼接点位置的临时拼接点位置可以与一个或多个其它临时拼接点位置不一致。

30.权利要求27的方法，还包括识别所识别区域的一个公共重叠部分，其中所述选择一个公共拼接点选择在所识别区域的所述公共重叠部分内的一个公共拼接点。

31.权利要求30的方法，其中所述选择一个公共拼接点使用至少一个心理声学标准在所识别区域的一个公共重叠部分内选择所述公共拼接点。

32.权利要求30的方法，其中所述选择一个公共拼接点通过使用至少一个心理声学标准还考虑交叉声道效应在所识别区域的一个公共重叠部分中选择一个公共拼接点。

33.权利要求27的方法，其中所述选择一个公共拼接点使用至少一个心理声学标准选择所述公共拼接点。

34.权利要求33的方法，其中所述选择一个公共拼接点通过使用至少一个心理声学标准还考虑交叉声道效应选择所述公共拼接点。

35.权利要求27的方法，其中还将结束点选择在每个音频信号的所述区域内。

36.权利要求27的方法，其中所述的使用一个心理声学标准分析所述音频信号声道中的每个声道以识别出在音频信号声道中的每个声道内省去一部分音频信号或者重复一部分音频信号将是不可听的或者最低可听性的一个区域包括：分析所述音频信号声道以识别出在每个音频信号声道中的区域，在这些区域内音频满足一组心理声学标准中的至少一个标准。

37.权利要求32或权利要求36的方法，其中所述心理声学标准包括下述标准中的至少一个标准：

所述音频信号的识别区域基本上是不可听的；

所述音频信号的识别区域主要在高频上；和

所述音频信号的识别区域是该音频信号的一个片段中的一个较安静的部分，在该音频信号的片段中，在该区域之前和/或之后该片段的一个部分或者多个部分音量更大。

38.一种时间标度和/或音调偏移一个音频信号的方法，包括：

将所述音频信号划分成多个听觉事件；和

在一个听觉事件内进行时间标度和/或音调偏移处理。

39.权利要求38的方法，其中所述时间标度和/或音调偏移处理包括：

在所述听觉事件内选择一个拼接点和一个结束点；

以一个产生所需要的时间标度和/或音调偏移的速率读出所获得的音频信号。

40.权利要求38的方法，其中所述时间标度和/或音调偏移处理包括：

在所述听觉事件内选择一个拼接点，从而定义一个引导该拼接点的音频信号引导片段；

在所述听觉事件内选择一个结束点，所述结束点与所述拼接点隔开，从而定义一个尾随该结束点的音频信号尾随片段，和一个在该拼接点和该结束点之间的音频信号目标片段；

41.权利要求39或权利要求40的方法，其中以一个速率读出拼接后的引导和尾随片段，以使：

42.权利要求40的方法，其中在拼接点处拼接所述引导和尾随片段的所述步骤包括匀滑转换该引导和尾随片段。

43.权利要求40的方法，其中在通过省去目标片段降低音频信号抽样数量的情况下，通过自相关尾随该拼接点的一个音频片段来选择所述结束点。

44.权利要求40的方法，其中在通过重复目标片段增加音频信号抽样数量的情况下，通过互相关引导和尾随该拼接点的音频片段来选择所述结束点。

45.权利要求40的方法，其中在通过省去目标片段降低音频信号抽样数量或者通过重复目标片段增加音频抽样数量的情况下，通过下述步骤来选择拼接点位置和结束点位置：

46.权利要求45的方法，其中所述窗口是一个矩形窗口。

47.权利要求46的方法，其中所述窗口的宽度基本上等于匀滑转换宽度。

48.权利要求45的方法，其中所述一系列试用拼接点位置间隔大于一个音频抽样。

49.权利要求48的方法，其中所述一系列试用拼接点位置间隔基本上为所述窗口的宽度。

50.权利要求49的方法，其中所述窗口的宽度基本上等于匀滑转换宽度。

51.权利要求45的方法，对于通过省去目标片段降低音频抽样数量的情况，其中与该一系列试用拼接点位置中的每个试用拼接点位置相邻的音频抽样的区域在每个试用拼接点位置之后，因此，拼接点在结束点之前。

52.权利要求45的方法，对于通过重复目标片段增加音频抽样数量的情况，其中与该一系列试用拼接点位置中的每个试用拼接点位置相邻的音频抽样的区域在每个试用拼接点位置之后，并倒换拼接点和结束点的身份，因此，结束点在拼接点之前。

53.权利要求45的方法，对于通过重复目标片段增加音频抽样数量的情况，其中与该一系列试用拼接点位置中的每个试用拼接点位置相邻的音频抽样的区域在每个试用拼接点位置之前，因此，结束点在拼接点之前。

54.权利要求40的方法，其中在通过省去目标片段降低音频信号抽样数量或者通过重复目标片段增加音频抽样数量的情况下，通过下述步骤选择拼接点位置和结束点位置：

相关一个围绕所述抽取拼接点的M个抽样内第二系列试用拼接点位置的未抽取音频抽样的窗口和一个与该第二系列试用拼接点位置中每个试用拼接点位置相邻的未抽取音频抽样的区域；和

55.一种时间标度和/或音调偏移多个音频信号声道的方法，包括：

将每个声道内的音频信号划分成多个听觉事件；

确定多个组合听觉事件，当一个听觉事件边界出现在任一个听觉信号声道中时，每个组合听觉事件具有一个边界；和

在一个组合听觉事件内时间标度和/或音调偏移处理所有的所述音频信号声道，因此在每个声道中的一个听觉事件内或者一个听觉事件的一部分内执行处理。

56.权利要求55的方法，其中所述时间标度和/或音调偏移处理包括：

在音频信号多个声道之间的一个组合听觉事件内选择一个公共拼接点，因此，在音频信号多个声道中每个声道内的所述至少一个公共拼接点产生的拼接点基本上是相互对准的；

删除在所述公共拼接点处开始的音频信号每个声道的一部分或者重复在所述公共拼接点处结束的音频信号每个声道的一部分；和

以一个为多个声道产生所想要的时间标度和/或音调偏移的速率读出所获得的音频信号声道。

57.权利要求55的方法，其中所述时间标度和/或音调偏移处理包括：

在多个音频信号声道之间的一个组合听觉事件内选择一个公共拼接点，因此，在多个音频信号声道中的每个声道内所述公共拼接点产生的拼接点基本上是相互对准的，每个拼接点定义一个引导该拼接点的音频信号引导片段；

在所述组合听觉事件内并与所述公共拼接点隔开地选择一个公共结束点，因此，多个音频信号声道中每个音频信号声道内的所述公共结束点产生的结束点基本上是相互对准的，从而定义一个尾随该结束点的音频信号尾随片段和一个在该拼接点和该结束点之间的音频信号目标片段；

以一个为该音频的多个声道产生所想要的时间标度和/或音调偏移的速率读出在每个音频信号声道中拼接的引导和尾随片段。

58.权利要求56或权利要求57的方法，其中以一个速率读出拼接的引导和尾随片段，以使：

59.一种时间标度和/或音调偏移一个音频信号的方法，包括：

将所述音频信号划分成多个听觉事件；

使用一个心理声学标准分析所述听觉事件，以识别出其中该音频信号的时间标度和/或音调偏移处理将是不可听的或者最低可听性的那些听觉事件；和

在被识别为其中该音频信号的时间标度和/或音调偏移处理将是不可听的或者最低可听性的一个听觉事件内执行时间标度和/或音调偏移处理。

60.权利要求59的方法，其中所述至少一个心理声学标准是一组心理声学标准中的一个标准。

61.权利要求60的方法，其中所述心理声学标准包括下述标准中的至少一个标准：

所述音频信号的识别区域基本上是不可听的；

所述音频信号的识别区域主要在高频上；和

62.权利要求59的方法，其中所述时间标度和/或音调偏移处理包括：

在所述听觉事件中选择一个拼接点；

以产生一个所需要的时间标度和/或音调偏移的速率读出所获得的音频信号。

63.权利要求59的方法，其中所述时间标度和/或音调偏移处理包括：

在所述听觉事件中选择一个拼接点，从而定义一个引导该拼接点的音频信号引导片段；

在所述听觉事件中并与所述拼接点隔开地选择一个结束点，从而定义一个尾随该结束点的音频信号尾随片段，和一个在该拼接点和结束点之间的音频信号目标片段；

64.权利要求62或权利要求63的方法，其中以一个速率读出拼接的引导和尾随片段，以使：

65.权利要求63的方法，其中在拼接点处拼接所述引导和尾随片段的所述步骤包括匀滑转换该引导和尾随片段。

66.权利要求63的方法，其中在通过省去目标片段降低音频信号抽样数量的情况下，通过自相关尾随该拼接点的一个音频片段来选择所述结束点。

67.权利要求63的方法，其中在通过重复目标片段增加音频信号抽样数量的情况下，通过互相关引导和尾随该拼接点的音频片段来选择所述结束点。

68.权利要求63的方法，其中在通过省去目标片段降低音频信号抽样数量或者通过重复目标片段增加音频抽样数量的情况下，通过下述步骤来选择拼接点位置和结束点位置：

相关一个围绕一系列试用拼接点位置的音频抽样的窗口和一个与所述一系列的试用拼接点位置中的每个试用拼接点位置相邻的音频抽样的区域；和

69.权利要求68的方法，其中所述窗口是一个矩形窗口。

70.权利要求69的方法，其中所述窗口的宽度基本上等于匀滑转换宽度。

71.权利要求68的方法，其中所述一系列试用拼接点位置间隔大于一个音频抽样。

72.权利要求71的方法，其中所述一系列试用拼接点位置间隔基本上为所述窗口的宽度。

73.权利要求72的方法，其中所述窗口的宽度基本上等于匀滑转换宽度。

74.权利要求68的方法，对于通过省去目标片段降低音频抽样数量的情况，其中与该一系列试用拼接点位置中的每个试用拼接点位置相邻的音频抽样的区域在每个试用拼接点位置之后，因此，拼接点在结束点之前。

75.权利要求68的方法，对于通过重复目标片段增加音频抽样数量的情况，其中与该一系列试用拼接点位置中的每个试用拼接点位置相邻的音频抽样的区域在每个试用拼接点位置之后，并倒换拼接点和结束点的身份，因此，结束点在拼接点之前。

76.权利要求68的方法，对于通过重复目标片段增加音频抽样数量的情况，其中与该一系列试用拼接点位置中的每个试用拼接点位置相邻的音频抽样的区域在每个试用拼接点位置之前，因此，结束点在拼接点之前。

77.权利要求63的方法，其中在通过省去目标片段降低音频信号抽样数量或者通过重复目标片段增加音频抽样数量的情况下，通过下述步骤选择拼接点位置和结束点位置：

78.一种时间标度和/或音调偏移多个音频信号声道的方法，包括：

将每个声道内的音频信号划分成多个听觉事件；

使用至少一个心理声学标准分析所述听觉事件，以识别出其中该音频信号的时间标度和/或音调偏移处理将是不可听的或者最低可听性的那些听觉事件；

确定多个组合听觉事件，每个组合听觉事件具有一个边界，其中一个听觉事件边界出现在任一声道的音频信号内；

在被识别为其中在音频信号多声道内的时间标度和/或音调偏移处理将是不可听的或者最低可听性的一个组合听觉事件内执行时间标度和/或音调偏移处理。

79.权利要求78的方法，其中根据在该组合听觉事件的时间片段期间多个声道中每个声道内的音频的心理声学特性，将该组合听觉事件识别为在其中多个声道的时间标度和/或音调偏移处理将是不可听的或者最低可听性的一个组合听觉事件。

80.权利要求79的方法，其中通过将一个心理声学标准的分级应用于在该组合听觉事件期间各个声道中每个声道内的音频，确定该组合听觉事件的一个心理声学质量等级。

81.权利要求77的方法，其中所述时间标度和/或音调偏移处理包括：

在音频信号多个声道之间的一个识别出的组合听觉事件内选择一个公共拼接点，因此，在音频信号多个声道中每个声道内的所述公共拼接点产生的拼接点基本上是相互对准的；

82.权利要求78的方法，其中所述时间标度和/或音调偏移处理包括：

在多个音频信号声道之间一个识别出的组合听觉事件中选择一个公共拼接点，因此，在多个音频信号声道中每个声道内的所述公共拼接点产生的拼接点基本上是相互对准的，每个拼接点定义一个引导该拼接点的音频信号引导片段；

在所述组合听觉事件内并与所述公共拼接点隔开地选择一个公共结束点，因此，多个音频信号声道中每个音频信号声道内的所述公共结束点产生的多个结束点基本上是相互对准的，从而定义一个尾随该结束点的音频信号尾随片段和一个在拼接点和结束点之间的音频信号目标片段；

83.权利要求38、39、40或59中任一个权利要求的方法，其中所述将所述音频信号划分成多个听觉事件包括：

计算所述音频信号的连续时间片段的频谱内容；

计算在所述音频信号的连续时间片段之间频谱内容的差别；和

当这样的连续时间片段之间频谱轮廓内容的差别超过一个阈值时，在所述连续时间片段之间的边界上设置一个听觉事件边界。

84.权利要求55、56、57或78中任一个权利要求的方法，其中所述将每个声道中的音频信号划分成多个听觉事件包括：

计算每个声道中音频信号的连续时间片段的频谱内容；

计算在每个声道中音频信号的连续时间片段之间频谱内容的差别；和

当这样的连续时间片段之间频谱轮廓内容的差别超过一个阈值时，在所述连续时间片段之间的边界上设置每个声道内音频信号中的一个听觉事件边界。