CN101743585A

CN101743585A - 采用高质量音高校正的音频处理

Info

Publication number: CN101743585A
Application number: CN200980000545A
Authority: CN
Inventors: B·埃德勒; S·狄须; R·盖尔格; S·拜耳; U·卡雷梅尔; G·福克斯; M·纽恩多夫; M·幕尔特拉斯; G·舒勒; H·波普
Original assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Priority date: 2008-04-04
Filing date: 2009-03-23
Publication date: 2010-06-16
Anticipated expiration: 2029-03-23
Also published as: EP2147430A1; TWI428910B; ATE534117T1; PL2147430T3; JP5031898B2; EP2147430B1; AU2009231135A1; IL202173A; RU2009142471A; RU2436174C2; IL202173A0; CA2707368A1; HK1140306A1; CN101743585B; JP2010532883A; AU2009231135B2; US8700388B2; WO2009121499A1; KR101126813B1; WO2009121499A8

Abstract

本发明涉及采用高质量音高校正的音频处理。通过以下步骤来产生具有帧序列的音频信号的处理后的表示：对帧序列中的第一和第二帧内的音频信号进行采样，所述第二帧跟在所述第一帧之后，所述采样使用与第一和第二帧的音高轮廓相关的信息来导出第一采样表示。对第二和第三帧内的音频信号进行采样，在帧序列中，所述第三帧跟在所述第二帧之后。所述采样使用与第二帧的音高轮廓相关的信息和与第三帧的音高轮廓相关的信息来导出第二采样表示。针对第一采样表示导出第一缩放窗，并针对第二采样表示导出第二缩放窗，第一和第二缩放窗依赖于导出第一采样表示或第二采样表示所应用的采样。

Description

采用高质量音高校正的音频处理

技术领域

本发明的多个实施例涉及音频处理器，所述音频处理器使用对信号的依赖于音高的采样和重采样来产生成帧后的音频信号的处理后的表示。

背景技术

由于与经调制的滤波器组相对应的、基于余弦或正弦调制的重叠变换具有能量紧致特性，在源编码应用中会经常使用到该变换。也就是说，对于具有恒定基频(音高)的谐音，该变换将信号能量集中至较少数目的频谱分量(子带)，能够产生有效的信号表示。通常，信号的音高应当被理解为能够从信号频谱中区分出来的最低主频率。在常见的语音模型中，音高是由人嗓调制的激励信号的频率。如果只存在单一的基频，则频谱极其简单，仅包括该基频和泛音(overtone)。可以对这样的频谱进行高效编码。然而，对于具有变化音高的信号，与每个谐波分量相对应的能量被遍布在多个变换系数上，从而导致了编码效率的下降。

可以尝试通过首先创建具有实质上恒定音高的时间离散信号来改进对具有变化音高的信号的编码效率。为了实现这一点，采样率可以与音高成比例地变化。这就是说，可以在应用变换之前对整个信号进行重采样，使得音高在整个信号持续时间内尽可能恒定。可以通过非等间隔采样来实现这一点，其中，采样间隔是局部自适应的，并被选择为使得当按照等间隔采样来解释重采样后的信号时，重采样后的信号比原始信号具有更接近于公共均值音高的音高轮廓。在这种意义上，音高轮廓应当被理解为音高的局部变化。例如，可以将该局部变化参数化为时间或样本数的函数。

等效地，可以将该操作视为对采样信号或等间隔采样前的连续信号的时间轴进行的重新缩放。这种时间变换也称为扭曲(warping)。对经过预处理而达到了几乎恒定音高的信号应用频率变换可以使编码效率接近具有一般恒定音高的信号可实现的效率。

然而，前述方式有一些缺点。首先，根据采样定理，处理完整信号所需的、采样率在较大范围内的变化可能导致信号带宽产生较大改变。其次，表示固定数目的输入样本的每一块变换系数将可能表示原始信号中持续时间发生变化的时间段。这可能使具有有限编码延迟的应用几乎不可能实现，此外要实现同步也很困难。

国际专利申请2007/051548的申请人提出了另一种方法。该作者提出了一种基于每帧来执行扭曲的方法。然而，这是通过对可应用的扭曲轮廓引入非期望的约束来实现的。

因此，需要替代方式来提高编码效率并保持编码和解码后的音频信号的高质量。

发明内容

本发明的多个实施例允许通过以下方式来提高编码效率：执行每个信号块(音频帧)内的信号局部变换，以在每个输入块的持续时间内提供(实质上)恒定的音高，在基于块的变换中，所述每个输入块贡献一个变换系数集合。例如，当使用改进型离散余弦变换作为频域变换时，可以由音频信号的两个连续帧来创建这样的输入块。

在使用调制的重叠变换(如改进型离散余弦变换(MDCT))时，输入进频域变换的两个连续块发生重叠，以允许块边界处信号的交互淡变，从而抑制分块处理的可听见的伪像。与非重叠变换相比，通过临界采样避免了变换系数数目的增加。然而，在MDCT中，将前向和后向变换应用至一个输入块不会导致其完全重构，这是因为，由于临界采样而在重构的信号中引入了伪像。输入块与前向和后向变换后的信号之间的差值通常被称为“时域混叠”。但是，在MDCT方案中，通过在重构之后以半块的宽度使重构的块重叠，并将重叠的样本相加，可以完美地重构输入信号。根据一些实施例，即使在基于每一块来对基础信号进行时间扭曲(等效于应用局部自适应采样率)时，也可以保持改进型离散余弦变换的这种特性。

如上所述，采用局部自适应采样率(变化的采样率)的采样可以被视为在扭曲的时间标度上的均匀采样。按照这种观点，在采样之前对时间标度的压缩导致较低效的采样率，而对时间标度的拉伸能够有效提高基础信号的采样率。

考虑频率变换或另一种变换(该变换在重构中使用重叠和相加来补偿可能的伪像)，如果在两个连续块的重叠区域中执行相同的扭曲处理(音高校正)，则时域混叠消除仍然有效。因此，可以在对扭曲进行反转之后重构原始信号。当在两个重叠的变换块中选择了不同的局部采样率时也是如此，这是由于，假定满足采样定理，相应连续时间信号的时域混叠仍能够消除。

在一些实施例中，对每个块，独立地选择对每个变换块内的信号进行时间扭曲之后的采样率。这样做的效果在于，固定数目的样本仍表示输入信号中固定持续时间的一段。此外，可以使用采样器，该采样器使用与信号的音高轮廓相关的信息对重叠变换块内的音频信号进行采样，使得第一采样表示和第二采样表示的重叠信号部分在每个采样表示中具有相似或相同的音高轮廓。该音高轮廓或用于采样的关于音高轮廓的信息可以被任意导出，只要在关于音高轮廓的信息(音高轮廓)与信号的音高之间存在明确的互相关即可。例如，所使用的关于音高轮廓的信息可以是绝对音高、相对音高(音高变化)、绝对音高的分数或明确地随音高变化的函数。如上所述来选择关于音高轮廓的信息，第一采样表示中与第二帧相对应的部分所具有的音高轮廓与第二采样表示中与第二帧相对应的部分的音高轮廓相似。例如，这种相似性可以是相应信号部分的音高值具有或多或少恒定的比率，即在预定容限范围内的比率。因此，可以执行采样，使得第一采样表示中与第二帧相对应的部分所具有的音高轮廓处于第二采样表示中与第二帧相对应的部分的音高轮廓的预定容限范围内。

由于可以采用不同的采样频率或采样间隔来对变换块内的信号进行重采样，因此创建了输入块，通过后续的变换编码算法可以对该输入块进行高效编码。在实现这一点的同时，只要音高轮廓是连续的，就可以应用关于音高轮廓的导出信息，而没有任何附加限制。

即使未导出单个输入块内的相对音高变化，音高轮廓也可以在不具有可导出的音高变化的那些信号区间或信号块的边界内或边界处保持恒定。这在音高追踪失败或出现错误时(对于复信号可能出现这种情况)具有很大优势。即使在这种情况下，变换编码之前的音高调整或重采样也不会产生任何附加的伪像。

通过在频域变换之前或频域变换期间使用特殊的变换窗(缩放窗)，可以实现输入块内的独立采样。根据一些实施例，这些缩放窗依赖于与变换块相关联的帧的音高轮廓。一般而言，缩放窗依赖于导出第一采样表示或第二采样表示所应用的采样。也就是说，第一采样表示的缩放窗可以仅依赖于导出第一缩放窗所应用的采样、仅依赖于导出第二缩放窗所应用的采样、或既依赖于导出第一缩放窗所应用的采样又依赖于导出第二缩放窗所应用的采样。上述的情况如做适当变动，同样适用于第二采样表示的缩放窗。

这就提供了以下可能性：在重叠和相加重构期间的任何时间内，确保不多于两个连续块发生重叠，使得时域混叠消除成为可能。

具体地，在一些实施例中，该变换的缩放窗在创建时，缩放窗在每个变换块的两半中的每一半可以具有不同形状。只要每个半窗与公共重叠区间内的相邻块的半窗共同满足混叠消除的条件，这就是可能的。

由于两个重叠块的采样率可以不同(基础音频信号的不同值对应于相同的样本)，因此相同数目的样本现在可以与信号(信号形状)的不同部分相对应。然而，对于比与其相关联的重叠块具有更低效采样率的块，通过减小转换长度(样本)，可以满足先前的要求。换言之，可以使用变换窗计算器或计算缩放窗的方法，该计算器或方法对于每个输入块提供具有相同样本数的缩放窗。然而，用于使第一输入块淡出(fadeout)的样本数可以与用于使第二输入块淡入(fade in)的样本数不同。因此，使用针对重叠输入块的采样表示(第一采样表示和第二采样表示)的缩放窗(依赖于应用至输入块的采样)，允许在重叠输入块中使用不同的采样，同时保持了具有时域混叠消除的重叠和相加重构的能力。

总之，在无需对音高轮廓进行任何附加修改的情况下，可以使用理想地确定的音高轮廓，同时允许可使用后续的频域变换进行高效编码的采样后的输入块的表示。

附图说明

下面结合附图和实施例对本实用新型作进一步说明：

图1示出了用于产生具有帧序列的音频信号的处理后的表示的音频处理器的实施例；

图2a至2d示出了音频输入信号的采样依赖于音频输入信号的音高轮廓而变化的示例，其中使用了依赖于所应用的采样的缩放窗；

图3示出了关于如何使用于采样的采样位置与具有等距样本的输入信号的采样位置相关联的示例；

图4示出了用于确定用于采样的采样位置的时间轮廓的示例；

图5示出了缩放窗的实施例；

图6示出了与要处理的音频帧序列相关联的音高轮廓的示例；

图7示出了应用至采样后的变换块的缩放窗；

图8示出了与图6的音高轮廓相对应的缩放窗；

图9示出了要处理的音频信号的帧序列的音高轮廓的另一示例；

图10示出了用于图9的音高轮廓的缩放窗；

图11示出了变换为线性时间标度的图10的缩放窗；

图11a示出了帧序列的音高轮廓的另一示例；

图11b在线性时间标度上示出了与图11a相对应的缩放窗；

图12示出了用于产生音频信号的处理后的表示的方法的实施例；

图13示出了用于对由音频帧序列组成的音频信号的采样后的表示进行处理的处理器的实施例；以及

图14示出了用于对音频信号的采样后的表示进行处理的方法的实施例。

具体实施方式

图1示出了用于产生具有帧序列的音频信号的处理后的表示的音频处理器10(输入信号)的实施例。音频处理器2包括采样器4，采样器4适于对输入音频处理器2的音频信号10(输入信号)进行采样，以导出用作频域变换的基础的信号块(采样表示)。音频处理器2还包括变换窗计算器6，变换窗计算器6适于导出从采样器4输出的采样表示的缩放窗。将采样表示和缩放窗输入加窗器8，加窗器8适于将缩放窗应用至由采样器4导出的采样表示。在一些实施例中，加窗器还可以包括频域变换器8a，以导出缩放后的采样表示的频域表示。然后，可以处理这些频域表示或进一步发送这些频域表示作为音频信号10的编码表示。该音频处理器还使用音频信号的音高轮廓12，该音高轮廓可以提供给该音频处理器，或者，根据另一实施例，可以由音频处理器2导出该音高轮廓。因此，可选地，音频处理器2可以包括用于导出该音高轮廓的音高估计器。

采样器4可以对连续音频信号进行操作，或备选地，对音频信号的预采样表示进行操作。在后一种情况下，如图2a至2d所示，采样器可以对在其输入处提供的音频信号进行重采样。该采样器适于对相邻的重叠音频块进行采样，使得在采样之后，在每个输入块内，该重叠部分具有相同或相似的音高轮廓。

在图3和图4的说明中更详细地阐述预采样后的音频信号的情况。

变换窗计算器6基于由采样器4执行的重采样来导出用于音频块的缩放窗。为此，可以使用可选的采样率调整模块14，来定义采样器所使用的重采样规则，然后将该规则提供给变换窗计算器。在备选实施例中，可以省略采样率调整模块14，并可以将音高轮廓12直接提供给变换窗计算器6，变换窗计算器6自身可以执行适当的计算。此外，采样器4可以将所应用的采样样本传送给变换窗计算器6，以实现对适当的缩放窗的计算。

执行重采样，使得由采样器4采样的采样后音频块的音高轮廓比输入块内的原始音频信号的音高轮廓更为恒定。为此，如图2a和2d中的一个具体示例所示，对音高轮廓求值。

图2a示出了一线性衰减的音高轮廓，该线性衰减的音高轮廓为预采样后的输入音频信号的样本数的函数。也就是说，在图2a至2d所示的情形中，已经将输入音频信号作为样本值。但是，为了能更清楚地描述本概念，重采样之前和重采样之后(扭曲时间标度)的音频信号也被当做连续信号。图2b示出了正弦信号16的示例，该正弦信号的扫描频率从较高频率降至较低频率。这种性质与图2a中以任意单位示出的音高轮廓相对应。再次指出，时间轴的时间扭曲等效于具有局部自适应采样间隔的信号的重采样。

为了阐述重叠和相加处理，图2b示出了音频信号的3个连续帧20a、20b和20c，以具有一个帧重叠(帧20b)的逐块方式对这些帧进行处理。即，对包括第一帧20a和第二帧20b的样本的第一信号块22(信号块1)进行处理和重采样，并对包括第二帧20b和第三帧20c的样本的第二信号块24进行独立的重采样。对第一信号块22进行重采样，以导出图2c所示的第一重采样表示26，并将第二信号块24重采样为图2d所示的第二重采样表示28。然而，执行该采样，使得与重叠帧20b相对应的部分在第一采样表示26和第二采样表示28中具有相同的音高轮廓，或具有仅略微偏差的(在预定容限范围内相同的)音高轮廓。当然，仅当以样本数的形式估计音高时这才成立。将第一信号块22重采样为具有(理想化的)恒定音高的第一重采样表示26。因此，使用重采样表示26的样本值作为频域变换的输入，在理想情况下将仅导出单一的频率系数。这显然是音频信号的极为有效的表示。以下将参照图3和图4来讨论关于如何执行重采样的细节。从图2c中显而易见，执行该重采样，以便对与等间隔采样表示中的时间轴相对应的样本位置轴(x轴)进行修改，使得所产生的信号形状仅具有单一的音高频率。这与时间轴的时间扭曲相对应，并与第一信号块22的信号的时间扭曲表示的后续等间隔采样相对应。

对第二信号块24进行重采样，使得第二重采样表示28中与重叠帧20b相对应的信号部分与重采样表示26中的对应信号部分具有相同的或仅存在略微偏差的音高轮廓。但是，采样率不同。也就是说，重采样表示内相同的信号形状是由不同的样本数来表示的。然而，当由变换编码器进行编码时，每个重采样表示均得到仅具有有限数目个非零频率系数的高效编码表示。

如图2c所示，由于重采样，信号块22的前一半的信号部分偏移至属于该重采样表示的信号块的后半部分的样本。具体地，阴影线区域30和第二峰值右侧的对应信号(由II表示)偏移进重采样表示26的右半部分，并从而由重采样表示26的后一半部分的样本来表示。然而，在图2d的重采样表示28的左半部分中，这些样本不具有相应的信号部分。

换言之，在重采样时，对每个MDCT块确定采样率，使得该采样率导致块中心的线性时间中的恒定持续时间，在频率分辨率为N且最大窗长度为2N的情况下，该恒定持续时间包含N个样本。在前述的图2a至2d的示例中，N＝1024，因此有2N＝2048个样本。重采样在所需位置处执行实际的信号内插。由于两个块(可能具有不同的采样率)重叠，因此必须对输入信号的每个时间段(等于帧20a至20c之一)执行两次重采样。控制用于执行编码的编码器或音频处理器的相同的音高轮廓可以用于控制对变换和扭曲进行反转所需的处理，如其可以在音频解码器内被实现一样。因此，在一些实施例中，音高轮廓被作为辅助信息发送。为了避免编码器与对应的解码器之间的失配，编码器的一些实施例使用编码且随后解码的音高轮廓，而不是原始导出的或输入的音高轮廓。然而，备选地，可以直接使用导出的或输入的音高轮廓。

为了确保在重叠和相加重构中仅重叠对应的信号部分，需要导出适当的缩放窗。这些缩放窗必须考虑以下影响：上述重采样导致了在重采样表示的对应半窗内表示原始信号的不同信号部分。

可以针对要编码的信号导出适当的缩放窗，该缩放窗依赖于用于导出第一和第二采样表示26和28的采样或重采样。对于图2b所示的原始信号和图2a所示的音高轮廓的示例，第一缩放窗32(其后半部分)和第二缩放窗34(与第二采样表示28的前1024个样本相对应的该窗左半部分)分别给出了第一采样表示26的后一半窗和第二采样表示28的前一半窗的适当缩放窗。

由于第一采样表示26的阴影线区域30内的信号部分在第二采样表示28的前一半窗中没有对应的信号部分，因此该阴影线区域内的信号部分必须完全由第一采样表示26来重构。在MDCT重构中，当对应样本不用于淡入或淡出时(即当样本接收了值为1的缩放因子时)可以实现这一点。因此，将缩放窗32中与阴影线区域30相对应的样本设置为单位1。同时，应当在缩放窗的结尾处将相同数目的样本设置为0，以避免由于固有MDCT变换和反变换特性而使这些样本与第一阴影区域30的样本混合。

由于(所应用的)重采样实现了对重叠窗分段的相同时间扭曲，因此第二阴影区域36的样本在第二采样表示28的前一半窗内也不具有对应信号。所以，该信号部分可以完全由第二采样表示28的后一半窗来重构。因此，在不放松与要重构的信号相关的信息的情况下，将第一缩放窗中与第二阴影区域36相对应的样本设置为0是可行的。存在于第二采样表示28的前一半窗内的每个信号部分在第一采样表示26的后一半窗内具有对应部分。因此，如第二缩放窗34的形状所示，第二采样表示28的前一半窗内的所有样本都用于第一和第二采样表示26和28之间的交互淡变。

总之，依赖于音高的重采样以及使用适当设计的缩放窗允许应用最优音高轮廓，该音高轮廓应是连续的，除此之外不需要满足任何约束。由于为了使编码效率得以提高，仅涉及相对音高变化，因此在信号区间的边界处或边界内(其中不能估计出有区别的音高或其中不存在音高变化)音高轮廓可以保持恒定。一些替代概念建议实现具有专有音高轮廓或时间扭曲函数(在其轮廓方面有特殊限制)的时间扭曲。使用本发明的实施例，由于可以在任何时间使用最优音高轮廓，因此编码效率会更高。

参照图3至图5，现在更详细地说明执行重采样以及导出关联的缩放窗的一种具体可能性。

基于线性递减的音高轮廓50，采样样本再次与预定样本数N相对应。对应信号52以归一化时间示出。在所选的示例中，信号长度为10毫秒。如时间轴54的核对标记所指示的，如果处理预采样信号，则以等间隔采样间隔来对信号52进行正常采样。如果通过适当地变换时间轴54来应用时间扭曲，则在扭曲的时间标度56上，信号52将变为具有恒定音高的信号58。也就是说，在新的时间标度56上，信号58的相邻最大值间的时间差(样本数差)相等。信号帧的长度也将改变为x毫秒的新长度(依赖于所应用的扭曲)。应当注意，时间扭曲的图仅用于使本发明多个实施例中使用的非等间隔重采样的思想形象化，事实上，可以仅使用音高轮廓50的值来实现该思想。

为了便于理解，用于描述如何执行采样的实施例基于如下假设：目标音高(应当将信号扭曲至该目标音高，该目标音高为从原始信号的重采样表示或采样表示导出的音高)是单位1。然而，不言而喻，可以容易地将以下考虑应用至所处理的信号分段的任意目标音高。

假设将以使音高强制为单位(1)的方式在从样本jN开始的帧j中应用时间扭曲，时间扭曲之后的帧持续时间与音高轮廓的N个对应样本之和相对应：

D_{j} = Σ_{i = 0}^{N - 1} pitch_cont {our}_{jN + xi}

即，由上述公式来确定时间扭曲后的信号58的持续时间(图3中的时间t’＝x)。

为了获得N个扭曲的样本，时间扭曲后的帧j中的采样间隔等于：

I_j＝N/D_j

根据以下等式，可以迭代地构造时间轮廓，该时间轮廓与同扭曲的MDCT窗相关的原始样本位置相关联：

time_contour_i+1＝time_contour_i+pitch_contour_jN+i*I_j

图4给出了时间轮廓的示例。x轴示出了重采样表示的样本号，y轴以原始表示的样本为单位给出了该采样号的位置。因此，在图3的示例中，使用始终递减的步长来构造时间轮廓。在时间扭曲的表示(轴n’)中，与样本号1相关联的样本位置(以原始样本为单位)例如近似为2。对于非等间距的、依赖于音高轮廓的重采样，需要以未扭曲的原始时间标度为单位来表示的扭曲的MDCT输入样本的位置。可以通过搜索原始样本位置对k和k+1来获得扭曲的MDCT输入样本i的位置(y轴)，k和k+1定义了包括i在内的区间：

time_contour_k≤i＜time_contour_k+1。

例如，样本i＝1位于样本k＝0、k+1＝1所定义的区间中。假定k＝1与k+1＝1之间存在线性时间轮廓，可以获得样本位置的分数部分u(x轴)。一般而言，样本i的分数部分70(u)由下式确定：

u = \frac{i - time_cont {our}_{k}}{time_{contour}_{k + 1} - time {_contour}_{k}}

因此，可以以原始采样位置为单位来导出原始信号52的非等间隔重采样的采样位置。因此，可以对信号进行重采样，使得重采样的值与时间扭曲后的信号相对应。例如，可以使用多相插值滤波器h(被分为具有精度到1/P的原始样本区间的P个子滤波器hp)来实现这种重采样。为此，可以根据分数样本位置来获得子滤波器指数：

然后，可以通过卷积来计算扭曲的MDCT输入样本Xw_i：

xw_i＝x_k*h_p，k。

当然也可以使用其他重采样方法，例如基于样条的重采样、线性插值、二次插值或其他重采样方法。

在导出了重采样表示之后，以适当方式导出适当的缩放窗，使得在相邻MDCT帧的中心区域中，两个重叠窗都占据不多于N/2个样本。如上所述，可以通过使用音高轮廓或对应的样本区间I_j(或等效地，帧持续时间D_j)来实现这一点。帧j的“左”重叠长度(即相对于前一帧j-1的淡入)由下式确定：

帧j的“右”重叠长度(即淡出到后一帧j+1)由下式确定：

因此，如图5所示，针对长度为2N的帧j而产生的窗，即，用于对具有N个样本(即频率分辨率为N)的帧进行重采样的典型MDCT窗长度，由以下分段组成：

0≤i＜N/2-σl_j	0
0≤i＜N/2-σl_j	0	N/2-σl_j≤i＜N/2+σl_j	W_l(i)
N/2+σl_j≤i＜3N/2+σr_j	1	N/2-σl_j≤i＜N/2+σl_j	W_l(i)
N/2+σl_j≤i＜3N/2+σr_j	1	3N/2-σr_j≤i＜3N/2+σr_j	w_r(i)
3N/2+σr_j≤i＜2N	0	3N/2-σr_j≤i＜3N/2+σr_j	w_r(i)

即，当D_j+1大于或等于D_j时，输入块j的样本在0至N/2-σl区间内为0。区间[N/2-σl；N/2+σl]中的样本用于使缩放窗淡入。区间[N/2+σr；N]中的样本被设置为单位1。右半窗(即，用于使2N个样本淡出的半窗)包括被设置为单位1的区间[N；3/2N-σr)。区间[3/2N-σr；3/2N+σr]内包含用于使窗淡出的样本。区间[3/2N+σr；2N]中的样本被设置为0。一般而言，可以导出具有相同样本数的缩放窗，其中，用于使缩放窗淡出的第一样本数与用于使缩放窗淡入的第二样本数不同。

例如，与所导出的缩放窗相对应的精确形状或样本值可以从原型半窗的线性插值来获得(也针对非整数重叠长度)，这些原型半窗规定了在整数样本位置处(或在具有甚至更高时间分辨率的固定栅格上)的窗函数。也就是说，将原型窗分别时间缩放为所需的淡入和淡出长度2σl_j或2σr_j。

根据本发明的另一实施例，可以在不使用与第三帧的音高轮廓相关的信息的情况下，确定淡出的窗部分。为此，可以将的D_j+1值限制在预定限度内。在一些实施例中，可以将该值设置为固定的预定数，并且可以基于导出第一采样表示、第二采样表示和该预定数或D_j+1的预定限度所应用的采样来计算第二输入块的淡入的窗部分。由于可以在没有与后续块相关的知识的情况下处理每个输入块，因此这可以用在低延迟时间起主要作用的应用中。

在本发明的另一实施例中，可以利用缩放窗的变化的长度，在不同长度的输入块间进行切换。

图6至图8所示的示例具有N＝1024的频率分辨率和线性衰减的音高。图6中的音高为样本数的函数。显而易见，音高呈线性衰减，在MDCT块1(变换块100)中心从3500Hz衰减至2500Hz，在MDCT块2(变换块102)中心从2500Hz衰减至1500Hz，在MDCT块3(变换块104)中心从1500Hz衰减至500Hz。这与扭曲的时间标度中的以下帧持续时间相对应(以变换块102的持续时间(D₂)为单位给出)：

D₁＝1.5D₂；D₃＝0.5D₂。

基于上述关系，由于D₂＜D₁，第二变换块102具有左重叠长度σl₂＝N/2＝512，且具有右重叠长度σr₂＝N/2x0.5＝256。图7示出了计算出的、具有上述特性的缩放窗。

此外，块1的右重叠长度等于σr₁＝N/2x2/3＝341.33，块3(变换块104)的左重叠长度为σl₃＝N/2＝512。显而易见，变换窗的形状仅取决于基础信号的音高轮廓。图8示出了变换块100、102和104的未扭曲(即线性)时域中的有效窗。

图9至图11示出了4个连续变换块110至113的序列的另一示例。然而，图9所示的音高轮廓略为复杂，其具有正弦函数的形式。对于示例性的频率分辨率N(1024)和最大窗长度2048，图10给出了扭曲的时域中的相应适配后(计算出)的窗函数。图11示出了其在线性时间标度上的对应有效形状。可以注意到，所有这些附图都示出了方形窗函数，以便更好地描述在两次应用这些窗时(MDCT之前和IMDCT之后)重叠和相加过程的重构能力。可以从扭曲的域中的对应转换的对称性中认识到所产生的窗的时域混叠消除特性。如先前所确定的，这些附图还示出了，在音高向边界递减的块(这与递增的采样间隔相对应)中，可以选择更短的转换区间，从而拉伸了线性时域中的有效形状。在帧4(变换块113)中可以看到这种性质的示例，其中窗函数的跨度小于最大的2048个样本。然而，由于采样间隔与信号音高成反比，因此，在任何时间点处仅有两个连续窗可以重叠的约束下，覆盖了最大可能持续时间。

图11a和11b给出了音高轮廓(音高轮廓信息)及其在线性时间标度上的对应缩放窗的另一示例。

图11a中音高轮廓120为在x轴上表示的样本数的函数。也就是说，图11a给出了3个连续变换块122、124和126的扭曲轮廓信息。

图11b在线性时间标度上示出了变换块122、124和126中每一个对应的缩放窗。根据与图11a所示的音高轮廓信息相对应的信号所运用的采样来计算这些变换窗。将这些变换窗重新变换至线性时间标度，以提供图11b的图解。

换言之，图11b示出了，当扭曲回或重新变换至线性时间标度时，重新变换后的缩放窗可能超过帧边界(图11b的实线)。在编码器中，可以通过提供超过帧边界的更多的一些输入样本来考虑这种情况。在解码器中，输出缓冲器可以足够大，用于存储对应样本。考虑这种情况的一种备选方式可以是缩短窗的重叠范围，并使用0和1的区域取而代之，使得窗的非零部分不会超过帧边界。

此外，从图11b中可显而易见地看出，时间扭曲不会改变重新扭曲的窗的交叉点(时域混叠的对称点)，这是由于这些交叉点仍位于“未扭曲”的位置512、3×512、5×512、7×512。由于这些交叉点还与由变换块长度的四分之一和四分之三给出的位置对称，因此对于扭曲的域中的对应缩放窗也是这种情况。

用于产生具有帧序列的音频信号的处理后的表示的方法的实施例的特征在于图12所示的步骤。

在采样步骤200中，使用与帧序列的第一和第二帧的音高轮廓相关的信息，在第一和第二帧内对音频信号进行采样，以导出第一采样表示，其中第二帧跟在第一帧之后；使用与第二帧的音高轮廓相关的信息和与第三帧的音高轮廓相关的信息，在第二和第三帧内对音频信号进行采样，以导出第二采样表示，其中第三帧在帧序列中跟在第二帧之后。

在变换窗计算步骤202中，针对第一采样表示导出第一缩放窗，并针对第二采样表示导出第二缩放窗，其中，第一和第二缩放窗依赖于导出第一和第二采样表示所应用的采样。

在加窗步骤204中，将第一缩放窗应用至第一采样表示，将第二缩放窗应用至第二采样表示。

图13示出了音频处理器290的实施例，音频处理器290用于处理具有帧序列的音频信号的第一和第二帧的第一采样表示(其中第二帧跟在第一帧之后)，还用于处理第二帧和第三帧(在帧序列中跟在第二帧之后)的第二采样表示，音频处理器290包括：

变换窗计算器300，适于使用与第一和第二帧的音高轮廓302相关的信息来导出针对第一采样表示301a的第一缩放窗，并使用与第二和第三帧的音高轮廓相关的信息来导出针对第二采样表示301b的第二缩放窗，其中，第一和第二缩放窗具有相同的样本数，并且用于使第一缩放窗淡出的第一样本数与用于使第二缩放窗淡入的第二样本数不同；

音频处理器290还包括：加窗器306，适于将第一缩放窗应用至第一采样表示，并将第二缩放窗应用至第二采样表示。音频处理器290还包括：重采样器308，适于使用与第一和第二帧的音高轮廓相关的信息，来对第一缩放后采样表示进行重采样，以导出第一重采样表示，并使用与第二和第三帧的音高轮廓相关的信息，来对第二缩放后采样表示进行重采样，以导出第二重采样表示，使得第一重采样表示中与第二帧相对应的部分所具有的音高轮廓处于第二重采样表示中与第二帧相对应的部分的音高轮廓的预定容限范围之内。为了导出缩放窗，变化窗计算器300可以直接接收音高轮廓302，或从可选的采样率调整器310接收重采样信息，采样率调整器310接收音高轮廓302并导出重采样策略。

在本发明的另一实施例中，音频处理器还包括可选的加法器320，加法器320用于将第一重采样表示中和第二帧相对应的部分与第二重采样表示中和第二帧相对应的部分相加，以导出音频信号的第二帧的重构表示作为输出信号322。在一实施例中，可以提供第一采样表示和第二采样表示作为音频处理器290的输出。在另一实施例中，可选地，该音频处理器可以包括频域反变换器330，频域反变换器330可以根据被提供以输入频域反变换器330的第一和第二采样表示的频域表示导出第一和第二采样表示。

图14示出了一种方法的实施例，该方法用于处理具有帧序列的音频信号的第一和第二帧的第一采样表示(其中第二帧跟在第一帧之后)，还用于处理第二帧和第三帧(在帧序列中跟在第二帧之后)的第二采样表示。在窗创建步骤400中，使用与第一和第二帧的音高轮廓相关的信息、针对第一采样表示来导出第一缩放窗，并使用与第二和第三帧的音高轮廓相关的信息、针对第二采样表示来导出第二缩放窗，其中，第一和第二缩放窗具有相同的样本数，并且用于使第一缩放窗淡出的第一样本数与用于使第二缩放窗淡入的第二样本数不同。

在缩放步骤402中，将第一缩放窗应用至第一采样表示，并将第二缩放窗应用至第二采样表示。

在重采样操作404中，使用与第一和第二帧的音高轮廓相关的信息来对缩放后的第一采样表示进行重采样，以导出第一重采样表示，并使用与第二和第三帧的音高轮廓相关的信息来对缩放后的第二采样表示进行重采样，以导出第二重采样表示，使得第一重采样表示中与第一帧相对应的部分所具有的音高轮廓处于第二重采样表示中与第二帧相对应的部分的音高轮廓的预定容限范围之内。

根据本发明的另一实施例，该方法包括可选的合成步骤406，在该步骤中，将第一重采样表示中与第二帧相对应的部分与第二重采样表示中与第二帧相对应的部分相结合，以导出音频信号的第二帧的重构表示。

总而言之，以上讨论的本发明实施例允许将最优的音高轮廓应用至连续的或预采样的音频信号，以将音频信号重采样或变换至以下表示：能够被编码以产生具有高质量和低比特率的编码表示。为此，可以使用频域变换对重采样后的信号进行编码。例如，该变换可以是在上述的实施例中讨论的改进型离散余弦变换。然而，备选地，可以使用其他频域变换或其他变换来导出具有低比特率的音频信号的编码表示。

然而，也可以使用不同的频率变换来实现相同的结果，例如，使用快速傅立叶变换或离散余弦变换，以导出音频信号的编码表示。

不言而喻，频域变换的输入样本(即变换块)数目并不限于上述实施例中所使用的具体示例。相反，可以使用任意长度的块帧，例如，可以使用由256、512、1024个块组成的块帧。

用于对音频信号进行采样或重采样的任何技术都可以用来实现本发明的其他实施例。

如图1所示，用于产生处理后的表示的音频处理器可以接收音频信号和关于音高轮廓的信息作为分离的输入(例如作为分离的输入比特流)。然而，在其他实施例中，可以在一个交错排列的比特流中提供音频信号和关于音高轮廓的信息，以便音频处理器对音频信号和音高轮廓的信息进行复用。对于基于采样表示导出音频信号的重构的音频处理器，可以实现相同的配置。也就是说，可以将采样表示与音高轮廓信息一起作为联合比特流或作为两个分离的比特流来输入。音频处理器还可以包括频域变换器，用于将重采样表示变换为变换系数，然后将变换系数与音高轮廓一起作为音频信号的编码表示来传送，以实现向对应解码器高效地传送编码后的音频信号。

为简单起见，上述实施例假定目标音高(将信号重采样至目标音高)是单位1。不言而喻，该音高可以是其他任意音高。由于可以在对音高轮廓没有任何约束的情况下应用音高，因此，在不能导出任何音高轮廓的情况下，或在未传送任何音高轮廓的情况下，还可以应用恒定的音高轮廓。

根据本发明的方法的特定实现要求，可以以硬件或软件来实现本发明的方法。实现方式可以使用数字存储介质来执行，尤其是其上存储有电子可读的控制信号的盘、DVD或CD，该控制信号与可编程计算机系统协作来执行本发明的方法。因此，本发明通常在于具有程序代码的计算机程序产品，该程序代码被存储在机器可读载体上，当该计算机程序产品在计算机上运行时，该程序代码操作用于执行本发明的方法。换言之，本发明的方法是具有程序代码的计算机程序，当该计算机程序在计算机上运行时，该程序代码执行本发明的方法中的至少一种方法。

尽管参照本发明的具体实施例具体示出并说明了以上内容，但是本领域技术人员可以理解，在不背离本发明的精神和范围的前提下，可以做出形式和细节上的各种其他改变。应理解，在不背离这里所公开的并由所附权利要求所概括的更宽的概念的前提下，可以做出各种改变以适应不同的实施例。

Claims

1.一种音频处理器，用于产生具有帧序列的音频信号的处理后的表示，其特征在于：所述音频处理器包括：

采样器，适于对帧序列的第一和第二帧内的音频信号进行采样，第二帧跟在第一帧之后，所述采样器使用与第一和第二帧的音高轮廓相关的信息来导出第一采样表示，所述采样器还适于对第二和第三帧内的音频信号进行采样，第三帧在帧序列中跟在第二帧之后，所述采样器使用与第二帧的音高轮廓相关的信息和与第三帧的音高轮廓相关的信息来导出第二采样表示；

变换窗计算器，适于针对第一采样表示导出第一缩放窗，并针对第二采样表示导出第二缩放窗，第一缩放窗和第二缩放窗依赖于导出第一采样表示或第二采样表示所应用的采样；以及

加窗器，适于将第一缩放窗应用至第一采样表示，将第二缩放窗应用至第二采样表示，以导出音频信号的第一、第二和第三音频帧的处理后的表示。

2.根据权利要求1所述的音频处理器，其特征在于：所述采样器对音频信号进行采样，使得第一和第二采样表示内的音高轮廓比对应的第一、第二和第三帧内的音频信号的音高轮廓更为恒定。

3.根据权利要求1所述的音频处理器，其特征在于：所述采样器对第一、第二和第三帧中的每一帧中具有N个样本的采样后的音频信号进行重采样，使得第一和第二采样表示中的每一个包括2N个样本。

4.根据权利要求3所述的音频处理器，其特征在于：所述采样器导出第一采样表示中在由第一和第二帧的2N个样本中的原始采样位置k和k+1之间的分数u给出的位置处的样本i，所述分数u依赖于使采样器所使用的采样位置与第一和第二帧的采样后的音频信号的原始采样位置相关联的时间轮廓。

5.根据权利要求4所述的音频处理器，其特征在于：所述采样器使用根据以下等式、根据帧的音高轮廓p_i导出的时间轮廓：

time_contour_i+1＝time_contour_i+(p_ixI)，

其中，第一采样表示的参考时间间隔I是根据音高指示符D导出的，所述音高指示符D是根据以下等式、根据音高轮廓p_i导出的：

D = Σ_{i = 0}^{2 N - 1} p_{i},

I＝2N /D。

6.根据权利要求1所述的音频处理器，其特征在于：所述变换窗计算器适于导出具有相同样本数的缩放窗，其中，用于使第一缩放窗淡出的第一样本数与用于使第二缩放窗淡入的第二样本数不同。

7.根据权利要求1所述的音频处理器，其特征在于：所述变换窗计算器适于：当相结合的第一和第二帧比相结合的第二和第三帧具有更高的均值音高时，导出第一缩放窗，其中第一缩放窗的第一样本数小于第二缩放窗的第二样本数；或者，当相结合的第一和第二帧比相结合的第二和第三帧具有更低的均值音高时，导出第一缩放窗，其中第一缩放窗的第一样本数大于第二缩放窗的第二样本数。

8.根据权利要求6所述的音频处理器，其特征在于：所述变换窗计算器适于导出缩放窗，其中，将所述缩放窗中用于淡出的样本之前的多个样本和用于淡入的样本之后的多个样本设置为单位1，将所述缩放窗中在用于淡出的样本之后且在用于淡入的样本之前的多个样本设置为0。

9.根据权利要求8所述的音频处理器，其特征在于：所述变换窗计算器适于根据具有样本0、……、2N-1的第一和第二帧的第一音高指示符D_j以及具有样本N、……、3N-1的第二和第三帧的第二音高指示符D_j+1来导出用于淡入和用于淡出的样本数，使得用于淡入的样本数为：

N D_j+1≤D_j时或

D_j+1＞D_j时；以及

用于淡出的第一样本数为：

N D_j≤D_j+1时或

D_j＞D_j+1时

其中，音高指示符D_j和D_j+1是根据以下等式、根据音高轮廓p_i导出的：

D_{j + 1} = Σ_{i = N}^{3 N - 1} p_{i}

和

D_{j} = Σ_{i = 0}^{2 N - 1} p_{i} .

10.根据权利要求8所述的音频处理器，其特征在于：所述变换窗计算器通过对预定的淡入和淡出窗进行重采样来导出第一和第二样本数，所述预定的淡入和淡出窗具有与第一和第二样本数相等的样本数。

11.根据权利要求1所述的音频处理器，其特征在于：所述加窗器适于通过将第一缩放窗应用至第一采样表示来导出第一缩放后采样表示，并通过将第二缩放窗应用至第二采样表示来导出第二缩放后采样表示。

12.根据权利要求1所述的音频处理器，其特征在于：所述加窗器还包括一频域变换器，所述频域变换器用于导出缩放后的第一重采样表示的第一频域表示，并导出缩放后的第二重采样表示的第二频域表示。

13.根据权利要求1所述的音频处理器，其特征在于：所述音频处理器还包括一音高估计器，所述音高估计器用于导出第一、第二和第三帧的音高轮廓。

14.根据权利要求12所述的音频处理器，其特征在于：所述音频处理器还包括一输出接口，用于输出第一和第二频域表示以及第一、第二和第三帧的音高轮廓，作为第二帧的编码表示。

15.一种音频处理器，所述音频处理器用于处理具有帧序列的音频信号的第一和第二帧的第一采样表示，其中第二帧跟在第一帧之后，所述音频处理器还用于处理所述音频信号的第二帧和第三帧的第二采样表示，其中第三帧在帧序列中跟在第二帧之后，其特征在于：所述音频处理器包括：

变换窗计算器，适于使用与第一和第二帧的音高轮廓相关的信息、针对第一采样表示来导出第一缩放窗，并使用与第二和第三帧的音高轮廓相关的信息、针对第二采样表示来导出第二缩放窗，其中，第一和第二缩放窗具有相同的样本数，并且用于使第一缩放窗淡出的第一样本数与用于使第二缩放窗淡入的第二样本数不同；

加窗器，适于将第一缩放窗应用至第一采样表示，并将第二缩放窗应用至第二采样表示；以及

重采样器，适于使用与第一和第二帧的音高轮廓相关的信息来对第一缩放后采样表示进行重采样，以导出第一重采样表示，并使用与第二和第三帧的音高轮廓相关的信息来对第二缩放后采样表示进行重采样，以导出第二重采样表示，所述重采样依赖于所导出的缩放窗。

16.根据权利要求15所述的音频处理器，其特征在于：所述音频处理器加法器，所述加法器适于将第一重采样表示中与第二帧相对应的部分与第二重采样表示中与第二帧相对应的部分相加，以导出所述音频信号的第二帧的重构表示。

17.一种用于产生具有帧序列的音频信号的处理后的表示的方法，其特征在于：所述方法包括：

对帧序列的第一和第二帧内的音频信号进行采样，第二帧跟在第一帧之后，所述采样使用与第一和第二帧的音高轮廓相关的信息来导出第一采样表示；

对第二和第三帧内的音频信号进行采样，第三帧在帧序列中跟在第二帧之后，所述采样使用与第二帧的音高轮廓相关的信息和与第三帧的音高轮廓相关的信息来导出第二采样表示；

针对第一采样表示导出第一缩放窗，并针对第二采样表示导出第二缩放窗，第一缩放窗和第二缩放窗依赖于导出第一采样表示或第二采样表示所应用的采样；以及

将第一缩放窗应用至第一采样表示，将第二缩放窗应用至第二采样表示。

18.一种方法，所述方法用于对具有帧序列的音频信号的第一和第二帧的第一采样表示进行处理，其中第二帧跟在第一帧之后，所述方法还用于对所述音频信号的第二帧和第三帧的第二采样表示进行处理，其中第三帧在帧序列中跟在第二帧之后，其特征在于：所述方法包括：

使用与第一和第二帧的音高轮廓相关的信息、针对第一采样表示来导出第一缩放窗，并使用与第二和第三帧的音高轮廓相关的信息、针对第二采样表示来导出第二缩放窗，其中，第一和第二缩放窗被导出为具有相同的样本数，用于使第一缩放窗淡出的第一样本数与用于使第二缩放窗淡入的第二样本数不同；

将第一缩放窗应用至第一采样表示，并将第二缩放窗应用至第二采样表示；以及

使用与第一和第二帧的音高轮廓相关的信息来对第一缩放后采样表示进行重采样，以导出第一重采样表示，并使用与第二和第三帧的音高轮廓相关的信息来对第二缩放后采样表示进行重采样，以导出第二重采样表示，所述重采样依赖于所导出的缩放窗。

19.根据权利要求18所述的方法，其特征在于：所述方法还包括：将第一重采样表示中与第二帧相对应的部分与第二重采样表示中与第二帧相对应的部分相加，以导出所述音频信号的第二帧的重构表示。

20.一种计算机程序，当在计算机上运行时，所述计算机程序实现一种用于产生具有帧序列的音频信号的处理后的表示的方法，其特征在于：所述方法包括：

对帧序列的第一和第二帧内的音频信号进行采样，第二帧跟在第一帧之后，所述采样使用与第一和第二帧的音高轮廓相关的信息来导出第一重采样表示；

21.一种计算机程序，当在计算机上运行时，所述计算机程序实现一种方法，所述方法用于对具有帧序列的音频信号的第一和第二帧的第一采样表示进行处理，其中第二帧跟在第一帧之后，所述方法还用于对所述音频信号的第二帧和第三帧的第二采样表示进行处理，其中第三帧在帧序列中跟在第二帧之后，其特征在于：所述方法包括：