CN1253418A

CN1253418A - 用于音频变换编码的块尺寸确定和自适应方法

Info

Publication number: CN1253418A
Application number: CN99122303.9A
Authority: CN
Inventors: 申省梅; 梁世丰; 陈亚平
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1998-10-29
Filing date: 1999-10-29
Publication date: 2000-05-17
Anticipated expiration: 2019-10-29
Also published as: CN1132319C; JP2000134105A; EP0998051A2; DE69917181D1; EP0998051B1; EP0998051A3; DE69917181T2; US6424936B1

Abstract

在此公开用于混合编码,特别用于ATRAC编码解码器系统的有效块尺寸确定方法。它是改进的子帧分割方法和峰值能量集中方法。为了明显消除或减小前回声噪声,冲击信号的精确检测在混合音频编码中非常重要。与现有技术相比,这些方法可以提供更加精确的块尺寸确定,并具有与现有技术相类似的复杂度。

Description

用于音频变换编码的块尺寸确定和自适应方法

本发明涉及用于发送或数字存储介质的数字音频信号的有效信息编码。

使用象分波段编码法这样的各种频率变换的音频压缩算法、自适应变换编码或它们之间的混合被开发并用于各种商业应用领域。自适应变换编码器的例子包括由K.Brandenburg等在“Aspec：高质量音乐信号的自适应频谱熵编码”第90届AES会议，1991年2月所作出的报告，以及由M.lwadare等在“基于具有自适应块尺寸的自适应变换编码MDCT的128千字节/秒高保真音频编码解码器”，关于通信中的选择区域的IEEE(电气和电子工程师协会)杂志，Vol.10，No.1，1992年2月作出的报告。使用混合分波段编码法和自适应变换编码的算法的例子包括ISO/IEC 11172-3第三层算法和用于微型光盘系统中的ATRAC压缩算法。这些算法的具体细节可以分别在“信息技术-用于数字存储介质的约高达1.5兆位/秒的运动图像和相关音频信号的编码，第三部分：音频(ISO/IEC 11172-3；1993)”文档和由索尼公司在1992年9月的微型光盘说明文档的第10章中得到。由这些算法所使用的变换滤波器组一般基于改进的离散余弦变换，该变换首先由Princen和Bradley在“使用基于时域消混叠设计的滤波器组的分波段/变换编码”，ICASSP 1997的会刊，第2161-2164页中提出。

在典型的变换编码器中，如图5中所示，输入音频样本首先由缓冲器51按帧进行缓冲，并且同时传给块尺寸选择器52以在由窗口和变换单元52进行开窗口和变换之前确定合适的音频样本的块尺寸或者窗口。在象ATRAC算法这样的混合分波段和变换编码器中，以44.1kHz(即，每秒钟产生44100个样本)的频率进行采样的输入音频样本受到混合分波段和变换编码。ATRAC算法的编码过程的混合分波段变换编码的前端在图6中示出。输入音频样本是利用正交镜面滤波器(quadrature mirrorfilter)61滤波为两个相等带宽的第一分波段，并且所得的较低频率波段被由其它组的正交镜面滤波器62进一步分为两个相等的带宽。在此，L、M、H分别表示低波段、中波段和高波段。时间延迟63被用于使高频波段中的信号与低频波段中的信号时间校准。然后分波段样本被分离地通过块尺寸选择器64，以确定用于开窗口的合适块尺寸，并且改进的离散余弦变换在块65、66和67进行。两个块尺寸或模式中的一个将被选择用于每个频段。然后，该变换样本被分组为单元，并且在每个单元中选择等于或刚好超过单元样本的最大幅度的比例因子。然后，该变换样本被用所确定的比例因子和从动态位分配单元68中推导的位分配信息进行量化。

已知，在变换编码中，在信号幅度突然增加或在冲击之前可能会在寂静时间中出现预回声或噪声/激振效应，特别是在用于包含冲击的音频帧的变换编码块尺寸较长的情况。具有自适应块尺寸的改进的离散余弦变换一般被用于减少预回声以及在块边界的噪声。必须首先选择可用于变换编码的块尺寸，使得可以检测是否存在信号冲击，短块变换可以用于处理该冲击信号，并且不会对相邻块产生激振或噪声信号。当短块的尺寸足够小时，预噪声将不能够被听见。一个重要的问题是冲击信号本身的精确检测。

在1992年9月的微型光盘系统说明书中简述的块尺寸确定方法在图7中示出。峰值检测步骤71在每32个样本块中确定峰值。然后在步骤72中比较相邻峰值。在确定步骤73中，如果该差值超过18分贝，则在步骤74选择模式1或短块模式。否则在步骤75对于不同的频段选择作为长块模式的模式3或模式4。

为了非常好地降低自适应变换或混合分波段变换编码过程中的预回声，需要一种高效的音频信号分类和块尺寸确定方法。这使得预回声完全不能听见。尽管用于该变换的实际块尺寸本身是一个重要因素，但是信号冲击的精确检测特别是临界检测是非常重要的。通常，由于所获得的相应更好的频率分辨率将导致更加准确地除去音频信号成分中的冗余和无关成分，最好使用长块进行音频信号的变换编码。这对于音频信号的特性缓慢变化的音频信号段来说特别正确。仅仅当绝对需要确定并且用于临界冲击信号时才使用短块。在现有技术中提供的块尺寸确定方法在瞬变或冲击信号检测精确性上不能给出良好的结果。这可能不能检测在前掩蔽过程的时间间隔中出现的冲击信号。前掩蔽是快速增加的高声或按时出现的冲击的存在对该冲击之前的声音具有掩蔽效应的情况。这种检测的失败有时可能导致所不希望的听觉效果。尽管单声掩蔽信号(masker)试验已经证明预掩蔽持续时间在5毫秒到20毫秒之间，但是从经验可知可以听见更短持续时间的预回声。有效预掩蔽持续时间应当在小于5毫秒的范围内。作为在掩蔽信号的出现后的延迟掩蔽效应的后掩蔽效应一般在20毫秒或更大的时间间隔内。对于长块帧尺寸一般小于20毫秒的情况，峰值信号的释放一般被认为具有不重要的影响。对于非常高精度的块尺寸确定，可以考虑到后掩蔽效应。

本发明基于对高精度块尺寸确定方案的需要，并且考虑到瞬时掩蔽，包括前掩蔽和后掩蔽效应。在本发明中，可以对全带宽音频信号或限制带宽信号进行操作，其中限制带宽信号例如在被滤波为频率波段之后的分波段的信号。本发明具有：考虑到经验上的前掩蔽持续时间，排除作为时间间隔一半的最后子帧，把当前考虑的帧中的音频样本分组为约3毫秒的相等时间间隔的子帧的方法；所述当前考虑帧和以前考虑的帧的最后子帧的整个或一半，以及可选的来自构成扩展帧的将来帧的一半子帧将被用于峰值的估计；在所述子帧中确定所述峰值的方法；计算所述相邻时间间隔的峰值之间的差值的方法；可选的计算由一子帧时间间隔所分离的所述峰值之间的差值的方法；所述差值与预定阈值之间的比较之后确定是否应当使用长块尺寸和短块尺寸的方法。另一种替换方法包括：把当前帧中的样本与以前考虑的帧的最后帧的整个或一半中的样本进行分组的方法，所述子帧间隔由人耳的瞬时听觉特性所决定；确定在所得分组中的所选数目的峰值的方法；把按照幅度次序选择的峰值指定为参考峰值的方法；从参考峰值之前的子帧间隔中确定峰值的方法；计算参考峰值与在参考峰值的所述子帧间隔中的峰值之间的差值的方法；把所述差值与预定阈值相比较的方法，其中当该差值超过预定阈值时，调用较小的块尺寸；否则采用新的参考峰值，并且重复该过程，直到找到超过该预定阈值的差值或者当所有可用峰值都被考虑过之后为止。

把当前考虑的帧中的音频样本分组为子帧的方法，首先涉及从以前的帧以及可选的将来的帧与所有在当前帧中的所有音频样本中选择指定数目的音频样本。根据经验确定的前掩蔽持续时间，对于每个子帧的时间间隔应当约跨越3毫秒的间隔。指定数目的音频样本应当构为一半子帧的持续时间。分组为子帧的构成可以按照图3中所示进行。在考虑到计算当前子帧的峰值与多达两个以前子帧的峰值之间的差值的情况将使得更大范围的信号被归类为冲击信号。然后所获得的峰值中的差值再次与正阈值相比较。这意味着信号释放的后掩蔽效应将被忽略。如果要考虑不太重要的后掩蔽的影响，则需要再次与负阈值相比较。因此把音频样本第一次分组为子帧的第一组方法提供一种获得峰值和用于确定块尺寸的差值计算的方便和较少计算量的方法。但是，该组方法不能够对所有可能信号冲击或跃变进行完全搜索。所选数目的峰值被第一次在所述扩展帧中确定的另一组方法将允许更加完全的搜索。受到计算负载的许可，首先确定峰值的最大数目。最大峰值首先被作为参考峰值。从来自该参考峰值的子帧的时间窗，建立峰值并且计算与该参考峰值的差值。如果该差值不大于预定阈值；则利用第二大的峰值作为参考峰值重复该过程，等等。该过程被重复进行直到找到超过预定阈值的差值，或者当所有可用峰值都被考虑过之后。

图1为改进的峰值分块尺寸确定方法的本发明的一个实施例的流程图。

图2为改进的峰值分块尺寸确定方法的本发明的第二实施例的流程图。

图3为子帧方法和差值计算的示意图。

图4为峰值能量中心块尺寸确定方法的示意图。

图5为自适应变换编码器的前端的方框图。

图6为ATRAC编码器的前端的方框图。

图7为块尺寸确定方法的现有技术的流程图。

称为改进的子帧分块尺寸确定方法的一个实施例的流程图在图1中示出。在总的范围内，在本质上采取混合分波段变换编码器。在单纯使用变换编码的情况下，分波段的数目被作为1。如图1的步骤14中所定义的每个分波段帧被分为子帧。为了说明的目的，在图3中示出使用大小为128样本的分波段帧一个实例。根据前掩蔽的考虑，具有大小为32样本的分波段子帧是恰当的，该样本约为3.0毫秒的时间间隔。

在本实施例中，与现有技术有两个主要的不同。一是大小为128样本的当前分波段帧的16个样本扩展被用于检测一冲击信号，而不是仅仅使用128个样本。该扩展来自MDCT的窗函数。另一个是如果相邻峰值之间的差值小于预定阈值，则除了检查相邻峰值之间的差值之外还检查由子帧段所分隔的峰值之间的差值。这两点都需要用于减少在冲击信号的检测中漏检的可能性。

在步骤11中对分波段数目和帧尺寸进行初始化之后，对每个分波段进行块尺寸确定。确定步骤12确定是否所有分波段都已经被分析。根据所执行的分波段滤波的类型，确定是否相等或不等的分波段带宽被用于所有分波段，在步骤13中的分波段帧尺寸的数值分配和适当的子帧尺寸将相应地变化。在步骤14中，考虑到所有MDCT的窗函数所覆盖的样本，每个分波段帧被扩展为NSF(＝NSUBi+Mi)。在此，Mi是扩展样本的数目。例如，对于32样本的MDCT，扩展样本的数目是16。

在步骤15计算用于峰值确定的区段数目。在每个区段中的峰值在步骤16中确定。相邻峰值之间的差值以及由一子帧区段所分离的峰值之间的差值在步骤17中计算。只要有一个差值超过如确定步骤18中所确定的预定阈值，则将执行短块分配步骤110。否则，将提供一个长块分配步骤19。

如图3中所示，形成扩展分波段帧以用于峰值确定的目的。根据图3的实例，其中32是子帧的尺寸，根据用于32-样本的MDCT的窗函数，该扩展样本的数目将为16。128个样本的分波段帧尺寸与来自以前的帧的16个样本一同被考虑用于冲击信号的检测。因此，四个32-样本的子帧和一个16-样本的子帧将被用于每个确定迭代过程中。如图3中所示，由于在该时间段中的窗口数值骤减，并且该部分是扩展子帧的末端部分，所以在此来自将来的帧的16个样本可以被忽略。这样，要被计算的峰值数目是5个。在这些峰值中总共将执行最多7次的差值计算。为了有效地实施，只要一个所计算差值超过该预定阈值，则将启动短块模式。一般，当所有δ_i(i＝1，2，3，或4)都小于该预定阈值时，还需要P3和P1、P4和P2、P5和P3之间的比较。只要有一个δ_i(i＝1，2，3，4，5，6或7)大于该预定阈值，则结束该比较过程以节约计算时间。

一个称为峰值能量集中块尺寸确定方法的替代实施例在图2中示出。冲击信号可以被当作在一定的信号持续时间中能量突然上升的信号。近似地，如果在相同的持续时间中有一个冲击信号，则在信号中的峰值时刻可以被认为是突然上升的能量的中心，如图4中所示。通过经验观察可知这对于许多例子来说是正确的。

如图4中所示，P是在SD时间段中信号的峰值。C是P峰值的位置，并且它是在SD时间段中信号能量的焦点。点B与点C刚好相距32个样本。另一个峰值从点B开始到点A进行搜索，把它当作32-样本的子块。如果峰值P与第二峰值Ps的差值大于预定阈值，则判断在该当前块中出现一个冲击信号。然后将把短块MDCT应用于该当前块。否则，第二峰值Ps被作为新的P，并且上述步骤迭代进行，直到达到点S。如果没有大于第二峰值Ps的其它峰值，则采用长块MDCT。

图2为用于峰值集中块尺寸确定方法的流程图。P、Ps、C、B、A和S的含义如图4中所示。在图2中，步骤21对一个音频信号进行块尺寸确定的初始化。步骤22判断是否所有子块都已经为确定块尺寸而受到检查。如果为“是”，则该过程结束。则否将对下一个分波段进行块尺寸确定过程。

该步骤23中，为当前分波段帧查找峰值P，并且峰值能量集中点C被相应地定位。在步骤24，假设峰值能量P的上升包络时间段是从中点C开始的32-样本子块的BC段。在步骤25，在由点B和A所限定的子块的32-样本中查找第二峰值Ps。如果在步骤26中，第二峰值Ps与P的差值大于预定阈值，则在步骤27中指定短块模式。否则，从步骤28中，判断点A是否与分波段S的起点相一致。如果为“否”，则在步骤210中把Ps作为新的P，并且重复上述步骤24、25、26、27和28。如果为“是”，则为当前分波段帧指定长块模式。

图4对于SC的长度比32-样本的两倍更长的情况有效。当SC的长度比32-样本的两倍短时，BC的长度不固定为32，而是小于32-样本的SC/2。对于这种情况，SB的长度也小于32，并且将为SC/2。也就是说，B将为S和C之间的中点。

在SC的长度比16-样本(32-样本的一半)短的情况下，这对应于1.45毫秒，一个长块MDCT将被用于当前块。即使当在当前块的开始部分中存在冲击信号的情况下，前掩蔽作用也可以掩蔽周期小于29毫秒的短周期的预回声，该预回声是由冲击信号所引起的。

本发明对于音频信号冲击和信号的释放的检测非常有效。使用任何一种所述的块尺寸确定技术将得到临界跃变信号冲击的高度精确的检测，从而能够减小或消除可听见的预回声。这可以为所用的变换编码提供恰当的块尺寸。根据计算量和可支持的RAM和ROM，可以包含不同的技术选择。

Claims

1.一种把音频信号确定和分类为子类以确定变换编码器的子帧块尺寸的方法，其特征在于，所述方法包括：

a)检测可用于变换编码器的块尺寸的数目；

b)在时间间隔对一输入音频信号进行采样，并且把所述样本分组为具有相等数目的样本的帧；

c)在时域分析所述帧以产生至少一个比较指数；

d)为变换编码器选择一个适当的块尺寸。

2.根据权利要求1所述的方法，其特征在于，所述音频信号是全带宽音频信号。

3.根据权利要求1所述的方法，其特征在于，所述音频信号是限制带宽的音频信号。

4.根据权利要求1所述的方法，其特征在于，所述分析步骤包括：

a)根据在所述变换编码器中所用的窗函数扩展每个所述帧；

b)把包含在该音频样本中的所述扩展帧细分为更小的子帧，该更小子帧的数目由人耳的瞬时听觉特性决定的时间间隔所确定；

c)根据在所述子帧中的样本幅度确定每个所述子帧中的峰值；

d)计算相邻子帧的峰值与被一子帧时间间隔所分离的两个子帧的峰值之间的差值，所述差值被作为所述比较指数；

e)比较所述指数与一预定阈值，使得当该指数大于预定阈值时调用较小的块尺寸，并且当该指数不大于该预定阈值时调用较大的块尺寸。

5.根据权利要求1所述的方法，其特征在于，所述分析步骤包括：

a)通过考虑在所述变换编码器中所用的窗函数扩展每个所述帧/分波段帧；

b根据在扩展帧中的样本的幅度，在每个所述扩展帧/扩展分波段帧内的指定数目的峰值，每个峰值是局部的最大幅值；

c)确定由人耳的瞬时听觉特性所确定的分波段间隔，取所述峰值中的最大值作为参考峰值，从该参考峰值之前的子帧间隔内确定该峰值；

d)计算该参考峰值与在它之前的所述子帧间隔内的峰值之间的差值；以及

e)比较所述差值与预定阈值，其中当该差值超过预定阈值时调用较小的块尺寸或子帧尺寸。

6.根据权利要求5所述的方法，其特征在于，所述比较步骤包括：

a)当在权利要求5的步骤e)中的差值不超过该预定阈值时，通过取在权利要求5的步骤c)中查找的峰值作为新的参考峰值，重复权利要求5中所述的步骤c)至e)；以及

b)当在最后子帧间隔中穷尽所有局部最大值之后没有找到超过预定阈值的差值时，确定一个大的块尺寸或子帧尺寸。

7.根据权利要求6所述的方法，其特征在于，所述最后子帧间隔可以等于或小于在其之前的子帧间隔，该子帧间隔取决于每个扩展帧/分波段帧的实际情况。

8.根据权利要求5所述的方法，其特征在于，当权利要求5的步骤e)不产生超过预定阈值的差值时，从两个子帧间隔和在该参考峰值之前的一个子帧间隔确定峰值。

9.根据权利要求4所述的方法，其特征在于，在该前面的音频帧的最后所述子帧间隔内的所述音频样本被考虑用于计算峰值之间的所述差值。

10.根据权利要求5所述的方法，其特征在于，在该前面的音频帧的最后所述子帧间隔内的所述音频样本被考虑用于计算峰值之间的所述差值。

11.一种把音频信号确定和分类为子类以确定变换编码器的块尺寸(或子帧块尺寸)的方法，其特征在于，所述方法包括：

a)把该音频信号分为不同的频带；

b)把每个频带中的音频样本峰值分组为相等时间间隔的帧，在属于不同频带的帧中的所述音频样本的数目不必相等；

c)使相等间隔的每个所述帧经过一分析方法的处理，使得为不同频带确定不同的块尺寸或子帧尺寸。

12.根据权利要求11所述的方法，其特征在于，所述分析方法包括：

a)根据在所述变换编码器中所用的窗函数扩展每个所述帧；

c根据在所述子帧中的样本幅度确定每个所述子帧中的峰值；

13.根据权利要求11所述的方法，其特征在于，所述分析方法包括：

b)根据在扩展帧中的样本的幅度，在每个所述扩展帧/扩展分波段帧内的指定数目的峰值，每个峰值是局部的最大幅值；