CN1517980A

CN1517980A - 量化噪声整形方法及装置

Info

Publication number: CN1517980A
Application number: CNA2004100015234A
Authority: CN
Inventors: 张兴烨; 张泰奎
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2003-01-15
Filing date: 2004-01-13
Publication date: 2004-08-04
Anticipated expiration: 2024-01-13
Also published as: US20040170290A1; KR20040065641A; US7373293B2; KR100477699B1; CN1249671C

Abstract

本发明公开了一种用于整形当以低比特率压缩音频数据时产生的量化噪声的方法和装置。在音频的所有频带中，接收在量化取样音频数据期间所允许的预定的量化噪声阈值，和量化MDCT系数的量化噪声能量信息。衰减预定数量的频带中的量化MDCT系数的量化噪声能量，在所述预定数量的频带中，预定量化噪声阈值和量化MDCT系数中的量化噪声能量之间的差较大。

Description

量化噪声整形方法及装置

本申请要求于2003年1月15日向韩国知识产权局提交的韩国专利申请第2003-2718号的优先权，其公开内容整体结合于此作为参考。

技术领域

本发明涉及音频数据的压缩，更具体的，涉及用于对以低比特率压缩音频数据时产生的量化噪声执行整形的方法和装置。

背景技术

通过执行取样、量化、编码等实现音频数据的压缩。量化是指将取样的信号值表示为步进的整数，从而将取样的值表示为预定的代表值。这样的量化处理产生量化噪声。量化噪声是原始信号和量化信号之间的误差分量，并且随着用于量化处理的比特数的增加而衰减。在根据运动图像专家组(MPEG)的量化中，用预定的值来除通过离散余弦变换(DCT)或改进的离散余弦变换(MDCT)而产生的因数，以将该因数表示为低因数值以便减少编码量，所述MPEG是运动图像和数字音频的编码表示的标准。

应当考虑人类听觉系统的性质来压缩音频数据。通常，当存在非常大的声音时，无法听到一个声音。例如，如果一个人在办公室中大声的说话，那么办公室中的其他人能够容易的察觉到谁在说话。但是，如果飞机从办公楼之上飞过，收听者根本无法听到说话者在说什么。另外，在飞机从办公楼上飞过之后，由于飞机的延续声音，收听者仍然无法听到说话者在说什么。这被称作屏蔽效应。

图1说明了屏蔽效应。参照图1，让我们假设音频包含指出声音能级的屏蔽曲线130，普通人在所述声音能级能够听见声音。由于音频信号A 110具有高于屏蔽曲线130的声音能级，所以，普通人可以听到音频信号110。相反，由于音频信号B 120具有低于屏蔽曲线130的声音能级，所以普通人听不到音频信号120。

音质模型量化是指通过以预定的间隔将音频分割成频带，仅对具有高于屏蔽阈值的声音能级的音频数据执行量化。在诸如MPEG的压缩标准中使用音质模型量化。但是，在以低于64Kbps的低比特率压缩音频数据的情况下，用于量化的比特数受到限制。因此，根据MPEG标准的通用压缩技术不适用于音频信号的有效压缩。

图2A和2B示出了关于频率的量化噪音频谱，该频谱是在执行了量化之后产生的。

在音质模型中，接收音频信号，并且随后执行快速傅里叶变换(FFT)，以计算和输出每个频带中的量化阈值210。可以计算量化阈值210，以致普通人无法在原始信号和量化的信号之间进行辨别。实际量化中的量化阈值可以表示为参考数字210或240。如果在实际量化中得到量化阈值210，则根据音质模型，量化噪声会落在量化阈值210之内，其不会影响音质。如果在实际量化中得到量化阈值240，则音质退化。因此，必须对量化噪声进行整形，以便使其落在量化阈值210之内。但是，由于使用有限数量的比特来表示和量化低比特率音频信号，所以，无法总是将量化噪声整形到量化阈值之内。

因此，用于音频信号压缩的传统的量化算法使用简单的方法来限制量化噪声被整形的次数，以便当量化噪声无法低于在音质模型中计算出的量化阈值时，结束量化噪声的整形。所述限制可以允许量化噪声具有预定的形状，这使得在预定数量的频带中的量化噪声超过量化阈值。结果是音质退化。

发明内容

本发明提供了一种量化噪声整形方法和装置，利用该方法和装置，可以通过对在低比特率音频数据的整形期间产生的量化噪声执行整形来减少音频数据的失真，以致即使所有频带中的量化噪声都高于所述量化阈值，量化噪声曲线也与在音质模型中计算出的量化阈值曲线相类似。

根据本发明的一个方面，提供一种整形量化噪声的方法。在一个音频的所有频带中接收在量化取样音频数据期间被允许的预定的量化噪声阈值以及量化MDCT系数的量化噪声能量信息。在预定数量的频带中衰减量化MDCT系数的量化噪声能量，在所述预定数量的频带中，预定量化噪声阈值和量化MDCT系数中的量化噪声能量之间的差较大。

根据本发明的另一个方面，提供了一种整形量化噪声的方法。在以预定的比特率压缩音频信号期间，确定所有频带中的量化噪声是否降到低于在音质模型中计算出的阈值噪声电平。如果所述量化噪声没有降到低于所述阈值噪声电平，则将所述每个频带中的量化噪声整形得与预定噪声电平相等或在一个偏移误差内。

根据本发明的又一个方面，提供了一种整形量化噪声的方法。计算量化MDCT系数的总量化噪声并计算在音质模型中计算出的各量化噪声阈值的和。将量化MDCT系数的总量化噪声与各量化噪声阈值的和执行比较。如果量化MDCT系数的总量化噪声比各量化噪声阈值的和要小，则衰减每个频带中的量化噪声，而如果量化MDCT系数的总量化噪声比各量化噪声阈值的和要大，则衰减在所选择频带中的量化噪声。

根据本发明的又一个方面，提供了一种用于调节量化噪声分布的装置。该装置包括：量化噪声计算器，用于计算量化MDCT系数的总量化噪声和在音质模型中计算出的各量化噪声阈值的和；噪声衰减算法选择器，用于将量化MDCT系数的总量化噪声与各量化噪声阈值的和进行比较，以确定是在每个频带中还是在所选择的频带中执行量化噪声衰减；量化噪声衰减器，衰减每个频带中的量化噪声；和频带选择的量化噪声衰减器，用于衰减所选择频带中的量化噪声。

根据本发明的又一个方面，提供了一种计算机可读记录介质，在其上记录有用于在计算机中执行本发明方法的程序。

附图说明

结合附图，通过对本发明示例实施例的详细描述，本发明的上述和其他特征和优点将变得更加清楚，其中：

图1说明了屏蔽效应；

图2A和2B示出了关于频率的量化噪音频谱，该频谱是在执行量化之后产生的；

图3是量化噪声整形装置的方框图；

图4是整形量化噪声的方法的流程图；

图5A和5B说明了通过调节每个频带中的比例因子频带增益来整形量化MDCT系数的噪声能量；

图6说明了选择性的增加每个频带带宽中的比例因子频带增益的处理；

图7是根据本发明减少量化噪声的方法的流程图；和

图8是根据本发明的量化噪声衰减器的方框图。

具体实施方式

图3是量化噪声整形装置的方框图。用于MPEG音频编码器的量化器包括：用于控制比特率的比特率控制器310；用于计算量化噪声能量的量化噪声计算器320；比例因子频带增益调节器330，用于将由量化噪声计算器320提供的量化噪声能量与从音质模型接收的量化噪声阈值进行比较，并调节已经给予每个频带的比例因子频带增益，以对每个频带中的量化噪声曲线进行整形；以及确定器340，用于向比特率控制器310发送命令以复位比特数，并确定是否在预定的条件下结束量化处理。在MPEG标准中详细描述了上述组件的操作(ISO 14496-3附录B)。

比特率控制器310接收音频帧，量化所接收音频帧的MDCT系数，对量化结果执行霍夫曼编码，以及计算在霍夫曼编码期间使用的比特数。换句话说，比特率控制器310计算与被确定用于编码音频信号的比特率相对应的比特数，并通过调节公共增益来调节该比特数，直到小于所计算出比特数的一个比特数能够被用于编码为止。

当量化MDCT系数被表示为x_quant，所接收的MDCT系数被表示为mdct_line，并且比例因子被表示为sf时，利用等式1计算出量化MDCT系数X_quant：

x_{quant} = mdct_{line}^{\frac{3}{4}} 2^{\frac{- 3}{16} (sf - 100)} - - - - - - - (1)

利用等式2计算出比例因子sf：

sf＝common_gain-sfb_gain(sfb)...(2)其中，common_gain是用于满足在所述音频帧中给定数量比特数的公共增益，并且由把将被使用的比特数调节至预定比特率的内循环来确定，sfb_gain是比例因子频带增益，其指出为对所述量化噪声整形所述比例因子被调节的程度，并且该sfb_gain是由选择性地调节每个频带中的比例因子频带增益sfb_gain的外循环确定的。因此，sfb_gain被表示为sfb的函数。如从等式1和2中可以看到的，公共增益common_gain应当低而比例因子频带增益sfb_gain应当高，以便量化MDCT系数x_quant和接收到的MDCT系数mdct_line之间的误差是低的。

量化噪声计算器320使用量化MDCT系数x_quant和接收到的MDCT系数mdct_line之间的误差计算每个频带中的量化噪声。

比例因子频带增益调节器330将从量化噪声计算器320接收到的量化噪声与从音质模型接收到的量化噪声阈值进行比较，以调节每个频带中的量化噪声电平。通过调节比例因子频带增益来实现每个频带中的量化噪声电平的调节。

确定器340调节比例因子以整形量化噪声，随后通过确定调节的比例因子频带增益是否已被放大至预定的最大值、在各频带中被调节的多个比例因子频带增益之间的差是否大于预定的参考值或每个频带中的量化噪声是否低于在音质模型中计算出的量化噪声阈值来确定是否结束量化处理。

在传统的量化噪声整形方法中，调节共同施加到每个频带的公共增益，以执行内循环和外循环，所述内循环把将被使用的比特数调节至预定的比特率，所述外循环调节用于整形每个频带中的量化噪声电平的比例因子频带增益。在外循环中，求和分配给每个频带宽度的比特数，如果求和值大于预定的阈值，则增加公共增益以将使用的比特数减少至小于预定的阈值，将每个频带中的比例因子频带增益增加至预定值，以便在每个频带中的所述比例因子频带增益都低于一个预定阈值。重复外循环，直至每个频带中的量化噪声都落在量化噪声的阈值之内为止。

图4是整形量化噪声方法的流程图。该方法包括：计算与一个音频信号将被编码的预定比特率相对应的比特数；并调节公共增益，直到小于所计算比特数的一个比特数被用于编码所述音频信号为止，从而调节用于所述编码的比特数。

在步骤S410，控制比特率。换句话说，接收一个音频帧，并随后量化该音频帧的MDCT系数。接着，对量化MDCT系数进行霍夫曼编码，并且随后计算出用于霍夫曼编码的比特数。换句话说，计算与一个音频信号将被编码的预定比特率相对应的比特数，然后调节公共增益以调节比特数，直至小于所计算比特数一个比特数被用于霍夫曼编码为止。例如，当以44.1KHz对音频信号帧取样1024次时，在等式3计算出用于以128kbps对1024帧取样执行编码的比特数，并且公共增益被调节至小于所计算的比特数：

\frac{1,024}{44,100} \times 128,000 = 2,972 - - - - - - (3)

在步骤S420，计算音频的所有频带中的量化噪声能量。换句话说，使用接收到的MDCT系数mdct_line和量化MDCT系数x_quant之间的差计算每个频带中的量化噪声能量的幅值。在步骤S430，存储用于计算量化噪声能量的幅值的比例因子。在步骤S440，确定计算出的量化噪声的幅值是否大于在音质模型中计算的量化噪声阈值。如果量化噪声能量大于所述量化噪声阈值，则量化MDCT系数x_quant的噪声能量被减少。可以通过调节比例因子频带增益来实现量化MDCT系数的噪声能量的减少。

图5A和5B说明了通过调节每个频带中的比例因子频带增益来调节量化MDCT系数的噪声能量。

让我们假设量化MDCT系数的量化噪声能量表示为图5A的参考数字520。如从图5A中可以看出的，由于量化MDCT的量化噪声能量大于在音质模型中计算的量化噪声阈值510，在步骤S450，调节每个频带中的比例因子频带增益。在步骤S460，确定每个频带中的比例因子频带增益是否已经被增加。如果每个频带中的比例因子频带增益已经被增加了，则确给定的比特率没有满足所希望的音质要求，并且利用在步骤S430存储的比例因子结束量化噪声的整形。否则，执行下一个步骤。

比例因子频带增益的调节能够导致如箭头530或540所指出的量化噪声的整形。但是，比例因子频带增益被增加至极限。因此，在步骤S470，确定是否是只有当比例因子频带增益增加至超过预定的阈值时所述量化噪声才被整形至落在量化噪声阈值510之内。如果确定只有当所述比例因子频带增益增加至超过预定的阈值时，量化噪声被整形至落在量化噪声阈值510之内，则在步骤S490，确定以给定的比特率不能满足所希望的音质，并使用所存储的比例因子结束量化噪声的整形。反之，执行下一个步骤。

在步骤S480，确定是否在至少一个频带中的量化噪声超过了量化噪声阈值。如果确定在至少一个频带中的量化噪声超过了量化噪声阈值，则在步骤S410开始重新调节比特数。换句话说，逐渐的增加比特数，以便使比特数低于阈值。

图6示出了选择性地增加每个频带中的比例因子频带增益的处理。如图6所示，在音质模型中计算出阈值610。计算出量化MDCT系数的噪声能量620。减少预定数量的频带中的量化误差，在所述预定数量的频带中，阈值610和量化MDCT系数的噪声能量620之间的差较大。所述差是频带1640、频带2650和频带366中最大的。因此，首先减少频带1640、频带2650和频带3660中的量化噪声。换句话说，重复减少预定数量的特定频带中的量化MDCT系数的噪声能量的处理，而不是减少每个频带中的量化噪声，从而使得在所有频带中产生相同的量化误差量。

在根据本发明对MPEG音频数据压缩过程中量化噪声整形的方法中，允许的比特率对于将要低于在音质模型中计算出的阈值噪声电平的量化噪声来说太低了。然而，比例因子频带增益调节器可以根据MPEG标准可变地调节比例因子频带增益，以便将每个频带中的量化噪声整形至音质模型中每个频带中的阈值噪声电平。

传统的方法通过将每个频带中的量化噪声与量化噪声阈值进行比较而单独地执行与每个频率相关的外循环，从而增加每个频带中的比例因子频带增益。但是，在本发明中，不是在用于调节比例因子频带增益的外循环中比较量化噪声和量化噪声阈值，而是在根据所述频带中噪声与屏蔽的比值(NRM)排列对其中量化噪声最高的所有频带的比例因子频带增益进行第一次调节之后，所述外循环结束。

图7是根据本发明衰减量化噪声的方法的流程图。

在步骤S710，计算出量化MDCT系数的总量化噪声以及在音质模型中计算的多个量化噪声阈值的和。在步骤S720，将量化MDCT系数的总量化噪声与量化噪声阈值的和进行比较。如果量化MDCT系数的总量化噪声小于量化噪声阈值的和，则在步骤S730，根据现有的方法衰减所述量化噪声。如果量化MDCT系数的总量化噪声大于量化噪声阈值的和，则在步骤S740，选择性地衰减每个频带中量化噪声。换句话说，在根据所有频带中NMR的排列对所有频带中量化噪声高于量化噪声阈值的某些频带中的比例因数频带增益进行调节之后，所述外循环结束。参照图4描述衰减全部频带中的量化噪声的处理。

图8是根据本发明的量化噪声衰减装置的方框图。参照图8，该量化噪声衰减装置包括量化噪声计算器810、噪声衰减算法选择器820、量化噪声衰减器830、和频带选择量化噪声衰减器840。

量化噪声计算器810计算量化MDCT系数的总量化噪声以及在音质模型中计算出的多个量化噪声阈值的和。

噪声衰减算法选择器820将MDCT系数的总量化噪声值与各量化噪声阈值的和进行比较，以确定是在所有频带中还是在选择的特定频带中执行量化噪声衰减。

量化噪声衰减器830衰减所有频带中的量化噪声。换句话说，当确定了预定的比特率以便压缩音频信号时，量化噪声衰减器830计算与预定比特率对应的比特数，通过调节公共增益来调节所述比特数，直到小于所计算的比特数的一个比特数被用于压缩为止，并通过调节比例因子频带增益来调节每个频带中的量化噪声将被衰减到的等级。参照图4对此执行了详细的描述。

频带选择量化噪声衰减器840衰减所选择的频带中的量化噪声。换句话说，频带选择量化噪声衰减器840根据其中所述量化MDCT系数的量化噪声大于音质模型中量化噪声阈值的一定数量频带中NMR的排列对预定数量频带中的比例因子进行调节。

如上所述，根据本发明，即使允许的比特率不能使量化噪声降到从音质模型得到量化噪声阈值之下，也可以将量化噪声的包络整形至等于量化噪声阈值曲线。因此，每个频带中的量化噪声等同地高于所述量化噪声阈值。结果是，与现有技术不同，本发明可以防止特定频带中的量化噪声阈值过多的超过量化噪声。这导致了音质的改善。

在现有MPEG音频压缩的量化中，无效地分配有限的比特数，其直接引起了音质的退化。但是，在本发明中，由于选择性地采用现有技术的比特分配方法，所以，如果将被衰减量化噪声的频带有很多位于低比特率，则衰减在与预定比特率对应的频带中的量化噪声，而不是衰减所有频带中的量化噪声。即使这一量化处理不允许所有频带中的量化噪声降到量化噪声阈值之下，量化噪声也可以被整形为与量化噪声阈值相似。结果是音质可以得到改善。

本发明可以由计算机可读记录介质上的计算机可读代码来实现。计算机可读记录介质包括存储计算机可读数据的记录装置。计算机可读记录介质包括ROMs、RAMs、CD-ROM、磁带、软盘、光学数据存储器件、和载波(例如，在因特网上的传输)。计算机可读记录介质还可以存储和执行经由网络以分散的方式相互连接的计算机中的计算机可读代码。

虽然已经详细示出了本发明，并参考其实施例对其执行了描述，但本领域的普通技术人员应当明白，可以在不背离如随后的权利要求所限定的本发明的精神和范围的前提下，对本发明在形式和细节上做出各种变化。

Claims

1.一种用于整形量化噪声的方法，包括：

接收在量化取样音频数据期间所允许的预定量化噪声阈值和一个音频范围的多个频带的量化MDCT系数的量化噪声能量信息；和

衰减多个频带中预定数量频带中的量化MDCT系数的量化噪声能量，其中，所述预定量化噪声阈值和量化MDCT系数的量化噪声能量之间的差相对较大。

2.如权利要求1的方法，其中，在音质模型中计算出预定的量化噪声阈值。

3.如权利要求1的方法，其中，通过增加比例因子频带增益来衰减量化噪声能量。

4.一种用于整形量化噪声的方法，包括：

在以预定的比特率压缩音频信号期间，确定多个频带中的量化噪声是否降到在音质模型中计算的阈值噪声电平之下；和

如果多个频带的量化噪声没有降到阈值噪声电平之下，则将所述多个频带的量化噪声整形至与预定噪声电平基本相等，或在一个偏移误差内。

5.如权利要求4的方法，其中，通过调节比例因子频带增益来整形所述多个频带的量化噪声。

6.一种用于整形量化噪声的方法，包括：

计算量化MDCT系数的总量化噪声以及在音质模型中计算的多个量化噪声阈值的和；

将量化MDCT系数的总量化噪声与所述量化噪声阈值的和进行比较；和

如果量化MDCT系数的总量化噪声小于所述量化噪声阈值的和，则衰减多个频带中的量化噪声，而如果量化MDCT系数的总量化噪声大于所述量化噪声阈值的和，则衰减在多个频带中所选择的频带中的量化噪声。

7.如权利要求6的方法，其中，所述衰减多个频带的量化噪声的步骤包括：

计算与确定用于压缩音频信号的预定的比特率相对应的比特数，然后，通过在小于所计算比特数的一个比特数被用于编码之前调节公共增益来设定所述比特数；和

调节比例因子频带增益，以调节多个频带中所述量化噪声将被衰减的程度。

8.如权利要求6的方法，其中，在所选择的频带中衰减量化噪声的步骤包括：

接收音频帧，量化MDCT系数以产生一个量化结果，对该量化结果执行霍夫曼编码，计算用于霍夫曼编码的比特数，并设定比特数以使用比所计算的比特数要少的比特数去控制比特率；

计算一个音频范围的多个频带的量化噪声能量，以输出所计算的量化噪声能量；

存储在量化MDCT系数过程中所使用的比例因子；

确定所计算的量化能量是否高于在音质模型中计算出量化噪声阈值，并且如果所计算的量化能量高于量化噪声阈值，则整形所述量化MDCT系数的量化噪声能量以使其减小；

确定在多个频带中的比例因子频带增益是否被增加，并且如果多个频带中的比例因子频带增益被增加了，则使用所存储的比例因子结束量化噪声能量的整形；

如果在所述多个频带的部分频带中所述比例因子频带增益增加了，那么，如果仅当比例因子频带增益增加至超过预定的阈值时量化噪声被整形至落在音质模型的量化噪声阈值之内，利用所存储的比例因子结束量化噪声的整形，并且如果比例因子频带增益没有增加至超过预定的阈值，则重新调节所述比特率。

9.如权利要求8的方法，其中，通过调节公共增益来控制比特率。

10.如权利要求8的方法，其中，通过调节比例因子频带增益来控制量化MDCT系数的量化能量。

11.如权利要求6的方法，其中，在所选择的频带中衰减所述量化噪声的步骤中，在预定数量的频带中，根据所述预定数量频带的比例因子频带增益的噪声-屏蔽的比值的排列对所述比例因子进行调节，在所述预定数量的频带中，量化MDCT系数的噪声大于音质模型中所述预定数量频带中的一个频带的量化噪声阈值。

12.一种用于调节量化噪声分布的装置，包括：

量化噪声计算器，用于计算量化MDCT系数的总量化噪声以及在音质模型中计算的多个量化噪声阈值的和；

噪声衰减算法选择器，用于将量化MDCT系数的总量化噪声与多个量化噪声阈值的和进行比较，以确定是在多个频带中还是在该多个频带的所选择的频带中进行量化噪声衰减；

量化噪声衰减器，用于衰减多个频带中的量化噪声；和

频带选择的量化噪声衰减器，衰减所选择的频带中的量化噪声。

13.如权利要求12的装置，其中，所述量化噪声衰减器计算与确定用于音频信号压缩的预定的比特率相对应的比特数，通过调节公共增益来设定所述比特数，直到小于所计算比特数的一个比特数被用于编码为止，并调节比例因子频带增益，以调节多个频带中的量化噪声被衰减的程度。

14.如权利要求12的装置，其中，所述频带选择量化噪声衰减器根据预定数量的频带中的比例因子频带增益的噪声-屏蔽比的排列来调节多个频带的预定数量的频带中的比例因子，所述预定数量的频带中的量化MDCT系数的量化噪声大于音质模型中的量化噪声阈值。

15.一种用于记录计算机程序代码的计算机可读记录介质，所述计算机程序代码使能计算机提供执行量化噪声分布调节方法的服务，该服务包括步骤：接收在取样的音频数据的量化期间所允许的预定的量化噪声阈值，以及音频范围内多个频带的量化MDCT系数的量化噪声能量信息；和衰减所述多个频带的预定数量的频带的量化MDCT系数的量化噪声能量，其中预定的量化噪声阈值和量化MDCT系数的量化噪声能量之间的差相对较大。

16.如权利要求1的方法，其中，所述差是比第二差相对较大的第一差，所述第二差是预定的量化噪声阈值和不在预定数量频带中的量化MDCT系数的量化噪声能量之间的差。

17.如权利要求15的计算机可读记录介质，其中，所述差是比第二差相对较大的第一差，所述第二差是预定的量化噪声阈值和不在预定数量的频带中的量化MDCT系数的量化噪声能量之间的差。