CN1262990C

CN1262990C - 利用谐波提取的音频编码方法和设备

Info

Publication number: CN1262990C
Application number: CNB028293487A
Authority: CN
Inventors: 河昊振
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2002-06-27
Filing date: 2002-12-12
Publication date: 2006-07-05
Anticipated expiration: 2022-12-12
Also published as: JP2005531014A; KR20040001184A; CN1639769A; KR100462611B1; WO2003063135A1; GB2408184A; RU2004138088A; US20040002854A1; DE10297751B4; DE10297751T5; GB2408184B; GB0427660D0; RU2289858C2; CA2490064A1

Abstract

一种用于将音频信号有效地编码为低速位速率的运动图像专家组(MPEG)-1 layer III音频信号的方法和设备。在该音频编码方法中，利用通过将心理声学模型2应用于所接收的脉码调制(PCM)音频数据而获得的快速傅立叶变换(FFT)结果信息来提取谐波分量。然后，从所接收的PCM音频数据中去除所提取的谐波分量。其后，对已从其中去除了所提取的谐波分量的PCM音频数据进行修改的离散余弦变换(MDCT)和量化。因此，即使利用少量分配的位也能实现有效编码。

Description

利用谐波提取的音频编码方法和设备

技术领域

本发明涉及一种压缩音频信号的方法，更具体地，涉及一种用于以低速位速率将音频信号有效压缩为MPEG-1 layer(层)-3音频信号的方法和设备。

背景技术

运动图像专家组-1(MPEG-1)建立了关于数字视频压缩和数字音频压缩的标准，并为国际标准化组织(ISO)所支持。MPEG-1音频标准用于压缩以44.1Khz采样率采样并存储在60分钟或72分钟CD上的16位音频，并根据压缩方法和编解码(codec)的复杂性而分类为3层。

层III最复杂，使用比层II多得多的滤波器，并采用霍夫曼(Huffman)编码。当以112Kbps编码时，可以听到质量很好的声音。当以128Kbps编码时，可以获得与原始声音几乎相同的声音。当以160Kbps或192Kbps编码时，可以听到人耳无法与原始声音区别开来的特别好的声音。通常，MPEG-3 layer-3音频称作MP3音频。

MP3音频通过离散余弦变换(DCT)、基于心理声学(psychoacoustic)模型2的位分配、量化等而产生。更具体地，在保持用于压缩音频数据的位数为最小的同时，利用心理声学模型2的结果来执行修改的DCT(MDCT)。

在音频压缩技术中，人的耳朵是最重要的。如果声音强度等于或低于预定级别，人耳就听不到。如果某人在办公室里大声说话，则可以容易地识别谁在说话。然而，如果这时飞机经过，则不能听到该谈话。即使在飞机经过后，因为回绕声音，仍然不能听到该谈话。因此，在心理声学模型2中，从具有等于或大于与安静时对应的最小可听限度的音量的数据中采样具有等于或大于掩蔽阈值的音量的数据。对于每一子带执行该采样。

然而，当以不高于64Kbps的低速位速率压缩声音信号时，心理声学模型2是不适合的，因为用于量化诸如前回声信号的信号的位数有限。因此，为了克服低速MP3音频引起的这个问题，本发明提供了一种通过利用心理声学模型2中采用的快速傅立叶变换(FFT)来从原始信号中去除谐波分量并利用MDCT仅压缩瞬态分量而有效处理低速音频信号的方法。

在传统心理声学模型中采用的FFT处理中，仅执行信号分析，而使用FFT的结果。由于FFT的结果不用于信号压缩，可以视其为资源浪费。

韩国专利公开第1995-022322号中公开了一种采用心理声学模型的位分配方法。然而，该公开的方法与本发明的方法不同，因为本发明通过利用心理声学模型中采用的FFT结果从原始信号中去除谐波分量，来提高压缩效率。

韩国专利公开第1998-072457号中公开了一种心理声学模型2中的信号处理方法和设备，利用该方法和设备，通过在压缩音频信号的同时降低计算过载而显著降低计算量。也就是说，该公开的信号处理方法包括利用FFT结果获得单独掩蔽边界值的步骤、选择全局掩蔽边界值的步骤、以及移动到下一频率位置的步骤。该方法与本发明的相同之处在于都使用FFT结果值，而不同之处在于其使用不同的量化方法。

美国专利第5,930,373号中公开了一种利用低频信号的残余谐波来增强声音信号质量的方法。然而，该公开的方法与根据本发明的量化方法的差别在于它们使用不同的利用残余谐波的技术。

发明内容

为了解决以上和其它问题，本发明一个方面提供了一种通过利用心理声学模型2中采用的快速傅立叶变换(FFT)的结果，从原始音频信号中去除谐波分量，并利用修改的离散余弦变换(MDCT)仅压缩剩余瞬态分量，而有效处理低速音频信号的方法。

通过一种利用谐波分量的音频编码方法实现本发明的以上和其它方面。在该方法中，首先，接收脉码调制(PCM)音频数据，并通过应用心理声学模型2而从所接收的PCM音频数据中提取谐波分量。接下来，对已从其中去除了所提取的谐波分量的所接收PCM音频数据执行修改的离散余弦变换(MDCT)。其后，对经过MDCT的音频数据进行量化，并从量化的音频数据和提取的谐波分量产生音频分组。

也可通过一种利用谐波分量的音频编码方法实现本发明的以上和其它方面，其中首先接收和存储PCM音频数据。然后，对所存储的数据应用基于人的听觉限制特性的心理声学模型2，以获得快速傅立叶变换(FFT)结果、关于所接收数据的知觉能量信息、和用于量化的位分配信息。其后，利用FFT结果信息而从所接收的PCM音频数据中提取谐波分量。接下来，对所提取的谐波分量进行编码，并对编码的谐波分量进行解码。然后，根据知觉能量信息的值，对已从其中去除了所提取的谐波分量的所接收PCM音频数据的多个样本执行MDCT。其后，通过根据位分配信息来分配位，而对经过MDCT的音频数据进行量化。最后，从量化的经过MDCT的音频数据和编码的谐波分量产生音频分组。

也可通过一种利用谐波分量的音频编码设备实现本发明的以上和其它方面。该设备中，PCM音频数据存储单元接收和存储PCM音频数据。心理声学模型2执行单元从该PCM音频数据存储单元接收PCM音频数据，并执行心理声学模型2，以获得FFT结果信息、关于所接收数据的知觉能量信息、和用于量化的位分配信息。谐波提取单元利用FFT结果信息而从所接收的PCM音频数据中提取谐波分量。谐波编码单元对所提取的谐波分量进行编码，并输出编码的谐波分量。谐波解码单元对编码的谐波分量进行解码。MDCT单元根据该知觉能量信息，而对已从其中去除了解码的谐波分量的所存储PCM音频数据执行MDCT。量化单元根据该位分配信息而对经过MDCT的音频数据进行量化。MPEG层III位流产生单元用于将已量化的经过MDCT的音频数据和从谐波编码单元输出的编码的谐波分量进行打包，以获得压缩的音频数据。

为了实现以上和其它方面，本发明提供了一种存储有用于执行以上方法的计算机程序的计算机可读记录介质。

附图说明

图1示出了MPEG-1 layer III音频流的格式；

图2是用于产生MPEG-1 layer III音频流的设备的方框图；

图3是图示了心理声学模型中的计算处理的流程图；

图4是根据本发明的用于产生低速MPEG-1 layer III音频流的设备的方框图；

图5是图示了基于心理声学模型2的谐波提取、谐波编码、和谐波解码的流程图；

图6A、6B、6C和6D图示了为了利用心理声学模型2中的FFT结果来提取谐波分量，而分级提取的谐波分量样本；

图7是示出了根据K值变化的限制频率范围的表格；以及

图8是图示了根据本发明的用于通过去除谐波分量而产生音频流的处理的流程图。

具体实施方式

参考图1，运动图像专家组(MPEG)-1 layer III音频流由音频存取单元(AAU，audio access unit)100组成。AAU 100是可以被独立存取的最小单元，并压缩和存储具有固定数目样本的数据。AAU 100包括报头110、循环冗余校验(CRC)120、音频数据130、和辅助数据140。

报头110存储同步字、ID信息、层信息、关于是否存在保护位的信息、位速率指数(index)信息、采样频率信息、关于是否存在填充位的信息、专用(private)位、模式信息、模式扩展信息、版权信息、关于音频流是原始音频流还是拷贝的信息、以及有关加重特性的信息。

CRC 120是可选的。在报头110中定义了CRC 120的存在与否，并且CRC120的长度为6位。

音频数据130是插入压缩的音频数据的部分。

辅助数据140是当音频数据130的末端达不到AAU的末端时填满剩余空白的数据。可以将除MPEG音频之外的任意数据插入到辅助数据140中。

图2是用于产生MPEG-1 layer III音频流的设备的方框图。脉码调制(PCM)音频信号输入单元210具有存储PCM音频数据的缓冲区。这里，PCM音频信号输入单元210接收每一个由576个样本组成的区组(granule)作为PCM音频数据。

心理声学模型2执行单元220从PCM音频信号输入单元210的缓冲区接收PCM音频数据，并执行心理声学模型2。离散余弦变换(DCT)单元230接收以区组为单位的PCM音频数据，并在执行心理声学模型2的同时执行DCT操作。

修改的DCT(MDCT)单元240利用应用心理声学模型2的结果和由DCT单元230执行DCT的结果来执行MDCT。如果知觉能量大于预定阈值，则利用短窗执行MDCT。如果知觉能量小于预定阈值，则利用长窗执行MDCT。

在作为音频信号压缩技术的知觉编码中，再现信号不同于原始信号。也就是说，可以忽略人类利用人耳特性不能感知的详细信息。知觉能量表示人类能感知的能量。

量化单元250利用作为应用心理声学模型2的结果而产生的位分配信息，并利用MDCT操作的结果，来执行量化。MPEG-1 layer III位流产生单元260利用霍夫曼编码，将量化的数据变换为要插入到MPEG-1位流的音频数据区中的数据。

图3是图示了心理声学模型中的计算处理的流程图。首先，在步骤310，以每一个都由576个样本组成的区组接收PCM音频数据。接下来，在步骤320，利用所接收的PCM音频数据，形成每一个都由1024个样本组成的长窗或每一个都由256个样本组成的短窗。也就是说，一个分组由多个样本构成。

其后，在步骤330，以每次一个窗的方式，对步骤320中形成的窗，来执行快速傅立叶变换(FFT)。

然后，在步骤340，应用心理声学模型2。

在步骤350，通过应用心理声学模型2而获得知觉能量值，并将其施加到MDCT单元，而该MDCT单元选择将施加的窗。计算每个阈值带宽的信号掩蔽比(SMR)值，并将其施加到量化单元，以确定将分配的位的数目。

最后，在步骤360，利用该知觉能量值和SMR值来执行MDCT和量化。

图4是根据本发明的用于产生低速MPEG-1 layerIII音频流的设备的方框图。PCM音频信号存储单元410具有其中存储有PCM音频数据的缓冲区。心理声学模型2执行单元420每次对1024个样本或256个样本执行FFT，并输出知觉能量信息和位分配信息。

如以上参考图3所述，当应用心理声学模型2时，输出知觉能量信息和依赖于SMR的位分配信息。由于心理声学模型2执行单元420执行FFT，谐波提取单元430从FFT的结果中提取谐波分量。这将稍后参考图6进行描述。

谐波编码单元440对所提取的谐波分量进行编码，并将编码的谐波分量传输到MPEG-1 layer III位流产生单元480。编码的谐波分量与量化的音频数据一起形成MPEG-1音频。稍后将详细描述谐波分量的编码处理。

谐波解码单元450对编码的谐波分量进行解码，以获得时域中的PCM数据。MDCT单元460从原始输入的PCM数据中减去解码的谐波分量，并对相减结果执行MDCT。更具体地，如果从心理声学模型2单元420中接收到的知觉能量信息值大于预定阈值，则每次对18个样本执行MDCT。如果从心理声学模型2执行单元420中接收到的知觉能量信息值等于或小于预定阈值，则每次对36个样本执行MDCT。

利用音调/非音调判决条件和在心理声学模型2中定义的听觉限制特性，来对频域中布置的数据执行谐波分量提取。这将在稍后进行详细描述。

量化单元470利用由心理声学模型2执行单元420获得的位分配信息执行量化。MPEG-1 layer III位流产生单元480对由谐波编码单元440生成的谐波分量数据和由量化单元470获得的量化音频数据进行打包，以获得压缩的音频数据。

图5是图示了基于心理声学模型2的谐波提取步骤510、谐波编码步骤520、和谐波解码步骤530的流程图。图5中心理声学模型2中执行的步骤与图3中心理声学模型2中执行的步骤相同。在提取谐波分量的步骤510中使用基于心理声学模型2执行单元而执行的FFT的结果。在步骤520中，将所提取的谐波分量编码为MPEG-1位流。现在将参考图6A到6D更详细地描述谐波提取步骤510。

图6A、6B、6C和6D图示了当利用在心理声学模型2中执行的FFT结果提取谐波分量时分级提取的样本。如果输入图6A所示的PCM音频数据，则为了确定每个数据的声压，而首先对接收的数据执行FFT。选择已获得其声压的多个所接收PCM音频数据中的一个。如果所选择的数据左侧和右侧的PCM音频数据的值小于所选择的PCM音频数据值，则仅提取所选择的PCM音频数据。将该处理施加到所有所接收的PCM音频数据。

声压是频域中样本的能量值。在本发明中，仅将声压大于预定级别的样本确定为谐波分量。因此，提取图6B所示的样本。其后，仅提取声压大于预定级别的样本。例如，如果预定级别被设置为7.0dB，则不选择声压小于7.0dB的样本，而仅剩余图6C所示的样本。剩余的样本不全部视为谐波分量，而根据图7的表格从剩余样本中提取一些样本。这样，最后，剩余了图6D所示的样本。

图7是示出了根据K值变化的限制频率范围的表格。给定K是代表频域中样本的位置的值，如果K值小于3或大于500，则出现在0的限制频率范围内的样本值为0，因此不选择。同样，如图7所示，如果K值等于或大于3并小于63，则对应的范围值设置为2。如果K值等于或大于63并小于127，则对应的范围值设置为3。如果K值等于或大于127并小于255，则对应的范围值设置为6。如果K值等于或大于255并小于500，则对应的范围值设置为12。

设置500为限是考虑到人的可听频率的限制，并基于当考虑与等于或大于500的频率对应的样本值时和不考虑它们时再现的声音质量没有差别的假设，而做出的。

结果，仅提取图6D的样本值，并确定其为谐波分量。

谐波编码520包括振幅编码、频率编码、和相位编码。这三种编码方法使用公式1和2：

Enc_peak_AmpMax = integer (\frac{(2^{8} - 1) \log_{10} (AmpMax + 10)}{\log_{10} 2^{13}}) . . . (1)

Enc_Amp_integer (\frac{(2^{5} - 1) \log_{10} (Amp + 10)}{\log_{10} (AmpMax + 10)}) . . . (2)

其中AmpMax表示峰值振幅，Enc_peak_AmpMax表示通过对AmpMax值进行编码而获得的结果值，而Amp表示除了峰值振幅之外的振幅。

在该振幅编码中，当峰值振幅被设置为值AmpMax时，首先以8位对数比例对该峰值振幅进行编码以获得公式1所示的Enc_peak_AmpMax，并以5位对数比例对其它振幅Amp进行编码以获得公式2所示的Enc_Amp。

在频率编码中，考虑到人的听觉特性而仅对与范围从58(2498Hz)到372(16KHz)的值K对应的样本进行编码。由于从372减去58而得到314，所以利用9位来对这些样本进行编码。

利用3位实现相位编码。

在这样的谐波提取和谐波编码之后，对编码的谐波分量进行解码，然后经历MDCT。

图8是图示了根据本发明的用于通过去除谐波分量而产生音频流的处理的流程图。首先，在步骤810，接收并存储PCM音频数据。然后，在步骤820，将利用人的听觉限制特性的心理声学模型2施加到所存储的数据，从而获得FFT结果信息、关于所接收的数据的知觉能量信息、和用于量化的位分配信息。其后，在步骤830，利用FFT结果信息从所接收的PCM音频数据中提取谐波分量。

在以下处理中提取谐波分量。首先，利用FFT结果信息获得多个所接收的PCM音频数据中的每一个的声压。接下来，选择已获得其声压的多个所接收的PCM音频数据中的一个。如果所选择的数据的左侧和右侧的PCM音频数据的值小于所选的PCM音频数据值，则仅提取所选择的PCM音频数据。将该处理施加到所有所接收的PCM音频数据。其后，从前一步骤中提取的PCM音频数据中仅提取每一个声压大于7.0dB预定值的PCM音频数据。最后，通过从前一步骤中提取的音频数据中不选择预定频率范围内的PCM音频数据，来提取谐波分量。

在步骤830的谐波提取之后，在步骤840，对所提取的谐波分量进行编码并输出。然后，在步骤850，对所编码的谐波分量进行解码。

接下来，在步骤860，根据知觉能量信息，对已从中去除了解码的谐波分量的所接收的PCM音频数据进行MDCT。更具体地，如果知觉能量值大于预定阈值，则利用短窗，以例如每次对18个样本的方式，执行MDCT。如果知觉能量值小于预定阈值，则利用长窗，以例如每次对36个样本的方式，执行MDCT。

其后，在步骤870，通过根据位分配信息来分配位，而对MDCT结果值进行量化。

最后，在步骤880，对量化的音频数据和编码的谐波分量进行霍夫曼编码，以获得音频分组。

本发明的实施例可以写成计算机程序，并可以利用计算机可读记录介质在执行该程序的通用用途数字计算机中实现。计算机可读记录介质的例子包括磁存储介质(例如ROM、软盘、硬盘等)、光记录介质(例如CD-ROM、或DVD)、和诸如载波(例如通过因特网传输)的存储介质。

尽管已参考其优选实施例具体示出和描述了本发明，但本领域普通技术人员应该理解，在不脱离所附权利要求限定的本发明的精神和范围的情况下，可进行各种形式和细节的改变。因此，所公开的实施例应视为示例性的而非限制性的。本发明的范围不在以上描述而在所附权利要求中给出，并且在与权利要求的范围等同的范围内的所有差别应解释为包括在本发明中。

工业实用性

如上所述，在本发明中，在产生低速MPEG-1 layer III音频流时产生的量化位的数目被最小化。利用心理声学模型2中使用的FFT结果，简单地从输入音频信号中去除了谐波分量，并利用MDCT仅压缩瞬变部分。所以，可以以低速位速率有效地压缩输入音频信号。

Claims

1.一种利用谐波分量的音频编码方法，该方法包括：

(a)接收脉码调制音频数据，并通过应用心理声学模型2而从所接收的脉码调制音频数据中提取谐波分量；

(b)对已从其中去除了所提取的谐波分量的所接收脉码调制音频数据执行修改的离散余弦变换；以及

(c)对经过修改的离散余弦变换的音频数据进行量化，并从量化的音频数据和提取的谐波分量中产生音频分组。

2.一种利用谐波分量的音频编码方法，该方法包括：

(a)接收和存储脉码调制音频数据，并基于人的听觉限制特性而将心理声学模型2应用于所存储的数据，以获得快速傅立叶变换结果、关于所接收的数据的知觉能量信息、和用于量化的位分配信息；

(b)利用该快速傅立叶变换结果信息而从所接收的脉码调制音频数据中提取谐波分量；

(c)对所提取的谐波分量进行编码、输出编码的谐波分量、并对编码的谐波分量进行解码；

(d)根据知觉能量信息的值，对已从其中去除了所提取的谐波分量的所接收脉码调制音频数据的多个样本执行修改的离散余弦变换；

(e)通过根据位分配信息来分配位，而对经过修改的离散余弦变换的音频数据进行量化；以及

(f)从量化的经过修改的离散余弦变换的音频数据和编码的谐波分量产生音频分组。

3.根据权利要求2的音频编码方法，其中步骤(b)包括：

(b1)利用该快速傅立叶变换结果信息获得所述多个所接收脉码调制音频数据的声压；

(b2)从已获得其声压的多个脉码调制音频数据中选择数据值，并且作为第一级提取，如果所选择的脉码调制音频数据值的右侧和左侧的脉码调制音频数据值小于所选择的脉码调制音频数据值，则仅提取所选择的脉码调制音频数据；

(b3)将步骤(b2)施加到所有所接收的脉码调制音频数据；

(b4)作为第二级提取，从第一级提取的脉码调制音频数据中仅提取其声压大于预定声压的脉码调制音频数据；以及

(b5)在步骤(b4)中第二级提取的脉码调制音频数据中，根据频率位置，不选择存在于预定频率范围内的脉码调制音频数据。

4.根据权利要求3的音频编码方法，其中步骤b5中的预定声压为7.0dB。

5.根据权利要求2的音频编码方法，其中在步骤(d)中，如果知觉能量信息的值大于预定阈值，则每次对18个样本执行修改的离散余弦变换，或者如果知觉能量信息的值小于预定阈值，则每次对36个样本执行修改的离散余弦变换。

6.一种利用谐波分量的音频编码设备，该设备包括：

脉码调制音频数据存储单元，用于接收和存储脉码调制音频数据；

心理声学模型2执行单元，用于从该脉码调制音频数据存储单元接收脉码调制音频数据，并执行心理声学模型2，以获得FFT结果信息、关于所接收数据的知觉能量信息、和用于量化的位分配信息；

谐波提取单元，用于利用快速傅立叶变换结果信息而从所接收的脉码调制音频数据中提取谐波分量；

谐波编码单元，用于对所提取的谐波分量进行编码，并输出编码的谐波分量；

谐波解码单元，用于对编码的谐波分量进行解码；

修改的离散余弦变换单元，用于根据知觉能量信息，对已从其中去除了解码的谐波分量的所存储脉码调制音频数据执行修改的离散余弦变换；

量化单元，用于根据位分配信息，对经过修改的离散余弦变换的音频数据进行量化；以及

MPEG层III位流产生单元，用于将已量化的经过修改的离散余弦变换的音频数据和从谐波编码单元输出的编码的谐波分量进行打包，以获得压缩的音频数据。

7.根据权利要求6的音频编码设备，其中该谐波提取单元通过以下步骤执行谐波提取：

利用快速傅立叶变换结果信息获得所述多个所接收脉码调制音频数据的声压，从已获得其声压的多个脉码调制音频数据中选择数据，并且作为第一级提取，如果所选择的脉码调制音频数据的右侧和左侧的脉码调制音频数据值小于所选择的脉码调制音频数据值，则仅提取所选择的脉码调制音频数据；

对所有所接收的脉码调制音频数据施加第一级提取，并且作为第二级提取，从第一级提取的脉码调制音频数据中仅提取其声压大于预定声压的脉码调制音频数据；以及

从第二级提取的脉码调制音频数据中，根据频率位置而丢弃存在于预定频率范围内的脉码调制音频数据。

8.根据权利要求6的音频编码设备，其中如果知觉能量信息的值大于预定阈值，则该修改的离散余弦变换单元每次对18个样本执行修改的离散余弦变换，或者如果知觉能量信息的值小于预定阈值，则该修改的离散余弦变换单元每次对36个样本执行修改的离散余弦变换。