CN101689369B

CN101689369B - 用于编码和解码分音的幅度的方法和装置

Info

Publication number: CN101689369B
Application number: CN2008800200513A
Authority: CN
Inventors: 李男淑; 李健炯; 吴宰源; 李�雨; 郑钟勋
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2007-04-12
Filing date: 2008-02-29
Publication date: 2013-03-06
Anticipated expiration: 2028-02-29
Also published as: US20080255855A1; EP2135239A4; WO2008126984A1; KR101418248B1; KR20080092623A; EP2135239A1; CN101689369A; US8296137B2; EP2135239B1

Abstract

本发明提供了用于编码和解码分音的幅度的方法和装置，其中，能够防止在参数编解码中对连续分音的幅度的编码结果中出现阶梯现象，从而提高再现的声音质量。编码分音的幅度的方法包括：获得前一帧的分音的逆量化幅度；基于用于前一帧的分音的逆量化幅度的函数确定量化级别；以及基于所确定的量化级别量化当前帧的分音的幅度。

Description

用于编码和解码分音的幅度的方法和装置

技术领域

与本发明一致的方法和装置涉及音频编码和解码，更具体而言，涉及在参数编解码(parametric codec)中对分音(partials)的幅度进行编码和解码。

背景技术

参数编解码是参数编码和参数解码的组合，参数编码用于解析音频信号和确定音频信号的参数(parametrizing)，参数解码用于将参数重构为音频信号。图1是相关技术的参数编码方法的流程图。通过执行三种类型的分析，即在操作101执行瞬态(transient)分析，在操作102执行正弦分析，以及在操作103执行噪声分析，来提取每个域(domain)中音频分量的参数。

瞬态分析处理动态音频改变。正弦分析处理确定性的音频改变。噪声分析处理随机的或非确定性的音频改变。所提取的参数在操作104被格式化成比特流(formatted into a bitstream)。

在相关技术的参数编码中，正弦分析包括分析输入音频信号的正弦波以生成分音，以及跟踪(tracking)所生成的分音。通过跟踪，分音被分成连续分音(continuation partials)和起源分音(birth partials)。如图2所示，连续分音与前一帧的分音相关，而起源分音是新产生的，与前一帧的分音无关。

相关技术的参数编码的连续分音多于起源分音。因此，减少用于表示连续分音的比特数以及提高连续分音的声音质量对于减少总比特数和提高总体音频质量具有很大影响。

参照图3，在相关技术的参数编码中，通过在操作301使用对数定标(logscale)方法获得前一帧的分音的幅度的量化值Q_P，在操作302使用对数定标方法获得当前帧的分音的幅度的量化值Q_C，来执行连续分音的幅度编码。接下来，在操作303获得量化值Q_P与量化值Q_C值之间的差，即D＝Q_C-Q_P，并且在操作304将所获得的差D格式化成比特流，由此减少编码后连续分音的比特数。

然而，在连续分音的幅度编码过程中，如果连续分音的幅度逐渐增加或降低，这种逐渐的幅度变化(variation)不能被表示，而只有大的幅度变化能够被表示，这导致图4所示的幅度变化的阶梯现象(step phenomenon)。

图4是示出了相对于预设幅度粒度(amp_granularity)编码前的连续分音幅度与相对于量化值Q_C改变1的幅度变化之间的关系的示图。在图4中，横轴表示编码前连续分音的幅度，纵轴表示量化值Q_C改变1时的幅度变化。

发明内容

技术问题

参照图4，对于amp_granularity为0的情况，在幅度变化中没有出现阶梯现象。然而，随着amp_granularity增加，在幅度变化中出现的阶梯现象达到较大的程度，造成再现的声音质量下降。

而且，在相关技术的连续分音的幅度编码中，使用对数定标方法获得的前一帧的分音的幅度的量化值与也使用对数定标方法获得的当前帧的分音的幅度量化值之间的差，即，图3中的差D，被格式化成比特流，而没有对频域进行考虑，这导致无法有效减少连续分音的比特数。再有，大量比特被用于表示人耳难以分辨的小幅度部分的幅度变化，这也造成无法有效减少编码音频信号的比特数。

技术方案

本发明提供用于编码和解码分音的幅度的方法和装置，其中，在参数编解码中，在对连续分音的幅度进行编码时，防止了幅度变化中阶梯现象的出现，从而提高了再现的声音质量。

本发明还提供用于编码和解码分音的幅度的方法和装置，其中，能够减少在参数编解码中用于表示连续分音的幅度的比特数。

有益效果

如上所述，根据本发明的示范性实施例，使用基于用于前一帧的分音的逆量化幅度的函数确定的量化级别(quantization level)，量化当前帧的分音的幅度，从而防止了在对连续分音的幅度进行编码时幅度变化中的阶梯现象，并提高了再现的声音质量。

此外，通过根据频率自适应地确定量化级别，能够减少用于表示连续分音的编码的幅度的比特数。具体而言，减少了用于表示分音的幅度中人耳难以察觉的小幅度部分的变化的比特数，从而减少了参数编解码中的总比特数。

附图说明

通过参照附图具体描述本发明的示范性实施例，本发明的上述及其它方面将变得更加清楚。附图中：

图1是相关技术的参数编码方法的流程图；

图2是用于解释相关技术的参数编码中的起源分音和连续分音的示图；

图3是相关技术的参数编码方法中编码连续分音的幅度的方法的流程图；

图4是示出相对于预设幅度粒度的编码前的连续分音的幅度与相对于当前帧的分音的幅度的量化值改变1的幅度变化之间的关系的图形；

图5是根据本发明的示范性实施例的用于编码分音的幅度的装置的框图；

图6是示出相对于根据本发明示范性实施例的预设函数的分音的幅度与相对于当前帧的分音的幅度的量化值改变1的幅度变化之间的关系的图形；

图7是用于比较图4所示图形与图6所示图形的图形；

图8是根据本发明的示范性实施例的编码分音的幅度的方法的流程图；

图9是根据本发明示范性实施例的用于解码分音的幅度的装置的框图；以及

图10是根据本发明示范性实施例的解码分音的幅度的方法的流程图。

具体实施方式

根据本发明的一个方面，提供一种对分音的幅度进行编码的方法，该方法包括：获得前一帧的分音的逆量化幅度；基于用于前一帧的分音的逆量化幅度的函数确定量化级别；以及根据所确定的量化级别量化当前帧的分音的幅度。

根据本发明的一个方面，提供一种用于对分音的幅度进行编码的装置，该装置包括：存储单元，其存储前一帧的分音的逆量化幅度；量化级别确定单元，其基于用于前一帧的分音的逆量化幅度的函数确定量化级别；以及量化单元，其根据所确定的量化级别量化当前帧的分音的幅度。

根据本发明的一个方面，提供一种解码分音的幅度的方法，该方法包括：从比特流去格式化信号(bitstream-deformatted signal)中检测当前帧的分音的量化值；获得前一帧的分音的逆量化幅度；基于用于前一帧的分音的逆量化幅度的函数，确定量化级别；以及根据所确定的逆量化级别，逆量化检测到的量化值。

根据本发明的一个方面，提供一种用于解码分音的幅度的装置，该装置包括：量化值检测单元，其从比特流去格式化信号中检测当前帧的分音的量化值；存储单元，其存储前一帧的分音的逆量化幅度；量化级别检测单元，其基于用于前一帧的分音的逆量化幅度的函数，检测量化级别；以及逆量化单元，其根据所确定的量化级别，逆量化所检测的量化值。

以下将参照附图具体描述本发明的示范性实施例。应当注意到，在一个或多个附图中示出的相同元素用相同的附图标记来表示。在随后对本发明的描述中，为简洁和清楚起见，将省略对合并于此的公知功能和结构的详细描述。

本发明的示范性实施例基于用于前一帧的分音的幅度的函数确定量化级别，并基于所确定的量化级别量化当前帧的分音的幅度，以防止在参数编解码中对于连续分音的幅度的编码结果中出现阶梯现象。此外，本发明的示范性实施例调整所述函数，以便根据频率改变量化级别，从而减少用于表示连续分音的幅度变化的比特数。本发明的示范性实施例还能够减少用于表示人耳难以察觉的小幅度部分的幅度变化的比特数。

图5是根据本发明的用于编码分音的幅度的装置500的框图。参照图5，装置500包括存储单元501、分音幅度解码单元502、量化级别确定单元503、量化单元504和比特流格式化单元507。

存储单元501存储当前帧的分音的幅度的逆量化幅度(或解码幅度)，该逆量化幅度是从分音幅度解码单元502提供的，并且，在相对下一帧的分音的幅度进行量化的过程中，存储单元501提供所存储的逆量化幅度，作为前一帧的分音的幅度的逆量化幅度prev_iq_amp(或解码幅度)，其在下文中将被称为前一帧的分音的逆量化幅度。

当从量化单元504接收到当前帧的分音的量化值D时，分音幅度解码单元502逆量化所接收的量化值D，以便获得逆量化值。换言之，分音幅度解码单元502通过将所接收的量化值D乘以从量化级别确定单元503提供的量化级别，来获得逆量化值。然后，分音幅度解码单元502读取存储在存储单元501中的前一帧的分音的逆量化幅度，并将所读取的逆量化幅度加上所述逆量化值的结果存储在存储单元501中，作为当前帧的分音的幅度的解码幅度。

量化级别确定单元503基于用于前一帧的分音的逆量化幅度的预设函数f(prev_iq_amp)确定量化级别Q_Level，即，Q_Level＝f(prev_iq_amp)。函数f(prev_iq_amp)可以被设置为与分音的频率无关的固定函数(fixed function)。例如，如果前一帧的分音的幅度为x，为了确定量化级别，该函数可以被设置为与频率无关的Q_Level＝(x)^(1/2)。

人耳能容易地识别低频域中分音的幅度的改变，但在高频域中则并非如此。因此，可以通过为低频域和高频域设置不同的函数来确定量化级别。例如，如果前一帧的分音的幅度为x，则为了确定量化级别，可以在低频域中将函数设置为Q_Level＝(x)^(1/2)，在高频域中将函数设置为Q_Level＝(x)^(3/5)。

可替换地，可以为低频域、中频域和高频域而不同地设置函数。例如，如图6所示，通过在低频域中将函数设置为Q_Level＝(x)^(1/2)、在中频域中将函数设置为Q_Level＝(x)^(3/5)、在高频域中将函数设置为Q_Level＝(x)^(3/4)，来确定量化级别。图6是示出相对于用于根据分音的频率确定量化级别的函数的编码前的分音的幅度与相对于当前帧的分音的幅度的量化值改变1的幅度变化之间的关系的示图。从图6可以看出，在幅度变化中没有出现阶梯现象。这是因为使用了适应于前一帧的分音的逆量化幅度而设置的量化级别来量化当前帧的分音的幅度。量化级别确定单元503可以通过以如下方式设置函数来确定量化级别：高频域中的量化误差变得大于低频域中的量化误差。

量化单元504基于由量化级别确定单元503确定的量化级别来量化当前帧的分音的幅度。为此，量化单元504包括差检测单元505和量化处理单元506。

差检测单元505检测当前帧的分音的幅度A_C与前一帧的分音的逆量化幅度prev_iq_amp之间的差Diff＝A_C-prev_iq_amp。为此，当接收到幅度A_C时，差检测单元505读取存储在存储单元501中的逆量化幅度prev_iq_amp，并检测幅度A_C与所读取的逆量化幅度prev_iq_amp之间的差。

量化处理单元506基于由量化级别确定单元503确定的量化级别，量化由差检测单元505检测到的差，从而获得当前帧的分音的幅度的量化值D。换言之，量化处理单元506可以基于将所述差除以所确定的量化级别的操作Diff/Q_Level来量化幅度A_C。此时，由量化处理单元506获得的量化值D可以被定义为当前帧的分音的编码幅度。量化处理单元506可以将所获得的量化值D应用于四舍五入(rounding)函数round(Diff/Q_Level)、向上取整(ceiling)函数和向下取整(floor)函数中的一个。从量化处理单元506输出的信号被发送到比特流格式化单元507，然后被发送到分音幅度解码单元502。

比特流格式化单元507对从量化单元504发送的量化值执行比特流格式化，并将结果值发送到用于解码当前帧的分音的幅度的装置或者用于解码音频信号的装置。

图7是用于将图4所示图形和图6所示图形进行比较的图形。参照图7，从基于图4的图形中可以看到，在传统分音幅度编码中，随着分音的幅度逐渐增加，在相对于分音的幅度的量化值改变1的幅度变化中出现了阶梯现象，而从基于图6的图形可以看出，在根据本发明的分音幅度编码中，随着分音的幅度逐渐增加，在相对于分音幅度的量化值改变1的幅度变化中没有出现阶梯现象。

参照图4，在基于图4的图形中，相关技术的分音幅度编码无法跟随(follow)分音的幅度变化的逐渐增长。尽管相关技术的分音幅度编码能够表达幅度粒度amp_granularity为0的分音的幅度变化的逐渐增长，但是需要大量比特来表达这种逐渐增长。

另一方面，在图6的示图中，根据本发明的分音幅度编码能够表示分音的幅度变化的逐渐增长。用于确定量化级别的函数可以被不同地设置。例如，所述函数可以被设置为(pre_iq_amp)^(1/2)、(pre_iq_amp)^(3/5)和(pre_iq_amp)^(3/4)。通过使用心理声学(psychoacoustic)方法为不同频率设置不同的量化级别，能够减少比特量，并且能够防止声音质量下降。例如，用于确定量化级别的函数f(prev_iq_amp)在低频域被设置为(prev_iq_amp)^(1/2)，在中频域被设置为(prev_iq_amp)^(3/5)，在高频域被设置为(prev_iq_amp)^(3/4)

图8是根据本发明示范性实施例的编码分音的幅度的方法的流程图。

参照图8，在操作801，以与图5的分音幅度解码单元502获得当前帧的分音的逆量化幅度相似的方式，获得前一帧的分音的逆量化幅度prev_iq_amp。

在操作802，使用逆量化幅度prev_iq_amp确定用于量化当前帧的分音的幅度的量化级别Q_Level。换言之，正如已经针对图5中的量化级别确定单元503所描述过的，预设函数被应用到在操作801中获得的逆量化幅度prev_iq_amp，由此确定量化级别Q_Level。可以如参照图5所描述的那样设置该函数。

在操作803，获得当前帧的分音的幅度A_C与在操作801中获得的前一帧的分音的逆量化幅度prev_iq_amp之间的差Diff＝A_C-prev_iq_amp。

在操作804，基于在操作802中确定的量化级别Q_Level，来量化差Diff。换言之，通过将四舍五入函数round(Diff/Q_Level)应用于将差Diff除以量化级别Q_Level的结果，来量化差Diff。然而，也可以通过将向上取整函数或向下取整函数应用于所述除法的结果来量化差Diff。量化后的差即为当前帧的分音幅度的量化值。因此，操作803和804可以被定义为基于量化级别量化当前帧的分音的幅度的操作。在操作805，将在操作804中获得的量化值格式化成比特流。

或者，操作801可以被改变，以便在操作801读取在操作801中存储的前一帧的分音的逆量化幅度，并且操作805可以被改变，以便执行比特流格式化，并获得和存储当前帧的分音的逆量化幅度，如针对图5的分音幅度解码502所描述的那样。因此，当编码下一帧的分音的幅度时，可以读取所存储的当前帧的分音的逆量化幅度，以作为前一帧的分音的逆量化幅度。

在图8中，处理操作802和操作803的顺序可以交换。

图9是根据本发明示例实施例的用于解码分音的幅度的装置900的框图。参照图9，装置900包括比特流去格式化单元901、量化值检测单元902、存储单元903、量化级别检测单元904和逆量化单元905。

比特流去格式化单元901对接收到的比特流去格式化(de-formats)。

当从比特流去格式化单元901接收到比特流去格式化信号时，量化值检测单元902从该比特流去格式化信号中检测当前帧的分音的幅度的量化值。这样的检测可以通过例如从所接收的比特流去格式化信号中的预设字段检测量化值来执行。

存储单元903存储从逆量化单元905输出的当前帧的分音的逆量化幅度，并在对下一帧的分音的幅度的量化值进行逆量化时，提供所存储的逆量化幅度，作为前一帧的分音的逆量化幅度。

量化级别检测单元904基于从存储单元903提供的、用于前一帧的分音的逆量化幅度的函数，来检测量化级别。所述函数类似于针对图5所示的装置500描述的用于根据本发明编码分音的幅度的函数。

逆量化单元905根据量化级别检测单元904检测的量化级别，逆量化由量化值检测单元902所检测的量化值。为此，逆量化单元905包括逆量化块906和逆量化幅度检测单元907.

逆量化块906基于由量化级别检测单元904所检测的量化级别，逆量化当前帧的分音的幅度的量化值，从而输出当前帧的分音的幅度的逆量化值。逆量化幅度检测单元907基于从逆量化块906输出的逆量化值和从存储单元903读取的前一帧的分音的逆量化幅度，检测当前帧的分音的逆量化幅度。换言之，逆量化幅度检测单元907输出将前一帧得分音的逆量化幅度加到所输出的逆量化值上得到的结果，作为当前帧的分音的逆量化幅度。所输出的当前帧的分音的逆量化幅度被发送到存储单元903，并且还被发送到信号处理单元(未示出)以用于音频再现。

图10是根据本发明示例实施例的解码分音的幅度的方法的流程图。

参照图10，在操作1001，去格式化所接收到的比特流。在操作1002，从比特流去格式化信号中检测当前帧的分音的幅度的量化值D。所述检测类似于参照图9所描述的检测。

在操作1003，获得前一帧的分音的逆量化幅度prev_iq_amp。通过将前一帧之前的一帧的逆量化幅度加到前一帧的分音的幅度的逆量化值上，来获得逆量化幅度prev_iq_amp。

在操作1004，基于用于逆量化幅度prev_iq_amp的函数，确定量化级别Q_Level。换言之，通过将预设函数应用到逆量化幅度prev_iq_amp来确定量化级别Q_Level。

在操作1005，基于量化值D和在操作1004确定的量化级别Q_Level来获得当前帧的分音的幅度的逆量化值Diff。换言之，通过将量化值D乘以量化级别Q_Level来获得逆量化值Diff。

在操作1006，基于逆量化值Diff和逆量化幅度prev_iq_amp，获得当前帧的分音的逆量化幅度IQ_C或cur_iq_amp。换言之，获得将逆量化幅度prev_iq_amp加到逆量化值Diff上的结果，以作为逆量化幅度IQ_C。

以再现音频信号的方式处理所获得的逆量化幅度IQ_C，并且所获得的逆量化幅度IQ_C能够被存储，以便在逆量化下一帧的分音的量化值时，可用作前一帧的分音的逆量化幅度。如果图10的方法包括存储在操作1006中获得的逆量化幅度IQ_C的操作，则操作1003可以被定义为读取所存储的前一帧的分音的逆量化幅度的操作。

因此，图10的操作1005和1006可以被定义为根据量化级别逆量化所检测的量化值的操作。

根据本发明的编码和解码分音的幅度的方法可以被具体实现为计算机可读记录介质上可由计算机读取的代码。计算机可读记录介质包括存储可由计算机系统读取的数据的所有种类的记录器件。计算机可读记录介质的例子包括只读存储器(ROM)，随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储器件。计算机可读记录介质还可以分布在通过网络连接的计算机系统上，以便以分布式方式存储和执行计算机可读代码。并且，本领域普通程序员能够容易的解释用于实现本发明的功能程序、代码和代码段。

尽管参照本发明的示例实施例具体示出和描述了本发明，但是本领域普通技术人员将会理解，在不脱离由权利要求所限定的本发明的精神和范围的情况下，可以进行形式和细节上的各种改变。

Claims

1.一种对分音的幅度进行编码的方法，该方法包括：

获得前一帧的分音的逆量化幅度；

基于关于前一帧的分音的逆量化幅度的函数，确定量化级别；以及

基于所确定的量化级别，量化当前帧的分音的幅度。

2.如权利要求1所述的方法，其中，所述量化当前帧的分音的幅度包括：

获得当前帧的分音的幅度与前一帧的分音的逆量化幅度之间的差；以及

基于所确定的量化级别，量化所述差，

其中，通过量化所述差获得的量化值是当前帧的分音的幅度的量化值。

3.如权利要求1所述的方法，其中，所述获得逆量化幅度包括：

量化前一帧的分音；

逆量化所获得的量化值；以及

将所述前一帧之前一帧的分音的逆量化幅度加到通过逆量化获得的逆量化值上，由此获得前一帧的分音的逆量化幅度。

4.如权利要求3所述的方法，其中，所述函数被设置成使得所述量化级别随频率而改变。

5.如权利要求2所述的方法，其中，基于将所述差除以所述量化级别的操作，执行对所述差的量化。

6.一种用于对分音的幅度进行编码的装置，该装置包括：

存储单元，其存储前一帧的分音的逆量化幅度；

量化级别确定单元，其基于关于前一帧的分音的逆量化幅度的函数，确定量化级别；以及

量化单元，其基于由所述量化级别确定单元确定的量化级别，量化当前帧的分音的幅度。

7.如权利要求6所述的装置，其中，所述量化单元包括：

差检测单元，其检测当前帧的分音的幅度与前一帧的分音的逆量化幅度之间的差；以及

量化块，其基于所确定的量化级别，量化所述差，

其中，由所述量化块获得的量化值是当前帧的分音的幅度的量化值。

8.如权利要求7所述的装置，还包括分音幅度解码单元，其基于所述量化级别，解码从所述量化单元输出的当前帧的分音的量化值。

9.如权利要求8所述的装置，其中，所述分音幅度解码单元逆量化所述量化值，并在所述存储单元中存储将从所述存储单元读取的前一帧的分音的逆量化幅度加到通过所述逆量化获得的逆量化值上而得到的结果。

10.如权利要求8所述的装置，其中，所述函数被设置成使得所述量化级别随频率而改变。

11.如权利要求8所述的装置，其中，所述量化单元基于将当前帧的分音的幅度与前一帧的分音的逆量化幅度之间的差除以量化级别的操作，量化所述差。

12.一种解码分音的幅度的方法，该方法包括：

从比特流去格式化信号中检测当前帧的分音的量化值；

获得前一帧的分音的逆量化幅度；

基于所确定的量化级别，逆量化所检测到的量化值。

13.如权利要求12所述的方法，其中，所述逆量化所检测到的量化值包括：

基于所述量化值和量化级别，获得当前帧的分音的逆量化值；以及

基于所述逆量化值和前一帧的分音的逆量化幅度，获得当前帧的分音的逆量化幅度。

14.如权利要求13所述的方法，其中，所述获得前一帧的分音的逆量化幅度包括：

逆量化前一帧的分音的量化值；以及

将前一帧之前一帧的分音的逆量化幅度加到通过逆量化获得的逆量化值上，由此获得前一帧的分音的逆量化幅度。

15.如权利要求12所述的方法，其中，获得前一帧的分音的逆量化幅度包括：

逆量化前一帧的分音的量化值；以及

16.一种用于解码分音的幅度的装置，该装置包括：

量化值检测单元，其从比特流去格式化信号中检测当前帧的分音的量化值；

存储单元，其存储前一帧的分音的逆量化幅度；

量化级别检测单元，其基于关于前一帧的分音的逆量化幅度的函数，检测量化级别；以及

逆量化单元，其基于由所述量化级别检测单元所检测的量化级别，逆量化由所述量化值检测单元所检测的量化值。

17.如权利要求16所述的装置，其中，所述逆量化单元包括：

逆量化块，其基于所述量化级别逆量化由所述量化值检测单元所检测的量化值，以获得逆量化值；以及

逆量化幅度检测单元，其基于所述逆量化值和前一帧的分音的逆量化幅度，检测当前帧的分音的逆量化幅度，

其中，由所述逆量化幅度检测单元检测的当前帧的分音的逆量化幅度被存储在所述存储单元中。