CN101377926B

CN101377926B - 加速量化循环程序功能的音频编码方法

Info

Publication number: CN101377926B
Application number: CN2007101483875A
Authority: CN
Inventors: 王文浩
Original assignee: Realtek Semiconductor Corp
Current assignee: Realtek Semiconductor Corp
Priority date: 2007-08-31
Filing date: 2007-08-31
Publication date: 2012-06-27
Anticipated expiration: 2027-08-31
Also published as: CN101377926A

Abstract

一种音频编码方法利用预先估计总体增益的初始值及量化因子初始值，以提供较佳的迭代初始值于量化循环中，避免庞大计算量的需求状况。此编码方法的初始值估计程序包含根据一输入帧的采样率、比特率与声道数目、及心理声学模型计算一配置比特数目；分析出每一量化因子频带中，具有最大能量的一频域采样，将该频域采样的比特数目量化成该配置比特数目，并产生相对应的一量化因子；分析出对应于该输入帧的所有量化因子频带的一最大量化因子；及根据最大量化因子及相对应的量化因子设定量化循环程序的总体增益及量化因子初始值。

Description

加速量化循环程序功能的音频编码方法

技术领域

本发明提供一种音频编码方法，尤指一种加速量化循环程序功能的音频编码方法。

背景技术

目前有许多编码器依据人类听觉系统的特性而采用特殊的编码算法，可将数字音频数据压缩至十倍以上，譬如第三代音频压缩技术(MPEG audiolayer III，MP3)、先进音频编码技术(Advanced Audio Coding，AAC)、及杜比数字编码技术(Dolby Digital)等，这些编码器采用了知觉编码、频域编码、视窗切换及动态比特分配等技术来消除原始音频数据中不必要的内容。

请参考图1，图1为一已知音频编码方法的流程图。图1的已知音频编码方法包含下列步骤：

步骤S100：输入一脉冲编码调制(pulse code modulation，PCM)帧；

步骤S110：将输入帧由时域转换至频域，并产生相对应于该输入帧的频域采样；

步骤S130：执行可用比特数目分析，用以计算一可用比特数目；

步骤S140：重置外部量化循环编码程序的迭代变量；

步骤S150：判断是否所有频域采样的能量均为零，若是，则执行步骤S170，否则，执行步骤S160；

步骤S160：执行外部量化循环编码程序以输出一编码帧；

步骤S170：执行未使用比特数目分析，用以计算一未使用比特数目，提供后续信号处理可利用比特信息；以及

步骤S180：结束。

在已知音频编码的迭代处理过程中，由于迭代变量，例如：量化因子(scalefactor)与总体增益(global gain)，进入外部量化循环编码程时的起始系值皆设定为零，在此情况下，所提供的迭代变量的初始值与迭代变量的目标值相差就会很大，所以需要花费较大的计算量以执行外部量化循环编码程序，才能获得所要的迭代目标值，如此一来，很难满足在应用系统中效率上的需求。

发明内容

本发明的实施例所提供的具加速量化循环程序功能的音频编码方法，用以编码一输入帧，以输出一编码帧，此方法包含根据一输入帧产生多个子带采样，每一子带采样包含多个量化因子频带，执行心理声学模型(psychoacoustic model)分析以产生一屏蔽曲线，根据一输入帧的一采样率、一比特率与一声道数目、及该屏蔽曲线计算对应于该目前帧的子带采样的每一量化因子频带的一频域采样的一配置比特数目，分析出每一量化因子频带具有最大能量的一频域采样，将每一量化因子频带具有最大能量的该频域采样的比特数目，以量化步长(quantization step)量化成对应于该频域采样的该配置比特数目，并产生相对应的一第一量化因子，根据这些量化因子频带的相对应于这些最大能量的这些频域采样的这些第一量化因子，分析出对应于这些量化因子频带的一最大第一量化因子，根据该最大第一量化因子计算一总体增益，将这些第一量化因子分别减去该最大第一量化因子以产生多个第二量化因子，设定该总体增益及这些第二量化因子为执行一外部量化循环编码程序时，对应于每一量化因子频带所需的一总体增益初始值及一量化因子初始值，以及根据对应于每一量化因子频带的该总体增益初始值及该量化因子初始值执行该外部量化循环编码程序以产生该编码帧。

附图说明

图1显示一已知音频编码方法的流程图。

图2显示根据本发明一实施例的音频编码方法的流程图。

图3显示根据本发明一实施例的音频编码方法的流程图。

图4显示根据本发明一实施例的音频编码方法的流程图。

【主要元件符号说明】

S100-S180、步骤

S200-S255、

S300-S375、

S400-S485

具体实施方式

为让本发明的目的、特征和优点更显而易懂，下文依本发明的音频编码方法，特举实施例配合所附方法流程图作详细说明，但所提供的实施例并不用以限制本发明所涵盖的技术范围，而方法流程步骤编号更非用以限制其执行先后次序，任何由方法步骤重新组合的执行流程，所产生的具有加速量化循环程序功能的方法，均为本发明所涵盖的技术范围。

请参考图2，图2为根据本发明一实施例的音频编码方法的流程图。图2的音频编码方法包含下列步骤：

步骤S200：输入一脉冲编码调制帧；

步骤S210：将该输入帧由时域转换至频域，并产生相对应于该输入帧的频域采样，其中，该频域分为多个量化因子频带；

步骤S220：执行可用比特数目分析，用以计算一可用比特数目；

步骤S225：重置外部量化循环编码程序的迭代变量；

步骤S230：执行心理声学模型分析以产生一屏蔽曲线；

步骤S235：根据该频域采样估计量化因子的初始值及总体增益的初始值；

步骤S240：判断是否所有频域采样的能量均为零，若是，则执行步骤S250，否则，执行步骤S245；

步骤S245：根据对应于每一量化因子频带的总体增益初始值及量化因子初始值执行外部量化循环编码程序以输出一编码帧；

步骤S250：执行未使用比特数目分析，用以计算一未使用比特数目，提供后续信号处理可利用比特信息；以及

步骤S255：结束。

在上述音频编码方法之中，步骤S235所估计的量化因子初始值及总体增益初始值，是根据输入帧所对应的频域采样特性所产生，也就是说，执行外部量化循环编码程序所需的量化因子初始值及总体增益初始值是先经过初步计算，所以不会造成迭代初始值与目标值的极大差异，因此庞大计算量的需求状况即可避免。

此外，在步骤S210中，以MP3编码应用为例，更可包含执行脉冲编码调制输入帧的多相滤波处理以产生多个子带采样(subband samples)；与执行这些子带采样的修正离散余弦转换(modified discrete cosine transform，MDCT)，将子带采样进一步细分为多个长视窗子带采样或多个短视窗子带采样，以获得较好的频谱解析度。若以AAC编码应用为例，则可省去多相滤波处理的步骤。

在步骤S245中，执行外部量化循环编码程序包含进行一内部量化循环编码程序，内部量化循环编码程序根据总体增益执行一量化程序，内部量化循环编码程序包含计算量化程序编码一量化值所需的一比特数目，譬如分析基于霍夫曼编码方案(Huffman encoding scheme)而执行MP3编码量化值所需的比特数目，内部量化循环编码程序另包含当所计算的该比特数目大于一配置比特数目时，调整总体增益以继续执行内部量化循环编码程序。步骤S250可以包含利用未使用的多个比特执行对应于下一帧的每一量化因子频带的一频域采样的一配置比特数目的分析计算。

请参考图3，图3为根据本发明一实施例的音频编码方法的流程图。图3的音频编码方法包含下列步骤：

步骤S300：输入一脉冲编码调制帧；

步骤S310：将该输入帧由时域转换至频域，并产生相对应于该输入帧的频域采样，其中，该频域分为多个量化因子频带；

步骤S315：执行可用比特数目分析，用以计算一可用比特数目；

步骤S320：重置外部量化循环编码程序的迭代变量；

步骤S325：执行心理声学模型分析以产生一屏蔽曲线；

步骤S330：根据该输入帧的一采样率、一比特率与一声道数目、及该屏蔽曲线计算对应于该输入帧的每一量化因子频带的一频域采样的一配置比特数目；

步骤S335：分析出每一量化因子频带中，具有最大能量的一频域采样；

步骤S340：将每一量化因子频带中，具有最大能量的该频域采样的比特数目，以量化步长(quantization step)量化成对应于该频域采样的该配置比特数目，并产生相对应的一第一量化因子，举例而言，若该频域采样的比特数目为8，而相对应的该配置比特数目为4，则就要利用量化步长将8比特的该频域采样转换为4比特的该频域采样，并产生相对应的第一量化因子；

步骤S345：于这些最大能量的频域采样所对应的第一组量化因子中，分析出一最大第一量化因子；

步骤S350：根据该最大第一量化因子以计算/设定为一总体增益，并将这些第一量化因子分别减去该最大第一量化因子以产生多个第二量化因子；

步骤S355：设定该总体增益及这些第二量化因子为执行一外部量化循环编码程序时，对应于每一量化因子频带所需的一总体增益初始值及一量化因子初始值；

步骤S360：判断是否这些量化因子频带的所有频域采样的能量均为零，若是，则执行步骤S370，否则，执行步骤S365；

步骤S365：根据对应于每一量化因子频带的该总体增益初始值及该量化因子初始值执行外部量化循环编码程序以输出一编码帧；

步骤S370：执行未使用比特数目分析，用以计算一未使用比特数目，提供后续信号处理可利用比特信息；以及

步骤S375：结束。

在上述音频编码方法中，执行一帧的外部量化循环编码程序时，对应于每一量化因子频带所需的量化因子初始值及总体增益初始值系来自步骤S340、S345、S350、S355所估计的初始值，换句话说，所产生的量化因子初始值及总体增益初始值系与频域采样的能量相对应，所以不会造成迭代初始值与目标值的极大差异，而导致量化循环执行庞大的计算。

此外，在步骤S310中，将输入帧由时域转换至频域在AAC的编码应用中，可以包含修正离散余弦转换处理，若在MP3的编码应用，可以包含多相滤波处理及修正离散余弦转换处理。在步骤S350中，将这些第一量化因子分别减去该最大第一量化因子以产生多个第二量化因子，使所产生的这些第二量化因子为非正数的量化因子，是用以相容于MP3或AAC的音频编码处理，因MP3及AAC的音频编码处理均使用非正数的量化因子。

在步骤S365中，执行外部量化循环编码程序包含进行一内部量化循环编码程序，内部量化循环编码程序根据总体增益执行一量化程序，内部量化循环编码程序包含计算量化程序编码一量化值所需的一比特数目，内部量化循环编码程序另包含当所计算的该比特数目大于该配置比特数目时，调整总体增益以继续执行内部量化循环编码程序。

另外，在步骤S325中，执行心理声学模型分析以产生一屏蔽曲线包含根据屏蔽曲线设定对应于每一个频带的一临界能量失真值。而在步骤S365中，执行外部量化循环编码程序包含计算对应于每一量化因子频带的一能量失真值，当一子带采样的一量化因子频带的一频域采样的一能量失真值大于临界能量失真值时，调整该子带采样的这些量化因子频带相对应的这些量化因子以继续执行该外部量化循环编码程序。步骤S370可包含利用未使用的多个比特执行对应于下一帧的每一量化因子频带的一频域采样的一配置比特数目的分析计算。

请参考图4，图4为根据本发明另一实施例的音频编码方法的流程图。图4的音频编码方法包含下列步骤：

步骤S400：输入一脉冲编码调制帧；

步骤S410：将输入帧由时域转换至频域，并产生相对应于该输入帧的频域采样，其中，该频域被分为多个量化因子频带；

步骤S415：执行可用比特数目分析，用以计算一可用比特数目；

步骤S420：重置外部量化循环编码程序的迭代变量；

步骤S425：判断该输入帧是否在音频转态位置，若是，则执行步骤S435，否则，执行步骤S430；

步骤S430：根据一先前帧的计算结果设定目前该输入帧的总体增益初始值及量化因子初始值，执行步骤S470；

步骤S435：执行心理声学模型分析以产生一屏蔽曲线；

步骤S440：根据该输入帧的一采样率、一比特率与一声道数目、及该屏蔽曲线计算对应于该输入帧的子带采样的每一量化因子频带的一频域采样的一配置比特数目；

步骤S445：分析出每一量化因子频带具有最大能量的一频域采样；

步骤S450：将每一量化因子频带具有最大能量的该频域采样的比特数目，以量化步长量化成对应于该频域采样的该配置比特数目，并产生相对应的一第一量化因子；

步骤S455：根据这些量化因子频带的相对应于这些最大能量的这些频域采样的这些第一量化因子，分析出对应于这些量化因子频带的一最大第一量化因子；

步骤S460：根据该最大第一量化因子以计算一总体增益，并将这些第一量化因子分别减去该最大第一量化因子以产生多个第二量化因子；

步骤S465：设定该总体增益及这些第二量化因子为执行一外部量化循环编码程序时，对应于每一量化因子频带所需的一总体增益初始值及一量化因子初始值；

步骤S470：判断是否这些量化因子频带的所有频域采样的能量均为零，若是，则执行步骤S480，否则，执行步骤S475；

步骤S475：根据对应于每一量化因子频带的该总体增益初始值及该量化因子初始值执行外部量化循环编码程序以输出一编码帧；

步骤S480：执行未使用比特数目分析，用以计算一未使用比特数目，提供后续信号处理可利用比特信息；以及

步骤S485：结束。

在上述音频编码方法中，是通过判断一输入帧是否在音频转态位置，以决定如何设定执行外部量化循环编码程序的总体增益初始值及量化因子初始值。若该输入帧不在音频转态位置，则根据前一帧的计算结果以设定执行外部量化循环编码程序时，对应于每一量化因子频带所需的总体增益初始值及量化因子初始值，若该输入帧在音频转态位置，则执行对应于每一量化因子频带的总体增益初始值及量化因子初始值的估计处理。以一实施例来说，可根据目前输入帧所对应的屏蔽曲线与前一帧所对应的屏蔽曲线的差异，判断目前输入帧是否在音频转态位置，当两屏蔽曲线的差异大于一临界值时，则设定该输入帧在音频转态位置，因此，在音频转态位置的相邻帧的音频变化所导致的庞大计算量需求状况仍可被避免。

在步骤S460中，将这些第一量化因子分别减去该最大第一量化因子以产生多个第二量化因子，仍为了相容于MP3或AAC的音频编码处理。在步骤S475中，执行外部量化循环编码程序包含进行一内部量化循环编码程序，内部量化循环编码程序根据总体增益执行一量化程序，内部量化循环编码程序包含计算量化程序编码一量化值所需的一比特数目，内部量化循环编码程序另包含当所计算的该比特数目大于该配置比特数目时，调整总体增益以继续执行内部量化循环编码程序。

另外，在步骤S435中，执行心理声学模型分析以产生一屏蔽曲线包含根据屏蔽曲线设定对应于每一个量化因子频带的一临界能量失真值。而在步骤S475中，执行外部量化循环编码程序包含计算对应于每一量化因子频带的一能量失真值，当一子带采样的一量化因子频带的一频域采样的一能量失真值大于临界能量失真值时，调整该子带采样的这些量化因子频带相对应的这些量化因子以继续执行该外部量化循环编码程序。步骤S480可包含利用未使用的多个比特执行对应于下一帧的每一量化因子频带的一频域采样的一配置比特数目的分析计算。

综上所述，可知本发明的音频编码方法利用所输入的帧预先估计总体增益初始值及量化因子初始值，以提供外部量化循环编码程序较佳的迭代初始值而加速编码程序，因而避免庞大计算量的需求状况。

以上所述仅为本发明的优选实施例，凡依本发明申请权利要求所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种音频编码方法，用以编码一输入帧，以输出一编码帧，该方法包含：

转换该输入帧至一频域，以输出多个频域采样；

根据这些频域采样以产生一组量化因子的初始值及一总体增益的初始值；以及

依据该组量化因子的初始值与该总体增益的初始值执行一循环以产生该编码帧，

其中所述产生一组量化因子的初始值及一总体增益的初始值的步骤包括：

根据该输入帧的一采样率、一比特率与一声道数目、及一屏蔽曲线计算对应于该输入帧的每一量化因子频带的一频域采样的一配置比特数目；

分析出每一量化因子频带中，具有最大能量的一频域采样；

将每一量化因子频带中，具有最大能量的该频域采样的比特数目，以量化步长量化成对应于该频域采样的该配置比特数目，并产生相对应的一第一量化因子；

于这些最大能量的频域采样所对应的第一量化因子中，分析出一最大第一量化因子；

根据该最大第一量化因子设定一总体增益，并将这些第一量化因子分别减去该最大第一量化因子以产生多个第二量化因子；

设定该总体增益及这些第二量化因子为执行一外部量化循环编码程序时，对应于每一量化因子频带所需的一总体增益初始值及一量化因子初始值。

2.如权利要求1所述的编码方法，还包括：

将该输入帧执行心理声学模型分析以产生该屏蔽曲线。

3.如权利要求2所述的编码方法，还包括：

当该屏蔽曲线与前一输入帧所产生的前一屏蔽曲线的差值小于一临界值时，则前一输入帧所产生的前一组量化因子作为该组量化因子。

4.如权利要求1所述的编码方法，其中该组量化因子为小于或等于零的数值。

5.如权利要求1所述的编码方法，其中该循环编码程序包含：

执行一霍夫曼编码。

6.如权利要求1所述的编码方法，被应用于一MP3音频编码方法或AAC音频编码方法中。