CN101136200B

CN101136200B - 音频信号转换编码方法与系统

Info

Publication number: CN101136200B
Application number: CN2006101263226A
Authority: CN
Inventors: 朱复兴; 方策民
Original assignee: Industrial Technology Research Institute ITRI
Current assignee: Industrial Technology Research Institute ITRI
Priority date: 2006-08-30
Filing date: 2006-08-30
Publication date: 2011-04-20
Anticipated expiration: 2026-08-30
Also published as: CN101136200A

Abstract

本发明实施例提供一种快速音频信号转换编码系统，使用符合MPEG I/II音频信号格式的子带信号，同步送进两个处理单元进行处理，分别是：子带数据调整单元，用来调整输入子带信号的顺序以符合MP3编码器中分析端子带滤波器处理后的子带数据格式；以及参数估计单元，利用输入的子带信号，经计算估计出相关参数，包括音频信号粒元中音频剧变现象的发生与否、知觉熵的估测、以及最小容错率的计算。再将这两个处理单元的输出交由公知的MP3编码器中，改良式离散余弦转换单元及失真控制单元等后续处理单元，继续完成音频信号编码的流程。

Description

音频信号转换编码方法与系统

技术领域

本发明关联于一种音频信号转换编码技术，特别是一种MP3格式的快速音频信号转换编码系统及方法。

背景技术

目前，有越来越多的系统业者提供数字音频广播(Digital AudioBroadcasting，DAB)服务，其使用MP2格式来广播数字音频数据。随着MP3播放机的市场快速成长，越来越多的音频数据使用MP3来进行存储，使得于数字音频广播接收器中内建MP2转MP3格式的音频信号转换编码装置的需求也与日俱增。图1表示公知的MP2转MP3格式的音频信号转换编码系统100方块图，其包含一个MP2解码单元110以及一个MP3编码单元130。MP2编码单元110负责将输入的MP2压缩格式音频数据解码为原始音频数据(例如Pulse Code Modulation，pcm数据)。接着，MP3编码单元130将输入的原始音频数据重新编码成为MP3压缩格式的音频数据。

图2表示公知的MP2解码单元110的系统方块图，包含一个多路分用及错误检测单元(demultiplexing and error-check unit)210、一个子带样本反量化单元(subband sample dequantization unit)230、一个旁信息解码单元(side information decoding unit)250以及一个合成端子带滤波器(synthesis subband filterbank)290。多路分用及错误检测单元210接收MP2位流(bitstream)后，先进行循环性冗余检查(Cyclic Redundancy Check，CRC)及修复，用以修复MP2位流中的错误位。接着，将通过检查或修复后的MP2位流分成编码后的旁信息(encoded side information)以及量化后的子带数据(quantized subband data)，并分别传送至旁信息解码单元250以及子带样本反量化单元230。旁信息解码单元从取得的旁信息中提取出所需的参数，并传送至子带样本反量化单元230。子带样本反量化单元230参考从旁信息解码单元250所传来的参数以及量化尺规因子(quantization scalefactors)，将量化后的子带数据进行反量化，用以得到反量化的子带数据(dequantized subband data)。合成端子带滤波器(synthesis subbandfilterbank)290接收反量化的子带数据并进行反滤波(inverse filterbank)作业，用以合成(synthesis)可进行播放的脉冲编码调制(pulse codemodulation，pcm)数据。

图3表示公知的MP3编码单元130的系统方块图，包含一个分析端子带滤波器(analysis subband filterbank)310、一个生理听觉模型(psychoacoustic model)320、一个改良式离散余弦转换单元(modifieddiscrete cosine transform，MDCT unit)330、一个失真控制单元(distortioncontrol unit)340、一个外部控制(external control)350、一个赫夫曼编码单元(Huffman encoding unit)360、一个旁信息编码单元(side informationencoding unit)370以及一个MP3位流编码单元380。

分析端子带滤波器310用以依序将M个原始的脉冲编码调制样本数据(sample data)拆解成M个频宽相同的子带信号。图4表示范例的子带取样点示意图，传统上，经过分析端子带滤波器310(图3)的运算后，依时间的先后会产生36组子带数据(subband data)的输出，此外，将这36组子带数据分成两个粒元(granule)，每一个粒元包含18组子带数据。

生理听觉模型320则是分析输入的原始脉冲编码调制信号，判断出各频率信号的强弱及相关遮蔽效应产生的遮蔽阈值，并计算知觉熵(perceptualentropy，PE)、最小容错率等相关参数，以供改良式离散余弦转换单元330及失真控制单元340来使用。

改良式离散余弦转换单元330针对不同音频信号信号的特性，在两种改良式离散余弦转换模式间进行切换，分别为长窗框(long window)的改良式离散余弦转换以及短窗框(short window)的改良式离散余弦转换。长窗框的改良式离散余弦转换为一次使用较多的数据来进行离散余弦转换，而短窗框的改良式离散余弦转换则使用较少的数据来进行离散余弦转换。长窗框的改良式离散余弦转换因可参考的范围较大，于计算时较能兼顾各种特性，但当信号发生音频剧变时，整个范围的信号计算都会受到前回音的干扰。反之，短窗框的改良式离散余弦转换虽然只能参考较小范围的数据特性，但前回音的影响则可以受到控制。举例来说，图5a表示原始信号。图5b表示以长窗框转换压缩再还原后的信号，其中，整个长窗框都受到前回音的干扰，而图5c表示分别以3个短窗框(w1至w3)进行转换压缩再还原后的信号，其中，只有第2个短窗框(w2)受到前回音的干扰。

传统上，每一个粒元采用长窗框或短窗框进行改良式离散余弦转换系依据生理听觉模型320所计算出的知觉熵配合使用一个状态机(state machine)来决定。图6表示范例的状态机，包含四个状态，分别为普通S1、起始S2、短窗框S3与停止S4状态。状态转换(transit)的条件为考虑是否发生音频剧变(attack)的现象，根据MP3标准中的定义，当PE值大于1800时则代表发生音频剧变的现象，反之则代表没有发生音频剧变(no attack)的现象。当音频信号粒元处于普通状态S1时，使用长窗框来进行改良式离散余弦转换；当状态转换到起始状态S2时，使用的是前半采用长窗框，后半采用短窗框的混合式窗框来进行离散余弦转换；当状态转换到短窗框状态S3时，则使用短窗框来进行离散余弦转换；当状态转换到停止状态S4时，使用的是前半采用短窗框，后半采用长窗框的混合式窗框来进行离散余弦转换。

失真控制单元340使用一种巢状式的回圈来完成位与失真控制，而所谓的巢状式回圈，是由内部与外部两个回圈所构成，内部回圈的主要职责就是调节每个粒元所使用的位数，使其符合编码时的位率(bitrate)设定；外部回圈则是依照内部回圈所使用的位分配方法，计算出各个子带的量化失真大小，配合生理听觉模型320所传递出的最小容错率(minimum error ratio)，对失真过大的频带作局部的修正，再执行一次内部回圈，直到位率与量化失真都获得控制或改善。因此这两个回圈依照功能，又被称为位率控制(ratecontrol)与失真控制(distortion control)回圈。

然而，传统的MP2转MP3格式的音频信号转换编码系统100，因需使用分析端子带滤波器310，以及利用生理听觉模型320来计算出PE值，决定是否发生音频剧变(attack)的现象，以及计算最小容错率等相关参数，造成必须耗费大量的运算资源与时间来进行音频信号转换编码。运算量的耗费可参考由0h等人于2001年8月发表于IEEE Transactions on ConsumerElectronics的Volume 47，No.3的”Low power MPEG/audio encoders usingsimplified psychoacoustic model and fast bit allocation”一文中的数据。因此，为了节省运算资源，需要一种可在省略分析端子带滤波器310与生理听觉模型320运算后，还能够判断是否发生音频剧变(attack)的现象，以及得到PE及最小容错率等相关参数的音频信号转换编码方法。

发明内容

本发明的目的在提供一音频信号转换编码系统及方法，通过省略分析端子带滤波器与生理听觉模型运算，来降低运算资源的耗费情形。

本发明实施例提供一种音频信号转换编码系统，使用公知的MP2解码器解码出来的子带信号，同步送进两个处理单元进行处理，分别是：子带数据调整单元，用来调整输入子带信号的顺序以符合MP3编码器中分析端子带滤波器处理后的子带数据格式；以及参数估计单元，利用输入的子带信号，经计算估计出生理听觉模型的相关参数，包括音频信号粒元中音频剧变现象的发生与否、知觉熵的估测、以及最小容错率的计算。再将这两个处理单元的输出交由公知的MP3编码器中，改良式离散余弦转换单元及失真控制单元等后续处理单元，继续完成音频信号编码的流程。

附图说明

为让本发明的所述和其他目的、特征、和优点能更明显易懂，下文特举出较佳实施例，并配合附图，详细说明如下：

图1表示公知的MP2转MP3格式的音频信号转换编码系统方块图；

图2表示公知的MP2解码单元的系统方块图；

图3表示公知的MP3编码单元的系统方块图；

图4表示范例的子带取样点式意图；

图5a表示待压缩的窗框范围信号；

图5b表示以长窗框转换压缩再还原后的信号；

图5c表示分别以3个短窗框进行转换压缩再还原后的信号；

图6表示范例的状态机；

图7表示依据本发明实施例的MP2转MP3格式的快速音频信号转换编码系统系统的方块图；

图8表示范例的一个音频信号粒元的反量化的子带数据示意图；

图9a至9e表示依据本发明实施例的音频剧变现象决定方法；

图10表示依据本发明实施例的子带数据切分示意图；

图11表示依据本发明实施例的子带数据切分示意图；

图12表示依据本发明实施例的相应于一个音频信号粒元的PE值决定方法；

图13表示依据本发明实施例的PE值决定示意图。

主要元件符号说明

100-MP2转MP3格式的音频信号转换编码系统；

110-MP2解码单元；

130-MP3编码单元；

210-多路分用及错误检测单元；

230-子带样本反量化单元；

250-旁信息解码单元；

290-合成端子带滤波器；

310-分析端子带滤波器；

320-生理听觉模型；

330-改良式离散余弦转换单元；

340-失真控制单元；

350-外部控制；

360-赫夫曼编码单元；

370-旁信息编码单元；

380-MP3位流编码单元；

S1-普通状态；

S2-起始状态；

S3-短窗框状态；

S4-停止状态；

7000-快速音频信号转换编码系统；

7110-系统多路分用及错误检测单元；

7120-子带样本反量化单元；

7130-旁信息解码单元；

7310-子带数据调整单元；

7320-参数估计单元；

7330-改良式离散余弦转换单元；

7340-失真控制单元；

7350-外部控制；

7360-赫夫曼编码单元；

7370-旁信息编码单元；

7380-MP3位流编码单元；

P91-一般数据准备阶段；

P92-人声数据准备阶段；

P93-预测取消判断阶段；

P94-一般数据判断阶段；

P95-人声数据判断阶段；

S9110、S9130、…、S9930、S9950-方法步骤；

FreqSeg[0]至FreqSeg[3]-频段；

TimeSeg[0]至TimeSeg[2]-时段；

LowFreqSeg-低频频段；

MidFreqSeg-中频频段；

S13110、S13130、…、S13530、S13550-方法步骤。

具体实施方式

图7表示依据本发明实施例的MP2转MP3格式的快速音频信号转换编码系统系统7000的方块图，包含一个多路分用及错误检测单元(demultiplexing and error-check unit)7110、一个子带样本反量化单元(subband sample dequantization unit)7120、一个旁信息解码单元(sideinformation decoding unit)7130、一个子带数据调整单元(subband dataadjustment unit)7310、一个参数估计单元(parameter estimationunit)7320、一个改良式离散余弦转换单元(modified discrete cosinetransform，MDCT unit)7330、一个失真控制单元(distortion controlunit)7340、一个外部控制(external control)7350、一个赫夫曼编码单元(Huffman encoding unit)7360、一个旁信息编码单元(side informationencoding unit)7370以及一个MP3位流编码单元7380。多路分用及错误检测单元7110接收MP2位流(bitstream)后，先进行循环性冗余检查(cyclicredundancy check，CRC)及修复，用以修复MP2位流中的错误位。接着，将通过检查或修复后的MP2位流分成编码后的旁信息(encoded sideinformation)以及量化后的子带数据(quantized subband data)，并分别传送至旁信息解码单元7130以及子带样本反量化单元7120。旁信息解码单元7130从取得的旁信息中提取出所需的参数，并传送至子带样本反量化单元7120。子带样本反量化单元7120参考从旁信息解码单元7130所传来的参数以及量化尺规因子(quantization scale factors)，将量化后的子带数据进行反量化，用以得到反量化的子带数据(dequantized subband data)。图8表示一个音频信号粒元(granule)的反量化子带数据(subband data)示意图，包含32个子带(subband)，由”0”编号到”31”，每一个子带中各包含18个子带取样点(subband samples)。该粒元可代表左声道或右声道的子带数据。

子带数据调整单元7310接收反量化的子带数据，将其由MP2格式的排列方式改为MP3格式的排列方式，并根据原来进行子带分析时所造成的缓冲的延迟效应而填补”0”进去。接着，将调整后的结果传送到改良式离散余弦转换单元7330，用以进行后续的MP3编码作业。参数估计单元7320用以取代公知的生理听觉模型320(如图3所示)，为本发明的重点所在，其精神在于使用反量化的子带数据来判断音频信号粒元是否发生音频剧变(attack)的现象，再由是否发生音频剧变现象来估计知觉乱度(perceptual entropy，PE)值，以及在预先设定好的两组最小容错率(minimum error ratio)中作选择。

图9a至9e表示依据本发明实施例的音频剧变现象决定方法，概分为五个阶段：一般数据准备阶段P91、人声数据准备阶段P92、预测取消判断阶段P93、一般数据判断阶段P94与人声数据判断阶段P95。一般数据准备阶段P91包含步骤S9110至S9270的处理；人声数据准备阶段P92包含步骤S9310至S9410的处理；预测取消判断阶段P93包含步骤S9510至S9550的处理；一般数据判断阶段P94包含步骤S9610至S9770的处理；人声数据判断阶段P95包含步骤S9810至S9930的处理。

一般数据准备阶段P91用以产生可供预测取消判断阶段P93决定是否取消先前预测的音频剧变旗标，以及可供一般数据判断阶段P94与人声数据判断阶段P95决定目前与下一个粒元的音频剧变旗标状态的信息。范例的方法步骤如图9a 所示，于步骤S9110，输入音频信号粒元的子带数据，范例如图8所示。输入的子带数据会依据频率轴与时间轴进行数据切分。图10表示依据本发明实施例的子带数据切分示意图。每一个子带数据可以用SubbandData[TimeIndex][FreqIndex]来表示，其中TimeIndex代表取样时间点的索引值(index)，FreqIndex代表子带的索引值。所有子带数据可依据频率轴将32个子带切分为4个频段(frequency segments)，如FreqSeg[0]至FreqSeg[3]，每一个频段中包含连续的8个子带中的所有子带数据。另外，所有子带数据可依据时间轴将18个取样时间单位切分为3个时段(timesegments)，如TimeSeg[0]至TimeSeg[2]，每一个时段中包含连续的6个取样时间单位中的所有子带数据。于此须注意的是，频段与时段的数目可依据不同的情况进行适应性的调整，另外，每一个频段所包含的特定子带范围与每一个时段所包含的特定时间范围亦可依据不同的情况进行适应性的调整。于步骤S9130，取得相应于输入音频信号粒元的预测音频剧变旗标(attackflag)，可为”true(真)”或”false(假)”。当预测音频剧变旗标为”true”时，代表相应于输入音频信号粒元的预测状态为发生音频剧变现象；反之，代表相应于输入音频信号粒元的预测状态为没有发生音频剧变现象。

于步骤S9210，计算每一个时段的参考能量，该参考能量代表特定时段中的所有子带数据的加总，其计算公式如下所示：

{TimeSum}_{j} [i] = Σ_{FreqIndex = 0}^{31} Σ_{TimeIndex = TimeStarti}^{TimeEndi} SubbandData [TimeIndex] [FreqIndex],

其中，TimeSum_j[i]代表第j个粒元中的第i个时段的参考能量，FreqIndex代表频段的索引值，TimeIndex代表取样时间点的索引值，TimeStart_i代表第i个时段的开始取样时间点的索引值，TimeEnd_i代表第i个时段的结束取样时间点的索引值。

于步骤S9230，计算每一个频段的参考能量，该参考能量代表特定频段中的所有子带数据的加总，其计算公式可如下所示：

{FreqSum}_{j} [i] = Σ_{TimeIndex = 0}^{17} Σ_{FreqIndex = FreqStarti}^{FreqEndi} SubbandData [TimeIndex] [FreqIndex],

其中，FreqSum_j[i]代表第j个粒元中的第i个频段的参考能量，FreqIndex代表频段的索引值，TimeIndex代表取样时间点的索引值，FreqStart_i代表第i个频段的开始子带的索引值，FreqEndi代表第i个时段的结束子带的索引值。

于步骤S9250，计算输入音频信号粒元的每一个时段相较于前一个粒元的相应时段的参考能量比值。其计算公式可如下所示：

{TimeRatio}_{j} [i] = \frac{{TimeSum}_{j} [i]}{{TimeSum}_{j - 1} [i]}

其中，TimeRatio_j[i]代表第j个音频信号粒元和第j-1个音频信号粒元在第i个时段的参考能量比值，TimeSum_j[i]代表第j个粒元中第i个时段的参考能量，TimeSum_j-1[i]代表第j-1个粒元中第i个时段的参考能量。

于步骤S9270，计算输入音频信号粒元的每一个频段相较于前一个粒元的相应频段的参考能量比值。其计算公式可如下所示：

{FreqRatio}_{j} [i] = \frac{{FreqSum}_{j} [i]}{{FreqSum}_{j - 1} [i]}

其中，FreqRatio_j[i]代表第j个音频信号粒元和第j-1个音频信号粒元在第i个频段的参考能量比值，FreqSum_j[i]代表第j个粒元中第i个频段的参考能量，FreqSum_j-1[i]代表第j-1个粒元中第i个频段的参考能量。

人声数据准备阶段P92用以产生可供判断目前音频信号粒元中是否包含人声信号所需的信息。由于人声信号通常位于声音的中低频，因此，于该阶段中，输入的子带数据会依据频率轴将一部分的子带称为低频频段(lowfrequency segment)，一部分的子带称为中频频段(middle frequencysegment)，而全部的子带就称为全频段。图11表示依据本发明实施例的子带数据切分示意图。每一个子带数据可以用SubbandData[TimeIndex][FreqIndex]来表示，其中TimeIndex代表取样时间点的索引值(index)，FreqIndex代表子带的索引值。在本实施例中，子带0至子带4称为低频频段LowFreqSeg，子带2至子带7称为中频频段MidFreqSeg。于此须注意的是，低频频段与中频频段的切分细节可依据不同的情况进行适应性的调整。

范例的方法步骤如图9b所示，于步骤S9310，计算低频频段的参考能量。该参考能量代表低频频段中的所有子带数据的加总，其计算公式可如下所示：

{LowFreqBandSum}_{j} = Σ_{TimeIndex = 0}^{17} Σ_{FreqIndex = 0}^{LowFreqEnd} SubbandData [TimeIndex] [FreqIndex],

其中，LowFreqBandSum_j代表第j个粒元中低频频段的参考能量，FreqIndex代表频段的索引值，TimeIndex代表取样时间点的索引值，LowFreqEnd代表低频频段的结束索引值，于本实施例中该值为4。

于步骤S9330，计算中频频段的参考能量。该参考能量代表中频频段中的所有子带数据的加总，其计算公式可如下所示：

{MidFreqBandSum}_{j} = Σ_{TimeIndex = 0}^{17} Σ_{FreqIndex = MidFreqStart}^{MidFreqEnd} SubbandData [TimeIndex] [FreqIndex],

其中，MidFreqBandSum_j代表第j个粒元中的中频频段参考能量，FreqIndex代表频段的索引值，TimeIndex代表取样时间点的索引值，MidFreqStart代表中频频段的起始索引值，于本实施例中该值为2，MidFreqEnd代表中频频段的结束索引值，于本实施例中该值为7。

于步骤S9370，计算全频段的参考能量。该参考能量代表目前音频信号粒元中的所有子带数据的加总，其计算公式可如下所示：

{TotalSubbandSum}_{j} = Σ_{TimeIndex = 0}^{17} Σ_{FreqIndex = 0}^{31} SubbandData [TimeIndex] [FreqIndex],

其中，TotalSubbandSum_j代表第j个粒元的总参考能量，FreqIndex代表频段的索引值，TimeIndex代表取样时间点的索引值。

于步骤S9370，计算低频频段的参考能量占全频段的总参考能量的比重。其计算公式可如下所示：

{LowFreqBandRatio}_{j} = \frac{{LowFreqBandSum}_{j}}{{TotalSubbandSum}_{j}},

其中，LowFreqBandRatio_j代表低频频段的参考能量占全频段总参考能量的比重，LowFreqBandSum_j代表第j个粒元中低频频段的参考能量，TotalSubBandSum_j代表第j个粒元中的总参考能量。

于步骤S9390，计算中频频段的参考能量占全频段的总参考能量的比重。其计算公式可如下所示：

{MidFreqBandRatio}_{j} = \frac{{MidFreqBandSum}_{j}}{{TotalSubbandSum}_{j}},

其中，MidFreqBandRatio_j代表中频频段的参考能量占全频段总参考能量的比重，MidFreqBandSum_j代表第j个粒元中的中频频段参考能量，TotalSubBandSum_j代表第j个粒元中的总参考能量。

于步骤S9410，依据步骤S9370与S9390的计算结果，决定该音频信号粒元的子带数据是否为人声数据。当低频频段的参考能量占全频段的总参考能量的比重在一个预设的范围中，如65％-90％，并且，中频频段的参考能量占全频段的总参考能量的比重在另一个预设的范围中，如10％-30％，则代表该音频信号粒元的子带数据为人声数据。判断结果可使用一个人声条件旗标(voice condition flag)来代表并存储，当人声条件旗标设为”true”时，代表该粒元的子带数据为人声数据，反之，当人声条件旗标设为”false”时，代表该粒元的子带数据不是人声数据。

预测取消判断阶段P93用以判断输入音频信号粒元的子带数据是否满足取消预测的条件。当输入音频信号粒元相较前一个音频信号粒元于第一时段的参考能量比值小于取消阈值时，代表输入音频信号粒元的子带数据满足取消预测的条件。范例的方法步骤如图9c图所示，于步骤S9510，判断第一时段的参考能量比值TimeRatio_j[0]是否小于一个一般取消阈值(cancelthreshold)，于该实施例中该值为”0.95”。若是，则进行步骤S9550的处理，将相应于输入音频信号粒元的音频剧变旗标设为”false”；若否，则接着进行步骤S9530的判断。于步骤S9530，判断是否输入的音频信号粒元子带数据为人声数据且第一时段的参考能量比值TimeRatio_j[0]小于一个人声取消阈值(voice cancel threshold)，于该实施例该值为”2”。若是，则进行步骤S9550的处理，将相应于输入音频信号粒元的音频剧变旗标设为”false”；若否，则进入一般数据判断阶段P94的处理。于此须注意的是，人声取消阈值大于一般取消阈值。

一般数据判断阶段P94用以判断输入音频信号粒元的子带数据是否满足相关条件，设定输入粒元的音频剧变旗标或预测设定下一个粒元的音频剧变旗标。于一般数据判断阶段P94中，针对每一个输入的音频信号粒元，需经历如步骤S9610、S9650、S9710与S9750的条件判断。于步骤S9610，判断是否所有时段的参考能量比值TimeRatio皆大于一个时段比值阈值(timeratio threshold)，于该实施例中该值为10。若是，则进行步骤S9630的处理，用以将输入音频信号粒元的音频剧变旗标设定为”true”；若否，则接着进行步骤S9650的判断。例如，步骤S9610的判断可使用如下的判断式：

TimeRatio_j[0]＜10&&TimeRatio_j[1]＜10&&TimeRatio_j[2]＜10，

其中，TimeRatio_j[0]可代表如步骤S9250计算出的第一时段的参考能量比值，TimeRatio_j[1]可代表如步骤S9250计算出的第二时段的参考能量比值，TimeRatio_j[2]可代表如步骤S9250计算出的第三时段的参考能量比值。

于步骤S9650，判断是否所有频段的参考能量比值FreqRatio皆大于一个频段比值阈值(frequency ratio threshold)，于该实施例中该值为2。若是，则进行步骤S9670的处理，用以将下一个粒元的音频剧变旗标设定为”true”；若否，则接着进行步骤S9710的判断。例如，步骤S9650的判断可使用如下的判断式：

FreqRatio_j[0]＜2&&FreqRatio_j[1]＜2&&FreqRatio_j[2]＜2&FreqRatio_j[3]＜2，

其中，FreqRatio_j[0]可代表如步骤S9270计算出的第一频段的参考能量比值，FreqRatio_j[1]可代表如步骤S9270计算出的第二频段的参考能量比值，FreqRatio_j[2]可代表如步骤S9270计算出的第三频段的参考能量比值，FreqRatio_j[3]可代表如步骤S9270计算出的第四频段的参考能量比值。

于步骤S9710，判断是否所有时段的参考能量总合小于一微小阈值，于本实施例中该值为0.000003，并且判断前一个粒元是否处于相应于图6所示的短窗框状态S3。若是，则进行步骤S9730的处理，用以将输入音频信号粒元的音频剧变旗标设定为”true”；若否，则接着进行步骤S9750的判断。例如，步骤S9710的所有时段的参考能量总合的判断可使用如下的判断式：

Σ_{Index = 0}^{2} {TimeSum}_{j} [Index] < 0.000003,

其中，TimeSum_j[Index]可代表如步骤S9210计算出的第Index个时段的参考能量。

于步骤S9750，判断是否存在任何一个时段的参考能量比值TimeRatio大于一巨量阈值，于本实施例中该值为30，并且对应的参考能量大于一个最小能量阈值，于本实施例中该值为0.1。若是，则进行步骤S9770的处理，用以将输入音频信号粒元的音频剧变旗标设定为”true”；若否，则进入人声数据判断阶段P95的处理。例如，步骤S9750的判断可使用如下的判断式：

(TimeRatio_j[0]＞30&&TimeSum_j[0]＞0.1)

OR(TimeRatio_j[1]＞30&&TimeSum_j[1]＞0.1)

OR(TimeRatio_j[2]＞30&&TimeSum_j[2]＞0.1)，

其中，TimeRatio_j[0]可代表如步骤S9250计算出的第一时段的参考能量比值，TimeRatio_j[1]可代表如步骤S9250计算出的第二时段的参考能量比值，TimeRatio_j[2]可代表如步骤S9250计算出的第三时段的参考能量比值，TimeSum_j[0]可代表如步骤S9210计算出的第一个时段的参考能量，TimeSum_j[1]可代表如步骤S9210计算出的第二个时段的参考能量，TimeSum_j[2]可代表如步骤S9210计算出的第三个时段的参考能量。

人声数据判断阶段P95用以当输入音频信号粒元的子带数据为人声数据时，判断输入音频信号粒元的子带数据是否满足相关条件，设定输入粒元的音频剧变旗标或预测设定下一个粒元的音频剧变旗标。于步骤S9810，判断输入的音频信号粒元子带数据是否为人声数据。若是，则进行步骤S9830的判断；若否，则进行步骤S9950的判断。步骤S9810可使用步骤S9410所产生的结果来进行判断。于步骤S9830，判断是否所有高频频段的参考能量比值皆大于一个高频阈值，于本实施例中该值为4。若是，则进行步骤S9850的判断；若否，则进行步骤S9950的判断。其中，高频频段可包含如图10所示的频段FreqSeg[1]至FreqSeg[2]，或频段FreqSeg[1]至FreqSeg[3]。例如，步骤S9830的判断可使用如下的两个判断式中的一者：

FreqRatio_j[1]＞4&&FreqRatio_j[2]＞4：

FreqRatio_j[1]＞4&&FreqRatio_j[2]＞4&&FreqRatio_j[3]＞4，

其中，FreqRatio_j[1]可代表如步骤S9270计算出的第二频段的参考能量比值，FreqRatio_j[2]可代表如步骤S9270计算出的第三频段的参考能量比值，FreqRatiio_j[3]可代表如步骤S9270计算出的第四频段的参考能量比值。

于步骤S9850，判断是否第一时段的参考能量比值大于第一时段阈值，于本实施例中该值为4。若是，则进行步骤S9870的处理，将输入粒元的音频剧变旗标设为”true”；若否，则进行步骤S9910的判断。例如，步骤S9850的判断可使用如下的判断式：

TimeRatio_j[0]＞4，

其中，TimeRatio_j[0]可代表如步骤S9250计算出的第一时段的参考能量比值。

于步骤S9910，判断是否最后一个时段的参考能量比值大于最终时段阈值，于本实施例中该值为2。若是，则进行步骤S9930的处理，将下一个音频信号粒元的音频剧变旗标设为”true”；若否，则进行步骤S9950的判断。例如，步骤S9910的判断可使用如下的判断式：

TimeRatio_j[2]＞2，

其中，TimeRatio_j[2]可代表如步骤S9250计算出的最后一个时段的参考能量比值。

于步骤S9950，判断在该音频帧(audio frame)中是否存在尚未处理的音频信号粒元(在每个音频帧中，共有左右声道各2个音频信号粒元)。若是，则进行步骤S9110，用以继续处理下一个粒元的子带数据；若否，则结束该音频帧对于音频剧变现象决定的处理。

除了决定每一个音频信号粒元是否发生音频剧变现象外，参数估计单元7320还依据是否发生音频剧变现象并配合使用线性内插法(linearinterpolation)来估计PE值。接着，参数估计单元7320将估计出的PE值传给后续处理单元使用，计算输入音频信号粒元的保留位量。图12表示依据本发明实施例，一个音频信号粒元的PE值决定方法。于步骤S13110，取得输入粒元的音频剧变旗标。于步骤S13130，判断取得的音频剧变旗标是否为”true”。若是，则进行步骤S13310的处理，用以将输入音频信号粒元的PE值设为MP3标准中的音频剧变阈值1800”；若否，则进行步骤S13510的处理。于步骤S13510，取得输入音频信号粒元的参考能量比值，该粒元的参考能量比值代表该粒元的总参考能量相较于前一个粒元的总参考能量的比值。步骤S13510可使用如下所示的公式来取得相应于该粒元的参考能量比值：

{TimeSum}_{j} = Σ_{FreqIndex = 0}^{31} Σ_{TimeIndex = 0 i}^{17} {SubbandData}_{j} [TimeIndex] [FreqIndex];

{TimeSum}_{j - 1} = Σ_{FreqIndex = 0}^{31} Σ_{TimeIndex = 0 i}^{17} {SubbandData}_{j - 1} [TimeIndex] [FreqIndex];

{TimeRatio}_{j} = \frac{{TimeSum}_{j}}{{TimeSum}_{j - 1}} .

其中，TimeRatio_j代表第j个粒元相较于前一个粒元的参考能量比值，TimeSum_j代表第j个粒元的总参考能量，TimeSum_j-1代表前一个粒元的总参考能量。于步骤S13530，使用线性内插法计算出相应于取得的参考能量比值的PE值。图13表示依据本发明实施例的PE值决定示意图。步骤S13530假设理论上最小参考能量比值”0”所对应到的PE值为400，而未发生音频剧变的音频信号粒元，理论上最大参考能量比值(于本实施例中该值为”60”)所对应到的PE值为1600，接着使用线性内插法，根据取得的参考能量比值距离理论上最小参考能量比值与理论上最大参考能量比值间的比例，于400至1600之间决定出相应于取得的参考能量比值的PE值。于步骤S13550，则将相应于该音频信号粒元的PE值设定为计算出的PE值。

另外，参数估计单元7320针对不同的尺规因子频带(scale-factorband)，仍需估计出对应的最小容错率，以供失真控制单元7340在控制位率及失真时使用。在本发明所提出的方法中，参数估计单元7320提供两组最小容错率常数，供失真控制单元7340做后续的处理，分别是长窗框时对应21个尺规因子频带(scale-factor band)所使用的21个最小容错率{0.279519、0.295667、0.022436、0.009000、0.009000、0.009000、0.009000、0.009000、0.009000、0.009000、0.009000、0.009000、0.009000、0.009000、0.009000、0.010565、0.020387、0.040082、0.090394、0.791279、5.925560}；以及短窗框时对应3组各12个尺规因子频带所使用的36个相同最小容错率0.0000001。

失真控制单元7340使用一种巢状式的回圈来完成位与失真控制，而所谓的巢状式回圈，是由内部与外部两个回圈所构成，内部回圈的主要职责就是调节每个音频信号粒元所使用的位数，使其符合编码时的位率(bit rate)设定；外部回圈则是依照内部回圈所使用的位分配方法，计算出各个子带的量化失真大小，配合参数估计单元7320所传递出的最小容错率(minimum errorratio)，对失真过大的频带作局部的修正，再执行一次内部回圈，直到位率与量化失真都获得控制或改善。因此这两个回圈依照功能，又被称为位率控制(rate control)回圈与失真控制(distortion control)回圈。

通过由参数估计单元7320决定信号中是否发生音频剧变的现象，并且由是否发生音频剧变现象及音频信号粒元的参考能量比值来估计知觉熵，以及设定最小容错率后，快速音频信号转换编码系统系统7000接着使用本领域技术人员所公知的失真控制单元7340、赫夫曼编码单元7360、旁信息编码单元7370以及MP3位流编码单元7380，把经过赫夫曼编码过的数据以及旁信息，以MP3的位流(bitstream)格式分包。

本发明虽以优选实施例公开如上，然其并非用以限定本发明，任何本领域技术人员，在不脱离本发明的精神和范围的情况下，可进行更动与修改，因此本发明的保护范围以所提出的权利要求所限定的范围为准。

Claims

1.一种音频信号转换编码方法，包括：

使用一第一音频信号的子带数据；

调整所述第一音频信号的子带数据的顺序以产生符合MP3编码器中分析端子带滤波器处理后的子带数据格式的一第二音频信号的子带数据；

使用所述接收的第一音频信号的子带数据估计出复数参数，所述参数包括一音频信号粒元中是否发生音频剧变现象、一知觉熵以及一最小容错率；

使用所述第一音频信号的子带数据来决定其中的一粒元中的信号是否发生音频剧变现象；

依据所述粒元是否发生所述音频剧变现象的决定，以及代表所述粒元的参考能量相较于前一粒元的参考能量的比值，决定一知觉熵；以及

设定两组相应于多个尺规因子频带的多个最小容错率，供音频剧变现象发生与否时使用，以代表所述粒元的多个最小容错率；以及

输出所述第二音频信号的子带数据与所述估计的参数，用以让一MP3编码器的后续处理单元继续完成音频信号编码的流程。

2.如权利要求1所述的音频信号转换编码方法，于估计参数步骤中，还包括：

根据所述粒元是否发生所述音频剧变现象，使用状态机决定目前的状态，并依照对应的状态使用不同窗框来执行所述粒元的离散余弦转换；

依据所述知觉熵来计算所述粒元的位保留；以及

依据所述设定的一组相应于所述尺规因子频带的最小容错率，来进行所述粒元的位与噪音控制。

3.如权利要求1所述的音频信号转换编码方法，所述第一音频信号的子带数据依据时间轴将所有取样时间单位切为多个时段，决定所述粒元中的信号是否发生所述音频剧变现象的步骤还包括：

依据所述粒元的前一粒元所预设的音频剧变旗标来设定所述粒元的音频剧变旗标，所述音频剧变旗标指出所述粒元发生所述音频剧变现象；

判断所述时段中第一时段的参考能量是否小于一取消阈值；以及

当所述参考能量小于所述取消阈值时，清除所述音频剧变旗标，用以指出所述粒元没有发生所述音频剧变现象。

4.如权利要求3所述的音频信号转换编码方法，还包括：

当所述参考能量不小于所述取消阈值且所述第一音频信号的子带数据经判断为人声数据时，判断所述参考能量是否小于一人声取消阈值；以及

当所述参考能量小于所述人声取消阈值时，清除所述音频剧变旗标，用以指出所述粒元没有发生所述音频剧变现象，

其中，所述人声取消阈值大于所述取消阈值。

5.如权利要求1所述的音频信号转换编码方法，所述第一音频信号的子带数据中的所述粒元依据时间轴将所有取样时间单位切为多个时段，所述第一音频信号的子带数据中的一前一个粒元依据时间轴将所有取样时间单元切为多个时段，于决定所述粒元中的信号是否发生所述音频剧变现象的步骤还包括：

判断所述粒元的每一个时段中的子带数据的参考能量相较于所述前一个粒元相应的时段中的子带数据的参考能量的比值是否皆大于一时段比值阈值；以及

若是，设定相应于所述粒元的一音频剧变旗标，用以指出所述粒元发生所述音频剧变现象。

6.如权利要求1所述的音频信号转换编码方法，所述第一音频信号的子带数据中的所述粒元依据频率轴将所有子带切为多个频段，所述第一音频信号的子带数据中的一前一个粒元依据频率轴将所有子带切为多个频段，于决定所述粒元中的信号是否发生所述音频剧变现象的步骤还包括：

判断所述粒元的每一个所述频段中的子带数据的参考能量相较于所述前一个粒元的相应频段中的子带数据的参考能量的比值是否皆大于一频段比值阈值；以及

若是，设定相应于下一个粒元的音频剧变旗标，用以指出所述下一个粒元发生所述音频剧变现象。

7.如权利要求1所述的音频信号转换编码方法，所述第一音频信号的子带数据中的所述粒元依据时间轴将所有取样时间单位切为多个时段，于决定所述粒元中的信号是否发生所述音频剧变现象的步骤还包括：

判断是否所有所述时段中的参考能量的总和小于一微小阈值，并且所述粒元处于短窗框的状态下；以及

8.如权利要求1所述的音频信号转换编码方法，所述第一音频信号的子带数据中的所述粒元依据时间轴将所有取样时间单位切为多个时段，所述第一音频信号的子带数据中的一前一个粒元依据时间轴将所有取样时间单元切为多个时段，于决定所述粒元中的信号是否发生所述音频剧变现象的步骤还包括：

判断是否所述粒元的所述时段中存在任一者的子带数据的参考能量相较于所述前一个粒元的相应的所述时段中的子带数据的参考能量的比值大于一巨量比值阈值，并且代表相应于比值大于所述巨量比值阈值的所述时段中的参考能量大于一最小能量阈值；以及

若是，设定相应于所述粒元的音频剧变旗标，用以指出所述粒元发生所述音频剧变现象。

9.如权利要求1所述的音频信号转换编码方法，所述第一音频信号的子带数据中的所述粒元依据时间轴将所有取样时间单位切为多个时段，所述第一音频信号的子带数据中的一前一个粒元依据时间轴将所有取样时间单元切为多个时段，所述粒元的所述子带数据依据频率轴将所有子带切为多个频段，所述前一个粒元的所述子带数据依据频率轴将所有子带切为多个频段，所述粒元的所述频段中的属于较高频率的一部份频段归类于一高频频段，所述前一个粒元的所述频段中属于较高频率的一部份频段归类于一高频频段，于决定所述粒元中的信号是否发生所述音频剧变现象的步骤还包括：

判断所述粒元的所述子带数据是否为人声数据；

判断所述粒元的所述高频频段的所有频段中的子带数据的参考能量相较于所述前一个粒元的所述高频频段的相应频段中的子带数据的参考能量的比值是否皆大于一高频阈值；

判断所述粒元的第一个所述时段中的所述子带数据的参考能量相较于所述前一个粒元的第一个所述时段中的所述子带数据的参考能量的比值是否大于一第一时段阈值；以及

若三者皆是，设定相应于所述粒元的一音频剧变旗标，用以指出所述粒元发生所述音频剧变现象。

10.如权利要求9所述的音频信号转换编码方法，所述粒元的所述频段中的属于较低频率的一部份频段归类于一低频频段，所述粒元的所述频段中的属于中间频率的一部份频段归类于一中频频段，于判断所述粒元的所述子带数据是否为人声数据的步骤还包括：

判断所述粒元的所述中频频段的所有频段的子带数据的参考能量总和相较于所述粒元的所有频段的子带数据的参考能量总和的比重是否落入一第一预设人声范围中；

判断所述粒元的所述低频频段的所有频段的子带数据的参考能量总和相较于所述粒元的所有频段的子带数据的参考能量总和的比重是否落入一第二预设人声范围中；以及

若两者皆是，所述粒元的所述子带数据为人声数据。

11.如权利要求1所述的音频信号转换编码方法，所述第一音频信号的子带数据中的所述粒元依据时间轴将所有取样时间单位切为多个时段，所述第一音频信号的子带数据中的一前一个粒元依据时间轴将所有取样时间单元切为多个时段，所述粒元的所述子带数据依据频率轴将所有子带切为多个频段，所述前一个粒元的所述子带数据依据频率轴将所有子带切为多个频段，所述粒元的所述频段中的属于较高频率的一部份频段归类于一高频频段，所述前一个粒元的所述频段中的属于较高频率的一部份频段归类于一高频频段，于决定所述粒元中的信号是否发生所述音频剧变现象的步骤还包括：

判断所述粒元的所述子带数据是否为人声数据；

判断所述粒元的所述高频频段的所有频段的子带数据的参考能量相较于所述前一个粒元的所述高频频段的相应频段的子带数据的参考能量的比值是否皆大于一高频阈值；

判断所述粒元的第一个所述时段中的子带数据的参考能量相较于所述前一个粒元的第一个所述时段中的子带数据的参考能量的比值是否大于一第一时段阈值；

判断所述粒元的最后一个所述时段中的子带数据的参考能量相较于所述前一个粒元的最后一个所述时段中的子带数据的参考能量的比值是否大于一最后时段阈值；以及

若前三者是，设定相应于所述粒元的音频剧变旗标，用以指出所述粒元发生所述音频剧变现象；以及若前两者与最后一者是，设定相应于所述粒元的下一个粒元的音频剧变旗标，用以指出所述下一个粒元发生所述音频剧变现象。

12.如权利要求1所述的音频信号转换编码方法，于决定所述知觉熵的步骤中还包括：

当所述第一音频信号的子带数据中的所述粒元发生所述音频剧变现象时，所述知觉熵设为MP3标准中的音频剧变阈值。

13.如权利要求1所述的音频信号转换编码方法，于决定所述粒元的所述知觉熵的步骤中还包括：

当所述第一音频信号的子带数据中的所述粒元没有发生所述音频剧变现象时，计算代表所述粒元的参考能量相较于所述前一个粒元的参考能量的比值；以及

依据所述比值相距于一理论最小比值与一理论最大比值的比例，使用线性内插法于一理论最大知觉熵与一理论最小知觉熵之间决定出所述粒元的所述知觉熵。

14.如权利要求1所述的音频信号转换编码方法，于决定代表所述粒元的所述最小容错率的步骤中还包括：

当所述粒元发生所述音频剧变现象时，针对所述粒元的所述多个尺规因子频带决定相同的一组第一最小容错率；以及

当所述粒元没有发生所述音频剧变现象时，针对所述粒元的所述多个尺规因子频带决定不同的一组第二最小容错率。

15.一种音频信号转换编码系统，包括：

一子带数据调整单元，用以接收一第一音频信号的子带数据，调整所述第一音频信号的子带数据的顺序以产生符合MP3编码器中分析端子带滤波器处理后的子带数据格式的一第二音频信号的子带数据；

一参数估计单元，用以接收所述第一音频信号的子带数据，使用所述第一音频信号的子带数据估计出复数参数，所述参数包括一音频信号粒元中是否发生音频剧变现象、一知觉熵以及一最小容错率；以及

一MP3编码器的至少一后续处理单元，接收所述调整后的第二音频信号的子带数据以及所述参数，继续完成音频信号编码的流程；

其中所述参数估计单元，用以使用所述第一音频信号的子带数据来决定一粒元中的信号是否发生音频剧变现象；依据所述粒元是否发生所述音频剧变现象的决定，以及代表所述粒元的参考能量相较于前一粒元的参考能量的比值，决定一知觉熵；以及设定两组相应于多个尺规因子频带的多个最小容错率，供音频剧变现象发生与否时使用，以代表所述粒元的多个最小容错率。

16.如权利要求15所述的音频信号转换编码系统，还包括：

一改良式离散余弦转换单元，耦接于所述参数估计单元，用以根据所述粒元是否发生所述音频剧变现象，使用状态机决定目前的状态，并依照对应的状态使用不同窗框来执行所述粒元的离散余弦转换；以及

一失真控制单元，耦接于所述参数估计单元与所述改良式离散余弦转换单元，用以依据所述知觉熵来计算所述粒元的位保留；以及依据所述设定的一组相应于所述尺规因子频带的最小容错率，来进行所述粒元的位与噪音控制。

17.如权利要求15所述的音频信号转换编码系统，其中所述第一音频信号的子带数据中的所述粒元依据时间轴将所有取样时间单位切为多个时段，所述参数估计单元更用以依据所述粒元的前一粒元所预设的音频剧变旗标来设定所述粒元的音频剧变旗标，所述音频剧变旗标指出所述粒元发生所述音频剧变现象；判断所述时段中第一时段的参考能量是否小于一取消阈值；以及当所述参考能量小于所述取消阈值时，清除所述音频剧变旗标，用以指出所述粒元没有发生所述音频剧变现象。

18.如权利要求17所述的音频信号转换编码系统，其中所述参数估计单元更用以当所述参考能量不小于所述取消阈值且所述第一音频信号的子带数据经判断为人声数据时，判断所述参考能量是否小于一人声取消阈值；以及当所述参考能量小于所述人声取消阈值时，清除所述音频剧变旗标，用以指出所述粒元没有发生所述音频剧变现象，所述人声取消阈值大于所述取消阈值。

19.如权利要求15所述的音频信号转换编码系统，所述第一音频信号的子带数据中的所述粒元依据时间轴将所有取样时间单位切为多个时段，所述第一音频信号的子带数据中的一前一个粒元依据时间轴将所有取样时间单元切为多个时段，所述参数估计单元更用以判断所述粒元的每一个时段中的子带数据的参考能量相较于所述前一个粒元相应的时段中的子带数据的参考能量的比值是否皆大于一时段比值阈值；以及若是，设定相应于所述粒元的一音频剧变旗标，用以指出所述粒元发生所述音频剧变现象。

20.如权利要求15所述的音频信号转换编码系统，所述第一音频信号的子带数据中的所述粒元依据频率轴将所有子带切为多个频段，所述第一音频信号的子带数据中的一前一个粒元依据频率轴将所有子带切为多个频段，所述参数估计单元更用以判断所述粒元的每一个所述频段中的子带数据的参考能量相较于所述前一个粒元的相应频段中的子带数据的参考能量的比值是否皆大于一频段比值阈值；以及若是，设定相应于下一个粒元的音频剧变旗标，用以指出所述下一个粒元发生所述音频剧变现象。

21.如权利要求15所述的音频信号转换编码系统，所述第一音频信号的子带数据中的所述粒元依据时间轴将所有取样时间单位切为多个时段，所述参数估计单元更用以判断是否所有所述时段中的参考能量的总和小于一微小阈值，并且所述粒元处于短窗框的状态下；以及若是，设定相应于所述粒元的一音频剧变旗标，用以指出所述粒元发生所述音频剧变现象。

22.如权利要求15所述的音频信号转换编码系统，所述第一音频信号的子带数据中的所述粒元依据时间轴将所有取样时间单位切为多个时段，所述第一音频信号的子带数据中的一前一个粒元依据时间轴将所有取样时间单元切为多个时段，所述参数估计单元更用以判断是否所述粒元的所述时段中存在任一者的子带数据的参考能量相较于所述前一个粒元的相应的所述时段中的子带数据的参考能量的比值大于一巨量比值阈值，并且代表相应于比值大于所述巨量比值阈值的所述时段中的参考能量大于一最小能量阈值；以及若是，设定相应于所述粒元的音频剧变旗标，用以指出所述粒元发生所述音频剧变现象。

23.如权利要求15所述的音频信号转换编码系统，所述粒元的所述第一音频信号的子带数据中的所述粒元依据时间轴将所有取样时间单位切为多个时段，所述第一音频信号的子带数据中的一前一个粒元依据时间轴将所有取样时间单元切为多个时段，所述粒元依据频率轴将所有子带切为多个频段，所述前一个粒元依据频率轴将所有子带切为多个频段，所述粒元的所述频段中的属于较高频率的一部份频段归类于一高频频段，所述前一个粒元的所述频段中属于较高频率的一部份频段归类于一高频频段，所述参数估计单元更用以判断所述粒元的所述子带数据是否为人声数据；判断所述粒元的所述高频频段的所有频段中的子带数据的参考能量相较于所述前一个粒元的所述高频频段的相应频段中的子带数据的参考能量的比值是否皆大于一高频阈值；判断所述粒元的第一个所述时段中的所述子带数据的参考能量相较于所述前一个粒元的第一个所述时段中的所述子带数据的参考能量的比值是否大于一第一时段阈值；以及若三者皆是，设定相应于所述粒元的一音频剧变旗标，用以指出所述粒元发生所述音频剧变现象。

24.如权利要求23所述的音频信号转换编码系统，所述粒元的所述频段中的属于较低频率的一部份频段归类于一低频频段，所述粒元的所述频段中的属于中间频率的一部份频段归类于一中频频段，所述参数估计单元更用以判断所述粒元的所述中频频段的所有频段的子带数据的参考能量总和相较于所述粒元的所有频段的子带数据的参考能量总和的比重是否落入一第一预设人声范围中；判断所述粒元的所述低频频段的所有频段的子带数据的参考能量总和相较于所述粒元的所有频段的子带数据的参考能量总和的比重是否落入一第二预设人声范围中；以及若两者皆是，所述粒元的所述子带数据为人声数据。

25.如权利要求15所述的音频信号转换编码系统，所述第一音频信号的子带数据中的所述粒元依据时间轴将所有取样时间单位切为多个时段，所述第一音频信号的子带数据中的一前一个粒元依据时间轴将所有取样时间单元切为多个时段，所述粒元依据频率轴将所有子带切为多个频段，所述前一个粒元依据频率轴将所有子带切为多个频段，所述粒元的所述频段中的属于较高频率的一部份频段归类于一高频频段，所述前一个粒元的所述频段中的属于较高频率的一部份频段归类于一高频频段，所述参数估计单元更用以判断所述粒元的所述子带数据是否为人声数据；判断所述粒元的所述高频频段的所有频段的子带数据的参考能量相较于所述前一个粒元的所述高频频段的相应频段的子带数据的参考能量的比值是否皆大于一高频阈值；判断所述粒元的第一个所述时段中的子带数据的参考能量相较于所述前一个粒元的第一个所述时段中的子带数据的参考能量的比值是否大于一第一时段阈值；判断所述粒元的最后一个所述时段中的子带数据的参考能量相较于所述前一个粒元的最后一个所述时段中的子带数据的参考能量的比值是否大于一最后时段阈值；以及若前三者是，设定相应于所述粒元的音频剧变旗标，用以指出所述粒元发生所述音频剧变现象；以及若前两者与最后一者是，设定相应于所述粒元的下一个粒元的音频剧变旗标，用以指出所述下一个粒元发生所述音频剧变现象。

26.如权利要求15所述的音频信号转换编码系统，所述参数估计单元更用以当所述粒元发生所述音频剧变现象时，所述知觉熵设为MP3标准中的音频剧变阈值。

27.如权利要求15所述的音频信号转换编码系统，所述参数估计单元更用以当所述粒元没有发生所述音频剧变现象时，计算代表所述粒元的参考能量相较于所述前一个粒元的参考能量的比值；以及依据所述比值相距于一理论最小比值与一理论最大比值的比例，使用线性内插法于一理论最大知觉熵与一理论最小知觉熵之间决定出所述粒元的所述知觉熵。

28.如权利要求15所述的音频信号转换编码系统，所述参数估计单元更用以当所述粒元发生所述音频剧变现象时，针对所述粒元的所述多个尺规因子频带决定相同的一组第一最小容错率；以及当所述粒元没有发生所述音频剧变现象时，针对所述粒元的所述多个尺规因子频带决定不同的一组第二最小容错率。