CN100489965C

CN100489965C - 音频编码系统

Info

Publication number: CN100489965C
Application number: CNB2007101416635A
Authority: CN
Inventors: 游余立
Original assignee: GUANGSHENG DIGITAL TECHNOLOGY Co Ltd GUANGZHOU
Current assignee: GUANGSHENG DIGITAL TECHNOLOGY Co Ltd GUANGZHOU; Digital Rise Technology Co Ltd
Priority date: 2006-08-18
Filing date: 2007-08-17
Publication date: 2009-05-20
Anticipated expiration: 2027-08-17
Also published as: CN101136901B; CN100489964C; CN101127213A; CN101136901A; CN101127212A

Abstract

提供了用于对音频信号进行编码的系统、方法和技术，其中获得分割成帧的采样音频信号。识别在其中一个帧中的瞬变位置，通过对帧数据执行多分辨率滤波器组分析来生成变换数据采样，包括以不同的分辩率对包括瞬变的帧的不同部分进行滤波。通过基于心理声学模型使用可变数量的比特对变换数据采样进行量化，来生成量化数据，并且基于量化数据的量值，把该量化数据分组成可变长度的分段。为每个可变长度的分段分配码本，并且使用分配给每个可变长度的分段的码本，来对该可变长度的分段中的量化数据进行编码。

Description

音频编码系统

[01]本申请是于2006年11月12日所提交的名为“Variable-Resolution Processing of Frame_based Data”(‘917申请)的美国专利申请序列号11/558,917的部分继续申请案，该专利申请11/558,917要求于2006年8月18日所提交的名为“Variable-Resolution Filtering”(‘760申请)的美国临时专利申请序列号60/822,760的优先权；本申请是2005年1月4日所提交的名为“Apparatus and Methods for Multichannel digital Audio Coding”(‘722申请)的美国专利申请序列号11/029,722的部分继续申请案，该专利申请11/029,722要求于2004年9月17日所提交的名为“Apparatus and Methods for Multichannel digital Audio Coding”的美国临时专利申请序列号60/610,674的优先权；并且本申请还直接要求‘760申请的优先权。将前述每个申请以引用的方式并入本文作为此处的详细描述

技术领域

[02]本发明涉及用于对音频信号进行编码的系统、方法和技术。

背景技术

[03]存在各种不同的用于对音频信号进行编码的技术。然而，不断地希望其性能、质量和压缩能够改进。

发明内容

[04]除了其它技术，本发明通过提供整体音频编码技术来解决此需求，其中该整体音频编码技术使用了瞬变帧中的可变分辩率，并且基于量化数据的量值(magnitude)来生成可变长度的码本分段。

[05]因此本发明的一方面涉及用于对音频信号进行编码的系统、方法和技术。获得分割成帧的采样音频信号。识别在其中一个帧中的瞬变的位置，并且通过对帧数据执行多分辨率滤波器组分析来生成变换数据采样，包括以不同的分辩率来对包括该瞬变的帧的不同部分进行滤波。基于心理声学模型，通过使用可变数量的比特，对变换数据采样进行量化，来生成量化数据，并且基于量化数据的量值，把该量化数据分成可变长度的分段。把码本分配给每个可变长度的分段，并且用被分配给此可变长度的分段的码本，来对每个可变长度的分段中的量化数据进行编码。

[06]根据前述的配置，经常有可能同时实现对音频数据更准确的编码，而用更少量的比特来表示此数据。

[07]前述的概述仅仅是为了提供本发明的特定方面的简要描述。通过参考权利要求和以下关于优选实施例的详细描述，并结合附图，可以获得关于本发明的更完整的理解。

附图说明

[08]图1是根据本发明的典型实施例的音频信号编码器的框图。

[09]图2是示出了根据本发明的典型实施例的用于识别码本分段和对应码本的最初集合的过程。

[10]图3示出了根据本发明的典型实施例的量化标号的顺序的实例，其中将这些量化标号分割到具有对应码本的码本分段中。

[11]图4是根据本方面的典型实施例，在排除了图3所示分割中的分段后，将量化标号分割到码本分段中所得的分割。

[12]图5示出了常规的量化标号分割的结果，其中量化分段直接对应于量化单元。

[13]图6示出了根据本发明的典型实施例的量化标号分割的结果，其中有效地将量化标号集合在一起。

具体实施方式

[14]本发明涉及用于对音频信号进行编码，例如以便后续存储和传输的系统、方法和技术。本发明可以使用到的应用包括，但不限于：数字音频广播、数字电视(卫星、地面和/或有线广播)、家庭影院、数字影院、镭射视频碟片播放器、因特网上的内容流以及个人音频播放器。

[15]图1是根据本发明的典型实施例的音频信号编码系统10的框图。如下所述，在一个典型子实施例中，完全用计算机可执行的代码来实现图1所示的各个部分或组件。然而，在替换的实施例中，可以用此处所讨论的任何其它方法来实现这些部分或组件中的任意或全部。

[16]最初，把与初始音频信号的时间采样对应的脉冲编码调制(PCM)信号12输入到帧分割部分14。就这点而言，初始音频信号典型地由多个声道组成，例如用于普通立体声的左和右声道，或者用于环绕声的5-7个标准声道以及一个低频效果(LFE)声道。LFE声道典型地具有有限的带宽(例如小于120Hz)，并且具有比标准声道更高的音量。在整个描述中，用x.y来表示给定声道的配置，其中x表示标准声道的数量，y表示LFE声道的数量。因此，将用2.0来表示普通立体声，并且用5.1、6.1或7.1来表示典型的常规环绕声。

[17]本发明的优选实施例支持多达64.3的声道配置，以及从8千赫兹(kHz)到192kHz的采样频率，包括44.1kHz到48kHz，具有至少为24比特的精度。一般来说，除非此处特别说明，都独立于其它声道来对每个声道进行处理。

[18]可以从外部源把PCM信号12输入到系统10，或者可替换地可以由系统10例如通过采样原始音频信号内部生成PCM信号12。

[19]在帧分割部分14，把每个声道的PCM采样12分割成时域中的连续帧序列。就这点而言，在本发明的技术中，把帧看作是用于处理目的的基本数据单元。优选地，每个这种帧具有从相对小的帧大小集合中所选取的固定采样数量，其中所选择的对于任何特定时间间隔的帧大小取决于例如采样速率和帧间所能容忍的延迟量。更优选地，每个帧包括128、256、512或1024个采样，其中除了降低延迟非常重要的情况之外，优选更长的帧。在以下讨论的大多实例中，假设每个帧由1024个采样构成。然而，不能将这种实例当作是限制性的。

[20]把从帧分割部分14所输出的每个数据采样帧输入到瞬变分析部分16，其确定所输入的PCM采样帧是否包含信号瞬变，优选地将该瞬变定义为信号能量的突然迅速的上升(冲击)或下降。基于这种检测，随后把每个帧分类成瞬变帧(即，包括瞬变的帧)或准稳态帧(即，不包括瞬变的帧)。此外，瞬变分析部分16对每个瞬变信号的位置和持续时间进行识别，并且随后使用该信息来识别“瞬变分段”。可以使用任何已知的瞬变检测方法，包括‘722申请中所述的任何瞬变检测技术。

[21]此处所用的术语“瞬变分段”是指信号的一部分，其具有相同或相似统计特性。因此，准稳态帧通常由单个瞬变分段构成，而瞬变帧通常由两个或三个瞬变分段构成。例如，如果在一帧中仅发生了瞬变的冲击或下降，那么该瞬变帧通常会具有两个瞬变分段：一个覆盖了该帧在冲击或下降之前的部分，另一个覆盖了该帧在冲击或下降之后的部分。如果在瞬变帧中冲击和下降都发生了，那么通常将会存在三个瞬变分段，每个分段各自覆盖由冲击和下降所分割的帧的部分。随后把该基于帧的数据和瞬变检测信息提供给滤波器组18。

[22]可变分辩率的分析滤波器组18将每个声道音频的音频PCM采样分解成子带信号，其中子带的性质取决于所使用变换技术。就这点而言，尽管滤波器组18可以使用各种不同的变换技术，在优选实施例中，该变换是单一的并且基于正弦的。如‘722申请中所详述，更优选地，滤波器组18使用离散余弦变换(DCT)和改进型离散余弦变换(MDCT)。在此处所述的大多实例中，假设使用的是MDCT。因此，在优选实施例中，对于每个MDCT块，子带信号由多个子带采样构成，每个子带采样对应于不同的子带频率；此外，由于变换的单一性质，子带采样的数量等于由MDCT所处理的时域采样的数量。

[23]此外，在优选实施例中，基于从瞬变分析部分16所接收的瞬变检测结果来对滤波器组18的时—频分辩率进行控制。更优选地，滤波器组使用‘917申请中所述的技术。

[24]一般来说，该技术使用一个长变换块来覆盖每个准稳态帧，并且使用多个相同的更短变换块来覆盖每个瞬变帧。在典型实例中，帧大小是1024个采样，把每个准稳态帧视为由一个初级块(具有1028个采样)构成，把每个瞬变帧视为由八个初级块(每个具有128个采样)构成。为了避免边界效应，MDCT块比初级块大，并且优选地是初级块的两倍大小，因此由2048个采样构成长MDCT块，由256个采样构成短MDCT块。

[25]在应用MDCT之前，把窗函数应用到每个MDCT块，以便对各个滤波器的频率响应进行整形。因为仅将单个长MDCT块用于准稳态帧，所以使用单个窗函数以便满足完全重构要求，尽管其特定形状优选地取决于邻近帧中所使用的窗函数。另一方面，与常规技术不同，该优选实施例的技术在单个瞬变帧中使用不同的窗函数。更优选地，当在该帧中使用单个变换(例如MDCT)块大小的同时，选择这种窗函数，以便在瞬变帧中至少提供两个分辩率级别。

[26]结果，例如，可以在瞬变信号附近实现更高的时域分辩率(以更低的频域分辩率为代价)，并且可以在该瞬变帧的其它部分(例如更稳态的部分)实现更高的频域分辩率(以更低的时域分辩率为代价)。此外，通过保持变换块大小恒定，通常无需复杂化处理结构就能实现前述的优势。

[27]在优选实施例中，除了常规的窗函数，还引入了以下新的“简短”窗函数WIN_SHORT_BRIEF2BRIEF：

w (n) = [\begin{matrix} 0, & 0 \leq n < \frac{S - B}{2}; \\ \sin [\frac{π}{2 B} ((n - \frac{S - B}{2}) + \frac{1}{2})], & \frac{S - B}{2} \leq n < \frac{S + B}{2}; \\ 1 & \frac{S + B}{2} \leq n < \frac{3 S - B}{2}; \\ \sin [\frac{π}{2 B} ((n - \frac{3 S - 3 B}{2}) + \frac{1}{2})], & \frac{3 S - B}{2} \leq n < \frac{3 S + B}{2}; \\ 0 & \frac{3 S + B}{2} \leq n < 2 S . \end{matrix}]

其中，S是短初级块大小(例如128个采样)，并且B是简短块大小(例如B＝32)。如‘917申请中所详述的，优选地还使用额外的过渡窗函数，以便满足完全重构要求。

[28]注意到，同样如917申请中所详述，可以使用“简短”窗函数的其它具体形式。然而，在本发明的优选实施例中，与瞬变帧的其它(例如更稳态的)部分中所使用的其它窗函数相比，所使用的“简短”窗函数的能量更多地汇聚在变换块的更小部分中。事实上，在特定的实施例中，多个函数值为0，从而保持中央和初级块的采样值。

[29]在重组交叉部分20，优选地对当前声道的当前帧的子带采样进行重排列，以便把对应于相同子带的相同瞬变分段中的采样集合在一起。在具有长MDCT的帧(即准稳态帧)中，已经按照频率升序(例如从子带0到子带1023)重新排列了子带采样。因为MDCT的子带采样是按照自然顺序排列的，所以不把重构交叉应用到具有长MDCT的帧。

[30]然而当帧是由nNumBlocksPerFrm个短MDCT块(即瞬变帧)组成的时候，按照频率升序(例如从子带0到子带127)来排列每个短MDCT的子带采样。再把这种子带采样的分组按照时间顺序排列，从而形成从0到1023的子带采样的自然顺序。

[31]在重组交叉部分20中，通过将每个瞬变分段中具有相同频率的采样排列在一起，然后按照频率升序对它们进行排列，来对这些子带采样进行重构交叉。结果通常是减少了需要传输的比特的数量。

[32]如下，是具有三个瞬变分段和八个短MDCT块的帧的自然顺序的实例：

再次，自然顺序的子带采样的线型序列是[0……1023]。应用了重构交叉以后的对应数据排列如下：

重构交叉顺序的子带采样的线性序列是[0，2，4，……，254，1，3，5，……，255，256，259，302，……，637，……]。

[33]此处所用的“临界频带”是指人耳的频率分辩率，即带宽△f，在该带宽内，人耳不能分辨出不同的频率。带宽△f随着频率f的增加而增加，其中f和△f之间近似指数关系。每个临界频带可以表示为滤波器组的多个邻近的子带采样。例如，短(例如128采样)MDCT的临界频带的范围典型地在最低频率时的4个子带采样宽度到最高频率时的42个子带采样宽度之间。

[34]心理声学模型32提供了人耳的噪声掩蔽门限。心理声学模型32所基于的基本概念是：人的听觉系统中有门限。在这些值(掩蔽门限)之下的音频信号不能被听到。结果，没有必要把这部分信息发送给解码器。心理声学模型32的目的是为了提供这些门限值。

[35]可以使用现有的通用心理声学模型，例如MPEG的两种心理声学模型。在本发明的优选实施例中，心理声学模型32输出每个量化单元的掩蔽门限(如下定义)。

[36]可选择的和/差编码器22使用特定的联合声道编码技术。优选地，编码器22如下把左/右声道对的子带采样变换成和/差声道对：

和声道＝0.5×(左声道+右声道)；以及

差声道＝0.5×(左声道—右声道)。

[37]因此，在解码期间，在左/右声道中的子带采样重构如下：

左声道＝和声道+差声道；以及

右声道＝和声道—差声道。

[38]可选择的联合强度编码器24通过使用人耳在高频的声学成像定位特性，对在联合声道中的高频成分进行编码。心理声学模型指示出人耳对于在高频的空间声象的感觉，主要是由左/右音频信号的相对强度来定义的，而较少是由各个频率成分定义的。这是联合强度编码的理论基础。以下是用于联合强度编码的简单技术。

[39]对于待组合的两个和三个声道，把对应的子带采样交叉加到声道中，并且用全部子带采样替换其中一个初始源声道(例如，左声道)中的子带采样，称为联合子带采样。然后对于每个量化单元，调整功率，以便匹配该初始源声道的功率，保留每个声道的每个量化单元的比例因子。最后，仅对经过功率调整的联合子带采样和每个声道中的量化单元的比例因子进行保留和发送。例如，如果Es是源声道中的联合量化单元的功率，并且Ej是联合声道中的联合量化单元的功率，那么可以如下计算比例因子：

k = \sqrt{\frac{E_{J}}{E_{S}}}

[40]全局比特分配部分34把多个比特分配到每个量化单元。就这点而言，“量化单元”优选地由子带采样矩形构成，该子带采样矩形由频域中的临界频带和时域中的瞬变分段来界定。在此矩形中的所有子带采样都属于相同量化单元。

[41]这些采样的序号可以不同，例如，因为在本发明的优选实施例中有两类子带采样排列顺序(即自然顺序和交叉顺序)，但是它们优选地表示相同分组的子带采样。在一个实例中，第一量化单元由子带采样0，1，2，3，128，129，130和131所组成。然而，第一量化单元的子带采样的序号变成0，1，2，3，4，5，6和7。这两组不同序号表示相同的子带采样。

[42]为了将量化噪声功率的值降低到低于每个掩蔽门限值，全局比特分配部分34将每个帧可用的所有比特在该帧的量化单元之间进行分配。优选地，通过调整量化单元的量化步长，来控制每个量化单元的量化噪声功率和分配给该量化单元的比特数量。

[43]可以使用各种现有的比特分配技术，包括例如，注水。在注水技术中，(1)确定具有最大NMR(噪声掩蔽比)的量化单元；(2)减小分配给该量化单元的量化步长，从而降低量化噪声；并且随后(3)重复前述的两个步骤，直到所有量化单元的NMR小于1(或者其它预先设定的门限)为止，或者直到用尽了在当前帧中所允许的比特为止。

[44]如上所述，量化部分26优选地通过使用由全局比特分配器34所提供的统一量化步长，直接地对每个量化单元中的采样进行量化，来对子带采样进行量化。然而，根据对全局比特分配部分34进行调整，可以使用其它任何量化技术。

[45]码本选择器通过量化标号的局部统计特性来对这些量化标号进行分组或分段，并且从码本库中选择码本来分配给每个量化标号组。在本发明的优选实施例中，基本上同时发生分段和码本选择。

[46]在本发明的优选实施例中，量化标号编码器28(以下额外详细描述)通过使用码本选择器36为每个分段所选择的码本，来对量化标号执行霍夫曼编码。优选地，对每个声道的子带采样量化标号执行霍夫曼编码。更优选地，使用两组码本(一组用于准稳态帧另一组用于瞬变帧)来对子带采样量化标号执行霍夫曼编码，其中每组码本由9个霍夫曼码本组成。因此，可以使用多达9个霍夫曼码本的优选实施例，来对给定帧的量化标号进行编码。这些码本的属性优选地如下所示：

码本标号(mnHS)	维数	量化标号范围	中平(Midtread)	准稳态码本组	瞬变码本组
码本标号(mnHS)	维数	量化标号范围	中平(Midtread)	准稳态码本组	瞬变码本组	0	0	0	保留	保留	保留
1	4	-1，1	是	HuffDec10_81 x 4	HuffDec19_81 x 4	0	0	0	保留	保留	保留
1	4	-1，1	是	HuffDec10_81 x 4	HuffDec19_81 x 4	2	2	-2，2	是	HuffDec11_25 x 2	HuffDec20_25 x 2
3	2	-4，4	是	HuffDec12_81 x 2	HuffDec21_81 x 2	2	2	-2，2	是	HuffDec11_25 x 2	HuffDec20_25 x 2
3	2	-4，4	是	HuffDec12_81 x 2	HuffDec21_81 x 2	4	2	-8，8	是	HuffDec13_289 x 2	HuffDec22_289 x 2
5	1	-15，15	是	HuffDec14_31 x 1	HuffDec23_31 x 1	4	2	-8，8	是	HuffDec13_289 x 2	HuffDec22_289 x 2
5	1	-15，15	是	HuffDec14_31 x 1	HuffDec23_31 x 1	6	1	-31，31	是	HuffDec15_63 x 1	HuffDec24_63 x 1
7	1	-63，63	是	HuffDec16_127 x 1	HuffDec25_127 x 1	6	1	-31，31	是	HuffDec15_63 x 1	HuffDec24_63 x 1
7	1	-63，63	是	HuffDec16_127 x 1	HuffDec25_127 x 1	8	1	-127，127	是	HuffDec17_255 x 1	HuffDec26_255 x 1
9	1	-255，255	否	HuffDec18_256 x 1	HuffDec27_256 x 1	8	1	-127，127	是	HuffDec17_255 x 1	HuffDec26_255 x 1

[47]在本发明的替换实施例中执行其它类型的熵编码(例如算术编码)。然而，在本实例中假设使用霍夫曼编码。此处所用的“霍夫曼”编码旨在包括任何用假设的符号概率、使用比较不普通的源符号更短的比特串来表示更普通的源符号的前缀二进制代码，而不管该编码技术是否与最初的霍夫曼算法相同。

[48]考虑到预期将由量化标号编码器28执行的编码，在优选实施例中码本选择器36的目标是在每个声道中选择分类标号的分段，并且确定将哪个码本应用到每个分段。第一步是基于由瞬变分析部分16所识别的帧类型(准稳态或瞬变)来确定将使用哪个码本组。然后优选地按照以下方式，选择具体的码本和分段。

[49]在常规音频信号处理算法中，熵码本的应用范围与量化单元相同，因此通过量化单元中的最大量化标号来定义熵码本。因此，没有进一步优化的可能。

[50]相反，在本发明的优选实施例中，码本选择忽视了量化单元边界，而是同时选择恰当的码本及其将要应用于的分段。更优选地，通过量化标号的局部统计特性来把量化标号分割成分段。通过这些分段的边缘来定义码本的应用范围。参考图2中的流程图，描述了用于确定码本分段和对应码本的技术实例。

[51]最初，在步骤82，选择码本分段以及对应码本的最初集合。可以通过各种不同的方法来执行这个步骤，例如使用群集技术，或者通过在连续间隔内将仅能够由给定大小的码本容纳的量化标号简单地集合在一起。就后一种方法而言，在可应用的码本组(例如九个不同的码本)中，主要的差别是能够容纳的最大量化标号。因此码本选择首先包括选择能够容纳所考虑的所有量化标号的量值的码本。因此，步骤82的一种方法是从容纳第一个量化标号的最小码本开始，并且随后一直使用该码本，直到需要更大的码本或者直到可以使用更小的码本。

[52]无论如何，步骤82的结果是提供码本分段和对应码本的最初序列。一个实例包括图3中所示的分段101-113。此处，每个码分段101-113具有通过其水平长度来指示的长度，其中通过其垂直高度来表示分配的码本

[53]接下来，在步骤83中，再次，优选地基于量化标号的量值，按照需要或希望合并码本分段。就这点而言，因为码本分段优选地可以具有任意边界，所以这些边界的位置典型地必须发送到解码器。因此，如果在步骤82之后，码本分段的数量过于巨大，优选地排除一些小的码本分段，直到满足指定的准则85为止。

[54]在优选实施例中，排除方法是把小码本分段(例如最短的码本分段)与具有最小码本标号(对应于最小码本)的码本分段相合并，以合并到所考虑的码本分段的左边和右边。图4提供了将步骤83应用到图3所示的码本分割的结果的实例。在此情况下，把分段102与(使用相同码本的)分段101和103合并在一起，以提供分段121，把分段104和106与分段105合并在一起，以提供分段122，把分段110和111与分段109合并在一起，以提供分段125，并且把分段113与分段112合并在一起，以提供分段126。如果码本标号等于0(例如分段108)，则没有量化标号需要发送，所以优选地不拒绝这种分离的码本分段，因此在本实例中不拒绝码本分段108。

[55]如图2所示，优选地重复地应用步骤83，直到满足了结束准则85。取决于特定的实施例，结束准则包括，例如，分段的总数量不超过指定的最大数，每个分段具有最小长度和/或所参考的码本总数不超过指定的最大数。在此交互过程中，可以基于各种不同的准则来选择排除下一个分段，这些准则例如最短的现有分段，其码本标号可以被增加最小量的分段，比特数量的最小投影增加，或者将获得的总体净效益(例如，取决于分段长度以及其码本标号所需要的增加)。

[56]当把如图5所示的常规分割与如图6所示的根据本发明的分割进行比较的时候，就可以了解本技术的优势。在图5中，把量化标号分割成四个量化分段151—154，具有对应的右边界161—163。根据常规方法，量化分段151—154直接对应于量化单元。在该例中，最大量化标号171属于量化单元154。因此，对于量化单元154，必须选择大的码本(例如码本c)。这不是一个明智的选择，因为量化单元154的大部分量化标号很小。

[57]相反，当应用本发明的技术时，用上述技术，把相同的量化标号分割成码本181—184。结果，用码本分段183(已经基于其中的其它量化标号的量值，把码本c分配给了码本分段183)中的量化标号来对最大量化标号171进行分组。虽然此量化标号171仍然需要相同大小的码本(例如码本c)，但是它与其它大的量化标号共享此码本。即，此大码本与码本分段183中的量化标号的统计特性匹配。此外，因为在码本分段184中所有的量化标号都很小，那么对其选择小的码本(例如码本a)，即，该码本与其中的量化标号的统计特性匹配。很容易理解，该码本选择技术通常可以减少用于发送量化标号的比特数量。

[58]如上所示，然而，使用此技术具有一些“额外花消”。常规的技术通常仅需要把码本标号的边信息发送到解码器，因为他们的应用范围与量化单元相同。然而，本技术通常不仅需要发送码本标号的边信息，而且需要把应用范围发送到解码器，因为该应用范围和量化单元典型地是不相关的。为了解决这个问题，在某些实施例中，如果不能补偿此“额外花消”，则本发明的技术默认使用常规方法(即，简单地把量化单元用作量化分段)，无论如何希望这种情况极少发生。如上所示，解决此问题的一种方法是在允许的统计特性的条件下，分成尽可能大的码本分段。

[59]一旦码本选择器36完成了此处理，把分段数量、每个分段的长度(每个码本的应用范围)、以及每个分段的所选码本标号提供给复用器45，以包含在比特流中。

[60]量化标号编码器28使用码本选择器36所选择的分段和对应码本对量化标号执行压缩编码。在码本HuffDec18_256x1中和码本HuffDec27_256x1(对应于码本标号9)中的最大量化标号，即255，表示逸出(ESCAPE)。因为量化标号可能可以超过两个码本的最大范围，所以使用递归编码来对更大的标号进行编码，其中q表示为：

q＝m*255+r

其中m是q的商，并且r是q的余数。用对应于码本标号9的霍夫曼码本对余数r进行编码，而直接将商q打包在比特流中。优选地用霍夫曼码本对用于打包商q的比特数进行编码。

[61]因为码本HuffDec18_256x1和码本HuffDec27_256x1不是中平(midtread)的，当发送绝对值时，发送用于表示符号的额外比特。由于对应于码本标号1到8的码本是中平的，所以在霍夫曼解码后加上偏移量来重构量化标号符号。

[62]复用器45把所有霍夫曼码，以及上述的所有额外信息、用户定义的任何辅助信息一起打包成单个比特流60。此外，对于当前音频数据帧，优选地插入错误代码。更优选地，编码器10打包完所有的音频数据之后，把最后一个字(32比特)中的所有空闲比特设为1。在解码器端，如果不是所有的空闲码字都等于1，那么在当前帧中断言错误，并且启动错误处理过程。

[63]在本发明的优选实施例中，因为辅助数据处在错误检测码之后，所以在完成了代码错误检测之后，解码器可以停止并且等待下一个音频帧。换句话说，辅助数据对解码没有影响，并且不需要通过解码器来处理。结果，完全可以由用户来确定对辅助数据的定义和理解，从而给用户很大的灵活性。

[64]每个帧的输出结构优选地如下：

帧头	同步字(优选地，0x7FFF)音频信号的描述，例如采样速率、普通声道的数量、LFE声道的数量等等
帧头	同步字(优选地，0x7FFF)音频信号的描述，例如采样速率、普通声道的数量、LFE声道的数量等等	普通声道：1到64	所有普通声道的音频数据
LEF声道：0到3	所有LFE声道的音频数据	普通声道：1到64	所有普通声道的音频数据
LEF声道：0到3	所有LFE声道的音频数据	错误检测	当前音频数据帧的错误检测码。当检测到错误时，运行错误处理程序。
辅助数据	时间码和/或任何其它用户定义的信息	错误检测	当前音频数据帧的错误检测码。当检测到错误时，运行错误处理程序。

每个普通声道的数据结构优选地如下：

每个LFE声道的数据结构优选地如下：

系统环境

[65]一般来说，除了特别说明，此处所述的所有系统、方法和技术都可以用一个或者多个可编程通用计算设备来实现。这种设备典型地包括，例如，经由诸如公共总线彼此互连的以下组件中的至少一些组件：一个或多个中央处理单元(CPU)；只读存储器(ROM)；随机存储器(RAM)；用于与其它设备进行接口的输入/输出软件和电路(例如，用硬线连接，例如串口，并口，USB连接或火线连接，或者使用诸如蓝牙或802.11协议的无线连接)；用来连接到一个或多个网络的软件和电路(例如，用诸如以太网卡或无线协议，例如码分多址(CDMA)、全球移动通信系统(GSM)、蓝牙、802.11协议或其它基于小区的或不基于小区的系统的硬线连接)，其中在本发明的多个实施例中，该一个或多个网络连接到因特网或其它网络；显示器(例如阴极射线显示器、液晶显示器、有机发光显示器、聚合发光显示器或者任何其它薄膜显示器)；其它输出设备(例如一个或多个扬声器、耳机设备和打印机)；一个或多个输入设备(例如鼠标、触摸板、写字板、触摸感应显示器或其它定点设备、键盘、小键盘、麦克风和扫描仪)；大容量存储单元(例如硬盘驱动器)；实时时钟；可擦除存储读/写设备(例如用于从RAM，磁盘、磁带、光磁盘、光盘等等读出或向它们写入)；调制解调器(例如用于发送传真或用于经由拨号连接来连接到因特网或其它计算机网络)。在操作中，用于执行上述方法和功能的处理步骤，通过通用计算机来执行时，典型地将最初存储在大容量存储器(例如硬盘)中，并下载到RAM中，然后通过RAM之外的CPU来执行。然而，在一些情况下，最初将处理步骤存储在RAM或ROM中。

[66]可以从各种提供商获得用于实现本发明的合适设备。在各个实施例中，根据任务的大小和复杂性来使用不同类型的设备。合适的设备包括大型计算机、多处理器计算机、工作站、个人计算机、甚至诸如PDA、无线电话或任何其它工具或设备的更小的计算机，无论独立的，硬连接到网络或无线连接到网络。

[67]此外，尽管以上描述了通用可编程设备，在可替换的实施例中，可以替代(或额外)使用一个或多个专用处理器或计算机。总的来说，应该注意到的是，除非明确说明，上述的任何功能都可以用软件、硬件、固件或它们的任意合并来实现，其中基于已知的工程折衷来选择特定的实现。更具体地，本领域的技术人员很容易理解，当用固定的、预定的或逻辑方式来实现上述功能时，可以通过编程(例如软件或固件)、逻辑组件(硬件)的恰当排列或这两个的任意合并来完成。

[68]应该注意到的是，本发明还涉及机器可读介质，可以在其上存储用于执行本发明的方法和功能的程序指令。这种介质包括，例如，磁盘、磁带、诸如CD ROM和DVD ROM的光可读介质、或者诸如PCMCIA卡的半导体存储器、各种类型的存储卡、USB存储设备等等。在每种情况下，介质可以是便携物的形式，例如微型磁盘驱动器或小磁盘、磁盘、磁带、盘式磁带、卡、棒等等，或者可以是相对较大的或不可移动的物体的形式，例如提供在计算机或其它设备中的硬盘驱动器、ROM或RAM。

[69]前述的描述主要强调了电子计算机和设备。然而，应该明白的是，任何其它计算或其它类型的设备可以替换使用，例如利用了电子，光，生物和化学处理的任意合并的设备。

额外考虑

[70]以上描述了本发明的各种不同的实施例，其中所述的每个实施例包括了特定的特征。然而，本领域的技术人员将会明白，所述的与任何单个实施例有关的特征并不限于该实施例，而是还可以包括在和/或以各种组合方式安排在任何其它实施例中。

[71]同样，在上述讨论中，有时将功能归因于特定的模块或组件。然而，可以根据需要，在不同的模块或组件中对功能进行重新分配，在一些情况下，完全消除了对特定组件或模块的需要，和/或需要添加新的组件件或模块。本领域的技术人员将会明白，参考本发明的特定实施例，优选地根据已知的工程折衷来精确地分配功能。

[72]因此，尽管本发明详细描述了示例性实施例和附图，对于本领域的技术人员来说，在不脱离本发明的精神和范围的前提下，显然可以对本发明做出各种改变和修改。因此，本发明并不限于附图和上述描述中所述的精确的实施例。而是，旨在把不脱离本发明实质的所有这种变形看作在本发明的范围之内，其中本发明的范围仅由所附权利要求来限定。

Claims

1、一种用于对音频信号进行编码的方法，包括：

(a)获得分割成帧的采样音频信号；

(b)识别在其中一个帧中的瞬变的位置；

(c)通过对该帧数据执行多分辨率滤波器组分析来生成变换数据采样，包括：以不同分辨率对该包括瞬变的帧中的不同部分进行滤波；

(d)通过基于心理声学模型使用可变数量的比特对该变换数据采样进行量化，生成量化数据；

(e)基于该量化数据的量值，把该量化数据分组成可变长度的分段；

(f)为每个可变长度的分段分配码本；以及

(g)使用分配给每个可变长度的分段的码本，对该可变长度的分段中的量化数据进行编码。

2、如权利要求1所述的方法，其中，所述变换数据采样包括以下至少之一：(i)两个不同声道的对应数据值的和，以及(ii)两个不同声道的数据值的差。

3、如权利要求1所述的方法，其中，所述变换数据采样中的至少一些已经被进行联合强度编码。

4、如权利要求1所述的方法，其中，通过执行改进型离散余弦变换来生成所述变换数据采样。

5、如权利要求1所述的方法，其中，在包括瞬变的所述帧中的滤波包括：把滤波器组应用到多个大小相等的连续的变换块中的每一个。

6、如权利要求5所述的方法，其中，在包括瞬变的所述帧中的滤波包括：与应用到不包括瞬变的变换块的窗函数相比，把不同的窗函数应用到包括瞬变的其中一个变换块。

7、如权利要求1所述的方法，其中，在步骤(g)中的编码包括：进行霍夫曼编码，对于不包括检测到的瞬变信号的帧，使用包括9个码本的第一码本组，对于包括检测到的瞬变信号的帧，使用包括9个码本的第二码本组。

8、如权利要求1所述的方法，其中，步骤(e)包括用于将较短的量化数据分段合并到邻近分段中的迭代技术。

9、如权利要求1所述的方法，其中，通过把固定数量的比特分配给多个量化单元的每一个中的每一个采样，来生成所述量化数据，不同的量化单元具有不同的每采样比特数，并且其中所述可变长度的分段独立于所述量化单元。

10、如权利要求1所述的方法，其中步骤(e)和(f)同时执行。

11、一种用于对音频信号进行编码的设备，包括：

(a)获得装置，其用于获得分割成帧的采样音频信号；

(b)识别装置，其用于识别在其中一个帧中的瞬变的位置；

(c)生成变换数据采样装置，其通过对该帧数据执行多分辨率滤波器组分析来生成变换数据采样，包括：以不同分辨率对该包括瞬变的帧的不同部分进行滤波；

(d)生成量化数据装置，其通过基于心理声学模型使用可变数量的比特对该变换数据采样进行量化，生成量化数据；

(e)分组装置，其基于该量化数据的量值，把该量化数据分组成可变长度的分段；

(f)分配装置，其用于为每个可变长度的分段分配码本；以及

(g)编码装置，其使用分配给每个可变长度的分段的码本，对该可变长度的分段中的量化数据进行编码。

12、如权利要求所述11的设备，其中，所述变换数据采样包括以下至少之一：(i)两个不同声道的对应数据值的和，以及(ii)两个不同声道的数据值的差。

13、如权利要求11所述的设备，其中，所述变换数据采样中的至少一些已经被进行联合强度编码。

14、如权利要求11所述的设备，其中，通过执行改进型离散余弦变换来生成所述变换数据采样。

15、如权利要求11所述的设备，其中，在包括瞬变的所述帧中的滤波包括：把滤波器组应用到多个大小相等的连续的变换块中的每一个。

16、如权利要求15所述的设备，其中，在包括瞬变的所述帧中的滤波包括：与应用到不包括瞬变的变换块的窗函数相比，把不同的窗函数应用到包括瞬变的其中一个变换块。

17、如权利要求11所述的设备，其中，所述编码装置的功能包括：进行霍夫曼编码，对于不包括检测到的瞬变信号的帧，使用包括9个码本的第一码本组，对于包括检测到的瞬变信号的帧，使用包括9个码本的第二码本组。

18、如权利要求11所述的设备，其中，所述分组装置的功能包括用于将较短的量化数据分段合并到邻近分段中的迭代技术。

19、如权利要求11所述的设备，其中，通过把固定数量的比特分配给多个量化单元的每一个中的每一个采样，来生成所述量化数据，不同的量化单元具有不同的每采样比特数，并且其中所述可变长度的分段独立于所述量化单元。

20、如权利要求11所述的设备，其中所述分组装置和所述分配装置同时执行。