CN1813286B

CN1813286B - 音频编码方法、音频编码器以及数字介质编码方法

Info

Publication number: CN1813286B
Application number: CN2004800032596A
Authority: CN
Inventors: S·梅罗特拉; W·-G·陈
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2004-01-23
Filing date: 2004-07-29
Publication date: 2010-11-24
Anticipated expiration: 2024-07-29
Also published as: JP2011186479A; KR20110093953A; CN1813286A; JP2014240963A; US8645127B2; KR101130355B1; US20050165611A1; EP1730725A4; KR20060121655A; JP2017037311A; US7460990B2; ATE451684T1; US20090083046A1; KR101083572B1; JP6262820B2; KR101251813B1; DE602004024591D1; WO2005076260A1; KR20110042137A; EP1730725A1

Abstract

传统的音频编码器可通过编码比全部光谱系数少的系数来保持编码比特率，这可产生重建中的模糊低通声音。使用广义感觉相似性的音频编码器通过编码表示为已编码光谱的经缩放版本的被略去光谱系数的感觉相似版本来改进质量。被略去的光谱系数被分成众多子波段。子波段被编码为两个参数：可表示波段中能量的比例参数；以及可表示波段形状的形状参数。该形状参数可以是指向已编码光谱一部分的运动向量、固定编码簿中光谱形状的索引、或随机噪音向量的形式。因而该编码有效地表示了在解码时要复制的光谱的相似成形部分的经缩放版本。

Description

音频编码方法、音频编码器以及数字介质编码方法

技术领域

本发明一般涉及基于广义感觉相似性编码和解码的数字介质(例如音频、视频、静态图像等)。

背景技术

音频编码使用开发人类听觉的各种感觉模型的编码技术。例如，强音调附近的许多较弱音调被屏蔽从而它们不必进行编码。在传统的感觉音频编码中，这被开发为不同频率数据的适应性量化。重要的感觉频率数据被分配给更多比特从而有较细量化，反之亦然。参见例如Painter T.和SpaniasA.在Proceedings of the IEEE(IEEE学报)88卷第4期2000年4月第451-515页的“Perceptual Coding of Digital Audio”(“数字音频的感觉编码”)。

然而，感觉编码可具有更广泛意义。例如，光谱的某些部分可用适当成形的噪音来编码。参见Schelz D.在Journal of the AES(AES期刊)44卷第7/8期1996年7月/8月第593-598页的“Improving Audio Codecs by Noise Substitution”(“通过噪音置换改进音频编解码器”)。当采取该方法时，经编码信号不以呈现原来的准确或近准确版本为目标。相反，目标是使它与原来版本相比听起来相似并愉悦。

所有这些感觉效果可被用来减少编码音频信号所需的比特率。这是因为某些频率成分并不需要像在原来信号中一样地准确呈现，而可用某些给予与原来相同感觉效果的东西来编码或替换。

发明内容

在此所述的数字介质(例如音频、视频、静态图像等)编码/解码技术利用某些频率成分可使用成形噪音、或其它频率成分的成形版本、或两者的组合来在感觉上良好或部分呈现。更具体地，某些频率波段可在感觉上被良好呈现为已被编码的其它波段的成形版本。即使实际光谱可能偏离该综合版本，它仍然是可被用来不降低质量而大大降低音频信号编码的比特率的感觉良好呈现。

大多数音频编解码器使用诸如修正离散余弦变换(MDCT)或调制重叠转换(MLT)的子波段变换或重叠正交变换来使用光谱分解，这些变换将音频信号从时间-域表示转换成光谱系数块或集。然后这些光谱系数被编码并发送给解码器。这些光谱系数的值的编码构成在音频编解码器中使用的大部分比特率。在低比特率中，音频系统可被设计成粗略地编码所有系数从而导致低质量重建，或编码较少的系数从而导致消声或低通发声信号。在此所述的音频编码/解码技术在实行后者时

(即当音频编解码器选择编码通常较低但不因反向兼容而必须的一些系数时)可被用来改进音频质量。

仅当编码一些系数时，编解码器产生重建中的模糊低通声音。为了改进该质量，所述编码/解码技术花费总比特率的较少百分比来添加遗漏光谱系数的感觉愉悦版本，从而产生更丰富的声音。这不是通过真正编码遗漏系数，而是通过将它们在感觉上呈现为已编码的缩放版本来实现。在一示例中，使用MLT分解(诸如微软Windows媒体音频(WMA))的编解码器进行最高达带宽的某个百分比的编码。然后该编码/解码技术版本将剩下的系数分成若干波段(诸如每个通常由64或128个光谱系数组成的子波段)。对于每一个这些波段，该编码/解码技术版本使用两个参数来编码该波段：表示波段中总能量的比例因子，以及呈现波段内光谱形状的形状系数。该比例因子参数可以就是波段内系数的rms(均方根)值。形状参数可以是仅通过从已被编码光谱的相似部分复制到光谱的标准化版本进行编码的一运动向量。在某些情形中，形状参数可相反指定一标准化随机噪音向量或仅是来自某些其它固定编码簿的向量。从光谱的另一部分复制一部分在音频中是有用的，因为通常在许多音调信号中有在光谱中重复的谐波成分。噪音或某些其它固定编码簿的使用允许对未被光谱的任何已编码部分良好呈现的那些成分的低比特率编码。该编码技术基本上是这些波段的增益-形状向量量化编码，其中该向量是光谱系数的频率波段，而编码簿可从先前编码的光谱中取得并可包括其它固定向量或随机噪音向量。此外，如果光谱的该复制部分被添加到同一部分的传统编码，则该添加是一残余编码。如果信号的传统编码给出易于用一些比特编码的基本表示(例如光谱基底的编码)，且剩下的用新算法编码，则这会是有用的。

因此所述编码/解码技术在现存音频编解码器上改进。特别地，这些技术允许在给定质量上比特率的降低或固定比特率上质量的改进。这些技术可被用来以各种模式(例如连续的比特率或可变的比特率，单通或多通)改进音频编解码器。

参阅以下参照附图进行的对各实施例的详细描述，本发明的特征和优点将变得显而易见。

附图说明

图1和2是本编码技术可结合其中的音频编码器和解码器的框图。

图3是可结合到图1一般音频编码器的使用广义感觉相似性实现有效音频编码的基带编码器和扩展波段编码器的框图。

图4是使用图3扩展波段编码器中的广义感觉相似性来用有效音频编码对波段进行编码的流程图。

图5是可被结合到图2一般音频解码器的基带解码器和经扩展波段解码器的框图。

图6是使用图5经扩展波段解码器中的广义感觉相似性来用有效音频编码对波段进行解码的流程图。

图7是用于实现图1音频编码器/解码器的适当计算环境的框图。

具体实施方式

以下详细描述集中于根据本发明使用广义感觉相似性对数字媒体光谱数据进行数字媒体编码/解码的数字媒体编码器/解码器实施例。更具体地，以下描述详述这些编码/解码技术在音频中的应用。它们还可应用于其它数字媒体类型(例如视频、静止图像等)的编码/解码。在其对音频的应用中，该音频编码/解码使用成形噪音、或其它频率成分的成形版本、或两者的组合来呈现某些频率成分。更具体地，某些频率波段被呈现为已被编码的其它波段的成形版本。这允许给定质量上比特率的降低或固定比特率上质量的改进。

1.通用音频编码器和解码器

图1和2是通用音频编码器(100)和通用音频解码器(200)的框图，其中可结合在此所述的使用广义感觉相似性进行音频光谱数据的音频编码/解码的技术。所示编码器和解码器内模块之间的关系指示编码器和解码器中的主要信息流；其它关系为简便起见未示出。取决于所需压缩的类型和实现，编码器或解码器的模块可被添加、略去、分成多个模块、与其它模块组合、和/或用相似模块替换。在可选实施例中，带有不同模块和/或其它模块配置的编码器或解码器度量感觉音频质量。

其中可结合广义感觉相似性音频光谱数据编码/解码的音频编码器/解码器的更多细节在以下美国专利申请中描述：申请号为10/020,708于2001年12月14日提交的美国专利申请；申请号为10/016,918于2001年12月14日提交的美国专利申请；申请号为10/017,702于2001年12月14日提交的美国专利申请；申请号为10/017,861于2001年12月14日提交的美国专利申请；以及申请号为10/017,694于2001年12月14日提交的美国专利申请，这些申请的揭示通过引入包括在此。

A.通用音频编码器

通用音频编码器(100)包括频率转换器(110)、多通道转换器(120)、感觉建模器(130)、加权器(140)、量化器(150)、熵编码器(160)、速率/质量控制器(170)、以及比特流多路传输器[“MUX”](180)。

编码器(100)接收诸如表格1所示格式的输入音频样本(105)的时间序列。对于多通道输入(例如立体声模式)，编码器(100)独立处理各通道，并遵从多通道转换器(120)对联合编码通道工作。编码器(100)压缩音频样本(105)以及由编码器(100)的各个模块产生的多路传输信息以输出诸如Windows媒体音频[“WMA”]或高级流格式[“ASF”]的格式的比特流(195)。或者，编码器(100)用其它输入和/或输出格式工作。

频率转换器(110)接收音频样本(105)并将它们转换成频率域内的数据。频率转换器(110)将音频样本(105)分成可具有可变尺寸以允许可变瞬时清晰度的多个块。小的块允许在输入音频样本(105)中较短但活动的转换片断上有较多的时间细节保留，但牺牲了一些频率清晰度。相反，大的块具有较佳频率清晰度但较差的时间清晰度，且常常允许在较长和较不活动的片断上有更大的压缩效率。块可重叠以减少否则会通过后来的量化而引入的各块之间的感觉中断。频率转换器(110)将频率系数数据的块输出到多通道转换器(120)并将诸如块尺寸的辅助信息输出到MUX(180)。频率转换器(110)将频率系数数据和辅助信息都输出到感觉建模器(130)。

频率转换器(110)将音频输入样本的帧分成具有时间可变尺寸的重叠子帧块，并将时间变化MLT应用于子帧块。可能的子帧尺寸包括128、256、512、1024、2048和4096个样本。MLT像由时间视窗函数调制的DCT一样操作，其中该视窗函数是随时间变化的并依赖于子帧尺寸序列。MLT将样本x[n]，0≤n≤子帧_尺寸的给定重叠块转换成频率系数X[k]，0≤k＜子帧_尺寸/2的块。频率转换器(110)还可将对后来帧复杂性的估算输出到速率/增加量控制器(170)。可选实施例使用MLT的其它变体。在其它可选实施例中，频率转换器(110)应用DCT、FFT、或其它类型的已调制或未经调制、重叠或未重叠频率变换，或使用子波段或小波编码。

对于多通道音频数据，由频率转换器(110)产生的频率系数数据的多个通道常常是相互关联的。为使用该相互关联，多通道转换器(120)可将多个原始的独立编码通道转换成联合编码通道。例如，如果输入是立体声模式，多通道转换器(120)可将左右通道转换成和通道以及差动通道。

X_{Sum} [k] = \frac{X_{Left} [k] + X_{Right} [k]}{2} - - - (1)

X_{Diff} [k] = \frac{X_{Left} [k] - X_{Right} [k]}{2} - - - (2)

或者，多通道转换器(120)可在作为独立编码通道的左右通道中传递。更一般地，对于一个以上的众多输入通道，多通道转换器(120)在原始的独立编码通道中作未经改变地传递，或将原始通道转换成联合编码通道。使用独立或联合编码通道的判定可被预先确定，或者该判定可在编码期间逐块地或在其它基础上适应性地作出。多通道转换器(120)产生给MUX(180)的指示所使用通道转换模式的辅助信息。

感觉建模器(130)对人类听觉系统的属性建模以对给定比特流改进重建音频信号的质量。感觉建模器(130)计算频率系数可变尺寸块的激励模式。首先，感觉建模器(130)使该块的尺寸和幅度比例标准化。这使能随后的时间模糊并建立用于质量度量的一致比例。可任选地，感觉建模器(130)在某些频率衰减系数以建模外/中耳传输函数。感觉建模器(130)计算块中系数的能量并累加25个关键波段的能量。或者，感觉建模器(130)使用另外数量的关键波段(例如55或109)。关键波段的频率范围是实现相关的，且许多选项是众所周知的。例如参见ITU-R BS1387或本文提及的参考文献。感觉建模器(130)处理导致同时和时间屏蔽的波段能量。在可选实施例中，感觉建模器(130)根据诸如在TU-R BS 1387中描述或提及的不同听觉模型来处理音频数据。

加权器(140)基于从感觉建模器(130)接收的激励模型产生加权因子(或称为量化矩阵)，并将该加权因子应用于从多通道转换器(120)接收的数据。加权因子包括用于音频数据中多个量化波段的每一个的权重。量化波段在数量或位置上可与在编码器(100)其它地方使用的关键波段相同或不同。加权因子指示噪音在量化波段上传播的比例，其目标是通过将更多噪音置入较难听到的波段来最小化噪音的可听度，反之亦然。加权因子在量化波段的幅度和数量上可逐块地不同。在一实现中，量化波段的数量根据块的尺寸变化；较小的块比较大的块具有较少的量化波段。例如，具有128个系数的块具有13个量化波段，具有256个系数的块具有15个量化波段，而高达25个量化波段则用于具有2048个系数的块。加权器(140)产生一个加权因子集用于独立或联合编码通道中多通道音频数据的每个通道，或产生用于联合编码通道的一个单独的加权因子集。在可选实施例中，加权器(140)从不同于激励模式或除激励模式之外的信息产生加权因子。

加权器(140)将系数数据的加权块输出到量化器(150)，并将诸如加权因子集的辅助信息输出到MUX(180)。加权器(140)还可将加权因子输出到速率/质量控制器(140)或编码器(100)中的其它模块。加权因子集可被压缩用于更有效的表示。如果加权因子是有损压缩的，则重建的加权因子通常被用来加权系数数据块。如果块的一个波段中的音频信息因某些原因(例如噪音替换或波段截断)被完全消除，则编码器(100)能够进一步改进该块的量化矩阵的压缩。

量化器(150)量化加权器(140)的输出，从而产生给熵编码器(160)的量化系数数据以及给MUX(180)的包括量化步骤尺寸的辅助信息。量化引入了信息的不可逆损失，但还使编码器(100)与速率/质量控制器(170)一起能调节输出比特流(195)的比特率。在图1中，量化器(150)是适应性的、统一的标量量化器。量化器(150)将相同的量化步骤尺寸应用于某个频率系数，但量化步骤尺寸本身从一次到下次叠代可变化以影响熵编码器(160)输出的比特率。在可选实施例中，量化器是非统一量化器、向量量化器、和/或非适应性量化器。

熵编码器(160)无损地压缩从量化器(150)接收的经量化系数数据。例如，熵编码器(160)使用多级游程编码、可变-到-可变长度编码、游程编码、Hoffman编码、字典编码、算法编码、LZ编码、以上组合、或某些其它熵编码技术。

速率/质量控制器(170)与量化器(150)一起工作以调节编码器(100)输出的比特率和质量。速率/质量控制器(170)从编码器(100)的其它模块接收信息。在一实现中，速率/质量控制器(170)从频率转换器(110)接收对将来复杂度的估算、采样率、块尺寸信息、来自感觉建模器(130)的原始音频数据的激励模式、来自加权器(140)的加权因子、某些形式(例如经量化的、重建的、或编码的)的经量化音频信息块、以及来自MUX(180)的缓冲器状态信息。速率/质量控制器(170)可包括逆量化器、逆加权器、逆多通道转换器、以及可能熵编码器和其它模块来按量化形式重建音频数据。

速率/质量控制器(170)处理信息来确定给定当前条件下所需的量化步骤尺寸，并向量化器(150)输出量化步骤尺寸。然后速率/质量控制器(170)按用量化步骤尺寸量化的来度量经重建音频数据块的质量，如下所述。使用已度量的质量以及比特率信息，速率/质量控制器(170)调整量化步骤尺寸，其目标为满足即时和长期的比特率和质量约束。在可选实施例中，速率/质量控制器(170)用不同或附加信息工作，或应用不同技术来调节质量和比特率。

结合速率/质量控制器(170)，编码器(100)可将噪音替代、波段截断、和/或多通道重新组成矩阵(rematrixing)应用于音频数据块。在低比特率和中比特率时，音频编码器(100)可使用噪音替代来传送某些波段中的信息。在波段截断中，如果块的经度量质量指示较差质量，则编码器(100)可在某些(通常较高频率)波段中完全消除这些系数以改进剩下波段中的整体质量。在多通道重新组成矩阵中，对于低比特率、联合编码通道中的多通道音频数据，编码器(100)可抑制某些通道(例如差动通道)中的信息以改进剩下通道(例如和通道)的质量。

MUX(180)多路传输从音频编码器(100)的其它模块接收的辅助信息，以及从熵编码器(160)接收的经熵编码的数据。MUX(180)以WMA或音频解码器识别的另一格式输出信息。

MUX(180)包括存储由编码器(100)将要输出的比特流(195)的虚拟缓冲器。该虚拟缓冲器存储音频信息的预定时段(例如用于流动音频的5秒)以便平息因音频中的复杂性改变而引起的比特率短期波动。然后虚拟缓冲器以相对恒定的比特率输出数据。缓冲器当前的充盈度、缓冲器充盈度的改变率、以及缓冲器的其它特征可由速率/质量控制器(170)使用来调节质量和比特率。

B.通用音频解码器

参照图2，通用音频解码器(200)包括比特流多路信号分离器[“DEMUX”](210)、熵解码器(220)、逆量化器(230)、噪音发生器(240)、逆加权器(250)、逆多通道转换器(260)、以及逆频率转换器(270)。解码器(200)比编码器(100)简单是因为解码器(200)不包括用于速率/质量控制的模块。

解码器(200)接收WMA或另一格式的经压缩音频数据的比特流(205)。该比特流(205)包括解码器(200)据其重建音频样本(295)的经熵编码数据以及辅助信息。对于具有多通道的音频数据，解码器(200)独立处理每个通道，然后在逆多通道转换器(260)之前可对联合编码通道工作。

DEMUX(210)解析比特流(205)中的信息并将信息发送给解码器(200)的模块。DEMUX(210)包括一个或多个缓冲器以补偿因音频复杂性、网络抖动、和/或其它因素的波动而引起的比特率的短期变化。

熵编码器(220)无损地解压缩从DEMUX(210)接收的熵编码，从而产生经量化的频率系数数据。熵解码器(220)通常应用在编码器中使用的熵编码技术的逆。

逆量化器(230)从DEMUX(210)接收量化步骤尺寸并从熵解码器(220)接收经量化的频率系数数据。逆量化器(230)将量化步骤尺寸应用于经量化的频率系数数据以部分地重建该频率系数数据。在可选实施例中，逆量化器应用在编码器中使用的某些其它量化技术的逆。

噪音发生器(240)从DEMUX(210)接收对数据块中哪些波段被噪音以及噪音形式的任何参数替代的指示。噪音发生器(240)产生用于被指示波段的模式，并将该信息传递给逆加权器(250)。

逆加权器(250)从DEMUX(210)接收加权因子，从噪音发生器(240)接收用于任何噪音替代波段的模式、并从逆量化器(230)接收部分重建的频率系数数据。必要时，逆加权器(250)解压缩加权因子。逆加权器(250)将加权因子应用于未经噪音替代的波段的部分经重建的频率系数数据。然后逆加权器(250)添加从噪音发生器(240)接收的噪音模式。

逆多通道转换器(260)从逆加权器(250)接收已重建的系数数据，并从DEMUX(210)接收通道转换模式信息。如果多通道数据在独立编码的通道内，则逆多通道转换器(260)将其沿通道传递。如果多通道数据是联合编码通道，则逆多通道转换器(260)把该数据转换成独立编码数据。如果需要，解码器(200)可在此时度量经重建的频率系数数据的质量。

逆频率转换器(270)接收由多通道转换器(260)输出的频率系数数据以及来自DEMUX(210)的诸如块尺寸的辅助信息。逆频率转换器(270)应用在编码器中使用的频率转换的逆，并输出经重建音频样本(295)的块。

2.使用广义感觉相似性编码/解码

图3示出使用以广义感觉相似性编码的音频编码器(300)的一个示例，该音频编码器可被结合到图1和2的通用音频编码器(100)和解码器(200)的整体音频编码/解码过程中。在该实现中，音频编码器(300)使用子波段变换或诸如MDCT或MLT的重叠正交变换在变换(320)执行一光谱分解，以产生用于音频信号每个输入块的一个光谱系数集。众所周知，音频编码器编码这些光谱系数用于向解码器发送输出比特流。这些光谱系数的值的编码构成在音频编码解码器中使用的大部分比特率。在较低比特率上，音频编码器(300)选择使用基带编码器340来编码较少的光谱系数(即可在从频率转换器(110)输出的光谱系数带宽的百分比内编码的一些系数)，诸如光谱的较低或基带部分。基带编码器340使用一众所周知编码语法来编码这些基带光谱系数，如上对通用音频编码器所述。这一般会导致经重建音频发声被消声或低通过滤。

音频编码器(300)通过使用广义感觉相似性编码略去的光谱系数来避免消声或低通效应。在用基带编码器340的编码中被略去的这些光谱系数(在此称为“经扩展的波段光谱系数”)被经扩展波段编码器350编码为成形噪音、或其它频率成分的成形版本、或两者的组合。更具体地，经扩展波段的光谱系数被分成众多被编码为成形噪音或其它频率成分的成形版本的子波段(例如通常为64或128个光谱系数)。这添加了遗漏光谱系数的感觉愉悦版本以给出更丰富的声音。即使实际光谱可偏离因该编码所导致的综合版本，该经扩展波段编码提供了与原来相似的感觉效果。

在某些实现中，基带的宽度(即使用基带编码器340编码的基带光谱系数的数量)以及经扩展波段的尺寸或数量可被改变。这样，使用可扩展波段编码器(350)编码的基带宽度和经扩展波段的数量可被编码成输出流(195)。

进行音频编码器(300)中基带光谱系数和经扩展波段系数之间比特流的划分是为了确保基于基带编码器的编码语法与现存解码器反向兼容，从而现存解码器可解码基带经编码部分而略去已扩展部分。结果是只有较新的解码器才具有呈现经扩展波段的编码比特流所覆盖的全部光谱的能力，而较旧的解码器只能呈现编码器选择用现存语法编码的那部分。频率界限可以是灵活和随时间变化的。它可以由编码器基于信号特征判定并被显式发送给解码器，或者它可以是经解码光谱的函数，所以无需发送它。因为现存解码器仅能解码使用现存(基带)编解码器编码的那部分，这意味着光谱的较低部分用现存编解码器编码而较高部分则以使用广义感觉相似性的经扩展波段来编码。

在无需这种反向兼容的其它实现中，编码器可完全基于信号特征和编码成本在常规基带编码和经扩展波段(广义感觉相似性方法)之间自由选择而无需考虑频率位置。例如，尽管在自然信号中极不可能，但最好还是用常规编解码器来编码较高频率而用经扩展的编解码器来编码较低部分。

图4是示出由图3的经扩展波段编码器(350)执行音频编码过程(400)以编码经扩展的波段光谱系数的流程图。在该音频编码过程中(400)，经扩展的波段编码器(350)将经扩展的波段光谱系数分成一些子波段。在一典型实现中，这些子波段一般每个包括64或128个光谱系数。或者，可使用其它尺寸的子波段(例如16、32或其它数量的光谱系数)。子波段可以是离散的或重叠的(使用开窗术)。对于重叠的子波段，编码更多的波段。例如，如果128个光谱系数不得不使用具有尺寸为64的子波段的经扩展波段编码器来编码，我们可使用两个离散波段来编码这些系数，其中系数0-63为一子波段而64-127为另一子波段。或者我们可使用有50％重叠的三个重叠波段，其中0-63为一波段，32-95为另一波段，而64-127为第三波段。

对于这些子波段的每一个，经扩展波段编码器(350)使用两个参数编码该波段。一个参数(“比例参数”)是在波段中表示全部能量的比例因子。另一参数(“形状参数”，通常以运动向量形式)被用来表示波段内光谱的形状。

如图4流程图所示，经扩展波段编码器(350)对经扩展波段的某个子波段执行过程(400)。首先(在420)，经扩展波段编码器(350)计算比例因子。在一实现中，比例因子仅是当前子波段内系数的rms(均方根)值。这通过取所有系数的平均平方值的平方根获得。该平均平方值通过取该子波段中所有系数的平方值的和，再除以系数的数量获得。

然后该经扩展波段编码器(350)确定形状参数。该形状参数常常是指示从已被编码的光谱部分(即用基带编码器编码的基带光谱系数的一部分)复制到光谱的标准化版本上的运动向量。在某些情形中，形状系数可相反指定一标准化随机噪音向量或仅为从来自固定编码簿的光谱形状的向量。从光谱的另一部分复制该形状在音频中是有用的，因为通常在许多音调信号中有许多在光谱中重复的谐波成分。噪音或某些其它固定编码簿的使用允许未在光谱的经基带编码部分中良好呈现的那些成分的低比特率编码。因此，过程(400)提供一种基本上是这些波段的增益形状向量量化编码的编码方法，其中该向量是光谱系数的频率波段，而编码簿取自先前编码器的光谱并也可包括其它固定向量或随机噪音向量。那是由经扩展波段编码器编码的表示为a*X的每个子波段，其中‘a’是比例参数而‘X’是由形状参数表示的向量，并可以是先前经编码光谱系数的标准化版本，来自固定编码簿的向量或随机噪音向量。此外，如果光谱的被复制部分被添加到同一部分的传统编码中，则该添加是剩余编码。如果信号的传统编码给出便于用一些比特编码的基本表示(例如光谱基底的编码)，且剩余用新算法编码，则这会是有用的。

更具体地，在动作(430)，经扩展波段编码器(350)在具有类似于经扩展波段的当前子波段的形状的基带光谱系数中搜索相同波段的基带光谱系数。该经扩展波段编码器使用与基带每个部分的标准化版本的最小均方比较来确定基带的哪个部分与当前子波段最相似。例如，考虑一情形，其中有由变换(320)从输入块生成的256个光谱系数，经扩展波段的子波段在宽度上每个都有16个光谱系数，而基带编码器将前128个光谱系数(编号为0-127)编码为基带。然后，搜索执行每个经扩展波段中的16个标准化光谱系数与从系数位置0开始直到111的基带(即在此情形中总共有在基带中编码的112个不同的可能光谱形状)的每16个光谱系数部分的标准化版本之间的最小均方比较。具有最低的最小均方值的基带部分被视为在形状上与当前经扩展波段最接近(最相似)。在动作(432)，经扩展波段编码器检查基带光谱系数中的最相似波段在形状上是否与当前经扩展波段足够接近(即最小均方值低于预选阈值)。如果是，则经扩展波段编码器在动作(434)确定指向基带光谱系数的最相近匹配波段的运动向量。该运动向量可以是基带中的开始系数位置(例如在该示例中的0-111)。其它方法(诸如检查音调对无音调)也可被用来查看基带光谱系数中的最相似波段在形状上是否与当前经扩展波段足够接近。

如果未发现基带的足够相似部分，则经扩展波段编码器查看光谱形状的固定编码簿来表示当前的子波段。经扩展波段编码器在该固定编码簿中搜索与当前子波段形状相似的波段形状。如果发现，则经扩展波段编码器使用其在编码簿中的索引作为动作(444)上的形状参数。否则，在动作(450)，经扩展波段编码器确定将当前子波段的形状表示为标准化的随机噪音向量。

在可选实现中，设置在搜索基带中最佳光谱形状之前经扩展的波段编码器可判定光谱系数是否就可使用噪音来表示。这样，即使在基带中找到一足够接近的光谱形状，经扩展波段编码器将仍然使用随机噪音编码该部分。这在与对应于基带中位置发送运动向量相比较时，可导致较少比特。

在动作(460)，经扩展波段编码器使用预测编码、量化和/或熵编码来编码比例和形状参数(即在本实现中的比例因子和运动向量)。例如，在一实现中，比例参数基于紧靠前的经扩展子波段被预测编码(经扩展波段的子波段的比例因子通常在值上是相似的，从而连续子波段通常具有其值相近的比例因子)。换言之，用于经扩展波段的第一子波段的比例因子的全值被编码。随后子波段按其实际值和其预测值的差值被编码(即预测值为前面子波段的比例因子)。对于多通道音频，每个通道中经扩展波段的第一子波段按其全值被编码，且随后的子波段的比例因子从通道中先前子波段的比例因子预测。在可选实现中，比例参数还可在通道上从一个以上其它子波段、从基带光谱、或从先前的音频输入块等预测。

经扩展波段编码器还使用统一或非统一量化来量化比例参数。在一实现中，使用比例参数的非统一量化，其中比例因子的对数被统一量化到128bin。最后的经量化值使用Huffman编码进行熵编码。

对于形状参数，经扩展波段编码器还使用预测编码(可从前面的子波段对比例参数预测)、量化为64bin、以及熵编码(例如用Huffman编码)。

在某些实现中，经扩展波段的子波段在尺寸上可变。在这样的情形中，经扩展波段编码器还编码经扩展波段的配置。

更具体地，在一示例实现中，经扩展波段编码器编码比例和形状参数，如以下代码表格中列出的伪代码所示：

代码表格

for each tile in audio scream

for each channel in tile that may need to be coded{e.g.

subwcoofet may not need to be coded}

I bit to ind：catc if channel is coded or not.

H bits to spccify qoantozed version of version of starting position of

extended bard

′D_confiq′bits to specity coding of band configoration.

for each sub-band to be coded using extended band coder

{

′n_scale′bits for variable length code to specify scale

parameter lenergy in band).

′n_shape′bits for variable length code to specify shape

parameter.

在以上代码列表中，指定波段配置(即波段的数量及其尺寸)的编码取决于要使用经扩展波段编码器编码的光谱系数的数量。使用经扩展波段编码器编码的系数数量可使用经扩展波段的开始位置和光谱系数的总量来发现(使用经扩展波段编码器编码的光谱系数的数量＝光谱系数的总量一开始位置)。然后波段配置被编码为所允许的所有可能配置列表的索引。该索引使用具有n_config＝log2(配置数量)比特的固定长度代码来编码。所允许的配置是要使用该方法编码的光谱系数数量的函数。例如，如果要编码128个系数，缺省配置为尺寸64的2个波段。其它配置是可能的，例如如下表所列：

用于128个光谱系数的波段配置的列表

0：128

1：64 64

2：64 32 32

3：32 32 64

4：32 32 32 32

因而，在该示例中，有5个可能的波段配置。在这种配置中，用于这些系数的缺省配置被选为具有‘n’个波段。然后，如果允许每个波段划分或合并(仅一层)，则有5^(n/2)种可能配置，其需要(n/2)log2(5)个比特编码。在其它实现中，可变长度编码可被用来编码该配置。

如上所述，比例因子使用预测编码来编码，其中预测可从来自同一通道内先前波段、来自同一区域先前通道、或来自先前经解码区域的的先前经编码比例因子中获取。对于一给定实现，对预测的选择可通过查看哪个先前波段(在同一经扩展波段、通道或区域(输入块)中)提供最高相互关系来作出。在一实现示例中，波段被如下预测编码：

假设区域中比例因子为[i][j]，其中i＝通道索引，j＝波段索引。

对于i＝＝0&&j＝＝0(第一通道，第一波段)，无预测。

对于i！＝0&&j＝＝0(其它通道，第一波段)，预测为x[0][0](第一通道，第一波段)。

对于i！＝0&&j！＝0(其它通道，其它波段)，预测为x[i][j-1](同一通道，前一波段)。

在以上代码表格中，“形状参数”是指定先前光谱系数位置的运动向量、或来自固定代码簿的向量、或噪音。该先前光谱系数可来自同一通道内、或来自先前通道、或来自先前区域。该形状参数使用预测编码，其中预测从同一通道内的先前波段、或同一区域内的先前通道、或先前区域的先前位置获取。

图5示出用于由音频编码器(300)产生的比特流的音频解码器(500)。在该解码器中，经编码比特流(205)由比特流多路信号分离器(210)(例如基于经编码基带宽度和经扩展波段配置)分离成基带编码流和经扩展波段编码流，它们在基带解码器(540)和经扩展基带解码器(550)中解码。该基带解码器(540)使用基带编解码器的常规解码来解码基带光谱系数。经经扩展波段解码器(550)解码经扩展波段编码流，包括复制由形状参数的运动向量指向的基带光谱系数的一部分，并由比例参数的缩放因子缩放。基带和经扩展波段光谱系数被组合成由逆变换580转换来重建音频信号的单个光谱。

图6示出在图5的经经扩展波段解码器(550)中使用的解码过程(600)。对于经扩展波段编码流中经扩展波段的某个经编码子波段(动作(610))，经经扩展波段解码器解码比例因子(动作(620))和运动向量(动作(630))。然后经经扩展波段解码器复制基带子波段、固定编码簿向量、或由运动向量(形状参数)标识的随机噪音向量。经经扩展波段解码器按照缩放因子缩放被复制的光谱波段以产生经扩展波段的当前子波段的光谱系数。

3.计算环境

图7示出各说明性实施例可在其中实现的适当计算环境(700)。该计算环境(700)并非旨在提出对本发明的使用范围或功能的任何限制因为本发明可在不同通用或专用计算环境中实现。

参照图7，计算环境(700)包括至少一个处理单元(710)和存储器(720)。在图7中，最基本配置(730)被包括在虚线内。处理单元(710)执行计算机可执行指令，并可以是真实或虚拟处理器。在多处理系统中，多个处理单元执行计算机可执行指令以增加处理能力。存储器720可以是易失性的(例如寄存器、高速缓存器RAM)、非易失性的(诸如ROM、EEPROM、闪存等等)、或两者的某些组合。存储器(720)存储实现音频编码器的软件(780)。

计算环境可具有附加特征。例如，计算环境(700)包括存储器(740)、一个或多个输入装置(750)、一个或多个输出装置(760)、以及一个或多个通信连接(770)。诸如总线、控制器或网络的相互连接机制(未示出)使计算机环境(700)的组件相互连接。通常，操作系统软件(未示出)在计算环境(700)中执行的其它软件，提供操作环境并协调计算环境(700)组件的动作。

存储器(740)可以是可移动和/或不可移动的，并包括磁盘、磁带或磁盒、CD-ROM、CD-RW、DVD、或可用来存储信息并可在计算环境(700)内访问的任何其它介质。存储器(740)存储实现音频编码器的软件(780)的指令。

输入装置(750)可以是诸如键盘、鼠标、笔或跟踪球、语音输入装置、扫描仪、或另一向计算环境(700)提供输入的装置。对于音频，输入装置(750)可以是接受模拟或数字形式音频输入的声卡或类似装置。输出装置(760)可以是显示器、打印机、扬声器、或另一提供来自计算环境(700)的输出的装置。

通信连接770使能经通信介质与另一计算实体的通信。通信介质传送诸如计算机可执行指令、经压缩音频或视频信息、或已调制数据信号的信息。已调制数据信号是具有以这种把信息编码到信号中的方式来设置或改变的一个或多个特征的信号。作为示例，而非限制，通信介质包括用电子、光学、RF、红外、声学和其它载体的有线或无线技术。

本发明可在计算机可读介质的一般上下文中描述。计算机可读介质是可在计算环境内访问的任何可用介质。作为示例，而非限制，对于计算环境(700)，计算机可读介质包括存储器(720)、存储器(740)、通信介质、以及以上任意组合。

本发明可在计算机可执行指令的一般上下文中描述，诸如包括在程序模块中并在目标真实或虚拟处理器上的计算环境中执行的指令。通常，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、库、对象、类、组件、数据结构等。程序模块的功能在各实施例中可按需在程序模块之间组合或划分。程序模块的计算机可执行指令可在本地或分布式计算环境内执行。

为了呈现，详细说明使用像“确定”、“获取”、“调整”和“应用”的术语来描述计算环境中的计算机操作。这些术语是由计算机这些的操作的高级抽象，且不应与人类执行的动作相混淆。对应于这些术语的实际计算机操作依赖于实现而改变。

由于许多可能实施例都可应用本发明原理，故我们要求可能属于所附权利要求及其等效实体的范围和精神内的所有这类实施例作为我们的发明。

Claims

1.一种音频编码方法，包括：

将输入音频信号块变换成一光谱系数集；

将这些光谱系数分成多个子波段；

在输出比特流中编码所述多个子波段中的至少一个子波段的光谱系数的值；

对于多个其它子波段中的至少一个子波段，将所述输出比特流中该其它子波段编码为被编码成光谱系数值的所述多个子波段中的所述至少一个子波段的一部分的形状的经缩放版本；

对于多个其它子波段中的每一个：

执行一搜索以确定被编码为光谱系数的所述多个子波段中的所述至少一个子波段的多个部分中的哪一个部分在形状上更相似于相应的其它子波段；

确定所确定的部分是否在形状上与所述相应的其它子波段足够相似；

如果是，则将所述相应的其它子波段编码为所确定的部分的形状的经缩放版本；以及

否则，将所述相应的其它子波段编码为固定编码簿中形状的或随机噪音向量的经缩放版本。

2.如权利要求1所述的音频编码方法，其特征在于，对其它子波段编码包括：使用一比例参数和一形状参数来编码所述其它子波段，其中所述形状参数指示出被编码为光谱系数值的所述多个子波段中的所述至少一个子波段的所述一部分，所述比例参数是缩放所指示出的部分的缩放因子。

3.如权利要求2所述的音频编码方法，其特征在于，所述缩放因子表示所述其它子波段的总能量。

4.如权利要求2所述的音频编码方法，其特征在于，所述缩放因子是所述其它子波段内系数的均方根值。

5.如权利要求2所述的音频编码方法，其特征在于，所述形状参数是一运动向量。

6.如权利要求1所述的音频编码方法，其特征在于，执行搜索包括执行与所述多个部分中的每一个部分的标准化版本的最小均方比较。

7.如权利要求1所述的音频编码方法，其特征在于，所述否则编码所述相应的其它子波段包括：

在固定编码簿中表示的形状中执行对在形状上更相似于所述相应的其它子波段的形状的搜索；

如果在固定编码簿中找到这样的相似形状，则将所述相应的其它子波段编码为固定编码簿中这样的相似形状的经缩放版本；以及

否则，将所述相应的其它子波段编码为随机噪音向量的经缩放版本。

8.一种音频编码器，其特征在于，包括：

一变换装置，用于将输入音频信号块变换成一光谱系数集；

一基本编码器，用于在输出比特流中编码所述集的这些光谱系数的基带部分的光谱系数值；以及

一广义感觉相似性编码器，用于将所述集的其它光谱系数的至少一个其它子波段编码为所述基带部分的子部分的经缩放形状，其中，所述广义感觉相似性编码器还包括：

一装置，用于对多个其它子波段的每一个子波段执行一搜索，以确定被编码为光谱系数的所述至少一个子波段的多个部分中的哪一个部分在形状上更相似于相应的其它子波段；

一装置，用于确定所确定的部分是否在形状上与所述相应的其它子波段足够相似；

一装置，用于如果所确定的部分在形状上与所述相应的其它子波段足够相似，则将所述相应的其它子波段编码为所确定的部分的形状的经缩放版本；

一装置，用于如果所确定的部分在形状上与所述相应的其它子波段并不足够相似，则将所述相应的其它子波段编码为固定编码簿中形状的或随机噪音向量的经缩放版本。

9.如权利要求8所述的音频编码器，其特征在于，所述广义感觉相似性编码器产生所述其它子波段的编码，使用一缩放因子参数和一运动向量参数来表示所述子部分的经缩放形状。

10.如权利要求9所述的音频编码器，其特征在于，所述缩放因子参数表示所述其它子波段的总能量。

11.如权利要求9所述的音频编码器，其特征在于，所述缩放因子是所述其它子波段内系数的均方根值。

12.一种数字介质编码方法，其特征在于，包括：

将输入信号块变换成一光谱系数集；

将这些光谱系数分成多个分离或重叠的子波段；

通过一选定的编码过程编码每个子波段，所述编码过程在给定比特率、缓冲器尺寸、以及编码器复杂度约束集时在广义感觉意义上最好地表示所述子波段，其中所述编码过程从以下编码过程中选择：

使用基带编解码器来编码所述子波段；

将所述子波段表示为已编码光谱的一部分的经适当缩放版本；

将所述子波段表示为来自固定编码簿的向量的经适当缩放版本；以及

将所述子波段表示为随机噪音的经适当缩放版本。