CN102089808A

CN102089808A - 音频编码器、音频解码器、用于编码及解码音频信号的方法、音频流与计算机程序

Info

Publication number: CN102089808A
Application number: CN2009801271188A
Authority: CN
Inventors: 尼古拉斯·里特尔博谢; 伯恩哈德·格瑞; 纪尧姆·福克斯; 斯特凡·杰尔斯伯尔吉尔; 马库斯·马特拉斯; 哈拉尔德·波普; 于尔根·赫勒; 斯特凡·瓦希尼克; 杰拉尔德·舒勒; 延斯·希斯费尔德
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2008-07-11
Filing date: 2009-06-25
Publication date: 2011-06-08
Anticipated expiration: 2029-06-25
Also published as: KR101582057B1; CA2730536A1; CA2730361A1; AU2009267459B2; BR122021003097B1; US20110170711A1; US11869521B2; AR072482A1; ZA201100091B; ES2422412T3; CA2730536C; BR122021003142B1; EP2304719B1; ES2642906T3; EP3246918A1; BRPI0910522A2; KR20140036042A; HK1160285A1; EG26480A; KR20160004403A

Abstract

一种基于输入音频信号的变换域表示提供音频流的编码器，包括量化误差计算器，被配置为确定该输入音频信号的多个频带上的多频带量化误差，单独的频带增益信息可用于该多个频带。该编码器也包括音频流提供器，被配置为提供音频流，使得该音频流包括描述该频带的音频内容的信息，及描述该多频带量化误差的信息。一种基于表示音频信号的频带的频谱分量的编码音频流来提供音频信号的解码表示的解码器，包括噪声填充器，被配置为基于共同的多频带噪声强度值，将噪声引入多个频带的频谱分量，单独的频带增益信息与该多个频带相关联。

Description

音频编码器、音频解码器、用于编码及解码音频信号的方法、音频流与计算机程序

技术领域

依据本发明的实施例涉及一种基于输入音频信号的变换域表示提供音频流的编码器。依据本发明进一步的实施例涉及一种基于编码音频流提供音频信号的解码表示的解码器。依据本发明进一步的实施例提供用于编码音频信号及解码音频信号的方法。依据本发明进一步的实施例提供音频流。依据本发明进一步的实施例提供用于编码音频信号及解码音频信号的计算机程序。

一般而言，依据本发明的实施例涉及噪声填充。

背景技术

音频编码概念通常在频域中编码音频信号。例如，所谓的“先进音频编码”(AAC)概念将心理声学模型计入考虑，来编码不同频谱区段(或频率区段)的内容。为此目的，不同频谱区段的强度信息被编码。然而，用于编码不同频谱区段中的强度的分辨率依据不同频谱区段的心理声学关联性被调整。藉此，一些被认为心理声学关联低的频谱区段以非常低的强度分辨率被编码，使得被认为具有低心理声学关联的部分或甚至于支配性数量的频谱区段被量化为零。将频谱区段的强度量化为零带来量化的零值可用一非常节省比特的方法被编码的优势，这有助于保持比特率尽可能小。然而，量化为零的频谱区段有时产生可听见的伪像，即便该心理声学模型指示该频谱区段是低心理声学关联性时也是如此。

因此，音频编码器及音频解码器中有处理量化为零的频谱区段的需求。

有不同的已知方法可供在变换域音频编码系统及语音编码器中处理被编码为零的频谱区段。

例如，MPEG-4“AAC”(先进音频编码)使用感知噪声替代(PNS)的概念。该感知噪声替代仅以噪声填充全部的尺度因子频带。有关MPEG-4 AAC的细节例如可在国际标准ISO/IEC 14496-3(信息技术-视听对象的编码-第3部份：音频)中找到。另外，AMR-WB+语音编码器以随机噪声向量替代量化为零的向量量化向量(VQ向量)，在该随机噪声向量中，每一复频谱值具有恒定幅度及随机相位。该幅度由以比特流被传送的一个噪声值控制。有关AMR-WB+语音编码器的细节例如可在名为“Third Generation Partnership Project；Technical Specification Group Services and System Aspects；Audio Codec Processing Functions；Extended Adaptive Multi-Rate-Wide Band(AMR-WB+)Codec；Transcoding Functions(Release Six)”的技术规范中找到，该规范亦称为“3GPP TS 26.290 V6.3.0(2005-06)-Technical Specification”。

另外，EP 1 395 980 B1描述音频编码概念。该公开描述一种措施，藉由该措施，可听见但感知上关联较低的原始音频信号的信息的选择频带不需被编码，而是可以由噪声填充参数替代。相反地，那些感知上关联较高的内容的信号频带被完全编码。编码比特以此方式被节省，而在该已接收信号的频谱中未留下虚值。该噪声填充参数是所讨论频带中的RMS信号值的测量，且由解码算法被用在接收端以指示要注入所讨论频带中的噪声量。

其他方法提供一种将发送频谱的音调计入考虑，来将非导引性噪声插入编码器。

然而，这些常规概念典型地带来的问题是它们包括有关噪声填充的粒度的低分辨率，从而典型地劣化听觉印象，或需要相当大量的噪声填充辅助信息，这需要额外的比特率。

鉴于以上所述，需要一种改进的噪声填充概念，该概念在可达到的听觉印象与要求的比特率之间提供一改进的折衷方案。

发明内容

依据本发明的实施例建立一种基于输入音频信号的变换域表示提供音频流的编码器。该编码器包括量化误差计算器，被配置为确定该输入音频信号的多个频带(例如多个尺度因子频带上)的多频带量化误差，单独的频带增益信息(例如单独的尺度因子)可用于该多个频带。该编码器也包括音频流提供器，被配置为提供该音频流，使得该音频流包括描述该频带的音频内容的信息及描述该多频带量化误差的信息。

上述编码器所依据的发现是，使用多频带量化误差信息带来基于相当小量的辅助信息而获得良好听觉印象的可能性。详言之，使用覆盖可利用单独的频带增益信息的多个频带的多频带量化误差信息，可容许考虑基于多频带量化误差的噪声值在解码器端依据频带增益信息的缩放。因此，由于该频带增益信息典型地与频带的心理声学关联性或与被施加于频带的量化精度相关，该多频带量化误差信息被识别为辅助信息，这允许实现提供良好听觉印象的合成填充噪声，同时保持该辅助信息比特率的低成本。

在一较佳实施例中，该编码器包括量化器，被配置为取决于不同频带的心理声学关联性，使用不同的量化精度量化该变换域表示的不同频带的频谱分量(例如，频谱系数)，以获得量化的频谱分量，其中不同的量化精度由频带增益信息反映。并且，音频流提供器被配置为提供音频流，使得该音频流包括描述该频带增益信息的信息(例如以尺度因子的形式)，且使得该音频流也包括描述该多频带量化误差的信息。

在一较佳实施例中，量化误差计算器被配置为确定在量化域中的量化误差，使得取决于频谱分量的频带增益信息、在一整数值量化前被执行的缩放被计入考虑。通过考虑量化域中的量化误差，当计算多频带量化误差时将频谱区段的心理声学关联性计入考虑。例如，对于低感知关联性的频带而言，量化可以是粗略的，因此绝对量化误差(在非量化域中)较大。相较之下，对于高心理声学关联性的频带而言，该量化是精细的，且该量化误差在非量化域中较小。为了使高心理声学关联性及低心理声学关联性的频带中的量化误差具可比较性，以获得有意义的多频带量化误差信息，在一较佳实施例中该量化误差在该量化域中(而不是在非量化域中)被计算。

在一另外较佳实施例中，编码器被配置为将量化为零的频带(例如，该频带的所有频谱区段量化为零)的频带增益信息(例如，尺度因子)设定为对量化为零的频带的能量与该多频带量化误差的能量之间的比率加以表示的值。通过将量化为零的频带的尺度因子设定为良好定义的值，可以以噪声填充该量化为零的频带，使得该噪声的能量至少大约等于该量化为零的频带的原始信号能量。通过调整该编码器中的尺度因子，解码器可用与任何其他未量化为零的频带的相同方法处理量化为零的频带，使得不需要复杂的异常处理(典型地需要额外的信令)。另外，通过调整频带增益信息(例如尺度因子)，频带增益值与多频带量化误差信息的组合允许对填充噪声的方便的确定。

在一较佳实施例中，量化误差计算器被配置为确定多个频带上的多频带量化误差，该多个频带包括至少一个量化为非零值的频率分量(例如频率区段)，而避免频带被全部量化为零。已发现如果全部量化为零的频带从计算中被省去，多频带量化误差信息尤其有意义。在全部量化为零的频带中，量化典型地非常粗略，使得从这种频带获得的量化误差信息典型地不特别有意义。另外，心理声学上较关联的、没有全部量化为零的频带中的量化误差提供更有意义的信息，该信息允许在解码器侧适于人类听觉的噪声填充。

依据本发明的实施例建立一种基于表示音频信号频带的频谱分量的编码流来提供音频信号的解码表示的解码器。该解码器包括噪声填充器，被配置为基于共同的多频带噪声强度值，将噪声引入多个频带的频谱分量中(例如，频谱线值，或较一般地，频谱区段值)，单独的频带增益信息(例如，尺度因子)与该多个频带相关联。

该解码器基于一项发现，即如果单独的频带增益信息与不同的频带相关联，那么单一多频带噪声强度值可被施用于具有良好结果的噪声填充。因此，对被引入不同频带中的噪声的单独缩放可以是基于频带增益信息的，使得例如当与单独的频带增益信息结合时，该单一共同多频带噪声强度值提供足够的信息，以用适配于人类心理声学的方法引入噪声。因此，本文所描述的概念允许在量化(但是非重缩放)域中施加噪声填充。加入解码器中的噪声可以频带的心理声学关联性来缩放，而不需要额外的辅助信息(除了无论如何在依据频带的心理声学关联性缩放频带的非噪声音频内容时需要的辅助信息以外)。

在一较佳实施例中，该噪声填充器被配置为取决于各个单独频谱区段是否量化为零，选择性地逐频谱区段地决定是否将噪声引入频带的单独频谱区段。因此，可以保持所需辅助信息的量小的同时获得噪声填充的细粒度。事实上，不需要发送任何频带特定的噪声填充辅助信息，然而仍具有关于噪声填充的优良粒度。例如，典型地需要对频带发送频带增益因数(例如尺度因子)，即使该频带的仅单一频谱线(或单一频谱区段)量化为非零强度值。因此，可以说，如果频带的至少一个频谱线(或频谱区段)量化为非零强度，尺度因子信息可无额外成本地(从比特率方面来讲)供噪声填充之用。然而，依据本发明的发现，没有必要传送频带特定的噪声信息以获得频带中的合适的噪声填充，其中在此频带中，至少一个非零频谱区段强度值存在。另外，已发现心理声学上的良好结果可通过使用与频带特定的频带增益信息(例如尺度因子)结合的多频带噪声强度值而获得。因此，不需要在频带特定的噪声填充信息上浪费比特。另外，单一多频带噪声强度值的发送是足够了，因为多频带噪声填充信息可与不论以何种方式被发送的频带增益信息结合，以获得非常适合于人类听觉期望的频带特定的噪声填充信息。

在另一较佳实施例中，该噪声填充器被配置为接收对频域音频信号表示的第一频带的不同重迭或不重迭频率部份加以表示的多个频谱区段值，且接收对该频域音频信号表示的第二频带的不同重迭或不重迭频率部份加以表示的多个频谱区段值。另外，该噪声填充器被配置为用第一频谱区段噪声值替代多个频带的第一频带的一个或多个频谱区段值，其中该第一频谱区段噪声值的大小由多频带噪声强度值决定。另外，该噪声填充器被配置为用具有与第一频谱区段噪声值相同大小的第二频谱区段噪声值替代第二频带的一个或多个频谱区段值。该解码器也包括缩放器，被配置为用第一频带增益值缩放第一频带的频谱区段值，以获得该第一频带的缩放后频谱区段值，且用第二频带增益值缩放该第二频带的频谱区段值，以获得该第二频带的缩放后频谱区段值，使得用第一及第二频谱区段噪声值替代的频谱区段值以不同的频带增益值被缩放，且使得用第一频谱区段噪声值替代的频谱区段值、表示该第一频带的音频内容的该第一频带的非替代频谱区段值用该第一频带增益值被缩放，且使得用第二频谱区段噪声值替代的频谱区段值、表示该第二频带的音频内容的第二频带的非替代频谱区段值以该第二频带增益值被缩放。

在依据本发明的实施例中，该噪声填充器被可选择地配置为，如果给定频带量化为零，使用噪声偏移值选择性地修改该给定频带的频带增益值。因此，该噪声偏移用于将许多辅助信息比特最小化。就该最小化而言，应注意在AAC音频编码器中对尺度因子(scf)的编码使用随后的尺度因子(scf)之差的霍夫曼编码来执行。小的差值获得最短的编码(而大的差值获得较大编码)。该噪声偏移在从常规尺度因子(未量化为零的频带的尺度因子)到噪声尺度因子以及返回的转换中最小化“平均差”，且因此优化该辅助信息的比特需求。这是由于通常“噪声尺度因子”大于常规尺度因子的事实，因为所包括的行不＞＝1，但是对应于平均量化误差e(其中典型地，0＜e＜0.5)。

在一较佳实施例中，该噪声填充器被配置为用频谱区段噪声值(频谱区段噪声值的大小取决于多频带噪声强度值)替代量化为零的频谱区段的频谱区段值，以仅仅针对最低频谱区段系数在预定频谱区段索引之上的频带，获得替代频谱区段值，而最低频谱区段系数在预定频谱区段索引之下的频带的频谱区段值不受影响。另外，该噪声填充器较佳地被配置为选择性地，对于最低频谱区段系数在预定频谱区段索引之上的频带，如果给定频带完全量化为零，取决于噪声偏移值而修改该给定频带的频带增益值(例如尺度因子值)。较佳地，噪声填充仅在预定频谱区段索引之上被执行。并且，该噪声偏移较佳地仅被施加于量化为零的频带，且较佳地在预定频谱区段索引之下不被施加。另外，该解码器较佳地包括缩放器，被配置为将被选择性地修改的或未修改的频带增益值施加于被选择性地替代或未替代的频谱区段值，以获得缩放后的频谱信息，该信息表示音频信号。使用此方法，解码器达到非常平衡的听觉印象，该听觉印象并未由该噪声填充被严重劣化。噪声填充仅施加于较高频带(最低频谱区段系数在预定频谱区段索引之上)，因为在较低频带中的噪声填充将带来不希望的听觉印象的劣化。另一方面，较佳地在较高频带中执行噪声填充。应注意在一些情况中，较低尺度因子频带(sfb)被量化得更细(相比于较高尺度因子频带)。

依据本发明的另一实施例建立一种基于输入音频信号的变换域表示来提供音频流的方法。

依据本发明的另一实施例建立一种基于编码音频流来提供音频信号的解码表示的方法。

依据本发明的又一实施例建立一种用于执行一个或多个上述方法的计算机程序。

依据本发明的再一实施例建立一种表示音频信号的音频流。该音频流包括描述该音频信号的频谱分量的强度的频谱信息，其中该频谱信息在不同的频带中以不同的量化精度来量化。考虑到不同的量化精度，该音频流也包括描述在多个频带上的多频带量化误差的噪声水平信息。如上所述，此音频流允许对音频内容的高效解码，其中在可实现的听觉印象与所要求的比特流之间的获得良好折衷。

附图说明

图1示出了依据本发明一实施例的编码器的方块示意图；

图2示出了依据本发明另一实施例的编码器的方块示意图；

图3a及图3b示出了依据本发明一实施例的扩展先进音频编码(AAC)的方块示意图；

图4a及图4b示出了被执行供音频信号的编码之用的算法的伪码程序列表；

图5示出了依据本发明一实施例的解码器的方块示意图；

图6示出了依据本发明另一实施例的解码器的方块示意图；

图7a及图7b示出了依据本发明一实施例的扩展的AAC(先进音频编码)解码器的方块示意图；

图8a示出了逆量化的数学表示，该逆量化可在图7中的扩展AAC解码器中执行；

图8b示出了逆量化的算法的伪码程序列表，该逆量化可由图7中的扩展AAC解码器执行；

图8c示出了逆量化的流程图表示；

图9示出了噪声填充器及重缩放器的方块示意图，它们可用在图7的扩展AAC解码器中；

图10a示出了算法的伪程序码表示，该算法可由图7的噪声填充器或由图7的噪声填充器执行；

图10b示出了图10a的伪程序码的元素的图例；

图11示出了一种方法的流程图，该方法可在图7的噪声填充器或图9的噪声填充器中实施；

图12示出了图11的方法的图式说明；

图13a及13b示出了算法的伪程序码表示，该算法可由图7的噪声填充器或图9的噪声填充器执行；

图14a至14d示出了依据本发明一实施例的音频流的比特流元素的表示；及

图15示出了依据本发明另一实施例的比特流的图式表示。

具体实施方式

1.编码器

1.1.依据图1的编码器

图1示出了依据本发明一实施例的一种基于输入音频信号的变换域表示来提供音频流的编码器的方块示意图。

图1的编码器100包括量化误差计算器110及音频流提供器120。量化误差计算器110被配置为接收：与第一频带有关的信息112，对于第一频带，第一频带增益信息是可用的；以及关于第二频带的信息114，对于第二频带，第二频带增益信息是可用的。量化误差计算器被配置为确定输入音频信号的多个频带上的多频带量化误差，对于这多个频带，单独的的频带增益信息是可用的。例如，量化误差计算器110被配置为使用信息112、114确定第一频带及第二频带上的多频带量化误差。因此，量化误差计算器110被配置为向音频流提供器120提供描述多频带量化误差的信息116。音频流提供器120被配置为也接收描述第一频带的信息122及描述第二频带的信息124。另外，该音频流提供器120被配置为提供音频流126，使得音频流126包括信息116的表示、以及第一频带的与第二频带的音频内容的表示。

因此，编码器110提供包括信息内容的音频流126，该信息内容允许使用噪声填充高效地解码频带的音频内容。具体地，由编码器提供的音频流126带来比特率与噪声填充解码灵活性之间的良好折衷。

1.2.依据图2的编码器

1.2.1.编码器总览

在下文中，依据本发明一实施例的一改进的音频编码器将被描述，该音频编码器基于在国际标准ISO/IEC 14496-3：2005(E)，Information Technology-Coding of Audio-Visual Objects-Part 3：Audio，Sub-part 4：General Audio Coding(GA)-AAC，Twin VQ，BSAC中描述的音频编码器。

依据图2的音频编码器200特别基于在ISO/IEC 14496-3：2005(E)，Part 3：Audio，Sub-part 4、Section 4.1中描述的音频编码器。然而，音频编码器200不需要实施ISO/IEC 14496-3：2005(E)的音频编码器的精确功能性。

音频编码器200例如可被配置为接收输入时间信号210，并基于该输入时间信号210提供编码音频流212。信号处理路径可包括可选的下采样器220、可选的AAC增益控制222、块交换滤波器组224、可选的信号处理226、扩展AAC编码器228及比特流有效载荷格式化器230。然而，编码器200典型地包括心理声学模型240。

在非常简单的情况中，编码器200仅包括块交换/滤波器组224、扩展AAC编码器228、比特流有效载荷格式化器230及心理声学模型224，而其他组件(特别地，组件220、222、226)应被看作仅是可选的。

在简单的情况中，块交换/滤波器组224，接收输入时间信号210(可选择地由下采样器220进行下采样，且可选择地由AAC增益控制器222进行增益缩放)，且基于此信号210提供频域表示224a。频域表示224a例如可包括描述输入时间信号210的频谱区段的强度(例如，幅度或能量)的信息。例如，块交换/滤波器组224可被配置为执行修正型离散余弦变换(MDCT)以从输入时间信号210导出频域值。频域表示224a可逻辑上被分为不同的频带，这些频带也被称为“尺度因子频带”。例如，假定块交换/滤波器组224对大量不同的频率区段提供频谱值(也称为频率区段值)。此外，频率区段的数目由输入进滤波器组224的窗口的长度决定，且也取决于采样率(及比特率)。然而，这些频带或尺度因子频带定义由块交换/滤波器组提供的频谱值的子集。关于尺度因子频带的定义的细节对本技术领域中的技术人员是已知的，且也在ISO/IEC14496-3：2005(E)，Part 3，Sub-part 4中被描述。

扩展AAC编码器228接收基于输入时间信号210(或该信号的预处理版本)的由块交换/滤波器组224提供的频谱值224a，作为输入信息228a。如图2所示，可使用可选频谱处理226的一个或多个处理步骤从频谱值224a导出扩展AAC编码器228的输入信息228a。对于有关频谱处理226的可选预处理步骤而言，参考ISO/IEC 14496-3：2005(E)，及其中参考的另外标准。

扩展AAC编码器228被配置为接收多个频谱区段的频谱值形式的输入信息228a，且基于该输入信息提供频谱的量化且无噪声编码的表示228b。为此，扩展AAC编码器228例如可使用通过使用心理声学模型240从输入音频信号210(或其预处理版本)导出的信息。大体而言，扩展AAC编码器228可使用由心理声学模型240提供的信息以决定何种精度应被用于频谱输入信息228a的不同频带(或尺度因子频带)的编码。因此，扩展AAC编码器228一般可使针对不同频带的量化精度适配于输入时间信号210的特定特征，且也适配于可用的比特数目。因此，扩展AAC编码器例如可调整其量化精度，使得表示量化且无噪声编码的频谱的信息包括合适的比特率(或平均比特率)。

比特流有效载荷格式化器230被配置为依据预定语法，将表示量化且无噪声编码的频谱的信息228b包括到编码音频流212中。

对于有关本文所描述的编码器组件的功能性的进一步的细节而言，参考ISO/IEC 14496-3：2005(E)(包括其annex 4.B)，且也参考ISO/IEC13818-7：2003。

另外，参考ISO/IEC 13818-7：2005，Sub-clauses C1到C9。

另外，关于术语特别参考ISO/IEC 14496-3：2005(E)，Part 3：Audio，Sub-part 1：Main。

另外，特别参考ISO/IEC 14496-3：2005(E)，Part 3：Audio，Sub-part 4：General Audio Coding(GA)-AAC，Twin VQ，BSAC。

1.2.2.编码器细节

在下文中，关于编码器的细节将参考图3a、3b、4a及4b被描述。

图3a及3b示出了依据本发明一实施例的扩展AAC编码器的方块示意图。该扩展AAC编码器以228标示，且可替代图2的扩展AAC编码器228。该扩展AAC编码器228被配置为接收频谱线的幅度的向量，作为输入信息228a，其中该频谱线向量有时以mdct_line(0...1023)标示。扩展AAC编码器228也接收编解码阈值信息228c，该信息描述MDCT水平上的最大允许误差能量。该编解码阈值信息228c典型地是针对不同尺度因子频带被单独地提供，且使用心理声学模型240被产生。该编解码阈值信息228c有时以x_min(sb)标示，其中参数sb指示尺度因子频带依赖性。扩展AAC编码器228也接收比特数目信息228d，该信息描述用于编码由频谱值幅度向量228a表示的频谱的可用比特的数目。例如，比特数目信息228d可包括平均比特信息(以mean_bits标示)及附加比特信息(以more_bits标示)。扩展AAC编码器228也被配置为接收尺度因子频带信息228e，该信息描述例如尺度因子频带的数目及宽度。

扩展AAC编码器包括频谱值量化器310，被配置为提供频谱线的量化值的向量312，该向量312也以x_quant(0...1023)标示。包括缩放的频谱值量化器310也被配置为提供尺度因子信息314，该信息314可表示针对每一尺度因子频带的一个尺度因子、及共同尺度因子信息。另外，频谱值量化器310可被配置为提供比特使用信息316，该信息可描述用于量化频谱值幅度向量228a的比特的数目。事实上，频谱值量化器310被配置为依据不同频谱值的心理声学关联性，以不同的精度量化向量228a的不同频谱值。为此，频谱值量化器310使用不同的、依据尺度因子频带的尺度因子来缩放向量228a的频谱值，且量化产生的缩放后频谱值。典型地，与心理声学上重要的尺度因子频带相关联的频谱值将以大尺度因子缩放，使得心理声学上重要的尺度因子频带的缩放后频谱值覆盖大范围的值。相较之下，心理声学上较不重要的尺度因子频带的频谱值以较小的尺度因子缩放，使得心理声学上较不重要的尺度因子频带的缩放后频谱值仅覆盖小范围的值。缩放后频谱值进而被量化至例如整数值。在此量化中，心理声学上较不重要的尺度因子频带的许多缩放后频谱值被量化为零，因为心理声学上较不重要的尺度因子频带的频谱值仅以是小尺度因子缩放的。

因此，可以说心理声学上较关联的尺度因子频带的频谱值以高精度量化(因为较关联尺度因子频带的缩放后频谱线包括大范围的值，且因此包括许多量化步长)，而心理声学上较不重要的尺度因子频带的频谱值以较低的量化精度量化(因为较不重要尺度因子频带的缩放后频谱值包括较小范围的值，因此量化为较少的不同量化步长)。

频谱值量化器310被典型地配置为使用编解码阈值228c及比特数目信息228d来确定合适的尺度因子。典型地，频谱值量化器310也被配置为由其本身确定合适的尺度因子。有关频谱值量化器310的可能的实施的细节在ISO/IEC 14496-3：2001，Chapter 4.B.10.中被描述。另外，该频谱值量化器的实施对于MPEG4编码领域中的技术人员是已知的。

扩展AAC编码器228也包括多频带量化误差计算器330，被配置为接收例如频谱值幅度向量228a、频谱线的量化值向量312及尺度因子信息314。多频带量化误差计算器330例如被配置为确定向量228a的频谱值的非量化缩放后版本(例如，使用非线性缩放操作及尺度因子缩放后的)与该频谱值的缩放及量化版本(例如，使用非线性缩放操作及尺度因子缩放后的，且使用“整数”舍入操作量化后的)之间的偏差。另外，多频带量化误差计算器330可被配置为计算多个尺度因子频带上的平均量化误差。应注意该多频带量化误差计算器330较佳地计算量化域中(较精确地，心理声学缩放域中)的多频带量化误差，使得当与在心理声学上较不关联的尺度因子带中的量化误差比较时，在心理声学上关联的尺度因子频带中的量化误差在权重上被强调。关于多频带量化误差计算器的操作的细节将随后参考图4a及4b被描述。

扩展AAC编码器228也包括尺度因子适配器340，被配置为接收量化值向量312、尺度因子信息314及由多频带量化误差计算器330提供的多频带量化误差信息332。尺度因子适配器340被配置为识别“量化为零”的尺度因子频带，即，所有的频谱值(或频谱线)都量化为零的尺度因子频带。对于这种完全量化为零的尺度因子频带而言，尺度因子适配器340适配相应的尺度因子。例如，尺度因子适配器340可将完全量化为零的尺度因子频带的尺度因子设定为一值，该值表示相应的尺度因子频带的残余能量(量化前)与多频带量化误差332的能量之间的比率。因此，尺度因子适配器340提供适配后尺度因子342。应注意由频谱值量化器310提供的尺度因子与由尺度因子适配器提供的适配后尺度因子在文献中及本申请中以“尺度因子(sb)”、“scf[band]”、“sf[g][sfb]”、“scf[g][sfb]”标示。有关该尺度因子适配器340的操作的细节将随后参考图4a及4b被描述。

扩展AAC编码器228也包括一无噪声编码350，该无噪声编码350例如在ISO/IEC 14496-3：2001，Chapter 4.B.11中被说明。简而言之，该无噪声编码350接收频谱线的量化值(也称为“频谱的量化值”)向量312，尺度因子的整数表示342(由频谱值量化器310提供，或由尺度因子适配器340适配的)，及由多频带量化误差计算器330提供的噪声填充参数332(例如，以噪声水平信息的形式)。

无噪声编码350包括频谱系数编码350a，以编码频谱线的量化值312，且提供频谱线的量化且编码值352。有关该频谱系数编码的细节例如在ISO/IEC 14496-3：2001的sections 4.B.11.2，4.B.11.3，4.B.11.4 and4.B.11.6中被描述。无噪声编码350也包括尺度因子编码350b，用于编码该尺度因子的整数表示342，以获得编码尺度因子信息354。无噪声编码350也包括噪声填充参数编码350c，编码一个或多个噪声填充参数332，以获得一个或多个编码噪声填充参数356。因此，扩展AAC编码器提供描述该量化且无噪声编码频谱的信息，其中该信息包括频谱线的量化且编码的值、编码尺度因子信息及编码噪声填充参数信息。

在下文中，多频带量化误差计算器330及尺度因子适配器340的功能性将参考图4a及4b被描述，其中计算器330及适配器340是本发明的扩展AAC编码器228的关键组件。为此，图4a示出了由多频带量化误差计算器330及尺度因子适配器340执行的算法的程序列表。

该算法的第一部份，由图4a的第1行至第12行的伪码表示，包括平均误差的计算，该计算由多频带量化误差计算器330执行。该平均量化误差的计算例如在除那些量化为零的尺度因子频带之外的其他所有尺度因子频带上被执行。如果尺度因子频带全部量化为零(例如该尺度因子频带的所有频谱线都量化为零)，那么对于该尺度因子频带，跳过平均量化误差的计算。然而，如果尺度因子频带未被完全量化为零(例如包括至少一个未量化为零的频谱线)，该尺度因子频带的所有频谱线在该平均量化误差的计算中被考虑。该平均量化误差在量化域中(或更精确地，在缩放域中)被计算。对平均误差的贡献的计算可见于图4a的伪码的第7行。特别，第7行显示单个频谱线对平均误差的贡献，其中该平均是在所有频谱线(其中nLines表示全部考虑到的线的数目)上执行。

如伪码的第7行所示，频谱线对平均误差的贡献是非量化的缩放后频谱线幅度值与量化的缩放后频谱线幅度值之间的差的绝对值(“fabs”-运算符)。在非量化的缩放后频谱线幅度值中，使用幂函数(pow(line，0.75)＝line^0.75)及使用尺度因子(例如由频谱值量化器310提供的尺度因子314)，非线性地缩放幅度值“line”(其可等于mdct_line)。在量化的缩放后频谱线幅度值的计算中，可使用上述幂函数被非线性地缩放且使用上述尺度因子来非线性地缩放频谱线幅度值“line”。非线性及线性缩放的结果可使用整数运算符“(INT)”来量化。使用伪码的第7行中表述的计算，量化对于心理声学上较重要的及在心理声学上较不重要的频带的不同影响被考虑到。

在(平均)多频带量化误差(avgError)的计算之后，该平均量化误差可选地被量化，如伪码的第13行及第14行所示。应注意本文所示的多频带量化误差的量化特别适配于该量化误差的期望值范围及统计特征，使得该量化误差可以比特高效的方式来表示。然而，该多频带量化误差的其他量化可被应用。

该算法的第三部份，由第15行至第25行表示，可由尺度因子适配器340执行。该算法的第三部份用于将已被完全量化为零的尺度因子频带的尺度因子设定为良好定义的值，这允许简单的噪声填充，该噪声填充带来良好的听觉印象。该算法的第三部份可选地包括噪声水平的逆量化(例如，由多频带量化误差332表示)。该算法的第三部份也包括对于量化为零的尺度因子频带的替代尺度因子值的计算(而未量化为零的尺度因子频带的尺度因子将不受影响)。例如，用于某一尺度因子频带(“band”)的替代尺度因子值是使用图4a的算法的第20行所示方程来计算的。在该方程中，“(INT)”表示整数运算符，“2.f”表示在浮点表示中的数字“2”，“log”表示对数运算符，“energy”表示考虑的尺度因子频带的能量(在量化前)，“(float)”表示浮点运算符，“sfbWidth”表示依据频谱线(或频谱区段)的该某一尺度因子的宽度，及“noiseVal”表示描述该多频带量化误差的噪声值。因此，该替代尺度因子描述所考虑的该某一尺度因子频带的平均每频率区段能量(energy/sfbWidth)与多频带量化误差的能量(noiseVal²)之间的比率。

1.2.3.编码器结论

依据本发明的实施例建立一种具有新类型的噪声水平计算的编码器。该噪声水平是基于平均量化误差在量化域中被计算的。

在量化域中计算量化误差带来显著的优势，例如，这是因为不同的频带(尺度因子频带)的心理声学关联性被考虑到。量化域中每条线(即每频谱线，或频谱区段)的量化误差典型地在具有平均绝对误差0.25(对于通常大于1的正态分布的输入值)的范围[-0.5；0.5](1量化级)中。使用提供关于多频带量化误差的信息的编码器，在量化域中的噪声填充的优势可在编码器中被开发，随后将会描述。

编码器中的噪声水平计算及噪声替代检测可包括以下步骤：

●检测及标记在解码器中可通过噪声替代再现的感知上等同的频带。例如，为此目的，可以检查音调或频谱平坦度测量；

●计算及量化平均量化误差(其可在所有未量化为零的尺度因子频带上被计算)；及

●对于量化为零的频带计算尺度因子(scf)，使得该(解码器)引入的噪声与原始能量匹配。

适合的噪声水平量化可有助于产生传送描述多频带量化误差的信息所需的比特数目。例如，考虑到响度的人类感知，在对数域中以8个量化级量化噪声水平。例如，图4b中所示算法可被使用，其中“(INT)”表示整数运算符，“LD”表示底数为2的对数运算符，及“meanLineError”表示每频率线的量化误差，“min(.，.)”表示最小值运算符，“max(.，.)”表示最大值运算符。

2.解码器

2.1.依据图5的解码器

图5示出了依据本发明一实施例的解码器的方块示意图。解码器500被配置为接收编码的音频信息，例如，以编码音频流510的形式，且基于该编码的音频信息提供音频信号的解码表示，例如，基于第一频带的频谱分量522及第二频带的频谱分量524。解码器500包括噪声填充器520，该噪声填充器520被配置为接收：第一频带的频谱分量的表示522，第一频带增益信息与其相关联；及第二频带的频谱分量的表示524，第二频带增益信息与其相关联。另外，噪声填充器520被配置为接收多频带噪声强度值的表示526。另外，该噪声填充器被配置为基于共同的多频带噪声强度值526，将噪声引入多个频带的频谱分量中(例如引入频谱线值或频谱区段值中)，其中，单独的频带增益信息(例如以尺度因子的形式)与这多个频带相关联。例如，噪声填充器520可被配置为将噪声引入第一频带的频谱分量522中，以获得第一频带的噪声影响频谱分量512，且也将噪声引入第二频带的频谱分量524，以获得第二频带的噪声影响频谱分量514。

通过将由单一多频带噪声强度值526描述的噪声施加于与不同频带增益信息相关联的不同频带的频谱分量，可以非常精细的调谐方式、将不同频带的不同心理声学关联性计入考虑，来将噪声引入至不同的频带中，该心理声学关联性由频带增益信息表示。因此，解码器500能够基于非常小的(比特高效的)噪声填充辅助信息，执行时间调谐噪声填充。

2.2.依据图6的解码器

2.2.1.解码器总览

图6示出了依据本发明一实施例的解码器600的方块示意图。

解码器600与ISO/IEC 14496.3：2005(E)中所揭露的解码器相似，故参考该国际标准。解码器600被配置为接收编码的音频流610，且据此提供输出时间信号612。该编码音频流可包括ISO/IEC 14496.3：2005(E)中所描述的一些或全部信息，且额外包括描述多频带噪声强度值的信息。解码器600进一步包括比特流有效载荷去格式化器620，被配置为从该编码音频流610提取多个编码音频参数，这些参数中的一些将在下文中被详细说明。解码器600进一步包括扩展“先进音频编码”(AAC)解码器630，其功能性将参考图7a、7b、8a至8c、9、10a、10b、11、12、13a及13b被详细描述。扩展AAC解码器630被配置为接收输入信息630a，该输入信息630a包括例如量化且编码的频谱线信息、编码的尺度因子信息及编码的噪声填充参数信息。例如，扩展AAC解码器630的输入信息630a可与参考图2描述的扩展AAC编码器220a提供的输出信息228b相同。

扩展AAC解码器630可被配置为基于输入信息630a，提供缩放的及逆量化的频谱的表示630b，例如对于多个频率区段(例如1024个频率区段)以缩放、逆量化的频谱线值的形式提供。

可选地，解码器600可包括附加频谱解码器，例如，TwinVQ频谱解码器及/或BSAC频谱解码器，它们可二者择一地在一些情况中被用于扩展AAC频谱解码器630。

解码器600可选性地包括频谱处理640，被配置为处理扩展AAC解码器630的输出信息630b，以获得块交换/滤波器组640的输入信息640a。可选的频谱处理640可包括功能性M/S、PNS、预测、强度、长期预测、依赖性交换耦接、TNS、依赖性交换耦接中的一个或多个，或甚至全部，这些功能性参考ISO/IEC 14493.3：2005(E)及其中的文件被详细描述。然而，如果频谱处理630被省略，扩展AAC解码器630的输出信息630b可直接用作块交换/滤波器组640的输入信息640。因此，扩展AAC解码器630可提供缩放及逆量化的频谱作为输出信息630b。块交换/滤波器组640使用逆量化的(可选地，预处理的)频谱作为输入信息640a，且据此提供一个或多个时域重建音频信号作为输出信息640b。该滤波器组/块交换可例如被配置为对在编码器中(例如在块交换/滤波器组224中)实现的频率映射应用求逆。例如，修正型离散余弦反变换(IMDCT)可由该滤波器组使用。例如，该IMDCT可被配置为支持一组120、128、480、512、960或1024个频谱系数，或四组32或256个频谱系数。

细节上而言，参考例如国际标准ISO/IEC 14496-3：2005(E)。解码器600可选地进一步包括AAC增益控制650、SBR解码器652及独立性交换耦接654，以从块交换/滤波器组640的输出信号640b导出输出时间信号612。

然而，当没有650、652、654功能时，块交换/滤波器组640的输出信号640b也可用作输出时间信号612。

2.2.2.扩展AAC解码器细节

在下文中，关于扩展AAC解码器的细节将参考图7a及7b被描述。图7a及7b示出了图6的AAC解码器630与图6的比特流有效载荷去格式化器620结合的方块示意图。

比特流有效载荷去格式化器620接收解码的音频流610，该音频流例如可包括编码的音频数据流，该音频数据流包括名为“ac_raw_data_block”的语法元素，该语法元素是音频编码器原始数据块。然而，比特流有效载荷去格式化器620被配置为向扩展AAC解码器630提供量化且经无噪声编码的频谱或一表示，其包括量化且经算术编码的频谱线信息630aa(例如，以ac_spectral_data表示)、尺度因子信息630ab(例如以scale_factor_data表示)及噪声填充参数信息630ac。噪声填充参数信息630ac包括例如噪声偏移值(以noise_offset表示)及噪声水平值(以noise_level表示)。

关于扩展AAC解码器，应注意扩展AAC解码器630与国际标准ISO/IEC 14496-3：2005(E)的AAC解码器非常相似，使得可参考该标准的详细说明。

扩展AAC解码器630包括尺度因子解码器740(也以尺度因子无噪声解码工具表示)，被配置为接收尺度因子信息630ab，且据此提供尺度因子的解码的整数表示742(也以sf[g][sfb]或scf[g][sfb]表示)。关于尺度因子解码器740，参考ISO/IEC 14496-3：2005，Chapter 4.6.2及4.6.3。应注意尺度因子的解码的整数表示742反映量化精度，音频信号的不同的频带(也表示为尺度因子频带)以该量化精度量化。较大的尺度因子表示对应的尺度因子频带以高精度量化，且较小尺度因子表示对应的尺度因子频带以低精度量化。

扩展AAC解码器630也包括频谱解码器750，被配置为接收量化且熵编码(例如经霍夫曼编码或算术编码)的频谱线信息630aa，且据此提供一个或多个频谱的量化值752(例如以x_ac_quant或x_quant表示)。关于该频谱解码器，参考例如上述国际标准的第4.6.3节。然而，该频谱解码器的备选实施可自然地被应用。例如，如果频谱线信息630aa被算术地编码，ISO/IEC 14496-3：2005的霍夫曼解码器可由算术解码器替代。

扩展AAC解码器630进一步包括逆量化器760，该逆量化器760可以是非均匀逆量化器。例如，逆量化器760可提供未缩放逆量化频谱值762(例如以x_ac_invquant，或x_invquant表示)。例如，逆量化器760可包括ISO/IEC 14496-3：2005，Chapter4.6.2中描述的功能性。备选地，逆量化器760可包括参考图8a至8c的功能性。

扩展AAC解码器630也包括噪声填充器770(也以噪声填充工具表示)，从尺度因子解码器740接收尺度因子的解码整数表示742，从逆量化器760接收未缩放逆量化频谱值762，且从比特流有效载荷去格式化器620接收噪声填充参数信息630ac。该噪声填充器被配置为据此提供尺度因子(在本文中以sf[g][sfb]或scf[g][sfb]表示)的修正的(典型地整数的)表示772。噪声填充器770也被配置为基于其输入信息提供未缩放逆量化的频谱值774，以x_ac_invquant或x_invquant表示。关于该噪声填充器的功能性的细节将随后参考图9、10a、10b、11、12、13a及13b描述。

扩展AAC解码器630也包括重缩放器780，被配置为接收尺度因子的修正整数表示772及未缩放逆量化频谱值774，且据此提供缩放的逆量化频谱值782，该频谱值782也可以x_rescal表示，且可用作扩展AAC解码器630的输出信息630b。重缩放器780例如可包括ISO/IEC 14496-3：2005，Chapter 4.6.2.3.3中描述的功能性。

2.2.3.逆量化器

在下文中，逆量化器760的功能性将参考图8a、8b及8c描述。图8a示出了用于从量化频谱值752导出未缩放逆量化频谱值762的方程的表示。在图8a的备选方程中，“sign(.)”表示符号运算符，“.”表示绝对值运算符。图8b示出了表示逆量化器760的功能的伪程序码。可以看到，依据图8a中算术映射规则的逆量化是针对所有的窗口组(由游动变量g表示)、所有的尺度因子频带(由游动变量sfb表示)，所有的窗口(由游动索引win表示)及所有的频谱线(或频谱区段)(由游动变量bin表示)而执行的。图8c示出了图8b的算法的流程图表示。对于预定最大尺度因子频带(以max_sfb表示)之下的尺度因子频带而言，未缩放逆量化的频谱值是根据未缩放量化频谱值而获得的。非线性逆量化规则被应用。

2.2.4.噪声填充器

2.2.4.1.依据图9至12的噪声填充器

图9示出了依据本发明一实施例的噪声填充器900的方块示意图。噪声填充器900例如可替代图7A及7B描述的噪声填充器770。

噪声填充器900接收可被视为频带增益值的尺度因子的解码整数表示742。噪声填充器900也接收未缩放逆量化频谱值762。另外，噪声填充器900接收例如包括噪声填充参数noise_value及noise_offset等的噪声填充参数信息630ac。噪声填充器900进一步提供尺度因子的修正整数表示772及未缩放逆量化频谱值774。噪声填充器900包括频谱线量化为零检测器910，被配置为确定频谱线(频谱区段)是否量化为零(及可能地满足其他噪声填充要求)。为此，频谱线量化为零检测器910直接接收未缩放逆量化频谱762作为输出信息。噪声填充器900还包括选择性频谱线替代器920，被配置为依据频谱线量化为零检测器910的决定，用频谱线替代值922选择性地替代输入信息762的频谱值。因此，如果频谱线量化为零检测器910指示输入信息762的某一频谱线应由替代值替代，那么选择性频谱线替代器920以频谱线替代值922替代该某一频谱线，以获得输出信息774。否则，选择性频谱线替代器920不改变地发送该某一频谱线值以获得输出信息774。噪声填充器900也包括选择性尺度因子修正器930，被配置为选择性地修正输入信息742的尺度因子。例如，选择性尺度因子修正器930被配置为增加尺度因子频带的尺度因子，尺度因子频带已由预定值量化为零，该预定值以“noise_offset”表示。因此，在输出信息772中，当与输入信息742中对应的尺度因子值相比时，量化为零的频带的尺度因子被增加。相反，未量化为零的尺度因子频带的对应的尺度因子值在输入信息742与输出信息772中是相同的。

为了确定尺度因子频带是否量化为零，噪声填充器900也包括频带量化为零检测器940，被配置为通过基于输入信息762提供“使能尺度因子修正”信号或标志942，来控制选择性尺度因子修正器930。例如，如果尺度因子频带的所有的频率区段(也称为频谱区段)量化为零，频带量化为零检测器940可向选择性尺度因子修正器930提供指示需要尺度因子增加的信号或标志。

应注意，该选择性尺度因子修正器也可采用选择性尺度因子替代器的形式，该尺度因子替代器被配置为将完全量化为零的尺度因子频带的尺度因子设定为一预定值，而不考虑输入信息742。

在下文中，重缩放器950将被描述，其可执行重缩放器780的功能。重缩放器950被配置为接收由噪声填充器提供的尺度因子的修正整数表示772，且同样接收由噪声填充器提供的未缩放、逆量化频谱值774。重缩放器950包括尺度因子增益计算机960，被配置为接收针对每尺度因子频带的尺度因子的一个整数表示，且提供针对每尺度因子频带的一个增益值。例如，尺度因子增益计算机960可被配置为基于第i尺度因子频带的尺度因子的修正整数表示772，计算该第i尺度因子频带的增益值962。因此，尺度因子增益计算机960对不同的尺度因子频带提供单独的增益值。重缩放器950也包括乘法器970，被配置为接收增益值962及未缩放、逆量化频谱值774。应注意每一个未缩放、逆量化频谱值774与一尺度因子频带(sfb)相关联。因此，乘法器970被配置为用与相同尺度因子频带相关联的对应增益值来缩放各个未缩放、逆量化频谱值774。换句话说，所有与给定尺度因子频带相关联的未缩放、逆量化频谱值774都以与该给定尺度因子频带相关联的增益值来缩放。因此，与不同尺度因子频带相关联的未缩放、逆量化频谱值典型地以与这些不同尺度因子频带相关联的不同增益值来缩放。

因此，依据增益值相关联的尺度因子频带，以不同的增益值对不同的未缩放、逆量化频谱值进行缩放。

伪程序码表示

在下文中，噪声填充器900的功能性将参考图10a及10b被描述，该两图示出了伪程序码表示(图10a)及对应的图例(图10b)。注解以“--”开始。

由图10的伪码程序列表表示的噪声填充算法包括第一部份(第1行至第8行)，该部份从噪声水平表示(noise_level)导出噪声值(noiseVal)。另外，噪声偏移(noise_offset)被导出。从该噪声水平导出该噪声值包括非线性缩放，其中该噪声值依据如下方程被计算：

noiseVal＝2^{((noise_level-14)/3)}。

另外，执行噪声偏移值的范围移位，使得范围移位后的噪声偏移值可取正值及负值。

该算法的第二部份(第9行至第29行)负责用频谱线替代值对未缩放、逆量化频谱值进行选择性替代，且负责对尺度因子的选择性修正。如该伪程序码所示，该算法可针对所有可用窗口组来执行(从第9行至第29行的循环)。另外，零与最大尺度因子频带(max_sfb)之间的所有尺度因子频带可被处理，即使该处理对于不同的尺度因子频带可能是不同的(在第10行与第28行之间的循环)。一个重要方面是通常假定尺度因子频带量化为零，除非发现尺度因子频带未量化为零(参看第11行)。然而，对尺度因子频带是否量化为零的检查仅针对尺度因子频带来执行，这些尺度因子频带的起始频谱线(swb_offset[sfb])在预定频谱系数索引(noiseFillingStartOffset)之上。第13行与第24行之间的条件例程仅当尺度因子频带sfb的最低频谱系数的索引大于噪声填充起始偏移时才被执行。相反，对于最低频谱系数(swb_offset[sfb])的索引小于或等于预定值(noiseFillingStartOffset)的任何尺度因子频带而言，假定这些频带未量化为零，而与实际频谱线值无关(见第24a行、第24b行及第24c行)。

然而，如果某一尺度因子频带的最低频谱系数的索引大于该预定值(noiseFillingStartOffset)，那么该某一尺度因子频带仅当该某一尺度因子频带的所有频谱线量化为零时，才被看作是量化为零的(如果该尺度因子频带的单个频谱区段未量化为零，标志“band_quantized_to_zero”由第15行与第12行之间的循环来重置)。

因此，如果最初缺省设置(第11行)的标志“band_quantized_to_zero”在第12行与第24行之间的程序码的执行期间未被删除，使用噪声偏移来修正给定尺度因子频带的尺度因子。如上所述，该标志的重置可仅发生于尺度因子频带，对于这些尺度因子频带而言，最低频谱系数的索引在该预定值(noiseFillingStartOffset)之上。另外，图10a的算法包括，如果频谱线量化为零时，用频谱线替代值对频谱线值进行替代(第16行的条件及第17行的替代操作)。然而，该替代仅针对尺度因子频带被执行，对于这些尺度因子频带而言，最低频谱系数的索引在该预定值(noiseFillingStartOffset)之上。对于较低频谱频带而言，用替代频谱值对量化为零的频谱值的替代被省略。

应进一步注意到，替代值可以简单的方法被计算，因为，随机或伪随机符号被添加到在该算法的第一部份中(参看第17行)计算的噪声值(noiseVal)。

应注意图10b示出了在图10a的伪程序码中使用的相关符号的图例，以利于对该伪程序码的更好的理解。

该噪声填充器的功能性的重要方面在图11中说明。如图所示，该噪声填充器的功能性可选地包括，基于噪声水平来计算噪声值1110。该噪声填充器的功能性也包括依据噪声值，用频谱线替代值对量化为零的频谱线的频谱线值进行替代1120，以获得替代的频谱线值。然而，替代1120仅针对具有在预定频谱系数索引之上的最低频谱系数的尺度因子频带来执行。

该噪声填充器的功能性也包括，当且仅当尺度因子量化为零时，取决于噪声偏移值来修正1130频带尺度因子。然而，修正1130是针对具有在预定频谱系数索引之上的最低频谱系数的尺度因子频带来执行的。

该噪声填充器也包括1140使频带尺度因子不受影响的功能，对于具有在预定频谱系数索引之下的最低频谱系数的尺度因子频带而言，与该尺度因子频带是否量化为零无关。

另外，该重缩放器包括向未替代或替代(都是可用的)频谱线值施加未修正或修正的(都是可用的)频带尺度因子的功能性1150，以获得缩放的及逆量化的频谱。

图12示出了参考图10a、10b及11描述的概念的示意性表示。特别地，不同功能的表示取决于尺度因子频带起始区段。

2.2.4.2依据图13A与13B的噪声填充器

图13A及13B示出了算法的伪码程序列表，算法可以噪声填充器770的备选的实施被执行。图13A描述一种用于从噪声水平信息导出噪声值(以供在该噪声填充器中使用)的算法，该噪声水平信息可由噪声填充参数信息630ac表示。

因为平均量化误差大部份时间大约为0.25，所以noiseVal范围[0，0.5]相当大且可以被优化。

图13B表示算法，可由噪声填充器770形成。图13B的算法包括确定噪声值(以“noiseValue”或“noiseVal”-第1行至第4行表示)的第一部份。该算法的第二部份包括尺度因子的选择性修正(第7行至第9行)及用频谱线替代值对频谱线值的选择性替代(第10行至第14行)。

然而，依据图13B，每当一频带量化至零时，使用噪声偏移(noise_offset)修正(见第7行)尺度因子(scf)。在本实施例中在较低频带与较高频带之间无差别。

另外，仅针对较高频带(如果该线在某一预定阈值“noiseFillingStartOffset”之上)，将噪声引入量化为零的频谱线。

2.2.5.解码器结论

总而言之，依据本发明的解码器的实施例可包括一个或多个如下特征：

●从“noise filling start line”开始(其可以是固定偏移或表示以替代值替代每一个0的起始频率的行)

●替代值是在量化域中(以随机符号)指示的噪声值，且进而以针对实际尺度因子频带发送的尺度因子(「scf」)来缩放该“替代值”；及

●也可从例如噪声分布或一组由信号通知的噪声水平来加权的交替值中导出“随机”替代值。

3.音频流

3.1.依据图14A及14B的音频流

在下文中，依据本发明一实施例的音频流将被描述。在下文中，所谓的“usac比特流有效载荷”将被描述。该“usac比特流有效载荷”携有有效载荷信息以表示一个或多个单一通道(有效载荷“single_channel_element( )”)及/或一个或多个通道对(channel_pair_element( ))，如图14A所示。单一通道信息(single_channel_element( ))，除可选信息外，还包括频域通道流(fd_channel_stream)，如图14B所示。

通道对信息(channel_pair_element)除附加元素之外，还包括多个(例如，两个)频域通道流(fd_channel_stream)，如图14C所示。

频域通道流的数据内容例如可取决于噪声填充是否被使用(可以本文未示出的信令数据部份中被信号通知)。在下文中，将假定噪声填充被使用。在该情况中，频域通道流包括例如图14D中所示的数据元素。例如，可存在全局增益信息(global_gain)，如在ISO/IEC 14496-3：2005所定义的。另外，频域通道流可包括噪声偏移信息(noise_offset)及噪声水平信息(noise_level)，如本文所述。该噪声偏移信息例如可使用3比特被编码，且该噪声水平信息例如可使用5比特被编码。

另外，频域通道流可包括编码的尺度因子信息(scale_factor_data( ))及经算术编码的频谱数据(AC_spectral_data( ))，如本文所述及在ISO/IEC 14496-3中定义。

可选地，频域通道流也包括时间噪声整形数据(tns_data( ))，如在ISO/IEC 14496-3中所定义。

自然，如果需要，频域通道流可包括其他信息。

3.2.依据图15的音频流

图15示出了表示单独的通道的通道流(individual_channel_stream( ))的语法的示意性表示。

该单独的通道流可包括使用例如8比特被编码的全局增益信息(global_gain)、使用例如5比特被编码的噪声偏移信息(noise_offset)，及使用例如3比特编码的噪声水平信息(noise_level)。

该单独的通道流进一步包括分段数据(section_data( ))，尺度因子数据(scale_factor_data( ))及频谱数据(spectral_data( ))。

另外，该单独的通道流可包括其他的可选信息，如第图15所示。

3.3.音频流结论

综上所述，在依据本发明的一些实施例中，下述比特流语法元素被使用：

●指示噪声尺度因子偏移以优化发送尺度因子所需的比特的值；

●指示噪声水平的值；及/或

●可选值，以在噪声替代的不同形状之间进行选择(均匀分布噪声而非恒定值，或多个离散水平而非只有一个)。

4.结论

在低比特率编码中，噪声填充可被用于两个目的：

●低比特率音频编码中的频谱值的粗略量化可导致逆量化后的非常稀疏的频谱，因为许多频谱线可能已量化为零。稀疏的频谱将导致解码的信号听起来尖锐或不稳定(杂音)。通过在解码器中以“小”值替代被调至零点的行，可以掩蔽或减少非常明显的伪像而不加入明显的新噪声伪像。

●如果在原始频谱中有类噪声信号部份，有噪音信号部份的感知上等同的表示可仅基于微少的参数信息来在解码器中再现，该信息例如有噪音信号部份的能量。该参数信息较之于发送编码波形所需的比特数目而言，可以较少的比特被发送。

本文描述的新提议的噪声填充编码方案高效地将上述目的并入单一应用中。

作为比较，在MPEG-4音频中，感知噪声替代(PNS)被用于仅发送类噪声信号部份的参数化信息，及在解码器中再现感知上等同的信号部份。

作为进一步比较，在AMR-WB+中，量化为零的向量量化向量(VQ向量)以随机噪声向量替代，每个复频谱值具有恒定幅度及随机相位。该幅度由一个以比特流发送的一个噪声值控制。

然而，上述比较的概念提供相当的劣势。PNS仅可被用于用噪声填充全部尺度因子频带，而AMR-WB+仅试图在产生自大部份被量化为零的信号的解码信号中掩蔽伪像。相反，本发明提议的噪声填充编码方案高效地将噪声填充的两个方面并入单一应用。

依据一方面，本发明包括噪声水平计算的新形式。该噪声水平在量化域中基于平均量化误差被计算。

在量化域中的量化误差与其他形式的量化误差不同。在量化域中每行的量化误差在范围[-0.5；0.5](1个量化级)中，具有0.25的平均绝对误差(对于通常大于1的正态分布输入值而言)。

在下文中，量化域中噪声填充的一些优势将被总结。在量化域中添加噪声的优势在于如下事实：在解码器中添加的噪声是不仅以给定频带中的平均能量并且以频带的心理声学关联性而缩放的。

通常，感知上最相关的(音调)频带将是最精确地量化的频带，意思是多个量化级(量化值大于1)将被用于这些频带。现在在这些频带中加入带有平均量化误差水平的噪声，这将仅在这种频带的感知上具有非常有限的影响。

感知上不那么相关或更像噪声的频带可以较低数目的量化级来量化。虽然该频带中更多的频谱线被量化为零，但是所得的平均量化误差与精细量化的频带相同(在两种频带中均采用正态分布的量化误差)，而该频带中的相对误差可能要高得多。

在这些粗略量化的频带中，噪声填充有助于感知上掩蔽由于粗略量化而导致的频谱空洞所产生的伪像。

可通过上述编码器及上述解码器来实现对量化域中的噪声填充的考虑。

5.实施备选方案

依据某些实施要求，本发明的实施例可以硬件或软件实现。可以使用其上存储有电子可读控制信号的数字存储介质，例如软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或FLASH存储器来执行本发明的实施方式，该电子可读控制信号(或能够)与可编程计算机系统协作，使得执行相应方法。

依据本发明的一些实施例包括具有电子可读控制信号的数据载体，电子可读控制信号能够与可编程计算机系统协作，使得本文所描述的方法之一被执行。

大体上，本发明的实施例可作为具有程序代码的计算机程序产品来实施，当该计算机程序产品在计算机上运行时，该程序代码可用于执行本发明方法之一。程序代码例如可存储在机器可读载体上。

其他实施例包括执行本文所描述的方法之一的计算机程序，该计算机程序存储在机器可读载体上。

换句话说，因此，本发明方法的实施例可以是具有程序代码的计算机程序，当该计算机程序在计算机上运行时，计算机程序执行本文所描述的方法之一。

因此，本发明方法进一步的实施例是数据载体(或数字存储介质，或计算机可读介质)，其包括被记录于该载体上供执行本文所述方法之一的计算机程序。

因此，本发明方法进一步实施例是表示用于执行本文所描述的方法之一的程序代码的数据流或信号序列。该数据流或信号序列例如可被配置为经由例如互联网等数据通信连接传送。

进一步的实施例包括处理装置，例如计算机，或可编程逻辑器件，被配置为或适配为执行本文所述方法之一。

进一步的实施例包括计算机，该计算机具有安装于其上的计算机程序，用于执行本文所述方法之一。

Claims

1.一种基于输入音频信号的变换域表示(112；114；228a)来提供音频流(126；212)的编码器(100；228)，该编码器包括：

量化误差计算器(110；330)，被配置为确定该输入音频信号的多个频带上的多频带量化误差(116；332)，单独的频带增益信息(228a)可用于所述多个频带；及

音频流提供器(120；230)，被配置为提供音频流(126；212)，使得音频流(126；212)包括描述频带的音频内容的信息以及描述多频带量化误差的信息。

2.如权利要求1所述的编码器(100；228)，其中该编码器包括：量化器(310)，被配置为使用取决于不同频带的心理声学关联性(228c)的不同量化精度，来量化所述不同频带的频谱分量，以获得量化后频谱分量，其中所述不同量化精度由频带增益信息反映；以及

其中，音频流提供器(212)被配置为提供音频流，使得该音频流包括描述频带增益信息的信息，且使得该音频流还包括描述多频带量化误差的信息。

3.如权利要求2所述的编码器(100；228)，其中量化器(310)被配置为执行取决于频带增益信息的对频谱分量的缩放，且执行对缩放后频谱分量的整数值量化；以及

其中，量化误差计算器(330)被配置为确定量化域中的多频带量化误差(332)，使得在多频带量化误差中考虑到在整数值量化之前执行的对频谱分量的缩放。

4.如权利要求1至3之一所述的编码器(100；228)，其中该编码器被配置为将完全量化为零的频带的频带增益信息设定为对完全量化为零的该频带的能量与多频带量化误差的能量之间的比率加以表示的值。

5.如权利要求1至4之一所述的编码器(100；228)，其中量化误差计算器(330)被配置为确定各自包括至少一个量化为非零值的频谱分量的多个频带上的多频带量化误差(332)，同时避免频谱分量完全量化为零的频带。

6.一种基于对音频信号的频带的频谱分量加以表示的编码音频流(510；610)来提供该音频信号的解码表示(512，514；630b)的解码器(500；600)，该解码器包括：

噪声填充器(520；770)，被配置为基于共同的多频带噪声强度值(526)，将噪声引入与单独的频带增益信息相关联的多个频带的频谱分量中。

7.如权利要求6所述的解码器(500；600)，其中噪声填充器(520；770)被配置为依据频带的各个单独的频谱区段是否被量化为零，逐个频谱区段地、选择性地决定是否将噪声引入各个单独的频谱区段中。

8.如权利要求6或7所述的解码器(500；600)，其中噪声填充器(520；770)被配置为接收对频域音频信号表示的第一频带的不同重迭或非重迭频率部分加以表示的多个频谱区段值(522)，且接收对该频域音频信号表示的第二频带的不同重迭或非重迭频率部分加以表示的多个频谱区段值；以及

以第一频谱区段噪声值替代所述多个频带的第一频带的一个或多个频谱区段值，该第一频谱区段噪声值的大小由所述多频带噪声强度值(526)决定，且以具有与该第一频谱区段噪声值相同大小的第二频谱区段噪声值替代所述多个频带的第二频带的一个或多个频谱区段值；

其中，解码器包括：缩放器(780)，被配置为用第一频带增益值来缩放所述多个频带的第一频带的频谱区段值，以获得第一频带的缩放后频谱区段值，且以第二频带增益值来缩放所述多个频带的第二频带的频谱区段值，以获得第二频带的缩放后频谱区段值，

使得由第一及第二频谱区段噪声值替代的替代后频谱区段值是以不同的频带增益值来缩放的，且

使得用第一频谱区段噪声值替代的替代后频谱区段值、以及表示第一频带的音频内容的第一频带未替代频谱区段值是以第一频带增益值来缩放的，而用第二频谱区段噪声值替代的替代后频谱区段值、以及表示第二频带的音频内容的第二频带非替代频谱区段值是以第二频带增益值来缩放的。

9.如权利要求6至8之一所述的解码器(500；600)，其中噪声填充器(520；770)被配置为当给定频带被量化为零时，使用噪声偏移值来选择性地修改该给定频带的频带增益值。

10.如权利要求6至9之一所述的解码器(500；600)，其中噪声填充器(520；770)被配置为用大小取决于所述多频带噪声强度值(526)的频谱区段噪声值，来替代量化为零的频谱区段的频谱区段值，以仅仅针对最低频谱区段索引在预定频谱区段索引以上的频带来获得替代后频谱区段值，而保留最低频谱区段索引在该预定频谱区段索引以下的频带的频谱区段值不受影响；

其中噪声填充器被配置为对于最低频谱区段索引在该预定频谱区段索引以上的频带，如果给定频带被完全量化为零，则依据噪声偏移值来选择性地修改该给定频带的频带增益值；以及

其中，该解码器进一步包括：缩放器(770)，被配置为将选择性地被修改或未修改的频带增益值施加至选择性地替代或未替代的频谱区段值，以获得缩放后频谱信息，该信息表示所述音频信号。

11.如权利要求6至11之一所述的解码器(500；600)，其中该解码器被配置为接收音频流(610)，所述音频流(610)包括：多个频带的频谱区段值的量化熵编码表示(630aa)，且其中多个频谱区段值与所述多个频带的第一频带相关联，以及多个频谱区段值与所述多个频带的第二频带相关联，

频带增益值的编码表示(630ab)，其中第一频带增益值与所述第一频带相关联，且第二频带增益值与所述第二频带相关联，及

多频带噪声强度值的编码表示(630ac)；

其中该解码器包括：频谱解码器(750)，被配置为基于频谱区段值的量化熵编码表示，来提供频谱区段值的量化解码表示(752)；

其中该解码器包括：逆量化器(760)，被配置为逆量化频谱区段值的量化解码表示(752)，以获得频谱区段值的逆量化解码表示(762)；

其中该解码器包括：尺度因子解码器(740)，被配置为解码频谱区段值的编码表示(630ab)，以获得频谱增益值的解码表示(742)；及

其中，噪声填充器(770)被配置为用相同大小的频谱区段替代值，来选择性地替代多个频带的逆量化至零的频谱区段值，以获得多个频带的替代后频谱区段值；以及

其中该解码器包括：缩放器(780)，被配置为以与第一频带相关联的尺度因子的解码表示，来缩放第一频带的全部频谱区段值集合，以获得该第一频带的缩放后频谱区段值集合，其中该第一频带的一些频谱区段值是由逆量化器提供的原始的逆量化解码的频谱区段值，而一些频谱区段值是频谱区段替代值，缩放器(780)还被配置为以与第二频带相关联的尺度因子的解码表示，来缩放第二频带的全部频谱区段值集合，以获得该第二频带的缩放后频谱区段值集合，其中该第二频带的一些频谱区段值是由逆量化器提供的原始的逆量化解码的频谱区段值，而一些频谱区段值是频谱区段替代值。

12.一种基于输入音频信号的变换域表示(112；114；228a)来提供音频流(126；212)的方法，该方法包括：

确定多个频带上的多频带量化误差，单独的频带增益信息可用于所述多个频带；以及

提供音频流，使得音频流包括描述频带的音频内容的信息以及描述多频带量化误差的信息。

13.一种基于编码音频流(510；610)来提供音频信号的解码表示(512；514：630b)的方法，该方法包括：

基于共同的多频带噪声强度值，将噪声引入多个频带的频谱分量，单独的频带增益信息与所述多个频带相关联。

14.一种计算机程序，当在计算机上运行时执行如权利要求12或13所述的方法。

15.一种表示音频信号的音频流(510；610)，该音频流包括：

描述音频信号的频谱分量强度的频谱信息，其中在不同的频带中该频谱信息以不同的量化精度来量化；以及

考虑到不同的量化精度的、描述多个频带上的多频带量化误差的噪声水平信息。