CN103250206A

CN103250206A - 用于比特流域中的编码音频帧的强度估计的装置及方法

Info

Publication number: CN103250206A
Application number: CN2011800486033A
Authority: CN
Inventors: 拉尔夫·盖格; 马库斯·施内尔; 曼福莱特·卢次克; 马库·迪亚舒克
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2010-10-07
Filing date: 2011-10-06
Publication date: 2013-08-14
Anticipated expiration: 2031-10-06
Also published as: EP2625687B1; RU2553084C2; JP5792821B2; ES2600313T3; CA2813898C; TWI489449B; BR112013008462B1; EP2625687A1; RU2013120547A; US20130226596A1; HK1188327A1; AU2011311543A1; AU2011311543B2; WO2012045816A1; CN103250206B; US11238873B2; BR112013008462A2; KR20130112893A; MX2013003803A; JP2013543146A

Abstract

提出一种用于编码音频信号的强度估计的装置。所述装置包括码本确定器(110)，所述码本确定器(110)用于从多个码本中确定某个码本作为标识码本。已经通过采用所述标识码本编码所述音频信号。此外，所述装置包括估计单元(120)，所述估计单元(120)被配置用于导出与所述标识码本相关联的强度值作为导出强度值，以及使用所述导出强度值估计所述音频信号的强度估值。

Description

用于比特流域中的编码音频帧的强度估计的装置及方法

技术领域

本发明涉及音频处理，特别地，涉及一种用于比特流域中的编码音频信号的强度估计(level estimation)的装置及方法。

背景技术

音频处理在很多方面已经取得进展且已经成为如何有效地编码与解码音频数据信号的许多研究的主题。例如通过MPEG AAC(MPEG＝运动图像专家组；AAC＝高级音频编码)提供有效编码。

根据MPEG AAC，采用定标因子、量化及码本(特别地，霍夫曼码本)编码音频信号的频谱值。

在进行霍夫曼编码前，编码器将待编码的多个频谱系数集合到不同区段中。对于每个区段的频谱系数，编码器选择用于霍夫曼编码的霍夫曼码本。MPEG AAC提供用于编码频谱数据的11个不同的频谱霍夫曼码本，编码器从这些霍夫曼码本中选择最适合用于编码区段的频谱系数的码本。编码器为解码器提供码本标识符作为边信息，其中码本标识符标识用于区段的频谱系数的霍夫曼编码的码本。

在解码器端，解码器分析接收到的边信息以确定是多个频谱霍夫曼码本中的哪一个被用于编码区段的频谱值。解码器基于关于用于编码待被解码器解码的区段的频谱系数的霍夫曼码本的边信息进行霍夫曼解码。

在霍夫曼解码后，在解码器获得多个量化频谱值。然后，解码器进行反量化以将可能已经由编码器进行的非均匀量化反向。由此，在解码器获得反量化频谱值。

但是，反量化频谱值仍然可能是未定标的。导出的未定标频谱值已经被集合到定标因子带中，每个定标因子带具有共同的定标因子(scalefactor)。每个定标因子带的定标因子可被解码器用作编码器提供的边信息。使用这个信息，解码器将定标因子带的未定标频谱值乘以其定标因子。由此，获得定标频谱值。

现在参考图7至10说明根据现有技术的频谱值的编码和解码。

图7示出根据现有技术的编码器。编码器包括用于将待被编码的音频信号AS从时域变换至频域以获得频域音频信号的T/F滤波器组710。频域音频信号馈入用于确定定标因子的定标因子单元720中。定标因子单元720适用于将频域音频信号的频谱系数划分成共享一个定标因子的数组频谱系数(称作定标因子带)。定标因子表示用于改变各个定标因子带中的全部频谱系数的振幅的增益值。此外，定标因子单元720适用于生成并输出频域音频信号的未定标频谱系数。

此外，图7中的编码器包括用于量化频域音频信号的未定标频谱系数的量化器。量化器730可以是非均匀量化器。

量化后，将量化的音频信号的未定标频谱馈入霍夫曼编码器740中以进行霍夫曼编码。霍夫曼编码用于减少音频信号的量化频谱的冗余。将多个未定标的量化频谱系数集合到区段中。虽然在MPEG-AAC中提供11个可能的码本，但是通过相同的霍夫曼码本编码区段的全部频谱系数。

编码器将从11个可能的霍夫曼码本中选择特别适合用于编码区段的频谱系数的一个霍夫曼码本。由此，用于特定区段的编码器的霍夫曼码本的选择取决于该特定区段的频谱值。然后，可将霍夫曼编码的频谱系数与边信息一起传输至解码器，边信息包括例如关于已经用于编码区段的频谱系数的霍夫曼码本的信息、已经用于特定定标因子带的定标因子等。

通过用于霍夫曼编码区段的频谱系数的霍夫曼码本的码字编码两个或四个频谱系数。编码器将表示编码频谱系数的码字与边信息(包括区段的长度，以及关于用于编码区段的频谱系数的霍夫曼码本的信息)一起传输至解码器。

在MPEG AAC中，提供11个频谱霍夫曼码本用于编码音频信号的频谱数据。可以通过码本索引(1至11之间的值)标识不同的频谱霍夫曼码本。霍夫曼码本的维度指示通过被考虑的霍夫曼码本的码字编码了多少个频谱系数。在MPEG AAC中，霍夫曼码本的维度为2或4，指示码字编码音频信号的两个或四个频谱值。

但是，不同的霍夫曼码本关于其它属性也不同。例如，通过霍夫曼码本能够编码的频谱系数的最大绝对值因码本而各不相同，可以是例如1、2、4、7、12或更大值。此外，被考虑的霍夫曼码本可适用于或者不适用于编码有符号的值。

采用霍夫曼编码，通过不同长度的码字编码频谱系数。MPEG AAC提供具有最大绝对值1的两个不同的霍夫曼码本，具有最大绝对值2的两个不同的霍夫曼码本，具有最大绝对值4的两个不同的霍夫曼码本，具有最大绝对值7的两个不同的霍夫曼码本，以及具有最大绝对值12的两个不同的霍夫曼码本，其中每个霍夫曼码本表示不同的概率分布函数。霍夫曼编码器将总是选择最适合于编码频谱系数的霍夫曼码本。

图8示出根据现有技术的解码器。通过霍夫曼解码器750接收霍夫曼编码的频谱值。对于每个区段的频谱值，霍夫曼解码器750还接收有关用于编码频谱值的霍夫曼码本的信息作为边信息。然后，霍夫曼解码器750执行霍夫曼解码以获得未定标的量化频谱值。将未定标的量化频谱值馈入反量化器760中。反量化器执行反量化以获得馈入定标器770中的反量化的未定标频谱值。定标器770还接收定标因子作为每个定标因子带的边信息。基于接收到的定标因子，定标器770对未定标的反量化频谱值进行定标以获得定标的反量化频谱值。然后F/T滤波器组780将频域音频信号的定标的反量化频谱值从频域变换至时域以获得时域音频信号的样本值。

图9示出与图7的编码器不同的根据现有技术的编码器，不同之处在于图9的编码器进一步包括编码器端TNS单元(TNS＝时间噪声整形)。时间噪声整形可用于通过关于音频信号的频谱数据的部分进行滤波处理而控制量化噪声的时间形状。编码器端TNS单元715确定关于待编码的频域音频信号的频谱系数进行线性预测编码(LPC)计算。特别地，从LPC计算得到的是反射系数，也称作PARCOR系数。如果预测增益(也是通过LPC计算导出的)不超过某个阈值，不使用时间噪声整形。但是，如果预测增益大于阈值，使用时间噪声整形。编码器端TNS单元去除小于某个阈值的全部反射系数。将剩下的反射系数转换成线性预测系数且用作编码器中的噪声整形滤波系数。然后，编码器端TNS单元对这些频谱系数执行滤波操作，为此TNS用于获得音频信号的处理过的频谱系数。指示TNS信息的边信息(例如反射系数(PARCOR系数))被传输至解码器。

图10示出与图8中示出的解码器不同的根据现有技术的解码器，不同之处在于图10的解码器进一步包括解码器端TNS单元775。解码器端TNS单元接收音频信号的反量化定标频谱，还接收TNS信息，例如指示反射系数(PARCOR系数)的信息。解码器端TNS单元775处理音频信号的反量化频谱以获得音频信号的处理过的反量化频谱。

对于多种应用，确定或估计编码音频信号的强度(例如能量、振幅、或响度)是很重要的。这对于电话会议系统尤其重要。通过多点控制单元(MCU)操作具有在不同位置的数个参与者的电话会议。它们的目的是混合多个输入及输出流，其中音频数据以编码格式存在。

根据现有技术，在MCU中解码全部输入流，然后进一步分析音频数据以识别混合成输出流的最主要的流。这意味着，根据现有技术，对全部输入流进行霍夫曼解码、反量化以及定标以随后进一步分析输入流而识别最主要的流(例如，显示最高强度(例如显示最大能量)的流)。用于估计一个定标因子带的强度(例如能量)的现有技术的方法将对全部频谱值进行霍夫曼解码及反量化，并通过加总全部反量化频谱值的平方而计算能量。

发明内容

本发明的目的在于提供一种用于编码音频信号的强度估计的改进的思想。本发明的目的通过根据权利要求1的装置、根据权利要求12的方法、根据权利要求14的方法、以及根据权利要求15的计算机程序解决。

提供一种用于编码音频信号的强度估计的装置。所述装置包括码本确定器，所述码本确定器用于从多个码本中确定一个码本作为标识码本，其中已经通过采用所述标识码本编码所述音频信号。所述装置进一步包括估计单元，所述估计单元被配置用于导出与所述标识码本相关联的强度值作为导出强度值。此外，所述估计单元适用于使用所述导出强度值估计所述音频信号的强度估值。

在一个实施例中，所述导出强度值可以是导出能量值，所述用于强度估计的装置可适用于进行能量估计作为强度估计。在另一个实施例中，所述导出强度值可以是导出振幅值，所述用于强度估计的装置可适用于进行振幅估计作为强度估计。在又一个实施例中，所述导出强度值可以是导出响度值，所述用于强度估计的装置可适用于进行响度估计作为强度估计。

本发明是基于这样的发现：为了减小全部解码步骤的复杂度，可以直接从用于最主要的流的识别的比特流参数中估计强度(例如能量、振幅或响度)。强度估计(例如，能量估计、振幅估计或响度估计)可基于比特流信息(例如，比特流成分，例如霍夫曼码本、定标因子、以及例如TNS滤波系数)。这些比特流成分可用于估计相应的AAC-ELD(高级音频编码-增强低延迟)流的强度。由此，根据本发明，不必完全解码音频比特流，而是基于已经用于编码音频信号的码本的确定提供强度估计，导出与所述标识码本相关联的强度值，以及使用所述强度值估计所述音频信号的强度估值。

在实施例中，所述估计单元包括定标单元。所述定标单元可适用于导出与所述编码音频信号或所述编码音频信号的部分有关的定标因子作为导出定标因子。所述定标单元可适用于基于所述定标因子和所述导出强度值获得定标强度值(例如定标能量、振幅、或响度值)。此外，所述估计单元可适用于使用所述定标强度值估计所述音频信号的强度估值。根据这个实施例，基于关于已经用于编码所述音频信号的码本的信息、与所述标识码本相关联的强度值和定标因子提供所述强度估值。

在实施例中，所述导出强度值为能量值，所述定标单元适用于将所述导出定标因子应用于所述导出能量值以通过将所述导出能量值乘以所述导出定标因子的平方而获得定标能量值。由此，以将定标因子应用于根据MPEG-2 AAC的解码器中的未定标的反量化频谱系数的相似的方式，将导出定标因子应用于导出能量上，但无需解码频谱系数。

在另一个实施例中，所述导出强度值为振幅值，所述定标单元适用于将所述导出定标因子应用于所述导出振幅值以通过将所述导出振幅值乘以所述导出定标因子而获得定标振幅值。

在又一个实施例中，所述导出强度值为响度值，所述定标单元适用于将所述导出定标因子应用于所述导出响度值以通过将所述导出响度值乘以所述导出定标因子的立方而获得定标响度值。存在计算响度的替换方式，例如通过指数3/2计算。一般而言，当所述导出强度值为响度值时，所述定标因子必须变换至响度域。

在另一个实施例中，所述估计单元被配置用于使用特定强度值作为导出强度值来估计所述音频信号的强度估值。由此，所述估计单元被特别地配置用于基于特定种类的强度值进行强度估计。

在实施例中，所述导出强度值为导出能量值，所述估计单元被配置用于使用码本能量值作为所述导出能量值来估计能量估值作为所述音频信号的强度估值，其中码本能量值指示所述标识码本的全部码字的平均概率加权能量和值的和。每个平均概率加权和值指示所述标识码本的码字的概率加权能量和值对与所述码本相关联的维度值的比值。每个概率加权能量和值指示所述标识码本的被考虑的码字的能量和值乘以与所述标识码本的被考虑的码字相关联的概率值的乘积。每个能量和值指示所述标识码本的码字的能量值序列的数值。对于所述码本的每个码字，每个能量值序列指示码字的数值序列的反量化数值序列的每个值的平方值。每个数值序列为通过所述码本的码字编码的数值序列。

在又一个实施例中，所述估计单元进一步包括强度值导出器。所述强度值导出器适用于通过在存储器中查找与所述标识码本相关联的所述强度值而导出所述导出强度值。在替换实施例中，所述强度值导出器适用于从本地数据库请求与所述标识码本相关联的所述强度值。在又另一个实施例中，所述强度值导出器适用于从远程计算机请求与所述标识码本相关联的所述强度值。

在另一个实施例中，所述装置进一步包括存储器或数据库，在所述存储器或数据库中存储有多个码本强度存储器值，所述码本强度存储器值指示与码本相关联的强度值，其中所述多个码本的每个具有存储在所述存储器或数据库中的与码本相关联的码本强度存储器值。所述强度值导出器被配置用于通过从所述存储器或从所述数据库中导出与所述标识码本相关联的码本强度存储器值而导出与所述标识码本相关联的强度值。

在实施例中，所述存储器或数据库中已经存储有多个码本能量存储器值作为码本强度存储器值，其中每个码本能量存储器值指示所述标识码本的全部码字的的平均概率加权能量和值的和。每个能量和值指示所述标识码本的码字的能量值序列的数值。此外，对于所述码本的每个码字，每个能量值序列指示码字的数值序列的反量化数值序列的每个值的平方值。每个数值序列为通过所述码本的码字所存储的数值序列。本实施例提出其中已经存储有与特定码本相关联的多个码本能量存储器值的存储器或数据库，其中所述存储的码本能量存储器值具有特别适合用于能量估计的特殊属性。

在另一个实施例中，所述存储器或数据库中已经存储有多个振幅值作为码本存储器强度值。在又一个实施例中，所述存储器或数据库中已经存储有多个响度值作为码本存储器强度值。

在另一个实施例中，所述估计单元进一步包括预测滤波器调整器。所述预测滤波器调整器适用于导出与所述编码音频信号或所述编码音频信号的部分有关的一个或多个预测滤波器系数作为导出预测滤波器系数。此外，所述预测滤波器调整器适用于基于所述预测滤波器系数和所述导出强度值获得被预测滤波器调整的强度值。此外，所述估计单元适用于使用所述被预测滤波器调整的强度值估计所述音频信号的强度估值。

根据另一个实施例，提出一种用于生成用于电话会议系统中的多个参与者的返回数据流的装置。所述装置包括用于接收包括来自多个参与者的音频信号的多个参与者数据流的接收器接口。此外，所述用于生成返回数据流的装置包括根据前述实施例的任一个的用于编码音频信号的强度估计的装置。所述用于强度估计的装置被布置用于对每个参与者数据流进行强度估计而不完全解码所述数据流。此外，所述用于生成返回数据流的装置包括决定器，所述决定器用于基于所述强度估计决定是否将参与者数据流包括在返回数据流中。此外，所述用于生成返回数据流的装置包括混合器，所述混合器用于仅混合将被包括在所述返回数据流中的参与者数据流，以及不包括被决定为不被包括的参与者数据流。所述用于生成返回数据流的装置被配置用于不完全解码被决定为不包括在所述返回数据流中的参与者数据流。在实施例中，所述决定器适用于当被考虑的参与者数据流的强度估计低于阈值时，决定不将被考虑的参与者数据流包括在所述返回数据流中。在又一个实施例中，所述决定器适用于决定仅包括在所述返回数据流中的数据流为具有全部参与者数据流关于特定定标因子带的强度估计的最高强度估计的数据流。

根据实施例，提出一种用于生成与码本相关联的强度值的方法。所述方法包括：对于所述码本的每个码字，确定与所述码本的码字相关联的的数值序列；对于所述码本的每个码字，通过将反量化器应用于码字的数值序列的数值而确定所述码本的每个码字的反量化数值序列；对于所述码本的每个码字，通过求取码字的反量化数值序列的每个值的平方而计算所述码本的每个码字的强度值序列；通过求取所述码本的每个码字的强度值序列的值的和来计算所述码本的每个码字的强度和值；对于所述码本的每个码字，通过将所述码字的强度和值乘以与所述码字相关联的概率值来确定所述码本的每个码字的概率加权强度和值；对于所述码本的每个码字，通过将所述码字的概率加权强度和值除以与所述码本相关联的维度值来确定所述码本的每个码字的平均概率加权强度和值；以及通过求取全部码字的平均概率加权强度和值的和来计算所述码本的强度值。

附图说明

参考附图介绍优选实施例，其中：

图1示出根据实施例的用于强度估计的装置，

图2示出根据实施例的估计单元，

图3示出根据另一个实施例的估计单元，

图4a及4b示出用于生成强度值的方法，

图5示出根据又一个实施例的包括预测滤波器调整器的估计单元，

图6示出用于生成返回数据流的装置，

图7示出根据现有技术的编码器，

图8示出根据现有技术的解码器，

图9示出根据现有技术的另一个编码器，以及

图10示出根据现有技术的另一个解码器。

具体实施方式

图1示出根据实施例的装置。该装置包括码本确定器110及估计单元120。码本确定器110适用于从多个码本中确定某个码本作为标识码本，其中已经通过采用标识码本而编码音频信号。估计单元120适用于导出与标识码本相关联的强度值(例如，能量值、振幅值或响度值)作为导出强度值。此外，估计单元120适用于使用导出强度值估计音频信号的强度估值(例如能量估值、振幅估值或响度估值)。例如，码本确定器110可通过接收与编码音频信号一起传输的边信息来确定已经被编码器用于编码音频信号的码本。特别地，边信息可包括识别用于编码被考虑的区段的音频信号的码本的信息。这种信息例如可从编码器传输至解码器作为识别用于编码被考虑的区段的音频信号的霍夫曼码本的数字。

图2示出根据实施例的估计单元。该估计单元包括强度值导出器210及定标单元220。强度值导出器适用于通过在存储器中查找强度值，通过从本地数据库请求强度值，或者通过从远程计算机请求与标识码本相关联的强度值，导出与标识码本(即，被编码器用于编码频谱数据的码本)相关联的强度值。在实施例中，通过强度值导出器查找或请求的强度值可以是平均强度值，平均强度值指示通过使用标识码本而编码的编码未定标频谱值的平均强度。

由此，导出强度值不是从实际频谱值计算出的，而是使用只取决于所采用的码本的平均强度值。如前文所说明的，编码器通常适用于从多个码本中选择最适于编码区段的音频信号的各个频谱数据的码本。当码本不同时，例如关于能够被编码的最大绝对值而不同，通过霍夫曼码本编码的平均值因码本而各不相同，因此，通过特定码本编码的编码频谱系数的平均强度值也因码本而各不相同。

由此，根据实施例，对于每个霍夫曼码本，可以确定用于采用特定霍夫曼码本编码音频信号的频谱系数的平均强度值，并且例如可将平均强度值存储在存储器、数据库或远程计算机中。然后，强度值导出器只需查找或请求与已经用于编码频谱数据的标识码本相关联的强度值，就可以获得与标识码本相关联的导出强度值。

但是，必须考虑的是：霍夫曼码本经常用于编码未定标的频谱值，如MPEG AAC的情况。但是，当进行强度估计时，随后应考虑定标。因此，图2的估计单元还包括定标单元220。定标单元适用于导出与编码音频信号或编码音频信号的部分有关的定标因子作为导出定标因子。例如，关于解码器，定标单元220将确定每个定标因子带的定标因子。例如，通过接收从编码器传输至解码器的边信息，定标单元220可接收关于定标因子带的定标因子的信息。此外，定标单元220适用于基于定标因子及导出强度值确定定标强度值。

在实施例中，当导出强度值为导出能量值，定标单元适用于将导出定标因子应用于导出能量值以通过将导出能量值乘以导出定标因子的平方而获得定标强度值。

在另一个实施例中，当导出强度值为导出振幅值时，定标单元适用于将导出定标因子应用于导出振幅值以通过将导出振幅值乘以导出定标因子而获得定标强度值。

在又一个实施例中，其中导出强度值为导出响度值，定标单元(220)适用于将导出定标因子应用于导出响度值以通过将导出响度值乘以导出定标因子的立方而获得定标强度值。存在有计算响度的替换方法，例如通过指数3/2计算。一般而言，当导出强度值为响度值时，定标因子必须变换至响度域。

这些实施例考虑：基于音频信号的频谱系数的平方确定能量值，基于音频信号的频谱系数的绝对值确定振幅值，以及基于已经变换至响度域的音频信号的频谱系数确定响度值。

估计单元适用于使用定标强度值估计音频信号的强度估值。在图2的实施例中，估计单元适用于输出定标强度值作为强度估值。在这种情况下，不进行定标强度值的后处理。但是，如图3的实施例所示，估计单元也可适用于进行后处理。因此，图3的估计单元包括用于后处理用于估计强度估值的一个或多个定标强度值的后处理器230。例如，可以通过后处理器230确定多个定标强度值的平均值来确定估计单元的强度估值。可以通过估计单元输出这个平均值作为强度估值。

与所提出的实施例相反，用于估计例如一个定标因子带的能量的现有技术的办法将对全部频谱值进行霍夫曼解码及反量化，以及通过加总全部反量化频谱值的平方而计算能量。

但是，在提出的实施例中，现有技术的这种计算上复杂的处理被只取决于使用的定标因子及码本而不取决于实际量化值的平均强度的估值所取代。

本发明的实施例采用这样的事实：霍夫曼码本被设计用于遵照专用统计而提供最佳编码。这意味着，已经根据数据的概率设计码本，例如AAC-ELD(高级音频编码-增强低延迟)：频谱线。可以反向这个处理以根据码本获得数据的概率。通过码字的长度给定码本内部的每个数据录入(索引)的概率。例如，

p(索引)＝2^-长度(码字)

即，

p(索引)＝2^{-长度(码字)}

其中p(索引)为码本内部的数据录入(索引)的概率。

基于此，可以以下的方式预计算并存储期望强度：每个索引表示整数值(x)序列，例如频谱线，其中序列的长度取决于码本的维度，例如对于AAC-ELD为2或4。

图4a及4b示出根据实施例的用于生成与码本相关联的强度值(例如，能量值、振幅值或响度值)的方法。方法包括：

对于码本的每个码字，确定与码本的码字相关联的的数值序列(步骤410)。如前文所说明的，码本通过码本的码字编码数值序列，例如通过码本的码字编码2个或4个数值。码本包括编码多个数值序列的多个码本。确定的数值序列为通过码本的被考虑的码字编码的数值序列。对于码本的每个码字进行步骤410。例如，如果码本包括81个码字，在步骤410中确定81个数值序列。

在步骤420中，对于码本的每个码字，通过将反量化器应用于码字的数值序列的数值来确定码本的每个码字的反量化数值序列。如前文所说明的，当编码音频信号的频谱值时，编码器通常采用量化，例如非线性量化。因此，必须在解码器端反向这种量化。

随后，在步骤430中，对于码本的每个码字，确定强度值序列。

如果生成能量值作为码本强度值，那么确定每个码字的能量值序列，并计算码本的每个码字的反量化数值序列的每个值的平方。

但是，如果生成振幅值作为码本强度值，那么确定每个码字的振幅值序列，并计算码本的每个码字的反量化数值序列的每个值的绝对值。

但是，如果生成响度值作为码本强度值，那么确定每个码字的响度值序列，并计算码本的每个码字的反量化数值序列的每个值的立方。存在计算响度的替换方式，例如通过指数3/2计算。一般而言，当生成响度值作为码本强度值时，必须将反量化数值序列的值变换至响度域。

随后，在步骤440中，通过求取码本的每个码字的强度值序列的值的和来计算码本的每个码字的强度和值。

然后，在步骤450中，对于码本的每个码字，通过将码字的强度和值乘以与码字相关联的概率值来确定码本的每个码字的概率加权强度和值。由此，需考虑的是：数值序列(例如频谱系数序列)的一些将不像其它频谱系数序列一样经常地出现。与码字相关联的概率值将这点列入考虑。当采用霍夫曼编码时，这个概率值可从码字长度导出，因为通过使用具有较短长度的码字对较可能出现的码字进行编码，而使用具有较长长度的码字对其它较不可能出现的码字进行编码。

在步骤460中，对于码本的每个码字，通过将码字的概率加权强度和值除以与码字相关联的维度值来确定码本的每个码字的平均概率加权强度和值。维度值指示通过码本的码字编码的频谱值的数量。由此，确定表示通过码字编码的频谱系数的(概率加权)强度值的平均概率加权强度和值。

然后，在步骤470中，通过求取全部码字的平均概率加权强度和值的和来计算码本的强度值。

需注意的是，这种强度值的生成确实只须对码本进行一次。如果确定码本的强度值，可以简单地查找并使用这个值，例如通过根据前述实施例的用于强度估计的装置。

下面示出根据实施例的用于生成与码本相关联的能量值的方法。为了估计使用给定的码本编码的数据的期望能量值，对于码本的每个索引，下列步骤只须进行一次：

A)将反量化器应用于序列的整数值(例如AAC-ELD：x^(4/3))

B)通过计算A)的序列的每个值的平方计算能量

C)建立B)的序列的和

D)C)乘以索引的给定概率

E)除以码本的维度以获得每个频谱线的期望能量

最后，通过E)计算出的全部值必须被加总以获得完整码本的期望能量。

在将这些步骤的输出存储于表中之后，可以基于码本索引(即根据使用的码本)，简单地查找估计的能量值。对于这个估计，不必霍夫曼解码实际频谱值。

为了估计完整音频帧的频谱数据的总能量，必须考虑定标因子。可以从比特流中提取定标因子，而没有大量的复杂性。在将定标因子应用于期望能量之前，可以修改定标因子，例如可计算所使用的定标因子的平方。然后，将期望能量乘以所使用的定标因子的平方。

根据前述实施例，可估计每个定标因子带的频谱强度，而不解码霍夫曼编码的频谱值。强度估值可用于识别与随后的混合过程无关的具有低强度(例如低功率)的流。因此，可避免这种流的完全解码。

根据实施例，用于强度估计的装置进一步包括其中存储有多个码本强度存储器值的存储器或数据库，码本强度存储器值指示与码本相关联的强度值，其中多个码本的每个具有存储在存储器或数据库中的与码本相关联的码本强度存储器值。此外，强度值导出器被配置用于通过从存储器或从数据库中导出与标识码本相关联的码本强度存储器值而导出与标识码本相关联的强度值。

如果在编码解码器中应用进一步的处理步骤作为预测，例如用于AAC-ELD TNS(时间噪声整形)的预测滤波，根据前述实施例估计的强度可以变化。此处，在比特流内部传输预测系数，例如，对于TNS，预测系数为PARCOR系数。

图5示出估计单元进一步包括预测滤波器调整器240的实施例。预测滤波器调整器适用于导出与编码音频信号或编码音频信号的部分有关的一个或多个预测滤波器系数作为导出预测滤波器系数。此外，预测滤波器调整器适用于基于预测滤波器系数及导出强度值获得被预测滤波器调整的强度值。此外，估计单元适用于使用被预测滤波器调整的强度值估计音频信号的强度估值。

在实施例中，TNS的PARCOR系数用作预测滤波器系数。可以非常有效的方式从这些系数中确定滤波处理的预测增益。关于TNS，根据以下的公式计算预测增益：增益＝1/prod(1-parcor.^2)。

例如，如果必须考虑三个PARCOR系数(例如parcor₁、parcor₂、及parcor₃)，根据以下的公式计算增益：

对于n个PARCOR系数parcor₁、parcor₂、…parcor_n，应用以下的公式：

这意味着可估计通过滤波的音频信号的放大率，而不应用滤波操作本身。

根据前述实施例的任一个的用于强度估计的装置可用于电话会议系统，例如用于多点控制单元(MCU)。

图6示出根据实施例的用于生成用于电话会议系统中的多个参与者的返回数据流的装置。该装置包括用于接收多个参与者数据流p1、p2、…pn的接收器接口610。参与者数据流p1、p2、…pn包括来自多个参与者的音频信号。此外，用于生成返回数据流的装置包括根据前述实施例中的任一个的用于编码音频信号的强度估计的装置620，其中用于强度估计的装置620被布置用于对每个参与者数据流进行强度估计，而不完全解码数据流。如图6所示，用于强度估计的装置接收音频数据流p1、p2、…pn，并对接收到的包括音频信号的音频数据流p1、p2、…pn的每个进行强度估计。装置620向决定器630传送与音频数据流p1、p2、…pn有关的强度估计ee₁、ee₂、…ee_n。决定器630适用于基于每个参与者数据流的强度估计决定是否将参与者数据流包括在返回数据流中。然后，决定器530将关于是否将特定数据流p1、p2、…pn包括在返回数据流中的决定dec₁、dec₂、…dec_n传送给用于每个参与者数据流的混合器640。混合器640还适用于接收参与者数据流p1、p2、…pn。基于决定dec₁、dec₂、…dec_n，混合器640仅混合将被包括在返回数据流中的参与者数据流，而不包括被决定为不被包括的参与者数据流。

用于生成返回数据流的装置被配置用于不完全地解码被决定为不包括在返回数据流中的参与者数据流。

在实施例中，决定器630适用于当被考虑的参与者数据流的强度估计低于阈值时，决定不将被考虑的参与者数据流包括在返回数据流中。

在实施例中，用于生成返回数据流的装置适用于在逐帧的基础上决定是否将参与者数据流包括在返回数据流中，例如，对于每个音频帧，决定是否将参与者数据流的整个音频帧包括在返回数据流中。

在替换实施例中，用于生成返回数据流的装置适用于在定标因子带的基础上决定是否将参与者数据流包括在返回数据流中，例如，对于音频帧的不同定标因子带，是否将定标因子带包括在返回数据中的决定可以不同。

在又一个实施例中，决定器630适用于决定仅包括在返回数据流中的数据流为具有全部参与者数据流关于特定定标因子带的强度估计中的最高强度估计的数据流。

在另一个实施例中，决定器630适用于决定仅包括在返回数据流中的两个数据流为具有全部参与者数据流关于特定定标因子带的强度估计中的两个最高强度估计的数据流。

在替换实施例中，图6中的用于强度估计的装置620不是估计音频信号的每个的强度估值的用于强度估计的装置，相反地，装置620包括多个(n个)用于强度估计的装置，每个用于强度估计的装置提供n个音频信号流的每个的强度估值。

用于强度估计的装置也可应用于多个其它应用。在实施例中，提供用于缓冲管理的装置。用于缓冲管理的装置包括用于存取(access)缓冲的缓冲音频数据作为存取的缓冲音频数据的缓冲存取单元，其中缓冲音频数据包括编码音频信号。此外，用于缓冲管理的装置包括根据前述实施例的任一个的用于编码音频信号的强度估计的装置。此外，用于缓冲管理的装置包括用于基于编码音频信号的强度估计决定是否将存取的缓冲音频数据从缓冲中删除的决定器。

这种用于缓冲管理的装置对于管理抖动缓冲(例如用于VoIP(互联网语音协议))是特别有用的。根据实施例的用于缓冲管理的装置适用于在缓冲中保持重要的音频帧，以及适用于当缓冲处于存在缓冲溢出风险的状态时，从缓冲中删除较不重要的帧。例如，可以检查缓冲的整个音频数据内容，用于缓冲管理的装置基于强度估计决定是否将音频数据内容(缓冲音频数据)从缓冲中删除。

在实施例中，用于存储输入数据的装置适用于在逐帧的基础上决定存储或舍弃音频数据，例如对于每个音频帧，决定存储或舍弃整个音频帧。

虽然已经在装置的背景下描述一些方面，但是显然地，这些方面也表示相对应的方法的描述，其中块或装置与方法步骤或方法步骤的特征相对应。类似地，在方法步骤的背景下描述的方面也表示相对应的装置的相对应的块或项目或特征的描述。

根据某些实施需要，本发明的实施例可在硬件或软件中实施。实施可使用在其上存储有电可读控制信号的与可编程计算机系统协作(或可协作)以便执行各个方法的数字存储介质(例如软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存)来执行。

根据本发明的一些实施例包括具有电可读控制信号的永久性数据载体，电可读控制信号能够与可编程计算机系统协作以便执行本文描述的方法的任一个。

一般而言，本发明的实施例可被实施为具有程序代码的计算机程序产品，当计算机程序产品在计算机上运行时，程序代码可被操作用于执行所述方法中的任一个。程序代码例如可存储在机器可读载体上。

其它实施例包括存储在机器可读载体上的用于执行本文描述的方法的任一个的计算机程序。

换句话说，因此，本发明方法的实施例为具有程序代码的计算机程序，当计算机程序在计算机上运行时，程序代码用于执行本文描述的方法的任一个。

因此，本发明方法的又一个实施例为在其上记载有用于执行本文描述的方法的任一个的计算机程序的数据载体(或数字存储介质，或计算机可读介质)。

因此，本发明方法的又一个实施例为表示用于执行本文描述的方法的任一个的计算机程序的数据流或信号序列。数据流或信号序列例如可被配置为通过数据通信连接(例如通过互联网)进行转移。

又一个实施例包括被配置用于执行本文描述的方法的任一个的处理装置，例如计算机或可编程逻辑装置。

又一个实施例包括计算机，在计算机上安装有用于执行本文描述的方法的任一个的计算机程序。

在一些实施例中，可使用可编程逻辑装置(例如现场可编程门阵列)执行本文描述的方法的部分或全部功能。在一些实施例中，现场可编程门阵列可与微处理器协作以便执行本文描述的方法的任一个。通常，优选地通过任何硬件装置执行方法。

前述实施例仅用于说明本发明的原理。应理解，本文示出的布置及细节的修改与变化对于本领域的其他技术人员是明显的。因此，意图是本发明只受所附专利权利要求的范围的限制，而不受通过本文的实施例的描述和说明所示出的特定细节的限制。

Claims

1.一种用于编码音频信号的强度估计的装置，包括：

码本确定器(110)，用于从多个码本中确定一个码本作为标识码本，其中已经通过采用所述标识码本编码所述音频信号，以及

估计单元(120)，被配置用于导出与所述标识码本相关联的强度值作为导出强度值，以及使用所述导出强度值估计所述音频信号的强度估值。

2.根据权利要求1所述的装置，其中所述估计单元(120)包括定标单元(220)，

其中所述定标单元(220)适用于导出与所述编码音频信号或所述编码音频信号的部分有关的定标因子作为导出定标因子，

其中所述定标单元(220)适用于基于所述定标因子和所述导出强度值获得定标强度值，

以及其中所述估计单元(120)适用于使用所述定标强度值估计所述音频信号的强度估值。

3.根据权利要求2所述的装置，

其中所述导出强度值为导出能量值，所述定标单元(220)适用于将所述导出定标因子应用于所述导出能量值以通过将所述导出能量值乘以所述导出定标因子的平方而获得定标强度值，或者

其中所述导出强度值为导出振幅值，所述定标单元(220)适用于将所述导出定标因子应用于所述导出振幅值以通过将所述导出振幅值乘以所述导出定标因子而获得定标强度值，或者

其中所述导出强度值为导出响度值，所述定标单元(220)适用于将所述导出定标因子变换至响度域并将所述变换后的导出定标因子应用于所述导出响度值而获得定标强度值。

4.根据前述权利要求中任一项所述的装置，其中所述估计单元(120)被配置用于使用码本强度值估计所述音频信号的强度估值，其中所述码本强度值指示所述标识码本的全部码字的平均概率加权强度和值的和，

其中每个平均概率加权强度和值指示所述标识码本的码字的概率加权强度和值对与所述码本相关联的维度值的比值，

其中每个概率加权强度和值指示所述标识码本的被考虑的码字的强度和值乘以与所述标识码本的被考虑的码字相关联的概率值的乘积，

其中每个强度和值指示所述标识码本的码字的强度值序列的数值，

其中当所述码本强度值为能量值时，对于所述码本的每个码字，每个强度值序列指示码字的数值序列的反量化数值序列的每个值的平方值；或者，当所述码本强度值为振幅值时，对于所述码本的每个码字，每个强度值序列指示码字的数值序列的反量化数值序列的每个值的绝对值；或者，当所述码本强度值为响度值时，对于所述码本的每个码字，每个强度值序列指示码字的数值序列的反量化数值序列的每个值被变换至响度域的值，以及

其中每个数值序列为通过所述码本的码字编码的数值序列。

5.根据前述权利要求中任一项所述的装置，其中所述估计单元(120)进一步包括强度值导出器(210)，

其中所述强度值导出器(210)适用于通过在存储器中查找与所述标识码本相关联的所述强度值而导出所述导出强度值，

其中所述强度值导出器(210)适用于从本地数据库请求与所述标识码本相关联的所述强度值，或者

其中所述强度值导出器(210)适用于从远程计算机请求与所述标识码本相关联的所述强度值。

6.根据权利要求5所述的装置，进一步包括其中存储有多个码本强度存储器值的存储器或数据库，所述码本强度存储器值指示与码本相关联的强度值，其中所述多个码本的每个码本具有存储在所述存储器或所述数据库中的与所述每个码本相关联的码本强度存储器值，以及

其中所述强度值导出器(210)被配置用于通过从所述存储器或从所述数据库中导出与所述标识码本相关联的码本强度存储器值而导出与所述标识码本相关联的强度值作为所述强度值。

7.根据权利要求6所述的装置，其中所述存储器或所述数据库中已经存储有多个码本强度存储器值，

其中每个码本强度存储器值指示相关联的码本的全部码字的平均概率加权强度和值的和，其中所述相关联的码本与所述码本强度存储器值相关联，

其中每个平均概率加权强度和值指示所述相关联的码本的码字的概率加权强度和值对与所述相关联的码本相关联的维度值的比值，

其中每个概率加权强度和值指示所述相关联的码本的被考虑的码字的强度和值乘以与所述相关联的码本的被考虑的码字相关联的概率值的乘积，

其中每个强度和值指示所述相关联的码本的码字的强度值序列的数值，

其中当所述码本强度存储器值为能量值时，对于所述相关联的码本的每个码字，每个强度值序列指示码字的数值序列的反量化数值序列的每个值的平方值；或者，当所述码本强度存储器值为振幅值时，对于所述相关联的码本的每个码字，每个强度值序列指示码字的数值序列的反量化数值序列的每个值的绝对值；或者，当所述码本强度存储器值为响度值时，对于所述相关联的码本的每个码字，每个强度值序列指示码字的数值序列的反量化数值序列的每个值被变换至响度域的值，以及

其中每个数值序列为通过所述相关联的码本的码字编码的数值序列。

8.根据前述权利要求中任一项所述的装置，其中所述估计单元(120)进一步包括预测滤波器调整器，

其中所述预测滤波器调整器(240)适用于导出与所述编码音频信号或所述编码音频信号的部分有关的一个或多个预测滤波器系数作为导出预测滤波器系数，

其中所述预测滤波器调整器(240)适用于基于所述预测滤波器系数及所述导出强度值获得被预测滤波器调整的强度值，

以及其中所述估计单元(120)适用于使用所述被预测滤波器调整的强度值估计所述音频信号的强度估值。

9.一种用于从输入数据生成输出数据流的装置，包括：

接收器接口(610)，用于接收包括编码音频信号的所述输入数据，

根据前述权利要求中任一项所述的用于所述编码音频信号的强度估计的装置(620)，

决定器(630)，用于基于所述输出数据流的部分的强度估计决定是否将所述编码音频信号的部分包括在所述输出数据流中。

10.根据权利要求9所述的装置，其中所述装置进一步包括混合器，

其中所述装置适用于生成作为电话会议系统的多个参与者的输出数据流的返回数据流，

其中所述接收器适用于接收包括来自所述多个参与者的音频信号的多个参与者数据流，

其中所述决定器适用于基于每个参与者数据流的强度估计决定是否将参与者数据流包括在所述返回数据流中，以及

混合器用于仅混合将被包括在所述返回数据流中的所述参与者数据流，以及不包括被决定为不被包括的所述参与者数据流。

11.根据权利要求10所述的装置，其中所述决定器(630)适用于当被考虑的参与者数据流的所述强度估计低于阈值时，决定不将所述被考虑的参与者数据流包括在所述返回数据流中。

12.根据权利要求10所述的装置，其中所述决定器(630)适用于决定仅包括在所述返回数据流中的数据流为具有全部参与者数据流关于特定定标因子带的强度估计中的最高强度估计的数据流。

13.一种用于缓冲管理的装置：

缓冲存取单元，用于存取缓冲的缓冲音频数据作为存取的缓冲音频数据，其中所述缓冲音频数据包括编码音频信号，

根据前述权利要求中任一项所述的用于所述编码音频信号的强度估计的装置，

决定器，用于基于所述编码音频信号的所述强度估计决定是否将所述存取的缓冲音频数据从所述缓冲中删除。

14.一种用于生成与码本相关联的码本强度值的方法，包括：

对于所述码本的每个码字，确定与所述码本的码字相关联的数值序列，

对于所述码本的每个码字，通过将反量化器应用于码字的所述数值序列的数值而确定所述码本的每个码字的反量化数值序列，

当生成能量值作为码本强度值时，对于所述码本的每个码字，通过确定码字的反量化数值序列的每个值的平方而确定所述码本的每个码字的强度值序列；或者，当生成振幅值作为码本强度值时，对于所述码本的每个码字，通过确定码字的反量化数值序列的每个值的绝对值而确定所述码本的每个码字的强度值序列；或者，当确定响度值作为码本强度值时，对于所述码本的每个码字，通过将码字的反量化数值序列的每个值变换至响度域而确定所述码本的每个码字的强度值序列，

对于所述码本的每个码字，通过求取所述强度值序列的值的和而计算所述码本的每个码字的强度和值，

对于所述码本的每个码字，通过将码字的所述强度和值乘以与所述码字相关联的概率值而确定所述码本的每个码字的概率加权强度和值，

对于所述码本的每个码字，通过将码字的概率加权强度和值除以与所述码本相关联的维度值而确定所述码本的每个码字的平均概率加权强度和值，以及

通过求取全部码字的所述平均概率加权强度和值的和而计算所述码本强度值。

15.根据权利要求14所述的方法，其中根据以下的公式计算与所述码字相关联的概率值：

2^{-(长度(码字))}

其中长度(码字)指示所述码字的长度。

16.一种用于编码音频信号的强度估计的方法，包括：

从多个码本中确定某个码本作为标识码本，其中已经通过采用所述标识码本编码所述音频信号，

导出与所述标识码本相关联的强度值，以及

使用所述强度值估计所述音频信号的强度估值。

17.一种用于从输入数据生成输出数据流的方法，包括：

接收包括编码音频信号的所述输入数据，

导出与所述标识码本相关联的强度值，以及

使用所述强度值估计所述音频信号的强度估值，

基于所述输出数据流的部分的强度估值决定是否将所述编码音频信号的部分包括在所述输出数据流中。

18.一种用于将包括编码音频信号的输入数据存储在缓冲中的方法，包括：

接收包括所述编码音频信号的所述输入数据，

导出与所述标识码本相关联的强度值，以及

使用所述强度值估计所述音频信号的强度估值，

基于所述输出数据流的部分的强度估值决定是否将所述编码音频信号的部分存储在所述缓冲中。

19.一种计算机程序，当通过计算机或信号处理器执行所述计算机程序时，实施根据权利要求14至18中任一项所述的方法。