CN105723455A

CN105723455A - 用于编码音频信号的编码器、音频发送系统和用于确定校正值的方法

Info

Publication number: CN105723455A
Application number: CN201480061940.XA
Authority: CN
Inventors: 康斯坦丁·施密特; 纪尧姆·福克斯; 马蒂亚斯·诺伊辛格; 马丁·迪茨
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2013-11-13
Filing date: 2014-11-06
Publication date: 2016-06-29
Anticipated expiration: 2034-11-06
Also published as: CN111179953B; US10229693B2; US20160247516A1; EP3069338A1; US20170309284A1; TW201523594A; CN105723455B; EP3483881B1; BR112016010197A2; TWI571867B; CA2928882C; BR112016010197B1; EP3069338B1; KR20160079110A; US20190189142A1; JP2017501430A; ZA201603823B; CN111179953A; US9818420B2; US10720172B2

Abstract

一种用于编码音频信号的编码器包括：分析器，被配置为分析所述音频信号，以及用于根据所述音频信号确定分析预测系数。编码器还包括：变换器，被配置为根据所述分析预测系数推导已变换预测系数；存储器，被配置为存储一定数量的校正值；以及计算器。计算器包括：处理器，被配置为处理所述已变换预测系数，以获得频谱加权因子。计算器还包括：组合器，被配置为将所述频谱加权因子与所述数量的校正值进行组合，以获得已校正加权因子。计算器的量化器被配置为使用所述已校正加权因子量化所述已变换预测系数，以获得所述已变换预测系数的量化表示。编码器包括：比特流形成器，被配置为基于所述已变换预测系数的量化表示并基于所述音频信号来形成输出信号。

Description

用于编码音频信号的编码器、音频发送系统和用于确定校正值的方法

技术领域

本发明涉及用于编码音频信号的编码器、音频发送系统、用于确定校正值的方法、以及计算机程序。本发明还涉及导谱频率/线谱频率加权。

背景技术

在如今的语音和音频编解码中，通过线性预测提取语音或音频信号的频谱包络并进一步对线性预测系数(LPC)的变换进行量化和编码是最新技术。这样的变换例如是线谱频率(LSF)或导谱频率(ISF)。

由于性能的增强，对于LPC量化而言，矢量量化(VQ)通常要优于标量量化。然而，已经观察到，最优LPC编码针对LSF或ISF的矢量的每个频率表现出不同的标量敏感性。作为直接结果，将经典的欧氏距离作为量化步长的度量将会导致非最优的系统。这可通过以下事实来解释：通常通过距离(如，对数谱距离(LSD)或加权对数谱距离(WLSD))来测量LPC量化的性能，这些距离与欧氏距离没有直接的比例关系。

LSD被定义为原始LPC系数及其量化版本的频谱包络的欧氏距离的对数。WLSD是考虑到低频相比于高频在感知上更相关的加权版本。

LSD和WLSD二者都太复杂，以至于不能在LPC量化方案中计算。因此，多数LPC编码方案使用简单欧氏距离或其加权版本(WED)，定义为：

W E D = \underset{i}{Σ} w_{i} * {({lsf}_{i} - {qlsf}_{i})}^{2},

其中，lsf_i是要量化的参数，且qlsf_i是已量化参数。w是给予某些系数更多的失真并给予其他系数较少失真的权重。

Laroia等[1]呈现了被称为反调和平均的启发式方案，以计算向靠近共振峰区域的LSF给予更多重要性的权重。如果两个LSF参数靠近在一起，预期信号频谱包括接近该频率的尖峰。因此，靠近其相邻LSF之一的LSF具有较高的标量敏感性，并应被给予较高的权重。

w_{i} = \frac{1}{({lsf}_{i} - {lsf}_{i - 1})} + \frac{1}{({lsf}_{i + 1} - {lsf}_{i})}

利用该伪LSF来计算第一个加权系数和最后一个加权系数：

lsf₀＝0以及lsf_p+1＝π，其中，p是LP模型的阶数。对于以8kHz采样的语音信号而言，阶数通常是10，且对于以16kHz采样的语音信号而言，阶数通常是16。

Gardner和Rao[2]根据高速近似推导出了LSF的单独的标量敏感性(例如，在使用具有30个或更多比特的VQ时)。在这样的情况下，推导出的权重是最优的，且最小化了LSD。标量权重形成以下给出的所谓敏感性矩阵的对角线：

D_{ω} (ω) = 4 {βJ}_{ω}^{T} (ω) R_{A} J_{ω} (ω)

其中，R_A是根据LPC分析的原始预测性系数推导出的合成滤波器1/A(z)的脉冲响应的自相关矩阵。J_ω(ω)是将LSF变换为LPC系数的Jacobian矩阵。

该解决方案的主要缺陷是计算敏感性矩阵的计算复杂度。

ITU推荐G.718[3]通过添加一些心理声学考虑扩展了Gardner的方案。替代考虑矩阵R_A，其考虑感知加权合成滤波器W(z)的脉冲响应：

W(z)＝W_B(z)/(A(z)

其中，W_B(z)是对向低频给出更多重要性的Bark加权滤波器进行近似的IIR滤波器。然后，通过将1/A(z)替换为W(z)来计算敏感性矩阵。

虽然G.718中使用的加权是理论上的接近最佳方案，其从Gardner的方案继承了非常高的复杂度。如今的音频编解码是在复杂度有限的情况下标准化的，并因此关于该方案，复杂度与感知质量的增益的折衷不令人满意。

Laroia等呈现的方案可产生非最佳的权重，但具有较低复杂度。该方案生成的权重平等地对待整个频率范围，然而人类耳朵敏感度是高度非线性的。与较高频率中的失真相比，较低频率中的失真要容易听得到的多。

因此，存在改进编码方案的需求。

发明内容

本发明的目标是提供考虑到算法的计算复杂度和/或考虑到其精确度增加且同时维持对编码音频信号进行解码时的良好音频质量的编码方案。

该目标是通过根据权利要求1所述的编码器、根据权利要求10所述的音频发送系统、根据权利要求11所述的方法以及根据权利要求15所述的计算机程序来实现的。

发明人已发现：通过使用包括低计算复杂度的方法确定频谱加权因子，并通过使用预先计算的校正信息来至少部分地校正所获得的频谱加权因子，所获得的已校正频谱加权因子可允许在维持编码精确度的同时以较低的计算量来编码和解码音频信号，和/或降低减少的线谱距离(LSD)。

根据本发明的实施例，一种用于编码音频信号的编码器包括：分析器，用于分析所述音频信号，以及用于根据所述音频信号确定分析预测系数。编码器还包括：变换器，被配置为根据所述分析预测系数推导已变换预测系数，以及存储器，被配置为存储一定数量的校正值。编码器还包括计算器和比特流形成器。计算器包括处理器、组合器和量化器，其中，处理器被配置为处理所述已变换预测系数，以获得频谱加权因子。组合器被配置为将所述频谱加权因子与所述数量的校正值进行组合，以获得已校正加权因子。量化器被配置为：使用所述已校正加权因子量化所述已变换预测系数，以获得所述已变换预测系数的量化表示，例如与数据库中的预测系数的条目有关的值。比特流形成器被配置为：基于与所述已变换预测系数的所述量化表示有关的信息并基于所述音频信号，形成输出信号。本实施例的优点是处理器可通过使用包括低计算复杂度的方法和/或概念来获得频谱加权因子。通过应用一定数量的校正值，可至少部分地校正与其他概念或方法有关的可能获得的误差。在与基于[3]的确定规则相比时，这实现了权重导出的降低的计算复杂度，且与根据[1]的确定规则相比时，这实现了降低的LSD。

其他实施例提供了一种编码器，其中，组合器被配置为：将所述频谱加权因子、所述数量的校正值以及与所述输入信号有关的另一信息进行组合，以获得所述已校正加权因子。通过使用所述与输入信号有关的另一信息，在维持较低计算复杂度的同时，可实现对所获得的已校正加权因子的进一步增强，具体地，当在其他编码步骤期间至少部分地获得所述与输入信号有关的另一信息时，使得所述另一信息可循环使用。

其他实施例提供了一种编码器，其中，组合器被配置为：在每个周期中循环获得所述已校正加权因子。计算器包括：平滑器，被配置为对针对先前周期获得的第一量化加权因子和针对所述先前周期之后的周期获得的第二量化加权因子进行加权组合，以获得平滑的已校正加权因子，所述平滑的已校正加权因子包括所述第一量化加权因子的值与所述第二量化加权因子的值之间的值。这使得可降低或防止转变失真，特别是在两个连续周期的已校正加权因子被确定为使得它们在彼此进行比较时包括较大差异的情况下。

其他实施例提供了一种音频发送系统，包括：编码器，以及解码器，被配置为接收所述编码器的输出信号或根据所述输出信号推导出的信号，且解码接收到的信号，以提供合成音频信号，其中，所述编码器的输出信号是经由传输介质(例如，有线介质或无线介质)发送的。该音频发送系统的优点在于解码器可基于未改变的方法来分别解码所述输出信号和所述音频信号。

其他实施例提供一种用于确定针对第一数量的第一加权因子的校正值的方法。每个加权因子适于加权音频信号的例如被表示为线谱频率或导谱频率的部分。针对每个音频信号，第一数量的第一加权因子是基于第一确定规则来确定的。针对音频信号组中的每个音频信号，第二数量的第二加权因子是基于第二确定规则来确定的。第二数量的加权因子中的每一个与第一加权因子有关，即，可基于第一确定规则并基于第二确定规则，针对音频信号的一部分确定加权因子，以获得可能不同的两个结果。计算第三数量的距离值，所述距离值具有与第一加权因子和第二加权因子之间的距离有关的值，所述第一加权因子和所述第二加权因子二者与所述音频信号的所述部分有关。计算第四数量的校正值，所述校正值适于在与所述第一加权因子组合时减少所述距离，使得当将所述第一加权因子与所述第四数量的校正值组合时，与所述第二加权因子相比，减少了已校正的第一加权因子之间的距离。这允许基于训练数据来计算加权因子，训练数据一次基于包括高计算复杂度和/或高精确度的第二确定规则且另一次基于可包括较低计算复杂度并可具有较低精确度的第一确定规则来设置，其中，通过校正来至少部分地补偿或降低该较低精确度。

其他实施例提供通过适配多项式来降低所述距离的方法，其中，多项式系数与校正值有关。其他实施例提供一种计算机程序。

附图说明

现在参考附图来详细描述本发明的优选实施例，在附图中：

图1示出了根据实施例的用于对音频信号进行编码的编码器的示意性框图；

图2示出了根据实施例的计算器的示意性框图，其中，与图1示出的计算器相比，对计算器进行了改良；

图3示出了根据实施例的编码器的示意性框图，该编码器附加地包括频谱分析器和频谱处理器；

图4a示出了根据实施例的矢量，该矢量包括变换器基于所确定的预测系数获得的16个线谱频率值；

图4b示出了根据实施例的由组合器执行的确定规则；

图4c示出了根据实施例的示例性确定规则，用于示出获得已校正加权因子的步骤；

图5a描绘了根据实施例的示例性确定方案，该确定方案可由量化器实现，以确定已变换预测系数的量化表示；

图5b示出了根据实施例的量化值的示例性矢量，该量化值可被组合为量化值的集合；

图6示出了根据实施例的音频发送系统的示意性框图；

图7示出了推导校正值的实施例；以及

图8示出了根据实施例的用于编码音频信号的方法的示意性流程图。

具体实施方式

在下面的描述中，即使在不同的图中出现，同样的或等同的元素或者具有同样的或等同的功能的元素也由同样的或等同的附图标记来表示。

在下面的描述中阐述众多细节，以提供对本发明实施例的更透彻的解释。然而，对本领域技术人员将显而易见的是，可以在没有这些特定细节的情况下实践本发明的实施例。在其他实例中，以框图形式而非细节示出了公知的结构和设备，以避免模糊本发明的实施例。此外，除非特别指出，可将之后描述的不同实施例的特征彼此组合。

图1示出用于对音频信号进行编码的编码器100的示意性框图。编码器100可将音频信号作为音频信号中的帧102的序列来获得。编码器100包括分析器，用于分析帧102并用于根据音频信号102确定分析预测系数112。可将分析预测系数(预测系数)112例如作为线性预测系数(LPC)而获得。备选地，还可获得非线性预测系数，其中，可通过使用较少的计算功率来获得线性预测系数，且因此可更快地获得线性预测系数。

编码器100包括变换器120，被配置为根据预测系数112推导已变换预测系数122。变换器120可被配置为确定已变换预测系数122，以获得例如线谱频率(LSF)和/或导谱频率(ISF)。当与预测系数112相比时，已变换预测系数122可包括与之后的量化中的量化误差有关的较高鲁棒性。因为通常非线性地执行量化，对线性预测系数进行量化可导致解码音频信号失真。

编码器100包括计算器130。计算器130包括处理器140，处理器140被配置为处理已变换预测系数122，以获得频谱加权因子142。处理器可被配置为基于多个已知规则中的一个或多个(例如如由[1]已知的反调和平均(IHM))或根据在[2]中描述的更复杂的方案来计算和/或确定加权因子142。国际电信联盟(ITU)标准G.718描述了通过扩展[2]的方案来确定加权因子的另一方案，如[3]中描述的。优选地，处理器140被配置为基于包括较低计算复杂度的确定规则来确定加权因子142。由于可基于较少计算量消耗较少能量的硬件，这可允许编码音频信号的较高吞吐量和/或编码器100的简单实现。

计算器130包括组合器150，组合器150被配置为将频谱加权因子142与一定数量的校正值162进行组合，以获得已校正加权因子152。从存储了校正值162的存储器160提供该数量的校正值。校正值162可以是静态的或动态的，即，校正值162可在编码器100的操作期间更新，或可在操作期间保持不变，或可仅在用于校准编码器100的校准过程期间更新。优选地，存储器160包括静态校正值162。可例如如通过稍后描述的预计算过程来获得校正值162。备选地，如虚线所指示的，存储器160可备选地包括在计算机130中。

计算器130包括量化器170，量化器170被配置为使用已校正加权因子152量化已变换预测系数122。量化器170被配置为输出已变换预测系数122的量化表示172。量化器170可以分别是线性量化器、非线性量化器(例如，对数量化器或类矢量量化器(vector-likequantizer)、矢量量化器)。类矢量量化器可被配置为将已校正加权因子152的多个部分量化为多个量化值(部分)。量化器170可被配置为利用已校正加权因子152对已变换预测系数122进行加权。量化器还可被配置为确定加权的已变换预测系数122与量化器170的数据库的条目的距离，并选择与数据库中的条目有关的码字(表示)，其中，该条目可包括与加权的已变换预测系数122的最小距离。这样的过程将在稍后示例性地描述。量化器170可以是随机矢量量化器(VQ)。备选地，量化器170还可被配置为应用其他矢量量化器(如LatticeVQ)或任何的标量量化器。备选地，量化器170还可被配置为应用线性或对数量化。

向编码器100的比特流形成器180提供已变换预测系数122的量化表示172(即，码字)。编码器100可包括音频处理单元190，音频处理单元190被配置为处理音频信号102的音频信息和/或其他信息中的一些或全部。音频处理单元190被配置为向比特流形成器180提供音频数据192，例如，话音信号信息或非话音信号信息。比特流形成器180被配置为基于已变换预测系数122的量化表示172并基于音频信息192形成输出信号(比特流)182，其中，音频信息192基于音频信号102。

编码器100的优点是：处理器140可被配置为通过使用包括较低计算复杂度的确定规则来获得(即，计算)加权因子142。可通过以下方式获得校正值162：在以简化方式表达时，将通过具有较高计算复杂度但因此包括较高精确度和/或良好音频质量和/或低LSD的(参考)确定规则获得的加权因子集合与通过由处理器140执行的确定规则获得的加权因子进行比较。可针对一定数量的音频信号进行该操作，其中，针对音频信号中的每一个，基于该两个确定规则获得一定数量的加权因子。针对每个音频信号，可将所获得的结果进行比较，以获得与失配或误差有关的信息。可对与失配或误差有关的信息进行合计，或者关于该数量的音频信号进行平均，以获得与平均误差有关的信息，该平均误差是在执行具有较低计算复杂度的确定规则时由处理器140关于参考确定规则做出的。所获得的与平均误差和/或失配有关的信息可表示在校正值162中，使得可由组合器将加权因子142与校正值162进行组合，以降低或补偿平均误差。这使得在与离线使用的参考确定规则相比较时可降低或几乎补偿加权因子142的误差，同时仍然允许对加权因子142的较低复杂度的确定。

图2示出了改良计算器130’的示意框图。计算器130’包括处理器140’，处理器140’被配置为根据LSF122’计算反调和平均(IHM)权重，该IHM权重表示已变换预测系数。计算器130’包括组合器150’，在与组合器150比较时，组合器150’被配置为将处理器140’的IHM权重142’、校正值162以及音频信号102的被指示为“反射系数”的另一信息114进行组合，其中，该另一信息114不限于此。该另一信息可以是其他编码步骤的临时结果，例如，反射系数114可由分析器110在确定预测系数112期间获得(如图1中所描述的)。分析器110可在执行根据Levinson-Durbin算法的确定规则时确定线性预测系数，在Levinson-Durbin算法中确定了反射算法。在计算预测系数112期间还可获得与功率谱有关的信息。稍后描述组合器150’的可能实现。备选地，或附加地，该另一信息114可与权重142或142’以及校正参数162组合，例如，与音频信号102的功率谱有关的信息。该另一信息114使得可进一步减少计算器130或130’确定的权重142或142’与参考权重之间的差异。计算复杂度的增加可能仅造成较小影响，因为该另一信息114可能在音频编码的其他步骤期间已被其他组件(例如，分析器110)所确定。

计算器130’还包括平滑器155，平滑器155被配置为从组合器150’接收已校正加权因子152’，并接收使得可控制平滑器155的操作(开ON/关OFF状态)的可选信息157(控制标记)。控制标记157可从例如分析器获得，指示为了减少恶劣的转变，要执行平滑。平滑器155被配置为将已校正加权因子152’与已校正加权因子152”’进行组合，已校正加权因子152”’是针对音频信号的先前帧或子帧确定的已校正加权因子的延迟表示，即，开状态下在先前周期中确定的已校正加权因子。平滑器155可实现为无限脉冲响应(IIR)滤波器。因此，计算器130’包括延迟块159，延迟块159被配置为在第一周期接收并延迟平滑器155提供的已校正加权因子152”，且在接下来的周期中提供这些权重来作为已校正加权因子152”’。

延迟块159可例如被实现为延迟滤波器，或实现为被配置为存储接收到的已校正加权因子152”的存储器。平滑器155被配置为对接收到的已校正加权因子152’和接收到的来自过去的已校正加权因子152”’进行加权组合。例如，(当前)已校正加权因子152’可包括已平滑的已校正加权因子152”中的份额25％、50％、75％或任意其他值，其中，(过去的)加权因子152”’可包括(已校正加权因子152’的1份)的份额。这使得在音频信号(即，音频信号的两个后续帧)产生可导致解码音频信号失真的不同已校正加权因子时，可避免后续音频帧之间恶劣的转变。在关状态下，平滑器155被配置为转发已校正加权因子152’。备选地或附加地，平滑可使得提高包括高的周期性程度的音频信号的音频质量。

备选地，平滑器155可被配置为附加地组合更多先前周期的已校正加权因子。备选地或附加地，已变换预测系数122’也可以是导谱频率。

可例如基于反调和平均(IHM)获得加权因子w_i。确定规则可基于以下形式：

w_{i} = \frac{1}{({lsf}_{i} - {lsf}_{i - 1})} + \frac{1}{({lsf}_{i + 1} - {lsf}_{i})},

其中，w_i表示在索引i的情况下确定的权重142’，LSF_i表示索引i的情况下的线谱频率。索引i对应于所获得的频谱加权因子的数目，并可等于分析器确定的预测系数的数目。预测系数的数目(且因此已变换系数的数目)可例如等于16。备选地，该数目也可以是8或32。备选地，已变换系数的数目也可以低于预测系数的数目，例如，如果已变换系数122被确定为导谱频率，其中，与预测系数的数目相比，导谱频率可包括较小的数目。

换言之，图2详细描述了在变换器120执行的权重导出步骤中进行的处理。首先，根据LSF计算IHM权重。根据一个实施例，将LPC阶数16用于以16kHz采样的信号。这意味着LSF被限制在0与8kHz之间。根据另一实施例，LPC具有阶数16，且以12.8kHz对信号采样。在该情况下，LSF被限制在0与6.4kHz之间。根据另一实施例，以8kHz对信号采样，这可被称为窄带采样。然后，可在多项式中将IHM权重与另一信息(例如，与反射系数中的一些有关的信息)进行组合，对于该多项式，在训练阶段对系数进行离线优化。最后，在某些情况下(例如，针对静态信号)，可通过先前的权重集合来平滑所获得的权重。根据一实施例，从不执行平滑。根据其他实施例，仅在输入帧被分类为语音帧(即，被检测为高度周期性的信号)时才执行平滑。

下面将参考对所推导出的加权因子进行校正的细节。例如，分析器被配置为确定阶数10或16(10或16个LPC的数目)的线性预测系数(LPC)。虽然分析器也可被配置为确定任何其他数目的线性预测系数或不同类型的系数，参考16个系数进行以下描述，因为在移动通信中使用该数目的系数。

图3示出了编码器300的示意性框图，与编码器100相比时，编码器300附加地包括频谱分析器115和频谱处理器145。频谱分析器115被配置为根据音频信号推导出频谱参数116。频谱参数可例如是：音频信号或音频信号的帧的频谱的包络曲线、和/或表征包络曲线的参数。备选地，可获得与功率谱有关的系数。

频谱处理器145包括能量计算器145a，能量计算器145a被配置为基于频谱参数116计算音频信号102的频谱的频点(frequencybin)的能量的量或测量结果146。频谱处理器还包括归一化器145b，用于归一化已变换预测系数122’(LSF)，以获得归一化预测系数147。可例如关于多个LSF中的最大值来相对地归一化已变换预测系数，和/或可绝对地(即，关于预定值，例如所预期的且可由所使用的计算变量表示的最大值)归一化已变换预测系数。

频谱处理器145还包括第一确定器145c，第一确定器145c被配置为确定每个归一化预测系数的频点能量(binenergy)，即，将从归一化器145b获得的每个归一化预测参数147与计算出的测量146相关，以获得包含每个LSF的频点能量的矢量W1。频谱处理器145还包括第二确定器145d，第二确定器145d被配置为发现(确定)每个归一化LSF的频率加权，以获得包含频率权重的矢量W2。另一信息114包括矢量W1和W2，即，矢量W1和W2是表示另一信息114的特征。

处理器142’被配置为基于已变换预测系数122’和IHM的幂(例如，二次幂)来确定IHM，其中，备选地或附加地，还可以计算更高次幂，其中，IHM及其(多个)幂形成加权因子142’。

组合器150”被配置为基于另一信息114和加权因子142’确定已校正加权因子(已校正LSF权重152’)。

备选地，处理器140’、频谱处理器145和/或组合器可被实现为单个处理单元，例如中央处理单元、(微)控制器、可编程门阵列等。

换言之，针对组合器的第一条目和第二条目是IHM和IHM²，即，加权因子142’。针对于每个LSF矢量元素i，第三条目是：

其中，wfft是W1和W2的组合，且min是wfft的最小值。

i＝0..M，其中，在根据音频信号推导出16个预测系数时，M可以是16，以及

其中，binEner包含每个频谱段的能量，即，binEner对应于测量146。

映射binEner是对频谱包络中的共振峰的能量的粗略近似。FreqWTable是包含附加权重的矢量，该附加权重是根据作为语音或非语音的输入信号来选择的。

Wfft是对靠近预测系数(如，LSF系数)的频谱能量的近似。简言之，如果预测(LSF)系数包括值X，则这意味着音频信号(帧)的频谱在频率X处或在频率X下方包括能量最大值(共振峰)。wfft是频率X处的能量的对数表达，即，其对应于该位置处的对数能量。在与之前描述为利用反射系数作为另一信息的实施例相比较时，备选地或附加地，可使用wfft(W1)和FrequWTable(W2)的组合来获得另一信息114。FrequWTable描述了要使用的多个可能表格之一。基于编码器300的“编码模式”(例如语音、摩擦音(fricative)等)，可选择多个表格中的至少一个。在编码器300的操作期间，可训练(编程或适配)多个表格中的一个或多个。

对使用wfft的发现被用于增强对表示共振峰的已变换预测系数的编码。与经典的噪声成形(其中，噪声在包括大量(信号)能量的频率处)相比，所描述的方案涉及量化频谱包络曲线。当功率谱在包括已变换预测系数的频率或被布置为与已变换预测系数的频率相邻的频率处包括大量能量(较大测量)时，可对该已变换预测系数(LSF)进行更好地量化，即，与包括较低能量测量的其他系数相比，以较高的权重实现较低的误差。

图4a示出了包括所确定的线谱频率的16个条目值的矢量LSF，线谱频率是由变换器基于所确定的预测系数获得的。处理器被配置为还获得16个权重，示例性地，在矢量IHM中表示的反调和平均IHM。将校正值162分组为例如矢量a、矢量b和矢量c。矢量a、b和c中的每一个包括16个值a_1-16、b_1-16和c_1-16，其中，同样的索引指示相应校正值与包括相同索引的预测系数、其变换表示以及加权因子有关。图4b示出了根据实施例的由组合器150或150’执行的确定规则。组合器被配置为计算或确定基于形式y＝a+bx+cx ²的多项式函数的结果，即，将不同的校正值a、b、c与加权因子(示出为x)的不同幂进行组合(相乘)。y表示所获得的已校正加权因子的矢量。

备选地或附加地，组合器还可被配置为添加其他校正值(d、e、f......)以及加权因子的其他幂或另一信息的其他幂。例如，可通过将包括16个值的矢量d与另一信息114的三次幂相乘来扩展图4b中描绘的多项式，相应矢量也包括16个值。当图3中所述的处理器140’被配置为确定IHM的其他幂时，这可以例如是基于IHM³的矢量。备选地，可以仅计算至少矢量b，以及可选地，更高阶矢量c、d、...中的一个或多个。简而言之，多项式的阶数随着每一项而增加，其中，基于加权因子和/或可选地基于另一信息，可形成每种类型，其中，当包括更高阶的项时，多项式也基于以下形式：y＝a+bx+cx ²。校正值a、b、c以及可选地d、e、......可包括实数值和/或虚数值，且还可包括零值。

图4c描绘了用于示出获得已校正加权因子152或152’的步骤的示例性确定规则。已校正加权因子被表示在包括16个值的矢量w中，针对图4a中描绘的已变换预测系数中的每一个存在一个加权因子。根据图4b中示出的确定规则来计算已校正加权因子w_1-16中的每一个。以上描述应当仅示出确定已校正加权因子的原理，且不应被限于上述的确定规则。也可对上述确定规则进行改变、缩放、更易等。一般而言，通过执行校正值与所确定的加权因子的组合来获得已校正加权因子。

图5a示出了示例性的确定方案，其可由诸如量化器170的量化器实现，以确定已变换预测系数的量化表示。量化器可合计误差，例如所确定的已变换系数(示出为LSF_i)与参考系数(指示为LSF’_I)之间的差或其幂，其中，参考系数可存储在量化器的数据库中。可对所确定的距离取平方，使得仅获得正值。通过相应的加权因子w_i对距离(误差)中的每一个进行加权。这使得可向对音频质量具有更大重要性的频率范围或已变换预测系数给予更高的权重，而向对音频质量具有较小重要性的频率范围给予较低权重。在索引1-16中的一些或全部上对误差进行合计，以获得总误差值。这可针对系数的多个预定义组合(数据库条目)来进行，系数可被组合为如图5b中所指示的集合Qu’、Qu”、...Quⁿ。量化器可被配置为选择与预定义系数集合有关的码字，该预定义系数集合关于所确定的已校正加权因子和已变换预测系数包括最小误差。码字可以例如是表格的索引，使得解码器可基于接收到的索引、接收到的码字分别恢复预定义集合Qu’、Qu”、...。

为了在训练阶段期间获得校正值，选择根据其来确定参考权重的参考确定规则。当编码器被配置为关于参考权重来校正所确定的加权因子且参考权重的确定可离线(即，在校准步骤等期间)进行时，可选择包括高精确度(例如，低LSD)的确定规则，同时忽略所产生的计算量。优选地，可选择包括高精确度且可能包括高计算复杂度的方法，以获得预定大小的参考加权因子。例如，可使用根据G.718标准[3]的确定加权因子的方法。

还执行编码器将根据其来确定加权因子的确定规则。这可以是包括较低计算复杂度且同时接受较低确定结果精确度的方法。根据该两个确定规则计算权重，同时使用包括例如语音和/或音乐的音频素材集。可通过数目为M的训练矢量的形式表示音频素材，其中，M可包括100以上、1000以上或5000以上的值。将所获得的加权因子的该两个集合存储在矩阵中，每个矩阵包括各自与M个训练矢量中的一个训练矢量有关的矢量。

针对M个训练矢量中的每个训练矢量，确定包括基于第一(参考)确定规则确定的加权因子的矢量与包括基于编码器确定规则确定的加权因子的矢量之间的距离。对距离进行合计，以获得总距离(误差)，其中，可对总误差求平均，以获得平均误差值。

在校正值的确定期间，目标可以是降低总误差和/或平均误差。因此，可基于图4b中示出的确定规则来执行多项式拟合，其中，将矢量a、b、c和/或其他矢量适配到多项式，使得可降低或最小化总误差和/或平均误差。多项式被拟合到基于确定规则确定的加权因子，确定规则将在解码器处执行。可对多项式进行拟合，以使得总误差或平均误差低于阈值，例如，0.01、0.1或0.2，其中，1指示完全失配。备选地或附加地，可对多项式进行拟合，使得可通过基于误差最小化算法的使用来最小化总误差。值0.01可指示可表达为差(距离)和/或表达为距离之商的相对误差。备选地，可通过确定校正值以使得所产生的总误差或平均误差包括与数学最小值接近的值来进行多项式拟合。这可通过例如对所使用的函数求导数以及基于将所获得的导数设置为0以进行优化来进行。

当在编码器侧添加附加信息(如针对114所示出的)时，可实现距离(误差)(例如，欧氏距离)的进一步减少。还可以在校正参数的计算期间使用该附加信息。可通过将该信息与用于确定校正值的多项式进行组合来使用该信息。

换言之，首先，可从包含5000秒以上的语音和音乐素材(或语音和音乐素材的M个训练矢量)的数据库提取IHM权重和G.718权重。IHM权重可存储在矩阵I中，且G.718权重可存储在矩阵G中。设I_i和G_i是包含整个训练数据库的第i个ISF或LSF系数的所有IHM和G.718权重w_i的矢量。可基于以下等式确定这两个矢量之间的平均欧氏距离：

d_{i} = \frac{1}{M} \overset{M}{Σ} {(I_{i} - G_{i})}^{2}

为了最小化这两个矢量之间的距离，可将二次幂多项式拟合为：

d_{i} = \frac{1}{M} \overset{M}{Σ} {(p_{0, i} + p_{1, i} I_{i} + p_{2, i} I_{i}^{2} - G_{i})}^{2}

可引入矩阵且为了进行重写引入矢量P_i＝[p_0，ip_1，ip_2，i]^T：

p_{0, i} + p_{1, i} I_{i} + p_{2, i} I_{i}^{2} = {EI}_{i} P_{i}

以及：

d_{i} = \frac{1}{M} \overset{M}{Σ} {({EI}_{i} P_{i} - G_{i})}^{2}

为了得到具有最低平均欧氏距离的矢量P_i，可将导数设置为0：

\frac{\partial d_{i}}{\partial P_{i}} = 2 {EI}_{i}^{T} (G - {EI}_{i} P_{i}) = 0,

以获得：

P_{i} = {({EI}_{i}^{H} {EI}_{i})}^{- 1} {EI}_{i}^{H} G_{i} .

为了进一步降低所提议的权重与G.718权重之间的差(欧氏距离)，可将其他信息的反射系数添加到矩阵EI_i。例如因为反射系数携带与在LSF或ISF域中不可直接观察的LPC模型有关的一些信息，其有助于降低欧氏距离EI_i。在实践中，很可能不是所有的反射系数都会导致欧氏距离的显著减少。发明人发现使用第1反射系数和第14反射系数可以是足够的。添加反射系数EI_i，矩阵将看起来像是：

其中，r_x，y是训练数据集中第x个实例的第y个反射系数(或其他信息)。因此，矢量P_i的维度将会包括根据矩阵EI_i中列的数目而改变的维度。最优矢量P_i的计算与以上相同。

通过添加另一信息，可根据以下多项式改变(扩展)图4b中描绘的确定规则：y＝a+bx+cx ²+dr ₁ ³+...。

图6示出了根据实施例的音频发送系统600的示意性框图。音频发送系统600各自地包括编码器100以及被配置为接收作为比特流的输出信号182或与其有关的信息的解码器602，比特流包括量化LSF。通过传输介质604(例如，有线连接(线缆)或空气)发送比特流。

换言之，图6示出了编码器侧的LPC编码方案的概述。值得一提的是，加权仅由编码器使用，且解码器不需要加权。首先，对输入信号执行LPC分析。其输出LPC系数和反射系数(RC)。在LPC分析之后，将LPC预测性系数变换为LSF。这些LSF是使用如多级矢量量化的方案来量化并然后向解码器发送的矢量。根据在先前小节中介绍的被称为WED的加权平方误差距离来选择码字。为此，必须事先计算相关联的权重。该权重导出是原始LSF和反射系数的函数。作为Levinson-Durbin算法所需的内部变量(internvariable)，反射系数在LPC分析期间直接可用。

图7示出了推导出上述校正值的实施例。已变换预测系数122’(LSF)或其他系数被用于根据框A中的编码器确定权重，且用于在框B中计算对应权重。所获得的参考权重142中的任一者在框C中与所获得的参考权重142”直接组合以适于建模，即，用于如从框A到框C的虚线所指示地计算从矢量P_i)。可选地，如果另一信息114例如是反射系数或者频谱功率信息被用于确定校正值162，在被指示为框D的回归矢量中将权重142’与另一信息114进行组合，如通过以反射值扩展的EI_i来描述的。然后，在框C中将所获得的权重142”’与参考加权因子142”进行组合。

换言之，框C的拟合模型是上述的矢量P。下面，伪码示例性地总结了权重导出处理：

上述伪码指示了上述的平滑，其中，以因子0.75对当前权重加权，且以因子0.25对以前的权重加权。

所获得的矢量P的系数可包括下面针对以16kHz采样的信号且在LPC阶数为16的情况下示例性地指示的标量值：

lsf_fit_model[5][16]＝{

{679，10921，10643，4998，11223，6847，6637，5200，3347，3423，3208，3329，2785，2295，2287，1743}，

{23735，14092，9659，7977，4125，3600，3099，2572，2695，2208，1759，1474，1262，1219，931，1139}，

{-6548，-2496，-2002，-1675，-565，-529，-469，-395，-477，-423，-297，-248，-209，-160，-125，-217}，

{-10830，10563，17248，19032，11645，9608，7454，5045，5270，3712，3567，2433，2380，1895，1962，1801}，

{-17553，12265，-758，-1524，3435，-2644，2013，-616，-25，651，-826，973，-379，301，281，-165}}；

如上所述，替代LSF，变换器也可以提供ISF来作为已变换系数122。如以下伪码所指示的，权重导出可以非常相似。对于我们附加到第N个反射系数的前N-1个系数，N阶ISF等效于N-1阶的LSF。因此，该权重导出非常接近LSF权重导出。其通过以下伪码给出：

其中，输入信号的拟合模型系数具有高达6.4kHz的频率分量：

isf_fit_model[5][15]＝{

{8112，7326，12119，6264，6398，7690，5676，4712，4776，3789，3059，2908，2862，3266，2740}，

{16517，13269，7121，7291，4981，3107，3031，2493，2000，1815，1747，1477，1152，761，728}，

{-4481，-2819，-1509，-1578，-1065，-378，-519，-416，-300，-288，-323，-242，-187，-7，-45}，

{-7787，5365，12879，14908，12116，8166，7215，6354，4981，5116，4734，4435，4901，4433，5088}，

{-11794，9971，-3548，1408，1108，-2119，2616，-1814，1607，-714，855，279，52，972，-416}}；

其中，输入信号的拟合模型系数具有高达4kHz的频率分量以及针对从4kHz到6.4kHz的频率分量的能量为0：

isf_fit_model[5][15]＝{

{21229，-746，11940，205，3352，5645，3765，3275，3513，2982，4812，4410，1036，-6623，6103}，

{15704，12323，7411，7416，5391，3658，3578，3027，2624，2086，1686，1501，2294，9648，-6401}，

{-4198，-2228，-1598，-1481，-917，-538，-659，-529，-486，-295，-221，-174，-84，-11874，27397}，

{-29198，25427，13679，26389，16548，9738，8116，6058，3812，4181，2296，2357，4220，2977，-71}，

{-16320，15452，-5600，3390，589，-2398，2453，-1999，1351，-1853，1628，-1404，113，-765，-359}}；

基本上，对ISF的阶数进行了修改，这可在将该两个伪码的块/*computeIHMweights*/进行比较时看出。

图8示出了一种用于编码音频信号的方法800的示意性流程图。方法800包括步骤802，在步骤802中对音频信号进行分析，其中，根据音频信号确定分析预测系数。方法800还包括步骤804，在步骤804中，根据分析预测系数推导出已变换预测系数。在步骤806中，将一定数量的校正值存储在例如存储器(例如存储器160)中。在步骤808中，将已变换预测系数与该数量的校正值进行组合，以获得已校正加权因子。在步骤812中，使用已校正加权因子对已变换预测系数进行量化，以获得已变换预测系数的量化表示。在步骤814中，基于已变换预测系数的量化表示并基于音频信号来形成输出信号。

换言之，本发明提出了通过使用低复杂度启发式算法推导最优权重w的新的高效的方式。呈现了针对IHM加权的优化，其导致较低频率中失真较少，同时给较高频率带来了更多的失真，并产生较少的可听到的整体失真。这样的优化是通过以下方式实现的：首先如[1]中提议的计算权重，且然后通过使该权重非常接近通过使用G.718方案[3]将会获得的权重的方式对其进行修改。通过最小化已修改的IHM权重与G.718权重之间的平均欧氏距离，第二阶段包含训练阶段期间简单的二阶多项式模型。简言之，通过(很可能简单的)多项式函数对IHM权重与G.718权重之间的关系建模。

虽然在设备的上下文中已描述一些方案，但是明显地，这些方案还表示对应的方法的描述，其中框或装置对应于方法步骤或方法步骤的特征。类似地，在方法步骤的上下文中，所述的方案还表示对应的设备的对应的框或项或特征的描述。

本发明的编码音频信号可存储在数字存储介质上，或可经由诸如无线传输介质或有线传输介质的传输介质来发送，该传输介质诸如因特网。

取决于某些实现要求，本发明的实施例可实现在硬件中或软件中。可使用数字存储介质来执行实现，该数字存储介质例如软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存，该数字存储介质上存储有电子可读的控制信号，该电子可读的控制信号与可编程计算机系统合作(或能够与可编程计算机系统合作)，使得可执行相应方法。

根据本发明的一些实施例包括具有电子可读的控制信号的数据载体，该电子可读的控制信号能够与可编程计算机系统合作，使得可执行本文所述方法之一。

通常，本发明的实施例可实现为具有程序代码的计算机程序产品，当计算机程序产品在计算机上运行时，该程序代码可操作用于执行方法之一。程序代码可例如存储在机器可读载体上。

其他实施例包括用于执行本文所述方法之一的计算机程序，该计算机程序存储在机器可读载体上。

换言之，本发明的方法的实施例因此是具有程序代码的计算机程序，当计算机程序在计算机上运行时，所述程序代码用于执行本文所述方法之一。

本发明的方法的另一实施例因此是数据载体(或数字存储介质，或计算机可读介质)，该数据载体包括记录在该数据载体上的用于执行本文所述方法之一的计算机程序。

本发明的方法的另一实施例因此是表示用于执行本文所述方法之一的计算机程序的数据流或信号序列。数据流或信号序列可例如被配置为经由数据通信连接(例如经由因特网)传递。

另一实施例包括一种处理装置，例如计算机或可编程逻辑设备，该处理装置被配置或适配为执行本文所述方法之一。

另一实施例包括一种计算机，该计算机上安装有用于执行本文所述方法之一的计算机程序。

在一些实施例中，可以使用可编程逻辑设备(例如现场可编程门阵列)来执行本文所述方法的功能中的一些或全部。在一些实施例中，现场可编程门阵列可与微处理器合作，以执行本文所述方法之一。通常，方法优选地由任何硬件装置执行。

以上所述实施例对于本发明的原理仅是示意性的。将理解的是，本领域技术人员将显而易见本文所述布置及细节的修改及变化。因此，意图是仅受即将出现的专利权利要求的范围而不是通过本文实施例的描述及解释的方式呈现的特定细节来限制。

文献

[1]Laroia，R.；Phamdo，N.；Farvardin，N.，″RobustandefficientquantizationofspeechLSPparametersusingstructuredvectorquantizers，″Acoustics，Speech，andSignalProcessing，1991.ICASSP-91.，1991InternationalConferenceon，vol.，no.，pp.641，644vol.1，14-17Apr1991

[2]Gardner，WilliamR.；Rao，B.D.，″Theoreticalanalysisofthehigh-ratevectorquantizationofLPCparameters，″SpeechandAudioProcessing，IEEETransactionson，vol.3，no.5，pp.367，381，Sep1995

[3]ITU-TG.718“Frameerrorrobustnarrow-bandandwidebandembeddedvariablebit-ratecodingofspeechandaudiofrom8-32kbit/s”，06/2008，section6.8.2.4“ISFweightingfunctionforframe-endISFquantization

Claims

1.一种用于编码音频信号(102)的编码器(100)，所述编码器(100)包括：

分析器(100)，被配置为分析所述音频信号(102)，并根据所述音频信号(102)确定分析预测系数(112)；

变换器(120)，被配置为根据所述分析预测系数(112)推导已变换预测系数(122；122’)；

存储器(160)，被配置为存储一定数量的校正值(162)；

计算器(130；130’)，包括：

处理器(140；140’)，被配置为处理所述已变换预测系数(122；122’)，以获得频谱加权因子(142；142’)；

组合器(150；150’)，被配置为将所述频谱加权因子(142；142’)与所述数量的校正值(162；a、b、c)进行组合，以获得已校正加权因子(152；152’)；以及

量化器(170)，被配置为使用所述已校正加权因子(152；152’)量化所述已变换预测系数(122；122’)，以获得所述已变换预测系数(122；122’)的量化表示(172)；以及

比特流形成器(180)，被配置为基于所述已变换预测系数(122)的所述量化表示(172)并基于所述音频信号(102)来形成输出信号(182)。

2.根据权利要求1所述的编码器，其中，所述组合器(150’)被配置为对所述频谱加权因子(142；142’)、所述数量的校正值(162；a、b、c)以及与输入信号(102)有关的另一信息(114)进行组合，以获得所述已校正加权因子(152’)。

3.根据权利要求2所述的编码器，其中，与输入信号(102)有关的所述另一信息(114)包括所述分析器(110)获得的反射系数或包括与所述音频信号(102)的功率谱有关的信息。

4.根据前述权利要求之一所述的编码器，其中，所述分析器(110)被配置为确定线性预测系数LPC，且所述变换器(120)被配置为根据所述线性预测系数LPC推导线谱频率(LSF；122’)或导谱频率ISF。

5.根据前述权利要求之一所述的编码器，其中，所述组合器(150；150’)被配置为在每个周期中周期性地获得所述已校正加权因子(152；152’)；其中

所述计算器(130’)还包括：平滑器(155)，被配置为对针对先前周期获得的第一量化加权因子(152”’)和针对所述先前周期之后的周期获得的第二量化加权因子(152’)进行加权组合，以获得平滑的已校正加权因子(152”)，所述平滑的已校正加权因子(152”)包括所述第一量化加权因子(152”’)的值与所述第二量化加权因子(152’)的值之间的值。

6.根据前述权利要求之一所述的编码器，其中，所述组合器(150；150’)被配置为应用基于以下形式的多项式：

w＝a+bx+cx²

其中，w表示所获得的已校正加权因子，x表示所述频谱加权因子，以及a、b和c表示校正值。

7.根据前述权利要求之一所述的编码器，其中，所述数量的校正值(162；a、b、c)是根据预计算的权重(LSF；142”)推导的，当与确定所述频谱加权因子(142；142’)的计算复杂度相比时，用于确定所述预计算的权重(LSF；142”)的计算复杂度较高。

8.根据前述权利要求之一所述的编码器，其中，所述处理器(140；140’)被配置为通过反调和平均获得所述频谱加权因子(142；142’)。

9.根据前述权利要求之一所述的编码器，其中，所述处理器(140；140’)被配置为基于以下形式获得所述频谱加权因子(142；142’)：

w_{i} = \frac{1}{({lsf}_{i} - {lsf}_{i - 1})} + \frac{1}{({lsf}_{i + 1} - {lsf}_{i})}

其中，w_i表示所确定的索引为i的权重，lsf_i表示索引为i的线谱频率，索引i对应于所获得的频谱加权因子(142；142’)的数目。

10.一种音频发送系统(600)，包括：

根据前述权利要求之一所述的编码器(100)；以及

解码器(602)，被配置为接收所述编码器的输出信号(182)或从所述输出信号(182)推导的信号，并解码接收到的信号(182)，以提供合成音频信号(102’)；

其中，所述编码器被配置为接入传输介质(604)并经由所述传输介质(604)发送所述输出信号(182)。

11.一种用于针对第一数量(IHM)的第一加权因子(142；142’)确定校正值(162；a、b、b)的方法，每个加权因子适于对音频信号(102)的一部分(LSF；ISF)进行加权，所述方法(700)包括：

针对音频信号组中的每个音频信号并基于第一确定规则计算所述第一数量(IHM)的第一加权因子(142；142’)；

基于第二确定规则，针对所述音频信号组中的每个音频信号计算第二数量的第二加权因子(142”)，所述第二数量的加权因子(142”)中的每一个与第一加权因子(142；142’)有关；

计算第三数量的距离值(d_i)，每个距离值(d_i)具有与关于所述音频信号(102)的一部分的第一加权因子(142；142’)和第二加权因子(142”)之间的距离有关的值；以及

计算第四数量的校正值，所述校正值适于在与所述第一加权因子(142；142’)组合时降低所述距离值(d_i)。

12.根据权利要求11所述的方法，其中，所述第四数量的校正值是基于多项式拟合确定的，所述多项式拟合包括：

将所述第一加权因子(142；142’)的值与多项式y＝a+bx+cx²相乘，所述多项式包括用于适配所述多项式的项的至少一个变量；

基于以下等式计算所述变量的值，使得所述第三数量的距离值(d_i)包括低于阈值的值：

\frac{\partial d_{i}}{\partial P_{i}} = 2 {EI}_{i}^{T} (G - {EI}_{i} P_{i}) = 0

且

P_{i} = {({EI}_{i}^{H} {EI}_{i})}^{- 1} {EI}_{i}^{H} G_{i}

其中，d_i表示所述音频信号的第i部分的距离值，P_i表示包括基于P_i＝[p_0，ip_1，ip_2，i]^T的形式的矢量，以及EI_i表示基于以下形式的矩阵：

{EI}_{i} = [\begin{matrix} 1 & I_{1, i} & I_{1, i}^{2} \\ 1 & I_{2, i} & I_{2, i}^{2} \\ \begin{matrix} . \\ . \\ . \end{matrix} & \begin{matrix} . \\ . \\ . \end{matrix} & \begin{matrix} . \\ . \\ . \end{matrix} \end{matrix}]

其中，I_x，i表示针对所述音频信号(102)的第x部分的基于所述第一确定规则(IHM)确定的第i个加权因子(142；142’)。

13.根据权利要求11或12所述的方法，其中，基于以下等式，基于另一信息(114)计算所述第三数量的距离值(d_i)，所述另一信息(114)包括反射系数或音频信号(102)的集合中的至少一个音频信号的功率谱有关的信息：

其中，I_x，i表示针对所述音频信号(102)的第x部分的基于所述第一确定规则(IHM)确定的第i个加权因子(142；142’)，以及r_a，b表示基于第b个加权因子(142；142’)和所述音频信号(102)的第x部分的所述另一信息(114)。

14.一种用于编码音频信号的方法(800)，所述方法包括：

分析(802)所述音频信号(102)，并根据所述音频信号(102)确定分析预测系数(112)；

根据所述分析预测系数(112)推导(804)已变换预测系数(122；122’)；

存储(806)一定数量的校正值(162；a-d)；

将所述已变换预测系数(122；122’)与所述数量的校正值(162；a-d)进行组合，以获得已校正加权因子(152；152’)；

使用所述已校正加权因子(152；152’)量化(812)所述已变换预测系数(122；122’)，以获得所述已变换预测系数(122；122’)的量化表示(172)；以及

基于所述已变换预测系数(122)的表示(172)并基于所述音频信号(102)形成(814)输出信号(182)。

15.一种具有程序代码的计算机程序，所述程序代码在计算机上运行时执行根据权利要求11-14之一所述的方法。