CN102265337B

CN102265337B - 用于在多信道音频代码化系统内生成增强层的方法和装置

Info

Publication number: CN102265337B
Application number: CN2009801530816A
Authority: CN
Inventors: 詹姆斯·P·阿什利; 乌达·米塔尔
Original assignee: Motorola Mobility LLC
Current assignee: Motorola Mobility LLC; Google Technology Holdings LLC
Priority date: 2008-12-29
Filing date: 2009-12-03
Publication date: 2013-07-10
Anticipated expiration: 2029-12-03
Also published as: WO2010077542A1; CN102265337A; EP2382621A1; EP2382621B1; KR20110100237A; KR101180202B1; US20120226506A1; US20100169101A1; US8340976B2; US8175888B2; ES2430639T3

Abstract

在操作期间，多信道音频信号被接收和代码化以生成代码化的音频信号。生成了具有平衡因子分量的平衡因子，每一个平衡因子分量与多信道音频信号的音频信号相关联。确定要应用所述代码化的音频信号的增益值，以基于所述平衡因子和所述多信道音频信号来生成所述多信道音频信号的估计，其中，所述增益值被配置成最小化在所述多信道音频信号和所述多信道音频信号的所述估计之间的失真值。可以输出所述增益值的表示以用于传输和/或存储。

Description

用于在多信道音频代码化系统内生成增强层的方法和装置

相关申请的交叉引用

本申请涉及由摩托罗拉公司与本申请一起共同拥有的下面的美国申请：

申请No.12/345,141，题目为“SELECTIVE SCALING MASKCOMPUTATION BASED ON PEAK DETECTION”(律师档案编号No.CS36251AUD)；

申请No.12/345,117，题目为“METHOD AND APPARATUS FORGENERATING AN ENHANCEMENT LAYER WITHIN AMULTIPLE-CHANNEL AUDIO CODING SYSTEM”(律师档案编号No.CS36627AUD)；以及

申请No.12/345,096，题目为“SELECTIVE SCALING MASKCOMPUTATION BASED ON PEAK DETECTION”(律师档案编号No.CS36655AUD)，这些申请都与本申请在同一日期提交。

技术领域

本发明总体上涉及通信系统，并且更具体地涉及在这样的通信系统中代码化语音和音频信号。

背景技术

数字语音和音频信号的压缩是公知的。通常需要压缩以有效地在通信信道上发射信号，或在诸如固态存储设备或计算机硬盘的数字媒体设备上存储压缩的信号。虽然存在许多压缩(或“代码化”)技术，但是已经保持对于数字语音代码化非常流行的一种方法被称为代码激励线性预测(CELP)，它是“合成式分析”代码化算法的家族中的一个。合成式分析通常指的是下述代码化处理：通过该代码化处理，数字模型的多个参数用于合成与输入信号作比较并且分析失真的候选信号集合。然后，发射或存储获得最低失真的参数集合，并且该获得最低失真的参数集合最终用于重构原始输入信号的估计。CELP是一种使用一个或多个码本的特定的合成式分析方法，所述一个或多个码本的每一个必要地包括响应于码本索引而从码本检索到的代码向量集合。

在现代CELP代码化器中，对于以合理地低的数据率来维持高质量语音和音频再现存在问题。这对于没有很好地适合于CELP语音模型的音乐或其他通用音频信号而言尤其如此。在该情况下，模型失配可能引起采用这样的方法的装置的最终用户不能接受的严重变差的音频质量。因此，仍然需要改善低比特率的CELP性语音代码化器的性能，特别是对于音乐和其他非语音类型的输入而言。

附图说明

在附图中，在各个视图中，相似的附图标记指的是相同或在功能上类似的元件，附图与下面的详细描述一起被合并在说明书中并且形成说明书的一部分，并且用于进一步说明包括所要求保护的发明的思想的各个实施例，并且用于解释那些实施例的各种原理和优点。

图1是现有技术的嵌入语音/音频压缩系统的框图，

图2是图1的增强层编码器的更详细的示例。

图3是图1的增强层编码器的更详细的示例。

图4是增强层编码器和解码器的框图。

图5是多层嵌入式代码化系统的框图。

图6是层4编码器和解码器的框图。

图7是示出图4和图6的编码器的操作的流程图。

图8是现有技术的嵌入语音/音频压缩系统的框图。

图9是图8的增强层编码器的更详细的示例。

图10是根据各个实施例的增强层编码器和解码器的框图。

图11是根据各个实施例的增强层编码器和解码器的框图。

图12是根据各个实施例的多信道音频信号编码的流程图。

图13是根据各个实施例的多信道音频信号编码的流程图。

图14是根据各个实施例的多信道音频信号的解码的流程图。

图15是根据各个实施例的基于掩码生成的峰值检测的频率曲线。

图16是根据各个实施例的使用峰值掩码生成的核心层定标的频率曲线。

图17-19是图示根据各个实施例的、用于基于峰值检测使用掩码生成来编码和解码的方法的流程图。

本领域技术人员将理解，出于简单和清楚的目的而图示附图中的元素，并且这些元素不一定按比例绘制。例如，在附图中的元素中的一些元素的尺寸可能相对于其他元素被夸大，以有助于改善对各个实施例的理解。另外，说明书和附图不一定要求所说明的顺序。将进一步理解，可以以特定的发生顺序来描述或说明特定的动作和/或步骤，同时本领域的技术人员将明白，实际上不要求相对于顺序而言的这样的特殊性。在附图中已经根据情况通过常规符号表示了装置和方法组件，仅示出了与理解各个实施例相关的那些具体细节，以便不因为对于受益于在此说明的本领域内的普通技术人员将容易显而易见的细节而混淆本公开。因此，将理解，为了说明的简单和清楚，可能不描述在商业上可行的实施例中有用或必需的常见和公知的元素，以便促进对这些各个实施例的较少妨碍的观点。

具体实施方式

为了解决上述需要，在此描述了一种用于在音频代码化系统内生成增强层的方法和装置。在操作期间，要代码化的输入信号被接收和代码化，以产生代码化的音频信号。然后，使用多个增益值来定标代码化的音频信号，以产生多个定标的代码化音频信号，每一个定标的代码化音频信号具有相关联的增益值，并且确定在输入信号和多个定标的代码化音频信号的每一个之间存在多个误差值。然后，选择与定标的代码化音频信号相关联的增益值，使得在输入信号和定标的代码化音频信号之间存在较低的误差值。最后，将该低误差值与增益值一起作为增强层的一部分发射到代码化音频信号。

在图1中示出了现有技术的嵌入语音/音频压缩系统。输入音频s(n)首先被核心层编码器120处理，对于这些目的而言，核心层编码器120可以是CELP型语音代码化算法。编码的比特流被发射到信道125，并且被输入到本地核心层解码器115，在此，生成了重构的核心音频信号sc(n)。然后，增强层编码器120用于基于信号s(n)和sc(n)的某个比较来代码化附加信息，并且可以可选地使用来自核心层解码器115的参数。如在核心层解码器115中那样，核心层解码器130将核心层比特流参数转换为核心层音频信号

然后，增强层解码器135使用来自信道125的增强层比特流和信号

来产生增强的音频输出信号

这样的嵌入式代码化系统的主要优点是特定的信道125可能不能持续地支持与高质量音频代码化算法相关联的带宽要求。然而，嵌入式代码化器允许当增强层比特流被丢失或损坏时从信道125接收部分比特流(例如，仅核心层比特流)，以例如仅产生核心输出音频。然而，在嵌入式与非嵌入式代码化器之间并且也在不同的嵌入式代码化优化目的之间在质量上有折衷。也就是，较高质量的增强层代码化可以有助于实现在核心层和增强层之间的较好的平衡，并且也降低整体数据率以获得较好的传输特性(例如，减少的拥塞)，这可能导致增强层的较低的分组误差率。

在图2中给出了现有技术增强层编码器120的更详细的示例。在此，误差信号生成器210由加权差信号组成，该加权差信号被变换到MDCT(修改的离散余弦变换)域中以用于由误差信号编码器220进行处理。误差信号E被给出为：

E＝MDCT{W(s-s_c)} (1)

其中，W是基于来自核心层解码器115的LP(线性预测)滤波系数A(z)的感知加权矩阵，s是来自输入音频信号s(n)的采样的向量(即，帧)，并且s_c是来自核心层解码器115的采样的对应向量。在ITU-T推荐G.729.1中描述了示例MDCT处理。然后，误差信号E被误差信号编码器220处理，以产生代码字i_E，该代码字i_E随后被发射到信道125。对于这个示例，重要的是注意，误差信号编码器220仅被提供有一个误差信号E，并且输出一个相关联的代码字i_E。其原因将在下面变得显而易见。

然后，增强层解码器135从信道125接收编码的比特流，并且适当地解复用该比特流以产生代码字i_E。误差信号解码器230使用代码字i_E来重构增强层误差信号

然后由信号组合器240将该增强层误差信号

与核心层输出音频信号

组合如下，以产生增强层音频输出信号

\hat{s} = s_{c} + W^{- 1} {MDCT}^{- 1} {\hat{E}} - - - (2)

其中，MDCT^-1是逆MDCT(包括重叠相加)，并且W^-1是逆感知加权矩阵。

在图3中示出了增强层编码器的另一个示例。在此，误差信号生成器315的误差信号E的生成涉及自适应预定标，其中，执行对于核心层音频输出s_c(n)的一些修改。这个处理导致生成一定数目的比特，该一定数目的比特在增强层编码器120中被示出为代码字i_s。

另外，增强层编码器120示出了向误差信号编码器320输入的输入音频信号s(n)和变换的核心层输出音频S_c。这些信号用于构造用于增强层误差信号E的改善的代码化的心理声学模型。然后，代码字i_s和i_E被复用器(MUX)325复用，并且然后被发送到信道125以用于由增强层解码器135进行的随后的解码。代码化的比特流被解复用器335接收，解复用器335将比特流分离为分量i_s和i_E。然后，代码字i_E被误差信号解码器340使用以重构增强层误差信号

信号组合器345使用定标比特i_s来以某种方式定标信号并且然后将结果与增强层误差信号

组合以产生增强的音频输出信号

在图4中给出了本发明的第一实施例。该图示出了通过定标单元415来接收核心层输出信号s_c(n)的增强层编码器410。预定的增益集合{g}用于产生多个定标的核心层输出信号{S}，其中，g_j和S_j是相应的集合的第j个候选。在定标单元416内，第一实施例将在(MDCT)域中的信号s_c(n)处理为：

S_j＝G_j×MDCT{Ws_c}；0≤j＜M (3)

其中，W可以是某个感知加权矩阵，s_c是来自核心层解码器115的采样的向量，MDCT是本领域公知的操作，并且G_j可以是通过利用增益向量候选g_j而形成的增益矩阵，并且其中M是增益向量候选的数目。在第一实施例中，G_j使用向量g_j作为对角并且在其他任何位置使用零(即，对角矩阵)，但是存在许多可能。例如，G_j可以是带状矩阵或甚至可以是简单的标量乘以单位矩阵I。替代地，将信号S_j留在时域中可能有一些优点，或可能有下述情况：有利的是，将音频变换到不同的域，诸如离散傅立叶变换(DFT)域。许多这样的变换在本领域中是公知的。在这些情况下，定标单元可以输出基于相应的向量域的适当的S_j。

但是在任何情况下，将核心层输出音频定标的主要原因是补偿模型失配(或某个其他代码化缺陷)，模型失配可能引起在输入信号和核心层编解码器之间的显著差别。例如，如果输入音频信号主要是音乐信号，并且核心层编解码器基于语音模型，则核心层输出可能包含严重失真的信号特性，在该情况下，从声音质量的角度看，在通过一个或多个增强层来应用信号的补充代码化之前选择地减少这个信号分量的能量是有益的。

然后，可以将增益定标的核心层音频候选向量S_j和输入音频s(n)用作误差信号生成器420的输入。在示例性实施例中，输入音频信号s(n)被转换为向量S，使得S和S_j对应地对齐。也就是，表示s(n)的向量s与s_c在时间(相位)上对齐，并且可以应用对应的操作，使得在这个实施例中：

E_j＝MDCT{Ws}-S_j；0≤j＜M (4)

这个表达式产生多个误差信号向量E_j，所述多个误差信号向量E_j表示在MDCT频谱域中在输入音频和增益定标的核心层输出音频之间的加权差。在考虑了不同域的其他实施例中，可以基于相应的处理域来修改上面的表达式。

然后，根据本发明的第一实施例，增益选择器425用于评估多个误差信号向量E_j，以产生最佳的误差向量E^*、最佳增益参数g^*，并且随后产生对应的增益索引i_g。增益选择器425可以使用多种方法来确定最佳参数E^*和g^*，这可能涉及闭环方法(例如，失真度量的最小化)、开环方法(例如，启发式分类、模型性能估计等)或两种方法的组合。在该示例性实施例中，可以使用偏置的失真度量，其被给出为在原始音频信号向量S和复合重构的信号向量之间的偏置能量差：

j^{*} = \underset{0 \leq j < M}{\arg \min} {β_{j} \cdot {| | S - (S_{j} + {\hat{E}}_{j}) | |}^{2}}, - - - (5)

其中，

可以是误差信号向量E_j的量化估计，并且β_j可以是用于补充选择感知最佳增益误差索引j^*的判定的偏置项。在题目为APPARATUS AND METHOD FOR LOW COMPLEXITYCOMBINATORIAL CODING OF SIGNALS的美国专利申请No.11/531122中给出了用于信号向量的向量量化的示例性方法，但是许多其他方法是可能的。在认识到E_j＝S-S_j的情况下，等式(5)可以被重写为：

j^{*} = \underset{0 \leq j < M}{\arg \min} {β_{j} \cdot {| | (E_{j} - {\hat{E}}_{j}) | |}^{2}} - - - (6)

在这个表达式中，

项表示在未量化的误差信号和量化的误差信号之间的差的能量。为了清楚，这个数量可以被称为“残余能量”，并且进一步可以用于评估“增益选择准则”，其中，选择了最佳增益参数g^*。在等式(6)中给出了一种这样的增益选择准则，但是许多准则是可能的。

对于偏置项β_j的需要可能起因于下述情况：在等式(3)和(4)中的误差加权函数W可能不足以产生在向量

上的等同地可感知的失真。例如，虽然误差加权函数W可以用于尝试将误差频谱“白化”到一定程度，但是因为人耳对于失真的感知，将更多的加权置于低频上可能有特定的优点。作为在低频中的提高的误差加权的结果，可能通过增强层来不足地建模(under-modeled)高频信号。在这些情况下，将失真度量向不衰减S_j的高频分量的g_j的值偏置有直接的益处，使得高频的不足建模不会导致在最后重构的音频信号中的讨厌的或不自然的声音人工产物。一个这样的示例将是未出声的语音信号的情况。在该情况下，输入音频通常由从来自人嘴的空气湍流产生的中频至高频的噪声类信号构成。可以是核心层编码器不直接地代码化这种类型的波形，而是可以使用噪声模型来生成类似的声音音频信号。这可能导致在输入音频和核心层输出音频信号之间的通常低的相关性。然而，在这个实施例中，误差信号向量E_j基于在输入音频和核心层音频输出信号之间的差。由于这些信号可能不很好地相关，所以误差信号E_j的能量可能不一定低于输入音频或核心层输出音频。在该情况下，在等式(6)中的误差的最小化可能导致增益定标太积极，这可能导致可能的可听的人工产物。

在另一种情况下，偏置因子β_j可以基于输入音频和/或核心层输出音频信号的其他信号特性。例如，信号的频谱的峰值与平均值比率可以给出那个信号的谐波含量的指示。诸如语音和特定类型的音乐的信号可以具有高谐波含量，并且因此具有高的峰值与平均值比率。然而，通过语音编解码器处理的音乐信号可以因为代码化模型的失配而导致不良的质量，并且结果，核心层输出信号频谱当与输入信号频谱作比较时可以具有减小的峰值与平均值比率。在该情况下，可以有益的是，在最小化处理中减少偏置量，以便允许核心层输出音频被增益定标到较低的能量，由此允许增强层代码化对于复合输出音频具有更显著的影响。相反，特定类型的语音或音乐输入信号可以展现较低的峰值与平均值比率，在该情况下，可能将信号感知为更吵闹，并且可能因此通过提高误差偏置而受益于核心层输出音频的较小定标。用于生成用于β_j的偏置因子的功能的示例被给出为：

其中，λ可以是某个阈值，并且用于向量φ_y的峰值与平均值比率可以被给出为：

φ_{y} = \frac{\max {| y_{k_{1} k_{2}} |}}{\frac{1}{k_{2} - k_{1} + 1} Σ_{k = k_{1}}^{k_{2}} | y (k) |} - - - (8)

并且，其中，是y(k)的向量子集，使得

一旦从等式(6)确定了最佳增益索引j^*，则生成相关联的代码字i_g，并且将最佳误差向量E^*发送到误差信号编码器430，其中，E^*被代码化为适合于(通过复用器440)与其他代码字复用的形式，并且被发射以由对应的解码器使用。在示例性实施例中，误差信号编码器408使用因子脉冲代码化(FPC)。从处理复杂性视点看，这种方法是有益的，因为与向量E^*的代码化相关联的枚举处理独立于用于生成

的向量生成处理。

增强层解码器450逆转这些处理，以产生增强的音频输出更具体地，解码器450接收i_g和i_E，解复用器455将i_E发送到误差信号解码器460，其中，从代码字导出最佳误差向量E^*。最佳误差向量E^*被传递到信号组合器465，其中，如在等式(2)中那样修改所接收到的

以产生

本发明的第二实施例涉及如图5中所示的多层嵌入代码化系统。在此，可以看出，存在对于这个示例给出的五个嵌入层。层1和2可以都是基于语音编解码的，并且层3、4和5可以是MDCT增强层。因此，编码器502和503可以利用语音编解码器来产生和输出已编码的输入信号s(n)。编码器510、610和514包括增强层编码器，其中每一个向已编码的信号输出不同的增强。与前一个实施例类似，可以将用于层3的误差信号向量(编码器510)给出为：

E₃＝S-S₂ (9)

其中，S＝MDCT{Ws}是加权变换的输入信号，并且S₂＝MDCT{Ws₂}是从层1/2解码器506生成的已加权变换的信号。在这个实施例中，层3可以是低速率量化层，并且同样，可能有用于代码化对应的量化误差信号的相对较少的比特。为了在这些约束下提供良好的质量，仅可以量化在E₃内的系数的一部分。要代码化的系数的位置可以是固定的或可以是可变的，但是如果允许变化，则可能要求向解码器发送附加信息，以标识这些位置。如果例如代码化的位置的范围在k_s开始并且在k_e结束，其中0≤k_s＜k_e＜N，则量化的误差信号向量

可以包含仅在那个范围内的非零值和在那个范围之外的位置的零。根据所使用的代码化方法，位置和范围信息也可以隐含的。例如，在音频代码化中公知的是，频带可以在感知上被认为是重要的，并且信号向量的代码化可以聚焦在那些频率上。在这些情况下，代码化的范围可以是可变的，并且可以不跨越连续的频率集合。但是，在任何速率，一旦这个信号被量化，则复合代码化的输出频谱可以被构造为：

S_{3} = {\hat{E}}_{3} + S_{2} - - - (10)

其然后被用作层4编码器610的输入。

层4编码器610类似于先前实施例的增强层编码器410。使用增益向量候选g_j，将对应的误差向量描述为：

E₄(j)＝S-G_jS₃ (11)

其中，G_j可以是增益矩阵，其中，以向量g_j作为对角分量。然而，在当前实施例中，增益向量g_j可以以下面的方式来与已量化的误差信号向量

相关。由于已量化的误差信号向量可能在频率范围上受限，例如，在向量位置k_s开始，并且在向量位置k_e结束，所以假定层3输出信号S₃在那个范围内被非常精确地代码化。因此，根据本发明，基于层3误差信号向量的代码化位置k_s和k_e来调整增益向量g_j。更具体地，为了保留在那些位置处的信号完整性，可以将对应的单独增益元素设置为常数值α。也就是：

其中，通常，0≤γ_j(k)≤1和g_j(k)是第j个候选向量的第k位置的增益。在示例性实施例中，常数值是1(α＝1)，然而，许多值是可能的。另外，频率范围可以跨越多个开始位置和结束位置。也就是，可以将等式(12)分段为基于误差信号

的某个函数的变化的增益的非连续范围，并且可以将其更一般地写为：

对于这个示例，当在先前量化的误差信号

中的对应位置是非零时，使用固定增益α来生成g_j(k)，并且当在

中的对应的位置是零时，使用增益函数γ_j(k)。一个可能的增益函数可以被定义为：

其中，Δ是步长(例如，Δ≈2.2dB)，α是常数，M是候选的数目(例如，M＝4，可以仅使用2个比特来表示它)，并且，k_l和k_h分别是低频和高频截止频率，在它们上，可能发生增益减少。参数k_l和k_h的引入在其中仅在特定的频率范围上期望定标的系统中有用。例如，在给定的实施例中，高频可能未被核心层足够地建模，因此在高频带内的能量可能固有地低于在输入音频信号中的能量。在该情况下，定标在那个区域信号中的层3输出有很少的益处或没有益处，因为整体误差能量可能作为结果增加。

总而言之，多个增益向量候选g_j基于先前代码化的信号向量的代码化元素的某个函数，在该情况下，该向量的代码化元素为

这可以概括地表达为：

g_{j} (k) = f (k, {\hat{E}}_{3}) - - - (15)

在图5的右手侧上示出对应的解码器操作。当接收到代码化的比特流的各个层(i₁至i₅)时，在核心层(层1)解码器上的增强层的分级上建立较高质量的输出信号。也就是，对于这个特定实施例，在前两个层由时域语音模型代码化(例如，CELP)构成并且剩余的三个层由变换域代码化(例如，MDCT)构成时，根据下面来生成系统的最后输出

\hat{s} (n) = \{\begin{matrix} {\hat{s}}_{1} (n); \\ {\hat{s}}_{2} (n) = {\hat{s}}_{1} (n) + {\hat{e}}_{2} (n); \\ {\hat{s}}_{3} (n) = W^{- 1} {MDCT}^{- 1} {{\hat{S}}_{2} + {\hat{E}}_{3}}; \\ {\hat{s}}_{4} (n) = W^{- 1} {MDCT}^{- 1} {G_{j} \cdot ({\hat{S}}_{2} + {\hat{E}}_{3}) + {\hat{E}}_{4}}; \\ {\hat{s}}_{5} (n) = W^{- 1} {MDCT}^{- 1} {G_{j} \cdot ({\hat{S}}_{2} + {\hat{E}}_{3}) + {\hat{E}}_{4} + {\hat{E}}_{5}}; \end{matrix} - - - (16)

其中，

是层2时域增强层信号，并且，

是与层2音频输出

相对应的加权MDCT向量。在这个表达式中，可以从接收到的连续比特流层的最高级别来确定整体输出信号

在这个实施例中，假定较低级层具有从信道适当地接收到的较高概率，因此，代码字集{i₁}、{i₁ i₂}、{i₁ i₂ i₃}等确定在等式(16)中的增强层解码的适当级别。

图6是示出层4编码器610和解码器650的框图。在图6中示出的编码器和解码器与在图4中示出的那些类似，除了分别经由频率选择性增益生成器630和660来导出由定标单元615和670使用的增益值。在操作层3期间，音频输出S₃被从层3编码器输出，并且被定标单元615接收。另外，层3误差向量

被从层3编码器510输出，并且被频率选择性增益生成器630接收。如上所述，由于量化的误差信号向量

可能在频率范围上受限，所以基于例如如图12中所示的位置k_s和k_e或在等式13中的更一般的表达式来调整增益向量g_j。

定标的音频S_j从定标单元615输出，并且被误差信号生成器620接收。如上所述，误差信号生成器620接收输入音频信号S，并且确定由定标单元615利用的每一个定标向量的误差值E_j。这些误差向量与在基于最佳增益值g^*来确定误差向量和特定误差E^*中使用的增益值一起被传递到增益选择器电路635。用于表示最佳增益g^*的代码字(i_g)从增益选择器635输出，并且与最佳误差向量E^*一起被传递到误差信号编码器640，其中确定和输出了代码字i_E。i_g和i_E被输出到复用器645，并且经由信道125被发射到层4解码器650。

在层4解码器650的操作期间，i_g和i_E从信道125接收，并且被解复用器655解复用。根据编码器610的对应的方法，增益代码字i_g和层3误差向量

被用作频率选择性增益生成器660的输入，以产生增益向量g^*。然后，在定标单元670内，将增益向量g^*应用到层3重构的音频向量并且定标单元670的输出然后在信号组合器675与通过代码字i_E的解码从误差信号解码器655获得的层4增强层误差向量E^*相组合，以产生层4重构的音频输出

如图所示。

图7是根据本发明的第一和第二实施例的编码器的操作的流程图700。如上所述，两个实施例都利用增强层，该增强层利用多个定标值来定标已编码的音频，并且然后选择导致最低误差的定标值。然而，在本发明的第二实施例中，频率选择性增益生成器630用于生成增益值。

逻辑流在框710开始，其中核心层编码器接收要代码化的输入信号，并且将该输入信号代码化以产生代码化音频信号。增强层编码器410接收代码化音频信号(s_c(n))，并且，定标单元415利用多个增益值来定标代码化音频信号，以产生多个定标的代码化音频信号，其中每一个具有相关联的增益值(框720)。在框730，误差信号生成器420确定在输入信号和多个定标的代码化音频信号中的每一个之间存在的多个误差值。然后，增益选择器425从多个增益值选择增益值(框740)。如上所述，增益值(g^*)与导致在输入信号和定标的代码化音频信号之间存在低误差值的定标的代码化音频信号相关联。最后，在框750，发射机440将低误差值(E^*)与增益值(g^*)一起作为增强层的一部分发射到代码化音频信号。本领域的普通技术人员将认识到，在传输之前正确地编码了E^*和g^*两者。

如上所述，在接收机侧处，将与增强层一起接收已代码化音频信号。增强层是对于包括增益值(g^*)和与该增益值相关联的误差信号(E^*)的已代码化音频信号的增强。

用于立体声的核心层定标

在上面的描述中，描述了一种嵌入式代码化系统，其中，每一个层代码化单信道信号。现在，用于代码化立体声或其他多信道信号的嵌入式代码化系统。为了简洁，描述了由两个音频输入(源)构成的立体声信号的背景中的技术；然而，在此描述的示例性实施例可以被容易地扩展到其中立体声信号具有超过两个音频输入的情况，在多信道音频输入的情况下就是如此。为了说明而不是限制，两个音频输入是由左信号(s_L)和右信号(s_R)构成的立体声信号，其中，s_L和s_R是用于表示音频数据的帧的n维列向量。再一次为了简洁，将详细讨论由两个层——即核心层和增强层——构成的嵌入式代码化系统。所提出的思想可以容易地被扩展到多层嵌入式代码化系统。也不可以嵌入编解码器，即，它可以仅具有一个层，那个编解码器的比特的一些专用于立体声，并且剩余的比特用于单信道信号。

已知嵌入式立体声编解码器，该嵌入式立体声编解码器由简单地代码化单信道信号的核心层和代码化较高频率或立体声信号的增强层构成。在那个受限的情形下，核心层代码化从s_L和s_R的组合获得的单信道信号(s)，以产生代码化的单信道信号设H是用于生成单信道信号的2×1组合矩阵，即，

s＝(s_L s_R)H (17)

注意，在等式(17)中，s_R可以是右音频信号的延迟版本，而不仅是右信道信号。例如，可以计算用于最大化s_L和延迟版本s_R的相关性的延迟。如果矩阵H是[0.5 0.5]^T，则等式17导致相应的右和左信道的相等加权，即s＝0.5s_L+0.5s_R。在此提供的实施例不限于代码化单信道信号的核心层和代码化立体声信号的增强层。嵌入式编解码器的核心层以及增强层可以代码化多信道音频信号。由核心层多信道代码化的在多信道音频信号中的信道的数目可以小于在可以由增强层代码化的多信道音频信号中的信道的数目。设(m，n)是分别要由核心层和增强层代码化的信道的数目。设s₁，s₂，s₃，…，s_n是要由嵌入式系统代码化的n个音频信道的表示。要由核心层代码化的m个信道从这些被导出，并且被获得为：

[s¹ s²…s^m]＝[s₁ s₂…s_n]H， (17a)

其中，H是n×m矩阵。

如上所述，核心层编码单信道信号s，以产生核心层代码化的信号

为了从

生成立体声分量的估计，计算了平衡因子。这个平衡因子被计算为：

w_{L} = \frac{s_{L}^{T} s}{s^{T} s},

w_{R} = \frac{s_{R}^{T} s}{s^{T} s} - - - (18)

可以示出，如果组合矩阵H是[0.5 0.5]^T，则

w_L＝2-w_R (19)

注意到，该比率实现了仅一个参数的量化，并且可以容易地从第一个提取另一个。现在，将立体声输出被计算为

{\hat{s}}_{L} = w_{L} \hat{s},

{\hat{s}}_{R} = w_{R} \hat{s} - - - (20)

在随后的部分中，我们将作用于频域，而不是时域。因此，以大写字母来表示在频域中的对应的信号，即，S、

S_L、S_R、

和

分别是s、

s_L、s_R、和

的频域表示。使用在频域中的项来计算在频域中的平衡因子，并且通过下式来给出该平衡因子：

W_{L} = \frac{S_{L}^{T} S}{S^{T} S},

W_{R} = \frac{S_{R}^{T} S}{S^{T} S} - - - (21)

并且

{\hat{S}}_{L} = W_{L} \hat{S},

{\hat{S}}_{R} = W_{R} \hat{S} - - - (22)

在频域中，可以将向量进一步分割为非重叠子向量，即，维度n的向量S可以被分割为维度m₁，m₂，…m_t的t个子向量S₁，S，…，S_t，使得

Σ_{k = 1}^{t} m_{k} = n . - - - (23)

在该情况下，可以对于不同的子向量计算不同的平衡因子，即，

W_{Lk} = \frac{S_{Lk}^{T} S_{k}}{S_{k}^{T} S_{k}},

W_{Rk} = \frac{S_{Rk}^{T} S_{k}}{S_{k}^{T} S_{k}} - - - (24)

在该实例中的平衡因子独立于增益考虑。

现在参见图8和9，演示了与立体声和其他多信道信号相关的现有技术的附图。图8的现有技术的嵌入式语音/音频压缩系统800类似于图1，但是具有多个音频输入信号，在这个示例中，所述多个音频输入信号被示出为左和右立体声输入信号S(n)。这些输入音频信号被馈送到组合器810，组合器810产生输入音频s(n)，如图所示。所述多个输入信号也被提供到增强层编码器820，如图所示。在解码侧上，增强层解码器830产生增强输出音频信号

如图所示。

图9图示了可以在图8中使用的现有技术的增强层编码器900。所述多个音频输入与所示的核心层输出音频信号一起被提供到平衡因子生成器。增强层编码器910的平衡因子生成器920接收多个音频输入，以产生信号i_B，该信号i_B被向前传递到复用器325，如图所示。信号i_B是平衡因子的表示。在该优选实施例中，i_B是用于表示平衡因子的比特序列。在解码器侧上，这个信号i_B被平衡因子解码器940接收，平衡因子解码器940产生平衡因子元素W_L(n)和W_R(n)，如图所示，所示的信号组合器950接收平衡因子元素W_L(n)和W_R(n)。

多信道平衡因子计算

如上所述，在许多情形下，用于多单道信号的代码化的编解码器被设计用于单信道语音，并且每当它用于代码化不被编解码器模型完全支持的信号时导致代码化模型噪声。音乐信号和其他非语音类信号是未由基于语音模型的核心层编解码器正确地建模的信号中的一些。参考图1-7的上面的描述提出了向由核心层代码化的信号应用频率选择性增益。定标被优化以最小化在音频输入和定标的代码化信号之间的特定失真(误差值)。如上所述的方法对于单信道信号作用良好，但是可能对于当增强层代码化立体声或其他多信道信号时应用核心层定标不是最佳的。

由于从两个或更多的立体声音频输入的组合获得了诸如立体声信号的多信道信号的单信道分量，所以组合信号s也可能不符合单信道语音模型；因此，当代码化组合信号时，核心层编解码器可能产生噪声。因此，需要实现在嵌入式代码化系统中的核心层代码化信号的定标的方法，由此减少由核心层生成的噪声。在上述的单信道信号方法中，获得频率选择性定标的特定失真度量基于在单信道信号中的误差。在上面的等式(11)中示出了这个误差E₄(j)。然而，仅单信道信号的失真不足以改善立体声通信系统的质量。在等式(11)中包含的定标可以是通过单一(1)的定标因子或任何其他标识的函数。

对于立体声信号，失真度量应当捕获右信道和左信道两者的失真。设E_L和E_R分别是用于左信道和右信道的误差向量，并且通过下式被给出：

E_{L} = S_{L} - {\hat{S}}_{L},

E_{R} = S_{R} - {\hat{S}}_{R} - - - (25)

在现有技术中，例如，如在AMR-WB+标准中所述，这些误差向量被计算为：

E_{L} = S_{L} - W_{L} \cdot \hat{S},

E_{R} = S_{R} - W_{R} \cdot \hat{S} . - - - (26)

现在，我们考虑频率选择性增益向量g_j(0≤j＜M)被应用到

的情况。这个频率选择性增益向量以矩阵形式被表示为G_j，其中，G_j是具有对角元素g_j的对角矩阵。对于每一个向量G_j，误差向量被计算为：

E_{L} (j) = S_{L} - W_{L} \cdot G_{j} \cdot \hat{S},

E_{R} (j) = S_{R} - W_{R} \cdot G_{j} \cdot \hat{S} - - - (27)

通过

项来给出立体声信号的估计。可以看出，增益矩阵G可以是单一矩阵(1)，或它可以是任何其他对角矩阵；可以认识到，每一个可能的估计可以对于每一个定标信号起作用。

被最小化以改善立体声的质量的失真度量ε是两个误差向量的函数，即

ε_j＝f(E_L(j)，E_R(j)) (28)

可以看出，失真值可以由多个失真度量构成。

通过下式来给出选择的频率选择性增益向量的索引j：

j^{*} = \underset{0 \leq j < M}{\arg \min} ϵ_{j} - - - (29)

在示例性实施例中，失真度量是通过下式来给出的均方失真：

ε_j＝‖E_L(j)‖²+‖E_R(j)‖² (30)

或者，它可以是通过下式给出的加权或偏置的失真：

ε_j＝B_L‖E_L(j)‖²+B_R‖E_R(j)‖² (31)

偏置B_L和B_R可以是左信道和右信道能量的函数。

如上所述，在频域中，向量可以进一步被分割为非重叠的子向量。为了扩展所提出的技术以包括将频域向量分割为子向量，对于每一个子向量计算在(27)中使用的平衡因子。因此，通过由下式给出的误差子向量的级联来形成频率选择性增益中的每一个的误差向量E_L和E_R

E_{Lk} (j) = S_{Lk} - W_{Lk} \cdot G_{jk} \cdot {\hat{S}}_{k},

E_{Rk} (j) = S_{Rk} - W_{Rk} \cdot G_{jk} \cdot {\hat{S}}_{k} - - - (32)

在(28)中的失真度量ε现在是通过以上的误差子向量的级联而形成的误差向量的函数。

计算平衡因子

使用现有技术(等式21)生成的平衡因子独立于核心层的输出。然而，为了最小化在(30)和(31)中给出的失真度量，可能有益的是，也计算平衡因子以最小化对应的失真。现在，平衡因子W_L和W_R可以被计算为：

W_{L} (j) = \frac{S_{L}^{T} G_{j} \hat{S}}{{| | G_{j} \hat{S} | |}^{2}},

W_{R} (j) = \frac{S_{R}^{T} G_{j} \hat{S}}{{| | G_{j} \hat{S} | |}^{2}} . - - - (33)

其中，可以看出，平衡因子独立于增益，例如，如在图11的附图中所示。这个等式最小化在等式(30)和(31)中的失真。使用这样的平衡因子的问题是现在：

W_L(j)≠2-W_R(j)， (34)

因此，可能需要分离的比特字段来量化W_L和W_R。通过将约束W_L(j)＝2-W_R(j)置于所述最佳之上来避免这一点。通过这个约束，通过下式来给出等式(30)的最佳解：

W_R(j)＝2-W_L(j) (35)

其中，平衡因子独立于所示的增益项；附图的图10图示了独立的平衡因子。如果偏置因子B_L和B_R是单一的，则

W_R(j)＝2-W_L(j) (36)

在等式(33)和(36)中的项表示在定标的代码化音频信号和多信道音频信号的音频信号中的至少一个之间的相关性值。

在立体声代码化中，声音的来源的方向和位置可能比均方失真更重要。左信道能量和右信道能量的比率因此可以是方向(或声音的来源的位置)的较好指示符，而不是最小化加权的失真度量。在这样的情形下，在等式(35)和(36)中计算的平衡因子可能不是用于计算平衡因子的良好方法。所需要的是将在代码化前后的左右信道能量的比率保持得相同。通过下式来分别给出在代码化之前和代码化之后的信道能量的比率：

v = \frac{{| | S_{L} | |}^{2}}{{| | S_{R} | |}^{2}},

\hat{v} = \frac{W_{L}^{2} (j) {| | \hat{S} | |}^{2}}{W_{R}^{2} (j) {| | \hat{S} | |}^{2}}, - - - (37)

使得这两个能量比率相等并且使用假定W_L(j)＝2-W_R(j)，我们得到

W_R＝2-W_L. (38)

其给出所生成的平衡因子的平衡因子分量。注意到，在(38)中计算的平衡因子现在独立于G_j，因此不再是j的函数，于是提供了独立于增益考虑的自相关的平衡因子；在附图的图10中进一步图示了相关的平衡因子。对于等式29和32使用这个结果，我们可以将最佳核心层定标索引j的选择扩展成包括级联向量分段k，使得：

j^{*} = \underset{0 \leq j < M}{\arg \min} {\underset{k}{Σ} ({| | S_{Lk} - W_{Lk} \cdot G_{jk} \cdot {\hat{S}}_{k} | |}^{2}) + ({| | S_{Rk} - W_{Rk} \cdot G_{jk} \cdot {\hat{S}}_{k} | |}^{2})} - - - (39)

最佳增益值的表示。增益值的这个索引j^*作为增强层编码器的输出信号被发射。

现在参见图10，图示了根据各个实施例的增强层编码器和增强层解码器的框图1000。输入音频信号s(n)被增强层编码器1010的平衡因子生成器1050和增益向量生成器1020的误差信号(失真信号)生成器1030接收。来自核心层的代码化的音频信号被所示的增益向量生成器1020的定标单元1025接收。定标单元1025操作以利用多个增益值定标代码化的音频信号

以生成多个候选的代码化音频信号，其中，定标了候选的代码化音频信号中的至少一个。如上所述，可以采用通过单一或任何期望的标识函数的定标。定标单元1025输出定标的音频S_j，该定标的音频S_j被平衡因子生成器1030接收。以上结合等式(18)、(21)、(24)和(33)讨论了生成具有多个平衡因子分量的平衡因子，其中每一个平衡因子分量与由增强层编码器1010接收到的多信道音频信号中的一个音频信号相关联。这是通过所示的平衡因子生成器1050完成的，以产生所示的平衡因子分量

如以上结合等式(38)所讨论的，平衡因子生成器1030将平衡因子图示为独立于增益。

增益向量生成器1020负责确定要向代码化的音频信号应用的增益值，以生成多信道音频信号的估计，如在等式(27)、(28)和(29)中所讨论的。这是通过定标单元1025和平衡因子生成器1050来完成的，定标单元1025和平衡因子生成器1050一起工作以基于平衡因子和至少一个定标的代码化音频信号来生成该估计。增益值基于平衡因子和多信道音频信号，其中，增益值被配置成最小化在多信道音频信号和多信道音频信号的估计之间的失真值。等式(30)描述了根据多信道输入信号的估计和实际输入信号本身来生成失真值。因此，平衡因子分量与输入音频信号s(n)一起被误差信号生成器1030接收，以确定由定标单元1025利用的每一个定标向量的误差值E_j。这些误差向量与在基于最佳增益值g^*来确定误差向量和特定误差E^*中使用的增益值一起被传递到增益选择器电路1035。然后，增益选择器1035在操作中用于基于多信道输入信号的估计和实际信号本身来评估失真值，以便确定可能的增益值的最佳增益值g^*的表示。用于表示最佳增益g^*的代码字(i_g)从增益选择器1035输出，并且被所示的MUX复用器1040接收。

i_g和i_B都被输出到复用器1040，并且被发射机1045经由信道125发射到增强层解码器1060。增益值i_g的表示被输出以传输到所示的信道125，但是如果期望，它也可以被存储。

在解码器侧上，在增强层解码器1060的操作期间，i_g和i_E从信道125被接收并且被解复用器1065解复用。因此，增强层解码器接收代码化音频信号

代码化平衡因子i_B和代码化增益值i_g。增益向量解码器1070包括所示的频率选择性增益生成器1075和定标单元1080。增益向量解码器1070从代码化的增益值生成解码的增益值。代码化增益值i_g被输入到频率选择性增益生成器1075，以根据编码器1010的对应方法来产生增益向量g^*。然后向定标单元1080应用增益向量g^*，定标单元1080利用解码的增益值g^*来定标代码化的音频信号以生成定标的音频信号。信号组合器1095接收平衡因子解码器1090的代码化平衡因子输出信号至定标的音频信号

以生成和输出被示出为增强的输出音频信号的解码的多信道音频信号。

图示了示例性增强层编码器和增强层解码器的框图1100，其中，如上结合等式(33)所述，平衡因子生成器1030生成依赖于增益的平衡因子。通过生成G_j信号1110的误差信号生成器来图示这一点。

现在参见图12-14，呈现了涵盖在此提供的各个实施例的方法的流程。在图12的流程1200中，呈现了用于代码化多信道音频信号的方法。在框1210，接收具有多个音频信号的多信道音频信号。在框1220，多信道音频信号被代码化以生成代码化的音频信号。代码化的音频信号可以是单信道或多信道信号，诸如在附图中举例图示的立体声信号。而且，代码化的音频信号可以包括多个信道。在核心层中可以有不止一个信道，并且在增强层中的信道的数目可以大于在核心层中的信道的数目。接下来，在框1230，生成具有平衡因子分量的平衡因子，每一个平衡因子分量与多信道音频信号的一个音频信号相关联。等式(18)、(21)、(24)、(33)描述了平衡因子的生成。每一个平衡因子分量可以与所生成的其他平衡因子分量相关，就象在等式(38)中的情况那样。生成平衡因子可以包括：生成在定标的代码化音频信号和多信道音频信号的音频信号中的至少一个之间的相关性值，诸如在等式(33)、(36)中。可以如在等式(38)中那样生成在音频信号的至少一个之间的自相关性，由此可以生成平方根。在框1240，确定要应用到代码化音频信号的增益值，以基于平衡因子和多信道音频信号来生成多信道音频信号的估计。该增益值被配置成最小化在多信道音频信号和多信道音频信号的估计之间的失真值。等式(27)、(28)、(29)、(30)描述了确定增益值。可以从多个增益值选择增益值，以定标代码化的音频信号，并且生成定标的代码化音频信号。可以基于这个估计来生成失真值；该增益值可以基于该失真值。在框1250，输出该增益值的表示以用于传输和/或存储。

图13的流程1300描述了根据各个实施例的用于代码化多信道音频信号的另一种方法。在框1310，接收具有多个音频信号的多信道音频信号。在框1320，多信道音频信号被代码化以生成代码化的音频信号。如上所述，核心层编码器执行框1310和1320的处理。如上所述，代码化的音频信号可以是单信道或多信道信号，诸如如在附图中举例说明的立体声信号。而且，代码化的音频信号可以包括多个信道。在核心层中可以有不止一个信道，并且增强层中的信道的数目可以大于核心层中的信道的数目。

在框1330，利用多个增益值来定标代码化的音频信号，以生成多个候选代码化的音频信号，所述候选代码化的音频信号中的至少一个被定标。通过增益向量生成器的定标单元来完成定标。如上所述，定标代码化的音频信号可以包括利用单一的增益值来定标。多个增益值的增益值可以是增益矩阵，其中以向量g_j来作为如上所述的对角分量。增益矩阵可以是频率选择性的。它可以取决于核心层的输出、在附图中图示的代码化的音频信号。可以从多个增益值选择增益值，以定标代码化的音频信号并且生成定标的代码化音频信号。在框1340，生成具有平衡因子分量的平衡因子，所述平衡因子分量每一个与多信道音频信号的音频信号相关联。通过平衡因子生成器来执行平衡因子生成。每一个平衡因子分量可以取决于所生成的另一个平衡因子分量，如在等式(38)中的情况那样。生成平衡因子可以包括生成在定标的代码化音频信号和多信道音频信号的音频信号中的至少一个之间的相关性值，诸如在等式(33)、(36)中那样。可以生成在音频信号中的至少一个之间的自相关性，如在等式(38)中那样，由此可以生成平方根。

在框1350，基于平衡因子和至少一个定标的代码化音频信号来生成多信道音频信号的估计，基于定标的代码化音频信号(多个)和所生成的平衡因子来生成该估计。该估计可以包括与多个候选的代码化音频信号相对应的多个估计。在框1360，基于多信道音频信号的估计和多信道音频信号来评估和/或可以生成失真值，以确定增益值的最佳增益值的表示。失真值可以包括与多个估计相对应的多个失真值。通过增益选择器电路来完成失真值的评估。通过等式(39)来给出最佳增益值的呈现。在框1370，可以输出增益值的表示以用于传输和/或存储。增强层编码器的发射机可以如上所述发射增益值表示。

在图14的流程图1400中包含的处理图示了多信道音频信号的解码。在框1410，接收代码化的音频信号、代码化的平衡因子和代码化的增益值。在框1420，从代码化的增益值生成解码的增益值。增益值可以是增益矩阵，如上所述，并且增益矩阵可以是频率选择性的。增益矩阵也可以取决于作为核心层的输出接收到的代码化的音频。而且，代码化的音频信号可以是单信道或多信道信号，诸如在附图中举例图示的立体声信号。另外，代码化的音频信号可以包括多个信道。例如，在核心层中有不止一个信道，并且增强层中的信道的数目可以大于核心层中的信道的数目。

在框1430，利用解码的增益值来定标代码化的音频信号，以生成定标的音频信号。在框1440，代码化的平衡因子被应用到定标的音频信号以生成解码的多信道音频信号。在框1450，输出解码的多信道音频信号。

基于峰值检测的选择定标掩码计算

可以如在上面的(14)中那样定义频率选择性增益矩阵G_j，该矩阵是具有形成增益向量g_j的对角元素的对角矩阵：

其中，Δ是步长大小(例如，Δ≈2.0dB)，α是常数，M是候选的数目(例如，可以仅使用3个比特来表示它)，并且，k_l和k_h分别是低频和高频截止频率，在它们之上，可能发生增益减少。在此，k表示傅立叶变换系数的第k个MDCT。注意到，g_j是频率选择性的，但是它独立于先前层的输出。增益向量g_j可以基于先前代码化的信号向量——在该情况下为——的代码化元素的某个函数，这可以被表达为：

g_{j} (k) = f (k, \hat{S}) . - - - (41)

在多层嵌入式代码化系统(具有超过2个层)中，其中，从至少两个先前的层的贡献来获得要由增益值向量g_j定标的输出

也就是

\hat{S} = {\hat{E}}_{2} + {\hat{S}}_{1} - - - (42)

其中，

是第一层(核心层)的输出，并且

是第二层或第一增强层的贡献。在该情况下，增益向量g_j可以是先前代码化的信号向量

的代码化的元素和第一增强层的贡献的某个函数：

g_{j} (k) = f (k, \hat{S}, {\hat{E}}_{2}) . - - - (43)

已经观察到，因为较低层的代码化模型导致的大多数可听到的噪声处于谷值中，而不是处于峰值中。换句话说，在频谱峰值处在原始和代码化的频谱之间有较好的匹配。因此，不应当更改峰值，即，定标应当限于谷值。为了有利地使用这种观察，在实施例之一中，在等式(41)中的函数基于

的峰值和谷值。设

是基于所检测到的

的峰值幅度的定标掩码。定标掩码可以是向量值函数，其在所检测到的峰值处具有非零值，即

其中，

是

的第i个元素。等式(41)现在可以被修改为：

可以使用各种方法来进行峰值检测。在该优选实施例中，通过下述方式来检测峰值：通过两个单独的加权平均滤波器来传递绝对频谱

并且然后比较已滤波的输出。设A₁和A₂是两个平均滤波器的矩阵表示。设是l₁和l₂(l₁＞l₂)是两个滤波器的长度。峰值检测函数被给出为：

其中，β是经验阈值。

作为说明性示例，参见图15和图16。在此，在MDCT域中的代码化的信号的绝对值

在两个曲线图中被给出为1510。这个信号表示来自“定调管”的声音，定调管创建固定间隔的谐波序列，如图所示。难以基于语音模型使用核心层代码化器来代码化这个信号，因为这个信号的基本频率在对于语音信号认为合理的范围之外。这导致由核心层产生的相当高的噪声水平，可以通过将代码化信号1510与原始信号|S|的单信道版本作比较来观察到该噪声水平(1610)。

从该代码化的信号(1510)，使用阈值生成器来产生阈值1520，阈值1520对应于等式45中的表达式

在此，A₁是卷积矩阵，该卷积矩阵在该优选实施例中利用长度45的余弦窗口来实现信号

的卷积。许多窗口形状是可能的，并且可以包括不同的长度。而且，在该优选实施例中，A₂是单位矩阵。然后，峰值检测器将信号1510与阈值1520作比较，以产生被示出为1530的定标掩码

然后，核心层定标向量候选(在等式45中给出)可以用于定标在代码化信号的峰值之间的噪声，以产生定标的重构信号1620。可以根据以上的等式39中描述的处理或以其他方式来选择最佳候选。

现在参见图17-19，呈现了图示根据各个实施例的、与基于上述的峰值检测的选择定标掩码计算相关联的方法的流程图。在图17的流程图1700中，在框1710，检测在接收到的音频信号的重构的音频向量

中的峰值集合。可以在多个层中嵌入该音频信号。该重构的音频向量

可以处于频域中，并且所述峰值集合可以是频域峰值。例如，根据由等式(46)给出的峰值检测函数来执行检测该峰值集合。注意到，该集合可以是空的，就像全部内容被衰减并且没有峰值的情况那样。在框1720，生成基于所检测到的峰值集合的定标掩码

然后，在框1730，生成至少基于定标掩码和用于表示增益向量的索引j的增益向量g^*。在框1740，使用增益向量来定标重构的音频信号，以产生定标的重构音频信号。在框1750，生成基于音频信号和定标的重构音频信号的失真。在框1760，输出基于所生成的失真的增益向量的索引。

现在参见图18，流程图1800图示了根据特定实施例的编码音频信号的替代实施例。在框1810，接收音频信号。可以在多个层中嵌入音频信号。然后，在框1820编码音频信号，以生成重构的音频向量

重构的音频向量

可以处于频域中，并且该峰值集合可以是频域峰值。在框1830，检测在接收到的音频信号的重构的音频向量

中的峰值集合。例如，根据由等式(46)给出的峰值检测函数来执行检测所述峰值集合。再一次，注意到，该集合可以是空的，就像全部内容被衰减并且没有峰值的情况那样。在框1840，生成基于所检测到的峰值集合的定标掩码在框1850，生成基于定标掩码的多个增益向量g_j。在框1860，利用多个增益向量来定标重构的音频信号，以产生多个定标的重构音频信号。接下来，在框1870，生成基于音频信号和多个定标的重构音频信号的多个失真。在框1880，基于所述多个失真从多个增益向量选择增益向量。该增益向量可以被选择成与所述多个失真的最小失真相对应。在框1890，用于表示增益向量的索引被输出以传输和/或存储。

可以通过先前所述的装置结构来实现以上的图17-18中图示的编码器流程。参考流程1700，在在操作中用于代码化音频信号的装置中，诸如增强层编码器1010的增益向量生成器1020的增益选择器1035的增益选择器检测在接收到的音频信号的重构的音频向量中的峰值集合

并且基于所检测到的峰值集合来生成定标掩码

再一次，可以在多个层中嵌入音频信号。重构的音频向量

可以处于频域中，并且该峰值集合可以是频域峰值。例如，根据由等式(46)给出的峰值检测函数来执行检测所述峰值集合。注意到，如果在信号中的全部内容已经被衰减，则峰值集合可以是零。诸如增益向量生成器1020的定标单元1025的定标单元至少基于定标掩码和表示增益向量的索引j来生成增益向量g^*，利用增益向量来定标重构的音频信号，以产生定标的重构音频信号。增益向量生成器1025的误差信号生成器1030基于音频信号和定标的重构音频信号来生成失真。诸如增强层解码器1010的发射机1045的发射机在操作中用于输出基于所生成的失真的增益向量的索引。

参考图18的流程1800，在在操作中用于代码化音频信号的装置中，编码器接收音频信号，并且编码该音频信号以生成重构的音频向量诸如增益向量生成器1020的定标单元1025的定标单元检测在接收到的音频信号的重构的音频向量

中的峰值集合，基于所检测到的峰值集合来生成定标掩码

基于定标掩码来生成多个增益向量g_j，并且利用多个增益向量来定标该重构的音频信号，以产生多个定标的重构音频信号。误差信号生成器1030基于音频信号和多个定标的重构音频信号来生成多个失真。诸如增益选择器1035的增益选择器基于所述多个失真从多个增益向量选择增益向量。例如，发射机1045输出用于表示增益向量的索引以稍后传输和/或存储。

在图19的流程图1900中，图示了解码音频信号的方法。在框1910处接收重构的音频向量

和表示增益向量的索引。在框1920，检测在重构的音频向量中的峰值集合。例如，根据例如由等式(46)给出的峰值检测函数来执行检测所述峰值集合。再一次，注意到，该集合可以是空的，就像全部内容被衰减并且没有峰值的情况那样。在框1930，生成基于所检测到的峰值集合的定标掩码

在框1940，生成至少基于定标掩码和表示增益向量的索引的增益向量g^*。在框1950，利用增益向量来定标重构的音频信号，以产生定标的重构音频信号。该方法可以进一步包括：生成对于所重构的音频向量的增强，并且然后将定标的重构音频信号和对于所重构的音频向量的增强组合以生成增强的解码信号。

可以通过先前描述的装置结构来实现在图19中图示的解码器流程。在在操作中用于解码音频信号的装置中，例如，增强层解码器1060的增益向量解码器1070接收重构的音频向量

和表示增益向量的索引i_g。如图10中所示，增益选择器1075接收i_g，而增益向量解码器1070的定标单元1080接收重构的音频向量诸如增益向量解码器1070的增益选择器1075的增益选择器检测在所重构的音频向量中的峰值集合，基于所检测到的峰值集合来生成定标掩码

并且至少基于定标掩码和表示增益向量的索引来生成增益向量g^*。再一次，如果信号被大部分衰减，则该集合可以是空的。例如，增益选择器根据诸如在等式(46)中给出的峰值检测函数来检测该峰值集合。例如，定标单元1080利用增益向量来定标所重构的音频向量，以产生定标的重构音频信号。

而且，在图6中的增强层解码器的诸如误差信号解码器665的误差信号解码器可以生成对于所重构的音频向量的增强。诸如图6的信号组合器675的信号组合器将定标的重构音频信号与对于重构的音频向量的增强组合，以生成增强的解码信号。

进一步应当注意，可以以各种组合来执行图12-14的平衡因子引导的流程和图17-19的具有峰值检测的选择定标掩码引导的流程两者，并且在此所述的装置和结构支持这一点。

虽然已经参考特定实施例具体示出和描述了本发明，但是本领域技术人员将明白，在不偏离本发明的精神和范围的情况下，可以在其中进行形式和细节上的各种改变。例如，虽然在电信系统中的通过信道的发射和接收上描述了以上技术，但是所述技术可以等同地适用于使用信号压缩系统来用于减少在诸如固态存储设备或计算机硬盘的数字介质设备上的存储要求的目的的系统。这样的改变意图在所附的权利要求的范围之内。

Claims

1.一种在操作中用于将多信道音频信号代码化的装置，包括：

编码器，所述编码器接收包括多个音频信号的多信道音频信号，并且将所述多信道音频信号代码化，以生成代码化音频信号；

增强层编码器的平衡因子生成器，所述增强层编码器的平衡因子生成器接收代码化音频信号，并且生成具有多个平衡因子分量的平衡因子，每一个平衡因子分量与所述多信道音频信号的所述多个音频信号中的音频信号相关联；

增强层编码器的增益向量生成器，所述增强层编码器的增益向量生成器确定要被应用到所述代码化音频信号的增益值，以基于所述平衡因子和所述多信道音频信号来生成所述多信道音频信号的估计，其中，所述增益值被配置成使在所述多信道音频信号和所述多信道音频信号的所述估计之间的失真值最小化；以及

发射机，所述发射机发射所述增益值的表示，以用于传输和存储中的至少一个。

2.根据权利要求1所述的装置，进一步包括：

所述增强层编码器的定标单元，所述增强层编码器的定标单元利用多个增益值来定标所述代码化音频信号，以生成多个候选代码化音频信号，其中，所述候选代码化音频信号中的至少一个被定标；

其中，所述定标单元和所述平衡因子生成器基于所述平衡因子和所述多个候选代码化音频信号中的所述至少一个定标的代码化音频信号来生成所述多信道音频信号的所述估计；以及

所述增强层编码器的增益选择器，所述增强层编码器的增益选择器基于所述多信道音频信号的所述估计和所述多信道音频信号来评估所述失真值，以确定所述多个增益值的最佳增益值的表示。

3.根据权利要求1所述的装置，其中，所述编码器将所述音频信号编码，以生成重构音频向量

并且所述增益向量生成器进一步包括：

定标单元，所述定标单元检测在接收到的音频信号的所述重构音频向量

中的峰值集合，基于检测到的峰值集合来生成定标掩码

基于所述定标掩码来生成多个增益向量g_j，并且利用所述多个增益向量来定标所述重构音频向量

以产生多个定标的重构音频信号；

误差信号生成器，所述误差信号生成器基于所述音频信号和所述多个定标的重构音频信号来生成多个失真；以及

增益选择器，所述增益选择器基于所述多个失真来从所述多个增益向量中选择增益向量，

其中，所述发射机输出表示所述增益向量的索引，用于发射和存储中的至少一个。

4.根据权利要求3所述的装置，其中，所述增益选择器进一步根据峰值检测函数来检测所述峰值集合，所述峰值检测函数被给出为：

其中，β是阈值。

5.一种在操作中用于将多信道音频信号代码化的装置，包括：

增强层编码器的定标单元，所述增强层编码器的定标单元利用多个增益值来定标所述代码化音频信号，以生成多个候选代码化音频信号，其中，所述候选代码化音频信号中的至少一个被定标；

平衡因子生成器，所述平衡因子生成器生成具有多个平衡因子分量的平衡因子，每一个平衡因子分量与所述多信道音频信号的所述多个音频信号中的音频信号相关联；

其中，所述定标单元和所述平衡因子生成器基于所述平衡因子和所述多个候选代码化音频信号中的所述至少一个定标的代码化音频信号来生成所述多信道音频信号的估计；以及

所述增强层编码器的增益选择器，所述增强层编码器的增益选择器基于所述多信道音频信号的所述估计和所述多信道音频信号来评估失真值，以确定所述多个增益值的最佳增益值的表示；

发射机，所述发射机发射所述最佳增益值的表示，以用于传输和存储中的至少一个。

6.根据权利要求5所述的装置，其中，所述多个增益值中的增益值是以向量g_j作为对角分量的增益矩阵，并且其中，所述增益矩阵是频率选择性的。

7.根据权利要求5所述的装置，其中，通过

给出所述最佳增益值的所述表示。

8.根据权利要求5所述的装置，其中，通过

来给出每一个平衡因子分量。

9.根据权利要求5所述的装置，其中，所述平衡因子生成器生成在所述定标的代码化音频信号和所述多信道音频信号的至少一个所述音频信号之间的相关性值。

10.根据权利要求5所述的装置，其中，所述平衡因子生成器生成在所述多信道音频信号的至少一个所述音频信号之间的自相关性，并且生成所述自相关性的平方根。

11.根据权利要求5所述的装置，其中，所述增益选择器基于所述多信道音频信号的所述估计和所述多信道音频信号来生成失真值，并且其中，所述增益值基于所述失真值。

12.根据权利要求5所述的装置，其中，所述估计包括与所述多个候选代码化音频信号相对应的多个估计。

13.根据权利要求5所述的装置，其中，所述代码化音频信号是单信道信号和多信道信号之一。

14.根据权利要求13所述的装置，其中，所述代码化的多信道音频信号是立体声信号。

15.一种用于将多信道音频信号代码化的方法，包括：

接收包括多个音频信号的多信道音频信号；

将所述多信道音频信号代码化，以生成代码化音频信号；

生成具有多个平衡因子分量的平衡因子，每一个平衡因子分量与所述多信道音频信号的所述多个音频信号中的音频信号相关联；

确定要被应用到所述代码化音频信号的增益值，以基于所述平衡因子和所述多信道音频信号来生成所述多信道音频信号的估计，其中，所述增益值被配置成使在所述多信道音频信号和所述多信道音频信号的所述估计之间的失真值最小化；以及

输出所述增益值的表示，以用于传输和存储中的至少一个。

16.根据权利要求15所述的方法，进一步包括：

利用多个增益值来定标所述代码化音频信号，以生成多个候选代码化音频信号，其中，所述候选代码化音频信号中的至少一个被定标；

基于所述平衡因子和所述多个候选代码化音频信号中的所述至少一个定标的代码化音频信号来生成所述多信道音频信号的所述估计；以及

基于所述多信道音频信号的所述估计和所述多信道音频信号来评估所述失真值，以确定所述多个增益值的最佳增益值的表示。

17.根据权利要求15所述的方法，

检测在接收到的音频信号的重构音频向量中的峰值集合；

基于检测到的峰值集合来生成定标掩码

至少基于所述定标掩码和表示增益向量的索引j来生成增益向量g^*；

利用所述增益向量来定标所述重构音频向量

以产生定标的重构音频信号；

基于所述音频信号和所述定标的重构音频信号来生成失真；以及

基于所生成的失真来输出所述增益向量的索引。

18.根据权利要求15所述的方法，进一步包括：

接收音频信号；

将所述音频信号编码，以生成重构音频向量

检测在接收到的音频信号的所述重构音频向量

中的峰值集合；

基于检测到的峰值集合来生成定标掩码

基于所述定标掩码来生成多个增益向量g_j；

利用所述多个增益向量来定标所述重构音频向量

以产生多个定标的重构音频信号；

基于所述音频信号和多个定标的重构音频信号来生成多个失真；

基于所述多个失真，从所述多个增益向量中选择增益向量；以及

输出表示所述增益向量的索引，以用于发射和存储中的至少一个。