CN102577384B

CN102577384B - 用相位信息和残差信息进行编码/解码的设备和方法

Info

Publication number: CN102577384B
Application number: CN201080047876.1A
Authority: CN
Inventors: 金重会; 吴殷美
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2009-10-23
Filing date: 2010-10-25
Publication date: 2016-01-06
Anticipated expiration: 2030-10-25
Also published as: KR101835850B1; US10163445B2; EP2502421A4; KR101945309B1; EP2978233A1; EP3358566A1; US20110103592A1; KR20170021821A; US20150124974A1; WO2011049416A2; JP6219903B2; EP2502421A2; KR20110044693A; CN102577384A; KR20180023941A; KR101710113B1; CN105323632A; JP2013508770A; WO2011049416A3; US8948404B2

Abstract

提供了一种基于相位信息和一个或多个残差信号对多个声道信号进行编码和解码的设备和方法。

Description

用相位信息和残差信息进行编码/解码的设备和方法

技术领域

一个或多个实施例涉及一种用于对多个声道信号进行编码的编码设备和对多个声道信号进行解码的解码设备及其一个或多个方法，更具体地讲，涉及一种用于基于相位信息和残差信号对多个声道信号进行编码的编码设备和对多个声道信号进行解码的解码设备及其一个或多个方法。

背景技术

通常，多声道音频编码可包括波形多声道音频编码和参数多声道音频编码。仅作为波形多声道音频编码的示例，可使用运动图像专家组(MPEG)-2运动补偿(MC)音频编码、高级音频编码(AAC)MC音频编码、位片算术编码/应用可视化系统(BSAC/AVS)MC音频编码等。仅作为示例，波形多声道音频编码可基于输入到原始编码器的五个声道信号(注意到，立体声或7个声道信号以及可选择的声道信号数量同样是可用的)，从解码器输出来自发送的单个或立体编码信号的五个声道信号。

例如，参数多声道音频编码可包括MPEG环绕声编码，例如，在对发送的一个或两个声道的上混合之后输出用于表示六个或八个多声道的一个或两个输入声道。

通过使用示例性配置，可使用参数立体声(PS)技术对单声道信号或立体声信号进行编码。另外，参数立体声技术可对输入立体声信号进行下混合，以产生单声道信号，提取指示立体声信号的边信息的立体声参数，并通过对产生的单声道信号和提取的立体声参数进行编码来对立体声信号进行编码。然后，解码器可基于解码的立体声参数对解码的单声道信号进行上混合。

作为在这种情况下使用的立体声参数的示例，基于立体声信号中包括的至少两个声道信号的能量级别指示强度差的声道间强度差(IID)或声道电平差(CLD)、基于立体声信号中包括的至少两个声道信号的波形的相似度指示两个声道信号之间的相关度的声道间相干性(ICC)或声道间相关性(ICC)、指示立体声信号中包括的至少两个声道信号之间的相位差的声道间相位差(IPD)、基于单声道信号指示至少两个声道信号之间的相位差如何分布的整体相位差(OPD)等可被提供。

这里，为了对多声道进行编码的目的，可扩展参数立体声技术，即，多个单声道或立体声信号可被分级地产生，用于每级下混合的各参数信息可被产生。针对单层的上混合，MPEG环绕声技术例如可基于1到2(一到二，OTT)模块和2-3(二到三TTT)模块执行编码的单声道或立体声信号到多个声道的上混合。如注意到的并仅作为示例，可以以分级的方式(例如，树结构)执行多个这种模块，以使5个或更多个输入多信号可被最终下混合为单个单声道或立体声信号，然后被最终上混合为比编码的单个单声道或立体声信号更多的多信号。例如，五个或七个多信号可被编码器下混合为一个单声道或立体声信号，并最终被解码器上混合回五个或七个多信号。

当MPEG环绕声编码方案通过用参数表示多个声道信号来对多个声道信号进行编码时，即使比特率增加，多个声道信号从各参数对所有原始信号不正确地解码，即，各参数可能对于从下混合的信号适当地解码成上混合的多个声道信号，无法提供足够正确的信息。因此，本发明人发现了这样的期望：当用参数表示多个声道信号时，将多个声道信号解码成与原始信号接近的方法。

发明内容

根据一个或多个实施例的一方面，可提供一种编码设备，包括：参数编码器，提取与N个声道信号的相位信息相关的一个或多个空间参数，并对提取的一个或多个空间参数进行编码；下混合单元，基于提取的一个或多个空间参数将N个声道信号下混合成M个声道信号；残差信号编码器，基于下混合的M个声道信号来对与N个声道信号相关的残差信号进行编码；声道信号编码器，对M个声道信号进行编码；输出器，输出编码的残差信号和编码的M个声道信号。

这里，N可以等于2，M等于1。

残差信号编码器可提取残差信号作为当将N个声道信号与基于提取的一个或多个空间参数表示的一个或多个声道信号进行比较时所产生的误差信号。

可通过多个二到一(TTO)下混合模块进行分级下混合来对至少5个声道信号的多声道信号进行编码，所述编码设备可包括：包括参数编码器和下混合单元的所述多个TTO混合模块中的至少一个，编码设备输出编码的残差信号和编码的M个声道信号，以使输出的编码的残差信号和输出的编码的M个声道信号可用于通过多次上混合来再现至少所述5个声道信号。

根据一个或多个实施例的一方面，可提供一种解码设备，包括：声道信号解码器，基于代数码激励线性预测(ACELP)、加权线性预测变换(wLPT)和高级音频编码(AAC)中的至少一个从比特流中解码出编码的M个声道信号；参数解码器，对编码的M个声道信号的至少一个编码的空间参数进行解码；相位信息估计单元，基于至少一个解码的空间参数来估计相位信息；残差信号解码器，对编码的M个声道信号的编码的残差信号进行解码；矩阵计算器，基于估计的相位信息计算用于对解码的M个声道信号进行上混合的上混合矩阵；上混合单元，基于解码的残差信号和上混合矩阵来将解码的M个声道信号上混合为N个声道信号。

这里，所述至少一个解码的空间参数可包括声道电平差(CLD)和声道间相位差(IPD)中的至少一个，CLD指示基于N个声道信号的能量等级的强度差，IPD指示N个声道信号之间的相位差，相位信息估计单元基于所述至少一个解码的空间参数估计整体相位差(OPD)，OPD指示N个声道信号之间的一个或多个相位差在解码的M个声道信号中的分布程度。

残差信号可以是基于N个声道信号与基于所述至少一个空间参数而表示的一个或多个声道信号之间的比较而所产生的误差信号。

这里，N可以等于2，M等于1。

可通过多个一到二(OTT)上混合模块进行分级上混合对至少5个声道信号的多声道信号进行解码，所述解码设备可包括：所述多少OTT上混合模块中的至少一个，包括上混合单元，从而解码的N个声道信号可用于通过N个声道信号的附加OTT上混合来再现所述至少5个声道信号。

根据一个或多个实施例的一方面，可提供一种解码设备，包括：声道信号解码器，基于以下中的至少一个来对以运动图像专家组语音和音频联合编码器(MPEGUSAC)编码的编码M个声道信号进行解码：基于操作线性预测域(LPD)的代数码激励线性预测(ACELP)、加权线性预测变换(wLPT)和基于频域(FD)的高级音频编码(AAC)；参数解码器，对编码的M个声道信号的一个或多个编码的空间参数进行解码；相位信息估计单元，基于解码的一个或多个空间参数估计相位信息；残差信号解码器，对编码的M个声道信号的编码的残差信号进行解码；矩阵计算器，基于估计的相位信息计算用于解码的M个声道信号的上混合矩阵；上混合单元，基于解码的残差信号和上混合矩阵将解码的M个声道信号上混合成N个声道信号。

根据一个或多个实施例的一方面，可提供一种编码方法，包括：提取与N个声道信号的相位信息相关的一个或多个空间参数，并对提取的一个或多个空间参数进行编码；基于提取的一个或多个空间参数将N个声道信号下混合成M声道信号；基于下混合的M个声道信号来对与N个声道信号相关的残差信号进行编码；对M个声道信号编码；输出编码的残差信号和编码的M个声道信号。

这里，N可以等于2，M可以等于1。

对残差信号进行编码的步骤可包括：提取残差信号作为当将N个声道信号与通过提取的一个或多个空间参数表示的一个或多个声道信号进行比较时所产生的误差信号。

可通过多个二到一(TTO)下混合模块进行分级下混合来对至少5个声道信号的多声道信号进行编码，所述编码设备包括：所述多个TTO下混合模块中的至少一个，执行参数提取和N个声道信号到M个声道信号的下混合，输出步骤还包括：输出编码的残差信号和编码的M个声道信号，以使输出的编码的残差信号和输出的编码的M个声道信号可用于通过多次上混合来再现所述至少5个声道信号。

根据一个或多个实施例的一方面，可提供一种解码方法，包括：从比特流解码出编码的M个声道信号；对编码的M个声道信号的至少一个编码的空间参数进行解码；基于至少一个解码的空间参数来估计相位信息；对编码的M个声道信号的编码的残差信号进行解码；基于估计的相位信息来计算用于对解码的M个声道信号进行上混合的上混合矩阵；基于解码的残差信号和上混合矩阵来将解码的M个声道信号上混合成N个声道信号。

解码的至少一个空间参数可包括声道电平差(CLD)和声道间相位差(IPD)中的至少一个，CLD指示基于N个声道信号的能量等级的强度差，IPD指示N个声道信号之间的相位差，估计可步骤包括：基于解码的至少一个空间参数估计整体相位差(OPD)，OPD指示N个声道信号之间的一个或多个相位差在解码的M个声道信号中的分布程度。

这里，N可以等于2，M可以等于1。

残差信号可以是基于N个声道信号与基于所述至少一个空间参数所表示的一个或多个声道信号之间的比较而产生的误差信号。

可通过多个一到二(OTT)上混合操作进行分级上混合来对至少5个声道信号的多声道信号进行解码，所述解码方法包括：多个OTT上混合操作中的至少一个包括：将解码的M个声道信号上混合成N个声道信号，以使解码的N个声道信号可用于通过N个声道信号的附加OTT上混合来再现所述至少5个声道信号。

根据一个或多个实施例的一方面，可提供一种解码方法，包括：基于以下中的至少一个来对以运动图像专家组语音和音频联合编码器(MPEGUSAC)编码的编码M个声道信号进行解码：基于线性预测域(LPD)的代数码激励线性预测(ACELP)、加权线性预测变换(wLPT)和基于频域(FD)的高级音频编码(AAC)；对编码的M个声道信号的至少一个编码的空间参数进行解码；基于解码的至少一个空间参数估计相位信息；对编码的M个声道信号的编码的残差信号进行解码；基于估计的相位信息计算用于解码的M个声道信号的上混合矩阵；基于解码的残差信号和上混合矩阵将解码的M个声道信号上混合成N个声道信号。

实施例的另外方面、特征和/或优点部分将在下面的描述中被阐述，部分从描述将是清楚的，或者可通过实施公开而获得。

附图说明

从以下结合附图对实施例的描述，这些和/或其他方面以及优点将变得清楚并更容易理解，其中：

图1是示出根据一个或多个实施例的包括编码设备和解码设备的系统的示图；

图2是示出根据一个或多个实施例的编码设备的配置的框图；

图3是示出根据一个或多个实施例的解码设备的配置的框图；

图4是示出根据一个或多个实施例的计算上混合矩阵的处理的示图；

图5是示出根据一个或多个实施例的编码处理的示图；

图6是示出根据一个或多个实施例的解码处理的示图；

图7是示出根据一个或多个实施例的解码顺序的示图。

具体实施方式

现在将对附图中示出的一个或多个实施例进行详细阐述，其中，相同标号始终表示相同元件。在这方面，本发明的实施例可以以许多不同形式被实施，不应该被解释为受限于这里阐述的实施例。因此，下面仅参照附图描述实施例，以解释本发明的多方面。

根据一个或多个实施例，可基于相位信息和残差信号通过对下混合的声道信号进行上混合来将下混合的声道信号恢复成与原始信号接近。

图1示出根据一个或多个实施例的编码设备101和解码设备102。

参照图1，编码设备101可输出通过对N个输入声道信号进行下混合而获得的M个编码声道信号。在实施例中，N大于M。例如，当包括两个声道信号的立体声信号被输入到编码设备101时，编码设备101可将立体声信号下混合成包括单个声道信号的单声道信号，并可对单声道信号进行编码。这里，在该实施例中，N具有大于或等于‘2’的值，M具有大于或等于‘1’的值。这里，可针对单个下混合或单个下混合模块以及类似的单个上混合或单个上混合模块来讨论一个或多个实施例，但实施例不限于此，并且实施例对于多级下混合和/或多级上混合也是可用的。

无论如何，编码设备101可提取指示输入的N个声道信号之间的关系的空间参数，并可对提取的用于对输入的N个声道信号进行下混合的空间参数进行编码。在这种情况下，空间参数可与解码设备102后来估计的相位信息相关。编码设备101可提取残差信号，所述残差信息是当用一个或多个空间参数表示输入的N个声道信号时所产生的误差信号，编码设备101可对提取的残差信息进行编码。在一个或多个实施例中，用空间参数对N个声道信号的表示实际可包括用于对下混合的M个声道信号进行解码的上混合操作，残差信号可以是表示上混合的N个声道信号和原始的N个声道信号之间的误差的误差信号。因此，仅作为示例，编码设备101可输出编码的M个声道信号、一个或多个空间参数以及残差信号，并还可通过比特流将编码的M个声道信号、编码的空间参数和编码的残差信号发送到解码设备102。

解码设备102可对比特流中包括的编码的残差信号和编码的一个或多个空间参数进行解码。解码设备102从而可基于从解码的一个或多个空间参数获得的估计的相位信息来计算上混合矩阵。解码设备102然后基于计算的上混合矩阵和发送的残差信号来对发送的M个声道信号进行上混合，以恢复和输出解码的N个声道信号。

解码设备102可基于残差信号和估计的相位信息，相应地输出解码的N个声道信号，所述解码的N个声道信号与输入到编码设备101的原始个N个声道信号基本类似。另外，可基于指示N个声道信号之间的解码关系的一个或多个解码的空间参数来估计相位信息。

图2示出根据一个或多个实施例的编码设备201的配置。

参照图2，例如，编码设备201可包括参数编码器202、下混合单元203、残差信号编码器204和声道信号编码器205。

参数编码器202可提取与输入的N个声道信号的相位信息相关的空间参数，并可对提取的空间参数进行编码。在实施例中，当将指示两个声道信号的立体声信号输入到编码设备201时，例如，参数编码器202可提取指示各个左声道信号和右声道信号之间的关系的空间参数，并可对提取的空间参数进行编码。

仅作为示例，参数编码器202可基于正交镜像滤波器(QMF)分析和奈奎斯特滤波器组分析来将N个声道信号变换成子样本，以提取空间参数。参数编码器202可量化提取的空间参数，并可对量化的空间参数执行无损编码。

在实施例中，空间参数可包括基于输入的N个声道信号的能量级别指示强度差的声道间强度差(IID)或声道电平差(CLD)、基于输入的N个声道信号的波形的相似度指示相关度的声道间相干性(ICC)或声道间相关性(ICC)、或者指示输入的N个声道信号间的相位差(IPD)的声道间相位差(IPD)。在该实施例中，当输入信号是包括两个声道信号(即，N等于2)的立体声信号时，空间参数可指示立体声信号中包括的这两个声道信号之间的关系。

下混合单元203可基于提取的空间参数将N个声道信号下混合成M个声道信号。在实施例中，N大于M。仅作为示例，下混合单元203可将立体声信号下混合成单声道信号。当N是2时，可存在输入的立体声信号，仅当单声道信号被输出时，M可以是1。

残差信号编码器204可基于提取的一个或多个空间参数对残差信号进行编码。如注意到的是，残差信号可指示当用空间参数表示N个声道信号时所产生的误差信号。在一个或多个实施例中，可通过使用改进离散余弦变换(MDCT)(注意到，可选择的编码方法也是可用的)基于运动图像估计组高级音频编码(MPEGAAC)方案对残差信号进行编码。

声道信号编码器205可对下混合的M个声道信号进行编码。在一个或多个实施例中，声道信号编码器205可基于奈奎斯特滤波器组分析将M个声道信号变换成QMF域，并执行频谱带宽复制(SBR)编码。声道信号编码器205可基于QMF合成将M个声道信号变换到时域，并可对M个声道信号进行核心编码。在实施例中，仅作为示例，核心编码可以是基于在运动图像专家组语音和音频联合编码器(MPEGUSAC)中操作的线性预测域(LPD)的代数码激励线性预测(ACELP)、加权线性预测变换(wLPT)和基于频域(FD)的高级音频编码(AAC)中的一个或多个。

图3示出根据一个或多个实施例的解码设备301的配置。

参照图3，例如，解码设备301可包括声道信号解码器302、参数解码器303、相位信息估计单元304、残差信号解码器305、矩阵计算器306和上混合单元307。

声道信号解码器302可对M个编码的声道信号进行解码。在一个或多个实施例中，仅作为示例，声道信号解码器302可基于以下中的一个或多个来对编码的M个声道信号进行解码：基于在MPEGUSAC中操作的LPD的ACELP、wLPT和基于FD的AAC。声道信号解码器302可基于QMF分析将解码的M个声道信号变换成子带信号。声道信号解码器302可对变换成子代信号的M个声道信号进行频谱带宽复制(SBR)解码。例如，可将奈奎斯特滤波器组分析应用于经过SBR解码的M个声道信号。

参数解码器303可从比特流解码一个或多个编码的空间参数。在一个或多个实施例中，例如，空间参数可包括基于N个声道信号的能量级别指示强度差的IID或CLD、基于N个声道的波形的相似度指示相关度的ICC或指示N个声道信号之间的相位差的IPD中的一个或多个。

相位信息估计单元304可基于一个或多个解码的空间参数估计相位信息。仅作为示例，相位信息估计单元304可基于解码的空间参数估计整体相位差(OPD)，所述OPD指示N个声道信号之间的相位差在解码的M个声道信号中的分布程度。

残差信号解码器305可对编码的残差信号进行解码。在实施例中，例如，残差信号解码器305可基于改进离散余弦变换(MDCT)来从比特流解码出编码的残差信号。残差信号解码器305可将解码的残差信号变换成QMF域。在实施例中，当比特流中不包括编码的残差信号时，残差信号解码器305可通过使用例如残差信号解码器305中包括的去相关器来产生单独信号。

矩阵计算器306可基于估计的相位信息针对解码的M个声道信号计算上混合矩阵。

上混合单元307可基于解码的残差信号和上混合矩阵来将解码的M个声道信号上混合成N个声道信号。如所注意的，当编码的残差信号没有被编码时，上混合单元307可基于通过去相关器产生的单独信号来执行上混合。在上混合之后，可基于奈奎斯特滤波器组分析和QMF合成来恢复N个声道信号。

图4示出根据一个或多个实施例的计算上混合矩阵的处理。

参照图4，仅为了容易解释，将假设输入信号是通过对立体声信号(N＝2)进行下混合所获得的单声道信号(M＝1)，解码设备301的输出信号还将是立体声信号。参照图4，解码设备301的矩阵计算器306可基于例如通过使用一个或多个解码的空间参数所估计的估计的相位信息计算上混合矩阵，以将单声道信号上混合成包括左声道信号和右声道信号的立体声信号。在一个或多个实施例中，单声道信号可指示单个声道信号，立体声信号可以是两个声道信号。空间参数可指示基于IPD和CLD(注意备选方案也是可用的)估计的OPD。

例如，可基于下面的等式1确定关于立体声信号的IPD。

等式1：

IPD＝∠(L·R)

这里，L·R可表示左声道信号和右声道信号之间的点乘，IPD可表示左声道信号和右声道信号之间的角度，在一个或多个实施例中，包括的∠可表示复共轭。

例如，可基于下面的等式2确定关于立体声信号的OPD。

等式2：

OPD＝∠(L·M)

这里，L·M可表示左声道信号和单声道信号之间的点乘，OPD可表示左声道信号和单声道信号之间的角度，在一个或多个实施例中，包括的∠可表示复共轭。

仅作为示例，可通过下面的等式3来相应地表示/估计OPD。

等式3：

c_{1, b} = \sqrt{\frac{10^{\frac{{CLD}_{b}}{10}}}{1 + 10^{\frac{{CLD}_{b}}{10}}}},

c_{2, b} = \sqrt{\frac{1}{1 + 10^{\frac{{CLD}_{b}}{10}}}}

在一个或多个实施例中，例如，矩阵计算器306可例如基于诸如根据等式3估计的OPD来计算下面等式4的上混合矩阵。

等式4：

如果m＜resbandx，则

[\begin{matrix} {H 11}_{{OTT}_{X}}^{l, m} & {H 12}_{{OTT}_{X}}^{l, m} \\ {H 21}_{{OTT}_{X}}^{l, m} & {H 22}_{{OTT}_{X}}^{l, m} \end{matrix}]

= [\begin{matrix} e^{j {\overset{&OverBar;}{θ}}_{1}^{n, K (k)}} & 0 \\ 0 & e^{j {\overset{&OverBar;}{θ}}_{1}^{n, K (k)}} \end{matrix}] [\begin{matrix} c_{1, X}^{l, m} \cos (α_{X}^{l, m} + β_{X}^{l, m}) & 1 \\ c_{2, X}^{l, m} \cos (- α_{X}^{l, m} + β_{X}^{l, m}) & - 1 \end{matrix}]

否则，

[\begin{matrix} {H 11}_{{OTT}_{X}}^{l, m} & {H 12}_{{OTT}_{X}}^{l, m} \\ {H 21}_{{OTT}_{X}}^{l, m} & {H 22}_{{OTT}_{X}}^{l, m} \end{matrix}]

[\begin{matrix} e^{j {\overset{&OverBar;}{θ}}_{1}^{n, K (k)}} & 0 \\ 0 & e^{j {\overset{&OverBar;}{θ}}_{1}^{n, K (k)}} \end{matrix}] [\begin{matrix} c_{1, X}^{l, m} \cos (α_{X}^{l, m} + β_{X}^{l, m}) & c_{1, X}^{l, m} \sin (α_{X}^{l, m} + β_{X}^{l, m}) \\ c_{2, X}^{l, m} \cos (- α_{X}^{l, m} + β_{X}^{l, m}) & c_{2, X}^{l, m} \sin (- α_{X}^{l, m} + β_{X}^{l, m}) \end{matrix}]

在一个或多个实施例中，上混合单元307可基于等式4的上混合矩阵来对解码的残差信号和单声道信号进行上混合，并可从而执行相位合成。在等式4中，resBand可表示残差信号将被编码的带。

因此，矩阵计算器306还可例如基于估计的OPD(例如基于等式3)来计算下面等式5的上混合矩阵。

等式5：

如果m＜resbandx，则

[\begin{matrix} {H 11}_{{OTT}_{X}}^{l, m} & {H 12}_{{OTT}_{X}}^{l, m} \\ {H 21}_{{OTT}_{X}}^{l, m} & {H 22}_{{OTT}_{X}}^{l, m} \end{matrix}]

= [\begin{matrix} e^{j {\overset{&OverBar;}{θ}}_{1}^{n, K (k)} \cdot c_{1, X}^{l, m} \cos (α_{X}^{l, m} + β_{X}^{l, m})} & 1 \\ e^{j {\overset{&OverBar;}{θ}}_{2}^{n, K (k)}} \cdot c_{2, X}^{l, m} \cos (- α_{X}^{l, m} + β_{X}^{l,, m}) & - 1 \end{matrix}]

否则，

[\begin{matrix} {H 11}_{{OTT}_{X}}^{l, m} & {H 12}_{{OTT}_{X}}^{l, m} \\ {H 21}_{{OTT}_{X}}^{l, m} & {H 22}_{{OTT}_{X}}^{l, m} \end{matrix}]

= [\begin{matrix} e^{j {\overset{&OverBar;}{θ}}_{1}^{n, K (k)} \cdot c_{1, X}^{l, m} \cos (α_{X}^{l, m} + β_{X}^{l, m})} & c_{1, X}^{l, m} \sin (α_{X}^{l, m} + β_{X}^{l, m}) \\ e^{j {\overset{&OverBar;}{θ}}_{2}^{n, K (k)}} \cdot c_{2, X}^{l, m} \cos (- α_{X}^{l, m} + β_{X}^{l, m}) & c_{2, X}^{l, m} \sin (- α_{X}^{l, m} + β_{X}^{l, m}) \end{matrix}]

例如，根据等式5，上混合单元307可基于计算的上混合矩阵来对解码的残差信号和单声道信号进行上混合。可将相位合成应用于解码的单声道信号，可基于解码的残差信号来产生最终上混合的立体声信号。

例如，可基于下面的等式6来确定等式4和等式5中的项和

等式6：

α_{X}^{l, m} = \frac{1}{2} \arccos (ρ_{X}^{l, m})

β_{X}^{l, m} = \arctan (\tan (α_{X}^{l, m}) \frac{c_{2, X}^{l, m} - c_{1, X}^{l, m}}{c_{2, X}^{l, m} + c_{1, X}^{l, m}})

另外，这里，可基于例如下面的等式7来确定项

等式7：

λ₀＝-11/72

0≤m＜M_proc，0≤l＜L

在该示例中，上混合单元307可例如通过使用等式4和等式5的上混合矩阵基于下面的等式8来对解码的残差信号和单声道信号进行上混合，以产生上混合的立体声信号。

等式8：

[\begin{matrix} y_{0}^{l, m} \\ y_{1}^{l, m} \end{matrix}] = H [\begin{matrix} x^{l, m} \\ q^{l, m} \end{matrix}] = [\begin{matrix} {H 11}_{{OTT}_{X}}^{l, m} & {H 12}_{{OTT}_{X}}^{l, m} \\ {H 21}_{{OTT}_{X}}^{l, m} & {H 22}_{{OTT}_{X}}^{l, m} \end{matrix}] [\begin{matrix} x^{l, m} \\ q^{l, m} \end{matrix}]

这里，x可表示QMF域的解码的单声道信号，q可表示解码的残差信号。如上所提到的，当不存在残差信号(例如，残差信号没有被发送或者不是可期望的或不可用的)时，可使用通过前面提到的去相关器产生的单独信号。

在一个或多个实施例中，图4的上混合矩阵可应用于MPEG环绕声的一到二(OTT)模块，并可容易地被应用于多个声道。此外，尽管以上可仅讨论了具有单个输入单声道信号和潜在单个输入残差信号的单个上混合OTT模块的示例，但因为可存在用于多个声道信号编码/解码的多个下混合模块和多个相应的上混合模块，因此还可存在在多个分层编码器和多个分层解码器之间产生和潜在传送的多个残差信号。针对潜在不是所有下混合/上混合模块基于各自估计的相位信息和残差信息执行以上提到的下混合/上混合，可同样存在为多个分层编码器/解码器下混合/上混合模块中的一个或多个而发送的一个或多个各自的参数。

图5示出根据一个或多个实施例的编码处理。这里，尽管图5被示出为用于编码处理的流程图，但是一个或多个实施例可包括具有分别实现这种单独描述的处理的一个或多个单独单元的设备，即，图5还可被认为是编码设备的示意图，并且进一步不限于图2的编码设备。以下，假定输入信号是立体声信号(即，具有两个声道信号)，图5将作为用于对音频信号进行编码的多个处理被描述。

可在操作501执行关于输入立体声信号的QMF分析，可在操作502执行关于立体声信号的奈奎斯特滤波器组分析，以将立体声信号变换为子样本。可在操作503提取关于已被变换为子样本的立体声信号的一个或多个空间参数。然后可通过针对一个或多个提取的空间参数执行量化和无损编码来产生比特流。

可在操作508基于一个或多个提取的空间参数执行将立体声信号到单声道信号的下混合。在操作509还可基于奈奎斯特滤波器组合成将单声道信号变换到QMF域。

因此，当用一个或多个提取的空间参数表示立体声信号时，在操作504，可产生可被认为是误差信号的残差信号。在操作505，可执行针对提取的残差信号的MDCT，并可在操作506执行编码以产生比特流。在该示例中，仅作为示例，可基于MPEGAAC在MDCT域对残差信号进行编码。

这里，例如可在MPEG环绕声编码器中执行操作501至操作508。这种MPEG环绕声编码器可包括诸如图2的参数编码器202的参数编码器、图2的下混合单元203和残差信号编码器204。

另外，可在操作510执行针对已被变换到QMF域的单声道信号的SBR编码，可在操作511通过使用QMF合成将单声道信号变换到时域，并可在操作512执行USAC核心编码，从而产生单声道信号的比特流。这里，例如可在SBR编码器中执行操作510，并可在USAC核心编码器中执行操作512。这种USAC核心编码器可包括图2的声道信号编码器205。

图6示出根据一个或多个实施例的解码处理。这里，尽管图6被示出为用于解码处理的流程图，但是一个或多个实施例可包括具有分别实现这种单独描述的处理的一个或多个单独单元的设备，即图6还可被认为是解码设备的示意图，并且进一步不限于图3的解码设备301。以下，假定编码信号是表示编码立体声信号(即，具有两个声道信号)的单声道信号，图6将作为用于对音频信号进行解码的多个处理被描述。

仅作为示例，可在操作601基于USAC核心解码从比特流解码出单声道信号。在一个或多个实施例中，或者可基于例如ACELP、wLPT和AAC中的一个对单声道信号进行解码。

在操作602，可基于QMF分析将时域的单声道信号变换成子带信号。还可在操作603执行针对已经被变换成子带的单声道信号的SBR解码。可由USAC核心解码器(例如，图3的声道信号解码器302)执行操作601，可由SBR解码器执行操作603。

可在操作604将奈奎斯特滤波器组分析应用于SBR解码的单声道信号。在操作605可进一步从比特流中解码出一个或多个空间参数，可在操作606估计作为相位信息的OPD。然后，在操作607可基于估计的OPD计算上混合矩阵。

在操作609，可从比特流中解码出残差信号。在操作610，可将MDCT域的残差信号变换到QMF域。然后，在操作611，可基于计算的上混合矩阵执行单声道信号和解码的残差信号的上混合。在一个或多个实施例中，当比特流中不包括残差信号或者残差信号不可用(或认为不可用)时，在操作608，可通过使用去相关器产生合适的预定信号，并可基于计算的上混合矩阵对单声道信号和预定信号进行上混合。然后在操作612，可执行奈奎斯特滤波器组分析和QMF合成，以恢复时域的立体声信号。

可由MPEG环绕声解码器执行操作604至操作612，这种MPEG环绕声解码器可包括例如图3的参数解码器303、相位信息估计单元304、残差信号解码器305、矩阵计算器306和上混合单元307。

图7示出根据一个或多个实施例的解码顺序。

参照图7，在执行解码的同时提供了信令方法。与上面的类似，尽管图7可示出信令方法，但一个或多个实施例可包括具有用于分别实现这种单独描述的处理的一个或多个单独单元的设备，即图7还可被认为是解码设备的示意图。下面，图7将作为用于对音频信号进行解码的多个处理被描述。

根据实施例，可基于下面的语法USACSpecificConfig()将用于执行解码的基本信息表示为例如头，并可被包括在编码的比特流中，如下：

在该示例中，元素bsStereoSbr和bsPseudoLr可以是例如用于执行残差信号的编码的元素。

元素bsStereoSbr可以是结合MPEG环绕声解码表示立体声SBR的使用的标记。

元素bsStereoSbr还可例如由表1定义。例如，图7中显示的解码顺序还可由元素bsStereoSbr确定。

表1：

bsStereoSbr	含义
		0	单声道SBR
1	立体声SBR

元素bsStereoSbr是可指示可以能够与MPEG环绕声模块组合的频带复制(SBR)模块的位置以及声道的数量的信息。当单声道SBR被应用时，可输入下混合信号，可执行SBR解码，并可对MPEG环绕立体声进行解码。当立体声SBR被应用时，可对MPEG环绕立体声进行解码，并可执行SBR解码，因此，可恢复最终的立体声信号。

这里，元素bsPseudoLr可以是表示应该在MPEG环绕声处理之前应用于核心信号的逆中间/侧旋转的标记。

例如，还可由下面的表2来定义元素bsPseudoLr。

表2：

bsPseudoLr	含义
		0	USAC核心解码器输出是下混合信号以及残差信号
1	核心解码器输出是伪L/R。

元素channelConfiguration可指示USAC核心编码器的声道的数量。在实施例中，根据语法USACSpecificConfig()，当USAC核心编码器被编码成作为立体声信号的两个声道信号时，可关于SBR配置执行信令。然而，采用MPEG环绕声的USAC技术可支持例如5-2-5树结构和7-2-7树结构。在该示例中，channelConfiguration可作为“2”被发送。在该示例中，相应的SBR配置可以不是通过bsStereoSbr被定义，被上混合成5.1声道信号。当以5-2-5树结构和7-2-7树结构应用SBR时，可首先将下混合的信号应用于SBR，然后可执行上混合，以产生多声道信号。

因此，在实施例中，可如下校正语法USACSpecificConfig()。

在一个或多个实施例中，语法USACSpecificConfig()可根据下面的修改后的USACSpecificConfig()被校正，如下：

根据修改后的语法USACSpecificConfig()，首先可解释SpatialSpecificConfig()，可基于获得的bsTreeConfig来发送元素bsStereoSbr和bsPseudoLr。因此，修改后的语法USACSpecificConfig()可与现有的5-2-5树结构和7-2-7树结构一致。当bsTreeConfig是0x07时，可指示2-1-2结构，2-1-2结构可指示立体声信号的产生。

可将残差信号的编码应用于高比特率，因此，例如，可基于指示MPEG环绕声的比特率模式的bs212Mode来有选择地执行解码。在一个或多个实施例中，可基于bsResidualCoding信息来有选择地对残差信号解码，可如下显示修改后的语法USACSpecificConfig()：

仅作为示例，元素bs212Mode可指示根据通过下面的表3定义的bsStereoSbr的SpatialFrame()的操作模式。

表3：

bs212Mode	比特率模式
		低
1	高

在一个或多个实施例中，例如，可基于元素bsTreeConfig、bs212Mode和bsResidualCoding之一来确定以上条件。

在一个或多个实施例中，仅作为示例的设备、系统、模块和单元描述这里可包括一个或多个硬件处理元件。例如，作为非限制性示例的每个描述的设备、单元或模块可包括用于执行期望操作的一个或多个处理装置(即元件)、可期望的存储器和任何期望的硬件输入/输出传送装置。此外，术语设备应该被认为与物理系统的元件同义，而不限于单个公开或所有实施例中的单个各自公开中实施的所有描述的元件，而是根据实施例所述设备是开放的，与不同的公开和/或通过不同的硬件元件的位置一起或单独被实施。

除了以上描述的实施例，实施例还可通过非暂时介质(例如，计算机可读介质)中/上的计算机可读代码/指令被实施，以控制至少一个处理元件(即，装置，例如，处理器或计算机)实现任何以上描述的实施例。介质可对应于允许计算机可读代码的存储和/或传送的任何定义的可测量的和有形的结构。

例如，介质还可包括计算机可读代码、数据文件、数据结构等的组合。计算机可读介质的一个或多个实施例包括：磁性介质，例如，硬盘、软盘和磁带；光学介质，例如，CDROM盘和DVD；磁光介质，例如，光盘；和硬件装置，被专门配置为存储和执行程序命令，例如，只读存储器(ROM)、随机存取存储器(RAM)、闪存等。例如，计算机可读代码可包括由编译器产生的机器码和包含可由计算机使用解释器执行的高级语言代码的文件二者。介质还可以是分布式网络，以使计算机可读代码以分布式方式被存储和执行。此外，仅作为示例，处理元件将包括处理器或计算机处理器，处理元件可被分布并/或被包括在单个装置中。

作为非限制性示例，设备、单元、模块或计算机可读介质还可以以执行(如处理器那样处理)程序指令的至少一个专用集成电路(ASIC)或现场可编程门阵列(FPGA)被实施。

尽管已参照本发明的不同的实施例具体显示和描述了本发明的多方面，但应该理解，这些实施例应该被认为仅是描述的目的，而不是为了限制的目的。每个实施例内的特征或方面的描述应该被代表性地认为可用于其余实施例中的其他类似特征或方面。如果以不同的顺序执行描述的技术，和/或如果以不同的方式组合描述的系统、架构、装置或电路中的部件，和/或如果用其他部件或它们的等同物来代替或补充描述的系统、架构、装置或电路中的部件，则可同样实现适合的结果。

因此，尽管已经用同样可用的其他实施例显示和描述了一些实施例，但本领域技术人员将理解，在不脱离本发明的原理和精神的情况下，可对这些实施例进行改变，本发明的范围由权利要求及其等同物限定。

Claims

1.一种编码设备，包括：

参数编码器，提取与N个声道信号的相位信息相关的一个或多个空间参数，并对提取的一个或多个空间参数进行编码；

下混合单元，基于提取的一个或多个空间参数将N个声道信号下混合成M个声道信号；

残差信号编码器，基于下混合的M个声道信号来对与N个声道信号相关的残差信号进行编码；

声道信号编码器，对M个声道信号进行编码；

输出器，输出包括编码的残差信号、编码的一个或多个空间参数和编码的M个声道信号的比特流，

其中，N个音频声道信号到M个声道信号的下混合被执行，使得当由解码器对编码的M个声道信号进行上混合时，基于对编码的一个或多个空间参数和估计的整体相位差参数的解码来进行上混合，其中，编码的一个或多个空间参数包括解码的声道间相位差参数，估计的整体相位差参数由解码器基于解码的一个或多个空间参数被估计。

2.如权利要求1所述的编码设备，其中，N＝2，M＝1。

3.如权利要求1所述的编码设备，其中，残差信号编码器提取残差信号作为当将N个声道信号与基于提取的一个或多个空间参数表示的一个或多个声道信号进行比较时所产生的误差信号。

4.如权利要求1所述的编码设备，其中，通过多个二到一下混合模块进行分级下混合来对至少5个声道信号的多声道信号进行编码，所述编码设备包括：

包括参数编码器和下混合单元的所述多个二到一下混合模块中的至少一个，编码设备输出编码的残差信号和编码的M个声道信号，以使输出的编码的残差信号和输出的编码的M个声道信号可用于通过多次上混合来再现所述至少5个声道信号。

5.一种解码设备，包括：

声道信号解码器，基于代数码激励线性预测、加权线性预测变换和高级音频编码中的至少一个从比特流中解码出下混合的声道信号；

参数解码器，对下混合的声道信号的至少一个编码的空间参数进行解码；

相位信息估计单元，基于至少一个解码的空间参数来估计相位信息；

残差信号解码器，对下混合的声道信号的编码的残差信号进行解码；

矩阵计算器，基于估计的相位信息计算用于对下混合的声道信号进行上混合的上混合矩阵；

上混合单元，基于解码的残差信号和上混合矩阵来将下混合的声道信号上混合为N个声道信号，

其中，所述至少一个解码的空间参数包括声道电平差和声道间相位差中的至少一个，声道电平差指示基于N个声道信号的能量等级的强度差，声道间相位差指示N个声道信号之间的相位差，

其中，相位信息估计单元基于所述至少一个解码的空间参数估计整体相位差，整体相位差指示N个声道信号之间的一个或多个相位差在下混合的声道信号中的分布程度。

6.如权利要求5所述的解码设备，其中，残差信号是基于N个声道信号与基于所述至少一个空间参数而表示的一个或多个声道信号之间的比较而所产生的误差信号。

7.如权利要求5所述的解码设备，其中，N＝2。

8.如权利要求5所述的解码设备，其中，通过多个一到二上混合模块进行分级上混合对至少5个声道信号的多声道信号进行解码，所述解码设备包括：

所述多个一到二上混合模块中的至少一个，包括上混合单元，从而解码的N个声道信号可用于通过N个声道信号的附加一到二上混合来再现所述至少5个声道信号。

9.一种解码设备，包括：

声道信号解码器，基于以下中的至少一个来对以运动图像专家组语音和音频联合编码器编码的下混合的声道信号进行解码：基于操作线性预测域的代数码激励线性预测、加权线性预测变换和基于频域的高级音频编码；

参数解码器，对下混合的声道信号的一个或多个编码的空间参数进行解码；

相位信息估计单元，基于解码的一个或多个空间参数估计相位信息；

矩阵计算器，基于估计的相位信息计算用于下混合的声道信号的上混合矩阵；

上混合单元，基于解码的残差信号和上混合矩阵将下混合的声道信号上混合成N个声道信号，

10.一种编码方法，包括：

提取与N个声道信号的相位信息相关的一个或多个空间参数，并对提取的一个或多个空间参数进行编码，其中，提取的一个或多个空间参数包括声道间相位差参数；

基于提取的一个或多个空间参数将N个声道信号下混合成M个声道信号；

基于下混合的M个声道信号来对与N个声道信号相关的残差信号进行编码；

对M个声道信号进行编码；

输出包括编码的残差信号、编码的一个或多个空间参数和编码的M个声道信号的比特流，

11.如权利要求10所述的编码方法，其中，N＝2。

12.如权利要求10所述的编码方法，其中，对残差信号进行编码的步骤包括：提取残差信号作为当将N个声道信号与通过提取的一个或多个空间参数表示的一个或多个声道信号进行比较时所产生的误差信号。

13.如权利要求10所述的编码方法，其中，通过多个二到一下混合模块进行分级下混合来对至少5个声道信号的多声道信号进行编码，所述编码方法包括：

所述多个二到一混合模块中的至少一个，执行参数提取和N个声道信号到M个声道信号的下混合，输出步骤还包括：输出编码的残差信号和编码的M个声道信号，以使输出的编码的残差信号和输出的编码的M个声道信号可用于通过多次上混合来再现所述至少5个声道信号。

14.一种解码方法，包括：

从比特流解码出下混合的声道信号；

对下混合的声道信号的至少一个编码的空间参数进行解码；

基于至少一个解码的空间参数来估计相位信息；

对下混合的声道信号的编码的残差信号进行解码；

基于估计的相位信息来计算用于对下混合的声道信号进行上混合的上混合矩阵；

基于解码的残差信号和上混合矩阵来将下混合的声道信号上混合成N个声道信号，

其中，解码的至少一个空间参数包括声道电平差和声道间相位差中的至少一个，声道电平差指示基于N个声道信号的能量等级的强度差，声道间相位差指示N个声道信号之间的相位差，

其中，估计步骤包括：基于解码的至少一个空间参数估计整体相位差，整体相位差指示N个声道信号之间的一个或多个相位差在下混合的声道信号中的分布程度。

15.如权利要求14所述的解码方法，其中，N＝2。

16.如权利要求14所述的解码方法，其中，残差信号是基于N个声道信号与基于所述至少一个空间参数所表示的一个或多个声道信号之间的比较而产生的误差信号。

17.如权利要求14所述的解码方法，其中，通过多个一至二上混合操作进行分级上混合来对至少5个声道信号的多声道信号进行解码，所述解码方法包括：

多个一至二上混合操作中的至少一个包括：将下混合的声道信号上混合成N个声道信号，以使解码的N个声道信号可用于通过N个声道信号的附加一至二上混合来再现至少所述5个声道信号。

18.一种解码方法，包括：

基于以下中的至少一个来对以运动图像专家组语音和音频联合编码器编码的下混合的声道信号进行解码：基于线性预测域的代数码激励线性预测、加权线性预测变换和基于频域的高级音频编码；

对下混合的声道信号的至少一个编码的空间参数进行解码；

基于解码的至少一个空间参数估计相位信息；

对下混合的声道信号的编码的残差信号进行解码；

基于估计的相位信息计算用于下混合的声道信号的上混合矩阵；

基于解码的残差信号和上混合矩阵将下混合的声道信号上混合成N个声道信号，