CN101553867A

CN101553867A - 用于处理音频信号的方法和装置

Info

Publication number: CN101553867A
Application number: CNA2007800453936A
Authority: CN
Inventors: 吴贤午; 郑亮源
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2006-12-07
Filing date: 2007-12-06
Publication date: 2009-10-07
Anticipated expiration: 2027-12-06
Also published as: US8428267B2; CN101568958B; CN101568958A; KR20090098864A; US20080205657A1; US20100010821A1; TW200834544A; EP2102856A4; WO2008069593A1; EP2122613B1; EP2187386A3; US20080199026A1; US8340325B2; MX2009005969A; CN101553865A; JP2010511910A; KR101111520B1; CN101553866B; KR101100223B1; CN101553866A

Abstract

本发明公开了一种用于处理音频信号的方法，其包括：接收缩减混合信号、对象信息和混合信息；利用对象信息和混合信息生成包括至少一个增益修改因数的多声道信息，其中增益修改因数对应于用于控制缩减混合信号的增益的时间子频带变异因数。

Description

用于处理音频信号的方法和装置

技术领域

本发明涉及用于处理音频信号的方法和装置，尤其涉及用于解码在数字介质上接收的音频信号等作为广播信号的方法和装置。

背景技术

在将若干音频对象缩减混合成单声道或立体声信号时，能够提取来自各个对象信号的参数。这些参数可在音频信号的解码器中使用，且各个源的复位/摇移(panning)可由用户的选择来控制。

发明内容

技术问题

然而，为了控制各个对象信号，必需适当地执行包括在缩减混合信号中的各个源的复位/摇移。

然而，对于就面向声道的解码方法(如MPEG环绕)而言的反向兼容性，对象参数必需被灵活地转换成扩展混合过程所需的多声道参数。

技术方案

因此，本发明涉及一种基本上消除了一个或多个由于有关技术的局限和缺点引起的问题的处理音频信号的方法和装置。

本发明的目的是提供一种用于不受限制地控制对象增益和摇移的处理音频信号的方法和装置。

本发明的目的是提供一种用于基于用户选择控制对象增益和摇移的处理音频信号的方法和装置。

本发明的其它优点、目的和特征将在以下的说明中部分地阐述，且在本领域技术人员分析以下内容后将部分地变得显然易见，或者可从本发明的实施中获知。本发明的目的和其它优点可由书面说明书及其权利要求书和附图中具体指出的结构来实现并获得。

有益效果

本发明提供以下的效果或优点。

首先，本发明能够提供一种用于不受限制地控制对象增益和摇移的处理音频信号的方法和装置。

其次，本发明能够提供一种用于基于用户选择控制对象增益和摇移的处理音频信号的方法和装置。

附图简述

包括于此以提供对本发明的进一步理解、并被结合在本申请中且构成其一部分的附图示出本发明的实施例，其与说明书一起用来解释本发明的原理。在附图中：

图1是解释基于回放配置和用户控制渲染缩减混合信号的基本概念的示例性框图。

图2是根据本发明的一个实施例的对应于第一方案的用于处理音频信号的装置的示例性框图。

图3是根据本发明的另一个实施例的对应于第一方案的用于处理音频信号的装置的示例性框图。

图4是根据本发明的一个实施例的对应于第二方案的用于处理音频信号的装置的示例性框图。

图5是根据本发明的另一个实施例的对应于第二方案的用于处理音频信号的装置的示例性框图。

图6是根据本发明的又一个实施例的对应于第二方案的用于处理音频信号的装置的示例性框图。

图7是根据本发明的一个实施例的对应于第三方案的用于处理音频信号的装置的示例性框图。

图8是根据本发明的另一个实施例的对应于第三方案的用于处理音频信号的装置的示例性框图。

图9是解释渲染单元的基本概念的示例性框图。

图10A至10C是图7所示的缩减混合处理单元的第一实施例的示例性框图。

图11是图7所示的缩减混合处理单元的第二实施例的示例性框图。

图12是图7所示的缩减混合处理单元的第三实施例的示例性框图。

图13是图7所示的缩减混合处理单元的第四实施例的示例性框图。

图14是根据本发明的第二实施例的经压缩音频信号的比特流结构的示例性框图。

图15是根据本发明的第二实施例的用于处理音频信号的装置的示例性框图。

图16是根据本发明的第三实施例的经压缩音频信号的比特流结构的示例性框图。

图17是根据本发明的第四实施例的用于处理音频信号的装置的示例性框图。

图18是解释可变类型对象的发送方案的示例性框图。

图19是根据本发明的第五实施例的用于处理音频信号的装置的示例性框图。

本发明的最佳实施方式

为了实现这些和其它优点并根据本发明的目的，如本文具体体现和广泛描述的，一种用于处理音频信号的方法，包括：接收缩减混合信号、对象信息和混合信息；利用对象信息和混合信息生成包括至少一个增益修改因数的多声道信息，其中增益修改因数对应于用于控制缩减混合信号的增益的时间子频带变异因数。

根据本发明，其中如果缩减混合信号对应于单声道信号，则执行生成多声道信息。

根据本发明，其中增益修改因数描述基于混合信息和对象信息估计的第一增益与基于对象信息估计的第二增益之比。

根据本发明，还包括利用包括增益修改因数的多声道信息生成多声道比特流。

根据本发明，还包括利用对象信息和混合信息生成缩减混合处理信息；以及利用缩减混合处理信息处理缩减混合信号，其中如果缩减混合信号对应于立体声信号，则缩减混合处理信息对应于用于控制对象摇移的信息。

根据本发明，其中混合信息是利用对象位置信息和回放配置信息中的至少一个生成的。

根据本发明，其中接收缩减混合信号作为广播信号。

根据本发明，其中在数字介质上接收缩减混合信号。

在本发明的另一个方面中，一种用于处理音频信号的方法，包括：接收对象信息和混合信息；利用对象信息和混合信息生成多声道信息；利用混合信息生成额外的多声道信息；以及发送多声道信息和额外的多声道信息，其中多声道信息对应于用于将缩减混合信号扩展混合成多声道信号的信息，且额外的多声道信息对应于用于修改多声道信号的信息。

根据本发明，其中额外的多声道信息包括用于双耳模式的HRTF信息。

根据本发明，其中HRTF信息描述一定时间处对象的虚拟位置。

根据本发明，其中HRTF信息是利用HRTF数据库生成的。

根据本发明，其中在同一子频带域中执行生成多声道信息和生成额外的多声道信息。

根据本发明，其中额外的多声道信息与多声道信息同步发送。

根据本发明，其中接收缩减混合信号作为广播信号。

根据本发明，其中在数字介质上接收缩减混合信号。

在本发明的另一个方面中，一种有指令存储于其上的计算机可读介质，所述指令在由处理器执行时使得所述处理器执行以下操作，包括：接收缩减混合信号、对象信息和混合信息；利用对象信息和混合信息生成包括至少一个增益修改因数的多声道信息，其中增益修改因数对应于用于控制缩减混合信号的增益的时间子频带变异因数。

在本发明的另一个方面中，一种有指令存储于其上的计算机可读介质，所述指令在由处理器执行时使得所述处理器执行以下操作，包括：接收对象信息和混合信息；利用对象信息和混合信息生成多声道信息；利用混合信息生成额外的多声道信息；以及发送多声道信息和额外的多声道信息，其中多声道信息对应于用于将缩减混合信号扩展混合成多声道信号的信息，且额外的多声道信息对应于用于修改多声道信号的信息。

在本发明的另一个方面中，一种用于处理音频信号的装置，包括：接收混合信息的用户界面；以及信息生成单元，其接收对象信息和混合信息，利用对象信息和混合信息生成包括至少一个增益修改因数的多声道信息，其中增益修改因数对应于用于控制缩减混合信号的增益的时间子频带变异因数。

在本发明的另一个方面中，一种用于处理音频信号的装置，包括：接收混合信息的用户界面；以及信息生成单元，其接收对象信息，利用对象信息和混合信息生成多声道信息，利用混合信息生成额外的多声道信息；并发送多声道信息和额外的多声道信息，其中多声道信息对应于用于将缩减混合信号扩展混合成多声道信号的信息，且额外的多声道信息对应于用于修改多声道信号的信息。

应理解，本发明的以上一般描述和以下详细描述是示例性和说明性的，并且旨在提供对如所要求保护的本发明的进一步解释。

本发明的实施方式

现在详细参考在附图中示出其示例的本发明的优选实施例。只要有可能，在所有附图中始终使用相同的附图标记表示相同或相似的部件。

在对本发明进行叙述之前，应当指出的是本发明中揭示的大多数术语对应于本领域内公知的一般术语，但某些术语是由本申请人根据需要选择的，并且将在本发明以下的描述中予以揭示。因此，由申请人定义的术语优选基于它们在本发明中的含义来理解。

具体地，在以下的描述中“参数”表示包括值、狭义参数、系数、元素等的信息。在下文中，术语“参数”将代替术语“信息”使用，如对象参数、混合参数、缩减混合处理参数等，这不会对本发明构成限制。

在缩减混合若干声道信号或对象信号时，可提取对象参数和空间参数。解码器可利用缩减混合信号和对象参数(或空间参数)生成输出信号。可由解码器基于回放配置和用户控制渲染输出信号。如下将参考图1详细解释渲染过程。

图1是解释基于回放配置和用户控制渲染缩减混合的基本概念的示例性框图。参照图1，解码器100可包括渲染信息生成单元110和渲染单元120，且还可包括渲染器110a和合成器120a来代替渲染信息生成单元110和渲染单元120。

可将渲染信息生成单元110配置成从编码器接收包括对象参数或空间参数的辅助信息，且还从设备设置或用户界面接收回放配置或用户控制。对象参数可对应于在缩减混合至少一个对象信号时提取的参数，且空间参数可对应于在缩减混合至少一个声道信号时提取的参数。此外，可将每个对象的类型信息和特性信息包括在辅助信息中。类型信息和特性信息可描述乐器名称、演奏者姓名等。回放配置可包括扬声器位置和周围环境信息(扬声器的虚拟位置)，且用户控制可对应于由用户输入以便于控制对象位置和对象增益的控制信息，且还可对应于便于回放配置的控制信息。同时可将回放配置和用户控制表示为混合信息，这不会对本发明构成限制。

渲染信息生成单元110可被配置成利用混合信息(回放配置和用户控制)和所接收的辅助信息生成渲染信息。渲染单元120可被配置成在不发送音频信号的缩减混合(简称“缩减混合信号”)的情形中利用渲染信息生成多声道参数，并且在发送音频信号的缩减混合的情形中利用渲染信息和缩减混合生成多声道信号。

渲染器110a可被配置成利用混合信息(回放配置和用户控制)和所接收的辅助信息生成多声道信号。合成器120a可被配置成利用由渲染器110a生成的多声道信号合成多声道信号。

如上所述，解码器可基于回放配置和用户控制渲染缩减混合信号。同时，为了控制各个对象信号，解码器可接收对象参数作为辅助信息并基于所发送的对象参数来控制对象摇移和对象增益。

1.控制对象信号的增益和摇移

可提供用于控制各个对象信号的可变方法。首先，如果解码器接收对象参数并利用该对象参数生成各个对象信号，则解码器可基于混合信号(回放配置、对象电平等)控制各个对象信号。

其次，如果解码器生成将被输入到多声道解码器的多声道参数，则多声道解码器可利用该多声道参数对从编码器接收的缩减混合信号进行扩展混合。上述第二方法可被分成三类方案。具体地，可提供1)利用常规的多声道解码器，2)修改多声道解码器，3)在输入到多声道解码器之前处理音频信号的缩减混合。常规的多声道解码器可对应于面向声道的空间音频编码(例如MPEG环绕解码器)，这不会对本发明构成限制。如下将解释三类方案的细节。

1.1利用多声道解码器

第一方案可在不修改多声道解码器的情况下按原样使用常规的多声道解码器。首先，将如下参考图2解释使用控制对象增益的ADG(任意缩减混合增益)的情形和使用控制对象摇移的5-2-5配置的情形。随后，将参考图3解释与场景再混合单元有关的情形。

图2是根据本发明的一个实施例的对应于第一方案的用于处理音频信号的装置的示例性框图。参照图2，用于处理音频信号的装置200(在下文中简称为“解码器200”)可包括信息生成单元210和多声道解码器230。信息生成单元210可接收来自编码器的包括对象参数的辅助信息和来自用户界面的混合信息，并可生成包括任意缩减混合增益或增益修改增益(在下文中简称为“ADG”)的多声道参数。ADG可描述基于混合信息和对象信息估计的第一增益与基于对象信息估计的第二增益的比。具体地，仅当缩减混合信号对应于单声道信号时，信息生成单元210可生成ADG。多声道解码器230可接收来自编码器的音频信号的缩减混合和来自信息生成单元210的多声道参数，并可利用缩减混合信号和多声道参数生成多声道输出。

多声道参数可包括声道电平差(在下文中简称为“CLD”)、声道间相关性(在下文中简称为“ICC”)、声道预测系数(在下文中简称为“CPC”)。

因为CLD、ICC和CPC描述两个声道之间的强度差或相关性，所以它将控制对象摇移和相关性。能够利用CLD、ICC等控制对象位置和对象扩散(响度)。同时，CLD描述相对电平差而不是绝对电平，且保存被分离的两个声道的能量。因此不能通过处理CLD等控制对象增益。换言之，不能通过使用CLD等减弱或提高特定对象的音量。

此外，ADG描述用于由用户控制校正因数的时间和频率相关增益。如果应用该校正因数，则能够在多声道扩展混合之前处理缩减混合信号的修改。因此，在从信息生成单元210接收ADG参数的情形中，多声道解码器230可利用ADG参数控制特定时间和频率的对象增益。

同时，以下的公式1可定义所接收的立体声缩减混合信号作为立体声声道输出的情形。

[公式1]

y[0]＝w₁₁·g₀·x[0]+w₁₂·g₁·x[1]

y[1]＝w₂₁·g₀·x[0]+w₂₂·g₁·x[1]

其中x[]是输入声道，y[]是输出声道，g_x是增益，且w_xx是权重。

有必要控制左声道和右声道之间的串音以便对象摇移。具体地，缩减混合信号的左声道的一部分可作为输出信号的右声道输出，缩减混合信号的右声道的一部分可作为输出信号的左声道输出。在公式1中，w₁₂和w₂₁可以是串音组分(换言之，交叉项)。

上述情况对应于2-2-2配置，其表示2-声道输入，2-声道传输和2-声道输出。为了执行2-2-2配置，可使用常规面向声道的空间音频编码(例如MPEG环绕)的5-2-5配置(2-声道输入、5-声道传输和2-声道输出)。首先，为了输出用于2-2-2配置的2声道，5-2-5配置的5个输出声道中的某些声道可被设置成停用声道(假声道)。为了给出2传输声道和2输出声道之间的串音，可调节上述CLD和CPC。简言之，利用上述ADG获得公式1中的增益因数g_x，且利用CLD和CPC获得公式1中的加权因数w₁₁～w₂₂。

在利用5-2-5配置实现2-2-2配置时，为了减少复杂性，可应用常规空间音频编码的默认模式。因为假定默认CLD的特性是输出2-声道，所以如果应用默认CLD则能够减少计算量。具体地，因为不需要合成假声道，所以能够大量减少计算量。因此，应用默认模式是适当的。具体地，仅3CLD(对应于MPEG环绕标准中的0、1和2)的默认CLD用于解码。另一方面，生成用于控制对象的左声道、右声道和中央声道中的4CLD(对应于MPEG环绕标准中的3、4、5和6)和2ADG(对应于MPEG环绕标准中的7和8)。在这种情形中，对应3和5的CLD描述左声道加右声道与中央声道之间的声道电平差((1+r)/c)适于设置成150dB(近似无穷大)以便减小中央声道。并且，为了实现串音，可执行基于能量的扩展混合或基于预测的扩展混合，它在TTT模式(MPEG环绕标准中的“bsTttModeLow”)对应于基于能量的模式(利用减法，实现矩阵兼容性)(第三模式)或预测模式(第一模式或第二模式)的情形中被调用。

图3是根据本发明的另一个实施例的对应于第一方案的用于处理音频信号的装置的示例性框图。参照图3，根据本发明的另一个实施例用于处理音频信号的装置300(在下文中简称为解码器300)可包括信息生成单元310、场景渲染单元320、多声道解码器330和场景再混合单元350。

信息生成单元310可被配置成在缩减混合信号对应于单声道信号时(即缩减混合声道的数目是“1”)从编码器接收包括对象参数的辅助信息，可从用户界面接收混合信息，并可利用辅助信息和混合信息生成多声道参数。可基于包括在辅助信息中的标志信息以及缩减混合信号本身和用户选择估计缩减混合声道的数目。信息生成单元310可具有与前面的信息生成单元210相同的配置。多声道参数被输入到多声道解码器330，该多声道解码器330可具有与前面的多声道解码器230相同的配置。

场景渲染单元320可被配置成在缩减混合信号对应于非单声道信号时(即缩减混合声道的数目大于“2”)从编码器接收包括对象参数的辅助信息，可从用户界面接收混合信息，并可利用辅助信息和混合信息生成再混合参数。再混合参数对应于便于再混合立体声声道并生成大于2声道输出的参数。将再混合参数输入到场景再混合渲染单元350。场景再混合单元350可被配置成在缩减混合信号是大于2声道信号时利用再混合参数再混合该缩减混合信号。

简言之，可将两种途径视为解码器300中的单独应用的单独实现。

1.2修改多声道解码器

第二方案可修改常规的多声道解码器。首先，如下参考图4解释使用控制对象增益的虚拟输出的情形和修改控制对象摇移的设备设置的情形。随后参考图5解释在多声道解码器中执行TBT(2x2)功能的情形。

图4是根据本发明的一个实施例的对应于第二方案的用于处理音频信号的装置的示例性框图。参照图4，根据本发明的一个实施例对应于第二方案的用于处理音频信号的装置400(在下文中简称为“解码器400”)可包括信息生成单元410、内部多声道合成器420和输出映射单元430。内部多声道合成器420和输出映射单元430可被包括在合成单元中。

信息生成单元410可被配置成接收来自编码器的包括对象参数的辅助信息和来自用户界面的混合参数。并且信息生成单元410可被配置成利用辅助信息和混合信息生成多声道参数和设备设置信息。多声道参数可具有与前面的多声道参数相同的配置。所以，在以下的描述中将省略多声道参数的细节。设备设置信息可对应于用于双耳处理的参数化HRTF，这将在“1.2.2使用设备设置信息”的描述中予以解释。

内部多声道合成器420可被配置成接收来自参数生成单元410的多声道参数和设备设置信息以及来自编码器的缩减混合信号。内部多声道合成器420可被配置成生成包括虚拟输出的临时多声道输出，这将在“1.2.1使用虚拟输出”的描述中予以解释。

1.2.1使用虚拟输出

因为多声道参数(例如CLD)可控制对象摇移，所以很难通过常规的多声道解码器控制对象增益以及对象摇移。

同时，为了对象增益，解码器400(尤其是内部多声道合成器420)可将对象的相对能量映射到虚拟声道(例如中央声道)。对象的相对能量对应于将减少的能量。例如，为了使特定对象静音，解码器400可将对象能量的99.9％以上映射到虚拟声道。然后，解码器400(尤其是输出映射单元430)不输出对象的剩余能量所映射至的虚拟声道。总之，如果对象的99.9％以上被映射到不被输出的虚拟声道，期望的对象可以几乎是静音的。

1.2.2使用设备设置信息

解码器400可调节设备设置信息以便控制对象摇移和对象增益。例如，解码器可被配置成生成在MPEG环绕标准中用于双耳处理的参数化HRTF。参数化HRTF可根据设备设置变化。能够假设可根据以下的公式2控制对象信号。

[公式2]

L_新＝a₁*obj₁+a₂*obj₂+a₃*obj₃+..+a_n*obj_n，

R_新＝b₁*obj₁+b₂*obj₂+b₃*obj₃+..+b_n*obj_n，

其中obj_k是对象信号，L_新和R_新是期望的立体声信号，且a_k和b_k是用于对象控制的系数。

可由所发送的辅助信息中包括的对象参数估计出对象信号obj_k的对象信息。可根据混合信息估计出根据对象增益和对象摇移定义的系数a_k、b_k。可利用系数a_k、b_k调节期望的对象增益和对象摇移。

可将系数a_k、b_k设置成对应于用于双耳处理的HRTF参数，这将详细解释如下。

在MPEG环绕标准(5-1-51配置)(来自SO/IEC FDIS 23003-1：2006(E)，信息技术-MPEG音频技术-第一部分：MPEG环绕)中，双耳处理如下。

[公式3]

y_{B}^{n, k} = [\begin{matrix} y_{L_{B}}^{n, k} \\ y_{R_{B}}^{n, k} \end{matrix}] = H_{2}^{n, k} [\begin{matrix} y_{m}^{n, k} \\ D (y_{m}^{n, k}) \end{matrix}] = [\begin{matrix} h_{11}^{n, k} & h_{12}^{n, k} \\ h_{21}^{n, k} & h_{22}^{n, k} \end{matrix}] [\begin{matrix} y_{m}^{n, k} \\ D (y_{m}^{n, k}) \end{matrix}], 0 \leq k < K,

其中y_B是输出，矩阵H是用于双耳处理的转换矩阵。

[公式4]

H_{1}^{l, m} = [\begin{matrix} h_{11}^{l, m} & h_{12}^{l, m} \\ h_{21}^{l, m} & - {(h_{22}^{l, m})}^{*} \end{matrix}], 0 \leq m < M_{Proc}, 0 \leq l < L

矩阵H的元素定义如下：

[公式5]

h_{11}^{l, m} = σ_{L}^{l, m} (\cos ({IPD}_{B}^{l, m} / 2) + j \sin ({IPD}_{B}^{l, m} / 2)) ({idd}^{l, m} + {ICC}_{B}^{l, m}) d^{l, m},

[公式6]

{(σ_{X}^{l, m})}^{2} = {(P_{X, C}^{m})}^{2} {(σ_{C}^{l, m})}^{2} + {(P_{X, L}^{m})}^{2} {(σ_{L}^{l, m})}^{2} + {(P_{X, Ls}^{m})}^{2} {(σ_{Ls}^{l, m})}^{2} + {(P_{X, R}^{m})}^{2} {(σ_{R}^{l, m})}^{2} + {(P_{X, Rs}^{m})}^{2} {(σ_{Rs}^{l, m})}^{2} + . . .

P_{X, L}^{m} P_{X, R}^{m} ρ_{L}^{m} σ_{L}^{l, m} σ_{R}^{l, m} {ICC}_{3}^{l, m} \cos (φ_{L}^{m}) + . . .

P_{X, L}^{m} P_{X, R}^{m} ρ_{R}^{m} σ_{L}^{l, m} σ_{R}^{l, m} {ICC}_{3}^{l, m} \cos (φ_{R}^{m}) + . . .

P_{X, Ls}^{m} P_{X, Rs}^{m} ρ_{Ls}^{m} σ_{Ls}^{l, m} σ_{Rs}^{l, m} {ICC}_{2}^{l, m} \cos (φ_{Ls}^{m}) + . . .

P_{X, Ls}^{m} P_{X, Rs}^{m} ρ_{Rs}^{m} σ_{Ls}^{l, m} σ_{Rs}^{l, m} {ICC}_{2}^{l, m} \cos (φ_{Rs}^{m})

，

[公式7]

{(σ_{L}^{l, m})}^{2} = r_{1} ({CLD}_{0}^{l, m}) r_{1} ({CLD}_{1}^{l, m}) r_{1} ({CLD}_{3}^{l, m})

{(σ_{R}^{l, m})}^{2} = r_{1} ({CLD}_{0}^{l, m}) r_{1} ({CLD}_{1}^{l, m}) r_{2} ({CLD}_{3}^{l, m})

{(σ_{C}^{l, m})}^{2} = r_{1} ({CLD}_{0}^{l, m}) r_{2} ({CLD}_{1}^{l, m}) / g_{c}^{2}

{(σ_{Ls}^{l, m})}^{2} = r_{2} ({CLD}_{0}^{l, m}) r_{1} ({CLD}_{2}^{l, m}) / g_{s}^{2}

{(σ_{Rs}^{l, m})}^{2} = r_{2} ({CLD}_{0}^{l, m}) r_{2} ({CLD}_{2}^{l, m}) / g_{s}^{2}

其中

r_{1} (CLD) = \frac{10^{CLD / 10}}{1 + 10^{CLD / 10}}

以及

r_{2} (CLD) = \frac{1}{1 + 10^{CLD / 10}} .

1.2.3在多声道解码器中执行TBT(2x2)功能

图5是根据本发明的另一个实施例的对应于第二方案的用于处理音频信号的装置的示例性框图。图5是多声道解码器中的TBT功能的示例性框图。参照图5，TBT模块510可被配置成接收输入信号和TBT控制信息并生成输出信号。TBT模块510可被包括在图2的解码器200中(或者，具体的是多声道解码器230)。多声道解码器230可根据MPEG环绕标准来实现，这不会对本发明构成限制。

[公式9]

y = [\begin{matrix} y_{1} \\ y_{2} \end{matrix}] = [\begin{matrix} w_{11} & w_{12} \\ w_{21} & w_{22} \end{matrix}] [\begin{matrix} x_{1} \\ x_{2} \end{matrix}] = Wx

其中x是输入声道，y是输出声道，且w是权重。

输出y₁可对应于缩减混合的输入x₁乘以第一增益w₁₁与输入x₂乘以第二增益w₁₂的合并。

在TBT模块510中输入的TBT控制信息包括可构成权重w(w₁₁、w₁₂、w₂₁、w₂₂)的元素。

在MPEG环绕标准中，OTT(一至二)模块和TTT(二至三)模块不适合再混合输入信号，尽管OTT模块和TTT模块可扩展混合输入信号。

为了再混合输入信号，可提供TBT(2x2)模块510(在下文中简称为“TBT模块510”)。可将TBT模块510描绘成接收立体声信号并输出再混合立体声信号。可利用CLD(多个CLD)和ICC(多个ICC)构造权重w。

如果权重项w₁₁～w₂₂作为TBT控制信息发送，则解码器可利用所接收的权重项控制对象增益以及对象摇移。在发送权重项w时，可提供可变方案。首先，TBT控制信息包括类似w₁₂和w₂₁的交叉项。第二，TBT控制信息不包括类似w₁₂和w₂₁的交叉项。第三，作为TBT控制信息的项数自适应地改变。

首先，需要接收类似w₁₂和w₂₁的交叉项，以便在输入声道的左信号进入输出声道的右侧时控制对象摇移。在N个输入声道和M个输出声道的情形中，数目为NxM的项可作为TBT控制信息发送。可基于MPEG环绕中介绍的CLD参数量化表来量化这些项，这不会对本发明构成限制。

第二，除非左对象移位到右位置(即当左对象移动到更左位置或与中央位置相邻的左位置时，或当仅对象电平被调节时)，否则不需要使用交叉项。在这种情形中，发送除交叉项以外的项是适当的。在N个输入声道和M个输出声道的情形中，可发送数目仅为N的项。

第三，TBT控制信息的数目根据交叉项的需要自适应地改变，以便减少TBT控制信息的比特率。指示是否存在交叉项的标志信息“交叉_标志”被设置成作为TBT控制信息发送。标志信息“交叉_标志”的含义在以下的表1中示出。

[表1]交叉_标志的含义

交叉_标志	含义
交叉_标志	含义	0	无交叉项(仅包括非交叉项)(仅存在w₁₁和w₂₂)
1	包括交叉项(存在w₁₁、w₁₂、w₂₁和w₂₂)	0	无交叉项(仅包括非交叉项)(仅存在w₁₁和w₂₂)

在“交叉_标志”等于0的情形中，TBT控制信息不包括交叉项，仅存在类似w₁₁和w₂₂的非交叉项。否则(“交叉_标志”等于1)，TBT控制信息包括交叉项。

此外，指示存在交叉项还是存在非交叉项的标志信息“逆_标志”被设置成作为TBT控制信息发送。标志信息“逆_标志”的含义在以下的表2中示出。

[表2]逆_标志的含义

逆_标志	含义
逆_标志	含义	0	无交叉项(仅包括非交叉项)(仅存在w₁₁和w₂₂)
1	仅有交叉项(仅存在w₁₂和w₂₁)	0	无交叉项(仅包括非交叉项)(仅存在w₁₁和w₂₂)

在“逆_标志”等于0的情形中，TBT控制信息不包括交叉项，仅存在类似w₁₁和w₂₂的非交叉项。否则(“逆_标志”等于1)，TBT控制信息仅包括交叉项。

此外，指示存在交叉项还是存在非交叉项的标志信息“辅助_标志”被设置成作为TBT控制信息发送。标志信息“辅助_标志”的含义在以下的表3中示出。

[表3]辅助_配置的含义

辅助_配置	含义
辅助_配置	含义	0	无交叉项(仅包括非交叉项)(仅存在w₁₁和w₂₂)
1	包括交叉项(存在w₁₁、w₁₂、w₂₁和w₂₂)	0	无交叉项(仅包括非交叉项)(仅存在w₁₁和w₂₂)
1	包括交叉项(存在w₁₁、w₁₂、w₂₁和w₂₂)	2	逆(仅存在w₁₂和w₂₁)

因为表3对应于表1和表2的合并，所以略去表3的细节。

1.2.4通过修改双耳解码器来在多声道解码器中执行TBT(2x2)功能

可在不修改双耳解码器的情况下执行“1.2.2使用设备设置信息”的情形。在下文中，参考图6，通过修改MPEG环绕解码器中采用的双耳解码器执行TBT功能。

图6是根据本发明的又一个实施例的对应于第二方案的用于处理音频信号的装置的示例性框图。具体地，用于处理图6所示的音频信号630的装置可对应于图2的多声道解码器230或图4的合成单元中所包括的双耳解码器，这不会对本发明构成限制。

用于处理音频信号630的装置(在下文中是“双耳解码器630”)可包括QMF分析器632、参数转换器634、空间合成器636和QMF合成器638。双耳解码器630的元件可具有与MPEG环绕标准中的MPEG环绕双耳解码器相同的配置。例如，可根据以下的公式10将空间合成器636配置成包括1个2x2(滤波器)矩阵。

[公式10]

y_{B}^{n, k} = [\begin{matrix} y_{L_{B}}^{n, k} \\ y_{R_{B}}^{n, k} \end{matrix}] = Σ_{i = 0}^{N_{q} - 1} H_{2}^{n - i, k} y_{0}^{n - i, k} = Σ_{i = 0}^{N_{q} - 1} [\begin{matrix} h_{11}^{n - i, k} & h_{12}^{n - i, k} \\ h_{21}^{n - i, k} & h_{22}^{n - i, k} \end{matrix}] [\begin{matrix} y_{L_{0}}^{n - i, k} \\ y_{R_{0}}^{n - i, k} \end{matrix}], 0 \leq k < K

其中y₀是QMF域输入声道且y_B是双耳输出声道，k表示混合QMF声道索引，且i是HRTF滤波器抽头索引，且n是QMF槽索引(slot index)。双耳解码器630可被配置成执行子目“1.2.2使用设备设置信息”中描述的上述功能。然而，可利用多声道参数和混合信息而不是多声道参数和HRTF参数生成元素h_ij。在这种情形中，双耳解码器600可执行图5中TBT模块510的功能。将略去双耳解码器630的元件的细节。

双耳解码器630可根据标志信息“双耳_标志”来操作。具体地，在标志信息双耳_标志为0的情形中可跳过双耳解码器630，否则(双耳_标志是“1”)，双耳解码器630可如下操作。

[表4]双耳_标志的含义

双耳_标志	含义
双耳_标志	含义	0	不是双耳模式(停用双耳解码器)
1	双耳模式(激活双耳解码器)	0	不是双耳模式(停用双耳解码器)

1.3在输入到多声道解码器之前处理音频信号的缩减混合

已经在子目“1.1”中解释了使用常规多声道解码器的第一方案，已经在子目“1.2”中解释了修改多声道解码器的第二方案。以下将解释在输入到多声道解码器之前处理音频信号的缩减混合的第三方案。

图7是根据本发明的一个实施例的对应于第三方案的用于处理音频信号的装置的示例性框图。图8是根据本发明的另一个实施例的对应于第三方案的用于处理音频信号的装置的示例性框图。首先，参照图7，用于处理音频信号的装置700(在下文中简称为“解码器700”)可包括信息生成单元710、缩减混合处理单元720和多声道解码器730。参照图8，用于处理音频信号的装置800(在下文中简称为“解码器800”)可包括信息生成单元810和具有多声道解码器830的多声道合成单元840。解码器800可以是解码器700的另一方面。换言之，信息生成单元810具有与信息生成单元710相同的配置，多声道解码器830具有与多声道解码器730相同的配置，且多声道合成单元840可具有与缩减混合处理单元720和多声道单元730相同的配置。因此，将详细解释解码器700的元件，但将略去解码器800的元件的细节。

信息生成单元710可被配置成接收来自编码器的包括对象参数的辅助信息和来自用户界面的混合信息，并生成将被输出到多声道解码器730的多声道参数。根据这一观点，信息生成单元710具有与前面图2的信息生成单元210相同的配置。缩减混合处理参数可对应于用于控制对象增益和对象摇移的参数。例如，在对象信号位于左声道和右声道两个声道处的情形中能够改变对象位置或对象增益。在对象信号仅位于左声道和右声道之一的情形中，还能够渲染位于相反位置处的对象信号。为了履行这些情形，缩减混合处理单元720可以是TBT模块(2x2矩阵运算)。在信息生成单元710可被配置成生成参考图2描述的ADG以便控制对象增益的情形中，缩减混合处理参数可包括用于控制对象摇移而非对象增益的参数。

此外，信息生成单元710可被配置成从HRTF数据库接收HRTF信息，并生成将被输入到多声道解码器730的包括HRTF参数的额外多声道参数。在这种情形中，信息生成单元710可生成在同一子频带域中的多声道参数和额外的多声道参数，并相互同步地发送到多声道解码器730。将在子目“3.处理双耳模式”中解释包括HRTF参数的额外多声道参数。

缩减混合处理单元720可被配置成接收来自编码器的音频信号的缩减混合和来自信息生成单元710的缩减混合处理参数，并利用子频带分析滤波器组分解子频带域信号。缩减混合处理单元720可被配置成利用缩减混合信号和缩减混合处理参数生成经处理的缩减混合信号。在这些处理中，能够预处理缩减混合信号以便控制对象摇移和对象增益。经处理的缩减混合信号可被输入到多声道解码器730以进行扩展混合。

此外，经处理的缩减混合信号还可经由扬声器输出和回放。为了经由扬声器直接输出经处理的信号，缩减混合处理单元720可利用经预处理的子频带域信号执行合成滤波器组并输出时域PCM信号。能够通过用户选择来选择直接作为PCM信号输出还是输入到多声道解码器。

多声道解码器730可被配置成利用经处理的缩减混合和多声道参数生成多声道输出信号。当经处理的缩减混合信号和多声道参数被输入到多声道解码器730中时，多声道解码器730可引入延迟。经处理的缩减混合信号可在频域中合成(例如QMF域、混合QMF域等)，且多声道参数可在时域中合成。在MPEG环绕标准中，引入用于连接HE-AAC的延迟和同步。因此，多声道解码器730可根据MPEG环绕标准引入延迟。

将参考图9至图13解释缩减混合处理单元720的配置。

1.3.1缩减混合处理单元的一般情形和特殊情形

图9是解释渲染单元的基本概念的示例性框图。参照图9，渲染模块900可被配置成利用N个输入信号、回放配置和用户控制生成M个输出信号。N个输入信号可对应于对象信号或声道信号。此外，N个输入信号可对应于对象参数或多声道参数。渲染模块900的配置可在图7的缩减混合处理单元720、前面图1的渲染单元120和前面图1的渲染器110a之一中实现，这不会对本发明构成限制。

如果渲染模块900可被配置成利用N个对象信号直接生成M个声道信号而不将对应特定声道的各个对象信号求和，则渲染模块900的配置可被表示为以下的公式11。

[公式11]

C＝RO

Ci是第i个声道信号，O_j是第j个输入信号，且R_ji是将第j个输入信号映射到第i个声道的矩阵。

如果将R矩阵分成能量分量E和解相关分量，则公式11可表示如下。

[公式12]

C＝RO＝EO+DO

能够利用能量分量E控制对象位置，并且能够利用解相关分量D控制对象扩散。

假设仅第i个输入信号被输入以经由第j声道和第k声道输出，则公式12可被表示如下。

[公式13]

C_{jk_i}＝R_iO_i

[\begin{matrix} C_{j_i} \\ C_{k_i} \end{matrix}] = [\begin{matrix} α_{j_i} \cos (θ_{j_i}) & α_{j_i} \sin (θ_{j_i}) \\ β_{k_i} \cos (θ_{k_i}) & β_{k_i} \sin (θ_{k - i}) \end{matrix}] [\begin{matrix} o_{i} \\ D (o_{i}) \end{matrix}]

α_{j_i}是映射到第j声道的增益部分，β_{k_i}是映射到第k声道的增益部分，θ是扩散电平，且D(o_i)是解相关输出。

假设解相关被略去，则可将公式13简化如下。

[公式14]

C_{jk_i}＝R_iO_i

[\begin{matrix} C_{j_i} \\ C_{k_i} \end{matrix}] = [\begin{matrix} α_{j_i} \cos (θ_{j_i}) \\ β_{k_i} \cos (θ_{k - i}) \end{matrix}] o_{i}

如果根据上述方法估计映射到特定声道的所有输入的权重值，则能够通过以下方法获得每个声道的权重值。

1)对映射到特定声道的所有输入的权重值求和。例如，在输入1O₁和输入2O₂被输入且输入声道对应于左声道L、中央声道C和右声道R的情形中，可获得总权重值α_L(tot)、α_C(tot)、α_R(tot)如下：

[公式15]

α_L(tot)＝α_L1

α_C(tot)＝α_C1+α_C2

α_R(tot)＝α_R2

其中α_L1是映射到左声道L的输入1的权重值，α_C1是映射到中央声道C的输入1的权重值，α_C2是映射到中央声道C的输入2的权重值，而α_R2是映射到右声道R的输入2的权重值。

在这种情形中，仅输入1被映射到左声道，仅输入2被映射到右声道，输入1和2被一起映射到中央声道。

2)对映射到特定声道的所有输入的权重值求和，然后将该和分到最优势声道对，并将经解相关信号映射到其它声道用于环绕效果。在这种情形中，在特定输入置于左和中央之间的点的情形中优势声道对可对应于左声道和中央声道。

3)估计最优势声道的权重值，将经衰减相关信号给予其它声道，该值是经估计权重值的相对值。

4)使用每个声道对的权重值，适当地组合经解相关信号，然后设置成每个声道的辅助信息。

1.3.2缩减混合处理单元包括对应于2x4矩阵的混合部件的情形

图10A至10C是图7所示的缩减混合处理单元的第一实施例的示例性框图。如上所述，缩减混合处理单元720a的第一实施例(在下文中简称为“缩减混合处理单元720a”)可以是渲染模块900的实现。

首先，假设D₁₁＝D₂₁＝aD且D₁₂＝D₂₂＝bD，公式12被简化如下。

[公式15]

[\begin{matrix} C_{1} \\ C_{2} \end{matrix}] = [\begin{matrix} E_{11} & E_{12} \\ E_{12} & E_{22} \end{matrix}] [\begin{matrix} O_{1} \\ O_{2} \end{matrix}] + [\begin{matrix} aD & aD \\ bD & bD \end{matrix}] [\begin{matrix} O_{1} \\ O_{2} \end{matrix}]

根据公式15的缩减混合处理单元在图10A中示出。参照图10A，缩减混合处理单元720a可被配置成在单声道信号(m)的情形中绕过输入信号，并在立体声输入信号(L、R)的情形中处理输入信号。缩减混合处理单元720a可包括解相关部件722a和混合部件724a。解相关部件722a具有解相关器aD和解相关器bD，它们可被配置成解相关输入信号。解相关部件722a可对应于2x2矩阵。混合部件724a可被配置成将输入信号和经解相关信号映射到各个声道。混合部件724a可对应于2x4矩阵。

第二，假设D₁₁＝aD₁、D₂₁＝bD₁、D₁₂＝cD₂且D₂₂＝dD₂，则公式12简化如下。

[公式15-2]

[\begin{matrix} C_{1} \\ C_{2} \end{matrix}] = [\begin{matrix} E_{11} & E_{12} \\ E_{12} & E_{22} \end{matrix}] [\begin{matrix} O_{1} \\ O_{2} \end{matrix}] + [\begin{matrix} {aD}_{1} & {bD}_{1} \\ {cD}_{2} & {dD}_{2} \end{matrix}] [\begin{matrix} O_{1} \\ O_{2} \end{matrix}]

根据公式15的缩减混合处理单元在图10B中示出。参照图10B，包括两个解相关器D₁、D₂的解相关部件722’可被配置成生成解相关信号D₁(a*O₁+b*O₂)、D₂(c*O₁+d*O₂)。

第三，假设D₁₁＝D₁、D₂₁＝0、D₁₂＝0且D₂₂＝D₂，则公式12简化如下。

[公式15-3]

[\begin{matrix} C_{1} \\ C_{2} \end{matrix}] = [\begin{matrix} E_{11} & E_{12} \\ E_{12} & E_{22} \end{matrix}] [\begin{matrix} O_{1} \\ O_{2} \end{matrix}] + [\begin{matrix} D_{1} & 0 \\ 0 & D_{2} \end{matrix}] [\begin{matrix} O_{1} \\ O_{2} \end{matrix}]

根据公式15的缩减混合处理单元在图10C中示出。参照图10C，包括两个解相关器D₁、D₂的解相关部件722”可被配置成生成经解相关信号D₁(O₁)、D₂(O₂)。

1.3.2缩减混合处理单元包括对应于2x3矩阵的混合部件的情形

可将以上的公式15表示如下。

[公式16]

[\begin{matrix} C_{1} \\ C_{2} \end{matrix}] = [\begin{matrix} E_{11} & E_{21} \\ E_{12} & E_{22} \end{matrix}] [\begin{matrix} O_{1} \\ O_{2} \end{matrix}] + [\begin{matrix} aD (O_{1} + O_{2}) \\ bD (O_{1} + O_{2}) \end{matrix}]

= [\begin{matrix} E_{11} & E_{21} & α \\ E_{12} & E_{22} & β \end{matrix}] [\begin{matrix} O_{1} \\ O_{2} \\ D (O_{1} + O_{2}) \end{matrix}]

矩阵R是2x3矩阵，矩阵O是3x1矩阵，且C是2x1矩阵。

图11是图7所示的缩减混合处理单元的第二实施例的示例性框图。如上所述，缩减混合处理单元720b的第二实施例(在下文中简称为“缩减混合处理单元720b”)可以是类似于缩减混合处理单元720a的渲染模块900的实现。参照图11，缩减混合处理单元720b可被配置成在单声道输入信号(m)的情形中跳过输入信号，并在立体声输入信号(L、R)的情形中处理输入信号。缩减混合处理单元720b可包括解相关部件722b和混合部件724b。解相关部件722b具有解相关器D，其可被配置成解相关输入信号O₁、O₂并输出经解相关信号D(O₁+O₂)。解相关部件722b可对应于1x2矩阵。混合部件724b可被配置成将输入信号和经解相关信号映射到各个声道。混合部件724b可对应于2x3矩阵，其在公式6中可被示为矩阵R。

此外，解相关部件722b可被配置成将差信号O₁-O₂解相关为两个输入信号O₁、O₂的共用信号。混合部件724b可被配置成将输入信号和经解相关共用信号映射到各个声道。

1.3.3缩减混合处理单元包括具有若干矩阵的混合部件的情形

某些对象信号可以是可听成像不位于一特定位置的任意位置的类似印象，其可被称为“空间声音信号”。例如，音乐厅的掌声或噪声可以是空间声音信号的一个例子。空间声音信号需要经由所有的扬声器回放。如果空间声音信号经由所有的扬声器回放为同一信号，则由于高的信号间相关性(IC)很难感受到信号的空间性。因此，需要将相关信号添加到每个声道信号的信号。

图12是图7所示的缩减混合处理单元的第三实施例的示例性框图。参照图12，缩减混合处理单元720c的第三实施例(在下文中简称为“缩减混合处理单元720c”)可被配置成利用输入信号O_i生成空间声音信号，其可包括带有N个解相关器的解相关单元722c和混合部件724c。解相关部件722c可具有N个解相关器D₁、D₂、...、D_N，这些解相关器可被配置成对输入信号O_i进行解相关。混合部件724c可具有N个矩阵R_j、R_k、...、R₁，这些矩阵可被配置成利用输入信号O_i和经解相关信号D_X(O_i)生成输出信号C_j、C_k、...、C₁。矩阵R_j可表示为如下公式。

[公式17]

C_{j_i}＝R_jO_i

C_{j_i} = [\begin{matrix} α_{j_i} \cos (θ_{j_i}) & α_{j_i} \sin (θ_{j_i}) \end{matrix}] [\begin{matrix} o_{i} \\ Dx (o_{i}) \end{matrix}]

O_i是第i输入信号，R_j是将第i输入信号O_i映射到第j声道的矩阵，以及是C_{j_i}是第j输出信号。值θ_{j_i}是解相关率。

可基于多声道参数中所包括的ICC估计值θ_{j_i}。此外，混合部件724c可基于经由信息生成单元710从用户界面接收的构成解相关率θ_{j_i}的空间信息生成输出信号，这不对本发明构成限制。

解相关器的数目(N)可等于输出声道的数目。另一方面，经解相关信号可被添加到由用户选择的输出声道。例如，能够将特定空间声音信号置于左、右和中央，并经由左声道扬声器作为空间声音信号输出。

1.3.4缩减混合处理单元包括另一个缩减混合部件的情形

图13是图7所示的缩减混合处理单元的第四实施例的示例性框图。如果输入信号对应于单声道信号(m)，则可将缩减混合处理单元720d的第四实施例(在下文中简称为“缩减混合处理单元720d”)配置成绕过。缩减混合处理单元720d包括另一个缩减混合部件722d，其可被配置成在输入信号对应于立体声信号时将立体声信号缩减混合成单声道信号。另一个经缩减混合的单声道(m)用作多声道解码器730的输入。多声道解码器730可通过使用单声道输入信号来控制对象摇移(尤其是串音)。在这种情形中，信息生成单元710可基于MPEG环绕标准的5-1-5₁配置生成多声道参数。

此外，如果应用类似上述图2的艺术缩减混合增益ADG的单声道缩减混合信号的增益，则能够更容易地控制对象摇移和对象增益。ADG可由信息生成单元710基于混合信息生成。

2.扩展混合声道信号并控制对象信号

图14是根据本发明的第二实施例的经压缩音频信号的比特流结构的示例性框图。图15是根据本发明的第二实施例的用于处理音频信号的装置的示例性框图。参照图14的(a)，缩减混合信号α、多声道参数β和对象参数γ被包括在比特流结构中。多声道参数β是用于对缩减混合信号进行扩展混合的参数。另一方面，对象参数γ是用于控制对象摇移和对象增益的参数。参照图14的(b)，缩减混合信号α、默认参数β’和对象参数γ被包括在比特流结构中。默认参数β’可包括用于控制对象增益和对象摇移的预设信息。预设信息可对应于由编码器侧的制作者建议的例子。例如，预设信息可描述吉他信号位于左和中央之间的点，且吉他电平被设置成特定音量，此时输出声道的数目被设置成特定声道。每个帧或特定帧的默认参数可存在于比特流中。指示用于该帧的默认参数是否不同于前一帧的默认参数的标志信息可存在于比特流中。通过将默认参数包括在比特流中，能够采取比具有被包括在比特流中的对象参数的辅助信息更少的比特率。此外，在图14中略去比特流的首部信息。可重新安排比特流的顺序。

参照图15，根据本发明的第二实施例的用于处理音频信号的装置1000(在下文中简称为“解码器1000”)可包括比特流分用器1005、信息生成单元1010、缩减混合处理单元1020和多声道解码器1030。分用器1005可被配置成将经复用的音频信号分成缩减混合α、第一多声道参数β和对象参数γ。可将信息生成单元1010可被配置成利用对象参数γ和混合参数生成第二多声道参数。混合参数包括指示第一多声道信息β是否被应用到经处理的缩减混合的模式信息。模式信息可对应于用于由用户选择的信息。根据模式信息，信息生成信息1020决定是发送第一多声道参数β还是第二多声道参数。

缩减混合处理单元1020可被配置成根据混合信息中所包括的模式信息确定处理方案。此外，缩减混合处理单元1020可被配置成根据所确定的处理方案处理缩减混合α。然后缩减混合处理单元1020将经处理的缩减混合发送到多声道解码器1030。

多声道解码器1030可被配置成接收第一多声道参数β或第二多声道参数。在默认参数β’被包括在比特流中的情形中，多声道解码器1030可使用默认参数β’而不是多声道参数β。

然后，多声道解码器1030可被配置成利用经处理的缩减混合信号和所接收的多声道参数生成多声道输出。多声道解码器1030可具有与前面的多声道解码器730相同的配置，这不会对本发明构成限制。

3.双耳处理

多声道解码器能够以双耳模式操作。这借助于首部相关传递函数(HRTF)滤波实现了耳机上的多声道印象。对于双耳解码侧，缩减混合信号和多声道参数与提供给解码器的HRTF滤波器结合使用。

图16是根据本发明的第三实施例的用于处理音频信号的装置的示例性框图。参照图16，根据第三实施例的用于处理音频信号的装置(在下文中简称为“解码器1100”)可包括信息生成单元1110、缩减混合处理器单元1120和带有同步匹配部件1130a的多声道解码器1130。

信息生成单元1110可具有与图7的信息生成单元700相同的配置，且生成动态HRTF。缩减混合处理单元1120可具有与图7的缩减混合处理单元720相同的配置。类似于上述元件，多声道解码器1130除同步匹配部件1130a以外与前面元件的情形相同。因此，信息生成单元1110、缩减混合处理单元1120和多声道解码器1130的细节将被略去。

动态HRTF描述对应于HRTF方位角和仰角的对象信号和虚拟扬声器信号之间的关系，它是根据实时用户控制的时间相关信息。

在多声道解码器包括所有的HRTF滤波器组的情形中，动态HRTF可对应于HRTF滤波器系数本身、参数化系数信息和索引信息中的一个。

无论动态HRTF的种类如何都需要将动态HRTF信息与缩减混合信号帧相匹配。为了将HRTF信息与缩减混合信息相匹配，能够提供如下的三种方案：

1)将标志信息插入每个HRTF信息和比特流缩减混合信号，然后基于所插入的标志信息使HRTF与比特流缩减混合信号相匹配。在该方案中，将标志信息包括在MPEG环绕标准中的辅助字段中是适当的。可将标志信息表示为时间信息、计数信息、索引信息等。

2)将HRTF信息插入比特流的帧。在该方案中，可能设置指示当前帧是否对应于默认模式的模式信息。如果应用描述当前帧的HRTF信息等于前一帧的HRTF信息的默认模式，则能够降低HRTF信息的比特率。

2-1)此外，可能定义指示是否已经发送当前帧的HRTF信息的传输信息。如果应用描述当前帧的HRTF信息等于已发送的帧的HRTF信息的传输信息，则还可能降低HRTF信息的比特率。

3)提前发送若干HRTF信息，然后发送指示哪个HRTF在按每个帧发送的HRTF信息中的标识信息。

此外，在HRTF系数突然改变的情形中，可产生失真。为了减少这种失真，执行系数或渲染信号的平滑是适当的。

4.渲染

图17是根据本发明的第四实施例的用于处理音频信号的装置的示例性框图。根据本发明的第四实施例用于处理音频信号的装置1200(在下文中简称为“处理器1200”)可包括编码器侧1200A处的编码器1210和解码器侧1200B处的渲染单元1220和合成单元1230。编码器1210可被配置成接收多声道对象信号并生成音频信号的缩减混合和辅助信息。渲染单元1220可被配置成接收来自编码器1210的辅助信息、来自设备设置或用户界面的回放配置和用户控制，并利用辅助信息、回放配置和用户控制生成渲染信息。合成单元1230可被配置成利用渲染信息和从编码器1210接收的缩减混合信号合成多声道输出信号。

4.1应用效果模式

效果模式是用于再混合或重构信号的模式。例如，可存在实况模式、俱乐部乐队模式、卡拉OK模式等。效果模式信息可对应于由制作者、其它用户等生成的混合参数集。如果应用效果模式信息，则终端用户完全不需要控制对象摇移和对象增益，因为用户可选择预定的效果模式信息之一。

生成效果模式信息的两种方法可加以区分。首先，效果模式信息由编码器1200A生成并发送到解码器1200B是可能的。第二，效果模式信息在解码器侧自动生成。两种方法的细节将描述如下。

4.1.1将效果模式信息发送到解码器侧

效果模式信息可由制作者在编码器1200A处生成。根据该方法，解码器1200B可被配置成接收包括效果模式信息的辅助信息并输出用户界面，通过该用户界面用户可选择效果模式信息之一。解码器1200B可被配置成基于所选择的效果模式信息生成输出声道。

此外，在编码器1200A缩减混和信号以便提高对象信号的质量的情形中，听众按原样收听缩减混合信号是不适当的。然而，如果将效果模式信息应用到解码器1200B中，则将缩减混合信号回放为最大质量是可能的。

4.1.2在解码器侧生成效果模式信息

可在解码器1200B处生成效果模式信息。解码器1200B可被配置成在缩减混合信号中搜索适当的效果模式信息。然后解码器1200B可被配置成选择所搜索到的效果模式之一自身(自动调节模式)或使用户能够选择它们之一(用户选择模式)。然后解码器1200B可被配置成获得包括在辅助信息中的对象信息(对象数、乐器名称等)，并基于所选择的效果模式信息和对象信息控制对象。

此外，能够一次全部地控制类似的对象。例如，与节奏相关联的乐器在“节奏印象模式”的情形中是类似的对象。一次全部地控制表示同时控制每个对象而不是利用相同的参数控制对象。

此外，能够基于解码器设置和设备环境(包括不管是耳机还是扬声器)控制对象。例如，在设备的音量设置低的情形中，可强调对应于主旋律的对象，在设备的音量设置高的情形中，可抑制对应于主旋律的对象。

4.2编码器侧输入信号的对象类型

输入到编码器1200A的输入信号可被分成如下三种类型。

1)单声道对象

单声道对象是最一般的对象类型。通过将对象简单相加来合成内部缩减混合信号是可能的。利用对象增益与可以是用户控制和所提供的信息之一的对象摇移合成内部缩减混合信号也是可能的。在生成内部缩减混合信号时，利用对象特性、用户输入和设置有对象的信息中的至少一个生成渲染信息也是可能的。

在存在外部缩减混合信号的情形中，提取和发送指示外部缩减混合和对象之间的关系的信息是可能的。

2)立体声对象(立体声声道对象)

类似于前面的单声道对象的情形，通过将对象简单相加来合成内部缩减混合信号是可能的。利用对象增益与可以是用户控制和所提供的信息之一的对象摇移合成内部缩减混合信号也是可能的。在缩减混合信号对应于单声道信号的情形中，编码器1200A使用转换成单声道信号的对象以生成缩减混合信号是可能的。在这种情形中，在转换成单声道信号时能够提取并传送与对象相关联的信息(例如在各个时间-频率域中的摇移信息)。类似前面的单声道对象，在生成内部缩减混合信号时，利用对象特性、用户输入和设置有对象的信息中的至少一个生成渲染信息也是可能的。类似于前面的单声道对象，在存在外部缩减混合信号的情形中，提取和发送指示外部缩减混合和对象之间的关系的信息是可能的。

3)多声道对象

在多声道对象的情形中，能够执行利用单声道对象和立体声对象描述的上述方法。此外，能够输入多声道对象作为一种形式的MPEG环绕。在这种情形中，能够利用对象缩减混合声道生成基于对象的缩减混合(例如SAOC缩减混合)，并使用多声道信息(例如MPEG环绕中的空间信息)来生成多声道信息和渲染信息。因此，因为以MPEG环绕形式存在的多声道对象不必利用面向对象的编码器(例如SAOC编码器)进行解码和编码，所以可能减少计算量。如果在此情形中对象缩减混合对应于立体声且基于对象的缩减混合(例如SAOC缩减混合)对应于单声道，则可能应用关于立体声对象描述的上述方法。

4)用于可变类型对象的发送方案

如上所述，可变类型的对象(单声道、立体声和多声道对象)可从编码器1200A发送到解码器1200B。可如下提供可变类型对象的发送方案：

参照图18，当缩减混合包括多个对象时，辅助信息包括每个对象的信息。例如，当多个对象包括第N单声道对象(A)、第N+1对象(B)的左声道和第N+1对象(C)的右声道时，辅助信息包括3个对象(A、B、C)的信息。

辅助信息可包括相关性标志信息，指示对象是否是立体声或多声道对象的一部分，例如单声道对象、立体声对象的一个声道(L或R)等。例如，如果存在单声道对象，则相关性标志信息是“0”，如果存在立体声对象的一个声道则相关性标志信息是“1”。当连续发送立体声对象的一部分和立体声对象的另一部分时，立体声对象的另一部分的相关性标志信息可以是任意值(例如“0”、“1”或任意)。此外，可不发送立体声对象的其它部分的相关性标志信息。

此外，在多声道对象的情形中，多声道对象的一个部分的相关性标志信息可以是描述多声道对象的数目的值。例如，在5.1声道对象的情形中，5.1声道的左声道的相关性标志信息可以是“5”，5.1声道的其它声道的相关性标志信息可以是“0”或不被发送。

4.3对象属性

对象可具有如下的三类属性：

a)单个对象

单个对象可被配置为源。在生成缩减混合信号和再现时，能够将一个参数应用到单个对象用于控制对象摇移和对象增益。“一个参数”不仅可表示关于所有时间/频率域的一个参数，还可表示用于每个时间/频率槽的一个参数。

b)成组对象

单个对象可被配置为两个以上的源。能够将一个参数应用到成组对象用于控制对象摇移和对象增益，尽管成组对象作为至少两个源输入。如下将参考图19解释成组对象的细节：参照图19，编码器1300包括编组单元1310和缩减混合单元1320。编组单元1310可被配置成基于编组信息在所输入的多对象输入中编组至少两个对象。编组信息可由制作者在编码器侧生成。缩减混合单元1320可被配置成利用编组单元1310生成的编组对象生成缩减混合信号。缩减混合单元1320可被配置成生成用于编组对象的辅助信息。

c)组合对象

组合对象是与至少一个源组合的对象。一次全部地控制对象摇移和增益但保持组合对象之间的关系不变是可能的。例如，在鼓的情形中，控制鼓但保持大鼓、铜锣和铙钹(symbol)之间的关系不变是可能的。例如当大鼓位于中心点且符号位于左侧点时，在鼓向右移动时将大鼓置于右侧点且将符号置于中心点和右侧点之间的点是可能的。

可将组合对象的关系信息发送到解码器。另一方面，解码器可利用组合对象提取关系信息。

4.4分级地控制对象

能够分级地控制对象。例如在控制鼓之后，能够控制鼓的每个子元件。为了分级地控制对象，提供如下的三个方案：

a)UI(用户界面)

可仅显示代表元素而不显示所有对象。如果用户选择代表元素，则显示所有对象。

b)对象编组

在编组对象以便表示代表元素之后，控制代表元素以控制编组为代表元素的所有对象是可能的。可将编组过程中提取的信息发送到解码器。同样，可在解码器中生成编组信息。可基于各个元素的预定控制信息执行一次全部地应用控制信息。

c)对象配置

使用上述组合对象是可能的。关于组合对象的元素的信息可在编码器或解码器中生成。关于来自编码器的元素的信息可被发射为与关于组合对象的信息不同的形式。

对于本领域技术人员而言，可对本发明作出各种修改和变化而不背离本发明的精神和范围是显而易见的。因此，本发明旨在涵盖本发明的更改和变化，只要它们落在所附权利要求及其等效方案的范围内即可。

工业实用性

因此，本发明适用于编码和解码音频信号。

Claims

1.一种用于处理音频信号的方法，其包括：

接收缩减混合信号、对象信息和混合信息；

利用所述对象信息和所述混合信息生成包括至少一个增益修改因数的多声道信息，

其中所述增益修改因数对应于用于控制缩减混合信号的增益的时间子频带变异因数。

2.如权利要求1所述的方法，其特征在于，如果所述缩减混合信号对应于单声道信号，则执行生成多声道信息。

3.如权利要求1所述的方法，其特征在于，所述增益修改因数描述基于所述混合信息和所述对象信息估计的第一增益与基于所述对象信息估计的第二增益之比。

4.如权利要求1所述的方法，其特征在于，还包括：

利用包括所述增益修改因数的所述多声道信息生成多声道比特流。

5.如权利要求1所述的方法，其特征在于，还包括：

利用所述对象信息和所述混合信息生成缩减混合处理信息；以及

利用所述缩减混合处理信息处理所述缩减混合信号，

其中如果所述缩减混合信号对应于立体声信号，则所述缩减混合处理信息对应于用于控制对象摇移的信息。

6.如权利要求1所述的方法，其特征在于，所述混合信息是利用对象位置信息和回放配置信息中的至少一个生成的。

7.如权利要求1所述的方法，其特征在于，接收所述缩减混合信号作为广播信号。

8.如权利要求1所述的方法，其特征在于，在数字介质上接收所述缩减混合信号。

9.一种用于处理音频信号的方法，其包括：

接收对象信息和混合信息；

利用所述对象信息和所述混合信息生成多声道信息；

利用所述混合信息生成额外的多声道信息；以及

发送所述多声道信息和所述额外的多声道信息，

其中所述多声道信息对应于用于将缩减混合信号扩展混合成多声道信号的信息，且额外的多声道信息对应于用于修改所述多声道信号的信息。

10.如权利要求9所述的方法，其特征在于，所述额外的多声道信息包括用于双耳模式的HRTF信息。

11.如权利要求10所述的方法，其特征在于，所述HRTF信息描述一定时间处对象的虚拟位置。

12.如权利要求10所述的方法，其特征在于，所述HRTF信息是利用HRTF数据库生成的。

13.如权利要求9所述的方法，其特征在于，在同一子频带域中执行生成多声道信息和生成额外的多声道信息。

14.如权利要求9所述的方法，其特征在于，所述额外的多声道信息与多声道信息同步发送。

15.如权利要求1所述的方法，其特征在于，接收所述缩减混合信号作为广播信号。

16.如权利要求1所述的方法，其特征在于，在数字介质上接收所述缩减混合信号。

17.一种有指令存储于其上的计算机可读介质，所述指令在由处理器执行时使得所述处理器执行以下操作，包括：

接收缩减混合信号、对象信息和混合信息；

18.一种有指令存储于其上的计算机可读介质，所述指令在由处理器执行时使得所述处理器执行以下操作，包括：

接收对象信息和混合信息；

利用所述对象信息和所述混合信息生成多声道信息；

利用所述混合信息生成额外的多声道信息；以及

发送所述多声道信息和所述额外的多声道信息，

19.一种用于处理音频信号的装置，其包括：

接收混合信息的用户界面；以及

信息生成单元，其接收对象信息和所述混合信息，利用所述对象信息和所述混合信息生成包括至少一个增益修改因数的多声道信息，

20.一种用于处理音频信号的装置，其包括：

接收混合信息的用户界面；以及

信息生成单元，其接收对象信息，利用所述对象信息和所述混合信息生成多声道信息，利用所述混合信息生成额外的多声道信息；并发送所述多声道信息和所述额外的多声道信息，