CN101911181A

CN101911181A - 用于处理音频信号的方法和装置

Info

Publication number: CN101911181A
Application number: CN2008801227710A
Authority: CN
Inventors: 吴贤午; 郑亮源
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2008-01-01
Filing date: 2008-12-31
Publication date: 2010-12-08
Also published as: CN101911182A; US20100296656A1; US20140161261A1; JP5243556B2; EP2232487A4; US8670576B2; CA2710560C; US8654994B2; JP2011509590A; AU2008344073A1; EP2232486A1; JP2011509591A; WO2009084917A1; WO2009084919A1; KR20100095542A; KR20100086003A; US9514758B2; EP2232486B1; US20100284551A1; AU2008344073B2

Abstract

公开了一种处理音频信号的方法和装置。本发明包括：接收包括至少一个对象信号的下混合信号以及在生成下混合信号时提取的对象信息；接收包括模式选择信息的混合信息，该混合信息用于控制对象信号；以及基于模式选择信息，使用下混合信号来生成立体声输出信号，或者从下混合信号中提取背景对象和至少一个独立对象，其中，下混合信号与单音信号相对应，其中，立体声输出信号与包括从去相关下混合信号所生成的信号的时域信号相对应，并且其中，模式选择信息包括指示模式中的哪一个的信息，模式包括正常模式、用于控制背景对象的模式和用于控制至少一个独立对象的模式。

Description

用于处理音频信号的方法和装置

技术领域

本发明涉及用于处理音频信号的装置及其方法。虽然本发明适用于大范围的应用，但是特别适合于处理经由数字媒体、广播信号等等接收到的音频信号。

背景技术

通常，在用于将多个对象下混合为单音或者立体声信号的过程中，分别从对象信号中提取参数。这些参数可用于解码器。对象的每一个的摇摆(panning)和增益是可通过用户选择控制的。

发明内容

技术问题

然而，为了控制每个对象信号，应当适当地定位或摇摆包含在下混合中的每个源。

另外，为了提供根据面向声道的解码方案的向后兼容，对象参数应当被转换成用于上混合的多声道参数。

因此，本发明针对一种用于处理音频信号的装置及其方法，其基本上消除了由于现有技术的限制和缺点而导致的一个或多个问题。

本发明的目的在于提供一种用于处理音频信号的装置及其方法，通过该装置和方法，可以通过控制对象的增益和摇摆来输出单音信号、立体声信号和多声道信号。

本发明的另一个目的在于提供一种用于处理音频信号的装置及其方法，通过该装置和方法，可以在不执行多声道解码器的复杂的方案的情况下，从下混合信号中输出单音信号和立体声信号。

本发明的又一个目的在于提供一种用于处理音频信号的装置及其方法，通过该方法和装置，可以在以相当大的宽度调整有声或者背景音乐的增益的情况下，防止声音质量的失真。

有益效果

因此，本发明提供以下的效果或者优点。

第一，本发明能够在没有限制的情况下控制对象的增益和摇摆。

第二，本发明能够基于用户选择来控制对象的增益和摇摆。

第三，在输出模式是单音或者立体声的情况下，本发明在不执行多声道解码器的复杂的方案的情况下生成输出信号，从而便利实现和降低复杂度。

第四，在为诸如移动设备的设备提供一个或者两个扬声器的情况下，本发明能够在不需要处理多声道解码器的编解码器的情况下控制用下混合信号的对象的增益和摇摆。

第五，在有声或者背景音乐被完全地抑制的情况下，本发明能够根据增益调整来防止声音质量的失真。

第六，在诸如声乐等的至少两个单独立对象(立体声声道或者若干有声信号)存在的情况下，本发明能够根据增益调整来防止声音质量的失真。

附图说明

附图被包括进来以提供对本发明的进一步理解，并且并入和构成本说明书的一部分，附图图示了本发明的实施例，并且与描述一起用于可以解释本发明原理。

在附图中：

图1是根据用于生成单音/立体声信号的本发明的实施例的用于处理音频信号的装置的框图；

图2是用于在图1中示出的下混合处理单元的第一示例的详细框图；

图3是用于在图1中示出的下混合处理单元的第二示例的详细框图；

图4是根据用于生成双声道信号的本发明的一个实施例的用于处理音频信号的装置框图；

图5是在图4中示出的下混合处理单元的详细框图；

图6是根据用于生成双声道声道的本发明的另一个实施例的用于处理音频信号的装置的框图；

图7是根据用于控制独立对象的本发明的一个实施例的用于处理音频信号的装置的框图；

图8是用于根据用于控制独立对象的本发明的另一个实施例来处理音频信号的装置的框图；

图9是根据用于处理增强的对象的本发明的第一实施例的用于处理音频信号的装置的框图；

图10是根据用于处理增强的对象的本发明的第二实施例的用于处理音频信号的装置的框图；以及

图11和图12是根据用于处理增强的对象的本发明的第三实施例的用于处理音频信号的装置的框图。

最佳方式

本发明的其他特征和优点将在随后的描述中进行阐述，并且从该描述中在某种程度上将是清晰可见的，或者可以通过实践本发明来习得。可以通过在撰写的说明书及其权利要求以及所附的附图中所具体指出的结构来实现和获得本发明的目的和其他的优点。

为了实现这些和其他的优点并且根据本发明的目的，如在实施和广泛描述的，根据本发明的一种处理音频信号的方法包括：接收包括至少一个对象信号的下混合信号和在生成下混合信号时提取的对象信息；接收用于控制对象信号的混合信息；根据输出模式使用对象信息和混合信息来生成下混合处理信息和多声道信息中的一个；以及如果生成了下混合处理信息，则通过将下混合处理信息应用于下混合信号来生成输出信号，其中，下混合信号和输出信号与单音信号相对应，并且其中，多声道信息与用于将下混合信号上混合为多个声道信号的信息相对应。

根据本发明，下混合信号和输出信号与在时间域上的信号相对应。

根据本发明，生成输出信号包括：通过分解下混合信号来生成子带信号；使用下混合处理信息来处理子带信号；以及通过合成子带信号来生成输出信号。

根据本发明，输出信号包括通过去相关下混合信号所生成的信号。

根据本发明，该方法进一步包括：如果生成多声道信息，则通过使用多声道信息对下混合信号进行上混合来生成多个声道信号。

根据本发明，根据扬声器声道数目来确定输出模式，并且扬声器声道数目基于设备信息和混合信息中的一个。

根据本发明，混合信息基于对象位置信息、对象增益信息和回放配置信息中的至少一个来生成。

为了进一步实现这些和其他的优点，并且根据本发明的目的，一种用于处理音频信号的装置，包括：多路分解器，该多路分解器接收包括至少一个对象信号的下混合信号和在下混合信号生成时提取的对象信息；信息生成单元，该信息生成单元根据输出模式使用对象信息和用于控制对象信号的混合信息来生成下混合处理信息和多声道信息中的一个；以及下混合处理单元，如果生成下混合处理信息，则该下混合处理单元通过将下混合处理信息应用于下混合信号来生成输出信号，其中，下混合信号和输出信号与单音信号相对应，并且其中，多声道信息与用于将下混合信号上混合为多个声道信号的信息相对应。

根据本发明，该下混合处理单元包括：子带分解单元，该子带分解单元通过分解下混合信号来生成子带信号；M2M处理单元，该M2M处理单元使用下混合处理信息来处理子带信号；以及子带合成单元，该子带合成单元通过合成子带信号来生成输出信号。

为了进一步实现这些和其他的优点，并且根据本发明的目的，根据本发明的一种处理音频信号的方法包括：接收包括至少一个对象信号的下混合信号和在下混合信号生成时提取的对象信息；接收用于控制对象信号的混合信息；根据输出模式使用对象信息和混合信息来生成下混合处理信息和多声道信息中的一个；以及如果生成了下混合处理信息，则通过将下混合处理信息应用于下混合信号来生成输出信号，其中，下混合信号与单音信号相对应，其中，输出信号与通过将去相关器应用于下混合信号所生成的立体声信号相对应，并且其中，多声道信息与用于将下混合信号上混合为多声道信号的信息相对应。

根据本发明，生成输出信号包括：通过分解下混合信号来生成子带信号；通过使用下混合处理信息处理该子带信号来生成两个子带信号；以及通过合成两个子带信号来分别生成输出信号。

根据本发明，生成两个子带信号包括：通过去相关子带信号来生成去相关的信号；以及通过使用下混合处理信息处理去相关的信号和该子带信号来生成两个子带信号。

根据本发明，该下混合处理信息包括：双声道参数和与双声道信号相对应的输出信号。

根据本发明，该方法进一步包括：如果生成了多声道信息，则通过使用多声道信息对下混合信号进行上混合来生成多个声道信号。

为了进一步实现这些和其他的优点，并且根据本发明的目的，一种用于处理音频信号的装置，包括：多路分解器，该多路分解器接收包括至少一个对象信号的下混合信号、时间域下混合信号和在生成下混合信号时提取的对象信息；信息生成单元，该信息生成单元根据输出模式使用用于控制对象信号的混合信息和对象信息来生成下混合处理信息和多声道信息中的一个；以及下混合处理单元，如果生成下混合处理信息，则通过将下混合处理信息应用于下混合信号来生成输出信号，其中，下混合信号与单音信号相对应，其中，输出信号与通过将去相关器应用于下混合信号所生成的立体声信号相对应，并且其中，多声道信息与用于将下混合信号上混合为多个声道信号的信息相对应。

为了进一步实现这些和其他的优点，并且根据本发明的目的，根据本发明的一种处理音频信号的方法包括：接收包括至少一个对象信号的下混合信号以及在生成下混合信号时提取的对象信息；接收包括模式选择信息的混合信息，该混合信息用于控制对象信号；基于模式选择信息绕过下混合信号或者从下混合信号中提取背景对象和至少一个独立对象；以及如果该下混合信号被绕过，则使用该对象信息和该混合信息来生成多声道信息，其中，下混合信号与单音信号相对应，并且其中，该模式选择信息包括指示模式的哪一个的信息，模式包括正常模式、用于控制背景对象的模式和用于控制至少一个独立对象的模式。

根据本发明，该方法进一步包括：接收增强的对象信息，其中，使用增强的对象信息从下混合信号中提取至少一个独立对象。

根据本发明，该增强的对象信息与残差信号相对应。

根据本发明，至少一个独立对象与基于对象的信号相对应，并且该背景对象与单音信号相对应。

根据本发明，如果模式选择模式与正常模式相对应，则生成立体声输出信号。并且，如果模式选择模式与用于控制背景对象的模式和用于控制至少一个独立对象的模式中的一个相对应，则提取该背景对象和至少一个独立对象。

根据本发明，该方法进一步包括：如果从该下混合信号中提取该背景对象和至少一个独立对象，则生成用于控制该背景对象的第一多声道信息和用于控制至少一个独立对象的第二多声道信息中的至少一个。

为了进一步实现这些和其他的优点，并且根据本发明的目的，一种用于处理音频信号的装置，包括：多路分解器，该多路分解器接收包括至少一个对象信号的下混合信号以及在生成下混合信号时提取的对象信息；对象代码转换器，该对象代码转换器基于包括在用于控制对象信号的混合信息中的模式选择信息来绕过下混合信号，或者从下混合信号提取背景对象和至少一个独立对象；以及多声道解码器，如果绕过该下混合信号，则使用对象信息和混合信息来生成多声道信息，其中，下混合信号与单音信号相对应，其中，输出信号与通过将去相关器应用于下混合信号来生成的立体声信号相对应，并且其中，该模式选择信息包括指示模式的哪一个的信息，模式包括正常模式、用于控制背景对象的模式和用于控制至少一个独立对象的模式。

为了进一步实现这些和其他的优点，并且根据本发明的目的，根据本发明的一种处理音频信号的方法包括：接收包括至少一个对象信号的下混合信号以及在生成下混合信号时提取的对象信息；接收包括模式选择信息的混合信息，该混合信息用于控制该对象信号；以及使用下混合信号来生成立体声输出信号，或者基于模式选择信息来从下混合信号中提取背景对象和至少一个独立对象，其中，下混合信号与单音信号相对应，其中，该立体声输出信号与包括通过去相关下混合信号生成的信号的时域信号相对应，并且其中，该模式选择信息包括指示模式的哪一个的信息，模式包括标正常模式、用于控制背景对象的模式和用于控制至少一个独立对象的模式。

根据本发明，该方法进一步包括：接收增强的对象信息，其中，至少一个独立对象使用增强的对象信息从下混合信号中进行提取。

根据本发明，该增强的对象信息与残差信号相对应。

根据本发明，如果模式选择模式与正常模式相对应，则生成该立体声输出信号。并且，如果模式选择模式与用于控制背景对象的模式和用于控制至少一个独立对象的模式中的一个相对应，则提取该背景对象和至少一个独立对象。

根据本发明，该方法进一步包括：如果从下混合信号中提取该背景对象和至少一个独立对象，则生成用于控制该背景对象的第一多声道信息和用于控制至少一个独立对象的第二多声道信息中的至少一个。

为了进一步实现这些和其他的优点，并且根据本发明的目的，一种用于处理音频信号的装置，包括：多路分解器，该多路分解器接收包括至少一个对象信号的下混合信号以及在生成下混合信号时提取的对象信息；以及对象代码转换器，该对象代码转换器使用下混合信号来生成立体声输出信号，或者基于包括在用于控制该对象信号的混合信息中的模式选择信息来从该下混合信号中提取背景对象和至少一个独立对象，其中，下混合信号与单音信号相对应，其中，该立体声输出信号与包括通过去相关下混合信号生成的信号的时域信号相对应，并且其中，该模式选择信息包括指示模式的哪一个的信息相对应，模式包括正常模式、用于控制背景对象的模式和用于控制至少一个独立对象的模式。

应该明白，上文的概述和下面的详细描述是示例性和说明性的，并且希望提供要求保护的本发明的进一步说明。

具体实施方式

现在将对本发明的优选实施例详细地进行参考，其示例在附图中进行图示。首先，本发明中的术语可以被解释为以下的引用。并且，在本说明书中没有公开的术语可以被解释为匹配本发明的技术想法的以下的含义和概念。

特定地，在本公开中的“信息”是通常包括值、参数、系数、要素等的术语，并且其含义可以被认为偶尔地不同，本发明不受此限制。

对象具有包括基于对象的信号和基于声道的信号二者的概念。有时，对象可以仅包括基于对象的信号。

在接收到单音下混合信号的情况下，本发明意在描述用于处理单音下混合信号的各种过程。首先，如果有必要将参考图1至图3来解释从单音下混合信号生成单音/立体声信号或者多个声道信号的方法。第二，将参考图4至图6来解释从单音下混合信号(或者立体声下混合信号)生成双声道信号的方法。第三，将参考图7至图12来解释用于控制包含在单音下混合中的独立对象信号(或者单音背景信号)的方法的各种实施例。

1.单音/立体声信号的生成

图1是根据用于生成单音/立体声信号的本发明的实施例的用于处理音频信号的装置的框图。

参考图1，根据本发明的实施例的用于处理音频信号的装置100包括：多路分解器110、信息生成单元120和下混合处理单元130。该音频信号处理装置100可以进一步包括多声道解码器140。

多路分解器110经由比特流来接收对象信息(OI)。该对象信息(OI)是关于包含在下混合信号内的对象的信息，并且能够包括对象水平信息、对象相关信息等。该对象信息(OI)能够包含对象参数(OP)，该对象参数(OP)是指示对象特性的参数。

比特流进一步包含下混合信号(DMX)。该多路分解器110能够进一步从该比特流中提取下混合信号(DMX)。该下混合信号(DMX)是从下混合至少一个对象信号生成的信号，并且可以与在时间域上的信号相对应。该下混合信号(DMX)可以是单音信号或者立体声信号。在本实施例中，该下混合信号(DMX)可以是例如单音信号。

信息生成单元120从多路分解器110接收对象信息(OI)。该信息生成单元120从用户接口接收混合信息(MXT)。该信息生成单元120从用户接口或者设备接收输出模式信息(OM)。该信息生成单元120能够进一步从HRTF DB接收HRTF(报头相关的传送功能)参数。

在该情况下，混合信息(MXI)是基于对象位置信息、对象增益信息、回放配置信息等生成的信息。对象位置信息是使用户控制每个对象的位置或者摇摆而输入的信息。对象增益信息是使用户控制每个对象的增益而输入的信息。特定地，对象位置信息或者对象增益信息可以是从预设置的模式选择的一个。在该情况下，预设置的模式是随着时间的推移用于预设置对象的特定增益或者位置的值。该预设置模式信息可以是从另一个设备接收到的值或者存储在设备中的值。同时，从至少一个或多个预设置模式(例如，未使用的预设置模式、预设置模式1、预设置模式2等)选择一个可以通过用户输入来确定。

回放配置信息是包含扬声器数目、扬声器位置、环境信息(扬声器的虚拟位置)等的信息。回放配置信息可以由用户输入、可以预先存储或者可以从另一个设备接收。

输出模式信息(OM)是关于输出模式的信息。例如，该输出模式信息(OM)可以包括指示多少信号用于输出的信息。指示多少信号用于输出的该信息可以与单音输出模式、立体声输出模式、多声道输出模式等中的一个相对应。同时，该输出模式信息(OM)可以与混合信息(MXI)的扬声器的数目相同。如果预先存储该输出模式信息(OM)，则它基于设备信息。如果该输出模式信息(OM)由用户输入，则它基于用户输入信息。在该情况下，该用户输入信息可以被包括在混合信息(MXI)中。

信息生成单元120根据输出模式使用对象信息(OI)和混合信息(MXI)来生成下混合处理信息(DPI)和多声道信息(MI)中的一个。在该情况下，输出模式基于以上解释的输出模式信息(OM)。如果输出模式是单音输出或者立体声信号，则信息生成单元120生成下混合处理信息(DPI)。如果输出模式是多声道输出，则信息生成单元120生成多声道信息(MI)。在该情况下，下混合处理信息(DPI)是用于处理下混合信号(DMX)的信息，稍后将解释其细节。该多声道信息(MI)是用于对下混合信号(DMX)进行上混合的信息，并且能够包括声道水平信息、声道相关信息等。

如果输出模式是单音输出或者立体声输出，则仅生成该下混合处理信息(DPI)。这是因为下混合处理单元130能够生成时域单音信号或者时域立体声信号。同时，如果输出模式是多声道输出，则生成多声道信息(MI)。这是因为在输入信号是单音信号的情况下多声道解码器140可以生成多声道信号。

下混合处理单元130使用下混合处理信息(DPI)和单音下混合(DMX)来生成单音输出信号或者立体声输出信号。在该情况下，下混合处理信息(DPI)是用于处理下混合信号(DMX)的信息，并且将控制包含在下混合信号中对象的增益和/或摇摆。

同时，单音输出信号或者立体声输出信号与时域信号相对应，并且可以包括PCM信号。在单音输出信号的情况下，将参考图2来解释下混合处理单元130的详细配置。在立体声输出信号的情况下，将参考图3来解释下混合处理单元130的详细配置。

此外，下混合处理信息(DPI)可以包括双声道参数。在该情况下，该双声道参数是用于3D效果的参数，并且可以是由信息成生单元120使用对象信息(OI)、混合信息(MXI)和HRTF参数成生的信息。在下混合处理信息(DPI)包括双声道参数的情况下，下混合处理单元130能够输出双声道信号。稍后将参考图4至图6来详细解释用于生成双声道信号的实施例。

如果接收到立体声下混合信号而不是单音下混合信号[在该图中未示出]，则仅执行用于修改下混合信号的串音干扰(crosstalk)的处理，而不生成时域输出信号。该处理的下混合信号可以再次由多声道解码器140来进行处理。但是，本发明不受该处理的限制。

如果输出模式是多声道输出模式，则多声道解码器140通过使用多声道信息对下混合(DMX)进行上混合来生成多声道信号。该多声道解码器140可以根据MPEG环绕(IS)/IEC 23003-1)的标准来实现，本发明不受此限制。

图2是用于在图1示出的下混合处理单元的第一示例的详细框图，这是用于生成单音输出信号的实施例。图3是用于在图1示出的下混合处理单元的第二示例的详细框图，这是用于生成立体声输出信号的示例。

参考图2，下混合处理单元130A包括子带分解单元132A、M2M处理单元134A和子带合成单元136A。该下混合处理单元130A从单音下混合信号生成单音输出信号。

该子带分解单元132A通过分解单音下混合信号(DMX)来生成子带信号。子带分解单元132A被实现有混合滤波器组，并且子带信号可以与在混合QMF域上的信号相对应。M2M处理单元134A使用下混合处理信息(DPI)来处理子带信号。在该情况下，M2M是单音到单音的缩写。M2M处理单元134A能够使用去相关器来处理子带信号。子带合成单元136A通过合成处理的子带信号来生成时域单音输出信号。另外，该子带合成单元136A可以被实现有混合滤波器组。

参考图3，下混合处理单元132B包括子带分解单元132B、M2S处理单元134B、第一子带合成单元136B和第二子带合成单元138B。下混合处理单元130B接收单音下混合信号，并且然后生成立体声输出。

类似在图2中示出的先前的子带分解单元132A，该子带分解单元132B通过分解单音下混合信号(DMX)来生成子带信号。同样地，该子带分解单元132B可以被实现有混合滤波器组。

该M2S处理单元134B通过使用下混合处理信息(DPI)和去相关器135B处理子带信号来生成两个子带信号(第一子带信号和第二子带信号)。在该情况下，M2S是单音到立体声的缩写。如果使用去相关器135B，则能够通过降低在左声道和右声道之间的相关性来提高立体声效果。

同时，去相关器135B将从子带分解单元132B输入的子带信号设置为第一子带信号，并且然后能够输出作为第二子带信号的通过去相关第一子带信号生成的信号，本发明不受此限制。

第一子带合成单元136B合成第一子带信号，并且第二子带合成单元138B合成第二子带信号，由此生成时域立体声输出信号。

因此，在输入单音下混合的情况下，在以上的描述中解释了经由下混合处理单元来输出单音/立体声输出的实施例。在以下的描述中，解释生成双声道信号的情况。

2.双声道信号的生成

图4是根据用于生成双声道信号的本发明的实施例的用于处理音频信号的装置的框图。图5是在图4中示出的下混合处理单元的详细框图。图6是根据用于生成双声道信号的本发明的另一个实施例的用于处理音频信号的装置框图。

参考图4和图5，解释了用于生成双声道信号的一个实施例。参考图6，解释了用于生成双声道信号的另一个实施例。

参考图4，音频信号处理装置200包括多路分解器210、信息生成单元220和下混合处理单元230。在该情况下，类似参考图1描述的先前的多路分解器110，该多路分解器210从比特流中提取对象信息(OI)，并且能够从比特流中进一步提取下混合(DMX)。在该情况下，该下混合信号可以是单音信号或者立体声信号。

信息生成单元220使用对象信息(OI)、混合信息(MXI)和HRTF信息来生成包含双声道参数的下混合处理信息。在该情况下，该HRTF信息可以是从HRTF DB提取的信息。并且，双声道参数是用于带来虚拟3D效果的参数。

下混合处理单元230使用包括双声道参数的下混合处理信息(DPI)来输出双声道信号。参考图5来解释下混合处理单元230的详细配置。

参考图5，下混合处理单元230A包括子带分解单元232A、双声道处理单元234A和子带合成单元236A。该子带分解单元232A通过分解下混合信号来生成一个或者两个子带信号。该双声道处理单元234A使用包含双声道参数的下混合处理信息(DPI)来处理一个或者两个子带信号。该子带合成单元236A通过合成一个或者两个子带信号来生成时域双声道输出信号。

参考图6，音频信号处理装置300包括多路分解器310和信息生成单元320。音频信号处理装置300可以进一步包括多声道解码器330。

多路分解器310从比特流中提取对象信息(OI)，并且能够从比特流中进一步提取下混合信号(DMX)。信息生成单元320使用对象信息(OI)和混合信息(MXI)来生成多声道信息(MI)。在该情况下，该多声道信息(MI)是用于对该下混合信号(DMX)进行上混合的信息，并且包括诸如声道水平信息和声道相关信息的空间参数。信息生成单元320使用从HRTF DB提取的HRTF参数来生成双声道参数。双声道参数是用于带来3D效果的参数，并且可以包括HRTF参数本身。双声道参数是非时变性值，并且可以具有动态特性。

如果下混合信号是单音信号，则多声道信息(MI)可以进一步包括增益信息(ADG)。在该情况下，增益信息(ADG)是用于调整下混合增益的参数，并且在控制用于特定对象的增益中是可使用的。在双声道输出的情况下，对对象进行上采样或者下采样是必要的。优选地使用增益信息(ADG)。如果多声道解码器330遵循MPS环绕标准，并且多声道信息(MI)需要根据MPEG环绕句法来进行配置，则能够通过设置‘bsArbitraryDownmix＝1’使用增益信息(ADG)。

如果下混合信号是立体声信号，则音频信号处理装置300可以进一步包括用于立体声下混合信号的左声道和右声道的重新摇摆的下混合处理单元(在该图中未示出)。但是，在双声道渲染中，左声道和右声道的交叉项可以通过HRTF参数的选择来生成。因此，在下混合处理单元(在该图中未示出)中的操作不是必需的。如果下混合信号是立体声，并且多声道信息(MI)遵循MPS环绕标准，则优选地设置为5-2-5配置模式。并且，优选地通过仅绕过左前声道和右前声道来进行输出。此外，可以以从右前和左前声道到右输出和左输出(总共四个参数设置)具有有效值而其余的值是零的方式来传送双声道参数。

多声道解码器330使用多声道信息(MI)和双声道参数从下混合信号生成双声道输出。具体地，该多声道解码器330能够通过将包括在多声道信息中的空间参数和双声道参数的组合应用于下混合信号来生成双声道输出。

在以上的描述中，解释了用于生成双声道输出的实施例。类似于第一实施例，如果经由下混合处理单元来直接生成双声道输出，则无需执行多声道解码器的复杂方案。因此，可以降低复杂度。类似于第二实施例，如果使用多声道解码器，则能够使用多声道解码器的功能。

3.独立对象的控制(卡拉OK模式/无伴奏合唱(cappella)模式)

在以下的描述中，解释用于通过接收单音下混合来控制独立对象或者背景对象的技术。

图7是根据用于控制独立对象的本发明的一个实施例的用于处理音频信号的装置的框图，并且图8是根据用于控制独立对象的本发明的另一个实施例的用于处理音频信号的装置的框图。

参考图7，音频信号编码装置400的多声道解码器410接收多个声道信号，并且然后生成单音下混合(DMXm)和多声道比特流。在该情况下，多个声道信号是多声道背景对象(MBO)。

例如，多声道背景对象(MBO)能够包括配置背景音乐的多个乐器信号。但是，无法知道包括多少源信号(例如，乐器信号)。并且，它们不可以按每个源信号来控制。虽然背景对象可以被下混合为立体声声道，但是本发明意在描述仅下混合为单音信号的背景对象。

对象编码器420通过下混合单音背景对象(DMXm)和至少一个对象信号(objN)来生成单音下混合(DMX)，并且还生成对象信息比特流。在该情况下，至少一个对象信号(或者基于对象的信号)是独立对象，并且可以被称作前景对象(FGO)。例如，如果背景对象是伴唱，则独立对象(FGO)可以与主唱信号相对应。当然，如果存在两个独立对象，则可以分别与歌手1的有声信号和歌手2的有声信号相对应。并且，对象编码器420能够进一步生成残差信息。

该对象编码器420能够在下混合单音背景对象(DMXm)和对象信号(objN)(即，独立对象)的过程中生成残差。该残差用于使解码器从下混合信号中提取独立对象(或者，背景对象)。

音频信号解码装置500的对象代码转换器510根据包括在混合信息(MXT)中的模式选择信息(MSI)来使用增强的对象信息(例如，残差)从下混合(DMX)中提取至少一个独立对象或者背景对象。

该模式选择信息(MSI)包括指示是否选择了用于控制背景对象和至少一个独立对象的模式的信息。另外，该模式选择信息(MSI)可以包括指示规定的模式与包括正常模式、用于控制背景对象的模式和用于控制至少一个独立对象的模式的模式中的哪一个相对应的信息。例如，如果背景对象是背景音乐，则用于控制背景对象的模式可以与‘无伴奏合唱模式’模式(或者独奏模式)相对应。例如，如果独立对象是有声的，则用于控制至少一个独立对象的模式可以与卡拉OK模式相对应。换句话说，该模式选择信息可以是指示是否选择了正常模式、‘无伴奏合唱模式’模式和卡拉OK模式中的一个的信息。另外，在‘无伴奏合唱模式’或者卡拉OK模式的情况下，可以进一步包括关于增益调整的信息。总之，如果模式选择信息(MSI)是‘无伴奏合唱模式’或者卡拉OK模式，则从下混合(DMX)中提取至少一个独立对象或者背景对象。在正常模式的情况下，该下混合信号可以经过旁路。

如果提取了独立对象，则该对象代码转换器510通过使用对象信息(OI)、混合信息(MI)等混合至少一个独立对象和背景对象来生成混合的单音下混合。在该情况下，该对象信息(OI)是从对象信息比特流中提取的信息，并且可以与在先前的描述中解释的相同。并且，混合信息(MXI)可以是用于调整对象增益和/或摇摆的信息。

同时，对象代码转换器510使用多声道比特流和/或对象信息比特流来生成多声道信息(MI)。可以提供该多声道信息(MI)来控制背景对象或者至少一个独立对象。在该情况下，该多声道信息可以包括用于控制背景对象的第一多声道信息和用于控制至少一个独立对象的第二多声道信息中的至少一个。

并且，多声道解码器520从使用多声道信息(MI)混合的单音下混合或者绕过的单音下混合来生成输出信号。

图8是用于独立对象生成的另一个实施例的示图。

参考图8，音频信号处理单元600接收单音下混合(DMX)。该音频信号处理装置600包括下混合处理单元610、多声道解码器620、OTN模块630和渲染单元640。

音频信号处理装置600根据模式选择信息(MSI)来确定是否将下混合信号输入到OTN模块630。在该情况下，该模式选择信息可以与参考图7描述的以前的模式选择信息相同。

如果根据该模式选择信息当前的模式是用于控制背景对象(MBO)或者至少一个独立对象(FGO)的模式，则允许将下混合信号输入到OTN模块630。如果根据模式选择信息，当前模式是正常模式，则该下混合信号绕过OTN模块530，而根据输出模式输入到下混合处理单元610或者多声道解码器620。在该情况下，输出模式与参考图1描述的输出模式信息(OM)相同，并且可以包括输出扬声器的数目。

在输出模式是单音/立体声/双声道输出模式的情况下，下混合处理单元610处理下混合。在该情况下，下混合处理单元610可以是起与参考图1/图2/图3描述的先前的下混合处理单元130/130A/130B相同作用的单元。

在输出模式是多声道模式的情况下，多声道解码器620从单音下混合(DMX)生成多声道输出。同样地，该多声道解码器620可以用作与参考图1描述的以前的多声道解码器140相同的单元。

同时，如果根据模式选择信息(MSI)将单音下混合信号输入到OTN模块630，则OTN模块630从下混合信号中提取单音背景对象(MBO)和至少一个独立对象信号(FGO)。在该情况下，OTN是一到n的缩写。如果存在一个独立对象信号，则OTN模块可以具有OTT(一到二)结构。如果存在两个独立对象信号，则该OTN模块可以具有OTT(一到三)结构。如果存在(N-1)个独立对象信号，则该OTN模块可以具有OTN结构。

该OTN模块630能够使用对象信息(OI)和增强的对象信息(EDI)。在该情况下，该增强的对象信息(EOI)可以是在下混合背景对象和独立对象的过程中生成的残差信号。

并且，渲染单元640通过使用混合信息(MXI)来渲染背景信息(MBO)和独立对象(FGO)来生成输出声道信号。在该情况下，混合信息(MXI)包括用于控制背景对象的信息和/或用于控制独立对象的信息。同时，可以基于对象信息(OI)和混合信息(MXI)来生成多声道信息(MI)。在该情况下，将输出声道信号输入到多声道解码器(在该图中未示出)，并且然后可以基于该多声道信息来进行上混合。

图9是根据用于处理增强的对象的本发明的第一实施例的用于处理音频信号的装置的框图，图10是根据用于处理增强的对象的本发明的第二实施例的用于处理音频信号的装置的框图，并且图11和图12是根据用于处理增强的对象的本发明的第三实施例的用于处理音频信号的装置的框图。

第一实施例涉及单音下混合和单音对象。第二实施例涉及单音下混合和立体声对象。并且，第三实施例涉及涵盖第一和第二实施例的两种情况的情况。

参考图9，音频信号编码装置700A的增强的对象信息编码器710从是单音信号的混合的音频信号生成增强的对象信息(EOP_x₁)和对象信号(obj_x₁)。在该情况下，由于一个信号使用两个信号来生成，所以增强的对象信息编码器710可以被实现为OTT(一到二)编码模块。在该情况下，增强的对象信息(EOP_x₁)可以是残差信号。并且，增强的对象信息编码器710生成与该OTT模块相对应的对象信息(OP_x₁)。

音频信号解码装置800A的增强的对象信息解码器810使用增强的对象信息(EOP_x₁)和混合的音频信号来生成与附加的重新混合数据相对应的输出信号(obj_x₁′)。

参考图10，音频信号编码装置700B包括第一增强的对象信息编码器710B和第二增强的对象信息编码器720B。并且，音频信号解码装置800B包括第一增强的对象信息解码器820B和第二增强的对象信息解码器810B。

第一增强的对象信息编码器710B通过将两个对象信号(obj_x₁，obj_x₂)合并在一起来生成合并的对象和第一增强的对象信息(EOP_L1)。在该情况下，两个对象信号可以包括立体声对象信号，即，对象的左声道信号和该对象的右声道信号。在生成合并的对象的过程中，生成第一对象信息(OP_L1)。

第二增强的对象信息编码器720B使用是单音信号的混合的音频信号和合并的对象来生成第二增强的对象信息(EOP_L0)和第二对象信息(OP_L0)。

因此，最后的信号通过以上的两个步骤来生成。由于第一和第二增强的对象信息编码器710B和720B的每一个从两个信号生成一个信号，所以它可以被实现为OTT(一到二)模块。

该音频信号解码装置800B执行与音频信号编码装置700B相反的过程。

具体地，第二增强的对象信息解码器810B使用第二增强的对象信息(EOP_L0)和混合的音频信号来生成合并的对象。在该情况下，可以进一步提取音频信号。

并且，第一增强的对象信息解码器820B使用第一增强的对象信息(EOP_L1)从合并的对象中生成两个对象(obj_x₁′，obj_x₂′)，其是附加的再混合数据。

图11和图12示出了第一和第二实施例的合并的结构。参考图11，如果根据在多声道编码器705C的5-1-5或者5-2-5树形结构的操作的存在或者不存来将增强的对象改变为单音或者立体声，则将下混合信号改变为单音信号或者立体声信号。

参考图11和图12，在增强的对象是单音信号的情况下，不操作第一增强的对象信息编码器710C和第一增强的信息解码器820C。元件的功能分别地与关于图10描述的相同名称的那些相同。

同时，在下混合信号是单音的情况下，第二增强的对象信息编码器720C和第二增强的信息解码器810C优选地分别作为OTT编码器和OTT解码器来进行操作。在下混合信号是立体声的情况下，第二增强的对象信息编码器720C和第二增强的信息解码器810C可以分别作为TIT编码器和TIT解码器来操作。

根据本发明，上述音频信号处理方法可以在记录程序的介质中被实现为计算机可读代码。计算机可读介质包括各种记录设备，其中存储计算机系统可读的数据。计算机可读的介质包括，例如，ROM、RAM、CD-ROM、磁带、软盘、光数据存储设备等，并且还包括载波型实施方式(例如，经由因特网的传输)。另外，将通过编码方法生成的比特流存储在计算机可读记录介质中，或者可以经由有线/无线通信网络进行传送。

工业实用性

因此，本发明适用于编码和解码音频信号。

虽然已经在此处参考本发明的优选实施例描述和说明了本发明，但是对于本领域技术人员来说显而易见的是，在不脱离本发明的精神和范围的情况下，可以在其中进行各种的修改和变化。因此，希望本发明涵盖落入所附权利要求和其等价物的范围内的本发明的修改和变化。

Claims

1.一种处理音频信号的方法，包括：

接收包括至少一个对象信号的下混合信号以及在生成所述下混合信号时提取的对象信息；

接收包括模式选择信息的混合信息，所述混合信息用于控制所述对象信号；以及

基于所述模式选择信息，使用所述下混合信号来生成立体声输出信号，或者从所述下混合信号中提取背景对象和至少一个独立对象，

其中，所述下混合信号与单音信号相对应，

其中，所述立体声输出信号与包括从去相关所述下混合信号所生成的信号的时域信号相对应，以及

其中，所述模式选择信息包括指示模式中的哪一个模式的信息，所述模式包括正常模式、用于控制所述背景对象的模式和用于控制所述至少一个独立对象的模式。

2.根据权利要求1所述的方法，进一步包括：接收增强的对象信息，其中，所述至少一个独立对象使用所述增强的对象信息来从所述下混合信号中进行提取。

3.根据权利要求2所述的方法，其中，所述增强的对象信息与残差信号相对应。

4.根据权利要求1所述的方法，其中，所述至少一个独立对象与基于对象的信号相对应，并且其中，所述背景对象与单音信号相对应。

5.根据权利要求1所述的方法，其中，如果所述模式选择模式与所述正常模式相对应，则生成所述立体声输出信号，并且其中，如果所述模式选择模式与所述用于控制所述背景对象的模式和所述用于控制所述至少一个独立对象的模式中的一个相对应，则提取所述背景对象和所述至少一个独立对象。

6.根据权利要求1所述的方法，进一步包括：如果从所述下混合信号中提取了所述背景对象和所述至少一个独立对象，则生成用于控制所述背景对象的第一多声道信息和用于控制所述至少一个独立对象的第二多声道信息中的至少一个。

7.一种用于处理音频信号的装置，包括：

多路分解器，所述多路分解器接收包括至少一个对象信号的下混合信号以及在生成所述下混合信号时提取的对象信息；以及

对象代码转换器，所述对象代码转换器基于包括在用于控制所述对象信号的混合信息中的模式选择信息，使用所述下混合信号来生成立体声输出信号，或者从所述下混合信号中提取背景对象和至少一个独立对象，

其中，所述下混合信号与单音信号相对应，

其中，所述立体声输出信号与包括通过去相关所述下混合信号所生成的信号的时域信号相对应，以及

8.根据权利要求7所述装置，其中，所述多路分解器进一步接收增强的对象信息，其中，所述至少一个独立对象使用所述增强的对象信息来从所述下混合信号中进行提取。

9.根据权利要求8所述的装置，其中，所述增强的对象信息与残差信号相对应。

10.根据权利要求7所述的装置，其中，所述至少一个独立对象与基于对象的信号相对应，并且其中，所述背景对象与单音信号相对应。

11.根据权利要求7所述的装置，其中，如果所述模式选择模式与所述正常模式相对应，则生成所述立体声输出信号，并且其中，如果所述模式选择模式与所述用于控制所述背景对象的模式和所述用于控制所述至少一个独立对象的模式中的一个相对应，则提取所述背景对象和所述至少一个独立对象。

12.根据权利要求7所述的装置，其中，如果从所述下混合信号中提取了所述背景对象和所述至少一个独立对象，则所述对象代码转换器生成用于控制所述背景对象的第一多声道信息和用于控制所述至少一个独立对象的第二多声道信息中的至少一个。

13.一种包括存储在其中的程序的计算机可读记录介质，所述程序被提供用于执行处理音频信号的方法，所述方法包括：

其中，所述下混合信号与单音信号相对应，