CN103026406A

CN103026406A - 用于对已解码多通道音频信号或已解码立体声信号进行后处理的装置和方法

Info

Publication number: CN103026406A
Application number: CN201080022195XA
Authority: CN
Inventors: 大卫·维雷特; 郎玥; 苗磊; 吴文海
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2010-09-28
Filing date: 2010-09-28
Publication date: 2013-04-03
Anticipated expiration: 2030-09-28
Also published as: US20130236022A1; EP2609589A4; ES2585587T3; CN103026406B; KR20130086221A; EP2609589B1; WO2012040897A1; KR101429564B1; EP2609589A1; US9293145B2

Abstract

用于对已解码多声道音频信号或已解码立体声信号进行后处理的装置和方法根据本发明，介绍了一种用于对多声道信号的多个声道信号当中的至少一个进行后处理的装置(101，101’)，要接受后处理的声道信号由低比特率音频编码/解码系统从已解码下混信号生成；该装置包括：一个接收器(103；103’)，用于接收从已解码下混信号生成的至少一个声道信号、已解码下混信号的时间包络以及指示至少一个声道信号的瞬态类型的分类指示，其中所述分类指示与至少一个声道信号相关；以及一个后处理器(105；105’)，用于根据已解码下混信号的时间包络(通过相应的加权因子以依赖于分类指示的方式进行加权)对至少一个声道信号进行后处理。

Description

用于对已解码多通道音频信号或已解码立体声信号进行后处理的装置和方法

技术领域

本发明涉及与已解码多通道音频信号和已解码立体声音频信号的后处理，已解码立体声音频信号的后处理代表对已解码多声道音频信号进行后处理的具体情况。

背景技术

在传统的语音编解码器中，通常会对语音信号进行分类，以提高语音信号的编码效率。在解码器中，会根据所传输的语音信号的分类使用不同类型的语音处理工具。

其中一个分类是区分正常语音信号和瞬态语音信号。瞬态信号是短时信号，其特点是信号功率和信号幅度变化很快。瞬态信号相对于“正常”信号或非瞬态信号，“正常”信号或非瞬态信号是指持续时间较长的信号和/或信号功率和信号幅度变化很小的信号。这种分类不仅适用于语音信号，也适用于一般的音频信号。

对于瞬态信号，一种常用方法是在编码器中提取输入信号的时间包络，然后传输所提取的时间包络并在解码器中对其进行后处理。

对于立体声信号，这种后处理通常是必须的，但常常会不够比特来编码两个声道的时间包络。

参考引文[1]，低比特率立体声编码以提取和量化立体声声像的参数表示为基础。然后，这些参数会被作为边信息与由核心编码器编码的单声道下混信号一起传输。在解码器中，可以根据单声道下混信号和边信息(即，包含立体声信号的空间[左侧和右侧]信息的立体声参数)重新构建立体声信号。

对于立体声编解码器，如果单声道下混信号被归类为瞬态信号，则重新构建的立体声信号中可能会有预回声膺象。进行后处理可以提高两个声道都是瞬态声道或只有一个声道是瞬态声道的信号的质量。但对于参数立体声编解码器，通常会不够比特来编码两个声道的时间包络。

根据引文[2]和[3]，单声道输入信号在编码器中被分类为瞬态信号和正常信号。然后，在解码器中，根据所传输的分类信息，会使用时标合成算法来提高质量。上述各种算法都适用于单声道下混信号。

可用于传输信号的带宽受限这个问题不仅在传输立体声语音信号或音频信号时会遇到，而且是传输多声道音频信号时会遇到的一个常见问题，立体声音频编码代表多声道音频编码的具体情况。

发明内容

本发明实施例提供了一种多入多出信号的检测方法和装置，用于在与并行干扰抵消法的计算复杂度保持同一量级的情况下，误码率性能优于并行干扰抵消法，并对降秩的MIMO信号进行解调的误码率性能优于并行干扰抵消法。

本发明的目的是提供一种更好的低比特率参数多声道编码方法或参数立体声编码方法，以便以高带宽效率方式减少瞬态音频信号中的预回声失真。

根据第一方面，建议使用一种适用于对由低比特率音频编码系统处理的已解码立体声信号进行后处理的装置，其中所述装置包含一个接收器和一个后处理器。该装置用于对以下信号进行后处理：立体声信号的左声道信号和右声道信号当中的至少一个，正由低比特率音频编码/解码系统从已解码下混信号生成的左声道信号和右声道信号，以及代表立体声信号的下混信号或已解码下混信号。接收器可用于接收立体声信号的左声道信号和右声道信号、正从已解码下混信号生成的左声道信号和右声道信号、已解码下混信号的时间包络以及指示立体声信号的瞬态类型的分类指示。后处理器可用于根据已解码下混信号的时间包络(通过相应的加权因子以依赖于分类指示的方式进行加权)对左声道信号和右声道信号当中的至少一个进行后处理。

根据分类指示，可以有选择性地决定要对哪个或哪些左声道信号和右声道信号进行后处理。可以通过已解码下混信号的加权时间包络的方式进行后处理，而已解码下混信号可以通过加权因子进行加权。

如果是进行立体声音频编码，下混信号又可称为单声道下混信号或单声道信号，这种信号可以在编码器中从左声道信号和右声道信号生成。生成的已编码下混信号可以通过音频声道传输(但一般是通过传输链路)传输到装置以进行后处理。这种用于进行后处理的装置可以是解码器的一个组成部分。另外，编码器中可以有一个瞬态检测模型或实体，用于针对后处理为装置提供指示，以指示下混信号是不是瞬态信号。特别是，如果下混信号被瞬态检测模型归类为瞬态信号，则可以提取下混信号的时间包络并将其传输到解码器，该解码器可以带有所述用于进行后处理的装置。

根据第一方面的第一种实施形式，该装置还可以带有用于决定要对哪个或哪些左声道信号和右声道信号进行后处理的判定器。判定器可以根据指示立体声信号的瞬态类型的分类指示做出决定。

根据第一方面的第二种实施形式，该装置还可以带有用于决定要对哪个或哪些左声道信号和右声道信号进行后处理的判定器，该判定器可以根据指示立体声信号的瞬态类型的分类指示和指示已解码下混信号的瞬态类型的分类指示做出决定。指示立体声信号的瞬态类型的分类指示和指示已解码下混信号的瞬态类型的分类指示可以由编码器提供。

除了这两个分类指示，判定器还可以接收并使用声道间电平差(CLD)及其它立体声参数。CLD及其它立体声参数可以由编码器提供。

根据第一方面的第三种实施形式，该装置还可以带有用于决定要对哪个或哪些左声道信号和右声道信号进行后处理的判定器，该判定器可以根据指示立体声信号的瞬态类型的分类指示做出决定，其中所述判定器在分类指示指示立体声信号的非瞬态类型的情况下可以决定要对左声道信号和右声道信号进行后处理。

因此，如果下混信号是瞬态信号，而立体声信号是非瞬态信号，那么，左声道信号和右声道信号都可以进行后处理。如果是对左声道信号和右声道信号都进行后处理，则可以使用已解码下混信号的时间包络(又称为单声道时间包络)；已解码下混信号通过不同的加权因子进行加权，而用于各个声道信号的加权因子又称为特定于声道信号的加权因子。

根据第一方面的第四种实施形式，该装置还可以带有用于决定要对哪个或哪些左声道信号和右声道信号进行后处理的判定器，该判定器可以根据指示立体声信号的瞬态类型的分类指示做出决定，其中所述判定器在分类指示指示立体声信号的非瞬态类型的情况下可以决定要对哪一个(唯一一个)左声道信号和右声道信号进行后处理。

根据第一方面的第五种实施形式，该装置还可以带有用于决定要对哪个或哪些左声道信号和右声道信号进行后处理的判定器，该判定器可以根据指示立体声信号的瞬态类型的分类指示做出决定，其中所述判定器在分类指示指示立体声信号的非瞬态类型的情况下可以决定要对其中一个信号能量较高的左声道信号和右声道信号进行后处理。

根据第一方面的第六种实施形式，后处理器还可以带有第一后处理实体，该实体可以使用接收到的已解码下混信号(通过第一加权因子加权)的时间包络来对左声道信号进行后处理。

根据第一方面的第七种实施形式，后处理器还可以带有第二后处理实体，该实体可以使用接收到的已解码下混信号(通过第二加权因子加权)的时间包络来对右声道信号进行后处理。

根据第一方面的第八种实施形式，该装置还可以带有一个判定器、第一后处理实体和第二后处理实体。该判定器可以决定要对哪个或哪些左声道信号和右声道信号进行后处理，可以根据分类指示做出决定。第一后处理实体可以使用接收到的已解码下混信号(通过第一加权因子加权)的时间包络来对左声道信号进行后处理。第二后处理实体可以使用接收到的已解码下混信号(通过第二加权因子加权)的时间包络来对右声道信号进行后处理。判定器可用于控制第一后处理实体和第二后处理实体。

根据第一方面的第九种实施形式，该装置还可以带有一个判定器、第一后处理实体和第二后处理实体。该判定器可以决定要对哪个或哪些左声道信号和右声道信号进行后处理，可以根据分类指示做出决定。第一后处理实体可以使用接收到的已解码下混信号(通过第一加权因子加权)的时间包络来对左声道信号进行后处理。第二后处理实体可以使用接收到的已解码下混信号(通过第二加权因子加权)的时间包络来对右声道信号进行后处理。判定器可用于根据接收到的立体声信号的左声道信号和右声道信号的声道间电平差(CLD)或者根据接收到的其它参数或信息计算第一加权因子和第二加权因子。CLD或其它参数/信息可以由编码器提供。这些其它参数可以是与左声道信号和右声道信号相关的(即，不与CLD相关的)其它能量指标，甚至可以是特定于声道的加权因子。

根据第一方面的第十种实施形式，该装置还可以带有一个判定器、第一后处理实体和第二后处理实体。该判定器可以决定要对哪个或哪些左声道信号和右声道信号进行后处理，可以根据分类指示做出决定。第一后处理实体可以使用接收到的已解码下混信号(通过第一加权因子加权)的时间包络来对左声道信号进行后处理。第二后处理实体可以使用接收到的已解码下混信号(通过第二加权因子加权)的时间包络来对右声道信号进行后处理。判定器可以用

计算第一加权因子，用

计算第二加权因子，其中所述

c = 10^{\frac{cld}{20}},

cld = \frac{1}{N} Σ_{b = 0}^{b = N} CLD [b],

且

CLD [b] = 10 \log_{10} \frac{Σ_{k = k_{b}}^{k_{b + 1} - 1} X_{1} [k] X_{1}^{*} [k]}{Σ_{k = k b}^{k_{b + 1} - 1} X_{2} [k] X_{2}^{*} [k]} .

详细来说，可以通过使用以下方程式在编码器中从左声道信号和右声道信号提取声道间电平差(CLD)：

CLD [b] = 10 \log_{10} \frac{Σ_{k = k_{b}}^{k_{b + 1} - 1} X_{1} [k] X_{1}^{*} [k]}{Σ_{k = k_{b}}^{k_{b + 1} - 1} X_{2} [k] X_{2}^{*} [k]} - - - (1)

其中，k是频率窗口指数，b是频带指数，kb是频带b的起始窗口，X1和X2分别是左声道和右声道的频谱。

另外，可以根据在编码器中监控的CLD生成立体声分类指示。如果检测到两个连续的帧之间CLD变化很快，可以将立体声信号归类为立体声瞬态信号。

另外，如果根据方程式(1)解码后的CLD大于0，则表示左声道的能量高于右声道的能量。可以根据从编码器接收到的CLD计算该装置在解码器中应用于单声道时间包络的加权因子，具体如下：首先计算CLD的平均值

cld = \frac{1}{N} Σ_{b = 0}^{b = N} CLD [b] - - - (2)

接着计算c

c = 10^{\frac{cld}{20}} - - - (3)

最后，计算左声道信号的加权因子aleft和右声道信号的加权因子aright。

a_{left} = \frac{2 c}{1 + c} - - - (4)

和

a_{right} = \frac{2}{1 + c} - - - (5)

在把来自单声道解码过程的时间包络应用到左声道和右声道之前，可以用时间包络乘以计算出的对应加权因子。

根据第一方面的第十一种实施形式，如果分类指示指示立体声信号的非瞬态类型，可以将后处理器配置为能够使用已解码下混信号的相应加权时间包络来对左声道信号和右声道信号进行后处理。

根据第一方面的第十二种实施形式，分类指示指示，如果立体声信号的右声道信号的能量与左声道信号的能量之间的关系随时间的变化情况超过预定的阈值，则立体声信号是立体声瞬态信号。

根据第一方面的第十三种实施形式，分类指示指示，如果立体声信号的右声道信号与左声道信号之间的声道间电平差(CLD)随时间的变化情况超过预定的阈值，则立体声信号是立体声瞬态信号。

根据第一方面的第十四种实施形式，另一个分类指示，如果下混信号的能量随时间的变化情况超过预定的阈值，则下混信号是瞬态下混信号。如果下混信号是单声道下混信号，在下混信号的能量随时间的变化情况超过预定的阈值的情况下，下混信号又可以称为单声道瞬态下混信号。

第一方面的任何实施形式都可以与它的任何其它实施形式结合起来，以形成新的实施形式。

根据第二方面，建议使用适用于解码由低比特率编码系统从立体声信号处理的下混信号的解码器；如果立体声信号是瞬态信号，或者如果下混信号和立体声信号是瞬态信号，则该解码器带有一个用于解码通过音频声道接收的下混信号以及一个用于对已解码下混信号进行后处理的上述装置。

根据第二方面的第一种实施形式，该解码器可以带有一个升频混频器，该升频混频器用于根据下混信号以及与下混信号相关的空间音频参数生成左声道信号和右声道信号。

解码器可以是任何解码装置。另外，后处理器可以是任何后处理装置。另外，升频混频器可以是任何升频混频装置。

这些装置(即，解码器、接收器、后处理器和升频混频器)可以在硬件或软件中实施。如果上述装置是在硬件中实施，可以具体表现为设备(例如计算机或处理器)或系统(例如计算机系统)的一部分。如果上述装置是在软件中实施，可以具体表现为计算机程序产品、功能、例程、程序代码或可执行对象。

根据第三方面，建议使用一种用于对由低比特率音频编码系统处理的已解码立体声信号进行后处理的方法。该方法用于对以下信号进行后处理：立体声信号的左声道信号和右声道信号当中的至少一个，以及正由低比特率音频编码/解码系统从已解码下混信号生成的左声道信号和右声道信号。该方法包括以下两个步骤：接收立体声信号的左声道信号和右声道信号、正从已解码下混信号生成的的左声道信号和右声道信号、已解码下混信号的时间包络以及指示立体声信号的瞬态类型的分类指示；根据已解码下混信号的时间包络(通过相应的加权因子以依赖于分类指示的方式进行加权)对左声道信号和右声道信号当中的至少一个进行后处理。

根据第四方面，提供了一种用于对多声道信号的多个声道信号当中的至少一个进行后处理的装置，要接受后处理的声道信号由低比特率音频编码/解码系统从已解码下混信号生成。该装置包括一个接收器和一个后处理器。该接收器可用于接收从已解码下混信号生成的至少一个声道信号、已解码下混信号的时间包络以及指示至少一个声道信号的瞬态类型的分类指示，该分类指示与至少一个声道信号相关。该后处理器可用于根据已解码下混信号的时间包络(通过相应的加权因子以依赖于分类指示的方式进行加权)对至少一个声道信号进行后处理。

可以对带有两个以上声道信号的多声道信号进行降混，以使该多声道信号可仅由一个下混信号表示，且对应的空间音频参数集可以重新构建来自该下混信号的多个声道信号。该下混信号又称为单声道下混信号。换句话说，对于单声道下混信号，会将(举例)带有五个声道信号(即，前声道信号、左声道信号、右声道信号、左后声道信号和右后声道信号)的多声道信号降混为一个单声道下混信号。将立体声信号降混为一个下混信号是多声道信号的单声道降混的一种特殊情况。

但是，可以对带有两个以上声道信号(即，M＞＝2)的多声道信号进行降混，以使该多声道信号可以由两个或更多个(但数量通常小于M)下混信号表示，且对应的空间音频参数集可以重新构建来自这些下混信号的多个声道信号。每个下混信号都源自多声道信号的多个声道信号当中的至少两个。如果来自左侧信号和中央信号(例如，排列在左侧和右侧之间的中心位置的前声道信号)的声道信号被用于获得第一下混信号，且来自右侧信号和中央信号的声道信号被用于获得第二下混信号，那么，第一和第二下混信号都称为立体声下混信号，即，左立体声下混信号和右立体声下混信号。换句话说，对于下混信号，会将(举例)带有五个声道信号(即，前声道信号、左声道信号、右声道信号、左后声道信号和右后声道信号)的多声道信号降混为一个左立体声下混信号和一个右立体声下混信号。降混为多个下混信号不仅限于立体声下混信号，而且可以包括任何数量的从多声道信号的任何多声道信号组合生成的下混信号。因此，对应的下混信号又可称为第一下混声道信号、第二下混声道信号，依此类推，这些下混声道信号共同形成整个下混信号。

根据第四方面的第一种实施形式，该装置将用于参数多声道音频解码器中。

根据第四方面的第二种实施形式，会使用与降混信号相关的参数边信息从下混信号的已解码形式和升混形式生成多个多声道信号。

根据第四方面的第三种实施形式，该装置还包括一个用于决定要对这些声道信号当中的哪个或哪些进行后处理的判定器，该判定器可以根据指示相应声道信号的瞬态类型的分类指示做出决定。

根据第四方面的第四种实施形式，判定器可用于为每个这些声道信号或至少为这些声道信号的每个子集接收与相应声道信号相关的分类指示。因此，这种分类指示又可称为特定于声道的分类指示。

根据第四方面的第五种实施形式，分类指示指示，如果声道信号的能量与参考信号之间的关系随时间的变化情况超过预定的阈值，则声道是瞬态声道。

根据第四方面的第六种实施形式，分类指示指示，如果相应声道信号与参考信号之间的声道间电平差(CLD)随时间的变化情况超过预定的阈值，则声道是瞬态声道。

根据第四方面的第七种实施形式，用于确定声道分类指示和/或CLD的参考信号是降混信号、多个声道信号当中的其中一个或源自至少一个声道信号的信号。

由于声道信号的分类指示、下混信号的分类指示和其它编码参数(例如CLD)是在编码器侧确定的，目的是确定多声道信号的时空特征以及在解码器中通过单声道下混信号重新构建多声道信号的各个声道信号，因此，声道信号的分类指示、下混信号的分类指示和其它编码参数不仅(在编码之前)指示原始声道信号的特征以及这些声道信号之间的关系，还指示重新构建的声道信号各自的特征以及这些声道信号之间的关系。

根据第四方面的第八种实施形式，判定器可以为每个这些声道信号接收与相应声道信号相关的特定于声道的声道间电平差CLDm。

根据第四方面的第九种实施形式，该装置包括一个用于决定要对这些声道信号当中的哪个或哪些进行后处理的判定器，该判定器可以根据指示声道信号的瞬态类型的分类指示和指示下混信号的瞬态类型的分类指示决定是否对某个声道进行后处理。

根据第四方面的第十种实施形式，另一个分类指示，如果下混信号的能量随时间的变化情况超过预定的阈值，则下混信号是瞬态下混信号。

根据第四方面的第十一种实施形式，判定器可以决定，如果另一个分类指示指示下混信号不是瞬态下混信号，则不对任何声道信号进行后处理。

根据第四方面的第十二种实施形式，如果另一个分类指示指示下混信号是瞬态下混信号，且与至少一个多声道信号相关的特定于声道的分类指示指示至少有一条声道不是瞬态声道，则可以将判定器配置为能够控制后处理器对至少一个声道信号进行后处理。

根据第四方面的第十三种实施形式，如果另一个分类指示指示下混信号是瞬态下混信号，与至少一个多声道信号相关的特定于声道的分类指示指示至少一个声道信号是瞬态声道信号，且至少一个声道信号的能量指标或其它指标大于对应的参考信号的能量指标或其它指标，则可以将判定器配置为能够控制后处理器对至少一个声道信号进行后处理。

根据第四方面的第十四种实施形式，如果另一个分类指示指示下混信号是瞬态下混信号，与至少一个多声道信号相关的特定于声道的分类指示指示至少一个声道信号是瞬态声道信号，且参考信号与至少一个声道信号之间的特定于声道的声道间电平差CLDm小于预定的阈值，则可以将判定器配置为能够控制后处理器对至少一个声道信号进行后处理。

根据第四方面的第十五种实施形式，如果另一个分类指示指示下混信号是瞬态下混信号，与至少一个多声道信号相关的特定于声道的分类指示指示至少一个声道信号是瞬态声道信号，且至少一个声道信号与参考信号之间的特定于声道的声道间电平差CLDm大于预定的阈值，则可以将判定器配置为能够控制后处理器对至少一个声道信号进行后处理。

根据第四方面的第十六种实施形式，如果另一个分类指示指示下混信号是瞬态下混信号，与至少一个多声道信号相关的特定于声道的分类指示指示至少一个声道信号是瞬态声道信号，且至少一个声道信号的能量指标小于对应的参考信号的能量指标，则可以将判定器配置为能够控制后处理器不对至少一个声道信号进行后处理。

根据第四方面的第十七种实施形式，如果另一个分类指示指示下混信号是瞬态下混信号，与至少一个多声道信号相关的特定于声道的分类指示指示至少一个声道信号是瞬态声道信号，且参考信号与至少一个声道信号之间的特定于声道的声道间电平差CLDm大于预定的阈值，则可以将判定器配置为能够控制后处理器不(使用加权时间包络)对至少一个声道信号进行后处理。

根据第四方面的第十八种实施形式，如果另一个分类指示指示下混信号是瞬态下混信号，与至少一个多声道信号相关的特定于声道的分类指示指示至少一个声道信号是瞬态声道信号，且至少一个声道信号与参考信号之间的特定于声道的声道间电平差CLDm小于预定的阈值，则可以将判定器配置为能够控制后处理器不(使用加权时间包络)对至少一个声道信号进行后处理。

根据第四方面的第十九种实施形式，判定器可以确定特定于声道的加权因子，将会根据接收到的至少一个声道信号与参考信号之间的声道间电平差CLDm，使用该加权因子对下混信号的时间包络进行加权，以便对至少一个声道信号进行后处理。

根据第四方面的第二十种实施形式，判定器可以确定特定于声道的加权因子am，

其中c通过方程式

确定，其中acldm通过方程式

确定，其中CLDm[b]通过方程式

{CLD}_{m} [b] = 10 \log_{10} \frac{Σ_{k = k_{b}}^{k_{b + 1} - 1} X_{ref} [k] X_{ref}^{*} [k]}{Σ_{k = k_{b}}^{k_{b + 1} - 1} X_{m} [k] X_{m}^{*} [k]}

确定，

其中m是声道指数，k是频率窗口指数，b是频带指数，kb是频带b的起始窗口，Xref是参考信号的频谱，Xm是多声道信号的每个声道的频谱。

根据第四方面的第二十一种实施形式，多声道信号是立体声信号，该立体声信号包括第一声道信号和第二声道信号。

根据第四方面的第二十二种实施形式，多声道信号是立体声信号，其中，第一声道信号是该立体声信号的左声道信号，第二声道信号是该立体声信号的的右声道信号，反之亦然。

根据第四方面的第二十三种实施形式，多声道信号是立体声信号，该立体声信号包括第一声道信号和第二声道信号，而其中参考信号是该立体声信号的第一声道信号、第二声道信号或下混信号。

第四方面的任何实施形式都可以与它的任何其它实施形式结合起来，以形成新的实施形式。

根据第五方面，提供了一种用于解码参数多声道音频的解码器，该解码器包括一个下混解码器、一个升频混频器以及一个根据第四方面的任何一种实施形式的装置。下混解码器可用于接收代表多声道信号的已编码下混信号，以及解码已编码下混信号来生成已解码下混信号。升频混频器可用于接收来自下混解码器的已解码下混信号以及与已解码下混信号相关的多声道参数，还可用于生成经过升混的已解码下混信号——这种下混信号形成多声道信号。

根据第五方面的第一种实施形式，下混解码器还包括一个分用器，该分用器可用于接收复用音频信号以及从复用音频信号提取已编码下混信号和多声道参数，其中，多声道参数包括适用于至少一个声道信号的至少一个分类指示。

根据第五方面的第二种实施形式，该分用器可用于为每个声道信号提取特定于声道的分类指示，这种分类指示指示相应声道信号的瞬态类型。

根据第五方面的第三种实施形式，下混解码器还可用于从已编码下混信号提取下混分类指示，这种分类指示指示下混信号(例如，已解码下混信号)的瞬态类型和时间包络。

根据第五方面的第四种实施形式，对于多个声道信号当中的每个声道信号，或对于多个声道信号的子集的至少一个声道信号，多声道参数包括一个与相应声道相关的特定于声道的声道间电平差。

第五方面的任何实施形式都可以与它的任何其它实施形式结合起来，以形成新的实施形式。

根据第六方面，提供了一种用于对多声道信号的多个声道信号当中的至少一个进行后处理的方法，要接受后处理的声道信号由低比特率音频编码/解码系统从已解码下混信号生成。该方法包括以下步骤：接收从已解码下混信号生成的至少一个声道信号、已解码下混信号的时间包络以及指示至少一个声道信号的瞬态类型的分类指示，该分类指示与至少一个声道信号相关。根据已解码下混信号的时间包络(通过相应的加权因子以依赖于分类指示的方式进行加权)对至少一个声道信号进行后处理。根据第四和第五方面所述的实施形式同时也描述了第六方面的对应实施形式。

根据第七方面，本发明涉及一种计算机程序，该计算机程序包括一种程序代码，当在至少一台计算机上运行时，这种程序代码用于执行以下方法：用于对已解码多声道信号进行后处理的方法，或用于根据第三或第六方面的任何一种实施形式对由低比特率音频编码系统处理的已解码立体声信号进行后处理的方法。

如本领域技术人员所知，各个装置(即，解码器、接收器、判定器、后处理器和后处理实体)是功能实体，可以在硬件、软件或这两者的组合中实施。如果上述装置是在硬件中实施，可以具体表现为设备(例如计算机或处理器)或系统(例如计算机系统)的一部分。如果上述装置是在软件中实施，可以具体表现为计算机程序产品、功能、例程、程序代码或可执行对象。

第四至第六方面的立体声实施形式形成了一种具体的多声道编码/解码实施形式，因为立体声信号只包括两个声道信号(M＝2)，即左声道信号和右声道信号，而多声道信号可以包括两个或多个声道信号(M＞＝2)。

第一至第三方面的立体声实施形式又可以被认为是根据第四至第六方面的立体声/多声道立体声实施形式的进一步发展，这种立体声实施形式使用其中一个声道信号(即，立体声信号的左声道信号或右声道信号)作为参考信号来确定其它声道信号的声道瞬态类型(而不是使用下混信号作为参考信号)。第一至第三方面的立体声实施形式进一步利用这样一个事实：由于立体声信号只包括两个声道信号，因此，根据这两个声道信号当中的一个为另一个确定的“声道瞬态分类指示”(和CLDm)包括参考声道信号的瞬态信息(或能量信息)。因此，立体声瞬态分类可被看作是具体的(多声道信号的)声道瞬态分类情况，这种分类不仅与一个声道信号相关，而且与立体声信号的两个声道信号(左声道信号和右声道信号)相关。

第一至第三方面的实施形式还可以进一步减少传输立体声信息(尤其是瞬态信息和能量信息，例如CLD)所需的带宽，因为只需要传输一个立体声分类指示；而如果使用下混信号作为参考信号，则第四至第六方面的实施形式需要两个独立的声道分类指示(分别用于两个声道信号)。

再回到多声道信号的实施形式，如果使用其中一个声道信号作为参考信号，则只需要用于M-1个声道信号(M是形成多声道信号的声道信号的数量)的声道瞬态分类指示。参考信号本身的瞬态分类指示暗含在其它M-1个声道信号的声道瞬态分类指示中，且可以像根据第一至第三方面的立体声编码实施形式一样决定是否对参考声道信号进行后处理。相应地，可以根据其中一个M-1个声道瞬态分类或者根据下混信号的下混瞬态分类信息和其中一个M-1个声道瞬态分类来决定是否对参考声道信号进行后处理。

在替代实施形式中，可以像对下混信号一样对参考信号本身进行瞬态分类，即，类似下混瞬态分类，且不评估与其它信号之间的关系。

附图说明

将会结合下面各个图说明本发明的更多实施例，其中：

图1显示了一种用于对已解码立体声信号进行后处理的装置的一个实施例；

图2显示了一种解码器的第一实施例，该解码器包括一个用于对已解码立体声信号进行后处理的装置；

图3显示了一种可与图2所示的解码器连接起来的编码器的第一实施例；

图4显示了一种用于对已解码立体声信号进行后处理的方法的第一实施例；

图5显示了一种用于对已解码立体声信号进行后处理的方法的第二实施例；

图6显示了一种可与图7所示的解码器连接起来的编码器的第二实施例；

图7显示了一种解码器的第二实施例，该解码器包括一个用于对已解码立体声信号进行后处理的装置；

图8显示了一种用于对已解码立体声信号进行后处理的方法的第三实施例；

图9显示了一个说明包含一个瞬态声道信号和一个正常声道信号的原始立体声信号的图解；

图10显示了一个说明不会进行后处理的立体声输出信号的图解；

图11显示了一个说明两个声道信号都不会进行后处理的立体声输出信号的图解；

图12显示了一个说明只会对左声道信号(是瞬态信号)进行后处理的立体声输出信号的图解；

图13显示了一种用于对已解码多声道信号进行后处理的装置的一个实施例；

图14显示了一种解码器的第三实施例，该解码器包括一个用于对已解码多声道信号进行后处理的装置；

图15显示了一种可与图14所示的解码器连接起来的编码器的第三实施例；

图16显示了一种用于对已解码多声道信号进行后处理的方法的第一实施例；

图17显示了一种用于对已解码多声道信号进行后处理的方法的第二实施例。

具体实施方式

本发明实施例提供了一种多入多出信号的检测方法和装置，用于多入多出信号的检测方法和装置，用于在与并行干扰抵消法的计算复杂度保持同一量级的情况下，误码率性能优于并行干扰抵消法，并对降秩的MIMO信号进行解调的误码率性能优于并行干扰抵消法。

在图1中，说明了用于对由低比特率音频编码系统处理的已解码立体声信号进行后处理的装置101的一个实施例。装置101可用于对以下信号进行后处理：立体声信号的左声道信号和右声道信号当中的至少一个，以及正由低比特率音频编码/解码系统从已解码下混信号生成的左声道信号和右声道信号。如上所述，已编码和已解码的下混信号表现为立体声信号。

装置101包括一个接收器103和一个后处理器105。

接收器103可用于接收从已解码下混信号生成的左声道信号和右声道信号、已解码下混信号的时间包络以及指示立体声信号的瞬态类型的分类指示。

另外，后处理器105可用于根据已解码下混信号的加权时间包络和分类指示对左声道信号和右声道信号当中的至少一个进行后处理。详细来说，分类指示可以控制要对哪个声道信号进行后处理或者对两个声道信号都进行后处理。另外，已解码下混信号的加权时间包络可以作为用于对所选的一个或两个声道信号进行后处理的工具。

图2显示了解码器201的第一实施例。解码器201包括一个分用器203、一个单声道解码器205、一个升频混频器207和一个用于进行后处理的装置209。这个用于进行后处理的装置209包括一个判定器211、第一后处理实体213和第一后处理实体215。

分用器203提供接收到的下混信号217(例如，下混比特流217)和另一个信号219(例如，参数集219)，包括声道间电平差(CLD)和可能其它立体声参数。

单声道解码器205可用于接收下混信号217以及向升频混频器207和装置209提供已解码下混信号221。

升频混频器207接收已解码下混信号221和CLD信号219，以便输出左声道信号223和右声道信号225。

装置209的判定器211可用于接收信号231，(例如，参数集231)，包括已解码下混信号的时间包络和指示已解码下混信号的类型的分类指示。分类指示指示已解码下混信号是瞬态信号还是正常信号。装置209的判定器211还接收信号219。

判定器211可用于决定要对左声道信号223和右声道信号225当中的哪个或哪些进行后处理。尤其是，所述判定器211可以根据指示立体声信号的瞬态类型的分类指示做出决定。该分类指示可以包括在信号219中。另外，所述判定器211可用于通过第一控制信号227和第二控制信号229分别控制第一后处理实体213和第二后处理实体215。

第一后处理实体213可以使用接收到的已解码下混信号的时间包络231来对左声道信号223进行后处理，其中所述时间包络通过第一加权因子加权。

同样地，所述第二后处理实体215可以使用接收到的已解码下混信号的时间包络231来对右声道信号225进行后处理，其中所述时间包络通过第二加权因子加权。

为此，可以将判定器211配置为能够根据在立体声信号的左声道信号和右声道信号之间接收到的声道间电平差219计算第一加权因子和第二加权因子。

参照图2，图3显示了可与图2所示的解码器201连接起来的编码器301的第一实施例。图3所示的编码器301和图2所示的解码器201可以通过传输声道或任何其它通信链路(例如，有线或无线通信链路)连接起来。

编码器301包括一个降频混频器303、一个下混瞬态检测器305、一个编码实体307、一个提取器309、一个检测器311和一个复用器313。

降频混频器303接收立体声信号的左声道信号315和右声道信号317。降频混频器303输出下混信号319，该下混信号319提供给下混瞬态检测器305和编码实体307。

由于降频混频器会将左声道信号和右声道信号降混为一个单声道下混信号，因此，降频混频器303又可称为单声道降频混频器303，而下混瞬态检测器305又可称为单声道瞬态检测器305或单声道下混瞬态检测器。

单声道瞬态检测器305可以检测出单声道下混信号是不是瞬态信号，还可以输出指示单声道下混信号319是不是瞬态信号的分类指示325。该单声道瞬态检测器可以评估单声道下混信号的连续帧的能量，还可以检测出当两个连续的帧之间的单声道下混信号的能量变化情况超过预定的阈值时，单声道下混信号是瞬态信号。

由于对于这种检测会评估单声道下混信号本身(通常的说法是：下混信号本身)随时间的变化情况(而对于稍后所述的立体声瞬态分类和声道瞬态分类，则会评估左声道信号和右声道信号的能量变化情况)，因此，如果满足上述条件，即，两个连续的帧之间的单声道下混信号的能量变化情况超过预定的阈值，则这种瞬态分类又称为单声道瞬态分类(通常的说法是：下混瞬态分类)，单声道下混信号又称为单声道瞬态信号(通常的说法是：下混瞬态信号)。

因此，指示(单声道)下混信号(是单声道瞬态检测器305的输出)的瞬态类型的分类指示325又可称为单声道瞬态分类指示或指示单声道下混信号的单声道瞬态类型(即，单声道下混信号是不是单声道瞬态信号)的瞬态分类指示。

编码实体307输出已编码下混信号321(例如，已编码下混比特流321)和下混信号的时间包络323。如果单声道瞬态检测器检测出单声道下混信号是单声道瞬态信号，则该编码实体可用于提取单声道下混信号的时间包络。该编码实体可用于(举例)将整个帧分为四个子帧，计算每个子帧的能量，以及解码这四个子帧的能量平方根以表示下混信号的时间包络。

提取器309可用于从立体声信号提取CLD及其它立体声参数。从立体声信号提取的CLD及其它立体声参数可以通过比特流327传输。

另外，检测器311可用于进行立体声瞬态检测，以及输出指示立体声信号的瞬态类型的分类指示329。可以将该检测器配置为能够为立体声信号的连续帧计算左声道信号和右声道信号之间的声道间电平差(CLD)，以及能够在两个连续的帧之间的立体声信号(即，立体声信号的左声道信号和右声道信号之间)的CLD变化情况超过预定的阈值的情况下检测出立体声信号是瞬态信号。

由于对于这种检测会评估左声道信号和右声道信号(即，两个信号)的能量关系随时间的变化情况(而对于上述单声道瞬态分类或稍后所述的一般下混瞬态分类，只会评估一个信号的能量变化情况)，因此，如果满足上述条件，即，两个连续的帧之间的立体声信号的CLD变化情况超过预定的阈值，则这种瞬态分类又称为立体声瞬态分类，立体声信号又称为立体声瞬态信号。

因此，检测器311又可称为立体声瞬态检测器，而指示立体声信号的瞬态类型的分类指示329又可称为立体声瞬态分类指示或指示立体声信号的立体声瞬态类型(即，指示立体声信号是不是瞬态信号)的分类指示。

图4显示了一种用于对已解码立体声信号进行后处理的方法的第一实施例。该方法用于对以下信号进行后处理：立体声信号的左声道信号和右声道信号当中的至少一个，以及正由低比特率音频编码/解码系统从已解码下混信号生成的左声道信号和右声道信号。

在步骤401中，从已解码下混信号生成左声道信号和右声道信号，以及接收已解码下混信号的时间包络和指示立体声信号的瞬态类型的分类指示。

在步骤403中，根据已解码下混信号的时间包络(通过相应的加权因子以依赖于分类指示的方式进行加权)对左声道信号和右声道信号当中的至少一个进行后处理。

另外，图5显示了一种用于对已解码立体声信号进行后处理的方法的第二实施例。该方法用于对以下信号进行后处理：立体声信号的左声道信号和右声道信号当中的至少一个，以及正由低比特率音频编码/解码系统从已解码下混信号生成的左声道信号和右声道信号。

在步骤501中，会检查已解码下混信号是不是瞬态信号。

如果已解码下混信号不是瞬态信号，则在步骤503中只会更新内存，不会使用时间包络对左声道信号和右声道信号进行后处理。由于在左声道信号和右声道信号当中的一个或两个是瞬态信号的情况下单声道下混信号通常是瞬态信号，因此，可以做出如下假设：如果指示下混信号的瞬态类型的分类指示指示下混信号不是瞬态信号，即，单声道下混信号不是单声道瞬态信号，那么，左声道信号和右声道信号都不是瞬态信号，从而无需进行后处理。

如果已解码下混信号是瞬态信号，则接着执行步骤505。在步骤505中，会检查立体声信号是不是瞬态信号。

如果立体声信号不是瞬态信号，在步骤507中会使用已解码下混信号的加强时间包络对两个声道信号都进行后处理。立体声瞬态分类指示可被看作是一个指标，用于指示左声道信号和右声道信号的变化情况是否不同(即，它们随时间的进展情况是否不同)。由于会评估左声道信号和右声道信号之间的关系的变化情况(例如，根据CLD)，因此，如果这两个信号当中的其中一个是瞬态信号，或者这两个信号都是瞬态信号但表现形式不相同或不相似，例如，左声道信号和右声道信号的能量以不同的趋势(增加或减少)或按不同的量变化，则信号通常会被归类为立体声瞬态信号。将立体声信号归类为立体声瞬态信号所需的差异程度取决于所用的指标(例如能量)和预定的阈值。鉴于上述内容，如果下混信号是单声道瞬态信号(见步骤501)，且立体声信号不是立体声瞬态信号，则会假设左声道信号和右声道信号是类似的瞬态信号。因此，会使用相应的加权时间包络对这两个声道信号进行后处理，以提高这两个信号的质量。

如果立体声信号是瞬态信号，则接着执行步骤509。鉴于针对步骤505和507提供的说明，如果下混信号是单声道瞬态信号(见步骤501)，且立体声信号是立体声瞬态信号，则会假设只有一个声道信号(左声道信号或右声道信号)是瞬态信号。因此，只需要使用相应的加权时间包络对一个声道信号进行后处理，以提高该声道信号的质量。步骤509用于确定这两个声道信号当中的哪一个是要进行后处理的瞬态信号。

在步骤509中，会检查已解码CLD是否大于0。

如果已解码CLD大于0，则接着执行步骤511；否则，接着执行步骤513。

在步骤511中，会使用已解码下混信号的加权时间包络恢复左声道信号的时间包络。上面举例说明了如何计算用于对已解码下混信号的时间包络进行加权的加权因子。

在步骤513中，会使用已解码下混信号的加权时间包络恢复右声道信号的时间包络。

参考步骤509至513，由于左声道信号是用于计算CLD的参考信号(也就是说，是位于定义CLD的方程式(1)的分子位置的声道信号)，因此，如果左声道信号的能量大于右声道信号的能量，则已解码CLD大于0。由于瞬态信号的能量通常大于非瞬态信号的能量，因此，可以将CLD作为一个指标来确定这两个声道信号当中哪一个是瞬态声道信号。相应地，如果已解码CLD大于0，会假设左声道信号是瞬态声道信号，并会使用相应的加权时间包络对其进行后处理。如果已解码CLD小于0，则会假设右声道信号是瞬态声道信号，并会使用相应的加权时间包络对其进行后处理。

在其它实施例中，右声道信号可被用作参考信号，而其它指标可用于确定这两个信号当中的哪一个是瞬态信号。

图6显示了编码器601的第二实施例。编码器601可以与图7所示的解码器701连接起来。编码器601可以基于G.722/G.711.1 SWB单声道。

图6所示的编码器601包括一个降频混频器603、一个单声道编码器605、一个提取器607和一个检测器609。提取器607可用于提取CLD及其它立体声参数。检测器609可用于进行立体声瞬态检测。

单声道编码器605带有一个频带分离器611、一个高带单声道瞬态检测器613、一个高带编码器615和一个低带编码器617。

另外，编码器601带有一个复用器619。

降频混频器603接收左声道信号621和右声道信号623。降频混频器603会从左声道信号和右声道信号生成下混信号625。下混信号625会输入到单声道编码器605。

下混输入信号625将被频带分离器611(该分离器示范性地体现为QMF频带分离滤波器)分为一个高带信号和一个低带信号。这两个信号分别被用作低带编码器617和高带编码器615的输入。

高带单声道瞬态检测器613根据连续帧的高带时间信号的能量提供瞬态检测。会提取高带信号的时间包络，并将其与分类信息一起传输到解码器(见图7)。

例如，整个帧可分为四个子帧，且可以计算每个子帧的能量。可以解码这四个子帧的能量的平方根来表示时间包络。

通过使用上述方程式从左声道信号和右声道信号提取CLD。

另外，可以由立体声瞬态检测器609检测立体声瞬态信号。这种检测也可以基于CLD监控。如果检测到两个连续的帧之间CLD变化很快或有突变(例如，变化超过预定的阈值)，则可以将立体声信号归类为立体声瞬态信号。例如，可以按以下方式进行检测。在第一步中，在日志域中计算所有频带的CLD之和。在第一步中，计算之前N个帧的CLD之和的平均值。在第三步中，计算当前帧的CLD之和与之前N个帧的CLD之和的平均值之间的差值。

在第四步中，将计算出的差值与某个阈值作比较，以确定信号是不是瞬态立体声信号。所用的阈值可以从实验得出。

如上所述，图7显示了解码器701的第二实施例，该解码器可与图6所示的解码器601连接起来。

解码器701带有一个分用器703、一个SWB单声道解码器705、一个WB单声道解码器707、第一升频混频器709、第二升频混频器711和一个用于进行后处理的装置713。

这个用于进行后处理的装置713包括一个判定器715、第一后处理实体717和第二后处理实体719。

另外，解码器701带有用于输出已解码和经过后处理的左声道信号的第一正交镜像滤波器(QMF)721。

另外，解码器701带有用于输出已解码和经过后处理的右声道信号的第二正交镜像滤波器(QMF)723。

因此，可以分别重新构建低带立体声信号和高带立体声信号，如升频混频器709和711的输出所示，这些信号还可被用作QMF滤波器721和723的输入信号，以生成立体声输出信号。尤其是，立体声后处理算法仅适用于高带解码器。

图8显示了一种用于对已解码立体声信号进行后处理的方法的第三实施例。该方法用于对以下信号进行后处理：立体声信号的左声道信号和右声道信号当中的至少一个，以及正由低比特率音频编码/解码系统从已解码下混信号生成的左声道信号和右声道信号。相应地，参照图5提供的说明适用。

在步骤801中，会检查已解码下混信号是不是瞬态信号。如果已解码下混信号不是瞬态信号，则只会更新内存(如步骤803中所示)，而不会使用加权时间包络对左声道信号和右声道信号进行后处理。

如果当前帧的立体声信号是瞬态信号，或者如果上一帧的已解码下混信号是瞬态信号且上一帧的立体声信号是瞬态信号，那么，对在步骤805中进行的检查的答案是“是”。如果对在步骤805中进行的检查的答案是“否”，则接着执行步骤807。如果对在步骤805中进行的检查的答案是“是”，则接着执行步骤809。

在步骤807中，会使用已解码下混信号的加权时间包络对左声道信号和右声道信号进行后处理，因为会假设这两个声道信号都是瞬态信号。

对于根据图8的实施例，左声道信号也被用作参考信号(像在图5中一样)，而根据方程式(1)接收到的CLD用于确定这两个信号(左声道信号和右声道信号)当中的哪一个是瞬态信号。因此，在步骤809中，会检查已解码CLD是否大于0。

如果已解码CLD大于0，则接着执行步骤811；否则，接着执行步骤813。

在步骤811中，会使用已解码下混信号的加权时间包络恢复左声道信号的时间包络。上面举例说明了如何计算用于对已解码下混信号的时间包络进行加权的加权因子。

在步骤813中，会使用已解码下混信号的加权时间包络恢复右声道信号的时间包络。

概括来说，如果当前帧的立体声信号被归类为立体声瞬态信号，或者如果下混信号是瞬态信号，且上一帧的立体声信号被归类为立体声瞬态信号，则可能需要根据已解码CLD再作出决定。否则，可能会使用左声道信号和右声道信号的加权单声道时间包络分别对这两个声道信号进行后处理。

如果需要再作出决定，可以使用CLD。名为CLD_dq的参数可用于确定这两个声道信号之间的能量关系。可以使用上述方程式(2)将这种能量关系计算为所有高带CLD的平均值。另外，第一高带的CLD可用作CLD_dq。

如果只有一个声道信号是瞬态信号，则该声道信号的能量会大于另一个声道信号的能量。因此，能量信息可用于确定哪个声道信号是瞬态信号。

如果CLD_dq是正数，表示左声道信号的能量大于右声道信号的能量，因此只能使用加权单声道时间包络对左声道信号进行后处理。如果CLD_dq是负数，表示左声道信号的能量小于右声道信号的能量，因此只能使用加权单声道时间包络对右声道信号进行后处理。可以使用上述方程式(4)和(5)分别计算这两个声道信号的加权因子。

图9至图12所示的性能说明，根据本发明的实施情况，可以消除带有至少一个瞬态信号的立体声信号的预回声失真。图9至图12顶部的图表显示了左声道信号，底部的图表显示了右声道信号。对此，图9显示了一个说明带有一个瞬态声道信号(顶部图表)和一个正常声道信号(底部图表)的原始立体声信号的图解，图10显示了一个说明不会进行后处理的立体声输出信号的图解，图11显示了一个说明会对两个声道信号都进行后处理的立体声输出信号的图解，图12显示了一个说明只会对左声道信号(是瞬态信号)进行后处理的立体声输出信号的图解。

对于图10，如果不对重新构建的立体声信号进行后处理，则图10的圆圈中可能会出现明显的预回声失真。如果对两个声道信号都进行后处理，则右声道信号可能会出现噪声(见图11中的圆圈)。本算法可以在各种瞬态信号组合(即，左声道信号和右声道信号、只有左声道信号或只有右声道信号)中通过适用于这两个声道信号的重新构建的更好时间包络来改善这种情况。

在图13中，说明了用于对由低比特率音频编码系统处理的已解码多声道信号进行后处理的装置101’的一个实施例。装置101’可用于对多声道信号的多个声道信号当中的至少一个进行后处理，要接受后处理的声道信号由低比特率音频编码/解码系统从已解码下混信号生成。如上所述，已编码和已解码的下混信号表现为多声道信号。

装置101’包括一个接收器103’和一个后处理器105’。

接收器103’可用于接收多声道信号的M个声道信号当中的至少一个声道信号(要接收的声道信号从已解码下混信号生成)、已解码下混信号的时间包络以及指示至少一个声道信号的瞬态类型的分类指示。

另外，后处理器105’可用于根据已解码下混信号的加权时间包络和分类指示对至少一个声道信号进行后处理。分类指示可用于控制是否对至少一个声道信号进行后处理。另外，已解码下混信号的加权时间包络可以作为用于对所选的声道信号进行后处理的工具。

复数M大于1，即M＞1。在下文中，m被用作一个指数，用于说明M个声道信号当中的某个声道信号。

另一个实施例中可以包括一个接收器103’(可用于接收多声道信号的一些或全部声道信号，每个这些声道信号从已解码下混信号生成)、已解码下混信号的一个时间包络以及用于每个这些声道信号(或至少用于这些声道信号的每个子集)的分类指示；每个特定于声道的分类指示指示相应声道信号的瞬态类型。另一个实施例的后处理器105’可用于根据已解码下混信号的加权时间包络和分类指示对这些声道信号当中的至少一个进行后处理。分类指示可用于控制对哪个声道信号进行后处理。

根据另一个实施例，该装置还包括一个判定器。该判定器可用于接收分类指示，还可用于根据分类指示控制后处理器是否使用特定于声道的加权时间包络对至少一个声道信号进行后处理。

根据又一个实施例，该装置包括一个判定器，该判定器可用于接收上述分类指示和一个指示下混信号是不是瞬态信号的分类指示，还可用于根据这两个分类指示控制后处理器是否使用特定于声道的加权时间包络对至少一个声道信号进行后处理。

在一个替代实施例中，后处理器105’可用于接收已解码下混信号的时间包络和特定于声道的加权因子，还可用于通过将该时间包络和该特定于声道的加权因子相乘来生成加权时间包络。

该后处理器的实施例可以只包括一个后处理实体，该实体可用于对一个、多个或所有声道信号进行后处理。由判定器控制要对哪个声道信号进行后处理。其它实施例可以包括多个后处理实体，例如，对于每个声道信号，一个或多个专用的后处理实体可用于根据判定器的控制对多个声道信号进行后处理。

图14显示了解码器201’(即，用于参数多声道音频解码的解码器)的第三实施例。解码器201’包括一个分用器203’，一个下混解码器205’，一个升频混频器207’和一个用于进行后处理的装置209’。这个用于进行后处理的装置209’包括一个判定器211’、第一后处理实体213’和第二后处理实体215’。

分用器203’可用于接收包括下混信号和多声道参数的复用音频信号，还可用于分用接收到的信号(例如比特流)来输出接收到的下混信号217’(例如下混比特流217’)以及与接收到的下混信号217’相关的多声道音频编码参数219’。这些多声道音频编码参数包括用于以下混信号表示的多声道信号的每个声道信号的声道间电平差(CLD)，在下文中，特定于声道的声道间电平差以CLDm表示，其中，m表示用于指示多声道信号的M个声道信号当中的一个的声道指数。

下混解码器205’可用于接收已编码下混信号217’，以及向升频混频器207’和用于进行后处理的装置209’提供已解码下混信号221’。

升频混频器207’可用于接收已解码下混信号221’和特定于声道的声道间电平差CLDm，还可用于根据上述已解码下混信号221’和特定于声道的声道间电平差CLDm生成并输出多声道信号的M个声道信号(由两个典型的参考信号223’和225’表示)。信号线之间的点(通过参考号223’和225’进行引用)表示多声道信号可以包括多于M＝2个声道信号。

装置209’的判定器211’可用于接收信号231’，包括已解码下混信号的时间包络和指示已解码下混信号的瞬态类型的分类指示。分类指示指示已解码下混信号是瞬态信号还是正常信号(即，非瞬态信号)。装置209’的判定器211’还可用于接收特定于声道的CLDm和特定于声道的分类信息(见信号219)。

判定器211’可用于决定要对这M个声道信号(分别是223’和225)当中的哪个或哪些进行后处理。换句话说，判定器211’可用于决定是否不对任何声道信号进行后处理，是否对M个声道信号都进行后处理，或者是否只对声道信号的一个子集进行后处理。判定器211’可用于根据指示每个声道信号的瞬态类型的分类指示确定该声道信号是瞬态信号还是正常信号。该分类指示可以包括在信号219’中。另外，判定器211’可用于通过相应的控制信号控制后处理实体213’和215’。在图14中，显示了用于控制后处理实体213’的控制信号227’和用于控制后处理实体215’的控制信号229’。后处理实体213’可以使用接收到的已解码下混信号的时间包络231’来对声道信号223’进行后处理，其中所述时间包络通过与声道信号223’相关的特定于声道的加权因子加权。

同样地，后处理实体215’可以使用接收到的已解码下混信号的时间包络231’来对声道信号225’进行后处理，其中所述时间包络通过与该声道信号相关的特定于声道的加权因子加权。

判定器211’可用于根据接收到的相应声道间电平差CLDm 219’来计算或确定与声道信号223’相关的加权因子以及与声道信号225’相关的加权因子。

对于图14，图15显示了一个音频编码器(例如，参数多声道音频编码器301’，用于提供已编码的多声道音频信号供图14所示的解码器进行解码)的第三实施例。图14所示的编码器201’可以通过传输链路(例如，有线或无线通信链路)连接到图15所示的编码器301’。

编码器301’包括一个降频混频器303’、一个下混瞬态检测器305’、一个编码实体307’、一个提取器309’、一个检测器311’和一个复用器313’。

降频混频器303’接收多声道信号的M个声道信号。为简单起见，图15只显示了M个声道信号当中两个具代表性的声道信号(分别是声道信号315’和317’)。降频混频器303’还可用于生成并输出下混信号319’，下混信号319’将被提供给下混瞬态检测器305’和下混编码实体307’。可选地，如果下混信号被用作参考信号来确定声道信号的声道瞬态分类和/或声道信号的声道间电平差(CLD)，那么，还可以将下混信号提供给提取器309’和检测器311’。

下混瞬态检测器305’可以检测出下混信号是不是瞬态信号，还可以输出指示下混信号319’是不是瞬态信号的分类指示325’。该下混瞬态检测器可以评估下混信号的连续帧的能量，还可以检测出当两个连续的帧之间的下混信号的能量变化情况超过预定的阈值时，下混信号是瞬态信号。

由于对于这种检测会评估下混信号本身随时间的变化情况(而对于上述立体声瞬态分类或稍后所述的声道瞬态分类，只会评估两个信号的能量变化情况)，因此，如果满足上述条件，即，两个连续的帧之间的下混信号的能量变化情况超过预定的阈值，则这种瞬态分类又称为下混瞬态分类，下混信号又称为下混瞬态信号。

因此，指示下混信号(由下混瞬态检测器305’输出)的瞬态类型的分类指示325’又可称为下混瞬态分类指示或指示下混信号的下混瞬态类型(即，下混信号是不是下混瞬态信号)的瞬态分类指示。

编码实体307’会输出已编码下混信号321’和下混信号(例如，作为下混信号321’的一部分)的时间包络323’。只有在下混瞬态检测器检测出下混信号是下混瞬态信号的情况下，编码实体307’才可用于提取下混信号的时间包络。该编码实体可用于(举例)将整个帧分为四个子帧，计算每个子帧的能量，以及解码这四个子帧的能量平方根以表示下混信号的时间包络。

下混瞬态检测器305’会输出分类指示325’，该分类指示指示下混信号319’是不是下混瞬态信号，换句话说，指示下混信号319’是瞬态信号还是正常信号。像时间包络323’一样，分类指示305’会与下混信号一起(例如，作为下混信号的一部分)发送到解码器。

提取器309’可用于接收多声道信号的M个声道信号，以及为多声道信号的每个声道信号m从多声道信号提取特定于声道的声道间电平差CLDm及其它多声道音频编码参数。从多声道信号提取的CLDm及其它多声道音频编码参数将被作为边信息通过信号327’传输到解码器。

检测器311’可用于接收多声道信号的M个声道信号，为每个声道信号提供声道瞬态检测，以及为每个声道信号输出指示相应声道信号的瞬态类型的特定于声道的分类指示329’。

如果两个连续的帧之间与声道信号m相关的CLD(例如，在声道信号m与某个参考信号之间计算出的CLD)的变化情况超过预定的阈值，那么，检测器311’可用于为多声道的连续帧的每个声道信号m计算声道间电平差CLDm，还可用于检测出声道信号m是瞬态信号。该参考信号可以是多声道信号的下混信号、任何一个声道信号或源自至少一个声道信号的任何其它信号(例如，从声道信号的某个子集生成的额外下混信号)。

由于对于这种检测会评估实际声道信号m和参考信号(即，两个信号)之间的能量关系随时间的变化情况(而对于上述下混瞬态分类和单声道瞬态分类，则只会评估一个声道信号的能量变化情况)，因此，这种瞬态分类又称为声道瞬态分类，以便与单声道或下混瞬态分类和立体声瞬态分类区分开来。相应地，如果满足上述条件，即，两个连续的帧之间与声道信号m相关的CLDm的变化情况超过预定的阈值，声道信号又称为声道瞬态信号。

因此，检测器311又可称为声道瞬态检测器，而指示声道信号的瞬态类型的分类指示329又可称为声道瞬态分类指示或指示声道信号的声道瞬态类型(即，指示声道信号是不是瞬态信号)的分类指示。

根据一个实施例，下混瞬态检测器305’可用于控制(见305’至307’之间的箭头)编码实体307’，以使该编码实体仅在下混瞬态检测器305’检测出下混信号是下混瞬态信号的情况下才确定下混信号的时间包络323’。

在替代实施例中，编码实体307’可用于确定时间包络323’，而不管下混瞬态检测器是否检测出下混信号是下混瞬态信号。

图14和图15显示了用于单声道下混编码的实施例。因此，编码器(图15)包括一个单声道降频混频器303’(用于将多个声道信号降混为一个单声道下混信号319’)、一个单声道下混编码实体307’(用于编码单声道下混信号319’)和一个单声道瞬态检测器305’(用于检测单声道下混信号是不是单声道瞬态信号)。相应地，解码器(图14)包括一个单声道下混解码器205’(用于解码接收到的已编码单声道下混信号205’)和一个单声道升频混频器207’(用于从一个已解码单声道下混信号221’生成M个声道信号213’和215’)。

上述编码器和解码器的替代实施例可用于执行多下混或立体声下混编码，例如，可用于对某个多声道信号进行降混，以使该多声道信号可以由两个或多个(但数量通常小于M)下混信号表示，且相应的空间音频参数集能够重新构建来自多个下混信号的声道信号。每个下混信号都源自多声道信号的多个声道信号当中的至少两个。在此类实施例中，编码器包括一个降频混频器(用于将多个声道信号降混为两个或多个下混信号)、一个或多个下混编码实体(用于编码下混信号)以及一个或多个下混瞬态检测器(用于检测至少一个下混信号是不是下混瞬态信号)。相应地，解码器包括一个或多个下混解码器(用于解码接收到的已编码下混信号)、一个升频混频器207’(用于从两个或多个已解码下混信号生成M个声道信号213’和215’)以及一个判定器(用于评估至少一个下混信号是否被归类为下混瞬态信号)。

图16显示了一种用于对已解码多声道信号进行后处理的方法的第一实施例的流程图。这种后处理方法可用于对多声道信号的多个声道信号当中的至少一个进行后处理，要接受后处理的声道信号由低比特率音频编码/解码系统从已解码下混信号生成。如上所述，已编码和已解码的下混信号表现为多声道信号。该方法包括以下步骤：

接收从已解码下混信号生成的至少一个声道信号、已解码下混信号的时间包络以及指示至少一个声道信号的瞬态类型的分类指示，该分类指示与至少一个声道信号相关(步骤401’)。

根据已解码下混信号的时间包络(通过相应的加权因子以依赖于分类指示的方式进行加权)对至少一个声道信号进行后处理(步骤403’)。

图17显示了一种用于对已解码多声道信号进行后处理的方法的第二实施例的流程图，其中所述下混信号被用作参考信号。这种后处理方法可用于对多声道信号的多个声道信号当中的至少一个进行后处理，要接受后处理的声道信号由低比特率音频编码/解码系统从已解码下混信号生成。如上所述，已编码和已解码的下混信号表现为多声道信号。该方法包括以下步骤：

在步骤501’中，会检查下混信号是不是瞬态信号。

如果下混信号不是瞬态信号，则在步骤503’中只会更新内存，而不会使用下混信号的特定于声道的加权时间包络对任何多声道信号进行后处理。由于在生成下混信号的多声道信号的至少一个声道信号是瞬态信号的情况下，下混信号通常是瞬态信号，因此，可以做出如下假设：如果指示下混信号的瞬态类型的分类指示指示下混信号不是瞬态信号，即，下混信号不是下混瞬态信号，那么，任何一个声道信号都不是瞬态信号，从而无需进行后处理。

如果已解码下混信号是瞬态信号，则接着执行步骤505’。在步骤505’中，会检查声道信号m是不是瞬态信号。不管声道信号m的变化情况是否与参考信号的变化情况相同，也就是说，不管声道信号m和参考信号随时间的进展情况是否相同，都可以将声道瞬态分类指示看作为一个指标。由于会评估声道信号m和参考信号之间的关系的变化情况(例如，根据CLD)，因此，如果这两个信号当中的其中一个是瞬态信号，或者这两个信号都是瞬态信号但表现形式不相同或不相似，例如，声道信号m和参考信号的能量以不同的趋势(增加或减少)或按不同的量变化，则信号通常会被归类为声道瞬态信号。将声道信号归类为声道瞬态信号所需的差异程度取决于所用的指标(例如能量)和预定的阈值。鉴于上述内容，如果下混信号被归类为下混瞬态信号(见步骤501)，且声道信号不是声道瞬态信号，则可以假设声道信号m和参考信号是类似的瞬态信号。

因此，如果声道信号m不是声道瞬态信号，则接着执行步骤507’，并会使用下混信号的时间包络(通过特定于声道的加权因子进行加权)对声道信号m进行后处理。

如果声道信号m是瞬态信号，则接着执行步骤509’。在步骤509’中，会检查用于声道信号m的特定于声道的CLDm是否大于0。

如果特定于声道的CLDm大于0，则接着执行步骤511’。否则，接着执行步骤513’。

在步骤511’中，不会对多声道信号m进行后处理，也就是说，不会使用加权声道时间包络对声道信号m进行后处理。

在步骤513’中，会通过用特定于声道的加权因子对下混信号的时间包络进行加权来恢复或重新构建声道信号m的时间包络。

参考步骤509’至513’，由于参考声道信号是用于计算CLD的参考信号(也就是说，是位于定义CLDm的方程式(5)的分子位置的声道信号)，因此，如果参考信号的能量大于声道信号m的能量，则已解码CLDm大于0。由于瞬态信号的能量通常大于非瞬态信号的能量，因此，可以将CLDm作为一个指标来确定声道信号m相对于参考信号是否可被看作为瞬态信号。相应地，如果已解码CLDm大于0，会假设声道信号m相对于参考信号不是瞬态信号，且不会使用相应的加权时间包络对声道信号m进行后处理(见步骤511’)。如果已解码CLDm小于0，则会假设声道信号m相对于参考信号是瞬态信号，且会使用相应的加权时间包络对声道信号m进行后处理(见步骤513’)。

在一个替代实施例中，其中一个声道信号被用作参考信号。根据图16所述的方法可用于对多声道信号进行后处理。在此情况下，只需要M-1个声道瞬态分类指示来决定是否要对M个声道信号进行后处理。可以使用针对立体声编码(根据图5和图8)介绍的那种方法或类似方法来决定是否对参考声道信号进行后处理。

在另一个替代实施例中，整个下混信号是由多个(大于或等于1但小于M)下混信号组成的。在此情况下，参考信号可以是其中一个下混信号，且指示下混信号是不是瞬态信号的下混瞬态指示与该下混信号相关。

参考图15、14和17，可以按照以下方式进行多声道音频编码和解码。

首先，在编码器中(见图15)，从形成多声道信号的M个声道信号(C1至CM，对应于参考信号315’至317’)生成下混信号，并将该下混信号用作下混编码器307’的输入。下混编码器中有一个瞬态检测模型。如果下混信号319’被归类为下混瞬态信号，下混编码器307’将会提取该下混信号的时间包络323’，该时间包络将被传输到解码器。

提取器309’通过使用以下方程式从多声道信号提取CLD：

{CLD}_{m} [b] = 10 \log_{10} \frac{Σ_{k = k_{b}}^{k_{b + 1} - 1} X_{ref} [k] X_{ref}^{*} [f]}{Σ_{k = k_{b}}^{k_{b + 1} - 1} X_{m} [k] X_{m}^{*} [k]} - - - (1),

其中，k是频率窗口指数，b是频带指数，kb是频带b的起始窗口，Xref是参考信号的频谱，Xm是多声道信号的每个声道的频谱。参考信号的频谱Xref可以是下混信号D 319’的频谱，也可以是其中一个声道信号的频谱Xm(对于[1，M]中的m)。

还需要检测声道瞬态信号。这种检测是以CLDm监控为依据的(举例)，由检测器311’执行。如果检测到两个连续的帧之间的CLDm变化很快(这种情况又称为突变)，则声道信号m将被归类为声道瞬态信号。

在解码器中(见图14)，可以使用已解码下混信号以及与该下混信号相关的多声道参数来重新构建多声道信号。

如果从已解码下混信号接收到的分类指示是下混瞬态分类指示，则本发明的实施例会使用额外处理模块来提高瞬态多声道信号的质量。

图16说明了由图14所示的解码器执行的解码方法的一个实施例，已解码CLD_dqm＞0(见步骤509’)表示参考声道信号的能量大于研究中的声道信号m的能量。

应用于下混信号的下混时间包络的加权因子由判定器211’按照以下方式计算。首先计算CLDm的平均值

{acld}_{m} = \frac{1}{N} Σ_{b = 0}^{b = N} {CLD}_{m} [b] - - - (2) .

接着计算c

c = 10^{\frac{{acld}_{m}}{20}} - - - (3) .

最后，通过以下方程式计算声道信号m的加权因子：

a_{m} = \frac{2}{1 + c} - - - (4)

在将从下混解码过程得到的时间包络应用到声道信号m之前，会先用该时间包络乘以相应的加权因子am。

可以为每个声道信号或者为多个声道信号当中的一个或一些执行以下操作，且可以同时或连续地执行这些操作：确定声道信号m是不是声道瞬态信号；计算特定于声道的加权因子am；根据下混信号的时间包络和特定于声道的加权因子am生成特定于声道的加权时间包络；以及根据特定于声道的时间包络对声道信号进行后处理(如针对多声道信号编码所介绍的)。

虽然已经介绍了主要的实施例，其中，多声道信号的所有M个(或M-1个，如果一个声道信号被用作参考信号)声道信号被归类为声道瞬态信号，但仍然可以实施编码器、装置和解码器的其它实施例及相应的方法，以便只对M声道信号的一个子集进行编码和解码，或者对声道信号进行分类和后处理。请注意，可以像处理立体声信号的左声道信号和右声道信号一样来处理包含M＞2个声道信号的多声道信号的其中两个声道信号，以便可以对这些信号应用立体声处理(例如，带有立体声瞬态分类或声道瞬态分类)的实施例。

Claims

1.装置(101，201，713；101’；201’)用于对多声道信号的多个声道信号当中的至少一个声道信号进行后处理，其中要接受后处理的所述至少一个声道信号由低比特率音频编码/解码系统从已解码下混信号生成，该装置(101，201，713；101’；201’)包括：

接收器(103；103’)，用于接收从已解码下混信号生成的至少一个声道信号、已解码下混信号的时间包络以及指示至少一个声道信号的瞬态类型的分类指示，该分类指示与至少一个声道信号相关；以及

后处理器(105，213，215，717，719；105’，213’，215’)，用于根据已解码下混信号的时间包络对至少一个声道信号进行后处理，所述时间包络经过基于分类指示的方法产生的加权因子进行加权。

2.根据权利要求1所述的装置，其中所述接收器(103；103’)用于接收多个声道信号和多个分类指示，其中每个分类指示与所述声道信号的声道信号相关，且每个分类指示指示相关的声道信号的瞬态类型；该装置还包括：

判定器(211；715；211’)，用于确定所述多个声道信号当中进行后处理的声道信号，其中所述判定器根据指示对应声道信号的瞬态类型的分类指示进行确定。

3.根据权利要求1或2所述的装置，该装置包括用于确定所述多个声道信号当中进行后处理的声道信号的判定器(211；715；211’)，该判定器可以根据指示声道信号的瞬态类型的分类指示和指示下混信号的瞬态类型的分类指示进行确定。

4.根据权利要求3所述的装置，如果分类指示指示下混信号是瞬态下混信号，且与至少一个多声道信号相关的声道的分类指示指示至少有一条声道不是瞬态声道，则可以将其中所述判定器(211’)配置为能够控制后处理器对至少一个声道信号进行后处理。

5.根据权利要求3或4所述的装置，如果分类指示指示下混信号是瞬态下混信号，与至少一个多声道信号相关的声道的分类指示指示至少一个声道信号是瞬态声道信号，且至少一个声道信号的能量指标大于对应的参考信号的能量指标，则所述判定器(211’)配置为能够控制后处理器对至少一个声道信号进行后处理。

6.根据权利要求3至5中的任一个所述的装置，如果分类指示指示下混信号是瞬态下混信号，与至少一个多声道信号相关的声道的分类指示指示至少一个声道信号是瞬态声道信号，且参考信号与至少一个声道信号之间的声道的声道间电平差CLDm小于预定的阈值，则所述判定器(211’)配置为能够控制后处理器对至少一个声道信号进行后处理。

7.根据权利要求3至6中的任一个所述的装置，如果分类指示指示下混信号是瞬态下混信号，与至少一个多声道信号相关的声道的分类指示指示至少一个声道信号是瞬态声道信号，且至少一个声道信号的能量指标小于对应的参考信号的能量指标，则所述判定器(211’)配置为能够控制后处理器不对至少一个声道信号进行后处理。

8.根据权利要求3至7中的任一个所述的装置，如果分类指示指示下混信号是瞬态下混信号，与至少一个多声道信号相关的声道的分类指示指示至少一个声道信号是瞬态声道信号，且参考信号与至少一个声道信号之间的声道的声道间电平差CLDm大于预定的阈值，则所述判定器(211’)配置为能够通过使用加权时间包络控制后处理器不对至少一个声道信号进行后处理。

9.根据权利要求3至8中的任一个所述的装置，其中所述判定器(211’)用于确定加权因子，根据接收到的至少一个声道信号与参考信号之间的声道间电平差CLDm，使用该加权因子对下混信号的时间包络进行加权，以便对至少一个声道信号进行后处理。

10.根据权利要求1至9中的任一个所述的装置，其中所述下混信号形成参考信号。

11.根据权利要求1至10中的任一个所述的装置，其中所述多声道信号是立体声信号，该立体声信号包括第一声道信号和第二声道信号。

12.一种用于进行多声道音频解码的解码器(201’)，该解码器包括下混信号解码器(205’)、上混器(207’)以及根据权利要求1至11当中的任意一个所述的装置(209’)，其中，下混信号解码器(205’)用于接收表示多声道信号的已编码下混信号，以及解码已编码下混信号以生成已解码下混信号，上混器(207’)用于接收来自下混信号解码器(205’)的已解码下混信号和与该下混信号相关的多声道参数，以及根据接收到的多声道参数对已解码下混信号进行上混来生成多声道信号的多个声道信号。

13.一种用于对多声道信号的多个声道信号当中的至少一个声道信号进行后处理的方法，其中所述进行后处理的声道信号由低比特率音频编码/解码系统从已解码下混信号生成，该方法包括以下步骤：

接收从已解码下混信号生成的至少一个声道信号、已解码下混信号的时间包络以及指示至少一个声道信号的瞬态类型的分类指示，该分类指示与至少一个声道信号相关(步骤401；401’)；以及

根据已解码下混信号的时间包络对至少一个声道信号进行后处理，所述时间包络经过基于分类指示的方法生成的加权因子进行加权(步骤403；403’)。

14.一种装置(101，201，713)，该装置用于对立体声信号的左声道信号和右声道信号当中的至少一个进行后处理，其中由低比特率音频编码/解码系统从已解码下混信号生成所述左声道信号和右声道信号；该装置(101，201，713)包括：

接收器(103)，用于接收从已解码下混信号生成的所述左声道信号和右声道信号、已解码下混信号的时间包络以及指示立体声信号的瞬态类型的分类指示；以及

后处理器(105，213，215，717，719)，用于根据所述已解码下混信号的时间包络对所述左声道信号和右声道信号当中的至少一个进行后处理，所述时间包络经过基于分类指示的方法的加权因子进行加权。

15.根据权利要求14所述的装置还包括判定器(211，715)，该判定器用于根据指示立体声信号的瞬态类型的分类指示确定所述多个声道信号当中进行后处理的声道信号。

16.根据权利要求14或15所述的装置还包括判定器(211，715)，该判定器用于确定所述左声道信号和右声道信号当中进行后处理的声道信号，其中根据指示立体声信号的瞬态类型的分类指示和指示已解码下混信号的瞬态类型的分类指示进行确定。

17.一个用于解码由低比特率音频编码系统从立体声信号处理的下混信号的解码器，该解码器(201，701)包括一个用于解码通过音频声道接收的下混信号的单声道解码器(205，705)，以及一个用于对根据权利要求14至16当中的任一个所述的已解码下混信号进行后处理的装置(213，215，717，719)，其中所述下混信号是瞬态信号。

18.一种用于对立体声信号的左声道信号和右声道信号当中的至少一个进行后处理的方法，其中由低比特率音频编码/解码系统从已解码下混信号生成所述左声道信号和右声道信号；该方法包括：

接收从已解码下混信号生成的左声道信号和右声道信号、已解码下混信号的时间包络以及指示立体声信号的瞬态类型的分类指示(步骤401)；以及

根据已解码下混信号的时间包络对左声道信号和右声道信号当中的至少一个进行后处理(步骤403)，所述时间包络经过基于分类指示的方法产生的加权因子进行加权。

19.一种计算机程序，当在计算机上运行时，该程序可用于执行根据权利要求13或18所述的方法。