CN104704557B

CN104704557B - 用于在空间音频对象编码中适配音频信息的设备和方法

Info

Publication number: CN104704557B
Application number: CN201380042080.0A
Authority: CN
Inventors: 托尔斯滕·卡斯特纳; 于尔根·赫勒; 莱昂·特伦提夫; 奥利弗·赫尔穆特; 约尼·保卢斯; 法尔科·里德布施
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2012-08-10
Filing date: 2013-06-28
Publication date: 2017-08-29
Anticipated expiration: 2033-06-28
Also published as: KR101837686B1; KR20170016997A; ES2595220T3; AU2013301864A1; WO2014023477A1; CN104704557A; KR102033985B1; BR112015002794B1; AU2013301864B2; EP2883226A1; CA2880412C; RU2609097C2; CA2880412A1; MX2015001748A; JP6141980B2; RU2015104055A; US10497375B2; JP2015525905A; BR112015002794A2; US20150154968A1

Abstract

提供了一种用于将编码了一个或更多个音频对象的输入音频信息进行适配以获得经适配的音频信息的设备。输入音频信息包括两个或更多个输入音频缩混声道并且进一步包括输入参数化辅助信息。经适配的音频信息包括一个或更多个经适配的音频缩混声道并且进一步包括经适配的参数化辅助信息。该设备包括用于取决于适配信息而将两个或更多个输入音频缩混声道进行适配以获得一个或更多个经适配的音频缩混声道的缩混信号修改器(110)。而且，该设备包括用于取决于适配信息而将输入参数化辅助信息进行适配以获得经适配的参数化辅助信息的参数化辅助信息适配器(120)。

Description

用于在空间音频对象编码中适配音频信息的设备和方法

技术领域

本发明涉及音频信号解码和音频信号处理，更具体地，涉及用于在空间音频对象编码(SAOC)中将音频信息进行适配的解码器和方法。

背景技术

US2011200197A1提供了一种能够有效地处理基于对象的音频信号的音频解码方法和装置以及音频编码方法和装置。音频解码方法包括：接收缩混信号和基于对象的辅助信息，所述缩混信号包括至少两个缩混声道信号；从所述基于对象的辅助信息提取增益信息，并且基于所述增益信息生成基于声道对声道修改所述缩混声道信号的修改信息；以及通过将所述修改信息应用于缩混声道信号来修改所述缩混声道信号。

在现代数字音频系统中，允许在接收方侧对所传输的内容进行与音频对象相关的修改是主要趋势。这些修改包括对在经由空间分布的扬声器进行多声道回放的情况下对专用音频对象的空间重定位和/或音频信号的所选择的部分的增益修改。这可以通过单独地将音频内容的不同部分递送到不同的扬声器来实现。

换言之，在音频处理、音频传输以及音频存储领域中，越来越期望允许对面向对象的音频内容回放进行用户交互，并且还需要利用多声道回放的扩展的可能性以单独地呈现音频内容或者部分音频内容，以便改进听觉感受。由此，多声道音频内容的使用为用户带来显著的改进。例如，可以获得三维听觉感受，这在娱乐应用中带来改进的用户满意度。然而，多声道音频内容在专业环境中例如电话会议应用中也是有用的，因为可以通过使用多声道音频回放来改进讲话者清晰度。另一可能的应用是给音乐作品的听者提供不同部分(也称为“音频对象”)或音轨如人声部分或者不同乐器的单独调整回放级别和/或空间位置。用户可以为了个人品味、为了从音乐作品中更容易地改编一个或更多个部分、为了教学目的、卡拉OK、排练等原因而进行这种调整。

对如以脉冲编码调制(PCM)数据或者甚至是压缩音频格式的形式的全数字多声道或多对象音频内容的直接的分离传输要求非常高的比特率。然而，以高比特率效率的方式来传输和存储音频数据也是理想的。因此，为了避免由多声道/多对象应用导致的过度资源负荷，人们乐于在音频质量与比特率要求之间接受合理的折衷。

近来，在音频编码领域中，由如运动图像专家组(MPEG)等提出了用于对多声道/多对象音频信号的比特率效率的传输/存储的参数化技术。一个示例是作为面向声道的方法[MPS、BCC]的MPEG环绕声(MPS)，或者作为面向对象的方法[JSC、SAOC、SAOC1、SAOC2]的MPEG空间音频对象编码(SAOC)。另一种面向对象的方法称为“通知源分离”[ISS1、ISS2、ISS3、ISS4、ISS5、ISS6]。这些技术旨在音频场景中基于对声道/对象以及附加的辅助信息的缩混来重现期望的输出音频场景或者期望的音频源对象，其中辅助信息描述所传输的/存储的音频场景和/或音频源对象。

对这样的系统中的与声道/对象相关的辅助信息的估计和应用以时间-频率选择方式来完成。因此，这样的系统采用时间-频率变换如离散傅里叶变换(DFT)、短时傅里叶变换(STFT)或者滤波器组如正交镜像滤波器(QMF)组等。在图3中，使用MPEG SAOC为例来描绘这样的系统的基本原理。

在STFT的情况下，时间维度由时间块编号来表示，而频谱维度由频谱系数(“格子(bin)”)的编号来获得。在QMF的情况下，时间维度由时隙编号来表示，而频谱维度由子频带编号来获得。如果QMF的频谱分辨率由随后应用第二滤波器阶段来改进，则整个滤波器组称为混合QMF，并且高分辨率子频带称为混合子频带。

如上所述，如图3所示，在SAOC中，通常以时间-频率选择方式来进行处理，并且在每个频带内可以被描述如下：

-使用由元素d_1,1…d_N,P构成的缩混矩阵将N个输入音频对象信号s₁…s_N混缩成P个声道x₁…x_P以作为编码器处理的一部分，另外，编码器对描述输入音频对象的特性的辅助信息(辅助信息估计器(SIE)模块)进行提取。对于MPEG SAOC，关于彼此的对象能量的关系是这种辅助信息的最基本的形式。

-一个或更多个缩混信号和辅助信息被传输/存储。为此，可以如使用众所周知的感知音频编码器如MPEG-l/2Layer II或者III(aka.mp3)、MPEG-2/4增强音频编码(AAC)等来将一个或更多个缩混音频信号进行压缩。

-在接收端，解码器概念上试图使用所传输的辅助信息来从(经解码的)缩混信号中恢复原始的对象信号(“对象分离”)。然后，在图3中，使用由系数r_1,1…r_N,M描述的呈现矩阵来将这些近似的对象信号混音成由M个音频输出声道表示的目标场景。在极端情况下，期望的目标场景可以是从混合音中仅呈现出一个源信号(源分离情景)，但是也可以是由所传输的对象构成的任何其他任意声学场景。例如，输出可以是单声道、2声道立体声或者5.1多声道目标场景。

图6示意性地描绘了音频编码/解码方案的原理。具体而言，图6是音频编码/解码链的原理描述。

在编码侧，音频信号通过音频编码方案(通常利用感知效果)进行压缩，并且计算了参数化辅助信息(PSI)(参见编码器601)。得到的由编码的音频信号和PSI构成的比特流被存储(或者被传输)到解码器侧，在解码器侧，图6中标为“A”、“B”等的各种解码器实例620、621、622可以将该比特流解码。这些解码器实例可以彼此不同(如在标准规格、应用或者实现限制等中的不同复杂度级别)[SAOC、SAOCl、SAOC2]。

目前的技术水平的编码方案不能以有效的方式使PSI适应特定目标应用情景或者平台。这可能导致解码器侧处的计算复杂度更高(高于必要的计算复杂度)或者可能造成兼容问题。

发明内容

本发明的目的是为音频对象编码提供改进的构思。本发明的目的通过以下来解决：由根据本公开的解码器、用于编码的方法以及计算机程序。

提供了一种用于将编码了一个或更多个音频对象的输入音频信息进行适配以获得经适配的音频信息的设备。输入音频信息包括两个或更多个输入音频缩混声道并且进一步包括输入参数化辅助信息。经适配的音频信息包括一个或更多个经适配的音频缩混声道并且进一步包括经适配的参数化辅助信息。

该设备包括缩混信号修改器，用于取决于适配信息而将两个或更多个输入音频缩混声道进行适配以获得一个或更多个经适配的音频缩混声道。

而且，该设备包括参数化辅助信息适配器，用于取决于适配信息而将输入参数化辅助信息进行适配以获得经适配的参数化辅助信息。

根据实施方式，缩混信号修改器可以配置成取决于适配信息而将两个或更多个输入音频缩混声道进行适配，使得一个或更多个经适配的音频缩混声道的数目小于两个或更多个输入音频缩混声道的数目。

在实施方式中，适配信息可以取决于解码器实例。缩混信号修改器可以配置成取决于解码器实例而将两个或更多个输入音频缩混声道进行适配。在此处以及在下文中，术语“解码器”和“解码器实例”具有相同的含义。

根据实施方式，解码器实例最多能够将最大数目个缩混声道进行解码。适配信息可以取决于缩混声道的所述最大数目。而且，缩混信号修改器可以配置成取决于适配信息而将两个或更多个输入音频缩混声道进行适配以获得一个或更多个经适配的音频缩混声道，使得一个或更多个经适配的缩混声道的数目等于缩混声道的所述最大数目。

根据实施方式，适配信息可以包括适配矩阵

在实施方式中，缩混信号修改器可以配置成取决于适配矩阵而将两个或更多个输入音频缩混声道进行适配以获得一个或更多个经适配的音频缩混声道

根据实施方式，缩混信号修改器可以配置成取决于适配矩阵来将两个或更多个输入音频缩混声道进行适配以通过应用下式来获得一个或更多个经适配的音频缩混声道

在实施方式中，参数化辅助信息适配器可以配置成取决于适配矩阵而将输入参数化辅助信息进行适配以获得经适配的参数化辅助信息

根据实施方式，参数化辅助信息适配器可以配置成取决于适配矩阵而将输入参数化辅助信息进行适配以通过应用下式来获得经适配的参数化辅助信息

在实施方式中，输入参数化辅助信息可以指示初始缩混矩阵，使得通过对一个或更多个音频对象(S)应用该初始缩混矩阵来获得两个或更多个输入音频缩混声道参数化辅助信息适配器可以配置成确定经适配的缩混矩阵作为经适配的参数化辅助信息，使得通过对一个或更多个音频对象(S)应用经适配的缩混矩阵来获得一个或更多个经适配的音频缩混声道

而且，根据实施方式，提供了一种用于从编码了一个或更多个音频对象的输入音频信息中生成一个或更多个音频声道的设备。

用于生成一个或更多个音频声道的设备包括根据上述实施方式中的一个的用于将输入音频信息进行适配以获得经适配的音频信息的设备，其中，输入音频信息包括两个或更多个输入音频缩混声道并且进一步包括输入参数化辅助信息，其中，经适配的音频信息包括一个或更多个经适配的音频缩混声道并且进一步包括经适配的参数化辅助信息。

而且，用于生成一个或更多个音频声道的设备包括解码器实例，用于取决于经适配的参数化辅助信息而将一个或更多个经适配的音频缩混声道进行解码以获得一个或更多个音频声道。

根据实施方式，用于将输入音频信息进行适配的设备的参数化辅助信息适配器可以配置成接收包括输入参数化辅助信息的输入比特流。用于将输入音频信息进行适配的设备的参数化辅助信息适配器可以配置成将输入参数化辅助信息进行适配以获得经适配的参数化辅助信息，以及将经适配的参数化辅助信息馈送到解码器实例中。解码器实例可以配置成取决于经适配的参数化辅助信息而将一个或更多个经适配的音频缩混声道进行解码。

在另一实施方式中，用于将输入音频信息进行适配的设备的参数化辅助信息适配器可以配置成接收包括输入参数化辅助信息的输入比特流。用于将输入音频信息进行适配的设备的参数化辅助信息适配器可以配置成用经适配的参数化辅助信息来取代输入比特流内的输入参数化辅助信息以获得经修改的比特流。用于将输入音频信息进行适配的设备的参数化辅助信息适配器可以配置成将经修改的比特流馈送到解码器实例中。而且，解码器实例可以配置成取决于经修改的比特流而将一个或更多个经适配的音频缩混声道进行解码。

此外，提供了一种用于将编码了一个或更多个音频对象的输入音频信息进行适配以获得经适配的音频信息的方法。输入音频信息包括两个或更多个输入音频缩混声道并且进一步包括输入参数化辅助信息。经适配的音频信息包括一个或更多个经适配的音频缩混声道并且进一步包括经适配的参数化辅助信息。该方法包括：

-取决于适配信息而将两个或更多个输入音频缩混声道进行适配以获得一个或更多个经适配的音频缩混声道。以及：

-取决于适配信息而将输入参数化辅助信息进行适配以获得经适配的参数化辅助信息。

而且，提供了一种计算机程序，用于当其由计算机或者信号处理器执行时实现上述方法。

附图说明

以下将参照附图对本发明的实施方式进行更详细的描述，在附图中：

图1示出了根据实施方式的用于将编码了一个或更多个音频对象的输入音频信息进行适配以获得经适配的音频信息的设备。

图2示出了根据另一实施方式的用于将编码了一个或更多个音频对象的输入音频信息进行适配以获得经适配的音频信息的设备。

图3示出了SAOC系统的概念性概览的示意框图，

图4示出了单声道音频信号的时间-频谱表示的示意说明图，

图5示出了SAOC编码器内的辅助信息的时间-频率选择计算的示意框图，

图6示意性地描绘了音频编码/解码方案的原理，

图7示出了根据实施方式的用于从编码了一个或更多个音频对象的输入音频信息生成一个或更多个音频声道的设备，

图8示出了根据实施方式的编码/解码方案内的联合PSIA应用，以及

图9示出了根据实施方式的编码/解码方案内的非联合PSIA应用。

具体实施方式

在描述本发明的实施方式之前，提供了关于目前的SAOC系统的更多的背景。

图3示出了SAOC编码器10和SAOC解码器12的通常布置。SAOC编码器10接收作为输入的N个对象亦即音频信号s₁至s_N。具体而言，编码器10包括接收音频信号s₁至s_N并且将音频信号s₁至s_N缩混成缩混信号18的缩混器16。可选地，该缩混可以设置在外部(“艺术缩混”)并且系统对附加的辅助信息进行估计以使设置的缩混与计算的缩混匹配。在图3中，示出的缩混信号为P声道信号。这样，可得到任何单声道(P＝1)、立体声(P＝2)或者多声道(P>2)缩混信号配置。

在立体声缩混的情况下，缩混信号18的声道用L0和R0来表示，在单声道缩混的情况下，缩混信号18的声道简单地用L0来表示。为了使SAOC解码器12能够对个体对象s₁至s_N进行恢复，辅助信息估计器17为SAOC解码器12提供包括SAOC参数的辅助信息。例如，在立体声缩混的情况下，SAOC参数包括对象级差异(OLD)、对象间相关性(IOC)(对象间互相关参数)、缩混增益值(DMG)以及缩混声道级差异(DCLD)。包括SAOC参数的辅助信息20连同缩混信号18一起形成由SAOC解码器12接收的SAOC输出数据流。

SAOC解码器12包括上混音器，其接收缩混信号18以及辅助信息20以将音频信号和恢复并且呈现到用户选择的任何一组声道至上，其中由呈现信息26规定的呈现被输入到SAOC解码器12中。

可以将音频信号s₁至s_N以任何编码域如时域或频域输入到编码器10中。在音频信号s₁至s_N以时域如编码的PCM馈入到编码器10的情况下，编码器10可以使用滤波器组如混合QMF组，以便将信号转换到频域中，在频域中，音频信号针对特定滤波器组分辨率以与不同频谱部分关联的若干个子频带表示。如果音频信号s₁至s_N已经在编码器10期望的表示中，则音频信号s₁至s_N不必进行频谱分解。

图4示出了刚提及的频域形式的音频信号。可以看出，音频信号被表示为多个子频带信号。每个子频带信号30₁至30_K由小方框32指示的子频带值的时序组成。可以看出，子频带信号30₁至30_K的子频带值32在时间上彼此同步，使得对于连续的滤波器组时隙34中的每个时隙，每个子频带30₁至30_K恰好包括一个子频带值32。如频率轴36所示，子频带信号30₁至30_K与不同频率区关联，并且如时间轴38所示，滤波器组时隙34在时间上连续地布置。

如以上所概述的，图3的辅助信息提取器17从输入音频信号s₁至s_N计算SAOC参数。根据当前实现的SAOC标准，编码器10以下述时间/频率分辨率来进行这个计算，该时间/频率分辨率相对于由滤波器组时隙34和子频带分解所确定的原始的时间/频率分辨率可以降低特定的量，该特定的量在辅助信息20内被发送到解码器侧。成组的连续的滤波器组时隙34可以形成SAOC帧41。此外，在辅助信息20内传送SAOC帧41内的参数频带的数目。因此，时间/频率域被划分成由虚线42在图4中所例示的时间/频率片。在图4中，参数带以同样的方式分布在各个所描绘的SAOC帧41中，以获得时间/频率片的规则布置。然而，取决于对各自的SAOC帧41中的频谱分辨率的不同需求，通常一个SAOC帧41的参数带可能与随后的SAOC帧的参数带不同。此外，SAOC帧41的长度也可能不同。因此，时间/频率片的布置可以是不规则的。尽管如此，特定SAOC帧41内的时间/频率片通常具有相同的持续时间，并且在时间方向上对准，亦即，在所述SAOC帧41中的所有的t/f片开始于给定的SAOC帧41的起点并且结束于所述SAOC帧41的结束点。

图3中描绘的辅助信息提取器17根据下式来计算SAOC参数。具体而言，辅助信息提取器17将针对每个对象i的对象级差异计算为

其中，总和以及指数n和k分别遍历属于某时间/频率片42的所有的时间指数34和所有的频谱指数30，时间指数34和频谱指数30分别被针对SAOC帧(或者处理时隙)的指数l和针对参数频带的指数m参照。从而，音频信号或者对象i的所有的子频带值x_i的能量被求和并归一化到所有对象或者音频信号之中该片的最高能量值。代表的共轭复数。

另外，SAOC辅助信息提取器17能够计算不同输入对象s₁至s_N中的各个对的相应的时间/频率片的相似性测度。虽然SAOC辅助信息提取器17可以计算输入对象s₁至s_N中的所有对的相似性测度，但是辅助信息提取器17还可以对形成公共立体声声道的左声道或者右声道的音频对象s₁至s_N抑制发送相似性测度或者限制相似性测度的计算。在任何情况下，相似性测度被称为对象间互相关参数计算如下

指数n和k再次遍历属于某时间/频率片42的所有的子频带值，i和j表示音频对象s₁至s_N中的的某对，并且Re{}表示丢弃复数自变量的虚部的操作。

图3的缩混器16通过使用施加到每个对象s₁至s_N的增益因数而将对象s₁至s_N进行缩混。亦即，在图3中所例示的，如果P＝1，则增益因数d_i被施加到对象i，然后将所有这样被加权的对象s₁至s_N求和以获得单声道缩混信号。在图3中描绘的双声道缩混信号的另一示例情况下，如果P＝2，则将增益因数d_1,i施加到对象i，然后将所有这样被增益放大的对象进行求和以便获得左缩混声道L0，并且将增益因数d_2,i施加到对象i，然后将这样被增益放大的对象求和以便获得右缩混声道R0。在多声道缩混(P>2)的情况下，将实施与上述类似的处理。

借助于缩混增益DMG_i将这个缩混指令发送到解码器侧，并且在立体声缩混信号的情况下，借助于缩混声道级差异DCLD_i将这个缩混指令发送到解码器侧。

根据下式来计算缩混增益：

DMG_i＝20log₁₀(d_i+ε)，(单声道缩混)，

(立体声缩混)，

其中ε是小的量(small number)如10^-9。

针对DCLD应用下式：

在正常模式下，缩混器16针对单声道缩混，根据下式生成缩混信号：

或者针对立体声缩混，根据下式生成缩混信号：

这样，在上述公式中，参数OLD和IOC是音频信号的函数，而参数DMG和DCLD是d的函数。顺便提及，注意d可以在时间和频率上变化。

这样，在正常模式下，缩混器16无差别地将所有的对象s₁至s_N进行混音，亦即，同等地处理所有的对象s₁至s_N。

在解码器侧，在一个计算步骤中，上混音器进行缩混过程的逆过程，并且实现由矩阵R(在文献中有时也称为A)表示的“呈现信息”26，亦即在双声道缩混的情况下：

其中矩阵E是参数OLD和IOC的函数，并且矩阵D包括如下的缩混系数

矩阵E是音频对象s₁至s_N的估计协方差矩阵。在当前的SAOC实现中，对估计协方差矩阵E的计算通常以SAOC参数的频谱/时间分辨率进行，亦即，针对每个(l，m)进行，使得可以将估计协方差矩阵写为E^l,m。估计协方差矩阵E^l,m的大小为N×N，估计协方差矩阵E^l,m的系数被定义为

这样，如下矩阵E^l,m

沿着矩阵E^l,m的对角线具有对象级差异，亦即，当i＝j时，因为当i＝j时，并且在矩阵E^l,m对角线之外，估计协方差矩阵E具有下述矩阵系数，该矩阵系数表示分别用对象间互相关测度来加权的对象i和对象j的对象级差异的几何平均值。

图5示出了实现作为SAOC编码器10的一部分的辅助信息估计器(SIE)的示例的一种可能的原理。SAOC编码器10包括混音器16和辅助信息估计器(SIE)17。SIE在概念上由两个模块构成：基于每个信号的t/f表示(如STFT或者QMF)计算短时的一个模块45。计算出的短时t/f表示被馈入第二模块(t/f选择辅助信息估计模块(t/f-SIE))46。t/f-SIE模块46针对每个t/f片计算辅助信息。在当前的SAOC实现中，时间/频率变换对于所有的音频对象s₁至s_N是固定且相同的。此外，在对于所有的音频对象相同并且对于所有的音频对象s₁至s_N具有相同的时间/频率分辨率的SAOC帧上确定SAOC参数，因此没有考虑在有些情况下对高时间分辨率的对象特定需要或者在其他情况下对高频谱分辨率的对象特定需要。

下面对本发明的实施方式进行描述。

该输入音频信息包括两个或更多个输入音频缩混声道并且还包括输入参数化辅助信息。经适配的音频信息包括一个或更多个经适配的音频缩混声道并且还包括经适配的参数化辅助信息。

该设备包括缩混信号修改器(DSM)110，用于取决于适配信息而将两个或更多个输入音频缩混声道进行适配以获得一个或更多个经适配的音频缩混声道。

而且，该设备包括参数化辅助信息适配器(PSIA)120，用于取决于适配信息而将输入参数化辅助信息进行适配以获得经适配的参数化辅助信息。

在实施方式中，适配信息可以取决于解码器实例，并且缩混信号修改器110可以配置成取决于解码器实例而将两个或更多个输入音频缩混声道进行适配。

例如，图2的缩混信号修改器110将缩混适配到特定解码器实例的性能。

根据实施方式，缩混信号修改器110可以配置成取决于适配信息而将两个或更多个输入音频缩混声道进行适配，使得一个或更多个经适配的音频缩混声道的数目小于两个或更多个输入音频缩混声道的数目。

例如，在图2的实施方式中，缩混信号修改器110减少了传输/缩混声道的数目。

如可以将22.2输入音频缩混声道(＝24个输入音频缩混声道)减少到经适配的7.1音频缩混声道(＝8个经适配的音频缩混声道)。

或者，例如，将5.1输入音频缩混声道(＝6个输入音频缩混声道)减少到经适配的2.0音频缩混声道(＝2个经适配的音频缩混声道)。

或者，例如，将2个输入音频缩混声道减少到1个经适配的音频缩混声道。

也可以是输入音频缩混声道与经适配的音频缩混声道的各种其他组合。

根据实施方式，解码器实例最多能够将最大数目多个缩混声道进行解码。适配信息可以取决于所述缩混声道的最大数目。而且，缩混信号修改器110可以配置成取决于适配信息而将两个或更多个输入音频缩混声道进行适配以获得一个或更多个经适配的音频缩混声道，使得一个或更多个经适配的缩混声道的数目等于所述缩混声道的最大数目。

例如，图2的缩混信号修改器110将缩混转换成与特定解码器实例的最大支持的输出声道配置对应的音频信号。

根据实施方式，适配信息可以例如包括适配矩阵

参数化辅助信息适配器120可以如将PSI进行适配以对应于经修改的缩混，从而为解码器减少计算复杂度，并且减少相应的数据比特流的大小/比特率而对解码器输出音频质量不产生负面影响。

例如，PSIA 120用描述作为结果的缩混的更新的信息来修改相应的PSI比特流，以对应于解码器的特定规格，该更新的信息取代表示初始缩混矩阵的信息(考虑到DSM修改)。

例如，SAOC编码器将从应用编码器缩混矩阵而得到的立体声缩混信号提供给输入音频对象信号S：

根据实施方式，缩混信号修改器110可以被配置成取决于适配矩阵而将两个或更多个输入音频缩混声道进行适配以获得一个或更多个经适配的音频缩混声道在实施方式中，这是通过例如应用公式而实现的。

例如，在实施方式中，假设特定SAOC解码器实例仅支持单声道缩混(如SAOC低延迟策略/级别l)。在这种情况下，DSM 110使用如下预定义的缩混矩阵而将立体声缩混转换成单声道信号

根据实施方式，参数化辅助信息适配器120可以配置成取决于适配矩阵而将输入参数化辅助信息进行适配以获得经适配的参数化辅助信息在实施方式中，这可以例如通过应用下式来实现：

例如，根据实施方式，PSIA 120对相应的PSI比特流进行解析；提取描述缩混矩阵的信息；用描述新的缩混矩阵的更新的信息来取代这些数据：

这样，根据实施方式，输入参数化辅助信息可以指示初始缩混矩阵，使得通过对一个或更多个音频对象(S)应用初始缩混矩阵而获得两个或更多个输入音频缩混声道参数化辅助信息适配器可以被配置成确定经适配的缩混矩阵作为经适配的参数化辅助信息，使得通过对一个或更多个音频对象(S)应用经适配的缩混矩阵而获得一个或更多个经适配的音频缩混声道

在实施方式中，PSIA将新的经修改的比特流格式化或者直接将这些参数传递给解码器。

这种由PSIA进行的编码和解码处理还可以包括对不同缩混矩阵表示格式的转换(如从极坐标系到笛卡尔坐标系等)。

这种所描述的PSIA的功能可以解决潜在的兼容性问题并且可以减少相应的比特流的大小。

图7示出了根据实施方式的用于从编码了一个或更多个音频对象的输入音频信息生成一个或更多个音频声道的设备700。

用于生成一个或更多个音频声道的设备700包括根据上述实施方式中的一个的用于将输入音频信息进行适配以获得经适配的音频信息的设备710。输入音频信息包括两个或更多个输入音频缩混声道并且还包括输入参数化辅助信息。经适配的音频信息包括一个或更多个经适配的音频缩混声道并且还包括经适配的参数化辅助信息。

根据上述实施方式中的一个的用于将输入音频信息进行适配的设备710包括缩混信号修改器110和参数化辅助信息适配器120。

而且，用于生成一个或更多个音频声道的设备700包括解码器实例720，该解码器实例720用于取决于经适配的参数化辅助信息而将一个或更多个经适配的音频缩混声道进行解码，以获得一个或更多个音频声道。

根据实施方式，用于将输入音频信息进行适配的设备710的参数化辅助信息适配器120可以被配置成接收包括输入参数化辅助信息的输入比特流。用于将输入音频信息进行适配的设备710的参数化辅助信息适配器120可以被配置成将输入参数化辅助信息进行适配以获得经适配的参数化辅助信息，并且将经适配的参数化辅助信息馈送到解码器实例720中。解码器实例720可以被配置成取决于经适配的参数化辅助信息而将一个或更多个经适配的音频缩混声道进行解码。

在另一实施方式中，用于将输入音频信息进行适配的设备710的参数化辅助信息适配器120可以被配置成接收包括输入参数化辅助信息的输入比特流。用于将输入音频信息进行适配的设备710的参数化辅助信息适配器120可以被配置成用经适配的参数化辅助信息来取代输入比特流内的输入参数化辅助信息，以获得经修改的比特流。用于将输入音频信息进行适配的设备710的参数化辅助信息适配器120可以被配置成将经修改的比特流馈送到解码器实例720中。而且，解码器实例720可以被配置成取决于经修改的比特流而将一个或更多个经适配的音频缩混声道进行解码。

图8和图9描绘了将用于将输入音频信息进行适配的设备结合到解码处理链中的两种可能性。

具体而言，图8示出了根据实施方式的编码/解码方案内的联合PSIA应用。

图8示出了用于从编码了一个或更多个音频对象的输入音频信息生成一个或更多个音频声道的多个设备800、801、802，其中，用于生成一个或更多个音频声道的设备800包括用于将输入音频信息进行适配的设备810和解码器实例820，其中，用于生成一个或更多个音频声道的设备801包括用于将输入音频信息进行适配的设备811和解码器实例821，以及其中，用于生成一个或更多个音频声道的设备802包括用于将输入音频信息进行适配的设备812和解码器实例822。应当注意到，例如，包括用于将输入音频信息进行适配的设备810和解码器实例820的用于生成一个或更多个音频声道的设备800不一定要实现为单个硬件单元800，而是可以替代地由有线地连接或者无线地连接的两个分离的单元810、820来实现。

为了减少解码的计算复杂度，可以将用于将输入音频信息进行适配的设备实施为联合(集成的)实现方式(参见图8)。另外，这允许实现在用于将输入音频信息进行适配的设备与解码器之间的非量化(非编码)接口。这特别对移动应用装置减少能量消耗具有重大的意义。

具体而言，图9示出了用于从编码了一个或更多个音频对象的输入音频信息生成一个或更多个音频声道的多个设备900、901、902，其中，用于生成一个或更多个音频声道的设备900包括用于将输入音频信息进行适配的设备910和解码器实例920，其中，用于生成一个或更多个音频声道的设备901包括用于将输入音频信息进行适配的设备911和解码器实例921，以及其中，用于生成一个或更多个音频声道的设备902包括用于将输入音频信息进行适配的设备912和解码器实例922。应当注意到，例如，包括用于将输入音频信息进行适配的设备910和解码器实例920的用于生成一个或更多个音频声道的设备900不一定要实现为单个硬件单元900，而是可以替代地由有线连接或者无线连接的两个分离的单元910、920来实现。

参见图9，为了减少相应的数据比特流的大小/比特率，可以将用于将输入音频信息进行适配的设备实施为非联合(分离的)实现方式。这特别对具有有限的存储和发送能力的移动应用装置以及具有窄数据变换声道的多点控制单元(MCU)系统具有重大的意义。

虽然某些方面是以设备的上下文进行描述的，但是清楚的是，这些方面还表示对相应的方法的描述，其中，模块或者装置对应于方法步骤或者方法步骤的特征。类似地，以方法步骤的上下文来描述的方面也表示对相应的设备的相应的模块或者项或者特征的描述。

创造性的分解信号可以被存储在数字存储介质上，或者可以在传输介质如无线传输介质或者有线传输介质如因特网上传输。

取决于特定实现需求，本发明的实施方式可以以硬件或者软件来实现。该实现可以使用数字存储介质，例如其上存储有电子地可读取控制信号的软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或者快闪存储器来进行，上述数字存储介质与可编程计算机系统协作(或者能够协作)以执行相应的方法。

根据本发明的某些实施方式包括能够与可编程计算机系统协作的具有电子地可读取的控制信号的非暂态数据载体，以使得执行本文中描述的方法中的一个。

通常，本发明的实施方式可以实现为具有程序代码的计算机程序产品，其中当计算机程序产品在计算机上运行时，程序代码有效地用于执行所述方法中的一个。例如，程序代码可以存储在机器可读载体上。

其他实施方式包括存储在机器可读载体上的用于执行本文中描述的方法中的一个的计算机程序。

因此，换言之，本发明方法的实施方式是计算机程序，当在计算机上运行计算机程序时，其具有用于执行本文中描述的方法中的一个的程序代码。

因此，本发明方法的又一实施方式是数据载体(或者数字存储介质，或者计算机可读介质)，包括记录在其上的用于执行本文中描述的方法中的一个的计算机程序。

因此，本发明方法的又一实施方式是表示用于执行本文中描述的方法中的一个的计算机程序的数据流或者信号的序列。例如，数据流或者信号的序列可以配置成经由数据通信连接例如经由因特网来传输。

又一实施方式包括处理装置例如计算机或者可编程逻辑器件，其配置成或者适应于执行本文中描述的方法中的一个。

又一实施方式包括计算机，其上安装有用于执行本文中描述的方法中的一个的计算机程序。

在某些实施方式中，可编程逻辑器件(例如现场可编程门阵列)可以用于执行本文中描述的方法中的某些功能或者所有功能。在某些实施方式中，现场可编程门阵列可以与微处理器协作以便执行本文中描述的方法中的一个。通常，优选地由任何硬件设备来执行该方法。

上述实施方式仅用于说明本发明的原理。应该理解的是，对于本领域其他技术人员来说，对本文中描述的布置和细节的修改和变化是显而易见的。因此，意在仅由本专利所附的权利要求的范围来进行限定，而非由在本文中对实施方式的描述和说明的方式来表示的特定细节来进行限定。

参考文献

[MPS]ISO/IEC 23003-1:2007,MPEG-D(MPEG audio technologies),Part 1:MPEGSurround,2007

[BCC]C.Faller and F.Baumgarte,“Binaural Cue Coding-Part II:Schemesand applications,”IEEE Trans.on Speech and Audio Proc.,vol.11,no.6,Nov.2003

[JSC]C.Faller,“Parametric Joint-Coding of Audio Sources”,120th AESConvention,Paris,2006

[SAOC1]J.Herre,S.Disch,J.Hilpert,O.Hellmuth:"From SAC To SAOC-RecentDevelopments in Parametric Coding of Spatial Audio",22nd Regional UK AESConference,Cambridge,UK,April 2007

[SAOC2]J.B.Resch,C.Falch,O.Hellmuth,J.Hilpert,A.L.Terentiev,J.Breebaart,J.Koppens,E.Schuijers and W.Oomen:"Spatial AudioObject Coding(SAOC)–The Upcoming MPEG Standard on Parametric Object BasedAudio Coding",124th AES Convention,Amsterdam 2008

[SAOC]ISO/IEC,“MPEG audio technologies–Part 2:Spatial Audio ObjectCoding(SAOC),”ISO/IEC JTC1/SC29/WG11(MPEG)International Standard 23003-2.

[ISS1]M.Parvaix and L.Girin:“Informed Source Separation ofunderdetermined instantaneous Stereo Mixtures using Source Index Embedding”,IEEE ICASSP,2010

[ISS2]M.Parvaix,L.Girin,J.-M.Brossier:“A watermarking-based methodfor informed source separation of audio signals with a single sensor”,IEEETransactions on Audio,Speech and Language Processing,2010

[ISS3]A.Liutkus and J.Pinel and R.Badeau and L.Girin and G.Richard:“Informed source separation through spectrogram coding and data embedding”,Signal Processing Journal,2011

[ISS4]A.Ozerov,A.Liutkus,R.Badeau,G.Richard:“Informed sourceseparation:source coding meets source separation”,IEEE Workshop onApplications of Signal Processing to Audio and Acoustics,2011

[ISS5]Shuhua Zhang and Laurent Girin:“An Informed Source SeparationSystem for Speech Signals”,INTERSPEECH,2011

[ISS6]L.Girin and J.Pinel:“Informed Audio Source Separation fromCompressed Linear Stereo Mixtures”,AES 42nd International Conference:SemanticAudio,2011

Claims

1.一种用于将编码了一个或更多个音频对象的输入音频信息进行适配以获得经适配的音频信息的设备，其中，所述输入音频信息包括两个或更多个输入音频缩混声道并且进一步包括输入参数化辅助信息其中，所述经适配的音频信息包括一个或更多个经适配的音频缩混声道并且进一步包括经适配的参数化辅助信息其中，所述设备包括：

缩混信号修改器(110)，用于取决于适配信息而将所述两个或更多个输入音频缩混声道进行适配，以获得所述一个或更多个经适配的音频缩混声道以及

参数化辅助信息适配器(120)，用于取决于所述适配信息而将所述输入参数化辅助信息进行适配，以获得所述经适配的参数化辅助信息

其中，所述适配信息包括适配矩阵

其中，所述缩混信号修改器(110)配置成取决于所述适配矩阵而将所述两个或更多个输入音频缩混声道进行适配，以获得所述一个或更多个经适配的音频缩混声道

其中，所述参数化辅助信息适配器(120)配置成取决于所述适配矩阵而将所述输入参数化辅助信息进行适配，以获得所述经适配的参数化辅助信息

2.根据权利要求1所述的设备，

其中，所述输入参数化辅助信息指示初始缩混矩阵，使得通过对所述一个或更多个音频对象(S)应用所述初始缩混矩阵来获得所述两个或更多个输入音频缩混声道以及

其中，所述参数化辅助信息适配器(120)配置成确定经适配的缩混矩阵作为所述经适配的参数化辅助信息使得通过对所述一个或更多个音频对象(S)应用所述经适配的缩混矩阵来获得所述一个或更多个经适配的音频缩混声道

3.根据权利要求1所述的设备，其中，所述缩混信号修改器(110)配置成取决于所述适配信息而将所述两个或更多个输入音频缩混声道进行适配，使得所述一个或更多个经适配的音频缩混声道的数目小于所述两个或更多个输入音频缩混声道的数目。

4.根据权利要求1所述的设备，其中，所述适配信息取决于解码器实例，以及其中，所述缩混信号修改器(110)配置成取决于所述解码器实例而将所述两个或更多个输入音频缩混声道进行适配。

5.根据权利要求4所述的设备，

其中，所述解码器实例最多能够将最大数目个缩混声道进行解码，

其中，所述适配信息取决于缩混声道的所述最大数目，以及

其中，所述缩混信号修改器(110)配置成取决于所述适配信息而将所述两个或更多个输入音频缩混声道进行适配，以获得所述一个或更多个经适配的音频缩混声道使得所述一个或更多个经适配的音频缩混声道的数目等于所述缩混声道的最大数目。

6.根据权利要求1所述的设备，其中，所述缩混信号修改器(110)配置成取决于所述适配矩阵而将所述两个或更多个输入音频缩混声道进行适配，以通过应用下式来获得所述一个或更多个经适配的音频缩混声道

7.根据权利要求1所述的设备，其中，所述参数化辅助信息适配器(120)配置成取决于所述适配矩阵而将所述输入参数化辅助信息进行适配，以通过应用下式来获得所述经适配的参数化辅助信息

8.一种用于从编码了一个或更多个音频对象的输入音频信息生成一个或更多个音频声道的装置(700；800、801、802；900、901、902)，其中，所述装置包括：

根据权利要求1至7中的一项所述的设备(710；810、811、812；910、911、912)，其用于将所述输入音频信息进行适配以获得经适配的音频信息，其中，所述输入音频信息包括两个或更多个输入音频缩混声道并且进一步包括输入参数化辅助信息，其中，所述经适配的音频信息包括一个或更多个经适配的音频缩混声道并且进一步包括经适配的参数化辅助信息，以及

解码器实例(720；820、821、822；920、921、922)，用于取决于所述经适配的参数化辅助信息而将所述一个或更多个经适配的音频缩混声道进行解码，以获得所述一个或更多个音频声道。

9.根据权利要求8所述的装置(700；800、801、802)，

其中，根据权利要求1至7中的一项所述的设备(710；810、811、812)的参数化辅助信息适配器(120)配置成接收包括所述输入参数化辅助信息的输入比特流，

其中，根据权利要求1至7中的一项所述的设备(710；810、811、812)的参数化辅助信息适配器(120)配置成将所述输入参数化辅助信息进行适配，以获得所述经适配的参数化辅助信息，以及将所述经适配的参数化辅助信息馈送到所述解码器实例(720；820、821、822)中，以及

其中，所述解码器实例(720；820、821、822)配置成取决于所述经适配的参数化辅助信息而将所述一个或更多个经适配的音频缩混声道进行解码。

10.根据权利要求8所述的装置(700；900、901、902)，

其中，根据权利要求1至7中的一项所述的设备(710；910、911、912)的参数化辅助信息适配器(120)配置成接收包括所述输入参数化辅助信息的输入比特流，

其中，根据权利要求1至7中的一项所述的设备(710；910、911、912)的参数化辅助信息适配器(120)配置成用所述经适配的参数化辅助信息来取代所述输入比特流内的输入参数化辅助信息，以获得经修改的比特流，

其中，根据权利要求1至7中的一项所述的设备(710；910，911，912)的参数化辅助信息适配器(120)配置成将所述经修改的比特流馈送到所述解码器实例(720；920、921、922)中，以及

其中，所述解码器实例(720；920、921、922)配置成取决于所述经修改的比特流而将所述一个或更多个经适配的音频缩混声道进行解码。

11.一种用于将编码了一个或更多个音频对象的输入音频信息进行适配以获得经适配的音频信息的方法，其中，所述输入音频信息包括两个或更多个输入音频缩混声道并且进一步包括输入参数化辅助信息，其中，所述经适配的音频信息包括一个或更多个经适配的音频缩混声道并且进一步包括经适配的参数化辅助信息，其中，所述方法包括：

取决于适配信息而将所述两个或更多个输入音频缩混声道进行适配，以获得所述一个或更多个经适配的音频缩混声道，以及

取决于所述适配信息而将所述输入参数化辅助信息进行适配，以获得所述经适配的参数化辅助信息，

其中，所述适配信息包括适配矩阵，

其中，将所述两个或更多个输入音频缩混声道进行适配的步骤包括取决于所述适配矩阵而将所述两个或更多个输入音频缩混声道进行适配，以获得所述一个或更多个经适配的音频缩混声道，

其中，将所述输入参数化辅助信息进行适配的步骤包括取决于所述适配矩阵而将所述输入参数化辅助信息进行适配，以获得所述经适配的参数化辅助信息。

12.根据权利要求11所述的方法，

其中，所述输入参数化辅助信息指示初始缩混矩阵，使得通过对所述一个或更多个音频对象应用所述初始缩混矩阵来获得所述两个或更多个输入音频缩混声道，以及

其中，将所述输入参数化辅助信息进行适配的步骤包括确定经适配的缩混矩阵作为所述经适配的参数化辅助信息，使得通过对所述一个或更多个音频对象应用所述经适配的缩混矩阵来获得所述一个或更多个经适配的音频缩混声道。

13.一种计算机可读介质，包括计算机程序，用于当所述计算机程序由计算机或者信号处理器执行时实现权利要求11或12所述的方法。