CN101506875A

CN101506875A - 用于组合多个参数编码的音频源的设备和方法

Info

Publication number: CN101506875A
Application number: CNA2007800316820A
Authority: CN
Inventors: 约翰内斯·希尔珀特; 于尔根·赫勒; 卡斯滕·林茨迈尔; 奥立弗·赫尔穆特; 索尔斯滕·克斯特纳
Original assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Priority date: 2006-07-07
Filing date: 2007-04-24
Publication date: 2009-08-12
Anticipated expiration: 2027-04-24
Also published as: CN101506875B; MY151722A; ZA200900016B

Abstract

根据本发明，可以使用音频信号发生器(100)来有效地组合多个参数编码的音频信号，该音频信号发生器(100)通过在参数域内直接将下混声道(110a，112a)与音频信号的相关参数进行组合来产生音频输出信号(120)，也就是说，无需在产生音频输出信号(120)之前对各个输入音频信号进行重构和解码。这通过直接混合各个输入信号的相关下混声道(110a，112a)来实现。本发明的一个关键特征在于：通过简单、计算量低的算术运算来实现下混声道(110a，112a)的组合。

Description

用于组合多个参数编码的音频源的设备和方法

技术领域

本发明涉及多声道音频编码，具体涉及一种以灵活且有效的方式组合参数编码音频流的概念。

背景技术

音频编码领域的最新发展已经提出若干参数音频编码技术，用于共同将多声道音频信号(例如，5.1声道)编码成一个(或更多个)下混声道加辅助信息流。通常，辅助信息流具有与多声道信号的原始声道相对于多声道信号的其他原始声道或相对于下混声道的属性相关的参数。这些参数与参考声道的参数的特定定义相关联，所述特定定义取决于特定实现。本领域已知的一些技术是“双耳线索编码”、“空间音频编码”和“参数立体声”。

针对这些特定实现的细节，一并参照相关公开。例如，双耳线索编码描述如下：

C.Faller和F.Baumgarte的“Efficient representation of spatial audiousing perceptual parametrization”，IEEE WASPAA，Mohonk，NY，October 2001；F.Baumgarte和C.Faller的“Estimation of auditory spatialcues for binaural cue coding”，ICASSP，Orlando，FL，May 2002；C.Faller和F.Baumgarte的“Binaural cue coding：a novel and efficientrepresentation of spatial audio”，ICASSP，Orlando，FL，May 2002；C.Faller和F.Baumgarte的“Binaural cue coding applied to audiocompression with flexible rendering”，AES 113th Convention，LosAngeles，Preprint 5686，October 2002；C.Faller和F.Baumgarte的“Binaural Cue Coding-Part II：Schemes and applications”，IEEE Trans.on Speech and Audio Proc.，vol.11，no.6，Nov.2003。

尽管双耳线索编码使用多个原始声道，但参数立体声是产生发送单声道信号和参数辅助信息的双声道立体声信号的参数编码的相关技术，例如，见以下公开：

J.Breebaart，S.van de Par、A.Kohlrausch、E.Schuijers上网“High-Quality Parametric Spatial Audio Coding at Low Bitrates”，AES116th Convention，Berlin，Preprint 6072，May 2004；E.Schuijers、J.Breebaart、H.Purnhagen、J.Engdegard的“Low Complexity ParametricStereo Coding”，AES 116th Convention，Berlin，Preprint 6073，May2004。

其他技术基于将任意数目的音频源或对象复用成单个发送音频声道。例如，在BCC(双耳线索编码)相关公开中、或最近通过被称作“联合源编码”(JSC)的方案引入基于复用的方案作为“柔性呈现”。例如，相关公开为：C.Faller的“Parametric Joint Coding of AudioSources”，Convention Paper 6752，120th AES Convention，Paris，May2006。与参数立体声和双耳线索编码方案类似，这些技术意在对多个原始音频对象(声道)进行编码，以通过较少的下混声道进行发送。此外，通过导出每一输入声道的基于对象的参数，可以在接收机侧将这些对象分离并呈现(混合)至特定数目的输出设备，例如头戴耳机、双声道立体声扬声器或多声道扬声器装置，可以以极低的数据速率对所述基于对象的参数进行编码并将其发送至接收机。该方法允许将不同音频对象电平调整并重新分配(规划)至再现装置(即接收机侧)中的不同位置。

基本上，这样的技术始于M-k-N发射机，M是输入处的音频对象的数目，k是发送的下混声道的数目，通常k≤2。N是呈现器输出处的音频声道的数目，即，例如扬声器的数目。也就是说，N＝2针对立体声呈现器，或N＝6针对5.1多声道扬声器装置。在压缩效率方面，感知编码的下混声道(由k个音频声道组成)的典型值为例如小于等于64kbps，并且每一发送的音频对象的对象参数的典型值为3kbps。

例如，上述技术的应用情况是与电影院电影产品相关的空间音频场景的编码，用以允许家庭影院系统中声音的空间再现。普通示例是电影介质(例如DVD等)上的广泛熟知的5.1和7.1环绕声轨迹。电影产品相对于音频场景越来越复杂，意在提供空间收听体验，由此必须更仔细地混合电影场景。可以委托不同的音响师混合不同的环绕声或声音效果，并因此期望在各个录音师之间发送感知编码的多声道情况，从而有效地传递各个录音师的音频流。

此类技术的其他应用情况是在点对点连接的任一端处的多个谈话者的电话会议。为了节约带宽，大多数电话会议装置按单声道发送方式运行。例如，使用联合源编码或用于发送的其他多声道编码技术之一，可以在接收端(每一端)处实现不同谈话者的电平调整和重新分配，并因此通过花费比单声道系统相对增加的比特速率来增强扬声器的清晰度和平衡。在将会议的每一单个参与者分配给多声道扬声器的单个声道(和这样的扬声器)的特定情况下，增加清晰度的优点变得特别明显。然而，这是特定情况。通常，参与者的数目与接收端处的扬声器的数目不相匹配。然而，可以通过使用现有的扬声器装置来呈现与每一参与者相关联的信号，从而看起来所述信号源自任一期望的位置。也就是说，不仅可以通过单个参与者的不同声音而且可以通过与对话参与者相关的音频源来识别该单个参与者。

尽管现有技术实现概念是关于如何有效地对多个声道或音频对象进行编码，所有当前已知的技术缺乏有效地组合两个或多个这些发送的音频流来导出输出流(输出信号)的能力，所述输出流代表所有输入音频流(输入音频信号)。

例如，当考虑具有两个以上位置(每一位置具有一个或多个扬声器)的电话会议情况时，会出现问题。因此，需要中间步骤来接收单个源的音频输入信号，以及针对仅具有剩余电话会议位置的信息的每一电话会议位置产生音频输出信号。也就是说，中间步骤必须产生输出信号，该输出信号是从两个或独个音频输入信号的组合中导出的，并允许再现两个或多个输入信号的单个音频声道或音频对象。

当电影院电影生产中的两个录音师期望组合他们的空间音频信号来检查两个信号所产生的收听印象时，也会出现类似的情况。因此，可能期望直接组合两个编码多声道信号来检查组合的收听印象。也就是说，组合信号需要类似两个录音师的所有音频对象(源)。

然而，根据现有技术，这样的组合仅通过对音频信号(流)进行解码才是可行的。因此，现有技术的多声道编码器可以再次对解码的音频信号进行重新编码，以来产生恰当地代表所有原始音频声道或音频对象的组合信号。

这具有高计算复杂性的缺点，因此，浪费大量资源，并且有时(特别是在实时情况下)甚至无法应用该概念。此外，由于特定应用(例如，电话会议/电信)不能接受的两个处理步骤，因此后续音频编码和重新编码的组合可以引起相当大的延时。

发明内容

本发明的目的是提供一种有效地组合多个参数编码的音频信号的概念。

根据本发明的第一方面，这个目的通过一种用于产生音频输出信号的音频信号发生器来实现，音频信号发生器包括：音频信号接收机，用于接收第一音频信号和第二音频信号，第一音频信号包括具有关于两个或更多个第一原始声道的信息的第一下混声道，第一音频信号还包括与第一原始声道中的一个相关联的、描述第一原始声道中的一个相对于参考声道的属性的原始参数，第二音频信号包括具有关于至少一个第二原始声道的信息的第二下混声道；声道组合器，用于通过将第一下混声道和第二下混声道进行组合来导出组合下混声道；参数计算器，用于导出第一组合参数和第二组合参数，第一组合参数描述第一原始声道中的一个相对于公共参考声道的属性，第二组合参数描述第一原始声道中的另一个或所述至少一个第二原始声道相对于公共参考声道的属性；以及输出接口，用于输出包括组合下混声道、第一和第二组合参数在内的音频输出信号。

根据本发明的第二方面，这个目的通过一种产生音频输出信号的方法来实现，所述方法包括：接收第一音频信号和第二音频信号，第一音频信号包括具有关于两个或更多个第一原始声道的信息的第一下混声道，第一音频信号还包括与第一原始声道中的一个相关联的、描述第一原始声道中的一个相对于参考声道的属性的原始参数，第二音频信号包括具有关于至少一个第二原始声道的信息的第二下混声道；通过将第一下混声道和第二下混声道进行组合来导出组合下混声道；导出第一组合参数和第二组合参数，第一组合参数描述第一原始声道中的一个相对于公共参考声道的属性，第二组合参数描述第一原始声道中的另一个或至少一个第二原始声道相对于公共参考声道的属性；以及输出包括组合下混声道以及第一和第二组合参数在内的音频输出信号。

根据本发明的第三方面，这个通过三个或更多个音频声道的表示来实现，所述表示包括：组合下混声道，作为第一下混声道和第二下混声道的组合，第一下混声道具有关于至少两个第一原始声道的信息，第二下频声道具有关于至少一个第二原始声道的信息；第一参数，描述至少两个第一原始声道中的一个相对于参考声道的属性；以及第二参数，描述第一原始声道中的另一声道相对于参考声道的属性或至少一个第二原始声道相对于参考声道的属性。

根据本发明的第四方面，这个目的通过实现一种用于产生音频输出信号的方法的计算机程序来实现，所述方法包括：接收第一音频信号和第二音频信号，第一音频信号包括具有关于两个或更多个第一原始声道的信息的第一下混声道，并包括与第一原始声道中的一个相关联的、描述第一原始声道中的一个相对于参考声道的属性的原始参数，第二音频信号包括具有关于至少一个第二原始声道的信息的第二下混声道；通过将第一下混声道和第二下混声道进行组合来导出组合下混声道；导出第一组合参数和第二组合参数，第一组合参数描述第一原始声道中的一个相对于公共参考声道的属性，第二组合参数描述第一原始声道中的另一个或至少一个第二原始声道相对于公共参考声道的属性；以及输出包括组合下混声道以及第一和第二组合参数在内的音频输出信号。

根据本发明的第五方面，这个目的通过一种具有用于产生音频输出信号的音频信号发生器的会议系统来实现，所述会议系统包括：音频信号接收机，用于接收第一音频信号和第二音频信号，第一音频信号包括具有关于两个或更多个第一原始声道的信息的第一下混声道，第一音频信号还包括与第一原始声道中的一个相关联的、描述第一原始声道中的一个相对于参考声道的属性的原始参数，第二音频信号包括具有关于至少一个第二原始声道的信息的第二下混声道；声道组合器，用于通过将第一下混声道和第二下混声道进行组合来导出组合下混声道；参数计算器，用于导出第一组合参数和第二组合参数，第一组合参数描述第一原始声道中的一个相对于公共参考声道的属性，第二组合参数描述第一原始声道中的另一个或至少一个第二原始声道相对于公共参考声道的属性；以及输出接口，用于输出包括组合下混声道、第一和第二组合参数在内的音频输出信号。

本发明基于以下发现：可以使用音频信号发生器或音频信号组合器来有效地组合多个参数编码的音频信号，所述音频信号发生器或音频信号组合器通过在参数域内直接将下混声道与音频输入信号的相关参数进行组合来产生音频输出信号，即，不用在产生音频输出信号之前对单个音频输入信号进行重构或解码。更具体地，这可以通过直接混合各个输入信号的关联下混声道来得以实现，例如通过对各个输入信号的关联下混声道的线性组合的求和或形成来实现。本发明的关键特征在于：通过简单、计算量少的算术运算(例如，求和)来实现下混声道的组合。

这同样适用于与下混声道相关联的参数的组合。通常，在输入音频信号的组合期间将至少必须改变关联参数的子集，最重要的是，执行改变参数的计算是简单的，并且不需要大量的计算量也不会引起附加的延时，例如，通过使用涉及存储器的滤波器组或其他运算。

根据本发明的一个实施例，实现一种用于产生音频输出信号的音频信号发生器，以将第一和第二音频信号进行组合，第一和第二音频信号均为参数编码的。为了产生音频输出信号，本发明的音频信号发生器提取输入音频信号的下混声道，并通过形成两个下混声道的线性组合来产生组合下混声道。也就是将各个声道与所应用的附加权重相加。

在本发明的优选实施例中，所应用的权重是通过非常简单的算术运算导出的，例如，通过使用由第一音频信号和第二音频信号表示的声道的数目作为计算的基础。

在另一优选实施例中，在假设输入信号的每一原始音频声道对于具有相同量的总信号能量有所贡献的前提下，执行加权计算。也就是说，所应用的权重是输入信号的声道数目与声道总数目的比。

在本发明的另一优选实施例中，基于包含在下混声道内的能量来计算各个下混声道的权重，从而能够更加可靠地再现所产生的输出音频信号中所包括的组合下混声道。

在本发明的另一优选实施例中，由于仅改变与两个音频信号中的一个相关联的参数，将进一步降低计算量。也就是说，照旧发送另一音频信号的参数，因此，不会引起任何计算并使本发明的音频信号发生器上的负载最小化。

在以下段落中，将针对使用联合源编码(JSC)的编码方案来详细描述本发明的概念。在这种情况下，本发明将这项技术扩展用于通过在参数域内混合JSC下混信号和对象信息来将多个单声道或支持JSC的收发机连接至远程站。如上所述，本发明的概念不局限于使用JSC编码，并且还可以通过BCC编码或其他多声道编码方案(例如，MPEG空间音频编码(MPEG环绕)等)得以实现。

由于本发明的概念主要将通过使用JSC编码来详细描述，因此在以下段落中将简要地回顾JSC编码，以便在将本发明的概念应用至现有的多声道音频编码方案时，更清晰地指出本发明概念的灵活性以及和相对于现有技术的提高。

附图说明

图1示出了JSC编码方案的示例；

图2示出了JSC呈现器的示例；

图3示出了具有两个位置的电话会议情况；

图4示出了具有三个位置的电话会议情况；

图5示出了使用本发明的音频信号发生器的电话会议的示例；

图6示出了使用本发明的音频信号发生器的电话会议的另一示例；

图6b示出了本发明的概念的反向兼容性；以及

图7示出了本发明的音频信号发生器的示例。

具体实施方式

下面将参照图1和2对JSC编码进行解释。在附图中，功能相同的组件共享相同的附图标记，这表明：在不丧失或限制功能并且不限制本发明的范围的前提下，可以在本发明的单个实施例之间互换提供相同功能的各个组件。

图1示出了联合源编码方案的方框图、相应的编码器2和相应解码器4。

编码器2接收离散音频输入s_i(n)6a、6b和6c，并且例如通过波形叠加创建下混信号s(n)8。

此外，编码器2内的参数提取器10提取每一单个对象(信号6a、6b和6c)的参数辅助信息。尽管未在图1中示出，下混信号8还可以通过语音或音频编码器进行压缩，并同相邻参数辅助信息一起被发送至JSC解码器4。解码器4内的合成模块12重新产生输入对象(声道6a、6b和6c)的估计14a、14b和14c(

)。

为了重构感知上类似于离散输入对象(输入声道)6a、6b和6c的估计14a、14b和14c，必须提取每一声道的适合的参数辅助信息。由于为了产生下混信号8而各个声道进行，因而声道之间的功率比是适合的量。因此，不同对象或声道的参数信息由每一对象相对于第一对象(参考对象)的功率比Δp组成。

该信息是以与人类听觉感知的临界频带分辨率相对应的非等间距频带(子带)在频域中导出的。这是例如在J.Blauert的“SpatialHearing：The Psychophysics of Human Sound Localization”，The MITPress，Cambridge，MA，revised edition 1997中更详细描述的概念。

也就是说，将宽带输入音频信号滤波成带宽有限的若干频带，并且针对各个频带中的每一个执行以下计算。如上所述，第一对象(参考对象或参考声道)的分段频带功率作为参考值。

Δ p_{i} (n) = 10 \log_{10} \frac{E {s_{i}^{2} (n)}}{E {s_{1}^{2} (n)}}, i = 2 . . . M

方程1

为了避免人工产物的引入(例如通过除零而引入的人工产物)，还可以将这些功率比限制在例如每一子带24dB的最大值。此外，可以在提交之前对功率比进行进一步量化，以另外节省传输带宽。

没有必要显式地发送第一对象的功率。取而代之，可以根据以下假设导出该值：对于统计上独立的对象，合成信号

的功率之和等于下混信号s(n)的功率。在数学表达式方面，这表示为：

E {s^{2} (n)} = Σ_{i = 1}^{M} E {{\hat{s}}_{i}^{2} (n)}

方程2

基于该假设和方程，可以重构第一对象(参考对象或参考声道)的子带功率，这在下面详述本发明概念时将进一步予以描述。

总之，根据JSC的音频信号或音频流包括下混声道和关联参数，该参数描述原始声道相对于一个原始参考声道的功率比。应当注意的是，由于选择其他声道作为参考声道，因此可以容易地改变这种情况。例如，下混声道本身可以是参考声道，需要发送一个附加参数，将第一、前一个参考声道的功率与下混声道的功率相关。同样，由于可以选择具有最大功率的一个声道作为参考声道，因此可以改变所选的参考声道。因此，各个声道内的功率可以随着时间改变，参考声道也可以随着时间改变。同样，由于通常以频率选择方式执行所有处理的事实，参考声道对于不同频带可以不同。

图2示出了基于图1的方案的JSC编码的另一增强方案。存储或发送框20包括了关于图1的详细特征，存储或发送框20接收要被编码的输入声道6，并输出输入声道6的估计14。由于图2的方案还包括用于接收估计的混合器22，因而增强了图2的方案。也就是说，合成的对象14并不作为单个音频信号而直接输出，而是在混合器模块中被呈现给N个输出声道。可以以不同的方式来实现这样的混合器，例如，接收附加的混合参数24作为输入来操纵对于合成对象14的混合。仅作为示例，可以考虑电话会议的情况，其中，输出声道26中的每一个属于会议的一个参与者。因此，接收端处的参与者实质上能够通过将他们的语音分配到各个位置来隔开其他参与者。因此，不仅语音可以作为准则来区分电话会议的不同参与者，而且收听者可以根据方向接收参与者的语音。此外，收听者可以布置输出声道，从而将来自相同电话会议位置的所有参与者聚集在同一方向，更加增强感知的体验。

如图2所示，s₁(n)...s_M(n)表示JSC编码器的输入处的离散音频对象。在JSC解码器的输出处，

表示被馈送进混合器的‘实质上’隔开的音频对象。可以在接收机侧处对混合参数24进行交互修改，以在输出声道

所再现的声音舞台中放置不同的对象。

图3示出了多声道音频编码方案在基本电话会议场景中的应用，这是在两个位置之间发生的。这里，第一位置40与第二位置42进行通信。第一位置可以具有A参与者，即音频对象，第二位置具有B参与者或音频对象。对于点对点的电话会议，可以直接应用所描述的JSC编码技术来在每一位置处向相应的远程站发送多个对象的音频信号。也就是说，将(A-1)参数a_i和关联下混传递至位置42。在相反方向，将(B-1)参数b₁与关联下混一同发送至位置40。

如图4所示，对于与多于两个终端的电话会议，情况完全不同。

图4示出了位置40和42以外的第三位置44。在图4中可以看到，这样的情况需要针对关联音频信号的中央分配器(通常被称作多点控制单元MCU)。位置(站点)40、42和44中的每一个连接至MCU 46。对于每一站点40、42、44，存在到包含来自站点的信号的MCU的单个上游。由于每一单个站点需要从剩余站点接收信号，除了站点自身的信号以外，每一站点40、42和44的下游是其他站点的信号的混合(也被称作(N-1)信号)。通常，为了满足建立的需要并保持适当低的传输带宽，从MCU到每一站点发送N-1个JSC编码流不可行。当然，这是直接的操作。

导出单个下游的现有技术方法是使用JSC解码器在MCU 46内再合成所有输入的流(对象)。然后，对再合成的音频对象进行重新分组和重新编码，以向每一站点提供包括期望音频对象或音频声道在内的音频流。即使在这种简单的情况下，这意味着在MCU 46中必须同时执行的三次解码和三次编码的任务。除了大量的计算需要，通过该参数“前后编码”(重复编码/解码)处理还可以另外预期可听的人工产物。增加站点的数目将进一步增加流的数目，并增加所需的编码或解码过程的次数，使直接方法对于实施情况不可行。

因此，根据本发明，针对这样的MCU类型的情况，开发了在下混和对象参数域内直接混合不同参数编码流(在本特定示例中使JSC流)的方案，创建具有最小计算量和质量损失的期望输出信号(输出音频流)。

在以下段落中，针对JSC编码音频流，详述在参数域内直接混合多声道参数编码音频流的本发明概念。

本发明概念是通过将两个原始音频信号(流)组合成一个输出信号来解释的。从组合两个流的情况可以容易地导出将三个或更多个流结合在一起。以下通过图5对数学条件进行描述，图5示出了站点A的三个音频声道必须与站点B的四个音频声道进行组合的情况。也就是说，当然仅一个示例就可以设想本发明的概念。当使用JSC编码时，具有产生信号s_Ax的三个会议参与者(讲话者)52a至52c的站点50(A)发送音频流或音频信号54。音频信号54具有下混声道s_A以及参数a₂和a₃，使声道52b和52c的功率与声道52a的功率相关。同样，站点56(B)发送具有下混声道s_B和三个参数b₂、b₃和b₄的音频信号，下混声道s_B和三个参数b₂、b₃、和b₄是四个讲话者60a至60d的JSC编码表示。MCU 46将音频信号54和58进行组合，以导出具有组合下混声道s_Y和六个参数y₂、...、y₇的输出信号62。

在接收侧，接收机64对输出信号62进行解码，以导出七个音频对象或站点50和56的音频声道的表示。

一般地，目标是形成两个JSC流54和58的单一组合表示62，通过一个公共下混信号s_Y和表征对象的一组对象参数来表示多个对象。理想情况下，组合的JSC表示应当与通过将基于两个JSC流的原始源信号的完整集合在一个步骤中编码成单个JSC流而获得的表示相同。

为了使以下的方程简单化，假设从方程1获得的相对功率比在对数域中不可用，而仅作为功率比。可以从以下方程导出特定对象i的每一对象参数r_i(n)。

r_{i} (n) = \frac{E {s_{r_{i}}^{2} (n)}}{E {s_{r_{1}}^{2} (n)}}

方程3

然后，将对数域的变换应用于每一参数，以便实现使用对数幂刻度的量化。

以下假设将所有信号分解成子带表示，分别对每一子带应用一次计算。

流A具有其下混信号s_A和对象U的参数a₂...a_U(相对功率比)。流B包括下混信号s_B和对象V的参数b₂...b_V。

可以形成组合下混信号s_Y作为两个下混信号s_A和s_B的线性组合。为了确保不同对象贡献的正确音量级，可以应用增益系数g_A和g_B。

s_Y＝g_A·s_A+g_B·s_B

其中，

g_{A} = \frac{U}{(U + V)},

g_{B} = \frac{V}{(U + V)}

如果已经对相等平均功率的单个声音源求和并归一化为下混路径的满量程，则这种缩放是有意义的。

备选地，可以针对增益系数使用功率保留方法。

g_{A} = \sqrt{\frac{U}{(U + V)}},

g_{B} = \sqrt{\frac{V}{(U + V)}}

其他可能是选择增益系数，从而使两个下混信号对组合的下混贡献相同的平均功率，即通过以下方程来选择

\frac{g_{B}}{g_{A}} = \sqrt{\frac{E {s_{A}^{2} (n)}}{E {s_{B}^{2} (n)}}}

组合流s_Y的对象参数y_i应当表示所有U+V对象。

由于与下混声道相关的参数是相对功率比，因此可以照旧使用参数a₂，...，a_U(未改变)，并且将对象B的参数拼接至参数a₂，...，a_U。一旦选择信号A的第一对象作为参考对象或参考声道，则必须将原始参数b_i变换为与参考声道相关。应当注意的是，仅必须重新计算一个流的参数，这进一步降低了MCU 46中的计算负载。

还应当注意的是，没有必要使用原始音频流之一的参考声道作为新参考声道。利用选自站点A或B的原始声道的其他参考声道也可以很好地实现在参数域内组合参数编码音频流的本发明的概念。还可以使用组合下混声道作为新的参考声道。

以下是使用站点A的原始参考声道(组合参考声道)作为新参考声道的方法，首先必须计算每一信号A和B的第一对象(声道)的能量(功率)，这是由于这些仅隐式地可用。

假设统计上独立的源，下混信号A的功率保持给出了以下方程：

E {s_{A}^{2} (n)} = Σ_{i = 1}^{U} E {{\hat{s}}_{i}^{2} (n)}

信号功率

是利用其相对功率a₂...a_U和

定义的：

E {s_{A_{2}}^{2} (n)} = a_{2} \cdot E {s_{A_{1}}^{2} (n)}

E {s_{A_{3}}^{2} (n)} = a_{3} \cdot E {s_{A_{1}}^{2} (n)}

...

E {s_{A_{U}}^{2} (n)} = a_{U} \cdot E {s_{A_{1}}^{2} (n)}

这使

的功率为：

E {s_{A_{1}}^{2} (n)} = \frac{E {s_{A}^{2} (n)}}{(1 + a_{2} + a_{3} + . . . + a_{U})}

对下混信号s_B应用同样的运算，可以计算对象

的功率为：

E {s_{B_{1}}^{2} (n)} = \frac{E {s_{B}^{2} (n)}}{(1 + b_{2} + b_{3} + . . . + b_{V})}

现在可以为信号s_Y的所有对象构建新的参数集合：

y₁：(未发送、参考对象、隐式可用)

y₂＝a₂

y₃＝a₃

...

y_U＝a_U

y_{U + 1} = \frac{g_{B}^{2}}{g_{A}^{2}} \cdot \frac{E {s_{B_{1}}^{2} (n)}}{E {s_{A_{1}}^{2} (n)}},

(信号B的第一对象相对于参考对象A1的功率比)

y_{U + 2} = b_{2} \cdot \frac{g_{B}^{2}}{g_{A}^{2}} \cdot \frac{E {s_{B_{1}}^{2} (n)}}{E {s_{A_{1}}^{2} (n)}},

(重新归一化的信号B的第二对象与参考对象A1的功率的功率比)

y_{U + 3} = b_{3} \cdot \frac{g_{B}^{2}}{g_{A}^{2}} \cdot \frac{E {s_{B_{1}}^{2} (n)}}{E {s_{A_{1}}^{2} (n)}},

...

y_{U + V} = b_{V} \cdot \frac{g_{B}^{2}}{g_{A}^{2}} \cdot \frac{E {s_{B_{1}}^{2} (n)}}{E {s_{A_{1}}^{2} (n)}},

如先前段落所示，本发明的概念使得仅仅使用简单的算术运算就能够产生组合音频流，因此在计算上非常有效。因此，可以实时地执行对多个参数编码的音频流的组合。

为了进一步强调本发明概念的极大灵活性，图6示出了如何有创造性地将站点56处的单个讲话者所产生的单声道信号70与站点50处的讲话者的两个或更多个JSC编码信号进行组合。也就是说，由于本发明的概念的灵活性，可以创造性地将任意电话会议系统的单声道信号与参数编码多声道(多对象)源进行组合，以产生表示所有原始音频声道(对象)的JSC编码音频信号。

可延伸的兼容性还具有无法发送JSC对象而只能发送传统单声道信号的远程站，该技术还可应用于将来自例如传统会议设备的单声道对象插入基于对象的流中。

上述具有JSC流A(下混s_A，参数a₂...a_U)和单声道对象C(下混s_C)的示例产生具有下混信号的组合信号Z

s_Z＝g_A·s_A+g_C·s_C

增益系数如前所述，其对象参数如下：

y₁：未发送(参考对象、隐式可用)

y₂＝a₂

y₃＝a₃

...

y_U＝a_U

y_{U + 1} = \frac{g_{C}^{2}}{g_{A}^{2}} \cdot \frac{E {s_{C}^{2} (n)}}{E {s_{A_{1}}^{2} (n)}}

(信号C相对于参考对象A1的功率比)

译码/合并两个JSC流的上述示例取决于方程1中给出的对象功率的表示。尽管如此，本发明的方法同样还可以应用于其他表示该信息的方式。

图6b同样强调合并一个单声道音频源的本发明概念的极大灵活性。图6b是基于图4的多声道情况，并且还示出了如何使用本发明的MCU 46轻易地将音频源C(44)处的现有技术单声道音频编码器集成到多声道音频会议中。

如前所述，本发明的概念不局限于具有预定固定参考声道的JSC编码。因此，在备选示例中，可以计算相对于随时间变化的参考声道的功率比，参考声道是在给出的预定时间间隔内具有最大能量的一个声道。代替将分段频带信号功率值归一化至固定参考声道(对象)的相应频带的功率、并将结果变换至如方程1所概述的对数(dB)域，可以在特定频带中相对于所有对象的最大功率进行归一化：

{pnorm}_{i} (n) = \frac{E {s_{i}^{2} (n)}}{\max_{i} (E {s_{i}^{2} (n)})},

i＝1...M 方程4

由于这些归一化的功率值本身具有0和1之间的值，这些归一化的功率值(以线性表示给出)不需要再受限于特定的上限。这一优点必然伴随着必须发送不再是先验的已知参考声道的一个附加参数的缺点。

这种情况的混合处理将包括以下步骤(同样必须针对每一子带分别执行)：

使得流A具有下混信号s_A和对象U的参数a₁...a_U(归一化功率值，方程3、方程1)。

流B由下混信号s_B和对象V的参数b₁...b_V组成。

可以根据已经示出的选项之一来形成组合下混信号：

s_Y＝g_A·s_A+g_B·s_B

必须关于具有信号Y的所有对象的最高功率的对象来设置组合表示y_i的所有归一化功率值。对于Y的该“最大对象”存在两个候选，A的最大对象或B的最大对象，二者均可以由归一化功率比“1”标识。

这一判定可以通过比较两个候选的绝对功率来进行。此外，可以使用下混信号的功率的关系式(方程2)来获得：

E {s_{A_{amx}}^{2} (n)} = \frac{E {s_{A}^{2} (n)}}{Σ_{i = 1}^{U} a_{i}}

和

E {s_{B_{amx}}^{2} (n)} = \frac{E {s_{B}^{2} (n)}}{Σ_{i = 1}^{V} b_{i}}

现在可以将加权的最大对象功率与下混处理的增益系数进行比较：

g_{A}^{2} \cdot E {s_{A_{amx}}^{2} (n)} > g_{B}^{2} \cdot E {s_{B_{\max}}^{2} (n)} ?

不管对象的功率是否更高，该对象将用作组合参数的y_i“最大对象”。

作为示例，使a₂成为两个信号A和B的总最大功率对象，然后所有其他参数可以组合为：

y₁＝a₁

y₂＝a₂

...

y_U＝a_U

y_{U + 1} = b_{1} \frac{g_{B}^{2}}{g_{A}^{2}} \cdot \frac{E {s_{B_{\max}}^{2} (n)}}{E {s_{A_{\max}}^{2} (n)}},

(信号B的第一对象相对于“最大对象”(这里为a₂)的功率比)

y_{U + 2} = b_{2} \cdot \frac{g_{B}^{2}}{g_{A}^{2}} \cdot \frac{E {s_{B_{\max}}^{2} (n)}}{E {s_{A_{\max}}^{2} (n)}}

...

y_{U + V} = b_{V} \cdot \frac{g_{B}^{2}}{g_{A}^{2}} \cdot \frac{E {s_{B_{\max}}^{2} (n)}}{E {s_{A_{\max}}^{2} (n)}}

对于本示例，由于信号A携带总的最大对象，A的对象的所有参数保持不变。

同样在该表示中，相应地可以进行单声道对象的插入，例如通过假设V＝1。

通常，如果已经将两个流的所有原始对象编码进第一地点的单个JSC流，则执行译码处理，使得其结果接近已经实现的结果。

图7示出了用于产生音频输出信号的本发明的音频信号发生器的示例，其可以在MCU 46内使用，以实现本发明的概念。

音频信号产生器100包括音频信号接收机102、声道组合器104、参数计算器106和输出接口108。

音频信号接收机102接收包括第一下混声道110a的第一音频信号110，第一下混声道110a具有有关两个或更多个第一原始声道的信息，并包括与原始第一声道中的一个相关联的、描述原始第一声道中的一个相对于参考声道的属性的原始参数110b。音频信号接收机102还接收包括第二下混声道112a的第二音频信号112，第二下混声道112a具有关于至少一个第二原始声道的信息。

音频信号接收机将第一下混声道110a和第二下混声道112a输出至声道组合器104的输入，并且将第一下混声道110a、第二下混声道112a和原始参数110b输出至参数计算器106。

声道组合器104通过将第一下混声道110a和第二下混声道112b进行组合来导出组合下混声道114，即，在无需重构基本原始音频声道的情况下直接组合下混声道。

参数计算器106导出第一组合参数116a和第二组合参数116b，第一组合参数116a描述第一原始声道中的一个相对于公共参考声道的属性，第二组合参数116b描述第一原始声道中的另一个或至少一个第二原始声道相对于相同公共参考声道的属性。将第一和第二组合参数输入至输出接口108，输出接口108还从声道组合器104接收组合下混声道114。最后，输出接口输出包括组合下混声道114以及第一和第二组合参数116a和116b在内的输出信号120。

因此，在无需全部重构输入音频信号、并且无需大量计算运算的情况下，已经导出音频输出信号。

在上述段落中，已经示出了混合各自基于JSC参数方法的两个或更多个信号的总体概念。具体地，上述方程示出了如何将该技术应用于由相对功率比组成的参数信息的情况。然而，该技术不局限于对象参数的特定表示。因此，也可以使用描述各个音频声道的幅度测量或其他属性(例如，相关)的参数。以发送一个附加参数为代价，还可以计算相对于组合下混声道的功率比。相反，由于不使用参考声道的功率(没有以“普通”JSC方式显式地进行发送)的重构，该备选情况的优点是在音频流混合期间降低了计算复杂性。

此外，本发明不局限于电话会议情况，并且可应用于期望将参数对象复用成单个流的任何情况。这可以例如是BCC编码方案、MPEG空间环绕以及其他的情况。

如上所述，本发明的概念甚至能够无缝地包括将单个单声道信号提供到基于对象的情况中的传统远程站。除了组合不同的对象流，本发明的概念还示出了如何产生表示参数数据的不同方式，从而适于实现计算效率高的组合处理。同样，本发明的参数比特流语法的有益特征是：以通过仅执行简单的运算来组合两个流的方式表示对象属性。

因此，本发明的概念还教导了如何通过所附的以下准则为参数编码的多个原始音频信号(音频对象)创建适合的比特流或比特流格式：

·简单地从部分下混信号中形成组合的下混信号

·通过组合各个参数辅助信号来形成组合的参数辅助信息以及简单地计算下混信号的特征(例如，能量)

·不必执行针对音频对象的诸如解码/重新编码步骤之类的复杂操作。

因此，必须选择描述对象的参数表示，以便可以仅使用可用的比特流字段作为参数辅助信息的一部分来进行两个或更多个对象流的组合(“加法”)，并且可以简单地计算下混信号的度量(例如，能量，峰值)。

这种表示的示例应当是针对每一对象使用归一化功率值(方程4)。这些表示可能被变换为对数表示(dB)，然后被量化为特定数目的量化阶或其各自的量化器索引。比特流语法应当能够实现简单地增加(或减小)(例如，通过简单地拼接、插入或移除参数)流中的对象参数的数目。

总之，本发明的概念能够实现参数编码音频流的最灵活的、且计算效率高的组合。由于高的计算效率，本发明的概念不局限于要被组合的最大数目。原则上，可以将能够被实时组合的任意数目的声道提供给本发明的音频信号发生器。同样，用于例证本发明概念的精确参数表示(JSC)并非强制的。此外，如前所述，其他参数编码方案(例如公知的环绕方案)可以是应用和本发明的概念的基础。

此外，不必以软件形式实施必要的计算。还可以使用例如DSP、ASIC和其他集成电路的硬件实现来执行计算，这将进一步增大本发明的概念的速度，从而实现本发明的概念在实时情况下的应用。

由于本发明的概念的灵活性，本发明的音频流可以基于不同参数表示。要被发送的参数例如还可以是幅度测量、原始音频声道之间的时间差、相干性测量等。

因此，已经示出了混合各自基于JSC类型的参数方法的两个或更多个信号的总体概念。

上述方程示出了如何将该技术应用于由相对功率比组成的参数信息的情况。然而，该技术不局限于对象参数的特定表示。

此外，本发明不局限于电话会议情况，而是可以应用于有利于将参数对象复用成单个JSC流的任何情况。

此外，该技术能够无缝地包括在基于对象的情况中提供单个信号的传统远程站。

除了组合不同对象流的实际处理，本发明还示出了表示参数的不同方法如何适于实现该组合处理。由于并非所有可能的参数都表示允许在对象的不完全解码/重新编码的情况下的所述组合处理，参数比特流语法的有利特性是：通过仅执行简单运算来组合两个流的方式来表示对象属性。

根据本发明的方法的特定实现需求，本发明的方法可以以硬件或软件来实现。可以使用数字存储介质来执行本发明，特别是在其上存储了电可读控制信号的磁盘、DVD或CD，该电可读控制信号与可编程计算机系统协作以执行本发明的方法。通常，本发明是具有存储在机器可读载体上的程序代码的计算机程序产品，当计算机程序产品在计算机上运行时，程序代码可操作用于执行本发明的方法。换言之，本发明的方法是具有程序代码的计算机程序，该程序代码用于当计算机程序在计算机上运行时执行至少一项本发明的方法。

尽管已经参照具体实施例部分地示出并描述了上述，然而本领域的技术人员将理解的是，在不背离本发明的精神和范围的情况下，可以进行形式和细节上的各种其他改变。应当理解的是，在不背离这里所公开的、以及以下权利要求所包括的更宽概念的情况下，可以进行适于不同实施例的各种改变。

Claims

1、一种用于产生音频输出信号的音频信号发生器(100)，包括：音频信号接收机(102)，用于接收：

第一音频信号(110)，第一音频信号(110)包括第一下混声道(110a)，所述第一下混声道(110a)具有关于两个或更多个第一原始声道的信息，第一音频信号(110)还包括与第一原始声道中的一个相关联的、描述第一原始声道中的一个相对于参考声道的属性的原始参数(110b)；以及

第二音频信号(112)，第二音频信号(112)包括具有关于至少一个第二原始声道的信息的第二下混声道(112a)；

声道组合器(104)，用于通过将第一下混声道(110a)和第二下混声道(112a)进行组合来导出组合下混声道(114)；

参数计算器(106)，用于导出第一组合参数(116a)和第二组合参数(116b)，第一组合参数(116a)描述第一原始声道中的一个相对于公共参考声道的属性，第二组合参数(116b)描述第一原始声道中的另一个或所述至少一个第二原始声道相对于公共参考声道的属性；以及

输出接口，用于输出包括组合下混声道(114)、第一组合参数(116a)和第二组合参数(116b)在内的音频输出信号(120)。

2、根据权利要求1的音频信号发生器(100)，其中，声道组合器(104)可操作用于使用第一下混声道(110a)与第二下混声道(110b)的线性组合来导出所述组合下混声道(114)。

3、根据权利要求2的音频信号发生器(100)，其中，声道组合器(104)可操作用于使用线性组合，所述线性组合具有取决于第一下混声道(110a)内的能量E(s_A ²(n))和第二下混声道(112a)内的能量E(s_B ²(n))的系数。

4、根据权利要求3的音频信号发生器(100)，其中，声道组合器(104)可操作用于使用具有第一下混声道的系数g_A和第二下混声道的系数g_B的线性组合，所述线性组合利用以下方程导出：

\frac{g_{B}}{g_{A}} = \sqrt{\frac{E {S_{A}^{2} (n)}}{E {S_{B}^{2} (n)}}} 。

5、根据权利要求2的音频信号发生器(100)，其中，声道组合器(104)可操作用于使用线性组合，所述线性组合具有取决于第一原始声道的数目U和第二原始声道的数目V的系数。

6、根据权利要求5的音频信号发生器(100)，其中，声道组合器(104)可操作用于使用具有第一下混声道(110a)的系数g_A和第二下混声道(112a)的系数g_B的线性组合，所述系数g_A和系数g_B是根据以下方程之一导出的：

g_{A} = \frac{U}{(U + V)},

g_{B} = \frac{V}{(U + V)}

或

g_{A} = \sqrt{\frac{U}{(U + V)}},

g_{B} = \sqrt{\frac{V}{(U + V)}} 。

7、根据权利要求1至6的音频信号发生器(100)，其中，参数计算器(106)可操作用于使用第一原始声道或所述至少一个第二原始声道的预定声道作为公共参考声道。

8、根据权利要求1至6的音频信号发生器(100)，其中，参数计算器(106)可操作用于使用第一音频信号(110)的参考声道作为公共参考声道。

9、根据权利要求1至6的音频信号发生器(100)，其中，参数计算器(106)可操作用于使用所述组合下混声道(114)作为公共参考声道。

10、根据权利要求1至6的音频信号发生器(100)，其中，参数计算器(106)可操作用于使用原始声道作为具有最高能量的公共参考声道。

11、根据前述权利要求中任一项的音频信号发生器(100)，其中，参数计算器(106)可操作用于通过导出第一下混声道(110a)的能量E{s_A ²}和与除了参考声道以外的其他声道相关的参数a_i{i＝1，...，n}，根据以下方程计算参考声道的能量E{s_Aref}

E {S_{A_{ref}}} = \frac{E {S_{A}^{2} (n)}}{1 + \underset{i}{Σ} a_{i}} 。

12、根据前述权利要求中任一项的音频信号发生器(100)，其中，参数计算器(106)可操作用于使用参考声道作为公共参考声道并使用原始参数a₂作为第一组合参数y_u，以及用于导出所述至少一个第二原始声道相对于参考声道的第二组合参数y_u+1。

13、根据前述权利要求中任一项的音频信号发生器(100)，其中，参数计算器(106)可操作用于使用第一下混声道(110a)的能量E{s_A ²(n)}和第二下混声道(112b)的能量E{s_B ²(n)}来导出组合参数。

14、根据权利要求13的音频信号发生器(100)，其中，参数计算器(106)可操作用于进一步使用与第一下混声道(110a)相关联的系数g_A和与第二下混声道(112a)相关联的系数g_B，所述系数用于声道组合器(104)所使用的第一下混声道和第二下混声道的线性组合。

15、根据权利要求14的音频信号发生器(100)，其中，参数计算器(106)可操作用于根据以下方程计算所述至少一个第二原始声道的第二组合参数y_U+1

y_{U + 1} = \frac{g_{B}^{2}}{g_{A}^{2}} \cdot \frac{E {s_{B_{1}}^{2} (n)}}{{s_{A_{1}}^{2} (n)}},

其中，

是根据以下公式使用第一下混声道的能量

导出的参考声道的能量：

E {s_{A_{j}}^{2} (n)} = \frac{E {s_{A}^{2} (n)}}{(1 + a_{2})},

其中，a₂是使第一原始声道与参考声道相关的原始参数。

16、根据前述权利要求中任一项的音频信号发生器(100)，其中，参数计算器(106)可操作用于处理与离散频率间隔相关联的第一下混声道和第二下混声道的频率部分，以便针对每一离散频率间隔导出组合参数。

17、根据前述权利要求中任一项的音频信号发生器(100)，其中，音频信号接收机可操作用于接收包括下混声道(110a，112a)在内的音频信号(110，112)，所述下混声道(110a，112a)由使用预定采样频率进行采样的采样参数表示。

18、一种产生音频输出信号的方法，所述方法包括：

接收第一音频信号(110)和第二音频信号(112)，所述第一音频信号(110)包括具有关于两个或更多个第一原始声道的信息的第一下混声道(110a)，并包括与第一原始声道中的一个相关联的、描述第一原始声道中的一个相对于参考声道的属性的原始参数(110b)；第二音频信号(112)包括具有关于至少一个第二原始声道的信息的第二下混声道(112a)；

通过将第一下混声道(110a)和第二下混声道(112a)进行组合来导出组合下混声道(114)；

导出第一组合参数(116a)和第二组合参数(116b)，第一组合参数(116a)描述第一原始声道中的一个相对于公共参考声道的属性，第二组合参数(116b)描述第一原始声道中的另一个或所述至少一个第二原始声道相对于公共参考声道的属性；以及

输出包括组合下混声道(114)、第一组合参数(116a)和第二组合参数(116b)在内的音频输出信号(120)。

19、三个或多个音频声道(120)的表示，包括：

组合下混声道(114)，作为第一下混声道和第二下混声道的组合，第一下混声道具有关于至少两个第一原始声道的信息，第二下混声道具有关于至少一个第二原始声道的信息；

第一参数(116b)，描述所述至少两个第一原始声道中的一个相对于参考声道的属性；以及

第二参数(116b)，描述第一原始声道中的另一个相对于参考声道的属性或所述至少一个第二原始声道相对于参考声道的属性。

20、一种具有用于产生音频输出信号的音频信号发生器(100)的会议系统，包括：

音频信号接收机(102)，用于接收：

输出接口(108)，用于输出包括组合下混声道(114)、第一组合参数(116a)和第二组合参数(116b)在内的音频输出信号(120)。

21、一种计算机程序，用于当其运行在计算机上时，实现用于产生音频输出信号的方法，所述方法包括：

接收第一音频信号和第二音频信号，所述第一音频信号包括具有关于两个或更多个第一原始声道的信息的第一下混声道，并包括与第一原始声道中的一个相关联的、描述第一原始声道中的一个相对于参考声道的属性的原始参数；第二音频信号包括具有关于至少一个第二原始声道的信息的第二下混声道；

通过将第一下混声道和第二下混声道进行组合来导出组合下混声道；

导出第一组合参数和第二组合参数，第一组合参数描述第一原始声道中的一个相对于公共参考声道的属性，第二组合参数描述第一原始声道中的另一个或所述至少一个第二原始声道相对于公共参考声道的属性；以及

输出包括组合下混声道、第一组合参数和第二组合参数在内的音频输出信号。

22、一种参数表示，使用参数来描述多声道信号的声道之一相对于参考声道的信号属性，所述参考声道是多声道信号的另一声道或多声道信号的下混声道，所述参数具有来自参数值范围的值，所述参数表示的特征在于：仅使用关于下混声道的信息、所述参数和备选参考声道的相应参数，就能够导出描述相对于备选参考声道的信号属性的备选参数，以使得所述备选参数具有来自所述参数值范围的值。

23、根据权利要求22的参数表示，其中，所述信号属性是能量或幅度测量。

24、根据权利要求22或23的参数表示，其中，所述参数描述声道的有限宽度频率间隔的信号属性。