CN102714038B

CN102714038B - 用以基于下混信号表示型态而提供上混信号表示型态的装置、用以提供表示多声道音频信号的位流的装置、方法

Info

Publication number: CN102714038B
Application number: CN201080062050.2A
Authority: CN
Inventors: 约纳斯·恩格德加德; 海科·普尔纳根; 于尔根·赫莱; 科尔内利娅·法尔克; 奥利弗·黑尔慕斯; 莱昂·特伦迪
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV; Dolby International AB
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV; Dolby International AB
Priority date: 2009-11-20
Filing date: 2010-11-16
Publication date: 2014-11-05
Anticipated expiration: 2030-11-16
Also published as: RU2607267C2; CA2781310A1; WO2011061174A1; AU2010321013B2; JP5645951B2; EP2489038A1; JP2013511738A; TW201131553A; EP2489038B1; KR20120084314A; MX2012005781A; ES2569779T3; PL2489038T3; KR101414737B1; TWI441165B; AU2010321013A1; US20120259643A1; RU2012127554A; MY154641A; US8571877B2

Abstract

一种用以基于音频内容的位流表示型态中所包括的下混信号表示型态及对象相关参数信息并依使用者指定渲染矩阵来提供上混信号表示型态的装置，该装置包含失真限制器，其被配置为依线性组合参数利用使用者指定渲染矩阵与目标渲染矩阵的线性组合来获得经修改渲染矩阵。该装置也包含信号处理器，其被配置为使用该经修改渲染矩阵、基于该下混信号表示型态及该对象相关参数信息来获得上混信号表示型态。该装置也被配置为评估表示该线性组合参数的位流元素以便获得该线性组合参数。

Description

用以基于下混信号表示型态而提供上混信号表示型态的装置、用以提供表示多声道音频信号的位流的装置、方法

技术领域

依据本发明的实施方式，涉及种用以基于音频内容的位流表示型态中所包括的下混信号表示型态及对象相关参数信息，且根据使用者指定渲染矩阵来提供上混信号表示型态的装置。

依据本发明的其它实施方式，涉及种用以提供表示多声道音频信号的位流的装置。

依据本发明的其它实施方式，涉及种用以基于音频内容的位流表示型态中所包括的下混信号表示型态及对象相关参数信息，且依据使用者指定渲染矩阵来提供上混信号表示型态的方法。

依据本发明的其它实施方式，涉及种用以提供表示多声道音频信号的位流的方法。

依据本发明的其它实施方式，涉及种用以执行该等方法之一的计算机程序。

依据本发明的其它实施方式，涉及种表示多声道音频信号的位流。

背景技术

在音频处理、音频传输与音频储存领域，愈益期望处理多声道内容以便提高听觉印象。多声道音频内容的使用为使用者带来显著的改进。举例而言，可获得3维听觉印象，其在娱乐应用中提高使用者的满意度。然而，多声道音频内容在例如电话会议应用的专业环境中也是有用的，因为扬声器可懂度可通过使用多声道音频播放来提高。

然而，也期望在音频质量与位率要求之间有良好折衷，从而避免低成本或专业多声道应用中的过度资源消耗。

最近，已提出了针对包含多个音频对象的音频场景的位率有效率传输及/或储存的参数技术。例如，已提出在例如参考文献[1]中描述的双耳线索编码、在例如参考文献[2]中描述的音频源的参数联合编码。此外，已提出在例如参考文献[3]及[4]中描述的MPEG空间音频对象编码（SAOC）。MPEG空间音频对象编码目前正在标准化当中，且在未预先公开的参考文献[5]中描述。

这些技术旨在感官上重建期望的输出音频场景而非通过波形匹配。

然而，结合接收侧的使用者交互性，若执行极度对象渲染，这种技术可导致输出音频信号的低音频质量。这在例如参考文献[6]中描述。

下面将描述这种系统，且需要注意的是，基本概念也适用于本发明的实施方式。

图8示出了这种系统（这里：MPEG SAOC）的系统概述。图8中所示的MPEG SAOC系统800包含SAOC编码器810及SAOC译码器820。SAOC编码器810接收多个对象信号x₁至x_n，该信号可被表示为（例如）时域信号或时间-频率-域信号（例如，为傅立叶类型变换的组变换系数的形式，或为QMF子频带信号的形式）。SAOC编码器810典型地也接收与对象信号x₁至x_n相关联的下混系数d₁至d_n。独立的诸组下混系数可用于下混信号的每声道。SAOC编码器810典型地被配置通过依据相关联的下混系数d₁至d_n来组合对象信号x₁至x_n而获得下混信号的声道。通常，下混声道比对象信号x₁至x_n少。为了在SAOC译码器820侧（至少近似）容许分离（或分开处理）对象信号，SAOC编码器810提供个或多个下混信号（标示为下混声道）812及旁侧信息814二者。旁侧信息814描述对象信号x₁至x_N的特性以便容许译码器侧特定对象处理。

SAOC译码器820被配置为接收该个或多个下混信号812及旁侧信息814二者。再者，SAOC译码器820典型地被配置为接收描述期望的渲染设置的使用者互动信息及/或使用者控制信息822。举例而言，使用者互动信息/使用者控制信息822可描述扬声器设置及提供对象信号x₁至x_N的对象的期望空间布局。

SAOC译码器820被配置为提供（例如）多个译码上混声道信号至上混声道信号可（例如）与多扬声器渲染布置的单独扬声器相关联。SAOC译码器820可（例如）包含对象分离器820a，该对象分离器被配置为基于个或多个下混信号812及旁侧信息814来至少近似地重建对象信号x₁至x_N，从而获得重建对象信号820b。然而，重建对象信号820b可能略偏离原始对象信号x₁至x_N，例如，原因在于由于比特流限制使得旁侧信息814对于进行完美重建并不十分足够。SAOC译码器820可进步包含混合器820c，该混合器可被配置为接收重建对象信号820b及使用者互动信息/使用者控制信息822，进而基于它们来提供上混声道信号至混合器820可被配置为使用使用者互动信息/使用者控制信息822来判定个别重建对象信号820b对上混声道信号至的贡献。使用者互动信息/使用者控制信息822可（例如）包含渲染参数（也被表示为渲染系数），该等渲染参数判定个别重建对象信号822对上混声道信号至的贡献。

然而，应注意的是，在许多实施方式中，由图8中对象分离器820a指出的对象分离以及由图8中混合器820c指出的混合在单步骤中执行。为实现此目的，可计算描述个或多个下混信号812到上混声道信号至的直接映射的总参数。这些参数可基于旁侧信息及使用者互动信息/使用者控制信息820来计算。

现在参考图9a、图9b及图9c，将描述用以基于下混信号表示型态及对象相关旁侧信息来获得上混信号表示型态的不同装置。图9a示出了包含SAOC译码器920的MPEG SAOC系统900的方块示意图。SAOC译码器920包含作为分离功能区块的对象译码器922及混合器/渲染器926。对象译码器922依下混信号表示型态（例如，为在时域或时间-频率-域中表示的个或多个下混信号的形式）及对象相关旁侧信息（例如，为对象元数据的形式）来提供多个重建对象信号924。混合器/渲染器924接收与N个对象相关联的重建对象信号924并基于它们提供个或多个上混声道信号928。在SAOC译码器920中，对象信号924的提取与混合/渲染分开执行，这允许将对象译码功能与混合/渲染功能分离但带来相当高的计算复杂度。

现在参考图9b，将简要讨论另MPEG SAOC系统930，该MPEG SAOC系统包含SAOC译码器950。SAOC译码器950依下混信号表示型态（例如，为个或多个下混信号的形式）及对象相关旁侧信息（例如，为对象元数据的形式）提供多个上混声道信号958。SAOC译码器950包含组合的对象译码器与混合器/渲染器，其被配置为在联合混合处理中获得上混声道信号958而无需将对象译码与混合/渲染分开，其中针对该联合上混处理的参数取决于对象相关旁侧信息与渲染信息二者。联合上混处理也取决于被视为对象相关旁侧信息的部分的下混信息。

综上所述，可在个步骤处理或两个步骤处理中执行上混声道信号928、958的提供。

现在参考图9c，将描述MEPG SAOC系统960。SAOC系统960包含SAOC至MPEG环绕转码器而非SAOC译码器。

SAOC至MPEG环绕转码器包含旁侧信息转码器982，其被配置为接收对象相关旁侧信息（例如，为对象元数据的形式）及可选地关于个或多个下混信号的信息及渲染信息。旁侧信息转码器也被配置为基于接收数据来提供MPEG环绕旁侧信息（例如，为MPEG环绕位流的形式）。因此，旁侧信息转码器982被配置为，在考虑渲染信息及可选地有关个或多个下混信号内容的信息的情况下将自对象编码器出来的对象相关（参数）旁侧信息转换成声道相关（参数）旁侧信息。

可选地，SAOC至MPEG环绕转码器980可被配置为操控例如由下混信号表示型态所描述的个或多个下混信号，从而获得经操控的下混信号表示型态988。然而，下混信号操控器986可省略，使得SAOC至MPEG环绕转码器980的输出下混信号表示型态988与SAOC至MPEG环绕转码器的输入下混信号表示型态相同。下混信号操控器986在例如声道相关MPEG环绕旁侧信息984基于SAOC至MPEG环绕转码器980的输入下混信号表示型态可能不能提供期望的听觉印象时可使用，这在些渲染群集（rendering constellation）中可能如此。

因此，SAOC至MPEG环绕转码器980提供下混信号表示型态988及MPEG环绕位流984，使得可使用MPEG环绕译码器（其接收MPEG环绕位流984与下混信号表示型态988）来产生多个上混声道信号（其依据输入至SAOC至MPEG环绕转码器980的渲染信息来表示音频对象）。

综上所述，可使用用以译码SAOC编码音频信号的不同概念。在某些情况中，使用SAOC译码器，该SAOC译码器依下混信号表示型态及对象相关参数旁侧信息来提供上混声道信号（例如，上混声道信号928、958）。在图9a与图9b中可见到此概念的范例。可替换地，SAOC编码音频信息可被转码以获得下混信号表示型态（例如，下混信号表示型态988）及声道相关旁侧信息（例如，声道相关MPEG环绕位流984），它们可被MPEG环绕译码器使用来提供期望的上混声道信号。

在图8中给出系统概述的MPEG SAOC系统800中，一般处理是以频率选择方式来完成且在每个频带内可描述如下：

●作为SAOC编码器处理的一部分，下混N个输入音频对象信号x₁至x_N。对于单声道下混，用d₁至d_N来表示下混系数。此外，SAOC编码器810提取描述输入音频对象的特性的旁侧信息814。对于MPEGSAOC，彼此间对象功率的关系是这种旁侧信息的最基本形式。

●传输及/或储存下混信号812及旁侧信息814。为此目的，下混音频信号可使用已知的感知音频编码器来压缩，诸如MPEG-1层II或III（也称为“.mp3”）、MPEG高级音频编码（AAC）、或任何其它音频编码器。

●在接收端，SAOC译码器820概念上尝试使用经传输的旁侧信息814（当然还有一个或多个下混信号812）来恢复原始对象信号（“对象分离”）。接下来，使用渲染矩阵将这些近似对象信号（也标示为重建对象信号820b）混合至由M个音频输出声道表示（例如可用上混声道信号至表示）的目标场景。

●实际上，对象信号的分离很少执行（或甚至从不执行），因为分离步骤（用对象分离器820a指出）与混合步骤（用混合器820c指出）组合成单一转码步骤，这通常极大地降低计算复杂度。

已发现此方案在传输位率（仅需传输几个下混声道外加一些旁侧信息而不是N个离散对象音频信号或离散系统）以及计算复杂度（处理复杂度主要涉及输出声道数目而非音频对象数目）方面都极其有效率。对接收端使用者而言的进一步好处包括选择他/她选择的渲染设置（单声道、立体声、环绕、虚拟化耳机播放等）的自由以及使用者交互性特征：渲染矩阵，及因而，输出场景可由使用者随意愿、个人偏好或其它准则来互动地设置及改变。举例而言，可能从共同在一个空间区域中的一个组中定位演讲者，从而使得与其他剩余演讲者的辨别度最大化。此交互性通过提供译码器使用者接口来实现：

对于每个传输声音对象，其相对等级及（对于非单声道渲染）渲染的空间位置可被调整。这可随使用者改变相关联的图形使用者接口（GUI）滑动块的位置而实时发生（例如，对象等级=+5dB，对象位置=-30deg）。

然而，已发现的是，用以提供上混信号表示型态（例如，上混声道信号至）的参数的译码器侧选择在某些情况中带来可闻降级。

鉴于此情况，本发明的目的是产生一种在提供上混信号表示型态（例如，为上混声道信号至的形式）时容许减小或甚至避免可闻失真的概念。

发明内容

依据本发明的实施方式，产生一种用以基于音频内容的位流表示型态中所包括的下混信号表示型态及对象相关参数信息并依使用者指定渲染矩阵来提供上混信号表示型态的装置。该装置包含：失真限制器，其被配置为依线性组合参数使用使用者指定渲染矩阵与目标渲染矩阵的线性组合来获得经修改渲染矩阵。该装置也包含：信号处理器，其被配置为使用该经修改渲染矩阵、基于该下混信号表示型态及该对象相关参数信息来获得上混信号表示型态。该装置被配置为评估表示该线性组合参数的位流元素以便获得该线性组合参数。

依据本发明的该实施方式是基于下列核心思想：通过依自从音频内容的位流表示型态中所提取的线性组合参数来执行使用者指定渲染矩阵与目标渲染矩阵的线性组合能以低计算复杂度减小或甚至避免上混信号表示型态的可闻失真，因为线性组合可有效率执行，及因为确定线性组合参数的所需任务的执行可在音频信号编码器侧执行，其中音频信号编码器侧通常比音频信号译码器（用以提供上混信号表示型态的装置）侧有更多可用的计算能力。

因此，上面讨论的概念允许获得经修改渲染矩阵，其甚至对使用者指定渲染矩阵的不当选择也会带来减小的可闻失真而不对用以提供上混信号表示型态的装置增加任何显著的复杂度。特别地，在与没有失真限制器的装置比较时，其甚至可不必修改信号处理器，因为经修改渲染矩阵算作信号处理器的输入量且仅仅替换使用者指定渲染矩阵。此外，本发明概念带来以下优点：音频信号编码器可依据在编码器侧指定的要求通过仅设定音频内容的位流表示型态中所包括的线性组合参数而调整在音频信号译码器侧应用的失真限制方案。因此，音频信号编码器通过适当地选择线性组合参数可逐渐提供对于译码器（用于提供上混信号表示型态的装置）的使用者选择渲染矩阵或多或少的自由。这允许音频信号译码器适应使用者对给定服务的期望，因为对于一些服务，使用者可能期望最高质量（这暗示降低使用者随意调整渲染矩阵的可能性），而对于其它服务，使用者通常会期望最大自由度（这暗示增加使用者指定渲染矩阵对线性组合结果的影响）。

综上所述，本发明概念以简单实施可能性而不必修改信号处理器在译码器侧组合高计算效率（这对于可携式音频译码器尤其重要），并且还提供对音频信号编码器的高度控制（这对于完成使用者对不同类型音频服务的期望可能是重要的）。

在较佳实施方式中，失真限制器被配置为获得该目标渲染矩阵使得该目标渲染矩阵是无失真目标渲染矩阵。这带来具有此播放情形的可能性：没有失真或至少几乎没有任何失真是由对渲染矩阵的选择而引起的。此外，已发现的是，在一些情况中能以很简单方式来执行对无失真目标渲染矩阵的计算。此外，已发现的是，介于使用者指定渲染矩阵与无失真目标渲染矩阵之间选择的渲染矩阵通常引起良好听觉印象。

在较佳实施方式中，失真限制器被配置为获得目标渲染矩阵使得目标渲染矩阵是下混类似目标渲染矩阵。已发现的是，下混类似目标渲染矩阵的使用带来很低或甚至最小失真程度。此外，这种下混类似目标渲染矩阵能以很低的计算付出来获得，因为下混类似目标渲染矩阵可通过用公共比例因子缩放下混矩阵的项并加入一些额外零项来获得。

在较佳实施方式中，失真限制器被配置为使用能量正规化标量缩放延伸下混矩阵，以获得目标渲染矩阵，其中该延伸下混矩阵是下混矩阵的延伸形态（该下混矩阵的行描述多个音频对象信号对该下混信号表示型态的一个或多个声道的贡献），该下混矩阵以零元素的行延伸使得该延伸下混矩阵的行数等于由该使用者指定渲染矩阵所描述的渲染群集。因而，延伸下混矩阵是利用将下混矩阵的值复制到延伸下混矩阵、添加零矩阵项、及所有矩阵元素与相同能量正规化标量的标量相乘来获得。所有这些元运算可很有效率地执行，使得即使在很简单音频译码器中也可快速获得目标渲染矩阵。

在较佳实施方式中，失真限制器被配置为获得目标渲染矩阵，使得该目标渲染矩阵是尽力目标渲染矩阵。尽管此方法在计算上比使用下混类似目标渲染矩阵稍微更苛求，但使用该尽力目标渲染矩阵提供了对使用者期望渲染情形的更好考虑。使用该尽力目标渲染矩阵，在不引入失真或显著失真的情况下尽可能在决定目标渲染矩阵时考虑期望渲染矩阵的使用者定义。特别地，尽力目标渲染矩阵考虑使用者对多个扬声器（或上混信号表示型态的声道）的期望响度。因此，在使用尽力目标渲染矩阵时可产生改进听觉印象。

在较佳实施方式中，失真限制器被配置为获得目标渲染矩阵，使得目标渲染矩阵取决于下混矩阵及使用者指定渲染矩阵。因此，目标渲染矩阵相对接近于使用者期望但仍提供实质上无失真的音频渲染。因而，线性组合参数决定使用者期望渲染的近似量与可闻失真的最小量之间的折衷，其中考虑使用者指定渲染矩阵来计算目标渲染矩阵，在即使线性组合参数指出目标渲染矩阵应支配线性组合时也提供对使用者期望的良好满意度。

在较佳实施方式中，失真限制器被配置为，计算包含用以提供上混信号表示型态的装置的多个输出音频声道的声道个别能量正规化值的矩阵，使得装置的指定输出音频声道的能量正规化值至少近似地描述以下事项，多个音频对象的使用者指定渲染矩阵中与指定输出音频声道相关联的能量渲染值的总和与多个音频对象的能量下混值的总和之间的比率。因此，在某种程度上可满足使用者对装置的不同输出声道的响度的期望。

在此情况中，失真限制器被配置为使用相关联的声道个别能量正规化值来缩放一组下混值，以获得目标渲染矩阵的与给定输出声道相关联的一组渲染值。因此，给定音频对象对装置的输出声道的相对贡献与该给定音频对象对下混信号表示型态的相对贡献相同，这允许大体上避免由修改音频对象的相对贡献而引起的可闻失真。因此，装置的各输出声道大体上未失真。然而，即使哪里放置哪个音频对象及/或如何改变音频对象彼此间的相对强度的细节不被考虑（至少在某种程度上），也考虑使用者对多个扬声器（或上混信号表示型态的声道）的响度分布的期望，以便避免由对音频对象的过分骤然分离或对音频对象的相对强度的过度修改而可能引起的失真。

因而，即使下混信号表示型态可包含较少声道，评估多个音频对象的使用者指定渲染矩阵中与给定输出声道相关联的能量渲染值（例如，量级渲染值的平方）的总和，与多个音频对象的能量下混值的总和之间的比率，允许考虑所有输出音频声道，同时仍避免由音频对象的空间重新分布或由不同音频对象的相对响度的过分改变而引起的失真。

在较佳实施方式中，失真限制器被配置为依使用者指定渲染矩阵及下混矩阵来计算以下矩阵，即，描述用以提供上混信号表示型态的装置的多个输出音频声道的声道个别能量正规化的矩阵。在此情况中，失真限制器被配置为应用描述声道个别能量正规化的该矩阵，以获得该目标渲染矩阵的与该装置的给定输出音频声道相关联的一组渲染系数，作为与该下混信号表示型态的不同声道相关联的下混值（即，描述缩放的值，该缩放应用于不同音频对象的音频信号以获得下混信号的声道）组的线性组合。使用此概念，即使下混信号表示型态包含多于一个的音频声道也可获得十分适于期望的使用者指定渲染矩阵的目标渲染矩阵，同时仍基本上避免失真。已发现的是，形成下混值组的线性组合产生通常仅导致小可闻失真的一组渲染系数。然而，已发现的是，使用此获取目标渲染矩阵的方法来近似使用者期望是可能的。

在较佳实施方式中，该装置被配置为，从音频内容的位流表示型态读取表示线性组合参数的指数值，并使用参数量化表来将该指数值映射至线性组合参数。已发现的是，这是用以获取线性组合参数的计算上特别有效的概念。还发现的是，与执行复杂计算而非对1维映射表的评估的其它可能概念相比，此方法带来使用者满意度与计算复杂度间的较好折衷。

在较佳实施方式中，量化表描述非一致量化，其中线性组合参数的较小值（其描述使用者指定渲染矩阵对于经修改渲染矩阵的较强贡献）用相对较高分辨率来量化，及线性组合参数的较大值（其描述使用者指定渲染矩阵对于经修改渲染矩阵的较小贡献）用相对较低分辨率来量化。已发现的是，在许多情况中，仅渲染矩阵的极限设定带来显著可闻失真。因此，已发现的是，对线性组合参数的精细调整在使用者指定渲染矩阵对目标渲染矩阵有较强贡献的区域中进行是更重要的，以便获得设定，该设定允许在实现使用者渲染期望与最小可闻失真间的最佳折衷。

在较佳实施方式中，该装置被配置为评估描述失真限制模式的位流元素。在此情况中，失真限制器较佳地被配置为选择性获得目标渲染矩阵使得目标渲染矩阵是下混类似目标渲染矩阵，或使得目标渲染矩阵是尽力目标渲染矩阵。已发现的是，对于大量不同音频件，这种可切换概念提供用以获得在实现使用者渲染期望与最小可闻失真间的良好折衷的有效可行性。此概念也允许音频信号编码器对译码器侧的实际渲染的良好控制。因此，可满足对各种各样不同音频服务的需要。

依据本发明的另一实施方式，创造一种用以提供表示多声道音频信号的位流的装置。

该装置包含下混器，其被配置为基于多个音频对象信号来提供下混信号。装置也包含旁侧信息提供器，其被配置为提供对象相关参数旁侧信息（其描述音频对象信号及下混参数的特性）及线性组合参数（其描述使用者指定渲染矩阵以及目标渲染矩阵对经修改渲染矩阵的贡献）。用以提供位流的装置也包含位流格式器，其被配置为提供包含下混信号、对象相关参数旁侧信息及线性组合参数的表示型态的位流。

用以提供表示多声道音频信号的位流的装置十分适于与上面讨论用以提供上混信号表示型态的装置合作。用以提供表示多声道音频信号的位流的装置允许依据其对音频对象信号的认识来提供线性组合参数。因此，音频编码器（即，用以提供表示多声道音频信号的位流的装置）可对由评估线性组合参数的音频译码器（即，上面讨论的用以提供上混信号表示型态的装置）所提供的渲染质量有强烈影响。因此，用以提供表示多声道音频信号的位流的装置对渲染结果有很高层级的控制，这在许多不同情形中提供改进的使用者满意度。因此，确实是服务提供器的音频编码器使用线性组合参数来提供对于冒可闻失真的风险是否应当允许使用者使用极限渲染的指导。因而，通过使用上述音频编码器可避免使用者失望以及相对应的不利经济后果。

依据本发明的另一实施方式产生一种用以基于音频内容的位流表示型态中所包括的下混信号表示型态及对象相关参数信息并依使用者指定渲染矩阵来提供上混信号表示型态的方法。该方法是基于与上述装置相同的核心思想。

依据本发明的另一方法产生一种用以提供表示多声道音频信号的位流的方法。该方法是基于与如上述装置相同的发现。

依据本发明的另一实施方式产生一种用以执行上面方法的计算机程序。

依据本发明的另一实施方式产生一种表示多声道音频信号的位流。该位流包含，在描述音频对象的特性的对象相关参数旁侧信息中组合多个音频对象的音频信号的下混信号表示型态。该位流也包含线性组合参数，其描述使用者指定渲染矩阵及目标渲染矩阵对经修改渲染矩阵的贡献。该位流允许音频信号编码器侧对译码器侧渲染参数的一定程度控制。

附图说明

依据本发明的实施方式将随后参考附图描述，其中：

图1a示出了依据本发明的实施方式的用以提供上混信号表示型态的装置的方块示意图；

图1b示出了依据本发明的实施方式的用以提供表示多声道音频信号的位流的装置的方块示意图；

图2示出了依据本发明的另一实施方式的用以提供上混信号表示型态的装置的方块示意图；

图3a示出了依据本发明的实施方式的表示多声道音频信号的位流的示意表示型态；

图3b示出了依据本发明的实施方式的SAOC特定配置信息的详细语法表示型态；

图3c示出了依据本发明的实施方式的SAOC帧信息的详细语法表示型态；

图3d示出了在SAOC位流内可使用的位流元素“bsDcuMode”中失真控制模式的编码的示意表示型态；

图3e示出了位流指数idx与线性组合参数“DcuParam[idx]”的值之间的关联的表格表示型态，其在SAOC位流中可用来编码线性组合信息；

图4示出了依据本发明的另一实施方式的用以提供上混信号表示型态的装置的方块示意图；

图5a示出了依据本发明的实施方式的SAOC特定配置信息的语法表示型态；

图5b示出了位流指数idx与线性组合参数Param[idx]间的关联的表格表示型态，其在SAOC位流中可用来编码该线性组合参数；

图6a示出了描述收听试验条件的表格；

图6b示出了描述收听试验的音频项的表格；

图6c示出了描述针对立体声至立体声SAOC解码情形的测试下混/渲染条件的表格；

图7示出了针对立体声至立体声SAOC情形的失真控制单元（DCU）收听试验结果的图形表示型态；

图8示出了参考MPEG SAOC系统的方块示意图；

图9a示出了使用分离的译码器及混合器的参考SAOC系统的方块示意图；

图9b示出了使用整合的译码器及混合器的参考SAOC系统的方块示意图；以及

图9c示出了使用SAOC至MPEG转码器的参考SAOC系统的方块示意图。

具体实施方式

1.依据图1a的用以提供上混信号表示型态的装置

图1示出了依据本发明的实施方式的用以提供上混信号表示型态的装置的方块示意图。

装置100被配置为接收下混信号表示型态110及对象相关参数信息112。装置100也被配置为接收线性组合参数114。下混信号表示型态110、对象相关参数信息112及线性组合参数114均被包含于音频内容的位流表示型态中。例如，线性组合参数114由该位流表示型态的位流元素描述。装置100也被配置为接收渲染信息120，其定义使用者指定渲染矩阵。

装置100被配置为提供上混信号表示型态130，例如，个别声道信号或与MPEG环绕旁侧信息结合的MPEG环绕下混信号。

装置100包含失真限制器140，其被配置为依例如可用g_DCU标示的线性组合参数146使用使用者指定渲染矩阵144（其由渲染信息120直接或间接描述）与目标渲染矩阵的线性组合来获得经修改渲染矩阵142。

例如，装置100可被配置为评估表示线性组合参数146的位流114，以便获得线性组合参数。

装置100也包含信号处理器148，其被配置为使用经修改渲染矩阵142基于下混信号表示型态110及对象相关参数信息112获得上混信号表示型态130。

因此，装置100能够使用（例如）SAOC信号处理器148或任何其它对象相关信号处理器148来提供具有良好渲染质量的上混信号表示型态。经修改渲染矩阵142由失真限制器140改写，使得在大部分或所有情况中实现具有十分小失真的足够好听觉印象。经修改渲染矩阵通常处于使用者指定（期望）渲染矩阵与目标渲染矩阵“之间”，其中经修改渲染矩阵与使用者指定渲染矩阵及与目标渲染矩阵间的类似程度由线性组合参数决定，从而允许调整可实现渲染质量及/或上混信号表示型态130的最大失真层级。

信号处理器148例如可以是SAOC信号处理器。因此，信号处理器148可被配置为评估对象相关参数信息112以获得描述由下混信号表示型态110以下混形式所表示的音频对象的特性的参数。此外，信号处理器148可获得（例如，接收）描述下混程序的参数，该下混程序在提供音频内容的位流表示型态的音频编码器侧使用以便通过组合多个音频对象的音频对象信号来获取下混信号表示型态110。因而，信号处理器148可例如评估对象层级差信息OLD（其描述针对给定音频帧与一个或多个频带的多个音频对象间的层级差）及对象间相关性信息IOC（其描述针对给定音频帧与针对一个或多个频带的多对音频对象的音频信号的相关性）。此外，信号处理器148也可评估描述下混的下混信息DMG、DCLD，该下混在例如以一个或多个下混增益参数DMG及一个或多个下混声道层级差参数DCLD的形式提供音频内容的位流表示型态的音频编码器侧执行。

此外，信号处理器148接收经修改渲染矩阵142，其指出上混信号表示型态130中的哪个音频声道应包含不同音频对象的音频内容。因此，信号处理器148被配置为使用其对音频对象的认识（自OLD信息及IOC信息获得）以及其对下混处理的认识（自DMG信息及DCLD信息获得）来判定不同音频对象对下混信号表示型态110的贡献。此外，信号处理器提供上混信号表示型态使得经修改渲染矩阵142被考虑。

因此，信号处理器148履行SAOC译码器的功能，其中下混信号表示型态110取代一个或多个下混信号812，其中对象相关参数信息112取代旁侧信息814，及其中经修改渲染矩阵142取代使用者互动/控制信息822。声道信号至发挥上混信号表示型态130的作用。因此，参考对SAOC译码器820的说明。

类似地，信号处理器148可发挥译码器/混合器920的作用，其中下混信号表示型态110发挥一个或多个下混信号的作用，其中对象相关参数信息112发挥对象元数据的作用，及其中经修改渲染矩阵142发挥输入至混合器/渲染器926的渲染信息的作用，及其中声道信号928发挥上混信号表示型态130的作用。

可替换地，信号处理器148可执行整合译码器及混合器950的功能，其中下混信号表示型态110可发挥一个或多个下混信号的作用，其中对象相关参数信息112可发挥对象元数据的作用，其中经修改渲染矩阵142可发挥输入至对象译码器外加混合器/渲染器950的渲染信息的作用，及其中声道信号958可发挥上混信号表示型态130的作用。

可替换地，信号处理器可执行SAOC至MPEG环绕转码器980的功能，其中下混信号表示型态110可发挥一个或多个下混信号的作用，其中对象相关参数信息112可发挥对象元数据的作用，其中经修改渲染矩阵142可发挥渲染信息的作用，及其中一个或多个下混信号988连同MPEG环绕位流984可发挥上混信号表示型态130的作用。

因此，欲求信号处理器148的功能的详情，参考对SAOC译码器820、分离的译码器与混合器920、整合的译码器与混合器950、及SAOC至MPEG环绕转码器980的说明。也参考例如有关信号处理器148的功能的文献[3]及[4]，其中在依据本发明的实施方式中，经修改渲染矩阵142而非使用者指定渲染矩阵120发挥输入渲染信息的作用。

有关失真限制器140的功能的进一步详情将在下面描述。

2.依据图1b的用以提供表示多声道音频信号的位流的装置

图1b示出了用以提供表示多声道音频信号的位流的装置150的方块示意图。

装置150被配置为接收多个音频对象信号160a至160N。装置150进一步被配置为提供表示由音频对象信号160a至160N描述的多声道音频信号的位流170。

装置150包含下混器180，其被配置为基于多个音频对象信号160a至160N来提供下混信号182。装置150也包含旁侧信息提供器184，其被配置为提供对象相关参数旁侧信息186，该对象相关参数旁侧信息描述音频对象信号160a至160N与下混器180所使用的下混参数的特性。旁侧信息提供器184也被配置为提供线性组合参数188，其描述（期望的）使用者指定渲染矩阵及目标（低失真）渲染矩阵对经修改渲染矩阵的期望贡献。

对象相关参数旁侧信息186可例如包含对象层级差信息（OLD），其描述音频对象信号160a至160N的对象层级差（例如，按逐频带方式）。对象相关参数旁侧信息也可包含对象间相关性信息（IOC），其描述音频对象信号160a至160N间的相关性。此外，对象相关参数旁侧信息可描述下混增益（例如，按逐对象方式），其中下混增益值由下混器180使用以便获得使音频对象信号160a至160N组合的下混信号182。对象相关参数旁侧信息186可包含下混声道层级差信息（DCLD），其描述下混信号182的多个声道的下混层级间的差（例如，如果下混信号182是多声道信号）。

线性组合参数188可例如为0与1间的数值，描述仅使用使用者指定下混矩阵（例如，对于参数值0）、仅使用目标渲染矩阵（例如，对于参数值1）或介于这些极限之间的使用者指定渲染矩阵与目标渲染矩阵的任何给定组合（例如，对于0与1间的参数值）。

装置150也包含位流格式器190，其被配置为提供位流170使得该位流包含下混信号182、对象相关参数旁侧信息186及线性组合参数188的表示型态。

因此，装置150执行依据图8的SAOC编码器810或依据图9a至图9c的对象编码器的功能。音频对象信号160a至160N与例如由SAOC编码器810接收的对象信号x₁至x_n等价。下混信号182可例如与一个或多个下混信号812等价。对象相关参数旁侧信息186可例如与旁侧信息814或对象元数据等价。然而，除了该1声道下混信号或多声道下混信号182及该对象相关参数旁侧信息186之外，位流170也可编码线性组合参数188。

因此，可视为音频编码器的装置150通过适当地设定线性组合参数188对失真限制器140所执行的失真控制方案的译码器侧处理有影响，使得装置150预期由接收位流170的音频译码器（例如，装置100）提供足够的渲染质量。

例如，旁侧信息提供器184可依自装置150的可选使用者接口199接收的质量要求信息来设定线性组合参数。可替换地或附加地，旁侧信息提供器184也可考虑音频对象信号160a至160N以及下混器180的下混参数的特性。例如，装置150可评估在一个或多个最差情况使用者指定渲染矩阵的假设下在音频译码器获得的失真度，且可调整线性组合参数188使得在考虑此线性组合参数的情况下预期由音频信号译码器获得的渲染质量被旁侧信息提供器184仍视为是充足的。例如，如果旁侧信息提供器184发现上混信号表示型态的音频质量即使在存在极限使用者指定渲染设定的情况下也不严重降级，装置150可将线性组合参数188设为以下值，即，允许对经修改渲染矩阵有强使用者影响（使用者指定渲染矩阵的影响）的值。例如，在音频对象信号160a至160N足够类似时可能是此种情况。相比之下，如果旁侧信息提供器184发现极限渲染设定会导致强可闻失真的话，旁侧信息提供器184可将线性组合参数188设为允许对使用者（或使用者指定渲染矩阵）有相对小影响的值。例如，在音频对象信号160a至160N显著不同时可能是此种情况，使得在音频译码器侧清晰分离音频对象是困难的（或与可闻失真有关）。

这里应指出的是，装置150可使用用以设定仅在装置150侧可用而在音频译码器侧（例如，装置100）不可用的线性组合参数188的认识，诸如举例而言，经由使用者接口输入至装置150的期望渲染质量信息，或关于由音频对象信号160a至160N所表示的独立音频对象的详细认识。

因此，旁侧信息提供器184能以很有意义的方式来提供线性组合参数188。

3.依据图2的具有失真控制单元（DCU）的SAOC系统

3.1SAOC译码器结构

下面将参考图2描述由失真控制单元（DCU处理）所执行的处理，图2示出了SAOC系统200的方块示意图。具体而言，图2示出了在总SAOC系统内的失真控制单元DCU。

参考图2，SAOC译码器200被配置为接收下混信号表示型态210，其例如表示1声道下混信号或2声道下混信号，或甚至具有多于两个声道的下混信号。SAOC译码器200被配置为接收SAOC位流212，其包含对象相关参数旁侧信息，诸如举例而言，对象层级差信息OLD、对象间相关性信息IOC、下混增益信息DMG、及可选地、下混声道层级差信息DCLD。SAOC译码器200也被配置为获得线性组合参数214，其也用g_DCU标示。

通常，下混信号表示型态210、SAOC位流212及线性组合参数214被包括于音频内容的位流表示型态中。

SAOC译码器200也被配置为例如自使用者接口接收渲染矩阵输入220。例如，SAOC译码器200可接收以矩阵M_ren形式的渲染矩阵输入220，其定义多个N_obj音频对象对（上混表示型态的）1、2或甚至更多输出音频信号声道的（使用者指定、期望）贡献。渲染矩阵M_ren可例如为来自使用者接口的输入，其中该使用者接口可将期望渲染设置的表示型态的不同使用者指定形式转化成渲染矩阵M_ren的参数。例如，使用者界面可使用某映射而将为层级滑动值及音频对象位置信息的形式的输入转化成使用者指定渲染矩阵M_ren。

这里应注意的是，在本说明全文中，定义参数时隙的指数l及定义处理频带的指数m有时为了清楚起见而省略。但是，应牢记的是，对于具有指数1的多个后续参数时隙及对于具有频带指数m的多个频带，可个别地执行处理。

SAOC译码器200也包含失真控制单元DCU240，其被配置为接收使用者指定渲染矩阵M_ren、SAOC位流信息212的至少一部分（如将在下面详细描述）及线性组合参数214。失真控制单元240提供经修改渲染矩阵M_ren，lim。

音频译码器200也包含SAOC译码/转码单元248，其可视为信号处理器，且其接收下混信号表示型态210、SAOC位流212及经修改渲染矩阵M_ren，lim。SAOC译码/转码单元248提供一个或多个输出声道的表示型态230，其可视为上混信号表示型态。一个或多个输出声道的表示型态230例如可采用个别音频信号声道的频域表示型态、参数多声道表示型态或个别音频声道的时域表示型态的形式。例如，上混信号表示型态230可采用MPEG环绕表示型态的形式，其包含MPEG环绕下混信号及MPEG环绕旁侧信息。

应注意的是，SAOC译码/转码单元248可包含与信号处理器148相同的功能，且可与SAOC译码器820、分离的编码器及混合器920、整合的译码器及混合器950、及SAOC至MPEG环绕转码器980等效。

3.2对SAOC译码器操作的介绍

下面将给出对SAOC译码器200的操作的简要介绍。

在总的SAOC系统中，失真控制单元（DCU）被包含于渲染接口（例如，使用者指定渲染矩阵、或可获取使用者指定渲染矩阵的信息被输入的使用者接口）与实际SAOC译码/转码单元之间的SAOC译码器/转码器处理链中。

失真控制单元240使用来自渲染接口的信息（例如，经由渲染接口或使用者接口而直接或间接输入的使用者指定渲染矩阵输入）及SAOC数据（例如，来自SAOC位流212的数据）提供经修改渲染矩阵M_ren，lim。欲求更多详情，参考图2。经修改渲染矩阵M_ren，lim可由反映实际有效渲染设定的应用（例如，SAOC译码/转码单元248）存取。

基于由具有元素的（使用者指定）渲染矩阵所表示的使用者指定渲染情形，DCU通过产生包含受限渲染系数的经修改矩阵来防止极限渲染设定，受限渲染系数将由SAOC渲染引擎使用。对于SAOC的所有运算模式，最终（DCU处理的）渲染系数将依据下式来计算：

M_{ren, lin}^{l, m} = (1 - g_{DCU}) M_{ren}^{l, m} + g_{DCU} M_{ren, tar}^{l, m} .

也标示为线性组合参数的参数g_DCU∈[0，1]用来定义自使用者定义渲染矩阵向无失真目标矩阵转变的程度。

参数g_DCU依据下式由位流元素“bsDcuParam”导出：

g_DCU＝DcuParam[bsDcuParam]。

因此，依线性组合参数g_DCU形成使用者指定渲染矩阵M_ren与无失真目标矩阵间的线性组合。线性组合参数g_DCU获自于位流元素，使得不会难以计算所需的该线性组合参数g_DCU（至少在译码器侧）。此外，从包括下混信号表示型态210、SAOC位流212及表示线性组合参数的位流元素的位流获取线性组合参数g_DCU，这给予音频信号编码器机会来部分控制在SAOC译码器侧执行的失真控制机制。

无失真目标矩阵有适合不同应用的两种可能形态。其由位流元素“bsDcuMode”控制：

●（“bsDcuMode”=0）：“下混类似（downmix-similar）”渲染，其中对应于能量正规化下混矩阵。

●（“bsDcuMode”=1）：“尽力（best effort）”渲染，其中定义为下混与使用者指定渲染矩阵二者的函数。

总之，有称为“下混类似”渲染和“尽力”渲染的两种失真控制模式，它们可依据位流元素“bsDcuMode”而选择。这两种模式在它们的目标渲染矩阵的计算方式上有所不同。下面将详细描述在“下混类似”渲染与“尽力”渲染两种模式下有关目标渲染矩阵的计算的详情。

3.3“下混类似”渲染

3.3.1介绍

“下混类似”渲染方法在下混是艺术高质量的重要参照的情况中通常可使用。“下混类似”渲染矩阵如下计算：

M_{ren, DS}^{l} = M_{ren, tar}^{l} = \sqrt{N_{DS}^{l}} D_{DS}^{l},

其中表示能量正规化标量（对于每参数隙l）及是以零元素的行扩展的下混矩阵D^l使得的行的数目及顺序与的群集对应。

例如，在SAOC立体声至多声道转码模式中，N_MPS＝6。因而，大小为N_MPS×N（其中，N描绘输入音频对象的数目），及其表示前左及右输出声道的行等于D^l（或D^l的相对应行）。

为促进理解上面内容，应考虑下面对渲染矩阵及下混矩阵的定义。

应用于输入音频对象S的（经修改）渲染矩阵M_ren，lim决定目标渲染输出为Y＝M_ren，limS。具有元素m_i，j的（经修改）渲染矩阵M_ren，lim将所有输入对象i（即，具有对象指数i的输入对象）映射至期望输出声道j（即，具有声道指数j的输出声道）。（经修改）渲染矩阵M_ren，lim由下式给出

M_{ren, lin} = (\begin{matrix} m_{0, Lf} & . . . & m_{N - 1, Lf} \\ m_{0, Rf} & . . . & m_{N - 1, Rf} \\ m_{0, C} & . . . & m_{N - 1, C} \\ m_{0, Lfe} & . . . & m_{N - 1, Lfe} \\ m_{0, Ls} & . . . & m_{N - 1, Ls} \\ m_{0, Rs} & . . . & m_{N - 1, Rs} \end{matrix}),

对于5.1输出配置

M_{ren, \lim} = (\begin{matrix} m_{0, L} & . . . & m_{N - 1, L} \\ m_{0, R} & . . . & m_{N - 1, R} \end{matrix}),

对于立体声输出配置

M_{ren, \lim} = (m_{0, C} . . . m_{N - 1, C}),

对于单声道输出配置。

相同维数通常也应用于使用者指定渲染矩阵M_ren及目标渲染矩阵M_ren，tar。

应用于输入音频对象S（在音频译码器中）的下混矩阵D决定下混信号为X=DS。

对于立体声下混情况，由DMG及DCLD参数获得具有元素d_i，j(i＝0，1；j＝0，...，N-1)大小为2×N的下混矩阵D（也用D^l，标示，以示出了可能的时间依赖性）为

d_{0, j} = 10^{0.05 {DMG}_{i}} \sqrt{\frac{10^{0.1 {DCLD}_{i}}}{1 + 10^{0.1 {DCLD}_{i}}}}, d_{1, j} = 10^{0.05 {DMG}_{i}} \sqrt{\frac{1}{1 + 10^{0.1 {DCLD}_{i}}}} .

对于单声道下混情况，由DMG参数获得具有元素d_i，j(i＝0，1；j＝0，...，N-1)大小为1×N的下混矩阵D，为

d_{0, j} = 10^{0.05 {DMG}_{i}} .

下混参数DMG及DCLD是自SAOC位流212获得。

3.3.2针对所有译码/转码SAOC模式的能量正规化标量的计算

对于所有译码/转码SAOC模式，使用下列方程式计算能量正规化标量

N_{DS}^{l} = \frac{trace (M_{rem}^{l, m} {(M_{ren}^{l, m})}^{*}) + ϵ}{trace (D^{l} {(D^{l})}^{*}) + ϵ} .

3.4“尽力”渲染

3.4.1介绍

“尽力”渲染方法通常在目标渲染是重要参照的情况中使用。

“尽力”渲染矩阵描述目标渲染矩阵，其取决于下混及渲染信息。能量正规化由大小为N_MPS×M的矩阵表示，因而它对每个输出声道提供个别值。这需要对在下面概述的不同SAOC操作模式不同地计算。“尽力”渲染矩阵如下计算

对于下面的SAOC模式“x-1-1/2/5/b”、“x-2-1/b”

对于下面的SAOC模式“x-2-2/5”。

这里，D^l是下混矩阵并且表示能量正规化矩阵。

上面方程式中的平方根运算符标示按元素平方根形成。

下面将详细描述对值的计算，值在SAOC单声道至单声道译码模式中可能是能量正规化标量及在其它译码模式或转码模式中可能是能量正规化矩阵。

3.4.2SAOC单声道至单声道（“x-1-1”）译码模式

对于单声道下混信号被译码以获得单声道输出信号（作为上混信号表示型态）的（“x-1-1”）SAOC模式，能量正规化标量使用下面方程式来计算

N_{BE}^{l, m} = \frac{Σ_{j = 0}^{N - 1} {(m_{j, 0}^{l, m})}^{2} + ϵ}{Σ_{j = 0}^{N - 1} {(d_{j}^{l})}^{2} + ϵ} .

3.4.3SAOC单声道至立体声（“x-1-2”）译码模式

对于单声道下混信号被译码以获得立体声（2声道）输出（作为上混信号表示型态）的（“x-1-2”）SAOC模式，大小为2×1的能量正规化矩阵使用下面方程式来计算

N_{BE}^{l, m} = {(\frac{Σ_{j = 0}^{N - 1} {(m_{j, 0}^{l, m})}^{2} + ϵ}{Σ_{j = 0}^{N - 1} {(d_{j}^{l})}^{2} + ϵ}, \frac{Σ_{j = 0}^{N - 1} {(m_{j, 1}^{l, m})}^{2} + ϵ}{Σ_{j = 0}^{N - 1} {(d_{j}^{l})}^{2} + ϵ})}^{T} .

3.4.4SAOC单声道至双耳（“x-1-b”）译码模式

对于单声道下混信号被译码以获得双耳渲染输出信号（作为上混信号表示型态）的（“x-1-b”）SAOC模式，大小为2×1的能量正规化矩阵使用下面方程式来计算

N_{BE}^{l, m} = {(\frac{Σ_{j = 0}^{N - 1} a_{j, 1}^{l, m} {(a_{j, 1}^{l, m})}^{*} + ϵ}{Σ_{j = 0}^{N - 1} {(d_{j}^{l})}^{2} + ϵ}, \frac{Σ_{j = 0}^{N - 1} a_{j, 2}^{l, m} {(a_{j, 2}^{l, m})}^{*} + ϵ}{Σ_{j = 0}^{N - 1} {(d_{j}^{l})}^{2} + ϵ})}^{T} .

元素包含（或取自）目标双耳渲染矩阵A^l，m。

3.4.5SAOC立体声至单声道（“x-2-1”）译码模式

对于两声道（立体声）下混信号被译码以获得一个声道（单声道）输出信号（作为上混信号表示型态）的（“x-2-1”）SAOC模式，大小为1×2的能量正规化矩阵使用下面方程式来计算

N_{BE}^{l, m} = M_{ren}^{l, m} {(D^{l})}^{*} J^{l},

其中是大小为1×N的单声道渲染矩阵。

3.4.6SAOC立体声至立体声（“x-2-2”）译码模式

对于立体声下混信号被译码以获得立体声输出信号（作为上混信号表示型态）的（“x-2-2”）SAOC模式，大小为2×2的能量正规化矩阵使用下面方程式来计算

N_{BE}^{l, m} = M_{ren}^{l, m} {(D^{l})}^{*} J^{l},

其中是大小为2×N的立体声渲染矩阵。

3.4.7SAOC立体声至双耳（“x-2-b”）译码模式

对于立体声下混信号被译码以获得双耳渲染输出信号（作为上混信号表示型态）的（“x-2-b”）SAOC模式，大小为2×2的能量正规化矩阵使用下列方程式来计算

N_{BE}^{l, m} = A^{l, m} {(D^{l})}^{*} J^{l},

其中A^l，m是大小为2×N的双耳渲染矩阵。

3.4.8SAOC单声道至多声道（“x-1-5”）转码模式

对于单声道下混信号被转码以获得5声道或6声道输出信号（作为上混信号表示型态）的（“x-1-5”）SAOC模式，大小为N_MPS×1的能量正规化矩阵使用下面方程式来计算

N_{BE}^{l, m} = {(\frac{Σ_{j = 0}^{N - 1} {(m_{j, 0}^{l, m})}^{2} + ϵ}{Σ_{j = 0}^{N - 1} {(d_{j}^{l})}^{2} + ϵ}, . . ., \frac{Σ_{j = 0}^{N - 1} {(m_{j, N_{MPS} - 1}^{l, m})}^{2} + ϵ}{Σ_{j = 0}^{N - 1} {(d_{j}^{l})}^{2} + ϵ})}^{T} .

3.4.9SAOC立体声至多声道（“x-2-5”）转码模式

对于立体声下混信号被转码以获得5声道或6声道输出信号（作为上混信号表示型态）的（“x-2-5”）SAOC模式，大小为N_MPS×2的能量正规化矩阵使用下面方程式来计算

N_{BE}^{l, m} = M_{ren}^{l, m} {(D^{l})}^{*} J^{l} .

3.4.10J^l的计算

为避免在计算3.4.5、3.4.6、3.4.7、及3.4.9中的J^l＝(D^l(D^l)^*)^-1项时遇到的数值问题，在一些实施方式中修改J^l。首先计算J^l的特征值λ_1，2，求解det(J-λ_1，2I)＝0。

特征值以降序(λ₁≥λ₂)排列，并且对应于最大特征值的特征向量依据上面方程式来计算。确保位于正x平面上（第一元素必须为正）。第二特征向量由第一特征向量旋转-90度而获得：

J = (v_{1} v_{2}) (\begin{matrix} λ_{1} & 0 \\ 0 & λ_{2} \end{matrix}) {(v_{1} v_{2})}^{*} .

3.4.11针对增强音频对象（EAO）的失真控制单元（DCU）应用

下面将描述有关失真控制单元的应用的一些可选延伸，其可在依据本发明的一些实施方式中实施。

对于译码残余编码数据及因而支持对EAO的处理的SAOC译码器，提供对允许利用通过使用EAO而提供的增强音频质量的DCU的第二参数化可以是有意义的。这可通过译码及使用可选择的第二组DCU参数（即，bsDcuMode及bsDcuParam2）来实现，第二组DCU参数作为包含残余数据（即，SAOCExtensionConfigData()及SAOCExtensionFrameData()）的数据结构的一部分来额外传输。应用在其译码残余编码数据及在严格的EAO模式中操作时可利用此第二参数组，其中，严格的EAO模式由唯有EAO可随意修改而所有非EAO只经历单一公共修改的条件定义。具体而言，该严格的EAO模式需要满足下列两个条件：

下混矩阵及渲染矩阵具有相同的维数（暗指，渲染声道数目等于下混声道数目）。

应用仅对各常规对象（即，非EAO）使用渲染系数，该各常规对象以单一公共比例因子与它们相对应的下混系数相关。

4.依据图3a的位流

下面将参考图3a描述表示多声道音频信号的位流，图3a示出了这种位流300的图形表示型态。

位流300包含下混信号表示型态302，其是使多个音频对象的音频信号组合的下混信号的表示型态（例如，编码表示型态）。位流300也包含描述音频对象的特性的对象相关参数旁侧信息304及通常也描述在音频编码器中执行的下混的特性。对象相关参数信息304较佳地包含对象层级差信息OLD、对象间相关性信息IOC、下混增益信息DMG及下混声道层级差信息DCLD。位流300也包含线性组合参数306，其描述使用者指定渲染矩阵及目标渲染矩阵对经修改渲染矩阵（将要由音频信号译码器应用）的期望贡献。

下面将参考图3b及图3c描述有关位流300的进一步可选详情，位流300可由装置150作为位流170提供，及可输入装置100中以获得下混信号表示型态110、对象相关参数信息112及线性组合参数140，或输入至200中以获得下混信息210、SAOC位流信息212及线性组合参数214。

5.位流语法详情

5.1SAOC特定配置语法

图3b示出了SAOC特定配置信息的详细语法表示型态。

依据图3b的SAOC特定配置310例如可以是依据图3a的位流300的报头的一部分。

SAOC特定配置例如可包含采样频率配置，其描述要由SAOC译码器所应用的采样频率。SAOC特定配置也包含低延迟模式配置，其描述应使用信号处理器148或SAOC译码/转码单元248的低延迟模式抑或高延迟模式。SAOC特定配置也包含频率分辨率配置，其描述要由信号处理器148或由SAOC译码/转码单元248所使用的频率分辨率。此外，SAOC特定配置可包含帧长度配置，其描述要由信号处理器148或由SAOC译码/转码单元248所使用的音频帧的长度。再者，SAOC特定配置通常包含对象数目配置，其描述要由信号处理器148或由SAOC译码/转码单元248所处理的音频对象的数目。对象数目配置也描述对象相关参数信息112或SAOC位流212中所包括的对象相关参数的数目。SAOC特定配置可包含对象关系配置，其标示具有常见对象相关参数信息的对象。SAOC特定配置也可包含绝对能量传输配置，其指出绝对能量信息是否自音频编码器传输至音频译码器。SAOC特定配置信息也可包含下混声道数目配置，其指出是否仅有一个下混声道、是否有两个下混声道、或可选地是否有多于两个的下混声道。此外，SAOC特定配置在一些实施方式中可包含额外配置信息。

SAOC特定配置也可包含后处理下混增益配置信息“bsPdgFlag”，其定义是否传输针对可选的后处理的后处理下混增益。

SAOC特定配置也包含标记“bsDcuFlag”（其例如可以是1位标记），其定义位流中是否传输值“bsDcuMode”及“bsDcuParam”。如果此标记“bsDcuFlag”取值“1”，标为“bsDcuMandatory”的另一标记及标记“bsDcuDynamic”被包括于SAOC特定配置310中。标记“bsDcuMandatory”描述失真控制是否必须由音频译码器应用。如果标记“bsDcuMandatory”等于1，则使用如在位流中传输的参数“bsDcuMode”及“bsDcuParam”必须应用失真控制单元。如果标记“bsDcuMandatory”等于0，则在位流中传输的失真控制单元参数“bsDcuMode”及“bsDcuParam”仅是推荐值并且也可使用其它失真控制单元设定。

换言之，音频编码器可启用标记“bsDcuMandatory”以便迫使在标准兼容音频译码器中使用失真控制机制，及可停用该标记以便将是否应用失真控制单元的决策留给音频译码器作出，并且倘若如此，该等参数用于失真控制单元。

标记“bsDcuDynamic”启用值“bsDcuMode”及“bsDcuParam”的动态信令。如果标记“bsDcuDynamic”停用，参数“bsDcuMode”及“bsDcuParam”被包括于SAOC特定配置中，不然，参数“bsDcuMode”及“bsDcuParam”被包括于SAOC帧中，或至少被包括于一些SAOC帧中，如将随后讨论。因此，音频信号编码器可在一次信令（每条音频，其包含单一SAOC特定配置及通常多个SAOC帧）与一些或所有SAOC帧中诸参数的动态传输之间切换。

参数“bsDcuMode”依据图3d的表来定义失真控制单元（DCU）的无失真目标矩阵类型。

参数“bsDcuParam”依据图3e的表来定义失真控制单元（DCU）算法的参数值。换言之，4位参数“bsDcuParam”定义指数值idx，其可由音频信号译码器映射至线性组合值g_DCU（也用“DcuParam[ind]”或“DcuParam[idx]”标示）。因而，参数“bsDcuParam”以量化方式表示线性组合参数。

如在图3b可见，如果标记“bsDcuFlag”取“0”值（该值指出不传输失真控制单元参数），参数“bsDcuMandatory”、“bsDcuDynamic”、“bsDcuMode”及“bsDcuParam”设为默认值“0”。

SAOC特定配置也可选地包含一个或多个字节对齐位“ByteAlign（）”以将SAOC特定配置引至期望长度。

此外，SAOC特定配置能可选地包含SAOC延伸配置“SAOCExtensionConfig（）”，其包含额外配置参数。然而，该配置参数在本发明中是不相关的，使得这里因简洁起见而省略讨论。

5.2SAOC帧语法

下面将参考图3c描述SAOC帧的语法。

SAOC帧“SAOCFrame”通常包含如前讨论的编码对象层级差值OLD，其可针对多个频带（“逐频带”）及多个音频对象（每音频对象）包括于SAOC帧数据中。

SAOC帧也可选地包含编码绝对能量值NRG，其可针对多个频带（逐频带）包括进来。

SAOC帧也可包含编码对象间相关性值IOC，其针对多个音频对象组合包括于SAOC帧数据中。IOC值通常以逐频带方式包括进来。

SAOC帧也包含编码下混增益值DMG，其中，每SAOC帧每音频对象通常有一个下混增益值。

SAOC帧也可选地包含编码下混声道层级差DCLD，其中每音频对象及每SAOC帧通常有一个下混声道层级差值。

再者，SAOC帧通常可选地包含编码后处理下混增益值PDG。

此外，SAOC帧在一些情况中也可包含一个或多个失真控制参数。如果包括于SAOC特定配置部分中的标记“bsDcuFlag”等于“1”，指出在位流中使用失真控制单元信息，及如果SAOC特定配置中的标记“bsDcuDynamic”也取值“1”，指出使用动态（逐帧）失真控制单元信息，失真控制信息被包括于SAOC帧中但有条件是SAOC帧是所谓的“独立”SAOC帧（其中标记“bsIndependencyFlag”是有效的或标记“bsDcuDynamicUpdate”是有效的）。

这里应注意的是，如果标记“bsIndependencyFlag”无效，标记“bsDcuDynamicUpdate”仅被包括于SAOC帧中，并且标记“bsDcuDynamicUpdate”定义是否对值“bsDcuMode”及“bsDcuParam”进行更新。更确切的说，“bsDcuDynamicUpdate”==1意思是，在目前帧中更新值“bsDcuMode”及“bsDcuParam”，而“bsDcuDynamicUpdate”==0意思是，保留先前所传输的值。

因此，如果启动失真控制单元参数的传输及也启动失真控制单元数据的动态传输及启动标记“bsDcuDynamicUpdate”，上面已阐述的参数“bsDcuMode”及“bsDcuParam”被包括于SAOC帧中。此外，如果SAOC帧是“独立”SAOC帧、启动失真控制单元数据的传输并且也启动失真控制单元数据的动态传输，参数“bsDcuMode”及“bsDcuParam”也被包括于SAOC帧中。

SAOC帧也可选地包含填充数据“byteAlign（）”以将SAOC帧填充至期望长度。

可选地，SAOC帧可包含标示为“SAOCExt或ExtensionFrame（）”的额外信息。然而，此可选额外SAOC帧信息在本发明中是不相关的，及为了简洁因而这里将不讨论。

关于完整性，应指出的是，标记“bsIndependencyFlag”指出是否目前SAOC帧的无损编码是独立于前SAOC帧而执行，即，是否目前SAOC帧可在没有对前SAOC帧的认识的情况下编码。

6.依据图4的SAOC译码器/转码器

下面将描述用于SAOC中的失真控制的渲染系数限制方案的进一步实施方式。

6.1概述

图4示出了依据本发明的实施方式的音频译码器400的方块示意图。

音频译码器400被配置为接收下混信号410、SAOC位流412、线性组合参数414（也用标示），及渲染矩阵信息420（也用R标示）。音频译码器400被配置为接收上混信号表示型态，例如为多个输出声道130a至130M的形式。音频译码器400包含失真控制单元440（也用DCU标示），其接收SAOC位流412的SAOC位流信息的至少一部分、线性组合参数414及渲染矩阵信息420。失真控制单元提供经修改信息R_lim，其可以是经修改渲染矩阵信息。

音频译码器400也包含SAOC译码器及/或SAOC转码器448，其接收下混信号410、SAOC位流412及经修改渲染信息R_lim并基于它们提供输出声道130a至130M。

下面将详细讨论使用依据本发明的一个或多个渲染系数限制方案的音频译码器400的功能。

一般的SAOC处理以时间/频率选择方式来实施且可描述如下。SAOC编码器（例如，SAOC编码器150）提取数个输入音频对象信号的心理声学特性（例如，对象功率关系及相关性）并接着将它们下混成组合单声道或立体声声道（例如，下混信号182或下混信号410）。此下混信号及提取的旁侧信息（例如，对象相关参数旁侧信息或SAOC位流信息412）是使用已知的感知音频编码器以压缩格式来传输（或储存）。在接收端，SAOC译码器418使用传输的旁侧信息412来概念上尝试恢复原始对象信号（即，分离的下混对象）。接着使用渲染矩阵，将这些近似对象信号混合成目标场景。例如R或R_lim的渲染矩阵由指定用于每个传输音频对象及上混设置扬声器的渲染系数（RC）组成。这些RC确定所有分离的/渲染的对象的增益和空间位置。

事实上，对象信号的分离很少或甚至从不执行，因为分离及混合在单一组合处理步骤中执行，这大大降低计算复杂度。此方案在传输位率（仅需要传输一个或两个下混声道182、410外加一些旁侧信息186、188、412、414而非若干个别对象音频信号）及计算复杂度（处理复杂度主要有关于输出声道数目而非音频对象数目）方面都极为有效。SAOC译码器将对象增益及其它旁侧信息直接转换（在参数层面上）成转码系数（TC），其应用于下混信号182、414以产生针对渲染输出音频场景（或针对进一步解码操作的预处理下混信号，即，典型地多声道MPEG环绕渲染）的相对应信号130a至130M。

渲染输出场景的主观上感知音频质量可通过应用如在[6]中所述的失真控制单元DCU（例如，渲染矩阵修改单元）来改进。此改进能以接受对目标渲染设定的适度动态修改为代价来实现。修改渲染信息可时间及频率变化地完成，这在特定情况下可导致不自然的声色及/或时间波动人工因素。

在总的SAOC系统中，DCU能以简单方式并入SAOC译码器/转码器处理链中。即，通过控制RC、R而置于SAOC的前端，见图4。

6.2基本假设

间接控制方法的基本假设考虑失真层级与下混中RC与它们相对应对象层级的偏差之间的关系。这是基于此观测结果：RC相对其它对象对特定对象所应用的特定降低/升高越多，要由SAOC译码器/转码器所执行的对传输下混信号的积极修改就越多。换言之：彼此间的“对象增益”值偏差越高，出现不可接受失真的机会就越高（假定相同的下混系数）。

6.3受限渲染系数的计算

基于由大小为N_ch×N_ob（即，行对应于输出声道130a至130M，列对应于输入音频对象）的矩阵R的系数（RC）所表示的使用者指定渲染情形，DCU通过产生包含受限渲染系数的经修改矩阵R_lim来防止极限渲染设定，受限渲染系数事实上由SAOC渲染引擎448使用。不失般性，在后续说明中，RC被假定为频率不变的从而简化符号。对于SAOC的所有操作模式，受限渲染系数可如下获取：

R_{\lim} = (1 - Λ) R + Λ \tilde{R} .

这意味着，通过包含交叉衰减参数（也标示为线性组合参数），可实现（使用者指定）渲染矩阵R朝目标矩阵的混合。换言之，受限矩阵R_lim表示渲染矩阵R与目标矩阵的线性组合。一方面，目标渲染矩阵可以是具有正规化因子的下混矩阵（即，下混声道通过转码器448）或是导致静态转码矩阵的另一静态矩阵。尽管该“下混类似渲染”完全不考虑初始渲染系数，但确保目标渲染矩阵不引入任何SAOC处理人工因素及因而表示音频质量方面的最佳渲染点。

然而，如果应用需要特定渲染情形或使用者对他/她的初始渲染设置而设定高值（特别地，例如一个或多个对象的空间位置），下混类似渲染无法充当目标点。另一方面，在考虑下混及初始渲染系数（例如，使用者指定渲染矩阵）时，此点可解释为“尽力渲染”。对目标渲染矩阵的第二定义的目的是以最可能方式来保留指定渲染情形（例如，由使用者指定渲染矩阵定义），但同时将由于过度对象操控而引起的可闻降级保持在最小层级上。

6.4下混类似渲染

6.4.1介绍

大小为N_dmx×N_ob的下混矩阵D由编码器（例如，音频编码器150）决定且包含有关输入对象如何被线性组合于传输至译码器的下混信号中的信息。例如，对于单声道下混信号，D减至单行向量，及在立体声下混情况中N_dmx＝2。

“下混类似渲染”矩阵R_DS如下计算

\tilde{R} (= R_{DS}) = N_{DS} D_{R},

其中N_DS表示能量正规化标量，及D_R为由零元素的行扩展的下混矩阵，使得D_R的行的数目及顺序对应于R的群集。例如，在SAOC立体声至多声道转码模式（x-2-5）中，N_dmx＝2及N_ch＝6。因此，D_R大小为N_ch×N_ob及其表示前左及右输出声道的行等于D。

6.4.2所有译码/转码SAOC模式

对于所有译码/转码SAOC模式，能量正规化标量N_DS可使用下列方程式来计算

N_{DS} = \frac{trace ({RR}^{*}) + ϵ}{trace ({DD}^{*}) + ϵ},

其中，运算符trace(X)暗指矩阵X的所有对角元素的和。(*)暗指复共轭转置运算符。

6.5尽力渲染

6.5.1介绍

尽力渲染方法描述取决于下混及渲染信息的目标渲染矩阵。能量正规化由大小为N_ch×N_dmx的矩阵N_BE表示，因此，其对每个输出声道（假设有多于一个的输出声道）提供个别值。这需要对在后续部分中概述的不同SAOC操作模式不同地计算N_BE。

“尽力渲染”矩阵如下计算

\tilde{R} (= R_{BE}) = N_{BE} D,

其中，D是下混矩阵及N_BE表示能量正规化矩阵。

6.5.2SAOC单声道至单声道（“x-1-1”）译码模式

对于“x-1-1”SAOC模式，能量正规化标量N_BE可使用下列方程式计算

N_{BE} = \frac{Σ_{j = 1}^{N_{ob}} r_{1, j}^{2} + ϵ}{Σ_{j = 1}^{N_{ob}} d_{1, j}^{2} + ϵ} .

6.5.3SAOC单声道至立体声（“x-1-2”）译码模式

对于“x-1-2”SAOC译码模式，大小为2×1的能量正规化矩阵N_BE可使用下列方程式计算

N_{BE} = {[\frac{Σ_{j = 1}^{N_{ob}} r_{1, j}^{2} + ϵ}{Σ_{j = 1}^{N_{ob}} d_{1, j}^{2} + ϵ}, \frac{Σ_{j = 1}^{N_{ob}} r_{2, j}^{2} + ϵ}{Σ_{j = 1}^{N_{ob}} d_{1, j}^{2} + ϵ}]}^{T} .

6.5.4SAOC单声道至双耳（“x-1-b”）译码模式

对于“x-1-b”SAOC模式，大小为2×1的能量正规化矩阵可使用下列方程式来计算

N_{BE} = {[\frac{Σ_{j = 1}^{N_{ob}} r_{1, j}^{2} + ϵ}{Σ_{j = 1}^{N_{ob}} d_{1, j}^{2} + ϵ}, . . ., \frac{Σ_{j = 1}^{N_{ob}} r_{2, j}^{2} + ϵ}{Σ_{j = 1}^{N_{ob}} d_{1, j}^{2} + ϵ}]}^{T} .

应进一步注意的是，这里r₁及r₂考虑/合并双耳HRTF参数信息。

也应注意的是，对于上面的所有3个方程式，必须取N_BE的平方根，即

\tilde{R} (= R_{BE}) = \sqrt{N_{BE}} D

（参见前面说明）。

6.5.5SAOC立体声至单声道（“x-2-1”）译码模式

对于“x-2-1”SAOC模式，大小为1×2的能量正规化矩阵N_BE可使用下列方程式来计算

N_BE＝R₁D^*(DD^*)^-1，

其中大小为1×N_ob的单声道渲染矩阵R₁如下定义

R_{1} = [\begin{matrix} r_{1,1} & . . . & r_{{1, N}_{ob}} \end{matrix}] .

6.5.6SAOC立体声至立体声（“x-2-2”）译码模式

对于“x-2-2”SAOC模式，大小为2×2的能量正规化矩阵N_BE可使用下列方程式来计算

N_BE＝R₂D^*(DD^*)^-1，

其中大小为2×N_ob的单声道渲染矩阵R₂如下定义

R_{2} = [\begin{matrix} r_{1,1} & . . . & r_{{1, N}_{ob}} \\ r_{2,1} & . . . & r_{2, N_{ob}} \end{matrix}] .

6.5.7SAOC单声道至双耳（“x-2-b”）译码模式

对于“x-2-b”SAOC模式，大小为2×2的能量正规化矩阵N_BE可使用下列方程式来计算

N_BE＝R₂D^*(DD^*)^-1，

其中大小为2×N_ob的双耳渲染矩阵R₂如下定义

R_{2} = [\begin{matrix} r_{1,1} & . . . & r_{1, N_{ob}} \\ r_{2.1} & . . . & r_{2, N_{ob}} \end{matrix}] .

应进步注意的是，这里r_1，n及r_2，n考虑/合并双耳HRTF参数信息。

6.5.8SAOC单声道至多声道（“x-1-5”）转码模式

对于“x-1-5”SAOC模式，大小为N_ch×1的能量正规化矩阵N_BE可使用下列方程式来计算

N_{BE} = {[\frac{Σ_{j = 1}^{N_{ob}} r_{1, j}^{2} + ϵ}{Σ_{j = 1}^{N_{ob}} d_{1, j}^{2} + ϵ}, . . ., \frac{Σ_{j = 1}^{N_{ob}} r_{N_{ch, j}}^{2} + ϵ}{Σ_{j = 1}^{N_{ob}} d_{N_{ch, j}}^{2} + ϵ}]}^{T} .

再次，推荐或甚至在某些情况中需要取每个元素的平方根。

6.5.9SAOC立体声至多声道（“x-2-5”）转码模式

对于“x-2-5”SAOC模式，大小为N_ch×2的能量正规化矩阵N_BE可使用下列方程式来计算

N_BE＝RD^*(DD^*)^-1。

6.5.10(DD^*)^-1的计算

对于项(DD^*)^-1的计算，可应用正则化方法来防止不适定矩阵结果。

6.6渲染系数限制方法的控制

6.6.1位流语法的范例

下面将参考图5a描述SAOC特定配置的语法表示型态。SAOC特定配置“SAOCSpecificConfig（）”包含常规的SAOC配置信息。再者，SAOC特定配置包含DCU特定添加内容510，其将在下面更详细描述。SAOC特定配置也包含一个或多个填充位“ByteAlign（）”，其可用来调整SAOC特定配置的长度。此外，SAOC特定配置能可选地包含SAOC扩展配置，其包含进一步的配置参数。

依据图5a的位流语法元素“SAOCSpecificConfig（）”的DCU特定添加内容510是所提出DCU方案的位流信令的范例。这涉及在依据参考文献[8]的起草SAOC标准的子条款“5.1payloads for SAOC”中所描述的语法。

下面将给出一些参数的定义。

“bsDcuFlag”定义DCU的设定是否由SAOC编码器或译码器/转码器决定。更准确而言，“bsDcuFlag”=1意味着，由SAOC编码器在SAOCSpecificConfig（）中指定的值“bsDcuMode”及“bsDcuParam”被应用于DCU，而“bsDcuFlag”=0意味着，变量“bsDcuMode”及“bsDcuParam”（由默认值初始化）可由SAOC译码器/转码器应用或使用者来进一步修改。

“bsDcuMode”定义DCU的模式。更准确而言，“bsDcuMode”=0意味着由DCU应用“下混类似”渲染模式，而“bsDcuMode”=1意味着由DCU算法应用“尽力”渲染模式。

“bsDcuParam”定义DCU算法的混合参数值，其中图5b的表示出了“bsDcuParam”参数的量化表。

可能的“bsDcuParam”值在此范例中是具有用4位表示的16个项的表的一部分。当然，可使用任何更大或更小的表格。值间的间隔可以是对数上的，以便对应于按分贝计的最大对象分离。但值也可以是线性隔开的，或对数的与线性的混合组合，或任何其它种类的尺度。

位流中的“bsDcuMode”参数使得在编码器侧可能选择针对该情况的最佳DCU算法。这可能会非常有用，因为一些应用或内容可能自“下混类似”渲染模式受益，而其它可能自“尽力”渲染模式受益。

通常，“下混类似”渲染模式会是，向后/向前兼容性是重要的及下混具有需要保留的重要艺术质量的应用的期望方法。另一方面，“尽力”渲染模式在不是此情况的情况中会有更好性能。

有关本发明的这些DCU参数当然可以在SAOC位流的任何其它部分中传送。可替换位置会是使用“SAOCExtensionConfig（）”容器，其中可使用某扩展ID。此两部分可位于SAOC报头中，确保最小数据率开销。

另一替代方案是在有效载荷数据（即，SAOCFrame（））中传送DCU数据。这会允许时变信令（例如，信号适应性控制）。

灵活方法是定义DCU数据的针对报头（即，静态信令）与有效载荷数据（即，动态信令）二者的位流信令。然后，SAOC编码器自由选择两信令方法之一。

6.7处理策略

在DCU设定（例如，DCU模式“bsDcuMode”及混合参数设定“bsDcuParam”）由SAOC编码器明确指定的情况（例如，“bsDcuFlag”=1）中，SAOC译码器/转码器将这些值直接应用于DCU。如果DCU设定不明确指定（例如，“bsDcuFlag”=0），SAOC译码器/转码器使用默认值并允许SAOC译码器/转码器应用或使用者来修改它们。第一量化指数（例如，idx=0）可用来禁用DCU。可替换地，DCU默认值（“bsDcuParam”）可为“0”（即，禁用DCU）或“1”（即，完全限制）。

7.性能评估

7.1收听试验设计

已进行主观收听试验来评估所提出DCM概念的感知性能并将其与常规SAOC RMM解码/转码处理的结果进行比较。与其它收听试验相比，此测试的任务是考虑极限渲染情况（“独奏对象”、“不发音对象”）中关于两个质量方面的最佳可能再现质量：

1.实现渲染目标（目标对象的良好降低/升高）

2.总场景声音质量（考虑失真、人工因素、非自然性…）

请注意，未经修改SAOC处理可实现方面#1但不实现方面#2，而仅使用传输下混信号可实现方面#2但不实现方面#1。

进行收听试验，向听众仅呈现真实选择，即，仅有在译码器侧作为信号真正可用的材料。因而，所呈现的信号是常规（DCU未处理）SAOC译码器的输出信号，证明SAOC及SAOC/DCU输出的基准性能。此外，与下混信号对应的轻微渲染情况在收听试验中呈现。

图6a的表描述收听试验条件。

由于所提出的DCU使用常规SAOC数据及下混来操作且不依赖残余信息，没有核心编码器应用于相对应的SAOC下混信号。

7.2收听试验项

下述项以及极限与临界渲染已被选定用于始于CfP收听试验材料的目前收听试验。

图6b的表描述收听试验的音频项。

7.3下混及渲染设定

在图6c的表中描述的渲染对象增益已应用于所考虑的上混情形。

7.4收听试验指令

主观收听试验在声学上隔离的收听房间内进行，该房间被设计成允许高质量收听。使用耳机（带有Lake-People D/A转换器及STAX SRM监视器的STAX SR lambda pro）来进行播放。

测试方法符合在空间音频验证测试中使用的程序，类似于用以对适度质量音频[2]进行主观评估的“Multiple Stimulus with Hidden Reference andAnchors”MUSHRA）方法。测试方法已如上所述来修改以便评估所提出的DCU的感知性能。听众被指示为遵守下列收听试验指令：

“应用情形：设想你是互动音乐重混音系统的使用者，该互动音乐重混音系统允许你对音乐材料作出专用重混音。系统提供混合桌面样式滑动块以供每个乐器改变其层级、空间位置等。由于系统的本质，一些极限声音混合可导致降低总声音质量的失真。另一方面，具有类似乐器层级的声音混合倾向于产生更好的声音质量。

此测试的目的是评估不同处理算法，该等不同处理算法有关它们对声音修改强度与声音质量的影响。

在此测试中没有“参照信号”！取代其的是，下面给出对期望声音混合的说明：

对于每个音频项，请：

-首先读对你作为系统使用者想实现的期望声音混合的说明

项“BlackCoffee”：声音混合中的轻柔铜管乐部分

项“VoiceOverMusic”：轻柔背景音乐

项“Audition”：强人声音及轻柔音乐

项“LovePop”：声音混合中的轻柔弦乐部分

-接着使用共同等级来对信号评级以描述以下两者

-实现期望声音混合的渲染目标

-总场景声音质量（考虑失真、人工因素、非自然性、空间失真、…）

总共8听众参与所执行测试中的每个测试。所有主体可视为有经验听众。对每个测试项及对每个听众，自动地随机化测试条件。主观响应在范围为0至100的尺度上由基于计算机的收听试验程序来记录，其中五区间以与MUSHRA尺度相同的方式来标记。允许待测试项间的瞬时切换。

7.3收听试验结果

在图7的图形表示型态中所示的图示出了每项对所有听众而言的平均分，及所有评估项连同关联95%信赖区间的统计均值。

基于进行的收听试验的结果可作出如下观测结果：对于所进行的收听试验，所获得MUSHRA分数证实，所提出的DCU功能在总统计均值的意义上较常规SAOC RM系统提供显著更好性能。人们应注意的是，由常规SAOC译码器所产生的所有项的质量（在所考虑极限渲染条件下显出强音频人工因素）被评为与下混相同渲染设定的质量一样低的等级，其根本无法满足期望渲染情形。因此，可以得出结论，所提出的DCU方法对所有考虑的收听试验情形都引起对主观信号质量的相当大的改进。

8.结论

综上讨论，已描述用于SAOC中的失真控制的渲染系数限制方案。依据本发明的实施方式可结合用于对包含多个音频对象的音频场景的位率有效率传输/储存的参数技术来使用，其最近已提出（例如，参见参考文献[1]、[2]、[3]、[4]及[5]）。

结合接收侧的使用者交互性，在执行极限对象渲染时，此类技术按照惯例（在不使用发明渲染系数限制方案的情况下）可造成输出信号的低质量（例如，参见参考文献[6]）。

本说明书关注空间音频对象编码（SAOC），空间音频对象编码（SAOC）提供用以使用者接口的手段来选择期望播放设置（例如，单声道、立体声、5.1、等等），及通过依据个人偏好或其它准则控制渲染矩阵来对期望输出渲染场景进行互动实时修改。然而，发明通常也可适于参数技术。

由于下混/分离/基于混合的参数方法，渲染音频输出的主观质量取决于渲染参数设定。选择使用者选择的渲染设定的自由必然伴有使用者选择不适当对象渲染选项的风险，诸如总声音场景中对象的极限增益操控。

对于商品，因使用者接口上的任何设定而产生欠佳声音质量及/或音频人工因素必定是不可接受的。为了控制所产生SAOC音频输出的过度劣化，已描述数个计算测度，它们是基于计算渲染场景的感知质量的测度，并根据该测度（及可选地，其它信息）来修改实际所应用的渲染系数（参见，例如，参考文献[6]）的构想。

本文档描述用于保障渲染SAOC场景的主观声音质量的可替换构想，在该等可替换构想中，所有处理完全在SAOC译码器/转码器中实施，而不涉及对渲染声音场景的感知音频质量的复杂测度的明确计算。

这些构想因而可在SAOC译码器/转码器框架中以结构上简单且极其有效的方式来实施。所提出的失真控制单元（DCU）算法旨在限制SAOC译码器的输入参数，即渲染系数。

综上所述，依据本发明的实施方式产生如上所述的音频编码器、音频译码器、编码方法、译码方法、及用以编码或译码的计算机程序、或编码的音频信号。

9.实施替换方案

虽然在装置的上下文中已描述了一些方面，但显然这些方面也表示对相对应方法的说明，其中区块或装置对应于方法步骤或方法步骤的特征。类似地，在方法步骤的上下文中所描述的方面也表示对相对应装置的相对应区块或项或特征的说明。一些或所有方法步骤可由（或使用）硬件装置来执行，如举例而言，微处理器、可编程计算机或电子电路。在一些实施方式中，某个或多个最重要方法步骤可由此装置来执行。

发明的编码音频信号可被储存于数字储存介质上或能以传输介质传输，诸如无线传输介质或诸如互联网的有线传输介质。

视某些实施需求而定，本发明实施方式能够以硬件或软件实施。使用储存有电子可读取控制信号的数字储存介质，例如软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存可执行该实施，该等电子可读取控制信号与可编程计算机系统合作（或能够合作）使得各自的方法被执行。因此，该数字储存介质可以是计算机可读的。

依据本发明的一些实施方式包含具有电子可读取控制信号的数据载体，该等电子可读取控制信号能够与可编程计算机系统合作使得本文所描述的方法之一被执行。

大体上，本发明的实施方式可作为具有程序代码的计算机程序产品而被实施，当该计算机程序产品运行于计算机上时，该程序代码可操作用于执行该等方法之一。该程序代码可例如被储存于机器可读载体上。

其它实施方式包含储存于机器可读载体上、用于执行本文所描述方法之一的计算机程序。

换言之，发明方法的实施方式因而是计算机程序，具有当该计算机程序运行于计算机上时用以执行本文所描述的方法之一的程序代码。

发明方法的进一步实施方式因而是数据载体（或数字储存介质或计算机可读介质），其包含记录于其上用以执行本文所描述方法之一的计算机程序。数据载体、数字储存介质或记录介质通常是有形的及/或非过渡的。

发明方法的进一步实施方式因而是数据串流或信号序列，表示用于执行本文所描述方法之一的计算机程序。该数据串流或该信号序列可例如被被配置为经由数据通信连接（例如经由互联网）来传递。

进一步的实施方式包含处理装置，例如计算机，或可编程逻辑装置，其被被配置为或适于执行本文所描述的方法之一。

进一步的实施方式包含上面安装有用以执行本文所描述的方法之一的计算机程序的计算机。

在一些实施方式中，可编程逻辑装置（例如，现场可编程门阵列）可被用来执行本文所描述的方法的一些或所有功能。在一些实施方式中，现场可编程门阵列可与微处理器合作以便执行本文所描述的方法之一。大体上，该等方法较佳地被任何硬件装置执行。

上述实施方式仅仅是为了说明本发明的原理。要明白的是，对本文所描述的安排与细节的修改或改变对于本领域技术人员而言将是显而易见的。因而，意图是仅受后附的所附权利要求的范围的限制而不受以本文实施方式的说明与阐述方式呈现的特定细节限制。

参考文献

[1]C.Faller and F.Baumgarte，“Binaural Cue Coding-Part II： Schemes andapplications”，IEEE Trans.on Spccch and Audio Proc.，vol.11，no.6，Nov.2003.

[2]C.Faller，“Parametric Joint-Coding of Audio Sources”，120th AES Convention，Paris，2006，Preprint6752.

[3]J.Herre，S.Disch，J.Hilpert，O.Hellmuth：“From SAC To SAOC-RecentDevelopments in Parametric Coding of Spatial Audio”，22nd Regional UK AESConference，Cambridge，UK，April2007。

[4]J.Engdegard，B.Resch，C.Falch，O.Hellmuth，J.Hilpert，A.L.Terentiev，J.Breebaart，J.Koppens，E.Schuijers and W.Oomen：“Saotial AudioObject Coding(SAOC)-The Upecoming MPEG Standard on Parametric ObjectBased Audio Coding”，124th AES Convention，Amsterdam 2008，Preprint 7377.

[5]ISO/IEC，“MPEG audio technologics-Part2：Spatial Audio Object Coding(SAOC)，”ISO/IEC JTC1/SC29/WG11(MPEG)FCD 23003-2.

[6]US patent application61/173,456，METHODS，APPARATUS，ANDCOMPUTER PROGRAMS FOR DISTORTION AVOIDING AUDIO SIGNALPROCESSING

[7]EBU Technical recommendation：“MUSHRA-EBU Method for SubjectiveListening Tests of Intermediate Audio Qualliy”，Doc.B/AIM022，October1999.

[8]ISO/IEC JTC1/SC29/WG11(MPEG)，Document N10843，“Study on ISO/IEC23003-2：200x Spatial Audio Object Coding (SAOC)”，89th MPEG Meeting，London，UK，July 2009

Claims

1.一种用以基于音频内容的位流表示型态(300)中所包括的下混信号表示型态(110；210)及对象相关参数信息并依定义多个音频对象对于一个、两个或多个输出音频声道的期望贡献的使用者指定渲染矩阵(144)来提供上混信号表示型态(130；230)的音频处理装置(100；200)，所述装置包括：

失真限制器(140；240)，其被配置为依线性组合参数(146)使用使用者指定渲染矩阵与无失真目标渲染矩阵的线性组合来获得经修改渲染矩阵(142)；及

信号处理器(148；248)，其被配置为使用所述经修改渲染矩阵、基于所述下混信号表示型态及所述对象相关参数信息来获得所述上混信号表示型态；

其中，所述装置进一步被配置为评估表示所述线性组合参数(146)的位流元素(306)以便获得所述线性组合参数。

2.根据权利要求1所述的装置(100；200)，其中，所述失真限制器进一步被配置为获得所述目标渲染矩阵使得所述目标渲染矩阵是无失真目标渲染矩阵。

3.根据权利要求1所述的装置(100；200)，其中，所述失真限制器进一步被配置为依据下式来获得所述经修改渲染矩阵

M_{ren, \lim}^{l, m} = (1 - g_{DCU}) M_{ren}^{l, m} + g_{DCU} M_{ren, tar}^{l, m}

其中，g_DCU标示所述线性组合参数，其的值在区间[0,1]中；

其中，标示所述使用者指定渲染矩阵；及

其中，标示所述目标渲染矩阵。

4.根据权利要求1所述的装置(100；200)，其中，所述失真限制器进一步被配置为获得所述目标渲染矩阵使得所述目标渲染矩阵是下混类似目标渲染矩阵，所述下混类似目标渲染矩阵是通过用公共比例因子缩放下混矩阵的项并加入一些额外零项来获得的。

5.根据权利要求1所述的装置(100；200)，其中，所述失真限制器进一步被配置为使用能量正规化标量缩放扩展下混矩阵，以获得所述目标渲染矩阵，其中，所述扩展下混矩阵是下混矩阵的扩展形态，所述下混矩阵的一行或多行描述多个音频对象信号对所述下混信号表示型态的一个或多个声道的贡献，所述下混矩阵以零元素的行扩展使得所述扩展下混矩阵的行数等于由所述使用者指定渲染矩阵所描述的渲染群集。

6.根据权利要求1所述的装置(100；200)，其中，所述失真限制器进一步被配置为获得所述目标渲染矩阵，使得所述目标渲染矩阵是尽力目标渲染矩阵，所述尽力目标渲染矩阵基于下混矩阵和能量正规化矩阵。

7.根据权利要求1所述的装置(100；200)，其中，所述失真限制器进一步被配置为获得所述目标渲染矩阵，使得所述目标渲染矩阵取决于下混矩阵及所述使用者指定渲染矩阵。

8.根据权利要求1所述的装置(100；200)，其中所述失真限制器进一步被配置为，计算包含用以提供上混信号表示型态的所述装置的多个输出音频声道的声道个别能量正规化值的矩阵，使得所述装置的给定输出音频声道的能量正规化值描述以下事项，即，多个音频对象的所述使用者指定渲染矩阵中与所述给定输出音频声道相关联的能量渲染值的总和，与所述多个音频对象的能量下混值的总和之间的比率；以及

其中，所述失真限制器进一步被配置为使用声道个别能量正规化值来缩放下混值组，以获得所述目标渲染矩阵的与所述给定输出声道相关联的渲染值组。

9.根据权利要求1所述的装置(100；200)，其中，所述失真限制器进一步被配置为依据下式来计算包含多个输出音频声道的声道个别能量正规化值的矩阵：

针对所述装置的1声道下混信号表示型态及2声道输出信号的情况，依据：

N_{BE}^{l, m} = {(\frac{Σ_{j = 0}^{N - 1} {(m_{j, 0}^{l, m})}^{2} + ϵ}{Σ_{j = 0}^{N - 1} {(d_{j}^{l})}^{2} + ϵ}, \frac{Σ_{j = 0}^{N - 1} {(m_{j, 1}^{l, m})}^{2} + ϵ}{Σ_{j = 0}^{N - 1} {(d_{j}^{l})}^{2} + ϵ})}^{T};

或

针对所述装置的1声道下混信号表示型态及双耳渲染输出信号的情况，依据：

N_{BE}^{l, m} = {(\frac{Σ_{j = 0}^{N - 1} a_{j, 1}^{l, m} {(a_{j, 1}^{l, m})}^{*} + ϵ}{Σ_{j = 0}^{N - 1} {(d_{j}^{l})}^{2} + ϵ}, . . ., \frac{Σ_{j = 0}^{N - 1} a_{f, 2}^{l, m} {(m_{j, 2}^{l, m})}^{*} + ϵ}{Σ_{j = 0}^{N - 1} {(d_{j}^{l})}^{2} + ϵ})}^{T};

或

针对所述装置的1声道下混信号表示型态及N_MPS声道输出信号的情况，依据

N_{BE}^{l, m} = {(\frac{Σ_{j = 0}^{N - 1} {(m_{j, 0}^{l, m})}^{2} + ϵ}{Σ_{j = 0}^{N - 1} {(d_{j}^{l})}^{2} + ϵ}, . . ., \frac{Σ_{j = 0}^{N - 1} {(m_{j, N_{MPS} - 1}^{l, m})}^{2} + ϵ}{Σ_{j = 0}^{N - 1} {(d_{j}^{l})}^{2} + ϵ})}^{T};

其中，标示所述使用者指定渲染矩阵的渲染系数，描述具有对象指数j的音频对象对所述装置的第一输出音频输出声道的期望贡献；

其中，标示所述使用者指定渲染矩阵的渲染系数，描述具有对象指数j的音频对象对所述装置的第二输出音频输出声道的期望贡献；

其中，及标示所述使用者指定渲染矩阵的所述渲染系数，描述具有对象指数j的音频对象对所述装置的第一及第二输出音频声道的期望贡献并考虑参数HRTF信息；

其中，标示下混系数，描述具有对象指数j的音频对象对所述下混信号表示型态的贡献；及

其中，ε标示用以避免用零除的添加常数；及

其中，所述失真限制器进一步被配置为依据下式计算所述目标渲染矩阵

M_{ren, tar}^{l} = \sqrt{N_{BE}^{l}} D^{l},

其中，D^l标示包含所述下混系数d_j的下混矩阵。

10.根据权利要求1所述的装置(100；200)，其中，所述失真限制器进一步被配置为依所述使用者指定渲染矩阵及下混矩阵来计算描述所述装置的多个输出音频声道的声道个别能量正规化的矩阵；及

其中，所述失真限制器进一步被配置为应用描述所述声道个别能量正规化的所述矩阵，以获得所述目标渲染矩阵的与所述装置的给定输出音频声道相关联的渲染系数组，作为与所述下混信号表示型态的不同声道相关联的下混值组的线性组合。

11.根据权利要求1所述的装置(100；200)，其中，所述失真限制器进一步被配置为，针对所述装置的2声道下混信号表示型态及多声道输出音频信号的情况，依据下式计算描述多个输出音频声道的所述声道个别能量正规化的矩阵

N_{BE}^{l, m} = M_{ren}^{l, m} {(D^{l})}^{*} J^{l}

其中，标示描述多个音频对象信号对所述装置的所述多声道输出音频信号的使用者指定、期望贡献的所述使用者指定渲染矩阵，

其中，D^l标示描述多个音频对象信号对所述下混信号表示型态的贡献的下混矩阵；

其中

J^{l} = {(D^{l} {(D^{l})}^{*})}^{- 1};

及

其中，所述失真限制器进一步被配置为依据下式来计算所述目标渲染矩阵

M_{ren, tar}^{l} = N_{BE}^{l} D^{l} .

12.根据权利要求1所述的装置(100；200)，其中，所述失真限制器进一步被配置为，针对所述装置的2声道下混信号表示型态及1声道输出音频信号的情况，依据

N_{BE}^{l, m} = M_{ren}^{l, m} {(D^{l})}^{*} J^{l}

或针对所述装置的2声道下混信号表示型态及双耳渲染输出音频信号的情况，依据

N_{BE}^{l, m} = A^{l, m} {(D^{l})}^{*} J^{l}

来计算矩阵

其中，标示描述多个音频对象信号对所述装置的所述输出信号的使用者指定期望贡献的所述使用者指定渲染矩阵；

其中，A^l,m表示基于所述使用者指定渲染矩阵及报头相关传送函数的参数的双耳渲染矩阵。

13.根据权利要求1所述的装置(100；200)，其中，所述失真限制器进一步被配置为依据下式来计算能量正规化标量

N_{BE}^{l, m} = \frac{Σ_{j = 0}^{N - 1} {(m_{j, 0}^{l, m})}^{2} + ϵ}{Σ_{j = 0}^{N - 1} {(d_{j}^{l})}^{2} + ϵ},

其中，标示所述使用者指定渲染矩阵的渲染系数，描述具有对象指数j的音频对象对所述装置的输出音频信道的期望贡献；

其中，d_j标示下混系数，描述具有对象指数j的音频对象对所述下混信号表示型态的贡献；及

其中，ε标示用以避免用零除的添加常数。

14.根据权利要求1所述的装置(100；200)，其中，所述装置进一步被配置为，从所述音频内容的位流表示型态读出表示所述线性组合参数的指数值，并使用参数量化表将所述指数值映射至所述线性组合参数。

15.根据权利要求14所述的装置(100；200)，其中，所述量化表描述非一致量化，其中，所述线性组合参数的较小值用较高分辨率来量化，所述线性组合参数的较小值描述所述使用者指定渲染矩阵对所述经修改渲染矩阵的较强贡献。

16.根据权利要求1所述的装置(100；200)，其中，所述装置进一步被配置为评估描述失真限制模式的位流元素，及其中所述失真限制器被配置为选择性获得所述目标渲染矩阵使得所述目标渲染矩阵是下混类似目标渲染矩阵，或使得所述目标渲染矩阵是尽力目标渲染矩阵，其中，所述下混类似目标渲染矩阵是通过用公共比例因子缩放下混矩阵的项并加入一些额外零项来获得的，所述尽力目标渲染矩阵基于下混矩阵和能量正规化矩阵。

17.一种用以提供表示多声道音频信号的位流(170)的装置(150)，所述装置包括：

下混器(180)，其被配置为基于多个音频对象信号(160a-160N)来提供下混信号(182)；

旁侧信息提供器(184)，其被配置为提供，描述所述音频对象信号(160a-160N)及下混参数的特性的对象相关参数旁侧信息(186)，及描述使用者指定渲染矩阵与目标渲染矩阵对用以基于所述位流来提供上混信号表示型态的装置(100；200)所使用的经修改渲染矩阵的期望贡献的线性组合参数；及

位流格式器(190)，其被配置为提供包含所述下混信号及所述对象相关参数旁侧信息及所述线性组合参数的表示型态的位流(170)；

其中，所述使用者指定渲染矩阵(144)定义多个音频对象对于一个、两个或多个输出音频声道的期望贡献。

18.一种用以基于音频内容的位流表示型态中所包括的下混信号表示型态及对象相关参数信息并依定义多个音频对象对于一个、两个或多个输出音频声道的期望贡献的使用者指定渲染矩阵来提供上混信号表示型态的音频方法，所述方法包含以下步骤：

评估表示线性组合参数的位流元素，以便获得所述线性组合参数；

使用使用者指定渲染矩阵及无失真目标渲染矩阵、依线性组合参数来获得经修改渲染矩阵；及

使用所述经修改渲染矩阵、基于所述下混信号表示型态及所述对象相关参数信息来获得所述上混信号表示型态。

19.一种用以提供表示多声道音频信号的位流的方法，所述方法包含以下步骤：

基于多个音频对象信号来提供下混信号；

提供描述所述音频对象信号及下混参数的特性的对象相关参数旁侧信息及下混参数，及描述使用者指定渲染矩阵与目标渲染矩阵对经修改渲染矩阵的期望贡献的线性组合参数；及

提供包含所述下混信号、所述对象相关参数旁侧信息及所述线性组合参数的表示型态的位流；

其中，所述使用者指定渲染矩阵定义多个音频对象对于一个、两个或多个输出音频声道的期望贡献。