CN102576532A

CN102576532A - 用以基于下混信号表示型态针对上混信号表示型态的供应来提供一个或多个经调整参数的装置、音频信号译码器、音频信号转码器、音频信号编码器、音频位串流、使用对象相关参数信息的方法与计算机程序

Info

Publication number: CN102576532A
Application number: CN2010800191850A
Authority: CN
Inventors: 于尔根·赫莱; 安德烈亚斯·赫尔策; 列昂尼德·特伦蒂夫; 托尔斯藤·卡斯特纳; 科尔内利娅·法尔克; 海科·普尔纳根; 约纳斯·恩格德加德; 法尔科·里德鲁施
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV; Friedrich Alexander Univeritaet Erlangen Nuernberg FAU; Dolby International AB
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV; Dolby International AB
Priority date: 2009-04-28
Filing date: 2010-04-28
Publication date: 2012-07-11
Anticipated expiration: 2030-04-28
Also published as: US20120143613A1; ES2521715T3; CA2760515C; TWI560706B; KR101431889B1; EP2425427B1; ZA201107895B; HK1205340A1; TWI529704B; EP2425427A1; CA2760515A1; AU2010243635A1; CA2852503C; CN102576532B; HK1173551A1; MY157169A; RU2573738C2; CA2852503A1; KR20120018778A; JP5554830B2

Abstract

一种用以基于一下混信号表示型态及一对象相关参数信息针对一上混信号表示型态的一供应来提供一个或多个经调整参数的装置包括一参数调整器。该参数调整器被配置成接收一个或多个输入参数并基于该一个或多个输入参数提供一个或多个经调整参数。该参数调整器被配置成依赖于该一个或多个输入参数及该对象相关参数信息来提供该一个或多个经调整参数，使得由使用非最佳参数而引起的该上混信号表示型态的一失真至少针对偏离最佳参数超过一预定偏差的输入参数被减小。

Description

用以基于下混信号表示型态针对上混信号表示型态的供应来提供一个或多个经调整参数的装置、音频信号译码器、音频信号转码器、音频信号编码器、音频位串流、使用对象相关参数信息的方法与计算机程序

技术领域

根据本发明的实施例涉及一种用以基于一下混信号表示型态及一对象相关参数信息针对一上混信号表示型态的供应来提供一个或多个经调整参数的装置。

根据本发明的另一实施例涉及一音频信号译码器。

根据本发明的另一实施例涉及一音频信号转码器。

根据本发明的更进一步实施例涉及一用以提供一个或多个经调整参数的方法。

根据本发明的更进一步实施例涉及一种基于一下混信号表示型态、一对象相关参数信息及一期望渲染信息来提供多个上混音频信道作为一上混信号表示型态的方法。

根据本发明的又一实施例涉及一种基于一下混信号表示型态、一对象相关参数信息及一期望渲染信息来提供一下混信号表示型态及一信道相关参数信息作为一上混信号表示型态的方法。

根据本发明的更进一步实施例涉及一音频信号编码器、一种用以提供一编码音频信号表示型态的方法及一音频位串流。

根据本发明的更进一步实施例涉及相对应的计算机程序。

根据本发明的更进一步实施例涉及针对避免失真的音频信号处理的方法、装置及计算机程序。

背景技术

在已知音频处理、音频传输与音频储存技术中，愈益期望处理多通道内容以便提高听觉印象。多信道音频内容的使用为使用者带来显著的改进。举例而言，获得一3维听觉印象，其在娱乐应用中提高使用者的满意度。然而，多信道音频内容在例如电话会议应用的专业环境中也是有用的，因为扬声器可懂度可通过使用一多信道音频播放来提高。

然而，还期望在音频质量与位率要求间有一良好折衷，以避免由多通道应用导致的一过度资源加载。

最近，已提出了针对包含多个音频对象的音频场景的位率有效传输及/或储存的参数技术，例如，双耳线索编码(类型I)(参见，例如参考文献[BCC])、联合源编码(参见，例如参考文献[JSC])、及MPEG空间音频对象编码(SAOC)(参见，例如参考文献[SAOC1]、[SAOC2])。

这些技术旨在感知地重建期望的输出音频场景而非用一波形匹配。

图8示出这一系统的一系统概观(这里：MPEG SAOC)。在图8中示出的MPEG SAOC系统800包括一SAOC编码器810及一SAOC译码器820。SAOC编码器810接收多个对象信号x₁至x_n，它们可被表示为例如时域信号或时间-频率-域信号(例如，为一傅立叶类型转换的一组转换系数的形式，或为QMF子频带信号的形式)。SAOC编码器810典型地也接收下混系数d₁至d_n，它们与对象信号x₁至x_n相关联。诸组下混系数可分别用于下混信号的每一信道。SAOC编码器810典型地被配置成通过根据相关联的下混系数d₁至d_n组合对象信号x₁至x_n来获得下混信号的一信道。典型地，下混信道比对象信号x₁至x_n少。为了在SAOC译码器820端(至少近似)容许分离(或分开处理)对象信号，SAOC编码器810提供一个或多个下混信号(表示为下混通道)812及一辅助(side)信息814。辅助信息814说明对象信号x₁至x_N的特性以便容许一译码器端特定对象处理。

SAOC译码器820被配置成接收该一个或多个下混信号812及辅助信息814。再者，SAOC译码器820典型地被配置成接收说明一期望的渲染设置的一使用者互动信息及/或一使用者控制信息822。举例而言，使用者互动信息/使用者控制信息822可说明一扬声器设置及提供对象信号x₁至x_N的对象的期望空间布局。

SAOC译码器820被配置成提供例如多个译码上混信道信号

至

上混信道信号可例如与一多扬声器渲染安排的个别扬声器相关联。SAOC译码器820可例如包含一对象分离器820a，该对象分离器820a被配置成基于一个或多个下混信号812及辅助信息814来至少近似重建对象信号x₁至x_N，借此获得重建对象信号820b。然而，重建对象信号820b可能略偏离原始对象信号x₁至x_N，举例而言，因为辅助信息814由于比特流限制不太够进行完美重建。SAOC译码器820可进一步包含一混合器820c，该混合器820c可被配置成接收重建对象信号820b及使用者互动信息/使用者控制信息822并基于它们来提供上混信道信号

至

混合器820可被配置成使用使用者互动信息/使用者控制信息822来判定个别重建对象信号820b对上混信道信号

至

的贡献。使用者互动信息/使用者控制信息822可例如包含渲染参数(也被表示为渲染系数)，这些渲染参数判定个别重建对象信号822对上混信道信号

至

的贡献。

然而，应该注意的是，在许多实施例中，在单一步骤中执行用第8图中对象分离器820a指示的对象分离与用第8图中混合器820c指示的混合。为实现此目的，可计算说明一个或多个下混信号812到上混信道信号

至

上的一直接映像之总参数。这些参数可基于辅助信息及使用者互动信息/使用者控制信息820来计算。

现在参考图9a、图9b及图9c，将说明不同的用以基于一下混信号表示型态及对象相关辅助信息来获得一上混信号表示型态之装置。图9a示出一包含一SAOC译码器920之MPEG SAOC系统900的一方块示意图。SAOC译码器920包含作为分离功能区块的一对象译码器922及一混合器/渲染器926。对象译码器922依赖于下混信号表示型态(例如，为在时域或时间-频率-域中表示的一个或多个下混信号的形式)及对象相关辅助信息(例如，为对象元数据的形式)提供多个重建对象信号924。混合器/渲染器924接收与N个对象相关联的重建对象信号924并基于它们提供一个或多个上混信道信号928。在SAOC译码器920中，对象信号924的采集与混合/渲染分开执行，这允许将对象译码功能与混合/渲染功能分离但带来一相当高的计算复杂度。

现在参考图9b，将简要讨论另一MPEG SAOC系统930，该MPEGSAOC系统930包含一SAOC译码器950。SAOC译码器950依赖于一下混信号表示型态(例如，为一个或多个下混信号的形式)及一对象相关辅助信息(例如，为对象元数据的形式)提供多个上混信道信号958。SAOC译码器950包含一组合的对象译码器与混合器/渲染器，该组合的对象译码器与混合器/渲染器被配置成在一联合混合处理中获得上混信道信号958而无需将对象译码与混合/渲染分开，其中该联合上混过程的参数是取决于对象相关辅助信息与渲染信息。联合上混过程也取决于被视为对象相关辅助信息的一部分之下混信息。

综上所述，可在一个一步骤过程或一个两步骤过程中执行提供上混信道信号928、958。

现在参考图9c，将说明一MEPG SAOC系统960。SAOC系统960包含一SAOC至MPEG环绕转码器而非一SAOC译码器。

SAOC至MPEG环绕转码器包含一辅助信息转码器982，该辅助信息转码器982被配置成接收对象相关辅助信息(例如，为对象元数据的形式)及可取舍地关于一个或多个下混信号的信息及渲染信息。辅助信息转码器也被配置成基于一接收数据来提供一MPEG环绕辅助信息(例如，为一MPEG环绕位串流的形式)。因此，辅助信息转码器982被配置成在计入渲染信息及可取舍地有关一个或多个下混信号内容的信息之情况下将自对象编码器出来的一对象相关(参数)辅助信息转换成一信道相关(参数)辅助信息。

可取舍地，SAOC至MPEG环绕转码器980可被配置成操控例如下混信号表示型态所描述的一个或多个下混信号以获得一经操控的下混信号表示型态988。然而，下混信号操控器986可被省略使得SAOC至MPEG环绕转码器980之输出下混信号表示型态988与SAOC至MPEG环绕转码器之输入下混信号表示型态相同。举例而言，如果通道相关MPEG环绕辅助信息984基于SAOC至MPEG环绕转码器980之输入下混信号表示型态可能不能提供一期望的听觉印象(这在一些渲染群集(renderingconstellation)中可能如此)，则可使用下混信号操控器986。

因此，SAOC至MPEG环绕转码器980提供下混信号表示型态988及MPEG环绕位串流984使得多个上混信道信号可使用一接收MPEG环绕位串流984与下混信号表示型态988的MPEG环绕译码器来产生，该多个上混信道信号根据输入至SAOC至MPEG环绕转码器980的渲染信息来表示音频对象。

综上所述，可使用译码SAOC编码音频信号的不同构想。在一些情况中，一SAOC译码器被使用，该SAOC译码器依赖于下混信号表示型态及对象相关参数辅助信息来提供上混信道信号(例如，上混信道信号928、958)。在第9a与9b图中可见此构想的范例。可选择地，SAOC编码音频信息可被转码以获得一下混信号表示型态(例如，一下混信号表示型态988)及一信道相关辅助信息(例如，信道相关MPEG环绕位串流984，)，它们可被一MPEG环绕译码器使用以提供期望的上混信道信号。

在MPEG SAOC系统800中(此一系统概观在第8图中给出)，一般处理是以一频率选择方式来完成且在每一频带内可被如下说明：

作为SAOC编码器处理的一部分，N个输入音频对象信号x₁至x_N被下混。对于一单声道下混，用d₁至d_N来表示下混系数。此外，SAOC编码器810采集说明输入音频对象的特性的辅助信息814。对于MPEGSAOC，彼此间对象功率的关系是此一辅助信息的最基本形式。

(数)下混信号812及辅助信息814被传输及/或储存。为此目的，下混音频信号可使用习知的感知音频编码器来压缩，诸如MPEG-1层II或III(也称为“.mp3”)、MPEG高阶音频编码(AAC)、或任一其它音频编码器。

●在接收端，SAOC译码器820感知地尝试使用经传输的辅助信息814(当然还有一个或多个下混信号812)来恢复原始对象信号(「对象分离」)。这些近似对象信号(也表示为重建对象信号820b)接着使用一渲染矩阵被混合成一用M个音频输出信道表示(例如可用上混信道信号至

表示)的目标场景。对于一单声道输出，用r₁至r_N指定渲染矩阵系数。

●实际上，很少执行对象信号的分离，因为分离步骤(用对象分离器820a指示)与混合步骤(用混合器820c指示)被组合成一单一转码步骤，这通常极大地降低计算复杂度。

已发现这一方案在传输位率(仅需传输几个下混通道外加一些辅助信息来代替N个离散对象音频信号或一离散系统)与计算复杂度(处理复杂度主要有关于输出信道数目而非音频对象数目)方面都极其有效。对接收端上的使用者的进一步好处包括自由选择对他/她的选择(单声道、立体声、环绕、虚拟化耳机播放等等)的一渲染设置与使用者互动性特征：渲染矩阵，及因而，输出场景可由使用者随意愿、个人偏好或其它准则来互动地设置及改变。举例而言，可以将一群组的通话器一起置于一空间区域来与其它剩余通话器最大的区别开。此互动性透过提供一译码器使用者接口来实现：

对于每一传输声音对象，其相对层级及(对于非单声道渲染)渲染的空间位置可被调整。这可随使用者改变相关联图形使用者接口(GUI)滑动块的位置而实时发生(例如，对象层级＝+5dB，对象位置＝-30deg)。

然而，已发现的是，针对上混信号表示型态(例如，上混信道信号

至)的供应之译码器端参数选择在一些情况中带来可闻降级。

鉴于此情况，本发明的目标是建立一种在提供一上混信号表示型态(例如，为上混信道信号

至

的形式)时容许减小或甚至避免可闻失真的构想。

发明内容

发明概要

此问题由一种根据权利要求1项所述之用以基于一下混信号表示型态及一对象相关参数信息针对一上混信号表示型态之一供应来提供一个或多个经调整的参数之装置、一种根据权利要求24项所述之音频信号译码器、一种根据权利要求25项所述之音频信号转码器、一种根据权利要求26、27、28项所述之方法、一种根据权利要求29项所述之音频信号编码器、一种根据权利要求31项所述之方法、一种根据权利要求32项所述之音频位串流及一种根据权利要求34项所述之计算机程序来解决。

根据本发明的一实施例产生一种用以基于一下混信号表示型态及一对象相关参数信息针对一上混信号表示型态之一供应来提供一个或多个经调整的参数之装置。该装置包含一参数调整器(例如，一渲染系数调整器)，该参数调整器被配置成接收一个或多个输入参数(例如，一渲染系数或一期望渲染矩阵之一说明)并基于该一个或多个输入参数提供一个或多个经调整的参数。该参数调整器被配置成依赖于该一个或多个输入参数及该对象相关参数信息(例如，依赖于一个或多个下混系数、及/或一个或多个物件层级差值、及/或一个或多个对象间相关性值)来提供该一个或多个经调整参数，使得由使用非最佳参数引起的上混信号表示型态之一失真至少针对偏离最佳参数超过一预定偏差之输入参数而减小。

根据本发明的此实施例是根据此想法：由不适当选择输入参数引起的音频信号失真可通过针对上混信号表示型态之供应提供经调整参数来减小，及通过计入对象相关参数信息能以良好准确度来执行经调整参数的供应。已发现的是，使用对象相关参数信息容许获得可能由使用输入参数而引起之可闻失真的一估计测度，这相应地容许提供适于将可闻失真保持在一预定范围内或较输入参数适于减小可闻失真之经调整参数。对象相关信息说明例如音频对象特性及/或给出有关编码器端对象处理的信息。

因此，通过提供一个或多个经调整参数，由使用不适当参数(例如，不适当渲染系数)导致之不期望及往往恼人的音频信号失真可被减小或甚至避免，其中在参数调整时计入对象相关参数信息有助于通过考虑可闻失真的一相对可靠估计来确保有效减小及/或限制音频信号失真。

在一优选实施例中，该装置被配置成接收期望渲染参数作为输入参数，这些期望渲染参数描述上混信号表示型态说明的一个或多个信道中多个音频对象信号的一期望强度缩放。在此情况中，参数调整器被配置成依赖于该一个或多个期望渲染参数提供一个或多个实际渲染参数。已发现的是，选择不适当渲染参数带来使用此类不适当选择的渲染参数而获得之一上混信号表示型态的一显著(及往往可闻)降级。再者，已发现的是，渲染参数可依赖于对象相关参数信息被有效调整，因为对象相关参数信息考虑到对由渲染参数(可由输入参数来定义)的一指定选择而引入之失真的一估计。

在一优选实施例中，参数调整器被配置成依赖于对象相关参数信息及一说明音频对象信号对下混信号表示型态的一贡献之下混信息来获得一个或多个渲染参数限制值，使得一失真度量处在渲染参数值遵从渲染参数限制值所定义的限制之一预定范围内。在此情况中，参数调整器被配置成依赖于期望渲染参数及该一个或多个渲染参数限制值来获得实际渲染参数，使得实际渲染参数遵从渲染参数限制值所定义的限制。计算渲染参数限制值组成一计算上简单且可靠的机制以根据一失真度量确保可闻失真在一可容许的范围内。

在一优选实施例中，参数调整器被配置成获得该一个或多个渲染参数限制值使得在使用一遵从该一个或多个渲染参数限制值的渲染参数而渲染之多个对象信号的一渲染迭加中一对象信号的一相对贡献与一下混信号中对象信号的一相对贡献的差异不超过一预定差。已发现的是，若对象信号之一渲染迭加中一对象信号的贡献类似于一下混信号中对象信号的一贡献，则失真典型地足够小，而这些相对贡献的一强烈差异典型地带来可闻失真。这是由于此事实：一对象信号(相对)层级较之下混信号表示型态中对象信号(相对)层级的一强烈改变往往带来人工因素，因为往往不可能以理想方式分离不同音频对象的对象信号。因此，已发现调整渲染参数带来良好结果，借此透过选择渲染参数，对象信号的相对贡献仅被适度改变。

在另一实施例中，参数调整器被配置成获得该一个或多个渲染参数限制值使得一失真测度处在一预定范围内，该失真测度说明一由下混信号表示型态说明的下混信号与使用该一个或多个遵从该一个或多个渲染参数限制值之渲染参数而渲染的渲染信号间的相干性。已发现的是，对构成参数调整器的输入参数之期望渲染参数的选择应该使得在下混信号表示型态说明之下混信号与渲染信号间维持一足够「类似性」，因为若非如此上混过程中获得可闻失真的风险十分高。

在又一优选实施例中，参数调整器被配置成计算一期望渲染参数(可构成参数调整器的输入参数)之平方与一最佳渲染参数(可例如被定义为一最小化一失真度量的渲染参数)之平方间的一线性组合以获得实际渲染参数(可被装置输出为经调整参数)。在此情况中，参数调整器被配置成依赖于一预定阈值参数T及失真度量来决定期望渲染参数与最佳渲染参数对线性组合的一贡献，其中失真度量说明一使用该一个或多个期望渲染参数而非最佳渲染参数以基于下混信号表示型态来获得上混信号表示型态而引起之失真。此构想容许将失真减小至一可接受的测度，同时仍维持期望渲染参数的一足够影响。根据此构想，计入限制可闻失真的一期望程度可找到最佳渲染参数与期望渲染参数间的一合理良好折衷。

在一优选实施例中，参数调整器被配置成依赖于对感知降级的一计算测度来提供一个或多个经调整参数，使得由使用非最佳参数引起且用感知降级之计算测度表示之上混信号表示型态的一感知评估失真受限制。以此方式，可实现参数可根据听觉印象来调整，从而避免一不可接受之欠佳听觉印象，同时在依一使用者的期望来调整参数上仍提供足够的灵活性。

在一优选实施例中，参数调整器被配置成接收一说明一个或多个原始对象信号的性质之对象性质信息，该一个或多个原始对象信号构成下混信号表示型态说明之一下混信号的基础。在此情况中，参数调整器被配置成考虑对象性质信息来提供经调整参数使得上混信号表示型态相对被包括于上混信号表示型态中之对象信号的性质方面的一失真至少针对偏离最佳参数超过一预定偏差之输入参数而减小。根据本发明的此实施例是根据此发现：该一个或多个原始对象信号的性质可被用来评估是否输入参数合适或应该被调整，因为期望提供上混信号使得上混信号的特性有关于该一个或多个原始对象信号的特性，因为若非如此在许多情况下感知印象会明显降级。

在一优选实施例中，参数调整器被配置成接收并考虑一对象信号音调信息作为一对象性质信息以便提供该一个或多个经调整参数。已发现的是，对象信号的音调是一对感知印象有明显影响的量，及应该避免选择明显改变音调印象的参数以便拥有一良好听觉印象。

在一优选实施例中，参数调整器被配置成依赖于接收的对象信号音调信息及一接收的对象功率信息来估计一理想渲染上混信号的音调。在此情况中，参数调整器被配置成提供该一个或多个经调整参数，以当相比于估计音调与使用输入参数而获得之一上混信号的音调间的差时减小估计音调与使用该一个或多个经调整参数而获得之一上混信号的音调间的差，或使估计音调与使用该一个或多个经调整参数而获得之一上混信号的音调间的差保持在一预定范围内。使用此构想，能以高计算效率获得听觉印象降级的一测度，该测度允许适当调整渲染参数。

在一优选实施例中，参数调整器被配置成执行输入参数的一时间与频率变化调整。因此，可仅在此类调整实际上带来听觉印象的改进或避免听觉印象的一明显降级之时间间隔或频率区域执行输入参数的调整来获得经调整参数。

还在另一优选实施例中，参数调整器被配置成亦考虑提供该一个或多个经调整参数之下混信号表示型态。计入下混信号表示型态，可获得听觉印象可能的失真的一更加精确估计。

在一优选实施例中，参数调整器被配置成获得一总失真测度，其为说明多个人工因素类型之失真测度的一组合。在此情况中，参数调整器被配置成获得总失真测度使得总失真测度是由使用一个或多个输入渲染参数而非最佳渲染参数以基于下混信号表示型态来获得上混信号表示型态而引起之失真的一测度。通过组合说明多个人工因素类型的多个失真测度，建立一调整听觉印象的良好控制机制。

根据本发明的另一实施例产生一种用以基于一下混信号表示型态、一对象相关参数信息及一期望渲染信息来提供多个上混音频信道作为一上混信号表示型态之音频信号译码器。该音频信号译码器包含一上混器，该上混器被配置成基于该下混信号表示型态并依赖于对象相关参数信息及一实际渲染信息来获得上混音频信道，该实际渲染信息说明由对象相关参数信息说明之音频对象之多个对象信号至上混音频信道的一分配。该音频信号译码器亦包含一种用以提供如上讨论一个或多个经调整参数之装置。用以提供一个或多个经调整参数的装置被配置成接收期望渲染信息作为该一个或多个输入参数并提供该一个或多个经调整参数作为实际渲染信息。用以提供一个或多个经调整参数的装置亦被配置成提供该一个或多个经调整参数使得由使用偏离最佳渲染参数之实际渲染参数而引起之上混音频信道的失真至少针对偏离最佳渲染参数超过一预定偏差之期望渲染参数被减小。

在一音频信号译码器中使用用以提供该一个或多个经调整参数之装置容许避免产生由用不当选择期望渲染信息执行音频译码而引起之强烈可闻失真。

根据本发明的一实施例产生一种用以基于一下混信号表示型态、一对象相关参数信息及一期望渲染信息提供一信道相关参数信息作为一上混信号表示型态之音频信号转码器。该音频信号转码器包含一辅助信息转码器，该辅助信息转码器被配置成基于下混信号表示型态并依赖于对象相关参数信息及一实际渲染信息来获得信道相关参数信息，该实际渲染信息说明由对象相关参数信息说明之音频对象之多个对象信号至上混音频信道的一分配。该音频信号译码器亦包含一种用以提供如上讨论一个或多个经调整参数之装置。用以提供一个或多个经调整参数的装置被配置成接收期望渲染信息作为该一个或多个输入参数并提供该一个或多个经调整参数作为实际渲染信息。再者，用以提供该一个或多个经调整参数的装置被配置成提供该一个或多个经调整参数使得由使用偏离最佳渲染参数之实际渲染参数引起、由信道相关参数信息(结合下混信号信息)表示之上混音频信道的失真至少针对偏离最佳渲染参数超过一预定偏差之期望渲染参数减小。已发现的是，提供经调整参数的构想也十分适于结合一音频信号转码器使用。

根据本发明的进一步实施例产生一种用以提供一个或多个经调整参数的方法，一种译码一音频信号之方法及一种转码一音频信号之方法。这些方法是以与如上所讨论装置相同的关键想法为基础。

根据本发明的另一实施例产生一种用以基于多个对象信号来提供一下混信号表示型态及一对象相关参数信息之音频信号编码器。该音频编码器包含一下混器，该下混器被配置成依赖于与对象信号相关联的下混系数来提供一个或多个下混信号，使得该一个或多个下混信号包含多个对象信号的一迭加。该音频编码器也包含一辅助信息提供器，该辅助信息提供器被配置成提供一说明对象信号的层级差与相关性特性之对象间关系辅助信息与一说明个别对象信号的一个或多个个别性质之个别对象辅助信息。已发现的是，一音频信号编码器提供一对象间关系辅助信息与一个别对象辅助信息容许有效减小或甚至避免一多信道音频信号译码器端的可闻失真。对象间关系辅助信息被用于在译码器端分离对象信号，个别对象辅助信息可被用于决定是否对象信号的个别特性在译码器端被维持，这指示失真在可接受容许度内。

在一优选实施例中，辅助信息提供器被配置成提供个别对象辅助信息使得个别对象辅助信息说明个别对象的音调。已发现的是，个别对象的音调是一心里声学上重要的量，其容许失真的一译码器端限制。

根据本发明的一实施例产生一种用以编码一音频信号之方法。

根据本发明的另一实施例产生一种以一编码形式表示多个(音频)对象信号之音频位串流。该音频位串流包含一表示一个或多个下混信号之下混信号表示型态，其中至少一下混信号包含多个(音频)对象信号的一迭加。该音频位串流也包含一说明对象信号的层级差与相关性特性之对象间关系辅助信息与一说明个别对象信号的一个或多个个别性质之个别对象辅助信息。如上所述，这一音频位串流使多信道音频信号的一重建成为可能，其中可识别并减小或甚至消除由不当设置渲染参数引起的可闻失真。

根据本发明之进一步的实施例产生一种用以实施上面所讨论方法的计算机程序。

附图说明

参考附图随后将说明根据本发明的实施例，其中：

图1示出一用以基于一下混信号表示型态及一对象相关参数信息针对一上混信号表示型态之供应来提供一个或多个经调整参数之装置的一方块示意图；

图2根据本发明一实施例示出了一MPEG SAOC系统的一方块示意图；

图3根据本发明另一实施例示出了一MPEG SAOC系统的一方块示意图；

图4示出了对象信号对一下混信号及对一混合信号的一贡献的一示意表示型态；

图5a根据本发明一实施例示出了一基于单声道下混的SAOC至MPEG环绕转码器的一方块示意图；

图5b根据本发明一实施例示出了一基于立体声下混的SAOC至MPEG环绕转码器的一方块示意图；

图6根据本发明一实施例示出了一音频信号编码器的一方块示意图；

图7根据本发明一实施例示出了一音频位串流的一示意表示型态；

图8示出了一参考MPEG SAOC系统的一方块示意图；

图9a示出了一使用一分离的译码器及混合器的参考SAOC系统的一方块示意图；

图9b示出了一使用一整合的译码器及混合器之参考SAOC系统的一方块示意图；以及

图9c示出了一使用一SAOC至MPEG转码器的参考SAOC系统的一方块示意图。

具体实施方式

1.根据图1用以提供一个或多个经调整参数的装置

下面将参考图1说明一用以基于一下混信号表示型态及一对象相关参数信息针对一上混信号表示型态的供应来提供一个或多个经调整参数的装置100。图1示出了这一装置100的一方块示意图，该装置100被配置成接收一个或多个输入参数110。输入参数110可例如是期望渲染参数。装置100也被配置成基于输入参数110提供一个或多个经调整参数120。经调整参数可例如是经调整渲染参数。装置100进一步被配置成接收一对象相关参数信息130。该对象相关参数信息130可例如是描述多个对象的一对象层级差信息及/或一对象间相关信息。装置100包含一参数调整器140，该参数调整器140被配置成接收该一个或多个输入参数110并基于该一个或多个输入参数110来提供该一个或多个经调整参数120。参数调整器140被配置成依赖于该一个或多个输入参数110及对象相关参数信息130来提供该一个或多个经调整参数120，使得至少针对偏离最佳参数超过一预定偏差的输入参数110，减小在一用以基于一下混信号表示型态及对象相关参数信息130提供一上混信号表示型态的装置中由使用非最佳参数(例如，该一个或多个输入参数110)而引起的一上混信号表示型态的失真。

因此，装置100接收该一个或多个输入参数110并基于它们提供该一个或多个经调整参数120。在提供该一个或多个经调整参数120时，若该一个或多个输入参数110被用以基于一下混信号表示型态及对象相关参数信息130来控制一上混信号表示型态的一供应，则装置100明确地或隐性地判定是否不改变使用该一个或多个输入参数110将导致无法接受的高失真。因此，经调整参数120典型地比该一个或多个输入参数110较适于调整这一提供上混信号表示型态的装置，至少在该一个或多个输入参数110以一不利方式被选择时。

因此，装置100典型地改善一上混信号表示型态的感知印象，该上混信号表示型态由一上混信号表示型态提供器依赖于该一个或多个经调整参数120来提供。使用对象相关参数信息来调整该一个或多个输入参数以获得该一个或多个经调整参数已被发现带来良好结果，因为若该一个或多个经调整参数120对应于对象相关参数信息130则上混信号表示型态的质量通常良好，而违反与对象相关参数信息130的期望关系的参数典型地造成可闻失真。对象相关参数信息可例如包含下混参数，这些下混参数说明对象信号(来自多个音频对象)对该一个或多个下混信号的一贡献。对象相关参数信息也能可选择地或额外地包含说明对象信号的特性的对象层级差及/或对象间相关参数。已发现的是，说明对象信号的一编码器端处理的参数与说明音频对象自身特性的参数都可被视作有用信息供参数调整器120使用。然而，其它对象相关参数信息130可被装置100可选择或额外地使用。

然而，应该注意的是，参数调整器140可使用额外信息以便提供基于该一个或多个输入参数110来提供该一个或多个经调整参数120。举例而言，参数调整器140能可取舍地评估下混系数、一个或多个下混信号或任一额外信息以甚至改进该一个或多个经调整参数120的供应。

2.根据图2的系统

下面将详细说明图2的MPEG SAOC系统200。

为了提供对MPEG SAOC系统200的一良好理解，将给出对期望系统规格及设计考虑的一概述。随后，将给出系统的一结构概述。此外，将讨论多个SAOC失真度量，及将说明针对一失真限制的这些SAOC失真的应用。此外，将讨论系统200的进一步延伸。

2.1系统设计考虑

如上讨论，针对包含多个音频对象的音频场景的位率有效传输/储存的参数技术典型地在传输位率与计算复杂度方面是有效的。对此系统使用者在接收端上的进一步好处包括自由选择对他/她的选择(单声道、立体声、环绕、虚拟化耳机播放、等等)的一渲染设置与使用者互动性特征：渲染矩阵，及因而，输出场景可随意愿、个人偏好或其它准则来互动地设置及改变。举例而言，可以将一群组的通话器一起置于一空间区域来与其它剩余通话器最大的区别开。此互动性透过提供一译码器使用者接口来实现：

对于每一传输声音对象，其相对层级及(对于非单声道渲染)渲染的空间位置可被调整。这可随使用者改变相关联图形使用者接口(GUI)滑动块的位置而实时发生(例如，对象层级＝+5dB，对象位置＝-30deg)。然而，已发现的是，由于使用下混分离/混合式参数方法，渲染音频输出的主观质量取决于渲染参数设置。已发现的是，相对对象层级上的改变对最后音频质量的影响多于空间渲染位置上的改变(「再平移」)。也已发现的是，相对参数的极端设置(例如，+20dB)甚至可导致无法接受的输出质量。虽然这只是违反一些构成此方案基础的感知假定的结果，但对于商业产品而言仍无法接受依使用者接口上的设置而产生不良的声音及人工因素。因此，根据本发明的实施例类似例如系统200处理此避免无法接受降级问题，而不管使用者接口的设置(该使用者接口设置可被视作「输入参数」)。

下面将讨论有关避免SAOC失真方法的一些细节。本文所呈现的SAOC失真限制的方法是以下列构想为基础：

突出的SAOC失真因不当选择渲染系数(可被视作输入参数)而出现。此选择通常由使用者以一互动方式来作出(例如，经由交互式应用程序的一实时图形使用者接口(GUI))。因此，引入一额外的处理步骤，该步骤修改使用者提供的渲染系数(例如，根据某些计算限制它们)并将这些经修改系数用于SAOC渲染引擎。举例而言，使用者提供的渲染系数可被视作输入参数，及SAOC渲染引擎的经修改系数可被视作经修改参数。

为控制产生的SAOC音频输出的过度降级，期望开发感知降级的一计算测度(也被指定为失真测度DM)。已发现的是，此失真测度应该满足某准则：

该失真测度应易于从SAOC译码引擎的内部参数中计算出。举例而言，期望无需额外滤波器组计算来获得失真测度。

该失真测度值应该与主观感知声音质量(感知降级)相关，也即符合心里声学的基本原理。为此目的，可优选地以一频率选择方式来完成失真测度的计算，因为其通常自感知音频编码及处理知晓。

已发现的是，众多SAOC失真测度可被定义及计算。然而，已发现的是，SAOC失真测度应该优选地考虑某些基本因素以便对一渲染SAOC质量做出一正确评估及因而往往(但不一定)具有某些共性：

它们考虑下混系数。这些下混系数判定该一个或多个下混信号中每一音频对象的相对混合部分。作为一背景信息，应该指出的是，已发现出现的SAOC失真取决于下混系数与渲染系数间的关系：如果渲染系数定义的相对对象贡献实质上不同于下混中的相对对象贡献，则SAOC译码引擎(使用经调整参数)必须对下混信号执行相当大的调整来将其转换为渲染输出。已发现这导致SAOC失真。

它们考虑渲染系数。这些渲染系数判定每一音频对象对该一个或多个渲染输出信号中的每一者的相对输出强度。作为一背景信息，应该指出的是，已发现出现SAOC失真也取决于彼此间对象功率的关系。如果在某一时间点的一对象具有比其它对象高得多的功率(及如果此对象的下混系数不是很小的话)，则此对象支配下混并被很好地在渲染输出信号中重现。相比之下，弱对象在下混时仅被很弱地表示及因而在没有显著失真的情况下无法被提至高输出层级。

它们考虑每一对象相对于另一对象的(相对)对象功率/层级。此信息被描述为例如一SAOC对象层级差(OLD)。作为一背景信息，应该指出的是，已发现出现SAOC失真进一步取决于个别对象信号的性质。例如，将渲染输出中具有音调性质的一对象提升到较大层级(而其它对象可能更多为具有类似噪声性质的)将导致相当大的感知失真。

除此之外，可考虑其它有关原始对象信号性质的信息。这些信息接着可被SAOC编码器作为SAOC辅助信息的一部分来传输。举例而言，有关每一对象项的音调或噪度的信息可作为SAOC辅助信息的一部分被传输且被用于达到限制失真的目的。

2.2系统概述

根据上述考虑，现在将给出对MPEG SAOC系统200的一概述以很好地理解本发明。应该指出的是，根据图2的SAOC系统200是根据图8的MPEG SAOC系统800的一延伸形态，因此上述讨论也适用。再者，应该指出的是，MPEG SAOC系统200可根据图9a、图9b及图9c中示出的实施备选900、930、960来修改，其中对象编码器对应于SAOC编码器，其中使用者互动信息/使用者控制信息822对应于渲染控制信息/渲染系数。

此外，MPEG SAOC系统100的SAOC译码器可用分离式对象译码器与混合器/渲染器安排920来替换、用整合式对象译码器与混合器/渲染器安排930或SAOC至MPEG环绕转码器980来替换。

现在参考图2，可见的是，MPEG SAOC系统200包含一SAOC编码器210，该SAOC编码器210被配置成接收与自1至N编号的多个对象相关联之多个对象信号x₁至x_N。该SAOC编码器210也被配置成接收(或者获得)下混系数d₁至d_N。举例而言，SAOC编码器210可针对其提供的下混信号212的每一信道获得一组下混系数d₁至d_N。SAOC编码器210可例如被配置成获得对象信号x₁至x_N的一加权组合以获得一下混信号，其中各该对象信号x₁至x_N用与其相关联的下混系数d₁至d_N来加权。SAOC编码器210还被配置成获得说明不同对象信号间的一关系的对象间关系信息。举例而言，对象间关系信息可包含例如为OLD参数形式的对象层级差信息与例如为IOC参数形式的对象间相关信息。因此，SAOC编码器200接着被配置成提供一个或多个下混信号212，该一个或多个下混信号212中的每一个包含一个或多个对象信号的一加权组合，该一个或多个对象信号根据一组与各自下混信号(或多信道下混信号212的一信道)相关联的下混参数来加权。SAOC编码器210还被配置成提供辅助信息214，其中辅助信息214包含对象间关系信息(例如，为对象层级差参数与对象间相关参数的形式)。辅助信息214还包含一下混参数信息，例如，为下混增益参数与下混通道层级差参数的形式。辅助信息214可进一步包含一可表示个别对象性质的可取舍对象性质辅助信息。下面将讨论有关可取舍对象性质辅助信息的细节。

MPEG SAOC系统200也包含一SAOC译码器220，该SAOC译码器220可包含SAOC译码器820的功能。因此，SAOC译码器220接收一个或多个下混信号212及辅助信息214以及经修改(或「经调整」，或「实际的」)渲染系数222并基于它们提供一个或多个上混信道信号

至

MPEG SAOC系统200也包含一用以依赖于一个或多个输入参数，即说明一渲染控制信息或渲染系数242的输入参数来提供一个或多个经修改(或「经调整」，或「实际的」)参数，即经修改渲染系数222的装置240。装置240被配置成还接收至少辅助信息214的一部分。举例而言，装置240被配置成接收说明对象功率(例如，对象信号x₁至x_N的功率)的参数214a。举例而言，参数214a可包含对象层级差参数(也表示为OLD)。装置240也优选地接收说明下混系数的辅助信息214的参数214b。举例而言，参数214b说明下混系数d₁至d_N。可取舍地，装置240可进一步接收组成一个别对象性质辅助信息的额外参数214c。

装置240大体上被配置成基于输入渲染系数242(可例如自一使用者接口接收，或可例如依赖于使用者输入来计算或作为预设信息被提供)来提供经修改渲染系数222，使得由SAOC译码器220使用非最佳渲染参数而引起的上混信号表示型态的一失真被减小。换言之，经修改渲染系数222是输入渲染系数242的一修改版本，其中依赖于参数214a、214b来作出改变使得上混信道信号

至(形成上混信号表示型态)中所有可闻失真被减小或被限制。

用以提供该一个或多个经调整参数242的装置240可例如包含一渲染系数调整器250，该渲染系数调整器250接收输入渲染系数242并基于它们提供经修改渲染系数222。为此目的，渲染系数调整器250可接收一说明由使用输入渲染系数242而引起的失真的失真测度252。失真测度252可例如由失真计算器260依赖于参数214a、214b及输入渲染系数242来提供。

然而，渲染系数调整器250与失真计算器260的功能也可被整合于一单一功能单元中，使得在没有显式计算一失真测度252的情况下提供经修改的渲染系数222。当然，可应用减小或限制失真测度的隐式机制。

关于MPEG SAOC系统200的功能，应该指出的是，以上混信道信号至

形式输出的上混信号表示型态以良好感知质量被产生，因为通过修改或调整渲染系数避免了可闻失真，这些可闻失真系由参考系统800中不当选择使用者互动信息/使用者控制信息822而引起。修改或调整由装置240执行使得感知印象的严重降级被避免，或使得较之输入渲染系数242被SAOC译码器220直接使用(没有修改或调整)的一情况时感知印象的降级至少被减小。

下面将简要概述本发明构想的功能。在指定一失真测度(DM)的情况下，可通过计算指定信号的失真测度值并修改SAOC译码算法(限制实际使用的渲染系数212)使得失真测度值不超过某一阈值值来避免音频输出中的过度失真。根据此构想的一系统200在图2中被示出并在上面已被较详细地阐述。

关于系统200，可做下列论述：

期望渲染系数242由使用者或另一接口输入。

在被应用于SAOC译码引擎220之前，渲染系数242被一渲染系数调整器250修改，该渲染系数调整器250使用一失真计算器260提供的一个或多个经计算失真测度252。

失真计算器260评估出自辅助信息214(例如，相关对象功率/OLD、下混系数及可取舍地对象信号性质信息)的信息(例如，参数214a、214b)。此外，它是基于期望渲染系数输入242。

在一优选实施例中，装置240被配置成根据一失真测度来修改渲染系数。优选地，使用例如频率选择权重以一频率选择方式调整渲染系数。

渲染系数的修改可以此帧(例如，一目前帧)为基础、或渲染系数不仅可在逐帧基础上随时间被调整，而且还随时间被处理/控制(例如，随时间被平滑化)，其中如针对一动态范围压缩器/限制器可能可应用不同的起音/衰减时间常数。

在一些实施例中，失真测度可以是频率选择的。

在一些实施例中，失真测度可考虑下列一个或多个特性：

每一物件的功率/能量/层级

下混系数

渲染系数；及/或

额外对象性质辅助信息，如果适用的话

在一些实施例中，失真测度可以每对象为基础来计算并组合达成一总失真。

在一些实施例中，一额外对象性质辅助信息214c能可取舍地被评估。额外对象性质辅助信息214c可在一增强型SAOC编码器中读取，例如，SAOC编码器210。额外对象性质辅助信息可被例如植入一增强型SAOC位串流中，该增强型SAOC位串流将参考图7被说明。再者，额外对象性质辅助信息可被一增强型SAOC译码器用于失真限制。

在一特殊情况中，噪度/音调可被用作额外对象性质辅助信息所说明的对象性质。在此情况中，噪度/音调比之其它对象参数(例如，OLD)能以粗略得多的频率分辨率来传输以保存于辅助信息上。在一极端情况中，噪度/音调对象性质辅助信息能以每对象仅一信息来传输(例如，如宽带特性)。

2.3SAOC失真度量

下面将说明多个不同失真测度，该多个不同失真测度可例如使用失真计算器260而获得。在下面2.4节将讨论应用这些失真测度来限制渲染系数的细节。

换言之，此节概述数个失真测度。这些失真测度可个别使用或例如通过将个别失真度量值加权相加而可被组合形成一复合、更复杂失真度量。应该注意的是，这里词语「失真测度」与「失真度量」表示类似的量且在大部分情况中不需要区分。

下面将说明多个失真度量，该多个失真度量可被失真计算器260评估且可被渲染系数调整器250使用，以便基于输入渲染系数242获得经修改渲染系数222。

2.3.1失真测度#1

下面将说明一第一失真测度(也表示为失真测度#1)。

为了构想简单易懂，将考虑一N-1-1SAOC系统(例如，一单声道下混信号(212)及一单一上混信道(信号))。N个输入音频对象被下混成一单声道信号并被渲染成一单声道输出。如图8中指定，用d₁..d_N表示下混系数及用r₁..r_N表示渲染系数。在下面公式中，为了简单明了，已省略了时间指数。同样地，已去掉了频率指数，要注意的是，方程式有关于子频带信号。在下面的一些方程式中，小写字母表示系数或信号，及大写字母表示可从方程式的脉络中看出的相对应的功率。此外，应该注意的是，信号有时用相对应时间-频率-域而非时域系数表示。

假定，对象#m(听觉对象指数m)是受关注的一对象，例如最主要对象，其相对层级被增加且因而限制总声音质量。那么理想的期望输出信号(上混信道信号)由

{\hat{y}}_{1;} = [x_{m} \cdot r_{m}] + [Σ_{i = 1; i &NotEqual; m}^{N} x_{i} \cdot r_{i}] - - - (1)

指定。这里，第一项是受关注对象对输出信号的期望贡献，而第二项表示所有其它对象的贡献(「干扰」)。

然而，事实上，由于要经过下混处理，所以输出信号由

y_{1;} = t \cdot Σ_{i = 1}^{N} x_{i} \cdot d_{i} = [x_{m} \cdot t \cdot d_{m}] + [Σ_{i = 1; i &NotEqual; m}^{N} x_{i} \cdot t \cdot d_{i}] - - - (2)

指定，也即下混信号随后被一转码系数t缩放，该转码系数t对应于一MPEG环绕译码器中的“m2”矩阵。同样地，这可被分为一第一项(对象信号对输出信号的实际贡献)与一第二项(其它对象信号的实际「干扰」)。这里，SAOC系统(例如，SAOC译码器220及可取舍地还有装置240)动态地决定转码系数t，使得实际渲染输出信号的功率匹配于理想信号的功率：

{\hat{Y}}_{1} = Y_{1} &DoubleRightArrow; t^{2} = \frac{Σ_{i = 1}^{N} r_{i}^{2} \cdot X_{i}}{Σ_{i = 1}^{N} d_{i}^{2} \cdot X_{i}} - - - (3)

通过计算对象#m的理想功率贡献与其实际功率贡献间的关系可定义一失真测度(DM)：

这里，表示最终渲染信号的功率，及

是下混信号的功率。要指出的是，在一实际实施中，X_i值可用作为SAOC辅助信息214的一部分被传输的相对应对象层级差(OLD_i)值来直接替换。

为更好解释dm₁，其定义可再用公式表示如下：

{dm}_{1} (m) = \frac{r_{m}^{2} \cdot Σ_{i = 1}^{N} d_{i}^{2} \cdot X_{i}}{d_{m}^{2} \cdot Σ_{i = 1}^{N} r_{i}^{2} \cdot X_{i}} = \frac{\frac{r_{m}^{2} \cdot X_{m}}{Σ_{i = 1}^{N} r_{i}^{2} \cdot X_{i}}}{\frac{d_{m}^{2} \cdot X_{m}}{Σ_{i = 1}^{N} d_{i}^{2} \cdot X_{i}}} - - - (4 a)

实际上，这意为失真度量是理想渲染(输出)信号中对下混(输入)信号中相对对象功率贡献的比。这与以下发现相配：SAOC方案在其不必以大因子来改变相对对象功率时效果最佳。

增加dm₁值指示降低声音对象#m的声音质量。已发现的是，若所有渲染系数被缩放一公共因子，或若所有下混系数被同样地缩放，则dm₁值仍是常数。此外，已发现的是，增加对象#m的渲染系数(增加其相对层级)导致失真增加。dm₁值可如下理解：

值1指示对象#m的理想质量；

增加dm₁值使其大于1指示降低质量；

小于1的dm₁值不进一步提高对象#m的质量。

因此，声音场景质量的一总测度(也即，所有对象的质量)可如下计算：

{DM}_{1} = \frac{Σ_{m = 1}^{N} w (m) \cdot \max [{dm}_{1} (m), 1]}{Σ_{m = 1}^{N} w (m)} - - - (5)

在此方程式中，w(m)指示对象#m的一加权因子，该加权因子有关于音频场景内特定对象的显著性与敏感性。如一范例，w(m)接着可依对象功率/响度来选择w(m)＝(r_m ²X_m)^α，其中α可典型地被选为0.25来粗略仿真此对象的心理声学响度增长。此外，w(m)可计入音调与遮蔽现象。可选择地，w(m)可被设为1，这有助于计算DM₁。

2.3.2失真测度#2

自方程式(4)开始可建构一选替失真测度来形成一噪声遮蔽比(NMR)式的一感知测度，也即计算噪声/干扰与遮蔽阈值间的关系：

在此方程式中，msr是取决于其音调的总音频信号的遮蔽对信号比。dm₂值增加指示声音对象#m的失真较高。再者，若所有渲染系数被缩放一公共因子，或若所有下混系数被同样地缩放，则dm₂值仍是常数。dm₂的值范围可如下理解：

值0指示对象#m的理想质量；

增加dm₂值使其大于1指示渐进可闻降级；

小于1的dm₂值指示对象#m无法区分的质量。

{DM}_{2} = \frac{Σ_{m = 1}^{N} w (m) \cdot \max [{dm}_{2} (m), 1]}{Σ_{m = 1}^{N} w (m)} - - - (7)

同样，w(m)指示对象#m的一加权因子，该加权因子有关于音频场景内特定对象的显著性/层级/响度，通常选为w(m)＝(r_m ²X_m)^α，其中α＝0.25。

方程式(6)的失真测度计算作为功率差的失真(这对应于一「具有频谱差的NMR」量测)。可选择地，失真可在一波形基础上来计算，这导致如下包括一额外混合乘积项的测度：

\frac{| r_{m}^{2} \cdot Σ_{i = 1}^{N} d_{i}^{2} \cdot X_{i} + d_{m}^{2} \cdot Σ_{i = 1}^{N} r_{i}^{2} \cdot X_{i} - 2 \cdot d_{m} r_{m} \cdot \sqrt{(Σ_{i = 1}^{N} r_{i}^{2} \cdot X_{i}) \cdot (Σ_{i = 1}^{N} d_{i}^{2} \cdot X_{i})} | \cdot X_{m}}{msr \cdot (Σ_{i = 1}^{N} r_{i}^{2} \cdot X_{i}) \cdot (Σ_{i = 1}^{N} d_{i}^{2} \cdot X_{i})} - - - (8)

2.3.3失真测度#3

一第三失真测度被提出，该第三失真测度说明下混信号与渲染信号间的相干性。较高相干性造成主观主观声音质量。此外，若IOC数据在SAOC译码器出现，可计入输入音频对象的相关性。

由SAOC参数(例如，参数214a，其可包含对象层级差参数及对象间相关参数)可决定对象共变异数的一模型

E = \sqrt{{OLD}^{T} \cdot OLD} \cdot IOC

为计算失真测度，组合一包含渲染及下混系数的矩阵M(M可被理解为N-1-2SAOC系统的一渲染矩阵)

M = (\begin{matrix} r_{1} & r_{2} & \cdot \cdot \cdot & r_{N} \\ d_{1} & d_{2} & \cdot \cdot \cdot & d_{N} \end{matrix})

下混与渲染信号间的变异数C则为

C = M \cdot E \cdot M^{*} = (\begin{matrix} c_{11} & c_{12} \\ c_{21} & c_{22} \end{matrix})

一失真测度DM₃被定义为

{DM}_{3} = 1 - \min (\frac{| c_{12} |}{\sqrt{c_{11} \cdot c_{22}}}, 1)

DM₃的值可如下理解：

值在范围[0..1]内且指示下混与渲染信号间的相干性。

值0指示理想质量。

增加DM₃值指示降低质量。

2.3.4失真测度#4

2.3.4.1概述

此方法打算使用目标渲染能量(UPMIX)与最佳下混能量(自指定下混DMX而计算)间的平均加权比作为一失真测度。

详情也请参考图4，图4示出下混(DMX)、最佳下混能量(DMX_opt)及目标渲染能量(UPMIX)的一图形表示型态。

2.3.4.2命名

ch＝{1，2，...，N_ch}上混通道指数

dx＝{1，2} 下混通道指数

ob＝{1，2，...，N_ob}音频对象指数

pb＝{1，2，...，N_pb}参数频带指数

r_ch，ob，pb＝r(ch，ob，pb)针对信道ch、音频对象ob及参数频带pb的渲染矩阵

d_dx，ob，pb＝d(dx，ob，pb)针对下混信道dx、音频对象ob及参数频带pb的下混矩阵

w_ob，pb＝w(ob，pb)加权因子，其表示针对参数频带pb之音频对象ob的显著性/层级/响度

NRG_pb＝NRG(pb)针对频带pb具有最高能量的音频对象的绝对对象能量

OLD_ob，pb＝OLD(ob，pb)对象层级差，其说明一音频对象ob与针对相对应频带pb具有最高能量的对象间的强度差

对象间相关性，其说明音频对象的两信道间的相关性。

2.3.4.3算法

下面将简要说明一用以获得失真测度#4的算法的步骤：

计算上混与下混相对能量：

{\hat{r}}_{ch, ob, pb}^{2} = {OLD}_{ob, pb} \cdot r_{ch, ob, pb}^{2},

{\hat{d}}_{dx, ob, pb}^{2} = {OLD}_{ob, pb} \cdot d_{dx, ob}^{2} .

正规化能量，使得

Σ_{ob = 1}^{N_{ob}} {\tilde{r}}_{ch, ob, pb}^{2} = 1

及

Σ_{ob = 1}^{N_{ob}} {\tilde{d}}_{dm, ob, pb}^{2} = 1 :

{\tilde{r}}_{ch, ob, pb}^{2} = \frac{{\hat{r}}_{ch, ob, pb}^{2}}{Σ_{ob = 1}^{N_{ob}} {\hat{r}}_{ch, ob, pb}^{2}},

{\tilde{d}}_{dm, ob, pb}^{2} = \frac{{\hat{d}}_{dm, ob, pb}^{2}}{Σ_{ob = 1}^{N_{ob}} {\hat{d}}_{dm, ob, pb}^{2}} .

建构每一上混通道与频带的最佳下混

d_{ch, ob, pb}^{2 (opt)} = α_{ch, ob, pb} \cdot {\tilde{d}}_{1, ob, pb}^{2} + β_{ch, ob, pb} \cdot {\tilde{d}}_{2, ob, pb}^{2} .

通过解线性方程式的超定系统满足下列条件：

来计算乘法常数α_ch，ob，pb、β_ch，ob，pb。

计算失真测度：

{DM}_{4} = Σ_{ob = 1}^{N_{ob}} Σ_{ch = 1}^{N_{ch}} | 1 - \frac{{\tilde{r}}_{ch, ob, pb}^{2}}{d_{ch, ob, pb}^{2 (opt)}} | w_{ob, pb} {\hat{r}}_{ch, ob, pb}^{2} .

2.3.4.4失真控制

失真控制通过依赖于失真测度DM4限制一个或多个渲染系数来实现。

可指出的是，(i)测度仅对于立体声下混情况是相关的，及(ii)对于#dx＝1及#ch＝1的情况，其可简化为DM1。

2.3.4.5性质

下面将简要概述用以计算失真测度#4之构想的性质。此构想

●假定理想转码

●可处理立体声下混；以及

●容许对一多通道渲染进行一般化。

2.3.5失真测度#5

转码系数t的一选替计算被提出。它可被理解为t的一延伸且造成转码矩阵T，该转码矩阵T以包含对象间相干(IOC)且同时将目前度量DM#1与DM#2延伸至立体声下混与多信道上混为特征。目前实施转码系数t考虑实际渲染输出信号的功率与理想渲染信号的功率的匹配，也即

t^{2} = \frac{Σ_{i = 1}^{N} r_{i}^{2} X_{i}}{Σ_{i = 1}^{N} d_{i}^{2} X_{i}} .

共变异数矩阵E的并入产生了t的一经修改公式，即转码矩阵T，其也考虑物件间相干。由SAOC参数214计算出E的元素为

e_{ij} = \sqrt{{OLD}_{i} {OLD}_{j}} {IOC}_{ij} .

转码矩阵表示下混至渲染输出信号的转换使得TDx≈Rx。其透过使均方误差最小化而获得，产生

T＝RED^*(DED^*)^-1。

其中H＝RED^*或

h_{ij} = Σ_{l = 1}^{N} Σ_{m = 1}^{N} r_{il} d_{jm} e_{lm}

及V＝DED^*或

v_{ij} = Σ_{l = 1}^{N} Σ_{m = 1}^{N} d_{il} d_{jm} e_{lm}

dm₁形式的失真测度可现在对于对象m的每一下混/渲染组合(n，k)由

{dm}_{5}^{''} (m, n, k) = \frac{r_{m, k}^{2} v_{n, n}}{d_{m, n}^{2} h_{k, n}}

指定。单独考虑左与右下混通道的dm₁(m)得出

{dm}_{L} (m, k) = \frac{r_{m, k}^{2} v_{1,1}}{d_{m, 1}^{2} h_{k, 1}}

及

{dm}_{R} (m, k) = \frac{r_{m, k}^{2} v_{2,2}}{d_{m, 2}^{2} h_{k, 2}} .

可假定的是，两下混/上混路径中的优选者是有关于渲染输出的质量，因而测度对应于最小值，也即

{dm}_{5}^{'} (m, k) = \min [{dm}_{L}, {dm}_{R}] .

用指数k指定的所有输出通道的一总测度可被计算为

{dm}_{5} (m) \frac{Σ_{k = 1}^{N_{Ch}} {dm}_{5}^{'} (m, k) r_{m, k}^{2} X_{m}}{Σ_{k = 1}^{N_{Ch}} r_{m, k}^{2} e_{k, k}} .

所有对象的总测度可由

{DM}_{5} = \frac{Σ_{m = 1}^{N} w (m) \max [{dm}_{5} (m), 1]}{Σ_{m = 1}^{N} w (m)}

来获得，其中同前述

w (m) = {[r_{m}^{2} X_{m}]}^{α}

对于dm₂与

t至T的一类似延伸是可能的。

2.3.6失真测度#6

下面将说明一第六失真测度。

令e_i(t)为对象信号#i的平方Hilbert包络及P_i为对象信号#i的功率(典型地都在一子频带内)，则音调/类似噪声的一测度N可由对Hilbert包络的一正规化变异数估计来获得，如

N_{i} = \frac{var {e_{i}}}{P_{i}^{2}}

可选择地，同样Hilbert包络差信号的功率/变异数可替代Hilbert包络本身的变异数使用。在任一情况中，该测度说明包络波动随时间的强度。

此音调/类似噪声测度N可针对理想渲染信号混合与实际SAOC渲染声音混合二者来决定及一失真测度可由该两者间的差来计算，例如：

DM₆＝|N_理想-N_实际|^β

其中β是一参数(例如，β＝2)。

2.3.7针对参考场景与SAOC渲染场景计算源信号影像的能量

为计算用于失真测度之参考场景与SAOC渲染场景中源影像的对象能量，对于SAOC渲染场景我们必须计入转码矩阵T，如其在「失真量测5」中所执行的那样，而对于参考场景与渲染场景二者还要计入源信号的相关性。

注意：大写的信号的符号在这里反映信号的矩阵符号，而非前面章节中的信号能量

对于一任意源x_m，所有源x_i中x_m的信号部分可被如下计算：

将所有源信号x_i分成一相关于受关注对象x_m的信号部分x_i‖m与一不相关于x_m的部分x_i⊥m。这可由x_m至所有信号x_i上的子空间投射来完成，亦即x_i＝x_i‖m+x_i⊥m。相关部分由

x_{i | | m} = \frac{{x_{m}}^{T} x_{i}}{{x_{m}}^{T} x_{m}} x_{m} = \frac{{IOC}_{i, m}}{{| | x_{m} | |}^{2}} x_{m} = g_{i, m} x_{m}

指定。

2.3.7.1由参考场景y中源的影像

来计算

其中Y＝RX及X＝X_⊥m+X_‖m，对于所有渲染信道，源x_m的影像

可透过计算，其中

X_{| | m} = (\begin{matrix} {x^{T}}_{1 | | m} \\ {x^{T}}_{2 | | m} \\ \cdot \\ \cdot \\ \cdot \\ {x^{T}}_{N | | m} \end{matrix}) = (\begin{matrix} g_{1, m} {x_{m}}^{T} \\ g_{2, m} {x_{m}}^{T} \\ \cdot \\ \cdot \\ \cdot \\ g_{N, m} {x_{m}}^{T} \end{matrix})

可由下式计算

因此，参考场景中源影像

的能量

将为：

2.3.7.2由SAOC渲染场景中源的影像

来计算

这可用与

相同的方式来完成。其中T为转码矩阵及D为下混矩阵，

对于渲染场景中的所有通道将为：

{\hat{Y}}_{x_{m}} = T^{0.5} {DX}_{| | m} .

使用

D = (\begin{matrix} d_{11} & \cdot \cdot \cdot & d_{1 N} \\ d_{21} & \cdot \cdot \cdot & d_{2 N} \end{matrix})

及

T = (\begin{matrix} t_{11} & t_{12} \\ \cdot & \cdot \\ \cdot & \cdot \\ \cdot & \cdot \\ t_{N_{ch} 1} & t_{N_{ch} 2} \end{matrix})

因此，参考场景中源影像

的能量

将为：

2.3.7.3计算失真测度

针对每一对象m及输出渲染信道k，dm₁形式的失真测度可被计算为

{dm}_{7} (m) \frac{Σ_{k = 1}^{N_{Ch}} {dm}_{7}^{'} (m, k) r_{m, k}^{2} {| | x_{m} | |}^{2}}{Σ_{k = 1}^{N_{Ch}} r_{m, k}^{2} e_{k, k}} .

{DM}_{7} = \frac{Σ_{m = 1}^{N} w (m) \max [{dm}_{7} (m), 1]}{Σ_{m = 1}^{N} w (m)}

其中如前述

w (m) = {[r_{m}^{2} X_{m}]}^{α} .

2.3.8对象信号性质

下面将说明对象信号性质的一范例，其可被例如装置250或人工因素减小方块320使用以便获得一失真测度。

在SAOC处理中，数个音频对象信号被下混成一下混信号，该下混信号接着被用于产生最终渲染输出。如果一音调对象信号与具有相等信号功率的一更似噪声第二对象信号相混合，结果将为类似噪声。这同样适用于如果第二对象信号具有一较高功率的情况。仅当第二对象信号具有实质上小于第一对象信号的一功率时，结果才为音调。以相同方式，渲染SAOC输出信号的音调/类似噪声主要由下混信号的音调/类似噪声决定，而与所应用的渲染系数无关。为了取得良好的主观输出质量，实际渲染信号的音调/类似噪声也应该接近于理想渲染信号的音调/类似噪声。为了在失真测度中使用此构想，必需将有关每一对象的音调/类似噪声的信息作为位串流的一部分传输。理想渲染输出的音调/类似噪声N接着可在SAOC译码器中作为每一对象N_i的音调/类似噪声及其对象功率P_i的一函数来估计，亦即

N＝f(N₁，P₁，N₂，P₂，N₃，P₃，…)

并与实际渲染输出信号的音调/类似噪声比较以便计算一失真测度。如一范例，可使用下列函数f()：

N = \frac{\underset{i}{Σ} N_{i} \cdot P_{i}^{α}}{{(\underset{i}{Σ} P_{i})}^{α}}

其将对象音调/类似噪声值及对象功率组合成一估计混合信号的音调/类似噪声值的单一输出。参数α可被选为优化一指定音调/类似噪声测度的估计程序的精度(例如，α＝2)。一基于音调/类似噪声的适当失真度量在2.3.6节以失真测度#6予以说明。

2.4失真限制方案

2.4.1失真限制方案的概述

下面将给出多个失真限制方案的一简短概述。如上讨论，渲染系数调整器250接收输入渲染系数242并基于输入渲染系数242提供一经修改渲染系数222供SAOC译码器220使用。

提供经修改渲染系数的不同构想可被区分，其中这些构想在一些实施例中可被组合。根据第一构想，依赖于辅助信息214的一个或多个参数(也即，依赖于对象相关参数信息214)在一第一步骤可获得一个或多个渲染参数限制值。之后，依赖于期望渲染参数242及该一个或多个渲染参数限制值获得实际「(经修改或经调整)」渲染系数222，使得实际渲染参数遵从渲染参数限制值所定义的限制。因此，此类超出渲染参数限制值的渲染参数被调整(修改)成遵从渲染参数限制值。此第一构想易于实施但有时可导致使用者满意度略微降低，因为若使用者定义的期望渲染参数242超出渲染参数限制值就不予考虑使用者对期望渲染参数242的选择。

根据一第二构想，参数调整器计算介于一期望渲染参数的平方与一最佳渲染参数的平方间的一线性组合以获得实际渲染参数。在此情况中，参数调整器被配置成依赖于一预定阈值值参数与一失真度量(如上所述)来判定期望渲染参数与最佳渲染参数对线性组合的一贡献。

此外，失真测度(失真度量)是否使用对象间关系性质及/或个别对象性质来计算是可区分的。在一些实施例中，仅评估对象间关系性质而不予考虑个别对象性质(仅有关于一单一对象)。在一些其它实施例中，仅考虑个别对象性质而不予考虑对象间关系性质。然而，在一些实施例中，评估对象间关系性质与个别对象性质的一组合。

基于前面考虑，及也基于上面对不同失真测度的讨论，如下面子节概述的，将定义一些限制失真的方案。这些限制失真的方案可被渲染系数调整器250应用以便依赖于输入渲染系数242来获得经修改渲染系数。

2.4.2失真限制方案#1

在子节2.3.1，通过计算对象#m的理想功率贡献与其实际功率贡献间的关系(方程式4)来定义一简单失真测度：

在此方程式中，在SAOC渲染器控制下的仅有变量为在转码过程中使用的渲染系数。因此如果产生的失真度量不应超过某一阈值值T，则这施加一条件于对应渲染矩阵系数上：

{dm}_{1} (m) = \frac{r_{m}^{2} \cdot Σ_{i = 1}^{N} d_{i}^{2} \cdot X_{i}}{d_{m}^{2} \cdot Σ_{i = 1}^{N} r_{i}^{2} \cdot X_{i}} \leq T &DoubleLeftRightArrow; r_{m}^{2} \leq {\hat{r}}_{m}^{2} = T \cdot \frac{d_{m}^{2} \cdot Σ_{i = 1, i &NotEqual; m}^{N} r_{i}^{2} \cdot X_{i}}{| Σ_{i = 1}^{N} d_{i}^{2} \cdot X_{i} - T \cdot d_{m}^{2} \cdot X_{m} |} - - - (6.1 . a)

为了为所有

找出一解，可设定一组线性方程式Ax＝b，其中

x = [\begin{matrix} {\hat{r}}_{1}^{2} \\ {\hat{r}}_{2}^{2} \\ \cdot \\ \cdot \\ \cdot \\ {\hat{r}}_{N}^{2} \end{matrix}],

b = [\begin{matrix} 0 \\ 0 \\ \cdot \\ \cdot \\ \cdot \\ Σ_{i = 1}^{N} r_{i}^{2} \end{matrix}]

及

其中

c_{m} = \frac{1}{T} (Σ_{i = 1}^{N} d_{i}^{2} \cdot X_{i} - T \cdot d_{m}^{2} \cdot X_{m}) .

A的第一个N列自方程式(6.1.a)直接获得。此外，加入一限制使得新(受限制的)渲染系数的能量等于使用者指定系数的能量。进而获得

(可视作渲染参数限制值)的一解，为：

x＝(A^TA)^-1A^Tb

以此开始，一第一过分简单失真限制方案可被看做如下：与在渲染矩阵系数242自使用者界面被提供至SAOC译码器时使用它们不同)，对象#m的有效使用的渲染系数r_m’222在被用于SAOC解碼过程之前在每帧的基础上被(例如，渲染系数调整器240)修改/限制：

r_{m}^{' 2} = \min (r_{m}^{2}, {\hat{r}}_{m}^{2})

要指出的是，限制过程取决于每一特定帧中个别对象能量。此方法简单且具有下列较小的缺点：

不考虑相对物件响度与感知遮蔽；及

仅获得提升一特定对象的效果，但未获得减小对象增益的效果。这可透过亦对dm值规定一下界来处理。

2.4.3限制方案#2

2.4.3.1限制方案概述

此节说明一考虑下列层面的限制函数：

失真测度受一限制阈值制约，

受限制渲染矩阵的推导是基于限制函数与其到初始渲染矩阵的距离。

此限制函数(或限制方案)可例如由渲染系数调整器250结合失真计算器260来执行。

失真测度是渲染矩阵的一函数，使得

一初始渲染矩阵(例如由输入渲染系数242说明)产生一初始失真测度，

最佳失真测度产生一最佳渲染矩阵，但此最佳渲染矩阵到初始渲染矩阵的距离可能不是最佳的，

失真测度与一渲染矩阵到初始渲染矩阵的距离成线性反比，

对于某一阈值，透过在初始与最佳工作点间内插(例如，线性内插)来获得受限制渲染系数(例如，由经调整或修改渲染系数222说明)。

此外，每一工作点中渲染信号的功率可被假定近似常量，使得

Σ_{i = 1}^{N_{ob}} r_{i}^{2} X_{i} \approx Σ_{i = 1}^{N_{ob}} r_{\lim, i}^{2} X_{i} \approx Σ_{i = 1}^{N_{ob}} r_{opt, i}^{2} X_{i}

限制方案#2可结合不同失真测度使用，如将在下面所讨论的。

2.4.3.2失真测度#1的限制

对于每一参数频带，一受关注对象之失真测度dm₁(m)被定义为

{dm}_{1} (m) = \frac{r_{m}^{2} Σ_{i = 1}^{N_{ob}} d_{i}^{2} X_{i}}{d_{m}^{2} Σ_{i = 1}^{N_{ob}} r_{i}^{2} X_{i}}

当将dm₁(m)设为其最佳值，亦即dm_1，opt(m)＝1时，产生最佳渲染矩阵

r_{opt, m}^{2} = d_{m}^{2} \frac{Σ_{i = 1}^{N_{ob}} r_{i}^{2} X_{i}}{Σ_{i = 1}^{N_{ob}} d_{i}^{2} X_{i}}

因此，最佳渲染矩阵值可通过使用一方程式系统来获得，其中

被用

替换。

在dm₁(m)的预定阈值为T的条件下，限制渲染矩阵由

r_{\lim, m}^{2} = \frac{T - 1}{{dm}_{1} (m)} (r_{m}^{2} - r_{opt, m}^{2}) + r_{opt, m}^{2}

指定。

2.4.3.3失真测度#2a的限制

有时也被简要表示为“dm₂(m)”之失真测度dm_2a(m)被定义为，对于对象m及每一参数频带

{dm}_{2 a} (m) = \frac{(r_{m}^{2} Σ_{i = 1}^{N_{ob}} d_{i}^{2} X_{i} - d_{m}^{2} Σ_{i = 1}^{N_{ob}} r_{i}^{2} X_{i}) X_{m}}{msr Σ_{i = 1}^{N_{ob}} r_{i}^{2} X_{i} Σ_{i = 1}^{N_{ob}} d_{i}^{2} X_{i}} = \frac{\frac{r_{m}^{2} X_{m}}{Σ_{i = 1}^{N_{ob}} r_{i}^{2} X_{i}} - \frac{d_{m}^{2} X_{m}}{Σ_{i = 1}^{N_{ob}} d_{i}^{2} X_{i}}}{msr} .

对于一特定参数频带pb，遮蔽对信号比msr(pb)是渲染信号之功率的一函数

msr (pb) = {[Σ_{i = 1}^{N_{ob}} r_{i}^{2} X_{i} M_{k}]}_{k = \max (pb)} = {[Σ_{i = 1}^{N_{ob}} r_{i}^{2} X_{i}]}_{k = \max (pb)} {[M_{k}]}_{k = \max (pb)}

失真测度的最佳值是零，也即dm_2a，opt(m)＝0。这对应于一不引入任何误差的完美转码过程。因此，最佳渲染矩阵产生

r_{opt, m}^{2} = d_{m}^{2} \frac{Σ_{i = 1}^{N_{ob}} r_{i}^{2} X_{i}}{Σ_{i = 1}^{N_{ob}} d_{i}^{2} X_{i}}

其中dm_2a(m)＝T，经修改渲染系数222说明之受限制渲染矩度变为

r_{\lim, m}^{2} = \frac{T - 1}{{dm}_{2 a} (m)} (r_{m}^{2} - r_{opt, m}^{2}) + r_{opt, m}^{2}

2.4.3.4失真测度#2b的限制

有时也简要表示为dm_2′(m)之失真测度dm_2b(m)也可被装置240使用来依赖于输入渲染系数242获得受限制渲染矩阵，该受限制渲染矩阵可由经修改渲染系数222说明。

2.4.3.5失真测度#4的限制

失真测度dm₄(m)针对对象m及每一参数频带被定义为

{dm}_{4} (m) = | 1 - \frac{r_{m}^{2} Σ_{i = 1}^{N_{ob}} d_{i}^{2} X_{i}}{d_{m}^{2} Σ_{i = 1}^{N_{ob}} r_{i}^{2} X_{i}} |

且其最佳值为dm_4，opt(m)＝0。因此，最佳与受限制渲染矩阵导致

r_{opt, m}^{2} = d_{m}^{2} \frac{Σ_{i = 1}^{N_{ob}} r_{i}^{2} X_{i}}{Σ_{i = 1}^{N_{ob}} d_{i}^{2} X_{i}}

以及

r_{\lim, m}^{2} = \frac{T - 1}{{dm}_{4} (m)} (r_{m}^{2} - r_{opt, m}^{2}) + r_{opt, m}^{2} .

因此，装置240可依赖于输入渲染系数242以及还依赖于失真测度252来提供经修改渲染系数22，失真测度252可等于第四失真测度dm₄(m)。

2.4.4限制方案#3

对应于公式(6.1.a)，对象m的受限制渲染系数可针对失真测度#3如下计算。缩写式

c_{1} = Σ_{i = 1}^{N} Σ_{j = 1}^{N} d_{i} d_{j} e_{ij},

c_{2} = Σ_{i = 1, i &NotEqual; m}^{N} r_{i} e_{im},

c_{3} = Σ_{i = 1, i &NotEqual; m}^{N} Σ_{j = 1, j &NotEqual; m}^{N} r_{i} r_{j} e_{ij},

c_{4} = Σ_{i = 1}^{N} d_{i} e_{mi}

及

c_{5} = Σ_{i = 1, i &NotEqual; m}^{N} Σ_{j = 1}^{N} r_{i} d_{j} e_{ij}

一个二次方程式被建立

{\hat{r}}_{m}^{2} ({(1 - T)}^{2} \cdot c_{1} e_{mm} - c_{4}^{2}) + {\hat{r}}_{m} \cdot 2 \cdot ({(1 - T)}^{2} \cdot c_{1} c_{2} - c_{4} c_{5}) + {(1 - T)}^{2} \cdot c_{1} c_{3} - c_{5}^{2} \overset{!}{=} a \cdot {\hat{r}}_{m}^{2} + b \cdot {\hat{r}}_{m} + c = 0

其(正)解为

{\hat{r}}_{m} = \frac{- b + \sqrt{b^{2} - 4 ac}}{2 a} - - - (6.2 . a)

因此，装置240可包含渲染参数限制值且可根据该渲染参数限制值来限制经调整(或修改)渲染系数222。

2.4.5进一步可取舍改进

上述被装置240个别或组合执行的用以限制渲染系数222的构想可被进一步改进。举例而言，可执行对M通道渲染的一般化。为此目的，渲染系数的平方/幂的和可被使用来取代一单一渲染系数。

此外，可执行对一立体声下混的一般化。为此目的，下混系数的平方/幂的和可被使用来取代一单一下混系数。

在一些实施例中，失真度量可在频率中组合成一用于降级控制的单一失真度量。可选择地，在一些情况中对于每一频带独立进行失真控制可能更好(且更简单)。

不同构想可被用于实际上进行失真控制。举例而言，一个或多个渲染系数可被限制。可选择地或额外地，(例如，一MPEG环绕译码的)一m2矩阵系数可受限制。可选择地或额外地，一相对对象增益可受限制。

3.根据图3的实施例

下面参考图3将说明一SAOC译码器的另一实施例。为了便于理解，将首先给出基本考虑的一简要讨论。一「空间音频对象编码」(SAOC)系统(类似于标准化为ISO/IEC 23003-2者)的输出可显出取决于音频对象性质及渲染矩阵与下混矩阵间的关系的人工因素。为讨论此问题，这里在不失一般性的情况下考虑其中下混矩阵与渲染矩阵具有相同尺寸的情况。即使下混场景与渲染场景中的通道数不同，相对应的考虑也适用。

已发现的是，一般地，当渲染矩阵变得明显与下混矩阵不同时人工因素的风险增加了。不同类型的人工因素可被区分：

1.渲染矩阵，也即「有效」渲染矩阵不同于输入至SAOC译码器的期望渲染矩阵(一对象的实际上实现的衰减或增益与在渲染矩阵中指定的不同)的缺点。这典型地是由对象在某些参数频带中重迭造成的结果。

2.一对象的音色的不期望的及甚至可能时变的改变。此假影特别严重。当1中所提及的「泄露」仅局部出现在一单一参数频带时，此人工因素尤其严重。

3.SAOC译码器中由时间与频率变化信号处理引起的人工因素，像调变对象信号、音乐声调、调变噪声。

已发现的是，最小化所有类型的人工因素是期望的。

一处理此问题且最小化人工因素的一般化方法是在期望渲染矩阵被送至SAOC译码器之前对其进行一时间频率变化后处理。此方法在图3中示出。

图3示出一SAOC译码器安排300的一方块示意图。SAOC译码器也可被简要表示为一音频信号译码器。音频信号译码器300包含一SAOC译码器核心310，该SAOC译码器核心310被配置成接收一下混信号表示型态312及一SAOC位串流并基于它们提供一渲染场景的一说明316，例如为多个上混音频信道的一表示型态的形式。

音频信号译码器300也包含一人工因素减小方块320，该人工因素减小方块320可例如被提供为一用以依赖于一个或多个输入参数来提供一个或多个经调整参数之装置的形式。人工因素减小方块320被配置成接收有关一期望渲染矩阵的信息322。该信息322可例如采用多个期望渲染参数的形式，该多个期望渲染参数可形成人工因素减小方块的输入参数。人工因素减小方块320进一步被配置成接收下混信号表示型态312与SAOC位串流314，其中SAOC位串流314可携载一对象相关参数信息。人工因素减小方块320进一步被配置成依赖于有关期望渲染矩阵的信息322来提供一经修改渲染矩阵324(例如，为多个经调整渲染参数的形式)。

因此，SAOC译码器核心310可被配置成依赖于下混信号表示型态312、SAOC位串流314及经修改渲染矩阵324来提供渲染场景的表示型态316。

下面将提供音频信号译码器的功能的一些细节。已发现的是，为了评估由SAOC系统针对一指定期望渲染矩阵的潜在受限分离能力引起的人工因素风险，期望计入下混信号(由下混信号表示型态312说明)与SAOC位串流314。有了此信息在手，例如通过修改渲染矩阵来试图缓解这些人工因素是可能的。这由人工因素减小方块320来执行。高级缓解策略计入SAOC系统的时间及频率选择性的限制(重迭)与感知效果两者，也即它们应该尝试使渲染信号听起来类似于期望输出信号同时具有尽可能少的可闻人工因素。

在图3所示音频信号译码器300中使用的人工因素减小的一优选方法是基于一总失真测度，该总失真测度是评估上面列出的不同类型人工因素的失真测度的一加权组合。这些权重决定上面列出的不同类型人工因素间的一适当折衷。应该指出的是，这些不同类型人工因素的权重可取决于使用SAOC系统的应用。

换言之，人工因素减小方块320可被配置成获得针对多个类型人工因素的失真测度。举例而言，人工因素减小方块320可应用上面讨论的失真测度dm₁至dm₆中的一些失真测度。可选择地或额外地，人工因素减小方块320可使用如此节所述的说明其它类型人工因素的进一步的失真测度。再者，人工因素减小方块可被配置成使用上面已讨论(例如，2.4.2、2.4.3及2.4.4节中)的一个或多个失真限制方案或与之相当的人工因素限制方案基于期望渲染矩阵322来获得经修改渲染矩阵324。

4.根据图5a及5b的音频信号转码器

4.1根据图5a的音频信号转码器

应该注意的是，上面所述构想可应用于一音频信号译码器与一音频信号转码器中。参考图2及3，已结合音频信号译码器来说明了此构想。下面将结合音频信号转码器来简要讨论本发明构想的使用。

关于此问题，应该指出的是，已参考图9a、图9b及图9c讨论了音频信号译码器与音频信号转码器的类似性，因此对图9a、图9b及图9c所作阐述适用于本发明构想。

图5示出一音频信号转码器500结合一MPEG环绕译码器510的一方块示意图。如可见，可以是一SAOC至MEPG环绕转码器的音频信号转码器500被配置成接收一SAOC位串流520并基于它们在不影响(或修改)一下混信号表示型态524的情况下提供一MPEG环绕位串流522。音频信号转码器500包含一SAOC剖析方块530，该SAOC剖析方块530被配置成接收SAOC位串流520并自SAOC位串流530采集期望的SAOC参数。音频信号转码器500也包含一场景渲染引擎540，该场景渲染引擎540被配置成接收由SAOC剖析方块530提供的SAOC参数及一渲染矩阵信息542，该渲染矩阵信息542可被视作一实际渲染(矩阵)信息且可例如以多个经调整(或修改)渲染参数的形式来表示。场景渲染引擎540被配置成依赖于这些SAOC参数及渲染矩阵542来提供MPEG环绕位串流522。为此目的，场景渲染引擎540被配置成计算MPEG环绕位串流参数522，这些MPEG环绕位串流参数522为通道相关参数(也称为参数信息)。因此，场景渲染引擎540被配置成依赖于实际渲染矩阵542将组成一对象相关参数信息的SAOC位串流520的参数转换(「或转码」)成组成一信道相关参数信息的MPEG环绕位串流的参数。

音频信号转码器500也包含一渲染矩阵产生方块550，该渲染矩阵产生方块550被配置成接收一有关一期望渲染矩阵之信息，例如其为一有关一播放配置的信息552及一有关对象位置的信息554的形式。可选择地，渲染矩阵产生方块550可接收有关期望渲染参数(例如，渲染矩阵项)的信息。渲染矩阵产生方块还被配置成接收SAOC位串流520(或至少由SAOC位串流520表示的对象相关参数信息的一子集)。渲染矩阵产生方块550还被配置成基于接收到的信息提供实际(经调整或修改)渲染矩阵542。在此程度上，渲染矩阵产生方块550可接替装置100或装置240的功能。

MEPG环绕译码器510典型地被配置成基于下混信号信息524及场景渲染引擎540提供的MPEG环绕串流522来获得多个上混信道信号。

总之，音频信号转码器500被配置成提供MPEG环绕位串流522使得MPEG环绕位串流522容许基于下混信号表示型态524提供一上混信号信号表示型态，其中该上混信号表示型态实际上由MPEG环绕译码器510提供。渲染矩阵产生方块550调整场景渲染引擎540使用的渲染矩阵542使得MPEG环绕译码器510产生的上混信号表示型态不包含一不可接受的可闻失真。

4.2根据图5b的音频信号转码器

图5b示出一音频信号转码器560及一MPEG环绕译码器510的另一安排。应该指出的是，图5b的安排非常类似于图5a的安排，因而用相同的参数数字来表示相同的装置与信号。音频信号转码器560与音频信号转码器500的不同之处在于音频信号转码器560包含一下混转码器570，该下混转码器570被配置成接收输入下混表示型态524并提供一馈送至MPEG环绕译码器510的经修改下混表示型态574。修改下混信号表示型态是为了在期望音频结果的限定上获得更多灵活性。这是因为MPEG环绕位串流522无法表示MPEG环绕译码器510的输入信号到MPEG环绕译码器510所输出的上混信道信号的一些映像。因此，使用下混转码器570修改下混信号表示型态可带来一增加的灵活性。

再者，渲染矩阵产生方块550可接替装置100或装置240的功能，从而确保MPEG环绕译码器510提供的上混信号表示型态中的可闻失真被保持得足够小。

5.根据图6的音频信号编码器

下面参考图6将说明一音频信号编码器600，图6示出这一音频信号编码器的一方块示意图。音频信号编码器600被配置成接收多个对象信号612a、612N(也用x₁至x_N表示)并基于它们提供一下混信号表示型态614及一对象相关参数信息616。音频信号编码器600包含一下混器620，该下混器620被配置成依赖与对象信号相关联的下混系数d₁至d_N来提供一个或多个下混信号(这组成下混信号表示型态614)，使得该一个或多个下混信号包含多个对象信号的一迭加。音频信号编码器600也包含一辅助信息提供器630，该辅助信息提供器630被配置成提供一说明两或两个以上对象信号612a至612N的层级差或相关性特性的对象间关系辅助信息。辅助信息提供器630还被配置成提供一说明个别对象信号的一个或多个个别性质的个别对象辅助信息。

音频信号编码器600因而提供对象相关参数信息616使得对象相关参数信息包含一对象间关系辅助信息与个别对象辅助信息。

已发现的是，此一说明对象信号间的关系与单一对象信号的个别特性的对象相关参数信息容许如上讨论在一音频信号译码器中提供一多信道音频信号。对象间关系辅助信息可被接收对象相关参数信息616的音频信号译码器使用以便自下混信号表示型态中至少近似地采集个别对象信号。还被包括于对象相关参数信息614内的个别对象辅助信息可被音频信号译码器用于验证上混过程是否带来太强的信号失真，使得上混参数(例如，渲染参数)需要被调整。

优选地，辅助信息提供器630被配置成提供个别对象辅助信息，使得个别对象辅助信息说明个别对象信号的一音调。已发现的是，一音调信息可被用作一评估上混过程是否带来明显失真的可靠准则。

还应该注意的是，音频信号编码器600可由本文就音频信号编码器所讨论的任一特征或功能来补充，及下混信号表示型态614与对象相关参数信息616可由音频信号编码器600来提供，使得它们包含就本发明音频信号编码器所讨论的特性。

6.根据图7的音频位串流

根据本发明的实施例产生一音频位串流700，该音频位串流700的一示意表示型态在图7中示出。该音频位串流以一编码形式表示多个对象信号。

音频位串流700包含一表示一个或多个下混信号的下混信号表示型态710，其中这些下混信号中至少一个下混信号包含多个对象信号的一迭加。音频位串流700还包含一说明对象信号的层级差及相关性特性的对象间关系辅助信息720。音频位串流还包含一说明个别对象信号(这形成下混信号表示型态710的基础)的一个或多个个别性质的个别对象辅助信息730。

对象间关系辅助信息及个别对象信息可被整体视为一对象相关参数辅助信息。

在一优选实施例中，个别对象辅助信息说明个别对象信号的音调。

自然地，音频位串流如本文所讨论典型地由一音频信号编码器来提供且如本文所讨论由一音频信号译码器来评估。音频位串流可包含针对音频信号编码器与音频信号译码器所讨论的特性。因此，如本文所讨论，音频位串流700可十分适于使用一音频信号译码器来提供一多信道音频信号。

7.结论

根据本发明的实施例提供用以减小或避免上述失真问题的解决方案，上述失真问题源自单一、原始对象信号无法由少数传输下混信号完美重建。因而有更多解决此问题的简单方案被应用：

一过分简单的方法将是将相对对象增益的范围限制为例如+/-12dB。若如此，则大对象增益设置可导致可闻降级(范例：将一对象提高20dB而将其它对象层级保留在0dB)，然而，这不是无法避免的：如一范例，将所有相对对象层级提高相同因子产生一未受损的系统输出。

一更详尽观点将是着眼于相对对象层级的差。对于渲染两音频对象而言，两相对对象层级的差确实提供了应对渲染输出中可能出现的降级的一手段，然而，不清楚的是，此想法如何推广至两个以上渲染音频对象。

鉴于此情况，根据本发明的实施例提供了处理此问题且进而防止一不令人满意的使用者体验的装置。一些实施例根据本发明可带来甚至比前节中所讨论者更详尽的解决方案。

因此，即使一使用者提供不当的渲染参数，使用本发明也可获得一良好的听觉印象。

一般而言，如上所述，根据本发明的实施例有关于用以编码一音频信号或用以译码一编码音频信号的一装置、一方法或一计算机程序、或有关于一编码音频信号(例如，为一音频位串流的形式)。

8.实施选替方案

虽然在一装置的脉络中已说明了一些层面，但显然这些层面也表示对相对应方法的一说明，其中一区块或一装置对应于一方法步骤或一方法步骤的一特征。类似地，在一方法步骤的脉络中所说明的层面也表示对一相对应装置的一相对应区块或项目或特征的一说明，一些或所有方法步骤可由(或使用)一硬件装置来执行，例如，微处理器、可程序化计算机或电子电路。在一些实施例中，某一个或多个最重要方法步骤可由这一装置来执行。

发明的编码音频信号或音频位串流可被储存于一数字储存媒体上或能以一传输媒介传输，诸如无线传输媒介或诸如因特网的有线传输媒介。

视某些实施需求而定，本发明的实施例可在硬件或软件中实施。使用一储存有电子可读取控制信号的数字储存媒体，例如软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存可执行该实施，它们与一可程序化计算机系统合作(或能够合作)使得各自的方法被执行。因此，该数字储存媒体可以是计算机可读取的。

根据本发明的一些实施例包含一具有电子可读取控制信号的数据载体，该数据载体能够与一可程序化计算机系统合作使得本文所予以描述的方法当中之一方法被执行。

大体上，本发明的实施例可作为一具有一程序代码的计算机程序产品而被实施，当该计算机程序产品运行于一计算机上时，该程序代码可操作用于执行这些方法当中的一方法。该程序代码例如被储存于一机器可读取载体上。

其它实施例包含储存于一机器可读取媒体上、用于执行本文所予以描述的这些方法当中的一方法的计算机程序。

换言之，发明方法的一实施例因而是一计算机程序，具有一当该计算机程序运行于一计算机上时用以执行本文所予以描述之这些方法当中的一方法的程序代码。

发明方法的一进一步实施例因而是一数据载体(或一数字储存媒体或一计算机可读取媒体)，其包含记录于其上用以执行本文所予以描述的这些方法当中的一方法的计算机程序。

发明方法的一进一步实施例因而是一数据串流或一信号序列，表示用于执行本文所予以描述之这些方法当中的一方法的计算机程序。该数据串流或该信号序列可例如被配置成经由一数据通讯连接(例如经由因特网)来被传递。

一进一步的实施例包含一处理装置，例如一计算机，或一可程序化逻辑装置，其被配置成或适于执行本文所予以描述的这些方法当中的一方法。

一进一步的实施例包含一上面安装有用以执行本文所予以描述的这些方法当中的一方法的计算机程序的计算机。

在一些实施例中，一可程序化逻辑装置(例如，一现场可程序化门阵列)可被用来执行本文所予以描述的这些方法的一些或所有功能。在一些实施例中，一现场可程序化门阵列可与一微处理器合作以便执行本文所予以描述的这些方法当中的一方法。大体上，这些方法优选地被任一硬件装置执行。

上述实施例仅仅是为了说明本发明的原理。要明白的是，对本文所予以描述的安排与细节的修改或改变对其他熟于此技者而言将是显而易见的。因而，意图是仅受后附的权利要求书的范围限制而不受以本文实施例的说明与阐述方式呈现的特定细节限制。

参考文献

[BCC]C.Faller and F.Baumgarte，“Binaural Cue Coding-Part II：Schemesand applications，”IEEE Trans.on Speech and Audio Proc.，vol.11，no.6，Nov.2003

[JSC]C.Faller，“Parametric Joint-Coding of Audio Sources”，120th AESConvention，Paris，2006，Preprint 6752

[SAOC1]J.Herre，S.Disch，J.Hilpert，O.Hellmuth：“From SAC ToSAOC-Recent Developments in Parametric Coding of Spatial Audio”，22ndRegional UK AES Conference，Cambridge，UK，April 2007

[SAOC2]J.

B.Resch，C.Falch，O.Hellmuth，J.Hilpert，A.

L.Terentiev，J.Breebaart，J.Koppens，E.Schuijers and W.Oomen：“Spatial Audio Object Coding (SAOC)-The Upcoming MPEG Standard onParametric Object Based Audio Coding”，124th AES Convention，Amsterdam2008，Preprint 7377

Claims

1.一种用以基于一下混信号表示型态及一对象相关参数信息针对一上混信号表示型态(至

)的一供应来提供一个或多个经调整参数(r_m’，r_lim，m)的装置，所述装置包含：

一参数调整器，其被配置成接收一个或多个输入参数并基于所述一个或多个输入参数提供一个或多个经调整参数，

其中，所述参数调整器被配置成依赖于所述一个或多个输入参数及所述对象相关参数信息来提供所述一个或多个经调整参数，使得由使用非最佳参数而引起的所述上混信号表示型态的一失真至少针对偏离最佳参数超过一预定偏差的输入参数被减小。

2.根据权利要求1所述的装置，其中，所述装置被配置成接收期望渲染参数来作为所述输入参数(r_i)，所述期望渲染参数说明所述上混信号表示型态(至

)所说明的一个或多个音频信道中多个音频对象信号(x₁至x_N)的一期望强度缩放；以及

其中，所述参数调整器被配置成依赖于所述一个或多个期望渲染参数(r_i)来提供一个或多个实际渲染参数(r_m’，r_lim，m)。

3.根据权利要求2所述的装置，其中，所述参数调整器被配置成依赖于所述对象相关参数信息及一说明所述音频对象信号(x₁至x_N)对所述下混信号表示型态的一贡献的下混信息(d_i)来获得一个或多个渲染参数限制值

使得一失真度量(dm₁(m)、dm₂(m)、dm₅(m)、dm₆(m)、DM₁、DM₂、DM₃、DM₄、DM₅、DM₆)在渲染参数值遵从所述渲染参数限制值所定义的限制的一预定范围内，以及

其中，所述参数调整器被配置成依赖于所述期望渲染参数(r_i)及所述一个或多个渲染参数限制值来获得所述实际渲染参数(r_m’，r_lim，m)，使得所述实际渲染参数遵从所述渲染参数限制值所定义的所述限制。

4.根据权利要求2至3中任一项所述的装置，其中，所述参数调整器被配置成获得所述一个或多个渲染参数限制值

使得使用一个或多个遵从所述一个或多个渲染参数限制值的渲染参数(r_m’，r_lim，m)而渲染的多个对象信号的一渲染迭加中的一对象信号(x₁至x_N)的一相对贡献与一下混信号中所述对象信号的一相对贡献的差异不超过一预定差。

5.根据权利要求4所述的装置，其中，所述参数调整器被配置成决定所述一个或多个渲染参数值r_m，使得对于一对象指数m指定的一个或多个音频对象满足方程式

{dm}_{1} (m) = \frac{r_{m}^{2} \cdot Σ_{i = 1}^{N} d_{i}^{2} \cdot X_{i}}{d_{m}^{2} \cdot Σ_{i = 1}^{N} r_{i}^{2} \cdot X_{i}} \leq T,

其中，r_m表示一渲染参数，所述渲染参数说明一具有对象指数m的音频对象的一对象信号对所述上混信号的一指定信道(

至

)的一贡献，

其中，d_m表示一下混参数，所述下混参数说明一下混信号中具有指数m的所述对象的所述对象信号(x₁至x_N)的一贡献，以及

其中，X_i表示具有对象指数m的所述音频对象的一能量测度，所述能量测度由所述对象相关参数信息来决定。

6.根据权利要求2或3所述的装置，其中，所述参数调整器被配置成获得所述一个或多个渲染参数限制值

使得一失真测度(DM3)在一预定范围内，所述失真测度(DM3)说明由所述下混信号表示型态所说明的一下混信号与使用一个或多个遵从所述一个或多个渲染参数限制值

的渲染参数(r_m)而渲染的一渲染信号间的相干性。

7.根据权利要求6所述的装置，其中，所述参数调整器被配置成获得所述一个或多个渲染参数限制值为

使得所述失真测度

{DM}_{3} = 1 - \min (\frac{| c_{12} |}{\sqrt{c_{11} \cdot c_{22}}}, 1)

取一预定值，

其中，C被定义为

C = M \cdot E \cdot M^{*} = (\begin{matrix} c_{11} & c_{12} \\ c_{21} & c_{22} \end{matrix})

其中，

M = (\begin{matrix} r_{1} & r_{2} & \cdot \cdot \cdot & r_{N} \\ d_{1} & d_{2} & \cdot \cdot \cdot & d_{N} \end{matrix})

是一包含一第一列渲染参数r₁至r_n与一第二列下混参数d₁至d_n的矩阵，所述第二列下混参数d₁至d_n说明所述音频对象信号对所述下混信号表示型态的一贡献；

其中，E是使用所述对象相关参数信息的参数(OLD、IOC)获得的一对象共变异数矩阵，以及

其中，″*″表示一复共轭运算符。

8.根据权利要求2所述的装置，其中，所述参数调整器被配置成计算一期望渲染参数(r_m)的平方与一最佳渲染参数(r_opt，m)的平方间的一线性组合，以获得所述实际渲染参数(r_lim，m)，

其中，所述参数调整器被配置成依赖于一预定阈值参数T及一失真度量(dm₁、dm₂、dm₃、dm₄、dm₅、dm₆)来判定所述期望渲染参数(r_m)与所述最佳渲染参数(r_opt，m)对所述线性组合的一贡献，其中，所述失真度量说明一由使用所述一个或多个期望渲染参数(r_m)而非所述最佳渲染参数(r_opt，m)以基于所述下混信号表示型态来获得所述上混信号表示型态而引起的失真。

9.根据权利要求8所述的装置，其中，所述参数调整器被配置成评估所述方程式

r_{\lim, m}^{2} = \frac{T - 1}{{dm}_{x} (m)} (r_{m}^{2} - r_{opt, m}^{2}) + r_{opt, m}^{2}

以便获得所述实际渲染参数r_lim，m，所述实际渲染参数r_lim，m说明一具有对象指数m的对象之一对象信号对所述上混信号之一指定信道的一贡献，

其中T表示一预定失真阈值参数，

其中dm_x(m)表示一与所述期望渲染参数r_m相关联的失真度量，所述期望渲染参数r_m说明一具有对象指数m的音频对象的一对象信号对所述上混信号的一指定信道的一贡献；

其中，r_opt，m表示一最佳渲染参数，所述最佳渲染参数说明所述具有对象指数m的音频对象的一对象信号对所述上混信号的所述指定信道的一贡献。

10.根据权利要求8或9所述的装置，其中，所述参数调整器被配置成获得所述失真度量，使得所述失真度量取决于根据所述期望渲染参数而渲染的多个对象信号的一渲染迭加中一指定对象信号的一相对贡献与一包含所述指定对象信号的下混信号中所述指定对象信号的一相对贡献间的一关系。

11.根据权利要求8、9或10所述的装置，其中，所述参数调整器被配置成获得所述失真度量(dm₁)，使得所述失真度量取决于根据所述期望渲染参数(r_m)而渲染的多个对象信号的一渲染迭加中一指定对象信号(x₁至x_N)的一相对贡献与一包含所述指定对象信号(x₁至x_N)的下混信号中所述指定对象信号(x₁至x_N)的一相对贡献间的比。

12.根据权利要求8至11中任一项所述的装置，其中，所述参数调整器被配置成根据以下来计算所述失真度量dm_x(m)

{dm}_{x} (m) = {dm}_{1} (m) = \frac{r_{m}^{2} Σ_{i = 1}^{N_{ob}} d_{i}^{2} X_{i}}{d_{m}^{2} Σ_{i = 1}^{N_{ob}} r_{i}^{2} X_{i}}

其中，r_m与r_i分别表示与具有对象指数m及i的音频对象相关联的期望渲染参数；

其中d_m与d_i表示下混参数，所述下混参数分别说明具有对象指数m及i的音频对象的对象信号对所述下混信号表示型态的一下混信号的一贡献；

其中，N_ob表示一考虑的音频对象数目；

其中，X_i表示与具有对象指数i的所述音频对象的所述对象信号相关联的能量测度。

13.根据权利要求8、9或10所述的装置，其中，所述参数调整器被配置成获得所述失真度量(dm₂)，使得所述失真度量取决于根据所述期望渲染参数(r_m)而渲染的多个对象信号的一渲染迭加中一指定对象信号(x₁至x_N)的一相对贡献与一包含所述指定对象信号(x₁至x_N)的下混信号中所述指定对象信号(x₁至x_N)的一相对贡献间的差。

14.根据权利要求8至13中任一项所述的装置，其中，所述参数调整器被配置成计算所述失真度量(dm₂)，使得所述失真度量取决于一遮蔽对信号比(msr)，以致于若所述遮蔽对信号比增加，则所述失真度量(dm₂)减小，表明一失真较小。

15.根据权利要求8至10中任一项或第11项或第12项所述的装置，其中所述参数调整器被配置成计算所述失真度量，根据

{dm}_{x} (m) = {dm}_{2} (m) = \frac{(r_{m}^{2} \cdot Σ_{i = 1}^{N} d_{i}^{2} \cdot X_{i} - d_{m}^{2} \cdot Σ_{i = 1}^{N} r_{i}^{2} \cdot X_{i}) \cdot X_{m}}{msr \cdot (Σ_{i = 1}^{N} r_{i}^{2} \cdot X_{i}) \cdot (Σ_{i = 1}^{N} d_{i}^{2} \cdot X_{i})}

或

{dm}_{x} = {dm}_{2}^{'} (m) = \frac{P_{Noise}}{Mask} = \frac{E {{| y_{m; ideal} - {\hat{y}}_{m; actual} |}^{2}}}{msr \cdot P_{total}} =

\frac{| r_{m}^{2} \cdot Σ_{i = 1}^{N} d_{i}^{2} \cdot X_{i} + d_{m}^{2} \cdot Σ_{i = 1}^{N} r_{i}^{2} \cdot X_{i} - 2 \cdot d_{m} r_{m} \cdot \sqrt{(Σ_{i = 1}^{N} r_{i}^{2} \cdot X_{i}) \cdot (Σ_{i = 1}^{N} d_{i}^{2} \cdot X_{i})} | \cdot X_{m}}{msr \cdot (Σ_{i = 1}^{N} r_{i}^{2} \cdot X_{i}) \cdot (Σ_{i = 1}^{N} d_{i}^{2} \cdot X_{i})}

其中，d_m与d_i表示下混参数，所述下混参数分别说明具有对象指数m及i的音频对象的对象信号对所述下混信号表示型态的一下混信号的一贡献；

其中，N表示一考虑的音频对象数目；

其中，X_i与X_m分别表示与具有对象指数i及m的所述音频对象的所述对象信号相关联的能量测度；以及

其中，msr定义一遮蔽对信号比。

16.根据权利要求1至15中任一项所述的装置，其中，所述参数调整器被配置成依赖于感知降级的一计算测度来提供所述一个或多个经调整参数，使得由使用非最佳参数而引起且用感知降级的所述计算测度表示的所述上混信号表示型态的一感知评估失真被限制。

17.根据权利要求1至16中任一项所述的装置，其中，所述参数调整器被配置成接收一个别对象性质信息，所述个别对象性质信息说明一个或多个构成所述下混信号表示型态说明的一下混信号的基础的原始对象信号的所述个别性质；以及

其中，所述参数调整器被配置成考虑所述个别对象性质信息，并提供所述经调整参数使得相对于一理想渲染上混信号表示型态，所述上混信号表示型态的一失真至少针对偏离最佳参数超过一预定偏差的输入参数被减小。

18.根据权利要求17所述的装置，其中，所述参数调整器被配置成接收并考虑一对象信号音调信息作为一个别对象性质信息，以便提供所述一个或多个经调整参数。

19.根据权利要求18所述的装置，其中，所述参数调整器被配置成依赖于所述接收对象信号音调信息与所述接收对象功率信息(OLP，P)来估计一理想渲染上混信号的一音调(N)；以及

其中，所述参数调整器被配置成提供所述一个或多个经调整参数，以在比较于所述估计音调与使用所述一个或多个输入参数而获得的一上混信号的一音调间的差时减小所述估计音调与使用所述一个或多个经调整参数而获得的一上混信号的所述音调间的差，或使所述估计音调与使用所述一个或多个经调整参数而获得的一上混信号的一音调间的差保持在一预定范围内。

20.根据权利要求1至19中任一项所述的装置，其中，所述参数调整器被配置成执行所述输入参数的一时间及频率变化调整。

21.根据权利要求1至20中任一项所述的装置，其中，所述参数调整器被配置成在提供所述一个或多个经调整参数方面也考虑所述下混信号表示型态。

22.根据权利要求1至21中任一项所述的装置，其中，所述参数调整器被配置成获得一总失真测度，所述总失真测度是说明多个人工因素类型的失真测度的一加权组合；

其中，所述参数调整器被配置成获得所述总失真测度，使得所述总失真测度是由使用一个或多个所述输入渲染参数而非最佳渲染参数来基于所述下混信号表示型态来获得所述上混信号表示型态而引起的失真的一测度。

23.根据权利要求22所述的装置，其中，所述参数调整器被配置成组合下列所述失真测度当中的至少两失真测度，以便获得所述总失真测度：

●一说明一音频对象的音色的一寄生改变的测度；

●一说明与一音频对象相关联的一对象信号的一寄生调变的测度；

●一说明一寄生乐音的存在的测度；

●一说明一寄生调变噪声的存在的测度。

24.一种用以基于一下混信号表示型态、一对象相关参数信息及一期望渲染信息来提供多个上混音频信道(

至)作为一上混信号表示型态的音频信号译码器，所述音频信号译码器包括：

一上混器，其被配置成基于所述下混信号表示型态并依赖于所述对象相关参数信息及一实际渲染信息来获得所述上混音频信道(

至

)，所述实际渲染信息说明由所述对象相关参数信息说明的音频对象的多个对象信号至所述上混音频信道的一分配；以及

一根据权利要求1至23所述的用以提供一个或多个经调整参数的装置，其中，所述用以提供一个或多个经调整参数的装置被配置成接收所述期望渲染信息作为所述一个或多个输入参数，并将所述一个或多个经调整参数提供为实际渲染信息；以及

其中，所述用以提供所述一个或多个经调整参数的装置被配置成提供所述一个或多个经调整参数，使得由使用偏离最佳渲染参数(r_opt，m)的所述实际渲染参数(r_m’，r_lim，m)而引起的所述上混音频信道(

至

)的失真至少针对偏离所述最佳渲染参数(r_opt，m)超过一预定偏差的期望渲染参数(r_i)被减小。

25.一种用以基于一下混信号表示型态、一对象相关参数信息及一期望渲染信息来提供一信道相关参数信息作为一上混信号表示型态的音频信号转码器，所述音频信号转码器包括：

一辅助信息转码器，其被配置成基于所述下混信号表示型态并依赖于所述对象相关参数信息及一实际渲染信息来获得所述信道相关参数信息，所述实际渲染信息说明由所述对象相关参数信息说明的音频对象的多个对象信号至所述信道相关参数信息说明的上混音频信道的一分配；以及

一根据权利要求1至23中任一项所述的用以提供一个或多个经调整参数的装置，其中所述用以提供一个或多个经调整参数的装置被配置成接收所述期望渲染信息作为所述一个或多个输入参数，并提供所述一个或多个经调整参数作为所述实际渲染信息；以及

其中，所述用以提供所述一个或多个经调整参数的装置被配置成提供所述一个或多个经调整参数，使得由使用偏离最佳渲染参数的实际渲染参数而引起的所述上混音频信道的失真至少针对偏离所述最佳渲染参数超过一预定偏差的期望渲染参数被减小。

26.一种用以基于一下混信号表示型态及一对象相关参数信息针对一上混信号表示型态一供应来提供一个或多个经调整参数的方法，所述方法包含：

接收一个或多个输入参数并基于所述一个或多个输入参数来提供一个或多个经调整参数，

其中，所述一个或多个经调整参数是依赖于所述一个或多个输入参数及所述对象相关参数信息而被提供，使得由使用非最佳参数而引起的所述上混信号表示型态的一失真至少针对偏离最佳参数超过一预定偏差的输入参数被减小。

27.一种用以基于一下混信号表示型态、一对象相关参数信息及一期望渲染信息来提供多个上混音频信道作为一上混信号表示型态的方法，所述方法包括：

根据权利要求26所述，提供一个或多个经调整参数，其中，所述期望渲染信息被接收为所述一个或多个输入参数及其中所述一个或多个经调整参数被提供为一实际渲染信息，及其中所述一个或多个经调整参数被提供，使得由使用偏离最佳渲染参数的所述实际渲染参数而引起的所述上混音频信道的失真至少针对偏离所述最佳渲染参数超过一预定偏差的期望渲染参数被减小；以及

基于所述下混信号表示型态并依赖于所述对象相关参数信息及所述实际渲染信息来获得所述上混音频信道，所述实际渲染信息说明由所述对象相关参数信息说明的音频对象的多个对象信号至所述上混音频信道的一分配。

28.一种用以基于一下混信号表示型态、一对象相关参数信息及一期望渲染信息来提供一信道相关参数信息作为一上混信号表示型态的方法，所述方法包括：

根据权利要求26所述，提供一个或多个经调整参数，其中，所述期望渲染信息被接收为所述一个或多个输入参数，及其中所述一个或多个经调整参数被提供为一实际渲染信息，及其中所述一个或多个经调整参数被提供，使得由使用偏离最佳渲染参数的所述实际渲染参数而引起的所述上混音频信道的失真至少针对偏离所述最佳渲染参数超过一预定偏差的期望渲染参数被减小；以及

基于所述下混信号表示型态并依赖于所述对象相关参数信息及所述实际渲染信息来获得说明所述上混音频信道的所述信道相关参数信息，所述实际渲染信息说明由所述对象相关参数信息说明的音频对象的多个对象信号至上混音频信道的一分配，所述上混音频信道由所述信道相关参数信息说明。

29.一种用以基于多个对象信号(x₁至x_N)来提供一下混信号表示型态及一对象相关参数信息的音频信号编码器，所述音频编码器包括：

一下混器，其被配置成依赖于与所述对象信号(x₁至x_N)相关联的下混系数(d₁至d_N)来提供一个或多个下混信号，使得所述一个或多个下混信号包括多个对象信号的一迭加；

一辅助信息提供器，其被配置成提供一说明对象信号(x₁至x_N)的层级差与相关性特性的对象间关系辅助信息(OLD、IOC)与一说明所述个别对象信号(x₁至x_N)的一个或多个个别性质的个别对象辅助信息。

30.根据权利要求29所述的装置，其中，所述辅助信息提供器被配置成提供所述个别对象辅助信息，使得所述个别对象辅助信息说明所述个别对象信号(x₁至x_N)的音调。

31.一种用以基于多个对象信号来提供一下混信号表示型态及一对象相关参数信息的方法，所述方法包括：

依赖于与所述对象信号相关联的下混系数来提供一个或多个下混信号，使得所述一个或多个下混信号包含多个对象信号的一迭加；以及

提供一说明对象信号的层级差及相关性特性的对象间关系辅助信息；以及

提供一说明所述个别对象信号的一个或多个个别性质的个别对象辅助信息。

32.一种以一编码形式来表示多个对象信号(x₁至x_N)的音频位串流，所述音频位串流包括：

一下混信号表示型态，其表示一个或多个下混信号，其中，所述下混信号当中的至少一下混信号包含多个对象信号的一迭加；以及

一对象间关系辅助信息，其说明对象信号的层级差与相关性特性；以及

一个别对象辅助信息，其说明所述个别对象信号的一个或多个个别性质。

33.根据权利要求32所述的音频位串流，其中，所述个别对象辅助信息说明所述个别对象信号的音调。

34.一种用以执行根据权利要求26、27、28或31所述的方法当中的一个方法的计算机程序。