CN106170992A

CN106170992A - 基于对象的音频响度管理

Info

Publication number: CN106170992A
Application number: CN201580019389.7A
Authority: CN
Inventors: F·马拉克; T·卡特西阿诺斯; J-M·卓特
Original assignee: DTS BVI Ltd
Current assignee: DTS BVI Ltd
Priority date: 2014-02-27
Filing date: 2015-02-27
Publication date: 2016-11-30
Anticipated expiration: 2035-02-27
Also published as: JP6670752B2; EP3111677A1; US10063207B2; EP3111677B1; US20150245153A1; ES2714905T3; PL3111677T3; KR102341971B1; EP3111677A4; KR20160125511A; CN106170992B; JP2017511048A; WO2015131063A1

Abstract

提供了用于处理基于对象的音频信号的方法和装置。该装置接收多个基于对象的音频信号。该多个基于对象的音频信号中的每个基于对象的音频信号包括音频波形数据和与该音频波形数据相关联的对象元数据。对象元数据包括与该音频波形数据相关联的响度参数或功率参数中的至少一个。该装置基于接收的基于对象的音频信号并基于接收的基于对象的音频信号中的每个基于对象的音频信号的响度参数或功率参数中的至少一个来确定响度度量。在一个配置中，该装置基于确定的响度度量将接收的基于对象的音频信号渲染成一组输出信号。在另一个配置中，该装置基于确定的响度度量发送(例如广播、文件传送或流传输)该接收的基于对象的音频信号。

Description

基于对象的音频响度管理

对相关申请的交叉引用

本申请要求于2014年2月27日提交的题为“基于对象的音频响度管理”的美国临时专利申请No.61/945734的权益；以及于2015年2月26日提交的题为“基于对象的音频响度管理”的美国专利申请No.14/632997的权益；这两个申请通过引用被明确地全文并入本文。

技术领域

本公开基本上涉及响度管理，更具体地，涉及基于对象的音频响度管理。

背景技术

响度是主要在线性(实时)娱乐的流类型传送中的老问题。线性娱乐可以包括广播线性规划(programming)、视频点播(VOD)和上方(over-the-top)(OTT)流传输。过去，包括各式各样的音频工程师和专家的数个国际标准组织已定义了用于精确测量广播音频混合的感知响度的方法。虽然开始时这个工作由标准组织完成，但是最终国家政府的监管机构也参与其中。这些监管机构发布用于实现一组标准化的技术规范、阐释它们的使用并推荐最佳实践的规范。但是，只在立体声的基于声道的音频世界中进行了这个工作，最近在5.1声道环绕声中进行了这个工作。

发明内容

在本公开的一方面，提供了一种用于处理基于对象的音频信号以便通过回放系统再现的方法和装置。该装置接收多个基于对象的音频信号。该基于对象的音频信号中的每个基于对象的音频信号包括音频波形数据和与该音频波形数据相关联的对象元数据。对象元数据包括与该音频波形数据相关联的响度参数或功率参数中的至少一个。该装置基于接收的基于对象的音频信号并基于该接收的基于对象的音频信号中的每个基于对象的音频信号的响度参数或功率参数中的至少一个来确定响度度量。该装置基于确定的响度度量将接收的基于对象的音频信号渲染成一组输出信号。

在本公开的一方面，提供了用于处理基于对象的音频信号以用于广播、文件传送或流传输中至少一个的方法和装置。该装置接收多个基于对象的音频信号。该基于对象的音频信号中的每个基于对象的音频信号包括音频波形数据和与该音频波形数据相关联的对象元数据。该对象元数据包括与音频波形数据相关联的响度参数或功率参数中的至少一个。该装置基于接收的基于对象的音频信号并基于该接收的基于对象的音频信号中每个基于对象的音频信号的响度参数或功率参数中的至少一个来确定响度度量。该装置基于确定的响度度量发送该接收的基于对象的音频信号。

附图说明

现在参考附图，贯穿所有图中，相同的附图标记表示对应的部分，其中

图1示出了用于空间规范化基于对象的音频(OBA)响度管理系统和方法的多维音频比特流的示例性构造。

图2是示出多维音频(MDA)广播比特流创建过程的示例性实现的概览的框图。

图3是示出全局求和的响度元数据的生成的概览的框图。

图4是示出由空间规范化OBA响度管理系统和方法的实施例计算的基础空间规范化响度度量和增强的空间规范化响度度量的互补使用的框图。

图5是示出图4中示出的空间规范化响度度量的计算的概览的框图。

图6是示出内容创建/编码阶段的概览的框图。

图7是示出收听者的头相对于对象的朝向和几何形状的、并在监视阶段期间与空间规范化OBA响度管理系统和方法相关联地使用的图。

图8是示出空间规范化OBA响度管理系统和方法的实施例的全部三个阶段的一般操作的流程图。

图9是处理基于对象的音频信号以便通过回放系统重现的方法的流程图。

图10是处理基于对象的音频信号以用于广播、文件传输或流传输中的至少一个的方法的流程图。

图11是示出在示例装置中的不同模块/装备/部件之间的数据流的概念数据流图。

具体实施方式

下面结合附图阐释的具体实施方式意图作为各种配置的描述而不意图表示在其中可以实践本文中描述的概念的唯一配置。该具体实施方式包括用于提供对各种概念的透彻理解的具体细节。但是，本领域的技术人员将清楚，可以在没有这些具体细节的情况下实践这些概念。在一些例子中，公知的结构和部件在框图中示出以便避免使这些概念难以理解。在下面的具体实施方式中将描述装备和方法，且在附图中可以通过各种框、模块、部件、电路、步骤、过程、算法、元件等示出这些装备和方法。

参考附图，在下面对空间规范化OBA响度管理系统和方法的实施例进行了描述。这些附图以举例的方式示出了可以怎样实践空间规范化OBA响度管理系统和方法的实施例的具体示例。应该理解，在不违背要求保护的主题的范围的情况下，可以使用其他实施例，且可以进行结构性改变。

I.引言

随着OBA的出现，新的机会和挑战浮出水面。一个关键问题是，当任意数目的音频对象可以在混合中存在时，怎样测量和管理响度。当在家中引入交互控制时，测量和管理响度的能力尤其重要，由此允许消费者添加或丢弃音频对象。虽然OBA的灵活性具有许多优点，但是OBA确实带来了挑战，因为现存的基于声道的响度管理和控制方法是不可接受的。

图1示出了用于空间规范化OBA响度管理系统和方法的实施例的MDA节目比特流100的示例性结构。图2是示出MDA广播比特流创建过程的示例性实现的概览的框图200。MDA节目比特流100可以包括节目特定(specific)元数据102和多个音频对象104。音频对象104是一个或多个音频波形和描述这些波形的某些特性的动态或静态对象特定元数据106。这些特性可以包括在给定时间点处在三维(3D)空间中的位置定位、测量的响度值、对象的性质(诸如仪器、效果、音乐、背景或对话)、对话语言、怎样显示该对象、及以关于怎样处理，渲染或回放该对象的指令的形式的元数据。在纯OBA中，音频对象104不被映射到特定的声道。事实上，可能不知道回放配置包含多少声道。换言之，音频对象104意图独立于渲染扬声器的任何特别的预定义的或固定的回放配置而以整体的方式被处理。在这些情形下，渲染处理在后面进行以便转换并混合到回放声道(如由回放配置定义的那样)。

通常，响度被定义为听觉属性，就该听觉属性而言声音可以在从安静到响亮延伸的范围上排序。响度是受到声压级(SPL)、频率、带宽、持续时间和近似度影响的主观测量。此外，国际电信联盟(ITU)广播服务(BS)1770(ITU BS.1770)是定义和计算响度的广播标准，欧洲广播联盟(EBU)R-128定义可以怎样测量广播并规范化音频。

当前OBA的开放和专有示例两者均存在。在本文中描述的空间规范化OBA响度管理系统和方法使用具有包括一组综合响度值的一组丰富的元数据的OBA。开放的OBA比特流具有开放架构，使得元数据在比特流的存在中的任意给定点处是可读的及可存取的。以示例的方式而不是限制的方式，MDA是这样的开放格式，该格式包括比特流表示和OBA载荷(payload)。MDA是完全开放的基于对象的音频沉浸式音频平台，该平台允许任何内容提供者混合基于对象的音频、或基于对象的音频和基于声道的音频的任何组合。例如，可以使用十二个扬声器混合内容，且MDA将使内容映射到任何回放配置，诸如5.1或立体声。在本文档中，MDA将作为空间规范化OBA响度管理系统和方法的实施例的适用性的一个示例而被引用。但是，其他种类的比特流格式(例如DTS:X)还可以应用到空间规范化OBA响度管理系统和方法的实施例。虽然MDA可以支持基于对象、基于声道和基于场景的音频(高阶高保真立体声(HOA))，但是应该注意，在本文档中MDA主要指的是OBA载荷。

II.操作和系统概览

由于音频制作世界从基于声道的音频迁移到OBA，所以定义新的技术或更新现存的技术以处理响度是被期待的。但是现在，没有已知的或公认的方法来测量3D空间中对象音频的响度。在不久的将来，世界产业专家(诸如EBU中的专家)无疑将探索在具有沉浸式音频载荷(诸如对象、声道+对象或HOA)时处理响度管理的新方法。

不仅更新应用到OBA的响度测量的方法是被期待的，而且设计可以在不知道目标渲染配置的情况下定义并确定具体的和有意义的响度测量技术也是被期待的。如果该技术能够计算测量而不必须渲染该对象，那么将会更好。空间规范化OBA响度管理系统和方法的实施例实现了这些目标。

全局求和响度

被称为全局求和响度值的元数据参数可以被定义在MDA节目比特流的节目特定元数据内。该全局求和响度值可以表示总的OBA节目或混合的、被组合和测量的响度值。实现将被当今的音频产业理解的值的唯一已知方法是通过强制渲染将流中的音频对象载荷发送到声道环路。这里该对象使用MDA参考渲染器(例如矢量基幅度调节(VBAP)，见图2)以渲染成ITU定义的5.1扬声器布局配置。这实质上将所有对象转化为5.1声道馈送。然后，这些对象被馈送到现存的EBU R-128或先进电视系统委员会(ATSC)A85兼容的响度测量过程。测量值(以响度、K加权、相对于满刻度(LKFS)被测量或以相对于满刻度的响度单元(LUFS)被测量)随后在比特流层而不是在单独的对象层(见图1)返回到MDA比特流中被记录，作为节目的全局求和响度值(例如ITU5.1-23LUFS)。这还可以应用到立体声。

图3是示出全局求和响度元数据的生成的概览的框图300。在302，OBA元数据在元数据生成阶段被生成。这样的元数据可以为了例如MDA或DTS:X而被生成。随后，在304，可以对音频对象信号执行渲染或预渲染以确定音频对象信号中的每个的平均功率或响度。在306，可以执行响度监视/测量以确定全局求和响度值。这样的监视/测量可以遵从EBU R-128或商业广告响度缓解(CALM)法案。在308，一旦计算出全局求和响度值，那么计算出的全局求和响度值可以与国际监管标准(诸如CALM法案中的-24LKFS或EBU R-128中的-23LUFS)中指定的目标响度水平比较。该目标响度水平可以在MDA比特流内的节目特定元数据中携带。基于该比较，在310，可以计算偏移，且在312，该偏移可以在MDA比特流内的节目特定元数据中被存储为全局求和响度偏移。当音频最终被渲染以用于消费者回放时，该全局求和响度偏移可以之后在下游被应用。

空间规范化响度度量

空间规范化OBA响度管理系统和方法的实施例在不知道目标渲染配置(例如扬声器数目或扬声器配置)的情况下定义并确定具体的、有意义的响度测量。这是重要的，因为这将是意图用于消费者传送和回放的OBA内容的情况。此外，该系统和方法的实施例计算这个响度测量而不必渲染对象。

图4是示出由空间规范化OBA响度管理系统和方法的实施例计算的、基础空间规范化响度度量和增强的空间规范化响度度量的互补使用的框图400。图5是示出在图4中示出的空间规范化响度度量的计算的概览的框图500。空间规范化OBA响度管理系统和方法定义两个种类的空间规范化响度度量。基础空间规范化响度度量可以在已知最终混合(即用于确定响度的音频对象的全部)和目标渲染环境的情况下被计算。这缓解了对回放配置的固定列表的需要，并且可以在消费者家中，在链条的最后一个可能的点处进行。增强的空间规范化响度度量可以基于附加信息，(诸如收听者定位和朝向)来计算。该空间规范化响度度量可以在广播制作/传送/回放链条中的任何给定的点处被确定。

这两种技术和值旨在解决两个相同的问题。第一个问题是向在要保持响度控制并确保他们的消费者的连续的响度体验的严格国家监管之下的广播机构提供他们传送到家庭的内容。第二个问题是解决提出处理OBA传送的新技术的需要。在这些情况下，对于这样的系统(诸如新的国际广播标准)的应用和需求要求具有灵活性以适应在家中的任何给定的收听者相对于音频对象定位的定位/朝向。

空间规范化OBA响度管理系统和方法的实施例允许端到端的链条更智能且更有适应性。此外，该系统和方法将许多繁重的工作(lifting)切换到前端或基于云计算的架构。一些算法计算被保持在消费者侧以便适应任何给定的环境和任何任意的混合或修改的混合(经由后期绑定或家庭网络馈送由消费者交互干预来改变)。该系统和方法还把特定的消费者回放环境计算在内。

在使用基础空间规范化响度度量的情况下，广播机构可以使用许多系统部件以便抽查，验证或校正音频声道的响度。一些是基于文件的系统，一些使用实时装备。保持合规(或不触及某些认证内容)的责任经由内容权利转让合同从分配链条的一部分传递到下一部分。最终，创建了法律来要求某些单独的公司承担责任。在美国，是由节目编排者(programmers)和广播机构来起草(originate)该内容的。需要工具来在对最初创作的音频内容的音频质量(诸如动态范围)具有最小的影响直至没有影响的情况下验证、检查或调节响度。该示例性系统和方法是在任何给定点处“敲击(tap)”比特流并得到OBA节目的响度的计算结果而不必渲染或知道端部用户配置的非侵入式方式。

在使用增强的空间规范化响度度量的情况下，精确的收听者位置/朝向朝向是已知的。在这种环境中，在传送链条的最终阶段(在消费者家中，见图4)，该系统知道对象将在房间中相对于收听者的什么位置被渲染。这增强了该系统和方法及其计算的精确度。

如果在创建原始混合时使用近似值，那么也使用可以充分利用(leverage)那些效果的先进的渲染器。近似值可以由系统和方法的实施例来使用以用于更精确的测量和补偿。该系统和方法还可以使用在3D收听空间中收听者位置相对于对象位置的任何改变。通过环境反馈系统使这种改变对于该系统和方法是已知的。如果附加的信息对于该系统和方法的实施例是可用的，那么它可以计算在3D空间中渲染的所有对象相对于收听者视角的“感知的”响度水平。

注意并理解到这一点是重要的：基础空间规范化响度度量技术和增强的空间规范化响度度量技术首要地是新的测量过程。系统和方法的实施例可以在链条的任何给定点处被应用到OBA比特流，不管是基于文件的还是实时的。这两个种类的空间规范化响度度量可以在创建和分配阶段的任何点处被计算，并且还可以在它被计算和创建之后作为元数据被插入回到OBA比特流中。在MDA中，空间规范化响度度量可以取代使用到ITU 5.1方法的渲染的全局求和响度值。

增强的空间规范化响度度量可以在传送链条的最终点处，在消费者回放环境中被计算。在该点处，在发生交互之后，对于收听者上的系统和在混合中的最后一组对象来说，更多信息是已知的。该增强的空间规范化响度度量可以被设计到沉浸式音频的消费者解码器中的实时系统内。此外，它可以最终被用于校正任何不想要的响度不连续性。该系统和方法可以得到授权并被实现到被设计成测量、监视或校正广播前端工作流程中的响度问题的专业广播产品中，而不影响音频要素或艺术意图(只经由元数据校正)。

广义上说，OBA响度管理系统和方法的实施例包含在音频处于在3D空间内的音频对象的形式时测量响度的技术。该系统和方法的实施例利用音频对象元数据来创建新的测量值和OBA载荷的参考的新单元。响度问题存在于当今的世界中，主要在线性娱乐(诸如广播线性规划、VOD和OTT流传输)的流种类传送中。现存的技术仅仅管理传统立体声和5.1声道场景的响度。

OBA响度管理系统和方法允许内容创建者和分配者在不渲染音频对象的情况下测量并参考载荷响度的新值。此外，回放配置不需要被知道。

现有技术缺少测量诸如OBA的沉浸式音频的能力。该系统和方法的实施例使用与单独的对象响度/功率信息组合的空间信息来创建新的参考值，而不需要渲染载荷。示例性系统和方法在对象的创建过程中使用携带关于3D空间中对象的位置和单独测量的响度的信息的比特流。以示例的方式而不是限制的方式，比特流可以是MDA比特流或可替代的OBA开放规范。示例性系统和方法还包括空间规范化技术，在已知该空间规范化技术需要的信息(且不渲染)的情况下，该空间规范化技术计算空间规范化响度度量。

通常，空间规范化响度度量可以是两个种类中的一个。在一些实施例中，使用基础空间规范化响度度量，该基础空间规范化响度度量可以在任意给定时间通过假设相对于音频对象位置的特别的收听者位置/朝向来计算。这在基于文件的环境和实时环境两者中均成立。在其他实施例中，使用增强的空间规范化响度度量。在这些实施例中，收听者的位置/朝向是已知的。与基础空间规范化响度度量相比，增强的空间规范化响度度量能够创建更精确和个性化的感知响度值。这个增强的响度度量随后可以用于在节目期间或从节目到节目或从节目到广告来管理任何响度不连续性。增强的空间规范化响度度量还可以考虑到各种其他响度相关的信息。以举例的方式而不是限制的方式，这个响度相关的信息包括近似值信息。此外，在一些实施例中，增强的响度度量可以导致任何消费者侧交互及内容在哪里被重新混合(通过添加对象到混合中，通过从混合中丢弃对象或通过改变混合中对象的定位(例如通过将对象移动到不同的定位或筛选混合中的对象)--所有这些均改变混合的整体响度)。

基础空间规范化响度度量将具有专业广播装备码的形状，该专业广播装备码被授权进入专业产品中，该专业产品制造音频创建、处理和编码/解码/转码装备。它可以被内置于独立工具(硬件盒或软件)、内置于其他第三方工具、内置于编码器或被构造为决定并且规范化音频的、基于服务器或基于云计算的处理装备的一部分。

增强的空间规范化响度度量可以用作综合授权消费者解决方案的一部分(编解码器套件或后期处理)。这些工具是对当今的传送和回放解决方案的广播和OTT准备的一部分。增强的空间规范化响度度量的客户侧实现包括在多屏幕应用(诸如PC、平板、移动智能手机、电视和机顶盒)中实现的解码器和播放器。此外，这些设备甚至不需要扩音器，因为头戴式耳机回放也是可应用的。

III.操作和系统细节

空间规范化OBA响度管理系统和方法描述OBA中的响度测量和管理。与每个音频对象相关联的元数据可以例如是3D空间中对象的定位、在渲染对象时将被应用到波形的波形幅度缩放因子、关于所涉及的对象的相关关系的数据或者诸如对象何时开始何时结束的、关于对象的时态信息。在下面的讨论中，该系统和方法将在三个阶段的情况下被讨论：a)内容创建(或编码)阶段、b)中间监视阶段和c)内容消费阶段。

元数据编码阶段

图6是示出内容创建/编码阶段的概览的框图600。在创建阶段期间，与每个音频对象(602)相关联的元数据(诸如每个音频对象的功率或响度)通过对比特流执行一些种类的“预渲染”而被测量(604)。短的、中间的或基于文件的测量可以在这一阶段进行。在一段时间T内，对于输入信号y_i的功率测量z_i被定义如下：

z_{i} = 1 / T {&Integral;}_{0}^{T} y_{i}^{2} d t, - - - (1)

其中i∈I，且I是音频对象信号组。功率测量信息可以作为元数据(606)与音频对象信号一起存储。功率测量信息可以可替代地存储为响度信息。附加的信息可以存储为对象特定元数据，包括增益/幅度、音频对象定位和收听者的定位/朝向。在下文中关于监视阶段地描述对于音频对象的功率/响度测量元数据信息的处理。

监视阶段

如果I是用于声道(不是音频对象)的功率测量的输入声道组，那么从测量的功率到响度值的映射可以以对数变换的方式进行：

响度,

其中G_i是第i个音频对象信号的权重系数。

对于中间响度测量，可以使用门限的、重叠种类(可以被设置为75％)的变换：

门限响度,

其中J_g是一组块指标，在该组块指标中门限块响度大于通常在-70dBFS处取得的门限阈值，且|J_g|是J_g中的元素的数目：

J_g＝{j:l_j＞Γ_a},Γ_a＝-70LKFS (4).

对于单一声道波形对象响度测量，在上文的等式中的求和坍缩成1(即N＝1)且缩放系数G₁可以被设置成1.0。在一些实施例中，对于表示其中每个声道被分配到空间中的固定定位(称为多声道“床”)的多声道音频信号的一组单声道对象，上文中等式中的缩放系数可以被映射到在BS.1770-x规范中找到的每声道权重，并且只为诸如“5.1”配置的标准多声道扩音器载荷配置而定义。功率/响度测量(612)可以对单声道对象(610)执行并存储为元数据(614)。这里应该注意，预滤波阶段可以在采取响度测量之前被应用。这可以包括导致头部的声学效果的滤波器和修订的低频B权重滤波器。一旦每对象功率/响度信息被测量，测量的值随后就被存储为可以稍后使用的元数据。此外，表示对象的相关性的元数据可以在这个阶段计算(608)，该元数据可以在后面有助于空间规范化响度度量的计算。对象的相关性表示当对一个声音的感知受到另一个声音的存在的影响时发生的听觉掩蔽(masking)。在频域，听觉掩蔽可以被称为同时掩蔽、频率掩蔽或频谱掩蔽。在时域，听觉掩蔽可以被称为时域掩蔽或非同时掩蔽。

在监视阶段期间，每对象功率/响度元数据信息被取回(见等式(1))并且被用于计算全局响度值。取回的单独功率/响度测量被组合/求和以便得出全局响度测量。此外，单独的测量可以在被组合/求和之前基于每对象的权重元数据信息被缩放。组合/求和的全局响度测量被定义为空间规范化响度度量(也被称为SNM)。应该理解，空间规范化响度度量可以以或者功率或者响度映射的格式被计算。

在上文中阐释的等式(2)和(3)描述了每声道或声道组的响度测量。现在等式(2)和(3)可以被一般化以生成每音频对象或每音频对象组的空间规范化响度度量测量。

特别地，在间隔T内的空间规范化响度度量(SNM)的确定可以被一般化为如下等式：

S N M = - 0.691 + 10 \log_{10} Σ_{i}^{N} F J J T (r_{i}, r_{L}, θ_{i}, φ_{i}, a_{i}, g_{i}, c_{i}) z_{i} - - - (5),

其中i∈I，I是音频对象信号组，且N是在音频对象信号组I中的音频对象信号的数目。

在间隔T内的门限空间规范化响度度量(门限SNM)可以被一般化为如下等式：

门限

对于门限SNM，间隔T被分成一组重叠门限块间隔。门限块是持续时间T_g的一组连续音频采样，该持续时间T_g可以具有400ms的持续时间。每个门限块的重叠可以是门限块持续时间T_g的75％。由于具有75％重叠和400ms的窗口持续时间，门限SNM基于在门限SNM的前面的计算中使用的音频对象信号的300ms被确定。因此，在75％重叠和400ms的窗口持续时间的情况下，门限SNM每100ms被确定。

可以看出，一般化的等式(5)和(6)是通过引入函数FJJT从等式(2)和(3)得出的，FJJT定义如下：

F J J T (r_{i}, r_{L}, θ_{i}, φ_{i}, a_{i}, g_{i}, c_{i}) = c_{i} a_{i} g_{i} (\frac{1}{| {\overset{&RightArrow;}{r}}_{i} - {\overset{&RightArrow;}{r}}_{L} |^{2}}) O (θ_{i}, φ_{i}) - - - (7)

其中c_i是第i个对象的相关因子且是由其他N-1个对象中的一个或多个对第i个对象的音频掩蔽的相关性测量,a_i是在元数据流中携带的第i个对象的幅度缩放因子(为了得到音频对象信号的意图的幅度的缩放因子),是可选的并且遵从第i个对象和收听者的平方反比相对距离法则，且g_i是可选的频率相关的权重因子，该频率相关的权重因子导致人类听觉响度灵敏度根据相对于头部及相对于假设的视线方向(通常与“前部中心”声道的位置一致)的角度定位的变化而变化。这个权重因子可以被认为是在BS.1770-x中描述的预滤波阶段的一般化形式，该预滤波阶段被设计成导致头部的声学效果。相关因子c_i可以与音频掩蔽负相关。例如，当没有音频掩蔽时，相关因子c_i可以是1，而当有100％音频掩蔽时，相关因子c_i可以是0。

O(θ_i,φ_i)是依赖于上文中描述的权重因子g_i的附加的相关因子。O(θ_i,φ_i)分别利用叉积右和上矢量和该叉积右和上矢量描述如图7中所示的收听者头部相对于第i个对象的几何形状。如图7所示，右矢量的方向是沿着收听者的右耳从他的头部指出的方向。上矢量的方向在收听者的头部上方。

当有由角变换和φ_orientation＝φ-φ′描述的、收听者到对象方位角(θ)/仰角(φ)的相对改变时，那么O(θ_i,φ_i)计算第i个对象的响度的校正缩放因子，其中角变换和φ_orientation＝φ-φ′相对于右矢量和上矢量而描述。

此外，连续函数O(θ_i,φ_i)的离散输出的表格可以对于方位角和仰角的各个对而生成，且在需要计算朝向权重因子时可以查找那个表格。应该注意，对于缺省前部中心位置(对应于通常的前部中心扬声器定位)，O(θ_i,φ_i)＝1。相对距离和朝向因子两者均可以在这个阶段被设置成1并可以在下面描述的消费者设备阶段可选地重新计算。

注意，第i个对象的定位是音频对象信号(例如效果、对话、仪器、音乐、背景等)相对于收听者头部的意图定位，并独立于回放扬声器配置。收听者头部可以被称为接收点，在该接收点处，所有对象在被渲染时意图被接收。例如，音频对象信号i的特别的效果可以意图定位在相对于意图接收点的方位角θ_i和仰角φ_i处。对于另一个示例，在相对于接收点的方位角θ_i和仰角φ_i处，音频对象信号i的这种特别的效果可以具有距离接收点的意图距离

应该注意，这是“响度监视”操作。换言之，在这个阶段不必有任何OBA渲染发生。空间规范化OBA响度管理系统和方法使得能够测量OBA内容的响度而不需求任何音频波形解码和功率或响度计算，这是空间规范化OBA响度管理系统和方法的实质的优点。相反，由于在上文中描述的计算方法和OBA内容格式中设置了每对象响度元数据，所以空间规范化响度度量计算被显著地促进并简化。

消费者设备(消费)阶段

在这个最终阶段，全局求和的响度或空间规范化响度度量可以被重新计算(如果需要)以便导致对象创建、对象删除、对象修改(例如衰减)或收听者定位或头部朝向改变中的任何一个。这个更新可以包括但不限于在监视阶段给出的每个对应描述的相对距离和朝向更新。

全局求和的响度元数据

在一些实施例中，全局求和的响度元数据值在音频流(例如MDA或DTS:X)的制作期间计算。通过使用参考渲染器(例如VBAP)将流渲染成目标配置(诸如但不限于ITU 5.1)来做到这一点。一旦该流被渲染，与R128/CALM兼容的、现存的响度监视/测量工具可以被使用来测量渲染的流的响度属性。这些属性可以包括但不限于瞬间响度、短期响度、真峰值和响度范围，并可以使用或不使用诸如对话的锚元素(anchor elements)而被测量。

这些测量可以每响度模型规范(诸如BS.1770-x)地被加权，但是不限于遵循这些权重。此外，可以采取相关性测量以便识别渲染的信号的相关关系，并且可以基于相关关系模型而不是BS.1770-x的功率和，应用相关性测量来计算整体响度。一旦响度被计算，那么计算的响度与国际监管标准(诸如CALM法案中的-24LKFS或EBU R-128中的-23LUFS)比较。基于这种比较计算偏移，且该偏移是全局求和的响度，该全局求和的响度随后作为元数据值被保存到被制作的流。

这里应该注意，当应用增强的空间规范化响度度量时，全局求和的响度可能被覆盖。这是由于在这种情况下利用的附加动态信息。

IV.可替代实施例和示例性操作环境

根据本文档，除了在本文中描述的那些之外的许多其他变化也将是清楚的。例如，依赖于实施例，在本文中描述的方法和算法中的任何一个的某些动作、事件或功能可以以不同的序列执行，可以被添加、合并或完全略去(使得并非描述的动作或事件中的全部对于方法和算法的实践是必须的)。此外，在某些实施例中，动作或事件可以同期执行，诸如通过多线程处理、中断处理或多处理器或处理器核或在其他平行架构上，而不是按顺序地执行。此外，不同的任务或处理可以由能够一起运作的不同的机器和计算系统来执行。

图8是示出空间规范化OBA响度管理系统和方法的实施例的全部三个阶段的一般操作的流程图800。在元数据生成阶段802，对于节目比特流内的音频对象生成元数据。正如在上文中讨论的，这种元数据可以包括在等式1和5-7中使用的信息。在块804中，功率/响度测量被执行。功率/响度测量可以根据等式1来执行。功率/响度测量本身可以被存储在用于音频对象的元数据中。随后，在块806，可以确定空间规范化响度度量。空间规范化响度度量可以基于关于收听者相对于音频对象的位置/定位的假设和元数据而确定。例如，收听者可以被假设为相对于音频对象位于3D空间中的位置0,0,0处，音频对象定位于在收听者周围具体的半径/距离处。随后，在808，音频对象被发送(例如被流传输、由文件传送发出、被广播)到消费者设备810。在消费者设备处，在812，空间规范化响度度量可以基于包括在混合中的音频对象被重新确定。例如，收听者可以从混合中更新814(例如添加、删除)音频对象或改变混合中的音频对象。在812，增强的空间规范化响度度量可以基于附加信息(诸如更新的收听者位置816)来确定。例如，当收听到音频对象时，收听者可以改变他的/她的定位，使得收听者不再位于3D空间中的位置0,0,0处，或收听者可以通过躺下而不是坐起而改变他的/她的头部朝向。增强的空间规范化度量可以基于收听者相对于音频对象的意图的定位的更新的仰角、方位角和定位信息来确定。

图9是处理基于对象的音频信号以便通过回放系统再现的方法的流程图900。该方法可以由处理器(诸如中央处理单元(CPU))执行。该处理器可以在回放系统内部，或可以在处理基于对象的音频信号以便后面通过回放系统再现的系统内部。在图9中，处理器被称为装置。在902，该装置接收多个基于对象的音频信号。该基于对象的音频信号中的每个基于对象的音频信号包括音频波形数据和与该音频波形数据相关联的对象元数据。对象元数据包括与音频波形数据相关联的响度参数或功率参数中的至少一个。例如，如上文中讨论的，对象元数据可以包括功率参数z_i。可替代地，对象元数据可以包括响度参数(在LKFS或LUFS中)，该响度参数是功率参数z_i的函数。在904，该装置基于接收的基于对象的音频信号，并基于接收的基于对象的音频信号中的每个基于对象的音频信号的响度参数或功率参数中的至少一个来确定响度度量。例如，该装置可以基于等式5、6和7来确定空间规范化响度度量。在910，该装置基于确定的响度度量将接收的基于对象的音频信号渲染成一组输出信号。

在一个配置中，在910，当渲染接收的基于对象的音频信号时，该装置可以基于确定的响度度量来调节接收的基于对象的音频信号中至少一个的幅度a_i。例如，在906，该装置可以基于响度度量和目标响度度量之间的比较来确定响度度量偏移。如上文中讨论的，目标响度度量可以是在国际监管标准(例如在CALM法案中的-24LKFS或EBU R-128中的-23LUFS)中指定的目标响度水平。接收的基于对象的音频信号中的至少一个的幅度a_i可以基于响度度量和目标响度度量之间的比较来调节。特别是，在908，该装置可以确定响度度量是否大于目标响度度量。在908中，当响度度量被确定为大于目标响度度量时，在910，该装置可以调节/缩放接收的基于对象的音频信号中的至少一个的幅度a_i，使得响度被减小到接近目标响度度量。

在一个配置中，对于接收的基于对象的音频信号中的每个基于对象的音频信号，响度度量还基于该基于对象的音频信号相对于接收点的位置数据而被确定。接收点可以是假设的接收点，诸如3D空间中的0,0,0，或在3D空间内的收听者的实际定位。基于对象的音频信号的位置数据是基于对象的音频信号相对于0,0,0接收点的意图的定位。例如，第一基于对象的音频信号可以意图定位到收听者的右边，在相对于接收点的第一仰角和第一方位角处，第二基于对象的音频信号可以意图定位到收听者左边，在相对于接收点的第二仰角和第二方位角处。

在一个配置中，位置数据包括接收点和基于对象的音频信号的定位之间的方位角，或接收点和基于对象的音频信号的定位之间的仰角中的至少一个。位置数据还可以包括接收点和基于对象的音频信号的定位之间的距离。在一个配置中，所有基于对象的音频信号可以被假设为距离接收点0,0,0具有固定的距离/半径。

在一个配置中，对于接收的基于对象的音频信号中的每个基于对象的音频信号，响度度量还基于以下各项中的至少一项被确定：该基于对象的音频信号相对于接收的基于对象的音频信号中的一个或多个其他基于对象的音频信号的相关因子c_i，该基于对象的音频信号的幅度缩放因子a_i，或导致听觉响度灵敏度根据基于对象的音频信号相对于接收点的角度定位的变化而变化的、基于对象的音频信号的频率相关的权重因子g_i。

在一个配置中，响度度量基于被确定，其中i∈I，I是基于对象的音频信号组，N是接受的基于对象的音频信号中的基于对象的音频信号的数目，z_i是第i个基于对象的音频信号的响度参数或功率参数中的所述至少一个，r_i是与第i个基于对象的音频信号相关联的定位，r_L是与接收点相关联的定位，θ_i是接收点和第i个基于对象的音频信号的定位之间的方位角，φ_i是接收点和第i个基于对象的音频信号的定位之间的仰角，a_i是第i个基于对象的音频信号的幅度缩放因子，g_i是导致听觉响度灵敏度根据第i个基于对象的音频信号相对于接收点的角度定位的变化而变化的、第i个基于对象的音频信号的频率相关的权重因子，c_i是第i个基于对象的音频信号相对于接收的基于对象的音频信号中的一个或多个其他基于对象的音频信号的相关因子。

在一个配置中，接收的基于对象的音频信号是用户指定的。即，用户可以添加、删除或以其他方式改变基于对象的音频信号。因此，在912，该装置可以接收指示一组新的基于对象的音频信号的信息。指示该组基于对象的音频信号的信息基于用户输入被接收。随后，该装置可以基于该组基于对象的音频信号及基于该组基于对象的音频信号中的每个基于对象的音频信号的响度参数或功率参数中的至少一个，来重新确定(904)响度度量。

正如上文中讨论的，每个基于对象的音频信号的对象元数据包括基于对象的音频信号相对于接收点的位置数据或基于对象的音频信号的幅度缩放因子中的至少一个。基于对象的音频信号相对于接收点的位置数据可以包括接收点和基于对象的音频信号的定位之间的距离，接收点和基于对象的音频信号的定位之间的方位角、或接收点和基于对象的音频信号的定位之间的仰角中的至少一个。

在一个配置中，响度度量是在Tms内的平均响度，且响度度量每T ms被确定。在一个配置中，响度度量是在T ms内的平均响度，且响度度量每D ms被确定，其中D<T。例如，响度度量可以是在400ms内的平均响度，且响度度量可以每100ms被确定。在一个配置中，响度度量在多个窗口时期内被确定，该多个窗口时期中的每个与前一窗口重叠。例如，窗口时期中的每个可以具有400ms的持续时间并与其他窗口时期重叠300ms。

在一个配置中，接收的基于对象的音频信号包括N个基于对象的音频信号，接收的基于对象的音频信号通过具有n个声道的扬声器来渲染，且N与n不相关。特别是，基于对象的音频信号的数目N与声道的数目n完全不相关。

再次参考910，在一个配置中，在接收的基于对象的音频信号中的一个或多个中，如果需要，那么在调节/修改幅度之后，该装置可以在生成输出信号组时将基于对象的音频信号映射到特别的扬声器(或声道)。每个基于对象的音频信号可以基于基于对象的音频信号的定位并基于最接近该基于对象的音频信号的扬声器定位而被映射到最接近的扬声器组(例如成三角形图案的三个扬声器)。在另一个配置中，输出信号组被提供给执行到特别的扬声器(声道)的映射的另一个装置。

图10是处理基于对象的音频信号以用于广播、文件传送或流传输中的至少一个的方法的流程图1000。该方法可以由处理器(诸如CPU)来执行。在图10中处理器被称为装置。在1002，该装置接收多个基于对象的音频信号。该基于对象的音频信号中的每个基于对象的音频信号包括音频波形数据和与该音频波形数据相关联的对象元数据。对象元数据包括与音频波形数据相关联的响度参数或功率参数中的至少一个。在1004，该装置基于接收的基于对象的音频信号，并基于该接收的基于对象的音频信号中的每个基于对象的音频信号的响度参数或功率参数中的至少一个，来确定响度度量。在1012，该装置基于确定的响度度量来发送该接收的基于对象的音频信号。

在一个配置中，在1006，该装置可以基于响度度量和目标响度度量之间的比较来确定响度度量偏移。在1008，该装置可以确定响度度量是否大于目标响度度量。如果响度度量被确定为大于目标响度度量，那么在1010，该装置可以基于确定的响度度量来调节接收的基于对象的音频信号中的至少一个的幅度。随后，在1012，该装置可以随后将接收的基于对象的音频信号发送，其中该接收的基于对象的音频信号中的至少一个的幅度被调节。可替代地，在1010，该装置可以基于确定的响度度量来修改节目比特流的节目特定元数据中的接收的基于对象的音频信号中的至少一个的幅度。随后，在1012，该装置可以发送该接收的基于对象的音频信号，其中在节目特定元数据中的幅度被修改。

图11是示出示例性装置1102中的不同模块/装备/部件之间的数据流的概念数据流图1100。该装置用于处理基于对象的音频信号以便通过回放系统再现或通过广播、文件传送或流传输来发送。装置1102包括被配置成接收多个基于对象的音频信号的接收模块1104。该基于对象的音频信号中的每个基于对象的音频信号包括音频波形数据和与该音频波形数据相关联的对象元数据。对象元数据包括与音频波形数据相关联的响度参数或功率参数中的至少一个。该装置1102还包括响度度量确定模块1106，该响度度量确定模块1106被配置成基于接收的基于对象的音频信号并基于该接收的基于对象的音频信号中的每个基于对象的音频信号的响度参数或功率参数中的至少一个，来确定响度度量。该装置1102还包括渲染/发送模块1108，该渲染/发送模块1108可以被配置成基于确定的响度度量将接收的基于对象的音频信号渲染成一组输出信号。可替代地，渲染/发送模块1108被配置成基于确定的响度度量发送该接收的基于对象的音频信号。

在一个配置中，渲染/发送模块1108被配置成基于确定的响度度量来调节接收的基于对象的音频信号中的至少一个的幅度。在一个配置中，响度度量确定模块1106可以被配置成基于响度度量和目标响度度量之间的比较来确定响度度量偏移。渲染/发送模块1108可以被配置成基于响度度量和目标响度度量之间的比较，来确定接收的基于对象的音频信号中的至少一个的幅度。在一个配置中，响度度量确定模块1106可以被配置成确定响度度量是否大于目标响度度量。渲染/发送模块1108可以被配置成在响度度量被确定为大于目标响度度量时调节接收的基于对象的音频信号中的至少一个的幅度。

在一个配置中，渲染/发送模块1108可以在发送该接收的基于对象的音频信号之前基于确定的响度度量调节接收的基于对象的音频信号中至少一个的幅度。在一个配置中，基于对象的音频信号与节目比特流相关联，而渲染/发送模块1108被配置成在发送该接收的基于对象的音频信号之前，基于确定的响度度量修改节目比特流的节目特定元数据中的接收的基于对象的音频信号中的至少一个的幅度。

在一个配置中，对于该接收的基于对象的音频信号中的每个基于对象的音频信号，响度度量确定模块1106可以被配置成还基于该基于对象的音频信号相对于接收点的位置数据来确定响度度量。该位置数据可以包括接收点和基于对象的音频信号的定位之间的方位角或接收点和基于对象的音频信号的定位之间的仰角中的至少一个。该位置数据还可以包括接收点和基于对象的音频信号的定位之间的距离。对于该接收的基于对象的音频信号中的每个基于对象的音频信号，响度度量确定模块1106还可以基于该基于对象的音频信号相对于接收的基于对象的音频信号中的一个或多个其他基于对象的音频信号的相关因子、基于对象的音频信号的幅度缩放因子、或导致听觉响度灵敏度根据基于对象的音频信号相对于接收点的角度定位的变化而变化的、基于对象的音频信号的频率相关的权重因子中的至少一个，来确定响度度量。

在一个配置中，响度度量确定模块1106可以基于来确定响度度量，其中i∈I，I是基于对象的音频信号组，N是在接收的基于对象的音频信号中基于对象的音频信号的数目，z_i是第i个基于对象的音频信号的响度参数或功率参数中的所述至少一个，r_i是与第i个基于对象的音频信号相关联的定位，r_L是与接收点相关联的定位，θ_i是接收点和第i个基于对象的音频信号的定位之间的方位角，φ_i是接收点和第i个基于对象的音频信号的定位之间的仰角，a_i是第i个基于对象的音频信号的幅度缩放因子，g_i是导致听觉响度灵敏度根据第i个基于对象的音频信号相对于接收点的角度定位的变化而变化的、第i个基于对象的音频信号的频率相关的权重因子，而c_i是第i个基于对象的音频信号相对于接收的基于对象的音频信号中的一个或多个其他基于对象的音频信号的相关因子。

在一个配置中，接收模块1104可以接收指示接收的基于对象的音频信号的用户特定的输入。在一个配置中，接收模块1104可以接收指示一组新的基于对象的音频信号的信息。指示该组基于对象的音频信号的信息可以基于用户输入被接收。在这样的配置中，响度度量确定模块1106可以基于该组基于对象的音频信号并基于该组基于对象的音频信号中每个基于对象的音频信号的响度参数或功率参数中的至少一个，来重新确定响度度量。

在一个配置中，每个基于对象的音频信号的对象元数据包括基于对象的音频信号相对于接收点的位置数据或基于对象的音频信号的幅度缩放因子中的至少一个。在一个配置中，基于对象的音频信号相对于接收点的位置数据包括接收点和基于对象的音频信号的定位之间的距离、接收点和基于对象的音频信号的定位之间的方位角或接收点和基于对象的音频信号的定位之间的仰角中的至少一个。

在一个配置中，响度度量是在T ms内的平均响度，且响度度量每T ms被确定。在一个配置中，响度度量是在T ms内的平均响度，且响度度量每D ms被确定，其中D<T。在一个配置中，响度度量在多个窗口时期内被确定，该多个窗口时期中的每个与前一窗口重叠。在一个配置中，窗口时期中的每个具有400ms的持续时间并与其他窗口时期重叠300ms。在一个配置中，接收的基于对象的音频信号包括N个基于对象的音频信号，接收的基于对象的音频信号通过具有n个声道的扬声器被渲染，且N与n不相关。

该装置可以包括附加模块，该附加模块执行图9、10的前述流程图中的算法的块中的每个。因此，图9、10的前述流程图中的每个块可以由模块执行，且该装置可以包括这些模块中的一个或多个。该模块可以是被配置成实施所陈述的处理/算法的一个或多个硬件部件，由被配置成执行所陈述的处理/算法的处理器实现，被存储在计算机可读介质内以便由处理器实现，或上述的一些组合。

在一个配置中，用于处理基于对象的音频信号以便通过回放系统再现的装置包括用于接收多个基于对象的音频信号的装备。该基于对象的音频信号中的每个基于对象的音频信号包括音频波形数据和与该音频波形数据相关联的对象元数据。对象元数据包括与该音频波形数据相关联的响度参数或功率参数中的至少一个。该装置还包括如下的装备，该装备用于基于接收的基于对象的音频信号并基于该接收的基于对象的音频信号中的每个基于对象的音频信号的响度参数或功率参数中的至少一个来确定响度度量。该装备还包括用于基于确定的响度度量将接收的基于对象的音频信号渲染成一组输出信号的装备。

在一个配置中，用于渲染接收的基于对象的音频信号的装备被配置成基于确定的响度度量来调节接收的基于对象的音频信号中的至少一个的幅度。在一个配置中，该装置包括用于基于响度度量和目标响度度量之间的比较来确定响度度量偏移的装备。在这样的配置中，接收的基于对象的音频信号中的至少一个的幅度基于响度度量和目标响度度量之间的比较被调节。在一个配置中，该装置包括用于确定响度度量是否大于目标响度度量的装备。在这样的配置中，在响度度量被确定为大于目标响度度量时，接收的基于对象的音频信号中至少一个的幅度被调节。

在一个配置中，用于处理基于对象的音频信号以便进行广播、文件传送或流传输中至少一个的装置包括用于接收多个基于对象的音频信号的装备。该基于对象的音频信号中的每个基于对象的音频信号包括音频波形数据和与该音频波形数据相关联的对象元数据。对象元数据包括与该音频波形数据相关联的响度参数或功率参数中的至少一个。该装置还包括如下装备，该装备用于基于接收的基于对象的音频信号并基于该基于对象的音频信号中的每个基于对象的音频信号的响度参数或功率参数中的至少一个来确定响度度量。该装置还包括用于基于确定的响度度量发送该接收的基于对象的音频信号的装备。

结合本文中公开的实施例来描述的各种示例性逻辑块、模块、方法和算法过程和序列可以作为电子硬件、计算机软件或两者的组合被实现。为了清楚地示出硬件和软件的可互换性，在上文中就其功能特性而言大体上描述了各种示例性部件、块、模块和处理动作。这些功能特性是作为硬件还是软件来实现取决于被施加到整个系统的、特别的应用和设计约束。描述的功能特性可以对于每个特定的应用而用各种方式来实现，但是这种实现决定不应该被解释为使得违背本文档的范围。

结合本文中公开的实施例来描述的各种示例性逻辑块和模块可以由机器(诸如被设计成执行本文中描述的功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、场可编程门阵列(FPGA)或其他可编程逻辑器件、离散门或晶体管逻辑、离散硬件部件或其中的任意组合)来实现或执行。通用处理器可以是微处理器，但是可替代地，处理器可以是控制器、微控制器或状态机、它们的组合等。处理器还可以被实现为计算设备的组合，例如DSP和微处理器的组合、多个微处理器、一个或多个微处理器与DSP核结合或任何其他这样的配置。

在本文中描述的空间规范化OBA响度管理系统和方法的实施例在多个种类的通用或专用计算系统环境或配置内是可操作的。通常，计算环境可以包括任何种类的计算系统，包括但不限于基于一个或多个微处理器的计算机系统、大型计算机、数字信号处理器、便携式计算设备、个人记事本、设备控制器、器械内的计算引擎、移动电话、台式计算机、移动计算机、平板计算机、智能手机和带有嵌入式计算机的器械等等。

这样的计算设备通常可以在至少具有最小计算能力的设备中找到，包括但不限于个人计算机、服务器计算机、手持计算设备、膝上型或移动计算机、诸如手机和PDA的通信设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子设备、网络PC、微型计算机、大型计算机、音频或视频媒体播放器等等。在一些实施例中，计算设备将包括一个或多个处理器。每个处理器可以是专用微处理器，例如DSP，超长指令字(VLIW)或其他微控制器，或可以是具有一个或多个处理核(包括在多核CPU中的基于专用图形处理单元(GPU)的核)的传统CPU。

结合在本文中公开的实施例而描述的方法、过程或算法的处理动作可以在硬件中、在由处理器运行的软件模块中或在这两者的任何组合中直接体现。软件模块可以被包含在计算机可读介质中，该计算机可读介质可以由计算设备访问。计算机可读介质包括易失性和非易失性介质两者，该易失性和非易失性介质或者是可移动的、不可移动的，或者是其中的一些组合。计算机可读介质被用于存储诸如计算机可读或计算机可运行指令、数据结构、程序模块或其他数据的信息。以示例的形式而不是限制的形式，计算机可读介质可以包括计算机存储介质和通信介质。

计算机存储介质包括但不限于这样的计算机或机器可读介质或存储设备：诸如光学存储设备、蓝光光盘(BD)、数字多功能盘(DVD)、光碟(CD)、软盘、磁带驱动器、硬驱动器、光学驱动器、固态存储设备、随机存取存储器(RAM)存储器、ROM存储器、EPROM存储器、EEPROM存储器、闪存存储器或其他存储器技术、磁盒、磁带、磁盘存储器或其他磁性存储设备、或可以用于存储期望的信息并可以由一个或多个计算设备访问的任何其他设备。

软件模块可以位于RAM存储器、闪存存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM或任何其他形式的非瞬时性计算机可读存储介质、介质、或本领域中已知的物理计算机存储器中。示例性存储介质可以与处理器耦合，使得处理器可以从存储介质读取信息并向存储介质写入信息。可替代地，存储介质可以集成到处理器。处理器和存储介质可以位于ASIC中。ASIC可以位于用户终端中。可替代地，处理器和存储介质可以作为离散部件位于用户终端中。

在本文档中使用的短语“非瞬时性”意味着“持久的或寿命长的”。短语“非瞬时性计算机可读介质”包括任何和所有计算机可读介质，唯一的例外是瞬时性传播信号。以示例的方式而不是限制的方式，这包括诸如寄存器存储器、处理器缓存和RAM的非瞬时性计算机可读介质。

对诸如计算机可读或计算机可运行指令、数据结构、程序模块等等的信息的保存也可以通过使用各种通信介质编码一个或多个调制的数据信号、电磁波(例如载波)或其他传输机制或通信协议来实现，并且对诸如计算机可读或计算机可运行指令、数据结构、程序模块等等的信息的保存包括任何有线或无线信息传送机制。通常，这些通信介质指的是具有它的特征集合中的一个或多个的信号或以这样的方式改变的信号：在这种方式中编码信号中的信息或指令。例如，通信介质包括有线介质和无线介质，有线介质例如携带一个或多个调制的数据信号的有线网络或直接有线连接，无线介质例如声学、射频(RF)、红外、激光和用于发送、接收或两者的其他无线介质、一个或多个调制的数据信号或电磁波。上面的任何组合也应该被包括在通信介质的范围内。

此外，体现在本文中描述的空间规范化OBA响度管理系统和方法的各种实施例中的一些或全部的软件、程序、计算机程序产品中的一个或其任意组合、或其中的部分可以被存储、接收、发送或从计算机或机器可读介质或存储设备和通信介质中的任何期望的组合中以计算机可运行指令或其他数据结构的形式来读取。

在本文中描述的空间规范化OBA响度管理系统和方法的实施例可以在由计算设备运行的计算机可运行指令(例如程序模块)的一般背景中被进一步描述。通常，程序模块包括常规、程序、对象、部件、数据结构等等，程序模块执行特别的任务或实现特别的抽象数据类型。本文中描述的实施例也可以在分布式计算环境中被实践，在该分布式计算环境中任务由一个或多个远程处理设备执行，或在一个或多个设备的云内执行，该一个或多个设备通过一个或多个通信网络来链接。在分布式计算环境中，程序模块可以定位于包括介质存储设备的本地和远程计算机存储介质两者中。此外，前述的指令可以部分或整体地被实现为硬件逻辑电路，该硬件逻辑电路可以包括或可以不包括处理器。

除非以其他方式特意陈述，或在使用的上下文中以其他方式被理解，否则在本文中使用的条件性语言(例如“能够”、“可能”、“可以”、“例如”等等)通常意图表示某些实施例包括，而其他实施例不包括某些特征、元件和/或状态。因而，这样的条件性语言通常不意图暗示那个特征、元件和/或状态以任何方式对于一个或多个实施例是必需的，或不意图暗示一个或多个实施例必须包括在有或没有用户输入或提示的情况下判定这些特征、元件和/或状态是否包含在任何特别的实施例内或者要由任何特别的实施例来执行的逻辑。术语“包括”、“包含”、“具有”等是同义词并且以开放的方式被包容性地使用，且不排除附加的元件、特征、动作、操作等等。此外，术语“或”在包容的意义上被使用(而不是在排他的意义上)使得例如当用于连接元件的列表时，术语“或”意味着列表中的元件的一个、一些或全部。

虽然上面的具体实施方式示出、描述并指出了应用到各种实施例的新颖特征，但是也应该理解，在示出的设备或算法的形式和细节中可以进行各种省略、替代和改变而不违背本公开的精神。正如将被意识到的，本文中描述的空间规范化OBA响度管理系统和方法的某些实施例可以用不提供本文中阐释的特征和益处的全部的形式来体现，因为一些特征可以与其他特征分开使用或实践。

此外，虽然以特定于结构特征和/或方法动作的语言描述了本主题，但应该理解，所附权利要求中限定的主题不必限于上文中描述的特定特征或动作。相反，上文中描述的特定特征和动作作为实现权利要求的示例的形式被公开。

提供前面的描述以便使得本领域的任何技术人员能够实践本文中描述的各种方面。对这些方面的各种修改对于本领域的技术人员而言将是清楚的，并且本文中定义的通用原理可以被应用到其他方面。因而，权利要求不是意图限制到本文中示出的方面，而是在全部范围内与权利要求的语言相一致，其中除非特意陈述，否则以单数形式引用元件不是为了指示“一个且仅有一个”，而是指示“一个或多个”。单词“示例性”在本文中用于指示“用作示例、例子或例证”。本文中描述为“示例性”的任何方面不必理解为相对其他方面是优选的或有优势的。除非以其他方式特意陈述，术语“一些”指一个或多个。诸如“A、B或C中至少一个”、“A、B和C中至少一个”和“A、B、C或其中的任意组合”的组合包括A、B和/或C的任意组合，并可以包括多个A、多个B或多个C。特别是，诸如“A、B或C中至少一个”、“A、B和C中至少一个”和“A、B、C或其中的任意组合”的组合可以是只有A、只有B、只有C、A和B、A和C、B和C、或A和B和C，其中任何这样的组合可以包含A、B或C中一个或多个成员。在整个本公开中描述的、本领域的技术人员已知的或在后面将要知道的、各种方面的元件的全部结构性和功能性等同物通过引用被明确地结合在本文中，并且意图被包含在权利要求中。此外，不管本公开是否在权利要求中被显式地引述，本文中公开的内容不意图奉献给公众。权利要求元素将不被解释为装备加上功能，除非该元素使用短语“用于…的装备”被明确引述。

Claims

1.一种处理基于对象的音频信号以便通过回放系统再现的方法，包括：

接收多个基于对象的音频信号，所述基于对象的音频信号中的每个基于对象的音频信号包括音频波形数据和与所述音频波形数据相关联的对象元数据，所述对象元数据包括与所述音频波形数据相关联的响度参数或功率参数中的至少一个；

基于所接收的基于对象的音频信号，并基于所接收的基于对象的音频信号中每个基于对象的音频信号的响度参数或功率参数中的所述至少一个来确定响度度量；及

基于确定的响度度量将所接收的基于对象的音频信号渲染成一组输出信号。

2.如权利要求1所述的方法，其中所接收的基于对象的音频信号的渲染包括基于确定的响度度量来调节所接收的基于对象的音频信号中至少一个的幅度。

3.如权利要求2所述的方法，还包括基于响度度量和目标响度度量之间的比较来确定响度度量偏移，其中所接收的基于对象的音频信号中的所述至少一个的幅度基于响度度量和所述目标响度度量之间的比较被调节。

4.如权利要求3所述的方法，还包括确定响度度量是否大于目标响度度量，其中当响度度量被确定为大于目标响度度量时，所接收的基于对象的音频信号中的所述至少一个的幅度被调节。

5.如权利要求1所述的方法，其中对于所接收的基于对象的音频信号中的每个基于对象的音频信号，响度度量还基于所述基于对象的音频信号相对于接收点的位置数据被确定。

6.如权利要求5所述的方法，其中位置数据包括如下中的至少一个：接收点和所述基于对象的音频信号的定位之间的方位角、或接收点和所述基于对象的音频信号的定位之间的仰角。

7.如权利要求6所述的方法，其中位置数据还包括接收点和基于对象的音频信号的定位之间的距离。

8.如权利要求1所述的方法，其中对于所接收的基于对象的音频信号中的每个基于对象的音频信号，响度度量还基于以下中的至少一个被确定：所述基于对象的音频信号相对于所接收的基于对象的音频信号中的一个或多个其他基于对象的音频信号的相关因子、所述基于对象的音频信号的幅度缩放因子、或导致听觉响度灵敏度根据基于对象的音频信号相对于接收点的角度定位的变化而变化的、所述基于对象的音频信号的频率相关的权重因子。

9.如权利要求1所述的方法，其中响度度量基于被确定，其中i∈I，I是基于对象的音频信号组，N是所接收的基于对象的音频信号中的基于对象的音频信号的数目，z_i是第i个基于对象的音频信号的响度参数或功率参数中的所述至少一个，r_i是与第i个基于对象的音频信号相关联的定位，r_L是与接收点相关联的定位，θ_i是接收点和第i个基于对象的音频信号的定位之间的方位角，φ_i是接收点和第i个基于对象的音频信号的定位之间的仰角，a_i是第i个基于对象的音频信号的幅度缩放因子，g_i是导致听觉响度灵敏度根据第i个基于对象的音频信号相对于接收点的角度定位的变化而变化的、第i个基于对象的音频信号的频率相关的权重因子，c_i是第i个基于对象的音频信号相对于所接收的基于对象的音频信号中的一个或多个其他基于对象的音频信号的相关因子。

10.如权利要求1所述的方法，其中所接收的基于对象的音频信号是用户指定的。

11.如权利要求10所述的方法，还包括接收指示一组新的基于对象的音频信号的信息，所述信息指示该组基于对象的音频信号基于用户输入被接收，该方法还包括基于该组基于对象的音频信号并基于该组基于对象的音频信号中的每个基于对象的音频信号的响度参数或功率参数中的所述至少一个，来重新确定响度度量。

12.如权利要求1所述的方法，其中每个基于对象的音频信号的对象元数据包括以下中的至少一个：基于对象的音频信号相对于接收点的位置数据，或基于对象的音频信号的幅度缩放因子。

13.如权利要求12所述的方法，其中基于对象的音频信号相对于接收点的位置数据包括如下中的至少一个：接收点和所述基于对象的音频信号的定位之间的距离、接收点和所述基于对象的音频信号的定位之间的方位角、或接收点和所述基于对象的音频信号的定位之间的仰角。

14.如权利要求1所述的方法，其中响度度量是T ms内的平均响度，且响度度量每T ms被确定。

15.如权利要求1所述的方法，其中响度度量是T ms内的平均响度，且响度度量每D ms被确定，其中D<T。

16.如权利要求15所述的方法，其中响度度量在多个窗口时期内被确定，每个窗口时期与前一窗口重叠。

17.如权利要求16所述的方法，其中每个窗口时期均具有400ms的持续时间并与其他窗口时期重叠300ms。

18.如权利要求1所述的方法，其中所接收的基于对象的音频信号包括N个基于对象的音频信号，所接收的基于对象的音频信号通过包括n个声道的扬声器被渲染，且N与n不相关。

19.一种处理基于对象的音频信号以用于广播、文件传送或流传输中的至少一个的方法，包括：

基于所接收的基于对象的音频信号并基于所接收的基于对象的音频信号中的每个基于对象的音频信号的响度参数或功率参数中的所述至少一个来确定响度度量；及

基于确定的响度度量来发送所接收的基于对象的音频信号。

20.如权利要求19所述的方法，还包括在发送所接收的基于对象的音频信号之前，基于确定的响度度量来调节所接收的基于对象的音频信号中的至少一个的幅度。

21.如权利要求19所述的方法，其中基于对象的音频信号与节目比特流相关联，且所述方法还包括在发送所接收的基于对象的音频信号之前，基于确定的响度度量来修改节目比特流的节目特定元数据中的所接收的基于对象的音频信号中的至少一个的幅度。

22.一种用于处理基于对象的音频信号以便通过回放系统再现的装置，包括：

用于接收多个基于对象的音频信号的装备，所述基于对象的音频信号中的每个基于对象的音频信号包括音频波形数据和与所述音频波形数据相关联的对象元数据，所述对象元数据包括与所述音频波形数据相关联的响度参数或功率参数中的至少一个；

用于基于所接收的基于对象的音频信号并基于所接收的基于对象的音频信号中的每个基于对象的音频信号的响度参数或功率参数中的所述至少一个来确定响度度量的装备；及

用于基于确定的响度度量将所接收的基于对象的音频信号渲染成一组输出信号的装备。

23.如权利要求22所述的装置，其中用于渲染所接收的基于对象的音频信号的装备被配置成基于确定的响度度量来调节所接收的基于对象的音频信号中的至少一个的幅度。

24.如权利要求23所述的装置，还包括用于基于响度度量和目标响度度量之间的比较来确定响度度量偏移的装备，其中所接收的基于对象的音频信号中的所述至少一个的幅度基于响度度量和目标响度度量之间的比较被调节。

25.如权利要求24所述的装置，还包括用于确定响度度量是否大于目标响度度量的装备，其中当响度度量被确定为大于目标响度度量时，所接收的基于对象的音频信号中的所述至少一个的幅度被调节。

26.如权利要求22所述的装置，其中对于所接收的基于对象的音频信号中的每个基于对象的音频信号，响度度量还基于所述基于对象的音频信号相对于接收点的位置数据而被确定。

27.如权利要求22所述的装置，其中对于所接收的基于对象的音频信号中的每个基于对象的音频信号，响度度量还基于如下中的至少一个被确定：所述基于对象的音频信号相对于所接收的基于对象的音频信号中的一个或多个其他基于对象的音频信号的相关因子、所述基于对象的音频信号的幅度缩放因子、或导致听觉响度灵敏度根据基于对象的音频信号相对于接收点的角度定位的变化而变化的、所述基于对象的音频信号的频率相关的权重因子。

28.如权利要求22所述的装置，其中响度度量基于被确定，其中i∈I，I是基于对象的音频信号组，N是所接收的基于对象的音频信号中的基于对象的音频信号的数目，z_i是第i个基于对象的音频信号的响度参数或功率参数中的所述至少一个，r_i是与第i个基于对象的音频信号相关联的定位，r_L是与接收点相关联的定位，θ_i是接收点和第i个基于对象的音频信号的定位之间的方位角，φ_i是接收点和第i个基于对象的音频信号的定位之间的仰角，a_i是第i个基于对象的音频信号的幅度缩放因子，g_i是导致听觉响度灵敏度根据第i个基于对象的音频信号相对于接收点的角度定位的变化而变化的、第i个基于对象的音频信号的频率相关的权重因子，c_i是第i个基于对象的音频信号相对于所接收的基于对象的音频信号中的一个或多个其他基于对象的音频信号的相关因子。

29.一种用于处理基于对象的音频信号以便用于广播、文件传送或流传输中的至少一个的装置，包括：

用于基于确定的响度度量发送该接收的基于对象的音频信号的装备。

30.一种用于处理基于对象的音频信号以便通过回放系统再现的装置，包括：

存储器；及

至少一个处理器，该至少一个处理器耦合到存储器并被配置成：

31.如权利要求30所述的装置，其中所述至少一个处理器被配置成通过基于确定的响度度量调节所接收的基于对象的音频信号中的至少一个的幅度来渲染所接收的基于对象的音频信号。

32.如权利要求31所述的装置，其中所述至少一个处理器还被配置成基于响度度量和目标响度度量之间的比较来确定响度度量偏移，其中所接收的基于对象的音频信号中的至少一个的幅度基于响度度量和目标响度度量之间的比较被调节。

33.如权利要求32所述的装置，其中所述至少一个处理器还被配置成确定响度度量是否大于目标响度度量，其中当响度度量被确定为大于目标响度度量时，所接收的基于对象的音频信号中的所述至少一个的幅度被调节。

34.如权利要求30所述的装置，其中对于所接收的基于对象的音频信号中的每个基于对象的音频信号，响度度量还基于所述基于对象的音频信号相对于接收点的位置数据而被确定。

35.如权利要求30所述的装置，其中对于所接收的基于对象的音频信号中的每个基于对象的音频信号，响度度量还基于以下中的至少一个被确定：所述基于对象的音频信号相对于所接收的基于对象的音频信号中的一个或多个其他基于对象的音频信号的相关因子、所述基于对象的音频信号的幅度缩放因子、或导致听觉响度灵敏度根据基于对象的音频信号相对于接收点的角度定位的变化而变化的、所述基于对象的音频信号的频率相关的权重因子。

36.如权利要求30所述的装置，其中响度度量基于被确定，其中i∈I，I是基于对象的音频信号组，N是所接收的基于对象的音频信号中的基于对象的音频信号的数目，z_i是第i个基于对象的音频信号的响度参数或功率参数中的所述至少一个，r_i是与第i个基于对象的音频信号相关联的定位，r_L是与接收点相关联的定位，θ_i是接收点和第i个基于对象的音频信号的定位之间的方位角，φ_i是接收点和第i个基于对象的音频信号的定位之间的仰角，a_i是第i个基于对象的音频信号的幅度缩放因子，g_i是导致听觉响度灵敏度根据第i个基于对象的音频信号相对于接收点的角度定位的变化而变化的、第i个基于对象的音频信号的频率相关的权重因子，而c_i是第i个基于对象的音频信号相对于所接收的基于对象的音频信号中的一个或多个其他基于对象的音频信号的相关因子。

37.一种用于处理基于对象的音频信号以便用于广播、文件传送或流传输中的至少一个的装置，包括

存储器；及

至少一个处理器，所述至少一个处理器被耦合到存储器并被配置成：

基于确定的响度度量发送所接收的基于对象的音频信号。