CN107820711A

CN107820711A - 用于音频编码系统中用户交互性的响度控制

Info

Publication number: CN107820711A
Application number: CN201680034882.0A
Authority: CN
Inventors: 法比安·卡驰; 克里斯蒂安·乌勒; 迈克尔·卡拉舒曼; 伯恩哈德·诺伊格鲍尔; 迈克尔·迈耶
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2015-06-17
Filing date: 2016-06-09
Publication date: 2018-03-20
Anticipated expiration: 2036-06-09
Also published as: MX2017016333A; JP2021089437A; CA2988645A1; WO2016202682A1; JP2023062138A; RU2685999C1; US20190265944A1; JP6838093B2; US11379178B2; BR112017026915A2; ZA201708348B; US20220291896A1; AR123136A2; BR112017026915B1; EP4156180A1; TWI664623B; EP3311379A1; CN112291699A; AR105028A1; HK1246962A1

Abstract

一种用于处理音频信号(100)的音频处理器，包括：音频信号修改器(2)，用于响应于用户输入(200)而修改所述音频信号(100)；响度控制器(6)，用于基于参考响度(L_ref)或参考增益(g_i)及经修改响度(L_mod)或经修改增益(h_i)而确定响度补偿增益(C)，其中所述经修改响度(L_mod)或所述经修改增益(h_i)取决于所述用户输入；及响度操控器(5)，用于使用所述响度补偿增益(C)操控信号(101)的响度。

Description

用于音频编码系统中用户交互性的响度控制

技术领域

本发明涉及音频处理器及音频编码器。本发明还涉及对应方法。

背景技术

现代音频编码系统不仅提供在基于扬声器声道的表示中有效地传输仅在解码器侧被回放的音频内容的装置。它们另外包括允许用户与内容交互并因此影响如何在解码器处再现并呈现音频的更高级特征。这允许相较于传统音频编码系统的新类型的用户体验。

用于高级音频编码系统的示例为MPEG-H 3D音频标准(J.Herre等人，“MPEG-HAudio-The New Standard for Universal Spatial/3D Audio Coding”，第137届AES会议，2014年，洛杉矶)。其允许使用高阶立体混响(HOA)以三种不同格式(基于声道的、基于对象的及基于场景的)传输沉浸式音频内容。其已经设计以提供新的性能，诸如，用于个性化的用户交互及用于不同使用情境的音频的调适。

内容格式的三个不同类别可被描述如下：

基于声道的：传统地，空间音频内容(始于简单的两个声道立体声)已经作为声道信号的集合被递送，所述声道信号的集合被指定为由相对于收听者精确定义的固定目标位置中的扬声器再现。

基于对象的：音频对象为关于来源于通过相关联边信息(被提供为与音频一起的元数据)的指定的特定目标位置被再现的信号。与声道信号对比，音频对象的实际放置可随时间而变化且不必在声音产生过程期间被预定义但在再现时将其呈现至目标扬声器设置。这还可包括在对象或对象的分组的位置或位准上的用户交互性。

高阶立体混响(HOA)为通过传输与声道或对象不具有直接关系的多个‘系数信号’而捕获3D声场的替代方法。考虑给定扬声器配置，在解码器处产生用于再现的实际音频信号。

一种用于在包括用户交互的基于对象的音频编码系统中进行响度补偿的方法已经在EP 2 879 131 A1中提出。解码器接收包含音频对象信号的音频输入信号并产生音频输出信号。信号处理器基于与音频输入信号相关联的响度信息及基于呈现信息确定用于音频输出信号的响度补偿值。呈现信息指示音频对象信号中的一个或多个是否应被放大或被减弱并可按用户的希望来调节。

发明内容

本发明的目标为改进响度补偿的可行性。

所述目标通过用于处理音频信号的音频处理器实现，所述音频处理器包括：音频信号修改器，其中所述音频信号修改器用于响应于用户输入修改音频信号；响度控制器，其中所述响度控制器用于一方面基于参考响度或参考增益及另一方面基于经修改响度或经修改增益来确定响度补偿增益，其中所述经修改响度或经修改增益取决于用户输入，其中所述响度控制器用于基于指示哪个分组将被用于或将不被用于确定响度补偿增益的音频信号的元数据来确定响度补偿增益，且其中所述分组包含一个或多个音频元素；及响度操控器，其中所述响度操控器用于使用响度补偿增益来操控信号的响度。

用于处理音频信号的音频处理器或解码器或装置接收音频信号并在一个实施例中产生包含待例如通过扬声器或耳机再现或待存储于介质等的音频信号的音频对象及音频元素等的输出信号。

音频处理器经由用于响应于用户输入而修改音频信号的音频信号修改器对用户输入作出反应。在一个实施例中，用户输入指的是分组的放大或减弱和/或关闭分组或开启分组。所述分组包含一个或多个音频元素，例如，音频对象、声道、对象或HOA组件。取决于实施例，用户输入还指关于用于再现信号的回放配置的数据。进一步的用户输入指预设定的选择。预设定指的是至少一个分组的集合并取决于实施例指定用于各个分组的特别测量的分组响度值和/或增益值。用户输入被音频信号修改器使用以用于恰当地修改音频信号。在一个实施例中，元数据包含属于多个预设定的数据。

在实施例中，预设定指分组的集合并在不同实施例中定义不属于预设定的分组。

音频处理器还包括用于确定响度补偿增益的响度控制器。响度补偿增益(在此被称作C)允许抵消用户输入的效果以便视需要或按用户的设定而为信号提供整体响度。一方面基于参考响度或参考增益及另一方面基于经修改响度或经修改增益来确定响度补偿增益。因此，基于参考响度或参考增益及经修改响度或经修改增益确定响度补偿增益。经修改响度或经修改增益取决于用户输入。

响度控制器另外用于基于音频信号的元数据确定响度补偿增益。与音频信号相关联的元数据携带关于音频信号及个别分组的信息且在一个实施例中被音频信号自身所包含。

在此论述的音频处理器的实施例的元数据的数据指示尤其由音频信号包含的分组是否将用于(例如，将被考虑)或不被用于(例如，将被忽略)确定响度补偿增益。因此，关于相对应分组的信息被考虑用于确定响度补偿增益或被忽略而不用于确定响度补偿增益。在至少一个实施例中，分组或多个分组是否被考虑或忽略另外取决于用户输入。

在一个实施例中，考虑或忽略分组还包括在分组及其各自的值仅用于响度补偿增益的确定的部分(例如，仅用于计算参考响度或经修改响度)的意义上，部分地考虑或忽略分组。

响度补偿增益由音频处理器所包含的响度操控器使用。响度操控器使用响度补偿增益操控信号的响度。所应用的响度补偿增益不仅被用户输入影响，还是与音频信号相关联或甚至属于音频信号的元数据的数据的结果。

根据实施例，由响度操控器操控的信号为由音频处理器提供的输出信号并基于音频信号。在此实施例中，响度操控器使用响度补偿增益提供输出信号并操控输出信号的响度。

在不同实施例中，响度操控器操控提供至响度操控器并优选地已经根据用户输入被修改的信号的响度。在此实施例中，音频处理器的一部分提供或产生馈入至响度操控器并因此被响度操控器关于其响度进行处理(即，修改)的信号。

在另一实施例中，其响度被响度操控器操控的信号为音频信号。在此情形下，响度操控器通过修改来修改音频信号的元数据。此实施例与另一实施例相关联，其中音频处理器提供经修改音频信号。经修改音频信号是根据用户输入及根据响度的修改来修改的。此经修改音频信号然后也为比特流。

根据音频处理器的实施例，响度控制器用于基于元数据的数据所包含的至少一个标记来确定响度补偿增益，其中所述标记指示是否或如何考虑分组以用于确定响度补偿增益。在此实施例中，元数据包含具有例如分别指示是否必须考虑相关联分组以用于计算响度补偿增益的“正确”或“错误”值的标记。在一个实施例中，分组的考虑还指将用于计算分组的哪个步骤的问题。这指例如参考响度及经修改响度的计算。参考响度及经修改响度分别为考虑用户输入前和后所计算的整体响度。在不同实施例中，标记指示相对应分组仅在短间隔内存在，且因此可被忽略而不用于确定响度补偿增益。

根据音频处理器的实施例，当分组属于音频信号的元数据所包含的锚(anchor)时，响度控制器用于仅使用分组用于确定响度补偿增益。在一个实施例中，锚指的是例如属于声音、对话或特殊声音效果的音频元素。

属于锚的分组的处置在以下实施例中被进一步详细描述。

在一个实施例中，当属于锚的至少一个分组的经修改增益大于相对应的参考增益时，响度控制器用于仅使用属于锚的分组用于确定响度补偿增益。因此，当这些“锚分组”的至少一个分组的增益值由于用户输入而增加时(即，当用户放大这些分组中的至少一个时)，仅锚的分组用于计算响度补偿增益。

在替代或补充实施例中，当属于锚的至少一个分组的经修改增益小于相对应的参考增益时，响度控制器用于使用属于锚的分组及锚所缺失的分组用于确定响度补偿增益。因此，在此实施例中，当至少一个锚分组的增益值由于用户输入而降低时，不仅属于锚的分组用于计算，不属于锚的分组也用于计算。

在一个实施例中，前述两个实施例被组合。因此，属于锚的至少一个分组的增益的变化确定是否仅锚分组或锚分组及非锚分组用于确定响度补偿增益。

所述目标还由用于处理音频信号的音频处理器实现，所述音频处理器包括：音频信号修改器，其中所述音频信号修改器用于响应于用户输入而修改音频信号；响度控制器，其中所述响度控制器用于一方面基于参考响度或参考增益及另一方面基于经修改响度或经修改增益来确定响度补偿增益，其中所述经修改响度或经修改增益取决于用户输入，其中所述响度控制器用于基于指向至少一个预设定的音频信号的元数据来确定响度补偿增益，其中所述预设定指的是包含一个或多个音频元素的至少一个分组的集合；以及响度操控器，其中所述响度操控器用于使用响度补偿增益来操控信号的响度。

音频处理器的一般说明见上文论述。

音频处理器的响度控制器参考与音频信号相关联或属于音频信号的元数据的数据。数据指的是预认定，其中所述预设定是指包含一个或多个音频元素的至少一个分组的集合。在此实施例中，应注意分组的组合与特定预设定的特定响度和/或增益值相关联的情况。因此，取决于不同预设定或至少默认预设定，元数据包括用于分组的数据。因此，响度控制器使用与用户所选择的预设定相关联的数据或为默认预设定的数据。

在一个实施例中，音频处理器根据前述实施例中的至少一个被配置。因此，上文所论述的实施例也至少部分地使用前面所提到的音频处理器而被实现。

根据音频处理器的实施例，响度控制器用于基于由预设定所指向的集合的至少一个分组的分组响度及/或增益值来确定响度补偿增益。预设定是指音频信号所包含的音频元素的分组的特定集合。对于这些分组，当相对应的预设定被选择或被设定为默认预设定时，元数据含有待用于确定响度补偿增益的特定数据(即分组响度和/或增益值)。

在另一实施例中，响度控制器用于使用各自的分组响度及各自的增益值来确定用于由预设定所指向的集合的参考响度。响度控制器还用于使用各自的分组响度及各自的经修改增益值来确定用于由预设定所指向的集合的经修改响度。经修改增益值通过用户输入被修改。在此实施例中，基于与预设定相关联的且用于属于预设定的分组的值来确定参考响度及经修改响度。所述确定还注意例如针对参考或经修改响度的确定是否及如何使用分组的指示。

在另一实施例中，响度控制器用于基于指向所选择的预设定的音频信号的元数据所包含的数据来确定响度补偿增益，其中通过用户输入选择预设定。在此实施例中，由用户通过用户输入来选择预设定。

根据音频处理器的实施例，响度控制器用于基于指向默认预设定的音频信号的元数据所包含的数据而确定响度补偿增益。默认预设定在用户输入之前或独立于用户输入而被设定。此实施例处理用户不选择预设定的情形。对此，使用默认预设定，例如在任何用户输入之前，用于确保即使没有用户的交互，数据的集合(在此涵盖默认的预设定)被用于确定响度补偿增益。

所述目标还由用于处理音频信号的音频处理器实现，所述音频处理器包括：音频信号修改器，其中所述音频信号修改器用于响应于用户输入而修改音频信号；响度控制器，其中所述响度控制器用于一方面基于参考响度或参考增益及另一方面基于经修改响度或经修改增益来确定响度补偿增益，其中所述经修改响度或经修改增益取决于用户输入，其中所述响度控制器用于基于指示分组是否被关闭或开启的音频信号的元数据来确定响度补偿增益，其中所述分组包含一个或多个音频元素；及响度操控器，其中所述响度操控器用于使用响度补偿增益来操控信号的响度。

对于此实施例的音频处理器的一般说明，参见上文的论述。

响度控制器在此用于基于指示分组是否被关闭或开启的音频信号的元数据来确定响度补偿增益。在示例中，音频信号可包含作为音频对象的属于电影的不同语言版本的不同原声带。预设定还可指向不同语言版本。因此，在不同预设定中，一种语言的一个原声带将被开启而其他版本将被关闭。此示例还示出用户可通过开启期望的及提供的语言版本并因此关闭与默认预设定相关联的原声带而在不同语言版本之间切换。尽管如此，开启一个分组并不始终暗示关闭另一分组，且反之亦然。

在一个实施例中，音频处理器根据前述实施例中的至少一个被配置。

在一个实施例中，音频处理器根据前述实施例中的至少一个被配置。因此，上文所论述的实施例还使用前面所提到的音频处理器而至少部分地被实现。这还保持关于由于上文所论述的一个音频处理器在至少一个实施例中考虑以下实施例而实现的其他方式。

根据实施例，响度控制器基于取决于分组是否被用户输入关闭或开启的用户输入来确定响度补偿增益。在此，用户交互影响响度控制器增益的确定。

根据音频处理器的实施例，响度控制器用于当响应于用户输入而关闭分组时丢弃分组以不用于确定经修改响度。如果用户关闭分组，则在此实施例中，分组不用于确定经修改响度，这起因于表示用户的希望的响度值。

在另一实施例中，响度控制器用于当分组在元数据中被关闭时丢弃分组以不用于确定参考响度，并且当分组被用户输入开启时包括所述分组以用于确定经修改响度。在此实施例中，分组在元数据中被关闭且不用于确定参考响度。如果使用者开启分组，则其被包括以用于经修改响度的评估。

根据音频处理器的实施例，响度控制器用于当分组在元数据中被开启时包括分组以用于确定参考响度且当分组通过用户输入被关闭时排除所述分组以不用于确定经修改响度。在此实施例中，注意前述实施例的相反情形。

所述目标还由用于处理音频信号的音频处理器实现，所述音频处理器包括：音频信号修改器，其中所述音频信号修改器用于响应于用户输入而修改音频信号；响度控制器，其中所述响度控制器用于一方面基于参考响度或参考增益及另一方面基于经修改响度或经修改增益来确定响度补偿增益，其中所述经修改响度或经修改增益取决于用户输入，其中所述响度控制器用于基于具有音频信号所包含的分组的元数据中缺失的至少一个分组响度的音频信号的元数据来确定响度补偿增益；及响度操控器，其中所述响度操控器用于使用响度补偿增益来操控信号的响度。

此实施例的音频处理器的一般说明见上文的论述。

在此音频处理器(或解码器)中，响度控制器处理对于存在于音频信号内的分组，相对应的分组响度缺失的情形。分组响度可对于特定预设定或回放配置缺失，且因此一个或元数据可完全没有用于此分组的任何分组响度。

在一个实施例中，音频处理器根据前述实施例中的至少一个被配置。因此，上文所论述的实施例还使用前面所提到的音频处理器而至少部分地被实现。这还保持关于由于上文所论述的音频处理器在至少一个实施例中考虑以下实施例而实现的其他方式。

根据音频处理器的实施例，响度控制器用于使用预设定的响度、具有缺失分组响度的分组的参考增益以及用于具有分组响度的分组的分组响度及参考增益来计算缺失的分组响度。预设定的响度为预设定的分组的整体响度。

在另一实施例中，响度控制器用于在音频信号的元数据缺失用于盲响度补偿的至少一个分组响度的情况下仅使用至少一个参考增益及至少一个经修改增益来确定响度补偿增益。在此实施例中，至少一个缺失分组响度的情况以与所有分组响度缺失的情况相同地被处理。

根据音频处理器的实施例，响度控制器用于在音频信号的元数据没有用于盲响度补偿的分组响度的情况下仅使用至少一个参考增益及至少一个经修改增益来确定响度补偿增益。

所述目标还由用于处理音频信号的音频处理器实现，所述音频处理器包括：音频信号修改器，其中所述音频信号修改器用于响应于用户输入而修改音频信号；响度控制器，其中所述响度控制器用于一方面基于参考响度或参考增益及另一方面基于经修改响度或经修改增益来确定响度补偿增益，其中所述经修改响度或经修改增益取决于用户输入，其中响度控制器用于基于指向用于再现信号的回放配置的音频信号的元数据来确定响度补偿增益；及响度操控器，其中所述响度操控器用于使用响度补偿增益来操控信号的响度。

此实施例的音频处理器的一般说明见上文的论述。

音频处理器基于指向特定回放配置的数据来确定响度补偿增益。与音频信号相关联且在一个实施例中由音频信号所包含的元数据因此含有经指定用于至少一个回放配置的数据。在一个实施例中，对于每个回放配置，元数据含有对应于各自的回放或再现配置的数据。

在一个实施例中，音频处理器根据前述实施例中的至少一个被配置。因此，此音频处理器在一个实施例中与前述实施例中的至少一个组合。

根据音频处理器的实施例，响度控制器用于基于指向回放配置包含相关联的分组响度和/或参考增益值的元数据的数据来确定响度补偿增益。因此，不同回放配置与用于各个分组的不同增益值和/或分组响度相关联。

在一个实施例中，元数据包含用于不同预设定及不同回放配置的数据。

在另一实施例中，音频处理器包含用于将元数据所包含的且指向回放配置的数据转换成指向当前回放配置的数据的配置转换器，其中所述响度控制器用于使用由配置转换器所提供的数据来确定响度补偿增益。在此实施例中，音频处理器处理用于再现信号的当前回放配置不同于由元数据所提供的回放配置的情形。因此，元数据的数据被转换以便符合当前回放配置且经转换数据用于响度补偿增益的确定。

在实施例中，音频处理器包含用于将信号转换成预定义回放配置的格式转换器。在另一实施例中，响度控制器用于选择用于被格式转换器所使用的特定回放配置的特定响度值。

可使用前述实施例中的任一个来实现以下实施例。

在实施例中，音频信号包含具有元数据的比特流，且元数据包含用于至少一个分组的参考增益。

根据音频处理器的实施例，音频信号的元数据包含用于至少一个分组的分组响度。在另一实施例中，元数据包含用于属于音频信号的多个分组的分组响度。

在另一实施例中，响度控制器用于使用用于至少一个分组的分组响度及增益值来确定用于至少一个分组的参考响度，其中所述响度控制器用于使用分组响度及经修改增益值来确定用于至少一个分组的经修改响度，且其中经修改增益值是通过用户输入被修改的。

在实施例中，响度控制器用于使用用于分组的各个分组响度(命名为L_i)及增益值(命名为g_i)来确定用于多个分组的参考响度(命名为L_ref)。另外，响度控制器用于使用用于分组的各个分组响度L_i及经修改增益值(命名为h_i)来确定用于多个分组的经修改响度(命名为L_mod)。在一个实施例中，两个多个分组为相同的，在不同实施例中为不同的。多数还取决于元数据的各自的数据。

在另一实施例中，响度控制器用于对响度补偿增益执行限制操作以使得响度补偿增益低于上阈值和/或以使得响度补偿增益大于下阈值。

根据音频处理器的实施例，响度操控器用于将经校正增益应用于由响度补偿增益及由标准化增益所确定的信号，所述标准化增益由用户输入所设定的目标响度位准及音频信号的元数据所包含的元数据响度位准而确定。在一个实施例中，标准化增益是通过使用音频信号的各个分组的响度位准与通过用户所设定的待由用户体验的用于再现音频信号的响度位准的比率来确定的。

音频处理器的前述实施例允许用户输入后的响度补偿。通过考虑描述音频信号的分组及用于响度补偿的其关联性或种类的数据来改进响度补偿。关于分组的信息优化响度补偿。

前述实施例指向音频处理器或音频解码器。在下文中，将论述编码器提供具有与待由音频处理器所使用的元数据相关联的音频信号或甚至包含所述元数据的音频信号。

所述目标通过用于产生包含元数据的音频信号的音频编码器实现。音频编码器包括：用于确定用于具有一个或多个音频元素的至少一个分组的响度值的响度确定器；及用于将所确定响度值作为分组响度引入元数据中的元数据写入器。

根据音频编码器的实施例，响度确定器用于确定用于不同回放配置的不同响度值和/或不同增益值，其中所述元数据写入器用于将所确定的与各个回放配置相关联的不同响度值和/或不同增益值引入元数据中。在此实施例中，元数据含有用于不同回放配置的所关注分组的不同数据，因此，改进音频信号的分组的播放。

在实施例中，响度确定器用于确定用于指向包含一个或多个音频元素的至少一个分组的集合的不同预设定的不同响度值及/或不同增益值。另外，元数据写入器用于将所确定的与各个预设定相关联的不同响度值和/或不同增益值引入元数据中。在此实施例中，预设定指向与特定分组响度和/或参考增益值相关联的分组的特定集合。

在另一实施例中，音频编码器进一步包括控制器，其中所述控制器用于确定哪个分组将用于确定响度补偿增益或将被忽略，且其中元数据写入器用于将指示写入元数据中，指示哪个分组将被使用用于确定响度补偿增益或将被忽略而不用于确定响度补偿增益。所述指示在一个实施例中为标记。在一些实施例中，指示是指预设定、回放配置、锚和/或持续时间及因此分组的关联性。

在至少一个实施例中，元数据针对音频信号的至少一个分组含有具有不同值的不同数据(例如，分组响度或参考增益)。

根据音频编码器的实施例，音频编码器进一步包括估计器，其中所述估计器用于计算用于分组的分组响度值，其中用于分组的分组响度值未通过响度确定器被确定。元数据写入器用于将所计算出的分组响度值引入到元数据中以使得音频信号的所有分组具有相关联的分组响度。在此实施例中，音频编码器通过基于可用数据对其进行计算的方式补偿缺失的分组响度。

所述目标还通过用于处理音频信号的方法实现。

所述方法包含至少以下步骤：

·响应于用户输入而修改音频信号。

·一方面基于参考响度(作为通过用户的修改之前的相关联的各个分组的整体响度)或参考增益及另一方面基于经修改响度(作为用户输入之后为相关分组的经组合响度的参考响度的对应体)或经修改增益来确定响度补偿增益，其中经修改响度或经修改增益取决于用户输入。

使用以下实施例中的至少一个或组合来执行响度补偿增益(命名为C)的确定，其中基于与音频信号相关联或甚至由音频信号所包含的元数据的数据来确定响度补偿增益。在不同实施例中，数据如下，其中各个分组包含一个或多个音频元素：

·数据指示音频信号所包含的分组是否将被考虑用于确定响度补偿增益或被忽略而不用于确定响度补偿增益。

·数据指向预设定，其中预设定是指至少一个分组的集合。

·数据指示分组是否被关闭或开启。

·在所述数据中为音频信号所包含的分组缺失的至少一个分组响度。

·数据指向用于再现信号的回放配置。

·使用响度补偿增益操控与音频信号相关联的输出信号的响度。

所述目标还通过用于产生包含元数据的音频信号的方法实现。所述方法包括确定用于具有一个或多个音频元素的分组的响度值及将所确定的用于分组的响度值作为分组响度引入至元数据中。

所述目标还通过用于当在计算机或处理器上运行时执行前述方法中的一个的计算机程序实现。

装置的实施例(音频处理器或音频编码器)还可通过方法的步骤及相对应方法的实施例执行。因此，为装置实施例提供的解释还适用于所述方法。

附图说明

将在下文中关于附图及附图中所描绘的实施例解释本发明，其中：

图1示出音频解码器的概述，

图2示出根据本发明的音频处理器的概述，以及

图3示出本发明的音频编码器的概述。

具体实施方式

图1示出作为音频处理器的示例的MPEG-H 3D音频解码器的概述，说明所述系统的所有主要构建块：

·作为第一步骤，所接收的音频流500(包括经传输音频信号，为其声道、对象或HOA成分、连同相关联元数据)被解码器501解码，提供音频内容502及相关联元数据503。

·使用充当声道呈现器及格式转换器的格式转换器504将声道信号映射至目标再现扬声器设置。

·使用相关联对象元数据通过对象呈现器505将对象信号呈现至目标再现扬声器设置。

·通过HOA呈现器506使用相关联HOA元数据将高阶立体混响内容呈现至目标再现扬声器设置。

·呈音频信号507形式的作为格式转换器504、对象呈现器505及HOA呈现器506的输出的对应于不同成分(声道、对象、HOA)的扬声器信号随后在混合阶段被混合在一起。这是通过提供混合音频信号509的混合器508进行的。

·混合器508的输出509随后通过响度控制阶段被处理，其中音频被标准化至期望的目标响度位准。响度控制器510执行标准化以及响度补偿。对于此目的，响度控制器510接收用户输入511。作为用户交互的结果，用户输入511还指关于待用于回放的扬声器配置的信息且也被提交至格式转换器504、对象呈现器505及HOA呈现器506。元数据503被馈入至的响度控制器510尤其指向通过解码器501从所接收的音频流500提取的呈现和/或响度信息。所产生的信号512在所示出的实施例中被提交至可供用于回放的扬声器配置的扬声器。

可能的用户交互性可划分成例如两个不同类别：

·经传输音频程序的预设定的选择。

·音频元素的分组的默认呈现的操控。

在下文中提出在MPEG-H 3D音频的上下文中本发明的预设定及分组的含义。

可供用于经传输音频程序的个别声道、对象及HOA场景被称为音频元素。分组是指个别音频元素的特定聚集。音频元素的特定分组信息被包括于连同音频流中的音频内容被传输的MPEG-H 3D音频元数据中。分组的元素无法独立地交互式地改变。仅整个分组可被操控，即所有被包括的元素一起。由对应于立体声或5.1声道扬声器配置的声道构成的分组给定示例。在极端情况下，分组可仅由单个元素组成，例如，程序的对话对象。用户随后能够改变例如音频场景内的此对话对象的位准。

预设定定义音频场景中的分组的组合。预设定可用于有效地传信相同音频流内的相同音频程序的不同表示。预设定定义还包括个别分组的默认或起始呈现信息，所述信息用于用户不应用任何修改的情况。此呈现信息的最重要示例为当呈现整个音频场景时应用于分组的增益。定义预设定的配置信息在编码器处被确定且其为元数据(例如，MPEG-H 3D音频元数据)的一部分。

应注意，主要或默认音频场景可被视为包括所有音频元素而不必要指定分组信息的特殊类型的预设定。尽管如此，用于个别音频元素的默认或起始呈现信息(例如，增益)通常被提供于也用于主要音频场景的元数据中。

用于下一代音频递送的最重要特征中的一个为高级响度控制，即，响度信息及响度标准化的恰当传信。响度控制在广播应用中尤其重要，其中其表示满足可适用广播法规及建议的基本特征。

包括于MPEG-H 3D音频中的响度控制概念是基于表示音频程序的经量测响度的元数据。元数据在音频流中被传输作为与实际音频内容一起待通过音频处理器处理的音频信号的实施例。在根据一个实施例的解码器处，基于经传输响度信息及目标响度位准计算响度标准化增益。在一个实施例中，响度标准化增益随后被应用至混合器508后的音频信号，如例如图1中所示。

为了考虑为相同音频程序的多个预设定提供相同音频流的特定特征，对应于不同预设定的所量测响度，包括额外的响度元数据。处理步骤(诸如，格式转换(降混)或动态范围处理)可潜在地改变音频的响度。因此，在一个实施例中，包括额外的响度信息以确保也在此等情况下校正响度标准化。

在另一实施例中，个别分组或甚至单个音频元素的响度信息被传输。在一个实施例中，分组响度的信息关于不同扬声器配置被提供。举例而言，如果分组由声道信号构成，则针对再现立体声或5.1扬声器配置的情况，可包括不同分组响度信息。分组的响度信息将用于如本发明中提出的交互情境中的响度控制。

上文所提及的响度信息是指用于程序的各种各样的配置(例如，不同预设定或不同扬声器再现布局)。由于这些配置为静态的，因此一个实施例设想测量其在编码器处(或在编码处理前)的响度并将相对应元数据字段填入例如MPEG-H 3DA流中。

但是，如上文已经提及，现代音频编码系统如MPEG-H 3DA的重要特征为解码器处的用户交互性的支持：用户可例如调节特定分组的量或甚至将其开启及关闭。重要使用情况由对话增强给定，其中用户可操控对话对象或与对话相关联的分组的位准。在另一实例中，用户增大沉浸式声床(由基于HOA的分组表示)的位准。在另一示例中，用户想要开启特定分组，例如表示用于听障或画外音音轨的视频描述。

改变分组的位准也表示所呈现音频场景的整体响度相较于未修改情况被改变。因此，在增益交互性之后，无法再确保一致的回放响度。由于用户也可以更频繁地改变不同对象的位准，因此即使对于相同程序，音频输出的响度位准可随时间而变化。

非常需要提供不仅用于音频程序的静态表现，并且也考虑改变音频场景的响度的用户交互性的响度控制。本发明允许改进解码器处的响度控制以便在音频元素的分组的位准上的用户交互性的情况下也使能一致的响度标准化。

当用户改变所呈现音频场景内的某些音频元素或分组的位准时，程序或预设定的响度被保存。在一个实施例中，基于对应于原始音频场景的参考响度及考虑用户的增益交互性的经修改响度而确定响度补偿增益。响度补偿增益随后连同常规响度标准化增益一起呗应用于所呈现音频信号以实现期望的解码器目标响度。

图2示意性地示出接收音频信号100及提供输出信号101的音频处理器1(也被称作解码器或仅用于处理音频信号1的装置)的示例。所示出示例中的输出信号101为适合于馈入至(未示出的)连接至回放情形的扬声器的放大器或直接馈入至扬声器或头戴式耳机的音频信号。音频信号100包含具有个别音频对象的音频信号的比特流及提供关于音频元素及如何对其进行处置的信息的元数据。

音频信号100被提交至接收用户输入200的音频信号修改器2。在所示出的示例中，用户输入200至少指某一预设定的选择。预设定指向具有用于相对应的音频元素的分组的相关联参考增益g_i和/或的分组响度L_i的音频元素的分组的特定组合。如果用户不选择预设定，则具有默认值的默认预设定将用于所示出的实施例中。

另外，用户经由输入200设定个别分组的增益值。经修改增益值h_i表示相对应分组将对应于元数据所包含的参考增益值g_i而被放大或减弱。举例而言，用户可偏好收听放大的背景合奏且不如通常地偏好收听引领话音。因此，用户将提高背景合奏的增益值并减小引领话音的增益值或将关闭此话音。

用户还具有将分组关闭或开启的可能性。因此，如果用户不想要听到分组，则可关闭分组。相反地，如果元数据包含表示关闭分组以用于特定预设定的标记，则用户可将其开启。举例而言，这可为当音频信号包含不同语言版本的口头文本且预设定指向不同语言时的情况。因此，将分组开启或关闭是指分组是否用于回放。

总而言之，信号修改器2根据用户输入200通过放大或减弱属于音频信号100的音频元素的分组并根据所选择的预设定或通过元数据的各个数据所涵盖的默认预设定来修改音频信号100。

其在将数据转化为音频信号100将通过其而再现的当前回放配置的配置转换器3之后。哪个回放配置被给定并因此为当前情形也被用户输入200例如通过从列表的选择而涵盖。举例而言，元数据可指向环绕声情形而当前回放情形允许立体回放。此转换在一个实施例中涉及增益值以及响度值。

配置转换器3将经转换数据提交到也接收用户输入200的响度控制器6。基于这些数据，响度控制器6计算被提交到响度操控器5的响度补偿增益C。

响度操控器5通过使用响度补偿增益C及从混合器4所接收的信号来设定输出信号101的整体响度。混合器4在所示出实施例中经由配置转换器3接收被音频信号修改器2修改且被配置转换器3转换后的音频信号100并组合不同分组的音频元素(比较图1)。

对于所述解释，在说明性示例中考虑特定音频场景通过预设定来定义(即，特定组合的分组)的情况。分组中的每个具有针对给定的预设定而定义的相关联初始/默认增益。另外，预设定内的每个分组的响度被假定为可用的。预设定可由用户选择或被设定为默认预设定。以下符号将被使用：

·L_i为预设定的第i分组的响度。

·g_i为第i分组的初始/默认增益(例如，按dB大小给定)。

·h_i为第i分组的经修改交互性增益(例如，按dB大小给定)

·M_ref指示指向被包括以用于计算预设定的参考响度(或默认音频场景)的分组的索引的集合。

·M_mod指示指向被包括用于计算预设定的经修改响度(或经修改音频场景)的分组的索引的集合。

在分组由对应于特定扬声器配置或例如对应于HOA音频场景的声道信号的聚集构成的情况下，多个分组响度值可被包括于元数据中。这些不同响度值与用于回放的不同扬声器配置相关联。举例而言，如果分组表示具有5.1或22.2扬声器配置的声道床，则相较于声道床必须使用格式转换器被映射至立体声再现系统的情况，可测量不同响度以用于再现用于原始5.1或22.2扬声器配置的分组。在此情况下，在一个实施例中，如果可用于经传输元数据中，则与立体声再现相关联的分组响度可被选择。否则，使用与原始扬声器配置相关联的分组响度。在分组表示及基于HOA的音频场景的情况下提出用于选择适合分组响度的类似策略。在此情况下，应使用(若可用于元数据中)与当前回放扬声器配置相关联的分组响度而不是与参考扬声器布局相关联的分组响度。

在一些实施例中，并不为每个分组单独地提供响度信息，但相同响度值被全体分组所参考。

大体而言，假定不同分组中的音频信号为不相关是合理的。预设定的参考响度可随后被计算如下

类似地，经修改音频场景的响度被计算如下

在分组在预设定的默认设定下被关闭的情况下，当计算参考响度L_ref时丢弃该分组。类似地，如果用户关闭分组，则当计算经修改响度L_mod时丢弃该分组。如果分组在默认预设定中被关闭，但通过用户在经修改场景中被开启，则将相对应分组响度L_i从参考响度L_ref的计算排除但包括于经修改响度L_mod的计算中，且反之亦然。应注意，丢弃被关闭的分组可等效地解释为将其增益(g_i或h_i)设定为-∞。在此情况下，M_ref＝M_mod。因此，响度L_ref及L_mod两者参考相同的分组集合。

响度补偿增益C从将预设定的参考响度Lref与预设定的经修改响度Lmod相关而获得：

响度补偿增益C在一个实施例中受限在所允许增益的范围内以避免极端情况的任何非期望行为：

根据现有技术(见例如EP 2879131A1)的用于响度标准化的响度标准化增益G_N随后根据以下等式被校正：

G_corrected＝G_N+C_lim

确保通过用户的增益互动性之后的一致响度。可替代地，基于原始标准化增益G_N进行响度标准化且使用补偿增益的经限制版本C_lim对音频信号单独地执行响度补偿。

以上论述已经基于音频程序的预设定。应提及，并非总是存在可用于程序的预设定，但仅单个全局默认场景被定义。此情况类似于上文所描述的预设定情况而被处置，其中索引M_ref及M_mod的集合分别指向默认场景及其经修改版本的分组。

存在有意地将某些分组从响度补偿过程排除为合适的情形。举例而言，某一分组可仅在程序内的极短时间段期间为活跃的且在剩余时间其完全无声。由于例如根据作为国际电信联盟(ITU)的三个部门中的一个的ITU无线电通信部门(ITU-R)的ITU-R BS.1770-3的响度测量期间的选通处理(gating process)，这种分组可仍具有相当大的经测量响度。此分组响度将随后影响整个程序持续时间期间的响度补偿增益，虽然所述分组仅在极短时间量的期间为活跃的。另一方面，此稀疏分组信号对整个程序/预设定混合的响度测量仅具有极少贡献。

举例而言，如果用户选择加强此稀疏分组/对象，则响度补偿将导致整个程序持续时间的期间内所有剩余音频元素的减弱。此行为是不被期望的，且响度补偿过程应忽略特定稀疏分组。因此，元数据含有将此分组忽略不用于计算响度补偿的相对应标记。

为了提供上文所描述的功能性，将信息添加至包括于音频流或音频信号中的元数据，所述信息指示是否应将分组从响度补偿排除，即，从计算预设定或全局音频场景的参考及经修改响度排除。此信息在一个实施例中为用于指示其是否包括于响度补偿过程中的每个分组的简单标记。

对响度控制的不同广播法规使用不同方法定义程序响度。当EBU-R128需要测量全程序混合的响度时，ATSC A/85建议仅测量通常由对话表示的程序的锚元素的响度。

测量程序的响度的这种不同方法也被考虑用于响度补偿。基于锚的响度补偿可立即从上文所论述的全混合的响度补偿得出结论。

对于预设定(或程序的默认混合)的基于锚的参考及经修改响度，仅包括对程序锚有贡献的那些分组。在实施例中，哪个分组为程序锚的一部分的信息被包括于音频流/音频信号的元数据中。参考响度通过以下等式获得

其中A_ref指示指向为默认音频场景或预设定的锚元素的一部分的分组的索引的集合。

类似地，用于使用分组索引的集合A_mod(指向为经修改音频场景或预设定的锚元素的一部分的分组)的基于锚的响度补偿的经修改响度读出

立即得出补偿增益被获得如下

执行响度补偿的剩余步骤并不相较于全程序混合情况而改变(见上文的论述)。

在一些情况下，基于锚及基于全程序混合的两种响度补偿方法的混合有益于响度补偿的用户体验。

在实施例中，基于锚的方法用于锚分组中的一个或所有被用户放大的情况，即，h_i>g_i。另一方面，如果锚分组被减弱，则使用关于全混合的响度的响度补偿，即，在h_i<g_i的情况下。关于锚分组的信息被元数据所包含。

上文中提出的响度补偿方法需要关于预设定或全局音频场景内的每个分组的响度的信息。在一些情境下，响度信息可仅可用于一些分组并对其他分组缺失。因此在一个实施例中，缺失的分组响度信息从预设定(或默认音频场景)的响度及可用的分组响度值被计算。

令L_p表示音频程序的所考虑预设定的经测量响度，即，属于各个预设定的音频对象的经测量联合响度。此外，令表示响度信息对于其可用的分组的索引的集合。预设定的残余响度L_res从预设定响度、可用分组响度信息及这些分组的默认/初始增益来计算：

残余响度的替代表示可通过考虑不可用的分组响度值及相对应默认/初始增益而获得：

实际上，假定响度信息对于其为缺失的每个分组的响度是相等的是合理的：

L_i＝L_A，其中

在此情况下，残余响度可被表达为

由此，对于缺失分组响度值的估计被立即获得如下

响度补偿所需要的参考响度及经修改响度可随后如已经论述的被计算，其中任何缺失分组响度L_i被相对应的估计L_A代替。

在音频编码系统的编码器侧或解码器侧进行缺失分组响度信息的估计。

如果在编码器处进行估计，则音频流中的经传输元数据内的分组响度的信息可被测量，或替代地，可包括如上文所描述的相对应估计。随后，解码器处的响度补偿阶段具有所有所需要的响度信息并且可根据所有分组响度已经被编码器预先测量的情况进行处理。

如果在解码器处进行估计，则音频流的元数据中的缺失分组响度值如上文所描述的被估计，且接着，响度补偿是基于所估计的分组响度值。

如果音频流的元数据中不提供关于任何分组的响度的信息，则给定特殊使用情况。在此情况下，响度补偿必须仅基于可用的相关呈现信息(即，分组的默认或初始增益g_i及用户交互后的其经修改版本h_i)起作用。这被称作盲响度补偿，由于解码器处没有用于分组的响度信息为已知的。在另一实施例中，即使元数据中仅缺失一个分组响度，仍执行盲响度补偿。

对于补偿，使用预设定内所有分组的响度值为相同的假定。在盲响度补偿的实施例中，引入对于M_ref及M_mod中包括的所有分组L_i＝L_A的假定。通过此，用于计算响度补偿增益的规则根据以下等式获得

应注意，用于盲响度补偿的增益因子的确仅需要分组增益的信息但没有响度相关的信息。

在另一实施例中，在缺失至少一个分组响度的情况下执行盲响度补偿。因此，甚至一个缺失分组响度造成盲响度补偿。

在此部分中，前述内容将被概述如下：

在一个实施例中，通用索引的集合参考应被包括用于计算预设定或默认音频场景的参考响度的分组而被指定。此集合从音频流的元数据中的是否应包括分组用于执行默认音频场景或预设定的响度补偿的信息导出。通常将此信息引入编码器处的音频流的元数据中。

在编码器处，通过恰当地定义这些比特流元素而控制响度补偿过程。举例而言，如果应排除某一分组，则相对应比特流元素被设定成“错误”。在一个实施例中，通过仅包括为默认音频场景或经定义预设定的锚元素的一部分的分组，及将相对应比特流元素设定成“正确”来实现基于锚的响度补偿。提供此信息的其他方式可用于不同实施中。

如在一个实施例中已经提及，如果分组在默认音频场景或预设定中被关闭，则其被丢弃不用于计算参考响度L_ref。所得到的索引的集合被表示为K_ref。

类似地，在经修改场景中被关闭的任何分组被从计算经修改响度L_mod排除。如果分组在默认场景中被关闭，但通过用户在经修改场景中被开启，则将相对应的分组响度从参考响度L_ref的计算排除但包括于经修改响度L_mod的计算中，且反之亦然。使用K_mod表示用于经修改响度L_mod的分组索引的集合。

响度补偿增益随后类似于上文的论述通过由K_ref代替M_ref及由K_mod代替M_mod的方式而被计算。

对于在解码器处缺失计算参考或经修改响度所需要的分组响度信息的任一个的情况，盲响度补偿用作回退(fallback)模式。如上文所描述的关于选择用于响度补偿的分组索引(K_ref及K_mod)的相同方法被应用于回退模式中。

图3示出基于不同音频源产生数字音频信号100的音频编码器20的实施例。音频信号100包含待被例如上文所描述的音频处理器使用的元数据。

音频编码器20包含用于确定具有一个或多个音频元素50的至少一个分组的响度值的响度确定器21。在所示出的示例中，存在三个音频源X₁、X₂及X₃，每个被一个分组所包含。它们中的两个X₂及X₃的响度值被确定为L₂及L₃并被提交至元数据写入器22。元数据写入器22将所确定的用于两个分组X₂及X₃的响度值作为相对应的分组参考响度信息L₂及L₃引入至音频信号100的元数据中。

作为分组X₁、X₂及X₃的参考增益g₁、g₂、g₃的增益值也被元数据写入器22插入至音频信号100的元数据中。根据另一实施例，对于特定预设定和/或不同回放配置，确定分组响度和参考增益值。并且，测量用于不同预设定的响度作为各个响度整体L_p。

第一音频元素50(标记为X₁)的响度不通过响度确定器21被测量但通过估计器24被计算或估计(见上文的论述)且作为相对应的参考响度L₁被给定至元数据写入器22以被写入至元数据中。

在所示出的实施例中的控制器23被连接至响度确定器21以及元数据写入器22。控制器23确定哪个分组或哪些分组被考虑用于响度补偿增益C的确定或被忽略而不用于响度补偿增益C的确定。对于关于分组的使用的数据，指示通过元数据写入器22被写入至元数据中。相对应数据(例如，以标记的形式)指示哪个分组将被使用用于通过音频处理器或通过解码器确定响度补偿增益C或哪个分组将被忽略而不用于通过音频处理器或通过解码器确定响度补偿增益C。

所得音频信号100包含从音频对象50所接收的实际信号及表征实际信号及通过音频解码器1的其预期处理的元数据。元数据的数据是指音频对象的分组，而分组仅涵盖一个音频对象/元素也为可能的。

元数据含有以下数据中的至少一些：

·用于个别分组的经测量响度值L_i，

·描述相对于其他所关注分组一起的分组的响度或突出的个别分组的参考增益值g_i，

·作为用于给定预设定和/或给定回放配置的经组合分组的所得响度的参考响度L_ref，

·分组或其相对应值是否(例如，分组是否属于锚或分组的持续时间是否足够短以至于其可被忽略等)或如何(例如，用于参考及/或经修改响度的计算)被用于确定响度补偿增益C的指示符。

对于每个分组，元数据优选地含有用于不同预设定和/或不同回放配置的数据的不同集合。因此，不同记录及不同再现情境被考虑产生用于相关分组的不同数据集合。

本发明在下文中经由用于实施用户与音频编码系统的交互性的响度补偿的不同示例来解释。

·在编码器侧处，确定包括于默认音频场景和/或预设定中的每个分组的响度。将响度信息引入作为部分被音频流或音频信号包含的元数据中。

·多个响度值被包括用于至少一个分组，其中不同值与不同扬声器回放配置(例如，立体声、5.1或其他)相关联。

·在编码器侧上，产生对应于是否应包括分组以用于执行响度补偿(即，是否应考虑其以分别用于计算参考响度及经修改响度)的信息的额外元数据。举例而言，通过将元数据配置为仅包括为默认音频场景或经定义预设定的锚元素的一部分的分组而实现基于锚的响度补偿。

·解码器接收音频流，表示音频信号及相关联元数据。解码器将音频流解码以产生对应于声道和/或对象和/或高阶立体混响格式的经解码音频信号。

·基于所述元数据，解码器选择应被包括以用于给定音频场景或预设定的响度补偿的所有分组索引。

·在解码器处，基于每个所选择的分组的默认增益g_i及相对应响度信息来计算音频场景或预设定的参考响度L_ref。如果多个响度值被传输用于分组，则选择与给定回放扬声器配置相关联的响度值。

·类似地，在用户交互之后从所选择的分组的响度信息及经修改增益h_i计算经修改响度L_mod。

·基于参考响度L_ref及经修改响度L_mod计算用于默认音频场景或预设定的响度补偿增益C。

·响度补偿增益C被应用于提供输出信号的回放之前的音频信号。

在一些实施例中，在编码器处测量所有分组所需要的响度信息是不可行的。随后，编码器计算缺失分组响度值的估计。编码器还可应用不同方法来估计缺失(未测量)的分组响度信息。解码器处的响度补偿随后如在对于所有分组已经测量响度信息的情况下一样地被执行。

在其他实施例中，音频流包括仅用于有限数量的分组的响度信息。在此情况下，在解码器处估计缺失的分组响度信息。解码器处的响度补偿随后如在音频流的元数据中已经包括所有所需要的响度信息的情况下被执行。

如果在解码器处缺失执行正确响度补偿的任何所需要的分组响度信息，则另一实施例包括盲响度补偿作为回退模式。如上文所描述的用于确定用于选择待被包括于参考及经修改响度的计算中的索引的集合K_ref及K_mod的相同机制用于回退模式。换言之，分组索引的集合K_ref及K_mod的选择仍基于编码器侧处所产生的相对应信息，其被提供有音频流的元数据。

本发明的一些实施例将遵循可与前述内容组合的内容：

第一实施例涉及用于处理音频信号的音频处理器，所述音频处理器包括：用于响应于用户输入而修改音频信号的音频信号修改器；用于基于参考响度或参考增益及经修改响度或经修改增益而确定响度补偿增益的响度控制器，其中经修改响度或经修改增益取决于用户输入；以及用于使用响度补偿增益操控信号的响度的响度操控器。

依据第一实施例的第二实施例涉及装置，其中音频信号包含具有元数据的比特流，所述元数据包含用于分组的分组响度及用于分组的增益值。

依据第一或第二实施例的第三实施例涉及装置，其中响度控制器用于使用用于分组或分组的集合的一个分组响度或多个分组响度及一个增益值或多个增益值来计算用于分组或分组的集合的参考响度，及使用用于分组或分组的集合的一个分组响度或多个分组响度及一个经修改增益值或多个经修改增益值来计算用于分组或分组的集合的经修改响度，其中一个经修改增益值或多个经修改增益值通过用户输入被修改。

依据前述实施例中的一个的第四实施例涉及装置，其中响度控制器用于当分组在音频信号的元数据中被丢弃时，丢弃该分组不用于确定参考响度，或其中响度控制器用于当响应于用户输入而关闭分组时，当确定参考响度时丢弃该分组，或其中响度控制器用于当分组在元数据中被关闭并通过用户输入被开启时，将分组从参考响度的计算排除，或反之亦然。

依据前述实施例中的一个的第五实施例涉及装置，其中响度控制器用于通过将参考响度与预设定的响度相关而计算响度补偿增益，其中预设定包含一个或多个分组，且其中分组包含一个或多个对象。

依据前述实施例中的一个的第六实施例涉及装置，其中响度控制器用于对响度补偿增益执行限制操作以使得响度补偿增益小于上阈值或以使得响度补偿增益大于下阈值。

依据前述实施例中的一个的第七实施例涉及装置，其中响度操控器用于将增益应用于通过响度补偿增益及通过原始标准化增益所确定的信号，原始标准化增益由音频处理器所设定的目标位准及音频信号的元数据中所指示的元数据位准所确定。

依据前述实施例中的一个的第八实施例涉及装置，其中音频信号包含指示哪个分组将用于响度补偿增益的确定或哪个分组将不用于确定响度补偿增益的补偿元数据信息，且其中响度控制器用于仅使用被补偿元数据信息指示为被使用的用于确定响度补偿增益的分组或不使用被补偿元数据信息指示为不被使用的用于确定响度补偿增益的分组。

依据前述实施例中的一个的第九实施例涉及装置，其中音频信号被指示具有锚元素，其中响度控制器用于仅使用锚元素的音频对象或音频对象的分组的信息用于确定响度补偿增益。

依据第一至第八实施例中的一个的第十实施例涉及装置，其中音频信号被指示具有锚元素，其中响度控制器用于当锚元素的一个或多个音频对象通过用户输入被放大时，仅使用锚元素的音频对象或音频对象的分组的信息用于确定响度补偿增益，并且当锚元素的一个或多个音频对象通过用户输入被减弱时，使用来自锚元素的一个或多个音频对象的信息及不包括于锚元素中的一个或多个音频对象的信息。

依据前述实施例中的一个的第十一实施例涉及装置，其中响度控制器用于使用包含至少两个分组及增益及对于预设定不缺失的响度信息的预设定的响度来计算音频信号中缺失的分组响度。

依据前述实施例中的一个的第十二实施例涉及装置，其中响度控制器用于使用用于一个或多个分组的一个或多个增益值及用于一个或多个分组的一个或多个经修改增益值来执行盲响度补偿。

依据前述实施例中的一个的第十三实施例涉及装置，其中响度控制器用于检查音频信号是否包含参考响度信息，且如果音频信号不包含参考响度信息，则使用用于一个或多个分组的一个或多个增益值及用于一个或多个分组的一个或多个经修改增益值来执行盲响度补偿，或检查经修改响度信息是否无法被计算并当经修改的响度信息无法被计算时执行盲响度补偿，其中盲响度补偿包含使用用于一个或多个分组的一个或多个增益值及用于一个或多个分组的一个或多个经修改增益值。

依据前述实施例中的一个的第十四实施例涉及装置，其中音频信号包含用于不同回放配置的不同参考响度信息值，其中所述装置进一步包含用于将信号转换至预定义回放配置的格式转换器，且其中响度控制器用于选择用于被格式转换器所使用的特定回放配置的特定响度值。

第十五实施例涉及用于产生包含元数据的音频信号的音频编码器，其包括：用于确定用于具有一个或多个音频对象的分组的响度的响度确定器；及用于将用于分组的响度作为参考响度信息引入至元数据中的元数据写入器。

依据第十五实施例的第十六实施例涉及音频编码器，其中响度确定器用于确定用于不同回放配置的不同响度值，且其中元数据写入器用于将与不同回放配置相关联的不同响度值引入至元数据中。

依据第十五或第十六实施例的第十七实施例涉及音频编码器，其进一步包括用于确定哪个分组是否将用于响度补偿的控制器，且其中元数据写入器用于将指示写入至元数据中，指示哪个分组将用于或哪个分组将不用于响度补偿。

依据第十五至第十七实施例中的一个的第十八实施例涉及音频编码器，其中响度确定器用于计算用于分组的分组响度值，其中用于分组的分组响度值在元数据中缺失，且其中元数据写入器用于将缺失响度值引入至元数据中以使得音频信号的所有分组具有相关联的参考响度信息。

第十九实施例涉及用于处理音频信号的方法，其包括：响应于用户输入而修改音频信号；基于参考响度或参考增益及经修改响度或经修改增益确定响度补偿增益，其中经修改响度或经修改增益取决于用户输入；及使用响度补偿增益操控信号的响度。

第二十实施例涉及用于产生包含元数据的音频信号的方法，其包括：确定用于具有一个或多个音频对象的分组的响度；及将用于分组的响度作为参考响度信息引入至元数据中。

第二十一实施例涉及用于当在计算机或处理器上运行时执行根据第十九实施例的方法或根据第二十实施例的方法的计算机程序。

尽管已在装置的上下文中描述一些方面，但显而易见，这些方面也表示对应方法的描述，其中块或设备对应于方法步骤或方法步骤的特征。类似地，方法步骤的上下文中所描述的方面也表示对应装置的对应块或条目或特征的描述。可由(或使用)硬件装置，类似于例如微处理器、可编程计算机或电子电路来执行方法步骤中的一些或全部。在一些实施例中，可由这种装置来执行最重要方法步骤中的某一个或多个。

本发明的经传输或经编码信号可存储于数字存储介质上或可在诸如无线传输介质或诸如因特网的有线传输介质的传输介质上传输。

取决于某些实施要求，本发明的实施例可以硬件或软件实施。可使用其上存储有电子可读控制信号、与可编程计算机系统协作(或能够协作)使得执行各个方法的数字存储介质(例如，软盘、DVD、蓝光、CD、ROM、PROM及EPROM、EEPROM或闪存)来执行实施。因此，数字存储介质可以是计算机可读的。

根据本发明的一些实施例包含具有电子可读控制信号的数据载体，所述控制信号能够与可编程计算机系统协作，使得执行本文中所描述的方法中的一个。

大体而言，本发明的实施例可实施为具有程序代码的计算机程序产品，当计算机程序产品在计算机上运行时，程序代码操作性地用于执行所述方法中的一个。程序代码可例如被存储于机器可读载体上。

其他实施例包含储存于机器可读载体上的用于执行本文中所描述的方法中的一个的计算机程序。

换言之，因此，本发明方法的实施例为具有程序代码的计算机程序，当计算机程序在计算机上运行时，程序代码用于执行本文中所描述的方法中的一个。

因此，本发明方法的另一实施例为包含其上记录的用于执行本文中所描述的方法中的一个的计算机程序的数据载体(或诸如数字存储介质的非暂时性存储介质，或计算机可读介质)。数据载体、数字存储介质或记录介质通常为有形的和/或非暂时性的。

因此，本发明方法的另一实施例为表示用于执行本文中所描述的方法中的一个的计算机程序的数据流或信号序列。数据流或信号序列可例如用于经由数据通信连接，例如，经由因特网，被传送。

另一实施例包含处理装置，例如，被配置或被调适以执行本文中所描述的方法中的一个的计算机或可编程逻辑设备。

另一实施例包含计算机，其上安装有用于执行本文中所描述的方法中的一个的计算机程序。

根据本发明的另一实施例包含用于将用于执行本文中所描述的方法中的一个的计算机程序传送(例如，电子地或光学地)至接收器的装置或系统。接收器可例如为计算机、移动设备、存储器设备等。装置或系统可例如包含用于将计算机程序传送至接收器的文件服务器。

在一些实施例中，可编程逻辑设备(例如，现场可编程门阵列)可用于执行本文中所描述的方法的功能性中的一些或全部。在一些实施例中，现场可编程门阵列可与微处理器协作，以便执行本文中所描述的方法中的一个。通常，所述方法优选地由任何硬件装置来执行。

上文所描述的实施例仅说明本发明的原理。应理解，对本文中所描述的布置及细节的修改及变化对本领域技术人员是显而易见的。因此，其旨在仅由所附的专利权利要求的范围的范所限制，而非由借助于本文中实施例的描述及解释所呈现的特定细节限制。

Claims

1.一种用于处理音频信号(100)的音频处理器(1)，包括：

音频信号修改器(2)，

其中所述音频信号修改器(2)用于响应于用户输入而修改所述音频信号(100)；

响度控制器(6)，

其中所述响度控制器(6)用于一方面基于参考响度(L_ref)或参考增益(g_i)及另一方面基于经修改响度(L_mod)或经修改增益(h_i)来确定响度补偿增益(C)，

其中所述经修改响度(L_mod)或所述经修改增益(h_i)取决于所述用户输入，

其中所述响度控制器(6)用于基于指示哪个分组将用于或将不用于确定响度补偿增益(C)的音频信号(100)的元数据来确定所述响度补偿增益(C)，以及

其中所述分组包含一个或多个音频元素；以及

响度操控器(5)，

其中所述响度操控器(5)用于使用所述响度补偿增益(C)操控信号的响度。

2.如权利要求1所述的音频处理器(1)，

其中所述响度控制器(6)用于基于所述元数据的数据所包含的至少一个标记确定所述响度补偿增益(C)，及

其中所述标记指示分组是否或如何被考虑用于确定所述响度补偿增益(C)。

3.如权利要求1或2所述的音频处理器(1)，

其中所述响度控制器(6)用于当所述分组属于所述音频信号(100)的所述元数据所包含的锚时，仅使用分组用于确定所述响度补偿增益(C)。

4.如权利要求3所述的音频处理器(1)，

其中所述响度控制器(6)用于当属于所述锚的至少一个分组的所述经修改增益(h_i)大于相对应的参考增益(g_i)时，仅使用属于所述锚的分组用于确定所述响度补偿增益(C)，

和/或

其中所述响度控制器(6)用于当属于所述锚的至少一个分组的所述经修改增益(h_i)小于相对应的参考增益(g_i)时，使用属于所述锚的分组及所述锚缺失的分组用于确定所述响度补偿增益(C)，以及

其中所述经修改增益(h_i)取决于所述用户输入。

5.一种用于处理音频信号(100)的音频处理器(1)，包括：

音频信号修改器(2)，

响度控制器(6)，

其中所述响度控制器(6)用于基于指向至少一个预设定的所述音频信号(100)的元数据来确定所述响度补偿增益(C)，

其中所述预设定指包括一个或多个音频元素的至少一个分组的集合；以及

响度操控器(5)，

6.如权利要求5所述的音频处理器(1)，

其中所述音频处理器(1)根据权利要求1至4中任一项而被配置。

7.如权利要求1至6中任一项所述的音频处理器(1)，

其中所述响度控制器(6)用于基于所述预设定所指向的所述集合的所述至少一个分组的分组响度(L_i)和/或增益值(g_i)来确定所述响度补偿增益(C)。

8.如权利要求1至7中任一项所述的音频处理器(1)，

其中所述响度控制器(6)用于使用各个分组响度(L_i)及各个增益值(g_i)来确定用于所述预设定所指向的所述集合的所述参考响度(L_ref)，

其中所述响度控制器(6)用于使用各个分组响度(L_i)及各个经修改增益值(h_i)来确定用于所述预设定所指向的所述集合的所述经修改响度(L_mod)，以及

其中所述经修改增益值(h_i)通过所述用户输入被修改。

9.如权利要求5至8中任一项所述的音频处理器(1)，

其中所述响度控制器(6)用于基于指向所选择的预设定的所述元数据的数据来确定所述响度补偿增益(C)，以及

其中所述预设定通过所述用户输入被选择。

10.如权利要求5至9中任一项所述的音频处理器(1)，

其中所述响度控制器(6)用于基于指向默认预设定的所述元数据的数据来确定所述响度补偿增益(C)，以及

其中所述默认预设定是在用户输入之前或独立于用户输入而被设定的。

11.一种用于处理音频信号(100)的音频处理器(1)，包括：

音频信号修改器(2)，

响度控制器(6)，

其中所述响度控制器(6)用于基于指示分组是否被关闭或开启的所述音频信号(100)的元数据来确定所述响度补偿增益(C)，

其中所述分组包括一个或多个音频元素；以及

响度操控器(5)，

12.如权利要求11所述的音频处理器(1)，

其中所述音频处理器(1)根据权利要求1至10中任一项而被配置。

13.如权利要求11或12所述的音频处理器(1)，

其中所述响度控制器(6)用于当响应于所述用户输入关闭分组时丢弃所述分组以不用于确定所述经修改响度(L_mod)。

14.如权利要求11至13中任一项所述的音频处理器(1)，

其中所述响度控制器(6)用于当在所述元数据中关闭分组时丢弃所述分组以不用于确定所述参考响度(L_ref)，以及当通过所述用户输入开启所述分组时包括所述分组以用于确定所述经修改响度(L_mod)，

和/或

其中所述响度控制器(6)用于当在所述元数据中开启分组时包括所述分组以用于确定所述参考响度(L_ref)，以及当通过所述用户输入关闭所述分组时排除所述分组以不用于确定所述经修改响度(L_mod)。

15.一种用于处理音频信号(100)的音频处理器(1)，包括：

音频信号修改器(2)，

响度控制器(6)，

其中所述响度控制器(6)用于基于具有所述音频信号(100)所包含的分组的元数据中缺失的至少一个分组响度的所述音频信号(100)的元数据来确定所述响度补偿增益(C)；以及

响度操控器(5)，

其中所述响度操控器(5)用于使用所述响度补偿增益(C)操控信号(101)的响度。

16.如权利要求15所述的音频处理器(1)，

其中所述音频处理器(1)根据权利要求1至14中任一项而被配置。

17.如权利要求15或16所述的音频处理器(1)，

其中所述响度控制器(6)用于使用预设定的响度(L_p)、具有缺失分组响度的所述分组的所述参考增益(g_i)以及具有分组响度(L_i)的分组的分组响度(L_i)及参考增益(g_i)来计算所述缺失分组响度(L_A)。

18.如权利要求15至17中任一项所述的音频处理器(1)，

其中所述响度控制器(6)用于在所述音频信号(100)的所述元数据缺失用于盲响度补偿的至少一个分组响度的情况下仅使用至少一个参考增益(g_i)及至少一个经修改增益(h_i)来确定所述响度补偿增益(C)。

19.如权利要求15至18中任一项所述的音频处理器(1)，

其中所述响度控制器(6)用于在所述音频信号(100)的所述元数据不具有用于盲响度补偿的分组响度的情况下仅使用至少一个参考增益(g_i)及至少一个经修改增益(h_i)来确定所述响度补偿增益(C)。

20.一种用于处理音频信号(100)的音频处理器(1)，包括：

音频信号修改器(2)，

响度控制器(6)，

其中所述响度控制器(6)用于基于指向用于所述信号(100)的再现的回放配置的所述音频信号(100)的元数据来确定所述响度补偿增益(C)；以及

响度操控器(5)，

21.如权利要求20所述的音频处理器(1)，

其中所述音频处理器(1)根据权利要求1至19中任一项而被配置。

22.如权利要求20或21所述的音频处理器(1)，

其中所述响度控制器(6)用于基于指向回放配置且包含相关联的分组响度(L_i)和/或参考增益值(g_i)的所述元数据的数据来确定所述响度补偿增益(C)。

23.如权利要求1或22任一项所述的音频处理器(1)，

其中所述音频信号(100)包括具有所述元数据的比特流，且

其中所述元数据包括用于至少一个分组的所述参考增益(g_i)。

24.如权利要求1至23中任一项所述的音频处理器(1)，

其中所述音频信号(100)的所述元数据包括用于至少一个分组的分组响度(L_i)。

25.如权利要求1至24中任一项所述的音频处理器(1)，

其中所述响度控制器(6)用于使用用于所述分组的所述分组响度(L_i)及所述增益值(g_i)来确定用于至少一个分组的所述参考响度(L_ref)，

其中所述响度控制器(6)用于使用所述分组响度(L_i)及所述经修改增益值(h_i)来确定用于所述分组的所述经修改响度(L_mod)，以及

其中所述经修改增益值(h_i)通过所述用户输入而被修改。

26.如权利要求1至25中任一项所述的音频处理器(1)，

其中所述响度控制器(6)用于使用用于分组的各个分组响度(L_i)及增益值(g_i)来确定用于多个分组的所述参考响度(L_ref)，

其中所述响度控制器(6)用于使用用于分组的各个分组响度(L_i)及经修改增益值(h_i)来确定用于多个分组的所述经修改响度(L_mod)。

27.如权利要求1至26中任一项所述的音频处理器(1)，

其中所述响度控制器(6)用于对所述响度补偿增益(C)执行限制操作以使得所述响度补偿增益(C)小于上阈值(C_max)和/或以使得所述响度补偿增益(C)大于下阈值(C_min)。

28.如权利要求1至27中任一项所述的音频处理器(1)，

其中所述响度操控器(5)用于将经校正增益(G_corrected)应用至通过所述响度补偿增益(C)及通过标准化增益(G_N)所确定的信号，所述标准化增益(G_N)通过由用户输入所设定的目标响度位准及所述音频信号(100)的所述元数据所包含的元数据响度位准而被确定。

29.一种用于产生包含元数据的音频信号(100)的音频编码器(20)，包括：

响度确定器(21)，用于确定用于具有一个或多个音频元素(50)的至少一个分组的响度值；以及

元数据写入器(22)，用于将所确定的响度值作为分组响度(L_i)引入至所述元数据中。

30.如权利要求29所述的音频编码器(20)，

其中所述响度确定器(21)用于确定用于不同回放配置的不同响度值和/或不同增益值，以及

其中所述元数据写入器(22)用于将与各个回放配置相关联的所确定的不同响度值和/或不同增益值引入所述元数据中。

31.如权利要求29或30所述的音频编码器(20)，

其中所述响度确定器(21)用于确定用于指向包含一个或多个音频元素的至少一个分组的集合的不同预设定的不同响度值和/或不同增益值，以及

其中所述元数据写入器(22)用于将与各个预设定相关联的所确定的不同响度值和/或不同增益值引入至所述元数据中。

32.如权利要求29至31中任一项所述的音频编码器(20)，

还包括控制器(23)，

其中所述控制器(23)用于确定哪个分组将用于确定响度补偿增益(C)或将被忽略，以及

其中所述元数据写入器(22)用于将指示写入至所述元数据中，指示哪个分组将被用于确定所述响度补偿增益(C)或将被忽略而不用于确定所述响度补偿增益(C)。

33.如权利要求29至32中任一项所述的音频编码器(20)，

还包括估计器(24)，

其中所述估计器(24)用于计算用于分组的分组响度值，

其中所述用于分组的分组响度值未通过所述响度确定器(21)而被确定，且

其中所述元数据写入器(22)用于将所计算出的分组响度值引入至所述元数据中以使得所述音频信号(100)的所有分组具有相关联的分组响度。

34.一种用于处理音频信号(100)的方法，包括：

响应于用户输入而修改所述音频信号(100)；

一方面基于参考响度(L_ref)或参考增益(g_i)及另一方面基于经修改响度(L_mod)或经修改增益(h_i)来确定响度补偿增益(C)，

其中基于指示所述音频信号(100)所包含的分组是否将用于或不用于确定所述响度补偿增益(C)的所述音频信号(100)的元数据来确定所述响度补偿增益(C)，其中所述分组包含一个或多个音频元素，

和/或

其中基于指向预设定的所述音频信号(100)的元数据来确定所述响度补偿增益(C)，其中所述预设定指包含一个或多个音频元素的至少一个分组的集合，

和/或

其中基于指示分组是否被关闭或开启的所述音频信号(100)的元数据来确定所述响度补偿增益(C)，其中所述分组包含一个或多个音频元素，

和/或

其中基于具有所述音频信号(100)所包含的分组的元数据中缺失的至少一个分组响度(L_A)的所述音频信号(100)的元数据来确定所述响度补偿增益(C)，

和/或

其中基于指向用于所述信号(100)的再现的回放配置的所述音频信号(100)的元数据来确定所述响度补偿增益(C)；以及

使用所述响度补偿增益(C)操控信号的响度。

35.一种用于产生包含元数据的音频信号(100)的方法，包括：

确定用于具有一个或多个音频元素的分组的响度值；以及

将用于所述分组的所确定的响度值作为分组响度(L_i)引入至所述元数据中。

36.一种计算机程序，用于当在计算机或处理器上运行时，执行如权利要求34所述的方法或如权利要求35所述的方法。