CN111713016B

CN111713016B - 响度控制方法和装置

Info

Publication number: CN111713016B
Application number: CN201980012958.3A
Authority: CN
Inventors: S·G·诺克罗斯; M·格兰特; J·S·考德里; S·南达; N·V·沙阿
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2018-02-15
Filing date: 2019-02-15
Publication date: 2023-11-28
Anticipated expiration: 2039-02-15
Also published as: JP2021514136A; JP7309734B2; CN111713016A; EP3753105B1; EP3753105A1; WO2019161191A1; US20210120337A1; US11330370B2

Abstract

可以处理第一格式的音频数据以生成第二格式的音频数据，第二格式可以是第一格式的删减或简化版本。响度校正过程可以生成经响度校正的所述第二格式的音频数据。可以确定所述第二格式的所述音频数据的第一功率和所述经响度校正的所述第二格式的音频数据的第二功率。用于所述第二格式的所述音频数据的第二格式响度校正因数可以至少部分地基于所述第一功率和所述第二功率之间的功率比。用于所述第一格式的所述音频数据的第一格式响度校正因数可以至少部分地基于所述功率比和所述第一格式的所述音频数据和所述第二格式的所述音频数据之间的功率关系。

Description

响度控制方法和装置

技术领域

本公开涉及音频信号的处理。具体地，本公开涉及处理音频信号以管理和控制响度。

背景技术

节目的响度管理现在是广播产业的基本部分，因此，对此些节目而言，响度的测量和校正是很平常的。部分原因在于国际电信联盟(ITU-R)的无线电通信部门公布的各种建议，特别是ITU-R BS.1770建议，其是全球实施的各种规章的基础。响度测量通常基于平均语音响度或平均对话响度，或基于节目的平均全混音(所有声道使用如BS.1770中描述的选通的相对电平)。

发明内容

本文公开了各种音频处理方法。一种此类方法可以包括接收第一格式的音频数据并处理第一格式的音频数据以生成第二格式的音频数据。第二格式可以是或可以包含第一格式的删减或简化版本。所述方法可以包括对第二格式的音频数据执行响度校正过程，以生成经响度校正的第二格式的音频数据。所述方法可以包括确定第二格式的音频数据的第一功率和确定经响度校正的第二格式的音频数据的第二功率。所述方法可以包括确定用于第二格式的音频数据的第二格式响度校正因数。第二格式响度校正因数可以至少部分地基于第一功率与第二功率的功率比。

在一些实例中，所述方法可以包括确定第一格式的音频数据和第二格式的音频数据之间的功率关系。所述方法可以包括确定用于第一格式的音频数据的第一格式响度校正因数，所述第一格式响度校正因数可以至少部分地基于功率比和功率关系。所述方法可以包括输出第一格式响度校正因数和第二格式响度校正因数。

根据一些实例，第一格式可以是基于第一声道的格式。在一些此类实例中，第二格式可以是基于第一声道的格式的缩减混音。在一些实例中，功率关系可以对应于基于第一声道的格式的音频数据的功率和缩减混音的音频数据的功率之间的差。

在一些实施方案中，第一格式可以包含用于顶置扬声器的音频数据。根据一些此类实施方案，第二格式可以不包含用于顶置扬声器的音频数据。在一些实例中，功率关系可以对应于用于顶置扬声器的音频数据的功率。

根据一些实施方案，响度校正过程可以包括第一响度测量过程、响度调整过程和第二响度测量过程。第一响度测量过程例如可以包括一或多个线性处理操作，随后是混音操作，随后是一或多个非线性处理操作。在一些实例中，线性处理操作可以包括应用K加权滤波器和应用空间增益。根据一些实例，混音操作可以包含生成第三格式的第三音频数据的缩减混音操作。第三格式例如可以是第二格式的删减或简化版本。根据一些实施方案，第二格式的音频数据可以包含对话音频数据以及音乐和音频效果(M&E)音频数据。在一些实施方案中，对话音频数据可以包含多种语言的对话音频数据。例如可以对多种语言中的每一种的对话音频数据分别执行线性处理操作。根据一些实例，对于M&E音频数据的线性处理操作可以与对于对话音频数据的线性处理操作分开执行。根据一些实施方案，第一格式的音频数据可以至少包含第一对话和M&E音频数据。

在一些实例中，第一格式可以是音频对象格式。第二格式例如可以是音频对象格式的简化版本。

本文公开了各种可替代音频处理方法。一种此类方法可以包括接收用于第一格式的音频数据的第一格式响度校正因数和用于第二格式的音频数据的第二格式响度校正因数。第二格式响度校正因数在本文中被称为“接收的第二格式响度校正因数”，以便将接收的第二格式响度校正因数与调整的或修改的第二格式响度校正因数区分开。

所述方法可以包括接收第一格式的音频数据和接收第一格式的音频数据和第二格式的音频数据之间的修正的功率关系的指示。在一些实例中，所述方法可以包括至少部分地基于第一格式响度校正因数和修正的功率关系来调整所接收的第二格式响度校正因数。

根据一些实例，第二格式的音频数据可以是第一格式的音频数据的缩减混音或渲染。第二格式例如可以是Dolby 5.1格式，而第一格式可以是Dolby 5.1.2格式。在一些可替代实施方案中，第二格式可以是Dolby 5.1格式，而第一格式可以是Dolby 7.1.4格式。

在一些实施方案中，修正的功率关系可以是原始功率关系的变更。根据一些实施方案，原始功率关系可以指示与第一格式的声道相对应的音频数据的电平在生成第二格式的音频数据的缩减混音处理期间如何被改变。

本文描述的一些或所有方法可以由一或多个装置根据存储在一或多个非暂时性介质上的指令(例如软件)来执行。此类非暂时性介质可以包含例如本文描述的那些存储器装置，包含但不限于随机存取存储器(RAM)装置、只读存储器(ROM)装置等。因此，本公开中描述的主题的各种创新方面可以在其上存储有软件的一或多个非暂时性介质中实现。软件可以例如包含用于控制至少一个装置的指令，以处理音频数据。例如，软件可以由控制系统的一或多个部件执行，例如本文公开的那些部件。

本公开的至少一些方面可以经由设备来实现。例如，一或多个装置可以经配置用于至少部分地执行本文公开的方法。在一些实施方案中，设备可以包含接口系统和控制系统。接口系统可以包含一或多个网络接口、控制系统和存储器系统之间的一或多个接口、控制系统和另一装置之间的一或多个接口和/或一或多个外部装置接口。控制系统可以包含通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑或离散硬件部件中的至少一个。

本说明书中描述的主题的一或多个实施方案的细节在附图和以下描述中阐明。通过描述、附图和权利要求书，其它特征、方面和优点将变得显而易见。注意，以下附图的相对尺寸可以不按比例绘制。

附图说明

图1为展示可经配置以执行本文所公开的至少一些方法的设备的部件的实例的框图。

图2为概述根据一个实例的方法的框的流程图。

图3为展示图2的方法的实例的框图。

图4A为表示在ITU-R BS.1770建议的附录1(“附录1”)中概述的响度测量过程的框图。

图4B展示附录1中公开的坡型滤波器的频率响应。

图4C展示附录1中公开的高通滤波器的频率响应。

图5为表示在ITU-R BS.1770建议中概述的响度测量过程的修改版本的框图。

图6为表示在ITU-R BS.1770建议中概述的响度测量过程的另一修改版本的框图。

图7为表示图6的方法的更一般化版本的框图。

图8为概述图7中所概述的方法的一个实例的框的流程图。

图9A为表示缩减混音和响度测量的常规处理的框图。

图9B为表示新颖的缩减混音和响度测量过程的实例的框图。

图10为展示图2和3中概述的过程的可替代实例的框图。

图11示出根据一个实例的下采样音频信号的近似加权。

在各个附图中，相同的附图标记和名称指示相同的元件。

具体实施方式

为了描述本公开的一些创新方面以及可以实现这些创新方面的上下文的实例，以下描述针对某些实施方案。例如，虽然本文公开的许多实例将具体地引用Dolby 5.1格式，但是这些实例并不旨在限制本发明。相反，这些实例仅仅是可以通过任何适当格式实现的例子。然而，本文的教导可以以各种不同的方式应用。此外，所描述的实施例可以以各种硬件、软件、固件等来实现。例如，本申请的各方面可以至少部分地在设备、包含多于一个装置的系统、方法、计算机程序产品等中体现。因此，本申请的各方面可以采取硬件实施例、软件实施例(包括固件、驻留软件、微代码等)和/或组合软件和硬件方面的实施例的形式。此类实施例在本文中可以称为“电路”、“模块”、“引擎”、“过程”或“框”。本申请的一些方面可以采取包含在一或多个非暂时性介质中的计算机程序产品的形式，所述非暂时性介质具有包含在其上的计算机可读程序代码。这种非暂时性介质例如可以包含硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或上述的任何适当组合。因此，本公开的教导不旨在限于图中所示和/或本文中所描述的实施方案，而是具有广泛适用性。

如上所述，响度管理现在是广播行业的基本部分。在如今的广播中，将测量完整的节目混音。在基于传统声道的实例中，如果节目的音频是Dolby环绕声5.1格式(在本文中也可以称为“Dolby 5.1”或简称为“5.1”)，则可以测量将被递送并回放给消费者/用户的完整的5.1混音以用于响度管理。例如，节目的音频可以包含5.1声道或2声道立体声混音，其中每个包含所有元素、音乐和效果(M&E)和对话。完整的音频节目或演示被呈现出来，并且这是将被递送和回放给收听者的内容。递送收听者将接收到的内容的精确混音允许对例如响度等节目特性的更多控制。可以测量、校正和规范所递送的节目的响度，这可通过在递送节目之前对节目执行那些过程实现。

在许多广播区域中需要多语言支持和/或音频描述支持。因为广播电台可能需要确保所有节目满足要求的响度规定，所以除了承载附加节目所需的额外带宽之外，可能需要大量的响度测量。一些广播电台可以以多声道格式提供主要服务(例如，用于一个国家最广泛说的语言)，但是附加的语言服务或视频描述服务可能仅作为立体声节目携带。

在一些实例中，节目的音频可以包括“音频对象”。这种音频对象可以包含音频数据(其可以是单声道音频数据)和相关联的元数据。元数据例如可以包含指示音频对象在三维空间中的位置、大小和/或轨迹的数据等。音频对象对于最终将在其上再现音频的再现系统的类型可以是不可知的：可以根据再现系统的能力将音频对象渲染给扬声器馈送信号。

对于下一代音频系统，最终的混音可能不是递送给消费者/用户的混音。在基于对象的音频的情况下，音频对象可以与关于音频对象应当如何在回放侧被再现的信息(例如，以元数据的形式)一起被递送，但是音频的最终混音可能不被递送。所述方法允许对多个回放场景(例如多语言支持和音频描述)的音频进行更有效的编码。然而，所述方法带来了关于如何进行响度测量和/或校正的挑战。一个此类挑战具有复杂性，意味着通常需要进行更多的响度测量。

在许多例子或应用中，不需要进行精确/准确的响度测量。一种此类情况是实时响度校正，尝试基于节目的当前短期特性来校正节目的响度。

对于整个节目的基于文件的响度校正，可以首先测量整个节目的响度或平均响度，并且可以根据所述结果来校正/规范所述文件。对于以一种格式递送但可以以各种格式(诸如Dolby 7.1.4或基于对象的音频)再现的节目，由于各种回放配置的响度一致性，一种格式的响度测量(例如Dolby环绕5.1版本的响度测量)可用于校正所有回放环境。

对于实时响度校正，其中，可以在比整个节目更短的时间尺度上(例如，在秒的量级上)调整/校正节目音频，需要进行更频繁的响度测量。因此，需要用于降低音频测量复杂度的方法。基于音频数据的短期测量(包括响度)的处理可用于实时修改/调整音频，使得所得音频满足所需电平或特性。

在某些情况下，可能不希望直接修改或破坏性地改变音频，而是可能希望计算可进一步在下游使用以校正/处理音频的信息(例如元数据)。在某些情况下，其原因是“更好地”处理，包含但不限于分析和/或测量，可以通过下游过程来实现。在一些实例中，原因是至少一些音频回放参数可能直到节目被处理用于再现才被完全定义。这可以是当经由基于对象的音频或经由M&E加多个对话来提供节目时的情况。在此类情况下，音频的处理通常在回放时完成，例如在回放装置中完成。

鉴于前述内容，本公开的一些方面可提供用于音频处理的改进方法。图1为展示可经配置以执行本文所公开的至少一些方法的设备的部件的实例的框图。在一些实例中，设备105可以是经配置为广播企业提供音频处理的装置，而在其它实例中，设备105可以是经配置为再现环境提供音频处理的装置。在一些实施方案中，设备105可以是经配置为网络中的装置提供音频处理的装置，例如从广播企业接收音频数据并向再现环境提供经处理的音频数据的装置。

设备105的部件可以经由硬件、经由存储在非暂时性介质上的软件、经由固件和/或通过其组合来实现。图1中展示的部件的类型和数量，以及本文公开的其它附图，仅作为实例展示。可替代实施方案可以包括更多、更少和/或不同的部件。

在此实例中，设备105包括接口系统110和控制系统115。接口系统110可以包括一或多个网络接口、控制系统115和存储器系统之间的一或多个接口和/或一或多个外部设备接口(例如一或多个通用串行总线(USB)接口)。在一些实施方案中，接口系统110可以包含用户界面系统。用户界面系统可以经配置以用于接收来自用户的输入。在一些实施方案中，用户界面系统可经配置以向用户提供反馈。例如，用户界面系统可以包含具有相应的触摸和/或姿势检测系统的一或多个显示器。在一些实例中，用户界面系统可以包含一或多个扬声器。根据一些实例，用户界面系统可以包含用于提供触觉反馈的设备，例如电动机、振动器等。控制系统115例如可以包含通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、离散门或晶体管逻辑，和/或离散硬件部件。

在一些实例中，设备105可以在单个装置中实现。然而，在一些实施方案中，设备105可以在多于一个装置中实现。在一些此类实施方案中，控制系统115的功能可以包含在多于一个装置中。在一些实例中，设备105可以是另一装置的部件。

图2为概述根据一个实例的方法的框的流程图。在某些情况下，此方法可由图1的设备或本文公开的另一类型的设备来执行。在一些实例中，方法200的框可经由存储在一或多个非暂时性介质上的软件来实现。方法200的框，与本文描述的其它方法一样，不一定按指示的顺序执行。此外，此类方法可以包含比展示和/或描述的更多或更少的框。

在此实施方案中，框205涉及接收第一格式的音频数据。框205例如可以包括控制系统(例如图1的控制系统115)，所述控制系统经由接口系统(例如图1的接口系统110)接收第一格式的音频数据。

对于具有多个声道、高阶Ambisonics(HOA)流的多个对象或分量的音频信号，由于复杂性原因，可能希望在数量减少的声道或流上进行处理。知晓音频的完整表示和简化表示之间的关系可用于接近处理或所述处理的元数据表示，当将所述关系应用于处理后的表示时，将对完整表示进行所述处理。

因此，根据此实施方案，框210包括处理第一格式的音频数据以生成第二格式的音频数据。在此实例中，第二格式是第一格式的删减或简化版本。

根据一些此类实例，第一格式可包含用于“顶置声道”的音频数据，例如对应于再现环境的顶置扬声器或天花板扬声器的基于声道或基于对象的信息。第二格式可以不包含用于顶置扬声器的音频数据。在一些实施方案中，第一格式可以是音频对象格式。第二格式可以是音频对象格式的简化版本。在一些基于声道的实施方案中，第一格式可以是基于第一声道的格式，而第二格式可以是基于第一声道的格式的缩减混音。在一些实例中，第一格式和/或第二格式的音频数据可以包含对话音频数据以及音乐和音频效果(M&E)音频数据。下面描述一些详细的实例。

在此实施方案中，框215涉及对第二格式的音频数据执行响度校正过程以生成经响度校正的第二格式的音频数据。在一些实例中，响度校正过程可以包含第一响度测量过程、响度调整过程和第二响度测量过程。第一响度测量过程可以符合ITU-R BS.1770建议。

根据一些此类实例，第一响度测量过程可以包括一或多个线性处理操作，随后是混音操作，随后是一或多个非线性处理操作。例如，线性处理操作可以包含应用K加权滤波器和应用空间增益。根据一些实例，混音操作可以包含生成第三格式的第三音频数据的缩减混音操作。第三格式可以是第二格式的删减或简化版本。

在图2所示的实例中，框220包括确定第二格式的音频数据的第一功率，而框225包括确定经响度校正的第二格式的音频数据的第二功率。术语“第一功率”和“第二功率”仅仅是用于将第二格式的音频数据的功率与经响度校正的第二格式的音频数据的功率区分开的术语，并且不旨在传达例如“第一功率”和“第二功率”之间的时间关系。确定第一功率和第二功率例如可以包括计算时间间隔期间音频数据的均方根。

根据此实施方案，框230包括确定第一功率与第二功率的功率比。在此实例中，框230包括确定用于第二格式的音频数据的响度校正因数。用于第二格式的音频数据的响度校正因数在本文将被称为“第二格式响度校正因数”。在此，第二格式响度校正因数至少部分地基于功率比。

根据此实例，框235包括确定第一格式的音频数据和第二格式的音频数据之间的功率关系。根据其中第一格式是基于声道的格式并且第二格式是基于第一声道的格式的缩减混音的一些实例，功率关系可以对应于基于第一声道的格式的音频数据的功率和缩减混音的音频数据的功率之间的差(或其比率)。在一些实例中，功率关系可由例如元数据等与第一格式的音频数据包含在一起的信息来指示。例如，功率关系可以对应于当再现第一格式的音频数据时要提供给顶置扬声器的功率。

在此实例中，框240包括确定用于第一格式的音频数据的响度校正因数。用于第一格式的音频数据的响度校正因数在本文中将被称为“第一格式响度校正因数”。在此实施方案中，第一格式响度校正因数至少部分地基于功率比和功率关系。根据此实例，框245包括输出第一格式响度校正因数和第二格式响度校正因数。

图3为展示图2的方法的实例的框图。图3的框与本文所公开的其它附图的框一样，可由硬件、软件(例如，根据存储在一或多个非暂时性介质上的软件)、固件和/或其组合来执行。根据此实例，第一格式的音频数据(在此例子中为Dolby 5.1.2)被缩减混音框305接收。这是图2的框205的实例。

在此实施方案中，第一格式的音频数据被缩减混音以生成第二格式的音频数据(在此实例中为Dolby 5.1)。这是图2的框210的实例。

如本领域普通技术人员所知，Dolby 5.1格式包含左屏幕声道、中心屏幕声道、右屏幕声道、左环绕声道和右环绕声道，其共同对应于Dolby 5.1格式的“5”。Dolby 5.1格式还包含对应于Dolby 5.1格式的“.1”的用于低频5.1效果(LFE)的独立声道。Dolby 5.1.2格式包含Dolby 5.1格式的所有声道，加上用于顶置扬声器的两个顶置声道，在某些情况下可以是用于天花板扬声器。这两个额外的顶置声道对应于Dolby 5.1.2格式的“.2”。

因此，输入到图3所示的缩减混音操作的音频数据为包含顶置扬声器声道的第一格式，而从缩减混音操作输出的音频数据为不包含顶置声道的第二格式。在这个例子中，“g”是可以用于缩减混音操作的因数。“g”的值可以对应于与5.1.2格式的音频数据的其它声道的功率相比的顶置扬声器的相对功率。因此，“g”的值可以指示在缩减混音操作期间如何将第一音频格式的顶置声道音频数据的功率分配给第二音频格式的其余声道。例如，g的值可以由内容创建者或由包括生成5.1.2格式的音频数据的另一个人来设置。

在图3展示的实例中，将从缩减混音操作输出的第二格式的音频数据提供给响度校正框310，所述响度校正框310经配置以生成经响度校正的第二格式的音频数据。第二格式的响度校正音频数据在图3中被标记为5.1’。所述过程是图2的框215的实例。

根据所述实例，响度校正框310包含响度测量框315和325，以及响度调整框320。在一些实例中，响度测量框315和325可以按照ITU-R BS.1770建议来配置。根据一些此类实例，响度测量框315和325可以根据ITU-R BS.1770建议的附录1来配置，所述建议据此以引用方式并入本文。然而，在可替代实施方案中，响度测量框315和325可以经配置以应用其它响度测量过程。

图4A为表示在ITU-R BS.1770建议的附录1(“附录1”)中概述的响度测量过程的框图。图4A展示输入用于响度测量的各个输入声道X₁–X_N。在图3所示的实例中，响度测量将基于五个输入声道：根据附录1中概述的响度测量过程，Dolby 5.1的LFE声道不包含在测量中。

在所述实例中，线性K加权过程由K加权框405应用于N个声道中的每一个，以生成滤波信号y₁–y_N。在此，K加权过程包含应用坡型滤波器的第一级和应用高通滤波器的第二级。坡型滤波器考虑了头部的声学效果，其中头部被建模为刚性球体。图4B展示附录1中公开的坡型滤波器的频率响应。图4C展示附录1中公开的高通滤波器的频率响应。在可替代实施方案中，可以在框405中应用一或多个其它类型的频率加权。例如，一些实施方案可以包含应用A加权或M加权过程。根据一些可替代实例，框405可包含另一类型的线性处理，例如向一或多个声道施加增益、施加时间延迟等。

回到图4A，在所述实例中，响度测量过程400的下一阶段由功率确定框410表示，其中确定了滤波信号y₁–y_N的均方。测量间隔T中的滤波信号y₁–y_N的均方z_i可以按如下测量：

在框415中，将加权系数G应用于由功率确定框410输出的均方值z₁–z_N。框415的结果在框420中被求和，并且测量间隔T上的响度计算在框425和430中完成。在所述实例中，如附录1中那样，响度L_k按如下确定：

为了根据附录1计算选通的响度测量，将间隔T划分为一组重叠的选通框间隔。选通框是一组持续时间T_g＝400ms的连续音频样本，最接近样本。每个选通框的重叠是选通框持续时间的75％。应用频率加权，然后对每个声道求平方。因此，对声道的功率执行剩余处理。

回到图3，在所述实例中，将以第二格式(在实例中为Dolby 5.1)从声道缩减混音操作输出的音频数据提供给响度测量框315和响度调整框320。响度调整框320经配置以根据从响度测量框315输出的响度测量来调整第二格式的音频数据的响度。在一些实例中，响度调整框320和响度测量框315和325可以经配置以执行一或多个过程，例如在美国专利申请公开2015/0194227A1中描述的那些过程，所述专利申请公开据此以引用方式并入本文。根据一些此类处理，响度调整框320可以应用感知均衡算法。在一些实例中，响度校正框310可以被配置用于接收音频信号和音频信号的期望响度、从音频信号中去除伪像、测量音频信号的实际响度、使用音频信号的期望响度和实际响度之间的差来计算增益值，以及使用增益值来修改音频信号。

在响度调整框320调整第二格式的音频数据的响度之后，将所得到的经响度校正的音频数据提供给响度测量框325。在所述实例中，如果响度测量框325确定经响度校正的音频数据符合ITU-R BS.1770建议，则从响度校正框310输出经响度校正的第二格式的音频数据。经响度校正的第二格式的音频数据在图3中表示为5.1’。如果响度测量框325确定经响度校正的音频数据不符合ITU-R BS.1770建议，则经响度校正的音频数据可由响度调整框320进一步处理。

在图3所示的实例中，经响度校正的第二格式的音频数据和未经校正的第二格式的音频数据被提供给校正因数确定框330和335。在此实例中，校正因数确定框330经配置以确定用于第一格式的音频数据的第一格式校正因数，且校正因数确定框335经配置以确定用于第二格式的音频数据的第二格式校正因数。

在所述实施方案中，校正因数确定框335经配置以确定第二格式的音频数据(在所述实例中为未校正的Dolby 5.1数据)的第一功率，并且经配置以确定经响度校正的第二格式的音频数据(在所述实例中为表示为Dolby 5.1’的经响度校正的音频数据)的第二功率。在此，校正因数确定框335经配置以确定第一功率与第二功率的功率比。在此实例中，校正因数确定框335经配置以确定并输出至少部分地基于功率比的第二格式校正因数。因此，在此实例中，校正因数确定框335经配置以执行图2的框220、225和230的过程以及框245的过程的一部分。

根据所述实施方案，校正因数确定框330还经配置以确定第二格式的音频数据的第一功率(在所述实例中为未校正的Dolby 5.1数据)，以及确定经响度校正的第二格式的音频数据的第二功率(在所述实例中为表示为Dolby 5.1’的经响度校正的音频数据)。在此，校正因数确定框330经配置以确定第一功率与第二功率的功率比。

在可替代实施方案中，校正因数确定框330或校正因数确定框335(但不是两者)可经配置以确定第一功率与第二功率的功率比。在此实施方案中，校正因数确定框330可以经配置为向校正因数确定框335提供功率比，反之亦然。

然而，在所述实例中，校正因数确定框330还经配置以接收第一格式的音频数据(在所述实例中为Dolby 5.1.2)并确定第一格式的音频数据和第二格式的音频数据之间的功率关系。在图3所示的实例中，校正因数确定框330经配置以通过接收形式为g的功率关系信息来确定功率关系，所述功率关系信息表示对应于与5.1.2格式的音频数据的其它声道的功率相比的顶置扬声器的相对功率的元数据。g的值可以由内容创建者或由包括生成5.1.2格式的音频数据的另一个人来设置。Dolby 5.1.2格式的音频数据具有左高扬声器声道和右高扬声器声道。在一些实例中，g的值可以指示在将用于左顶置扬声器声道的音频信号混音到用于左环绕扬声器的信号中之前，用于左顶置扬声器声道的音频信号的电平将被降低的分贝数。根据一些实施方案，g的值还可以指示在将用于右顶置扬声器声道的音频信号混音到用于右环绕扬声器的信号中之前，用于右顶置扬声器声道的音频信号的电平将被降低的分贝数。

根据所述实施方案，校正因数确定框330经配置以确定并输出用于第一格式的音频数据的第一格式响度校正因数。在所述实例中，第一格式响度校正因数至少部分地基于功率比和功率关系。因此，在此实例中，校正因数确定框330经配置以执行图2的框235和240的过程以及框245的过程的一部分。

第一格式校正因数和第二格式校正因数可以用第一格式和第二格式的音频数据编码。在回放时，装置(例如再现环境的装置)可以对第一格式的音频数据或第二格式的音频数据进行解码，并且根据第一格式校正因数或第二格式校正因数来应用响度校正过程。

根据其中第一格式是Dolby 5.1.2并且第二格式是Dolby 5.1的一些实例，校正因数确定框330可以经配置以基于Dolby 5.1输入的加权响度、Dolby 5.1音频数据的校正输出和部分校正因数来确定第一格式响度校正因数。根据一些此类实例，校正因数确定框330可以经配置以根据以下等式确定第一格式响度校正因数：

RTLL_Comp_512＝L_510_corrected/(L_510_input-部分校正因数)(等式3)

在等式3中，RTLL_Comp_512表示将5.1.2输入内容校正到目标响度所需的校正因数，L_510_corrected表示经校正的5.1音频数据的加权功率的均方(例如，其中左右环绕扬声器的信号被加权1.5dB的音频帧上的平均功率)，以及L_510_input表示输入的5.1音频数据的加权功率的均方(例如，其中左环绕扬声器和右环绕扬声器的信号被加权1.5dB的音频帧上的平均功率)。

在一个实例中，等式3的部分校正因数可以表示如下：

部分校正因数＝(1.414*g²-1)*(Lts²+Rts²)(等式4)

在等式4中，g表示用于将5.1.2顶置声道混音到目标5.1环绕声道中的关系，如本文别处所述。在等式4中，Lts和Rts分别表示左和右“顶部环绕”声道的电平。顶部环绕声道在此也称为顶置声道。

根据一些可替代实施方案，校正因数确定框330可以经配置以基于Dolby 5.1输入的加权响度、Dolby 5.1音频数据的校正输出和完全校正因数来确定第一格式响度校正因数。根据一些此类实例，校正因数确定框330可以经配置以根据以下等式确定第一格式响度校正因数：

RTLL_Comp_512＝L_510_corrected/(L_510_input-完全校正因数) (等式5)

除了“完全校正因数”之外，等式5的其它变量参考等式3如上所述。在一些实施方案中，所述完全校正因数可以按如下确定：

完全校正因数＝[(1.414*g²-1)*(Lts²+Rts²)+(2.828*g)*(Lts*Ls+Rts*Rs)]

(等式6)

在等式6中，Ls表示左环绕声道的电平，Rs表示右环绕声道的电平。

前面的段落描述了如何在编码器中计算用于Dolby 5.1和5.1.2音频数据的响度校正因数以便与编码的音频数据一起在比特流中传输的实例。在创建5.1程序中使用的g值控制混音到主扬声器中的来自高架扬声器的能量的量。

然而，在一些实施方案中，可以在解码器侧控制g的值。根据一些实施方案，可以计算响度校正因数并将其应用于解码器中，而无需再次运行整个响度校正过程。由解码器接收的响度校正因数基于被编码的节目混音，但是在某些情况下，可以由操作者或用户在解码器中调整混音。所述控制水平可以向用户提供节目的个性化混音。例如，可以调整缩减混音因数g，因此将优选地进行响度校正因数的修改或适配。类似地，在携带不同节目部分、音乐和效果的分离的音频流的情况下，各种对话音轨和用户可以调整这些级别。可以对解码器侧的响度校正因数进行修改，以便解决这种变化。

如果用户要选择设置与用于计算与Dolby音频数据一起传输的响度校正因数(或用于计算经响度校正的输出)的值不同的g值，则优选地将相应地重新计算/调整校正因数以解决所述变化。根据一些实例，通过使用在包括由解码器接收的音频数据的比特流中传输的Dolby 5.1.2格式的校正因数，可以在解码器侧调整Dolby 5.1格式的音频数据的校正因数。

根据一个此类实例，通过实施等式3或等式5的重排版本，可以在解码器侧调整Dolby 5.1格式的音频数据的校正因数，这取决于如何计算接收的响度校正因数。例如，假设根据等式3计算接收到的响度校正因数，则可以通过实施方案以下等式在解码器侧确定Dolby 5.1格式的音频数据的校正输出：

L_510_corrected＝RTLL_Comp_512*((L_510_input-部分校正因数))

(等式7)

例如，可以根据等式4来确定等式7的“部分校正因数”。如果是这样，则部分校正因数部分基于g的值。因此，如果在解码器侧调整g(例如，根据经由用户界面从用户接收的输入)，则在一些实例中，可以通过实施方案等式7在解码器侧调整Dolby 5.1格式的音频数据的校正因数。根据一些实例，解码器设备的控制系统(例如图1所示的控制系统115)可以至少部分地基于由用户选择并经由用户界面(其可以是图1所示的接口系统110的一部分)输入的g的值，来确定用于Dolby 5.1格式的音频数据输入的校正因数。

为了避免发送/传输单独的完整音频节目，例如英语5.1声道节目和法语5.1声道节目，可以与语言声道分开地发送/传输5.1声道M&E。节目的混音可以在回放设备中执行。混音元数据可以与音频一起携带，使得在回放设备中，节目与内容创建者对于每个特定演示的意图混合在一起。下一代音频格式支持多种演示，因此允许音频节目的有效携带，其中元素被单独编码，在编码之前不混音，而是在解码之后在回放设备上混音。

例如，广播可以包括两个演示，这两个演示都使用相同的5.1M&E(音乐和效果)声道。然而，一个可以具有英语对话音轨，而另一个可以具有法语对话音轨。这将降低递送5.1英语和5.1法语节目所需的数据速率，因为与递送两个5.1节目相反，只需要传送一个5.1M&E加2个单声道。前述实例可被扩展用于如下所示的更复杂的演示，其中可包含附加的相关联的对话元素。

在以下实例中，CM表示完整的主节目，ME表示音乐和效果，D表示对话，AD表示相关联的对话。

在一个实例中，广播可以包含CM5.1加上具有AD的CM5.1。在另一实例中，广播可以包含ME5.1+D单声道+D单声道+AD单声道+AD单声道。在另一个实例中，广播可以包含5.1M&E+1英语+1法语(在三个元素/子流中)。在另一个实例中，广播可以包含5.1M&E+1英语+1英语AD+1法语+1法语AD(在5个元素/子流中)。

无论演示是作为单独的5.1混音携带还是作为预混音的元素携带，通常都需要测量演示的响度。根据先前公开的方法，当测量两个演示时，整个过程必须进行两次，每个演示进行一次，即使两个演示都基于相同的5.1M&E。当使用越来越多的演示时，需要执行越来越多的响度测量，并且复杂度增加。

当处理具有公共音频元素的多个演示时，响度规范化不是直接的，其中节目的实际音频被调整/偏移，使得节目响度匹配特定目标。例如，在具有5.1声道M&E和两个对话元素(英语和法语)的简单情况下，可以校正M&E加英语对话混音的响度，但这不能保证M&E加法语对话混音将处于正确的响度。

因此，随着音频节目的多于一个的混音的递送，这些混音是作为单独的单个演示还是作为如上突出显示的多个演示流来递送，通常都需要执行多个响度测量。例如，如果存在5.1M&E元素以及英语和法语对话元素和伴随的视频描述，则根据先前公开的方法，将需要测量四个5.1声道混音。

一些公开的实施方案利用了多个混音包含公共音频元素(例如公共5.1M&E元素)的事实。一些此类实施方案允许简化各种混音的响度的测量，并且可以降低过程的复杂度。因此，可以降低响度测量和响度控制的复杂度。

对于具有类似音频元素的演示，当进行演示的响度测量时，一些实施方案不复制这些元素的处理。通过在混音音频元素以创建演示之前执行尽可能多的音频处理，可以降低响度测量的复杂度并且可以创建更有效的响度测量引擎。

例如，当测量包括相同5.1M&E的两个节目的响度时，5.1M&E的每个声道的滤波和空间增益的应用仅需要在混音之前进行一次。所述过程可以允许更有效的响度测量。根据一些此类实例，响度测量过程的所有线性处理可以在混音音频以创建演示之前完成，然后可以对混音的演示进行包含非线性处理的进一步处理以测量响度。在一些此类实例中，响度测量结果的准确度或精准度与当应用ITU-R BS.1770建议中概述的方法时将获得的准确度或精准度一致。

图5为表示在ITU-R BS.1770建议中概述的响度测量过程的修改版本的框图。在所述实例中，方法500的框505、520、525和530以与图4A所示方法的框405、420、425和430相同的方式执行。然而，认识到附录1中概述的算法的线性对非线性处理操作，在图5所示的实例中，空间增益框510在均方框515之前执行，而在图4A中两个相应框的顺序相反。

图6为表示在ITU-R BS.1770建议中概述的响度测量过程的另一修改版本的框图。在所述实例中，图6的框515、520、525和530所表示的过程与图5的框515、520、525和530所表示的过程相同。然而，在所述实例中，框505和510的线性过程以组合的KGi框表示。此外，新的混音器框605被引入到KGi框和均方框515之间。因此，在所述实例中，在KGi框的线性操作之后并且在随后的非线性操作之前执行混音器框605的操作。混音器框605的操作可以包括上混音或下混音，这取决于特定的实施方案。

图7为表示图6的方法的更一般化版本的框图。在所述实例中，声道X₁–X_N的音频数据被输入到线性音频处理框705。在一些实例中，线性音频处理框705可以对应于图6所示的KGi框。根据所述实施方案，处理后的音频数据Y₁–Y_N从线性音频处理框705输出，并提供给混音器框605。在此，混音音频数据Y₁–Y_N从混音器框605输出并提供给非线性音频处理框710。在一些实例中，非线性音频处理框710可以对应于图6的框515至530中的一或多个。

图8为概述图7中所概述的方法的一个实例的框的流程图。在某些情况下，所述方法可由图1的设备或本文公开的另一类型的设备来执行。在一些实例中，方法800的框可经由存储在一或多个非暂时性介质上的软件来实施。方法800的框，与本文描述的其它方法一样，不一定按指示的顺序执行。此外，此类方法可以包含比展示和/或描述的更多或更少的框。

在所述实施方案中，框805包括接收音频数据。框805例如可以包括控制系统(例如图1的控制系统115)，所述控制系统经由接口系统(例如图1的接口系统110)接收音频数据。

在此，框810包括对音频数据执行线性操作。根据所述实例，框810包括对音频数据执行响度测量过程的线性操作。根据一些实施方案，框810可以包括像图6的线性音频处理框705和/或KGi框的那些过程。

在所述实例中，框815包括混音音频数据。框815可以包括上混音过程或下混音过程，这取决于特定的实施方案。

在此，框820包括对从框815的操作输出的混音音频数据执行非线性操作。根据所述实例，框820包括对混音音频数据执行响度测量过程的非线性操作。根据一些实施方案，框820可以包括像图7的非线性音频处理框710的那些过程。在所述实例中，框825包括输出响度测量。

如上参考图6至8所述的处理流程具有潜在的优点，现在将参考图9A至10描述其中的一些实例。图9A为表示缩减混音和响度测量的常规过程的框图。在所述实例中，将Dolby5.1格式的音频数据900输入到响度测量框905和缩减混音框910。响度测量框905输出响度测量907以用于音频数据900。

缩减混音框910输出缩减混音的音频数据912，在所述实例中，所述音频数据是2声道音频数据。响度测量框915接收缩减混音的音频数据912并输出响度测量917以用于缩减混音的音频数据912。响度测量框905和915可以例如根据在ITU-R BS.1770建议的附录1中概述的响度测量过程来测量输入音频数据的响度，如上参考图4A所述。

图9B为表示新颖的缩减混音和响度测量过程的实例的框图。在所述实例中，将Dolby 5.1格式的音频数据900输入到响度测量框920。根据所述实例，线性处理框925或响度测量框920执行响度测量过程的线性操作。线性处理框925例如可以对应于上面参考图6描述的KG_i框。

线性处理框925的输出被提供给混音框930。混音框930可以包含像上面参考图6描述的混音器605的功能。根据所述实施方案，混音框930将Dolby 5.1格式的音频数据提供给非线性处理框935，并将Dolby 2.0格式的音频数据提供给非线性处理框940。

在所述实施方案中，非线性处理框935输出Dolby 5.1格式的音频数据的响度测量907，而非线性处理框940输出Dolby 2.0格式的音频数据的响度测量917。非线性处理框935和940例如可以包含对应于图6的框515至框530的过程。在所述实例中，混音框930还输出Dolby 2.0格式的音频数据。

与上面参考图9A描述的响度测量过程相比，图9B的响度测量过程需要更少的线性处理步骤。因此，图9B的响度测量过程相对更有效。

图10为展示在图2和3中概述的过程的可替代实例的框图。根据所述实例，第一格式的音频数据(在所述实例中为Dolby 5.1.2)由响度测量框1010的响度校正框920的而不是图3所示的单独的缩减混音框305接收。这是图2的框205的实例。

如上参考图9B所述，响度测量框920包含图10中未示出的混音框930。在所述实施方案中，响度测量框920对第一格式的音频数据进行缩减混音，以生成第二格式的音频数据1012(在所述实例中为Dolby 5.1)。这是图2的框210的实例。根据所述实例，第一格式的音频数据也被响度测量框920缩减混音以生成第三格式的音频数据912(在所述实例中为Dolby 2.0)。

在所述实施方案中，响度测量框920输出Dolby 5.1格式的音频数据的响度测量907和Dolby 2.0格式的音频数据的响度测量917，例如，如上参考图9B所述。在所述实例中，将响度测量907和Dolby 5.1格式的音频数据1012输入到响度调整框320a，而将响度测量917和Dolby 2.0格式的音频数据912输入到响度调整框320b。响度调整框320a和320b可以包括与图3的响度调整框320基本相同的操作。

响度调整框320a和320b的输出分别提供给响度测量框325a和325b。响度测量框325a和325b可以包括与图3的响度测量框325基本相同的操作。在所述实例中，响度校正框1010输出在所述实例中表示为Dolby 5.1’的Dolby 5.1格式的响度校正音频数据，以及Dolby 2.0格式的响度校正音频数据。

在所述实例中，校正因数确定框330和335包括与以上参考图3描述的校正因数确定框330和335的过程基本相似的过程。图10所示的实施方案还包含校正因数确定框1035，其经配置以确定第三格式的音频数据的第一功率(在所述实例中为未校正的Dolby2.0数据)，并且经配置以确定经响度校正的第三格式的音频数据的第二功率(在所述实例中表示为Dolby 2.0’的响度经校正的音频数据)。在此，校正因数确定框1035经配置以确定第一功率与第二功率的功率比。在此实例中，校正因数确定框335经配置以确定并输出至少部分地基于功率比的第三格式校正因数。

对本公开中描述的实施方案的各种修改对于本领域普通技术人员来说是显而易见的。例如，一些实施方案可以包括例如以因数2对音频进行下采样，以及以子速率运行响度测量过程。这样，可以降低复杂度。通过仅抽取十分之一而不包括用于适当采样率转换的低通滤波器，高于新奈奎斯特频率的频率的能量不会损失而是被折减。这对于基于功率的测量可能是有用的，在基于功率的测量中，这减少了采样的数量(例如，减少一半)，同时保持了基本上由所有频率表示的功率。

例如，如果在没有任何低通滤波器的情况下，通过每隔一个采样点进行下采样的方法来对音频信号进行下采样，则高于fs/4(采样频率的一半)的信号将被混叠或折回。在ITU-R BS.1770建议中概述的响度测量过程基于音频信号的平均功率。没有任何频率加权，仅有的能量损失将是fs/4。高于fs/4的信号的功率将被“折叠”或被混叠并保留。当存在频率加权时(例如，利用在ITU-R BS.1770建议中概述的响度测量过程中应用的K加权滤波器)，将不保留能量，而是根据频率如何混叠来进行频率加权。频率加权中的差异将出现在信号被镜像的地方，其将大约是fs/4。

图11示出根据一个实例的下采样音频信号的近似加权。在这个实例中，对于48kHz的采样频率fs，24kHz将被映射到0，14kHz将被映射到10kHz，等等。通过对一半样本运行BS.1770算法，执行下采样降低了复杂度，并且将导致对于大多数实际音频信号的可接受近似，因为主要差别是在高于大约21Khz的频率上。

在不脱离本公开的范围的情况下，本文中定义的一般原理可以应用于其它实施方案。因此，权利要求书不旨在限于本文所示的实施方案，而是旨在符合与本公开，本文所公开的原理和新颖特征一致的最广范围。

从以下列举的示范性实施例(EEE)可以理解本发明的各个方面：

EEE 1.一种音频处理方法，其包括：

接收第一格式的音频数据；

处理第一格式的音频数据以生成第二格式的音频数据，第二格式是第一格式的删减或简化版本；

对第二格式的音频数据执行响度校正过程，以生成经响度校正的第二格式的音频数据；

确定第二格式的音频数据的第一功率；

确定经响度校正的第二格式的音频数据的第二功率；

确定用于第二格式的音频数据的第二格式响度校正因数，所述第二格式响度校正因数至少部分地基于第一功率与第二功率的功率比；

确定第一格式的音频数据和第二格式的音频数据之间的功率关系；

确定用于第一格式的音频数据的第一格式响度校正因数，所述第一格式响度校正因数至少部分地基于功率比和功率关系；以及

输出第一格式响度校正因数和第二格式响度校正因数。

EEE 2.根据EEE 1所述的方法，其中第一格式是基于第一声道的格式，并且其中第二格式是基于第一声道的格式的缩减混音。

EEE 3.根据EEE 2所述的方法，其中功率关系对应于基于第一声道的格式的音频数据的功率与缩减混音的音频数据的功率之间的差。

EEE 4.根据EEE 1至3中任一个所述的方法，其中第一格式包括用于顶置扬声器的音频数据，并且其中第二格式不包括用于顶置扬声器的音频数据。

EEE 5.根据EEE 4所述的方法，其中功率关系对应于用于所述顶置扬声器的音频数据的功率。

EEE 6.根据EEE 1至5中任一个所述的方法，其中响度校正过程包含第一响度测量过程、响度调整过程和第二响度测量过程。

EEE 7.根据EEE 6所述的方法，其中第一响度测量过程包括一或多个线性处理操作，随后是混音操作，随后是一或多个非线性处理操作。

EEE 8.根据EEE 7所述的方法，其中线性处理操作包括应用K加权滤波器和应用空间增益。

EEE 9.根据EEE 7所述的方法，其中混音操作包括生成第三格式的第三音频数据的缩减混音操作，第三格式是第二格式的删减或简化版本。

EEE 10.根据如EEE 7所述的方法，其中第二格式的音频数据包含对话音频数据以及音乐和音频效果(M&E)音频数据。

EEE 11.根据EEE 10所述的方法，其中对话音频数据包含多种语言的对话音频数据，并且其中，分别对多种语言中的每一种的对话音频数据执行线性处理操作。

EEE 12.根据EEE 10所述的方法，其中用于M&E音频数据的线性处理操作与用于对话音频数据的线性处理操作分开执行。

EEE 13.根据EEE 1至12中任一个所述的方法，其中第一格式是音频对象格式，并且其中第二格式是第一格式的简化版本。

EEE 14.根据EEE 1至13中任一个所述的方法，其中第一格式的音频数据至少包含第一对话和M&E音频数据。

EEE 15.一或多种非暂时性介质，其具有存储在其上的软件，软件包括用于执行在EEE 1至14中的任何一个所述的方法的指令。

EEE 16.一种包括控制系统的设备，控制系统经配置以执行EEE 1至14中的任何一个所述的方法。

EEE 17.一种音频处理方法，其包括：

接收用于第一格式的音频数据的第一格式响度校正因数和接收的用于第二格式的音频数据的第二格式响度校正因数；

接收第一格式的音频数据；

接收第一格式的音频数据和第二格式的音频数据之间的修正的功率关系的指示；以及

至少部分地基于第一格式响度校正因数和修正的功率关系来调整接收的第二格式响度校正因数。

EEE 18.根据EEE 17所述的音频处理方法，其中第二格式的音频数据是第一格式的音频数据的缩减混音或渲染。

EEE 19.根据EEE 18所述的音频处理方法，其中修订的功率关系是原始功率关系的改变，并且其中，原始功率关系指示在生成所述第二格式的音频数据的缩减混音过程期间，与第一格式的声道相对应的音频数据的电平如何被改变。

EEE 20.根据EEE 17至19中任一个所述的音频处理方法，其中第二格式是Dolby5.1格式，并且第一格式是Dolby 5.1.2格式。

EEE 21.根据EEE 17至20中任一个所述的音频处理方法，其中第二格式是Dolby5.1格式，并且第一格式是Dolby 7.1.4格式。

Claims

1.一种音频处理方法，其包括：

接收第一格式的音频数据；

处理所述第一格式的所述音频数据以生成第二格式的音频数据，所述第二格式是所述第一格式的删减或简化版本；

对所述第二格式的所述音频数据执行响度校正过程，以生成经响度校正的所述第二格式的音频数据；

确定所述第二格式的音频数据的第一功率；

确定所述经响度校正的所述第二格式的音频数据的第二功率；

确定用于所述第二格式的所述音频数据的第二格式响度校正因数，所述第二格式响度校正因数至少部分地基于所述第一功率与所述第二功率的功率比；

确定所述第一格式的所述音频数据和所述第二格式的所述音频数据之间的功率关系；

确定用于所述第一格式的所述音频数据的第一格式响度校正因数，所述第一格式响度校正因数至少部分地基于所述功率比和所述功率关系；以及

输出所述第一格式响度校正因数和所述第二格式响度校正因数。

2.根据权利要求1所述的方法，其中所述第一格式是基于第一声道的格式，并且其中所述第二格式是所述基于第一声道的格式的缩减混音。

3.根据权利要求2所述的方法，其中所述功率关系对应于所述基于第一声道的格式的所述音频数据的功率与所述缩减混音的所述音频数据的功率之间的差。

4.根据权利要求1至3中任一项所述的方法，其中所述第一格式包含用于顶置扬声器的音频数据，并且其中所述第二格式不包含用于顶置扬声器的音频数据。

5.根据权利要求4所述的方法，其中所述功率关系对应于所述用于顶置扬声器的所述音频数据的功率。

6.根据权利要求1至3中任一项所述的方法，其中所述响度校正过程包括第一响度测量过程、响度调整过程和第二响度测量过程。

7.根据权利要求6所述的方法，其中所述第一响度测量过程包括一或多个线性处理操作，随后是混音操作，随后是一或多个非线性处理操作。

8.根据权利要求7所述的方法，其中所述线性处理操作包含应用K加权滤波器和应用空间增益。

9.根据权利要求7所述的方法，其中所述混音操作包含生成第三格式的第三音频数据的缩减混音操作，所述第三格式是所述第二格式的删减或简化版本。

10.根据权利要求7所述的方法，其中所述第二格式的所述音频数据包含对话音频数据以及音乐和音频效果M&E音频数据。

11.根据权利要求10所述的方法，其中所述对话音频数据包含多种语言的对话音频数据，并且其中对所述多种语言中的每一种的所述对话音频数据单独地执行所述线性处理操作。

12.根据权利要求10所述的方法，其中用于所述M&E音频数据的所述线性处理操作与用于所述对话音频数据的所述线性处理操作分开执行。

13.根据权利要求1至3中任一项所述的方法，其中所述第一格式是音频对象格式，并且其中所述第二格式是所述第一格式的简化版本。

14.根据权利要求1至3中任一项所述的方法，其中所述第一格式的所述音频数据至少包含第一对话和M&E音频数据。

15.一或多种非暂时性介质，其具有存储在其上的软件，所述软件包含用于执行根据权利要求1至14中任一项所述的方法的指令。

16.一种包含控制系统的设备，所述控制系统经配置以执行根据权利要求1至14中任一项所述的方法。