CN114175685B

CN114175685B - 音频内容的与呈现独立的母带处理

Info

Publication number: CN114175685B
Application number: CN202080049605.3A
Authority: CN
Inventors: D·J·布里巴特; D·M·库珀; G·圣高尔; B·G·克罗克特; R·J·威尔逊
Original assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Current assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Priority date: 2019-07-09
Filing date: 2020-07-07
Publication date: 2023-12-12
Anticipated expiration: 2040-07-07
Also published as: WO2021007246A1; EP3997700A1; CN114175685A; JP7332781B2; JP2022540435A; US20220295207A1

Abstract

一种用于生成经母带处理的音频内容的方法，该方法包括获得包括数个(M1个)的音频信号的输入音频内容，获得输入音频内容的渲染呈现，该渲染呈现包括数个(M2个)的音频信号，获得通过对渲染呈现进行母带处理而生成的母带处理呈现，将母带处理呈现与渲染呈现进行比较以确定母带处理呈现与渲染呈现之间的差异的一个或多个指示，基于差异的指示来修改输入音频内容的音频信号中的一个或多个以生成母带处理音频内容。通过这种方法，可以使用传统的、通常是立体声的、基于通道的母带处理工具来提供包括基于对象的沉浸式音频内容在内的任何输入音频内容的母带处理版本。

Description

音频内容的与呈现独立的母带处理

相关应用的交叉引用

本申请要求2019年7月9日提交的西班牙申请第P201930637号以及2019年10月7日提交的美国临时专利申请第62/911,844号的优先权，这些申请的内容通过引用结合于此。

技术领域

本发明涉及对多通道、沉浸式和/或基于对象的音频内容(例如Dolby Atmos)的母带处理(mastering)，并且具体而言，涉及对先前未被下混合和/或渲染为特定回放呈现(例如立体声，5.1等)的内容的母带处理。

背景内容

音乐制作和发行通常包括以下级:

·音乐曲目的创作、录制和/或制作。在这一级，捕获或生成音频资产，并创建或提炼作品。

·混音：在这一级，调整电平、音色和音效，以创建一个美观愉悦的混音，其中所有乐器和音效都得到适当的平衡。该过程提供了对各个录音、轨道、乐器和音干(如果有)的访问，各个录音、轨道、乐器和音干(如果有)然后可以被单独地修改或作为子组被修改。

·母带处理：在这一级，根据整体音色、响度和动态的变化对混音内容的下混进行修改。这些属性被修改以改善整体混音(孤立地)，改善专辑中轨道之间的电平和音色的一致性，使录制适合特定的发行媒体(有损编解码器、唱片、CD)等。

母带处理级传统上是在混音的基于通道的呈现(例如混音的立体声或5.1演绎或缩混)上执行的。此外，母带处理过程中采用的典型处理器包括均衡器、(多频带)压缩器、峰值限制器和/或非线性过程，例如仿真磁带或管饱和、峰值限制和/或削波等。这些处理器可以被实现为在数字音频工作站(DAW)或专用硬件上运行的数字进程。可替代地或者附加地，它们可以被实现为模拟硬件。

母带处理过程传统上由母带处理工程师承担，然而最近自动母带处理工具被引入，例如作为云服务。

传统的母带处理过程和所涉及的工具在内容的基于通道的呈现(例如，适合于特定的再现布局，诸如两个扬声器或耳机)上工作。此外，可用于该过程的大多数工具将仅对于有限数量的通道(通常是立体声、5.1或7.1)工作。

这种传统的工作流程和工具集对于其他格式的音频内容，例如包括多个信号(音频通道和/或空间音频对象)并且还没有被下混合或呈现为缩减的通道集的内容，提出了挑战。这种内容的一个例子是具有大量通道的基于通道的音频，这些通道可以包括高度通道。包括这种高度通道的基于通道的音频内容通常被称为“基于通道的沉浸式音频”。对具有大量通道的基于通道的音频的母带处理通常应用于混合成有限数量的通道(立体声、5.1或7.1)的下混。

除了传统的音频通道之外，基于对象的沉浸式音频还包括作为与(动态)空间位置相关联的音频信号的音频对象。基于对象的沉浸式音频内容以回放期间在再现侧执行渲染过程的形式分发。因此，需要以沉浸式或基于对象的格式(例如，在分发之前)来执行对该内容的母带处理，而对于这一点，目前没有或几乎没有工具存在。

基于对象的沉浸式音频内容可以渲染为适用于大量不同再现系统(单通道、立体声、5.1、7.1、7.1.2、5.1.4扬声器设置、条形音箱和耳机)的呈现。由于时间和精力的限制，单独对每种再现设置的内容进行母带处理几乎是不可能的，或者极其昂贵和耗时。

沉浸式音频(基于通道或基于对象的)内容可以由超过100个对象和/或床通道组成，因此，难以设置同时应用于所有这些元素的通用过程，这样的通用过程可能导致高的中央处理器(CPU)负载，因此是非常不希望的，并且是不可扩展的。这在母带处理工程师希望使用模拟硬件的情况下尤其如此，模拟硬件必须实时使用，并且由于有限的硬件可用性和高的对象或通道计数，模拟硬件通常需要顺序处理对象。

沉浸式和/或基于对象的音频内容正变得越来越广泛地用于目标回放系统，例如电影院、家用音频系统和耳机。因此，希望提供一种更加高效和灵活的方法来对沉浸式音频内容进行母带处理。此外，音频内容的其他示例将受益于改进的母带处理过程。

发明概述

本发明的第一方面涉及一种用于生成经母带处理的音频内容的方法，该方法包括获得包括数个(M1个)的音频信号的输入音频内容，获得所述输入音频内容的渲染呈现，所述渲染呈现包括数个(M2个)的音频信号，获得通过对所述渲染呈现进行母带处理而生成的母带处理呈现，将所述母带处理呈现与所述渲染呈现进行比较以确定所述母带处理呈现与所述渲染呈现之间的差异的一个或多个指示，基于差异的指示来修改输入音频内容的音频信号中的一个或多个，以生成经母带处理的音频内容。

与现有技术的母带处理过程相比，所提出的方法的优点包括:

传统的、典型的立体声、基于通道的母带处理工具可在与母带处理工程师所习惯的工作流程相同的工作流程中使用，以便提供包括基于对象的沉浸式音频内容在内的任何输入音频内容的母带处理版本。

与基于特定再现布局的传统母带处理方法不同，本发明的各方面允许创建经母带处理的音频资产，该音频资产可以被渲染至任何扬声器布局、移动设备或耳机。

根据本发明各方面的母带处理过程可以应用于内容的一个或数个特定呈现，而不必独立地为每个扬声器设置进行母带处理(即，一次母带处理，在任何地方播放)。

母带处理过程可以是全自动的(例如作为云服务或基于人工智能)或人工的(由母带处理工程师进行)。

渲染呈现是适于在音频再现系统上再现(回放)的呈现，与输入音频内容相比，渲染呈现通常具有较少的信号(M1>M2)，但是在某些情况下可能具有相同数量的音频信号，或者甚至更多的音频信号。

输入音频内容可以是多通道内容，例如5.1或7.1。输入音频内容可以包括3D音频信息，例如基于通道或基于对象的沉浸式音频。

渲染呈现可以是立体声呈现、双耳呈现或任何其他合适的呈现。

在一些实施例中，差异指示表示所述母带处理呈现和渲染呈现的时频片中的能量水平，并且修改被设计成使得输入音频内容的信号的各时频片中的能量均衡。

例如，可以根据下式计算信号x_n，b，c[k]n的时频片的能量水平

其中n是时间段索引，b是频带索引，c是通道索引，k是样本索引。

修改输入音频内容的步骤包括应用片特定增益，该片特定增益表示分别在所述母带处理呈现和所述渲染呈现中的相应片的能量水平之间的比率(平方根)。

附图说明

将参照附图更详细地描述本发明，附图示出了本发明的当前优选实施例。

图1是示出本发明实施例的概述的框图。

图2是示出基于分析和合成滤波器组的本发明实施例的框图。

图3a是示出使用具有高频率分辨率的第一分析和合成滤波器组的多级时频能量匹配过程的第一遍的框图。

图3b是示出使用第二分析滤波器组的多级时频能量匹配过程的第二遍的框图，该第二分析滤波器组不同于图3a中第一级中使用的第一滤波器组。

图3c是示出用以产生经母带处理的音频内容的多级时频能量匹配过程的第三遍的框图。

图4是示出可以试用(audition)经母带处理的沉浸式音频资产的多个呈现的实施例的框图。

图5是具有基于用户交互的属性总结和属性修改的实施例的框图。

图6是试用实施例的框图。

具体实施方式

以下描述包括部分或全部由通道资产组成的内容，通道资产包括立体声通道资产、多通道资产(5.1、7.1)和沉浸式通道资产(具有高度通道，如5.1.2、7.1.4等)。因此，表述“输入音频内容”旨在涵盖包括一组M1个信号的音频内容，例如多通道音频、具有高度的沉浸式音频(有时称为3D音频或基于通道的沉浸式音频)，以及包含一个或多个音频对象的音频内容(基于对象的沉浸式音频)。音频对象包括与空间位置相关联的音频信号。应指出，例如在输入音频内容包括单个音频对象的情况下，M1可以等于1。

包括M1个信号的输入音频内容可以被渲染为具有M2个信号的呈现。虽然渲染可能常常涉及生成具有较少信号(例如，M2<M1)的呈现，但是在某些情况下，可能希望渲染呈现具有与输入音频内容相同数量的信号，或者甚至比输入音频内容更多的信号。一个例子是仅具有一个音频对象的输入音频内容，其可以被渲染到一组(扬声器)通道中。另一个示例是2通道(立体声)呈现，它可以被上混到5.1或7.1呈现，或者包括高度通道的另一种呈现。因此，渲染可以被认为通常对应于将(可能时变的)系数的M1×M2矩阵应用于全混内容，而不管M1和M2之间的关系如何。注意，表达“全混”并不意味着音频内容必须已经被混合，而仅是意味着它预期被进一步渲染或下混成一组较少的信号。

参考图1，下面将描述本发明的实施例。

首先，在渲染器11中，输入音频内容12被渲染以供在一个或多个再现系统上再现，得到渲染呈现13。作为示例，输入音频内容可以包括沉浸式的、基于对象的内容，并且渲染呈现可以是旨在用于扬声器回放的立体声呈现。当输入音频内容包括音频对象时，渲染呈现将包括音频对象的时变渲染。

使用诸如但不限于(动态)均衡器、(多频带)压缩器、峰值限制器等的母带处理工具，在母带处理模块14中对渲染呈现13进行母带处理(处理)，从而产生经母带处理的渲染呈现15。由母带处理模块14实现的母带处理过程可以由母带处理工程师、基于云的服务、使用人工智能或通过它们的任意组合来执行。

执行比较分析16，其比较经母带处理的渲染呈现15和(在母带处理之前的)渲染呈现13，以便借助于信号或感知属性或参数17来定量描述这两个呈现之间的差异。

在修改块18中，基于信号或感知属性或参数17修改输入音频内容12，以创建经母带处理的音频内容19。

比较分析16和修改18生成经母带处理的音频内容19，该经母带处理的音频内容在渲染时听起来与在母带处理过程14中创建的所述经母带处理的渲染呈现15相似或相同。通过使用图1中概述的过程，可以使用传统的基于通道的母带处理工具来对随后可以渲染到任何再现系统(例如，包括与渲染器11中使用的再现布局不同的再现布局)的音频内容进行母带处理。

在图1的元素中，时间和频率处理以及分析和修改级16、18的详细描述如下。分别关于图1的渲染和母带处理元件11和14的具体细节对于本发明的本质来说并不重要，并且可以使用任何合适的渲染和母带处理过程。例如，在美国专利9,179,236B2和第9,204,236B2中描述了示例性的渲染方法和系统，这些美国专利通过引用而全文并入此。示例性的母带处理过程在例如在“Mastering Audio”,Bob Katz,Taylor&Francis Ltd.,2014中进行了描述。

图2示出了本发明的更详细的实施例，其中与图1中相似的元件被赋予了相应的附图标记。

在图2中，分析级16包括两个级16a和16b。首先，在片(tile)形成块16a中，渲染呈现13和经母带处理的渲染呈现15都被分割成时间段(“帧”)。如果需要，这些帧可以在时间上部分重叠，并且可以由窗口函数处理。通过分析滤波器组、一个或多个带通滤波器、傅立叶变换或任何其他合适的方法，将帧进一步划分为频带。帧内的子带被称为时频片(time-frequency tile)。被过采样和/或复的滤波器组结构允许处理时频片，而不会引入大量的混叠失真，因此是优选的。这种滤波器组的例子是复数或混合复数正交镜像滤波器(CQMF或HCQMF)滤波器组和基于离散傅里叶变换(DFT)的滤波器组，但是也可以使用其他滤波器组结构(例如，包括基于实值滤波器的那些结构)来获得可接受的结果。

随后，在每个时频片的片比较块16b中，对于两个呈现计算诸如能量、信号水平或响度值的属性。

然后，在修改块18中，每个时频片中的属性差异被叠加在输入音频内容12中存在的每个通道/对象上。在图2的例子中，输入音频内容12首先通过时间分段、时间加窗口、分析滤波器组或傅立叶变换被分成时频片，如块18a所示。这有助于块18b中的时间和频率相关的修改，使得来自块比较块16b的每个时频片中的属性差异被叠加在来自块18a的输入音频内容12的每个对应的时频片上。

例如，使用合成滤波器组21将修改后的对象信号转换成时域信号，以产生经母带处理的音频内容19。

时频片能量匹配

在一个实施例中，要分析和修改的属性是每个子带中的能量。更具体地，分析级比较母带处理之前和之后每个时频片中的能量。随后，能量的变化(作为母带处理前后的比率)被叠加在输入音频内容中存在的每个对象或通道上。

对于分段n、频带b、呈现或资产索引p、音频通道或对象索引c和样本索引k的频带受限的、时间分段信号，要计算的合适属性的一个例子是帧或分段n的子带能量

呈现或资产索引p被给出如下:p＝0指渲染呈现，p＝1指经母带处理的渲染呈现，p＝2指基于对象的内容。为了将经母带处理的渲染呈现(p＝1)和渲染呈现(p＝0)之间的变化传递到基于对象的内容(p＝2)上，对每个通道c、时间帧n和频带b施加增益g_{n，b，c，p＝2}，增益的平方由下式给出:

与区域相关的时频片能量匹配

在一个实施例中，在不同的空间区域(诸如前部、后部、天花板、水平面等)中独立地分析子带能量。每个区域中的能量是通过仅将渲染呈现c(z)中对该区域z有贡献的通道的能量相加而获得的:

通道到区域的映射c(z)可以人工地完成，或者作为通道规范(canonical)位置的函数。现在计算用于每个区域的增益:

当对于对象j应用时频处理时，计算分数f_z，j，其表示对象的能量对每个区域z的能量有多大贡献。然后将应用于物体的增益g’表示为每个区域中的增益和对象对每个区域的贡献的加权组合：

区域相关能量匹配的概念可以从一个简单的例子中容易地理解。考虑如下情况：母带处理过程是在渲染的5.1呈现上完成的，母带处理工程师决定使后通道(ls，Rs)与前通道(L，R，C)不同地进行均衡。在这种情况下，将分别分析前通道和后通道，并且从5.1渲染的前通道得出的时频增益将被应用于沉浸式内容中位于房间前半部的对象和通道，而从5.1渲染的后通道得出的时频增益将被应用于沉浸式内容中位于房间后半部的对象和通道。

函数f(z，j)可以由沉浸式内容中的通道和对象的位置元数据(例如x，y，z)来指定。再看简单的前/后例子:在y＝0是房间的前部，y＝1是房间的后部的约定下，可以说y>＝0.5的对象和通道接收从5.1的后通道得出的增益，y<0.5的对象和通道接收从5.1的前通道得出的增益。

多通道时频能量片匹配

在图3a-c所示的另一个实施例中，为两个或多个不同的帧大小计算单独的增益集。在第一遍(pass)中，使用长帧尺寸来确保母带处理期间执行的均衡化频率上的精细细节被准确地应用于基于对象的呈现。由于长帧尺寸，此过程不会捕获快动(fast-acting)动态变化，例如快动峰值限制器或快速启动(fast-attack)压缩器引入的变化。因此，在短帧上运行的第二遍在分析、捕捉和应用渲染呈现和经母带处理的渲染呈现之间的快速变化方面是有益的。

第一遍如图3a所示。输入音频内容12在渲染器11中被渲染，并且随后在过程14中被母带处理。通过首先应用第一滤波器组31a将经母带处理的渲染呈现15和渲染呈现13两者划分为时频片，然后在块32a中计算每个时频片中的能量比，将经母带处理的渲染呈现15与渲染呈现13进行比较。第一滤波器组A在时间和频率分辨率之间具有第一关系。该过程导致在框34中应用于渲染呈现13的一组增益33a。例如，使用对应于滤波器组31a的合成滤波器组35，将输出变换成被称为中间呈现36的时域信号。后者被应用慢动(slowly acting)的高频分辨率增益曲线，其目的是使渲染呈现与经母带处理的渲染呈现相匹配。

在第二遍中，如图3b所示，以与第一遍中相似的方式，将经母带处理的渲染呈现15与中间呈现36进行比较，但是使用不同的滤波器组31b。第二滤波器组B具有时间和频率分辨率之间的第二关系，这与第一滤波器组A相比是不同的。在该示例中，滤波器组B具有更高的时间分辨率，因此具有更低的频率分辨率，但是注意，相反的情况也是可能的。第二遍得到第二组增益33b。

如图3c所示，第三遍将第一和第二组增益33a、33b应用于输入音频内容12，以产生经母带处理的音频内容39。具体而言，在分析滤波器组A 31a处应用第一时频分析，以将输入音频内容12分成第一组T/F片(例如，通过时间分段、时间加窗、分析滤波器组或傅立叶变换将输入音频内容12分成时频片)。然后，在块37中应用第一组增益33a，并且应用合成滤波器组35a来形成时域信号(称为“第一级”音频内容)。然后，第二滤波器组31b、应用第二组增益33b的另一增益应用块38和第二合成滤波器组35b以类似的方式被应用于第一级音频内容，以最终提供经母带处理的音频内容39。

请注意，这种多级方法适合于图1所示的通用结构。“属性分析”可以包括以不同时间尺度计算时频能量(例如，使用滤波器组31a和31b)。“修改”级可以包括根据图3c所示的方案应用增益33a和33b。

时频直方图匹配

在另一个实施例中，对于每个频带，匹配能量在帧中的分布而不是能量的精确值，或者至少匹配能量分布的某些分位数。为此，可以应用以下处理:

1.为每个时频片计算渲染呈现的能量。

2.随后，为每个频带计算能量水平(在信号功率域或分贝域表示)的分布(直方图)。这种分布称为源分布。

3.步骤1)和2)的过程对于经母带处理的渲染呈现被重复，以得到所述经母带处理的渲染呈现的每个子带中能量水平的直方图。这种分布称为目标分布。

4.创建变换函数，使得对于源分布中的每个水平，都提供增益。当此增益应用于源内容时，源能量直方图应与目标的能量直方图紧密匹配。

5.步骤4)的增益被应用于输入音频内容中每个音频对象或通道或床的对应时频片，以创建经母带处理的音频内容。

在PCT专利申请PCT/US2019/041457中公开了关于变换函数和水平直方图匹配的更多细节，该PCT专利申请通过引用全文并入此。

多个呈现的通用母带处理过程

参考图4，先前部分中描述的过程可以集成到工作流中，在该工作流中，对一个呈现(例如双耳耳机呈现)进行母带处理的效果也可以在其他呈现上试用(audition)。在该特定示例中，母带处理过程44被应用于输入音频内容42的双耳呈现43，以形成经母带处理的双耳呈现45。在母带处理期间或之后，可以通过采用将经母带处理的音频内容49渲染为一个或多个适当呈现的一个或多个渲染器41b-d，在其他呈现上试用母带处理过程44的效果。特别地，如果属性47的分析46和修改48以低延迟实时操作，则母带处理工程师可以简单地在各种呈现之间切换，以试用母带处理过程如何影响其他呈现。

高级属性汇总和修改

参考图5，可以在“母带处理和分析”中包括进一步的步骤，由此，渲染呈现和经母带处理的渲染呈现的属性的差异被汇总并且可用于自动或手动的进一步修改，以为母带处理级提供进一步的选项。

例如，可以从分析级提取子带中的输入-输出能量曲线，并且可以向用户提供用于改变这些能量曲线的方法。这可以通过例如允许用户提供(静态)偏移曲线，然后在计算输入音频内容和经母带处理的音频内容之间的能量时应用该(静态)偏移曲线来实现。这样的曲线可以增加选定频率上的能量水平。作为替代，原始输入音频内容和经母带处理的音频内容的分布可被确定，然后在“母带处理”步骤中被匹配，其中用户可以修改经母带处理的内容分布，例如通过将各种分位数曲线移动得更近或更远，以实际上应用压缩或扩展。这种更动态的方法在WO20014517中被更详细地描述，其通过引用并入此。

在图5中，与图1中的元件相对应的元件被赋予相同的附图标记。从属性分析级16产生的属性17在此被汇总并在交互过程50中提供给用户，例如母带处理工程师。在一些实施例中，属性17可以由用户在属性修改块56中修改以生成修改的属性57，修改的属性57随后可以用于创建经母带处理的音频内容59。同样，该经母带处理的音频内容59可以由渲染器51渲染成任何期望的呈现。

母带处理过程的有效试用

在前面的实施例中，试用经母带处理的音频内容需要一个或多个渲染器。在某些情况下，运行渲染器在处理和电池资源方面可能成本过高。在这种情况下，可以通过将属性应用于渲染器输出(在母带处理级之前)，来模拟渲染器渲染经母带处理的音频内容的输出。这样，只需一个渲染器级就可以试用对输入音频内容进行母带处理的效果，如图6所示。当母带处理过程本身被调谐和调整时，例如在母带处理级中使用的算法的参数的调整，这个过程特别有帮助。一旦用于母带处理过程的所有参数都被调谐，就可以根据前面部分中给出的实施例生成经母带处理的音频内容。

实现

本申请中公开的系统和方法可以实现为软件、固件、硬件或其组合。在硬件实现中，任务的划分不一定对应于物理单元的划分；相反，一个物理组件可以具有多个功能，并且一个任务可以由若干物理组件协同执行。某些组件或所有组件可以实现为由数字信号处理器或微处理器执行的软件，或者实现为硬件或专用集成电路。这种软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂态介质)和通信介质(或暂态介质)。如本领域技术人员所熟知的，术语计算机存储介质包括以任何方法或技术实现的易失性和非易失性、可移动和不可移动介质，用于存储诸如计算机可读指令、数据结构、程序模块或其他数据的信息。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储器、磁带盒、磁带、磁盘存储器或其他磁存储设备，或可用于存储所需信息并可由计算机访问的任何其他介质。此外，本领域技术人员众所周知，通信介质通常在诸如载波或其他传输机制的调制数据信号中体现计算机可读指令、数据结构、程序模块或其他数据，并且包括任何信息传递介质。

更具体地，本发明可被以各种方式实现。

根据一个实施例，本发明被实现为在处理器上运行的离线过程，其中处理器接收输入音频内容、渲染呈现以及经母带处理的渲染呈现作为输入。例如，处理器可以被配置为执行图1和图2中的分析模块16和修改模块18的功能，作为结果提供经母带处理的音频内容。这种处理可以在本地进行，也可以在云中进行。

同样，参考图3a-c描述的三级过程可以在这样的离线过程中实现。

根据另一个实施例，本发明被实现为实时过程，例如在数字音频工作站(DAW)内，其中例如图1和2中的渲染器11和母带处理过程14也可以被实时实现和运行。

在这种实时过程中，还可以实现图5和6中的用户交互50和属性修改56。这样的过程使得能够在一个或多个回放呈现上实时试用母带处理过程。

概述

如本文所用，除非另有说明，使用序数形容词“第一”、“第二”、“第三”等描述一个共同的对象仅仅表示引用了相似对象的不同实例，而并不意味着如此描述的对象必须在时间上、空间上、等级上或以任何其他方式处于给定的顺序。

在下面的权利要求和这里的描述中，术语“包括”、“包含”或“组成”中的任何一个是开放术语，意味着至少包括随后的元件/特征，但不排除其他。因此，当在权利要求中使用时，术语“包括”不应被解释为限制其后列出的装置或元件或步骤。例如，表述“装置包括A和B”的范围不应限于装置仅由元件A和B构成。这里使用的术语“包括”或“包含”中的任何一个也是开放术语，也意味着至少包括该术语之后的元件/特征，但不排除其他。因此，包含与包括同义，并且意味着包括。

如本文所用，术语“示例性”在提供示例的意义上被使用，而不是指示质量。也就是说，“示例性实施例”是作为示例提供的实施例，而不一定是示例性质量的实施例。

应当理解，在本发明的示例性实施例的上述描述中，出于简化公开和帮助理解一个或多个各种发明方面的目的，本发明的各种特征有时被组合在单个实施例、附图或其描述中。然而，这种公开方法不应被解释为反映要求保护的发明需要比每个权利要求中明确记载的特征更多的特征的意图。相反，如以下权利要求所反映的，各发明方面在于少于单个前述公开实施例的所有特征。因此，具体实施方式之后的权利要求由此被明确地结合到该具体实施方式中，每个权利要求独立地作为本发明的单独实施例。

此外，虽然这里描述的一些实施例包括其他实施例中包括的一些特征但不包括其他特征，但是不同实施例的特征的组合预期在本发明的范围内，并形成不同的实施例，如本领域技术人员将理解的。例如，在下面的权利要求中，任何要求保护的实施例可被以任何组合使用。

此外，一些实施例在此被描述为可以由计算机系统的处理器或由用于执行该功能的其他手段来实现的方法或方法元素的组合。因此，具有用于执行这种方法或方法元素的必要指令的处理器形成了用于实行方法或方法元素的手段。此外，在此描述的设备实施例的元件是用于实现由该元件执行的功能以实现本发明的手段的例子。

在这里提供的描述中，阐述了许多具体细节。然而，应当理解，本发明的实施例可以在没有这些具体细节的情况下实施。在其他情况下，没有详细示出众所周知的方法、结构和技术，以免妨碍对本说明书的理解。

类似地，应当注意，当在权利要求中使用时，术语“耦合”不应被解释为仅限于直接连接。可以使用术语“耦合”和“连接”及其派生词。应该理解，这些术语并不预期作为彼此的同义词。因此，表述“设备A耦合到设备B”的范围不应限于其中设备A的输出直接连接到设备B的输入的设备或系统。这意味着在A的输出和B的输入之间存在路径，该路径可以是包括其他设备或装置的路径。“耦合”可以意味着两个或多个元件直接物理接触或电接触，或者两个或多个元件彼此不直接接触，但是仍然相互合作或相互作用。

因此，尽管已经描述了本发明的具体实施例，但是本领域的技术人员将认识到，在不脱离本发明的精神的情况下，可以对其进行其他和进一步的修改，并且旨在要求保护落入本发明范围内的所有这些改变和修改。例如，上面给出的任何公式仅仅是可以使用的过程的代表。功能可以添加到框图中或者从框图中删除，并且操作可以在功能块之间互换。可以在本发明范围内描述的方法中添加或删除步骤。此外，输入音频内容和渲染呈现可以具有与示例中使用的格式不同的格式。此外，除了滤波器组之外，还可以使用其他手段将信号分成时频片。

Claims

1.一种用于生成经母带处理的音频内容的方法，该方法包括:

提供包括M1个音频信号的输入音频内容；

提供所述输入音频内容的渲染呈现，所述渲染呈现包括M2个音频信号，其中M1和M2是正整数；

提供通过对所述渲染呈现进行母带处理而生成的母带处理呈现；

将所述母带处理呈现与所述渲染呈现进行比较以对于每个时频片确定所述母带处理呈现与所述渲染呈现之间的属性差异；以及

通过将所述属性差异叠加到每个音频信号的每个对应时频片上来修改输入音频内容的音频信号，以生成经母带处理的音频内容。

2.根据权利要求1所述的方法，其中渲染涉及减少所述音频信号的数量，使得M1>M2。

3.根据权利要求2所述的方法，其中渲染呈现是立体声呈现。

4.根据权利要求2所述的方法，其中所述输入音频内容是多通道内容，包括5.1或7.1。

5.根据权利要求1所述的方法，其中，所述输入音频内容包括3D音频信息。

6.根据权利要求5所述的方法，其中所述输入音频内容包括至少一个音频对象，每个音频对象包括与空间位置相关联的音频信号，并且渲染呈现包括所述至少一个音频对象的时变渲染。

7.根据权利要求1所述的方法，其中，所述母带处理呈现和所述渲染呈现之间的属性差异对于所述渲染呈现中的不同音频信号或音频信号集被独立地确定，并且输入音频内容的音频信号中的一个或多个根据其贡献于的所述渲染呈现中的一个或多个音频信号被修改。

8.根据权利要求1所述的方法，还包括使用一个或多个处理器对所述渲染呈现应用母带处理过程的步骤，所述一个或多个处理器实现以下一个或多个:压缩器、多频带压缩器、均衡器、动态均衡器、峰值限制器和非线性处理设备，其中所述一个或多个处理器可以是模拟的、数字的或两者的组合。

9.根据权利要求8所述的方法，还包括将自动母带处理算法应用于下混呈现的步骤。

10.根据权利要求1到8中任一项所述的方法，其中各个步骤至少部分地在数字音频工作站DAW中运行。

11.根据权利要求1到8中任一项所述的方法，其中输入音频内容、渲染呈现和母带处理呈现被上传到基于云的服务中，并且其中比较和修改的步骤由所述基于云的服务执行。

12.根据权利要求1到8中任一项所述的方法，其中属性表示所述母带处理呈现和渲染呈现的时频片中的能量水平，并且其中所述修改使输入音频内容的信号的各时频片中的能量均衡。

13.根据权利要求12所述的方法，其中所述修改使输入音频内容的信号的各时频片中的能量的分布特性均衡，所述分布特性是分布的平均值、中值、方差、分位数或任何高阶矩。

14.根据权利要求12所述的方法，

其中比较步骤包括:

确定第一组增益，该第一组增益表示所述母带处理呈现和所述渲染呈现的相应时频片中的能量水平的比率，所述时频片具有时间和频率分辨率之间的第一关系，

将所述第一组增益应用于所述渲染呈现的相应时频片，以形成中间呈现，

确定第二组增益，该第二组增益表示所述母带处理呈现和中间呈现的相应时频片中的能量水平的比率，所述时频片具有时间和频率分辨率之间的第二关系，以及

其中修改输入音频内容的步骤包括:

将所述第一组增益应用于输入音频内容的时频片，所述时频片具有时间和频率分辨率之间的所述第一关系，以形成第一级音频内容，以及

将所述第二组增益应用于第一级音频内容的时频片，所述时频片具有时间和频率分辨率之间的所述第二关系，以形成所述经母带处理的音频内容。

15.根据权利要求12所述的方法，其中:

根据下式计算信号x_n，b，c[k]n的时频片的能量水平

其中n是时间段索引，b是频带索引，c是通道索引，k是样本索引，并且

其中修改输入音频内容的步骤包括应用片特定增益，该片特定增益表示分别在所述母带处理呈现和所述渲染呈现中的相应片的能量水平之间的比率。

16.根据权利要求1到8中任一项所述的方法，其中在修改输入音频内容的信号的步骤之前，用户修改差异指示中的一个或多个。

17.一种用于生成经母带处理的音频内容的计算机实现的系统，该系统包括:

分析模块，被配置为:

接收包括M2个音频信号的渲染呈现和通过对所述渲染呈现进行母带处理而生成的母带处理呈现，以及

将所述母带处理呈现与渲染呈现进行比较，以对于每个时频片确定所述母带处理呈现和渲染呈现之间的属性差异；和

修改模块，被配置为:

接收所述差异的指示和包括M1个音频信号的输入音频内容，其中M1和M2是正整数，以及

通过将所述属性差异叠加到输入音频内容的每个对应时频片上来修改输入音频内容的音频信号中的一个或多个，以生成经母带处理的音频内容。

18.根据权利要求17所述的系统，其中所述分析模块和所述修改模块在离线处理器中实现。

19.根据权利要求17所述的系统，进一步包括:

渲染器，被配置为接收输入音频内容并提供渲染呈现；和

母带处理模块，被配置为使得能够对所述渲染呈现进行母带处理。

20.根据权利要求19所述的系统，其中所述母带处理模块提供自动母带处理过程。

21.根据权利要求19所述的系统，其中所述母带处理模块包括压缩器、多频带压缩器、均衡器、动态均衡器、峰值限制器和非线性处理设备中的一个或多个。

22.一种非暂时性计算机可读存储介质，包括指令序列，该指令序列在被一个或多个处理器执行时使得该一个或多个处理器执行根据权利要求1-16中任一项所述的方法。

23.一种用于生成经母带处理的音频内容的设备，包括：

一个或多个处理器，以及

一个或多个存储介质，存储指令，所述指令在由所述一个或多个处理器执行时使所述一个或多个处理器执行根据权利要求1-16中任一项所述的方法。

24.一种用于生成经母带处理的音频内容的装置，包括用于执行根据权利要求1-16中任一项所述的方法的部件。