CN115668765A

CN115668765A - 音频描述的自动混合

Info

Publication number: CN115668765A
Application number: CN202180036575.7A
Authority: CN
Inventors: D·万维; S·潘基
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2020-04-13
Filing date: 2021-04-12
Publication date: 2023-01-31
Also published as: WO2021211471A1; JP2023521849A; US20230230607A1; EP4136753A1; EP4136753B1

Abstract

一种计算机实施的音频处理方法，该方法包括：接收音频对象数据和音频描述数据，其中，音频对象数据包括第一多个音频对象；计算音频对象数据的长期响度和音频描述数据的长期响度；计算音频对象数据的多个短期响度和音频描述数据的多个短期响度；读取与音频对象数据相对应的第一多个混合参数；基于第一多个混合参数、音频对象数据的长期响度、音频描述数据的长期响度、音频对象数据的多个短期响度以及音频描述数据的多个短期响度，生成第二多个混合参数；生成与第二多个混合参数、音频对象数据和音频描述数据相对应的增益调整视觉化；以及通过根据第二多个混合参数混合音频对象数据和音频描述数据来生成混合后的音频对象数据，其中，混合后的音频对象数据包括第二多个音频对象，其中，第二多个音频对象对应于根据第二多个混合参数与音频描述数据混合的第一多个音频对象。

Description

音频描述的自动混合

相关申请的交叉引用

本申请与2020年4月13日提交的“音频描述自动混合到沉浸式媒体中”的第63/009,327号美国临时申请相关联，该美国临时申请通过引入并入本文。

技术领域

本公开涉及音频处理，并且具体地涉及音频混合。

背景技术

除非本文另外指示，否则本节中描述的方法不是本申请中的权利要求的现有技术，并且并不由于包含在本节中而被承认是现有技术。

音频描述通常是指对如电影的视听媒体的视觉成分的口头描述。音频描述有助于视力受损的消费者感知视听媒体。例如，音频描述可以口头描述电影的视觉方面，如角色和物体的移动、面部表情等。音频描述与被称为主音频(也称默认音频)的内容不同，该主音频是指视听内容本身的音频方面(例如，对白、音效、背景音乐等)。

通常，音频描述是作为单独文件而生成的，音频工程师将该单独文件与主音频文件混合，从而创建现在包含音频描述的音频版本。音频工程师执行混合以便创造协调的收听体验，例如使得在吵闹场景中可听到音频描述，并且在安静场景中音频描述不会太大声。应用降低响度水平的增益(例如，小于1.0的增益)可以被称为闪避。

内容提供商(例如，Netflix^TM服务、Amazon Prime Video^TM服务、Hulu^TM服务、AppleTV+^TM服务等)然后可以提供消费者可以选择的各种音频文件版本。这些版本可以包括各种格式(立体声、5.1声道环绕声等)、各种语言(例如，英语、西班牙语、法语、日语、韩语等)的主音频文件、具有音频描述的版本等。内容提供商存储音频文件版本并且将选定音频文件例如作为视听数据流的音频成分提供给消费者(例如，经由超文本传输协议(HTTP)实时流式传输(HLS)协议)。

如上文所提到的，音频文件版本可以具有多种格式，包括单声道、立体声、5.1声道环绕声、7.1声道环绕声等。最近才发展起来的其他音频格式包括环绕声的高保真度立体声(Ambisonics)格式(还被称为B格式)、Dolby Atmos^TM格式等。通常，高保真度立体声格式对应于各种维度中声压和声压梯度的三维表示。通常，Dolby Atmos^TM格式对应于音频对象的集合，每个音频对象包括音频轨道和定义要在哪里输出该音频轨道的元数据。

发明内容

现有系统的一个问题是执行混合所需的时间。混合通常需要音频工程师在每小时的内容上花费多个工时。例如，90分钟的电影可能涉及16至24个工时以生成包含音频描述的音频混合。此外，可以存在音频的多个基本格式(例如，立体声、5.1声道环绕声)和多种语言；为格式和语言的每个组合生成音频描述混合会使所需时间倍增。实施例涉及自动生成包含音频描述的混音，以便减少音频工程师所需的时间。

根据实施例，一种计算机实施的音频处理方法包括接收音频对象数据和音频描述数据，其中，该音频对象数据包括第一组音频对象。该方法进一步包括计算该音频对象数据的长期响度和该音频描述数据的长期响度。该方法进一步包括计算该音频对象数据的短期响度和该音频描述数据的短期响度。该方法进一步包括读取与该音频对象数据相对应的第一组混合参数。该方法进一步包括基于该第一组混合参数、该音频对象数据的长期响度、该音频描述数据的长期响度、该音频对象数据的短期响度以及该音频描述数据的短期响度来生成第二组混合参数。该方法进一步包括生成与该第二组混合参数、该音频对象数据和该音频描述数据相对应的增益调整视觉化。该方法进一步包括：通过根据该第二组混合参数混合该音频对象数据和该音频描述数据，生成混合后的音频对象数据。该混合后的音频对象数据包括第二组音频对象，并且该第二组音频对象对应于根据该第二组混合参数与该音频描述数据混合的该第一组音频对象。

根据另一实施例，一种装置包括处理器和显示器。该处理器被配置为控制该装置以实施本文所描述的方法中的一种或多种方法。该显示器被配置为显示增益调整视觉化。该装置可以另外包括与本文所描述的方法中的一种或多种方法的细节类似的细节。

根据另一个实施例，一种非暂态计算机可读介质存储计算机程序，该计算机程序在由处理器执行时控制装置，以执行包括本文所描述的方法中的一种或多种方法的处理。

以下详细描述和附图提供了对各个实施方式的性质和优点的进一步理解。

附图说明

图1是音频混合系统100的框图。

图2是响度测量部件200的框图。

图3是示出了混合部件116(参见图1)的附加部件的框图。

图4是示出了视觉化数据142(参见图1)的视觉化402的曲线图400。

图5是音频混合系统500的框图。

图6是根据实施例的用于实施本文描述的特征和过程的设备架构600。

图7是音频处理方法700的流程图。

具体实施方式

本文描述了与音频处理有关的技术。在以下描述中，出于解释的目的，阐述了许多示例和具体细节以便提供对本公开的透彻理解。然而，对于本领域技术人员显而易见的是，如由权利要求限定的本公开可以单独地或与以下描述的其他特征组合地包括这些示例中的一些或全部特征，并且可以进一步包括本文所描述的特征和概念的修改和等同物。

在以下描述中，详细描述了各种方法、过程和程序。虽然可能以某个顺序描述了特定步骤，但这种顺序主要是为了方便和清楚。特定步骤可以重复执行一次以上，可以在其他步骤之前或之后发生(即使这些步骤另外以另一种顺序描述)，并且可以与其他步骤并行发生。仅当必须在开始第二步骤之前完成第一步骤时，才需要在第一步骤之后进行第二步骤。当从上下文中不清楚时，将具体指出这种情况。

在本文档中，使用术语“和”、“或”以及“和/或”。这种术语应被解读为具有包含性含义。例如，“A和B”至少可以意指以下含义：“A和B两者”、“至少A和B两者”。作为另一个示例，“A或B”至少可以意指以下含义：“至少A”、“至少B”、“A和B两者”、“至少A和B两者”。作为另一个示例，“A和/或B”至少可以意指以下含义：“A和B”、“A或B”。当打算使用异或时，这将具体注明(例如，“要么A要么B”、“A和B中的至多一个”)。

本文档描述了与如块、元件、部件、电路等结构相关联的各种处理功能。通常，这些结构可以由受一个或多个计算机程序控制的处理器实施。

图1是音频混合系统100的框图。音频混合系统100通常接收音频对象数据102和音频描述数据104，执行混合，并且生成混合后的音频对象数据106。音频混合系统100包括音频对象读取器110、音频描述(AD)读取器112、响度测量部件114、混合部件116、元数据读取器118、视觉化部件120、元数据写入器122、音频对象写入器124和对象元数据写入器126。音频混合系统100的部件可以通过由音频混合系统100的处理器执行的一个或多个计算机程序来实施。音频混合系统100可以包括音频工程师在利用音频混合系统100混合音频时可以使用的其他部件，如用于显示增益调整视觉化的显示器、用于输出音频的扬声器等；未详细讨论这些部件。

音频对象读取器110读取音频文件130并且生成音频对象数据132。通常，音频文件130是多个音频文件之一并且对应于视听内容文件的主音频的主版本。给定视听内容文件可以具有多个音频文件，每个音频文件对应于音频格式(例如，单声道、立体声、5.1声道环绕声、7.1声道环绕声、音频对象文件等)与对白语言(例如，英语、西班牙语、法语、日语、韩语等)的组合。音频混合系统100适合用于混合音频对象文件，因此音频文件130是给定对白语言的音频对象文件。例如，音频工程师可以选择给定电影的英语对白主对象音频文件作为音频文件130。

音频对象数据132对应于音频文件130中的音频对象。通常，音频对象数据132包括音频对象。音频对象通常对应于音频文件和位置元数据。位置元数据指示渲染系统如何在给定位置处渲染音频文件；这可以包括音频的大小(精准定位与扩散)、平移等。渲染系统然后使用元数据执行渲染以在给出渲染环境中的特定扩音器布置的情况下生成适当输出。音频对象数据132中的音频对象的最大数量可能取决于特定实施方式而变化。例如，DolbyAtmos^TM格式的音频对象数据可以具有最大128个对象。

音频对象数据132还可以包括音频床，例如作为音频对象的子类型或作为单独床对象。音频床通常对应于要在定义的床位置处渲染的音频文件。通常，每个床位置对应于由扩音器阵列输出的声道，并且对于对白、环境声音等是有用的。典型的床位置包括中央声道、低频效应声道等。床位置可以对应于环绕声声道，如5.1声道环绕位置、7.1声道环绕位置、7.1.4声道环绕位置等。

音频描述读取器112读取音频描述文件134并且生成音频描述数据136。通常，音频描述文件134是由音频混合系统100存储的多个音频描述文件之一，并且音频工程师选择期望跟与音频对象文件130相对应的视听内容混合的音频描述文件。给定视听内容的音频描述可以呈多种格式，例如单声道、立体声、5.1声道环绕声、7.1声道环绕声等。因此，存在给定视听内容的音频对象文件130和音频描述文件134的许多可选择组合。音频描述文件134可以呈各种文件格式，如“.wav”文件格式。音频描述数据136可以具有各种编码格式之一，包括脉码调制(PCM)信号、线性PCM(LPCM)信号、A律PCM信号等。

响度测量部件114接收音频对象数据132和音频描述数据136，计算各种响度，并且生成响度数据138。具体地，响度测量部件计算音频对象数据132的长期响度、音频描述数据136的长期响度、音频对象数据132的多个短期响度和音频描述数据136的多个短期响度。通常，长期响度的时间周期是针对短期响度所使用的时间周期的倍数。例如，音频数据可以被格式化为音频样本(例如，采样率为48kHz、96kHz、192kHz)；短期响度可以基于每个样本来计算，并且长期响度可以是通过多个样本来计算的。多个样本可以被组织成帧(例如，帧大小为0.5ms、0.833ms、1.0ms等)，并且短期响度可以基于每个帧来计算。长期响度还可以是通过全部音频数据来计算的。参考图2提供响度测量部件114的进一步细节。

混合部件116接收音频对象数据132、音频描述数据136和响度数据138，应用增益，并且通常执行混合过程，如本文中进一步描述的。混合部件116还接收元数据140，生成视觉化数据142，生成元数据144并且生成混合后的音频对象数据146。元数据读取器118、视觉化部件120、元数据写入器122和音频对象写入器124可以被视为混合部件116的对输入进行操作以便生成输出的功能部件。

元数据读取器118接收元数据140。通常，元数据140对应于一组初始混合参数(还被称为默认混合参数)。如本文进一步讨论的，初始混合参数产生一组增益调整，音频工程师可以根据需要调整这些初始混合参数；已调整的混合参数可以被称为调整过的混合参数。元数据140可以呈各种格式，如可扩展标记语言(XML)格式、JavaScript对象表示法(JSON)格式等。

视觉化部件120基于混合参数和响度数据138来生成增益调整视觉化。通常，该增益调整视觉化示出了音频对象数据132的响度、音频描述数据136的响度以及要为了根据混合参数和响度数据138进行混合而应用的增益。音频工程师然后可以使用增益调整视觉化来评估所提出的混合的增益并且根据需要调整这些增益，从而产生调整过的混合参数。参考图4提供增益调整视觉化的进一步细节。

元数据写入器122生成元数据144。元数据144对应于混合参数和响度数据138。在默认混合参数生成可接受音频混合的情况下，元数据140中的参数可以用作元数据144中的参数而无需任何调整。然而，音频工程师通常将依据默认参数调整混合参数，以生成元数据144。由元数据144表示的混合参数和响度数据138可以在调整过程期间被称为调整过的混合参数，并且一旦音频工程师已完成增益的调整便可以被称为最终混合参数。

音频对象写入器124和音频对象元数据写入器148一起工作，以生成混合后的音频输出。音频对象写入器124根据混合参数和响度数据138来混合音频对象数据132和音频描述数据136，并且生成混合后的音频对象数据146。混合参数可以是初始混合参数或调整过的混合参数。混合后的音频对象数据146然后包括增益调整的音频对象数据和增益调整的音频描述数据。混合后的音频对象数据146可以包括音频对象、音频床声道等。音频对象数据132和音频描述数据136可以根据两个选项进行混合(包括它们的增益调整)。

一个选项是根据音频描述的格式将音频描述混合到一个或多个适当的床声道中。例如，单声道音频描述可以混合到中央声道床中，立体声音频描述可以混合到左声道床和右声道床中，5.1声道音频描述可以混合到5.1声道音频床中等。当可用音频对象的总数量受限制时这个选项是有用的。

另一选项是创建与适当的一个或多个位置相对应的一个或多个新音频对象，该一个或多个位置对应于音频描述的格式。例如，可以为单声道音频描述生成位于中央位置处的音频对象，可以为立体声音频描述生成位于相应的左侧位置和右侧位置处的两个音频对象，可以为5.1声道音频描述生成位于5.1声道环绕位置处的五个音频对象等。

音频对象元数据写入器126生成与混合后的音频对象数据146有关的音频对象元数据148。例如，音频对象元数据148可以包括每个音频对象的位置信息、每个音频对象的大小信息等。

下文是对音频混合系统100的操作的简要概述。音频工程师选择音频对象文件和音频描述文件；音频对象读取器110生成对应音频对象数据132，并且音频描述读取器生成对应音频描述数据136。响度测量部件114生成响度数据138。混合部件116读取元数据140并且将混合参数应用于响度数据138以生成增益视觉化数据142。音频混合系统100显示增益视觉化数据142，并且音频工程师评估增益视觉化。

基于增益视觉化，音频工程师可以调整增益；混合部件116调整混合参数以与调整过的增益相对应并且显示与调整过的混合参数相对应的调整过的增益视觉化。显示、评估和调整过程可以多次执行、迭代地执行等。

一旦混音工程师完成评估(基于初始混合参数或基于调整过的混合参数)，混合部件116便生成与最终混合参数相对应的元数据144并且基于最终混合参数来生成混合后的音频对象数据146。

使用音频混合系统100执行的混合过程可以致使混合后的音频比现有混合系统更快速地生成。例如，可以在30分钟内生成90分钟电影的使用初始混合参数的音频混合。

下文是音频混合系统100的进一步细节。

图2是响度测量部件200的框图。可以使用响度测量部件200作为响度测量部件114(参见图1)。响度测量部件200通常接收音频对象数据132和音频描述数据136，执行响度测量，并且生成响度数据138(参见图1)。响度测量部件200包括空间编码部件202、渲染器204和响度测量器206。

空间编码部件202接收音频对象数据132，执行空间编码，并且生成群集数据210。音频对象数据132通常包括音频对象，其中，每个音频对象包含音频数据和指示要在哪里输出该音频数据的位置元数据。音频对象数据132还可以包含音频床。空间编码部件202执行空间编码以将对象和床的数量减少为更小的群集数量。例如，音频对象数据132可以包含最多128个对象和床，空间编码部件将这些对象和床分组成元素(还被称为群集)。群集数据210可以包含多个群集，如12或16个群集。这些群集可以呈环绕声声道格式，例如12个群集的11.1声道格式、16个群集的15.1声道格式等。通常，空间编码部件202通过将音频对象动态地分组成动态群组来执行空间编码，其中，音频对象可以随着音频对象的位置信息改变而从一个群集移动到另一群集，并且群集也可以移动。

渲染器204接收群集数据210，执行渲染，并且生成渲染数据212。通常，渲染器204通过将群集数据210中的群集与渲染数据212中的声道关联来执行渲染。渲染数据212可以是各种声道格式之一，包括单声道格式(1个声道)、立体声格式(两个声道)、5.1声道环绕格式(6个声道)、7.1声道环绕格式(8个声道)等。渲染数据212可以具有各种编码格式之一，包括脉码调制(PCM)信号、线性PCM(LPCM)信号、A律PCM信号等。根据特定示例实施例，渲染数据212是5.1声道LPCM信号。

响度测量器206接收渲染数据212和音频描述数据136，执行响度测量，生成渲染数据212的长期响度数据220和短期响度数据222，并且生成音频描述数据136的长期响度数据224和短期响度数据226。总体来说，响度数据220、222、224和226对应于响度数据138(参见图1)。

响度测量器206可以实施多个响度测量过程之一。示例响度测量过程包括Leq(响度等效连续声压级)过程、LKFS(响度、K加权、相对于满量程)过程、LUFS(相对于满量程的响度单位)过程等。

响度测量器206可以由如Dolby^TM专业响度测量(DPLM)开发套件等计算机程序实施。响度测量器206计算长期响度数据220和224以便确定这个输入的整体水平；这个值可以用于将输入归一化(被称为对白归一化或“对白归一”)，使得渲染数据212与音频描述数据136之间不存在干扰响度差。对白归一化的示例目标值是-31dB。

通常，短期响度数据222和226对应于按时间排序的值，其中，每个响度测量对应于输入(例如，样本、帧等)的特定部分的响度。通常，长期响度数据220和224对应于每个相应输入的整体响度，但如果这些长期响度数据是通过输入的多个部分来计算的，则它们也可以是按时间排序的数据。响度数据138可以以层次型格式来格式化，例如作为可扩展标记语言(XML)数据。

图3是示出了混合部件116(参见图1)的附加部件的框图。通常当根据混合参数处理响度数据138时使用这些附加部件。附加部件包括先行部件302、斜坡部件304和最大差量部件306。混合部件116可以根据需要包括用于处理其他混合参数的部件。

最初在元数据140(参见图1)中提供混合参数。可以存在可供混音工程师选择的多组初始混合参数，例如与视听内容的各种体裁相对应的多组初始混合参数。混音工程师然后选择与音频对象文件134的体裁相对应的一组混合参数，并且将这些初始参数作为元数据140提供给混合部件116。示例体裁包括动作体裁、恐怖体裁、悬疑体裁、新闻体裁、对话体裁、体育体裁和脱口秀体裁。

在表1中给出了动作体裁的包含在元数据140中的这组初始混合参数的示例：

参数(单位)	值
		主音频的先行长度(s)	1.0
斜坡开始偏移(s)	-0.192
		斜坡结束偏移(s)	-0.192
目标最大差量(dB)	30
		最小增益	0.4
音频描述的先行长度(s)	2.0

表1

先行部件302处理先行参数。主音频的先行长度对应于混合部件116在处理响度数据138时用来在存在音频描述时闪避主音频的前瞻性时间周期。如果音频描述已停止并且在这个参数的值(例如，1.0秒)之前再次开始，则在停止周期期间不会释放斜坡。(示例在图4中示出并且在那里更详细地讨论。)这个参数防止主音频的响度出现大波动，这些大波动否则可能会在音频描述的短暂停期间发生。这个参数对于其他体裁可能不同；例如，该参数对于新闻体裁可能增加(例如，2.0秒)。

音频描述的先行长度对应于混合部件116在处理响度数据138时用来调谐音频描述的增益值的前瞻性时间周期。例如，先行部件302可以在与这个参数的值(例如，2.0秒)相对应的即将到来的时间周期内处理音频描述的短期响度数据226(参见图2)，并且基于该处理，可以增大或减小要应用于音频描述的增益。作为另一示例，先行部件302可以在与这个参数的值(例如，2.0秒)相对应的即将到来的时间周期内处理音频描述的短期响度数据226和主音频的短期响度数据222两者，并且基于该处理，可以增大或减小要应用于音频描述和主音频两者的增益。

斜坡部件304处理斜坡参数。斜坡开始偏移对应于当音频描述开始时将增益逐渐应用于主音频的时间长度。这种增益是逐渐应用的而不是瞬间应用的，以便降低主音频的减少扰乱听众体验的可能性。例如，当要应用于主音频的增益在混合音频描述时是0.3时，增益不会从1.0瞬间改变为0.3，而是在斜坡开始偏移周期内逐渐地改变。对于动作体裁，0.192秒的时间周期效果很好。这个周期可以针对其他体裁进行调整。例如，更大的时间周期(例如，0.384秒)对于戏剧体裁效果很好。

斜坡结束偏移对应于当音频描述结束时将增益逐渐释放到主音频的时间长度。例如，当已经在音频描述期间应用0.3的增益时，增益在斜坡结束偏移周期(例如，0.192秒)内逐渐增大回到1.0。斜坡结束偏移周期可能不同于斜坡开始偏移周期，或者它们可以是相同的。对于动作体裁，0.192秒的时间周期效果很好。这个周期可以针对其他体裁进行调整。例如，更大的时间周期(例如，0.384秒)对于戏剧体裁效果很好。

最大差量部件306处理目标最大差量和最小增益参数。目标最大差量对应于主音频与音频描述之间的响度水平的差，在超过该差时，增益将被应用于主音频。如果响度差小于这个水平，则增益将不会被应用于主音频，即使存在音频描述。当存在有背景音乐的安静场景并且存在音频描述时，这个特征是有用的；如果闪避主音频，则可能无法从音频描述中听到背景音乐，从而扰乱导演对音频场景的意图。

最小增益对应于应用于音频描述的最小增益。这个值防止音频描述与主音频描述相比较太大声；例如在其他安静场景中，音频描述可能是大声的以至于其扰乱听众在音频场景中的沉浸感。在这些极端情况下闪避音频描述允许听众沉浸在音频场景中。

如上文提到的，表1中的参数是经由元数据140提供到混合部件116的一组初始参数。与体裁相对应，并且音频混合系统100可以存储多组混合参数，每组混合参数对应于多个体裁之一。另外，还可以调整被用作初始参数的参数的值。例如，对于动作体裁(参见表1)，斜坡开始偏移值可以从-0.192改变为-0.182。-0.182的值然后被用作经由元数据140提供的初始参数之一。这允许混音工程师在默认混合参数被输入到混合部件116中之前调整这些默认混合参数。此外，针对给定体裁可以存在多组参数。例如，对于动作体裁，一组参数可以具有-0.190的斜坡开始偏移值，并且另一组参数可以具有-0.195的斜坡开始偏移值。

音频混合系统100可以处理除表1中详述的混合参数以外的混合参数。例如，默认主音频闪避参数可以设置要在闪避主音频时应用的默认增益值。这个参数可以被定义为增益水平(例如，0.3的增益)、分贝水平(例如，-16dB)等。作为另一示例，使最小增益参数能够用于闪避音频描述(如上文所讨论的)是可以根据参数切换打开和关闭的一种艺术选择。

图4是示出了视觉化数据142(参见图1)的视觉化402的曲线图400。在曲线图400中，x轴是主音频数据(例如，音频对象数据132)和音频描述数据(例如，音频描述数据136)的样本索引。x轴可以被视为时间索引，其中，内容的开始在左边为零并且内容的结束在右边。左侧的y轴示出了要应用于主音频和音频描述的增益，并且右侧的y轴示出了主音频和音频描述的响度水平(以dB为单位)。

视觉化402是选定音频对象文件(例如，130)和选定音频描述文件(例如，134)的示例，示出了增益和响度。增益是以虚线示出的；线410示出了要应用于主音频的增益，并且线412示出了要应用于音频描述的增益。如上文所讨论的，这些增益对应于应用于响度数据138(参见图1)的混合参数。响度水平是线414和416；线414示出了主音频的响度，并且线416示出了音频描述的响度。注意，线416是不连续的；在不存在线416的情况下，不存在音频描述。

视觉化402示出了多个特征。注意，要应用于音频描述的增益(线412)恒定为1.0。这指示混合部件116在考虑混合参数和响度数据138之后确定增益调整不需要应用于音频描述。例如，主音频与音频描述之间的整体响度的比较可能在由混合参数定义的值内。

注意，要应用于主音频的增益(线410)主要在1.0与0.3之间的范围内，除了在点420周围。从1.0到0.3的向下斜坡和从0.3到1.0的向上斜坡由于x轴的标度而不容易被看到，但根据斜坡开始偏移和斜坡结束偏移的混合参数(参见表1)，这些斜坡是存在的。此外，注意，0.3的增益可以使用混合参数、例如使用默认主音频闪避参数来配置。在点420周围，要应用的增益是大约0.32；这是如应用于短期响度的混合参数之间的相互作用的结果。例如，默认参数可以产生这个增益，或混音工程师可以调整混合参数，使得产生这个增益(例如，响应于收听到混合后的音频，以生成更可接受的混音)。

注意，当存在音频描述(线416)时通常存在要应用于主音频的增益(线410)。然而，线410还存在于不存在音频描述的一些索引处，如在点422周围。这指示音频描述的简短中断，该简短中断小于在混合参数(参见表1)中定义的先行长度值。

混音工程师可以使用视觉化402来评估要在混音中应用的提出的增益。例如，默认参数产生第一视觉化，混音工程师评估该第一视觉化。如果第一视觉化似乎指示将产生可接受混音，则混音工程师可以指示音频混合系统100生成音频混合而无需任何调整。然而，如果第一视觉化示出了指示将产生不可接受混音的一些不连续性或其他视觉特征，则混音工程师可以调整混合参数，并且音频混合系统100可以基于调整过的参数来生成第二视觉化。(例如，可以调整混合参数以在点420周围产生线410的稍微不同的外观。)可以迭代地执行(或以其他方式多次执行)显示修订视觉化、评估修订后的视觉化和调整混合参数的过程，直到修订视觉化的视觉特征指示将产生不可接受的混音为止。

另外，回顾一下，与最终混合参数相对应的元数据144是在生成混合后的音频对象数据146的时间前后生成的。这允许混音工程师评估混合后的音频；如果该混合后的音频是不可接受的，则混音工程师可以指示音频混合系统100使用元数据144作为混合部件116的输入(例如，作为混合参数140)，并且然后可以基于调整过的参数而非默认参数来执行评估和调整。

图5是音频混合系统500的框图。与被描述为处理对象音频的音频混合系统100(参见图1)相比较，音频混合系统500可以用于处理其他类型的音频。音频混合系统500包括转换器502、音频混合系统100和转换器504。

转换器502接收音频数据510，转换音频数据510，并且生成音频对象数据(例如，音频对象文件130、音频对象数据132等)。音频数据510通常对应于不包括音频对象的音频数据，并且转换器502执行转换以将音频数据510转换为对象音频数据。例如，音频数据510可以呈高保真度立体声格式，并且音频对象文件130可以呈Dolby Atmos^TM格式；转换器502可以实施高保真度立体声到Dolby Atmos^TM转换。音频数据510通常可以对应于视听内容的主音频(例如，电影原声)。

音频混合系统100处理音频对象文件130(由转换产生)，并且生成混合后的音频对象数据146和音频对象元数据148，如上文所讨论的。

转换器504接收混合后的音频对象数据146，转换混合后的音频对象数据146，并且生成混合后的音频数据512。转换器504还可以接收混合后的音频对象数据148。混合后的音频数据512然后对应于与音频数据510混合的音频描述。通常，转换器504执行由转换器502执行的转换的逆操作。例如，当转换器502实施高保真度立体声到Dolby Atmos^TM转换时，转换器504实施Dolby Atmos^TM到高保真度立体声转换。

以这种方式，音频混合系统500使得音频混合系统100能够与其他类型的音频一起使用。

图6是根据实施例的用于实施本文描述的特征和过程的设备架构600。可以在包括但不限于以下项的任何电子设备中实施架构600：台式计算机、消费类听/视(AV)设备、无线电广播设备、移动设备(例如，智能手机、平板计算机、膝上型计算机、穿戴式设备)等。在所示出的示例实施例中，架构600是用于膝上型计算机并且包括(多个)处理器601、外围设备接口602、音频子系统603、扩音器604、麦克风605、传感器606(例如，加速度计、陀螺仪、气压计、磁力计、相机)、位置处理器607(例如，GNSS接收器)、无线通信子系统608(例如，Wi-Fi、蓝牙、蜂窝)和(多个)I/O子系统609(包括触摸控制器610和其他输入控制器611)、触摸表面612和其他输入/控制设备613。也可以使用具有更多或更少部件的其他架构来实施所公开的实施例。

存储器接口614耦接到处理器601、外围设备接口602和存储器615(例如，闪速存储器、RAM、ROM)。存储器615存储计算机程序指令和数据，包括但不限于：操作系统指令616、通信指令617、GUI指令618、传感器处理指令619、电话指令620、电子消息传送指令621、网络浏览指令622、音频处理指令623、GNSS/导航指令624和应用程序/数据625。音频处理指令623包括用于执行本文所描述的音频处理的指令。

作为特定示例，设备架构600可以例如通过执行一个或多个计算机程序来实施音频混合系统100(参见图1)。设备架构可以经由外围设备接口602(例如，连接到如固态硬盘等非易失性存储)访问音频文件130，可以使用处理器601计算响度数据138，可以经由外围设备接口602(例如，连接到显示设备)显示视觉化数据142，并且可以使用处理器601生成混合后的音频对象数据146。

图7是音频处理方法700的流程图。方法700可以由具有图6的架构600的部件的设备(例如，膝上型计算机、台式计算机等)执行，以例如通过执行一个或多个计算机程序来实施音频混合系统100(参见图1)等的功能。

在702处，接收音频对象数据和音频描述数据。该音频对象数据包括第一组音频对象。例如，响度测量部件114和混合部件116(参见图1)可以接收音频对象数据132和音频描述数据136。

在704处，计算计算音频对象数据的长期响度和音频描述数据的长期响度。例如，响度测量部件114(参见图1)可以计算长期响度作为响度数据138的一部分。长期响度可以是通过全部数据来计算的。

在706处，计算音频对象数据的多个短期响度和音频描述数据的多个短期响度。例如，响度测量部件114(参见图1)可以计算短期响度作为响度数据138的一部分。可以在连续的基础上(例如，每样本、每帧等)计算短期响度。

在708处，读取与音频对象数据相对应的第一组混合参数。例如，元数据读取器118(参见图1)可以读取包含初始混合参数的元数据140。

在710处，基于第一组混合参数、音频对象数据的长期响度、音频描述数据的长期响度、音频对象数据的短期响度和音频描述数据的短期响度，生成第二组混合参数。例如，混合部件116(参见图1)可以根据初始混合参数处理响度数据138，以生成主音频和音频描述的一组提出的增益(例如，与图4中的线410和412相对应)。

在712处，生成增益调整视觉化。该增益调整视觉化对应于第二组混合参数、音频对象数据和音频描述数据。例如，该增益调整视觉化可以对应于示出了主音频的响度、音频描述的响度和提出的增益的视觉化402(参见图4)。

在714处，评估增益调整视觉化，以确定应用混合参数是否将生成可接受结果。例如，混音工程师可以评估视觉化402(参见图4)。如果结果是不可接受的，则流程进行到716；如果结果是可接受的，则流程进行到718。

在716处，调整第二组混合参数。例如，混音工程师可以调整提出的增益，并且混合部件116可以相应地调整混合参数以与调整过的增益相对应。

在718处，通过根据第二组混合参数混合音频对象数据和音频描述数据来生成混合后的音频对象数据。混合后的音频对象数据包括第二组音频对象，其中，该第二组音频对象对应于根据第二组混合参数与音频描述数据混合的第一组音频对象。例如，音频对象写入器124(参见图1)可以生成混合后的音频对象数据146。还可以生成与混合后的音频对象数据有关的音频对象元数据。例如，音频对象元数据写入器126可以生成音频对象元数据148。

方法700可以包括与如本文描述的音频混合系统100等的其他功能相对应的附加步骤。例如，可以基于被混合的视听内容的体裁来选择默认混合参数。混合参数可以包括先行参数、斜坡参数、最大差量参数等。方法700可以包括转换步骤，该转换步骤将非对象音频转换为对象音频，以由音频混合系统100处理并且将混合后的对象音频转换为混合后的非对象音频。

附加细节

虽然本描述已集中于混合音频描述，但实施例还可以用于混合其他类型的音频内容，以在时间、精力和效率方面实现类似改进。例如，音频混合系统100(参见图1)可以用于混合导演的评论。

实施细节

实施例可以以硬件、存储在计算机可读介质上的可执行模块、或二者的组合(例如，可编程逻辑阵列)来实施。除非另有说明，否则由实施例执行的步骤不需要固有地与任何特定计算机或其他装置相关，尽管其可能在某些实施例中相关。具体地，各种通用机器可以与根据本文的传授内容编写的程序一起使用，或可以更方便地构建更专业的装置(例如，集成电路)以执行所需的方法步骤。因此，实施例可以在一个或多个可编程计算机系统上执行的一个或多个计算机程序中实施，一个或多个可编程计算机系统各自包括至少一个处理器、至少一个数据存储系统(包括易失性和非易失性的存储器和/或存储元件)、至少一个输入设备或端口以及至少一个输出设备或端口。程序代码应用于输入数据以执行本文所描述的功能并生成输出信息。输出信息以已知的方式应用于一个或多个输出设备。

每个这种计算机程序优选地存储在或下载到可由通用或专用可编程计算机读取的存储介质或设备(例如，固态存储器或介质、或者磁性或光学介质)，以用于在计算机系统读取存储介质或设备时配置并操作计算机，以执行本文所描述的程序。本发明的系统还可以被认为是实施为配置有计算机程序的计算机可读存储介质，其中，这样配置的存储介质使计算机系统以具体且预定义的方式操作以执行本文所描述的功能。(软件本身和无形或暂态信号在它们是不可申请专利的主题的意义上被排除。)

本文所描述的系统的各方面可以在适当的基于计算机的声音处理网络环境中实施，以便处理数字或数字化音频文件。自适应音频系统的部分可以包括一个或多个网络，该网络包括任何期望数量的独立机器，该独立机器包括用于缓冲和路由在计算机之间传输的数据的一个或多个路由器(未示出)。这种网络可以在各种不同的网络协议上构建，并且可以是因特网、广域网(WAN)、局域网(LAN)或其任何组合。

一个或多个部件、块、过程或其他功能部件可以通过控制系统的基于处理器的计算设备的执行的计算机程序来实施。还应当注意，可以使用硬件、固件和/或体现在各种机器可读或计算机可读介质中的数据和/或指令的任何数量的组合，从行为、寄存器传输、逻辑部件和/或其他特性的角度描述本文公开的各种功能。可以体现这种格式化数据和/或指令的计算机可读介质包括但不限于各种形式的物理(非暂态)、非易失性存储介质，如光、磁或半导体存储介质。

以上描述说明了本公开的各个实施例以及可以如何实施本公开的各方面的示例。以上示例和实施例不应被认为是仅有的实施例，而是被呈现以说明由所附权利要求限定的本公开的灵活性和优点。基于以上公开和所附权利要求，其他布置、实施例、实施方式和等同物对于本领域技术人员将是显而易见的，并且可以在不脱离由权利要求限定的本公开的精神和范围的情况下采用。

Claims

1.一种计算机实施的音频处理方法，所述方法包括：

接收音频对象数据和音频描述数据，其中，所述音频对象数据包括第一多个音频对象；

计算所述音频对象数据的长期响度和所述音频描述数据的长期响度；

计算所述音频对象数据的多个短期响度和所述音频描述数据的多个短期响度；

读取与所述音频对象数据相对应的第一多个混合参数；

基于所述第一多个混合参数、所述音频对象数据的长期响度、所述音频描述数据的长期响度、所述音频对象数据的多个短期响度以及所述音频描述数据的多个短期响度，生成第二多个混合参数；

生成与所述第二多个混合参数、所述音频对象数据和所述音频描述数据相对应的增益调整视觉化；以及

通过根据所述第二多个混合参数混合所述音频对象数据和所述音频描述数据来生成混合后的音频对象数据，其中，所述混合后的音频对象数据包括第二多个音频对象，其中，所述第二多个音频对象对应于根据所述第二多个混合参数与所述音频描述数据混合的所述第一多个音频对象。

2.如权利要求1所述的方法，其中，所述音频对象数据的长期响度是通过所述音频对象数据的多个样本来计算的，其中，所述音频描述数据的长期响度是通过所述音频描述数据的多个样本来计算的，

其中，所述音频对象数据的多个短期响度中的每一个是通过所述音频对象数据的单个样本来计算的，并且其中，所述音频描述数据的多个短期响度中的每一个是通过所述音频描述数据的单个样本来计算的。

3.如权利要求1至2中任一项所述的方法，其中，所述第一多个混合参数与多个体裁之一相关联，其中，所述多个体裁中的每一个与一组对应的混合参数相关联。

4.如权利要求3所述的方法，其中，所述多个体裁包括动作体裁、恐怖体裁、悬疑体裁、新闻体裁、对话体裁、体育体裁和脱口秀体裁。

5.如权利要求1至4中任一项所述的方法，其中，所述第一多个混合参数包括先行参数、斜坡参数和最大差量参数。

6.如权利要求5所述的方法，其中，所述先行参数对应于在所述音频描述数据的音频暂停期间维持统一的增益调整。

7.如权利要求5至6中任一项所述的方法，其中，所述斜坡参数对应于逐渐应用增益调整的时间周期。

8.如权利要求5至7中任一项所述的方法，其中，所述最大差量参数对应于所述音频对象数据的帧与所述音频描述数据的对应帧之间的最大响度差。

9.如权利要求1至8中任一项所述的方法，进一步包括：

在生成所述混合后的音频对象数据之前，接收用户输入以调整所述第二多个混合参数；以及

生成与已根据所述用户输入调整的所述第二多个混合参数相对应的修正后的增益调整视觉化，

其中，所述混合后的音频对象数据是基于已调整的所述第二多个混合参数来生成的。

10.如权利要求1至9中任一项所述的方法，进一步包括：

在接收所述音频对象数据之前：

接收音频数据，其中，所述音频数据不包括音频对象；以及

将所述音频数据转换为所述音频对象数据，以及

在生成所述混合后的音频对象数据之后：

将所述混合后的音频对象数据转换为混合后的音频数据，其中，所述混合后的音频数据对应于与所述音频描述数据混合的所述音频数据。

11.一种非暂态计算机可读介质，所述非暂态计算机可读介质存储计算机程序，所述计算机程序在由处理器执行时控制装置以执行包括如权利要求1至10中任一项所述的方法的处理。

12.一种用于音频处理的装置，所述装置包括：

处理器，

其中，所述处理器被配置为：控制所述装置，以接收音频对象数据和音频描述数据，其中，所述音频对象数据包括第一多个音频对象，

其中，所述处理器被配置为：控制所述装置，以计算所述音频对象数据的长期响度和所述音频描述数据的长期响度，

其中，所述处理器被配置为：控制所述装置，以计算所述音频对象数据的多个短期响度和所述音频描述数据的多个短期响度，

其中，所述处理器被配置为：控制所述装置，以读取与所述音频对象数据相对应的第一多个混合参数，

其中，所述处理器被配置为：控制所述装置，以基于所述第一多个混合参数、所述音频对象数据的长期响度、所述音频描述数据的长期响度、所述音频对象数据的多个短期响度以及所述音频描述数据的多个短期响度来生成第二多个混合参数，

其中，所述处理器被配置为：控制所述装置，以生成与所述第二多个混合参数、所述音频对象数据和所述音频描述数据相对应的增益调整视觉化，并且

其中，所述处理器被配置为：控制所述装置，以通过根据所述第二多个混合参数混合所述音频对象数据和所述音频描述数据来生成混合后的音频对象数据，其中，所述混合后的音频对象数据包括第二多个音频对象，其中，所述第二多个音频对象对应于根据所述第二多个混合参数与所述音频描述数据混合的所述第一多个音频对象。

13.如权利要求12所述的装置，进一步包括：

显示器，所述显示器被配置为显示所述增益调整视觉化。

14.如权利要求12至13中任一项所述的装置，其中，所述音频对象数据的长期响度是通过所述音频对象数据的多个样本来计算的，其中，所述音频描述数据的长期响度是通过所述音频描述数据的多个样本来计算的，

15.如权利要求12至14中任一项所述的装置，其中，所述第一多个混合参数与多个体裁之一相关联，其中，所述多个体裁中的每一个与一组对应的混合参数相关联。

16.如权利要求12至15中任一项所述的装置，其中，所述第一多个混合参数包括先行参数、斜坡参数和最大差量参数。

17.如权利要求16所述的装置，其中，所述先行参数对应于在所述音频描述数据的音频暂停期间维持统一的增益调整。

18.如权利要求16至17中任一项所述的装置，其中，所述斜坡参数对应于逐渐应用增益调整的时间周期。

19.如权利要求16至18中任一项所述的装置，其中，所述最大差量参数对应于所述音频对象数据的帧与所述音频描述数据的对应帧之间的最大响度差。

20.如权利要求12至19中任一项所述的装置，其中，所述处理器被配置为：控制所述装置，以在生成所述混合后的音频对象数据之前接收用户输入以调整所述第二多个混合参数；

其中，所述处理器被配置为：控制所述装置，以生成与已根据所述用户输入调整的所述第二多个混合参数相对应的修正后的增益调整视觉化；并且