CN108432130A

CN108432130A - 基于对象的音频信号平衡

Info

Publication number: CN108432130A
Application number: CN201680073125.4A
Authority: CN
Inventors: J-M·卓特; B·史密斯; J·汤普森; Z·菲左
Original assignee: DTS BVI Ltd
Current assignee: DTS BVI Ltd
Priority date: 2015-10-28
Filing date: 2016-10-27
Publication date: 2018-08-21
Anticipated expiration: 2036-10-27
Also published as: EP3369175A1; JP2019501563A; EP3369175C0; EP3369175A4; US20170127212A1; US10251016B2; EP3369175B1; CN108432130B; JP7001588B2; KR20180132032A; WO2017075249A1

Abstract

本文描述了用于调整音频节目中的对话信号和非对话信号之间的关系的系统、设备和方法。在例子中，可以接收关于音频节目的长期对话平衡的信息。长期响度对话平衡可以指示音频节目的对话与非对话响度关系。可以接收对话响度偏好，诸如从用户、从数据库或者从另一源接收。可以根据音频节目的接收的长期对话平衡和接收的对话平衡偏好之间的差异来确定期望的长期增益或衰减。可以将长期增益或衰减应用于音频节目的对话信号和非对话信号中的至少一个以渲染根据响度偏好增强的音频节目。

Description

基于对象的音频信号平衡

优先权声明

本申请要求2015年10月28日提交的美国申请No.62/247,678的优先权权益，该申请全文通过引用并入本文。

背景技术

对话或评论可以是电影声轨中的或电视广播节目中的关键的音频元素。在电影的某些片段期间，收听者可能期望对话音频比对话音频信号和非对话音频信号的原始混音中提供的对话音频突出。较突出的对话可能是实现或保持收听舒适所期望的，诸如对于有听力损失的收听者、对于尝试理解以除了他或她的母语之外的语言出现的对话的或者处于不利的收听状况下的收听者。

对于一些体裁(genre)或类型的媒体内容(诸如在其中对话音频是评论音轨的体育或游戏广播)，对话音频水平与非对话音频水平的优选关系或比率在不同人之间可能是显著变化的。对于特定收听者来说优选的音频信号关系可以例如是对话突显性或对话信号幅度水平(诸如相对于原始混音或广播信号混音)的提高或降低。

音频节目可以包括多个不同的音频声道信号。例如，在常规的多声道数字音频格式(诸如5.1格式)中，多个不同的音频声道中的每个可以被分配给规定布局中的相应的回放扩音器。在常规的系统中，给定的音频声道信号可以将对话分量和非对话分量的组合包括在同一个信号中。对话检测或分类技术可以用于选择性地处理信号的对话相关分量。

在基于对象的数字音频格式中，多个不同的音频信号中的每个可以独立地提供，诸如用于在回放位置或附近进行渲染。这样的基于对象的格式可以提供优于传统的多声道格式的较多的灵活性，并且可以使得可以单独地存储、处理或发送音频节目的不同分量。

例如，在基于对象的数字音频格式中，对话信号可以是独立于其他音频信号而被处置或处理的。此外，在基于对象的数字音频中，信号可以包括“对象类型”名称，诸如“对话”、“音乐”、“效果”或某个其他的名称，或者可以与该“对象类型”名称相关联。在一些例子中，对象信号可以是指音频节目的分支，诸如音乐分支、效果分支或对话分支。每个分支可以包括一个或多个音频对象信号。对象类型信息可以可选地与音频对象信号本身一起被嵌入或包括在元数据中。在回放时，每个音频对象信号可以可选地被独立地分析和处理，诸如在被混音并且被渲染到输出之前。

发明内容

提供本发明内容是为了以简化的形式介绍下面在详细描述中进一步描述的构思的选择。本发明内容并非意图认定要求保护的主题的关键特征或基本特征，也非意图用于以任何方式限制要求保护的主题的范围。

本文所描述的对话控制和增强系统和方法的各种实施例被配置为使用基于对象的数字音频编码格式。适合于数字音频/视频广播或流传输服务和其他应用的这些格式可以包括或使用对话“音轨”或对象，对话“音轨”或对象表示与同一个音频节目的非对话元素分开发送的音频信号。这样的对象可以包括或使用信号响度元数据，并且可以在接收端被选择性地进行增益校正。

系统和方法的各种实施例提供对话控制，在该对话控制中，可以应用原始音频内容材料的修改或动态增益调整来满足系统或用户偏好或预期。这可以帮助避免用户在节目期间或当在节目之间切换时调整对话控制参数或设置的需要。另外，系统和方法的实施例可以与现有的广播标准和规章兼容，这确保跨内容体裁和源(例如，包括插播广告)的一致的节目响度，从而避免打扰并且最小化对于用户在节目期间或当在节目之间切换时重复调整音量的需要。

系统和方法的实施例包括直观的用户参数界面。提供该用户参数界面是为了使体验针对收听者的个人偏好个性化，以使得如果解码器检测到校正对于给定的一条内容是需要的，则应用校正。对话平衡个性化可以包括在整个音频节目上应用固定的增益偏移，诸如以便根据长期对话平衡度量来调整对话与非对话的平衡。如果需要的话，对话保护技术可以另外地或可替代地用来提供时变的增益偏移，诸如在短期对话平衡度量落在用户定义的偏好范围之外的音频节目部分期间。例如，每当用户的收听舒适由于并存的元素(诸如伴有声效或音乐的对话)受损时，就可以提供对话保护。

在基于对象的音频系统中，解码器或渲染器可以被配置为接收单独的对话对象信号和非对话对象信号。解码器或渲染器可以被配置为将增益或衰减应用于对话对象信号和非对话对象信号中的一个或两个。在例子中，解码器可以接收期望的对话与非对话突显性或平衡的指示，该指示诸如对应于特定的用户、体裁、节目类型或环境。期望的对话与非对话平衡可以由解码器实现，诸如通过将增益或衰减应用于单独的对象中的一个或多个，也就是说，独立于对话信号和非对话信号。

本发明人已经认识到，除了其他方面之外，用户偏好可以限制可调对话信号平衡对于消费者的实际有用性。例如，如果用户可用的控制参数是固定的“对话增益”参数(该参数表示应用于任何音频材料中的所有对话对象或分量的对话增益(或衰减，诸如就负增益来说))，则当原始材料已经表示合适的对话与非对话平衡时，所得的信号修改可能不是必需的或期望的。也就是说，在一些情况下，合适的对话与非对话平衡可能已经存在于给定的音频节目中，因此应用全局对话增益或衰减可能不利于用户体验。另外，一些收听者在不同的音频节目源之间切换时可能被迫重复地调整对话增益参数。

用于保持对话可理解性的一些技术使用非对话信号，该非对话信号可以通过应用时变衰减而相对于对话信号自动衰减。这样的时变衰减可以被计算为在最大化非对话信号的响度的同时保持预定水平的预测的可理解性。因为这些类型的技术被设计为保持语音可理解性，所以它们可能不允许用户将用户指定的衰减应用于相对于非语音信号的语音或评论信号。

用于自动地调整对话音频信号和非对话音频信号之间的平衡的另一技术包括检测输入信号中的音量比、然后自动地导出增益校正以便满足指定的音量比值。然而，这种技术和前面描述的技术两者可能易于在输出信号中产生明显的音频伪像(例如作为实时增益变化的结果)。

本发明人已经认识到，上述问题的解决方案包括提供或保持具有最佳平衡化的对话音频分量和非对话音频分量的音频节目。在例子中，该解决方案包括或使用基于对象的音频再现系统来实现用户偏好的对话与非对话平衡，诸如对于整个音频节目以及对不同类型的音频节目来实现该平衡。

在例子中，该解决方案包括将音频节目的每个部分或段与对话平衡度量相关联，该对话平衡度量指示音频节目的对话信号和非对话信号的响度之间的关系。在回放时，该系统可以被配置为将对话平衡度量与用户指定的对话平衡偏好值进行比较，然后可以自动地将对话与非对话信号平衡校正应用(如果需要的话)于音频节目的相应部分。在例子中，该解决方案包括将多个对象信号或对象信号的类别与一个或多个响度度量或响度平衡度量相关联。

在例子中，该解决方案包括对音频节目提供长期对话平衡或突显性，诸如可以基于音频节目中的多个音频对象信号中的每个的响度度量来提供。长期对话平衡一般可以与音频节目的整个持续时间相关联，并且在这样的情况下，可以被认为是相对于音频节目的“全局”对话平衡。在例子中，长期对话平衡可以与少于整个音频节目并且多于连续音频节目材料的几秒(例如，多于大约5-10秒)的部分相关联。

该解决方案可以包括接收长期对话平衡偏好，诸如可以从用户接收，或者可以基于已知的或检测到的音频节目体裁(例如，使用对话信号和/或非对话信号的元数据检测到的音频节目体裁)。该解决方案可以包括：针对特定用户渲染或播放音频节目，将音频节目的长期对话平衡与接收的用户的长期对话平衡偏好进行比较，然后对对话与非对话信号平衡进行校正以使得用于音频输出信号的长期对话平衡对应于收听者的长期对话平衡偏好。在例子中，该解决方案进一步包括对对话信号应用对话“保护”方案。对话保护方案可以被配置为确保短期对话平衡或突显性不落到用户定义的阈值以下，诸如这样的阈值，超过该阈值，用户的收听舒适由于并存的音频信号元素(像声效或音乐)的出现而受损。

应注意，替代实施例是可能的，并且可以根据特定的实施例，改变、添加或除去本文所讨论的步骤和元素。在不脱离本发明的范围的情况下，这些替代实施例包括可以使用的替代步骤和替代元素，以及可以做出的结构改变。

附图说明

现在参照附图，在附图中，相似的附图标记始终表示对应的部分。

图1一般性地示出对话控制和增强系统的例子。

图2一般性地示出表示多声道响度处理方案的框图。

图3一般性地示出包括确定应用于对话信号和/或非对话信号的长期增益或衰减的方法。

图4一般性地示出包括调整对话信号和/或非对话信号的响度的方法。

图5一般性地示出包括将短期增益或衰减应用于对话信号和/或非对话信号的方法。

图6一般性地示出对话音频信号波形和非对话音频信号波形的例子。

图7一般性地示出对话音频信号和非对话音频信号的短期响度测度的例子。

图8一般性地示出短期对话平衡测度和增益或衰减偏移之间的映射的例子。

图9一般性地示出用于对话信号或非对话信号的短期平衡信号、平滑的短期平衡信号和增益或衰减偏移的例子。

图10一般性地示出增强的对话信号波形和非对话信号波形的例子。

图11一般性地示出包括长期和短期信号平衡的方法。

具体实施方式

在对话信号控制和增强系统和方法的实施例的以下描述中，参照附图。这些附图以示例的方式示出可以如何实施对话控制和增强系统和方法的实施例的特定例子。要理解的是，在不脱离要求保护的主题的范围的情况下，可以使用其他实施例，并且可以做出结构改变。在以下描述中，术语“对话”等同地指话音、语音、前景内容，或更一般地说，音频节目中的内容信号的优选部分或分量。术语“非对话”是指音频节目的任何其余的或其他的部分。

图1一般性地示出对话控制和增强系统100的例子。系统100包括编码器设备120，编码器设备120被配置为接收表示一个或多个相应的物理声波的一个或多个音频信号110。系统100进一步包括解码器设备130，解码器设备130通信地耦合到编码器设备120，并且被配置为从编码器设备120接收编码的音频信号111。系统100进一步包括(一个或多个)回放设备150，回放设备150从解码器设备130接收一个或多个输出信号112。输出信号112可以包括一个或多个数字或模拟音频信号，这些数字或模拟音频信号包括音频节目的用于经由耦合到(一个或多个)回放设备150的一个或多个扩音器回放的一部分。

音频信号110可以包括基于对象的音频信号。在例子中，音频信号110至少包括第一基于对象的音频信号和第二基于对象的音频信号，第一基于对象的音频信号包括对话信号，第二基于对象的音频信号包括非对话信号。编码器设备120可以被配置为读取、添加或修改与第一基于对象的音频信号和第二基于对象的音频信号中的一个或多个相关联的元数据113。在例子中，编码器设备120接收音频信号110并且将相应的元数据113添加到音频信号110。除了别的之外，元数据113可以包括音频信号的源、类型、体裁、响度、静音程度、持续时间、噪声特性、频率内容、空间位置的指示或关于它们的信息、或其他信息。基于对象的音频信号可以在编码器设备120中的复用器电路122处被接收，并且复用器电路122的输出可以耦合到编码器设备120的输出。

解码器设备130可以包括输入131，输入131被配置为从编码器设备120接收编码的音频信号111，诸如可以包括复用的基于对象的音频输入信号。输入131可以耦合到解码器设备130中的解复用器电路132，并且解复用器电路132可以从编码的音频信号111恢复一个或多个不同的基于对象的音频信号。解码器设备130可以包括处理器电路135，处理器电路135被配置为从恢复的基于对象的音频信号读取元数据113。在例子中，元数据113包括分别与恢复的基于对象的音频信号中的每个相关联的响度度量信息。解码器设备130进一步包括输出139，输出139被配置为将一个或多个数字或模拟音频输出信号112提供给(一个或多个)回放设备150。

在例子中，系统100包括数据库140，数据库140可以包括关于音频节目或基于对象的音频信号的各种体裁信息。数据库140可以相对于编码器设备120和解码器设备130中的一个或两个远程地或本地地提供。例如，数据库140可以被编码器设备120和/或解码器设备130经由内联网或互联网访问。在例子中，编码器设备120被配置为确定关于音频信号110的体裁信息114或将关于音频信号110的体裁信息114提供给数据库140(诸如与元数据一起，该元数据可以后来被解码器设备130用来检索(retrieve)与同一个音频信号和/或音频节目相对应的体裁信息114)。

解码器设备130可以被配置为更新或调整两个或更多个基于对象的音频信号之间的信号平衡。在例子中，处理器电路135接收对话平衡设置136，然后将对话平衡设置136与要被解码器设备130处理的基于对象的音频信号的检测到的或确定的对话平衡进行比较。如果对话平衡设置136和信号的检测到的或确定的对话平衡之间的关系满足或超过指定的阈值，则处理器电路135可以更新或调整基于对象的音频信号136中的一个或多个的响度特性。在整个本文档中，短语“对话平衡”一般可以被理解为提供不同音频对象之间的响度关系或平衡的例子。可以类似地执行其他响度平衡，诸如使用多个非对话对象。例如，可以使用本文所描述的系统和方法来调整或调节音乐对象和声效对象之间的响度关系或平衡。

在例子中，对话平衡设置136可以通过经由第二输入133输入到解码器设备的用户偏好、与(一个或多个)回放设备150相对应的设备信息、体裁信息114或其他因素而确定，或者受它们的影响。在例子中，用户偏好可以与个人设备(例如，移动智能电话或一般与一个用户或一个用户的偏好相关联的其他设备)相关联，并且该个人设备可以与解码器设备130通信地耦合。该个人设备可以被配置为自动地或响应于来自解码器设备130的请求来共享用户偏好。在例子中，用户偏好可以存储在数据库140中，并且当与用户偏好相对应的一个或多个准则(诸如节目体裁、回放设备特性等)被识别时，用户偏好可以自动地被解码器设备130检索。

图1的例子因此包括端对端的基于对象的系统，该系统可以被配置用于对话控制和增强。在例子中，系统100可以使用基于对象的响度元数据(诸如可以由编码器设备120提供)来除了其他方面之外、促进对话与非对话信号平衡的检测和校正，诸如在解码器设备130的输出139处。在常规的媒体广播或信号分布模型中，在解码器端实时地执行检测和校正。然而，在媒体流传输/单播模型中，可以在编码器或服务器端类似地执行检测和校正。

对话控制和增强系统100的各种实施例包括或使用对话与非对话信号水平校正技术。这些技术可以可选地包括将固定的增益(放大)或衰减应用于音频节目中的对话元素，诸如基于相对对话响度测度。这样的相对对话响度测度可以被称为对话平衡或对话突显性。在例子中，对话平衡可以被视为在音频节目的整个持续时间是有效的。整个音频节目的特性可以被认为是“全局”特性。例如，全局对话平衡可以被认为是表示整个音频节目的对话与非对话响度。在例子中，对话平衡可以被视为在比整个音频节目的持续时间短的持续时间是有效的。在该例子中，对话平衡特性可以被认为是“长期”特性。甚至更短的持续时间的对话平衡特性(诸如对应于大约20毫秒或更短)可以被认为是“短期”特性。

在一些实施例中，除了其他方面之外，用户偏好的对话突显性设置可以取决于对应的音频节目的内容或体裁。音频节目体裁可以包括各种类的或类型的音频，诸如与现场体育赛事、脱口秀、广告、音乐会、电影、电视剧集、电视广告或其他媒体相对应的音频。为了启用“设定后放置(set-and forget)”类型的操作，系统100可以被配置为自动地检索或回忆用户偏好的对话平衡设置，诸如基于关于对应于音频节目的体裁的信息。如图1所示，体裁信息可以被包括在编码的位流中，或者从数据库140检索。

在一些实施例中，编码器设备120可以被配置为对对话信号和非对话信号计算相应的响度值。在例子中，编码器设备120计算音频节目的持续时间内的响度值以便为对话信号和非对话信号中的每个提供全局响度值。在例子中，编码器设备120可以被配置为将对话平衡计算或确定为对话信号和非对话信号的响度值的比率。在例子中，确定的对话平衡可以与基于对象的内容信号一起发送。如果需要的话，可以应用固定的对话增益校正，诸如用来在(一个或多个)回放设备150处与用户指定的对话平衡匹配。在例子中，增益可以是对应于信号放大的正数，或者增益可以是对应于信号衰减的负数。如果增益在音频节目的持续时间内基本上是恒定的，则可以使信号保真度很大程度地保留。例如，当音频节目的对话平衡(换句话说，由节目的混音工程师选择的默认平衡设置)已经与用户的偏好匹配时，可能不需要应用信号修改。

在过去的十年里，各种广播标准组织和立法机构已经发布了用于响度测量和最佳实践的规章和技术推荐。按照这些规章和推荐，可以如下计算数字音频节目的长期(或整合)响度测度，该测度用LKFS(Loudness,K-weighted,relative to Full Scale(响度、K加权的、相对于全标度的))或LUFS(Loudness Units relative to Full Scale(相对于全标度的响度单元))表达：

L＝-0.691+10log₁₀[Σ_(m∈Ω)k_mp(m)/|J|] (1)

其中，p(m)是在音频信号块m中测量的功率，其中，每个信号块的持续时间为400ms，其中有75％的重叠，Ω表示根据门控准则被选择包括在功率平均值中的一组信号块，根据该门控准则，低水平的信号帧被丢弃，|J|表示J中的元素的计数或数量，J是在门控之后保留的一组信号帧。对于多声道信号，可以用系数k_m来对块m的功率贡献进行加权，系数k_m的值取决于空间位置。

在例子中，编码器设备120可以被配置为计算基于对象的对话信号在音频节目的持续时间内的组合的整合响度L_D，诸如按照方程(1)计算。类似地，编码器设备120可以被配置为计算基于对象的非对话信号在音频节目的持续时间内的组合的整合响度L_N。值L_D和/或L_N可以作为全局元数据113编码在数字音频位流中，诸如编码在编码的音频信号111中。在例子中，响度信息可以被编码(例如，与表示整个音频节目的全局整合响度L一起，对全局累积(integrate)响度L的包括在一些情况下是现有的响度规章和标准强制执行的)。

图2一般性地示出表示多声道响度处理方案200的框图。方案200可以用于对多个声道(诸如使用五个声道(左、中心、右、左环绕和右环绕)的5.1系统中的多个声道)上的响度特性进行建模或测量。对于每个块m的功率测度p(m)可以通过均方累积来估计，并且可以包括被称为“K滤波器(K-filter)”的频率相关加权。各种声道可以被独立地加权，然后被求和。在例子中，可以使用门控块(例如，包括40ms持续时间块，其中有75％的重叠)。门控块可以包括相对于在应用LKFS阈值之后测得的水平的各种阈值，诸如-70LKFS或-10dB。一般来说，低频效果(LFE)声道不包括在响度测量中。

在例子中，可以如下表达用分贝表达的长期对话平衡：

S＝L_D-L_N (2)

其中，L_D和L_N是在相应的信号块集合Ω_D和Ω_N上根据方程(1)计算的。块集合Ω_D和Ω_N分别是通过使Ω限于对话对象和非对话对象而定义的。

在例子中，可以使用对话平衡偏好指示符。尽管在本文中一般被称为“对话”平衡偏好指示符，但是该指示符可以被类似地理解为“非对话”响度偏好指示符，或者更一般地被理解为平衡或关系指示符。在例子中，对话响度偏好指示符可以被表示为S_P。可以通过对方程组(3)和(4)进行求解来导出增益偏移G_D和G_N，诸如可以分别应用于对话对象和非对话对象的增益偏移：

G_D-G_N＝S_P-S (3)

pow(L_D+G_D)+pow(L_N+G_N)＝pow(L) (4)

在方程(4)中，pow()表示从LUFS到幂的转换，即，pow(L)＝|J|exp₁₀[(L+0.691)/10]，诸如按照方程(1)。方程(3)表达对话平衡校正，而方程(4)确保整个音频节目响度转换。

提供各种非限制性例子以示出对话响度偏好指示符可以如何用来渲染来自基于对象的对话音频信号和非对话音频信号的增强输出信号，诸如通过使用图1的示例系统的各种组件来渲染。图3例如一般性地示出方法300，方法300包括确定应用于对话信号和/或非对话信号的长期增益或衰减。图4一般性地示出方法400，方法400包括调整对话信号或非对话信号的响度。

在图3的例子中，在操作310，可以接收音频节目的长期对话平衡，诸如由解码器设备130接收。可以计算对话平衡，诸如使用方程(1)或使用图2的方案200的一部分来计算。在例子中，使用其他手段或方法来计算对话平衡，或者可以从元数据113检索关于对话平衡的信息。在操作310接收的长期对话平衡可以包括关于音频节目的对话与非对话响度关系的信息。下面进一步讨论的图4一般性地示出确定(诸如可以在操作310使用的)长期对话平衡的例子。

在操作320，可以接收对话平衡偏好，诸如由解码器设备130接收。对话平衡偏好指示关于对话音频相对于非对话音频或其他音频节目内容的特定平衡或混音的偏好(例如，用户偏好)。在例子中，可以基于用户偏好、基于回放设备类型或环境指示、基于音频节目或信号级或节目级体裁信息、或者基于其他信息来接收或确定对话平衡偏好。对话平衡偏好在图1的例子中可以用于提供对话平衡设置136。

在操作330，图3的方法包括确定接收的长期对话平衡和接收的对话平衡偏好之间的关系。确定该关系可以包括识别接收的长期对话平衡和接收的对话平衡偏好之间的幅值差，诸如以便确定音频节目的对话平衡是否对应于对话平衡偏好。如果音频节目的对话平衡比对话平衡偏好大了或小了多于指定的阈值量，则可以采取各种校正动作。例如，如果音频节目的对话平衡指示超过或足够大于对话平衡偏好的对话与非对话响度关系，则处理器电路135可以衰减、切割或削弱基于对象的对话信号，和/或可以放大、提升基于对象的非对话信号或将增益应用于基于对象的非对话信号。如果音频节目的对话平衡指示足够小于对话平衡偏好的对话与非对话响度关系，则处理器电路135可以放大或提升基于对象的对话信号，和/或可以衰减基于对象的非对话信号。如果音频节目的对话平衡指示基本上对应于对话平衡偏好的对话与非对话响度关系，则处理器电路135可以根据默认值(诸如由原始内容混音工程师提供的默认值)来对基于对象的对话信号和非对话信号进行处理。

在操作340，图3的方法包括确定应用于基于对象的对话信号和/或基于对象的非对话信号的长期增益或衰减。例如，基于长期对话平衡和对话平衡偏好之间的差异的幅值(诸如在操作330确定的)，处理器电路135或其他处理器可以用于确定应用于基于对象的音频信号的增益或衰减的对应幅值以补偿该差异。

在操作350，该方法可以包括把在操作340确定的长期增益或衰减，应用于诸如基于对象的对话信号和非对话信号中的一个或两个。在例子中，处理器电路135或解码器设备130中包括的或与解码器设备130通信地耦合的其他专用信号处理器可以用于将增益或衰减应用于指定的音频信号。在操作360，该方法可以包括使用基于对象的对话信号和非对话信号中的至少一个、可选地两个的增益校正版本来渲染音频输出信号。例如，渲染音频输出信号可以包括使用处理器电路135或解码器设备130的一个或多个输出级或放大器电路来提供一个或多个输出信号112。

现在参照使用响度度量的另一例子，图4一般性地示出方法400，方法400包括调整对话信号或非对话信号的响度。在操作410，该方法包括接收基于对象的对话信号，诸如包括元数据113的信号。在该例子中，元数据113可以包括对话信号的响度指示。在操作420，该方法包括从元数据113识别或检索对话信号的响度度量，诸如通过使用处理器电路135来识别或检索。在例子中，在操作420识别的响度度量是长期响度度量。

操作430和440可以分别类似于操作410和420那样执行。例如，在操作430，该方法包括接收基于对象的非对话信号，诸如与元数据113包括在一起的基于对象的非对话信号。在该例子中，元数据113可以包括非对话信号的响度指示。在操作440，该方法包括从元数据113识别或检索非对话信号的响度度量，诸如通过使用处理器电路135来识别或检索。尽管元数据113在本文中是使用单个附图标记共同提到的，但是要理解的是，任何一个或多个基于对象的信号可以包括它自己的分离的或独特的元数据，或者可以与该元数据相关联。

在操作450，该方法包括确定长期对话平衡(例如，长期对话响度平衡)。在例子中，基于对话响度度量(例如，在操作420识别或确定的)和非对话响度度量(例如，在操作440识别或确定的)之间的关系来确定长期对话平衡。在例子中，基于对话响度度量和非对话响度度量之间的差异来确定长期对话平衡。在例子中，可以使用较复杂的算法来确定该关系。例如，对话响度度量和非对话响度度量可以包括离散的频率分量或频带的度量，并且长期对话平衡可以基于表示各种频率分量或频带的一个或多个度量的加权的或不加权的比较。在例子中，可以对于不同的块或采样长度确定不同的关系。在例子中，确定的长期对话平衡可以应用在图3的例子中、诸如在操作310处。

在图4的方法中，操作460可以包括确定或接收关于与在操作410接收的对话信号和在操作430接收的非对话信号中的一个或两个相对应的音频节目的体裁的信息。在例子中，操作460可以包括使用解码器设备130来对元数据113(诸如可以与基于对象的信号中的至少一个一起接收)进行处理，以从元数据113确定或读取关于体裁的信息。操作460可以另外地或可替代地包括使用从数据库140检索的体裁信息114。确定的体裁可以与先前指定的或默认的对话响度平衡相关联。例如，不同的体裁可以与相应的不同的音频节目对话平衡量或对话信号和非对话信号之间的不同的优选关系相关联。因此，诸如体育广播之类的体裁可以与第一音频节目对话平衡相关联，第一音频节目对话平衡不同于与戏剧表演相关联的第二音频节目对话平衡。

在例子中，方法400包括操作470，操作470包括接收音频节目元数据，诸如从编码的音频信号111的一部分或者从数据库140接收。除了其他方面之外，音频节目元数据可以包括与音频节目本身相关的信息或特性、或与节目的对象信息分量相关的信息或特性。在操作480，解码器设备130可以被配置为使用在操作470接收的元数据来确定音频节目的体裁。在操作480，解码器设备130可以另外地或可替代地被配置为使用在操作470接收的元数据来确定长期对话平衡。确定体裁和/或长期对话平衡可以包括读取先前编码的关于体裁和/或平衡的信息，或者它可以包括使用从接收的元数据挖掘出的其他信息或特性来计算体裁和/或长期对话平衡。

在操作490，图4的方法包括基于长期对话平衡(例如，在操作450或480确定)、并且可选地进一步基于体裁(例如，在操作460或480确定)来调整对话信号(例如，在操作410接收)和非对话信号(例如，在操作430接收)中的至少一个。例如，可以基于在操作450确定的长期对话平衡和与确定的体裁相关联的对话平衡偏好之间的关系来调整对话响度。在例子中，确定关系、确定应用于对话信号和/或非对话信号的增益或衰减、应用确定的增益或衰减以及渲染音频输出可以类比于图3中操作330、340、350和360处描述的方法那样执行，诸如通过用图4中的与确定的体裁相关联的对话平衡替换图3中的对话平衡偏好来执行。

如上所述，尽管的长期对话对话平衡个性化可以用于改进用户的收听舒适(诸如在节目的持续时间并且跨多种不同的音频节目类型或体裁全局地改进)，但是这样的长期或静态校正在一些情况下可能不足以减小对话信号响度中相对于非对话或背景信号响度的暂时下降。在例子中，可以有意地提供短期对话响度失衡，诸如在视频声轨中提供，以便唤起遥远的人物对话或暂时地强调用于情绪影响的音乐或声效。由于可变的因素，诸如听力损失、非母语或不利的收听状况，这样的失衡对于一些用户可能会负面地影响收听舒适。长期对话平衡校正可能不足以补救短期响度失衡，诸如因为长期对话平衡校正可能全局地或在较长的持续时间操作，诸如通过使用静态的或恒定的校正增益或衰减特性来操作。大得足以补偿不期望的短期响度失衡的校正增益可能不必或不期望地将增益应用于音频节目的其他部分中的对话信号。

本系统和方法的一些实施例包括可以用于确保短期对话突显性或平衡可以被保持在用户控制的优选水平之上的组件和技术。在这样的实施例中，可以暂时地或仅在需要时用高得足以满足或超过用户的偏好的量来强调对话信号。该功能或技术在本文中被称为“对话保护”。

图5一般性地示出对话保护方法500，对话保护方法500包括将短期增益或衰减应用于音频节目中的对话信号和/或非对话信号。在操作510，该方法包括接收音频节目的长期对话平衡，并且在操作520，该方法包括接收长期对话平衡偏好。操作510和520大体上对应于上面在图3的例子中描述的操作310和320。在操作560，可以对对话信号或非对话信号确定长期增益调整，诸如基于在操作510接收的对话平衡以及基于在操作520接收的对话平衡偏好来确定。

在操作570，方法500包括监视短期信号块或段上的对话信号响度值和非对话信号响度值中的一个或两个。可以例如使用解码器设备130的处理器电路135或者使用另一处理器或模块来监视信号响度值。在例子中，对离散的短期信号段(持续时间一般为20ms或更短)监视信号响度值。

在操作580，方法500包括确定短期对话平衡(诸如在操作570监视的)是否小于指定的阈值平衡。在例子中，操作580可以另外地或可替代地包括确定短期对话平衡是否对应于指定的一组平衡值(例如，在直方图中的)。在例子中，操作580包括确定对话平衡与参考是否相差了大于指定的量。

如果监视的对话平衡值满足操作580中的准则，则方法500在操作585继续确定用于对话信号和/或非对话信号的短期增益或衰减。接着，在操作590，例子包括将确定的短期增益或衰减应用于对话信号和非对话信号中的至少一个，诸如以减小或解决对话信号和非对话信号之间的平衡或关系的突然的或暂时的改变。

如果监视的响度特性值不满足操作580中的准则，则方法500在操作595继续使用基于对象的对话信号和非对话信号中的至少一个、可选地两个的长期增益校正版本来渲染音频输出信号。例如，渲染音频输出信号可以包括使用处理器电路135或解码器设备130的一个或多个输出级或放大器电路来提供一个或多个输出信号112。

图6一般性地示出对话音频信号波形601A/601B和非对话音频信号波形602的例子600。为了清楚起见，不同的信号被假定为单声道信号。在例子600中，在大约头4秒期间，对话音频信号波形601A的第一部分的短期响度远大于非对话音频信号波形602的短期响度。从大约4秒开始，对话音频信号波形601B的第二部分的短期响度远小于较安静的非对话音频信号波形602的短期响度。

在例子中，对话保护技术(例如，在上面在图5的例子中描述的)可以在重叠的或不重叠的、逐块的基础上进行操作，其中，块持续时间通常为5至20ms。可以对每个块计算校正增益，对该校正增益进行插值，然后逐个采样地将该校正增益应用于对应的对话音频信号和非对话音频信号。下面对对话保护技术进行简要的描述。

在例子中，可以如下表达短期对话平衡信号(例如，以分贝为单位)：

s(m)＝I_D(m)-I_N(m) (5)

在方程(5)中，m是块索引，I_D(m)表示块m的对话对象的短期响度，I_N(m)是同一个块m的非对话对象的短期响度。可以通过例如分别对对话对象和非对话对象执行功率求平均(诸如通过使用方程(1)的非门控版本)来对块索引m计算值I_D(m)和I_N(m)。

图7一般性地示出对话音频信号和非对话音频信号的短期响度测度的例子700。第一曲线701对应于对于对话音频信号波形601A和601B的第一部分和第二部分的短期响度测度。第二曲线702对应于对于非对话音频信号波形602的短期响度测度。在例子中，可以对多声道对象或对象的混合计算短期响度测度。

在例子中，对话保护技术可以用于确保短期对话平衡信号s(m)基本上保持在阈值以上或用户定义的偏好范围(诸如通过用户的短期对话平衡偏好和/或音频节目的体裁确定的)内。短期对话平衡偏好在本文中被表示为s_P，在例子中，s_P可以表示用户在收听舒适受损之前可以容忍的最小短期对话平衡(或对话与非对话平衡)。从短期对话平衡信号s(m)和最小值s_P，可以计算时变的增益偏移。为了简化起见，并且避免频谱修改或各种听得见的伪像，可以应用宽带校正增益偏移。

图8一般性地示出短期对话平衡测度和增益或衰减偏移之间的映射的例子。在例子800中，沿着x轴的输入表示在音频节目中检测到的短期响度差或比，诸如对话信号分量和非对话信号分量之间的短期响度差或比。沿着y轴的输出表示增益。例子800包括增益曲线801。增益曲线801表示最小对话平衡s_P＝12dB、和15dB的最大增益。在例子800中，对于大约-5dB以下的输入，可以提供+15dB的最大增益。在达到或超过最小值s_P＝12dB的输入值或该值之上处不提供增益。

可以将来自图8的例子的映射应用于对话音频信号，诸如与来自图6的例子600的对话音频信号波形601A/601B相对应的对话音频信号。例如，图9一般性地示出对话信号或非对话信号的短期对话平衡信号s(m)901、平滑的短期平衡信号s_env(m)902以及增益偏移信号g(m)903的例子900。在图9的例子中，可以用具有遗忘因子α的一阶滤波器来对短期对话平衡信号s(m)进行平滑，诸如以便提供如下的快攻和缓释包络或平滑的短期平衡信号s_env(m)：

s_env(m)＝αs(m)+(1-α)a_env(m-1) (6)。

可以将平滑的信号s_env(m)902的值映射到增益偏移信号g(m)903中的对应值，诸如经由如图8所示的动态范围压缩(DRC)曲线。

快攻/缓释包络平滑、最大增益和软拐点压缩曲线帮助最小化听得见的伪像。可以将所得的增益偏移信号g(m)903转换为两个增益序列g_D(m)和g_N(m)，这两个增益序列诸如可以分别应用于对话对象和非对话对象，并且可以用g_D(m)-g_N(m)＝g(m)来验证。在例子中，可以将基于块的分贝增益序列转换到线性域并且线性地插值到基于采样的增益序列。

图10一般性地示出增强的对话信号波形和非对话信号波形的例子1000。例子1000包括对话音频信号波形601A/601B，对话音频信号波形601A/601B被根据来自例子900的增益偏移信号g(m)903进行处理以得到增强的对话信号和/或非对话信号。例子1000示出g_D(m)＝g(m)和g_N(m)＝0dB的情况。在例子1000中，相对高幅度的第一部分的增强的对话音频信号波形1001A与输入的信号波形(例如，对应于图6的例子中的对话音频信号波形601A的第一部分)相比基本上没有改变，而较低幅度的第二部分的增强的对话音频信号波形1001B(诸如在例子1000中大约4.0秒之后)与输入的信号波形(例如，对应于图6的例子中的对话音频信号波形601B的第二部分)相比被显著地放大。

图11一般性地示出方法1100，方法1100包括长期信号平衡和短期信号平衡。如例子1100所示，长期平衡校正和短期平衡校正可以作为两个连续的彼此没有依赖性的处理级而被应用；然而，它们可以可选地组合为单个分析和增益级。

在操作1110，方法1100可以包括分别恢复长期对话和非对话响度测度或度量L_D和L_N，诸如从编码的元数据113恢复。在操作1120，该方法可以包括监视分别被表示为I_D(m)和I_N(m)的、基于对象的对话信号和非对话信号的短期响度。在其他例子中，可以计算短期响度元数据，诸如在编码器端(例如，使用编码器设备120)计算，并且对单个的对象或对象组(诸如指定的“对话”信号组和“非对话”信号组)发送该短期响度元数据。

已经恢复了I_D和I_N以及I_D(m)和I_N(m)，可以计算对话增益偏移G_D(m)和非对话增益偏移G_N(m)，诸如通过使用解码器设备130来计算。在例子中，增益偏移可以包括固定的对话平衡校正和短期对话平衡校正，诸如如果两者之中任一个是如上面定义的对话平衡个性化和/或对话保护所期望的话。

在操作1112，可以计算音频节目的长期对话平衡S，并且将长期对话平衡S与长期对话平衡目标S_P进行比较，长期对话平衡目标S_P诸如可以由用户设置和/或受信号类型(例如，对应于该信号的体裁)的影响。如果长期对话平衡S和目标S_P是不同的，诸如相差了大于指定的量，则可以在操作1114将根据方程(3)和(4)计算的固定的增益偏移G_D和G_N分别应用于对话信号和非对话信号。

可选地，可以在操作1122根据本文所描述的对话保护技术来对来自操作1114的校正的信号进行处理，对话保护技术可以考虑短期对话平衡信号s(m)＝I_D(m)-I_N(m)和最小平衡设置s_P，最小平衡设置s_P诸如可以由用户指定和/或受信号类型(例如，对应于该信号的体裁)的影响。然后可以在操作1124确定所得的时变的增益偏移g_D(m)和g_N(m)，然后在操作1116将这些增益偏移应用于对应的对象波形。

在例子中，如果在编码器设备120处计算I_D(m)和I_N(m)并且将I_D(m)和I_N(m)与元数据113一起发送，则可以将响度信号偏移第一级中应用的长期对话平衡校正增益G_D和G_N增益(例如，在操作1114)。例如，短期对话保护增益偏移可以于在输出处测得的所得的长期对话平衡信号中引起微小的误差。然而，在实践中，该效果并没有显著到足以令人讨厌。

本发明的各方面可以独立使用或一起使用。例如，方面1可以包括或使用主题(诸如用于执行动作的装置、系统、设备、方法、部件、或包括当被设备执行时可以使设备执行动作的指令的设备可读介质)，诸如可以包括或使用用于调整音频节目中的对话信号和非对话信号之间的关系的方法。方面1可以包括：使用处理器电路来接收音频节目的长期对话平衡，该长期对话平衡指示音频节目的对话与非对话响度关系；并且使用处理器电路来接收长期对话平衡偏好。方面1可以进一步包括使用处理器电路来确定应用于音频节目的对话信号和非对话信号中的至少一个的长期增益或衰减，该长期增益或衰减是根据音频节目的接收的长期对话平衡和接收的长期对话平衡偏好之间的差异确定的。

方面2可以包括或使用方面1的主题，或者可以可选地与该主题组合，以可选地包括：确定应用于音频节目的对话信号的长期增益，使用处理器电路来将确定的长期增益应用于对话信号以生成增益调整的对话信号，并且渲染音频输出信号，该音频输出信号包括增益调整的对话信号和非对话信号的组合。

方面3可以包括或使用方面1或2中的一个或它们的任何组合的主题，或者可以可选地与该主题组合，以可选地包括：确定应用于音频节目的对话信号的长期衰减，使用处理器电路来将确定的长期衰减应用于对话信号以生成调整的对话信号，并且渲染音频输出信号，该音频输出信号包括调整的对话信号和非对话信号的组合。

方面4可以包括或使用方面1至3中的一个或它们的任何组合的主题，或者可以可选地与该主题组合，以可选地包括：确定应用于对话信号和非对话信号的不同的相应的长期增益量或衰减量。

方面5可以包括或使用方面1至4中的一个或它们的任何组合的主题，或者可以可选地与该主题组合，以可选地包括：使用处理器电路来接收与音频节目的对话信号相对应的长期对话响度度量，接收与音频节目的非对话信号相对应的长期非对话响度度量，并且使用处理器电路来基于接收的对话响度度量和非对话响度度量之间的差异来提供长期对话平衡。

方面6可以包括或使用方面1至5中的一个或它们的任何组合的主题，或者可以可选地与该主题组合，以可选地包括：在处理器电路处接收对话信号，该对话信号包括具有关于音频节目的对话信号的全局响度的信息的第一元数据；并且在处理器电路处接收非对话信号，该非对话信号包括具有关于音频节目的非对话信号的全局响度的信息的第二元数据。在方面6中，接收音频节目的长期对话平衡可以包括使用处理器电路来基于对话信号的全局响度和非对话信号的全局响度确定长期对话平衡。

方面7可以包括或使用方面1至6中的一个或它们的任何组合的主题，或者可以可选地与该主题组合，以可选地包括：确定长期增益或衰减，包括确定在音频节目的持续时间内应用于对话信号的静态增益或衰减。

方面8可以包括或使用方面1至7中的一个或它们的任何组合的主题，或者可以可选地与该主题组合，以可选地包括：接收对话响度偏好，包括接收体裁特定的对话响度偏好，体裁特定的对话响度偏好对应于音频节目的体裁。方面8可以可选地包括接收用户先前设置的并且被解码器和/或远程数据库存储的体裁特定的对话响度偏好。

方面9可以包括或使用方面8的主题，或者可以可选地与该主题组合，以可选地包括：基于从对话信号和/或从非对话信号恢复的元数据来确定音频节目的体裁。

方面10可以包括或使用方面1至9中的一个或它们的任何组合的主题，或者可以可选地与该主题组合，以可选地包括：接收对话响度偏好包括接收回放设备特定的对话响度偏好，回放设备特定的对话响度偏好对应于被配置为播放音频节目的回放设备。

方面11可以包括或使用方面1至10中的一个或它们的任何组合的主题，或者可以可选地与该主题组合，以可选地包括：使用处理器电路来接收音频节目的多个段中的每个的短期对话平衡，其中，每个短期对话平衡指示指定的段的对话与非对话响度关系；使用处理器电路来接收短期对话平衡偏好；并且使用处理器电路来确定应用于对话信号和非对话信号中的至少一个的短期增益或衰减，该短期增益或衰减是根据段中的指定的段的接收的短期响度平衡和短期对话响度偏好之间的差异确定的。

方面12可以包括或使用方面11的主题，或者可以可选地与该主题组合，以可选地包括：通过以下方式来提供增益调整的对话信号和/或增益调整的非对话信号：(1)将确定的长期增益或衰减应用于对话信号和非对话信号中的至少一个，并且(2)将确定的短期增益或衰减应用于对话信号和非对话信号中的至少一个。方面12可以进一步包括渲染音频输出信号，该音频输出信号包括增益调整的对话信号和/或增益调整的非对话信号。

方面13可以包括方面1至12中的一个或它们的任何组合的主题，或者可以可选地与该主题组合，以包括或使用主题(诸如用于执行动作的装置、方法、部件、或包括当被机器执行时可以使机器执行动作的指令的机器可读介质)，诸如可以包括或使用包括解码器设备的音频信号处理系统。除了其他方面之外，解码器设备可以包括第一数据输入、第二数据输入和音频信号输出，第一数据输入被配置为接收对话信号、非对话信号以及与对话信号和/或非对话信号相对应的元数据，第二数据输入被配置为接收对话平衡偏好。解码器设备可以包括处理器电路，该处理器电路被配置为：除了其他方面之外，使用与对话信号和/或非对话信号相对应的元数据来识别包括对话信号和非对话信号的音频节目的长期对话平衡，该长期对话平衡指示音频节目的对话与非对话响度关系，并且确定应用于音频节目的对话信号和非对话信号中的一个的长期增益或衰减，该长期增益或衰减基于音频节目的识别的长期对话平衡和接收的对话平衡偏好之间的差异。在例子中，处理器电路可以被进一步配置为在音频信号输出处提供音频节目信号，该音频节目信号包括对话信号和非对话信号中的根据确定的长期增益处理的一个以及对话信号和非对话信号中的另一个的组合。

方面14可以包括或使用方面13的主题，或者可以可选地与该主题组合，以可选地包括解码器设备具有第三输入，第三输入被配置为接收与对话信号和/或非对话信号相对应的音频节目类型指示，并且处理器电路被配置为基于音频节目类型指示以及音频节目的识别的长期对话平衡和接收的对话平衡偏好之间的差异来确定长期增益或衰减。

方面15可以包括或使用方面13或14中的一个或它们的任何组合的主题，或者可以可选地与该主题组合，以可选地包括或使用第一数据输入，第一数据输入被配置为接收与对话信号和非对话信号相对应的元数据。在方面15中，处理器电路可以被配置为基于接收的与对话信号和非对话信号相对应的元数据来识别对话信号和非对话信号的相应的长期响度特性，并且处理器电路可以被配置为基于对话信号和非对话信号的长期响度特性之间的关系来识别音频节目的长期对话平衡。

方面16可以包括或使用方面13至15中的一个或它们的任何组合的主题，或者可以可选地与该主题组合，以可选地包括或使用处理器电路被进一步配置为根据用户指定的短期对话平衡偏好设置来对对话信号进行处理。

方面17可以包括方面1至16中的一个或它们的任何组合的主题，或者可以可选地与该主题组合，以包括或使用主题(诸如用于执行动作的装置、方法、部件、或包括当被机器执行时可以使机器执行动作的指令的机器可读介质)，诸如可以包括或使用用于调整音频节目的对话音频信号和非对话音频信号之间的平衡的音频信号处理系统。方面17中的系统除了其他方面之外可以包括处理器电路，该处理器电路被配置为：识别对话音频信号的长期响度度量，长期对话响度度量表示音频节目的对话部分的响度特性；并且识别非对话音频信号的长期响度度量，长期非对话响度度量表示音频节目的非对话部分的响度特性。当对话音频信号的长期响度度量和非对话音频信号的长期响度度量之间的响度关系与期望的响度关系相差了大于指定的阈值量时，处理器电路可以提供音频节目信号，该音频节目信号包括对话信号和非对话信号中的至少一个的增益调整版本，其中，指定的阈值差异量是使用接收的音频节目级对话响度偏好确定的。

方面18可以包括或使用方面17的主题，或者可以可选地与该主题组合，以可选地包括或使用处理器电路被配置为基于对应于音频节目的节目类型的接收的指示来确定应用于对话信号和/或非对话信号的增益的量。

方面19可以包括或使用方面17或18中的一个或它们的任何组合的主题，或者可以可选地与该主题组合，以可选地包括或使用处理器电路被配置为基于用户偏好来确定应用于对话信号和/或非对话信号的增益的量。

方面20可以包括或使用方面17至19中的一个或它们的任何组合的主题，或者可以可选地与该主题组合，以可选地包括或使用处理器电路被配置为基于回放环境或回放设备的接收的指示来确定应用于对话信号和/或非对话信号的增益的量。

这些非限制性方面中的每个可以是独立的，或者可以按各种置换或组合与本文所提供的其他方面或例子中的一个或多个进行组合。

本文所讨论的构思和例子的许多变型对于本领域技术人员将是清楚的。例如，根据实施例，本文所描述的方法、处理或算法中的任何一个的某些动作、事件或功能可以按不同的顺序执行，可以被添加、被合并或被省略(以使得并非所描述的所有动作或事件是实施各种方法、处理或算法所必需的)。而且，在一些实施例中，动作或事件可以同时执行(诸如通过多线程处理、中断处理、或多个处理器或处理器核、或者在其他并行架构上)，而不是顺序地执行。另外，不同的任务或处理可以由可以一起运行的不同的机器和计算系统执行。

结合本文所公开的实施例描述的各种说明性逻辑块、模块、方法和算法处理和序列可以实现为电子硬件、计算机软件或这二者的组合。为了示出硬件和软件的这个可互换性，各种组件、块、模块和处理动作在一些情况下是就它们的功能性一般性地描述的。这样的功能性是实现为硬件还是软件取决于特定应用和施加于整个系统的设计约束。所描述的功能性因此对于特定应用可以以变化的方式实现，但是这样的实现决策不应被解释为引起脱离本文档的范围。

结合本文所公开的实施例描述的各种说明性逻辑块和模块可以由机器实现或执行，该机器诸如是被设计为执行本文所描述的功能的通用处理器电路或电路系统、处理设备、具有一个或多个处理设备的计算设备、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、分立门或晶体管逻辑、分立硬件组件或它们的任何组合。通用处理器电路或处理设备可以包括微处理器。另外地或可替代地，处理器电路可以包括控制器、微控制器或状态机、它们的组合等。处理器电路也可以实现为计算设备的组合，诸如DSP和微处理器的组合、多个微处理器、与DSP核结合的一个或多个微处理器、或适合于执行本文所描述的信号处理任务的任何其他的这样的配置。

本文所描述的对话控制和增强系统和方法的实施例可以在许多类型的通用或专用计算系统环境或配置内操作。一般来说，计算环境可以包括任何类型的计算机系统，包括但不限于，举几个例子来说，基于一个或多个微处理器的计算机系统、大型计算机、数字信号处理器、便携式计算设备、个人组织器、设备控制器、电器内的计算引擎、移动电话、台式计算机、移动计算机、平板计算机、智能电话以及具有嵌入式计算机的电器。

这样的计算设备通常可以见于具有至少一些最小计算能力的设备中，包括但不限于，个人计算机、服务器计算机、手持计算设备、膝上型或移动计算机、诸如蜂窝电话和PDA的通信设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子产品、网络PC、微型计算机、大型计算机、音频或视频媒体播放器等。在一些实施例中，计算设备将包括一个或多个处理器。每个处理器可以是专门的微处理器，诸如数字信号处理器(DSP)、超长指令字(VLIW)或其他微控制器，或者可以是具有一个或多个处理核(包括多核CPU中的专门的基于图形处理单元(GPU)的核)的常规中央处理单元(CPU)。

结合本文所公开的实施例描述的方法、处理或算法的处理动作可以直接用硬件、用由处理器执行的软件或者用这二者的任何组合来实施。软件模块可以包含在可以被计算设备访问的大规模有形的非暂时性计算机可读介质中。计算机可读介质可以包括易失性和/或非易失性介质，诸如可以是可移除的、不可移除的或它们的某个组合。计算机可读介质可以用于存储信息，诸如计算机可读或计算机可执行指令、数据结构、程序模块或其他数据。举例来说，而非限制，计算机可读介质可以包括计算机存储介质和通信介质。

计算机存储介质包括但不限于，计算机或机器可读介质或存储设备，诸如蓝光盘(BD)、数字多功能盘(DVD)、紧凑盘(CD)、软盘、带驱动器、硬盘驱动器、光学驱动器、固态存储器设备、RAM存储器、ROM存储器、EPROM存储器、EEPROM存储器、闪存或其他存储器技术、磁盒、磁带、磁盘储存器、或其他磁性存储设备、或可以用于存储期望的信息并且可以被一个或多个计算设备访问的任何其他的设备。

软件模块可以驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移除盘、CD-ROM、或任何其他形式的非暂时性计算机可读存储介质、媒体、或本领域中已知的物理计算机储存器中。示例性存储介质可以耦合到处理器以使得处理器可以从存储介质读取信息并且将信息写入到存储介质。在替代方案中，存储介质可以与处理器是一体的。处理器和存储介质可以驻留在专用集成电路(ASIC)中。ASIC可以驻留在用户终端中。可替代地，处理器和存储介质可以作为分立的组件驻留在用户终端中。

如本文档中所使用的短语“非暂时性”意指“持久的或经久耐用的”。短语“非暂时性计算机可读介质”包括任何和所有计算机可读介质，唯一的例外是暂时性的传播信号。这包括，举例来说，而非限制，非暂时性计算机可读介质，诸如寄存器存储器、处理器高速缓存和随机存取存储器(RAM)。

信息(诸如计算机可读或计算机可执行指令、数据结构、程序模块等)的保持也可以通过使用对一个或多个调制的数据信号、电磁波(诸如载波)进行编码的各种通信介质或其他传输机制或通信协议来实现，并且包括任何有线或无线信息传递机制。一般来说，这些通信介质是指这样的信号，该信号使其特性中的一个或多个以将信息或指令编码在该信号中的这样的方式被设置或改变。例如，通信介质包括有线介质(诸如有线网络或传载一个或多个调制的数据信号的直接连线的连接)和无线介质(诸如声学、射频(RF)、红外、激光、以及用于发送、接收或既发送又接收一个或多个调制的数据信号或电磁波的其他无线介质)。以上中任何一个的组合也应包括在通信介质的范围内。

此外，实施本文所描述的对话控制和增强系统和方法的各种实施例中的一些或全部的软件、程序、计算机程序产品或它们的部分中的一个或它们的任何组合可以被存储、被接收、被发送或者被从计算机或机器可读介质或存储设备和通信介质的任何期望的组合以计算机可执行指令或其他数据结构的形式读取。

如本文所描述的对话控制和增强系统和方法的实施例可以在正被计算设备执行的计算机可执行指令(诸如程序模块)的一般背景下进一步描述。一般来说，程序模块包括执行特定的任务或实现特定的抽象数据类型的例程、程序、对象、组件、数据结构等。本文所描述的实施例也可以在分布式计算环境中实施，在分布式计算环境中，任务由一个或多个远程处理设备执行，或者在通过一个或多个通信网络链接的一个或多个设备的云内执行。在分布式计算环境中，程序模块可以安置在本地计算机存储介质和远程计算机存储介质(包括介质存储设备)这二者中。更进一步地，前述指令可以部分地或整个地实现为硬件逻辑电路，这些硬件逻辑电路可以包括或者可以不包括处理器。

在该文档中，如专利文档中常见的那样使用术语“一”、“一个”来包括一个或多于一个，独立于“至少一个”或“一个或多个”的任何其他实例或使用。在该文档中，使用术语“或”来指代非排他性，或者使得“A或B”包括“有A、但没有B”、“有B、但没有A”以及“A和B”，除非另有指示。在该文档中，术语“包括”和“在其中”用作相应的术语“包含”和“其中”的简明英语等同形式。

本文所使用的条件语言(除了别的之外，诸如“能够”、“可能”、“可以”、“例如”等)除非另有具体陈述或者在所用的背景内另有理解，否则一般意图传达某些实施例包括，而其他实施例不包括，某些特征、元件和/或状态。因此，这样的条件语言一般并不意图暗示特征、元件和/或状态以任何方式是一个或多个实施例所必需的或者一个或多个实施例一定包括用于在有或没有创作者输入或提示的情况下决定这些特征、元件和/或状态是否被包括在任何特定的实施例中或者将在任何特定的实施例中执行的逻辑。

虽然上面的详细描述已经示出、描述并指出了应用于各种实施例的新颖特征，但是将理解，在不脱离本公开的范围的情况下，可以做出示出的设备或算法的形式和细节上的各种省略、替换和改变。如将认识到的，本文所描述的发明的某些实施例可以体现在不提供本文所陈述的所有特征和益处的形式内，因为一些特征可以与其他特征分开使用或实施。

而且，尽管主题是用特定于结构特征或方法或动作的语言描述的，但是要理解，所附权利要求中定义的主题不一定限于上述特定特征或动作。相反，上述特定特征和动作是作为实现权利要求的示例形式公开的。

Claims

1.一种用于调整音频节目中的对话信号和非对话信号之间的关系的方法，该方法包括：

使用处理器电路来接收音频节目的长期对话平衡，该长期对话平衡指示音频节目的对话与非对话响度关系；

使用处理器电路来接收长期对话平衡偏好；并且

使用处理器电路来确定应用于音频节目的对话信号和非对话信号中的至少一个的长期增益或衰减，该长期增益或衰减是根据音频节目的接收的长期对话平衡和接收的长期对话平衡偏好之间的差异确定的。

2.根据权利要求1所述的方法，进一步包括：

确定应用于音频节目的对话信号的长期增益；

使用处理器电路来将确定的长期增益应用于对话信号以生成增益调整的对话信号；并且

渲染音频输出信号，该音频输出信号包括增益调整的对话信号和非对话信号的组合。

3.根据权利要求1所述的方法，进一步包括：

确定应用于音频节目的对话信号的长期衰减；

使用处理器电路来将确定的长期衰减应用于对话信号以生成调整的对话信号；并且

渲染音频输出信号，该音频输出信号包括调整的对话信号和非对话信号的组合。

4.根据权利要求1所述的方法，进一步包括确定应用于对话信号和非对话信号的不同的相应的长期增益量或衰减量。

5.根据权利要求1所述的方法，进一步包括：

使用处理器电路来接收与音频节目的对话信号相对应的长期对话响度度量；

接收与音频节目的非对话信号相对应的长期非对话响度度量；并且

使用处理器电路来基于接收的对话响度度量和非对话响度度量之间的差异来提供长期对话平衡。

6.根据权利要求1所述的方法，进一步包括：

在处理器电路处接收对话信号，该对话信号包括具有关于音频节目的对话信号的全局响度的信息的第一元数据；

在处理器电路处接收非对话信号，该非对话信号包括具有关于音频节目的非对话信号的全局响度的信息的第二元数据；并且

其中，接收音频节目的长期对话平衡包括使用处理器电路来基于对话信号的全局响度和非对话信号的全局响度确定长期对话平衡。

7.根据权利要求1所述的方法，其中，确定长期增益或衰减包括确定在音频节目的持续时间内应用于对话信号的静态增益或衰减。

8.根据权利要求1所述的方法，其中，接收对话响度偏好包括接收体裁特定的对话响度偏好，该体裁特定的对话响度偏好对应于音频节目的体裁。

9.根据权利要求8所述的方法，进一步包括基于从对话信号和/或从非对话信号恢复的元数据来确定音频节目的体裁。

10.根据权利要求1所述的方法，其中，接收对话响度偏好包括接收回放设备特定的对话响度偏好，该回放设备特定的对话响度偏好对应于被配置为播放音频节目的回放设备。

11.根据权利要求1所述的方法，进一步包括：

使用处理器电路来接收音频节目的多个段中的每个的短期对话平衡，其中，每个短期对话平衡指示指定的段的对话与非对话响度关系；

使用处理器电路来接收短期对话平衡偏好；并且

使用处理器电路来确定应用于对话信号和非对话信号中的至少一个的短期增益或衰减，该短期增益或衰减是根据段中的指定的段的接收的短期响度平衡与短期对话响度偏好之间的差异确定的。

12.根据权利要求11所述的方法，进一步包括：

通过以下方式来提供增益调整的对话信号和/或增益调整的非对话信号：(1)将确定的长期增益或衰减应用于对话信号和非对话信号中的至少一个，并且(2)将确定的短期增益或衰减应用于对话信号和非对话信号中的至少一个；并且

渲染音频输出信号，该音频输出信号包括增益调整的对话信号和/或增益调整的非对话信号。

13.一种音频信号处理系统，包括：

解码器设备，包括：

第一数据输入，所述第一数据输入被配置为接收对话信号、非对话信号以及与对话信号和/或非对话信号相对应的元数据；

第二数据输入，所述第二数据输入被配置为接收对话平衡偏好；

音频信号输出；以及

处理器电路，该处理器电路被配置为：

使用与对话信号和/或非对话信号相对应的元数据来识别包括对话信号和非对话信号的音频节目的长期对话平衡，该长期对话平衡指示音频节目的对话与非对话响度关系；

确定应用于音频节目的对话信号和非对话信号中的一个的长期增益或衰减，该长期增益或衰减基于音频节目的识别的长期对话平衡和接收的对话平衡偏好之间的差异；并且

在音频信号输出处提供音频节目信号，该音频节目信号包括对话信号和非对话信号中的根据确定的长期增益处理的一个以及对话信号和非对话信号中的另一个的组合。

14.根据权利要求13所述的系统，其中，解码器设备包括第三输入，该第三输入被配置为接收与对话信号和/或非对话信号相对应的音频节目类型指示；并且

其中，处理器电路被配置为基于音频节目类型指示以及音频节目的识别的长期对话平衡与接收的对话平衡偏好之间的差异来确定长期增益或衰减。

15.根据权利要求13所述的系统，其中，所述第一数据输入被配置为接收与对话信号和非对话信号相对应的元数据；

其中，处理器电路被配置为基于与对话信号和非对话信号相对应的接收的元数据来识别对话信号和非对话信号的相应的长期响度特性；并且

其中，处理器电路被配置为基于对话信号和非对话信号的长期响度特性之间的关系来识别音频节目的长期对话平衡。

16.根据权利要求13所述的系统，其中，处理器电路被进一步配置为根据用户指定的短期对话平衡偏好设置来对对话信号进行处理。

17.一种用于调整音频节目的对话音频信号和非对话音频信号之间的平衡的音频信号处理系统，该系统包括：

处理器电路，该处理器电路被配置为：

识别对话音频信号的长期响度度量，长期对话响度度量表示音频节目的对话部分的响度特性；

识别非对话音频信号的长期响度度量，长期非对话响度度量表示音频节目的非对话部分的响度特性；并且

当对话音频信号的长期响度度量和非对话音频信号的长期响度度量之间的响度关系与期望的响度关系相差得大于指定的阈值量时，提供音频节目信号，该音频节目信号包括对话信号和非对话信号中的至少一个的增益调整版本，其中，指定的阈值差异量是使用接收的音频节目级对话响度偏好确定的。

18.根据权利要求17所述的系统，其中，处理器电路被配置为基于对应于音频节目的节目类型的接收的指示来确定应用于对话信号和/或非对话信号的增益的量。

19.根据权利要求17所述的系统，其中，处理器电路被配置为基于用户偏好来确定应用于对话信号和/或非对话信号的增益的量。

20.根据权利要求17所述的系统，其中，处理器电路被配置为基于回放环境或回放设备的接收的指示来确定应用于对话信号和/或非对话信号的增益的量。