CN114747233A

CN114747233A - 内容和环境感知的环境噪声补偿

Info

Publication number: CN114747233A
Application number: CN202080084299.7A
Authority: CN
Inventors: T·A·波特; D·S·坦普尔顿; J·G·海斯
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2019-12-09
Filing date: 2020-12-09
Publication date: 2022-07-12
Anticipated expiration: 2040-12-09
Also published as: EP4074069A1; US20230026347A1; WO2021118945A1; EP4074065A1; KR102505773B1; JP7307278B2; CN114830687B; US12154587B2; CN114868403A; CN114788304B; KR20220103196A; EP4074068A1; US20230044546A1; CN114788304A; WO2021119190A1; US20220406326A1; CN114868403B; WO2021119177A1; EP4074068B1; KR102633176B1

Abstract

一些实现涉及接收包括音频数据的内容流，确定对应于该内容流的内容类型，以及至少部分基于该内容类型来确定噪声补偿方法。一些示例涉及对音频数据执行噪声补偿方法以产生经噪声补偿的音频数据，渲染经噪声补偿的音频数据以便经由音频环境的一组音频再现换能器进行再现，以产生经渲染的音频信号，以及将经渲染的音频信号提供给音频环境的至少一些音频再现换能器。

Description

内容和环境感知的环境噪声补偿

相关申请的交叉引用

本申请要求以下申请的权益:

2019年12月9日提交的美国临时专利申请第62/945，292号；

2019年12月9日提交的美国临时专利申请第62/945，303号；

2019年12月9日提交的美国临时专利申请第62/945，607号；

2020年11月30日提交的美国临时专利申请第63/198，995号；

2020年11月30日提交的美国临时专利申请第63/198，996号；

2020年11月30日提交的美国临时专利申请第63/198，997号；

2020年11月30日提交的美国临时专利申请第63/198，998号；以及

2020年11月30日提交的美国临时专利申请第63/198，999号，它们通过引用而并入此。

技术领域

本公开涉及用于噪声补偿的系统和方法。

背景技术

音频和视频设备，包括但不限于电视和相关联的音频设备，被广泛应用。尽管现有的用于控制音频和视频设备的系统和方法提供了益处，但是改进的系统和方法仍是期望的。

符号和术语

在包括权利要求的整个公开内容中，术语“扬声器”、“扩音器”和“音频再现换能器”被同义地用来指示由单个扬声器馈源驱动的任何发声换能器(或换能器集合)。一套典型的耳机包括两个扬声器。扬声器可以被实现为包括多个换能器(例如，低音扬声器和高音扬声器)，其可以由单个公共扬声器馈源或多个扬声器馈源驱动。在一些示例中，一个或多个扬声器馈源可以在耦合到不同换能器的不同电路分支中经历不同的处理。

在包括权利要求的整个公开内容中，在信号或数据上执行操作(例如，对信号或数据进行滤波、缩放、变换或应用增益)的表述在广义上用于表示直接对信号或数据执行操作，或者对信号或数据的处理版本(例如，在对其执行操作之前已经历了初步滤波或预处理的信号的版本)执行操作。

在包括权利要求的整个公开内容中，术语“系统”在广义上用于表示设备、系统或子系统。例如，实现解码器的子系统可以被称为解码器系统，并且包括这种子系统的系统(例如，响应于多个输入生成X个输出信号的系统，其中子系统生成M个输入，并且从外部源接收其他X-M个输入)也可以被称为解码器系统。

在包括权利要求的整个公开内容中，术语“处理器”在广义上用于表示可编程或以其他方式可配置(例如，用软件或固件)为对数据(例如，音频、视频或其他图像数据)执行操作的系统或设备。处理器的示例包括现场可编程门阵列(或其他可配置的集成电路或芯片组)、被编程和/或以其他方式配置成对音频或其他声音数据执行流水线处理的数字信号处理器、可编程通用处理器或计算机、以及可编程微处理器芯片或芯片组。

在包括权利要求的整个公开内容中，术语“耦合”或“被耦合”用于表示直接或间接连接。因此，如果第一设备耦合到第二设备，则该连接可以通过直接连接，或者通过经由其他设备和连接的间接连接。

如本文所使用的，“智能设备”是电子设备，其通常被配置为经由各种无线协议与一个或多个其他设备(或网络)通信，所述无线协议为诸如蓝牙、Zigbee、近场通信、Wi-Fi、光保真(Li-Fi)、3G、4G、5G等，其可以在一定程度上交互地和/或自主地操作。数个值得注意的智能设备类型是智能手机、智能汽车、智能恒温器、智能门铃、智能锁、智能冰箱、平板手机和平板电脑、智能手表、智能腕带、智能钥匙链和智能音频设备。术语“智能设备”也可以指表现出普适计算的一些属性(诸如人工智能)设备。

这里，我们使用表述“智能音频设备”来表示如下的智能设备，其是单用途音频设备或者多用途音频设备(例如，实现虚拟助理功能的至少一些方面的音频设备)。专用音频设备是如下设备(诸如电视(TV))，其包括或耦合到至少一个麦克风(并且可选地还包括或耦合到至少一个扬声器和/或至少一个摄像机)，并且其被设计为大部分或主要实现单一目的。例如，虽然电视通常可以播放(并且被认为能够播放)来自节目素材的音频，但是在大多数情况下，现代电视运行一些操作系统，应用程序(包括观看电视的应用程序)在该操作系统上本地运行。在这个意义上，具有一个或多个扬声器以及一个或多个麦克风的单用途音频设备通常被配置成运行本地应用程序和/或服务来直接使用该一个或多个扬声器以及一个或多个麦克风。一些单用途音频设备可以被配置成组合在一起，以实现在区域或用户配置区域上播放音频。

一种常见类型的多用途音频设备是实现虚拟助理功能的至少一些方面的音频设备，但是虚拟助理功能的其他方面可以由一个或多个其他设备来实现，例如多用途音频设备被配置成与之通信的一个或多个服务器。这种多用途音频设备在这里可以被称为“虚拟助理”。虚拟助理是包括或耦合到至少一个麦克风(并且可选地还包括或耦合到至少一个扬声器和/或至少一个摄像机)的设备(例如，智能扬声器或语音助理集成设备)。在一些示例中，虚拟助理可以提供将多个设备(不同于虚拟助理)用于应用程序的能力，这些应用程序在某种意义上是云使能的或者并非全部在虚拟助理本身之中或之上实现。换句话说，虚拟助理功能的至少一些方面，例如语音识别功能，可以(至少部分地)由虚拟助理可以通过诸如因特网的网络与之通信的一个或多个服务器或其他设备来实现。虚拟助理有时可以一起工作，例如以离散的和有条件定义的方式。例如，两个或更多个虚拟助理可以在一起工作，其中一个虚拟助理(例如，最确信它已经听到唤醒词的虚拟助理)响应于唤醒词。在一些实现中，所连接的虚拟助理可以形成一种群体，该群体可以由一个主应用来管理，该主应用可以是(或实现)虚拟助理。

文中，“唤醒词”在广义上用于表示任何声音(例如，人发出的话语，或一些其他声音)，其中智能音频设备被配置为响应于(使用包括在智能音频设备中或耦合到智能音频设备的至少一个麦克风，或至少一个其他麦克风)检测到(“听到”)声音而唤醒。在这种情况下,“唤醒”表示设备进入等待(换句话说，监听)声音命令的状态。在一些情况下，本文中被称为“唤醒词”的可以包括不止一个词，例如短语。

这里，表述“唤醒词检测器”表示被配置为连续搜索实时声音(例如，语音)特征和被训练模型之间的配准的设备(或包括用于配置设备的指令的软件)。通常，每当唤醒词检测器确定检测到唤醒词的概率超过预定阈值，就触发唤醒词事件。例如，阈值可以是预定阈值，其被调整以在错误接受率和错误拒绝率之间给出合理折中。在唤醒词事件之后，设备可以进入如下状态(可以被称为“已唤醒”状态或“注意”状态)，在该状态中，它监听命令并将接收到的命令传递给更大的、计算更密集的识别器。

如这里所使用的，术语“节目流”和“内容流”指的是一个或多个音频信号的集合，并且在一些情况下是其至少一部分预期一起被收听的视频信号的集合。示例包括音乐、电影配乐、电影、电视节目、电视节目的音频部分、播客、现场语音呼叫、来自智能助理的合成语音响应等的选择。在一些情况下，内容流可以包括音频信号的至少一部分的多个版本，例如，多于一种语言表示的相同对话。在这种情况下，预期一次仅再现音频数据或其部分的一个版本(例如，对应于单种语言的版本)。

发明内容

本公开的至少一些方面可以通过一种或多种音频处理方法来实现，包括但不限于内容流处理方法。在一些情况下，方法可以至少部分地由控制系统和/或经由存储在一个或多个非暂时性介质上的指令(例如，软件)来实现。一些这样的方法包括由控制系统并经由接口系统接收包括音频数据的内容流，并由控制系统确定对应于该内容流的内容类型。一些这样的方法包括由控制系统至少部分基于内容类型来确定噪声补偿方法。一些这样的方法包括由控制系统确定将在其中再现内容流的音频环境的噪声估计，并且由控制系统至少部分地基于噪声估计对音频数据执行噪声补偿方法，以产生经噪声补偿的音频数据。一些这样的方法包括由控制系统渲染经噪声补偿的音频数据以便经由音频环境的一组音频再现换能器进行再现，产生经渲染的音频信号，并且经由接口系统将经渲染的音频信号提供给音频环境的一组音频再现换能器中的至少一些音频再现换能器。

在一些示例中，确定噪声补偿方法可以至少部分地基于音频环境的至少一个音频再现换能器的动态范围。根据一些示例，确定噪声补偿方法可以包括从多种噪声补偿方法中选择噪声补偿方法。每个噪声补偿方法可以对应于多种内容类型中的一种或多种内容类型。根据一些示例，多种内容类型可以包括电影内容类型或电视节目内容类型中的至少一种。在一些示例中，多种内容类型可以包括至少一种音乐内容类型。

在一些示例中，对应于至少一种音乐内容类型的噪声补偿方法可以包括对应于低频率范围的第一方法和对应于高频率范围的第二方法。根据一些示例，第一方法可以包括允许应用于低频率范围中的第一频带的第一增益独立于应用于低频率范围中的第二频带的第二增益。在一些情况下，第二方法可以包括将应用于高频率范围的频带中的所有增益约束为相等。然而，在其他示例中，第二方法可以包括将第一增益和第二增益之间的差约束为小于或等于阈值量。第一增益可以应用于高频率范围的第一频带，第二增益可以应用于高频率范围的第二频带。根据一些示例，第一频带可以与第二频带相邻。

根据一些示例，确定内容类型可以至少部分基于确定内容流的内容提供商。在一些示例中，确定内容类型可以至少部分基于关于内容流的用户输入。在一些这样的示例中，用户输入可以经由对虚拟助理的语音命令被接收。在一些示例中，确定内容类型可以至少部分基于确定实现内容流解码的应用。

在一些示例中，内容流可以包括内容元数据。根据一些示例，确定内容类型可以至少部分基于内容元数据。

根据一些示例，控制系统可以被配置为实现音频分类器。在一些示例中，确定内容类型可以至少部分基于由音频分类器产生的音频分类。

在一些实现中，确定噪声估计可以包括从噪声估计模块接收噪声估计，和/或基于音频环境中的一个或多个麦克风的麦克风信号来计算噪声估计。在一些情况下，噪声估计可以指示多个频带中的每个频带的估计噪声水平。

在一些示例中，确定噪声补偿方法可以至少部分地基于一天中的时间。根据一些示例，夜间噪声补偿方法可以包括控制再现的音频数据的至少一些频带的回放水平低于对应于白天噪声补偿方法的再现的音频数据的对应频带的回放水平。该至少一些频带可以例如对应于低音频带。

根据一些示例，确定噪声补偿方法可以至少部分地基于音频环境中的环境噪声的类型。在一些示例中，环境噪声的类型可以对应于对话。在一些这样的示例中，噪声补偿方法可以包括控制再现的音频数据的回放水平低于环境噪声水平。

在一些实施方式中，至少一种噪声补偿方法可以包括演示版本和默认或“常规”版本。例如，演示版本可以包括在一个或多个频带中应用比常规版本更高的增益。

一些实现可以包括接收元数据与内容流。根据一些示例，确定噪声补偿方法可以至少部分基于元数据。在一些情况下，元数据可以对应于音频数据的动态范围和/或参考水平。根据一些示例，元数据可以是Dolby Digital、Dolby Digital Plus或AC-4音频技术的“对话归一(dialnorm)”元数据。根据一些示例，元数据可以是高效高级音频编码(High-Efficiency Advanced Audio Coding)音频编码格式的参考级别元数据。

本文描述的操作、功能和/或方法中的一些或全部可以由一个或多个设备根据存储在一个或多个非暂时性介质上的指令(例如，软件)来执行。这种非暂时性介质可以包括诸如本文所述的存储器设备，包括但不限于随机存取存储器(RAM)设备、只读存储器(ROM)设备等。因此，本公开中描述的主题的一些创新方面可以通过其上存储有软件的一个或多个非暂时性介质来实现。

本公开的至少一些方面可以通过装置来实现。例如，一个或多个设备能够至少部分地执行本文公开的方法。在一些实现中，装置是或者包括具有接口系统和控制系统的音频处理系统。控制系统可以包括一个或多个通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASICs)、现场可编程门阵列(FPGAs)或其他可编程逻辑器件、分立门或晶体管逻辑、分立硬件组件或其组合。

本说明书中描述的主题的一个或多个实现的细节在附图和以下描述中被阐述。根据描述、附图和权利要求，其他特征、方面和优点将变得明显。注意，附图中的相对尺寸可能没有按比例绘制。

附图说明

图1示出了噪声补偿系统的示例。

图2是示出了能够实施本发明的各个方面的装置的组件的示例的框图。

图3是概述所公开方法的一个示例的流程图。

图4示出了其中噪声补偿方法至少部分基于用户输入的系统的示例。

图5A示出了其中噪声补偿方法至少部分地基于应用类型信息的系统的示例。

图5B示出了其中噪声补偿方法至少部分基于噪声估计器的状态的系统的示例。

图6示出了其中噪声补偿方法至少部分基于音频环境中的环境噪声的分类的系统的示例。

图7示出了其中噪声补偿方法至少部分基于输入内容流的分类的系统的示例。

图8示出了其中噪声补偿方法至少部分基于外部控制的系统的示例。

图9示出了对应于噪声补偿方法的曲线图的示例。

图10示出了对应于另一种噪声补偿方法的曲线图的示例。

图11示出了对应于另一种噪声补偿方法的曲线图的示例。

图12示出了对应于另一种噪声补偿方法的曲线图的示例。

图13示出了对应于另一种噪声补偿方法的曲线图示例。

图14示出了根据一种实现的编码器和解码器块的示例。

图15示出了根据另一种实现的编码器和解码器块的示例。

图16示出了根据另一种实现的编码器和解码器块的示例。

图17示出了音频环境的建筑平面图的示例，在这个示例中该音频环境是生活空间。

图18示出了如下示例，其中噪声补偿模块被配置为使噪声补偿处理至少部分地基于来自上游线性处理模块的数据。

图19示出了如下示例，其中噪声补偿模块被配置为使噪声补偿过程至少部分基于上游对话增强过程是否已发生。

图20示出了如下示例，其中噪声补偿模块被配置为使噪声补偿过程至少部分地基于上游虚拟化过程是否已经发生。

图21示出了如下示例，其中噪声补偿模块被配置为使噪声补偿过程至少部分基于上游下混合或上混合过程是否已发生。

图22示出了如下示例，其中噪声补偿模块被配置为使噪声补偿过程至少部分基于上游动态范围压缩过程是否已发生。

图23示出了另一个示例，其中噪声补偿模块被配置为使噪声补偿过程至少部分基于上游动态范围压缩过程是否已发生。

不同附图中相似的附图标记和名称表示相同的元件。

具体实施方式

噪声补偿系统被配置成补偿音频环境中的环境噪声，例如环境噪声。如此处所使用的，术语“环境噪声”和“周围噪声”是指由音频回放系统和/或噪声补偿系统外部的一个或多个噪声源产生的噪声。在一些示例中，音频环境可以是家庭音频环境，例如家庭的一个或多个房间。在其他示例中，音频环境可以是另一种类型的环境，例如办公室环境、汽车环境、火车环境、街道或人行道环境、公园环境等。图1示出了噪声补偿系统的示例。在该示例中，噪声补偿系统100被配置成基于噪声估计108来调整输入音频信号101的水平(level)。根据该示例，噪声补偿系统100包括扬声器104、麦克风105、噪声估计器107和噪声补偿器102。在一些示例中，噪声估计器107和噪声补偿器102可以例如根据存储在一个或多个非暂时性存储介质上的指令经由控制系统来实现。如上所述，术语“扬声器”、“扩音器”和“音频再现换能器”在这里是同义使用的。如同这里提供的其他附图一样，图1中所示的元件的类型和数量仅仅是作为示例被提供。其他实现可以包括更多、更少和/或不同类型和数量的元件，例如更多扬声器。

在该示例中，噪声补偿器102被配置成从文件、流传输服务等接收音频信号101。噪声补偿器102可以例如被配置成应用增益调整算法，例如频率相关增益调整算法或宽带增益调整算法。

在这个示例中，噪声补偿器102被配置成向扬声器104发送经噪声补偿的输出信号103。根据该示例，经噪声补偿的输出信号103也被提供给噪声估计器107，并且是噪声估计器107的参考信号。在这个示例中，麦克风信号106也被从麦克风105发送到噪声估计器107。

根据该示例，噪声估计器107是被配置成估计包括系统100的环境中的噪声水平的组件。噪声估计器107可以被配置成接收麦克风信号106，并且计算麦克风信号106中有多少是由噪声组成的，以及有多少是由于扬声器104的回放造成的。在一些示例中，噪声估计器107可以包括回声消除器。然而，在一些实现中，当对应于静音的信号被发送到扬声器104时，噪声估计器107可以简单地测量噪声。在这个示例中，噪声估计器107向噪声补偿器102提供噪声估计108。取决于特定实现，噪声估计108可以是噪声的宽带估计或频谱估计。在该示例中，噪声补偿器102被配置成基于噪声估计108来调整扬声器104的输出水平。

诸如移动设备的一些设备的扬声器往往具有相当有限的能力。因此，由系统100提供的音量调节的类型通常会受到这种扬声器的动态范围和/或扬声器保护组件(例如，限制器和/或压缩器)的限制。

诸如噪声补偿系统100的噪声补偿系统可以应用增益，其为频率相关增益或宽带增益。一些这样的噪声补偿系统被配置成基于单个模型来应用频率相关增益，该单个模型提高存在环境噪声的频带中的增益。这种方法可以适用于电影内容，例如，当噪声补偿系统100试图提高对话的可懂度超过环境噪声时。然而，当这种噪声补偿系统试图补偿在环境中正再现音乐时的环境噪声时，这种类型的噪声补偿会导致一些听众可能不喜欢的明显的音色偏移。一些听众将这种噪声补偿的效果描述为使音乐听起来“微弱”。

本公开提供了能够克服这些潜在缺点中的至少一些的各种方法，以及用于实现本文公开的方法的设备和系统。一些公开的实现包括确定至少部分基于正在再现的内容的类型的噪声补偿方法。在一些这样的示例中，用于电影内容类型和/或电视节目内容类型的噪声补偿方法可以不同于用于音乐内容类型的噪声补偿方法。然而，其他实现不涉及基于内容类型来确定噪声补偿方法。根据一些实现，噪声补偿方法可以(至少部分地)由音频环境的一个或多个本地设备来确定。替代地或附加地，噪声补偿方法可以(至少部分地)由一个或多个远程设备(例如实现基于云的服务的一个或多个设备)确定。在一些公开的实现中，噪声补偿方法可以至少部分基于音频环境的一个或多个音频再现换能器的动态范围和/或正在再现的音频数据的动态范围。

图2是示出能够实施本发明的各个方面的装置的组件的实例的框图。如同文中提供的其他附图一样，图2中所示的元件的类型和数量仅仅是作为示例提供的。其他实现可以包括更多、更少和/或不同类型和数量的元件。根据一些示例，装置200可以被配置用于执行本文公开的方法中的至少一些。在一些实施方式中，装置200可以是或可以包括电视、音频系统的一个或多个组件、移动设备(例如蜂窝电话)、膝上型计算机、平板设备、智能扬声器或其他类型的设备。在一些实现中，装置200可以是或者可以包括电视控制模块。电视控制模块可以集成到电视中或可以不集成到电视中，这取决于特定的实现方式。在一些实现中，电视控制模块可以是与电视分开的设备，并且在一些实例中，可以与电视分开出售，或者作为可以与购买的电视包括在一起的附加或可选设备出售。在一些实施方式中，电视控制模块可以从内容提供商(例如电视节目、电影等的提供商)获得。

根据一些替代实施方式，装置200可以是或者可以包括服务器。在一些这样的示例中，装置200可以是或者可以包括编码器。因此，在一些情况下，装置200可以是被配置为在诸如家庭音频环境之类的音频环境中使用的设备，而在其他情况下，装置200可以是被配置为在诸如服务器的“云中”使用的设备。

在这个示例中，装置200包括接口系统205和控制系统210。在一些实现中，接口系统205可以被配置成与音频环境的一个或多个其他设备通信。在一些示例中，音频环境可以是家庭音频环境。在其他示例中，音频环境可以是另一种类型的环境，例如办公室环境、汽车环境、火车环境、街道或人行道环境、公园环境等。在一些实施方式中，接口系统205可以被配置用于与音频环境的音频设备交换控制信息和相关联数据。在一些示例中，控制信息和相关联数据可以与装置200正在执行的一个或多个软件应用有关。

在一些实施方式中，接口系统205可以被配置用于接收或提供内容流。内容流可以包括音频数据。音频数据可以包括但不限于音频信号。在一些情况下，音频数据可以包括空间数据，例如通道数据和/或空间元数据。根据一些实施方式，内容流可以包括关于音频数据的动态范围的元数据、和/或关于一种或多种噪声补偿方法的元数据。关于音频数据的动态范围的元数据和/或关于一种或多种噪声补偿方法的元数据可以例如已由被配置为实现基于云的服务的一个或多个设备(诸如一个或多个服务器)提供。关于音频数据的动态范围的元数据和/或关于一种或多种噪声补偿方法的元数据可以例如由这里可称为“编码器”的装置提供。在一些这样的示例中，在一些示例中，内容流可以包括视频数据和对应于视频数据的音频数据。下面描述编码器和解码器操作的一些示例。

接口系统205可以包括一个或多个网络接口和/或一个或多个外部设备接口(例如一个或多个通用串行总线(USB)接口)。根据一些实施方式，接口系统205可以包括一个或多个无线接口。接口系统205可以包括用于实现用户接口的一个或多个设备，例如一个或多个麦克风、一个或多个扬声器、显示系统、触摸传感器系统、和/或姿态传感器系统。在一些示例中，接口系统205可以包括控制系统210和存储器系统(例如图2所示的可选存储器系统215)之间的一个或多个接口。然而，在一些情况下，控制系统210可以包括存储系统。在一些实施方式中，接口系统205可以被配置为从环境中的一个或多个麦克风接收输入。

控制系统210可以例如包括通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、分立门或晶体管逻辑、和/或分立硬件组件。

在一些实施方式中，控制系统210可以驻留在一个以上的设备中。例如，在一些实施方式中，控制系统210的一部分可以驻留在这里描述的环境之一内的设备中，而控制系统210的另一部分可以驻留在该环境之外的设备中，例如服务器、移动设备(例如，智能手机或平板电脑)等。在其他示例中，控制系统210的一部分可以驻留在这里描述的环境之一内的设备中，而控制系统210的另一部分可以驻留在该环境的一个或多个其他设备中。例如，控制系统功能可以分布在环境的多个智能音频设备上，或者可以由协调设备(例如这里可以称为智能家庭集线器)和环境的一个或多个其他设备共享。在其他示例中，控制系统210的一部分可以驻留在实现基于云的服务的设备中，例如服务器，而控制系统210的另一部分可以驻留在实现基于云的服务的另一设备中，例如另一服务器、存储设备等。在一些示例中，接口系统205也可以驻留在多于一个设备中。

在一些实施方式中，控制系统210可以被配置用于至少部分地执行本文公开的方法。根据一些示例，控制系统210可以被配置用于实现内容流处理的方法。

这里描述的方法中的一些或全部可以由一个或多个设备根据存储在一个或多个非暂时性介质上的指令(例如，软件)来执行。这种非暂时性介质可以包括诸如本文所述的存储设备，包括但不限于随机存取存储器(RAM)设备、只读存储器(ROM)设备等。一个或多个非暂时性介质可以例如驻留在图2所示的可选存储器系统215中和/或控制系统210中。因此，本公开中描述的主题的各种创新方面可以在其上存储有软件的一个或多个非暂时性介质中实现。该软件可以例如包括用于控制至少一个设备处理内容流、编码内容流、解码内容流等的指令。该软件可以例如由诸如图2的控制系统210的控制系统的一个或多个部件执行。

在一些示例中，装置200可以包括图2所示的可选的麦克风系统220。可选的麦克风系统220可以包括一个或多个麦克风。在一些实施方式中，一个或多个麦克风可以是另一个设备的一部分或与之相关联，所述另一个设备例如是扬声器系统的扬声器、智能音频设备等。在一些示例中，装置200可以不包括麦克风系统220。然而，在一些这样的实现中，装置200仍然可以被配置成经由接口系统210接收音频环境中的一个或多个麦克风的麦克风数据。在一些这样的实现中，装置200的基于云的实现可以被配置成经由接口系统210从音频环境中的一个或多个麦克风接收麦克风数据或者至少部分地对应于麦克风数据的噪声度量。

根据一些实施方式，装置200可以包括图2所示的可选的扬声器系统225。可选的扬声器系统225可以包括一个或多个扬声器，在这里也可以称为“扩音器”，或者更一般地，称为“音频再现换能器”。在一些示例中(例如，基于云的实现)，装置200可以不包括扬声器系统225。

在一些实施方式中，装置200可以包括图2所示的可选的传感器系统230。可选的传感器系统230可以包括一个或多个触摸传感器、姿态传感器、运动检测器等。根据一些实施方式，可选的传感器系统230可以包括一个或多个照相机。在一些实施方式中，相机可以是独立式相机。在一些示例中，可选的传感器系统230的一个或多个相机可以驻留在智能音频设备中，该智能音频设备可以是单用途音频设备或虚拟助理。在一些这样的示例中，可选的传感器系统230的一个或多个摄像机可以位于电视、移动电话或智能扬声器中。在一些示例中，装置200可以不包括传感器系统230。然而，在一些这样的实现中，装置200仍然可以被配置成经由接口系统210接收音频环境中的一个或多个传感器的传感器数据。

在一些实施方式中，装置200可以包括图2所示的可选的显示系统235。可选的显示系统235可以包括一个或多个显示器，例如一个或多个发光二极管(LED)显示器。在一些情况下，可选的显示系统235可以包括一个或多个有机发光二极管(OLED)显示器。在一些示例中，可选的显示系统235可以包括电视的一个或多个显示器。在其他示例中，可选的显示系统235可以包括膝上型显示器、移动设备显示器、或其他类型的显示器。在装置200包括显示系统235的一些示例中，传感器系统230可以包括接近显示系统235的一个或多个显示器的触摸传感器系统和/或手势传感器系统。根据一些这样的实施方式，控制系统210可以被配置用于控制显示系统235以呈现一个或多个图形用户界面(GUI)。

根据一些这样的示例，装置200可以是或者可以包括智能音频设备。在一些这样的实现中，装置200可以是或者可以包括唤醒词检测器。例如，装置200可以是或者可以包括虚拟助理。

图3是概述所公开方法的一个示例的流程图。如这里描述的其他方法那样，方法300的框不一定按照所指示的顺序执行。此外，这些方法可以包括比所示和/或所述的框更多或更少的框。

方法300可以由诸如图2中示出并在上文描述的装置200的装置或系统来执行。在一些示例中，方法300的框可以由音频环境中的一个或多个设备来执行，例如，音频系统控制器或音频系统的另一组件，诸如智能扬声器、电视、电视控制模块、智能扬声器、移动设备等。在一些实施方式中，音频环境可以包括家庭环境的一个或多个房间。在其他示例中，音频环境可以是另一种类型的环境，例如办公室环境、汽车环境、火车环境、街道或人行道环境、公园环境等。然而，在替代实现中，方法300的至少一些框可以由实现基于云的服务的设备(例如服务器)来执行。

在该实施方式中，框305包括由控制系统并经由接口系统接收包括音频数据的内容流。在一些示例中，内容流可以包括对应于音频数据的视频数据。在一些实施方式中，控制系统和接口系统可以是图2中所示和上文所述的控制系统210和接口系统205。根据一些实施方式，框305可以包括接收编码内容流。在这样的实现中，框305可以包括对编码内容流进行解码。内容流可以例如对应于电影、电视节目、音乐、音乐视频、播客等。

在这个示例中，块310包括由控制系统确定对应于内容流的内容类型。根据一些示例，确定内容类型可以包括从多种内容类型中选择内容类型。多种内容类型可以例如包括至少一种电影内容类型、至少一种电视节目内容类型、至少一种音乐内容类型和/或至少一种其他内容类型。

在一些实施方式中，控制系统可以被配置为实施音频分类器。在一些这样的示例中，确定内容类型可以至少部分地基于由音频分类器产生的音频分类。

在一些情况下，确定内容类型可以至少部分基于确定内容流的内容提供商。例如，如果控制系统确定内容提供商是音乐流服务，则在一些实施方式中，控制系统可以确定内容类型是音乐内容类型。然而，如果控制系统确定内容提供商是电影和/或电视节目流服务，则在一些实施方式中，控制系统可以确定内容类型是电影或电视节目。在一些示例中，确定内容类型可以至少部分基于确定实现内容流解码的应用。

在一些实施方式中，确定内容类型可以至少部分基于用户输入，例如关于内容流的用户输入。例如，用户输入可以是对特定内容流服务的选择。在一些示例中，用户输入可以是对音乐的选择、对电影的选择、对电视节目的选择等。在一些情况下，用户输入可以通过对虚拟助理的语音命令来接收。

根据一些实施方式，内容流可以包括内容元数据。在一些这样的示例中，确定内容类型可以至少部分基于内容元数据。

根据该示例，框315包括由控制系统至少部分基于内容类型来确定噪声补偿方法。在一些这样的示例中，确定噪声补偿方法可以包括从多种噪声补偿方法中选择噪声补偿方法。每种噪声补偿方法可以对应于多种内容类型中的一种或多种内容类型。然而，在一些替代示例中，确定噪声补偿方法可以不基于内容类型。

在一些示例中，用于至少一种音乐内容类型的噪声补偿方法可以是这里称为“音色保留”的噪声补偿方法。这里使用的术语“音色保留”可以具有多种含义。广义地说，“音色保留”噪声补偿方法是一种至少部分保留输入音频信号的频率内容或音色的方法。一些音色保留噪声补偿方法可以完全或几乎完全保留输入音频信号的频率内容。一种音色保留噪声补偿方法可以包括根据至少一些其他频带的被施加阈值和/或输出信号水平来约束至少一些频带的输出信号水平。在一些示例中，“音色保留”噪声补偿方法可以包括至少在某种程度上约束所有非隔离频带的输出信号水平。(在一些示例中，如果一个频带是“隔离的”，那么只有该频带中的音频对所应用的限制增益有影响)。文中公开了音色保留噪声补偿方法的各种示例。在一些示例中，用于至少一种音乐内容类型的噪声补偿方法可以包括对应于低频率范围的第一方法和对应于高频率范围的第二方法。例如，第一方法可以包括允许应用于低频率范围中的第一频带的第一增益独立于应用于低频率范围中的第二频带的第二增益。

在一些实施方式中，第二方法可以包括将高频率范围的频带中应用的所有增益约束为相等。根据一些实施方式，第二方法可以包括将第一增益和第二增益之间的差约束为小于或等于阈值量。在一些这样的实现中，第一增益可以在高频率范围的第一频带中应用，而第二增益可以在高频率范围的第二频带中应用。例如，第一频带可以与第二频带相邻。

根据一些示例，确定噪声补偿方法可以至少部分地基于一天中的时间。在一些这样的示例中，确定噪声补偿方法可以不基于输入内容类型。在一些示例中，夜间噪声补偿方法可以包括控制再现的音频数据的一个或多个频带的回放水平低于对应于白天噪声补偿方法的再现的音频数据的相同频带的回放水平。根据一些示例，夜间噪声补偿方法的回放水平可以比白天噪声补偿方法的回放水平压缩更多。在一些实施方式中，夜间噪声补偿方法可以包括控制再现的音频数据的一个或多个频带的回放水平低于阈值，即使在存在嘈杂噪声源的情况下仍如此。例如，频带可以是低音频带。

一些公开的噪声补偿方法实现包括控制再现的音频数据的回放水平高于环境噪声水平。然而，在一些示例中，在框315中确定噪声补偿方法可以至少部分地基于音频环境中的环境噪声的类型。在一些这样的示例中，确定噪声补偿方法可以不基于输入内容类型。在某些情况下，环境噪声的类型可能对应于对话。在一些这样的示例中，噪声补偿方法可以包括控制再现的音频数据的回放水平低于环境噪声水平。

根据一些示例，方法300可以包括接收元数据与内容流。在一些这样的示例中，确定噪声补偿方法可以至少部分基于元数据。在一些情况下，元数据可以对应于和/或可以指示噪声补偿方法。例如，元数据可以指示音色保留噪声补偿方法、无约束噪声补偿方法、或作为这两者混合的噪声补偿方法。在一些示例中，元数据可以指示平滑系数、频率平滑约束、起始时间、和/或释放时间。在某些情况下，元数据可以由编码器提供。然而，在其他示例中，元数据可以由诸如智能家庭集线器的音频环境的另一设备提供。在一些示例中，元数据可以对应于音频数据的动态范围和/或已经应用于音频数据的压缩量。例如，元数据可以是Dolby Digital、Dolby Digital Plus或AC-4音频技术的“对话归一(dialnorm)”元数据。在一些情况下，元数据可以是高效高级音频编码音频编码格式的“参考级别”元数据。替代地或附加地，确定噪声补偿方法可以至少部分地基于音频环境的至少一个音频再现换能器的动态范围。

在一些示例中，至少一种噪声补偿方法可以是示范或“演示”版本，而另一种噪声补偿方法可以是常规版本。常规版本可以是为正常使用(例如在家庭音频环境或另一音频环境的正常情况下使用)而设计的版本。演示版本可以适用于例如陈列室环境、零售环境、销售环境等。例如，示范版本可以包括在一个或多个频带中应用比常规版本更高的增益。

在该示例中，块320包括由控制系统确定在其中将再现内容流的音频环境的噪声估计。确定噪声估计在文中也可以被称为确定噪声度量。

根据一些示例，确定噪声度量可以包括由控制系统从在其中将渲染音频数据的音频环境的一个或多个麦克风接收麦克风数据，并且由控制系统至少部分地基于麦克风信号来确定噪声度量。一些这样的示例可以包括从控制系统所在的音频环境的一个或多个麦克风接收麦克风数据。在一些这样的实现中，可以从包括至少一个麦克风和环境的一组音频再现换能器中的至少一个音频再现换能器的设备接收麦克风信号。例如，包括至少一个麦克风和至少一个音频再现换能器的设备可以是或者可以包括智能扬声器。然而，一些替代示例可以包括从与控制系统不在同一位置的音频环境的一个或多个设备接收麦克风数据或噪声度量。

根据一些示例，确定噪声度量可以包括识别接收到的麦克风信号中的环境噪声并估计对应于环境噪声的噪声水平。在一些这样的示例中，确定噪声度量可以包括确定噪声水平是高于还是低于一个或多个阈值。在一些示例中，噪声估计可以指示多个频带中的每个频带的估计噪声水平。

在一些示例中，确定噪声度量可以包括确定对应于环境的混响、环境的频率响应、环境的一个或多个音频再现换能器的回放特性等的一个或多个度量。

在一些情况下，确定噪声估计可以包括从噪声估计模块接收噪声估计或者基于音频环境中的一个或多个麦克风的麦克风信号来计算噪声估计。

根据该实现，框325涉及由控制系统并且至少部分基于噪声估计对音频数据执行噪声补偿方法，以产生经噪声补偿的音频数据。这里，框330包括由控制系统渲染经噪声补偿的音频数据以便经由音频环境的一组音频再现换能器进行再现，以产生渲染音频信号。在该示例中，框335涉及经由接口系统向音频环境的一组音频再现换能器中的至少一些音频再现换能器提供渲染音频信号。

图4示出了其中噪声补偿方法至少部分基于用户输入的系统的示例。如同这里提供的其他附图一样，图4中所示的元件的类型和数量仅仅是作为示例提供的。其他实现可以包括更多、更少和/或不同类型和数量的元件。

在这个示例中，系统400包括扬声器104、麦克风105、噪声估计器407和噪声补偿器402。在该示例中，噪声估计器407和噪声补偿器402由控制系统实现，在该示例中，该控制系统是图2的控制系统210的实例。根据该实施方式，控制系统210包括被配置用于接收用户输入402的接口系统。在一些示例中，系统400可以包括显示系统，并且控制系统210可以被配置为提供一个或多个图形用户界面，用于在显示系统上接收用户输入402。在一些实施方式中，控制系统210可以被配置为经由麦克风105接收的语音来接收用户输入402。在一些这样的实现中，控制系统210可以被配置用于至少部分地实现自动语音识别(ASR)过程。根据一些这样的实施方式，控制系统210可以被配置用于实施基于云的ASR过程。在一些示例中，系统400中的另一个设备，例如虚拟助理，可以被配置用于接收语音命令和用于向控制系统210提供对应于用户输入402的信号。

在这个示例中，噪声补偿器402从文件、流服务等接收音频信号101。根据该示例，噪声补偿器402被配置成至少部分基于用户输入402来确定音频信号101的噪声补偿方法。在某些情况下，用户输入402可以是对噪声补偿方法的明确选择，噪声补偿方法为例如音乐的噪声补偿方法、电影的噪声补偿方法、电视节目的噪声补偿方法等。在一些示例中，用户输入402可以对应于两种或更多种预设噪声补偿方法中的选择。

然而，在一些情况下，用户输入402可能不涉及噪声补偿方法的直接或明确选择。例如，用户输入402可以对应于包括音频信号101的内容流的内容类型。根据一些这样的示例，噪声补偿器402可以被配置用于至少部分地基于内容类型来确定噪声补偿方法。根据特定的实现方式，可以向用户提供或不向用户提供根据内容类型选择噪声补偿方法的信息。

在一些情况下，用户输入402可以对应于内容流的内容提供商。控制系统210可以被配置为至少部分基于内容提供商来确定内容类型。例如，如果控制系统确定内容提供商是音乐流服务，在一些实施方式中，控制系统可以确定内容类型是音乐内容类型。然而，如果控制系统确定内容提供商是电影和/或电视节目流服务，则在一些实施方式中，控制系统可以确定内容类型是电影或电视节目。在一些示例中，确定内容类型可以至少部分基于与实现内容流解码的应用的选择的用户输入相对应的402。

在这个示例中，噪声补偿器402向扬声器104发送经噪声补偿的输出信号403。根据该示例，经噪声补偿的输出信号403也被提供给噪声估计器407，并且是噪声估计器407的参考信号。在这个示例中，麦克风信号106也被从麦克风105发送到噪声估计器407。

根据该示例，噪声估计器407是被配置成估计包括系统400的环境中的噪声水平的组件。噪声估计器407可以被配置成接收麦克风信号106，并且计算麦克风信号106中有多少是由噪声组成的，以及有多少是由于扬声器104的回放造成的。在一些示例中，噪声估计器407可以包括回声消除器。然而，在一些实现中，当对应于静音的信号被发送到扬声器104时，噪声估计器407可以简单地测量噪声。在这个示例中，噪声估计器407向噪声补偿器402提供噪声估计408。取决于特定实现，噪声估计408可以是噪声的宽带估计或频谱估计。在该示例中，噪声补偿器402被配置成基于噪声估计408来调整扬声器104的输出水平。

图5A示出了其中噪声补偿方法至少部分基于应用类型信息的系统的示例。如同这里提供的其他附图一样，图5A中所示的元件的类型和数量仅仅是作为示例提供的。其他实现可以包括更多、更少和/或不同类型和数量的元件。

在这个示例中，系统500包括扬声器104、麦克风105、噪声估计器407和噪声补偿器402。在该示例中，噪声估计器407和噪声补偿器402由控制系统实现，在该示例中，该控制系统是图2的控制系统210的实例。根据该示例，控制系统210正在执行软件应用502，该软件应用502在本文中可被称为“应用程序”。

在这个示例中，噪声补偿器402从文件、流服务等接收音频信号101。根据该示例，噪声补偿器402被配置成至少部分地基于控制系统210当前正在执行的应用502来确定噪声补偿方法。在这个示例中，噪声补偿器402被配置用于至少部分地基于指示在控制系统210上运行的应用502的信号501来确定噪声补偿方法。例如，如果应用502是音乐相关的应用，则噪声补偿器402可以被配置用于确定适合于音乐的噪声补偿方法。下面描述了一些详细的示例。例如，如果应用502是视频应用，则噪声补偿器402可以被配置用于确定适合于电影和/或电视节目的噪声补偿方法。

在一些实例中，应用502可以是实现对包括音频的内容流进行解码的应用，噪声补偿器402将为该内容流确定噪声补偿方法。噪声补偿器402可以被配置用于确定内容流的内容类型，并且可以被配置用于确定对应于内容类型的噪声补偿方法。例如，编码视频/音频可以指示内容类型作为比特流的一部分，例如经由指示内容是电影、电视节目或音乐的元数据来指示。应用502可以向噪声补偿器402提供指示内容类型的信号501。应用502不需要“知道”(例如，被提供关于事实的信息)应用502正在向噪声补偿系统提供信息和/或被集成到噪声补偿系统中。例如，在控制系统210上运行的操作系统可以向噪声补偿器402指示当时什么应用正在播放音频，并且噪声补偿器402可以被配置成相应地改变其处理，例如基于应用名称、内容类型和对应的噪声补偿方法之间的映射来改变。

在某些情况下，应用程序502可以直接或间接地基于用户输入，例如，如上文参考图4所述。在一些情况下，用户输入可以对应于对与内容流的内容提供商相对应的应用502的选择。控制系统210可以被配置为至少部分基于内容提供商来确定内容类型。例如，如果控制系统确定用户选择的应用502是由音乐流服务提供的应用，则在一些实施方式中，控制系统可以确定内容类型是音乐内容类型。然而，如果控制系统确定用户选择的应用502是由电影和/或电视节目流服务提供的应用，则在一些实施方式中，控制系统可以确定内容类型是电影或电视节目。

图5B示出了其中噪声补偿方法至少部分基于噪声估计器的状态的系统的示例。如同这里提供的其他附图一样，图5B中所示的元件的类型和数量仅仅是作为示例提供的。其他实现可以包括更多、更少和/或不同类型和数量的元件。

在这个示例中，系统500包括扬声器104、麦克风105、噪声估计器407和噪声补偿器402。在该示例中，噪声估计器407和噪声补偿器402由控制系统实现，在该示例中，该控制系统是图2的控制系统210的实例。在这个示例中，噪声补偿器402从文件、流服务等接收音频信号101。

根据该示例，噪声补偿器402被配置成至少部分基于噪声估计器407的状态来确定噪声补偿方法。在这个示例中，噪声估计器407向噪声补偿器402提供噪声估计器状态信息501A。因此，在一些实现中，噪声补偿器402可以被配置成至少部分地基于噪声估计器状态信息501A来确定噪声补偿方法。

在一些示例中，噪声估计器407可以确定噪声补偿器402应该实施哪种噪声补偿方法。在一些这样的示例中，噪声估计器状态信息501A可以向噪声补偿器402指示(例如，经由噪声估计器状态信息501A和/或经由附加信息)噪声补偿器402应该实施哪种噪声补偿方法。

在噪声估计器407是多频带噪声估计器的一些实施方式中，如果一组未更新的频带(例如，高频带)中的噪声估计在阈值时间量(例如，秒量级，例如1秒、2秒、3秒、4秒、5秒等)内没有被更新，噪声估计器状态信息501A可指示噪声补偿方法应切换到音色保留或“音乐模式”，这是因为未更新频带中的噪声估计的质量较低，尽管更新频带中的噪声估计的质量可能仍较高。替代地或附加地，在一些实现中，噪声估计器可以被配置成向噪声补偿块提供质量度量或置信度得分，噪声补偿块可以使用该质量度量或置信度得分来确定要处于(或部分处于)哪个模式。举例来说，如果质量度量或置信度得分指示噪声估计的质量较低，那么噪声补偿块可确定噪声补偿方法应为音色保留或“音乐模式”。在一些示例中，质量度量可以与2019年4月24日提交的标题为“Background Noise Estimation Using GapConfidence(使用间隙置信度的背景噪声估计)”的第WO 2019/209973号国际公开中描述的“陈旧性(staleness)”度量、特别是第24和25页上对“陈旧性”度量的讨论直接相关，该国际公开通过引用而并入此。

在一些实施方式中，控制系统210(例如，噪声估计器407)可以被配置成提供在2019年4月24日提交的标题为“Background Noise Estimation Using Gap Confidence(使用间隙置信度的背景噪声估计)”的第WO 2019/209973号国际公开中、特别是第16-18页上的间隙置信度值的讨论和间隙置信度值的使用中描述的多频带噪声估计器功能，该国际公开通过引用而并入此。

根据一些实施方案，可根据噪声估计的质量度量来选择音色保留频率范围(例如，图10中所示且在下文中描述的范围FR2)中的频带。噪声估计的质量度量可以例如对应于自从频带的噪声估计被更新以来的时间量。

图6示出了其中噪声补偿方法至少部分基于音频环境中的环境噪声的分类的系统的示例。如同这里提供的其他附图一样，图6中所示的元件的类型和数量仅仅是作为示例提供的。其他实现可以包括更多、更少和/或不同类型和数量的元件。

在这个示例中，系统600包括分类器602、扬声器104、麦克风105、噪声估计器407和噪声补偿器402。在该示例中，分类器602、噪声估计器407和噪声补偿器402由控制系统实现，在该示例中，该控制系统是图2的控制系统210的实例。

根据该示例，噪声补偿器402被配置成至少部分地基于来自噪声估计器407的噪声估计408和由分类器602输出的信号603来确定输入音频信号101的噪声补偿方法。在一些示例中，信号603可以指示噪声补偿器402应该实施的噪声补偿方法的类型。替代地或附加地，信号603可以指示除了基于噪声估计408的噪声估计器407将应用的噪声补偿之外，噪声估计器407还应当应用的一组频率增益。

在一些示例中，信号603可以指示环境噪声的类型。噪声补偿器402可以至少部分地基于环境噪声的类型来确定要实施的噪声补偿方法的类型。例如，噪声补偿器402可以被配置为如果分类器602确定环境声音是人声，则确定一种类型的噪声补偿方法，而如果分类器602确定环境声音是环境噪声，则确定另一种类型的噪声补偿方法，例如真空吸尘器、搅拌机、HVAC(供暖、通风和空调)系统等。

例如，如果分类器602确定环境声音对应于语音(例如，对应于音频环境中的一个或多个持续对话的语音)，则在一些实现中，由分类器602输出的信号603可以指示噪声补偿器402应该避开音频101(降低其水平)，使得再现的音频保持低于语音水平。在一些这样的示例中，确定噪声补偿方法可以不基于输入内容类型。下面参照图11描述一个更详细的示例。

在一些示例中，如果分类器602确定环境噪声是音乐，则信号603可以指示噪声补偿器402应该禁用噪声补偿。禁用噪声补偿过程可以确保由系统600实现的噪声补偿和由正在再现音乐的另一个系统实现的噪声补偿都不会试图将再现的音乐的水平提高到超过由另外系统再现的水平。

根据一些示例，如果分类器602确定环境噪声是引擎噪声、搅拌机噪声、交通噪声、街道噪声等，则信号603可以指示噪声补偿器402应该实现另一种类型的噪声补偿。在一些这样的示例中，信号603可以指示噪声补偿器402应该如上文参考图4的噪声补偿器402所描述的那样操作。

在这个示例中，噪声估计器407向噪声补偿器402，并且可选地向分类器602，提供噪声估计408。取决于特定实现，噪声估计408可以是噪声的宽带估计或频谱估计。

根据该示例，分类器602被配置成从麦克风105接收麦克风信号106。在一些实现中，分类器602被配置成从噪声估计器407接收噪声估计408。基于这些输入中的一个或两者，在该实现中，分类器602被配置成确定周围噪声的类型，该周围噪声在本文中也可被称为环境噪声。在一些实现中，分类器602可以被配置成通过实现一个或多个基于音频的上下文感知模型来确定周围噪声的类型。一些这样的实现可以使用梅尔频率倒谱系数及其导数作为特征，并且使用隐马尔可夫模型(HMM)(例如，连续密度HMM)作为声学模型。在一些实现方式中，分类器602可以被配置成通过实现已经根据一个或多个基于音频的上下文感知模型被训练的神经网络来确定环境噪声的类型。替代地或附加地，噪声估计器407可以被配置成通过前述过程中中的一个或多个来确定环境噪声的类型。

在一些情况下，评估环境噪声的时间(窗口大小)可能影响由分类器602和/或噪声估计器407获得的结果。例如，较长的时间窗可能适合于确定持续的环境噪声，例如HVAC噪声。根据一些实施方式，在编码过程期间，编码器在分配比特时识别瞬态内容，包括改变窗口大小。在一些这样的实现中，窗口大小和瞬态可以用元数据来编码和表示。因此，在一些这样的示例中，该元数据可以被提供给控制系统，该控制系统被配置为实现噪声补偿和/或周围噪声分类，以便通知相关的音频处理。

图7示出了其中噪声补偿方法至少部分基于输入内容流的分类的系统的示例。如同这里提供的其他附图一样，图7中所示的元件的类型和数量仅仅是作为示例提供的。其他实现可以包括更多、更少和/或不同类型和数量的元件。

在这个示例中，系统700包括分类器702、扬声器104、麦克风105、噪声估计器407和噪声补偿器402。在该示例中，分类器702、噪声估计器407和噪声补偿器402由控制系统实现，在该实现中，该控制系统是图2的控制系统210的实例。

根据该示例，噪声补偿器402被配置成至少部分地基于来自噪声估计器407的噪声估计408和由分类器702输出的信号703，确定用于输入音频信号101的噪声补偿方法。在一些示例中，信号703可以指示噪声补偿器402应该实施的噪声补偿方法的类型。替代地或附加地，信号703可以指示除了基于噪声估计408的噪声估计器407将应用的噪声补偿之外，噪声估计器407还应当应用的一组频率增益。

在一些实施方式中，信号703可以指示输入内容流的至少一部分的内容类型。在一些示例中，噪声补偿器402可以被配置为如果分类器702确定输入音频101对应于音乐，则确定一种类型的噪声补偿方法，而如果分类器702确定输入音频101对应于电影或电视节目，则确定另一种类型的噪声补偿方法。下面描述了每种噪声补偿方法的一些详细示例。

在一些示例中，分类器702可以确定即使是相同的电影、电视节目等被输入并被系统700再现，噪声补偿方法仍应该改变。例如，电影或电视节目可以包括音乐介绍和/或音乐在其期间被再现的间歇。对于电影或电视节目的这些片段，分类器702可以确定噪声补偿方法应该对应于音乐。

在一些实施方式中，分类器702可能已经预先确定内容(例如，输入音频101)主要对应于电影或电视节目，但是内容的一个或多个部分是例如电影内容和音乐内容的混合。例如，如果分类器702确定内容的一部分是电影内容和音乐内容的组合，则在一些实施方式中，噪声补偿器402将实现混合噪声补偿方法，该混合噪声补偿方法组合了音乐噪声补偿方法和电影噪声补偿方法的各方面。尽管其他示例可能没有明确提到混合噪声补偿方法，但是混合噪声补偿方法广泛适用于许多公开的实现。在一些示例中，混合噪声补偿方法可以是噪声估计器407应该应用于音乐的第一组频率增益与噪声估计器407应该应用于电影内容或电视内容的第二组频率增益的平均值。根据一些这样的示例，如果分类器702要确定该部分内容是50％电影内容和50％音乐内容，则在一些实现中，噪声补偿器402将实现混合噪声补偿方法，该方法对根据音乐噪声补偿方法应用的增益和根据电影噪声补偿方法应用的增益进行平均。在一些这样的实现中，可以根据分类器702确定输入音频101是音乐主导还是电影主导来加权平均值，该确定例如基于在特定时间是否有对话、对话的水平与音乐的水平相比等。在一些示例中，如果分类器702确定该部分内容是X％的电影内容和Y％的音乐内容，则噪声补偿器402可以被配置成实现混合噪声补偿方法，该方法应用将根据电影噪声补偿方法被应用的增益的X％和将根据音乐噪声补偿方法被应用的增益的Y％。

在一些实现中，分类器702可以被配置成接收与输入音频101一起包括的和/或与和输入音频101一起被接收的其他内容一起包括的元数据。根据一些这样的实现，由分类器702输出的信号703可以对应于元数据。元数据可以例如指示内容是否是电影、是否是电视节目等。在一些情况下，元数据可以指示内容的特定部分是否主要是音乐、主要是对话等。根据一些示例，元数据可以对应于音频数据的动态范围和/或已经应用于音频数据的压缩级别。在一些这样的示例中，元数据可以是Dolby Digital、Dolby Digital plus或AC-4的对话归一元数据。在一些情况下，元数据可以是高效高级音频编码音频编码格式的参考级别元数据。

在一些实施方式中，分类器702可以被配置用于比较输入音频101的直方图，并且用于将输入直方图的频谱形状与已知类型的音频的直方图(例如电影直方图、噪声直方图或音乐直方图)进行匹配。在一些这样的示例中，分类器702可以被配置用于实现由Dolby开发的“媒体智能”分类器。根据一些这样的示例，分类器702可以被配置用于:从短期音频段中提取短期特征，每个短期音频段包括音频帧序列；使用相应的短期特征将长期音频段中的短期段序列分类成短期音频类型；计算关于长期音频段中短期段序列的分类操作结果的统计量，作为长期特征；以及使用长期特征将长期音频段分类为长期音频类型，例如，如在2014年3月25日提交的题为“Apparatus and Methods for Audio Classifying andProcessing(用于音频分类和处理的装置和方法)”的第14/779，322号美国专利申请(授权号为美国专利第9，842，605号)中所述，该申请通过引用结合于此。

图8示出了其中噪声补偿方法至少部分基于外部控制的系统的示例。如同这里提供的其他附图一样，图8中所示的元件的类型和数量仅仅是作为示例提供的。其他实现可以包括更多、更少和/或不同类型和数量的元件。

在这个示例中，系统800包括外部控制模块802、扬声器104、麦克风105、噪声估计器407和噪声补偿器402。在该示例中，噪声估计器407和噪声补偿器402由控制系统实现，在该示例中，该控制系统是图2的控制系统210的实例。在一些实施方式中，外部控制模块802也可以通过控制系统210来实施。

根据该示例，噪声补偿器402被配置成至少部分地基于来自噪声估计器407的噪声估计408和由外部控制模块802输出的信号803来确定输入音频信号101的噪声补偿方法。根据一些实施方式，信号803可以对应于时间，例如，对应于一天中的时间。在一些示例中，信号803可以指示噪声补偿器402应该实施的噪声补偿方法的类型。替代地或附加地，信号803可以指示除了基于噪声估计408的噪声估计器407将应用的噪声补偿之外，噪声估计器407还应当应用的一组频率增益。

在一些实施方式中，如果外部控制模块802确定是白天，则信号803可以指示适合于白天的噪声补偿方法和/或音频再现方法的类型。根据一些这样的实施方式，如果外部控制模块802确定是夜间，则信号803可以指示适合于夜间的噪声补偿方法和/或音频再现方法的类型。根据一些示例，相比于“白天”类型的噪声补偿方法和/或回放音量控制(在这里可以称为“白天模式”)，“夜间”类型的噪声补偿方法和/或回放音量控制(这里可以称为“夜间模式”)可被计算为不太可能使他人保持清醒、打扰邻居等。在一些这样的示例中，与白天模式相比，夜间模式可以涉及一个或多个频带(例如，低音频带)中的较低水平的音频再现。根据一些示例，与用于白天模式的回放水平的限制相比，夜间模式可以包括对一些或所有频带中的用于噪声补偿的回放水平应用相对较低的限制。根据一些示例，夜间模式可以包括启用隐藏字幕、副标题或副标题，例如对于电影内容或电视内容。

根据一些实施方式，例如根据用户输入，可以在白天实施夜间模式。例如，夜间模式方法可以在儿童午睡时间、学习时间、视频会议时间、冥想时间、瑜伽时间、或者在音频环境中或附近需要相对安静的其他时间期间被实施。

在一些示例中，外部控制模块802的功能可以与一个或多个其他模块和/或输入的功能相结合，该输入为例如用户输入、来自分类器602的输入、来自分类器702的输入等。一些这样的组合可以被实现来创建如下系统，在该系统中噪声补偿充当“自动音量”，使得用户不需要调节音量控制(例如，在遥控设备上)，除非必要。替代地或附加地，一些“自动音量”实现可以包括控制回放音量以防止或限制音量的突然增大或减小，例如在商业广告期间音量增大。在一些这样的实现中，控制系统(例如，电视(TV)的控制系统)可以被配置成测量音频系统的自身响应，以确定在特定时间对于特定内容类型的音频环境的适当音量。

替代地或附加地，控制系统可以被配置成基于经由GUI、经由语音命令等接收的用户输入来确定音频环境的适当音量。例如，用户输入可以包括设置过程，其中用户指示用于实现夜间模式的循环时间、将触发夜间模式的标准(例如，电话会议的发起、婴儿监视器的激活等)。在一些实现中，信号803可以不基于时间，而是可以基于一个或多个其他输入，例如电话会议的发起、婴儿监视器的激活等。然而，在一些这样的实现中，由这样的输入触发的噪声补偿模式可以对应于其他实现的夜间模式。

替代地或附加地，控制系统可以被配置为确定在特定时间对于特定环境噪声水平和/或环境噪声类型的音频环境的适当音量。在一些示例中，控制系统可以被配置为实现心理声学模型和/或用于再现的扬声器的测量响应，以估计音量是否处于期望的水平，并根据需要进行调整。

根据一些实施方式，经由两个或更多个所公开的系统的组合，可以基于各种输入来触发不同的噪声补偿方法。例如，夜间模式可以在夜间的特定时间被自动触发，并且可以在白天的特定时间自动结束。在一些实施方式中，下文参考图11描述的背景音乐模式可以经由检测到人声频率范围内的持续环境噪声(其指示可能的对话)被自动触发。背景音乐模式可以例如与白天模式或夜间模式相结合，这取决于一天中对话发生的时间。在一些实施方式中，背景音乐模式可以通过诸如语音命令、对GUI的输入等的用户输入被触发。

图9示出了对应于噪声补偿方法的曲线图的示例。例如，由图9所示的曲线图表示的噪声补偿方法可以适用于电影内容类型或电视节目内容类型。如下文更详细描述的，当控制系统确定输入内容是电影内容类型或电视节目内容类型时可以应用的噪声补偿方法在这里也可以称为“无约束”噪声补偿方法或非音色保留噪声补偿方法。

在该示例中，曲线图900的纵轴指示水平，横轴指示频率。在一些示例中，横轴可以指示典型人类可听到的范围内的、例如在20–20,000Hz的范围内的频率。曲线图900指示输入音频信号905，其在该示例中是白噪声输入音频信号。白噪声输入音频信号仅用于阐明噪声补偿系统将应用的增益种类。输入音频信号905可以具有任何类型的频率内容。在图10–13所示的曲线图中，也应假设白噪声输入信号。在曲线图900中，曲线902对应于检测到的背景噪声的频谱。例如，曲线902可以对应于噪声估计器407提供给噪声补偿器402的噪声估计408中的噪声的频谱估计。

根据该实现，箭头906表示噪声补偿器402为了产生对应于图9的噪声补偿方法的经噪声补偿的输出信号901而针对特定频率应用的增益。根据该示例，箭头906表示如下增益的示例，该增益由噪声补偿器402应用于输入内容流的音频数据以产生经噪声补偿的输出信号403，该输出信号403对应于该实例中的经噪声补偿的输出信号901。在该示例中，当控制系统确定输入内容是电影内容类型或电视节目内容类型时，可以应用该噪声补偿方法。

在图9中，差值903表示曲线901和曲线902之间的差异。因此，差值903表示音频环境的背景噪声和经噪声补偿的输出信号403的水平之间的差。在一些示例中，由噪声补偿器402应用的增益确保差值903在图9所示的频率范围内是恒定的或近似恒定的。根据一些这样的示例，如果音频环境的环境噪声水平增加，则经噪声补偿的输出信号403的回放水平将增加保持差值903恒定或近似恒定所需的量。在本文中，“近似”可能意味着在预定范围内，例如在2％范围内、在5％范围内、在7％范围内、在10％范围内、在1dB范围内、在2dB范围内、在3dB范围内、在4dB范围内等。

在一些示例中，如图9所示，在一个频带中应用的增益相对于在另一个频带中应用的增益，例如相对于在相邻频带中应用的增益，可以不受约束。因此，根据这种噪声补偿方法，输入音频信号905的频谱内容通常不会被保留。因此，当控制系统确定输入内容是电影内容类型或电视节目内容类型时可以应用的噪声补偿方法在这里也可以称为“无约束”噪声补偿方法或非音色保留噪声补偿方法。在一些情况下，无约束噪声补偿方法可能适合于其他类型的内容和/或适合于不根据内容类型选择噪声补偿方法的情况。

在一些这样的示例中，由噪声补偿器402应用的增益确保信噪比(SNR)在图9所示的频率范围内是恒定的或近似恒定的。根据一些这样的示例，在一个频带中应用的增益相对于在另一个频带中应用的增益，例如相对于在相邻频带中应用的增益，可以不受约束。

然而，根据一些实施方式，在图9所示的频率范围内，差值903和/或SNR可能不是恒定或近似恒定的。在一些这样的示例中，经噪声补偿的输出信号403的水平可以被整形以突出经噪声补偿的输出信号403的对话区域，例如，相对于其它频率范围中的经噪声补偿的输出信号403的水平，增加经噪声补偿的输出信号403在300Hz到3000Hz的范围内、在80Hz到260Hz的范围内、在80Hz到3000Hz的范围内等的频率的水平。

在一些示例中，图9的噪声补偿方法可以基于心理声学模型。在一些这样的示例中，噪声补偿方法可以使用等响度曲线，其对不同的频带应用不同的增益。根据一些这样的示例，噪声补偿方法可以对应于杜比音量方法之一，例如在2005年10月25日提交的标题为“Calculating and Adjusting the Perceived Loudness and/or the PerceivedSpectral Balance of an Audio Signal(计算和调整音频信号的感知响度和/或感知频谱平衡)”的美国专利第8,090,120号中描述的那些方法之一，该专利通过引用并入此。

图10示出了对应于另一种噪声补偿方法的曲线图的示例。例如，由图10所示的曲线图表示的噪声补偿方法可能适合于音乐内容类型。由图10所示的曲线图表示的噪声补偿方法是音色保留噪声补偿方法，至少对于较高的频率范围(FR2)。如本文别处所述，音色保留噪声补偿方法可以包括根据至少一些其他频带的输出信号水平和/或被施加的阈值来约束至少一些频带的输出信号水平。在一些示例中，“音色保留”噪声补偿方法可以包括至少在某种程度上约束所有非隔离频带的输出信号水平。在某些情况下，音色保留噪声补偿方法可能适用于其他类型的内容和/或适合于不根据内容类型选择噪声补偿方法的情况。

在这个示例中，曲线图1000的纵轴表示水平，横轴表示频率。在一些示例中，横轴可以指示典型人类可听到的范围内(例如20–20,000Hz的范围内)的频率。在曲线图1000中，曲线1001对应于所检测到的背景噪声的频谱。例如，曲线1001可以对应于噪声估计器407提供给噪声补偿器402的噪声估计408中的噪声的频谱估计。

根据该实现，曲线1002和1004表示为了对应于噪声补偿方法再现由噪声补偿器402应用的增益。根据该示例，曲线1002和1004表示为了产生经噪声补偿的输出信号403由噪声补偿器402应用于输入内容流的音频数据的增益。在该示例中，当控制系统确定输入内容是音乐内容类型时，可以应用该噪声补偿方法。

在这个示例中，噪声补偿方法包括对应于低频率范围(频率范围1，在图10中标为“FR1”)的第一方法和对应于高频率范围(频率范围2，在图10中标为“FR2”)的第二方法。一些相关的噪声补偿方法可以包括三个或更多个的频率范围。在该示例中，低频率范围对应于“低音”频率范围，在一些示例中，该范围可以在20和250Hz之间。在其他示例中，低频率范围可以是不同的范围，例如在20和300Hz之间，在20到350Hz之间，在20到400Hz之间，在20到450Hz之间，在20到500Hz之间，在50到300Hz之间，在50到350Hz之间，在50到400Hz之间，在50到450Hz之间，在50到500Hz之间，在100到300Hz之间，在100到350Hz之间，在100到400Hz之间，在100到450Hz之间，在100到500Hz之间等。在一些示例中，高频率范围可以是高于低频率范围的整个听觉范围。然而，在一些其他示例中，高频率范围可能小于高于低频率范围的整个听觉范围。

根据该实现，第一方法包括允许应用于低频率范围中的第一频带的第一增益独立于应用于低频率范围中的第二频带的第二增益。在某些情况下，第一频带可以与第二频带相邻。因此，根据这种噪声补偿方法，低频率范围中的输入音频信号的频谱内容通常不会被保留。因此，该噪声补偿方法可被称为低频率范围中的“无约束”噪声补偿方法或非音色保留噪声补偿方法。

在图10中，差值1003表示曲线1001和曲线1002之间的差异。因此，在第一方法的一个示例中，差值1003表示音频环境的背景噪声和经噪声补偿的输出信号403的水平之间的差。在一些示例中，由噪声补偿器402应用的增益确保差值1003在低频率范围上是恒定的或近似恒定的。根据一些这样的示例，如果音频环境的周围噪声水平增加，则经噪声补偿的输出信号403的回放水平将增加保持差值1003恒定或近似恒定所需的量。在本文中，“近似”可能意味着在预定范围内，例如在2％范围内、在5％范围内、在7％范围内、在10％范围内、在1dB范围内、在2dB范围内、在3dB范围内、在4dB范围内等。在第一方法的一些示例中，由噪声补偿器402应用的增益确保信噪比(SNR)在图10所示的低频率范围上恒定或近似恒定。

然而，根据一些实施方式，在图10所示的低频率范围上，差值1003和/或SNR可能不是恒定的或近似恒定的。在一些这样的示例中，经噪声补偿的输出信号403的水平可以被整形，以相对于低频率范围的其他部分中的经噪声补偿的输出信号403的水平来突出经噪声补偿的输出信号403的对话部分。

根据一些实施方式，第二方法涉及在高频率范围内保留再现音频的音色。根据对应于图10的实现，第二方法包括将高频率范围的频带中应用的所有增益约束为相等。在该示例中，应用于高频率范围的最低频带的增益等于应用于低频率范围的最高频带的增益，或者在该增益的预定范围内。

在一些示例中，在高频率范围中应用的增益是将保持高频率范围的所有频带上的SNR的增益的加权平均值。下面是可以应用于将保持高频率范围的频带中的SNR的增益的一组示例权重:[1.0，0.9，0.8，0.7，0.6，0.5，0.4，0.3，0.2，0.1]。根据一些实施方式，该组权重可以例如作为元数据与输入音频数据被一起包括。在这个示例中，应用于高频率范围的最低频带的增益等于应用于低频率范围的最高频带的增益。这样的示例可能有若干好处。一个好处是防止应用于低频率范围的增益和应用于高频率范围的增益之间不连续。另一个好处是，这种方法突出了人类听觉最敏感的频谱区域。在一些替代示例中，对应于高频率范围的频带的增益的加权可以是等响度曲线的倒数，使得人类听觉最敏感的频率比其他频带被加权更多。

为了确保听音乐是一种低疲劳的体验，通常在混音时间对音乐进行低通滤波。通过在宽频率范围内使用固定增益，可以保持这种低通滤波的意图和音乐的整体音色。另一个好处是相对于更重要内容的部分，音乐录音中使用的麦克风的高斯噪声不会被过分突出，尤其是在高频中。因此，可以保持音乐享受。

然而，在一些替代示例中，第二方法可以包括将在高频率范围的第一频带中应用的第一增益和在高频率范围的第二频带中应用的第二增益之间的差约束为小于或等于阈值量。在一些这样的示例中，第一频带可以与第二频带相邻。

图11示出了对应于另一种噪声补偿方法的曲线图的示例。由图11所示的曲线图表示的噪声补偿方法在这里可以称为“背景音乐”噪声补偿方法。在一些这样的示例中，确定噪声补偿方法可以不基于输入内容类型。

在这个示例中，曲线图1100的纵轴表示水平，横轴表示频率。在一些示例中，横轴可以指示典型人类可听到的范围内(例如在20–20,000Hz的范围内)的频率。在曲线图1100中，曲线1101对应于检测到的背景噪声的频谱。例如，曲线1101可以对应于噪声估计器407提供给噪声补偿器402的噪声估计408中的噪声的频谱估计。在这个示例中，控制系统被配置成实现环境噪声分类器，例如上面参考图6描述的分类器602。根据该示例，分类器已经确定环境噪声对应于一个或多个对话。该情境例如可以是聚会、家庭聚会等。

根据该实现，曲线1102表示为了对应于噪声补偿方法再现由噪声补偿器402应用的增益。根据该示例，曲线1102表示为了产生经噪声补偿的输出信号403由噪声补偿器402应用于输入内容流的音频数据的增益。在该示例中，当控制系统确定输入内容是音乐内容类型时，并且当分类器确定环境噪声对应于一个或多个对话时，可以应用该噪声补偿方法。在一些示例中，当控制系统确定输入内容是电影内容类型或电视节目内容类型时，并且当分类器确定环境噪声对应于一个或多个对话时，可以应用该噪声补偿方法。

根据“背景音乐”噪声补偿方法的这个示例，控制系统确保可能是或可能不是音乐的再现音频的水平保持低于背景噪声水平。在图11中，差值1103表示曲线1101和曲线1102之间的差。因此，差值1103表示音频环境的背景噪声和经噪声补偿的输出信号403的水平之间的差。在一些示例中，由噪声补偿器402应用的增益确保差值1103在图11所示的频率范围上是恒定的或近似恒定的。根据一些这样的示例，如果音频环境的周围噪声水平降低，则经噪声补偿的输出信号403的回放水平将降低保持差值1103恒定或近似恒定所需的量。在本文中，“近似”可能意味着在预定范围内，例如在2％范围内、在5％范围内、在7％范围内、在10％范围内、在1dB范围内、在2dB范围内、在3dB范围内、在4dB范围内等。

在一些这样的示例中，由噪声补偿器402应用的增益确保信噪比(SNR)在图11所示的频率范围上是恒定的或近似恒定的。在一些示例中，在一个频带中应用的增益相对于在另一个频带中应用的增益(例如相对于在相邻频带中应用的增益)可以不受约束。

这种方法可以确保当系统的用户正在讲话时，再现的音频的水平保持低于他们的讲话水平。因此，这种方法可以确保音频环境中的人有合理的机会听到彼此并进行对话。在一些示例中，可以基于一个或多个其他因素，例如用户输入、一天中的时间、内容类型和/或位置，来启动“背景音乐”噪声补偿方法。例如，在多个人居住的家庭的厨房或用餐区，在许多情况下可能需要“背景音乐”噪声补偿方法，以便在准备食物时、用餐时等进行交谈。在一些示例中，“背景音乐”噪声补偿方法可以由“整个家庭”音频来实现，其中不同房间中的多个扬声器被配置为播放相同的内容。根据一些这样的示例，音频环境的至少一些扬声器(在一些情况下所有扬声器)可以是智能扬声器，其被独立配置用于实现“背景音乐”噪声补偿方法。在一些替代示例中，音频环境的至少一些扬声器(在一些情况下所有扬声器)可以由中央家庭控制系统控制，例如智能家庭集线器，其被配置用于实现“背景音乐”噪声补偿方法。

图12示出了对应于另一种噪声补偿方法的曲线图的示例。由图12所示的曲线图表示的噪声补偿方法在这里可以被称为“夜间噪声补偿方法”。然而，这种噪声补偿方法也可适用于除了夜间以外的时间，例如午睡时间、学习时间、电话会议时间、或希望避免不希望的再现音频(特别是低音范围内再现的音频)打扰他人的其他时间。在一些这样的示例中，确定噪声补偿方法可以不基于输入内容类型。

如在前面的示例中，曲线图1200的纵轴表示水平，横轴表示频率，在这种情况下，这些频率是典型人类可听到的范围内的频率。在曲线图1200中，曲线1201对应于检测到的背景噪声的频谱。例如，曲线1201可以对应于噪声估计器407提供给噪声补偿器402的噪声估计408中的噪声的频谱估计。

根据该实现，曲线1202和1204表示为了对应于夜间噪声补偿方法再现由噪声补偿器402应用的增益。在一些实施方式中，曲线1202和1204可以连接，例如平滑连接。根据该示例，曲线1202和1204表示为了产生经噪声补偿的输出信号403由噪声补偿器402应用于输入内容流的音频数据的增益。在该示例中，当控制系统确定一天中的时间是夜间时，例如在可根据用户输入可配置的晚上的预定时间之后，可以应用夜间噪声补偿方法。然而，在一些示例中，用户可以选择提供指示应该调用夜间噪声补偿方法的用户输入，而不管是一天中的什么时间。

在这个示例中，噪声补偿方法包括对应于低频率范围(频率范围1，在图12中标为“FR1”)的第一方法和对应于高频率范围(频率范围2，在图12中标为“FR2”)的第二方法。在该示例中，低频率范围对应于“低音”频率范围，在一些示例中，该范围可以在20和250Hz之间。在其他示例中，低频率范围可以是不同的范围，例如在20和300Hz之间，在20到350Hz之间，在20到400Hz之间，在20到450Hz之间，在20到500Hz之间等。在一些示例中，高频率范围可以是高于低频率范围的整个听觉范围。然而，在一些其他示例中，高频率范围可能小于高于低频率范围的整个听觉范围。

在该实现中，第一方法涉及控制应用于低频率范围中的音频数据的增益使之保持在恒定水平。在该示例中，第一方法包括控制应用于低频率范围中的音频数据的增益，使之保持在比任何较高频率音频数据的最低回放水平更低的水平。根据该实现，第一方法包括控制应用于低频率范围中的音频数据的增益，使其低于低频率范围中的周围噪声水平。

在图12中，差值1203表示曲线1201和曲线1204之间的差。因此，在第一方法的一个示例中，差值1203表示音频环境的背景噪声和经噪声补偿的输出信号403的水平之间的差。在一些示例中，由噪声补偿器402应用的增益确保差值1203在高频率范围上是恒定的或近似恒定的。根据一些这样的示例，如果音频环境的周围噪声水平增加，则经噪声补偿的输出信号403的回放水平将增加保持差值1203恒定或近似恒定所需的量。在本文中，“近似”可能意味着在预定范围内，例如在2％范围内、在5％范围内、在7％范围内、在10％范围内、在1dB范围内、在2dB范围内、在3dB范围内、在4dB范围内等。在第一方法的一些示例中，由噪声补偿器402应用的增益确保信噪比(SNR)在图12所示的高频率范围内是恒定的或近似恒定的。

然而，根据一些实施方式，在图12所示的高频率范围内，差值1203和/或SNR可能不是恒定的或近似恒定的。在一些这样的示例中，噪声补偿输出信号403的水平可以被整形，以相对于高频率范围的其他部分中的经噪声补偿的输出信号403的水平突出经噪声补偿的输出信号403的对话部分。在一些夜间噪声补偿实施方案中，音色保留噪声补偿模式可用于至少一些频带，例如用于频率范围FR2。在一些这样的示例中，曲线1204可以具有图10的曲线1004的特征。

图13示出了对应于另一种噪声补偿方法的曲线图示例。如在前面的示例中，曲线图1300的纵轴表示水平，横轴表示频率，在这种情况下，这些频率是典型人类可听到的范围内的频率。在曲线图1300中，曲线1301对应于检测到的背景噪声的频谱。在这个示例中，曲线1302对应于“正常”或“常规”噪声补偿方法。曲线1302可以例如对应于在日常使用期间(例如，在一个人的家中)适用于电影内容类型或电视节目内容类型的噪声补偿方法。

由曲线1303表示的噪声补偿方法在这里可以被称为“演示噪声补偿方法”，因为这种噪声补偿方法适合于音频设备和/或音频系统的能力的演示期间，例如在潜在购买者正在评估音频设备和/或系统的时间期间。演示噪声补偿方法被设计成过分突出经噪声补偿的量，以确保即使非音响发烧友听众也能听到噪声补偿的效果。然而，这种噪声补偿方法也可能适用于其他情况。与日常使用的“正常”或“常规”噪声补偿方法相比，一些听众可能更喜欢演示噪声补偿方法。

一些公开的实现可能涉及这里将被称为“编码器”的操作。尽管编码器可以由单个块来示出，但是编码器可以经由一个或多个设备来实现。在一些实现中，编码器可以由基于云的服务的一个或多个设备来实现，诸如数据中心的一个或多个服务器、数据存储设备等。在一些示例中，编码器可以被配置成响应于噪声度量来确定要执行的补偿过程。一些这样的实现可能涉及编码器和下游“解码器”之间的交互，例如其中解码器向编码器提供环境噪声度量。其中编码器执行至少一些所公开的方法(例如，确定补偿过程，或者确定多个可选择的补偿过程)的实现可能是潜在有利的，因为编码器通常将具有比解码器大得多的处理能力。

图14示出了根据一个实现的编码器和解码器块的示例。在该示例中，编码器1401被示为向解码器1403传输编码音频比特流1402。在一些这样的示例中，编码器1401可以被配置用于将编码音频比特流传输到多个解码器。

根据一些实施方式，编码器1401和解码器1403可以由控制系统210的单独实例来实施，而在其他示例中，编码器1401和解码器1403可以被认为是控制系统210的单个实例的一部分，例如单个系统的组件。尽管编码器1401和解码器1403在图14中被示为单个块，但是在一些实现中，编码器1401和/或解码器1403可以包括多于一个的组件，例如被配置为执行各种任务的模块和/或子模块。

在一些实现方式中，解码器1403可以经由音频环境(例如家庭音频环境)的一个或多个设备来实现。上面描述了解码器1403可以执行的一些任务。在一些这样的示例中，解码器1403可以经由音频环境的电视、经由音频环境的电视控制模块、在“整个家庭”音频系统的多个扬声器中等等来实现。然而，在一些示例中，解码器1403的功能中的至少一些可以经由音频环境的一个或多个其他设备来实现，诸如通过助听器、个人声音放大产品、人工耳蜗、耳机、膝上型电脑、移动设备、智能扬声器、被配置为与解码器1403通信(例如，经由互联网)的智能家庭集线器、以及音频环境的电视等。

在一些实现中，编码器1401可以经由基于云的服务的一个或多个设备来实现，诸如数据中心的一个或多个服务器、数据存储设备等。在图14所示的示例中，编码器1401已经接收或获得了音频比特流，已经对接收的音频比特流进行了编码，并且处于将编码音频比特流1402传输到解码器1403的过程中。在一些这样的示例中，编码音频比特流1402可以是包括例如对应于电视节目、电影、音乐表演等的编码视频数据的编码内容流的一部分。编码音频比特流1402可以对应于编码视频数据。例如，编码音频比特流1402可以包括对应于编码视频数据的语音(例如，对话)。在一些实现中，编码音频比特流1402可以包括对应于编码视频数据的音乐和音频效果(M&E)。

图15示出了根据另一实现的编码器和解码器块的示例。在该示例中，编码器1401被示为向解码器1403传输编码音频比特流1402和一种或多种类型的元数据1504。

在一些这样的示例中，编码器1401可以被配置用于提供内容元数据，该内容元数据指示对应于编码音频比特流1402的至少一部分的内容类型。举例来说，元数据1504可包含内容元数据，其指示编码音频位流1402的至少一部分是否对应于音乐类型。替代地或附加地，元数据1504可以包括内容元数据，该内容元数据指示编码音频比特流1402的至少一部分是否对应于电影或电视节目的音频。在一些实现中，内容元数据可以指示编码音频比特流1402中的电影或电视节目的音频的至少一部分是否是音乐主导部分和/或音乐插曲，其中音乐不仅仅是背景音乐，而是旨在被清楚地听到。在一些这样的示例中，内容元数据可以指示例如内容的一部分是X％电影内容和Y％音乐内容。

根据一些这样的实现，解码器1403(或被配置用于实现解码器1403的控制系统)可以被配置用于至少部分地基于元数据1504的内容元数据来确定编码音频比特流1402的至少一部分的内容类型。例如，在图3的框310中确定内容类型的过程可以至少部分基于内容元数据。在一些这样的实现中，解码器1403(或者被配置为实现解码器1403的控制系统)可以被配置为确定至少部分基于内容类型的噪声补偿方法，例如，如上文参考图3的框315所描述的。如果内容元数据指示例如内容的一部分是X％电影内容和Y％音乐内容，则在一些示例中，解码器1403(或被配置为实现解码器1403的控制系统)可以被配置为实现混合噪声补偿方法，该方法应用要根据电影噪声补偿方法应用的X％的增益和要根据音乐噪声补偿方法应用的Y％的增益。在一些这样的示例中，解码器1403(或者被配置用于实现解码器1403的控制系统)可以被配置用于执行方法300的剩余块。

根据一些示例，元数据1504可以指示哪种噪声补偿模式被允许用于例如音频比特流1402的一些或全部。替代地或附加地，元数据1504可以指示可以对音频比特流1402执行的后处理的量。替代地或附加地，元数据1504可以指示音频比特流1402的后续均衡过程中的最大增益量。

替代地或附加地，元数据1504可以包括音色保留指示符，其指示音频比特流1402的音色应该被保留的程度。在一些这样的示例中，解码器1403的噪声补偿系统可被配置为在音色保留指示符为高值(例如，大于或等于阈值)时在“音乐”模式下操作，且可被配置为在音色保留指示符为低值(例如，低于阈值)时在“电影”模式下操作。

根据一些示例，元数据1504可以包括对应于音频数据的至少一部分的动态范围和/或已经应用于音频数据的至少一部分的压缩量的元数据。在一些这样的示例中，元数据可以是Dolby Digital、Dolby Digital Plus或AC-4的对话归一元数据。在一些情况下，元数据可以是高效高级音频编码音频编码格式的参考级别元数据。在一些示例中，元数据可以包括根据MPEG-D第4部分:Dynamic Range Control(动态范围控制)(ISO/IEC 23003-4:2015)的动态范围控制元数据和/或响度元数据。在一些这样的实现中，解码器1403(或者被配置为实现解码器1403的控制系统)可以被配置为确定如下噪声补偿方法，该方法至少部分地基于与动态范围、响度和/或已被应用的压缩量相对应的元数据。根据一些这样的示例，对于已被应用了至少阈值量的压缩的音频，在一些示例中，可以应用“音乐”噪声补偿方法，而对于已被应用了小于阈值量的压缩的音频，在一些示例中，可以应用“电影”或“电视节目”噪声补偿方法。

替代地或附加地，解码器1403(或被配置用于实现解码器1403的控制系统)可以被配置用于至少部分地基于与已被应用的压缩量相对应的元数据来控制噪声估计过程。在一些这样的示例中，对于已被应用了至少阈值量的压缩的音频，在一些示例中，可以应用相对较低的频带计数噪声估计器。根据一些这样的示例，对于已被应用了小于阈值量的压缩的音频，在一些示例中，可以使用默认的多频带噪声估计器。

在一些实现中，编码器1401可以被配置成对于一种或多种内容类型确定噪声补偿过程。在一些示例中，编码器1401可以被配置为针对多种内容类型中的每一种确定噪声补偿过程。多种内容类型可以例如包括至少一种音乐内容类型、电影内容类型和/或电视节目内容类型。根据一些这样的示例，编码器1401可以被配置用于确定对应于多个噪声补偿过程中的每一个的噪声补偿元数据，并且用于向解码器1403提供对应于当前正被提供给解码器1403的某类内容的噪声补偿元数据。

在一些实现中，编码器1401可以被配置为对于一种或多种类型的周围噪声简档确定噪声补偿过程。在一些示例中，每个周围噪声简档可以对应于周围噪声的类别，例如交通噪声、火车噪声、雨水等。在一些这样的示例中，编码器1401可以被配置为对于每一类周围噪声确定多个噪声补偿过程。多个噪声补偿过程中的每个噪声补偿过程可以例如对应于不同的周围噪声水平。例如，一个噪声补偿过程可以对应于低周围噪声水平，另一个噪声补偿过程可以对应于中等周围噪声水平，而另一个噪声补偿过程可以对应于高周围噪声水平。

根据一些这样的示例，编码器1401可以被配置为确定对应于噪声补偿过程的噪声补偿元数据，并且用于向解码器1403提供噪声补偿元数据。在一些这样的实现中，编码器1401可以被配置为确定对应于多个噪声补偿过程中的每个噪声补偿过程的噪声补偿元数据。在一些这样的示例中，解码器1403(或另一个下游设备)可以被配置为确定音频环境中的周围噪声的类别和/或水平，并且根据从编码器1401接收的噪声补偿元数据来选择对应的噪声补偿处理。替代地或附加地，解码器1403可以被配置为确定音频环境位置并根据从编码器1401接收的噪声补偿元数据选择对应的噪声补偿过程。

图16示出了根据另一实现的编码器和解码器块的示例。在该示例中，编码器1401被示为向解码器1403传输编码音频比特流1402和一种或多种类型的元数据1504。根据该示例，编码器1401从解码器1403接收噪声度量1602。在该示例中，噪声度量1602指示解码器1403所在的音频环境中的环境噪声水平。在一些实现中，噪声度量1602可以指示音频环境中的环境噪声的类型，例如环境噪声是否对应于音频环境中的对话。噪声度量1602可能已经由解码器1403、由被配置用于实现解码器1403的控制系统(例如，由实现诸如图6的分类器602的分类器的控制系统)、或者由与解码器1403在相同音频环境中的另一设备确定。在一些示例中，编码器1401可被配置成确定噪声度量，例如根据由解码器1403、由被配置成实现解码器1403的控制系统、或由与解码器1403在相同音频环境中的另一设备提供的环境噪声信息(例如，原始或经处理的麦克风信号)来确定噪声度量。

在该示例中，编码器1401被配置为确定响应于噪声度量1602要执行的噪声补偿过程，例如本文别处所公开的。噪声补偿过程可以例如对应于经由音频比特流1402提供的内容的类型。根据该示例，元数据1504包括对应于噪声补偿过程的补偿元数据。在该实现中，解码器1403、实现解码器1403的控制系统、或解码器1403所在的音频环境中的另一设备被配置用于确定与补偿元数据相对应的噪声补偿过程，并用于将噪声补偿过程应用于解码音频比特流1402。

图17示出了音频环境的建筑平面图的示例，在这个示例中该音频环境是生活空间。如同这里提供的其他附图一样，图17中所示的元件的类型和数量仅仅是作为示例提供的。其他实现可以包括更多、更少和/或不同类型和数量的元件。

根据该示例，环境1700包括位于左上方的起居室1710、位于中下方的厨房1715、以及位于右下方的卧室1722。分布在生活空间中的方框和圆圈代表一组扬声器1705a-1705h，在一些实施方式中，其中至少一些可以是智能扬声器，放置在空间方便的位置，但是不遵循任何标准的规定布局(任意放置)。在一些示例中，电视1730可以被配置成至少部分地实现一个或多个公开的实施例。在这个示例中，环境1700包括相机1711a-1711e，它们分布在整个环境中。在一些实施方式中，环境1700中的一个或多个智能音频设备还可以包括一个或多个相机。一个或多个智能音频设备可以是单用途音频设备或虚拟助理。在一些这样的示例中，可选传感器系统130的一个或多个相机可以位于电视1730之中或之上、移动电话中或智能扬声器中，例如扬声器1705b、1705d、1705e或1705h中的一个或多个。尽管没有在本公开中呈现的环境1700的每个描绘中都示出相机1711a-1711e，但是在一些实施方式中，每个环境1700可以包括一个或多个相机。

图18-23示出了噪声补偿模块被配置为使噪声补偿过程至少部分基于来自一个或多个先前或“上游”音频过程的数据的示例。在一些情况下，一个或多个上游音频处理可以在编码器中发生。然而，在一些示例中，一个或多个上游音频处理可能先前已经发生在解码器侧，例如，在解码之后但在噪声补偿模块进行音频处理之前。因此，图18-23示出了另外的实例，其中噪声补偿模块可被配置为至少部分基于除输入内容类型以外的因素来确定噪声补偿过程。图18-23的框可以例如由控制系统实现，例如由图2的控制系统210实现。

图18示出了如下示例，其中噪声补偿模块被配置为使噪声补偿过程至少部分地基于来自上游线性处理模块的数据。在一些示例中，处理模块1802和噪声补偿模块1805可以由控制系统210的实例来实现。

根据该示例，音频数据1801被输入到处理模块1802。在一些示例中，音频数据1804已经由处理模块1802处理。在一些示例中，处理模块1802可以被配置成执行一种线性或非线性处理，如果由噪声补偿模块1805实现的噪声补偿方法不受约束，则该处理将削弱甚至破坏由处理模块1802引起的音频增强。

在该示例中，处理模块1802还向噪声补偿模块1805提供处理数据1803。在一些示例中，处理数据1803可以指示音频数据1804是否被处理模块1802处理过。根据一些示例，处理数据1803可以指示由处理模块1802应用的处理程度，例如均衡过程的程度或范围。

在该示例中，噪声补偿模块1805被配置成至少部分基于处理数据1803来选择和/或修改噪声补偿方法。在一些示例中，噪声补偿模块1805可以被配置成如果处理数据1803指示音频数据1804已被处理模块1802处理过，则选择音色保留噪声补偿模式，诸如这里描述的“音乐”噪声补偿模式。根据一些示例，噪声补偿模块1805可以被配置成如果处理数据1803指示音频数据1804没有被处理模块1802处理，则选择无约束噪声补偿模式，诸如这里描述的“电影”噪声补偿模式。在该示例中，噪声补偿模块1805被配置成输出经噪声补偿的音频数据1806。

图19示出了如下示例，其中噪声补偿模块被配置为使噪声补偿过程至少部分基于上游对话增强过程是否已发生。在一些示例中，对话增强模块1902和噪声补偿模块1905可以由控制系统210的实例来实现，该实例在解码器侧实现，例如作为解码器1403的一部分或者在上文参考图14-16描述的解码器1403的操作之后。在一些示例中，对话增强模块1902可以由控制系统210的实例来实现，该实例在编码器侧实现，例如作为编码器1401的一部分。

根据该示例，音频数据1901被输入到对话增强模块1902。在一些示例中，音频数据1903已经由对话增强模块1902处理。在该示例中，对话增强模块1902还向噪声补偿模块1905提供处理数据1904。在一些示例中，处理数据1904可以指示音频数据1903是否被对话增强模块1902处理过。根据一些示例，处理数据1904可以指示处理的程度，例如，由对话增强模块1902应用的对话增强过程的程度或范围。

在该示例中，噪声补偿模块1905被配置成至少部分基于处理数据1904来选择和/或修改噪声补偿方法。在一些示例中，噪声补偿模块1905可以被配置成如果处理数据1904指示音频数据1903被对话增强模块1902处理过，则选择音色保留或“音乐”噪声补偿模式。在一些实现中，噪声补偿模块1905可以被配置成如果处理数据1904指示至少阈值量的对话增强是由对话增强模块1902引起的，则选择音色保留或“音乐”噪声补偿模式。在一些示例中，噪声补偿模块1905可以被配置为仅作用于音频1903的子集(例如，对话流)，以确保如果对话增强模块1902开启，则音频子集更清晰。根据一些示例，噪声补偿模块1905可以被配置成如果处理数据1904指示音频数据1903没有被对话增强模块1902处理过，则选择无约束或“电影”噪声补偿模式。在该示例中，噪声补偿模块1905被配置成输出经噪声补偿的音频数据1906。

图20示出了如下示例，其中噪声补偿模块被配置成使噪声补偿过程至少部分地基于上游虚拟化过程是否已经发生。根据一些示例，虚拟化模块2002可以被配置成提供高度虚拟化，例如，处理音频数据2001，使得当由不包括天花板扬声器的音频系统的扬声器回放时，再现音频中的一些好像是从天花板扬声器发出的。替代地或附加地，在一些示例中，虚拟化模块2002可以被配置成提供其他类型的扬声器虚拟化，例如，处理音频数据2001，使得当由音频系统的物理扬声器回放时，再现音频中的一些好像是从不是实际物理扬声器的附加虚拟扬声器发出的。

在一些示例中，虚拟化模块2002和噪声补偿模块2005可以由控制系统210的实例来实现，该实例在解码器侧实现，例如作为解码器1403的一部分或者在上文参考图14-16描述的解码器1403的操作之后。在一些示例中，虚拟化模块2002可以由控制系统210的实例来实现，该实例在编码器侧实现，例如作为编码器1401的一部分。

根据该示例，音频数据2001被输入到虚拟化模块2002。在一些示例中，音频数据2003已经由虚拟化模块2002处理。在该示例中，虚拟化模块2002还向噪声补偿模块2005提供处理数据2004。在一些示例中，处理数据2004可以指示音频数据2003是否被虚拟化模块2002处理过。根据一些示例，处理数据2004可以指示处理的程度，例如由虚拟化模块2002应用的虚拟化过程的程度或范围。

在该示例中，噪声补偿模块2005被配置成至少部分基于处理数据2004来选择和/或修改噪声补偿方法。在一些示例中，噪声补偿模块2005可以被配置成如果处理数据2004指示音频数据2003已由虚拟化模块2002处理，则选择音色保留或“音乐”噪声补偿模式。在一些实施方式中，噪声补偿模块2005可以被配置为如果处理数据2004指示虚拟化模块2002导致了至少阈值量的虚拟化，则选择音色保留或“音乐”噪声补偿模式。根据一些示例，噪声补偿模块2005可以被配置为如果处理数据2004指示音频数据2003没有被虚拟化模块2002处理，则选择无约束或“电影”噪声补偿模式。在该示例中，噪声补偿模块2005被配置成输出经噪声补偿的音频数据2006。

图21示出了如下示例，其中噪声补偿模块被配置为使噪声补偿过程至少部分基于上游下混合或上混合过程是否已发生。在一些示例中，下混合或上混合模块2102和噪声补偿模块2105可以由控制系统210的实例来实现。

根据该示例，音频数据2101被输入到下混合或上混合模块2102。在这个示例中，音频数据2103已经被下混合或上混合模块2102处理。在该示例中，下混合或上混合模块2102还向噪声补偿模块2105提供处理数据2104。在一些示例中，处理数据2104可以指示音频数据2103是被向下混合还是向上混合。根据一些示例，处理数据2104可以指示处理的程度，例如，由下混合或上混合模块2102应用的下混合或上混合处理的程度或范围。主动混合器(例如，通过检查内容来进行上混合或下混合的混合器)可以例如确定音频信号的相关部分如何，以便决定在哪里放置音频信号的分量。对于静态下混合或上混合，所使用的确切系数和/或所执行的处理类型也可适用于噪声补偿过程。

在该示例中，噪声补偿模块2105可被配置成至少部分基于处理数据2104来选择和/或修改噪声补偿方法。在一些示例中，噪声补偿模块2105可以被配置为如果处理数据2104指示音频数据2103被下混合或上混合模块2102上混合，则选择音色保留或“音乐”噪声补偿模式。根据一些实例，噪声补偿模块2105可被配置为如果处理数据2104指示音频数据2103被下混合或上混合模块2102下混合，则选择音色保留或“音乐”噪声补偿模式。

在一些示例中，下混合或上混合模块2102可以被配置成将音频数据(例如，包括音频对象和相关联的空间元数据的音频数据)渲染为扬声器馈送信号。根据一些这样的示例，对象呈现过程可以至少部分地基于音频对象的数量以及它们被渲染的位置，包括调整噪声补偿的类型。例如，如果混音的平衡主要在环绕扬声器中(这由对象的位置或由确定前/后平衡的元数据确定),则对象渲染涉及虚拟化，该音频数据可能被大程度地虚拟化。在一些这样的实现中，噪声补偿模块2205可被配置为基于相关联的处理数据2104来选择音色保留或“音乐”噪声补偿模式。对于混音的平衡主要在前置扬声器(或者输出扬声器所在的位置)的情况，虚拟化可能相对较少。在一些这样的实现中，噪声补偿模块2205可被配置为基于相关联的处理数据2104来选择非音色保留或“电影”噪声补偿模式。在该示例中，噪声补偿模块2105被配置成输出经噪声补偿的音频数据2106。

图22示出了如下示例，其中噪声补偿模块被配置为使噪声补偿过程至少部分基于上游动态范围压缩过程是否已发生。在一些示例中，动态范围压缩模块2202和噪声补偿模块2205可以由控制系统210的实例来实现。

根据该示例，音频数据2201被输入到动态范围压缩模块2202。在这个示例中，音频数据2204已经被动态范围压缩模块2202处理。在该示例中，动态范围压缩模块2202还向噪声补偿模块2205提供处理数据2203。在一些示例中，处理数据2203可以指示音频数据2204是否已被动态范围压缩模块2202处理过。根据一些示例，处理数据2203可以指示处理的程度，例如，由动态范围压缩模块2202应用的动态范围压缩的程度或范围。在一些这样的示例中，处理数据2203可以指示由动态范围压缩模块2202应用的最大、最小或平均压缩。在一些这样的示例中，处理数据2203可以指示由动态范围压缩模块2202应用的加权平均压缩。替代地或附加地，动态范围压缩模块2202可以向噪声补偿系统提供总体水平(例如，以与参考对话归一元数据在本文别处描述的方式相同的方式测量)。

在该示例中，噪声补偿模块2205被配置成至少部分基于处理数据2203来选择和/或修改噪声补偿方法。在一些实例中，噪声补偿模块2205可被配置为在处理数据2203指示动态范围压缩模块2202应用了至少阈值水平的压缩的情况下选择音色保留或“音乐”噪声补偿模式。根据一些实例，噪声补偿模块2205可被配置为在处理数据2203指示动态范围压缩模块2202应用小于阈值水平的压缩的情况下选择音色保留或“电影”噪声补偿模式。在该示例中，噪声补偿模块2205被配置成输出经噪声补偿的音频数据2206。

图23示出了另一示例，其中噪声补偿模块被配置为使噪声补偿过程至少部分基于上游动态范围压缩过程是否已发生。根据一些实施方式，上文参考图22描述的一些概念可以通过利用编码器内的水平估计器来进一步扩展。在Dolby Digital Plus的情况下，水平估计器的输出由“对话归一”元数据值指示。在某些情况下，对话归一元数据可以由其他机制来设置，诸如由指示音频数据是否应该被完全压缩的固定值来设置。

图23示出了包含对话归一的系统的示例。在一些示例中，动态范围压缩模块2302和噪声补偿模块2305可以由解码器侧的控制系统210的实例来实现，例如由上文参考图14-16描述的解码器1403的实例来实现。在一些示例中，编码器2310可以是上文参考图14-16描述的编码器1401的实例。

在图23中，未编码的音频2301被提供给编码器2310。在该示例中，编码器2310被配置成实现内容(在该示例中包括音频2301)的水平测量，并输出对话归一元数据值2314。在一些这样的示例中，对话归一元数据值2314允许不同类型的内容被下游音频处理设备适当地平整(level)。在美国，商业广告响度缓解(CALM)法案要求广播系统采用这种水平控制过程。

在未被配置为遵从CALM法案的系统中，在一些情况下，对话归一元数据值2314可以被设置为固定值。如果对话归一元数据值2314被设置为固定值，则噪声补偿系统在某些情况下可以退回到音色保留或“音乐”噪声补偿模式，这是因为固定对话归一元数据值通常被设置为实现最大压缩量。如果对话归一元数据值2314被设置为导致最小压缩的固定值，则在一些示例中，噪声补偿系统可以实现无约束或“电影”噪声补偿模式。

在图23中，将被平整的音频2313被提供给动态范围压缩模块2302，在一些示例中，动态范围压缩模块2302可以通过解码器1403的实例来实现。在该示例中，对话归一元数据值2314也被提供给动态范围压缩模块2302。

在这个示例中，音频数据2304已经被动态范围压缩模块2302处理。在该示例中，动态范围压缩模块2302还向噪声补偿模块2305提供处理数据2303。在一些示例中，处理数据2303可以指示音频数据2304是否被动态范围压缩模块2302处理过。根据一些示例，处理数据2303可以指示处理的程度，例如，由动态范围压缩模块2302应用的动态范围压缩的程度或范围。在一些这样的示例中，处理数据2303可以指示由动态范围压缩模块2302应用的最大、最小或平均压缩。在一些这样的示例中，处理数据2303可以指示由动态范围压缩模块2302应用的加权平均压缩。在一些这样的示例中，处理数据2303可以指示输出目标压缩水平。

在该示例中，噪声补偿模块2305被配置成至少部分基于处理数据2303来选择和/或修改噪声补偿方法。在一些实例中，噪声补偿模块2305可被配置为在处理数据2303指示动态范围压缩模块2302应用了任何压缩的情况下选择音色保留或“音乐”噪声补偿模式。在一些实例中，噪声补偿模块2305可被配置为在处理数据2303指示动态范围压缩模块2302应用了至少阈值水平的压缩的情况下选择音色保留或“音乐”噪声补偿模式。根据一些示例，噪声补偿模块2305可以被配置为在处理数据2303指示动态范围压缩模块2302应用了小于阈值水平的压缩的情况下选择无约束或“电影”噪声补偿模式。在该示例中，噪声补偿模块2305被配置为向扬声器104输出经噪声补偿的音频数据2306。

在一些示例中，如图23所示，可以将对话归一元数据值2314提供给噪声补偿模块2305。如果对话归一元数据值2314指示内容是高水平的(换句话说，内容在当前水平和可应用的水平限制之间具有少量的“余量(headroom)”)，则在一些示例中，噪声补偿模块2305可被配置成实现音色保留或“音乐”噪声补偿模式。如果对话归一元数据值2314指示内容是低水平的(换句话说，内容具有大量的余量)，则在一些示例中，噪声补偿模块2305可以被配置成实现无约束或“电影”噪声补偿模式。如果对话归一元数据值2314指示内容处于中间水平(换句话说，内容具有中间量的余量)，则在一些示例中，噪声补偿模块2305可以被配置成实现混合噪声补偿模式，诸如部分音色保留噪声补偿模式。在一些示例中，对话归一元数据值2314可以被设置为固定值，其可以指示内容已经由特定工具(例如，DVD编码工具)创作。在一些这样的示例中，噪声补偿模块2305可以被配置成实现对应于固定值的噪声补偿模式。

本公开的一些方面包括被配置(例如，编程)为执行所公开的方法的一个或多个示例的系统或设备，以及存储用于实现所公开的方法或其步骤的一个或多个示例的代码的有形计算机可读介质(例如，盘)。例如，一些公开的系统可以是或包括可编程通用处理器、数字信号处理器或微处理器，用软件或固件编程和/或以其他方式配置成对数据执行各种操作中的任何操作，包括公开的方法或其步骤的实施例。这种通用处理器可以是或包括计算机系统，该计算机系统包括输入设备、存储器和处理子系统，该处理子系统被编程(和/或以其他方式被配置)为响应于向其断言的数据来执行所公开的方法(或其步骤)的一个或多个示例。

一些实施例可以被实现为可配置的(例如，可编程的)数字信号处理器(DSP)，其被配置(例如，被编程或以其他方式配置)为对音频信号执行所需的处理，包括所公开的方法的一个或多个示例的执行。替代地，所公开的系统(或其元件)的实施例可以被实现为通用处理器(例如，个人计算机(PC)或其他计算机系统或微处理器，其可以包括输入设备和存储器)，其用软件或固件编程和/或以其他方式被配置为执行包括所公开的方法的一个或多个示例的各种操作中的任何操作。或者，本发明系统的一些实施例的元件被实现为通用处理器或DSP，其被配置(例如，编程)为执行所公开方法的一个或多个示例，并且该系统还包括其他元件(例如，一个或多个扬声器和/或一个或多个麦克风)。被配置成执行所公开的方法的一个或多个示例的通用处理器可以耦合到输入设备(例如，鼠标和/或键盘)、存储器和显示设备。

本公开的另一方面是计算机可读介质(例如，盘或其他有形存储介质)，其存储用于执行(例如，可执行以实施)所公开的方法或其步骤的一个或多个示例的代码。

虽然文中已经描述了本公开的具体实施例和本公开的应用，但是对于本领域普通技术人员来说显而易见的是，在不脱离文中描述和要求保护的本公开的范围的情况下，文中描述的实施例和应用的许多变化是可能的。应当理解，虽然已经示出和描述了本公开的某些形式，但是本公开不限于所描述和示出的特定实施例或者所描述的特定方法。

Claims

1.一种内容流处理方法，包括:

由控制系统并经由接口系统接收包括音频数据的内容流；

由控制系统确定对应于内容流的内容类型；

由控制系统并至少部分基于内容类型来确定噪声补偿方法；

由控制系统确定将在其中再现内容流的音频环境的噪声估计；

由控制系统并且至少部分地基于噪声估计，对音频数据执行所述噪声补偿方法，以产生经噪声补偿的音频数据；

由控制系统渲染所述经噪声补偿的音频数据以便经由音频环境的一组音频再现换能器进行再现，以产生渲染音频信号；和

经由接口系统将所述渲染音频信号提供给音频环境的该组音频再现换能器中的至少一些音频再现换能器。

2.根据权利要求1所述的方法，其中确定噪声补偿方法包括从多个噪声补偿方法中选择噪声补偿方法，每个噪声补偿方法对应于多种内容类型中的一种或多种内容类型。

3.根据权利要求2所述的方法，其中所述多种内容类型包括至少一种音乐内容类型。

4.根据权利要求3所述的方法，其中对应于所述至少一种音乐内容类型的噪声补偿方法包括对应于低频率范围的第一方法和对应于高频率范围的第二方法。

5.根据权利要求4所述的方法，其中所述第一方法包括允许应用于低频率范围内第一频带的第一增益独立于应用于低频率范围内第二频带的第二增益。

6.根据权利要求4或5所述的方法，其中，所述第二方法包括将应用于高频率范围的频带中的所有增益约束为相等。

7.根据权利要求4或5所述的方法，其中所述第二方法包括将第一增益和第二增益之间的差约束为小于或等于阈值量，其中所述第一增益应用于所述高频率范围的第一频带中，并且所述第二增益应用于所述高频率范围的第二频带中，所述第一频带与所述第二频带相邻。

8.根据权利要求2所述的方法，其中所述多种内容类型包括电影内容类型或电视节目内容类型中的至少一种。

9.根据权利要求1-8中任一项所述的方法，其中确定内容类型至少部分基于确定内容流的内容提供商。

10.根据权利要求1-9中任一项所述的方法，其中确定内容类型至少部分基于关于内容流的用户输入。

11.根据权利要求10所述的方法，其中所述用户输入是经由对虚拟助理的语音命令被接收的。

12.根据权利要求1-11中任一项所述的方法，其中所述内容流包括内容元数据，并且其中确定所述内容类型至少部分基于所述内容元数据。

13.根据权利要求1-12中任一项所述的方法，其中所述控制系统被配置为实现音频分类器，并且其中确定所述内容类型至少部分基于由所述音频分类器产生的音频分类。

14.根据权利要求1-13中任一项所述的方法，其中，确定噪声估计包括从噪声估计模块接收噪声估计或基于音频环境中的一个或多个麦克风的麦克风信号计算噪声估计中的至少一者。

15.根据权利要求1-14中任一项所述的方法，其中确定噪声补偿方法至少部分基于一天中的时间。

16.根据权利要求15所述的方法，其中夜间噪声补偿方法包括控制再现的音频数据的至少一些频带的回放水平低于对应于白天噪声补偿方法的再现的音频数据的对应频带的回放水平。

17.根据权利要求16所述的方法，其中，所述至少一些频带对应于低音频带。

18.根据权利要求1-17中任一项所述的方法，其中确定噪声补偿方法至少部分基于所述音频环境中的环境噪声的类型。

19.根据权利要求18所述的方法，其中环境噪声的类型对应于对话，并且其中噪声补偿方法包括控制再现的音频数据的回放水平低于环境噪声水平。

20.根据权利要求1-19中任一项所述的方法，其中，噪声估计指示多个频带中的每个频带的估计噪声水平。

21.根据权利要求1-20中任一项所述的方法，其中确定内容类型至少部分基于确定实现内容流解码的应用。

22.根据权利要求1-21中任一项所述的方法，其中至少一种噪声补偿方法包括演示版本和常规版本，并且其中所述演示版本涉及在一个或多个频带中应用比常规版本更高的增益。

23.根据权利要求1-22中任一项所述的方法，还包括接收元数据与该内容流，其中确定噪声补偿方法至少部分基于所述元数据。

24.根据权利要求23所述的方法，其中所述元数据对应于音频数据的动态范围或参考水平。

25.根据权利要求23或24所述的方法，其中，所述元数据是Dolby Digital、DolbyDigital Plus或AC-4音频技术的对话归一元数据，或高效高级音频编码音频编码格式的参考级别元数据。

26.根据权利要求1-25中任一项所述的方法，其中确定噪声补偿方法至少部分基于所述音频环境的至少一个音频再现换能器的动态范围。

27.一种被配置用于实施根据权利要求1-26中任一项所述的方法的装置。

28.一种被配置用于实施根据权利要求1-26中任一项所述的方法的系统。

29.一个或多个非暂时性介质，其上存储有软件，该软件包括用于控制一个或多个设备以执行根据权利要求1-26中任一项所述的方法的指令。