CN114830233A

CN114830233A - 基于噪声指标和语音可懂度指标来调整音频和非音频特征

Info

Publication number: CN114830233A
Application number: CN202080085359.7A
Authority: CN
Inventors: T·A·波特; D·S·坦普尔顿; J·G·海斯; D·M·库珀
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2019-12-09
Filing date: 2020-12-09
Publication date: 2022-07-29
Also published as: US20230009878A1; WO2021119102A1; KR20220108076A; EP4073793A1; CN114902688B; WO2021119094A1; US20230010466A1; CN114902688A; EP4073792A1

Abstract

一些实施方式涉及确定噪声指标和/或语音可懂度指标以及确定与噪声指标和/或语音可懂度指标相对应的补偿过程。补偿过程可以涉及更改对音频数据的处理和/或应用基于非音频的补偿方法。在一些示例中，更改对音频数据的处理不涉及将宽带增益增加应用于音频信号。一些示例涉及在音频环境中应用补偿过程。其他示例涉及确定与补偿过程相对应的补偿元数据以及将包括经编码补偿元数据、经编码视频数据和经编码音频数据的经编码内容流从第一设备传输到一个或多个其他设备。

Description

基于噪声指标和语音可懂度指标来调整音频和非音频特征

相关申请的交叉引用

本申请要求2019年12月9日提交的美国临时专利申请62/945,299、2020年9月30日提交的美国临时专利申请63/198,158以及2020年9月30日提交的美国临时专利申请63/198,160的优先级，这些美国临时专利申请中的所有通过引用以其全文并入本文。

技术领域

本公开涉及用于调整内容流的音频特征和/或非音频特征的系统和方法。

背景技术

音频和视频设备(包括但不限于电视和相关联的音频设备)被广泛部署。尽管用于控制音频和视频设备的现有系统和方法提供了益处，但改进的系统和方法将仍是期望的。

符号和术语

贯穿本公开，包括在权利要求中，术语“扬声器”、“扩音器”和“音频再现换能器”同义地用于表示由单个扬声器馈送驱动的任何发声换能器(或换能器组)。一套典型的耳机包括两个扬声器。扬声器可以被实施为包括多个换能器(例如，低音扬声器和高音扬声器)，该换能器可以由单个公共扬声器馈送或多个扬声器馈送来驱动。在一些示例中，一个或多个扬声器馈送可以在耦接到不同换能器的不同电路分支中经历不同处理。

贯穿本公开，包括在权利要求中，在广义上使用“对”信号或数据执行操作(例如，对信号或数据进行滤波、缩放、变换或应用增益)的表达来表示直接对信号或数据执行操作或对信号或数据的经处理版本(例如，在对其执行操作之前已经历了初步滤波或预处理的信号的版本)执行操作。

贯穿本公开，包括在权利要求中，在广义上使用表达“系统”来表示设备、系统或子系统。例如，实施解码器的子系统可以被称为解码器系统，并且包括这样的子系统的系统(例如，响应于多个输入而生成X个输出信号的系统，其中，子系统生成输入中的M个输入，而其他X-M个输入是从外部源接收的)也可以被称为解码器系统。

贯穿本公开，包括在权利要求中，在广义上使用术语“处理器”来表示可编程或以其他方式可配置(例如，利用软件或固件)为对数据(例如，音频或视频或其他图像数据)执行操作的系统或设备。处理器的示例包括现场可编程门阵列(或其他可配置集成电路或芯片组)、被编程和/或以其他方式被配置成对音频或其他声音数据执行流水线式处理的数字信号处理器、可编程通用处理器或计算机以及可编程微处理器芯片或芯片组。

贯穿本公开，包括在权利要求中，术语“耦接”或“被耦接”用于意指直接或间接连接。因此，如果第一设备耦接到第二设备，则该连接可以通过直接连接或者通过经由其他设备和连接的间接连接实现。

如本文所使用的，“智能设备”是可以在某种程度上交互地和/或自主地操作的电子设备，其通常被配置用于经由如蓝牙、Zigbee、近场通信、Wi-Fi、光保真(Li-Fi)、3G、4G、5G等各种无线协议与一个或多个其他设备(或网络)进行通信。多种值得注意的智能设备类型是智能电话、智能汽车、智能恒温器、智能门铃、智能锁、智能冰箱、平板手机和平板计算机、智能手表、智能手环、智能钥匙链和智能音频设备。术语“智能设备”还可以指展现出诸如人工智能的普适计算的一些性质的设备。

在本文中，使用表达“智能音频设备”来表示是单一用途音频设备或多用途音频设备(例如，实施虚拟助理功能的至少一些方面的音频设备)的智能设备。单一用途音频设备是包括或耦接到至少一个麦克风(并且任选地还包括或耦接到至少一个扬声器和/或至少一个相机)并且很大程度上或主要被设计为实现单一用途的设备(例如，电视(TV))。例如，虽然TV通常可以播放(并且被认为能够播放)来自节目素材的音频，但在大多数情况下，现代TV运行某种操作系统，应用程序(包括看电视的应用程序)在该操作系统上本地运行。从这个意义上说，具有一个或多个扬声器和一个或多个麦克风的单一用途音频设备通常被配置成运行本地应用程序和/或服务以直接使用该一个或多个扬声器和一个或多个麦克风。一些单一用途音频设备可以被配置成组合在一起以实现在一定区或用户配置的区域上播放音频。

一种常见类型的多用途音频设备是实施虚拟助理功能的至少一些方面的音频设备，尽管虚拟助理功能的其他方面可以由一个或多个其他设备(例如，多用途音频设备被配置用于与其进行通信的一个或多个服务器)来实施。这样的多用途音频设备在本文中可以被称为“虚拟助理”。虚拟助理是包括或耦接到至少一个麦克风(并且任选地还包括或耦接到至少一个扬声器和/或至少一个相机)的设备(例如，智能扬声器或话音助理集成设备)。在一些示例中，虚拟助理可以提供将多个设备(不同于虚拟助理)用于在某种意义上支持云的应用程序或者以其他方式未在虚拟助理本身中或之上完全实施的应用程序的能力。换句话说，虚拟助理功能的至少一些方面(例如，语音辨识功能)可以(至少部分地)由一个或多个服务器或其他设备实施，虚拟助理可以经由网络(如互联网)与该一个或多个服务器或其他设备通信。虚拟助理有时可以一起工作，例如，以离散和有条件地定义的方式。例如，两个或更多个虚拟助理可以就其中之一(例如，最确信已经听到唤醒词的虚拟助理)对唤醒词作出响应的意义而言一起工作。在一些实施方式中，连接的虚拟助理可以形成可以由一个主应用程序管理的一种群集，该主应用程序可以是(或实施)虚拟助理。

在本文中，“唤醒词”在广义上用于表示任何声音(例如，人类说出的词或其他声音)，其中，智能音频设备被配置成响应于检测到(“听到”)声音(使用被包括在智能音频设备中或耦接到智能音频设备的至少一个麦克风、或至少一个其他麦克风)而唤醒。在该上下文中，“唤醒”表示设备进入等待(换句话说，正在收听)声音命令的状态。在一些实例中，本文中可以被称为“唤醒词”的内容可以包括多于一个词，例如，短语。

在本文中，表达“唤醒词检测器”表示被配置成连续搜索实时声音(例如，语音)特征与训练模型之间的对齐的设备(或包括用于将设备配置成连续搜索实时声音特征与训练模型之间的对齐的指令的软件)。通常，每当唤醒词检测器确定已经检测到唤醒词的概率超过预定义阈值，就会触发唤醒词事件。例如，该阈值可以是被调谐以在错误接受率与错误拒绝率之间给出合理折中的预定阈值。在唤醒词事件之后，设备可以进入收听命令并且将接收到的命令传递给更大、计算更密集的识别器的状态(可以被称为“唤醒”状态或“专注”状态)。

如本文所使用的，术语“节目流”和“内容流”是指一个或多个音频信号的集合，并且在一些实例中是指一个或多个视频信号的集合，该音频信号和视频信号的至少部分意在作为整体被一起听到。示例包括音乐选集、电影原声、电影、电视节目、电视节目的音频部分、播客、现场话音通话、来自智能助理的合成话音响应等。在一些实例中，内容流可以包括音频信号的至少一部分的多个版本，例如，多于一种语言的同一对话。在这样的实例中，一次旨在再现音频数据或其部分的仅一个版本(例如，与单一语言相对应的版本)。

发明内容

本公开的至少一些方面可以经由包括但不限于内容流处理方法的一种或多种音频处理方法来实施。在一些实例中，该一种或多种方法可以至少部分地由控制系统并且/或者经由存储在一个或多个非暂态介质上的指令(例如，软件)来实施。一些这样的方法涉及由控制系统并且经由接口系统接收包括视频数据和与视频数据相对应的音频数据的内容流。一些这样的方法涉及由控制系统确定噪声指标和/或语音可懂度指标。一些这样的方法涉及由控制系统响应于噪声指标和/或语音可懂度指标来执行补偿过程。在一些示例中，执行补偿过程涉及以下中的一个或多个：更改对音频数据的处理，其中，更改对音频数据的处理不涉及将宽带增益增加应用于音频信号；或应用基于非音频的补偿方法。在一些示例中，基于非音频的补偿方法可以涉及控制触觉显示系统和/或控制振动表面。

一些这样的方法涉及由控制系统处理视频数据以及由控制系统将经处理的视频数据提供给环境的至少一个显示设备。一些这样的方法涉及由控制系统对用于经由环境的音频再现换能器组再现的音频数据进行渲染，以产生经渲染的音频信号。一些这样的方法涉及经由接口系统将经渲染的音频信号提供给环境的音频再现换能器组中的至少一些音频再现换能器。

在一些示例中，语音可懂度指标可以至少部分地基于以下中的一个或多个：语音传输指数(STI)、常见可懂度量表(CIS)、C50(初始声音之后0ms与50ms之间接收到的声音能量与晚于50ms到达的声音能量的比率)、环境的混响、环境的频率响应、环境的一个或多个音频再现换能器的回放特性或者环境噪声水平。

根据一些实施方式，语音可懂度指标可以至少部分地基于用户的一个或多个用户特性。一个或多个用户特性例如可以包括用户的母语、用户的口音、用户在环境中的位置、用户的年龄和/或用户的能力中的至少一种能力。用户的能力例如可以包括用户的听力能力、用户的语言水平、用户的口音理解水平、用户的视力和/或用户的阅读理解力。

根据一些示例，基于非音频的补偿方法可以涉及控制隐藏字幕系统、唱词字幕系统或对白字幕系统。在一些这样的示例中，控制隐藏字幕系统、唱词字幕系统或对白字幕系统可以至少部分地基于用户的听力能力、用户的语言水平、用户的视力和/或用户的阅读理解力。根据一些示例，控制隐藏字幕系统、唱词字幕系统或对白字幕系统可以涉及至少部分地基于语音可懂度指标来控制字体或字体大小中的至少一个。

在一些实例中，控制隐藏字幕系统、唱词字幕系统或对白字幕系统可以涉及至少部分地基于语音可懂度指标来确定是否要过滤掉一些基于语音的文本。在一些实施方式中，控制隐藏字幕系统、唱词字幕系统或对白字幕系统可以涉及至少部分地基于语音可懂度指标来确定是否要简化或改述至少一些基于语音的文本。

在一些示例中，控制隐藏字幕系统、唱词字幕系统或对白字幕系统可以涉及至少部分地基于噪声指标来确定是否要显示文本。在一些实例中，确定是否要显示文本可以涉及应用第一噪声阈值以确定将显示文本以及应用第二噪声阈值以确定将停止显示文本。

根据一些实施方式，音频数据可以包括音频对象。在一些这样的实施方式中，更改对音频数据的处理可以涉及至少部分地基于噪声指标或语音可懂度指标中的至少一个来确定将渲染哪些音频对象。在一些示例中，更改对音频数据的处理可以涉及改变一个或多个音频对象的渲染位置以在存在噪声的情况下提高可懂度。根据一些实施方式，内容流可以包括音频对象优先级元数据。在一些示例中，更改对音频数据的处理可以涉及基于优先级元数据来选择高优先级音频对象以及渲染高优先级音频对象而不渲染至少一些其他音频对象。

在一些示例中，更改对音频数据的处理可以涉及至少部分地基于噪声指标和/或语音可懂度指标来应用一种或多种语音增强方法。该一种或多种语音增强方法例如可以包括降低非语音音频的增益和/或增加语音频率的增益。

根据一些实施方式，更改对音频数据的处理可以涉及至少部分地基于噪声指标和/或语音可懂度指标来更改上混音过程、下混音过程、虚拟低音过程、低音分布过程、均衡过程、分频滤波器、延迟滤波器、多频限制器或虚拟化过程中的一个或多个。

一些实施方式可以涉及将音频数据从第一设备传输到第二设备。一些这样的实施方式可以涉及将噪声指标、语音可懂度指标或回声参考数据中的至少一个从第一设备传输到第二设备或从第二设备传输到第一设备。在一些实例中，第二设备可以是助听器、个人声音放大产品、人工耳蜗或头戴式耳机。

一些实施方式可以涉及：由第二设备控制系统接收第二设备麦克风信号；由第二设备控制系统接收音频数据以及以下中的至少一个：噪声指标、语音可懂度指标或回声参考数据；由第二设备控制系统确定一个或多个音频数据增益设置和一个或多个第二设备麦克风信号增益设置；由第二设备控制系统将音频数据增益设置应用于音频数据以产生经增益调整的音频数据；由第二设备控制系统将第二设备麦克风信号增益设置应用于第二设备麦克风信号以产生经增益调整的第二设备麦克风信号；由第二设备控制系统将经增益调整的音频数据和经增益调整的第二设备麦克风信号混合以产生经混合的第二设备音频数据；由第二设备控制系统将经混合的第二设备音频数据提供给一个或多个第二设备换能器；以及由一个或多个第二设备换能器再现经混合的第二设备音频数据。一些这样的示例可以涉及由第二设备控制系统至少部分地基于噪声指标来控制经混合的第二设备音频数据中的经增益调整的音频数据和经增益调整的第二设备麦克风信号的相对水平。

一些示例可以涉及由控制系统并且经由接口系统接收麦克风信号。一些这样的示例可以涉及由控制系统至少部分地基于麦克风信号来确定噪声指标。在一些实例中，可以从包括环境的至少一个麦克风和音频再现换能器组中的至少一个音频再现换能器的设备接收麦克风信号。

一些所公开的方法涉及由第一控制系统并且经由第一接口系统接收包括视频数据和与视频数据相对应的音频数据的内容流。一些这样的方法涉及由第一控制系统确定噪声指标和/或语音可懂度指标。一些这样的方法涉及由第一控制系统响应于噪声指标或语音可懂度指标中的至少一个来确定要执行的补偿过程。在一些示例中，执行补偿过程涉及以下中的一个或多个：更改对音频数据的处理，其中，更改对音频数据的处理不涉及将宽带增益增加应用于音频信号；或应用基于非音频的补偿方法。

一些这样的方法涉及由第一控制系统确定与补偿过程相对应的补偿元数据。一些这样的方法涉及通过由第一控制系统对补偿元数据进行编码来产生经编码补偿元数据。一些这样的方法涉及通过由第一控制系统对视频数据进行编码来产生经编码视频数据。一些这样的方法涉及通过由第一控制系统对音频数据进行编码来产生经编码音频数据。一些这样的方法涉及将包括经编码补偿元数据、经编码视频数据和经编码音频数据的经编码内容流从第一设备传输到至少第二设备。

在一些实例中，音频数据可以包括语音数据以及音乐和效果(M&E)数据。一些这样的方法可以涉及由第一控制系统将语音数据与M&E数据区分开、由第一控制系统确定允许从音频数据中提取语音数据的语音元数据、以及通过由第一控制系统对语音元数据进行编码来产生经编码语音元数据。在一些这样的示例中，传输经编码内容流可以涉及将经编码语音元数据传输到至少第二设备。

根据一些实施方式，第二设备可以包括被配置用于对经编码内容流进行解码的第二控制系统。在一些这样的实施方式中，第二设备可以是已向其传输经编码音频数据的多个设备之一。在一些实例中，可以已至少部分地基于针对用户类别的语音可懂度来选择该多个设备。在一些示例中，可以通过已知或估计的听力能力、已知或估计的语言水平、已知或估计的口音理解水平、已知或估计的视敏度和/或已知或估计的阅读理解力来定义用户类别。

在一些实施方式中，补偿元数据可以包括可由第二设备并且/或者由第二设备的用户选择的多个选项。在一些这样的示例中，该多个选项中的两个或更多个选项可以与第二设备所处的环境中可能出现的噪声水平相对应。在一些示例中，该多个选项中的两个或更多个选项可以与语音可懂度指标相对应。在一些这样的示例中，经编码内容流可以包括语音可懂度元数据。一些这样的示例可以涉及由第二控制系统并且至少部分地基于语音可懂度元数据来选择该两个或更多个选项中的一个选项。根据一些实施方式，该多个选项中的每个选项可以对应于第二设备的用户的已知或估计的听力能力、已知或估计的语言水平、已知或估计的口音理解水平、已知或估计的视敏度和/或已知或估计的阅读理解力。在一些示例中，该多个选项中的每个选项可以与语音增强水平相对应。

根据一些示例，第二设备可以与特定回放设备相对应。在一些这样的示例中，特定回放设备可以是特定电视或与电视相关联的特定设备。

一些实施方式可以涉及由第一控制系统并且经由第一接口系统从第二设备接收噪声指标和/或语音可懂度指标。在一些这样的示例中，补偿元数据可以与噪声指标和/或语音可懂度指标相对应。

一些示例可以涉及由第一控制系统并且至少部分地基于噪声指标或语音可懂度指标来确定经编码音频数据将与所有接收到的音频数据相对应还是仅与接收到的音频数据的部分相对应。在一些示例中，音频数据可以包括音频对象以及指示音频对象优先级的相对应的优先级元数据。其中确定经编码音频数据将仅与接收到的音频数据的部分相对应的一些这样的示例还可以涉及至少部分地基于优先级元数据来选择接收到的音频数据的该部分。

在一些实施方式中，基于非音频的补偿方法可以涉及控制隐藏字幕系统、唱词字幕系统或对白字幕系统。在一些这样的示例中，控制隐藏字幕系统、唱词字幕系统或对白字幕系统可以涉及至少部分地基于语音可懂度指标来控制字体和/或字体大小。在一些实施方式中，控制隐藏字幕系统、唱词字幕系统或对白字幕系统可以涉及至少部分地基于语音可懂度指标来确定是否要过滤掉一些基于语音的文本、确定是否要简化至少一些基于语音的文本以及/或者确定是否要改述至少一些基于语音的文本。根据一些实施方式，隐藏字幕系统、唱词字幕系统或对白字幕系统可以涉及至少部分地基于噪声指标来确定是否要显示文本。

一些所公开的方法涉及由第一控制系统并且经由第一设备的第一接口系统接收包括接收到的视频数据和与视频数据相对应的接收到的音频数据的内容流。一些这样的方法涉及由第一控制系统并且经由第一接口系统从第二设备接收噪声指标和/或语音可懂度指标。一些这样的方法涉及由第一控制系统并且至少部分地基于噪声指标和/或语音可懂度指标来确定是否要降低与接收到的音频数据相对应的传输的经编码音频数据和/或与接收到的音频数据相对应的文本的复杂度水平。一些这样的方法涉及基于该确定过程来选择要传输的经编码音频数据和/或文本。一些这样的方法涉及将包括经编码视频数据和传输的经编码音频数据的经编码内容流从第一设备传输到第二设备。

根据一些实施方式，确定是否要降低复杂度水平可以涉及确定传输的经编码音频数据将与所有接收到的音频数据相对应还是仅与接收到的音频数据的部分相对应。在一些实施方式中，音频数据可以包括音频对象以及指示音频对象优先级的相对应的优先级元数据。根据一些这样的实施方式，可以确定经编码音频数据将仅与接收到的音频数据的部分相对应。一些这样的实施方式可以涉及至少部分地基于优先级元数据来选择接收到的音频数据的该部分。在一些示例中，对于隐藏字幕系统、唱词字幕系统或对白字幕系统，确定是否要降低复杂度水平可以涉及确定是否要过滤掉一些基于语音的文本、确定是否要简化至少一些基于语音的文本和/或确定是否要改述至少一些基于语音的文本。

本文所描述的操作、功能和/或方法中的一些或全部可以由一个或多个设备根据存储在一个或多个非暂态介质上的指令(例如，软件)来执行。这样的非暂态介质可以包括如本文所描述的存储器设备，包括但不限于随机存取存储器(RAM)设备、只读存储器(ROM)设备等。相应地，本公开中描述的主题的一些创新方面可以经由其上存储有软件的一个或多个非暂态介质来实施。例如，软件可以包括用于控制一个或多个设备来执行所公开的方法中的一种或多种方法的指令。

本公开的至少一些方面可以经由装置和/或经由包括多个设备的系统来实施。例如，一个或多个设备可以能够至少部分地执行本文所公开的方法。在一些实施方式中，装置是或者包括具有接口系统和控制系统的音频处理系统。控制系统可以包括一个或多个通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑设备、离散门或晶体管逻辑、离散硬件组件或其组合。在一些示例中，控制系统可以被配置用于执行所公开的方法中的一种或多种方法。

在附图和以下说明中阐述了本说明书中所描述的主题的一个或多个实施方式的细节。根据该描述、附图和权利要求其他特征、方面和优点将变得显而易见。注意，以下附图的相对尺寸可能不是按比例来绘制的。

附图说明

图1示出了噪声补偿系统的示例。

图2是示出了能够实施本公开的各个方面的装置的组件的示例的框图。

图3A是概述所公开的方法的一个示例的流程图。

图3B示出了用于测量语音可懂度的语音传输指数(STI)和常见可懂度量表(CIS)指标的示例。

图4示出了其中根据噪声估计来控制隐藏字幕系统的系统的示例。

图5示出了与对隐藏字幕系统的控制有关的曲线图的示例。

图6示出了可懂度指标评估模块的示例。

图7A示出了通过可懂度指标控制的隐藏字幕系统的示例。

图7B示出了通过可懂度指标控制的音频描述渲染器的示例。

图8示出了回声预测器模块的示例。

图9示出了被配置用于确定至少部分地基于回放处理的可懂度指标的系统的示例。

图10示出了被配置用于确定至少部分地基于环境噪声水平的可懂度指标的系统的示例。

图11示出了被配置用于至少部分地基于一种或多种用户能力来修改可懂度指标的系统的示例。

图12示出了字幕生成器的示例。

图13示出了被配置成基于可懂度指标来改变隐藏字幕的字幕修改器模块的示例。

图14示出了可以基于噪声估计器来控制的非音频补偿过程和系统的进一步示例。

图15示出了噪声补偿系统的示例。

图16示出了被配置用于响应于检测到的环境噪声来进行语音增强的系统的示例。

图17示出了与受扩音器特性限制的系统的元素相对应的曲线图的示例。

图18示出了其中助听器被配置用于与电视通信的系统的示例。

图19示出了助听器的混合和语音增强组件的示例。

图20是示出了环境噪声水平的示例的曲线图。

图21示出了根据一个实施方式的编码器块和解码器块的示例。

图22示出了根据另一实施方式的编码器块和解码器块的示例。

图23示出了可以响应于接收到图21中示出的经编码音频比特流而被执行的解码器侧操作的一些示例。

图24示出了可以响应于接收到图22中示出的经编码音频比特流而被执行的解码器侧操作的一些示例。

图25示出了根据另一实施方式的编码器块和解码器块的示例。

图26示出了根据另一实施方式的编码器块和解码器块的示例。

图27示出了可以响应于接收到图21中示出的经编码音频比特流而被执行的解码器侧操作的一些可替代示例。

图28示出了图24和图27中示出的系统的增强版本。

图29示出了根据另一实施方式的编码器块和解码器块的示例。

图30示出了根据另一实施方式的编码器块和解码器块的示例。

图31示出了各种公开的用例之间的关系。

图32是概述所公开的方法的一个示例的流程图。

图33是概述所公开的方法的一个示例的流程图。

图34示出了音频环境的平面图的示例，在该示例中，音频环境是生活空间。

各个附图中相似的附图标记和名称指示相似的元素。

具体实施方式

话音助理正变得越来越普遍。为了启用话音助理，电视(TV)和条形音箱制造商开始向他们的设备添加麦克风。所添加的麦克风可能提供关于背景噪声的输入，该输入可能被输入到噪声补偿算法。然而，在电视上下文中应用传统噪声补偿算法涉及一些技术挑战。例如，通常在电视中使用的驱动程序仅具有有限量的能力。经由通常在电视中使用的驱动程序来应用传统噪声补偿算法可能不完全令人满意，部分原因是这些驱动程序可能无法克服收听环境内的噪声，例如房间内的噪声。

本公开描述了用于改进体验的可替代方法。一些公开的实施方式涉及确定噪声指标和/或语音可懂度指标以及响应于噪声指标或语音可懂度指标中的至少一个来确定补偿过程。根据一些实施方式，补偿过程可以(至少部分地)由音频环境的一个或多个本地设备来确定。可替代地或另外地，补偿过程可以(至少部分地)由一个或多个远程设备(如实施基于云的服务的一个或多个设备)来确定。在一些示例中，补偿过程可以涉及更改对接收到的音频数据的处理。根据一些这样的示例，更改对音频数据的处理不涉及将宽带增益增加应用于音频信号。在一些示例中，补偿过程可以涉及应用基于非音频的补偿方法，如控制隐藏字幕系统、唱词字幕系统或对白字幕系统。不管是经由能力相对较强的音频再现换能器还是经由能力相对较弱的音频再现换能器来再现相对应的音频数据，一些公开的实施方式都提供令人满意的噪声补偿，尽管在一些示例中，噪声补偿类型对于每种情况可能不同。

图1示出了噪声补偿系统的示例。系统100被配置成基于噪声估计来调整整体系统的音量以确保收听者可以在存在噪声的情况下理解音频。在该示例中，系统100包括扩音器108、麦克风105、噪声估计器104和增益调整器102。

在该示例中，增益调整器102正从文件、流媒体服务等接收音频信号101。增益调整器102例如可以被配置成应用如宽带增益调整算法的增益调整算法。

在该示例中，信号103被发送到扩音器108。根据该示例，信号103还被提供给噪声估计器104，并且是该噪声估计器的参考信号。在该示例中，还将信号106从麦克风105发送到噪声估计器104。

根据该示例，噪声估计器104是被配置成估计包括系统100的环境中的噪声水平的组件。在一些示例中，噪声估计器104可以包括回声消除器。然而，在一些实施方式中，噪声估计器104可以在与静音相对应的信号被发送到扩音器108时简单地测量噪声。在该示例中，噪声估计器104正将噪声估计107提供给增益调整器102。取决于特定实施方式，噪声估计107可以是对噪声的宽带估计或频谱估计。在该示例中，增益调整器102被配置成基于噪声估计107来调整扩音器108的输出水平。

如上所述，电视的扩音器通常具有相当有限的能力。因此，由系统100提供的音量调整的类型通常将由这样的扩音器的扬声器保护组件(例如，限制器和/或压缩器)限制。

本公开提供了可以克服系统100的可能的缺点中的至少一些缺点的各种方法，以及用于实施目前公开的方法的设备和系统。一些这样的方法可以基于一个或多个噪声指标。可替代地或另外地，一些这样的方法可以基于一个或多个语音可懂度指标。各种所公开的方法响应于一个或多个噪声指标和/或一个或多个语音可懂度指标来提供一个或多个补偿过程。一些这样的补偿过程涉及更改对音频数据的处理。在许多所公开的方法中，更改对音频数据的处理不涉及将宽带增益增加应用于音频信号。可替代地或另外地，一些这样的补偿过程可以涉及一种或多种基于非音频的补偿方法。

图2是示出了能够实施本公开的各个方面的装置的组件的示例的框图。与本文提供的其他图一样，图2中示出的元素的类型和数量仅作为示例提供。其他实施方式可以包括更多、更少和/或不同类型和数量的元素。根据一些示例，装置200可以是或者可以包括被配置用于执行本文所公开的方法中的至少一些方法的电视。在一些实施方式中，装置200可以是或者可以包括电视控制模块。取决于特定实施方式，电视控制模块可以集成到电视中或可以不集成到电视中。在一些实施方式中，电视控制模块可以是与电视分开的设备，并且在一些实例中，电视控制模块可以与电视分开售卖或作为购买的电视可以包括的附加或任选设备来售卖。在一些实施方式中，电视控制模块可以是可从内容提供商(如电视节目、电影等的提供商)获得的。在其他实施方式中，装置200可以是或可以包括被配置用于至少部分地执行本文所公开的方法中的至少一些方法的另一设备，如膝上型计算机、蜂窝电话、平板设备、智能扬声器等。

根据一些可替代实施方式，装置200可以是或者可以包括服务器。在一些这样的示例中，装置200可以是或者可以包括编码器。相应地，在一些实例中，装置200可以是被配置用于在音频环境(如家庭音频环境)内使用的设备，然而在其他实例中，装置200可以是被配置用于在“云”中使用的设备，例如服务器。

在该示例中，装置200包括接口系统205和控制系统210。在一些实施方式中，接口系统205可以被配置用于与音频环境的一个或多个其他设备通信。在一些示例中，音频环境可以是家庭音频环境。在一些实施方式中，接口系统205可以被配置用于与音频环境的音频设备交换控制信息和相关联的数据。在一些示例中，控制信息和相关联的数据可以与装置200正执行的一个或多个软件应用程序有关。

在一些实施方式中，接口系统205可以被配置用于接收内容流或用于提供内容流。内容流可以包括音频信号。在一些示例中，内容流可以包括视频数据和与视频数据相对应的音频数据。在一些实例中，音频数据可以包括空间数据，例如通道数据和/或空间元数据。在一些实施方式中，接口系统205可以被配置用于从环境中的一个或多个麦克风接收输入。

接口系统205可以包括一个或多个网络接口和/或一个或多个外部设备接口(如一个或多个通用串行总线(USB)接口)。根据一些实施方式，接口系统205可以包括一个或多个无线接口。接口系统205可以包括用于实施用户接口的一个或多个设备，如一个或多个麦克风、一个或多个扬声器、显示系统、触摸传感器系统和/或手势传感器系统。在一些示例中，接口系统205可以包括控制系统210与存储器系统(如图2中示出的任选的存储器系统215)之间的一个或多个接口。然而，在一些实例中，控制系统210可以包括存储器系统。

例如，控制系统210可以包括通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑设备、离散门或晶体管逻辑、和/或离散硬件组件。

在一些实施方式中，控制系统210可以驻留在多于一个设备中。例如，在一些实施方式中，控制系统210的一部分可以驻留在本文所描绘的环境之一内的设备中，并且控制系统210的另一部分可以驻留在环境之外的设备(如服务器、移动设备(例如，智能电话或平板计算机)等)中。在其他示例中，控制系统210的一部分可以驻留在本文所描绘的环境之一内的设备中，并且控制系统210的另一部分可以驻留在环境的一个或多个其他设备中。例如，控制系统功能可以跨环境的多个智能音频设备分布，或者可以由编排设备(如本文中可以被称为智能家居中枢的设备)和环境的一个或多个其他设备共享。在其他示例中，控制系统210的一部分可以驻留在实施基于云的服务的设备(如服务器)中，并且控制系统210的另一部分可以驻留在实施基于云的服务的另一设备(如另一服务器、存储器设备等)中。在一些示例中，接口系统205还可以驻留在多于一个设备中。

在一些实施方式中，控制系统210可以被配置用于至少部分地执行本文所公开的方法。根据一些示例，控制系统210可以被配置用于实施内容流处理的方法。

本文所描述的方法中的一些或所有方法可以由一个或多个设备根据存储在一个或多个非暂态介质上的指令(例如，软件)来执行。这样的非暂态介质可以包括如本文所描述的存储器设备，包括但不限于随机存取存储器(RAM)设备、只读存储器(ROM)设备等。一个或多个非暂态介质可以例如驻留在图2中示出的任选的存储器系统215中和/或控制系统210中。相应地，可以在其上存储有软件的一个或多个非暂态介质中实施本公开中所描述的主题的各个创新方面。软件例如可以包括用于控制至少一个设备来处理内容流、编码内容流、解码内容流等的指令。例如，软件可以是可由控制系统(如图2的控制系统210)的一个或多个组件执行的。

在一些示例中，装置200可以包括图2中示出的任选的麦克风系统220。任选的麦克风系统220可以包括一个或多个麦克风。在一些实施方式中，麦克风中的一个或多个可以是另一设备(如扬声器系统中的扬声器、智能音频设备等)的一部分或与其相关联。在一些示例中，装置200可以不包括麦克风系统220。然而，在一些这样的实施方式中，装置200仍然可以被配置成经由接口系统205接收音频环境中的一个或多个麦克风的麦克风数据。在一些这样的实施方式中，装置200的基于云的实施方式可以被配置成经由接口系统205从音频环境中的一个或多个麦克风接收麦克风数据或至少部分地与麦克风数据相对应的噪声指标。

根据一些实施方式，装置200可以包括图2中示出的任选的扩音器系统225。任选的扩音器系统225可以包括在本文中也可以被称为“扬声器”或更通常地被称为“音频再现换能器”的一个或多个扩音器。在一些示例(例如，基于云的实施方式)中，装置200可以不包括扩音器系统225。

在一些实施方式中，装置200可以包括图2中示出的任选的传感器系统230。任选的传感器系统230可以包括一个或多个触摸传感器、手势传感器、运动检测器等。根据一些实施方式，任选的传感器系统230可以包括一个或多个相机。在一些实施方式中，相机可以是独立式相机。在一些示例中，任选的传感器系统230中的一个或多个相机可以驻留在智能音频设备中，该智能音频设备可以是单一用途音频设备或虚拟助理。在一些这样的示例中，任选的传感器系统230中的一个或多个相机可以驻留在电视、移动电话或智能扬声器中。在一些示例中，装置200可以不包括传感器系统230。然而，在一些这样的实施方式中，装置200仍然可以被配置成经由接口系统205接收音频环境中的一个或多个传感器的传感器数据。

在一些实施方式中，装置200可以包括图2中示出的任选的显示系统235。任选的显示系统235可以包括一个或多个显示器，如一个或多个发光二极管(LED)显示器。在一些实例中，任选的显示系统235可以包括一个或多个有机发光二极管(OLED)显示器。在一些示例中，任选的显示系统235可以包括电视的一个或多个显示器。在其他示例中，任选的显示系统235可以包括膝上型显示器、移动设备显示器或另一种类型的显示器。在其中装置200包括显示系统235的一些示例中，传感器系统230可以包括接近显示系统235的一个或多个显示器的触摸传感器系统和/或手势传感器系统。根据一些这样的实施方式，控制系统210可以被配置用于控制显示系统235来呈现一个或多个图形用户界面(GUI)。

根据一些这样的示例，装置200可以是或者可以包括智能音频设备。在一些这样的实施方式中，装置200可以是或者可以包括唤醒词检测器。例如，装置200可以是或者可以包括虚拟助理。

图3A是概述了所公开的方法的一个示例的流程图。与本文所描述的其他方法一样，不必以所指示的顺序来执行方法300的框。此外，这样的方法可以包括比所示出和/或所描述的框更多或更少的框。

方法300可以由如图2中示出且上文描述的装置200的装置或系统来执行。在一些示例中，方法300的框可以由音频环境内的一个或多个设备(例如，由电视或电视控制模块)来执行。在一些实施方式中，音频环境可以包括家庭环境的一个或多个房间。在其他示例中，音频环境可以是另一种类型的环境，如办公室环境、汽车环境、火车环境、街道或人行道环境、公园环境等。然而，在可替代实施方式中，方法300的至少一些框可以由实施基于云的服务的设备(如服务器)来执行。

在该实施方式中，框305涉及由控制系统并且经由接口系统接收包括视频数据和与视频数据相对应的音频数据的内容流。在一些这样的实施方式中，控制系统和接口系统可以是图2中示出且上文描述的控制系统210和接口系统205。根据一些实施方式，框305可以涉及接收经编码内容流。在这样的实施方式中，框305可以涉及对经编码内容流进行解码。内容流例如可以与电影、电视节目、音乐表演、音乐视频等相对应。在一些实例中，视频数据的复杂程度可相对低于典型的电影或电视节目。例如，在一些实例中，视频数据可以与歌词、歌曲名、一个或多个表演者的图片等相对应。在一些可替代的实施方式中，框305可以涉及接收包括音频数据但不包括相对应的视频数据的内容流。

在该示例中，框310涉及由控制系统确定噪声指标或语音可懂度指标(SIM)中的至少一个。根据一些示例，确定噪声指标可以涉及由控制系统从其中音频数据将被渲染的音频环境的一个或多个麦克风接收麦克风数据以及由控制系统至少部分地基于麦克风信号来确定噪声指标。

一些这样的示例可以涉及从控制系统驻留在其中的音频环境的一个或多个麦克风接收麦克风数据。在一些这样的实施方式中，可以从包括环境的至少一个麦克风和音频再现换能器组中的至少一个音频再现换能器的设备接收麦克风信号。例如，包括至少一个麦克风和至少一个音频再现换能器的设备可以是或可以包括智能扬声器。然而，一些可替代的示例可以涉及从音频环境的与控制系统不在相同位置中的一个或多个设备接收麦克风数据、噪声指标或语音可懂度指标。

根据一些示例，确定噪声指标和/或SIM可以涉及识别接收到的麦克风信号中的环境噪声以及估计与环境噪声相对应的噪声水平。在一些这样的示例中，确定噪声指标可以涉及确定噪声水平是高于还是低于一个或多个阈值。

在一些示例中，确定噪声指标和/或SIM可以涉及确定与环境的混响、环境的频率响应、环境的一个或多个音频再现换能器的回放特性等相对应的一个或多个指标。根据一些示例，确定SIM可以涉及确定与语音传输指数(STI)、常见可懂度量表(CIS)或C50相对应的一个或多个指标，其中的C50被测量为早到达的声音能量(在0ms与50ms之间到达)与晚到达的声音能量(晚于50ms到达)的比率。

在一些示例中，可以通过再现已知信号并且在该信号到达音频环境中的多个测量位置中的每一个测量位置时测量该信号的质量来测量语音可懂度。用于STI的IEC 60268-16标准定义了如何测量信号的任何衰退。

图3B示出了用于测量语音可懂度的STI和CIS量表的示例。如条形图350所示，用于语音可懂度的STI和CIS量表可以被显示为从0(不可懂)到1(优良可懂度)的单个数字。

根据一些实施方式，SIM可以至少部分地基于一个或多个用户特性，例如，作为将用于再现接收到的内容流的电视或其他设备的用户的人的特性。在一些示例中，一个或多个用户特性可以包括用户的母语、用户的口音、用户的年龄和/或用户的能力中的至少一种能力。用户的能力例如还可以包括用户的听力能力、用户的语言水平、用户的口音理解水平、用户的视力和/或用户的阅读理解力。

在一些示例中，一个或多个用户特性可以包括用户在环境中的位置，该位置可对语音可懂度有影响。例如，如果用户不是位于相对于扬声器的中轴上，则可降低语音可懂度指标，因为混音将具有比中央通道更多的左/右通道。如果他们在理想的收听者位置中，则在一些实施方式中，可懂度指标可以保持不变。

在一些这样的实施方式中，用户可以先前已经提供了关于一个或多个这样的用户特性的输入。根据一些这样的示例，用户可以先前已经根据来自控制系统的命令经由在显示设备上提供的图形用户界面(GUI)提供了输入。

可替代地或另外地，控制系统可以已经基于用户过去的行为推断出用户特性中的一个或多个用户特性，如用户针对所再现的内容选择的一种或多种语言、用户展示的理解语言和/或地区口音的能力(例如，通过用户已选择隐藏字幕系统、唱词字幕系统或对白字幕系统的实例所证明)、在用户选择的内容中使用的语言的相对复杂度(例如，语言是否对应于面向学前教育观众的电视节目的语音、面向青少年观众的电影的语音、面向大学教育观众的纪录片的语音等)、用户(例如，针对所再现的内容的与语音相对应的部分)选择的回放音量、用户先前是否已使用过视觉障碍设备(如触觉显示系统)等。

根据该示例，框315涉及由控制系统响应于噪声指标或语音可懂度指标中的至少一个来执行补偿过程。在该示例中，执行补偿过程涉及更改对音频数据的处理和/或应用基于非音频的补偿方法。根据该实施方式，更改对音频数据的处理不涉及将宽带增益增加应用于音频信号。

在一些实施方式中，基于非音频的补偿方法涉及以下中的至少一个：控制触觉显示系统或控制振动表面。下文描述了一些示例。

根据图3A中示出的示例，框320涉及由控制系统处理接收到的视频数据。在该示例中，框325涉及由控制系统将经处理的视频数据提供给环境的至少一个显示设备。在一些实施方式中，框320可以涉及对经编码视频数据进行解码。在一些示例中，框320可以涉及根据环境的显示设备(例如电视、膝上型计算机等)的纵横比、设置等对视频数据进行格式化，视频数据将显示在该显示设备上。

在一些示例中，基于非音频的补偿方法可以涉及控制隐藏字幕系统、唱词字幕系统或对白字幕系统。根据一些这样的示例，框320可以涉及控制隐藏字幕系统、唱词字幕系统或对白字幕系统以在所显示的视频数据中包括文本。

根据一些实施方式，控制隐藏字幕系统、唱词字幕系统或对白字幕系统可以涉及至少部分地基于噪声指标来确定是否要显示文本。根据一些这样的示例，确定是否要显示文本可以涉及应用第一噪声阈值以确定将显示文本以及应用第二噪声阈值以确定将停止显示文本。下文描述了一些示例。

根据一些示例，控制隐藏字幕系统、唱词字幕系统或对白字幕系统可以至少部分地基于用户的听力能力、用户的语言水平、用户的视敏度和/或用户的阅读理解力。在一些这样的示例中，控制隐藏字幕系统、唱词字幕系统或对白字幕系统可以涉及至少部分地基于语音可懂度指标和/或用户的视敏度来控制字体或字体大小中的至少一个。

根据一些实施方式，方法300可以涉及确定是否要降低音频数据或相对应的文本的复杂度水平。在其中基于非音频的补偿方法涉及控制隐藏字幕系统、唱词字幕系统或对白字幕系统的一些这样的示例中，方法300可以涉及至少部分地基于语音可懂度指标和/或用户的能力中的至少一种能力(如用户的阅读理解力)来确定是否要过滤掉、简化和/或改述至少一些基于语音的文本。

在该示例中，框330涉及由控制系统对用于经由环境的音频再现换能器组再现的音频数据进行渲染，以产生经渲染的音频信号。根据该实施方式，框335涉及经由接口系统将经渲染的音频信号提供给环境的音频再现换能器组中的至少一些音频再现换能器。

在其中音频数据包括音频对象并且其中执行补偿过程涉及更改对音频数据的处理的一些示例中，框330可以涉及至少部分地基于噪声指标或语音可懂度指标中的至少一个来确定将渲染哪些音频对象。在其中内容流包括音频对象优先级元数据的一些这样的示例中，更改对音频数据的处理可以涉及基于优先级元数据来选择高优先级音频对象以及渲染高优先级音频对象而不渲染其他音频对象。

在其中音频数据包括音频对象并且其中执行补偿过程涉及更改对音频数据的处理的一些示例中，框330可以涉及改变一个或多个音频对象的渲染位置以在存在噪声的情况下提高可懂度。

根据其中执行补偿过程涉及更改对音频数据的处理的一些示例，方法300可以涉及至少部分地基于噪声指标或语音可懂度指标中的至少一个来应用一种或多种语音增强方法。在一些这样的示例中，该一种或多种语音增强方法可以包括降低非语言音频的增益和/或增加语音频率(例如，在50Hz至2kHz的范围中的音频频率)的增益。其他实施方式可以被配置成增加与语音频率(例如，在300Hz至3400Hz的范围中的音频频率、在50Hz至3400Hz的范围中的音频频率、在50Hz至500Hz的范围中的音频频率等)相对应的其他音频频率范围的增益。

可替代地或另外地，更改对音频数据的处理可以涉及至少部分地基于噪声指标或语音可懂度指标中的至少一个来更改上混音过程、下混音过程、虚拟低音过程、低音分布过程、均衡过程、分频滤波器、延迟滤波器、多带限制器或虚拟化过程中的一个或多个。下文描述了一些示例。

方法300的一些实施方式可以涉及将音频数据从第一设备传输到第二设备。一些这样的实施方式可以涉及将噪声指标、语音可懂度指标或回声参考数据中的至少一个从第一设备传输到第二设备或从第二设备传输到第一设备。在一些这样的示例中，第二设备可以是助听器、个人声音放大产品、人工耳蜗或头戴式耳机。

方法300的一些示例可以涉及由第二设备控制系统接收第二设备麦克风信号以及由第二设备控制系统接收音频数据以及噪声指标、语音可懂度指标或回声参考数据中的至少一个。一些这样的实施方式可以涉及由第二设备控制系统确定一个或多个音频数据增益设置和一个或多个第二设备麦克风信号增益设置。一些这样的实施方式可以涉及由第二设备控制系统将音频数据增益设置应用于音频数据以产生经增益调整的音频数据。在一些这样的示例中，方法300可以涉及由第二设备控制系统将第二设备麦克风信号增益设置应用于第二设备麦克风信号以产生经增益调整的第二设备麦克风信号。一些这样的实施方式可以涉及由第二设备控制系统将经增益调整的音频数据和经增益调整的第二设备麦克风信号混合以产生经混合的第二设备音频数据。一些这样的示例可以涉及由第二设备控制系统将经混合的第二设备音频数据提供给一个或多个第二设备换能器以及由该一个或多个第二设备换能器再现经混合的第二设备音频数据。一些这样的实施方式可以涉及由第二设备控制系统至少部分地基于噪声指标来控制经混合的第二设备音频数据中的经增益调整的音频数据和经增益调整的第二设备麦克风信号的相对水平。下文描述了一些示例。

图4示出了其中根据噪声估计或可懂度估计中的至少一个来控制隐藏字幕系统的系统的示例。与本文提供的其他图一样，图4中示出的元素的类型和数量仅作为示例提供。其他实施方式可以包括更多、更少和/或不同类型和数量的元素。在该示例中，系统400被配置成基于噪声估计来打开和关闭隐藏字幕系统(取决于特定实施方式，该隐藏字幕系统可以被配置成提供隐藏字幕、唱词字幕或对白字幕)。在该示例中，如果估计的噪声水平太高，则显示隐藏字幕。如果估计的噪声水平太低，则在该示例中不显示隐藏字幕。这允许系统400在吵闹的环境中作出响应，在一些示例中，在该环境中用于再现语音的扩音器可能太受限制而无法克服噪声。在其他实例中(例如，当正将内容提供给有听力障碍的用户时)，这样的实施方式也可以是有利的。

在该示例中，控制系统210(上文参考图2所描述的控制系统210的实例)包括噪声估计器104、隐藏字幕系统控制器401和视频显示控件403。根据该实施方式，隐藏字幕系统控制器401被配置成接收多带信号并且基于与语音相对应的频带中的噪声来确定是否将打开隐藏字幕。为了阻止隐藏字幕过于频繁地打开和关闭，在一些实施方式中，隐藏字幕系统控制器401可以实施一定量的滞后，由此，打开隐藏字幕的阈值和关闭隐藏字幕的阈值可以是不同的。在各种上下文中这可以是有利的，例如，在噪声阈值附近徘徊(这在单阈值系统中将导致文本的闪烁)的诸如风扇的周期性噪声源情况下。在一些实施方式中，打开隐藏字幕的阈值低于关闭隐藏字幕的阈值。根据一些实施方式，隐藏字幕系统控制器401可以被配置成仅当新文本应该显示在屏幕上时才允许发生打开和关闭文本。

在图4中示出的示例中，隐藏字幕系统控制器401正向视频显示控件403发送启用控制信号402，以便启用对隐藏字幕的显示。如果隐藏字幕系统控制器401确定应停止对隐藏字幕的显示，则在该示例中，隐藏字幕系统控制器401将向视频显示控件403发送禁用控制信号。

根据该示例，视频显示控件403被配置成响应于已接收到启用控制信号402而将隐藏字幕叠加在电视405上显示的内容的视频帧上。在该实施方式中，电视405是上文参考图2所描述的任选的显示系统235的实例。在该示例中，视频显示控件403正向电视405发送具有叠加的隐藏字幕的视频帧404。隐藏字幕406被示出为显示在电视405上。在该示例中，视频显示控件403被配置成响应于已接收到禁用控制信号而停止将隐藏字幕叠加在内容的视频帧中。

图5示出了与对隐藏字幕系统的控制有关的曲线图的示例。在该实施方式中，曲线图500示出了针对一组噪声估计隐藏字幕系统展示如何打开和关闭隐藏字幕的行为的示例。根据该示例，当平均噪声水平高于第一阈值(在该示例中，阈值506)时，打开隐藏字幕，并且如果平均噪声水平低于第二阈值(在该示例中，阈值505)，则关闭隐藏字幕。根据一些示例，可以在1秒或2秒的范围中的时间间隔期间测量平均值。然而，在其他实施方式中，可以跨更长或更短的时间间隔测量平均值。在一些可替代的实施方式中，阈值可以基于最大噪声水平、最小噪声水平或中值噪声水平。

在该示例中，竖直轴501指示声压水平(SPL)并且水平轴502指示频率。根据该示例，阈值506是噪声必须高于其以使控制系统或其部分(在该示例中，图4的隐藏字幕系统控制器401)打开隐藏字幕的平均水平。在该示例中，阈值505是噪声必须低于其以使隐藏字幕系统控制器401关闭隐藏字幕的平均水平。

在一些示例中，阈值506和/或阈值505可以是可根据用户输入来调整的。可替代地或另外地，阈值506和/或阈值505可以由控制系统(如图2或图4的控制系统210)基于先前获得的关于用户的一种或多种能力(例如，根据用户的听敏度)的信息来自动调整。例如，如果用户有听力障碍，则可以使阈值506相对较低。

根据一些示例，阈值506和/或阈值505可以与环境的一个或多个音频再现换能器的能力和/或对回放音量施加的限制相对应。在一些这样的示例中，由于施加了回放音量上限，因此隐藏字幕系统控制器401可以打开隐藏字幕，其中，对回放音量的补偿可能不会超过这个上限。在一些这样的实例中，噪声水平可达到可能无法进一步增加回放水平以补偿环境噪声的点，从而导致环境噪声(至少部分地)掩盖回放内容。在这样的情况下，隐藏字幕、对白字幕或唱词字幕可以是期望的或者甚至是必要的以便使得用户能够理解对话或其他语音。

曲线503示出了平均低于阈值505的噪声水平的示例，在该示例中，阈值505是隐藏字幕的关闭阈值。在该实施方式中，不管先前状态如何，隐藏字幕系统控制器401都将使隐藏字幕关闭。曲线504示出了平均高于阈值506的噪声水平的示例，在该示例中，阈值506是隐藏字幕的打开阈值。在该实施方式中，不管先前状态如何，隐藏字幕系统控制器401都将使隐藏字幕打开。根据该示例，曲线507示出了平均介于隐藏字幕的打开阈值与关闭阈值之间的噪声水平的示例。在该实施方式中，如果在噪声估计进入这个区之前隐藏字幕先前是打开的，则隐藏字幕系统控制器401将使隐藏字幕保持打开。否则，隐藏字幕系统控制器401将使隐藏字幕关闭。在噪声估计正在用于打开或关闭隐藏字幕的单个阈值附近徘徊的情况下，这样的基于滞后的实施方式具有防止隐藏字幕闪烁的潜在优点。

图6示出了可懂度指标评估模块的示例。图6示出了接收传入的音频流并且然后得到存在于该流中的语音的可懂度的测量的子系统的示例。根据该实施方式，可懂度指标评估模块602被配置成估计语音可懂度。可懂度指标评估模块602可以经由控制系统(如参考图2所描述的控制系统210)来实施。在该示例中，可懂度指标评估模块602正接收内容流601。此处，内容流601包括音频数据，在一些实例中，该音频数据可以是或者可以包括与语音相对应的音频数据。根据该实施方式，可懂度指标评估模块602被配置成输出语音可懂度指标(SIM)603。在该示例中，可懂度指标评估模块602被配置成输出指示语音可懂度的时变信息流。

取决于特定实施方式，可懂度指标评估模块602可以以各种方式来估计语音可懂度。当前存在多种估计语音可懂度的方法，并且预期将来将有更多这样的方法。

根据一些实施方式，可懂度指标评估模块602可以通过根据用于确定幼儿和/或有语音或听力障碍的人的语音可懂度的一种或多种方法分析音频数据来估计语音可懂度。在一些这样的示例中，可以评估语音样本的每个词的可懂度并且可以确定语音样本的总得分。根据一些这样的示例，语音样本的总得分可以是比率I/T，该比率是通过可懂词的数量I除以全部词的数量T确定的。在一些这样的示例中，可以根据自动语音辨识(ASR)置信度得分确定词是可懂还是不可懂。例如，具有处于或高于阈值的ASR置信度得分的词可以被视为可懂，而具有低于阈值的ASR置信度得分的词可以被视为不可懂。根据一些示例，可以将与语音相对应的文本作为关于语音的实际词的“基本实况(ground truth)”提供给控制系统。在一些这样的示例中，语音样本的总体语音可懂度总得分可以是比率C/T，该比率是通过由ASR过程正确地识别的词的数量C除以全部词的数量T确定的。

在一些实施方式中，可懂度指标评估模块602可以通过根据诸如语音传输指数(STI)、常见可懂度量表(CIS)或C50的公布的指标分析音频数据来估计语音可懂度，其中的C50被测量为早到达的声音能量(在0ms与50ms之间到达)与晚到达的声音能量(晚于50ms到达)的比率。

根据一些实施方式，SIM可以至少部分地基于一个或多个用户特性，例如，作为将用于再现接收到的内容流的电视或其他设备的用户的人的特性。在一些示例中，一个或多个用户特性可以包括用户的母语、用户的口音、用户在环境中的位置、用户的年龄和/或用户的能力中的至少一种能力。用户的能力例如可以包括用户的听力能力、用户的语言水平、用户的口音理解水平、用户的视力和/或用户的阅读理解力。

可替代地或另外地，控制系统可以已经基于用户过去的行为推断出用户特性中的一个或多个用户特性，如用户针对所再现的内容选择的一种或多种语言、用户展示的理解语言和/或地区口音的能力(例如，通过用户已选择隐藏字幕系统、唱词字幕系统或对白字幕系统的实例所证明)、在用户选择的内容中使用的语言的相对复杂度、用户(例如，针对所再现的内容的与语音相对应的部分)选择的回放音量、用户先前是否已使用过视觉障碍设备(如触觉显示系统)等。

根据一些可替代的实施方式，可懂度指标评估模块602可以经由基于机器学习的方法来估计语音可懂度。在一些这样的示例中，可懂度指标评估模块602可以经由已经对可懂度已知的一组内容训练过的神经网络来估计输入音频数据的语音可懂度。

图7A示出了通过可懂度指标控制的隐藏字幕系统的示例。与本文所提供的其他图一样，图7A中示出的元素的类型和数量仅作为示例提供。其他实施方式可以包括更多、更少和/或不同类型和数量的元素。例如，在该示例和其他所公开的示例中，可以描述隐藏字幕系统、唱词字幕系统或对白字幕系统的功能。除非本公开另有说明，否则针对任何一个这样的系统提供的示例旨在适用于所有这样的系统。

根据该示例，图7A示出了系统700，其中，可懂度指标用于改变所显示的字幕。在该示例中，系统700包括可懂度指标评估模块602和字幕显示渲染器703，可懂度指标评估模块和字幕显示渲染器两者都经由参考图2所描述的控制系统210来实施。在一些实施方式中，系统700可以使用显示传感器或用户能力(例如，视力)的知识来改变在隐藏字幕系统中使用的字体的渲染。

根据该实施方式，可懂度指标评估模块602被配置成输出语音可懂度指标(SIM)603。在该示例中，可懂度指标评估模块602被配置成输出包括语音可懂度指标603的时变信息流，如上文参考图6所描述的。

在图7A中示出的示例中，字幕显示渲染器703正接收包括视频帧的视频流704。在一些实施方式中，视频流704可以包括描述隐藏字幕和/或描述性文本(如“[音乐播放]”)的元数据。在该示例中，字幕显示渲染器703被配置成从视频流704获取视频帧，以在该帧上叠加隐藏字幕并且输出具有叠加的隐藏字幕和/或描述性文本的经修改的视频帧705。根据该实施方式，输入字幕文本作为元数据嵌入在视频流704内。

在一些实施方式中，字幕显示渲染器703可以被配置成基于多个因素来改变所显示的内容。这些因素例如可以包括用户能力和/或显示能力。用户能力例如可以包括视敏度、语言水平、口音理解水平、阅读能力和/或精神状态。为了使文本对于特定用户来说更容易阅读，字幕显示渲染器703可以基于一个或多个因素来改变字体和/或字体大小(例如，增大字体大小)。

根据一些示例，该因素可以包括外部输入。在一些实例中，字幕显示渲染器703可以改变字体和/或字体大小以确保文本在具有特定光强度或色彩频谱的照明环境中是可读的。在一些这样的示例中，可以经由光传感器、颜色传感器或相机来测量环境，并且可以将相对应的传感器数据提供给控制系统210，例如，提供给字幕显示渲染器703。在图7A中示出了一个这样的示例，其中，字幕显示渲染器703被示出为接收可以用于改变隐藏字幕的基于图像的信息706。基于图像的信息706例如可以包括用户视力信息、房间内的照明条件、将示出隐藏字幕的显示器的能力等。

根据一些示例，字幕显示渲染器703可以以基于滞后的方式对环境的改变的照明条件作出响应，类似于上文参考图5所描述的对环境中的噪声条件作出的基于滞后的响应。例如，一些实施方式可以涉及将触发从隐藏字幕的正常状态进行改变(如放大文本和/或黑体字母)的第一光强度阈值以及将使得恢复隐藏字幕的正常状态的第二光强度阈值。在一些示例中，第一光强度阈值可以对应于比第二光强度阈值低的光强度。

如果用户的语言能力较低并且/或者阅读能力较低，并且已经将相对应的基于图像的信息706提供给字幕显示渲染器703，则在一些实施方式中，字幕显示渲染器703可以修改文本以简化含义并且使文本比与语音相对应的音频数据的逐字转录更容易理解。

图7B示出了通过可懂度指标控制的音频描述渲染器的示例。在该实施方式中，控制系统210被配置成提供音频描述渲染器713的功能。根据该示例，语音可懂度指标603由音频描述渲染器713使用以任选地将内容的基于音频的描述(在本文中被称为音频描述)混合到输入音频流714中，以产生包括音频描述的输出音频流715。

根据一些实施方式，从字幕显示渲染器703输出的经修改的视频帧705被任选地输入到音频描述渲染器713。在一些这样的实例中，经修改的视频帧705可以包括隐藏字幕和/或描述性文本。在一些这样的示例中，输出音频流715中的音频描述可以由音频描述渲染器713从隐藏字幕合成并且/或者通过分析输入到音频描述渲染器713的视频和/或音频内容来合成。在一些实施方式中，音频描述可以被包括在对音频描述渲染器713的输入中。根据一些实施方式，输入音频描述可以与由音频描述渲染器713合成的音频描述混合。在一些示例中，混合的比例可以至少部分地基于语音可懂度指标603。

在一些实施方式中，音频描述渲染器713可以被配置成基于多个因素来改变经混合的内容。这些因素例如可以包括用户能力和/或显示能力。用户能力例如可以包括视敏度、语言水平、口音理解水平、阅读能力和/或精神状态。在一些实施方式中，来自隐藏字幕渲染器703和音频描述渲染器713的输出可以一起用于提高用户的理解力。

图8示出了回声预测器模块的示例。音频环境的混响可对语音可懂度具有显著影响。在一些实施方式中，控制系统确定打开还是关闭隐藏字幕可以至少部分地基于与音频环境混响相对应的一个或多个指标。根据一些示例，例如在极端混响的情况下，控制系统确定打开还是关闭隐藏字幕可以完全基于与音频环境混响相对应的一个或多个指标。在一些可替代的实施方式中，控制系统确定打开还是关闭隐藏字幕可以部分地基于与音频环境混响相对应的一个或多个指标，但也可以基于基于内容的语音可懂度指标、环境噪声和/或其他语音可懂度指标。

在图8中示出的示例中，将数据801提供给回声预测器模块803。在该示例中，数据801包括关于音频环境的特性的信息。例如，可以从音频环境中的传感器(如麦克风)获得数据801。在一些实例中，数据801的至少一部分可以包括直接用户输入。

在该示例中，还将内容流802提供给回声预测器模块803。内容流802包括例如经由环境的一个或多个显示设备和音频再现换能器要在音频环境中呈现的内容。内容流802例如可以与上文参考图6所描述的内容流601相对应。根据一些实施方式，内容流802可以包括经渲染的音频信号。

根据该示例，回声预测器模块803被配置成计算房间回声和混响将对给定内容的可懂度的影响。在该示例中，回声预测器模块803被配置成输出语音可懂度的指标804，在一些实例中，该指标可以是时变指标。例如，如果音频环境是高度混响的，则将很难理解语音并且可懂度的指标804通常将是低的。如果房间是高度消声的，则可懂度的指标804通常将是高的。

图9示出了被配置用于确定至少部分地基于回放处理的可懂度指标的系统的示例。与本文所提供的其他图一样，图9中示出的元件的类型和数量仅作为示例提供。其他实施方式可以包括更多、更少和/或不同类型和数量的元素。

在该示例中，图9包括以下元素：

901：输入音频数据；

902：用于使音频再现换能器响应变平的均衡(EQ)滤波器(任选的)；

903：分频和/或延迟滤波器(任选的)；

904：避免扩音器中的非线性行为的多带限制器(任选的)；

905：宽带限制器；

906：音频再现换能器(例如，扩音器)；

907：EQ滤波器的特性(例如，频率响应、延迟、振铃等)；

908：分频和延迟的特性；

909：多带限制器的当前状态(例如，多带限制器正应用的限制量)；

910：限制器的当前状态(例如，限制器正应用的限制量)；

911：考虑具有当前内容的设备的回放特性的环境可懂度指标模块；

912：可懂度指标；以及

913：可以任选地用于确定可懂度指标的音频再现换能器馈送信号的参考。

在一些设备中，可能无法以用户请求的音量来再现音频。这可能是由于导致系统内的动态余量受限的音频再现换能器、放大器或一些其他的实施细节的能力所致。

例如，系统的频率响应可能不平坦(例如，由于音频再现换能器本身，或在多驱动程序的情况下由于分频器和/或音频再现换能器的放置)。非平坦的频率响应可使语音的可懂度降低。这种情况可以通过使用均衡滤波器902来使频率响应变平而得到缓解。然而，在一些实例中，甚至在应用均衡滤波器之后，设备仍可能具有不平坦的响应。通过在应用均衡滤波器之后测量语音可懂度，可以实现真正的语音可懂度，并且然后使用该语音可懂度来打开和关闭隐藏字幕。

一些实施方式可以并入一个或多个多带限制器904和/或宽带限制器905以确保系统的组件受到保护以免超出它们的线性范围。

在一些多带系统中，可以仅在针对语音频率内的音频数据(例如介于50Hz与2kHz之间的音频数据或在其他公开的语音频率范围内的音频数据)发生限制时打开隐藏字幕。在一些可替代的示例中，系统900可以在应用限制器之后并且就在将音频发送到扩音器906之前基于音频数据913来确定一个或多个可懂度指标。

在一些实例中，可以将扩音器驱动到其非线性区以获得增大的音量。将扩音器驱动到其非线性区导致失真，例如互调或谐波失真。根据一些示例，在这些情况下，每当存在任何非线性行为(经由模型所估计或经由基于麦克风的直接测量(例如线性回声消除器)所确定)时就可以打开隐藏字幕。可替代地或另外地，可以分析所测量的或经建模的非线性行为以在存在失真的情况下确定语音的可懂度。

图10示出了被配置用于确定至少部分地基于环境噪声水平的可懂度指标的系统的示例。与本文所提供的其他图一样，图10中示出的元素的类型和数量仅作为示例提供。其他实施方式可以包括更多、更少和/或不同类型和数量的元素。

在该示例中，图10包括以下元素：

1001：被配置成测量环境噪声的麦克风；

1002：麦克风信号；

1003：背景噪声估计器；

1004：背景噪声估计；

1005：输入内容，包括音频数据和/或输入元数据；

1006：可以被配置用于解码、渲染和/或后处理的回放处理模块；

1007：音频再现换能器馈送和回声参考；

1008：正回放内容的音频再现换能器；

1009：环境可懂度指标模块，该环境可懂度指标模块被配置成确定至少部分地基于背景环境噪声的可懂度指标；以及

1010：可懂度指标。

在一些示例中，相对于与语音相对应的输入音频信号的水平，环境噪声水平可以用作纯语音可懂度指标的替代方案。在一些这样的实施方式中，环境可懂度指标模块1009可以被配置成将环境噪声水平与语音可懂度指标或水平进行组合，以产生组合的可懂度指标。

根据一些实施方式，如果语音的可懂度水平较低，而环境噪声水平较高，则环境可懂度指标模块1009可以被配置成输出指示将启用补偿过程的可懂度指标1010。根据一些实施方式，补偿过程可以涉及以本文所公开的一种或多种方式更改对音频数据的处理。可替代地或另外地，在一些实施方式中，补偿过程可以涉及应用基于非音频的补偿方法，如启用隐藏字幕。在一些这样的示例中，如果环境噪声水平较低，而语音可懂度较高，则环境可懂度指标模块1009可以被配置成输出指示将保持关闭隐藏字幕的可懂度指标1010。在一些实施方式中，如果语音可懂度较高，并且环境噪声水平较高，则取决于语音的组合的可懂度，环境可懂度指标模块1009可以被配置成输出指示将打开还是关闭隐藏字幕的可懂度指标1010。

图11示出了被配置用于至少部分地基于一种或多种用户能力来修改可懂度指标的系统的示例。与本文所提供的其他图一样，图11中示出的元素的类型和数量仅作为示例提供。其他实施方式可以包括更多、更少和/或不同类型和数量的元素。

在该示例中，图11包括以下元素：

1101：输入可懂度指标或可懂度指标流，如通过另一过程(例如用于确定可懂度指标的其他公开的方法之一)来计算的。在一些示例中，输入可懂度指标可以与输出语音可懂度指标(SIM)603相对应，该输出语音可懂度指标是由上文参考图6所描述的可懂度指标评估模块602输出的；

1102：用户简档。用户简档的示例可以包括诸如“听力障碍”、“无需调整”(例如，具有平均听力能力)或“超人”(例如，具有异常良好的听力能力)的简档；

1103：被配置用于至少部分地基于一种或多种用户能力来修改输入可懂度指标1101的可懂度指标修改器；以及

1104：考虑用户简档的经调整的可懂度指标。

可懂度指标修改器1103例如可以经由控制系统(如图2的控制系统210)来实施。存在可懂度指标修改器1103可以用来修改输入可懂度指标1101的各种方法。在一些示例中，如果用户简档指示用户有听力障碍，则可懂度指标修改器1103可以被配置成降低输入可懂度指标1101。降低的量可以与听力障碍的程度相对应。例如，如果输入可懂度指标1101在从0至1.0的量表上是0.7并且用户简档指示听力障碍的程度是轻微的，则在一个示例中，可懂度指标修改器1103可以被配置成将输入可懂度指标1101降低到0.6。在另一示例中，如果输入可懂度指标1101在从0至1.0的量表上是0.8并且用户简档指示听力障碍的程度是中等的，则在一个示例中，可懂度指标修改器1103可以被配置成将输入可懂度指标1101降低到0.6或0.5。

在一些实施方式中，如果用户简档指示用户是“超人”(具有异常良好的听力能力、异常良好的语言水平、异常良好的口音理解水平等)，则可懂度指标修改器1103可以被配置成增加输入可懂度指标1101。例如，如果输入可懂度指标1101在从0至1.0的量表上是0.5并且用户简档指示用户具有异常良好的听力能力，则在一个示例中，可懂度指标修改器1103可以被配置成将输入可懂度指标1101增加到0.6。

在一些示例中，用户简档可以包括用户的基于频率的听力简档。根据一些这样的示例，可懂度指标修改器1103可以被配置成至少部分地根据基于频率的听力简档来确定是否要更改输入可懂度指标1101。例如，如果基于频率的听力简档指示用户具有在与语音相对应的频率范围中的正常听力能力，则可懂度指标修改器1103可以确定将不改变输入可懂度指标1101。在另一示例中，如果输入可懂度指标1101在从0至1.0的量表上是0.8并且基于频率的听力简档指示用户具有在与语音相对应的频率范围中的中等水平的听力障碍，则可懂度指标修改器1103可以被配置成将输入可懂度指标1101降低到0.6或0.5。

在一些可替代的实施方式中，用户频率响应简档可以直接应用于输入音频。例如，参考图6，在一些这样的实施方式中，控制系统可以被配置用于在频域中使用户对内容601的音频部分的频域表示的听力响应倍增，然后将结果输入到可懂度指标评估602。

再次参考图11，在下文描述可懂度指标修改器1103可以用来修改输入可懂度指标1101的一些其他方法的示例。

用户特性

语言

语音可懂度和对隐藏字幕的需要可以与用户是否为用户正收听的语音的语言的母语者有关。因此，在一些实施方式中，关于语言理解能力和/或地区口音理解能力的用户输入(和/或在用户先前的观看/收听事件(例如用户手动打开对白字幕的实例)期间获取的数据)可以用作语音可懂度指标的修改器。例如，如果用户似乎精通某种语言并且将以该语言来呈现内容，则可懂度指标修改器1103可以确定将不对输入可懂度指标1101做出改变。

然而，如果用户似乎在该语言方面的能力有限，则可懂度指标修改器1103可以确定输入可懂度指标1101将与用户的语言水平的限制成比例地降低。例如，如果用户似乎几乎不理解力或根本不理解该语言，则可懂度指标修改器1103可以确定输入可懂度指标1101将降低到零。在一些实例中，可懂度指标修改器1103可以包括具有经调整的可懂度指标1104的元数据，该元数据指示应呈现对白字幕并且指示将呈现对白字幕所用的语言。例如，如果内容语音是英语，用户简档指示用户几乎不理解或根本不理解英语，并且用户精通法语，则元数据可以指示应呈现法语对白字幕。

在另一示例中，如果用户似乎具有中等水平的语言听力理解，则可懂度指标修改器1103可以确定输入可懂度指标1101将减少二分之一。在一些这样的示例中，用户简档可以指示用户对同一种语言的阅读理解力足以理解与内容的语音相对应的文本。在一些这样的示例中，可懂度指标修改器1103可以被配置成包括具有经调整的可懂度指标1104的元数据，该元数据指示应呈现对白字幕并且指示将呈现对白字幕所用的语言。例如，如果内容语音是英语，用户简档指示用户对英语的阅读理解力足以理解与内容的英语语音相对应的文本，则元数据可以指示应呈现英语对白字幕。

在一些实例中，用户可能具有某种语言的口语水平而不具有阅读水平，并且反之亦然。一些收听者可能偏好隐藏字幕和/或对白字幕，而其他收听者可能不偏好。例如，一些用户可能偏好配音胜于对白字幕。因此，在一些实施方式中，关于这样的偏好的用户输入和/或观察到的用户行为可以用于自动适应这样的差异。在一些实施方式中，用户偏好数据可以指示用户的主要偏好语言、次要偏好语言等以及用户对对白字幕或配音的偏好。

在一个示例中，用户的法语水平可能为100％、英语水平可能为50％并且德语水平可能为25％。如果接收到的广播视频内容具有英语母语原声，其中具有法语和德语配音的语言轨道的选项以及所有三种语言的对白字幕选项，则根据一些实施方式，可懂度指标可以用于选择(1)音频回放轨道(2)对白字幕轨道或(3)两者的组合。在该示例中，50％的水平可足以默认为英语原声，并以法语对白字幕作为辅助。在一些实例中，用户可以在接收到的广播具有英语原声的情况下已经明确地指示对收听英语原声的偏好。在其他实例中，用户对英语原声的选择可以被记录和/或用于更新用户偏好数据。用户可能偏好收听英语原声并观看法语对白字幕胜于感受带配音的法语原声，使得可以体验如所创作的具有更好的唇音同步、原始演员的话音等的内容。每个国家对对白字幕和配音都有地区偏好(大多数美国人偏好对白字幕，而大多数德国人偏好配音)。在一些实施方式中，如果没有特定的用户偏好数据可用，则可以使用基于国家或基于地区的默认来确定呈现对白字幕还是配音。

在一些实施方式中，控制系统可以被配置成选择达到所估计的最高水平的用户可懂度的音频回放轨道和对白字幕轨道的组合。可替代地或另外地，一些实施方式可以涉及至少选择可接受的最低可懂度水平，例如，由可懂度指标阈值所确定。

口音

内容的口音连同用户是否习惯该口音可以对用户的语音可懂度产生影响。存在用于确定用户是否将习惯该口音的各种方法。例如，在一些实施方式中，可以将关于用户的偏好的快速用户输入提供给可懂度指标修改器1103。在其他情况下，可以将用于回放的一个或多个设备的位置(例如，电视的位置)与包括一组或多组已知地区口音以及相对应的位置的数据结构进行比较。如果用户可能不习惯该口音(例如，位于加拿大的收听者观看澳大利亚的电视节目)，则可懂度指标修改器1103可以被配置成降低与加拿大收听者观看加拿大节目相对应的输入可懂度指标1101。

用户能力

在一些情况下，用户可能遭受使文本难以阅读或降低注意力的状况(例如阅读障碍或ADHD)。在一些这样的示例中，可懂度指标修改器1103可以被配置成包括具有经调整的可懂度指标1104的元数据，该元数据指示应关闭隐藏字幕，因为用户将不会从隐藏字幕中受益。在其他实施方式中，可懂度指标修改器1103可以被配置成包括具有经调整的可懂度指标1104的元数据，该元数据指示响应于用户的状况应简化隐藏字幕的文本并且/或者应增大文本的字体大小。在一些实施方式中，对白字幕可以包括较少文本(简化的语音版本)，并且隐藏字幕可以包括更多文本(完整或基本上完整的语音版本)。根据一些这样的实施方式，简化文本可以涉及呈现对白字幕而非隐藏字幕。

年龄和阅读理解力

收听者的年龄和/或阅读理解力可以影响关于是否应修改语音可懂度指标和/或是否应使用隐藏字幕的确定。例如，控制系统可以确定针对仅有无法阅读的人(如幼儿)观看的电视节目不打开隐藏字幕。

如果观看者难以理解快速谈话(这是老年人的共同特性)，则根据一些示例，可懂度指标修改器1103可以被配置成至少部分地基于内容的语速(例如，语音中谈话的节奏)来降低输入可懂度指标1101。例如，可以根据每单位时间的词的数量来确定内容的语速。在一些这样的实施方式中，如果内容的语速处于或高于阈值水平，则控制系统可以使隐藏字幕打开。

听力简档

在一些情况下，收听者可能已经失去听到某些频率的一些能力。根据一些实施方式，这种状况可以被用作改变语音可懂度的基础(例如，如果收听者已经失去听到语音频率的一些能力)。例如，控制系统可以被配置成在计算语音可懂度指标之前将人的听力简档的数学表示(例如，人的耳朵的频率响应的表示(包括听力损失))应用于输入音频。这样的实施方式可以增加在适当时间将打开和关闭隐藏字幕的概率。听力简档可以由用户(例如，经由交互式测试过程或经由用户输入)或从一个或多个其他设备(例如用户的助听器或人工耳蜗)提供给控制系统。

图12示出了字幕生成器的示例。字幕生成器1202可以经由控制系统(例如，图2的控制系统210)来实施。在该示例中，字幕生成器1202被配置成至少部分地基于ASR过程来自动合成与输入音频流1201中的语音相对应的隐藏字幕1203。根据该示例，字幕生成器1202还被配置成基于输入可懂度指标1204来修改隐藏字幕1203的内容。取决于特定的实施方式，可懂度指标1204的类型可以变化。在一些示例中，可懂度指标1204可以是考虑用户简档的经调整的可懂度指标，如上文参考图11所描述的经调整的可懂度指标1104。可替代地或另外地，在一些示例中，可懂度指标1204可以是考虑音频环境的特性(如环境噪声和/或混响)的经调整的可懂度指标。一个这样的示例是上文参考图10所描述的可懂度指标1010。

在一些实施方式中，如果可懂度指标1204指示可懂度是中等的，则可以省略指示诸如“[播放音乐]”的描述性文本的字幕并且可以仅包括语音字幕。在一些这样的示例中，随着可懂度降低，可以包括更多的描述性文本。

图13示出了被配置成基于可懂度指标来改变隐藏字幕的字幕修改器模块的示例。根据该示例，字幕修改器模块1302被配置成接收从图12的字幕生成器1202输出的字幕1203。在该示例中，字幕1203包含在视频流内。根据该示例，字幕修改器模块1302还被配置成接收可懂度指标1204并且确定是否以及如何基于可懂度指标1204来修改字幕。

在一些实施方式中，字幕修改器模块1302可以被配置成在可懂度指标1204较低的情况下增大字体大小以提高文本可懂度。在一些这样的示例中，字幕修改器模块1302还可以被配置成在可懂度指标1204较低的情况下改变字体类型以提高文本可懂度。

根据一些示例，字幕修改器模块1302可以被配置成应用字幕“过滤器”，取决于可懂度指标1204，该字幕“过滤器”可以潜在地减少经修改的字幕流1303中的字幕数量。例如，如果可懂度指标1204较低，则字幕修改器模块1302可以不过滤掉字幕中的许多(并且在一些实例中可以不过滤掉任何)字幕。如果可懂度指标1204较高，则字幕修改器模块1302可以确定所需的字幕数量已降低。例如，字幕修改器模块1302可以确定不需要诸如“[播放音乐]”的描述性字幕，但需要语音字幕。因此，将过滤掉描述性字幕，但语音字幕仍将保留在经修改的字幕流1303中。

在一些实施方式中，字幕修改器模块1302可以被配置成接收用户数据1305。根据一些这样的实施方式，用户数据1305可以指示用户的母语、用户的口音、用户在环境中的位置、用户的年龄和/或用户的能力中的一种或多种能力。与用户的能力中的一种或多种能力有关的数据可以包括与用户的听力能力、用户的语言水平、用户的口音理解水平、用户的视力和/或用户的阅读理解力有关的数据。

根据一些示例，如果用户数据1305指示用户的能力较低并且/或者如果可懂度指标1204较低，则字幕修改器模块1302可以被配置成使得简化或改述(例如，使用语言引擎)隐藏字幕的文本以增加用户可以理解正在显示器上示出的字幕的可能性。在一些示例中，字幕修改器模块1302可以被配置成为非母语者简化基于语音的文本并且/或者为有视觉问题的人以相对较大的字体大小来呈现文本。根据一些示例，如果用户数据1305指示用户的能力较高并且/或者如果可懂度指标1204较高，则字幕修改器模块1302可以被配置成使得隐藏字幕的文本保持不变。

在一些示例中，字幕修改器模块1302可以被配置成由于用户的偏好、年龄等而使得过滤隐藏字幕的文本以便移除特定短语。例如，字幕修改器模块1302可以被配置成过滤掉与粗话和/或俚语相对应的文本。

图14示出了可以基于噪声估计器来控制的非音频补偿过程和系统的进一步示例。可以以与上文所描述的隐藏字幕系统控制类似的方式打开和关闭这些系统。

在该示例中，电视1401的控制系统并入噪声估计系统和/或语音可懂度系统。控制系统被配置成基于从环境1400的一个或多个麦克风接收的麦克风信号来对环境噪声和/或语音可懂度做出估计。在可替代的示例中，用于音频系统的一个或多个元件(例如，包括一个或多个麦克风的智能扬声器)的控制系统可以并入噪声估计系统。该控制系统可以是图2的控制系统210的实例。

根据该示例，触觉显示系统1403是被配置成产生盲文文本的电控制式盲文显示系统。在该示例中，已经从控制系统传输指示应打开触觉显示系统1403或应简化盲文文本的信号1402。可以在噪声估计达到或超过阈值(例如，如本文中别处所描述的)之后已经从控制系统传输信号1402。当对盲人或有视觉障碍的用户而言环境噪声变得太高以至于无法容易地理解语音的音频版本时，这样的实施方式可以允许这样的用户理解语音。

在该示例中，座位振动器1405被配置成使座位振动。例如，座位振动器1405可以用于至少部分地补偿电视1401内的扬声器的低频性能的缺乏。在该示例中，已经从控制系统发送指示应开始使用座位振动器的信号1404。控制系统例如可以响应于确定噪声估计已达到或超过某个频带(例如，低频带)中的阈值而发送信号1404。根据一些示例，如果噪声估计系统确定环境噪声继续增加，则控制系统将使低频音频逐步路由到座位振动器1405。

如本公开中别处所述，可以由控制系统响应于噪声指标或语音可懂度指标而调用的一些公开的补偿过程涉及基于音频的处理方法。在一些这样的示例中，基于音频的处理方法还可以至少部分地补偿一个或多个音频再现换能器的限制，例如，补偿电视音频再现换能器系统的限制。一些这样的音频处理可以涉及音频简化(如音频场景简化)和/或音频增强。在一些示例中，音频简化可以涉及移除音频数据的一个或多个分量(例如，仅留下更重要的部分)。一些音频增强方法可以涉及将音频添加到整体音频再现系统，例如，添加到环境的相对更有能力的音频再现换能器。

图15示出了噪声补偿系统的示例。在该示例中，系统1500包括噪声补偿模块1504和处理模块1502，在该实例中，噪声补偿模块和处理模块两者都经由控制系统210来实施。处理模块1502被配置成处理输入音频数据1501，在一些示例中，输入音频数据可以是来自文件的音频信号或来自流媒体服务的音频信号。处理模块1502例如可以包括音频解码器、均衡器、多带限制器、宽带限制器、渲染器、上混器、语音增强器和/或低音分布模块。

在该示例中，噪声补偿模块1504被配置成确定环境噪声水平，并且在噪声补偿模块1504确定环境噪声水平处于或高于阈值的情况下将控制信号1507发送到处理模块1502。例如，如果处理模块1502包括解码器，则在一些示例中，控制信号1507可以指示解码器对质量相对较低的音频流进行解码以便节省功率。在一些示例中，如果处理模块1502包括渲染器，则在一些示例中，控制信号1507可以指示渲染器在噪声水平较高时仅渲染高优先级音频对象。在一些示例中，如果处理模块1502包括上混器，则在一些示例中，控制信号1507可以指示上混器丢弃扩散音频内容，使得将仅再现直接内容。

在一些实施方式中，处理模块1502和噪声补偿模块1504可以驻留在多于一个设备中。例如，可以基于噪声估计来将某个音频上混音到其他设备。可替代地或另外地，在一些实施方式(例如，针对盲人或有视觉障碍的人的实施方式)中，控制系统210可以从输入音频数据1501的源请求高噪声水平音频描述或低噪声水平音频描述。高噪声水平音频描述可以与输入音频数据1501内的相对较少的内容相对应，而低噪声水平音频描述可以与输入音频数据1501内的相对较多的内容相对应。在一些实施方式中，这些音频流可以包含在多流音频编解码器(如Dolby TrueHD)内。在可替代的实施方式中，这些音频流可以由控制系统210解密并且然后重新合成(例如，用于隐藏字幕)。

图16示出了被配置用于响应于检测到的环境噪声来进行语音增强的系统的示例。在该示例中，系统1600包括语音增强模块1602和噪声补偿模块1604，语音增强模块和噪声补偿模块两者都经由控制系统210来实施。根据该实施方式，噪声补偿模块1604被配置成确定环境噪声水平，并且在噪声补偿模块1604确定环境噪声水平处于或高于阈值的情况下将信号1607发送到语音增强模块1602。在一些实施方式中，噪声补偿模块1604可以被配置成确定环境噪声水平，并且将与环境噪声水平相对应的信号1607发送到语音增强模块1602，而不管环境噪声水平是处于还是高于阈值。

根据该示例，语音增强模块1602被配置成处理输入音频数据1601，在一些示例中，输入音频数据可以是来自文件的音频信号或来自流媒体服务的音频信号。例如，音频数据1601可以与例如电影或电视节目的视频数据相对应。在一些实施方式中，语音增强模块1602可以被配置成从噪声补偿模块1604接收环境噪声估计并且调整基于环境噪声估计来应用的语音增强量。例如，如果信号1607指示环境噪声较高，则在一些实施方式中，语音增强模块1602将使语音增强量增加，因为语音可懂度在存在高环境噪声水平的情况下变得更有挑战性。

配置语音增强模块1602而引起的语音增强的类型和程度取决于特定的实施方式。在一些示例中，语音增强模块1602可以被配置用于减少非语音音频数据的增益。可替代地或另外地，语音增强模块1602可以被配置用于增加语音频率的增益。

在一些实施方式中，语音增强模块1602和噪声补偿模块1604可以在多于一个设备中实施。例如，在一些实施方式中，助听器的语音增强特征可以(至少部分地)根据另一设备的(例如，电视的)噪声估计来控制。

根据一些示例，当环境的一个或多个音频再现换能器达到它们的限制时，可以使用语音增强模块1602，以便从系统移除音频且因此增强清晰度。当音频再现换能器未达到它们的线性范围的限制时，可以使用语音频率强调类型的语音增强。

图17示出了与受音频再现换能器特性限制的系统的元素相对应的曲线图的示例。在曲线图1700上示出的元素如下：

限制线1701表示在限制发生之前音频再现换能器的上限。例如，限制线1701可以表示由扩音器模型(例如，多带限制器调谐)确定的极限。在这个简单示例中，限制线1701对于指示的所有频率是相同的，但在其他示例中，限制线1701可以具有与不同频率相对应的不同水平。

根据该示例，曲线1702表示音频再现换能器(与限制线1701相对应的音频再现换能器)正在麦克风处产生的输出声压水平(SPL)。在该示例中，曲线1703表示麦克风处的噪声估计。

在该示例中，差值1704表示噪声估计与输出声压水平之间的差，在一些实例中，该差可以是频率相关的差。随着差值1704变小，在一些实施方式中，将逐步地启用一个或多个特征，以便增加尽管存在音频环境的环境噪声但用户仍可以继续理解和欣赏内容的可能性。根据一些实施方式，可以在逐带基础上逐步地开启这些特征。

以下段落描述了控制系统可以如何至少部分地基于差值1704来控制系统的各个组件的示例。

语音增强

随着差值1704的大小降低，控制系统可以使语音增强量增加。存在可以以这种方式被控制的至少两种形式的语音增强：

·降音式语音增强器，其中，随着差值1704的大小降低，减弱(音量或水平降低)非语音通道/音频对象的增益。在一些这样的示例中，控制系统可以使降音增益与差值1704的差呈负相关(例如，呈逆线性关系)。

·增强语音增强器，该增强语音增强器强调语音频率(例如，增加语音频率的水平)。在一些这样的示例中，随着差值1704的大小降低，控制系统可以使更多增益被应用于语音频率(例如，呈逆线性关系)。一些实施方式可以被配置成同时启用降音式语音增强器和增强语音增强器。

音频对象渲染

随着差值1704的大小降低，在一些实施方式中，控制系统可以使经渲染的音频对象的数量降低。在一些这样的示例中，可以基于对象音频元数据内的音频对象优先级字段来选择渲染或丢弃音频对象。根据一些实施方式，可以将感兴趣的音频对象(例如，与语音相对应的音频对象)渲染得相对更靠近收听者和/或相对更远离环境内的噪声源。

上混音

随着差值1704的大小降低，在一些实施方式中，控制系统可以使混音内的总能量改变。例如，随着差值1704降低，控制系统可以使上混音矩阵将相同音频复制到所有音频通道，以便使音频通道中的所有音频通道作为一个共模来起作用。随着差值1704降低，控制系统可以使得保留空间保真度(例如，不发生上混音)。一些实施方式可以涉及丢弃扩散音频。一些这样的示例可以涉及向所有音频通道渲染非扩散内容。

下混音

随着差值1704的大小降低，在一些实施方式中，控制系统可以使不太重要的通道在混音内被丢弃。根据一些可替代的实施方式，控制系统可以例如通过将负增益应用于不太重要的通道来使不太重要的通道不被强调。

虚拟低音

随着差值1704的大小在低音带内降低，在一些实施方式中，控制系统可以使依赖于丢失谐波效应的虚拟低音算法打开和关闭，以尝试并克服噪声源的响度。

低音分布

在一些低音传播/分布方法中，所有通道中的低音可以通过低通滤波器提取、被汇总到一个通道中并且然后作为共模被重新混合到所有通道中。根据一些这样的方法，可以使用高通滤波器使非低音频率通过。在一些实施方式中，控制系统可以使低通/高通组合的截止频率随着差值1704的大小降低而增加。随着差值1704的大小增加，控制系统可以使截止频率接近零并且因此将不传播低音。

虚拟器

随着差值1704的大小降低，在一些示例中，控制系统可以使虚拟化降低直到虚拟化被完全关闭为止。在一些实施方式中，控制系统可以被配置用于计算音频流的虚拟化版本和未虚拟化版本以及它们之间的交叉渐变，其中，每个分量的加权与差值1704的大小相对应。

图18示出了其中助听器被配置用于与电视进行通信的系统的示例。在该示例中，系统1800包括以下元素：

1801：并入噪声补偿系统的电视；

1802：测量环境噪声的麦克风；

1803：无线传输器，该无线传输器被配置成将数字或模拟音频转换成助听器1807接受的无线流；

1804：数字或模拟音频流。在一些示例中，数字或模拟音频流可以并入元数据以辅助助听器改变真实世界音频与无线流的混合、改变语音增强量或应用一些其他噪声补偿方法；

1805：无线流式传输的音频；

1806：有听力障碍的用户；

1807：助听器。在该示例中，助听器1807被配置用于经由无线协议(例如，蓝牙)与电视1801进行通信；

1808：噪声源。

与本文所提供的其他图一样，图18中示出的元件的类型和数量仅作为示例提供。其他实施方式可以包括更多、更少和/或不同类型和数量的元素。例如，在一些可替代的实施方式中，个人声音放大产品、人工耳蜗或其他听力辅助设备、或者头戴式耳机可以被配置用于与电视1801进行通信并且还可以被配置成执行本文参考助听器1807所描述的操作中的一些或所有操作。

根据该示例，经由无线协议来发送来自电视1801的音频1805。助听器1807被配置成将无线音频与房间中的环境噪声混合以确保用户可以听到电视音频同时仍能够与真实世界进行交互。电视1801并入噪声补偿系统，该噪声补偿系统可以是本文所公开的噪声补偿系统的类型之一。在该实例中，噪声源1808存在于音频环境内。并入到电视1801中的噪声补偿系统被配置成测量环境噪声并且将指示所需要的混合量的信息和/或控制信号传输到助听器1807。例如，在一些实施方式中，环境噪声水平越高，电视音频信号与来自助听器麦克风的信号的混合程度越高。在一些可替代的实施方式中，助听器1807可以并入噪声估计系统中的一些或所有。在一些这样的实施方式中，助听器1807可以被配置成实施助听器内的音量控制。在一些这样的实施方式中，助听器1807可以被配置成调整电视的音量。

图19示出了助听器的混合和语音增强组件的示例。在该示例中，助听器1807包括以下元素：

1901：音频环境的噪声估计。在该示例中，由电视的噪声补偿系统提供噪声估计。在可替代的实施方式中，由另一设备(例如，助听器1807)的噪声补偿系统提供噪声估计；

1902：电视音频流的增益设置；

1903：助听器麦克风流的增益设置；

1904：电视流中的音频；

1905：助听器流中的音频，在该示例中，由一个或多个助听器麦克风提供该助听器流；

1906：在进行求和之前助听器音频流中的经增益调整的音频(在语音增强器的情况下可以是频率相关的增益)；

1907：在进行求和之前电视音频流中的经增益调整的音频(在语音增强器的情况下可以是频率相关的增益)；

1908：产生混合音频流的求和块；

1909：要播放到助听器的扬声器(或在其他示例中经由人工耳蜗电极)的经混合的音频流；

1910：增强控制模块，该增强控制模块被配置成基于由电视发送的噪声估计1901来调整增益(在一些实例中可以是频率相关的增益)。在一些实施方式中，增强控制模块可以被配置成使音量水平保持不变或保持在某音量水平的范围内，并且基于噪声估计1901、例如，通过使增益的和等于诸如一的预定值来改变助听器麦克风和电视音频流的比例；

1911：电视流的增益应用块。在一些实施方式中(例如，在简单混合器的情况下)，增益例如可以是宽带增益。在一些可替代的实施方式中(例如，在语音增强模块的情况下)，增益可以是用于每个语音增强水平的一组频率相关的增益。在一些这样的实施方式中，控制系统210可以被配置成从存储的数据结构(例如，查找表)访问该组频率相关的增益；

1912：电视流的增益应用块。在一些实施方式中(例如，在简单混合器的情况下)，增益例如可以是宽带增益。在一些可替代的实施方式中(例如，在语音增强模块的情况下)，增益可以是用于每个语音增强水平的一组频率相关的增益。在一些这样的实施方式中，控制系统210可以被配置成从存储的数据结构(例如，查找表)访问该组频率相关的增益。

与本文所提供的其他图一样，图19中示出的元素的类型和数量仅作为示例提供。其他实施方式可以包括更多、更少和/或不同类型和数量的元素。例如，在一些可替代的实施方式中，可以例如基于由电视发送给助听器1807的回声参考在助听器1807中计算噪声估计。一些可替代的示例可以涉及个人声音放大产品、人工耳蜗、头戴式耳机或伙伴麦克风设备(例如，具有定向麦克风并且被配置成允许用户专注于与其伙伴的谈话的伙伴麦克风设备)。一些这样的伙伴麦克风设备还可以被配置成传输多媒体设备的声音(例如，与要经由电视再现的视频数据相对应的音频)。

图20是示出了环境噪声水平的示例的曲线图。在该示例中，曲线图2000示出了可以用作对图18和图19的助听器1807的输入的环境噪声水平的示例。

在该示例中，曲线2001表示低环境噪声水平估计。根据一些实施方式，在该水平下，控制系统210可以使发生的混合量由来自外部世界的音频(例如，来自一个或多个助听器麦克风的音频信号)支配，其中，电视音频水平相对较低。这样的实施方式可以被配置成增加有听力障碍的用户将能够在安静环境中与其他人进行谈话的可能性。

根据该示例，曲线2002表示中等环境噪声水平估计。根据一些实施方式，在该水平下，控制系统210可以使混合内的电视音频量相对多于参考曲线2001所讨论的情景。在一些示例中，在该水平下，控制系统210可以使混合内的电视音频量与来自一个或多个助听器麦克风的音频信号的水平相同或大约相同。

在该示例中，曲线2003表示高环境噪声水平估计。根据一些实施方式，在该水平下，控制系统210可以使混合内的电视音频量最大化。在一些实施方式中，电视音频在混合中的比例可以存在上限(例如，用户可设置的上限)。这样的实施方式可以增加助听器仍允许由用户检测到助听器麦克风馈送的高水平声学信号(如喊叫)的可能性，以便增强用户安全性。

一些公开的实施方式可以涉及在本文将被称为“编码器”的设备的操作。尽管可以由单个块来图示编码器，但可以经由一个或多个设备来实施编码器。在一些实施方式中，可以由数据中心的基于云的服务的一个或多个设备(如一个或多个服务器、数据存储设备等)来实施编码器。在一些示例中，编码器可以被配置成响应于噪声指标和/或语音可懂度指标来确定要执行的补偿过程。在一些实施方式中，编码器可以被配置成确定语音可懂度指标。一些这样的实施方式可以涉及编码器与下游“解码器”之间的交互，例如，其中，解码器将环境噪声指标提供给编码器。其中编码器执行所公开的方法中的至少一些方法(例如，确定补偿过程或确定多个可选择的补偿过程)的实施方式可以潜在地有利，因为编码器通常将比解码器具有多得多的处理能力。

图21示出了根据一个实施方式的编码器块和解码器块的示例。在该示例中，编码器2101被示出为将经编码音频比特流2102传输到解码器2103。在一些这样的示例中，编码器2101可以被配置用于将经编码音频比特流传输到多个解码器。

根据一些实施方式，编码器2101和解码器2103可以由控制系统210的单独实例来实施，而在其他示例中，编码器2101和解码器2103可以被视为控制系统210的单个实例的部分，例如，被视为单个系统的组件。尽管编码器2101和解码器2103在图21中被示出为单个块，但在一些实施方式中，编码器2101和/或解码器2103可以包括多于一个组件，例如被配置成执行各种任务的模块和/或子模块。

在一些实施方式中，解码器2103可以经由诸如家庭音频环境的音频环境的一个或多个设备来实施。在上文段落中参考图2至图20描述了解码器2103可以执行的一些任务。在一些这样的示例中，解码器2103可以经由音频环境的电视、经由音频环境的电视控制模块等来实施。然而，在一些示例中，解码器2103的功能中的至少一些功能可以经由音频环境的一个或多个其他设备(例如，助听器、个人声音放大产品、人工耳蜗、头戴式耳机、膝上型计算机、移动设备、智能扬声器、被配置用于(例如，经由因特网)与解码器2103进行通信的智能家居中枢以及音频环境的电视等)来实施。

在下文段落中描述了编码器2101可以执行的一些任务。在一些实施方式中，编码器2101可以经由数据中心的基于云的服务的一个或多个设备(如一个或多个服务器、数据存储设备等)来实施。在图21中示出的示例中，编码器2101已接收或获得音频比特流，已对接收到的音频比特流进行编码，并且处于将经编码音频比特流2102传输到解码器2103的过程中。在一些这样的示例中，经编码音频比特流2102可以是包括经编码视频数据(例如，与电视节目、电影、音乐表演等相对应)的经编码内容流的一部分。经编码音频比特流2102可以与经编码视频数据相对应。例如，经编码音频比特流2102可以包括与经编码视频数据相对应的语音(例如，对话)。在一些实施方式中，经编码音频比特流2102可以包括与经编码视频数据相对应的音乐和音频效应(M&E)。

在一些公开的实施方式中，编码器2101可以被配置用于确定噪声指标和/或语音可懂度指标。在一些示例中，编码器2101可以被配置用于响应于噪声指标和/或语音可懂度指标来确定要执行的补偿过程，例如，如本文中别处所公开的。在一些实施方式中，编码器2101可以被配置成确定针对一种或多种类型的环境噪声曲线的补偿过程。在一些示例中，环境噪声曲线中的每一个可以与环境噪声的类别(例如，交通噪声、火车噪声、下雨等)相对应。在一些这样的示例中，编码器2101可以被配置用于确定针对每个类别的环境噪声的多个补偿过程。多个补偿过程中的每个补偿过程例如可以与不同水平的环境噪声相对应。例如，一个补偿过程可以与低水平的环境噪声相对应，另一补偿过程可以与中等水平的环境噪声相对应，并且另一补偿过程可以与高水平的环境噪声相对应。根据一些这样的示例，编码器2101可以被配置用于确定与补偿过程相对应的补偿元数据并且用于将补偿元数据提供给解码器2103。在一些这样的实施方式中，编码器2101可以被配置用于确定与多个补偿过程中的每个补偿过程相对应的补偿元数据。在一些这样的示例中，解码器2103(或另一下游设备)可以被配置成确定音频环境中的环境噪声的类别和/或水平并根据从编码器2101接收的补偿元数据来选择相对应的补偿过程。可替代地或另外地，解码器2103可以被配置成确定音频环境位置并根据从编码器2101接收的补偿元数据来选择相对应的补偿过程。在一些示例中，编码器2101可以被配置用于确定允许从音频数据提取语音数据的语音元数据并且用于将语音元数据提供给解码器2103。

然而，在图21中示出的示例中，编码器2101不将语音元数据或补偿元数据提供给解码器2103或其他下游设备。图21中示出的示例在本文中有时可以被称为“单端后处理”或“用例1”。

图22示出了根据另一实施方式的编码器块和解码器块的示例。在图22中示出的示例中，编码器2101将补偿元数据2204提供给解码器2103。图22中示出的示例在本文中有时可以被称为“双端后处理”或“用例2”。

在一些示例中，补偿元数据2204可以与例如如上所述的用于更改对音频数据的处理的过程相对应。根据一些这样的示例，更改对音频数据的处理可以涉及应用一种或多种语音增强方法，例如，降低非语音音频的增益或增加语音频率的增益。在一些这样的示例中，更改对音频数据的处理不涉及将宽带增益增加应用于音频信号。可替代地或另外地，补偿元数据2204可以与用于应用基于非音频的补偿方法(例如，控制隐藏字幕系统、唱词字幕系统或对白字幕系统)的过程相对应。

图23示出了可以响应于接收到图21中示出的经编码音频比特流而执行的解码器侧操作的一些示例。在该示例中，通过本地噪声确定和补偿来增强单端后处理噪声补偿(用例1)。图23中示出的示例在本文中有时可以被称为“单端后处理—噪声补偿”或“用例3”。

在该示例中，解码器2103所处的音频环境包括被配置成检测环境噪声的一个或多个麦克风2301。根据该示例，解码器2103或一个或多个麦克风2301被配置成基于由一个或多个麦克风2301进行的环境噪声测量来计算噪声指标2302。在该实施方式中，解码器2103被配置成使用噪声指标2302来确定和应用适当的噪声补偿2303以用于本地回放。如果噪声补偿不充分(在该示例中，如根据噪声指标2302所确定的)，则解码器2103被配置成启用基于非音频的补偿方法。在图23中示出的示例中，基于非音频的补偿方法涉及启用由“对白字幕”框2304表示的隐藏字幕系统、唱词字幕系统或对白字幕系统。

图24示出了可以响应于接收到图22中示出的经编码音频比特流而执行的解码器侧操作的一些示例。在该示例中，通过本地噪声确定和补偿来增强双端后处理噪声补偿(用例2)。图24中示出的示例在本文中有时可以被称为“用例4”。

在该示例中，解码器2103所处的音频环境包括被配置成检测环境噪声的一个或多个麦克风2301。根据该示例，解码器2103或一个或多个麦克风2301被配置成基于由一个或多个麦克风2301进行的环境噪声测量来计算噪声指标2302。

根据一些示例，补偿元数据2204可以包括多个可选择选项。在一些示例中，该可选择选项中的至少一些可以与噪声指标相对应或与某范围的噪声指标相对应。在一些实施方式中，解码器2103可以被配置成使用噪声指标2302来自动选择从编码器2101接收的适当的补偿元数据2204。基于该自动选择，在一些示例中，解码器2103可以被配置成确定并且应用适当的基于音频的噪声补偿2303以用于本地回放。

如果噪声补偿2303不充分(在该示例中，根据噪声指标2302来确的)，则解码器2103被配置成启用基于非音频的补偿方法。在图24中示出的示例中，基于非音频的补偿方法涉及启用由“对白字幕”框2304表示的隐藏字幕系统、唱词字幕系统或对白字幕系统。

图25示出了根据另一实施方式的编码器块和解码器块的示例。在图25中示出的示例中，编码器2101被配置成基于对音频比特流中的语音的分析来确定可懂度指标2501。在该示例中，编码器2101被配置成将可懂度指标2501提供给解码器2103。图25中示出的示例在本文中有时可以被称为“双端后处理—可懂度指标”或“用例5”。

在图25中示出的示例中，解码器2103被配置成至少部分地基于从编码器2101接收的一个或多个可懂度指标2501来确定本地音频环境中的用户是否有可能理解音频比特流中的语音。如果解码器2103断定用户不太可能理解语音(例如，如果解码器2103确定可懂度指标2501低于阈值)，则解码器2103被配置成启用由“对白字幕”框2304表示的基于非音频的补偿方法。

图26示出了根据另一实施方式的编码器块和解码器块的示例。在图26中示出的示例中，与图25的示例一样，编码器2101被配置成基于对音频比特流中的语音的分析来确定可懂度指标2501。在该示例中，编码器2101被配置成将可懂度指标2501提供给解码器2103。然而，在该示例中，解码器2103或一个或多个麦克风2301被配置成基于由一个或多个麦克风2301进行的环境噪声测量来计算噪声指标2302。图26中示出的示例在本文中有时可以被称为“双端后处理—噪声补偿和可懂度指标”或“用例6”。

在该实施方式中，解码器2103被配置成使用噪声指标2302来自动选择从编码器2101接收的适当的补偿元数据2204。基于该自动选择，在该示例中，解码器2103被配置成确定并应用适当的噪声补偿2303以用于本地回放。

在图26中示出的示例中，解码器2103还被配置成在已应用适当的噪声补偿2303之后至少部分地基于从编码器2101接收的可懂度指标2501以及噪声指标2302来确定本地音频环境中的用户是否有可能理解音频比特流中的语音。如果解码器2103断定用户不太可能理解语音(例如，如果例如通过查询可懂度指标以及相对应的噪声指标和阈值的数据结构，解码器2103确定可懂度指标2501低于与特定的噪声指标2302相对应的阈值)，则解码器2103被配置成启用由“对白字幕”框2304表示的基于非音频的补偿方法。

图27示出了可以响应于接收到图21中示出的经编码音频比特流而执行的解码器侧操作的一些可替代的示例。在该示例中，进一步通过反馈回路来增强上文参考图23所描述的噪声补偿“用例3”。图27中示出的示例在本文中有时可以被称为“反馈—噪声补偿”或“用例7”。

在该示例中，解码器2103所处的音频环境包括被配置成检测环境噪声的一个或多个麦克风2301。根据该示例，解码器2103或一个或多个麦克风2301被配置成基于由一个或多个麦克风2301进行的环境噪声测量来计算噪声指标2302。在该示例中，将噪声指标2302提供给编码器2101。

根据该实施方式，编码器2101被配置用于至少部分地基于噪声指标2302来确定是否要降低传输到解码器2103的经编码音频数据2102的复杂度水平。在一些示例中，如果噪声指标2302指示在解码器2103的音频环境中存在高水平噪声，则编码器2101可以被配置用于确定将经编码音频数据2102的不太复杂的版本传输到解码器2103。在一些这样的示例中，如果噪声指标2302指示在解码器2103的音频环境中存在高水平噪声，则编码器2101可以被配置用于传输对于在噪声环境中进行回放更适当的较低质量、较低数据速率的音频比特流。

根据一些实施方式，编码器2101可以访问多个音频版本，例如，从最低质量的音频版本到最高质量的音频版本的范围。在一些这样的示例中，编码器2101可以先前已经对该多个音频版本进行编码。根据一些这样的示例，编码器2101可以被配置用于接收包括接收到的视频数据以及与视频数据相对应的接收到的音频数据的内容流。在一些这样的示例中，编码器2101可以被配置用于准备与接收到的音频数据相对应的多个经编码音频版本(从最低质量的经编码音频版本到最高质量的经编码音频版本的范围)。

在一些示例中，至少部分地基于噪声指标2302来确定是否要降低经编码音频数据2102的复杂度水平可以涉及确定将哪个经编码音频版本传输到解码器2103。

在一些示例中，接收到的音频数据可以包括音频对象。根据一些这样的示例，最高质量的经编码音频版本可以包括接收到的音频数据的音频对象中的所有音频对象。在一些这样的示例中，较低质量的经编码音频版本可以包括少于接收到的音频数据的音频对象中的所有音频数据。根据一些实施方式，较低质量的经编码音频版本可以包括有损压缩音频，该有损压缩音频包括比接收到的音频数据少的位并且可以以比接收到的音频数据的位速率低的位速率来传输。在一些实例中，接收到的音频数据可以包括指示音频对象优先级的音频对象优先级元数据。在一些这样的示例中，编码器2101可以被配置用于至少部分地基于音频对象优先级元数据来确定经编码音频版本中的每一个音频版本中将有哪些音频对象。

在该实施方式中，解码器2103被配置成使用噪声指标2302来确定并应用适当的噪声补偿2303以用于本地回放。如果噪声补偿不充分(在该示例中，如根据噪声指标2302所确定的)，则解码器2103被配置成启用基于非音频的补偿方法。在图27中示出的示例中，基于非音频的补偿方法涉及启用由“对白字幕”框2304表示的隐藏字幕系统、唱词字幕系统或对白字幕系统。如果解码器2103已接收到相对较低质量的音频比特流，则基于音频的噪声补偿和/或基于非音频的噪声补偿可能是必要的。在一些示例中，可以先前已经基于来自解码器侧的关于用户的音频环境中的噪声的反馈、关于用户的系统的音频能力的信息等发送低质量的音频比特流。

图28示出了图24和图27中示出的系统的增强版本。图28中示出的示例在本文中有时可以被称为“反馈-双端后处理”或“用例8”。根据该实施方式，编码器2101被配置成将响应于从解码器2103接收的噪声指标2302的经编码音频数据2102提供给解码器2103。在一些示例中，编码器2101可以被配置成选择并提供如上文参考图27所描述的经编码音频数据2102。

在该示例中，编码器2101还被配置成将响应于从解码器2103接收的噪声指标2302的补偿元数据2204提供给解码器2103。在一些这样的示例中，解码器2103可以被配置成简单地应用与从编码器2101接收的补偿元数据2204相对应的音频或非音频补偿方法。

根据一些可替代的示例，编码器2101可以被配置成提供与各种可选择补偿选项相对应的补偿元数据2204，例如，如上文参考图24所描述的。然而，在一些这样的实施方式中，编码器2101可以被配置成至少部分地基于从解码器2103接收的噪声指标2302来选择补偿选项中的全部补偿选项以及相对应的补偿元数据2204。在一些实施方式中，可以至少部分地基于从解码器2103接收的噪声指标2302来调整或重新计算先前传输的补偿元数据2204。在一些这样的实施方式中，解码器2103可以被配置成使用噪声指标2302来自动选择从编码器2101接收的适当的补偿元数据2204。基于该自动选择，在该示例中，解码器2103可以被配置成确定并且应用适当的噪声补偿2303以用于本地回放。如果噪声补偿2303不充分(在该示例中，如根据噪声指标2302所确定的)，则解码器2103被配置成启用基于非音频的补偿方法。在图24中示出的示例中，基于非音频的补偿方法涉及启用由“对白字幕”框2304表示的隐藏字幕系统、唱词字幕系统或对白字幕系统。根据一些示例，编码器2101可以被配置成至少部分地基于从解码器2103接收的噪声指标2302来修改隐藏字幕、唱词字幕或对白字幕。例如，如果噪声指标2302指示处于或高于阈值水平的环境噪声水平，则编码器2101可以被配置成简化文本。

图29示出了根据另一实施方式的编码器块和解码器块的示例。图29示出了上文参考图25所描述的示例的增强版本。如在图25的示例中，编码器2101被配置成基于对音频比特流中的语音的分析来确定语音可懂度指标2501。在该示例中，编码器2101被配置成将一个或多个语音可懂度指标2501和补偿元数据2204提供给解码器2103。

然而，在图29中示出的示例中，解码器2103还被配置成确定一个或多个语音可懂度指标2901并且将一个或多个语音可懂度指标2901提供给编码器2101。图29中示出的示例在本文中有时可以被称为“反馈-可懂度指标”或“用例9”。

根据一些示例，一个或多个语音可懂度指标2901可以至少部分地基于与解码器2103驻留在其中的音频环境中的观看者和/或收听者相对应的一个或多个用户特性。一个或多个用户特性例如可以包括用户的母语、用户的口音、用户在环境中的位置、用户的年龄、和/或用户的能力中的至少一种能力。用户的能力例如可以包括用户的听力能力、用户的语言水平、用户的口音理解水平、用户的视力和/或用户的阅读理解力。

在一些实施方式中，编码器2101可以被配置成至少部分地基于一个或多个语音可懂度指标2901来选择补偿元数据和/或经编码音频数据2102的质量水平。在一些这样的示例中，如果一个或多个语音可懂度指标2901要指示用户具有高水平的语言水平但非常轻微地减弱的听力能力，则编码器2101可以被配置成选择并且发送高质量的语音通道/对象以增加对于本地回放的可懂度。根据一些示例，如果一个或多个语音可懂度指标2901要指示用户具有低水平的语言水平和/或口音理解力，则编码器2101可以被配置成向解码器2103发送与基于非音频的补偿方法(例如，涉及控制隐藏字幕系统、唱词字幕系统或对白字幕系统的方法)相对应的补偿元数据2204。根据一些示例，编码器2101可以被配置成至少部分地基于从解码器2103接收的噪声指标2302和/或可懂度指标2901来修改隐藏字幕、唱词字幕或对白字幕。例如，编码器2101可以被配置成在噪声指标2302指示处于或高于阈值水平的环境噪声水平的情况下和/或在可懂度指标2901(或更新的可懂度指标2501)低于阈值水平的情况下简化文本。

在图29中示出的示例中，解码器2103被配置成至少部分地基于一个或多个语音可懂度指标2901和/或从编码器2101接收的可懂度指标2501来确定本地音频环境中的用户是否有可能理解音频比特流中的语音。如果解码器2103断定用户不太可能理解语音(例如，如果解码器2103确定可懂度指标2501低于阈值)，则解码器2103被配置成启用由“对白字幕”框2304表示的基于非音频的补偿方法。在一些实施方式中，如果一个或多个语音可懂度指标2901要指示用户具有低水平的语言水平和/或口音理解力，则编码器2101可以被配置成发送具有已经包括在视频流中的隐藏字幕、唱词字幕或对白字幕的经编码视频流。

图30示出了根据另一实施方式的编码器块和解码器块的示例。图30示出了上文参考图28和图29所描述的示例的增强版本。如在图29的示例中，编码器2101被配置成基于对音频比特流中的语音的分析来确定语音可懂度指标2501。在该示例中，编码器2101被配置成将一个或多个语音可懂度指标2501和补偿元数据2204提供给解码器2103。如在图29中示出的示例中，解码器2103还被配置成确定一个或多个语音可懂度指标2901并且将该一个或多个语音可懂度指标2901提供给编码器2101。此外，如在图28中示出的示例中，解码器2103还被配置成确定噪声指标2302并且将该噪声指标2302传输到编码器2101。图30中示出的示例在本文中有时可以被称为“双端后处理—补偿和可懂度指标”或“用例10”。

根据一些示例，可以如上文参考图29所描述的确定一个或多个语音可懂度指标2901。在一些实施方式中，编码器2101可以被配置成例如如上文参考图29所描述的少部分地基于该一个或多个语音可懂度指标2901来选择补偿元数据和/或经编码音频数据2102的质量水平。根据一些示例，编码器2101可以被配置成至少部分地基于噪声指标2302来选择补偿元数据和/或经编码音频数据2102的质量水平。

在一些这样的示例中，解码器2103可以被配置成简单地应用与从编码器2101接收的补偿元数据2204相对应的音频或非音频补偿方法。根据一些可替代的示例，编码器2101可以被配置成提供与各种可选择补偿选项相对应的补偿元数据2204，例如，如上文参考图24所描述的。

在一些实施方式中，如果解码器2103确定用户不太可能理解经编码音频信号2102中的语音，则解码器2103可以被配置成向编码器2101提供反馈。在一些这样的示例中，解码器2103可以被配置成从编码器2101请求高质量音频。在可替代的示例中，解码器2103可以被配置成向编码器2101发送传输具有已经包括在视频流中的隐藏字幕、唱词字幕或对白字幕的经编码视频流的请求。在一些这样的示例中，如果隐藏字幕、唱词字幕或对白字幕被包括在相对应的视频流中，则编码器2101可以传输经编码音频数据2102的较低质量版本。

图31示出了各种公开的用例之间的关系。图31在一张图中并且在一页上总结了图21至图30以及许多前述说明段落，包括各种用例的比较。例如，从单端后处理(“用例1”)遍历到双端后处理(“用例2”)，图31指示在“用例2”中添加了补偿元数据。这也可以通过比较图21和图22看出。从“用例2”遍历到通过本地噪声确定和补偿增强的双端后处理(“用例4”)，图31指示在“用例4”中添加了噪声指标和补偿元数据。这也可以通过比较图22和图24看出。

图32是概述了所公开的方法的一个示例的流程图。与本文所描述的其他方法一样，不必以所指示的顺序来执行方法3200的框。此外，这样的方法可以包括比示出和/或描述的框更多或更少的框。

方法3200可以由诸如图2中示出并且上文描述的装置200的装置或系统来执行。在一些示例中，方法3200的框可以由实施基于云的服务的设备(如服务器)来执行。根据一些示例，方法3200可以至少部分地由上文参考图21至图31所描述的编码器2101来执行。然而，在可替代的实施方式中，方法3200的至少一些框可以由音频环境内的一个或多个设备(例如，由上文参考图21至图31所描述的解码器2103、由电视或由电视控制模块)来执行。

在该实施方式中，框3205涉及由第一控制系统并且经由第一接口系统接收包括视频数据和与视频数据相对应的音频数据的内容流。例如，框3205可以涉及上文参考图21至图31所描述的编码器2101的控制系统或者类似编码系统的控制系统从内容提供商(例如电视节目、电影等的提供商)接收内容流。

在该示例中，框3210涉及由第一控制系统确定噪声指标和/或语音可懂度指标。框3210可以涉及用于确定噪声指标和/或语音可懂度指标的所公开的方法中的任何一种方法。在一些示例中，框3210可以涉及从另一设备(例如上文参考图21到图31所描述的解码器2103)接收噪声指标和/或语音可懂度指标。在一些示例中，框3210可以涉及经由分析与语音相对应的内容流的音频数据来确定语音可懂度指标。

根据该示例，框3215涉及由第一控制系统响应于噪声指标或语音可懂度指标中的至少一个来确定要执行的补偿过程。在该示例中，补偿过程涉及更改对音频数据的处理和/或应用基于非音频的补偿方法。根据该实施方式，更改对音频数据的处理不涉及将宽带增益增加应用于音频信号。框3215可以涉及确定所公开的补偿过程中的任何补偿过程，包括用于更改对音频数据的处理的方法和/或用于应用基于非音频的补偿方法的方法。

在一些示例中，基于非音频的补偿方法可以涉及控制隐藏字幕系统、唱词字幕系统或对白字幕系统。在一些这样的示例中，控制隐藏字幕系统、唱词字幕系统或对白字幕系统可以涉及至少部分地基于语音可懂度指标来控制字体或字体大小中的至少一个。在一些这样的示例中，控制隐藏字幕系统、唱词字幕系统或对白字幕系统可以涉及以下中的一个或多个：至少部分地基于语音可懂度指标来确定是否要过滤掉一些基于语音的文本、确定是否要简化至少一些基于语音的文本或确定是否要改述至少一些基于语音的文本。在一些实例中，控制隐藏字幕系统、唱词字幕系统或对白字幕系统可以涉及至少部分地基于噪声指标来确定是否要显示文本。

根据一些示例，更改对音频数据的处理可以涉及至少部分地基于噪声指标或语音可懂度指标中的至少一个来应用一种或多种语音增强方法。在一些这样的示例中，该一种或多种语音增强方法可以包括降低非语音话音频的增益和/或增加语音频率的增益。在一些实例中，更改对音频数据的处理可以涉及至少部分地基于噪声指标或语音可懂度指标中的至少一个来更改上混音过程、下混音过程、虚拟低音过程、低音分布过程、均衡过程、分频滤波器、延迟滤波器、多带限制器或虚拟化过程中的一个或多个。

在该示例中，框3220涉及由第一控制系统确定与补偿过程相对应的补偿元数据。在此处，框3225涉及通过由第一控制系统对补偿元数据进行编码来产生经编码补偿元数据。在该示例中，框3230涉及通过由第一控制系统对视频数据进行编码来产生经编码视频数据。根据该示例，框3235涉及通过由第一控制系统对音频数据进行编码来产生经编码音频数据。

在该实施方式中，框3240涉及将包括经编码补偿元数据、经编码视频数据和经编码音频数据的经编码内容流从第一设备传输到至少第二设备。第一设备例如可以是上文参考图21至图31所描述的编码器2101。

在一些示例中，第二设备包括被配置用于对经编码内容流进行解码的第二控制系统。第二设备例如可以是上文参考图21至图31所描述的解码器2103。

根据一些示例，补偿元数据可以包括可由第二设备或由第二设备的用户选择的多个选项。在一些这样的示例中，该多个选项中的至少一些(例如，两个或更多个)选项可以与可在第二设备所处的环境中出现的噪声水平相对应。一些这样的方法可以涉及由第二控制系统并且至少部分地基于噪声水平来自动选择两个或更多个选项中的一个选项。

在一些示例中，该多个选项中的至少一些(例如，两个或更多个)选项可以与一个或多个语音可懂度指标相对应。在一些这样的示例中，经编码内容流可以包括语音可懂度元数据。一些这样的方法可以涉及由第二控制系统并且至少部分地基于语音可懂度元数据来选择两个或更多个选项中的一个选项。在一些这样的示例中，该多个选项中的每个选项可以与第二设备的用户的已知或估计的听力能力、已知或估计的语言水平、已知或估计的口音理解水平、已知或估计的视敏度、或已知或估计的阅读理解力中的一个或多个相对应。根据一些示例，该多个选项中的每个选项可以与语音增强水平相对应。

在一些实施方式中，第二设备与特定的回放设备(例如，特定的电视)相对应。一些这样的实施方式可以涉及由第一控制系统并且经由第一接口系统从第二设备接收噪声指标或语音可懂度指标中的至少一个。在一些示例中，补偿元数据可以与噪声指标和/或语音可懂度指标相对应。

一些示例可以涉及由第一控制系统并且至少部分地基于噪声指标或语音可懂度指标来确定经编码音频数据将与所有接收到的音频数据相对应还是仅与接收到的音频数据的部分相对应。在一些这样的示例中，音频数据包括音频对象以及指示音频对象优先级的相对应的优先级元数据。根据其中确定经编码音频数据将仅与接收到的音频数据的部分相对应的一些这样的示例，方法可以涉及至少部分地基于优先级元数据来选择接收到的音频数据的该部分。

在一些实施方式中，第二设备可以是已向其传输经编码音频数据的多个设备之一。根据一些这样的实施方式，可以已经至少部分地基于针对用户类别的已知或估计的语音可懂度来选择该多个设备。在一些实例中，可以已经通过已知或估计的听力能力、已知或估计的语言水平、已知或估计的口音理解水平、已知或估计的视敏度、或者已知或估计的阅读理解力中的一个或多个来定义用户类别。根据一些这样的示例，可以已经至少部分地基于关于特定地理区域(例如，特定国家或国家的特定区)的语言水平和/或口音理解水平的一个或多个假设来定义用户类别。

在一些实施方式中，音频数据可以包括语音数据以及音乐和效果(M&E)数据。一些这样的实施方式可以涉及由第一控制系统将语音数据与M&E数据区分开。一些这样的方法可以涉及由第一控制系统确定允许从音频数据提取语音数据的语音元数据以及通过由第一控制系统对语音元数据进行编码来产生经编码语音元数据。在一些这样的实施方式中，传输经编码内容流可以涉及将经编码语音元数据传输到至少第二设备。

图33是概述了所公开的方法的一个示例的流程图。与本文所描述的其他方法一样，不必以所指示的顺序来执行方法3300的框。此外，这样的方法可以包括比示出和/或描述的框更多或更少的框。

方法3300可以由诸如图2中示出并且上文描述的装置200的装置或系统来执行。在一些示例中，方法3300的框可以由实施基于云的服务的设备(如服务器)来执行。根据一些示例，方法3300可以至少部分地由上文参考图21至图31所描述的编码器2101来执行。然而，在可替代的实施方式中，方法3300的至少一些框可以由音频环境内的一个或多个设备(例如，由上文参考图21至图31所描述的解码器2103、由电视或由电视控制模块)来执行。

在该实施方式中，框3305涉及由第一控制系统并且经由第一设备的第一接口系统接收包括视频数据和与视频数据相对应的音频数据的内容流。例如，框3305可以涉及上文参考图21至图31所描述的编码器2101的控制系统或者类似编码系统的控制系统从内容提供商接收内容流。

在该示例中，框3310涉及由第一控制系统从第二设备接收噪声指标和/或语音可懂度指标。在一些示例中，框3310可以涉及从上文参考图21至图31所描述的解码器2103接收噪声指标和/或语音可懂度指标。

根据该示例，框3315涉及由第一控制系统并且至少部分地基于噪声指标或语音可懂度指标来确定是否要降低与接收到的音频数据相对应的传输的经编码音频数据和/或文本的复杂度水平。在一些示例中，框3315可以涉及确定传输的经编码音频数据将与所有接收到的音频数据相对应还是仅与接收到的音频数据的部分相对应。在一些示例中，音频数据可以包括音频对象以及指示音频对象优先级的相对应的优先级元数据。在其中确定经编码音频数据将仅与接收到的音频数据的部分相对应的一些这样的示例中，框3315可以涉及至少部分地基于优先级元数据来选择接收到的音频数据的该部分。在一些示例中，对于隐藏字幕系统、唱词字幕系统或对白字幕系统，确定是否要降低复杂度水平可以涉及确定是否要过滤掉一些基于语音的文本、确定是否要简化至少一些基于语音的文本和/或确定是否要改述至少一些基于语音的文本。

在该示例中，框3320涉及基于框3315的确定过程来选择要传输的经编码音频数据的版本和/或文本的版本。此处，框3325涉及将包括经编码视频数据和传输的经编码音频数据的经编码内容流从第一设备传输到第二设备。对于其中框3320涉及选择要传输的文本的版本的实例，一些实施方式涉及将文本的版本传输到第二设备。

图34示出了音频环境的平面图的示例，在该示例中，音频环境是生活空间。与本文所提供的其他图一样，图34中示出的元素的类型和数量仅作为示例提供。其他实施方式可以包括更多、更少和/或不同类型和数量的元素。

根据该示例，环境3400包括在左上方处的客厅3410、在下方中央处的厨房3415以及在右下方处的卧室3422。跨生活空间分布的方框和圆圈表示一组扩音器3405a至3405h，在一些实施方式中，该组扩音器中的至少一些扩音器可以是放置在对空间方便的位置、但不遵循任何标准规定的布局(任意地放置)的智能扬声器。在一些示例中，电视3430可以被配置成至少部分地实施一个或多个公开的实施例。在该示例中，环境3400包括分布在整个环境中的相机3411a至3411e。在一些实施方式中，环境3400中的一个或多个智能音频设备还可以包括一个或多个相机。该一个或多个智能音频设备可以是单一用途音频设备或虚拟助理。在一些这样的示例中，任选的传感器系统130的一个或多个相机可以驻留在电视3430中或电视3430上、移动电话中或智能扬声器(例如扩音器3405b、3405d、3405e或3405h中的一个或多个)中。尽管未在本公开中呈现的环境3400的每个描绘中都示出相机3411a至3411e，但在一些实施方式中，环境3400中的每一个仍然可以包括一个或多个相机。

本公开的一些方面包括被配置(例如，被编程)成执行所公开的方法的一个或多个示例的系统或设备，以及存储用于实施所公开的方法或其步骤的一个或多个示例的代码的有形计算机可读介质(例如，磁盘)。例如，一些公开的系统可以是或者包括利用软件或固件编程为和/或以其他方式被配置成对数据执行各种操作(包括所公开的方法或其步骤的实施例)中的任何操作的可编程通用处理器、数字信号处理器或微处理器。这样的通用处理器可以是或者包括包含输入设备、存储器和处理子系统的计算机系统，该处理子系统被编程(和/或以其他方式被配置)为响应于向其断言的数据而执行所公开的方法(或其步骤)的一个或多个示例。

一些实施例可以被实施为可配置的(例如，可编程的)数字信号处理器(DSP)，该数字信号处理器被配置(例如，被编程和以其他方式被配置)为对一个或多个音频信号执行需要的处理，包括所公开的方法的一个或多个示例的执行。可替代地，所公开的系统(或其元件)的实施例可以被实施为通用处理器(例如，可以包括输入设备和存储器的个人计算机(PC)或其他计算机系统或微处理器)，该通用处理器利用软件或固件编程为和/或以其他方式被配置成执行各种操作(包括所公开的方法的一个或多个示例)中的任何操作。可替代地，本发明系统的一些实施例的元件被实施为被配置(例如，被编程)成执行所公开的方法的一个或多个示例的通用处理器或DSP，并且该系统还包括其他元件(例如，一个或多个扩音器和/或一个或多个麦克风)。被配置成执行所公开的方法的一个或多个示例的通用处理器可以耦接到输入设备(例如，鼠标和/或键盘)、存储器和显示设备。

本公开的另一方面是一种计算机可读介质(例如，磁盘或其他有形存储介质)，该计算机可读介质存储用于执行所公开的方法或其步骤的一个或多个示例的代码(例如，可执行以执行所公开的方法或其步骤的一个或多个示例的编码器)。

尽管在本文中已经描述了本公开的具体实施例和本公开的应用，但是对于本领域普通技术人员而言将显而易见的是，在不脱离本文所描述并要求保护的本公开的范围的情况下，对本文所描述的实施例和应用的许多变型是可能的。应当理解，尽管已经示出并描述了本公开的某些形式，但是本公开不限于所描述和示出的具体实施例或所描述的具体方法。

Claims

1.一种内容流处理方法，包括：

由第一控制系统并且经由第一接口系统接收包括视频数据和与所述视频数据相对应的音频数据的内容流；

由所述第一控制系统确定噪声指标或语音可懂度指标中的至少一个；

由所述第一控制系统响应于所述噪声指标或所述语音可懂度指标中的至少一个来确定要执行的补偿过程，其中，执行所述补偿过程涉及以下中的一个或多个：

更改对所述音频数据的处理，其中，更改对所述音频数据的处理不涉及将宽带增益增加应用于音频信号；或者

应用基于非音频的补偿方法；

由所述第一控制系统确定与所述补偿过程相对应的补偿元数据；

通过由所述第一控制系统对所述补偿元数据进行编码来产生经编码补偿元数据；

通过由所述第一控制系统对所述视频数据进行编码来产生经编码视频数据；

通过由所述第一控制系统对所述音频数据进行编码来产生经编码音频数据；以及

将包括所述经编码补偿元数据、所述经编码视频数据和所述经编码音频数据的经编码内容流从第一设备传输到至少第二设备。

2.如权利要求1所述的方法，其中，所述音频数据包括语音数据以及音乐和效果(M&E)数据，所述内容流处理方法进一步包括：

由所述第一控制系统将所述语音数据与所述M&E数据区分开；

由所述第一控制系统确定允许从所述音频数据提取所述语音数据的语音元数据；以及

通过由所述第一控制系统对所述语音元数据进行编码来产生经编码语音元数据，其中，传输所述经编码内容流包括将所述经编码语音元数据传输到至少所述第二设备。

3.如权利要求1或权利要求2所述的方法，其中，所述第二设备包括被配置用于对所述经编码内容流进行解码的第二控制系统。

4.如权利要求3所述的方法，其中，所述第二设备是已向其传输所述经编码音频数据的多个设备之一。

5.如权利要求4所述的方法，其中，已至少部分地基于针对用户类别的语音可懂度来选择所述多个设备。

6.如权利要求5所述的方法，其中，通过以下中的一个或多个来定义所述用户类别：已知或估计的听力能力、已知或估计的语言水平、已知或估计的口音理解水平、已知或估计的视敏度或者已知或估计的阅读理解力。

7.如权利要求3或权利要求4所述的方法，其中，所述补偿元数据包括能够由所述第二设备或由所述第二设备的用户选择的多个选项。

8.如权利要求7所述的方法，其中，所述多个选项中的两个或更多个选项与所述第二设备所处的环境中能够出现的噪声水平相对应。

9.如权利要求7所述的方法，其中，所述多个选项中的两个或更多个选项与语音可懂度指标相对应。

10.如权利要求9所述的方法，其中，所述经编码内容流包括语音可懂度元数据，所述内容流处理方法进一步包括由所述第二控制系统并且至少部分地基于所述语音可懂度元数据来选择所述两个或更多个选项中的一个选项。

11.如权利要求7所述的方法，其中，所述多个选项中的每个选项与所述第二设备的所述用户的以下中的一个或多个相对应：已知或估计的听力能力、已知或估计的语言水平、已知或估计的口音理解水平、已知或估计的视敏度或者已知或估计的阅读理解力。

12.如权利要求7所述的方法，其中，所述多个选项中的每个选项与语音增强水平相对应。

13.如权利要求1至3或7至12中任一项所述的方法，其中，所述第二设备与特定回放设备相对应。

14.如权利要求13所述的方法，其中，所述特定回放设备是特定电视。

15.如权利要求13或权利要求14所述的方法，进一步包括：由所述第一控制系统并且经由所述第一接口系统从所述第二设备接收所述噪声指标或所述语音可懂度指标中的至少一个。

16.如权利要求15所述的方法，其中，所述补偿元数据与所述噪声指标或所述语音可懂度指标中的至少一个相对应。

17.如权利要求15或权利要求16所述的方法，进一步包括：由所述第一控制系统并且至少部分地基于所述噪声指标或所述语音可懂度指标来确定所述经编码音频数据将与所有接收到的音频数据相对应还是仅与所述接收到的音频数据的部分相对应。

18.如权利要求17所述的方法，其中，所述音频数据包括音频对象以及指示音频对象优先级的相对应的优先级元数据，并且其中，确定所述经编码音频数据将仅与所述接收到的音频数据的所述部分相对应，所述内容流处理方法进一步包括至少部分地基于所述优先级元数据来选择所述接收到的音频数据的所述部分。

19.如权利要求1至18中任一项所述的方法，其中，所述基于非音频的补偿方法涉及控制隐藏字幕系统、唱词字幕系统或对白字幕系统。

20.如权利要求19所述的方法，其中，控制所述隐藏字幕系统、所述唱词字幕系统或所述对白字幕系统涉及至少部分地基于所述语音可懂度指标来控制字体或字体大小中的至少一个。

21.如权利要求19或权利要求20所述的方法，其中，控制所述隐藏字幕系统、所述唱词字幕系统或所述对白字幕系统涉及以下中的一个或多个：至少部分地基于所述语音可懂度指标来确定是否要过滤掉一些基于语音的文本、确定是否要简化至少一些基于语音的文本或确定是否要改述至少一些基于语音的文本。

22.如权利要求19至21中任一项所述的方法，其中，控制所述隐藏字幕系统、所述唱词字幕系统或所述对白字幕系统涉及至少部分地基于所述噪声指标来确定是否要显示文本。

23.如权利要求1至22中任一项所述的方法，其中，更改对所述音频数据的处理涉及至少部分地基于所述噪声指标或所述语音可懂度指标中的至少一个来应用一种或多种语音增强方法。

24.如权利要求23所述的方法，其中，所述一种或多种语音增强方法包括以下中的至少一个：降低非语音音频的增益或增加语音频率的增益。

25.如权利要求1至24中任一项所述的方法，其中，更改对所述音频数据的处理涉及至少部分地基于所述噪声指标或所述语音可懂度指标中的至少一个来更改以下中的一个或多个：上混音过程、下混音过程、虚拟低音过程、低音分布过程、均衡过程、分频滤波器、延迟滤波器、多带限制器或虚拟化过程。

26.一种内容流处理方法，包括：

由第一控制系统并且经由第一设备的第一接口系统接收内容流，所述内容流包括接收到的视频数据和与所述视频数据相对应的接收到的音频数据；

由所述第一控制系统并且经由所述第一接口系统从第二设备接收噪声指标或语音可懂度指标中的至少一个；

由所述第一控制系统并且至少部分地基于所述噪声指标或所述语音可懂度指标来确定是否要降低与所述接收到的音频数据相对应的传输的经编码音频数据或文本的复杂度水平；

基于所述确定来选择要传输的经编码音频数据或文本中的至少一个；以及

将包括所述经编码视频数据和所述传输的经编码音频数据的经编码内容流从所述第一设备传输到所述第二设备。

27.如权利要求26所述的方法，其中，确定是否要降低所述复杂度水平涉及：确定传输的经编码音频数据将与所有接收到的音频数据相对应还是仅与所述接收到的音频数据的部分相对应。

28.如权利要求27所述的方法，其中，所述音频数据包括音频对象以及指示音频对象优先级的相对应的优先级元数据，并且其中，确定所述经编码音频数据将仅与所述接收到的音频数据的所述部分相对应，所述内容流处理方法进一步包括至少部分地基于所述优先级元数据来选择所述接收到的音频数据的所述部分。

29.如权利要求26所述的方法，其中，对于隐藏字幕系统、唱词字幕系统或对白字幕系统，确定是否要降低所述复杂度水平涉及以下中的一个或多个：确定是否要过滤掉一些基于语音的文本、确定是否要简化至少一些基于语音的文本或确定是否要改述至少一些基于语音的文本。

30.一种装置，所述装置被配置成执行如权利要求1至9或11至29中任一项所述的方法。

31.一种系统，所述系统被配置成执行如权利要求1至29中任一项所述的方法。

32.一个或多个非暂态介质，所述一个或多个非暂态介质具有存储于其上的软件，所述软件包括用于控制一个或多个设备来执行如权利要求1至29中任一项所述的方法的指令。