CN114902560A

CN114902560A - 具有环境噪音补偿的用于自动音量控制的设备和方法

Info

Publication number: CN114902560A
Application number: CN202080090868.9A
Authority: CN
Inventors: 斯瓦鲁普·马哈德万; 常德拉·谢卡·克希尔拉萨加尔; 杰滕德拉·波拉
Original assignee: Arris Enterprises LLC
Current assignee: Arris Enterprises LLC
Priority date: 2019-12-30
Filing date: 2020-12-21
Publication date: 2022-08-12
Also published as: CO2022010608A2; MX2022008102A; CA3161269A1; US20210203295A1; WO2021138102A1; KR20220120584A; US11239810B2; US11695379B2; AU2020417731A1; US20220182029A1; EP4085528A1

Abstract

一种电子装置和方法，所述电子装置和方法使用利用人类活动识别(HAR)训练的机器学习算法基于经由麦克风输入的现场环境声学场景而自动地调整音频输出音量水平。装备有这样的智能之后，该电子装置将装置所处的收听区域的环境中出现的环境声音分类为不同的声学场景映射，例如语音或对话(对于环境人类会话检出事件)和噪音(例如，对于真空吸尘器或洗碗器噪音检出事件)，并且相应地自动调整音频输出音量。

Description

具有环境噪音补偿的用于自动音量控制的设备和方法

背景技术

在诸如起居室的收听区域中，电视输出音频内容会经历不同的声学变化，这需要用户适当地调整音频输出音量。例如，用户需要提高音量以补偿收听区域中的环境噪音，或降低音量以便与房间或电话中的其他人进行舒适的对话。因此，用于音频音量控制的自动化方法是有益的。

已知的现有技术自动音量控制设备具有如下文所论述的缺点。

美国专利4,476,571提出了一种用于汽车立体声等的自动音量控制方法，其根据环境噪音水平调整音量，包括麦克风和低通滤波器电路，以在环境噪音急剧增大的情况下平滑音量的瞬态变化。这种提议的技术未采用机器学习音频处理方法，因此不能区分人类对话或噪音。这种提议的技术也不适用于对声学环境的细微变化敏感的起居室环境。

美国专利7,333,618公开了用于环境噪音补偿的系统和方法。系统的一个示例包括可变放大器、源声音处理器、区域声音处理器和调整电路。可变放大器调整音频输入信号，以生成具有适当电平的音频输出信号，使得音频输出信号在收听区域中比噪音更容易听到。源声音处理器和区域声音处理器可以将音频输出信号和监测信号拆分成频带，并且可以逐个频带地比较这些信号以找到代表监测信号中的时变噪音的差异。可以修改这些差异以对收听区域的声学响应和收听区域中的恒定水平背景噪音做出解释。调整电路响应于这些差异而控制可变放大器。这些系统使用电子电路来控制所需声音信号的水平以补偿收听区域中的噪音。所述方法和系统测量诸如麦克风信号的监测信号的水平，所述监测信号是期望源声音和非期望噪音的组合，并且接着通过从麦克风信号水平减去源信号水平来计算噪音水平。实施方式包括源输入级、麦克风输入级和交叉电路，其分别实施源输入、麦克风输入和声音输出。立体声电压控制放大器(VCA)和补偿增益放大器用作可变放大器的互连部件。过滤器组、运行平均块和对数块可以串联连接，并且用作源声音处理器的部件。

美国专利8,032,385公开了一种用于校正影响音频信息的回放响度的元数据的方法，并且试图解决无线电和电视广播以及预录音频材料中音频响度的极端变化的问题。当收听者从一个台调到另一个台时，当从给定台接收到的节目在主要特征与商业广告之间切换时，以及当收听者在他们的回放系统中改变媒体，例如在不同光盘或不同DVD之间切换时，响度经常发生巨大变化。收听者经常被迫调整其接收器和回放系统的音量控制，以保持相对均一的响度。为克服这个问题提出的一个解决方案是使用伴随音频信息的控制信息或“元数据”。可以在广播或记录的信号中提供元数据或描述音频数据的数据，以控制音频信息的回放响度。在2001年8月20日发布的标题为“Revision A to Digital AudioCompression(AC-3)Standard(数字音频压缩(AC-3)标准修订A)”的高级电视系统委员会(ATCC)A/52A文件中描述了此类元数据的一个示例。该特定标准指定了包括参数DIALNORM、COMPR和DYNRNG的元数据，这些参数与回放信号水平和动态范围有关。信号水平和动态范围两者都影响信号的感知或主观水平，所述感知或主观水平被称为响度。符合此ATSC音频标准的接收器使用DIALNORM参数来控制回放信号水平，并且可以使用COMPR和DYNRNG参数来控制对回放信号动态范围的压缩。如果在音频内容创建、分发、广播和记录过程中正确使用此类元数据，可以消除或至少大大减少回放响度过度变化的问题。不幸的是，元数据有时会被误用或因为被误解而根本没有使用，因为没有合适的人知道如何正确使用元数据，或者因为元数据被用于以不当方式创造艺术效果。美国专利8,032,385的公开目的是识别在由编码过程产生的音频信息中编码的不正确元数据信息；通过将解码过程应用于输入信号来获得解码音频信息；从对解码音频信息的分析获得响度的度量，并导出提供校正响度的度量的第二响度归一化水平。

发明内容

本公开的第一方面是一种用于自动控制音频内容的输出音量的自动音量控制设备，包括：存储器，所述存储器中存储有分别与音量设置相关联的多个配置文件P_x，其中x是整数1至n，n大于1，范围从最安静的配置文件P₁到最响亮的配置文件P_n，并且分别对于每个配置文件，所述存储器中存储有分贝范围和声音上限值；麦克风；处理器，所述处理器被配置成至少执行以下操作：接收用户音量设置，所述用户音量设置具有相关联的配置文件P_y，所述相关联的配置文件对应于所述配置文件P_x中的一个，y＝1至n；将所述音频内容的输出音量设置为具有对应于由所述用户音量设置指示的配置文件P_y的配置文件P_x的音量设置；接收从所述麦克风输入的声音；确定从所述麦克风输入的声音是否具有超过由所述用户音量设置指示的配置文件P_y的声音上限值的强度；如果所述处理器确定从所述麦克风输入的声音超过由所述用户音量设置指示的配置文件的声音上限值，则对从所述麦克风输入的声音进行分析以确定从所述麦克风输入的声音是否包括噪音或环境语音；如果所述处理器确定从所述麦克风输入的声音包括噪音或环境语音，则将所述音频内容的输出音量改变为具有不同于P_y的配置文件的音量设置。

第二方面是，所述处理器进一步被配置成执行如下操作：如果所述处理器确定从所述麦克风输入的声音包括噪音，则将所述音频内容的输出音量提高到具有高于P_y的配置文件的音量设置。

第三方面是，所述处理器进一步被配置成执行如下操作：如果所述处理器已确定从所述麦克风输入的声音的强度超过由所述用户音量设置指示的配置文件P_y的声音上限值，并且从所述麦克风输入的声音包括噪音，则将所述音频内容的输出音量提高到具有配置文件P_y+1的音量设置。

第四方面是，所述处理器进一步被配置成执行如下操作：如果所述处理器已确定从所述麦克风输入的声音的强度超过由所述用户音量设置指示的配置文件P_y的声音上限值，并且从所述麦克风输入的声音包括噪音，则将所述音频内容的输出音量提高到具有一配置文件的音量设置，所述配置文件具有涵盖从所述麦克风输入的声音的强度的分贝范围和大于从所述麦克风输入的声音的强度的声音上限值。

第五方面是，所述处理器进一步被配置成执行如下操作：如果所述处理器确定从所述麦克风输入的声音包括环境语音，则将所述音频内容的输出音量降低到具有低于P_y的配置文件的音量设置。

第六方面是，所述处理器进一步被配置成执行如下操作：如果所述处理器已确定从所述麦克风输入的声音的强度超过由所述用户音量设置指示的配置文件P_y的声音上限值，并且从所述麦克风输入的声音包括环境语音，则将所述音频内容的输出音量降低到具有配置文件P₁的音量设置。

第七方面是，所述处理器进一步被配置成执行如下操作：如果所述处理器已确定从所述麦克风输入的声音的强度超过由所述用户音量设置指示的配置文件P_y的声音上限值，并且从所述麦克风输入的声音包括环境语音，则将所述音频内容的输出音量降低到具有一配置文件的音量设置，所述配置文件具有涵盖从所述麦克风输入的声音的强度的分贝范围并且具有大于从所述麦克风输入的声音的强度的声音上限值。

第八方面是一种用于自动控制音频内容的输出音量的自动音量控制方法，包括：在存储器中存储分别与音量设置相关联的多个配置文件P_x，其中x是整数1至n，n大于1，范围从最安静的配置文件P₁到最响亮的配置文件P_n，并且分别对于每个配置文件，在所述存储器中存储有分贝范围和声音上限值；接收用户音量设置，所述用户音量设置具有相关联的配置文件P_y，所述相关联的配置文件对应于所述配置文件P_x中的一个，y＝1至n；将所述音频内容的输出音量设置为具有对应于由所述用户音量设置指示的配置文件P_y的配置文件P_x的音量设置；接收从所述麦克风输入的声音；利用处理器确定从所述麦克风输入的声音是否具有超过由所述用户音量设置指示的配置文件P_y的声音上限值的强度；如果所述处理器确定从所述麦克风输入的声音超过由所述用户音量设置指示的配置文件的声音上限值，则利用所述处理器对从所述麦克风输入的声音进行分析以确定从所述麦克风输入的声音是否包括噪音或环境语音；如果所述处理器确定从所述麦克风输入的声音包括噪音或环境语音，则将所述音频内容的输出音量自动改变为具有不同于P_y的配置文件的音量设置。

第九方面是，所述方法包括：如果所述处理器确定从所述麦克风输入的声音包括噪音，则将所述音频内容的输出音量自动提高到具有高于P_y的配置文件的音量设置。

第十方面是，所述方法包括：如果所述处理器已确定从所述麦克风输入的声音的强度超过由所述用户音量设置指示的配置文件P_y的声音上限值，并且从所述麦克风输入的声音包括噪音，则将所述音频内容的输出音量自动提高到具有配置文件P_y+1的音量设置。

第十一方面是，所述方法包括：如果所述处理器已确定从所述麦克风输入的声音的强度超过由所述用户音量设置指示的配置文件P_y的声音上限值，并且从所述麦克风输入的声音包括噪音，则将所述音频内容的输出音量自动提高到具有一配置文件的音量设置，所述配置文件具有涵盖从所述麦克风输入的声音的强度的分贝范围并且具有大于从所述麦克风输入的声音的强度的声音上线值。

第十二方面是，所述方法包括：如果所述处理器确定从所述麦克风输入的声音包括环境语音，则将所述音频内容的输出音量自动降低到具有低于P_y的配置文件的音量设置。

第十三方面是，所述方法包括：如果所述处理器已确定从所述麦克风输入的声音的强度超过由所述用户音量设置指示的配置文件P_y的声音上限值，并且从所述麦克风输入的声音包括环境语音，则将所述音频内容的输出音量自动降低到具有配置文件P₁的音量设置。

第十四方面是，所述方法包括：如果所述处理器已确定从所述麦克风输入的声音的强度超过由所述用户音量设置指示的配置文件P_y的声音上限值，并且从所述麦克风输入的声音包括环境语音，则将所述音频内容的输出音量自动降低到具有一配置文件的音量设置，所述配置文件具有涵盖从所述麦克风输入的声音的强度的分贝范围并且具有大于从所述麦克风输入的声音的强度的声音上限值。

第十五方面是一种非暂态计算机可读介质，其上存储有程序，所述程序使处理器执行用于自动控制音频内容的输出音量的自动音量控制方法，所述自动音量控制方法包括：在存储器中存储分别与音量设置相关联的多个配置文件P_x，其中x是整数1至n，n大于1，范围从最安静的配置文件P₁到最响亮的配置文件P_n，并且分别对于每个配置文件，在所述存储器中存储有分贝范围和声音上限值；接收用户音量设置，所述用户音量设置具有相关联的配置文件P_y，所述相关联的配置文件对应于所述配置文件P_x中的一个，y＝1至n；将所述音频内容的输出音量设置为具有对应于由所述用户音量设置指示的配置文件P_y的配置文件P_x的音量设置；接收从所述麦克风输入的声音；利用处理器确定从所述麦克风输入的声音是否具有超过由所述用户音量设置指示的配置文件P_y的声音上限值的强度；如果所述处理器确定从所述麦克风输入的声音超过由所述用户音量设置指示的配置文件的声音上限值，则利用处理器对从所述麦克风输入的声音进行分析以确定从所述麦克风输入的声音是否包括噪音或环境语音；如果所述处理器确定从所述麦克风输入的声音包括噪音，则将所述音频内容的输出音量自动提高到具有高于P_y的配置文件的音量设置；如果所述处理器确定从所述麦克风输入的声音包括环境对话，则将所述音频内容的输出音量自动降低到具有低于P_y的配置文件的音量设置。

第十六方面是，所述程序使所述处理器进一步执行如下操作：如果所述处理器确定从所述麦克风输入的声音包括噪音，则将所述音频内容的输出音量自动提高到具有高于P_y的配置文件的音量设置。

第十七方面是，所述程序使所述处理器进一步执行如下操作：如果所述处理器已确定从所述麦克风输入的声音的强度超过由所述用户音量设置指示的配置文件P_y的声音上限值，并且从所述麦克风输入的声音包括噪音，则将所述音频内容的输出音量自动提高到具有配置文件P_y+1的音量设置。

第十八方面是，所述程序使所述处理器进一步执行如下操作：如果所述处理器已确定从所述麦克风输入的声音的强度超过由所述用户音量设置指示的配置文件P_y的声音上限值，并且从所述麦克风输入的声音包括噪音，则将所述音频内容的输出音量自动提高到具有一配置文件的音量设置，所述配置文件具有涵盖从所述麦克风输入的声音的强度的分贝范围并且具有大于从所述麦克风输入的声音的强度的声音上线值。

第十九方面是，所述程序使所述处理器进一步执行如下操作：如果所述处理器确定从所述麦克风输入的声音包括环境语音，则将所述音频内容的输出音量自动降低到具有低于P_y的配置文件的音量设置。

第二十方面是，所述程序使所述处理器进一步执行如下操作：如果所述处理器已确定从所述麦克风输入的声音的强度超过由所述用户音量设置指示的配置文件P_y的声音上限值，并且从所述麦克风输入的声音包括环境语音，则将所述音频内容的输出音量自动降低到具有配置文件P₁的音量设置。

第二十一方面是，所述程序使所述处理器进一步执行如下操作：如果所述处理器已确定从所述麦克风输入的声音的强度超过由所述用户音量设置指示的配置文件P_y的声音上限值，并且从所述麦克风输入的声音包括环境语音，则将所述音频内容的输出音量自动降低到具有一配置文件的音量设置，所述配置文件具有涵盖从所述麦克风输入的声音的强度的分贝范围并且具有大于从所述麦克风输入的声音的强度的声音上限值。

第二十二方面是，根据上述方面中的任何方面，确定声音是否包括噪音或环境语音的分析包括深度学习算法。

附图说明

图1是用于自动音量控制的电子装置的实施例的框图。

图2是由电子装置执行的处理的示例性算法的流程图。

图3是示出了声音音量分布和分贝范围的示例的图。

图4示出了用于由电子装置进行的噪音和语音提取的频谱图和声学特征样本。

图5是由电子装置执行的处理的示例的流程图。

图6示出了用于由电子装置进行自动音量控制的修改的DialNorm值和对应的期望音量水平。

图7示出了用于由电子装置进行自动音量控制的音频输出配置文件和对应的动态范围和输出音量水平的示例。

具体实施方式

本文公开了用于根据收听区域中的环境声学场景对诸如电视、智能媒体装置或电视机顶盒的CPE(消费者场所设备)装置进行环境噪音补偿和自动输出音量调整的设备和方法。CPE装置的收听区域中的音频是经由诸如麦克风的声学感测装置输入的。处理器的电子电路监测收听区域中的动态变化声学场景。所述设备和方法还采用基于深度学习的算法来识别和分类不同的声学场景，并相应地执行不同的动作，例如，如果检测到婴儿哭闹，则降低音量，如果检测到洗碗器噪音或狗叫，则增大音量，如果检测到家人对话，则降低音量，等等。

本文公开的方法和设备提供了包括麦克风的用户装置(例如，智能媒体装置或电视机的机顶盒)的自动音量控制，使得其基于感知到的现场环境声学场景自动调整音频输出音量水平。关于识别不同的声学起居室场景，所提出的方法还包括利用当前流行的研究主题人类活动识别(HAR)进行训练的机器学习算法。装备有这样的智能之后，本文公开的方法和设备能够将环境声音(在装置所处的收听区域的环境中出现的声音)分类为不同的声学场景映射，例如语音或会话(针对环境人类会话检出事件)和噪音(例如，真空吸尘器或洗碗器噪音检出事件)，并且相应地自动调整装置的音频输出音量。例如，如果检测到人类对话，设备将自动降低音频音量或使其静音，或者设备将自动将输出音量水平增大到足够更高的输出水平，以补偿检测到的环境噪音，以便在收听区域中维持感知到的电视音频输出强度水平。

图1是根据本公开的方面的电子装置100(例如，智能媒体装置或机顶盒)的示范性实施方式的框图。电子装置100包括可操作以接收、传输、处理、存储和/或管理与本文所述的系统和方法相关联的数据和信息的电子部件或电子计算装置，所述电子部件或电子计算装置涵盖适于执行与存储在存储器或计算机可读记录介质中的计算机可读指令的执行一致的计算任务的任何合适的处理装置。

如图1中所示，示范性电子装置100包括一个或多个存储器或存储器位置，所述存储器或存储器位置包括存储器104以及输入/输出(I/O)接口102、用户接口110、网络接口112、一个或多个处理器114、一个或多个麦克风116和任选的电源106。存储器104可以是任何已知的电子存储器，例如，随机存取存储器(RAM)、存储器缓冲器、硬盘驱动器、可擦除可编程只读存储器(EPROM)、电子可擦除可编程只读存储器(EEPROM)、只读存储器(ROM)或闪存存储器。

存储器104可以用于存储软件和数据，包括与用于控制电子装置100的一般功能的算法、过程或操作相关联的任何类型的指令，以及任何操作系统，例如Linux、UNIX、WindowsServer或其它定制和专有操作系统。

任选的电源106可以用于为电子装置100的各个部件供电。电源106可以是独立的，例如电池组，和/或电源106可以包括通过电源插座供电的接口。

I/O接口102可以是用于实现在电子装置100与连接到电子装置100的外部装置之间的信息传输的接口，所述外部装置需要特殊通信链路以与一个或多个处理器114相接。I/O接口102可以实施为适应通往电子装置100的各种连接，包括但不限于通用串行总线(USB)连接、并行连接、串行连接、同轴连接、高清多媒体接口(HDMI)连接，或现有技术中连接到外部装置的其它已知连接。

用户接口110实现用户与电子装置100之间的通信。用户接口110包括但不限于：鼠标、键盘、液晶显示器(LCD)、阴极射线管(CRT)、薄膜晶体管(TFT)、发光二极管(LED)、具有触摸屏能力的高清(HD)或其它相似显示装置，并且可以包括用于相机和麦克风116的HAR接口和/或经由显示器(机载，或者通过使用鼠标或键盘而经由附接的显示器，例如电视，或者经由手势识别)的输入。网络接口112是软件和/或硬件接口，其被实施为在电子装置100与网络上的另一处理装置之间建立连接，例如用于对根据本公开的一个或多个方面的深度学习算法进行云处理。网络接口104包括用于使用有线或无线连接建立通信连接的软件和/或硬件接口电路，所述有线或无线连接用于建立通往例如局域网(LAN)、广域网(WAN)、城域网(MAN)、个人区域网络(PAN)、无线局域网(WLAN)、系统区域网(SAN)和其它类似网络的连接。

一个或多个处理器114控制电子装置100的一般操作。一个或多个处理器114中的每一个可以是但不限于中央处理单元(CPU)、硬件微处理器、多核处理器、单核处理器、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、数字信号处理器(DSP)，或能够执行用于控制电子装置100的操作的指令、算法或软件的其它类似处理装置。电子装置100的各部件(例如，102、104、106、110、112和114)之间的通信经由内部总线108完成。

电子装置100包括用于感测来自环境的声学信息的至少一个麦克风116。由麦克风116感测的声音由基于深度学习的音频处理方法或包括诸如声学特征提取、声学特征分类的特征的算法利用。一个或多个深度学习算法存储在存储器104中，并且由一个或多个处理器114执行，或者可以是外部的，并且经由网络接口112在云平台(网络或基于因特网的存储存储器和/或计算机/处理器)中访问。此类外部算法可以是专有的和定制的，或者可以是开源算法，并且包括用于训练算法以执行本文所述的用于声学特征提取和声学特征分类的任务的人类活动特征训练数据集。开源算法的一个示例是Google的所谓的AudioSet，它是从Youtube视频(10s摘录)中获取的大量标记音频。其它示例包括具有2000个记录的ESC-50数据集，来自每一类的40个记录涵盖许多日常声音。其它存储的或可云访问的算法包括用于测量现场环境声学强度水平信息的声学强度测量算法。

如下文详细讨论的，存储在存储器104中的是预定音频水平配置文件，其是受控装置的输出音量在其内操作的分贝(dB)带。受控装置是指以下事实：电子装置100可以具有用于输出音频内容(或音频/视频内容)的声音的机载扬声器，或者电子装置100可以控制诸如电视的连接的装置的输出。因此，受控装置可以是电子装置100本身或具有由电子装置100(通过控制装置的操作或通过操纵数字音频信号中的值来)控制的音频输出的某一其它装置，例如电视。

对于受控装置的每个用户可选音量设置，存在存储的配置文件，所述存储的配置文件具有预定dB带，输出声音预期会处于所述预定dB带内。电子装置经由至少一个麦克风116感测与任何环境声音组合的输出声音。在没有任何环境声音的情况下，经由麦克风116感测到的正被播放(再现)内容的音频输出将落入用户选定音量设置的相应dB带内。每个带都有上限dB阈值。当处理器114检测到感测到的声音超过对应于选定音量设置的带的dB阈值时，处理器确定房间中存在需要某种动作的某种类型的环境声音，并且触发算法的执行以根据感测到的声音的性质确定适当的动作过程。配置文件的预期dB带可以通过如下方式预先确定：当在不包括会影响测试的环境噪音的环境中在测试时段期间内播放预定声音或随机化音频内容的同时，测试在实施每个配置文件时获得的dB水平。

对于正在使用的电子装置的示例，将受控装置视为电视。如果电视上的声音是有人使用真空吸尘器的声音，并且在收听区域中有人说话的环境声音，并且这些组合声音使经由麦克风116感测到的声音超过对应于当前生效的音量设置的带的上限dB阈值，则处理器114通过执行根据本公开中的描述的算法，识别出房间中(即，在电子装置/电视所处的收听区域中)正在发生环境对话，并且因此继续将音量降低到具有低于对应于生效的音量设置的带的下一更低dB带的配置文件(或者，自动降低到最低配置文件)。

或者，如果是如下情况则发生第二种不同结果：电视上的声音是有人使用真空吸尘器的声音，并且在收听区域中有使用真空吸尘器的环境声音(环境噪音)，并且这些组合声音使经由麦克风116感测到的声音超过对应于当前生效的音量设置的带的上限dB阈值，则处理器通过执行该算法，识别出房间中(即，电子装置/电视所处的收听区域中)正在发生环境噪音，因此继续将音量提高到具有高于对应于生效的音量设置的带的下一较高dB带的配置文件。

或者，如果是如下情况则发生第三种不同结果：电视上的声音是有人讲话的声音，并且在收听区域中有实际的人也在(例如，向房间中的另一人或在电话上)讲话的环境声音，并且这些组合声音使经由麦克风116感测到的声音超过对应于当前生效的音量设置的带的上限dB阈值，则处理器通过执行该算法，识别出房间中(即，电子装置/电视所处的收听区域中)正在发生环境声音，因此继续将音量降低到具有低于对应于生效的音量设置的带的下一较低dB带的配置文件(或降低到最低配置文件)。

或者，如果是如下情况则发生第四种不同结果：电视上的声音是有人讲话的声音，并且在收听区域中有使用真空吸尘器的环境声音(环境噪音)，并且这些组合声音使经由麦克风116感测到的声音超过对应于当前生效的音量设置的带的上限dB阈值，则处理器通过执行该算法，识别出房间中(即，电子装置/电视所处的收听区域中)正在发生环境噪音，因此继续将音量提高到具有高于对应于生效的音量设置的带的下一较高dB带的配置文件。算法如何识别房间中的噪音以及讲话如何由回放的音频内容产生的具体细节将从以下论述中显而易见。

如从上述一般示例性场景中可以看出的，电子装置100可以解决以下上下文场景：(a)对话检出场景：如果在环境中检测到人类对话，则执行音频静音或降低音频输出音量。设想的使用案例场景，例如：(i)电视观看者已将其注意力从电视转移到接听电话上；(ii)电视观看者正在与其他家庭成员对话；以及(b)噪音检出场景：增大音频输出音量以补偿外部检测到的噪音，以便维持其自身感知到的电子装置100安装的收听区域的电视音频输出质量。

图2描绘了由电子装置100的处理器114和其它部件执行的处理块。所述处理被设计成适合典型的起居室设置，以供家人(例如，2至10个成员)观看提供数字输出音频的数字电视。然而，此设计不受上述约束的限制，并且可以适当地扩展到涉及更多人的更大设置。

如图2中所示，在框202处，经由麦克风116将音频输入到电子装置100，并且该处理进行到声音水平提取204和声学特征提取206，接着进行到深度学习算法208的学习环路和人类活动识别(HAR)特征提取210，接着最终是选择(即，改变)音频配置文件的配置文件选择212。

数字音频输出的动态范围通常在从0dB至140dB的范围内。例如，16位深度的数字音频可以描述高达96dB的最大dB输出范围，24位深度的数字音频可以描述高达44dB的最大dB输出范围，等等。在本实施例中，认为典型数字电视的音频输出的动态范围是0dB至140dB，如图3所示。

如图3所示，140dB范围被划分成多个配置文件(安静、柔和、正常、响亮和轰鸣)。存储在电子装置100的存储器104中的配置文件各自包括在与如上文所论述的每个配置文件相对应的音量设置处的音频输出的预期dB水平的输出动态范围。例如，如图7所示，可以存储五个音频输出配置文件和对应的音频输出水平，使得对于给定输出水平，输出动态范围被约束在指定的对应范围内。在图7所示的示例中，安静配置文件的输出动态范围是0dB至15dB，声音上限为15dB，输出音量水平为零(最小值)；柔和配置文件的输出动态范围是15dB至50dB，声音上限为50dB，输出音量水平为七；正常配置文件的输出动态范围是50dB至70dB，声音上限为70dB，输出音量水平为十五；响亮配置文件的输出动态范围是70dB至120dB，声音上限为120dB，输出音量水平为22；以及轰鸣配置文件的输出动态范围是120dB至140dB，声音上限是140dB，输出音量为30(最大值)。配置文件的数量以及相关范围和上限值可以被选择，并且可以不同于图3和图7的示例中所示的那些。

对于配置的输出音量水平，输出动态范围在相应范围内受到约束。例如，如果用户将输出音量水平设置为“正常”或“15”，则数字音频输出动态范围被约束在50dB至70dB之内。

考虑不同的观看者类型来选择配置文件。例如：老年人可以选择柔和配置文件，青少年可以选择响亮配置文件，而中年用户可以选择正常配置文件，等等。首先，用户选择的优选配置文件是活动的。对于以下示例，考虑正常配置文件是活动的。

当正常配置文件活动时，来自电视(本示例中是受控装置)的音频输出预期在50dB至70dB的范围内。电子装置100(经由处理器114和麦克风116以及其它部件)连续地测量声学强度水平，并确保其处于所选择的配置文件的指定音频输出动态范围内。

接下来，考虑上述声学场景受到干扰。当处理器114在执行声音水平提取204时确定测量的声学强度水平大于当前配置文件的声音上限时，识别出这种情况。在本示例中，对于正常配置文件，声音上限为70dB。因此，如果处理器114确定测量的声学强度高于70dB，则处理器触发对人类活动识别特征提取算法201的执行。接下来，处理器114在执行深度学习算法208时尝试识别所识别的声学事件是“检测到的语音或对话”还是“噪音”。如果处理器确定其是对话检出事件，则处理器114自动将音量配置文件改变为安静配置文件。否则，如果处理器确定其是噪音检出事件，则根据外部事件的测量的dB值将用户配置文件改变为较高配置文件，例如响亮或轰鸣。转变的配置文件保持在该设置中，直到处理器114因其而将配置文件改变回到已由用户设定的正常配置文件的检测到的外部声学事件结束。

该处理包括以下步骤：

步骤1：用于人类活动识别(HAR)的声学特征提取；

步骤2：声学强度提取；

步骤3：自动音量控制反馈；以及

步骤4：音频输出信号格式化以实现音频信号本身内的音量控制。

步骤1：用于人类活动识别(HAR)的声学特征提取：

对于此步骤，可以使用深度学习算法，例如卷积神经网络(CNN)。尽管深度学习算法消除了对手动工程化特征的需要，但表示模型是描述所述处理所必需的。并非将声音文件直接用作振幅与时间关系的信号，而是使用对数标度的梅尔语谱图，其中128个分量(频带)覆盖可听频率范围(0-22050Hz)，使用23毫秒的窗口大小(44.1kHz处的1024个样本)和相同持续时间的跳大小。这种转换考虑了以下事实：人类在对数尺度上听到声音，并且人类耳蜗无法很好地区分紧密标度的频率。随着频率增大，这种效应变得更强。因此，功率是根据不同频带而不是单个频率来考虑的。由此步骤得到的音频输出被表示为128(帧)x128(带)频谱图像(图4的顶部示出了示例性频谱图402)。因此，音频分类过程现在转变成图像分类过程。

如图4所示，音频采用易于处理的格式。在图4的顶部处，声学输入的频谱图像402被输入到由处理器114(或多个处理器114，或者CNN在外部实现，其中输入和结果经由网络接口112传送到外部计算机/处理器)执行的卷积神经网络中，以基于训练过的人类活动识别(HAR)训练数据集进行分类。CNN的输入以23毫秒的音频块为单位。CNN将尝试基于训练过的HAR特征集对每个小音频切片进行分类。图4示出根据此步骤识别的以下声学事件。范围从“0”到“1”的概率值被如下分配。

语音或对话检出事件(例如，图4中的404)：阈值标准可以设置在0.8到1的范围内，即，如果语音活动概率值大于0.8，则将其识别为语音(或对话)事件。

噪音事件(例如，图4中的406)：阈值标准可以设置在0到0.4的范围内，即，为了满足噪音检出事件标准，概率值应小于0.4。

步骤2：声学强度提取：

声音水平提取级对于处理至关重要，因为它有助于确定所识别的HAR事件是由电视还是外部源生成。此处的假设是，基于从该级提取的声学强度信息，处理器114能够在任何给定时间点确定测量的dB水平是否在当前设定的音频配置文件的指定输出动态范围内。如果经由麦克风116输入的声音的dB水平超过设定的音频配置文件的声音上限，处理器114确定已发生需要自动音量控制动作的外部声学事件。

步骤3：自动音量控制反馈：

此步骤组合了前两个步骤的输出路径，即，如果满足了前两个步骤的阈值标准，则基于测量的声学强度水平和识别的声学事件的类型，即语音或噪音，发起自动音量控制反馈。对于外部“语音”或“对话”活动检出事件，处理器114将配置文件转换成安静配置文件；对于外部噪音检出事件，处理器114将配置文件转换成对应的较高配置文件，即，测量的dB值所处的配置文件。因此，如果当前生效的配置文件是正常配置文件，并且测量的dB水平是90dB，则处理器将配置文件改变为响亮配置文件，而如果测量的dB水平是130dB，则处理器将配置文件改变为轰鸣配置文件。

此时考虑上文讨论的示例性场景，即，电视上的声音是有人讲话的声音，并且在收听区域中有使用真空吸尘器的环境声音(环境噪音)。根据图2的处理，处理器114将这种场景识别为外部噪音并增大电视音量，即音频被改变为较高配置文件。如上所述，这是一个两步过程，即步骤2，声学强度提取(在本文中也称为声学学习器)和步骤3，自动音量控制反馈(在本文中也称为深度学习器)，以下是得到此推论的步骤：

1.假设当前活动的声学配置文件为正常，因此声学水平应在50dB–70dB的范围内。

2.在房间中的人启动真空吸尘器之前，没有来自声学学习器的动作，并且维持当前活动的声学配置文件。

3.然而，当此人打开真空吸尘器时：

a.如果来自真空吸尘器的噪音不能使房间中的声音水平增大到70dB以上，则声学学习器不执行改变；

b.如果来自真空吸尘器的噪音加上电视声音大于70dB，则声学学习器需要采取动作并向深度学习器提供反馈。

4.现在，根据步骤3，自动音量控制反馈，深度学习器从声学学习器接收反馈，指出房间的声学强度高于规定阈值(即，70dB)。

5.深度学习器是一种机器学习算法，其已经用相似的声学数据预先训练，以能够识别此类声学配置文件，所述声学配置文件由语音加上来自真空吸尘器的噪音组成。因此，在这种场景中，深度学习器将该场景识别为环境噪音检测事件，因为来自真空吸尘器的噪音比来自电视的声音更强，即足够强，使得真空吸尘器声音足以引起房间的声学场景变化。

6.此声学配置文件的频率快照将指示来自真空吸尘器的重叠噪音已在此场景中完全淹没了来自电视的音频样本。

虽然在此示例中，我们使用了实际会产生强噪音的真空吸尘器，但深度学习器的精确度将非常高。然而，对于可能具有较低强度或间隔较短的其它起居室噪音的其它示例，则在这种场景中，可以降低深度学习器的精确度。但是，通过提供更多训练数据集，可以提高深度学习器的精确度。运行的训练数据集越多，深度学习器的精确度就越高。

图5示出了由图2的框204、206、208、210和212的实施方式(包括框208和201的环形学习)产生的处理流。具体地说，如图5所示，在框508中，从声学特征提取506检查HAR事件阈值。如果在框508中，处理器114确定确实已发生HAR事件，则处理前进到框501，其中HAR事件的声音的dB水平比当前生效的配置文件的声音上限更高。如果在框510中，处理器114确定HAR事件的声音的dB水平确实比当前生效的配置文件的声音上限更高，则处理进行到自动音量控制器512。自动音量控制反馈路径可以被反馈回到受控装置(电视或机顶盒)的音量控制模块，以自动调整输出音量。或者，如下文所述，处理器114在执行自动音量控制器时可以以适当方式直接修改音频信号，以便实现音量控制。

由电子装置100的处理器114确定的预期音量水平设置被应用于受控装置的数字音频输出位流。然而，在所有场景中，不能从受控装置直接应用或控制来自电子装置100的新音量设置。在此类情况下，能够直接修改数字音频信号以改变音频的音量是有益的。为了详细理解，考虑在以下两种场景下如何将新音量设置应用于受控装置的示例，其中，音频输出格式是PCM和AC3。

未压缩音频格式(PCM)：

PCM输出波形的音量设置的应用或调整由提供专用寄存器(例如，BroadcomBCM74xx SOC)的受控装置实施，所述专用寄存器包括针对可编程频率偏差值的13位寄存器，以调整调制音频信号的频率偏差(和音量)。两个音频输入通道的独立缩放也可以用于调整两个音频输入通道的相对音量。

压缩(AC3)：

为了对压缩的AC3音频输出格式情况进行输出音量控制，使用并校正伴随音频信息的控制信息或“元数据”以补偿环境噪音。

可能需要Dolbly之前的音频元数据位流解码+重新编码步骤来校正Dolby数字元数据参数，以根据变化的环境噪音环境将输出量校正到所需分贝范围。

以下是Dolby数字元数据参数，其可能需要或经受校正以达到规定的配置音量水平。

·对话水平(也称为对话归一化或DialNorm)

根据变化的环境噪音环境(通过上述Dolby之前的解码步骤)不断校正DialNorm参数。

·动态范围控制(DRC)

在切换到不同的音量配置文件时，还校正了DRC参数，以确保最高质量的音频输出。

以下是映射：-

安静-重度压缩

柔和-重度压缩

正常-轻度压缩

响亮-无

轰鸣-无

虽然自动音量算法切换到不同的配置文件，但它也确保了也根据上述映射切换对应的DRC配置文件。

可以在广播或记录的信号中提供元数据或描述音频数据的数据，以控制音频信息的回放响度。在2001年8月20日发布的标题为“Revision A to Digital AudioCompression(AC-3)Standard(数字音频压缩(AC-3)标准修订A)”的高级电视系统委员会(ATCC)A/52A文件中描述了此类元数据的一个示例。该特定标准指定了包括参数DIALNORM、COMPR和DYNRNG的元数据，这些参数与回放信号水平和动态范围有关。信号水平和动态范围两者都影响信号的感知或主观水平，所述感知或主观水平被称为响度。符合此ATSC音频标准的接收器使用DIALNORM参数来控制回放信号的响度水平。相对于全量程(dBFS或dBFS)的分贝是具有定义的最大峰值水平的DIALNORM参数的振幅水平的测量单位。图6示出了针对由处理器114为AC3格式化音频输出确定的期望音量水平，待编码到AC3元数据字段中的经修改的DIALNORM设置的示例。因此，如图6所示，六个不同水平1-6具有如下值：

1：经修改的DialNorm设置0dBFS和期望音量水平0；

2：经修改的DialNorm设置-1dBFS和期望音量水平1；

3：经修改的DialNorm设置-5dBFS和期望音量水平5；

4：经修改的DialNorm设置-10dBFS；期望音量水平10(正常)；

5：经修改的DialNorm设置-20dBFS；期望音量水平20；

6：经修改的DialNorm设置-31dBFS；期望音量水平31。

上述内容可以实施为设备、系统、集成电路和非暂态计算机可读记录介质上的计算机程序的任何组合。一个或多个处理器可以实施为执行本文中描述的部分或全部功能的集成电路(IC)、专用集成电路(ASIC)或大规模集成电路(LSI)、系统LSI、超级LSI或超级LSI部件。

根据目前可用的标准或技术，上文描述了用于调整PCM和Dolby音频的音频输出音量的技术。然而，将来可以根据不断发展的DOLBY规范变化(对于现有或新元数据参数)或对任何最新的可用PCM控制特征进行合适的校正或更新，以有效地控制或修改输出音频音量。

上文公开的过程构成可能由软件、应用程序(应用程序或移动应用程序)或计算机程序实现的算法。软件、应用程序、计算机程序可以存储在非暂态计算机可读介质上，以使计算机，例如一个或多个处理器，执行本文所述并在附图中示出的过程。

术语非暂态计算机可读记录介质是指任何计算机程序产品、设备或装置，例如磁盘、光盘、固态存储装置、存储器、可编程逻辑装置(PLD)、DRAM、RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁存储装置，或可以用于携带或存储呈指令或数据结构形式且可以由通用或专用计算机或者通用或专用处理器访问的所需计算机可读程序代码的任何其它介质。如本文所使用，盘或盘片包括光盘(CD)、激光盘、光盘(opticaldisc)、数字通用光盘(DVD)、软盘和蓝光光盘。上述的组合也包括在计算机可读介质的范围内。

Claims

1.一种用于自动控制音频内容的输出音量的自动音量控制设备，包括：

存储器，所述存储器中存储有分别与音量设置相关联的多个配置文件P_x，其中x是整数1至n，n大于1，范围从最安静的配置文件P₁到最响亮的配置文件P_n，并且分别对于每个配置文件，所述存储器中存储有分贝范围和声音上限值；

麦克风，

处理器，所述处理器被配置成至少执行以下操作：

接收用户音量设置，所述用户音量设置具有相关联的配置文件P_y，所述相关联的配置文件对应于所述配置文件P_x中的一个，y＝1至n；

将所述音频内容的输出音量设置为具有对应于由所述用户音量设置指示的配置文件P_y的配置文件P_x的音量设置；

接收从所述麦克风输入的声音；

确定从所述麦克风输入的声音是否具有超过由所述用户音量设置指示的配置文件P_y的声音上限值的强度；

如果所述处理器确定从所述麦克风输入的声音超过由所述用户音量设置指示的配置文件的声音上限值，则对从所述麦克风输入的声音进行分析以确定从所述麦克风输入的声音是否包括噪音或环境语音；

如果所述处理器确定从所述麦克风输入的声音包括噪音或环境语音，则将所述音频内容的输出音量改变为具有不同于P_y的配置文件的音量设置。

2.根据权利要求1所述的自动音量控制设备，其中，所述处理器被进一步配置成执行以下操作：

如果所述处理器确定从所述麦克风输入的声音包括噪音，则将所述音频内容的输出音量提高到具有高于P_y的配置文件的音量设置。

3.根据权利要求1所述的自动音量控制设备，其中，所述处理器被进一步配置成执行以下操作：

如果所述处理器已确定从所述麦克风输入的声音的强度超过由所述用户音量设置指示的配置文件P_y的声音上限值，并且从所述麦克风输入的声音包括噪音，则将所述音频内容的输出音量提高到具有配置文件P_y+1的音量设置。

4.根据权利要求1所述的自动音量控制设备，其中，所述处理器被进一步配置成执行以下操作：

如果所述处理器已确定从所述麦克风输入的声音的强度超过由所述用户音量设置指示的配置文件P_y的声音上限值，并且从所述麦克风输入的声音包括噪音，则将所述音频内容的输出音量提高到具有一配置文件的音量设置，所述配置文件具有涵盖从所述麦克风输入的声音的强度的分贝范围和大于从所述麦克风输入的声音的强度的声音上限值。

5.根据权利要求1所述的自动音量控制设备，其中，所述处理器被进一步配置成执行以下操作：

如果所述处理器确定从所述麦克风输入的声音包括环境语音，则将所述音频内容的输出音量降低到具有低于P_y的配置文件的音量设置。

6.根据权利要求1所述的自动音量控制设备，其中，所述处理器被进一步配置成执行以下操作：

如果所述处理器已确定从所述麦克风输入的声音的强度超过由所述用户音量设置指示的配置文件P_y的声音上限值，并且从所述麦克风输入的声音包括环境语音，则将所述音频内容的输出音量降低到具有配置文件P₁的音量设置。

7.根据权利要求1所述的自动音量控制设备，其中，所述处理器被进一步配置成执行以下操作：

如果所述处理器已确定从所述麦克风输入的声音的强度超过由所述用户音量设置指示的配置文件P_y的声音上限值，并且从所述麦克风输入的声音包括环境语音，则将所述音频内容的输出音量降低到具有一配置文件的音量设置，所述配置文件具有涵盖从所述麦克风输入的声音的强度的分贝范围并且具有大于从所述麦克风输入的声音的强度的声音上限值。

8.一种用于自动控制音频内容的输出音量的自动音量控制方法，包括：

在存储器中存储分别与音量设置相关联的多个配置文件P_x，其中x是整数1至n，n大于1，范围从最安静的配置文件P₁到最响亮的配置文件P_n，并且分别对于每个配置文件，在所述存储器中存储有分贝范围和声音上限值；

接收从所述麦克风输入的声音；

利用处理器确定从所述麦克风输入的声音是否具有超过由所述用户音量设置指示的配置文件P_y的声音上限值的强度；

如果所述处理器确定从所述麦克风输入的声音超过由所述用户音量设置指示的配置文件的声音上限值，则利用所述处理器对从所述麦克风输入的声音进行分析以确定从所述麦克风输入的声音是否包括噪音或环境语音；

如果所述处理器确定从所述麦克风输入的声音包括噪音或环境语音，则将所述音频内容的输出音量自动改变为具有不同于P_y的配置文件的音量设置。

9.根据权利要求8所述的自动音量控制方法，还包括：

如果所述处理器确定从所述麦克风输入的声音包括噪音，则将所述音频内容的输出音量自动提高到具有高于P_y的配置文件的音量设置。

10.根据权利要求8所述的自动音量控制方法，还包括：

如果所述处理器已确定从所述麦克风输入的声音的强度超过由所述用户音量设置指示的配置文件P_y的声音上限值，并且从所述麦克风输入的声音包括噪音，则将所述音频内容的输出音量自动提高到具有配置文件P_y+1的音量设置。

11.根据权利要求8所述的自动音量控制方法，还包括：

如果所述处理器已确定从所述麦克风输入的声音的强度超过由所述用户音量设置指示的配置文件P_y的声音上限值，并且从所述麦克风输入的声音包括噪音，则将所述音频内容的输出音量自动提高到具有一配置文件的音量设置，所述配置文件具有涵盖从所述麦克风输入的声音的强度的分贝范围并且具有大于从所述麦克风输入的声音的强度的声音上限值。

12.根据权利要求8所述的自动音量控制方法，还包括：

如果所述处理器确定从所述麦克风输入的声音包括环境语音，则将所述音频内容的输出音量自动降低到具有低于P_y的配置文件的音量设置。

13.根据权利要求8所述的自动音量控制方法，还包括：

如果所述处理器已确定从所述麦克风输入的声音的强度超过由所述用户音量设置指示的配置文件P_y的声音上限值，并且从所述麦克风输入的声音包括环境语音，则将所述音频内容的输出音量自动降低到具有配置文件P₁的音量设置。

14.根据权利要求8所述的自动音量控制方法，还包括：

如果所述处理器已确定从所述麦克风输入的声音的强度超过由所述用户音量设置指示的配置文件P_y的声音上限值，并且从所述麦克风输入的声音包括环境语音，则将所述音频内容的输出音量自动降低到具有一配置文件的音量设置，所述配置文件具有涵盖从所述麦克风输入的声音的强度的分贝范围并且具有大于从所述麦克风输入的声音的强度的声音上限值。

15.一种非暂态计算机可读介质，所述非暂态计算机可读介质上存储有程序，所述程序使处理器执行用于自动控制音频内容的输出音量的自动音量控制方法，所述自动音量控制方法包括：

接收从所述麦克风输入的声音；

如果所述处理器确定从所述麦克风输入的声音包括噪音，则将所述音频内容的输出音量自动提高到具有高于P_y的配置文件的音量设置；

如果所述处理器确定从所述麦克风输入的声音包括环境对话，则将所述音频内容的输出音量自动降低到具有低于P_y的配置文件的音量设置。

16.根据权利要求15所述的非暂态计算机可读介质，其中，所述程序使所述处理器进一步执行以下操作：

17.根据权利要求15所述的非暂态计算机可读介质，其中，所述程序使所述处理器进一步执行以下操作：

18.根据权利要求15所述的非暂态计算机可读介质，其中，所述程序使所述处理器进一步执行以下操作：

19.根据权利要求15所述的非暂态计算机可读介质，其中，所述程序使所述处理器进一步执行以下操作：

20.根据权利要求15所述的非暂态计算机可读介质，其中，所述程序使所述处理器进一步执行以下操作：

21.根据权利要求15所述的非暂态计算机可读介质，其中，所述程序使所述处理器进一步执行以下操作：