CN112997400A

CN112997400A - 具有学习和自适应安静模式能力的音频设备

Info

Publication number: CN112997400A
Application number: CN201980073778.6A
Authority: CN
Inventors: T.莫林; D.德鲁格昂-哈蒙; G.奎尔
Original assignee: InterDigital CE Patent Holdings SAS
Current assignee: InterDigital CE Patent Holdings SAS
Priority date: 2018-09-25
Filing date: 2019-09-24
Publication date: 2021-06-18
Also published as: EP3857710A2; WO2020064759A3; EP3629475A1; US11792487B2; WO2020064759A2; US20210400355A1

Abstract

提供了用于控制内容的音量的装置和方法。在一个实施例中，接收与内容相关联的声音以及与该内容相关联的音量改变的请求。然后基于放大和压缩参数获得均衡比率。然后分析音量改变是否将导致与内容相关联的放大器或压缩级别的坐标改变。如果音量改变将导致与内容相关联的放大器或压缩级别的坐标改变，则音量改变被限制。

Description

具有学习和自适应安静模式能力的音频设备

技术领域

本实施例一般涉及音频压缩，并且尤其涉及基于用户习惯和所提供的内容来提供音频控制。

背景技术

本部分旨在向读者介绍可能与以下描述和/或要求保护的实施例的各个方面有关的本领域的各个方面。认为该讨论有助于向读者提供背景信息，以促进对各个方面的更好理解。因此，应该理解的是，应从这些角度来阅读这些陈述，而不是作为对现有技术的承认。

动态范围压缩使用音频处理来降低响亮的声音的音量。可替代地，也可以通过缩小和压缩音频信号的动态范围来放大安静的声音。动态范围压缩将响亮的声音降低到一定阈值以上，同时使得安静的声音保持不受影响。它还可以将声音的响度增加到阈值以下，同时使更响亮的声音保持不变。这样，可以使用压缩器来降低源材料的动态范围，并允许将源信号记录在动态范围比源信号的动态范围更受限制的介质上。这也允许在处理期间改变乐器的特性。

动态范围压缩还可以用于增加音频轨道的感知音量，或平衡高可变音乐的音量。即使在嘈杂的环境中播放时，这也可以改进音频内容的质量。另外，可以通过压缩来操纵声音音量。例如，靠近邻居或小孩的许多人可能使用“夜间音频模式”特征，也称为自动音量或声音压缩。但是，因为执行有用的动态范围压缩要求调节许多参数，很难改进质量或操纵音量。在大多数高级系统中，存在可以控制音量的至少两个参数，声音压缩(可以从没有到低、中和高调节)或者语音清晰度(可以被打开或关闭)二者。这些特征主要旨在降低语音序列和爆炸序列之间的音量差异。用户仅使用这种特征来安静地收听电视。在低音量下，改进语音清晰度以改进全面性是明智的。这些菜单通常是隐藏的，用户可能没有音频科学技能来操纵压缩级别。这应该是一种简单的特征，但真正的问题是不能自由发挥作用，根本不能工作。有时，它的行为就好像用户手动减小音量，并且断断续续地损害了声音质量，尤其是在观看带有很多音乐的视频时。有时它增加异常的微小声音作为足迹。在大多数情况下，它什么都不做，当飞机起飞时，用户仍然想降低音量，并且不得不在听到演员正在窃窃私语之后立即增加音量。如果将电视机连接到hi-fi音频系统，则问题变得更加棘手，因为音频响应更好并且墙壁(wall)在安静模式下仍在嗡嗡作响。

因此，由于这些和其他音频参数的调节是困难的并且需要很多技巧，所以需要用于确定一组音频动态范围压缩参数并将其提供给音频压缩器的装置或方法。这些参数可以包括自动调节和计算诸如噪声门，阈值和比率参数之类的参数，以便媒体编辑应用的用户可以快速轻松地完成有用的动态范围压缩。

发明内容

提供一种用于控制内容的音量的装置和方法。在一个实施例中，接收与内容相关联的声音以及与该内容相关联的音量改变的请求。然后基于放大和压缩参数获得均衡比率。然后分析音量改变是否将导致与内容相关联的放大器或压缩级别的坐标改变。如果音量改变将造成与内容相关联的放大器或压缩级别的坐标改变，则限制音量改变。

通过类似的技术实现附加的特征和优点，并且其他实施例和方面在本文中被详细描述，并且被视为权利要求的一部分。为了更好地理解优点和特征，参考说明书和附图。

附图说明

借助于以下实施例和执行示例以无限制的方式参考附图，将更好地理解和说明本公开，在附图中：

图1示意性表示根据一个实施例的具有音频控制能力的系统的框图；

图2A例示从科幻电影剪辑中提取的声波的一般概况图；

图2B提供根据一个实施例的具有较高音量和音频压缩的可识别语音的波形的图示；

图3是根据一个实施例的操纵波形的图示；

图4是根据一个实施例的静音信号幅度(muted signal amplitude)的图示；

图5是根据一个实施例的放大信号的图示；

图6A和6B提供根据一个实施例的一个示例中的语音的时刻(6A)和爆炸的时刻(6B)的相应频率分析；

图7示意性表示用于显示要与图6A和6B结合使用的低音(bass)级别的测量设备；

图8A和8B展示音乐文件示例，其中图8A提供有利于动态性的古典音乐的示例波形捕获，并且图8B提供有利于响度的RnB歌曲；和

图9是根据一个实施例的方法的流程图表示。

在可能的情况下，在所有附图中将使用相同的附图标记来指代相同或相似的部件。

具体实施方式

要理解，已经简化附图和描述以例示与清楚理解有关的元素，同时为了清楚起见，消除了在典型的数字多媒体内容传递方法和系统中发现的许多其他元素。然而，因为这样的元素在本领域中是众所周知的，所以本文不提供对这些元素的详细讨论。本文的公开针对本领域技术人员已知的所有这样的变型和修改。

图1是例示可以接收和显示内容的系统100的框图。该系统可以是复杂的家庭影院或移动平板电脑或智能手机。在所示的示例性实施例中，系统100详细示出图1中例示的家庭影院系统1中的数字电视接收设备100和家庭影院设备200的配置。该系统可以包括解码器/编码器140，具有集成的或可替代的外部扬声器160的显示器150，诸如HDMI类型的发送器/接收器130，具有至少处理器112的CPU 110，存储器120以及诸如遥控器170或其他设备的用户接口。如本领域技术人员可以理解的，该系统可替代地还可以包括遥控附加光接收器，调谐器或其他设备。调谐器又可以在地面数字广播，数字卫星广播等中接收，调谐和解调数字广播信号，并输出具有选定内容的视频信号和音频信号。还可以存在解调器，解调器可以解码从调谐器101输出的视频信号和音频信号并且输出视频数据和音频数据。显示器可以在屏幕上显示视频或广播内容，并且可以有音频输出-或与内部或外部扬声器相关联。

诸如遥控设备170的用户接口可以包括用于声音音量操作的声音音量操作按钮。在传统系统中，遥控器通常包括声音音量操作，包括声音音量调节，静音设置和静音释放。声音音量操作按钮包括用于增加声音音量的声音音量增大按钮，用于减小声音音量的声音音量减小按钮以及用于发出指令以执行静音设置和静音释放的静音按钮。在该实施例中，无论用户接口是什么，用户都可以至少执行扬声器的声音音量操作。

CPU 110控制从扬声器输出的音频的声音音量，并且一般控制其他操作组件。存储器存储状态数据，包括与当前和先前显示或广播的内容相关联的声音音量控制有关的数据。声音音量控制状态数据可以包括最大声音音量值数据，声音音量设置值数据以及与程序或程序类型相关联的静音设置状态数据以及与它们相关联的用户习惯。

在一个实施例中，最大声音音量值数据是表示用于设备的声音音量可调范围内的最大值的数据，并且可以包括表示用于设备的声音音量可调范围内的最小值的最小声音音量值数据。

图2A例示从科幻电影剪辑中提取的声波的一般概况图。声音剪辑包含响亮的声音和柔和的声音二者，并且可用于推断后续的一些分析。如将进一步详细讨论的那样，不能单独使用通用压缩来提供安静的声音。在控制声音时，主要目的是在极端声音之间提供较少的动态性，或者换句话说，使音量平滑，以便在语音和突然噪音之间存在差异。电影包中的突然噪音(诸如演示中的声音)可能包括音乐和其他噪音(诸如尖叫声和爆炸)二者，例如，这将对耳朵产生刺耳的突然影响。

回到图2A，提供的波包括枪击和爆炸噪音以及响亮的音乐的混合。白色区域表示某人正在讲话，其包括与其他区域相比的静音类型的波形。最自然的是，在存在讲话的安静环境中，用户经常调高音量，以便轻松区分讲话。

一些设备使用诸如“夜间音频模式”或“自动音量”之类的特征，其利用声音压缩来控制音量尖峰。这些常规设备通常至少使用声音压缩和语音清晰度(语音)来改进收听的可理解性并且防止尖峰。例如，可以进行以下调节：

-声音压缩->无|低|中|高的

-语音清晰度->开|关

这些特征主要旨在降低语音序列和爆炸序列之间的音量差异。用户仅使用该特征来安静地收听电视。音量低时，改进语音清晰度以改进全面性是明智的。这些菜单一般是隐藏的，并且用户可能没有音频科学技能来操纵压缩级别。它应该是一个简单的特征：“使音频安静到|开|关”。

尽管这些特征建议了解决方案，但是现实是现有技术的设备不能很好地工作并且不能可靠地改进情况。在许多情况下，最终结果是总体上减少音量(就像手动完成一样)。在其他情况下，压缩操作造成声音质量的损坏，尤其是在观看嵌入了许多音乐的视频时。在其他时候，异常小的声音(诸如，脚步)的突然增加创建意想不到的结果。在某些情况下，结果根本不明显，并且用户不得不在响亮噪音期间手动减小音量，并且在常规语音转为低语音质期间不得不增加音量。当Hi-Fi音频系统被使用或被连接到其他设备(诸如，电视机)时，此问题变得更加困难，因为这导致更好的音频响应，其导致各种问题，甚至当声音设置为在安静模式下时甚至墙壁的振动。要理解这些问题背后的原因，可以探讨其他一些音频波形。

图2B提供具有较高音量的可识别语音，并且相应地应用音频压缩。图2B可用作可识别语音音量的参考点。图3提供被操纵的波形。左手侧的波形类似于图2B中提供的波形，而右手侧的波形提供改变的波形，其中语音区域具有增加的音量，或者至少保持基本相同，其中刺耳区域(即，爆炸)强度降低，并且更与语音音量一致。为了便于理解，被调节并应用于单频带压缩中的此波形长度的实际结果如下由参数指示：

-阈值-！5dB

-比率20：1

-攻击20ms

-释放1000ms

-增益0dB

换句话说，高于-15dB的每个声音都会减少20倍。在20ms的响亮(高/重)声音持续后应用压缩，并在检测到1000ms可接受的声音级别后取消压缩。由于没有增益，整体结果不被增加以补偿音量损失。尽管此示例使用特定数据，但可以使用其他参数。最后3个参数可以是通用的，但需要有特定的设置阈值和适当配给量(这里“-15dB”和“20：1”)。在此特定示例中，通过第一手经验将平均语音级别设置为参考点。稍后将讨论使用的一种方法，该方法与波峰应该被调整(这里减少20倍)一致。

利用视频文件，可以分析整个波形形式以获得最相关的参数。这将是对诸如智能电视机的设备的第一重大优化，但播放视频之前将花费一些时间，并且对于Live/VoD/Replay/Radio流无法实时进行。总是如图3所示应用极端压缩(-30dB，x30)调节可能不是好主意。在图4的示例中，无论原始信号幅度和动态性如何，一切都以-30db结束。语音和爆炸在噪声原始在-30dB的相同音量级别。因此，某些噪音(诸如，嗡嗡声的矿石风或其他类似的背景声音)可能会变得令人讨厌。

相反的场景也没有如图5所示的更好。在图5中，放大轨道而不是压缩它，将在各处引入失真。图4和图5中提供的示例更加结论性地描绘一些现有技术系统的弱点。例如，以下结果提供音频频率可以分割为8个部分：

-0–25Hz超低音

-25–120Hz低音

-120–350Hz低中

-350–2k Hz中

-2k–8k Hz高中

-8k–12k Hz高音

-12k–20k Hz超高音

-超过20kHz超声波

大多数传统的现有技术系统甚至不提供允许语音清晰度的选项。但是，语音清晰度只是提供更全面选项的起点。在一个实施例中，可以使用日常消费设备中已经存在的技术来实现这一目的。例如，超声波频率可以被使用，但在制作电影时不被捕获，而超低音频率可以被提供并可以被使用。在一个示例中，Hi-Fi系统的条形音箱(sound bar)可用于正确呈现低音。低音声音具有很长的波长，这使得它们很容易穿过墙壁而几乎没有损失。即使听不见，超低音频率也使墙壁震颤，它们应该被彻底移除。

图6A和6B提供在一个示例中的语音时刻(6A)和爆炸时刻(6B)的相应频率分析，以提供更好的理解。在两个情况下，如图捕获，两个示例均显示沉重的低音。在均衡方面，对于这些情况，可以使用以下处理：

-强大的HPF(高通滤波器)以去除超低音，

-预防性平滑LPF(低)，以去除无用的超高音和超声波，

-EQ，以改进语音理解力。

这可以通过图7所示的测量进一步演示。

图8A和8B演示音乐文件示例。许多先进的系统(包括电视系统)允许有时使用USB，蓝牙，LAN或其他类型的连接来接收，存储和广播音乐文件。在某些情况下，将这些文件处理为视频文件可能是相关的，尤其是在安静模式下。但是，这并非在所有情况下都适用。

再次参考图8A和8B，图8A提供有利于动态性的古典音乐的样本波捕获，而图8B提供利于响度的RnB类型的歌曲。在低音量下，诸如其中父母与正在睡觉的孩子在房间里听音乐的情况下，在平静的序列中音乐可能变得听不见，这需要调高音量。相反，即使当将音量下调至低级别，RnB声音仍在可听范围内提供有效音量。这是因为对于RnB歌曲，音乐已经被压缩(并归一化为0dB＝最大值)，所以对于所有重复，只需将音量设置为适当的级别一次。但是，其他类型的音乐文件不是实时提供的(诸如，这里演示的古典类型)，并且不得不被预处理，并且系统(电视系统等)应具有检查大多数波峰是否在(0和-1dB)之间的能力。在这种情况下，安静模式应该被去激活(deactivate)。

学习自适应电视安静模式-如果电视构造者完全了解内置音频放大器，则系统知道

-源信号的音频功率(以dB为单位)→源音频信号SAP

-放大器的音频功率(以dB或其他为单位)→Amp音频信号→AAP

可以将它们聚合以定义用户感觉的音频功率→UFAP dB标度不是行。

如本领域技术人员可以认识的，存在实现UFAP计算的不同替代方案。替代方案取决于放大器的属性，并且可以在通用/全局范围内实现。

UFAP＝Function(SAP，AAP)

在大多数情况下，一旦系统知道实时的全局音频功率，就可以保持它自动调节放大级别和压缩参数。最佳实现方式在于首先使音量请求(来自遥控器)增加或减少UFAP，以导致放大级别和压缩的坐标改变。然后，系统防止音频朝请求的UFAP级别过高或过低。例如，在以下情况下，使用最后一图中的公式VdB＝10*log(功率比率)：

如果x是分贝级别

功率比率＝10^A(x/10)SAP＝幅度＝J(10^Λ(χ/10))

例如：

0dB SAP＝1

-10dB SAP＝0.3182

-100dB SAP＝0.00001

在这种情况下，如果放大器音量以51步演变，则放大器可能以线性方式工作，“0”级别等同于静音，并且值“50”是比值“1”响亮50倍。

如果x是分贝级别并且y是放大器音量

SAP＝V(10^Λ(χ/10))

AAP＝y

UFAP＝V(10^Λ(χ/10))^＊y

这是因为SAP在这种情况下在[0-1]中，而AAP在[0-51]中，UFAP在[0-51]中。因此，在该系统中，用户首先控制UFAP。例如，用户使用他的遥控器将全局音量设置为15(UFAP＝15)。在这种情况下，系统应适应在此级别周围呈现压缩的声音。

在另一示例中：AAP＝30，并且平均SAP＝0.5，这意味着

-导致的放大器音量为30

-导致的压缩约为-6dB。

在上面的示例中，为了便于理解，假定该方法基于AAP计算，这取决于放大器硬件，其知识和其接口。但是，下面可以探讨更复杂的方法，这并不暗示关于放大器属性的任何假设。

在该示例中，假定不具有对放大器音量的高级控制的一个或多个系统。在这种情况下，从技术上讲可能不能计算AAP和UFAP，但是仅通过知道用户何时增大或减小音量，将可能制造出精度稍差的系统。为了使这一点更容易理解，以粗体提供参数(变量和常量)，以在计算中区分它们。

在第一场景下，使用被切换“开”的电视机。在这种情况下，将禁用“安静模式”，并应用构造器默认音量或最后一个音量(放大级别)。不应用压缩。

在不同的场景下，用户首次激活安静模式。应用构造器通用LPF，HPF和清晰度-EQ。构造器定义也被应用的一些属性：

-默认压缩阈值

-默认压缩比率

-默认的通用压缩攻击(通用常量)

-默认通用压缩释放(通用常量)

-默认通用压缩增益(通用常量)

-默认放大器级别。

在一个实施例中，可以根据使用统计来更新变量，但是平均值将是一种改进。在一个实施例中，可以首先应用小的压缩，然后如果没有获得足够或充足的结果，则可以增加级别以校正缺陷。在一些实施例中，声音配置文件和内容配置文件可以证明是更可靠的选项，这将在后面解释。在此示例中，好的起点是：

-压缩阈值＝-6dB

-压缩比＝5：1

从这一点开始，滑动缓冲器连续采样音频轨道。该样本旨在分析是什么使用户改变音量，并更新压缩率。滑动缓冲区持续时间是构造器定义的通用常量(例如8s)。

在另一场景下，该操作始终在安静模式下进行。即使当用户没有正在操纵音量，系统也监视音频信号级别以优化压缩。例如，在一个实施例中，系统中的处理器监视最大信号级别。此变量直接更新压缩比率，这是因为最大信号级别和压缩阈值之间的差导致该比率：

输出＝{{输入-阈值}/比率)+阈值

比率＝(输入-阈值)/(输出-阈值)

如以上等式所提供的，目标输出不能是与阈值(0除数)相同的值。在一个实施例中，常数可以被添加到高于阈值级别(略高于阈值级别)的目标上，这是因为爆炸通常比常规语音响亮。在该情况下，可以引入变量：

压缩光增益(＝输出阈值)，其提供：

压缩比率＝(最大信号级别-压缩阈值)/压缩光增益

然后可以这样提供样本值：

最大信号级别＝-8dB

-压缩阈值＝-15dB

-压缩光增益＝0.5dB

-压缩比率＝(-8--15)/0.5＝14 14：1

压缩光增益也是系统的变量。监视音量操纵可能向系统指示响亮的部分没有被充分压缩。在这种情况下，系统或处理器可以减小压缩光增益以获得更大的压缩比率。

此时，可以探讨计算最大信号级别的概念。此值不能等于在采样期间找到的最大值(这是因为，如果在录制期间存在毛刺，或者发生.5dB之类的某一异常事件，则这不应该变得与计算有关。)。同样在这种情况下，可以认识到，可以存在若干种替代实现方式。在一个实施例中，使用滑动音频缓冲器来永久地计算该值。以下示例可以提供任意的实现方式，以帮助理解：

-响亮分析持续时间＝500ms

-响亮分析峰数＝50

即使在音频不是响亮的情况下，系统也分析所有连续的500ms周期，并挑选50个最高级别并计算平均值：“临时表示级别”。然后，

最大信号级别＝max(最大信号级别，临时表示级别)

如果时间持续(例如，超过一个小时)，并且最大信号级别尚未达到期望值，则系统进行管理并提供以下变量：

-最大信号级别有效日期

-最大信号级别有效持续时间(常量)

-第二最大信号级别

-第二最大信号级别日期

在这种情况下，最大信号级别被替换为：

第二最大信号级别＝max(第二最大信号级别，最近的响亮表示级别)

在“最大信号级别有效持续时间”结束时，最大值不被替换或不再出现，那么将提供以下条件：

最大信号级别＝第二最大信号级别

日期和计时器被相应更新。

在总是超过压缩阈值的场景下，压缩阈值可能变得过时，尤其是当过于频繁地超过阈值时。在这种情况下，阈值需要被增加以提供以下参数：

-最大信号级别有效持续时间＝10分钟。

-压缩阈值最小使用比率＝80％

-压缩阈值消除步长＝1dB

在这种情况下，如果最后10分钟或80％的信号峰值出现在压缩阈值之上，则压缩阈值降低+1dB(如果小于-1dB)。

在不同的场景下，用户利用用户接口(例如，他的遥控器)来改变音量。在这种情况下，用户可以执行若干次按键，长按一次，甚至是对立按键：Vol+，Vol+，Vol+，Vol-。在分析信号和更新压缩之前，系统必须

-确保用户已完成更新音量

-识别全局愿望：增加或减少音量。

可以使用音量改变计时器来延迟信号分析，以防万一另一个音量命令到达。为了识别全局愿望，系统会比较Vol+和Vol-的数量。

在另一种情况下，用户可以主要增加音量。然后，系统分析滑动音频采样缓冲器，特别是在用户增加音量之前和当时。该特定样本的当前平均信号级别是他想要清楚听到的。当前平均信号级别是通过管理以下变量来计算的：

-峰聚焦比率＝10％

-用户反应时间＝2s

-用户反应释放时间＝3秒

在用户开始改变音量之前的2s开始以及在他停止压缩之后的3s结束的波形上应用的分析可能不被立即更新。当前平均信号级别是该时间段的最高峰的10％的平均级别。这可能有些棘手，特别是如果音量改变发生在流的最开始。对于低信号，将应用/更新压缩阈值，并相应地计算压缩比率：

压缩阈值＝当前平均信号级别

压缩比率＝(最大信号级别压缩阈值)/压缩光阈值

对于高信号，压缩参数不改变：更大的音量并不意味着系统不应该使差异平滑。

可以在下面探讨系统检测当前信号是低还是高的方式。如果系统具有任其支配的实时音频分析器，通常只能从流的开头开始。换句话说，系统能够找出当前播放的声音类型。如果开头呈现音乐条目，则不应更新压缩。但是，如果检测到语音，则更新应该发生。

如果音频分析器子系统不可用，则压缩系统定义计时器：压缩预热时间。在计时器到期之前，当前/默认参数被保护并且不能被改变。但是，在预热期间，如果用户执行对抗(antagonist)音量序列，则预热被终止：

-主要-音量-升高，并且然后主要-音量-降低

-主要-音量-降低，并且然后主要-音量-升高

“主要”代表键重复：例如“Vol+，Vol-，Vol+，Vol+”。在此压缩预热时间之后，可以更新压缩阈值，然后更新压缩比率。如果当前平均信号级别高于压缩阈值，则意味着响亮部分被过分压缩。在这种情况下，系统必须增加压缩光增益的值。在一个实施例中，这样做的方法可以包括使用被定义为压缩光增益更新步长的参数。

压缩光增益＝Compr.光增益+Compr.光增益更新步长

当该值被更新时，阈值和比率被重新计算。如果当前平均信号级别低于“压缩阈值”，则意味着用户想要听到/理解该序列：这应该是新的参考级别。

如果当前平均信号级别<压缩阈值：

压缩阈值＝当前平均信号级别

即使在这里获得的错误值也不是关键的。如果用户在响亮信号部分提高音量，则压缩阈值变得很高：因为大多数信号都在阈值以下，压缩表现就好像没有压缩一样。在这一响亮序列之后，如果离散序列到达，则用户将再次增加音量，并应用正确的压缩。

在另一场景下，用户主要减小音量。在这种情况下，在压缩预热时间之后，如果当前平均信号级别高于压缩阈值，则压缩不够强，压缩光增益被更新，然后更新压缩比率：

压缩光增益＝Compr.光增益压缩光增益更新步长

如果当前平均信号级别低于压缩阈值，则系统不执行任何压缩操作。

包括例外的场景现在可以被探讨而主要目的是提供一般构思并且这样的每个例外无法在这里被探讨但可以由本领域技术人员按可以理解的那样确定。

以下聚焦在更新和改进音频压缩的主要方法。但是，可以采取一些其他步骤来处理特殊行为。例如，少量用户不使用“静音”按钮，而是更喜欢将音量减小到接近0e。在这种情况下，应用先前的方法不使系统处于运行状态，但不实现最佳结果。在这种情况下，可以实现其他优化来解决所建议的问题。

优化-当可能时，应该通知音频智能或应该检查视频内容何时更改：

-节目结束

-频道改变

-视频发布

-音乐文件发布

-广告

在这种情况下，强烈依赖现有参数，应尝试识别新参数。此外，已知广告和少量节目类型被极度压缩和归一化。系统可以预期具有特定的默认值。同样，VoD通常具有比实时流更低的音量和更多的动态性，这是可以预期的。该系统还可以从类型，标签，时间，频道等中学习，并为设备或用户建立安静模式配置文件。此外，该系统还可以监视何时剪切音频(例如在电视菜单中)或何时浏览诸如Netflix之类的应用程序。

当处理多频带压缩器时，可以特别注意。单频带压缩器以相同的参数压缩所有频率。多频带可以对不同的频率范围应用不同的压缩。看上去比讨厌的频率更智能。在一个实施例中，该方法保持相同，但是根据要处理的频率范围的数量倍增。但是，多频带压缩器表现类似于EQ，并且可能改变音乐家称之为声音的颜色，特别是在中频。先前作为示例给出的EQ图不是随机的：它只能改进语音清晰度。换句话说，多频带压缩器更是音乐编辑母带工具。降低原始声音质量的风险越来越大，尤其是使用通用算法时。

图9提供根据一个实施例的流程图的例示。在这里提供的方法中，诸如通过使用处理器提供一系列步骤。在步骤900，接收与内容相关联的声音。在步骤910，接收与内容相关联的音量改变的请求。在步骤920中，获得与内容的声音相关联的放大和压缩参数。在步骤930中，如果音量改变将导致与内容相关联的放大器或压缩级别中的坐标改变，则防止音量改变，但是调节音量至不引起这种改变的级别。

图10提供另一个流程图例示。在步骤1000中，接收具有相关联的音频的视频段。然后在步骤1010中基于压缩和(多个)放大参数(即，配给)来计算最佳均衡比率。在一个实施例中，这可以通过分析和衰减与内容相关联的信号中不同频率来获得。在步骤1020中，在视频段期间建立多个检查点，并在每个检查点之前和之后测量压缩和均衡值。最终，在步骤1030中，每个检查点之后的压缩，放大和/或均衡值(具有确定的最佳压缩和均衡比率并调节所述音频值)相应地保持使得它们可以保持在期望的最优比率内。在一个实施例中，用户可以发起音频调节。在另一个实施例中，在注册第一数量的用户发起的音频调节命令之后，修改(多个)检查点建立(以及最佳压缩比率和均衡比率)。在另一个实施例中，检查点包括视频段内的场景或节目的结束。还应当注意，一些实施例中的视频或任何内容可以包括实况视频或电视广播流。在后者中，检查点可以包括频道的改变。在许多其他实施例中，检查点可以包括广告段的开始或结束。然后分析音量改变是否导致与内容相关联的放大器或压缩级别的坐标改变。以这种方式，分析音量改变是否将导致与内容相关联的放大器或压缩级别的坐标改变，并且如果这样，则音量改变一起被限制或阻止。

尽管已经描述了一些实施例，但是将理解，本领域技术人员现在和将来都可以做出落入所附权利要求的范围之内的各种改进和增强。

Claims

1.一种方法，包括：

接收与内容相关联的声音；

接收与所述内容相关联的音量改变的请求；

基于与所述内容的声音相关联的放大和压缩参数，获得均衡比率；

分析音量改变是否将导致与所述内容相关联的放大器或压缩级别中的坐标改变；

当所述音量改变导致所述放大器或压缩级别中的坐标改变时，限制音量改变。

2.一种装置，包括：

一个或多个处理器，配置用于

接收与内容相关联的声音；

接收与所述内容相关联的音量改变的请求；

经由获得与所述内容的声音相关联的放大和压缩参数来获得均衡比率并且分析音量改变是否将导致与所述内容相关联的放大器或压缩级别中的坐标改变；

3.根据权利要求1所述的方法或根据权利要求2所述的装置，其中，所述内容是具有相关联的音频的视频段。

4.根据权利要求1或3所述的方法或根据权利要求2或3所述的装置，其中，所述获得均衡比率包括分析接收到的音频信号中的频率的任何改变级别。

5.根据权利要求1或3-4中任一项所述的方法或根据权利要求2-4中任一项所述的装置，其中，在所述视频段期间建立多个检查点，并且在每个检查点之前或之后获得所述均衡比率，并且如果需要在每个检查点之后相应地调节所述均衡比率。

6.根据权利要求1或3至5中任一项所述的方法或根据权利要求2至5中任一项所述的装置，其中，所述视频段是实况视频流。

7.根据权利要求4至6中任一项所述的方法或根据权利要求4至6中任一项所述的装置，其中，所述检查点包括广告段的开始或结束。

8.根据权利要求1和2至7中任一项所述的方法，还包括通过获得源信号的音频功率和放大器信号的音频功率来提供音频放大器特性，或者根据权利要求2至7中任一项所述的装置，还被配置为通过获得源信号的音频功率和放大器信号的音频功率来提供音频放大器特性。

9.根据权利要求8所述的方法或根据权利要求8所述的装置，其中，所述音频放大器特性能够被聚合以提供用户感知音频功率(UFAP)。

10.根据权利要求1和3至9中任一项所述的方法，或者根据权利要求2至9中任一项所述的装置，其中，所述音量改变请求是由用户接口提供的。

11.根据权利要求1和3-10中任一项所述的方法，或者根据权利要求2至10中任一项所述的装置，其中，获得实时全局音频功率，以便连续地调节放大器级别和压缩参数。

12.根据权利要求9所述的方法或根据权利要求9所述的装置，其中，确定音频改变的最大值和最小值。

13.根据权利要求12所述的方法或根据权利要求12所述的装置，其中，确定表示音频输出控制设备的声音音量可调节范围中的最小值的最小最大声音音量值数据。

14.根据权利要求1和3-13中任一项所述的方法以及根据权利要求2-13中任一项所述的装置，其中，用户习惯被存储在存储器中，以用于将来参考和所述音量的自动默认设置。

15.一种非暂时性计算机可读介质，其存储计算机可执行指令以执行根据权利要求1和3-14中任一项所述的方法。