CN103828232A - 动态范围控制 - Google Patents

动态范围控制 Download PDF

Info

Publication number
CN103828232A
CN103828232A CN201280046326.7A CN201280046326A CN103828232A CN 103828232 A CN103828232 A CN 103828232A CN 201280046326 A CN201280046326 A CN 201280046326A CN 103828232 A CN103828232 A CN 103828232A
Authority
CN
China
Prior art keywords
audio signal
dynamic range
control
window
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201280046326.7A
Other languages
English (en)
Inventor
史蒂芬·鲍德温
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Earsoft Ltd
Original Assignee
Earsoft Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GB201116348A external-priority patent/GB2494894A/en
Priority claimed from GB201116349A external-priority patent/GB2495270A/en
Application filed by Earsoft Ltd filed Critical Earsoft Ltd
Publication of CN103828232A publication Critical patent/CN103828232A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/002Volume compression or expansion in amplifiers in untuned or low-frequency amplifiers, e.g. audio amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/007Volume compression or expansion in amplifiers of digital or coded signals

Abstract

本发明公开一种动态范围控制的计算机执行方法。该方法包括在具有显示器的设备上,显示音量(相对响度电平)控制以控制设备的输出音频信号的音量电平,音量控制包括用于控制输出音频信号的动态范围的动态可调整大小窗口控制。本发明还公开了用于调整音频信号的动态范围的方法。该方法包括提供具有第一动态范围的输入音频信号,利用转换函数将第一动态范围映射至第二动态范围,其中线性部分与输入音频信号的平均电平一致,和依据输入音频信号生成具有第二动态范围的输出音频信号。

Description

动态范围控制
技术领域
动态范围(用于音频)通常描述的是一段音频、乐器或电子设备的最弱的声音与最强的声音的比率,其以分贝(dB)进行测度。动态范围测量用于音频设备,以指示组件的最大输出信号,并评价系统的噪声基底(noise floor)。例如,人的听觉的动态范围(人通常可感知的最弱的声音与最强的声音之间的差值)为大约120dB。
在嘈杂的听音环境,处于动态范围下端的声音的安静片段可能被周围的噪音所掩盖。为了防止这种情况,在控制期间典型地压缩动态范围,使得信号的安静的部分和大声的部分的相对电平更加相似。例如,现代的音频例如音乐或电视音频通常具有小的动态范围。通过减小信号的动态范围,动态的可听度下降。当需要最大化所有收听环境下的总体可听度时,减小动态范围不是最佳的。
这要求信号比噪声更响亮,但不是那么响亮而至于不舒服,这形成了听音环境的动态范围公差(DRT:dynamic range tolerance)的定义。DRT的改变取决于听者的情绪和音频(例如音频是否被用作背景或用于当前倾听)的要求。一个更大的动态范围,与峰值和均方根(RMS:root-mean-square)的信号电平之间的较大的差异有关。因此,在一个较佳的听音环境,它们之间的类似的较大差异是容许的。
通常,能够重放音频或视频的设备不允许用户调整除了音量之外的输出音频的设置。一些设备和系统允许管理设置,但所提供的选项的复杂性可能是不利的,往往会导致不良结果。但应注意的是,贯穿本申请使用的术语“音量”应该被解释为包括相对响度电平(relative loudness level)。
发明内容
根据一个实施例,提供一种计算机执行的方法,包括在具有显示器的装置上:显示音量(相对响度电平)控制,以控制该设备的输出音频信号的音量电平,所述音量控制包括动态可调整大小窗口控制,以控制输出音频信号的动态范围,和处理输入音频信号,以将该信号的音量的平均值限制在窗口控制的选定的中心区域,以控制输出音频信号的动态范围。控制的上限和下限表示输出音频信号的动态范围的上限和下限。
所述设备可以是触摸屏显示装置,所述方法进一步包括:检测一个或数个手指在触摸屏显示器上或触摸屏显示器附近的窗口控制的平移手势,并响应检测平移手势,调整窗口控制的位置来修改输出音频信号的音量。在一个实施例中,该方法可包括通过检测一个或数个手指在触摸屏显示器上或触摸屏显示器附近的窗口控制的调整大小的手势,并响应检测调整大小的手势,调整窗口控制的大小以修改输出音频信号的动态范围。调整大小的手势可以包括至少一个手指点击或靠近在控制窗口附近的触摸屏显示器。调整大小的手势可以包括使用至少两个手指夹紧或张大的手势。在一个实施例中,调整大小手势可以在数个离散尺寸之间周期性地调整窗口控制。
该方法可以包括检测通过输入设备的窗口控制的平移手势,并且响应检测平移手势,调整窗口控制的位置来修改输出音频信号的音量。该方法还可以包括检测通过输入设备的窗口控制的调整大小的手势,并且响应检测调整大小的手势,调整控制窗口的大小来修改输出音频信号的动态范围。调整大小的手势可以包括在控制窗口附近执行控制按钮操作。模式选择控制可用于选择表示用于输出音频信号的动态范围的相应的不同的范围的多种模式中的一种的动态可调整大小的窗口控制的操作模式。在预定的时间段,平均音量电平可以与动态可调整大小的窗口控制的中心基本上一致。窗口控制可以在预定量的范围内移动,所述方法还包括响应于所述窗口控制在所述范围的任一端冲入预定音量范围的一部分,缩小动态可调整大小的窗口控制的范围,以提供减小的窗口控制。在一个实施例中,动态可调整大小的窗口控制可以收缩到预定的最小值。
该方法可以进一步包括响应用户输入,提供用于输出音频信号的音量电平,以使减小窗口控制越过预定量的范围的一端的部分。静音控制可设置成通过模式选择控制进行,使输出音频信号静音。
根据一个实施例,提供在具有显示器的设备上的图形用户界面,其包括:音量控制部分,用以显示用于输出音频信号的音量电平,并提供可以调整音量电平的范围;和动态范围控制部分,其包括与音量控制部分一致的可调整的窗口的元件,以定义输出音频信号的动态范围。窗口元件的大小可以定义输出音频信号的动态范围。窗口元件的大小可以在数个离散的尺寸之间进行周期性调整。调整窗口元件的大小可以使用以下任何一个或数个来实现:一个或数个手指触压设备的触摸屏显示器;来自该设备的输入装置的用户输入;设备的触摸显示器上的调整大小手势。调整大小的手势可以使用两个或数个手指夹紧(pinch)或张大(anti-pinch)。
在一个实施例中,图形用户界面可以进一步包括模式选择、以及静音和复位选择控制。
根据一个实施例,提供一种设备,其包括:显示器;一个或数个处理器;存储器和存储在存储器中的一个或数个程序,并包括配置成通过所述一个或数个处理器执行的指令,以便:显示音量控制模组以控制音量和从所述设备输出的输出音频信号的动态范围;响应用户输入控制动态范围控制窗口的大小和位置;和通过将输入音频信号的音量的平均值限制在控制窗口的选定的中心区域,基于动态范围控制窗口的大小和位置,控制所述输出音频信号的动态范围。
所述一个或数个处理器进一步能操作去执行指令,以便:接收代表所述动态范围控制窗口的位置的第一用户输入数据;和接收代表所述动态范围控制窗口的大小的第二用户输入数据。响应以下一个或数个:显示器上的触压、夹紧或张大手势,生成所述第二用户输入数据。
根据一个实施例,提供一种用于调整音频信号的动态范围的方法,包括:提供具有第一动态范围的输入音频信号;利用转换函数,将所述第一动态范围映射到第二动态范围,所述转换函数的线性部分与所述输入音频信号的平均电平一致;和依据所述输入音频信号生成具有所述第二动态范围的输出音频信号。利用单极低通滤波器结合所述输入音频信号的绝对值总和与平均值,确定所述输入音频信号的所述平均电平,其中平均长度大于预先确定的最小值。所述方法进一步包括利用增益值相对于输入音频信号改变转换函数,使线性部分与平均电平一致。代表动态范围窗口的用户输入可用于实质限制输出音频信号的第二动态范围。在一个实施例中,基于用户输入确定转换函数,并响应听音环境的噪声基底的变化,对转换函数进行动态调整。可调整测量以形成输出音频信号。在一个实施例中,维持输入音频信号的渐强或渐弱部分。这可以通过保存输入音频信号的噪声基底实现。
根据一个实施例,提供一种用于配置输出音频信号的动态范围的方法,包括:提供动态范围公差窗口;在预先确定的心理声学时间表,计算用于输入音频信号的平均值;利用所述平均值生成增益值,以改变所述动态范围公差窗口;和利用所述输入音频信号生成所述输出音频信号,所述输出音频信号具有实质定义在所述动态范围公差窗口内的动态范围。在一个实施例中,利用单极低通滤波器结合所述输入音频信号的绝对值总和与平均值,确定所述输入音频信号的平均电平,其中平均长度大于预先确定的最小值。可以接收定义所述动态范围公差窗口的用户输入。可以维持所述输入音频信号的渐强或渐弱部分。
根据一个实施例,提供一种用于处理音频信号的系统,包括:一信号处理器,其用于:接收代表输入音频信号的数据;利用转换函数,将所述输入音频信号的动态范围映射至输出动态范围,其中线性部分与所述输入音频信号的平均电平一致;依据所述输入音频信号,生成具有所述输出动态范围的输出音频信号。利用单极低通滤波器结合所述输入音频信号的绝对值总和与平均值,确定所述输入音频信号的所述平均电平,其中平均长度大于预先确定的最小值。所述信号处理器进一步操作成利用增益值使所述线性部分与所述平均电平一致,以相对于所述输入音频信号改变所述转换函数。在一个实施例中,接收代表动态范围窗口的用户输入,以实质限制所述输出音频信号的动态范围。可基于用户输入确定所述转换函数。可响应所述听音环境的噪声基底的变化,所述信号处理器调整所述转换函数,并可维持所述输入音频信号的渐强或渐弱部分。
根据一个实施例,提供一种嵌入于非暂时性有形计算机可读存储介质的计算机程序,所述计算机程序包括机器可读指令,当其被处理器执行时,执行用于调整音频信号的动态范围的方法,包括:接收代表动态范围公差的用户选择的数据;基于所述动态范围公差确定转换函数;利用所述转换函数通过将所述输入音频信号的平均电平维持在通过所述用户选择定义的范围内,处理输入音频信号,生成输出音频信号。
附图说明
现在通过举例的方式,并参照附图,对本发明的一个实施例进行描述,其中:
图1是根据一个实施例的设备的示意性框图;
图2是根据一个实施例的设备的示意性框图;
图3是根据一个实施例的动态范围控制的示意性框图;
图4a-d是根据一个实施例的动态范围控制的示意性框图;
图5a-c是根据一个实施例的动态范围控制的示意性框图;
图6是根据一个实施例的动态范围控制的示意性框图;
图7a-c是根据一个实施例的动态范围控制的示意性框图;
图8是根据一个实施例的方法的示意性框图;
图9是根据一个实施例的转换函数的示意图;
图10是根据一个实施例的平均化方法(averaging method)的示意性框图;
图11是根据一个实施例的用于处理立体声信号的方法的示意性框图;
图12是根据一个实施例的方法的示意性框图;
图13是根据一个实施例的歌曲的整体宏观动态范围(overall macrodynamics)的示意图;
图14是利用根据一个实施例的方法处理图6的歌曲的整体宏观动态范围的示意图;和
图15是根据一个实施例的设备的示意性框图。
具体实施方式
可以理解的是,虽然术语第一、第二等可能在本文中用来描述各种元件,但这些元件不受这些术语的限制。这些术语仅用来区分彼此不同的元件。例如,第一手势可被称为第二手势,并且类似地,第二手势可被称为第一手势。
本文所用的术语仅用于描述特定实施例,并非意图进行限制。如本文所使用的,单数形式“一”,“一个”和“该”也包括复数形式,除非上下文另有明确说明。还应当理解的是,本文所用的术语“和/或”是指并且包括相关联的所列项目的一个或更多的所有可能的组合。还应理解,术语“包括”和/或“包含”在本说明书中使用时,指定所陈述的特征、整数、步骤、操作、元件和/或组件的存在,但不排除一个或数个其它特征、整数、步骤、操作、元件、组件和/或它们的群组的存在或增加。
对设备的实施例例如便携式多功能设备、这些设备的用户界面以及用于使用这些设备的相关处理进行说明。根据一些实施例,该设备可以是便携式通信、音乐和/或视频播放设备,例如还包含其他的功能的移动电话,又如PDA。该设备可以是一个音乐播放设备、视频播放设备或者能够对例如一个或数个扬声器或耳机提供音频信号输出的任何其他设备。例如,该设备可以是一个计算装置,该装置从本地或远程存储的数据提供音频输出。
图1是根据一个实施例的装置100的示意性框图。在一些实施例中,设备100包括触摸敏感显示器系统112。为了方便,该触摸敏感显示器系统112有时也被称为“触摸屏”。该设备100可以包括存储器102(其可以包括一个或数个计算机可读存储介质)、存储器控制器122、一个或数个处理单元(CPU)120、外设接口118、RF电路108、音频电路110、扬声器111、输入/输出(I/O)子系统106和其它输入或控制设备116。这些部件可以通过一个或数个通信总线或信号线103进行通信。
应当理解的是,设备100是设备的一个实施例,并且与图1中所示的设备相比,设备100可以具有更多或更少的组件,可以组合两个或更多组件,或可以具有不同的配置或布置的元件。在图1中所示的各种组件可以用硬件、软件或例如包括一个或数个信号处理和/或专用集成电路的硬件与软件的组合来实现。
存储器102可以包括高速随机存取存储器,并且还可以包括非易失性存储器,诸如一个或数个磁盘存储设备、闪存设备或其它非易失性固态存储器器件。诸如CPU120和外设接口118的设备100的其它组件对存取存储器102的访问,可以由存储器控制器122进行控制。
外设接口118将设备的输入和输出外设与CPU120和存储器102连接。所述一个或数个处理器120运行或执行各种软件程序和/或存储在存储器102内执行设备100的各种功能和处理数据的多组机器可读指令。
在一些实施例中,外设接口118、CPU120和存储器控制器122可在单个芯片上实现,例如芯片104。在一些其它实施例中,它们可以在单独的芯片上实现。
RF(射频)电路108接收和发送RF信号。RF电路108将转换电信号为电磁信号,或将电磁信号转换为电信号,并通过电磁信号与通信网络和其它通信设备通信。RF电路108可以包括用于执行这些功能的公知的电路,包括但不限于天线系统、RF收发器、一个或数个放大器、调谐器、一个或数个振荡器、数字信号处理器、CODEC芯片组、用户识别模块(SIM)卡、存储器等。RF电路108可以通过无线通信与网络例如因特网、内联网和/或无线网络如蜂窝电话网络、无线局域网络(LAN)和其他设备进行通信。无线通信可以使用任意数个通信标准、协议和技术。
音频电路110和扬声器111提供用户和设备100之间的音频接口。音频电路110从外设接口118接收音频数据,将音频数据转换为电信号,并将电信号传送到扬声器111。扬声器111将电信号转换为人可以听到的声波。音频数据可通过外设接口118从存储器102和/或RF电路108取出,和/或通过外设接口118传送到存储器102和/或RF电路108。在一些实施例中,音频电路110还包括一个耳机插孔。该耳机插孔提供音频电路110与可移除的音频输入/输出外设例如仅具有输出的耳机或具有输出(例如单耳或双耳头戴式耳机)和输入(例如麦克风)的头戴式耳机之间的接口。
在I/O子系统106将输入/输出外围设备连接在设备100上,将诸如触摸屏112和其它输入/控制设备116与外设接口118连接。在I/O子系统106可以包括显示控制器156和用于其它输入或控制设备的一个或数个输入控制器160。所述一个或数个输入控制器160从/向其它输入或控制设备116接收/发送电信号。其他输入/控制设备116可以包括物理按钮(例如按钮,摇杆按钮等等)、刻度盘、滑动开关、操纵杆、点击轮、触控面板、触摸界面的设备等等。在一些替代实施例中,输入控制器(数个)160可连接到任何(或无)下列各项:键盘,红外端口,USB端口,和一个指针设备如鼠标。所述一个或数个按钮可以包括用于音量向上/向下按钮(相对响度电平)扬声器111的控制。所述一个或数个按钮可以包括按压按钮或滑动控件。触摸屏112可被用于实现虚拟或软按钮或其它控制元件和模块,例如用户界面。
触摸敏感触摸屏112在设备和用户之间提供一个输入接口和输出接口。显示控制器156从/向触摸屏112接收和/或发送电信号。触摸屏112显示视觉输出给用户。视觉输出可以包括图形,文本,图标,视频和它们的任意组合。在一些实施例中,一些或全部视觉输出可以对应于用户界面对象,进一步详细描述如下。
触摸屏112具有一个触摸敏感表面、传感器或传感器组,它基于接触和/或触摸接受来自用户的输入。触摸屏112和显示控制器156(连同存储器102中的任何相关联的模块和/或指令集合)检测触摸屏112上的接触(以及接触的任意运动或中断),并将所检测到的接触转换成与显示在触摸屏或其它显示设备上的用户界面对象的交互。在一个实施例中,触摸屏112和用户之间的接触点对应于用户的手指。
触摸屏112和显示控制器156可利用任意数个典型的触摸感测技术检测接触和任何运动或其中断,包括但不限于电容性、电阻性、红外和表面声波技术,以及用于确定与触摸屏112接触的一个或数个点的其它接近传感器阵列或其它元件。
在一些实施例中,存储在存储器102的软件组件可以包括操作系统126,通信模块(或指令集合)128,接触模块(或指令集)130,图形模块(或指令集合)132,音乐播放器模块146和视频播放器模块145。
通信模块128便于通过一个或数个外部端口(未示出)与其他设备通信。接触/运动模块130可以检测触摸屏112(与显示控制器156结合)和其他触摸敏感设备(例如触摸面板或物理点击轮)上的接触。触摸模块130包括用于执行与检测接触相关的各种操作的各种软件组件,诸如确定是否发生了接触,确定是否存在接触移动,追踪在触摸屏112上的运动,并确定该接触是否中断(例如接触是否停止)。确定接触点的移动可包括确定速率(大小),速度(大小和方向),和/或接触点的加速度(大小和/或方向的改变)。这些操作可被应用于单个接触(例如,一个手指接触)或数个同时接触(例如,数个手指接触)。
图形模块132包括用于在触摸屏112上形成和显示图形的各种已知软件组件,包括用于改变显示的图形亮度的组件。如本文所用,术语“图形”包括可被显示给用户的任何对象,包括但不限于文本,图标(例如用户界面对象),数字图像,视频,动画等。
结合触摸屏112、显示控制器156、接触模块130、图形模块132、音频电路110和扬声器111,视频播放器模块145可用于显示、呈现或以其他方式回放视频(例如在触屏幕或经外部端口连接的显示器上)。
结合触摸屏112、显示系统控制器156、接触模块130、图形模块132、音频电路110、扬声器111、RF电路108和浏览器模块147,音乐播放器模块146允许用户接收和回放记录的音乐和存储为一种或多种文件格式如MP3或AAC文件的其他声音文件。在一些实施例中,设备100可以包括MP3播放器的功能。
每个上面标识出的模块和应用程序对应用于执行上述一个或数个功能的一组指令。这些模块(即指令集合)不必由单独的软件程序、过程或模块实现,并且在各种实施例中,这些模块的各子集可以被组合或以其他方式重新编排。例如,视频播放器模块145可与音乐播放器模块146组合成一个模块(例如视频和音乐播放器模块)。在一些实施例中,存储器102可以存储以上标识的模块和数据结构的子集。此外,存储器102可以存储附加的模块和上面没有描述的数据结构。
图2是根据一个实施例的设备的示意性框图。设备200包括显示器209,其可以是触摸敏感显示器112。设备200使用输入音频信号201,以提供可提供给扬声器205或类似的音频输出设备如耳机输出音频信号203。设备200c的第一显示部分207可以被用来呈现信息给用户。例如,显示部分207可被用于显示视频或其它信息给用户,例如与输入或输出的音频信号相关的信息。
设备200的音量控制由条(bar)211概括表示。这样的控制通常可采取许多形式,例如将设备200的音量(相对响度电平)的调节范围定义为例如数值控制的条和线等。控制条211具有用213和215实质描绘两个端点。围绕213的区域通常被认为是音量或相对响度电平的范围的低侧,同时围绕215的区域通常被认为是该范围的高侧。根据一个实施例,设置了控制部分217。控制部分217采用动态可调整大小的窗口控制,在一个实施例中,其用于控制所述输出音频信号203的动态范围。动态范围控制部分217包括与音量控制部分211一致以定义输出音频信号203的动态范围的可调整的窗口元件。
在一个实施例中,控制217取代与音量控制211相关的典型调整构成。这种构成通常包括可动的点或图标,可动的点或图标可被调整以便改变用于输出的音频信号203的音量电平。控制217可以是透明的,以允许音量控制条211保持可见。因此,包括显示可以选择的音量大小的范围的音量控制条的典型的音量控制,可以被替换为音量控制条211和动态范围控制217,或可以增设音量控制条211和动态范围控制217。在一个实施例中,设置至少一个动态范围控制217,其可用于增强现有的音量控制和取代与其相关联的音量选择元件。
图3是根据一个实施例的动态范围控制部分300的示意性框图。类似于图2,设置了音量控制部分211。该部分211被描绘为一个条(bar),但应理解,可以使用任何其他合适的控制部分。举例来说,不采用条,而用一条线(实线或其他形式)。控制部分217包括与音量控制部分211一致的可调整的窗口元件。在一个实施例中,控制部分217用来定义输出音频信号的动态范围。控制部分217与音量控制211排列可以以多种方式来实现。如图所示,有两个电平(level)的一致。首先,控制部分217排列成平行于所述音量控制211。其次,控制部分217的中心大致与音量电平305一致。更具体地,音量电平305表示输出的音频信号的当前的音量或响度。因此,该电平根据输出音频信号的动态范围而波动。在从几秒钟到几分钟的预定期间,可以确定该电平的平均值。这个值被限制成典型地对应位于控制部分217的中心或中心区域的位置上。因此,输出音频信号203的动态范围由控制部分217确定的范围限制。
控制部分217因此定义了一个音量控制。分别以307和309实质描绘的控制217的上限和下限,确定输出音频信号的动态范围。也就是说,输出的音频信号的动态范围被限制在由控制部分217定义的范围内。
在一个实施例中,控制部分217可相对于该音量条211移动。例如,可以维持平行排列(parallel alignment),控制部分在由箭头A实质描绘的方向上沿音量条211来回移动。作为如上所述的音量电平限制的结果,移动控制部分217导致输出音频信号203的音量电平和动态范围的变化。如上面所提到的,移动控制窗口217因此导致输出音频信号的音量的变化,因为窗口217已经取代与音量控制条211相关联的常规音量控制。
区域301和303代表音量控制211的端部区域。因此,区域301表示音量控制211的低音量区域,而区域303代表音量控制211的高音量区域。根据一个实施例,调节控制217使得端点307、309之一进入区域301、303时,特定动作生效,后面会参考图4a-d对其进行描述。
根据一个实施例,控制窗口217可以任何角度排列,并且可以是任何形状。例如,虽然控制217在这里被描述为包括一个矩形窗口,但它可以是任何形状,包括弯曲的形状。例如,圆弧形线或框可以被用作控制窗口217。或者,控制217可以是圆环形状,具有或不具有切口部分(即,完整的环形形状或部分的环形形状)。其他替代方案也是可以的,且应理解,该控制217可以以多种方式来实现,使得用户能够选择所希望的音量电平和动态范围的设定。还应该注意的是,控制217和条211可以与上述不同的方式排列,也可以彼此不同,例如控制217和条211在空间上分开或仅部分重叠。
根据一个实施例,用户界面通常在任何一个时间均有两种可交互(interface-able)区域,可以是滑动条或窗口控制217和“模式/静音”图标、模块或控制,或两个“取消静音/选择”模式的图标、模块或控制。在一个实施例中,滑动条217具有一个中心区域(其可以具有或可以不具有指示其位置的视觉标记)和两个端部,一端接近总范围的较安静端,另一端接近总范围的较响亮端。
如以上描述的那样,滑动条217可以移动和改变长度。依据用户交互,模式图标可以是可见的或不可见的,并且,当可见时,可以从滑动条217的一端向另一端拖动,以触发例如模式的改变。或者,可以任何数量的其它方法改变模式,包括例如通过用户从菜单中选择特定的模式,或通过突出显示表示所希望的模式的图标来实现。或者,可以基于收听环境并考虑与设备连接的例如扬声器或耳机的输出设备的形式,自动地选择模式。模式图标为用户提供方式来选择设备的不同的操作模式,使得可以调整输出音频信号203的特性。例如,可以提供耳机模式和扬声器模式,其中每一模式表示音频信号处理的不同方式。例如,与扬声器模式相比,耳机模式中输出音频信号203的特性可能是不同的。
静音图标可以显示或消隐。在一个实施例中,与静音图标直接交互。可以设置音量电平表(level meter),其依据输出音频信号203移动,以在指定时间提供音量电平的指示。电平表可以包括表示单声道和立体声的图示如单行或双行,并且还可以设置快速和慢速电平表响应图示,以给用户提供用于基础声音(underlying sound)更好的感觉。
根据一个实施例,音量电平条211向用户指示提供给他们的总响度范围。该范围可以依据用户所处的模式(例如扬声器或耳机模式)来改变。控制217可以替换标准的音量控制。控制可定位和作标记,以适应用于例如内容或系统供应商的所需主题。
音频静音可以通过一次按压(例如用手指)或者单击(使用输入设备)来实现。例如可以按压或点击模式图标。取消音频静可以通过再次按压或点击或通过切换模式实现。在一个实施例中,静音会导致静音和模式图标变成可见。因此,静音将允许通过用户选择理想模式的模式图标改变模式。为了以输出音频无间断的方式切换模式,可以将模式图标从一个位置拖到另一个位置。例如,如果模式图标在音量条211的两端,可将当前激活模式的模式图标可拖动到理想模式的模式图标的位置,以使切换生效。
根据一个实施例,由控制217提供的动态范围可以被量化为例如可以通过两次敲击或双击获取的数个不同的范围。或者,夹紧或张大触摸手势可以用于数个不同的范围之间的切换。选择的范围可以是循环的,使得该范围可以从数个范围组的第一范围回到最后一个范围等。
在一个实施例中,可以设置三个这样的范围。例如,最小的动态范围的第一范围可以用于听轻音乐,其需要高度一致的声音。例如具有比第一范围相对较大的动态范围的第二范围可用于正常收听,其需要受控制的输出声音。具有比第二范围相对较大的动态范围的第三范围,可用于需要大的动态范围的音频信号。所有的范围均可以提供整体的一致性,所以从胶片(film)到胶片,歌曲到歌曲,总体响度通常是相同的。
根据一个实施例,由控制217所提供的范围可以是连续的,而不是离散的。也就是说,控制217可以在预定的最小和最大值之间为输出音频信号203的动态范围提供连续的调整,用户能够选择范围内的任何中间值。在连续或离散的任一情况下,用户可以使用多种不同的输入原理选择所希望的范围。如描述的那样,在控制217的附近或围绕控制217的附近进行双击或单击,可用于在离散范围之间进行循环切换。对于连续的情况,用户可以用一个手指(用于触摸设备)或输入设备(如鼠标或触控面板)“抓取”控制217一端,并拖动它来增加或减少范围。在这种情况下,没有被“抓取'的控制217的另一端的位置可以维持,仅通过抓取端的运动调节范围。这可导致音量电平的位置的改变。或者可以这样:虽然控制217的一端移动,音量电平也保持在其当前位置。例如,抓取和移动控制217的一端可导致控制217的另一端的相等(大小)但相反(方向)的调整,使音量电平的位置保持不变。
或者,在触摸敏感系统(其可以使用触摸敏感显示器或触控面板等)中,合适的触摸手势可以被用于改变控制217的大小。例如,夹紧或张大手势可以用于范围设定之间的循环或调节控制217的大小。如上所述,手势可导致音量电平移位或者被保持在当前位置。例如,触摸手势可以是这样的,它允许以不同的速率调整控制217的任一端,由此产生的音量电平的位置的移位。或者,控制217可以这样对触摸手势作出反应,使得控制217的两端获得一致的调整。也就是说,不论调整的任一端(例如使用夹紧或张大)的相对速度如何,范围两端以相同的速率移动。
在一个实施例中,对控制窗口217的一次触压、单击、类似动作、其他手势或者命令,可将音量限制在由控制窗口217定义的范围的中心区域。
图4a是根据一个实施例的动态范围控制部分217的示意性框图。更具体地,图4a示出了用户通过沿箭头B的方向移动控制217以增加输出音频信号203的音量之后的动态范围控制217。控制217的高侧区域307冲入(impinge)或以其它方式进入区域303。平均电平305相应地增加。然而,由于控制217的大小(宽度)仍没有改变,所以输出音频信号203的动态范围并没有受到影响。通过沿箭头B的方向移动控制217进一步增加音量电平的效果示于图4b。输出音频信号203的音量电平305进一步增大。然而,由于已经抵达音量控制条211的高侧区域303,所以控制窗口217收缩。也就是说,继续沿箭头B的方向移动控制217导致高侧307朝着低侧309收缩。因此,通过控制窗口217的宽度所定义的动态范围,与因用户移动控制该窗口缩小的电平相称地减小。
图4c示出了该控制窗口217已经缩小(或已经被最小化)至预定的最小的大小。由于已经达到最小的尺寸,所以试图进一步朝箭头B的方向移动控制窗口217对控制窗口217的大小没有影响。最小的尺寸可预先确定,或者可以基于例如收听环境自动地确定。为了跨过预定的最大音量电平303的边界,用户可以执行特定操作或可引起控制窗口217跨入具有由窗口的宽度所定义的相应的动态范围的最大音量电平的操作。在一个实施例中,跨入最大303达到更高音量电平可以由用户终止该窗口的移位来实现。终止可以包括在触摸屏释放手指或其它合适的动作,或放开被用来移动例如窗口的控制设备。在该控制设备的进一步应用中,在终止后移动窗口的手指或其它工具,可以“跳”过定义高侧区域303的边界,以便为输出的音频信号203提供进一步最大值的设定。
在一个实施例中,控制217因此可以占用数个区域。第一种情况采用用于给定的范围设置的全部长度。增加或降低音量电平的用户的操作,导致窗口217沿增加或减小音量/响度的方向移动。在这种情况下,在该窗口的宽度没有变化。在第二种情况下,窗口控制217固定从0dBFS偏移预定的量。企图提高音量,会导致范围缩小至预定的最小尺寸。音量的减小会导致窗口延伸至给定的范围的全长。
大于预定的最小值的音量期望增加,例如,一旦例如窗口已经降低到它的最小尺寸,导致控制到“跳跃”,使得它的“最大音量极限(loud extreme)”不同,但高于获得估计最大音量的先前情况的预定值。6dB的顺序差异例如可用于相对于估计最大音量电平。
在一个实施例中,在刻度(scale)的另一端,在窗口控制217的最小音量极限(quiet extreme)被固定为从-54dBFS到0dBFS的给定顺序偏移。减少音量的操作或事件导致窗口朝较低的音量收缩,直到窗口为预先设定的最小范围。音量增加导致窗口的长度延伸,直到它到达给定范围模式的全长。
试图减小大于预定的最小值的音量(一旦窗口控制已经减少到最小尺寸)的事件可导致窗口“跳”到静音设置,使得最大音量极限和最小音量极限均为-inf dB或另一适当低的设定,这有效地导致输出音频信号的静音。静音图标可以在这种情况下可见。
根据一个实施例,窗口控制在状态之间转换的预定的dB值,可以由讨论的设备的模式确定,如下面将要描述的那样。还应当注意,尽管上面提到的各种情况下的值是合适的值,但它们并非意在限制,并且可以使用适合于给定用户、设备或环境的其他替代值。
图5a-c是根据一个实施例的动态范围控制部分的示意性框图。图5a示出了用户通过沿箭头C的方向移动控制217以减小输出音频信号203的音量之后的动态范围控制217。控制217的低侧区域309冲入或以其他方式进入区域301。平均电平305相应减少。然而,由于控制217的大小(宽度)仍没有改变,所以输出音频信号203的动态范围并没有受到影响。通过沿箭头C的方向移动控制217进一步减小音量的效果示于图5b。输出音频信号203的音量电平305进一步降低。然而,由于已经抵达音量控制条211的低侧区域309,所以控制窗口217收缩。也就是说,继续沿箭头C所示的方向移动控制217,将导致的高侧307朝着低侧309收缩。因此,通过控制窗口217的宽度所定义的动态范围,与因用户移动控制该窗口缩小的电平相称地减小。
图5c示出了该控制窗口217已经缩小(或已经被最小化)至预定的最小的尺寸。由于已经达到最小的尺寸,所以试图进一步朝箭头C的方向移动控制窗口217对控制窗口217的大小没有影响。最小的尺寸可预先确定,或者可以基于例如收听环境自动地确定。在一个实施例中,沿箭头C的方向进一步移动控制217一旦抵达最小尺寸,可导致音频被静音。这可以要求例如用户在静音发生时“释放”控制和重置运动。
图6是根据一个实施例的动态范围控制的示意性框图。耳机设置图标601和扬声器设置图标603设置在音量条211的两端。在扬声器模式下,图标603是可见的。在耳机模式下,图标601是可见的。为清楚起见,两者已显示在图6中。在可替代的实施例中,两者可以在同一时间可见。为了允许用户确定设备正在哪种模式下工作,图标可以被突出显示-它的颜色可以与其它图标不同,或以其他方式突出显示,使得用户清楚设备在哪种模式下工作。
图标601、603可以作为防止用户试图选择高于或低于所讨论的系统允许的音量电平的位于音量条211的两端的挡块(stop)。例如,在扬声器模式下,位于控制的最安静端的图标601可以作为一个“挡块”,以保证电平不能再低。在耳机模式下,位于控制的最响亮端的图标603可以防止用户选择危险的音量电平,并且可以从控制217的区域的值布置例如更适合于耳机使用的dB转换点。在一个实施例中,图标601、603邻接音量条211的两端,以提供其用作“挡块”的视觉指示,如图6所示。也可采用其他替代性的位置。
根据一个实施例,触发事件可以是由模式图标或静音按钮执行的事件,其可导致控制窗口217消失和两个模式的图标变成可见。静音图标605显现在这两个模式图标的中间。要取消静音,用户可以使用相应的模式图标在扬声器或耳机之间进行选择。
图7a-c是根据一个实施例的动态范围控制的示意性框图。在图7a中,设备工作在一个特定模式下,例如输出音频被处理为适合于扬声器输出的模式。因此,扬声器图标701是可见的或者以其他方式突出显示,以便明显知道设备在该模式下工作。为了切换模式,如上所述,用户有两个选择。在图7b中,输出音频静音,如上所述。静音后,有几个图标显示在用户面前。图标703告诉用户输出的音频当前静音。图标705是替代性的模式选择图标,例如耳机模式图标。为了切换至由图标705表示的模式,用户可以例如通过点击或敲击简单地选择图标705。此时,音频被取消静音,与图标705相关联的模式被选择。模式的改变通常会导致对输出音频信号的处理的改变。
在图7c中,以图7b的替代方法改变模式。在由图标701表示的模式下操作时,用户可以通过相对于音量条211或控制217将图标701移动到不同的位置来切换模式。在一个实施例中,用户可以将图标701移动至条211的另一端以触发操作模式的改变。当图标701在条211的端部的预定的周边,该图标701可变成表示另一种操作模式的图标705。在这种情况下,将不再需要静音操作,并且输出音频上没有明显的间断。
在一个实施例中,图标可以移动,仅通过在控制217上实质移动图标,如方向箭头E所描绘的那样,模式会因此改变。或者,可以使用任何运动(可以是控制217以外的运动,例如箭头D实质所示)。
例如,从一个扬声器模式切换到耳机模式,用户可以移动图标701到条211的另一端,在该点它可以改变成图标705,表示模式已经发生相应变化。模式的变化可发生于在该图标701进入上述附近的位置(由区域707实质示出),或者可以发生在用户停止移动图标并且已被“捕获(capture)”在该区域707的位置。在这样的实施例中,在该区域707停止移动图标701可能会导致“捕捉”到预定的位置,如在条211的端部的位置,并改变成另一种图标例如705,其表示模式改变。
从一个位置移动图标到另一个位置,可以使用输入设备如鼠标或触控面板来实现,通过“抓取”要移动的图标,并拖动它。或者,可以用触摸手势,手指或其它合适的工具用于抓取要移动的图标,并在“抓取”的同时在触摸敏感显示器上移动它。另外,可以设置触摸手势,用户从一个位置“抓住”图标进入图标705的实质周边区域或方向,以使改变生效。在模式改变之前,图标需要在预定方向上移动预定的最小量。
应理解,虽然本文中参照了设计成实现特定设置、模式和功能的单手指、双手指按压、设备的点击或类似动作、或用于触摸敏感设备其他手势,但是其他交互也是可能的。例如,单次按压或两次按压、单击或双击可以被替换为任何数量的其他合适的交互,例如可以是基于触摸的手势或基于输入的设备的命令。
此外,参照特定实施例,对某些图标和模块的位置和功能进行了说明。然而,应当理解的是,图标、模式按钮和模块等的位置、设计和功能,可根据该使用的设备、用户偏好、内容提供者偏好、品牌和各种其它因素变化。因此,上述的或图中所描绘的不是限制性的。
根据一个实施例,提供自动的动态范围控制的方法和系统,其基于听者的DRT,提供经处理的音频信号。多层压缩和动态范围控制的操作,用以将输入信号映射到收听环境下听者的理想DRT,同时执行最小量的动态范围压缩。在一个实施例中,基于心理声学指标(psychoacoustic metrics),选择改变压缩的与时间表相关的系数。因此,刻度(scale)对人通用。
听者的DRT体现在收听环境下所需的音频处理,并且其特征是具有用于输出音频信号的优选的平均动态范围区域和动态范围的余量区域(headroomregion)的动态范围窗口。对动态范围在表征信号所处的环境下的DRT的窗口中的信号,例如,一首音乐的叙述部分(narrative)和主要乐器,可以很容易地听到和理解,而在大声的突然干扰、失真和其他这样的声音不会影响信号(听者通常不倾向于因为大声而希望改变信号的电平)。然而,如果该信号的电平波动至DRT窗口之外,听者可能倾向于调整的信号的音量进行补偿。这通常是因为声音对于用户而言要么太小要么太大。
在一个实施例中,对输入音频信号进行处理,以确定用于信号的音量电平的平均值。平均值被限制在窗口控制的选定的中心区域内,该窗口控制用于控制输出音频信号的动态范围,以便在所处环境中不超过用户的DRT(在动态范围的上限或下限内)。在具有显示器的用户设备上,可以向用户显示音量控制,以控制该设备的输出音频信号的音量电平。在一个实施例中,音量控制包括动态可调整大小的窗口控制,以根据后面参照图8至图15描述的方法控制输出音频信号的动态范围。
图8是根据一个实施例的方法的示意性框图。输入音频信号801可以是任何音频信号,包括由音乐、口头语言/叙述体、基于效果的音频或三者的组合构成的信号。例如,输入音频流801可以是一首歌或一部电影的配音。输入音频信号801具有与它相关联的第一动态范围803。第一动态范围803表示输入音频信号801的动态范围,并且可以是任何大于零的动态范围。根据一个实施例,不计算输入音频信号801的输入动态范围。在块805,确定输入音频信号801的平均电平。在一个实施例中,使用选定的平均长度来计算信号801的运行RMS。
在块809,接收代表听音环境的输入。可以使用用户界面(UI)接收该输入,用户界面至少可以提供收听环境的数个可选择的选项。例如,环境可能是:电影院,家庭影院,客厅,厨房,卧室,便携式音乐设备,车内,飞机内娱乐,用户界面上每一个都可以有合适的可选单元,以使用户能够执行与环境相关的处理。在一个实施例中,每个环境都具有与它相关联的不同的DRT,其中包括对环境问题的噪声基底。例如,与电影院环境相比,飞机内娱乐环境的DRT较小,由于外界噪声水平造成这些环境的噪声基底不同(例如飞机内娱乐环境的噪声基底大于电影院环境的噪声基底)。
在块807,设置转换函数。该转换函数是利用代表听音环境的块809的输入和利用输入音频信号801的平均电平805来确定。在一个实施例中,转换函数807用于将第一动态范围803映射到第二动态范围811。具有第二动态范围的811的输出音频信号813由输入音频信号801生成。
图9是根据一个实施例的转换曲线的示意图。转换曲线901具有由903、905、907和909实质描绘的几个部分,其用于将输入音频信号(输入(dB))的动态范围值映射为输出音频信号(输出(dB))的动态范围值。因此,转换曲线901是转换函数107的图示。转换函数107因此定义信号电平如何不同地缩放或映射。在一个实施例中,为了尽量减少在音频信号中可感知的处理成分,所处的听音环境的DRT的区域中的转换曲线基本上是线性的,也就是说,在区域907,信号基本上正比例缩放(scale)。该区域907因此选择成与环境的DRT窗口相一致,以使得输出信号具有与该环境的听音者的DRT相应的动态范围。
区域905和909对应DRT区域907之外的动态范围控制的区域。为了将信号限制在DRT区域内,将需要用于区域909的上限控制的限幅区(limiter),和用于区域905的下限控制的积极扩充区(aggressive expander)。但是,极端的转移曲线如区域905、909通常会产生不希望的最终结果,即在DRT区域之下信号的极端向上的扩充,导致当转换曲线在零处不连续时产生数个过零失真(zero-crossing distortion)。因此,其结果是,该信号每次过零均不连续。
根据一个实施例,为了最小化信号在动态范围控制的区域内的次数(即,当信号在区域905和909被修改),信号的平均电平应该位于DRT区域907内,在DRT区域907,转换曲线是线性的。为了实现这一目标,计算输入音频信号的运行RMS。根据一个实施例,RMS值被用于计算相对于输入音频信号改变转换函数的增益值(gain value),以使线性部分与所述输入音频信号的平均电平一致。因此,输出信号的动态范围可以被控制,使得不超过给定的收听环境下的用户的DRT(两个极限),并且听音者可感知的信号的质量不会受到损害。也就是说,通过保持动态范围控制的水平,可以产生改善听音环境中的用户体验的输出信号,在动态范围控制内尽量减小作为与环境相关的DRT变化的结果的信号改变。
在一个实施例中,输入音频信号的平均电平利用具有平均长度大于预定的最小值的输入音频信号的RMS测量确定。例如,平均长度可以是一个时间段,其大于人类感知声音级别的典型存储时间。当听到音量一致和给定时间的声音时,由于没有参考基础,所以听音者通常忽略声音响亮或安静。从一个音量水平改变到当前响度的最强音的另一个音量水平,但总体电平对感知响度的整体电平没有多大影响。因此,通过设定刻度上的平均时间,人脑趋于在间隔开始时忘记音量电平,信号的整体电平变化的影响将足够慢,听音者不会察觉到正在发生什么。对于比这更短的时间,转换曲线确保信号的动态范围在公差范围内。根据一个实施例,可以使用几秒至几分钟或更多的平均时间。平均时间可以根据与DRT相关的用户输入变化。例如,代表较大的DRT的用户输入可以有较慢速度的变化。扩充和限制通常隐藏了用于较小选定的DRT大小的变化速率,但是它会降低如何硬限幅区域工作时,特别是对小DRT的范围。
当输入音频具有位于区域903内的RMS,将产生非常大的增益,随着信号RMS趋于零,它趋向于无穷。为了确保这种情况不会发生,并确保输入音频的安静部分不被处理成音量比应该是高音量的部分高,平均化以两个步骤发生。
图10是根据一个实施例的平均化的方法的示意性框图。最初,在短的时间表例如秒级内,计算输入音频信号801的平均值。在块1003,如果计算出的短刻度的平均值意味着:当时信号是无声(即使在理想的听音环境),那么它被视为该信号的这些部分不应扩充。因此定义时间的新函数,它采取一个截止值(cut-off value)例如0.003,或以其他方式在过去的一秒在时间t截取信号的平均值,以因应例如如果平均值高于最小阈值。截止值(cut-off)可以是基于例如输入音频测得的噪声基底的与自适应信号相关的值。在框1005,新函数在预定的心理声学时间表平均化和用于定义增益值1007。因此,对于渐弱部分(fide-outs),回放电平(playback level)低,使声音变成无声,例如像在录音室。
计算8点互相关(cross correlation)的近似,它是采取的8点(feed)中的任何一个的最高电平。不使用除法(divide)与输入信号比较,采用二进制比较,直接和因此“完美的相关”结果乘以大约是0.9的阈值。如果其他的8相关测量超过完美的0.9,则输入被认为是信号。然后以合理的刻度如6ms,对该二进制输入进行滤波。对于音阶(tone),这导致了几乎所有频率均为值1。对于白噪音和粉噪音(white and pink noise)及其他类似的噪音,该技术将返至0。然而,对于环境噪声和例如音乐的输入信号,该技术并不能给出很好的结果。
对于专业内容,振动和电子噪声比声学和环境噪声(主要是由于非实时降噪技术的大量使用)更加突出。这意味着,该技术与振幅的分析的结合导致的触发和生成的噪声基底估计,导致可用的结果。然而,对于如许多电话通话的具有高噪声的信号,效果不太好。然后分析四个相关频带的相关性的变化(variance)。如果该变化是显著的,则必须改变输入音频,即从低电平的噪音转变为信号(或类似物)。该触发可以作为场景分析的基本的近似法。与瞬时电平的变化比较,该触发定时(trigger timing),使能噪声基底和噪声的信号电平,整体上应视为基本8频带的相关性测量的信号,可以更正确地进行控制(gated)。噪音也趋向于比平缓音乐具有相关性变化的更高的电平,因此快速、反复触发表明信号是噪声。这可以用来进一步降低噪声的电平。
当以固定的速度时,大部分音乐甚至讲话具有高度相关性。基本速度计也可以用来作为音乐的测量计,以帮助噪声基底和阈值的设定。
在没有明显预知(即知道信号将是什么)的情况下,向上扩充(图9的区域905)在音乐上很难实现。这种极端的扩充会导致信号在短时间内超出理想阈值,除非使用快速增益校正。然而快速的增益变化产生不希望的扭曲。根据一个实施例,向上扩充的极端电平通过以两种不同的方式分开处理信号来实现,当两种相加时得到所需的扩充。然后,该信号以类似的方式被限制(图9中区域909),以在DRT区域907内实现的声音。
在一个实施例中,音频信号的向上扩充,可以通过将动态范围压缩到零,并将回放电平设置在较低的阈值来实现。因此,对于任何输入电平,该信号将至少在较低的阈值。
然后音频的另一副本(copy)可以正确的电平加载,使该信号RMS朝较高的阈值上升到高于较低的阈值。通过在扩充区域(区域909)施加一个类似的处理,可以得到DRT内的信号。创建零动态版本的输入信号的所需要的极端压缩,通常由在最上方的第二信号掩盖。在一个实施例中,该零动态信号的回放电平在环境噪声的电平。因此,如果由压缩产生的失真的谐波的振幅低于被压缩的信号(在噪声基底电平)的振幅,失真将会被听音环境所掩盖,并因此听不见。
对于立体声处理,根据一个实施例,两个输入声道(左和右)被转换为4个输入通道:左、右、中(左和右的总和)、以及侧(左与右间的差值)。除了定义总驱动增益扩充和存储率输入(memory rate feed)的总平均值之外,四个输入通道(输入)彼此独立处理。在一个实施例中,这些被当作左、右、中和侧电平的后滤波的平均值。在限制之前,中和侧输入被转换为左、右的输入,并在相同测量与处理后的左和右输入结合。在一个实施例中,然后彼此独立地定义左和右声道。
图11是根据一个实施例的处理立体声信号的方法的示意性框图。代表听音环境的用户输入通过块809的UI提供。可以基于选定的听音环境选择DRT1101。因此,可以提供映射到各自不同的听音环境的数个不同的DRT指标。例如,在所选择的听音环境是电影院时,DRT指标可以提供从约-38dB至0dB的优选的平均动态范围窗口,并且动态范围余量(峰值)为从约0dB到24dB。在飞机内娱乐听音环境可以提供从约-6dB到0dB的优选的平均动态范围窗口,并且余量为从约0dB至+6dB。其他替代方案是可能的。DRT指标可以被存储在数据库1100。也就是说,所选择的收听环境可以从提供DRT1101的数据库1100映射到DRT指标。
在一个实施例中,来自块809的UI的输入,可以是表示数个滑动刻度值的输入,数个滑动刻度值可以用于定义DRT指标。也就是说,用户可以使用UI来选择优选的平均动态范围窗口和动态范围的余量(headroom)的值。这样的选择可以通过用户使用滑动刻度(sliding scale)(或其他方式,例如原始数字输入)输入特定值来执行,或者通过使用一个接口来执行,它允许容易地选择值,例如提供DRT指标可视化图示的滑动刻度。在后者的情况下,选择用于DRT指标的实际值可能是用户未知的值,因为他们仅简单地用一个UI单元提供例如他们希望限制音频信号的范围。
提供输入音频信号801,并且将两个信号801和DRT1101输入到块1103和1105。块1103是预处理滤波器(filter),它在输入信号801的左、右、中、侧通道适用增益值。在一个实施例中,预处理滤波器可以是包括两个阶段滤波的k滤波器(k-filter)-第一阶段搁架式滤波器(shelving filter)以及第二阶段的高通滤波器。在块1105,在零动态范围和低阈值处理的回放电平发生在信号801的左、右、中和侧通道。在块1107,在块1103和1105处理后的信号可以被组合,并仅在块1109转换为左、右声道信号。
根据一个实施例,用于扩充的该信号馈送以相对较短的平均时间(例如-2.4秒)平均化,并用来定义当应用于原始信号时产生对于同一平均时间具有RMS恒定为1的信号的增益。这个恒定信号1106是块1105的第二信号流的第一组处理的输出。类似地,来自块1103的第一输入的存储速率信号被称为1104。根据一个实施例,该信号仍需要进一步压缩,其实现方式如下所述。该信号最终由一个值测量,该值将其放置在DRT的底部。这样做是为了将该值维持成接近1,最大限度地减少离散误差。
数字硬限幅器(digital hard clipper)(由此当超越一定的阈值时将信号设置成一定的阈值),应用用于最短的时间量的增益减少,并利用确保信号不会超过限制所要求的确切电平的增益减少。因此,当信号处于限制范围内时,限幅器没有任何作用。然而,由于数字硬限幅器引起的的增益快速变化,谐波失真的程度可能太大并生成不愉快的非音乐字符(除非刺耳的、痛苦的、击打的声音是所期望的)。平滑的转换曲线提供更平滑的失真谐波,即使当信号低于阈值而不需要是平坦的时被施加了小的压缩量。根据一个实施例,使用了不同的方法。
图12是根据一个实施例的方法的示意性框图。根据一个实施例,将1106的限幅版本1201除以106定义为增益减小包迹(GRE:gain reduction envelope)1203。GRE乘以原始信号得出限幅信号(clipped signal)。根据一个实施例,可以通过在一定的时间表取平均值,使GRE相对于时间平滑化。如果原始信号是一个连续的声音(即具有恒定振幅的正弦波),则平滑化的GRE将约为平线(假设在足够大的时间范围内平均化)。因此1106乘以平滑化的GRE将具有缩放它的效果,使得其峰值为阈值。如果信号随时间变化,需要最初而不是随后进行压缩(不断减小的幅度,瞬态信号),压缩会在GRE的平均化的时间表上消失。然而,一旦信号降低至低于阈值时,平滑的GRE将花一点时间来作出回应。这将意味着,经过一个短暂的声音,就会有较低幅度的时刻,产生称为“泵(pump)”的效应。
为了尽量减少失真,通过数个单极低通滤波器使GRE平滑。在一个实施例中,使用四个相同的单极低通滤波器,在听觉反射弛豫(reflex relaxation)时间的~0.63Hz使GRE平滑。听觉反射弛豫时间是指响亮的声音进入耳边时收缩肌肉放松通常所需的时间。这是一个有用的心理声学时间尺度,当听觉反射发生时,耳-脑系统试图纠正听到的声音-因此,在这个时间改变声音使大脑误以为它的听觉反射放松,这意味着前面的声音是响亮的。
当以稳态正弦波驱动,滤波后的GRE通常不会成为足够小的值而实现限制。根据一个实施例,用于稳定状态1203的电平校正,因此被施加到平滑的GRE,使得它成为那样。该校正是从相对于所需最低电平的增益减少的平均电平导出的。该校正是预先计算的,并通过多项式应用。因此,即使通过单极滤波器使GRE平滑后,大于阈值的稳态声音的峰值减少增益的量,以不进行限幅而限制信号。
换句话说,用于限制稳态声音的GRE通常不提供用于限制后期滤波的足够的增益减少,除非稳态声音是例如数字方波。因为这个,在一个实施例中对GRE进行处理。该处理改变GRE,使得任何驱动信号类似于振幅相同的方波。为了实现这一目标,GRE的最低值被保持,直到用于定义GRE的输入信号通过零交叉点(该信号的符号从正转到负或负转到正的样本)。在零交叉点,最小值的保持被重置为当前的GRE值。其结果是,GRE被改变成更类似于由方波形成(而且GRE的最小值发生之后子波的一部分相同)。GRE仍然不可以提供导致限制所有稳态的声音的足够的增益减少。在一个实施例中,一个校正多项式因此可以应用于改变的GRE,使得后期滤波中,正弦音调被适当地限制。这通常会使三角波和脉冲序列被轻微压缩,方波被轻微压缩。然而,如果应用这种情况下所要求的多项式而不“保持到零交叉点”改变,那么在增益减少的偏差显著变小。
零交叉点发生的时间点,受到信号中DC的存在的影响。在一个实施例中,由于在执行任何处理之前,可以使用高通滤波器除去低于14Hz的频率。
通常,大多数信号中存在变化比0.63Hz快的音量包迹的声音。因此,形成该信号的新的基本GRE。根据一个实施例,通过另外调到~2.3Hz的四个相同的单极低通滤波器,使该GRE平滑化,~2.3Hz为代替~0.63Hz的暂时屏蔽率。由于称为暂时屏蔽(temporal masking)的心理声学现象,前面提到的泵效应与未压缩的声音类似地发生。暂时屏蔽是指由于前面高振幅的声音,后面的低振幅的声音听不见。可听度的缺乏被认为是安静的,所以呈现出类似泵的效应。因此,泵可以使大脑误以为响亮的声音先于当前的声音,使得之前的声音似乎比其幅度大声。在类似于暂时屏蔽的时间表上使GRE平滑化,将导致大脑察觉到的信号类似于未压缩的,使得压缩的所需电平更可接受。
与第一慢限制器相比,此限制器所产生的谐波失真会更响亮,但由于慢限制器放在第一位,所以较快限制器执行的压缩比单独使用时少。然而,压缩速度仍然太慢,不能用于瞬变信号。因此,“快”限制器用于第二阶段的限制所产生的信号。根据一个实施例,在该第三限制器的GRE的低通滤波器被调至14Hz。由14Hz或更大区别的两种频率造成的“粗糙”开始被人所感知,直到频率差如此之大,使得被认为是两个不同的音调。以快于14Hz的速度压缩,导致声音的更加粗糙,而以低于14Hz或以14Hz的速度,仅改变的动态特性,而不改变音调特征。因此,如果不反复听原音和失真的声音进行比较,那么听不出失真。在第三个“限制”后,信号充分压缩。
通常,大多数音乐材料本质上并不是高瞬态性的,并且动态范围通常比6dB少得多。通过设定在该阈值的信号的整体平均值,压缩因此总在发生。然而,压缩并不改变音调,其结果是,信号通常总是比听音环境的噪声基底小3dB。
虽然信号的RMS电平是其感知响度的最大因素,但是由于其他的因素,某些频率被认为比其他更响亮。如上所述,K-滤波器已被证明通常提供输入信号到响度的更精确的映射,使得发现在频率成分后滤波和平均化中变化的信号的平均值,导致通过dB的相同数量改变时接近恒定频率均衡的声音(如成形的噪声)如何更响亮或者更安静改变的数量。平均化前的滤波更好地导出信号如何更响亮。
在一个实施例中,14Hz限制器产生的信号是噪声基底的音量电平,并且被增加到信号1104。因为在图11的两种输入的处理中没有改变相位,输入建设性地相加。因此,在对信号求和时,其结果几乎总是高于噪声基底,从而被假定为总是听得见的(即使仅仅刚好听得见)。根据一个实施例,该相加的信号现在被限制,使得信号的高音量部分不超过动态范围的公差(或DAC输出电平)。第二输入(404)是比压缩(被14Hz限制)版本更高的平均音量,从而掩盖里面的失真。其结果是具有改进的深度丰富饱满的声音,这通常只存在于录音室内。
根据一个实施例,在最终的输出限幅阶段,利用相同的3阶段限制技术。然而,为了捕捉剩余的峰值,而不缓冲样品的要播放(“超前”)的短序列,可以使用限幅器。如之前讨论的那样,简单地限幅信号增加不必要的失真。因此,折中处理为尽可能接近真实的时间处理,同时产生可接受电平的失真。
当两个信号线性时域在相乘时,其结果是包含这两个频率的总和与差值的信号。因此,低频音与高频音的相乘会产生接近原来的高频音的两个音调。因为限幅器的增益改变率非常迅速,所以限幅器的GRE有很宽的频率成分,在整个频谱产生有大量的失真产物。通常,人耳听力最佳的是接近3kHz。通常,音乐中大部分的能量驻留在小于3kHz的频率,并且因此产生的失真接近3kHz,这是不希望的。因此,如果GRE的频率内容的振幅可以在人耳听力最佳的频率范围内减小,失真的可听度会减少,因此结果是更悦耳。
在一个实施例中,通过有限脉冲响应(FIR)滤波器而不是无限脉冲响应(IIR)滤波器,对GRE进行滤波,信号在乘以滤波后的GRE之后不会不完整。FIR滤波器由乘以过去和现在的输入样本的一组系数组成。然后将这些相加得到输出。使用的过去的输入样本的数量定义抽头数量-16抽头的滤波器,如在一个实施例中使用的那样,使用过去的15个样本和当前样本。通常,限制会发生,但滤波后的GRE的频率成分将意味着由平滑限幅器产生的失真将在耳朵不敏感的频率即显著高于或低于3kHz的频率区域内。
能够减小3kHz的FIR滤波器需要足够的延迟(超前)这样做。在44.1KHz(用在CD和大多数其他消费音频格式)的样本速率下,16样本长度的滤波器导致2.756KHz的分辨率。在一个实施例中,采用椭圆滤波器,因为当第一凹口被设置为对于此滤波器长度即通常为2.756kHz可以被减弱的最低频率时,它具有良好的减少失真的特性。该滤波器还轻度衰减16抽头的高频。在一个实施例中,平均滤波器(具有)较低的计算负荷,但类似于椭圆滤波器,可用于在CPU相关的执行。
为确保限制仍然发生,GRE“保持”在16个样本的当地最低值,然后变小,似乎不存在保持(但包括延迟)。该滤波器是通过利用具有所需特性的滤波器设计,然后仅减去最小的系数值使所述系数为正。应用修改的滤波器到GRE现在只会产生正值。通过将系数加在一起,每个系数除以总数,在所述系数的总和是完整的,可以得到滤波器。因此,如果滤波器被应用到滤波器(保持值)的长度的平线,滤波器的值在平线的端部是相同的值。因此,该滤波器将确保限制。
其结果是心理声学上的平滑前瞻限制器,它允许对信号的限制的电平比可容忍的通用的强制限幅高许多dB。当与之前的三阶段“限制”相结合时,非常高的电平的总增益减少是可以接受的。
要注意的是,GRE“保持”过程也使GRE平滑,并类似于低通滤波器改变其频率分布。频率响应类似于在第一凹口调到2.75kHz的正弦函数。其结果是,对3kHz以上的频率,限制是非常光滑的声音,这意味着,可以轻松地限制例如踩镲和鼓线断裂的高频率。
带有尽可能短的滤波器的基于该FIR的方法的另一个优点是,限制在最短的可接受的时间内发生,这形成最高的可能的总RMS电平。这其实高于强制限幅音乐上实现的,因为在变得令人无法接受不愉快之前,更多的增益减少可以应用FIR平滑方法。这允许充分利用环境的DRT中可用的整个动态范围,并允许有限峰值输出的音频设备实现更大的感知的响度。
存储器速率平均(memory rate average)是用来应用整体增益,其将声音的电平放置在整体范围的中间。其发生的很慢,以至于听不出变化。然而,对于扩充区域,并且当平均时间小(因为它用于小的范围)时,增益改变是可听见的(即调制处理是可听见/感知的,但不明显,像从吉他放大器听到失真。)已经发现改变增益的方法,使得这些调制的可听性显著减少,从而允许非常长时间的恒定听音,听音者没有听觉疲劳。下面对方法进行说明。
该技术使用下列原理。短期扩充用来实现长期压缩。压缩在其本质上与声音的包迹对立,并减少其变化,而扩充的工作原理与上述声音包迹一致,增加其变化。但是,双方都改变信号的其原来的形状的包迹,因此是失真。通过扩充实现压缩的这种技术提高了二者的总增益的变化和扩充区域的声音,因为每种技术的音速/感知的副作用互相抵消,同时还实现压缩的期望量。
该技术是能够对信号进行这种高调制而不被察觉,使得扩充区域不再需要三阶段压缩。这显著节省CPU资源。不同的中、侧、左和右峰值压缩和限制的使用可以用于限制区域,但使用这种扩充来实现执行增益调制的压缩的技术与平均压缩器而非峰值压缩器的功能相一致。平均压缩器降低立体声图像调制,相同的增益同时适用于左和右声道。因为这个原因,只需要两个(左和右)的压缩器和限幅器,而不是四个(左,右,中和侧)。这显著节约CPU资源。
用于总体增益区域的扩充和压缩区域和存储器率平均,信号的K滤波的平均在“长”的时间(timeframe)内例如25ms被用作压缩的基础。25ms的调制速率是可能的最快的速度,其中调制不会产生声音失真,但它确实会导致一个非常不自然的声音。调节成这个速度或接近这个速度是可取的,因为它使声音具有感知的稳定电平。另一平均值6ms也被采取,并在应用短期扩充/长期压缩时用于触发。如果25ms平均指示增益应该升高,那么在6ms的平均值从6ms之前跃升4dB时,只允许增益升高。当6ms的平均值(回到6ms前)下跌12dB时,也允许该增益增加。振幅的下降意味着暂时屏蔽正在发生,该屏蔽意味着增益变化不能被听到(即在该时刻增益增加率下增益增加是听不见的)。只有当为6ms平均值下降1dB或更多时,或当6ms平均值升高12dB或更多时,允许增益下落。增益如同等分跟踪逼近(tracking divide approximation)被改变。增益变化由当前增益的乘法器进行,用一个大于1的数导致增加,用一个小于1的数导致降低。不同的速率(系数)用于为依据6ms的平均发生的每个不同类型的变化。对于这些速率的等同单极滤波器的周期为55毫秒左右。
以上概括的设计,需要对每个样本和每个声道(一个用于左声道和右声道的限幅器,以及三个用于压缩器的左、右、中和侧声道)进行4等分计算。利用压缩器的增益减少包迹的反馈(feedback)的方法,使限制器和压缩器被组合在一起。如前所述,使用用于整体电平和该扩充区域的增益阶段的扩大到压缩响度方法,不再需要中间和侧声道。由此产生的声音实际上与最初的设计是相同的(而且可能更好),但由于在本设计中除法的数量少得多,CPU使用率显著减少。
为了帮助描述该优化如何工作,再次概括高CPU技术的重点。
FGRE由一组慢的单极滤波器开始平滑化。其乘以原始信号,并与快的单极滤波器再重复该过程两次。这导致了高度压缩的声音,其中的瞬变通过下面的限幅器阶段良好地处理,从而产生高度压缩的音乐输出信号。
为了简化如何执行优化的讨论,说明只有两个压缩阶段的实施例。当用于第二(最终)阶段的基本GRE低于整体(unity),输入高于阈值。用于第一阶段的GRE(也就是要被滤波)是第二阶段的基本GRE的结果乘以第一阶段的滤波GRE。当用于第二(最终)阶段的基本GRE是整体,输入低于阈值。但低于阈值多少是未知的,所以上述链(chain)中的当前阶段的阶段之后的GRE的滤波版本,被用作FGRE在所有阶段是已知的(如原始未优化的实施)的情况下获得的结果的代替。当输入低于阈值时,用于第一阶段(待滤波)的GRE需要不同的计算方法。与之前的阶段(在这个实施例中的第一阶段)相比,第二阶段的滤波GRE是快速的,但表现平稳和连续。因此,第一阶段的GRE是第二(最后)阶段的基本GRE(其是整体,从而可以省略)乘以与第二阶段的滤波GRE。这导致的结果是不知不觉接近类似于原来的设计。与原来的不同只是释放速率比冲击速率稍慢(不等于与原来的),且振动稍微增加,但其是温和的,由于在增益减少链使各阶段平滑化。许多音响工程师找到相对于释放更短的冲击,以得到更好的音质,但是那是值得商榷的。寻找最佳的滤波系数现在更困难,因为系统中非线性的量有所增加。
这种组合压缩方式可以用于所有阶段和级联(cascade)。当做到这一点时,我们称压缩器为“三阶段压缩”。遗憾的是,计算第一阶段的新GRE所需的乘法运算的数量随着阶段的总数增加。然而,用以确定使用哪些方法计算每个阶段的GRE(待滤波)的低于或高于阈值的逻辑“开关”,对所有阶段是相同的,从而增加了总设计的最小附加CPU成本。
特定的处理器体系结构用于给定的执行中处理电平,特别是其以可接受的速度计算除法的能力,确定通过使用这种方法所带来的节省。在一般情况下,当压缩器的数目远大于3时,CPU的优点减少。
对于整体实现(integer implementation),在CPU资源方面,位的移动(bit-shifting)是廉价或免费的。因此将滤波器系数量化为2次幂,可导致显著减少计算压缩器中使用的单极滤波器的复杂性。未优化的压缩器设计采用具有相同的系数的4个单极,不同的系数的使用可以用来提高性能。用一个“太慢”的单极滤波器和一个“太快”(由于2次幂量化)的,可以在可接受的声波的精度范围内代替四个相同的系数单极,并使得CPU的性能改进而值得。
对于最终压缩阶段,计算FGRE仍然需要除法。如果该除法被结合到限幅器,并且如果限幅器使用了以下的近似法,则该除法可以被移除。
在限幅器中,先对FGRE进行保持,然后对其进行平滑化。如果使用反馈的方法(类似于优化压缩器中使用的),除法可以被替换为具有显著降低CPU负荷(与CPU架构相关)的潜力的跟踪除法。
输入信号的峰值电平被保持为用于16个样本。这是通过使用一个移位寄存器来实现,寄存器中所有的值的最大的值是所需的输出。该寄存器对每个样品移位。其与阈值之间的最大值被采用,如同标准FGRE计算方法那样。跟踪除法近似法然后用于计算GRE。必须调整跟踪除法,以保证可接受的准确度(精度越好,需要保留越少的余量,以确保不会被限幅)。跟踪器还必须确保16个样本中没有冲击,这样对第16个样本GRE的值是正确的值。
这种方法的优点是双重的,它消除了对除法的需要,和对平滑的需要,因为两者在同一函数中得以实现。将此输入优化的三级压缩消除了在整个电平执行中对除法的需要。除降低CPU占用之外,将算法从一个平台移植到平台的易用性的增加已经实现,因为不是所有的处理器提供良好的除法近似法。要注意的是,在具有良好的除法近似法的平台,这种做法实际上可能使用更多的CPU。
当输入信号“不正常”时,如电话中经常发现的那样,在平均化之前通过使用-50dB最小输入保证的固定增益限制是无效的。更先进的方法是必要的,但必须能够恢复到接近用于专业内容的原来的方法,因为它确实非常好。
图13是一首歌的整体宏观动态的示意图。如1301实质描绘的那样,这首歌开始安静和渐强,然后跳转到一个稳定的较高电平。然后跳转到较安静的部分,并且在此之后和在跳跃到由1303实质表示的非常高的电平之前,该音乐跳转到一个高音量的部分,其大约与之前的音量相同。在此“大结束”之后,音乐跳转到非常安静的部分,然后渐弱至1305处的振动噪声。
假设这首歌是在车辆内被收听。动态范围公差阈值是上限为-7dBFS rms,低阈值为-16dBFS rms。DRT因此仅为9dB,明显小于通常是~24dB的输入的音乐。
图14是使用根据一个实施例的方法处理图13的歌曲的整体宏观动态的示意图。假设在这首歌曲开始前没有其他的曲目演奏,在歌曲开始时非常缓慢“存储速度”平均是零。一旦歌曲开始,RMS建立,增益从零落到更正确的值,使得歌曲演奏一半经过第一高声部分时,电平有效地解决。扩充输入采用输入,并将其缩小至DRT的较低阈值。一旦大声部分开始,从“存储速度”增益动作的输入的电平类似于DRT较低阈值。两个电平加上给定的总体电平-10dB,恰好高于DRT范围的中间值。要注意的是,尽管在该新的部分开始时整体电平如何跃升~6dB,电平的偏差与未压缩版本不是太不相似。
随着歌曲继续通过由1401实质表示的第一高声部分,RMS电平增长,第二输入的输出电平先于总和与限幅器下降,使得在该部分的尾部,电平已经下降到DRT的中间至11.5dB。应注意,这发生得非常缓慢,几乎所有的听众都不会注意到该电平是不稳定的。当第一个安静的部分1403来到第一个高声部分1401的尾部,电平将下降到DRT的底部,但仍然会始终发声,在安静的部分的尾部,电平将向DRT的中间略有上涨。
在跳转到第二个高声部分1405时,电平会跳转到DRT的峰值极限,将在链的尾部猛烈冲击(hit)限幅器,其结果将是压缩的声音,但该声音响亮且具有可能的最小失真。随着该部分继续,RMS增大,使得电平被降低。这意味着,当高声部分冲击时,电平仍跳回最大压缩。通过本部分,电平回落至DRT的中间,然后随着尾部安静的部分1407开始,跳至DRT的底部,电平上升且然后渐弱,越来越靠近DRT的低侧电平。假设渐变的速度比“存储器平均”电平的控制慢,渐变会出现持续发生,即使是仅由于SNR的减少和例如以0.1dB/s而不是1dB/s的速率。
根据一个实施例,已经参照单个频段(single band)和利用用户用UI选择确定的噪声环境作为固定电平,对如上所述系统和方法进行了实质描述。在一个实施例中,植入便携式播放器(或任何其它回放设备)的麦克风可以用于连续测量环境的噪声基底,从而允许DRT动态地调整听音环境的噪声基底。
在一个实施例中,用于每个频段的噪音基底的多频段方法,将允许音乐音调被改变,使得对信号的不同频率区域压缩各自不同的量。因此,在听音环境中的感知基调将保持相同,如同在差的听音环境中那样。多频段方法可以用大量低频隆隆声提高环境中的音乐的质量,例如在汽车或飞机中。
图15是根据一个实施例的适合于实现上述任何系统或方法的装置的一部分的示意性框图。装置1500包括一个或数个处理器,例如处理器1501,以提供用于执行机器可读指令的执行平台如软件。来自处理器1501的命令和数据通过通信总线399传送。该系统1500还包括主存储器1502-诸如在运行时期间机器可读指令可以驻留的随机存取存储器(RAM),以及辅助存储器1505。辅助存储器1505例如包括硬盘驱动器1507和/或表示软盘驱动器、磁驱动器、光盘驱动器等或机器可读指令或软件的备份可以存储的非易失性存储器的可移动存储驱动器1530。辅助存储器1505还可以包括ROM(只读存储器)、EPROM(可擦除可编程ROM)、EEPROM(电可擦除可编程ROM)。除了软件之外,表示输入音频信号、输出音频信号、转换函数、用于音频信号的平均值等的任何一个或数个数据可存储在主存储器1502和/或辅助存储器1505中。可移动存储驱动器1530以公知的方式从可移动存储单元1509读取和/或写入至可移动存储单元1509。
用户可以通过一个或数个输入设备1511诸如键盘、鼠标、触笔等与系统1500交互,以提供用户输入数据。显示适配器1515与通信总线399以及显示器1517连接,并且从处理器1501接收显示数据,将显示数据转换成用于显示器1517的显示指令。网络接口1519设置成用于经由网络(未示出)与其他系统和设备通信。该系统可以包括用于在无线环境与无线设备通信的无线接口1521。
显然,对本领域的普通技术人员,可以不包括系统1500的一个或数个组件,和/或可增加本领域已知的其它组件。在图15所示的系统1500是可以使用的一个可能的平台(platform)的实施例,并且可以使用其它类型的平台,如现有技术已知的那样。上述一个或数个步骤可以被嵌入计算机可读介质和在系统1500上执行的指令。这些步骤可以具体化为计算机程序,其可以各种形式如活动和非活动形式存在。例如,它们可以作为由用于执行某些步骤的源代码、目标代码、可执行代码或其他格式中的程序指令构成的软件程序(数个)存在。上述任何一种可以被包含于计算机可读介质,其包括压缩或未压缩形式的存储设备和信号。合适的计算机可读存储设备的例子包括常规的计算机系统RAM(随机存取存储器)、ROM(只读存储器)、EPROM(可擦除可编程ROM)、EEPROM(电可擦除可编程ROM)、以及磁盘或光盘或磁带。作为计算机可读信号的例子,不论是否使用载体进行调制,承载或运行计算机程序的计算机系统可以被配置为访问的信号,包括通过因特网或其它网络下载的信号。上述具体实施例包括在CD ROM或通过因特网下载的程序的分布。在某种意义上,因特网本身作为抽象实体是计算机可读介质。计算机网络同样实质如此。因此,应当理解的是,上面列举的那些功能可以由能够执行上述功能的任何电子设备来执行。根据一个实施例,输入音频信号1505和输出音频信号1505可以全部或部分地存在存储器1502中。

Claims (54)

1.一种用于调整音频信号的动态范围的方法,其特征在于,包括:
提供具有第一动态范围的输入音频信号;
利用基于定义噪声基底的听音环境选择的转换函数,将所述第一动态范围映射到第二动态范围;
使所述转换函数的线性部分与所述输入音频信号的平均电平一致;及
依据所述输入音频信号生成具有所述第二动态范围的输出音频信号。
2.根据权利要求1所述的方法,其特征在于,所述听音环境确定动态范围公差,且其中使所述线性部分一致包括将所述输入音频信号的所述平均电平限制在用于所述听音环境的所述动态范围公差内。
3.根据权利要求1或2所述的方法,其特征在于,将所述平均电平限制在所述动态范围公差的上端是利用切换耦合反馈路径以生成用于多级压缩的所述增益减少包迹。
4.根据前述权利要求任一项所述的方法,其特征在于,利用单极低通滤波器结合所述输入音频信号的绝对值总和与平均值,确定所述输入音频信号的所述平均电平,其中平均长度大于预先确定的最小值。
5.根据前述权利要求任一项所述的方法,其特征在于,使所述线性部分与所述平均电平一致包括利用增益值相对于所述输入音频信号改变所述转换函数。
6.根据前述权利要求任一项所述的方法,其特征在于,所述转换函数的增益值改变通过利用短期扩充实现长期动态范围压缩或响度标准化来实现。
7.根据前述权利要求任一项所述的方法,其特征在于,进一步包括:
接收代表动态范围窗口的用户输入,以实质限制所述输出音频信号的第二动态范围。
8.根据权利要求5所述的方法,其特征在于,基于所述用户输入确定所述转换函数。
9.根据前述权利要求任一项所述的方法,其特征在于,响应所述听音环境的噪声基底的变化,对所述转换函数进行动态调整。
10.根据前述权利要求任一项所述的方法,其特征在于,维持所述输入音频信号的渐强或渐弱部分。
11.根据权利要求10所述的方法,其特征在于,维持渐强或渐弱包括保存所述输入音频信号的噪声基底。
12.一种用于调整输出音频信号的动态范围的方法,其特征在于,包括:
提供动态范围公差窗口以定义用于具有预先确定的噪声基底的听音环境的转换函数;
在预先确定的心理声学时间表,计算用于输入音频信号的平均值;
利用所述平均值生成增益值,以改变所述动态范围公差窗口,使所述转换函数的线性部分与所述平均值一致;及
利用所述输入音频信号生成所述输出音频信号,所述输出音频信号具有实质限定在所述动态范围公差窗口内的动态范围。
13.根据权利要求12所述的方法,其特征在于,利用单极低通滤波器结合所述输入音频信号的绝对值总和与平均值,确定所述输入音频信号的平均电平,其中平均长度大于预先确定的最小值。
14.根据权利要求12或13所述的方法,其特征在于,进一步包括:
接收定义所述动态范围公差窗口的用户输入。
15.根据权利要求12至14任一项所述的方法,其特征在于,维持所述输入音频信号的渐强或渐弱部分。
16.一种用于处理音频信号的系统,其特征在于,包括:
信号处理器,其用于:
接收代表输入音频信号的数据;
利用基于定义噪声基底的听音环境选择的转换函数,将所述输入音频信号的动态范围映射至输出动态范围,其中线性部分与所述输入音频信号的平均电平一致;
依据所述输入音频信号,生成具有所述输出动态范围的输出音频信号。
17.根据权利要求16所述的系统,其特征在于,利用单极低通滤波器结合所述输入音频信号的绝对值总和与平均值,确定所述输入音频信号的所述平均电平,其中平均长度大于预先确定的最小值。
18.根据权利要求16或17所述的系统,其特征在于,利用增益值相对于所述输入音频信号改变所述转换函数,所述信号处理器进一步能操作以使所述线性部分与所述平均电平一致。
19.根据权利要求16至18任一项所述的系统,其特征在于,进一步包括:
接收代表动态范围窗口的用户输入,以实质限制所述输出音频信号的动态范围。
20.根据权利要求16所述的方法,其特征在于,基于用户输入确定所述转换函数。
21.根据权利要求20所述的系统,其特征在于,响应所述听音环境的噪声基底的变化,所述信号处理器调整所述转换函数。
22.根据权利要求16至21任一项所述的系统,其特征在于,所述信号处理器维持所述输入音频信号的渐强或渐弱部分。
23.一种嵌入于非暂时性有形计算机可读存储介质的计算机程序,其特征在于,所述计算机程序包括机器可读指令,当其被处理器执行时,执行用于调整音频信号的动态范围的方法,包括:
接收代表动态范围公差的用户选择的数据,以定义用于具有预先确定的噪声基底的听音环境的转换函数;
基于所述动态范围公差确定转换函数;
利用所述转换函数通过将所述输入音频信号的平均电平维持在通过所述用户选择定义的范围内,处理输入音频信号,生成输出音频信号。
24.一种计算机执行方法,其特征在于,包括:
在具有显示器的设备上:显示相对响度电平控制,以控制所述设备的输出音频信号的音量电平,所述相对响度电平控制包括动态可调整大小窗口控制以控制所述输出音频信号的动态范围;及处理输入音频信号,以将所述信号的相对响度电平的平均值限制在所述窗口控制的选定的中心区域,以控制所述输出音频信号的动态范围。
25.根据权利要求24所述的计算机执行方法,其特征在于,所述控制的上限和下限代表所述输出音频信号的动态范围的上限和下限。
26.根据权利要求24或25所述的计算机执行方法,其特征在于,所述设备为触摸屏显示器设备,所述方法进一步包括:
检测一个或数个手指位于或靠近所述触摸屏显示器的用于所述窗口控制的平移手势;及
响应检测所述平移手势,调整所述窗口控制的位置,以修正所述输出音频信号的相对响度电平。
27.根据权利要求24至26任一项所述的计算机执行方法,其特征在于,进一步包括:
检测一个或数个手指位于或靠近所述触摸屏显示器的用于所述窗口控制的调整大小的手势;及
响应检测所述调整大小的手势,调整所述窗口控制的大小,以修正所述输出音频信号的动态范围。
28.根据权利要求27所述的计算机执行方法,其特征在于,调整大小的手势包括在所述控制窗口的附近至少一个手指触碰或靠近所述触摸屏显示器。
29.根据权利要求27所述的计算机执行方法,其特征在于,调整大小的手势包括利用至少两个手指的夹紧或张大手势。
30.根据权利要求29所述的计算机执行方法,其特征在于,所述调整大小的手势在数个离散尺寸之间循环调整所述窗口控制的大小。
31.根据权利要求24所述的计算机执行方法,其特征在于,进一步包括:
检测通过输入设备的用于所述窗口控制的平移手势;及
响应检测所述平移手势,调整所述窗口控制的位置,以修正所述输出音频信号的相对响度电平。
32.根据权利要求24或31所述的计算机执行方法,其特征在于,进一步包括:
检测通过输入设备的用于所述窗口控制的调整大小的手势;及
响应检测所述调整大小的手势,调整所述窗口控制的大小,以修正所述输出音频信号的动态范围。
33.根据权利要求32所述的计算机执行方法,其特征在于,调整大小的手势包括在所述控制窗口的附近执行控制按钮操作。
34.根据权利要求24至33任一项所述的计算机执行方法,其特征在于,进一步包括利用模式选择控制,选择代表数个模式中的一个动态可调整大小窗口控制的操作模式,数个模式具有用于所述输出音频信号的动态范围的各自不同范围。
35.根据权利要求24至34任一项所述的计算机执行方法,其特征在于,在预先确定的时间段,平均相对响度电平实质与所述动态可调整大小窗口控制的中心一致。
36.根据权利要求24至35任一项所述的计算机执行方法,其特征在于,所述窗口控制能够在预先确定的相对响度范围移动,所述方法进一步包括响应所述窗口控制在所述范围的任一端冲入所述预先确定的相对响度范围的一部分,收缩所述动态可调整大小窗口控制的范围,以提供缩小的窗口控制。
37.根据权利要求36所述的计算机执行方法,其特征在于,所述动态可调整大小窗口控制收缩至预先确定的最小值。
38.根据权利要求37所述的计算机执行方法,其特征在于,进一步包括响应用户输入,提供用于所述输出音频信号的相对响度电平,以改变在所述预先确定的相对响度范围的一端经过所述部分的所述缩小的窗口控制。
39.根据权利要求34所述的计算机执行方法,其特征在于,进一步包括提供经由所述模式选择控制访问的静音控制,以使所述输出音频信号静音。
40.一种在具有显示器的设备上的图形用户接口,其特征在于,包括:
相对响度电平控制部分,其用以显示用于输出音频信号的相对响度电平和提供所述相对响度电平能够被调整的范围;
动态范围控制部分,其包括与定义所述输出音频信号的动态范围的所述相对响度电平控制部分一致的可调整窗口单元。
41.根据权利要求40所述的图形用户接口,其特征在于,所述窗口单元的所述大小定义所述输出音频信号的动态范围。
42.根据权利要求40或41所述的图形用户接口,其特征在于,能够在数个离散尺寸之间循环调整所述窗口单元的大小。
43.根据权利要求42所述的图形用户接口,其特征在于,利用以下一个或数个方式调整所述窗口单元的大小:一个或数个手指触碰所述设备的触摸屏显示器;来自所述设备的输入设备的用户输入;及所述设备的触摸显示器上的调整大小的手势。
44.根据权利要求43所述的图形用户接口,其特征在于,所述调整大小的手势为利用两个或数个手指的夹紧或张大。
45.根据权利要求40至44任一项所述的图形用户接口,其特征在于,进一步包括模式选择。
46.根据权利要求40至45任一项所述的图形用户接口,其特征在于,进一步包括静音和重设选择控制。
47.一种设备,其特征在于,包括:
显示器;
一个或数个处理器;
存储器;和
一个或数个程序,存储在所述存储器,并包括配置成通过所述一个或数个处理器执行的指令,以便:
显示相对响度电平控制模组,以控制相对响度电平和从所述设备输出的输出音频信号的动态范围;
响应用户输入,控制动态范围控制窗口的大小和位置;及
通过将输入音频信号的所述相对响度电平的平均值限制在所述控制窗口的选定的中心区域,基于所述动态范围控制窗口的大小和位置,控制所述输出音频信号的动态范围。
48.根据权利要求47所述的设备,其特征在于,所述一个或数个处理器进一步能操作执行指令,以便:
接收代表所述动态范围控制窗口的位置的第一用户输入数据;和
接收代表所述动态范围控制窗口的大小的第二用户输入数据。
49.根据权利要求48所述的设备,其特征在于,响应在所述显示器上触压、夹紧或张大手势中一个或数个手势生成所述第二用户输入数据。
50.一种参照附图实质如上所述的方法。
51.一种参照附图与如图所示实质如上所述的图形用户接口。
52.一种参照附图与如图所示实质如上所述的设备。
53.一种参照附图实质如上所述的用于调整音频信号的动态范围的方法。
54.一种参照附图与如图所示实质如上所述的用于调整音频信号的动态范围的系统。
CN201280046326.7A 2011-09-22 2012-09-21 动态范围控制 Pending CN103828232A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
GB1116348.2 2011-09-22
GB201116348A GB2494894A (en) 2011-09-22 2011-09-22 Dynamic range control
GB1116349.0 2011-09-22
GB201116349A GB2495270A (en) 2011-09-22 2011-09-22 Graphic element for controlling the dynamic range of an audio signal
PCT/GB2012/052339 WO2013041875A2 (en) 2011-09-22 2012-09-21 Dynamic range control

Publications (1)

Publication Number Publication Date
CN103828232A true CN103828232A (zh) 2014-05-28

Family

ID=47080733

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280046326.7A Pending CN103828232A (zh) 2011-09-22 2012-09-21 动态范围控制

Country Status (6)

Country Link
US (1) US20140369527A1 (zh)
EP (1) EP2759057A2 (zh)
KR (1) KR20140067064A (zh)
CN (1) CN103828232A (zh)
IN (1) IN2014CN02621A (zh)
WO (1) WO2013041875A2 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104281432A (zh) * 2014-09-18 2015-01-14 小米科技有限责任公司 调节音效的方法及装置
CN106663365A (zh) * 2014-07-17 2017-05-10 飞利浦灯具控股公司 基于用户输入获得控制系统的手势区域定义数据的方法
CN110493634A (zh) * 2019-07-04 2019-11-22 北京雷石天地电子技术有限公司 一种音量控制方法及系统
CN110679083A (zh) * 2017-03-31 2020-01-10 杜比国际公司 动态范围控制反演
CN110754040A (zh) * 2017-04-13 2020-02-04 弗劳恩霍夫应用研究促进协会 用于处理输入音频信号的装置和对应方法
CN110800319A (zh) * 2017-07-07 2020-02-14 三星电子株式会社 声音输出设备及其信号处理方法
TWI718716B (zh) * 2019-10-23 2021-02-11 佑華微電子股份有限公司 樂器音階觸發的偵測方法
CN113470692A (zh) * 2020-03-31 2021-10-01 北京字节跳动网络技术有限公司 音频处理方法、装置、可读介质及电子设备
CN114708180A (zh) * 2022-04-15 2022-07-05 电子科技大学 具有动态范围保持的预失真图像比特深度量化和增强方法

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11452153B2 (en) 2012-05-01 2022-09-20 Lisnr, Inc. Pairing and gateway connection using sonic tones
BR112014026611A2 (pt) 2012-05-01 2018-05-15 Lisnr, Llc método de distribuição e gerenciamento de conteúdo
US9612713B2 (en) * 2012-09-26 2017-04-04 Google Inc. Intelligent window management
CN105324937A (zh) * 2013-07-18 2016-02-10 哈曼国际工业有限公司 音量控制速率
EP2833549B1 (en) 2013-08-01 2016-04-06 EchoStar UK Holdings Limited Loudness level control for audio reception and decoding equipment
US9172343B2 (en) * 2013-08-06 2015-10-27 Apple Inc. Volume adjustment based on user-defined curve
US9276544B2 (en) 2013-12-10 2016-03-01 Apple Inc. Dynamic range control gain encoding
US9608588B2 (en) 2014-01-22 2017-03-28 Apple Inc. Dynamic range control with large look-ahead
RU2678487C2 (ru) * 2014-03-25 2019-01-29 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство аудиокодера и устройство аудиодекодера, имеющие эффективное кодирование усиления при управлении динамическим диапазоном
US10776419B2 (en) * 2014-05-16 2020-09-15 Gracenote Digital Ventures, Llc Audio file quality and accuracy assessment
CN107005256B (zh) 2014-10-15 2021-02-09 灵思耳有限公司 听不见的信令声调
FR3030074B1 (fr) * 2014-12-16 2017-01-27 Devialet Procede de pilotage d'un parametre de fonctionnement d'une installation acoustique
FR3031852B1 (fr) 2015-01-19 2018-05-11 Devialet Amplificateur a reglage de niveau sonore automatique
US10109288B2 (en) 2015-05-27 2018-10-23 Apple Inc. Dynamic range and peak control in audio using nonlinear filters
US10349198B2 (en) 2015-10-08 2019-07-09 Bang & Olufsen A/S Active room compensation in loudspeaker system
WO2017080835A1 (en) 2015-11-10 2017-05-18 Dolby International Ab Signal-dependent companding system and method to reduce quantization noise
US11233582B2 (en) * 2016-03-25 2022-01-25 Lisnr, Inc. Local tone generation
US10284939B2 (en) * 2017-08-30 2019-05-07 Harman International Industries, Incorporated Headphones system
US11189295B2 (en) 2017-09-28 2021-11-30 Lisnr, Inc. High bandwidth sonic tone generation
KR102483222B1 (ko) * 2017-11-17 2023-01-02 삼성전자주식회사 오디오 시스템 및 그 제어 방법
US11223716B2 (en) * 2018-04-03 2022-01-11 Polycom, Inc. Adaptive volume control using speech loudness gesture
KR102473337B1 (ko) * 2018-04-13 2022-12-05 삼성전자 주식회사 전자 장치 및 이의 스테레오 오디오 신호 처리 방법
JP6966979B2 (ja) * 2018-06-26 2021-11-17 株式会社日立製作所 対話システムの制御方法、対話システム及びプログラム
CN108920060A (zh) * 2018-07-06 2018-11-30 北京微播视界科技有限公司 音量的显示方法、装置、终端设备及存储介质
US11615542B2 (en) * 2019-11-14 2023-03-28 Panasonic Avionics Corporation Automatic perspective correction for in-flight entertainment (IFE) monitors
KR20220071954A (ko) * 2020-11-24 2022-05-31 가우디오랩 주식회사 오디오 신호의 정규화를 수행하는 방법 및 이를 위한 장치
TWI828143B (zh) * 2022-05-12 2024-01-01 華碩電腦股份有限公司 適用於電子裝置之旋鈕控制方法及旋鈕控制系統

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5907823A (en) * 1995-09-13 1999-05-25 Nokia Mobile Phones Ltd. Method and circuit arrangement for adjusting the level or dynamic range of an audio signal
US20020172378A1 (en) * 1999-11-29 2002-11-21 Bizjak Karl M. Softclip method and apparatus
EP1508852A2 (en) * 2003-08-19 2005-02-23 Microsoft Corporation System and method for implementing a flat audio volume control model
US20050232444A1 (en) * 2003-02-26 2005-10-20 Sony Corporation Sound level adjusting apparatus
GB2429346A (en) * 2006-03-15 2007-02-21 Nec Technologies User-selectable limits in audio level control
US7278101B1 (en) * 1999-09-30 2007-10-02 Intel Corporation Controlling audio volume in processor-based systems
CN101198925A (zh) * 2004-07-30 2008-06-11 苹果公司 用于触敏输入设备的手势
CN101667090A (zh) * 2008-09-03 2010-03-10 Lg电子株式会社 终端、该终端的控制方法及其可记录介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5907823A (en) * 1995-09-13 1999-05-25 Nokia Mobile Phones Ltd. Method and circuit arrangement for adjusting the level or dynamic range of an audio signal
US7278101B1 (en) * 1999-09-30 2007-10-02 Intel Corporation Controlling audio volume in processor-based systems
US20020172378A1 (en) * 1999-11-29 2002-11-21 Bizjak Karl M. Softclip method and apparatus
US20050232444A1 (en) * 2003-02-26 2005-10-20 Sony Corporation Sound level adjusting apparatus
EP1508852A2 (en) * 2003-08-19 2005-02-23 Microsoft Corporation System and method for implementing a flat audio volume control model
CN101198925A (zh) * 2004-07-30 2008-06-11 苹果公司 用于触敏输入设备的手势
GB2429346A (en) * 2006-03-15 2007-02-21 Nec Technologies User-selectable limits in audio level control
CN101667090A (zh) * 2008-09-03 2010-03-10 Lg电子株式会社 终端、该终端的控制方法及其可记录介质

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106663365A (zh) * 2014-07-17 2017-05-10 飞利浦灯具控股公司 基于用户输入获得控制系统的手势区域定义数据的方法
CN106663365B (zh) * 2014-07-17 2019-12-10 飞利浦灯具控股公司 基于用户输入获得控制系统的手势区域定义数据的方法
CN104281432A (zh) * 2014-09-18 2015-01-14 小米科技有限责任公司 调节音效的方法及装置
CN110679083B (zh) * 2017-03-31 2023-11-17 杜比国际公司 动态范围控制反演
CN110679083A (zh) * 2017-03-31 2020-01-10 杜比国际公司 动态范围控制反演
CN110754040B (zh) * 2017-04-13 2023-08-11 弗劳恩霍夫应用研究促进协会 用于处理输入音频信号的装置和对应方法
CN110754040A (zh) * 2017-04-13 2020-02-04 弗劳恩霍夫应用研究促进协会 用于处理输入音频信号的装置和对应方法
CN110800319A (zh) * 2017-07-07 2020-02-14 三星电子株式会社 声音输出设备及其信号处理方法
CN110493634A (zh) * 2019-07-04 2019-11-22 北京雷石天地电子技术有限公司 一种音量控制方法及系统
TWI718716B (zh) * 2019-10-23 2021-02-11 佑華微電子股份有限公司 樂器音階觸發的偵測方法
CN113470692A (zh) * 2020-03-31 2021-10-01 北京字节跳动网络技术有限公司 音频处理方法、装置、可读介质及电子设备
CN113470692B (zh) * 2020-03-31 2024-02-02 抖音视界有限公司 音频处理方法、装置、可读介质及电子设备
CN114708180A (zh) * 2022-04-15 2022-07-05 电子科技大学 具有动态范围保持的预失真图像比特深度量化和增强方法

Also Published As

Publication number Publication date
IN2014CN02621A (zh) 2015-08-07
KR20140067064A (ko) 2014-06-03
US20140369527A1 (en) 2014-12-18
WO2013041875A2 (en) 2013-03-28
EP2759057A2 (en) 2014-07-30
WO2013041875A3 (en) 2013-11-07

Similar Documents

Publication Publication Date Title
CN103828232A (zh) 动态范围控制
US10523168B2 (en) Method and apparatus for processing an audio signal based on an estimated loudness
US8321206B2 (en) Transient detection and modification in audio signals
CN108196683B (zh) 利用波形的声音到触觉效应转换系统
KR102074135B1 (ko) 볼륨 레벨러 제어기 및 제어 방법
JP5400225B2 (ja) オーディオ信号の空間的抽出のためのシステム
RU2639663C2 (ru) Способ и устройство для нормализованного проигрывания аудио медиаданных с вложенными метаданными громкости и без них на новых медиаустройствах
EP2278707B1 (en) Dynamic enhancement of audio signals
JP2019194742A (ja) オーディオ分類および処理のための装置および方法
US10355657B1 (en) Loudness level and range processing
CN104978166A (zh) 一种音量调节方法及装置
EP2979359A1 (en) Equalizer controller and controlling method
TW202018493A (zh) 用於產生觸覺輸出以增強使用者體驗的系統及方法
CN108600936B (zh) 多声道音频处理方法、装置、计算机可读存储介质和终端
KR20150073538A (ko) 음향 광고 또는 음향 데이터를 재생하는 보청기
CN106293607B (zh) 自动切换音频输出模式的方法及系统
Vickers The Non-flat and Continually Changing Frequency Response of Multiband Compressors
JP2020537470A (ja) オーディオ信号の個人適用のためのパラメータを設定するための方法
CN107925390A (zh) 音量均一化处理
KR100703923B1 (ko) 멀티미디어기기를 위한 입체음향 최적화 장치 및 방법
GB2494894A (en) Dynamic range control

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140528