CN101743689B - 用于平滑信号的随时间变化的水平的方法和装置 - Google Patents

用于平滑信号的随时间变化的水平的方法和装置 Download PDF

Info

Publication number
CN101743689B
CN101743689B CN2008800245069A CN200880024506A CN101743689B CN 101743689 B CN101743689 B CN 101743689B CN 2008800245069 A CN2008800245069 A CN 2008800245069A CN 200880024506 A CN200880024506 A CN 200880024506A CN 101743689 B CN101743689 B CN 101743689B
Authority
CN
China
Prior art keywords
level
probability
time
smooth
short
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2008800245069A
Other languages
English (en)
Other versions
CN101743689A (zh
Inventor
阿兰·杰弗里·西费尔特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=40090149&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=CN101743689(B) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of CN101743689A publication Critical patent/CN101743689A/zh
Application granted granted Critical
Publication of CN101743689B publication Critical patent/CN101743689B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3005Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/32Automatic control in amplifiers having semiconductor devices the control being dependent upon ambient noise level or sound level

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Control Of Amplification And Gain Control (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Filters That Use Time-Delay Elements (AREA)
  • Electric Clocks (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Ropes Or Cables (AREA)
  • Television Receiver Circuits (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

用于平滑信号的随时间变化的水平的方法、介质和装置。该方法包括:估计信号的短期水平的随时间变化的概率密度和通过使用概率密度来平滑信号的水平。信号可以是音频信号。短期水平和平滑后的水平可以是各自具有当前时间索引和先前时间索引的时间序列。这里,在平滑之前可以计算在先前时间索引处的平滑后的水平的概率。在平滑之前可以使用概率密度来计算平滑参数。计算平滑参数可以包括:使用在先前时间索引处的平滑后的水平、在当前时间索引处的短期水平和在先前时间索引处的平滑后的水平的概率来计算平滑参数。计算平滑参数可以包括使用估计的概率密度的宽度来计算平滑参数。

Description

用于平滑信号的随时间变化的水平的方法和装置
技术领域
本发明涉及音频信号处理。具体而言,本发明涉及:通过平滑音频信号的短期水平来计算出随时间变化的对音频信号的水平的度量,其中至少部分地通过随时间变化的对短期水平的概率密度的估计来控制平滑处理的参数。 
引用文献且该文献通过引用结合于此 
在Alan Jeffrey Seefeldt等人的国际专利申请公布WO 2004/111994A2(于2004年12月23日公布,题为“Method,Apparatus and ComputerProgram for Calculating and Adjusting the Perceived Loudness of anAudio Signal”)中和在Alan Seefeldt等人的文章(Audio EngineeringSociety(音频工程协会)大会论文6236,2004年10月28日旧金山,题为“A New Obj ective Measure of Perceived Loudness”)中描述了在更好地理解本发明时有用的用于度量感知的(心理声学)响度的一些技术。所述申请WO 2004/111994A2和所述文章通过整体引用而结合于此。 
背景技术
在音频信号处理中,生成随时间变化的对音频信号水平的度量常常是必要的(这里术语“水平”一般地指代水平的度量,诸如峰水平、均方根水平、响度水平等)。例如,响度计可以显示随时间变化的对音频信号的感知响度的度量,其中该度量被明显地平滑以便表明在过去数秒内的平均响度。在另一例子中,自动增益控制(Automatic Gain Control,AGC)处理可以计算随时间变化的对音频信号水平的高度平滑的度量、然后使用所得度量来生成缓慢变化的增益,该增益在应用于音频信号时可以将音频的平均水平自动移动到更接近希望的目标水平。 
在许多例子中的这两个例子中,通过将某一形式的平滑滤波器应用于 对短期水平的度量来计算出平滑的水平度量。(“短期”的意思是在比执行后续的平滑处理的间隔明显更短的时间间隔内进行计算。)例如,如在申请WO 2004/111994 A2中所述,可以在数十毫秒的间隔内计算信号的均方根水平或者感知响度水平以生成短期水平。然后,后续的对该短期水平的平滑可以涉及到数秒量级的时间常数。在以下讨论中,将该随时间变化的对短期水平的度量表示为信号L[t],而将后续的平滑后的水平度量表示为 L[t],其中t表示离散的时间索引 
许多类型的平滑滤波器可以应用于L[t]以生成L[t]。可以使用有限冲激响应(Finite Impulse Response,FIR)滤波器或者多极无限冲激响应(Infinite Impulse Response,IIR)滤波器。所用具体滤波器不是关键的。出于示例目的,可以考虑常用的快速上升/缓慢释放的单极IIR平滑器。利用这样的滤波器,可以根据以下方程来更新平滑后的水平度量L[t] 
Figure DEST_PATH_G70774610150131000D000011
可以选择平滑系数α上升和α释放使得α上升<α释放。这意味着L[t]在L[t]增加(上升)时比在L[t]减少(释放)时更快速地跟踪L[t]。对于AGC,例如可以选择与一秒的时间常数对应的α上升和与四秒的时间常数对应的α释放。这样, L[t]随时间很缓慢变化,结果,修改音频的对应增益也缓慢变化,由此维持原音频的短期动态性。然而,当使用这样大的时间常数时可能出现问题。假设为了在节目之间和在各种频道之间维持一致的平均水平,使用这样的AGC对电视机的音频进行操作。在这样的情形中,AGC处理的音频信号的内容可能骤然改变(例如在频道改变时),而相关的音频信号的平均水平因此也可能骤然改变。然而,AGC由于它的时间常数大而需要大量时间来收敛至新水平和使所处理的音频的修改水平符合希望的目标水平。在这样的适应时间期间,电视的观看者可以感觉到音频的水平太响或者太低。结果,观看者可能快速去拿遥控器以调节音量——而没有想到自己只是在AGC收敛时与它对抗。 
一些现有技术中已知类型的信号平滑使用自动增益控制的形式。在美国专利申请公布No.2006/274620 A1中公开的技术调整放大器的增益以便控制从激光光学器件获得的信号的水平,该激光光学器件从光介质(如DVD或光盘等)中读取游程长度受限(Run-length-limited,RLL)数字编 码信息。放大器的增益被调整为将驱动信号的最优部分驱动到模数转换器(Analog-to-digital,ADC)的饱和区域中,使得可以更准确地恢复数字信息。RLL符号长度的直方图用来调整放大器增益,但这种调整是瞬时执行的。该增益调整没有基于任何的信号水平的概率,也没有用于任何的平滑滤波器的时间常数的调整。 
在美国专利No.5,101,416中公开的另一技术计算检测到的信号值的概率密度和将计算出的概率密度与理想的标准密度进行比较,以便判断放大器增益是否设置合适。如果比较结果表明计算出的概率密度的特定部分高于或低于标准密度的部分,则立即分别减少或增加放大器的增益。这种增益调整没有基于任何特定的信号水平的概率,也没有用于任何的平滑滤波器的时间常数的调整。 
在美国专利No.6,768,979、美国专利申请公布No.2002/196510 A1和国际专利申请No.WO92/15150A中公开了其它的一些技术。但是,这些技术都没有调整用于平滑滤波器的时间常数。 
其它现有技术通常使用基于短期水平L[t]与平滑水平L[t]的相对关系的时间常数来解决刚才描述的问题。例如,如果信号的短期水平明显大于或者少于由平滑水平周围的一些阈值边界所限定的平滑水平,则平滑操作分别向较快的上升和/或释放时间常数切换,直至短期水平回落至平滑水平周围的阈值边界内。随后,系统切换回原来较慢时间常数。可以修改方程1以通过包括四种情况而不是两种情况来实施这一更复杂的平滑技术: 
Figure G2008800245069D00031
在方程2中,α快上升<α上升和α快释放<α释放意味着α快上升和α快释放分别对应于比α上升和α释放更快的时间常数。如果α上升和α释放分别对应于1秒和4秒的时间常数,则可以选择例如分别与0.1秒和0.4秒的时间常数(快至十倍)对应的α快上升和α快释放。必须合理地选择快速时间常数阈值ΔL,使得向这些较快的时间常数的切换没有太频繁地出现,造成不希望的平滑后的水平L[t]的不稳定。例如,如果水平度量L[t]和L[t]表示以分贝为单位的均方根水平,则可以将ΔL设置为10dB,约为感知响度的两倍。 
虽然相对于方程1中的平滑带来了改善,但是方程2的平滑对于许多信号仍然有次优表现。一般而言,对于任意合理阈值ΔL,可以存在如下信号,对于这些信号而言,短期水平L[t]的原来希望的动态性在平均水平 L[t]周围的阈值边界以外波动,因此使平滑处理错误地向快速上升或者释放模式切换。 
为了更好地理解其中方程2的平滑如希望的那样表现以及其中该平滑表现不充分的情况,可以设想短期水平L[t]随时间的分布。可以将这一分布设想为随时间变化的如下概率密度,该概率密度预测在当前时间索引t附近的时间间隔内遇到短期水平L的任何特定值的概率。这一间隔的持续时间应当与方程2的平滑滤波器中所用的较慢的一组时间常数相当。 
现在针对之前描述的电视频道改变的例子来考虑这种概率密度的行为。假定针对给定频道的短期水平的动态范围有些限制,那么短期水平L[t]的概率密度函数呈现为:位于平滑水平L[t]周围的相当窄的峰的形式。当频道改变时,假设新频道的平均水平明显高于原频道,那么概率密度函数将开始改变:新峰增长到位于新频道的更高平均水平周围,而原峰降低。 
图1描绘了在描述的转变开始时的概率密度函数。在图中,水平轴表示水平而竖直轴表示概率。实线表示短期水平在转变开始时的概率密度。注意左侧为降低的峰(表示与旧频道的选择相关联的概率的降低)而右侧为增长的峰(表示与新频道的选择相关联的概率的升高)。在转变开始时,平滑水平L[t-1]仍然落在旧频道选择的峰内,而短期水平L[t]落在新频道 的峰内。在图中,短期水平L[t]比L[t-1]超出大于ΔL的数量,因此根据等式2,快速时间常数用来将L[t]朝向L[t]更新。这是希望的效果:平滑水平L[t]快速适应于新选择的频道的更高水平,从而快速跃过将概率密度的两个峰分开的间隙。 
图2描绘了对于大为不同的音频信号的短期水平的概率密度。在这一情况下,信号的原动态性比较大,因此概率密度的峰扩展很宽。这样的动态性在高质量记录爵士或者经典音乐时是典型的。也在图2中,L[t-1]与L[t]之间的关系与图1中完全相同,但是现在两个值都落在概率密度的主峰内。因此,因为L[t-1]与L[t]之间的关系是信号的典型动态性的一部分,所以向快速时间常数的切换是不希望的。在这一情况下,方程2描述的平滑并不合适。 
发明内容
这里教导用于平滑信号的随时间变化的水平的方法、介质和装置。一种方法包括估计信号的短期水平的随时间变化的概率密度和通过使用概率密度来平滑信号的水平。信号可以是音频信号,而平滑后的水平和估计出的概率密度可以按近似相同的速率随时间变化。 
短期水平和平滑后的水平可以是时间序列,其每个都具有当前时间索引和先前时间索引。在本文中,在平滑之前可以计算在先前时间索引处的平滑后的水平的概率。在平滑之前,可以使用概率密度来计算平滑参数。计算平滑参数可以包括:使用在先前时间索引处的平滑后的水平、在当前时间索引处的短期水平和在先前时间索引处的平滑后的水平的概率来计算平滑参数。计算平滑参数可以包括使用估计的概率密度的宽度来计算平滑参数。 
计算平滑参数可以包括:当在先前时间索引处的平滑后的水平不大于阈值概率时,使用第一上升时间常数和释放时间常数;相反,当在先前时间索引处的平滑后的水平大于阈值概率时,使用如下的上升和释放时间常数,该上升和释放时间常数中的一个比它的对应第一时间常数更慢。所用的上升时间常数和释放时间常数均可以比它们的对应第一时间常数更慢。 
阈值概率可以是可变的。可变阈值概率可以是估计的概率密度的函数。 
平滑可以包括通过使用概率密度来平滑短期水平。 
估计概率密度可以包括将参数表达与短期水平的以往值拟合。拟合可以包括将高斯混合模型与短期水平的以往值拟合。估计概率密度可以包括计算短期水平的以往值的直方图。 
一种计算机可读存储器,包含用于实现这里描述的方法中的任意一个的计算机程序。 
一种计算机系统,包括:中央处理器、所述存储器以及通信耦合中央处理器和存储器的总线。 
一种音频信号水平平滑器,包括:短期水平计算器,用于计算音频信号的短期水平;水平平滑器,用于使用平滑参数来平滑音频信号的水平;概率密度估计器,用于估计音频信号的概率密度;概率计算器,用于计算经延迟的平滑后的水平的概率;平滑参数计算器,用于计算平滑参数;以及延迟器,用于延迟平滑后的水平。 
概率密度估计器可以包括用于使用音频信号的短期水平的时间序列来估计概率密度的概率密度估计器。概率计算器可以包括用于使用估计出的概率密度和经延迟的平滑后的水平来计算概率的概率计算器。平滑参数计算器可以包括用于使用概率、经延迟的平滑后的水平和短期水平来计算平滑参数的平滑参数计算器。概率计算器可以包括用于使用估计出的概率密度和经延迟的平滑后的水平来计算概率的概率计算器,而平滑参数计算器可以包括用于使用概率、经延迟的平滑后的水平和短期水平来计算平滑参数的平滑参数计算器。 
水平平滑器可以包括用于平滑音频信号的短期水平的水平平滑器。 
概率密度估计器可以包括用于将参数表达与短期水平的以往值拟合的拟合器。参数表达拟合器可以包括用于将高斯混合模型与短期水平的以往值拟合的拟合器。概率密度估计器可以包括用于计算短期水平的以往值的直方图的直方图计算器。 
另一种用于平滑信号的随时间变化的水平的方法包括:接收具有短期水平的信号和平滑随时间变化的水平,其中短期水平和平滑后的随时间变化的水平为时间序列,其每个具有当前时间索引和先前时间索引,而平滑可以包括当在先前时间索引处的平滑后的短期水平与在当前时间索引处的短期水平之差超过指示使用快速时间常数的阈值时,使用缓慢时间常数。 
可以通过参照以下讨论和附图来更好地理解本发明的各种特征及其 优选实施例,在附图中相似标号指代相似元件。 
附图说明
图1描绘了适合向快速平滑时间常数切换的音频信号的短期水平的概率密度。 
图2描绘了不适合向快速平滑时间常数切换的音频信号的短期水平的概率密度。 
图3描绘了本发明一个实施例的总体框图。 
图4描绘了本发明一个实施例对在水平明显不同的源之间切换的音频信号的操作。 
图5是根据本发明一个实施例的平滑水平生成器的操作流程图。 
具体实施方式
图3是根据本发明一个实施例的平滑水平生成器3的框图。 
平滑水平生成器3包括短期水平计算器31、短期水平平滑器32、概率密度估计器33、概率计算器34、平滑参数计算器35和延迟器36。短期水平计算器31接收作为输入的音频信号3D,产生作为其输出的短期水平L[t]37。概率密度估计器33接收作为输入的短期水平L[t]37和产生作为其输出的估计出的概率密度p(l,t)38。概率计算器34接收作为其输入的估计出的概率密度p(l,t)38和经延迟的平滑后的水平度量L[t-1]3C,产生作为其输出的概率p(L[t-1],t)39。平滑参数计算器35接收作为其输入的概率p(L[t-1],t)39以及经延迟的平滑后的短期水平3B和短期水平L[t]37,产生作为其输出的平滑参数3A。短期水平平滑器32接收作为其输入的平滑参数3A和短期水平L[t]37,产生作为其输出的平滑后的水平度量L[t]3C。最后,延迟器36接收和延迟平滑后的水平度量L[t]3C。 
当然,平滑水平生成器3可以整体或者部分地实施为包括已编程的存储器的通用计算机、专用电路、可编程门阵列等。 
接着描述根据一个实施例的平滑水平生成器3的操作。 
平滑水平生成器3通过平滑短期水平估计L[t]来生成平滑后的水平估计L[t],其中至少部分地按照从短期水平L[t]的随时间变化的概率密度估 计导出的信息进行控制。所生成的平滑后的水平估计L[t]例如可用作由实时响度计显示的值或者在音频动态处理器(如AGC)中的控制路径中使用。 
图5是根据本发明一个实施例的平滑水平生成器3的操作流程图。首先,计算音频信号的短期水平L[t](步骤505)。平滑该短期水平(步骤510),生成平滑的水平度量L[t]。 
并行地,根据短期水平L[t]来更新短期水平的概率密度的随时间变化的估计(步骤515)。这一概率密度估计p(l,t)返回输入水平l的在零与一之间的概率。时间索引t表明:在概率密度估计器33(图3)接收短期水平L[t]的新值时,这一函数随时间改变。理想地,概率密度估计器33考虑用于创建估计p(l,t)的L[t]值的时间间隔应当与平滑器32用来生成L[t]的时间常数相当。结果L[t]和p(l,t)以近似相同的速率随时间变化。 
通过向密度估计p(l,t)馈送水平值L[t-1]来计算(步骤520)来自先前时间索引的平滑后的水平度量的概率p(L[t-1],t)。这一概率值p(L[t-1],t表示与L[t-1]和短期水平在时间索引t周围的许多值之间的关系(不仅仅是L[t-1]与当前短期水平L[t]之间的关系)有关的信息。例如,如果p(L[t-1],t)较高,则这表明L[t-1]类似于短期水平在最近的许多值。相反,如果p(L[t-1],t)较低,则L[t-1]不同于短期水平在最近的多数值。 
最后,概率值p(L[t-1],t)以及当前短期水平L[t]和先前的平滑后的水平度量L[t-1]馈送到平滑参数计算器35(图3)中,该计算器使用这些值来选择用于生成当前的平滑后的水平度量L[t]的平滑参数(步骤525)。 
虽然图3描绘了控制平滑参数的p(L[t-1],t),但是可以采用从密度估计p(l,t)得出的其它信息。例如,平滑参数计算器35可以使用密度估计的宽度度量,这是音频信号的动态范围的指示。 
回到p(L[t-1],t)的示例使用,一般而言,当密度估计p(l,t)估计出先前的平滑后的值L[t-1]具有低概率时,那么应当用快速时间常数更新L[t]。如果L[t-1]的概率相对较高,则应当使用正常的较慢的时间常数。这样,如果多数短期水平值已经远离先前的平滑后的值L[t-1],则L[t]将朝向这些值更快移动。如果L[t-1]已经在多数短期水平值附近,则较慢的移动是合适的。 
参照图2,因为L[t-1]仍然落在高概率区内(虽然短期水平L[t]相对较远),所以本发明的一个实施例可以防止不希望的向更快时间常数的切换。 对于图1中的频道改变例子,值得更具体地考察这一策略如何仍然产生希望的快速适应。为了有所帮助,图4描绘了在五个阶段中两个频道之间的转变。一种简单的时间常数控制策略假设当p(L[t-1],t)大于某一阈值pT时使用缓慢时间常数来更新L[t-1]。当p(L[t-1],t)少于这一阈值pT时使用快速时间常数。(图中的符号中去除了时间下标以简化表达。) 
图4的第一阶段(初始稳态)描绘了紧接在选择较响的第二频道之前的状态。短期水平的概率密度紧密地分布于第一频道的平均水平周围。平滑后的水平L落在这一密度的主峰内。因此,L的概率p(L)大于阈值pT,因此使用缓慢时间常数来更新L。 
第二阶段(转变开始)表示紧接在音频已经向较响的第二频道切换之后的系统状态。在这一阶段中,位于第一频道的平均水平周围的概率密度的大峰收缩,而位于较响的第二频道的平均水平周围的新峰增长。平滑水平L已经开始朝向第二频道的平均水平右移。然而它的概率仍然大于pT,因此仍然采用较慢时间常数。 
在第三阶段(转变中间)中,概率分布的第一峰继续收缩,而第二峰继续增长。平滑后的水平L继续朝向第二频道向右生长,但是现在它的概率下降至阈值pT以下。(L已经移入两个峰之间的低概率间隙中。)这时,使用快速时间常数来更新L,使得它快速越过间隙而移向第二频道的峰。 
在第四阶段(转变结束)中,L已经移入第二频道的主峰中,它的概率再次大于pT。现在进行返回到较慢时间常数的切换。 
最后在第五阶段(新的稳态)中,平滑水平L已经稳定于第二频道的平均水平,继续使用缓慢时间常数。 
通过使用从随时间变化的概率密度估计p(l,t)得出的信息,本发明实施例以在真正的转变时段期间快速响应而对于先前有问题的信号仍然保持稳定的方式来适应用于平滑音频信号水平度量的时间常数。 
现在具体地描述本发明一个具体实施例的例子。在这一实施例中,从L[t]生成L[t]的平滑处理可以被表达为具有随时间变化的系数α[t]的单极滤波器: 
L[t]=α[t]L[t-1]+(1-α[t])L[t](3) 
通过根据概率密度估计p(l,t)来改变系数α[t],来对平滑进行调整。先描述从短期水平L[t]得出密度估计p(l,t)。然后描述系数α[t]的控制。 
概率密度的估计 
概率密度估计p(l,t)捕获短期水平L[t]在从当前时间索引t延伸到过去近期的时间间隔内的行为。为此,估计器33(图3)维护包含短期水平L[t]的过去的T个值的缓存器。(可以根据希望的应用来选择该缓存器的长度T。对于之前讨论的AGC例子,例如可以设置缓存器的长度等于四秒。) 
从该缓存器可以用任意的多种方式生成概率密度的估计。例如,可以将参数表达(如高斯混合模型)与缓存器中的数据拟合。另一技术计算缓存数据的直方图。缓存器中的每个值分配给离散的格子(bin)。通过先找出值l落入的格子、然后将概率计算为数据缓存器中分配给该格子的点的数目除以数据缓存器中的点的总数目,以计算出密度函数p(l,t)。可以将直方图的格子限定为以间距ΔLbin位于某一最小水平Lmin与最大水平Lmax之间。例如,如果以dB为单位表示水平,则可以设置Lmin=1dB、Lmax=120dB和ΔLbin=1dB以产生具有120个格子的直方图。格子的总数目B可以一般地表达为: 
B = round ( L max - L min Δ L bin ) + 1 - - - ( 4 )
在每个时间瞬间t,对长度为T的数据缓存器中落入直方图的每个格子中的样本的数目进行计数。Ht[b](b=1…B)表示直方图的格子,可以根据映射函数计算水平值l被分配到的格子b: 
LevelToBin ( l ) = B l &GreaterEqual; L max round ( l - L min &Delta; L bin ) L min < l < L max 1 l < L min - - - ( 5 )
在算法上,根据以下伪代码计算每个时间t的直方图Ht[b]: 
for b=1 to B, 
        Ht[b]=0 
end 
for r =0 to T-1, 
        b=LevelToBin(L[t-τ]) 
        Ht[b]=Ht[b]+1 
end 
然后,通过在l被分配到的格子处的直方图除以缓存器中的数据点的总数目给出概率密度估计p(l,t): 
p ( l , t ) = H t [ LevelToBin ( l ) ] T - - - ( 6 )
结果是估计出的概率密度p(l,t)不是输入水平l的连续函数而是以ΔLbin的间隔“逐级阶跃”的函数。然而如果直方图间距ΔLbin足够小,概率密度估计对于实际用途而言也足够光滑。 
平滑滤波器系数的计算 
现在描述自适应滤波器系数α[t]的计算。在正常条件之下,当L[t-1]的概率相对较高时使用正常的上升时间常数和释放时间常数(如在方程1中那样)。当L[t-1]的概率较低时使用较快的上升时间常数和释放时间常数。 
为了在正常时间常数与快速时间常数之间平滑地插值,基于从密度估计p(l,t)计算出的L[t-1]概率来生成范围在零与一之间的控制信号β[t]: 
&beta; [ t ] = 1 p ( L &OverBar; [ t - 1 ] , t ) > p T p ( L &OverBar; [ t - 1 ] , t ) p T p ( L &OverBar; [ t - 1 ] , t ) &le; p T - - - ( 7 )
如果p(L[t-1],t)大于阈值pT,则控制信号β[t]等于一。随着p(L[t-1],t)下降至pT以下,控制信号β[t]下降至零。最后,通过基于控制信号β[t]在正常与快 速的上升和释放系数之间插值来计算平滑滤波器系数α[t]。 
Figure G2008800245069D00111
当β[t]等于零时(L[t-1]落在低概率区中),使用快速上升系数和快速释放系数。当β[t]等于一(L[t-1]落在高概率区中)时,则使用正常上升和释放系数。 
为了实施AGC,可以设置分别与1秒、0.1秒、4秒和0.4秒的时间常数对应的α上升、α快上升、α释放和α快释放值。可以将概率阈值pT的值设置为0.075的固定值。 
尽管这一实施例使用固定值的阈值pT,但是在一些应用中使pT为可变阈值(例如根据密度估计p(l,t)的某一度量而改变)也可以是有利的。例如,pT可以随着水平l中的最大值p(l,t)而变化。 
本说明书通过引用合并了本文提到的所有出版物和专利申请,也就是说本说明书已经通过引用来具体和个别地合并这样的各个出版物或者专利申请。 
由于可以在不脱离本发明的实质精神的情况下用多个形式实施本发明,所以本文中实施例为示例而非限制。因此,落入权利要求的界限和范围内或者落入这样的界限和范围的等同内的改变将被权利要求所涵盖。 

Claims (23)

1.一种用于平滑信号的随时间变化的水平的方法,所述方法包括:
估计所述信号的随时间变化的水平的随时间变化的概率密度;
使用所述随时间变化的概率密度的估计来计算现有的平滑后的随时间变化的水平的概率;
响应于所述概率调整平滑滤波器;以及
将调整后的平滑滤波器应用于所述随时间变化的水平以生成平滑后的随时间变化的水平。
2.根据权利要求1的方法,包括:将平滑滤波的时间常数调整成与估计出的概率密度的变化速率相称。
3.根据权利要求1的方法,其中,所述随时间变化的水平和平滑后的随时间变化的水平是时间序列,其每个具有当前时间索引和先前时间索引,其中所述方法包括:
计算在所述先前时间索引处的所述平滑后的随时间变化的水平的概率;
响应于在所述先前时间索引处的所述平滑后的随时间变化的水平的概率来调整所述平滑滤波器;以及
将调整后的平滑滤波器应用于在所述当前时间索引处的所述随时间变化的水平。
4.根据权利要求3的方法,其中所述方法包括响应于以下水平来调整所述平滑滤波器:
在所述先前时间索引处的平滑后的随时间变化的水平、在所述当前时间索引处的随时间变化的水平以及在所述先前时间索引处的平滑后的随时间变化的水平的概率。
5.根据权利要求4的方法,包括调整所述平滑滤波器的上升时间常数和释放时间常数,使得:
当计算出的在所述先前时间索引处的所述平滑后的随时间变化的水平的概率小于或等于阈值概率时,所述上升时间常数等于第一上升值,所述释放时间常数等于第一释放值;以及
当计算出的在所述先前时间索引处的所述平滑后的随时间变化的水平的概率大于所述阈值概率时,所述上升时间常数等于第二上升值,所述释放时间常数等于第二释放值,其中所述第二上升值大于所述第一上升值或所述第二释放值大于所述第一释放值。
6.根据权利要求1的方法,通过响应于所述概率来修改所述平滑滤波器的时间常数来调整所述平滑滤波器,其中当所述概率较低时使用较快的时间常数而当所述概率较高时使用所述较慢的时间常数。
7.根据权利要求1的方法,包括响应于所述随时间变化的概率密度的宽度来调整所述平滑滤波器。
8.根据权利要求5的方法,包括响应于估计出的所述概率密度来调整所述阈值概率。
9.根据权利要求1至8中任意一项的方法,包括通过将参数表达与所述随时间变化的水平的以往值拟合来估计所述概率密度。
10.根据权利要求1至8中任意一项的方法,包括通过计算所述随时间变化的水平的以往值的直方图来估计所述概率密度。
11.一种用于平滑信号的随时间变化的水平的设备,包括:
估计所述信号的随时间变化的水平的随时间变化的概率密度的装置;
使用所述随时间变化的概率密度的估计来计算现有的平滑后的随时间变化的水平的概率的装置;
响应于所述概率调整平滑滤波器的装置;以及
将调整后的平滑滤波器应用于所述随时间变化的水平以生成平滑后的随时间变化的水平的装置。
12.根据权利要求11的设备,包括:将平滑滤波的时间常数调整成与估计出的概率密度的变化速率相称的装置。
13.根据权利要求11的设备,其中,所述随时间变化的水平和平滑后的随时间变化的水平是时间序列,其每个具有当前时间索引和先前时间索引,其中所述设备包括:
计算在所述先前时间索引处的所述平滑后的随时间变化的水平的概率的装置;
响应于在所述先前时间索引处的所述平滑后的随时间变化的水平的概率来调整所述平滑滤波器的装置;以及
将调整后的平滑滤波器应用于在所述当前时间索引处的所述随时间变化的水平的装置。
14.根据权利要求13的设备,包括调整所述平滑滤波器的上升时间常数和释放时间常数的装置,使得:
当计算出的在所述先前时间索引处的所述平滑后的随时间变化的水平的概率小于或等于阈值概率时,所述上升时间常数等于第一上升值,所述释放时间常数等于第一释放值;以及
当计算出的在所述先前时间索引处的所述平滑后的随时间变化的水平的概率大于所述阈值概率时,所述上升时间常数等于第二上升值,所述释放时间常数等于第二释放值,其中所述第二上升值大于所述第一上升值或所述第二释放值大于所述第一释放值。
15.根据权利要求11的设备,包括通过响应于所述概率来修改所述平滑滤波器的时间常数来调整所述平滑滤波器的装置,其中当所述概率较低时使用较快的时间常数而当所述概率较高时使用所述较慢的时间常数。
16.根据权利要求11的设备,包括响应于所述随时间变化的概率密度的宽度来调整所述平滑滤波器的装置。
17.一种用于平滑音频信号的随时间变化的水平的装置,其中所述装置包括:
输入端子,用于接收所述音频信号;
短期水平计算器,耦合到所述输入端子,用于计算所述音频信号的短期水平;
水平平滑器,耦合到所述短期水平计算器的输出,用于使用平滑参数来平滑所述音频信号的短期水平;
概率密度估计器,耦合到所述短期水平计算器的输出,用于估计所述短期水平的概率密度;
延迟器,耦合到所述水平平滑器的输出,用于延迟所述音频信号的平滑后的短期水平;
概率计算器,耦合到所述概率密度估计器的输出和所述延迟器的输出,用于计算经延迟的平滑后的短期水平的概率;以及
平滑参数计算器,耦合到所述短期水平计算器的输出、所述概率计算器的输出和所述延迟器的输出,用于计算所述平滑参数;其中,所述水平平滑器还耦合到所述平滑参数计算器的输出。
18.根据权利要求17的装置,其中所述概率密度估计器使用所述音频信号的短期水平的时间序列来估计所述概率密度。
19.根据权利要求17的装置,其中概率计算器使用估计出的概率密度和经延迟的平滑后的短期水平来计算所述概率。
20.根据权利要求17的装置,其中平滑参数计算器使用所述概率、所述经延迟的平滑后的短期水平和所述短期水平来计算所述平滑参数。
21.根据权利要求18的装置,其中
所述概率计算器使用估计出的概率密度和经延迟的平滑后的短期水平来计算所述概率;以及
所述平滑参数计算器使用所述概率、经延迟的平滑后的短期水平和所述短期水平来计算所述平滑参数。
22.根据权利要求17至21之一所述的装置,其中所述概率密度估计器将参数表达与所述短期水平的以往值拟合。
23.根据权利要求17至21之一所述的装置,其中所述概率密度估计器计算所述短期水平的以往值的直方图。
CN2008800245069A 2007-07-13 2008-07-11 用于平滑信号的随时间变化的水平的方法和装置 Active CN101743689B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US95944207P 2007-07-13 2007-07-13
US60/959,442 2007-07-13
PCT/US2008/008591 WO2009011826A2 (en) 2007-07-13 2008-07-11 Time-varying audio-signal level using a time-varying estimated probability density of the level

Publications (2)

Publication Number Publication Date
CN101743689A CN101743689A (zh) 2010-06-16
CN101743689B true CN101743689B (zh) 2013-04-10

Family

ID=40090149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008800245069A Active CN101743689B (zh) 2007-07-13 2008-07-11 用于平滑信号的随时间变化的水平的方法和装置

Country Status (11)

Country Link
US (1) US9698743B2 (zh)
EP (1) EP2168237B1 (zh)
JP (1) JP5044019B2 (zh)
CN (1) CN101743689B (zh)
AT (1) ATE486407T1 (zh)
BR (1) BRPI0814241B1 (zh)
DE (1) DE602008003236D1 (zh)
ES (1) ES2354962T3 (zh)
RU (1) RU2433525C1 (zh)
TW (1) TWI467568B (zh)
WO (1) WO2009011826A2 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102017402B (zh) 2007-12-21 2015-01-07 Dts有限责任公司 用于调节音频信号的感知响度的系统
JP5120288B2 (ja) * 2009-02-16 2013-01-16 ソニー株式会社 音量補正装置、音量補正方法、音量補正プログラムおよび電子機器
EP2238899B1 (en) * 2009-04-06 2016-10-05 GN Resound A/S Efficient evaluation of hearing ability
US8938313B2 (en) 2009-04-30 2015-01-20 Dolby Laboratories Licensing Corporation Low complexity auditory event boundary detection
WO2010127024A1 (en) 2009-04-30 2010-11-04 Dolby Laboratories Licensing Corporation Controlling the loudness of an audio signal in response to spectral localization
TWI503816B (zh) 2009-05-06 2015-10-11 Dolby Lab Licensing Corp 調整音訊信號響度並使其具有感知頻譜平衡保持效果之技術
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
RU2665873C1 (ru) * 2013-01-21 2018-09-04 Долби Лэборетериз Лайсенсинг Корпорейшн Оптимизация громкости и динамического диапазона через различные устройства воспроизведения
CN105225673B (zh) * 2014-06-09 2020-12-04 杜比实验室特许公司 用于噪声水平估计的方法、系统和介质
US9953661B2 (en) * 2014-09-26 2018-04-24 Cirrus Logic Inc. Neural network voice activity detection employing running range normalization
US11170313B2 (en) * 2014-10-10 2021-11-09 Analog Devices International Unlimited Company Pipelining and parallelism for implementing a mixture model

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1321297A (zh) * 1999-08-23 2001-11-07 松下电器产业株式会社 音频编码装置以及音频编码方法
US6768979B1 (en) * 1998-10-22 2004-07-27 Sony Corporation Apparatus and method for noise attenuation in a speech recognition system
CN1581724A (zh) * 2003-08-05 2005-02-16 华邦电子股份有限公司 自动增益控制器及其控制方法
US20060274620A1 (en) * 2005-06-03 2006-12-07 Zoran Corporation Processing an information carrying signal

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8608289D0 (en) * 1986-04-04 1986-05-08 Pa Consulting Services Noise compensation in speech recognition
US4890250A (en) * 1988-11-18 1989-12-26 Steven Levin Hybrid estimating filter
US5101416A (en) * 1990-11-28 1992-03-31 Novatel Comunications Ltd. Multi-channel digital receiver for global positioning system
GB9103931D0 (en) * 1991-02-26 1991-04-10 Dsp Consultants Ltd Signal processing apparatus and method
US5517531A (en) * 1991-05-29 1996-05-14 The United States Of America As Represented By The Secretary Of The Navy Kernel adaptive interference suppression system
US5740048A (en) * 1992-08-07 1998-04-14 Abel; Jonathan S. Method and apparatus for GPS positioning, filtering and integration
JP3533696B2 (ja) * 1994-03-22 2004-05-31 三菱電機株式会社 音声認識の境界推定方法及び音声認識装置
AU7723696A (en) * 1995-11-07 1997-05-29 Euphonics, Incorporated Parametric signal modeling musical synthesizer
GB9614209D0 (en) * 1996-07-05 1996-09-04 Univ Manchester Speech synthesis system
US5903872A (en) * 1997-10-17 1999-05-11 Dolby Laboratories Licensing Corporation Frame-based audio coding with additional filterbank to attenuate spectral splatter at frame boundaries
KR100341044B1 (ko) * 1997-12-08 2002-07-13 다니구찌 이찌로오, 기타오카 다카시 음성 신호 가공 방법 및 음성 신호 가공 장치
US6226409B1 (en) * 1998-11-03 2001-05-01 Compaq Computer Corporation Multiple mode probability density estimation with application to sequential markovian decision processes
US6266633B1 (en) * 1998-12-22 2001-07-24 Itt Manufacturing Enterprises Noise suppression and channel equalization preprocessor for speech and speaker recognizers: method and apparatus
US6111183A (en) * 1999-09-07 2000-08-29 Lindemann; Eric Audio signal synthesis system based on probabilistic estimation of time-varying spectra
US6954745B2 (en) * 2000-06-02 2005-10-11 Canon Kabushiki Kaisha Signal processing system
US7035790B2 (en) * 2000-06-02 2006-04-25 Canon Kabushiki Kaisha Speech processing system
WO2002017538A2 (en) * 2000-08-18 2002-02-28 The Regents Of The University Of California Fixed, variable and adaptive bit rate data source encoding (compression) method
RU2237965C2 (ru) 2000-09-18 2004-10-10 Евгений Александрович Баранник Способ цифровой адаптивной фильтрации сигналов и устройство для его выполнения
DE60238602D1 (de) * 2001-04-04 2011-01-27 Quellan Inc Verfahren und system zum decodieren von mehrpegelsignalen
US6702608B2 (en) * 2001-05-16 2004-03-09 Bernard A. Brennan, Jr. Electric workstation with power reel cords
US7219034B2 (en) * 2001-09-13 2007-05-15 Opnet Technologies, Inc. System and methods for display of time-series data distribution
US7552030B2 (en) * 2002-01-22 2009-06-23 Honeywell International Inc. System and method for learning patterns of behavior and operating a monitoring and response system based thereon
US6999628B2 (en) * 2002-03-28 2006-02-14 Microsoft Corporation Tarp filter
US7218763B2 (en) * 2003-02-27 2007-05-15 Eastman Kodak Company Method for automated window-level settings for magnetic resonance images
JP4571624B2 (ja) * 2003-03-26 2010-10-27 本田技研工業株式会社 ローカルモデルを用いた話者認識
KR101164937B1 (ko) 2003-05-28 2012-07-12 돌비 레버러토리즈 라이쎈싱 코오포레이션 오디오 신호의 인식된 라우드니스를 계산 및 조정하는방법, 장치 및 컴퓨터 프로그램
US7212652B1 (en) * 2003-07-07 2007-05-01 The United States Of America As Represented By The Secretary Of The Navy Method for tracking targets with hyper-spectral data
US7343284B1 (en) * 2003-07-17 2008-03-11 Nortel Networks Limited Method and system for speech processing for enhancement and detection
JP4529492B2 (ja) * 2004-03-11 2010-08-25 株式会社デンソー 音声抽出方法、音声抽出装置、音声認識装置、及び、プログラム
US7649988B2 (en) * 2004-06-15 2010-01-19 Acoustic Technologies, Inc. Comfort noise generator using modified Doblinger noise estimate
US8180664B2 (en) * 2004-12-01 2012-05-15 Hewlett-Packard Development Company, L.P. Methods and systems for forecasting with model-based PDF estimates
US7830991B2 (en) * 2005-10-03 2010-11-09 Harris Corporation Frequency selective automatic gain control with dual non-symmetric attack and release times and interference detection feature
JP4630983B2 (ja) * 2007-02-26 2011-02-09 独立行政法人産業技術総合研究所 音高推定装置、音高推定方法およびプログラム
US8005238B2 (en) * 2007-03-22 2011-08-23 Microsoft Corporation Robust adaptive beamforming with enhanced noise suppression
DE102007036277A1 (de) * 2007-07-31 2009-02-05 Technische Universität Berlin Verfahren und Vorrichtung zur automatischen Mustererkennung
US7983490B1 (en) * 2007-12-20 2011-07-19 Thomas Cecil Minter Adaptive Bayes pattern recognition
JP2009176909A (ja) * 2008-01-24 2009-08-06 Toshiba Corp 抜取検査の評価方法及び抜取検査の評価装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6768979B1 (en) * 1998-10-22 2004-07-27 Sony Corporation Apparatus and method for noise attenuation in a speech recognition system
CN1321297A (zh) * 1999-08-23 2001-11-07 松下电器产业株式会社 音频编码装置以及音频编码方法
CN1581724A (zh) * 2003-08-05 2005-02-16 华邦电子股份有限公司 自动增益控制器及其控制方法
US20060274620A1 (en) * 2005-06-03 2006-12-07 Zoran Corporation Processing an information carrying signal

Also Published As

Publication number Publication date
ATE486407T1 (de) 2010-11-15
JP5044019B2 (ja) 2012-10-10
US9698743B2 (en) 2017-07-04
TW200912898A (en) 2009-03-16
EP2168237A2 (en) 2010-03-31
US20100174540A1 (en) 2010-07-08
DE602008003236D1 (de) 2010-12-09
EP2168237B1 (en) 2010-10-27
WO2009011826A2 (en) 2009-01-22
ES2354962T3 (es) 2011-03-21
CN101743689A (zh) 2010-06-16
JP2010540977A (ja) 2010-12-24
TWI467568B (zh) 2015-01-01
RU2010105057A (ru) 2011-08-20
WO2009011826A3 (en) 2009-04-30
BRPI0814241A2 (pt) 2015-01-06
RU2433525C1 (ru) 2011-11-10
BRPI0814241B1 (pt) 2020-12-01

Similar Documents

Publication Publication Date Title
CN101743689B (zh) 用于平滑信号的随时间变化的水平的方法和装置
US8615095B2 (en) Automatic volume control for audio signals
US8862257B2 (en) Method and device for clipping control
EP2928076B1 (en) Level adjustment device and method
CN101489070A (zh) 电视音量调节方法、装置及系统
CN103828232A (zh) 动态范围控制
GB2458631A (en) Improving audio equalization and filtering to address problems of disruptive phase response in graphic equalizers
EP2023484A1 (en) Automatic gain control device
CN102859869A (zh) 声学装置和再现声学信号的方法
CN102255607B (zh) 一种对输出音量进行调节的方法及系统
CN101399523B (zh) 一种音频信号播放时的增益控制方法及系统
EP4032320A1 (en) Volume dependent audio compensation
KR101496754B1 (ko) 다운믹싱 제한
US8532314B2 (en) Audio volume control circuit and method thereof
KR100383521B1 (ko) 직접 액세스 저장장치(dasd) 데이터 채널을 위한등화방법 및 장치
US20210194463A1 (en) Method for carrying out a morphing process
US8825186B2 (en) Digital audio processing
US8045732B1 (en) Mapping control signals to values for one or more internal parameters
US20220322004A1 (en) Dynamic range compression with reduced artifacts
US10141905B2 (en) Amplifier with adjustment of the automatic sound level
JPH04319806A (ja) 自動音量制御回路
CN116614668A (zh) 一种直播音量的自适应控制方法、系统、设备及存储介质
US4833634A (en) Multipurpose adaptive filter
US20050141732A1 (en) Amplifying apparatus
JP2010003335A (ja) オーディオ再生装置、オーディオ再生方法、およびプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20100616

Assignee: Lenovo (Beijing) Co.,Ltd.

Assignor: DOLBY LABORATORIES LICENSING Corp.

Contract record no.: 2012990000553

Denomination of invention: Time-varying audio-signal level using a time-varying estimated probability density of the level

License type: Common License

Record date: 20120731

C14 Grant of patent or utility model
GR01 Patent grant
CI01 Publication of corrected invention patent application

Correction item: Description

Correct: Correct

False: Error

Number: 15

Volume: 29

CI03 Correction of invention patent

Correction item: Description

Correct: Correct

False: Error

Number: 15

Page: Description

Volume: 29

ERR Gazette correction

Free format text: CORRECT: DESCRIPTION; FROM: ERROR TO: CORRECT

RECT Rectification
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20100616

Assignee: Lenovo (Beijing) Co.,Ltd.

Assignor: DOLBY LABORATORIES LICENSING Corp.

Contract record no.: 2012990000553

Denomination of invention: Time-varying audio-signal level using a time-varying estimated probability density of the level

License type: Common License

Record date: 20120731

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model