CN101647061A - 用于语音增强的噪声方差估计器 - Google Patents

用于语音增强的噪声方差估计器 Download PDF

Info

Publication number
CN101647061A
CN101647061A CN200880008886A CN200880008886A CN101647061A CN 101647061 A CN101647061 A CN 101647061A CN 200880008886 A CN200880008886 A CN 200880008886A CN 200880008886 A CN200880008886 A CN 200880008886A CN 101647061 A CN101647061 A CN 101647061A
Authority
CN
China
Prior art keywords
valuation
sound signal
noise component
amplitude
variance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200880008886A
Other languages
English (en)
Other versions
CN101647061B (zh
Inventor
俞容山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of CN101647061A publication Critical patent/CN101647061A/zh
Application granted granted Critical
Publication of CN101647061B publication Critical patent/CN101647061B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)
  • Monitoring And Testing Of Transmission In General (AREA)
  • Noise Elimination (AREA)

Abstract

本公开描述了用于具要有限的可用存储器的设备的语音增强方法。该方法适用于非常嘈杂的环境,并且能够在存在以及不存在语音期间估计语音分量和噪声分量的相对强度。

Description

用于语音增强的噪声方差估计器
技术领域
本发明涉及音频信号处理。更具体地,本发明涉及在噪声环境下的语音增强和澄清。
引用结合
以下参考文献每一个都通过引用全部结合于此:
[1]Y.Ephraim and D.Malah,“Speech enhancement using a minimummean square error short time spectral amplitude estimator,”IEEE Trans.Acoust.,Speech,SignalProcessing,vol.32,pp.1109-1121,Dec.1984.
[2]N.Virag,“Single channel speech enhancement based on maskingproperties of the human auditory system,”IEEE Tran.Speech andAudio Processing,vol.7,pp.126-137,Mar.1999.
[3]R.Martin,“Spectral subtraction based on minimum statistics,”in Proc.EUSIPCO,1994,pp.1182-1185.
[4]P.J.Wolfe and S.J.Godsill,“Efficient alternatives to Ephraim andMalah suppression rule for audio signal enhancement,”EURASIPJournal on Applied Signal Processing,vol.2003,Issue 10,Pages 1043-1051,2003.
[5]Y.Ephraim,H.Lev-Ari and W.J.J.Roberts,“A brief survey of SpeechEnhancement,”The Electronic Handbook,CRC Press,April 2005.
背景技术
我们生活在噪声世界。来自自然源以及人类活动的环境噪声无处不在。在话音通信期间,环境噪声与预期的语音信号同时被发送,不利地影响接收信号的质量。这个问题可以通过用来去除这样的不想要的噪声分量的语音增强技术而得到缓和,由此产生更清晰的和更易懂的信号。
大多数语音增强系统依赖于各种形式的自适应滤波操作。这样的系统衰减具有低信噪比(SNR)的噪声语音信号的时间/频率(T/F)区域,同时保持具有高SNR的那些区域。语音的关键分量因此被保持而噪声分量被大大地减小,通常,这样的滤波操作由诸如数字信号处理(DSP)芯片那样的计算装置在数字域中执行。
子频带域处理是在其中实施这样的自适应滤波操作的优选方式之一。概略地,时域中的不改变的语音信号通过使用滤波器组,诸如离散傅立叶变换(DFT),被变换成各种子频带。在每个子频带内的信号随后按照语音与噪声的已知统计特性被抑制到想要的量。最后,在子频带域中的噪声抑制信号通过使用逆滤波器组而被变换到时域,以产生增强的语音信号,其质量高度依赖于抑制过程的细节。
现有技术语音增强器的例子在图1中示出。通过将包含清晰语言以及噪声的模拟语音信号数字化而生成输入。这个未改变的音频信号y(n),其中n=0,1,...∞是时间指数(time index),随后被发送到分析滤波器组装置或功能(“分析滤波器组(Analysis Filterbank)”)2,从而产生多个子频带信号,Yk(m),k=1,...K,m=0,1,...∞,其中k是子频带号,而m是每个子频带信号的时间指数。子频带信号由于在分析滤波器组2中的下采样操作,比起y(n)具有较低的采样速率。然后通过使用噪声方差估计器装置或功能(“噪声方差估计器(Noise VarianceEstimator)”)4,用子频带信号作为输入来估计每个子频带的噪声电平。本发明的噪声方差估计器4不同于在现有技术中已知的那些噪声方差估计器,并将在下面具体地参照图2a和2b进行描述。根据所估计的噪声电平,在抑制规则装置或功能(“抑制规则(Suppression Rule)”)6中确定适当的抑制增益gk,并把它如下地施加到子频带信号:
Y ~ k ( m ) = g k Y k ( m ) , k=1,...,K.                (1)
用乘法器符号8符号表示把抑制增益这样地施加到子频带信号。最后,
Figure G2008800088867D00031
被发送到合成滤波器组装置或功能(“合成滤波器组(Synthesis Filterbank)”)10,以便产生增强的语音信号
Figure G2008800088867D00032
为了呈现清晰起见,图1示出了生成和施加抑制增益到多个子频带信号(k)中的仅仅一个子频带信号的细节。
用于每个子频带的适当的抑制量与它的噪声电平强烈相互关联。而这又由噪声信号的方差来确定,其中对于零均值高斯概率分布,该方差被定义为噪声信号的均方值。显然,精确的噪声方差估计对于系统的性能是关键的。
通常,噪声方差是不可先验得到的,而必须从未改变的音频信号中估计出来。众所周知,“清晰的”噪声信号的方差可以通过在大的时间块上对于噪声幅度的平方值执行时间平均运算,而被估计出。然而,因为未改变的音频信号包含干净的语音和噪声,这样的方法不能直接应用。
以前已经提出许多噪声方差估计策略用来解决这个问题。最简单的解决方案是在语音增强系统的初始化级,当语音信号还不存在时估计噪声方差(参考文献[1])。然而,这个方法只在噪声信号以及噪声方差是相对平稳时才很好地起作用。
对于非平稳噪声的精确处理,已经提出了更复杂的方法。例如,话音活动检测(VAD)估计器利用独立的检测器来确定语音信号的存在。噪声方差仅仅在它不存在的时间期间才被更新(参考文献[2])。这个方法有两个缺点。首先,当音频信号具有噪声时很难得到可靠的VAD结果,这又影响噪声方差估计结果的可靠性。第二,这个方法妨碍当语音信号存在时更新噪声方差估值的可能性。由于在其中语音电平弱的时间期间噪声方差估值仍旧可以被可靠地更新,所以后一问题导致低效率。
另一个广泛引用的、对这个问题的解决方案是最小值统计方法(参考文献[3])。原则上,该方法保持对于每个子频带的历史样本的信号电平的记录,并根据最小记录值来估计噪声方差。在这个方法背后的基本原理是,语音信号通常是自然具有停顿的开/关过程。另外,当存在语音信号时,信号电平通常大得多。所以,如果记录足够长的时间的话,来自该算法的最小信号电平很可能是来自语音停顿部分,从而产生可靠的估计噪声电平。
无论如何,最小值统计方法具有高的存储器要求,因此不能应用于只具有有限的可用存储器的设备。
发明内容
按照本发明的第一方面,由语音和噪声分量组成的音频信号的语音分量被增强。音频信号从时域变换成频域中的多个子频带。随后处理音频信号的子频带。处理包括响应于控制,自适应地减小一些子频带的增益。控制至少部分是从音频信号的噪声分量的方差的估值得到的。该估值又是从音频信号的噪声分量的幅度的以前估值的平均值得到的。音频信号中具有大于预定的估值偏差的最大量的估值偏差的噪声分量的幅度的估值从音频信号中的噪声分量的幅度的以前估值的平均值中被排除或减小其在音频信号的噪声分量的幅度的以前估值的平均值中的加权。最后,处理后的音频信号再从频域变换成时域,以便提供其中语音分量被增强的音频信号。本发明的这个方面还可包括估计在音频信号中的噪声分量的幅度作为音频信号的噪声分量中的方差的估值、音频信号的语音分量中的方差的估值、和音频信号的幅度的函数。
按照本发明的另一方面,得到由语音和噪声分量组成的音频信号的噪声分量中的方差的估值。在音频信号的噪声分量中的方差的估值是从音频信号中的噪声分量的幅度的以前估值的平均值得到的。音频信号中具有大于预定的估值偏差的最大量的估值偏差的噪声分量的幅度的估值从在音频信号中的噪声分量的幅度的以前估值的平均值中被排除或减小其在音频信号中的噪声分量的幅度的以前估值的平均值中的加权。本发明的这个方面还可包括估计在音频信号中的噪声分量的幅度作为音频信号的噪声分量中的方差的估值、音频信号的语音分量中的方差的估值、和音频信号的幅度的函数。
按照本发明的以上方面的任一方面,在音频信号中的噪声分量的幅度的以前估值的平均值中,音频信号中具有大于阈值的数值的噪声分量的幅度的估值被排除或减小其加权。
上述的阈值可以是
Figure G2008800088867D00051
的函数,其中是所估计的先验信噪比,
Figure G2008800088867D00053
是音频信号的噪声分量的估计方差,和ψ是由预定的估计偏差的最大量确定的常数。
本发明的上述方面可以被实施为方法或适于执行这样的方法的设备。被存储在计算机可读介质上的计算机程序可以使得计算机执行这样的方法中的任一种。
本发明的一个目的是提供在语音存在以及不存在期间起作用的、能够估计语音和噪声分量的相对强度的语音增强。
本发明的另一个目的是提供不管是否存在重大的噪声分量,都能够估计语音和噪声分量的相对强度的语音增强。
本发明的再一个目的是提供可用于具有有限的可用存储器的设备的语音增强。
本发明的这些和其它特征和优点将在以下的说明和所附权利要求中被阐述或变得更明白。所述特征和优点可以借助于在所附权利要求中具体地指出的装置和组合而被实现和得到。而且,本发明的特征和优点可以通过本发明的实践而学习到或可以从此后阐述的说明中弄明白。
附图说明
图1是显示现有技术语音增强器的功能框图。
图2a是按照本发明的各方面的示例性噪声方差估计器的功能框图。这样的噪声方差估计器可被使用来改进诸如图1的例子中的那种的现有技术语音增强器或可被使用于其它目的。
图2b是对于理解图2a的噪声方差估计器的操作有用的流程图。
图3显示作为针对四个真实的SNR的数值所估计的先验SNR的函数的、噪声幅度的偏差的估计的理想化的曲线图。
具体实施方式
这里使用的缩略词和术语的词汇表在附录A中给出。符号及其各自的定义的列表在附录B中给出。附录A和附录B是本发明的一个整体部分,它们形成本专利申请的部分。
按照本发明的各方面的噪声方差估计器的示例性实施例的框图显示于图2a中。它可以与诸如图1的那种的语音增强器集成在一起,以便估计每个子频带的噪声电平。例如,按照本发明的各方面的噪声方差估计器可被利用作为图1的噪声方差估计器4,因此提供改进的语音增强器。给噪声方差估计器的输入是未改变的子频带信号Y(m),它的输出是更新后的噪声方差估值的数值。
为了说明起见,噪声方差估计器的特征可能在于具有三个主要的部件:噪声幅度估计器装置或功能(“噪声幅度估计(Estimation ofNoise Amplitude)”)12、响应于噪声幅度估计工作的噪声方差估计装置或功能(“噪声方差估计(Estimation of Noise Variance)”)14、和语音方差估计装置或功能(“语音方差估计(Estimate of SpeechVariance)”)16。图2a的噪声方差估计器例子还包括延时18,用z域符号表示(“Z-1”)示出。
图2a的噪声方差估计器例子的运行可以还参照图2b的流程图而被最好地了解。将会意识到,这里以各种例子显示和描述的各种设备、功能和处理可被显示为以与这里图上显示的方式不同的方式被组合或分开。例如,当用计算机软件指令序列实施时,图2a和2b的所有功能可以由在适当的数字信号处理硬件中运行的多线程软件指令序列来实施,在这种情形下,在图上显示的例子中的各种装置和功能可以对应于软件指令的各部分。
噪声分量的幅度被估计(噪声幅度估计12,图2a;估计N(m)24,图2b)。因为音频输入信号包含语音和噪声;这样的估计只能通过利用区分一个部件与另一个部件的统计差值而完成。而且,噪声分量的幅度可以经由适当修改当前被使用于语音分量幅度的估计的现有统计模型而被估计(参考文献[4]和[5])。
这样的语音和噪声模型通常假设语音和噪声分量是不相关的零均值高斯分布。关键的模型参数,更具体地,语音分量方差和噪声分量方差,必须从未改变的输入音频信号被估计出。如上所述,语音和噪声分量的统计特性是完全不同的。在大多数情形下,噪声分量的方差是相对稳定的。相反,语音信号是“开/关”过程,它的方差即使在几毫秒内也可以急剧地改变。因此,噪声分量的方差的估计牵涉到相对长的时间窗口,而用于语音分量的类似操作可能只牵涉到当前的和以前的输入样本。后者的例子是在参考文献[1]中提出的“判决引导方法(decision-directed method)”。
一旦统计模型及其语音和噪声分量的分布参数被确定,从音频信号估计语音和噪声分量的幅度就是可行的。在示例性实施例中,在参考文献[4]中以前介绍的、用于估计语音分量的幅度的最小均方差(MMSE)功率估计器适用于估计噪声分量的幅度。估计器模型的选择对于本发明不是关键的。
简言之,MMSE功率估计器首先根据统计模型以及未改变的音频信号,分别确定语音和噪声分量的概率分布。然后确定噪声幅度为使得估计误差的均方值最小的数值。
最后,在准备进行随后的计算时,通过把所估计的噪声幅度的平方的当前绝对值包括在总的噪声方差中,而更新噪声分量的方差。这个附加值变为在合理长的缓存器上的累加运算的一部分,它包含当前的以及以前的噪声分量幅度。为了进一步改进噪声方差估计的精度,可以结合有偏估计避免方法。
噪声幅度估计
(噪声幅度估计12,图2a;估计N(m)24,图2b)
如图1、2a和2b(20)所示,加到噪声方差估计器(在本上下文中,“噪声方差估计器”是图1的方块4,以及是图2a的单元12、14、16、和18的组合)的输入是子频带:
Y(m)=X(m)+D(m)                (2)
其中X(m)是语音分量,以及D(m)是噪声分量。这里m是时间指数,以及子频带号下标k被省略,因为同一个噪声方差估计器被使用于每个子频带。可以假设,分析滤波器组生成复数量,如DFT所做的那样。这里,子频带分量也是复数的,以及可被进一步表示为:
Y(m)=R(m)exp(jθ(m))          (3)
X(m)=A(m)exp(jα(m))          (4)
D(m)=N(m)exp(jφ(m))          (5)
其中R(m),A(m)和N(m)分别是未改变的音频信号、语音和噪声分量的幅度,以及θ(m),α(m)和φ(m)是它们各自的相位。
通过假设语音和噪声分量是不相关的零均值高斯分布,X(m)的幅度可以通过使用在参考文献4中得到的下列MMSE功率估计器而被估计出:
A ^ ( m ) = G SP ( ξ ( m ) , γ ( m ) ) · R ( m ) - - - ( 6 )
其中增益函数由下式给出:
G SP ( ξ ( m ) , γ ( m ) ) = ξ ( m ) 1 + ξ ( m ) ( 1 + υ ( m ) γ ( m ) ) - - - ( 7 )
其中
υ ( m ) = ξ ( m ) 1 + ξ ( m ) γ ( m ) - - - ( 8 )
ξ ( m ) = λ x ( m ) λ d ( m ) - - - ( 9 )
γ ( m ) = R 2 ( m ) λ d ( m ) - - - ( 10 )
这里λx(m)和λd(m)分别是语音分量和噪声分量的方差。ξ(m)和γ(m)常常被解译为先验和后验分量对噪声比,这里就采用该表示法。换句话说,“先验”SNR是假设的(而实际上未知的)语音方差(因此称为“先验”的)对噪声方差的比值;“后验”SNR是观察到的信号的幅度平方(因此称为“后验”的)对噪声方差的比值。
在MMSE功率估计器模型中,语音和噪声分量的各自方差可以被互换,以便估计噪声分量的幅度:
N ^ ( m ) = G SP ( ξ ′ ( m ) , γ ′ ( m ) ) · R ( m ) - - - ( 11 )
其中
ξ ′ ( m ) = λ d ( m ) λ x ( m ) - - - ( 12 )
以及
γ ′ ( m ) = R 2 ( m ) λ x ( m ) - - - ( 13 )
语音方差估计
(语音方差估计16,图2a;估计
Figure G2008800088867D00094
(m)22,图2b)
语音分量方差的估计可以通过使用在参考文献[1]中提出的判决引导方法来计算:
λ ^ x ( m ) = μ A ^ 2 ( m - 1 ) + ( 1 - μ ) max ( R 2 ( m ) - λ ^ d ( m ) , 0 ) - - - ( 14 )
这里
0<<μ<1                        (15)
是预先选择的常数,以及
Figure G2008800088867D00097
是语音分量幅度的估值。下面描述噪声分量方差估值
Figure G2008800088867D00098
的计算。
噪声幅度估计(从以上继续)
噪声分量幅度的估值最后由下式给出:
N ^ ( m ) = G SP ( ξ ^ ′ ( m ) , γ ^ ′ ( m ) ) · R ( m ) - - - ( 16 )
其中
ξ ^ ′ ( m ) = λ ^ d ( m ) λ ^ x ( m ) - - - ( 17 )
以及
γ ^ ′ ( m ) = R 2 ( m ) λ ^ x ( m ) - - - ( 18 )
虽然在本例中利用了复数滤波器组,但修改用于仅仅具有实数值的滤波器组的公式是容易的。
上述的方法仅仅作为例子给出。根据应用,可以采用更复杂的或更简单的方法。多麦克风输入也可以被使用来得到噪声幅度的更好的估值。
噪声方差估计
(噪声方差估计14,图2a;估计λd(m)26,图2b)
在给定的时间指数m时输入的子频带中的噪声分量部分地由它的方差λd(m)确定。对于零均值高斯,这被定义为噪声分量的幅度的平方的均值:
λd(m)=E{N2(m)}                        (19)
这里,数学期望E{N2(m)}是对于在时间指数m时噪声分量的概率分布而取的。
通过假设噪声分量是平稳的和各态历经的,λd(m)可以通过对于先验估计的噪声幅度执行时间平均操作而得到。更具体地,时间指数(m+1)的噪声方差λd(m+1)可以通过执行以前估计的噪声幅度的平方的加权平均而被估计出:
λ ^ d ( m + 1 ) = Σ i = 0 ∞ w ( i ) N ^ 2 ( m - i ) Σ i = 0 ∞ w ( i ) - - - ( 20 )
其中w(i),i=0,...,∞是加权函数。实际上,w(i)可被选择为长度为L的窗口:w(i)=1,i=0,...,L-1。在矩形窗口方法(RWM)中,估计的噪声方差由下式给出:
λ ^ d ( m + 1 ) = 1 L Σ i = 0 L - 1 N ^ 2 ( m - i ) - - - ( 21 )
也有可能使用指数窗口:
w(i)=βi+1                    (22)
其中
0<β<1.                              (23)
在移动平均方法(MAM)中,估计出的噪声方差是噪声幅度的平方的移动平均值:
λ ^ d ( m + 1 ) = ( 1 - β ) λ ^ d ( m ) + β N ^ k 2 ( m ) - - - ( 24 )
其中初始值
Figure G2008800088867D00112
可被设置为合理地选择的预定值。
偏差估计避免
偶尔地,模型不能提供语音和噪声分量的精确表示。在这些情形下,噪声方差估计可以变为不精确的,由此产生非常偏差的结果。已经开发了偏差估计避免(BEA)方法来缓和这个问题。
实际上,BEA把变小的权重分配给噪声幅度估值
Figure G2008800088867D00113
以使得:
bias ( m ) = E { N 2 ( m ) - N ^ 2 ( m ) } / E { N 2 ( m ) } - - - ( 25 )
其中偏差,bias(m),大于预定的最大值Bmax,即:
|bias(m)|>Bmax                        (26)
噪声幅度估值
Figure G2008800088867D00115
的精确性受到模型的精度支配,具体地是语音和噪声分量的方差,如在以前部分中所描述的那样。因为噪声分量是相对平稳的,所以它的方差随时间缓慢演化。为此,分析假设:
λ ^ d ( m ) = λ d ( m ) - - - ( 27 )
相比而言,语音分量本质上是瞬变的,且易于产生大的错误。假设真实的先验SNR是:
ξ*(m)=λx(m)/λd(m)            (28)
而所估计的先验SNR是:
ξ ~ ( m ) = λ ^ x ( m ) / λ d ( m ) - - - ( 29 )
Figure G2008800088867D00121
的估值偏差实际上由下式给出:
bias ( m ) = ξ ~ ( m ) - ξ * ( m ) ( 1 + ξ ~ ( m ) ) 2 - - - ( 30 )
显然,如果
ξ ~ ( m ) = ξ * ( m ) - - - ( 31 )
则可以具有无偏估计器,以及
E { N ^ 2 ( m ) } = E { N 2 ( m ) } = λ d ( m ) - - - ( 32 )
正如在图3上看到的,估值偏差相对于图上的虚线,即零偏差线,是不对称的。图的下部指示对于ξ的变化值的变化的估值偏差值,而图的上部显示对于
Figure G2008800088867D00125
或ξ的很小的依赖性。
对于感兴趣的SNR范围,噪声幅度的低估(under-extimation),即:
E { N ^ 2 ( m ) } < E { N 2 ( m ) } - - - ( 33 )
将导致正的偏差,这对应于图的上部。正如可以看到的那样,影响是相对小的,所以不成问题。
然而,图的下部对应于其中语音分量的方差被低估的情形,这导致大的负的估值偏差,如公式(30)给出的那样,即:
&lambda; x ( m ) > &lambda; ^ x ( m ) - - - ( 34 )
&lambda; d ( m ) > &lambda; ^ x ( m ) - - - ( 35 )
或,可替换地
&xi; * ( m ) > &xi; ~ ( m ) - - - ( 36 )
&xi; ~ ( m ) < 1 - - - ( 37 )
以及对于ξ的不同数值的强的依赖性。这些是其中噪声幅度的估值太大的情形。因此,给予这样的幅度以减小的权重或全部避免。
实际上,经验教导了这样的可疑幅度R(m)满足:
R 2 ( m ) > &psi; ( 1 + &xi; ^ ( m ) ) &lambda; d ( m ) - - - ( 38 )
其中ψ是预定的正的常数。这个规则提供对于偏差的较低约束:
bias ( m ) > 1 - 1 2 &psi; - - - ( 39 )
其中
ψ=2(Bmax+1)                              (40)
总之,正偏差是可忽略的。如果在公式(16)中定义的、且与公式(38)一致的所估计的噪声幅度
Figure G2008800088867D00133
被给予减小的权重的话,负偏差是可维持的。在实际的应用中,由于λd(m)的数值是未知的,公式(38)的规则可被近似为:
R 2 ( m ) > &psi; ( 1 + &xi; ^ ( m ) ) &lambda; ^ d ( m ) - - - ( 41 )
其中
&xi; ^ ( m ) = &lambda; ^ x ( m ) &lambda; ^ d ( m ) - - - ( 42 )
BEA方法的两个这样的例子是利用BEA的矩形窗口方法(RWM)和利用BEA的移动平均方法(MAM)。在前一实施方案中,被给予与公式(38)一致的样本的权重是零:
&lambda; ^ d ( m + 1 ) = 1 L &Sigma; i &Element; &Phi; m N ^ 2 ( i ) - - - ( 43 )
其中Φm是对于时间指数m,包含满足下式的L个最接近的的集合:
R 2 ( i ) &le; &psi; ( 1 + &xi; ^ ( i ) ) &lambda; ^ d ( i ) - - - ( 44 )
在后一实施方案中,可利用减小的权重来包括这样的样本:
&lambda; ^ d ( m + 1 ) = ( 1 - &beta; ) &lambda; ^ d ( m ) + &beta; N ^ k 2 ( m ) - - - ( 45 )
其中
&beta; = &beta; 0 R 2 ( m ) &le; &psi; ( 1 + &xi; ^ ( m ) ) &lambda; ^ d ( m ) &beta; 1 else . - - - ( 46 )
β1<β0                            (47)
完成图2b流程图的描述后,然后时间指数m增大1(“m←m+1”56),并重复图2b的过程。
实施方式
本发明可以以硬件或软件或它们的组合(例如,可编程的逻辑阵列)来实施。除非另外阐述,作为本发明的一部分被包括的过程不是固有地与任何特定的计算机或其他设备相关。具体地,可以使用各种具有按照这里的教导编写的程序的通用机器,或构建更专用的设备(例如,集成电路)来执行需要的方法步骤可以是更方便的。因此,本发明可以以在一个或多个可编程计算机系统上执行的一个或多个计算机程序来实施,每个可编程计算机系统包括至少一个处理器、至少一个数据存储系统(包括易失性和非易失性存储器和/或存储单元)、至少一个输入设备或端口、和至少一个输出设备或端口。程序代码被施加到输入数据上以执行这里描述的功能和生成输出信息。输出信息以已知的方式被施加到一个或多个输出设备。
每个这样的程序可以以任何想要的计算机语言(包括机器、汇编、或高级别过程、逻辑或面向对象的编程语言)来实施,以便与计算机系统通信。无论如何,语言可以是汇编或解译的语言。
每个这样的计算机程序优选地被存储在或下载到由通用或专用可编程计算机可读的存储媒体或装置(例如,固态存储器或媒体、磁或光媒体),用于当存储媒体或装置被计算机系统读取以便执行这里描述的过程时配置和操作计算机。本发明的系统还可以被认为是被实现为计算机可读的存储介质,其被配置有计算机程序,其中这样配置的存储介质使得计算机系统以特定方式和预定义方式操作来执行这里描述的功能。
已经描述了本发明的许多实施例。无论如何,将会看到,可以作出各种修改而不背离本发明的精神和范围。例如,这里描述的某些步骤可以独立地排序,因此可以以与所描述的次序不同的次序来执行。
附录A
缩略语和术语词汇表
BEA  偏差估计避免
DFT  离散傅立叶变换
DSP  数字信号处理
MAM  移动平均方法
RWM  矩形窗口方法
SNR  信噪比
T/F  时间/频率
VAD  语音端点检测(voice activity detection)
附录B
符号列表
y(n),n=0,1,...,∞                  数字化时间信号
Figure G2008800088867D00171
增强的语音信号
Yk(m),k=1,...,K,m=0,1,...,∞   子频带信号k
Figure G2008800088867D00172
增强的子频带信号k
X(m)                                    子频带k的语音分量
D(m)                                    子频带k的噪声分量
gk                                      用于子频带k的抑制增益
R(m)                                    噪声语音幅度
θ(m)                                   噪声语音相位
A(m)                                    语音分量幅度
所估计的语音分量幅度
α(m)                                   语音分量相位
N(m)                                    噪声分量幅度
Figure G2008800088867D00174
所估计的噪声分量幅度
φ(m)                                   噪声分量相位
GSP                                     增益函数
λx(m)                                  语音分量方差
Figure G2008800088867D00175
所估计的语音分量方差
λd(m)                                  噪声分量方差
Figure G2008800088867D00176
所估计的噪声分量方差
ξ(m)                                   先验语音分量对噪声比
γ(m)                                   后验语音分量对噪声比
ξ’(m)                                 先验噪声分量对语音比
γ’(m)                                 后验噪声分量对语音比
α                                      预先选择的常数
β                                      针对偏差估值预先选择的

Claims (9)

1.一种用于增强包括语音分量和噪声分量的音频信号中的语音分量的方法,包括:
把音频信号从时域变换成频域中的多个子频带;
处理音频信号的子频带,所述处理包括响应于控制,自适应地减小所述子频带中的一些子频带的增益,其中所述控制至少部分地从音频信号的噪声分量的方差的估值得到,该估值又是从音频信号中的噪声分量的幅度的以前估值的平均值得到的,其中音频信号中具有大于预定的估值偏差的最大量的估值偏差的噪声分量的幅度的估值从音频信号中的噪声分量的幅度的以前估值的平均值中被排除或减小其在音频信号中的噪声分量的幅度的以前估值的平均值中的加权;以及
把处理后的音频信号从频域变换到时域,以便提供其中语音分量被增强的音频信号。
2.一种用于得出包括语音分量和噪声分量的音频信号的噪声分量的方差的估值的方法,包括:
从音频信号中的噪声分量的幅度的以前估值的平均值得出音频信号的噪声分量的方差的所述估值,其中音频信号中具有大于预定的估值偏差的最大量的估值偏差的噪声分量的幅度的估值从音频信号中的噪声分量的幅度的以前估值的平均值中被排除或减小其在音频信号的噪声分量的幅度的以前估值的平均值中的加权。
3.按照权利要求1或权利要求2的方法,其中在音频信号中的噪声分量的幅度的以前估值的平均值中,音频信号中具有大于阈值的数值的噪声分量的幅度的估值被排除或减小其加权。
4.按照权利要求3的方法,其中在音频信号中的噪声分量的幅度的每个估值是音频信号的噪声分量的方差的估值、音频信号的语音分量的方差的估值、和音频信号的幅度的函数。
5.按照权利要求3的方法,其中所述阈值是
Figure A2008800088860003C1
的函数,其中
Figure A2008800088860003C2
是所估计的先验信噪比,
Figure A2008800088860003C3
是音频信号的噪声分量中的所估计的方差,和ψ是由所述预定的估计偏差的最大量确定的常数。
6.按照权利要求5的方法,其中在音频信号中的噪声分量的幅度的每个估值是音频信号的噪声分量的方差的估值、音频信号的语音分量的方差的估值、和音频信号的幅度的函数。
7.按照权利要求1或权利要求2的方法,其中在音频信号中的噪声分量的幅度的每个估值是音频信号的噪声分量的方差的估值、音频信号的语音分量的方差的估值、和音频信号的幅度的函数。
8.一种适于执行权利要求1到7中的任一项的方法的设备。
9.一种被存储在计算机可读介质上的用于使计算机执行权利要求1到7中的任一项的方法的计算机程序。
CN2008800088867A 2007-03-19 2008-03-14 用于语音增强的噪声方差估计器 Active CN101647061B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US91896407P 2007-03-19 2007-03-19
US60/918,964 2007-03-19
PCT/US2008/003436 WO2008115435A1 (en) 2007-03-19 2008-03-14 Noise variance estimator for speech enhancement

Publications (2)

Publication Number Publication Date
CN101647061A true CN101647061A (zh) 2010-02-10
CN101647061B CN101647061B (zh) 2012-04-11

Family

ID=39468801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008800088867A Active CN101647061B (zh) 2007-03-19 2008-03-14 用于语音增强的噪声方差估计器

Country Status (8)

Country Link
US (1) US8280731B2 (zh)
EP (2) EP2137728B1 (zh)
JP (1) JP5186510B2 (zh)
KR (1) KR101141033B1 (zh)
CN (1) CN101647061B (zh)
ES (1) ES2570961T3 (zh)
TW (1) TWI420509B (zh)
WO (1) WO2008115435A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103824563A (zh) * 2014-02-21 2014-05-28 深圳市微纳集成电路与系统应用研究院 一种基于模块复用的助听器去噪装置和方法
CN104364845A (zh) * 2012-05-01 2015-02-18 株式会社理光 处理装置、处理方法、程序、计算机可读信息记录介质以及处理系统
CN105810214A (zh) * 2014-12-31 2016-07-27 展讯通信(上海)有限公司 语音激活检测方法及装置
CN106331969A (zh) * 2015-07-01 2017-01-11 奥迪康有限公司 基于统计语音和噪声模型的有噪声语音的增强
CN110136738A (zh) * 2019-06-13 2019-08-16 苏州思必驰信息科技有限公司 噪声估计方法及装置
US20240046942A1 (en) * 2010-08-12 2024-02-08 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Resampling output signals of qmf based audio codecs

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US8521530B1 (en) * 2008-06-30 2013-08-27 Audience, Inc. System and method for enhancing a monaural audio signal
KR101581885B1 (ko) * 2009-08-26 2016-01-04 삼성전자주식회사 복소 스펙트럼 잡음 제거 장치 및 방법
US20110178800A1 (en) * 2010-01-19 2011-07-21 Lloyd Watts Distortion Measurement for Noise Suppression System
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
JP5643686B2 (ja) * 2011-03-11 2014-12-17 株式会社東芝 音声判別装置、音声判別方法および音声判別プログラム
US9173025B2 (en) 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
WO2013142695A1 (en) 2012-03-23 2013-09-26 Dolby Laboratories Licensing Corporation Method and system for bias corrected speech level determination
EP2828854B1 (en) 2012-03-23 2016-03-16 Dolby Laboratories Licensing Corporation Hierarchical active voice detection
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
US9312826B2 (en) 2013-03-13 2016-04-12 Kopin Corporation Apparatuses and methods for acoustic channel auto-balancing during multi-channel signal extraction
US10306389B2 (en) 2013-03-13 2019-05-28 Kopin Corporation Head wearable acoustic system with noise canceling microphone geometry apparatuses and methods
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
CN103559887B (zh) * 2013-11-04 2016-08-17 深港产学研基地 用于语音增强系统的背景噪声估计方法
JP6361156B2 (ja) * 2014-02-10 2018-07-25 沖電気工業株式会社 雑音推定装置、方法及びプログラム
CN103854662B (zh) * 2014-03-04 2017-03-15 中央军委装备发展部第六十三研究所 基于多域联合估计的自适应语音检测方法
US9799330B2 (en) 2014-08-28 2017-10-24 Knowles Electronics, Llc Multi-sourced noise suppression
EP3204945B1 (en) * 2014-12-12 2019-10-16 Huawei Technologies Co. Ltd. A signal processing apparatus for enhancing a voice component within a multi-channel audio signal
US11631421B2 (en) * 2015-10-18 2023-04-18 Solos Technology Limited Apparatuses and methods for enhanced speech recognition in variable environments
US20190137549A1 (en) * 2017-11-03 2019-05-09 Velodyne Lidar, Inc. Systems and methods for multi-tier centroid calculation
EP3573058B1 (en) * 2018-05-23 2021-02-24 Harman Becker Automotive Systems GmbH Dry sound and ambient sound separation
CN110164467B (zh) * 2018-12-18 2022-11-25 腾讯科技(深圳)有限公司 语音降噪的方法和装置、计算设备和计算机可读存储介质
CN111613239B (zh) * 2020-05-29 2023-09-05 北京达佳互联信息技术有限公司 音频去噪方法和装置、服务器、存储介质

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5706395A (en) * 1995-04-19 1998-01-06 Texas Instruments Incorporated Adaptive weiner filtering using a dynamic suppression factor
SE506034C2 (sv) * 1996-02-01 1997-11-03 Ericsson Telefon Ab L M Förfarande och anordning för förbättring av parametrar representerande brusigt tal
US6415253B1 (en) * 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US6289309B1 (en) * 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
US6910011B1 (en) * 1999-08-16 2005-06-21 Haman Becker Automotive Systems - Wavemakers, Inc. Noisy acoustic signal enhancement
US6757395B1 (en) * 2000-01-12 2004-06-29 Sonic Innovations, Inc. Noise reduction apparatus and method
US6804640B1 (en) * 2000-02-29 2004-10-12 Nuance Communications Signal noise reduction using magnitude-domain spectral subtraction
JP3342864B2 (ja) * 2000-09-13 2002-11-11 株式会社エントロピーソフトウェア研究所 音声の類似度検出方法及びその検出値を用いた音声認識方法、並びに、振動波の類似度検出方法及びその検出値を用いた機械の異常判定方法、並びに、画像の類似度検出方法及びその検出値を用いた画像認識方法、並びに、立体の類似度検出方法及びその検出値を用いた立体認識方法、並びに、動画像の類似度検出方法及びその検出値を用いた動画像認識方法
JP4195267B2 (ja) * 2002-03-14 2008-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、その音声認識方法及びプログラム
US20030187637A1 (en) * 2002-03-29 2003-10-02 At&T Automatic feature compensation based on decomposition of speech and noise
WO2005006808A1 (en) * 2003-07-11 2005-01-20 Cochlear Limited Method and device for noise reduction
US7133825B2 (en) * 2003-11-28 2006-11-07 Skyworks Solutions, Inc. Computationally efficient background noise suppressor for speech coding and speech recognition
CA2454296A1 (en) * 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
US7492889B2 (en) * 2004-04-23 2009-02-17 Acoustic Technologies, Inc. Noise suppression based on bark band wiener filtering and modified doblinger noise estimate
US7454332B2 (en) * 2004-06-15 2008-11-18 Microsoft Corporation Gain constrained noise suppression
US7742914B2 (en) * 2005-03-07 2010-06-22 Daniel A. Kosek Audio spectral noise reduction method and apparatus
DK1760696T3 (en) * 2005-09-03 2016-05-02 Gn Resound As Method and apparatus for improved estimation of non-stationary noise to highlight speech
WO2009035613A1 (en) * 2007-09-12 2009-03-19 Dolby Laboratories Licensing Corporation Speech enhancement with noise level estimation adjustment

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240046942A1 (en) * 2010-08-12 2024-02-08 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Resampling output signals of qmf based audio codecs
US11961531B2 (en) 2010-08-12 2024-04-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Resampling output signals of QMF based audio codec
CN104364845A (zh) * 2012-05-01 2015-02-18 株式会社理光 处理装置、处理方法、程序、计算机可读信息记录介质以及处理系统
CN104364845B (zh) * 2012-05-01 2017-03-08 株式会社理光 处理装置、处理方法、程序、计算机可读信息记录介质以及处理系统
CN103824563A (zh) * 2014-02-21 2014-05-28 深圳市微纳集成电路与系统应用研究院 一种基于模块复用的助听器去噪装置和方法
CN105810214A (zh) * 2014-12-31 2016-07-27 展讯通信(上海)有限公司 语音激活检测方法及装置
CN105810214B (zh) * 2014-12-31 2019-11-05 展讯通信(上海)有限公司 语音激活检测方法及装置
CN106331969A (zh) * 2015-07-01 2017-01-11 奥迪康有限公司 基于统计语音和噪声模型的有噪声语音的增强
CN110136738A (zh) * 2019-06-13 2019-08-16 苏州思必驰信息科技有限公司 噪声估计方法及装置

Also Published As

Publication number Publication date
US8280731B2 (en) 2012-10-02
CN101647061B (zh) 2012-04-11
EP3070714A1 (en) 2016-09-21
TWI420509B (zh) 2013-12-21
TW200844978A (en) 2008-11-16
JP2010521704A (ja) 2010-06-24
US20100100386A1 (en) 2010-04-22
EP2137728B1 (en) 2016-03-09
WO2008115435A1 (en) 2008-09-25
ES2570961T3 (es) 2016-05-23
JP5186510B2 (ja) 2013-04-17
KR101141033B1 (ko) 2012-05-03
EP3070714B1 (en) 2018-03-14
KR20090122251A (ko) 2009-11-26
EP2137728A1 (en) 2009-12-30

Similar Documents

Publication Publication Date Title
CN101647061B (zh) 用于语音增强的噪声方差估计器
CN111971743B (zh) 用于改进的实时音频处理的系统、方法和计算机可读介质
EP2130019B1 (en) Speech enhancement employing a perceptual model
Ephraim et al. Recent advancements in speech enhancement
CN100543842C (zh) 基于多统计模型和最小均方误差实现背景噪声抑制的方法
US6289309B1 (en) Noise spectrum tracking for speech enhancement
US7313518B2 (en) Noise reduction method and device using two pass filtering
Karray et al. Towards improving speech detection robustness for speech recognition in adverse conditions
US7725314B2 (en) Method and apparatus for constructing a speech filter using estimates of clean speech and noise
EP1398762A1 (en) Non-linear model for removing noise from corrupted signals
JP3154487B2 (ja) 音声認識の際の雑音のロバストネスを改善するためにスペクトル的推定を行う方法
US20040230428A1 (en) Method and apparatus for blind source separation using two sensors
CN107331386B (zh) 音频信号的端点检测方法、装置、处理系统及计算机设备
KR101892733B1 (ko) 켑스트럼 특징벡터에 기반한 음성인식 장치 및 방법
US20070055519A1 (en) Robust bandwith extension of narrowband signals
Gupta et al. Speech enhancement using MMSE estimation and spectral subtraction methods
Tufekci et al. Applied mel-frequency discrete wavelet coefficients and parallel model compensation for noise-robust speech recognition
Badiezadegan et al. A wavelet-based thresholding approach to reconstructing unreliable spectrogram components
Nidhyananthan et al. A review on speech enhancement algorithms and why to combine with environment classification
Sanam et al. Teager energy operation on wavelet packet coefficients for enhancing noisy speech using a hard thresholding function
Astudillo et al. Uncertainty propagation for speech recognition using RASTA features in highly nonstationary noisy environments
KR101005858B1 (ko) 히스토그램 등화를 이용한 음향모델 파라메터 적응 장치 및그 방법
Rank et al. Noise suppression based onwavelet packet decomposition and quantile noise estimation for robust automatic speech recognition
JP3898676B2 (ja) 音声認識装置
Courmontagne et al. A blind denoising process with applications to underwater acoustic signals

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant