CN1169788A - 谱削减噪声抑制方法 - Google Patents

谱削减噪声抑制方法 Download PDF

Info

Publication number
CN1169788A
CN1169788A CN96191661A CN96191661A CN1169788A CN 1169788 A CN1169788 A CN 1169788A CN 96191661 A CN96191661 A CN 96191661A CN 96191661 A CN96191661 A CN 96191661A CN 1169788 A CN1169788 A CN 1169788A
Authority
CN
China
Prior art keywords
omega
phi
frame
voice
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN96191661A
Other languages
English (en)
Other versions
CN1110034C (zh
Inventor
P·黑德尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Publication of CN1169788A publication Critical patent/CN1169788A/zh
Application granted granted Critical
Publication of CN1110034C publication Critical patent/CN1110034C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02168Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Noise Elimination (AREA)
  • Filters That Use Time-Delay Elements (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Analysing Materials By The Use Of Radiation (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Telephone Function (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

本发明描述了一种在基于帧的数字通信系统中的谱削减噪声抑制方法。每一帧包括预先确定的N个声音样本,因此给予每一帧N级自由度。该方法由谱削减(150)函数
Figure 96191661.3_AB_0
实现,该函数是基于非语音帧的背景噪声的功率谱密度的估计值(140)
Figure 96191661.3_AB_1
和语音帧的功率谱密度的估计值(130)
Figure 96191661.3_AB_1
的。通过一个将自由度数目减小到少于N的参数模型来近似(120)每一个语音帧。每一语音帧的功率谱密度的估计
Figure 96191661.3_AB_2
根据近似参数模型来估计(130)。

Description

谱削减噪声抑制方法
                     技术背景
该发明涉及基于帧的数字通信系统中的噪声抑制,并且尤其涉及到这种系统中的谱削减噪声抑制方法。
                    发明背景
语音信号处理中的一个普遍问题是根据语音信号中噪声测量值来增强语音信号。一种基于单通道(麦克风)测量的语音增强的方法是使用采用谱削减技术的频域滤波[1],[2]。在假设背景噪声是长时平稳的情况下(与语音相比),背景噪声的模型通常在没有语音活动的时间间隔内被估计。于是,在有语音活动的数据帧期间,该估计后的噪声模型与一种估计后的含噪声语音模型被一起使用来加强语音。对于谱削减技术这些模型传统上以功率谱密度(PSD)的形式给出,该功率谱密度用经典的FFT方法来估计。
在移动话音应用中,上述方法中没有一种在其基本形式上可以给出具有满意的听觉质量的输出信号,也就是说
1.不失真的语音输出
2.噪声电平的足够减少
3.剩余噪声没有令人讨厌的人为效果
特别的,谱削减方法被已知为当2满足时妨碍了1或当1满足时妨碍了2。另外,在多数情况下,因为该方法引入了所谓的音乐噪声,3或多或少地被妨碍。
谱削减方法的以上缺陷是已知的,并且,在文献中针对特别的有噪声语音的情况,给出了这些基本算法的一些特别的修改。然而,至今仍未能针对通常满足1-3的景况设计出一种谱削减方法。
为了突出从含噪声数据中增强语音的困难,我们注意到谱削减方法是基于使用到来数据估计模型的滤波。如果这些估计的模型与潜在的真正的模型接近,那麽这是一个好的可行方法。然而,由于语音的短时平稳性(10~40ms)以及围绕移动话音应用(8000Hz采样频率,0.5-2.0s的噪声不变期,等)的实际情况,估计模型可能与潜在的现实大大的不同,并且因此使经过滤波的输出具有低的可听质量。
EP,A1,0588526描述了一种方法,其中或者用快速傅立叶变换(FFT),或者用线形预测编码(LPC)来进行谱分析。
                    发明概要
该发明的一个目标是提供一种谱削减噪声抑制的方法,该方法不须牺牲可听质量而给出更好的噪声衰减。
该目标由权利要求1中的特征实现。
               附图简要描述
该发明以及它的进一步的目标和有利之处可以通过参考下述连同附图一起所做的描述被更好的理解。其中:
图1是适用于执行该发明的方法的谱削减噪声抑制系统的方框图。
图2是一种可能被用于图1中的系统的声音活动检测器的状态图。
图3是语音帧的两个不同功率谱密度估计图。
图4是包括语音和背景噪声的采样声音信号的时域图。
图5是依照现有技术经过谱噪声削减后的图3中的信号的时域图。
图5是依照该发明经过谱噪声削减后的图3中的信号的时域图。以及
图7是举例说明该发明方法的流程图。
              优选实施方案的详细描述
                   谱削减技术
考虑一帧被附加噪声削弱的语音
x(k)=s(k)+v(k)k=1,...,N
            (1)
其中x(k),s(k)和v(k)分别表示语音的含噪声测量值,语音和附加噪声,N表示一帧中采样的数目。
语音被假设为在帧内是平稳的,然而噪声被假设为是长时间平稳的,即在几帧期间内不变。v(k)不变的帧数由(>>1表示。另外,还假设语音活动是足够慢的,以使得在非语音活动期噪声模型可以被准确的估计。
分别用Φx(ω),Φs(ω),Φv(ω)表示测量值,语音和噪声的功率谱密度(PSD),其中
       Φx(ω)=Φs(ω)+Φv(ω)(2)
知道了Φx(ω)和Φv(ω),可以通过使用标准的谱削减方法估计出Φs(ω)和s(k)的值,参阅[2],下面简略复习一下。
令(k)表示s(k)的估计,于是,
                 (k)=F-1(H(ω)X(ω))
                                                   (3)
                  X(ω)=F(x(k))
其中F()表示一些线形变换,例如离散傅立叶变换(DFT),其中H(w)是一个在ω∈(0,2π)上的实偶函数,使得O≤H(ω))≤1,函数H(w)依赖于Φx(ω)和Φv(ω)。由于H(ω)是实值的, S ^ ( ω ) = H ( ω ) X ( ω ) 的相位等于削弱语音的相位。由于人耳对相位失真的不敏感而导致了实值H(ω)的使用。
通常Φx(ω)和Φv(ω)是不知道的,需要在H(ω)中由估计值
Figure A9619166100063
替换。由于语音的非平稳性,Φx(ω)从单独一帧数据中估计,而Φv(ω)是用在τ语音空闲帧内的数据估计的。为了简单起见,假设有一个声音活动检测器(VAD)用来区别包含噪声的语音帧和仅含噪声的帧。假定Φv(ω)是在非语音活动期通过在几个帧上平均来估计的,例如,使用 Φ ^ v ( ω ) l = ρ Φ ^ v ( ω ) l - 1 + ( 1 - ρ ) Φ - v ( ω ) - - - ( 4 )
在(4)中, 是基于上达并包括帧数l的数据的(滑动的)平均功率谱密度估计。 Φv(ω)是基于当前帧的估计。标量ρ∈(0,1)参照假定的v(k)的不变性而调整的。在τ帧上的平均值与ρ的粗略对应由下面隐式地给出, 2 1 - ρ = T - - - ( 5 )
一种适当的PSD估计在下面给出(假定没有对背景噪声谱形状的先验假设。 Φ ‾ v ( ω ) = 1 N V ( ω ) V * ( ω ) - - - ( 6 )
其中“*”表示共轭复数并且V(ω)=F(v(k)),且F(.)=FFT( )(快速傅立叶变换), Φv(ω)是周期图,(4)中的
Figure A9619166100072
是平均周期图,两者都导致带有近似方差的渐进(N>>1)无偏PSD估计 Var ( Φ ‾ v ( ω ) ) ≈ Φ v 2 ( ω )
                                (7) Var ( Φ ^ v ( ω ) ) ≈ 1 T Φ v 2 ( ω )
在语音活动期间(用Φx 2(ω)代替(7)中的Φv 2(ω)).,对于
Figure A9619166100075
一个相似于(7)的表达式成立。
在图1中以方框图的形式举例说明了适合于采用该发明方法的谱削减噪声抑制系统。从麦克风10,声音信号x(t)被传送到一个A/D转换器12.A/D转换器12以帧的形式{x(k)}将数字化的声音样本传送到变换方框14,例如,一种FFT(快速傅立叶变换)方框,其将每一帧转换成相应的频域帧{X(ω)}。经变换的帧经过方框16中的
Figure A9619166100076
滤波。这一步执行真正的谱削减。所产生的信号 被反变换方框18变换回时域。结果是其中的噪声已被抑制的帧{(k)}。该帧可被传送到一个回声消除器20,之后被传送到一个语音编码器22。已编码语音信号然后被传送到一个信道编码器及调制器用来发送(这些单元没有示出)。
方框16中
Figure A9619166100078
的实际形式依赖于在PSD估计器24中形成的估计值以及所使用的这些估计值的分析表达式。不同表达式的例子在下一部分的表2中给出。下面描述的主要部分将集中于根据输入帧{x(k)}形成估计值
Figure A96191661000710
的不同方法。
PSD估计器24由声音活动检测器(VAD)26控制,该检测器利用输入帧{x(k)}来判定该帧是包含语音(S)还是背景噪声(B)。在[5],[6]中描述了一个恰当的VAD。该VAD可被实现为一个由图2中例示的4种状态的状态机。所产生的控制信号S/B被送到PSD估计器24。当VAD26显示语音(S),状态21及状态22时,PSD估计器24将生成
Figure A9619166100081
。另一方面,当VAD26显示非语音活动(B),状态20时,PSD估计器24将生成
Figure A9619166100082
后一个估计值将被用于在下一个语音帧序列期间(连同该序列的每一个帧的 一起)生成
信号S/B也被传送到谱削减方框16。用这种方法,在语音或非语音帧期间,方框16可以采用不同的滤波器。在语音帧期间,
Figure A9619166100085
是上面提及的
Figure A9619166100086
的表达式。另一方面,在非语音帧期间 可以是一个常量H(O≤H≤1),该常量将背景声音电平降低到与经过噪声抑制后保留在语音帧中的背景声音电平一样的电平。通过这种方法,在语音和非语音帧期间接收到的噪声电平将会一样。
在(3)中的输出信号(k)被计算之前,在一个优选实施方案中,
Figure A9619166100088
随后可以根据下式被滤波
    Hp(ω)max(0.1,W(ω) H(ω))    ω             (8)表1:后滤波函数。
     状态(st)    H(ω)              说明
        0       1(ω))           
Figure A9619166100089
        20      0.316(ω)         静音-10dB
        21        警戒滤波(-3dB)
        22     
其中 H(ω)根据表1计算。标量0.1表明噪声低端是-20dB。
此外,信号S/B也被传送到语音编码器22。这使得能够对语音和背景声音采用不同编码。
PSD误差分析
明显的是与无噪声语音信号s(k)相比,强加在s(k)和v(k)上的平稳性假设对估计值(k)的准确程度产生限制。在这一部分,介绍一种谱削减方法的分析技术。它基于分别对PSD估计值
Figure A96191661000812
Figure A96191661000813
(见下面(11))的一阶近似,并结合引入偏差的准确性的近似(零阶近似)表达式。明显的,由于所使用的方法(传输函数H(ω)的选择)以及所涉及的PSD估计值的准确性,下面导出了估计信号值(k)的频域误差的表达式。由于人耳对相位失真的不敏感性,考虑由下式定义的PSD误差是适当的 Φ ‾ s ( ω ) = Φ ^ s ( ω ) - Φ s ( ω ) - - - ( 9 ) 其中 Φ ^ s ( ω ) = H 2 ^ ( ω ) Φ x ( ω )
注意到从建构上 Φs(ω)是描述已滤波的含噪声测量值幅度和语音信号幅度之间差值(在频域上)的误差项。
因此 Φs(ω)可以采用正值和负值,并且不是任何时域信号的PSD。在(10)中,
Figure A9619166100093
表示基于
Figure A9619166100094
的H(w)的估计值。在这一节,分析被局限于功率削减(PS)的情况,[2]。对于
Figure A9619166100096
的其他选择可以以同样的方法分析(见附录A-C)。另外还介绍和分析了对
Figure A9619166100097
的新颖的选择(见附录D-G)。表2中给出了对H(ω)的不同的适当的选择。
表2:不同谱削减方法的例子:功率削减(PS)(标准PS,
Figure A9619166100098
对于δ=1),幅度削减(MS),基于维纳滤波(WF)、最大相似性方法(ML)及相应于该发明的一个优选实施方案的改进功率削减的谱削减方法。 H ^ ( ω ) H ^ δPS ( ω ) = 1 - δ Φ ^ v ( ω ) / Φ ^ x ( ω ) H ^ MS ( ω ) = 1 - Φ ^ v ( ω ) / Φ ^ x ( ω ) H ^ WF ( ω ) = H PS 2 ^ ( ω ) H ^ ML ( ω ) = 1 2 ( 1 + H ^ PS ( ω ) ) H ^ IPS ( ω ) = G ^ ( ω ) H ^ PS ( ω )
通过定义,H(ω)处于0≤H(ω)≤1,对于相应的表2中的估计值它并不必成立,因而在实际应用中,半波或全波修正[1]被使用。
为了进行分析,假设帧长度N是足够大的(N>>1)使得
Figure A9619166100101
是近似无偏的。引入一阶偏差 Φ ^ x ( ω ) = Φ x ( ω ) + Δ x ( ω ) - - - ( 11 ) Φ ^ v ( ω ) = Φ v ( ω ) + Δ v ( ω )
其中Δx(ω)和Δv(ω)是零均值随机变量,使得
E[Δx(ω)/Φx(ω)]2<<1和E[Δv(ω)/Φv(ω)]2<<1。这里以及后文中符号E[。]表示统计期望值。另外,与帧长度相比,如果噪声的相关时间较短,E[( Φv(ω)lv(ω))( Φv(ω)kv(ω))]≈0对于l≠k,其中
Φv(ω)l是基于第l帧中数据的估计值。这意味着Δx(ω)和Δv(ω)是近似独立的。否则,如果噪声是强相关的,假设Φv(ω)具有有限(<<N)数目的在频率ω1,...,ωn上的(强)峰值。那麽对于ω≠ωjj=1,...,n并且l≠k成立E[( Φv(ω)lv(ω))( Φv(ω)kv(ω))]≈0,并且对于ω≠ωjj=1,...,n,该分析仍然成立。
方程(II)意味着渐进(N>>l)无偏PSD估计值,例如周期图或平均周期图被使用。然而,使用渐进无偏PSD估计值,例如Blackman-Turkey PSD估计值,如果用下面两个方程式代替(11),类似的分析也成立。 Φ ^ x ( ω ) = Φ x ( ω ) + Δ x ( ω ) + B x ( ω ) Φ ^ v ( ω ) = Φ v - ( ω ) + Δ v ( ω ) + B v ( ω )
其中,Bx(ω)和Bv(ω)分别是描述PSD估计值中渐进偏差的决定项。
另外,方程(11)意味着(9)中的 (在一阶近似中)是一个Δx(ω)和Δv(ω)的线形函数。下面,根据误差偏差( )和误差方差(Var( ))考虑了不同方法的性能。在下一部分中将给出的完全的推导。表1中其它谱削减方法的推导在附录A-G中给出。
(
Figure A9619166100112
当δ=1)分析
从将(10)和表2中的
Figure A9619166100113
代入到(9)。利用泰勒级数展开(1+x)-1 1-x并忽略高于一阶的偏差,给出一个简洁计算 Φ ‾ s ( ω ) ≈ Φ v ( ω ) Φ x ( ω ) Δ x ( ω ) - Δ v ( ω ) - - - ( 12 )
这里″ ″被用来表示近似相等,其中只有起决定作用的项被保留。量Δx(ω)和Δv(ω)是零均值随机变量,因而 E [ Φ ‾ s ( ω ) ] ( ω ) ≈ 0 - - - ( 13 ) Var ( Φ ‾ s ( ω ) ) ≅ Φ v 2 ( ω ) Φ x 2 ( ω ) Var ( Φ ^ x ( ω ) ) + Var ( Φ ^ v ( ω ) ) - - - ( 14 )
为了继续,我们使用通常的结果,对于一个渐进无偏谱估计 参阅(7) Var ( Φ ^ ( ω ) ) ≈ γ ( ω ) Φ 2 ( ω ) - - - ( 15 )
对于某些(可能频域相关)变量γ(ω)。例如,相应于γ(ω)≈1+(sinωN/Nsinω)2的周期图,对于N>>1。它减小到γ≈1结合(14)和(15)给出 Var ( Φ ‾ s ( ω ) ) ≈ γ Φ v 2 ( ω ) - - - ( 16 )
对于
Figure A96191661001112
的结果
对于
Figure A96191661001113
的相似的计算得出(细节在附录A中给出): E [ Φ ‾ x ( ω ) ] ≈ 2 Φ v ( ω ) ( 1 - Φ x ( ω ) Φ v ( ω ) ) Var ( Φ - s ( ω ) ) ≈ ( 1 - 1 + Φ s ( ω ) Φ v ( ω ) ) 2 γ Φ v 2 ( ω )
对于 的结果
对于
Figure A9619166100124
的计算给出(细节在附录B中给出) E [ Φ ‾ s ( ω ) ] ≈ - ( 1 - Φ v ( ω ) Φ x ( ω ) ) Φ v ( ω ) Var ( Φ ‾ s ( ω ) ) ≈ 4 ( 1 - Φ v ( ω ) Φ x ( ω ) ) 2 γ Φ v 2 ( ω )
对于
Figure A9619166100127
的结果
对于 的计算给出(细节在附录C中): E [ Φ ‾ s ( ω ) ] ≈ 1 2 Φ v ( ω ) - 1 4 ( Φ x ( ω ) - Φ s ( ω ) ) 2 Var ( Φ ‾ s ( ω ) ) ≈ 1 16 ( 1 + Φ x ( ω ) Φ s ( ω ) ) 2 γ Φ v 2 ( ω )
对于
Figure A96191661001211
的结果
Figure A96191661001212
的计算给出(
Figure A96191661001213
由附录D中导出并在附录E中被分析): E [ Φ ‾ s ( ω ) ] ≈ ( G ‾ ( ω ) - 1 ) Φ s ( ω ) Var ( Φ - s ( ω ) ) ≈ G 2 - ( ω ) × ( G ‾ ( ω ) + γ Φ v ( ω ) Φ v ( ω ) + 2 Φ x ( ω ) Φ s 2 ( ω ) + γ Φ v 2 ( ω ) ) 2 γ Φ v 2 ( ω ) 共同特征
对于所考虑的方法,注意到误差偏差仅依赖于对
Figure A9619166100131
的选择,而误差方差依赖于
Figure A9619166100132
的选择和所使用的PSD估计值的方差。例如,对于Φv(ω)的平均周期图估计,根据(7)有γv≈1/τ。另一方面,用单个帧周期图来估计Φx(ω),有γx≈1。因此,对于τ>>1,在上面出现的方差公式中的,γ=γxv中的起决定作用的项是γx,因此,主要误差来源是基于含噪声语音的单帧PSD估计。
在上面论述之后,接着为了改进谱削减技术,最好是降低γx的值(选择一个适当的PSD估计值,它是一种有尽可能好性能的近似无偏估计值)并选择一种“好”的谱削减技术(选择 )。该发明的一个关键思想是可以利用声道。的物理模型(将自由度的值从N(一帧中的采样数)减小到一个小于N的值将γx的值减小。众所周知的是s(k)可以被一种自回归(AR)模型(典型地阶数p≈10)准确地描述。这是下两个部分的主题。
另外, 的准确性(并且,暗含地,
Figure A9619166100135
的准确性)依赖于的选取。
Figure A9619166100137
的新的、优选的选择在附录D-G中导出并被分析。
语音AR模拟
在该发明的一个优选实施方案中,s(k)被模拟为一个自回归(AR)过程。 s ( k ) = 1 A ( q - 1 ) ω ( k ) k = 1 , . . . , N - - - ( 17 )
其中A(q-1)是一个首项系数为一的(第一项系数等于一)按后移操作方式的p阶多项式(q-1ω(k)=ω(k-1),等)
        A(q-1)=1+α1q-1+…+αpq-p              (18)
ω(k)是方差为σω 2的零均值白噪声。起初,仅考虑AR模型似乎受到限制。然而,用AR模型来做语音模拟是由声道的物理模型和,在此更重要的是,含噪声语音对估计模型准确性的物理限制两方面激发的。
在语音信号处理中,帧长度N可能没有大到足以为了减小方差并且仍然保持PSD估计值的无偏而在帧内允许平均技术的应用。因此,为了减小例如在公式(12)中的第一项的影响,声道的物理模型必须被使用。AR结构被应用在s(k)上,具体地 Φ x ( ω ) = σ w 2 | A ( e iw ) | 2 + Φ v ( ω ) - - - ( 19 )
另外,Φv(ω)可以用一个参数模型描述 Φ v ( ω ) = σ v 2 | B ( e iw ) | 2 | C ( e iw ) | 2 - - - ( 20 )
其中B(q-1),and C(q-1)分别是q阶和r阶多项式,与(18)中A(q-1)的定义相似。为了简单起见,(20)中的一个参数噪声模型被用于下面的讨论中,其中参数模型的阶数是被估计的。然而,可以理解的是其它背景噪声模型也是可能的。结合(19)、(20),可以示出 x ( k ) = D ( q - 1 ) A ( q - 1 ) C ( q - 1 ) η ( k ) k = 1 , . . . , N - - - ( 21 ) 其中η(k)方差为ση 2的零均值白噪声,D(q-1)由下面的恒等式给出 σ η 2 | D ( e iw ) | 2 = σ w 2 | C ( e iw ) | 2 + σ v 2 | B ( e iw ) | 2 | A ( e iw ) | 2 - - - ( 22 )
语音参数估计
当没有附加噪声出现时,(17)-(18)中的参数估计是简单的。注意到,在没有噪声的情况下,(22)右边的第二项消失,并且经过零极点对消后(21)减化成(17)。
这里,探索一种基于自相关方法的PSD估计值。这种做法的动机有4条。
●自相关方法是众所周知的。尤其是,估计的参数是最小相位的,它保证所产生滤波器的稳定性。
●使用Levinson算法,该方法就容易被实现,并且具有低的计算复杂性。
●一个最佳的程序包括一个非线性优化,明确地要求一些初始化程序。自相关方法一个也不需要。
●从实际的观点看,如果能将同样的估计程序分别用于削弱的
语音和纯语音(在可以得到时),将是有利的。换句话说,该估计方法
应独立于操作的实际情景,即独立于语音与噪声的比例。
众所周知的是,一个ARMA模型(例如(21))可以被一个无限阶AR过程模拟。当可得到有限数目的数据来进行参数估计时,无限阶AR模型必须被截断,这里使用的模型是: x ( k ) = 1 F ( q - 1 ) η ( k ) - - - ( 23 )
其中F(q-1)是 p阶的。适当的模型阶数遵循下面的讨论。如果它们的PSD是近似相等的,近似模型(23)接近于含噪声的语音过程,即 | D ( e iw - ) | 2 | A ( e iw ) | 2 | C ( e iw ) | 2 ≈ 1 | F ( e iw ) | 2 - - - ( 24 )
基于声道的物理模拟,通常认为p=deg(A(q-1))=10。根据(24)可得到 p=deg(F(q-1))>>deg(A(q-1))+deg(C(q-1))=p+γ,其中p+γ粗略的等于Φx(ω)中的峰值的数目。另一方面,使用AR模型模拟含噪声窄带过程需要 p<<N,来保证可信的PSD估计。概括为:
            p+τ<< p<<N
一种适当的最优准则由 p~
Figure A9619166100153
给定。根据上面的讨论,当N>>100时,可以期望参数方法是有成果的。也可从(22)得出结论噪声谱越平,允许越小的N值。即使p不足够大,也可期望参数法给出合理的结果。其原因是,根据误差方差,参数法显著地给出比基于周期图的方法(在典型的例子中,方差之间的比例等于1∶8;见下面)更准确的PSD估计,它显著地将减小输出中的人为效果如声调噪声。
参数PSD估计值被总结如下。为了计算AR参数
Figure A9619166100154
及(23)中的噪声方差 ,使用自相关方法及高阶AR模型(模型阶数 p>>p和p~
Figure A9619166100156
)。根据下列方程(25),由估计的AR模型计算(在相应于(3)中的X(ω)的频带的N个离散点上)计算 Φ ^ x ( ω ) = σ ^ η 2 | F ^ ( e iw ) | 2 - - - ( 25 )
于是,为了加强语音s(k),使用了表2中考虑过的一种谱削减技术
下面在假设噪声是白噪声的情况下,采用参数PSD估计值(对于考虑过的非参数方法类似于(7))的方差的一个低阶近似式,和s(k)的傅立叶级数展开。于是
Figure A9619166100161
的渐进(对于数据的数目(N>>1)及模型阶数( p>>1))方差由下式给出: Var ( Φ ^ x ( ω ) ) ≈ 2 p ‾ N Φ x 2 ( ω ) - - - ( 26 )
上述表达式对于纯(高阶)AR过程也是正确的。根据(26),它直接地遵循γx≈2 p/N,根据前面提及的最优准则,其近似地等于γx 2/N,它应该和对于基于周期图的PSD估计值成立的γx≈1相比较。
作为一个例子,在移动免提通话环境中,可以假设噪声0.5s(以8000Hz采样,帧长度N=256)不变,其给定τ≈15并由此得γv 1/15。此外,对于 P - = N 我们有γx=1/8
图3说明了相应于该发明,对于一个典型的语音帧,周期图PSD估计和参数PSD估计之间的差别。在此例中,N=256(256个样本)并采用了具有10个参数的AR模型。注意到参数PSD估计
Figure A9619166100166
要比对应的周期图PSD估计平滑的多。
图4图示说明了5秒钟的在背景噪声下的语音的采样声音信号。图5图示说明了经过根据优先考虑高听觉质量的周期图PSD估计作谱削减之后的图4的信号。图6图示说明了根据该发明作基于参数PSD估计的谱削减之后的图4的信号。
图5和图6的比较表明通过相应于该发明的方法得到了显著的噪声抑制(大约10dB量级)(从上面结合图1的描述应当注意到,语音和非语音帧中减小的噪声电平是一样的。)另一个在图6中并不明显的差别是所产生的语音信号的失真程度比图5中的语音信号小。
对所有考虑过的方法,以PSD误差的偏差和方差表示的理论结果总结在表3中。
排序不同的方法是可能的。至少可以辨别两个怎样选择一个适当的方法的标准。
首先,对于低瞬时SNR,该方法最好具有低的方差以避免(k)中的声调人为因素。要做到这点偏差不增大是不可能,并且为了抑制(非放大)具有低瞬时SNR的频率域,该偏差项应该是负的(这样,使(9)中的
Figure A9619166100171
趋于0)。实现这一标准的侯选者分别是,MS,IPS和WF。
第二、对于高瞬时SNR,最好有低度的语音失真。此外,如果偏差项是起决定作用的,它应该是正的。ML, δPS,PS,IPS和(可能)WF满足第一条声明。只有对ML和WF,偏差项在MSE表达式中起决定作用,其中偏差项的符号对于ML是正的,对于WF是负的.因此ML,δPS,PS和IPS满足这一标准。
算法特点
在这部分,相应于该发明的谱削减方法的优选实施方案将参考图7来描述。
1.输入:x={x(k)|k=1,....N)。
2.设计变量
表3:对功率削减(PS)  (标准PS,
Figure A9619166100172
对δ=1)、幅度削减(MS)、改进的功率削减(IPS)及基于维纳滤波(WF)和最大似然性(ML)方法的谱削减方法的偏差和方差表达式。瞬时SNR由SNR=Φs(ω)/Φv(ω)定义。对于PS,最佳削减因子 δ由(58)给定,对于IPS,
Figure A9619166100173
由(45)给定,其中Φx(ω)和Φv(ω)分别由
Figure A9619166100174
代替。             偏差                                   方差
    E[ Φs(ω)]/Φv(ω)             Var( Φs(ω))/γΦv 2(ω)δPS           1-δ                                δ2MS     - 2 ( 1 + SNR - 1 )        ( 1 + SNR - 1 ) 2 IPS    - γSNR γ + SNR 2        ( SNR 2 SNR 2 + γ ) 2 ( 1 + 2 γ 1 + SNR SNR 2 + γ ) 2 WF     - SNR SNR + 1        4 ( SNR SNR + 1 ) 2 ML     1 2 - 1 4 ( SNR + 1 - SNR ) 2        1 16 ( 1 + 1 + 1 SNR ) 2
p  有噪声语音模型阶数
Figure A9619166100181
的滑动平均修正因子。
3.对每一帧输入数据做:
(a)语音检测(步骤110)
如果VAD输出等于st=21或st=22,变量Speech被设为真,如果st=20,Speech被设为假。如果VAD输出等于st=O,那麽该算法被重新初始化。
(b)谱估计
如果Speech为真,就估计
Figure A9619166100182
i.对已调整的零均值输入数据{x(k)}施用自相关方法估计全极点模型(23)的系数(多项式系数
Figure A9619166100183
及方差 )(步骤120)。
ii.根据(25)计算
Figure A9619166100185
(25)(步骤130)。
否则估计
Figure A9619166100186
(步骤140)
i.使用(4)更改背景噪声谱模型 ,其中, Φv(ω)是基于已调整的零均值且经过汉宁汉明加窗的输入数据x的周期图。由于这里使用了经加窗的数据,但是 是基于没有加窗的数据,
Figure A9619166100189
必须被适当的归一化。
Figure A96191661001810
的一个适当的初始值由乘以例如,一个比例因子0.25的第一帧的周期图的平均(在频率范围上)来设定,这意味着,一个先验白噪声假设被初始地强加在背景噪声上。
(c)谱削减(步骤150)
i.根据表1计算频率加权函数
Figure A96191661001811
ii.可能的后滤波,静音和噪声低端调整。
iii.利用(3)和零均值调整数据{x(k)}计算输出。数据{x(k)}可以是加窗的或不加窗的,这依赖于实际帧的重叠而定(矩形窗被用于非重叠帧,而汉明窗的使用带有50%的重叠)。
根据上面的讨论,很明显该发明在不牺牲听觉质量的情况下产生了显著的噪声削减。这一改进可以由用于语音和非语音帧的独立功率谱估计方法来解释。这些方法利用语音和非语音(背景噪声)信号的不同特点来减小各自功率谱估计的方差。
●对于非语音帧, 由一种非参数功率谱估计方法来估计,例如一种基于FFT的周期图估计,它使用每一帧所有N个采样值。通过保留非语音帧的所有N级自由度,可以模拟更多种类的背景噪声。由于背景噪声被假设为在几个帧上保持不变,可以通过在几个非语音帧上平均功率谱估计来获得 的方差的减小。
●对于语音帧, 是由基于语音的一种参数模型的参数功率谱估计方法来估计的。在这种情况下,语音的特殊特性被用来减小语音帧的自由度(到参数模型中的参数个数)的数目。基于更少参数的模型减小了功率谱估计的方差。这种方法对语音帧是优选的,因为语音被假设为仅在一帧上是不变的。
在该技术领域中熟练的人士会理解,在不偏离由附加的权利要求定义的(该发明的)精神和范围的情况下,可以对该发明做各种的修正和改变。
                 附录A
的分析
并行对
Figure A9619166100202
的计算给出 Φ ‾ s ( ω ) = ( 1 - Φ ^ v ( ω ) Φ ^ x ( ω ) ) 2 Φ x ( ω ) - Φ s ( ω ) - - - ( 27 ) ≈ ( 1 - Φ x ( ω ) Φ x ( ω ) ) ( 2 Φ v ( ω ) - Φ v ( ω ) Φ x ( ω ) Δ x ( ω ) + Δ v ( ω ) )
其中,在第二个相等处,泰勒级数展开 ( 1 + x ) ≈ 1 + x / 2 也被使用。根据(27), 的期望值是非零的,由下式给定。 E [ Φ ‾ s ( ω ) ] ≈ 2 Φ v ( ω ) ( 1 - Φ x ( ω ) Φ v ( ω ) ) - - - ( 28 )
此外 Var ( Φ ‾ s ( ω ) ) ≈ ( 1 - Φ x ( ω ) Φ v ( ω ) ) 2 ( Φ v 2 ( ω ) Φ x 2 ( ω ) Var ( Φ ^ x ( ω ) ) + Var ( Φ ^ v ( ω ) ) ) - - - ( 29 )
结合(29)和(15) Var ( Φ ‾ s ( ω ) ) ≈ ( 1 - 1 + Φ s ( ω ) Φ v ( ω ) ) 2 γ Φ v 2 ( ω ) - - - ( 30 )
                   附录B
的分析
在该附录里,PSD误差被得出以用于基于维纳滤波[12]的语音增强。在这种情况下,H(W)由下式给出, H ^ WF ( ω ) = Φ ^ s ( ω ) Φ ^ s ( ω ) + Φ ^ v ( ω ) = H ^ PS 2 - - - ( 31 )
这里, 是Φs(ω)的估计值,并且,第二个相等处遵循 Φ ^ s ( ω ) = Φ ^ x ( ω ) - Φ ^ v ( ω ) 注意到 H ‾ WF 2 ( ω ) ≈ Φ s ( ω ) Φ x 2 ( ω ) ( Φ s ( ω ) + 2 { Φ v ( ω ) Φ x ( ω ) Δ x ( ω ) - Δ v ( ω ) } ) - - - ( 32 )
一种简单的计算给出 Φ ‾ s ( ω ) ≈ ( 1 - Φ v ( ω ) Φ x ( ω ) ) × ( - Φ v ( ω ) + 2 { Φ v ( ω ) Φ x ( ω ) Δ x ( ω ) - Δ v ( ω ) } ) - - - ( 33 )
根据(33),它遵循 E [ Φ ‾ s ( ω ) ] ≈ - ( 1 - Φ v ( ω ) Φ x ( ω ) ) Φ v ( ω ) - - - ( 34 ) Var ( Φ ‾ s ( ω ) ) ≈ 4 ( 1 - Φ v ( ω ) Φ x ( ω ) ) 2 γ Φ v 2 ( ω ) - - - ( 35 )
                 附录C
的分析
用一种未知幅度和相位的决定性波形来描述语音,一种最大相似(ML)谱削减方法由下式定义。 H ‾ ML ( ω ) = 1 2 ( 1 + 1 - Φ ^ v ( ω ) Φ ^ v ( ω ) ) = 1 2 ( 1 + H ^ PS ( ω ) ) - - - ( 36 )
将(11)代入(36),直接计算给出: H - ML ( ω ) ≈ 1 2 ( 1 + Φ s ( ω ) Φ x ( ω ) ( 1 - Δ v ( ω ) Φ s ( ω ) + Φ v ( ω ) Φ x ( ω ) Δ x ( ω ) Φ s ( ω ) ) 1 2 ) ≈ 1 2 ( 1 + Φ s ( ω ) Φ x ( ω ) ) + 1 4 1 Φ x ( ω ) Φ s ( ω ) ( Φ v ( ω ) Φ x ( ω ) Δ x ( ω ) - Δ v ( ω ) ) - - - ( 37 )
其中,在第一等式处泰勒级数(l+x)-1
Figure A9619166100225
1-x展开被使用,在第二等式处,泰勒级数展开 1 + x ≈ 1 + 1 / 2 。现在,直接计算PSD误差。将(37)代入(9)-(10),忽略在
Figure A9619166100227
展开中的高于第一阶的偏差项)给出 Φ ‾ s ( ω ) ≈ 1 4 ( 1 + Φ s ( ω ) Φ x ( ω ) ) 2 Φ x ( ω ) - Φ s ( ω ) + 1 4 ( 1 + Φ x ( ω ) Φ s ( ω ) ) ( Φ v ( ω ) Φ x ( ω ) Δ x ( ω ) - Δ v ( ω ) ) - - - ( 38 )
根据(38),它遵循 E [ Φ ‾ s ( ω ) ] ≈ 1 4 ( 1 + Φ s ( ω ) Φ x ( ω ) ) 2 Φ x ( ω ) - Φ s ( ω ) = 1 2 Φ v ( ω ) - 1 4 ( Φ x ( ω ) - Φ s ( ω ) ) 2
其中,采用第二等式(2),此外 Var ( Φ ‾ s ( ω ) ) ≈ 1 16 ( 1 + Φ x ( ω ) Φ s ( ω ) ) 2 γ Φ v 2 ( ω ) - - - ( 40 )
                 附录D
Figure A9619166100231
的推导
Figure A9619166100233
精确得知,通过HPS(ω),PSD误差平方被最小化。HPS(ω)是HPS(ω)
Figure A9619166100234
的被Φx(ω)和Φv(ω)分别替换所得。这种事实直接地遵循(9)和(10),即 Φ ~ s ( ω ) = [ H 2 ( ω ) Φ x ( ω ) - Φ s ( ω ) ] 2 = 0 , 其中(2)被用于最后等式。注意到在这种情况下,H(ω)是一个决定性量,而
Figure A9619166100237
是一个随机量。考虑到PSD估计的不确定性,这种事实,通常来说,不再成立。在本节,一种与数据无关的加权函数被得出以改进 的性能。为此,考虑到如下形式的一种方差表达式(对于PSξ=1,对于MS及 γ = γ x + γ v , ξ = ( 1 - 1 + SNR ) 2 ) Var ( Φ ‾ s ( ω ) ) ≈ ξγ Φ v 2 ( ω ) - - - ( 41 )
变量γ仅依赖于所使用的PSD估计方法并不能被传递函数
Figure A96191661002311
的选取所影响。然而,第一个因子ξ,却依赖于
Figure A96191661002312
的选取。在本节,探索了一种数据无关加权函数 G(ω),使得 H ^ ( ω ) = G - ( ω ) H PS ^ ( ω ) 最小化了平方后的PSD误差的期望值。即 G ‾ ( ω ) = ar g ‾ min G ( ω ) E [ Φ ‾ s ( ω ) ] 2
                                     (42) Φ ‾ s ( ω ) = G ( ω ) H ^ PS 2 ( ω ) Φ s ( ω ) - Φ s ( ω )
在(42)中,G(ω)是一个一般加权函数。在我们继续之前,注意到如果加权函数G(ω)被允许是依赖于数据的,那麽将产生一类通常的谱削减技术,特殊情况下它包括许多通常使用的方法,例如,使用 G ( ω ) = H MS 2 ^ ( ω ) / H PS 2 ^ ( ω ) 的幅度削减。然而,这种观察几乎没有意义,因为具有数据相关的G(ω)的(42)的优化十分依赖于G(ω)的形式。因此,使用数据相关的加权函数的方法应该被逐个加以分析,因为,在这种情况下,没有通用的结果可以被得到。
为了最小化(42),一种简单的计算给出 Φ ‾ s ( ω ) ≈ ( G ( ω ) - 1 ) Φ s ( ω ) + G ( ω ) ( Φ v ( ω ) Φ x ( ω ) Δ x ( ω ) - Δ v ( ω ) ) - - - ( 43 )
取PSD误差的  平方值的期望并使用(41)给出 E [ Φ ‾ s ( ω ) ] 2 ≈ ( G ( ω ) - 1 ) 2 Φ s 2 ( ω ) + G 2 ( ω ) γ Φ v 2 ( ω ) - - - ( 44 )
方程(4)是G(ω)的二次方程并可以被解析地最小化,该结果给出 G ‾ ( ω ) = Φ s 2 ( ω ) Φ s 2 ( ω ) + γ Φ v 2 ( ω ) = 1 1 + γ ( Φ v ( ω ) Φ x ( ω ) - Φ v ( ω ) ) 2 - - - ( 45 )
其中,在第二等式处(2)被应用。并不奇怪, G(ω)依赖于(未知的)PSD及变量γ。正如上面注意到的,无法用相应的估计值直接地替代(45)中的未知的PSD,并宣称所产生的修正的PS方法是最优的,即是最小化(42)的。然而,可以期望,在设计过程中,考虑到
Figure A9619166100244
的不确定性,修正后的PS方法将比标准PS好。由于上述的考虑,该修正后的PS方法由改进的功率削减(IPS)表示。在IPS方法在附录E中被分析之前,先进行下面的注释。
对于高的瞬时SNR(对于使得Φs(ω)/Φv(ω))》1的ω)根据(45),得到 G(ω)
Figure A9619166100245
1并且,由于在这种情况下,归一化的误差方差
Figure A9619166100246
,见(41)是小的,可以认为IPS的性能是(非常)接近标准PS的性能的。另一方面,对于低瞬时SNR(对于ω使得γΦv 2(ω)>>Φs 2(ω), G(ω)≈Φs 2(ω)/(γΦv 2(ω))l导出,参阅(43) E [ Φ ‾ s ( ω ) ] ≈ - Φ s ( ω ) - - - ( 46 ) Var ( Φ ‾ s ( ω ) ) ≈ Φ s 4 ( ω ) γ Φ v 2 ( ω ) - - - ( 47 )
然而,在低的SNR时,不能认为当(45)中的 G(ω)被
Figure A96191661002411
替换,即将(45)中的Φx(ω)和Φv(ω)用它们的估计值
Figure A96191661002412
分别替换时,(46)-(47)甚至是近似正确的。
               附录E
Figure A9619166100251
的分析
在该附录中,分析了IPS方法。考虑到(45),让
Figure A9619166100252
由(45)定义,并且使其中的Φx(ω)和Φv(ω)由相应的已估计的量替换。
它可以被表示为 Φ ‾ s ( ω ) ≈ ( G ‾ ( ω ) - 1 ) Φ s ( ω ) + G ‾ ( ω ) ( Φ v ( ω ) Φ x ( ω ) Δ x ( ω ) - Δ v ( ω ) ) × ( G ‾ ( ω ) + γ Φ v ( ω ) Φ v ( ω ) + 2 Φ x ( ω ) Φ s 2 ( ω ) + γ Φ v 2 ( ω ) ) - - - ( 48 )
它可以与(43)比较。具体地, E [ Φ ‾ s ( ω ) ] ≈ ( G ‾ ( ω ) - 1 ) Φ s ( ω ) - - - ( 49 ) 并且 Var ( Φ ‾ s ( ω ) ) ≈ G ‾ 2 ( ω ) × ( G ‾ ( ω ) + γ Φ v ( ω ) Φ v ( ω ) + 2 Φ x ( ω ) Φ s 2 ( ω ) + γ Φ v 2 ( ω ) ) 2 γ Φ v 2 ( ω ) - - - ( 50 )
对于高SNR,使得Φs(ω)/Φv(ω)>>1,可以对(49)-(50)。有一些深入理解。在这种情况下,可以表示 E [ Φ ‾ s ( ω ) ] ≈ 0 - - - ( 51 ) 并且 Var ( Φ ‾ s ( ω ) ) ≈ ( 1 + 4 γ Φ v ( ω ) Φ s ( ω ) ) γ Φ v 2 ( ω ) - - - ( 52 )
在(51)和(52)中忽略的项是O((Φv(ω)Φs(ω))2)阶的,因此,正如已声明的,在高SNR时,IPS的性能相似于PS的性能。另一方面,对于低SNR(对于ω使得Φs 2(ω/(γΦv 2(ω)<<1)), G - ( ω ) ≈ Φ s 2 ( ω ) / ( γ Φ v 2 ( ω ) ) ,并且 E [ Φ ‾ s ( ω ) ] ≈ - Φ s ( ω ) - - - ( 53 ) Var ( Φ ‾ s ( ω ) ) ≈ 9 Φ s 4 ( ω ) γ Φ v 2 ( ω ) - - - ( 54 )
将(53)-(54)和相应的PS结果(13)和(16)比较,可以看出,对于低的瞬时SNR,通过使(9)中的
Figure A9619166100262
趋于0,与标准PS方法相比,IPS法显著地降低了
Figure A9619166100263
的方差。具体地,IPS和PS方差之间的比值是(
Figure A9619166100264
)阶的。也可以比较(53)-(54)和近似表达式(47),注意到它们之间的比值等于9。
                     附录F
有最佳削减因子 δ的PS
功率谱削减方法的一个经常考虑到的修正是考虑 H ^ δPS ( ω ) = 1 - δ ( ω ) Φ ^ v ( ω ) Φ ^ x ( ω ) - - - ( 55 )
其中δ(ω)是一个可能地依赖于频率的函数。特别的,对于一些常数δ>1,在δ(ω)=δ下,该方法常常被看作为具有过削减的功率削减。这一修正显著地降低了噪声电平并减小了声调的人为效果。另外,它显著地扭曲了语音,这使得该修正对于高质量语音增强变得无用。当δ>>1,这一事实可以容易地由(55)看出。因此,对于中等和低的语音-噪声比(在ω-域),平方根符号下的表达式常常是负的并且因此矫正设备将把它设为0(半波矫正),这意味着只有在SNR高的的频率段将会在(3)中的输出信号中(k)出现。由于非线性矫正设备的原因,现在的分析技术不能直接地使用于这种情况,并由于δ>1导致具有较差的听觉质量的输出,该修正不被进一步研究。
然而,一个有趣的情形是当δ(ω)≤1的情形,这可以从下面渐进的讨论中看出。如同前面陈述的,当Φx(ω)和Φv(ω)是精确已知的,在最小化平方PSD误差情形下当δ(ω)=1时,(55)是最佳的。另一方面,当Φx(ω)和Φv(ω)是完全未知时,即得不到它们的估计值,所能作的是通过噪声测量值本身来估计语音,即(k)=x(k)相应于在δ=0下(55)的使用。由于上面两个极端,可以期望,当未知的Φx(ω)和Φv(ω)分别由
Figure A9619166100272
替换时,对于一些在间隔0<δ(ω)<1间的δ(ω),
Figure A9619166100273
的误差被最小化。
另外,在经验值中,相似于PSD误差,平均的谱失真改进方法就MS的削减因子做实验性的研究。在几个实验基础上,得出结论:最佳的削减因子最好地应该在从0.5到0.9的间隔内。
具体地,在这种情况下计算PSD误差,给出, Φ ‾ s ( ω ) ≈ ( 1 - δ ( ω ) ) Φ v ( ω ) + δ ( ω ) ( Φ v ( ω ) Φ x ( ω ) Δ x ( ω ) - Δ v ( ω ) ) - - - ( 56 )
取得平方PSD误差的期望,给出 E [ Φ ‾ s ( ω ) ] 2 ≈ ( 1 - δ ( ω ) ) 2 Φ v 2 ( ω ) + δ 2 γ Φ v 2 ( ω ) - - - ( 57 )
其中使用了(41)。公式(57)是δ(ω)的二次式,并可以被解析地最小化。用 δ表示该最佳值,结果表示为 &delta; &OverBar; = 1 1 + &gamma; < 1 - - - ( 58 )
注意到在(58)中γ是近似于与频率无关的(至少对N>1) δ也是与频率无关的。特别的, δ是独立于Φx(ω)和Φv(ω),这意味着
Figure A9619166100283
的方差和偏差直接地遵循(57)。
δ的值在某些(现实)情况中可以比1小的多。例如,再一次考虑γv=1/τ和γx=1,于是 δ由下式给定 &delta; &OverBar; = 1 2 - 1 1 + 1 / 2 &tau;
其中,清楚地,对于所有τ,它都小于0.5。在这种情况下, δ<<1这种事实指出在PSD估计值中的不确定性(并且,特别的指
Figure A9619166100285
中的不确定性)对输出质量(以PSD误差表示)有很大的影响。特别地,δ<<1的使用意味着从输入到输出信号,语音噪声比的改进是小的。
一个产生的问题是是否相似于附录D里IPS方法的加权函数一样,这里也存在一个与数据无关的加权函数 G(ω)。在附录G中,得出了这样一种方法(被表示为δIPS)。
                  附录G
的推导
在该附录里,我们探索一种与数据无关的加权因子 G(ω),使得对于一些常数δ(0≤δ≤1) H ^ ( &omega; ) = G - ( &omega; ) H &delta;PS ^ ( &omega; ) 最小化平方后的PSD误差的期望,参阅(42)。简单的计算给出
Φs(ω)=(G(ω)-l)Φs(ω)+(ω)(l-δ)Φv(ω) G ( &omega; ) &delta; ( &Phi; v ( &omega; ) &Phi; x ( &omega; ) &Delta; x ( &omega; ) - &Delta; v ( &omega; ) ) - - - ( 59 ) 平方后的PSD误差的期望由下面给出 E [ &Phi; &OverBar; s ( &omega; ) ] 2 = ( G ( &omega; ) - 1 ) 2 &Phi; s 2 ( &omega; ) + G 2 ( &omega; ) ( 1 - &delta; ) 2 &Phi; v 2 ( &omega; ) 2 ( G ( &omega; ) - 1 ) &Phi; s ( &omega; ) G ( &omega; ) ( 1 - &delta; ) &Phi; v ( &omega; ) + G 2 ( &omega; ) &delta; 2 &gamma; &Phi; v 2 ( &omega; ) - - - ( 60 )
(60)的右边是G(ω)二次式并可被解析地最小化。结果 G(ω)由下面给出   G(ω)  = &Phi; s - 2 ( &omega; ) + &Phi; s ( &omega; ) &Phi; v ( &omega; ) ( 1 - &delta; ) &Phi; s 2 ( &omega; ) + 2 &Phi; s ( &omega; ) &Phi; v ( &omega; ) ( 1 - &delta; ) + ( 1 - &delta; ) 2 &Phi; v 2 ( &omega; ) + &delta; 2 &gamma; &Phi; v 2 ( &omega; ) = 1 2 + &beta; ( &Phi; v ( &omega; ) &Phi; x ( &omega; ) - &Phi; v ( &omega; ) ) 2 - - - ( 61 )
其中,第二个等式处的β由下面给出 &beta; = ( 1 - &delta; ) 2 + &delta; 2 &gamma; + ( 1 - &delta; ) &Phi; s ( &omega; ) / &Phi; v ( &omega; ) 1 + ( 1 - &delta; ) &Phi; v ( &omega; ) / &Phi; s ( &omega; ) - - - ( 62 )
对于δ=1,以上(61)-(62)变为IPS方法(45),对于δ=0,我们以标准PS结束。用相应的估计量
Figure A9619166100299
,分别替换(61)-(62)中的Φs(ω)和Φv(ω),将产生一种方法,以IPS方法的角度,它被表示为δIPS。对δIPS方法的分析相似于对IPS方法的分析,但需要很多的努力和冗长的简单计算,因此在这里被忽略。
参考文献
[1]S.F.Boll,″使用谱削减对语音的声学噪声的抑制″,IEEE关于声学、语音和信号处理的会议方集,卷.ASSP-27,4月1979,pp.113-120.
[2]J.S.Lim and A.V.Oppenheim,″含噪声语音的增强和带宽抑制″.IEEE会刊,卷.67,No.12,12月1979,pp.1586-1604.
[3]J.D.Gibson,B.Koo and S.D.Gray,″用于语音增强和编码目的的带色噪声滤波″,IEEE关于声学、语音和信号处理的会议文集,卷.ASSP-39,No.8,八月1991,pp.1732-1742.
[4]J.H.L Hansen and M.A.Clements,″语音识别用途的约束迭代语音增强″,IEEE信号处理文集,卷.39,No.4,4月1991,pp.795-805.[5]D.K.Freeman,G.Cosier,C.B.Southcott and I.Boid,″泛欧数字蜂窝移动电话服务的话音活动性检测器″,1989 IEEE声学、语音及信号处理国际会议,格拉斯哥,苏格兰,1989年三月23-26日,PP.369-372。6]PCT申请WO89/08910,英国电信PLC.

Claims (10)

1.一种在基于帧的数字通信系统中的谱削减噪声抑制方法,每一帧包括预定的N个声音样本,因此给予每一帧N级自由度,其中,谱削减函数 是基于非语音帧的背景噪声的功率谱密度的估计值
Figure A9619166100022
和语音帧的功率谱密度的估计值 的,其特征为
通过一个将自由度数目减小到少于N的参数模型来近似每一个语音帧,并
通过一种基于近似参数模型的参数功率谱估计方法来估计所说的每一语音帧的功率谱密度的估计值
Figure A9619166100024
通过非参数功率谱估计方法来估计所说的每一个非语音帧的功率谱密度的估计值
2.权利要求1的方法.,其特征在于所说的近似模型是一种自相关(AR)模型。
3.权利要求2的方法,其特征在于所说的自相关(AR)模型是近似
Figure A9619166100026
阶的。
4.权利要求3的方法,其特征在于所说的自相关(AR)模型是近似10阶的。
5.权利要求3的方法,其特征在于相应于下面公式的一个谱削减函数 H ^ ( &omega; ) = G ^ ( &omega; ) ( 1 - &delta; ( &omega; ) &Phi; ^ v ( &omega; ) &Phi; ^ x ( &omega; ) ) 其中
Figure A9619166100029
是一个加权函数δ(ω)是一个削减因子
6.权利要求5的方法,其特征在于 G ^ ( &omega; ) = 1
7.权利要求5或6的方法,其特征在于δ(ω)是一个小于等于1的常量。
8.权利要求3的方法,其特征在于相应于下面公式的一个谱削减函数
Figure A96191661000211
H ^ ( &omega; ) = 1 - &Phi; ^ v ( &omega; ) &Phi; ^ x ( &omega; )
9.权利要求3的方法,其特征在于相应于下面公式的一个谱削减函数 H ^ ( &omega; ) = ( 1 - &Phi; ^ v ( &omega; ) &Phi; ^ x ( &omega; ) )
10.权利要求3的方法,其特征在于相应于下面公式的一个谱削减函数
Figure A9619166100033
H ^ ( &omega; ) = 1 2 ( 1 + ( 1 - &Phi; ^ v ( &omega; ) &Phi; ^ x ( &omega; ) ) )
CN96191661A 1995-01-30 1996-01-12 谱削减噪声抑制方法 Expired - Fee Related CN1110034C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
SE9500321-6 1995-01-30
SE9500321A SE505156C2 (sv) 1995-01-30 1995-01-30 Förfarande för bullerundertryckning genom spektral subtraktion
SE95003216 1995-01-30

Publications (2)

Publication Number Publication Date
CN1169788A true CN1169788A (zh) 1998-01-07
CN1110034C CN1110034C (zh) 2003-05-28

Family

ID=20397011

Family Applications (1)

Application Number Title Priority Date Filing Date
CN96191661A Expired - Fee Related CN1110034C (zh) 1995-01-30 1996-01-12 谱削减噪声抑制方法

Country Status (14)

Country Link
US (1) US5943429A (zh)
EP (1) EP0807305B1 (zh)
JP (1) JPH10513273A (zh)
KR (1) KR100365300B1 (zh)
CN (1) CN1110034C (zh)
AU (1) AU696152B2 (zh)
BR (1) BR9606860A (zh)
CA (1) CA2210490C (zh)
DE (1) DE69606978T2 (zh)
ES (1) ES2145429T3 (zh)
FI (1) FI973142A (zh)
RU (1) RU2145737C1 (zh)
SE (1) SE505156C2 (zh)
WO (1) WO1996024128A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101031963B (zh) * 2004-09-16 2010-09-15 法国电信 处理有噪声的声音信号的方法以及实现该方法的装置
CN106331969A (zh) * 2015-07-01 2017-01-11 奥迪康有限公司 基于统计语音和噪声模型的有噪声语音的增强

Families Citing this family (212)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1326479B2 (en) * 1997-04-16 2018-05-23 Emma Mixed Signal C.V. Method and apparatus for noise reduction, particularly in hearing aids
FR2764469B1 (fr) * 1997-06-09 2002-07-12 France Telecom Procede et dispositif de traitement optimise d'un signal perturbateur lors d'une prise de son
AU8102198A (en) * 1997-07-01 1999-01-25 Partran Aps A method of noise reduction in speech signals and an apparatus for performing the method
DE19747885B4 (de) * 1997-10-30 2009-04-23 Harman Becker Automotive Systems Gmbh Verfahren zur Reduktion von Störungen akustischer Signale mittels der adaptiven Filter-Methode der spektralen Subtraktion
FR2771542B1 (fr) * 1997-11-21 2000-02-11 Sextant Avionique Procede de filtrage frequentiel applique au debruitage de signaux sonores mettant en oeuvre un filtre de wiener
US6070137A (en) * 1998-01-07 2000-05-30 Ericsson Inc. Integrated frequency-domain voice coding using an adaptive spectral enhancement filter
US6415253B1 (en) * 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
AU721270B2 (en) * 1998-03-30 2000-06-29 Mitsubishi Denki Kabushiki Kaisha Noise reduction apparatus and noise reduction method
US6717991B1 (en) 1998-05-27 2004-04-06 Telefonaktiebolaget Lm Ericsson (Publ) System and method for dual microphone signal noise reduction using spectral subtraction
US6182042B1 (en) * 1998-07-07 2001-01-30 Creative Technology Ltd. Sound modification employing spectral warping techniques
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US6351731B1 (en) 1998-08-21 2002-02-26 Polycom, Inc. Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor
US6122610A (en) * 1998-09-23 2000-09-19 Verance Corporation Noise suppression for low bitrate speech coder
US6400310B1 (en) 1998-10-22 2002-06-04 Washington University Method and apparatus for a tunable high-resolution spectral estimator
EP2085028A1 (en) * 1998-11-09 2009-08-05 Xinde Li Processing low signal-to-noise ratio signals
US6343268B1 (en) * 1998-12-01 2002-01-29 Siemens Corporation Research, Inc. Estimator of independent sources from degenerate mixtures
US6289309B1 (en) 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
EP1141950B1 (en) * 1998-12-18 2003-05-14 Telefonaktiebolaget L M Ericsson (Publ) Noise suppression in a mobile communications system
EP1748426A3 (en) * 1999-01-07 2007-02-21 Tellabs Operations, Inc. Method and apparatus for adaptively suppressing noise
CA2358203A1 (en) 1999-01-07 2000-07-13 Tellabs Operations, Inc. Method and apparatus for adaptively suppressing noise
US6453291B1 (en) * 1999-02-04 2002-09-17 Motorola, Inc. Apparatus and method for voice activity detection in a communication system
US6496795B1 (en) * 1999-05-05 2002-12-17 Microsoft Corporation Modulated complex lapped transform for integrated signal enhancement and coding
FR2794322B1 (fr) * 1999-05-27 2001-06-22 Sagem Procede de suppression de bruit
US6314394B1 (en) * 1999-05-27 2001-11-06 Lear Corporation Adaptive signal separation system and method
FR2794323B1 (fr) * 1999-05-27 2002-02-15 Sagem Procede de suppression de bruit
US6480824B2 (en) 1999-06-04 2002-11-12 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for canceling noise in a microphone communications path using an electrical equivalence reference signal
DE19935808A1 (de) * 1999-07-29 2001-02-08 Ericsson Telefon Ab L M Echounterdrückungseinrichtung zum Unterdrücken von Echos in einer Sender/Empfänger-Einheit
SE514875C2 (sv) 1999-09-07 2001-05-07 Ericsson Telefon Ab L M Förfarande och anordning för konstruktion av digitala filter
US6876991B1 (en) 1999-11-08 2005-04-05 Collaborative Decision Platforms, Llc. System, method and computer program product for a collaborative decision platform
FI19992453A (fi) * 1999-11-15 2001-05-16 Nokia Mobile Phones Ltd Kohinanvaimennus
US6804640B1 (en) * 2000-02-29 2004-10-12 Nuance Communications Signal noise reduction using magnitude-domain spectral subtraction
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US6766292B1 (en) * 2000-03-28 2004-07-20 Tellabs Operations, Inc. Relative noise ratio weighting techniques for adaptive noise cancellation
US6674795B1 (en) * 2000-04-04 2004-01-06 Nortel Networks Limited System, device and method for time-domain equalizer training using an auto-regressive moving average model
US6711558B1 (en) * 2000-04-07 2004-03-23 Washington University Associative database scanning and information retrieval
US8095508B2 (en) * 2000-04-07 2012-01-10 Washington University Intelligent data storage and processing using FPGA devices
US7139743B2 (en) 2000-04-07 2006-11-21 Washington University Associative database scanning and information retrieval using FPGA devices
US7225001B1 (en) 2000-04-24 2007-05-29 Telefonaktiebolaget Lm Ericsson (Publ) System and method for distributed noise suppression
JP2003533723A (ja) * 2000-05-17 2003-11-11 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ符号化
DE10053948A1 (de) * 2000-10-31 2002-05-16 Siemens Ag Verfahren zum Vermeiden von Kommunikations-Kollisionen zwischen Co-existierenden PLC-Systemen bei der Nutzung eines allen PLC-Systemen gemeinsamen physikalischen Übertragungsmediums und Anordnung zur Durchführung des Verfahrens
US6463408B1 (en) * 2000-11-22 2002-10-08 Ericsson, Inc. Systems and methods for improving power spectral estimation of speech signals
US6885735B2 (en) * 2001-03-29 2005-04-26 Intellisist, Llc System and method for transmitting voice input from a remote location over a wireless data channel
US8175886B2 (en) 2001-03-29 2012-05-08 Intellisist, Inc. Determination of signal-processing approach based on signal destination characteristics
US20020143611A1 (en) * 2001-03-29 2002-10-03 Gilad Odinak Vehicle parking validation system and method
US20050065779A1 (en) * 2001-03-29 2005-03-24 Gilad Odinak Comprehensive multiple feature telematics system
USRE46109E1 (en) * 2001-03-29 2016-08-16 Lg Electronics Inc. Vehicle navigation system and method
US6487494B2 (en) * 2001-03-29 2002-11-26 Wingcast, Llc System and method for reducing the amount of repetitive data sent by a server to a client for vehicle navigation
US20030046069A1 (en) * 2001-08-28 2003-03-06 Vergin Julien Rivarol Noise reduction system and method
US7716330B2 (en) 2001-10-19 2010-05-11 Global Velocity, Inc. System and method for controlling transmission of data packets over an information network
US6813589B2 (en) * 2001-11-29 2004-11-02 Wavecrest Corporation Method and apparatus for determining system response characteristics
US7315623B2 (en) * 2001-12-04 2008-01-01 Harman Becker Automotive Systems Gmbh Method for supressing surrounding noise in a hands-free device and hands-free device
US7116745B2 (en) * 2002-04-17 2006-10-03 Intellon Corporation Block oriented digital communication system and method
AU2003248523A1 (en) 2002-05-16 2003-12-02 Intellisist, Llc System and method for dynamically configuring wireless network geographic coverage or service levels
US7093023B2 (en) * 2002-05-21 2006-08-15 Washington University Methods, systems, and devices using reprogrammable hardware for high-speed processing of streaming data to find a redefinable pattern and respond thereto
US7711844B2 (en) 2002-08-15 2010-05-04 Washington University Of St. Louis TCP-splitter: reliable packet monitoring methods and apparatus for high speed networks
US20040078199A1 (en) * 2002-08-20 2004-04-22 Hanoh Kremer Method for auditory based noise reduction and an apparatus for auditory based noise reduction
US10572824B2 (en) 2003-05-23 2020-02-25 Ip Reservoir, Llc System and method for low latency multi-functional pipeline with correlation logic and selectively activated/deactivated pipelined data processing engines
AU2004290281A1 (en) 2003-05-23 2005-05-26 Washington University Intelligent data storage and processing using FPGA devices
DE102004001863A1 (de) * 2004-01-13 2005-08-11 Siemens Ag Verfahren und Vorrichtung zur Bearbeitung eines Sprachsignals
US7602785B2 (en) 2004-02-09 2009-10-13 Washington University Method and system for performing longest prefix matching for network address lookup using bloom filters
CN100466671C (zh) * 2004-05-14 2009-03-04 华为技术有限公司 语音切换方法及其装置
US7454332B2 (en) * 2004-06-15 2008-11-18 Microsoft Corporation Gain constrained noise suppression
WO2006082636A1 (ja) * 2005-02-02 2006-08-10 Fujitsu Limited 信号処理方法および信号処理装置
KR100657948B1 (ko) * 2005-02-03 2006-12-14 삼성전자주식회사 음성향상장치 및 방법
JP4765461B2 (ja) * 2005-07-27 2011-09-07 日本電気株式会社 雑音抑圧システムと方法及びプログラム
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7702629B2 (en) * 2005-12-02 2010-04-20 Exegy Incorporated Method and device for high performance regular expression pattern matching
US8345890B2 (en) 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
US7954114B2 (en) 2006-01-26 2011-05-31 Exegy Incorporated Firmware socket module for FPGA-based pipeline processing
US8194880B2 (en) 2006-01-30 2012-06-05 Audience, Inc. System and method for utilizing omni-directional microphones for speech enhancement
US9185487B2 (en) * 2006-01-30 2015-11-10 Audience, Inc. System and method for providing noise suppression utilizing null processing noise subtraction
US8204252B1 (en) 2006-10-10 2012-06-19 Audience, Inc. System and method for providing close microphone adaptive array processing
US8744844B2 (en) * 2007-07-06 2014-06-03 Audience, Inc. System and method for adaptive intelligent noise suppression
US8112247B2 (en) * 2006-03-24 2012-02-07 International Business Machines Corporation Resource adaptive spectrum estimation of streaming data
US7636703B2 (en) * 2006-05-02 2009-12-22 Exegy Incorporated Method and apparatus for approximate pattern matching
US8849231B1 (en) 2007-08-08 2014-09-30 Audience, Inc. System and method for adaptive power control
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US8150065B2 (en) 2006-05-25 2012-04-03 Audience, Inc. System and method for processing an audio signal
US8204253B1 (en) 2008-06-30 2012-06-19 Audience, Inc. Self calibration of audio device
US8934641B2 (en) 2006-05-25 2015-01-13 Audience, Inc. Systems and methods for reconstructing decomposed audio signals
US7840482B2 (en) 2006-06-19 2010-11-23 Exegy Incorporated Method and system for high speed options pricing
US7921046B2 (en) 2006-06-19 2011-04-05 Exegy Incorporated High speed processing of financial information using FPGA devices
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7660793B2 (en) 2006-11-13 2010-02-09 Exegy Incorporated Method and system for high performance integration, processing and searching of structured and unstructured data using coprocessors
US8326819B2 (en) 2006-11-13 2012-12-04 Exegy Incorporated Method and system for high performance data metatagging and data indexing using coprocessors
US8259926B1 (en) 2007-02-23 2012-09-04 Audience, Inc. System and method for 2-channel and 3-channel acoustic echo cancellation
US7912567B2 (en) * 2007-03-07 2011-03-22 Audiocodes Ltd. Noise suppressor
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US20080312916A1 (en) * 2007-06-15 2008-12-18 Mr. Alon Konchitsky Receiver Intelligibility Enhancement System
US20090027648A1 (en) * 2007-07-25 2009-01-29 Asml Netherlands B.V. Method of reducing noise in an original signal, and signal processing device therefor
US8189766B1 (en) 2007-07-26 2012-05-29 Audience, Inc. System and method for blind subband acoustic echo cancellation postfiltering
US8046219B2 (en) * 2007-10-18 2011-10-25 Motorola Mobility, Inc. Robust two microphone noise suppression system
US8143620B1 (en) 2007-12-21 2012-03-27 Audience, Inc. System and method for adaptive classification of audio sources
US8180064B1 (en) 2007-12-21 2012-05-15 Audience, Inc. System and method for providing voice equalization
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8194882B2 (en) 2008-02-29 2012-06-05 Audience, Inc. System and method for providing single microphone noise suppression fallback
US8355511B2 (en) 2008-03-18 2013-01-15 Audience, Inc. System and method for envelope-based acoustic echo cancellation
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8374986B2 (en) 2008-05-15 2013-02-12 Exegy Incorporated Method and system for accelerated stream processing
US8521530B1 (en) 2008-06-30 2013-08-27 Audience, Inc. System and method for enhancing a monaural audio signal
US8774423B1 (en) 2008-06-30 2014-07-08 Audience, Inc. System and method for controlling adaptivity of signal modification using a phantom coefficient
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
JP5871619B2 (ja) 2008-12-15 2016-03-01 アイ・ピー・リザブワー・エル・エル・シー 金融市場深度データの高速処理のための方法および装置
EP2368322A1 (en) * 2008-12-18 2011-09-28 Telefonaktiebolaget L M Ericsson (publ) Systems and methods for filtering a signal
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
CN101609480B (zh) * 2009-07-13 2011-03-30 清华大学 基于广域测量类噪声信号的电力系统节点间相位关系辨识方法
US8600743B2 (en) * 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US9008329B1 (en) 2010-01-26 2015-04-14 Audience, Inc. Noise reduction using multi-feature cluster tracker
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
CN103228209A (zh) * 2010-09-21 2013-07-31 皮层动力学有限公司 复合脑功能监视和显示系统
US8924204B2 (en) * 2010-11-12 2014-12-30 Broadcom Corporation Method and apparatus for wind noise detection and suppression using multiple microphones
WO2012079041A1 (en) 2010-12-09 2012-06-14 Exegy Incorporated Method and apparatus for managing orders in financial markets
US9264804B2 (en) 2010-12-29 2016-02-16 Telefonaktiebolaget L M Ericsson (Publ) Noise suppressing method and a noise suppressor for applying the noise suppressing method
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8903722B2 (en) * 2011-08-29 2014-12-02 Intel Mobile Communications GmbH Noise reduction for dual-microphone communication devices
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US10121196B2 (en) 2012-03-27 2018-11-06 Ip Reservoir, Llc Offload processing of data packets containing financial market data
US9990393B2 (en) 2012-03-27 2018-06-05 Ip Reservoir, Llc Intelligent feed switch
US11436672B2 (en) 2012-03-27 2022-09-06 Exegy Incorporated Intelligent switch for processing financial market data
US10650452B2 (en) 2012-03-27 2020-05-12 Ip Reservoir, Llc Offload processing of data packets
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
US9633097B2 (en) 2012-10-23 2017-04-25 Ip Reservoir, Llc Method and apparatus for record pivoting to accelerate processing of data fields
CA2887022C (en) 2012-10-23 2021-05-04 Ip Reservoir, Llc Method and apparatus for accelerated format translation of data in a delimited data format
US9633093B2 (en) 2012-10-23 2017-04-25 Ip Reservoir, Llc Method and apparatus for accelerated format translation of data in a delimited data format
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101959188B1 (ko) 2013-06-09 2019-07-02 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
WO2015164639A1 (en) 2014-04-23 2015-10-29 Ip Reservoir, Llc Method and apparatus for accelerated data translation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
DE112015003945T5 (de) 2014-08-28 2017-05-11 Knowles Electronics, Llc Mehrquellen-Rauschunterdrückung
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
RU2593384C2 (ru) * 2014-12-24 2016-08-10 Федеральное государственное бюджетное учреждение науки "Морской гидрофизический институт РАН" Способ дистанционного определения характеристик морской поверхности
RU2580796C1 (ru) * 2015-03-02 2016-04-10 Государственное казенное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) Способ (варианты) фильтрации зашумленного речевого сигнала в условиях сложной помеховой обстановки
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10942943B2 (en) 2015-10-29 2021-03-09 Ip Reservoir, Llc Dynamic field data translation to support high performance stream data processing
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
EP3560135A4 (en) 2016-12-22 2020-08-05 IP Reservoir, LLC PIPELINES INTENDED FOR AUTOMATIC ACCELERATED LEARNING BY EQUIPMENT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10481831B2 (en) * 2017-10-02 2019-11-19 Nuance Communications, Inc. System and method for combined non-linear and late echo suppression
CN111508514A (zh) * 2020-04-10 2020-08-07 江苏科技大学 基于补偿相位谱的单通道语音增强算法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4410763A (en) * 1981-06-09 1983-10-18 Northern Telecom Limited Speech detector
US4630305A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic gain selector for a noise suppression system
US4630304A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic background noise estimator for a noise suppression system
US4628529A (en) * 1985-07-01 1986-12-09 Motorola, Inc. Noise suppression system
US4811404A (en) * 1987-10-01 1989-03-07 Motorola, Inc. Noise suppression system
GB8801014D0 (en) * 1988-01-18 1988-02-17 British Telecomm Noise reduction
US5155760A (en) * 1991-06-26 1992-10-13 At&T Bell Laboratories Voice messaging system with voice activated prompt interrupt
FR2687496B1 (fr) * 1992-02-18 1994-04-01 Alcatel Radiotelephone Procede de reduction de bruit acoustique dans un signal de parole.
FI100154B (fi) * 1992-09-17 1997-09-30 Nokia Mobile Phones Ltd Menetelmä ja järjestelmä kohinan vaimentamiseksi
US5742927A (en) * 1993-02-12 1998-04-21 British Telecommunications Public Limited Company Noise reduction apparatus using spectral subtraction or scaling and signal attenuation between formant regions
US5432859A (en) * 1993-02-23 1995-07-11 Novatel Communications Ltd. Noise-reduction system
JP3270866B2 (ja) * 1993-03-23 2002-04-02 ソニー株式会社 雑音除去方法および雑音除去装置
JPH07129195A (ja) * 1993-11-05 1995-05-19 Nec Corp 音声復号化装置
JPH08506434A (ja) * 1993-11-30 1996-07-09 エイ・ティ・アンド・ティ・コーポレーション 通信システムにおける伝送ノイズ低減
US5544250A (en) * 1994-07-18 1996-08-06 Motorola Noise suppression system and method therefor
JP2964879B2 (ja) * 1994-08-22 1999-10-18 日本電気株式会社 ポストフィルタ
US5727072A (en) * 1995-02-24 1998-03-10 Nynex Science & Technology Use of noise segmentation for noise cancellation
JP3591068B2 (ja) * 1995-06-30 2004-11-17 ソニー株式会社 音声信号の雑音低減方法
US5659622A (en) * 1995-11-13 1997-08-19 Motorola, Inc. Method and apparatus for suppressing noise in a communication system
US5794199A (en) * 1996-01-29 1998-08-11 Texas Instruments Incorporated Method and system for improved discontinuous speech transmission

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101031963B (zh) * 2004-09-16 2010-09-15 法国电信 处理有噪声的声音信号的方法以及实现该方法的装置
CN106331969A (zh) * 2015-07-01 2017-01-11 奥迪康有限公司 基于统计语音和噪声模型的有噪声语音的增强
CN106331969B (zh) * 2015-07-01 2021-04-09 奥迪康有限公司 有噪声语音的增强方法、系统及助听器

Also Published As

Publication number Publication date
KR19980701735A (ko) 1998-06-25
SE9500321D0 (sv) 1995-01-30
JPH10513273A (ja) 1998-12-15
AU4636996A (en) 1996-08-21
WO1996024128A1 (en) 1996-08-08
CN1110034C (zh) 2003-05-28
KR100365300B1 (ko) 2003-03-15
EP0807305A1 (en) 1997-11-19
AU696152B2 (en) 1998-09-03
CA2210490C (en) 2005-03-29
FI973142A0 (fi) 1997-07-29
DE69606978D1 (de) 2000-04-13
ES2145429T3 (es) 2000-07-01
EP0807305B1 (en) 2000-03-08
SE9500321L (sv) 1996-07-31
SE505156C2 (sv) 1997-07-07
DE69606978T2 (de) 2000-07-20
US5943429A (en) 1999-08-24
CA2210490A1 (en) 1996-08-08
FI973142A (fi) 1997-09-30
BR9606860A (pt) 1997-11-25
RU2145737C1 (ru) 2000-02-20

Similar Documents

Publication Publication Date Title
CN1110034C (zh) 谱削减噪声抑制方法
CN1145931C (zh) 降低语音信号中的噪声的方法和采用该方法的系统和电话机
CN1284139C (zh) 噪声减少的方法和装置
CN1193644C (zh) 用频谱减少来降低双送话器信号噪声的系统和方法
CN1127055C (zh) 用于对宽带声音信号进行有效的编码的感觉加权设备与方法以及使用该设备的蜂窝通信系统
CN1282155C (zh) 噪声抑制装置和方法
CN101031963A (zh) 处理有噪声的声音信号的方法以及实现该方法的装置
Srinivasan et al. Codebook-based Bayesian speech enhancement for nonstationary environments
CN1918461A (zh) 在存在背景噪声时用于语音增强的方法和设备
CN101079266A (zh) 基于多统计模型和最小均方误差实现背景噪声抑制的方法
CN1302462C (zh) 降噪装置和降噪方法
Arslan et al. New methods for adaptive noise suppression
CN1905006A (zh) 噪声抑制系统与方法及程序
CN101042871A (zh) 噪声抑制方法和设备
CN1274456A (zh) 语音编码器
CN1113335A (zh) 降低语音信号中噪声的方法和检测噪声域的方法
CN1451225A (zh) 用于消除收发信机单元中回波的回波消除设备
CN1871501A (zh) 频谱编码装置、频谱解码装置、音响信号发送装置、音响信号接收装置及其使用方法
CN1159703C (zh) 声音识别系统
CN1669074A (zh) 话音增强装置
CN1746973A (zh) 分布式语音识别系统和方法
CN1391689A (zh) 宽带语音和音频信号解码器中的增益平滑
CN1947173A (zh) 分层编码装置及分层编码方法
CN1261713A (zh) 接收装置和方法,通信装置和方法
CN1795491A (zh) 分析基频信息的方法以及实现所述分析方法的话音转换方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1052168

Country of ref document: HK

C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee