CN101636648A - 采用感知模型的语音增强 - Google Patents

采用感知模型的语音增强 Download PDF

Info

Publication number
CN101636648A
CN101636648A CN200880008865A CN200880008865A CN101636648A CN 101636648 A CN101636648 A CN 101636648A CN 200880008865 A CN200880008865 A CN 200880008865A CN 200880008865 A CN200880008865 A CN 200880008865A CN 101636648 A CN101636648 A CN 101636648A
Authority
CN
China
Prior art keywords
subband
signal
amplitude
sound signal
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200880008865A
Other languages
English (en)
Other versions
CN101636648B (zh
Inventor
俞容山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of CN101636648A publication Critical patent/CN101636648A/zh
Application granted granted Critical
Publication of CN101636648B publication Critical patent/CN101636648B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

公开了一种基于心理声学模型的语音增强,所述语音增强能够保留语音的保真度同时充分地抑制包含被称为“音乐噪声”的对人工产物的处理的噪声。

Description

采用感知模型的语音增强
技术领域
本发明涉及音频信号处理。更具体地,它涉及噪声环境中的语音增强和净化(clarification)。
以引用方式包含的内容
这里以引用方式分别包含以下公开出版物的全部内容。
[1]S.F.Boll,“Suppression of acoustic noise in speech using spectralsubtraction,”IEEE Trans.Acoust.,Speech,Signal Processing,vol.27,pp.113-120,Apr.1979.
[2]B.Widrow and S.D.Stearns,Adaptive Signal Processing.EnglewoodCliffs,NJ:Prentice Hall,1985.
[3]Y.Ephraim and D.Malah,“Speech enhancement using a minimummean square error short time spectral amplitude estimator,”IEEE Trans.Acoust.,Speech,Signal Processing,vol.32,pp.1109-1121,Dec.1984.
[4]Y.Ephraim and D.Malah,“Speech enhancement using a minimummean square error Log-spectral amplitude estimator,”IEEE Trans.Acoust.,Speech,Signal Processing,vol.33,pp.443-445,Dec.1985.
[5]P.J.Wolfe and S.J.Godsill,“Efficient alternatives to Ephraim andMalah suppression rule for audio signal enhancement,”EURASIPJournal on Applied Signal Processing,vol.2003,Issue 10,Pages 1043-1051,2003.
[6]R.Martin,“Spectral subtraction based on minimum statistics,”Proc.EUSIPCO,1994,pp.1182-1185.
[7]E.Terhardt,“Calculating Virtual Pitch,”Hearing Research,pp.155-182,1,1979.
[8]ISO/IEC JTC1/SC29/WG11,Information technology-Coding ofmoving pictures and associated audio for digital storage media at up toabout 1.5Mbit/s-Part3:Audio,IS 11172-3,1992
[9]J.Johnston,“Transform coding of audio signals using perceptual noisecriteria,”IEEE J.Select.Areas Commun.,vol.6,pp.314-323,Feb.1988.
[10]S.Gustafsson,P.Jax,P Vary,,“A novel psychoacoustically motivatedaudio enhancement algorithm preserving background noisecharacteristics,”Proceedings of the 1998 IEEE InternationalConference on Acoustics,Speech,and Signal Processing,1998.ICASSP′98.
[11]Yi Hu,and P.C.Loizou,“Incorporating a psychoacoustic model infrequency domain speech enhancement,”IEEE Signal ProcessingLetter,pp.270-273,vol.11,no.2,Feb.2004.
[12]L.Lin,W.H.Holmes,and E.Ambikairajah,“Speech denoising usingperceptual modification of Wiener filtering,”Electronics Letter,pp1486-1487,vol.38,Nov,2002.
背景技术
我们生活在噪声世界中。源自自然源以及人类活动的环境噪声无处不在。在话音通信中,环境噪声与预期的语音信号被同时传输,不利地影响接收质量。通过去除这种不希望的噪声分量的语音增强技术,此问题得到缓解,由此产生更加干净和更加易懂的信号。
多数语音增强系统依赖于各种形式的自适应滤波操作。这种系统在保留具有高信噪比(SNR)的带噪语音信号的时间/频率(T/F)区域的同时,使具有低SNR的带噪语音信号的时间/频率T/F区域衰减。语音的基本分量由此被保留,而噪声分量大大降低。通常,通过诸如数字信号处理(DSP)芯片之类的计算装置在数字域中执行这种滤波操作。
子带(subband)域处理是实现这种自适应滤波操作的优选方式之一。简言之,通过使用诸如离散傅立叶变换(DFT)之类的滤波器组,时域中的不变的语音信号被变换成各种子带。各子带内的信号随后根据语音和噪声的已知的统计特性而被抑制为希望的量。最后,通过使用逆滤波器组,子带域中的噪声抑制信号被变换为时域,以产生增强的语音信号,该语音信号的质量高度取决于抑制过程的细节。
在图1中示出典型的现有技术的语音增强布置的例子。通过将模拟语音信号进行数字化而产生输入,并且该输入包含干净的语音以及噪声二者。此不变的音频信号y(n)然后被发送到滤波器组功能的分析滤波器组(“分析滤波器组”)12,产生多个子带的信号Yk(m),k=1,...,K,m=0,1,...,∞,这里,n=0,1,...,∞是时间索引,k是子带编号,m是各子带信号的时间索引。由于分析滤波器组12中的下降采样操作,因此,与y(n)相比,子带信号会具有较低的采样率。在抑制规则装置或功能(“抑制规则”)14中,然后通过使用噪声方差估计器估计各子带的噪声水平。基于估计的噪声水平,确定适当的抑制增益gk,并将其施加于子带信号,如下:
Y ~ k ( m ) = g k Y k ( m ) , k = 1 , . . . , K . - - - ( 1 )
通过乘号16象征性地表示抑制增益的施加。最后,子带信号
Figure G2008800088655D00032
被送到合成滤波器组或滤波器组功能(“合成滤波器组”)18以产生增强的语音信号
Figure G2008800088655D00033
为了清楚呈现,图1示出仅对于多个子带信号(k)中的一个产生和施加抑制增益的细节。
很清楚,语音增强系统的质量高度取决于其抑制方法。光谱减法(参考文献[1])、Wiener滤波器(参考文献[2])、MMSE-STSA(参考文献[3])和MMSE-LSA(参考文献[4])是这种先前提出的方法的例子。抑制规则被设计为使得在诸如均方误差(MSE)之类的某种畸变准则方面,输出尽可能地接近语音分量。结果,噪声分量的水平被降低,并且,语音分量起主导作用。但是,将语音分量或噪声分量从原始音频信号中分离是非常困难的,并且,这种最小化方法依赖于合理的统计模型。因此,最终的增强的语音信号仅与其基础统计模型和从中得到的抑制规则一样好。
尽管如此,实际上不可能再现无噪声输出。由于任何抑制方法都极难完美地跟踪和抑制噪声分量,因此存在可感知的残留噪声。此外,抑制操作自身也影响最终的语音信号,不利地影响其质量和易懂性。一般地,具有强的衰减的抑制规则导致噪声较少的输出,但是得到的语音信号更加畸变。相反,具有更温和的衰减的抑制规则产生较少畸变的语音,但是以差强人意的噪声降低为代价。为了最优地平衡这种相反的顾虑,必须进行仔细的权衡。现有技术的抑制规则没有以这种方式着手解决该问题,并且,还没有获得最优的平衡。
许多语音增强系统的另一共同问题是“音乐噪声”的问题。(参见文献[1])。这种对人工产物的处理是子带域滤波操作的副产品。残留的噪声分量会表现出强的幅度波动,并且,如果得不到充分的抑制,则会被变换成具有随机频率的短的爆破(bursty)的音乐音调。
发明内容
增强由语音分量和噪声分量构成的音频信号中的语音。音频信号从时域被变换成频域中的多个子带。以包含响应控制而自适应地降低所述子带中的多个子带的增益的方式处理音频信号的子带。至少部分地从子带中的音频信号(特别是对于进入的音频采样)中的噪声分量的幅度的估计得出该控制。最后,处理的音频信号从频域被变换成时域,以提供具有增强的语音分量的音频信号。可至少部分地从每一个子带中的掩蔽阈值得出该控制。该掩蔽阈值是对心理声学(psychoacoustic)掩蔽模型应用音频信号的语音分量的幅度的估计的结果。当子带中的(进入的音频采样中的)噪声分量的幅度的估计高于子带中的掩蔽阈值时,该控制还可使得子带的增益降低。
该控制还可使得子带的增益降低,使得施加增益之后的子带中的(进入的音频采样中的)噪声分量的幅度的估计等于或低于该子带中的掩蔽阈值。可响应使语音畸变的程度与可感知噪声的程度平衡的加权因子来减小增益降低的量。该加权因子可以是可选择的设计参数。音频信号的语音分量的幅度的估计可被应用于将语音分量的能量分布于相邻频率子带的扩展函数。
可将本发明的上述方面实施为方法或适于执行这些方法的装置。存储在计算机可读介质上的计算机程序可使计算机执行这些方法中的任何方法。
本发明的一个目的是,提供能够保留语音分量的保真度同时充分地抑制噪声分量的语音增强。
本发明的另一目的是,提供能够消除音乐噪声的影响的语音增强。
在以下的描述和所附的权利要求中,本发明的这些和其它特征和优点将被阐述或将变得更加充分地清晰。可通过尤其是在所附的权利要求中指出的手段和组合而实现和获得这些特征和优点。此外,可通过本发明的实践掌握本发明的这些特征和优点,或者,从以下阐述的描述中,本发明的这些特征和优点将变得清晰。
附图说明
图1是一般的语音增强布置的功能框图。
图2是根据本发明的各方面的基于感知模型的语音增强布置的例子的功能框图。
图3是有助于理解图2的基于感知模型的语音增强的操作的流程图。
具体实施方式
在附录A中给出这里使用的缩略词和术语的词汇表。在附录B中给出符号以及它们各自的定义的列表。附录A和附录B是本申请的不可分割的一部分并形成本申请的部分。
本发明针对平衡语音增强系统中的噪声降低和语音畸变的相反顾虑的能力的缺少。简言之,估计嵌入的语音分量并从中构建掩蔽阈值。还进行嵌入的噪声分量的估计,并在随后在抑制增益的计算中使用该估计。为了执行根据本发明的各方面的方法,可以采用以下的要素:
1)音频信号中的噪声分量幅度的估计,
2)音频信号中的噪声方差的估计,
3)音频信号中的语音分量幅度的估计,
4)音频信号中的语音方差的估计,
5)心理声学模型,以及
6)抑制增益的计算。
确定要素1~4的估计的方式对于本发明不是关键的。
在图2中示出根据本发明的各方面的示例性布置。这里,对于诸如离散傅立叶变换(DFT)之类的滤波器组或滤波器组功能(“分析滤波器组”)22施加音频信号,在该滤波器组或滤波器组功能中,通过用复正弦(complex sinusoidal)调制原型低通滤波器,该音频信号被转换成多个频率子带的信号。通过将输入信号与子带分析滤波器进行卷积(convolve)然后下采样到较低的速率,产生随后的输出子带信号。因此,各子带的输出信号是具有包含代表输入信号的给定频率范围的信息的幅度和相位的一组复系数。
子带信号然后被供给到语音分量幅度估计器或估计器功能(“语音幅度估计器”)24并被供给到噪声分量幅度估计器或估计器功能(“噪声幅度估计器”)26。由于这两者均被嵌入原始音频信号中,因此这种估计依赖于统计模型以及之前的计算。在本发明的各方面的此示例性实施例中,可以使用最小均方误差(MMSE)功率估计器(参考文献[5])。基本上,MMSE功率估计器首先分别基于统计模型以及不变的音频信号确定语音和噪声分量的概率分布。噪声分量于是被确定为使估计误差的均方最小化的值。
图2所指示的语音方差(“语音方差估计”)36和噪声方差(“噪声方差估计”)38分别与实现本发明所需要的以上要素列表中的第4项和第2项对应。但是,本发明本身不取决于用于获得这些量的方法的特定细节。
心理声学模型(“心理声学模型”)28用于通过将估计的语音分量用作掩蔽信号而计算不同频率子带的掩蔽阈值。可以在施加将掩蔽信号的能量分布于相邻的频率子带的扩展函数之后确定掩蔽阈值的特定水平。
然后,通过将估计的噪声分量与计算的掩蔽阈值相比较的抑制增益计算器或计算(“抑制增益计算”)30确定各子带的抑制增益。实际上,对于与掩蔽阈值的水平相比具有更强的噪声分量的子带信号施加更强的衰减。在本例子中,通过足以使噪声分量的幅度衰减到掩蔽阈值的水平的抑制量来确定各子带的抑制增益。在抑制增益计算中包含噪声分量估计器是重要的步骤;没有它,抑制增益会被噪声分量的平均水平驱动,从而无法抑制诸如与称为“音乐噪声”的现象有关的噪声之类的乱真峰值。
抑制增益然后响应使语音畸变的程度与可感知的噪声的程度平衡的加权因子而经受可能的降低,并且在逐采样地被更新,使得噪声分量被精确跟踪。这减轻语音分量的过抑制,并有助于在语音畸变和噪声抑制之间实现更好的权衡。
最后,对于子带信号施加抑制增益。通过乘号32象征性地示出抑制增益的施加。被抑制的子带信号然后被发送到产生时域增强的语音分量的合成滤波器组或滤波器组功能(“合成滤波器组”)34。在图3中示出一般过程的总体流程图。
应理解,可以以这里在图中示出的方式以外的方式组合或分离这里在各例子中示出和描述的各装置、功能和过程。例如,当通过计算机软件指令序列实现时,可通过在适当的数字信号处理硬件中运行的多线程软件指令序列实现图2和图3的所有功能,在这种情况下,图中示出的例子中的各种装置和功能可与软件指令的各部分对应。
语音和噪声分量的估计(图3,44、48)
输入到根据本发明的示例性语音增强器中的输入信号被假定为语音分量x(n)和噪声分量d(n)的线性组合,
y(n)=x(n)+d(n)    (1)
这里,n=0,1,2,...是时间索引。分析滤波器组22(图2)将输入的信号变换成子带域,如下(“通过使用分析滤波器组从带噪输入信号y(n)产生子带信号Yk(m),k=1,...,K”)42(图3):
Yk(m)=Xk(m)+Dk(m),k=1,...,K,m=0,1,2,...    (2)
这里,分别地,m是子带域中的时间索引,k是子带索引,K是子带的总数。由于滤波器组变换,子带信号通常具有比时域信号低的采样率。在本示例性实施例中,使用离散傅立叶变换(DFT)调制滤波器组。因此,输出的子带信号具有复值,并可被进一步表示为:
Yk(m)=Rk(m)exp(jθk(m))    (3)
Xk(m)=Ak(m)exp(jαk(m))    (4)
Dk(m)=Nk(m)exp(jφk(m))    (5)
这里,Rk(m)、Ak(m)和Nk(m)分别是音频输入、语音分量和噪声分量的幅度,并且,θk(m)、αk(m)和φk(m)是它们的相位。为了简洁起见,在随后的讨论中省略时间索引m。
假定语音分量和噪声分量分别是具有方差λx(k)和λd(k)的非相关零均值复高斯变量,能够基于输入的音频信号对于每个进入的音频采样估计这两个分量的幅度。将估计的幅度表达为:
A ^ k = G ( ξ k , γ k ) · R k - - - ( 6 )
之前已在文献中提出语音分量的各种估计器。增益函数G(ξk,γk)的可能候选的不完全列表如下。
1.在参考文献[3]中介绍的MMSE STSA(最小均方误差短时谱幅度)估计器:
G STSA ( ξ k , γ k ) = π υ k 2 γ k [ ( 1 + υ k ) I 0 ( υ k 2 ) + υ k I 1 ( υ k 2 ) ] exp ( - υ k 2 ) - - - ( 7 )
2.在参考文献[5]中介绍的MMSE谱功率估计器:
G SP ( ξ k , γ k ) = ξ k 1 + ξ k ( 1 + υ k γ k ) - - - ( 8 )
3.最后,在参考文献[4]中介绍的MMSE log-STSA估计器:
G log - STSA ( ξ k , γ k ) = ξ k 1 + ξ k exp { 1 2 ∫ υ k ∞ e - t t dt } - - - ( 9 )
以上,使用了以下的定义:
υ k = ξ k 1 + ξ k γ k - - - ( 10 )
ξ k = λ x ( k ) λ d ( k ) - - - ( 11 )
γ k = R k 2 λ d ( k ) - - - ( 12 )
这里,ξk和γk通常分别被解释为先验的和后验的信噪比(SNR)。换句话说,“先验的”SNR是假定的(实际中是未知的)语音方差(因而称为“先验”)与噪声方差的比。“后验”SNR是观察到的信号(因而称为“后验”)的幅度的平方与噪声方差的比。
在此模型构造中,可以使用上述的语音分量估计器,通过在增益函数中用 ξ k ′ = λ d ( k ) λ x ( k ) 代替先验的SNRξk并用 γ k ′ = R k 2 λ x ( k ) 代替后验的SNRγk,估计进入的音频采样中的噪声分量。即,
N ^ k = G XX ( ξ k ′ , γ k ′ ) · R k - - - ( 13 )
这里,Gxxk,γk)是上述的增益函数中的任任何一个。虽然能够使用其它的估计器,但是,在本例子中采用MMSE谱功率估计器,以估计语音分量
Figure G2008800088655D00098
和噪声分量
Figure G2008800088655D00099
的幅度。
语音方差估计和噪声方差估计(图2,36、38)
为了计算以上的增益函数,必须从子带输入信号Yk获得方差λx(k)和λd(k)。这在图2中示出(语音方差估计36和噪声方差估计38)。对于静态噪声,很容易从初始的“安静”部分或传输即在语音开始之前估计λd(k)。对于非静态噪声,可在暂停时段期间或通过使用在参考文献[6]中提出的最小统计算法更新λd(k)的估计。可根据在参考文献[3]中提出的判决引导方法对于各时间索引m更新λx(k)的估计:
λ ^ x ( k ) = μ A ^ k 2 ( m - 1 ) + ( 1 - μ ) max ( R k 2 ( m ) - 1,0 ) - - - ( 14 )
这里,0<μ<1是预先选择的常数。
仅作为例子给出以上的估计语音分量和噪声分量的幅度的方式。可以取决于应用而采用更简单或更复杂的模型。也可以使用多个麦克风输入以获得对于噪声幅度的更好的估计。
掩蔽阈值的计算(图3,46)
一旦语音分量的幅度已被估计,就可使用心理声学模型计算相关的掩蔽阈值。为了图示该方法,假定掩蔽信号是位于各子带的中心频率处的纯音调信号并具有
Figure G2008800088655D00102
的幅度,k=1、...、K。利用这种简化,得到用于计算各子带的掩蔽阈值mk的以下过程:
1.根据下式将语音功率转换成声压级(SPL)域:
P M ( k ) = PN + 10 log 10 ( A ^ k 2 ) , k = 1 , . . . , K - - - ( 15 )
这里,通过假定合理的回放音量来选择功率归一化项PN。
2.从各单个掩蔽信号(masker)计算掩蔽阈值:
TM(i,j)=PM(j)-0.275z(fj)+SF(i,j)-SMR,i,j=1,...,K(16)
这里,fi表示子带j的中心频率,单位是Hz。z(f)是根据下式的线性频率f向Bark频率的映射:
z ( f ) = 13 arctan ( 0.00076 f ) + 3.5 arctan [ ( f 7500 ) 2 ] ( Bark ) - - - ( 17 )
并且,SF(i,j)是从子带j到子带i的扩展函数。例如,在ISO/IECMPEG-1音频心理声学模型I(参考文献[8])中给出的扩展函数如下:
SF ( i , j ) = 17 &Delta; z - 0.4 P M ( j ) + 11 , - 3 &le; &Delta; z < - 1 [ 0.4 P M ( j ) + 6 ] &Delta; z , - 1 &le; &Delta; z < 0 - 17 &Delta; z , 0 &le; &Delta; z < 1 [ 0.15 P M ( j ) - 17 ] &Delta; z - 0.15 P M ( j ) , 1 &le; &Delta; z < 8 - - - ( 18 )
这里,BarkΔz中的被掩蔽信号(maskee)-掩蔽信号分离由下式给出:
Δz=z(fi)-z(fj)    (19)
3.计算全局掩蔽阈值。这里,来自所有掩蔽信号的贡献被求和,以产生各子带k=1,...,K的掩蔽阈值的总水平:
T ( k ) = &Sigma; l = 1 M 10 0.1 T M ( k , l ) - - - ( 20 )
获得的掩蔽水平进一步被归一化:
T &prime; ( k ) = T ( k ) &Sigma; l = 1 M 10 0.1 SF ( k , j ) - - - ( 21 )
将归一化的阈值与绝对听力阈值(参考文献[7])组合,以产生全局掩蔽阈值,如下:
Tg(k)=max{Tq(k),10log10(T′(k))}    (22)
这里,Tq(k)是SPL中的子带k的中心频率处的绝对听力阈值。最后,全局掩蔽阈值被变换回电子域:
m k = 10 0.1 [ T g ( k ) - PN ]    (23)
可使用其它心理声学模型获得掩蔽阈值mk。其它的可能性包含(参考文献[8])中描述的心理声学模型I和模型II以及在(参考文献[9])中说明的心理声学模型。
抑制增益的计算(图3,50)
各子带的抑制增益gk的值(k=1,...,K)确定最终信号中的噪声降低和语音畸变的程度。为了得到最优的抑制增益,代价函数被定义如下:
Figure G2008800088655D00114
如下划线的括号表示的那样,该代价函数具有两个要素。标有“语音畸变”的项是施加抑制增益gk前后的语音分量幅度的log之间的差值。标有“可感知噪声”的项是掩蔽阈值的log和施加抑制增益gk之后的估计的噪声分量幅度的log之间的差值。注意,如果在施加抑制增益之后噪声分量的log低于掩蔽阈值,那么“可感知噪声”项消失。
代价函数可被进一步表达为:
Figure G2008800088655D00121
式(25)中的语音畸变项与可感知噪声项的相对重要性由加权因子βk确定,这里,
0≤βk<∞    (26)
最优抑制增益使由式(25)表示的代价函数最小化。
g k = arg min g k C k - - - ( 27 )
Ck关于βk的导数被设为等于零,并且二阶导数被验证为正,从而产生以下规则:
Figure G2008800088655D00123
式(28)可被解释如下:假定Gk是βk=0的情况下即与不考虑语音畸变的情况对应的使代价函数Ck最小化的抑制增益:
Figure G2008800088655D00124
很显然,由于 G k 2 &times; N k 2 &le; m k , 因此施加Gk之后的子带信号中的噪声的功率将不大于掩蔽阈值。因此,它将被掩蔽并变得听不见。换句话说,如果语音畸变不被考虑,即通过βk=0使式(25)中的“语音畸变”项为零,那么,Gk是将未掩蔽的噪声分量抑制到可听度的阈值或以下所需要的最优抑制增益。
但是,如果考虑语音畸变,那么Gk可能不再是最优的,并且会导致畸变。为了避免这一点,通过指数因子λd(m)进一步修改最终的抑制增益gk,其中,加权因子βk使语音畸变的程度相对于可感知噪声的程度平衡(见式25)。加权因子βk可由语音增强器的设计人员选择。它也可以是取决于信号的。因此,加权因子βk限定式(25)中的语音畸变项与噪声抑制项之间的相对重要性,该相对重要性又驱动对于式(29)的“非语音”抑制增益的修改程度。换句话说,βk的值越大,则“语音畸变”越多地主导对抑制增益gk的确定。
因此,βk在确定增强的信号的所得到的质量中起重要作用。一般而言,较大的βk的值导致较小的畸变语音但较大的残留噪声。相反,较小的βk的值消除较多的噪声但以在语音分量中具有较多的畸变为代价。在实际中,可根据需要调整βk的值。
一旦获知gk,就可获得增强的子带信号(“对于Yk(m)施加gk以产生增强的子带信号k=1,...,K)52:
Y ~ k ( m ) = g k Y k ( m ) , k = 1 , . . . , K . - - - ( 30 )
子带信号
Figure G2008800088655D00133
然后可用于产生增强的语音信号
Figure G2008800088655D00134
(使用合成滤波器组,从产生增强的语音信号
Figure G2008800088655D00136
k=1,...,K)54。时间索引m然后前进1(“m←m+1”56)并且重复图3的过程。
实现
可以在硬件或软件或两者的组合(例如,可编程的逻辑阵列)中实现本发明。除非另外规定,否则,作为本发明的一部分包含的过程不固有地与任何特定计算机或其它装置相关。特别地,可以与根据这里的教导而编写的程序一起使用各种通用机器,或者,构建更专用的装置(例如,集成电路)以执行所需要的方法步骤会更加方便。因此,可以以在一个或更多个可编程计算机系统上执行的一个或更多个计算机程序实现本发明,这些可编程计算机系统各包含至少一个处理器、至少一个数据存储系统(包含易失性和非易失性存储器和/或存储元件)、至少一个输入设备或端口以及至少一个输出设备或端口。对于输入数据施加程序代码以执行这里描述的功能并产生输出信息。以已知的方式对于一个或更多个输出设备施加输出信息。
可以以任何希望的计算机语言(包含机器、汇编或高级程序、逻辑或面向对象的编程语言)实现各个这种程序,以与计算机系统通信。在任何情况下,该语言可以是经过编译或解释的语言。
各个这种计算机程序优选被存储或下载到可被通用或专用可编程计算机读取的存储介质或设备(例如,固态存储器或介质或磁介质或光学介质)上,用于在存储介质或设备被计算系统读取时配置和操作该计算机以执行这里描述的过程。还可考虑将本发明的系统实现为配有计算机程序的计算机可读存储介质,这里,这样配置的存储介质使计算机系统以特定和预定的方式操作以执行这里描述的功能。
已描述了本发明的多个实施例。尽管如此,应当理解,可以不背离本发明的精神和范围而进行各种变型。例如,这里描述的步骤中的一些可以是与次序无关的,因此可以以与这里描述的次序不同的次序被执行。
                       附录A
                缩略词和术语的词汇表
DFT             离散傅立叶变换
DSP             数字信号处理
MSE             均方误差
MMSE-STSA       最小MSE短时谱幅度
MMSE-LAS        最小MSE Log谱幅度
SNR             信噪比
SPL             声压级
T/F             时间/频率
                              附录B
                            符号的列表
y(n),n=0、1、...、∞  数字化的时间信号
Figure G2008800088655D00161
                    增强的语音信号
Yk(m)                   子带信号k
Figure G2008800088655D00162
                   增强的子带信号k
Xk(m)                   子带k的语音分量
Dk(m)                   子带k的噪声分量
gk                      子带k的抑制增益
Rk(m)                   带噪语音幅度
θk(m)                  带噪语音相位
Ak(m)                   语音分量幅度
Figure G2008800088655D00163
                  估计的语音分量幅度
αk(m)                  语音分量相位
Nk(m)                   噪声分量幅度
Figure G2008800088655D00164
                 估计的噪声分量幅度
φk(m)                  噪声分量相位
G(ξk,γk)             增益函数
λx(k)                  语音分量方差
Figure G2008800088655D00165
                  估计的语音分量方差
λd(k)                  噪声分量方差
Figure G2008800088655D00166
                  估计的噪声分量方差
ξk                     先验的语音分量与噪声的比
γk                     后验的语音分量与噪声的比
ξ′k                   先验的噪声分量与噪声的比
γ′k                   后验的噪声分量与噪声的比
μ                      预选择的常数
mk                      掩蔽阈值
PM(k)           子带k的SPL信号
PN              功率归一化项
TM(i,j)        非归一化掩蔽阈值的矩阵
fi              子带j的中心频率,单位是Hz
z(fi)           线性频率到Bark频率映射函数
SF(i,j)        子带j到子带i的扩展函数
Δz             Bark中的被掩蔽信号-掩蔽信号分离
T(k)            子带k的非归一化掩蔽函数
T(k)            子带k的归一化掩蔽函数
Tg(k)           子带k的全局掩蔽阈值
Tq(k)           子带k的SPL中的绝对听力阈值
Ck              代价函数
βk             代价函数的可调整参数

Claims (9)

1.一种用于增强由语音分量和噪声分量构成的音频信号的语音分量的方法,包括:
将所述音频信号从时域变换为频域中的多个子带,
处理所述音频信号的子带,所述处理包含响应控制而自适应地降低所述子带中的一些子带的增益,其中,至少部分地从所述子带中的所述一些子带中的音频信号的噪声分量的幅度的估计得出所述控制,和
将处理后的音频信号从频域变换成时域以提供语音分量被增强的音频信号。
2.根据权利要求1的方法,其中,还至少部分地从通过对心理声学掩蔽模型应用所述音频信号的语音分量的幅度的估计得到的所述子带中的所述一些子带中的每一个子带中的掩蔽阈值得出所述控制。
3.根据权利要求2的方法,其中,当子带中的噪声分量的幅度的所述估计高于所述子带中的所述掩蔽阈值时,所述控制使得降低所述子带的增益。
4.根据权利要求3的方法,其中,所述控制使得降低子带的增益,使得施加增益改变之后的噪声分量的幅度的估计等于或低于所述子带中的掩蔽阈值。
5.根据权利要求3或4的方法,其中,响应使语音畸变的程度与可感知噪声的程度平衡的加权因子,减小增益降低的量。
6.根据权利要求5的方法,其中,所述加权因子是可选择的设计参数。
7.根据权利要求1~6中的任一项的方法,其中,音频信号的语音分量的幅度的估计已被应用于将语音分量的能量分布于相邻频率子带的扩展函数。
8.一种适于执行权利要求1~7中的任一项的方法的装置。
9.一种存储在计算机可读介质上、用于使计算机执行权利要求1~7中的任一项的方法的计算机程序。
CN2008800088655A 2007-03-19 2008-03-14 采用感知模型的语音增强 Active CN101636648B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US91898607P 2007-03-19 2007-03-19
US60/918,986 2007-03-19
PCT/US2008/003453 WO2008115445A1 (en) 2007-03-19 2008-03-14 Speech enhancement employing a perceptual model

Publications (2)

Publication Number Publication Date
CN101636648A true CN101636648A (zh) 2010-01-27
CN101636648B CN101636648B (zh) 2012-12-05

Family

ID=39512550

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008800088655A Active CN101636648B (zh) 2007-03-19 2008-03-14 采用感知模型的语音增强

Country Status (7)

Country Link
US (1) US8560320B2 (zh)
EP (1) EP2130019B1 (zh)
JP (1) JP5260561B2 (zh)
KR (1) KR101163411B1 (zh)
CN (1) CN101636648B (zh)
TW (1) TWI421856B (zh)
WO (1) WO2008115445A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103632677A (zh) * 2013-11-27 2014-03-12 腾讯科技(成都)有限公司 带噪语音信号处理方法、装置及服务器
CN103714825A (zh) * 2014-01-16 2014-04-09 中国科学院声学研究所 基于听觉感知模型的多通道语音增强方法
CN103824562A (zh) * 2014-02-10 2014-05-28 太原理工大学 基于心理声学模型的语音后置感知滤波器
CN103874002A (zh) * 2012-12-18 2014-06-18 奥迪康有限公司 包括非自然信号减少的音频处理装置
CN105390134A (zh) * 2015-10-20 2016-03-09 河海大学 一种基于子带vts的模型自适应方法
CN106030706A (zh) * 2013-12-18 2016-10-12 思睿逻辑国际半导体有限公司 话音命令触发的语音增强
CN106796802A (zh) * 2014-09-03 2017-05-31 马维尔国际贸易有限公司 用于经由非线性衰减/增益函数来消除音乐噪声的方法和装置
CN106782608A (zh) * 2016-12-10 2017-05-31 广州酷狗计算机科技有限公司 噪声检测方法及装置
CN111370017A (zh) * 2020-03-18 2020-07-03 苏宁云计算有限公司 一种语音增强方法、装置、系统

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006047600A1 (en) 2004-10-26 2006-05-04 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
TWI517562B (zh) 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
CN102684628B (zh) 2006-04-27 2014-11-26 杜比实验室特许公司 修正音频动态处理器的参数的方法以及执行该方法的设备
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
KR101137715B1 (ko) 2006-10-20 2012-04-25 돌비 레버러토리즈 라이쎈싱 코오포레이션 리셋을 사용하는 오디오 다이내믹스 프로세싱
US8396574B2 (en) 2007-07-13 2013-03-12 Dolby Laboratories Licensing Corporation Audio processing using auditory scene analysis and spectral skewness
GB2454208A (en) * 2007-10-31 2009-05-06 Cambridge Silicon Radio Ltd Compression using a perceptual model and a signal-to-mask ratio (SMR) parameter tuned based on target bitrate and previously encoded data
US8315398B2 (en) 2007-12-21 2012-11-20 Dts Llc System for adjusting perceived loudness of audio signals
TWI503816B (zh) * 2009-05-06 2015-10-11 Dolby Lab Licensing Corp 調整音訊信號響度並使其具有感知頻譜平衡保持效果之技術
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
US8718290B2 (en) 2010-01-26 2014-05-06 Audience, Inc. Adaptive noise reduction using level cues
US8538035B2 (en) 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US8781137B1 (en) 2010-04-27 2014-07-15 Audience, Inc. Wind noise detection and suppression
US8447596B2 (en) 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
JP5672437B2 (ja) * 2010-09-14 2015-02-18 カシオ計算機株式会社 雑音抑制装置、雑音抑制方法およびプログラム
US10230346B2 (en) 2011-01-10 2019-03-12 Zhinian Jing Acoustic voice activity detection
JP5177239B2 (ja) * 2011-01-21 2013-04-03 沖電気工業株式会社 コンテキストアウェアシステム及びイベントデータ生成方法
US8712076B2 (en) 2012-02-08 2014-04-29 Dolby Laboratories Licensing Corporation Post-processing including median filtering of noise suppression gains
US9173025B2 (en) 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
US9064503B2 (en) 2012-03-23 2015-06-23 Dolby Laboratories Licensing Corporation Hierarchical active voice detection
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
WO2014179021A1 (en) * 2013-04-29 2014-11-06 Dolby Laboratories Licensing Corporation Frequency band compression with dynamic thresholds
US9437212B1 (en) * 2013-12-16 2016-09-06 Marvell International Ltd. Systems and methods for suppressing noise in an audio signal for subbands in a frequency domain based on a closed-form solution
JP6361156B2 (ja) * 2014-02-10 2018-07-25 沖電気工業株式会社 雑音推定装置、方法及びプログラム
US20170011753A1 (en) * 2014-02-27 2017-01-12 Nuance Communications, Inc. Methods And Apparatus For Adaptive Gain Control In A Communication System
EP3152756B1 (en) 2014-06-09 2019-10-23 Dolby Laboratories Licensing Corporation Noise level estimation
WO2016091332A1 (en) * 2014-12-12 2016-06-16 Huawei Technologies Co., Ltd. A signal processing apparatus for enhancing a voice component within a multi-channel audio signal
KR20180055189A (ko) 2016-11-16 2018-05-25 삼성전자주식회사 자연어 처리 방법 및 장치와 자연어 처리 모델을 학습하는 방법 및 장치
EP3566229B1 (en) * 2017-01-23 2020-11-25 Huawei Technologies Co., Ltd. An apparatus and method for enhancing a wanted component in a signal
EP3535755A4 (en) * 2017-02-01 2020-08-05 Hewlett-Packard Development Company, L.P. ADAPTIVE SPEECH INTELLIGIBILITY CONTROL FOR VOICE DATA PROTECTION
US11416742B2 (en) 2017-11-24 2022-08-16 Electronics And Telecommunications Research Institute Audio signal encoding method and apparatus and audio signal decoding method and apparatus using psychoacoustic-based weighted error function
US10827265B2 (en) * 2018-01-25 2020-11-03 Cirrus Logic, Inc. Psychoacoustics for improved audio reproduction, power reduction, and speaker protection
CN111883166B (zh) * 2020-07-17 2024-05-10 北京百度网讯科技有限公司 一种语音信号处理方法、装置、设备以及存储介质
US11159888B1 (en) 2020-09-18 2021-10-26 Cirrus Logic, Inc. Transducer cooling by introduction of a cooling component in the transducer input signal
US11153682B1 (en) 2020-09-18 2021-10-19 Cirrus Logic, Inc. Micro-speaker audio power reproduction system and method with reduced energy use and thermal protection using micro-speaker electro-acoustic response and human hearing thresholds
CN112951265B (zh) * 2021-01-27 2022-07-19 杭州网易云音乐科技有限公司 音频处理方法、装置、电子设备和存储介质
WO2022256577A1 (en) * 2021-06-02 2022-12-08 Board Of Regents, The University Of Texas System A method of speech enhancement and a mobile computing device implementing the method

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2768547B1 (fr) * 1997-09-18 1999-11-19 Matra Communication Procede de debruitage d'un signal de parole numerique
US6289309B1 (en) * 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
US7492889B2 (en) * 2004-04-23 2009-02-17 Acoustic Technologies, Inc. Noise suppression based on bark band wiener filtering and modified doblinger noise estimate
US7649988B2 (en) * 2004-06-15 2010-01-19 Acoustic Technologies, Inc. Comfort noise generator using modified Doblinger noise estimate
US20080071540A1 (en) * 2006-09-13 2008-03-20 Honda Motor Co., Ltd. Speech recognition method for robot under motor noise thereof

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103874002B (zh) * 2012-12-18 2019-04-05 奥迪康有限公司 包括非自然信号减少的音频处理装置
CN103874002A (zh) * 2012-12-18 2014-06-18 奥迪康有限公司 包括非自然信号减少的音频处理装置
CN103632677B (zh) * 2013-11-27 2016-09-28 腾讯科技(成都)有限公司 带噪语音信号处理方法、装置及服务器
CN103632677A (zh) * 2013-11-27 2014-03-12 腾讯科技(成都)有限公司 带噪语音信号处理方法、装置及服务器
US9978391B2 (en) 2013-11-27 2018-05-22 Tencent Technology (Shenzhen) Company Limited Method, apparatus and server for processing noisy speech
US10755697B2 (en) 2013-12-18 2020-08-25 Cirrus Logic, Inc. Voice command triggered speech enhancement
CN106030706A (zh) * 2013-12-18 2016-10-12 思睿逻辑国际半导体有限公司 话音命令触发的语音增强
US10319372B2 (en) 2013-12-18 2019-06-11 Cirrus Logic, Inc. Voice command triggered speech enhancement
CN103714825A (zh) * 2014-01-16 2014-04-09 中国科学院声学研究所 基于听觉感知模型的多通道语音增强方法
CN103824562A (zh) * 2014-02-10 2014-05-28 太原理工大学 基于心理声学模型的语音后置感知滤波器
CN103824562B (zh) * 2014-02-10 2016-08-17 太原理工大学 基于心理声学模型的语音后置感知滤波器
CN106796802A (zh) * 2014-09-03 2017-05-31 马维尔国际贸易有限公司 用于经由非线性衰减/增益函数来消除音乐噪声的方法和装置
CN106796802B (zh) * 2014-09-03 2021-06-18 马维尔亚洲私人有限公司 用于经由非线性衰减/增益函数来消除音乐噪声的方法和装置
CN105390134B (zh) * 2015-10-20 2019-01-11 河海大学 一种基于子带vts的模型自适应方法
CN105390134A (zh) * 2015-10-20 2016-03-09 河海大学 一种基于子带vts的模型自适应方法
CN106782608A (zh) * 2016-12-10 2017-05-31 广州酷狗计算机科技有限公司 噪声检测方法及装置
CN106782608B (zh) * 2016-12-10 2019-11-05 广州酷狗计算机科技有限公司 噪声检测方法及装置
CN111370017A (zh) * 2020-03-18 2020-07-03 苏宁云计算有限公司 一种语音增强方法、装置、系统
CN111370017B (zh) * 2020-03-18 2023-04-14 苏宁云计算有限公司 一种语音增强方法、装置、系统

Also Published As

Publication number Publication date
EP2130019B1 (en) 2013-01-02
CN101636648B (zh) 2012-12-05
TW200842824A (en) 2008-11-01
WO2008115445A1 (en) 2008-09-25
US20100076769A1 (en) 2010-03-25
JP5260561B2 (ja) 2013-08-14
KR101163411B1 (ko) 2012-07-12
JP2010521715A (ja) 2010-06-24
TWI421856B (zh) 2014-01-01
US8560320B2 (en) 2013-10-15
EP2130019A1 (en) 2009-12-09
KR20090123891A (ko) 2009-12-02

Similar Documents

Publication Publication Date Title
CN101636648B (zh) 采用感知模型的语音增强
EP2191466B1 (en) Speech enhancement with voice clarity
US9805738B2 (en) Formant dependent speech signal enhancement
US6768979B1 (en) Apparatus and method for noise attenuation in a speech recognition system
US6289309B1 (en) Noise spectrum tracking for speech enhancement
EP2191465B1 (en) Speech enhancement with noise level estimation adjustment
Bahoura et al. Wavelet speech enhancement based on time–scale adaptation
EP3107097B1 (en) Improved speech intelligilibility
Shao et al. A generalized time–frequency subtraction method for robust speech enhancement based on wavelet filter banks modeling of human auditory system
JP2023536104A (ja) 機械学習を用いたノイズ削減
Alam et al. Robust feature extraction for speech recognition by enhancing auditory spectrum
Surendran et al. Variance normalized perceptual subspace speech enhancement
Maganti et al. A perceptual masking approach for noise robust speech recognition
You et al. Subband Kalman filtering incorporating masking properties for noisy speech signal
Upadhyay et al. Single-Channel Speech Enhancement Using Critical-Band Rate Scale Based Improved Multi-Band Spectral Subtraction
Upadhyay et al. A perceptually motivated stationary wavelet packet filterbank using improved spectral over-subtraction for enhancement of speech in various noise environments
Udrea et al. Reduction of background noise from affected speech using a spectral subtraction algorithm based on masking properties of the human ear
Upadhyay et al. Bark scaled oversampled WPT based speech recognition enhancement in noisy environments
Upadhyay et al. Auditory driven subband speech enhancement for automatic recognition of noisy speech
Bielawski et al. Proposition of minimum bands multirate noise reduction system which exploits properties of the human auditory system and all-pass transformed filter bank
Rao et al. A new technique for street noise reduction in signal processing applications
Ykhlef et al. Combined spectral subtraction and wiener filter methods in wavelet domain for noise reduction
Rao et al. INTERNATIONAL JOURNAL OF ENGINEERING SCIENCES & RESEARCH TECHNOLOGY SPEECH ENHANCEMENT BASED ON SELF ADAPTIVE LAGRANGE MULTIPLIER WITH WEIGHTED PERCEPTUAL WIENER DE-NOISING TECHNIQUE
Ma et al. A kalman filter with a perceptual post-filter to enhance speech degraded by colored noise
Jung et al. Speech enhancement by overweighting gain with nonlinear structure in wavelet packet transform

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant