CN1155139A - 降低语音信号噪声的方法 - Google Patents

降低语音信号噪声的方法 Download PDF

Info

Publication number
CN1155139A
CN1155139A CN 96112625 CN96112625A CN1155139A CN 1155139 A CN1155139 A CN 1155139A CN 96112625 CN96112625 CN 96112625 CN 96112625 A CN96112625 A CN 96112625A CN 1155139 A CN1155139 A CN 1155139A
Authority
CN
China
Prior art keywords
voice signal
noise
wave filter
input
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 96112625
Other languages
English (en)
Inventor
J·陈
西口正之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to CN 96112625 priority Critical patent/CN1155139A/zh
Publication of CN1155139A publication Critical patent/CN1155139A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Noise Elimination (AREA)

Abstract

提供一种用于降低语音信号中的噪声的方法,用以当输入的语音信号具有大的音调强度时,限制对预定频带的抑制作用。利用一个具有信号特性计算单元、adj计算单元32,CE和NR值计算单元、Hn值计算单元和频谱校正单元作为主要部分的装置实现该噪声降低方法。信号特性计算单元产生输入的语音信号的音调强度。adj计算单元根据音调强度产生adj值。CE和NR值计算单元根据音调强度产生NR值。Hn值计算单元根据NR值产生Hn值并设定输入的语音信号的噪声抑制率。频谱校正单元10根据噪声抑制率降低输入的语音信号中的噪声。

Description

降低语音信号噪声的方法
本发明涉及一种降低语音信号中的噪声的方法,提供该方法用以向具有滤波器的语音编码装置提供语音信号,该滤波器抑制输入到该装置本身的语音信号中的预定频带部分。
在便携式电话或语音识别的应用领域中,需要抑制包含在所记录的语音信号中的诸如环境噪声和背景噪声之类的噪声,以此来增强所记录的语音信号的有效声音部分。
作为一种增强语音或降低噪声的技术,例如在IEEE Trans.Acoust.,Speech,Signal Processing的第28卷第137-145页(1980.4)由R.J.McAulary,M.L.Malpass发表的“利用软性判定噪声抑制滤波器的语音增强作用”,或在IEEE ICASSP第II卷第363-366页(1993.4),由J.Yang发表的“在移动电话系统中的频域噪声抑制方案”中公开了具有调节衰减系数的状态概率系数的技术方案。
然而,这些用于抑制噪声的技术因为具有不适当的固定的SNR(信噪比)或不适当的抑制用滤波器,可能产生不自然的音调和失真的语音。在实际使用中,使用者不希望为了最大限度地改善效能而调节作为在噪声抑制装置中所使用的一个参数的SNR。此外,用于增强语音信号的常规技术不能在不会附带产生易受短期的S/N比明显波动的影响的语音信号失真情况下充分地消除噪声。
利用上述语音增强或噪声降低的方法,要采用检测噪声频域的技术,其中将输入电平或功率与用于鉴别噪声频域的预定阈值相比较。然而,假如阈值引起的时间常数为了防止跟踪语音从而增加的话,这样就不能跟随噪声电平的变化,特别是对于噪声电平的增加,因此导致错误地鉴别。
为了解决上述问题,本发明人在序号为Hei 6-99869(EP 683482 A2)的日本专利申请中,提出了一种用于降低语音信号中的噪声的方法。
提出上述用于降低在语音信号中的噪声的方法,在于根据语音出现的概率和根据输入的语音信号计算的S/N比,通过适当地控制一适用于计算语音部分的最大仿真性滤波器来抑制噪声。具体地说,在计算语音出现的概率时,应用频谱的差别,即输入信号的频谱小于所推算的噪声频谱。
另外,用于降低在语音信号中的噪声的上述方法,由于根据输入的语音信号的S/N比,将最大仿真~滤波器调节为最适当的滤波器,能够使得输入的语音信号中充分地消除噪声。
然而,语音出现的概率的计算需要进行复杂的大量的运算。因此,希望简化计算。
例如,可考虑利用噪声降低装置来处理语音信号,然后再输入到用于对语音信号进行编码的装置。由于用于语音信号编码的装置设有高通滤波器或用于提升信号的高通区的滤波器,如果噪声降低装置已经抑制了滤波器的低通区,则用于语音信号编码的装置运作,进一步抑制信号的低通区。因此,能够改变频率特性和从声音上再现非自然的声音。
用于降低噪声的常规的方法,可以从声音上再现非自然的声音,这是因为用于降低噪声的过程的进行,不是根据输入的语音信号的强度例如音调(Pitch)的强度,而只不过是根据推算的噪声电平。
为了得到音调强度,已知一个方法,用于在时间波形的相邻的峰值之间产生一音调延迟,然后,产生一个在该音调延迟过程中的自相关功能的数值。然而,这种方法利用的自相关函数功率是在快速付立叶变换中使用的,需要计算(NlogN)项,还要计算N的数值。因此,这种函数需要复杂的运算。
根据上述情况,本发明的一个目的是,提供一种用于降低在语音信号中的噪声的方法,使得能够简化用于抑制输入的语音信号中的噪声的运算处理。
本发明的另一个目的是,提供一种用于降低在语音信号中的噪声的方法,使得能够当输入的语音信号具有大的音调强度时抑制预定的频带部分。
根据本发明的一个方面,降低语音信号中的噪声的方法,用于向具有滤波器的语音编码装置提供一种语音信号,该滤波器抑制输入的语音信号的预定频率部分,该方法包含控制频率特性的步骤,以便使在预定频带中的噪声抑制率变小。
在语音编码装置中设有滤波器在于根据输入的语音信号的音调强度改变噪声抑制率,使噪声抑制率可以根据输入的语音信号的音调强度来改变。
该预定频带位于在语音信号的低通侧。改变噪声抑制率,以便降低在输入的语音信号的低通侧的噪声抑制率。
根据本发明的第二个方面,该噪声降低方法用于向具有滤波器的语音编码装置提供一种语音信号,该滤波器抑制输入的语音信号中的预定带部分,该方法包含当根据输入语音信号的音调强度来抑制噪声时,通过改变在每个频带的信号电平对噪声电平的比来改变噪声抑制特性。
根据本发明的再一个方面,该噪声降低方法用于向具有滤波器的语音编码装置提供一种语音信号,该滤波器抑制输入声音信号的预定频带部分,该方法包括的步骤有:将用于确定噪声抑制特性的每一个参数输入到由输入的语音信号的噪声频域确定语音频域的中间网络。
根据本发明的再一个方面,噪声降低方法用于向具有滤波器的语音编码装置提供一种语音信号,该滤波器抑制输入的语音信号的预定频带部分,该方法包括的步骤有:基本上线性地改变在dB域内的,当抑制噪声时对出现的特性处理的最大噪声抑制率。
根据本发明的再一个方面,噪声降低方法用于向具有滤波器的语音编码装置提供一种语音信号,该滤波器抑制输入的语音信号的预定频带部分,该方法包括的步骤有:通过计算由选择信号电平的峰值得到的音调附近的自相关(参数),得到输入的语音信号的音调强度。根据该音调强度控制在抑制噪声时所采用的特性。
根据本发明的再一个方面,噪声降低方法用于向具有滤波器的语音编码装置提供一种语音信号,该滤波器抑制输入的语音信号中的预定频带部分,该方法包含的步骤有:通过用于产生表示语音信号特征的参数的一个帧的操作,独立地处理按帧的语音信号,以及在一帧中通过利用产生的参数校正频谱。
在利用根据本发明的用于降低语音信号中的噪声的方法进行运算处理的过程中,通过控制用于降低噪声和用于降低在输入的语音信号的预定频带中的噪声抑制率,将语音信号提供到具有滤波器的语音编码装置,抑制输入的语音信号中的预定频带部分。
如果语音编码装置具有用于抑制语音信号的低通侧的滤波器,控制噪声抑制率,使噪声抑制率在输入的语音信号的低通侧变得较小。
利用根据本发明的降低语音信号中的噪声的方法,为了得到被检测的音调的强度,检测输入的语音信号的音调。根据得到的音调强度,控制在抑制噪声过程中采用的频率特性。
利用根据本发明的降低噪声的方法,当将用于确定在抑制噪声过程中采用的频率特性的每个参数输入到中间网络中时,由输入的语音信号中的噪声频域识别语音频域。随着处理次数的增加,这种识别将会更精确。
利用根据本发明的降低语音信号中的噪声的方法,按照如下方式得到输入的语音信号中的音调强度。在某一阶段内选择两个峰值以及选择在每个峰值的自相关数值和在各峰值之间的互相关数值。根据自相关的数值和互相关的数值计算音调强度。根据该音调强度控制在抑制噪声过程中应用的频率特性。
利用根据本发明的降低语音信号中的噪声的方法,通过用于校正频谱的一个帧和用于产生表示语音信号特征的参数的一个帧的操作,独立地进行输入的语音信号的成帧处理。例如,用于产生参数的成帧处理比用于校正频谱的成帧处理进行更多地采样。
如上所述,利用根据本发明的降低语音信号中的噪声的方法,根据输入的语音信号中的音调强度,控制降低噪声所用的滤波器的特性。以及,控制输入的语音信号的预定频带,例如噪声抑制率,使得在高通侧或低通侧变得较小。通过这种控制,如果将按照该噪声抑制率处理的语音信号作为语音进行编码,由该语音可以不重现声觉上的非自然的声音,即,提高了音调质量。
图1是表示噪声降低装置主要部分的方块图,该装置适用于根据本发明的降低语音信号中的噪声的方法;
图2是表示设在噪声降低装置中的成帧单元中进行的成帧处理的解释性的附图;
图3是表示设在噪声降低装置中的信号特性计算单元中进行的音调检测过程的解释性的附图;
图4是表示在噪声降低装置中的E[k]和衰减能量Edecay[k]的具体数值的曲线图;
图5是表示在噪声降低装置中采用的以有RMS(有效值)表示的RMS[k]、推算的噪声电平值MinRMS[k]以及最大RMS值MaxRMS[k]的具体数值的曲线图;
图6是表示在噪声降低装置中采用的,全都以[dB]表示的相对能量dBrel[k]、最大信噪比比MaxSNR[k]、用于确定噪声的一个阈值dBthresrel[k]的具体数值的曲线图;
图7是表示在噪声降低装置中对于最大信噪比比MaxSNR[k]所确定的NR-电平[k]的函数的曲线图;
图8A到8B是表示在噪声降低装置中的在一个aj值计算单元中得到adj3[w,k]的数值和频率之间相互关系的曲线图;
图9是表示用于在噪声降低装置中得到表示输入信号频谱的频率干扰区的数值的方法的解释性的曲线图;
图10是表示在噪声降低装置中设置的CE和NR值计算单元中得到的NR[w,k]的数值和Hn值计算单元中得到的最大抑制量之间相互关系的曲线图;
图11是表示一种编码装置主要部分的方块图,该装置根据用于对预测的线性代码激励进行编码的算法而运算处理的,其是利用噪声降低装置输出的一个实例;
图12是表示由在编码装置中提供的编码语音信号进行解码的解码单元主要部分的方块图;
图13是表示在根据本发明的一个实施例的用于降低语音信号中噪声的方法中的噪声频域推算的附图。
下面,参照附图进行的介绍将针对根据本发明的用于降低在语音信号中的噪声的方法。
图1表示根据本发明的用于降低在语音信号中的噪声的方法所适用的噪声降低装置。
该噪声降低装置包括噪声抑制滤波器特性发生部分35和频谱校正单元10。该发生部分35进行运算处理,以便对施加到语音信号输入端13的输入的语音信号设定一个噪声抑制率。频谱校正单元10进行运算处理,以便根据下文将更介绍的噪声抑制率降低在输入的语音信号中的噪声。在语音信号输出端14输出的语音信号送到一个编码装置,该装置根据用于对预测的线性代码激励的算法进行处理。
在该噪声降低装置中,包含语音部分和噪声部分的输入的语音信号y[t]提供到语音信号的输入端13。输入的语音信号y[t]是按照采样频率FS的数字信号。信号y[t]送到成帧单元21。在其中,信号被分成一些帧的FL采样信号。在此之后,按每一帧对信号进行处理。
成帧单元21包括第一成帧部分22和第二成帧部分1。第一成帧部分22进行运作以便改善频谱。第二成帧部分1进行运作,以便产生表示语音信号特征的参数。成帧部分22和1以独立的方式进行运作。第二成帧部分1的处理结果送到噪声抑制滤波器特性发生部分35,如下所述。处理信号用于驱动表示输入信号的信号特征的参数。下面将说明,第一成帧部分22的处理结果,根据在表示信号特征的参数上获得的噪声抑制特征,被送到频谱校正单元1O以校正频谱。
如图2A所示,第一成帧部分22进行运作,将输入的语音信号分为168个采样(点),即由168个采样(点)组成帧的长度FL,采样第K个帧的作为“帧1k”,并将其输出到窗口单元2。由第一成帧部分22得到的每一个帧“帧1k”是在由160个采样(点)组成的周期内采集的。
如图2B示,第二成帧部分1进行运作,将输入的语音信号分为200采样(点),即由200个采样(点)组成帧的长度FL,采集第K个帧作为“帧2k”,然后,将该帧输出到信号特性计算单元31和滤波单元8。由第二成帧单元1得到的每一个帧“帧2k”是在由160采样(点)组成的周期内采集的。现时的一个帧与先前的一个帧“帧2k+1”重叠8个采样(点),和邻近的一个帧“帧2k-1”重叠40个采样(点)。
假设采样频率FS是8000Hz(赫),即8KHz,按照20ms(毫秒)的规则间隔进行成帧操作,这是因为第一成帧部分22和第二成帧部分1具有由160采样(点)组成的帧的间隔FI。
再参阅图1,在利用快速付立叶变换单元3进行下次的正交变换的处理之前,窗口单元2利用对于由第一成帧单元22发出的每一帧信号Y-帧1jk的窗口函数进行窗口形成操作。在以帧为基础的信号的信号处理的最终阶段的反快速付立叶变换之后,利用窗口函数Woutput对输出信号进行窗口形成处理。窗口函数的各实例的Winput和Woutpat由如下的方程(1)和(2)提供。 W input [ j ] = ( 1 2 - 1 2 · cos ( 2 · π · j FL ) ) 1 4 O ≤ j ≤ FL - - - ( 1 ) W output [ j ] = ( 1 2 - 1 2 · cos ( 2 · π · j FL ) ) 3 4 O ≤ j ≤ FL - - - ( 2 )
接着,快速付立叶变换单元3对于利用窗口函数Winput划分窗口的以帧为基础的信号Y-帧1j,k在256点上进行快速付立叶变换,以便产生频谱的幅值。形成的频谱幅值输出到频率划分单元4和频谱校正单元10。
噪声抑制滤波器特性发生部分35由信号特性计算单元31、adj值计算32,CE和NR值计算单元36和Hn计算单元7组成。
在发生部分35,频率划分单元4进行运作,以便将对由快速付立叶变换单元3输出的该输入的语音信号进行快速付立叶变换得到的频谱的幅值划分为(例如)18频带,每个频带(其中用于识别每个频带的频带号为W)的幅值Y[w,k]输入到信号特性计算单元31、噪声频谱推算单元26和起始滤波器响应计算单元33。将频率划分为各频带中采用的频率范围的一个实例表示如下。表1
 频带号        频率范围
    01234567891011121314151617         0-125Hz125-250Hz250-375Hz375-563Hz563-750Hz750-938Hz938-1125Hz1125-1313Hz1313-1563Hz1563-1813Hz1813-2063Hz2063-2313Hz2313-2563Hz2563-2813Hz2813-3063Hz3063-3375Hz3375-3688Hz3688-4000HZ
这些频带的设定是基于这样一个事实,即人的听觉系统的听觉分辨能力朝向较高频率侧会变低。按照各个范围的幅值,采用在各个频率范围内的最大FFT(快速付立叶变换)幅值。
信号特性计算单元31进行运作,以便计算:作为每一帧的RMS值的RMS[k]、作为每一帧的相对能量的dBrel[k]、作为每一帧的推算的噪声电平值、作为每一帧的最大RMS值的MaxRMS[k]、以及作为每一帧的最大SNR值的MaxSNR[k],该每一帧由第二成帧单元1输出的Y-帧2j,k和由频率划分单元4输出的Y[w,k]开始。
首先,下面将介绍音调的检测和音调强度的计算。
在检测音调时,如图3所示,检测输入的语音信号Y-帧2j,k的各帧中间的最强的峰值作为峰值x[m1]。在存在峰值x[m1]的阶段内,检测第二(个)最强的峰值作为峰值x[m2]。m1和m2是用于校正峰值的次数t的数值。得到音调p的距离作为在峰值x[m1]和x[m2]之间的距离|m1-m2|。如在表达式(6)中所表示的,根据由表达式(3-5)、峰值x[m1]的自相关值nrgl和峰值x[m2]的自相关值nr92得到的峰值x[m1]和峰值x[m2]的互相关值nrgo,可以得到音调p的最大音调强度max_Rxx。 nrg 0 = Σ Δc = - a b x [ ml + Δt ] · x [ m 2 + Δt ] - - - ( 3 ) nigl = Σ Δc = - α b x [ ml + Δt ] · x [ ml + Δt ] - - - ( 4 ) nrg 2 = Σ Δt = - α b x [ m 2 + Δt ] · x [ m 2 + Δt ] - - - - ( 5 ) max - Rxx = nrgo max ( nrg 1 , nrg 2 ) - - - - ( 6 ) 接着,下面将介绍用于得到每一数值的方法。RMS[k]是第k帧的帧"2k"的RMS值,通过如下表达式来计算: RMS [ K ] = 1 FL · Σ j = 0 FL - 1 ( y - frame 2 j , k ) 2 - - - ( 7 )
第k帧的“帧2k”的相对能量dBre1[k]表示与前一帧(帧2k-1)的衰减能量相关连的第k帧的相对能量。由如下方程(8)计算以dB表示的这一相对能量dBre1[k]。利用如下的方程(9)和(10)得出在方程(8)中的能量值E[k]和衰减能量值Edecay。 dB rcl [ k ] = 10 · lo g 10 ( E decay [ k ] E [ k ] ) - - - ( 8 ) E [ k ] = Σ t = 1 FL ( y - frame 2 j , k ) 2 - - - ( 9 ) E decay [ k ] = max ( E [ k ] , ( exp ( - FI 0,65 · FS ) ) · E dccay [ k - 1 ] ) - - - ( 10 ) 在表达式(10)中,衰减时间假设取0.65秒。
在图4中表示能量E[k]和衰减能量Edecay[k]的具体数值。
第k帧(帧2k)的最大RMS值MaxRMS[k]是用于推算下文介绍的推算的噪声电平值和每帧的最大SN比所必须的数值。该数值由如下的表达式(11)来计算。在表达式(11)中,Q是衰减常数。这个常数最好是这样一个数值,在该值下,在时间为3.2秒时,该最大RMS值衰减l/e,具体说,θ=0.993769。
MaxRMS[k]=max(4000,RMS[k],θ·MaxRMS[k-1]
         +(1-θ)·RMS[K]                     …(11)
推算的第K帧(帧2K)的噪声电平值MinRMS[K]是一最小RMS值,其对于推算背景噪声或背景噪声电平是优选的。这一数值在由现时点起先前的5个局部最小值中必须是最小的,即该数值满足表达式(12)。
        (RMS[K]<0.6·MaxRMS[K]
        RMS[K]<4000
        RMS[K]<RMS[K+1]
        RMS[K]<RMS[K-1]and                  …(12)
        RMS[K]<RMS[K-2]or
        (RMS[K]<MinRMS)
设定该推算的噪声电平值MinRMS[K],使该电平值MinRMS[K]在无噪声的背景语音中上升。当噪声电平高时,上升速率是一指数函数。当噪声电平低时,为了保证较大的上升,采用固定的上升速率。
在图5中表示RMS值(RMS[K])、推算的噪声电平值(MinRMS[K])和最大RMS值(MaxRMS[K])。
第K帧(帧2K)的最大SN比(MaxSNR[K])是根据MaxRMS[K]和MinRMS[K]由如下表达式(13)推算的数值。 MaxSNR [ K ] = 20 · log 10 MaxRMS [ K ] MinRMS [ K ] - 1 - - - ( 13 )
此外,由最大SN比的数值(MaxSNR)计算在从0到1的范围内表示相对噪声电平的归一化的参数NR-电平[K]。该NR_电平[K]利用如下的函数。
接着,噪声频谱推算单元26进行运作,以便根据RMS[K]、dBrel[K]、NR_电平[K]、MIN RMS[K]和Max SNR[K]将语音和背景噪声相区分。即,假如满足如下的条件,在第K帧中的信号被分成背景噪声。计算由被分类成背景噪声表示的幅值作为噪声频谱的平均推算值N[w,k]。数值N输出到起始滤波器响应计算单元33。
(RMS[K]<NoiseRMSthres[K])or
(dBrel[K]>dBthres[K]))and
(RMS[K]<RMS[K-1]+200)             …(15)
其中
NoiseRMSthtes[K]=1.05+0.45·NR_level[K]×MinRMS[K]
dBthresrel[K]=amx(MaxSNR[K]-4.0,0.9·MaxSNR[K]
图6表示在表达式(15)出现的以dB表示的相对能量dBrel[K],最大SN比(MaxSNR[K])、和作为用于识别噪声的其中一个阈值的dBthresrel的具体数值。
图7表示作为在表达式(14)中出现的MaxSNR[K]的函数的NR_电平[K]。
如果将第K帧分为背景噪声或噪声,如在如下的表达式(16)所示,用现时帧的输入信号频谱的幅值Y[w,k]更新噪声频谱的时间平均计算值N[w,k]。在数值N[w,k]中,w代表对于每个划分的频带的频带号。
N[w,k]=α·max(N[w,k-1],Y[w,k])
    +(1-α)·min(N[w,k-1),Y[w,k])
                                               …(16) α = exp ( - FI 0.5 · FS )
假如第K帧被分成为语音,N[w,k]则直接采用N[w,k-1]的数值。
接着,根据RMS[K]、MinRMS[k]和MaxRMS[k],adj值计算单元32进行运作,以便根据表达式(17)利用adj1[k]、adj2[K]和adj3[K](这些将在下文介绍)来计算adj[w,k]。将adj[w,k]输出到CE值和NR值计算单元36。
adj[w,k]=min(adjl[k],adj2[k])-adj3[w,k]   …(17)
这里,在表达式(17)中出现的adjl是这样一个数值,其在所有频带范围内为高SN比时,根据滤波处理(下文介绍)的噪声抑制率的抑制过程中是有效的。按下表达式(18)确定adjl[K]。
在表达式(17)中出现的adj2[K]是这样一个数值,即其在根据对于十分高或十分低的噪声电平进行的上述滤波处理,在噪声抑制率的抑制过程中是有效的。由如下表达式(19)确定adjl[K]。
在表达式(17)中出现的adj3[w,k]是这样一个数值,用于当如图3所示的输入的语音信号的音调p的强度,特别是最大音调强度(max_Rxx)大时,控制在低通或高通侧的噪声抑制量。例如,假若音调强度大于预定的数值和输入的语音信号电平大于噪声电平,如图8A中所示,在低通侧adj3[w,k]取一预定的数值,在高通侧随频率w线性变化,在其它频带内取为数值0。另一方面,如图8B所示,在低通侧adj3[w,k]取一预定的数值,在其它频带取为数值0。
例如,adj3[w,k]的定义表示在表达式(20)中。 max - Rxx [ t ] max - Rxx [ o ] > 0.55 and
RMS[k]>0.8MinRMS[k]+0.2·MaxRMS[k]
Figure A9611262500232
otherwise adj 3 &lsqb; w , k &rsqb; = { 0 w &GreaterEqual; 200 Hz 0.2 w < 200 Hz - - - ( 20 )
在表达式(20)中,利用第一最大音调强度max_Rxx(0)使最大音调强度max_Rxx[t]归一化。利用由MinRMS[K]和Max RMS[K]得到的数值将输入的语音电平和噪声电平相比较。
CE和NR值计算单元36进行运作,以便得到用于控制滤波器特性的NR值,并将该NR值输出到Hn值计算单元7。
例如,利用如下的表达式(21)确定与NR值相对应的NR[w,k]。NR[w,k]=(1.0-CE[K])·NR′[w,k]                 …(21)
Figure A9611262500241
根据表达式(22)利用由adj值计算单元32输出的adj[w,k]得到表达式(21)中的NR′1[w,k]。
CE和NR值计算单元36还进行运作,以便计算在表达式(21)中所用的CE[k]。CE[k]是用于表示在输入信号频谱的幅值Y[w,k]中包含的恒定的部分。对于每一帧检测这些恒定的部分。下面将介绍各常数的具体检测。
假如音调强度大于预定的值和输入的语音信号大于噪声电平,即在表达式(20)的第一部分中表示的条件得到满足,CE[K]取例如为0.5的数值。假如该条件不满足,按照下述的方法确定的数值取为CE[K]。
首先,在这样一个部分,即在Y[w,k]中的连续的采样(点)之间由正到负或由负到正使符号变反的部分,或者在这样一个部分,即数值为0的采样(点)位于各具有彼此相反的符号的各采样(点)之间的部分,检测过零点。检测在每一帧的过零点的数目。作为过零点数EC[K]的这一数值用于下面介绍的处理。
接着,检测音调(tone)。该音调意指,代表Y[w,k]的频率分量分布的数值,例如在高通侧的输入信号频谱的平均电平t′对在低通侧的输入信号频谱的平均电平b′的比t′/b′(=tone[K]),如图9所示。这些数值t′和b′是这样的数值t和b,在这些数值下,按照下述的表达式(23)中所定义误差(error)函数ERR(fc,b,t)取最小值。在表达式(23)中,NB代表频带的号数。Ymax代表在频带w中的Y[w,k]的最大数值,fc代表高通与低通分开的一个点。在图9中,在频率fc下,在低通侧的Y[w,k]的平均数值取为数值b。在高通侧的Y[w,k]的平均数值取为数值t。 fc = 2 _ NB b , tcR min - 3 Err ( fc , b , t ) = &Sigma; w = 0 fc ( Y max &lsqb; w , k &rsqb; - b ) 2 + &Sigma; w = fc + 1 NB - 1 ( Y max &lsqb; w , k &rsqb; - t ) 2 - - - ( 23 )
根据RMS值和过零点的数目,检测接近该检测语音帧的帧,即语音近似帧。根据下面介绍的表达式(14)得到音节近似帧号Spch_Prox[K],然后输出。
根据过零点的数目,检测语音近似帧的数目、音调和RMS值,每帧的Y[w,k]中的音节部分。按照音节检测结果,由下述表达式(25)得到CE[K]。
Figure A9611262500262
按照下表定义每个符号C1、C2、C3、C4.1到C4.7。
                表2
   符号             定义
    C1   RMS[K]>CDSO·MinRMS[K]
    C2   ZC[K]>Z low
    C3   spch_prox[K]<T
    C4.1   RMS[K]>CDS1·RMS[K-1]
    C4.2   RMS[K]>CDS1·RMS[K-2]
    C4.3   RMS[K]>CDS1·RMS[K-3]
    C4.4   ZC[K]>Z high
    C4.5   tone[K]>CDS2·tone[K-1]
    C4.6   tone[K]>CDS2·tone[K-2]
    C4.7   tone[K]>CDS2·tone[K-3]
(注:表中low为低,high为高,tone为音调)
在表2中,每个数值CDS0、CDS1、CDS2、T、Zlow和Zhigh是用于确定所检测的音节的灵敏度的常数。例如这些数值是这样的,CDS0=CDS1=CDS2=1.41,T=20,Zlow=20和Zhigh=785。在表达式(25)中的E取为0到1的数值。调节滤波器响应(下文介绍),以便当E的数值接近0时,使音节抑制率接近正常的抑制率,而当E的数值接近1时,使音节抑制率接近最小抑制率。例如,E取数值0.7。
在表2中,在某些帧处,假如符号C1被固定,这表明该帧的信号电平大于最小噪声电平。假如符号C2被固定,这表明过零点的数目大于过零点的预定数目Zlow(在这个实施例中为20)。假如符号C3被固定,这表明现时的帧处在被检测声音速度的帧处开始的T个帧内,在这一实施例中,在20个帧内。
假如符号C4被固定,表明在现时帧中信号电平被改变。假如符号C4.2被固定,表明现时帧是这样一个帧,它的信号电平的变化迟于语音信号变化一个帧。假如符号C4.4被固定,表明过零点的数目大于预定的过零点数目Zhigh,在这一实施例中,在现时帧处为75。假如符号C4.5被固定,表明在该帧,音调值改变。假如符号C4.6被固定,表明现时帧是这样一个帧,它的音调值变化要比语音信号的变化晚一个帧。假如符号C4.7被固定,表明现时帧是这样一个帧,它的音调值变化比语音信号的变化晚2个帧。
在表达式(25)中,该帧包含音节部分的条件如下:满足符号C1到C3的条件,保持tone[K]大于0.6,以及满足C4.1到C4.7的各条件中的至少一个条件。
此外,起始滤波器响应计算单元33进行运作,以便将由噪声频谱推算单元26输出的噪声时间平均值N[w,k]和由频带划分单元4输出的Y[w,k]提供到滤波器抑制曲线表34,求出与Y[w,k]相对应的H[w,k]的数值和存储在滤波器抑制曲线34中的N[w,k],并且将H[w,k]输出到Hn值计算单元7。滤波器抑制曲线表34存储关于H[w,k]的数据表。
Hn值计算单元7是一个用于降低该被分成为各频带的输入信号频谱的幅值Y[w,k]的噪声部分、噪声频谱的时间平均推算值N[w,k]和NR[w,k]的前置滤波器。在前置滤波器中,根据N[w,k]将Y[w,k]变换为Hn[w,k]。然后,前置滤波器输出滤波器响应Hn[w,k]。根据下述表达式(26)计算Hn[w,k]值。
  Hn[w,k]=exp{NR[w,k]·ln(H[w][S/N=r]))      …(26)
  20·log10(H[w,k]=NR[w,k]·K                 …(27)其中K是常数。
在表达式(26)中的数值H[w][S/N=r]对应于当SN比固定到某一数值r时提供的最适当的噪声抑制滤波器特性。根据Y[w,k]/N[w,k]的数值将这一数值列表并存储在滤波器抑制曲线表34中。H[w][S/N=r]是在dB域内线性变化的数值。
由表达式(26)向表达式(27)的变换结果表明,关于最大抑制率的函数式的左侧与NR[w,k]具有线性关系。该函数与NR[w,k]之间的关系可以表示在图10中。
滤波单元8进行运作,对沿频率轴和时间轴方向的Hn[w,k]值进行平滑的滤波处理,并输出经平滑处理的信号Ht-snooth[w,k]。沿频率轴的滤波处理在降低Hn[w,k]的有效脉冲响应长度方面是有效的。这样就使得能够防止频率混淆的出现,这种混淆是由于在频人由以乘法为基础的滤波器形成的循环卷积引起的。沿时间轴的滤波处理在限制用于抑制不希望存在的噪声的滤波器的变化速度方面是有效的。
首先,介绍沿频率轴的滤波处理。对于每一频带的Hn[w,k]进行中间滤波处理。如下的表达式(28)和(29)说明这个。
stepl:H1[w,k]=max{median[Hn[w-1,k],Hn[w,k]     …(28)
                 H[w+1,k],Hn[w,k]}其中H1[w,k]=Hn[w,k](在无(w-1)或(w+1)的情况下)。
step2:H2[w,k]=min{median(h1[W-1,K],H1[w,k]     …(29)H1[w+1,k],H1[w,k]其中,H2[w,k]=H1[w,k](在无(w-1)或(w+1)的情况下)。
在表达式(28)的第一级(stepl),H1[w,k]是不具有单值或孤立的0频带的Hn[w,k]。在表达式(29)的第二级(step2),H2[w,k]是不具有单值或孤立的频带的H1[w,k]。按照这种关系,将Hn[w,k]变换为H2[w,k]。
下面,将介绍沿时间轴的滤波处理。在沿时间轴进行滤波处理的过程中,需要考虑,输入信号具有3种状态,即语音,背景噪声、和语音的暂态前沿。对于语音信号Hspeech[w,k],如在表达式(30)中所示,进行沿时间轴的平滑处理。
Hspeech[w,k]=0.7·H2[w,k]+0.3·H2[w,k-1]  …(30)
Hnoise[w,k]=0.7·Min_H+0.3·Max_H            …(31)其中Min_H=min(H2[w,k],H2 [w,k-1])
Max_H=Max(H2[w,k],H2[w,k-1])
对于背景噪声信号,进行如在下面的表达式(31)中所示进行沿时间轴的平滑处理。
对于暂态信号,不进行沿时轴的平滑处理。
利用上述经平滑处理的信号,计算表达式(32),可以得到经平滑处理的输出信号Ht_smooth[w,k]。 = ( 1 - &alpha; tr ) &CenterDot; ( &alpha; BP &CenterDot; + &alpha; tr &CenterDot; H 2 &lsqb; w , k &rsqb; H t _ smooth &lsqb; w , k &rsqb; H Speech &lsqb; w , k &rsqb; + ( 1 - &alpha; sp ) &CenterDot; H noise &lsqb; w , k &rsqb; ) - - - ( 32 )
where SNR inst = RMS &lsqb; K &rsqb; MinRMS &lsqb; K &rsqb;
where &delta; rms = RMS local &lsqb; k &rsqb; RMS local &lsqb; k - 1 &rsqb; RMS local &lsqb; k &rsqb; = 1 FI &CenterDot; &Sigma; j = FI / 2 FL = FJ / 2 ( y - frame 2 j , k ) 2
这里,在表达式(32)中的asp可以由表达式(33)得到,atr可以由表达式(34)得到。
接着,频带变换单元9进行运作,以便经过内插操作,将例如为18个频带的经平滑处理的信号Ht_smooth[w,k](来自滤波单元8)扩展为例如为128个频带的信号H128[w,k]。然后,该频带变换单元9输出形成的信号H128[w,k]。这种变换例如按照2个阶段进行。利用零度固定处理,进行由18个频带向64个频带的扩散。经过低通滤波器型的内插,进行从64个频带到128个频带的进一步扩展。
接着,频谱校正单元10进行运作,以便将对来自快速付立叶变换单元3的成帧的信号Y帧Y,k进行FFT,得到的FFT系数的实数部分和虚线部分与信号H128[w,k]相乘,来改善频谱,即减少噪声部分。然后,频谱校正部分10输出形成的信号。因此,没有进行相位的变换就校正了频谱幅值(特性)。
接着,反快速付立叶变换单元11进行运作,对于在频谱校正单元10中得到的信号进行反FFT,然后输出形成的IFFT信号。然后,重叠相加单元12进行运作,以便将一个帧的IFFT信号的帧的边界与另一帧的边界相重叠,在语音信号的输出端14,输出形成的输出语音信号。
此外,还应考虑到这种情况,即例如将这一输出应用于一进行线性预测编码激励的算法。在图11中表示了以该算法为基础进行编码的装置。在图12中表示了以该算法为基础进行解码的解码装置。
如图11所示,编码装置的配置在于,将来自输入端61的输入的语音信号提供到线性预测编码(LPC)分析单元62和减法器64。
LPC分析单元62对于输入的语音信号进行线性预测,并向合成滤波器63输出预测的滤波器系数。提供两种代码手册,固定的代码手册67和动态的代码手册68。将来自固定的代码手册67的码字以乘法器81的增益系数。将来自态的代码手册68的另一个码字以乘法器81的增益系数。两个相乘的结果送到加法器69,在其中两者相加。相加的结果输入到具有预测滤波器系数的LPC合成滤波器。LPC合成滤波器将合成的结果输出到减法器64。
减法器64进行运算,以便得到输入的语音信号和来自合成滤波器63的合成结果之间的差,并将该差输出到声音加权滤波器65。滤波器65进行运算,以便根据在每个频带的输入的语音信号的频谱对该差信号进行加权运算,然后将经加权的信号输出到误差检测单元66。误差检测单元66进行运作,以便计算由滤波器65输出的经加权的误差信号的能量,产生对于每个代码手册的码字,使得在对固定的代码手册67和动态的代码手册68组成的代码手册进行检索时,使经加权的误差能量达到最小。
编码装置进行运作,以便向解码装置传输固定的代码手册67的码字的索引(index)、动态的代码手册68的码字的索引和每个乘法器的每个增益系数的索引。LPC分析单元62进行运作,以便发送每个参数的量化的索引,根据该参数产生滤波器系数。解码装置进行运作,利用这些索引中的每个索引进行解码处理。
如图12所示,解码装置还包括固定的代码手册71和动态的代码手册72。使用固定的代码手册71,以便根据固定的代码手册67的码字的索引取出码字。使用动态的代码手册72,以便根据动态代码手册72的码字的索引取出码字。此外,提供两个根据对应的增益系数索引进行运算的乘法器83和84。标号74代表一合成滤波器,其接收某些参数,例如来自编码装置的量化的索引。合成滤波器74进行运算,以便将来自两个代码手册的码字的相乘结果与激励信号的增益系数综合而成,然后向后置滤波器75输出合成的信号。后置滤波器75进行所谓的主频~加重处理,使信号的峰谷变得更清晰。由输出端76输出经主频加重的语音信号。
为了按照声觉加强更优选的语音信号,该算法包含抑制编码的语音信号的低通侧或提升其高通侧的滤波处理。解码装置提供抑制了低通侧的经解码的信号。
如上所述,利用降低语音信号中的噪声的方法,推算adj值计算单元32的adj3[w,k]的数值,使语音信号低通侧的预定数值具有大的音调和与语音信号的高通侧的频率成线性关系。因此,语音信号的低通侧的抑制被向低限制。这样就能避免对由算法进行主频加重的语音信号的低通侧形成过分抑制。这意味着,该编码装置可以降低频率特性的显著变化。
在上面的介绍中,配置该噪声降低装置在于向语音编码装置输出语音信号,该装置对于语音信号的低通侧进行抑制,并对其高通侧进行提升的滤波处理。通过适当地设定adj3[w,k],使得当抑制噪声时,将对语音信号的高通侧的抑制被抑制,可以配置噪声降低装置,以使向语音编码装置输出语音信号,该装置运作,以便例如抑制语音信号的高通侧。
CE和NR值计算单元36进行运作,以便根据音调强度改变用于计算CE值的方法,以及根据利用该方法的CE值来确定NR值。因此,根据音调强度可以计算NR值,这样通过利用根据输入的语音信号计算的NR值。就能够进行噪声抑制。这样能降低频谱量化误差。
Hn值计算单元7进行运作,以便在dB域内相对于NR[w,k]基本上线性地变化Hn[w,k],使得NR值对于Hn值的变化的影响可以是经常连续的。因此,Hn值的变化可遵照NR值的突然变化。
为了在信号特性计算单元31中计算最大音调强度,不需要进行自相关函数例如在FFT处理中采用的(N+logN)的复杂的运算。例如,在处理200采样(点)的情况下,上述的自相关函数需要进行50000次处理操作,而根据本发明的自相关函数仅需要3000次处理操作。这样就能够提高运算速度。
如在图2A中所示,第一成帧单元22进行运作,以便对语音信号采样,使帧长度FL对应于168个采样(点)和将现时帧与失前的一个帧重叠8个采样(点)。如在图2B中所示,第二成帧单元1进行运作,以便对语音信号采样,使帧长度FL对应于200个采样(点),现时帧与先前的一个帧重叠40采样(点)以及与邻近的一个帧重叠8个采样(点)。调节第一和第二成帧单元22和1,将每一帧的起始位置设在相同的直线上,第二成帧单元1对比第一成帧单元22采样之后的32个采样(点)进行采样操作。因此,在第一和第二成帧单元22和1之间没有产生延迟,这样为了计算信号特性数值可以取更多的采样(点)。
使用RMS[K]、MinRMS[K]、tone[w,k]、ZC[w,k]和Rxx作为向用于推算噪声间隔的后传输型中间网络的输入量。
在中间网络中,将RMS[K]、MinRMS[K]、tone[w,k]、ZC[w,k]和Rxx提供到输入层的每个(输入)端上。
当向这些数值进行突触(synapse)加权时,提供到该输入层的每一(输入)端上的数值输出到中间层。
中间层接收以加权的数值和来自偏置部分51的偏置数值,在对这些数值进行预定处理后,该中间层输出经处理的结果值。该结果值被加权。
输出层接收来自中间层的加权结果值和来自偏置部分52的偏置数值。在对这些数值进行预定的处理后,该输出层输出推算的噪声间隔。
由偏置部分51和52输出的偏置数值以及适当地确定对该输出的加权,以便实现所谓的优选的变换。因此,当处理更多的数据时,明显地提高了或然率。即,处理过程重复更多时,推算的噪声电平和频谱就更接近在划分语音和噪声信号时的输入的语音信号。这样就能计算精确的Hn值。

Claims (11)

1.一种用于降低语音信号中的噪声的方法,所述方法用于具有一个滤波器的语言编码装置提供语音信号,该滤波器用于抑制输入到装置上的语音信号中的预定频带部分,包含的步骤有:
控制频率特性,以便降低在所述预定频带中的噪声抑制率。
2.如权利要求1所述的噪声降低方法,其中,所述滤波器的构成在于根据所述输入的语音信号的音调强度改变它的噪声抑制率。
3.如权利要求2所述的降低噪声的方法,其中,改变所述噪声抑制率,以便使在所述输入的语音信号的高通侧的噪声抑制率较小。
4.如权利要求1所述的降低噪声的方法,其中,所述的预定频带位于语音信号的低通侧,以及改变噪声抑制率,以便使在所述输入的语音信号的低通侧的噪声抑制率较小。
5.一种用于降低在语音信号中的噪声的方法,所述方法用于向具有一滤波器的语音编码装置提供语音信号,该滤波器用于抑制提供到装置上的语音信号的预定频带部分,包含的步骤有:当根据所述输入的语音信号的音调强度抑制噪声时,对照在每一频带内的信号电平与噪声电平的比,改变噪声抑制特性。
6.如权利要求5所述的降低噪声的方法,其中,控制所述噪声抑制特性,以便当所述音调强度大时,使噪声抑制率变小。
7.一种用于降低语音信号中的噪声的方法,所述方法用于向具有一个滤波器的语音编码装置提供语音信号,该滤波器用于抑制输入到装置上的语音信号的预定频带部分,包含的步骤有:
向用于将所述输入的语音信号的噪声间隔与所述输入的语音信号的语音间隔相区分的中间网络输入用于确定噪声抑制特性的每一参数。
8.如权利要求7所述的降低噪声的方法,其中,所述的输入到所述中间网络的参数是按均方根和所述输入的语音信号的推算的噪声电平保持的。
9.一种用于降低语音信号中的噪声的方法,所述方法用于向具有一滤波器的语音编码装置提供语音信号,该滤波器用于抑制提供到装置上的语音信号的预定频带部分,包含的步骤有:
线性地改变根据在dB域内的噪声抑制特性确定的最大抑制比。
10.一种用于降低语音信号中的噪声的方法,所述方法用于向具有一滤波器的语音编码装置提供语音信号,该滤波器用于抑制提供到装置上的语音信号的预定频带部分,包含的步骤有:
通过计算接近根据选择信号电平的峰值得到的音调位置的自相关参数产生所述输入的语音信号的音调强度;以及
根据所述音调强度控制所述噪声抑制特性。
11.一种用于降低语音信号中的噪声的方法,所述方法用于向具有一个滤波器的语音编码装置提供语音信号,该滤波器用于抑制提供到装置上的语音信号的预定频带部分,包含的步骤有:
通过用于计算表示所述语音信号的特征的一帧和用于利用怕述计算参数校正频谱的一帧的操作,独立地对于所述输入的语音信号进行成帧操作处理。
CN 96112625 1995-06-30 1996-06-29 降低语音信号噪声的方法 Pending CN1155139A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 96112625 CN1155139A (zh) 1995-06-30 1996-06-29 降低语音信号噪声的方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP187966/95 1995-06-30
CN 96112625 CN1155139A (zh) 1995-06-30 1996-06-29 降低语音信号噪声的方法

Publications (1)

Publication Number Publication Date
CN1155139A true CN1155139A (zh) 1997-07-23

Family

ID=5121526

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 96112625 Pending CN1155139A (zh) 1995-06-30 1996-06-29 降低语音信号噪声的方法

Country Status (1)

Country Link
CN (1) CN1155139A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101632119B (zh) * 2007-03-05 2012-08-15 艾利森电话股份有限公司 用于对稳态背景噪声进行平滑的方法和设备
CN103229236A (zh) * 2010-11-25 2013-07-31 日本电气株式会社 信号处理装置、信号处理方法、及信号处理程序
CN110036440A (zh) * 2016-10-18 2019-07-19 弗劳恩霍夫应用研究促进协会 用于处理音频信号的装置和方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101632119B (zh) * 2007-03-05 2012-08-15 艾利森电话股份有限公司 用于对稳态背景噪声进行平滑的方法和设备
CN103229236A (zh) * 2010-11-25 2013-07-31 日本电气株式会社 信号处理装置、信号处理方法、及信号处理程序
CN103229236B (zh) * 2010-11-25 2016-05-18 日本电气株式会社 信号处理装置、信号处理方法
CN110036440A (zh) * 2016-10-18 2019-07-19 弗劳恩霍夫应用研究促进协会 用于处理音频信号的装置和方法
CN110036440B (zh) * 2016-10-18 2023-09-29 弗劳恩霍夫应用研究促进协会 用于处理音频信号的装置和方法

Similar Documents

Publication Publication Date Title
EP0751491B1 (en) Method of reducing noise in speech signal
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
US7680653B2 (en) Background noise reduction in sinusoidal based speech coding systems
US8554548B2 (en) Speech decoding apparatus and speech decoding method including high band emphasis processing
CN1750124A (zh) 带限音频信号的带宽扩展
CN101976566B (zh) 语音增强方法及应用该方法的装置
CN102341852B (zh) 滤波语音信号的方法和滤波器
CN1265217A (zh) 在语音通信系统中语音增强的方法和装置
US20030061037A1 (en) Method and apparatus for identifying noise environments from noisy signals
CN1735926A (zh) 语音处理中用于人工扩展带宽的方法和设备
CN107068158B (zh) 用于改善低速率码激励线性预测解码器的非语音内容的方法及其设备
CN1669074A (zh) 话音增强装置
CN1430778A (zh) 噪声抑制装置
CN1113335A (zh) 降低语音信号中噪声的方法和检测噪声域的方法
CN1159691A (zh) 用于声频信号线性预测分析的方法
CN1152776A (zh) 复制语言信号、解码语音、合成语音的方法和装置
CN1496032A (zh) 噪声抑制装置
CN1969319A (zh) 信号编码
US9842607B2 (en) Speech intelligibility improving apparatus and computer program therefor
CN1141548A (zh) 用来降低语音信号中噪声的方法和装置
CN1820306A (zh) 可变比特率宽带语音编码中增益量化的方法和装置
US7606702B2 (en) Speech decoder, speech decoding method, program and storage media to improve voice clarity by emphasizing voice tract characteristics using estimated formants
CN1161750C (zh) 语音编码译码方法和装置、电话装置、音调变换方法和介质
US20040148160A1 (en) Method and apparatus for noise suppression within a distributed speech recognition system
CN1155139A (zh) 降低语音信号噪声的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication