CN101627428A - 抑制杂音的方法、装置以及程序 - Google Patents

抑制杂音的方法、装置以及程序 Download PDF

Info

Publication number
CN101627428A
CN101627428A CN200880007275A CN200880007275A CN101627428A CN 101627428 A CN101627428 A CN 101627428A CN 200880007275 A CN200880007275 A CN 200880007275A CN 200880007275 A CN200880007275 A CN 200880007275A CN 101627428 A CN101627428 A CN 101627428A
Authority
CN
China
Prior art keywords
sound
impulsive sound
impulsive
mentioned
region signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200880007275A
Other languages
English (en)
Inventor
杉山昭彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of CN101627428A publication Critical patent/CN101627428A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Abstract

本发明提供一种可以在没有冲击音发生信息的条件下,抑制冲击音,并输出高音质的强调声音的杂音抑制方法、装置、以及程序。其特征为具有:接收包含冲击音的输入信号,根据其变化,对冲击音进行检测的冲击音检测部;和接收冲击音检测结果和输入信号,来抑制冲击音的冲击音抑制部。

Description

抑制杂音的方法、装置以及程序
技术领域
本发明涉及抑制在理想的声音信号中叠加的杂音的杂音抑制方法、装置以及程序。
背景技术
噪声抑制器(杂音抑制系统)是用于抑制叠加在理想的声音信号中的杂音(噪声)的系统,一般,其工作方式为:利用转换为频域的输入信号,估算杂音分量的功率谱,从输入信号中减去该估算的功率谱,从而抑制混在理想的声音信号中的杂音。另外,也可以应用于通过继续估算杂音分量的功率谱来抑制非固定的杂音。作为噪声抑制器,例如,有专利文献1中所记载的方式。
另外,作为实现消减计算量的方式,有非专利文献1中所记载的方式。
这些方式的基本工作方式都一样。也就是说,通过线性转换将输入信号转换为频域,并获取振幅分量,按照每一频率分量计算抑制系数。将该抑制系数、各频率分量中的振幅之积、各频率分量的相位进行组合后进行逆转换,来获得杂音得到抑制的输出。此时,抑制系数为0和1之间的数值,如果是0,则被完全抑制而输出为0;如果是1,则没有抑制而以其原样被输出。在抑制系数的计算中,一起使用输入信号和杂音的估算值。杂音的估算方式多种多样,例如,可以使用上述专利文献中所公开的加权杂音估算。但是,包含加权杂音估算的以往的杂音估算,在估算的一部分中包含平均化操作,不能估算键式(key type)音那样的冲击音。
与此相对,非专利文献2中公开了特别应用于个人电脑的、利用键的按下信息和松开信息来抑制键式音的方法。该方法基于键式音以外的信号不会突然发生时间上·频率上的变化这一假设,来预测时间·频率平面的特定区域中的输入信号强度,并当所获得的预测值与实际的强度之差大时,判断为键式音。此时,为了提高键式音的检测精确度,共同使用键的按下信息和松开信息。
非专利文献2中所公开的噪声抑制器的结构如图34所示。作为采样值系列被提供给图34的输入端子1的变差声音信号(理想信号与冲击音混在一起的信号)在转换部2中,实施傅立叶变换等的转换后,被分割为多个频率分量,并提供给冲击音检测部18和冲击音抑制部19。键松开信息和键按下信息被分别从输入端子91和92提供给冲击音检测部18。冲击音检测部18利用时间·频率平面的特定区域中的输入信号强度的预测值与实际强度之差,检测出键式音。首先,通过使用了到1帧之前为止的振幅的线性预测,计算当前的帧的振幅。接下来,计算基于所预测的振幅与实际的振幅之差的声音似然(likelihood)。若键按下信息或键松开信息被从端子92或91传递,则冲击音估算部18将当前的帧的前后的多个帧中声音似然最小的帧中的冲击音的存在概率设为1。在除此以外的帧、以及没有键按下信息或键松开信息的通知的帧中,将冲击音的存在概率设为0。冲击音的存在概率被提供给冲击音抑制部19。
对于冲击音的存在概率为1的帧,冲击音抑制部19使用其紧接之前的和紧接之后的帧中的振幅,用统计的方法计算振幅,并将其作为强调声音的振幅来输出。通过局部地进行所使用的统计模式的平均和分散的计算,并对这些值进行适应性控制,可以改善估算振幅的精确度。关于具体的计算步骤,非专利文献2中已经公开,所以省略。对于冲击音存在概率为0的帧不进行任何操作,将输入的变差声音的振幅按原样地作为强调声音的振幅传递给逆转换部3。逆转换部3将由冲击音抑制部19提供的冲击音抑制声音功率谱与由转换部2提供的变差声音的相位进行组合后进行逆转换,作为强调声音信号采样,提供给输出端子4。
专利文献1:JP特开2002-204175号公报
非专利文献1:2006年5月,PROCEEDING OFICASSP,VOL.1,PP.473-476,MAY,2006,473-476页
非专利文献2:2006年9月,PROCEEDINGS OF ICSLP,PP.261-264,SEP,2006,261-264页
专利文献1和非专利文献1中所公开的以往的结构中,应抑制的杂音的估算中包含平均化操作,不能跟踪键式音那样的冲击音。因此,就产生了不能抑制键式音那样的冲击音的问题。另外,非专利文献2中所公开的方法的问题是:为了达到充分的冲击音的检测精确度,需要键的按下·松开等冲击音产生的信息。
发明内容
因此,本发明是鉴于上述技术课题而完成的,其目的是提供一种在没有冲击音发生信息的条件下,可以抑制冲击音,输出音质高的强调声音的杂音抑制方法、装置以及程序。
本发明的杂音抑制方法、装置、以及程序的特征是:根据输入信号的变化,检测出冲击音,在检测出的时候进行抑制。
也就是说,用于解决上述课题的本发明为抑制杂音的方法,其特征为:将输入信号转换为频域信号,使用该频域信号的变化量,来求取有关是否存在冲击音的信息,使用该有关是否存在冲击音的信息和上述频域信号,来抑制冲击音。
另外,用于解决上述课题的本发明为抑制杂音的装置,其特征为,具有:将输入信号转换为频域信号的转换部;使用该频域信号的变化量,来求取有关是否存在冲击音的信息的冲击音检测部;和使用该有关是否存在冲击音的信息和上述频域信号,来抑制冲击音的冲击音抑制部。
另外,用于解决上述课题的本发明为抑制杂音的程序,其特征为,使计算机执行:将输入信号转换为频域信号;使用该频域信号,来求取有关是否存在声音的信息;使用该有关是否存在声音的信息、上述频域信号的变化量和平坦度,来求取有关是否存在冲击音的信息;使用上述有关是否存在声音的信息、有关是否存在冲击音的信息、和上述频域信号,来求出冲击音估算值;使用该冲击音估算值和上述频域信号来抑制冲击音,生成强调声音的处理。
发明的效果
本发明中,根据输入信号的变化,对冲击音进行检测。
因此,能够在没有冲击音发生信息的条件下,抑制冲击音,并输出高音质的强调声音。
附图说明
图1是表示本发明的最佳实施方式的框图。
图2是表示图1中所包含的转换部的构成的框图。
图3是表示图1中所包含的逆转换部的构成的框图。
图4是表示图1中所包含的冲击音检测部的构成的框图。
图5是表示图1中所包含的冲击音检测部的第2构成的框图。
图6是表示本发明的第2实施方式的框图。
图7是表示图6中所包含的冲击音检测部的构成的框图。
图8是表示图6中所包含的冲击音检测部的第2构成的框图。
图9是表示本发明的第3实施方式的框图。
图10是表示图9中所包含的冲击音估算部的构成的框图。
图11是表示图9中包含的冲击音估算部的第2构成的框图。
图12是表示本发明的第4实施方式的框图。
图13是表示本发明的第5实施方式的框图。
图14是表示本发明的第6实施方式的框图。
图15是表示本发明的第7实施方式的框图。
图16是表示图15中包含的非冲击杂音抑制部构成的框图。
图17是表示图16中所包含的杂音估算部的构成的框图。
图18是表示图17中包含的估算杂音计算部的构成的框图。
图19是表示图18中所包含的更新判断部的构成的框图。
图20是表示图17中所包含的加权变差声音计算部的构成的框图。
图21是表示图20中所包含的非线性函数的图。
图22是表示图16中所包含的杂音抑制系数生成部的构成的框图。
图23是表示图22中所包含的估算先验SNR计算部的构成的框图。
图24是表示图23中所包含的加权加法部的构成的框图。
图25是表示图22中所包含的杂音抑制系数生成部的构成的框图。
图26是表示图16中所包含的抑制系数修正部的构成的框图。
图27是表示图15中所包含的非冲击杂音抑制部的第2构成的框图。
图28是表示图27中所包含的杂音抑制系数生成部的构成的框图。
图29是表示图27中所包含的抑制系数修正部的构成的框图。
图30是表示本发明的第8实施方式的框图。
图31是表示图30中所包含的非冲击杂音抑制部的构成的框图。
图32是表示本发明的第9实施方式的框图。
图33是表示基于本发明的第10实施方式的杂音抑制装置的框图。
图34是表示以往的杂音抑制装置的构成的框图。
符号说明
1,91,92输入端子
2转换部
3逆转换部
4输出端子
5,16,660,3203,6204,6205,6901,6903,6507乘法器
6,450,6208,6902,6904加法器
7,17非冲击杂音抑制部
8,10,18,20冲击音检测部
9声音检测部
11冲击音估算部
12减法器
13平滑化部
14随机数生成部
15抑制系数计算部
19冲击音抑制部
21帧分割部
22,32加窗处理部
23傅立叶转换部
31帧合成部
33逆傅立叶转换部
81变化量计算部
82,83,102,103概率计算部
84平坦度计算部
111非冲击杂音学习部
112冲击音学习部
113存储器
114非声音用冲击音估算部
115声音用冲击音估算部
116,117混合部
300杂音估算部
310估算杂音计算部
320加权变差声音计算部
330,480计数器
400更新判断部
410寄存器长度存储部
420,3201估算杂音存储部
430,6505开关
440移位寄存器
460最小值选择部
470除法部
600,601杂音抑制系数生成部
610后验SNR计算部
620估算先验SNR计算部
630杂音抑制系数计算部
640声音非存在概率存储部
650,651抑制系数修正部
670声音存在概率计算部
680虚拟输出SNR计算部
1000计算机
3202频率单位SNR计算部
3204非线性处理部
4001逻辑和计算部
4002,4004,6504比较部
4003,4005,6503阈值存储部
4006阈值计算部
6201值域限定处理部
6202后验SNR存储部
6203抑制系数存储部
6206权重存储部
6207加权加法部
6301MMSE STSA增益函数值计算部
6302一般化似然比计算部
6303抑制系数计算部
6501最大值选择部
6502抑制系数下限值存储部
6506修正值存储部
6511最大值选择部
6512抑制系数下限值计算部
6905常数乘法器
具体实施方式
图1是表示本发明的优选实施方式的框图。图1与作为以往例的图34的区别在于:冲击音检测部18被替换为冲击音检测部8;以及提供给冲击音检测部18的键松开信息和键按下信息被提供给冲击音检测部8。
提供给输入端子1的变差声音在转换部2中,通过实施傅立叶变换等转换被分割为多个频率分量,并被提供给冲击音检测部8和冲击音抑制部19。相位被传递到逆转换部3。冲击音检测部8根据输入信号频谱的变化,检测出冲击音,将检测信号传递给冲击音抑制部19。冲击音抑制部19,在检测出冲击音时,将通过MAP估算而恢复的信号,而在除该情况以外时,将变差声音本身传递到逆转换部3。逆转换部3将由冲击音抑制部19提供的冲击音抑制声音功率谱和由转换部2提供的变差声音的相位进行组合后,进行逆转换,作为强调声音信号采样传递给输出端子4。另外,也可以使用相当于功率谱的平方根的振幅值来代替功率谱。
图2为表示转换部2的构成例的框图。转换部2由帧分割部21、加窗处理部22以及傅立叶转换部23构成。变差声音信号采样被提供给帧分割部21,被分割为每个K/2采样的帧。此处的K是偶数。被分割为帧的变差声音信号采样被提供给加窗处理部22,进行与窗函数w(t)的乘法运算。用针对第n个帧的输入信号yn(t)(t=0,1,...,K/2-1)的w(t)进行了加窗的信号yn(t)bar可以由下式得到。
式1
yn(t)-w(t)yn(t)
另外,将连续的2个帧的一部分进行重合(叠加)来进行加窗处理也是广泛实施的方式。若假设帧长的50%作为叠加长度,则对于t=0,1…,K/2-1,利用
式2
yn(t)=w(t)yn-1(t+K/2)
yn(t+K/2)=w(t+K/2)yn(t)
得出的yn(t)bar(t=0,1…,K-1)就成为加窗处理部22的输出。对于实数信号使用左右对称窗函数。另外,窗函数被设计为:在将抑制系数设定为1时的输入信号和输出信号除去计算误差之外保持一致。这表示w(t)+w(t+K/2)=1。
然后,以将连续的2个帧的50%进行叠加来进行加窗的情况为例继续说明。作为w(t)可以使用例如下式中所表示的汉宁窗。
式3
Figure G2008800072750D00081
除此之外,还有海明窗、凯塞窗、布莱克曼窗等各种窗函数。被加窗的输出yn(t)bar被提供给傅立叶转换部23,被转换成变差声音频谱Yn(k)。变差声音频谱Yn(k)被分离成相位与振幅,变差声音相位频谱argYn(k)被提供给逆转换部3,变差声音功率谱|Yn(k)|2被提供给乘法器5、杂音估算部300、以及杂音抑制系数生成部601。
图3是表示逆转换部3的构成例的框图。逆转换部3由逆傅立叶转换部33、加窗处理部32、以及帧合成部31构成。逆傅立叶转换部33将使用由乘法器5提供的强调声音功率谱|Xn(k)|2bar求得的强调声音振幅频谱|Xn(k)|bar与由转换部2提供的变差声音相位频谱argYn(k)相乘,求得强调声音Xn(k)bar。即,进行下式的计算。
式4
Xn(k)=|Xn(k)|·argYn(k)
对所得到的强调声音Xn(k)bar实施逆傅立叶变换,1帧作为由K采样构成的时间区域采样值系列xn(t)bar(t=0,1,…,k-1)被提供给加窗处理部32,并进行与窗函数w(t)的乘法运算。用针对第n个帧的输入信号xn(t)(t=0,1,…,k/2-1)的w(t)来进行了加窗的信号xn(t)bar可以由下式得到。
式5
xn(t)=w(t)xn(t)
另外,将连续的2个帧的一部分重合(叠加)来进行加窗处理也是广泛实施的方式。若假设帧长的50%作为叠加长度,则对于t=0,1…,K/2-1,利用
式6
xn(t)=w(t)xn-1(t+K/2)
xn(t+K/2)=w(t+K/2)xn(t)
得出的yn(t)bar(t=0,1…,K-1)成为加窗处理部32的输出,被传递给帧合成部31。帧合成部31从xn(t)bar的相邻的2个帧中每次取出K/2采样进行重合,并通过
式7
x ^ n ( t ) = x ‾ n - 1 ( t + K / 2 ) + x ‾ n ( t )
得出强调声音xn(t)hat。得出的强调声音xn(t)hat(t=0,1,…,k-1)作为帧合成部31的输出被传递给输出端子4。虽然在图2与图3中,将在转换部与逆转换部中适用的转换作为傅立叶变换进行了说明,但是广为人知的是,也可以使用余弦变换、阿达玛变换、Haar变换、小波变换等其他变换来代替傅立叶变换。另外,也可以使用成对的滤波器组来构成转换部2和逆转换部3。这是因为通过滤波器组也可以进行输入信号的频率分析。我们知道,若利用滤波器组,则虽然一般来讲频率分解能力变差,但是时间分解能力提高,更加适合应用于整体处理的延迟时间的缩短。
图4是表示图1中所包含的冲击音检测部的构成例的框图。冲击音检测部8是由变化量计算部81和概率计算部82构成的。被提供给冲击音检测部8的变差声音功率谱被传递给变化量计算部81。变化量计算部81检测由于冲击音的存在而导致的变差声音功率谱的急剧增加。对急剧增加的检测是通过对变差声音功率谱的变化量进行计算,并将该变化量与预定的阈值进行比较而进行的。作为变化量,可以使用在各频率分量中的当前帧与过去帧的功率谱差分。该差分既可以是与前一个帧的值的差分,也可是与多个帧之前的值的差分。并且,也可以使用由多个帧之前的多个值所求得的最小值和最大值的差分。将这样所得到的功率谱的差分传递给概率计算部82。
另外,在进行这些计算之前,也可以将变差声音功率谱在频率方向上进行平均化。针对各频率分量,使用25%的高低相邻的频率分量、50%的该频率分量,计算新的该频率分量就是其中的一个例子。它具有降低沿着频率轴的不合适的功率谱的分散、并强调时间轴方向的变化的效果。另外,还可以使用被适当分割了的频域的变差声音功率谱来代替对各频率进行个别处理。计算变化量的对象数减少,从而对计算量的削减做出贡献。
概率计算部82根据由变化量81所提供的变差声音功率谱变化量,计算存在冲击音的概率。最一般的情况是,可以在上述变化量超过了预定的阈值时,设为1,没有达到阈值时,将变化量与阈值之比设为概率。既可以将概率设为上述变化量与阈值的任意函数,也可以将概率进行量子化输出。这种量子化的特例是二进制量子化,输出根据是否存在冲击音而为1和0。这样求得的概率作为概率计算部82的输出,即冲击音检测部8的输出。另外,冲击音的检测也可以不以所有的频率分量作为对象,而只使用一部分的频率分量。例如,因为声音的频谱功率在低频域内很强,声音突然开始时,很难与冲击音进行区别。在这种情况下,通过仅仅在高频频率内进行冲击音检测,可以避免由于声音导致的检测错误。
图5是表示图1中所包含的冲击音检测部8的第2构成例的框图。与表示图1的构成例的图4相比较,概率计算部82被替换成概率计算部83,又新加入了平坦度计算部84。提供给冲击音检测部8的变差声音在提供给变化量计算部81的同时,也提供给平坦度计算部84。平坦度计算部84计算同一个帧中的各频率分量的偏差,作为平坦度提供给概率计算部83。这是利用了冲击音频谱在宽的频域内广泛存在的事实。因为冲击音在短时间内其振幅急剧增加,所以必然地,高频分量相对较多。因此,与稳定性高的信号相比,频率功率谱就变得平坦。作为平坦度的示例,可以举出变差声音功率谱的最大值与最小值之差。最大值与最小值之差的计算也可以限定在特定的频率范围内进行。特别地,由于声音的低频域功率谱较强,因此若在所有频域内求最大值和最小值,则检测错误就增加。通过排除音频谱强的频域来进行最大值与最小值的差值计算,可以提高冲击音检测精确度。进一步,可以在多个不同的频域内组合计算出来的平坦度。作为一个例子,可以组合基于高频域和中低频域的功率谱比的平坦度和中低频域的相互功率谱比。前者为声音较大,除此之外的较小。后者为摩擦音较小,除此之外较大。通过将这些组合使用,可以识别容易产生检测错误的冲击音和摩擦音的声音始端。并且,在平坦度计算中,和已经说明的变化量的计算一样,也能适用频率方向的平均化或对多个频域的分组。
收到变差声音功率谱的变化量和平坦度的概率计算部83,使用这些条件计算冲击音存在概率。在概率计算中,可以将特定的频域中的变化量和特定频域中的平坦度进行组合来使用。这些频域可以完全一致,也可以仅仅一部分一致。另外,还可以使用频域完全不同的功率谱。一般来说,在变化量大时,设为高概率,在平坦度极高时,将概率修正得很低。这是基于在变化量大时,摩擦声音容易发生检测错误的这一事实。另外,也可以将使用了已经说明的多个平坦度的冲击音与摩擦声音始端的识别进行组合,来计算概率。除此之外的操作,都如已经通过概率计算部82进行说明的那样进行。所计算出的冲击音存在概率为概率计算部83的、即冲击音检测部8的输出。
图6是表示本发明的第2实施方式的框图。图6与作为优选实施方式的图1的不同之处是:用冲击音检测部10代替冲击音检测部8,并增加了声音检测部9。声音检测部9收到变差声音功率谱,输出声音存在概率。声音存在概率可以根据沿着频率轴的功率谱强度的分散进行规定。当该分散小时,声音存在概率设为小,大时设为大。当分散比预定的阈值大时,设概率为1,在阈值以下时,可以将分散与阈值之比设为概率。另外,可以使用低频域和高频域的功率谱的比,计算上述概率。当该比值比预定的阈值大时,设概率为1,在预定的阈值以下时,将该比值与阈值之比设为概率。另外,也可以使用功率谱的增加率来计算上述概率。例如,声音在低频域内功率谱强。因此,评价低频的功率谱的增加率,当比预定的阈值高时。即,不进行根据声音似然来恢复理想信号的操作,而通过冲击音估算部11估算冲击音的功率谱,并通过减法器12对估算值进行减法计算,而得到抑制了冲击音的理想信号。为了估算冲击音的功率谱,来自冲击音检测部10的冲击音检测结果、来自声音检测部9的声音检测结果、来自转换部2的变差声音功率谱被提供给冲击音估算部11。
图10是表示图9中所包含的冲击音估算部11的构成例的框图。冲击音估算部11由非冲击杂音学习部111、冲击音学习部112、存储器113、非声音用冲击音估算部114、声音用冲击音估算部115、混合部116构成。冲击音检测结果、声音检测结果、变差声音功率谱被提供给非冲击杂音学习部111。在声音检测结果和冲击音检测结果都显示低概率时,非冲击杂音学习部111使用变差声音频谱,学习非冲击杂音。最简单的例子为,可以将上述条件概率设为1,在1以下时,将增加率与阈值之比作为概率。将这些指标适当组合,可以将其结果作为声音存在概率。另外,也可以将所得到的概率进行量子化输出。按0和1的二进制将概率量子化的方法是最简单的量子化的例子。所求出的声音存在概率被传递到冲击音检测部10。
图7是表示图6中所包含的冲击音检测部10的构成例的框图。与使用图4进行说明的冲击音检测部8的区别是,概率计算部82被替换为概率计算部102。例如,在根据变化量进行概率计算时,可以适当改变所使用的参数值。有时,即使在不存在冲击音的情况下,声音的功率谱也会急剧增大,为了不将其误检测为冲击音,在声音检测结果显示像是很大的声音时,将检测阈值设置为很大即可。另外,同样在像是声音很大时,也可以将声音的功率谱大的频域从概率计算中排除,或削弱其对概率计算的作用。关于其他操作,与已经使用冲击音检测部8所作的说明一样。
图8是表示图6中所包含的冲击音检测部10的第2构成例的框图。与表示优选实施方式的冲击音检测部8的第2构成例的图5相比较,不同点是概率计算部83被替换为概率计算部103。图5中的概率计算部83的操作与图8中的概率计算部103的操作的不同,和使用图7所说明的概率计算部82与概率计算部102的不同一样,所以省略详细说明。
图9是表示本发明的第3实施方式的框图。图9与作为第2实施方式的图6的差别在于,冲击音抑制部19被冲击音估算部11和减法器12所代替。满足的情况下更新变差声音频谱的平均值,作为学习了所获得的最新平均值的非冲击杂音。在求平均时,通常可以利用将最新的一定的采样进行平均的移动平均、或将在此之前的平均值和最新的瞬间值以某个比例进行混合的漏积分等。学习到的非冲击杂音作为拟似非冲击杂音,被传递给冲击音学习部112和非声音用冲击音估算部114。
冲击音检测结果、声音检测结果、变差声音功率谱、拟似非冲击音杂音被提供给冲击音学习部112。冲击音的学习是在显示声音检测结果低的概率、冲击音检测结果高的概率时进行的。学习方法与非冲击杂音的情况基本相同,但是在使用变差声音功率谱与被提供的拟似非冲击杂音之差来代替变差声音功率谱这一点上不同。通过使用差值,可以避免非冲击杂音对学习到的冲击音的影响。学习到的冲击杂音作为拟似冲击杂音被传递给声音用冲击音估算部115。
非冲击杂音和冲击音的学习可以针对各频率分量进行,也可以针对将多个频率分量进行了集中的组来进行。通过针对频率分量组进行学习,拟似非冲击杂音的功率谱中的频率分解能力降低,但是可以削减所需的计算量。可以在学习之前,针对相邻的多个频率分量应用平均化。另外,也可以根据控制学习的概率,调整用于学习的功率谱等的大小来使用。其中的一个例子为:当表示声音检测结果的概率不足够低时,使用变差声音功率谱的一部分来进行平均计算等。另外,还可以将用于学习的功率谱等正规化。例如,可以使用上述频率分量组或全频域中的平均功率谱,将当前的变差声音功率谱正规化。通过使用正规化,不易受到输入信号功率的影响,可以进行冲击音的学习。
非声音用冲击音估算部114接收拟似非冲击杂音和变差声音功率谱,生成针对于不存在声音而只存在冲击音的状态的拟似冲击音。在不存在声音而只存在冲击音的状态下,用声音和冲击音都不存在的状态的变差声音替换当前的变差声音并输出。为了用后面要提到的减法运算实现该替换,非声音用冲击音估算部114求出当前的变差声音与非冲击杂音之差,作为非声音用拟似冲击音传递给混合部116。在非冲击杂音学习部111和冲击音学习部112利用上述正规化的情况下,非声音用冲击音估算部114进行与其对应的逆正规化来求出非冲击杂音,并将变差声音与被逆正规化的非冲击杂音之差作为非声音用拟似冲击音传递给混合部116。
声音用冲击音估算部115接收拟似冲击音和变差声音功率谱,生成针对声音和冲击音共同存在的状态的拟似冲击音。为了降低相对于理想的声音的功率谱的失真,分析变差声音功率谱、冲击音检测结果、声音检测结果等,来求出频谱的分散、摩擦音的概率、冲击音抑制处理的连续等。根据这些分析结果,可以调整冲击音抑制的抑制度,或在每个频率分量使用不同的抑制度,进行各种修正。声音用冲击音估算部115在拟似冲击音中使用具有上述目的的修正处理之后,作为声音用拟似冲击音传递给混合部116。在非冲击杂音学习部111和冲击音学习部112中应用了上述正规化的情况下,声音用冲击音估算部115应用与非声音用冲击音估算部114同样的逆正规化。
除了上述非声音用拟似冲击音和声音用拟似冲击音之外,混合部116还接收来自存储器113的0信号,并输出冲击音估算值。为了进行抑制,进一步将冲击音检测结果和声音检测结果提供给混合部116。根据冲击音和声音的存在概率,混合部116适当地将0、非声音用拟似冲击音、以及声音用拟似冲击音进行混合,并作为冲击音估算值来输出。冲击音估算值可以使用各种各样的混合法,但基本上是将与高存在概率对应的分量更多地混合。另外,最简单的混合法是混合部116作为选择部进行工作的方法。在声音和冲击音的存在概率都高的情况下,选择声音用拟似冲击音作为冲击音估算值进行输出;在声音存在概率低、冲击音存在概率高的情况下,选择非声音用拟似冲击音作为冲击音估算值进行输出;在声音存在概率和冲击音存在概率都低的情况下,选择0作为冲击音估算值进行输出。
在图10中,将冲击音的存在概率用0、1、2的3个值,将声音的存在概率用0和1的2个值表示时的混合部116的输出N2(t)hat的其中一个例子如下。
式8
N ^ 2 ( t ) = | Y n ( k ) | 2 - U ‾ n 2 ( k ) D n = 2 , V ‾ n = 0 a n T ‾ n 2 ( k ) D n = 2 , V ‾ n = 1 r a n T ‾ n 2 ( k ) D n = 1 , V ‾ n = 1 0 D n = 0 , V ‾ n = 1
其中,|Yn(k)|2是变差声音功率谱、Un 2(k)bar是被正规化的非冲击音估算值、Tn(k)bar是被正规化的冲击音估算值、a是用于使冲击音抑制信号的功率与紧接之前的帧相等的修正系数,r是在冲击音存在概率为中等程度时使用的0≤r≤1的修正系数。
图11是表示图9中包含的冲击音估算部11的第2构成例的框图。与表示第1构成例的图10相比较,在混合部116被替换成混合部117这一点上不同。除了与混合部116相同的输入信号,还将拟似非冲击杂音提供给混合部117。混合部116将0、非声音用拟似冲击音、以及声音用拟似冲击音进行混合,混合部117也将拟似非冲击杂音进行混合,作为冲击音估算值进行输出。拟似非冲击音的混合可以根据各种信息进行抑制。作为一个例子,在冲击音和声音的存在概率都很低的情况下,可以使用拟似非冲击音代替来自存储器的0信号。根据此构成,在声音和冲击音的存在概率都低的情况下,可以抑制非冲击杂音。
图12是表示本发明的第4实施方式的框图。图12与作为第3实施方式的图9的不同在于追加了平滑化部13这一点。平滑化部13将抑制了冲击音的信号即减法器12的输出进行平滑化。而且,由冲击音检测部10得出的冲击音检测结果、由声音检测部9得出的声音检测结果被提供给平滑化部13。可以使用这些信息来控制进行平滑化的时机。例如,可以进行以下的抑制等:仅在表示冲击音检测结果的概率高时进行平滑化,仅在表示声音检测结果的概率高时避免进行平滑化。根据这些信息,可以进一步改变平滑化的时间常数,或改变应用平滑化的频域。通过这些相应的控制,可以得到更自然的冲击音抑制结果。
图13是表示本发明的第5实施方式的框图。图13与作为第4实施方式的图12的不同在于,追加了随机数生成部14和加法器6这一点。随机数生成部14生成随机数,并传递到加法器6。加法器6将从随机数生成部14收到的随机数加到从转换部2接收到的相位信息中,将加法计算的结果传递到逆转换部3。进一步,将冲击音检测结果和声音检测结果提供给随机数生成部14。可以使用这些信息,来控制生成随机数的时机或随机数的数值范围。例如,随机数可以仅在表示冲击音检测结果的概率高时生成。通过进行这样的工作,可以仅在进行抑制冲击音时改变相位信息,获取更自然的冲击音抑制结果。另外,还可以通过声音检测结果和冲击音检测结果来控制生成的随机数的数值范围。通过在表示声音检测结果的概率高时缩小随机数的数值范围,可以缩小声音的失真。
图14是表示本发明的第6实施方式的框图。图14与作为第5实施方式的图13的不同是减法器12被替换为抑制系数计算部15和乘法器16这一点。抑制系数计算部15和乘法器16,取代用减法计算进行的冲击音抑制,而通过将具有从0到1的值的抑制系数进行乘法计算来实现冲击音抑制。作为抑制系数的计算方法最为广泛使用的是:将抑制后残留信号的均方误差进行最小化的最小均方误差(MMSE)法。关于最小均方误差法,可以参照专利文献1等。抑制系数计算部15接收来自冲击音估算部11的冲击音估算值、来自转换部2的变差声音功率谱来计算抑制系数,并提供给乘法器16。变差声音功率谱和抑制系数被提供给乘法器16,并将作为这些乘法计算结果之积作为冲击音抑制信号提供给平滑化部13。
图15是表示本发明的第7实施方式的框图。图15与作为第6实施方式的图14的不同是:针对转换部2的输出即变差声音功率谱,将非冲击杂音进行抑制后,提供给冲击音检测部10、声音检测部9、以及减法器12这一点。因此,追加了非冲击杂音抑制部7。
抑制系数计算部15和乘法器16,取代通过减法计算进行的冲击音抑制,而通过将具有从0到1的值的抑制系数进行乘法运算来实现冲击音抑制。作为抑制系数的计算法,最为广泛使用的就是,将抑制后残留信号的均方误差最小化的最小均方误差(MMSE)法。关于最小均方误差法,可参照专利文献1等。抑制系数计算部15接收来自冲击音估算部11的冲击音估算值、来自转换部2的变差声音功率谱,来计算抑制系数,并提供给乘法器16。变差声音功率谱和抑制系数被提供给乘法器16,将作为乘法计算结果的这些积作为冲击音抑制信号提供给平滑化部13。
图16是表示图15中包含的非冲击杂音抑制部7的构成例的框图。在图15的转换部2中,被分割为多个频率分量的变差声音功率谱被多重化后,提供给杂音估算部300、杂音抑制系数生成部600以及乘法器5。杂音估算部300使用变差声音功率谱,分别针对多个频率分量,估算其中所包含的杂音的功率谱,并传递给杂音抑制系数生成部600。作为杂音估算的方式中的一个例子,有用过去的信号对杂音比将变差声音进行加权而作为杂音分量的方式,其详细内容记载在专利文献1中。所估算的杂音功率谱的数量与频率分量的数量相等。杂音抑制系数生成部600使用被提供的变差声音功率谱和估算杂音功率谱,通过与变差声音相乘,来生成用于求得杂音得到抑制的强调声音的抑制系数,并将其输出。由于抑制系数是针对每个频率分量而求得的,所以杂音抑制系数生成部600的输出是与频率分量的数量相等的抑制系数。作为杂音抑制系数生成的一个例子,将强调声音的均方功率进行最小化的最小均方短时间频谱振幅法被广泛应用,具体内容记载在专利文献1中。按频率单位分别生成的抑制系数被提供给抑制系数修正部650。另一方面,在杂音抑制系数生成部600中,为生成抑制系数,按各频率分别估算先验SNR。估算的先验SNR在被用于抑制系数生成的同时,还被提供给抑制系数修正部650。抑制系数修正部650使用估算的先验SNR和抑制系数求出修正抑制系数,将其提供给乘法器5,同时,归还给杂音抑制系数生成部600。乘法器5用各频率,将转换部2提供的变差声音与杂音抑制系数生成部600所提供的抑制系数相乘,并将它的积作为强调声音的功率谱传递给逆转换部3。逆转换部3将乘法器5所提供的强调声音功率谱和转换部2所提供的变差声音的相位进行组合来进行逆转换,作为强调声音信号采样提供给输出端子4。在至此的处理中,虽然对使用了功率谱的例子进行了说明,但是广为人知的是,取而代之也可以使用相当于其平方根的振幅值。
图17是表示图16中所包含的杂音估算部300的构成的框图。杂音估算部300由估算杂音计算部310、加权变差声音计算部320、以及计数器330构成。被提供给杂音估算部300的变差声音功率谱被传递到估算杂音计算部310、以及加权变差声音计算部320。加权变差声音计算部320使用被提供的变差声音功率谱和估算杂音功率谱,来计算加权变差声音功率谱,并传递给估算杂音计算部310。估算杂音计算部310使用由变差声音功率谱、加权变差声音功率谱、以及计数器330所提供的计数值,来估算杂音的功率谱,并作为估算杂音功率谱进行输出,同时,归还给加权变差声音计算部320。
图18是表示图17中包含的估算杂音计算部310的构成的框图。具有:更新判断部400、寄存器长度存储部410、估算杂音存储部420、开关430、移位寄存器440、加法器450、最小值选择部460、除法部470、计数器480。加权变差声音功率谱被提供给开关430。在开关430闭合电路时,加权变差声音功率谱被传递到移位寄存器440。移位寄存器440根据更新判断部所提供的抑制信号,将内部寄存器的存储值移位到相邻的寄存器。移位寄存器长度与后面提到的寄存器长度存储部410中所存储的值相等。移位寄存器440的全部寄存器输出被提供给加法器450。加法器450对所提供的全部寄存器输出进行加法运算,将加法运算结果传递到除法部470。
另一方面,计数值、频率单位的变差声音功率谱以及频率单位的估算杂音功率谱被提供给更新判断部400。更新判断部400在计数值到达预定的值之前一直输出“1”、到达后,在所输入的变差声音信号被判断为杂音时输出“1”,其余的时候输出“0”,并传递给计数器480、开关430以及移位寄存器440。开关430在更新判断部所提供的信号为“1”时将电路闭合,为“0”时断开。计数器480在更新判断部所提供的信号为“1”时,增加计数值,为“0”时不变。移位寄存器440在更新判断部所提供的信号为“1”时,取入开关430所提供的信号采样的一个采样,并且,将内部寄存器的存储值移位给相邻的寄存器。计数器480的输出和寄存器长度存储部410的输出被提供给最小值选择部460。
最小值选择部460在所提供的计数值和寄存器长度之中,选择小的一方,并传递给除法部470。除法部470用计数值或存储器长度的小的一方的数值,除以加法器450所提供的变差声音功率谱的加法值,将商作为频率单位的估算杂音功率谱λn(k)进行输出。若将Bn(k)(n=0,1,…,N-1)作为移位寄存器440中所保存的变差声音功率谱的采样值,则λn(k)可以通过下式9得出。
式9
λ n ( k ) = 1 N Σ n = 0 N - 1 B n ( k )
其中,N为计数值和寄存器长度中小的一方的值。计数值从0开始单调地增加,所以最初用计数值进行除法运算,之后再用寄存器长度进行除法运算。用寄存器长度进行除法运算可以求得保存在移位寄存器中的值的平均值。最初,由于移位寄存器440中没有存储充分多的值,所以实际上是用存储了值的存储器的数量去除。在计数值比寄存器长度小时,实际上储存了值的寄存器的数量等于计数值;在计数值比寄存器长度大时,实际上储存了值的寄存器的数量与寄存器长度相等。
图19是表示图18中所包含的更新判断部400的构成的框图。更新判断部400具有逻辑和计算部4001、比较部4004、4002、阈值存储部4005、4003、阈值计算部4006。由图17的计数器330提供的计数值被传递给比较部4002。作为阈值存储部4003的输出的阈值也被传递给比较部4002。比较部4002将所提供的计数值与阈值相比较,当计数值比阈值小时,将“1”传递给逻辑和计算部4001,当计数值比阈值大时,将“0”传递给逻辑和计算部4001。一方面,阈值计算部4006计算与由图18的估算杂音存储部420所提供的估算杂音功率谱相应的值,并作为阈值输出到阈值存储部4005。最简单的阈值计算方法是估算杂音功率谱常数倍。除此之外,还可以使用高阶多项式或非线性函数计算阈值。阈值存储部4005,存储从阈值计算部4006所输出的阈值,将1个帧以前所存储的阈值输出到比较部4004。比较部4004将由阈值存储部4005所提供的阈值和图1的转换部2所提供的变差声音功率谱进行比较,若变差声音功率谱比阈值小,则向逻辑和计算部4001输出“1”,若比阈值大则输出“0”。即,根据估算杂音功率谱的大小,判别变差声音信号是否为杂音。逻辑和计算部4001计算比较部4202的输出值与比较部4204的输出值的逻辑和,将计算结果输出到图18的开关430、移位寄存器440以及计数器480中。这样一来,不仅在初期状态或无音区间,即使在有音区间,在变差声音功率小的情况下,更新判断部400也输出“1”。即,进行估算杂音的更新。因为阈值的计算是以各频率进行的,所以能以各频率进行估算杂音的更新。
图20是表示加权变差声音计算部320的构成的框图。加权变差声音计算部320具有估算杂音存储部3201、频率单位SNR计算部3202、非线性处理部3204、以及乘法器3203。估算杂音存储部3201存储由图17的估算杂音计算部310所提供的估算杂音功率谱,并将1帧以前所存储的估算杂音功率谱输出到频率单位SNR计算部3202中。频率单位SNR计算部3202使用由估算杂音存储部3201所提供的估算杂音功率谱和图1的转换部2所提供的变差声音功率谱,按照每个频域求得SNR,并输出到非线性处理部3204。具体而言,按照下式,用估算杂音功率谱除以所提供的变差声音功率谱,来求出频率单位SNRγn(k)hat。
式10
γ ^ n ( k ) = | Y n ( k ) | 2 λ n - 1 ( k )
其中,λn-1(k)是1帧前所存储的估算杂音功率谱。
非线性处理部3204使用由频率单位SNR计算部3202所提供的SNR,来计算权重系数频谱,并将权重系数频谱输出到乘法器3203。乘法器3203按照每个频域,计算由图1的转换部2所提供的变差声音功率谱与非线性处理部3204所提供的权重系数频谱之积,并将加权变差声音功率谱输出到图17的估算杂音计算部310。
非线性处理部3204具有输出分别与被多重化的输入值相应的实数值的非线性函数。图8表示非线性函数的例子。当将f1作为输入值时,图21所表示的非线性函数的输出值f2由式11得出。
式11
f 2 = 1 , f 1 &le; a f 1 - b a - b , a < f 1 &le; b 0 , b < f 1
其中,a和b为任意实数。
非线性处理部3204将频率单位SNR计算部3202所提供的频域单位SNR通过非线性函数处理而求出权重系数,并传递到乘法器3203。即,非线性处理部3204输出与SNR相应的从1到0的权重系数。当SNR小时输出1,当大时输出0。
用图20的乘法器3203与变差声音功率谱进行乘法运算的权重系数为与SNR相应的值,SNR越大,即变差声音中所包含的声音分量越大,权重系数的值就越小。在估算杂音的更新中一般使用变差声音功率谱,但是通过对用于更新估算杂音的变差声音功率谱,进行与SNR相应的加权,可以减小变差声音功率谱中所包含的声音分量的影响,可以进行更高精确度的杂音估算。另外,虽然说明了在权重系数的计算中使用了非线性函数的例子,但是除了非线性函数以外,也可以使用线性函数或高阶多项式等用其他形式所表示的SNR的函数。
图22是表示图16中所包含的杂音抑制系数生成部600的构成的框图。杂音抑制系数生成部600具有后验SNR计算部610、估算先验SNR计算部620、杂音抑制系数计算部630、声音非存在概率存储部640。后验SNR计算部610使用被输入的变差声音功率谱和估算杂音功率谱,按频率单位计算后验SNR,并提供给估算先验SNR计算部620和杂音抑制系数计算部630。估算先验SNR计算部620使用被输入的后验SNR以及由抑制系数修正部650所提供的修正抑制系数,来估算先验SNR,作为估算先验SNR传递给杂音抑制系数计算部630,并进行输出。杂音抑制系数计算部630使用作为输入被提供的后验SNR、估算先验SNR以及由声音非存在概率存储部640所提供的声音非存在概率,来生成杂音抑制系数,并将其输出。
图23是表示图22中所包含的估算先验SNR计算部620的构成的框图。估算先验SNR计算部620具有值域限定处理部6201、后验SNR存储部6202、抑制系数存储部6203、乘法器6204及6205、权重存储部6206、加权加法部6207、加法器6208。由图22的后验SNR计算部610所提供的后验SNRγn(k)(k=0,1,…,M-1)被传递给后验SNR存储部6202和加法器6208。后验SNR存储部6205存储第n个帧中的后验SNRγn(k),并且将第n-1帧中的后验SNRγn-1(k)传递给乘法器6205。由图16的抑制系数修正部650所提供的修正抑制系数Gn(k)bar(k=0,1,…,M-1)被传递给抑制系数存储部6203。抑制系数存储部6203存储第n帧中的修正抑制系数Gn(k)bar,并将第n-1帧的修正抑制系数Gn-1(k)bar传递给乘法器6204。乘法器6204将所提供的Gn(k)bar进行平方,求得G2 n-1(k)bar,并传递给乘法器6205。乘法器6205将G2 n-1(k)bar和γn-1(k)针对k=0,1,…,M-1进行乘法运算,求得G2 n-1(k)barγn-1(k),将结果作为过去的估算SNR922传递给加权加法部6207。
将-1提供给加法器6208的另一方的端子,加法运算结果γn(k)-1被传递给值域限定处理部6201。值域限定处理部6201在由加法器6208所提供的加法运算结果γn(k)-1中,进行根据值域限定演算子P[·]的演算,将作为结果的P[γn(k)-1]作为瞬时估算SNR921传递给加权加法部6207。其中,P[x]由下式12规定。
式12
P [ x ] = x , x > 0 0 , x &le; 0
另外,由权重存储部6206将权重923提供给加权加法部6207。加权加法部6207使用这些所提供的瞬时估算SNR921、过去的估算SNR922、权重923求得估算先验SNR924。若将权重923设为α,ξn(k)hat设为估算先验SNR,ξn(k)hat可以通过式13计算。其中,设G2 -1(k)γ-1(k)bar=1。
式13
&xi; ^ n ( k ) = &alpha; &gamma; n - 1 ( k ) G &OverBar; n - 1 2 ( k ) + ( 1 - &alpha; ) P [ &gamma; n ( k ) - 1 ]
图24是表示图23中所包含的加权加法部6207的构成的框图。加权加法部6207具有乘法器6901、6903、常数乘法器6905、加法器6902、6904。由图23的值域限定处理部6201提供的频域单位瞬时估算SNR、由自图23的乘法器6205提供的过去的频域单位SNR、由图23的加权存储部6206提供的权重,是分别作为输入被提供的。具有值α的权重被传递给常数乘法器6905和乘法器6903。常数乘法器6905把将输入信号进行-1倍而得到的-α传递给加法器6904。提供1作为加法器6904的另外一方的输入,加法器6904的输出就为两者之和的1-α。1-α被提供给乘法器6901,与作为另一方的输入的频域单位瞬时估算SNR P[γn(k)-1]相乘,作为积的(1-α)P[γn(k)-1]被传递给加法器6902。另一方面,在乘法器6903中,作为权重被提供的α与过去的估算SNR相乘,作为积的αG2 n-1(k)barγn-1(k)被传递给加法器6902。加法器6902将(1-α)P[γn(k)-1]与αG2 n-1(k)barγn-1(k)之和作为频域单位估算先验SNR来进行输出。
图25是表示图22中所包含的杂音抑制系数生成部630的框图。杂音抑制系数生成部630具有MMSE STSA增益函数值计算部6301、一般化似然比计算部6302、以及抑制系数计算部6303。下面,以非专利文献3(非专利文献3:1984年12月、IEEE TRANSACTIONS ON ACOUSTICS,SPEECH,ANDSIGNAL PROCESSING、第32卷、第6号(IEEE TRANSACTIONS ONACOUSTICS,SPEECH,AND SIGNALPROCESSING,VOL.32,NO.6,PP.1109-1121,DEC,1984)、1109~1121页)中所记载的计算式为基础,对抑制系数的计算方法进行说明。
将帧编码设为n,频率编码设为k,将γn(k)设为图22的后验SNR计算部610所提供的频率单位后验SNR;将ξn(k)hat设为图22的估算先验SNR计算部620所提供的频率单位估算先验SNR;将q设为图22的声音非存在概率存储部640所提供的声音非存在概率。
另外,ηn(k)=ξn(k)hat/(1-q)、vn(k)=(ηn(k)γn(k))/(1+ηn(k))。MMSE STSA增益函数值计算部6301根据图22的后验SNR计算部610所提供的后验SNRγn(k)、图22的估算先验SNR计算部620所提供的估算先验SNRξn(k)hat以及图22的声音非存在概率存储部640所提供的声音非存在概率q,按每个频域计算MMSE STSA增益函数值,并输出到抑制系数计算部6303。每个频域的MMSE STSA增益函数值Gn(k)由式14得出。
式14
G n ( k ) = &pi; 2 v n ( k ) &gamma; n ( k ) exp ( - v n ( k ) 2 ) [ ( 1 + v n ( k ) ) I 0 ( v n ( k ) 2 ) + v n ( k ) I 1 ( v n ( k ) 2 ) ]
其中,I0(z)为0阶变形贝塞尔函数,I1(z)为1阶变形贝塞尔函数。关于变形贝塞尔函数,记载在非专利文献4(非专利文献4:1985年,数学辞典,岩波书店,374.G页)中。
一般化似然比计算部6302根据图22的后验SNR计算部610所提供的后验SNRnγ(k)、图22的估算先验SNR计算部620所提供的估算先验SNRξn(k)hat以及图22的声音非存在概率存储部640所提供的声音非存在概率q,按每个频域计算一般化似然比,并输出到抑制系数计算部6303。每个频域的一般化似然比Λn(k)由下式得出。
式15
&Lambda; n ( k ) = 1 - q q exp ( v n ( k ) ) 1 + &eta; n ( k )
抑制系数计算部6303从由MMSE STSA增益函数值计算部6301所提供的MMSE STSA增益函数值Gn(k)和由一般化似然比计算部6302所提供的一般化似然比Λn(k)中,按每个频域计算抑制系数,并输出到图16的抑制系数修正部650。每个频域的抑制系数Gn(k)bar可由式16得出。
式16
G &OverBar; n ( k ) = &Lambda; n ( k ) &Lambda; n ( k ) + 1 G n ( K )
另外,可以求出由多个频域所构成的宽频域所共通的SNR,来取代按频域单位来计算SNR。
图26是表示图16中所包含的抑制系数修正部650的构成例的框图。抑制系数修正部650具有:最大值选择部6501、抑制系数下限值存储部6502、阈值存储部6503、比较部6504、开关部6505、修正值存储部6506以及乘法器6507。比较部6504将阈值存储部6503所提供的阈值与图22的估算先验SNR计算部620所提供的估算先验SNR相比较,若估算先验SNR比阈值大,则提供“0”给开关6505,若小,则提供“1”给开关6505。开关6505在比较部6504的输出值为“1”时,将图22的杂音抑制系数计算部630所提供的抑制系数输出到乘法器6507,在比较部6504的输出值为“0”时,则输出到最大值选择部6501。即,当估算先验SNR比阈值小时,进行抑制系数的修正。乘法器6507计算开关6505的输出值与修正值存储部6506的输出值之积,并传递给最大值选择部6501。
另一方面,抑制系数下限值存储部6502将存储的抑制系数的下限值提供给最大值选择部6501。最大值选择部6501将图22的杂音抑制系数计算部630所提供的抑制系数、或者用乘法器6507计算的积,与抑制系数下限值存储部6502所提供的抑制系数下限值进行比较,并输出较大的值。即,抑制系数一定是比抑制系数下限值存储部6502所存储的下限值大的值。
图27是表示图15中所包含的非冲击杂音抑制部7的第2构成例的框图。图27与作为第1构成例的图16的不同是:杂音抑制系数生产部600和抑制系数修正部650被替换为抑制系数生成部601和抑制系数修正部651;以及追加了乘法器660、声音存在概率670、以及虚拟输出SNR计算部680。
提供给输入端子1的变差声音,在转换部2中实施傅立叶变换等的转换后,被分割成多个频率分量,并提供给杂音估算部300、杂音抑制系数生成部601、乘法器660和乘法器5。相位被传递到逆转换部3。杂音估算部300针对多个频率分量分别估算变差声音功率谱中所包含的杂音功率谱进行估算,并传递给杂音抑制系数生成部601、声音存在概率计算部670、虚拟输出SNR计算部680。杂音抑制系数生成部601使用变差声音功率谱和估算杂音功率谱生成抑制系数,并提供给乘法器660和抑制系数修正部651。乘法器660将变差声音功率谱和抑制系数之积作为虚拟输出来求出,并提供给声音存在概率计算部670和虚拟输出SNR计算部680。
声音存在概率计算部670根据虚拟输出和估算杂音来求出声音存在概率Vn,提供给虚拟输出SNR计算部680和抑制系数修正部651。作为声音存在概率的一个例子,可以使用虚拟输出信号与估算杂音之比。当该比值大时,声音存在概率高,当小时,声音存在概率低。虚拟输出SNR计算部680使用声音存在概率Vn,根据虚拟输出和估算杂音来求出虚拟输出SNRξL n(k),并提供给抑制修正部651。作为虚拟输出SNR的一个例子,可以使用基于虚拟输出的长时间平均和估算杂音功率谱的长时间输出SNR。虚拟输出的长时间平均根据声音存在概率计算部670所提供的声音存在概率Vn的大小进行更新。抑制系数修正部651使用虚拟输出SNRξL n(k)、声音存在概率Vn来修正抑制系数Gn(k)bar,作为修正抑制系数Gn(k)hat提供给乘法器5,并且,归还给杂音抑制系数生成部601。乘法器5用各频率乘以转换部2所提供的变差声音和抑制系数修正部651所提供的修正抑制系数,并将其积作为强调声音的功率谱传递给逆转换部3。逆转换部3将乘法器5提供的强调声音功率谱和转换部2提供的变差声音的相位进行组合来进行逆转换,作为强调声音信号采样提供给输出端子4。
图28是表示图27中所包含的杂音抑制系数生成部601的构成的框图。与图22所示的杂音抑制系数生成部600的构成比较,在估算先验SNR计算部620的输出即估算先验SNR不被输出这一点上不同。即,杂音抑制系数生成部601的输出仅仅是抑制系数。
图29是表示图27中所包含的抑制系数修正部651的构成例的框图。抑制系数修正部651包含抑制系数下限值计算部6512和最大值选择部6511。虚拟输出SNRξL n(k)和声音存在概率Vn被提供给抑制系数下限值计算部6512。抑制系数下限值计算部6512根据下式,使用与函数A(ξL n(k))和声音区间对应的抑制系数最小值fs,来计算抑制系数的下限值A(Vn,ξL n(k)),并传递给最大值选择部6511。
式17
A ( V n , &xi; n L ( k ) ) = f s &CenterDot; V n + ( 1 - V n ) &CenterDot; A ( &xi; n L ( k ) )
函数A(ξL n(k))基本上具有相对于大的SNR而取小值的形状。A(ξL n(k))为与虚拟输出SNRξL n(k)相对应地来获取这种形状的函数,这意味着,虚拟输出SNR越高,与非声音区间相对应的抑制系数的下限值就越小。这与残留杂音变小相对应,且具有降低声音区间和非声音区间的音质不连续性的效果。另外,函数A(ξL n(k))可以相对于所有的频率分量各不相同,也可以被多个频率分量共有。而且,其形状可以与时间一起发生变化。
最大值计算部6511将从杂音抑制系数计算部630接收到的抑制系数Gn(k)bar与抑制系数下限值计算部6512进行比较,将较大的值作为修正抑制系数Gn(k)hat进行输出。该处理,可以用下式表示。
式18
G ^ n ( k ) = G &OverBar; n ( k ) G &OverBar; n ( k ) &GreaterEqual; A ( V n , &xi; n L ( k ) ) A ( V n , &xi; n L ( k ) ) G &OverBar; n ( k ) < A ( V n , &xi; n L ( k ) )
也就是说,在完全被认为是声音区间的情况下,fs成为抑制系数最小值;在完全被认为是非声音区间的情况下,与虚拟输出SNRξL n(k)相应而由单调递减函数所规定的值成为抑制系数最小值。在被认为介于两者之间的情况下,这些值被适当混合。通过A(ξL n(k))的单调递减性,可以保证低SNR时的大的抑制系数最小值,并保持从消除后剩下的杂音多的紧接之前的声音区间开始的连续性。通过高SNR可以进行控制,以使抑制系数最小值变小,残留杂音变小。这是因为:声音区间的残留杂音小到可以忽视的程度,所以,在非声音区间的残留杂音小的时候,也保持连续性。另外,通过将fs设定成比A(ξL n(k))还大,在声音区间或其可能性高的情况下,杂音抑制程度变轻,从而可以减少声音中产生的失真。这对于不能充分提高混入了由于编码/解码而产生的失真的声音等杂音的估算精确度的情况很有效。
图30是表示本发明的第8实施方式的框图。图30与作为第7实施方式的图15的不同之处在于:非冲击杂音抑制部7被替换为非冲击杂音抑制部17,声音检测部9被删除。在第8实施例中,非冲击杂音抑制部17代替声音检测部9进行声音检测。
图31是表示图30中所包含的非冲击杂音抑制部17的构成例的框图。图31和作为非冲击杂音抑制部7的构成例的图27的不同之处在于:用声音存在概率计算部670计算的声音存在概率被提供给外部。该声音存在概率被提供给图30的冲击音检测部10、冲击音估算部11、平滑化部13、以及随机数生成部14,并取代声音检测部9的输出来使用。
图32是表示本发明的第9实施方式的框图。图32与作为第8实施方式的图30的不同之处在于:除了非冲击杂音抑制部17,还具有声音检测部9;以及冲击音检测部10被冲击音检测部20所替代。通过非冲击杂音抑制部17所求出的声音存在概率和通过声音检测部9所求出的声音存在概率被提供给冲击音检测部20。冲击音检测部20将通过非冲击杂音抑制部17所求出的声音存在概率和通过声音检测部9所求出的声音存在概率进行组合,而获得精确度更高的声音检测结果。
另外,在此前的实施方式中,对按照专利文献1,针对各频率分量独立地计算抑制系数,并使用其进行杂音抑制的例子进行了说明。但是,为了减少计算量,也可以如非专利文献1所公开的那样,针对多个频率分量计算公共的抑制系数,使用其进行杂音抑制。在这种情况下,在图1、6、9、12~15以及30中,构成为:在转换部2之后,具备频域统合部。另外,可以通过成对的滤波器组来实现转换部2和逆转换部4。滤波器组虽然使计算规模增加,并且使频率分解能力变差,但是,对延迟的缩短和折叠失真的减少很有效。另外,第1~5和7、8的实施方式中也可以使用第6实施方式中所示的乘法运算型的抑制。
另外,如非专利文献1那样,通过在图1的转换部2之前具有偏移除去部,在转换部2之后具有振幅修正部和相位修正部,能在频域中形成高通滤波,并减少计算量。另外,在针对多个频率分量计算公共的抑制系数时,可以修改与特定频域对应的杂音估算值。
图33是基于本发明的第10实施方式的杂音抑制装置的框图。本发明的第10实施方式由通过程序控制来工作的计算机(中央处理装置;处理器;数据处理装置)1000,和输入端子1与输出端子4构成。计算机1000包括转换部2、逆转换部3、冲击音检测部8或10、以及冲击音抑制部19。另外,可以包括声音检测部9,也可以包括冲击音估算部11和减法器12来代替冲击音抑制部19。另外,还可以包括将输出信号平滑化的平滑化部13,和将相位随机地变化的随机数生成部14。还可以包括抑制系数计算部15和乘法器16来代替冲击音估算部11和减法器12。通过在转换部之后包括非冲击杂音抑制部7或17,也可以抑制非冲击杂音。
提供给输入端子的变差声音在转换部2中通过实施傅立叶变换等的转换,被分割为多个频率分量,并被提供给非冲击杂音抑制部7。相位在将由随机数生成部14生成的随机数通过加法器进行加法运算后,被传递给逆转换部3。非冲击杂音抑制部7抑制理想信号中所叠加的非冲击音,将强调声音提供给声音检测部9、冲击音检测部10、冲击音估算部11、以及减法器12。声音检测部9进行声音检测,将声音存在概率传递给冲击音检测部10、平滑化部13、以及随机数生成部14。冲击音检测部10根据变差声音功率谱的变化检测出冲击音,并将冲击音存在概率传递给冲击音估算部11。冲击音估算部11接收冲击音存在概率、声音存在概率以及变差声音功率谱,来估算冲击音,并传递给减法器12。减法器12通过由变差声音功率谱减去冲击音估算值来进行抑制,并将冲击音抑制信号传递给平滑化部13。平滑化部13将冲击音抑制信号进行平滑化,传递给逆转换部3。逆转换部3将由平滑化部13所提供的冲击音抑制声音功率谱和由转换部2经过加法器6提供的变差声音的相位进行组合来进行逆转换,并作为强调声音信号采样传递给输出端子4。
通过这种构成进行工作,本发明可以在没有冲击音发生信息的条件下抑制冲击音,可以输出高音质的强调声音。
在如上所说明的所有非冲击杂音抑制部的构成例中,虽然作为杂音抑制的方式,假定了最小均方误差短时间频谱振幅法,但是,其他的方法也适用。作为这种方法的例子,可以举出:非专利文献5(非专利文献5:1979年12月,PROCEEDING OF THEIEEE,VOL.67,NO.12,PP.1586-1604,DEC,1979)中公开的维纳滤波器法,或非专利文献6(非专利文献6:1979年4月,IEEE TRANSACTIONS OFACOUSTICS,SPEECH,AND SIGNALPROCESSING,VOL.27,NO.2,PP.113-120,APR,1979,113~120页)中公开的频谱减法运算法等。省略对这些构成例的详细说明。
如上所述,本发明为抑制杂音的方法,其特征为:将输入信号转换为频域信号,使用该频域信号的变化量,求取有关是否存在冲击音的信息,使用该有关是否存在冲击音的信息和上述频域信号,来抑制冲击音。
另外,上述发明还具有以下特征:使用上述频域信号的平坦度,来求取有关是否存在冲击音的信息。
另外,上述发明还具有以下特征:使用上述域信号,来求取有关是否存在第1声音的信息,使用该有关是否存在第1声音的信息,来求取上述有关是否存在冲击音的信息。
另外,上述发明还具有以下特征:使用上述频域信号,来求取有关是否存在第1声音的信息,使用该有关是否存在第1声音的信息,来求取上述有关是否存在冲击音的信息,使用该有关是否存在冲击音的信息、上述有关是否存在第1声音的信息、和上述频域信号,来求出冲击音估算值,并通过将该冲击音估算值从上述频域信号中减去,来抑制冲击音。
另外,上述发明还具有以下特征:使用上述频域信号,来求取有关是否存在第1声音的信息,使用该有关是否存在第1声音的信息,来求取上述有关是否存在冲击音的信息,使用该有关是否存在冲击音的信息、上述有关是否存在第1声音的信息、和上述频域信号,来求出冲击音估算值,使用该冲击音估算值和上述频域信号来求出抑制系数,并通过求出该抑制系数和上述频域信号之积,来抑制冲击音。
另外,上述发明还具有以下特征:将抑制了上述冲击音的信号进一步平滑化。
另外,上述发明还具有以下特征:在预定的范围内生成随机数,并将该随机数和上述频域信号的相位进行加法运算,来求出修正相位,将该修正相位与抑制了上述冲击音的信号进行组合来转换为时域信号。
另外,上述发明还具有以下特征:针对上述频域信号,抑制非冲击杂音,求出非冲击杂音抑制信号,并使用该非冲击杂音抑制信号来代替上述频域信号。
另外,上述发明还具有以下特征:针对上述频域信号,抑制非冲击杂音,求出非冲击杂音抑制信号,并使用该非冲击杂音抑制信号,来求取有关是否存在第2声音的信息,并使用该有关是否存在第2声音的信息、上述有关是否存在冲击音的信息、上述有关是否存在第1声音的信息、和上述频域信号,来求出冲击音估算值。
另外,上述发明提供一种杂音抑制装置,其特征在于,具有:将输入信号转换为频域信号的转换部;使用该频域信号的变化量,来求取有关是否存在冲击音的信息的冲击音检测部;和使用该有关是否存在冲击音的信息和上述频域信号,来抑制冲击音的冲击音抑制部。
另外,上述发明还具有以下特征:具有冲击音检测部,其使用上述频域信号的变化量和平坦度,来求取有关是否存在冲击音的信息。
另外,上述发明还具有以下特征,具有:使用上述域信号,来求取有关是否存在第1声音的信息的声音检测部;和使用该有关是否存在第1声音的信息,来求取有关是否存在冲击音的信息的冲击音检测部。
另外,上述发明还具有以下特征,具有:使用上述频域信号,来求取有关是否存在第1声音的信息的声音检测部;使用该有关是否存在第1声音的信息,来求取有关是否存在冲击音的信息的冲击音检测部;使用该有关是否存在冲击音的信息、上述有关是否存在第1声音的信息、和上述频域信号,来求出冲击音估算值的冲击音估算部;和将该冲击音估算值从上述频域信号中减去的减法器。
另外,上述发明还具有以下特征,具有:使用上述频域信号,来求取有关是否存在第1声音的信息的声音检测部;使用该有关是否存在第1声音的信息,来求取有关是否存在冲击音的信息的冲击音检测部;使用该有关是否存在冲击音的信息、上述有关是否存在第1声音的信息、和上述频域信号,来求出冲击音估算值的冲击音估算部;使用该冲击音估算值和上述频域信号来求出抑制系数的抑制系数计算部;和通过求出该抑制系数与上述频域信号之积,来抑制冲击音的乘法器。
另外,上述发明还具有以下特征,具有将抑制了上述冲击音的信号进一步平滑化的平滑化部。
另外,上述发明还具有以下特征,具有:在预定的范围内生成随机数的随机数生成部;将该随机数与上述频域信号的相位进行加法运算,来求出修正相位的加法器;和将该修正相位和抑制了上述冲击音的信号进行组合来转换为时域信号的逆转换部。
另外,上述发明还具有以下特征,具有针对上述频域信号,抑制非冲击杂音,求出非冲击杂音抑制信号的非冲击杂音抑制部,并使用该非冲击杂音抑制信号来代替上述频域信号。
另外,上述发明还具有以下特征,具有:针对上述频域信号,抑制非冲击杂音,求出非冲击杂音抑制信号,并且,求取有关是否存在第2声音的信息的非冲击杂音抑制部,上述冲击音估算部使用上述有关是否存在第2声音的信息、上述有关是否存在冲击音的信息、上述有关是否存在第1声音的信息、和上述频域信号,来求出冲击音估算值。
另外,上述发明提供一种使计算机执行以下处理的杂音抑制程序,所述处理为:将输入信号转换为频域信号;使用该频域信号,来求取有关是否存在声音的信息;使用该有关是否存在声音的信息、上述频域信号的变化量和平坦度,来求取有关是否存在冲击音的信息;使用上述有关是否存在声音的信息、上述有关是否存在冲击音的信息、和上述频域信号,来求出冲击音估算值;使用该冲击音估算值和上述频域信号来抑制冲击音,生成强调声音。
另外,上述发明还具有以下特征,使计算机进一步执行将上述强调声音平滑化的处理。
另外,上述发明还具有以下特征,使计算机,还执行以下的处理:在预定的范围内生成随机数;将该随机数与上述频域信号的相位进行加法运算,求出修正相位;将该修正相位与上述抑制冲击音的信号进行组合来转换为时域信号。
另外,上述发明还具有以下特征:使计算机,还执行以下的处理:将输入信号转换为频域信号;使用该频域信号,来求取有关是否存在声音的信息;使用该有关是否存在声音的信息、上述频域信号的变化量和平坦度,来求取有关是否存在冲击音的信息;使用上述有关是否存在声音的信息、上述有关是否存在冲击音的信息、和上述频域信号,来求出冲击音估算值;通过将该冲击音估算值从上述频域信号中减去,来抑制冲击音。
本申请要求基于2007年3月6日申请的日本申请特愿2007-55149号的优先权,其中公开的内容都记载在本发明中。

Claims (22)

1.一种抑制杂音的方法,其特征为:
将输入信号转换为频域信号,
使用该频域信号的变化量,来求取有关是否存在冲击音的信息,
使用该有关是否存在冲击音的信息和上述频域信号,来抑制冲击音。
2.如权利要求1中记载的抑制杂音的方法,其特征为:
使用上述频域信号的平坦度,来求取有关是否存在冲击音的信息。
3.如权利要求1或2中记载的抑制杂音的方法,其特征为:
使用上述频域信号,来求取有关是否存在第1声音的信息,
使用该有关是否存在第1声音的信息,来求取上述有关是否存在冲击音的信息。
4.如权利要求1到3的任何1项中记载的抑制杂音的方法,其特征为:
使用上述频域信号,来求取有关是否存在第1声音的信息,
使用该有关是否存在第1声音的信息,来求取上述有关是否存在冲击音的信息,
使用该有关是否存在冲击音的信息、上述有关是否存在第1声音的信息、和上述频域信号,来求出冲击音估算值,
通过将该冲击音估算值从上述频域信号中减去,来抑制冲击音。
5.如权利要求1到3的任何1项中记载的抑制杂音的方法,其特征为:
使用上述频域信号,来求取有关是否存在第1声音的信息,
使用该有关是否存在第1声音的信息,来求取上述有关是否存在冲击音的信息,
使用该有关是否存在冲击音的信息、上述有关是否存在第1声音的信息、和上述频域信号,来求出冲击音估算值,
使用该冲击音估算值和上述频域信号,来求出抑制系数,
通过求出该抑制系数与上述频域信号之积,来抑制冲击音。
6.如权利要求1到5的任何1项中记载的抑制杂音的方法,其特征为:
将抑制了上述冲击音的信号进一步平滑化。
7.如权利要求1到6的任何1项中记载的抑制杂音的方法,其特征为:
在预定的范围内生成随机数,
将该随机数与上述频域信号的相位进行加法运算,来求出修正相位,
将该修正相位与抑制了上述冲击音的信号进行组合,转换为时域信号。
8.如权利要求1到7中任何1项中记载的抑制杂音的方法,其特征为:
针对上述频域信号,抑制非冲击杂音,求出非冲击杂音抑制信号,
使用该非冲击杂音抑制信号来代替上述频域信号。
9.如权利要求1到7中任何1项中记载的抑制杂音的方法,其特征为:
针对上述频域信号,抑制非冲击杂音,求出非冲击杂音抑制信号,
使用该非冲击杂音抑制信号,来求取有关是否存在第2声音的信息,
使用该有关是否存在第2声音的信息、上述有关是否存在冲击音的信息、上述有关是否存在第1声音的信息、和上述频域信号,来求出冲击音估算值。
10.一种抑制杂音的装置,其特征为,具有:
转换部,其将输入信号转换为频域信号;
冲击音检测部,其使用该频域信号的变化量,来求取有关是否存在冲击音的信息;和
冲击音抑制部,其使用该有关是否存在冲击音的信息和上述频域信号,来抑制冲击音。
11.如权利要求10中记载的抑制杂音的装置,其特征为,具有:
冲击音检测部,其使用上述频域信号的变化量和平坦度,来求取有关是否存在冲击音的信息。
12.如权利要求10或11中记载的抑制杂音的装置,其特征为,具有:
声音检测部,其使用上述域信号,来求取有关是否存在第1声音的信息;和
冲击音检测部,其使用该有关是否存在第1声音的信息,来求取有关是否存在冲击音的信息。
13.如权利要求10到12的任何1项中记载的抑制杂音的装置,其特征为,具有:
声音检测部,其使用上述频域信号,来求取有关是否存在第1声音的信息;
冲击音检测部,其使用该有关是否存在第1声音的信息,来求取有关是否存在冲击音的信息;
冲击音估算部,其使用该有关是否存在冲击音的信息、上述有关是否存在第1声音的信息、和上述频域信号,来求出冲击音估算值;和
减法器,其将该冲击音估算值从上述频域信号中减去。
14.如权利要求10到12的任何1项中记载的抑制杂音的装置,其特征为,具有:
声音检测部,其使用上述频域信号,来求取有关是否存在第1声音的信息;
冲击音检测部,其使用该有关是否存在第1声音的信息,来求取有关是否存在冲击音的信息;
冲击音估算部,其使用该有关是否存在冲击音的信息、上述有关是否存在第1声音的信息、和上述频域信号,来求出冲击音估算值;
抑制系数计算部,其使用该冲击音估算值和上述频域信号,来求出抑制系数;和
乘法器,其通过求出该抑制系数与上述频域信号之积,来抑制冲击音。
15.如权利要求10到14的任何1项中记载的抑制杂音的装置,其特征为,具有:
将抑制了上述冲击音的信号进一步平滑化的平滑化部。
16.如权利要求10到15的任何1项中记载的抑制杂音的装置,其特征为,具有:
随机数生成部,其在预定的范围内生成随机数;
加法器,其将该随机数和上述频域信号的相位进行加法运算,而求出修正相位;和
逆转换部,其将该修正相位和抑制了上述冲击音的信号组合,转换为时域信号。
17.如权利要求10到16的任何1项中记载的抑制杂音的装置,其特征为,具有:
非冲击杂音抑制部,其针对上述频域信号,抑制非冲击杂音,求出非冲击杂音抑制信号,
使用该非冲击杂音抑制信号来代替上述频域信号。
18.如权利要求10到16的任何1项中记载的抑制杂音的装置,其特征为,具有:
非冲击杂音抑制部,其针对上述频域信号,抑制非冲击杂音,求出非冲击杂音抑制信号,并且求取有关是否存在第2声音的信息,
上述冲击音估算部使用上述有关是否存在第2声音的信息、上述有关是否存在冲击音的信息、上述有关是否存在第1声音的信息、和上述频域信号,来求出冲击音估算值。
19.一种抑制杂音的程序,其特征为:
使计算机执行以下处理:
将输入信号转换为频域信号;
使用该频域信号,来求取有关是否存在声音的信息;
使用该有关是否存在声音的信息、上述频域信号的变化量和平坦度,来求取有关是否存在冲击音的信息;
使用上述有关是否存在声音的信息、上述有关是否存在冲击音的信息、和上述频域信号,来求出冲击音估算值;
使用该冲击音估算值和上述频域信号来抑制冲击音,生成强调声音。
20.如权利要求19中记载的抑制杂音的程序,其特征为:
使计算机还执行将上述强调声音进行平滑化的处理。
21.如权利要求19或20中记载的抑制杂音的程序,其特征为:
使计算机还执行以下的处理:
在预定的范围内生成随机数;
将该随机数和上述频域信号的相位进行加法运算,求出修正相位;
将该修正相位与上述抑制冲击音的信号进行组合,转换为时域信号。
22.如权利要求19或21中记载的抑制杂音的程序,其特征为:
使计算机还执行以下的处理:
将输入信号转换为频域信号;
使用该频域信号,来求取有关是否存在声音的信息;
使用该有关是否存在声音的信息、上述频域信号的变化量和平坦度,来求取有关是否存在冲击音的信息;
使用上述有关是否存在声音的信息、上述有关是否存在冲击音的信息、和上述频域信号,来求出冲击音估算值;
通过将该冲击音估算值从上述频域信号中减去,来抑制冲击音。
CN200880007275A 2007-03-06 2008-03-05 抑制杂音的方法、装置以及程序 Pending CN101627428A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP055149/2007 2007-03-06
JP2007055149 2007-03-06

Publications (1)

Publication Number Publication Date
CN101627428A true CN101627428A (zh) 2010-01-13

Family

ID=39759405

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200880007275A Pending CN101627428A (zh) 2007-03-06 2008-03-05 抑制杂音的方法、装置以及程序

Country Status (4)

Country Link
US (1) US9047874B2 (zh)
JP (2) JP5791092B2 (zh)
CN (1) CN101627428A (zh)
WO (1) WO2008111462A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102576543A (zh) * 2010-07-26 2012-07-11 松下电器产业株式会社 多输入噪声抑制装置、多输入噪声抑制方法、程序以及集成电路
CN103295582A (zh) * 2012-03-02 2013-09-11 联芯科技有限公司 噪声抑制方法及其系统
CN105144290A (zh) * 2013-04-11 2015-12-09 日本电气株式会社 信号处理装置、信号处理方法和信号处理程序
US9643346B2 (en) 2011-09-14 2017-05-09 Machovia Technology Innovations Ug Method and device for producing a seamless circumferentially closed flexible embossing tape and embossing tape

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8204754B2 (en) * 2006-02-10 2012-06-19 Telefonaktiebolaget L M Ericsson (Publ) System and method for an improved voice detector
WO2010146711A1 (ja) * 2009-06-19 2010-12-23 富士通株式会社 音声信号処理装置及び音声信号処理方法
JP4952769B2 (ja) 2009-10-30 2012-06-13 株式会社ニコン 撮像装置
US9628517B2 (en) * 2010-03-30 2017-04-18 Lenovo (Singapore) Pte. Ltd. Noise reduction during voice over IP sessions
WO2012114628A1 (ja) * 2011-02-26 2012-08-30 日本電気株式会社 信号処理装置、信号処理方法、及び記憶媒体
JP6182895B2 (ja) 2012-05-01 2017-08-23 株式会社リコー 処理装置、処理方法、プログラム及び処理システム
US9715885B2 (en) 2013-03-05 2017-07-25 Nec Corporation Signal processing apparatus, signal processing method, and signal processing program
JPWO2014136628A1 (ja) 2013-03-05 2017-02-09 日本電気株式会社 信号処理装置、信号処理方法および信号処理プログラム
JP2014178578A (ja) * 2013-03-15 2014-09-25 Yamaha Corp 音響処理装置
US9118370B2 (en) * 2013-04-17 2015-08-25 Electronics And Telecommunications Research Institute Method and apparatus for impulsive noise mitigation using adaptive blanker based on BPSK modulation system
JP6053202B2 (ja) * 2015-02-02 2016-12-27 日本電信電話株式会社 ウィーナーフィルタ設計装置、音声強調装置、ウィーナーフィルタ設計方法、プログラム
CN106571146B (zh) 2015-10-13 2019-10-15 阿里巴巴集团控股有限公司 噪音信号确定方法、语音去噪方法及装置
CN110706719B (zh) * 2019-11-14 2022-02-25 北京远鉴信息技术有限公司 一种语音提取方法、装置、电子设备及存储介质
CN111477241B (zh) * 2020-04-15 2023-05-26 南京邮电大学 一种面向家居噪声环境的分层自适应去噪方法及系统

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06276599A (ja) * 1991-07-26 1994-09-30 Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho 衝撃音抑圧装置
JPH06110492A (ja) * 1992-08-13 1994-04-22 Fujitsu Ltd 音声認識装置
JP3437264B2 (ja) * 1994-07-07 2003-08-18 パナソニック モバイルコミュニケーションズ株式会社 雑音抑圧装置
JPH11143485A (ja) * 1997-11-14 1999-05-28 Oki Electric Ind Co Ltd 音声認識方法及び音声認識装置
JP3248522B2 (ja) * 1999-07-21 2002-01-21 住友電気工業株式会社 音源種別識別装置
US6910011B1 (en) * 1999-08-16 2005-06-21 Haman Becker Automotive Systems - Wavemakers, Inc. Noisy acoustic signal enhancement
US20040057586A1 (en) * 2000-07-27 2004-03-25 Zvi Licht Voice enhancement system
JP3566197B2 (ja) 2000-08-31 2004-09-15 松下電器産業株式会社 雑音抑圧装置及び雑音抑圧方法
JP4282227B2 (ja) 2000-12-28 2009-06-17 日本電気株式会社 ノイズ除去の方法及び装置
US7895036B2 (en) 2003-02-21 2011-02-22 Qnx Software Systems Co. System for suppressing wind noise
US7949522B2 (en) * 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
JP3963850B2 (ja) * 2003-03-11 2007-08-22 富士通株式会社 音声区間検出装置
JP4456504B2 (ja) * 2004-03-09 2010-04-28 日本電信電話株式会社 音声雑音判別方法および装置、雑音低減方法および装置、音声雑音判別プログラム、雑音低減プログラム
JP2008522511A (ja) * 2004-12-04 2008-06-26 ダイナミック ヒアリング ピーティーワイ リミテッド 適応可能な音声処理パラメータ用の方法及び装置
JP2006270591A (ja) * 2005-03-24 2006-10-05 Nikon Corp 電子カメラ、データ再生装置およびプログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102576543A (zh) * 2010-07-26 2012-07-11 松下电器产业株式会社 多输入噪声抑制装置、多输入噪声抑制方法、程序以及集成电路
US8824700B2 (en) 2010-07-26 2014-09-02 Panasonic Corporation Multi-input noise suppression device, multi-input noise suppression method, program thereof, and integrated circuit thereof
CN102576543B (zh) * 2010-07-26 2014-09-10 松下电器产业株式会社 多输入噪声抑制装置、多输入噪声抑制方法以及集成电路
US9643346B2 (en) 2011-09-14 2017-05-09 Machovia Technology Innovations Ug Method and device for producing a seamless circumferentially closed flexible embossing tape and embossing tape
CN103295582A (zh) * 2012-03-02 2013-09-11 联芯科技有限公司 噪声抑制方法及其系统
CN103295582B (zh) * 2012-03-02 2016-04-20 联芯科技有限公司 噪声抑制方法及其系统
CN105144290A (zh) * 2013-04-11 2015-12-09 日本电气株式会社 信号处理装置、信号处理方法和信号处理程序
US10741194B2 (en) 2013-04-11 2020-08-11 Nec Corporation Signal processing apparatus, signal processing method, signal processing program
CN105144290B (zh) * 2013-04-11 2021-06-15 日本电气株式会社 信号处理装置、信号处理方法和信号处理程序

Also Published As

Publication number Publication date
US9047874B2 (en) 2015-06-02
JP2015158696A (ja) 2015-09-03
JP5791092B2 (ja) 2015-10-07
WO2008111462A1 (ja) 2008-09-18
JPWO2008111462A1 (ja) 2010-06-24
US20100014681A1 (en) 2010-01-21

Similar Documents

Publication Publication Date Title
CN101627428A (zh) 抑制杂音的方法、装置以及程序
Søndergaard et al. The linear time frequency analysis toolbox
Hlawatsch et al. Time-frequency formulation, design, and implementation of time-varying optimal filters for signal estimation
CA2553784A1 (en) Improved coding techniques using estimated spectral magnitude and phase derived from mdct coefficients
Athineos et al. Autoregressive modeling of temporal envelopes
CN111081268A (zh) 一种相位相关的共享深度卷积神经网络语音增强方法
CN106340292A (zh) 一种基于连续噪声估计的语音增强方法
Gabor Communication theory and cybernetics
Mimilakis et al. A recurrent encoder-decoder approach with skip-filtering connections for monaural singing voice separation
CN103905656B (zh) 残留回声的检测方法及装置
EP3182413B1 (en) Adaptive line enhancer based method
CN105103230A (zh) 信号处理装置、信号处理方法、信号处理程序
Takeuchi et al. Invertible DNN-based nonlinear time-frequency transform for speech enhancement
Xu et al. U-former: Improving monaural speech enhancement with multi-head self and cross attention
Choi Noise reduction algorithm in speech by Wiener filter
Funaki A time-varying complex AR speech analysis based on GLS and ELS method
Astudillo et al. Uncertainty propagation
CN116682444A (zh) 一种基于波形频谱融合网络的单通道语音增强方法
Hong et al. Independent component analysis based single channel speech enhancement
Batina et al. Noise power spectrum estimation for speech enhancement using an autoregressive model for speech power spectrum dynamics
Djurović et al. Removal of α-stable noise in frequency modulated signals using robust DFT forms
Wang et al. A joint diagonalization method for convolutive blind separation of nonstationary sources in the frequency domain
uddin Khan et al. A robust PDE based image de-noising method
Badiezadegan et al. A wavelet-based data imputation approach to spectrogram reconstruction for robust speech recognition
Shang et al. Analysis and solution to aliasing artifacts in neural waveform generation models

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20100113