CN104704560B

CN104704560B - 共振峰依赖的语音信号增强

Info

Publication number: CN104704560B
Application number: CN201280076334.6A
Authority: CN
Inventors: M·克里尼; I·沙尔克-舒普; M·布克
Original assignee: Nuance Communications Inc
Current assignee: Serenes Operations
Priority date: 2012-09-04
Filing date: 2012-09-04
Publication date: 2018-06-05
Anticipated expiration: 2032-09-04
Also published as: DE112012006876T5; US9805738B2; WO2014039028A1; DE112012006876B4; US20160035370A1; CN104704560A

Abstract

描述了一种用于语音信号处理的装置。接收包括语音信号分量和噪声分量的输入麦克风信号。将所述麦克风信号变换到短期谱信号的频域集中。然后，基于检测所述谱信号中的高能量密度区域来估计在所述谱信号之内的语音共振峰分量。对所述谱信号应用一个或多个动态调节的增益因子，以增强所述语音共振峰分量。

Description

共振峰依赖的语音信号增强

技术领域

本发明涉及语音信号处理中的降噪。

背景技术

常见的降噪算法对嘈杂的信号中存在的噪声类型做出假设。例如，维纳滤波器引入均方差(MSE)成本函数作为目标距离测量，以最优地最小化期望的信号与经滤波的信号之间的距离。然而，MSE不能说明人类对信号质量的感知。另外，滤波算法通常独立地应用于频率箱中的每个。因此，所有类型的信号被同等处置。这允许在许多不同情形下的良好的降噪性能。

然而，汽车环境中的移动通信情况是特殊的，这时因为它们包含语音作为它们期望的信号。行驶过程中存在的噪声的主要特征在于具有较低频率的渐增的噪声水平。语音信号处理开始于来自语音感测麦克风的输入音频信号。麦克风信号表示多个不同声源的混合物。除语音分量外，麦克风信号中的所有其他声源分量都充当不期望的噪声，所述不期望的噪声使得对语音分量的处理复杂化。在中度到高度噪声境况中从噪声分量中分离期望的语音分量尤其困难，尤其是在以高速公路行驶速度行驶的汽车客舱之内，在多名人员正在同时讲话时，或者有音频内容存在的情况下。

在语音信号处理中，麦克风信号通常首先被分割成适当大小的重叠块并对其应用窗口函数。然后使用快速傅立叶变换(FFT)将每个经开窗的信号块变换到频域中，以产生嘈杂的短期谱信号。为了降低不期望的噪声分量，同时保持语音信号尽可能自然，计算信噪比依赖(SNR：信噪比)的加权系数并将其应用于谱信号。然而，现有的常规方法使用的SNR依赖的加权规则，所述SNR依赖的加权规则在每个频率中独立地运行，并且不考虑被处理的实际语音声音的特征。

图1显示了用于语音信号降噪的典型装置。分析滤波器组102从麦克风101接收麦克风信号y(i)。y(i)包括语音分量(i)和由麦克风接收到的噪声分量n(i)两者。参数(i)是采样索引，其识别用于麦克风信号y采样的时间段。分析滤波器组102通过应用FFT变换来将时域麦克风采样转换成频域表示帧。分析滤波器组102将滤波器系数分离成频率箱。如在附图中所指出的，麦克风信号的频域表示为Y(k,μ)，其中，k表示帧索引，并且μ表示频率箱索引。将麦克风信号的频域表示提供给降噪滤波器103。在降噪滤波器中计算信噪比加权系数，从而得到滤波器系数H(kμ)，并且滤波器系数和频域表示相乘，从而得到降噪信号针对帧的所有频率，在合成滤波器组中收集降噪频域信号，并且通过逆向变换(例如，逆向FFT)来传递帧。

发明内容

本发明的实施例指向用于语音信号处理的装置。可以在语音识别之前完成对语音信号的处理。该系统和方法也可以与移动电话信号一起被采用，并且更具体地在嘈杂的汽车环境中，以便提高接收的语音信号的可懂度。

接收包括语音信号分量和噪声分量的输入麦克风信号。麦克风信号被变换到短期谱信号的频域集中。然后，基于检测谱信号中的高能量密度区域来估计在谱信号之内的语音共振峰分量。对谱信号应用一个或多个动态调节的增益因子，以增强语音共振峰分量。

包括至少一个硬件实施的计算机处理器(例如，数字信号处理器)的计算机实施的方法可以处理语音信号并且识别并提升频域中的共振峰。可以由麦克风接收具有语音信号分量和噪声分量的输入麦克风信号。

语音预处理器将麦克风信号变换到短期谱信号的频域集中。基于检测谱信号中的高能量密度区域来在谱信号之内识别出语音共振峰分量。对谱信号应用一个或多个动态调节的增益因子，以增强语音共振峰分量。

可以基于使用线性预测编码滤波器寻找谱峰来识别和估计共振峰。也可以使用无限脉冲响应平滑滤波器来估计共振峰以使谱信号平滑。识别共振峰之后，可以使用窗口函数来提升用于共振峰被识别处的频率箱的系数。窗口函数提升并成形总体滤波器系数。然后可以对原始语音输入信号应用总体滤波器。根据共振峰检测可靠性来动态地调节用于提升的增益因子。动态地调节成形的窗口并且只将其应用于具有经识别的语音的频率箱。在本发明的某些实施例中，可以取决于信噪比来动态地调整提升窗口函数。

在本发明的实施例中，应用增益因子以过低估计噪声分量，以便减少谱信号的共振峰区域中的语音失真。额外地，增益因子可以与一个或多个噪声抑制系数进行组合，以提高宽带信噪比。

可以在具有一个或多个模块的系统之内实施共振峰检测和共振峰提升。如本文所使用的，术语模块可以意指专用集成电路或通用处理器和被存储在存储器中的相关联的源代码。每个模块可以包括一个或多个处理器。系统可以包括语音信号输入部，以用于接收具有语音信号分量和噪声分量的麦克风信号。额外地，系统可以包括信号预处理器，以用于将麦克风信号变换到的短期谱信号的频域集中。系统包括共振峰估计模块和共振峰增强模块两者。共振峰估计模块基于检测谱信号中的高能量密度的区域来估计在谱信号之内的语音共振峰分量。共振峰增强模块确定一个或多个动态调节的增益因子，所述一个或多个动态调节的增益因子应用于谱信号以增强语音共振峰分量。

附图说明

图1示出了用于语音信号降噪的典型的现有技术的装置。

图2示出了语音谱信号的曲线图，所述曲线图示出了如何识别其中的共振峰分量。

图3示出了用于确定共振峰的位置的流程图；

图3A示出了可能的提升窗口函数。

图4示出了用于语音信号降噪的本发明的实施例，所述语音信号降噪包括共振峰检测和共振峰提升。

图5示出了用于语音信号降噪的一个具体实施例的进一步详情。

图6示出了根据本发明实施例的语音信号增强方法中的各个逻辑步骤。

具体实施方式

本发明的各个实施例指向在语音信号处理中通过识别并加强在麦克风信号之内的语音共振峰来增强语音质量和可懂度的计算高效的技术。共振峰表示在特定的频率间隔(谱峰)之内的声能量的主要集中物，所述主要集中物对解读语音内容来说是重要的。共振峰的识别和加强可以与降噪算法结合使用。

图2示出了语音谱信号和可以用于识别谱峰以及(因此识别)共振峰的分量部分的曲线图。第一分量Syy表示麦克风信号的浊音(voiced)部分的功率谱密度。第二分量表示麦克风信号的噪声分量的估计功率谱密度；并且第三分量“滤波器系数”表示在噪声抑制和共振峰增大后的滤波器系数。针对该语音信号的共振峰由谱峰201来识别。

图3提供了用于共振峰识别的流程图。共振峰是信号中激励信号被共振滤波器放大的所述信号的频率部分。该激励导致与任何共振峰中心频率周围的激励功率谱密度(PSD)相比、以及与相邻频带相比更高的PSD，除非那里存在另一共振峰。假设除声道共振峰外，不存在其他显著的共振峰(例如，强的环境共振)，则能够通过寻找局部高PSD带来发现共振峰。不是所有的局部高PSD带都指示共振峰。清音激励(例如，擦音)不应当被识别为共振峰。为了避免提升擦音，可以使用针对共振峰的检测的频带约束。例如，f_F,最大＝3500Hz。额外地，也不应当在没有语音活动的帧内发生任何提升。因此，共振峰识别还应当包括浊音激励检测器，以用于限制经搜索的帧的数目。通过减少相关的帧和频率箱的数目，这些约束减少了检测过程的计算复杂度。

如上所述，应当只在浊音语音音素期间和那些SNR(信噪比)充足的共振峰区域上加强共振峰。否则，将会放大噪声分量，这导致降低的语音质量。在第一步骤中，本发明的方法首先识别包含浊音语音的输入语音信号的频域。301为了实现这一目的，采用浊音激励检测器。可以使用任何已知的激励检测器，并且下面描述的检测器仅仅是示例性的。在一个实施例中，浊音激励检测器模块决定在多个(M_F)个频率箱上的平均对数INR(输入-噪声比)是否超过了特定阈值P_VUD*：

如果结果为真，则识别出语音信号。如果结果为假，则当前帧中的频率箱(这里用n来指代)不包含语音。

在识别出具有语音的帧后，可以对语音信号应用任选的平滑函数，以消除重叠的共振峰的谐波掩蔽问题。302。可以应用一阶无限脉冲响应(IIR)滤波器以用于进行平滑，尽管也可以在不脱离本发明的意图下应用其他谱平滑技术(例如，样条、快速平滑和慢速平滑等)。平滑滤波器应当被设计为提供充足的谐波作用削弱，同时不会抵消任何共振峰的最大值。

下面定义了示例性滤波器，并且该滤波器在向前方向上被应用一次并且在向后方向上被应用一次，以便保持适当的局部特性。它的形式是：

并且

利用给定的变换参数(采样频率FS＝16000Hz且窗口宽度NFFT＝512，发现良好的折衷数值的平滑常数是gamma_f＝0.92)。这对应于针对任意短期傅立叶变换(STFT)参数的自然衰减常数：

STFT依赖的参数然后：

在平滑PSD后，通过寻找在各自的频率箱之内的经平滑的PSD的零导数来确定局部最大值303。合并零的条纹，并且如本领域普通技术人员所已知的，使用二阶导数分析来对最小值、最大值以及鞍点进行归类。在快速平滑和慢速平滑的情况下，假设最大值点为共振峰的中心频率f_F(i_F,n)，并且共振峰的宽度将是已知的Δf_F(i_F,n)。

在识别出共振峰后，能够使用自适应增益因子来加强共振峰区域。值域为[0,1]的提升函数B(f,n)，其中，值0应当表示在各自的频率箱中不存在任何共振峰，而值1应当标定共振峰的中心。

我们引入原型提升窗口函数其中

其中，定义了实际的原型窗口形状。

在任何共振峰之内，能够预计在它的中心处具有最高信噪比(SNR)。通过提升信号而对噪声的引入朝着共振峰的边界增加。因此，典型的共振峰中心周围的提升优选应当平缓地下降。图3A示出了多个可能符合此标准的窗口函数。例如，可以使用高斯函数作为原型提升窗口函数以确保平缓下降。本范例的窗口以x＝0为中心并且具有统一的宽度。以x＝0为中心以及统一宽度允许共同的操作空间，以便后续处理，例如，可以容易地应付窗口的拉伸和移位。

能够使用不同成形的窗口，例如，高斯、余弦以及三角窗口。能够利用不同的加权规则以提升输入信号。优选地，提升窗口强调共振峰的中心频率，并且窗口在频率范围内被拉伸。在利用快速平滑方法和慢速平滑方法的情况下，对于检测到的每个共振峰，原型窗口函数被因子w(iF,n)拉伸以匹配共振峰的宽度(如果已知的话)。否则，它应当被拉伸至约600Hz的恒定频率宽度，尽管也可以采用其他类似的频率范围。

该窗口也必须以共振峰的中心频率来移位，以匹配其在频域中的位置。提升函数被定义为经拉伸和移位的原型提升窗口函数的总和：

在本发明的其他实施例中，可以取决于共振峰估计的假定可靠性来调节成形窗口中心周围的增益值。因此，如果共振峰估计的可靠性为低，则与高可靠性的共振峰估计相比，窗口函数架构不会提升同样多的频率分量。

当不存在实际的语音时，为了避免在语音信号(例如，帧)之内检测共振峰，也能够考虑之前估计的共振峰以用于调节窗口函数。总体而言，取决于口语音素，共振峰的位置随着时间推移而缓慢变化。

图4示出了实施在系统中的共振峰提升和检测方法的实施例，其中，由麦克风接收语音信号并在将其提供给语音识别引擎或通过音频扬声器输出给收听者之前对其进行降噪处理。如图4所示，麦克风信号y(i)被传递到分析滤波器组102。在分析滤波器组102中，将采样的麦克风信号通过采用FFT转换成频域，从而得到基于子频带频率的麦克风信号的表示Y(k,μ)。如以上所表示的，该信号包括针对多个频率箱的多个帧k(例如，节段、范围、子频带)。将基于频率的表示提供给降噪模块103以及共振峰检测模块。例如，降噪模块可以包含如Klaus Linhard和Tim Haulick在“Spectral noise subtraction with recursive gaincurves”(ICSLP1998，International Conference on Spoken Language Processing)中所描述的改善的递归维纳滤波器。Linhard和Haulick参考的递归维纳滤波器可以由下面的等式来定义：

其中，α是过度估计因子，并且β是谱基底。这里，谱基底充当反馈限制和掩蔽音乐噪声的经典谱基底两者。可以由INR(f_μ,n)替换以得到

为了在它的输入状态空间中找到平衡图，设定

并且

INR(f_μ,n)＝:INR'_eq

这导致

这是减少的系统平衡图的隐式表示。能够根据系统输出H’_eq来将其变换以给出INR’_eq：

或给出在INR’_eq域中具有两个分支的H’_eq的拟函数：

该系统具有两种不同的平衡。顶部的分支在两侧都是稳定的，而较低的分支是不稳定的。离开分叉点，滤波器的输出不断向零减小，因此只要达到低输入INR滤波器就几乎完全关闭。降噪滤波器的输出H(fμ,n)表示对于帧n中的每个频率箱μ，值在0与1之间的滤波器系数。本领域普通技术人员应当理解，本发明不仅仅限于递归维纳滤波器，在不脱离本发明的意图下，可以将采用其他降噪滤波器与共振峰检测和提升进行组合。能够通过取决于共振峰提升函数而放置它们的滞后侧翼来进一步增强具有与经改善的维纳滤波器类似的反馈结构的滤波器(例如，改善的功率减法、改善的幅值减法)。能够通过取决于共振峰提升函数而在它们的输出滤波器系数上应用额外增益来增强任意的降噪滤波器(例如，Y.Ephraim，D.Malah：Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator，IEEE Trans.Acoust，Speech Signal Process，1984年，卷32，第6号，第1109-1121页)。

在确定了降噪滤波器的滤波器系数后，将该系数提供给共振峰提升器401。共振峰提升器401首先在降噪信号的谱中检测共振峰。共振峰提升器可以将所有高功率密度频带识别为共振峰，或者可以采用其他的检测算法。能够使用线性预测编码(LPC)技术以用于估计语音声音的声道信息，然后搜索LPC谱峰来执行对共振峰的检测。在一个实施例中，采用关于图3所描述的话音激励检测方法。可以通过要求共振峰之间的最小间隙来进一步增强共振峰检测。例如，在预定的频率范围(例如，300、400、500或600Hz)之内识别的峰可以被认为是相同的共振峰，而在频率范围之外的是不同的共振峰。两个相邻的共振峰之间的合理距离是它们的平均宽度的80％的部分。额外地，为了避免提升具有过多噪声的区中的共振峰，可以在每个共振峰之内存在的平均INR(输入-噪声比)上设定进一步的要求。在识别了包括共振峰的频率箱后，频率提升模块401将提升该共振峰的频率，特别是该共振峰的中心频率(例如，针对该频率箱的相对最大频率)。为了执行所述的共振峰依赖的放大，多个提升函数B(fμ,n)的B_最大被加到滤波器系数。B_最大是在共振峰的中心所期望的最大放大。

在共振峰的各自频率箱之内提升共振峰之后，所得到的滤波器系数H(k,μ)与数字麦克风信号进行卷积，从而得到经降噪和共振峰提升的信号该信号(其仍然在频域中并且包括频率箱和时间帧)被传递到合成滤波器组，以将该信号变换到时域中。所得到的信号表示原始语音信号的增大版本，并且应当被更好地定义，以便使随后的语音识别引擎(未示出)能够识别该语音。

图4示出了本发明的实施例，其中，在通过降噪滤波器降噪之后执行共振峰提升。通过执行该后降噪滤波方法实现了一定的效益。具有良好信噪比的任何频率箱使共振峰被加强。通过加强信号部分而不是加强噪声，提高了可懂度。共振峰的后滤波提升对将被周围噪声掩蔽的语音信号分量进行提升。由于提升了该信号并且增加了功率，因此与对应的经常规降噪的信号相比，共振峰提升的信号更加响亮。在某些情形中，如果超过了系统的动态范围，则这能够导致裁剪。更重要的是，共振峰频带中的语音信号的总体功率的增长与其在擦音频带中的功率有关。共振峰的中心与没有共振峰的频带之间的功率对比度是由最大放大B_最大来确定的。功率对比度负责提高可懂度并且不应当被降低。相反，在选择性放大之后，能够将潜在地包含共振峰的频带(高达f_F,最大＝3500Hz)作为一个整体进行削弱。能够使经提升的信号与未经提升的信号之间的功率的预计差异相对地降低，优选等于零。

与以上描述的在降噪滤波器之后提升共振峰的过程相反，也能够应用所公开的共振峰检测方法和提升，作为预处理阶段或作为常规噪声抑制滤波器的部分。该方法过低估计共振峰区域中的背景噪声，并且能够用于取决于共振峰来任意地控制滤波器的参数。在该方法中，噪声抑制滤波器被驱使提供对共振峰的承认，如果所有的频率箱都被同等处置，则所述共振峰通常将被削弱。因此，噪声抑制滤波器操作地不太积极，因此它在某种程度上降低了语音失真。如先前所指示的，在本发明的一些实施例中，可以将递归维纳滤波器用作噪声抑制滤波器。当递归维纳滤波器有效地降低了音乐噪声时，它也在低INR处削弱了语音。对滤波器的特性中的滞后边缘或侧翼的放置确定了在哪些INR信号处向下削弱到谱基底。侧翼的适当放置将引起音乐噪声抑制与语音信号保真度之间的良好平衡。期望根据情形来修改侧翼的位置。在仅有噪声的区(这里使用术语“区”来描述时间跨度以及频带)中，音乐噪声抑制应当保持普遍存在，而在具有语音信号分量的区(例如，共振峰)中，保留语音信号变得更加重要。通过以共振峰的形式检测重要的语音分量，在两者之间得到良好的加权函数。对于递归维纳滤波器，在边缘或侧翼处，INR滤波器关闭(INReq，关闭)或打开(INReq，打开)由下式给出：

INR_eq,关闭(α)＝4α

并且

该系统能够根据侧翼所期望的INR被重新布置以描述参数α和β：

能够通过选择足够的过高估计α和谱基底β来独立地放置侧翼。例如，如果选择β任意小以将向上的侧翼朝向更高的INR移动，则这也将导致非常低的最大削弱，这可能是不期望的。这可以通过引入单独的参数H_最小来消除，所述参数H_最小不会有助于反馈，但至少限制输出削弱。所提出的系统由下式描述：

并且

该滤波器能够比常规的递归维纳滤波器更好地被调整适应不同的状况。能够通过定义默认侧翼位置和它们所期望的共振峰中心中的最大偏差来在该设置中投入使用提升函数。然后，根据存在的共振峰在每一帧中更新针对每一箱的滤波器参数：

并且

其中，B(f_μ,n)是共振峰提升窗口函数。能够如以上所描述的那样确定共振峰，并且也可以从任何数目的窗口函数(包括高斯、三角以及余弦等)中选择提升窗口函数。

如果在降噪之前或在降噪的同时提升共振峰，则对共振峰的加强不超出0dB。额外地，具有良好信噪比的箱中的共振峰没有被进一步改善。而且，提供所述提升预降噪滤波潜在地引入额外的噪声。如果在预降噪滤波之前执行提升，则可以发生可听见的语音改善，尤其是在较低的频率中。

图5示出了用于语音信号降噪的一个具体实施例的进一步详情。分析滤波器组102将麦克风信号转换到频域中。将麦克风信号的频域版本传递到噪声估计模块501以及麦克风估计模块502，所述麦克风估计模块502估计该麦克风信号的短时功率密度。将麦克风信号估计和噪声信号估计的短时功率密度提供给共振峰检测模块505。共振峰提升模块使用噪声估计以检测浊音语音活动并且计算从提升过程中排除不良INR共振峰所需的估计INR。共振峰检测模块404可以执行图2中示出的信号分析，其中，根据麦克风信号的短时功率密度中的谱强度的峰来识别共振峰。短时功率密度和噪声估计信号还指向降噪滤波器503。可以采用任意数目的降噪算法以用于确定降噪系数。降噪系数被传递到共振峰提升器模块505，所述共振峰提升器模块505使用开窗函数提升与所识别的共振峰有关的系数。然后，通过使用例如两个滤波器系数的最大值，所得到的共振峰提升的增益系数能够与常规的噪声抑制滤波器进行组合。因此，能够实现改善的宽带SNR。将所得到的信号提供给卷积器104，所述卷积器104将噪声降低的滤波器系数和麦克风信号的频域表示进行组合，得到输入语音信号的增强版本。然后，该信号然后被呈现给合成滤波器组(未示出)以用于将增强的语音信号返回到时域。该增强的时域信号然后被提供给语音识别器(未示出)。

图6示出了根据本发明的实施例的语音信号增强方法中的各个逻辑步骤。首先，麦克风信号被接收到语音识别预处理器中。601。语音识别预处理器执行将时域麦克风信号变换到频域中的FFT。602语音识别预处理器对在频域麦克风信号的频率箱之内的共振峰进行定位。603处理器可以通过计算针对每个频率箱的短时能量来处理频域麦克风信号。能够将所得到的数据集与阈值进行比较以用于确定是否存在共振峰。使用LPC搜索LPC谱的最大值。在本发明的其他实施例中，能够使用利用不同平滑常数的短期功率谱来识别共振峰。例如，可以对谱应用慢速平滑以及快速平滑两者。在那些利用慢速平滑的谱大于利用高速平滑的谱的频域上检测共振峰。

在确定了共振峰的频率范围后，共振峰频率被提升。504频率可以是基于多个因素而被提升的。例如，可以只提升中心频率或者可以提升整个频率范围。提升的水平可以取决于为了避免裁剪而被提供给最后共振峰和最大阈值的提升量。

本发明的实施例可以全部或部分地以任何常规的计算机程序设计语言(例如，VHDL、SystemC、Verilog、ASM等)来实施。本发明的备选实施例可以作为预编程的硬件元件、其他有关部件，或作为硬件部件和软件部件的组合来实施。

实施例能够全部或部分地作为与计算机系统一起使用的计算机程序产品来实施。这样的实施方式可以包括一系列的计算机指令，所述计算机指令或被固定在有形介质上，例如计算机可读介质(例如，软盘、CD-ROM、 ROM或固定盘)，或可经由调制解调器或其他接口设备(例如，通过介质被连接到网络的通信适配器)传输到计算机系统。所述介质可以是有形介质(例如，光学线路或模拟通信线路)或利用无线技术(例如，微波、红外线或其他传输技术)实施的介质。所述一系列计算机指令实施关于本系统的本文中先前描述的功能的全部或部分。本领域技术人员应当理解，能够利用与许多计算机体系架构或操作系统一起使用的多种程序设计语言来写出这样的计算机指令。此外，这样的指令可以被存储在任何存储器设备中，例如半导体存储设备、磁性存储设备、光学存储设备或其他存储设备，并且可以使用任何通信技术进行传输，例如光学传输技术、红外传输技术、微波传输技术或其他传输技术。预计这样的计算机程序产品可以被分布作为可移动介质，伴随打印或电子文件编制(例如，压缩打包软件)、利用计算机系统进行预加载(例如，在系统ROM或固定盘上)、或通过网络(例如，因特网或万维网)从服务器或电子公告板进行分布。当然，本发明的一些实施例可以被实施为软件(例如，计算机程序产品)和硬件的组合。尽管如此，本发明的其他实施例也可以被实施为完全的硬件或完全的软件(例如，计算机程序产品)。

尽管本发明的各个示例性实施例已被公开，但是对本领域技术人员来说明显的是，可以在不脱离本发明的真实范围的情况下，能够做出将实现本发明的一些优点的各种变化和修正。

Claims

1.一种计算机实施的方法，所述方法采用至少一个硬件实施的计算机处理器以用于语音信号处理，所述方法包括：

接收具有语音信号分量和噪声分量的输入麦克风信号；

将所述麦克风信号变换到短期谱信号的频域集中；

基于检测所述谱信号中的高能量密度区域来估计在所述谱信号之内的语音共振峰分量；

对所述谱信号应用一个或多个动态调节的增益因子，以只在浊音语音音素期间和具有阈值以上的信噪比的所述语音共振峰分量上增强所述语音共振峰分量；

基于所述语音共振峰分量的估计的假定可靠性来调节所述语音共振峰分量的中心频率周围的所述增益因子，包括调节所述增益因子以相对于较低可靠性共振峰估计，对较高可靠性共振峰估计，使所述语音共振峰分量提升得更多；并且

要求所述语音共振峰分量的语音共振峰分量之间的最小间隙。

2.根据权利要求1所述的方法，其中，基于使用线性预测编码滤波器寻找谱峰来估计所述语音共振峰分量。

3.根据权利要求1所述的方法，其中，基于使用多个不同的平滑常数对所述谱信号进行无限脉冲响应平滑来估计所述语音共振峰分量。

4.根据权利要求1所述的方法，其中，所述增益因子是基于被集中在对应于所述语音共振峰分量的频率区域的成形窗口的。

5.根据权利要求4所述的方法，其中，根据与所述语音信号分量相关联的对应音素来动态地调节所述成形窗口。

6.根据权利要求4所述的方法，其中，根据所述麦克风信号的信噪比来动态地调节所述成形窗口。

7.根据权利要求1所述的方法，其中，应用所述增益因子以过低估计所述噪声分量，以便减少所述谱信号的共振峰区域中的语音失真。

8.根据权利要求1所述的方法，还包括：

将所述增益因子与一个或多个噪声抑制系数进行组合，以提高宽带信噪比。

9.根据权利要求1所述的方法，还包括：

将共振峰增强的谱信号输出到移动电话应用程序和语音识别应用程序中的至少一个。

10.一种语音信号处理系统，包括：

语音信号输入部，用于接收具有语音信号分量和噪声分量的麦克风信号；

信号预处理器，用于将所述麦克风信号变换到短期谱信号的频域集中；

共振峰估计模块，用于基于检测所述谱信号中的高能量密度区域来估计在所述谱信号之内的语音共振峰分量；以及

共振峰增强模块，用于对所述谱信号应用一个或多个动态调节的增益因子以只在浊音语音音素期间和具有阈值以上的信噪比的所述语音共振峰分量上增强所述语音共振峰分量，并用于基于所述语音共振峰分量的估计的假定可靠性来调节所述语音共振峰分量的中心频率周围的所述增益因子，其中，调节所述增益因子以相对于较低可靠性共振峰估计，对较高可靠性共振峰估计，使所述语音共振峰分量提升得更多，并且其中所述语音共振峰分量的语音共振峰分量之间存在最小间隙。

11.根据权利要求10所述的系统，其中，所述共振峰估计模块基于在线性预测编码滤波器中寻找谱峰来估计所述语音共振峰分量。

12.根据权利要求10所述的系统，其中，所述共振峰估计模块基于使用多个不同的平滑常数对所述谱信号进行无限脉冲响应平滑来估计所述语音共振峰分量。

13.根据权利要求10所述的系统，其中，所述增益因子是基于被集中在对应于所述语音共振峰分量的频率区域的成形窗口的。

14.根据权利要求13所述的系统，其中，所述共振峰增强模块根据与所述语音信号分量相关联的对应音素来动态地调节所述成形窗口。

15.根据权利要求13所述的系统，其中，所述共振峰增强模块根据所述麦克风信号的信噪比来动态地调节所述成形窗口。

16.根据权利要求10所述的系统，其中，所述共振峰增强模块应用所述增益因子以过低估计所述噪声分量，以便减少所述谱信号的共振峰区域中的语音失真。

17.根据权利要求10所述的系统，其中，所述共振峰增强模块还将所述增益因子与一个或多个噪声抑制系数进行组合，以提高宽带信噪比。

18.根据权利要求10所述的系统，还包括：

用于将共振峰增强的谱信号提供给移动电话应用程序和语音识别应用程序中的至少一个的处理输出部。