CN1971711B

CN1971711B - 语音信号自适应增强系统

Info

Publication number: CN1971711B
Application number: CN2006100930862A
Authority: CN
Inventors: P·A·赫瑟林顿; D·吉斯布雷希特
Original assignee: QNX Software Systems Ltd
Current assignee: BlackBerry Ltd
Priority date: 2005-06-28
Filing date: 2006-06-20
Publication date: 2012-07-18
Anticipated expiration: 2026-06-20
Also published as: CA2549744A1; EP1739657B1; KR20070000987A; CN1971711A; EP1739657A2; EP1739657A3; US20060293882A1; US8566086B2; JP2007011330A; CA2549744C

Abstract

本发明提供了用于增强语音信号频率响应的系统。基于输入语音信号计算经时平均语音频谱形状估计。可在使用一阶IIR滤波或者“漏积分器”的频域内计算平均语音频谱形状估计。这样，平均语音频谱形状估计适于随时间在声音路径的声特性中的变化或者在可影响系统频率响应的电音频路径中的任何变化。可通过比较平均语音频谱形状估计与期望的目标频谱形状确定频谱修正因子。可把频谱修正因子(单位dB)加到输入语音信号的频谱中以增强或者调整输入语音信号的频谱到期望的频谱形状，并且从修正的频谱重新合成增强的语音信号。

Description

语音信号自适应增强系统

技术领域

本发明涉及用于自适应地实时增强语音信号频响的系统。

发明背景

在麦克风被接收并被输入到音频应用的语音信号可受到缓慢变化，或者不随时间变化的声环境或者电音频路径的声或者电特征的有害影响。例如，对于汽车内的免提电话系统，车内声音或者麦克风特性可能对传输到远程部件的语音信号的声音质量或者可懂度有显著的有害影响。

调整接收的语音信号的频谱形状能显著提高语音信号的质量。例如，可调整语音信号的频谱形状以补偿过多的背景噪声。通过增强语音内容占优频率范围的信号，同时衰减背景噪声占优的频率范围内的信号，整体声音质量或者信号的可懂度能显著提高。在其他的应用中，可能希望的是增强不同的频率范围并衰减其它的。例如，免提电话系统的理想频谱形状与语音识别系统的理想频谱形状可能有很大的不同。在第一种情况下，希望同时提高声音质量和可懂度，在第二种情况下更希望提高语音信道的可懂度而很少或者根本不管真实声音质量。

图1示出了两种不同应用的理想频率响应的两个例子。第一种频率响应曲线10代表想要在具有高信号噪声比(SNR)的环境中提供最理想语音质量的频谱形状。第二种频谱响应曲线12示出了想要在低信号对噪声环境中提供最理想语音可懂度的频谱形状。图1也示出了VDA(德国汽车工业协会)和ITU(国际电信联盟)用于免提电话系统中频率响应的上和下频谱限制14、16。在一些情况中，也希望调整接收的语音信号的频谱形状以与VDA和ITU语音频谱响应的限制一致。

典型地，由麦克风记录并输入到声音应用的语音信号将具有与应用的理想频谱形状有较大不同的频谱形状。从而，可以希望调整语音信号的频谱以更接近与理想的频谱形状一致。执行这样调整或者标准化的系统和方法必须能考虑语音信号录制环境的声传递函数特性，和电声音路径的频率响应。此外，这样的系统和方法必须考虑系统中可能发生的声音和电的变化。

发明内容

提供了自适应增强语音信号的系统。本发明的系统和方法有效地朝目标频谱形状，或者理想频率响应的方向将输入的语音信号的频谱标准化。可基于打算使用该语音信号的应用选择目标频谱形状。例如，用于将通过汽车内免提电话传输的语音信号的预期频谱形状与将输入到语音识别系统的语音信号的期望频谱形状有很大不同。

根据本发明，基于随时间接收的语音信号计算平均语音频谱形状估计。可使用一阶IIR滤波器或“漏积分器(leaky integrator)”计算平均语音频谱形状估计。这样，随时间的平均语音频谱形状估计适于声音路径的声特征中的变化或者可影响系统频率响应的电音频路径中的任何变化。

频谱修正因子可通过比较平均语音频谱形状估计与期望或者目标频谱形状进行确定。频谱修正因子代表接收的语音信号和期望的频率响应的时间平均频谱能量的差别的平均。频谱修正因子可被加到输入语音信号的频谱以朝期望频谱形状的方向对输入语音信号频谱进行标准化，或者调整。

从而，标准化语音信号的方法的实施例将包括确定输入语音的平均频谱形状。该方法还包括比较输入语音的频谱形状与目标频谱形状。目标频谱形状和随时间接收的语音的平均频谱形状的差别可用于修正输入语音信号的频谱。修正的语音信号的频谱将更接近地匹配要使用语音信号的特定应用的期望频谱形状。

根据另一实施例，语音信号的频谱响应是实时增强的。频率子带分析在输入语音信号的连续重叠窗口缓冲区上被执行。每个连续窗口缓冲区的频率子带分析的结果用于计算平均语音频谱形状估计。然后从期望的目标频谱形状减去平均语音频谱形状估计。目标频谱形状和平均语音频谱形状之间的差别形成频谱形状修正因子。频谱形状修正因子然后可被加到对应于输入语音信号的窗口缓冲区的频谱。来自连续窗口缓冲区的修正的频谱然后可重新合成为增强的或者标准化的声音信号。

另一实施例通过调整接收的语音信号的背景噪声的频谱形状增强语音信号的频率响应。本实施例包括在语音信号的连续重叠窗口缓冲区进行频率子带分析。基于接收的信号生成背景噪声估计。然后，通过从目标背景噪声频谱形状减去背景噪声估计计算背景噪声频谱形状修正因子。背景噪声频谱形状修正因子然后被加到对应于连续重叠窗口缓冲区的频谱。

然而，另一实施例通过调整接收的语音信号的平均语音频谱形状和接收的信号的背景噪声频谱形状的一个或者两个增强接收的语音信号的质量和可懂度。根据本实施例，增强语音信号频率响应的方法也包括在语音信号的连续重叠窗口缓冲区上执行频率子带分析。基于连续重叠窗口缓冲区的频率子带分析计算平均语音频谱形状估计。根据平均语音频谱形状估计和目标语音频谱形状之间的差别来计算语音频谱形状修正因子。同样，估计接收的信号中包括的背景噪声并且对应于背景噪声估计和目标背景噪声频谱形状之间的差别计算出背景噪声频谱形状修正因子。组合语音频谱形状修正因子和背景噪声频谱形状修正因子以形成整体频谱形状修正因子。整体频谱形状修正因子然后被应用到对应于接收的语音信号的连续重叠窗口缓冲区之一的频谱。

最后，增强语音信号的频率响应的系统包括用于接收语音信号的麦克风。A/D转换器把语音信号转换为被输入到处理器的数字音频信号。该处理器自适应地确定由麦克风记录的语音的平均语音频谱形状估计。该处理器比较平均语音频谱形状估计与目标频谱形状。该处理器随后基于平均语音频谱形状估计和目标频谱形状之间的差别调整输入语音信号的频谱形状。该处理器输出具有增强频率响应的标准化的语音信号，该增强的频率响应更接近于要使用语音信号的特定应用的理想频率响应。

该处理器也自适应地确定接收的信号的背景噪声频谱形状估计。该处理器可随后比较背景噪声频谱形状估计与目标背景噪声频谱形状。该处理器然后可以基于背景噪声频谱形状估计和目标背景噪声频谱形状之间的差别调整输入语音信号的频谱形状。该处理器然后可输出具有增强频率响应的标准化语音信号，该频率响应具有更接近于期望的背景噪声频谱形状的背景噪声频谱形状。

本发明的其它方面、特征和优势对于考查下面附图和详细描述的本领域技术人员将是，或者将变得明显。这个描述中包含的全部这样的附加方面、特征和优势将被包括在本发明的范围内，并且由附带的权利要求进行保护。

附图说明

图1是dB频率曲线，示出了用于两个不同应用的理想频率响应，或者目标语音频谱形状的两个实例；

图2是示出了增强语音信号频率响应的方法的流程图；

图3示出了时域语音信号和多个重叠窗口缓冲区；

图4是对应于一个窗口缓冲区的图3的声音信号的频谱的dB频率曲线；

图5是图4所示频谱的频率压缩版本的dB频率曲线和背景噪声估计；

图6是图5的压缩频谱的dB频率曲线，其具有减少的背景噪声(也就是，SNR)和代表比背景噪声高10dB的信号水平的阈值；

图7是平均语音频谱形状估计和目标频谱形状的dB频率曲线；

图8是通过从图7中所示的目标频谱形状减去图7的平均语音频谱形状估计得到的频谱修正因子的dB频率曲线；

图9是dB频率图，示出了对应于一个窗口缓冲区的语音信号的原始频谱(也就是，来自图4)，和增强的或者标准化的语音信号的频谱；

图10是输入语音信号的频谱图一时间对频率对dB(以灰度色调表示)；

图11是示出了随时间的平均语音频谱形状估计的自适应的频谱图；

图12是示出了增强语音信号的频率响应的方法的可选实施例的流程图；

图13是根据本发明用以增强语音信号的频率响应的系统的方框图。

具体实施方式

提供了实时自适应增强语音信号频响的系统和方法。该系统和方法补偿音频或者电路径的任何缓慢变化或者不随时间变化的声或者电特征的频谱效果，其包括，例如，室内声学、麦克风频率响应和诸如背景噪声的其它因素等等。系统和方法包括提供接收输入的语音信号；计算平均语音频谱形状估计和背景噪声估计；计算修正因子，用于调整平均语音频谱形状估计以符合目标语音频谱形状，或者调整背景噪声的频谱形状，并将修正因子应用到输入语音信号的连续窗口缓冲区的频谱以便实现特别适应于特定应用的期望目标频率响应。对应于连续窗口缓冲区的修正频谱可被重新合成到更加适合于要使用语音信号的应用的增强的语音信号。

图2示出了根据本发明的自适应增强语音信号频响的方法的流程图100。输入的语音信号在102被接收。信号可或者可不包括语音内容。在104，频率子带分析在输入信号上执行。频率子带分析导致输入信号的压缩的dB频谱。压缩的dB频谱被用于建立平均语音频谱形状估计，其依次用于计算语音频谱形状修正因子，该因子可被加回到输入信号的频谱以建立具有接近期望频谱形状的增强的语音信号。

最后，子带分析104生成的压缩的dB频谱被应用到SNR估计和声音检测106。SNR估计和声音检测106尝试识别输入信号的压缩dB频谱的哪些频率槽(frequency bin)包含语音内容。在108，被找出具有高SNR并包含语音内容的频率带的dB值被用以更新的平均语音频谱形状估计。平均语音频谱形状估计是随时间接收的语音频谱形状的移动平均(running average)。因为平均语音频谱形状是移动平均，其缓慢适应并提供接收的输入信号的语音内容频谱形状的合理精确估计。平均的语音频谱形状说明缓慢变化或者不随时间变化的系统频率响应特性，其包括环境的声传递函数特性，麦克风的电-声特性，等等。

平均语音频谱形状估计与在112提供的目标语音频谱形状进行比较。目标语音频谱形状代表特定应用的理想频率响应，诸如免提电话系统或者声音识别系统。平均语音频谱形状估计和目标语音频谱形状之间的差别代表输入的语音信号的平均频谱必须被调整以实现期望频谱形状的量。在114，通过从目标语音频谱形状减去平均语音频谱形状确定语音频谱形状修正因子。语音频谱形状修正因子随后可被加回到在102接收的原始信号的压缩dB频谱。如果期望，在110，背景噪声抑止可在添加修正因子可选地施加到压缩的dB频谱。否则，在116，直接将语音频谱形状修正因子施加到压缩的dB频谱。修正的或者增强的信号在118重新合成并在120输出。

图3示出了根据图2概述的方法要被增强的11kHz时域语音信号130。频率子带分析在连续重叠窗口缓冲区上执行。可使用具有50％重叠的256点汉宁窗(Hanning window)计算窗口缓冲区。也可使用其它窗口函数、窗口长度或者重叠百分比值。图3示出了50％重叠汉宁窗132、134、136、138、140和142。频率子带在每个连续窗口缓冲区上执行。来自每个窗口缓冲区的频率子带分析结果作用于平均语音频谱形状估计。为当前描述的目的，将描述单窗口缓冲区134的分析，同时理解所有其它窗口缓冲区的分析以相似的方式进行。

在窗口缓冲区134内为信号130的一部分得到了频率频谱。频率频谱信息可通过各种方法获得，诸如快速傅立叶变换(FFT)、小波滤波器组、多相滤波器以及其它已知的算法。例如，复杂频谱可使用256点FFT获得。复杂频谱可通过复杂频谱的绝对值的平方转换为功率谱：

Power_Spec(f)＝|Complex_spec(f)|² (1)

其中Power_Spec是功率谱；

Complex_Spec是复杂频谱；

f是频率槽索引(index)。

功率谱依次可转化为dB。图4示出了包含在窗口缓冲区134中的输入信号一部分的dB频谱144。dB频谱144是256点FFT的结果。

由于浊音语音(voiced speech)段的谐波内容(也就是，元音声(vowel sound))，dB频谱144包括一定数目的尖锐峰值和谷值。一般形状的频谱包络可以被通过压缩dB频谱144为具有更粗糙的频率分辨率的频谱进行分析。频率压缩可通过在给定频率区域计算加权平均来实现。压缩的频谱可具有线性频率刻度，或者压缩的频谱可具有诸如Bark、Mel或者其它依赖于非线性刻度的非线性频率刻度，以及应用的压缩技术。压缩频谱的频率子带可显示，例如，每个压缩的子带86到172Hz的频率分辨率。对于11kHz输入信号和256点FFT，这相当于分别在每两到四个未压缩频率槽上计算未压缩频谱的平均功率。

图5示出了基于图4的未压缩频谱144的压缩频谱156。如图所示，压缩频谱156维持未压缩频谱144的大致形状。压缩的频谱156代表频率子带分析104的输出。为各连续重叠窗口缓冲区生成分离的压缩频谱。每个作用于语音频谱形状估计的计算。由每个连续窗口缓冲区的频率子带分析更新的平均语音频谱形状估计被用于为相应窗口缓冲区的频谱计算语音频谱形状修正因子。修正因子被加回到相应窗口缓冲区的压缩dB频谱，以将频谱标准化到期望的目标频谱形状。

频率子带分析期间生成的压缩dB频谱被输入到SNR估计和声音检测106。SNR估计和声音检测106的目的是确定压缩dB信号的哪个频带具有强信号噪声比(SNR)并可能包含语音。只有那些具有高SNR并可能包含语音的压缩dB信号的频率子带被用于更新平均语音频谱形状估计。那些具有弱SNR或可能不包含语音的频带则无助于计算平均语音频谱形状估计。

SNR估计可根据任意数目的标准方法进行。例如，图5包括使用最小统计技术(minimum statistics technique)得到的背景噪声估计158。各频率子带SNR的估计可通过从压缩的dB频谱156减去背景噪声估计158得到。图6示出了从图5的压缩dB频谱156减去噪声估计158产生的SNR160。

值得注意的是噪声估计158不是真正的背景噪声。它仅是可能将包含在压缩dB频谱156中的噪声的估计。任何给定频率子带中的实际噪声可能高于或者低于背景噪声估计158中所示的水平。这样，接近噪声估计的信号水平不够可靠。从而，可建立阈值使得只有具有比噪声估计高出至少等于阈值的量的信号水平的频率子带作用于平均语音频谱形状估计。图6示出了这样的阈值。10dB阈值162代表比背景噪声估计158高10dB的信号水平。因为压缩的dB频谱160代表高于背景噪声估计158的输入信号频谱的部分，比10dB阈值162高的压缩dB频谱的部分代表比背景噪声估计158高10dB以上的原始压缩dB频谱156的那些部分。只有比10dB阈值高的压缩dB频谱160中的那些频率子带作用于平均语音频谱形状估计。

可使用不同于10dB的阈值。优选地，阈值将在5到15dB之间的范围内。另外，阈值不必要是常数。依赖于系统的预期噪声特性，阈值可从一个频率子带到下一个变化。例如，在汽车应用中，在存在强背景噪声能量之处，阈值可设置得更高用于更低的频率子带。

平均语音频谱形状估计为压缩频谱的各频率子带而被生成。各连续重叠窗口缓冲区的压缩频谱作用于平均语音频谱形状估计的计算。然而，如上面已经注意到的，各单独频率子带的平均语音频谱形状估计仅在单独频率子带具有高SNR并包含语音的时候被更新。修改平均语音频谱形状估计之前，根据下式将当前压缩的dB频谱的整体水平进行标准化是有益的：

Spec_Curr_n (f) = Spec_Curr (f) - \frac{1}{N} (Σ_{f}^{N} Spec_Curr (f)) - - - (2)

其中Sqec_Curr是当前dB压缩频谱，并且Spec_Curr_n是在频率子带f上整体水平标准化以后的当前dB压缩频谱。根据方程(2)的标准化将确保平均语音频谱形状的修改将不会被语音信号整体幅度所偏移。其它水平的标准化技术，诸如加权平均、频率依赖(frequency-dependent)平均、SNR依赖平均或者其它也可使用的标准化技术。

可根据漏积分器算法、一阶IIR滤波器器或者其它自适滤波或者加权平均算法修改平均语音频谱形状。根据本发明实施例用于更新平均语音频谱形状估计的方程是：

Spec_Avg(f)＝(Spec_Avg(f))^*(Adapt_Rate-1)+Spec_Curr_n(f)/Adapt_Rate (3)

其中

Adapt_Rate＝AdaptTimeConstant/SecPerBuffer (4)

SecPerBuffer＝(FFTSize-BufferOverlap)/Sample Rate (5)

Spec_Avg是平均语音频谱形状估计。Adap(Rate是控制自适应速度的参数。Adapt_Rate必须＞1。AdaptTimeConstant的适当的值可在大约2和6秒之间。

平均语音频谱形状估计提供了随时间输入到系统的语音频谱形状的估计。生成平均语音频谱形状估计的方式考虑了环境的缓慢变化或者不随时间变化的声特性、麦克风的频率响应、麦克风相对于说话人的位置和其它将影响系统频率响应的因素。

给定了平均语音频谱形状估计，则可能确定可加到平均语音频谱形状估计以将平均语音频谱形状估计标准化到期望的目标频谱形状的各频率子带的修正因子。这些相同的修正因子随后可被应用到各连续窗口缓冲区的单独频谱以增强输入语音信号。修正因子可被直接应用到各窗口缓冲区的压缩dB频谱(例如，来自图5的频谱156)，或者它们可被外推并应用到窗口缓冲区的非压缩dB频谱(例如，来自图4的频谱144)。

图7示出了平均语音频谱形状估计166。也示出了目标频谱形状168。目标频谱形状可符合汽车中免提电话系统的最佳频率响应，或者目标频谱形状可代表最佳语音频率响应以提供高理解度的语音信号到语音识别系统，或者其它一些应用。在任何情况中，目标频谱形状代表实际输入信号的dB频谱166要被调整到的最佳频率响应。可通过从平均语音频谱形状估计166中减去目标频谱形状168计算用于平均语音频谱形状估计166的每个子带的频谱修正因子。该差别代表必须被加到平均语音频谱形状估计166或者从其减去的量，为了使平均语音频谱形状估计166的形状精确匹配目标语音频谱形状168。用以确定频谱修正因子的计算可被表达为：

Spec_Corr(f)＝Spec_Targeta(f)-Spec_Avg(f) (6)

其中

Spec_Target是目标语音频谱形状

Spec_Corr是dB频谱修正因子

同样，频谱修正值的整体水平可根据下式进行标准化：

Spec_Corr (f) = Spec_Corr (f) - \frac{1}{N} (Σ_{l}^{N} Spec_Corr (f)) - - - (7)

这将允许修正语音频谱形状而没有显著更改语音信号的整体幅度或者响度。可使用其它标准化技术，诸如加权平均或者频率依赖平均，或者其它的技术。

此外，可限制频谱修正值以改进算法的健壮性并确保增强语音信号不会产生意外结果或者太彻底地改变语音信号。最大修正因子可如下建立：

Spec_Corr(f)＝Max(Spec_Corr(f)，-Core_dB_Limit) (8)

Spec_Corr(f)＝Min(Spec_Corr(f)，Corr_dB_Limit) (9)

Corr_dB_Limit的典型值可在5和15dB之间的范围内。

图8示出了通过从目标频谱形状168减去平均语音频谱形状166计算的修正因子170，如方程6中所示，并根据方程7进行水平的标准化。本发明假定对应于单独缓冲窗口的输入语音信号的实际频谱将需要与调整平均语音频谱形状估计所需要的修正相似的修正。从而，修正因子170可被应用到输入语音信号各连续窗口缓冲区的频谱。为压缩平均语音频谱形状估计频谱的各频率子带确定上面确定的修正因子值。在被施加到对应于当前窗口缓冲区的频谱之前，也就是对应于窗口缓冲区134的频谱，修正值可被外推以估计未压缩FFT dB频谱的全部频率槽的修正值。这可使用简单线性插值法或者三次样条插值法或者一些其它的算法进行。然后可通过把扩展修正值(单位为dB)加到对应于窗口缓冲区134的输入信号的未压缩频谱修正相应窗口缓冲区134的频谱。图9中示出了对应于窗口缓冲区134的修正的频谱172以及原始频谱144。

一旦窗口缓冲区的频谱已经被修正，其可被变换回时域。这需要变换修正的dB频谱176到幅度谱，并且通过执行256点逆FFT或者其它从频域返回时域的逆变换把幅度谱变换回时域。逆FFT或者其它变换产生的时域信号组成对应于窗口缓冲区134的增强语音信号。增强的语音信号将具有更类似目标频谱形状的平均频谱形状。增强的语音信号为各窗口缓冲区重新合成，并在时域中被重叠和被加到一起。该结果是基本维持随时间的期望频谱形状的重新合成的时域语音信号，其考虑了系统传递函数缓慢变化的特性。该结果是增强的声音信号，其更好地服务于要使用它的特定应用，该应用可以是语音识别系统、免提电话系统或者一些其它应用。

图10和11示出了频谱图，其图解了刚描述的方法的自适应品质。两张图都显示了频率(纵坐标)对时间(横坐标)对dB(灰度)的曲线。图10中的曲线180代表未修正的原始语音信号。图11中的曲线182示出了使用当前方法平均随时间的语音频谱形状估计的自适应。注意到，图11中输入信号的大约最初2秒没有明显的可辨识频谱图案。然而，随着时间继续，出现显著语音能量(也就是图10，时间＝2s之后)，图11中开始出现图案。显著的频谱能量开始出现在大约500Hz-1000Hz、1800Hz-2000Hz和2300Hz-3000Hz之间。低平均频谱能量被发现在低于500Hz、1000Hz-1800Hz之间和高于3000Hz。图11中逐步出现的这些频谱特性表示平均语音频谱形状估计如何随时间自适应为输入语音信号的缓慢变化或者不随时间变化的频谱特性。

在一些情况中，更理想的是塑造背景噪声频率响应而不是语音信号频率响应。例如，高SNR情况下，背景噪声不是重要问题，并且增强语音信号频谱形状是最合适的。然而，在低SNR情况下，可能更期望的是以背景噪声频谱形状为目标。例如，已经发现具有音质的背景噪声比宽带噪声对听者有更强的干扰作用。这样，在一些情况下，平滑背景噪声频谱以消除可能另外证明对收听者有刺激的特定频率的峰值是有利的。

从而，在另一实施例中，与增强语音部分自身相对，通过以接收的语音信号的背景噪声频谱为目标并对其进行塑造来增强语音信号的质量和可懂度。图12中示出了具体化这种替代方案的流程图300。图12中流程图300和图2中所示的流程图100有许多相似之处。事实上，流程图100中具体表达的自适应增强语音信号的频率响应的方法在流程图300中基本被重复。图2流程图100中的接收输入信号102、频率子带分析104、SNR估计和声音检测106、更新平均语音频谱形状估计108、背景噪声抑止110、目标语音频谱形状112和确定语音频谱形状修正因子114全部分别在图12的接收输入信号302、频率子带分析304、SNR估计和声音检测306、更新平均语音频谱形状估计308、背景噪声抑止310、目标语音频谱形状312和确定的语音频谱形状修正因子314找到精确的配套。图2的应用语音频谱形状修正因子116和信号重新合成118同样在图12中具有相似物，即应用频谱修正系数316和信号重新合成318。然而，下面将更详细描述，尽管应用频谱形状修正因子316和信号重新合成318的功能执行与前面实施例中它们的对应物基本相同的功能，它们在稍微不同的输入上执行这些功能。

因为输入信号302、频率子带分析304、SNR估计和声音检测306、更新平均语音频谱形状估计308、背景噪声抑止310、目标语音频谱形状312和确定语音频谱形状修正因子314的功能全部以与关于图2的上述描述的方式基本相同的方式进行运作，因此这些功能的进一步描述在这里省略。可以充分注意到确定语音频谱形状修正因子314的输出是可加到输入信号302的频谱以修正或者标准化输入信号302的频谱形状的语音频谱形状修正因子，其非常类似于流程图100的相应确定语音频谱形状修正因子功能114的输出。然而，在流程图100具体表达的方法中，语音频谱形状修正因子被直接应用到输入信号的频谱(在已经对输入语音信号频谱应用背景噪声抑止以后可选)，在图14的流程图300具体表达的方法中，在314确定的语音频谱形状修正因子被输入以确定最后的频谱修正因子326。确定最后频谱修正因子326也从确定背景噪声频谱形状修正因子326接收输入。这样，根据本实施例，基于语音频谱形状修正因子和背景噪声频谱形状修正因子确定最后的频谱修正因子。

因为已经关于图2中流程图100描述了语音频谱形状修正因子，仅剩下描述背景噪声频谱形状修正因子的确定。如已经描述的，在302接收输入语音信号。输入的语音信号可包括背景噪声。输入的语音信号在304受到频率子带分析。频率子带分析的结果是代表输入语音信号的压缩的dB刻度频谱。压缩的dB语音信号频谱被输入到SNR估计和声音检测306。SNR估计和声音检测306产生被输入以确定背景噪声频谱形状修正因子326的背景噪声估计322。背景噪声估计322提供了在横跨输入语音信号302的压缩dB频谱各频率槽的背景噪声dB形式的估计。背景噪声估计312可包括不必要的峰值或者对语音信号声音质量或者可懂度有损害的其它各种频率特性。因此，期望的是平滑背景噪声估计或者塑造背景噪声估计以符合期望的目标背景噪声频谱形状324。目标背景噪声频谱形状被输入以确定背景噪声频谱形状修正因子326。

背景噪声估计322和目标背景噪声频谱形状之间的差别代表了背景噪声估计必须调整以符合目标背景噪声频谱形状的量。与确定的语音频谱形状修正因子314类似，确定背景噪声频谱修正因子326通过从跨越输入信号的压缩dB频谱的全部频率槽的背景噪声估计中减去目标语音频谱形状来计算背景噪声频谱修正因子。同样类似于语音频域形状修正因子，背景噪声频谱形状修正因子可被直接加到输入语音信号的压缩的dB频谱，以为了塑造包括在输入语音信号302中的背景噪声的频率频谱。然而，在流程图300描述的本实施例中，语音频谱形状修正因子和背景噪声频谱形状修正因子两者作用于最终频谱形状修正因子。最终频谱形状修正因子然后被加到输入语音信号302的压缩的dB频谱中。

确定语音频谱形状修正系数314的输出和来自确定的背景噪声频谱形状修正因子328的输出两者都输入到确定最终频谱形状修正因子328中。根据本实施例，语音频谱形状修正因子和背景噪声频谱形状修正因子根据公式以相反比例的方式作用于最终频谱形状修正因子：

Final_corr(f)＝a^*Speech_Corr(f)+(1-a)^*Noise_Corr(f)(10)

其中：

Speech_Corr(f)＝Speech Spectral Shape Correction Factor(语音频谱形状修正因子)

Noise_Corr(f)＝Background Noise Spectral Shape Correction Factor(背景噪声频谱形状修正因子)

Final_Corr(f)＝Final Spectral Shape Correction Factor(最终频谱形状修正因子)

a＝SNR DependendMixing Factor(SNR依赖混合因子)：0＜a＜1

如果长期SNR为高a→1

如果长期SNR为低a→0

这样，在高SNR情况下，语音频谱形状修正因子(Speed_Corr(f))起主导作用，并且在低SNR条件下，背景噪声频谱形状修正因子(Noise_Corr(f))起主导作用。一旦最终频谱形状修正因子被确定，在316，其被应用到输入语音信号的频谱。如同图2中所示实施例，最终频谱形状修正因子被加到从在304的频率子带分析输出的接收的语音信号的dB频谱。随后，最终修正的或者增强的频谱在318重新合成。重新合成进程与关于图2中描述的实施例的上述内容基本相同。最终增强信号在320被输出。

除上面描述的用于提供增强语音信号的方法以外，本发明还涉及用于执行这样的语音信号增强方法的系统。图13示出了这样的系统200的结构图。该系统包括麦克风202、A/D转换器204和信号处理器206。麦克风202捕获输入信号。A/D转换器从麦克风采样模拟信号并把代表麦克风接收的语音和背景噪声的数字信号提供给信号处理器206。处理器206包括执行前面描述的在麦克风202捕获的输入信号的全部步骤的指令。这样，处理器在输入信号上执行频率子带分析，SNR估计和声音检测。处理器为输入语音信号的每个窗口缓冲区产生并更新平均语音频谱形状估计，并存储目标语音频谱形状。对于各窗口缓冲区，处理器计算频谱修正因子用于将平均语音频谱形状估计匹配到目标语音频谱形状。该处理器也可基于背景噪声估计和存储的目标背景噪声频谱形状确定背景噪声频谱形状修正因子。该处理器可应用语音频谱形状修正因子或者背景噪声频谱修正因子到各窗口缓冲区的频谱，或者该处理器可应用包括语音频谱形状修正因子和背景噪声频谱形状修正因子的合成物的最终修正因子。该处理器随后把频谱变换回时域，并重新合成增强的输出信号208。随后，输出信号208可反过来作为输入被应用到使用增强语音信号的另一系统。

虽然已经描述了本发明的多个实施例，对本领域内的普通技术人员来说很显然在本发明的范畴之内可能还有很多的实施例和实施方式。从而，本发明除了限于附带权利要求及其等效物的范畴之外不被限制。

Claims

1.一种标准化语音信号的方法，其包括：

确定输入语音信号的平均频谱形状，平均频谱形状是输入语音信号的频谱形状在时间上的移动平均；

比较所述平均频谱形状与目标频谱形状；

根据所述目标频谱形状和所述平均频谱形状之间的差别修正所述输入语音信号的频谱。

2.如权利要求1所述的方法，其还包括生成代表所述语音信号的连续重叠部分的dB频谱。

3.如权利要求2所述的方法，其中，确定平均频谱形状的所述步骤包括，将对应于所述语音信号的各重叠部分的所述dB频谱的各频率子带应用到自适应平均技术。

4.如权利要求3所述的方法，其中，所述自适应平均技术是一阶IIR滤波器或者漏积分器。

5.如权利要求2所述的方法，其还包括使背景噪声估计适应于代表所述输入语音信号的重叠部分的各dB频谱，并确定所述dB频谱具有高SNR的那些频率子带和可能包含语音的那些频率子带。

6.如权利要求5所述的方法，其中，确定平均频谱形状包括，将具有高SNR和可能包含语音的所述输入语音信号的各重叠部分的所述dB频谱的所述频率子带应用到一阶IIR滤波器。

7.如权利要求1所述的方法，其中，将所述平均频谱形状与目标频谱形状进行比较的所述步骤包括通过从所述目标频谱形状减去所述平均频谱形状计算频谱形状修正因子，并且，其中修正所述语音信号的所述频谱的所述步骤包括把所述频谱形状修正因子加到所述语音信号的频谱。

8.如权利要求1所述的方法，其中，所述目标频谱形状对应于输入到电话系统的语音信号的理想频谱形状。

9.如权利要求1所述的方法，其中，所述目标频谱形状对应于输入到语音识别系统中的语音信号的理想频谱形状。

10.一种实时增强语音信号的频率响应的方法，所述方法包括：

在所述语音信号的连续重叠窗口缓冲区上执行频率子带分析；

基于所述连续重叠窗口缓冲区的所述频率子带分析，计算所述语音信号的平均语音频谱形状估计，所述平均语音频谱形状估计是所述语音信号的频谱形状在时间上的移动平均；

从目标频谱形状减去所述平均语音频谱形状估计，所述目标频谱形状和所述平均语音频谱形状估计之间的差别包括频谱形状修正因子；以及

把所述频谱形状修正因子加到对应于一个所述连续重叠窗口缓冲区的频谱。

11.如权利要求10所述的方法，其中，所述连续重叠窗口缓冲区包括汉宁窗。

12.如权利要求10所述的方法，其中，在连续重叠窗口缓冲区上执行频率子带分析的所述步骤包括，为各连续重叠窗口缓冲区生成所述语音信号的压缩的dB频谱。

13.如权利要求12所述的方法，其还包括使背景噪声估计适应于各连续重叠窗口缓冲区。

14.如权利要求13所述的方法，其还包括：

确定用于各连续重叠窗口缓冲区的所述压缩的dB频谱的各频率子带的信号功率是否比所述背景噪声估计多出阈值量；

确定各连续重叠窗口缓冲区的所述压缩的dB频谱的各子带是否可能包含语音；以及

对所述信号功率超出所述背景噪声至少所述阈值量并且可能包含语音的各频率子带更新所述平均语音频谱形状估计。

15.如权利要求14所述的方法，其中，使用一阶IIR滤波器计算所述平均语音频谱形状估计。

16.如权利要求10所述的方法，其中，使用一阶IIR滤波器计算所述平均语音频谱形状估计。

17.如权利要求10所述的方法，其还包括从对应于各连续重叠窗口缓冲区的所述修正的频谱重新合成语音信号。

18.如权利要求10所述的方法，其中，所述目标频谱形状对应于输入到电话系统的语音信号的理想频谱形状。

19.如权利要求10所述的方法，其中，所述目标频谱形状对应于输入到声音识别系统的语音信号的理想频谱形状。

20.一种用于增强语音信号的频率响应的系统，其包括：

用于捕获语音信号的麦克风；

用于把所述语音信号转变为数字语音信号的A/D转换器；以及

处理器，其适于确定所述麦克风接收的语音信号的时间上连续更新的平均频谱形状，将所述语音信号的所述时间上连续更新的平均频谱形状与目标频谱形状进行比较，并且基于所述语音信号的所述时间上连续更新的平均频谱形状和所述目标频谱形状之间的差别来调整所述语音信号的频谱。

21.如权利要求20所述的系统，其还包括被配置成利用具有所述增强的频率响应的所述语音信号的应用。

22.如权利要求21所述的系统，其中，所述应用是免提电话系统。

23.如权利要求21所述的系统，其中，所述应用是语音识别系统。

24.一种增强语音信号的频率响应的方法，其包括：

生成背景噪声估计：

通过从目标背景噪声频谱形状减去所述背景噪声估计生成背景噪声频谱形状修正因子；并且

把所述背景噪声频谱形状修正因子加到对应于一个所述连续重叠窗口缓冲区的频谱。

25.如权利要求24所述的方法，其中，所述连续重叠窗口缓冲区包括汉宁窗。

26.如权利要求24所述的方法，其中，在连续重叠窗口缓冲区上执行频率子带分析的所述步骤包括，为各连续重叠窗口缓冲区生成所述语音信号的压缩的dB频谱。

27.如权利要求24所述的方法，其还包括从对应于各连续重叠窗口缓冲区的所述修正的频谱重新合成语音信号。

28.如权利要求24所述的方法，其中，所述目标背景噪声频谱形状对应于平滑宽带背景噪声。

29.一种用于增强语音信号的频率响应的方法，其包括：

基于连续重叠窗口缓冲区的所述频率子带分析计算平均语音频谱形状估计；

计算对应于所述平均语音频谱形状估计和目标语音频谱形状之间的差别的语音频谱形状修正因子；

生成背景噪声估计；

计算对应于所述背景噪声估计和目标背景噪声频谱形状之间的差别的背景噪声频谱形状修正因子；

基于所述语音频谱形状修正因子和所述背景噪声频谱形状修正因子，计算整体频谱形状修正因子；以及

把所述整体频谱形状修正因子加到对应于一个所述连续重叠窗口缓冲区的频谱。

30.如权利要求29所述的方法，其中，计算整体频谱修正因子的所述步骤包括根据长期SNR估计逆向地对所述语音频谱形状修正因子和所述背景噪声频谱形状修正因子进行加权。