CN100369111C

CN100369111C - 话音增强装置

Info

Publication number: CN100369111C
Application number: CNB028295854A
Authority: CN
Inventors: 铃木政直; 田中正清; 大田恭士; 土永义照
Original assignee: Fujitsu Ltd
Current assignee: FICT Ltd
Priority date: 2002-10-31
Filing date: 2002-10-31
Publication date: 2008-02-13
Anticipated expiration: 2022-10-31
Also published as: JP4219898B2; JPWO2004040555A1; CN1669074A; EP1557827B8; EP1557827A4; EP1557827A1; EP1557827B1; US20050165608A1; US7152032B2; WO2004040555A1

Abstract

一种话音增强装置，能够通过将输入话音分离成声源特征和声道特征，以分别地增强声源特征和声道特征，随后在它们被输出之前合成它们，来减少帧之间的放大因子的突变并实现极好的声音质量而使噪声的感觉较少。该话音增强装置包括：将输入话音信号分离成声源特征和声道特征的信号分离部件；用于从声道特征提取特征信息特征提取部件；校正声道特征计算部件，用于从所述声道特征和所述特征信息中获得声道特征校正信息；声道特征校正部件，用于使用所述声道特征校正信息校正所述声道特征；以及信号合成装置，用于合成来自所述声道特征校正部件的所述已校正的声道特征和所述声源特征，从而输出由信号合成装置合成的声音。

Description

话音增强装置

技术领域

本发明涉及一种话音增强装置，该装置使得在便携式电话等中接收到的话音在存在周围背景噪声的环境中更易于被听到。

背景技术

近年来，便携式电话已经变得流行，现在这种便携式电话被用于各种各样的地方。通常便携式电话不仅在安静的地方使用，而且也在例如机场和(火车)车站站台等具有外界噪声的环境中使用。相应地，由于环境噪声的出现，产生了便携式电话的接收话音难于听见的问题。

使得易于在噪声环境中听到接收到的话音的最简单方法是根据噪声水平提高接收到的音量。然而，如果接收的音量增加到过大的程度，有可能输入到便携式电话扬声器里的音量过大，以致话音质量反而降低。此外，也会遇到下列问题：即，如果接收的音量提高，收听者(用户)的听觉负担提高，从健康的角度来看这是不理想的。

通常，当环境噪声较大时，话音的清晰度不够，以致于话音变得难以听到。因此，可以想到通过以固定的比率放大话音的高频带成分来提高清晰度的方法。然而，在采用这种方法时，不仅高频带成分，而且包含在接收的话音内的噪声(发送端噪声)成分同时被增强，以致于话音质量降低。

这里，在话音频谱内通常存在峰值，并且这些峰值被称为共振峰(formant)。在图1中显示了话音频谱的示例。图1显示了波谱中存在三个波峰(共振峰)的情况。按照从低频端开始的顺序，这些共振峰被称作第一共振峰，第二共振峰和第三共振峰，并且各个共振峰的波峰频率fp(1)，fp(2)和fp(3)被称作共振峰频率。

通常，话音频谱具有随着频率升高而振幅(功率)减小的属性。此外，话音清晰度与共振峰具有紧密的关系，众所周知可以通过增强较高的共振峰(第二和第三共振峰)来改进话音清晰度。

在图2中显示了频谱的增强的示例。图2(a)中的实线和图2(b)中的虚线显示了在增强之前的话音频谱。此外，图2(b)中的实线显示了在增强之后的话音频谱。在图2(b)中，通过提高较高的共振峰的振幅使得频谱的斜率总体上变平坦；结果，可以整体提高话音的清晰度。

使用频带分离滤波器(日本专利申请特开No.4-328798)的方法被认为是用于通过增强这种较高共振峰来改进清晰度的方法。在该使用频带滤波器的方法中，此频带分离滤波器将话音分成多个频带，并且分别地放大或衰减各个频带。然而，在此方法中，不能确保话音的共振峰总是落在所分的频带中；因此，存在共振峰以外的成分也被增强，清晰度反而降低的危险。

此外，一种放大或衰减话音频谱凸出部分和凹进部分的方法(日本专利申请特开No.2000-117573)是已知的用于解决在上述使用频带滤波器的常规方法中所遇到的问题的方法。在图3中显示了此常规技术的框图。在此方法中，通过频谱估算部件100估算输入话音的频谱，根据凸出频带(波峰)/凹进频带(波谷)确定部件101确定的频谱来确定凸出频带和凹进频带，并且确定用于这些凸出频带和凹进频带的放大因子(或衰减因子)。

接下来，由滤波器构建部件102向滤波器部件103给出用于实现上述放大因子(或衰减因子)的系数，并且通过将输入话音输入到上述滤波器部件103来实现频谱的增强。

换句话说，在使用频带滤波器的常规方法中，通过分别放大话音频谱的波峰和波谷来实现话音增强。

在上述的常规技术中，在使用提高音量的方法中，存在下列情况，其中音量的增大导致过多的输入被输入到扬声器里，以致重放声音失真。此外，如果提高接收的音量，收听者(用户)的听觉负担提高，从健康观点而言这是不理想的。

此外，在使用高频带增强型滤波器的传统方法中，如果使用简单的高频带增强，高频带的话音以外的噪声被增强，所以增加了对噪声的感觉，这样该方法不一定会增加清晰度。

此外，在使用频带分割滤波器的传统方法中，不能确保话音共振峰总是落入分割频带中。相应地，有可能增强共振峰以外的成分，所以清晰度反而降低。

此外，因为输入话音在没有分离声源特征和声道(vocal tract)特征的情况下被放大，所以产生了声源特征严重失真的问题。

图4示出了话音产生模型。在产生话音的过程中，声源(声带)110产生的声源信号被输入到话音调整系统(声道)111里，并且在此声道111中加入了声道特征。随后，话音作为话音波形最终被从嘴唇112输出。(见ToshioNakada，Morikita Shuppan所著“Onsei no KonoritsuFugoka[“High Efficiency Encoding of Voice(话音的高效率编码)”]mpp.69-71，)

这里，声源特征和声道特征是完全不同的特征。然而，在使用频带分割滤波器的上述传统技术的情况下，话音直接被放大而没有将话音分割为声源特征与声道特征。相应地，产生下列问题：即，声源特征的失真很大，所以噪声的感觉提高，清晰度降低。图5和6中显示了一个示例。图5显示了在增强处理之前的输入话音频谱。此外，图6示出了图5中所示的输入话音由使用频带分割滤波器的方法增强的情况下的频谱。在图6中，在2kHz或更高的高频带成分的情况下，放大振幅而同时保持频谱的外形。然而，在500Hz到2kHz范围内的部分(由图6中的圆包围的部分)的情况下，可以看出该频谱与图5中显示的在增强之前的频谱明显不同，声源特征被劣化。

因而，在使用频带分割滤波器的常规方法中，存在声源特征失真很大的风险，因此话音质量降低。

此外，在上述的放大频谱的凸出部分或凹进部分的方法中，存在下列问题。

首先，因为在上述的使用频带分割滤波器的常规方法中，直接增强话音本身而没有把话音分割成声源特征和声道特征；因此，声源特征的失真很大，以致对噪声的感觉提高，因而导致清晰度降低。

其次，直接对根据话音信号(输入信号)确定的LPC(线性预测系数)频谱或FFT(频率傅里叶变换)频谱执行共振峰增强。因此，在分别为每个帧处理输入话音的情况下，在帧与帧之间的增强条件(放大因子或衰减因子)不同。相应地，如果放大因子或衰减因子在帧之间急剧改变，则频谱的波动将提高对噪声的感觉。

在鸟瞰频谱示意图(bird’s eye view spectrum diagram)中说明了这样的现象。图7显示了输入话音(在增强之前)的频谱。此外，图8显示了在频谱被以帧为单位增强的情况下的话音频谱。具体地，图7和8显示了这样的话音频谱，其中在时间上连续的帧排列起来。从图7和8可以看出较高的共振峰增强了。然而，在图8中在0.95秒周围和1.03秒周围的增强后的频谱中产生了不连续性。具体地，在图7中显示的增强之前的频谱中，共振峰频率平滑地改变，而在图8中，共振峰频率不连续地改变。当实际听到处理过的话音时，共振峰中的这样的不连续性被感觉为对噪声的感觉。

在图3中，构思了增加帧长的方法用于解决不连续性问题(即上述第二个问题)的方法。如果加长帧长，可获得具有随时间很少变化的平均频谱特性。然而，当帧长加长时，出现延迟时间长的问题。在例如便携式电话等的通信应用中，必须最小化延迟时间。因此，在通信应用中提高帧长的方法是不合要求的。

发明内容

鉴于现有技术中遇到的问题设计了本发明；本发明的目的是提供一种使话音清晰度达到非常易于听到的程度的话音增强方法，和一种应用此方法的话音增强装置。

作为第一方面，实现本发明上述目的的话音增强装置是这样一种话音增强装置，其包括：信号分离部件，将输入话音信号分离成声源特征和声道特征；特征提取部件，从所述的声道特征提取特征信息；声道特征校正部件，根据所述声道特征和所述特征信息校正所述声道特征；第二滤波器系数计算部件，根据所述改变后的频谱计算合成滤波器系数；以及信号合成部件，用于合成所述声源特征和来自所述声道特征校正部件的已校正的声道特征；其中，所述信号分离部件包括：线性预测系数分析部件，其通过对当前帧的输入话音信号进行线性预测系数分析来确定自相关函数和线性预测系数；逆滤波器，由所述系数构建；第一频谱计算部件，根据所述线性预测系数确定频谱；缓冲器部件，其存储所述当前帧的自相关并且输出以前帧的自相关函数；平均自相关计算部件，其确定所述当前帧的自相关和所述以前帧的自相关函数的加权平均；第一滤波器系数计算部件，其根据所述自相关函数的加权平均计算平均滤波器系数；以及第二频谱计算部件，其根据所述平均滤波器系数确定平均频谱；所述特征提取部件包括：共振峰估算部件，其根据所述平均频谱确定共振峰频率和共振峰振幅；所述声道特征校正部件包括：放大因子计算部件，其根据所述平均频谱、所述共振峰频率和所述共振峰振幅确定放大因子；以及频谱增强部件，其根据所述放大因子改变由所述第一频谱计算部件计算出的所述频谱并且确定改变后的频谱，所述信号合成部件包括：合成滤波器，其由所述合成滤波器系数构建；其中，通过将所述输入信号输入到所述逆滤波器中来确定残留信号，并且通过将所述残留信号输入到所述合成滤波器中来确定输出话音。

作为第二方面，实现本发明的上述目的的话音增强装置是这样一种话音增强装置，其包括：把输入话音信号分离成声源特征和声道特征的信号分离部件；从上述的声道特征中提取特征信息的特征提取部件；根据所述声道特征和所述特征信息确定声道特征校正信息的校正声道特征计算部件；使用所述声道特征校正信息来校正上述声道特征的声道特征校正部件；以及用于合成上述声源特征和来自上述声道特征校正部件的上述已校正的声道特征的信号合成部件，其中，输出由上述信号合成部件合成的话音，所述信号分离部件是由线性预测系数构建的滤波器，所述线性预测系数是通过对输入话音进行线性预测分析而获得的；并且所述线性预测系数是根据从输入话音计算出的自相关函数的平均而确定出的。

作为第三方面，实现本发明的上述目的的话音增强装置是这样一种话音增强装置，其包括：信号分离部件，将输入话音信号分离成声源特征和声道特征；特征提取部件，从所述的声道特征提取特征信息；声道特征校正部件，根据所述声道特征和所述特征信息校正所述声道特征；以及信号合成部件，用于合成所述声源特征和来自所述声道特征校正部件的已校正的声道特征；其中，所述信号分离部件包括：自相关计算部件，其确定当前帧的输入话音的自相关函数；缓冲器部件，其存储所述当前帧的自相关，并输出以前帧的自相关函数；平均自相关计算部件，其确定所述当前帧的自相关和所述以前帧的自相关函数的加权平均；第一滤波器系数计算部件，其根据所述自相关函数的加权平均计算逆滤波器系数；逆滤波器，由所述逆滤波器系数构建；以及频谱计算部件，其根据所述逆滤波器系数计算频谱；所述特征提取部件包括：共振峰估算部件，其根据所述计算出的频谱估算共振峰频率和共振峰振幅；所述声道特征校正部件包括：放大因子计算部件，其根据所述计算出的频谱、所述估算出的共振峰频率和所述估算出的共振峰振幅确定放大因子；以及频谱增强部件，其根据所述放大因子改变所述计算出的频谱，并且确定改变后的频谱；所述信号合成部件包括：第二滤波器系数计算部件，其根据所述改变后的频谱计算合成的滤波器系数；以及由所述合成滤波器系数构建的合成滤波器；其中通过将所述输入话音输入到所述逆滤波器中而确定残留信号，并且通过将所述残留信号输入到所述合成滤波器中而确定输出话音。

作为第四方面，实现本发明上述目的的话音增强装置是这样一种话音增强装置，其包括：增强输入话音信号的一些频带的增强滤波器；把由上述增强滤波器增强的输入话音信号分离成声源特征和声道特征的信号分离部件；从上述声道特征中提取特征信息的特征提取部件；根据上述声道特征和上述特征信息确定声道特征校正信息的校正声道特征计算部件，使用上述声道特征校正信息校正上述声道特征的声道特征校正部件，以及用于合成上述声源特征和来自上述声道特征校正部件的已校正的声道特征的信号合成部件，其中由上述信号合成部件合成的话音被输出，其中，所述信号分离部件是由线性预测系数构建的滤波器，所述线性预测系数是通过对输入话音进行线性预测分析而获得的；并且所述线性预测系数是根据从输入话音计算出的自相关函数的平均而确定出的。

作为第五方面，实现本发明上述目的的话音增强装置是这样一种话音增强装置，其包括：把输入话音信号分离成声源特征和声道特征的信号分离部件；从上述声道特征中提取特征信息的特征提取部件；根据上述声道特征和上述特征信息确定声道特征校正信息的校正声道特征计算部件；使用上述声道特征校正信息校正上述声道特征的声道特征校正部件；合成上述声源特征和来自上述声道特征校正部件的已校正的声道特征的信号合成部件，以及增强由上述信号合成部件合成的上述信号的一些频带的滤波器，其中，所述信号分离部件是由线性预测系数构建的滤波器，所述线性预测系数是通过对输入话音进行线性预测分析而获得的；并且所述线性预测系数是根据从输入话音计算出的自相关函数的平均而确定出的。

将结合附图通过如下所述的发明实施例阐明本发明其它特征。

附图说明

图1是显示了话音频率频谱的示例的示意图；

图2是显示了增强之前和增强之后的话音频率频谱的示例的示意图；

图3是日本专利申请特开No.2000-117573中说明的常规技术的框图；

图4是显示话音产生模型的示意图；

图5是显示输入话音频谱的示例的示意图；

图6是显示频谱被以帧为单位增强时的频谱的示意图；

图7是显示输入话音频谱(增强之前)的示意图；

图8是显示了话音频谱被以帧为单位增强情况下的话音频谱的示意图；

图9是显示本发明的工作原理的示意图；

图10是显示本发明的第一实施例的组成框图的示意图；

图11是显示图10中显示的实施例中的放大因子计算部件6的处理的流程图；

图12是显示当根据基准功率Pow_ref调整在图10中显示的实施例中的共振峰F(k)的振幅时的情况的示意图；

图13是说明通过插值曲线R(k，l)的一部分确定在共振峰之间的频率的放大因子β(l)的示意图；

图14是显示本发明的第二实施例的组成框图的示意图；

图15是显示本发明的第三实施例的组成框图的示意图；

图16是显示本发明的第四实施例的组成框图的示意图；

图17是显示本发明的第五实施例的组成框图的示意图；

图18是显示本发明的第六实施例的组成框图的示意图；

图19是显示通过本发明增强的频谱的示意图；

图20是本发明借以进一步解决当在各帧之间的放大因子存在大的波动时对噪声的感觉增大的问题的原理的结构图；

图21是本发明借以进一步解决当在各帧之间的放大因子存在大的波动时对噪声的感觉增大的问题的原理的另一结构图；以及

图22是显示根据显示在图20中所示的原理示意图的本发明的实施例的组成框图的示意图。

具体实施方式

下面将参照附图说明本发明的实施例。

图9是说明了本发明的原理的示意图。本发明的特征在于通过分离部件20把输入话音分离成声源特征和声道特征，分别增强声源特征和声道特征，并且随后合成部件21对这些特征进行合成并输出。以下将说明显示在图9中的处理。

在时间轴区域中，获得具有以规定的采样频率采样的振幅值的输入话音信号x(n)，(0＜n＜N)(这里，N是帧长)，并由分离部件20的平均频谱计算部件1根据该输入话音信号x(n)计算平均频谱sp₁(l)，(0≤l＜N_F)。

因此，在作为线性预测电路的平均频谱计算部件1中，首先计算当前帧的自相关函数。接下来，通过获得所述当前帧的自相关函数和以前帧的自相关函数的加权平均来确定平均自相关。利用该平均自相关来确定平均频谱sp₁(l)，(0≤l＜N_F)。此外，N_F是频谱的数据点的数目，并且N≤N_F。另外，可以计算sp₁(l)作为根据当前帧的输入话音计算的LPC频谱或FFT频谱和根据以前帧的输入话音计算的LPC频谱或FFT频谱的加权平均。

接下来，频谱sp₁(l)被输入到分离部件20内的第一滤波器系数计算部件2，并由其生成逆滤波器系数α₁(i)，(1≤i≤p₁)。这里，p₁是逆滤波器3的滤波器阶数。

输入话音x(n)被输入到分离部件20内的逆滤波器3中，以便产生残留信号r(n)，(0≤n＜N)，其中逆滤波器3由上述确定的逆滤波器系数α₁(i)构建。结果，输入话音被分离成组成声源特征的残留信号r(n)，和组成声道特征的频谱sp₁(l)。

残留信号r(n)被输入到音调增强部件4里，并且确定提高了音调周期性的残留信号s(n)。

同时，组成声道特征的频谱sp₁(l)被输入到用作特征提取部件的共振峰估算部件5中，并且估算共振峰频率fp(k)，(1≤k≤k_max)和共振峰振幅amp(k)，(1≤k≤k_max)。这里，k_max是估算的共振峰的数目。k_max的值是任意的，然而，对于具有8kHz的采样频率的话音，k_max可以设置为4或5。

然后，频谱sp₁(l)、共振峰频率fp(k)和共振峰振幅amp(k)被输入到放大因子计算部件6中，并且计算用于频谱sp₁(l)的放大因子β(l)。

频谱sp₁(l)和放大因子β(l)被输入到频谱增强部件7，以便确定增强后的频谱sp₂(l)。此增强后的频谱sp₂(l)被输入到确定组成合成部件21的合成滤波器9的系数的第二滤波器系数计算部件8中，以便合成滤波器系数α₂(i)，(1≤i≤p₂)。这里，P₂是合成滤波器9的滤波器阶数(ordernumber)。

在通过上述音调增强部件4的音调增强之后的残留信号s(n)被输入到由合成滤波器系数α₂(i)构建的合成滤波器9里，以便确定输出的话音y(n)，(0≤n＜N)。结果，已经受过增强处理的声源特征和声道特征被合成。

在本发明中，如上所述，因为输入话音被分离成声源特征(残留信号)和声道特征(频谱包络)，可以执行适合于各个特征的增强处理。具体地，在声源特征情况下可以通过提高音调周期性来改进话音清晰度，而在声道特征情况下通过提高共振峰来改进话音清晰度。

此外，因为长期的话音特征被用作声道特征，减少了在帧之间放大因子的突变；因此，可以实现具有很少噪音感觉的好的话音质量。具体地，通过使用由当前帧的输入信号计算的自相关和由以前帧的输入信号计算的自相关的加权平均，可以获得很少随时间波动的平均频谱特性而不增加延迟时间。因此，可以抑制用于频谱增强的放大因子的突变，以致可以抑制由话音增强所引起对噪音的感觉。

接下来，下面将说明应用在图9中显示的本发明的原理的实施例。

图10是根据本发明的第一实施例的结构的框图。

在此图中，省略了音调增强部件4(与显示在图9中的原理图相比)。

此外，关于分离部件20的具体实现的结构，在分离部件20内的平均频谱计算部件1被分割成在滤波器系数计算部件2的前面和后面的两段，在滤波器系数计算部件2前的前段(pre-stage)中，当前帧的输入话音信号x(n)，(0≤n＜N)被输入到自相关计算部件10内；这里，通过等式(1)确定当前帧的自相关函数ac(m)(i)，(0≤i≤P₁)。这里，N是帧长。此外，m是当前帧的帧编号，并且p₁是将稍后说明的逆滤波器的阶数。

ac (m) (i) = Σ_{n = i}^{N - l} x (n) \cdot x (n - i), (0 \leq i \leq p_{1}) - - - (1)

此外，在分离部件20中，从缓冲器部件11输出在刚过去的前L帧中的自相关函数ac(m-j)(i)，(1≤j≤L，0≤i≤p₁)。接下来，由平均自相关计算部件12根据由自相关计算部件10确定的当前帧的自相关函数ac(m)(i)和来自上述缓冲器部件11的以前自相关的平均值来确定平均自相关ac_AVE(i)。

这里，用于确定平均自相关ac_AVE(i)的方法是任意的；然而，例如，可以使用等式(2)的加权平均。这里，W_j是加权系数。

{ac}_{AVE} (i) = \frac{1}{L + 1} Σ_{j = 0}^{L} w_{j} \cdot ac (m - j) (i), (0 \leq i \leq p_{1}) - - - (2)

这里,如下执行缓冲器部件11的状态的更新。首先，删除保存在缓冲器部件11中的以前的自相关函数当中最旧的ac(m-L)(i)(按照时间)。接下来，在当前帧中的计算的ac(m)(i)被保存在缓冲器部件11中。

此外，在分离部件20中，根据普遍熟悉的方法例如Levinson算法等等在第一滤波器系数计算部件2中根据平均自相关计算部件12确定的平均自相关ac_AVE(i)确定逆滤波器系数α₁(i)，(1≤i≤p₁)。

输入话音x(n)被输入到由滤波器系数α₁(i)构建的逆滤波器3中，并且根据等式(3)确定残留信号r(n)，(0≤n≤N)作为声源特征。

r (n) = x (n) + Σ_{i = 1}^{p_{1}} α_{1} (i) x (n - i), (0 \leq n < N) - - - (3)

同时，在分离部件20中，由滤波器系数计算部件2确定的系数α₁(i)由配置在滤波器系数计算部件2后的后段(after-stage)的频谱计算部件1-2中的下列等式(4)进行傅里叶变换，以便把LPC频谱sp₁(l)确定为声道特征。

{sp}_{1} (l) = {| \frac{1}{1 + Σ_{i = 1}^{p_{1}} α_{1} (i) \cdot \exp (- j 2 πil / N_{F})} |}^{2}, (0 \leq 1 < N_{F}) - - - (4)

这里，N_F是频谱的数据点的数目。如果采样频率是F_S，则LPC频谱sp₁(l)的频率分辨率是F_S/N_F。变量l是频谱指数，并且指示离散频率。如果l被转换为频率[Hz]，则可获得int[l×F_S/N_F][Hz]。此外，int[x]表示把变量x转换成整数(在下面的说明中同样如此)。

如上所述，输入话音可以被分离部件20分离成声源信号(残留信号r(n)，(0≤n＜N)和声道特征(LPC频谱sp₁(l))。

接下来，如图9中所述，频谱sp₁(l)作为特征提取部件的一个样本被输入到共振峰估算部件5里，并且可估算共振峰频率fp(k)，(1≤k≤k_max)和共振峰振幅amp(k)，(1≤k≤k_max)。这里，k_max是估算的共振峰的数目。k_max的值是任意的，然而，在具有8kHz的采样频率的话音情况下，k_max可以设置为4或5。

一种普遍已知的方法，例如在其中利用用作系数的逆滤波器系数α₁(i)从更高阶等式的根中确定共振峰的方法，或在其中根据频谱的波峰估算共振峰的波峰选择方法可被用作共振峰估算方法。共振峰频率被指定(按从最低频率开始的次序)为fp(1)、fp(2)、K、fp(k_max)。此外，可以为共振峰带宽设定门限值，并且系统可以设计为使得仅把带宽等于或小于此临门限值的频率作为共振峰频率。

此外，在共振峰估算部件5中，共振峰频率fp(k)被转换为离散的共振峰频率fpl(k)＝int[fp(k)×N_F/F_S]。此外，可把频谱sp₁(fpl(k))作为共振峰振幅amp(k)。

这样的频谱sp₁(l)，离散的共振峰频率fpl(k)和共振峰振幅amp(k)被输入到放大因子计算部件6里，并且计算用于频谱sp₁(l)的放大因子β(l)。

关于放大因子计算部件6的处理，如图11的处理流程所示，按照计算基准功率(处理步骤P1)，计算共振峰放大因子(处理步骤P2)，和对放大因子进行插值(处理步骤P3)的次序执行处理。在下面，依次说明各个处理步骤。

处理步骤P1：根据频谱sp₁(l)计算基准功率Pow_ref。计算方法是任意的；然而，例如，所有频带的平均功率或较低频率的平均功率可被用作基准功率。如果所有频带的平均功率被用作基准功率，由下列等式(5)表示Pow_ref。

Pow_ref = \frac{1}{N_{F}} Σ_{l = 0}^{N_{F} - 1} s p_{1} (l) - - - (5)

处理步骤P2：由下列等式(6)确定用于把共振峰F(k)匹配到基准功率Pow_ref的振幅放大因子G(k)。

G(k)＝Pow_ref/amp(k)(0≤n＜N_F)(6)

图12显示了共振峰F(k)的振幅是如何与基准功率Pow_ref匹配的。此外，在图12中，利用插值曲线R(k，l)确定在共振峰之间的频率的放大因子β(l)。插值曲线R(k，l)的形状是任意的；然而，例如，可以使用一阶函数或二阶函数。图13显示了当二阶曲线被用作插值曲线R(k，l)时的示例。插值曲线R(k，l)的定义如等式(7)所示。这里，a，b和c是确定插值曲线的形状的参数。

R(k，l)＝a·l²+b·l+c (7)

如图13所示，放大因子的最小值点设置为在这样的插值曲线内的邻近的共振峰F(k)和F(k+1)之间。这里，用于设置最小值点的方法是任意的，然而，例如，频率(fpl(k)+fpl(k+1))/2可以设置为最小值点，并且在这种情况下放大因子可被设置为γ×G(k)。这里，γ是常数，并且0＜γ＜1。

假定插值曲线R(k，l)通过共振峰F(k)和F(k+1)和最小值点，则下列等式(8)，(9)和(10)成立。

G(k)＝a·fpl(k)²+b·fpl(k)+c (8)

G(k+1)＝a·fpl(k+1)²+b·fpl(k+1)+c (9)

γ \cdot G (k) = a \cdot {(\frac{fpl (k) + fpl (k + 1)}{2})}^{2} + b \cdot (\frac{fpl (k + 1) + fpl (k + 1)}{2}) + c - - - (10)

如果等式(8)，(9)和(10)作为联立方程组被求解，则可确定参数a，b和c，并且可确定插值曲线R(k，l)。随后根据插值曲线R(k，l)确定用于F(k)和F(k+1)之间的频谱的放大因子β(l)。

此外，为所有的共振峰执行确定上述邻近的共振峰之间的插值曲线R(k，l)以及确定用于邻近共振峰之间的频谱放大因子β(l)的处理。

此外，在图12中，用于第一个共振峰的放大因子G(l)被用于低于第一个共振峰F(l)的频率。此外，用于最高的共振峰的放大因子G(kmax)用于高于最高的共振峰的频率。以上所述可以概括为等式(11)中所示。

G(l)，(L＜fpl(l))

β(l)＝{R(k，l)·(fpl(l)≤l≤fpl(k_max))(11)

G(k_max)，(fpl(k_max)＜l)

回到图10，频谱sp₁(l)和放大因子β(l)被输入到频谱增强部件7里，并且利用等式(12)确定增强的频谱sp2(l)。

sp₂(l)＝β(l)·s_P1(l)，(0≤l＜N_F)(12)

接下来，增强的频谱sp₂(l)被输入到第二滤波器系数计算部件8里。在第二滤波器系数计算部件8中，根据增强的频谱sp₂(l)的逆傅里叶变换确定自相关函数ac₂(i)，并且通过例如Levinson算法等已公知的方法根据ac₂(i)确定合成滤波器系数α₂(i)，(1＜i＜p₂)。这里，p₂是合成滤波器阶数。

此外，逆滤波器3输出的残留信号r(n)被输入到由系数α₂(i)构建的合成滤波器9里，并且如等式(13)所示确定输出的话音y(n)，(0≤n＜N)。

y (n) = r (n) - Σ_{i = 1}^{p_{2}} α_{2} (i) y (n - i), (0 \leq n < N) - - - (13)

在图10中显示的实施例中，如上所述，输入话音可以被分离成声源特征和声道特征，并且可以将系统设计成仅增强声道特征。结果，可以消除传统方法中的同时增强声道特征和声源特征时存在的频谱失真问题，并且可以改进清晰度。此外，在图10中显示的实施例中，省略了音调增强部件4，然而，按照显示在图9的原理示意图，也可以在逆滤波器3的输出端上安装音调增强部件4，并且对残留信号r(n)执行音调增强处理。

此外，在本实施例中，以频谱点数l为单位确定用于频谱sp₁(l)的放大因子，然而，也可能把频谱拆分为多个频带，并且为每个频带分别建立放大因子。

图14显示了本发明的第二实施例的结构的框图。此实施例不同于在图10中所示的第一个实施例之处在于根据当前帧的输入话音确定的LPC系数是逆滤波器系数，在其它的所有方面，此实施例与第一个实施例相同。

通常，在根据当前帧的输入信号x(n)确定残留信号r(n)的情况下，根据当前帧的输入信号确定的LPC系数被用作逆滤波器3的系数的情况与使用具有平均频率特征(如第一实施例中)的LPC系数的情况相比，预计增益较高，从而，可以很好地分离声道特征和声源特征。

因此，在此第二实施例中，LPC分析部件13对当前帧的输入话音进行LPC分析，并且如此获得的LPC系数α₁(i)，(1≤i≤P₁)被用作逆滤波器3的系数。

由第二频谱计算部件1-2B根据LPC系数α₁(i)确定频谱sp₁(l)。用于计算频谱sp₁(l)的方法与第一实施例中的等式(4)相同。

接下来，第一频谱计算部件确定平均频谱，并且在共振峰估算部件5中根据该平均频谱确定共振峰频率fp(k)和共振峰振幅amp(k)。

接下来，如前一实施例，放大率计算部件6根据频谱sp₁(l)、共振峰频率fp(k)和共振峰振幅amp(k)确定放大率β(l)，并且频谱加强部件(spectrum emphasizing part)7根据此放大率执行频谱加强，以便确定加强的频谱sp₂(l)。根据加强的频谱sp₂(l)确定合成滤波器9中设置的合成滤波器系数α₂(i)，并且通过将残留差值信号r(n)输入到合成滤波器9里获得输出的话音y(n)。

如上面参照第二实施例所述的，可以以良好的精确性分离当前帧的声道特征和声源特征，并且在本实施例中可以以和先前的实施例中的同样的方法通过根据平均频谱平滑地执行声道特征的增强处理来改进清晰度。

接下来参考图15说明本发明的第三实施例。此第三实施例不同于第一个实施例之处在于安装了自动增益控制部件(AGC部件)14，并且合成滤波器9的合成输出y(n)的振幅是受控制的，在所有其它方面，此结构与第一个实施例相同。

AGC部件14调整增益，从而最终输出话音信号z(n)与输入话音信号x(n)的功率比是1。AGC部件14可使用任意的方法；然而，例如，可以使用下列方法。

首先，根据方程式(14)根据输入话音信号x(n)和合成输出y(n)确定振幅比g₀。这里，N是帧长。

g_{0} = \sqrt{\frac{Σ_{n = 0}^{N - 1} x {(n)}^{2}}{Σ_{n = 0}^{N - 1} y {(n)}^{2}}} - - - (14)

根据下列等式(15)确定自动增益控制值Gain(n)。这里，λ是常数。

Gain(n)＝(1-λ)·Gain(n-1)+λ·g₀，(0≤n≤N-1)(15)

通过下列等式(16)确定最终输出话音信号z(n)。

z(n)＝Gain(n)·y(n)，(0≤n≤N-1)(16)

在本实施例中与上面所述的一样，输入话音x(n)可以被分离成声源特征和声道特征，并且系统可以被设计成仅仅加强声道特征。结果，可以消除传统技术中同时加强声道特征和声源特征时的频谱的失真问题，并且可以改进清晰度。

此外，通过调整增益，使得与输入信号相比由频谱增强所得的输出话音的振幅不会过度地增加，有可能获得平稳的并且非常自然的输出话音。

图16显示了本发明的第四实施例的框图。此实施例不同于第一实施例之处在于对根据图9所示的原理示意图中的由逆滤波器3的输出组成的残留差值信号r(n)进行音调增强处理，在所有其它方面，此结构与第一个实施例相同。

由音调增强滤波器4执行的音调增强的方法是任意的，例如，可以安装音调系数计算部件4-1，并且可以使用下列方法。

首先，根据方程式(17)确定当前帧的残留差值信号的自相关rscor(i)，并且确定音调滞后T，在音调滞后T处，自相关rscor(i)显示最大值。这里，Lag_min和Lag_max分别是音调滞后的下限和上限。

rscor (i) = Σ_{n = 1}^{N - 1} r (n) \cdot r (n - i), ({Lag}_{\min} \leq i \leq {Lag}_{\max}) - - - (17)

接下来，利用自相关方法根据差值在音调滞后T邻近的残留差值信号rscor(T-1)、rscor(T)和rscor(T+1)确定音调预测系数pc(i)，(i＝-1，0，1)。关于用于计算音调预测系数的方法，可以通过已公知的方法例如Levinson算法等等确定这些系数。

接下来，逆滤波器输出r(n)被输入到音调增强滤波器4里，并且确定增强了音调周期性的话音y(n)。可以使用等式(18)的传递函数(transferfunction)表示的滤波器作为音调增强滤波器4。这里，g_p是加权系数。

Q (z) = \frac{1}{1 + g_{p} Σ_{i = - 1}^{1} pc (i) \cdot z^{- (i + T)}} - - - (18)

这里，此外，IIR滤波器被用作音调增强滤波器4；然而，可以使用任意的滤波器，例如FIR滤波器等等。

在第四实施例中，如上所述，可以通过增加音调增强滤波器来增强残留差值信号中包括的音调周期分量，并且可比第一实施例更好地改进话音清晰度。

图17显示了本发明的第五实施例的结构的框图。此实施例与第一个实施例不同点在于提供了保存前一帧的放大率的第二缓冲器部件15，在所有其它方面，此实施例与第一个实施例相同。

在此实施例中，在放大率计算部件6中根据共振峰频率fp(k)和振幅amp(k)以及来自频谱计算部件1-2的频谱sp₁(l)确定临时放大率β_psu(l)。

用于计算临时放大率β_psu(l)的方法与第一实施例中的用于计算放大率β(l)的方法相同。接下来，根据临时放大率β_psu(l)和来自缓冲器部件15的前一帧放大率β_old(l)来确定当前帧的放大率β(l)。这里，前一帧的放大率β_old(l)是前一帧中计算的最终放大率。

用于确定放大率β(l)的过程如下：

(1)计算在临时放大率β_psu(l)和前一帧放大率β_old(l)之间的差，即Δ_β＝β_PSU(l)-β_old(l)

(2)如果差值Δ_β大于预定门限值Δ_TH，β(l)被认为等于β_old(l)+Δ_TH。

(3)如果差值Δβ小于预定门限值Δ_TH，β(l)被认为等于β_psu(l)。

(4)最终确定的β(l)被输入到缓冲器部件15，并且更新前一帧放大率β_old(l)。

在第五实施例中，因为除根据前一帧放大率β_old(l)确定放大率β(l)部分外，此过程与第一个实施例相同，因此省略了对第五实施例的操作的进一步的说明。

在本实施例中，如上所述，通过在确定用于频谱增强的放大率时，有选择地使用放大率防止各帧之间放大率的突变，因此，可以改善清晰度同时抑制频谱增强所引起的噪音感觉。

图18显示了本发明的第六实施例的结构的方框图。此实施例显示了结合了上述第一和第三到第五实施例的结构。因为重复的部件与其它实施例中的相同，所以省略了这些部件的说明。

图19是显示了由上述实施例增强了的话音频谱示意图。当显示在图19中的频谱与显示在图7中的输入话音频谱(在增强之前)以及显示在图8中的以帧为单位增强了的频谱相比，本发明的效果非常明显。

具体地，在其中较高的共振峰被增强了的图8中，在增强了的频谱中在大约0.95秒处和在大约1.03秒处产生了不连续性；然而，在图19中显示的话音频谱中，可以看出峰值波动被消除了，从而改进这些不连续性。结果，不会由于实际接听处理过的话音时共振峰中的不连续性产生噪音感觉。

这里，在上述第一到第六实施例中，根据显示在图9中的本发明的原理示意图，输入话音可以被分离成声源特征和声道特征，并且可以分别增强声道特征和声源特性。相应地，可以消除传统技术中增强话音本身而造成的频谱失真问题，从而可以提高清晰度。

但是，在上述各个实施例中可能会普遍出现下列问题。具体地，在上述各个实施例中，当增强话音频谱时，如果帧之间的放大率存在较大的波动，会出现噪音增大的问题。另一方面，如果控制系统以减小放大率中的波动，消除噪音感觉，则频谱增强的程度将不够充分，以致于清晰度的改进不够充分。

因此，为了进一步消除这样的问题，可以应用基于图20和21中显示的本发明的原理的结构。基于图20和21中显示的本发明的原理的结构的特征在于使用了包括动态滤波器I和固定滤波器II的两级的结构。

此外，在图20中所示的结构中，原理示意图说明固定滤波器II被配置在动态滤波器I之后的情况；但是，如果动态滤波器I的结构如图21中所显示的，则也可配置固定滤波器II作为前一级。但是，在如图21中显示的结构中，通过分析输入话音来计算用在动态滤波器I中的参数。

如上所述，动态滤波器I使用基于图9中显示的原理的结构。图20和21显示了图9中显示的原理性结构的示意图。具体地，动态滤波器I包括：把输入话音分离成声源特征和声道特征的分离功能部件20；从声道特征中提取共振峰特征的特征提取功能部件5；根据从特征提取功能部件5获得的共振峰特征计算放大率的放大率计算功能部件6；按照计算出来的放大率增强声道特征频谱的频谱功能部件7，以及合成被增强了频谱的声源特征和声道特征的合成功能部件21。

固定滤波器II具有以下滤波器特征，即在特定范围的频宽内具有固定的通频带。固定滤波器II增强的频带是任意的，但是，例如，可以使用增强2kHz或更高的频带或1kHz到3kHz的中间频带的频带增强滤波器。

固定滤波器II增强频带的一部分，并且动态滤波器I增强共振峰。由于固定滤波器II的放大率是固定的，所以帧之间的放大率不存在波动。通过使用这样的结构，动态滤波器I可以防止过度增强，并且改进清晰度。

图22是基于显示在图20中的原理示意图的本发明的其它实施例的框图。此实施例使用前面所述的第三实施例的结构作为动态滤波器I。因此，省略重复的说明。

在此实施例中，输入话音被动态滤波器I分离成声源特征和声道特征，并且仅仅增强声道特征。结果，可以消除在传统技术中当同时增强声道特征和声源特征时出现的频谱失真问题，并且可以改进清晰度。此外，AGC部件14调整增益以使得与输入信号相比增强频谱后的输出话音的振幅不会过度增强，因此，可以获得平滑与非常自然的输出话音。

此外，由于固定滤波器II以固定比率放大频带的一部分，因此噪音感觉很小，从而获得具有高清晰度的话音。

工业应用

如上面根据附图所说明的，本发明使得有可能分别增强声道特征和声源特征。结果，可以消除在增强话音自身的传统技术中的频谱失真问题，以便改进清晰度。

此外，由于当增强声道特征时根据平均频谱执行增强，所以消除了帧之间放大率突然的变化，从而可以获得具有较少噪音的良好的话音质量。

在这些方面看来，本发明使移动电话可以进行期望的话音通信，并且因此可进一步促进移动电话的普及。

此外，本发明是按照上述实施例而说明的。但是，这些实施例是用于帮助理解本发明的，本发明的保护范围并不仅限于这些实施例。具体地，落入等同于权利要求中说明的条件的情况也包括在本发明的保护范围内。

Claims

1.一种话音增强装置，所述话音增强装置包括：

信号分离部件，将输入话音信号分离成声源特征和声道特征；

特征提取部件，从所述的声道特征提取特征信息；

声道特征校正部件，根据所述声道特征和所述特征信息校正所述声道特征；

第二滤波器系数计算部件，根据所述改变后的频谱计算合成滤波器系数；以及

信号合成部件，用于合成所述声源特征和来自所述声道特征校正部件的已校正的声道特征；

其中，所述信号分离部件包括：

线性预测系数分析部件，其通过对当前帧的输入话音信号进行线性预测系数分析来确定自相关函数和线性预测系数；

逆滤波器，由所述系数构建；

第一频谱计算部件，根据所述线性预测系数确定频谱；

缓冲器部件，其存储所述当前帧的自相关并且输出以前帧的自相关函数；

平均自相关计算部件，其确定所述当前帧的自相关和所述以前帧的自相关函数的加权平均；

第一滤波器系数计算部件，其根据所述自相关函数的加权平均计算平均滤波器系数；以及

第二频谱计算部件，其根据所述平均滤波器系数确定平均频谱；

所述特征提取部件包括：

共振峰估算部件，其根据所述平均频谱确定共振峰频率和共振峰振幅；

所述声道特征校正部件包括：

放大因子计算部件，其根据所述平均频谱、所述共振峰频率和所述共振峰振幅确定放大因子；以及

频谱增强部件，其根据所述放大因子改变由所述第一频谱计算部件计算出的所述频谱并且确定改变后的频谱，

所述信号合成部件包括：

合成滤波器，其由所述合成滤波器系数构建；

其中，通过将所述输入信号输入到所述逆滤波器中来确定残留信号，并且通过将所述残留信号输入到所述合成滤波器中来确定输出话音。

2.一种话音增强装置，所述话音增强装置包括：

特征提取部件，从所述的声道特征中提取特征信息；

校正声道特征计算部件，根据所述声道特征和所述特征信息确定声道特征校正信息；

声道特征校正部件，使用所述声道特征校正信息校正所述声道特征；以及

信号合成部件，用于合成所述声源特征和来自所述声道特征校正部件的所述已校正的声道特征；

其中输出由所述信号合成部件合成的话音；

所述信号分离部件是由线性预测系数构建的滤波器，所述线性预测系数是通过对输入话音进行线性预测分析而获得的；并且

所述线性预测系数是根据从输入话音计算出的自相关函数的平均而确定出的。

3.根据权利要求2所述的话音增强装置，其中所述线性预测系数是根据从当前帧的输入话音计算的自相关函数、以及从以前帧的输入话音计算的自相关函数的加权平均来确定的。

4.根据权利要求2所述的话音增强装置，其中所述线性预测系数是根据从当前帧的输入话音计算的线性预测系数与从以前帧的输入话音计算的线性预测系数的加权平均来确定的。

5.根据权利要求2所述的话音增强装置，其中所述声道特征是线性预测频谱或通过对输入信号进行傅立叶变换确定的功率频谱，所述线性预测频谱是根据线性预测系数计算的，该线性预测系数是通过对所述输入话音进行线性预测分析而获得的。

6.根据权利要求2所述的话音增强装置，其中所述特征提取部件根据线性预测系数确定极点位置，该线性预测系数是通过对所述输入话音进行线性预测分析而获得的，该特征提取部件还根据所述极点位置确定共振峰频谱和共振峰振幅或共振峰带宽。

7.根据权利要求2所述的话音增强装置，其中所述特征提取部件根据所述线性预测频谱或所述功率频谱确定共振峰频谱和共振峰振幅或共振峰带宽。

8.根据权利要求6或7所述的话音增强装置，其中所述声道特征校正部件确定所述共振峰振幅的平均振幅，并且根据所述平均振幅改变所述共振峰振幅或共振峰带宽。

9.根据权利要求7所述的话音增强装置，其中所述声道特征校正部件确定线性预测频谱或所述功率频谱的平均振幅，并根据所述平均振幅改变所述共振峰振幅或共振峰带宽。

10.根据权利要求2所述的话音增强装置，其中从所述合成部件输出的所述输出话音的振幅由一自动增益控制部件控制。

11.根据权利要求2所述的话音增强装置，其还包括对构成所述声源特征的残留信号执行音调增强的音调增强部件。

12.根据权利要求2所述的话音增强装置，其中所述声道特征校正部件具有计算部件，其确定当前帧的临时放大因子，确定当前帧的临时放大因子和前一帧的放大因子的差值或比率，并在所述插值或比率大于预定门限值时，采用根据所述门限值和前一帧的放大因子确定的放大因子作为当前帧的放大因子，并且当所述差值或比率小于所述门限值时，采用所述临时放大因子作为当前帧的放大因子。

13.一种话音增强装置，所述话音增强装置包括：

特征提取部件，从所述的声道特征提取特征信息；

声道特征校正部件，根据所述声道特征和所述特征信息校正所述声道特征；以及

其中，所述信号分离部件包括：

自相关计算部件，其确定当前帧的输入话音的自相关函数；

缓冲器部件，其存储所述当前帧的自相关，并输出以前帧的自相关函数；

第一滤波器系数计算部件，其根据所述自相关函数的加权平均计算逆滤波器系数；

逆滤波器，由所述逆滤波器系数构建；以及

频谱计算部件，其根据所述逆滤波器系数计算频谱；

所述特征提取部件包括：

共振峰估算部件，其根据所述计算出的频谱估算共振峰频率和共振峰振幅；

所述声道特征校正部件包括：

放大因子计算部件，其根据所述计算出的频谱、所述估算出的共振峰频率和所述估算出的共振峰振幅确定放大因子；以及

频谱增强部件，其根据所述放大因子改变所述计算出的频谱，并且确定改变后的频谱；

所述信号合成部件包括：

第二滤波器系数计算部件，其根据所述改变后的频谱计算合成的滤波器系数；以及

由所述合成滤波器系数构建的合成滤波器；

其中通过将所述输入话音输入到所述逆滤波器中而确定残留信号，并且通过将所述残留信号输入到所述合成滤波器中而确定输出话音。

14.根据权利要求13所述的话音增强装置，其还包括自动增益控制部件，其控制所述合成滤波器的输出的振幅，其中，通过将所述输入话音输入到所述逆滤波器来确定残留信号，通过将所述残留信号输入到所述合成滤波器来确定重放话音，并且通过将所述重放话音输入到所述自动增益控制部件来确定所述输出话音。

15.根据权利要求13所述的话音增强装置，其还包括：

音调增强系数计算部件，根据所述残留信号计算音调增强系数；以及

音调增强滤波器，其由所述音调增强系数构建；

其中，通过将所述输入话音输入到所述逆滤波器来确定残留信号，通过将所述残留信号输入到所述音调增强滤波器中来确定提高了音调周期性的残留信号，并且通过将提高了音调周期性的所述残留信号输入到所述合成滤波器来确定所述输出话音。

16.根据权利要求13所述的话音增强装置，其中，所述放大因子计算部件包括：

临时放大因子计算部件，其根据由所述频谱计算部件根据所述逆滤波器部件系数计算出的所述频谱、所述共振峰频率和所述共振峰振幅确定当前帧的临时放大因子；

差值计算部件，计算在所述临时放大因子和前一帧的放大因子之间的差值；以及

放大因子判断部件，当所述差值大于预定门限值时，该放大因子判断部件采用根据所述门限值和所述前一帧的放大因子确定的放大因子作为当前帧的放大因子，并且当所述差值小于所述门限值时，该放大因子判断部件采用所述临时放大因子作为当前帧的放大因子。

17.根据权利要求13所述的话音增强装置，所述话音增强装置还包括：

音调增强系数计算部件，根据残留信号计算音调增强系数，所述残留信号根据输入到所述逆滤波器的输入声音信号确定，以及

音调增强滤波器，所述音调增强滤波器由所述音调增强系数构建，用于周期性地提高所述残留信号的音调，并将提高了音调的所述残留信号输入到所述合成滤波器。

18.一种话音增强装置，该话音增强装置包括：

增强滤波器，增强输入话音信号的一些频带；

信号分离部件，把由所述增强滤波器增强了的输入话音信号分离成声源特征和声道特征；

特征提取部件，从所述声道特征中提取特征信息；

信号合成部件，用于合成所述声源特征和来自所述声道特征校正部件的已校正声道特征；

其中输出由所述信号合成部件合成的话音；

19.一种话音增强装置，该话音增强装置包括：

信号分离部件，把输入话音信号分离成声源特征和声道特征；

特征提取部件，从所述声道特征中提取特征信息；

声道特征校正部件，使用所述声道特征校正信息校正所述声道特征；

信号合成部件，合成所述声源特征和来自所述声道特征校正部件的已校正的声道特征；以及

滤波器，增强由所述信号合成部件合成的所述信号的一些频带；

其中，所述信号分离部件是由线性预测系数构建的滤波器，所述线性预测系数是通过对输入话音进行线性预测分析而获得的；并且