CN101154384B

CN101154384B - 声音信号纠正方法、声音信号纠正设备以及计算机程序

Info

Publication number: CN101154384B
Application number: CN2007100083381A
Authority: CN
Inventors: 松尾直司
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2006-09-25
Filing date: 2007-01-29
Publication date: 2010-06-02
Anticipated expiration: 2027-01-29
Also published as: CN101154384A; US20080085012A1; EP1903560B1; EP1903560A1; KR20080027709A; KR20090008164A; DE602007001927D1; KR100930745B1; US8249270B2; JP4753821B2; JP2008076975A

Abstract

本发明提供一种声音信号纠正方法、声音信号纠正设备以及计算机程序，声音信号纠正设备(1)通过如下步骤纠正基于获取的声音的声音信号：进行FFT处理将获取的声音信号转换为相位频谱和振幅频谱(步骤S4)；将获取的声音信号的振幅频谱与噪声模型进行比较，从而导出用于纠正声音信号的振幅频谱的纠正系数(步骤S5)；利用导出的纠正系数，平滑化声音信号的振幅频谱的波形(步骤S6)；以及通过对相位频谱和平滑化后的振幅频谱进行逆FFT处理，将所述声音信号转换为振幅频谱被纠正的声音信号(步骤S7)。

Description

声音信号纠正方法、声音信号纠正设备以及计算机程序

技术领域

本发明涉及一种声音信号纠正方法、应用所述声音信号纠正方法的声音信号纠正设备以及用于实施所述声音信号纠正设备的计算机程序，其中所述声音信号纠正方法用于根据与噪声图(noise pattern)相关的噪声模型纠正基于获取的声音的声音信号。特别地，本发明涉及一种为获取的声音提高语音识别率的声音信号纠正方法、声音信号纠正设备以及计算机程序。

背景技术

噪声抑制技术能够抑制在有噪声的环境下获取的声音中的噪声成分，其目的用于提高诸如汽车导航器等语音识别设备中的语音识别率，并用于提高与语音相关的设备的质量，例如提高电话机中发送语音的质量。

图1为在概念上示出传统噪声抑制技术的示意图。根据传统噪声抑制技术，获取包括噪声和语音的声音，并通过FFT(快速傅立叶变换)处理，将按帧划分且基于获取的声音的声音信号、即输入信号in(n)转换为相位频谱tan^-1IN(f)和振幅频谱|IN(f)|。然后，根据与声音信号的振幅频谱|IN(f)|具有很高相似度的噪声模型，估算稳态噪声的振幅频谱|N(f)|，并从声音信号的振幅频谱|IN(f)|中减去估算的稳态噪声的振幅频谱|N(f)|。接着，通过逆FFT处理转换已减去稳态噪声的振幅频谱|N(f)|的振幅频谱|IN(f)|和相位频谱tan^-1IN(f)，从而导出每个帧的输出信号out(n)。作为其中噪声被抑制的声音信号，导出的输出信号用于例如语音识别处理。

图2A和图2B为示出与传统噪声抑制技术相关的振幅频谱的坐标图。图2A示出声音信号的振幅频谱|IN(f)|中频率值与振幅值之间的关系，而图2B示出已减去稳态噪声的振幅频谱|N(f)|的振幅频谱|IN(f)|中频率值与振幅值之间的关系。在比较图2A和图2B时清楚可知，在图2B所示的波形中已从输入信号的振幅频谱|IN(f)|中减去估算的稳态噪声的振幅频谱|N(f)|，从而抑制了噪声。这种噪声抑制技术称为谱减法，并且例如在日本专利申请特开平No.07-193548(1995)中公开了使用谱减法的噪声抑制技术。

然而，噪声包括随时间而改变的非稳态成分，从而在日本专利申请特开平No.07-193548(1995)所述的使用谱减法的噪声抑制技术中，留下非稳态成分。例如，图2A和图2B所示的波形涉及仅由噪声构成的输入信号，如图2B所示，在抑制稳态噪声时，留下高度非稳态噪声。以这种方式留下的噪声是非自然噪声，因此与用于语音识别的声音模型中包含的噪声模型的匹配度低，从而导致噪声识别的精度低之类的问题。具体来说，引起误差，从而使留下的噪声被识别为谱功率较低的音位，例如“s”和“n”。因此，对噪声的抑制与语音识别率的提高不相关；相反地，出现引起语音识别率降低的问题。此外，出现产生音乐噪声之类的非自然噪声的问题。

发明内容

为了解决上述问题提出了本发明，并且本发明的目的是提供声音信号纠正方法、应用所述声音信号纠正方法的声音信号纠正设备以及用于实施所述声音信号纠正设备的计算机程序，其中所述声音信号纠正方法通过比较声音信号与噪声模型并基于比较结果平滑化声音信号的波形而能够防止留下非自然噪声，从而使噪声识别精度提高、提高语音识别率以及防止产生音乐噪声。

根据本发明第一方案提供一种声音信号纠正方法，其中使用计算机作为声音信号纠正设备来纠正基于获取的声音的声音信号，所述声音信号纠正设备用于将声音信号转换为振幅频谱，并将所述振幅频谱与基于稳态噪声的振幅频谱的噪声模型进行比较，所述声音信号纠正设备包括用于语音识别的声音模型数据库，所述声音模型数据库用于记录与语音识别所需的用于匹配的信号图相关的声音模型和噪声模型，所述声音信号纠正方法包括以下步骤：通过将声音信号的振幅频谱的强度与基于噪声模型确定的阈值进行比较，来执行所述声音信号的振幅频谱与噪声模型的比较，从而导出用于纠正所述声音信号的振幅频谱的纠正系数，其中所述振幅频谱的强度是峰值、峰的积分值、或峰的平方值中的一种；以及利用导出的纠正系数来平滑化所述声音信号的振幅频谱的波形。

根据本发明第二方案提供一种声音信号纠正设备，其中使用计算机作为声音信号纠正设备来纠正基于获取的声音的声音信号，所述声音信号纠正设备用于将声音信号转换为振幅频谱，并将所述振幅频谱与基于稳态噪声的振幅频谱的噪声模型进行比较，所述声音信号纠正设备包括用于语音识别的声音模型数据库，所述声音模型数据库用于记录与语音识别所需的用于匹配的信号图相关的声音模型和噪声模型，所述声音信号纠正设备还包括：导出装置，通过将声音信号的振幅频谱的强度与基于噪声模型确定的阈值进行比较，来执行所述声音信号的振幅频谱与噪声模型的比较，从而导出用于纠正所述声音信号的振幅频谱的纠正系数，其中所述振幅频谱的强度是峰值、峰的积分值、或峰的平方值中的一种；以及平滑化装置，利用导出的纠正系数来平滑化所述声音信号的振幅频谱的波形。

根据本发明第三方案提供一种声音信号纠正设备，根据与噪声图的频谱相关的噪声模型来纠正基于获取的声音的声音信号的频谱，其包括：导出装置，通过将所述声音信号的频谱与所述噪声模型进行比较来导出用于纠正所述声音信号的纠正系数；以及平滑化装置，使用导出的纠正系数平滑化所述声音信号的波形。

根据本发明第四方案提供一种声音信号纠正设备，在根据第三方案的声音信号纠正设备中：所述导出装置根据所述声音信号的频谱强度与基于所述噪声模型确定的阈值之差，导出所述纠正系数。

根据本发明第五方案提供一种声音信号纠正设备，在根据第三或第四方案的声音信号纠正设备中：所述平滑化装置平滑化所述声音信号的频谱在频率轴方向的变化。

根据本发明第六方案提供一种声音信号纠正设备，在根据第五方案的声音信号纠正设备中：所述平滑化装置基于下面的公式(A)进行平滑化：

|IN(f)’|＝α|IN(f-1)’|+(1-α)|IN(f)|………………………………公式(A)

其中，|IN(f)’|为平滑化后在频率f处的频谱，

|IN(f)|为平滑化前在频率f处的频谱，

|IN(f-1)’|为平滑化后在频率f-1处的频谱，其中频率f-1与频率f相差预定频率间距，以及

α为纠正系数，其中0≤α≤1。

根据本发明第七方案提供一种声音信号纠正设备，在根据第三或第四方案的声音信号纠正设备中：所述平滑化装置平滑化所述声音信号的频谱在时间轴方向的变化。

根据本发明第八方案提供一种声音信号纠正设备，在根据第七方案的声音信号纠正设备中：所述平滑化装置基于下面的公式(B)进行平滑化：

|IN(f)’|t＝α|IN(f)’|t-1+(1-α)|IN(f)|t………………………………公式(B)

其中，|IN(f)’|t为平滑化后在时刻t于频率f处的频谱，

|IN(f)|t为平滑化前在时刻t于频率f处的频谱，

|IN(f)’|t-1为平滑化后在时刻t-1于频率f处的频谱，其中时刻t-1在时刻t之前并与时刻t相隔预定时间，以及

α为纠正系数，其中0≤α≤1。

根据本发明第九方案提供一种声音信号纠正设备，在根据第二至第八方案中的任一个方案的声音信号纠正设备中还包括：用于基于平滑化后的声音信号执行语音识别处理的装置。

根据本发明第十方案提供一种计算机程序，使计算机执行处理以根据与噪声图相关的噪声模型纠正基于获取的声音的声音信号，所述计算机程序包括：使计算机将所述声音信号与所述噪声模型进行比较的步骤；以及使计算机基于比较结果平滑化所述声音信号的波形的步骤。

根据本发明，将声音信号与噪声模型进行比较，并基于比较结果平滑化声音信号的波形，从而防止了高度非稳态噪声的出现；以及将声音信号的波形纠正为具有稳态噪声的波形，其与噪声模型的匹配度高，由此可以提高噪声识别的精度，从而在将本发明应用于例如语音识别设备时可以提高语音的识别率。此外，在将本发明用于与电话通信相关的设备中时，可以防止诸如音乐噪声之类的非自然噪声的产生。

另外，根据本发明，纠正系数随着与噪声模型的比较结果而改变，由此在包括语音等频谱(其强度不同于噪声)的情况下平滑化的程度降低，从而通过防止语音中的峰被平滑化，可以提高语音的识别率。

在根据本发明的声音信号纠正方法、声音信号纠正设备和计算机程序中，将基于获取的声音的声音信号和与噪声图相关的噪声模型进行比较，并根据比较结果平滑化声音信号的波形在频率轴方向的变化和/或在时间轴方向的变化。

根据本发明，防止了高度非稳态噪声的出现，从而将波形纠正为与噪声模型具有高匹配度的稳态噪声的波形，由此获得优异的效果，从而可以提高噪声识别的精度。由于本发明在应用于例如语音识别设备的情况下可以提高语音的识别率；以及在将本发明用于与电话通信相关的设备中的情况下，可以防止诸如音乐噪声之类的非自然噪声的产生，因此本发明提供优异的技术效果。

此外，本发明的声音信号纠正设备等将声音信号与噪声模型进行比较；根据声音信号的频谱强度与基于噪声模型确定的阈值之差，导出用于纠正声音信号的纠正系数；以及使用导出的纠正系数平滑化声音信号的波形。

根据本发明，在包括语音等频谱(其强度不同于噪声)的情况下，平滑化的程度降低，由此可以防止语音中的峰被平滑化，并获得优异的效果，从而可以提高语音的识别率。

根据以下详细说明和附图，可更全面地了解本发明的以上和其它目的及特征。

附图说明

图1为在概念上示出传统噪声抑制技术的示意图；

图2A和图2B为示出根据传统噪声抑制技术的振幅频谱的坐标图；

图3为示出根据本发明的声音信号纠正设备的结构框图；

图4为示出根据本发明的声音信号纠正设备中的处理的流程图；

图5为在概念上示出根据本发明的声音信号纠正设备中的纠正处理的示意图；

图6A和图6B为示出与根据本发明的声音信号纠正设备相关的声音信号的振幅频谱的坐标图；

图7为示意性示出根据本发明的声音信号纠正设备中的平滑化处理的控制流程图；

图8为示意性示出根据本发明的声音信号纠正设备中的平滑化处理的控制流程图；以及

图9为示出根据本发明的声音信号纠正设备中的纠正系数导出处理的坐标图。

具体实施方式

下面，参照附图详细描述本发明，在附图中示出了本发明的实施例。图3为示出根据本发明的声音信号纠正设备的结构框图。例如，在图3中以1表示使用计算机的声音信号纠正设备，例如安装在车辆中的导航器，并且声音信号纠正设备1包括：控制装置10(控制器)，例如CPU(中央处理器)或者DSP(数字信号处理器)，用于控制整个设备；记录装置11，例如硬盘或者ROM，用于记录诸如程序和数据等多种信息；存储装置12，例如RAM，用于临时存储产生的数据；声音获取装置13，例如麦克风，用于从外部获取声音；声音输出装置14，例如扬声器，用于输出声音；显示装置15，例如液晶监视器；以及导航装置16，用于执行与导航相关的处理，例如指示到达目的地的路线。

记录装置11记录本发明的计算机程序11a，在记录的计算机程序11a中包含的多种处理步骤被存储在存储装置12中并在控制装置10的控制下而被执行，从而使计算机可用作本发明的声音信号纠正设备1。

此外，记录装置11中的部分记录区用作多个数据库，例如：用于语音识别的声音模型数据库(用于语音识别的声音模型DB)11b以及识别语法11c，声音模型数据库11b记录与语音识别所需的用于匹配的信号图(signalpattern)相关的声音模型和噪声模型，识别语法11c记录用于识别的词汇表，根据与声音模型相对应的音位或音节定义以及语法来表示所述词汇表。

存储装置12的部分存储区用作声音信号缓冲器12a以及帧缓冲器12b，声音信号缓冲器12a存储通过以预定周期对声音进行采样而获得的数字化声音信号，其中所述声音是由声音获取装置13获取的模拟信号，帧缓冲器12b用于存储通过将声音信号划分为具有预定时间长度的多段而获得的多个帧。

导航装置16具有诸如GPS(全球定位系统)的位置检测机构以及诸如DVD(数字多功能光盘)或硬盘之类的记录地图信息的记录介质。导航装置16执行导航处理，例如搜索从当前位置到达目的地的路线并指示所述路线，导航装置16还在显示装置15上显示地图和路线并从声音输出装置14输出语音指导。

这里，图3所示的结构仅为实例，可以通过多种形式来发展本发明。可以通过一个或多个VLSI芯片的形式来构建与语音识别相关的功能部件(function)，并将其与导航器集成在一起，并且例如也可以将用于语音识别的专用器件在外部附着在导航器上。此外，控制装置10既可以用于语音识别处理，也可以用于导航处理，或者可分别设置专用电路。另外，在控制装置10中可包括协处理器，所述协处理器用于执行包括与语音识别相关的特定计算的处理，例如FFT(快速傅立叶变换)。而且，可以将声音信号缓冲器12a设置为属于声音获取装置13的电路，并且可以在设置在控制装置10中的存储器中形成帧缓冲器12b。此外，除了安装在车辆中的器件、例如导航器之外，本发明的声音信号纠正设备1还可以应用于多种器件中，例如用于电话通信的语音发送器(在发送语音时抑制噪声)、中继器和语音接收器。

接下来，描述本发明的声音信号纠正设备1中的处理。图4为示出本发明的声音信号纠正设备1中的处理的流程图。在步骤S1，在用于执行计算机程序11a的控制装置10的控制下，声音信号纠正设备1通过声音获取装置13获取外部声音；并在步骤S2，在预定期间对已经获取的、作为模拟信号的声音进行采样，然后将由此数字化的声音信号存储在声音信号缓冲器12a中。在步骤S1中获取的外部声音为诸如人的语音、稳态噪声和非稳态噪声等多种声音交叠的声音。人的语音是通过与声音模型进行匹配来识别的语音。稳态噪声为交通噪声和发动机噪声之类的噪声，在本发明中可通过与噪声模型进行匹配来纠正稳态噪声。非稳态噪声为以非稳态方式产生的噪声，并且已经提出和建立了去除非稳态噪声的多种方法。

此外，在步骤S3，在控制装置10的控制下，声音信号纠正设备1从存储在声音信号缓冲器12a中的声音信号产生具有预定长度的多个帧。在步骤S3中，例如，以20ms至30ms的预定长度将声音信号划分为多个帧。这里，各个帧彼此交叠10ms至15ms。对于每个帧，进行语音识别领域通用的帧处理，包括汉明(Hamming)窗和汉宁(Hanning)窗之类的窗口函数以及使用高通滤波器进行滤波。对由此产生的每个帧进行下面的处理。

在步骤S4，在控制装置10的控制下，声音信号纠正设备1通过进行FFT处理将每个帧中的声音信号转换为相位频谱和振幅频谱；并在步骤S5，将获取的声音信号的振幅频谱与基于稳态噪声等的振幅频谱的噪声模型进行比较，从而导出用于纠正声音信号的振幅频谱的纠正系数。在步骤S5中，例如，将稳态噪声的振幅谱的平均值用作将要比较的噪声模型。此外，在步骤S5中，通过将声音信号的振幅频谱强度(例如峰值、峰的积分值以及峰的平方值)与基于噪声模型确定的阈值进行比较，来执行声音信号的振幅频谱与噪声模型的比较，从而根据声音信号的振幅频谱强度与阈值之差导出纠正系数。

此外，在步骤S6，声音信号纠正设备1利用导出的纠正系数平滑化声音信号的振幅频谱的波形；并在步骤S7，对相位频谱和平滑化后的振幅频谱进行逆FFT处理，从而将所述声音信号转换为振幅频谱被纠正的每个帧中的声音信号。在步骤S6中，平滑化振幅频谱在频率轴方向的变化和/或在时间轴方向的变化。

然后，在步骤S8，在控制装置10的控制下，声音信号纠正设备1对在步骤S7中已经转换的声音信号的输出执行语音识别处理。此外，在使用语声音谱进行语音识别处理的情况下，可从步骤S6的结果实现识别，而不需执行步骤S7。

下面，进一步详细描述参照图4描述的本发明的声音信号纠正设备1中步骤S4至S7的处理。图5为概念上示出本发明的声音信号纠正设备1中的纠正处理的示意图。这里，在图5中，n表示已进行FFT处理的声音信号的帧数，f表示频率。在本发明的声音信号纠正设备1中，将每个帧中的声音信号(包括诸如获取的噪声和语音等声音)用作输入信号in(n)，并通过FFT处理将其转换为相位频谱tan^-1IN(f)和振幅频谱|IN(f)|。然后，根据与声音信号的振幅频谱|IN(f)|具有高相似度的噪声模型，估算稳态噪声的振幅频谱|N(f)|；并根据估算的稳态噪声的振幅频谱|N(f)|与声音信号的振幅频谱|IN(f)|的比较结果导出纠正系数α。然后，利用导出的纠正系数α，平滑化声音信号的振幅频谱|IN(f)|的波形。接着，对利用纠正系数α已经平滑化的振幅频谱|IN(f)’|和相位频谱tan^-1IN(f)进行逆FFT(IFFT)处理，从而将其转换为每个帧中的输出信号out(n)。

图6A和图6B为示出与本发明的声音信号纠正设备1相关的声音信号的振幅频谱的坐标图。图6A示出振幅频谱|IN(f)|的频率值与振幅值之间的关系，图6B示出波形已被平滑化的振幅频谱|IN(f)|的频率值与振幅值之间的关系。图6A和图6B示出仅由噪声构成的声音信号的波形，并且通过将图6A所示的振幅频谱平滑化为图6B所示的振幅频谱，而将振幅频谱的波形纠正为高度非稳态噪声成分被抑制的稳态噪声的典型波形，也就是说，与噪声模型具有高相似度的波形。因此，在语音识别等之后的处理中易于去除稳态噪声，从而能够提高语音的识别率。

图7为示意性示出本发明的声音信号纠正设备1中的平滑化处理的控制流程图。图7示出用于在频率轴方向平滑化声音信号的振幅频谱|IN(f)|的处理，其等效于递归滤波器，可表示为下面的公式1。

|IN(f)’|n＝α|IN(f-1)’|n+(1-α)|IN(f)|n………………………………(公式1)

这里，|IN(f)’|n为平滑化后在第n个帧中于频率f处的振幅频谱，

|IN(f)|n为平滑化前在第n个帧中于频率f处的振幅频谱，

|IN(f-1)’|n为平滑化后在第n个帧中于频率f-处的振幅频谱，其中频率f-1与频率f相差预定频率间距，以及

α为纠正系数，其中0≤α≤1。

在公式1中，f-1为与频率f相差预定频率间距的频率，也就是说，在频率转换为离散值频率的振幅频谱中与频率f相邻的频率，并且预定频率间距、即频率f与频率f-1之差表示离散值频率间距。如图7和公式1所示，在本发明的声音信号纠正设备1中，在频率轴方向的平滑化通过重复如下处理而执行：在加法器1d中将频谱(1-α)|IN(f)|n与频谱α|IN(f-1)’|n相加，其中频谱(1-α)|IN(f)|n是通过在放大器1a中将声音信号的振幅频谱|IN(f)|n与1-α相乘而获得的，而频谱α|IN(f-1)’|n是通过在移位单元1b中将平滑化后于相邻频率f-1处的振幅频谱|IN(f-1)|n移动预定频率间距，然后在放大器1c中将获得的结果与α相乘而获得的。

如从图7和公式1清楚可知，当纠正系数α接近0时，平滑化后的振幅频谱|IN(f)’|n的波形接近平滑化前的振幅频谱|IN(f)|n的波形，并且在纠正系数α为0的情况下，平滑化后的振幅频谱|IN(f)’|n与平滑化前的振幅频谱|IN(f)|n一致。此外，当纠正系数α接近1时，平滑化后的振幅频谱|IN(f)’|n较平稳，并且在纠正系数α为1的情况下，平滑化后的振幅频谱|IN(f)’|n为恒定值，在频率轴方向没有变化。

图8为示意性示出本发明的声音信号纠正设备1中的平滑化处理的控制流程图。图8示出用于在时间轴方向平滑化声音信号的振幅谱|IN(f)的处理，其等效于递归滤波器，可表示为下面的公式2。

|IN(f)’|n＝α|IN(f)’|n-1+(1-α)|IN(f)|n………………………………(公式2)

|IN(f)|n为平滑化前在第n个帧中于频率f处的振幅频谱，

|IN(f)’|n-1为平滑化后在第(n-1)个帧中于频率f处的振幅频率，以及

α为纠正系数，其中0≤α≤1。

如图8和公式2所示，本发明的声音信号纠正设备1通过重复如下处理来执行在时间轴方向的平滑化：在加法器1d中将频谱(1-α)|IN(f)|n与频谱α|IN(f)’|n-1相加，其中频谱(1-α)|IN(f)|n是通过在放大器1a中将声音信号的第n个帧中的振幅频谱|IN(f)|n与1-α相乘而获得的，而频谱α|IN(f)’|n-1是通过在延迟单元1e中将平滑化后的第(n-1)个帧(即紧接在第n个帧之前的帧)中的振幅频谱|IN(f)’|n-1保持与帧间距相对应的预定时间，然后在放大器1c中将获得的结果与α相乘而获得的。

如从图8和公式2清楚可知，当纠正系数α接近0时，平滑化后的振幅频谱|IN(f)’|n的波形接近平滑化前的振幅频谱|IN(f)|n的波形，并且在纠正系数α为0的情况下，平滑化后的振幅频谱|IN(f)’|n与平滑化前的振幅频谱|IN(f)|n一致。此外，当纠正系数α接近1时，平滑化后的振幅频谱|IN(f)’|n较平稳，并且在纠正系数α为1的情况下，平滑化后的振幅频谱|IN(f)’|n为恒定值，在时间轴方向没有变化。

这里，所述帧是基于已经被划分为具有预定时间间距的多个段的声音信号而产生的，因此公式2等效于递归滤波器，可表示为下面的公式3。

|IN(f)’|t＝α|IN(f)’|t-1+(1-α)|IN(f)|t………………………………(公式3)

这里，|IN(f)’|t为平滑化后在时刻t于频率f处的振幅频谱，

|IN(f)|t为平滑化前在时刻t于频率f处的振幅频谱，

|IN(f)’|t-1为平滑化后在时刻t-1于频率f处的振幅频率，其中时刻t-1在时刻t之前并与时刻t相隔预定时间，以及

α为纠正系数，其中0≤α≤1。

图9为示出本发明的声音信号纠正设备1中的纠正系数导出过程的坐标图。图9示出频率f处的振幅频谱|IN(f)|的值(沿水平轴)与纠正系数α(沿垂直轴)之间的关系。此外，使用通过将常数x[dB]与频率f处的稳态噪声|N(f)|的值相加而获得的值作为用于导出纠正系数α的阈值。如图9所示，根据振幅频谱|IN(f)|与阈值|N(f)|+x[dB]之差来导出纠正系数α，其中所述阈值|N(f)|+x[dB]是基于与噪声模型相关的稳态噪声而确定的。具体来说，在振幅频谱|IN(f)|的值不小于阈值|N(f)|+x[dB]的情况下，纠正系数α为0；而在振幅频谱|IN(f)|的值小于阈值|N(f)|+x[dB]的情况下，随着振幅频谱|IN(f)|的值与阈值|N(f)|+x[dB]之差变大，纠正系数α也变大，也就是说，随着振幅频谱|IN(f)的值变小，纠正系数α逼进1、即最大值。这里，图9示出纠正系数α的最大值为α₀的设置实例。

由于使用通过将常数x[dB]与稳态噪声|N(f)|的值相加而获得的值作为阈值，而不使用稳态噪声N(f)|的值作为阈值，如图9所示，因此可以处理稳态噪声的频谱中的波动。

如上所述，在包括语音的振幅频谱(其强度不同于稳态噪声)的情况下，通过将纠正系数α减小可降低平滑化的程度，从而可以防止基于语音的峰被平滑化。此外，在包括基于稳态噪声的振幅频谱的许多成分的情况下，通过将纠正系数α增大可提高平滑化的程度，从而增加稳态噪声与噪声模型的相似度，因此可以容易地去除稳态噪声。

尽管示出了上述实施例作为通过FFT处理将声音信号转换为相位频谱和振幅频谱并平滑化获得的声音信号的振幅频谱的实施例，然而本发明不限于此，可以将本发明应用于多种处理，例如将从FFT处理产生的复数划分为实部和虚部，从而分别平滑化实部和虚部。

此外，尽管作为应用于语音识别设备中的实施例示出了上述实施例，然而本发明不限于此，并且可以通过多种形式发展本发明，例如将本发明应用于用于电话通信的语音发送器，从而抑制发送的声音信号中包含的稳态噪声。这里，在应用于电话通信的情况下，仅在语音发送器中执行平滑化，而可以在语音接收器一侧执行抑制稳态噪声的处理。

另外，尽管作为将本发明应用于语音识别处理中的实施例示出了上述实施例，然而可以通过多种实施例来发展本发明，例如将本发明应用于语音识别的噪声模型中的学习处理。

Claims

1.一种声音信号纠正方法，其中使用计算机作为声音信号纠正设备来纠正基于获取的声音的声音信号，所述声音信号纠正设备用于将声音信号转换为振幅频谱，并将所述振幅频谱与基于稳态噪声的振幅频谱的噪声模型进行比较，所述声音信号纠正设备包括用于语音识别的声音模型数据库，所述声音模型数据库用于记录与语音识别所需的用于匹配的信号图相关的声音模型和噪声模型，所述声音信号纠正方法包括以下步骤：

通过将声音信号的振幅频谱的强度与基于噪声模型确定的阈值进行比较，来执行所述声音信号的振幅频谱与噪声模型的比较，从而导出用于纠正所述声音信号的振幅频谱的纠正系数，其中所述振幅频谱的强度是峰值、峰的积分值、或峰的平方值中的一种；以及

利用导出的纠正系数来平滑化所述声音信号的振幅频谱的波形。

2.一种声音信号纠正设备，其中使用计算机作为声音信号纠正设备来纠正基于获取的声音的声音信号，所述声音信号纠正设备用于将声音信号转换为振幅频谱，并将所述振幅频谱与基于稳态噪声的振幅频谱的噪声模型进行比较，所述声音信号纠正设备包括用于语音识别的声音模型数据库，所述声音模型数据库用于记录与语音识别所需的用于匹配的信号图相关的声音模型和噪声模型，所述声音信号纠正设备还包括：

导出装置，通过将声音信号的振幅频谱的强度与基于噪声模型确定的阈值进行比较，来执行所述声音信号的振幅频谱与噪声模型的比较，从而导出用于纠正所述声音信号的振幅频谱的纠正系数，其中所述振幅频谱的强度是峰值、峰的积分值、或峰的平方值中的一种；以及

平滑化装置，利用导出的纠正系数来平滑化所述声音信号的振幅频谱的波形。

3.如权利要求2所述的声音信号纠正设备，其中，

所述导出装置根据所述声音信号的频谱强度与基于所述噪声模型确定的阈值之差导出所述纠正系数。

4.如权利要求2或3所述的声音信号纠正设备，其中，

所述平滑化装置平滑化所述声音信号的频谱在频率轴方向的变化。

5.如权利要求4所述的声音信号纠正设备，其中，

所述平滑化装置基于下面的公式(A)进行平滑化：

其中，|IN(f)’|为平滑化后在频率f处的频谱，

|IN(f)|为平滑化前在频率f处的频谱，

α为纠正系数，其中0≤α≤1。

6.如权利要求2或3所述的声音信号纠正设备，其中，

所述平滑化装置平滑化所述声音信号的频谱在时间轴方向的变化。

7.如权利要求6所述的声音信号纠正设备，其中，

所述平滑化装置基于下面的公式(B)进行平滑化：

其中，|IN(f)’|t为平滑化后在时刻t于频率f处的频谱，

|IN(f)|t为平滑化前在时刻t于频率f处的频谱，

α为纠正系数，其中0≤α≤1。

8.如权利要求2至3中任一项所述的声音信号纠正设备，还包括：

基于平滑化后的声音信号执行语音识别处理的装置。