CN101149928B

CN101149928B - 声音信号处理方法、声音信号处理设备及计算机程序

Info

Publication number: CN101149928B
Application number: CN2007100083451A
Authority: CN
Inventors: 伊藤太介; 早川昭二
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2006-09-20
Filing date: 2007-01-29
Publication date: 2010-06-02
Anticipated expiration: 2027-01-29
Also published as: KR20080026456A; US20080069364A1; JP4757158B2; JP2008076676A; KR100870889B1; DE102007001255A1; CN101149928A; DE102007001255B4

Abstract

本发明涉及一种声音信号处理方法、声音信号处理设备及计算机程序。其中，声音信号处理设备(1)根据所获取的声音数据产生帧(S3)，并按照逐帧基础将声音信号转换为频谱(S4)。然后，声音信号处理设备(1)基于该频谱计算频谱包络(S5)、从该频谱中去除该频谱包络(S6)、在通过该频谱包络的去除而获得的频谱中检测谱峰(S7)，以及抑制该检测到的谱峰(S8)。声音信号处理设备(1)从具有被抑制的谱峰的频谱中确定语音区间(S10)，并在被确定为语音区间的帧中基于具有该被抑制的谱峰的频谱执行语音识别处理(S11)。

Description

声音信号处理方法、声音信号处理设备及计算机程序

技术领域

本发明涉及通过将基于所获取声音的声音信号转换为频谱来执行信号处理的声音信号处理方法、采用该声音信号处理方法的声音信号处理设备、以及实现该声音信号处理设备的计算机程序，更具体地，涉及非稳态噪声的抑制，该非稳态噪声例如包括在从输入装置(例如麦克风)输入的声音中的装置电子声音以及紧急车辆的汽笛。

背景技术

例如，在安装在诸如汽车导航系统之类的装置中的语音识别功能中，能否精确地检测包括语音的语音区间(voice interval)对语音识别性能影响很大。例如，检测语音区间的主流方法包括：当能量等于或大于预定阈值时，将声音信号确定为语音来检测语音区间的方法，其中该能量被计算为沿频谱的时间轴方向的振幅的平方，该频谱通过例如FFT(快速傅立叶变换)变换方法转换声音信号而获得；在基音(pitch)存在时，提取称作基音的声音信号的周期并确定该声音信号为语音来检测语音区间的方法；以及这些方法的结合。

此处，对现有技术语音识别系统的语音识别处理进行说明。图1为示出现有技术语音识别处理的流程图。在步骤S101，语音识别系统用麦克风获取包括语音和噪声的声音，在步骤S102，在以预定时间间隔分段的逐帧基础上将基于所获取声音的声音信号转换为频谱，并从转换的频谱中提取诸如能量、基音、倒频谱等特征分量。

进而，在步骤S103，语音识别系统从作为所提取的特征分量的能量和基音中检测等于或大于语音区间检测阈值的帧，并确定是否该检测到的帧持续一定时段或更长，以从所获取声音中确定语音区间。

然后，在步骤S104，通过用声学模型和语言辞典校核被确定为语音区间的帧的特征分量，语音识别系统识别语音区间中的语音。

在如图1所示的语音识别处理中，电子声音，例如通过操作汽车导航系统的按钮而导致的声音，具有一定能量和基音。因此，当语音识别系统获得单独的电子声音时，存在倾向于将电子声音错误地确定为语音的问题。

因此，日本公开专利申请No.08-265457(1996)公开了一种利用在电子声音(音调信号(tone signal))中存在少量峰的特性并通过谱峰的检测来确定电子声音的方法。

此外，日本公开专利申请No.2003-58186公开了一种用于抑制紧急车辆的汽笛声的噪声抑制方法。

此外，日本公开专利申请No.2005-257805公开了一种不但抑制诸如电子声音、汽笛声之类的非稳态噪声而且抑制周期性噪声的方法。

然而，在日本公开专利申请No.08-265457(1996)公开的现有技术方法中，存在这样的问题：即在出现诸如车辆引擎声和空调声音之类的噪声的环境下，检测电子声音谱峰的精度降低。

此处，使用图2A和图2B来说明日本公开专利申请No.08-265457(1996)中存在的问题。图2A和图2B为示出频谱的图。图2A为示出在不存在由车辆引擎声导致的噪声的情况下频率与能量之间关系的图，图2B为示出在存在由引擎声导致的噪声的情况下频率与能量之间关系的图。如图2A所示，在不存在由引擎声导致的噪声的情况下，很清楚地出现两个具有窄波带宽度的尖峰，这两个尖峰均不低于由虚线表示的阈值并且可被高度精确地检测为由电子声音导致的噪声。然而，如图2B所示，在存在由车辆引擎声导致的噪声(如虚线所示)的情况下，在低频波带中出现由引擎声导致的具有宽波带宽度的平缓峰(moderate peak)，因此由电子声音导致的两个峰不清楚。所以，仅使用将阈值与能量进行简单比较的方法来检测峰的精度是很低的。

在日本公开专利申请No.2003-58186公开的方法中，需要提取汽笛声的基频(fundamental frequency)，并需要从过去的帧中计算平均频谱。因此，存在该方法只能抑制预先学习的周期性噪声的问题。

在日本公开专利申请No.2005-257805公开的方法中，存在这样的问题，即额外需要用于收集待被抑制的噪声的麦克风。

发明内容

本发明为解决上述问题而做出。本发明的目的是提供一种声音信号处理方法，该方法即使在诸如引擎声和空调声之类的稳态噪声存在的情况下，通过根据频谱计算频谱包络、从频谱中去除该频谱包络、基于通过去除该频谱包络而获得的频谱来检测谱峰、以及抑制谱峰，能够高度精确地检测和抑制诸如电子声音和汽笛声之类的非稳态噪声的峰，而不需要预先学习(priorlearning)或不需要用于收集噪声的麦克风。本发明还提供一种采用该声音信号处理方法的声音信号处理设备，以及用以实现该声音信号处理设备的计算机程序。

根据本发明第一方案提供一种声音信号处理方法，用于通过将基于所获取声音的声音信号转换为频谱来执行信号处理，其特征在于包括如下步骤：基于该频谱计算频谱包络；从该频谱中去除该频谱包络；从通过去除该频谱包络获得的频谱中检测谱峰；以及抑制所检测到的谱峰。

在如上所述的本发明中，通过在去除频谱包络之后检测谱峰，能够检测电子声音等的尖峰，而不会受到在低频波带中出现的引擎声、空调声等平缓峰的不利影响。因此，能够高度精确地检测峰并去除噪声。此外，不需要预先学习，也不需要用以收集噪声的麦克风。

根据本发明第二方案提供一种声音信号处理设备，用于通过将基于所获取声音的声音信号转换为频谱来执行信号处理，其特征在于，包括：包络计算装置，用于基于该频谱计算频谱包络；包络去除装置，用于从频谱中去除该频谱包络；检测装置，用于从通过去除该频谱包络获得的频谱中检测谱峰；以及抑制装置，用于抑制所检测到的谱峰。

在如上所述的本发明中，通过在去除频谱包络之后检测谱峰，能够检测电子声音等的尖峰，而不会受到在低频波带中出现的引擎声、空调声等平缓峰的不利影响。因此，能够高度精确地检测峰并去除噪声。此外，不需要预先学习，也不需要用于收集噪声的麦克风。

根据本发明第三方案提供一种基于第二方案的声音信号处理设备，其特征在于，所述包络计算装置根据利用第一变换来转换该声音信号而获得的频谱来计算倒频谱，并通过利用第二变换来转换比所计算的倒频谱的预定阶(order)低的低阶分量来计算频谱包络，其中所述第二变换是所述第一变换的逆变换。

在如上所述的本发明中，通过诸如FFT的第一变换以及诸如逆FFT的第二变换来计算表现频谱轮廓的频谱包络。

根据本发明第四方案提供一种基于第二方案或第三方案的声音信号处理设备，其特征在于，所述检测装置检测出一波带作为包括通过去除该频谱包络获得的频谱谱峰的波带，其中所检测出的波带表现大于预定阈值的值。

在如上所述的本发明中，通过与阈值进行比较能够检测谱峰。

根据本发明第五方案提供一种基于第二方案或第三方案的声音信号处理设备，其特征在于，所述检测装置检测出一波带作为包括通过去除该频谱包络获得的频谱谱峰的波带，其中所检测出的具有预定宽度的波带中各值的总值与除所述具有预定宽度的波带之外的所有波带中各值的总值之比所表现的值大于预定阈值。

在如上所述的本发明中，通过将所有波带中的谱能量进行比较，并从具有强能量的波带提取峰，而不是简单地从具有高谱峰的波带中提取峰，能够考虑到所有的波带来检测明显的峰。

根据本发明第六方案提供一种基于第二至第五方案中的任一方案的声音信号处理设备，其特征在于，所述抑制装置通过用基于阈值的值取代在包括所检测谱峰的波带的各频谱值中等于或大于阈值的那些值来抑制谱峰。

在如上所述的本发明中，通过用阈值来取代基于噪声(例如电子声音)的谱峰值，能够去除峰并抑制噪声。

根据本发明第七方案提供一种基于第二至第五方案中的任一方案的声音信号处理设备，其特征在于，所述抑制装置通过用基于频谱包络的值取代在包括所检测谱峰的波带的各频谱值中等于或大于该频谱包络的那些值来抑制谱峰。

在如上所述的本发明中，通过用基于频谱包络的值取代基于噪声(例如电子声音)的谱峰值，能够去除峰并抑制噪声。

根据本发明第八方案提供一种基于第二至第五方案中的任一方案的声音信号处理设备，其特征在于，所述抑制装置通过用比包括所检测到的谱峰的波带宽的波带中各值的总值取代包括所检测谱峰的波带的各频谱值来抑制谱峰。

在如上所述的本发明中，例如通过用谱峰周围具有几个100Hz宽度的波带中各值的总值或者平均值来取代基于噪声(例如电子声音)的谱峰值，能够去除峰并抑制噪声。

根据本发明第九方案提供一种基于第二至第八方案中的任一方案的声音信号处理设备，其特征在于，还包括基于具有被抑制的谱峰的声音信号来执行语音识别处理的装置。

在如上所述的本发明中，基于从其中去除了噪声(例如电子声音)的声音信号，能够高度精确的执行语音识别处理。

根据本发明第十方案提供一种计算机程序，用于使得计算机通过将基于所获取声音的声音信号转换为频谱来执行信号处理，其特征在于执行如下步骤：使该计算机基于该频谱计算频谱包络；使该计算机从频谱中去除该频谱包络；使该计算机从通过去除该频谱包络获得的频谱中检测谱峰；以及使该计算机抑制所检测到的谱峰。

在如上所述的本发明中，通过用计算机(例如导航装置)执行计算机程序，计算机起到声音信号检测设备的作用。通过在频谱包络去除之后检测谱峰，能够检测电子声音等的尖峰，而不会受到在低频波带中出现的引擎声、空调声等平缓峰的不利影响，因此能够高度精确的检测峰并去除噪声。此外，不需要预先学习，也不需要用以收集噪声的麦克风。

根据本发明的声音信号检测方法、声音信号检测装置以及计算机程序通过诸如FFT的处理将基于所获取声音的声音信号转换为频谱；基于频谱计算频谱包络；从频谱中去除频谱包络；从通过去除频谱包络而获得的频谱中检测谱峰；以及抑制所检测到的谱峰。

在这种结构中，由于在去除频谱包络之后检测谱峰，所以能够去除作为频谱轮廓的频谱包络，并使用频谱的精细结构来检测谱峰。因此，由于能够检测电子声音等的尖峰，而不会受到在低频波带中出现的引擎声、空调声等平缓峰的不利影响，因此本发明的有益效果在于能够高度精确地检测峰并去除噪声。此外，本发明的有益效果还在于不需要预先学习以及用于收集噪声的麦克风。

特别地，当将本发明应用于安装在车辆中的具有语音识别功能的汽车导航系统中时，由于即使在诸如车辆的引擎声和空调声之类的稳态噪声存在的情况下，也能够实现高度精确地检测和抑制诸如电子声音和汽笛声之类的非稳态噪声的谱峰，所以诸如电子声音和汽笛声之类的噪声决不会被误识别为语音。因此本发明能够产生提高识别语音的精度的有益效果。

从下面结合附图的详细描述中本发明的上述及其它目的和特点将更为清楚。

附图说明

图1为示出现有技术语音识别处理的流程图；

图2A和图2B为示出频谱的图；

图3为示出根据本发明第一实施例的声音信号处理设备的结构实例的框图；

图4为示出根据本发明第一实施例的声音信号处理设备进行信号处理实例的流程图；

图5为示出根据本发明第一实施例的声音信号处理设备的频谱的一个实例的示图；

图6A和图6B为示出根据本发明第一实施例的声音信号处理设备的声音信号的一个实例的波形图；

图7为示出根据本发明第二实施例的声音信号处理设备的频谱的一个实例的示图；以及

图8为示出根据本发明第三实施例的声音信号处理设备的频谱的一个实例的示图。

具体实施方式

根据示出本发明一些实施例的附图，下面的描述将更为详细地说明本发明。

第一实施例

图3是示出根据本发明第一实施例的声音信号处理设备的结构实例的框图。在图3中，1代表使用计算机的声音信号处理设备，例如安装在车辆中的导航装置，声音信号处理设备1至少包括：控制装置10(控制器)，例如CPU(中央处理单元)和DSP(数字信号处理器)，用于控制整个装置；记录装置11，例如硬盘和ROM，用于记录诸如程序和数据之类的各种信息；存储装置12，例如RAM，用于临时存储所产生的数据；声音获取装置13，例如麦克风，用于从外部获取声音；声音输出装置14，例如扬声器，用于输出声音；显示装置15，例如液晶监视器；以及导航装置16，用于执行有关导航的处理，例如指示到达目的地的路线。

本发明的计算机程序11a被记录在记录装置11中，通过将包含在所记录的计算机程序11a中的各种处理步骤存储到存储装置12中并在控制装置10的控制下执行这些步骤，计算机起到本发明的声音信号处理设备1的作用。

记录装置11的一部分记录区用作例如声学模型数据库(声学模型DB)11b和语言辞典11c的各种数据库，其中声学模型数据库11b记录用于语音识别的声学模型，语言辞典11c记录由对应于该声学模型的音素和音节定义所描述的可识别词汇和语法。

存储装置12的一部分用作声音数据缓冲器12a和帧缓冲器12b，其中声音数据缓冲器12a用于存储数字化声音数据，该数字化声音数据通过以预定周期采样由声音获取装置13获取的声音(其为模拟信号)而获得，帧缓冲器12b用于存储通过将声音数据分成预定的时间长度而获得的多个帧。

导航装置16包括诸如GPS(全球定位系统)之类的位置检测机构以及记录地图信息的诸如DVD和硬盘之类的记录介质。导航装置16执行例如查找从当前位置到目的地的路线并指示该路线的导航处理、在显示装置15上显示地图和路线、以及从声音输出装置14输出语音导向。

在图3中示出的结构实例仅仅是一个实例，本发明可以各种形式扩展。例如，可以将有关声音信号处理的功能部件构建成单个或多个VLSI芯片并将其包括在导航装置中，或者可以在外部安装专用于导航器上的声音信号信号处理设备。也可以将控制装置10既用于声音信号处理也用于导航处理，或者可以提供专用于每个处理的电路。此外，可以在控制装置10中并入协处理器，用于执行诸如有关声音信号处理的特定计算的处理，例如后面描述的FFT(快速傅立叶变换)和逆FFT。或者，可以将声音数据缓冲器12a构建成声音获取装置13的附属电路，以及将帧缓冲器12b构建在控制装置10的存储器上。本发明的声音信号处理设备1不局限于诸如导航装置之类的车载装置，可以使用在用于执行语音识别的各种应用的设备(例如电话机)中。

下面的描述将说明由根据本发明第一实施例的声音信号处理设备1执行的处理。图4为示出由根据本发明第一实施例的声音信号处理设备1所执行的处理的一个实例的流程图。在步骤S1，在执行计算机程序11a的控制装置10的控制下，声音信号处理设备1通过声音获取装置13获取外部声音，并在步骤S2将数字化声音数据存储在声音数据缓冲器12a中，其中该数字化声音数据通过以预定周期采样所获取的声音(其为模拟信号)而获得。在步骤S1中获取的外部声音包括诸如人声、稳态噪声和非稳态噪声等各种声音的叠加声音。人声是由声音信号处理设备1要识别的语音。稳态噪声是诸如车辆的引擎声和空调声之类的噪声。非稳态噪声是诸如在电子设备运行中产生的电子声音以及汽笛声之类的噪声。

在步骤S3，在控制装置10的控制下，声音信号处理设备1根据存储在声音数据缓冲器12a中的声音数据生成预定长度的帧。在步骤S3中，例如，按照20ms至30ms的预定长度将声音数据分成多个帧。各帧彼此重叠10ms至15ms。对于每个帧，执行语音识别领域的普通帧处理并利用高通滤波器进行滤波，其中所述帧处理包括诸如汉明窗(Hamming window)和汉宁窗(Hanning window)的窗口函数。对这样产生的每个帧执行下面的处理。

在步骤S4，在控制装置10的控制下，通过执行FFT处理，声音信号处理设备1将基于每个帧的声音数据的声音信号转换为频谱。在步骤S4中，声音信号处理设备1通过对振幅频谱X(ω)进行平方运算而得到能量频谱，并计算对数能量频谱20log₁₀|X(ω)|作为所得到的能量频谱的对数，其中振幅频谱X(ω)通过对声音信号执行FFT处理而获得。以这种方式，声音信号被转换为对数能量频谱。请注意，在步骤S4中，可以计算对数振幅频谱10log₁₀|X(ω)|作为通过对声音信号执行FFT处理而获得的振幅频谱X(ω)的对数，并将计算所得的对数振幅频谱用作转换后的频谱。

在步骤S5，在控制装置10的控制下，声音信号处理设备1将基于声音信号的傅立叶变换的频谱转换为倒频谱(cepstrum)，并通过对比转换的倒频谱的预定阶低的低阶分量执行逆FFT处理来计算频谱包络。

下面说明步骤S5中的处理。通过对声音信号执行FFT处理而获得的振幅频谱|X(ω)|用下面的公式1表示，分别用G(ω)和H(ω)表示高阶分量和低阶分量的FFT。

X(ω)＝G(ω)H(ω) 公式1

公式1的对数可用下面的公式2表示。

log₁₀|X(ω)|＝log₁₀|G(ω)|+log₁₀|H(ω)| 公式2

通过使用频率ω作为变量对公式2执行逆FFT来获得倒频谱c(τ)。公式2右侧的第一项表示精细结构，即频谱的高阶分量，公式2右侧的第二项表示频谱包络，即频谱的低阶分量。换句话说，在步骤S5中，通过对低于预定阶的低阶分量执行逆FFT来计算频谱包络，所述低阶分量例如为低于从FFT频谱计算所得的FFT倒频谱的第10阶或第20阶的分量。请注意，虽然存在使用LPC(线性预测编码)倒频谱的频谱包络方法，但是这种方法给出具有增强峰的包络，因此FFT倒频谱是优选的。

在步骤S6，在控制装置10的控制下，声音信号处理设备1从在步骤S4中得到的频谱中去除在步骤S5中计算所得的频谱包络。通过从步骤S4中得到的频谱的各频率值中减去频谱包络的各频率值来执行步骤S6中的去除操作。在步骤S6中，通过从频谱中去除频谱包络，频谱的倾斜被去除，并且频谱变得平滑，因此作为处理结果获得了频谱的精细结构。请注意，取代从频谱中去除频谱包络，可以通过对FFT倒频谱的高阶分量(例如不低于第11阶或第21阶的分量)执行逆FFT来计算频谱的精细结构，其中该高阶分量在计算频谱包络时未被使用。

在步骤S7，在控制装置10的控制下，声音信号处理设备1检测通过频谱包络的去除而获得的频谱中的谱峰，并在步骤S8抑制检测到的谱峰。

在步骤S7中，当检测谱峰时，检测一波带作为包括待被抑制的谱峰的波带，所检测的波带包括表现大于记录在记录装置11中的预定阈值的谱峰值的谱峰。或者，可检测包括从作为待被抑制谱峰的最大峰开始的n(n为自然数)个峰的波带。此外，可以检测包括从作为待被抑制谱峰的、表现大于预定阈值的值的谱峰中的最大值谱峰开始最多n个峰的波带。请注意，n的值适合为2至4左右。

作为步骤S8中抑制谱峰的方法，下面列出一些方法的实例。第一种抑制方法为：在包括被检测谱峰的波带中，将等于或高于阈值的能量值转换为阈值，即将对应于阈值和大于阈值的能量值从频谱中减去。不是必须将等于或高于阈值的值转换为阈值，可以将这些值转换为基于阈值的值，例如比阈值大预定值的值。

第二种抑制方法为：在包括被检测谱峰的外围波带中，例如谱峰周围具有几个100Hz宽度的波带中，将等于或高于频谱包络的能量值转换为相应的频谱包络的值。

第三种抑制方法为：将被检测谱峰与频谱包络相交处的点之间的波带(即在该波带中形成谱峰的能量值超过频谱包络，然后变得低于频谱包络)中的值转换为相应的频谱包络的值。

第四种抑制方法为：通过用例如比包括被检测谱峰的波带宽的波带(例如谱峰周围具有几个100Hz宽度的波带)中的各值的总值或者平均值来转换包括被检测谱峰的波带中的能量值，进行谱峰抑制。

在步骤S9，在控制装置10的控制下，声音信号处理设备1提取特征分量，例如沿频率轴方向通过使能量频谱与被抑制的谱峰结合而获得的能量、基音和倒频谱，以及在步骤S10基于所提取的谱能量和基音来确定语音区间。关于步骤10中语音区间的确定，将步骤9中计算的谱能量与记录在记录装置11中用于语音检测的阈值进行比较，如果区间中存在等于或大于阈值的谱能量并存在基音，则将该区间确定为语音区间。

然后，在步骤S11，在控制装置10的控制下，声音信号处理设备1基于特征矢量(即从通过抑制谱峰而获得的频谱中提取的特征分量)，参照记录在声学模型数据库11b中的声学模型以及记录在语言辞典11c中的可识别词汇和语法，来对被确定为语音区间的帧执行语音识别处理。步骤S11中的语音识别处理是通过计算关于声学模型的相似性以及参照有关可识别词汇的语言信息来进行的。

图5为示出根据本发明第一实施例的声音信号处理设备1的频谱的一个实例的示图。在图5中，用水平轴表示频率并用垂直轴表示频谱的能量，来示出它们之间的关系。图5中的实线代表能量频谱S1，长短交替的虚线示出基于能量频谱S1计算的频谱包络S2，以及点线示出通过从能量频谱S1中去除频谱包络S2而获得的频谱的精细结构S3。此外，如TL(阈值)所示的30dB被设为阈值。如图5所示，通过从能量频谱S1中去除频谱包络S2，从低频侧至高频侧的能量频谱S1的倾斜被去除，并且包括在频谱的精细结构S3中的三个谱峰是清楚的。在从精细结构S3中检测谱峰时，优选从检测目标中排除最低频(bottom frequency)和最高频(top frequency)处100Hz的波段，因为在数字信号处理期间受带通滤波器的影响、在低频波带中不存在电子声音、频谱包络S2的精度较低或其它原因。

图6A和图6B为示出根据本发明第一实施例的声音信号处理设备1的声音信号的一个实例的波形图。图6A示出划分为帧的声音信号随时间的振幅变化，图6B示出通过对图6A的声音信号的振幅进行平方运算而获得的能量概要。在图6B中，P1示出在去除频谱包络之前的能量概要，P2示出去除频谱包络之后的能量概要。如图6B所示，重叠在图6A中的由诸如引擎声之类的稳态噪声导致的平缓峰出现在P1的段R中，但是在P2中它们被去除。

因此，在本发明的第一实施例中，即使在诸如引擎声和空调声之类的具有平缓峰的稳态噪声环境下，通过去除稳态噪声能够检测由诸如电子声音和汽笛声之类的具有尖峰的非稳态噪声导致的峰，并能够抑制检测到的峰。因此能够防止将非稳态噪声误识别为语音。虽然语音(元音)频谱具有多个峰，但是由于这些峰与电子声音相比不明显，所以它们作为频谱包络被去除，因此元音的这些峰决不会被错误地抑制。

第二实施例

第二实施例是通过改变第一实施例的谱峰检测方法而构建的实施例。由于第二实施例的声音信号处理设备的结构实例与第一实施例相同，所以通过参考第一实施例而省略其说明。在下面的说明中，通过添加与第一实施例相同的标号来示出声音信号处理设备的结构。此外，由于通过第二实施例的声音信号处理设备1执行的处理与第一实施例相同，所以通过参考第一实施例而省略其说明。在下面的说明中，通过添加与第一实施例相同的步骤编号来说明由声音信号处理设备1执行的各处理。

图7为示出根据本发明第二实施例的声音信号处理设备1的频谱的一个实例的示图。在图7中，用水平轴表示频率并用垂直轴表示频谱能量，来示出它们之间的关系。图7中的实线代表能量频谱S1，长短交替的虚线示出基于能量频谱S1计算的频谱包络S2，以及点线示出通过从能量频谱S1中去除频谱包络S2而获得的频谱的精细结构S3。

作为从通过去除频谱包络而获得的频谱中检测谱峰的步骤S7的处理，第二实施例的声音信号处理设备1检测预定宽度波带中各值的总值与除预定宽度波带之外的所有波带中各值的总值之比所表现的值大于预定阈值的波带作为包括谱峰的波带。更具体地，检测频谱能量为最大值处的频率，并计算例如检测频率周围100Hz的预定宽度波带中能量总值或者例如能量平均值。在图7中，计算如f1所示的波带中的能量平均值P1。此外，计算除f1之外的所有波带中的例如能量总值或者能量平均值。在图7中，计算如f2所示的波带中的能量平均值P2。当代表P1和P2之比的值P1/P2大于预定阈值时，波带f1被检测为包括谱峰的波带。此外，对第二大频谱能量重复检测频率的过程，直到其比值大于阈值的至多预定数n的谱峰均被检测。诸如抑制检测到的谱峰的处理过程与第一实施例相同。

第三实施例

第三实施例是通过改变第一实施例的谱峰检测方法而构建的实施例。由于第三实施例的声音信号处理设备的结构实例与第一实施例相同，所以通过参考第一实施例而省略其说明。在下面的说明中，通过添加与第一实施例相同的标号来示出声音信号处理设备1的结构。此外，由于通过第三实施例的声音信号处理设备1执行的处理与第一实施例相同，所以通过参考第一实施例而省略其说明。在下面的说明中，通过添加与第一实施例相同的步骤编号来说明由声音信号处理设备1执行的各处理。

图8是示出根据本发明第三实施例的声音信号处理设备1的频谱的一个实例的示图。在图8中，用水平轴表示频率并用垂直轴表示频谱能量，来示出它们之间的关系。图8中的实线代表能量频谱S1，长短交替的虚线示出基于能量频谱S1计算的频谱包络S2，以及点线示出通过从能量频谱S1中去除频谱包络S2而获得的频谱的精细结构S3。

作为从通过去除频谱包络而获得的频谱中检测谱峰的步骤S7的处理，第三实施例的声音信号处理设备1检测第一波带作为包括谱峰的波带，其中具有第一预定宽度的该第一波带中各值的总值与邻近该第一波带且具有第二预定宽度的第二波带中各值的总值之比所表现的值大于预定阈值。更具体地，检测具有最大值频谱能量处的频率，并计算具有预定宽度(例如被检测频率周围100Hz)的波带中的能量总值或者例如能量平均值。在图8中，计算如f1所示的波带中的能量平均值P1。此外，分别计算f1前后150Hz的波带中的能量总值或者例如能量平均值。在图8中，计算如f2所示的波带中的能量平均值P2。当代表P1与P2之比的值P1/P2大于预定阈值时，波带f1被检测为包括谱峰的波带。此外，对第二大频谱能量重复检测频率的过程，直到其比值大于阈值的至多预定数n的谱峰均被检测。诸如抑制检测到的谱峰的处理过程与第一实施例相同。

在上面所述的第一实施例至第三实施例中，在去除非稳态噪声之后执行语音识别的各实施例被示作关于语音识别的发明，但是本发明不局限于这些实施例，并且可在与语音处理相关的各种领域中进行扩展。例如，当本发明被应用于电信以将基于通过接收器所获取声音的声音信号传输到正被呼叫的人时，通过本发明的处理方法能够在从声音信号中去除非稳态噪声之后，将声音信号传输到该人。

Claims

1.一种声音信号处理方法，用于通过将基于所获取声音的声音信号转换为频谱来执行信号处理，该方法包括如下步骤：

基于该频谱计算频谱包络；

从该频谱中去除该频谱包络；

从通过去除该频谱包络获得的频谱中检测谱峰；以及

抑制所检测到的谱峰。

2.一种声音信号处理设备，用于通过将基于所获取声音的声音信号转换为频谱来执行信号处理，该设备包括：

包络计算装置，用于基于该频谱计算频谱包络；

包络去除装置，用于从该频谱中去除该频谱包络；

检测装置，用于从通过去除该频谱包络获得的频谱中检测谱峰；以及

抑制装置，用于抑制所检测到的谱峰。

3.根据权利要求2所述的声音信号处理设备，其中所述包络计算装置根据利用第一变换转换该声音信号而获得的频谱来计算倒频谱，以及通过利用第二变换转换比所计算的倒频谱的预定阶低的低阶分量来计算频谱包络，其中所述第二变换是所述第一变换的逆变换。

4.根据权利要求2或3所述的声音信号处理设备，其中所述包络去除装置从该频谱的值中减去该频谱包络的值。

5.根据权利要求2或3所述的声音信号处理设备，其中所述检测装置检测出一波带作为包括通过去除该频谱包络获得的频谱的谱峰的波带，其中所检测出的波带表现大于预定阈值的值。

6.根据权利要求2或3所述的声音信号处理设备，其中所述检测装置检测出一波带作为包括通过去除该频谱包络获得的频谱的谱峰的波带，其中所检测出的具有预定宽度的波带中各值的总值与除所述具有预定宽度的波带之外的所有波带中各值的总值之比所表现的值大于预定阈值。

7.根据权利要求2或3所述的声音信号处理设备，其中所述检测装置检测出第一波带作为包括通过去除该频谱包络获得的频谱的谱峰的波带，其中具有第一预定宽度的第一波带中各值的总值与邻近所述第一波带并具有第二预定宽度的第二波带中各值的总值之比所表现的值大于预定阈值。

8.根据权利要求2或3所述的声音信号处理设备，其中所述检测装置检测包括一个谱峰直到至多预定数目的谱峰的波带。

9.根据权利要求2或3所述的声音信号处理设备，其中所述抑制装置通过用基于阈值的值取代在包括所检测谱峰的波带的各频谱值中等于或大于该阈值的值来抑制谱峰。

10.根据权利要求2或3所述的声音信号处理设备，其中所述抑制装置通过用基于频谱包络的值取代在包括所检测谱峰的波带的各频谱值中等于或大于该频谱包络的值来抑制谱峰。

11.根据权利要求2或3所述的声音信号处理设备，其中所述抑制装置通过用比包括所检测谱峰的波带宽的波带中各值的总值取代包括所检测谱峰的波带的各频谱值来抑制谱峰。

12.根据权利要求2或3所述的声音信号处理设备，还包括基于具有被抑制的谱峰的声音信号来执行语音识别处理的装置。