CN102804260A

CN102804260A - 声音信号处理装置以及声音信号处理方法

Info

Publication number: CN102804260A
Application number: CN200980159921XA
Authority: CN
Inventors: 大谷猛; 外川太郎; 铃木政直; 大田恭士
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2009-06-19
Filing date: 2009-06-19
Publication date: 2012-11-28
Anticipated expiration: 2029-06-19
Also published as: US8676571B2; US20120095755A1; EP2444966B1; EP2444966A1; JPWO2010146711A1; EP2444966A4; JP5293817B2; CN102804260B; WO2010146711A1

Abstract

一种声音信号处理装置，具有：对声音信号以帧为单位进行时间频率变换，由此来计算声音信号的频谱的时间频率变换部；根据第1帧的频谱、与第1帧之前的第2帧的频谱，来计算第1帧的频谱与第2帧间的频谱的变化量的谱变化量计算部；和根据该谱变化量，来判定第1帧的声音信号中包含的噪声的种类的判定部。

Description

声音信号处理装置以及声音信号处理方法

技术领域

本发明公开的实施方式涉及声音信号处理装置以及声音信号处理方法。

背景技术

近年来，在移动电话机等再生声音的装置中，为了提高再生音的音质，安装有用于抑制接收的声音信号中所包含的噪声的噪声抑制器。为了提高再生音的音质，期望噪声抑制器将讲话者的声音等本应要再生的声音信号与噪声准确地区别。

因此，已经开发出一种通过解析声音信号的频谱来辨别声音信号中所包含的音的种类的技术(例如，参照专利文献1～3)。

然而，难以检测出在背景中对话的多人的说话声被合成的噪声、即多路重合噪声(babble noise)。因此，在声音信号中包含多路重合噪声的情况下，存在噪声抑制器无法抑制多路重合噪声的情况。

因此，提出了一种将多路重合噪声与其他噪声分开检测的技术(例如，参照专利文献4)。

专利文献1：日本特开2004-240214号公报

专利文献2：日本特开2004-354589号公报

专利文献3：日本特开平9-90974号公报

专利文献4：日本特开平5-291971号公报

在检测多路重合噪声的公知的技术中，例如在输入的声音信号的频率分量满足下述的辨别条件的情况下，则判定为输入的声音信号中包含多路重合噪声。该辨别条件为1kHz以下的频率范围内所包含的低频带分量的功率高，高于1kHz的频率范围内所包含的高频带分量的功率不为0，且高频带分量的功率变动比与通常会话关联的比率高。

然而，从与多路重合噪声不同的音源产生的音有时会满足上述的辨别条件。例如，在存在如通过使用移动电话机的讲话人的背后的车辆那样，相对于收集声音信号的话筒相对地高速移动的音源的情况下，该音源产生的音的音量在短期间内大幅度地变动。因此，相对于话筒相对地高速移动的音源产生的声音、或者该音源产生的声音与讲话人的声音混合而成的声音会满足上述的辨别条件，存在误判定为多路重合噪声的可能性。

并且，若与多路重合噪声不同的声音被误判定为多路重合噪声，则由于噪声抑制器不能恰当地抑制噪声，因此存在再生音的音质降低的可能性。

发明内容

因此，本说明书的目的在于提供一种能够准确地辨别声音信号中是否包含多路重合噪声的声音信号处理装置以及声音信号处理方法。

根据一个实施方式，提供一种声音信号处理装置。该声音信号处理装置具有：时间频率变换部，其通过对声音信号以帧为单位进行时间频率变换，来计算声音信号的频谱；谱变化量计算部，其根据第1帧的频谱、与第1帧之前的第2帧的频谱，来计算第1帧的频谱与第2帧间的频谱的变化量；判定部，其根据该谱变化量来判定第1帧的声音信号中包含的噪声的种类。

根据其他实施方式，提供一种声音信号处理方法。该声音信号处理方法包括下述处理：通过对声音信号以帧为单位进行时间频率变换，来计算声音信号的频谱，并根据第1帧的频谱、与第1帧之前的第2帧的频谱来计算第1帧的频谱与第2帧间的频谱的变化量，还根据该谱变化量来判定第1帧的声音信号中包含的噪声的种类。

本发明的目的以及优点通过权利要求中特别指出的要素以及组合而实现，并且被达成。

上述的一般的记述以及下述的详细的记述均为例示性并且说明性的记述，应该理解其不是如权利要求那样对本发明进行限定的记述。

本说明书中公开的声音信号处理装置以及声音信号处理方法能够准确地辨别声音信号中是否包含多路重合噪声。

附图说明

图1是安装有第1实施方式的声音信号处理装置的电话机的概略结构图。

图2(a)是表示针对多路重合噪声的频谱的时间变化的一个例子的图，图2(b)是表示针对稳定噪声的频谱的时间变化的一个例子的图。

图3是表示第1实施方式的声音信号处理装置的概略结构图。

图4是表示针对输入的声音信号的噪声减少处理的动作流程的图。

图5是安装有第2～第4实施方式的声音信号处理装置的电话机的概略结构图。

图6是第2实施方式的声音信号处理装置的概略结构图。

图7是表示针对输入的声音信号的强调处理的动作流程的图。

图8是第3实施方式的声音信号处理装置的概略结构图。

图9是第4实施方式的声音信号处理装置的概略结构图。

具体实施方式

以下，参照附图对第1实施方式的声音信号处理装置进行说明。

该声音信号处理装置通过调查被输入的声音信号的频谱的波形的时间变化，来判定是否包含多路重合噪声。并且，该声音信号处理装置在判定为包含多路重合噪声的情况下，通过与声音信号中包含其他噪声的情况相比，降低声音信号中包含的噪声的功率，来实现再生音的音质提高。

图1是安装有第1实施方式的声音信号处理装置的电话机的概略结构图。如图1所示那样，电话机1具有呼叫控制部10、通信部11、话筒12、放大器13、17、编码部14、译码部15、声音信号处理装置16、扬声器18。

其中，呼叫控制部10、通信部11、编码部14、译码部15以及声音信号处理装置16分别形成为单独的电路。或者使这些各部作为一个集成有与该各部对应的电路的集成电路而被安装于电话机1。并且，这些各部还可以是通过在电话机1具有的处理器上执行的计算机程序而实现的功能模块。

当通过借助了电话机1具有的键盘等操作部(未图示)的用户操作而开始通话处理时，呼叫控制部10执行电话机1与交换机、或者SessionInitiation Protocol(SIP：会话启动协议)服务器之间的呼叫、应答、切断等呼叫控制处理。并且，呼叫控制部10响应该呼叫控制处理的结果，对通信部11指示动作的开始或者结束。

通信部11将由话筒12收音，并被编码部14编码后的声音信号变换成符合规定的通信标准的发送用信号。并且，通信部11将该发送用信号向通信线路输出。另外，通信部11从通信线路接收符合规定的通信形式的信号，并从该接收到的信号中取出被编码的声音信号。并且，通信部11将被编码的声音信号提供给译码部15。其中，规定的通信标准可设为例如网络协议(Internet Protocol，IP)，发送用信号以及接收信号可设为IP组包后的信号。

编码部14将由话筒12收音，由放大器13放大，并且由模拟-数字变换器(未图示)进行了模拟-数字变换后的声音信号编码。因此，编码部14可以使用例如，国际电信联盟电信标准化部门(InternationalTelecommunication Union Telecommunication Standardization Sector，ITU-T)的推荐G.711、G722.1，或者G.729A所规定的声音编码技术。

编码部14将编码后的声音信号提供给通信部11。

译码部15对从通信部11接收的被编码后的声音信号进行译码。并且，译码部15将译码后的声音信号向声音信号处理装置16传送。

声音信号处理装置16对从译码部15接收的声音信号进行解析，并对该声音信号中包含的噪声进行抑制。此外，声音信号处理装置16还判定从译码部15接收的声音信号中包含的噪声是否是多路重合噪声。并且，声音信号处理装置16根据声音信号中包含的噪声的种类而执行不同的噪声抑制处理。

声音信号处理装置16将被实施了噪声抑制处理后的声音信号向放大器17输出。

放大器17将从声音信号处理装置16接收的声音信号放大。并且，从放大器17输出的声音信号由数字-模拟变换器(未图示)进行数字-模拟变换。并且被模拟化的声音信号被输入到扬声器18。

扬声器18将从放大器17接收的声音信号再生。

这里，对多路重合噪声的特性与其他噪声、例如稳定噪声的特性的不同进行说明。

图2(a)是表示针对多路重合噪声的频谱的时间变化的一个例子的图，图2(b)表示针对稳定噪声的频谱的时间变化的一个例子的图。

在图2(a)以及图2(b)中，横轴表示频率，纵轴表示噪声的频谱的振幅的强度。另外，在图2(a)中，曲线201表示时刻t的多路重合噪声的频谱的波形的一个例子。另一方面，曲线202表示比时刻t早规定时间的时刻(t-1)的多路重合噪声的频谱的波形的一个例子。另外，在图2(b)中，曲线211表示时刻t的稳定噪声的频谱的波形的一个例子。另一方面，曲线212表示时刻(t-1)的稳定噪声的频谱的波形的一个例子。

多路重合噪声由于是多个人的声音合成而得，所以是基音频率(pitchfrequency)不同的多个声音信号重叠而成。因此，频谱在短期间内发生大幅变动。尤其，存在重叠的人的声音越多，频谱变化越大的趋势。因此，如图2(a)所示那样，时刻t的多路重合噪声的频谱的波形201与时刻(t-1)的多路重合噪声的频谱的波形202大不相同。

与此相对，稳定噪声的波形在短期间内几乎没有变动。因此，如图2(b)所示那样，时刻t的稳定噪声的频谱的波形211与时刻(t-1)的稳定噪声的频谱的波形212几乎相同。例如，即使产生噪声的音源与收音的话筒之间的距离在时刻t与时刻(t-1)之间发生了变化，尽管频谱的强度在整体上变强或变弱，但是稳定噪声的频谱的波形本身的变化很小。

因此，声音信号处理装置16通过调查输入的声音信号的频谱的波形的时间变化，能够判断输入的声音信号中包含的噪声是否是多路重合噪声。

图3表示声音信号处理装置16的概略结构图。如图3所示，声音信号处理装置16具有时间频率变换部161、功率谱计算部162、噪声估计部163、声音信号辨别部164、增益计算部165、滤波部166、频率时间变换部167。声音信号处理装置16具有的这些各部分别形成为单独的电路。或者，声音信号处理装置16具有的这些各部可以作为一个集成有与所述各部对应的电路的集成电路被安装于声音信号处理装置16。并且，声音信号处理装置16具有的这些各部还可以是利用在声音信号处理装置16具有的处理器上执行的计算机程序实现的功能模块。

时间频率变换部161通过以帧为单位对输入到声音信号处理装置16的声音信号进行时间频率变换，来将该输入声音信号变换成频谱。时间频率变换部161为了将输入声音信号变换成频谱，可以使用例如高速傅立叶变换、离散余弦变换、修正离散余弦变换等时间频率变换处理。其中，帧长例如可以设为200msec。

时间频率变换部161将频谱向功率谱计算部162输出。

功率谱计算部162每当从时间频率变换部161接收到频谱时，便计算该频谱的功率谱。

其中，功率谱计算部162根据下式来计算功率谱。

[数式1]

S(f)＝10log₁₀(|X(f)|²) (1)

这里，f为频率，函数X(f)是表示针对频率f的频谱的振幅的函数。此外，函数S(f)是表示针对频率f的功率谱的强度的函数。

功率谱计算部162将计算出的功率谱向噪声估计部163、声音信号辨别部164以及增益计算部165输出。

噪声估计部163每当接收到各帧的功率谱时，便根据该功率谱计算与声音信号中包含的噪声分量相当的估计噪声谱。一般而言，噪声的音源与对输入到电话机1的声音信号进行收音的话筒之间的距离比话筒与朝向该话筒讲话的讲话人之间的距离远。因此，噪声分量的功率比讲话人的声音的功率小。因此，噪声估计部163针对输入到电话机1的声音信号的各帧中的、功率谱较小的帧，按照将包含输入信号的频带分割成多个而得到的子频带的每个子频带来求出功率的平均值，由此计算估计噪声谱。其中，子频带的范围例如可以为将0Hz～8kHz的范围1024等分或者256等分而得到的范围。

具体而言，噪声估计部163按照帧的时间顺序，对最新的帧，根据下式计算包含输入到电话机1的声音信号的频带整体的功率谱的平均值p。

[数式2]

p = \frac{1}{M} Σ_{f = flow}^{fhigh} (S (f)) - - - (2)

这里M为子频带的数。另外，f_low表示最低的子频带，f_high表示最高的子频带。接下来，噪声估计部163对最新的帧的功率谱的平均值p、与相当于噪声分量的功率的上限的阈值Thr进行比较。其中，阈值Thr例如被设定为10dB～20dB的范围内的任意的值。并且，噪声估计部163在平均值p小于阈值Thr的情况下，通过对各子频带，按照下式将功率谱在时间方向进行平均，来计算针对最新的帧的估计噪声谱N_m(f)。

[数式3]

N_m(f)＝α·N_m-1(f)+(1-α)·S(f) (3)

其中，N_m-1(f)是针对最新的帧的前一个帧的估计噪声谱，从噪声估计部163具有的缓冲器被读入。另外，系数α例如被设定为0.9～0.99中的任意的值。另一方面，当平均值p在阈值Thr以上时，估计为最新的帧中包含噪声以外的分量，因此噪声估计部163不更新估计噪声谱。即，噪声估计部163设定N_m(f)＝N_m-1(f)。

另外，噪声估计部163还可以代替计算功率谱的平均值p，而求出全部的子频带的功率谱中的最大值，并将该最大值与阈值Thr进行比较。

噪声估计部163将估计噪声谱向增益计算部165输出。另外，噪声估计部163将针对最新的帧的估计噪声谱存储在噪声估计部163具有的缓冲器中。

声音信号辨别部164每当接收到各帧的功率谱时，便对包含在该帧中的噪声的种类进行辨别。因此，声音信号辨别部164具有谱归一化部171、波形变化量计算部172、缓冲器173、判定部174。

谱归一化部171将接收到的功率谱归一化。例如，谱归一化部171根据下式，计算归一化功率谱S′(f)，以使得与各子频带中的功率谱的平均值对应的归一化功率谱S′(f)的强度为1。

[数式4]

S^{'} (f) = \frac{S (f)}{\frac{1}{M} Σ_{f = flow}^{fhigh} (S (f))} - - - (4)

或者，谱归一化部171也可以根据下式，计算归一化功率谱S′(f)，以使得与各子频带中的功率谱的最大值对应的归一化功率谱S′(f)的强度为1。

[数式5]

S^{'} (f) = \frac{S (f)}{\max_{flow}^{fhigh} (S (f))} - - - (5)

其中，函数max(S(f))是输出针对包含在从子频带f_low到f_high的范围内的各子频带的功率谱的最大值的函数。

谱归一化部171将归一化功率谱向波形变化量计算部172输出。另外，谱归一化部171将归一化功率谱存储到缓冲器173。

波形变化量计算部172将归一化功率谱的波形的时间方向上的变化量作为波形变化量算出。如对图2(a)以及图2(b)说明的那样，多路重合噪声的频谱的波形与稳定噪声的频谱的波形相比，在短期间内变动。因此，该波形的变化量成为判别声音信号所包含的噪声的种类的有用信息。

因此，波形变化量计算部172当从谱归一化部171接收到最新的帧的归一化功率谱S′_m(f)时，从缓冲器173读出前一个帧的归一化功率谱S′_m-1(f)。并且，波形变化量计算部172根据下式，将各子频带中的两个归一化功率谱S′_m(f)、S′_m-1(f)间的差的绝对值的和，作为波形变化量Δ算出。

[数式6]

Δ = Σ_{f = flow}^{fhigh} | S_{m}^{'} (f) - S_{m - 1}^{'} (f) | - - - (6)

另外，波形变化量计算部172还可以将波形变化量Δ设为各子频带中的最新的帧的归一化功率谱、与最新的帧的两个以上的规定数量前的帧的归一化功率谱间的差的绝对值的和。其中，规定数量例如可以为2～5中的任意一个。通过如此设定用于计算波形变化量的两个帧间的时间间隔，得以容易地区分多个人的声音合成而得的多路重合噪声的波形变化量、与一个讲话人的声音的波形变化量。

另外，波形变化量计算部172还可以将波形变化量Δ设为各子频带中的两个归一化功率谱S′_m(f)、S′_m-1(f)间的差的平方和。

波形变化量计算部172将波形变化量Δ向判定部174输出。

缓冲器173将从最新的帧到规定数量前的帧为止的归一化功率谱存储。并且缓冲器173将与该规定数量相比成为过去的归一化功率谱删除。

判定部174判定针对最新的帧的声音信号中是否包含多路重合噪声。

如上述那样，如果在声音信号中包含多路重合噪声，则波形变化量Δ大，如果声音信号中不包含多路重合噪声，则波形变化量Δ小。

因此，判定部174在波形变化量Δ大于规定的阈值Thw时，判定为针对最新的帧的声音信号中包含多路重合噪声。另一方面，判定部174在波形变化量Δ在规定的阈值Thw以下时，判定为针对最新的帧的声音信号中不包含多路重合噪声。其中，优选规定的阈值Thw被设定为与一个人的声音相当的波形变化量。由于多路重合噪声的基音频率比一个人的声音的基音频率短，因此通过这样地设定阈值Thw，判定部174能够准确地检测多路重合噪声。另外，规定的阈值Thw还可以被设定为通过实验求得的最佳值。例如，规定的阈值Thw在波形变化量Δ为各频带中的两个归一化功率谱间的差的绝对值的和的情况下，可以设为2dB～3dB中的任意的值。另外，在波形变化量Δ为各频带中的两个归一化功率谱间的差的平方和的情况下，规定的阈值Thw可以设定为4dB～9dB中的任意的值。

判定部174将最新的帧的声音信号中包含的噪声的种类的辨别结果向增益计算部165通知。

增益计算部165根据基于声音信号辨别部164的声音信号中包含的噪声的种类的辨别结果以及估计噪声谱，来决定与功率谱进行乘法计算的增益。这里，与噪声分量相当的功率谱相对较小，与讲话人的声音相当的功率谱相对较大。

因此，在判定为最新的帧的声音信号中包含多路重合噪声的情况下，增益计算部165按照每个子频带，判定功率谱S(f)是否小于对噪声谱N(f)加上多路重合噪声用偏置值Bb而得到的值(N(f)+Bb)。并且，增益计算部165将S(f)比(N(f)+Bb)小的子频带的增益值G(f)设定为功率谱衰减的值，例如为16dB。另一方面，在S(f)为(N(f)+Bb)以上的情况下，增益计算部165按照使该子频带的频谱的衰减率变小的方式决定增益值G(f)。例如，增益计算部165在S(f)在(N(f)+Bb)以上的情况下，将增益值G(f)设定为0dB～1dB中的任意一个。

另外，在被判定为最新的帧的声音信号中不包含多路重合噪声的情况下，增益计算部165按照每个子频带，判定功率谱S(f)是否小于对噪声谱N(f)加上偏置值Bc而得到的值(N(f)+Bc)。并且，增益计算部165将S(f)小于(N(f)+Bb)的子频带的增益值G(f)设定为功率谱衰减的值，例如设定为10dB。另一方面，在S(f)为(N(f)+Bb)以上的情况下，增益计算部165按照使该子频带的频谱的衰减率变小的方式将增益值G(f)设定为例如0dB～1dB中的任意一个。

多路重合噪声由于在短期间内谱的波形大幅度变动，所以多路重合噪声的功率谱与估计噪声谱相比可取得相当大的值。另一方面，由于其他噪声在短期间内谱的波形不大幅度地变动，所以多路重合噪声以外的噪声的功率谱与估计噪声谱的差较小。因此，优选偏置值Bc被设定为比多路重合噪声用偏置值Bb小的值。例如，偏置值Bc被设定为6dB，多路重合噪声用偏置值Bb被设定为12dB。

另外，在背景中存在多路重合噪声的情况下，与存在其他噪声的情况相比难以听到讲话人的声音。因此，优选增益计算部165将被判定为最新的帧的声音信号中包含多路重合噪声的情况下的增益值设定为比被判定为最新的帧的声音信号中不包含多路重合噪声的情况下的增益值大的值。例如，被判定为最新的帧的声音信号中包含多路重合噪声的情况下的增益值被设定为16dB，被判定为最新的帧的声音信号中不包含多路重合噪声的情况下的增益值被设定为10dB。

或者，增益计算部165还可以利用日本特开2005-165021号公报中所公开的方法等其他的方法，将声音信号中包含的噪声分量与其他的分量区别，并根据各分量来按照每个子频带决定增益值。例如，增益计算部165根据最近的规定数的帧(例如，100帧)的功率谱中的上位10％左右的帧的功率谱的平均值以及方差，来估计不包含噪声的纯粹声音信号的功率谱的分布。并且增益计算部165按照每个子频带，以被估计为声音信号的功率谱的纯粹声音信号的功率谱的差越大，增益值也越大的方式来决定增益值，。

增益计算部165将按照每个子频带决定的增益值向滤波部166输出。

滤波部166每当从时间频率变换部161接收到输入的声音信号的频谱时，便使用由增益计算部165决定的增益值，按照每个频带来执行减少与噪声相当的频谱的滤波处理。

例如，滤波部166按照每个子频带，根据下式执行滤波处理。

[数式7]

Y(f)＝10^-G(f)/20·X(f) (7)

其中，X(f)为声音信号的频谱。另外，Y(f)为执行了滤波处理后的频谱。根据(7)式可知，增益值越大，Y(f)越衰减。

滤波部166将噪声被减少后的频谱向频率时间变化部167输出。

频率时间变换部167每当接收到由滤波部166减少了噪声后的频谱时，便通过对该频谱进行频率时间变换，来取得减少了噪声后的声音信号。其中，频率时间变换部167使用由时间频率变换部161使用过的时间频率变换处理的逆变换。

频率时间变换部167将噪声被减少后的声音信号向放大器17输出。

图4表示针对输入的声音信号的噪声减少处理的动作流程图。其中，声音信号处理装置16以帧为单位反复执行图4所示的噪声减少处理。此外在以下的流程图中例举的增益值为一个例子，还可以是对增益计算部165说明的那样的其他的值。

首先，时间频率变换部161通过以帧为单位对输入的声音信号进行时间频率变换，来将该输入声音信号变换成频谱(步骤S101)。时间频率变换部161将频谱向功率谱计算部162输出。

接下来，功率谱计算部162计算从时间频率变换部161接收到的频谱的功率谱S(f)(步骤S102)。并且功率谱计算部162将计算出的功率谱S(f)向噪声估计部163、声音信号辨别部164以及增益计算部165输出。

噪声估计部163通过对全部子频带的功率谱的平均值比阈值Thr小的帧的功率谱按照每个子频带，在时间方向进行平均，来计算估计噪声谱N(f)(步骤S103)。并且，噪声估计部163将估计噪声谱N(f)向增益计算部165输出。此外，噪声估计部163将针对最新的帧的估计噪声谱N(f)存储到噪声估计部163具有的缓冲器中。

另一方面，谱归一化部171将接收到的功率谱归一化(步骤S104)。并且，谱归一化部171将计算出的归一化功率谱S′(f)向波形变化量计算部172输出，并且存储到缓冲器173。

波形变化量计算部172计算波形变化量Δ，该波形变化量Δ表示最新的帧的归一化功率谱的波形、与从缓冲器173读入的最新的帧的规定数量前的帧的归一化功率谱的波形的差(步骤S105)。并且波形变化量计算部172将波形变化量Δ向判定部174输出。

判定部174判定波形变化量Δ是否比阈值Thw大(步骤S106)。在波形变化量Δ比规定的阈值Thw大的情况下(步骤S106-是)，判定部174判定为最新的帧的声音信号中包含多路重合噪声，并将该判断结果向增益计算部165通知(步骤S107)。另一方面，在波形变化量Δ为规定的阈值Thw以下的情况下(步骤S106-否)，判定部174判定为最新的帧的声音信号中不包含多路重合噪声，并将该判断结果向增益计算部165通知(步骤S108)。

在步骤S107后，增益计算部165判定功率谱S(f)是否比对噪声谱N(f)加上多路重合噪声用偏置值Bb而得到的值(N(f)+Bb)小(步骤S109)。在S(f)小于(N(f)+Bb)的情况下(步骤S109-是)，增益计算部165将增益值G(f)设定为16dB(步骤S110)。另一方面，在S(f)为(N(f)+Bb)以上的情况下(步骤S109-否)，增益计算部165将增益值G(f)设定为0(步骤S111)。

另一方面，在步骤S108后，增益计算部165判定功率谱S(f)是否比对噪声谱N(f)加上偏置值Bc而得到的值(N(f)+Bc)小(步骤S112)。在S(f)小于(N(f)+Bc)的情况下(步骤S112-是)，增益计算部165将增益值G(f)设定为10dB(步骤S113)。另一方面，在S(f)为(N(f)+Bc)以上的情况下(步骤S112-否)，增益计算部165将增益值G(f)设定为0(步骤S111)。

其中，增益计算部165将步骤S109～S113的处理按照每个子频带来执行。并且增益计算部165将增益值G(f)向滤波部166输出。

滤波部166针对各子频带，以增益值G(f)越大，则频谱越减少的方式来执行针对频谱的滤波处理(步骤S114)。并且，滤波部166将滤波处理后的频谱向频率时间变换部167输出。

频率时间变换部167通过对滤波处理后的频谱进行频率时间变换，将该频谱变换为输出声音信号(步骤S115)。并且频率时间变换部167将噪声被减少的输出声音信号向放大器17输出。

如以上说明的那样，第1实施方式的声音信号处理装置在输入的声音信号的归一化功率谱的波形在短期间内大幅度地变动的情况下，判定为该声音信号中包含多路重合噪声，由此能够准确地检测多路重合噪声。并且该声音信号处理装置在判定为包含多路重合噪声的情况下，与声音信号中包含其他噪声的情况相比减少声音信号的功率，由此能够提高再生音的音质。

接下来，对第2实施方式的声音信号处理装置进行说明。

该声音信号处理装置通过调查由话筒对安装有声音信号处理装置的电话机的周围的声音进行收音而得到的声音信号的频谱的波形的时间变化，判定电话机的周围的声音中是否包含多路重合噪声。并且该声音信号处理装置在判定为包含多路重合噪声的情况下，通过放大另外取得的要再生的声音信号的功率，使电话机的用户清楚地听到再生音。

图5是安装有第2实施方式的声音信号处理装置的电话机的概略结构图。如图5所示，电话机2具有呼叫控制部10、通信部11、话筒12、放大器13、17、编码部14、译码部15、声音信号处理装置21、扬声器18。其中，对图5所示的电话机2的各构成要素赋予了与图1所示的电话机1所对应的构成要素相同的参照编号。

电话机2与图1所示的电话机1的不同点在于，声音信号处理装置21具有的声音信号辨别部24判定由话筒12收音得到的声音中是否包含多路重合噪声，并根据该判断结果，放大声音信号处理装置21接收到的声音信号。因此以下针对声音信号处理装置21进行说明。关于电话机2的其他构成要素请参照上述图1所示的电话机1的说明。

图6表示声音信号处理装置21的概略结构图。如图6所示，声音信号处理装置21具有时间频率变换部22、26、功率谱计算部23、声音信号辨别部24、增益计算部25、滤波部27、频率时间变换部28。声音信号处理装置21具有的这些各部分别形成为单独的电路。或者声音信号处理装置21具有的这些各部还可以作为一个集成有与该各部对应的电路的集成电路而被安装于声音信号处理装置21。并且，声音信号处理装置21具有的这些各部还可以是通过在声音信号处理装置21具有的处理器上执行的计算机程序实现的功能模块。

时间频率变换部22对经由话筒12收音得到的、与电话机2的周围的声音对应的输入声音信号以帧为单位地进行时间频率变换，由此来将该输入声音信号变换成频谱。其中，时间频率变换部22可以与第1实施方式的声音信号处理装置16具有的时间频率变换部161同样地，使用高速傅立叶变换、离散余弦变换、修正离散余弦变换等时间频率变换处理。其中，帧长例如可以为200msec。

时间频率变换部22将输入声音信号的频谱向功率谱计算部23输出。

另外，时间频率变换部26对经由通信部11接收的声音信号以帧为单位进行时间频率变换，由此将该接收声音信号变换为频谱。时间频率变换部26将接收声音信号的频谱向滤波部27输出。

功率谱计算部23每当从时间频率变换部22接收到输入声音信号的频谱时，便计算该频谱的功率谱。功率谱计算部23可以使用上述的(1)式来计算功率谱。

功率谱计算部23将计算出的功率谱向声音信号辨别部24输出。

声音信号辨别部24每当接收到各帧的功率谱时，便对该帧的输入声音信号中包含的噪声的种类进行辨别。为此，声音信号辨别部24具有谱归一化部241、缓冲器242、权重决定部243、波形变化量计算部244、判定部245。

谱归一化部241对接收到的功率谱进行归一化。例如，谱归一化部241使用上述的(4)式或者(5)式对归一化功率谱S′(f)进行计算。

谱归一化部241将归一化功率谱向波形变化量计算部244输出。此外谱归一化部241还将归一化功率谱存储到缓冲器242。

缓冲器242每当从功率谱计算部23以帧为单位地接收到输入声音信号的功率谱时，便将该功率谱存储。另外，缓冲器242还将从谱归一化部241接收的归一化功率谱存储。

缓冲器242将从最新的帧到规定数量前的帧为止的功率谱以及归一化功率谱存储。并且缓冲器242将与该规定数量相比成为过去的功率谱以及归一化功率谱删除。

权重决定部243决定计算波形变化量时所使用的、针对各子频带的权重系数。该权重系数按照包含多路重合噪声分量的可能性越高的子频带，则针对该子频带设定地越大的方式被设定。例如，若输入声音信号中包含人的声音，则人发出声音时功率谱的强度急剧变大。另一方面，人的声音具有逐渐地变小这样的特性。因此，与之前的帧的功率谱相比，功率谱增大了规定的偏离值以上的子频带包含多路重合噪声分量的可能性较高。因此权重决定部243从缓冲器242读入最新的帧的功率谱S_m(f)、和前一个帧的功率谱S_m-1(f)。并且权重决定部243按照每个子频带对最新的帧的功率谱S_m(f)、与前一个帧的功率谱S_m-1(f)进行比较。并且，权重决定部243在从功率谱S_m(f)减去S_m-1(f)而得到的差比偏离值S_off大的情况下，将针对该子频带f的权重系数w(f)例如设定为1。另一方面，在从功率谱S_m(f)减去S_m-1(f)而得到的差在偏离值S_off以下的情况下，权重决定部243将针对该子频带f的权重系数w(f)例如设定为0。其中，偏离值S_off例如被设定为0～1dB中的任意一值。

或者权重决定部243还可以将各子频带的功率谱的平均值比规定的阈值大的帧的权重系数w(f)设定为比该平均值为规定的阈值以下的帧的权重系数大的值。例如，权重决定部243还可以按照下述方式决定权重系数w(f)。

[数式8]

这里，M为子频带的数。并且，f_low表示最低的子频带，f_high表示最高的子频带。另外，阈值Thr例如被设定为10dB～20dB的范围内的任意的值。

并且，各子频带的功率谱的平均值越大的帧，权重决定部243可以针对其设置越大的权重系数。

权重决定部243将针对各子频带求出的权重系数w(f)向波形变化计算部244输出。

波形变化量计算部244计算归一化功率谱的波形的时间方向上的变化量、即波形变化量。

在本实施方式中，波形变化量计算部244根据下式计算波形变化量Δ。

[数式9]

Δ = Σ_{f = flow}^{fhigh} w (f) \cdot | S_{m}^{'} (f) - S_{m - 1}^{'} (f) | - - - (9)

其中，与(6)式同样地，S′_m(f)为最新的帧的归一化功率谱，S′_m-1(f)为从缓冲器242读入的前一个帧的归一化功率谱S′_m-1(f)。

波形变化量计算部244可以将波形变化量Δ设为最新的帧的归一化功率谱、与最新的帧的2个以上的规定数量前的帧的归一化功率谱间的差的绝对值的总和。

或者波形变化量计算部244还可以将波形变化量Δ设为对各子频带中的两个归一化功率谱S′_m(f)、S′_m-1(f)间的差的平方乘以权重系数w(f)而得到的值的和。

波形变化量计算部244将波形变化量Δ向判定部245输出。

判定部245判定最新的帧的声音信号中是否包含多路重合噪声。

判定部245与第1实施方式的声音信号处理装置16具有的判定部174同样地，在波形变化量Δ大于规定的阈值Thw的情况下，判定为最新的帧的声音信号中包含多路重合噪声。另一方面，判定部245在波形变化量Δ为规定的阈值Thw以下的情况下，判定为最新的帧的声音信号中不包含多路重合噪声。

即使在该实施方式中，规定的阈值Thw例如也被设定为与一个人的声音的波形变化量相当的值，或者是通过实验求得的值。

判定部245将最新的帧的声音信号中包含的噪声的种类的辨别结果向增益计算部25通知。

增益计算部25基于声音信号辨别部24的噪声的种类的辨别结果，决定与功率谱相乘的增益。这里，当输入声音信号中包含多路重合噪声时，有可能电话机2的用户的周围嘈杂，难以收听到接收的声音信号。

因此，在被判定为最新的帧的声音信号中包含多路重合噪声的情况下，增益计算部25对全部的子频带一律按照使接收声音信号的频谱放大的方式来决定增益值G(f)的值。在判定为最新的帧的声音信号中包含多路重合噪声的情况下，增益计算部25例如将增益值G(f)设定为10dB。另一方面，在被判定为最新的帧的声音信号中不包含多路重合噪声的情况下，增益计算部25将增益值G(f)设定为0。

或者增益计算部25还可以利用其他方法来决定增益值。例如，增益计算部25还可以按照国际公开第2004/040555号小册子中公开的方法，按照强调从接收声音信号分离出的声道特性的方式，来决定增益值。该情况下，增益计算部25将接收声音信号分离成音源特性与声道特性。并且增益计算部25基于当前帧的自相关性与过去的帧的自相关性的加权平均来计算平均的声道特性。增益计算部25根据该平均的声道特性求出共振峰频率与共振峰振幅，并基于该共振峰频率以及共振峰振幅，通过使共振峰振幅变化来强调平均的声道特性。此时，增益计算部25在被判定为最新的帧的声音信号中包含多路重合噪声的情况下，将用于使共振峰振幅放大的增益值设定为比被判定为最新的帧的声音信号中不包含多路重合噪声的情况下的增益值大的值。

增益计算部25将增益值向滤波部27输出。

滤波部27每当从时间频率变换部161接收到经由通信部11接收的声音信号的频谱时，便使用由增益计算部25决定的增益值，按照每个子频带执行放大频谱的滤波处理。

例如，滤波部27按照每个子频带，并根据下式执行滤波处理。

[数式10]

Y(f)＝10^G(f)/20·X(f) (10)

其中，X(f)为接收声音信号的频谱。另外，Y(f)是滤波处理被执行后的频谱。根据(10)式可知，增益值越大，则Y(f)越大。

滤波部27将通过滤波处理强调的频谱向频率时间变化部28输出。

频率时间变换部28每当接收到由滤波部27进行了强调处理后的频谱时，便通过对该频谱进行频率时间变换，来取得被放大的声音信号。其中，频率时间变换部28利用由时间频率变换部26使用过的时间频率变换处理的逆变换。

频率时间变换部26将被放大的声音信号向放大器17输出。

图7表示针对经由通信部11接收的声音信号的强调处理的动作流程图。其中，声音信号处理装置21以帧为单位对由话筒12收音得到的输入声音信号反复执行图7所示的强调处理。此外，在以下的流程图中所举出的增益值是一个例子，还可以是其他值。

首先，时间频率变换部22以帧为单位对输入声音信号进行时间频率变换，由此将该输入声音信号变换成频谱(步骤S201)。时间频率变换部22将输入声音信号的频谱提供给功率谱计算部23。

接下来，功率谱计算部23计算从时间频率变换部22接收的输入声音信号的频谱的功率谱S(f)(步骤S202)。并且，功率谱计算部23将计算出的功率谱S(f)向声音信号辨别部24输出。并且声音信号辨别部24将接收到的功率谱S(f)提供给谱归一化部241，并且存储到缓冲器242。

声音信号辨别部24的谱归一化部241对接收到的功率谱进行归一化(步骤S203)。并且谱归一化部241将计算出的归一化功率谱S′(f)向声音信号辨别部24的波形变化量计算部244输出，并且存储到缓冲器242。

另外，声音信号辨别部24的权重决定部243从缓冲器242读入最新的帧的功率谱与前一个帧的功率谱。并且权重决定部243按照使针对最新的帧的谱与之前的帧的谱相比增大了规定的偏离值以上的子频带的权重系数变大的方式，来决定权重系数w(f)(步骤S204)。权重决定部243将权重系数w(f)向波形变化量计算部244输出。

波形变化量计算部244按照每个子频带，计算最新的帧的归一化功率谱的波形、与从缓冲器242读入的最新的帧的规定数量前的帧的归一化功率谱的波形的差的绝对值。并且波形变化量计算部244通过将对各子频带的波形的差的绝对值乘以权重系数w(f)而得的值合计，来计算波形变化量Δ(步骤S205)。并且波形变化量计算部244将波形变化量Δ提供给声音信号辨别部24的判定部245。

判定部245判定波形变化量Δ是否比阈值Thw大(步骤S206)。并且判定部245将该判断结果向增益计算部25通知。

在波形变化量Δ大于规定的阈值Thw的情况下(步骤S206-是)，由判定部245判定为包含多路重合噪声，因此增益计算部25将增益值G(f)设定为10dB(步骤S207)。另一方面，在波形变化量Δ为规定的阈值Thw以下的情况下(步骤S206-否)，由判定部245判定为不包含多路重合噪声，因此增益计算部25将增益值G(f)设定为0dB(步骤S208)。

在步骤S207或者S208后，增益计算部25将增益值G(f)向滤波部27输出。

另外，时间频率变换部26通过对接收声音信号以帧为单位进行时间频率变换，来将该接收声音信号变换成频谱(步骤S209)。时间频率变换部26将接收声音信号的频谱向滤波部27输出。

滤波部27针对各子频带，以增益值G(f)越大则频谱越大的方式，执行针对接收声音信号的频谱的滤波处理(步骤S210)。并且滤波部27将滤波处理后的频谱向频率时间变换部28输出。

频率时间变换部28通过对滤波处理后的接收声音信号的频谱进行频率时间变换，来将该频谱变换成输出声音信号(步骤S211)。并且频率时间变换部28将被放大的输出声音信号向放大器17输出。

如以上说明的那样，第2实施方式的声音信号处理装置在输入的声音信号的归一化功率谱的波形在短期间内大幅度地变动的情况下，判定为该声音信号中包含多路重合噪声，由此能够准确地检测多路重合噪声。并且，安装有该声音信号处理装置的电话机在被判定为包含多路重合噪声的情况下，通过放大接收声音信号，即使在电话机的周围嘈杂的情况下，也能够清楚地听到接收声音。

接下来，对第3实施方式的声音信号处理装置进行说明。

该声音信号处理装置与第2实施方式的声音信号处理装置同样地，调查由话筒对安装有声音信号处理装置的电话机的周围的声音进行收音而得到的声音信号的频谱的波形的时间变化。并且该声音信号处理装置在波形变化量越大时，越放大另外取得的要再生的声音信号的功率，由此来适当地调节再生音的音量。

安装有第3实施方式的声音信号处理装置的电话机具有与图5所示的第2实施方式的电话机2同样的构成。

图8表示第3实施方式的声音信号处理装置31的概略结构图。如图8所示，声音信号处理装置31具有时间频率变换部22、26、功率谱计算部23、声音信号辨别部24、增益计算部25、滤波部27、频率时间变换部28。其中，对图8所示的声音信号处理装置31的各构成要素赋予了与图6所示的声音信号处理装置21所对应的构成要素相同的参照编号。

声音信号处理装置31具有的这些各部分别形成为单独的电路。或者声音信号处理装置31具有的这些各部还可以作为一个集成有与该各部对应的电路的集成电路而安装于声音信号处理装置31。并且，声音信号处理装置31具有的这些各部还可以是通过在声音信号处理装置31具有的处理器上执行的计算机程序实现的功能模块。

如图8所示的声音信号处理装置31与第2实施方式的声音信号处理装置21的不同点在于，声音信号辨别部24不具有判定部245，将波形变化量向增益计算部25直接输出、以及增益计算部25基于波形变化量来决定增益。因此，以下，对增益值的计算进行说明。

增益计算部25若从声音信号辨别部24接收到波形变化量Δ，则根据表示波形变化量Δ与增益值G(f)的关系的增益决定函数，来决定增益值。增益决定函数是波形变化量Δ越大，则增益值G(f)也越大的函数。例如，增益决定函数可以是在波形变化量Δ被包含在从规定的下限值Thw_low至规定的上限值Thw_high为止的范围内的情况下，随着波形变化量Δ变大，增益值G(f)也线性递增的函数。另外，在该增益决定函数中，在波形变化量Δ在下限值Thw_low以下的情况下，增益值G(f)为0，在波形变化量Δ在上限值Thw_high以上的情况下，增益值G(f)成为最大增益值G_max。其中，下限值Thw_low对应于存在是多路重合噪声的可能性的波形变化量的最小值，例如被设定为3dB。此外，上限值Thw_high对应于因噪声以外的声音而导致的波形变化量、与因多路重合噪声而导致的波形变化量的中间值，例如被设定为6dB。此外，最大增益值G_max是将接收声音信号放大成即使有人在电话机2的周围会话，电话机2的用户也能够清楚地听到接收声音的程度的值，例如设定为10dB。

其中，增益决定函数还可以是非线性函数。例如，增益决定函数还可以是在波形变化量Δ被包含在从下限值Thw_low到上限值Thw_high的范围内的情况下，增益值G(f)与波形变化量Δ的平方或者与波形变化量Δ的对数呈正比例地增大的函数。

另外，增益计算部25将由增益决定函数决定的增益值仅适用于与人的声音对应的频带中，对于其他频带，可将增益值设为比由增益决定函数决定的增益值小的值，例如可设为0dB。由此，声音信号处理装置3可以选择性地仅对接收声音信号中的、与人的声音对应的频带的声音信号进行放大。特别是，通过增益计算部25选择性地放大人的声音中的高频带所对应的接收声音信号，用户能够清楚地收听到接收声音信号。此外，人的声音中的高频带例如为2kHz～4kHz。

如以上说明的那样，输入的声音信号的归一化功率谱的波形在短期间内越大幅度地变动，则第3实施方式的声音信号处理装置越使接收声音信号的功率增强。因此，该声音信号处理装置可以根据电话机的周围的多路重合噪声来适当地调节接收声音信号的音量。

接下来，对第4实施方式的声音信号处理装置进行说明。

该声音信号处理装置通过执行针对安装有声音信号处理装置的电话机的周围的噪声的主动噪声控制，使电话机的扬声器产生电话机周围的声音的反相声音，以消除电话机周围的噪声。并且该声音信号处理装置在生成反相声音时，根据是否含有多路重合噪声而使用不同的滤波器来生成反相声音。并且该声音信号处理装置通过使该反相声音与接收声音重叠来使扬声器对其再生，即使电话机周围的噪声为多路重合噪声，也会适当地抵消噪声。

安装有第4实施方式的声音信号处理装置的电话机具有与图5所示的第2实施方式的电话机2相同的构成。

图9是第4实施方式的声音信号处理装置41的概略结构图。如图9所示，声音信号处理装置41具有时间频率变换部22、功率谱计算部23、声音信号辨别部24、反相声音生成部29、滤波部30。其中，对图9所示的声音信号处理装置41的各构成要素赋予了与图6所示的声音信号处理装置21所对应的构成要素相同的参照编号。

声音信号处理装置41具有的这些各部分别形成为单独的电路。或者声音信号处理装置41具有的这些各部还可以作为一个集成有与该各部对应的电路的集成电路而被安装于声音信号处理装置41。并且，声音信号处理装置41具有的这些各部还可以是通过在声音信号处理装置41具有的处理器上执行的计算机程序实现的功能模块。

图9所示的声音信号处理装置41与第2实施方式的声音信号处理装置21的不同点在于，反相声音生成部29生成输入声音信号的反相声音，滤波部27将该反相声音重叠于接收声音信号。因此，以下，针对反相声音生成部29以及滤波部30进行说明。

反相声音生成部29生成针对输入声音信号的反相声音，该输入声音信号对应于经由话筒12收音而得的电话机2的周围的声音。例如，反相声音生成部29根据下式，通过进行针对输入声音信号x[n]的滤波处理，来生成反相声音d[n]。

[数式11]

其中，α[i]，β[i](i＝1、2、...、L)分别为有限脉冲应答(Finite impulseresponse，FIR)型的滤波器，其是考虑到针对输入声音信号的电话机2的信号传递特性而被预先作成的。此外L为抽头数，可设定为有限的正整数的任意一个。

这里，滤波器α[i]是在被判定为输入声音信号中包含多路重合噪声时所使用的滤波器，另一方面，滤波器β[i]是在被判定为输入声音信号中不包含多路重合噪声时所使用的滤波器。优选滤波器α[i]被设计成使得使用滤波器α[i]生成的反相声音d[n]的绝对值比使用滤波器β[i]生成的反相声音d[n]的绝对值小。若滤波器被设计成生成与输入声音信号x[n]的相位以及振幅完全反转的反相声音d[n]，则当输入声音信号急剧变化时，存在d[n]的振幅比x[n]的振幅大，该反相声音对用户而言成为异响的可能性。因此，反相声音生成部29针对声音的特性在短期间发生变动的多路重合噪声，通过使反相声音d[n]比使用滤波器β[i]生成的反相声音d[n]小，能够防止因反相声音而导致的异响的产生。其中，如果反相声音小，则有时多路重合噪声不会被完全抵消。然而，如果利用反相声音抵消即使一部分的多路重合噪声，用户也变得容易收听接收声音信号。

或者反相声音生成部29可以针对输入声音信号，求出如输出相位反转的信号那样的FIR型的自适应滤波器。该情况下，反相声音生成部29具有作为滤波器更新部的功能。并且反相声音生成部29通过使用求出的自适应滤波器对输入声音信号进行滤波处理，来生成反相声音。

反相声音生成部29可以根据最速下降法、或者Filtered-x LMS法，例如以使得由故障话筒等测量的误差信号最小的方式，求得FIR型自适应滤波器。

这里，在输入声音信号中包含多路重合噪声的情况下，如对图2(a)以及图2(b)说明的那样，输入声音信号的频谱的波形在短期间大幅度地变动。即，输入声音信号的强度、频率的高低等特性在短期间内变动。因此，优选反相声音生成部29在由声音信号辨别部24判定为输入声音信号中包含多路重合噪声的情况下，使FIR型自适应滤波器的抽头数比被判定为输入声音信号中不包含多路重合噪声的情况下的反相声音短。例如，将被判定为输入声音信号中包含多路重合噪声的情况下的FIR型自适应滤波器的抽头数设定为被判定为输入声音信号中不包含多路重合噪声的情况下的FIR型自适应滤波器的抽头数的一半。由此，反相声音生成部29在输入声音信号中包含多路重合噪声が的情况下，也能够作成适当的FIR型自适应滤波器。

反相声音生成部29将生成的反相声音向滤波部30输出。

滤波部30对接收声音信号重叠反相声音。并且滤波部30将重叠有反相声音的接收声音信号向放大器17输出。

如以上说明的那样，第4实施方式的声音信号处理装置调查由话筒对安装有声音信号处理装置的电话机的周围的声音进行收音而得到的输入声音信号的频谱的波形的时间变化，由此判定是否包含多路重合噪声。并且该声音信号处理装置使输入声音信号中包含多路重合噪声的情况下的反相声音的振幅比输入声音信号中不包含多路重合噪声的情况下的反相声音的振幅小。或者，该声音信号处理装置在输入声音信号中包含多路重合噪声的情况下，使用于生成反相声音的FIR型自适应滤波器的抽头数比输入声音信号中不包含多路重合噪声的情况下的短。由此，该声音信号处理装置在输入声音信号中包含多路重合噪声的情况下，也能够生成适当的反相声音。因此，对于安装有该声音信号处理装置的电话机而言，即使在该电话机的周围存在多路重合噪声，也能够适当地抵消噪声。

其中，本发明并不局限于上述的实施方式。例如，第4实施方式的声音信号处理装置还可以被安装于播放存储在记录介质中的声音信号数据的声音播放装置。该情况下，在声音信号处理装置中，代替接收声音信号，而输入根据存储在记录介质中的声音信号数据再生的声音信号。

另外，第1实施方式的声音信号处理装置可以具有与第2实施方式的声音信号处理装置具有的权重决定部同样的权重决定部。该情况下，作为第1实施方式的变形例的声音信号处理装置的波形变化量计算部根据(9)式来计算波形变化量。

并且，第1实施方式的声音信号处理装置的增益计算部还可以与第3实施方式的声音信号处理装置同样地，以随着波形变化量变大，增益值也变大的方式来决定增益值。该情况下，为了求出用于判定功率谱是否为噪声分量的基准值，被加到估计噪声谱的偏置值可以仅使用多路重合噪声用偏置值Bb或者偏置值Bc中的任意一方。

另外，上述的各实施方式的声音信号处理装置可以代替功率谱而将频谱自身归一化，并计算被归一化的频谱的两个帧间的波形变化量，由此来判定声音信号中包含的噪声的种类。该情况下，谱归一化部代替功率谱而将频谱输入上述的(4)式或者(5)式，由此来计算归一化后的频谱。另外，对功率谱规定的各阈值可被修改为对频谱规定的值。另外，功率谱计算部可被省略。

另外，上述的各实施方式的声音信号处理装置在输入的声音信号具有多个信道的情况下，可以按照各信道执行上述的噪声减少处理、接收声音放大处理或者噪声消除处理。

另外，包含实现上述的各实施方式的声音信号处理装置具有的各部的功能的功能模块的计算机程序可以以被保存在磁记录介质、光学记录介质等记录介质中的形式来发布。

这里列举的所有的例子和特定的用语在启示的目的下希望有助于读者理解针对本发明以及该技术的普及的、由本发明者提供的概念，应该被认为不对与表示本发明的优点以及缺点有关的、本说明书的所有例子的构成、上述特定的被列举的例子以及条件进行限定。本发明的实施方式虽然被详细进行了说明，但是应该理解在不脱离本发明的精神和范围的情况下，能够对它们进行各种变更、替换和修改。

图中符号说明：

1、2...电话机；10...呼叫控制部；11...通信部；12...话筒；13、17...放大器；14...编码部；15...译码部；16、21、31、41...声音信号处理装置；18...扬声器；161、22、26...时间频率变换部；162、23...功率谱计算部；163...噪声估计部；164、24...声音信号辨别部；165、25...增益计算部；166、27、30...滤波部；167、28...频率时间变换部；29...反相声音生成部；171、241...谱归一化部；173、242...缓冲器；243...权重决定部；172、244...波形变化量计算部；174、245...判定部。

Claims

1.一种声音信号处理装置，其特征在于，具有：

时间频率变换部，其对声音信号以帧为单位进行时间频率变换，由此来计算该声音信号的频谱；

谱变化量计算部，其根据第1帧的频谱、和所述第1帧之前的第2帧的频谱，计算所述第1帧的频谱与所述第2帧间的频谱的变化量；和

判定部，其根据所述谱变化量来判定所述第1帧的声音信号中包含的噪声的种类。

2.根据权利要求1所述的声音信号处理装置，其特征在于，

还具有谱归一化部，该谱归一化部根据各帧的所述频谱来计算归一化谱，该归一化谱是被归一化为所述频谱的振幅的最大值或者平均值成为规定值的频谱，

所述谱变化量计算部根据所述第1帧的归一化谱和所述第2帧的归一化谱，来计算所述频谱的变化量。

3.根据权利要求1或者2所述的声音信号处理装置，其特征在于，

所述谱变化量计算部按照对频带进行分割而得到的多个子频带的每个子频带来计算所述频谱的变化量。

4.根据权利要求3所述的声音信号处理装置，其特征在于，

所述谱变化量计算部根据各子频带的所述第1帧的归一化谱与所述第2帧的归一化谱之间的差的绝对值的合计值，来计算所述频谱的变化量。

5.根据权利要求4所述的声音信号处理装置，其特征在于，

还具有权重决定部，在对频带进行分割而得到的多个子频带中，该权重决定部将所述第1帧的频谱的振幅比所述第2帧的频谱的振幅大的子频带的权重系数设定为大于所述第1帧的频谱的振幅在所述第2帧的频谱的振幅以下的子频带的权重系数，

所述波形变化量计算部按照每个所述子频带，对所述权重系数乘以对应的所述差的绝对值而得到的值进行合计，由此来计算所述波形变化量。

6.根据权利要求4所述的声音信号处理装置，其特征在于，

还具有权重决定部，在所述第1帧的频谱的振幅的平均值比第1值大的情况下，该权重决定部将各所述子频带的权重系数设定为大于所述第1帧的频谱的振幅的平均值在第2值以下的情况下的各所述子频带的权重系数，其中，所述第2值比所述第1值小，

7.根据权利要求1至6中的任意一项所述的声音信号处理装置，其特征在于，

在所述波形变化量比与一个人的声音的波形变化量相当的阈值大的情况下，所述判定部判定为所述第1帧的声音信号中包含的噪声的种类是多个人的声音合成而得的噪声。

8.根据权利要求1至7中任意一项所述的声音信号处理装置，其特征在于，

该声音信号处理装置还具有：

噪声估计部，其估计所述声音信号中包含的噪声分量的功率谱；

增益计算部，其根据噪声分量的功率谱与所述频谱的功率谱来计算增益；

滤波部，其通过对所述频谱乘以所述增益来计算噪声减少谱；和

频率时间变换部，其将所述噪声减少谱变换成时间信号，由此来计算输出信号，

所述增益计算部使由所述判定部判定为所述第1帧的声音信号中包含的噪声的种类是多个人的声音合成而得的噪声的情况下的增益大于由所述判定部判定为所述第1帧的声音信号中包含的噪声的种类不是多个人的声音合成而得的噪声的情况下的增益。

9.根据权利要求1至7中任意一项所述的声音信号处理装置，其特征在于，

该声音信号处理装置还具有：

增益计算部，其根据所述频谱的功率谱与噪声分量的功率谱之间的差、和规定的阈值的比较来计算增益；

所述增益计算部使被判定为所述第1帧的声音信号中包含的噪声的种类是多个人的声音合成而得的噪声的情况下的所述阈值大于被判定为所述第1帧的声音信号中包含的噪声的种类不是多个人的声音合成而得的噪声的情况下的所述阈值。

10.根据权利要求1至7中任意一项所述的声音信号处理装置，其特征在于，

该声音信号处理装置还具有：

第2时间频率变换部，其以帧为单位对第2声音信号进行时间频率变换，由此来计算该第2声音信号的频谱；

增益计算部，其基于噪声的判定结果，计算对输入信号进行放大的每一个频带的增益；

滤波部，其对第2声音信号的频谱乘以每个频带的增益，由此计算强调谱；和

频率时间变换部，其将所述强调谱变换成时间信号，由此计算输出信号，

所述增益计算部将由所述判定部判定为所述第1帧的声音信号中包含的噪声的种类是多个人的声音合成而得的噪声的情况下的增益设定为大于由所述判定部判定为所述第1帧的声音信号中含有的噪声的种类不是多个人的声音合成而得的噪声的情况下的增益。

11.根据权利要求1至7中任意一项所述的声音信号处理装置，其特征在于，

该声音信号处理装置还具有：

反相声音生成部，其使用预先设定的滤波器对所述声音信号进行卷积处理，由此生成所述声音信号的反相声音；和

滤波部，其将所述反相声音重叠于第2声音信号，

所述反相声音生成部保持预先设定的多个滤波器，在由所述判定部判定为所述第1帧的声音信号中包含的噪声的种类是多个人的声音合成而得的噪声的情况下、和除此之外的情况下，对滤波器进行切换来使用。

12.根据权利要求1至7中任意一项所述的声音信号处理装置，其特征在于，

该声音信号处理装置还具有：

反相声音生成部，其使用滤波器对所述声音信号进行卷积处理，由此生成所述声音信号的反相声音；

滤波器更新部，其基于误差信号对所述滤波器进行更新；和

滤波部，其将所述反相声音重叠于第2声音信号，

所述反相声音生成部保持多个滤波器，在由所述判定部判定为所述第1帧的声音信号中包含的噪声的种类是多个人的声音合成而得的噪声的情况下、和除此之外的情况下，对所述滤波器进行切换来使用，

所述滤波器更新部对所述反相声音生成部所使用的滤波器进行更新。

13.根据权利要求1所述的声音信号处理装置，其特征在于，还具有：

增益计算部，所述波形变化量越大，该增益计算部将增益设定得越大；和

滤波部，其执行滤波处理，即所述增益越大，则使与所述声音信号分别输入的第2声音信号越大。

14.一种声音信号处理方法，其特征在于，

以帧为单位对声音信号进行时间频率变换，由此来计算该声音信号的频谱，

根据第1帧的频谱和所述第1帧之前的第2帧的频谱，来计算所述第1帧的频谱与所述第2帧间的频谱的变化量，

根据所述谱变化量来判定所述第1帧的声音信号中包含的噪声的种类。

15.根据权利要求14所述的声音信号处理方法，其特征在于，

还包括根据各帧的所述频谱来计算归一化谱，该归一化谱是被归一化为所述频谱的振幅的最大值或者平均值成为规定值的频谱，

计算所述频谱的变化量是指，根据所述第1帧的归一化谱和所述第2帧的归一化谱来计算所述频谱的变化量。