CN102792373B

CN102792373B - 噪音抑制装置

Info

Publication number: CN102792373B
Application number: CN201080065245.2A
Authority: CN
Inventors: 古田训; 田崎裕久
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2010-03-09
Filing date: 2010-03-09
Publication date: 2014-05-07
Anticipated expiration: 2030-03-09
Also published as: EP2546831A4; WO2011111091A1; JPWO2011111091A1; JP5528538B2; US8989403B2; EP2546831B1; EP2546831A1; CN102792373A; US20130003987A1

Abstract

频带分离部（5）对时间/频率变换部（2）所变换的多个功率谱进行频带分割而汇总到子带，频带代表分量生成部（6）将子带内的多个功率谱中的具有最大值的功率谱设为代表功率谱。噪音抑制量生成部（7）使用代表功率谱和噪音谱来计算子带的噪音抑制量，噪音抑制部（9）根据噪音抑制量来抑制功率谱的振幅。

Description

噪音抑制装置

技术领域

本发明涉及一种对重叠于声音信号的噪音进行抑制的噪音抑制装置。

背景技术

噪音抑制装置主要输入在声音信号中重叠了噪音的时域的信号而作为输入信号，将该输入信号变换为作为频域的信号的功率谱之后，从输入信号的功率谱推定噪音的平均的功率谱，并从输入信号的功率谱减去所推定的噪音的功率谱而得到进行了噪音抑制的输入信号的功率谱，将其恢复为原来的时域的信号，从而进行噪音抑制处理。

作为这种以往的噪音抑制装置，例如公开了专利文献1。在专利文献1公开的噪音抑制装置中，以非专利文献1公开的技术为基础，在噪音谱推定和抑制量的计算时求出输入信号的多个功率谱分量的平均值，从得到的一个平均值进行噪音谱推定和抑制量计算，并将它们共同地应用于多个功率谱分量中。

专利文献1：日本专利4172530号公报（第8~12页、图2）

非专利文献1：Y．Ephraim，D．Malah，“Speech EnhancementUsing a Minimum Mean-Square Error Short-Time SpectralAmplitude Estimator”，IEEE Trans．ASSP，Vol.32，No.6，pp.1109-1121，Dec.1984

发明内容

以往的噪音抑制装置如以上那样构成，因此存在下面所述的课题。

在以往的噪音抑制装置中，在用于噪音抑制的抑制量计算中，需要对输入信号的每个功率谱分量进行贝塞尔函数等复杂的计算，处理量非常大。因此在专利文献1公开的以往的噪音抑制装置中，通过将多个谱分量进行汇总而平均化，并将平均化的谱分量作为各谱分量的代表谱分量进行计算，从而进行处理量的削减。然而，在该方法中，即使谱分量中存在振幅大的分量（即，认为是声音分量），通过进行平均化，声音分量会被处理得过小，其结果，声音信号被抑制而使声音的湮灭感增大，具有音质变差的课题。

本发明是为了解决上述课题而作出的，其目的在于提供一种能够以少的处理量进行高品质的噪音抑制的噪音抑制装置。

本发明的噪音抑制装置具备代表分量生成部，该代表分量生成部将时间/频率变换部所变换的多个功率谱汇总到1组，优先选择该组内的多个功率谱中的值大的功率谱而设为代表功率谱，噪音抑制量生成部使用代表功率谱来计算噪音抑制量。

根据本发明，使用代表功率谱来计算噪音抑制量，因此处理量较少也可以，并且，在该代表功率谱中使用组内的值大的功率谱，因此在噪音抑制量计算时输入信号的声音分量不会被评价得过小，其结果不会抑制声音信号而能够进行高品质的噪音抑制。

附图说明

图1是表示与本发明的实施方式1有关的噪音抑制装置的结构的框图。

图2是表示频带分离部的功率谱的频带分割的一个例子的图。

图3示意性地示出频带代表分量生成部的处理效果，图3的（a）是输入信号的功率谱的图，图3的（b）是以子带（Subband）内的功率谱的平均值为代表的情况（以往方法），图3的（c）是以子带内的功率谱的最大值为代表的情况（本发明）。

图4是表示噪音抑制量生成部的详细结构的框图。

具体实施方式

下面，为了更详细地说明本发明，根据附图说明用于实施本发明的方式。

实施方式1.

图1所示的噪音抑制装置具备：输入端子1、时间/频率变换部2、声音相似度推定部3、噪音谱推定部4、频带分离部5、频带代表分量生成部（代表分量生成部）6、噪音抑制量生成部7、频带复用部8、噪音抑制部9、频率/时间变换部10、以及输出端子11。

作为该噪音抑制装置的输入，使用如下信号，即，该信号是对通过麦克风（未图示）等取入的声音以及音乐等进行A/D（模拟/数字）变换之后以规定的采样频率（例如，8kHz）进行采样、并且分割为帧单位（例如，10ms）的信号。

下面，根据图1说明与实施方式1有关的噪音抑制装置的动作原理。

输入端子1接受如上所述的信号，并作为输入信号y（t）而输出到时间/频率变换部2。

时间/频率变换部2对分割为帧单位的输入信号y（t）进行加窗处理，并对于该加窗后的信号y（n，t），使用例如256点的FFT（FastFourier Transform：快速傅立叶变换）将时间轴上的信号变换为频率上的信号（谱），计算出输入信号的功率谱Y（n，k）和相位谱P（n，k）。这里，n表示帧编号，k表示谱编号，t表示离散时间编号。以下，只要不需要特别地表示，就指当前帧的输入信号，在该信号表示谱的情况下省略帧编号。

所得到的功率谱分别输出到声音相似度推定部3、噪音谱推定部4、频带分离部5以及噪音抑制部9。另外，所得到的相位谱输出到频率/时间变换部10。此外，作为加窗处理，例如能够使用汉宁窗、梯形窗等的公知的方案。另外，时间/频率变换部2在进行加窗处理时，根据需要还实施零填充处理。FFT是公知的方案，因此省略说明。

声音相似度推定部3使用从时间/频率变换部2输入的输入信号的功率谱，计算出声音相似度评价值来作为当前帧的输入信号的形态“是否像声音”的程度，其中，所述声音相似度评价值例如是在声音的可能性高的情况下取大的值、在声音的可能性低的情况下取小的值这样的声音相似度评价值。

作为声音相似度评价值的计算方法，能够分别单独或者组合使用例如通过对输入信号的功率谱进行傅立叶变换而得到的自相关系数的最大值、从功率谱的总和得到的输入信号能量、输入信号的全频带SN比（信噪比）、以及表示功率谱的变动状态的谱熵等公知的方案。在此为了简化说明，只示出单独使用了能够通过当前帧的输入信号的功率谱来计算的自相关系数的最大值的情况。自相关系数c（τ）能够如下式（1）那样求出。

c(τ)=F [Y(n,k)]（1）

这里，τ表示延迟（延迟时间），F[]表示傅立叶变换。在该傅立叶变换中，能够与在时间/频率变换部2中所使用的FFT相同地使用例如256点的FFT。上式（1）的自相关系数的计算方法是公知的方案，因此省略说明。

声音相似度推定部3接下来通过将所得到的自相关系数c（τ）除以c（0）而在0~1的范围内进行标准化，例如在存在声音的基频的可能性高的16<τ<120的范围内搜寻自相关系数的最大值，并将所得到的最大值作为声音相似度评价值VAD而输出到噪音谱推定部4。

噪音谱推定部4使用输入信号的功率谱Y（k）和声音相似度评价值VAD来推定包含在输入信号中的平均的噪音谱。具体地说，噪音谱推定部4参照作为声音相似度推定部3的输出的声音相似度评价值VAD，在当前帧的输入信号的形态为噪音的可能性高的情况下（即，是声音的可能性低的情况下），使用当前帧的输入信号的功率谱Y（n，k），来更新噪音谱推定部4所存储的前1帧的噪音谱N（n-1，k），并将更新了的噪音谱输出到噪音抑制量生成部7。

噪音谱推定部4例如按照下式（2），在声音相似度评价值VAD为规定的阈值（例如0.2）以下的情况下，将输入信号的功率谱反映到噪音谱，从而实施噪音谱的更新。在声音相似度评价值VAD超过阈值0.2的情况下，认为当前帧的输入信号是声音的可能性高，因此不进行噪音谱的更新，而将前1帧的噪音谱原样地用作当前帧的噪音谱。

\{\begin{matrix} \tilde{N} (n, k) = (1 - α (k)) \cdot N (n - 1, k) + α (k) \cdot Y (n, k), & VAD \leq 0.2 \\ \tilde{N} (n, k) = N (n - 1, k), & VAD > 0.2 \end{matrix} - - - (2)

其中，0≤k<K

这里，n为帧编号，k为谱编号，K为FFT点数的一半的值，N（n-1，k）为更新前的噪音谱，Y（n，k）是判断为噪音的可能性高的当前帧的噪音谱，N~（n，k）是更新后的噪音谱。在此由于电子申请的关系，将上式（2）中的“～”（颚化符号（tilde））记载为“~”，但是在以后的说明中省略更新后的噪音谱的颚化符号。另外，α（k）是取0~1的值的规定的更新速度系数，可以设定为比较接近0的值。但是，有时优选随着频率变高而使更新速度系数变大，因此还能够根据噪音的种类等而适当调整更新速度系数。

而且，噪音谱推定部4为了在接下来的更新处理中使用当前帧的噪音谱N（n，k）而将当前帧的噪音谱N（n，k）进行存储。作为存储单元，使用例如以半导体存储器、硬盘等为代表的电或者磁的能够随时读出以及写入的存储单元。

频带分离部5将输入信号的功率谱Y（k）分割为非均匀的频率频带，并针对每个子带进行分组。图2中示出输入信号的功率谱Y（k）的频带分割的一个例子。在图2的例子中，将输入信号的功率谱Y（k）的低频带至高频带分割为19个非均匀的频率频带，并将各组设为子带。具体地说，在子带编号z=10的情况下，第k=35~40个的谱分量属于该子带。此外，图2的子带称为临界频带，与人的听觉特性的匹配性高。该临界频带的子带编号的单位是Bark（巴克）。关于临界频带的详细内容，可以参照E．ツヴガ一著《心理音響学》（西村書店，1992年8月）。

此外，在图2的例子中示出了以临界频带进行频带分割的例子，但是不限于此，例如既可以是随着成为低频带而使频带以2的幂乘变窄的倍频带分割，也可以是将全部的频带分割为例如由4个谱分量构成的子带那样的均等分割。另外，为了提高特定的频率频带（低频带、作为声音的重要部分的基频频带、或者共振峰分量分布的可能性高的频带）的精度，也可以以更细的单位进行分割，通过以细小的单位进行分割，能够抑制后述的噪音抑制特性变差。频带分离部5在如以上那样实施了分割处理之后，将分组了的每个子带编号z的功率谱Y（z，k）输出到频带代表分量生成部6。

频带代表分量生成部6使用从频带分离部5输入的每个子带的功率谱Y（z，k），生成代表各子带的代表功率谱Y_d（z）并输出到噪音抑制量生成部7。作为代表功率谱Y_d（z）的生成方法，例如如下式（3）那样，在各子带内依次比较功率谱Y（k）的大小，将值最大的功率谱Y（k）设为代表功率谱Y_d（z）。但是，在声音相似度推定部3所输出的声音相似度评价值VAD为规定的阈值（例如，0.2）以下的情况下，并非是选择值最大的功率谱Y（k）作为代表功率谱Y_d（z）的方法，而是切换到例如专利文献1那样的算出子带内的全部功率谱Y（k）的平均值来设为代表功率谱Y_d（z）的方法。

Y_{d} (z) = \{\begin{matrix} \max [Y (z, k) |_{k = f_{1} (z)}^{k = f_{2} (z)}], & VAD > 0.2 \\ Σ_{k = f_{1} (z)}^{f_{2} (z)} \frac{Y (z, k)}{(f_{2} (z) - f_{1} (z) + 1)}, & VAD \leq 0.2 \end{matrix} - - - (3)

其中，z=0，…，18

图3是示意性地示出了本实施方式1的频带代表分量生成部6的处理效果的图。图3的（a）是绘出混入了噪音的输入信号在某个时刻下的功率谱的图，纵轴表示功率谱的大小（振幅），横轴表示频率。另外，实线表示输入信号的功率谱分量，虚线表示噪音谱的包络线，单点划线表示子带的边界。而且，为了使图简单，关于子带示出对频率频带进行了均等分割的例子。

图3的（b）示出在从图3的（a）所示的输入信号通过以往的方法求出各子带内的功率谱的平均值并设为代表功率谱的情况下的结果。在该方法中，推测为声音分量的功率谱的大小变小，因此在后述的噪音抑制量生成部7中声音分量被评价得过小，其结果，声音信号被抑制而使声音的湮灭感增大，导致声音变差。

另一方面，图3的（c）示出频带代表分量生成部6从图3的（a）所示的输入信号计算出代表功率谱的情况下的结果。在图3的例子中，在输入信号中存在声音信号，因此声音相似度评价值VAD比起阈值0.2足够大。因此，频带代表分量生成部6根据上式（3）求出代表功率谱。根据图3的（c），与图3的（b）的以往的方法相比，保存推测为声音分量的功率谱，在后级的噪音抑制量生成部7中声音分量不会被评价得过小，声音信号也不会被抑制。因此，能够实现高品质的噪音抑制。

此外，在图3中例示出对子带进行了均等分割的情况，但是例如如图2的表那样以临界频带宽度进行了非均等分割的情况下当然也起到相同的效果。

在图3中，例示出声音相似度评价值VAD大、且在输入信号中存在声音信号的情况，但是除此之外例如在声音相似度评价值VAD小、且认为当前帧的输入信号是噪音的可能性高的情况下，即使存在具有大的值的功率谱存在，其是噪音的可能性也高，因此也可以切换到以往的利用平均值的计算方法来生成代表功率谱。通过求出子带内的功率谱的平均值，噪音的可能性高的大的值的功率谱的振幅变小，因此能够抑制错误的代表功率谱的生成。

此外，在输入信号中重叠的噪音小的情况等噪音的影响少的情况下，也可以采用如下方法：频带代表分量生成部6不进行与声音相似度评价值VAD相应的代表功率谱计算方法的切换，而始终将具有最大值的功率谱设为代表功率谱。

噪音抑制量生成部7使用从频带代表分量生成部6输入的代表功率谱Y_d（z）和从噪音谱推定部4输入的噪音谱N（n，k），按照预先准备的规定的运算式来生成每个子带的噪音抑制量G（z），并输出到频带复用部8。在后面叙述该噪音抑制量G（z）的运算式的导出方法。

频带复用部8将噪音抑制量生成部7所求出的每个子带的噪音抑制量G（z）针对属于各子带的每个谱进行复用，展开到每个谱的噪音抑制量G（k）中。具体地说，通过向属于同一子带编号z的谱编号k的噪音抑制量G（k）的值复制该子带编号z的噪音抑制量G（z）的值来进行。噪音抑制量生成部7将所得到的每个谱的噪音抑制量G(k）输出到噪音抑制部9。

噪音抑制部9使用从时间/频率变换部2输入的输入信号的功率谱Y（k）和从噪音抑制量生成部7输入的每个谱的噪音抑制量G（k），根据下式（4）来生成进行了噪音抑制的输入信号的功率谱Y＾（k），并输出到频率/时间变换部10。由于电子申请的关系，将上式（4）中的“＾”（hat symbol：帽子符号）记载为“＾”，在此后示出的式子的说明中也记载为“＾”。

\hat{Y} (k) = G (k) \cdot Y (k) - - - (4)

其中，k=0，…，K

这里，K是FFT点数的一半的值。

频率/时间变换部10使用从噪音抑制部9输入的进行了噪音抑制的输入信号的功率谱Y＾（k）和从时间/频率变换部2输入的相位谱P（k），通过逆快速傅立叶变换（逆FFT）从频域的谱变换为时域的信号，并与在频率/时间变换部10的内部存储的前帧的信号进行重叠处理之后，作为进行了噪音抑制的输入信号y＾（t）而输出到输出端子11。输出端子11输出该进行了噪音抑制的输入信号y＾（t）。

接着，使用图4说明噪音抑制量生成部7的运算方法。图4所示的噪音抑制量生成部7具备事后SNR（信噪比）推定部71、事前SNR推定部72、噪音抑制量计算部73、以及延迟部74。下面根据在T.Lotter、P.Vary、“Speech Enhancement by MAP Spectral AmplitudeEstimation Using a Super-Gaussian Speech Model”（EURASIPJournal on Applied Signal Processing，Vol.2005，No.7，pp.1110-1126，July 2005）中记载的运算方法（最大事后概率法：Maximum APosteriori；MAP法），说明噪音抑制量的运算方法。

事后SNR推定部71使用从频带代表分量生成部6输入的代表功率谱Y_d（z）和从噪音谱推定部4输入的噪音谱N（k），根据下式（5）推定每个子带的事后SNR（a posteriori SNR）γ＾（n，z）。但是，噪音谱N（z）为了与子带对应起来而例如设为按照下式（6）求出的每个子带的平均值。

\hat{γ} (n, z) = \frac{Y_{d} (n, z)}{N (n, z)} - - - (5)

其中，z=0，…，18

N (z) = Σ_{k = f_{1} (z)}^{f_{2} (z)} \frac{N (z, k)}{(f_{2} (z) - f_{1} (z) + 1)} - - - (6)

其中，z=0，…，18

事前SNR推定部72使用从事后SNR推定部71输入的每个子带的事后SNRγ＾（n，z）和通过后述的延迟部74而得到的前帧的噪音抑制量G（n-1，z），根据下式（7）递归地推定事前SNR（a priori SNR）ξ＾（n，k）。此外，事前SNR推定部72在内部存储器等存储单元中存储前帧的事后SNRγ＾（n-1，z），用于当前帧中的计算。

\hat{ξ} (n, z) = α \cdot \hat{γ} (n - 1, z) \cdot G^{2} (n - 1, z) + (1 - α) \cdot F [\hat{γ} (n, z) - 1] - - - (7)

其中，

这里，α是具有0<α<1的值的规定的遗忘系数（oblivioncoefficient），能够选择α=0.98而作为优选的值，但也可以根据所输入的声音以及噪音的形态而适当地进行调整。

噪音抑制量计算部73使用从事前SNR推定部72输入的事前SNRξ＾（n，z）和从事后SNR推定部71输入的事后SNRγ＾（n，z），根据下式（8）计算每个子带的噪音抑制量G（z，n）而输出到频带复用部8，并且也输出到延迟部74。

G (n, z) = u + \sqrt{u^{2} + \frac{v}{2 \hat{γ} (n, z)}} - - - (8)

其中，

u = \frac{1}{2} - \frac{μ}{4 \sqrt{\hat{γ} (n, z) \cdot \overset{&LeftArrow;}{ξ} (n, z)}}

这里，v以及μ是规定的系数，在与上述的最大事后概率法相关的文献中例示出v=0.126、μ=1.74而作为优选的值。当然也可以是该值以外的值，可以根据输入信号以及噪音的形态而适当地进行调整。

延迟部74在内部保持后述的噪音抑制量计算部73所输出的前帧的每个子带的噪音抑制量G（n-1，z），并发送给事前SNR推定部72以便应用于上式（7）的当前帧的计算。

通过以上，根据本实施方式1，噪音抑制装置构成为具备：时间/频率变换部2，将从输入端子1输入的时域的输入信号变换为作为频域的信号的功率谱和相位谱；噪音谱推定部4，推定重叠在输入信号中的噪音谱；频带分离部5，将时间/频率变换部2进行了变换的多个功率谱汇总到子带；频带代表分量生成部6，将子带内的多个功率谱中的具有最大值的功率谱设为代表功率谱；噪音抑制量生成部7，使用代表功率谱和噪音谱来计算出子带的噪音抑制量；频带复用部8，将每个子带的噪音抑制量针对每个谱进行变换；噪音抑制部9，针对每个谱，根据噪音抑制量来抑制功率谱的振幅；以及频率/时间变换部10，将相位谱和由噪音抑制部9进行了振幅抑制的功率谱变换为时域的信号而从输出端子11输出。因此，使用代表功率谱来计算噪音抑制量，因此能够降低处理量。另外，在该代表功率谱中使用组内的值大的功率谱，因此在噪音抑制量计算时输入信号的声音分量不会被评价得过小，其结果，不会抑制声音信号而能够进行高品质的噪音抑制。

另外，根据本实施方式1，噪音抑制装置构成为具备计算表示输入信号是否像声音的程度的声音相似度评价值的声音相似度推定部3，频带代表分量生成部6根据声音相似度评价值，在输入信号的声音相似度的程度高的情况下将子带内的具有最大值的功率谱设为代表功率谱，在该输入信号的声音相似度的程度低的情况下求出子带内的多个功率谱的平均值而生成代表功率谱。因此，能够抑制错误的代表功率谱的生成，能够实现高品质的噪音抑制。

此外，在上述实施方式1中，在事后SNR推定部71中构成为为了使噪音谱与每个子带对应起来而根据式（6）来求出平均值，但是不限于此，例如也可以构成为使生成代表功率谱Y_d（z）时所选择的与值最大的功率谱Y（k）的谱编号k相对应的噪音谱N（k）对应起来。在该结构的情况下，特别是在频带分割宽度窄的情况下，事后SNR的推定精度得到提高，能够进行更高品质的噪音抑制。

另外，在上述实施方式1中，在频带复用部8中构成为将每个子带的噪音抑制量G（z）复制到属于同一子带的每个谱的噪音抑制量G（k）中从而进行展开，但是不限于此，例如也可以使用相邻的子带的噪音抑制量G（z-1）、G（z+1），如下式（9）那样求出加权平均。

G (z, k) | \frac{f_{2} (z)}{k = f_{1} (z)} = \frac{(L - k) \cdot G (z - 1)}{4 L} + \frac{G (z)}{2} + \frac{k \cdot G (z + 1)}{4 L} - - - (9)

根据该式（9）求出的左边的值表示属于子带编号z的每个谱的噪音抑制量G（k），谱编号k表示从图2的表中的f₁（z）到f₂（z）为止进行变化。另外，右边表示对子带编号z的分量进行0.5的加权、对相邻的子带编号z-1、z+1的分量分别进行0.25的加权，而且表示权重对应于从谱编号k的f₁（z）至f₂（z）的变化而连续地变化。L表示属于子带编号z的谱编号k的个数。通过这样取加权平均，特别是在频带分割宽度宽的情况下噪音抑制量G（k）的频率方向的变化稳定，能够进行更高品质的噪音抑制。

另外，在上述实施方式1中，频带代表分量生成部6在生成代表功率谱时选择了值最大的功率谱，但是不限于此，例如，也可以设在子带的边界附近存在值最大的功率谱，优先选择属于子带的中央附近的频率、且值第2大的功率谱，或者在使用上式（3）的功率谱搜寻时在检测出超过了规定的阈值的功率谱的时刻结束搜寻而设为代表功率谱。

通过优先选择属于子带中央附近的频率的功率谱，具有在频带分割宽度宽的情况下事后SNR的推定精度得到提高的效果。另外，通过在能够检测出超过了规定的阈值的功率谱的时刻结束搜寻，具有能够削减代表功率谱搜寻所需的处理量的效果。

另外，在本实施方式1的声音相似度推定部3中，设为使用输入信号的自相关系数的最大值作为声音相似度评价值的结构，但是不限于此，例如，除了上述的谱熵等公知的方案之外，也可以设为将作为对时域的输入信号进行分析而得到的结果的线性预测残差功率等组合使用的结构。

实施方式2.

在上述实施方式1中，在频带代表分量生成部6中将在同一子带内值最大的功率谱选择为代表功率谱，但是例如也可以在同一子带内按照值从大到小的顺序重新排列功率谱，并从值大的功率谱附加大的权重来求出加权平均，将其值作为代表功率谱。

另外，例如，也可以使用中位数（median）等的统计性方案，将中央值设为代表功率谱。

通过以上，根据本实施方式2，频带代表分量生成部6构成为将从子带内的多个功率谱中的值大的功率谱依次附加大的权重而求出的加权平均，设为代表功率谱。因此，在高噪音时声音相似度评价值的分析精度下降，或在声音分量和噪音分量的识别困难时能够稳定地进行代表功率谱的生成，能够进行高品质的噪音抑制。

另外，代替加权平均而使用中位线等的统计性方案也能够得到相同的效果。

实施方式3.

在上述实施方式1中，在频带代表分量生成部6中构成为进行切换控制，以使在声音相似度评价值超过阈值时将同一子带内的具有最大值的功率谱选择为代表功率谱，另一方面如果小于阈值则从同一子带内的各功率谱求出平均值而生成具有该平均值的代表功率谱，但是例如也可以如下式（10）那样，以声音相似度评价值VAD为加权系数，将最大值与平均值的加权和设为代表功率谱。

Y_{d} (z) = VAD \cdot {\max [Y (z, k) |_{k = f_{1} (z)}^{k = f_{2} (z)}]} + (1 - VAD) \cdot {Σ_{k = f_{1} (z)}^{f_{2} (z)} \frac{Y (z, k)}{(f_{2} (z) - f_{1} (z) + 1)} - - - (10)

其中，0≤VAD≤1

在该式（10）中，能够根据声音相似度评价值VAD，连续地切换最大值与平均值。在输入信号为声音的可能性高的情况下，声音相似度评价值VAD变大，因此代表功率谱在最大值的情况下的权重变大。另一方面，在噪音的可能性高的情况下、声音相似度评价值VAD变小，因此平均值的情况下的权重变大。

如以上那样，根据本实施方式3，频带代表分量生成部6构成为将声音相似度评价值用于加权系数而计算出子带内的多个功率谱的最大值与平均值的加权和，并设为代表功率谱。因此，在声音分量与噪音分量的识别困难时也能够稳定地进行代表功率谱的生成，能够进行高品质的噪音抑制。

实施方式4.

在上述实施方式1中，在频带代表分量生成部6中根据声音相似度评价值进行全子带的代表功率谱生成的切换控制，但是也可以针对每个子带进行切换控制。例如，频带代表分量生成部6计算子带内的功率谱的方差，在方差超过规定的阈值的情况下，判断为该子带包括声音分量，切换到选择最大值作为代表功率谱的方法。另一方面，在方差小于或等于规定的阈值的情况下，切换到计算平均值作为代表功率谱的方法。

此外，方差是用于检测子带内的功率谱的值的变动状态的一个方法，除了方差以外，只要是能够检测变动状态的方法就可以使用其它的分析方法。

通过以上，根据本实施方式4，频带代表分量生成部6构成为针对每个子带切换代表功率谱的生成方法，因此能够进一步提高代表功率谱的生成精度，能够进行更高品质的噪音抑制。

在以上的全部的实施方式1~4中，作为噪音抑制量生成部7的噪音抑制的方法而使用了最大事后概率法（MAP法），但是不限于该方法，能够将其它的方法应用于噪音抑制量生成部7。例如，有在非专利文献1中详细叙述的最小均方误差短时间谱振幅法、或者S.F.Boll、“Suppression of Acoustic Noise in Speech Using Spectral Subtraction”（IEEE Trans.on ASSP，Vol.27，No.2，pp.113-120，Apr.1979）中详细叙述的谱减法等。

另外，在以上的实施方式1~4中，如图2所示那样作为频带分离部5的频带分割的例子而说明了窄带电话（0~4000Hz）的情况，但是噪音抑制装置的噪音抑制对象不限于窄带电话声音，例如也可以是0~8000Hz等的宽带电话声音或者音响信号。

另外，在上述实施方式1~4中，进行了噪音抑制的输入信号y＾（t）以数字数据形式送出到声音编码装置、声音识别装置、声音储存装置、免提通话装置等各种声音音响处理装置，但是实施方式1~4的噪音抑制装置也能够单独或者与上述的其它装置一起通过DSP（数字信号处理器）而实现，或作为软件程序来执行而实现。程序既可以存储在执行软件程序的计算机的存储装置中，也可以是通过CD-ROM等存储介质来分发的形式。另外，还能够通过网络来提供程序。另外，还能够在输出端子11的后级对进行了噪音抑制的输入信号y＾（t）进行D/A（数字/模拟）变换，并由放大装置放大而从扬声器等直接作为声音信号而输出。

产业上的可利用性

如以上那样，与本发明有关的噪音抑制装置以少的处理量进行高品质的噪音抑制，因此适合用于导入了声音通信、声音储存、声音识别系统的汽车导航、便携式电话、对讲机等声音通信系统、免提通话系统、TV会议系统、监视系统等的音质改善、以及声音识别系统的识别率的提高。

Claims

1.一种噪音抑制装置，具备：

时间／频率变换部，将时域的输入信号变换为作为频域的信号的功率谱和相位谱；

噪音谱推定部，推定重叠于所述输入信号的噪音谱；

噪音抑制量生成部，使用所述功率谱和所述噪音谱来计算噪音抑制量；

噪音抑制部，根据所述噪音抑制量来抑制所述功率谱的振幅；以及

频率／时间变换部，将所述相位谱和由所述噪音抑制部进行了振幅抑制的所述功率谱变换为时域的信号，

所述噪音抑制装置的特征在于，

具备代表分量生成部，该代表分量生成部将所述时间／频率变换部所变换的多个功率谱汇总为1组，优先选择该组内的所述多个功率谱中的值大的功率谱而设为代表功率谱，

所述噪音抑制量生成部使用所述代表功率谱来计算出噪音抑制量，

所述噪音抑制装置具备声音相似度推定部，该声音相似度推定部计算表示输入信号是否像声音的程度的声音相似度评价值，

代表分量生成部生成基于所述声音相似度评价值的代表功率谱。

2.根据权利要求1所述的噪音抑制装置，其特征在于，

代表分量生成部根据声音相似度评价值，在输入信号的声音相似度的程度高的情况下优先选择组内的值大的功率谱而生成代表功率谱，在该输入信号的声音相似度的程度低的情况下求出该组内的多个功率谱的平均值而生成代表功率谱。

3.根据权利要求1所述的噪音抑制装置，其特征在于，

代表功率谱是组内的多个功率谱中的具有最大值的功率谱。

4.根据权利要求1所述的噪音抑制装置，其特征在于，

代表功率谱是从组内的多个功率谱中的值大的功率谱起依次附加大的权重而求出的加权平均。

5.根据权利要求1所述的噪音抑制装置，其特征在于，

代表功率谱是将声音相似度评价值用于加权系数的、组内的多个功率谱的最大值与平均值的加权和。

6.根据权利要求1所述的噪音抑制装置，其特征在于，

代表分量生成部针对每个组切换代表功率谱的生成方法。