CN102356427A

CN102356427A - 噪声抑制装置

Info

Publication number: CN102356427A
Application number: CN2009801580711A
Authority: CN
Inventors: 古田训; 田崎裕久
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2009-04-02
Filing date: 2009-04-02
Publication date: 2012-02-15
Anticipated expiration: 2029-04-02
Also published as: JPWO2010113220A1; US20110286605A1; CN102356427B; JP5535198B2; WO2010113220A1; EP2416315B1; EP2416315A1; EP2416315A4

Abstract

通过语音·噪声区间判定部(2)根据低频振幅谱(102)判定输入信号(100)是否相似语音。噪声谱推定部(3)根据语音·噪声区间判定部(2)的输出推定低频噪声谱和高频噪声谱。低频处理部(201)和高频处理部(202)根据从噪声谱推定部(3)输出的噪声谱进行噪声抑制。

Description

噪声抑制装置

技术领域

本发明涉及噪声抑制装置，在各种噪声环境下使用的语音通信系统、语音存储系统、语音识别系统等中，抑制语音·声音信号等目的信号以外的噪声，进行车载导航系统·移动电话·内部电话等语音通信系统·免提通话系统·TV会议系统·监视系统等的音质改善、语音识别系统的识别率的提高等。

背景技术

作为通过从混入了噪声的输入信号中抑制作为目的外信号即噪声，来强调作为目的信号的语音信号等的噪声抑制处理的代表性手法，例如有谱减(Spectral Subtraction：SS)法，这是通过从振幅频谱中减去另行推定的平均噪声频谱来进行噪声抑制的方法(例如，参照非专利文献1)。

作为将输入信号转换为频域信号后分割为规定的小频带，按照不同频带进行噪声抑制的以往方法例如有专利文献1所记载的方法。另外，作为切换采样频率不同的方式(切换窄带噪声抑制方式与宽带噪声抑制方式)的以往方法例如有专利文献2所记载的方法。

专利文献1所记载的方法的目的在于通过以非专利文献1所公开的方法为基础，将输入信号分割为低频分量与高频分量，在各自的频带中进行适当的噪声抑制，从而以较少的处理量得到能够使语音失真减少、且扩大噪声抑制量的噪声抑制装置。

另外，专利文献2所记载的方法的目的在于通过包括与多个采样转换率相应的噪声抑制处理和切换单元，切换对于语音解码处理适合的采样频率与噪声抑制装置，从而改善解码语音的品质。

专利文献1：日本特开2006-201622号公报(第4页～9页、图1)

专利文献2：日本特开2000-206995号公报(第6页～16页、图4)

非专利文献1：Steven F.Boll，“Suppression of Acoustic noisein speech using spectral subtraction”，IEEE Trans.ASSP，Vol.ASSP-27，No.2，April 1979.

但是，上述的以往方法中存在以下所述的课题。

例如，在专利文献1所公开的以往的噪声抑制装置中存在以下课题：由于形成了低频用、高频用的独立的结构，在低频用、高频用中，需要各自的语音·噪声区间判定单元，因此虽然比全频带处理少，但是处理量和存储量仍然较大。另外，存在以下课题：需要在低频·高频中分别独立地调整用于在噪声抑制装置中作为重要的结构的语音·噪声区间判定、噪声谱推定的控制参数，控制、调整复杂。

另外，在专利文献2所公开的接收装置所涉及的以往的噪声抑制装置中存在以下课题：具有按照不同的多个采样频率独立的噪声抑制处理，与专利文献1的情况同样地，需要分别独立地调整控制参数，以及需要按照各自的噪声抑制处理保持程序存储器等，导致存储量变大。

本发明是为了解决上述问题而作出的，其目的在于提供一种能够以较小的处理量和存储量抑制噪声、且品质劣化较少的噪声抑制装置，并且其目的在于提供一种易于控制和调整的噪声抑制装置。

发明内容

本发明所涉及的噪声抑制装置将输入信号分割为多个频带，按照分割后的多个频带之中的规定的频带分量的分析结果，进行规定的频带分量的噪声抑制、以及规定的频带以外的频带分量的噪声抑制。据此，能够提供能够削减处理量和存储量、并且易于控制和调整的噪声抑制装置。

附图说明

图1是本发明所涉及的噪声抑制装置的实施方式1的整体结构图。

图2是本发明的实施方式1所述的噪声谱推定部的内部结构图。

图3是表示本发明的实施方式1所述的噪声频谱的子带化的一例的说明图。

图4是本发明所涉及的噪声抑制装置的实施方式2的整体结构图。

图5是本发明所涉及的噪声抑制装置的实施方式4的整体结构图。

具体实施方式

下面，为了更详细地说明本发明，根据附图对实施本发明的优选方式进行说明。

实施方式1.

图1表示本实施方式的噪声抑制装置的整体结构。

在图1中，噪声抑制装置200包括：时间·频率转换部1、语音·噪声区间判定部2、噪声谱推定部3、低频抑制量控制部4、高频抑制量控制部5、低频噪声抑制部6、高频噪声抑制部7、频带合成部8、第一频率·时间转换部9、第二频率·时间转换部10。另外，由语音·噪声区间判定部2、低频抑制量控制部4和低频噪声抑制部6构成低频处理部201，由高频抑制量控制部5和高频噪声抑制部7构成高频处理部202，并且噪声谱推定部3被设为这些低频处理部201和高频处理部202的共同结构要素。

作为与以往的噪声抑制装置的结构的不同点在于：仅在低频处理部201内具有语音·噪声区间判定部2；以及噪声谱推定部3作为低频处理部201和高频处理部202的共享结构要素。

下面，对图1所示的噪声抑制装置的动作原理进行说明。

首先，作为目的信号的语音·乐音等中混入了噪声的输入信号100经A/D(模拟/数字)转换之后，以规定的采样频率(例如，16kHz)被进行采样，以规定的帧周期(例如，20msec)被进行帧分割，并输入到噪声抑制装置200内的时间·频率转换部1。

时间·频率转换部1对上述的以帧周期分割的输入信号100进行加窗处理(根据需要也会实施填零处理)，对该加窗后的信号使用例如512点的FFT(Fast Fourier Transform：快速傅里叶变换)，将时间轴上的信号转换为频率轴上的信号(频谱)。从时间·频率转换部1得到的第n帧的输入信号100的振幅谱S(n，k)与相位谱P(n，k)可以由下式(1)表示。

\{\begin{matrix} S (n, k) = \sqrt{Re {X (n, k)}^{2} + Im {X (n, k)}^{2}} \\ P (n, k) = X (n, k) \end{matrix};

0≤k＜512/2式(1)

这里，k为频谱编号，Re{X(n，k)}和Im{X(n，k)}分别为FFT后的输入信号的频谱实数部和虚数部。以下只要没有特别示出的必要，在表示当前帧的信号时就省略帧编号。

关于以上得到的振幅谱S(k)，例如频带分割为0～4kHz与4kHz～8kHz这两个频带，分别输出0～4kHz的低频分量作为低频振幅谱102、输出4～8kHz的高频分量作为高频振幅谱103，并且输出相位谱101。

得到的低频振幅谱102分别输出到低频处理部201内部的语音·噪声区间判定部2、噪声谱推定部3、低频抑制量控制部4、低频噪声抑制部6。另外，高频振幅谱103分别输出到高频处理部202内部的噪声谱推定部3、高频抑制量控制部5、高频噪声抑制部7。在本实施方式中的加窗处理中，例如可以使用汉宁窗、梯形窗等公知的手法。另外，由于FFT为周知的手法，因此省略说明。

首先，对低频处理部201内部的结构要素的动作进行说明。此外，将在后面描述语音·噪声区间判定部2、以及作为低频处理部201和高频处理部202的共享结构要素的噪声谱推定部3的动作，其中，上述语音·噪声区间判定部2进行输入信号100的形态“是否相似语音”的判定。首先，低频抑制量控制部4由低频振幅谱102、以及噪声谱推定部3输出的低频噪声谱105，根据下式(2)计算每个频谱分量的信号对噪声比snr_L(k)。这里，S_L(k)为低频振幅谱102的第k个频谱，N_L(k)为低频噪声谱105的第k个频谱，k为频谱编号，K_L为频谱编号数，例如FFT点数为512点、且频带分割点为4kHz，则K_L＝128。使用得到的每个频谱分量的信号对噪声比snr_L(k)，计算低频噪声抑制量107。作为具体的计算方法，例如可以使用非专利文献1所公开的频谱减法、或J.S.Lim and A V.Oppenheim，“Enhancement and Bandwidth Compression of Noisy Speech，”Proc.ofthe IEEE，vol.67，pp.1586-1604，Dec.1979(以下称为非专利文献2)所公开的所谓Wiener Filter(维纳滤波)法等公知的手法。

{snr}_{L} (k) = \{\begin{matrix} 20 lo g_{10} {S_{L} (k) / N_{L} (k)}, & S_{L} (k) > N_{L} (k) \\ 0, & S_{L} (k) \leq N_{L} (k) \end{matrix};

0≤k＜K_L 式(2)

低频噪声抑制部6对从时间·频率转换部1输入的低频振幅谱102使用低频噪声抑制量107进行噪声抑制处理，将得到的结果作为噪声被抑制的低频振幅谱109输出到第一频率·时间转换部9，并且输出到频带合成部8。

这里，作为低频噪声抑制部6中的噪声抑制处理的手法，除了例如非专利文献1所公开的基于频谱减法的手法、或者非专利文献2所公开的根据每个频谱分量的信号对噪声比针对每个频谱分量给予衰减量的频谱振幅抑制等公知的方法以外，还可以使用组合了频谱减法与频谱振幅抑制的手法(例如，日本专利第3454190号公报中记载的方法)等。

第一频率·时间转换部9使用从低频噪声抑制部6输入的噪声被抑制的低频振幅谱109和相位谱101，进行与由时间·频率转换部1实施的FFT点数(512点)对应的逆FFT处理而返回到时域信号，进行用于与前后帧的平滑连接的加窗处理的同时进行连接，并将得到的信号作为噪声被抑制的低频输出信号113进行输出。此外，在上述逆FFT处理中，关于4kHz～8kHz的高频频谱分量进行填零。

频带控制信号111是分别对后述的频带编码部12和宽带编码部13的切换控制、后述的采样转换部11和频带合成部8的动作进行控制的信号，例如是按照无线·有线通信线路的状况自动切换编码方法、传输频带的控制信号、用于根据用户的请求(编码品质或语音数据的压缩率的变更等)手动切换编码方法、频带的控制信号。在本实施方式中，由于切换窄带编码部12中的窄带编码与宽带编码部13中的宽带编码这两种方式，因此在用窄带编码方法对噪声被抑制的输入信号进行编码时，即，使窄带编码部12动作时，具有表示“窄带模式”的值(例如0[零])，在使宽带编码部13动作时，具有表示“宽带模式”的值(例如1)。

采样转换部11输入噪声被抑制的低频输出信号113和频带控制信号111，在用于切换连接于噪声抑制装置200的语音编码部的频带控制信号111的值为“窄带模式”时，从作为输入信号1的采样频率的16kHz例如向8kHz进行降采样，向窄带编码部12输出窄带输出信号114。

窄带编码部12输入窄带输出信号114和频带控制信号111，在频带控制信号111为“窄带模式”时，例如使用AMR(AdaptiveMulti-Rate，自适应多速率)语音编码方式等公知的编码方法，进行窄带输出信号114的压缩·编码。被编码的窄带输出信号114例如通过无线·有线通信线路作为编码数据送出，或者蓄积在IC记录器等存储器之后，作为语音·声音信号数据读出并利用。

接着，对高频处理部202内部的结构要素的动作进行说明。

高频抑制量控制部5由高频振幅谱103、以及后述说明的噪声谱推定部3输出的高频噪声谱106，根据下式(3)计算每个频谱分量的信号对噪声比snr_H(k)。这里，S_H(k)为高频振幅谱103的第k个频谱，N_H(k)为高频噪声谱106的第k个频谱，k为频谱编号，K_L和K_H为频谱编号数，例如在FFT点数为512点、且频带分割点为4kHz，则K_L＝128、以及K_H＝256。使用得到的每个频谱分量的信号对噪声比SNR_H(k)，计算高频噪声抑制量108。作为具体的计算方法，与低频处理部201的情况同样地，例如可以使用非专利文献1所公开的频谱减法、非专利文献2所公开的Wiener Filter法等公知的手法。

{snr}_{H} (k) = \{\begin{matrix} 20 lo g_{10} {S_{H} (k) / N_{H} (k)}, & S_{H} (k) > N_{H} (k) \\ 0, & S_{H} (k) \leq N_{H} (k) \end{matrix};

K_L≤k＜K_H 式(3)

高频噪声抑制部7对从时间·频率转换部1输入的高频振幅谱103使用高频噪声抑制量108进行噪声抑制处理，将得到的结果作为噪声被抑制的高频振幅谱110输出到频带合成部8。

这里，作为高频噪声抑制部7中的噪声抑制处理的手法，与低频处理部201的情况同样地，除了例如非专利文献1所公开的基于频谱减法的手法、或者非专利文献2所公开的根据每个频谱分量的信号对噪声比针对每个频谱分量给予衰减量的频谱振幅抑制等公知的方法以外，还可以使用组合了频谱减法与频谱振幅抑制的手法等。

频带合成部8输入低频噪声抑制部6输出的噪声被抑制的低频振幅谱109、高频噪声抑制部7输出的高频振幅谱110、以及用于切换窄带·宽带编码方法的频带控制信号111，在频带控制信号111为“宽带模式”时，进行将振幅谱的高频与低频连接在一起而作为全频带的振幅谱的频带合成处理，输出噪声被抑制的全频带振幅谱112。

第二频率·时间转换部10输入频带合成部8输出的噪声被抑制的全频带振幅谱112和相位谱101，进行与由时间·频率转换部1实施的FFT点数对应的逆FFT处理而返回到时域信号，进行用于与前后帧的平滑连接的加窗处理(重合处理)的同时进行连接，并将得到的信号作为噪声被抑制的宽带输出信号115向宽带编码部13输出。

宽带编码部13输入宽带输出信号115和频带控制信号111，在频带控制信号111为“宽带模式”时，例如使用AMR-WB(AdaptiveMulti-Rate Wide Band，自适应多速率宽带)语音编码方式等公知的编码方法，进行宽带输出信号115的压缩·编码。被编码的宽带输出信号115与窄带编码部12的情况同样地，例如通过无线·有线通信线路作为编码数据送出，或者蓄积在IC记录器等存储器之后，作为语音·声音信号数据读出并利用。

接着，对低频处理部201内的语音·噪声区间判定部2、以及作为低频处理部201和高频处理部202的共享结构要素的噪声谱推定部3进行说明。噪声谱推定部3构成噪声分量推定单元，如图2所示，包括子带压缩部14、噪声谱更新部15、噪声谱存储部16、子带展开部17。

下面，参照图2和图3，进行语音·噪声区间判定部2和噪声谱推定部3的详细的动作说明。

首先，在语音·噪声区间判定部2中，使用时间·频率转换部1输出的低频振幅谱102、以及从过去帧推定的低频噪声谱105，作为当前帧的输入信号100是否为语音或噪声的程度，进行语音相似性信号VAD的计算，例如在语音的可能性高时取大的评价值，在语音的可能性低时取小的评价值。

作为语音相似性信号VAD的计算方法，例如可以分别单独或组合使用可根据输入信号100的低频振幅谱102的加法结果与后述的噪声谱推定部3输出的低频噪声谱105的加法结果的功率之比计算出的当前帧的低频SN比、根据低频振幅谱102得到的低频功率、或者可根据前述式(2)所示的每个频率分量的SN比snr_L(k)求出的snr_L(k)的方差等。这里，为了简化说明，示出单独使用了当前帧的低频SN比的情况。当前帧的低频SN比SNR_FL可以由下式(4)表示。

{SNR}_{FL} = \max {{20 \log}_{10} (Σ_{k = 0}^{K_{L} - 1} S_{L} (k)) - {20 \log}_{10} (Σ_{k = 0}^{K_{L} - 1} N_{L} (k)), 0}

式(4)

这里，S_L(k)为低频振幅谱102的第k个分量，N_L(k)为低频噪声谱105的第k个分量，K_L为低频的频谱编号数。另外，max{x，y}为输出元素x、y之中值较大的一方的函数，当前帧的低频SN比SNR_FL取0以上的正值。

根据由式(4)求出的低频SN比SNR_FL，可以使用例如下式(5)计算出语音相似性信号VAD。

VAD = \{\begin{matrix} 1.0, & {SNR}_{FL} > {TH}_{SNR} (voice) \\ 0.7, & {TH}_{SNR} (voicelike) < {SNR}_{FL} \leq {TH}_{SNR} (voice) \\ 0.5, & {TH}_{SNR} (noiselike) < {SNR}_{FL} \leq {TH}_{SNR} (voicelike) \\ 0.2, & {TH}_{SNR} (noise) < {SNR}_{FL} \leq {TH}_{SNR} (noiselike) \\ 0.0, & {SNR}_{FL} \leq {TH}_{SNR} (noise) \end{matrix}

式(5)

这里，TH_SNR(·)为判定用阈值且为规定常数，分别与噪声的种类、噪声的功率相应地预先进行调整以能够适当地判定语音区间与噪声区间即可。将通过以上所示的处理计算出的语音相似性信号VAD作为语音·噪声区间判定结果信号104向噪声谱更新部15输出。

此外，在式(5)中将语音相似性信号VAD表现为基于规定的判定阈值的0～1的范围的离散值，但例如也可以像式(6)那样用最大值(例如，SNRmax_FL＝50dB)进行SNR_FL的归一化，并作为0～1的范围的连续值进行处理。

VAD = \{\begin{matrix} 1.0, & {SNR}_{FL} > {SNR \max}_{FL} \\ {SNR}_{FL} / SNR ma x_{FL}, & {SNR}_{FL} \leq {SNR \max}_{FL} \end{matrix}

式(6)

子带压缩部14为了削减用于存储噪声谱的处理量·存储量，根据式(7)和图3所示的频谱对应表，通过对0～255的低频振幅谱102和高频振幅谱103的频谱编号k的分量例如以每30信道的子带z集中并进行平均化，从而压缩为每子带z的平均谱B_L(z)以及B_H(z)，输出到噪声谱更新部15。这里，f_L(z)和f_H(z)为与图3所述的子带z对应的频谱分量(频带)的端点。

B_{L} (z) = Σ_{k = f_{1} (z)}^{f_{2} (z)} \frac{S_{L} (k)}{(f_{2} (z) - f_{1} (z) + 1)},

0≤z≤18

B_{H} (z) = Σ_{k = f_{1} (z)}^{f_{2} (z)} \frac{S_{H} (k)}{(f_{2} (z) - f_{1} (z) + 1)},

19≤z≤29

式(7)

在图3中，以较少的存储量在低频以听觉上良好的特性进行噪声谱推定并且在高频进行噪声分量的频率方向的跟踪性优异的噪声谱的推定为目的，示出了在0～4kHz中以巴克刻度(bark scale)进行频带分割，在4kHz～8kHz中以基于4kHz附近的巴克刻度的临界带宽宽度等间隔地进行频带分割并平均化的例子，但例如为了提高特定的频带(全频带、或者高频)的精度，也可以不进行频谱的平均化而是使用振幅谱本身进行更细的处理。

噪声谱更新部15参照作为语音·噪声区间判定部2的输出的语音·噪声区间判定结果信号104，在当前帧的输入信号100的形态为噪声的可能性高时，使用作为当前帧的输入信号分量的低频振幅谱102和高频振幅谱103，对从存储在噪声谱存储部16中的过去帧推定出的推定噪声谱进行更新。

例如，根据下式(8)，在作为语音·噪声区间判定结果信号104的语音相似性信号VAD例如在0.2以下时，通过将输入信号的振幅谱反映到噪声谱来进行更新。噪声谱存储部16例如由以半导体存储器、硬盘等为代表的可随时以电或磁方式读出·写入的存储单元构成。

\{\begin{matrix} {\tilde{N}}_{L} (n, z) = (1 - α_{L} (z)) \cdot N_{L} (n - 1, z) + α_{L} (z) \cdot B_{L} (n, z) & VAD \leq 0.2 \\ {\tilde{N}}_{L} (n, z) = N_{L} (n - 1, z), & VAD > 0.2 \end{matrix};

0≤z≤18

\{\begin{matrix} {\tilde{N}}_{H} (n, z) = (1 - α_{H} (z)) \cdot N_{H} (n - 1, z) + α_{H} (z) \cdot B_{H} (n, z) & VAD \leq 0.2 \\ {\tilde{N}}_{H} (n, z) = N_{L} (n - 1, z), & VAD > 0.2 \end{matrix};

19≤z≤29

式(8)

另外，α_L(z)和α_H(z)为取0～1的值的规定的更新速度系数，最好设定为比较接近0的值。另外，随着频率升高，有时稍稍增大系数值较好，也可以按照噪声的种类等进行调整。

子带展开部17通过对上述中被更新的噪声谱进行式(7)的逆变换，从而从子带z以频谱k的分量进行展开，低频噪声谱105分别输出到前述的低频抑制量控制部4和语音·噪声区间判定部2，高频噪声谱106向高频抑制量控制部5输出。这里，输出到语音·噪声区间判定部2的低频噪声谱105被适用于下一帧(第n+1帧)的语音·噪声区间判定。

此外，关于该噪声谱的更新方法，为了进一步提高推定精度、推定跟踪性，可以进行如下的各种变形·改良：例如，按照语音·噪声区间判定结果信号104的值，适用多个更新速度系数；参照帧间的输入信号的功率、噪声的功率的变动性，在这些变动大时，适用加快更新速度这样的更新速度系数；在某一定时间中，用功率最小的帧、或者语音·噪声区间判定结果信号104取最小的值的帧的输入信号频谱，置换(重置)噪声谱，等。另外，在语音·噪声区间判定结果信号104的值足够大时，即当前帧的输入信号100在概率上为语音的可能性高时，也可以不进行噪声谱的更新。此外，关于输入信号100的功率、噪声的功率，例如可以根据低频振幅谱102、低频噪声谱105计算出。

根据本实施方式1，由于仅使用输入信号的低频分量进行语音·噪声区间判定，按照其结果推定低频噪声谱以及高频噪声谱，因此具有如下效果：能够省略以往方法中需要的高频处理部的语音·噪声区间判定，能够削减处理量、存储量。

另外，由于在噪声抑制装置中作为重要结构的语音·噪声区间判定、噪声谱推定能够在低频处理与高频处理中通用，因此具有如下效果：无需在低频·高频分别独立地调整控制参数，简化这些控制和调整。

另外，由于仅在低频分量进行语音·噪声区间判定，因此即使在混入了功率集中于高频的噪声，例如汽车行驶时的风呼啸声、空调的风扇噪声等的语音信号中，也能够维持低频输入信号的语音·噪声区间判定精度，因此能够准确地进行噪声谱的推定，其结果是能够进行稳定的噪声抑制。

另外，在本实施方式1中，由于使属于各频带的推定噪声分量的内部分量的细分程度根据每个频带而不同，因此能够以较少的存储量进行适于各频带的噪声谱推定。

另外，由于本实施方式1中的噪声谱的子带结构在低频中为巴克谱频带、在高频中为等间隔频带结构，因此能够以较少的存储量，在低频中以听觉上良好的特性进行噪声谱推定，并且在高频中能够进行噪声分量的跟踪性优异的噪声谱推定。

另外，通过形成本实施方式的结构，能够以较少的存储量·处理量构成可以与多个不同频带的语音声音编码方式对应的频带可伸缩结构的噪声抑制装置。

在本实施方式中，为了简化说明而将频带分割数设为低频·高频的两个分割，但也可以例如0～4kHz/4～7kHz/7～8kHz这样是三个以上的分割数，分割后的带宽宽度也可以不同，能够与各种语音声音编码方式对应。这种情况下，在0～4kHz的频带中进行语音·噪声区间判定，将其语音·噪声区间判定结果分别适用于0～4kHz/4～7kHz/7～8kHz的各频带，进行各频带的噪声谱推定即可。

另外，在频带控制信号为“窄带模式”时，通过中止高频处理部202内的高频抑制量控制部5和高频噪声抑制部7的动作，并且中止将作为低频噪声抑制部6的输出结果的噪声被抑制的低频振幅谱109向频带合成部8输出，从而能够进一步削减处理量。

在本实施方式中，用与时间·频率转换部1相同的点数即512点实施了第一频率·时间转换部9的逆FFT处理所需要的频率点数，但例如通过与低频振幅谱102对应的点数即256点的逆FFT处理进行实施，从而不需要采样转换部11，能够进一步削减处理量。

实施方式2.

作为实施方式1的变形例，也可以使用全频带的振幅谱仅进行语音·噪声区间判定，关于其后的处理单元设为与实施方式1同样的结构，将此作为实施方式2进行说明。

图4表示实施方式2的噪声抑制装置的整体结构，作为与图1不同的结构要素，包括具有全频带语音·噪声区间判定部18的全频带处理部203。关于其他结构要素，除了从低频处理部201中删除语音·噪声区间判定部2以外，与图1的结构相同，因此对于对应的部分标注相同符号省略其说明。此外，全频带处理部203构成分析单元，低频处理部201和高频处理部202构成多个噪声抑制单元，另外，频带合成部8～采样转换部11以及频带控制信号111构成切换单元。

时间·频率转换部1对以规定的采样频率、规定的帧长(例如，分别为16kHz、20ms)进行采样·帧分割的输入信号100，例如使用512点的FFT转换为振幅谱和相位谱之后，例如输出0～4kHz的频带分量的低频振幅谱102、4kHz～8kHz的频带分量的高频振幅谱103、0～8kHz的全频带振幅谱116、以及相位谱101。

作为全频带处理部203的结构要素的全频带语音·噪声区间判定部18，使用时间·频率转换部1输出的全频带振幅谱116、从过去帧推定的低频噪声谱105、以及同样从过去帧推定的高频噪声谱106，作为当前帧的输入信号100是否为语音或噪声的程度，进行全频带的语音相似性信号VAD_WIDE的计算，例如在语音的可能性高时取大的评价值，在语音的可能性低时取小的评价值。

作为全频带的语音相似性信号VAD_WIDE的计算方法，例如可以分别单独或组合使用可根据输入信号100的全频带振幅谱116的加法结果与噪声谱推定部3输出的低频噪声谱105和高频噪声谱106的加法结果的功率之比计算出的当前帧的全频带SN比、根据全频带振幅谱116得到的帧功率、或者能够以与前述式(2)同样的手法针对每个频谱分量计算出SN比并根据得到的每个频谱分量的SN比求出的每个频谱分量的SN比的方差等。这里，与实施方式1同样为了简化说明，示出单独使用当前帧的全频带SN比的情况。当前帧的全频带SN比SNR_{WIDE_FL}能够由下面的数式(9)表示。

{SNR}_{WIDE_FL} =

\max {{20 \log}_{10} (Σ_{k = 0}^{K_{H} - 1} S (k)) - {20 \log}_{10} (Σ_{k = 0}^{K_{L} - 1} N_{L} (k) + Σ_{k = K_{L}}^{K_{H} - 1} N_{H} (k)), 0}

式(9)

这里，S(k)为全频带振幅谱116的第k个分量，N_L(k)和N_H(k)分别为低频噪声谱105、高频噪声谱106的第k个分量，K_L和K_H分别为低频、高频的频谱编号数。另外，max{x，y}为输出元素x、y之中值较大的一方的函数，当前帧的全频带SN比SNR_{WIDE_FL}取0以上的正值。

根据由式(9)求出的全频带SN比SNR_{WIDE_FL}，全频带的语音相似性信号VAD_WIDE与实施方式1同样地例如能够使用下式(10)计算。

VA D_{WIDE} = \{\begin{matrix} 1.0, & {SNR}_{WIDE_FL} > {TH}_{SNR} (voice) \\ 0.7, & {TH}_{SNR} (voicelike) < {SNR}_{WIDE_FL} \leq {TH}_{SNR} (voice) \\ 0.5, & {TH}_{SNR} (noiselike) < {SNR}_{WIDE_FL} \leq T H_{SNR} (voicelike) \\ 0.2, & {TH}_{SNR} (noise) < {SNR}_{WIDE_FL} \leq {TH}_{SNR} (noiselike) \\ 0.0, & {SNR}_{WIDE_FL} \leq {TH}_{SNR} (noise) \end{matrix}

式(10)

这里，TH_SNR(·)为判定用阈值且为规定常数，分别与噪声的种类、噪声的功率相应地预先进行调整以能够适当地判定语音区间与噪声区间即可。将通过以上所示的处理计算出的全频带的语音相似性信号VAD_WIDE作为全频带语音·噪声区间判定结果信号117向噪声谱推定部3内的噪声谱更新部15输出。

此外，在式(10)中将全频带的语音相似性信号VAD_WIDE表现为基于规定的判定阈值的0～1的范围的离散值，但例如也可以像式(11)那样用最大值(例如，SNRmax_{WIDE_FL}＝60dB)进行SNR_{WIDE_} _FL的归一化，并作为0～1的范围的连续值进行处理。

VA D_{WIDE} = \{\begin{matrix} 1.0, & {SNR}_{WIDE_FL} > {SNR \max}_{WIDE_FL} \\ {SNR}_{WIDE_FL} / SNRma x_{WIDE_FL}, & {SNR}_{WIDE_FL} \leq {SNR \max}_{WIDE_FL} \end{matrix}

式(11)

噪声谱推定部3使用全频带语音·噪声区间判定部18输出的全频带语音·噪声区间判定结果信号117、时间·频率转换部1输出的低频振幅谱102、以及高频振幅谱103，在当前帧的输入信号100的形态为噪声的可能性高时进行噪声谱的更新，输出低频噪声谱105和高频噪声谱106。这里，作为噪声谱的更新方法、噪声谱的存储方法，例如可以采用与实施方式1同样的方法。

在低频处理部201中，在低频抑制量控制部4中使用时间·频率转换部1输出的低频振幅谱102、以及噪声谱推定部3输出的低频噪声谱105，进行低频噪声抑制量107的计算，在低频噪声抑制部6中使用计算出的低频噪声抑制量107，进行低频振幅谱102的噪声抑制处理，并输出噪声被抑制的低频振幅谱109。这里，作为低频抑制量控制部4和低频噪声抑制部6的处理方法，例如可以采用与实施方式1同样的方法。

在高频处理部202中，在高频抑制量控制部5中使用时间·频率转换部1输出的高频振幅谱103、以及噪声谱推定部3输出的高频噪声谱106，进行高频噪声抑制量108的计算，在低频噪声抑制部7中使用计算出的高频噪声抑制量108，进行高频振幅谱103的噪声抑制处理，并输出噪声被抑制的高频振幅谱110。这里，作为高频抑制量控制部5和高频噪声抑制部7的处理方法，例如可以采用与实施方式1同样的方法。

窄带编码部12输入窄带输出信号114和频带控制信号111，在频带控制信号111为“窄带模式”时，与实施方式1同样地，例如使用AMR语音编码方式等公知的编码方法，进行窄带输出信号114的压缩·编码。

宽带编码部13输入宽带输出信号115和频带控制信号111，在频带控制信号111为“宽带模式”时，与实施方式1同样地，例如使用AMR-WB语音编码方式等公知的编码方法，进行宽带输出信号115的压缩·编码。

根据本实施方式2，由于使用输入信号的全频带信号进行语音·噪声区间判定，按照其结果推定低频噪声谱以及高频噪声谱，因此具有如下效果：能够省略以往方法中需要的高频处理部的语音·噪声区间判定，能够削减处理量、存储量。

在上述两个效果的基础上，通过使用不仅包含输入信号的低频分量还包含高频分量的全频带信号进行语音·噪声区间判定，从而用于分析输入信号的语音相似性的信息量增多，语音·噪声区间判定精度提高，因此能够进一步提高噪声抑制装置的品质。

另外，由于噪声谱的子带结构在低频中为巴克谱频带、在高频中为等间隔频带结构，因此能够以较少的存储量，在低频中以听觉上良好的特性进行噪声谱推定，并且在高频中能够进行噪声分量的跟踪性优异的噪声谱推定。

在本实施方式中，为了简化说明而将频带分割数设为低频·高频的两个分割，但也可以如0～4kHz/4～7kHz/7～8kHz这样是三个以上的分割数，分割后的带宽也可以不同，能够与各种语音声音编码方式对应。

实施方式3.

作为实施方式2的变形例，也可以将输入到全频带处理部203内的全频带语音·噪声区间判定部18的全频带振幅谱频带分割为多个频带，将实施了各频带的语音·噪声区间判定的综合结果作为全频带语音·噪声区间判定结果，关于之后的处理设为与实施方式2同样的结构，下面将此作为实施方式3进行说明。

全频带语音·噪声区间判定部18中的全频带振幅谱116的频带分割方法、频带分割数无需局限于低频处理部201与高频处理部202的频带，例如也可以为0～2kHz/2～4kHz/4～8kHz的三分割。另外，为了对在语音检测中重要的频带重叠分析频带，可以0～4kHz/2～8kHz等这样频带重叠，或者，为了避开峰值性的噪声经常混入的频带而进行分析，也可以为1kHz～4kHz/6～8kHz等这样漏掉频带。如上所述，通过重叠语音检测中重要的频带，或者避开峰值性噪声而进行分析，从而能够进一步提高语音·噪声区间判定精度。

作为频带分割的各频带的语音·噪声区间判定方法，例如可以采用与实施方式2同样的手法，面向各频带对式(9)和式(10)进行变形而适用的基础上，对频谱数、阈值常数等参数结合分割的频带进行适宜调整即可。以上，对得到的各频带中的语音相似性信号例如进行下式(12)所示的加权平均，将作为其结果的全频带的语音相似性信号VAD_WIDE作为全频带语音·噪声区间判定结果信号117进行输出。

{VAD}_{WIDE} = \frac{1}{M} Σ_{m = 0}^{M - 1} w_{VAD} (m) \cdot {VAD}_{SB} (m)

式(12)

这里，M为频带分割数，VAD_SB(m)为频带分割的频带m中的语音相似性信号。另外，W_VAD(m)为频带m中的规定的加权系数，与频带分割方法、噪声的种类等相应地进行适宜调整以使语音·噪声区间判定结果良好即可。

根据本实施方式3，在语音·噪声区间判定中，通过重叠语音检测中重要的频带，或者避开峰值性噪声而进行分析，从而能够进一步提高语音·噪声区间判定精度，在实施方式2所述的效果的基础上，进一步提高噪声抑制装置的品质。

实施方式4.

作为实施方式1的变形例，也可以在语音解码处理后进行噪声抑制，下面将此作为实施方式4进行说明。

图5表示实施方式4的噪声抑制装置的整体结构，与图1的结构的不同点在于：在噪声抑制装置200的输入侧包括窄带解码部19、宽带解码部20、增采样部21、切换部22。另外，图1中的窄带编码部12和宽带编码部13并未连接。由于其他结构与图1同样，因此对于对应的部分标注相同符号并省略其说明。

例如，经由有线·无线通信线路、存储器等存储单元等，根据用于切换解码方式的频带控制信号111，在频带控制信号111为“窄带模式”时，窄带编码数据118输入到窄带解码部19，在频带控制信号111为“宽带模式”时，宽带编码数据119输入到宽带解码部20。此外，各自的编码数据为语音编码部(例如，AMR语音编码方式、AMR-WB语音编码方式)另行对语音声音信号进行编码的结果。

窄带解码部19对窄带编码数据118进行与所述语音编码部对应的规定的解码处理，向后述的增采样部21输出窄带解码信号120。

宽带解码部20对宽带编码数据119进行与所述语音编码部对应的规定的解码处理，向切换部22输出宽带解码信号121。

增采样部21输入窄带解码信号120，对与宽带解码信号121相同的采样频率进行增采样处理，作为被增采样的窄带解码信号122进行输出。

切换部22输入宽带解码信号121、被增采样的窄带解码信号122、以及频带控制信号111，在频带控制信号111为“窄带模式”时，将被增采样的窄带解码信号122作为解码信号123进行输出，在频带控制信号111为“宽带模式”时，将宽带解码信号121作为解码信号123进行输出。

时间·频率转换部1与实施方式1同样地，代替输入信号100对解码信号123进行帧分割、加窗处理，对加窗后的信号例如进行FFT，将作为每个频率的频谱分量的低频振幅谱102向低频处理部201中的省略图示的语音·噪声区间判定部2、低频抑制量控制部4、低频噪声抑制部6、以及噪声谱推定部3输出，另外，分别对高频处理部202中的省略图示的高频抑制量控制部5和高频噪声抑制部7、以及噪声谱推定部3输出高频振幅谱103。

噪声谱推定部3使用语音·噪声区间判定结果信号104、低频振幅谱102、以及高频振幅谱103，推定解码信号123中的平均噪声谱，作为低频噪声谱105以及高频噪声谱106进行输出。此外，关于该噪声谱推定部3内的结构和各处理、以及语音·噪声区间判定部2的处理，可以使用与实施方式1相同的处理。

关于以后的处理内容，由于与实施方式1同样，因此省略说明。

根据本实施方式4，由于在噪声抑制装置中作为重要结构的语音·噪声区间判定、噪声谱推定能够在低频处理和高频处理中通用，因此具有如下效果：无需在低频·高频分别独立地调整控制参数，简化这些控制和调整。

另外，通过形成本实施方式的结构，能够以较少的存储量·处理量构成可以与多个不同频带的语音声音解码方式对应的频带可伸缩结构的噪声抑制装置。

此外，即使将图5所示的本实施方式中的噪声抑制装置200的内部结构置换为图4所示的实施方式2的噪声抑制装置200的内部结构，也能够达到与上述同样的效果。

实施方式5.

从上述实施方式1到实施方式4中，通过快速傅里叶变换计算出频谱分量，实施变形处理，通过快速傅里叶逆变换返回到时域的信号，但也可以为代替快速傅里叶变换对带通滤波器组的各输出实施噪声抑制处理，通过相加各频带信号而得到输出信号的结构，还可以使用小波(Wavelet)变换等变换函数。

根据本实施方式5，不使用傅里叶变换的结构也能够得到与实施方式1到实施方式4所述的同样的效果。

产业上的可利用性

如上所述，本发明所涉及的噪声抑制装置涉及从混入了噪声的输入信号中抑制作为目的外信号的噪声的结构，适合使用于在各种噪声环境下所使用的语音通信系统、语音存储系统、语音识别系统。

Claims

1.一种噪声抑制装置，其特征在于，

将输入信号分割为多个频带，按照该分割后的多个频带之中的规定的频带分量的分析结果，进行所述规定的频带分量的噪声抑制、以及所述规定的频带以外的频带分量的噪声抑制。

2.根据权利要求1所述的噪声抑制装置，其特征在于，

包括噪声分量推定单元，该噪声分量推定单元从输入信号中提取属于多个频带的各频带的推定噪声分量，

所述推定噪声分量的内部分量的细分程度针对每个所述频带而不同。

3.根据权利要求2所述的噪声抑制装置，其特征在于，

作为推定噪声分量的内部分量的细分程度，在低频部分中非均等地细分所述推定噪声分量，在高频部分中均等地细分所述推定噪声分量。

4.一种噪声抑制装置，其特征在于，包括：

分析单元，分析输入信号的全频带分量；

多个噪声抑制单元，进行对所述输入信号进行频带分割而得到的多个频带分量的噪声抑制；以及

切换单元，切换全频带分量或者一部分频带分量的噪声抑制单元，

其中，

按照所述分析单元的分析结果，进行全频带分量或者一部分频带分量的噪声抑制处理。