JP6544234B2

JP6544234B2 - 信号処理装置、信号処理方法および信号処理プログラム

Info

Publication number: JP6544234B2
Application number: JP2015511204A
Authority: JP
Inventors: 正徳加藤; 昭彦杉山
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2013-04-11
Filing date: 2014-03-27
Publication date: 2019-07-17
Anticipated expiration: 2034-03-27
Also published as: US10741194B2; EP2985761A1; CN105144290B; US20160055863A1; EP2985761B1; JPWO2014168021A1; WO2014168021A1; EP2985761A4; CN105144290A

Description

本発明は、非定常成分を持つ雑音の抑圧技術に関する。

上記技術分野において、特許文献１には、入力音響信号を低・中・高帯域に分離して風雑音を低減する技術が開示されている。特許文献１では、中帯域成分から低帯域の復元信号を生成し、復元信号とオリジナルの低帯域信号とを加重加算することにより低帯域用の補正音響信号を生成し、中帯域成分の信号レベルを低減することにより中帯域用の補正音響信号を生成する。最後に、低帯域用および中帯域用の各補正音響信号とオリジナルの高帯域信号を合成して、強調信号を生成している。

特許文献２は、入力音を低・高帯域に分離して、風雑音である確率に応じて、低帯域音声信号に含まれる風雑音を抑圧する技術が開示されている。

特開2009-55583号公報特開2012-239017号公報国際公開WO/2012/070668号公報

M. Kato, A. Sugiyama, and M. Serizawa, "Noise suppression with high speech quality based on weighted noise estimation and MMSE STSA," IEICE Trans. Fundamentals (Japanese Edition), vol.J87-A, no.7, pp.851-860, July 2004. R. Martin, "Spectral subtraction based on minimum statistics," EUSPICO-94, pp.1182-1185, Sept. 1994 IEEE TRANSACTIONS ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING,VOL.32, NO.6, PP.1109-1121, DEC, 1984 3GPP Technical Specification 26.094, vol. 5.0.0, June 2002. 3GPP Technical Specification 26.194, vol. 5.0.0, March 2001. A. Davis, S. Nordholm, R. Togneri, "Statistical Voice Activity Detection Using Low-Variance Spectrum Estimation and an Adaptive Threshold," IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 14, no. 2, pp. 412-424, March 2006. K. Li, M. N. S. Swamy, M. O. Ahmad, "An Improved Voice Activity Detection Using Higher Order Statistics," IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, vol. 13, no. 5, pp. 965-974, September 2005.

しかしながら、上記文献１、２に記載の技術は、いずれも、低い帯域の音声信号の信号レベルを低減することによって風雑音を単純に抑圧しているだけであり、風雑音のような非定常な雑音の抑圧方法としては、効果的な方法ではなかった。結果的に、入力音を聞きやすい音に変化させることができていなかった。

本発明の目的は、上述の課題を解決する技術を提供することにある。

上記目的を達成するため、本発明に係る信号処理装置は、
入力信号を、周波数領域における振幅成分信号に変換する変換手段と、
周波数領域における前記振幅成分信号に基づいて、定常的な特性を備えた周波数スペクトルを有する定常成分信号を推定する定常成分推定手段と、
前記振幅成分信号と前記定常成分信号とがある周波数においてあらかじめ定められた大小関係を満たすときに、前記振幅成分信号または前記定常成分信号を用いて当該周波数における新たな振幅成分信号を生成し、前記変換手段が求めた振幅成分信号を前記新たな振幅成分信号に置き換える置換手段と、
前記新たな振幅成分信号を用いて強調信号に逆変換する逆変換手段と、
を備えた。

上記目的を達成するため、本発明に係る信号処理方法は、
入力信号を、周波数領域における振幅成分信号に変換する変換ステップと、
周波数領域における前記振幅成分信号に基づいて、定常的な特性を備えた周波数スペクトルを有する定常成分信号を推定する定常成分推定ステップと、
前記振幅成分信号と前記定常成分信号とがある周波数においてあらかじめ定められた大小関係を満たすときに、前記振幅成分信号または前記定常成分信号を用いて当該周波数における新たな振幅成分信号を生成し、前記変換手段が求めた振幅成分信号を前記新たな振幅成分信号に置き換える置換ステップと、
前記新たな振幅成分信号を用いて強調信号に逆変換する逆変換ステップと、
を備えた。

上記目的を達成するため、本発明に係る信号処理プログラムは、
入力信号を、周波数領域における振幅成分信号に変換する変換ステップと、
周波数領域における前記振幅成分信号に基づいて、定常的な特性を備えた周波数スペクトルを有する定常成分信号を推定する定常成分推定ステップと、
前記振幅成分信号と前記定常成分信号とがある周波数においてあらかじめ定められた大小関係を満たすときに、前記振幅成分信号または前記定常成分信号を用いて当該周波数における新たな振幅成分信号を生成し、前記変換手段が求めた振幅成分信号を前記新たな振幅成分信号に置き換える置換ステップと、
前記新たな振幅成分信号を用いて強調信号に逆変換する逆変換ステップと、
をコンピュータに実行させる。

本発明によれば、入力音を聞きやすい音に変化させることができる。

本発明の第１実施形態に係る信号処理装置の構成を示すブロック図である。本発明の第２実施形態に係る信号処理装置の構成を示すブロック図である。本発明の第２実施形態に係る変換部の構成を示すブロック図である。本発明の第２実施形態に係る逆変換部の構成を示すブロック図である。本発明の第２実施形態に係る信号処理装置による信号処理結果を示す図である。本発明の第２実施形態に係る信号処理装置による信号処理結果を示す図である。本発明の第２実施形態に係る信号処理装置による信号処理結果を示す図である。本発明の第３実施形態に係る置換部の構成を示すブロック図である。本発明の第３実施形態に係る信号処理装置による信号処理結果を示す図である。本発明の第３実施形態に係る信号処理装置による信号処理結果を示す図である。本発明の第４実施形態に係る置換部の構成を示すブロック図である。本発明の第４実施形態に係る置換部による信号処理結果を示す図である。本発明の第４実施形態に係る置換部による信号処理結果を示す図である。本発明の第５実施形態に係る置換部の構成を示すブロック図である。本発明の第５実施形態に係る置換部による信号処理結果を示す図である。本発明の第６実施形態に係る置換部の構成を示すブロック図である。本発明の第６実施形態に係る置換部による信号処理結果を示す図である。本発明の第７実施形態に係る置換部の構成を示すブロック図である。本発明の第８実施形態に係る信号処理装置の構成を示すブロック図である。本発明の第９実施形態に係る信号処理装置の構成を示すブロック図である。本発明の第９実施形態に係る音声検出部の構成の一例を示すブロック図である。本発明の第９実施形態に係る音声検出部の構成の他の例を示すブロック図である。本発明の第９実施形態に係る信号処理装置による信号処理結果を示す図である。本発明の第１０実施形態に係る置換部の構成を示すブロック図である。本発明の第１１実施形態に係る置換部の構成を示すブロック図である。本発明の第１２実施形態に係る置換部の構成を示すブロック図である。本発明の第１３実施形態に係る置換部の構成を示すブロック図である。本発明の第１４実施形態に係る置換部の構成を示すブロック図である。本発明の第１５実施形態に係る信号処理装置の構成を示すブロック図である。本発明の第１５実施形態に係る雑音抑圧部の構成を示すブロック図である。本発明の第１６実施形態に係る置換部の構成を示すブロック図である。本発明の第１７実施形態に係る信号処理装置の構成を示すブロック図である。本発明の実施形態に係る信号処理装置をソフトウェアで実現する場合の構成を示すブロック図である。

以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素はあくまで例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。なお、以下の説明中における「音声信号」とは、音声その他の音響に従って生ずる直接的の電気的変化であって、音声その他の音響を伝送するためのものをいい、音声に限定されない。

［第１実施形態］
本発明の第１実施形態としての信号処理装置１００について、図１を用いて説明する。図１に示すように、信号処理装置１００は、変換部１０１と定常成分推定部１０２と置換部１０３と逆変換部１０４とを含む装置である。

変換部１０１は、入力信号１１０を、周波数領域における振幅成分信号１３０に変換する。

定常成分推定部１０２は、周波数領域における振幅成分信号１３０に基づいて、定常的な特性を備えた周波数スペクトルを有する定常成分信号１４０を推定する。置換部１０３は、振幅成分信号１３０と定常成分信号１４０とを用いて、新たな振幅成分信号１５０を生成し、振幅成分信号１３０を、新たな振幅成分信号１５０に置き換える。逆変換部１０４は、新たな振幅成分信号１５０を用いて強調信号１６０に逆変換する。

以上のような構成により、入力音に含まれた雑音を定常的な聞きやすい雑音で置換することで、耳障りな非定常な雑音を抑圧することができる。

［第２実施形態］
《全体構成》
本発明の第２実施形態としての信号処理装置について図を用いて説明する。本実施形態としての信号処理装置は、例えば、風切り音のような非定常雑音を適切に抑圧する。簡単に説明すると、周波数領域において、入力音中の定常成分を推定して、推定された定常成分で入力音の一部または全部を置換する。ここで入力音は音声に限定されるものではない。例えば、音声以外に、環境音(街頭の雑踏の音、電車・自動車の走行音、警報・警告音、拍手の音など)、人や動物の声(小鳥のさえずり、犬・猫の鳴き声、笑い声や泣き声、歓声、など)、音楽などを入力音としてもよい。なお、本実施形態では、音声を入力音の代表例として説明する。

図２Ａは、信号処理装置２００の全体構成を示すブロック図である。入力端子２０６には、劣化信号(所望信号と雑音の混在する信号)が、サンプル値系列として供給される。入力端子２０６に供給された劣化信号は、変換部２０１においてフーリエ変換などの変換を施されて複数の周波数成分に分割される。複数の周波数成分は周波数ごとに独立して処理される。ここでは、特定の周波数成分に注目して説明を続ける。周波数成分のうち振幅スペクトル（振幅成分）|Ｘ(k, n)|は、定常成分推定部２０２および置換部２０３へ供給され、位相スペクトル（位相成分）２２０は、逆変換部２０４に供給される。なお、ここでは変換部２０１が、定常成分推定部２０２および置換部２０３に劣化信号振幅スペクトル|Ｘ(k, n)|を供給しているが、本発明はこれに限定されるものではなく、その二乗に相当するパワースペクトルを供給してもよい。

定常成分推定部２０２は、変換部２０１から供給される劣化信号振幅スペクトル|Ｘ(k, n)|に含まれる定常成分を推定し、定常成分信号（定常成分スペクトル）Ｎ(k, n)を生成する。

置換部２０３は、変換部２０１から供給された劣化信号振幅スペクトル|Ｘ(k, n)|を、生成した定常成分スペクトルＮ(k, n)を用いて置換し、置換結果としての強調信号振幅スペクトル|Ｙ(k, n)|を逆変換部２０４に伝達する。

逆変換部２０４は、変換部２０１から供給された劣化信号位相スペクトル２２０と、置換部２０３から供給された強調信号振幅スペクトル|Ｙ(k, n)|とを合成して逆変換を行い、強調信号として、出力端子２０７に供給する。

《変換部の構成》
図２Ｂは、変換部２０１の構成を示すブロック図である。図２Ｂに示すように、変換部２０１はフレーム分割部２１１、窓がけ処理部(windowing unit)２１２、およびフーリエ変換部２１３を含む。劣化信号サンプルは、フレーム分割部２１１に供給され、Ｋ／２サンプルごとのフレームに分割される。ここで、Ｋは偶数とする。フレームに分割された劣化信号サンプルは、窓がけ処理部２１２に供給され、窓関数(window function)であるw(t)との乗算が行なわれる。第ｎフレームの入力信号x(t, n) (t=0, 1, ..., K/2-1) に対するw(t)で窓がけ(windowing)された信号は、次式で与えられる。

また、連続する２フレームの一部を重ね合わせ(オーバラップ)して窓がけしてもよい。オーバラップ長としてフレーム長の５０％を仮定すれば、t=0, 1, ..., K-1 に対して、以下の式で得られる左辺が、窓がけ処理部２１２の出力となる。

実数信号に対しては、左右対称窓関数が用いられる。また、窓関数は、変換部２０１の出力を逆変換部２０４に直接供給したときの入力信号と出力信号が計算誤差を除いて一致するように設計される。これは、w²(t)+w²(t+K/2)=1 となることを意味する。

以後、連続する２フレームの５０％をオーバラップして窓がけする場合を例として説明を続ける。w(t)としては、例えば、次式に示すハニング窓を用いることができる。

このほかにも、ハミング窓、三角窓など、様々な窓関数が知られている。窓がけされた出力はフーリエ変換部２１３に供給され、劣化信号スペクトルＸ(k, n)に変換される。劣化信号スペクトルＸ(k, n)は位相と振幅に分離され、劣化信号位相スペクトルargＸ(k, n)は逆変換部２０４に、劣化信号振幅スペクトル|Ｘ(k, n)|は、定常成分推定部２０２および置換部２０３に供給される。既に説明したように、振幅スペクトルの代わりにパワースペクトルを利用することもできる。

《逆変換部の構成》
図２Ｃは、逆変換部２０４の構成を示すブロック図である。図２Ｃに示すように、逆変換部２０４は逆フーリエ変換部２４１、窓がけ処理部２４２およびフレーム合成部２４３を含む。逆フーリエ変換部２４１は、置換部２０３から供給された強調信号振幅スペクトル(|Ｙ(k, n)|)（図中Ｙ）と変換部２０１から供給された劣化信号位相スペクトル２２０(arg Ｘ(k, n))とを用いて、以下のように強調信号スペクトルＹ(k, n)を求める。

ただし、j は虚数単位である。
得られた強調信号スペクトルに逆フーリエ変換を施し、１フレームがＫサンプルを含む時間領域サンプル値系列 y(t, n) (t=0, 1, ..., K-1)として、窓がけ処理部２４２に供給され、窓関数w(t)との乗算が行なわれる。第ｎフレームの強調信号 y(t, n) (t=0, 1, ..., K-1)に対してw(t)で窓がけされた信号は、次式の左辺で与えられる。

フレーム合成部２４３は、窓がけ処理部２４２からの隣接する２フレームの出力を、Ｋ／２サンプルずつ取り出して重ね合わせ、以下の式によって、t=0, 1, ..., K/2-1における出力信号（式の左辺）を得る。得られた出力信号２６０は、フレーム合成部２４３から出力端子２０７に伝達される。

なお、図２Ｂと図２Ｃにおいて変換部２０１と逆変換部２０４における変換をフーリエ変換として説明したが、フーリエ変換に代えて、アダマール変換、ハール変換、ウェーブレット変換など、他の変換を用いることもできる。ハール変換は、乗算が不要となり、ＬＳＩ化したときの面積を小さくすることができる。ウェーブレット変換は、周波数によって時間解像度を異なったものに変更できるために、雑音抑圧効果の向上が期待できる。

また、変換部２０１において得られる周波数成分を複数統合してから、定常成分推定部２０２で定常成分の推定を行うこともできる。統合後の周波数成分の数は、統合前の周波数成分の数よりも小さくなる。具体的には、周波数成分の統合によって得られる統合周波数成分に対して共通の定常成分スペクトルを求め、それを同一統合周波数成分に属する個別の周波数成分に対して共通に用いればよい。このように、複数の周波数成分を統合してから定常成分信号の推定を実行すると、適用する周波数成分の数が少なくなり、全体の演算量を削減することができる。

（定常成分スペクトルの定義）
定常成分スペクトルとは、入力信号振幅スペクトルに含まれる定常成分のことである。定常成分は、パワーの時間変化が入力信号よりも小さいという特徴を持つ。時間変化は差分または比で算出されることが一般的である。時間変化を差分で計算する場合、あるフレーム n において入力信号振幅スペクトルと定常成分スペクトルを比較すると、次式の関係を満足する周波数 k が少なくとも１つは存在する。

また、時間変化を比で計算する場合には、次式の関係を満足する周波数 k が少なくとも１つは存在する。

つまり、全てのフレームnと周波数 k において、上式の左辺のほうが右辺よりも必ず大きい場合、Ｎ(k, n)は定常成分スペクトルでは無い、と定義できる。関数がＸとＮの指数や対数、累乗でも同様に定義できる。

（定常成分スペクトルの導き方）
定常成分スペクトルの推定には、非特許文献１や非特許文献２に記載の方法など、様々な推定方法が利用できる。

例えば、非特許文献１には、推定雑音スペクトルを、目的音が発生していないフレームの劣化信号振幅スペクトルの平均値とする方法が開示されている。この方法では目的音の発生を検出する必要がある。目的音の発生している区間は、強調信号のパワーで判断することができる。

理想的な動作状態として、強調信号は雑音以外の目的音となっている。また、目的音や雑音のレベルは、隣接フレーム間で大きく変化しない。これらのことから、１フレーム過去の強調信号レベルを雑音区間判定の指標とする。１フレーム過去の強調信号パワーが一定値以下の時には、現フレームを雑音区間と判定する。雑音スペクトルは、雑音区間と判定されたフレームの劣化信号振幅スペクトルを平均化することで推定できる。

また、非特許文献１には、推定雑音スペクトルを、劣化信号振幅スペクトルが供給され始めた推定初期の平均値とする方法も開示されている。この場合、推定が開始された直後には目的音が含まれないという条件を満たす必要がある。条件が満たされる場合、推定初期の劣化信号振幅スペクトルを推定雑音スペクトルとすることができる。

さらに、非特許文献２には、推定雑音スペクトルを、劣化信号振幅スペクトルの最小値（最小統計量）から求める方法が開示されている。この方法では、一定時間における劣化信号振幅スペクトルの最小値を保持し、その最小値から雑音スペクトルを推定する。劣化信号振幅スペクトルの最小値は、雑音スペクトルのスペクトル形状と似ているため、雑音スペクトル形状の推定値として用いることができる。しかし、最小値では、本来の雑音レベルより小さくなる。そのため、最小値を適切に増幅させたものを推定雑音スペクトルとする。

その他、メジアンフィルタを用いて、推定雑音スペクトルを求めてもよい。雑音がゆっくり変動するという性質を利用して、変化する雑音に追従する雑音推定方法であるＷｉＮＥ(Weighted Noise Estimation)を用いて、推定雑音スペクトルを求めてもよい。

そして、このように求められた推定雑音スペクトルを、定常成分スペクトルとして用いることができる。

（スペクトル形状）
図３は、ある時刻 n における、劣化信号振幅スペクトル（以降、入力信号ともいう）|Ｘ(k, n)|と定常成分スペクトル(定常成分信号)Ｎ(k, n)と、強調信号振幅スペクトル（以降、処理結果）|Ｙ(k, n)|との関係を示す図である。図中では、それぞれＸ、Ｎ、およびＹと表記している。本実施形態では、全ての周波数において入力信号|Ｘ(k, n)|を定常成分信号Ｎ(k, n)の所定係数α(k, n)倍のα(k, n)Ｎ(k, n)で置き換える。図３では、α(k, n)＝０．８とした場合の例を示している。

置き換えに用いる振幅スペクトル(置換用振幅スペクトル)を求める関数としては、α(k, n)Ｎ(k, n)に代表されるようなＮ(k, n)の線形写像関数に限定されない。例えば、α(k, n)Ｎ(k, n)+Ｃ(k, n) のように一次関数を採用することも可能である。その際、Ｃ(k, n)＞0とすれば置換用振幅スペクトルのレベルを全体的に向上できるので、聞いた時の定常感が向上する。Ｃ(k, n) ＜ 0 の場合には、置換用振幅スペクトルのレベルを全体的に低減できるが、その際にはスペクトルの値が負になる帯域が出現しないようにＣ(k, n)を調整する必要がある。その他にも、高次の多項式関数や非線形関数など、他の形で表される定常成分スペクトルＮ(k, n)の関数を用いることも可能である。

図４は、劣化信号振幅スペクトルと、強調信号振幅スペクトルと定常成分振幅スペクトルの時間・周波数変化を表現する図である。図４のように、入力信号|Ｘ(k, n)|と定常成分信号Ｎ(k, n)との周波数スペクトルを複数の時刻について、連続して表現することで、時間的な、振幅スペクトルの変化を理解することができる。

図５は、ある周波数における、劣化信号振幅スペクトル、出力する強調信号振幅スペクトル、および定常成分スペクトルの時間変化を表現する図である。図５のように、入力信号|Ｘ(k, n)|を定常成分信号Ｎ(k, n)の係数α(k, n)倍で置き換えれば、振幅スペクトルの時間変化を定常化することができる。すなわち、本実施形態では、入力信号振幅スペクトル|Ｘ(k, n)|を、少なくとも時間方向で定常的に変化するスペクトルで置き換えることで、振幅成分の周波数領域での「飛び出し」を抑えることができる。これにより、時間領域のみで、ならしただけでは実現できなかった風切り音のような非定常成分の強い雑音の抑圧を実現できる。雑音成分の周波数領域での定常化により、雑音成分を小さくするのではなく、雑音を聞きやすい音に変化させることができる。

風切り音は、非定常性が高いため、推定しようとすると精度が落ち、従来の雑音推定では対応できなかったが、周波数方向の平均をとるなど、定常成分信号を生成して、置き換えると、追従性を確保しつつ、耳障りではない音に変化させることができる。

（係数αについて）
定常成分信号Ｎ(k, n)に積算する係数α(k, n)としては経験的に適切な値を決める。例えば、α(k, n)＝１なら、|Ｙ(k, n)|＝Ｎ(k, n)となり、定常成分信号Ｎ(k, n)がそのまま逆変換部１０４への出力信号となる。このとき、定常成分信号Ｎ(k, n)が大きいと、大きな雑音が残ってしまう。そこで、逆変換部１０４へ出力する振幅成分の最大値が所定値以下になるように、α(k, n)を定めてもよい。例えば、α(k, n)＝０．５ならパワー半分の定常成分信号Ｎ(k, n)に置き換えることになる。α(k, n)＝０．１だと、音は小さくなって形は定常成分信号Ｎ(k, n)と同じスペクトル形になる。

例えば、ＳＮ比が高いときは静かなため、α(k, n)を小さくして、強く抑圧してもよい。逆に、ＳＮ比が高い時は、ノイズが小さいので、α(k, n)を１にして、残すことが考えられる。

そのほかには、高域が強調されて耳障りになることに配慮して、α(k, n)はkがある閾値以上ならば十分小さい値となる関数や、k が大きくなるほど小さい値になる k の単調減少関数としてもよい。

本実施形態によれば、出力信号の雑音成分を定常化できるので、音質が従来よりも向上する。なお、置換部２０３は、周波数毎ではなく、サブバンドごとに、振幅成分を置き換えてもよい。

［第３実施形態］
次に本発明の第３実施形態に係る信号処理装置について、図６〜図８を用いて説明する。図６は、本実施形態に係る信号処理装置の置換部６０３の構成を説明するための図である。本実施形態に係る置換部６０３は、上記第２実施形態と比べると、比較部６３１と上側置換部６３２を有する点で異なる。その他の構成および動作は、第２実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

比較部６３１は、劣化信号振幅スペクトル|Ｘ(k, n)|と、定常成分スペクトルＮ(k, n)を第１関数としての線形写像関数で計算した第１閾値とを比較する。本実施形態では線形写像関数のなかで代表的なものである定数倍、つまりα1(k, n)倍と比較する場合について説明を行う。上側置換部６３２は、振幅（パワー）成分|Ｘ(k, n)|が定常成分信号Ｎ(k, n)のα1 (k, n)倍よりも大きいところのみ、置換用振幅スペクトル、つまり第２関数としての定常成分信号Ｎ(k, n)のα2(k, n)倍に置き換え、小さいところはそのままのスペクトル形状を置換部６０３の出力信号|Ｙ(k, n)|とする。つまり、|Ｘ(k, n)|＞α1(k, n)Ｎ(k, n)ならば|Ｙ(k, n)|＝α2(k, n)Ｎ(k, n)、そうでなければ、|Ｙ(k, n)|＝|Ｘ(k, n)|となる。

劣化信号振幅スペクトル|Ｘ(k, n)|との比較に用いるスペクトルの計算方法は、定常成分スペクトルＮ(k, n)の線形写像関数を用いた方法に限定されない。例えば、α１(k, n)Ｎ(k, n)+Ｃ(k, n) のように一次関数を採用することも可能である。その際、Ｃ(k, n) ＜ 0とすれば定常成分信号に置き換えられる帯域が増えるので、耳障りな非定常雑音を多く抑圧できる。その他にも、高次の多項式関数や非線形関数など、他の形で表される定常成分スペクトルＮ(k, n)の関数を用いることも可能である。

図７は、α1(k, n)＝α2(k, n)=1.0とした場合の入力信号|Ｘ(k, n)|と定常成分信号Ｎ(k, n)と出力信号|Ｙ(k, n)|との関係を示す図である。

定常成分信号の所定係数倍の閾値α1(k, n)Ｎ(k, n)よりもパワーが大きい周波数帯域において、入力信号の変動が大きい場合に効果的である。一方、定常成分信号の所定係数倍の閾値α1(k, n)Ｎ(k, n)よりもパワーが小さい帯域における自然性を保持できるため、音質が向上する。

図８は、α1(k, n)＞α2(k, n)とすべき場合の入力信号|Ｘ(k, n)|と定常成分信号Ｎ(k, n)と出力信号|Ｙ(k, n)|との関係を示す図である。図８のような入力信号|Ｘ(k, n)|の場合、α1(k, n)＝α2(k, n)とすると、上のグラフのように、スペクトルの定常化が十分ではなく、風切り音のような非定常成分の強い雑音の抑圧が十分に行なえない。

そこで、図８の下側に示すように、時刻ｔ３の前後において、α1(k, n)＞α2(k, n)とすることにより、より定常性の高いスペクトルに置き換えることができる。

α2(k, n)については、各時刻について、以下の（１）→（２）の手順で求めることができる。
（１）あらかじめ入力信号の短時間移動平均X_bar(k, n)（kとnは、それぞれ周波数および時刻に対応するインデックス）を、例えば、以下のように計算しておく|X_bar(k, n)| = (|Ｘ(k, n-2)| + |Ｘ(k, n-1)| + |Ｘ(k, n)| + |Ｘ(k, n+1)| + |Ｘ(k, n+2)|)/5（２）短時間移動平均(|X_bar(k, n)|)と置き換え後の値(α2(k, n)・Ｎ(k, n))の差分を計算し、差分が大きければ、差分が小さくなるようにα2(k, n)の値を変更する。変更後の値を α2_hat(k, n) とすると、変更方法は、以下が考えられる。 (a)一様に α2_hat(k, n) = 0.5・α2(k, n) とする (あらかじめ定めた値で定数倍する)。 (b)α2_hat(k, n) = |X_bar(k, n)|/|Ｎ(k, n)| とする (|X_bar(k, n)| と |Ｎ(k, n)|を使って計算する)。 (c)α2_hat(k, n) = 0.8・|X_bar(k, n)|/|Ｎ(k, n)| + 0.2 とする (同上)。

しかし、α2(k, n)の求め方は、上述に限るものではない。例えば、時刻にかかわらず一定値となるα2(k, n)をあらかじめ設定しておいてもよい。その場合、処理した音声を実際に聞いて、α2(k, n)の値を決めてもよい。すなわち、マイクや、そのマイクが取り付けられたデバイスの特性に応じたα2(k, n)の値を決めてもよい。

［第４実施形態］
次に本発明の第４実施形態に係る信号処理装置について、図９〜図１１を用いて説明する。図９は、本実施形態に係る信号処理装置の置換部９０３の構成を説明するための図である。本実施形態に係る置換部９０３は、上記第２実施形態と比べると、比較部９３１と下側置換部９３２を有する点で異なる。その他の構成および動作は、第２実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

比較部６３１は、劣化信号振幅スペクトル|Ｘ(k, n)|と、定常成分信号Ｎ(k, n)の第３関数としてのβ1(k, n)倍（第２閾値）と比較する。下側置換部９３２は、振幅（パワー）成分|Ｘ(k, n)|が定常成分信号Ｎ(k, n)のβ１(k, n)倍より小さいところのみ、定常成分信号Ｎ(k, n)の第４関数としてのβ２(k, n)倍に置き換え、大きいところはそのままのスペクトル形状を置換部６０３の出力信号|Ｙ(k, n)|とする。つまり、|Ｘ(k, n)|＞β１(k, n)Ｎ(k, n)ならば|Ｙ(k, n)|＝β２(k, n)Ｎ(k, n)、そうでなければ、|Ｙ(k, n)|＝|Ｘ(k, n)|となる。

図１０は、β１(k, n)＝β２(k, n)とした場合の入力信号|Ｘ(k, n)|と定常成分Ｎ(k, n)と出力信号|Ｙ(k, n)|との関係を示す図である。

定常成分信号の所定係数倍の閾値β1(k, n)Ｎ(k, n)よりもパワーが小さい周波数帯域において、入力信号の変動が大きい場合に効果的である。一方、定常成分信号の所定係数倍の閾値β1(k, n)Ｎ(k, n)よりもパワーが小さい帯域における自然性を保持できるため、音質が向上する。

図１１は、β１(k, n)＜β２(k, n)とすべき場合の入力信号|Ｘ(k, n)|と定常成分信号Ｎ(k, n)と出力信号|Ｙ(k, n)|との関係を示す図である。図１１のような入力信号|Ｘ(k, n)|の場合、β１(k, n)＝β２(k, n)とすると、上のグラフのように、スペクトルの定常化が十分ではなく、風切り音のような非定常成分の強い雑音の抑圧が十分に行なえない。

そこで、図１１の下側に示すように、時刻n=ｔ５の前後において、β１(k, n)＜β２(k, n)とすることにより、より定常性の高いスペクトルに置き換えることができる。

β(k, n)については、各時刻について、以下の（１）→（２）の手順で求めることができる。
（１）あらかじめ入力信号の短時間移動平均X_bar(k, n)（kとnは、それぞれ周波数および時刻に対応するインデックス）を、例えば、以下のように計算しておくX_bar(k, n) = (Ｘ(k, n-2) + Ｘ(k, n-1) + Ｘ(k, n) + Ｘ(k, n+1) + Ｘ(k, n+2))/5（２）短時間移動平均(X_bar(k, n))と置き換え後の値(β2(k, n)・Ｎ(k, n))の差分を計算し、差分が大きければ、差分が小さくなるようにβ２(k, n)の値を変更する。変更後の値を β2_hat(k, n) とすると、変更方法は、以下が考えられる。 (a)一様に β2_hat(k, n) = 0.5・β2(k, n) とする (あらかじめ定めた値で定数倍する)。 (b)β2_hat(k, n) = X_bar(k, n)/Ｎ(k, n) とする (X_bar(k, n) とＮ(k, n)を使って計算する)。 (c)β2_hat(k, n) = 0.8・X_bar(k, n)/Ｎ(k, n) + 0.2 とする (同上)。

しかし、β２(k, n)の求め方は、上述に限るものではない。例えば、時刻にかかわらず一定値となるβ２(k, n)をあらかじめ設定しておいてもよい。その場合、処理した音声を実際に聞いて、β２(k, n)の値を決めてもよい。すなわち、マイクや、そのマイクが取り付けられたデバイスの特性に応じたβ２(k, n)の値を決めてもよい。

条件：|Ｘ(k, n)| ＞ β1(k, n)・Ｎ(k, n) かつ β1(k, n)・Ｎ(k, n) − |X_bar(k, n)| ＞ δ
計算式１：β2(k, n-1) = X_bar(k, n)/Ｎ(k, n)
計算式２：β2(k, n) = X_bar(k, n)/Ｎ(k, n)
計算式３：β2(k, n+1) = X_bar(k, n)/Ｎ(k, n)
このように、定常成分信号Ｎ(k, n)では、短い時間での振幅成分の「飛び出し」を抑えきれない場合には、短時間移動平均を用いて置換して、音質を向上させることもできる。

［第５実施形態］
次に本発明の第５実施形態に係る信号処理装置について、図１２、図１３を用いて説明する。図１２は、本実施形態に係る信号処理装置の置換部１２０３の構成を説明するための図である。本実施形態に係る置換部１２０３は、上記第２実施形態と比べると、第１比較部１２３１と上側置換部１２３２と第２比較部１２３３と下側置換部１２３４を有する点で異なる。その他の構成および動作は、第２実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

第１比較部１２３１は、劣化信号振幅スペクトル|Ｘ(k, n)|と、定常成分信号Ｎ(k, n)の第５関数としてのα1(k, n)倍（第３閾値）とを比較する。上側置換部１２３２は、振幅（パワー）成分|Ｘ(k, n)|が定常成分信号Ｎ(k, n)のα1(k, n)倍より大きいところのみ、定常成分信号Ｎ(k, n)の第６関数としてのα2(k, n)倍に置き換え、小さいところはそのままのスペクトル形状を第２比較部１２３３への出力信号|Ｙ1(k, n)|とする。つまり、|Ｘ(k, n)|＞α1(k, n)Ｎ(k, n)ならば|Ｙ1(k, n)|＝α2(k, n)Ｎ(k, n)、そうでなければ、|Ｙ1(k, n)|＝|Ｘ(k, n)|となる。

一方、第２比較部１２３３は、上側置換部１２３２からの出力信号|Ｙ1(k, n)|と、定常成分信号Ｎ(k, n)の第７関数としてのβ１(k, n)倍（第４閾値）とを比較する。下側置換部１２３４は、上側置換部１２３２からの出力信号|Ｙ1(k, n)|が定常成分信号Ｎ(k, n)のβ１(k, n)倍より小さいところのみ、定常成分信号Ｎ(k, n)の第８関数としてのβ２(k, n)倍に置き換え、大きいところはそのままのスペクトル形状を出力信号|Ｙ2(k, n)|とする。つまり、|Ｙ1(k, n)|＜β1(k, n)Ｎ(k, n)ならば|Ｙ2(k, n)|=β2(k, n)Ｎ(k, n)そうでなければ、|Ｙ1(k, n)|＝|Ｙ2(k, n)|となる。

図１３は、α1(k, n)＝α2(k, n)、β１(k, n)＝β２(k, n)、とした場合の入力信号|Ｘ(k, n)|と定常成分信号Ｎ(k, n)と出力信号|Ｙ(k, n)|との関係を示す図である。

定常成分信号の所定係数倍の閾値α1(k, n)Ｎ(k, n)よりもパワーが大きい周波数帯域および閾値β1(k, n)Ｎ(k, n)よりもパワーが小さい周波数帯域において、入力信号の変動が大きい場合に効果的である。

［第６実施形態］
次に本発明の第６実施形態に係る信号処理装置について、図１４、図１５を用いて説明する。図１４は、本実施形態に係る信号処理装置の置換部１４０３の構成を説明するための図である。本実施形態に係る置換部１４０３は、上記第３実施形態と比べると、上側置換部１４３２が劣化信号振幅スペクトル|Ｘ(k, n)|の係数α(k, n)倍を用いて置換を行う処理が異なる。その他の構成および動作は、第３実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

上側置換部１４３２は、振幅（パワー）成分|Ｘ(k, n)|が定常成分信号Ｎ(k, n)のα1(k, n)倍よりも大きいところのみ、振幅成分Ｘ(k, n)のα2(k, n)倍に置き換え、小さいところはそのままのスペクトル形状を置換部６０３の出力信号|Ｙ(k, n)|とする。つまり、|Ｘ(k, n)|＞α1(k, n)Ｎ(k, n)ならば|Ｙ(k, n)|＝α2(k, n)|Ｘ(k, n)|、そうでなければ、|Ｙ(k, n)|＝|Ｘ(k, n)|となる。

図１５は、α1(k, n)＝１、α2(k, n)＝0.7とした場合の入力信号|Ｘ(k, n)|と定常成分信号Ｎ(k, n)と出力信号|Ｙ(k, n)|との関係を示す図である。

定常成分信号の所定係数倍の閾値α1(k, n)Ｎ(k, n)よりもパワーが大きい周波数帯域において、入力信号の変動が大きい場合であって、かつ、出力信号において、スペクトル形状の特徴をできるだけ残したい場合に効果的である。例えば、風雑音を抑圧しつつ音声認識を行ないたい場合などに、音声区間で本実施形態の処理を行うと効果的である。一方、定常成分信号の所定係数倍の閾値α1(k, n)Ｎ(k, n)よりもパワーが小さい帯域における自然性を保持できるため、音質が向上する。

［第７実施形態］
次に本発明の第７実施形態に係る信号処理装置について、図１６を用いて説明する。図１６は、本実施形態に係る信号処理装置の置換部１６０３の構成を説明するための図である。本実施形態に係る置換部１６０３は、上記第５実施形態と比べると、上側置換部１６３２が、第６実施形態の置換部１４０３のように劣化信号振幅スペクトル|Ｘ(k, n)|の係数|α(k, n)|倍を用いて置換を行う処理が異なる。その他の構成および動作は、第５実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

定常成分信号の所定係数倍の閾値α1(k, n)Ｎ(k, n)よりもパワーが大きい周波数帯域および閾値β1(k, n)Ｎ(k, n)よりもパワーが小さい周波数帯域において、入力信号の変動が大きい場合であって、かつ、出力信号において、スペクトル形状の特徴をできるだけ残したい場合に効果的である。

［第８実施形態］
次に本発明の第８実施形態に係る信号処理装置について、図１７を用いて説明する。図１７は、本実施形態に係る信号処理装置１７００の構成を説明するための図である。本実施形態に係る信号処理装置１７００は、上記第２実施形態と比べると、音声検出部１７０１を備え、置換部１７０３が音声検出結果に応じた置換処理を行う点で異なる。その他の構成および動作は、第２実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

音声検出部１７０１は、劣化信号振幅スペクトル|Ｘ(k, n)|において、周波数ごとに音声が含まれているか否かを判定する。そして、置換部２０３において、音声が含まれていない周波数の劣化信号振幅スペクトル|Ｘ(k, n)|を、定常成分スペクトルＮ(k, n)を用いて置換する。つまり、音声検出部１７０１の出力が１、すなわち音声が含まれているという判定結果であれば、|Ｙ(k, n)|＝α(k, n)Ｎ(k, n)、音声検出部１７０１の出力が０、すなわち音声が含まれていないという判定結果であれば、|Ｙ(k, n)|＝|Ｘ(k, n)|となる。

本実施形態によれば、音声が含まれている周波数を残して、定常成分信号Ｎ(k, n)を用いた置換を行なうので、抑圧による音声歪みなどを回避することができる。

［第９実施形態］
次に本発明の第９実施形態に係る信号処理装置について、図１８〜図２１を用いて説明する。図１８は、本実施形態に係る信号処理装置１８００の構成を説明するための図である。本実施形態に係る信号処理装置１８００は、上記第２実施形態と比べると、音声検出部１８０１を備え、置換部１８０３が音声検出結果に応じた置換処理を行う点で異なる。その他の構成および動作は、第２実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

音声検出部１８０１は、劣化信号振幅スペクトル|Ｘ(k, n)|において、周波数ごとに音声が含まれている確率ｐ(k, n)を計算する。ただし、ｐ(k, n)は0以上1以下の実数である。そして、置換部２０３において、音声存在確率ｐ(k, n)と定常成分信号Ｎ(k, n)とを用いて、劣化信号振幅スペクトル|Ｘ(k, n)|を置換する。例えば、値域が0から1であるｐ(k, n)の関数α（ｐ(k, n)）を用いて、出力信号|Ｙ(k, n)|＝α（ｐ(k, n)）Ｎ(k, n)＋（１−α（ｐ(k, n)））|Ｘ(k, n)|）としてもよい。

図１９は、音声検出部１７０１の内部構成の一例を示す図である。周波数方向差分計算部１９０１は、隣り合う周波数における振幅成分の差分を計算する。絶対値総和計算部１９０２は、周波数方向差分計算部１９０１で計算した振幅成分の差分の絶対値を総和する。判定部１９０３は、絶対値総和計算部１９０２で計算した絶対値総和に基づいて、音声存在確率ｐ(k, n)を導く。具体的には、絶対値総和が大きいほど音声である可能性が高いと判定する。

図２０は、音声検出部１７０１の内部構成の他の例を示す図である。周波数方向平滑化部２００１は、入力としての振幅成分を周波数方向に平滑化する。周波数方向差分計算部２００２は、隣り合う周波数における振幅成分の差分を計算する。絶対値総和計算部２００３は、周波数方向差分計算部２００２で計算した振幅成分の差分の絶対値を総和する。

一方、時間方向平滑化部２００４は、入力としての振幅成分を時間方向に平滑化する。周波数方向差分計算部２００５は、隣り合う周波数における振幅成分の差分を計算する。絶対値総和計算部２００６は、周波数方向差分計算部２００５で計算した振幅成分の差分の絶対値を総和する。

判定部２００７は、絶対値総和計算部２００３、２００６で計算したそれぞれの絶対値総和に基づいて、音声存在確率ｐ(k, n)を導く。

図１９、図２０では、音声存在確率ｐ(k, n)を求めて処理を終了しているが、音声存在確率ｐ(k, n)を所定の閾値ｑと比較することで、音声信号の有無（0/1）を求めてもよい。なお、ここでは、音声検出方法の例として図１９、図２０の方法について説明したが本発明はこれに限定されるものではない。例えば、非特許文献４〜７において説明された音声検出方法を本実施の形態において適用してもよい。

図２１は、ｐ(k, n)の値に応じた、出力信号|Ｙ(k, n)|のスペクトル形状の変化を示す図である。図２１の上のグラフは、全てのkに対してｐ(k, n)が１(=音声)に近いときを表わしており、処理結果|Ｙ(k, n)|は、入力信号|Ｘ(k, n)|により近いスペクトル形状となる。一方、図２１の下のグラフは、全てのkに対してｐ(k, n)が０(=非音声)に近いときを表わしており、処理結果|Ｙ(k, n)|は、定常成分信号Ｎ(k, n)により近いスペクトル形状となる。

本実施形態によれば、音声の存在可能性に応じた雑音の定常化を行なうことができ、音声歪みなどを効果的に回避しつつ、風切り音のような非定常雑音を抑圧することができる。

［第１０実施形態］
次に本発明の第１０実施形態に係る信号処理装置について、図２２を用いて説明する。図２２は、本実施形態に係る置換部２２０３の構成を説明するための図である。本実施形態に係る置換部２２０３は、上記第８実施形態と比べると、比較部６３１と上側置換部２２３２を有する点で異なる。比較部６３１は、図６を用いて説明したものと同様であり、その他の構成および動作は、第８実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

上側置換部２２３２は、音声検出部１７０１からの音声検出フラグ（０／１）を入力し、非音声、かつ|Ｘ(k, n)|＞α1(k, n)Ｎ(k, n)ならば|Ｙ(k, n)|＝α2(k, n)Ｎ(k, n)、そうでなければ|Ｙ(k, n)|＝|Ｘ(k, n)|とする。

非音声帯域であって、定常成分信号の所定係数倍の閾値α1(k, n)Ｎ(k, n)よりもパワーが大きい周波数帯域において、入力信号の変動が大きい場合に効果的である。一方、音声帯域、または、定常成分信号の所定係数倍の閾値α1(k, n)Ｎ(k, n)よりもパワーが小さい帯域における自然性を保持できるため、音質が向上する。

［第１１実施形態］
次に本発明の第１１実施形態に係る信号処理装置について、図２３を用いて説明する。図２３は、本実施形態に係る信号処理装置の置換部２３０３の構成を説明するための図である。本実施形態に係る置換部２３０３は、上記第８実施形態と比べると、比較部９３１と下側置換部２３３２を有する点で異なる。また、比較部９３１は、図９において説明したものと同様であり、その他の構成および動作は、第８実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

下側置換部２３３２は、音声検出部１７０１からの音声検出フラグ（０／１）を入力し、非音声、かつ|Ｘ(k, n)|＜β1(k, n)Ｎ(k, n)ならば|Ｙ(k, n)|＝β2(k, n)Ｎ(k, n)、そうでなければ|Ｙ(k, n)|＝|Ｘ(k, n)|とする。

非音声帯域であって、定常成分信号の所定係数倍の閾値β1(k, n)Ｎ(k, n)よりもパワーが小さい周波数帯域において、入力信号の変動が大きい場合に効果的である。一方、音声帯域、または、定常成分信号の所定係数倍の閾値β1(k, n)Ｎ(k, n)よりもパワーが大きい帯域における自然性を保持できるため、音質が向上する。

［第１２実施形態］
次に本発明の第１２実施形態に係る信号処理装置について、図２４を用いて説明する。図２４は、本実施形態に係る信号処理装置の置換部２４０３の構成を説明するための図である。本実施形態に係る置換部２４０３は、上記第８実施形態と比べると、第１比較部１２３１と上側置換部２４３２と第２比較部１２３３と下側置換部２４３４を有する点で異なる。また、第１比較部１２３１と第２比較部１２３３は、図１２において説明したものと同様のものであり、その他の構成および動作は、第８実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

上側置換部２４３２は、音声検出部１７０１からの音声検出フラグ（０／１）を入力し、非音声、かつ|Ｘ(k, n)|＞α1(k, n)Ｎ(k, n)ならば|Ｙ1(k, n)|＝α2(k, n)Ｎ(k, n)、そうでなければ|Ｙ1(k, n)|＝|Ｘ(k, n)|とする。つまり、非音声区間で振幅（パワー）成分|Ｘ(k, n)|が定常成分信号|Ｎ(k, n)|のα1(k, n)倍より大きいところのみ、定常成分信号|Ｎ(k, n)|のα2(k, n)倍に置き換え、小さいところはそのままのスペクトル形状を第２比較部１２３３への出力信号|Ｙ1(k, n)|とする。

一方、下側置換部２４３４は、非音声区間であって、上側置換部２４３２からの出力信号|Ｙ1(k, n)|が定常成分信号Ｎ(k, n)のβ１(k, n)倍より小さい周波数のみ、定常成分信号Ｎ(k, n)のβ２(k, n)倍に置き換え、大きいところはそのままのスペクトル形状を出力信号|Ｙ2(k, n)|とする。つまり、|Ｙ1(k, n)|＜β1(k, n)Ｎ(k, n)ならば|Ｙ2(k, n)|=β2(k, n)Ｎ(k, n)そうでなければ、|Ｙ1(k, n)|＝|Ｙ2(k, n)|となる。

定常成分信号の所定係数倍の閾値α1(k, n)Ｎ(k, n)よりもパワーが大きい周波数帯域および閾値β1(k, n)Ｎ(k, n)よりもパワーが小さい周波数帯域において、入力信号の変動が大きい場合であって、かつ、音声区間において、スペクトル形状の特徴をできるだけ残したい場合に効果的である。

［第１３実施形態］
次に本発明の第１３実施形態に係る信号処理装置について、図２５を用いて説明する。図２５は、本実施形態に係る信号処理装置の置換部２５０３の構成を説明するための図である。本実施形態に係る置換部２５０３は、上記第１０実施形態と比べると、上側置換部２５３２が、第６実施形態と同様に劣化信号振幅スペクトル|Ｘ(k, n)|の係数α2(k, n)倍を用いて置換を行う処理が異なる。その他の構成および動作は、第１０実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

上側置換部２５３２は、非音声区間であって、振幅（パワー）成分|Ｘ(k, n)|が定常成分信号Ｎ(k, n)のα1(k, n)倍よりも大きいところのみ、入力した振幅成分|Ｘ(k, n)|のα2(k, n)倍に置き換え、小さいところはそのままのスペクトル形状を置換部６０３の出力信号|Ｙ(k, n)|とする。つまり、|Ｘ(k, n)|＞α1(k, n)Ｎ(k, n)ならば|Ｙ(k, n)|＝α2(k, n)|Ｘ(k, n)|、そうでなければ、|Ｙ(k, n)|＝|Ｘ(k, n)|となる。

定常成分信号の所定係数倍の閾値α1(k, n)Ｎ(k, n)よりもパワーが大きい周波数帯域において入力信号の変動が大きい場合であって、かつ、出力信号において、スペクトル形状の特徴をできるだけ残したい場合に効果的である。例えば、非音声区間では風雑音を抑圧しつつ、音声区間音声認識を行ないたい場合などにおいて、非音声区間と判定されても、パワーが大きい区間のスペクトル形状を残すので、音声の有無判定に間違いがあっても音声認識精度を上げることができる。

［第１４実施形態］
次に本発明の第１４実施形態に係る信号処理装置について、図２６を用いて説明する。図２６は、本実施形態に係る信号処理装置の置換部２６０３の構成を説明するための図である。本実施形態に係る置換部２６０３は、上記第１２実施形態と比べると、上側置換部２６３２が、第７実施形態と同様に劣化信号振幅スペクトル|Ｘ(k, n)|の係数α2(k, n)倍を用いて置換を行う処理が異なる。その他の構成および動作は、第１１実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

上側置換部２６３２は、非音声区間であって、振幅（パワー）成分|Ｘ(k, n)|が定常成分信号Ｎ(k, n)のα1(k, n)倍よりも大きいところのみ、入力した振幅成分|Ｘ(k, n)|のα2(k, n)倍に置き換え、小さいところはそのままのスペクトル形状を第２比較部１２３３への出力信号|Ｙ１(k, n)|とする。つまり、|Ｘ(k, n)|＞α1(k, n)Ｎ(k, n)ならば|Ｙ１(k, n)|＝α2(k, n)|Ｘ(k, n)|、そうでなければ、|Ｙ１(k, n)|＝|Ｘ(k, n)|となる。

定常成分信号の所定係数倍の閾値α1(k, n)Ｎ(k, n)よりもパワーが大きい周波数帯域において入力信号の変動が大きい場合であって、かつ、出力信号|Ｙ２(k, n)|において、スペクトル形状の特徴をできるだけ残したい場合に効果的である。例えば、非音声区間では風雑音を抑圧しつつ、音声区間では音声認識を行ないたい場合などにおいて、非音声区間と判定されても、パワーが大きい区間のスペクトル形状を残すので、音声の有無判定に間違いがあっても音声認識精度を上げることができる。

［第１５実施形態］
次に本発明の第１５実施形態に係る信号処理装置について、図２７、図２８を用いて説明する。図２７は、本実施形態に係る信号処理装置２７００の構成を説明するための図である。本実施形態に係る信号処理装置２７００は、上記第２実施形態と比べると雑音抑圧部２７０１を備え、置換部２０３が雑音抑圧結果を置換する点で異なる。その他の構成および動作は、第２実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

雑音抑圧部２７０１は、変換部２０１から供給された劣化信号振幅スペクトル|Ｘ(k, n)|と定常成分推定部２０２が推定した定常成分スペクトルＮ(k, n)とを用いて雑音を抑圧し、雑音抑圧結果としての強調信号振幅スペクトルＧ(k, n)|Ｘ(k, n)|を置換部２０３に伝達する。

置換部２０３は、Ｇ(k, n)|Ｘ(k, n)|＞α1(k, n)Ｎ(k, n)ならば|Ｙ(k, n)|＝α2(k, n)Ｎ(k, n)、そうでなければ|Ｙ(k, n)|＝Ｇ(k, n)|Ｘ(k, n)|とする。

図２８は、雑音抑圧部２７０１の内部構成の一例を説明するための図である。ゲイン計算部２８０１は、様々な方法を用いて、雑音を抑圧するためのゲインＧ(k, n)を求めることができる。所望信号との平均2乗誤差を最小にする最適推定値を出力するWienerフィルタを用いてゲインを求めてもよい。また、GSS（GAIN Short Screener）、MMSE STSA（Minimum Mean-Square Error short-time spectral amplitude)、MMSE LSA（Minimum Mean-Square Error long spectral amplitude)、といった既知の方法を用いてゲインを用いてもよい。

乗算部２８０２は、ゲイン計算部２８０１で求めたゲインＧ(k, n)を、入力信号|Ｘ(k, n)|に乗算することで強調信号振幅スペクトルＧ(k, n)|Ｘ(k, n)|を求める。置換部２０３は、条件に応じて、強調信号振幅スペクトルＧ(k, n)|Ｘ(k, n)|を、定常成分スペクトルＮ(k, n)の係数α(k, n)倍で置換する。

本実施形態によれば、雑音の抑圧後の信号を、条件に応じて定常化することができ、非定常成分の強い風切り音のような雑音を効果的に抑圧しつつ他の雑音も抑圧することができる。

［第１６実施形態］
次に本発明の第１６実施形態に係る信号処理装置について、図２９を用いて説明する。図２９は、本実施形態に係る置換部２９０３の構成を説明するための図である。本実施形態に係る置換部２９０３は、上記第２実施形態と比べると、第１比較部２９３１、上側置換部２９３２、第２比較部２９３３、下側置換部２９３４、およびゲイン計算部２９３５を備える点で異なる。その他の構成および動作は、第２実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

本実施形態では、置換部２９０３内部において、ゲインを用いて雑音抑圧を行ないつつ、非定常雑音の置換による抑圧を行なう。

ゲイン計算部２９３５は、変換部２０１から供給された劣化信号振幅スペクトル|Ｘ(k, n)|と定常成分推定部２０２が推定した定常成分スペクトルＮ(k, n)とを用いてゲインＧ(k, n)を算出する。この算出方法は、第１５実施形態と同様に既知の雑音抑圧技術を用いてもよい。

第１比較部２９３１は、Ｇ(k, n)|Ｘ(k, n)|とα1(k, n)Ｎ(k, n)とを比較し、上側置換部２９３２は、Ｇ(k, n)|Ｘ(k, n)|＞α1(k, n)Ｎ(k, n)ならばＧ1(k, n)＝α2(k, n)Ｎ(k, n)／|Ｘ(k, n)|、そうでなければＧ1(k, n)＝Ｇ(k, n)とする。

一方、第２比較部２９３３は、Ｇ1(k, n)Ｘ(k, n)とβ1(k, n)Ｎ(k, n)とを比較し、下側置換部２９３４は、Ｇ1(k, n)Ｘ(k, n)＜β1(k, n)Ｎ(k, n)ならばＧ2(k, n)＝β2(k, n)Ｎ(k, n)／Ｘ(k, n)、そうでなければＧ2(k, n)＝Ｇ1(k, n)とする。

最後に、乗算部２９３６は、入力された振幅スペクトル|Ｘ(k, n)|にゲインＧ2(k, n)を乗算して、置換した、新たな振幅スペクトルＧ2(k, n)|Ｘ(k, n)|を出力する。

以上の様に、置換部２９０３でゲイン計算を行ない、ゲインを用いて置換処理を行なえば、雑音抑圧後の信号を、条件に応じて定常化することができ、非定常成分の強い風切り音のような雑音を効果的に抑圧しつつ、他の雑音も抑圧することができる。

［第１７実施形態］
次に本発明の第１７実施形態に係る信号処理装置について、図３０を用いて説明する。図３０は、本実施形態に係る信号処理装置３０００の構成を説明するための図である。本実施形態に係る信号処理装置３０００は、上記第１５実施形態と比べると、さらに、図１７で説明した音声検出部１７０１を備える点で異なる。その他の構成および動作は、第２実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

置換部３００３は、音声検出部１７０１による音声検出結果（０／１、または音声らしさｐ）に応じて、雑音抑圧部による雑音抑圧結果Ｇ(k, n)|Ｘ(k, n)|を定常成分推定部２０２からの定常成分信号Ｎ(k, n)の係数α(k, n)倍で置換する。置換部３００３は、第９〜第１４実施形態で説明した構成をとることができる。

また、例えば、雑音抑圧部２７０１は、特許文献３に記載された技術を利用して、音声検出部１７０１から出力される音声存在確率ｐ(k, n)をもとに、周波数帯域ごとにMMSE STSAゲイン関数値Ｇ(k, n)を計算し、入力信号|Ｘ(k, n)|に乗算して、強調信号Ｇ(k, n)|Ｘ(k, n)|を求めた上で置換部３００３に出力してもよい。

本実施形態によれば、雑音抑圧後の信号を、音声検出結果に応じて定常化することができ、非定常成分の強い風切り音のような雑音およびその他の雑音を効果的に抑圧しつつ、音声をクリアに出力することができる。

［他の実施形態］
上記実施形態の信号処理装置は、ビデオ撮影時や音声録音時の風切り音、車両通過音(自動車・新幹線)、ヘリコプター飛行音、街頭の騒音、カフェテリア雑音、オフィス雑音、衣擦れ音などの抑圧に適用できる。ただし、本発明はこれに限定されるものではなく、入力信号からの非定常雑音の抑圧を要求されるあらゆる信号処理装置に適用可能である。

なお、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。

また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する信号処理プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるＷＷＷ(World Wide Web)サーバも、本発明の範疇に含まれる。特に、少なくとも、上述した実施形態に含まれる処理ステップをコンピュータに実行させるプログラムを格納した非一時的コンピュータ可読媒体（non-transitory computer readable medium）は本発明の範疇に含まれる。

以下、一例として、第１実施形態で説明した音声処理をソフトウェアで実現する場合に、コンピュータ６００に設けられたＣＰＵ６０２で実行する処理の流れを図３１を用いて説明する。

まず、入力信号を、周波数領域における振幅成分信号に変換する（Ｓ３１０１）。周波数領域における振幅成分信号に基づいて、定常的な特性を備えた周波数スペクトルを有する定常成分信号を推定する（Ｓ３１０３）。入力した振幅成分信号と定常成分信号とを用いて、新たな振幅成分信号を生成する（Ｓ３１０５）。振幅成分信号を、新たな振幅成分信号に置き換える（Ｓ３１０７）。さらに、新たな振幅成分信号を用いて強調信号に逆変換する（Ｓ３１０９）。

これらの各処理を行なうプログラムモジュールがメモリ３１０４に格納されており、ＣＰＵ６０２はメモリ３１０４に格納されたそれらのプログラムモジュールを順次実行することにより、第１実施形態と同様の効果を得ることができる。

同様に、第２実施形態〜第１７実施形態についても、ＣＰＵ３１０２がブロック図で説明した各機能構成に対応するプログラムモジュールをメモリ３１０４から実行することにより、各実施形態の効果を得ることができる。

［実施形態の他の表現］
上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
（付記１）
入力信号を、周波数領域における振幅成分信号に変換する変換手段と、
周波数領域における前記振幅成分信号に基づいて、定常的な特性を備えた周波数スペクトルを有する定常成分信号を推定する定常成分推定手段と、
前記変換手段が求めた振幅成分信号と前記定常成分信号とを用いて、新たな振幅成分信号を生成し、前記振幅成分信号を、前記新たな振幅成分信号に置き換える置換手段と、
前記新たな振幅成分信号を用いて強調信号に逆変換する逆変換手段と、
を備えた信号処理装置。
（付記２）
前記置換手段は、少なくとも一部の周波数において、前記定常成分信号の関数に基づいて、前記新たな振幅成分信号を生成する付記１に記載の信号処理装置。
（付記３）
前記置換手段は、少なくとも一部の周波数において、前記定常成分信号に係数を乗算して前記新たな振幅成分信号を生成する付記１または２に記載の信号処理装置。
（付記４）
前記置換手段は、前記定常成分信号の第１関数に基づいて決定された第１閾値よりも前記振幅成分信号が大きい周波数において、前記定常成分信号の第２関数に基づいて前記新たな振幅成分信号を生成する請求項１、２又は３に記載の信号処理装置。
（付記５）
前記置換手段は、
前記第１閾値と前記振幅成分信号とを比較する比較手段と、
前記振幅成分信号が前記第１閾値よりも大きい周波数において、前記振幅成分信号を前記定常成分信号の第２関数に基づいて前記新たな振幅成分信号を生成し、前記振幅成分信号が前記第１閾値以下の周波数において、前記変換手段が求めた振幅成分信号をそのまま前記新たな振幅成分信号とする上側置換手段と、
を含む付記４に記載の信号処理装置。
（付記６）
前記置換手段は、
前記第１閾値としての前記定常成分信号の第１係数倍と、前記振幅成分信号とを比較する比較手段と、
前記振幅成分信号が前記定常成分信号の第１係数倍よりも大きい場合に、前記第２関数としての前記定常成分信号の第２係数倍を前記新たな振幅成分信号とし、前記振幅成分信号が前記定常成分信号の第１係数倍以下の場合に、前記変換手段が求めた振幅成分信号をそのまま前記新たな振幅成分信号とする上側置換手段と、
を含む付記４に記載の信号処理装置。
（付記７）
前記置換手段は、前記定常成分信号の第３関数に基づいて決定された第２閾値よりも前記振幅成分信号が小さい周波数において、前記定常成分信号の第４関数に基づいて前記新たな振幅成分信号を生成する付記１乃至６のいずれか１項に記載の信号処理装置。
（付記８）
前記置換手段は、
前記第２閾値と前記振幅成分信号とを比較する比較手段と、
前記振幅成分信号が前記第２閾値よりも大きい周波数において、前記振幅成分信号を前記定常成分信号の第２関数に基づいて前記新たな振幅成分信号を生成し、前記振幅成分信号が前記第２閾値以下の周波数において、前記変換手段が求めた振幅成分信号をそのまま前記新たな振幅成分信号とする上側置換手段と、
を含む付記１乃至７のいずれか１項に記載の信号処理装置。
（付記９）
前記置換手段は、
前記第２閾値としての前記定常成分信号の第３係数倍と、前記振幅成分信号とを比較する比較手段と、
前記振幅成分信号が前記定常成分信号の前記第３係数倍よりも小さい場合に、前記定常成分信号の第４係数倍を前記新たな振幅成分信号とし、前記振幅成分信号が前記定常成分信号の前記第３係数倍以上の場合に、前記変換手段が求めた振幅成分信号をそのまま前記新たな振幅成分信号とする下側置換手段と、
を含む付記７に記載の信号処理装置。
（付記１０）
前記置換手段は、
前記定常成分信号の第５関数に基づいて決定された第３閾値よりも前記振幅成分信号が大きい周波数において、前記定常成分信号の第６関数に基づいて前記新たな振幅成分信号を生成して置換し、
前記振幅成分信号が前記定常成分信号の第７関数に基づいて決定された第４閾値よりも小さい周波数において、前記定常成分信号の第８関数に基づいて前記新たな振幅成分信号を生成して置換し、
前記第３閾値は、前記第４閾値以上である付記１乃至９のいずれか１項に記載の信号処理装置。
（付記１１）
前記置換手段は、
前記第３閾値としての前記定常成分信号の第５係数倍と前記振幅成分信号とを比較する第１比較手段と、
前記振幅成分信号が前記定常成分信号の前記第５係数倍よりも大きい場合に、前記定常成分信号の第６係数倍を前記新たな振幅成分信号として前記振幅成分信号を置換し、前記振幅成分信号が前記定常成分信号の第５係数倍以下の場合に、前記変換手段が求めた振幅成分信号をそのまま前記新たな振幅成分信号とする上側置換手段と、
前記第４閾値としての前記定常成分信号の第６係数倍と前記上側置換手段が出力した新たな振幅成分信号とを比較する第２比較手段と、
前記上側置換手段が出力した新たな振幅成分信号が前記定常成分信号の第６係数倍よりも小さい場合に、前記定常成分信号の第７係数倍を用いて、前記上側置換手段が求めた新たな振幅成分信号をさらに置換し、前記振幅成分信号が前記定常成分信号の第６係数倍以上の場合に、前記上側置換手段が求めた新たな振幅成分信号をそのまま出力する下側置換手段と、
を含む付記１０に記載の信号処理装置。
（付記１２）
前記置換手段は、
前記振幅成分信号と前記定常成分信号の第７係数倍とを比較する比較手段と、
前記振幅成分信号が前記定常成分信号の第７係数倍よりも大きい場合に、前記振幅成分信号の第８係数倍を、前記新たな振幅成分信号として前記振幅成分信号を置換し、前記振幅成分信号が前記定常成分信号の前記第７係数倍以下の場合に、前記変換手段が求めた振幅成分信号をそのまま前記新たな振幅成分信号とする上側置換手段と、
を含む付記１に記載の信号処理装置。
（付記１３）
前記置換手段は、
前記振幅成分信号と前記定常成分信号の第９係数倍とを比較する第１比較手段と、
前記振幅成分信号が前記定常成分信号の第９係数倍よりも大きい場合に、前記振幅成分信号の第１０係数倍を、前記新たな振幅成分信号として置換し、前記振幅成分信号が前記定常成分信号の第９係数倍以下の場合に、前記変換手段が求めた振幅成分信号をそのまま前記新たな振幅成分信号とする上側置換手段と、
前記上側置換手段が出力した前記新たな振幅成分信号と前記定常成分信号の第１１係数倍とを比較する第２比較手段と、
前記振幅成分信号が前記定常成分信号の第１１係数倍よりも小さい場合に、前記定常成分信号の第１２係数倍を用いて、前記上側置換手段が求めた新たな振幅成分信号をさらに置換し、前記振幅成分信号が前記定常成分信号の第１１係数倍以上の場合に、前記上側置換手段が求めた新たな振幅成分信号を出力する下側置換手段と、
を含む付記１に記載の信号処理装置。
（付記１４）
前記振幅成分信号から音声を検出する音声検出手段をさらに有し、
前記置換手段は、非音声区間について、前記変換手段が求めた振幅成分信号を置換する付記１乃至１３のいずれか１項に記載の信号処理装置。
（付記１５）
前記振幅成分信号から音声の存在確率を検出する音声検出手段をさらに有し、
前記置換手段は、周波数領域において、音声の存在確率が低いほど、前記定常成分信号により近づくように、前記変換手段が求めた振幅成分信号を置換する付記１乃至１３のいずれか１項に記載の信号処理装置。
（付記１６）
前記振幅成分信号に含まれる雑音を抑圧する雑音抑圧手段をさらに備え、
前記置換手段は、
前記雑音抑圧手段が求めた強調振幅成分信号と前記定常成分信号とを用いて、新たな振幅成分信号を生成し、前記振幅成分信号を、前記新たな振幅成分信号に置き換える付記１乃至１５のいずれか１項に記載の信号処理装置。
（付記１７）
入力信号を、周波数領域における振幅成分信号に変換する変換ステップと、
周波数領域における前記振幅成分信号に基づいて、定常的な特性を備えた周波数スペクトルを有する定常成分信号を推定する定常成分推定ステップと、
前記変換ステップで求めた振幅成分信号と前記定常成分信号とを用いて、新たな振幅成分信号を生成し、前記振幅成分信号を、前記新たな振幅成分信号に置き換える置換ステップと、
前記新たな振幅成分信号を用いて強調信号に逆変換する逆変換ステップと、
を含む信号処理方法。
（付記１８）
入力信号を、周波数領域における振幅成分信号に変換する変換ステップと、
周波数領域における前記振幅成分信号に基づいて、定常的な特性を備えた周波数スペクトルを有する定常成分信号を推定する定常成分推定ステップと、
前記変換ステップで求めた振幅成分信号と前記定常成分信号とを用いて、新たな振幅成分信号を生成し、前記振幅成分信号を、前記新たな振幅成分信号に置き換える置換ステップと、
前記新たな振幅成分信号を用いて強調信号に逆変換する逆変換ステップと、
をコンピュータに実行させる信号処理プログラム。
この出願は、２０１３年４月１１日に出願された日本出願特願２０１３−８３４１１を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims

入力信号を、周波数領域における振幅成分信号に変換する変換手段と、
周波数領域における前記振幅成分信号に基づいて、定常的な特性を備えた周波数スペクトルを有する定常成分信号を推定する定常成分推定手段と、
前記振幅成分信号と前記定常成分信号とがある周波数においてあらかじめ定められた大小関係を満たすときに、前記振幅成分信号または前記定常成分信号を用いて当該周波数における新たな振幅成分信号を生成し、前記変換手段が求めた振幅成分信号を前記新たな振幅成分信号に置き換える置換手段と、
前記新たな振幅成分信号を用いて強調信号に逆変換する逆変換手段と、
を備えた信号処理装置。
前記置換手段は、前記定常成分信号の第１係数倍よりも前記振幅成分信号が大きい周波数において、前記新たな振幅成分信号を生成する請求項１に記載の信号処理装置。
前記置換手段は、
前記定常成分信号の前記第１係数倍と前記振幅成分信号とを比較する第１比較手段と、
前記振幅成分信号が前記定常成分信号の前記第１係数倍よりも大きい場合に、前記定常成分信号の第２係数倍を前記新たな振幅成分信号とし、前記振幅成分信号が前記定常成分信号の前記第１係数倍以下の場合に、前記変換手段が求めた振幅成分信号をそのまま前記新たな振幅成分信号とする第１上側置換手段と、
を含む請求項１に記載の信号処理装置。
前記置換手段は、前記定常成分信号の第３係数倍よりも前記振幅成分信号が小さい周波数において、前記新たな振幅成分信号を生成する請求項１に記載の信号処理装置。
前記置換手段は、
前記定常成分信号の第３係数倍と前記振幅成分信号とを比較する第２比較手段と、
前記振幅成分信号が前記定常成分信号の前記第３係数倍よりも小さい場合に、前記定常成分信号の第４係数倍を前記新たな振幅成分信号とし、前記振幅成分信号が前記定常成分信号の前記第３係数倍以上の場合に、前記変換手段が求めた振幅成分信号をそのまま前記新たな振幅成分信号とする第１下側置換手段と、
を含む請求項１に記載の信号処理装置。
前記置換手段は、
前記定常成分信号の前記第１係数倍よりも前記振幅成分信号が大きい周波数において、前記定常成分信号に基づいて前記新たな振幅成分信号を生成して置換し、
前記振幅成分信号が前記定常成分信号の第３係数倍よりも小さい周波数において、前記定常成分信号に基づいて前記新たな振幅成分信号を生成して置換し、
前記第１係数は、前記第３係数以上である請求項１乃至５のいずれか１項に記載の信号処理装置。
前記置換手段は、
前記定常成分信号の第１係数倍と前記振幅成分信号とを比較する第１比較手段と、
前記振幅成分信号が前記定常成分信号の前記第１係数倍よりも大きい場合に、前記定常成分信号の第２係数倍を前記新たな振幅成分信号として前記振幅成分信号を置換し、前記振幅成分信号が前記定常成分信号の第１係数倍以下の場合に、前記変換手段が求めた振幅成分信号をそのまま前記新たな振幅成分信号とする第１上側置換手段と、
前記定常成分信号の第３係数倍と前記第１上側置換手段が出力した新たな振幅成分信号とを比較する第３比較手段と、
前記第１上側置換手段が出力した新たな振幅成分信号が前記定常成分信号の第３係数倍よりも小さい場合に、前記定常成分信号の第４係数倍で前記第１上側置換手段が求めた新たな振幅成分信号をさらに置換し、前記振幅成分信号が前記定常成分信号の第３係数倍以上の場合に、前記第１上側置換手段が求めた新たな振幅成分信号をそのまま出力する第２下側置換手段と、
を含む請求項１に記載の信号処理装置。
前記置換手段は、
前記定常成分信号の第１係数倍と前記振幅成分信号とを比較する第１比較手段と、
前記振幅成分信号が前記定常成分信号の第１係数倍よりも大きい場合に、前記振幅成分信号の第２係数倍を、前記新たな振幅成分信号として前記振幅成分信号を置換し、前記振幅成分信号が前記定常成分信号の前記第１係数倍以下の場合に、前記変換手段が求めた振幅成分信号をそのまま前記新たな振幅成分信号とする第２上側置換手段と、
を含む請求項１に記載の信号処理装置。
前記置換手段は、
前記振幅成分信号と前記定常成分信号の第１係数倍とを比較する第１比較手段と、
前記振幅成分信号が前記定常成分信号の第１係数倍よりも大きい場合に、前記振幅成分信号の第２係数倍を、前記新たな振幅成分信号として置換し、前記振幅成分信号が前記定常成分信号の第１係数倍以下の場合に、前記変換手段が求めた振幅成分信号をそのまま前記新たな振幅成分信号とする第２上側置換手段と、
前記第２上側置換手段が出力した前記新たな振幅成分信号と前記定常成分信号の第３係数倍とを比較する第３比較手段と、
前記振幅成分信号が前記定常成分信号の第３係数倍よりも小さい場合に、前記定常成分信号の第４係数倍を用いて、前記第２上側置換手段が求めた新たな振幅成分信号をさらに置換し、前記振幅成分信号が前記定常成分信号の第３係数倍以上の場合に、前記第２上側置換手段が求めた新たな振幅成分信号を出力する第３下側置換手段と、
を含む請求項１に記載の信号処理装置。
前記振幅成分信号から音声を検出する音声検出手段をさらに有し、
前記置換手段は、非音声区間について、前記変換手段が求めた振幅成分信号を置換する請求項１乃至９のいずれか１項に記載の信号処理装置。
前記振幅成分信号から音声の存在確率を検出する音声検出手段をさらに有し、
前記置換手段は、周波数領域において、音声の存在確率が低いほど、前記定常成分信号により近づくように、前記変換手段が求めた振幅成分信号を置換する請求項１乃至９のいずれか１項に記載の信号処理装置。
前記振幅成分信号に含まれる雑音を抑圧する雑音抑圧手段をさらに備え、
前記置換手段は、
前記雑音抑圧手段が求めた強調振幅成分信号と前記定常成分信号とを用いて、新たな振幅成分信号を生成し、前記振幅成分信号を、前記新たな振幅成分信号に置き換える請求項１乃至１１のいずれか１項に記載の信号処理装置。
入力信号を、周波数領域における振幅成分信号に変換する変換ステップと、
周波数領域における前記振幅成分信号に基づいて、定常的な特性を備えた周波数スペクトルを有する定常成分信号を推定する定常成分推定ステップと、
前記振幅成分信号と前記定常成分信号とがある周波数においてあらかじめ定められた大小関係を満たすときに、前記振幅成分信号または前記定常成分信号を用いて、当該周波数における新たな振幅成分信号を生成し、前記振幅成分信号を、前記新たな振幅成分信号に置き換える置換ステップと、
前記新たな振幅成分信号を用いて強調信号に逆変換する逆変換ステップと、
を含む信号処理方法。
入力信号を、周波数領域における振幅成分信号に変換する変換ステップと、
周波数領域における前記振幅成分信号に基づいて、定常的な特性を備えた周波数スペクトルを有する定常成分信号を推定する定常成分推定ステップと、
前記振幅成分信号と前記定常成分信号とがある周波数においてあらかじめ定められた大小関係を満たすときに、前記振幅成分信号または前記定常成分信号を用いて、当該周波数における新たな振幅成分信号を生成し、前記振幅成分信号を、前記新たな振幅成分信号に置き換える置換ステップと、
前記新たな振幅成分信号を用いて強調信号に逆変換する逆変換ステップと、
をコンピュータに実行させる信号処理プログラム。