JP2005258158A

JP2005258158A - ノイズ除去装置

Info

Publication number: JP2005258158A
Application number: JP2004070786A
Authority: JP
Inventors: Mitsunori Mizumachi; 光徳水町; Satoru Nakamura; 哲中村
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2004-03-12
Filing date: 2004-03-12
Publication date: 2005-09-22

Abstract

【課題】ノイズ除去精度が高く、処理後の信号に生じる歪みが少ないノイズ除去装置を提供する。
【解決手段】ノイズ除去装置１８０は、音声信号１８２をフレーム化し、フレームごとの音響スペクトルを算出するフレーム化処理部２００と、各フレームの音響スペクトルに含まれるノイズスペクトルを推定し、各フレームから減算するノイズスペクトル推定部２０２及びスペクトル減算部２０４と、フレーム化処理部２００の出力する各フレームの音響スペクトルに対する周波数軸方向のマスキングしきい値を算出するマスキングしきい値算出部２０８と、スペクトル減算部２０４から出力されるフレームごとの音響スペクトルに対し、マスキングしきい値と処理対象のフレームの直前のフレームの音響スペクトルとを用いて、時間軸方向と周波数軸方向との双方の平滑化を行なう時間軸方向平滑化処理部２０６及び周波数方向平滑化処理部２１０とを含む。
【選択図】図７

Description

本発明は、音声信号に付加された音響雑音を除去するためのノイズ除去装置に関し、特に、スペクトルサブトラクション（以下「ＳＳ」と呼ぶ。）法を用いたノイズ除去装置に関する。

近年、音響情報を扱う種々の装置の実用化に伴ない、ノイズを除去する技術は必要不可欠となっている。現在、受音系の形態を問わず広く採用されているノイズ除去の手法として、後掲の非特許文献１に記載のＳＳ法がある。

非特許文献１に記載のＳＳ法は、ノイズが定常性を有し、かつ音声と無相関であるという仮定に基づいている。すなわち、この方法は、発話の前に観測されたノイズの振幅スペクトル（以下、「ノイズスペクトル」と呼ぶ。）が、発話に含まれるノイズスペクトルと同じであると仮定し、発話から得られた音声信号の振幅スペクトルから、発話直前に観測されたノイズスペクトルを減算することでノイズを除去する。

この方法は、上記のとおり、ノイズが定常性を有するという仮定に基づいているため、非定常なノイズに対しては十分なノイズ除去を行なうことができない。また、ＳＳ法では、独特の残留ノイズ（ミュージカルノイズ）が発生し、ノイズ除去処理後の音声信号の品質が低下する。

ＳＳ法におけるこれらの問題を解決することを目的として、これまでに種々の改良法が開発されてきている。後掲の非特許文献２には、小規模マイクロホンアレイを用いたＳＳ改良法が開示されている。このＳＳ改良法は、入力音声の受音に小規模マイクロホンアレイを用いる。マイクロホンアレイによる受音信号から到来信号の空間情報を得ることで、時々刻々に変化するノイズスペクトルを推定する。

Ｓ．Ｆ．ボル、「スペクトルサブトラクションを用いた、音声内の音響ノイズの抑制」、ＩＥＥＥＴｒａｎｓ．ＡＳＳＰ，Ｖｏｌ．２７、Ｎｏ．２、ｐｐ．１１３−１２０、１９７９年（Ｓ．Ｆ．Ｂｏｌｌ，"Ｓｕｐｐｒｅｓｓｉｏｎｏｆａｃｏｕｓｔｉｃｎｏｉｓｅｉｎｓｐｅｅｃｈｕｓｉｎｇｓｐｅｃｔｒａｌｓｕｂｔｒａｃｔｉｏｎ．"，ＩＥＥＥＴｒａｎｓ．ＡＳＳＰ，Ｖｏｌ．２７，Ｎｏ．２，ｐｐ．１１３−１２０（１９７９））水町他一名、"マイクロホン対を用いたスペクトルサブトラクションによる雑音除去法，"電子情報通信学会論文誌（Ａ）Ｖｏｌ．Ｊ８２−Ａ，Ｎｏ．４，ｐｐ．５０３−５１２（１９９９）

処理後音声の歪みは、大別すると次の２種のものがある。即ち、第１の種類の歪みは、広い周波数帯域に分散する歪みである。第２の種類の歪みは、特定の時間、及び特定の周波数領域に突発的に発生するスパイク状の歪みである。特に、後者の歪みは処理後音声の品質劣化に大きな影響を及ぼすと考えられている。しかし、非特許文献２に記載の方法をはじめ、現在提案されているいずれのＳＳ改良法も、処理後音声のこのような歪みを完全に除去できるとは言いがたい。

それゆえに、本発明の目的は、ノイズ除去精度が高く、かつ処理後の信号に生じる歪みが少ないノイズ除去装置を提供することである。

本発明の別の目的は、ＳＳ処理後音声に存在する不自然なスパイク上の歪みを除去することが可能なノイズ除去装置を提供することである。

本発明に係るノイズ除去装置は、入力される音響信号を所定の周期で所定の時間長を有するフレームにフレーム化し、フレームごとの音響スペクトルを算出するためのフレーム化手段と、フレーム化手段により出力される音響スペクトルに基づいて、各フレームの音響スペクトルに含まれるノイズスペクトルを推定し、当該各フレームの音響スペクトルから減算するためのノイズ減算手段と、フレーム化手段の出力する各フレームの音響スペクトルに対する周波数軸方向のマスキングしきい値を算出するためのマスキングしきい値算出手段と、ノイズ減算手段から出力されるフレームごとの音響スペクトルに対し、マスキングしきい値と処理対象のフレームに対し時間軸上で所定の関係にあるフレームの音響スペクトルとを用いて、時間軸方向と周波数軸方向との双方の平滑化を行なうことにより平滑化された音声信号を出力するための平滑化処理手段とを含む。

好ましくは、平滑化処理手段は、ノイズ減算手段から出力されるフレームごとの音響スペクトルに対し、所定の関係にあるフレームの音響スペクトルを用いて時間軸方向の平滑化を行なうための時間軸方向平滑化手段と、時間軸方向平滑化手段の出力するフレームごとの音響スペクトルに対し、マスキングしきい値算出手段により算出されたマスキングしきい値を用いた周波数軸方向の平滑化を行なって、周波数軸方向に平滑化された音声信号を生成するための周波数軸方向平滑化処理手段とを含む。

より好ましくは、時間軸方向平滑化手段は、ノイズ減算手段の出力する各フレームの音響スペクトルの各周波数成分について、所定の関係にあるフレームの音響スペクトル内で対応する周波数成分との値の相違が所定の条件を充足しているか否かを判定するための第１の判定手段と、第１の判定手段により所定の条件を充足していると判定された周波数成分の値を、予め定めた推定方法により推定された値で置換するための手段とを含む。

第１の判定手段は、ノイズ減算手段の出力する各フレームの音響スペクトルの各周波数成分と、処理対象のフレームに対し時間軸上で１フレーム前のフレームの音響スペクトル内で対応する周波数成分との値の相違が所定のしきい値、例えばフレーム長２１．３ｍｓ、フレーム周期１０．６ｍｓの場合、３０ｄＢを超えているか否かを判定するための手段を含んでもよい。

また、周波数軸方向平滑化手段は、時間軸方向平滑化手段の出力する各フレームの音響スペクトルの各周波数成分について、その値がマスキングしきい値に対し所定の関係を充足しているか否かを判定するための第２の判定手段と、第２の判定手段により所定の関係を充足していると判定された周波数成分を所定の値で置換するための置換手段とを含んでもよい。

好ましくは、第２の判定手段は、時間軸方向平滑化手段の出力する各フレームの音響スペクトルの各周波数成分について、その値がマスキングしきい値を超えているか否かを判定するための手段を含む。

さらに好ましくは、置換手段は、第２の判定手段により所定の関係を充足していると判定された周波数成分を、判定対象の周波数成分に対応するマスキングしきい値で置換するための手段を含んでもよい。

［制約条件］
本発明の一実施の形態に係るノイズ除去装置は、ノイズと音声とが混在する環境下で受音された音声の信号から、ＳＳ法を用いてノイズを除去する装置である。しかし、上記の通り、単純にＳＳ法を用いてノイズ除去を行なうと、処理後の音声に歪みが生じる。

そこで本実施の形態に係るノイズ除去装置では、まず人間の聴覚特性を考慮した制約条件を導入する。そのためにまず人間聴覚系のマスキング特性を工学的にシミュレートし、連続かつ滑らかに変化するマスキングしきい値を求め、そのマスキングしきい値を用いてＳＳにより振幅スペクトルに生じた周波数軸方向の不連続性を解消することを試みる。

さらに本実施の形態に係るノイズ除去装置では、環境及び時間の関数であり予測困難なノイズ信号ではなく、目的信号である音声に着目した時間軸方向の制約条件を導入する。

音声は、時間とともに変化する非定常信号であるが、ＳＳ処理後音声の歪みの動特性と比較すると、２０ｍｓ程度の区間内ではほぼ定常な信号とみなすことができる。音声は時間的に滑らかな信号であるという時間軸方向の制約条件を導入することにより、ＳＳにより音声に生じる突発的なスペクトル歪みの抑圧を試みる。

−マスキング特性による制約条件の検討−
人間の聴覚系のマスキング特性を工学的にシミュレートする方法について図１及び図２を参照して説明する。なお、本実施の形態のノイズ除去装置では、人間の聴覚特性のうち、同時マスキング特性（周波数軸方向のマスキング特性）のみを考慮し、時間軸方向のマスキング特性及びレベル依存性については考慮しない。

図１を参照して、ある音声３０（マスキングの原因となるという意味でこの音声を「マスカ」と呼ぶ。）が存在するとき、このマスカ３０により生じるマスキング範囲を図１の曲線３２で示す。この範囲に存在する音は人間には知覚できない。すなわち、マスキング範囲を画する線は、マスキングのしきい値を示す。

この曲線３２をシミュレートするために、三点ＡＢＣで定められる図形３４を用いる。図形３４の各点Ａ，Ｂ，Ｃの位置は、図１に示すようにマスカ３０のレベルとその周波数ｋ（Ｈｚ）との関係で定まる。

次に、このようなシミュレート方法を用いて、音声信号に対するマスキングしきい値を次のようにして求める。本実施の形態では、パワー・ロー・モデルと呼ばれるモデルを用いる。図２を参照してその概略を説明する。

図２に示されるように音声信号の短時間対数スペクトル５０が存在しているものとする。この音声信号に対するマスキングしきい値は以下のようにして求められる。まず、このスペクトル５０の振幅の最大のピーク（図２ではピーク５２）をマスカ候補として求める。このピークに対して、シミュレートされたマスキング領域５４を求める。続いて、スペクトル５０の周波数を中心とする臨界帯域の外で次に大きなピーク（図２においてはピーク５６）を次のマスカ候補として求める。このピークに対して、最初と同様にマスキング領域５８を求める。以下同様に、次のマスカ候補としてのピーク６０、それに対するマスキング領域６２、…、を求める。

このようにして求められたマスキング領域５４，５８，６２，…により定まるマスキング領域の和を求めることで、周波数軸方向に連続した、マスキングしきい値を示す（周波数の）関数を考えることができる。

すなわち、マスキングしきい値Ｔｈｒｅｓｈｏｌｄ_totalは、次の式で求められる。

ただしｔｈｒｅｓｈｏｌｄ（ω）は周波数ωのマスカによるマスキングしきい値を表す関数である。ｐは０．３〜０．４程度の値であり、本実施の形態ではｐ＝０．３３を用いる。

上記のようにして求めたマスキングしきい値の時間変化の例を、図３に示す。図３に示すグラフ１００のうち、比較的平坦な部分がマスキングしきい値を示し、突出して見える部分は音声の短時間スペクトルのうち、マスキングしきい値より大きな値の部分を示す。図３から分かるように、音声スペクトルのうちしきい値より小さな部分については平滑化される。本実施の形態では、このようにして音声スペクトルの谷を埋め、不連続をなくす。

−時間軸方向の制約条件の検討−
次に、音声が時間軸方向に滑らかに変化するという前提による制約条件について検討する。図４に、特定のテストデータに対する測定により得られた、各周波数における音声信号の対数振幅スペクトル値の隣接フレーム間での変化量のヒストグラムを示す。

図５を参照して、対数振幅の相違の概念を説明する。図５に示すように、ある時間ｔにおける音響スペクトル１２２のｉ番目の周波数成分の対数振幅の値１３２をＸ_t（ｆ_i）で表すものとする。その１フレーム前（時間ｔ−１）の音響スペクトル１２０の、これに対応するｉ番目の周波数成分の対数振幅の値はＸ_t-1（ｆ_i）で表される。したがって、時間軸上で隣接する二つのフレームの対応する周波数成分の値の差１４０をΔとすると、ΔはΔ＝Ｘ_t（ｆ_i）−Ｘ_t-1（ｆ_i）で表される。

図４を参照して容易に分かるように、時間軸上で隣接する二つのフレーム間の振幅の差は０の近辺に集中しており、これらの間では音声信号の対数振幅スペクトルは時間的に滑らかに変化することが分かる。

図６に、時間軸上で隣接するフレーム間の対数振幅の差が１０ｄＢ、２０ｄＢ，３０ｄＢにそれぞれ入るものの割合を、周波数との関数としてそれぞれ曲線１５０、１５２及び１５４として示す。図６の曲線１５４を参照して分かるように、時間軸上で隣接する二つのフレーム間の振幅の差が３０ｄＢ以上であることはほとんどなく、３０ｄＢを超える場合は異常であると考えることができる。

［構成］
図７に、以上の制約条件を考慮したＳＳによりノイズ除去を試みる、本実施の形態に係るノイズ除去装置の機能的構成をブロック図形式で示す。図７を参照して、ノイズ除去装置１８０は、ノイズを含む音声信号１８２を窓長２１．３ｍｓのハニング窓を用い、時間間隔１０．６ｍｓでフレーム化しさらにそれらにフーリエ変換を行なってフレームごとの振幅スペクトルを出力するフレーム化処理部２００と、フレーム化処理部２００が出力する振幅スペクトルを受け、フレーム毎にノイズスペクトルを推定するノイズスペクトル推定部２０２と、フレーム化処理部２００から振幅スペクトルを、ノイズスペクトル推定部２０２から推定ノイズスペクトルを、それぞれ受けるように接続され、フレーム化処理部２００からの振幅スペクトルから推定ノイズスペクトルを減算するスペクトル減算部２０４と、スペクトル減算部２０４の出力に対し、時間軸方向の音声の平滑性による平滑化処理を実行するための時間軸方向平滑化処理部２０６とを含む。

ノイズ除去装置１８０はさらに、フレーム化処理部２００からフレームごとの振幅スペクトルを受けるように接続され、この振幅スペクトルに対して聴覚特性を考慮したマスキングしきい値を算出するためのマスキングしきい値算出部２０８と、時間軸方向平滑化処理部２０６により時間軸方向の平滑化がされたフレームごとの音声スペクトルについて、マスキングしきい値算出部２０８により算出されたマスキングしきい値を用いた周波数軸方向の平滑化を行ない、音声信号１８４の形で出力するための周波数軸方向平滑化処理部２１０とを含む。

本実施の形態におけるノイズスペクトル推定部２０２によるノイズスペクトルの推定処理について説明する。図８を参照して、本実施の形態では、ターゲットとなる音源２４０と、ノイズ源２４２とが異なる方向に存在することを仮定し、二つのマイクロホン２５０及び２５２を含む２チャンネルのマイクロホンアレイにより、受音位置２５４における、ノイズ源２４２からのノイズのスペクトルを推定する。二つの音源が異なる方向に存在する場合、二つのマイクロホンによる観測信号を用いて、これら音源からの信号を互いに分離できることが知られている。

すなわち、音源２４０からの音声と、ノイズ源２４２からのノイズとの２つの信号到来方向を推定し、音源２４０からの音声を完全に抑制するように２チャンネル減算型ビームフォーマを設計し、ノイズスペクトルを推定する。この方法では、信号の到達時間差という空間情報を利用したフィルタリングを行なうため、短時間音声に対するノイズスペクトルをフレーム毎に推定することが可能である。したがってこの方法では、非定常ノイズのスペクトルも推定可能である。

本実施の形態では、この公知の減算型ビームフォーマを形成するマイクロホンアレイを用いて音源２４０からの音声信号を抑圧し、それによってノイズ源２４２からのノイズのスペクトルを推定する。

スペクトル減算部２０４によるノイズスペクトルの減算処理は、通常のＳＳによるものと同様である。スペクトル減算部２０４の出力を、以下「推定振幅スペクトル」と呼ぶことにする。

図９に、時間軸方向平滑化処理部２０６の実行する処理のフローチャートを示す。図９を参照して、時間軸方向平滑化処理部２０６は、推定振幅スペクトルの各周波数成分について、時間軸上で隣接するフレームの同一周波数成分との差を求め、この差が３０ｄＢを超えるか否かを判定する（ステップ２７０）。差が３０ｄＢを超えない場合には何もしない。差が３０ｄＢを超える場合、音声の時間軸上の平滑性によりそのような差は異常と考えられる。したがってステップ２７２でこのフレームのこの周波数成分の値を、過去のフレームからの予測値で置換する。

この処理により、時間軸上で直前のフレームと比較して大きく違う周波数成分を検出し、より滑らかに変化する値に平滑化することができる。

図１０に、周波数軸方向平滑化処理部２１０の実行する処理のフローチャートを示す。図１０を参照して、周波数軸方向平滑化処理部２１０は、時間軸方向平滑化処理部２０６から時間軸方向の平滑化処理が施されたフレームごとのスペクトルを受け、フレームごとに周波数軸方向の平滑化処理を行なう。

具体的には周波数軸方向平滑化処理部２１０は、時間軸方向の平滑化がされた振幅スペクトルの各フレームに含まれる各周波数の対数振幅スペクトル値に対し、その値がマスキングしきい値算出部２０８から与えられるマスキングしきい値より大きいか否かを判定する（ステップ２８０）。各周波数の対数振幅スペクトル値が、対応するマスキングしきい値より大きい場合には何もしない。マスキングしきい値以下の場合には、ステップ２８２でその部分の値をマスキングしきい値で置換することにより、対数振幅スペクトルの谷を埋める。

この処理を各周波数成分に対して実行することにより、周波数軸方向平滑化処理部２１０はこのフレームに対する周波数軸方向の平滑化処理を行なう。

［動作］
本実施の形態に係るノイズ除去装置１８０は以下のように動作する。

図７を参照して、ノイズが存在する環境化で受音されたノイズを含む音声からの音声信号１８２がノイズ除去装置１８０に与えられる。フレーム化処理部２００は、与えられた入力信号を１０．６ｍｓごとに２１．３ｍｓの長さのフレームに順次フレーム化する。これらフレームの音声信号に対してフーリエ変換を行なって得られた音声スペクトルは、ノイズスペクトル推定部２０２及びマスキングしきい値算出部２０８に与えられる。

ノイズスペクトル推定部２０２は、与えられた各フレームの音声信号スペクトルについて、図８を参照して説明した方法によりノイズスペクトルの推定を行なう。ノイズスペクトル推定部２０２は、推定されたノイズスペクトルをスペクトル減算部２０４に与える。

スペクトル減算部２０４は、フレーム化処理部２００から受けた各フレームの音声信号スペクトルから、ノイズスペクトル推定部２０２から受けた同一フレームのノイズスペクトルを減算し、推定振幅スペクトルを時間軸方向平滑化処理部２０６に与える。

時間軸方向平滑化処理部２０６は、一つ前のフレームに関する推定振幅スペクトルを保持しており、図９のフローチャートにより示される処理を処理対象のフレームの各周波数成分に対して実行する。この処理により、直前のフレームに対して３０ｄＢを越える相違を持つような周波数成分の値は、過去のフレームから推定された値で置換される。この結果、時間軸方向の平滑化が実現される。

一方、マスキングしきい値算出部２０８は、フレーム化処理部２００から１フレーム分の音声信号スペクトルが与えられると、与えられたフレームに対するマスキングしきい値を算出する。マスキングしきい値算出部２０８は、算出したマスキングしきい値を周波数軸方向平滑化処理部２１０に与える。

周波数軸方向平滑化処理部２１０は、時間軸方向平滑化処理部２０６の出力と、この出力に対応するフレームのマスキングしきい値とが与えられると、以下のようにして、与えられたフレームにおけるスペクトルの平滑化を行なう。

すなわち、周波数軸方向平滑化処理部２１０は、図１０に示すように、与えられた時間軸方向平滑化後のスペクトルの各周波数成分と、当該周波数におけるマスキングしきい値とを比較する（ステップ２８０）。周波数成分の値がマスキングしきい値以下の場合、当該値をマスキングしきい値で置換する。それ以外の場合には何もしない。マスキングしきい値以下の周波数成分は、本来マスキングされているものでありそれほど重要なものとは考えられない。そこで、このようなスペクトル上の谷に相当する部分をマスキングしきい値で置換して平滑化することにより、最終的な歪みの発生を抑える。周波数軸方向平滑化処理部２１０は、以上のようにしてノイズが除去され、かつ時間軸方向と周波数軸方向との双方に音声スペクトルを平滑化するようにして音声信号を推定し、音声信号１８４として出力する。

［実験による検証］
上記した本実施の形態のノイズ除去装置１８０によるノイズ除去の有効性について、実験により検証を行なった。図１１を参照して、この実験では、目的音声となる音源３００は正面方向に、ノイズ源は正面から右に３０度方向に、それぞれ位置するものとした。ノイズは無相関Ｇａｕｓｓｉａｎノイズである。マイクロホン３１４から音源３００とノイズ源３０２とまでの距離は等しい。

ノイズスペクトル推定のために使用するマイクロホンアレイのマイクロホン３１０及び３１２は、マイクロホン３１４の左右、等距離に設けた。音源３００までの距離は１．０ｍ、マイクロホン３１４からマイクロホン３１０及び３１２までの距離はいずれも０．１ｍである。

図１２に、ノイズ付加音声、上記した制約条件を用いずにノイズ除去を行なった音声（ベースライン：ＢＬ）、マスキング特性を導入してノイズ除去を行なった音声（ＢＬ＋周波数軸方向平滑化）、及びこれに加えて時間軸方向平滑化を導入してノイズ除去を行なった音声（ＢＬ＋周波数軸方向平滑化＋時間軸方向平滑化）のノイズ除去後音声の平均スペクトル歪みを示す。

図１２から、ノイズ環境下において、本実施の形態に係る聴覚特性及び音声生成系に基づく平滑化処理の有効性が確認できる。

なお、本実施の形態では、複数マイクロホンを用いた減算型ビームフォーマにより音響信号中のノイズスペクトルの推定を行なったが、これに限らず現在までに提案されているものおよび将来提案されるものも含みどのようなノイズ推定の手法を用いることもできる。

また、図９のステップ２７２で使用される予測値としては、直前の１フレームから予測した値、例えば直前の１フレームの対応周波数成分の値を用いることもできるし、直前の複数フレームでの対応周波数成分の推移から外挿した値を用いてもよい。

さらに、図９のステップ２７０及び図１０のステップ２８０では、各値が所定のしきい値を超えているか否かを判定しているが、判定条件はこれに限らない。例えば各値が所定のしきい値以上か否かを判定してもよい。また、例えば図９のステップ２７０ではしきい値として３０ｄＢという定数を用いているが、このしきい値を、過去のフレームからの予測により求めるようにしてもよい。

また、図１０のステップ２８２では、スペクトルの谷部の値をマスキングしきい値で置換しているが、これに限らずマスキングしきい値又は振幅の大きさに基づいて何らかの関数で算出される値で置換するようにしてもよい。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。

マスカによるマスキング領域の工学的シミュレーションを説明するための図である。パワー・ロー・モデルによるマスキングしきい値の計算方法を説明するためのグラフである。マスキングしきい値を適用した音声スペクトルの時間変化を示すグラフである。時間軸上で隣接するフレームの対応する周波数成分の変化量のヒストグラムを示す図である。時間軸上で隣接するフレームの対応する周波数成分の変化量を説明するための図である。時間軸上で隣接するフレームの対応する周波数成分の変化量が所定の大きさ未満のものの率を説明するための図である。本発明の一実施の形態に係るノイズ除去装置１８０の機能的構成を示すブロック図である。本発明の一実施の形態のノイズスペクトル推定部２０２で使用する２チャンネル減算型ビームフォーマの構成を模式的に示す図である。時間軸方向平滑化処理部２０６による処理の過程を示すフローチャートである。周波数軸方向平滑化処理部２１０による処理の過程を示すフローチャートである。実験における音源、ノイズ源、受音位置及びマイクロホンの配置を説明するための模式図である。実験結果を示すグラフである。

符号の説明

１８０ノイズ除去装置、１８２ノイズを含む音声信号、１８４ノイズ除去後の音声信号、２００フレーム化処理部、２０２ノイズスペクトル推定部、２０４スペクトル減算部、２０６時間軸方向平滑化処理部、２０８マスキングしきい値算出部、２１０周波数軸方向平滑化処理部

Claims

入力される音響信号を所定の周期で所定の時間長を有するフレームにフレーム化し、フレームごとの音響スペクトルを算出するためのフレーム化手段と、
前記フレーム化手段により出力される音響スペクトルに基づいて、各フレームの音響スペクトルに含まれるノイズスペクトルを推定し、当該各フレームの音響スペクトルから減算するためのノイズ減算手段と、
前記フレーム化手段の出力する各フレームの音響スペクトルに対する周波数軸方向のマスキングしきい値を算出するためのマスキングしきい値算出手段と、
前記ノイズ減算手段から出力されるフレームごとの音響スペクトルに対し、前記マスキングしきい値と処理対象のフレームに対し時間軸上で所定の関係にあるフレームの音響スペクトルとを用いて、時間軸方向と周波数軸方向との双方の平滑化を行なうことにより平滑化された音声信号を出力するための平滑化処理手段とを含む、ノイズ除去装置。
前記平滑化処理手段は、
前記ノイズ減算手段から出力されるフレームごとの音響スペクトルに対し、前記所定の関係にあるフレームの音響スペクトルを用いて時間軸方向の平滑化を行なうための時間軸方向平滑化手段と、
前記時間軸方向平滑化手段の出力するフレームごとの音響スペクトルに対し、前記マスキングしきい値算出手段により算出されたマスキングしきい値を用いた周波数軸方向の平滑化を行なって、周波数軸方向に平滑化された音声信号を生成するための周波数軸方向平滑化処理手段とを含む、請求項１に記載のノイズ除去装置。
前記時間軸方向平滑化手段は、
前記ノイズ減算手段の出力する各フレームの音響スペクトルの各周波数成分について、前記所定の関係にあるフレームの音響スペクトル内で対応する周波数成分との値の相違が所定の条件を充足しているか否かを判定するための第１の判定手段と、
前記第１の判定手段により前記所定の条件を充足していると判定された周波数成分の値を、予め定めた推定方法により推定された値で置換するための手段とを含む、請求項２に記載のノイズ除去装置。
前記第１の判定手段は、前記ノイズ減算手段の出力する各フレームの音響スペクトルの各周波数成分と、処理対象のフレームに対し時間軸上で１フレーム前のフレームの音響スペクトル内で対応する周波数成分との値の相違が所定のしきい値を超えているか否かを判定するための手段を含む、請求項３に記載のノイズ除去装置。
前記周波数軸方向平滑化手段は、
前記時間軸方向平滑化手段の出力する各フレームの音響スペクトルの各周波数成分について、その値が前記マスキングしきい値に対し所定の関係を充足しているか否かを判定するための第２の判定手段と、
前記第２の判定手段により前記所定の関係を充足していると判定された周波数成分を所定の値で置換するための置換手段とを含む、請求項１〜請求項４のいずれかに記載のノイズ除去装置。
前記第２の判定手段は、前記時間軸方向平滑化手段の出力する各フレームの音響スペクトルの各周波数成分について、その値が前記マスキングしきい値を超えているか否かを判定するための手段を含む、請求項５に記載のノイズ除去装置。