JP2011191337A

JP2011191337A - 雑音抑制装置、方法、及びプログラム

Info

Publication number: JP2011191337A
Application number: JP2010055002A
Authority: JP
Inventors: Jani Even; ジャニエバン; Tomoya Takatani; 智哉高谷
Original assignee: Nara Institute of Science and Technology NUC; Toyota Motor Corp
Current assignee: Nara Institute of Science and Technology NUC; Toyota Motor Corp
Priority date: 2010-03-11
Filing date: 2010-03-11
Publication date: 2011-09-29

Abstract

【課題】効果的に雑音を抑制することができる雑音抑制装置、雑音抑制方法、及び雑音抑制プログラムを提供すること。
【解決手段】本発明の一態様にかかる雑音抑制装置は、マイクロフォンユニット６によって取得された観測信号に対して、雑音抑制を行う雑音抑制装置であって、雑音成分と音声成分とを含む観測信号を周波数領域に変換するＦＦＴ部１２と、周波数領域の観測信号を用いた適応処理によって、観測信号から音声推定信号を抽出する分離フィルタベクトルを算出する適応処理部１３と、分離フィルタベクトルで分離された音声推定信号に基づいて、観測信号の雑音成分を推定する雑音推定部１４と、雑音推定部で推定された雑音成分に基づくフィルタを用いて、観測信号の雑音を抑制するフィルタ部１５と、を備え、分離フィルタベクトルが、ニュートン法を用いた更新学習によって分離フィルタを算出されているものである。
【選択図】図２

Description

本発明は、雑音を抑制する雑音抑制装置、雑音抑制方法、及び雑音抑制プログラムに関する。

マイクロフォンによって集音した音声データからノイズを分離する処理において、ブラインド音源分離（ＢＳＳＢｌｉｎｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎ）が利用されている。ブラインド音源分離では、それぞれの音源を独立とした独立成分分析（ＩＣＡ：ＩｎｄｅｐｅｎｄｅｎｔＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ）が用いられる。

例えば、非特許文献１の独立成分分析では、音源数を仮定して、それと同数の分離信号が出力されるように、最適化している。この処理では、音源毎にフィルタを求める必要がある。このため、音源数に応じて処理時間が長くなってしまう。特に、適応処理では、フィルタの各フィルタ係数を算出する処理により多くの計算時間を要する。さらに、適用処理後に推定した音声推定信号を活用せずに破棄している。このような破棄する音声推定信号を算出するために、長時間の演算処理が行われる。処理時間を短くすることができないという。さらに、音源分離を行うために、分離フィルタ行列を算出する方法が、特許文献１に開示されている。

非特許文献１とは異なり音源数を既定せずに、音源分離を行う方法が非特許文献２に開示されている。この方法では、最適化するフィルタの個数が大きく減少され、計算量を大きく改善することができる。

特開２００８−３０６７１２号公報ＹｕＴａｋａｈａｓｈｉ，ＫｅｉｉｃｈｉＯｓａｋｏ，ＨｉｒｏｓｈｉＳａｒｕｗａｔａｒｉ，ＫｉｙｏｈｉｒｏＳｈｉｋａｎｏ， "ＢＬＩＮＤＳＯＵＲＣＥＥＸＴＲＡＣＴＩＯＮＦＯＲＨＡＮＤＳ−ＦＲＥＥＳＰＥＥＣＨＲＥＣＯＧＮＩＴＩＯＮＢＡＳＥＤＯＮＷＩＥＮＥＲＦＩＬＴＥＲＩＮＧＡＮＤＩＣＡ−ＢＡＳＥＤＮＯＩＳＥＥＳＴＩＭＡＴＩＯＮ"，ＨＳＣＭＡ２００８，ｐｐ１６４−１６７ＪａｎｉＥｖｅｎ，ＨｉｒｏｓｈｉＳａｒｕｗａｔａｒｉ，ＫｉｙｏｈｉｒｏＳｈｉｋａｎｏ， "ＢＬＩＮＤＳＩＧＮＡＬＥＸＴＲＡＣＴＩＯＮＢＡＳＥＤＳＰＥＥＣＨＥＮＨＡＮＣＥＭＥＮＴＩＮＰＲＥＳＥＮＣＥＯＦＤＩＦＦＵＳＥＢＡＣＫＧＲＯＵＮＤＮＯＩＳＥ"，２００９ＩＥＥＥ／ＳＰ１５ｔｈＷｏｒｋｓｈｏｐｏｎＳｔａｔｉｓｔｉｃａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＳＳＰ），ｐｐ５１３−５１７

しかしながら、非特許文献２の処理では、コスト関数を最小化する更新学習式を最急降下法によって導出している。このため、更新係数値の調整が必要であり、更新係数値によっては、ローカルミニマムに陥ったり、発散したりして、解に到達しないことがある。すなわち、演算が収束せずに、処理時間が長くなってしまう。さらに、特許文献１では、音源数に応じた分離フィルタ行列を算出するため、計算が煩雑になって、計算時間が長くなってしまう。

本発明は、上記の問題点に鑑みてなされたものであり、効果的に雑音を低減することができる雑音抑制装置、雑音抑制方法、及び雑音抑制プログラムを提供することを目的とする。

本発明の第１の態様にかかる雑音抑制装置は、マイクロフォンユニットによって取得された観測信号に対して、雑音抑制を行う雑音抑制装置であって、雑音成分と音声成分とを含む観測信号を周波数領域に変換するフーリエ変換部と、前記周波数領域の観測信号を用いた適応処理によって、前記観測信号から音声推定信号を抽出する分離フィルタベクトルを算出する適応処理部と、前記分離フィルタベクトルで抽出された音声推定信号に基づいて、前記観測信号の雑音成分を推定する雑音推定部と、前記雑音推定部で推定された雑音成分に基づくフィルタを用いて、観測信号の雑音を抑制するフィルタ部と、を備え、前記分離フィルタベクトルが、ニュートン法を用いた更新学習によって算出されているものである。これにより、効果的に雑音を除去することができる。

本発明の第２の態様にかかる雑音抑制装置は、上記の雑音抑制装置であって、単チャネルの前記音声推定信号を複数チャネルの信号に射影する射影処理部をさらに備え、前記複数チャネルの信号と観測信号とに基づいて、雑音推定するものである。これにより、効果的に雑音を除去することができる。

本発明の第３の態様にかかる雑音抑制方法は、マイクロフォンユニットによって取得された観測信号に対して、雑音抑制を行う雑音抑制方法であって、雑音成分と音声成分とを含む観測信号を周波数領域に変換するステップと、前記周波数領域の観測信号を用いた適応処理によって、前記観測信号から音声推定信号を抽出する分離フィルタベクトルを算出するステップと、前記分離フィルタベクトルに基づいて、前記観測信号の雑音成分を推定するステップと、前記雑音推定部で推定された雑音成分に基づくフィルタを用いて、観測信号の雑音を抑制するステップと、を備え、前記分離フィルタベクトルが、ニュートン法を用いた更新学習によって算出されているものである。これにより、効果的に雑音を除去することができる。

本発明の第４の態様にかかる雑音抑制方法は、上記の方法であって、単チャネルの前記音声推定信号を複数チャネルの信号に射影するステップをさらに備え、前記複数チャネルの信号と観測信号とに基づいて、雑音推定するものである。これにより、効果的に雑音を除去することができる。

本発明の第５の態様にかかる雑音抑制プログラムは、マイクロフォンユニットによって取得された観測信号に対して、雑音抑制を行う雑音抑制プログラムであって、コンピュータに対して、雑音成分と音声成分とを含む観測信号を周波数領域に変換させるステップと、前記周波数領域の観測信号を用いた適応処理によって、前記観測信号から音声推定信号を分離する分離フィルタベクトルを算出させるステップと、前記分離フィルタベクトルに基づいて、前記観測信号の雑音成分を推定させるステップと、前記雑音推定部で推定された雑音成分に基づくフィルタを用いて、観測信号の雑音を抑制させるステップと、を備え、前記分離フィルタベクトルが、ニュートン法を用いた更新学習によって算出されているものである。これにより、効果的に雑音を除去することができる。

本発明の第６の態様にかかる雑音抑制方法は、上記のプログラムであって、単チャネルの前記音声推定信号を複数チャネルの信号に射影させるステップをさらに備え、前記複数チャネルの信号と観測信号とに基づいて、雑音推定するものである。これにより、効果的に雑音を除去することができる。

本発明によれば、短い処理時間で雑音を効果的に抑制することができる雑音抑制装置、雑音抑制方法、及び雑音抑制プログラムを提供することを提供することができる。

本発明にかかるロボットの全体構成を模式的に示す図である。本発明にかかる雑音抑制装置とそのフローを示すブロック図である。

以下、本発明に係る移動体の実施形態を、図面に基づいて詳細に説明する。但し、本発明が以下の実施形態に限定される訳ではない。また、説明を明確にするため、以下の記載及び図面は、適宜、簡略化されている。

まず、本発明に係る移動体の一例であるロボットの構成について、図１を用いて説明する。図１はロボットの構成を模式的に示す外観図である。本実施の形態では、ロボットが、自律移動する移動ロボットとして説明する。ロボットは、頭部１と、車輪２と、筐体３と、センサ５と、マイクロフォンユニット６と、制御部１０と、を備えている。そして、筐体３の内部には、車輪２と接続されたモータ、及びモータを駆動するためのバッテリなどが設けられている。このモータがロボットを駆動するための駆動機構となる。モータを駆動することによって、車輪２が回転して、ロボットが移動する。

さらに、頭部１には、ＣＣＤカメラやレーザセンサなどを有するセンサ５が設けられている。センサ５はロボット１００に周囲に存在する障害物や人間などを検知する。ロボット１は、障害物などを避けて移動する。マイクロフォンユニット６は、複数のマイクロフォンによって、外部の音を検出する。すなわち、マイクロフォンユニット６は、所定のピッチでマイクロフォンが配列されているマルチチャネルのマイクロフォンユニットである。そして、マイクロフォンユニット６は、集音した音声データをＡ／Ｄ変換して、制御部１０に出力する。

制御部１０は、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、通信用のインタフェイスなどを有する演算処理装置である。また、制御部１０は、着脱可能なＨＤＤ、光ディスク、光磁気ディスク等を有し、各種プログラムや制御パラメータなどを記憶し、そのプログラムやデータを必要に応じてメモリ（不図示）等に供給する。もちろん、制御部１０は、物理的に一つの構成に限られるものではない。制御部１０は、マイクロフォンユニット６によって、集音された音のデータに対して、音声処理を行う。例えば、雑音除去処理、音声認識処理などを行う。そして、制御部１０は、音声認識の処理結果に応じて、ロボット１の動作を制御する。

本実施形態にかかるロボット１は、制御部１０によって行われる音声データ処理、具体的には、雑音抑制処理を特徴の一つとしている。ここでは、独立成分分析（ＩＣＡ）により音源抽出を行い、音声成分、雑音成分を推定している。さらに、本実施形態では、音声成分のスパース性が高いことに着目し、高スパース性信号を出力するＩＣＡを用いている。マイクロフォンユニット６から出力された観測信号から雑音信号を抑制して、特定のユーザから発せられた音声信号を抽出している。さらに、雑音が抑制された音声データに対して、例えば、音声認識処理を行う。これにより、音声認識の精度を向上することができる。このように、制御部１０は、雑音抑制装置として機能する。

次に、雑音抑制処理を行う制御部１０の構成、及び雑音抑制方法のフローについて、図２を用いて説明する。図２は、雑音抑制処理を行うための、制御部１０の構成を示すブロック図である。制御部１０は、フレーム分割部１１と、ＦＦＴ部１２と、適応処理部１３と、射影処理部１４と、雑音推定部１と、ＷＦ部１６と、ＤＳ部１７と、ＩＦＦＴ部１８と、を備えている。

ここでは、マイクロフォンユニット６が２つのマイクロフォンを備えており、第１のマイクロフォンからの入力信号を入力１とし、第２のマイクロフォンからの入力信号を入力２とする。そして、入力１、及び入力２が制御部１０に入力される。なお、マイクロフォンユニット６の数は、２に限られるものではなく、１つでも３つ以上でもよい。マイクロフォンユニット６からの入力１、２は、ユーザの音声に基づく音声信号だけでなく、ハックグラウンドに基づく雑音信号も含む、観測信号となる。すなわち、観測信号は、抽出したい音声信号と、除去したい雑音信号とが混合された信号である。なお、上記の説明ではマイクロフォンユニット６によって観測信号をデジタル信号に変換したが、マイクロフォンユニット６から出力されたアナログの観測信号を制御部１０がデジタル信号に変換しても良い。

フレーム分割部１１は、マイクロフォンユニット６から入力された観測信号をフレーム分割する。具体的には、所定時間の観測信号をバッファに記憶して、その観測信号を、ｋ個（ｋは２以上の整数）のフレームに分割する。ここでは、時間領域において、隣接フレームが半分重なるように、ハーフシフトによってフレーム分割している。フレーム分割された音声データは、ＦＦＴ部１２によって、高速フーリエ変換（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｒｏｍ）され、周波数領域の観測信号となる。すなわち、デジタルの観測信号に対して離散的なフーリエ変換を行うことによって、時間領域の観測信号が、周波数領域の観測信号に変換される。

周波数領域の観測信号は、適応処理部１３によって適応処理がなされる。適応処理では、最適化アルゴリズムに従ってその伝達関数の逆フィルタを自己適応させる適応フィルタが生成される。この適応フィルタは、観測信号から音声成分を分離する分離フィルタである。分離フィルタは、マイクロフォンユニット６のチャネル数に応じた次元を持つベクトルである。分離フィルタは、観測信号から目的音源であるユーザの音声成分を抽出する。例えば、分離フィルタは、音声成分以外を雑音成分として、観測信号から音声成分を抽出する。

具体的には、コスト関数Ｊ（Ｗ（ｆ））を最小にするような分離フィルタＷ（ｆ）が作成される。コスト関数は、観測信号に対して、音声成分の分離度を評価するものである。このコスト関数が最小値に収束することで、分離フィルタＷ（ｆ）が決定される。具体的には、更新学習を行うことで、コスト関数Ｊ（Ｗ（ｆ））が最小値に近づいていく。そして、更新計算が収束することで、コスト関数Ｊ（Ｗ（ｆ））が最小化されて、分離フィルタＷ（ｆ）が決定する。そして、分離フィルタＷ（ｆ）が決定されたら、次の観測信号からこの分離フィルタＷ（ｆ）を用いて、音声成分を推定する。さらに、制御部１０は、新たに測定された観測信号と現在の分離フィルタＷ（ｆ）を用いて更新学習処理を行い、所定の更新間隔で、分離フィルタＷ（ｆ）を更新する。このように、分離フィルタＷ（ｆ）は、フィードバックによって随時変化する。

この分離フィルタＷ（ｆ）を観測信号に適用することで、観測信号から音声推定信号が抽出される。なお、音声推定信号は、発話したユーザを音源と推定した信号となる。なお、分離フィルタＷ（ｆ）を算出する処理については後述する。

射影処理部１４は、適応処理部１３で作成された分離フィルタＷ（ｆ）に基づいて、射影処理を行う。ここでは、音声推定信号ｙ（ｆ,ｋ）と観測信号Ｘ（ｆ,ｋ）と基づいて、射影処理を行う。これにより、音声と推定された音声推定信号のみ、元の空間に射影される。具体的には、射影された音声推定信号（以下、射影信号とする）は以下の式（１）によって求めることができる。

εは、ｋに対する平均、すなわち、時間平均を示している。Ｈは共役転置を示している。この射影処理によって音のひずみを抑制して、マイクロフォンユニット６の音質に戻すことができる。さらに、単チャネルの推定信号を多チャネルに射影することができる。すなわち、１つの音声推定信号が、多チャネルの信号に変換される。もちろん、これ以外の方法で、射影処理を行っても良い。そして、射影処理部１４は、射影された射影信号を雑音推定部１５に出力する。

次に、雑音推定部１５は、射影信号に基づいて、雑音成分を推定する。例えば、雑音推定部１５は、観測信号から射影信号を減算することで、雑音成分を推定する。具体的には、以下の式（２）によって、算出することができる。

そして、雑音推定部１５から雑音推定信号が出力される。雑音推定部１５は、チャネル毎に雑音推定する。本実施形態では２チャネルのマイクロフォンユニット６を用いているため、ある周波数ビンについて、２つの雑音推定信号が出力される。なお、分離フィルタＷ（ｆ）を生成する処理から、雑音推定するまでの処理は、同じタイミングの観測信号に基づいて実行される。

そして、ＷＦ（ＷｅｉｎｅｒＦｉｌｔｅｒ）部１６には、雑音推定部１５からの雑音推定信号が入力される。さらに、ＷＦ部１６には、ＦＦＴ部１２から観測信号が入力される。ＷＦ部１６は、推定された雑音成分を用いて、ＦＦＴ部１２からの観測信号に対する雑音抑制を行う。ＷＦ部１６は、ウィーナーフィルタ処理によって雑音抑制処理を実行する。例えば、雑音推定信号のパワーと、観測信号のパワーの比から、雑音を抑制する。これにより、効果的に雑音を抑制することができる。ＦＦＴ部１２からの観測信号は、分離フィルタを生成した観測信号よりも後に測定されたものである。よって、後続する観測信号に対してＷＦ部１６によるフィルタ処理が行われる

例えば、ＷＦ部１６では、雑音成分に応じた雑音推定信号と、雑音成分と音声成分を含む観測信号と、に基づいて、マスク関数を算出する。マスク関数は、観測信号から雑音成分を減算するための減算係数を有するフィルタである。そして、このマスク関数を、観測信号に適用することで、雑音をマスクする。これにより、観測信号中の雑音成分が抑制される。

例えば、マスク関数Ｇ（ｆ,ｋ）は以下の式（３）で算出することができる。

なお、上記の式において、αは任意の定数であり、雑音抑制を制御するパラメータである。マスク関数Ｇ（ｆ,ｋ）はウィーナーゲインに相当する。ウィーナーフィルタにより雑音抑圧は、各チャネルに対して実行される。なお、各関数の下付き文字の"１"はチャネルを示している。よって、その他のチャネルに対しても同様の処理が適用される。なお、観測信号は、雑音推定信号と音声推定信号の和である。観測信号がウィーナーフィルタを通過することで、雑音抑制される。そして、ＷＦ部１６は、雑音抑制された雑音抑制信号をＤＳ部１７に出力する。各周波数成分に対してウィーナーフィルタリング処理が適用されることで、効果的に雑音抑制することができる。

ＷＦ部１６でウィーナーフィルタを通過した雑音抑制信号は、ＤＳ（ＤｅｌａｙａｎｄＳｕｍ）部１７によって、遅延、及び加算される。すなわち、２チャネルの観測信号に、音声到来方向と、マイクロフォン間ピッチに応じた時間遅延（ディレイ）を与える。そして、所定の時間遅延が与えられた後、２つの観測信号が加算される。これにより、２チャネルの観測信号の位相が揃う。このため、音声成分が強調され、Ｓ／Ｎを向上することができる。

そして、ＤＳ部１７から出力された信号は、ＩＦＦＴ（ＩｎｖｅｒｓｅＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）部１８に入力される。ＩＦＦＴ部１８は、信号に逆高速フーリエ変換を行い、時間領域の信号に戻す。これにより、時間領域の信号であって、かつ雑音抑制処理が行われた音声データを生成することができる。

上記のように、マイクロフォンユニット６によって、雑音成分と音声成分とを含む観測信号を取得する。そして、観測信号を周波数領域に変換する。周波数領域の観測信号を用いた適応処理によって、観測信号から音声推定信号を分離する分離フィルタベクトルを算出する。分離フィルタベクトルに基づいて、観測信号の雑音成分を推定する雑音推定する。雑音推定部で推定された雑音成分に基づくフィルタを用いて、観測信号の雑音を抑制する。分離フィルタを随時更新していき、更新された分離フィルタに基づいて雑音抑制を行う。これにより、音源数の増加しても、分離フィルタ（ベクトル）の算出時間が多くならない。よって、演算時間を短くすることができ、効果的に、雑音抑制することができる。

本実施の形態では、音源数によらず音声成分だけを推定している。これにより、演算処理を簡素化することができ、演算処理時間を短縮することができる。さらに、ニュートン法を用いた更新学習によって分離フィルタベクトルを算出している。以下に、適応処理部１３における分離フィルタの算出処理について、詳細に説明する。更新学習に用いられるコスト関数Ｊ（Ｗ（ｆ））は、以下の式（４）によって表される。

ここで、Ｗ（ｆ）は分離フィルタ（ベクトル）、Ｘ（ｆ,ｋ）は入力信号（ベクトル）、ｙ（ｆ,ｋ）は音声推定信号（スカラー）である。入力信号Ｘ（ｆ,ｋ）は観測信号に対応する。音声推定信号ｙ（ｆ、ｋ）は、分離フィルタによる分離、抽出の結果である。すなわち、入力信号Ｘ（ｆ,ｋ）に分離フィルタＷ（ｆ）を適用することに音声推定信号ｙ（ｆ、ｋ）がよって得られる。このため、音声推定信号ｙ（ｆ、ｋ）は、以下のように分離フィルタＷ（ｆ）と入力信号Ｘ（ｆ,ｋ）との乗算で表され、以下の式（５）となる。

式（５）において、Ｔは転置を示している。また、更新学習式は、以下の式（６）によって表すことができる。

εは、ｋに対する平均、すなわち時間平均を示している。Ｈはヘッセ行列であり、その対称性からＨ_{ｗｉｗｉ＊}＝Ｈ^＊ _{ｗｉ＊ｗｉ}となり、また、Ｈ_{ｗｉ＊ｗｉ＊}＝Ｈ^＊ _ｗｉｗｉとなる。＊は共役、Ｔは転置、Ｈは共役転置を示している。

上記の更新学習式によって、分離フィルタＷ（ｆ）が収束するまで、繰り返し演算を行う。例えば、ｉをインクリメントした時の分離フィルタＷ（ｆ）の減少分が一定値以下になるまでループを繰り返す。この更新学習によって、分離フィルタＷ（ｆ）を算出することができる。この分離フィルタＷ（ｆ）を用いることで、短い処理時間で効果的に雑音を抑制することができる。

更新学習において、ニュートン法を用いて分離フィルタを算出することで、更新係数μを変更しなくても、分離フィルタＷ（ｆ）の繰り返し演算が収束する。ローカルミニマムに陥ることがなく、かつ発散することがないので、ロバスト性を向上することができる。すなわち、更新係数の選択によらず、更新学習が収束するため、更新係数に対するロバスト性が向上する。すなわち、更新係数μは一定値でよい。さらに、更新学習の繰り返し回数も少なくすることができる。よって、演算処理時間を短縮することができる。また、分離フィルタＷ（ｆ）は行列ではなく、ベクトルであるため、計算を簡素化でき、計算時間を短くすることができる。

本実施形態では、音声信号のスパース性が高いことに着目して、音声信号のみを抽出している。よって、音源数を規定する必要がない。観測信号から音声推定信号を分離する分離フィルタベクトルのみを算出すればよい。すなわち、一つの分離フィルタベクトルを算出するだけでよいため、処理時間を短くすることができる。

上述した雑音抑制処理は、ＤＳＰ（Digital Signal Processor）、ＭＰＵ（Micro Processing Unit）、若しくはＣＰＵ（Central Processing Unit）又はこれらの組み合わせを含むコンピュータにプログラムを実行させることによって実現してもよい。

雑音抑制処理をコンピュータに行わせるための命令群を含むプログラムは、非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いてコンピュータに供給できる。非一時的なコンピュータ可読媒体は、様々な種類の実体のある記憶媒体（tangible storage medium）を含む。例えば、非一時的なコンピュータ可読媒体は、磁気記憶媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記憶媒体（例えば光磁気ディスク）、ＣＤ−ＲＯＭ、ＣＤ−Ｒ，ＣＤ−Ｒ／Ｗ、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、ＵＶ−ＥＰＲＯＭ（Erasable ROM）、ＥＥＰＲＯＭ（Electrical EPROM）、フラッシュＲＯＭを含む。また、プログラムは、非一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的な媒体は、プログラムがエンコードされた電気信号、光信号、及び電磁波を含む。プログラムがエンコードされた電気信号、光信号、及び電磁波は、電線及び光ファイバ等の有線伝送路、又は無線伝送路（空間）を伝搬することでコンピュータに供給される。

１頭部
２車輪
３筺体
５センサ
６マイクロフォンユニット
１０制御部
１１フレーム分割部
１２ＦＦＴ部
１３適応処理部
１４射影処理部
１５雑音推定部
１６ＷＦ部
１７ＤＳ部
１８ＩＦＦＴ部

Claims

マイクロフォンユニットによって取得された観測信号に対して、雑音抑制を行う雑音抑制装置であって、
雑音成分と音声成分とを含む観測信号を周波数領域に変換するフーリエ変換部と、
前記周波数領域の観測信号を用いた適応処理によって、前記観測信号から音声推定信号を抽出する分離フィルタベクトルを算出する適応処理部と、
前記分離フィルタベクトルで抽出された音声推定信号に基づいて、前記観測信号の雑音成分を推定する雑音推定部と、
前記雑音推定部で推定された雑音成分に基づくフィルタを用いて、観測信号の雑音を抑制するフィルタ部と、を備え、
前記前記分離フィルタベクトルが、ニュートン法を用いた更新学習によって算出されている雑音抑制装置。
単チャネルの前記音声推定信号を複数チャネルの信号に射影する射影処理部をさらに備え、
前記複数チャネルの信号と観測信号とに基づいて、雑音推定する請求項１に記載の雑音抑制装置。
マイクロフォンユニットによって取得された観測信号に対して、雑音抑制を行う雑音抑制方法であって、
雑音成分と音声成分とを含む観測信号を周波数領域に変換するステップと、
前記周波数領域の観測信号を用いた適応処理によって、前記観測信号から音声推定信号を抽出する分離フィルタベクトルを算出するステップと、
前記分離フィルタベクトルに基づいて、前記観測信号の雑音成分を推定するステップと、
前記雑音推定部で推定された雑音成分に基づくフィルタを用いて、観測信号の雑音を抑制するステップと、を備え、
前記分離フィルタベクトルがニュートン法を用いた更新学習によって算出されている雑音抑制方法。
単チャネルの前記音声推定信号を複数チャネルの信号に射影するステップをさらに備え、
前記複数チャネルの信号と観測信号とに基づいて、雑音推定する請求項２に記載の雑音抑制方法。
マイクロフォンユニットによって取得された観測信号に対して、雑音抑制を行う雑音抑制プログラムであって、
コンピュータに対して、
雑音成分と音声成分とを含む観測信号を周波数領域に変換させるステップと、
前記周波数領域の観測信号を用いた適応処理によって、前記観測信号から音声推定信号を抽出する分離フィルタベクトルを算出させるステップと、
前記分離フィルタベクトルに基づいて、前記観測信号の雑音成分を推定させるステップと、
前記雑音推定部で推定された雑音成分に基づくフィルタを用いて、観測信号の雑音を抑制させるステップと、を備え、
前記分離フィルタベクトルが、ニュートン法を用いた更新学習によって算出されている雑音抑制プログラム。
単チャネルの前記音声推定信号を複数チャネルの信号に射影させるステップをさらに備え、
前記複数チャネルの信号と観測信号とに基づいて、雑音推定する請求項５に記載の雑音抑制プログラム。