JP2005084244A

JP2005084244A - 定常雑音下における音声区間検出に基づく目的音声の復元方法

Info

Publication number: JP2005084244A
Application number: JP2003314247A
Authority: JP
Inventors: Hiroshi Gotanda; 博五反田; Takeshi Furuya; 武志古屋; Keiichi Kaneda; 圭市金田
Original assignee: WAVE COME KK; Kinki University; Kitakyushu Foundation for Advancement of Industry Science and Technology
Current assignee: WAVE COME KK; Kinki University; Kitakyushu Foundation for Advancement of Industry Science and Technology
Priority date: 2003-09-05
Filing date: 2003-09-05
Publication date: 2005-03-31
Anticipated expiration: 2023-09-05
Also published as: WO2005029463A9; JP4496378B2; WO2005029463A1

Abstract

【課題】ＩＣＡ法により作成した分離信号から音声区間に含まれる信号のみを抽出して残留雑音を最小化することが可能な目的音声の復元方法を提供する。
【解決手段】２つの音源１１、１２からそれぞれ発信される目的音声及び雑音を、第１及び第２のマイク１３、１４でそれぞれ受信し独立成分分析法により目的音声に対応する推定スペクトルＹ^* を抽出する第１工程と、推定スペクトルＹ^* からその振幅分布の尖度の値を分離判定基準にして雑音が除去された推定スペクトルｙ^* を分離する第２工程と、推定スペクトルｙ^* の総和Ｆを求め、その最大値に応じて決定される閾値βを検出判定基準にして総和Ｆの周波数領域から音声区間及び雑音区間をそれぞれ検出する第３工程と、推定スペクトルＹ^* から音声区間に存在する成分を抽出して目的音声の復元スペクトル群を生成し目的音声を復元する第４工程とを有する。
【選択図】図１

Description

本発明は、ＩＣＡ法により得られた分離信号から音声区間と雑音区間を分離し、分離信号から音声区間に含まれる信号のみを抽出することで音声全体に含まれる残留雑音を最小化する定常雑音下における音声区間検出に基づく目的音声の復元方法に関する。

近年、音声認識技術は著しく進展して、周囲に雑音のない理想的な環境下では認識能力の極めて高い音声認識エンジンが供給できるようになってきている。
しかし、生活音や活動音が存在する一般家庭やオフィスでは、期待通りの認識率を得るのが難しい。このような環境下で音声認識エンジンのもつ本来の認識能力を引き出すには、雑音混じりの音声から雑音を除去して、話者音声のみを音声認識エンジンに受け渡す前処理が不可欠と考えられる。
その観点から、近年、独立成分分析法（以下、単にＩＣＡ法という）や各種音声強調法が注目を集めており、様々なアルゴリズムが提案されている（例えば、非特許文献１〜５参照）。そして、これらの各種アルゴリズムのなかで、各音源が統計的に独立という仮定の基に、音声と雑音を分離するＩＣＡ法が注目されている。

ベル、セイノフスキー（Ｊ．ＢｅｌｌａｎｄＴ．Ｊ．Ｓｅｊｎｏｗｓｋｉ）、"アンインフォメーションマキシマイゼイションアプローチツーブラインドセパレイションアンドブラインドディコンボルーション（Ａｎｉｎｆｏｒｍａｔｉｏｎｏｎａｎｄｂｌｉｎｄｄｅｃｏｎｖｏｌｕｔｉｏｎ"、ニューラルコンピューテイション（ＮｅｕｒａｌＣｏｍｐｕｔａｔｉｏｎ）、米国、エムアイティープレス（ＭＩＴＰｒｅｓｓ）、１９９５年６月、７巻、６号、ｐ．１１２９−１１５９アマリ（Ｓ．Ａｍａｒｉ）、"ナチュラルグラディエントワークスエフィシェントリーインラーニング（Ｎａｔｕｒａｌｇｒａｄｉｅｎｔｗｏｒｋｓｅｆｆｉｃｉｅｎｔｌｙｉｎｌｅａｒｎｉｎｇ）、ニューラルコンピューテイション（ＮｅｕｒａｌＣｏｍｐｕｔａｔｉｏｎ）、米国、エムアイティープレス（ＭＩＴＰｒｅｓｓ）、１９９８年２月、１０巻、２号、ｐ．２５４−２７６リー、ギロラミ、セイノフスキー（Ｔ．Ｗ．Ｌｅｅ、Ｍ．ＧｉｒｏｌａｍｉａｎｄＴ．Ｊ．Ｓｅｊｎｏｗｓｋｉ）、"インディペンデントコンポーネントアナリシスユージングアンイクステンティッドインフォマックスアルゴリズムフォアミクストサブガウシアンアンドスーパーガウシアンソーシズ（Ｉｎｄｅｐｅｎｄｅｎｔｃｏｍｐｏｎｅｎｔａｎａｌｙｓｉｓｕｓｉｎｇａｎｅｘｔｅｎｔｅｄｉｎｆｏｒｍａｘａｌｇｏｒｉｔｈｍｆｏｒｍｉｘｅｄｓｕｂｇａｕｓｓｉａｎａｎｄｓｕｐｅｒｇａｕｓｓｉａｎｓｏｕｒｃｅｓ）、ニューラルコンピューテイション（ＮｅｕｒａｌＣｏｍｐｕｔａｔｉｏｎ）、米国、エムアイティプレス（ＭＩＴＰｒｅｓｓ）、１９９９年２月、１１巻、２号、ｐ．４１７−４４１ヒバリネン（Ａ．Ｈｙｖａｒｉｎｅｎ）、"ファストアンドロバストフィクスト−ポイントアルゴリズムフォアインディペンデントコンポーネントアナリシス（Ｆａｓｔａｎｄｒｏｂｕｓｔｆｉｘｅｄ−ｐｏｉｎｔａｌｇｏｒｉｔｈｍｓｆｏｒｉｎｄｅｐｅｎｄｅｎｔｃｏｍｐｏｎｅｎｔａｎａｌｙｓｉｓ）、トランザクションニューラルネットワークス（ＩＥＥＥＴｒａｎｓ．ＮｅｕｒａｌＮｅｔｗｏｒｋｓ）、米国、アイイーイーイー（ＩＥＥＥ）、１９９９年６月、１０巻、３号、ｐ．６２６−６３４ヒバリネン、オヤ（Ａ．Ｈｙｖａｒｉｎｅｎ、ａｎｄＥ．Ｏｊａ）、"インディペンデントコンポーネントアナリシス：アルゴリズムアンドアプリケイションズ（Ｉｎｄｅｐｅｎｄｅｎｔｃｏｍｐｏｎｅｎｔａｎａｌｙｓｉｓ：ａｌｇｏｒｉｔｈｍｓａｎｄａｐｐｌｉｃａｔｉｏｎｓ）、ニューラルネットワークス（ＮｅｕｒａｌＮｅｔｗｏｒｋｓ）、米国、ペルガモンプレス（ＰｅｒｇａｍｏｎＰｒｅｓｓ）、２０００年６月、１３巻、４−５号、ｐ．４１１−４３０

しかしながら、ＩＣＡ法では、残響のない理想的環境下の場合は良好に音声と雑音を分離することができるが、残響が強い実際的な環境下の場合は残響に起因した残留雑音のため、分離能力が極端に低下するという問題がある。
本発明はかかる事情に鑑みてなされたもので、実際的な環境下で受信した信号からＩＣＡ法により作成した分離信号に基づいて音声区間と雑音区間を分離し、分離信号から音声区間に含まれる信号のみを抽出することで、目的音声に含まれる残留雑音を最小化することが可能な定常雑音下における音声区間検出に基づく目的音声の復元方法を提供することを目的とする。

前記目的に沿う第１の発明に係る定常雑音下における音声区間検出に基づく目的音声の復元方法は、異なる２つの音源からそれぞれ発信される目的音声及び雑音を、異なる位置に設けた第１及び第２のマイクでそれぞれ受信して混合信号を形成し、該各混合信号を時間領域から周波数領域にフーリエ変換して、独立成分分析法により前記目的音声及び前記雑音にそれぞれ対応する各分割スペクトルから複数の推定スペクトルＹ^* 、Ｙを抽出する第１工程と、
前記各推定スペクトルＹ^* を、該各推定スペクトルＹ^* の振幅分布の尖度の値を分離判定基準にして前記雑音が除去された複数の推定スペクトルｙ^* 及び前記雑音が残留する複数の推定スペクトルｙに分離する第２工程と、
前記各推定スペクトルｙ^* の総和Ｆを求め、該総和Ｆの最大値に応じて決定される閾値βを検出判定基準にして該総和Ｆの周波数領域から音声区間及び雑音区間をそれぞれ検出する第３工程と、
前記各推定スペクトルＹ^* から前記音声区間に存在する成分を抽出して前記目的音声の復元スペクトル群を生成し、該復元スペクトル群を周波数領域から時間領域にフーリエ逆変換して前記目的音声を復元する第４工程とを有する。

第１及び第２のマイクでそれぞれ受信されて得られる混合信号のみを用いて２つの音源からそれぞれ発信される目的音声及び雑音を推定する場合、混合信号は畳み込み混合されている。このため、周波数領域に変換することで畳み込み混合を瞬時混合として取り扱うことができ、分離が容易となる。更に、各音源は統計的に独立と考えることができるので、独立成分分析（ＩＣＡ）法を適用することができる。
ここで、ＩＣＡ法を適用して得られた周波数毎の分割スペクトルには、スケーリングの不定性と成分置換の問題が生じているため、これらの問題を別途解決して目的音声及び雑音にそれぞれ対応する周波数毎の推定スペクトルＹ^* 、Ｙを抽出する。
しかし、抽出された各推定スペクトルＹ^* を周波数毎に見てみると、雑音が良好に分離されている周波数と雑音がほとんど除去されていない周波数が存在している状態になっている。

一方、時間領域での音声と雑音の統計的性質として、音声は０近傍の値を取る確率が非常に大きい尖度の高い分布になるのに対して、雑音は尖度の低い分布になることが知られている、このことは、周波数領域に変換した音声と雑音に対しても当てはまり、音声に対応したスペクトルの振幅分布は尖度が高く、雑音に対応したスペクトルの振幅分布は尖度が低くなる。
このことから、各推定スペクトルＹ^* において、その振幅分布の尖度を求めると、振幅分布の尖度が大きければその周波数では雑音が良好に除去されていると判定でき、尖度が小さければその周波数では雑音がほとんど除去されていないと判定することができる。従って、各推定スペクトルＹ^* の振幅分布の尖度によって、各推定スペクトルＹ^* を推定スペクトルｙ^* と推定スペクトルｙに分離することができる。

一般に、音声の周波数成分は、時間的に変化するため、音声を特徴付けるスペクトルの現れる周波数領域は推定スペクトルｙ^* によって異なることになる。そこで、各推定スペクトルｙ^* の総和Ｆを求め、周波数領域における総和Ｆに対して総和Ｆの最大値に応じて決定される閾値βを適切に選ぶことにより、時間的な音声区間をカバーするような周波数領域における音声区間を検出することができる。そして、音声区間を除いた部分を周波数領域における雑音区間として検出することができる。
従って、目的音声に対応する各推定スペクトルＹ^* から求めた音声区間に存在する成分のみを抽出して目的音声の復元スペクトル群を生成すると、復元スペクトル群には雑音成分は実質的に存在しないことになる。そして、この復元スペクトル群を周波数領域から時間領域にフーリエ逆変換して目的音声信号を復元することができる。

第１の発明に係る定常雑音下における音声区間検出に基づく目的音声の復元方法において、前記検出判定基準は、前記総和Ｆが前記閾値βを超える周波数領域を前記音声区間とし、前記総和Ｆが前記閾値β以下となる周波数領域を前記雑音区間として検出するように設定されていることが好ましい。
これによって、検出判定基準として２値化された（閾値βに基づいて音声区間とするか、雑音区間とするかの２者択一の選択を行う）音声区間検出関数を設定することができる。その結果、各推定スペクトルＹ^* から音声を特徴付けるスペクトルの現れる周波数領域を簡便に決定することができる。

前記目的に沿う第２の発明に係る定常雑音下における音声区間検出に基づく目的音声の復元方法は、異なる２つの音源からそれぞれ発信される目的音声及び雑音を、異なる位置に設けた第１及び第２のマイクでそれぞれ受信して混合信号を形成し、該各混合信号を時間領域から周波数領域にフーリエ変換して、独立成分分析法により前記目的音声及び前記雑音にそれぞれ対応する各分割スペクトルから複数の推定スペクトルＹ^* 、Ｙを抽出する第１工程と、
前記各推定スペクトルＹ^* を、該各推定スペクトルＹ^* の振幅分布の尖度の値を分離判定基準にして前記雑音が除去された複数の推定スペクトルｙ^* 及び前記雑音が残留する複数の推定スペクトルｙに分離する第２工程と、
前記各推定スペクトルｙ^* の総和Ｆを求め、該総和Ｆの最大値に応じて決定される閾値βを検出判定基準にして該総和Ｆの時間領域から音声区間及び雑音区間をそれぞれ検出する第３工程と、
前記各推定スペクトルＹ^* を周波数領域から時間領域にフーリエ逆変換して得られた前記目的音声の信号から前記音声区間に存在する成分を抽出して前記目的音声を復元する第４工程とを有する。

混合信号を時間領域から周波数領域にフーリエ変換すると、混合信号は離散化された複数のスペクトルに分解される。そして、各スペクトルを大きさの順に並べたときのフレーム番号とサンプリング時刻の間には、フレーム周期を介して１対１の関係が成立する。従って、フレーム番号とサンプリング時刻の関係から、周波数領域で検出した音声区間を時間領域に変換することができる。そして、音声区間を除いた部分を時間領域における雑音区間として検出することができる。
このため、各推定スペクトルＹ^* を周波数領域から時間領域にフーリエ逆変換して得られた時間領域の目的音声の信号から音声区間に存在する成分のみを抽出して目的音声の復元信号を生成することができる。

第２の発明に係る定常雑音下における音声区間検出に基づく目的音声の復元方法において、前記検出判定基準は、前記総和Ｆが前記閾値βを超える時間領域を前記音声区間とし、前記総和Ｆが前記閾値β以下となる時間領域を前記雑音区間として検出することが好ましい。
これによって、検出判定基準として２値化された（閾値βに基づいて音声区間とするか、雑音区間とするかの２者択一の選択を行う）音声区間検出関数を設定することができる。その結果、時間領域の目的音声の信号から雑音区間がゼロになって音声区間のみの音声が強調された信号を簡便に決定することができる。

第１及び第２の発明に係る定常雑音下における音声区間検出に基づく目的音声の復元方法において、前記尖度の値を前記各推定スペクトルＹ^* の振幅分布のエントロピーＨで評価することが好ましい。
各推定スペクトルＹ^* の振幅分布の尖度は、振幅分布の不確定性の観点からエントロピーＨを用いて定量的に評価することができる。この場合、雑音が除去される程推定スペクトルＹ^* のエントロピーＨは小さくなり、雑音が残留する程推定スペクトルＹ^* のエントロピーＨは大きくなる。
なお、尖度を定量的に計る尺度としては、例えば、平均の周りの四次のモーメントμと標準偏差σの4 乗との比、すなわちμ／σ⁴ （ｋｕｒｔｏｓｉｓ）を使用することもできるが、異常値に対する評価の安定性が劣るという問題があり好ましくない。

第１及び第２の発明に係る定常雑音下における音声区間検出に基づく目的音声の復元方法において、前記分離判定基準は、
（１）前記エントロピーＨが予め設定した閾値α未満である推定スペクトルＹ^* は前記推定スペクトルｙ^* として分離し、
（２）前記エントロピーＨが予め設定した閾値α以上である推定スペクトルＹ^* は前記推定スペクトルｙとして分離するように設定されていることが好ましい。

各推定スペクトルＹ^* を周波数毎に見てみると、雑音が良好に分離されている周波数と雑音がほとんど除去されていない周波数が存在しているので、推定スペクトルＹ^* のエントロピーＨは分布を持つことになる。
従って、エントロピーＨの値に閾値αを設定して、エントロピーＨがこの閾値α未満である推定スペクトルＹ^* は雑音の除去が行われている推定スペクトルｙ^* と認定し、エントロピーＨがこの閾値α以上である推定スペクトルＹ^* は雑音が残留する推定スペクトルｙと認定することができる。
このように、２値化された（閾値αに基づいて推定スペクトルｙ^* とするか、推定スペクトルｙとするかの２者択一の選択を行う）分離判定基準を設定することにより、各推定スペクトルＹ^* から推定スペクトルｙ^* 及び推定スペクトルｙを素早く、かつ容易に決定することができる。

請求項１、及びこれに従属する２、５、６記載の定常雑音下における音声区間検出に基づく目的音声の復元方法においては、実際的な環境下で受信した信号から目的音声に対応する分割スペクトルを抽出し音声区間と雑音区間を検出して音声区間に含まれる信号のみを抽出することができるので、音声全体に含まれる残留雑音を最小化して高品質の音声を復元することが可能になる。
その結果、雑音環境下での音声認識として、例えば、ＯＡ分野での音声指令、音声入力、流通業界での倉庫管理やカーナビゲーターへの音声指令等、従来のタッチセンサ、指、及びキーボードを用いた入力操作の代替が可能になる。

特に、請求項２記載の定常雑音下における音声区間検出に基づく目的音声の復元方法においては、各推定スペクトルＹ^* から音声を特徴付けるスペクトルの現れる周波数領域を簡便に決定することができるので、素早く音声区間を検出することが可能になる。その結果、実環境下で音声復元の応答速度が速く、しかも、高品質の音声認識エンジンを供給することが可能になる。

請求項３、及びこれに従属する４〜６記載の定常雑音下における音声区間検出に基づく目的音声の復元方法においては、実際的な環境下で受信した信号から抽出した目的音声の時間信号に対して音声区間と雑音区間を検出して音声区間に含まれる信号のみを抽出することができるので、音声全体に含まれる残留雑音を最小化して高品質の音声を復元することが可能になる。
その結果、雑音環境下での音声認識として、例えば、ＯＡ分野での音声指令、音声入力、流通業界での倉庫管理やカーナビゲーターへの音声指令等、従来のタッチセンサ、指、及びキーボードを用いた入力操作の代替が可能になる。

特に、請求項４記載の定常雑音下における音声区間検出に基づく目的音声の復元方法においては、目的音声の時間信号から音声を特徴付ける信号の現れる時間領域を少ない計算量で検出することができるので、素早く音声区間を検出することが可能になる。その結果、実環境下で音声復元の応答速度が速く、しかも、高品質の音声認識エンジンを供給することが可能になる。

請求項５記載の定常雑音下における音声区間検出に基づく目的音声の復元方法においては、各推定スペクトルＹ^* に異常値が含まれていても尖度を確実に評価することができるので、雑音が除去された推定スペクトルｙ^* 及び雑音が残留する推定スペクトルｙをそれぞれ確実に分離することが可能になる。

請求項６記載の定常雑音下における音声区間検出に基づく目的音声の復元方法においては、推定スペクトルＹ^* から推定スペクトルｙ^* 及び推定スペクトルｙを少ない計算量で精度良く抽出することができるので、実環境下で音声復元の応答速度が速く、しかも、認識能力の極めて高い音声認識エンジンを供給することが可能になる。

続いて、添付した図面を参照しつつ、本発明を具体化した実施の形態につき説明し、本発明の理解に供する。
図１は本発明の第１及び第２の実施の形態に係る定常雑音下における音声区間検出に基づく目的音声の復元方法を適用した目的音声の復元装置の構成図、図２は同復元方法における目的音声及び雑音から各推定スペクトルＹ^* が形成されるまでの信号の流れを示す説明図、図３各推定スペクトルＹ^* から構成された復元スペクトル群を周波数領域から時間領域にフーリエ逆変換して得られた目的音声信号の波形を示す説明図、図４は雑音が除去された推定スペクトルＹ^* の波形を示す説明図、図５は雑音が残留している推定スペクトルＹ^* の波形を示す説明図、図６は雑音が除去された推定スペクトルＹ^* の振幅分布を示す説明図、図７は雑音が残留している推定スペクトルＹ^* の振幅分布を示す説明図、図８は雑音が除去された各推定スペクトルｙ^* の総和を示す説明図、図９は各推定スペクトルＹ^* に対して決定された音声区間検出関数のグラフ、図１０は各推定スペクトルＹ^* から音声区間に存在する成分を抽出して生成した目的音声の復元スペクトル群を周波数領域から時間領域にフーリエ逆変換して得られた目的音声信号の説明図、図１１は本発明の実施例１、２におけるバーチャルルームでの音源とマイクの配置を示す説明図である。

図１に示すように、本発明の第１及び第２の実施の形態に係る定常雑音下における音声区間検出に基づく目的音声の復元方法を適用した目的音声の復元装置１０は、異なる２つの音源１１、１２（一方が目的音声音源で他方が雑音源であるが、特定されていない）からそれぞれ発信される信号を受信する異なる位置に設けた第１のマイク１３及び第２のマイク１４と、各マイク１３、１４で受信されて得られた混合信号をそれぞれ増幅する第１及び第２の増幅器１５、１６と、各増幅器１５、１６から入力される混合信号から目的音声及び雑音を分離して復元信号として出力する復元装置本体１７を有している。更に、目的音声の復元装置１０は、出力された復元信号を増幅する復元信号増幅器１８と、増幅された復元信号を出力するスピーカ１９を有している。以下、これらについて詳細に説明する。

第１及び第２のマイク１３、１４としては、例えば、可聴音域（１０〜２００００Ｈｚ）の信号を集音するのに十分な周波数特性を有するマイクを使用することができる。ここで、第１のマイク１３は、音源１１に対して、第２のマイク１４よりも接近して配置され、第２のマイク１４は、音源１２に対して、第１のマイク１３よりも接近して配置されている。
また、第１及び第２の増幅器１５、１６としては、可聴音域の信号を歪みなく増幅可能な周波数帯域の特性を備えた増幅器を使用できる。

復元装置本体１７は、各増幅器１５、１６から入力される混合信号をデジタル化するためのＡ／Ｄ変換器２０、２１を有している。
また、復元装置本体１７は、デジタル化された各混合信号を時間領域から周波数領域にフーリエ変換し、独立成分分析法の一例であるＦａｓｔＩＣＡ法により２つの分離信号Ｕ₁ 、Ｕ₂ に分解する分離信号作成演算回路と、音源１１及び音源１２から第１及び第２のマイク１３、１４までの各伝達経路特性に基づいて、分離信号Ｕ₁ から第１のマイク１３で受信された複数のスペクトルｖ₁₁と第２のマイク１４で受信された複数のスペクトルｖ₁₂を生成し、分離信号Ｕ₂ から第１のマイク１３で受信された複数のスペクトルｖ₂₁と第２のマイク１４で受信された複数のスペクトルｖ₂₂を生成して分割スペクトルを形成する分割スペクトル生成演算回路を備えた分割スペクトル生成器２２を有している。

更に、復元装置本体１７は、分割スペクトル生成器２２で生成させた各スペクトルｖ₁₁、ｖ₁₂、ｖ₂₁、ｖ₂₂に対して、第１及び第２のマイク１３、１４と音源１１及び音源１２との間の距離に基づく音の伝達特性を用いた判定基準を適用して、各分割スペクトルを目的音声及び雑音にそれぞれ対応させ、目的音声を復元するための複数の推定スペクトルＹ^* を抽出し出力する推定スペクトル抽出回路２３と、推定スペクトル抽出回路２３から出力された各推定スペクトルＹ^* の振幅分布の尖度の値を分離判定基準にして、各推定スペクトルＹ^* を雑音が除去された複数の推定スペクトルｙ^* と雑音が残留する複数の推定スペクトルｙに分離し、各推定スペクトルｙ^* の総和Ｆを求め総和Ｆの最大値に応じて決定される閾値βを検出判定基準にして、総和Ｆの周波数領域から音声区間を検出し出力する音声区間検出回路２４を有している。また、復元装置本体１７は、各推定スペクトルＹ^* から検出された音声区間に存在する成分を抽出して目的音声の復元スペクトル群を生成して出力する復元スペクトル抽出回路２５を有している。
そして、更に、復元装置本体１７は、復元スペクトル抽出回路２５から出力された復元スペクトル群を周波数領域から時間領域にフーリエ逆変換して復元信号を生成させる復元信号生成回路２６を有している。

そして、分離信号作成演算回路及び分割スペクトル生成演算回路を備えた分割スペクトル生成器２２、推定スペクトル抽出回路２３、音声区間検出回路２４、復元スペクトル抽出回路２５、及び復元信号生成回路２６は、各回路の機能を発現する各プログラムを、例えば、パーソナルコンピュータに搭載させることにより構成することができる。また、各プログラムをマイクロコンピュータに搭載させ、これらのマイクロコンピュータが連携動作可能なように回路を形成することにより構成することもできる。
特に、パーソナルコンピュータに各プログラムを搭載させた場合は、このパーソナルコンピュータにＡ／Ｄ変換器２０、２１を取付けることにより、復元装置本体１７を一括して構成することができる。
また、復元信号増幅器１８は、復元信号をアナログ変換して可聴音域を歪みなく増幅することが可能な特性を備えた増幅器を使用することができ、スピーカ１９も可聴音域の信号を歪みなく出力可能な特性を備えたスピーカを使用できる。

次に、本発明の第１の実施の形態に係る定常雑音下における音声区間検出に基づく目的音声の復元方法は、図１に示すように、異なる２つの音源１１、１２からそれぞれ発信される信号ｓ₁ （ｔ）及び信号ｓ₂ （ｔ）（一方が目的音声信号であり、他方が雑音信号である）を、異なる位置に設けた第１及び第２のマイク１３、１４でそれぞれ受信して混合信号ｘ₁ （ｔ）、ｘ₂ （ｔ）を形成し、各混合信号ｘ₁ （ｔ）、ｘ₂ （ｔ）を時間領域から周波数領域にフーリエ変換して、ＦａｓｔＩＣＡ法により目的音声及び雑音にそれぞれ対応する複数の推定スペクトルＹ^* 、Ｙを抽出する第１工程を有している。
また、目的音声の復元方法は、各推定スペクトルＹ^* を、各推定スペクトルＹ^* の振幅分布の尖度の値を分離判定基準にして雑音が除去された複数の推定スペクトルｙ^* 及び雑音が残留する複数の推定スペクトルｙに分離する第２工程と、各推定スペクトルｙ^* の総和Ｆを求め、総和Ｆの最大値に応じて決定される閾値βを検出判定基準にして総和Ｆの周波数領域から音声区間及び雑音区間をそれぞれ検出する第３工程を有している。
更に、目的音声の復元方法は、各推定スペクトルＹ^* から検出した音声区間に存在する成分を抽出して目的音声の復元スペクトル群を生成し、復元スペクトル群を周波数領域から時間領域にフーリエ逆変換して目的音声を復元する第４工程とを有する。なお、ｔは時間を示す。以下、これらの各工程について詳細に説明する。

（第１工程）
音源１１から発信される信号ｓ₁ （ｔ）と、音源１２から発信される雑音信号ｓ₂ （ｔ）は、一般に統計的に独立と考えることができる。そして、信号ｓ₁ （ｔ）と信号ｓ₂ （ｔ）を、異なる位置に設置した第１及び第２のマイク１３、１４で受信して得られる各混合信号ｘ₁ （ｔ）、ｘ₂ （ｔ）は、式（１）のように表記できる。
ここで、ｓ（ｔ）＝［ｓ₁ （ｔ），ｓ₂ （ｔ）］^T 、ｘ（ｔ）＝［ｘ₁ （ｔ），ｘ₂ （ｔ）］^T 、＊は畳み込み記号、Ｇ（ｔ）は各音源１１、１２から各マイク１３、１４までのそれぞれの伝達関数である。

（１）式のように、各音源１１、１２からの信号が畳み込まれて観測される場合、各混合信号ｘ₁ （ｔ）、ｘ₂ （ｔ）から、信号ｓ₁ （ｔ）と信号ｓ₂ （ｔ）を、時間領域で分離することは困難となる。そのため、混合信号ｘ₁ （ｔ）、ｘ₂ （ｔ）を式（２）のように短時間間隔（フレーム）、例えば数１０ｍｓｅｃ程度の時間間隔で分割し、各フレーム毎に時間領域から周波数領域にフーリエ変換して扱う。周波数領域にフーリエ変換することにより、瞬時混合のときの問題と同様に扱える。
また、得られた各周波数におけるスペクトルをフレーム順に並べることにより、スペクトルを時系列として扱うことができる。

ここに、ω（＝０，２π／Μ，・・・，２π（Μ−１）／Μ）は規格化周波数、Μはフレーム内のサンプル数、ｗ（ｔ）は窓関数、τはフレーム周期、Κはフレーム数を表す。
このとき混合信号スペクトルｘ（ω，ｋ）と、信号ｓ₁ （ｔ）及び信号ｓ₂ （ｔ）の各スペクトルは、周波数領域で式（３）のように関係づけられる。ここに、ｓ（ω，ｋ）はｓ（ｔ）を窓掛けして離散フーリエ変換したもので、Ｇ（ω）はＧ（ｔ）を離散してフーリエ変換して得られる複素定数行列である。

ここで、信号スペクトルｓ₁ （ω，ｋ）及び信号スペクトルｓ₂ （ω，ｋ）は本来独立であるので、ＦａｓｔＩＣＡ法を用いて、混合信号スペクトルｘ（ω，ｋ）から、互いに独立となる分離信号スペクトルＵ₁ （ω，ｋ）、Ｕ₂ （ω，ｋ）を求めると、これらのスペクトルが信号スペクトルｓ₁ （ω，ｋ）及び信号スペクトルｓ₂ （ω，ｋ）に相当することになる。
すなわち、混合信号スペクトルｘ（ω，ｋ）と分離信号スペクトルＵ₁ （ω，ｋ）、Ｕ₂ （ω，ｋ）の間に、式（４）の関係が成立するような分離行列Ｈ（ω）を求めることにより、混合信号スペクトルｘ（ω，ｋ）から、互いに独立となる分離信号スペクトルＵ₁ （ω，ｋ）、Ｕ₂ （ω，ｋ）を決定することができる。ここで、ｕ（ω，ｋ）＝［Ｕ₁ （ω，ｋ），Ｕ₂ （ω，ｋ）］^T である。

なお、周波数領域では、個々の周波数ωで、式（５）のように振幅の曖昧さや成分置換の問題が生じる。そのため、復元するのに意味ある分離信号を得るには、これらの問題を解決する必要がある。
ここにＱ（ω）は白色化行列、Ｐは各行と列の全ての要素が値１である１つの要素を除いて０である成分置換を表す行列、Ｄ（ω）＝ｄｉａｇ［ｄ₁ （ω），ｄ₂ （ω）］は振幅の曖昧さを表す対角行列である。

次に、周波数領域で、各信号スペクトルｓ_i （ω，ｋ）（ｉ＝１，２）を、その実部と虚部は平均がゼロで等しい分散をもち、実部と虚部は無相関という仮定の下で次のように定式化する。すなわち、周波数ωにおいて、分離荷重ｈ_n （ω）（ｎ＝１，２）を式（６）、式（７）に示すＦａｓｔＩＣＡ法のアルゴリズムに従って更新する。
ここに、ｆ（・）は非線型関数で、ｆ′（・）はｆ（・）の微分、￣は共役、Κはフレームのサンプル数である。

このアルゴリズムは、式（８）に示す収束条件ＣＣがほぼ１（例えば、ＣＣが０．９９９９以上）を満たすまで、繰り返される。さらに、ｈ₂ （ω）については、式（９）のように、ｈ₁ （ω）と直交化させて再び（７）式により規格化する。

上述のＦａｓｔＩＣＡ法のアルゴリズムを各周波数ωについて適用し、得られる分離荷重ｈ_n （ω）（ｎ＝１，２）を式（４）のＨ（ω）に対して、式（１０）として代入すれば、各周波数での分離信号スペクトルｕ（ω，ｋ）＝［Ｕ₁ （ω，ｋ），Ｕ₂ （ω，ｋ）］^T が求まる。

図２に示すように、分離信号スペクトルＵ₁ （ω，ｋ）、Ｕ₂ （ω，ｋ）が出力される２つのノードを１、２と表記する。
このとき、分割スペクトルｖ₁ （ω，ｋ）＝［ｖ₁₁（ω，ｋ），ｖ₁₂（ω，ｋ）］^T 、ｖ₂ （ω，ｋ）＝［ｖ₂₁（ω，ｋ），ｖ₂₂（ω，ｋ）］^T は、分離信号スペクトルＵ_n （ω，ｋ）から、式（１１）、（１２）に示すように、各ノードｎ（＝１，２）で対になって生成されるスペクトルとして定義する。

ここで、成分置換は生じていないが、振幅の曖昧さが存在する場合、分離信号スペクトルＵ_n （ω，ｋ）は、式（１３）として出力される。そして、この分離信号Ｕ_n （ω，ｋ）に対する分割スペクトルは、信号スペクトルｓ₁ （ω，ｋ）及信号スペクトルｓ₂ （ω，ｋ）と伝達関数との積として、式（１４）、式（１５）のように生成される。
なお、ｇ₁₁（ω）は音源１１から第１のマイク１３までの伝達関数、ｇ₂₁（ω）は音源１１から第２のマイク１４までの伝達関数、ｇ₁₂（ω）は音源１２から第１のマイク１３までの伝達関数、ｇ₂₂（ω）は音源１２から第２のマイク１４までの伝達関数を示す。

また、成分置換と振幅の曖昧さの両方がある場合、分離信号スペクトルＵ_n （ω，ｋ）は、式（１６）となって、ノード１、２での分割スペクトルは、式（１７）、式（１８）のように生成される。
なお、ノード１で生成するスペクトルｖ₁₁（ω，ｋ）は、音源１２から発信された信号スペクトルｓ₂ （ω，ｋ）を第１のマイク１３で観測したときのスペクトル、ノード１で生成するスペクトルｖ₁₂（ω，ｋ）は、音源１２から発信された信号スペクトルｓ₂ （ω，ｋ）を第２のマイク１４で観測したときのスペクトルを示す。また、ノード２で生成するスペクトルｖ₂₁（ω，ｋ）は、音源１１から発信された信号スペクトルｓ₁ （ω，ｋ）を第１のマイク１３で観測したときのスペクトル、ノード２で生成するスペクトルｖ₂₂（ω，ｋ）は、音源１１から発信された信号スペクトルｓ₁ （ω，ｋ）を第２のマイク１４で観測したときのスペクトルを示す。

図２に示す４つのスペクトルｖ₁₁（ω，ｋ）、ｖ₁₂（ω，ｋ）、ｖ₂₁（ω，ｋ）、ｖ₂₂（ω，ｋ）は、１つの音源に対して２つの候補となる推定値を有している。そして、一方の音源からの信号に対して成分置換がない場合にはｖ₁₁（ω，ｋ）とｖ₁₂（ω，ｋ）があり、成分置換がある場合にはｖ₂₁（ω，ｋ）とｖ₂₂（ω，ｋ）がある。
ここで、第１及び第２のマイクと各音源との距離に基づく音の伝達特性、例えば、音の強弱を考慮すると、周波数毎に得られた各スペクトルｖ₁₁、ｖ₁₂、ｖ₂₁、ｖ₂₂間に、スペクトル強度の差が生じる。従って、第１及び第２のマイク１３、１４と各音源との距離に明確な差を予め設けておくと、各音源がどのマイクで受信されたか、すなわち、２つの音源の信号がそれぞれどのスペクトルｖ₁₁、ｖ₁₂、ｖ₂₁、ｖ₂₂に相当するかを判定することができる。
例えば_、音源１１は第２のマイク１４に比べて第１のマイク１３に近く、音源１２は第１のマイク１３に比べて第２のマイク１４に近いと仮定する。このとき、音源１１から各マイク１３、１４への信号の伝達特性を比較すると、式（１９）なるゲインの大小関係が得られる。同様に、音源１２から各マイク１３、１４への伝達特性についても、式（２０）なるゲインの大小関係が得られる。

このとき、式（１９）、（２０）のゲインの大小関係を念頭に、式（１４）、（１５）、もしくは式（１７）、（１８）を用いて、スペクトルｖ₁₁とスペクトルｖ₁₂との差Ｄ₁ 、及びスペクトルｖ₂₁とスペクトルｖ₂₂との差Ｄ₂ を求めると、成分置換がない場合、ノード１での差Ｄ₁ は正、またノード２で差Ｄ₂ は負となることが導かれる。
一方、成分置換がある場合、同様にしてスペクトルｖ₁₁とスペクトルｖ₁₂との差Ｄ₁ 、及びスペクトルｖ₂₁とスペクトルｖ₂₂との差Ｄ₂ を考えると、ノード１での差Ｄ₁ は負、またノード２での差Ｄ₂ は正となることが導かれる。
従って、成分置換の有無については、分割スペクトルの差をそれぞれ調べて、ノード１での差Ｄ₁ が正かつノード２での差Ｄ₂ が負のとき、成分置換はないと判定し、ノード１での差Ｄ₁ が負かつノード２での差Ｄ₂ が正のとき、成分置換はあると判定する。

ここで、差Ｄ₁ をスペクトルｖ₁₁とスペクトルｖ₂₁との各絶対値の差として、差Ｄ₂ をスペクトルｖ₂₁とスペクトルｖ₂₂との各絶対値の差としてそれぞれ求めた場合、差Ｄ₁ 、差Ｄ₂ はそれぞれ、式（２１）、式（２２）のように表される。

ここで、成分置換がない場合には、一方の音源の信号のスペクトルｙ₁ （ω，ｋ）に、ｖ₁₁（ω，ｋ）を採用する。これは、ｖ₁₁（ω，ｋ）は第１のマイク１３で観測されたスペクトルの推定値であり、第２のマイク１４で観測されたスペクトルの推定値ｖ₁₂（ω，ｋ）より大きく、周囲の暗騒音の影響を受けにくいからである。また、成分置換がある場合には、一方の音源のスペクトルｙ₁ （ω，ｋ）にｖ₂₁（ω，ｋ）を採用する。
以上のことから、一方の音源のスペクトルｙ₁ （ω，ｋ）は式（２３）として表せる。同様に、他方の音源のスペクトルｙ₂ （ω，ｋ）に、成分置換がない場合にはｖ₂₂（ω，ｋ）を採用し、成分置換がある場合にはｖ₁₂（ω，ｋ）を採用する。以上のことから、他方の音源のスペクトルｙ₂ （ω，ｋ）は式（２４）として表せる。
なお、成分置換の有無は、式（２１）、（２２）を使用し判定する。

ＦａｓｔＩＣＡ法は、混合信号から非ガウス性の高い順に音源を分離するという特徴を有している。また、一般に、話者音声は雑音より非ガウス性が高いという特徴を有している。これらのことは、音源が話者音声と騒音である場合、話者音声に対応する分割スペクトルは、最初に出力される分離信号Ｕ₁ に出力される頻度が高くなる。
従って、一方の音源が話者音声であれば、成分置換のない頻度は高く、逆に、他方の音源が話者音声であれば、成分置換の生じる頻度は高くなる。

このことから、フーリエ変換した際の各周波数毎に各スペクトルｙ₁ 、ｙ₂ を生成するとき、成分置換の有無の頻度、すなわち個数Ｎ+ 、Ｎ- を求め、個数Ｎ+ が個数Ｎ- より大きい場合、推定スペクトルＹ^* としてスペクトルｙ₁ を抽出し、推定スペクトルＹとしてスペクトルｙ₂ を抽出する。一方、個数Ｎ- が個数Ｎ+ より大きい場合、推定スペクトルＹ^* としてスペクトルｙ₂ を抽出し、推定スペクトルＹとしてスペクトルｙ₁ を抽出する。

（第２工程）
以上のようにして周波数毎に抽出した各推定スペクトルＹ^* から構成される復元スペクトル群を周波数領域から時間領域にフーリエ逆変換して得られた目的音声信号の波形（東京という音声）を図３に示す。図３から、復元された目的音声信号には、雑音信号が残留していることが判る。
そこで、抽出された複数の推定スペクトルＹ^* を周波数毎に見てみると、図４に示すように、雑音が除去された推定スペクトルＹ^* と、図５に示すように、雑音が残留している推定スペクトルＹ^* とが存在している。そして、図４に示される雑音が除去された推定スペクトルＹ^* の波形では、音声区間では振幅が大きく、非音声区間では振幅が非常に小さくなって、音声の始端と終端が明確に検出できる。従って、雑音が除去された推定スペクトルＹ^* のみを利用すると精度の高い音声区間の検出できると考えられる。

ここで、図４、図５に示す各推定スペクトルＹ^* の振幅分布をそれぞれ求めると、図６、図７に示すようになる。これらの図から、雑音が除去された推定スペクトルＹ^* の振幅分布の尖度が高く、雑音が残留している推定スペクトルＹ^* の振幅分布の尖度は低いことが判る。
従って、推定スペクトルＹ^* の振幅分布の尖度を分離判定基準にすると、尖度の値の違いにより、各推定スペクトルＹ^* を雑音が除去されている複数の推定スペクトルｙ^* と雑音が除去されていない複数の推定スペクトルｙとにそれぞれ分離できる。

尖度の値を定量的に評価する方法として、振幅分布のエントロピーＨを使用することができる。エントロピーＨは振幅分布の不確実性を示す尺度であり、尖度が高ければエントロピーは小さく、尖度は低ければエントロピーは大きくなる。従って、エントロピーＨの値に予め閾値αを設定しておくと、分離判定基準は、（１）エントロピーＨが閾値α未満である推定スペクトルＹ^* は推定スペクトルｙ^* として分離し、（２）エントロピーＨが閾値α以上である推定スペクトルＹ^* は推定スペクトルｙとして分離することになる。
なお、エントロピーＨは式（２５）で算出する。

ここに、ｐ_w （ｌ_n ）は、各推定スペクトルＹ^* の実部の値の分布範囲をＮ等分したとき区画ｌ_n に入る頻度ｑ_w （ｌ_n ）（ｎ＝１，２，・・・，Ｎ）を、式（２６）のように規格化して得られる確率である。

（第３工程）
音声の周波数成分は、時間的に変化するため、音声を特徴付けるスペクトルの現れる周波数領域は推定スペクトルｙ^* によって異なる。そこで、各推定スペクトルｙ^* の総和Ｆを求めることにより、音声を特徴付けるスペクトルの現れる周波数領域の範囲が明確になり、時間的な音声区間と一致する周波数領域における音声区間を検出することができる。
算出される総和Ｆは、例えば図８に示すような分布をもつ。なお、図８では、総和Ｆの最大値で規格化して表示している。そこで、総和Ｆの最大値（図８では１）に応じて決定される閾値βを適切に選ぶことにより、総和Ｆが閾値βを超える領域を音声区間、総和Ｆが閾値β以下の領域を雑音区間として特定することができる。
従って、図８の振幅分布と閾値βを用いて、検出判定基準として、図９に示すような２者択一型の音声区間検出関数Ｆ^* （ｋ）を設定することができる。ここで、Ｆ^* （ｋ）は、閾値β＜Ｆの領域でＦ^* （ｋ）＝１、閾値β≧Ｆの領域でＦ^* （ｋ）＝０となる２値化関数である。

（第４工程）
従って、目的音声に対応する各推定スペクトルＹ^* に対して音声区間検出関数を掛けることにより、各推定スペクトルＹ^* から音声区間に存在する成分のみを抽出することができる。
その結果、各推定スペクトルＹ^* の音声区間に存在する成分のみから目的音声の復元スペクトル群｛Ｚ（ω，ｋ）｜ｋ＝０，１，・・・，Ｋ−１｝を生成して、フレーム毎に逆離散フーリエ変換（フーリエ逆変換）して時間領域に戻して、それをすべてのフレームにわたって式（２７）のように総和を取れば、目的音声音源の復元信号Ｚ（ｔ）が得られる。
図１０に、図３の目的音声信号の復元に使用した各推定スペクトルＹ^* に対して音声区間検出関数を作用させて復元した目的音声信号を示す。図３と図１０を比較すると、図１０には雑音信号が残留していないことが判る。

本発明の第２の実施の形態に係る定常雑音下における音声区間検出に基づく目的音声の復元方法は、図１に示すように、異なる２つの音源１１、１２からそれぞれ発信される信号ｓ₁ （ｔ）及び信号ｓ₂ （ｔ）（一方が目的音声信号であり、他方が雑音信号である）を、異なる位置に設けた第１及び第２のマイク１３、１４でそれぞれ受信して混合信号ｘ₁ （ｔ）、ｘ₂ （ｔ）を形成し、各混合信号ｘ₁ （ｔ）、ｘ₂ （ｔ）を時間領域から周波数領域にフーリエ変換して、独立成分分析法の一例であるＦａｓｔＩＣＡ法により目的音声及び雑音にそれぞれ対応する複数の推定スペクトルＹ^* 、Ｙを抽出する第１工程を有している。
また、目的音声の復元方法は、各推定スペクトルＹ^* を、各推定スペクトルＹ^* の振幅分布の尖度の値を分離判定基準にして雑音が除去された複数の推定スペクトルｙ^* 及び雑音が残留する複数の推定スペクトルｙに分離する第２工程と、各推定スペクトルｙ^* の総和Ｆを求め、総和Ｆの最大値に応じて決定される閾値βを検出判定基準にして総和Ｆの時間領域からから音声区間及び雑音区間をそれぞれ検出する第３工程を有している。
更に、目的音声の復元方法は、各推定スペクトルＹ^* を周波数領域から時間領域にフーリエ逆変換して得られた前記目的音声の信号から検出した音声区間に存在する成分を抽出して目的音声を復元する第４工程を有する。

ここで、本発明の第２の実施の形態に係る定常雑音下における音声区間検出に基づく目的音声の復元方法は、第１の実施の形態の目的音声の復元方法と比較し、音声区間を時間領域で検出し目的音声の時間信号からこの音声区間に存在する成分のみを抽出して目的音声を復元することが大きな特徴となっている。
このため、第２の実施の形態に係る定常雑音下における音声区間検出に基づく目的音声の復元方法は、第１の実施の形態の目的音声の復元方法と比較して、第３及び第４工程が異なる。従って、第３及び第４工程についてのみ説明する。

総和Ｆにおけるフレーム番号ｋとサンプリング時刻ｔとの間には、フレーム周期をτとして、τ（ｋ−１）＜ｔ≦τｋの関係が成立している。従って、ｋ＝［ｔ／τ］の関係が成立していることを考慮すると、時間領域での音声区間検出関数Ｆ^* （ｔ）を設定することができる。
すなわち、Ｆ^* （ｔ）は、Ｆ^* （［ｔ／τ］）＝１の領域でＦ^* （ｔ）＝１、Ｆ^* （［ｔ／τ］）＝０の領域でＦ^* （ｔ）＝０となる２値化関数として求まる。従って、Ｆ^* （［ｔ／τ］）＝１となるｔの領域から音声区間を検出し、Ｆ^* （［ｔ／τ］）＝０となるｔの領域から雑音区間をそれぞれ検出する（第３工程）。なお、［ｔ／τ］は、ｔ／τ以上の最小の整数を指すｃｅｉｌｉｎｇ記号である。
また、時間領域での音声区間検出関数Ｆ^* （ｔ）を、各推定スペクトルＹ^* を周波数領域から時間領域にフーリエ逆変換して得られた目的音声の時間信号に掛けることにより、雑音区間がゼロになって音声区間のみの音声が強調された信号を得ることができ（第４工程）、これを復元信号増幅器１８を介してスピーカ１９に入力することにより目的音声を確認することができる。

（実施例１）
図１１に示すように、縦１０ｍ、横１０ｍ、及び高さ１０ｍのバーチャルルーム内に音源１、２とマイク１、２を配置し、マイク１、２で観測される混合信号に対してＦａｓｔＩＣＡ法を適用して雑音除去を行って目的音声を復元し、音声区間の検出精度を求めた。
ここで、各マイク１、２間の距離は０．５ｍ、各音源１、２間の距離は０．５ｍ、床から各マイク１、２までの高さは１ｍ、床から各音源１、２までの高さは１ｍ、マイク１と音源１までの距離は０．５ｍ、マイク２と音源２までの距離は０．５ｍである。またＦａｓｔＩＣＡ法には、ゴタンダ、ノブ、コヤ、カネダ、イシバシ（Ｈ．Ｇｏｔａｎｎｄａ，Ｋ．Ｎｏｂｕ，Ｔ．Ｋｏｙａ，Ｋ．Ｋａｎｅｄａ，Ｔ．Ｉｓｈｉｂａｓｈｉ）、”パーミュテイションコレクションアンドスピーチイクストラクションベイスドオンスプリットスペクトラムスルーファストアイシーエイ（ＰｅｒｍｕｔａｔｉｏｎＣｏｒｒｅｃｔｉｏｎａｎｄＳｐｅｅｃｈＥｘｔｒａｃｔｉｏｎＢａｓｅｄｏｎＳｐｌｉｔＳｐｅｃｔｒｕｍＴｈｒｏｕｇｈＦａｓｔＩＣＡ）”、プロシーディングオブインターナショナルシンポジウムオンインディペンデントコンポーネントアナリシスアンドブラインドシグナルセパレイション（Ｐｒｏｃ．ＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎＩｎｄｅｐｅｎｄｅｎｔａｒａｔｉｏｎ）、２００３年４月１日、ｐ３７９−３８４に記載した方法を採用した。

音源１から目的音声として、「音声情報処理研究用日本語音声データベース（平成３年度文部科学研究費補助金試験研究、研究代表者板橋秀一）」から５単語（材料、いよいよ、羨ましい、面白い、具合）の男女各１名による発話パターン１０種類を発信し、音源２から定常雑音としてノイゼックス−９２データベース（Ｎｏｉｓｅｘ−９２ｄａｔａｂａｓｅ）［ｏｎｌｉｎｅ］（ｈｔｔｐ：／／ｓｐｉｂ．ｒｉｃｅ．ｅｄｕ／ｓｐｉｂ／）中の５種類（ｆ１６ノイズ（ｆ１６ｎｏｉｓｅ）、ボルボノイズ（ｖｏｌｖｏｎｏｉｓｅ）、ホワイトノイズ（ｗｈｉｔｅｎｏｉｓｅ）、ピンクノイズ（ｐｉｎｋｎｏｉｓｅ）、タンクノイズ（ｔａｎｋｎｏｉｓｅ））を発信し、マットラブコード（Ｍａｔｌａｂｃｏｄｅ）［ｏｎｌｉｎｅ］（ｈｔｔｐ：／／ｓｏｕｎｄ．ｍｅｄｉａ．ｍｉｔ．ｅｄｕ／ｉｃａ−ｂｅｎｃｈ／）により５０組の混合信号を生成した。

音声区間検出関数Ｆ^* （ｋ）は、総和Ｆを閾値βで２値化することで生成し、総和Ｆは推定スペクトルＹ^* を閾値αで分離することにより生成しているので、音声区間の抽出精度は各閾値α、βに依存する。そのため、事前に最適な閾値α、βの値を調べた。その結果、閾値αの値は１．８〜２．３、閾値βの値は０．０５〜０．１５とそれぞれ決定された。そこで、閾値α＝２．０、閾値β＝０．０８とした。
混合信号から目的音声に対応する推定スペクトルＹ^* を抽出し、本発明の方法で音声区間を検出し始端と終端を求めた。また、推定スペクトルＹ^* から復元した目的音声の波形から目視により音声区間を検出し始端と終端を求めた。
その結果、本発明の方法により検出した音声区間の始端時刻は目視により検出した音声区間の始端時刻に対して−２．７１ｍｓｅｃ（標準偏差１３．４９ｍｓ）、本発明の方法により検出した音声区間の終端時刻は目視により検出した音声区間の終端時刻に対して−４．９６ｍｓｅｃ（標準偏差２６．０７ｍｓｅｃ）となって、音声区間を速めに検出する傾向を示したがその差は小さくほぼ正確に検出していることが判る。

（実施例２）
音源２から非定常雑音としてＮＴＴ騒音データベース（ＮＴＴアドバンステクノロジ株式会社、アンビエントノイズデータベースフォアテレホノメトリ（ＡｍｂｉｅｎｔＮｏｉｓｅＤａｔａｂａｓｅｆｏｒＴｅｌｅｐｈｏｎｏｍｅｔｒｙ）１９９６、ＮＴＴアドバンステクノロジ株式会社、１９９６年）中の５種類の非定常雑音（オフィス（ｏｆｆｉｃｅ）、レストラン（ｒｅｓｔａｕｒａｎｔ）、クラシカル（ｃｌａｓｓｉｃａｌ）、ステーション（ｓｔａｔｉｏｎ）、ストリート（ｓｔｒｅｅｔ））を発信し、実施例１と同様の実験を行った。
その結果、本発明の方法により検出した音声区間の始端時刻は目視により検出した音声区間の始端時刻に対して−２．３６ｍｓｅｃ（標準偏差１４．１２ｍｓｅｃ）、本発明の方法により検出した音声区間の終端時刻は目視により検出した音声区間の終端時刻に対して−１３．４０ｍｓｅｃ（標準偏差４４．１２ｍｓｅｃ）となって、雑音が非定常性を帯びている場合でも目視法と同程度の機能を有し、音声区間をほぼ正確に検出していることが判る。

以上、本発明の実施の形態を説明したが、本発明は、この実施の形態に限定されるものではなく、発明の要旨を変更しない範囲での変更は可能であり、前記したそれぞれの実施の形態や変形例の一部又は全部を組み合わせて本発明の定常雑音下における音声区間検出に基づく目的音声の復元方法を構成する場合も本発明の権利範囲に含まれる。
例えば、目的音声及び雑音にそれぞれ対応する複数の推定スペクトルＹ^* 、Ｙを抽出するのにＦａｓｔＩＣＡ法を適用したが、ＩＣＡ法で分離した各スペクトルに対して各マイクと各音源との距離に基づく音の伝達特性を考慮してスケーリングの不定性を解決すると共に、各周波数で各スペクトルの包絡を求めて、その類似度に基づく成分置換の解消を行って推定スペクトルＹ^* 、Ｙを抽出することもでき、推定スペクトルＹ^* 、Ｙの抽出方法に指定はない。

本発明の第１及び第２の実施の形態に係る定常雑音下における音声区間検出に基づく目的音声の復元方法を適用した目的音声の復元装置の構成図である。同復元方法における目的音声及び雑音から各推定スペクトルＹ^* が形成されるまでの信号の流れを示す説明図である。各推定スペクトルＹ^* から構成された復元スペクトル群を周波数領域から時間領域にフーリエ逆変換して得られた目的音声信号の波形を示す説明図である。雑音が除去された推定スペクトルＹ^* の波形を示す説明図である。雑音が残留している推定スペクトルＹ^* の波形を示す説明図である。雑音が除去された推定スペクトルＹ^* の振幅分布を示す説明図である。雑音が残留している推定スペクトルＹ^* の振幅分布を示す説明図である。雑音が除去された各推定スペクトルｙ^* の総和を示す説明図である。各推定スペクトルＹ^* に対して決定された音声区間検出関数のグラフである。各推定スペクトルＹ^* から音声区間に存在する成分を抽出して生成した目的音声の復元スペクトル群を周波数領域から時間領域にフーリエ逆変換して得られた目的音声信号の説明図である。本発明の実施例１、２におけるバーチャルルームでの音源とマイクの配置を示す説明図である。

符号の説明

１０：目的音声の復元装置、１１、１２：音源、１３：第１のマイク、１４：第２のマイク、１５：第１の増幅器、１６：第２の増幅器、１７：復元装置本体、１８：復元信号増幅器、１９：スピーカ、２０、２１：Ａ／Ｄ変換器、２２：分割スペクトル生成器、２３：推定スペクトル抽出回路、２４：音声区間検出回路、２５：復元スペクトル抽出回路、２６：復元信号生成回路

Claims

異なる２つの音源からそれぞれ発信される目的音声及び雑音を、異なる位置に設けた第１及び第２のマイクでそれぞれ受信して混合信号を形成し、該各混合信号を時間領域から周波数領域にフーリエ変換して、独立成分分析法により前記目的音声及び前記雑音にそれぞれ対応する各分割スペクトルから複数の推定スペクトルＹ^* 、Ｙを抽出する第１工程と、
前記各推定スペクトルＹ^* を、該各推定スペクトルＹ^* の振幅分布の尖度の値を分離判定基準にして前記雑音が除去された複数の推定スペクトルｙ^* 及び前記雑音が残留する複数の推定スペクトルｙに分離する第２工程と、
前記各推定スペクトルｙ^* の総和Ｆを求め、該総和Ｆの最大値に応じて決定される閾値βを検出判定基準にして該総和Ｆの周波数領域から音声区間及び雑音区間をそれぞれ検出する第３工程と、
前記各推定スペクトルＹ^* から前記音声区間に存在する成分を抽出して前記目的音声の復元スペクトル群を生成し、該復元スペクトル群を周波数領域から時間領域にフーリエ逆変換して前記目的音声を復元する第４工程とを有することを特徴とする定常雑音下における音声区間検出に基づく目的音声の復元方法。
請求項１記載の定常雑音下における音声区間検出に基づく目的音声の復元方法において、前記検出判定基準は、前記総和Ｆが前記閾値βを超える周波数領域を前記音声区間とし、前記総和Ｆが前記閾値β以下となる周波数領域を前記雑音区間として検出するように設定されていることを特徴とする定常雑音下における音声区間検出に基づく目的音声の復元方法。
異なる２つの音源からそれぞれ発信される目的音声及び雑音を、異なる位置に設けた第１及び第２のマイクでそれぞれ受信して混合信号を形成し、該各混合信号を時間領域から周波数領域にフーリエ変換して、独立成分分析法により前記目的音声及び前記雑音にそれぞれ対応する各分割スペクトルから複数の推定スペクトルＹ^* 、Ｙを抽出する第１工程と、
前記各推定スペクトルＹ^* を、該各推定スペクトルＹ^* の振幅分布の尖度の値を分離判定基準にして前記雑音が除去された複数の推定スペクトルｙ^* 及び前記雑音が残留する複数の推定スペクトルｙに分離する第２工程と、
前記各推定スペクトルｙ^* の総和Ｆを求め、該総和Ｆの最大値に応じて決定される閾値βを検出判定基準にして該総和Ｆの時間領域から音声区間及び雑音区間をそれぞれ検出する第３工程と、
前記各推定スペクトルＹ^* を周波数領域から時間領域にフーリエ逆変換して得られた前記目的音声の信号から前記音声区間に存在する成分を抽出して前記目的音声を復元する第４工程とを有することを特徴とする定常雑音下における音声区間検出に基づく目的音声の復元方法。
請求項３記載の定常雑音下における音声区間検出に基づく目的音声の復元方法において、前記検出判定基準は、前記総和Ｆが前記閾値βを超える時間領域を前記音声区間とし、前記総和Ｆが前記閾値β以下となる時間領域を前記雑音区間として検出することを特徴とする定常雑音下における音声区間検出に基づく目的音声の復元方法。
請求項１〜４のいずれか１項に記載の定常雑音下における音声区間検出に基づく目的音声の復元方法において、前記尖度の値を前記各推定スペクトルＹ^* の振幅分布のエントロピーＨで評価することを特徴とする定常雑音下における音声区間検出に基づく目的音声の復元方法。
請求項５記載の定常雑音下における音声区間検出に基づく目的音声の復元方法において、前記分離判定基準は、
（１）前記エントロピーＨが予め設定した閾値α未満である推定スペクトルＹ^* は前記推定スペクトルｙ^* として分離し、
（２）前記エントロピーＨが予め設定した閾値α以上である推定スペクトルＹ^* は前記推定スペクトルｙとして分離するように設定されていることを特徴とする定常雑音下における音声区間検出に基づく目的音声の復元方法。