JP2005091732A

JP2005091732A - ブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法

Info

Publication number: JP2005091732A
Application number: JP2003324733A
Authority: JP
Inventors: Hiroshi Gotanda; 博五反田; Keiichi Kaneda; 圭市金田; Takeshi Furuya; 武志古屋
Original assignee: WAVE COME KK; Kinki University; Kitakyushu Foundation for Advancement of Industry Science and Technology
Current assignee: WAVE COME KK; Kinki University; Kitakyushu Foundation for Advancement of Industry Science and Technology
Priority date: 2003-09-17
Filing date: 2003-09-17
Publication date: 2005-04-07
Anticipated expiration: 2023-09-17
Also published as: US7562013B2; US20070100615A1; WO2005029467A1; JP4496379B2

Abstract

【課題】ブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法を提供する。
【解決手段】音源１１、１２から発信された信号をマイク１３、１４で受信して混合信号を形成する第１工程と、各混合信号を周波数領域にフーリエ変換し、独立成分解析法により２つの分離信号Ｕ₁ 、Ｕ₂ に分解し各音源１１、１２から各マイク１３、１４までの各伝達経路特性に基づいてスペクトルｖ₁₁、ｖ₁₂、ｖ₂₁、ｖ₂₂で構成される分割スペクトルを形成する第２工程と、各スペクトルｖ₁₁、ｖ₁₂、ｖ₂₁、ｖ₂₂に対して、伝達特性を含む各スペクトルｖ₁₁、ｖ₁₂、ｖ₂₁、ｖ₂₂の振幅分布の形状に基づいた判定基準を適用して目的音声に対応する推定スペクトルＺ^* を抽出し、推定スペクトルＺ^* から目的音声の復元スペクトル群を生成して目的音声を復元する第３工程とを有する。
【選択図】図２

Description

本発明は、独立成分解析法から得られる分割スペクトルの振幅分布の形状に基づいて成分置換の不定性を解消しながら目的音声の推定スペクトルを抽出し目的音声を復元する方法に関する。

従来、音声の雑音除去問題に対して、独立成分分析法（以下、ＩＣＡという）に基づく音源分離を適用した方法が数多く提案されている（例えば、非特許文献１、２参照）。ここで、ＩＣＡには時間領域ＩＣＡと周波数領域ＩＣＡがある。周波数領域ＩＣＡは、時間領域ＩＣＡに比べて収束の点で有利と考えられるが、得られた分離信号には各周波数ビン毎にＩＣＡ特有のスケーリングや成分置換の不定性の問題があり、これらの問題をすべて周波数において解決しなければならなかった。
この問題を解決するために、例えば分割スペクトルという概念を導入して、スケーリングの不定性を解決すると共に、各周波数で分割スペクトル系列の包絡を求めて、その類似度に基づく成分置換の解消法、すなわち包絡法が提案されている（例えば、非特許文献３参照）。

チチョキ、アマリ（Ａ．Ｃｉｃｈｏｃｋｉ、Ｓ．Ａｍａｒｉ）著、"アダプティブブラインドシグナルアンドイメイジプロセッシング（Ａｄａｐｔｉｖｅｂｌｉｎｄｓｉｇｎａｌａｎｄｉｍａｇｅｐｒｏｃｅｓｓｉｎｇ）"、第１版、米国、ジョンウィリー（ＪｏｈｎＷｉｌｅｙ）、２００２年ヒバリネン、オヤ（Ａ．Ｈｙｖａｒｉｎｅｎ、ａｎｄＥ．Ｏｊａ）、"インディペンデントコンポーネントアナリシス：アルゴリズムアンドアプリケーションズ（Ｉｎｄｅｐｅｎｄｅｎｔｃｏｍｐｏｎｅｎｔａｎａｌｙｓｉｓ：ａｌｇｏｒｉｔｈｍｓａｎｄａｐｐｌｉｃａｔｉｏｎｓ）"、ニューラルネットワークス（ＮｅｕｒａｌＮｅｔｗｏｒｋｓ）、米国、ペルガモンプレス（ＰｅｒｇａｍｏｎＰｒｅｓｓ）、２０００年６月、１３巻、４−５号、ｐ．４１１−４３０ムラタ、イケダ、ツィーヘ（Ｎ．Ｍｕｒａｔａ、Ｓ．ＩｋｅｄａａｎｄＡ．Ｚｉｅｈｅ）、"アンアプローチスーブラインドソースセパライションベイスドオンテンポラルストラクチャーオブスピーチシグナルズ（ＡｎＡｐｐｒｏａｃｈｔｏｂｌｉｎｄｓｏｕｒｃｅｓｅｐａｒａｔｉｏｎｂａｓｅｄｏｎｔｅｍｐｏｒａｌｓｔｒｕｃｔｕｒｅｏｆｓｐｅｅｃｈｓｉｇｎａｌｓ）"、ニューロコンピューティング（Ｎｅｕｒｏｃｏｍｐｕｔｉｎｇ）、米国、エルゼビア（Ｅｌｓｅｖｉｅｒ）、２００１年１０月、４１巻、１−４号、ｐ．１−２４

しかしながら、分割スペクトルの包絡という概念を導入した包絡法は汎用的ではあるが、近接していない周波数ビンにおける包絡の類似性を仮定しているため、音の収音環境によっては十分な効果が得られない。また、分離信号と音声音源及び雑音源の対応関係が明らかになっていない。このため、最終的に成分置換の是正された各分割スペクトルに対して、どちらを目的音声に対応させてどちらを雑音に対応させるかについての指針は得られない。このため、目的音声の推定スペクトル及び雑音の推定スペクトルを各分割スペクトルから抽出するには、別途の判断基準を設ける必要があった。
本発明はかかる事情に鑑みてなされたもので、独立成分解析法から得られる分割スペクトルの成分置換の不定性を解消しながら目的音声の推定スペクトルを抽出し目的音声を復元することが可能なブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法を提供することを目的とする。
ここで、ブラインド信号分離とは、複数の音源が混じり合った混合信号から元々の信号源を分離・復元する技術である。

前記目的に沿う本発明に係るブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法は、異なる２つの音源からそれぞれ発信される目的音声及び雑音を、異なる位置に設けた第１及び第２のマイクでそれぞれ受信して混合信号を形成する第１工程と、
前記各混合信号を時間領域から周波数領域にフーリエ変換し、独立成分解析法により２つの分離信号Ｕ₁ 、Ｕ₂ に分解して、前記各音源から前記第１及び第２のマイクまでの各伝達経路特性に基づいて、前記分離信号Ｕ₁ から生成され前記第１のマイクで受信された複数のスペクトルｖ₁₁及び前記第２のマイクで受信された複数のスペクトルｖ₁₂と、前記分離信号Ｕ₂ から生成され前記第１のマイクで受信された複数のスペクトルｖ₂₁及び前記第２のマイクで受信された複数のスペクトルｖ₂₂とで構成される分割スペクトルを形成する第２工程と、
前記各スペクトルｖ₁₁、ｖ₁₂、ｖ₂₁、ｖ₂₂に対して、前記第１及び第２のマイクと前記各音源との間の伝達特性を含む前記各スペクトルｖ₁₁、ｖ₁₂、ｖ₂₁、ｖ₂₂の振幅分布の形状に基づいた判定基準を適用して、前記目的音声に対応する複数の推定スペクトルＺ^* 及び前記雑音に対応する複数の推定スペクトルＺをそれぞれ抽出し、該各推定スペクトルＺ^* から前記目的音声の復元スペクトル群を生成して、該復元スペクトル群を周波数領域から時間領域にフーリエ逆変換して前記目的音声を復元する第３工程とを有する。

目的音声音源から発信される目的音声と、雑音源から発信される雑音を、目的音声音源及び雑音源に対してそれぞれ異なる位置に第１及び第２のマイクを設置して、各マイクで目的音声と雑音を受信する。このとき、各マイクでは、目的音声と雑音が重なり合って観測されるため、目的音声と雑音が混合した混合信号が形成される。
目的音声と雑音は、一般に統計的に独立であると考えられる。このため、混合信号を、独立した成分に分解する統計的手法、例えば、独立成分解析法を採用して、２つの独立した成分に分離すると、得られた一方の成分が目的音声に、他方の成分が雑音に対応する。
なお、混合信号は、目的音声と雑音が反射や到達時間の遅れを伴った状態で畳み込まれて形成されるので、混合信号を時間領域から周波数領域にフーリエ変換すれば、瞬時混合のときの問題と同様に扱える。従って、周波数領域ＩＣＡにより目的音声信号と雑音信号に相当する分離信号Ｕ₁ 、Ｕ₂ に分離する。

次いで、目的音声音源及び雑音源から第１及び第２のマイクまでの各伝達経路特性、例えば、目的音声及び雑音がどのような伝達経路を経てそれぞれ分離信号Ｕ₁ 、Ｕ₂ として出力されるかを考慮して、各分離信号Ｕ₁ 、Ｕ₂ に対して、分離信号Ｕ₁ から第１のマイクで受信された複数のスペクトルｖ₁₁と第２のマイクで受信された複数のスペクトルｖ₁₂を生成する。同様に、分離信号Ｕ₂ から第１のマイクで受信された複数のスペクトルｖ₂₁と第２のマイクで受信された複数のスペクトルｖ₂₂を生成する。そして、各スペクトルｖ₁₁、ｖ₁₂、ｖ₂₁、ｖ₂₂から分割スペクトルを構成する。

ここで、時間領域では、音声と雑音の統計的性質の違いとして、音声信号の振幅分布の形状はスーパーガウシアン分布（分布の尖度が相対的に高く、かつ分布のすそ野が相対的に長い）に類似した形状を示し、雑音信号の振幅分布の形状は分布の尖度が相対的に低く、分布のすそ野が相対的に短い形状を示すことが知られている。
このことは、周波数領域でも成立すると考えられ、各周波数において音声に対応する分割スペクトル系列と雑音に対応する分割スペクトル系列についてその振幅分布の形状を求めると、音声に対応する分割スペクトル系列の形状はスーパーガウシアン分布に類似した形状を示し、雑音に対応する分割スペクトル系列の振幅分布の形状は分布の尖度が相対的に低く、分布のすそ野が相対的に短い形状を示すことが予想される。

ここで、各スペクトルｖ₁₁、ｖ₁₂、ｖ₂₁、ｖ₂₂では、各スペクトルｖ₁₁、ｖ₁₂が異なる２つの音源の中の一方の音源に対応し、各スペクトルｖ₂₁、ｖ₂₂が異なる２つの音源の中の他方の音源に対応する。
従って、スペクトルｖ₁₁とスペクトルｖ₂₂（あるいはスペクトルｖ₁₂とスペクトルｖ₂₁）の振幅分布の形状を求め、形状がスーパーガウシアン分布に類似している方のスペクトルを目的音声に対応する推定スペクトルＺ^* とし、分布の尖度が相対的に低く、分布のすそ野が相対的に短い形状を示す方のスペクトルを雑音に対応する推定スペクトルＺとして抽出することができる。
その結果、抽出した各推定スペクトルＺ^* から目的音声の復元スペクトル群を生成し、周波数領域から時間領域にフーリエ逆変換することにより目的音声を復元することができる。

本発明に係るブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法において、前記形状を前記各スペクトルｖ₁₁、ｖ₁₂、ｖ₂₁、ｖ₂₂の振幅分布のエントロピーＨで評価することができる。
ここで、各スペクトルｖ₁₁、ｖ₁₂、ｖ₂₁、ｖ₂₂の振幅分布は各振幅値が出現する際の確率密度関数に対応しており、振幅分布の形状は各振幅値の不確定性に対応していると考えることができる。そこで、振幅分布の形状を定量的に評価する方法として、例えば、エントロピーＨを使用することができる。この場合、スーパーガウシアン分布に類似している形状のエントロピーＨは、分布の尖度が相対的に低く、分布のすそ野が相対的に短い形状のエントロピーＨより小さくなる。従って、音声に対応するスペクトルのエントロピーＨは小さくなり、雑音に対応するスペクトルのエントロピーＨは大きくなる。
なお、形状の定量的な評価方法として尖度（ｋｕｒｔｓｉｓ）を使用することもできるが、異常値に対する評価の安定性が劣るという問題があり好ましくない。

本発明に係るブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法において、前記エントロピーＨは前記各スペクトルｖ₁₁、ｖ₁₂、ｖ₂₁、ｖ₂₂を複素数で表示した際の実部の振幅分布に対して求めることができる。
複素数で表示された各スペクトルｖ₁₁、ｖ₁₂、ｖ₂₁、ｖ₂₂の実部と虚部の振幅分布は、いずれも類似の形状を有しているため、実部あるいは虚部のどちらかの振幅分布に対してエントロピーＨを求めればよい。ここで、各スペクトルｖ₁₁、ｖ₁₂、ｖ₂₁、ｖ₂₂の中で音声や雑音の実体部分（信号の大きさ）に対応しているのは実部であるので、実部振幅分布に対してエントロピーＨを求めることが好ましい。

本発明に係るブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法において、前記エントロピーＨは前記各スペクトルｖ₁₁、ｖ₁₂、ｖ₂₁、ｖ₂₂を複素数で表示した際の絶対値の変動波形に対して求めることが好ましい。
絶対値の変動波形を対象にすることで、波形の変動領域を０以上の領域に限定することができ、エントロピーＨを算出する際の計算量を大幅に減少させることができる。

本発明に係るブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法において、前記判定基準は、前記スペクトルｖ₁₁のエントロピーＨ₁₁と前記スペクトルｖ₂₂のエントロピーＨ₂₂との差ΔＨ＝Ｈ₁₁−Ｈ₂₂を演算して、
（１）前記ΔＨが負の場合、前記推定スペクトルＺ^* として前記スペクトルｖ₁₁を抽出し、
（２）前記ΔＨが正の場合、前記推定スペクトルＺ^* として前記スペクトルｖ₂₁を抽出するように設定することができる。

スペクトルｖ₁₁、ｖ₁₂、ｖ₂₁、ｖ₂₂のエントロピーＨを求めた場合、エントロピーＨ₁₁とＨ₁₂、及びエントロピーＨ₂₁とＨ₂₂はそれぞれ同じ音源に対するエントロピーを表しており、エントロピーＨ₁₁とＨ₁₂、エントロピーＨ₂₁とＨ₂₂はそれぞれ本質的に等価と考えることができる。
従って、スペクトルｖ₁₁のエントロピーＨ₁₁を一方の音源に対するエントロピー、スペクトルｖ₂₂のＨ₂₂を他方の音源に対するエントロピーとして採用することができる。そして、スペクトルｖ₁₁のエントロピーＨ₁₁とスペクトルｖ₂₂のエントロピーＨ₂₂をそれぞれ算出した際、音声に対応するスペクトルのエントロピーＨは小さく、雑音に対応するスペクトルのエントロピーＨは大きくなる。このことから、ΔＨが負の場合はＨ₁₁＜Ｈ₂₂なので、推定スペクトルＺ^* としてスペクトルｖ₁₁を抽出する。また、ΔＨが正の場合はＨ₁₁＞Ｈ₂₂なので、推定スペクトルＺ^* としてスペクトルｖ₂₁を抽出する。

請求項１〜５記載のブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法においては、各音源に対して一義的に決定される各スペクトルの振幅分布の形状に基づいて、目的音声に対応する推定スペクトルＺ^* と雑音に対応する推定スペクトルＺを決定するので、音声区間や収音環境に影響を受けずに成分置換の不定性を解消しながら目的音声の推定スペクトルを抽出し目的音声を復元することが可能になる。
その結果、雑音環境下での音声認識として、例えば、ＯＡ分野での音声指令、音声入力、流通業界での倉庫管理やカーナビゲーターへの音声指令等、従来のタッチセンサ、指、及びキーボードを用いた入力操作の代替が可能になる。

特に、請求項２記載のブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法においては、スペクトルに異常値が含まれていても各スペクトルの振幅分布の形状を確実に評価することができるので、目的音声に対応する推定スペクトルＺ^* と雑音に対応する推定スペクトルＺをそれぞれ抽出することが可能になる。

請求項３記載のブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法においては、音声や雑音の実体部分に対してエントロピーＨを求めるようにしているので、目的音声の復元に使用するスペクトルを直接抽出することが可能になる。

請求項４記載のブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法においては、エントロピーＨを算出する際の計算量を大幅に減少させることができ、エントロピーＨを素早く求めることが可能になる。

請求項５記載のブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法においては、スペクトルｖ₁₁のエントロピーＨ₁₁を一方の音源に対するエントロピー、スペクトルｖ₂₂のＨ₂₂を他方の音源に対するエントロピーとして採用することができるので、目的音声に対応する推定スペクトルＺ^* を少ない計算量で精度良く抽出することが可能になる。その結果、実環境下で音声復元の応答速度が速く、しかも、認識能力の極めて高い音声認識エンジンを供給することが可能になる。

続いて、添付した図面を参照しつつ、本発明を具体化した実施の形態につき説明し、本発明の理解に供する。
図１は本発明の一実施の形態に係るブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法を適用した目的音声の復元装置の構成図、図２は同復元方法における目的音声及び雑音から復元スペクトルが形成されるまでの信号の流れを示す説明図、図３（Ａ）は音声に対応する分割スペクトルの実部、（Ｂ）は雑音に対応する分割スペクトルの実部、（Ｃ）は音声に対応する分割スペクトルの実部の振幅分布、（Ｄ）は雑音に対応する分割スペクトルの実部の振幅分布の説明図である。

図１に示すように、本発明の一実施の形態に係るブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法を適用した目的音声の復元装置１０は、異なる２つの音源１１、１２（一方が目的音声音源で他方が雑音源であるが、特定されていない）からそれぞれ発信される信号を受信する異なる位置に設けた第１のマイク１３及び第２のマイク１４と、各マイク１３、１４で受信されて得られた混合信号をそれぞれ増幅する第１及び第２の増幅器１５、１６と、各増幅器１５、１６から入力される混合信号から目的音声及び雑音を分離して復元信号として出力する復元装置本体１７と、出力された復元信号を増幅する復元信号増幅器１８と、増幅された復元信号を出力するスピーカ１９を有している。以下、これらについて詳細に説明する。

第１及び第２のマイク１３、１４としては、例えば、可聴音域（１０〜２００００Ｈｚ）の信号を集音するのに十分な周波数特性を有するマイクを使用することができる。なお、第１のマイク１３と音源１１、１２の位置関係、及び第２のマイク１４と音源１１、１２の位置関係に制約は存在しない。
第１及び第２の増幅器１５、１６としては、可聴音域の信号を歪みなく増幅可能な周波数帯域の特性を備えた増幅器を使用できる。

復元装置本体１７は、各増幅器１５、１６から入力される混合信号をデジタル化するためのＡ／Ｄ変換器２０、２１を有している。
また、復元装置本体１７は、デジタル化された各混合信号を時間領域から周波数領域にフーリエ変換し、独立成分解析法の一例であるＦａｓｔＩＣＡ法により２つの分離信号Ｕ₁ 、Ｕ₂ に分解する分離信号作成演算回路と、音源１１及び音源１２から第１及び第２のマイク１３、１４までの各伝達経路特性に基づいて、分離信号Ｕ₁ から第１のマイク１３で受信された複数のスペクトルｖ₁₁と第２のマイク１４で受信された複数のスペクトルｖ₁₂を生成し、分離信号Ｕ₂ から第１のマイク１３で受信された複数のスペクトルｖ₂₁と第２のマイク１４で受信された複数のスペクトルｖ₂₂を生成して分割スペクトルを形成する分割スペクトル生成演算回路を備えた分割スペクトル生成器２２を有している。

更に、復元装置本体１７は、分割スペクトル生成器２２で生成させた各スペクトルｖ₁₁、ｖ₁₂、ｖ₂₁、ｖ₂₂に対して、第１及び第２のマイク１３、１４と各音源１１、１２との間の伝達特性を含む各スペクトルｖ₁₁、ｖ₁₂、ｖ₂₁、ｖ₂₂の振幅分布の形状に基づいた判定基準を適用して、目的音声に対応する複数の推定スペクトルＺ^* 及び雑音に対応する複数の推定スペクトルＺをそれぞれ抽出し、各推定スペクトルＺ^* から目的音声の復元スペクトル群を生成して出力する復元スペクトル抽出回路２３と、出力された復元スペクトル群を周波数領域から時間領域にフーリエ逆変換して復元信号を生成させる復元信号生成回路２４を有している。

そして、分離信号作成演算回路及び分割スペクトル生成演算回路を備えた分割スペクトル生成器２２と、復元スペクトル抽出回路２３と、復元信号生成回路２４は、各回路の機能を発現する各プログラムを、例えば、パーソナルコンピュータに搭載させることにより構成することができる。また、各プログラムをマイクロコンピュータに搭載させ、これらのマイクロコンピュータが連携動作可能なように回路を形成することにより構成することもできる。
特に、パーソナルコンピュータに各プログラムを搭載させた場合は、このパーソナルコンピュータにＡ／Ｄ変換器２０、２１を取付けることにより、復元装置本体１７を一括して構成することができる。
また、復元信号増幅器１８は、復元信号をアナログ変換して可聴音域を歪みなく増幅することが可能な特性を備えた増幅器を使用することができ、スピーカ１９も可聴音域の信号を歪みなく出力可能な特性を備えたスピーカを使用できる。

次に、本発明の一実施の形態に係るブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法は、図１に示すように、異なる２つの音源１１、１２からそれぞれ発信される信号ｓ₁ （ｔ）及び信号ｓ₂ （ｔ）を、異なる位置に設けた第１及び第２のマイク１３、１４でそれぞれ受信して混合信号ｘ₁ （ｔ）、ｘ₂ （ｔ）を形成する第１工程を有している。
また、本発明の一実施の形態に係るブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法は、各混合信号ｘ₁ （ｔ）、ｘ₂ （ｔ）を時間領域から周波数領域にフーリエ変換し、独立成分解析法により２つの分離信号Ｕ₁ 、Ｕ₂ に分解して、各音源１１、１２から前記第１及び第２のマイク１３、１４までの各伝達経路特性に基づいて、分離信号Ｕ₁ から生成される第１のマイク１３で受信された複数のスペクトルｖ₁₁及び第２のマイク１４で受信された複数のスペクトルｖ₁₂と、分離信号Ｕ₂ から生成される第１のマイク１３で受信された複数のスペクトルｖ₂₁及び第２のマイク１４で受信された複数のスペクトルｖ₂₂とで構成される分割スペクトルを形成する第２工程を有している。

更に、本発明の一実施の形態に係るブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法は、各スペクトルｖ₁₁、ｖ₁₂、ｖ₂₁、ｖ₂₂に対して、第１及び第２のマイク１３、１４と各音源１１、１２との間の伝達特性を含む各スペクトルｖ₁₁、ｖ₁₂、ｖ₂₁、ｖ₂₂の振幅分布の形状に基づいた判定基準を適用して、目的音声に対応する複数の推定スペクトルＺ^* 及び雑音に対応する複数の推定スペクトルＺをそれぞれ抽出し、各推定スペクトルＺ^* から目的音声の復元スペクトル群を生成して、復元スペクトル群を周波数領域から時間領域にフーリエ逆変換して前記目的音声を復元する第３工程とを有する。なお、ｔは時間を示す。以下、これらの各工程について詳細に説明する。

（第１工程）
音源１１から発信される信号ｓ₁ （ｔ）と、音源１２から発信される雑音信号ｓ₂ （ｔ）は、一般に統計的に独立と考えることができる。そして、信号ｓ₁ （ｔ）と信号ｓ₂ （ｔ）を、異なる位置に設置した第１及び第２のマイク１３、１４で受信して得られる各混合信号ｘ₁ （ｔ）、ｘ₂ （ｔ）は、式（１）のように表記できる。
ここで、ｓ（ｔ）＝［ｓ₁ （ｔ），ｓ₂ （ｔ）］^T 、ｘ（ｔ）＝［ｘ₁ （ｔ），ｘ₂ （ｔ）］^T 、＊は畳み込み記号、Ｇ（ｔ）は各音源１１、１２から各マイク１３、１４までのそれぞれの伝達関数である。

（第２工程）
（１）式のように、各音源１１、１２からの信号が畳み込まれて観測される場合、各混合信号ｘ₁ （ｔ）、ｘ₂ （ｔ）から、信号ｓ₁ （ｔ）と信号ｓ₂ （ｔ）を、時間領域で分離することは困難となる。そのため、混合信号ｘ₁ （ｔ）、ｘ₂ （ｔ）を式（２）のように短時間間隔（フレーム）、例えば数１０ｍｓｅｃ程度の時間間隔で分割し、各フレーム毎に時間領域から周波数領域にフーリエ変換して扱う。また、得られた各周波数におけるスペクトルをフレーム順に並べることにより、スペクトルを時系列として扱うことができる。

ここに、ω（＝０，２π／Μ，・・・，２π（Μ−１）／Μ）は規格化周波数、Μはフレーム内のサンプル数、ｗ（ｔ）は窓関数、τはフレーム周期、Κはフレーム数を表す。
このとき混合信号スペクトルｘ（ω，ｋ）と、信号ｓ₁ （ｔ）及び信号ｓ₂ （ｔ）の各スペクトルは、周波数領域で式（３）のように関係づけられる。ここに、ｓ（ω，ｋ）はｓ（ｔ）を窓掛けして離散フーリエ変換したもので、Ｇ（ω）はＧ（ｔ）を離散してフーリエ変換して得られる複素定数行列である。

ここで、信号スペクトルｓ₁ （ω，ｋ）及び信号スペクトルｓ₂ （ω，ｋ）は本来独立であるので、ＦａｓｔＩＣＡ法を用いて、混合信号スペクトルｘ（ω，ｋ）から、互いに独立となる分離信号スペクトルＵ₁ （ω，ｋ）、Ｕ₂ （ω，ｋ）を求めると、これらのスペクトルが信号スペクトルｓ₁ （ω，ｋ）及び信号スペクトルｓ₂ （ω，ｋ）に相当することになる。
すなわち、混合信号スペクトルｘ（ω，ｋ）と分離信号スペクトルＵ₁ （ω，ｋ）、Ｕ₂ （ω，ｋ）の間に、式（４）の関係が成立するような分離行列Ｈ（ω）を求めることにより、混合信号スペクトルｘ（ω，ｋ）から、互いに独立となる分離信号スペクトルＵ₁ （ω，ｋ）、Ｕ₂ （ω，ｋ）を決定することができる。ここで、ｕ（ω，ｋ）＝［Ｕ₁ （ω，ｋ），Ｕ₂ （ω，ｋ）］^T である。

なお、周波数領域では、個々の周波数ωで、式（５）のように振幅の曖昧さや成分置換の問題が生じる。そのため、復元するのに意味ある分離信号を得るには、これらの問題を解決する必要がある。
ここにＱ（ω）は白色化行列、Ｐは各行と列の全ての要素が値１である１つの要素を除いて０である成分置換を表す行列、Ｄ（ω）＝ｄｉａｇ［ｄ₁ （ω），ｄ₂ （ω）］は振幅の曖昧さを表す対角行列である。

次に、周波数領域で、各信号スペクトルｓ_i （ω，ｋ）（ｉ＝１，２）を、その実部と虚部は平均がゼロで等しい分散をもち、実部と虚部は無相関という仮定の下で次のように定式化する。すなわち、周波数ωにおいて、分離荷重ｈ_n （ω）（ｎ＝１，２）を式（６）、式（７）に示す独立成分解析法の一例であるＦａｓｔＩＣＡ法のアルゴリズムに従って更新する。
ここに、ｆ（・・・）は式（６）中の非線型関数で、ｆ′（・・・）はｆ（・・・）の微分、￣は共役、Κはフレームのサンプル数である。

このアルゴリズムは、式（８）に示す収束条件ＣＣがほぼ１（例えば、ＣＣが０．９９９９以上）を満たすまで、繰り返される。さらに、ｈ₂ （ω）については、式（９）のように、ｈ₁ （ω）と直交化させて再び（７）式により規格化する。

上述のＦａｓｔＩＣＡ法のアルゴリズムを各周波数ωについて適用し、得られる分離荷重ｈ_n （ω）（ｎ＝１，２）を式（４）のＨ（ω）に対して、式（１０）として代入すれば、各周波数での分離信号スペクトルｕ（ω，ｋ）＝［Ｕ₁ （ω，ｋ），Ｕ₂ （ω，ｋ）］^Tが求まる。

図２に示すように、分離信号スペクトルＵ₁ （ω，ｋ）、Ｕ₂ （ω，ｋ）が出力される２つのノードを１、２と表記する。
このとき、分割スペクトルｖ₁ （ω，ｋ）＝［ｖ₁₁（ω，ｋ），ｖ₁₂（ω，ｋ）］^T 、ｖ₂ （ω，ｋ）＝［ｖ₂₁（ω，ｋ），ｖ₂₂（ω，ｋ）］^T は、分離信号スペクトルＵ_n （ω，ｋ）から、式（１１）、（１２）に示すように、各ノードｎ（＝１，２）で対になって生成されるスペクトルとして定義する。

ここで、成分置換は生じていないが、振幅の曖昧さが存在する場合、分離信号スペクトルＵ_n （ω，ｋ）は、式（１３）として出力される。そして、この分離信号Ｕ_n （ω，ｋ）に対する分割スペクトルは、信号スペクトルｓ₁ （ω，ｋ）及信号スペクトルｓ₂ （ω，ｋ）と伝達関数との積として、式（１４）、式（１５）のように生成される。
なお、ｇ₁₁（ω）は音源１１から第１のマイク１３までの伝達関数、ｇ₂₁（ω）は音源１１から第２のマイク１４までの伝達関数、ｇ₁₂（ω）は音源１２から第１のマイク１３までの伝達関数、ｇ₂₂（ω）は音源１２から第２のマイク１４までの伝達関数を示す。

また、成分置換と振幅の曖昧さの両方がある場合、分離信号スペクトルＵ_n （ω，ｋ）は、式（１６）となって、ノード１、２での分割スペクトルは、式（１７）、式（１８）のように生成される。
なお、ノード１で生成するスペクトルｖ₁₁（ω，ｋ）は、音源１２から発信された信号スペクトルｓ₂ （ω，ｋ）を第１のマイク１３で観測したときのスペクトル、ノード１で生成するスペクトルｖ₁₂（ω，ｋ）は、音源１２から発信された信号スペクトルｓ₂ （ω，ｋ）を第２のマイク１４で観測したときのスペクトルを示す。また、ノード２で生成するスペクトルｖ₂₁（ω，ｋ）は、音源１１から発信された信号スペクトルｓ₁ （ω，ｋ）を第１のマイク１３で観測したときのスペクトル、ノード２で生成するスペクトルｖ₂₂（ω，ｋ）は、音源１１から発信された信号スペクトルｓ₁ （ω，ｋ）を第２のマイク１４で観測したときのスペクトルを示す。

（第３工程）
図２に示す４つのスペクトルｖ₁₁（ω，ｋ）、ｖ₁₂（ω，ｋ）、ｖ₂₁（ω，ｋ）、ｖ₂₂（ω，ｋ）は、成分置換の有無に依存して対応する音源と伝達経路は異なるが、それぞれどれか１つの音源とどれか１つの伝達経路の排他的な組み合わせで一意に決まることが判る。更に、分離信号スペクトルＵ_n （ω，ｋ）には、式（１３）、（１６）のように振幅の曖昧さが残るが、分割スペクトルには、式（１４）、（１５）及び式（１７）、（１８）に示すように、もはや振幅の曖昧さの問題は生じていない。

ここで、時間領域では、音声と雑音の統計的性質の違いとして、音声信号の振幅分布の形状はスーパーガウシアン分布に類似した形状を示し、雑音信号の振幅分布の形状は分布の尖度が相対的に低く、分布のすそ野が相対的に短い形状を示すことが知られている。
そこで、図３（Ａ）に示す音声に対応する分割スペクトルの実部、（Ｂ）に示す雑音に対応する分割スペクトルの実部に対してそれぞれ振幅分布の形状を求めた。その結果を図３（Ｃ）及び（Ｄ）に示す。図３（Ｃ）、（Ｄ）から判るように、周波数領域においても、音声がスーパーガウシアン分布に類似した形状を示し、雑音は分布の尖度が相対的に低く、分布のすそ野が相対的に短い形状を示すことが確認できた。
従って、各周波数においてスペクトルｖ₁₁及びスペクトルｖ₂₂の各実部の振幅分布を調べ、スーパーガウシアン分布に類似した形状を示すスペクトルを目的音声に対応する推定スペクトルＺ^* とし、分布の尖度が相対的に低く、分布のすそ野が相対的に短い形状を示すスペクトルを雑音に対応する推定スペクトルＺとして当てはめることができる。

各スペクトルｖ₁₁、ｖ₂₂の振幅分布の形状は不確定性の観点からエントロピーＨで評価することができるので、振幅分布の形状を評価する尺度として式（１９）で求められるエントロピーＨを採用する。

ここに、ｐ_ij（ω，ｌ_n ）は、各スペクトルｖ₁₁、ｖ₂₂の実部の値の分布範囲をＮ等分したとき区画ｌ_n に入る頻度ｑ（ω，ｌ_n ）（ｎ＝１，２，・・・，Ｎ）を、式（２０）のように規格化して得られる確率である。

そして、スペクトルｖ₁₁のエントロピーＨ₁₁とスペクトルｖ₂₂のエントロピーＨ₂₂から両者の差ΔＨ＝Ｈ₁₁−Ｈ₂₂を演算して、ΔＨが負の場合、成分置換はないと判断して目的音声に対応する推定スペクトルＺ^* としてスペクトルｖ₁₁を割り当て、雑音に対応する推定スペクトルＺとしてスペクトルｖ₂₂を割り当てる。例えば、［Ｚ^* ，Ｚ］＝［ｖ₁₁，ｖ₂₂］の変換を行って第１チャネルから目的音声が出力されるようにする。
逆に、ΔＨが正の場合、成分置換が起きていると判断して目的音声に対応する推定スペクトルＺ^* としてスペクトルｖ₂₁を割り当て、雑音に対応する推定スペクトルＺとしてスペクトルｖ₁₂を割り当てる。すなわち、［Ｚ^* ，Ｚ］＝［ｖ₂₁，ｖ₁₂］と成分置換を是正する変換を行って、第１チャネルから目的音声が出力されるようにする。
従って、第１チャネルから出力される各推定スペクトルＺ^* から目的音声の復元スペクトル群｛ｙ（ω，ｋ）｜ｋ＝０，１，・・・，Ｋ−１｝を生成して、フレーム毎に逆離散フーリエ変換（フーリエ逆変換）して時間領域に戻して、それをすべてのフレームにわたって式（２１）のように総和を取れば、目的音声音源の復元信号ｙ（ｔ）が得られる。

（実施例１）
縦７４７ｃｍ、横６２８ｃｍ、高さ２６９ｃｍで、残響時間が約４００ｍｓｅｃのオフィス及び約８００ｍｓｅｃの会議室において、２つのマイクを１０ｃｍ隔てて設置し、２つのマイクを結ぶ直線と垂直な方向を０°として、一方のマイクから１０°外向きの方向に１５０ｃｍ離したスピーカから騒音が流れる下で、他方のマイクから１０°外向きに３０ｃｍ離れたところで、話者に発話してもらった。
マイクで集音されたデータは、サンプリング周波数８０００Ｈｚ、分解能１６Ｂｉｔで離散化し、フーリエ変換は、フレーム長を３２ｍｓｅｃ、フレーム周期を８ｍｓｅｃ、窓関数をハミング窓として行った。

また、分離については、マイク（周波数特性が２００〜５０００Ｈｚの単一指向性コンデンサマイク（ＯＬＩＭＰＵＳ−ＭＥ１２））の周波数特性を考慮して、２００〜３５００Ｇｚの範囲でＦａｓｔＩＣＡアルゴリズム（ビンガム、ヒバリネン（Ｅ．ＢｉｎｇｈａｍａｎｄＡ．Ｈｙｖａｒｉｎｅｎ）、”アファストフィクスト−ポイントアルゴリズムフォアインディペンデントコンポーネントアナリシスオブコンプレックスヴァルードシグナルズ（Ａｆａｓｔｆｉｘｅｄ−ｐｏｉｎｔａｌｇｏｒｉｔｈｍｆｏｒｉｎｄｅｐｅｎｄｅｎｔｃｏｍｐｏｎｅｎｔａｎａｌｙｓｉｓｏｆｃｏｍｐｌｅｘｖａｌｕｅｄｓｉｇｎａｌｓ）”インターナショナルジャーナルオブニューラルシステムズ（Ｉｎｔ．ＪｏｆＮｅｕｒａｌＳｙｓｔｅｍｓ）、２０００年２月、１０巻、１号、ｐ．１−８）を適用した。その際の初期荷重は−１〜１の乱数、繰り返し回数を最大１００回、収束判定条件ＣＣ＞０．９９９９９９として推定した。そして、エントロピーＨは分布範囲の区画数をＮ＝２００として求めた。

雑音源として、スピーカから高速走行時のロードノイズとやや非定常的な２種類の騒音（ＮＴＴ騒音データベース（ＮＴＴアドバンストテクノロジー株式会社、アンビエントノイズデータベースフォアテレホノメトリ１９９６（ＡｍｂｉｅｎｔＮｏｉｓｅＤａｔａｂａｓｅｆｏｒＴｅｌｅｐｈｏｎｏｍｅｔｒｙ１９９６）、１９９６年９月１日）中の２種類の非定常雑音（クラシカル（ｃｌａｓｓｉｃａｌ）、ステーション（ｓｔａｔｉｏｎ））を流す中で、男女各１名の話者に３種類の音声パターン（約３秒）を発話してもらって、混合信号を収録した。また、雑音については、２つのマイクの中央部での測定で７０ｄＢと８０ｄＢの２つのレベルを試みた。
先ず、ＦａｓｔＩＣＡアルゴリズムで求めた分離信号Ｕ₁ 、Ｕ₂ から得られるスペクトルｖ₁₁、スペクトルｖ₂₂について、各周波数で成分置換の有無が判定できる程良好に分離されているか否かを目視により調べた。

その結果、分離が悪く判定不能と判断した周波数は、主に低周波域で散見され、雑音が７０ｄＢのとき、無響室で０．９％、オフィスで１．８９％、会議室で３．３８％で、雑音が８０ｄＢのとき、無響室で２．３％、オフィスで９．５％、会議室で１２．３％と増えた。
従って、これらの分離の悪い周波数は除外して、従来法の一例である包絡法及び位置情報法（ゴタンダ、ノブ、コヤ、カネダ、イシバシ、ハラタニ（Ｈ．Ｇｏｔａｎｎｄａ，Ｋ．Ｎｏｂｕ，Ｔ．Ｋｏｙａ，Ｋ．Ｋａｎｅｄａ，Ｔ．Ｉｓｈｉｂａｓｈｉ，Ｎ．Ｈａｒａｔａｎｉ）、”パーミュテイションコレクションアンドスピーチイクストラクションベイスドオンスプリットスペクトラムスルーファストアイシーエイ（ＰｅｒｍｕｔａｔｉｏｎＣｏｒｒｅｃｔｉｏｎＡｎｄＳｐｅｅｃｈＥｘｔｒａｃｔｉｏｎＢａｓｅｄＯｎＳｐｌｉｔＳｐｅｃｔｒａｍＴｈｒｏｕｇｈＦａｓｔＩＣＡ）”、プロシーディングオブインターナショナルシンポジウムオンインディペンデントコンポーネントアナリシスアンドブラインドシグナルセパレイション（Ｐｒｏｃ．ＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎＩｎｄｅｐｅｎｄｅｎｔＣｏｍｐｏｎｅｎｔＡｎａｌｉｓｉｓａｎｄＢｌｉｎｄＳｉｇｎａｌＳｅｐａｒａｔｉｏｎ）、２００３年４月１日、ｐ３７９−３８４）と、本発明の方法による成分置換の是正能力をそれぞれ評価し比較した。

具体的には、各方法を適用した後、最終的に得られる目的音声に対応する推定スペクトルを、評価対象の周波数ω毎に目視により成分置換が是正されているか否かを調べ、成分置換が是正されている周波数の個数をＦ⁺ 、是正されていない周波数の個数をＦ^- として、成分置換解消率をＦ⁺ ／（Ｆ⁺ ＋Ｆ^- ）と定義して、是正能力を評価した。その結果を表１に示す。

表１から、雑音レベルが７０ｄＢの場合、残響時間が約８００ｍｓｅｃと長い会議室での位置情報法による解決率が５７．７％と極めて低いのを除いて、３つの方法とも９割以上の是正能力があることが判る。
特に、本発明の方法では、残響に影響されることなく安定して９９％以上の高い是正能力を示している。また、位置情報法の場合、残響時間が長くなるにつれて是正能力が低下することが読み取れる。この方法は、話者がマイクと１０ｃｍ程度と近接している場合、話者音声がマイクに強く入るので、残響時間が４００ｍｓｅｃ程度の部屋でも有効に機能するが、実施例１のように、話者とマイクとの距離を３０ｃｍと離した場合、残響やマイク配置が伝達関数ｇ_i _j （ω）の値に大きく影響するようになって、是正能力が劣化すると考えられる。
更に、成分置換解消率が９割以上の結果について、波形的な違いを目視により調べると各方法で若干の差が認められ、聴感上では本発明の方法による復元音声が最も明瞭であった。

雑音レベルが８０ｄＢの場合、本発明の方法は他の方法に比べて、いずれの部屋でも９９％以上の高い成分置換解消率を示しており、雑音レベルや残響の影響に対して頑強であることが確認できた。また、包絡法と本発明による結果を比較したところ、波形的にも聴感的にも本発明の方法が優れていることが確認された。

（実施例２）
窓を閉めて、エアコンを運転し、またロック音楽を前方の２つと側部の２つのスピーカから流しながら高速走行（９０〜１００ｋｍ／ｈ）している車内で、助手席話者からの発話をその正面上部の３５ｃｍ離れた話者用マイクと、これから窓側もしくは中央寄りに１５ｃｍ離れた雑音用マイクで集音した。なお、雑音レベルは７３ｄＢであった。また、発話者や発話内容、マイク、分離アルゴリズム、サンプリング周波数等は実施例１と同様に設定した。
先ず、ＦａｓｔＩＣＡアルゴリズムで求めた分離信号Ｕ₁ 、Ｕ₂ から得られるスペクトルｖ₁₁、スペクトルｖ₂₂について、各周波数で成分置換の有無が判定できる程良好に分離されているか否かを目視により調べた。その結果、分離が悪く判定不能と判断された周波数は２０％に上がった。
これは、音楽が４方向のスピーカから流れてくることに加えて、エンジンやエアコンの音等のマイク数を上回る音源が混合されたことにより、分離性能が劣化したためと考えられる。従って、これらの分離の悪かった周波数は除外して、包絡法、位置情報法、及び本発明の方法による成分置換の是正能力を実施例１と同様の成分置換解消率で評価した。その結果を表２に示す。

表２から、包絡法による場合、成分置換は９割弱程度が是正されており、雑音用マイクの固定位置により数パーセントの違いが出ることが判った。一方、本発明の方法では、雑音用マイクの固定位置によらず、成分置換解消率は９９％以上となっており、有効に機能していることが分かる。なお、位置情報による方法では、成分置換解消率が８割程度と、包絡法及び本発明の方法を下回る結果となった。

以上、本発明の実施の形態を説明したが、本発明は、この実施の形態に限定されるものではなく、発明の要旨を変更しない範囲での変更は可能であり、前記したそれぞれの実施の形態や変形例の一部又は全部を組み合わせて本発明のブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法を構成する場合も本発明の権利範囲に含まれる。
例えば、第１チャネル（ノード１）から目的音声が出力されるようにしたが、ΔＨが負の場合は［Ｚ，Ｚ^* ］＝［ｖ₂₂，ｖ₁₁］の変換を行ない、ΔＨが正の場合は［Ｚ，Ｚ^* ］＝［ｖ₁₂，ｖ₂₁］の変換を行って、第２チャネル（ノード２）から目的音声が出力されるようにしてもよい。
また、エントロピーＨ₁₁の代りにエントロピーＨ₁₂、エントロピーＨ₂₂の代りにエントロピーＨ₂₁を使用してもよい。
更に、複素数で表示された各スペクトルｖ₁₁、ｖ₁₂、ｖ₂₁、ｖ₂₂の実部振幅分布に対してエントロピーＨを求めたが、虚部振幅分布に対してエントロピーＨを求めてもよい。また、複素数で表示された各スペクトルｖ₁₁、ｖ₁₂、ｖ₂₁、ｖ₂₂の絶対値に関する変動波形に対してエントロピーＨを求めるようにしてもよい。

本発明の一実施の形態に係るブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法を適用した目的音声の復元装置の構成図である。同復元方法における目的音声及び雑音から復元スペクトルが形成されるまでの信号の流れを示す説明図である。（Ａ）は音声に対応する分割スペクトルの実部、（Ｂ）は雑音に対応する分割スペクトルの実部、（Ｃ）は音声に対応する分割スペクトルの実部の振幅分布、（Ｄ）は雑音に対応する分割スペクトルの実部の振幅分布の説明図である。

符号の説明

１０：目的音声の復元装置、１１、１２：音源、１３：第１のマイク、１４：第２のマイク、１５：第１の増幅器、１６：第２の増幅器、１７：復元装置本体、１８：復元信号増幅器、１９：スピーカ、２０、２１：Ａ／Ｄ変換器、２２：分割スペクトル生成器、２３：復元スペクトル抽出回路、２４：復元信号生成回路

Claims

異なる２つの音源からそれぞれ発信される目的音声及び雑音を、異なる位置に設けた第１及び第２のマイクでそれぞれ受信して混合信号を形成する第１工程と、
前記各混合信号を時間領域から周波数領域にフーリエ変換し、独立成分解析法により２つの分離信号Ｕ₁ 、Ｕ₂ に分解して、前記各音源から前記第１及び第２のマイクまでの各伝達経路特性に基づいて、前記分離信号Ｕ₁ から生成され前記第１のマイクで受信された複数のスペクトルｖ₁₁及び前記第２のマイクで受信された複数のスペクトルｖ₁₂と、前記分離信号Ｕ₂ から生成され前記第１のマイクで受信された複数のスペクトルｖ₂₁及び前記第２のマイクで受信された複数のスペクトルｖ₂₂とで構成される分割スペクトルを形成する第２工程と、
前記各スペクトルｖ₁₁、ｖ₁₂、ｖ₂₁、ｖ₂₂に対して、前記第１及び第２のマイクと前記各音源との間の伝達特性を含む前記各スペクトルｖ₁₁、ｖ₁₂、ｖ₂₁、ｖ₂₂の振幅分布の形状に基づいた判定基準を適用して、前記目的音声に対応する複数の推定スペクトルＺ^* 及び前記雑音に対応する複数の推定スペクトルＺをそれぞれ抽出し、該各推定スペクトルＺ^* から前記目的音声の復元スペクトル群を生成して、該復元スペクトル群を周波数領域から時間領域にフーリエ逆変換して前記目的音声を復元する第３工程とを有することを特徴とするブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法。
請求項１記載のブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法において、前記形状を前記各スペクトルｖ₁₁、ｖ₁₂、ｖ₂₁、ｖ₂₂の振幅分布のエントロピーＨで評価することを特徴とするブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法。
請求項２記載のブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法において、前記エントロピーＨは前記各スペクトルｖ₁₁、ｖ₁₂、ｖ₂₁、ｖ₂₂を複素数で表示した際の実部の振幅分布に対して求めることを特徴とするブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法。
請求項２記載のブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法において、前記エントロピーＨは前記各スペクトルｖ₁₁、ｖ₁₂、ｖ₂₁、ｖ₂₂を複素数で表示した際の絶対値の変動波形に対して求めることを特徴とするブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法。
請求項２及び３のいずれか１項に記載のブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法において、前記判定基準は、前記スペクトルｖ₁₁のエントロピーＨ₁₁と前記スペクトルｖ₂₂のエントロピーＨ₂₂との差ΔＨ＝Ｈ₁₁−Ｈ₂₂を演算して、
（１）前記ΔＨが負の場合、前記推定スペクトルＺ^* として前記スペクトルｖ₁₁を抽出し、
（２）前記ΔＨが正の場合、前記推定スペクトルＺ^* として前記スペクトルｖ₂₁を抽出するように設定されていることを特徴とするブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法。