JP3950930B2

JP3950930B2 - 音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法

Info

Publication number: JP3950930B2
Application number: JP2003117458A
Authority: JP
Inventors: 博五反田; 和幸信; 武志古屋; 圭市金田; 孝昭石橋
Original assignee: Kitakyushu Foundation for Advancement of Industry Science and Technology
Current assignee: Kitakyushu Foundation for Advancement of Industry Science and Technology
Priority date: 2002-05-10
Filing date: 2003-04-22
Publication date: 2007-08-01
Anticipated expiration: 2023-04-22
Also published as: US20040040621A1; JP2004029754A; US7315816B2

Description

【０００１】
【発明の属する技術分野】
本発明は、実環境下で得られた目的音声を含んだ混合信号から、音源の位置情報を利用して目的音声を抽出し復元する方法に関する。
【０００２】
【従来の技術】
近年、音声認識技術は著しく進展して、周囲に雑音のない理想的な環境下では認識能力の極めて高い音声認識エンジンが供給できるようになってきた。しかし、生活音や活動音が存在する一般家庭やオフィスでは、期待通りの認識率を得ることは難しい。このような実環境下で音声認識エンジンのもつ本来の認識能力を引き出すには、雑音が混じった混合信号から雑音を除去して、目的音声（例えば、話者音声）のみを音声認識エンジンに受け渡すという前処理が不可欠と考えられる。
その観点から、近年、独立成分解析法（ＩＣＡ法、ＩｎｄｅｐｅｎｄｅｎｔＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ）が注目を集めている。この方法は、各音源が統計的に独立ならば、各音源や各音源からの伝達経路の特性が分からなくても、目的音声と雑音が重なり合って観測される混合信号より、目的音声を分離できる手法として期待されている。
【０００３】
実際、目的音声と雑音が瞬時混合される場合、振幅の曖昧さ（原音源とは振幅が異なって出力されること）や成分置換（目的音声が雑音に、雑音が目的音声というように相互に入れ代わって出力されること）の問題を除けば、時間領域で各音源からの信号を完全に分離できる。しかし、実環境下では、個々のマイクで受信される音に時間差があったり、反射や残響の影響が畳み込まれて観測されるため、時間領域で目的音声を分離することは容易でない。
そのため、時間差や畳み込みがあるときの混合信号から目的音声と雑音を分離することは、例えば、混合信号を時間領域から周波数領域の信号（スペクトル）にフーリエ変換して行なわれている。
【０００４】
【発明が解決しようとする課題】
しかしながら、周波数領域で処理を行なう場合でも、振幅の曖昧さや成分置換の問題は、個々の周波数で生じることになるため、これらの問題が未解決の状態で混合信号から目的音声と雑音の分離を行なって、周波数領域でフーリエ逆変換して時間領域に戻したとしても、瞬時混合のときと違って、目的音声として意味のある分離信号を得ることはできない。そのため、これまで幾つかの分離方法が提案されている。その中で、ＦａｓｔＩＣＡ法は、混合信号を非ガウス性の高い順に逐次的に分離できるという特徴を持っている。この特徴は、雑音を除去して目的音声を抽出する場合、一般に音声は雑音に比べて非ガウス性が高いことから、最初に音声に対応した信号を分離して、次に雑音に対応した信号を分離することになって、結果的に成分置換の問題発生が緩和されることが期待できる。
【０００５】
また、振幅の曖昧さについては、池田らが分割スペクトルの概念を導入して解決している（例えば、Ｎ．Ｍｕｒａｔａ，Ｓ．ＩｋｅｄａａｎｄＡ．Ｚｉｅｈｅ，”ＡｍｅｔｈｏｄｏｆｂｌｉｎｄｓｅｐａｒａｔｉｏｎｂａｓｅｄｏｎｔｅｍｐｏｒａｌｓｔｒｕｃｔｕｒｅｏｆＳｉｇｎａｌｓ”，Ｎｅｕｒｏｃｏｍｐｕｔｉｎｇ，ｖｏｌ．４１，Ｉｓｓｕｅ１−４，ｐｐ．１−２４，２００１、Ｓ．ＩｋｅｄａａｎｄＮ．Ｍｕｒａｔａ，”ＡｍｅｔｈｏｄｏｆＩＣＡｉｎｔｉｍｅｆｒｅｑｕｅｎｃｙｄｏｍａｉｎ”，Ｐｒｏｃ．ＩＣＡ ’９９，ｐｐ．３６５−３７０，Ａｕｓｓｏｉｓ，Ｆｒａｎｃｅ，Ｊａｎ．１９９９）。
更に、成分置換については、類似度やある周波数での分離荷重の初期値として隣接する周波数の分離荷重の推定結果を利用する方法が提案されているが、本来、先験情報を利用しない立場からのアプローチであるため、実環境下での効果には限界がある。また、分離されて出力された信号のうち、どちらが目的音声に相当するのかは、事後に判断する必要があり即時選別に問題が生じている。
【０００６】
本発明はかかる事情に鑑みてなされたもので、実環境下で得られた目的音声を含んだ混合信号から明瞭度の高い復元音声を得ることができると共に即時選別に優れた音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法を提供することを目的とする。
【０００７】
【課題を解決するための手段】
前記目的に沿う第１の発明に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法は、目的音声音源及び雑音源からそれぞれ発信される目的音声及び雑音を、異なる位置に設けた第１及び第２のマイクでそれぞれ受信して混合信号を形成する第１工程と、
前記各混合信号を時間領域から周波数領域にフーリエ変換し、独立成分解析法により２つの分離信号Ｕ_A、Ｕ_Bに分解して、前記目的音声音源及び前記雑音源から前記第１及び第２のマイクまでの各伝達関数に基づいて、前記分離信号Ｕ_Aから前記第１のマイクで受信されたスペクトルｖ_A1及び前記第２のマイクで受信されたスペクトルｖ_A2で構成される分割スペクトルを、前記分離信号Ｕ_Bから前記第１のマイクで受信されたスペクトルｖ_B1及び前記第２のマイクで受信されたスペクトルｖ_B2で構成される分割スペクトルをそれぞれ生成する第２工程と、
前記各分割スペクトルに対して、前記第１及び第２のマイクと前記目的音声音源及び雑音源との間の音の伝達特性に基づいた判定基準を適用して復元スペクトルを抽出し、該復元スペクトルを周波数領域から時間領域にフーリエ逆変換して目的音声を復元する第３工程とを有し、
前記判定基準は、前記目的音声音源から前記第１及び第２のマイクまでの前記伝達関数のゲイン又は位相の差及び前記雑音源から前記第１及び第２のマイクまでの前記伝達関数のゲイン又は位相の差が、前記スペクトルｖ _A1 とｖ _A2 の差、若しくは前記スペクトルｖ _B1 とｖ _B2 の差に等しいことを利用して、前記目的音声音源及び雑音源を前記第１及び第２のマイクで受信した信号がそれぞれどの前記スペクトルｖ _A1 、ｖ _A2 、ｖ _B1 、ｖ _B2 に相当するかを判定して前記復元スペクトルを抽出するよう設定されている。
【０００８】
目的音声音源から発信される目的音声と、雑音源から発信される雑音を、目的音声音源及び雑音源に対してそれぞれ異なる位置に第１及び第２のマイクを設置して、各マイクで目的音声と雑音を受信する。このとき、各マイクでは、目的音声と雑音が重なり合って観測されるため、目的音声と雑音が混合した混合信号が形成される。
目的音声と雑音は、一般に統計的に独立であると考えられる。このため、混合信号を、独立した成分に分解する統計的手法、例えば、独立成分解析法を採用して、２つの独立した成分に分離すると、得られた一方の成分が目的音声に、他方の成分が雑音に対応する。
なお、混合信号は、目的音声と雑音が反射や到達時間の遅れを伴った状態で畳み込まれて形成されるので、混合信号を時間領域で２つの独立した成分に分離することは困難である。そのため、混合信号を時間領域から周波数領域にフーリエ変換して、独立成分解析法により目的音声信号と雑音信号に相当する分離信号Ｕ_A 、Ｕ_B に分離する。
【０００９】
次いで、目的音声音源及び雑音源から第１及び第２のマイクまでの各伝達関数に基づいて、各分離信号Ｕ_A、Ｕ_Bに対して、分離信号Ｕ_Aから、第１のマイクで受信された信号のスペクトルｖ_A1及び第２のマイクで受信された信号のスペクトルｖ_A2で構成される分割スペクトルを生成する。また、分離信号Ｕ_Bから、第１のマイクで受信された信号のスペクトルｖ_B1及び第２のマイクで受信された信号のスペクトルｖ_B2で構成される分割スペクトルを生成する。
【００１０】
第１及び第２のマイクと目的音声音源及び雑音源との間の音の伝達特性、例えば、音の強弱を考慮すると、得られた各分割スペクトルｖ_A1、ｖ_A2、ｖ_B1、ｖ_B2間に、スペクトル強度の差が生じる。従って、第１及び第２のマイクと目的音声音源との距離に明確な差を予め設けておくと、目的音声がどのマイクで受信されたか、すなわち、目的音声がどの分割スペクトルｖ_A1、ｖ_A2、ｖ_B1、ｖ_B2に相当するかを判定することができる。このため、分割スペクトルｖ_A1、ｖ_A2、ｖ_B1、ｖ_B2の中から判定された目的音声に相当するスペクトルを復元スペクトルとして抽出することができる。
そして、この復元スペクトルを周波数領域から時間領域にフーリエ逆変換することにより目的音声を復元することができる。
その結果、復元された目的音声では、振幅の曖昧さの発生や成分置換の発生を防止することができる。
【００１１】
第１の発明に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法において、前記目的音声音源が前記第２のマイクよりも前記第１のマイクに接近し、前記雑音源が前記第１のマイクよりも前記第２のマイクに接近して存在する場合、前記判定基準は、前記スペクトルｖ_A1と前記スペクトルｖ_A2との差Ｄ_A 、及び前記スペクトルｖ_B1と前記スペクトルｖ_B2との差Ｄ_B をそれぞれ演算して、
（１）前記差Ｄ_A が正かつ前記差Ｄ_B が負のとき前記復元スペクトルとして前記スペクトルｖ_A1を抽出し、
（２）前記差Ｄ_A が負かつ前記差Ｄ_B が正のとき前記復元スペクトルとして前記スペクトルｖ_B1を抽出するように設定されていることが好ましい。
【００１２】
目的音声音源が第２のマイクよりも第１のマイクに接近して存在する場合、目的音声音源から第１のマイクまでの伝達関数のゲインは目的音声音源から第２のマイクまでの伝達関数のゲインより大きく、雑音源から第１のマイクまでの伝達関数のゲインは雑音源から第２のマイクまでの伝達関数のゲインより小さい。
そこで、差Ｄ_A が正かつ差Ｄ_B が負であれば、成分置換が発生していないと考えることができ、分割スペクトルｖ_A1、ｖ_A2は、目的音声がそれぞれ第１のマイクと第２のマイクで受信された際の信号のスペクトルに相当し、分割スペクトルｖ_B1、ｖ_B2は、雑音がそれぞれ第１のマイクと第２のマイクで受信された際の信号のスペクトルに相当する。従って、分割スペクトルｖ_A1が復元スペクトルとなる。一方、差Ｄ_A が負かつ差Ｄ_B が正であれば、成分置換が発生していると考えることができ、分割スペクトルｖ_A1、ｖ_A2は、雑音がそれぞれ第１のマイクと第２のマイクで受信された際の信号のスペクトルに相当し、分割スペクトルｖ_B1、ｖ_B2は、目的音声がそれぞれ第１のマイクと第２のマイクで受信された際の信号のスペクトルに相当する。従って、分割スペクトルｖ_B1が復元スペクトルとなる。これによって、復元された目的音声信号において、振幅の曖昧さの発生を防止すると共に、成分置換の発生をより厳密に防止することができる。
【００１３】
第１の発明に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法において、前記差Ｄ_A を前記スペクトルｖ_A1と前記スペクトルｖ_A2との各絶対値の差として、前記差Ｄ_B を前記スペクトルｖ_B1と前記スペクトルｖ_B2との各絶対値の差としてそれぞれ求めることが好ましい。
周波数領域における各成分毎に差Ｄ_A 、差Ｄ_B を求めることにより、各成分毎に成分置換の発生を厳密に判定することができる。
【００１４】
第１の発明に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法において、前記差Ｄ_A を時間系列に対してそれぞれ演算した前記スペクトルｖ_A1の強度の２乗和の平均値Ｐ_A1と前記スペクトルｖ_A2の強度の２乗和の平均値Ｐ_A2との差として求め、前記差Ｄ_B を時間系列に対してそれぞれ演算した前記スペクトルｖ_B1の強度の２乗和の平均値Ｐ_B1と前記スペクトルｖ_B2の強度の２乗和の平均値Ｐ_B2との差として求めることが好ましい。
目的音声信号成分、雑音信号成分の各強度として、時間系列に対して各信号成分の振幅の２乗和の平均値を採用することにより、成分置換の判定処理結果が正しいか否かの目視による照合作業が簡単になる。
【００１５】
第１の発明係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法において、前記目的音声音源が前記第２のマイクよりも前記第１のマイクに接近し、前記雑音源が前記第１のマイクよりも前記第２のマイクに接近して存在する場合、前記判定基準は、前記スペクトルｖ_A1の強度の２乗和の平均値Ｐ_A1、前記スペクトルｖ_A2の強度の２乗和の平均値Ｐ_A2、前記スペクトルｖ_B1の強度の２乗和の平均値Ｐ_B1、及び前記スペクトルｖ_B2の強度の２乗和の平均値Ｐ_B2を時間系列に対してそれぞれ求め、前記平均値Ｐ_A1と前記平均値Ｐ_A2との差Ｄ_A 、及び前記平均値Ｐ_B1と前記平均値Ｐ_B2との差Ｄ_B をそれぞれ求めて、
（１）Ｐ_A1＋Ｐ_A2＞Ｐ_B1＋Ｐ_B2かつ前記差Ｄ_A が正のとき前記復元スペクトルとして前記スペクトルｖ_A1を抽出し、
（２）Ｐ_A1＋Ｐ_A2＞Ｐ_B1＋Ｐ_B2かつ前記差Ｄ_A が負のとき前記復元スペクトルとして前記スペクトルｖ_B1を抽出し、
（３）Ｐ_A1＋Ｐ_A2＜Ｐ_B1＋Ｐ_B2かつ前記差Ｄ_B が負のとき前記復元スペクトルとして前記スペクトルｖ_A1を抽出し、
（４）Ｐ_A1＋Ｐ_A2＜Ｐ_B1＋Ｐ_B2かつ前記差Ｄ_B が正のとき前記復元スペクトルとして前記スペクトルｖ_B1を抽出するように設定されていることが好ましい。
【００１６】
目的音声が特定の周波数帯域でスペクトル強度が小さくなっている場合、周囲の暗騒音による成分が重畳して、スペクトル強度の大小関係が逆転することが考えられる。従って、各分割スペクトルｖ_A1、ｖ_A2、ｖ_B1、ｖ_B2から復元スペクトルを抽出する際の判定基準として、スペクトル強度を採用している場合、スペクトル強度に逆転が発生すると、成分置換の問題が生じる。
このため、Ｐ_A1＋Ｐ_A2とＰ_B1＋Ｐ_B2との大小関係を考慮することにより、分離信号全体としての強度比較を行なって、分離信号Ｕ_A から生成される分割スペクトルｖ_A1、ｖ_A2と、分離信号Ｕ_B から生成される分割スペクトルｖ_B1、ｖ_B2のうちで、いずれが復元対象となる信号であるのかの判定を行なうことができる。
【００１７】
ここで、目的音声音源が第２のマイクよりも第１のマイクに接近して存在する場合、Ｐ_A1＋Ｐ_A2＞Ｐ_B1＋Ｐ_B2であれば、分離信号Ｕ_A から生成される分割スペクトルｖ_A1、ｖ_A2を意味のある信号と考えて、差Ｄ_A が正のとき成分置換は生じていないと判断して、復元スペクトルとしてスペクトルｖ_A1を抽出し、差Ｄ_A が負のとき、成分置換が生じていると判断して、復元スペクトルとしてスペクトルｖ_B1を抽出する。
一方、Ｐ_A1＋Ｐ_A2＜Ｐ_B1＋Ｐ_B2であれば、分離信号Ｕ_B から生成される分割スペクトルｖ_B1、ｖ_B2を意味ある信号と考えて、差Ｄ_B が負のとき成分置換が生じていると判断して、復元スペクトルとしてスペクトルｖ_A1を抽出し、差Ｄ_B が正のとき、成分置換が生じていないと判断して、復元スペクトルとしてスペクトルｖ_B1を抽出する。
【００１８】
前記目的に沿う第２の発明に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法は、異なる２つの音源からそれぞれ発信される目的音声及び雑音を、異なる位置に設けた第１及び第２のマイクでそれぞれ受信して混合信号を形成する第１工程と、
前記各混合信号を時間領域から周波数領域にフーリエ変換し、ＦａｓｔＩＣＡ法により２つの分離信号Ｕ_A、Ｕ_Bに分解して、前記各音源から前記第１及び第２のマイクまでの各伝達経路特性に基づいて、前記分離信号Ｕ_Aから前記第１のマイクで受信されたスペクトルｖ_A1及び前記第２のマイクで受信されたスペクトルｖ_A2で構成される分割スペクトルを、前記分離信号Ｕ_Bから前記第１のマイクで受信されたスペクトルｖ_B1及び前記第２のマイクで受信されたスペクトルｖ_B2で構成される分割スペクトルをそれぞれ生成する第２工程と、
前記各分割スペクトルに対して、該各分割スペクトルが前記第１及び第２のマイクで受信された信号と等価であることに基づく判定基準を適用し前記目的音声及び前記雑音に対応する各推定スペクトルを抽出して前記目的音声の復元スペクトル群を生成し、該復元スペクトル群を周波数領域から時間領域にフーリエ逆変換して目的音声を復元する第３工程とを有し、
前記判定基準は、一方の音源から前記第１及び第２のマイクまでの伝達関数のゲイン又は位相の差及び他方の音源から前記第１及び第２のマイクまでの伝達関数のゲイン又は位相の差が、前記スペクトルｖ _A1 とｖ _A2 の差、若しくは前記スペクトルｖ _B1 とｖ _B2 の差に等しいことを利用して、前記２つの音源を前記第１及び第２のマイクで受信した信号がそれぞれどの前記スペクトルｖ _A1 、ｖ _A2 、ｖ _B1 、ｖ _B2 に相当するかを判定して前記復元スペクトルを抽出するよう設定されている。
【００１９】
ＦａｓｔＩＣＡ法は、混合信号から非ガウス性の高い順に音源を分離するという特徴を有している。また、一般に、話者音声は雑音より非ガウス性が高いという特徴を有している。これらのことから、音源が目的音声、すなわち話者音声と雑音である場合、話者音声に対応する分割スペクトルは、分離信号Ｕ_A に出力される頻度が高くなる。
ここで、第１及び第２のマイクと各音源との距離に基づく音の伝達特性、例えば、音の強弱を考慮すると、周波数毎に得られた各スペクトルｖ_A1、ｖ_A2、ｖ_B1、ｖ_B2間に、スペクトル強度の差が生じる。従って、第１及び第２のマイクと各音源との距離に明確な差を予め設けておくと、各音源がどのマイクで受信されたか、すなわち、２つの音源の信号がそれぞれどのスペクトルｖ_A1、ｖ_A2、ｖ_B1、ｖ_B2に相当するかを判定することができる。このため、周波数毎に得られたスペクトルｖ_A1、ｖ_A2、ｖ_B1、ｖ_B2の中から目的音声に相当するスペクトルを復元スペクトルとして抽出してすることができ、目的音声の復元スペクトル群を生成することができる。
そして、この復元スペクトル群を周波数領域から時間領域にフーリエ逆変換することにより目的音声を復元することができる。その結果、復元された目的音声では、振幅の曖昧さの発生や成分置換の発生を防止することができる。
【００２０】
第２の発明に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法において、前記２つの音源の中で一方の音源は前記第２のマイクよりも前記第１のマイクに接近し、前記２つの音源の中で他方の音源は前記第１のマイクよりも前記第２のマイクに接近して存在する場合、前記判定基準は、前記フーリエ変換した際の各規格化周波数毎に、前記スペクトルｖ_A1と前記スペクトルｖ_A2との差Ｄ_A 、及び前記スペクトルｖ_B1と前記スペクトルｖ_B2との差Ｄ_B をそれぞれ演算し、
（１）前記差Ｄ_A が正かつ前記差Ｄ_B が負のとき前記一方の音源の推定スペクトルｙ₁ として前記スペクトルｖ_A1を抽出し、
（２）前記差Ｄ_A が負かつ前記差Ｄ_B が正のとき前記一方の音源の推定スペクトルｙ₁ として前記スペクトルｖ_B1を抽出して、抽出した該各推定スペクトルｙ₁ を成分とする前記一方の音源の推定スペクトル群Ｙ₁ を形成し、
（３）前記差Ｄ_A が負かつ前記差Ｄ_B が正のとき前記他方の音源の推定スペクトルｙ₂ として前記スペクトルｖ_A2を抽出し、
（４）前記差Ｄ_A が正かつ前記差Ｄ_B が負のとき前記他方の音源の推定スペクトルｙ₂ として前記スペクトルｖ_B2を抽出して、抽出した該各推定スペクトルｙ₂ を成分とする前記他方の音源の推定スペクトル群Ｙ₂ を形成すると共に、
前記差Ｄ_A が正かつ前記差Ｄ_B が負である場合の個数Ｎ⁺ 、及び前記差Ｄ_A が負かつ前記差Ｄ_B が正である場合の個数Ｎ^- をそれぞれ求めて、
（ａ）前記個数Ｎ⁺ が前記個数Ｎ^- より大きい場合、前記復元スペクトル群として前記推定スペクトル群Ｙ₁ を抽出し、
（ｂ）前記個数Ｎ^- が前記個数Ｎ⁺ より大きい場合、前記復元スペクトル群として前記推定スペクトル群Ｙ₂ を抽出するように設定されていることが好ましい。
【００２１】
分割スペクトルは１つの音源に対して２つの候補となる推定値を有する。例えば、一方の音源に対して、成分置換がない場合はｖ_A1とｖ_A2が存在し、成分置換がある場合はｖ_B1とｖ_B2が存在する。ここで、成分置換がない場合は、一方の音源の推定スペクトルｙ₁ としてスペクトルｖ_A1を採用する。これは、一方の音源は第１のマイクに近接し、他方の音源は第２のマイクに近接しているので、スペクトルｖ_A1はスペクトルｖ_A2より大きく、周囲の暗騒音の影響を受けにくいからである。また、成分置換がある場合は、一方の音源の推定スペクトルｙ₁ としてスペクトルｖ_B1をそれぞれ採用することができる。
同様に、他方の音源の推定スペクトルｙ₂ は、成分置換がない場合はスペクトルｖ_B2を採用し、成分置換がある場合はスペクトルｖ_A2を採用する。
また、話者音声は、分離信号Ｕ_A に出力される頻度が高いので、一方の音源が話者音声の音源であれば成分置換が発生しない頻度は高くなり、逆に他方の音源が話者音声の音源であれば成分置換が発生する頻度が高くなる。
従って、各推定スペクトル群Ｙ₁ 、Ｙ₂ を生成する際に、成分置換の有無の頻度、すなわち個数Ｎ⁺ 、Ｎ^- を求め、（ａ）個数Ｎ⁺ が個数Ｎ^- より大きい場合、復元スペクトル群として推定スペクトル群Ｙ₁ を抽出し、（ｂ）個数Ｎ^- が個数Ｎ⁺ より大きい場合、復元スペクトル群として推定スペクトル群Ｙ₂ を抽出すると、復元スペクトル群から話者音声（目的音声）を復元することができる。
【００２２】
第２の発明に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法において、前記差Ｄ_A を前記スペクトルｖ_A1と前記スペクトルｖ_A2との各絶対値の差として、前記差Ｄ_B を前記スペクトルｖ_B1と前記スペクトルｖ_B2との各絶対値の差としてそれぞれ求めることが好ましい。
周波数領域における各成分毎に差Ｄ_A 、差Ｄ_B を求めることにより、各成分毎に成分置換の発生を厳密に判定することができる。その結果、各推定スペクトル群Ｙ₁ 、Ｙ₂ を生成する際に、成分置換の有無の頻度を厳密に算出することができる。
【００２３】
第２の発明に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法において、前記差Ｄ_A を時間系列に対してそれぞれ演算した前記スペクトルｖ_A1の強度の２乗和の平均値Ｐ_A1と前記スペクトルｖ_A2の強度の２乗和の平均値Ｐ_A2との差として求め、前記差Ｄ_B を時間系列に対してそれぞれ演算した前記スペクトルｖ_B1の強度の２乗和の平均値Ｐ_B1と前記スペクトルｖ_B2の強度の２乗和の平均値Ｐ_B2との差として求めることが好ましい。
目的音声信号成分、雑音信号成分の各強度として、時間系列に対して各信号成分の振幅の２乗和の平均値を採用することにより、成分置換の判定処理結果が正しいか否かの目視による照合作業が簡単になる。その結果、各推定スペクトル群Ｙ₁ 、Ｙ₂ を生成する際に、成分置換の有無の頻度の大小を容易に求めることができる。
【００２４】
第２の発明に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法において、前記２つの音源の中で一方の音源は前記第２のマイクよりも前記第１のマイクに接近し、前記２つの音源の中で他方の音源は前記第１のマイクよりも前記第２のマイクに接近して存在する場合、前記判定基準は、前記スペクトルｖ_A1の強度の２乗和の平均値Ｐ_A1、前記スペクトルｖ_A2の強度の２乗和の平均値Ｐ_A2、前記スペクトルｖ_B1の強度の２乗和の平均値Ｐ_B1、及び前記スペクトルｖ_B2の強度の２乗和の平均値Ｐ_B2を時間系列に対してそれぞれ求め、前記平均値Ｐ_A1と前記平均値Ｐ_A2との差Ｄ_A 、及び前記平均値Ｐ_B1と前記平均値Ｐ_B2との差Ｄ_B をそれぞれ求めて、Ｐ_A1＋Ｐ_A2＞Ｐ_B1＋Ｐ_B2で、かつ
（１）前記差Ｄ_A が正のとき前記一方の音源の推定スペクトルｙ₁ として前記スペクトルｖ_A1を抽出し、
（２）前記差Ｄ_A が負のとき前記一方の音源の推定スペクトルｙ₁ として前記スペクトルｖ_B1を抽出して、該各推定スペクトルｙ₁ を成分とする前記一方の音源の推定スペクトル群Ｙ₁ を形成し、
（３）前記差Ｄ_A が負のとき前記他方の音源の推定スペクトルｙ₂ として前記スペクトルｖ_A2を抽出し、
（４）前記差Ｄ_A が正のとき前記他方の音源の推定スペクトルｙ₂ として前記スペクトルｖ_B2を抽出して、該各推定スペクトルｙ₂ から構成される前記他方の音源の推定スペクトル群Ｙ₂ を形成し、
Ｐ_A1＋Ｐ_A2＜Ｐ_B1＋Ｐ_B2で、かつ
（５）前記差Ｄ_B が負のとき前記一方の音源の推定スペクトルｙ₁ として前記スペクトルｖ_A1を抽出し、
（６）前記差Ｄ_B が正のとき前記一方の音源の推定スペクトルｙ₁ として前記スペクトルｖ_B1を抽出して、該各推定スペクトルｙ₁ を成分とする前記一方の音源の推定スペクトル群Ｙ₁ を形成し、
（７）前記差Ｄ_B が正のとき前記他方の音源の推定スペクトルｙ₂ として前記スペクトルｖ_A2を抽出し、
（８）前記差Ｄ_B が負のとき前記他方の音源の推定スペクトルｙ₂ として前記スペクトルｖ_B2を抽出して、該各推定スペクトルｙ₂ から構成される前記他方の音源の推定スペクトル群Ｙ₂ を形成すると共に、前記差Ｄ_A が正かつ前記差Ｄ_B が負である場合の個数Ｎ⁺ 、及び前記差Ｄ_A が負かつ前記差Ｄ_B が正である場合の個数Ｎ^- をそれぞれ求めて、
（ａ）前記個数Ｎ⁺ が前記個数Ｎ^- より大きい場合、前記復元スペクトル群として前記推定スペクトル群Ｙ₁ を抽出し、
（ｂ）前記個数Ｎ^- が前記個数Ｎ⁺ より大きい場合、前記復元スペクトル群として前記推定スペクトル群Ｙ₂ を抽出するように設定されていることが好ましい。
【００２５】
混合信号を時間領域から周波数領域にフーリエ変換した際に、特定の周波数帯域でスペクトル強度が小さくなっている場合、周囲の暗騒音による成分が重畳して、スペクトル強度の大小関係が逆転することが考えられる。従って、各分割スペクトルｖ_A1、ｖ_A2、ｖ_B1、ｖ_B2から各推定スペクトルｙ₁ 、ｙ₂ を抽出する際の判定基準として、スペクトル強度を採用している場合、スペクトル強度に逆転が発生すると、成分置換の問題が生じる。
このため、Ｐ_A1＋Ｐ_A2とＰ_B1＋Ｐ_B2との大小関係を考慮することにより、分離信号全体としての強度比較を行なって、分離信号Ｕ_A から生成される分割スペクトルｖ_A1、ｖ_A2の中でいずれが推定スペクトルｙ₁ となる信号であるのか、また、分離信号Ｕ_B から生成される分割スペクトルｖ_B1、ｖ_B2の中でいずれが推定スペクトルｙ₂ となる信号であるのかの判定を行なうことができる。
【００２６】
ここで、一方の音源が第２のマイクよりも第１のマイクに接近して存在する場合、Ｐ_A1＋Ｐ_A2＞Ｐ_B1＋Ｐ_B2であれば、差Ｄ_A が正のとき成分置換は生じていないと判断して、推定スペクトルｙ₁ としてスペクトルｖ_A1を抽出し、推定スペクトルｙ₂ としてスペクトルｖ_B2を抽出する。差Ｄ_A が負のとき、成分置換が生じていると判断して、推定スペクトルｙ₁ としてスペクトルｖ_B1を抽出し、推定スペクトルｙ₂ としてスペクトルｖ_A2を抽出する。
一方、Ｐ_A1＋Ｐ_A2＜Ｐ_B1＋Ｐ_B2であれば、差Ｄ_B が負のとき成分置換が生じていると判断して、推定スペクトルｙ₁ としてスペクトルｖ_A1を抽出し、推定スペクトルｙ₂ としてスペクトルｖ_B2を抽出する。差Ｄ_B が正のとき、成分置換が生じていると判断して、推定スペクトルｙ₁ としてスペクトルｖ_B1を抽出し、推定スペクトルｙ₂ としてスペクトルｖ_A2を抽出する。
そして、抽出した各推定スペクトルｙ₁ 、ｙ₂ から、それぞれ一方の音源の推定スペクトル群Ｙ₁ 、及び他方の音源の推定スペクトル群Ｙ₂ をそれぞれ構成する。
【００２７】
また、話者音声は、分離信号Ｕ_A に出力される頻度が高いので、一方の音源が目的音声、すなわち話者音声の音源であれば成分置換が発生しない頻度は高くなり、逆に他方の音源が目的音声、すなわち話者音声の音源であれば成分置換が発生する頻度が高くなる。従って、各推定スペクトル群Ｙ₁ 、Ｙ₂ を生成する際に、成分置換の有無の頻度、すなわち個数Ｎ⁺ 、Ｎ^- を求め、（ａ）個数Ｎ⁺ が個数Ｎ^- より大きい場合、復元スペクトル群として推定スペクトル群Ｙ₁ を抽出し、（ｂ）個数Ｎ^- が個数Ｎ⁺ より大きい場合、復元スペクトル群として推定スペクトル群Ｙ₂ を抽出すると、復元スペクトル群から目的音声（話者音声）を復元することができる。
【００２８】
【発明の実施の形態】
続いて、添付した図面を参照しつつ、本発明を具体化した実施の形態につき説明し、本発明の理解に供する。
ここに、図１は本発明の第１の実施の形態に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法を適用した目的音声の復元装置の構成図、図２は同復元方法における目的音声及び雑音から復元スペクトルが形成されるまでの信号の流れを示す説明図、図３は本発明の第２の実施の形態に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法を適用した目的音声の復元装置の構成図、図４は同復元方法における目的音声及び雑音から復元スペクトルが形成されるまでの信号の流れを示す説明図、図５は実施例１〜５における目的音声の復元方法の手順の概要を示す説明図、図６〜図８は実施例１〜５における目的音声の復元方法の各部分手順を示す説明図、図９は実施例１〜３における第１のマイク、第２のマイク、目的音声音源、及び雑音源の位置関係を示す説明図、図１０（Ａ）は実施例２における第１のマイクで受信された混合信号、（Ｂ）は実施例２における第２のマイクで受信された混合信号、（Ｃ）は実施例２で復元した目的音声の信号波形、（Ｄ）は実施例２で復元した雑音の信号波形、（Ｅ）は従来の復元方法を適用して復元した目的音声の信号波形、（Ｆ）は従来の復元方法を適用して復元した雑音の信号波形を示す説明図、図１１（Ａ）は実施例３における第１のマイクで受信された混合信号、（Ｂ）は実施例３における第２のマイクで受信された混合信号、（Ｃ）は実施例３で復元した目的音声の信号波形、（Ｄ）は実施例３で復元した雑音の信号波形、（Ｅ）は従来の復元方法を適用して復元した目的音声の信号波形、（Ｆ）は従来の復元方法を適用して復元した雑音の信号波形を示す説明図、図１２は実施例４、５における第１のマイク、第２のマイク、及び各音源の位置関係を示す説明図、図１３（Ａ）は実施例５における第１のマイクで受信された混合信号、（Ｂ）は実施例５における第２のマイクで受信された混合信号、（Ｃ）、（Ｄ）は実施例５で復元した各音源の信号波形、（Ｅ）、（Ｆ）は従来の復元方法を適用して復元した各音源の信号波形を示す説明図である。
【００２９】
図１に示すように、本発明の第１の実施の形態に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法を適用した目的音声の復元装置１０は、目的音声音源１１、雑音源１２からそれぞれ発信される目的音声、雑音を受信するために異なる位置に設けられた第１及び第２のマイク１３、１４と、各マイク１３、１４で受信されて得られた混合信号をそれぞれ増幅する第１及び第２の増幅器１５、１６と、各増幅器１５、１６から入力される混合信号から目的音声及び雑音を分離して復元信号として出力する復元装置本体１７と、出力された復元信号を増幅する復元信号増幅器１８と、増幅された復元信号を出力するスピーカ１９を有している。以下、これらについて詳細に説明する。
【００３０】
第１及び第２のマイク１３、１４としては、例えば、可聴音域（１０〜２００００Ｈｚ）の信号を集音するのに十分な周波数特性を有するマイクを使用することができる。ここで、第１のマイク１３は、目的音声音源１１に対して、第２のマイク１４よりも接近して配置されている。
第１及び第２の増幅器１５、１６としては、可聴音域の信号を歪みなく増幅可能な周波数帯域の特性を備えた増幅器を使用できる。
【００３１】
復元装置本体１７は、各増幅器１５、１６から入力される混合信号をデジタル化するためのＡ／Ｄ変換器２０、２１を有している。
また、復元装置本体１７は、デジタル化された各混合信号を時間領域から周波数領域にフーリエ変換し、独立成分解析法により２つの分離信号Ｕ_A 、Ｕ_B に分離する分離信号作成演算回路と、目的音声音源１１及び雑音源１２から第１及び第２のマイク１３、１４までの各伝達経路特性に基づいて、分離信号Ｕ_A から第１のマイク１３で受信された際の信号のスペクトルｖ_A1及び第２のマイク１４で受信された際の信号のスペクトルｖ_A2で構成される分割スペクトルを生成し、分離信号Ｕ_B から第１のマイク１３で受信された際の信号のスペクトルｖ_B1及び第２のマイク１４で受信された際の信号のスペクトルｖ_B2で構成される分割スペクトルを生成する分割スペクトル生成演算回路を備えた分割スペクトル生成器２２を有している。
【００３２】
更に、復元装置本体１７は、分割スペクトル生成器２２で生成させた各分割スペクトルに対して、第１及び第２のマイク１３、１４と目的音声音源１１及び雑音源１２との間の距離に基づく音の伝達特性を用いた判定基準を適用して、各分割スペクトルを目的音声及び雑音にそれぞれ対応させ、目的音声を復元するための復元スペクトルを抽出して出力する復元スペクトル抽出回路２３と、出力された復元スペクトルを周波数領域から時間領域にフーリエ逆変換して復元信号を生成させる復元信号生成回路２４を有している。
【００３３】
そして、分離信号作成演算回路及び分割スペクトル生成演算回路を備えた分割スペクトル生成器２２と、復元スペクトル抽出回路２３と、復元信号生成回路２４は、各回路の機能を発現する各プログラムを、例えば、パーソナルコンピュータに搭載させることにより構成することができる。また、各プログラムをマイクロコンピュータに搭載させ、これらのマイクロコンピュータが連携動作可能なように回路を形成することにより構成することもできる。
特に、パーソナルコンピュータに各プログラムを搭載させた場合は、このパーソナルコンピュータにＡ／Ｄ変換器２０、２１を取付けることにより、復元装置本体１７を一括して構成することができる。
また、復元信号増幅器１８は、復元信号をアナログ変換して可聴音域を歪みなく増幅することが可能な特性を備えた増幅器を使用することができ、スピーカ１９も可聴音域の信号を歪みなく出力可能な特性を備えたスピーカを使用できる。
【００３４】
次に、本発明の第１の実施の形態に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法は、図１に示すように、目的音声音源１１並びに雑音源１２からそれぞれ発信される目的音声信号ｓ₁ （ｔ）及び雑音信号ｓ₂ （ｔ）を、異なる位置に設けた第１及び第２のマイク１３、１４でそれぞれ受信して混合信号ｘ₁ （ｔ）、ｘ₂ （ｔ）を形成する第１工程と、各混合信号ｘ₁ （ｔ）、ｘ₂ （ｔ）を時間領域から周波数領域にフーリエ変換し、独立成分解析法により２つの分離信号Ｕ_A 、Ｕ_B に分解して、目的音声音源１１及び雑音源１２から第１及び第２のマイク１３、１４までの各伝達経路特性に基づいて、分離信号Ｕ_A から第１のマイク１３で受信されたスペクトルｖ_A1及び第２のマイク１４で受信されたスペクトルｖ_A2で構成される分割スペクトルを、分離信号Ｕ_B から第１のマイク１３で受信されたスペクトルｖ_B1及び第２のマイク１４で受信されたスペクトルｖ_B2で構成される分割スペクトルをそれぞれ生成する第２工程と、各分割スペクトルに対して、第１及び第２のマイク１３、１４と目的音声音源１１との距離に基づく音の伝達特性を用いた判定基準を適用して復元スペクトルｙを抽出し、復元スペクトルｙを周波数領域から時間領域にフーリエ逆変換して目的音声を復元する第３工程とを有する。なお、ｔは時間を示す。以下、これらの各工程について詳細に説明する。
【００３５】
（第１工程）
目的音声音源１１から発信される目的音声信号ｓ₁ （ｔ）と、雑音源１２から発信される雑音信号ｓ₂ （ｔ）は、一般に統計的に独立と考えることができる。そして、目的音声信号ｓ₁ （ｔ）と雑音信号ｓ₂ （ｔ）を、異なる位置に設置した第１及び第２のマイク１３、１４で受信して得られる各混合信号ｘ₁ （ｔ）、ｘ₂ （ｔ）は、式（１）のように表記できる。
ここで、ｓ（ｔ）＝［ｓ₁ （ｔ），ｓ₂ （ｔ）］^T 、ｘ（ｔ）＝［ｘ₁ （ｔ），ｘ₂ （ｔ）］^T 、＊は畳み込み記号、Ｇ（ｔ）は各音源１１、１２から各マイク１３、１４までのそれぞれの伝達関数である。
【００３６】
【数１】

【００３７】
（第２工程）
（１）式のように、各音源１１、１２からの信号が畳み込まれて観測される場合、各混合信号ｘ₁ （ｔ）、ｘ₂ （ｔ）から、目的音声信号ｓ₁ （ｔ）と雑音信号ｓ₂ （ｔ）を、時間領域で分離することは困難となる。そのため、混合信号ｘ₁ （ｔ）、ｘ₂ （ｔ）を式（２）のように短時間間隔（フレーム）、例えば数１０ｍｓｅｃ程度の時間間隔で分割し、各フレーム毎に時間領域から周波数領域にフーリエ変換して扱う。また、得られた各周波数におけるスペクトルをフレーム順に並べることにより、スペクトルを時系列として扱うことができる。
【００３８】
【数２】

【００３９】
ここに、ω（＝０，２π／Μ，・・・，２π（Μ−１）／Μ）は規格化周波数、Μはフレーム内のサンプル数、ｗ（ｔ）は窓関数、τはフレーム周期、Κはフレーム数を表す。
このとき混合信号スペクトルｘ（ω，ｋ）と、目的音声信号ｓ₁ （ｔ）及び雑音信号ｓ₂ （ｔ）の各スペクトルは、周波数領域で式（３）のように関係づけられる。ここに、ｓ（ω，ｋ）はｓ（ｔ）を窓掛けして離散フーリエ変換したもので、Ｇ（ω）はＧ（ｔ）を離散してフーリエ変換して得られる複素定数行列である。
【００４０】
ここで、目的音声信号スペクトルｓ₁ （ω，ｋ）及び雑音信号スペクトルｓ₂ （ω，ｋ）は本来独立であるので、独立成分解析法を用いて、混合信号スペクトルｘ（ω，ｋ）から、互いに独立となる分離信号スペクトルＵ_A （ω，ｋ）、Ｕ_B （ω，ｋ）を求めると、これらのスペクトルが目的音声信号スペクトルｓ₁ （ω，ｋ）及び雑音信号スペクトルｓ₂ （ω，ｋ）に相当することになる。
すなわち、混合信号スペクトルｘ（ω，ｋ）と分離信号スペクトルＵ_A （ω，ｋ）、Ｕ_B （ω，ｋ）の間に、式（４）の関係が成立するような分離行列Ｈ（ω）を求めることにより、混合信号スペクトルｘ（ω，ｋ）から、互いに独立となる分離信号スペクトルＵ_A （ω，ｋ）、Ｕ_B （ω，ｋ）を決定することができる。ここで、ｕ（ω，ｋ）＝［Ｕ_A （ω，ｋ），Ｕ_B （ω，ｋ）］^T である。
【００４１】
【数３】

【００４２】
【数４】

【００４３】
なお、周波数領域では、個々の周波数ωで、式（５）のように振幅の曖昧さや成分置換の問題が生じる。そのため、復元するのに意味ある分離信号を得るには、これらの問題を解決する必要がある。
ここにＱ（ω）は白色化行列、Ｐは対角要素が０で非対角要素が１の成分置換を表す行列、Ｄ（ω）＝ｄｉａｇ［ｄ₁ （ω），ｄ₂ （ω）］は振幅の曖昧さを表す対角行列である。
【００４４】
【数５】

【００４５】
次に、周波数領域で、各音源信号スペクトルｓ_i （ω，ｋ）（ｉ＝１，２）を、その実部と虚部は平均がゼロで等しい分散をもち、実部と虚部は無相関という仮定の下で次のように定式化する。すなわち、周波数ωにおいて、分離荷重ｈ_n （ω）（ｎ＝１，２）を式（６）、式（７）に示す独立成分解析法のアルゴリズムの一例であるＦａｓｔＩＣＡアルゴリズムに従って更新する。
ここに、ｆ（・）は非線型関数で、ｆ′（・）はｆ（・）の微分、￣は共役、Κはフレームのサンプル数である。
【００４６】
【数６】

【００４７】
【数７】

【００４８】
このアルゴリズムは、式（８）に示す収束条件ＣＣがほぼ１（例えば、ＣＣが０．９９９９以上）を満たすまで、繰り返される。さらに、ｈ₂ （ω）については、式（９）のように、ｈ₁ （ω）と直交化させて再び（７）式により規格化する。
【００４９】
【数８】

【００５０】
【数９】

【００５１】
上述のＦａｓｔＩＣＡアルゴリズムを各周波数ωについて適用し、得られる分離荷重ｈ_n （ω）（ｎ＝１，２）を式（４）のＨ（ω）に対して、式（１０）として代入すれば、各周波数での分離信号スペクトルｕ（ω，ｋ）＝［Ｕ_A （ω，ｋ），Ｕ_B （ω，ｋ）］^T が求まる。
【００５２】
【数１０】

【００５３】
図２に示すように、分離信号スペクトルＵ_A （ω，ｋ）、Ｕ_B （ω，ｋ）が出力される２つのノードをＡ、Ｂと表記する。
このとき、分割スペクトルｖ_A （ω，ｋ）＝［ｖ_A1（ω，ｋ），ｖ_A2（ω，ｋ）］^T 、ｖ_B （ω，ｋ）＝［ｖ_B1（ω，ｋ），ｖ_B2（ω，ｋ）］^T は、分離信号スペクトルＵ_n （ω，ｋ）から、式（１１）、（１２）に示すように、各ノードｎ（＝Ａ，Ｂ）で対になって生成されるスペクトルとして定義する。
【００５４】
【数１１】

【００５５】
【数１２】

【００５６】
ここで、成分置換は生じていないが、振幅の曖昧さが存在する場合、分離信号スペクトルＵ_n （ω，ｋ）は、式（１３）として出力される。そして、この分離信号Ｕ_n （ω，ｋ）に対する分割スペクトルは、目的音声スペクトルｓ₁ （ω，ｋ）及び雑音スペクトルｓ₂ （ω，ｋ）と伝達関数との積として、式（１４）、式（１５）のように生成される。
なお、ｇ₁₁（ω）は目的音声音源１１から第１のマイク１３までの伝達関数、ｇ₂₁（ω）は目的音声音源１１から第２のマイク１４までの伝達関数、ｇ₁₂（ω）は雑音源１２から第１のマイク１３までの伝達関数、ｇ₂₂（ω）は雑音源１２から第２のマイク１４までの伝達関数を示す。
【００５７】
【数１３】

【００５８】
【数１４】

【００５９】
【数１５】

【００６０】
また、成分置換と振幅の曖昧さの両方がある場合、分離信号スペクトルＵ_n （ω，ｋ）は、式（１６）となって、ノードＡ、Ｂでの分割スペクトルは、式（１７）、式（１８）のように生成される。
なお、ノードＡで生成するスペクトルｖ_A1（ω，ｋ）は、雑音源１２から発信された雑音スペクトルｓ₂ （ω，ｋ）を第１のマイク１３で観測したときのスペクトル、ノードＡで生成するスペクトルｖ_A2（ω，ｋ）は、雑音源１２から発信された雑音スペクトルｓ₂ （ω，ｋ）を第２のマイク１４で観測したときのスペクトルを示す。また、ノードＢで生成するスペクトルｖ_B1（ω，ｋ）は、目的音声音源１１から発信された目的音声スペクトルｓ₁ （ω，ｋ）を第１のマイク１３で観測したときのスペクトル、ノードＢで生成するスペクトルｖ_B2（ω，ｋ）は、目的音声音源１１から発信された目的音声スペクトルｓ₁ （ω，ｋ）を第２のマイク１４で観測したときのスペクトルを示す。
【００６１】
【数１６】

【００６２】
【数１７】

【００６３】
【数１８】

【００６４】
（第３工程）
図２に示す４つのスペクトルｖ_A1（ω，ｋ），ｖ_A2（ω，ｋ），ｖ_B1（ω，ｋ），ｖ_B2（ω，ｋ）は、成分置換の有無に依存して対応する音源と伝達経路は異なるが、それぞれどれか１つの音源とどれか１つの伝達経路の排他的な組み合わせで一意に決まることが判る。更に、分離信号スペクトルＵ_n （ω，ｋ）には、式（１３）、（１６）のように振幅の曖昧さが残るが、分割スペクトルには、式（１４）、（１５）及び式（１７）、（１８）に示すように、もはや振幅の曖昧さの問題は生じていない。
ここで、目的音声音源１１は第２のマイク１４に比べて第１のマイク１３に近く、雑音源１２は第１のマイク１３に比べて第２のマイク１４に近いと仮定する。このとき、目的音声音源１１から各マイク１３、１４への信号の伝達特性を比較すると、式（１９）なるゲインの大小関係が得られる。同様に、雑音源１２から各マイク１３、１４への伝達特性についても、式（２０）なるゲインの大小関係が得られる。
【００６５】
【数１９】

【００６６】
【数２０】

【００６７】
このとき、式（１９）、（２０）のゲインの大小関係を念頭に、式（１４）、（１５）、もしくは式（１７）、（１８）を用いて、スペクトルｖ_A1とスペクトルｖ_A2との差Ｄ_A 、及びスペクトルｖ_B1とスペクトルｖ_B2との差Ｄ_B を求めると、成分置換がない場合、ノードＡでの差Ｄ_A は正、またノードＢで差Ｄ_B は負となることが導かれる。
一方、成分置換がある場合、同様にしてスペクトルｖ_A1とスペクトルｖ_A2との差Ｄ_A 、及びスペクトルｖ_B1とスペクトルｖ_B2との差Ｄ_B を考えると、ノードＡでの差Ｄ_A は負、またノードＢでの差Ｄ_B は正となることが導かれる。
従って、成分置換の有無については、分割スペクトルの差をそれぞれ調べて、ノードＡでの差Ｄ_A が正かつノードＢでの差Ｄ_B が負のとき、成分置換はないと判定し、ノードＡでの差Ｄ_A が負かつノードＢでの差Ｄ_B が正のとき、成分置換はあると判定する。
【００６８】
ここで、差Ｄ_A をスペクトルｖ_A1とスペクトルｖ_A2との各絶対値の差として、差Ｄ_B をスペクトルｖ_B1とスペクトルｖ_B2との各絶対値の差としてそれぞれ求めた場合、差Ｄ_A 、差Ｄ_B はそれぞれ、式（２１）、式（２２）のように表される。そして、成分置換の有無と分割スペクトルの差の関係としてまとめると、表１のようになる。
【００６９】
【数２１】

【００７０】
【数２２】

【００７１】
【表１】

【００７２】
分割スペクトルは目的音声音源１１に対して２つ得られるが、目的音声音源１１との距離の近い第１のマイク１３に入った信号に対する分割スペクトルを目的音声音源の復元スペクトルｙ（ω，ｋ）として採択する。これは、目的音声は第２のマイク１４より第１のマイク１３に大きな信号として入るため、暗騒音が２つのマイク１３、１４に同程度の大きさで混入したとしても、その影響は第２のマイク１４に比べて第１のマイク１３の方が少ないと考えられるからである。
そして、この採択方針に従う場合、式（２３）に示すように、目的音声音源に対する復元スペクトルｙ（ω，ｋ）として、ノードＡでの差Ｄ_A が正かつノードＢでの差Ｄ_B が負のとき、成分置換はないと判定し、復元スペクトルｙ（ω，ｋ）としてスペクトルｖ_A1を抽出し、ノードＡでの差Ｄ_A が負かつノードＢでの差Ｄ_B が正のとき、成分置換はあると判定して復元スペクトルｙ（ω，ｋ）としてスペクトルｖ_B1を抽出するという判定基準が求まる。
更に、各周波数毎の復元スペクトルの系列｛ｙ（ω，ｋ）｜ｋ＝０，１，・・・，Ｋ−１｝について、フレーム毎に逆離散フーリエ変換（フーリエ逆変換）して時間領域に戻して、それをすべてのフレームにわたって式（２４）のように総和を取れば、目的音声音源の復元信号ｙ（ｔ）が得られる。
【００７３】
【数２３】

【００７４】
【数２４】

【００７５】
第１の実施の形態に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法の第１の変形例として、ノードＡでの差Ｄ_A を時間系列に対してそれぞれ演算したスペクトルｖ_A1の強度の２乗和の平均値Ｐ_A1とスペクトルｖ_A2の強度の２乗和の平均値Ｐ_A2との差として求め、ノードＢでの差Ｄ_B を時間系列に対してそれぞれ演算したスペクトルｖ_B1の強度の２乗和の平均値Ｐ_B1とスペクトルｖ_B2の強度の２乗和の平均値Ｐ_B2との差として求める。
ここで、スペクトルｖ_A1の強度の２乗和の平均値Ｐ_A1、スペクトルｖ_A2の強度の２乗和の平均値Ｐ_A2は、式（２５）で求められる。従って、目的音声音源に対する復元スペクトルｙ（ω，ｋ）は、式（２６）のように求められる。
【００７６】
【数２５】

【００７７】
【数２６】

【００７８】
第１の実施の形態に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法の第２の変形例として、判定基準を以下のように求めることができる。
すなわち、目的音声音源１１が第１のマイク１３に第２のマイク１４よりも接近して、雑音源１２が第１のマイク１３よりも第２のマイク１４に接近して存在する場合、スペクトルｖ_A1の強度の２乗和の平均値Ｐ_A1、スペクトルｖ_A2の強度の２乗和の平均値Ｐ_A2、スペクトルｖ_B1の強度の２乗和の平均値Ｐ_B1、及びスペクトルｖ_B2の強度の２乗和の平均値Ｐ_B2を時間系列に対してそれぞれ求め、スペクトルｖ_A1の強度の２乗和の平均値Ｐ_A1とスペクトルｖ_A2の強度の２乗和の平均値Ｐ_A2との差Ｄ_A 、及びスペクトルｖ_B1の強度の２乗和の平均値Ｐ_B1とスペクトルｖ_B2の強度の２乗和の平均値Ｐ_B2との差Ｄ_B をそれぞれ求めて、Ｐ_A1＋Ｐ_A2＞Ｐ_B1＋Ｐ_B2の場合は式（２７）に示すように、差Ｄ_A が正のとき復元スペクトルｙ（ω，ｋ）としてスペクトルｖ_A1を抽出し、差Ｄ_A が負のとき復元スペクトルｙ（ω，ｋ）としてスペクトルｖ_B1を抽出するように判定基準が設定されている。また、Ｐ_A1＋Ｐ_A2＜Ｐ_B1＋Ｐ_B2の場合は式（２８）に示すように、差Ｄ_B が負のとき復元スペクトルｙ（ω，ｋ）としてスペクトルｖ_A1を抽出し、差Ｄ_B が正のとき復元スペクトルとしてスペクトルｖ_B1を抽出するように判定基準が設定されている。
【００７９】
【数２７】

【００８０】
【数２８】

【００８１】
このように、Ｐ_A1＋Ｐ_A2とＰ_B1＋Ｐ_B2との大小関係を考慮することにより、分離信号全体としての強度比較を行なって、分離信号Ｕ_A から生成される分割スペクトルｖ_A1、ｖ_A2と、分離信号Ｕ_B から生成される分割スペクトルｖ_B1、ｖ_B2で、いずれが復元対象となる信号であるのかの判定を行なうことができる。
その結果、例えば、目的音声スペクトルｓ（ω，ｋ）の高周波領域（例えば、３．１〜３．４ｋＨｚ）のスペクトルが元々少ししか存在しておらず、周囲の暗騒音による成分が重畳して、スペクトルの大小関係が逆転する場合（例えば、差Ｄ_A が正かつ差Ｄ_B が正、あるいは差Ｄ_A が負かつ差Ｄ_B が負の場合）に対しては、各々のノードで２つの分割スペクトルの和を求め、和の大きい方を有意なノードとして、そのノードでの分解スペクトルの差が、正であるか負であるかを調べることにより、成分置換の有無を判定する。
【００８２】
図３に示すように、本発明の第２の実施の形態に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法を適用した目的音声の復元装置２５は、２つの音源２６、２７（一方が目的音声音源で他方が雑音源であるが、特定されていない）からそれぞれ発信される信号を受信する異なる位置に設けた２つのマイク（例えば、第１のマイク１３、第２のマイク１４）で収録して目的音声を出力するものである。
このため、本発明の第１の実施の形態に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法を適用した目的音声の復元装置１０と実質的に同一の構成とすることができるので、同一の構成要素については同一の符号を付して詳細な説明は省略する。
【００８３】
本発明の第２の実施の形態に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法は、図４に示すように、音源２６、２７からそれぞれ発信される信号ｓ₁ （ｔ）及び信号ｓ₂ （ｔ）を、異なる位置に設けた第１及び第２のマイク１３、１４でそれぞれ受信して混合信号ｘ₁ （ｔ）、ｘ₂ （ｔ）を形成する第１工程と、各混合信号ｘ₁ （ｔ）、ｘ₂ （ｔ）を時間領域から周波数領域にフーリエ変換し、ＦａｓｔＩＣＡ法により２つの分離信号Ｕ_A 、Ｕ_B に分解して、各音源２６、２７から第１及び第２のマイク１３、１４までの各伝達経路特性に基づいて、分離信号Ｕ_A から第１のマイク１３で受信されたスペクトルｖ_A1及び第２のマイク１４で受信されたスペクトルｖ_A2で構成される分割スペクトルを、分離信号Ｕ_B から第１のマイク１３で受信されたスペクトルｖ_B1及び第２のマイク１４で受信されたスペクトルｖ_B2で構成される分割スペクトルをそれぞれ生成する第２工程を有している。
また、この目的音声の復元方法は、目的音声及び雑音に対応する各推定スペクトルがそれぞれ分離信号Ｕ_A 及び分離信号Ｕ_B として出力されるというＦａｓｔＩＣＡ法に基づく信号の出力特性と、第１及び第２のマイク１３、１４と各音源２６、２７との距離に基づく音の伝達特性（すなわち、各規格化周波数毎のスペクトルの大小関係）とで構成される判定基準を各分割スペクトルｖ_A1、ｖ_A2、ｖ_B1、ｖ_B2に対して適用して、目的音声及び雑音に対応する各推定スペクトルを抽出して目的音声の復元スペクトル群Ｙ^* を生成し、復元スペクトル群Ｙ^* を周波数領域から時間領域にフーリエ逆変換して目的音声を復元する第３工程を有している。
【００８４】
そして、本発明の第２の実施の形態に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法は、第１の実施の形態の目的音声の復元方法のように目的音声音源１１は第２のマイク１４に比べて第１のマイク１３に近く、雑音源１２は第１のマイク１３に比べて第２のマイク１４に近いという条件を仮定していないことが大きな特徴となっている。
このため、第２の実施の形態に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法は、第１の実施の形態の目的音声の復元方法と比較して、第３工程が異なる。従って、第３工程についてのみ説明する。
【００８５】
分割スペクトルは１つの音源に対して２つの候補となる推定値を有している。例えば、一方の音源からの信号に対して成分置換がない場合にはｖ_A1（ω，ｋ）とｖ_A2（ω，ｋ）があり、成分置換がある場合にはｖ_B1（ω，ｋ）とｖ_B2（ω，ｋ）がある。
ここで、第１及び第２のマイクと各音源との距離に基づく音の伝達特性、例えば、音の強弱を考慮すると、周波数毎に得られた各スペクトルｖ_A1、ｖ_A2、ｖ_B1、ｖ_B2間に、スペクトル強度の差が生じる。従って、第１及び第２のマイク１３、１４と各音源との距離に明確な差を予め設けておくと、各音源がどのマイクで受信されたか、すなわち、２つの音源の信号がそれぞれどのスペクトルｖ_A1、ｖ_A2、ｖ_B1、ｖ_B2に相当するかを判定することができる。
【００８６】
ここで、成分置換がない場合には、一方の音源の信号の推定スペクトルｙ₁ （ω，ｋ）に、ｖ_A1（ω，ｋ）を採用する。これは、ｖ_A1（ω，ｋ）は第１のマイク１３で観測されたスペクトルの推定値であり、第２のマイク１４で観測されたスペクトルの推定値ｖ_A2（ω，ｋ）より大きく、周囲の暗騒音の影響を受けにくいからである。また、成分置換がある場合には、一方の音源の推定スペクトルｙ₁ （ω，ｋ）にｖ_B1（ω，ｋ）を採用する。以上のことから、一方の音源の推定スペクトルｙ₁ （ω，ｋ）は式（２９）として表せる。
同様に、他方の音源の推定スペクトルｙ₂ （ω，ｋ）に、成分置換がない場合にはｖ_B2（ω，ｋ）を採用し、成分置換がある場合にはｖ_A2（ω，ｋ）を採用する。以上のことから、他方の音源の推定スペクトルｙ₂ （ω，ｋ）は式（３０）として表せる。
なお、成分置換の有無は、第１の実施の形態における式（２１）、（２２）を使用した。
【００８７】
【数２９】

【００８８】
【数３０】

【００８９】
いま、騒音環境下で話者が発生した場合を想定する。すなわち、２つの音源の内、いっぽうの音源は話者音声で、他方の音源は騒音であるとする。このとき、２つの音源の内、どちらが話者音声であるかという先験情報はない。つまり、話者音声が第１のマイク１３側、あるいは第２のマイク１４側にあるかは未知である。
ここで、ＦａｓｔＩＣＡ法は、混合信号から非ガウス性の高い順に音源を分離するという特徴を有している。また、一般に、話者音声は雑音より非ガウス性が高いという特徴を有している。これらのことは、音源が話者音声と騒音である場合、話者音声に対応する分割スペクトルは、最初に出力される分離信号Ｕ_A に出力される頻度が高くなる。
従って、一方の音源が話者音声であれば、成分置換のない頻度は高く、逆に、他方の音源が話者音声であれば、成分置換の生じる頻度は高くなる。このことから、フーリエ変換した際の各規格化周波数毎に、成分置換の解決を行った後に、成分置換の頻度を求めれば、抽出した各推定スペクトルｙ₁ 、ｙ₂ から、それぞれ構成された一方の音源の推定スペクトル群Ｙ₁ 、及び他方の音源の推定スペクトル群Ｙ₂ の中で、どちらが復元スペクトル群（話者音声スペクトル群）Ｙ^* であるかが式（３１）で判断できる。
そして、復元スペクトル群Ｙ^* を構成する推定スペクトル群Ｙ_i ＝｛ｙ_i （ω，ｋ）｜ｋ＝０，１，・・・，Ｋ−１｝（ｉ＝１、２）について、フレーム毎にフーリエ逆変換して時間領域に戻して、それをすべてのフレームにわたって式（２４）のように総和を取れば、目的音声の復元信号ｙ（ｔ）が得られる。
そして、この復元スペクトル群Ｙ^* を周波数領域から時間領域にフーリエ逆変換することにより話者音声を復元することができる。その結果、復元された話者音声では、振幅の曖昧さの発生や成分置換の発生を防止することができる。
【００９０】
【数３１】

【００９１】
第２の実施の形態に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法の第１の変形例として、ノードＡでの差Ｄ_A を時間系列に対してそれぞれ演算したスペクトルｖ_A1の強度の２乗和の平均値Ｐ_A1とスペクトルｖ_A2の強度の２乗和の平均値Ｐ_A2との差として求め、ノードＢでの差Ｄ_B を時間系列に対してそれぞれ演算したスペクトルｖ_B1の強度の２乗和の平均値Ｐ_B1とスペクトルｖ_B2の強度の２乗和の平均値Ｐ_B2との差として求める。
ここで、スペクトルｖ_A1の強度の２乗和の平均値Ｐ_A1、スペクトルｖ_A2の強度の２乗和の平均値Ｐ_A2の算出には、第１の実施の形態における式（２５）を使用することができ、従って、一方の音源の推定スペクトルｙ₁ （ω，ｋ）は式（３２）、他方の音源の推定スペクトルｙ₂ （ω，ｋ）は式（３３）として表せる。
従って、式（３２）、（３３）に基づいてフーリエ変換した際の各規格化周波数毎に成分置換の解決を行った後に、成分置換の頻度を求めれば、抽出した各推定スペクトルｙ₁ 、ｙ₂ から、それぞれ構成された一方の音源の推定スペクトル群Ｙ₁ 、及び他方の音源の推定スペクトル群Ｙ₂ の中で、どちらが復元スペクトル群Ｙ^* であるかが式（３１）で判断できる。
【００９２】
【数３２】

【００９３】
【数３３】

【００９４】
第２の実施の形態に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法の第２の変形例として、判定基準を以下のように求めることができる。
すなわち、一方の音源２６が第１のマイク１３に第２のマイク１４よりも接近して、他方の音源２７が第１のマイク１３よりも第２のマイク１４に接近して存在する場合、スペクトルｖ_A1の強度の２乗和の平均値Ｐ_A1、スペクトルｖ_A2の強度の２乗和の平均値Ｐ_A2、スペクトルｖ_B1の強度の２乗和の平均値Ｐ_B1、及びスペクトルｖ_B2の強度の２乗和の平均値Ｐ_B2を時間系列に対してそれぞれ求め、スペクトルｖ_A1の強度の２乗和の平均値Ｐ_A1とスペクトルｖ_A2の強度の２乗和の平均値Ｐ_A2との差Ｄ_A 、及びスペクトルｖ_B1の強度の２乗和の平均値Ｐ_B1とスペクトルｖ_B2の強度の２乗和の平均値Ｐ_B2との差Ｄ_B をそれぞれ求めて、Ｐ_A1＋Ｐ_A2＞Ｐ_B1＋Ｐ_B2の場合は式（３４）に示すように、差Ｄ_A が正のとき一方の音源の推定スペクトルｙ₁ （ω，ｋ）としてスペクトルｖ_A1を抽出し、差Ｄ_A が負のとき一方の音源の推定スペクトルｙ₁ （ω，ｋ）としてスペクトルｖ_B1を抽出する。また、式（３５）に示すように、差Ｄ_A が負のとき他方の音源の推定スペクトルｙ₂ （ω，ｋ）としてスペクトルｖ_A2を抽出し、差Ｄ_A が負のとき他方の音源の推定スペクトルｙ₂ （ω，ｋ）としてスペクトルｖ_B2を抽出するように判定基準が設定されている。
【００９５】
【数３４】

【００９６】
【数３５】

【００９７】
Ｐ_A1＋Ｐ_A2＜Ｐ_B1＋Ｐ_B2の場合は式（３６）に示すように、差Ｄ_B が負のとき一方の音源の推定スペクトルｙ₁ （ω，ｋ）としてスペクトルｖ_A1を抽出し、差Ｄ_A が正のとき一方の音源の推定スペクトルｙ₁ （ω，ｋ）としてスペクトルｖ_B1を抽出する。また、式（３７）に示すように、差Ｄ_B が負のとき他方の音源の推定スペクトルｙ₂ （ω，ｋ）としてスペクトルｖ_A2を抽出し、差Ｄ_A が負のとき他方の音源の推定スペクトルｙ₂ （ω，ｋ）としてスペクトルｖ_B2を抽出するように判定基準が設定されている。
【００９８】
【数３６】

【００９９】
【数３７】

【０１００】
従って、式（３４）〜（３７）に基づいて、フーリエ変換した際の各規格化周波数毎に成分置換の解決を行った後に、成分置換の頻度を求めれば、抽出した各推定スペクトルｙ₁ 、ｙ₂ から、それぞれ構成された一方の音源の推定スペクトル群Ｙ₁ 、及び他方の音源の推定スペクトル群Ｙ₂ の中で、どちらが復元スペクトル群Ｙ^* であるかが式（３１）で判断できる。
【０１０１】
【実施例】
データ収集は、サンプリング周波数８０００Ｈｚ、分解能１６Ｂｉｔ、フレーム長１６ｍｓｅｃ、フレーム周期８ｍｓｅｃで行ない、窓関数にはハミング窓を使用した。また、データ処理は、マイクの周波数特性を考慮して、電話音声の品質に相当する３００〜３４００Ｈｚの周波数範囲とした。更に、分離信号については、非線型関数として式（３８）を用いて、ＦａｓｔＩＣＡアルゴリズムにより、初期荷重を（−１，１）の範囲の乱数、繰り返し回数を最大１０００回、収束判定条件ＣＣ＞０．９９９９９９として推定した。
【０１０２】
【数３８】

【０１０３】
次に、実施例１〜５で示す目的音声の復元方法は、例えば、図５に示すように、混合信号に対して独立成分解析法を適用するための前処理を行う第１の時間領域処理過程と、短時間間隔に分割された混合信号を周波数領域で処理してＦａｓｔＩＣＡ法により復元スペクトルを求める周波数領域処理過程と、得られた復元スペクトルを時間領域に戻して目的音声音源の復元信号を構成して出力する第２の時間領域処理過程から構成されている。
第１の時間領域処理過程では、図６に示すように、先ず、混合信号を読み込み（ステップＳ１）、混合信号を時間領域で短時間間隔（フレーム）に分割する処理条件を入力して（ステップＳ２）、フーリエ変換により混合信号を短時間間隔に分割する（ステップＳ３）。
この一連の処理によって、混合信号は各フレーム毎に時間領域から周波数領域に変換される。
【０１０４】
周波数領域処理過程では、図７に示すように、周波数領域に変換された混合信号を白色化して分離信号を形成し（ステップＳ４）、得られた分離信号に対してＦａｓｔＩＣＡアルゴリズムを適用して分割スペクトルを形成して（ステップＳ５）、得られた分割スペクトルに対して予め設定した判定基準を適用して成分置換を解決し、更に予め設定した周波数制限の下で復元スペクトルを抽出する（ステップＳ６）。
この一連の処理によって、周波数領域において、目的音声音源の復元信号のみを出力することができる。
【０１０５】
第２の時間領域処理過程では、図８に示すように、抽出された各周波数毎の復元スペクトルをフレーム毎にフーリエ逆変換して各フレーム毎に周波数領域から時間領域に変換し（ステップＳ７）、それをすべてのフレームにわたって加えて時系列的な復元信号を形成して（ステップＳ８）、出力する（ステップＳ９）。
この一連の処理により、復元信号は目的音声として認識できるようになる。
【０１０６】
［実施例１］
縦７．３ｍ、横６．５ｍ、高さ２．９ｍで、残響時間が約５００ｍｓｅｃ、暗騒音レベルが４８．０ｄＢである室で、目的音声を復元する実験を行った。
図９に示すように、第１のマイク１３、第２のマイク１４を１０ｃｍの距離に保って配置した。更に、目的音声音源１１は、第１のマイク１３を通り第１、第２のマイク１３、１４を結ぶ直線に対して垂直な直線Ｌに対して１０°外向きの方向に、第１のマイク１３からｒ₁ ｃｍ離れた位置に配置した。また、雑音源１２は、第２のマイク１４を通り第１、第２のマイク１３、１４を結ぶ直線に垂直な直線Ｍに対して１０°外向きの方向に、第２のマイク１４からｒ₂ ｃｍ離れた位置に配置した。使用したマイクは単一指向性コンデンサマイク（ＯＬＹＭＰＵＳＭＥ１２）であり、その周波数特性は２００〜５０００Ｈｚである。
【０１０７】
先ず、他人の音声が雑音源となる場合として、６名の話者（男性３名、女性３名）を対象に、目的音声（目的話者音声）を抽出する実験を行った。
図９で、目的話者が第１のマイク１３からｒ₁ ＝１０ｃｍ、また雑音源１２となる話者が第２のマイク１４からｒ₂ ＝１０ｃｍ離れたところから、それぞれ異なる単語を発生するようにした。その際、各周波数での成分置換の目視による判定作業を容易にするため、発生単語を発話区間の短い単語と長い単語の組み合わせで３パターン、「東京、近畿大学」、「新飯塚、産業技術研究科」、「博多、五反田研究室」と発声し、引き続いて３パターンのそれぞれで単語を交代して発声した。更に、２人の位置を入れ替えて上記を繰り返して、計１２パターンに対する混合信号をデータとして収録した。さらにペアの１人はそのままにして、残りの４人をペア相手として換えながら、上記と同様に発声した。以上により、総計１８０（＝１２×₆ Ｃ₂ ）パターンに対する混合信号のデータを収得した。これらのデータ長は、短いもので２．３秒、長いもので４．１秒程度であった。
【０１０８】
以上のデータに対して、成分置換の問題がどの程度解決されたか目視による判定を行なった。その結果を表２に示す。先ず、比較例（従来法であるＦａｓｔＩＣＡ法）による分離信号に対する成分置換の解決率は平均で５０．６０％であった。これは、ＦａｓｔＩＣＡ法が非ガウス性の高い順に分離する手法であり、非ガウス性の高い話者音声同士を対象にしていることから、当然の結果であり、成分置換の問題は全く解決されていない。
これに対して、式（２６）の判定基準を適用した場合は、表２に示すように、平均で９３．３％の成分置換を解決して、比較例による結果を４割程度改善させている。
【０１０９】
【表２】

【０１１０】
［実施例２］
実施例１と同様の条件でデータを収集し、式（２６）の判定基準を適用すると共に、式（２６）が適用外となる周波数については、式（２７）、式（２８）の判定基準を適用して目的音声の復元を行なった。
その結果を、表２に示す。解決率の平均は９９．０８％となり、極めて高い割合で成分置換を解決している。
この判定基準を適用して復元した復元信号を図１０に示す。なお、図１０は、目的音声音源として男性話者が「産業技術研究科」、雑音源として女性話者が「新飯塚」と発声したときの実験結果で、（Ａ）は第１のマイク１３で観測した混合信号、（Ｂ）は第２のマイク１４で観測した混合信号、（Ｃ）及び（Ｄ）はそれぞれ式（２６）、式（２７）、式（２８）の判定基準により抽出した復元スペクトルを用いて復元した男性話者音声「産業技術研究科」と女性話者音声「新飯塚」、（Ｅ）、（Ｆ）はそれぞれ従来法（ＦａｓｔＩＣＡ法）により分離した分離信号を時間領域に戻したときの目的音声「産業技術研究科」と雑音「新飯塚」の各信号波形である。
【０１１１】
図１０（Ｃ）、（Ｄ）には男性話者と女性話者の音声持続時間が異なることが反映されており、視覚的にも成分置換は殆どないことが読み取れるが、従来法による場合、図１０（Ｅ）、（Ｆ）のように音声持続時間はほぼ同じとなっており、どちらがどの話者音声に対応するか明確でなかった。
また、復元信号に対する聴覚的な明瞭度を調べたところ、提案法による結果は他の音声が殆ど混じることがなく元の音声が明瞭に聞こえたのに対し、従来法による結果には２人の話者音声が混じったまま聞こえて、復元精度の違いは明らかであった。
【０１１２】
［実施例３］
図９で、雑音源１２の位置にスピーカを置いて、このスピーカから駅構内の騒音が流れるもとで、目的音声音源１１の位置（ｒ₁ ＝１０ｃｍ）から、男性４名と女性４名の計８名に４種類の単語「東京」、「新飯塚」、「近畿大学」、「産業技術研究科」を発話させた。そして、雑音源１２の位置をｒ₂ ＝３０、６０ｃｍと変えて実験を行ない、６４組のデータを取得した。そのときの騒音レベルは、平均して、スピーカから１ｃｍのところで９９．５ｄＢ、３０ｃｍのところで８２．１ｄＢ、６０ｃｍのところで７６．３ｄＢであった。なお、データ長は、短いもので２．３秒、長いもので６．９秒あった。
【０１１３】
このときの復元結果（ｒ₁ ＝１０ｃｍ、ｒ₂ ＝３０ｃｍ）を図１１に示す。
図１１は、男性話者（目的音声音源）が「産業技術研究科」と発声し、「駅構内の騒音」をスピーカから流したときの結果である。（Ａ）は第１のマイク１３で観測した混合信号、（Ｂ）は第２のマイク１４で観測した混合信号、（Ｃ）及び（Ｄ）はそれぞれ式（２７）、式（２８）の判定基準により抽出した復元スペクトルを用いて復元された男性話者音声「産業技術研究科」と「駅構内の騒音」、（Ｅ）、（Ｆ）はそれぞれ従来法（ＦａｓｔＩＣＡ法）により分離した分離信号を時間領域に戻したときの目的音声「産業技術研究科」と「駅構内の騒音」の各信号波形である。図１１（Ｃ）と（Ｅ）の比較から、復元信号では騒音が良好に除去されているが、従来法の復元信号には騒音の影響が残っていることが読み取れる。
【０１１４】
表３に成分置換の解決率を示す。表３の結果より、従来法のみを適用したときでも、９割程度の解決率が得られていることが分かる。このことは、騒音に比べて、話者音声の非ガウス性が高いことから、従来法の利点でもある非ガウス性の高い順に分離を行うという特徴を反映した結果となっている。
一方、実施例３による解決率は、従来法より、平均で３〜８％程度上回る結果が得られている。
また、復元音声の明瞭度を調べたところ、実施例３による復元音声の場合、無音区間では騒音の影響が若干残ることが認められたが、音声区間では騒音の影響は殆ど感じられなかった。一方、従来法による場合、騒音の影響が強く残る結果となった。この違いを明らかにするために、成分置換がどの周波数帯域で起きているかを調べたところ、従来法の場合、成分置換の現れ方は周波数帯域に依存しないが、実施例３の場合では、スペクトルの強度の非常に小さな周波数にほぼ限定されることが確認された。従って、このことも聴覚による明瞭度の違いの一因となっていると思われる。
【０１１５】
【表３】

【０１１６】
［実施例４］
図１２に示すように、第１のマイク１３、第２のマイク１４を１０ｃｍの距離に保って配置した。更に、音源２６は、第１のマイク１３を通り第１、第２のマイク１３、１４を結ぶ直線に対して垂直な直線Ｌに対して１０°外向きの方向に、第１のマイク１３からｒ₁ ｃｍ離れた位置に配置した。また、音源２７は、第２のマイク１４を通り第１、第２のマイク１３、１４を結ぶ直線に垂直な直線Ｍに対して１０°外向きの方向に、第２のマイク１４からｒ₂ ｃｍ離れた位置に配置した。なお、データ収集の条件は、実施例１と同様にした。
【０１１７】
図１２で、音源２７の位置にスピーカを置いて、このスピーカから駅構内の人声や発車音、発車の際の駅員の笛、電車の走行時に生じる音、電車の発車時案内音（メロディー）、拡声器によるアナウンスを含む騒音を流した。音源２６の位置（ｒ₁ ＝１０ｃｍ）から、男性４名と女性４名の計８名に４種類の単語「東京」、「新飯塚」、「近畿大学」、「産業技術研究科」を発話させた。そして、音源２６の位置をｒ₂ ＝３０、６０ｃｍと変えて実験を行ない、６４組のデータを取得した。
そのときの騒音レベルは、平均して、スピーカから１ｃｍのところで９９．５ｄＢ、３０ｃｍのところで８２．１ｄＢ、６０ｃｍのところで７６．３ｄＢであった。なお、データ長は、短いもので２．３秒、長いもので６．９秒あった。
【０１１８】
以上の６４組のデータに対して、図５に示す目的音声の復元方法を適用して、目的音声の抽出を行った。なお、式（３４）〜（３７）に基づいた成分置換の解決を行ってから式（３１）を適用する判定基準を採用した。そのときの抽出率を表４に示す。
【０１１９】
【表４】

【０１２０】
ここで、抽出率は、目的音声が正確に抽出された数をＣとして、Ｃ／６４と定義した。
式（３４）〜（３７）に基づいた成分置換の解決を行ってから式（３１）を適用する判定基準では、騒音源までの距離に関係なく、目的音声を１００％確実に抽出している。
また、表４には、比較例として、式（２６）の判定基準、式（２６）が適用外となる周波数については、式（２７）、式（２８）の判定基準を適用して得られる復元スペクトルｙ（ω，ｋ）のフーリエ逆変換によって求めた復元スペクトルｙ（ｔ）の最頻値を計算し、最頻値の大きな信号を目的音声として抽出した結果を併せて示している。
比較例では、目的音声の抽出率はｒ₂ が３０ｃｍのとき８７．５％、ｒ₂ が６０ｃｍのとき９６．８８％という結果となった。このことは、抽出率がｒ₂ （騒音源までの距離）により影響を受けること、すなわち、騒音レベルに対して影響を受けることを示している。従って、式（３４）〜（３７）に基づいた成分置換の解決を行ってから式（３１）を適用する判定基準は、騒音レベルに対しても頑健であることが確認できた。
【０１２１】
［実施例５］
続いて、目的音声が順番通り正しく推定できるかを調べるため、２つの音源が共に話者音声であるとして、以下の方法でデータを収録した。
図１２において、始めに、一方の話者にはｒ₁ が１０ｃｍとなる音源２６の位置で「ある単語」を、他方の話者にはｒ₂ が１０ｃｍとなる音源２７の位置で「別の単語」をそれぞれ発声してもらい、次いで、２人の話者の位置を変えてそれぞれ同一の単語を発生してもらって混合信号を収録するという手順を、６人の話者（男性３名、女性３名）と、３組の単語対（東京と近畿大学、新飯塚と産業技術研究科、博多と五反田研究室）に対して繰り返し適用した。収録された混合信号は１８０組であり、それらの発声時間は２．３〜４．１秒であった。
これらのデータを用いて成分置換の解決率を求めると、従来法（ＦａｓｔＩＣＡ法）を適用した場合では解決率は５０．６％であった。これに対して、図５に示す目的音声の復元方法を適用して、目的音声の抽出を行った。なお、式（３４）〜（３７）に基づいた成分置換の解決を行ってから式（３１）を適用する判定基準を適用した。このときの成分置換の解決率は９９．０８％であった。従って、２つの音源が双方とも話者音声である場合でも、目的音声を有効に抽出できることが確認できた。
【０１２２】
また、全てのデータに対して、音源が順番通り正しく推定できたことが確認できた。その一例を図１３示す。
図１３は、ｒ₁ が１０ｃｍとなる音源２６位置で男性話者が「産業技術研究科」と発声し、ｒ₂ が１０ｃｍとなる音源２７の位置で女性話者が「新飯塚」と発声したときの復元結果を示している。（Ａ）は第１のマイク１３で観測した混合信号、（Ｂ）は第２のマイク１４で観測した混合信号、（Ｃ）及び（Ｄ）はそれぞれ式（２９）の判定基準により抽出した復元スペクトルを用いて復元された男性話者音声「産業技術研究科」と女性話者音声「新飯塚」、（Ｅ）、（Ｆ）はそれぞれ従来法（ＦａｓｔＩＣＡ法）により分離した分離信号を時間領域に戻したときの目的音声「産業技術研究科」と「新飯塚」の各信号波形である。
図１３（Ｃ）、（Ｄ）には２名の話者の音声持続時間が異なることが反映されており、視覚的にも成分置換はほとんどないことが読み取れる。
一方、従来法の復元信号である図１３（Ｅ）、（Ｆ）では、音声持続時間はほぼ同じとなっている。このため、（Ｅ）、（Ｆ）の内のどちらがどの話者音声（「産業技術研究科」と「新飯塚」）に対応するのかが明確にならなかった。
【０１２３】
以上、本発明の実施の形態を説明したが、本発明は、この実施の形態に限定されるものではなく、発明の要旨を変更しない範囲での変更は可能であり、前記したそれぞれの実施の形態や変形例の一部又は全部を組み合わせて本発明の音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法を構成する場合にも本発明は適用される。例えば、音源位置に関する先験情報をゲインの大小関係で定式化し、これを前提条件として議論を展開したが、先験情報を利用する位置、方向、強弱に応じて、さらにはマイクの指向特性に応じて変化するゲイン及び位相情報を取り入れることも可能である。また、前提条件に重み付けを行なって利用することもできる。また、目視による成分置換の判定作業を容易にするため、時系列としての分割スペクトルの時系列を対象に成分置換の判定や修正を行なったが、例えば、ドアの閉まるときの衝撃音が雑音となる場合では、分割スペクトルを対象にする方が好ましい。
【０１２４】
【発明の効果】
請求項１〜５記載の音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法においては、目的音声音源及び雑音源からそれぞれ発信される目的音声及び雑音を、異なる位置に設けた第１及び第２のマイクでそれぞれ受信して混合信号を形成する第１工程と、各混合信号を時間領域から周波数領域にフーリエ変換し、独立成分解析法により２つの分離信号Ｕ_A、Ｕ_Bに分解して、目的音声音源及び雑音源から第１及び第２のマイクまでの各伝達関数に基づいて、分離信号Ｕ_Aから第１のマイクで受信されたスペクトルｖ_A1及び第２のマイクで受信されたスペクトルｖ_A2で構成される分割スペクトルを、分離信号Ｕ_Bから第１のマイクで受信されたスペクトルｖ_B1及び第２のマイクで受信されたスペクトルｖ_B2で構成される分割スペクトルをそれぞれ生成する第２工程と、各分割スペクトルに対して、第１及び第２のマイクと目的音声音源及び雑音源との間の音の伝達特性に基づいた判定基準を適用して復元スペクトルを抽出し、復元スペクトルを周波数領域から時間領域にフーリエ逆変換して目的音声を復元する第３工程とを有するので、成分置換や振幅の曖昧さの問題を解消して、聴覚的に明瞭度が高い復元音声を得ることが可能となる。
【０１２５】
特に、請求項２記載の音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法においては、目的音声音源が第２のマイクよりも第１のマイクに接近し、雑音源が第１のマイクよりも第２のマイクに接近して存在する場合、判定基準は、スペクトルｖ_A1とスペクトルｖ_A2との差Ｄ_A 、及びスペクトルｖ_B1とスペクトルｖ_B2との差Ｄ_B をそれぞれ演算して、（１）差Ｄ_A が正かつ差Ｄ_B が負のとき復元スペクトルとしてスペクトルｖ_A1を抽出し、（２）差Ｄ_A が負かつ差Ｄ_B が正のとき復元スペクトルとしてスペクトルｖ_B1を抽出するように設定されているので、復元された目的音声信号において振幅の曖昧さの発生を防止すると共に成分置換の発生をより厳密に防止することができ、復元精度と復元音声の聴覚的明瞭度をより向上させることが可能となる。
【０１２６】
請求項３記載の音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法においては、差Ｄ_A をスペクトルｖ_A1とスペクトルｖ_A2との各絶対値の差として、差Ｄ_B をスペクトルｖ_B1とスペクトルｖ_B2との各絶対値の差としてそれぞれ求めるので、簡易な判定基準で各成分毎に成分置換の発生を厳密に判定することができ、復元精度と復元音声の聴覚的明瞭度をより向上させることが可能となる。
【０１２７】
請求項４記載の音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法においては、差Ｄ_A を時間系列に対してそれぞれ演算したスペクトルｖ_A1の強度の２乗和の平均値Ｐ_A1とスペクトルｖ_A2の強度の２乗和の平均値Ｐ_A2との差として求め、差Ｄ_B を時間系列に対してそれぞれ演算したスペクトルｖ_B1の強度の２乗和の平均値Ｐ_B1とスペクトルｖ_B2の強度の２乗和の平均値Ｐ_B2との差として求めるので、成分置換の判定処理結果が正しいか否かを目視により容易に照合することが可能となる。
【０１２８】
請求項５記載の音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法においては、目的音声音源が第２のマイクよりも第１のマイクに接近し、雑音源が第１のマイクよりも第２のマイクに接近して存在する場合、判定基準は、スペクトルｖ_A1の強度の２乗和の平均値Ｐ_A1、スペクトルｖ_A2の強度の２乗和の平均値Ｐ_A2、スペクトルｖ_B1の強度の２乗和の平均値Ｐ_B1、及びスペクトルｖ_B2の強度の２乗和の平均値Ｐ_B2を時間系列に対してそれぞれ求め、平均値Ｐ_A1と平均値Ｐ_A2との差Ｄ_A 、及び平均値Ｐ_B1と平均値Ｐ_B2との差Ｄ_B をそれぞれ求めて、（１）Ｐ_A1＋Ｐ_A2＞Ｐ_B1＋Ｐ_B2かつ差Ｄ_A が正のとき復元スペクトルとしてスペクトルｖ_A1を抽出し、（２）Ｐ_A1＋Ｐ_A2＞Ｐ_B1＋Ｐ_B2かつ差Ｄ_A が負のとき復元スペクトルとしてスペクトルｖ_B1を抽出し、（３）Ｐ_A1＋Ｐ_A2＜Ｐ_B1＋Ｐ_B2かつ差Ｄ_B が負のとき復元スペクトルとしてスペクトルｖ_A1を抽出し、（４）Ｐ_A1＋Ｐ_A2＜Ｐ_B1＋Ｐ_B2かつ差Ｄ_B が正のとき復元スペクトルとしてスペクトルｖ_B1を抽出するように設定されているので、復元するのに有意な分離信号を容易に選別でき、各分割スペクトルの強度が微弱な場合、すなわち混合信号中に含まれる目的音声信号が微弱な場合でも、目的音声の復元を行なうことが可能となる。
【０１２９】
請求項６〜１０記載の音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法においては、異なる２つの音源からそれぞれ発信される目的音声及び雑音を、異なる位置に設けた第１及び第２のマイクでそれぞれ受信して混合信号を形成する第１工程と、各混合信号を時間領域から周波数領域にフーリエ変換し、ＦａｓｔＩＣＡ法により２つの分離信号Ｕ_A、Ｕ_Bに分解して、各音源から第１及び第２のマイクまでの各伝達経路特性に基づいて、分離信号Ｕ_Aから第１のマイクで受信されたスペクトルｖ_A1及び第２のマイクで受信されたスペクトルｖ_A2で構成される２つの音源の内の一方の音源の分割スペクトルを、分離信号Ｕ_Bから第１のマイクで受信されたスペクトルｖ_B1及び第２のマイクで受信されたスペクトルｖ_B2で構成される２つの音源の内の他方の音源の分割スペクトルをそれぞれ生成する第２工程と、各分割スペクトルに対して、該各分割スペクトルが前記第１及び第２のマイクで受信された信号と等価であることに基づく判定基準を適用し目的音声及び雑音に対応する各推定スペクトルを抽出して目的音声の復元スペクトル群を生成し、復元スペクトル群を周波数領域から時間領域にフーリエ逆変換して目的音声を復元する第３工程とを有するので、目的音声に対応する分割スペクトルは分離信号Ｕ_Aとして出力される頻度が高く、目的音声音源と雑音源の位置に関する先験情報を使用せずに、目的音声の復元を行なうことが可能となる。
【０１３０】
特に、請求項７記載の音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法においては、２つの音源の中で一方の音源は第２のマイクよりも第１のマイクに接近し、２つの音源の中で他方の音源は第１のマイクよりも第２のマイクに接近して存在する場合、判定基準は、フーリエ変換した際の各規格化周波数毎に、スペクトルｖ_A1とスペクトルｖ_A2との差Ｄ_A 、及びスペクトルｖ_B1とスペクトルｖ_B2との差Ｄ_B をそれぞれ演算し、（１）差Ｄ_A が正かつ差Ｄ_B が負のとき一方の音源の推定スペクトルｙ₁ としてスペクトルｖ_A1を抽出し、（２）差Ｄ_A が負かつ差Ｄ_B が正のとき一方の音源の推定スペクトルｙ₁ としてスペクトルｖ_B1を抽出して、抽出した各推定スペクトルｙ₁ を成分とする一方の音源の推定スペクトル群Ｙ₁ を形成し、（３）差Ｄ_A が負かつ差Ｄ_B が正のとき他方の音源の推定スペクトルｙ₂ としてスペクトルｖ_A2を抽出し、（４）差Ｄ_A が正かつ差Ｄ_B が負のとき他方の音源の推定スペクトルｙ₂ としてスペクトルｖ_B2を抽出して、抽出した各推定スペクトルｙ₂ を成分とする他方の音源の推定スペクトル群Ｙ₂ を形成すると共に、差Ｄ_A が正かつ差Ｄ_B が負である場合の個数Ｎ⁺ 、及び差Ｄ_A が負かつ差Ｄ_B が正である場合の個数Ｎ^- をそれぞれ求めて、（ａ）個数Ｎ⁺ が個数Ｎ^- より大きい場合、復元スペクトル群として推定スペクトル群Ｙ₁ を抽出し、（ｂ）個数Ｎ^- が個数Ｎ⁺ より大きい場合、復元スペクトル群として推定スペクトル群Ｙ₂ を抽出するように設定されているので、一方の音源が目的音声音源であれば成分置換のない頻度が高く、他方の音源が目的音声音源であれば成分置換の生じる頻度が高くなり、成分置換の有無の頻度を求めることにより目的音声に対応する復元スペクトル群を抽出することが可能になる。その際、復元された目的音声信号においては振幅の曖昧さの防止と成分置換の防止を共に達成することができ、復元精度と復元音声の聴覚的明瞭度をより向上させることが可能となる。
【０１３１】
請求項８記載の音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法においては、差Ｄ_A をスペクトルｖ_A1とスペクトルｖ_A2との各絶対値の差として、差Ｄ_B をスペクトルｖ_B1とスペクトルｖ_B2との各絶対値の差としてそれぞれ求めるので、簡易な判定基準で各成分毎に成分置換の発生を厳密に判定することができ、復元精度と復元音声の聴覚的明瞭度をより向上させることが可能となる。
【０１３２】
請求項９記載の音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法においては、差Ｄ_A を時間系列に対してそれぞれ演算したスペクトルｖ_A1の強度の２乗和の平均値Ｐ_A1とスペクトルｖ_A2の強度の２乗和の平均値Ｐ_A2との差として求め、差Ｄ_B を時間系列に対してそれぞれ演算したスペクトルｖ_B1の強度の２乗和の平均値Ｐ_B1とスペクトルｖ_B2の強度の２乗和の平均値Ｐ_B2との差として求めるので、成分置換の判定処理結果が正しいか否かを目視により容易に照合することが可能となる。
【０１３３】
請求項１０記載の音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法においては、２つの音源の中で一方の音源は第２のマイクよりも第１のマイクに接近し、２つの音源の中で他方の音源は第１のマイクよりも第２のマイクに接近して存在する場合、判定基準は、スペクトルｖ_A1の強度の２乗和の平均値Ｐ_A1、スペクトルｖ_A2の強度の２乗和の平均値Ｐ_A2、スペクトルｖ_B1の強度の２乗和の平均値Ｐ_B1、及びスペクトルｖ_B2の強度の２乗和の平均値Ｐ_B2を時間系列に対してそれぞれ求め、平均値Ｐ_A1と平均値Ｐ_A2との差Ｄ_A 、及び平均値Ｐ_B1と平均値Ｐ_B2との差Ｄ_B をそれぞれ求めて、Ｐ_A1＋Ｐ_A2＞Ｐ_B1＋Ｐ_B2で、かつ、（１）差Ｄ_A が正のとき一方の音源の推定スペクトルｙ₁ としてスペクトルｖ_A1を抽出し、（２）差Ｄ_A が負のとき一方の音源の推定スペクトルｙ₁ としてスペクトルｖ_B1を抽出して、各推定スペクトルｙ₁ を成分とする一方の音源の推定スペクトル群Ｙ₁ を形成し、（３）差Ｄ_A が負のとき他方の音源の推定スペクトルｙ₂ としてスペクトルｖ_A2を抽出し、（４）差Ｄ_A が正のとき他方の音源の推定スペクトルｙ₂ としてスペクトルｖ_B2を抽出して、各推定スペクトルｙ₂ から構成される他方の音源の推定スペクトル群Ｙ₂ を形成し、Ｐ_A1＋Ｐ_A2＜Ｐ_B1＋Ｐ_B2で、かつ、（５）差Ｄ_B が負のとき一方の音源の推定スペクトルｙ₁ としてスペクトルｖ_A1を抽出し、（６）差Ｄ_B が正のとき一方の音源の推定スペクトルｙ₁ としてスペクトルｖ_B1を抽出して、各推定スペクトルｙ₁ を成分とする一方の音源の推定スペクトル群Ｙ₁ を形成し、（７）差Ｄ_B が正のとき他方の音源の推定スペクトルｙ₂ としてスペクトルｖ_A2を抽出し、（８）差Ｄ_B が負のとき他方の音源の推定スペクトルｙ₂ としてスペクトルｖ_B2を抽出して、各推定スペクトルｙ₂ から構成される他方の音源の推定スペクトル群Ｙ₂ を形成すると共に、差Ｄ_A が正かつ差Ｄ_B が負である場合の個数Ｎ⁺ 、及び差Ｄ_A が負かつ差Ｄ_B が正である場合の個数Ｎ^- をそれぞれ求めて、（ａ）個数Ｎ⁺ が個数Ｎ^- より大きい場合、復元スペクトル群として推定スペクトル群Ｙ₁ を抽出し、（ｂ）個数Ｎ^- が個数Ｎ⁺ より大きい場合、復元スペクトル群として推定スペクトル群Ｙ₂ を抽出するように設定されているので、一方の音源が目的音声音源であれば成分置換のない頻度が高く、他方の音源が目的音声音源であれば成分置換の生じる頻度が高くなり、成分置換の有無の頻度を求めることにより目的音声に対応する復元スペクトル群を抽出することが可能になる。その際、復元するのに有意な分離信号を容易に選別でき、各分割スペクトルの強度が微弱な場合、すなわち混合信号中に含まれる目的音声信号が微弱な場合でも、目的音声の復元を行なうことが可能となる。
【図面の簡単な説明】
【図１】本発明の第１の実施の形態に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法を適用した目的音声の復元装置の構成図である。
【図２】同復元方法における目的音声及び雑音から復元スペクトルが形成されるまでの信号の流れを示す説明図である。
【図３】本発明の第２の実施の形態に係る音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法を適用した目的音声の復元装置の構成図である。
【図４】同復元方法における目的音声及び雑音から復元スペクトルが形成されるまでの信号の流れを示す説明図である。
【図５】実施例１〜５における目的音声の復元方法の手順の概要を示す説明図である。
【図６】実施例１〜５における目的音声の復元方法の各部分手順を示す説明図である。
【図７】実施例１〜５における目的音声の復元方法の各部分手順を示す説明図である。
【図８】実施例１〜５における目的音声の復元方法の各部分手順を示す説明図である。
【図９】実施例１〜３における第１のマイク、第２のマイク、目的音声音源、及び雑音源の位置関係を示す説明図である。
【図１０】（Ａ）は実施例２における第１のマイクで受信された混合信号、（Ｂ）は実施例２における第２のマイクで受信された混合信号、（Ｃ）は実施例２で復元した目的音声の信号波形、（Ｄ）は実施例２で復元した雑音の信号波形、（Ｅ）は従来の復元方法を適用して復元した目的音声の信号波形、（Ｆ）は従来の復元方法を適用して復元した雑音の信号波形を示す説明図である。
【図１１】（Ａ）は実施例３における第１のマイクで受信された混合信号、（Ｂ）は実施例３における第２のマイクで受信された混合信号、（Ｃ）は実施例３で復元した目的音声の信号波形、（Ｄ）は実施例３で復元した雑音の信号波形、（Ｅ）は従来の復元方法を適用して復元した目的音声の信号波形、（Ｆ）は従来の復元方法を適用して復元した雑音の信号波形を示す説明図である。
【図１２】実施例４、５における第１のマイク、第２のマイク、及び各音源の位置関係を示す説明図である。
【図１３】（Ａ）は実施例５における第１のマイクで受信された混合信号、（Ｂ）は実施例５における第２のマイクで受信された混合信号、（Ｃ）、（Ｄ）は実施例５で復元した各音源の信号波形、（Ｅ）、（Ｆ）は従来の復元方法を適用して復元した各音源の信号波形を示す説明図である。
【符号の説明】
１０：目的音声の復元装置、１１：目的音声音源、１２：雑音源、１３：第１のマイク、１４：第２のマイク、１５：第１の増幅器、１６：第２の増幅器、１７：復元装置本体、１８：復元信号増幅器、１９：スピーカ、２０、２１：Ａ／Ｄ変換器、２２：分割スペクトル生成器、２３：復元スペクトル抽出回路、２４：復元信号生成回路、２５：目的音声の復元装置、２６、２７：音源

Claims

目的音声音源及び雑音源からそれぞれ発信される目的音声及び雑音を、異なる位置に設けた第１及び第２のマイクでそれぞれ受信して混合信号を形成する第１工程と、
前記各混合信号を時間領域から周波数領域にフーリエ変換し、独立成分解析法により２つの分離信号Ｕ_A、Ｕ_Bに分解して、前記目的音声音源及び前記雑音源から前記第１及び第２のマイクまでの各伝達関数に基づいて、前記分離信号Ｕ_Aから前記第１のマイクで受信されたスペクトルｖ_A1及び前記第２のマイクで受信されたスペクトルｖ_A2で構成される分割スペクトルを、前記分離信号Ｕ_Bから前記第１のマイクで受信されたスペクトルｖ_B1及び前記第２のマイクで受信されたスペクトルｖ_B2で構成される分割スペクトルをそれぞれ生成する第２工程と、
前記各分割スペクトルに対して、前記第１及び第２のマイクと前記目的音声音源及び雑音源との間の音の伝達特性に基づいた判定基準を適用して復元スペクトルを抽出し、該復元スペクトルを周波数領域から時間領域にフーリエ逆変換して目的音声を復元する第３工程とを有し、
前記判定基準は、前記目的音声音源から前記第１及び第２のマイクまでの前記伝達関数のゲイン又は位相の差及び前記雑音源から前記第１及び第２のマイクまでの前記伝達関数のゲイン又は位相の差が、前記スペクトルｖ _A1 とｖ _A2 の差、若しくは前記スペクトルｖ _B1 とｖ _B2 の差に等しいことを利用して、前記目的音声音源及び雑音源を前記第１及び第２のマイクで受信した信号がそれぞれどの前記スペクトルｖ _A1 、ｖ _A2 、ｖ _B1 、ｖ _B2 に相当するかを判定して前記復元スペクトルを抽出するよう設定されていることを特徴とする音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法。
請求項１記載の音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法において、前記目的音声音源が前記第２のマイクよりも前記第１のマイクに接近し、前記雑音源が前記第１のマイクよりも前記第２のマイクに接近して存在する場合、前記判定基準は、前記スペクトルｖ_A1と前記スペクトルｖ_A2との差Ｄ_A、及び前記スペクトルｖ_B1と前記スペクトルｖ_B2との差Ｄ_Bをそれぞれ演算して、
（１）前記差Ｄ_Aが正かつ前記差Ｄ_Bが負のとき前記復元スペクトルとして前記スペクトルｖ_A1を抽出し、
（２）前記差Ｄ_Aが負かつ前記差Ｄ_Bが正のとき前記復元スペクトルとして前記スペクトルｖ_B1を抽出するように設定されていることを特徴とする音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法。
請求項２記載の音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法において、前記差Ｄ_Aを前記スペクトルｖ_A1と前記スペクトルｖ_A2との各絶対値の差として、前記差Ｄ_Bを前記スペクトルｖ_B1と前記スペクトルｖ_B2との各絶対値の差としてそれぞれ求めることを特徴とする音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法。
請求項２記載の音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法において、前記差Ｄ_Aを時間系列に対してそれぞれ演算した前記スペクトルｖ_A1の強度の２乗和の平均値Ｐ_A1と前記スペクトルｖ_A2の強度の２乗和の平均値Ｐ_A2との差として求め、前記差Ｄ_Bを時間系列に対してそれぞれ演算した前記スペクトルｖ_B1の強度の２乗和の平均値Ｐ_B1と前記スペクトルｖ_B2の強度の２乗和の平均値Ｐ_B2との差として求めることを特徴とする音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法。
請求項１記載の音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法において、前記目的音声音源が前記第２のマイクよりも前記第１のマイクに接近し、前記雑音源が前記第１のマイクよりも前記第２のマイクに接近して存在する場合、前記判定基準は、前記スペクトルｖ_A1の強度の２乗和の平均値Ｐ_A1、前記スペクトルｖ_A2の強度の２乗和の平均値Ｐ_A2、前記スペクトルｖ_B1の強度の２乗和の平均値Ｐ_B1、及び前記スペクトルｖ_B2の強度の２乗和の平均値Ｐ_B2を時間系列に対してそれぞれ求め、前記平均値Ｐ_A1と前記平均値Ｐ_A2との差Ｄ_A、及び前記平均値Ｐ_B1と前記平均値Ｐ_B2との差Ｄ_Bをそれぞれ求めて、
（１）Ｐ_A1＋Ｐ_A2＞Ｐ_B1＋Ｐ_B2かつ前記差Ｄ_Aが正のとき前記復元スペクトルとして前記スペクトルｖ_A1を抽出し、
（２）Ｐ_A1＋Ｐ_A2＞Ｐ_B1＋Ｐ_B2かつ前記差Ｄ_Aが負のとき前記復元スペクトルとして前記スペクトルｖ_B1を抽出し、
（３）Ｐ_A1＋Ｐ_A2＜Ｐ_B1＋Ｐ_B2かつ前記差Ｄ_Bが負のとき前記復元スペクトルとして前記スペクトルｖ_A1を抽出し、
（４）Ｐ_A1＋Ｐ_A2＜Ｐ_B1＋Ｐ_B2かつ前記差Ｄ_Bが正のとき前記復元スペクトルとして前記スペクトルｖ_B1を抽出するように設定されていることを特徴とする音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法。
異なる２つの音源からそれぞれ発信される目的音声及び雑音を、異なる位置に設けた第１及び第２のマイクでそれぞれ受信して混合信号を形成する第１工程と、
前記各混合信号を時間領域から周波数領域にフーリエ変換し、ＦａｓｔＩＣＡ法により２つの分離信号Ｕ_A、Ｕ_Bに分解して、前記各音源から前記第１及び第２のマイクまでの各伝達経路特性に基づいて、前記分離信号Ｕ_Aから前記第１のマイクで受信されたスペクトルｖ_A1及び前記第２のマイクで受信されたスペクトルｖ_A2で構成される分割スペクトルを、前記分離信号Ｕ_Bから前記第１のマイクで受信されたスペクトルｖ_B1及び前記第２のマイクで受信されたスペクトルｖ_B2で構成される分割スペクトルをそれぞれ生成する第２工程と、
前記各分割スペクトルに対して、該各分割スペクトルが前記第１及び第２のマイクで受信された信号と等価であることに基づく判定基準を適用し前記目的音声及び前記雑音に対応する各推定スペクトルを抽出して前記目的音声の復元スペクトル群を生成し、該復元スペクトル群を周波数領域から時間領域にフーリエ逆変換して目的音声を復元する第３工程とを有し、
前記判定基準は、一方の音源から前記第１及び第２のマイクまでの伝達関数のゲイン又は位相の差及び他方の音源から前記第１及び第２のマイクまでの伝達関数のゲイン又は位相の差が、前記スペクトルｖ _A1 とｖ _A2 の差、若しくは前記スペクトルｖ _B1 とｖ _B2 の差に等しいことを利用して、前記２つの音源を前記第１及び第２のマイクで受信した信号がそれぞれどの前記スペクトルｖ _A1 、ｖ _A2 、ｖ _B1 、ｖ _B2 に相当するかを判定して前記復元スペクトルを抽出するよう設定されていることを特徴とする音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法。
請求項６記載の音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法において、前記２つの音源の中で一方の音源は前記第２のマイクよりも前記第１のマイクに接近し、前記２つの音源の中で他方の音源は前記第１のマイクよりも前記第２のマイクに接近して存在する場合、前記判定基準は、前記フーリエ変換した際の各規格化周波数毎に、前記スペクトルｖ_A1と前記スペクトルｖ_A2との差Ｄ_A、及び前記スペクトルｖ_B1と前記スペクトルｖ_B2との差Ｄ_Bをそれぞれ演算し、
（１）前記差Ｄ_Aが正かつ前記差Ｄ_Bが負のとき前記一方の音源の推定スペクトルｙ₁として前記スペクトルｖ_A1を抽出し、
（２）前記差Ｄ_Aが負かつ前記差Ｄ_Bが正のとき前記一方の音源の推定スペクトルｙ₁として前記スペクトルｖ_B1を抽出して、抽出した該各推定スペクトルｙ₁を成分とする前記一方の音源の推定スペクトル群Ｙ₁を形成し、
（３）前記差Ｄ_Aが負かつ前記差Ｄ_Bが正のとき前記他方の音源の推定スペクトルｙ₂として前記スペクトルｖ_A2を抽出し、
（４）前記差Ｄ_Aが正かつ前記差Ｄ_Bが負のとき前記他方の音源の推定スペクトルｙ₂として前記スペクトルｖ_B2を抽出して、抽出した該各推定スペクトルｙ₂を成分とする前記他方の音源の推定スペクトル群Ｙ₂を形成すると共に、
前記差Ｄ_Aが正かつ前記差Ｄ_Bが負である場合の個数Ｎ⁺、及び前記差Ｄ_Aが負かつ前記差Ｄ_Bが正である場合の個数Ｎ^-をそれぞれ求めて、
（ａ）前記個数Ｎ⁺が前記個数Ｎ^-より大きい場合、前記復元スペクトル群として前記推定スペクトル群Ｙ₁を抽出し、
（ｂ）前記個数Ｎ^-が前記個数Ｎ⁺より大きい場合、前記復元スペクトル群として前記推定スペクトル群Ｙ₂を抽出するように設定されていることを特徴とする音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法。
請求項７記載の音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法において、前記差Ｄ_Aを前記スペクトルｖ_A1と前記スペクトルｖ_A2との各絶対値の差として、前記差Ｄ_Bを前記スペクトルｖ_B1と前記スペクトルｖ_B2との各絶対値の差としてそれぞれ求めることを特徴とする音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法。
請求項７記載の音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法において、前記差Ｄ_Aを時間系列に対してそれぞれ演算した前記スペクトルｖ_A1の強度の２乗和の平均値Ｐ_A1と前記スペクトルｖ_A2の強度の２乗和の平均値Ｐ_A2との差として求め、前記差Ｄ_Bを時間系列に対してそれぞれ演算した前記スペクトルｖ_B1の強度の２乗和の平均値Ｐ_B1と前記スペクトルｖ_B2の強度の２乗和の平均値Ｐ_B2との差として求めることを特徴とする音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法。
請求項６記載の音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法において、前記２つの音源の中で一方の音源は前記第２のマイクよりも前記第１のマイクに接近し、前記２つの音源の中で他方の音源は前記第１のマイクよりも前記第２のマイクに接近して存在する場合、前記判定基準は、前記スペクトルｖ_A1の強度の２乗和の平均値Ｐ_A1、前記スペクトルｖ_A2の強度の２乗和の平均値Ｐ_A2、前記スペクトルｖ_B1の強度の２乗和の平均値Ｐ_B1、及び前記スペクトルｖ_B2の強度の２乗和の平均値Ｐ_B2を時間系列に対してそれぞれ求め、前記平均値Ｐ_A1と前記平均値Ｐ_A2との差Ｄ_A、及び前記平均値Ｐ_B1と前記平均値Ｐ_B2との差Ｄ_Bをそれぞれ求めて、Ｐ_A1＋Ｐ_A2＞Ｐ_B1＋Ｐ_B2で、かつ
（１）前記差Ｄ_Aが正のとき前記一方の音源の推定スペクトルｙ₁として前記スペクトルｖ_A1を抽出し、
（２）前記差Ｄ_Aが負のとき前記一方の音源の推定スペクトルｙ₁として前記スペクトルｖ_B1を抽出して、該各推定スペクトルｙ₁を成分とする前記一方の音源の推定スペクトル群Ｙ₁を形成し、
（３）前記差Ｄ_Aが負のとき前記他方の音源の推定スペクトルｙ₂として前記スペクトルｖ_A2を抽出し、
（４）前記差Ｄ_Aが正のとき前記他方の音源の推定スペクトルｙ₂として前記スペクトルｖ_B2を抽出して、該各推定スペクトルｙ₂から構成される前記他方の音源の推定スペクトル群Ｙ₂を形成し、
Ｐ_A1＋Ｐ_A2＜Ｐ_B1＋Ｐ_B2で、かつ
（５）前記差Ｄ_Bが負のとき前記一方の音源の推定スペクトルｙ₁として前記スペクトルｖ_A1を抽出し、
（６）前記差Ｄ_Bが正のとき前記一方の音源の推定スペクトルｙ₁として前記スペクトルｖ_B1を抽出して、該各推定スペクトルｙ₁を成分とする前記一方の音源の推定スペクトル群Ｙ₁を形成し、
（７）前記差Ｄ_Bが正のとき前記他方の音源の推定スペクトルｙ₂として前記スペクトルｖ_A2を抽出し、
（８）前記差Ｄ_Bが負のとき前記他方の音源の推定スペクトルｙ₂として前記スペクトルｖ_B2を抽出して、該各推定スペクトルｙ₂から構成される前記他方の音源の推定スペクトル群Ｙ₂を形成すると共に、
前記差Ｄ_Aが正かつ前記差Ｄ_Bが負である場合の個数Ｎ⁺、及び前記差Ｄ_Aが負かつ前記差Ｄ_Bが正である場合の個数Ｎ^-をそれぞれ求めて、
（ａ）前記個数Ｎ⁺が前記個数Ｎ^-より大きい場合、前記復元スペクトル群として前記推定スペクトル群Ｙ₁を抽出し、
（ｂ）前記個数Ｎ^-が前記個数Ｎ⁺より大きい場合、前記復元スペクトル群として前記推定スペクトル群Ｙ₂を抽出するように設定されていることを特徴とする音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法。