JP4521549B2

JP4521549B2 - 上下、左右方向の複数の音源の分離方法、そのためのシステム

Info

Publication number: JP4521549B2
Application number: JP2003121094A
Authority: JP
Inventors: 毅宇佐川; 中島栄俊; 苣木禎史
Original assignee: Kumamoto Technology and Industry Foundation
Current assignee: Kumamoto Technology and Industry Foundation
Priority date: 2003-04-25
Filing date: 2003-04-25
Publication date: 2010-08-11
Anticipated expiration: 2023-04-25
Also published as: JP2004325284A

Description

【０００１】
【発明が属する技術分野】
本発明は、上下、左右二次元の音源から発せられる複数の音源の分離方法、およびそのためのシステムに関する。
【０００２】
【従来の技術】
近年発展の目覚しい自律型ロボット産業とともに、ヒューマノイドの開発が進み今後大きな産業に発展することが期待されている。ホンダの「アシモ（登録商標）」やソニーの「アイボ（登録商標）」等に代表される自律型ロボットの多くは、行動決定に画像センサー、角度センサー、タッチセンサー等のセンサーを用いている。一方で我々人間は、視覚および聴覚を主たるセンサーとして行動決定や判断を行っている。それ故ロボットをより高度に知能化し、人間と対話する為には人間と同等のセンサーが必要であり、いわゆるヒューマノイドの開発においては、画像センサーのみならず、音響センサーも重要であると考えられる。
【０００３】
しかしながら、一般に自律型ロボットにおける聴覚センサーの研究は画像センサーの研究に比べ発展しておらず、その機能は副次的なものでしかない。この要因として、音響センサーでは検出すべき目的信号に環境雑音等が重畳することにより目的信号が歪んでしまい、分析精度を低下させることが挙げられる。また、実環境においては壁面等からの音の反射も妨害音と同等に分析精度を低下させ、結果的に音声認識や音源の到来方向の検出を行う際に認識率の低下を招く等の影響が発生する。つまり、音響信号を用いた様々なアプリケーションが提案されているものの、実際には使用環境がその性能を大きく左右する。
【０００４】
これらの問題を解決する為、これまで音声強調および音源分離に関する様々な研究がなされてきた。
【０００５】
音声を分離する技術の一つとして、複数個のマイクロフォンを用いるシステムが知られている。この技術は一般にマイクロフォンアレイと呼ばれているが、一般にマイクロフォンアレイ素子数が増加するに従い、処理が複雑になる。また、伝達経路が変動した場合の対応が困難であることも問題となる。また、多くの場合、分離可能な音源数は構成されるマイクロフォン素子の数によって決まり、素子数Mに対してMより多くの音源の分離は極めて難しい。
【０００６】
一般に我々人間は、雑音環境下においても会話をし、その内容が理解できる。これは左右両耳に入力される音響信号の特性が、音源位置に依存して変化することに起因し、人間は、この変化を検出できることによる。これは、一般にカクテル・パーティ効果として知られている。この効果を音源分離に利用した研究の一つとして、ボーデンによって提案された両耳聴モデルに基づくカクテル・パーティ・プロセッサがある（非特許文献１）。しかし、このプロセッサは、全ての演算を時間領域で行なうことから、演算量が多く、ソフトウェアレベルでの実時間動作が困難であった。また分離精度が十分でないため、改善が求められていた。
【０００７】
これに対し、本発明者らはこの両耳聴モデルを高速化することを目的とし、全ての演算を周波数領域で行う、両耳間位相差に基づいた周波数領域両耳聴モデル（Frequency Domain Binaural Model Based on IPD：FDBM-IPD)を提案した。この手法は波長が長く、両耳同位相差が大きくならない低周波数領域の信号に対しては有効であった。これにより演算の高速化の問題は解決されたが、一方、波長が短く両耳間位相差が±πを越えてしまう可能性のある高周波数領域の信号においては、音源方向を一意に決定する為に連続位相を求める必要があり、算出が容易ではない。このため、推定誤差を考慮すると、有効な手段であるとはいえず、高周波数領域における分離性能が充分でないことが判明した。
【０００８】
そこで、本発明者らは更に両耳間レベル差および両耳間位相差を用いた周波数領域両耳聴モデル(Frequency Domain Binaural Model：FDBM)を提案した。FDBMでは、FDBM−IPDで問題となる高周波数領域の信号に対し、両耳間レベル差を用い音源方向検出を行う。これは、高周波数領域の信号が、頭部を回折しにくく、その結果両耳間レベル差が大きくなることに基づく。したがって、FDBMは低周波数領域の信号に対しては、両耳間位相差を用い、高周波数領域の信号に対しては、両耳間レベル差を用いることによって音源の到来方向を推定する。得られた推定結果に基づき、特定方向の音源のみをフィルタリングにより分離する。これにより広周波数帯域での音源方向の推定精度が改善され、また分離性能が改善された。
【０００９】
しかしながら、上記方法における音源方向の推定は、仰角が０°、すなわち水平面での一次元の方向について推定するものであり、仰角がある、すなわち二次元をなす音源方向を判定しようとすると、両耳間の位相差、レベル差が等しい点がいくつか空間上に存在するため、方向の推定は出来ないという問題が残っていた。
【００１０】
【発明が解決しようとする課題】
本発明は、上記課題を解決することを目的としており、上下左右の二次元的に存在する複数の音源から特定の音響信号を、分離する方法、及びシステムを提供することを目的としている。
【００１１】
【課題を解決するための手段】
すなわち本発明の第1の発明は、
（１）上下、左右方向の複数の音源から発生される音響信号を、左右両受音部から入力し、
（２）入力した左右両入力信号を、周波数帯域ごとに分割し、
（３）左右両入力信号のクロススペクトルから周波数帯域ごとの両耳間位相差(IPD)、左右両入力信号のパワースペクトルのレベル差から両耳間レベル差(ILD)を求め、
（４）全周波数帯域で、低周波領域では得られたＩＰＤと、高周波領域では得られたＩＬＤと、その中間領域では得られたＩＰＤとＩＬＤの加重平均と、データベースのそれとを比較することにより各周波数帯域ごとに音源の方位角と仰角の候補を推定し、
（５）上記の各周波数帯域ごとに得られた音源の方位角と仰角のうち出願頻度の高い方向を、音源の方位角と仰角と推定し、
（６）求められた音源の方位角と仰角Ｄ(ψ、φ)を基に、入力される複数の音源に対して、各周波数帯域ごとに観測信号スペクトルＬ(ω)とＲ(ω)に分離フィルタα(ω)を乗じることで特定の方位角と仰角の音源からの信号としてフィルタリングを行って分離し、
（７）分離・抽出した目的の方位角と仰角の音源から到来したと推定される各周波数帯域ごとのスペクトル成分を、逆FFT(IFFT)処理により時間波形に変形することからなる音源分離方法である。
（但し、分離フィルタα(ω)は、下記式（１２）で表される。
【数式１２】
（１２）
ここで、β(ω)は、下記式（１３）で与えられる。また、γは、分離フィルタゲインを制御するパラメータである。）
【数式１３】
（１３）
【００１２】
本発明の第２の発明は、
（１）複数の音源から発生される音響信号を、左右両受音部から入力する手段、
（２）入力した左右両入力信号を、周波数帯域ごとに分割する手段、
（３）左右両入力信号のクロススペクトルから周波数帯域ごとの両耳間位相差(IPD)、左右両入力信号のパワースペクトルのレベル差から両耳間レベル差(ILD)を求める手段、（４）全周波数帯域で、各周波数帯域ごとに、低周波領域では得られたＩＰＤを、高周波領域では得られたＩＬＤをその中間領域では、得られたＩＰＤとＩＬＤの加重平均と、データベースのそれとを比較することにより各周波数帯域ごとに音源の方位角と仰角の候補を推定する手段、
（５）上記の各周波数帯域ごとに得られた音源の方位角と仰角のうち出現頻度が高い方位角と仰角を、音源の方位角と仰角と推定する手段、
（６）上記より推定された音源の方位角と仰角情報をもとに、特定音源の方位角と仰角の周波数帯域を主として抽出することにより音源を分離する手段、
とからなる音源分離システムである。
【００１３】
【発明の実施の形態】
本発明の実施の形態について説明する。
【００１４】
本発明の第２の発明は、
（１）上下、左右方向の複数の音源から発生される音響信号を、左右両受音部から入力する手段、
（２）入力した左右両入力信号を、周波数帯域ごとに分割する手段、
（３）左右両入力信号のクロススペクトルから周波数帯域ごとの両耳間位相差(IPD)、左右両入力信号のパワースペクトルのレベル差から両耳間レベル差(ILD)を求める手段、
（４）全周波数帯域で、低周波領域では得られたＩＰＤと、高周波領域では得られたＩＬＤと、その中間領域では得られたＩＰＤとＩＬＤの加重平均と、データベースのそれとを比較することにより各周波数帯域ごとに音源の方位角と仰角の候補を推定する手段、
（５）上記の各周波数帯域ごとに得られた音源の方位角と仰角のうち出現頻度が高い方向を、音源の方位角と仰角と推定する手段、
（６）求められた音源の方位角と仰角Ｄ(ψ、φ)を基に、入力される複数の音源に対して、各周波数帯域ごとに観測信号スペクトルＬ(ω)とＲ(ω)に分離フィルタα(ω)を乗じることで特定の方位角と仰角の音源からの信号としてフィルタリングを行って分離する手段、
（７）分離・抽出した目的の方位角と仰角の音源から到来したと推定される周波数帯域ごとのスペクトル成分を、逆FFT(IFFT)処理により時間波形に変形する手段とからなる音源分離システムである。
（但し、分離フィルタα(ω)は、下記式（１２）で表される
【数式１２】
（１２）
ここで、β(ω)は、下記式（１３）で与えられる。また、γは、分離フィルタゲインを制御するパラメータである。）
【数式１３】
（１３）
【００１５】
（１）周波数帯域分割手段、分割工程
（２）両耳間情報の抽出手段、抽出工程
（３）両耳間情報に基づく音源の方位角と仰角推定手段、推定工程
（４）フィルタリング手段、フィルタリング工程
【００１６】
すなわち、本発明の方法においては、音源の分離を次の工程を経て行なう。
（１）左右両耳から入力した音響信号を、周波数帯域ごとに分割する。
（２）周波数帯域成分ごとに両耳間レベル差(ILD)・両耳間位相差(IPD)を算出する。
（３）次に、全周波数帯域において、各帯域ごとに得られたIPD及び／またはILDとデータベースに蓄積されえているIPD及び／またはILDと比較して音源の方向を推定する。
（４）上記の各周波数帯域ごとに得られた音源の方位角と仰角のうち出願頻度が高い方向を音源の方位角と仰角とする手段。
（５）上記より推定された音源の方位角と仰角情報をもとに、特定音源の方位角と仰角の周波数帯域を主として抽出することにより音源を分離する手段。
【００１７】
本発明の方法を、工程を追って説明する。周波数帯域分割工程における帯域分割器(FFT)について説明すると、まず、左右両受音部から入力した音響信号を、周波数帯域ごとに分割する。これは帯域分割器により行なう。分割する帯域な幅が特に限定されないが、好ましくはフイルタバンクと等価にせず、より細かい分解能、例えば10〜100Hzの間とすることが好ましい。
【００１８】
ある空間上の音源が鼓膜に届く過程において、その音源は頭部、耳介、外耳道等の経路を伝達する。このとき、音源はその伝達経路に応じてフィルタリングされ、その周波数特性が変化する。このフイルタは一般に頭部伝達関数(Head Related Transfer Function：HRTF)と呼ばれており、本明細書の定義でもそれに従う。本発明の音源分離方法はこの頭部伝達関数が左右両耳で異なる点に着目した解析法である。
【００１９】
本発明の方法では、図２に示したように、帯域ごとに左右それぞれの耳に入力される信号、および両耳間信号の差を抽出する。左耳の入力信号ｌ(ｔ)と右耳での入力信号ｒ(ｔ)を数式で表すと、時間領域で表したｌ(ｔ)と、ｒ(ｔ)とは、下記式（１）と下記式（２）で表される。式中ｈ_ｌ及びｈ_ｒは頭部伝達関数(HRTF)である。
【００２０】
【数式１】
ｌ(ｔ)＝Ｓ(ｔ) ＊ｈ_ｌ(ｔ) （１）
【００２１】
【数式２】
ｒ(ｔ)＝Ｓ(ｔ) ＊ｈ_ｒ(ｔ) （２）
【００２２】
これらの時間領域の式は、それぞれフーリエ変換して下記（３）式、（４）式に書き換えることができる。
【００２３】
【数式３】
Ｌ(ω)＝Ｓ(ω) ｘＨＬ(ω) （３）
【００２４】
【数式４】
Ｒ(ω)＝Ｓ(ω) ｘＨＲ(ω) （４）
【００２５】
左右の入力信号の差は音源が存在する方向の角度により異なる。本発明では、上記分別した音響情報に対して、周波数帯域成分ごとに両耳間のレベル差(以下「ILD」ということがある)、および両耳間の位相差(以下「IPD」ということがある)を算出する。
【００２６】
まず、ＩＰＤの求め方について、詳しく説明する。ＩＰＤはクロススペクトルの位相差として求めることができる。すなわち、両耳入力信号l(t)、r(t)をフーリエ変換して、そのクロススペクトルＧ_lr(ω)を求めると、両耳入力信号の耳間位相差θ_lr(ω)はＧ_lr(ω)の位相として求めることができる。
【００２７】
すなわち、入力信号ｌ(t)、r(t)、そのフーリエ変換をL(ω)、R(ω)、および入力信号のクロススペクトルＧ_lr(ω)は、下記式（５）として表すことができる。
【００２８】
【数式５】
Ｇ_lr(ω)＝Ｌ＊(ω)Ｒ(ω) （５）
【００２９】
ここでＬ*(ω)は、複素共役を示す。クロススペクトルＧ_lr(ω)より、両入力信号l(t)、r(t)間の位相差θ_lr(ω)は、下記式（６）で与えられる。
【００３０】
【数式６】
（６）
【００３１】
但し、Ｉｍ(・)、Ｒe(・)はそれぞれ引数の虚部、実部を表す。
【００３２】
（２）ILDの算出方法
ILDは両耳入力信号のパワースペクトルのレベル差として求めることができる。具体的には、式（５）で得られたクロススペクトルG_lr(ω)をパワースペクトルG_ll(ω)で除算し、その絶対値の対数をとることで得られる。すなわち、両耳間レベル差をΛ（ω）とすると、下記（７）式、及び下記（８）式として得られる。
【００３３】
【数式７】
Ｇ_ll(ω)＝Ｌ＊(ω)Ｌ(ω) （７)
【００３４】
【数式８】
（８）
【００３５】
次に上記方法で求めたIPD及び／またはILDを、データベースと対比することにより音源の方位角と仰角を推定する。左右それぞれの耳に入力された音響信号は、低周波数領域では音波が回り込み、レベル差が明確でなくなるが、高周波数領域では回り込みがなく、レベル差が明確になること、および低周波数領域では、波長が長いため、位相差を明確に求めることができるが、高周波数領域では、波長が短く、位相差が±π以上になると区別しにくくなる。そこで、低周波領域ではIPDを、高周波領域では、ILDを、その中間領域では、IPDとILDとを加重平均して用いる。一例として挙げると、750Hz以下の低周波数領域ではIPDを、1500Hz以上の高周波数領域ではILDに基づき音源の方位角と仰角を推定し、750Hz〜1500Hzでは、IPDとILDとから音源の方位角と仰角を推定することが好ましい。
【００３６】
MIT Media Lab.がウエブ上で公開しているHRTFのデータベースから、方向ごと及び周波数帯域ごとのILDおよびIPDのデータベースを作成することができる。本発明では、上記方法で得たIPD及び／またはILDと、データベースから求めたIPD及び／またはILDの値とを対比して、音源の方位角と仰角の推定を行なう。
【００３７】
例えば単一の周波数によって、その両耳間の周波数ごとに求められた位相差θ_lr(ω)をデータベース内の位相差θ(ω、 ψ、φ)と比較し、その差が閾値α以下であるとき推定の方位角と仰角とする。即ち、下記式（９）を満たす仰角ψ、方位角φを両耳間位相差より推定される音の到来方位角と仰角とする。
【００３８】
【数式９】
（９）
【００３９】
《レベル差での対比》
同じくレベル差Λ_lr(ω)とレベル情報データベース内のレベル差Λ(ω、 ψ、φ)を比較させその差が閾値βより小さいときの方向を音源の方位角と仰角とする。即ち、下記式（１０）を満たす方位角φと仰角ψを両耳間レベル差より推定される音の到来の方位角と仰角とする。
【００４０】
【数式１０】
(１０)
【００４１】
図３に周波数500Hzにおける位相差情報データベースの両耳間位相差(仰角の下４０°から上８０°まで)を示す。また、図４に周波数2kＨzにおけるレベル差情報データベースの両耳間レベル差(仰角の下４０°から上８０°まで)を示す。正中面から外に離れるにつれて両耳間位相差、両耳間レベル差共に大きくなっていくのが図よりわかる。また、同じ周波数の方位角でも仰角によってデータベースの値は異なっている。すなわち、同じ周波数にもかかわらず同じ値のIPD、ILDが存在する。このため、ＩＰＤ，ＩＬＤだけでは方向は一意には決定できない。
【００４２】
《複数の周波数を用いた方位角と仰角推定》
このように、単一の周波数帯域での方位角と仰角推定は困難である。そこで、本発明では、複数の周波数を方位角と仰角の推定に用いる。具体的な方法としては、周波数帯域ごとに方位角と仰角の推定を行い、複数の周波数帯域により推定される方位角と仰角の極大値の方向を、音の到来方位角と仰角とする。よりパワーの強い周波数帯域、あるいは、多くの周波数帯域により推定される方位角と仰角ほど、実際に音源のある確証が高いと考えられる。すなわち、下記式(11)を満たす方位角と仰角(D(ψ、φ))を音源の方位角と仰角とする。
【００４３】
【数式１１】
（１１）
【００４４】
《信号分離フイルタ》
式（１１）で音源の方向が決定したら、次ぎに、求められた音源のの方位角と仰角Ｄ(ψ、φ)を基に、入力される複数の音源に対して、帯域ごとに特定の方位角と仰角の音源からの信号としてグループ化(フィルタリング)を行い分離する。ここで、目的音源の方位角と仰角が既知であり、Ｄ0とするならば、目的音源のスペクトルは、観測信号スペクトルＬ(ω)とＲ(ω)に分離フイルタα(ω)を乗じることで得られる。ここで、α(ω)は、下記式（１２）で表される。
【００４５】
【数式１２】
（１２）
【００４６】
ここで、β(ω)は下記式（１３）で与えられる。また、Ｙは、分離フイルタゲインを制御するパラメータである。
【００４７】
【数式１３】
（１３）
【００４８】
上記方法で分離・抽出した目的の方位角と仰角の音源から到来したと推定される帯域ごとのスペクトル成分を、逆FFT(IFFT)処理により時間波形に変形し、歪の少ない分離信号を得ることができる。
【００４９】
【発明の効果】
本発明の方法、およびシステムにより従来の２入力システムでは不可能とされていた方位角と仰角を有する二次元の音源を分離することが可能となった。
【００５０】
本発明の方法、およびシステムは、音声認識フロントエンド、両耳型補聴器、ヒューマノイドに代表される自立型ロボットにおける聴覚センサー、ネットワーク会議システム、特殊レコーダー等の用途に用いることができる。
【００５１】
【実施例・参考例】
次に、参考例・実施例を挙げて本発明につき更に詳しく説明するが、本発明は、これらの参考例・実施例になんら制約されるものではない。
【００５２】
【参考例1】
実際の男声の音源の方位角と仰角を、方位角右３０°仰角上２０°とした。左右入力信号に対し、FFTによる帯域分割を行った。FFTの分析は512点で行っており、サンプリング周波数16ｋHzに対して、周波数分解能は約31Hz、フレーム長は32msとなった。
【００５３】
次に、上記周波数帯域ごとにIPDとILDを求めた。具体的には、750Hz以下の低周波数領域ではIPDを、1500Hz以上の高周波数領域ではILDに基づき音源の方位角と仰角を推定し、750Hz〜1500Hzでは、IPDとILDを加重平均して推定した。
【００５４】
次に、このIPD、ILDの計算結果と、HRTFから得たデータベースとをいくつかの周波数帯域において対比することにより、音源の方位角と仰角の推定を行った。データベースの範囲は、仰角の上90°から下40°までで、方位角の左90°から右90°のものを用意した。その結果を図５及び図６に示す。
【００５５】
図５は、音声の250Hz、500Hz、750Hzの両耳間位相差により推定される方位角と仰角を表し、図６は、1500Hz、2250Hz、3kHzの両耳間レベル差により推定される方位角と仰角を表している。各周波数の両耳間位相差及び両耳間レベル差を用いた場合、いずれも複数の方位角と仰角が検出された。しかし、実際に音声の到来方向である方位角右30°仰角上20°の位置において、各周波数の推定の方位角と仰角が重なっているのが確認できた。以上の結果から明らかなように、本発明の複数の周波数帯域でIPD、及び／またはILDによって一義的なの方位角と仰角の推定が可能となった。
【００５６】
【参考例２】
《1音源に対する方向推定シミュレーション》
1音源に対する方向推定シミュレーションを行った。本実験における目的話者、ダミーヘッドの相対的な位置を図7に示す。目的信号として男声を方位角左60°、仰角上方30°に配置した。本実験で得られた入力信号波形及び推定方位角と仰角の図を、図８に示す。
【００５７】
図８より、(a)入力波形、(b)仰角の推定方向、(c)方位角の推定方向を示している。図８より分かるように、部分的に異なる方位角と仰角を推定しているものの、誤差10°以内に収まっており、概ね実際の方位角と仰角と同じ方位角と仰角を検出している。この結果より、1音源に対する方位角と仰角推定は成功していると言える。
【００５８】
【実施例１】
《２つの混合音源の分離抽出》
二次元空間におけるFDBMの音源分離性能を評価する為に、音源分離試験を行った。本実験における目的話者、妨害話者、ダミーヘッドの相対的な位置を、図９に示す。目的信号を、方位角30°、仰角20°に配置し妨害信号を、方位角右−30°、仰角−20°に配置した。使用する音響信号は、目的信号に男声、妨害信号に女声を用いた。本実験で使用する音響信号は、全て16ｋHzサンプリング、量子化16bitとした。また、HRTFはMIT提供のものを使用した。
【００５９】
図１０に、本実験で得られた入出力信号波形を示す。波形は上から、(a)目的信号、(b)ダミーヘッドでの観測信号、(c)音源の方位角と仰角を既知とした場合の分離信号、(d)音源の方位角と仰角の推定を行った場合の分離信号である。この図から分かるように、分離信号は目的信号のエンベロープを再現しているといえる。
【図面の簡単な説明】
【図１】図１は、本発明の周波数領域両耳聴モデルシステムの１例を図1示した模式図である。
【図２】図２は、左右それぞれの耳に入力される信号、および両耳間信号の入力様子を解説するための説明図である。
【図３】図３は、周波数500Hzにおける位相差情報データベースの両耳間位相差(仰角の下４０°から上８０°まで)を示したグラフである。
【図４】図４は、周波数2kＨzにおけるレベル差情報データベースの両耳間レベル差(仰角の下４０°から上８０°まで)を示したグラフである。
【図５】図５は、本発明の参考例において、音声の250Hz、500Hz、750Hzの両耳間位相差により推定される方位角と仰角を表したグラフである。
【図６】図６は、本発明の参考例において、1500Hz、2250Hz、3kHzの両耳間レベル差により推定される方位角と仰角を表したグラフである。
【図７】図７は、本発明の参考例における目的話者、ダミーヘッドの相対的な位置を示した模式図である。
【図８】図８は、本発明の参考例における、(a)入力波形、(b)仰角の推定方向、(c)方位角の推定方向を示したグラフである。
【図９】図９は、本発明の１実施例における目的話者、妨害話者、ダミーヘッドの相対的な位置を示した模式図である。
【図１０】図１０は、本発明の１実施例で得られた入出力信号の波形の１例を示したチャートである。

Claims

（１）上下、左右方向の複数の音源から発生される音響信号を、左右両受音部から入力し、
（２）入力した左右両入力信号を、周波数帯域ごとに分割し、
（３）左右両入力信号のクロススペクトルから周波数帯域ごとの両耳間位相差(IPD)、左右両入力信号のパワースペクトルのレベル差から両耳間レベル差(ILD)を求め、
（４）全周波数帯域で、低周波領域では得られたＩＰＤと、高周波領域では得られたＩＬＤと、その中間領域では得られたＩＰＤとＩＬＤの加重平均と、データベースのそれとを比較することにより各周波数帯域ごとに音源の方位角と仰角の候補を推定し、
（５）上記の各周波数帯域ごとに得られた音源の方位角と仰角のうち出現頻度が高い方向を、音源の方位角と仰角と推定し、
（６）求められた音源の方位角と仰角Ｄ(ψ、φ)を基に、入力される複数の音源に対して、各周波数帯域ごとに観測信号スペクトルＬ(ω)とＲ(ω)に分離フィルタα(ω)を乗じることで特定の方位角と仰角の音源からの信号としてフィルタリングを行って分離し、
（７）分離・抽出した目的の方位角と仰角の音源から到来したと推定される各周波数帯域ごとのスペクトル成分を、逆FFT(IFFT)処理により時間波形に変形することからなる音源分離方法。
（但し、分離フィルタα(ω)は、下記式（１２）で表される
【数式１２】
（１２）
ここで、β(ω)は、下記式（１３）で与えられる。また、γは、分離フィルタゲインを制御するパラメータである。）
【数式１３】
（１３）
（１）上下、左右方向の複数の音源から発生される音響信号を、左右両受音部から入力する手段、
（２）入力した左右両入力信号を、周波数帯域ごとに分割する手段、
（３）左右両入力信号のクロススペクトルから周波数帯域ごとの両耳間位相差(IPD)、左右両入力信号のパワースペクトルのレベル差から両耳間レベル差(ILD)を求める手段、
（４）全周波数帯域で、低周波領域では得られたＩＰＤと、高周波領域では得られたＩＬＤと、その中間領域では得られたＩＰＤとＩＬＤの加重平均と、データベースのそれとを比較することにより各周波数帯域ごとに音源の方位角と仰角の候補を推定する手段、
（５）上記の各周波数帯域ごとに得られた音源の方位角と仰角のうち出現頻度が高い方向を、音源の方位角と仰角と推定する手段、
（６）求められた音源の方位角と仰角Ｄ(ψ、φ)を基に、入力される複数の音源に対して、各周波数帯域ごとに観測信号スペクトルＬ(ω)とＲ(ω)に分離フィルタα(ω)を乗じることで特定の方位角と仰角の音源からの信号としてフィルタリングを行って分離する手段、
（７）分離・抽出した目的の方位角と仰角の音源から到来したと推定される各周波数帯域ごとのスペクトル成分を、逆FFT(IFFT)処理により時間波形に変形する手段とからなる音源分離システム。
（但し、分離フィルタα(ω)は、下記式（１２）で表される
【数式１２】
（１２）
ここで、β(ω)は、下記式（１３）で与えられる。また、γは、分離フィルタゲインを制御するパラメータである。）
【数式１３】
（１３）