JP5113096B2

JP5113096B2 - 音源分離方法、装置およびプログラム

Info

Publication number: JP5113096B2
Application number: JP2009010843A
Authority: JP
Inventors: 俊治堀内
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2009-01-21
Filing date: 2009-01-21
Publication date: 2013-01-09
Anticipated expiration: 2029-01-21
Also published as: JP2010171585A

Description

本発明は、音源分離方法、装置およびプログラムに関し、特に、２個のマイクロホンが出力する受音信号に基づいて、目的音と妨害音を分離して抽出する音源分離方法、装置およびプログラムに関する。

街頭、車内あるいは駅のプラットホームなどに代表される雑音環境下では、ハンドセットやヘッドセットなどの口元に近接配置されたマイクロホンを用いても、目的音である所望の音声に妨害音である他の音声や周囲雑音が混入してしまうことがある。この問題を解決するため、これまでに様々な妨害音抑圧手法や音源分離手法が提案されている。これらの手法は、単一のマイクロホンを使用するものと複数のマイクロホンを使用するものとに大別できる。複数のマイクロホンを使用するものでは、単一のマイクロホンを使用するものと比較して、より高い妨害音抑圧性能を得ることができる。

複数のマイクロホンを使用する手法では、複数のマイクロホンを空間的に配置し、各マイクロホンが出力する受音信号に、各マイクロホンと音源との空間的な位置関係に依存した時間差や振幅差を反映させる。これによれば、各マイクロホンが出力する受音信号の時間差や振幅差の統計情報を利用して、目的音のみを選択的に収音したり、あるいは目的音と妨害音とを分離したりすることができる。

複数のマイクロホンを使用する手法として、音声信号のスパース性を利用した時間周波数マスキングと呼ばれる手法も提案されている。音声信号のスパース性とは、音声信号のエネルギが一部の時間周波数領域に集中し、その他の時間周波数領域ではほぼ0であるような性質をいう。

時間周波数マスキングに基づく手法では、目的音および妨害音の方向は未知でよく、目的音を抽出するために、複数のマイクロホンが出力する受音信号の各時間周波数成分の振幅差と時間差の一方または両方を算出する。そして、それらの差に基づいて各時間周波数成分を分類し、目的音と妨害音とを分離する。複数のマイクロホンが出力する受音信号の各時間周波数成分の振幅差および時間差の算出では、所定時間長ごとに周波数分析を行う。

時間周波数マスキングに基づく手法のうち、特に、複数のマイクロホンが出力する受音信号の各時間周波数成分の振幅差を用いるものは、より強い信号はそれより弱い信号をマスクするという聴覚マスキング現象を計算機上に模擬したものである。２つのマイクロホンを用いるとき、目的音に重畳された妨害音をマスクするマスクパターンは、２つのマイクロホンが出力する受音信号の各時間周波数成分の振幅差を比較することで生成され、主マイクロホンに近接している音源の高振幅の受音信号の時間周波数成分を選択的に抽出するために用いられる。この処理は、時間周波数領域で行われ、２つのマイクロホンのうちの主マイクロホンが出力する受音信号が支配的な周波数成分はそのまま出力し、もう一方の副マイクロホンが出力する受音信号が支配的な周波数成分はマスク処理する。主マイクロホンに近接している音源の受音信号に対するマスク処理は、下記式(1)で定義される。

このマスク処理では、主・副マイクロホンが出力する受音信号にスパース性が成立し、それらの時間周波数成分間に振幅差があると仮定している。これについては、非特許文献１−４に記載されている。
R.F.Lyon: "A computational model of binaural localization and separation, " In Proc. ICASSP, 1983. M. Bodden: "Modeling human sound-source localization and the cocktail-party-effect," Acta Acoustica, vol.1, pp.43--55, 1993. O. Yilmaz and S. Rickard: "Blind Separation of Speech Mixtures via Time-Frequency Masking," IEEE Transaction on Signal Processing, Vol. 52, No. 7, pp. 1830-1847, 2004. S. Rickard and O. Yilmaz: "On the Approximate W-disjoint Orthogonality of Speech," Proc. ICASSP, Vol. I, pp. 529-532, 2002.

しかしながら、一般に、人を音源とする受音信号ではスパース性は成立するが、例えば、妨害音(周囲雑音)の受音信号ではスパース性が成立しない。さらに、２つのマイクロホンが出力する受音信号において、目的音の受音信号間に振幅差があっても、妨害音の受音信号間には振幅差がない場合が多い。この結果、従来の妨害音抑圧手法や音源分離手法では、十分な妨害音抑圧や音源分離の性能を得ることができないという課題がある。

本発明の目的は、上記課題を解決し、２つのマイクロホンが出力する受音信号にスパース性が成立せず、それらの時間周波数成分間に振幅差がない場合でも、妨害音抑圧や音源分離の性能が劣化することのない音源分離装置、方法およびプログラムを提供することにある。

上記目的を達成するために、本発明の音源分離装置は、主・副マイクロホンが出力する受音信号から目的音成分および妨害音成分の少なくとも一方を分離して出力する音源分離装置であって、主・副マイクロホンの信号経路に設けられ、主・副マイクロホンが出力する受音信号をそれぞれ時間周波数成分に変換する変換手段と、主・副マイクロホンの信号経路の少なくとも一方に設けられ、時間周波数成分へ変換される前の受音信号、あるいは時間周波数成分へ変換された後の時間周波数成分にゲインを付与するゲイン付与手段と、前記ゲイン付与手段によりゲインが付与され、前記変換手段により変換された後の時間周波数成分の振幅を各時間周波数成分ごとに比較し、マスクパターンを生成するレベル差比較手段と、前記ゲイン付与手段によりゲインが付与され、前記変換手段により変換された後の時間周波数成分の少なくとも一方を、前記レベル差比較手段により生成されるマスクパターンを用いてマスキングするマスキング処理手段と、前記マスキング処理手段から出力される時間周波数成分を合成する時間周波数合成手段を備えたことを特徴としている。

また、本発明の音源分離装置は、前記ゲイン付与手段で付与されるゲインが、妨害音に対して主・副マイクロホンがそれぞれ出力する受音信号の時間周波数成分間に振幅差を生じさせ、かつ目的音に対して主・副マイクロホンがそれぞれ出力する受音信号の時間周波数成分の振幅の大小関係が逆転しないように、一定値あるいは周波数依存値に設定されることを特徴としている。

さらに、本発明の音源分離装置は、前記ゲイン付与手段が、主マイクロホンの信号経路における時間周波数成分に周波数依存値のゲインを付与し、さらに、主マイクロホンの信号経路を通して前記マスキング処理手段に入力される時間周波数成分あるいは前記マスキング処理手段から出力される、主マイクロホンの信号経路の時間周波数成分に対し、前記ゲイン付与手段でのゲイン付与と逆の処理を行ってゲインを除去するゲイン除去手段を備えたことを特徴としている。

なお、本発明は、音源分離装置としてだけでなく、受音信号の処理手順で特定される音源分離方法としても特徴があり、さらにコンピュータに音源分離や妨害音抑圧の機能を実現させるためのプログラムとしても特徴がある。

本発明では、主・副マイクロホンの信号経路の少なくとも一方にゲイン付与手段を設け、該信号経路を通る受音信号あるいは時間周波数成分にゲイン付与することにより、主・副マイクロホンが出力する受音信号の時間周波数成分間に振幅差を生じさせ、その後にマスクパターンを生成するので、主・副マイクロホンが出力する受音信号にスパース性が成立せず、それらの時間周波数成分間に振幅差がない場合でも、音源分離や妨害音抑圧の性能が劣化することがなく、音源を良好に分離できる。

以下、図面を参照して本発明を説明する。図１は、本発明に係る音源分離装置の実施形態を示すブロック図である。なお、本発明は、音源分離装置としてだけでなく、受音信号の処理手順で特定される音源分離方法としても実現でき、さらにコンピュータに音源分離や妨害音抑圧の機能を実現させるためのプログラムとしても実現できる。また、音源分離装置における各部は、ハードウエアでもソフトウエアでも実現できる。

図１の音源分離装置は、時間周波数分析部11,12、ゲイン付与部13、レベル差比較部14、マスキング処理部15および時間周波数合成部16を備える。本実施形態では、時間周波数分析部11、マスキング処理部15および時間周波数合成部16により主マイクロホンの信号経路が構成され、時間周波数分析部12およびゲイン付与部13により副マイクロホンの信号経路が構成されている。

時間周波数分析部11,12はそれぞれ、主・副マイクロホンが出力する受音信号を時間周波数領域で分析し、各時間周波数成分を出力する。ゲイン付与部13は、入力される受音信号の各時間周波数成分にゲインを付与する。

レベル差比較部14は、時間周波数分析部11とゲイン付与部13からそれぞれ出力される各時間周波数成分の振幅(レベル(絶対値))を各成分ごとに比較し、その比較結果に基づいてマスクパターンを生成する。

マスキング処理部15は、レベル差比較部14により生成されたマスクパターンに従って、時間周波数分析部11から出力される時間周波数成分をマスキングする。時間周波数合成部16は、マスキング処理部15から出力される時間周波数成分を合成する。

次に、図１の音源分離装置の動作を説明する。

時間周波数分析部11には、主マイクロホンが出力する受音信号x1(t)が入力される。携帯端末(例えば携帯電話)の場合、目的音は通話での音声である。主マイクロホンは、高レベルの目的音を受音するために、例えば、携帯端末の前面に配置される。主マイクロホンは、目的音に比べて低レベルではあるが、周囲雑音などの妨害音も受音する。したがって、受音信号x1(t)は、高レベルの目的音と低レベルの妨害音が変換されたものとなる。時間周波数分析部11は、受音信号x1(t)を時間周波数成分X1(f,t)に変換する。

一方、時間周波数分析部12には、副マイクロホンが出力する受音信号x2(t)が入力される。副マイクロホンは、妨害音を受音するために、例えば携帯端末の背面に配置される。副マイクロホンは、主マイクロホンが受音する目的音より低レベルではあるが、目的音と妨害音を受音する。副マイクロホンが受音する目的音は、主マイクロホンが受音する目的音よりかなり低レベルであり、副マイクロホンが受音する妨害音は、主マイクロホンが受音する妨害音と同レベルである。受音信号x2(t)は、妨害音と低レベルの目的音が変換されたものとなる。時間周波数分析部12は、受音信号x2(t)を時間周波数成分X2(f,t)に変換する。

ゲイン付与部13は、主・副マイクロホンの空間的な位置関係、妨害音の性質などから事前に算出されたゲインGfを時間周波数成分X2(f,t)に付与し、ゲインGfが付与された時間周波数成分Gf・X2(f,t)を送出する。ゲインGfは、目的音に対して主・副マイクロホンがそれぞれ出力する受音信号間の振幅差を考慮し、さらに、妨害音の受音信号は低周波数領域では高レベルであり、高周波数領域では低レベルであるという一般的性質を考慮して、例えば周波数成分ごとに設定する。ゲインGfは、1より大きい周波数依存値である。

目的音に対して主・副マイクロホンがそれぞれ出力する受音信号間の振幅差は、主・副マイクロホンのインパルス応答を予め測定することにより得ることができる。この振幅差は、目的音の音源と主・副マイクロホンとの間の距離、携帯端末の筐体における主・副マイクロホンの設置位置などに依存する。また、妨害音の受音信号の性質は、様々な周囲音源の受音信号を測定し、それらの周波数特性から平均的な周囲音源の受音信号の周波数ごとの振幅を算出することにより得ることができる。

ゲイン付与部13が付与するゲインGfは、妨害音に対して主・副マイクロホンがそれぞれ出力する受音信号の時間周波数成分間に振幅差を生じさせ、かつ目的音に対して主・副マイクロホンがそれぞれ出力する受音信号の時間周波数成分の振幅の大小関係が逆転しないようなものとすればよい。

レベル差比較部14は、時間周波数分析部11から出力された時間周波数成分X1(f,t)のレベル｜X1(f,t)｜とゲイン付与部13から出力された時間周波数成分Gf・X2(f,t)のレベル｜Gf・X2(f,t)｜を比較し、下記式(2)を用いてマスクパターンm1(f,t)を生成する。下記式(2)により、主マイクロホンが出力する受音信号x1(t)の時間周波数成分X1(f,t)のうち、主マイクロホンが出力する受音信号x1(t)が支配的な成分以外をマスクするマスクパターンm1(f,t)が生成される。レベル差比較部14により生成されたマスクパターンm1(f,t)は、マスキング処理部15に出力される。

マスキング処理部15は、時間周波数分析部11から入力される時間周波数成分X1(f,t)をマスクパターンm1(f,t)によりマスキングする。したがって、マスキング処理部15からは、主マイクロホンが出力する受音信号x1(t)の時間周波数成分X1(f,t)のうち、主マイクロホンが出力する受音信号x1(t)が支配的な成分Y1(f,t)のみが出力される。

時間周波数合成部16は、主マイクロホンが出力する受音信号x1(t)の時間周波数成分X1(f,t)のうち、主マイクロホンが出力する受音信号x1(t)が支配的な成分Y1(f,t)のみを合成し、出力信号y1(t)を送出する。

図２は、ゲイン付与部13でのゲイン付与動作の説明図である。同図(a),(b)はそれぞれ、ある時間において、主・副マイクロホンが出力する受音信号の各周波数成分ごと振幅(レベル)を示す。ここで、白部分は、目的音の受音信号の周波数成分であり、黒部分は、妨害音の受音信号の周波数成分である。

例えば、f_１付近の周波数成分は、目的音の受音信号のみであり、主・副マイクロホンが出力する受音信号間にかなり大きな振幅差があり、この振幅差を利用して目的音を分離することができる。しかし、f_２付近の周波数成分は、妨害音の受音信号のみであり、主・副マイクロホンが出力する受音信号の振幅はほぼ同じである。この振幅の大小関係は状況によって変わるので、f_２付近の周波数成分は、目的音として分離されたり、妨害音として分離されたりする。

そこで、図２(c)に示すように、副マイクロホンが出力する受音信号の各周波数成分X2(f,t)にゲインGfを付与し、主・副マイクロホンが妨害音の受音信号のみを出力する場合でも、主・副マイクロホンが出力する受音信号の周波数成分間に振幅差が生じるようにして、それが目的音として分離されないようにする。ここでは、ゲインGfを高周波数領域で低下させることによって該領域の目的音が分離されやすくしている。

ゲインGfは、妨害音に対して主・副マイクロホンが出力する受音信号の周波数成分間に振幅差を生じさせ、かつ目的音に対して主・副マイクロホンがそれぞれ出力する受音信号の周波数成分間の振幅差を打ち消さない、つまり、両者の大小関係を逆転させないようなものとすればよい。

しかし、特定周波数成分の目的音あるいは妨害音が重畳された目的音が分離されないように、ゲインGfを付与することもできる。例えば、図２(b)において、f_３付近の周波数成分に対するゲインGfを極めて大きくすれば、該周波数成分では目的音を含めて分離されなくなる。ゲインGfの値を調整あるいは選択できるようにしてもよい。

図３は、本発明に係る音源分離装置の他の実施形態を示すブロック図であり、図１と同一または同等部分には同じ符号を付してある。本実施形態は、時間周波数分析部12とゲイン付与部13を図１と逆に配置したものであり、本実施形態でも、時間周波数分析部11、マスキング処理部15および時間周波数合成部16により主マイクロホンの信号経路が構成され、時間周波数分析部12およびゲイン付与部13により副マイクロホンの信号経路が構成されている。

時間周波数分析部11は、主マイクロホンが出力する受音信号x1(t)を入力とし、受音信号x1(t)を時間周波数成分X1(f,t)に変換する。

ゲイン付与部13は、主・副マイクロホンの空間的な位置関係、妨害音の性質などから事前に算出されたゲインGを、副マイクロホンが出力する受音信号x2(t)に付与し、ゲインGが付与された受音信号G・x2(t)を出力する。ゲインGは、1より大きい一定値である。

時間周波数分析部12には、副マイクロホンが出力する受音信号x2(t)がゲイン付与部13を介して入力される。したがって、時間周波数分析部12は、ゲインが付与された受音信号G・x2(t)を時間周波数成分G・X2(f,t)に変換する。

レベル差比較部14は、時間周波数分析部11から出力された時間周波数成分X1(f,t)のレベル｜X1(f,t)｜と時間周波数分析部12から出力された時間周波数成分G・X2(f,t)のレベル｜G・X2(f,t)｜を比較し、下記式(3)を用いてマスクパターンm1(f,t)を生成する。下記式(3)により、主マイクロホンが出力する受音信号x1(t)の時間周波数成分X1(f,t)のうち、主マイクロホンが出力する受音信号x1(t)が支配的な成分以外をマスクするマスクパターンm1(f,t)が生成される。レベル差比較部14により生成されたマスクパターンm1(f,t)は、マスキング処理部15に出力される。

図４は、本発明に係る音源分離装置のさらに他の実施形態を示すブロック図であり、図１と同一または同等部分には同じ符号を付してある。

本実施形態では、時間周波数分析部11、ゲイン付与部13、ゲイン除去部17、マスキング処理部15および時間周波数合成部16により主マイクロホンの信号経路が構成され、時間周波数分析部12により副マイクロホンの信号経路が構成されている。

時間周波数分析部11には、主マイクロホンが出力する受音信号x1(t)が入力される。時間周波数分析部11は、受音信号x1(t)を時間周波数成分X1(f,t)に変換する。

ゲイン付与部13は、主・副マイクロホンの空間的な位置関係、妨害音の性質などから事前に算出されたゲインGfを時間周波数成分X1(f,t)に付与し、ゲインGfが付与された時間周波数成分Gf・X1(f,t)を送出する。ゲインGfは、1より小さい周波数依存値である。

一方、時間周波数分析部12には、副マイクロホンが出力する受音信号x2(t)が入力される。時間周波数分析部12は、受音信号x2(t)を時間周波数成分X2(f,t)に変換する。

レベル差比較部14は、ゲイン付与部13から出力された時間周波数成分Gf・X1(f,t)のレベル｜Gf・X1(f,t)｜と時間周波数分析部12から出力された時間周波数成分X2(f,t)のレベル｜X2(f,t)｜を比較し、下記式(4)を用いてマスクパターンm1(f,t)を生成する。下記式(4)により、主マイクロホンが出力する受音信号x1(t)の時間周波数成分X1(f,t)のうち、主マイクロホンが出力する受音信号x1(t)が支配的な成分以外をマスクするマスクパターンm1(f,t)が生成される。レベル差比較部14により生成されたマスクパターンm1(f,t)は、マスキング処理部15に出力される。

ゲイン除去部17は、時間周波数成分Gf・X1(f,t)に対し、ゲイン付与部13と逆の処理を施し、時間周波数成分X1(f,t)をマスキング処理部15に出力する。ゲイン除去部17は、ゲイン付与部13でのゲイン付与に起因する出力信号y1(t)の歪みをなくすために設けているが、歪みが許容できる場合には省略することができる。また、ゲイン除去部17は、マスキング処理部15の出力側に設けてもよい。

マスキング処理部15は、ゲイン除去部17から入力される時間周波数成分X1(f,t)をマスクパターンm1(f,t)によりマスキングする。したがって、マスキング処理部15からは、主マイクロホンが出力する受音信号x1(t)の時間周波数成分X1(f,t)のうち、主マイクロホンが出力する受音信号x1(t)が支配的な成分Y1(f,t)のみが出力される。

以上、実施形態について説明したが、本発明は、上記実施形態に限定されず、種々に変形することができる。例えば、ゲイン付与部は、図１および図３の実施形態では副マイクロホンの信号経路に設けられ、図４の実施形態では主マイクロホンの信号経路に設けられたが、主・副マイクロホンの信号経路の両方にゲイン付与部を設け、それらのゲインを調整するようにすることもできる。ただし、主マイクロホンの信号経路においてゲインGf(周波数依存値)を付与する場合には、主マイクロホンが出力する受音信号がゲインGfによって変形されるので、図４の実施形態と同様に、ゲイン除去部を設けることが好ましい。

また、上記実施形態は、目的音の受音信号を分離して出力するものであるが、これに加えて妨害音の受音信号を分離して出力したり、妨害音の受音信号のみを分離して出力するようにもできる。妨害音の受音信号は、例えば、周囲雑音の測定、携帯端末の背面方向から到来する音声の抽出などに用いることができる。

図５は、目的音および妨害音の受音信号をそれぞれ分離して出力する場合の変形例を示すブロック図である。同図において、時間周波数分析部11,12、ゲイン付与部13、マスキング処理部15および時間周波数合成部16は、図１と同じものであるが、レベル差比較部14は、マスクパターンm1(f,t)の他に、これが反転されたマスクパターンm2(f,t)を、下記式(5)により生成する。

マスキング処理部18は、ゲイン付与部13から入力される時間周波数成分Gf・X2(f,t)をマスクパターンm2(f,t)によりマスキングする。したがって、マスキング処理部18からは、時間周波数成分Gf・X2(f,t)のうち、主マイクロホンが出力する受音信号x1(t)が支配的な成分を除いた成分、すなわち妨害音に時間周波数成分のみが出力される。

時間周波数合成部19は、時間周波数成分Gf・X2(f,t)のうち、主マイクロホンが出力する受音信号x1(t)が支配的な成分を除いた成分Gf・Y2(f,t)、すなわち妨害音に時間周波数成分Gf・Y2(f,t)のみを合成し、出力信号Gfy2(t)を出力する。この場合でもゲイン除去回路を設ければ出力信号y2(t)を出力させることができる。

本発明に係る音源分離装置の実施形態を示すブロック図である。ゲイン付与部でのゲイン付与動作の説明図である。本発明に係る音源分離装置の他の実施形態を示すブロック図である。本発明に係る音源分離装置のさらに他の実施形態を示すブロック図である。本発明に係る音源分離装置の変形例を示すブロック図である。

11,12・・・時間周波数分析部、13・・・ゲイン付与部、14・・・レベル差比較部、15,19・・・マスキング処理部、16,19・・・時間周波数合成部、17・・・ゲイン除去部

Claims

主・副マイクロホンが出力する受音信号から目的音成分および妨害音成分の少なくとも一方を分離して出力する音源分離方法において、
主・副マイクロホンの信号経路において、主・副マイクロホンが出力する受音信号をそれぞれ時間周波数成分に変換する第１のステップと、
主・副マイクロホンの信号経路の少なくとも一方において、時間周波数成分へ変換される前の受音信号、あるいは時間周波数成分へ変換された後の時間周波数成分にゲインを付与する第２のステップと、
前記第２のステップによりゲインが付与され、前記第１のステップにより変換された後の時間周波数成分の振幅を各時間周波数成分ごとに比較し、マスクパターンを生成する第３のステップと、
前記第２のステップによりゲインが付与され、前記第１のステップにより変換された後の時間周波数成分の少なくとも一方を、前記第３のステップにより生成されるマスクパターンを用いてマスキングする第４のステップと、
前記第４のステップにより出力される時間周波数成分を合成する第５のステップを有することを特徴とする音源分離方法。
主・副マイクロホンが出力する受音信号から目的音成分および妨害音成分の少なくとも一方を分離して出力する音源分離装置において、
主・副マイクロホンの信号経路に設けられ、主・副マイクロホンが出力する受音信号をそれぞれ時間周波数成分に変換する変換手段と、
主・副マイクロホンの信号経路の少なくとも一方に設けられ、時間周波数成分へ変換される前の受音信号、あるいは時間周波数成分へ変換された後の時間周波数成分にゲインを付与するゲイン付与手段と、
前記ゲイン付与手段によりゲインが付与され、前記変換手段により変換された後の時間周波数成分の振幅を各時間周波数成分ごとに比較し、マスクパターンを生成するレベル差比較手段と、
前記ゲイン付与手段によりゲインが付与され、前記変換手段により変換された後の時間周波数成分の少なくとも一方を、前記レベル差比較手段により生成されるマスクパターンを用いてマスキングするマスキング処理手段と、
前記マスキング処理手段から出力される時間周波数成分を合成する時間周波数合成手段を備えたことを特徴とする音源分離装置。
前記ゲイン付与手段で付与されるゲインは、妨害音に対して主・副マイクロホンがそれぞれ出力する受音信号の時間周波数成分間に振幅差を生じさせ、かつ目的音に対して主・副マイクロホンがそれぞれ出力する受音信号の時間周波数成分の振幅の大小関係が逆転しないように、一定値あるいは周波数依存値に設定されることを特徴とする請求項２に記載の音源分離装置。
前記ゲイン付与手段は、主マイクロホンの信号経路における時間周波数成分に周波数依存値のゲインを付与し、さらに、主マイクロホンの信号経路を通して前記マスキング処理手段に入力される時間周波数成分あるいは前記マスキング処理手段から出力される、主マイクロホンの信号経路の時間周波数成分に対し、前記ゲイン付与手段でのゲイン付与と逆の処理を施してゲインを除去するゲイン除去手段を備えたことを特徴とする請求項２または３に記載の音源分離装置。
主・副マイクロホンが出力する受音信号から目的音成分および妨害音成分の少なくとも一方を分離して出力する機能を実現するプログラムであって、コンピュータに、
主・副マイクロホンの信号経路において、主・副マイクロホンが出力する受音信号をそれぞれ時間周波数成分に変換する第１の機能と、
主・副マイクロホンの信号経路の少なくとも一方において、時間周波数成分へ変換される前の受音信号、あるいは時間周波数成分へ変換された後の時間周波数成分にゲインを付与する第２の機能と、
前記第２の機能によりゲインが付与され、前記第１の機能により変換された後の時間周波数成分の振幅を各時間周波数成分ごとに比較し、マスクパターンを生成する第３の機能と、
前記第２の機能によりゲインが付与され、前記第１の機能により変換された後の時間周波数成分の少なくとも一方を、前記第３の機能により生成されるマスクパターンを用いてマスキングする第４の機能と、
前記第４の機能により出力される時間周波数成分を合成する第５の機能を実行させるプログラム。