JP5113096B2 - 音源分離方法、装置およびプログラム - Google Patents

音源分離方法、装置およびプログラム Download PDF

Info

Publication number
JP5113096B2
JP5113096B2 JP2009010843A JP2009010843A JP5113096B2 JP 5113096 B2 JP5113096 B2 JP 5113096B2 JP 2009010843 A JP2009010843 A JP 2009010843A JP 2009010843 A JP2009010843 A JP 2009010843A JP 5113096 B2 JP5113096 B2 JP 5113096B2
Authority
JP
Japan
Prior art keywords
time frequency
sound
gain
main
frequency component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009010843A
Other languages
English (en)
Other versions
JP2010171585A (ja
Inventor
俊治 堀内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2009010843A priority Critical patent/JP5113096B2/ja
Publication of JP2010171585A publication Critical patent/JP2010171585A/ja
Application granted granted Critical
Publication of JP5113096B2 publication Critical patent/JP5113096B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、音源分離方法、装置およびプログラムに関し、特に、2個のマイクロホンが出力する受音信号に基づいて、目的音と妨害音を分離して抽出する音源分離方法、装置およびプログラムに関する。
街頭、車内あるいは駅のプラットホームなどに代表される雑音環境下では、ハンドセットやヘッドセットなどの口元に近接配置されたマイクロホンを用いても、目的音である所望の音声に妨害音である他の音声や周囲雑音が混入してしまうことがある。この問題を解決するため、これまでに様々な妨害音抑圧手法や音源分離手法が提案されている。これらの手法は、単一のマイクロホンを使用するものと複数のマイクロホンを使用するものとに大別できる。複数のマイクロホンを使用するものでは、単一のマイクロホンを使用するものと比較して、より高い妨害音抑圧性能を得ることができる。
複数のマイクロホンを使用する手法では、複数のマイクロホンを空間的に配置し、各マイクロホンが出力する受音信号に、各マイクロホンと音源との空間的な位置関係に依存した時間差や振幅差を反映させる。これによれば、各マイクロホンが出力する受音信号の時間差や振幅差の統計情報を利用して、目的音のみを選択的に収音したり、あるいは目的音と妨害音とを分離したりすることができる。
複数のマイクロホンを使用する手法として、音声信号のスパース性を利用した時間周波数マスキングと呼ばれる手法も提案されている。音声信号のスパース性とは、音声信号のエネルギが一部の時間周波数領域に集中し、その他の時間周波数領域ではほぼ0であるような性質をいう。
時間周波数マスキングに基づく手法では、目的音および妨害音の方向は未知でよく、目的音を抽出するために、複数のマイクロホンが出力する受音信号の各時間周波数成分の振幅差と時間差の一方または両方を算出する。そして、それらの差に基づいて各時間周波数成分を分類し、目的音と妨害音とを分離する。複数のマイクロホンが出力する受音信号の各時間周波数成分の振幅差および時間差の算出では、所定時間長ごとに周波数分析を行う。
時間周波数マスキングに基づく手法のうち、特に、複数のマイクロホンが出力する受音信号の各時間周波数成分の振幅差を用いるものは、より強い信号はそれより弱い信号をマスクするという聴覚マスキング現象を計算機上に模擬したものである。2つのマイクロホンを用いるとき、目的音に重畳された妨害音をマスクするマスクパターンは、2つのマイクロホンが出力する受音信号の各時間周波数成分の振幅差を比較することで生成され、主マイクロホンに近接している音源の高振幅の受音信号の時間周波数成分を選択的に抽出するために用いられる。この処理は、時間周波数領域で行われ、2つのマイクロホンのうちの主マイクロホンが出力する受音信号が支配的な周波数成分はそのまま出力し、もう一方の副マイクロホンが出力する受音信号が支配的な周波数成分はマスク処理する。主マイクロホンに近接している音源の受音信号に対するマスク処理は、下記式(1)で定義される。
Figure 0005113096
このマスク処理では、主・副マイクロホンが出力する受音信号にスパース性が成立し、それらの時間周波数成分間に振幅差があると仮定している。これについては、非特許文献1−4に記載されている。
R.F.Lyon: "A computational model of binaural localization and separation, " In Proc. ICASSP, 1983. M. Bodden: "Modeling human sound-source localization and the cocktail-party-effect," Acta Acoustica, vol.1, pp.43--55, 1993. O. Yilmaz and S. Rickard: "Blind Separation of Speech Mixtures via Time-Frequency Masking," IEEE Transaction on Signal Processing, Vol. 52, No. 7, pp. 1830-1847, 2004. S. Rickard and O. Yilmaz: "On the Approximate W-disjoint Orthogonality of Speech," Proc. ICASSP, Vol. I, pp. 529-532, 2002.
しかしながら、一般に、人を音源とする受音信号ではスパース性は成立するが、例えば、妨害音(周囲雑音)の受音信号ではスパース性が成立しない。さらに、2つのマイクロホンが出力する受音信号において、目的音の受音信号間に振幅差があっても、妨害音の受音信号間には振幅差がない場合が多い。この結果、従来の妨害音抑圧手法や音源分離手法では、十分な妨害音抑圧や音源分離の性能を得ることができないという課題がある。
本発明の目的は、上記課題を解決し、2つのマイクロホンが出力する受音信号にスパース性が成立せず、それらの時間周波数成分間に振幅差がない場合でも、妨害音抑圧や音源分離の性能が劣化することのない音源分離装置、方法およびプログラムを提供することにある。
上記目的を達成するために、本発明の音源分離装置は、主・副マイクロホンが出力する受音信号から目的音成分および妨害音成分の少なくとも一方を分離して出力する音源分離装置であって、主・副マイクロホンの信号経路に設けられ、主・副マイクロホンが出力する受音信号をそれぞれ時間周波数成分に変換する変換手段と、主・副マイクロホンの信号経路の少なくとも一方に設けられ、時間周波数成分へ変換される前の受音信号、あるいは時間周波数成分へ変換された後の時間周波数成分にゲインを付与するゲイン付与手段と、前記ゲイン付与手段によりゲインが付与され、前記変換手段により変換された後の時間周波数成分の振幅を各時間周波数成分ごとに比較し、マスクパターンを生成するレベル差比較手段と、前記ゲイン付与手段によりゲインが付与され、前記変換手段により変換された後の時間周波数成分の少なくとも一方を、前記レベル差比較手段により生成されるマスクパターンを用いてマスキングするマスキング処理手段と、前記マスキング処理手段から出力される時間周波数成分を合成する時間周波数合成手段を備えたことを特徴としている。
また、本発明の音源分離装置は、前記ゲイン付与手段で付与されるゲインが、妨害音に対して主・副マイクロホンがそれぞれ出力する受音信号の時間周波数成分間に振幅差を生じさせ、かつ目的音に対して主・副マイクロホンがそれぞれ出力する受音信号の時間周波数成分の振幅の大小関係が逆転しないように、一定値あるいは周波数依存値に設定されることを特徴としている。
さらに、本発明の音源分離装置は、前記ゲイン付与手段が、主マイクロホンの信号経路における時間周波数成分に周波数依存値のゲインを付与し、さらに、主マイクロホンの信号経路を通して前記マスキング処理手段に入力される時間周波数成分あるいは前記マスキング処理手段から出力される、主マイクロホンの信号経路の時間周波数成分に対し、前記ゲイン付与手段でのゲイン付与と逆の処理を行ってゲインを除去するゲイン除去手段を備えたことを特徴としている。
なお、本発明は、音源分離装置としてだけでなく、受音信号の処理手順で特定される音源分離方法としても特徴があり、さらにコンピュータに音源分離や妨害音抑圧の機能を実現させるためのプログラムとしても特徴がある。
本発明では、主・副マイクロホンの信号経路の少なくとも一方にゲイン付与手段を設け、該信号経路を通る受音信号あるいは時間周波数成分にゲイン付与することにより、主・副マイクロホンが出力する受音信号の時間周波数成分間に振幅差を生じさせ、その後にマスクパターンを生成するので、主・副マイクロホンが出力する受音信号にスパース性が成立せず、それらの時間周波数成分間に振幅差がない場合でも、音源分離や妨害音抑圧の性能が劣化することがなく、音源を良好に分離できる。
以下、図面を参照して本発明を説明する。図1は、本発明に係る音源分離装置の実施形態を示すブロック図である。なお、本発明は、音源分離装置としてだけでなく、受音信号の処理手順で特定される音源分離方法としても実現でき、さらにコンピュータに音源分離や妨害音抑圧の機能を実現させるためのプログラムとしても実現できる。また、音源分離装置における各部は、ハードウエアでもソフトウエアでも実現できる。
図1の音源分離装置は、時間周波数分析部11,12、ゲイン付与部13、レベル差比較部14、マスキング処理部15および時間周波数合成部16を備える。本実施形態では、時間周波数分析部11、マスキング処理部15および時間周波数合成部16により主マイクロホンの信号経路が構成され、時間周波数分析部12およびゲイン付与部13により副マイクロホンの信号経路が構成されている。
時間周波数分析部11,12はそれぞれ、主・副マイクロホンが出力する受音信号を時間周波数領域で分析し、各時間周波数成分を出力する。ゲイン付与部13は、入力される受音信号の各時間周波数成分にゲインを付与する。
レベル差比較部14は、時間周波数分析部11とゲイン付与部13からそれぞれ出力される各時間周波数成分の振幅(レベル(絶対値))を各成分ごとに比較し、その比較結果に基づいてマスクパターンを生成する。
マスキング処理部15は、レベル差比較部14により生成されたマスクパターンに従って、時間周波数分析部11から出力される時間周波数成分をマスキングする。時間周波数合成部16は、マスキング処理部15から出力される時間周波数成分を合成する。
次に、図1の音源分離装置の動作を説明する。
時間周波数分析部11には、主マイクロホンが出力する受音信号x1(t)が入力される。携帯端末(例えば携帯電話)の場合、目的音は通話での音声である。主マイクロホンは、高レベルの目的音を受音するために、例えば、携帯端末の前面に配置される。主マイクロホンは、目的音に比べて低レベルではあるが、周囲雑音などの妨害音も受音する。したがって、受音信号x1(t)は、高レベルの目的音と低レベルの妨害音が変換されたものとなる。時間周波数分析部11は、受音信号x1(t)を時間周波数成分X1(f,t)に変換する。
一方、時間周波数分析部12には、副マイクロホンが出力する受音信号x2(t)が入力される。副マイクロホンは、妨害音を受音するために、例えば携帯端末の背面に配置される。副マイクロホンは、主マイクロホンが受音する目的音より低レベルではあるが、目的音と妨害音を受音する。副マイクロホンが受音する目的音は、主マイクロホンが受音する目的音よりかなり低レベルであり、副マイクロホンが受音する妨害音は、主マイクロホンが受音する妨害音と同レベルである。受音信号x2(t)は、妨害音と低レベルの目的音が変換されたものとなる。時間周波数分析部12は、受音信号x2(t)を時間周波数成分X2(f,t)に変換する。
ゲイン付与部13は、主・副マイクロホンの空間的な位置関係、妨害音の性質などから事前に算出されたゲインGfを時間周波数成分X2(f,t)に付与し、ゲインGfが付与された時間周波数成分Gf・X2(f,t)を送出する。ゲインGfは、目的音に対して主・副マイクロホンがそれぞれ出力する受音信号間の振幅差を考慮し、さらに、妨害音の受音信号は低周波数領域では高レベルであり、高周波数領域では低レベルであるという一般的性質を考慮して、例えば周波数成分ごとに設定する。ゲインGfは、1より大きい周波数依存値である。
目的音に対して主・副マイクロホンがそれぞれ出力する受音信号間の振幅差は、主・副マイクロホンのインパルス応答を予め測定することにより得ることができる。この振幅差は、目的音の音源と主・副マイクロホンとの間の距離、携帯端末の筐体における主・副マイクロホンの設置位置などに依存する。また、妨害音の受音信号の性質は、様々な周囲音源の受音信号を測定し、それらの周波数特性から平均的な周囲音源の受音信号の周波数ごとの振幅を算出することにより得ることができる。
ゲイン付与部13が付与するゲインGfは、妨害音に対して主・副マイクロホンがそれぞれ出力する受音信号の時間周波数成分間に振幅差を生じさせ、かつ目的音に対して主・副マイクロホンがそれぞれ出力する受音信号の時間周波数成分の振幅の大小関係が逆転しないようなものとすればよい。
レベル差比較部14は、時間周波数分析部11から出力された時間周波数成分X1(f,t)のレベル|X1(f,t)|とゲイン付与部13から出力された時間周波数成分Gf・X2(f,t)のレベル|Gf・X2(f,t)|を比較し、下記式(2)を用いてマスクパターンm1(f,t)を生成する。下記式(2)により、主マイクロホンが出力する受音信号x1(t)の時間周波数成分X1(f,t)のうち、主マイクロホンが出力する受音信号x1(t)が支配的な成分以外をマスクするマスクパターンm1(f,t)が生成される。レベル差比較部14により生成されたマスクパターンm1(f,t)は、マスキング処理部15に出力される。
Figure 0005113096
マスキング処理部15は、時間周波数分析部11から入力される時間周波数成分X1(f,t)をマスクパターンm1(f,t)によりマスキングする。したがって、マスキング処理部15からは、主マイクロホンが出力する受音信号x1(t)の時間周波数成分X1(f,t)のうち、主マイクロホンが出力する受音信号x1(t)が支配的な成分Y1(f,t)のみが出力される。
時間周波数合成部16は、主マイクロホンが出力する受音信号x1(t)の時間周波数成分X1(f,t)のうち、主マイクロホンが出力する受音信号x1(t)が支配的な成分Y1(f,t)のみを合成し、出力信号y1(t)を送出する。
図2は、ゲイン付与部13でのゲイン付与動作の説明図である。同図(a),(b)はそれぞれ、ある時間において、主・副マイクロホンが出力する受音信号の各周波数成分ごと振幅(レベル)を示す。ここで、白部分は、目的音の受音信号の周波数成分であり、黒部分は、妨害音の受音信号の周波数成分である。
例えば、f付近の周波数成分は、目的音の受音信号のみであり、主・副マイクロホンが出力する受音信号間にかなり大きな振幅差があり、この振幅差を利用して目的音を分離することができる。しかし、f付近の周波数成分は、妨害音の受音信号のみであり、主・副マイクロホンが出力する受音信号の振幅はほぼ同じである。この振幅の大小関係は状況によって変わるので、f付近の周波数成分は、目的音として分離されたり、妨害音として分離されたりする。
そこで、図2(c)に示すように、副マイクロホンが出力する受音信号の各周波数成分X2(f,t)にゲインGfを付与し、主・副マイクロホンが妨害音の受音信号のみを出力する場合でも、主・副マイクロホンが出力する受音信号の周波数成分間に振幅差が生じるようにして、それが目的音として分離されないようにする。ここでは、ゲインGfを高周波数領域で低下させることによって該領域の目的音が分離されやすくしている。
ゲインGfは、妨害音に対して主・副マイクロホンが出力する受音信号の周波数成分間に振幅差を生じさせ、かつ目的音に対して主・副マイクロホンがそれぞれ出力する受音信号の周波数成分間の振幅差を打ち消さない、つまり、両者の大小関係を逆転させないようなものとすればよい。
しかし、特定周波数成分の目的音あるいは妨害音が重畳された目的音が分離されないように、ゲインGfを付与することもできる。例えば、図2(b)において、f付近の周波数成分に対するゲインGfを極めて大きくすれば、該周波数成分では目的音を含めて分離されなくなる。ゲインGfの値を調整あるいは選択できるようにしてもよい。
図3は、本発明に係る音源分離装置の他の実施形態を示すブロック図であり、図1と同一または同等部分には同じ符号を付してある。本実施形態は、時間周波数分析部12とゲイン付与部13を図1と逆に配置したものであり、本実施形態でも、時間周波数分析部11、マスキング処理部15および時間周波数合成部16により主マイクロホンの信号経路が構成され、時間周波数分析部12およびゲイン付与部13により副マイクロホンの信号経路が構成されている。
時間周波数分析部11は、主マイクロホンが出力する受音信号x1(t)を入力とし、受音信号x1(t)を時間周波数成分X1(f,t)に変換する。
ゲイン付与部13は、主・副マイクロホンの空間的な位置関係、妨害音の性質などから事前に算出されたゲインGを、副マイクロホンが出力する受音信号x2(t)に付与し、ゲインGが付与された受音信号G・x2(t)を出力する。ゲインGは、1より大きい一定値である。
時間周波数分析部12には、副マイクロホンが出力する受音信号x2(t)がゲイン付与部13を介して入力される。したがって、時間周波数分析部12は、ゲインが付与された受音信号G・x2(t)を時間周波数成分G・X2(f,t)に変換する。
レベル差比較部14は、時間周波数分析部11から出力された時間周波数成分X1(f,t)のレベル|X1(f,t)|と時間周波数分析部12から出力された時間周波数成分G・X2(f,t)のレベル|G・X2(f,t)|を比較し、下記式(3)を用いてマスクパターンm1(f,t)を生成する。下記式(3)により、主マイクロホンが出力する受音信号x1(t)の時間周波数成分X1(f,t)のうち、主マイクロホンが出力する受音信号x1(t)が支配的な成分以外をマスクするマスクパターンm1(f,t)が生成される。レベル差比較部14により生成されたマスクパターンm1(f,t)は、マスキング処理部15に出力される。
Figure 0005113096
マスキング処理部15は、時間周波数分析部11から入力される時間周波数成分X1(f,t)をマスクパターンm1(f,t)によりマスキングする。したがって、マスキング処理部15からは、主マイクロホンが出力する受音信号x1(t)の時間周波数成分X1(f,t)のうち、主マイクロホンが出力する受音信号x1(t)が支配的な成分Y1(f,t)のみが出力される。
時間周波数合成部16は、主マイクロホンが出力する受音信号x1(t)の時間周波数成分X1(f,t)のうち、主マイクロホンが出力する受音信号x1(t)が支配的な成分Y1(f,t)のみを合成し、出力信号y1(t)を送出する。
図4は、本発明に係る音源分離装置のさらに他の実施形態を示すブロック図であり、図1と同一または同等部分には同じ符号を付してある。
本実施形態では、時間周波数分析部11、ゲイン付与部13、ゲイン除去部17、マスキング処理部15および時間周波数合成部16により主マイクロホンの信号経路が構成され、時間周波数分析部12により副マイクロホンの信号経路が構成されている。
時間周波数分析部11には、主マイクロホンが出力する受音信号x1(t)が入力される。時間周波数分析部11は、受音信号x1(t)を時間周波数成分X1(f,t)に変換する。
ゲイン付与部13は、主・副マイクロホンの空間的な位置関係、妨害音の性質などから事前に算出されたゲインGfを時間周波数成分X1(f,t)に付与し、ゲインGfが付与された時間周波数成分Gf・X1(f,t)を送出する。ゲインGfは、1より小さい周波数依存値である。
一方、時間周波数分析部12には、副マイクロホンが出力する受音信号x2(t)が入力される。時間周波数分析部12は、受音信号x2(t)を時間周波数成分X2(f,t)に変換する。
レベル差比較部14は、ゲイン付与部13から出力された時間周波数成分Gf・X1(f,t)のレベル|Gf・X1(f,t)|と時間周波数分析部12から出力された時間周波数成分X2(f,t)のレベル|X2(f,t)|を比較し、下記式(4)を用いてマスクパターンm1(f,t)を生成する。下記式(4)により、主マイクロホンが出力する受音信号x1(t)の時間周波数成分X1(f,t)のうち、主マイクロホンが出力する受音信号x1(t)が支配的な成分以外をマスクするマスクパターンm1(f,t)が生成される。レベル差比較部14により生成されたマスクパターンm1(f,t)は、マスキング処理部15に出力される。
Figure 0005113096
ゲイン除去部17は、時間周波数成分Gf・X1(f,t)に対し、ゲイン付与部13と逆の処理を施し、時間周波数成分X1(f,t)をマスキング処理部15に出力する。ゲイン除去部17は、ゲイン付与部13でのゲイン付与に起因する出力信号y1(t)の歪みをなくすために設けているが、歪みが許容できる場合には省略することができる。 また、ゲイン除去部17は、マスキング処理部15の出力側に設けてもよい。
マスキング処理部15は、ゲイン除去部17から入力される時間周波数成分X1(f,t)をマスクパターンm1(f,t)によりマスキングする。したがって、マスキング処理部15からは、主マイクロホンが出力する受音信号x1(t)の時間周波数成分X1(f,t)のうち、主マイクロホンが出力する受音信号x1(t)が支配的な成分Y1(f,t)のみが出力される。
時間周波数合成部16は、主マイクロホンが出力する受音信号x1(t)の時間周波数成分X1(f,t)のうち、主マイクロホンが出力する受音信号x1(t)が支配的な成分Y1(f,t)のみを合成し、出力信号y1(t)を送出する。
以上、実施形態について説明したが、本発明は、上記実施形態に限定されず、種々に変形することができる。例えば、ゲイン付与部は、図1および図3の実施形態では副マイクロホンの信号経路に設けられ、図4の実施形態では主マイクロホンの信号経路に設けられたが、主・副マイクロホンの信号経路の両方にゲイン付与部を設け、それらのゲインを調整するようにすることもできる。ただし、主マイクロホンの信号経路においてゲインGf(周波数依存値)を付与する場合には、主マイクロホンが出力する受音信号がゲインGfによって変形されるので、図4の実施形態と同様に、ゲイン除去部を設けることが好ましい。
また、上記実施形態は、目的音の受音信号を分離して出力するものであるが、これに加えて妨害音の受音信号を分離して出力したり、妨害音の受音信号のみを分離して出力するようにもできる。妨害音の受音信号は、例えば、周囲雑音の測定、携帯端末の背面方向から到来する音声の抽出などに用いることができる。
図5は、目的音および妨害音の受音信号をそれぞれ分離して出力する場合の変形例を示すブロック図である。同図において、時間周波数分析部11,12、ゲイン付与部13、マスキング処理部15および時間周波数合成部16は、図1と同じものであるが、レベル差比較部14は、マスクパターンm1(f,t)の他に、これが反転されたマスクパターンm2(f,t)を、下記式(5)により生成する。
Figure 0005113096
マスキング処理部18は、ゲイン付与部13から入力される時間周波数成分Gf・X2(f,t)をマスクパターンm2(f,t)によりマスキングする。したがって、マスキング処理部18からは、時間周波数成分Gf・X2(f,t)のうち、主マイクロホンが出力する受音信号x1(t)が支配的な成分を除いた成分、すなわち妨害音に時間周波数成分のみが出力される。
時間周波数合成部19は、時間周波数成分Gf・X2(f,t)のうち、主マイクロホンが出力する受音信号x1(t)が支配的な成分を除いた成分Gf・Y2(f,t)、すなわち妨害音に時間周波数成分Gf・Y2(f,t)のみを合成し、出力信号Gfy2(t)を出力する。この場合でもゲイン除去回路を設ければ出力信号y2(t)を出力させることができる。
本発明に係る音源分離装置の実施形態を示すブロック図である。 ゲイン付与部でのゲイン付与動作の説明図である。 本発明に係る音源分離装置の他の実施形態を示すブロック図である。 本発明に係る音源分離装置のさらに他の実施形態を示すブロック図である。 本発明に係る音源分離装置の変形例を示すブロック図である。
11,12・・・時間周波数分析部、13・・・ゲイン付与部、14・・・レベル差比較部、15,19・・・マスキング処理部、16,19・・・時間周波数合成部、17・・・ゲイン除去部

Claims (5)

  1. 主・副マイクロホンが出力する受音信号から目的音成分および妨害音成分の少なくとも一方を分離して出力する音源分離方法において、
    主・副マイクロホンの信号経路において、主・副マイクロホンが出力する受音信号をそれぞれ時間周波数成分に変換する第1のステップと、
    主・副マイクロホンの信号経路の少なくとも一方において、時間周波数成分へ変換される前の受音信号、あるいは時間周波数成分へ変換された後の時間周波数成分にゲインを付与する第2のステップと、
    前記第2のステップによりゲインが付与され、前記第1のステップにより変換された後の時間周波数成分の振幅を各時間周波数成分ごとに比較し、マスクパターンを生成する第3のステップと、
    前記第2のステップによりゲインが付与され、前記第1のステップにより変換された後の時間周波数成分の少なくとも一方を、前記第3のステップにより生成されるマスクパターンを用いてマスキングする第4のステップと、
    前記第4のステップにより出力される時間周波数成分を合成する第5のステップを有することを特徴とする音源分離方法。
  2. 主・副マイクロホンが出力する受音信号から目的音成分および妨害音成分の少なくとも一方を分離して出力する音源分離装置において、
    主・副マイクロホンの信号経路に設けられ、主・副マイクロホンが出力する受音信号をそれぞれ時間周波数成分に変換する変換手段と、
    主・副マイクロホンの信号経路の少なくとも一方に設けられ、時間周波数成分へ変換される前の受音信号、あるいは時間周波数成分へ変換された後の時間周波数成分にゲインを付与するゲイン付与手段と、
    前記ゲイン付与手段によりゲインが付与され、前記変換手段により変換された後の時間周波数成分の振幅を各時間周波数成分ごとに比較し、マスクパターンを生成するレベル差比較手段と、
    前記ゲイン付与手段によりゲインが付与され、前記変換手段により変換された後の時間周波数成分の少なくとも一方を、前記レベル差比較手段により生成されるマスクパターンを用いてマスキングするマスキング処理手段と、
    前記マスキング処理手段から出力される時間周波数成分を合成する時間周波数合成手段を備えたことを特徴とする音源分離装置。
  3. 前記ゲイン付与手段で付与されるゲインは、妨害音に対して主・副マイクロホンがそれぞれ出力する受音信号の時間周波数成分間に振幅差を生じさせ、かつ目的音に対して主・副マイクロホンがそれぞれ出力する受音信号の時間周波数成分の振幅の大小関係が逆転しないように、一定値あるいは周波数依存値に設定されることを特徴とする請求項2に記載の音源分離装置。
  4. 前記ゲイン付与手段は、主マイクロホンの信号経路における時間周波数成分に周波数依存値のゲインを付与し、さらに、主マイクロホンの信号経路を通して前記マスキング処理手段に入力される時間周波数成分あるいは前記マスキング処理手段から出力される、主マイクロホンの信号経路の時間周波数成分に対し、前記ゲイン付与手段でのゲイン付与と逆の処理を施してゲインを除去するゲイン除去手段を備えたことを特徴とする請求項2または3に記載の音源分離装置。
  5. 主・副マイクロホンが出力する受音信号から目的音成分および妨害音成分の少なくとも一方を分離して出力する機能を実現するプログラムであって、コンピュータに、
    主・副マイクロホンの信号経路において、主・副マイクロホンが出力する受音信号をそれぞれ時間周波数成分に変換する第1の機能と、
    主・副マイクロホンの信号経路の少なくとも一方において、時間周波数成分へ変換される前の受音信号、あるいは時間周波数成分へ変換された後の時間周波数成分にゲインを付与する第2の機能と、
    前記第2の機能によりゲインが付与され、前記第1の機能により変換された後の時間周波数成分の振幅を各時間周波数成分ごとに比較し、マスクパターンを生成する第3の機能と、
    前記第2の機能によりゲインが付与され、前記第1の機能により変換された後の時間周波数成分の少なくとも一方を、前記第3の機能により生成されるマスクパターンを用いてマスキングする第4の機能と、
    前記第4の機能により出力される時間周波数成分を合成する第5の機能を実行させるプログラム。
JP2009010843A 2009-01-21 2009-01-21 音源分離方法、装置およびプログラム Expired - Fee Related JP5113096B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009010843A JP5113096B2 (ja) 2009-01-21 2009-01-21 音源分離方法、装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009010843A JP5113096B2 (ja) 2009-01-21 2009-01-21 音源分離方法、装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2010171585A JP2010171585A (ja) 2010-08-05
JP5113096B2 true JP5113096B2 (ja) 2013-01-09

Family

ID=42703300

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009010843A Expired - Fee Related JP5113096B2 (ja) 2009-01-21 2009-01-21 音源分離方法、装置およびプログラム

Country Status (1)

Country Link
JP (1) JP5113096B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6524463B2 (ja) * 2014-12-26 2019-06-05 Kddi株式会社 自動ミキシング装置およびプログラム
CN111276155B (zh) * 2019-12-20 2023-05-30 上海明略人工智能(集团)有限公司 语音分离方法、装置及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3434215B2 (ja) * 1998-02-20 2003-08-04 日本電信電話株式会社 収音装置,音声認識装置,これらの方法、及びプログラム記録媒体

Also Published As

Publication number Publication date
JP2010171585A (ja) 2010-08-05

Similar Documents

Publication Publication Date Title
JP5375400B2 (ja) 音声処理装置、音声処理方法およびプログラム
US8654990B2 (en) Multiple microphone based directional sound filter
US7243060B2 (en) Single channel sound separation
JP6703525B2 (ja) 音源を強調するための方法及び機器
US9881634B1 (en) Multi-microphone speech processing system
KR102191736B1 (ko) 인공신경망을 이용한 음성향상방법 및 장치
KR20090037692A (ko) 혼합 사운드로부터 목표 음원 신호를 추출하는 방법 및장치
KR20120114327A (ko) 레벨 큐를 사용한 적응형 잡음 감소
JP6482173B2 (ja) 音響信号処理装置およびその方法
CN105491495B (zh) 基于确定性序列的反馈估计
Barros et al. Estimation of speech embedded in a reverberant and noisy environment by independent component analysis and wavelets
JP5107956B2 (ja) 雑音抑圧方法、装置およびプログラム
KR101850693B1 (ko) 인-이어 마이크로폰을 갖는 이어셋의 대역폭 확장 장치 및 방법
JP5113096B2 (ja) 音源分離方法、装置およびプログラム
KR101658001B1 (ko) 강인한 음성 인식을 위한 실시간 타겟 음성 분리 방법
JP6524463B2 (ja) 自動ミキシング装置およびプログラム
KR101547344B1 (ko) 음성복원장치 및 그 방법
Gergen et al. Source separation by feature-based clustering of microphones in ad hoc arrays
KR101966175B1 (ko) 잡음 제거 장치 및 방법
KR102044970B1 (ko) 환경 특징 추출 방법 및 이를 이용한 보청기 작동 방법
JP6790659B2 (ja) 音響処理装置および音響処理方法
Pandey et al. Attentive Training: A New Training Framework for Talker-independent Speaker Extraction.
JP6519801B2 (ja) 信号解析装置、方法、及びプログラム
JP2017040752A (ja) 音声判定装置、方法及びプログラム、並びに、音声信号処理装置
JP2007178590A (ja) 目的信号抽出装置、目的信号抽出方法、及び、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110822

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120912

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120919

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121011

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151019

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5113096

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees