JP5772151B2

JP5772151B2 - 音源分離装置、プログラム及び方法

Info

Publication number: JP5772151B2
Application number: JP2011079026A
Authority: JP
Inventors: 克之高橋; 真資高田
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2011-03-31
Filing date: 2011-03-31
Publication date: 2015-09-02
Anticipated expiration: 2031-03-31
Also published as: JP2012215606A

Description

この発明は、音源分離装置、プログラム及び方法に関し、例えば、電話やテレビ会議システム等における音響信号処理に用いることができる。

近年、テレビ会議装置や携帯電話などのような音声通信機器では、音質を向上させるために、所望の話者の音声を選択的に収音できるように、マイクロフォンアレーを利用して指向性を形成して収音することができるような装置が増えている。

マイクロフォンアレーを用いて指向性を形成する手法は公知であり、以下に、一例として遅延減算処理による方式の説明をする。

図１０は、従来の遅延減算型マイクロフォンアレーの機能的構成の例について示したブロック図である。

本明細書では、２つのマイクロフォンｍ１、ｍ２を結ぶ線に対する垂直平面を０度の方向と呼び、時計回りの方向を正の角度、反時計回りの方向を負の角度として方向を表すものとする。すなわち、上述の方向は−１８０度〜１８０度（−１８０度と１８０度は同じ方向）の範囲で表される。なお、以下では、０度の方向を前方、９０度の方向を右方向、−９０度の方向を左方向、１８０度（−１８０度）の方向は後方と表すものとする。

図１０で図示した方向θから音波が到来し、マイクｍ１とマイクｍ２とが距離ｌだけ隔てて設置されているとする。この時、音波がマイクｍ１とマイクｍ２に到達するまでには時間差τが生じる。音の経路差をｄとすると、ｄ＝ｌ×ｓｉｎθとなるため、この到達時間差τは、以下の（１）式で示すことができる。ただし、以下の（１）式においてｃは音速を表わしている。

τ＝ｌ×ｓｉｎθ／ｃ …（１）
そして、ｓ１（ｔ）に上記の（１）式で算出したτだけ遅延を与えた信号ｓ１（ｔ−τ）は、ｓ２（ｔ）と同一の信号であるといえる。したがって、両者の差をとった信号ｙ（ｔ）＝ｓ２（ｔ）−ｓ１（ｔ−τ）は、θ方向から到来した音が除去された信号となる。そして、結果として、図１０に示すマイクロフォンアレーは図１１のような指向特性を持つようになる。

図１１に示すように、図１０に示すマイクロフォンアレーは、θ方向から到来した音を除去するフィルタ（空間フィルタ）として機能している。言い換えると、このマイクロフォンアレーでは、フィルタの指向性をθ方向に向けて、θ方向から到来した音を抑圧している。以下では、マイクロフォンアレーにおいて、音を抑圧する方向を「死角」とも呼ぶものとする。

なお、ここでは時間領域での演算を記したが、周波数領域で行っても同様な効果が得られる。この場合の演算式は、以下の式（２）式の通りである。

なお、以下の（２）式において、Ｙ（ｆ）はｙ（ｔ）を周波数領域に変換した信号である。また、Ｘ１（ｆ）はｓ１（ｔ）を周波数領域に変換した信号である。さらに、Ｘ２（ｆ）は、ｓ２（ｔ）を周波数領域に変換した信号である。さらにまた、Ｓはサンプリング周波数である。また、ＮはＦＦＴ（高速フーリエ変換）分析フレーム長である。さらに、τはマイク間の音波到達時間差である。さらにまた、ｉは虚数単位である。

ところで、従来の図１０に示すようなマイクロフォンアレー技術のみでは、背景雑音の抑圧効果が不十分である。この点を改良するための技術の一つとして、特許文献１の音源分離装置が挙げられる。

従来の音源分離装置の構成例を、図１２を用いて説明する。なお、以降説明の簡単化のために、入力マイク数は２ｃｈとするが、必ずしもこの設定に限定されるものではない。

図１２のように従来の音源分離装置Ｅ１０は、ＦＦＴ部Ｅ１１、第１の指向性形成部Ｅ１２、第２の指向性形成部Ｅ１３、第３の指向性形成部Ｅ１４、目的音選択部Ｅ１５、周波数減算部Ｅ１６、及びＩＦＦＴ部Ｅ１７を有している。

なお、本明細書では、当該装置（音源分離装置）の利用者（話者）の発する音声のことを「目的音」、当該装置の利用者以外の人物が発する音声のことを「妨害音」、オフィスノイズのような暗騒音を「背景音」、背景音と妨害音を合わせて「雑音」、目的音・妨害音・背景音の区別なくマイクから入力される信号全てを「入力信号」と呼ぶものとする。また目的音は、概ね前方（０度の方向）から到来するものとして説明する。

まず、音源分離装置Ｅ１０では、マイクｍ１、マイクｍ２から、図示しないＡＤ変換器を通して、入力信号ｓ１（ｎ）、ｓ２（ｎ）を取得したものとする。取得した２ｃｈ分の入力信号ｓ１（ｎ）、ｓ２（ｎ）は、ＦＦＴ部Ｅ１１で、それぞれ周波数領域信号Ｘ１（ｆ）、Ｘ２（ｆ）に変換されるものとする。なお、Ｘ１（ｆ）とＸ２（ｆ）は複素数である。また、ＦＦＴ部Ｅ１１におけるＦＦＴ処理時の分析フレーム長は例えば、１０２４サンプルとしても良いが、これに限定されず、装置利用者の所望の長さに調整するようにしても良い。

次に第１の指向性形成部Ｅ１２の処理について説明する。第１の指向性形成部Ｅ１２は、Ｘ１（ｆ）とＸ２（ｆ）について、以下の（３）式のような演算を行い、出力信号Ｂ１（ｆ）を得る。

図１３は、第１の指向性形成部Ｅ１２の指向性について示した説明図である。

第１の指向性形成部Ｅ１２では、以下の（３）式の演算によって、図１３でいうとマイクｍ１から取得した信号に遅延を付与し、右方向から到来する信号を消去している。たとえば、到来方向θを９０度とした場合には、図１３の太線のような指向性が形成される。

次に第２の指向性形成部Ｅ１３の処理について説明する。第２の指向性形成部Ｅ１３は、Ｘ１（ｆ）とＸ２（ｆ）について、以下の（４）式のような演算を行い、出力信号Ｂ２（ｆ）を得る。

図１４は、第２の指向性形成部Ｅ１３の指向性について示した説明図である。

第２の指向性形成部Ｅ１３では、以下の（４）式の演算によって、図１４でいうとマイクｍ２から取得した信号に遅延を付与し、左方向から到来する信号を消去している。たとえば、到来方向θを−９０度とした場合には、図１４の太線のような指向性が形成される。

次に、第３の指向性形成部Ｅ１４の処理について説明する。第３の指向性形成部Ｅ１４では、Ｘ１（ｆ）とＸ２（ｆ）について、以下の（５）式のような演算を行い、出力信号Ｂ３（ｆ）を取得し、これを雑音信号として取り扱う。

Ｂ３（ｆ）＝Ｘ１（ｆ）−Ｘ２（ｆ）…（５）
図１５は、第３の指向性形成部Ｅ１４の指向性について示した説明図である。

次に、上記の（５）式の意味を説明する。まず、マイクｍ１とマイクｍ２と音源との間の音響経路の時間差が小さい方位（例えば、前方）から到来する音は、各マイクで同程度のレベルで収音されるために、（５）式の減算によって相殺されるが、時間差が大きい方位（例えば、左右）から到来する信号はマイクｍ１とマイクｍ２の収音レベル差が生じるために相殺されない。このように、前後から到来する音は相殺されるのに対して、左右から到来する音は残留するので、図１５の太線のような指向性が形成されることになる。今、目的音は前から到来すると仮定しているので、(５)式で得られる信号は目的音以外の信号、つまり雑音信号とみなすことができる。

次に、目的音選択部Ｅ１５の処理について説明する。目的音選択部Ｅ１５は、図１６に示すような構成を備えており、図１７に示すフローチャートに示す動作を行う。具体的には、目的音選択部Ｅ１５は、Ｂ１（ｆ）とＢ２（ｆ）に以下の（６）式の演算を施して、信号Ｐ（ｆ）を取得し、これを目的音信号とする。

Ｐ（ｆ）＝ＭＩＮ［｜Ｂ１（ｆ）｜，｜Ｂ２（ｆ）｜］…（６）
なお、（６）式のＭＩＮ［ｘ，ｙ］は、ｘとｙから小さい方を選択する演算を表しており、（６）式は周波数ごとにＢ１（ｆ）とＢ２（ｆ）のうちレベルが小さい方を選び出して、当該周波数における目的音成分とする、ということを表している。このような演算を施す理由は以下の通りである。

Ｂ１（ｆ）とＢ２（ｆ）の前方に対する収音感度は同等なので、両者は目的音を同程度に含んでいる。一方、前方以外から到来する雑音の収音性能には差が発生し、妨害音や背景音の発生源の方向に死角を向けている信号のほうが雑音の含有量は小さい。例えば、雑音源が右にある場合には、右に死角を持つＢ１（ｆ）では雑音を除去できているので雑音含有量は少ないが、Ｂ２（ｆ）は除去できていないので雑音を多く含んでいる。よって、Ｂ１（ｆ）とＢ２（ｆ）からレベルが小さい信号を選ぶことは、目的音を同程度に含んでいて、雑音成分の含み方には差がある二つの信号のうち、雑音成分がより少ない信号を選ぶことである、と言い換えることができる。従ってレベルが小さい信号の方が目的音として相応しいといえる。以上が、上記の（６）式によって目的音成分を推定する背景である。

次に、周波数減算部Ｅ１６の処理について説明する。周波数減算部Ｅ１６は、Ｐ（ｆ）とＢ３（ｆ）に、以下の（７）式のような演算を施してＤ（ｆ）を得る。このような周波数減算部Ｅ１６の処理により、雑音を含む目的音信号Ｐ（ｆ）から雑音信号Ｂ３（ｆ）が減算されるので、Ｐ（ｆ）に残留している雑音成分を消去できる。

Ｄ（ｆ）＝Ｐ（ｆ）−Ｂ３（ｆ） …（７）
次に、ＩＦＦＴ部Ｅ１７の処理について説明する。ＩＦＦＴ部Ｅ１７は、Ｄ（ｆ）を時間領域信号に変換（逆フーリエ変換）することで、雑音などが抑圧された出力信号ｙ（ｔ）が得られる。

特開２００６−１９７５５２号公報

従来の音源分離装置Ｅ１０における目的音選択部Ｅ１５は、妨害音のレベルが大きい場合には実際の音響環境と矛盾のない挙動をする傾向が強いのに対し、妨害音のレベルが小さい時には下記のような実世界と矛盾した選択動作をする傾向がある。目的音選択部Ｅ１５の動作の第１の傾向として、妨害音の音源は一つで、同一方向から到来しているにも関わらず、同一フレーム内で周波数ごとに選択される信号の収音方位が異なることがある。また、目的音選択部Ｅ１５の動作の第２の傾向として、特定の周波数の選択結果を観測すると、妨害音の発生位置が不変なのにもかかわらず、選択される信号の収音方位が頻繁に変動することがある。これらの傾向は、音源分離装置Ｅ１０で処理の対象となる音声と背景音の周波数特性とに関係しているものと考えられる。音源分離装置Ｅ１０に入力される入力信号において音声成分の周波数特性は、図１８に示すように、極大値と極小値が繰り返される構造となっている。そして、入力信号において音声成分に雑音成分が重畳されている場合において、極小値近辺では雑音成分の特徴が優勢になってしまっていることがあるため、目的音選択部Ｅ１５には上述のような傾向が見られる場合があるものと考えられる。

目的音選択部Ｅ１５の上述のような傾向（特性）により、従来の音源分離装置Ｅ１０では、例えば、同一フレーム内で、周波数１０００Ｈｚの成分は右方向に死角を持つ信号成分が、１２００Ｈｚの音は左方向に死角を持つ信号成分が、目的音選択部Ｅ１５により選択されるといったように、本来は一つの方向を向くべきなのに、周波数ごとに異なる死角方位を向いた成分から目的音信号が構成されてしまうおそれがある。これにより、従来の音源分離装置Ｅ１０では、音質の自然さが損なわれることになる。

また、従来の音源分離装置Ｅ１０では、目的音選択部Ｅ１５の上述のような傾向（特性）により、同一の周波数を長時間観測した場合にも、妨害音の到来方位が不変なのにも関わらず、死角方位は「最初は右だが、次の瞬間には左が選択される」、というような実際の音響環境とは無関係な死角方位の変動が頻繁に生じるおそれがある。このことも、従来の音源分離装置Ｅ１０における音質低下の要因となる。

以上のような問題に鑑みて、入力信号から目的音と、目的音の到来方向以外の任意の方向から到来する雑音とを分離する処理において、分離処理後の音の品質低下を抑制することができる音源分離装置、プログラム及び方法が望まれている。

第１の本発明は、入力信号から、背景音に加えて妨害音を含む場合がある雑音と、目的音とを分離する音源分離処理を行う音源分離装置において、（１）間隔を置いて配置された複数個のマイクロフォンのうち、２個のマイクロフォンの受音信号のスペクトルについて、目的音が到来すると想定される目的音想定到来方向以外の方向に死角を形成する処理を行って、目的音成分が優勢となる目的音優勢スペクトル候補を複数形成する目的音優勢スペクトル候補形成手段と、（２）上記受音信号のスペクトルについて、上記目的音想定到来方向を含む所定の範囲内の方向に死角を形成する処理を行って、雑音成分が優勢となる雑音優勢スペクトルを形成する雑音優勢スペクトル形成手段と、（３）上記受音信号の各区間の少なくとも１つの周波数成分について、当該区間に妨害音の成分が含まれるか否かを判定する妨害音判定を行った場合の周波数成分の信頼性を判定する信頼性判定手段と、（４）上記受音信号の区間ごとに、上記目的音優勢スペクトル候補からいずれかを選択して、目的音優勢スペクトルを形成するものであって、少なくとも当該区間に係る上記信頼性判定手段の判定結果を利用して決定した選択処理方法を、当該区間の選択処理に適用する目的音選択手段と、（５）上記雑音優勢スペクトルと、上記目的音優勢スペクトルとを用いて、上記受音信号について、上記雑音の成分と、上記目的音の成分とを分離する分離手段とを有することを特徴とする。

第２の本発明の音源分離プログラムは、（１）入力信号から、背景音に加えて妨害音を含む場合がある雑音と、目的音とを分離する音源分離処理を行う音源分離装置に搭載されたコンピュータを、（２）間隔を置いて配置された複数個のマイクロフォンのうち、２個のマイクロフォンの受音信号のスペクトルについて、目的音が到来すると想定される目的音想定到来方向以外の方向に死角を形成する処理を行って、目的音成分が優勢となる目的音優勢スペクトル候補を複数形成する目的音優勢スペクトル候補形成手段と、（３）上記受音信号のスペクトルについて、上記目的音想定到来方向を含む所定の範囲内の方向に死角を形成する処理を行って、雑音成分が優勢となる雑音優勢スペクトルを形成する雑音優勢スペクトル形成手段と、（４）上記受音信号の各区間の少なくとも１つの周波数成分について、当該区間に妨害音の成分が含まれるか否かを判定する妨害音判定を行った場合の周波数成分の信頼性を判定する信頼性判定手段と、（５）上記受音信号の区間ごとに、上記目的音優勢スペクトル候補からいずれかを選択して、目的音優勢スペクトルを形成するものであって、少なくとも当該区間に係る上記信頼性判定手段の判定結果を利用して決定した選択処理方法を、当該区間の選択処理に適用する目的音選択手段と、（６）上記雑音優勢スペクトルと、上記目的音優勢スペクトルとを用いて、上記受音信号について、上記雑音の成分と、上記目的音の成分とを分離する分離手段として機能させることを特徴とする。

第３の本発明は、入力信号から、背景音に加えて妨害音を含む場合がある雑音と、目的音とを分離する音源分離処理を行う音源分離方法において、（１）目的音優勢スペクトル候補形成手段、雑音優勢スペクトル形成手段、信頼性判定手段、目的音選択手段、分離手段を有し、（２）上記目的音優勢スペクトル候補形成手段は、間隔を置いて配置された複数個のマイクロフォンのうち、２個のマイクロフォンの受音信号のスペクトルについて、目的音が到来すると想定される目的音想定到来方向以外の方向に死角を形成する処理を行って、目的音成分が優勢となる目的音優勢スペクトル候補を複数形成し、（３）上記雑音優勢スペクトル形成手段は、上記受音信号のスペクトルについて、上記目的音想定到来方向を含む所定の範囲内の方向に死角を形成する処理を行って、雑音成分が優勢となる雑音優勢スペクトルを形成し、（４）上記信頼性判定手段は、上記受音信号の各区間の少なくとも１つの周波数成分について、当該区間に妨害音の成分が含まれるか否かを判定する妨害音判定を行った場合の周波数成分の信頼性を判定し、（５）上記目的音選択手段は、上記受音信号の区間ごとに、上記目的音優勢スペクトル候補からいずれかを選択して、目的音優勢スペクトルを形成するものであって、少なくとも当該区間に係る上記信頼性判定手段の判定結果を利用して決定した選択処理方法を、当該区間の選択処理に適用し、（６）上記分離手段は、上記雑音優勢スペクトルと、上記目的音優勢スペクトルとを用いて、上記受音信号について、上記雑音の成分と、上記目的音の成分とを分離することを特徴とする。

本発明によれば、入力信号から目的音と、目的音の到来方向以外の任意の方向から到来する雑音とを分離する処理において、分離処理後の音の品質低下を抑制することができる。

第１の実施形態に係る音源分離装置の機能的構成について示したブロック図である。第１の実施形態に係る制御信号生成部の機能的構成について示したブロック図である。第１の実施形態に係る目的音選択部の機能的構成について示したブロック図である。第１の実施形態に係る制御信号生成部の動作について示したフローチャートである。第１の実施形態に係る目的音選択部の動作全体について示したフローチャートである。第１の実施形態に係る目的音選択部における死角方位記憶処理の動作について示したフローチャートである。第２の実施形態に係る制御信号生成部の機能的構成について示したブロック図である。第２の実施形態に係る制御信号生成部の動作について示したフローチャートである。実施形態の変形例に係る音源分離装置において処理される音声の特性について示した説明図である。従来の遅延減算型マイクロフォンアレーの構成例について示したブロック図である。従来の遅延減算型マイクロフォンアレーで形成される指向特性について示した説明図である。従来の音源分離装置の機能的構成について示したブロック図である。従来の音源分離装置における第１の指向性形成部の指向特性について示した説明図である。従来の音源分離装置における第２の指向性形成部の指向特性について示した説明図である。従来の音源分離装置における第３の指向性形成部の指向特性について示した説明図である。従来の音源分離装置における目的音選択部の機能的構成について示したブロック図である。従来の音源分離装置における目的音選択部の動作について示したフローチャートである。従来の音源分離装置における課題について示した説明図である。

（Ａ）第１の実施形態
以下、本発明による音源分離装置、プログラム及び方法の第１の実施形態を、図面を参照しながら詳述する。

（Ａ−１）第１の実施形態の構成
図１は、第１の実施形態の音源分離装置１０の全体構成を示すブロック図である。なお、図１において、括弧内の符号は、後述する第２の実施形態においてのみ用いられる符号である。

音源分離装置１０は、マイクから入力される入力信号から、雑音を分離（抑制）して、目的音を抽出するものである。音源分離装置１０の用途は限定されるものではないが、例えば、音声認識装置や、携帯電話などの電話装置に搭載して、音声捕捉に用いるようにしても良い。具体的には、例えば、音源分離装置１０を電話会議装置に搭載して、遠隔発話を行う複数の話者による混合音声から任意の話者の音声を目的音として分離したり、遠隔発話を行う話者の音声とその他の音との混合音から話者の音声を目的音として分離したりすることに用いるようにしても良い。

音源分離装置１０は、マイクｍ１、ｍ２、ＦＦＴ部１１、第１の指向性形成部１２、第２の指向性形成部１３、第３の指向性形成部１４、目的音選択部１５、周波数減算部１６、ＩＦＦＴ部１７、及び制御信号生成部１８を有している。

音源分離装置１０は、マイク等のハードウェア以外の構成要素に関しては、プロセッサ（ＣＰＵ等）を有する装置に、実施形態の音源分離プログラムをインストールすることにより実現するようにしても良い。また、音源分離装置１０の一部又は全部の構成要素について、専用のハードウェア（例えば、半導体チップ）を用いて実現するようにしても良い。

マイクｍ１、ｍ２は、図１２に示す従来の音源分離装置と同様のものを適用することができるので、詳しい説明を省略する。また、音源分離装置１０におけるマイクｍ１、ｍ２も、上述の図１０と同様の配置となっているものとする。

なお、以下では、上述の従来技術の場合と同様に、２つのマイクｍ１、マイクｍ２を結ぶ線に対する垂直平面を０度の方向と呼ぶものとする。そして、０度の方向を前方、９０度の方向を右方向、−９０度の方向を左方向、１８０度（−１８０度）の方向は後方と表すものとする。また、以下では、音源分離装置１０において、目的音が概ね前方（０度）から到来することを想定した構成であるものとして説明する。

第１の指向性形成部１２及び第２の指向性形成部１３は、目的音の成分が優勢となるスペクトルを得るための構成要素であり、それぞれ、妨害音が到来すると予測される方向（目的音が到来する方向とは、異なる方向）に死角を向けたフィルタである。

ここでは、第１の指向性形成部１２は、上述の従来技術における第１の指向性形成部Ｅ１２と同様に、右方向（９０度の方向）を死角とするフィルタ（上述の図１３参照）であるものとする。すなわち、第１の指向性形成部１２は、Ｘ１（ｆ）とＸ２（ｆ）について、上記の（３）式のような演算を行い、出力信号Ｂ１（ｆ）を得るものとする。

また、第２の指向性形成部１３は、上述の従来技術における第２の指向性形成部Ｅ１３と同様に、左方向（−９０度の方向）を死角とするフィルタ（上述の図１４参照）であるものとする。すなわち、第２の指向性形成部１３は、Ｘ１（ｆ）とＸ２（ｆ）について、上記の（４）式のような演算を行い、出力信号Ｂ２（ｆ）を得るものとする。

なお、上述の通り、音源分離装置１０では、目的音は、概ね０度の方向から到来することが想定されているため、第１の指向性形成部１２及び第２の指向性形成部１３では、目的音が到来する方向とは異なる方向に、死角を向けているが、目的音が到来すると想定される方向に応じて、指向性形成部の数や適用する死角の組み合わせを変更するようにしても良い。

第３の指向性形成部１４は、雑音の成分が優勢となるスペクトルを抽出するために目的音が到来する方向に死角を向けたフィルタである。具体的には、第３の指向性形成部１４は、上述の従来技術における第３の指向性形成部Ｅ１４と同様に、目的音の到来方向を含む所定の範囲内の方向にフィルタの死角を向けて、雑音信号を抽出するものとする。

ここでは、第３の指向性形成部１４は、上述の第３の指向性形成部Ｅ１４と同様に、前方向（０度の方向）を死角に含むフィルタ（上述の図１５参照）であるものとする。すなわち、第３の指向性形成部１４では、Ｘ１（ｆ）とＸ２（ｆ）について、上記の（５）式のような演算を行い、出力信号Ｂ３（ｆ）を取得し、これを雑音信号として取り扱うものとする。

音源分離装置１０では、雑音の成分が優勢となるスペクトルを抽出するために、第３の指向性形成部１４を用いているが、用いる指向性形成部の数や適用する死角の組み合わせは限定されないものである。例えば、目的音が到来すると想定される方向を含む所定の範囲内の方向に死角を持つ指向性形成部を複数用いた構成としても良い。

目的音選択部１５は、Ｂ１（ｆ）とＢ２（ｆ）から適当なものを選択し、これを目的音信号Ｐ（ｆ）とするものである。目的音選択部１５の具体的な処理については後述するが、制御信号生成部１８の制御に応じた処理を行う点で、上述の従来技術における目的音選択部Ｅ１５とは異なっている。

周波数減算部１６は、上述の従来技術における周波数減算部Ｅ１６と同様に、雑音信号を含む目的音信号Ｐ（ｆ）から、雑音信号Ｂ３（ｆ）を減算して、Ｐ（ｆ）に残留している雑音成分を消去するものである。ここでは、周波数減算部１６は、上述の従来技術における周波数減算部Ｅ１６と同様に、Ｐ（ｆ）とＢ３（ｆ）に、上記の（７）式のような演算を施してＤ（ｆ）を得るものとする。

ＩＦＦＴ部１７は、上述の従来技術におけるＩＦＦＴ部Ｅ１７と同様に、Ｄ（ｆ）を時間領域信号に変換（逆フーリエ変換）することで、雑音などが抑圧された出力信号ｙ（ｔ）を得るものである。

次に、制御信号生成部１８について説明する。

制御信号生成部１８の機能について説明する前に、まず、妨害音と雑音との関係について整理する。音源分離装置１０において、「妨害音のレベルが小さい場合」とは、「妨害音が存在しない」、又は、「妨害音（話者以外の人間の声）の区間であっても、音声としての周波数成分が少ない」という場合に該当する。この場合の信号成分は、上述の図１８のように背景音としての特性が強いので、そもそも目的音選択の処理を行うこと自体に意味が無い。それにも関わらず選択結果に寄与してしまうために、上述のような実際の音響環境と反する現象が発生してしまう。また、目的音選択部の動作は別の見方をすると、妨害音の到来方向（すなわち、目的音とは異なる到来方向）を推定し、その方向に死角を有する信号成分を選択している、と言い換えることもできる。したがって、前記課題は「妨害音のレベルが小さい場合には妨害音の到来方位の推定に失敗する」と換言できる。

したがって、音源分離装置１０では、妨害音のみの区間で、妨害音のレベルが大きく音声としての信頼性が高い成分で妨害音到来方位の推定を行うようにし、信頼性が低い成分では信頼性が高い箇所での選択結果を流用するようにすることで先の課題を解決している。これを実現するために、音源分離装置１０では、制御信号生成部１８を設け、妨害音の到来方位の選択に相応しい信号成分を抽出し、目的音選択部１５の選択動作を制御する制御信号を生成して、目的音選択部１５に供給している。そして、目的音選択部１５では、制御信号生成部１８からの制御信号に従った選択動作を行っている。

図２は、制御信号生成部１８の機能的構成について示した説明図である。

制御信号生成部１８は、上述の通り、目的音選択部１５での選択動作を制御する制御信号を生成するものであり、妨害音区間判定部１８１、信頼性判定部１８２、制御信号更新部１８３、及び制御信号送信部１８５を有している。

妨害音区間判定部１８１は、雑音信号Ｂ３（ｆ）に基づいて、妨害音が発生している区間（以下、「妨害音区間」という）であるか、妨害音が発生していない区間（以下、「非妨害音区間」という）であるかを判定する。

なお、ここでいう「区間」とは、ＦＦＴ部１１で、入力信号を時間領域から周波数領域に変換する際における、時間領域上の処理単位の期間を表わすものとする。また、以下では、時間領域上での１区間分の信号を「フレーム」とも呼ぶものとする。妨害音検出部１８１では、区間ごとに妨害音区間にかかる判定を行う。

ここでは、例として、妨害音区間判定部１８１は、雑音信号Ｂ３（ｆ）における雑音のレベル（以下「雑音レベルＬｖ」という）を、以下の（８）式を用いて算出し、算出した雑音レベルＬｖを以下の（９）式に適用した判定を行う。すなわち、妨害音検出部１８１では、以下の（９）式に示すように、算出した雑音レベルＬｖについて所定の閾値（以下、「検出閾値Ψ」という）以上であれば妨害音区間と判定し、小さければ非妨害音区間（妨害音区間ではない）と判定する。雑音レベルＬｖは、時間領域上で当該区間の雑音のパワーを表わしたものとも言える。なお、雑音レベルＬｖの計算方法や判定方法については、これらの計算式に限定されるものではない。

信頼性判定部１８２では、入力信号Ｘ１（ｎ）の周波数成分ごとのレベル｜Ｘ１（ｆ）｜を観測し、所定の閾値（以下、「信頼性判定閾値Ξ」という）と比較する。そして、信頼性判定部１８２は、妨害音区間判定部１８１での判定の結果と組み合わせて、周波数成分ごとに、高信頼性成分か否かを判定する。

ここでは、妨害音区間判定部１８１により判定された結果当該フレームは妨害音区間であり、かつ、｜Ｘ１（ｆ）｜が信頼性判定閾値Ξ以上の場合、信頼性判定部１８２は、その周波数成分は高信頼性成分と判定するものとする。そして、信頼性判定部１８２は、それ以外の周波数成分については、低信頼性成分（高信頼性成分でない）と判定するものとする。そして、信頼性判定部１８２は、上述の要領で判定した結果を、制御信号更新部１８３に与える。

ここで、信頼性判定部１８２における判定を、｜Ｘ１（ｆ）｜の大小によって、判定する意図について説明する。音源分離装置１０に入力される入力信号において音声成分の周波数特性は、上述の図１８のように、極大値と極小値が繰り返される構造となっている。そして、入力信号において音声成分に雑音成分が重畳されている場合において、極小値近辺では雑音成分の特徴が優勢になってしまっていることがあるため、極小値近辺は後段の目的音選択部１５による目的音選択動作に寄与させるに足る信頼性を有していないといえる。一方、入力信号における音声成分で、極大値近辺では、雑音成分にマスクされておらず（埋もれておらず）、音声成分の特徴を有している（雑音成分に対して音声成分が十分に大きい）ため、目的音選択動作に寄与させるに相応しいといえる。したがって、入力信号において、音声成分が極大値となる近辺の成分を選択する動作を簡易的に実現しているのが、所定の閾値より大きい｜Ｘ１（ｆ）｜を選ぶ、という処理となる。なおX1(f)は妨害音だけでなく背景雑音も含むが、B3(f)のように指向性を有さないため背景雑音の特性がより正確に反映される。そのため、背景雑音成分による影響を判断するのに適した信号であるといえる。こうして、信頼性判定部１８２では、妨害音の到来方位の推定（後段の目的音選択）に寄与させるに足る「音声としての信頼性」を有する信号成分を選択することができる。

すなわち、ここでは信頼性判定部１８２は、以下の（１０）式に示すように、｜Ｘ１（ｆ）｜が、信頼性判定閾値Ξ以上の場合には、当該周波数成分について高信頼性成分と判定し、｜Ｘ１（ｆ）｜が信頼性判定閾値Ξ未満の場合には、当該周波数成分について低信頼性成分と判定するものとする。ただし、上述の処理は、信頼性判定部１８２による信頼性判定方式の一例であり、これに限定されるものではない。例えば、以下の（１０）式においてＸ１（ｆ）をＸ２（ｆ）に置き換えるようにしても良い。

そして、ここでは、信頼性判定部１８２は、各周波数成分（Ｘ１（ｆ））と、当該周波数成分に係る信頼性判定結果（「１」又は「０」）とを対応付けたデータ配列（１フレーム分の各周波数成分に係る制御信号）を、判定結果情報として、制御信号更新部１８３に供給するものとする。

制御信号更新部１８３は、妨害音区間判定部１８１から受信した情報から妨害音区間か否かを判定し、妨害音区間という判定結果であれば、信頼性判定部１８２から受け取った信頼性判定結果を制御信号Ｃ［ｆ］として、制御信号送信部１８５を介して目的音選択部１５に出力する。

一方、制御信号更新部１８３は、妨害音区間判定部１８１から受け取った判定結果が、非妨害音区間という結果であれば、信頼性判定部１８２から受け取った信頼性判定結果を棄却し、制御信号Ｃ［ｆ］＝０として、制御信号送信部１８５を介して目的音選択部１５に出力する。

次に、目的音選択部１５の構成について説明する。

図３は、目的音選択部１５の機能的構成について示した説明図である。

目的音選択部１５は、音響信号及び制御信号受信部１５１、制御切替部１５２、最小値抽出部１５３、死角方位記憶部１５４、死角方位参照及び信号選択部１５５、目的音信号生成部１５６、及び目的音信号送信部１５７を有している。

音響信号及び制御信号受信部１５１は、Ｂ１（ｆ）、Ｂ２（ｆ）及び制御信号Ｃ［ｆ］の入力を受付けて、制御切替部１５２に供給する。音響信号及び制御信号受信部１５１は、ｆが同一の値となるＢ１（ｆ）、Ｂ２（ｆ）、及び制御信号Ｃ［ｆ］を一組のデータとして対応付けて、制御切替部１５２に与える。

そして、制御切替部１５２は、Ｂ１（ｆ）及びＢ２（ｆ）について、対応する制御信号Ｃ［ｆ］の値に応じて、最小値抽出部１５３、又は、死角方位参照及び信号選択部１５５のいずれかに振り分ける。制御切替部１５２は、制御信号Ｃ［ｆ］が１の場合には、対応するＢ１（ｆ）及びＢ２（ｆ）を、最小値抽出部１５３に振り分ける。また、制御切替部１５２は、制御信号Ｃ［ｆ］が０の場合には、対応するＢ１（ｆ）及びＢ２（ｆ）を、死角方位参照及び信号選択部１５５に振り分ける。

最小値抽出部１５３は、Ｂ１（ｆ）及びＢ２（ｆ）が与えられると、以下の（１１）式（上述の従来技術と同様の処理）によって、Ｂ１（ｆ）とＢ２（ｆ）のうちレベルが小さい方を採用し、信号Ａ（ｆ）として目的音信号生成部１５６に供給する。そして、最小値抽出部１５３は、Ｂ１（ｆ）又はＢ２（ｆ）のうち、以下の（１１）式により選択された信号に対応する死角方位φ（ｆ）を、死角方位記憶部１５４に記録する処理を行う。

なお、「死角方位」とは、Ｂ１（ｆ）又はＢ２（ｆ）に対応する指向性形成部のフィルタが音を抑圧する方向を示すものである。例えば、Ｂ１（ｆ）に対応する第１の指向性形成部１２の死角方位は９０度（右方向）であるので、最小値抽出部１５３でＢ１（ｆ）が選択された場合には、死角方位φ（ｆ）は９０度となる。一方、最小値抽出部１５３でＢ２（ｆ）が選択された場合には、死角方位φ（ｆ）は−９０度（左方向）となる。なお、以下では、死角方位記憶部１５４への記録形式の例として、Ｂ１（ｆ）に対応する第１の指向性形成部１２の死角方位を「１」と表わし、Ｂ２（ｆ）に対応する第２の指向性形成部１３の死角方位を「２」と表わすものとする。

Ａ（ｆ）＝ＭＩＮ［｜Ｂ１（ｆ）｜，｜Ｂ２（ｆ）｜］…（１１）
一方、死角方位参照及び信号選択部１５５は、Ｂ１（ｆ）及びＢ２（ｆ）が与えられると、死角方位記憶部１５４に記憶された死角方位φを参照して、その参照結果に基づき、Ｂ１（ｆ）とＢ２（ｆ）のうち、いずれかに対応する死角方位を採用するものとする。そして、死角方位参照及び信号選択部１５５は、Ｂ１（ｆ）とＢ２（ｆ）のうち、採用した死角方位に対応する方を、Ａ（ｆ）として目的音信号生成部１５６に供給する。

死角方位参照及び信号選択部１５５が、死角方位記憶部１５４の内容を参照する処理方式については限定されないものであるが、例えば、同一フレームの別周波数成分での死角方位を利用しても良いし、過去のフレームの周波数成分ごとに死角方位を記録しておき、該当する周波数成分ごとに過去の死角方位を参照するようにしてもよい。

目的音信号生成部１５６では、最小値抽出部１５３又は死角方位参照及び信号選択部１５５から供給された周波数成分ごとの信号Ａ（ｆ）を、周波数順に再構成して１フレーム分の目的音信号のＰ（ｆ）として生成し、目的音信号送信部１５７を介して周波数減算部１６に出力する。

（Ａ−２）第１の実施形態の動作
次に、以上のような構成を有する第１の実施形態の音源分離装置１０の動作（実施形態の音源分離方法）を説明する。

音源分離装置１０では、マイクｍ１、マイクｍ２から入力された信号が、まず、ＦＦＴ部１１で時間領域から周波数領域に変換してＸ１（ｆ）、Ｘ２（ｆ）が形成され、さらに、第１の指向性形成部１２、第２の指向性形成部１３、及び第３の指向性形成部１４により、所定の方位に死角を有する信号Ｂ１（ｆ）、Ｂ２（ｆ）、及びＢ３（ｆ）が形成される。

そして、制御信号生成部１８では、制御信号Ｃ［ｆ］が生成され、目的音選択部１５に供給される。

次に、制御信号生成部１８の動作について説明する。

図４は、制御信号生成部１８の動作について示したフローチャートである。

図４のフローチャートにおいて、Ｆ＿ＩＮＩとＦ＿ＦＩＮは周波数領域での演算処理の繰り返し回数を制御するための定数であり、装置利用者が任意に設定するようにしてもよい。ここでは、例として、Ｆ＿ＩＮＩ＝０、Ｆ＿ＦＩＮ＝１０２３とするが、これに限定するものではない。また、図４のフローチャートでは、ｆを繰りかえし処理のための変数として用いており、繰り返す際に１ずつインクリメントしているが、インクリメントする単位はこれに限定されないものである（例えば、周波数領域に変換される際の最小単位としても良い）。また、図４のフローチャートでは、Ｘ１（ｆ）、Ｘ２（ｆ）について、１フレーム分（ｆ＝Ｆ＿ＩＮＩ〜Ｆ＿ＦＩＮ＝０〜１０２３）処理を行うことについて示している。

まず、制御信号生成部１８では、ｆがＦ＿ＩＮＩ（＝０）に初期化される（Ｓ１０１）。

次に、制御信号生成部１８では、ｆがＦ＿ＦＩＮ以下であるか否かが判定され（Ｓ１０２）、ｆがＦ＿ＦＩＮ以下と判定された場合には、後述するステップＳ１０３の処理から動作し、そうでない場合（ｆ＞Ｆ＿ＦＩＮ）の場合には、当該区間（フレーム）の処理を終了する。

上述のステップＳ１０２において、ｆがＦ＿ＦＩＮ以下であると判定された場合には、信頼性判定部１８２により、入力信号Ｘ１（ｎ）に基づいて、当該周波数成分が高信頼性成分か否かが判定され、判定結果が制御信号更新部１８３に供給される。そして、制御信号更新部１８３では、妨害音判定部１８１による当該区間の判定結果が参照され（Ｓ１０３）、判定結果が妨害音区間だった場合には、後述するステップＳ１０４から動作し、そうでない場合（非妨害音区間の場合）には、後述するステップＳ１０５から動作する。なお、妨害音判定部１８１の判定処理については、周波数成分ごとではなく区間（フレーム）ごとに行うこと（すなわち１つの区間につき１回だけ行うこと）が望ましい。

妨害音判定部１８１の判定結果が妨害音区間の場合には、制御信号更新部１８３は、信頼性判定部１８２から供給された判定結果（１又は０）を、当該周波数成分に対応する制御信号Ｃ［ｆ］として、制御信号送信部１８５を介して目的音選択部１５に供給する（Ｓ１０４）。

一方、妨害音判定部１８１の判定結果が妨害音区間でない場合（非妨害音区間の場合）には、制御信号更新部１８３は、信頼性判定部１８２から受け取った信頼性判定結果は棄却し、制御信号Ｃ［ｆ］＝０として、目的音選択部１５に供給する（Ｓ１０５）。

ステップＳ１０４、Ｓ１０５により、目的音選択部１５へ制御信号Ｃ［ｆ］が供給されると、制御信号生成部１８では、変数ｆがインクリメント（ｆ＋＋、すなわち、ｆ＝ｆ＋１）され（Ｓ１０６）、上述のステップＳ１０２の処理から動作する。

以上のように、制御信号生成部１８では、周波数成分ごとに制御信号Ｃ［ｆ］が生成され、目的音選択部１５に供給される。そして、目的音選択部１５では、制御信号Ｃ［ｆ］に応じて、Ｂ１（ｆ）及びＢ２（ｆ）に対する選択処理を行い、目的音信号Ｐ（ｆ）を生成する。

次に、目的音選択部１５の動作について説明する。

図５、図６は、目的音選択部１５の動作について示したフローチャートである。

図５、図６のフローチャートにおける、定数Ｆ＿ＩＮＩ、Ｆ＿ＦＩＮ、及び変数ｆは、上述の図４と同様のものである。また、図５、図６のフローチャートでは、Ｂ１（ｆ）、Ｂ２（ｆ）について、１フレーム（区間）分（ｆ＝Ｆ＿ＩＮＩ〜Ｆ＿ＦＩＮ＝０〜１０２３）処理を行うことについて示している。

まず、目的音選択部１５では、ｆがＦ＿ＩＮＩ（＝０）に初期化される（Ｓ２０１）。

次に、目的音選択部１５では、ｆがＦ＿ＦＩＮ以下であるか否かが判定され（Ｓ２０２）、ｆがＦ＿ＦＩＮ以下と判定された場合には、後述するステップＳ２０３の処理から動作し、そうでない場合（ｆ＞Ｆ＿ＦＩＮ）の場合には、当該区間の処理を終了する。

Ｆ＿ＦＩＮ以下と判定された場合には、制御切替部１５２により、Ｂ１（ｆ）、Ｂ２（ｆ）、及び制御信号Ｃ［ｆ］の組のデータが読み込まれ、まず、制御信号Ｃ［ｆ］の値が参照される。そして、制御切替部１５２では、制御信号Ｃ［ｆ］の内容が確認され（Ｓ２０３）、制御信号Ｃ［ｆ］＝１であった場合には、後述するステップＳ２０４の処理から動作し、そうでない場合には、後述するステップＳ２０６の処理から動作する。

上述のステップＳ２０３において、制御信号Ｃ［ｆ］＝１と確認された場合には、制御切替部１５２は、その制御信号Ｃ［ｆ］に対応するＢ１（ｆ）及びＢ２（ｆ）を、最小値抽出部１５３に供給する。そして、最小値抽出部１５３は、Ｂ１（ｆ）又はＢ２（ｆ）のいずれかを、上記の（１１）式により選択して、信号Ａ（ｆ）として生成する（Ｓ２０４）。

そして、最小値抽出部１５３は、Ｂ１（ｆ）又はＢ２（ｆ）のうち、上述のステップＳ２０４で信号Ａ（ｆ）として選択したものに対応する死角方位を示すパラメータを、死角方位記憶部１５４に記録する処理を行う（Ｓ２０５）。

次に、ステップＳ２０５における最小値抽出部１５３による処理の例について、図６を用いて行う。

最小値抽出部１５３は、まず、上述のＳ２０４で信号Ａ（ｆ）としてＢ１（ｆ）が選択されていたか否かを判定する（Ｓ３０１）。そして、上述のＳ２０４で信号Ａ（ｆ）としてＢ１（ｆ）が選択されていた場合には、最小値抽出部１５３は、Ｂ１（ｆ）に対応する死角方位を示すパラメータ「１」を、当該周波数成分に対応する死角方位φ（ｆ）として決定する（Ｓ３０２）。一方、上述のＳ２０４で信号Ａ（ｆ）としてＢ１（ｆ）が選択されていなかった場合（すなわち、Ｂ２（ｆ）が選択されていた場合）には、最小値抽出部１５３は、Ｂ２（ｆ）に対応する死角方位を示すパラメータ「２」を、当該周波数成分に対応する死角方位φ（ｆ）として決定する（Ｓ３０３）。そして、最小値抽出部１５３は、ステップＳ３０２又はＳ３０３で決定した当該周波数成分に対応する死角方位φ（ｆ）のパラメータを、死角方位記憶部１５４に記録する（Ｓ３０４）。

最小値抽出部１５３は、以上のような処理で、死角方位φ（ｆ）を、死角方位記憶部１５４に記録する処理を行う。

一方、上述のステップＳ２０３において、制御信号Ｃ［ｆ］＝１でないと確認された場合（制御信号Ｃ［ｆ］＝０の場合）には、制御切替部１５２は、その制御信号Ｃ［ｆ］に対応するＢ１（ｆ）及びＢ２（ｆ）を、死角方位参照及び信号選択部１５５に供給する。そして、死角方位参照及び信号選択部１５５は、死角方位記憶部１５４の内容を参照し、その参照結果に基づいてＢ１（ｆ）又はＢ２（ｆ）のいずれかを選択し、信号Ａ（ｆ）として生成する（Ｓ２０６〜Ｓ２０９）。上述の通り、死角方位参照及び信号選択部１５５により参照される死角方位記憶部１５４の内容、及び、Ｂ１（ｆ）又はＢ２（ｆ）の選択方法については限定されないものである。ここでは、例として、ステップＳ２０６で、同一フレーム内の任意の死角方位（例えば、当該周波数ｆともっとも近い周波数に対応する死角方位）を読み込むものとする。そして、ステップＳ２０７〜Ｓ２０９の処理により、Ｂ１（ｆ）又はＢ２（ｆ）のうち、読み込んだ死角方位に対応するものを選択し、信号Ａ（ｆ）として生成している。

そして、最小値抽出部１５３（上述のステップＳ２０４）、又は、死角方位参照及び信号選択部１５５（ステップＳ２０６〜Ｓ２０９）により生成された信号Ａ（ｆ）が、目的音信号Ｐ（ｆ）として、目的音信号送信部１５７を介して、周波数減算部１６に供給される（Ｓ２１０）。

上述のステップＳ２１０により、周波数減算部１６へ、目的音信号Ｐ（ｆ）が供給されると、目的音選択部１５では、変数ｆがインクリメント（ｆ＋＋、すなわち、ｆ＝ｆ＋１）され（Ｓ２１１）、上述のステップＳ２０２の処理から動作する。

以上のように、目的音選択部１５では、１フレーム分の目的音信号Ｐ（ｆ）が生成される。

そして、周波数減算部１６では、目的音選択部１５から目的音信号Ｐ（ｆ）の供給を受けると、目的音信号Ｐ（ｆ）から、雑音信号Ｂ３（ｆ）が減算され、雑音除去後信号Ｄ（ｆ）が算出され、ＩＦＦＴ部１７に供給される。そして１フレーム分の雑音除去後信号Ｄ（ｆ）は、ＩＦＦＴ部１７で時間領域信号ｙ（ｔ）に変換されることで、音源分離装置１０による音源分離処理は終了する。

（Ａ−３）第１の実施形態の効果
第１の実施形態によれば、以下のような効果を奏することができる。

音源分離装置１０では、妨害音の到来方位を正確に推定して、適切な目的音を生成するために相応しい成分を、制御信号生成部１８によって事前に選別し、その結果に基づいて制御信号Ｃ［ｆ］を生成し、これに基づいて目的音選択部１５による目的音選択処理（妨害音の死角方位の推定）を制御している。これにより、従来技術における、同一フレーム内で生じていた周波数ごとの死角方位の不一致や、実際の音響環境とは無関係な死角方位の変動が軽減され、最終出力音の歪みが解消される。したがって、第１の実施形態の音源分離装置１０では、従来技術と比較して、分離処理後の音の品質低下を抑制することができる。例えば、これにより、第１の実施形態の音源分離装置１０をテレビ会議システムや携帯電話などの通信装置に適用することで、通話音質の向上が期待できる。

（Ｂ）第２の実施形態
以下、本発明による音源分離装置、プログラム及び方法の第２の実施形態を、図面を参照しながら詳述する。

第１の実施形態での、制御信号生成部１８は、妨害音の大小のみを基準として制御信号を生成している。しかし、装置利用者（話者）が話している場合には、側方からの妨害音だけでなく、前方からの目的音も入力されることになる。目的音選択部１５の選択動作は、言い換えれば、妨害音の到来方位の推定にあたるが、この方位推定にとって目的音は外乱要因となりうる（側方から到来する音だけを捕捉したいのに、前方から音が到来するため）。そのため、第１の実施形態では、目的音が存在することによって、目的音選択部１５の選択動作に影響が出る場合があり、この結果、従来技術と同様の課題が再発してしまい、音質が低下してしまうという問題があった。以下、第２の実施形態において、このような課題を解決する構成について説明する。

（Ｂ−１）第２の実施形態の構成
第２の実施形態の音源分離装置１０Ａの機能的構成も上述の図１を用いて示すことができる。なお、図１において、括弧内の符号は、第２の実施形態においてのみ用いられる符号である。

以下、第２の実施形態について、第１の実施形態との差異について説明する。

第２の実施形態では、制御信号生成部１８が制御信号生成部１８Ａに置き換わっている点で、第１の実施形態と異なっている。

図７は、制御信号生成部１８Ａの機能的構成について示したブロック図である。

制御信号生成部１８Ａは、妨害音区間判定部１８１、制御信号更新部１８３が、それぞれ、非目的音区間及び妨害音区間判定部１８６、制御信号更新部１８３Ａに置き換わっている点で、第１の実施形態の制御信号生成部１８と異なっている。

非目的音区間及び妨害音区間判定部１８６では、１フレーム分の入力信号Ｘ１（ｆ）と雑音信号Ｂ３（ｆ）が入力されると、以下の（１２）式により、２つの信号のレベル差を示すＴＬｖを算出することで、近似的ではあるが目的音のレベルを得ることができる。

ここで、以下の（１２）式で、近似的に目的音レベルが計算できる理由を補足する。Ｘ１（ｆ）は前後左右の音を全指向性で取得した信号で、Ｂ３（ｆ）は左右から到来する雑音信号であるので、両者の差を計算すると、前後の信号成分のみが残る。今、目的音は前方から到来することを想定しているので、残った信号は目的音であることが期待できる。

すなわち、非目的音区間及び妨害音区間判定部１８６では、得られたＴＬｖの大きさが一定以上であれば目的音区間であり、そうでなければ非目的音区間であると判定することができる。

ここでは、例として、算出したＴＬｖを、以下の（１３）式に適用した判定を行う。すなわち、非目的音区間及び妨害音区間判定部１８６では、以下の（１３）式に示すように、算出したＴＬｖについて所定の閾値（以下、「検出閾値Г」という）以上であれば目的音区間と判定し、小さければ非目的音区間と判定するものとする。なお、目的音区間の判定方法については、これらの計算式に限定されるものではない。例えば、上記の（１２）式においてＸ１（ｆ）をＸ２（ｆ）に置き換えて同様の処理を行うようにしても良い。

このように、非目的音区間及び妨害音区間判定部１８６では、目的音区間の情報を推定し、制御信号更新部１８３Ａに供給する。そして、非目的音区間及び妨害音区間判定部１８６では、さらに、第１の実施形態の妨害音判定部１８１と同様の妨害音区間の判定処理も行い、その判定結果も制御信号更新部１８３Ａに供給する。

その結果、制御信号更新部１８３Ａでは、「非目的音区間で、かつ、妨害音区間」という区間を検出することができる。

そして、制御信号更新部１８３Ａは、非目的音区間及び妨害音区間判定部１８６から供給された情報から、「非目的音区間で、かつ、妨害音区間」に該当するか否かを識別し、該当する区間であれば、信頼性判定部１８２から受け取った信頼性判定結果を制御信号Ｃ［ｆ］として、制御信号送信部１８５を介して目的音選択部１５に出力する。

一方、制御信号更新部１８３Ａは、非目的音区間及び妨害音区間判定部１８６から供給された情報から、「非目的音区間で、かつ、妨害音区間」に該当しない区間であれば、第１の実施形態と同様に、信頼性判定部１８２から受け取った信頼性判定結果は棄却し、制御信号Ｃ［ｆ］＝０として、制御信号送信部１８５を介して目的音選択部１５に出力するものとする。

（Ｂ−２）第２の実施形態の動作
次に、以上のような構成を有する第２の実施形態の音源分離装置１０Ａの動作（実施形態の音源分離方法）を説明する。

第２の実施形態の音源分離装置１０Ａは、上述の通り、第１の実施形態と異なるのは制御信号生成部１８Ａだけであるため、以下では、制御信号生成部１８Ａの動作についてのみ説明する。その他の部分の動作は第１の実施形態と同様であるので、詳しい説明は省略する。

図８は、制御信号生成部１８Ａの動作について示したフローチャートである。

図８のフローチャートにおける、定数Ｆ＿ＩＮＩ、Ｆ＿ＦＩＮ、及び変数ｆは、上述の図４と同様のものである。また、図８のフローチャートでは、Ｂ１（ｆ）、Ｂ２（ｆ）について、１フレーム分（ｆ＝Ｆ＿ＩＮＩ〜Ｆ＿ＦＩＮ＝０〜１０２３）処理を行うことについて示している。

まず、制御信号生成部１８Ａでは、ｆがＦ＿ＩＮＩ（＝０）に初期化される（Ｓ４０１）。

次に、制御信号生成部１８Ａでは、ｆがＦ＿ＦＩＮ以下であるか否かが判定され（Ｓ４０２）、ｆがＦ＿ＦＩＮ以下と判定された場合には、後述するステップＳ４０３の処理から動作し、そうでない場合（ｆ＞Ｆ＿ＦＩＮ）の場合には、当該区間の処理を終了する。

上述のステップＳ４０２において、ｆがＦ＿ＦＩＮ以下であると判定された場合には、信頼性判定部１８２により、入力信号Ｘ１（ｎ）に基づいて、当該周波数成分が高信頼性成分か否かが判定され、判定結果が制御信号更新部１８３Ａに供給される。そして、制御信号更新部１８３Ａでは、非目的音区間及び妨害音区間判定部１８６による当該区間の判定結果が参照され（Ｓ４０３）、「非目的音区間で、かつ、妨害音区間」という判定結果だった場合には、後述するステップＳ４０４から動作し、そうでない場合には、後述するステップＳ４０５から動作する。なお、非目的音区間及び妨害音区間判定部１８６による判定処理については、周波数成分ごとではなく区間（フレーム）ごとに行うこと（すなわち１つの区間につき１回だけ行うこと）が望ましい。当該区間が「非目的音区間で、かつ、妨害音区間」に該当する場合には、制御信号更新部１８３Ａは、信頼性判定部１８２から供給された判定結果（１又は０）を、当該周波数成分に対応する制御信号Ｃ［ｆ］として、制御信号送信部１８５を介して目的音選択部１５に供給する（Ｓ４０４）。

一方、当該区間が「非目的音区間で、かつ、妨害音区間」に該当しない場合には、制御信号更新部１８３Ａは、信頼性判定部１８２から受け取った信頼性判定結果は棄却し、制御信号Ｃ［ｆ］＝０として、目的音選択部１５に供給する（Ｓ４０５）。

ステップＳ４０４、Ｓ４０５により、目的音選択部１５へ制御信号Ｃ［ｆ］が供給されると、制御信号生成部１８Ａでは、変数ｆがインクリメント（ｆ＋＋、すなわち、ｆ＝ｆ＋１）され（Ｓ４０６）、上述のステップＳ４０２の処理から動作する。

以上のように、制御信号生成部１８Ａでは、周波数成分ごとに制御信号Ｃ［ｆ］が生成され、目的音選択部１５に供給される。

（Ｂ−３）第２の実施形態の効果
第２の実施形態によれば、第１の実施形態の効果に加えて以下のような効果を奏することができる。

第２の実施形態の音源分離装置１０Ａでは、装置利用者（話者）が話していない区間（非目的音区間）を検出し、その区間において妨害音の到来方位を推定するようにしたため、目的音と妨害音が同時に存在する場合に発生する目的音選択部１５での判定ミスを解消することができる。これにより、第２の実施形態の音源分離装置１０Ａでは、分離処理後の音の品質低下を、第１の実施形態よりも抑制することができる。

（Ｃ）他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。

（Ｃ−１）上記の各実施形態では、信頼性判定部で、フレーム内の全ての周波数成分について信頼性判定を行っているが、一部の周波数成分についてだけ信頼性判定を行うようにしても良い。以下、その場合の変形例について説明する。

音声の周波数特性は、高周波数成分になるほど振幅が小さくなるため、図９に示すように、背景音に埋もれてしまう場合が多く、全般的に信頼性は低い。また、マイクロフォンアレーには、空間サンプリング定理により、境界周波数（マイク間隔に依存）よりも高い周波数成分は現実の音響特性を再現できない、という原理的な課題があるので、この意味でも目的音選択に寄与させるに足る信頼性を保持しているとはいえない。

そこで、上記の各実施形態の音源分離装置では、閾値（以下、「閾値Ｔｆ」と呼ぶものとする）以上の周波数の成分に対しては制御信号生成部の動作を停止させてしまい、はじめから同一フレーム内の高信頼性成分の結果を適用するように設定してもよい。これにより、制御信号生成部の演算量を削減するという効果を奏する。具体的には、例えば、制御信号生成部に上述の処理を行う「演算実行判定部」を設け、周波数が閾値Ｔｆよりも小さければ制御信号生成演算を実行し、そうでなければ停止するように制御しても良い。

閾値Ｔｆとして適用する値は限定されないものであるが、例えば、背景音の大きさに応じた閾値や、空間サンプリング定理から算出した閾値を適用するようにしても良い。なお空間サンプリング定理によって、閾値を計算する場合には、以下の（１４）式を用いるようにしても良い。なお、以下の（１４）式において、ｌはマイク間距離であり、ｃは音速を示している。

Ｔｆ＝ｃ／２ｌ …（１４）
（Ｃ−２）上記の各実施形態の音源分離装置で、周波数領域で行っている処理について、一部を時間領域で行うようにしても良い。

（Ｃ−３）第１の実施形態の「妨害音区間判定部」及び「信頼性判定部」で用いられる判定閾値や、第２の実施形態の「非目的音区間」及び「妨害音区間判定部」で用いられる判定閾値については、固定値ではなく、適応的に変動させるようにしてもよい。例えば、各判定閾値として、周波数ごとに異なる値を適用するようにしても良い。

（Ｃ−４）上記の各実施形態では、音源分離装置に入力される入力信号は、マイクが捕捉してアナログ／ディジタル変換されたものとして説明したが、マイクを省略して、他の方法により入力するようにしても良い。例えば、記録媒体などから読み出されたものであっても良いし、他の装置から通信によって与えられたものであっても良い。すなわち、音源分離装置１０において、Ｘ１（ｆ）、Ｘ２（ｆ）が保持できれば、マイクやＦＦＴ部を省略した構成としても良い。

また、音源分離装置の信号の出力形式についても限定されないものであり、例えば、ＩＦＦＴ部を省略して、周波数領域で表わされた信号をそのまま出力するようにしても良い。

（Ｃ−５）第１の実施形態では、制御信号Ｃ［ｆ］の生成にあたって、信頼性判定部の判定結果と、妨害音区間判定部の判定結果を反映しているが、信頼性判定部の判定結果だけに基づいて制御信号Ｃ［ｆ］を生成するようにしても良い。例えば、信頼性判定部の判定結果が高信頼性成分という結果であった場合には、制御信号Ｃ［ｆ］＝１、そうでない場合には制御信号Ｃ［ｆ］＝０としても良い。この場合、信頼性判定部ではX1(f)ではなく、B3(f)を参照して制御信号を生成した方が目的音による影響を除去できるので望ましい。

（Ｃ−６）上記の各実施形態の目的音選択部１５では、フレーム内の周波数成分ごとに、Ｂ１（ｆ）とＢ２（ｆ）のうちいずれかを選択して、目的音の信号Ａ（ｆ）を生成しているが、フレーム単位でＢ１（ｆ）又はＢ２（ｆ）のいずれかを目的音の信号Ａ（ｆ）に採用するか決定するようにしても良い。

例えば、高信頼性成分を有する妨害音区間のフレームについては、高信頼性成分について最小値抽出部１３が選択した結果を、全ての周波数成分について適用するようにしても良い。また、例えば、高信頼性成分を有する妨害音区間のフレームで、任意の高信頼性成分（例えば、最も|X1(f)|または|X2(f)|の値が大きい成分）について最小値抽出部１３が選択した結果（Ｂ１（ｆ）又はＢ２（ｆ）のいずれか）を、全ての周波数成分について適用するようにしても良い。さらに、例えば、高信頼性成分を有する妨害音区間のフレームで、高信頼性成分のそれぞれについて最小値抽出部１３が選択した結果を集計し、Ｂ１（ｆ）又はＢ２（ｆ）のうち、選択された回数の多かった選択結果を、全ての周波数成分に適用するようにしても良い。そして、この場合、非妨害音区間のフレームについては、高信頼性成分を有する他の妨害音区間のフレーム（例えば、直近の該当するフレーム）の選択結果をそのまま適用するようにしても良い。

１０…音源分離装置、ｍ１、ｍ２…マイク、１１…ＦＦＴ部、１２…第１の指向性形成部、１３…第２の指向性形成部、１４…第３の指向性形成部、１５…目的音選択部、１５１…音響信号及び制御信号受信部、１５２…制御切替部、１５３…最小値抽出部、１５４…死角方位記憶部、１５５…死角方位参照及び信号選択部、１５６…目的音信号生成部、１５７…目的音信号送信部、１６…周波数減算部、１７…ＩＦＦＴ部、１８…制御信号生成部、１８１…妨害音区間判定部、１８２…信頼性判定部、１８３…制御信号更新部、１８５…制御信号送信部。

Claims

入力信号から、背景音に加えて妨害音を含む場合がある雑音と、目的音とを分離する音源分離処理を行う音源分離装置において、
間隔を置いて配置された複数個のマイクロフォンのうち、２個のマイクロフォンの受音信号のスペクトルについて、目的音が到来すると想定される目的音想定到来方向以外の方向に死角を形成する処理を行って、目的音成分が優勢となる目的音優勢スペクトル候補を複数形成する目的音優勢スペクトル候補形成手段と、
上記受音信号のスペクトルについて、上記目的音想定到来方向を含む所定の範囲内の方向に死角を形成する処理を行って、雑音成分が優勢となる雑音優勢スペクトルを形成する雑音優勢スペクトル形成手段と、
上記受音信号の各区間の少なくとも１つの周波数成分について、当該区間に妨害音の成分が含まれるか否かを判定する妨害音判定を行った場合の周波数成分の信頼性を判定する信頼性判定手段と、
上記受音信号の区間ごとに、上記目的音優勢スペクトル候補からいずれかを選択して、目的音優勢スペクトルを形成するものであって、少なくとも当該区間に係る上記信頼性判定手段の判定結果を利用して決定した選択処理方法を、当該区間の選択処理に適用する目的音選択手段と、
上記雑音優勢スペクトルと、上記目的音優勢スペクトルとを用いて、上記受音信号について、上記雑音の成分と、上記目的音の成分とを分離する分離手段と
を有することを特徴とする音源分離装置。
上記目的音選択手段は、周波数成分ごとに、上記目的音優勢スペクトル候補からいずれかを選択して、目的音優勢スペクトルを形成することを特徴とする請求項１に記載の音源分離装置。
上記目的音選択手段は、上記信頼性判定手段により妨害音判定の信頼性が所定以上と判定された周波数成分に係る選択処理を行う第１の選択処理部と、上記第１の選択処理部による処理対象とならなかった周波数成分について、上記第１の選択処理部が過去に行った処理結果を考慮して選択処理を行う第２の選択処理部を備えることを特徴とする請求項２に記載の音源分離装置。
上記受音信号の区間ごとに、妨害音判定を行う妨害音区間判定手段をさらに備え、
上記目的音選択手段は、上記妨害音区間判定手段により妨害音が含まれる妨害音区間と判定された区間内で、上記信頼性判定手段により妨害音判定の信頼性が所定以上と判定された周波数成分に係る選択処理を行う第１の選択処理部と、上記第１の選択処理部による処理対象とならなかった周波数成分について、上記第１の選択処理部が過去に行った処理結果を考慮して選択処理を行う第２の選択処理部を備えることを特徴とする請求項２に記載の音源分離装置。
上記目的音選択手段は、上記妨害音区間判定手段により妨害音が含まれない非妨害音区間と判定された区間の周波数成分については、上記第２の選択処理部を用いて選択処理を行うことを特徴とする請求項４に記載の音源分離装置。
上記受音信号の区間ごとに、目的音の成分が含まれているか否かを判定する目的音区間判定手段をさらに備え、
上記目的音選択手段は、上記妨害音区間判定手段により妨害音が含まれる妨害音区間と判定され、かつ、上記目的音区間判定手段により目的音の成分が含まれていない非目的音区間と判定された区間内で、上記信頼性判定手段により妨害音判定の信頼性が所定以上と判定された周波数成分に係る選択処理を行う第１の選択処理部と、上記第１の選択処理部による処理対象とならなかった周波数成分について、上記第１の選択処理部が過去に行った処理結果を考慮して選択処理を行う第２の選択処理部を備えることを特徴とする請求項４に記載の音源分離装置。
上記目的音選択手段は、所定の周波数以上の周波数成分に係る選択処理については、同一区間内で周波数が上記所定の周波数未満の周波数成分の選択結果を適用することを特徴とする請求項２〜６のいずれかに記載の音源分離装置。
入力信号から、背景音に加えて妨害音を含む場合がある雑音と、目的音とを分離する音源分離処理を行う音源分離装置に搭載されたコンピュータを、
間隔を置いて配置された複数個のマイクロフォンのうち、２個のマイクロフォンの受音信号のスペクトルについて、目的音が到来すると想定される目的音想定到来方向以外の方向に死角を形成する処理を行って、目的音成分が優勢となる目的音優勢スペクトル候補を複数形成する目的音優勢スペクトル候補形成手段と、
上記受音信号のスペクトルについて、上記目的音想定到来方向を含む所定の範囲内の方向に死角を形成する処理を行って、雑音成分が優勢となる雑音優勢スペクトルを形成する雑音優勢スペクトル形成手段と、
上記受音信号の各区間の少なくとも１つの周波数成分について、当該区間に妨害音の成分が含まれるか否かを判定する妨害音判定を行った場合の周波数成分の信頼性を判定する信頼性判定手段と、
上記受音信号の区間ごとに、上記目的音優勢スペクトル候補からいずれかを選択して、目的音優勢スペクトルを形成するものであって、少なくとも当該区間に係る上記信頼性判定手段の判定結果を利用して決定した選択処理方法を、当該区間の選択処理に適用する目的音選択手段と、
上記雑音優勢スペクトルと、上記目的音優勢スペクトルとを用いて、上記受音信号について、上記雑音の成分と、上記目的音の成分とを分離する分離手段と
して機能させることを特徴とする音源分離プログラム。
入力信号から、背景音に加えて妨害音を含む場合がある雑音と、目的音とを分離する音源分離処理を行う音源分離方法において、
目的音優勢スペクトル候補形成手段、雑音優勢スペクトル形成手段、信頼性判定手段、目的音選択手段、分離手段を有し
上記目的音優勢スペクトル候補形成手段は、間隔を置いて配置された複数個のマイクロフォンのうち、２個のマイクロフォンの受音信号のスペクトルについて、目的音が到来すると想定される目的音想定到来方向以外の方向に死角を形成する処理を行って、目的音成分が優勢となる目的音優勢スペクトル候補を複数形成し、
上記雑音優勢スペクトル形成手段は、上記受音信号のスペクトルについて、上記目的音想定到来方向を含む所定の範囲内の方向に死角を形成する処理を行って、雑音成分が優勢となる雑音優勢スペクトルを形成し、
上記信頼性判定手段は、上記受音信号の各区間の少なくとも１つの周波数成分について、当該区間に妨害音の成分が含まれるか否かを判定する妨害音判定を行った場合の周波数成分の信頼性を判定し、
上記目的音選択手段は、上記受音信号の区間ごとに、上記目的音優勢スペクトル候補からいずれかを選択して、目的音優勢スペクトルを形成するものであって、少なくとも当該区間に係る上記信頼性判定手段の判定結果を利用して決定した選択処理方法を、当該区間の選択処理に適用し、
上記分離手段は、上記雑音優勢スペクトルと、上記目的音優勢スペクトルとを用いて、上記受音信号について、上記雑音の成分と、上記目的音の成分とを分離する
ことを特徴とする音源分離方法。