JP2012049715A

JP2012049715A - 音源分離装置、音源分離方法、及び、プログラム

Info

Publication number: JP2012049715A
Application number: JP2010188738A
Authority: JP
Inventors: Shinya Matsui; 信也松井; Hiroji Ishikawa; 洋児石川; Katsumasa Nagahama; 克昌長濱
Original assignee: Asahi Kasei Corp
Current assignee: Asahi Kasei Corp
Priority date: 2010-08-25
Filing date: 2010-08-25
Publication date: 2012-03-08

Abstract

【課題】従来の音源分離装置では、指向性制御手段において与える遅延量とそれに対応した角度は一定であるため、周波数領域の高域になればなるほど位相回転は大きくなる。しかし、大きな遅延量をとった場合、高域において空間サンプリング定理を満たさなくなる。
【解決手段】音源分離装置（１）のビームフォーマ部（３）は、スペクトル分析後のマイクロホン（１０、１１）からの出力信号に対して複素共役の関係にある重み係数を乗算することで、２つのマイクロホン（１０、１１）を結ぶ線分と交わる面である分離面に分割された２つの領域のそれぞれから到来する音源信号を各々減衰させるためのビームフォーマ処理を行う。この時、指向性制御部（８０）において、分離したい２つの目的音源Ｒ１、Ｒ２が分離面に対して対称となるように、片方のマイク出力に対して、周波数帯に応じて最適な遅延を与える。
【選択図】図１

Description

本発明は、複数のマイクロホンを使用し、複数の音源から発せられた複数の音声信号や各種環境雑音など複数の音響信号が混ざった信号から、目的とする音源から到来する音源信号を分離する音源分離装置、音源分離方法、及び、プログラムに関する。

種々の環境下において特定の音声信号などを収録したい場合、周囲環境にはさまざまな雑音源があるため、目的音とする信号のみをマイクロホンで収録することは困難であり、何らかの雑音低減処理あるいは音源分離処理が必要となる。
これらの処理が特に必要となる例として、例えば自動車環境下が挙げられる。自動車環境下において、携帯電話の普及により運転中の携帯電話を使用しての通話は車内に離れて設置されたマイクを使用するのが一般的あり、通話品質を著しく劣化させている。また、自動車環境下で運転中に音声認識を行う場合も同様の状況で発話するため、音声認識性能を劣化させる原因になっている。現在の音声認識技術の進歩により、定常雑音に対する音声認識率の劣化の問題に対して、劣化した性能のかなりの部分を回復することが可能となっている。しかし、現状の音声認識技術で対応が難しいものとして、複数発話者の同時発話時の認識性能の劣化の問題がある。現在の音声認識の技術では同時に発話された二人の混合音声を認識する技術が低いため、音声認識装置使用時には発話者以外の同乗者は発話を制限され、同乗者の行動を制限する状況が発生している。

また、携帯電話機と接続してハンズフリー通話を可能とするヘッドセットにおいても、背景雑音環境下で通話を行うと通話品質の劣化が同様に発生する。
上記のような問題を解決する方法として、複数のマイクロホンを備えた音源分離方法が存在する。例えば、特許文献１に記載の音源分離装置は、２つのマイクロホンを結ぶ直線の垂線に対して対称な方向から到来する音源信号を各々減衰させるためのビームフォーマ処理を行い、ビームフォーマ出力について計算したパワースペクトル情報同士の差分に基づいて目的音源のスペクトル情報を抽出する。

特許文献１に記載の音源分離装置を用いることにより、指向特性がマイクロホン素子の感度に影響を受けないという性質を実現することができ、マイクロホン素子の感度のばらつきに影響を受けることなく、複数の音源から発せられた音源信号が混合された混合音の中から、目的音源からの音源信号を分離することが可能となる。

特許第４２２５４３０号公報

特許文献１に記載の音源分離装置では、２つのマイクロホンのうちの一方からの出力信号に対して遅延を与え、この遅延に対応した角度だけ仮想的に垂線を回転させることにより目的音源方向を仮想的に補正する指向性制御手段を備えることとしている。しかし、特許文献１の音源分離装置では、与える遅延量とそれに対応した角度は一定であるため、周波数領域の高域になればなるほど位相回転は大きくなる。

一方、２つのマイク間距離の１／２より短い波長はマイク間で取得される到来波の位相が一回転以上してしまうため位相情報が失われてしまう。よって、位相情報をもとにアレイ処理をする場合、２つのマイク間距離の１／２より長い波長の周波数帯域までしか取り扱うことができない。これを空間サンプリング定理という。
すなわち、大きな遅延量をとった場合、高域において空間サンプリング定理を満たさなくなることが生じ、適切に音源分離処理を行うことができなくなってしまう。具体的には、所望の音源分離面から大きく外れた方向から到来する反対ゾーンの高域成分の音が出力されるという事態が生じる。

上記課題を解決するために、本発明は、互いに離して配置された少なくとも２つのマイクロホンに対して複数の音源から発せられた音源信号が混合された混合音を入力し、前記混合音から目的音源からの音源信号を分離する音源分離装置であって、前記マイクロホンのうちの２つのマイクロホンからなるマイクロホン対からの出力信号の少なくとも一方に対して周波数帯域ごとに遅延を与える指向性制御手段と、前記出力信号に対して第１の係数を用いた周波数領域での積和演算を行うことにより、前記目的音源のおおまかな方向から到来する音源信号を減衰させるための第１のビームフォーマ処理を行い、かつ、前記出力信号に対して、前記第１の係数と周波数領域で複素共役の関係にある第２の係数を用いた周波数領域での積和演算を行うことにより、前記マイクロホン対を構成する２つのマイクロホンを結ぶ線分と交わる平面を境にして前記おおまかな方向が含まれる領域とは反対の領域から到来する音源信号を減衰させるための第２のビームフォーマ処理を行うビームフォーマ手段と、前記ビームフォ−マ手段により得られた音源信号各々についてのパワースペクトル情報を計算するパワー計算手段と、前記パワー計算手段により計算されたパワースペクトル情報同士の差分を求め、所定の値を超えた前記差分値を目的音源のスペクトル情報として出力する目的音スペクトル抽出手段とを有し、前記指向性制御手段は、前記遅延に対応した角度だけ仮想的に前記平面と前記２つのマイクロホンを結ぶ線分を面内に含む平面とのなす角度を増減させて前記平面を回転させることにより目的音源方向を仮想的に補正することを特徴とする音源分離装置を提案する。
この構成によれば、マイクロホン対からの出力信号に対して各周波数帯域ごとに異なる遅延が与えられるため、例えば、マイクロホン対の出力信号に対して、各周波数帯域において常に空間サンプリング定理を満たすような遅延を与えること等が可能となる。

また、前記指向性制御手段は、各周波数帯域において空間サンプリング定理を満たす前記遅延を与えるようになっていてもよい。
この構成によれば、指向性制御手段によってマイクロホン対の少なくとも一方からの出力信号に対して与えられる遅延は、サンプリング定理を満たすものである。よって、遅延を与えることで指向特性を最適な状態に補正して、音源の分離性能を向上させることができるとともに、所望の音源分離面から大きく外れた方向から到来する反対ゾーンの高域成分の音が出力されることなく、適切に音源分離処理を行うことができる。

また、前記指向性制御手段は、周波数帯域ごとに、前記分離面の回転角度に基づく基準遅延量が空間サンプリング定理を満たす場合には、前記基準遅延量に基づいて前記出力信号の少なくとも一方に対して与える前記遅延を決定し、前記基準遅延量が空間サンプリング定理を満たさない場合には、各周波数に基づいて算出される遅延量を前記出力信号の少なくとも一方に対して与える前記遅延を決定する最適遅延量算出手段を有していてもよい。

また、前記指向性制御手段は、周波数帯域ごとに、下記式（１）によって求められる前記基準遅延量τ_ｄが空間サンプリング定理を満たす場合には、前記基準遅延量τ_ｄを前記出力信号の少なくとも一方に対して与える前記遅延とし、前記基準遅延量τ_ｄが空間サンプリング定理を満たさない場合には、下記式（２）によって求められる遅延量τ_０を前記出力信号の少なくとも一方に対して与える前記遅延とするようになっていてもよい。

（式（１）、式（２）において、ｄは２つのマイクロホン間距離、θ_τは分離面の回転角度、ｃは音速、ωは周波数）
また、音源分離装置は、前記目的音スペクトル抽出手段において出力された前記目的音源のスペクトル情報の周波数特性を補正するための目的音補正手段をさらに有していてもよい。
指向性制御手段において指向性を狭めた後にビームフォーマ手段でフィルタ処理を行うことにより、目的音の周波数特性に若干の歪が生じるという問題がある。また、遅延量がビームフォーマ手段の入力信号に与えられることにより、出力ゲインが小さくなってしまう問題が生じる。上記の構成によれば、目的音の周波数歪を補正し、出力ゲインが小さくなることを軽減することができる。

また、音源分離装置は、前記音源信号が到来する方向を推定する到来方向推定手段をさらに有し、前記指向性制御手段は、前記到来方向推定手段により推定された到来方向に基づいて、前記マイクロホン対からの出力信号に対して前記遅延を与えるようになっていてもよい。
この構成によれば、音源の高い分離性能が得られるように遅延操作を行うことが可能と
なる。

また、本発明は、互いに離して配置された少なくとも２つのマイクロホンのうちの２つのマイクロホンからなるマイクロホン対に対して、複数の音源から発せられた音源信号を入力する音源信号受信ステップと、前記マイクロホン対からの出力信号の少なくとも一方に対して周波数帯域ごとに遅延を与える指向性制御ステップと、前記出力信号に対して、周波数領域で複素共役の関係にある２つの重み係数各々を用いて周波数領域での積和演算を行うことにより、スペクトル情報を得ようとする目的音源のおおまかな方向から到来する音源信号を減衰させるための第１のビームフォーマ処理及び前記マイクロホン対を構成する２つのマイクロホンを結ぶ線分と交わる平面を境にして前記おおまかな方向が含まれる領域とは反対の領域から到来する音源信号を減衰させるための第２のビームフォーマ処理を行うビームフォーマ処理ステップと、前記ビームフォーマ処理ステップにおいて得られた音源信号各々についてのパワースペクトル情報を計算するパワー計算ステップと、前記パワー計算ステップにおいて計算されたパワースペクトル情報同士の差分を求め、所定の値を超えた前記差分値を目的音源のスペクトル情報として出力する目的音スペクトル抽出ステップと、を有する音源分離方法を提案する。

この構成によれば、指向性制御ステップによってマイクロホン対の少なくとも一方からの出力信号に対して与えられる遅延は、サンプリング定理を満たすものである。よって、遅延を与えることで指向特性を最適な状態に補正して、音源の分離性能を向上させることができるとともに、所望の音源分離面から大きく外れた方向から到来する反対ゾーンの高域成分の音が出力されることなく、適切に音源分離を行うことができる。

また、本発明は、コンピュータに、互いに離して配置された少なくとも２つのマイクロホンのうちの２つのマイクロホンからなるマイクロホン対から、複数の音源から発せられた音源信号が混合された出力信号を取得する出力信号取得ステップと、前記出力信号取得ステップにおいて取得された出力信号の少なくとも一方に対して周波数帯域ごとに遅延を与える指向性制御ステップと、前記出力信号に対して、周波数領域で複素共役の関係にある２つの重み係数各々を用いて周波数領域での積和演算を行うことにより、スペクトル情報を得ようとする目的音源のおおまかな方向から到来する音源信号を減衰させるための第１のビームフォーマ処理及び前記マイクロホン対を構成する２つのマイクロホンを結ぶ線分と交わる平面を境にして前記おおまかな方向が含まれる領域とは反対の領域から到来する音源信号を減衰させるための第２のビームフォーマ処理を行うビームフォーマ処理ステップと、前記ビームフォーマ処理ステップにおいて得られた音源信号各々についてのパワースペクトル情報を計算するパワー計算ステップと、前記パワー計算ステップにおいて計算されたパワースペクトル情報同士の差分を求め、所定の値を超えた前記差分値を目的音源のスペクトル情報として出力する目的音スペクトル抽出ステップと、を実行させるためのプログラムを提案する。

本発明によれば、遅延を与えることで指向特性を最適な状態に補正して、音源の分離性能を向上させることができるとともに、所望の音源分離面から大きく外れた方向から到来する反対ゾーンの高域成分の音が出力されることなく、適切に音源分離処理を行うことができる。

本発明の音源分離システムの構成を示す図である。指向性制御部の構成を示す図である。本発明の音源分離装置の指向特性を示す図である。指向性制御部の別の構成を示す図である。目的音補正部を設けた場合の本発明の音源分離装置の指向特性を示す図である。音源分離システムにおける処理の流れを示すフロー図である。指向性制御部での処理の詳細を示すフロー図である。特許文献１の音源分離システムの構成を示す図である。特許文献１の音源分離装置の指向特性を示す図である。特許文献１の音源分離装置における音源分離の境界面を示す図である。特許文献１の音源分離装置の指向特性を示す図である。

以下、本発明に係る実施の形態について、図面を参照しながら説明する。
図１は、本実施形態に係る音源分離システムの基本的構成を示す図である。このシステムは、２つのマイクロホン（以下「マイク」という）１０、１１と、音源分離装置１とで構成されている。以下、マイクロホンを二つとして実施形態の説明を行うが、マイクロホンの数は少なくとも２つ以上あればよく、２つに限定されない。

この音源分離装置１は、図示せぬ、全体を制御し演算処理を実行するＣＰＵと、ＲＯＭ、ＲＡＭ、ハードディスク装置等の記憶装置を含むハードウェアと、記憶装置に記憶されたプログラム、データ等を含むソフトウェアとを備えている。これらのハードウェア及びソフトウェアによって、音源分離装置１の各機能ブロックが実現される。
２つのマイク１０、１１は、平面上に互いに離して設置されており、２つの音源Ｒ１、Ｒ２から発せられた信号を受信する。このとき、これら２つの音源Ｒ１、Ｒ２は、２つのマイク１０、１１を結ぶ線分と交わる平面（以下、分離面とする）を境界として分割された２つの領域（以下「分離面の左右」という）にそれぞれ位置するものとするが、必ずしも分離面に対し左右対称の位置に存在する必要はない。尚、本実施形態では、分離面を、２つのマイク１０、１１を結ぶ線分を面内に含む平面と垂直に交わる平面であって、前記線分の中点を通る平面とした例で説明する。

このマイク１０、１１で得た２つの音源信号を、スペクトル分析部２０、２１においてそれぞれマイク出力毎に周波数分析し、ビームフォーマ部３においてこれらの周波数分析された信号を、分離面の左右に死角を形成したビームフォーマ３０、３１でフィルタリングを行う。なお、ビームフォーマ３０、３１は、好ましくは、分離面の左右において、分離面に対して対称に死角を形成するものである。また、この時、指向性制御部８０において、到来方向推定部１００で推定される目的音位置に基づいて、分離したい２つの目的音源Ｒ１、Ｒ２が仮想的に出来るだけ分離面に対して対称となるように、スペクトル分析部２０、２１で周波数分析されたマイク出力のうち片方のマイク出力に遅延操作を与える。すなわち、仮想的に分離面を回転させるが、この時の回転角について、周波数帯域に応じて最適な値を算出する。

そして、パワー計算部４０、４１において、ビームフォーマ３０、３１のフィルタ出力のパワーを計算してパワースペクトル情報を出力する。また、これと同時に、位相抽出部６０、６１では、ビームフォーマ３０、３１の出力から位相情報Φ１、Φ２を抽出する。また、目的音スペクトル抽出部５０、５１において、パワー計算部４０、４１で計算されたパワースペクトル情報の差分を計算し、この結果に対し、ある一定値以上の値を出力しそれ以下をゼロとする処理を行う。

また、目的音補正部９０、９１において、目的音出力の周波数特性を補正する。そして、時間波形変換部７０、７１では、位相抽出部６０、６１で抽出された位相情報をその入力として、目的音補正部９０、９１で周波数特性が補正された目的音を周波数領域信号から時間領域信号に変換する。
上記の構成において、本実施形態に係る音源分離システムの特徴点は、指向性制御部８０および目的音補正部９０、９１である。これら以外の機能ブロックについては、特許文献１に開示のものと同様であるので、以下においては、主に指向性制御部８０および目的音補正部９０、９１について説明する。

［指向性制御部］
まず、特許文献１におけるビームフォーマでの処理について説明する。図８は、特許文献１に係る音源分離システムの構成を示す図である。ビームフォーマ３０’、３１’の入力信号をＸ（ω）＝［ｘ_１（ω），ｘ_２（ω）］^Ｔとしたとき（Ｔは転置操作）、ビームフォーマ３０’、３１’の出力Ｓ（ω，θ_１，θ_２）は

となる（Ｈは共役転置操作）。
ここで、Ｗ（ω，θ_１，θ_２）はある周波数
におけるビームフォーマ３０’、３１’の重み係数ベクトルであり、平面波を仮定して導出するものとする。
また、一方のビームフォーマ３０’の係数をＷ_１（ω）＝［ｗ_１（ω，θ_１，θ_２），ｗ_２（ω，θ_１，θ_２）］^Ｔ、としたとき、他方のビームフォーマ３１’の係数Ｗ_２（ω）は、Ｗ_１の複素共役とし、パワー計算部４０’で計算されるビームフォーマ３０’、３１’の出力のパワースペクトル密度（ＰＳＤ）であるｐｓ_１（ω）、ｐｓ_２（ω）の差分ｄｒ_１（ω）は、目的音スペクトル抽出部５０’において以下のように算出される。

このとき、目的音スペクトル抽出部５０’の出力値である周波数領域信号Ｓ_１（ω）のパワースペクトルは、以下のように算出される。

図９は、目的音スペクトル抽出部５０’の出力の指向特性例である。マイク間隔は、０．０３［ｍ］、音源Ｒ１’とマイク１０’の距離は、１．５［ｍ］である場合のシミュレーション結果である。Ｚ軸は、ビームフォーマ３０’の入力信号ｘ_１（ω）に対する目的音スペクトル抽出部５０’の出力信号の大きさである。
図１０は、２つの音源Ｒ１’（目的音）、音源Ｒ２’（雑音）がマイクを結ぶ線分と交わる元々の分離面に対してθ_τだけ回転した分離面に対し、左右対称となる状況を示している。特許文献１に記述されているように、指向性制御部８０’において、片方のマイクで取得した信号に一定遅延量τ_ｄを与えることで、図１０に示される状況と等価な状況を実現可能である。すなわち、マイク間の位相差を操作し、指向特性を調整するため、上記の式（３）において、位相回転子Ｄ（ω）を乗ずる（ｄｓ_１（ω）はビームフォーマ３０’の出力）。

ここで、遅延量τ_ｄは以下のように算出される。

ｄはマイク間距離［ｍ］、ｃは音速［ｍ／ｓ］である。
しかしながら、位相情報をもとにアレイ処理をする場合、以下の式で表現される空間サンプリング定理を満たさなければならない。

この定理を満たすために許容される遅延量の最大値τ_０としては、

となる。すなわち、各周波数ωが大きくなるほど、許容される遅延量τ_０は小さくなってしまう。しかしながら、特許文献１の音源分離装置では、式（６−２）で与えられる遅延量は一定であるため、周波数領域の高域において式（８）を満たさなくなる場合が生ずる。結果として、図１１に示されるように、所望の音源分離面から大きく外れた方向から到来する反対ゾーンの高域成分の音が出力されてしまう。

本実施形態に係る音源分離装置においては、図２に示されるように、指向性制御部８０に最適遅延量算出部８１を設け、仮想的に分離面を回転させる際の回転角θ_τに対し一定の遅延を与えるのではなく、周波数帯毎に空間サンプリング定理を満たす最適な遅延量を算出することで、上記の問題を解決する。
指向性制御部８０は、最適遅延量算出部８１において、式（１）よりθ_τによる遅延量を与えたとき周波数毎に空間サンプリング定理を満たすかを判定し、空間サンプリング定理を満たすならばθ_τに対応する遅延量τ_ｄを位相回転子８２に適用し、空間サンプリング定理を満たさないならば、遅延量τ_０を位相回転子８２に適用する。

図３は、本実施形態に係る音源分離装置１の指向特性を示す図である。図３に示されるように、式（１０）の遅延量を適用することにより、所望の音源分離面から大きく外れた方向から到来する反対ゾーンの高域成分の音が出力されてしまうといった問題を解決することができる。

また、図４は、指向性制御部８０の別の構成を示す図である。この場合、最適遅延量算出部８１において式（１０）に基づいて算出された遅延量を片方のマイク入力だけに与えるのではなく、位相回転子８２、８３によって、双方のマイク入力にそれぞれ半分ずつの遅延を与え全体として同量の遅延操作を実現してもよい。つまり、片方のマイクで取得した信号に遅延量τ_ｄ（またはτ_０）を与えるのではなく、片方のマイクで取得した信号に遅延量τ_ｄ／２（またはτ_０／２）、もう片方のマイクで取得した信号に遅延量−τ_ｄ／２（または−τ_０／２）を与えることで、全体の遅延差がτ_ｄ（またはτ_０）になるようにしてもよい。

［目的音補正部］
別の問題点として、指向性制御部８０において指向性を狭めた後にビームフォーマ３０、３１でフィルタ処理を行うことにより、目的音の周波数特性に若干の歪が生じることが挙げられる。また、式（１０）の処理により、出力ゲインが小さくなってしまう問題が生じる。よって、目的音出力の周波数特性を補正するため目的音補正部９０、９１を設け周波数イコライジングを行う。つまり、目的音の場所はおおよそ固定されているため、推定される目的音位置に対して補正を行う。本実施形態では、ある点音源から各マイクまでの伝播時間や減衰量を表す伝達関数を簡易的に模した物理モデルを利用する。ここでは、マイク１０の伝達関数を基準値とし、マイク１１の伝達関数をマイク１０に対する相対値として表現する。このとき、目的音位置から各マイクに到達する音の伝播モデルＸ_ｍ（ω）＝［Ｘ_ｍ１（ω），Ｘ_ｍ２（ω）］は、以下のように表せる。γ_ｓは、マイク１０と目的音の距離、θ_Ｓは、目的音の方向である。

この物理モデルを利用することで、推定される目的音位置から発せられた音声が各マイクにどのように入力されるのかが予め想定でき、目的音に対する歪具合も簡易的に算出される。上記の伝播モデルに対する出力のパワースペクトルはｄｒ_１（ω｜Ｘ_ｍ（ω））となり、この逆数を目的音補正部９０においてイコライザとして保持しておくことで、目的音の周波数歪を補正できる。よって、イコライザは、

と求めることが出来る。
以上より、目的音補正部９０の出力のパワースペクトルは、

となる。なお、目的音補正部９１でも目的音スペクトル抽出部５１の出力に対して同様の処理を行う。
図５は、θ_Ｓが０度、γ_Ｓが１．５［ｍ］として目的音補正部９０、９１のイコライザを設計した際の音源分離装置１の指向特性を示す図である。０度方向から到来する音源に対し、出力信号の周波数歪がないことが図５より確認できる。

［音源分離システムの処理フロー］
図６は、音源分離システムにおける処理の流れを示すフロー図である。
スペクトル分析部２０、２１において、マイク１０、２０のそれぞれにおいて得られた入力信号１、入力信号２に対し、周波数分析が実行される（ステップＳ１０１、Ｓ１０２）。次に、到来方向推定部１００において、目的音の位置の推定が行われる（ステップＳ１０３）。そして、指向性制御部８０において、ステップＳ１０３において推定された音源Ｒ１、Ｒ２の位置に基づいて最適遅延量が算出され、この最適遅延量から入力信号１に位相回転子が乗算される（ステップＳ１０４）。なお、図４にて説明したように、ステップＳ１０３で算出された最適遅延量は、入力信号１と入力信号２に対して半分ずつ乗算されるようになっていてもよい。

次に、ステップＳ１０１、Ｓ１０２において周波数分析された信号であって、ステップＳ１０４において位相が回転された信号ｘ₁（ω）、ｘ₂（ω）に対して、ビームフォーマ３０、３１でフィルタリング処理が実行される（ステップＳ１０５、Ｓ１０６）。具体的には、例えば、目的方位θ₁に対するゲインを１とし、他方向θ₂に１つの死角（ゲイン０）を形成するビームフォーマ３０の重み係数ベクトルをＷ_１（ω，θ₁，θ₂）＝［ｗ₁（ω，θ₁，θ₂），ｗ₂（ω，θ₁，θ₂）］^Ｔ、観測信号をＸ（ω，θ₁，θ₂）＝［ｘ₁（ω，θ₁，θ₂），ｘ₂（ω，θ₁，θ₂）］^Ｔとしたとき、ビームフォーマ３０の出力ｄｓ₁（ω）は次式で求められる。ただし、Ｔは転置操作、Ｈは共役転置操作を示す。

また、ビームフォーマ３１の重み係数ベクトルをＷ₂（ω，θ₁，θ₂）＝［ｗ₁ ^＊（＊ω，θ₁，θ₂），ｗ₂ ^＊（ω，θ₁，θ₂）］^Ｔとしたとき、ビームフォーマ３１の出力ｄｓ₂（ω）は次式で求められる。

また、これらのフィルタリング処理の出力に対して、パワー計算部４０、４１でパワーが計算される（ステップＳ１０７、Ｓ１０８）。具体的には、以下の計算式により、ビームフォーマ３０、ビームフォーマ３１からの出力ｄｓ₁（ω）、ｄｓ₂（ω）が、パワースペクトル情報ｐｓ₁（ω）、ｐｓ₂（ω）に変換される。

次に、目的音スペクトル抽出部５０、５１において、ステップＳ１０７、Ｓ１０８で計算されたパワースペクトル情報に基づいて、目的音源のパワースペクトル情報が抽出される（ステップＳ１０９、Ｓ１１０）。また、目的音補正部９０、９１において、目的音の周波数特性が補正される（ステップＳ１１１、Ｓ１１２）。
また、位相抽出部６０、６１において、ビームフォーマ３０、３１の出力から位相情報Φ１、Φ２が抽出される（ステップＳ１１３、Ｓ１１４）。最後に、時間波形変換部７０、７１において、ステップＳ１１３、Ｓ１１４で抽出された位相情報に基づいて、ステップＳ１１１、Ｓ１１２で周波数特性が補正された目的音が周波数領域信号から時間領域信号に変換される（ステップＳ１１５、Ｓ１１６）。

なお、上記のステップＳ１０５およびＳ１０６の処理の後、ステップＳ１０７〜ステップＳ１１２の処理が完了する間に、ステップＳ１１３、Ｓ１１４の処理が同時並行で実行される。そして、ステップＳ１１１およびＳ１１２と、ステップＳ１１３およびＳ１１４における処理の結果に基づいてステップＳ１１５、Ｓ１１６の処理が同時並行に実行される。

［指向性制御部８０の処理フロー］
図７は、図６のステップＳ１０４における処理の詳細を示すフロー図である。
最適遅延量算出部８１において、遅延量τ_ｄが算出される（ステップＳ２０１）。遅延量τ_ｄが空間サンプリング定理を満たす場合には（ステップＳ２０２）、τ_ｄが最適遅延量τ（ω）とされる（ステップＳ２０３）。空間サンプリング定理を満たさない場合には、τ_０（ω）が最適遅延量τ（ω）とされる（ステップＳ２０４）。
位相回転子８２において、最適遅延量τ（ω）からＤ（ω）が算出される（ステップＳ２０５）。

１音源分離装置
３ビームフォーマ部
１０、１１マイク
２０、２１スペクトル分析部
３０、３１ビームフォーマ
４０、４１パワー計算部
５０、５１目的音スペクトル抽出部
６０、６１位相抽出部
７０、７１時間波形変換部
８０指向性制御部
８１最適遅延量算出部
８２、８３位相回転子
９０、９１目的音補正部
１００到来方向推定部

Claims

互いに離して配置された少なくとも２つのマイクロホンに対して複数の音源から発せられた音源信号が混合された混合音を入力し、前記混合音から目的音源からの音源信号を分離する音源分離装置であって、
前記マイクロホンのうちの２つのマイクロホンからなるマイクロホン対からの出力信号の少なくとも一方に対して周波数帯域ごとに遅延を与える指向性制御手段と、
前記出力信号に対して第１の係数を用いた周波数領域での積和演算を行うことにより、前記目的音源のおおまかな方向から到来する音源信号を減衰させるための第１のビームフォーマ処理を行い、
かつ、
前記出力信号に対して、前記第１の係数と周波数領域で複素共役の関係にある第２の係数を用いた周波数領域での積和演算を行うことにより、前記マイクロホン対を構成する２つのマイクロホンを結ぶ線分と交わる平面を境にして前記おおまかな方向が含まれる領域とは反対の領域から到来する音源信号を減衰させるための第２のビームフォーマ処理を行うビームフォーマ手段と、
前記ビームフォ−マ手段により得られた音源信号各々についてのパワースペクトル情報を計算するパワー計算手段と、
前記パワー計算手段により計算されたパワースペクトル情報同士の差分を求め、所定の値を超えた前記差分値を目的音源のスペクトル情報として出力する目的音スペクトル抽出手段と、
を有し、
前記指向性制御手段は、前記遅延に対応した角度だけ仮想的に前記平面と前記２つのマイクロホンを結ぶ線分を面内に含む平面とのなす角度を増減させて前記平面を回転させることにより目的音源方向を仮想的に補正することを特徴とする音源分離装置。
前記指向性制御手段は、各周波数帯域において空間サンプリング定理を満たす前記遅延を与えることを特徴とする請求項１に記載の音源分離装置。
前記指向性制御手段は、
周波数帯域ごとに、前記分離面の回転角度に基づく基準遅延量が空間サンプリング定理を満たす場合には、前記基準遅延量に基づいて前記出力信号の少なくとも一方に対して与える前記遅延を決定し、前記基準遅延量が空間サンプリング定理を満たさない場合には、各周波数に基づいて算出される遅延量を前記出力信号の少なくとも一方に対して与える前記遅延を決定する最適遅延量算出手段を有することを特徴とする請求項１又は２に記載の音源分離装置。
前記指向性制御手段は、
周波数帯域ごとに、下記式（１）によって求められる前記基準遅延量τ_ｄが空間サンプリング定理を満たす場合には、前記基準遅延量τ_ｄを前記出力信号の少なくとも一方に対して与える前記遅延とし、前記基準遅延量τ_ｄが空間サンプリング定理を満たさない場合には、下記式（２）によって求められる遅延量τ_０を前記出力信号の少なくとも一方に対して与える前記遅延とすることを特徴とする請求項１から３のいずれか一項に記載の音源分離装置。

（式（１）、式（２）において、ｄは２つのマイクロホン間距離、θ_τは分離面の回転角度、ｃは音速、ωは周波数）
前記目的音スペクトル抽出手段において出力された前記目的音源のスペクトル情報の周波数特性を補正するための目的音補正手段
をさらに有することを特徴とする請求項１から４のいずれか一項に記載の音源分離装置。
前記音源信号が到来する方向を推定する到来方向推定手段をさらに有し、
前記指向性制御手段は、
前記到来方向推定手段により推定された到来方向に基づいて、前記マイクロホン対からの出力信号に対して前記遅延を与えることを特徴とする請求項１から５のいずれか一項に記載の音源分離装置。
互いに離して配置された少なくとも２つのマイクロホンのうちの２つのマイクロホンからなるマイクロホン対に対して、複数の音源から発せられた音源信号を入力する音源信号受信ステップと、
前記マイクロホン対からの出力信号の少なくとも一方に対して周波数帯域ごとに遅延を与える指向性制御ステップと、
前記出力信号に対して、周波数領域で複素共役の関係にある２つの重み係数各々を用いて周波数領域での積和演算を行うことにより、スペクトル情報を得ようとする目的音源のおおまかな方向から到来する音源信号を減衰させるための第１のビームフォーマ処理及び前記マイクロホン対を構成する２つのマイクロホンを結ぶ線分と交わる平面を境にして前記おおまかな方向が含まれる領域とは反対の領域から到来する音源信号を減衰させるための第２のビームフォーマ処理を行うビームフォーマ処理ステップと、
前記ビームフォーマ処理ステップにおいて得られた音源信号各々についてのパワースペクトル情報を計算するパワー計算ステップと、
前記パワー計算ステップにおいて計算されたパワースペクトル情報同士の差分を求め、所定の値を超えた前記差分値を目的音源のスペクトル情報として出力する目的音スペクトル抽出ステップと、
を有する音源分離方法。
コンピュータに、
互いに離して配置された少なくとも２つのマイクロホンのうちの２つのマイクロホンからなるマイクロホン対から、複数の音源から発せられた音源信号が混合された出力信号を取得する出力信号取得ステップと、
前記出力信号取得ステップにおいて取得された出力信号の少なくとも一方に対して周波数帯域ごとに遅延を与える指向性制御ステップと、
前記出力信号に対して、周波数領域で複素共役の関係にある２つの重み係数各々を用いて周波数領域での積和演算を行うことにより、スペクトル情報を得ようとする目的音源のおおまかな方向から到来する音源信号を減衰させるための第１のビームフォーマ処理及び前記マイクロホン対を構成する２つのマイクロホンを結ぶ線分と交わる平面を境にして前記おおまかな方向が含まれる領域とは反対の領域から到来する音源信号を減衰させるための第２のビームフォーマ処理を行うビームフォーマ処理ステップと、
前記ビームフォーマ処理ステップにおいて得られた音源信号各々についてのパワースペクトル情報を計算するパワー計算ステップと、
前記パワー計算ステップにおいて計算されたパワースペクトル情報同士の差分を求め、所定の値を超えた前記差分値を目的音源のスペクトル情報として出力する目的音スペクトル抽出ステップと、
を実行させるためのプログラム。