JP2012149906A

JP2012149906A - 音源位置推定装置、音源位置推定方法および音源位置推定プログラム

Info

Publication number: JP2012149906A
Application number: JP2011006866A
Authority: JP
Inventors: Yuki Tachioka; 勇気太刀岡
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2011-01-17
Filing date: 2011-01-17
Publication date: 2012-08-09

Abstract

【課題】マイク数および演算量を増やすことなく、騒音環境において音源の発する音の到来方向を推定する精度を向上させる。
【解決手段】音源位置推定部３は、受音点１，２から入力した各観測音を用いて、音源位置がある地点に存在する尤度を算出する。音源位置補正部５は、予め与えられた事前分布４、または音源位置推定部３が過去に算出した尤度から推定した事前分布４を用いて、音源位置推定部３が算出した現在の音源位置の尤度を補正して、音源位置を定位する。
【選択図】図１

Description

この発明は、観測音から音源位置を推定する音源位置推定装置、ならびにその方法およびプログラムに関するものである。

複数のマイクを用いて集音した音の到来方向（即ち、音源位置）を推定する場合、騒音下で推定精度が低下するという問題があった。
そこで、従来はマイクの数を多くして入力信号を同期加算することで、雑音の影響を低減する手法（以下、手法１）が一般的であった（例えば、特許文献１，２参照）。
他方、マイクの数を増やさずに到来方向の推定精度を向上させる方法としては、例えばＣＳＰ（Ｃｒｏｓｓ−ｐｏｗｅｒＳｐｅｃｔｒｕｍＰｈａｓｅａｎａｌｙｉｓ）法を用いる場合であれば、入力信号のスペクトルのうちの音声が表れやすいスペクトルを重みづけする手法（以下、手法２）、ＳＳ（ＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎ）法のように雑音のＣＳＰ係数を騒音下における入力信号のＣＳＰ係数から引き去る手法（以下、手法３）が用いられていた（例えば、非特許文献１参照）。
なお、ＣＳＰ法に限らず、ＭＵＳＩＣ（ＭＵｌｔｉｐｌｅＳＩｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ）法および周辺画像に対する画像処理を併用して音源位置を推定する方法であっても、騒音下で推定精度が低下するという同様の問題が起こり得る。

特開２００６−１９４７００号公報特開２００９−２４６８２７号公報

Y. Denda, T. Nishiura, and Y. Yamashita,"Robust Talker Direction Estimation Based on Weighted CSP Analysis and Maximum Likelihood Estimation"IEICE Transactions Information & Systems, Vol. E89-D(3), pp. 1050-1057, Mar. 2006

上記手法１は、複数のマイクを用いることに起因して装置の規模が大きくなったり、演算量が増加したりする課題があった。
他方の上記手法２は、音声の特徴を利用するので、到来方向の推定対象が音声でない場合、または騒音と音声のスペクトルが重なっている場合に有効でないという課題があり、上記手法３は、騒音が非定常な場合に有効でないという課題があった。

この発明は、上記のような課題を解決するためになされたもので、マイク数および演算量を増やすことなく、騒音環境において音源の発する音の到来方向を推定する精度を向上させることを目的とする。

この発明に係る音源位置推定装置は、複数の受音点における各観測音を用いて、音源位置がある地点に存在する尤度を当該受音点を基準にした角度および距離のいずれか一方、またはその両方に関して算出する音源位置推定部と、予め与えられた音源位置の事前分布を用いて、音源位置推定部が算出した尤度を補正する音源位置補正部とを備えるものである。

この発明に係る音源位置推定方法は、複数の受音点における各観測音を用いて、音源位置がある地点に存在する尤度を当該受音点を基準にした角度および距離のいずれか一方、またはその両方に関して算出する音源位置推定ステップと、予め与えられた音源位置の事前分布を用いて、音源位置推定ステップで算出した尤度を補正する音源位置補正ステップとを備えるものである。

この発明に係る音源位置推定プログラムは、複数の受音点における各観測音を用いて、音源位置がある地点に存在する尤度を当該受音点を基準にした角度および距離のいずれか一方、またはその両方に関して算出する音源位置推定手段と、予め与えられた音源位置の事前分布を用いて、音源位置推定手段が算出した尤度を補正する音源位置補正手段として、コンピュータを機能させるためのものである。

この発明によれば、音源位置の存在尤度を事前分布を用いて補正するようにしたので、マイク数および演算量を増やすことなく、騒音環境において音源の発する音の到来方向を推定する精度を向上させることができる。

この発明の実施の形態１に係る音源位置推定装置の構成を示すブロック図である。ＣＳＰ法による音源位置の推定方法を説明する図である。実施の形態１において事前分布に基づく補正前後のＣＳＰ係数を比較したグラフである。この発明の実施の形態２に係る音源位置推定装置の構成を示すブロック図である。実施の形態２に係る音源位置推定装置の動作を示すフローチャートである。実施の形態２において音源位置推定部が推定したＣＳＰ係数を示すグラフである。実施の形態２において事前分布推定部が推定した事前分布を示すグラフである。実施の形態２において音源位置補正部が補正した補正ＣＳＰ係数を示すグラフである。この発明の実施の形態３に係る音源位置推定装置の構成を示すブロック図である。この発明の実施の形態４に係る音源位置推定装置の構成を示すブロック図である。実施の形態４に係る音源位置推定装置の動作を示すフローチャートである。この発明の実施の形態５に係る音源位置推定装置の構成を示すブロック図である。実施の形態５に係る音源位置推定装置の動作を示すフローチャートである。この発明の実施の形態６に係る音源位置推定装置の構成を示すブロック図である。実施の形態６において音源位置推定部が推定したＣＳＰ係数を示すグラフである。実施の形態６において第２の事前分布補正部が補正した後の事前分布を示すグラフである。実施の形態６において音源位置補正部が補正した補正ＣＳＰ係数を示すグラフである。実施の形態６に係る音源位置推定装置の動作を示すフローチャートである。この発明の実施の形態７に係る音源位置推定装置の構成を示すブロック図である。

実施の形態１．
図１に示す音源位置推定装置は、音源の発する音を取得して観測音として出力する受音点１，２と、受音点１，２における各観測音を用いて、音源位置がある地点に存在する尤度（以下、存在尤度）を算出する音源位置推定部３と、予め与えられた音源位置の事前分布４の情報を用いて存在尤度を補正する音源位置補正部５とを備える。

次に、音源位置推定部３による音源位置の推定方法を説明する。なお、音源の存在尤度としては、ＣＳＰ係数、ＭＵＳＩＣスペクトル、画像による物体検出結果などを用いることができるが、ここではＣＳＰ係数を用いる場合を例に説明する。なお、ＭＵＳＩＣスペクトルを用いる場合はＣＳＰ係数を用いる場合と略同様のアルゴリズムであるため説明を省略することとし、画像による物体検出結果を用いる場合の例は下記実施の形態７にて説明する。

図２は、ＣＳＰ法による音源位置の推定方法を説明する図である。
受音点１，２はそれぞれマイクの位置を示し、距離ｄだけ離れている。これら受音点１，２に対して到来角度θの方向に音源（不図示）が存在する場合、同時点に音源の発した音が先ず受音点１に到来し、続いて到来時間差τだけ遅れて受音点２に到来することになる。

音源位置推定部３は、受音点１，２で集音した各観測音を入力とし、ＣＳＰ法により、距離ｄだけ離れた２ｃｈの入力信号のクロススペクトルからＣＳＰ係数を算出し、それから信号間の到来時間差τを求めることで、音源の方向（即ち、到来角度θ）を推定する。
ＣＳＰ係数は、遅れ時間ｋの関数として下式（１）によって計算できる。この遅れ時間ｋは到来角度θと一対一で対応するため、ＣＳＰ係数は角度に関する存在尤度を表していると考えることができる。

ここで、ｘ_１，ｘ_２は受音点１，２の入力信号、ｔは入力信号のフレーム番号、ＤＦＴは離散フーリエ変換、＊は共役、Ｌ_ｍはマイク間隔［ｍ］、ＩＮＴは小数点以下を切り捨てる関数、ｃは音速、ｆ_ｓはサンプリング周波数である。

なお、音源位置推定部３は、騒音対策として、算出したＣＳＰ係数を平滑化処理してもよい。例えば、入力信号の現フレームｔより得たＣＳＰ係数を前後ｄフレームのＣＳＰ係数で平均化し、現フレームｔの周りで平滑化されたＣＳＰ係数を出力する。この詳細は下記実施の形態２にて述べる。

続いて、音源位置補正部５が、音源位置推定部３の算出したＣＳＰ係数（存在尤度）を、事前分布４を用いて補正する。
本実施の形態１では事前分布４は既知であるものとする。また、音源はあまり動かないものと仮定する。例えば、受音点１，２の斜め方向に騒音源があり、おおむね正面方向から音源（人、スピーカなど）の発話があることが多い場合には、正面方向に大きな尤度をもつ事前分布４を予め与えておく。この事前分布４を用いて音源位置の存在尤度を補正することで、騒音源以外の方向から騒音源と同じ程度の存在尤度を持つ目的音（発話）が到来した場合にも正しく音源を定位できる。

正面方向に音源がある確率が高い場合に、遅れ時間ｋについて平均０、分散σの正規分布を事前分布４として仮定すれば、音源位置補正部５により補正されたＣＳＰ係数（以下、補正ＣＳＰ係数）は、下式（２）のように表される。なお、従来のＣＳＰ法は事前分布を一様分布としたものと解釈できる。

到来時間差τはＣＳＰ係数のピークとして表れるので、音源位置補正部５は、下式（３）により補正ＣＳＰ係数が最大となる遅れ時間ｋを求め、到来時間差τとする。そして、下式（４）より、求めた到来時間差τに基づいて音源の方向（即ち、到来角度θ）を計算する。

図３に、補正前および補正後のＣＳＰ係数を比較したグラフを示し、事前分布４を用いたＣＳＰ係数の補正の効果を説明する。
図３のグラフにおいて、縦軸はＣＳＰ係数、横軸は遅れ時間ｋである。破線は、受音点１，２の正面方向（図３の白丸○の位置に相当する）に音源がある確率が高い場合の事前分布４である。また、細い実線は、音源位置推定部３が推定したＣＳＰ係数（入力信号の現フレームｔを含む前後の複数フレームで平均化した値）、太い実線は、このＣＳＰ係数を音源位置補正部５が事前分布４を用いて補正した補正ＣＳＰ係数である。
図３の例の場合、本来は白丸○の成分が定位したい音源方向に対応しているが、騒音源などの外乱により黒丸●の成分がピークになっている。この場合、従来のＣＳＰ法では現フレームｔのピークより音源の方向を定位するため、騒音源の方向（黒丸●）を誤って音源の方向に定位してしまうことになる。これに対し、本実施の形態１では事前分布４に基づいてＣＳＰ係数を補正するので、白丸○の成分がピークとなるよう補正でき、音源の方向を正しく定位できる。

以上より、実施の形態１によれば、音源位置推定装置は、複数の受音点１，２における各観測音を用いて、音源位置がある地点に存在する存在尤度（ＣＳＰ係数）を受音点１，２を基準にした角度に関して算出する音源位置推定部３と、予め与えられた音源位置の事前分布４を用いて、音源位置推定部３が算出した存在尤度（ＣＳＰ係数）を補正して補正存在尤度（補正ＣＳＰ係数）を求める音源位置補正部５とを備えるように構成した。このため、騒音環境において音源の発する音の到来方向を推定する精度を向上させることができる。また、音声の特徴を利用していないため、どのような音源にも応用できる。さらに、演算量の少ない手法で、かつ、マイクの数を増やさないため、組み込みなどリソースの制約がある装置にも適用できる。

なお、上記実施の形態１では、受音点１，２のペアより入力される２ｃｈの観測音を用いて、当該受音点１，２に対する音源位置の方向（角度）を推定する構成を説明したが、これに限定されるものではなく、３ｃｈ以上の観測音を用いる構成にしてもよい。例えば、３つの受音点を具備して３ｃｈの観測音を用いる場合には１ｃｈ目と２ｃｈ目の観測音、２ｃｈ目と３ｃｈ目の観測音、１ｃｈ目と３ｃｈ目の観測音からそれぞれ存在尤度を求め、それらを加算することで音源位置の方向を示す存在尤度を得る構成にすればよい。同様の手順で４ｃｈ以上の観測音を用いる構成にすることもできる。

また、上記実施の形態１では音源位置の方向（角度）を推定する構成にしたが、これに加えて、またはこれに代えて、音源位置までの距離を推定する構成にしてもよい。距離推定の方法としては、例えば三角測量法を利用することが考えられる。この場合、受音点を３つ以上具備し、そのうちの２つの受音点をペアとした複数ペアについてそれぞれ音源位置の方向を推定し、三角測量法を利用して音源位置までの距離を求めればよい。

実施の形態２．
図４は、本実施の形態２に係る音源位置推定装置の構成を示すブロック図であり、図１と同一または相当の部分については同一の符号を付し説明を省略する。この音源位置推定装置は事前分布４が未知の場合に対応する構成であり、新たに、音源位置推定部３が推定した存在尤度を記憶する存在尤度記憶部６と、存在尤度記憶部６が記憶している過去の存在尤度に基づき事前分布４を推定する事前分布推定部７とを備える。

次に、事前分布推定部７による事前分布４の推定方法を説明する。事前分布４の推定方法は様々あるが、例えば、過去の音源位置の存在尤度の情報を、角度および距離のいずれか一方、またはその両方に関して、それぞれ加算した値を総和で除したものを現在の音源位置の事前分布４とする方法が最も単純である。
以下では、上記実施の形態１と同様に存在尤度としてＣＳＰ係数を用いる場合を例に説明する。

発話者などの音源が移動しないと仮定した場合、ＣＳＰ係数における音源の方向を示すピークは、他の外乱によるピークよりも持続時間が長いはずである。そこで、事前分布推定部７は、存在尤度記憶部６に記憶されている過去のＣＳＰ係数の履歴を用いて、音源位置推定部３から入力される現在のＣＳＰ係数から外乱成分を取り除く。

上記実施の形態１と同様に、音源位置推定部３は、音源位置の角度別の存在尤度（ＣＳＰ係数）を算出する。なお、騒音対策としてＣＳＰ係数を平滑化処理してもよい。ここでは、下式（５）により、現フレームｔのＣＳＰ係数を前後ｄフレームのＣＳＰ係数を用いて平均化し、平滑化されたＣＳＰ係数を得る。得られたＣＳＰ係数は、音源位置補正部５および存在尤度記憶部６に出力される。存在尤度記憶部６は、音源位置推定部３から出力されたＣＳＰ係数を、事前分布４の推定用に記憶しておく。

本実施の形態２では、音源位置推定部３の求めたＣＳＰ係数を下式（６）のように全体の和で除したものを、遅れ時間ｋに対応する方向に音源が存在する尤度Ｌ（ｔ，ｋ）であると考える。

ここで、ＭＡＸは引数の最大を返す関数である。

事前分布推定部７は、音源があまり動かないことを仮定して、時間方向に過去のフレームのＣＳＰ係数を加えた尤度Ｌ’（ｔ，ｋ）を、下式（７）に従い求める。続いて、この尤度Ｌ’（ｔ，ｋ）を、下式（８）のように最大値で除して基準化した尤度関数Ｐ（ｔ，ｋ）を求めるか、または、下式（９）のように総和で除して基準化した尤度関数Ｐ（ｔ，ｋ）を求める。事前分布推定部７は求めた尤度関数Ｐ（ｔ，ｋ）を事前分布４として音源位置補正部５に出力する。

音源位置補正部５は、事前分布推定部７が求めた尤度関数Ｐ（ｔ，ｋ）を用いて、音源位置推定部３が出力する現フレームｔのＣＳＰ係数を補正する。本実施の形態２では、下式（１０）に示すように、事前分布４であるＰ（ｔ，ｋ）をＣＳＰ係数と混合する割合ｒを定め、補正ＣＳＰ係数を求める。

図５は、本実施の形態２に係る音源位置推定装置の動作を示すフローチャートである。また、図６は音源位置推定部３が推定したＣＳＰ係数、図７は事前分布推定部７が推定した事前分布４、図８はこの事前分布４を用いて音源位置補正部５が補正した補正ＣＳＰ係数を示すグラフであり、これらのグラフを用いて事前分布４を用いた補正の効果を説明する。

図６において、細い実線は、音源位置推定部３が推定した時系列のＣＳＰ係数であり、時間方向の各フレームｔについて、遅れ時間ｋに対するＣＳＰ係数を示す。この例では、１〜３フレーム目のＣＳＰ係数が存在尤度記憶部６に記憶されているものとし、１〜３フレームの履歴より事前分布４を推定して、４フレーム目のＣＳＰ係数を補正する。
本来は白丸○の成分が定位したい音源方向に対応しているが、騒音源などの外乱により４フレーム目では突発的にピーク（黒丸●）が表れている。この場合、従来のＣＳＰ法では、１〜３フレームは正しく音源の方向（白丸○）を定位するが、４フレーム目では誤って外乱の方向（黒丸●）を音源の方向に定位してしまうことになる。

ここで、音源が動かないと仮定すれば、４フレーム目において中央のピークと突発的に表れた黒丸●のピークとの差はわずかであり、中央のピークのほうが音源である確率が高いと思われる。そこで、本実施の形態２では４フレーム目の音源方向の推定のために、事前分布推定部７が、存在尤度記憶部６に記憶されている過去３フレーム分のＣＳＰ係数を用いて事前分布４を推定する（ステップＳＴ１）。
図７において、破線は、事前分布推定部７が推定した尤度関数Ｐ（ｔ，ｋ）であり、過去にピークのあった白丸○の成分（図６に示す）が他の部分の成分よりも大きくなる。

音源位置推定部３が４フレーム目のＣＳＰ係数を算出すると（ステップＳＴ２）、続いて音源位置補正部５が尤度関数Ｐ（ｔ，ｋ）を事前分布４に用いて、上式（１０）に従いＣＳＰ係数を補正する（ステップＳＴ３）。これにより、図８に太い実線で示すように、突発的な外乱が含まれる４フレーム目において補正ＣＳＰ係数中の白丸○の成分がピークとなり、音源の方向を正しく定位できる。

以上より、実施の形態２によれば、音源位置推定装置は、今回より以前に音源位置推定部３が算出し存在尤度記憶部６に記憶した存在尤度（ＣＳＰ係数）を複数加算して、音源位置の事前分布４を推定する事前分布推定部７を備え、音源位置補正部５は、事前分布推定部７が推定した事前分布４を用いて、音源位置推定部３が算出した今回の存在尤度（ＣＳＰ係数）を補正して補正存在尤度（補正ＣＳＰ係数）を求めるように構成した。このため、事前分布４が未知の場合にもこれを推定して、騒音環境において音源の発する音の到来方向を推定する精度を向上させることができる。また、上記実施の形態１と同様に、音声の特徴を利用していないため、どのような音源にも応用でき、さらに、演算量の少ない手法で、かつ、マイクの数を増やさないため、組み込みなどリソースの制約がある装置にも適用できる。

実施の形態３．
図９は、本実施の形態３に係る音源位置推定装置の構成を示すブロック図であり、図１および図４と同一または相当の部分については同一の符号を付し説明を省略する。上記実施の形態２に係る音源位置推定装置は事前分布４の推定の際に過去の音源位置の存在尤度をそのまま使っていたが、本実施の形態３に係る音源位置推定装置は、新たに、音源位置補正部５が補正した存在尤度（補正存在尤度）を記憶する補正存在尤度記憶部８を備えて、事前分布推定部７は、補正存在尤度記憶部８が記憶している過去の補正存在尤度に基づき事前分布４を推定する。

次に、事前分布推定部７による事前分布４の推定方法を説明する。以下では、上記実施の形態１，２と同様に存在尤度としてＣＳＰ係数を用いる場合を例に説明する。
事前分布推定部７は尤度Ｌ’（ｔ，ｋ）を求める際に、上記実施の形態２では式（７）に従って現フレームｔの尤度Ｌ（ｔ，ｋ）に対して時間方向に過去のフレームのＣＳＰ係数を加えて尤度Ｌ’（ｔ，ｋ）を求めたが、本実施の形態３では補正存在尤度記憶部８が記憶している過去のフレームの補正ＣＳＰ係数を加えて尤度Ｌ’（ｔ，ｋ）を求める。これは、図５に示すステップＳＴ１に相当する処理である。

具体的には、上記実施の形態２と同様に最も単純に尤度を加算する方法を用いる際に、上式（７）に代えて下式（１１）より（ｔ−１）フレームまでの補正ＣＳＰ係数を用いて尤度Ｌ’（ｔ，ｋ）を算出する。そして、下式（１１）より求めた尤度Ｌ’（ｔ，ｋ）を上式（８）または式（９）により基準化し、Ｐ（ｔ，ｋ）を事前分布４として音源位置補正部５に出力する。

なお、補正ＣＳＰ係数は、現フレームｔの尤度を計算する段階では求まっていないので、補正存在尤度記憶部８に存在しない。その場合、事前分布推定部７は、線形予測分析などを使って予測した値を補正ＣＳＰ係数として代用すればよい。また、予測と推定を再帰的に繰り返すことによって推定精度を向上させることもできる。

過去フレームの補正ＣＳＰ係数より事前分布４を推定した後の処理は図５に示すステップＳＴ２，ＳＴ３と同様であり、音源位置推定部３が現フレームより算出したＣＳＰ係数を、音源位置補正部５が事前分布４に基づいて補正し、音源位置の方向を得る。

以上より、実施の形態３によれば、事前分布推定部７は、今回より以前に音源位置推定部３が算出し音源位置補正部５が補正した補正存在尤度（補正ＣＳＰ係数）を複数加算して、音源位置の事前分布４を推定するように構成した。このため、事前分布４の推定精度を向上させることができ、よって、騒音環境において音源の発する音の到来方向を推定する精度をさらに向上させることができる。また、音声の特徴を利用していないため、どのような音源にも応用でき、さらに、演算量の少ない手法で、かつ、マイクの数を増やさないため、組み込みなどリソースの制約がある装置にも適用できる。

なお、上記実施の形態２，３において、存在尤度記憶部６または補正存在尤度記憶部８に過去のＣＳＰ係数または補正ＣＳＰ係数が蓄積されるまでの間は、上記実施の形態１のように予め与えられた事前分布４を用い、蓄積された後はその履歴を用いて推定した事前分布４を用いる構成にしてもよいことは言うまでもない。

実施の形態４．
図１０は、本実施の形態４に係る音源位置推定装置の構成を示すブロック図であり、図１、図４および図９と同一または相当の部分については同一の符号を付し説明を省略する。上記実施の形態２，３では音源位置があまり動かないことを仮定していたが、本実施の形態４に係る音源位置推定装置は音源の動きに対応するために、新たに、存在尤度記憶部６が記憶している過去の音源位置の存在尤度から現フレームの音源位置を外挿などにより予測して事前分布４を補正する第１の事前分布補正部９を備える。

次に、第１の事前分布補正部９による事前分布４の補正方法を説明する。以下では、上記実施の形態１〜３と同様に存在尤度としてＣＳＰ係数を用いる場合を例に説明する。
最も単純には、過去のＣＳＰ係数のピークのずれΔτを求めて、線形補間および２次関数などを用いて存在尤度に外挿を行い、外挿した分だけ事前分布４をシフトすることが考えられる。例えば線形補間を用いる場合には、第１の事前分布補正部９が下式（１２）により、存在尤度記憶部６に記憶された過去のフレーム（ｔ−１，ｔ−２）のＣＳＰ係数のピークのずれΔτを求め、現フレームｔでは音源位置がΔτだけ動いた位置にあると仮定する。そして尤度Ｌ’（ｔ，ｋ）を、下式（１３）のようにずれΔτだけシフトさせることにより、事前分布４を補正する。

図１１は、本実施の形態４に係る音源位置推定装置の動作を示すフローチャートである。
事前分布推定部７が、存在尤度記憶部６に記憶されている過去のＣＳＰ係数から事前分布４を推定し（ステップＳＴ１１）、第１の事前分布補正部９が上式（１２）により現在の音源位置を推定して上式（１３）により事前分布４を補正する（ステップＳＴ１２）。事前分布４を補正した後の処理は図５に示すステップＳＴ２，ＳＴ３と同様であり、音源位置推定部３が現フレームのＣＳＰ係数を算出し（ステップＳＴ１３）、音源位置補正部５が事前分布４に基づいてこのＣＳＰ係数を補正し（ステップＳＴ１４）、音源位置の方向を得る。

以上より、実施の形態４によれば、今回より以前に音源位置推定部３が算出した複数の存在尤度（ＣＳＰ係数）に基づいて今回の音源位置を予測して、事前分布推定部７が推定した音源位置の事前分布４を当該予測に基づいて補正する第１の事前分布補正部９を備えるように構成した。このため、動きのある音源に対しても音源位置を精度よく推定することができる。また、音声の特徴を利用していないため、どのような音源にも応用でき、さらに、演算量の少ない手法で、かつ、マイクの数を増やさないため、組み込みなどリソースの制約がある装置にも適用できる。

なお、上記実施の形態４では、第１の事前分布補正部９を上記実施の形態２に係る音源位置推定装置に適用した構成を示したが、これに限定されるものではなく、第１の事前分布補正部９を上記実施の形態３に係る音源位置推定装置に適用することもできる。この構成の場合には、第１の事前分布補正部９が、図９に示す補正存在尤度記憶部８の記憶している過去の音源位置の補正存在尤度を用いて、事前分布推定部７の推定した事前分布４を補正する等すればよい。

実施の形態５．
図１２は、本実施の形態５に係る音源位置推定装置の構成を示すブロック図であり、図１、図４、図９および図１０と同一または相当の部分については同一の符号を付し説明を省略する。この音源位置推定装置は、音源の発する音を音声と仮定した構成であり、新たに、受音点１，２のうちのいずれか一方（または両方）の観測音から音声区間を検出する音声区間検出部１０を備える。

次に、音声区間検出部１０による音声区間の検出方法を説明する。以下では、上記実施の形態１〜４と同様に存在尤度としてＣＳＰ係数を用いる場合を例に説明する。
音声区間の検出方法はどのような方法であってもよいが、ここでは一例としてＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）尤度に基づく検出方法を利用し、高騒音下でも音声区間を検出できるようにする。この場合、音声区間検出部１０は、受音点１，２のいずれか一方の観測音からフレームｔ毎にＧＭＭ尤度を求め、このＧＭＭ尤度に基づいて音声区間か非音声区間かを判定する。そして、フレームｔを音声区間と判定した場合には「１」、非音声区間と判定した場合には「０」を示す関数δ（ｔ）を事前分布推定部７へ出力する。

事前分布推定部７は、尤度Ｌ’（ｔ，ｋ）を求める際に、上記実施の形態２では式（７）に従って補正対象となる現フレームｔの尤度Ｌ（ｔ，ｋ）に対して時間方向に過去のフレームのＣＳＰ係数を加えて尤度Ｌ’（ｔ，ｋ）を求めたが、本実施の形態５では、式（７）に代えて下式（１４）より、関数δ（ｔ）が「１」となる音声区間のＣＳＰ係数のみを加算することで尤度Ｌ’（ｔ，ｋ）を算出する。音声区間の音源位置の存在尤度のみから事前分布４を推定することで、騒音の影響を少なくでき、音源の方向の推定精度を向上させることができる。

なお、音声区間の検出は、フレーム毎、即ち、短時間フーリエ変換の時間窓シフトの間隔（例えば、１０ｍｓ）毎に行う。一方、受音点１，２に入力される音声のずれは、マイク間隔が３０ｃｍの場合に０．８８ｍｓ程度であり、フレーム間隔に比べて十分小さい。よって、複数の受音点がある場合でも受音点間の遅れ時間は無視でき、いずれか１点（図示例では受音点２）の観測音を代表に用いて音声区間の検出を行えばよい。もちろんそれぞれの受音点で音声区間の検出を行って、論理積または論理和をとってもよい。

図１３は、本実施の形態５に係る音源位置推定装置の動作を示すフローチャートである。
先ず音声区間検出部１０が受音点２の入力信号から音声区間を検出し（ステップＳＴ２１）、事前分布推定部７が存在尤度記憶部６に記憶されている過去のＣＳＰ係数のうち、音声区間検出部１０により音声区間と判定されたＣＳＰ係数のみを用いて事前分布４を推定する（ステップＳＴ２２）。事前分布４を推定した後の処理は図５に示すステップＳＴ２，ＳＴ３と同様であり、音源位置推定部３が現フレームのＣＳＰ係数を算出し（ステップＳＴ２３）、音源位置補正部５が事前分布４に基づいてこのＣＳＰ係数を補正し（ステップＳＴ２４）、音源位置の方向を得る。

以上より、実施の形態５によれば、音源位置推定装置は、観測音から音声区間を検出する音声区間検出部１０を備え、事前分布推定部７は、音声区間検出部１０が検出した音声区間において音源位置推定部３が算出した存在尤度（ＣＳＰ係数）を用いて、事前分布４を推定するように構成した。このため、音源位置の推定精度をさらに向上させることができる。また、演算量の少ない手法で、かつ、マイクの数を増やさないため、組み込みなどリソースの制約がある装置にも適用できる。

なお、上記実施の形態５では、音声区間検出部１０を上記実施の形態２に係る音源位置推定装置に適用した構成を示したが、これに限定されるものではなく、音声区間検出部１０を上記実施の形態３，４に係る音源推定装置に適用することもできる。例えば実施の形態３に係る音源推定装置に適用した場合には、事前分布推定部７が、図９に示す補正存在尤度記憶部８の記憶している過去の音源位置の補正存在尤度のうち、音声区間検出部１０が音声区間と判定した補正存在尤度のみを用いて、事前分布４を推定する等すればよい。

実施の形態６．
図１４は、本実施の形態６に係る音源位置推定装置の構成を示すブロック図であり、図１、図４、図９、図１０および図１２と同一または相当の部分については同一の符号を付し説明を省略する。音声区間が既知の場合、非音声区間（即ち、騒音区間）に表れるピークは外乱によるものである。上記実施の形態５では音声区間検出部１０が検出した騒音区間を単純に無視したが、本実施の形態６に係る音源位置推定装置では騒音区間を積極的に利用することを考え、新たに、騒音区間において騒音源の位置がある地点に存在する尤度の情報を学習する騒音位置学習部１１と、騒音位置学習部１１が学習した騒音源位置に相当する尤度が小さくなるよう事前分布４を補正する第２の事前分布補正部１２とを備える。

次に、騒音位置学習部１１の騒音源位置の学習方法を説明する。以下では、上記実施の形態１〜５と同様に存在尤度としてＣＳＰ係数を用いる場合を例に説明する。
騒音位置学習部１１は、騒音区間の入力信号から方向性の強い騒音または周期性を持つ騒音源の位置を学習する。具体的には、音声区間検出部１０から関数δ（ｔ）の「０」（即ち、騒音区間を示す）が入力されると、騒音位置学習部１１が第２の事前分布補正部１２へ、ＣＳＰ係数を補正するための重み（例えば「−１」）を出力する。これにより、ＣＳＰ係数の符号が反転し、ピーク（即ち、騒音源位置）の成分が抑制されることになる。

続いて、第２の事前分布補正部１２は、事前分布推定部７が推定した事前分布４のうち、関数δ（ｔ）が「０」となる騒音区間のＣＳＰ係数に重みを掛け、騒音区間の事前分布４中のＣＳＰ係数の符号を反転する。
即ち、重み「−１」を用いて補正した尤度Ｌ’（ｔ，ｋ）は、下式（１５）により求められる。これにより、騒音区間においてピークを示していた外乱を音声区間では抑制しつつ音声のピークを強調することができる。

図１５は音源位置推定部３が推定したＣＳＰ係数、図１６は第２の事前分布補正部１２が補正した補正後の事前分布４、図１７はこの事前分布４を用いて音源位置補正部５が補正した補正ＣＳＰ係数を示すグラフであり、これらのグラフを用いて騒音位置学習部１１および第２の事前分布補正部１２の効果を説明する。また、図１８は、実施の形態６に係る音源位置推定装置の動作を示すフローチャートである。

図１５において、細い実線は、音源位置推定部３が推定した時系列のＣＳＰ係数であり、時間方向の各フレームｔについて、遅れ時間ｋに対するＣＳＰ係数を示す。この例では、音声区間検出部１０の判定により、１〜３フレーム目が騒音区間、４フレーム目が音声区間と判明しており、この騒音区間および音声区間ともにピーク（黒丸●）が持続している。これは、方向性雑音または周期性雑音が生じている場合に起こる現象である。即ち、図１５の場合、１〜４フレーム目ともに騒音の方向（黒丸●）にピークが表れており、４フレーム目ではこの騒音の成分に音源の成分が埋もれている。このような場合には、音声区間検出部１０が騒音区間を検出すると（ステップＳＴ３１）、検出結果に基づいて騒音位置学習部１１が騒音区間のＣＳＰ係数に重みを掛ける指示を出して騒音源位置のＣＳＰ係数に重みを掛けて符号を反転させる（ステップＳＴ３２）。そして、第２の事前分布補正部１２がステップＳＴ３２において符号を反転した騒音区間のＣＳＰ係数を、事前分布推定部７の推定した事前分布４に加える補正を行う（ステップＳＴ３３）。

図１６において、破線は、第２の事前分布補正部１２が補正した尤度関数Ｐ（ｔ，ｋ）であり、１〜３フレーム目の符号を反転させたＣＳＰ係数から求めた事前分布４である。音源位置補正部５は、この事前分布４を用いて４フレーム目（音声区間）のＣＳＰ係数を補正することで（ステップＳＴ３４，ＳＴ３５）、図１７に太い実線で示すような、白丸○の成分がピークとなるように補正されたＣＳＰ係数を得ることができ、騒音区間において支配的であった黒丸●の成分の出現確率を低くすることができる。

以上より、実施の形態６によれば、音源位置推定装置は、音声区間検出部１０が検出した音声区間以外の区間において、騒音の音源位置がある地点に存在する尤度（即ち、符号を反転させたＣＳＰ係数）を学習する騒音位置学習部１１と、騒音位置学習部１１が学習した騒音源位置の尤度を用いて、事前分布推定部７が推定した事前分布４から騒音源位置の成分を抑制する第２の事前分布補正部１２とを備えるように構成した。このため、外乱を抑制しつつ音声を強調できるようになり、よって、音源位置の推定精度をさらに向上させることができる。また、演算量の少ない手法で、かつ、マイクの数を増やさないため、組み込みなどリソースの制約がある装置にも適用できる。

なお、上記実施の形態６では、事前分布推定部７が、存在尤度記憶部６の記憶している過去の音源位置の存在尤度を用いて事前分布４を推定する構成を示したが、これに限定されるものではなく、事前分布推定部７が、図９に示す補正存在尤度記憶部８の記憶している過去の音源位置の補正存在尤度を用いて事前分布４を推定する等してもよい。
また、上記実施の形態６の構成を上記実施の形態４の構成に適用した場合には、第１の事前分布補正部９と第２の事前分布補正部１２を一つの事前分布補正部が兼ねるように構成してもよい。

実施の形態７．
図１９は、実施の形態７に係る音源位置推定装置の構成を示すブロック図であり、図１、図４、図９、図１０、図１２、図１４と同一または相当の部分については同一の符号を付し説明を省略する。上記実施の形態１〜６では音源位置推定部３が推定したＣＳＰ係数またはＭＵＳＩＣスペクトルを音源位置の存在尤度に用いたが、本実施の形態７に係る音源位置推定装置は、新たに、撮像画像より音源物体を検出して存在尤度を求める音源位置推定画像処理部１３を備えて、物体検出結果を存在尤度に用いる。

次に、音源位置推定画像処理部１３による画像処理方法を説明する。音源位置推定画像処理部１３は、受音点１，２付近に設置されたカメラ等が撮像した撮像画像を取得し、音源であると思われる所定の物体（人、スピーカなど）がある位置を画像処理により検出し、検出結果を存在尤度記憶部６へ出力する。
事前分布推定部７は、存在尤度記憶部６に記憶されている物体検出結果より、音源位置推定画像処理部１３が検出した物体の存在する地点が大きな値になるような事前分布４を推定する。続いて、第２の事前分布補正部１２が上記実施の形態６と同様に騒音位置学習部１１の指示に従って事前分布４を補正する。
そして、音源位置補正部５がこの事前分布４を用いて音源位置推定部３の推定する存在尤度を補正する。このため、対象外の物体から発生している音（即ち、騒音）に影響を受けることによる音源位置の誤推定を抑制することができる。

以上より、実施の形態７によれば、音源位置推定装置は、受音点１，２を基準にして周囲を撮像した撮像画像より所定の物体を検出し、当該物体がある地点に存在する存在尤度を算出する音源位置推定画像処理部１３を備え、事前分布推定部７は、音源位置推定画像処理部１３が算出した尤度を用いて事前分布４を推定するように構成した。このため、上記実施の形態１と同様に、騒音環境において音源の発する音の到来方向を推定する精度を向上させることができる。また、音声の特徴を利用していないため、どのような音源にも応用できる。さらに、演算量の少ない手法で、かつ、マイクの数を増やさないため、組み込みなどリソースの制約がある装置にも適用できる。

なお、上記実施の形態７では、音源位置推定画像処理部１２を上記実施の形態６に係る音源位置推定装置に適用した構成を示したが、これに限定されるものではなく、音源位置推定画像処理部１２を上記実施の形態２〜５に係る音源位置推定装置に適用可能であり、その構成の場合にも上記実施の形態２〜５と同様の効果を奏する。

また、上記実施の形態１〜６に係る音源位置推定装置において、存在尤度としてＣＳＰ係数を用いる代わりに、ＭＵＳＩＣスペクトルを用いるように構成しても、上記実施の形態１〜６と同様の効果を奏することは言うまでもない。ただし、３ｃｈ以上の観測音を用いる構成の場合には上記実施の形態１で説明したような方法を用いずとも、３ｃｈ以上の信号からＭＵＳＩＣスペクトルにより音源位置を推定できる。

また、上記実施の形態１〜７に係る音源位置推定装置をコンピュータで構成する場合、音源位置推定部３、音源位置補正部５、事前分布推定部７、第１の事前分布補正部９、音声区間検出部１０、騒音位置学習部１１、第２の事前分布補正部１２、音源位置推定画像処理部１３の処理内容を記述している音源位置推定プログラムをメモリに格納し、コンピュータのＣＰＵがメモリに格納されている音源位置推定プログラムを実行するようにしてもよい。

上記以外にも、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。

１，２受音点、３音源位置推定部、４事前分布、５音源位置補正部、６存在尤度記憶部、７事前分布推定部、８補正存在尤度記憶部、９第１の事前分布補正部、１０音声区間検出部、１１騒音位置学習部、１２第２の事前分布補正部、１３音源位置推定画像処理部。

Claims

複数の受音点における各観測音を用いて、音源位置がある地点に存在する尤度を当該受音点を基準にした角度および距離のいずれか一方、またはその両方に関して算出する音源位置推定部と、
予め与えられた音源位置の事前分布を用いて、前記音源位置推定部が算出した尤度を補正する音源位置補正部とを備える音源位置推定装置。
今回より以前に前記音源位置推定部が算出した尤度を用いて、音源位置の事前分布を推定する事前分布推定部を備え、
前記音源位置補正部は、前記事前分布推定部が推定した事前分布を用いて、前記音源位置推定部が算出した今回の尤度を補正することを特徴とする請求項１記載の音源位置推定装置。
前記事前分布推定部は、今回より以前に前記音源位置推定部が算出し前記音源位置補正部が補正した尤度を用いて、音源位置の事前分布を推定することを特徴とする請求項２記載の音源位置推定装置。
前記事前分布推定部は、今回より以前に前記音源位置推定部が算出した複数の尤度、または前記音源位置補正部が補正した当該複数の尤度を加算して、音源位置の事前分布を推定することを特徴とする請求項２または請求項３記載の音源位置推定装置。
今回より以前に前記音源位置推定部が算出した複数の尤度、または前記音源位置補正部が補正した当該複数の尤度に基づいて今回の音源位置を予測して、前記事前分布推定部が推定した当該音源位置の事前分布を当該予測に基づいて補正する第１の事前分布補正部を備えることを特徴とする請求項４記載の音源位置推定装置。
観測音から音声区間を検出する音声区間検出部を備え、
前記事前分布推定部は、前記音声区間検出部が検出した音声区間において前記音源位置推定部が算出した尤度または前記音源位置補正部が補正した当該尤度を用いて、事前分布を推定することを特徴とする請求項２から請求項５のうちのいずれか１項記載の音源位置推定装置。
前記音声区間検出部が検出した音声区間以外の区間において、騒音の音源位置がある地点に存在する尤度を学習する騒音位置学習部と、
前記騒音位置学習部が学習した騒音源位置の尤度を用いて、前記事前分布推定部が推定した事前分布から当該騒音源位置の成分を抑制する第２の事前分布補正部とを備えることを特徴とする請求項２から請求項６のうちのいずれか１項記載の音源位置推定装置。
前記音源位置推定部は、尤度としてＣＳＰ（Ｃｒｏｓｓ−ｐｏｗｅｒＳｐｅｃｔｒｕｍＰｈａｓｅ）係数を算出することを特徴とする請求項１から請求項７のうちのいずれか１項記載の音源位置推定装置。
前記音源位置推定部は、尤度としてＭＵＳＩＣ（ＭＵｌｔｉｐｌｅＳＩｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ）スペクトルを算出することを特徴とする請求項１から請求項７のうちのいずれか１項記載の音源位置推定装置。
前記受音点を基準にして周囲を撮像した撮像画像より所定の物体を検出し、当該物体がある地点に存在する尤度を算出する音源位置推定画像処理部を備え、
前記事前分布推定部は、前記音源位置推定部が算出した尤度に代えて、前記音源位置推定画像処理部が算出した尤度を用いて事前分布を推定することを特徴とする請求項２から請求項７のうちのいずれか１項記載の音源位置推定装置。
複数の受音点における各観測音を用いて、音源位置がある地点に存在する尤度を当該受音点を基準にした角度および距離のいずれか一方、またはその両方に関して算出する音源位置推定ステップと、
予め与えられた音源位置の事前分布を用いて、前記音源位置推定ステップで算出した尤度を補正する音源位置補正ステップとを備える音源位置推定方法。
コンピュータを、
複数の受音点における各観測音を用いて、音源位置がある地点に存在する尤度を当該受音点を基準にした角度および距離のいずれか一方、またはその両方に関して算出する音源位置推定手段と、
予め与えられた音源位置の事前分布を用いて、前記音源位置推定手段が算出した尤度を補正する音源位置補正手段として機能させるための音源位置推定プログラム。