JP2017151216A

JP2017151216A - 音源方向推定装置、音源方向推定方法、およびプログラム

Info

Publication number: JP2017151216A
Application number: JP2016032281A
Authority: JP
Inventors: 龍亮田中; Ryusuke Tanaka; 羽田　陽一; Yoichi Haneda; 陽一羽田
Original assignee: University of Electro Communications NUC
Current assignee: University of Electro Communications NUC
Priority date: 2016-02-23
Filing date: 2016-02-23
Publication date: 2017-08-31

Abstract

【課題】より短時間で、反射音や残響音などの外乱が存在する環境下における音源方向を高精度に推定する。【解決手段】複数のマイクロホンにより観測される音のレベルが所定の値よりも大きな観測信号のうち、所望の音源の方向を推定する処理に用いる対象とする観測信号を区分けする立ち上がり区間および立ち下がり区間が特定される。また、立ち上がり区間の観測信号を用いて立ち上がり共分散行列が算出されるとともに、立ち下がり区間の観測信号を用いて立ち下がり共分散行列が算出される。そして、立ち上がり共分散行列と立ち下がり共分散行列とを同時対角化する固有ベクトルが求められ、その固有ベクトルを用いて所望の音源の方向が推定される。本技術は、例えば、マイクロホンアレーにより収音される音の音源方向を推定する音源方向推定装置に適用できる。【選択図】図１

Description

本開示は、音源方向推定装置、音源方向推定方法、およびプログラムに関し、特に、より短時間で、反射音や残響音などの外乱が存在する環境下における音源方向を高精度に推定することができるようにした音源方向推定装置、音源方向推定方法、およびプログラムに関する。

従来、複数のマイクロホンがアレー状に配置されたマイクロホンアレーを用いて音源の方向を推定する音源方向推定方法について、様々な利用方法が提案されている。例えば、テレビ会議における話者の位置を検出することや、防犯カメラにおいて音源を追跡することなどに、音源方向推定方法を利用することができる。

しかしながら、実際に、マイクロホンアレーを用いて音源方向を推定するとき、反射音や残響音などの外乱が存在する環境下では、それらの外乱による悪影響が発生することによって推定精度が低下してしまう。このような推定精度の低下を回避するためには、外乱の影響を排除する必要があり、例えば、ＩＣＡ（Independent Component Analysis）などの音源分離手法が提案されている。

また、特許文献１には、例えば、複数のマイクロホンを搭載して構成されるマイクロホンアレーの出力信号を利用して、パワースペクトルおよび残響スペクトルを推定することにより、収音される所望信号の音質を向上させる収音装置が開示されている。

特開２００９−００５２６１号公報

しかしながら、上述したような音源分離手法を用いる場合、音源方向を推定するまでに長時間を要することがあり、より短時間で、反射音や残響音などの外乱が存在する環境下における音源方向を高精度に推定することが求められている。

本開示は、このような状況に鑑みてなされたものであり、より短時間で、反射音や残響音などの外乱が存在する環境下における音源方向を高精度に推定することができるようにするものである。

本開示の一側面の音源方向推定装置は、音を受音する複数の受音素子により観測される音のレベルが所定の値よりも大きな観測信号のうち、所望の音源の方向を推定する処理に用いる対象とする前記観測信号を区分けする時間区間を特定する処理対象区間特定部と、前記処理対象区間特定部により特定された前記時間区間において観測された前記観測信号を用いて共分散行列を算出する共分散行列算出部と、前記共分散行列算出部により算出された前記共分散行列に基づいて、前記所望の音源の方向を推定する音源方向推定部とを備える。

本開示の一側面の音源方向推定方法またはプログラムは、音を受音する複数の受音素子により観測される音のレベルが所定の値よりも大きな観測信号のうち、所望の音源の方向を推定する処理に用いる対象とする前記観測信号を区分けする時間区間を特定し、特定された前記時間区間において観測された前記観測信号を用いて共分散行列を算出し、算出された前記共分散行列に基づいて、前記所望の音源の方向を推定するステップを含む。

本開示の一側面においては、音を受音する複数の受音素子により観測される音のレベルが所定の値よりも大きな観測信号のうち、所望の音源の方向を推定する処理に用いる対象とする観測信号を区分けする時間区間が特定され、その特定された時間区間において観測された観測信号を用いて共分散行列が算出され、共分散行列に基づいて、所望の音源の方向が推定される。

本開示の一側面によれば、より短時間で、反射音や残響音などの外乱が存在する環境下における音源方向を高精度に推定することができる。

本技術を適用した音源方向推定システムの一実施の形態の構成例を示すブロック図である。ピークホールド処理と、立ち上がり区間および立ち下がり区間とについて説明する図である。シミュレーション条件を示す図である。シミュレーション結果を示す図である。音源方向推定処理を説明するフローチャートである。本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。

以下、本技術を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。

図１は、本技術を適用した音源方向推定システム１１の一実施の形態の構成例を示すブロック図である。

図１に示すように、音源方向推定システム１１は、Ｍ個のマイクロホン１２−１乃至１２−Ｍからなるマイクロホンアレーにより、１カ所以上の音源Ｓ（図１の例では２カ所の音源Ｓ₁およびＳ₂）から到達する音を観測して、音源Ｓの方向を推定する。音源方向推定システム１１では、従来から提案されている様々な音源推定方法を利用することができるが、以下では、音源推定方法の一つであるMUSIC（Multiple Signal Classification）法を利用する例について説明する。

例えば、Ｌカ所の音源Ｓ₁乃至Ｓ_Lがあり、Ｍ個のマイクロホン１２−１乃至１２−Ｍにより観測を行うとき、その観測により取得される音のレベルが所定の値よりも大きな観測信号ｚは、混合行列Ａ、音源ベクトルｓ、および雑音ベクトルｖを用いて、次の式（１）で表される。

ここで、式（１）において、混合行列Ａは、ｉ番目（ｉ＝１〜Ｌ）の音源Ｓ_iの音源方向θ_i（即ち、音源Ｓ_iからの平面波がマイクロホン１２−１乃至１２−Ｍに到来する角度）に対するステアリングベクトルａ（θ_i）を列にもつ行列である。また、音源ベクトルｓは、Ｌカ所の音源からの音に従った音源信号ｓ₁乃至ｓ_L（音源Ｓ_iの複素振幅ｓ_i）を表すベクトルであり、雑音ベクトルｖは、Ｍ個のマイクロホン１２−１乃至１２−Ｍに混入する雑音に従った雑音信号ｖ₁乃至ｖ_Mを表すベクトルである。

また、観測信号ｚの全体を用いて算出される共分散行列である観測共分散行列Ｒは、観測信号ｚに含まれている音源からの音の成分からなる音源信号共分散行列Γ、および、観測信号ｚに含まれている雑音の成分からなる雑音共分散行列Ｋを用いて、次の式（２）で表される。なお、式（２）において、Ｅ［・］は期待値演算を示し、Ｈは共役転置を示す。

そして、MUSIC法では、混合行列Ａと直交する雑音部分空間Ｖを求め、次の式（３）で表される関数Ｐ_MUSIC（θ）のピークを探索することによって、音源方向の推定が行われる。

即ち、式（３）で示される関数Ｐ_MUSIC（θ）は、雑音部分空間Ｖとステアリングベクトルａ（θ）とが直交するときにピークを持ち、雑音部分空間Ｖとステアリングベクトルａ（θ）との直行性から、ピークに対応する方向が音源方向となる。

また、雑音部分空間Ｖは、マイクロホン１２−１乃至１２−Ｍごとに雑音が互いに無相関であり、雑音共分散行列Ｋが対角行列であれば、観測共分散行列Ｒを固有値分解して音源部分空間と雑音部分空間Ｖに分離することにより求められる。ところが、雑音共分散行列Ｋが非対角行列のとき、真の音源方向のステアリングベクトルａ（θ）と直交する雑音部分空間Ｖを求めることは困難となる。

一方、雑音共分散行列Ｋが雑音部分空間Ｖのみから推定可能であると仮定すると、観測共分散行列Ｒおよび雑音共分散行列Ｋの関係について、固有ベクトルｅおよび音源の自己パワースペクトルλを用いて、次の式（４）が成り立つ。

そして、式（４）に示す観測共分散行列Ｒおよび雑音共分散行列Ｋの一般化固有値分解を解き、観測共分散行列Ｒおよび雑音共分散行列Ｋを同時対角化することで、雑音共分散行列Ｋの性質に依存しない雑音部分空間Ｖを推定することができる。

しかしながら、上述したように、観測信号ｚに反射音や残響音などの外乱が存在する場合、雑音共分散行列Ｋは非対角行列となり、音源方向の推定精度が低下することになる。

そこで、音源が音声であるとして、音声の振幅の変化に着目すると、音声の振幅は一定ではなく、振幅の小さな区間の後の振幅の大きな区間は残響による影響が小さい一方、振幅の大きな区間の後の振幅の小さな区間は残響による影響が大きいと考えられる。

このことより、音源方向推定システム１１は、音声が発せられる発話の立ち上がり区間、および、その立ち下がり区間により、音源方向を推定する処理に用いる対象とする観測信号を区分けする時間区間を特定する手法を採用する。このような手法によって、発話の立ち上がり区間における観測信号から算出される共分散行列と、発話の立ち下がり区間における観測信号から算出される共分散行列とを同時対角化するMUSIC法により、音源方向の推定精度を向上させることができる。即ち、音源方向推定システム１１では、観測信号のみから雑音共分散行列Ｋを求めることにより、より短時間で、反射音や残響音などの外乱が存在する環境下における音源方向を高精度に推定することができる。

図１に示すように、音源方向推定システム１１は、Ｍ個のマイクロホン１２−１乃至１２−Ｍ、Ｍ個のフレーム処理部１３−１乃至１３−Ｍ、および音源方向推定装置１４を備えて構成される。

マイクロホン１２−１乃至１２−Ｍは、様々な方向から到達する音を受音する受音素子であり、受音した音を、その音の大きさに従った振幅の電気信号に変換することで観測信号を生成して、それぞれ対応するフレーム処理部１３−１乃至１３−Ｍに供給する。

フレーム処理部１３−１乃至１３−Ｍは、それぞれ対応するマイクロホン１２−１乃至１２−Ｍから供給される観測信号を、所定の短時間ごとのフレームに分割する。例えば、フレーム処理部１３−１乃至１３−Ｍは、分割するフレームの長さよりも短い間隔のシフト幅で、次のフレームの先頭に移動するようにフレームを分割する。そして、フレーム処理部１３−１乃至１３−Ｍは、フレームに窓関数を掛けた後、短時間フーリエ変換を行うことで、観測信号をフレームごとの周波数信号に分解して、音源方向推定装置１４に供給する。

音源方向推定装置１４は、処理対象区間特定部２１、立ち上がり共分散行列算出部２２、立ち下がり共分散行列算出部２３、同時対角化処理部２４、および音源方向推定部２５を備えて構成される。

処理対象区間特定部２１には、マイクロホン１２−１乃至１２−Ｍのいずれか１つ（図１の例では、マイクロホン１２−Ｍ）から観測信号が供給される。そして、処理対象区間特定部２１は、マイクロホン１２−１乃至１２−Ｍから出力される観測信号のうち、音源方向を推定する処理に用いる対象とする観測信号を区分けする時間区間として、発話の立ち上がり区間および立ち下がり区間を特定する。

例えば、処理対象区間特定部２１は、観測信号の振幅二乗値に対してピークホールド処理を行うことにより、発話の立ち上がり区間および立ち下がり区間を処理対象区間として特定する。ピークホールド処理は、観測信号により観測される音のピーク値を時間方向に減衰させながら保持し、保持した値よりも大きな値が現れたときに、その値にピーク値を更新し、保持した値を超える値が現れるまではピークを認識しない処理である。このようなピークホールド処理により、処理対象区間特定部２１は、特定の強さの音のピークを検出することができる。

例えば、処理対象区間特定部２１は、１以下の所定の値に設定された減衰率αを用いて、時刻ｔのピーク値Ｐ（ｔ）に減衰率αを乗算したホールド値（Ｐ（ｔ）×α）と、次の時刻ｔ＋１の観測信号の振幅二乗値ｚ²（ｔ＋１）とを比較してピークホールド処理を行う。即ち、処理対象区間特定部２１は、ホールド値（Ｐ（ｔ）×α）が観測信号の振幅二乗値ｚ²（ｔ＋１）以上である場合、次の時刻ｔ＋１のピーク値Ｐ（ｔ＋１）としてホールド値（Ｐ（ｔ）×α）を用いる。一方、処理対象区間特定部２１は、ホールド値（Ｐ（ｔ）×α）が、観測信号の振幅二乗値ｚ²（ｔ＋１）未満である場合、次の時刻ｔ＋１のピーク値Ｐ（ｔ＋１）として観測信号の振幅二乗値ｚ²（ｔ＋１）を用いる。

これにより、図２の左側に示すような観測信号の振幅二乗値に対してピークホールド処理を施すことによって、図２の右側に示すように、観測信号の振幅二乗値の波形から特定の強さの音のピークが検出される波形を得ることができる。ここで、ピークホールド処理を利用するのは、振幅の大きさだけでは残響にマスクされているかどうかは分からず、DRR（Direct to Reverberation Ratio）が高いとは限らないためである。従って、残響により直接的に音のマスクを考慮することができるピークホールド処理は、立ち上がりを検出するのに適切である。

そして、処理対象区間特定部２１は、特定の強さの音のピークが検出されたタイミングを含み、その前後にある所定の時間区間を発話の立ち上がり区間として特定し、その発話の立ち上がり区間を、立ち上がり共分散行列算出部２２に通知する。また、処理対象区間特定部２１は、特定の強さの音のピークが検出されたタイミングから一定時間だけ後に離れ、立ち上がり区間よりも後（例えば、２フレーム後）にある所定の時間区間を発話の立ち下がり区間として特定し、その発話の立ち下がり区間を、立ち下がり共分散行列算出部２３に通知する。

立ち上がり共分散行列算出部２２は、フレーム処理部１３−１乃至１３−Ｍから供給される周波数信号に分解されたフレームのうち、処理対象区間特定部２１により特定された発話の立ち上がり区間におけるフレームを処理の対象とする。そして、立ち上がり共分散行列算出部２２は、処理の対象としたフレームごとに順次、マイクロホン１２−１乃至１２−Ｍの順番に従って周波数ごとに信号を並べてベクトル化し、それらのベクトルどうしの掛け算を行って共分散行列を求める。そして、立ち上がり共分散行列算出部２２は、そのようにして求められたフレームごと共分散行列を、発話の立ち上がり区間のフレームで平均化処理したものを立ち上がり共分散行列Ｒ_Aとして、同時対角化処理部２４に供給する。

立ち下がり共分散行列算出部２３は、フレーム処理部１３−１乃至１３−Ｍから供給される周波数信号に分解されたフレームのうち、処理対象区間特定部２１により特定された発話の立ち下がり区間におけるフレームを処理の対象とする。そして、立ち下がり共分散行列算出部２３は、立ち上がり共分散行列算出部２２と同様に求められたフレームごと共分散行列を、発話の立ち下がり区間のフレームで平均化処理したものを立ち下がり共分散行列Ｒ_Dとして、同時対角化処理部２４に供給する。

同時対角化処理部２４は、立ち上がり共分散行列算出部２２から供給される立ち上がり共分散行列Ｒ_A（＝観測共分散行列Ｒ）と、立ち下がり共分散行列算出部２３から供給される立ち下がり共分散行列Ｒ_D（＝雑音共分散行列Ｋ）とを用いて、上述した式（４）を構築する。そして、同時対角化処理部２４は、立ち上がり共分散行列Ｒ_Aと立ち下がり共分散行列Ｒ_Dとを同時対角化する固有ベクトルｅを求める同時対角化処理を行う。

音源方向推定部２５は、同時対角化処理部２４により求められる固有ベクトルｅを用いてMUSICスペクトルを求めることで、立ち上がり共分散行列Ｒ_Aに含まれる雑音の影響を除去し、その雑音の影響が軽減された音源方向を推定することができる。例えば、音源方向推定部２５は、固有ベクトルｅのうち、マイクロホン１２の個数Ｍから、所定数の音源の数を減じた数に対応する固有ベクトルｅに対して直交するベクトルを求めることにより、音源の方向を推定する。

即ち、音源方向推定部２５は、音場に存在すると仮定した音源の数を、マイクロホン１２の数から減じた数を雑音ベクトルの数として、固有値を大きい順に並べた後に、固有値の小さい方から雑音ベクトルの数分だけ雑音ベクトルとする。そして、音源方向推定部２５は、音源があると推定される方向に向けたアレーマニュフォールドベクトルを想定し、これと雑音ベクトルとの内積を算出する。ここで、アレーマニュフォールドベクトルは、音源方向を決めれば、その音源方向とマイクロホン１２との位置関係から一意に決まる音の到来時間差をマイクロホン１２ごとの要素として持つベクトルである。

そして、音源方向推定部２５は、内積の値が０に近ければ雑音と直交していることより、つまり、音源の方向であると考えられることより、これを判断するために、内積を分母に持ってきたMUSICスペクトルを算出する。このとき分母が０に近づくということは、MUSICスペクトルとしては大きな値となることより、MUSICスペクトルがピークとなる方向が、音源方向を表していることになる。

以上のように、音源方向推定システム１１では、立ち上がり共分散行列Ｒ_Aと立ち下がり共分散行列Ｒ_Dとを同時対角化する固有ベクトルｅを求める同時対角化処理を行うことにより、残響などの雑音の影響を抑制した固有ベクトルｅを推定することができる。これにより、MUSIC法による音源方向を推定する精度を向上させることができる。

即ち、発話の立ち上がり区間（上述の図２参照）では、観測信号の振幅が大きく、発話に対する反射音や残響音などの外乱の影響が小さくなることより、DRRが高くなる。従って、音源方向推定システム１１は、発話の立ち上がり区間のフレームから求められる立ち上がり共分散行列Ｒ_Aを用いることで、音源方向の推定精度を向上させることができる。

さらに、発話の立ち下がり区間では、発話に対する反射音や残響音などの外乱の影響が大きくなっており、DRRが低くなる。従って、音源方向推定システム１１は、発話の立ち下がり区間のフレームから求められる立ち下がり共分散行列Ｒ_Dを立ち上がり共分散行列Ｒ_Aと同時対角化することにより、より高精度に音源方向を推定することができる。このように、立ち上がり共分散行列Ｒ_Aに含まれる外乱（主に残響）の寄与を白色化し、固有ベクトルを求めることで、MUSIC法による音源方向の推定精度の向上を図ることができる。

図３および図４を参照して、音源方向推定システム１１における音源方向推定のシミュレーション結果について説明する。

図３には、シミュレーション条件が示されている。

即ち、図３Ａに示すように、マイクロホン数や、マイクロホン間隔、音源方向、音源数などがシミュレーション条件として設定される。また、このシミュレーション条件で用いられる７個のマイクロホン１２−１乃至１２−７からなるマイクロホンアレーは、図３Ｂに示すように、Ｘ方向、Ｙ方向、およびＺ方向に設置される。そして、シミュレーションは、スピーカとマイクロホンアレーとの距離、および、マイクロホンアレーから見た音源方向を、常に一定に保ちながらスピーカおよびマイクロホンアレーの位置をランダムに変更して複数回の試行を繰り返して行った。

図４には、図３に示したシミュレーション条件に従って、鏡像法を用いて音源方向推定するシミュレーションを行ったシミュレーション結果として、マイクロホンアレーから音源までの距離ごとの正答率が示されている。このシミュレーション結果は、例えば、１００回の試行における±５°を誤差としたときに音源方向を推定した正答率である。

また、図４には、それぞれ同一のシミュレーション条件で、音源方向推定に用いられる共分散行列の算出対象区間が異なる４つのシミュレーション結果が示されている。

即ち、第１のシミュレーション結果は、観測信号の全体を用いて算出される共分散行列と、固有値とを利用した通常のMUSIC法により音源方向を推定するシミュレーションを行って求められた正答率である。また、第２のシミュレーション結果は、観測信号の立ち上がり区間を用いて算出される立ち上がり共分散行列Ｒ_Aから固有ベクトルを求める固有値分解処理を行い、その固有値分解処理で求められた固有ベクトルを利用したMUSIC法により音源方向を推定するシミュレーションを行って求められた正答率である。

また、第３のシミュレーション結果は、観測信号の全体を用いて算出される共分散行列と、観測信号の立ち下がり区間を用いて算出される立ち下がり共分散行列Ｒ_Dとを同時対角化してMUSIC法により音源方向を推定するシミュレーションを行って求められた正答率である。そして、第４のシミュレーション結果は、観測信号の立ち上がり区間を用いて算出される立ち上がり共分散行列Ｒ_Aと、観測信号の立ち下がり区間を用いて算出される立ち下がり共分散行列Ｒ_Dとを同時対角化してMUSIC法により音源方向を推定するシミュレーションを行って求められた正答率である。

図４に示すように、マイクロホンアレーから音源までの距離を１ｍ、２ｍ、および３ｍとしてシミュレーションを行った結果、第１乃至第４のシミュレーション結果のいずれも、この距離に依らず同様の傾向を示していることが分かる。

例えば、観測信号の全区間の共分散行列と固有値とを利用した第１のシミュレーション結果と比較して、立ち上がり共分散行列Ｒ_Aから求められる固有ベクトルを利用した第２のシミュレーション結果は、正答率が上昇している。そして、第２のシミュレーション結果と比較して、観測信号の全区間の共分散行列と立ち下がり共分散行列Ｒ_Dとを同時対角化する第３のシミュレーション結果、および、立ち上がり共分散行列Ｒ_Aと立ち下がり共分散行列Ｒ_Dとを同時対角化する第４のシミュレーション結果は、いずれも正答率が飛躍的に上昇しており、音源方向を推定する推定精度の改善が図られている。

このように、音源方向推定システム１１では、例えば、立ち上がり共分散行列Ｒ_Aと立ち下がり共分散行列Ｒ_Dとを同時対角化してMUSIC法により音源方向を推定する手法により、通常のMUSIC法よりも非常に高精度に音源方向を推定することができる。この手法の他、音源方向推定システム１１では、観測信号の全区間の共分散行列と立ち下がり共分散行列Ｒ_Dとを同時対角化してMUSIC法により音源方向を推定する手法、または、立ち上がり共分散行列Ｒ_Aから求められる固有ベクトルを利用したMUSIC法により音源方向を推定する手法を採用しても、通常のMUSIC法よりも高精度に音源方向を推定することができる。

次に、図５は、図１の音源方向推定システム１１において行われる音源方向推定処理を説明するフローチャートである。

例えば、マイクロホン１２−１乃至１２−Ｍからフレーム処理部１３−１乃至１３−Ｍに観測信号が供給されると処理が開始される。ステップＳ１１において、フレーム処理部１３−１乃至１３−Ｍは、それぞれ対応するマイクロホン１２−１乃至１２−Ｍから供給される観測信号を、順次、所定の短時間ごとのフレームに分割する。

ステップＳ１２において、フレーム処理部１３−１乃至１３−Ｍは、ステップＳ１１で分割したフレームに窓関数を掛けた後、短時間フーリエ変換を行うことで、フレームごとに観測信号を周波数信号に分解して、順次、音源方向推定装置１４に供給する。

ステップＳ１３において、処理対象区間特定部２１は、所定のマイクロホン１２から供給される観測信号の振幅二乗値に対して、図２を参照して上述したようなピークホールド処理を施し、特定の強さの音のピークが検出されるまで処理を待機する。そして、処理対象区間特定部２１は、特定の強さの音のピークが検出されると、そのピークが検出されたタイミングを含む発話の立ち上がり区間を特定して、処理はステップＳ１４に進む。

ステップＳ１４において、立ち上がり共分散行列算出部２２は、フレーム処理部１３−１乃至１３−Ｍにより周波数信号に分解されたフレームのうち、ステップＳ１３において処理対象区間特定部２１により特定された発話の立ち上がり区間のフレームを用いて、立ち上がり共分散行列Ｒ_Aを算出して同時対角化処理部２４に供給する。

ステップＳ１５において、処理対象区間特定部２１は、ピークホールド処理によりピークが検出されたタイミングから一定時間だけ後にある発話の立ち下がり区間を特定し、処理はステップＳ１６に進む。

ステップＳ１６において、立ち下がり共分散行列算出部２３は、フレーム処理部１３−１乃至１３−Ｍにより周波数信号に分解されたフレームのうち、ステップＳ１５において処理対象区間特定部２１により特定された発話の立ち下がり区間のフレームを用いて、立ち下がり共分散行列Ｒ_Dを算出して同時対角化処理部２４に供給する。

ステップＳ１７において、同時対角化処理部２４は、ステップＳ１４で算出された立ち上がり共分散行列Ｒ_Aと、ステップＳ１６で算出された立ち下がり共分散行列Ｒ_Dとを同時対角化する固有ベクトルｅを求める同時対角化処理を行う。

ステップＳ１８において、音源方向推定部２５は、ステップＳ１７で求められた固有ベクトルｅを用いてMUSICスペクトルを求めることで、同時対角化処理部２４により推定された外乱の影響が軽減された音源方向を推定する。

その後、処理はステップＳ１１に戻り、以下、上述と同様の処理を繰り返して行う。

以上のように、音源方向推定システム１１は、立ち上がり共分散行列Ｒ_Aと立ち下がり共分散行列Ｒ_Dとを同時対角化する固有ベクトルｅを求める同時対角化処理を行うことにより、MUSIC法による音源方向の推定精度を向上させることができる。

これにより、例えば、通常の部屋などのように反射音や残響音などの外乱が存在する環境下であっても、より高精度に音源方向を推定することができる。例えば、音源方向を正確に推定することで、その方向に指向性ビームを向けたマイクロホンを構築することが可能となり、周囲の外乱を抑圧しながら音声をクリアに収音することができるようになることより、非常に有用である。

従って、音源方向推定システム１１を音声認識装置に採用することにより、例えば、音声認識率の向上を図ることができる。さらに、音源方向推定システム１１を介護や掃除などを行うロボットに搭載することで、例えば、利用者がロボットに呼びかける声に反応して、それらの利用者の位置に正確にロボットを近づけるような制御を行うことが可能となる。

なお、上述のフローチャートを参照して説明した各処理は、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含むものである。また、プログラムは、１つのCPUにより処理されるものであっても良いし、複数のCPUによって分散処理されるものであってもよい。

また、上述した一連の処理（音源方向推定方法）は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラムが記録されたプログラム記録媒体からインストールされる。

図６は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）１０１，ROM（Read Only Memory）１０２，RAM（Random Access Memory）１０３は、バス１０４により相互に接続されている。

バス１０４には、さらに、入出力インタフェース１０５が接続されている。入出力インタフェース１０５には、キーボード、マウス、マイクロホンなどよりなる入力部１０６、ディスプレイ、スピーカなどよりなる出力部１０７、ハードディスクや不揮発性のメモリなどよりなる記憶部１０８、ネットワークインタフェースなどよりなる通信部１０９、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア１１１を駆動するドライブ１１０が接続されている。

以上のように構成されるコンピュータでは、CPU１０１が、例えば、記憶部１０８に記憶されているプログラムを、入出力インタフェース１０５及びバス１０４を介して、RAM１０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU１０１）が実行するプログラムは、例えば、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等）、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア１１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。

そして、プログラムは、リムーバブルメディア１１１をドライブ１１０に装着することにより、入出力インタフェース１０５を介して、記憶部１０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部１０９で受信し、記憶部１０８にインストールすることができる。その他、プログラムは、ROM１０２や記憶部１０８に、あらかじめインストールしておくことができる。

また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。

なお、本実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。

１１音源方向推定システム，１２マイクロホン，１３フレーム処理部，１４音源方向推定装置，２１処理対象区間特定部，２２立ち上がり共分散行列算出部，２３立ち下がり共分散行列算出部，２４同時対角化処理部，２５音源方向推定部

Claims

音を受音する複数の受音素子により観測される音のレベルが所定の値よりも大きな観測信号のうち、所望の音源の方向を推定する処理に用いる対象とする前記観測信号を区分けする時間区間を特定する処理対象区間特定部と、
前記処理対象区間特定部により特定された前記時間区間において観測された前記観測信号を用いて共分散行列を算出する共分散行列算出部と、
前記共分散行列算出部により算出された前記共分散行列に基づいて、前記所望の音源の方向を推定する音源方向推定部と
を備える音源方向推定装置。
前記処理対象区間特定部は、前記観測信号により観測される特定の強さの音のピークが検出されたタイミングから一定時間だけ後にある所定の前記時間区間を立ち下がり区間として特定し、
前記共分散行列算出部は、前記立ち下がり区間において観測された前記観測信号を用いて立ち下がり共分散行列を算出する
請求項１に記載の音源方向推定装置。
前記共分散行列算出部により算出される前記立ち下がり共分散行列と、前記観測信号の全体を用いて算出される共分散行列とを同時対角化する固有ベクトルを求める同時対角化処理部
をさらに備え、
前記音源方向推定部は、前記同時対角化処理部により求められた前記固有ベクトルを用いて前記所望の音源の方向を推定する
請求項２に記載の音源方向推定装置。
前記処理対象区間特定部は、前記観測信号により観測される特定の強さの音のピークが検出されたタイミングを含み、そのタイミングの前後にある所定の前記時間区間を立ち上がり区間として特定し、
前記共分散行列算出部は、前記立ち上がり区間において観測された前記観測信号を用いて立ち上がり共分散行列を算出する
請求項１に記載の音源方向推定装置。
前記音源方向推定部は、前記共分散行列算出部により算出される前記立ち上がり共分散行列から固有ベクトルを求める固有値分解処理を行い、その固有値分解により求められた前記固有ベクトルを用いて前記所望の音源の方向を推定する
請求項４に記載の音源方向推定装置。
前記処理対象区間特定部は、前記観測信号により観測される特定の強さの音のピークが検出されたタイミングを含み、そのタイミングの前後にある所定の前記時間区間を立ち上がり区間として特定するとともに、前記ピークが検出されたタイミングから一定時間だけ後にある所定の前記時間区間を立ち下がり区間として特定し、
前記共分散行列算出部は、前記立ち上がり区間において観測された前記観測信号を用いて立ち上がり共分散行列を算出するとともに、前記立ち下がり区間において観測された前記観測信号を用いて立ち下がり共分散行列を算出する
請求項１に記載の音源方向推定装置。
前記共分散行列算出部により算出される前記立ち上がり共分散行列と前記立ち下がり共分散行列とを同時対角化する固有ベクトルを求める同時対角化処理部
をさらに備え、
前記音源方向推定部は、前記同時対角化処理部により求められた前記固有ベクトルを用いて前記所望の音源の方向を推定する
請求項６に記載の音源方向推定装置。
前記処理対象区間特定部は、前記観測信号により観測される前記音のピーク値を時間方向に減衰させながら保持し、保持した値よりも大きな値が現れたときに、その値に前記ピーク値を更新するピークホールド処理を行うことにより、特定の強さの音のピークを検出する
請求項１乃至７のいずれかに記載の音源方向推定装置。
前記音源方向推定部は、前記観測信号を用いて算出される共分散行列から求められる所定の固有ベクトルのうち、前記複数の受音素子の数から、所定数の前記所望の音源の数を減じた数に対応する前記固有ベクトルに対して直交するベクトルを求めることにより、前記所望の音源の方向を推定する
請求項１乃至８のいずれかにに記載の音源方向推定装置。
音を受音する複数の受音素子により観測される音のレベルが所定の値よりも大きな観測信号のうち、所望の音源の方向を推定する処理に用いる対象とする前記観測信号を区分けする時間区間を特定し、
特定された前記時間区間において観測された前記観測信号を用いて共分散行列を算出し、
算出された前記共分散行列に基づいて、前記所望の音源の方向を推定する
ステップを含む音源方向推定方法。
音を受音する複数の受音素子により観測される音のレベルが所定の値よりも大きな観測信号のうち、所望の音源の方向を推定する処理に用いる対象とする前記観測信号を区分けする時間区間を特定し、
特定された前記時間区間において観測された前記観測信号を用いて共分散行列を算出し、
算出された前記共分散行列に基づいて、前記所望の音源の方向を推定する
ステップを含む音源方向推定処理をコンピュータに実行させるプログラム。