JP2014056181A

JP2014056181A - 音源方向推定装置、音響処理システム、音源方向推定方法、及び音源方向推定プログラム

Info

Publication number: JP2014056181A
Application number: JP2012201874A
Authority: JP
Inventors: Kazuhiro Nakadai; 一博中臺; Keisuke Nakamura; 圭佑中村; Keita Okuya; 啓太奥谷
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2012-09-13
Filing date: 2012-09-13
Publication date: 2014-03-27
Anticipated expiration: 2032-09-13
Also published as: US20140072142A1; US9247343B2; JP5952692B2

Abstract

【課題】目的音の方向をより精度よく推定することができる音源方向推定装置、音響処理システム、音源方向推定方法、及び音源方向推定プログラムを提供する。
【解決手段】第１相関行列算出部は入力された複数の音響信号の相関行列を算出し、第２相関行列算出部は複数の音響信号に基づく雑音信号の相関行列を算出し、音源定位部は第１相関行列算出部が算出した相関行列と、第２相関行列算出部が算出した相関行列に基づいて空間スペクトルを算出し、前記空間スペクトルを用いて、複数のチャネルの音響信号に係る音源の方向を推定する。
【選択図】図２

Description

本発明は、音源方向推定装置、音響処理システム、音源方向推定方法、及び音源方向推定プログラムに関する。

従来から、複数の音響信号から音源の方向を推定する音源方向推定技術が提案されている。音源方向推定技術は、周囲の環境に係る情報を取得する手段の一つである。推定した音源方向は、例えば、ロボットが動作を判定する際の条件として利用される。これにより、危険な場所等での作業支援や遠隔操作等への応用が試みられている。
収録される音響信号には、人間が発した音声、音楽等の目的音に、空調装置等の機器等の動作音や風切音等の雑音が重畳されている。この雑音は、目的音の音源方向の推定精度を低下させる原因になる。そこで、音源方向推定において雑音による影響を低減することが提案されている。

例えば、特許文献１には、入力された音響信号の相関行列を算出し、算出された相関行列と雑音の相関行列を用いて固有ベクトルを求め、求めた固有ベクトルを用いて音源方向を推定する音源方向推定装置が記載されている。
また、特許文献２には、入力された音響信号の音響特徴量に基づき音源の種類を同定し、同定した種類の音響信号の相関行列を求め、求めた固有ベクトルを用いて音源方向を推定する音源方向推定装置が記載されている。特許文献１や特許文献２に記載の音源方向推定装置では、いずれも雑音の相関行列や音源の種類毎の音響特徴量を予め取得しておく必要がある。

特開２０１０−２８１８１６号公報特開２０１２−０４２４６５号公報

しかしながら、実環境では雑音のレベルや周波数特性等が時々刻々と変動する。つまり、特許文献１や特許文献２に記載の音源方向推定装置では、予め取得した限られた個数の雑音の相関行列や音源の種類毎の音響特徴量を用いただけでは、雑音の影響を排除することができないことがある。そのため、実環境では目的音の方向を精度よく推定することが困難だった。

本発明は上記の点に鑑みてなされたものであり、目的音の方向をより精度よく推定する。

（１）本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、入力された複数の音響信号の相関行列を算出する第１相関行列算出部と、前記複数の音響信号に基づく雑音信号の相関行列を算出する第２相関行列算出部と、前記第１相関行列算出部が算出した相関行列と、前記第２相関行列算出部が算出した相関行列に基づいて空間スペクトルを算出し、前記空間スペクトルを用いて前記複数のチャネルの音響信号に係る音源の方向を推定する音源定位部と、を備えることを特徴とする音源方向推定装置である。

（２）本発明のその他の態様は、上述の音源方向推定装置であって、前記第２相関行列算出部における前記雑音信号は、前記複数の音響信号を遅延させた信号であって、前記遅延に係る遅延時間は、前記第１相関行列算出部が相関行列の算出に用いる前記複数の音響信号の時間よりも長いことを特徴とする。

（３）本発明のその他の態様は、上述の音源方向推定装置であって、前記第２相関行列算出部が相関行列の算出に用いる前記雑音信号の時間は、前記第１相関行列算出部が相関行列の算出に用いる前記複数のチャネルの音響信号の時間よりも長いことを特徴とする。

（４）本発明のその他の態様は、上述の音源方向推定装置であって、前記入力された複数の音響信号から、予め定めた種類の目的音を含む目的音信号と前記目的音とは異なる成分である雑音成分を示す雑音信号を生成する雑音推定部を備え、前記第１相関行列算出部は、前記入力された複数の音響信号として前記雑音推定部が生成した目的音信号を用いて相関行列を算出し、前記第２相関行列算出部は、前記雑音信号として前記雑音推定部が生成した雑音信号を用いて相関行列を算出することを特徴とする。

（５）本発明のその他の態様は、上述の音源方向推定装置であって、前記第１相関行列算出部が算出した相関行列に、前記第２相関行列算出部が算出した相関行列の逆行列を乗算した行列について一般化固有値展開を行って固有ベクトルを算出する固有ベクトル算出部を備え、前記音源定位部は、音源の方向毎の伝達関数ベクトルのノルムを、前記固有ベクトル算出部が算出した固有ベクトルのうち予め定めた個数の固有ベクトルのそれぞれと当該伝達関数ベクトルとの内積の和で除算して算出することを特徴とする。

（６）本発明のその他の態様は、上述の音源方向推定装置であって、前記音源定位部は、前記空間スペクトルの周波数間の平均値である平均化空間スペクトルが極大値をとる方向を前記複数のチャネルの音響信号に係る音源の方向と推定することを特徴とする。

（７）本発明のその他の態様は、複数のチャネルの音響信号を収録する収音部、前記収音部の位置を推定する位置推定部、及び前記収音部が収録した複数のチャネルの音響信号に係る音源の方向を推定する音源方向推定部と、を備える音響処理システムであって、前記音源方向推定部は、入力された複数の音響信号の相関行列を算出する第１相関行列算出部と、前記複数の音響信号に基づく雑音信号の相関行列を算出する第２相関行列算出部と、前記第１相関行列算出部が算出した相関行列と、前記第２相関行列算出部が算出した相関行列に基づいて空間スペクトルを算出し、前記空間スペクトルを用いて前記複数のチャネルの音響信号に係る音源の方向を推定する音源定位部と、を備えることを特徴とする音響処理システムである。

（８）本発明のその他の態様は、音源方向推定装置における音源方向推定方法であって、前記音源方向推定装置は、入力された複数の音響信号の相関行列を算出する第１相関行列算出過程と、前記複数の音響信号に基づく雑音信号の相関行列を算出する第２相関行列算出過程と、前記第１相関行列算出過程で算出した相関行列と、前記第２相関行列算出過程で算出した相関行列に基づいて空間スペクトルを算出し、前記空間スペクトルを用いて前記複数のチャネルの音響信号に係る音源の方向を推定する音源定位過程と、を有することを特徴とする音源方向推定方法である。

（９）本発明のその他の態様は、音源方向推定装置のコンピュータに、入力された複数の音響信号の相関行列を算出する第１相関行列算出手順、前記複数の音響信号に基づく雑音信号の相関行列を算出する第２相関行列算出手順、前記第１相関行列算出手順で算出した相関行列と、前記第２相関行列算出手順で算出した相関行列に基づいて空間スペクトルを算出し、前記空間スペクトルを用いて前記複数のチャネルの音響信号に係る音源の方向を推定する音源定位手順、を実行させるための音源方向推定プログラムである。

本発明の態様（１）、（７）、（８）及び（９）によれば、入力された音響信号に係る相関行列と、逐次に得られた雑音信号の相関行列に基づいて算出した空間スペクトルを用いるので、目的音の方向をより精度よく推定することができる。
本発明の態様（２）によれば、第１相関行列算出部が相関行列を算出する音響信号の時間帯（区間）と第２相関行列算出部が相関行列を算出する雑音信号の時間帯（区間）が異なる。そのため、第１相関行列算出部が算出する相関行列と第２相関行列算出部が算出する相関行列との独立性が確保される。そのため、より確実に目的音の方向を推定することができる。
本発明の態様（３）によれば、雑音信号よりも特性の変化が著しい目的音に追従できるため、目的音の方向の変化により適応できる。
本発明の態様（４）によれば、第１相関行列算出部は目的音信号に基づいて相関行列を算出し、第２相関行列算出部は目的音以外の成分である雑音成分を示す雑音信号に基づいて相関行列を算出するため、相関行列を算出するための各信号の区間の自由度が向上する。
そのため、処理に係る遅延をより低減することができる。
本発明の態様（５）によれば、第１相関行列算出部が算出した相関行列に、前記第２相関行列算出部が算出した相関行列の逆行列を乗算して得られた行列は、入力された音響信号に係る相関行列から雑音成分による寄与が除去された行列である。この行列について算出された固有ベクトルに基づいて算出した空間スペクトルも、雑音成分の影響が除去されるため、目的音である音源の方向を精度よく推定することができる。
本発明の態様（６）によれば、空間スペクトルが周波数間で平均化されるため、全周波数を代表する音源の方向を推定することができる。

本発明の第１の実施形態に係る音響処理システムの構成を示す概略図である。本実施形態に係る音源方向推定部の構成を示す概略図である。本実施形態に係る窓長及び遅延時間の一例を示す概念図である。本実施形態に係る収音部の構成例を示す概念図である。収音部、距離検出部と音源との位置関係を示す概念図である。本実施形態に係る音源方向推定処理を示すフローチャートである。本発明の第２の実施形態に係る音源方向推定部２３の構成を示す概略図である。本実施形態に係る音源方向推定処理を示すフローチャートである。収音部が備えるマイクロホンが収録した音響信号の一例を示す図である。平均化空間スペクトルの一例を示す図である。平均化空間スペクトルのその他の例を示す図である。平均化空間スペクトルの更に他の例を示す図である。正規化空間スペクトルのヒストグラムの例を示す図である。正規化度数の標準偏差を示す表である。定位精度及び定位正解率の一例を示す表である。差分値の例を示す図である。

（第１の実施形態）
以下、図面を参照しながら本発明の第１の実施形態について説明する。
図１は、本実施形態に係る音響処理システム１の構成を示す概略図である。
音響処理システム１は、収音部１１、音響信号受信部１２、音源方向推定部１３、距離検出部１４、距離情報受信部１５、位置推定部１６、座標変換部１７、及び音源方向出力部１８を含んで構成される。音響信号受信部１２と距離情報受信部１５は、一体化して構成されていてもよいし、それぞれ別個に構成されていてもよい。

収音部１１は、複数（Ｍ個、Ｍは１よりも大きい整数）のチャネルの音響信号を収録し、収録したＭチャネルの音響信号を音響信号受信部１２に送信する。収音部１１は、Ｍ個の受音部を備える。収音部１１は、収録したＭチャネルの音響信号をチャネル間で同期して送信することができれば、無線で送信してもよいし、有線で送信してもよい。収音部１１は、位置が固定されていてもよいし、車両、航空機、ロボット等の移動体に設置され、移動が可能であってもよい。収音部１１の構成の一例については後述する。
音響信号受信部１２は、収音部１１からＭチャネルの音響信号を受信し、受信したＭチャネルの音響信号を音源方向推定部１３に出力する。

音源方向推定部１３は、音響信号受信部１２から入力されたＭチャネルの音響信号に基づいて音源の方向を推定し、推定した音源の方向を示す音源方向情報を座標変換部１７に出力する。ここで、音源方向推定部１３は、入力されたＭチャネルの音響信号の相関行列Ｒ（ω，ｆ）と、このＭチャネルの音響信号に基づく雑音信号の雑音相関行列Ｋ（ω，ｆ）をそれぞれ周波数ω、フレーム時刻ｆ毎に算出する。音源方向推定部１３は、算出した相関行列Ｒ（ω，ｆ）と雑音相関行列Ｋ（ω，ｆ）に基づいて空間スペクトルＰ（ω，ｆ）を算出し、算出した空間スペクトルＰ（ω，ｆ）を用いて音源の方向ψを推定する。
本実施形態では、音源方向推定部１３は、収音部１１等、その他の構成部とは独立した音源方向推定装置として構成されていてもよいし、その他の構成部の全部又は一部と一体化した音源方向推定装置として構成されていてもよい。音源方向推定部１３の構成については、後述する。

距離検出部１４は、当該距離検出部１４から収音部１１における少なくとも３点の各点までの距離（奥行、ｄｅｐｔｈ）を検出し、検出した各点までの距離を示す距離情報を距離情報受信部１５に送信する。距離検出部１４は、例えば、赤外線センサを備える。その場合、距離検出部１４は、距離の検出に用いる検出用信号として赤外線を放射し、収音部１１の各点が反射した反射波をそれぞれ受信する。距離検出部１４は、放射した検出用信号とそれぞれ受信した反射波との間の遅延又は位相差を検知する。距離検出部１４は、それぞれ検知した遅延もしくは位相差と光速に基づいて収音部１１の各点までの距離を算出する。
距離検出部１４は、収音部１１までの距離を検出することができれば、赤外線センサの代わりに、レーザ距離計（レーザレンジファインダ、ＬＲＦ：ＬａｓｅｒＲａｎｇｅＦｉｎｄｅｒ）等、他の検出手段を備えてもよい。
なお、距離検出部１４の位置は、固定されていてもよい。距離検出部１４は、距離情報を距離情報受信部１５に送信することができれば、無線で送信してもよいし、有線で送信してもよい。

距離情報受信部１５は、距離検出部１４から距離情報を受信する。距離情報受信部１５は、音響信号受信部１２における音響信号の受信と同期して距離情報を受信してもよい。距離情報受信部１５は、例えば、音響信号受信部１２と一体化して構成された入力インタフェース部であってもよい。また、距離情報受信部１５は、距離情報の受信と音響信号の受信するためにＲＯＳ（ＲｏｂｏｔＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）プロトコルを用いてもよい。ＲＯＳとは、ロボットを構成するハードウェア資源を管理・制御する基本ソフトウェアの１つである。
距離情報受信部１５は、距離検出部１４から受信した距離情報を位置推定部１６に出力する。

位置推定部１６は、距離情報受信部１５から入力された距離情報が示す収音部１１の各点までの距離に基づいて、収音部１１の位置を推定する。ここで、位置推定部１６は、収音部１１の各点の配置に係る配置情報が予め設定されている。配置情報は、例えば、収音部１１における１点を基準とする座標であって、収音部１１が備える複数の反射体（後述）のそれぞれの座標を示す情報である。位置推定部１６は、当該位置推定部１６から収音部１１の各点までの距離と配置情報に基づいて、距離検出部１４の位置を基準とした収音部１１の各点の位置を算出する。位置推定部１６は、算出した各点の位置のうち、選択したいずれか１点の位置、又は各点の位置の平均値を収音部１１の位置（代表位置）として算出する。また、位置推定部１６は、算出した収音部１１の各点の位置と代表位置に基づいて、収音部１１の向きを算出する。収音部１１の向きとは、収音部１１における予め定めた２点間を結ぶ線分の方向である。例えば、収音部１１の各点のうち２点間を結ぶ線分の方向であってもよい。位置推定部１６は、算出した収音部１１の位置と向きを示す位置情報を座標変換部１７に出力する。

座標変換部１７は、音源方向推定部１３から入力された音源方向情報が示す各音源の音源方向を、位置推定部１６から入力された位置情報に基づいて距離検出部１４の位置を基準とした座標系で示される方向に変換する。入力された音源方向情報は、収音部１１を基準とする座標系（相対座標）で示されるためである。座標変換の例については図５を参照して後述する。座標変換部１７は、変換した各音源の方向を示す音源方向情報を音源方向出力部１８に出力する。
なお、座標変換部１７は、操作入力等、外部から受け付けた設定情報に基づいて音源の方向を変換するか否かを切り替えることができるようにしてもよい。距離検出部１４の位置が基準となるように音源の方向を変換しない場合には、座標変換部１７は、音源方向推定部１３から入力された音源方向情報をそのまま音源方向出力部１８に出力する。

音源方向出力部１８は、座標変換部１７から入力された音源方向情報を出力する。音源方向出力部１８は、入力された音源方向情報を記憶媒体に記憶するメモリアクセス部であってもよいし、他の機器に出力する出力インタフェース部であってもよい。また、音源方向出力部１８は、入力された音源方向情報が示す各音源の方向を利用者が視認できるように表示する表示部であってもよい。音源方向出力部１８は、音源方向推定部１３が推定した各音源の音源信号の波形又はスペクトログラムと、その音源の方向とを対応付けて表示してもよい。
なお、距離検出部１４の位置が基準となるように音源の方向を変換しない場合には、音響処理システム１は、距離検出部１４、距離情報受信部１５、位置推定部１６、及び座標変換部１７を省略してもよい。その場合、音源方向出力部１８には、音源方向推定部１３から音源方向情報が入力される。

（音源方向推定部の構成）
次に、本実施形態に係る音源方向推定部１３の構成について説明する。
図２は、本実施形態に係る音源方向推定部１３の構成を示す概略図である。
音源方向推定部１３は、周波数分析部１３１、第１相関行列算出部１３２、第２相関行列算出部１３３、固有ベクトル算出部１３４、空間スペクトル算出部１３５、音源定位部１３６、及び音源分離部１３７を含んで構成される。

周波数分析部１３１には、音響信号受信部１２からＭチャネルの音響信号が入力される。周波数分析部１３１は、各チャネルの音響信号についてフレーム毎に離散フーリエ変換（ＤＦＴ：ＤｉｓｃｒｅｔｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を行って、周波数領域の入力信号を生成する。フレームとは、予め定めた長さ（フレーム長）の時間間隔、又はその時間間隔に含まれる信号を指す。フレーム長は、例えば、１０ｍｓである。上述のフレーム時刻は、個々のフレームを代表する時刻（例えば、開始時刻）である。周波数分析部１３１は、フレーム毎に生成した各チャネルの入力信号を第１相関行列算出部１３２及び第２相関行列算出部１３３に出力する。

第１相関行列算出部１３２は、周波数分析部１３１から入力された入力信号を用いて、周波数ω、フレーム時刻ｆ毎に相関行列Ｒ（ω，ｆ）を算出する。相関行列Ｒ（ω，ｆ）は、チャネルｋ（ｋは、１からＭのうちいずれかの整数）の入力信号とチャネルｌ（ｌは、１からＭのうちいずれかの整数）の入力信号とのチャネル間相関を、第ｋ行第ｌ列の要素値として有する行列である。これにより、相関行列Ｒ（ω，τ）は、Ｍ行Ｍ列の正方行列になる。
第１相関行列算出部１３２は、例えば、式（１）を用いて相関行列Ｒ（ω，ｆ）を算出する。

式（１）において、ｆは現在のフレーム時刻を示し、Ｔ_Ｒは相関行列Ｒ（ω，τ）を算出する際に用いる区間の長さ（フレーム数）である。この区間の長さを窓長と呼ぶ。τは、フレーム時刻（現在のフレーム時刻には限らない）を示す。Ｘ（ω，τ）は、各チャネルの周波数領域の入力信号を要素とするＭ列の入力信号ベクトルを示す。＊は、ベクトル又は行列の複素共役転置演算子である。即ち、式（１）は、チャネルｋの入力信号値とチャネルｌの入力信号値の複素共役との積について現在のフレーム時刻ｆまでの窓長Ｔ_Ｒの区間にわたって平均した値を、チャネル間相関として算出することを示す。
第１相関行列算出部１３２は、算出した相関行列Ｒ（ω，ｆ）を固有ベクトル算出部１３４に出力する。

第２相関行列算出部１３３は、周波数分析部１３１から入力された入力信号に基づく雑音信号を用いて、周波数ω、フレーム時刻ｆ毎に雑音相関行列Ｋ（ω，ｆ）を算出する。雑音相関行列Ｋ（ω，ｆ）は、チャネルｋの雑音信号とチャネルｌの雑音信号とのチャネル間相関を、第ｋ行第ｌ列の要素値として有する行列である。雑音信号は、現在の入力信号に係る雑音成分を示す信号である。第２相関行列算出部１３３は、例えば、入力信号を遅延時間ｆ_ｓだけ遅延させた信号を雑音信号として用いる。これにより、雑音相関行列Ｋ（ω，ｆ）は、Ｍ行Ｍ列の正方行列になる。
第２相関行列算出部１３３は、例えば、式（２）を用いて雑音相関行列Ｋ（ω，ｆ）を算出する。

式（２）において、Ｔ_Ｎは雑音相関行列Ｋ（ω，τ）を算出する際に用いる窓長である。
即ち、式（２）は、チャネルｋの入力信号値とチャネルｌの入力信号値の複素共役との積についてフレーム時刻ｆ−ｆ_ｓ−Ｔ_Ｎからｆ−ｆ_ｓまでの窓長Ｔ_Ｎの区間にわたって平均した値を、チャネルｋとチャネルｌとの間のチャネル間相関として算出することを示す。

この例において、遅延時間ｆ_ｓだけ単に遅延させた信号を雑音信号として推定したのは、入力信号の周波数特性は常に変動しているため、現在の入力信号における目的音の成分と過去の入力信号とが異なる傾向があるからである。ここで、遅延時間ｆ_ｓが大きいほど相関行列Ｒ（ω，τ）と独立した雑音相関行列Ｋ（ω，ｆ）が得られる。これに対して、遅延時間ｆ_ｓが小さいほど相関行列Ｒ（ω，τ）を算出した時点における雑音の状況が雑音相関行列Ｋ（ω，ｆ）に反映される。但し、この例では遅延時間ｆ_ｓはゼロよりも大きい値である。遅延時間ｆ_ｓがゼロになると、相関行列Ｒ（ω，τ）と雑音相関行列Ｋ（ω，ｆ）が一致してしまい、目的音の方向を推定できなくなるためである。
窓長Ｔ_Ｎについては、窓長Ｔ_Ｎが大きいほど雑音相関行列Ｋ（ω，τ）の時間変動が緩和されるため処理結果が安定する反面、窓長Ｔ_Ｎが小さいほど入力信号の周波数特性の時間変動により追従できるようになる。このように、遅延時間ｆ_ｓと窓長Ｔ_Ｎには、それぞれトレードオフの関係がある。第２相関行列算出部１３３には、遅延時間ｆ_ｓと窓長Ｔ_Ｎとして、それぞれ適切な値を予め設定しておく。遅延時間ｆ_ｓと窓長Ｔ_Ｎの例については後述する。

ここで、遅延時間ｆ_ｓを、相関行列Ｒ（ω，ｆ）に係る窓長Ｔ_Ｒよりも大きい値に定めておいてもよい。これにより、相関行列Ｒ（ω，ｆ）を算出する区間と雑音相関行列Ｋ（ω，ｆ）を算出する区間との重なりを回避できる。特に、雑音の周波数特性の変動が少ない定常雑音下においては、雑音に係る雑音相関行列Ｋ（ω，ｆ）と目的音に係る相関行列Ｒ（ω，ｆ）との独立性を確保することができる。つまり、雑音による音源方向の推定精度の劣化を低減することができる。
さらに、雑音相関行列Ｋ（ω，ｆ）に係る窓長Ｔ_Ｎを、相関行列Ｒ（ω，ｆ）に係る窓長Ｔ_Ｒよりも大きい値に定めておいてもよい。特に、定常雑音（ｓｔａｔｉｏｎａｒｙｎｏｉｓｅ）のもとでは、雑音相関行列Ｋ（ω，ｆ）の時間変動が乏しいため、窓長Ｔ_Ｎを長くすることが許容される。これに対し、入力信号の時間変動は、目的音の成分の時間変動が主であるため、相関行列Ｒ（ω，ｆ）の算出において、この時間変動に追従するために窓長Ｔ_Ｎを短くすることが好ましい。
第２相関行列算出部１３３は、算出した雑音相関行列Ｋ（ω，ｆ）を固有ベクトル算出部１３４に出力する。

固有ベクトル算出部１３４は、第１相関行列算出部１３２から入力された相関行列Ｒ（ω，ｆ）と、第２相関行列算出部１３３から入力された雑音相関行列Ｋ（ω，ｆ）とを用いて周波数ω、フレーム時刻ｆ毎に固有ベクトルを算出する。ここで、固有ベクトル算出部１３４は、相関行列Ｒ（ω，ｆ）に雑音相関行列Ｋ（ω，ｆ）の逆行列Ｋ（ω，ｆ）^−１を左側から乗算した行列Ｋ（ω，ｆ）^−１Ｒ（ω，ｆ）について一般化固有値展開（ＧＥＶＤ：ＧｅｎｅｒａｌｉｚｅｄＥｉｇｅｎｖａｌｕｅＤｅｃｏｍｐｏｔｉｏｎ）を行う。ＧＥＶＤによって、固有ベクトル算出部１３４は、式（３）の関係を満たす正則行列Ｅ（ω，ｆ）と固有値行列Λ（ω，ｆ）を算出する。

式（３）において、固有値行列Λ（ω，ｆ）は、Ｍ個の固有値λ_１，…，λ_Ｎを対角要素として有する行列である。固有値λ_１，…，λ_Ｍの順序１，…，Ｍは、その大きさの降順である。正則行列Ｅ（ω，ｆ）は、固有ベクトルｅ_１，…，ｅ_Ｍを、固有値λ_１，…，λ_Ｍが大きい順に列方向に並べて構成される行列である。固有ベクトルｅ_１，…，ｅ_Ｍは、固有値λ_１，…，λ_Ｍにそれぞれ対応する固有ベクトルである。具体的には、固有ベクトル算出部１３４は、固有値λ_１，…，λ_Ｍとの間で式（４）の関係を満足するように、固有ベクトルｅ_１，…，ｅ_Ｍを算出する。

式（４）において、ｍは、１からＭのいずれかの整数である。
これにより、相関行列Ｒ（ω，ｆ）について、雑音相関行列Ｋ（ω，ｆ）で白色化される。つまり、雑音の影響が除去されたうえで固有ベクトルｅ_１，…，ｅ_Ｍが算出される。固有ベクトルｅ_１，…，ｅ_Ｍは、それぞれ、その絶対値が１に正規化されていてもよい。
固有ベクトル算出部１３４は、算出したＭ個の固有ベクトルｅ_１，…，ｅ_Ｍを空間スペクトル算出部１３５に出力する。

空間スペクトル算出部１３５には、固有ベクトル算出部１３４からＭ個の固有ベクトルｅ_１，…，ｅ_Ｍが入力される。空間スペクトル算出部１３５は、周波数ω、音源方向ψ毎に伝達関数ベクトルＧ（ω，ψ）が予め記憶された記憶部（図示せず）を備えている。伝達関数ベクトルＧ（ω，ψ）は、音源方向ψから収音部１１の各マイクロホン（チャネル）までの伝達関数を要素値として含むＭ列のベクトルである。伝達関数ベクトルＧ（ω，ψ）は、ステアリングベクトル（ｓｔｅｅｒｉｎｇｖｅｃｔｏｒ）とも呼ばれる。
空間スペクトル算出部１３５は、予め定めた探索範囲に含まれる音源方向ψの伝達関数ベクトルＧ（ω，ψ）を記憶部から読み出す。探索範囲とは音源方向ψの候補として探索する範囲である。
空間スペクトル算出部１３５は、各フレームｆについて、周波数ω、音源方向ψ毎に、Ｍ個の固有ベクトルｅ_１，…，ｅ_Ｍと読み出した伝達関数ベクトルＧ（ω，ψ）に基づいて空間スペクトルＰ（ω，ψ，ｆ）を算出する。空間スペクトル算出部１３５は、空間スペクトルＰ（ω，ψ，ｆ）を算出する際に、例えば、式（５）を用いる。

式（５）において、｜…｜は、絶対値を示す。Ｌは、目的音源数である。目的音源数とは、目的音として、その音源方向を検知する音源数の最大値である。Ｌは、０よりも大きく、Ｍよりも小さい予め設定された整数である。即ち、空間スペクトルＰ（ω，ψ，ｆ）は、伝達関数ベクトルＧ（ω，ψ）のノルムを、伝達関数ベクトルＧ（ω，ψ）とＭ−Ｌ個の固有ベクトルｅ_Ｌ＋１，…，ｅ_Ｍのそれぞれとの内積の総和で除算して算出される。理想的には、Ｍ−Ｌ個の固有ベクトルｅ_Ｌ＋１，…，ｅ_Ｍの方向は、最大Ｌ個の音源の方向ψに係る伝達関数ベクトルＧ（ω，ψ）と直交する。そのため、音源方向ψに係る空間スペクトルＰ（ω，ψ，ｆ）は、他の方向よりも大きい値をとる。

空間スペクトル算出部１３５は、算出した空間スペクトルＰ（ω，ψ，ｆ）を予め定めた周波数帯域内で平均して、各フレームｆ、音源方向ψについて、平均化空間スペクトル＜Ｐ（ψ，ｆ）＞を算出する。空間スペクトル算出部１３５は、＜Ｐ（ψ，ｆ）＞を算出する際、例えば、式（６）を用いる。

式（６）において、ω_Ｈは、上述の周波数帯域における周波数の上限（上限周波数）に係るインデックスを示し、ω_Ｌは、その周波数帯域における周波数の下限（下限周波数）に係るインデックスを示す。上限周波数は、例えば、３．５ｋＨｚであり、下限周波数は、例えば、０．５ｋＨｚである。式（６）の右辺の分母ω_Ｈ−ω_Ｌ＋１は、加算（Σ）の対象となる空間スペクトルＰ（ω，ψ，ｆ）の個数を示す。この分母に１が加算されるのは、各周波数ωは離散化されており、その周波数帯域の両端である上限周波数に係る空間スペクトルＰ（ω_Ｈ，ψ，ｆ）と下限周波数に係る空間スペクトルＰ（ω_Ｌ，ψ，ｆ）がともに、加算の対象となるからである。
空間スペクトル算出部１３５は、算出した平均化空間スペクトル＜Ｐ（ψ，ｆ）＞を音源定位部１３６に出力する。

音源定位部１３６は、空間スペクトル算出部１３５から入力された平均化空間スペクトル＜Ｐ（ψ，ｆ）＞に基づいて、各フレームｆについて音源方向ψを定める。ここで、音源定位部１３６は、平均化空間スペクトル＜Ｐ（ψ，ｆ）＞が予め定めた閾値よりも大きくなる音源方向ψであって、平均化空間スペクトル＜Ｐ（ψ，ｆ）＞が極大値をとる音源方向ψを、最大Ｌ個選択する。極大値が、Ｌ個よりも多く検知された場合には、音源定位部１３６は、検知された音源方向ψの中から、Ｌ個の音源方向ψを選択する。ここで、音源定位部１３６は、平均化空間スペクトル＜Ｐ（ψ，ｆ）＞が最も大きくなる音源方向ψからＬ番目に大きくなる音源方向ψまで選択する。
音源定位部１３６は、選択した各音源の音源方向ψを示す音源方向情報を座標変換部１７及び音源分離部１３７に出力する。

音源分離部１３７は、入力された音源方向情報に基づいて、音響信号受信部１２から入力されたＭチャネルの音響信号から音源毎の音響信号を分離する。ここで、音源分離部１３７は、例えば、収音部１１において各チャネルに対応したマイクロホンの配置に基づいて音源方向情報が示す音源毎の音源方向ψへの指向性が最も高くなる空間フィルタ係数をチャネル毎に算出する。音源分離部１３７は、算出した空間フィルタ係数をＭチャネルの音響信号にそれぞれ畳み込み演算を行って、その音源の音響信号を生成する。なお、音源分離部１３７は、音源方向と各チャネルのマイクロホンの配置に基づいて、その音源の音響信号を生成することができる方法であれば、上述の方法に限られない。
音源分離部１３７は、生成した音響信号を外部に出力する。なお、音源方向出力部１８に出力してもよい。

なお、上述した構成によって音源方向ψを算出する処理を、以下の説明では、ｉＧＥＶＤ（ｉｎｃｒｅｍｅｎｔａｌＧｅｎｅｒａｌｉｚｅｄＥｉｇｅｎｖａｌｕｅＤｅｃｏｍｐｏｓｉｔｉｏｎｂａｓｅｄ、逐次一般化固有値展開）−ＭＵＳＩＣ（ＭｕｌｔｉｐｌｅＳｉｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ、多重信号分類）法と呼ぶことがある。また、上述した構成において雑音相関行列Ｋ（ω，ｆ）の代わりに、予め定めた一定値をとる雑音相関行列Ｋ、単位行列Ｉを用いる処理を、それぞれＧＥＶＤ−ＭＵＳＩＣ法、ＳＥＶＤ（ＳｔａｎｄａｒｄＥｉｇｅｎｖａｌｕｅＤｅｃｏｍｐｏｓｉｔｉｏｎｂａｓｅｄ、標準固有値展開）−ＭＵＳＩＣ法と呼ぶことがある。

（窓長Ｔ_Ｒ、Ｔ_Ｎ、遅延時間ｆ_ｓの関係）
次に、窓長Ｔ_Ｒ、Ｔ_Ｎ、及び遅延時間ｆ_ｓの関係について説明する。
図３は、本実施形態に係る窓長及び遅延時間の一例を示す概念図である。
図３において横軸は時刻を示す。線分３０１は、相関行列Ｒ（ω，ｆ）に係る窓長Ｔ_Ｒを示す線分である。線分３０１の起点が示すフレーム時刻はｆ−Ｔ_Ｒであって、終点が示すフレーム時刻はｆである。つまり、線分３０１は、この起点と終点の間の区間に係るＮチャネルの音響信号に基づいて相関行列Ｒ（ω，ｆ）が算出されることを示す。
線分３０２は、雑音相関行列Ｋ（ω，ｆ）に係る窓長Ｔ_Ｎを示す線分である。線分３０２の起点の時刻はｆ−ｆ_ｓ−Ｔ_Ｎであって、終点の時刻はｆ−ｆ_ｓである。つまり、線分３０２は、この起点と終点の間の区間に係るＮチャネルの音響信号に基づいて相関行列Ｒ（ω，ｆ）が算出されることを示す。

また、図３は、現フレーム時刻ｆからの遅延時間ｆ_ｓを窓長Ｔ_Ｒよりも長くすることで、相関行列Ｒ（ω，ｆ）を算出する区間（ｆ−Ｔ_Ｒとｆの間）と、雑音相関行列Ｋ（ω，ｆ）を算出する区間（ｆ−ｆ_ｓ−Ｔ_Ｎとｆ−ｆ_ｓの間）との重なりが回避されることを示す。これにより、相関行列Ｒ（ω，ｆ）と雑音相関行列Ｋ（ω，ｆ）との独立性を確保することができる。
また、図３に示す例では、窓長Ｔ_Ｎが窓長Ｔ_Ｒよりも長い。雑音の周波数特性の変動が、音声等の目的音よりも緩やかな場合には、そのように窓長を定めることによって、安定した雑音相関行列Ｋ（ω，ｆ）を算出することができ、より時間変動への追従性の高い相関行列Ｒ（ω，ｆ）を定めることができる。

（収音部の構成例）
次に、収音部１１の構成例について説明する。
図４は、本実施形態に係る収音部１１の構成例を示す概念図である。
収音部１１は、移動体１１１、８個のマイクロホン１１２−１〜１１２−８、及び信号処理部１１３、及び３個の反射体（マーカ）１１４−１〜１１４−３を含んで構成される。

移動体１１１は、例えば、４個の回転翼を備えたクアドロコプタ（ｑｕａｄｒｏｃｏｐｔｅｒ）である。クアドロコプタは、クアッドロータ（ｑｕａｄｒｏｔｏｒ）とも呼ばれる。
移動体１１１は、４個の輪状の支持部１１１−１〜１１１−４を備え、支持部１１１−１〜１１１−４は、同一の水平面上にそれぞれの中心点が正方形の頂点に配置されている。支持部１１１−１〜１１１−４のそれぞれには、その中心に回転軸を有する回転翼（図示せず）を備える。移動体１１１は、この回転翼が回転することによって飛行する。

マイクロホン１１２−１〜１１２−８は、音波をつまり大気の圧力の変動を電圧値に音響信号として変換する受音部である。マイクロホン１１２−１〜１１２−８は、それぞれ変換した音響信号を信号処理部１１３に出力する。
マイクロホン１１２−１〜１１２−８は、それぞれ移動体１１１の中心部から一定の距離に配置されている。また、支持部１１１−１〜１１１−４には、マイクロホン１１２−１〜１１２−８のうち、それぞれ２個ずつを、互いに対面する位置に設置されている。これにより、８個のマイクロホン１１２−１〜１１２−８の位置が、移動体１１１において分散して配置される。

信号処理部１１３は、マイクロホン１１２−１〜１１２−８から、それぞれ入力されたアナログの音響信号をディジタル音響信号にＡ／Ｄ（Ａｎａｌｏｇ−ｔｏ−Ｄｉｇｉｔａｌ）変換する。これにより、８チャネルのディジタル音響信号が取得される。
信号処理部１１３は、例えば、変換したディジタル音響信号を、基底周波数の信号から無線周波数の信号にアップコンバートして電波として音響信号受信部１２に送信する。
音響信号受信部１２では、受信した電波を無線周波数の信号から基底周波数の信号にダウンコンバートして、８チャネルのディジタル音響信号が復元される。

反射体１１４−１〜１１４−３は、それぞれ距離検出部１４が放射した赤外線を反射する。反射体１１４−１〜１１４−３は、例えば、赤外線プリズムである。
反射体１１４−１は、支持部１１１−１と１１１−２との間であって、移動体１１１の外縁に設置される。反射体１１４−２は、支持部１１１−１と１１１−４との間であって、移動体１１１の外縁に設置される。反射体１１４−３は、支持部１１１−３と１１１−４との間であって、移動体１１１の外縁に設置される。これにより、反射体１１４−１〜１１４−３には、支持部１１１−１〜１１１−４に妨げられずに距離検出部１４が放射した赤外線が入射される。

（座標変換の一例）
次に、座標変換部１７が行う座標変換の一例について説明する。
以下の説明は、簡単のため２次元座標系に基づくが、本実施形態では、座標変換部１７は３次元座標系に基づいて座標変換を行ってもよい。
図５は、収音部１１、距離検出部１４と音源ｓとの位置関係を示す概念図である。
図５において、Ｘ方向は距離検出部１４を基準として紙面に対して右側を示し、Ｙ方向はＸ方向に垂直であって水平面に平行な方向を示す。
座標変換部１７は、距離検出部１４を基準とした収音部１１の方向θ_ｍに基づいて、収音部１１を基準とした音源ｓの方向ψを、距離検出部１４を基準とした音源ｓの方向ψ’に変換する。
図５において、線分３０３は、距離検出部１４を基準とした座標系（世界座標系）において基準となる方向（例えば、θ_ｍ＝０）を示す。線分３０４は、収音部１１を基準とした座標系（音響座標系）において基準となる方向（例えば、ψ＝０）を示す。

座標変換部１７は、音源方向情報が音源方向推定部１３から入力される他、収音部１１を基準とした各音源までの距離を示す音源距離情報が音源方向推定部１３から入力される。ここで、音源方向推定部１３は、収音部１１における各マイクロホンの配置を示すマイクロホン配置情報と算出した音源方向に基づいて、その音源までの距離を算出する。音源方向推定部１３は、音源方向情報の他、算出した距離を示す音源距離情報を座標変換部１７に出力する。
座標変換部１７は、入力された音源方向情報と音源距離情報に基づいて、収音部１１を基準とした音源ｓの座標（ｘ_ｓ，ｙ_ｓ）を算出する。ここで、ｘ_ｓはＸ方向の座標値、ｙ_ｓはＹ方向の座標値である。即ち、座標変換部１７は、音源方向推定部１３から入力された音源方向情報が示す音源方向と音源距離情報が示す音源距離を位置推定部１６の座標系に変換する。

座標変換部１７は、位置推定部１６から入力された位置情報が示す収音部１１の座標（ｘ_１１，ｙ_１１）と算出した音源ｓの座標（ｘ_ｓ，ｙ_ｓ）を加算して、距離検出部１４を基準とした音源ｓの座標（ｘ_ｓ＋ｘ_１１，ｙ_ｓ＋ｙ_１１）を算出する。収音部１１の座標（ｘ_１１，ｙ_１１）は、位置推定部１６の位置を基準とした座標であって、位置推定部１６の座標系で表された座標値である。座標変換部１７は、算出した距離検出部１４を基準とした音源ｓの座標を極座標に変換して、基準となる方向（線分３０３）からの角度を、距離検出部１４を基準とした音源ｓの方向ψ’として算出する。座標変換部１７は、算出した方向ψ’を音源方向出力部１８に出力する。

（音源方向推定処理）
次に、本実施形態に係る音源方向推定処理について説明する。
図６は、本実施形態に係る音源方向推定処理を示すフローチャートである。
（ステップＳ１０１）周波数分析部１３１には、音響信号受信部１２からＭチャネルの音響信号が入力される。その後、ステップＳ１０２に進む。
（ステップＳ１０２）周波数分析部１３１は、各チャネルの音響信号についてフレーム毎に離散フーリエ変換（周波数分析）を行って、周波数領域の入力信号を生成する。周波数分析部１３１は、フレーム毎に生成した各チャネルの入力信号を第１相関行列算出部１３２及び第２相関行列算出部１３３に出力する。
その後、ステップＳ１０３に進む。

（ステップＳ１０３）第１相関行列算出部１３２は、周波数分析部１３１から入力された入力信号に基づき、例えば式（１）を用いて、周波数ω、フレーム時刻ｆ毎に相関行列Ｒ（ω，ｆ）（第１相関行列）を算出する。第１相関行列算出部１３２は、算出した相関行列Ｒ（ω，ｆ）を固有ベクトル算出部１３４に出力する。その後、ステップＳ１０４に進む。
（ステップＳ１０４）第２相関行列算出部１３３は、周波数分析部１３１から入力された入力信号に基づく雑音信号を生成する。第２相関行列算出部１３３は、例えば式（２）を用いて、周波数ω、フレーム時刻ｆ毎に雑音相関行列Ｋ（ω，ｆ）（第２相関行列）を算出する。第２相関行列算出部１３３は、算出した雑音相関行列Ｋ（ω，ｆ）を固有ベクトル算出部１３４に出力する。その後、ステップＳ１０５に進む。

（ステップＳ１０５）固有ベクトル算出部１３４には、第１相関行列算出部１３２から入力された相関行列Ｒ（ω，ｆ）を第２相関行列算出部１３３から入力された雑音相関行列Ｋ（ω，ｆ）を用いて周波数ω、フレーム時刻ｆ毎にＭ個の固有ベクトルを算出する。
固有ベクトル算出部１３４は、Ｍ個の固有ベクトルを算出する際、例えば、式（３）又は（４）を用いる。その後、ステップＳ１０６に進む。

（ステップＳ１０６）空間スペクトル算出部１３５は、各フレームｆについて、周波数ω、音源方向ψ毎に、Ｍ個の固有ベクトルｅ_１，…，ｅ_Ｍと記憶部から読み出した伝達関数ベクトルＧ（ω，ψ）に基づいて空間スペクトルＰ（ω，ψ，ｆ）を算出する。空間スペクトル算出部１３５は、空間スペクトルＰ（ω，ψ，ｆ）を算出する際、例えば、式（５）を用いる。空間スペクトル算出部１３５は、算出した空間スペクトルＰ（ω，ψ，ｆ）を予め定めた周波数帯域内で平均して、各フレームｆ、音源方向ψについて、例えば、式（６）を用いて平均化空間スペクトル＜Ｐ（ψ，ｆ）＞を算出する。
空間スペクトル算出部１３５は、算出した平均化空間スペクトル＜Ｐ（ψ，ｆ）＞を音源定位部１３６に出力する。その後、ステップＳ１０７に進む。

（ステップＳ１０７）音源定位部１３６は、空間スペクトル算出部１３５から入力された平均化空間スペクトル＜Ｐ（ψ，ｆ）＞が予め定めた閾値よりも大きく、平均化空間スペクトル＜Ｐ（ψ，ｆ）＞が極大値をとる音源方向ψを選択（音源定位）する。音源定位部１３６は、選択した各音源の音源方向ψを示す音源方向情報を座標変換部１７及び音源分離部１３７に出力する。その後、ステップＳ１０８に進む。
（ステップＳ１０８）音源分離部１３７は、入力された音源方向情報に基づいて、音響信号受信部１２から入力されたＭチャネルの音響信号から音源毎の音響信号を分離する。
音源分離部１３７は、生成した音響信号を外部に出力する。その後、処理を終了する。

以上に説明したように、本実施形態では、入力された複数のチャネルの音響信号の相関行列を算出し、複数のチャネルの音響信号に基づく雑音信号の相関行列を算出する。そして、本実施形態では、入力された音響信号に基づく相関行列と、雑音信号の相関行列に基づいて算出した空間スペクトルを用いて、入力された複数のチャネルの音響信号に係る音源の方向を推定する。
これにより、雑音信号の特性が既知でなくとも、目的音の方向をより精度よく推定することができる。

（第２の実施形態）
次に、図面を参照しながら本発明の第２の実施形態について説明する。第１の実施形態と同一の構成、処理については同一の符号を付して、上述の説明を援用する。
本実施形態に係る音響処理システム２（図示せず）は、音響処理システム１（図１参照）において、音源方向推定部１３の代わりに音源方向推定部２３を含んで構成される。

図７は、本実施形態に係る音源方向推定部２３の構成を示す概略図である。
音源方向推定部２３は、音源方向推定部１３（図２参照）が備える構成に、さらに雑音推定部２３１を含んで構成される。
雑音推定部２３１は、周波数分析部１３１から入力された入力信号について、予め定めた種類の目的音を含む目的音信号を推定し、推定した目的音信号を第１相関行列算出部１３２に出力する。目的音とは、利用者が受聴の目的とする音、例えば、人間の音声、音楽等である。雑音推定部２３１は、入力信号のうち目的音成分以外の成分、雑音成分を示す雑音信号を推定し、推定した雑音信号を第２相関行列算出部１３３に出力する。

予め定めた目的音が人間の音声である場合、雑音推定部２３１は、例えば、（１）音声区間検出による目的音信号の推定、（２）定常雑音推定、のいずれか又は両方を行うようにしてもよい。
＜（１）音声区間検出による目的音信号の推定＞
雑音推定部２３１は、周波数分析部１３１から入力された入力信号について音声区間検出（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ；ＶＡＤ）を行う。これにより、入力信号が音声を主に含むか否かが判別される。雑音推定部２３１は、入力信号について時間領域で音声区間検出を有音区間毎に行う。有音区間は、入力信号の振幅の立ち上がり（ｏｎｓｅｔ）から立ち下り（ｄｅｃａｙ）に挟まれる区間である。立ち上がりとは、無音区間の後、入力信号のパワーが予め定めたパワーよりも大きくなる部分である。立ち下がりとは、無音区間の前に、入力信号のパワーが予め定めたパワーよりも小さくなる部分である。そして、雑音推定部２３１は、例えば、フレーム毎のパワー値が、その直前において予め定めたパワー閾値よりも小さく、現在においてそのパワー閾値を上回る場合に、立ち上がりと判定する。これに対して、雑音推定部２３１は、パワー値が、その直前において予め定めたパワー閾値よりも大きく、現在においてそのパワー閾値よりも小さい場合に、立ち下がりと判定する。

雑音推定部２３１は、フレーム毎の零交差数（ｎｕｍｂｅｒｏｆｚｅｒｏｃｒｏｓｓｉｎｇｓ）が、予め定めた数を越えたとき、音声区間であると判定する。零交差数とは、入力信号の時間領域における振幅値が零を跨ぐ回数、即ち、負値から正値、又は正値から負値に変化する回数である。雑音推定部２３１は、零交差数が、予め定めた数を下回る場合、非音声区間であると判定する。
雑音推定部２３１は、音声区間に係る入力信号を目的音信号として第１相関行列算出部１３２に出力し、非音声区間に係る入力信号を第２相関行列算出部１３３に出力する。よって、第１相関行列算出部１３２では、雑音推定部２３１から入力された音声区間に係る入力信号に基づいて相関行列Ｒ（ω，ｆ）が算出される。第２相関行列算出部１３３では、雑音推定部２３１から入力された非音声区間に係る入力信号である雑音信号に基づいて雑音相関行列Ｋ（ω，ｆ）が算出される。従って、窓長Ｔ_Ｒ、Ｔ_Ｎ（図３参照）を、それぞれ発話時において音声区間と非音声区間が交替する周期、例えば０．３秒よりも大きくすれば、相関行列Ｒ（ω，ｆ）又は雑音相関行列Ｋ（ω，ｆ）のうち、少なくとも一方が零行列とならない。そのため、固有ベクトル算出部１３４において、ゼロ除算又はゼロベクトルの算出が回避されるので音源方向推定部２３としての動作が安定する。

＜（２）定常雑音推定＞
雑音推定部２３１は、周波数分析部１３１から入力された入力信号に基づいて、例えば、ＨＲＬＥ（Ｈｉｓｔｏｇｒａｍ−ｂａｓｅｄＲｅｃｕｒｓｉｖｅＬｅｖｅｌＥｓｔｉｍａｔｉｏｎ）法を用いて定常雑音のパワーを算出する。ＨＲＬＥ法では、雑音推定部２３１は、周波数毎に対数領域におけるパワーのヒストグラム（頻度分布）を算出し、その累積分布に基づく累積頻度が予め定めた閾値（例えば、５０％）に対応するパワーを定常雑音のパワーとして算出する。雑音推定部２３１は、ＨＲＬＥ法に限らず、他の方法、例えばＭＣＲＡ（Ｍｉｎｉｍａ−ＣｏｎｔｒｏｌｌｅｄＲｅｃｕｒｓｉｖｅＡｖｅｒａｇｅ）法を用いて算出した定常雑音のパワーを算出してもよい。

その後、雑音推定部２３１は、算出した定常雑音のパワーを雑音信号として第２相関行列算出部１３３に出力する。雑音推定部２３１は、入力信号に係るパワーから定常雑音のパワーを減じて、目的音信号を算出する。雑音推定部２３１は、算出した目的音信号を第１相関行列算出部１３２に出力する。第１相関行列算出部１３２は、雑音推定部２３１から入力された目的音信号に基づいて相関行列Ｒ（ω，ｆ）を算出する。第２相関行列算出部１３３は、雑音推定部２３１から入力された雑音信号に基づいて雑音相関行列Ｋ（ω，ｆ）を算出される。従って、窓長Ｔ_Ｒ、Ｔ_Ｎ（図３参照）の大きさに関わらず、相関行列Ｒ（ω，ｆ）には雑音相関行列Ｋ（ω，ｆ）とは独立な成分が含まれる。また、遅延時間ｆ_ｓ（図３参照）が、ゼロであることが許容される。そのため、窓長Ｔ_Ｒ、Ｔ_Ｎや遅延時間ｆ_ｓによる処理遅延を低減することができる。

これらの例において、固有ベクトル算出部１３４、空間スペクトル算出部１３５、及び音源定位部１３６は、音声区間に属するフレームｆについて、それぞれＭ個の固有ベクトルの算出、平均化空間スペクトル＜Ｐ（ψ，ｆ）＞、音源方向ψの選択を行ってもよい。処理対象に非音声区間に属するフレームｆが含まれないため、目的音として有意な音源方向ψを推定することができる。
なお、上述では、予め定めた目的音が人間の音声である場合を例にとって説明したが、本実施形態ではこれには限られない。雑音推定部２３１は、目的音又は雑音を逐次に判別もしくはこれらの成分を推定する処理を実行できれば、他の方法でも適用することができる。

（音源方向推定処理）
次に、本実施形態に係る音源方向推定処理について説明する。
図８は、本実施形態に係る音源方向推定処理を示すフローチャートである。
本実施形態に係る音源方向推定処理は、図６に示す音源方向推定処理にステップＳ２０１が加わった処理である。本実施形態に係る音源方向推定処理では、ステップＳ１０２が終了した後に、ステップＳ２０１を実行する。

（ステップＳ２０１）雑音推定部２３１は、周波数分析部１３１から入力された入力信号について、入力信号のうち雑音成分が主である雑音信号を推定する。雑音推定部２３１は、推定した雑音信号を第２相関行列算出部１３３に出力する。入力信号のうち目的音成分が主である目的音信号を第１相関行列算出部１３２に出力する。その後、ステップＳ１０３に進む。

以上、説明したように本実施形態では、雑音推定部２３１は、入力信号に基づいて雑音成分が主である雑音信号を推定する。第１相関行列算出部１３２が算出する相関行列には第２相関行列算出部１３３が算出する雑音相関行列と独立な成分が含まれる。そのため、本実施形態によれば、第１相関行列算出部１３２が相関行列を算出する際の窓長、第２相関行列算出部１３３が雑音相関行列を算出する際の窓長や遅延時間を小さくすることで、処理遅延を低減することができる。

（動作例）
次に、音響処理システム１（図１参照）の動作例について説明する。
図９は、収音部１１が備えるマイクロホン１１２−１が収録した音響信号の一例を示す図である。
図９において、横軸は時刻を示し、縦軸は周波数を示す。図９において、濃淡は音響信号のレベルの大きさを示す。明るく表示された部分ほど音響信号のレベルが高いことを示し、暗く表示された部分ほど音響信号のレベルが低いことを示す。

収音部１１を構成する移動体１１１（図４参照）の動作に伴い、移動体１１１が生ずる騒音の周波数特性は動的に変化する。最初の３秒間（時刻０秒―３秒）において移動体１１１が離陸し回転翼の回転速度が上昇する。これに対応して、騒音のピーク周波数が高くなる。例えば、時刻が０秒のとき、ピーク周波数は約１ｋＨｚであり、時刻が３秒のとき、ピーク周波数は約５ｋＨｚである。その後、収音部１１が空中を浮遊すると、騒音の周波数特性が安定する。例えば、時刻が５秒であるとき、ピーク周波数は約４ｋＨｚ前後である。

ここで、第１の実施形態に係る音響処理システム１（本実施形態）と従来技術（ＳＥＶＤ−ＭＵＳＩＣ、ＧＥＶＤ−ＭＵＳＩＣ）の動作例を比較する。
これらの３つの方式それぞれについて、次の項目（１）〜（３）について動作結果を示す。（１）音源方向毎の平均化空間スペクトル＜Ｐ（ψ，ｆ）＞、（２）平均化空間スペクトル＜Ｐ（ψ，ｆ）＞のヒストグラム、（３）音源方向を推定できた頻度に基づく指標値。

動作結果を比較するために、２名の話者にそれぞれ音源として発話させた。２名の話者の位置は、収音部１１から、それぞれ１．５ｍ離れた円周上の位置である。
また、収音部１１の位置について、（Ａ）屋内において固定（屋内・固定）、（Ｂ）屋内において飛行（屋内・飛行）、（Ｃ）屋外において固定（屋外・固定）、のそれぞれの動作条件で動作させた。ここで、「固定」とは、空中を浮遊しながら位置を変化させないこと（ホバリング、空中停止、ｈｏｖｅｒｉｎｇ）を指す。「飛行」とは、空中を浮遊しながら位置を変化させること（移動、ｍｏｖｉｎｇ）を指す。
以下では、特に断らない限り窓長Ｔ_Ｒ、Ｔ_Ｎ、遅延時間ｆ_ｓを、それぞれ５０フレーム、１００フレーム、２５フレームとし、１フレームを１０ｍｓとした

次に、平均化空間スペクトル＜Ｐ（ψ，ｆ）＞の例について説明する。図１０〜１２は、平均化空間スペクトル＜Ｐ（ψ，ｆ）＞を各動作条件（屋内・固定、屋内・飛行、屋外・固定）について示す図である。
図１０（ａ）〜（ｄ）、図１１（ａ）〜（ｄ）、図１２（ａ）〜（ｄ）のそれぞれにおいて、横軸は時刻を示し、縦軸は音源方向を示す。図１０（ａ）、図１１（ａ）、図１２（ａ）において、それぞれ分布している時刻方向にのびる実線及び破線は、現実の音源方向、つまり収音部１１を基準とした２名の話者の方向を示す。
図１０（ｂ）〜（ｄ）、図１１（ｂ）〜（ｄ）、図１２（ｂ）〜（ｄ）のそれぞれに分布し、時刻方向にのびる線分は、推定された音源方向を示す。図１０（ｂ）−（ｄ）、図１１（ｂ）〜（ｄ）、図１２（ｂ）〜（ｄ）に、それぞれＳＥＶＤ−ＭＵＳＩＣ、ＧＥＶＤ−ＭＵＳＩＣ、本実施形態において算出された平均化空間スペクトル＜Ｐ（ψ，ｆ）＞を濃淡で示す。いずれも、明るい部分ほど値が大きいことを示し、暗い部分ほど値が小さいことを示す。

図１０は、平均化空間スペクトル＜Ｐ（ψ，ｆ）＞の一例（屋内・固定）を示す図である。
図１０（ａ）は、一方の話者の方向が約３秒毎に４５°ずつ変化し、他方の話者の方向が、０°のまま変化しないことを示す。図１０（ａ）と（ｃ）もしくは（ｄ）を比較すると、話者の方向と推定された音源方向は、ほぼ一致する。このことから、図１０は、本実施形態やＧＥＶＤ−ＭＵＳＩＣでは概ね２名の話者の方向を推定できることを示す。他方、図１０（ａ）と（ｂ）を比較すると、話者の方向と推定された音源方向が異なる。即ち、図１０は、ＳＥＶＤ−ＭＵＳＩＣでは、２名の話者の方向がほとんど推定できなかったことを示す。

図１１は、平均化空間スペクトル＜Ｐ（ψ，ｆ）＞の他の例（屋内・飛行）を示す図である。
図１１（ａ）と（ｃ）もしくは（ｄ）を比較すると、図１０に示す例ほどではないが話者の方向と推定された音源方向は類似している。これは、本実施形態又はＧＥＶＤ−ＭＵＳＩＣでは音源方向を推定できるが、騒音の周波数特性が動的に変化するために音源方向の推定精度が低下していることを示す。但し、図１１（ｃ）は、（ｄ）よりも音源方向が１６０°付近に誤って推定する傾向がある点で、音源方向の推定精度が低下していることを示す。つまり、本実施形態は、ＧＥＶＤ−ＭＵＳＩＣよりも騒音の周波数特性の動的変化に追従できることを示す。なお、図１１（ａ）と（ｂ）を比較すると、話者の方向と推定された音源方向が異なっている。即ち、図１１は、ＳＥＶＤ−ＭＵＳＩＣでは音源方向が推定できなかったことを示す。

図１２は、平均化空間スペクトル＜Ｐ（ψ，ｆ）＞の更に他の例（屋外・固定）を示す図である。
図１２（ａ）は、一方の話者の方向が約３秒毎に４５°ずつ変化し、他方の話者の方向が、０°のまま変化しないことを示す。但し、一方の話者の方向が変化する方向は、図１０（ａ）に示す例とは、逆方向である。
図１２（ａ）と（ｄ）を比較すると、図１０、１１に示す例ほどではないが話者の方向と推定された音源方向は類似している。これは、本実施形態では音源方向を推定できるが、騒音のレベルが屋内よりも高いために音源方向の推定精度が低下していることを示す。図１２における動作条件では、図１０における動作条件よりも騒音レベルが１０〜１５ｄＢ高い。また、図１２（ａ）と（ｂ）もしくは（ｃ）を比較すると、話者の方向と推定された音源方向が異なる。つまり、図１２は、ＧＥＶＤ−ＭＵＳＩＣやＳＥＶＤ−ＭＵＳＩＣでは音源方向が推定できなかったことを示す。
これらの結果から、本実施形態では、従来技術よりも騒音の周波数特性の著しい場合や騒音レベルが高い場合でも、音源方向を推定できるようになったことを示す。

次に、正規化空間スペクトルのヒストグラムについて説明する。
図１３は、正規化空間スペクトルのヒストグラムの例を示す図である。
正規化空間スペクトルとは、平均化空間スペクトル＜Ｐ（ψ，ｆ）＞を正規化した値である。図１３（ａ）〜（ｃ）は、それぞれＳＥＶＤ−ＭＵＳＩＣ、ＧＥＶＤ−ＭＵＳＩＣ、本実施形態の例を示す。図１３（ａ）〜（ｃ）において、横軸は正規化空間スペクトル、縦軸は正規化度数を示す。正規化度数とは、正規化空間スペクトル毎の頻度（度数）を示す。横軸の正規化空間スペクトルは、最大値が１．０となるように正規化されている。縦軸の正規化度数は、正規化空間スペクトルがゼロから最大値までの累積頻度が１．０となるように正規化された頻度である。

正規化度数の分布の幅は、推定された方向以外の方向に音源として検知された雑音を抑圧できたことを示す指標である。この指標は、音源方向の推定精度を示す指標である。正規化度数の分布が狭いほど雑音を効果的に抑圧でき、正規化度数の分布が広いほど雑音を効果的に抑圧できないことを示す。
図１３は、（ｃ）、（ｂ）、（ｃ）の順に正規化度数の分布が狭いことを示す。このことは、本実施形態、ＧＥＶＤ−ＭＵＳＩＣ、ＳＥＶＤ−ＭＵＳＩＣの順に雑音を効果的に抑圧できること、言い換えれば高い精度で音源方向を推定できたことを示す。

図１４は、正規化度数の標準偏差を示す表である。
図１４は、推定方式がＳＥＶＤ−ＭＵＳＩＣ、ＧＥＶＤ−ＭＵＳＩＣ、本実施形態について正規化度数の標準偏差がそれぞれ、０．１４、０．１２、０．０５８であることを示す。このことも、本実施形態、ＧＥＶＤ−ＭＵＳＩＣ、ＳＥＶＤ−ＭＵＳＩＣの順に雑音を効果的に抑圧できることを示す。

次に、音源方向を推定できた頻度に基づく指標値について説明する。
指標値として、定位精度（ＬＡＲ：ＬｏｃａｌｉｚａｔｉｏｎＡｃｃｕｒａｃｙＲａｔｅ）と定位正解率（ＬＣＲ：ＬｏｃａｌｉｚａｔｉｏｎＣｏｒｒｅｃｔＲａｔｅ）を用いる。ＬＡＲ、ＬＣＲは、それぞれ次の式を用いて求めることができる。
ＬＡＲ＝（Ｎ−Ｓ−Ｄ−Ｉ）／Ｎ，ＬＣＲ＝（Ｎ−Ｓ−Ｄ）／Ｎ，
ここで、Ｎ、Ｓ、Ｄ、Ｉは、それぞれ総発話数、音源方向の推定を誤った発話の数、検出できなかった発話の数、余分に検出された発話数を示す。ＬＡＲは、最大値は１であるが、負の値になりうる。ＬＡＲでは、余分に検出された発話数も考慮されるためである。これに対し、ＬＣＲは、最大値は１であり、最小値が０である。ＬＣＲは、総発話数のうちの正解数の割合を示すためである。ここでは、音源方向の推定を誤ったとは、推定された音源方向と現実の音源方向との誤差が５°を越える場合をいう。

図１５は、定位精度及び定位正解率の一例を示す表である。
図１５において、各行は動作条件（屋内・固定、屋内・飛行、屋外・固定）を示し、各列は推定方式と、定位精度ならびに定位正解率指標値の組を示す。
動作条件に関わらずＬＡＲ、ＬＣＲともに、本実施形態、ＧＥＶＤ−ＭＵＳＩＣ、ＳＥＶＤ−ＭＵＳＩＣの順で高い値をとる。動作条件が屋外・固定である場合でも、ＬＡＲは１４％と低下するがＬＣＲは７１％と、低下の度合いが少ない。つまり、本実施形態では、屋外の騒音レベルが高いことが、余分に発話が検出される原因となる可能性があるが、現実になされた発話において音源方向が誤って推定される可能性が比較的少ないことを示す。つまり、本実施形態が災害時における捜索のように、漏れなく音源の位置を推定する用途に適していることを示す。

次に、窓長と遅延時間による平均化空間スペクトル＜Ｐ（ψ，ｆ）＞の差分値（以下、単に「差分値」と呼ぶ）の一例について説明する。差分値は、各動作条件について２名の発話者による発話があった区間（発話エリア）における平均化空間スペクトル＜Ｐ（ψ，ｆ）＞の平均値から、発話がなかった区間（非発話エリア）における平均化空間スペクトル＜Ｐ（ψ，ｆ）＞の平均値の差分値である。つまり、差分値は、目的音としての発話エリアと、雑音としての非発話エリアとが区別できる度合いを示す指標値である。差分値も方向推定精度を示す指標値である。

図１６は、差分値の例を示す図である。
図１６（ａ）〜（ｃ）は、動作条件がそれぞれ屋内・固定、屋内・飛行、屋外・固定の場合における差分値を示す。図１６（ａ）〜（ｃ）は、それぞれ２つの底辺が窓長Ｔ_Ｎ、遅延時間ｆ_ｓを示し、縦軸が差分値を示す３次元プロットである。但し、いずれの動作条件でも窓長Ｔ_Ｒは５０フレームである。図１６（ａ）〜（ｃ）それぞれにおいて、☆（星印）は差分値が最大となる窓長Ｔ_Ｎ及び遅延時間ｆ_ｓを示す点である。
図１６は、差分値の最大値は、屋内・固定、屋外・固定、屋内・飛行の順に大きいが、差分値の分布は、その順になだらかである。即ち、図１６は、屋内・固定、屋外・固定、屋内・飛行の順で方向推定精度が確保され、窓長Ｔ_Ｎ及び遅延時間ｆ_ｓの変化に対する影響が少ないことを裏付ける。屋内・飛行では、雑音の周波数特性が常に変動しているため、差分値の最大値を与える窓長Ｔ_Ｎや遅延時間ｆ_ｓが他の動作条件よりも小さい。図１６に示す例では、差分値の最大値を与える窓長Ｔ_Ｎと遅延時間ｆ_ｓの組は、Ｔ_Ｎ＝１３０フレーム、ｆ_ｓ＝１６０フレーム（屋内・固定）、Ｔ_Ｎ＝９０フレーム、ｆ_ｓ＝１４０フレーム（屋内・飛行）、Ｔ_Ｎ＝１３０フレーム、ｆ_ｓ＝１６０フレーム（屋外・固定）である。いずれも、Ｔ_Ｎ＞Ｔ_Ｒであり、かつ、ｆ_ｓ＞Ｔ_Ｒである。

上述した実施形態では、空間スペクトル算出部１３５がＧＥＶＤを用いて算出した固有ベクトルに基づいて空間スペクトルを算出する場合を例にとって説明したが、本実施形態では行列分解によって得られる基底ベクトルであれば、これには限られない。例えば、空間スペクトル算出部１３５は、この固有ベクトルの代わりに一般化特異値分解（ＧＳＶＤ：ＧｅｎｅｒａｌｉｚｅｄＳｉｎｇｕｌａｒＶａｌｕｅＤｅｃｏｍｐｏｓｉｔｉｏｎ）を用いて算出した特異ベクトルに基づいて空間スペクトルを算出してもよい。その場合には、音源方向推定部１３、２３は、固有ベクトル算出部１３４の代わりに特異ベクトル算出部（図示せず）を備える。特異ベクトル算出部は、上述の行列Ｋ（ω，ｆ）^−１Ｒ（ω，ｆ）についてＧＳＶＤを行ってＭ個の特異ベクトルε_１，…，ε_Ｍを算出し、算出した特異ベクトルε_１，…，ε_Ｍを空間スペクトル算出部１３５に出力する。空間スペクトル算出部１３５では、例えば、式（５）において固有ベクトルｅ_１，…，ｅ_Ｍの代わりに特異ベクトル算出部から入力された特異ベクトルε_１，…，ε_Ｍを用いて空間スペクトルＰ（ω，ψ，ｆ）を算出する。なお、ＧＳＶＤでは、特異値毎に右特異ベクトルと左特異ベクトルが算出される。空間スペクトルＰ（ω，ψ，ｆ）の算出においては、右特異ベクトルと左特異ベクトルのいずれを用いてもよい。

なお、上述した実施形態における音源方向推定部（音源方向推定装置）１３、２３の一部、例えば、周波数分析部１３１、第１相関行列算出部１３２、第２相関行列算出部１３３、固有ベクトル算出部１３４、空間スペクトル算出部１３５、音源定位部１３６、及び音源分離部１３７をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、音源方向推定部１３、２３に内蔵されたコンピュータシステムであって、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
また、上述した実施形態における音源方向推定部１３，２３の一部、または全部を、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）等の集積回路として実現しても良い。音源方向推定部１３、２３の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化しても良い。また、集積回路化の手法はＬＳＩに限らず専用回路、または汎用プロセッサで実現しても良い。また、半導体技術の進歩によりＬＳＩに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いても良い。

以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。

１、２…音響処理システム、１１…収音部、
１１１…移動体、１１２（１１２−１〜１１２−８）…マイクロホン、
１１３…信号処理部、１１４（１１４−１〜１１４−３）…反射体、
１２…音響信号受信部、１３、２３…音源方向推定部、
１３１…周波数分析部、１３２…第１相関行列算出部、１３３…第２相関行列算出部、
１３４…固有ベクトル算出部、１３５…空間スペクトル算出部、１３６…音源定位部、
１３７…音源分離部、２３１…雑音推定部、
１４…距離検出部、１５…距離情報受信部、１６…位置推定部、１７…座標変換部、
１８…音源方向出力部

Claims

入力された複数の音響信号の相関行列を算出する第１相関行列算出部と、
前記複数の音響信号に基づく雑音信号の相関行列を算出する第２相関行列算出部と、
前記第１相関行列算出部が算出した相関行列と、前記第２相関行列算出部が算出した相関行列に基づいて空間スペクトルを算出し、前記空間スペクトルを用いて前記複数のチャネルの音響信号に係る音源の方向を推定する音源定位部と、
を備えることを特徴とする音源方向推定装置。
前記第２相関行列算出部における前記雑音信号は、前記複数の音響信号を遅延させた信号であって、前記遅延に係る遅延時間は、前記第１相関行列算出部が相関行列の算出に用いる前記複数の音響信号の時間よりも長いことを特徴とする請求項１に記載の音源方向推定装置。
前記第２相関行列算出部が相関行列の算出に用いる前記雑音信号の時間は、前記第１相関行列算出部が相関行列の算出に用いる前記複数のチャネルの音響信号の時間よりも長いことを特徴とする請求項１に記載の音源方向推定装置。
前記入力された複数の音響信号から、予め定めた種類の目的音を含む目的音信号と前記目的音とは異なる成分である雑音成分を示す雑音信号を生成する雑音推定部を備え、
前記第１相関行列算出部は、前記入力された複数の音響信号として前記雑音推定部が生成した目的音信号を用いて相関行列を算出し、
前記第２相関行列算出部は、前記雑音信号として前記雑音推定部が生成した雑音信号を用いて相関行列を算出する
ことを特徴とする請求項１に記載の音源方向推定装置。
前記第１相関行列算出部が算出した相関行列に、前記第２相関行列算出部が算出した相関行列の逆行列を乗算した行列について一般化固有値展開を行って固有ベクトルを算出する固有ベクトル算出部を備え、
前記音源定位部は、音源の方向毎の伝達関数ベクトルのノルムを、前記固有ベクトル算出部が算出した固有ベクトルのうち予め定めた個数の固有ベクトルのそれぞれと当該伝達関数ベクトルとの内積の和で除算して算出する
ことを特徴とする請求項１から４のいずれかに記載の音源方向推定装置。
前記音源定位部は、前記空間スペクトルの周波数間の平均値である平均化空間スペクトルが極大値をとる方向を前記複数のチャネルの音響信号に係る音源の方向と推定することを特徴とする請求項１から５のいずれかに記載の音源方向推定装置。
複数のチャネルの音響信号を収録する収音部、前記収音部の位置を推定する位置推定部、及び前記収音部が収録した複数のチャネルの音響信号に係る音源の方向を推定する音源方向推定部と、を備える音響処理システムであって、
前記音源方向推定部は、
入力された複数の音響信号の相関行列を算出する第１相関行列算出部と、
前記複数の音響信号に基づく雑音信号の相関行列を算出する第２相関行列算出部と、
前記第１相関行列算出部が算出した相関行列と、前記第２相関行列算出部が算出した相関行列に基づいて空間スペクトルを算出し、前記空間スペクトルを用いて前記複数のチャネルの音響信号に係る音源の方向を推定する音源定位部と、
を備えることを特徴とする音響処理システム。
音源方向推定装置における音源方向推定方法であって、
前記音源方向推定装置は、
入力された複数の音響信号の相関行列を算出する第１相関行列算出過程と、
前記複数の音響信号に基づく雑音信号の相関行列を算出する第２相関行列算出過程と、
前記第１相関行列算出過程で算出した相関行列と、前記第２相関行列算出過程で算出した相関行列に基づいて空間スペクトルを算出し、前記空間スペクトルを用いて前記複数のチャネルの音響信号に係る音源の方向を推定する音源定位過程と、
を有することを特徴とする音源方向推定方法。
音源方向推定装置のコンピュータに、
入力された複数の音響信号の相関行列を算出する第１相関行列算出手順、
前記複数の音響信号に基づく雑音信号の相関行列を算出する第２相関行列算出手順、
前記第１相関行列算出手順で算出した相関行列と、前記第２相関行列算出手順で算出した相関行列に基づいて空間スペクトルを算出し、前記空間スペクトルを用いて前記複数のチャネルの音響信号に係る音源の方向を推定する音源定位手順、
を実行させるための音源方向推定プログラム。