JP6859235B2

JP6859235B2 - 音響処理装置、音響処理方法及びプログラム

Info

Publication number: JP6859235B2
Application number: JP2017172452A
Authority: JP
Inventors: 一博中臺; ダニエルガブリエル; 諒介小島
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2017-09-07
Filing date: 2017-09-07
Publication date: 2021-04-14
Anticipated expiration: 2037-09-07
Also published as: US10356520B2; JP2019049414A; US20190075393A1

Description

本発明は、音響処理装置、音響処理方法及びプログラムに関する。

環境理解において音環境の情報を取得することは重要である。従来から、音環境における種々の音源や雑音から特定の音源を検出するために、音源定位、音源分離、音源同定などの要素技術が提案されている。特定の音源は、例えば、鳥の鳴き声や人の発話など、ユーザである受聴者にとって有用な音である。音源定位とは、音源の方向や位置を推定することを意味する。推定された音源の方向や位置は、音源分離や音源同定の手掛かりとなる。

音源定位に関して、特許文献１には、複数のマイクロホンアレイを用いて音源位置を特定する音源追跡システムが開示されている。特許文献１に記載の音源追跡システムは、移動体に搭載されている第１マイクロホンアレイからの出力と、第１マイクロホンアレイの姿勢とに基づいて音源の位置又は方位を測定し、固定して配置されている第２マイクロホンアレイからの出力に基づいて音源の位置と速度を測定し、それぞれの測定結果を統合する。

特許第５１７０４４０号公報

しかしながら、各マイクロホンアレイで収音される音には、種々のノイズ、環境音が混入する。目的とする音源以外に、ノイズ、環境音など他の音源の方向が推定されるため、マイクロホンアレイごとに収音された複数の音源の方向が、マイクロホンアレイ間で正確に統合されるとは限らない。

本発明は上記の点に鑑みてなされたものであり、より正確に音源位置を推定することができる音響処理装置、音響処理方法及びプログラムを提供する。

（１）本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、位置が異なるＭ（Ｍは、３以上の整数）個の収音部のそれぞれから取得した複数チャネルの音響信号に基づいて音源の方向である定位音源方向を定める音源定位部と、３個の前記収音部の組のうち２個の前記収音部の対ごとに当該収音部のそれぞれから前記定位音源方向への直線の交点を定め、それぞれ定めた交点の重心を音源の位置の推定値である推定音源位置の初期値として定め、前記収音部の対ごとに当該収音部のそれぞれから前記推定音源位置への方向である推定音源方向への直線の交点を定め、前記交点の分布を複数のクラスタに分類し、前記推定音源位置が前記音源に対応するクラスタに分類される確率である推定確率がより高くなるように、前記推定音源位置と前記クラスタを一定にして当該推定確率が従う確率モデルのモデルパラメータを更新する処理と、前記推定確率がより高くなるように、前記モデルパラメータを一定にして前記推定音源位置と前記クラスタを更新する処理と、を行う音源位置推定部と、を備える音響処理装置である。

（２）本発明の他の態様は、（１）の音響処理装置であって、前記推定確率は、前記定位音源方向が定められるとき前記推定音源方向が得られる確率である第１確率と、前記交点が定められるとき前記推定音源位置が得られる確率である第２確率と、前記交点が分類されるクラスタの出現確率である第３確率と、をそれぞれ因子とする積である。

（３）本発明の他の態様は、（２）の音響処理装置であって、前記第１確率は、前記定位音源方向を基準とするフォン・ミーゼス分布に従い、前記第２確率は、前記交点の位置を基準とする多次元ガウス関数に従い、前記音源位置推定部は、前記推定確率がより高くなるように、前記フォン・ミーゼス分布の形状パラメータと、前記多次元ガウス関数の平均ならびに分散と、を更新する。

（４）本発明の他の態様は、（１）から（３）のいずれかの音響処理装置であって、前記複数チャネルの音響信号から音源ごとの音源別信号に分離する音源分離部と、前記音源別信号のスペクトルを算出する周波数分析部と、前記スペクトルを複数の第２クラスタに分類し、前記第２クラスタのそれぞれに分類される各スペクトルに係る音源が同一であるか否かを判定し、同一と判定した音源の前記推定音源位置を、同一でないと判定した音源の前記推定音源位置よりも優先して選択する音源特定部と、を備える。

（５）本発明の他の態様は、（４）の音響処理装置であって、前記音源特定部は、前記第２クラスタのそれぞれに分類されるスペクトルに係る音源の前記推定音源位置の分散に基づいて当該第２クラスタの安定性を評価し、前記安定性が高い第２クラスタほど当該第２クラスタにスペクトルが分類される音源の前記推定音源位置を優先して選択する。

（６）本発明の他の態様は、音響処理装置における音響処理方法であって、前記音響処理装置が、位置が異なるＭ（Ｍは、３以上の整数）個の収音部のそれぞれから取得した複数チャネルの音響信号に基づいて音源の方向である定位音源方向を定める音源定位過程と、３個の前記収音部の組のうち２個の前記収音部の対ごとに当該収音部のそれぞれから前記定位音源方向への直線の交点を定め、それぞれ定めた交点の重心を音源の位置の推定値である推定音源位置の初期値として定め、前記収音部の対ごとに当該収音部のそれぞれから前記推定音源位置への方向である推定音源方向への直線の交点を定め、前記交点の分布を複数のクラスタに分類し、前記推定音源位置が前記音源に対応するクラスタに分類される確率である推定確率がより高くなるように、前記推定音源位置と前記クラスタを一定にして当該推定確率が従う確率モデルのモデルパラメータを更新する処理と、前記推定確率がより高くなるように、前記モデルパラメータを一定にして前記推定音源位置と前記クラスタを更新する処理と、を行う音源位置推定過程と、を有する音響処理方法である。

（７）本発明の他の態様は、位置が異なるＭ（Ｍは、３以上の整数）個の収音部のそれぞれから取得した複数チャネルの音響信号に基づいて音源の方向である定位音源方向を定める音源定位手順と、３個の前記収音部の組のうち２個の前記収音部の対ごとに当該収音部のそれぞれから前記定位音源方向への直線の交点を定め、それぞれ定めた交点の重心を音源の位置の推定値である推定音源位置の初期値として定め、前記収音部の対ごとに当該収音部のそれぞれから前記推定音源位置への方向である推定音源方向への直線の交点を定め、前記交点の分布を複数のクラスタに分類し、前記推定音源位置が前記音源に対応するクラスタに分類される確率である推定確率がより高くなるように、前記推定音源位置と前記クラスタを一定にして当該推定確率が従う確率モデルのモデルパラメータを更新する処理と、前記推定確率がより高くなるように、前記モデルパラメータを一定にして前記推定音源位置と前記クラスタを更新する処理と、を行う音源位置推定手順と、を実行させるためのプログラムである。

上述した（１）、（６）、（７）の構成によれば、それぞれ異なる収音部からの定位音源方向により定まる交点が分類されるクラスタの範囲内に、対応する音源の推定音源位置が分類される可能性が高くなるように推定音源位置が調整される。クラスタの範囲内に音源が存在する可能性が高くなるので、調整される推定音源位置がより正確な音源位置として得られる。また、推定音源位置の初期値を、音源が存在する可能性が高い３個の交点をそれぞれ頂点とする三角形の領域内に設定することができる。そのため、調整による推定音源位置の変化が収束するまでの計算負荷が低減する。

一般に、定位音源方向、推定音源位置及び交点は相互に依存するが、（２）の音源位置推定部は、第１確率、第２確率及び第３確率をそれぞれ独立な推定確率の因子として推定音源位置を定めることができる。そのため、（２）の構成によれば、推定音源位置の調整に係る計算負荷が低減する。

上述した（３）の構成によれば、第１確率の推定音源方向の関数、第２確率の推定音源位置の関数が、それぞれ形状パラメータ、平均ならびに分散といった少数のパラメータで表される。そのため、推定音源位置の調整に係る計算負荷がさらに低減する。

上述した（４）の構成によれば、スペクトルに基づいて同一と判定されなかった音源の定位音源方向の交点に基づいて推定された推定音源位置が棄却される可能性が高くなる。そのため、互いに異なる音源の推定音源方向の交点に基づいて推定音源位置が虚像として誤って選択される可能性を低くすることができる。

上述した（５）の構成によれば、推定音源位置が定常的な音源のスペクトルが分類される第２クラスタに対応する音源の推定音源位置が選択される可能性が高くなる。即ち、推定音源位置が選択される第２クラスタには、偶発的に互いに異なる音源の推定音源方向の交点に基づいて推定される推定音源位置が含まれる可能性が低くなる。そのため、互いに異なる音源の推定音源方向の交点に基づいて推定音源位置が虚像として誤って選択される可能性をさらに低くすることができる。

本発明の実施形態に係る音響処理システムの構成を示すブロック図である。マイクロホンアレイの配置と推定される音源方向の一例を示す図である。各マイクロホンアレイから推定される音源方向の組に基づく交点の一例を示す図である。本実施形態に係る初期値設定処理の一例を示すフローチャートである。音源方向の組に基づく交点から定められる推定音源位置の初期値の一例を示す図である。本実施形態に係る確率モデルの概念図である。本実施形態に係る音源方向探索の説明図である。本実施形態に係る音源位置更新処理の一例を示すフローチャートである。虚像の検出例を示す図である。本実施形態に係る周波数分析処理の一例を示すフローチャートである。本実施形態に係るスコア算出処理の一例を示すフローチャートである。本実施形態に係る音源選択処理の一例を示すフローチャートである。本実施形態に係る音響処理の一例を示すフローチャートである。処理対象のデータ区間の例を示す図である。

以下、図面を参照しながら本発明の実施形態について説明する。
図１は、本実施形態に係る音響処理システムＳ１の構成を示すブロック図である。
音響処理システムＳ１は、音響処理装置１と、Ｍ個の収音部２０と、を含んで構成される。図１において、収音部２０−１、２０−２、…、２０−Ｍは、個々の収音部２０を示す。

音響処理装置１は、Ｍ個の収音部２０のそれぞれから取得した複数チャネルの音響信号について音源定位を行い、各音源の音源方向である定位音源方向を推定する。音響処理装置１は、Ｍ個の収音部２０のうち２個の収音部２０の組ごとに、それぞれの収音部の位置から各音源の推定音源方向への直線の交点を定める。推定音源方向は、それぞれの収音部２０から推定される音源の方向を意味する。推定される音源の位置を推定音源位置と呼ぶ。音響処理装置１は、定めた交点の分布についてクラスタリングを行い複数のクラスタに分類する。音響処理装置１は、推定音源位置が、その音源に対応するクラスタに分類される確率である推定確率が高くなるように推定音源位置を更新する。音響処理装置１の構成例については、後述する。

Ｍ個の収音部２０は、それぞれ異なる位置に配置される。個々の収音部２０は、それぞれ自部に到来した音を収音し、収音した音からＱ（Ｑは、２以上の整数）チャネルの音響信号を生成する。個々の収音部２０は、例えば、所定の領域内にそれぞれ異なる位置に配置されたＱ個のマイクロホン（電気音響変換素子）を含んで構成されるマイクロホンアレイである。個々の収音部２０について、各マイクロホンが配置される領域の形状は任意である。領域の形状は、四角形、円形、球形、楕円形、など、いずれであってもよい。個々の収音部２０は、取得したＱチャネルの音響信号を音響処理装置１に出力する。個々の収音部２０は、Ｑチャネルの音響信号を無線又は有線で送信するための入出力インタフェースを備えてもよい。個々の収音部２０は一定の空間を占めるが、特に断らない限り、収音部２０の位置とは、その空間を代表する一点（例えば、重心）の位置を意味する。
なお、収音部２０をマイクロホンアレイｍと呼ぶことがある。また、個々のマイクロホンアレイｍを、マイクロホンアレイｍ_ｋ等と、インデックスｋ等を付して区別することがある。

（音響処理装置）
次に、音響処理装置１の構成例について説明する。
音響処理装置１は、入力部１０、初期処理部１２、音源位置推定部１４、音源特定部１６及び出力部１８を含んで構成される。
入力部１０は、各マイクロホンアレイｍから入力されるＱチャネルの音響信号を初期処理部１２に出力する。入力部１０は、例えば、入出力インタフェースを含んで構成される。
入力部１０には、マイクロホンアレイｍは別個の機器、例えば、録音機などの記憶媒体、コンテンツ編集装置、電子計算機などの機器を備え、これらのいずれかの機器から各マイクロホンアレイｍが取得したＱチャネルの音響信号が入力されてもよい。その場合には、音響処理システムＳ１においてマイクロホンアレイｍが省略されてもよい。

初期処理部１２（ＩｎｉｔｉａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）は、音源定位部１２０、音源分離部１２２及び周波数分析部１２４を含んで構成される。
音源定位部１２０は、入力部１０から入力され、各マイクロホンアレイｍ_ｋから取得されたＱチャネルの音響信号に基づいて音源定位を行って、各音源の方向を予め定めた長さのフレーム（例えば、１００ｍｓ）ごとに推定する。音源定位部１２０は、音源定位において、例えば、ＭＵＳＩＣ（ＭｕｌｔｉｐｌｅＳｉｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ；多重信号分類）法を用いて方向ごとのパワーを示す空間スペクトルを算出する。音源定位部１２０は、空間スペクトルに基づいて音源ごとの音源方向を定める。音源定位部１２０は、マイクロホンアレイｍごとに定めた各音源の音源方向を示す音源方向情報と、そのマイクロホンアレイｍが取得したＱチャネルの音響信号を対応付けて音源分離部１２２に出力する。ＭＵＳＩＣ法については、後述する。

この段階において定められる音源数は、フレームごとに異なりうる。定められる音源数は、０個、１個、複数個のいずれにもなりうる。なお、以下の説明では、音源定位によって定めた音源方向を定位音源方向と呼ぶことがある。また、マイクロホンアレイｍ_ｋが取得した音響信号に基づいて定められた音源ごとの定位音源方向を定位音源方向ｄ_ｍｋと呼ぶことがある。音源定位部１２０が検出可能とする音源数の最大値である検出可能音源数を単に音源数Ｄ_ｍと呼ぶことがある。Ｄ_ｍ個の音源のうち、マイクロホンアレイｍ_ｋから取得された音響信号に基づいて特定される１個の音源を音源δ_ｋと呼ぶことがある。

音源分離部１２２には、音源定位部１２０からマイクロホンアレイｍごとの音源方向情報とＱチャネルの音響信号が入力される。音源分離部１２２は、各マイクロホンアレイｍについて、Ｑチャネルの音響信号を音源方向情報が示す定位音源方向に基づいて音源ごとの成分を示す音源別音響信号に分離する。音源分離部１２２は、音源別音響信号に分離する際、例えば、ＧＨＤＳＳ（Ｇｅｏｍｅｔｒｉｃ−ｃｏｎｓｔｒａｉｎｅｄＨｉｇｈ−ｏｒｄｅｒＤｅｃｏｒｒｅｌａｔｉｏｎ−ｂａｓｅｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎ）法を用いる。音源分離部１２２は、各マイクロホンアレイｍについて、分離した音源ごとの音源別音響信号とその音源の定位音源方向を示す音源方向情報を対応付けて周波数分析部１２４と音源位置推定部１４に出力する。ＧＨＤＳＳ法については、後述する。

周波数分析部１２４には、各マイクロホンアレイｍについて音源ごとの音源別音響信号と音源方向情報が対応付けて入力される。周波数分析部１２４は、個々のマイクロホンアレイｍに係る音響信号から分離された各音源の音源別音響信号を所定の時間長（例えば、１２８点）のフレームごとに周波数分析を行ってスペクトル［Ｆ_ｍ，１］、［Ｆ_ｍ，２］〜［Ｆ_ｍ，ｓｍ］を算出する。［…］は、ベクトル、行列など複数の値からなるセットを示す。ｓ_ｍは、マイクロホンアレイｍが取得した音響信号から音源定位ひいては音源分離により推定された音源の音源数を示す。ここで、スペクトル［Ｆ_ｍ，１］、［Ｆ_ｍ，２］〜［Ｆ_ｍ，ｓｍ］は、それぞれ行ベクトルである。周波数分析において、周波数分析部１２４は、例えば、各音源別音響信号に１２８点のハミング窓を作用して得られる信号に短時間フーリエ変換（ＳＴＦＴ：ＳｈｏｒｔＴｅｒｍＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を行う。周波数分析部１２４は、時間的に隣接するフレームを重複させ、分析対象の区間をなすフレームを逐次にシフトさせる。周波数分析の単位であるフレームの要素数が１２８点である場合、個々のスペクトルの要素数は６５点となる。隣接するフレームが重複する区間内の要素数は、例えば、３２点である。

周波数分析部１２４は、音源ごとのスペクトルを行間で統合して式（１）に示すマイクロホンアレイｍごとのスペクトル行列［Ｆ_ｍ］（ｍは、１からＭまでの間の整数）を構成する。周波数分析部１２４は、構成したスペクトル行列［Ｆ_１］、［Ｆ_２］、〜［Ｆ_Ｍ］を、さらに行間で統合して式（２）に示すスペクトル行列［Ｆ］を構成する。周波数分析部１２４は、構成したスペクトル行列［Ｆ］と、各音源の定位音源方向を示す音源方向情報とを対応付けて音源特定部１６に出力する。

音源位置推定部１４は、初期値設定部１４０と、音源位置更新部１４２と、を含んで構成される。
初期値設定部１４０は、音源分離部１２２から入力されるマイクロホンアレイｍごとの音源方向情報に基づいて三角分割法（ｔｒｉａｎｇｕｌａｔｉｏｎ）を用いて音源の候補として推定される位置である推定音源位置の初期値を定める。三角分割法は、Ｍ個のうち３個のマイクロホンアレイの組から定められ、ある音源の候補に係る３個の交点（ｉｎｔｅｒｓｅｃｔｉｏｎ）の重心を、その音源の推定音源位置の初期値として定める手法である。以下の説明では、音源の候補を音源候補と呼ぶ。交点は、３個のマイクロホンアレイｍのうち２個のマイクロホンアレイｍの組ごとに、各マイクロホンアレイｍの位置を通り、そのマイクロホンアレイｍが取得された音響信号に基づいて推定された定位音源方向への直線が交わる点である。初期値設定部１４０は、音源候補ごとの推定音源位置の初期値を示す初期推定音源位置情報を音源位置更新部１４２に出力する。初期値設定処理の例については、後述する。

音源位置更新部１４２は、各２個のマイクロホンアレイｍの組ごとに、それぞれのマイクロホンアレイｍから、そのマイクロホンアレイｍに基づく定位音源方向に係る音源候補の推定音源方向への直線の交点を定める。推定音源方向とは、推定音源位置への方向を意味する。音源位置更新部１４２は、定めた交点の空間分布についてクラスタリングを行い複数のクラスタ（群）に分類する。音源位置更新部１４２は、音源候補ごとの推定音源位置がそれぞれの音源候補に対応するクラスタに分類される確率である推定確率が高くなるように、その推定音源位置を更新する。

音源位置更新部１４２は、音源候補ごとの推定音源位置の初期値として、初期値設定部１４０から入力される初期推定音源位置情報が示す推定音源位置の初期値を用いる。音源位置更新部１４２は、推定音源位置もしくは推定音源方向の更新量が所定の更新量の閾値未満となったとき、推定音源位置もしくは推定音源方向の変化が収束したと判定し、推定音源位置の更新を停止する。音源位置更新部１４２は、音源候補ごとの推定音源位置を示す推定音源位置情報を音源特定部１６に出力する。更新量が所定の更新量の閾値以上であるとき、音源位置更新部１４２は、音源候補ごとの推定音源位置を更新する処理を継続する。推定音源位置の更新処理の例については、後述する。

音源特定部１６は、分散算出部１６０と、スコア算出部１６２と、音源選択部１６４と、を含んで構成される。
分散算出部１６０には、周波数分析部１２４からスペクトル行列［Ｆ］と音源方向情報が入力され、音源位置推定部１４から推定音源位置情報が入力される。
分散算出部１６０は、次に説明する処理を所定の回数繰り返す。繰り返し回数Ｒは、予め分散算出部１６０に設定しておく。

分散算出部１６０は、スペクトル行列［Ｆ］が示す収音部２０ごとの各音源のスペクトルについてクラスタリングを行い、複数のクラスタ（群）に分類する。分散算出部１６０が実行するクラスタリングは、音源位置更新部１４２が実行するクラスタリングと独立である。分散算出部１６０は、クラスタリングの手法として、例えば、ｋ−平均法（ｋ−ｍｅａｎｓｃｌｕｓｔｅｒｉｎｇ）を用いる。ｋ−平均法では、クラスタリングの対象とする複数のデータのそれぞれをランダムにｋ個のクラスタに割り当てる。分散算出部１６０は、各繰り返し回数ｒにおいてスペクトルごとの初期値として、割り当てられるクラスタを変更する。以下の説明では、分散算出部１６０が分類したクラスタを第２クラスタと呼ぶ。分散算出部１６０は、第２クラスタのそれぞれに属する複数のスペクトルの類似度を示す指標値を算出する。分散算出部１６０は、算出した指標値が所定の類似度を示す指標値よりも高いか否かにより、各スペクトルに係る音源候補が同一であるか否かを判定する。

音源候補が同一と判定した第２クラスタに対応する音源候補について、分散算出部１６０は、その推定音源位置情報が示すその音源候補の推定音源位置の分散を算出する。後述するように、この段階では、第２クラスタの個数よりも、音源位置更新部１４２が音源位置を更新する音源候補の個数の方が多くなる可能性があるためである。分散算出部１６０は、例えば、第２クラスタについて現在の繰り返し回数ｒにおいて算出した分散が、前回の繰り返し回数ｒ−１において算出した分散より大きいとき、スコアを０とする。分散算出部１６０は、その第２クラスタについて現在の繰り返し回数ｒにおいて算出した分散が、前回の繰り返し回数ｒ−１において算出した分散と等しいか、より小さいとき、スコアをεとする。εは、例えば、所定の正の実数である。分散の増加の頻度が多いほど、第２クラスタに分類される推定音源位置が繰り返し回数により異なる、つまり、第２クラスタとしての安定性が低くなる。言い換えれば、設定されるスコアは、第２クラスタの安定性を示す。音源選択部１６４において、スコアが高い第２クラスタほど対応する音源候補の推定音源位置が優先して選択される。

他方、音源候補が同一ではないと判定した第２クラスタについて、分散算出部１６０は、対応する音源候補がないと判定し、その推定音源位置の分散が有効ではないと判定し、スコアをδとする。δは、例えば、０より小さい負の実数である。これにより、音源選択部１６４において、音源候補が同一と判定した音源候補に係る推定音源位置が、同一と判定しなかった音源候補よりも優先して選択される。
分散算出部１６０は、第２クラスタごとの各繰り返し回数のスコアと推定音源位置を示すスコア算出情報をスコア算出部１６２に出力する。

スコア算出部１６２は、分散算出部１６０から入力されるスコア算出情報に基づいて第２クラスタに対応する音源候補ごとの最終スコアを算出する。ここで、スコア算出部１６２は、第２クラスタごとに有効な分散を定めた回数である有効を計数し、各回のスコアの合計値を算出する。スコアの合計値は、各回で分散が増加する回数である有効回数が多いほど大きくなる。即ち、第２クラスタの安定性が高いほど、スコアの合計値が大きくなる。なお、この段階では、１個の推定音源位置が複数の第２クラスタにまたがる場合がある。そこで、スコア算出部１６２は、推定音源位置ごとのスコアの合計値の総和を、計数した有効回数の総和で除算してその推定音源位置に対応する音源候補の最終スコアを算出する。スコア算出部１６２は、算出した音源候補の最終スコアと推定音源位置を示す最終スコア情報を音源選択部１６４に出力する。

音源選択部１６４は、スコア算出部１６２から入力される最終スコア情報が示す音源候補の最終スコアが、所定の最終スコアの閾値θ_２以上となる音源候補を音源として選択する。音源選択部１６４は、最終スコアが、閾値θ_２未満となる音源候補を棄却する。音源選択部１６４は、選択した音源について、音源ごとの推定音源位置を示す出力音源位置情報を出力部１８に出力する。

出力部１８は、音源選択部１６４から入力される出力音源位置情報を、音響処理装置１の外部に出力する。出力部１８は、例えば、入出力インタフェースを含んで構成される。出力部１８と入力部１０とは、共通のハードウェアで構成されてもよい。出力部１８は、出力音源位置情報を表示する表示部（例えば、ディスプレイ）を備えてもよい。音響処理装置１は、出力部１８とともに、又は出力部１８に代えて、出力音源位置情報を記憶する記憶媒体を含んで構成されてもよい。

（ＭＵＳＩＣ法）
次に、音源定位の一手法であるＭＵＳＩＣ法について説明する。
ＭＵＳＩＣ法は、以下に説明する空間スペクトルのパワーＰ_ｅｘｔ（ψ）が極大であって、所定のレベルよりも高い方向ψを定位音源方向として定める手法である。音源定位部１２０が備える記憶部には、予め所定の間隔（例えば、５°）で分布した方向ψごとの伝達関数を記憶させておく。本実施形態では、次に説明する処理をマイクロホンアレイｍごとに実行する。

音源定位部１２０は、音源から各チャネルｑ（ｑは、１以上Ｑ以下の整数）に対応するマイクロホンまでの伝達関数Ｄ_［ｑ］（ω）を要素とする伝達関数ベクトル［Ｄ（ψ）］を方向ψごとに生成する。
音源定位部１２０は、各チャネルｑの音響信号ξ_ｑを所定の要素数からなるフレームごとに周波数領域に変換することによって変換係数ξ_ｑ（ω）を算出する。音源定位部１２０は、算出した変換係数を要素として含む入力ベクトル［ξ（ω）］から式（３）に示す入力相関行列［Ｒ_ξξ］を算出する。

式（３）において、Ｅ［…］は、…の期待値を示す。［…］は、…が行列又はベクトルであることを示す。［…］^＊は、行列又はベクトルの共役転置（ｃｏｎｊｕｇａｔｅｔｒａｎｓｐｏｓｅ）を示す。
音源定位部１２０は、入力相関行列［Ｒ_ξξ］の固有値δ_ｐ及び固有ベクトル［ε_ｐ］を算出する。入力相関行列［Ｒ_ξξ］、固有値δ_ｐ、及び固有ベクトル［ξ_ｐ］は、式（４）に示す関係を有する。

式（４）において、ｐは、１以上Ｑ以下の整数である。インデックスｐの順序は、固有値δ_ｐの降順である。
音源定位部１２０は、伝達関数ベクトル［Ｄ（ψ）］と算出した固有ベクトル［ε_ｐ］に基づいて、式（５）に示す周波数別空間スペクトルのパワーＰ_ｓｐ（ψ）を算出する。

式（５）において、Ｄ_ｍは、検出可能とする音源の最大個数（例えば、２）であって、Ｑよりも小さい予め定めた自然数である。
音源定位部１２０は、Ｓ／Ｎ比が予め定めた閾値（例えば、２０ｄＢ）よりも大きい周波数帯域における空間スペクトルＰ_ｓｐ（ψ）の総和を全帯域の空間スペクトルのパワーＰ_ｅｘｔ（ψ）として算出する。

なお、音源定位部１２０は、ＭＵＳＩＣ法に代えて、その他の手法を用いて定位音源方向を算出してもよい。例えば、重み付き遅延和ビームフォーミング（ＷＤＳ−ＢＦ：ＷｅｉｇｈｔｅｄＤｅｌａｙａｎｄＳｕｍＢｅａｍＦｏｒｍｉｎｇ）法が利用可能である。ＷＤＳ−ＢＦ法は、式（６）に示すように各チャネルｑの全帯域の音響信号ξ_ｑ（ｔ）の遅延和の二乗値を空間スペクトルのパワーＰ_ｅｘｔ（ψ）として算出し、空間スペクトルのパワーＰ_ｅｘｔ（ψ）が極大となる定位音源方向ψを探索する手法である。

式（６）において［Ｄ（ψ）］の各要素が示す伝達関数は、音源から各チャネルｑ（ｑは、１以上Ｑ以下の整数）に対応するマイクロホンまでの位相の遅延による寄与を示す。［ξ（ｔ）］は、時刻ｔの時点における各チャネルｑの音響信号ξ_ｑ（ｔ）の信号値を要素とするベクトルである。

（ＧＨＤＳＳ法）
次に、音源分離の一手法であるＧＨＤＳＳ法について説明する。
ＧＨＤＳＳ法は、２つのコスト関数（ｃｏｓｔｆｕｎｃｔｉｏｎ）として、分離尖鋭度（ＳｅｐａｒａｔｉｏｎＳｈａｒｐｎｅｓｓ）Ｊ_ＳＳ（［Ｖ（ω）］）と幾何制約度（ＧｅｏｍｅｔｒｉｃＣｏｎｓｔｒａｉｎｔ）Ｊ_ＧＣ（［Ｖ（ω）］）が、それぞれ減少するように分離行列［Ｖ（ω）］を適応的に算出する方法である。本実施形態では、各マイクロホンアレイｍが取得した音響信号のそれぞれから音源別音響信号を分離する。

分離行列［Ｖ（ω）］は、音源定位部１２０から入力されたＱチャネルの音響信号［ξ（ω）］に乗じることによって、検出される最大Ｄ_ｍ個の音源それぞれの音源別音響信号（推定値ベクトル）［ｕ’（ω）］を算出するために用いられる行列である。ここで、［…］^Ｔは、行列又はベクトルの転置を示す。

分離尖鋭度Ｊ_ＳＳ（［Ｖ（ω）］）、幾何制約度Ｊ_ＧＣ（［Ｖ（ω）］）は、それぞれ、式（７）、（８）のように表される。

式（７）、（８）において、｜｜…｜｜^２は、行列…のフロベニウスノルム（Ｆｒｏｂｅｎｉｕｓｎｏｒｍ）である。フロベニウスノルムとは、行列を構成する各要素値の二乗和（スカラー値）である。φ（［ｕ’（ω）］）は、音源別音響信号［ｕ’（ω）］の非線形関数、例えば、双曲線正接関数（ｈｙｐｅｒｂｏｌｉｃｔａｎｇｅｎｔｆｕｎｃｔｉｏｎ）である。ｄｉａｇ［…］は、行列…の対角成分の総和を示す。従って、分離尖鋭度Ｊ_ＳＳ（［Ｖ（ω）］）は、音源別音響信号（推定値）のスペクトルのチャネル間非対角成分の大きさ、つまり、ある１つの音源が他の音源として誤って分離される度合いを表す指標値である。また、式（８）において、［Ｉ］は、単位行列を示す。従って、幾何制約度Ｊ_ＧＣ（［Ｖ（ω）］）とは、音源別音響信号（推定値）のスペクトルと音源別音響信号（音源）のスペクトルとの誤差の度合いを表す指標値である。

（初期値の設定）
次に、初期値の設定の例について説明する。各２個のマイクロホンアレイｍに基づいて定められる交点は、理想的には各音源の音源位置と等しくなるはずである。図２は、互いに異なる位置に設置されたマイクロホンアレイＭＡ_１、ＭＡ_２、ＭＡ_３のそれぞれが取得した音響信号に基づいて音源Ｓの定位音源方向が推定される場合を例にする。この例では、マイクロホンアレイＭＡ_１、ＭＡ_２、ＭＡ_３の位置を通り、それぞれのマイクロホンアレイが取得した音響信号に基づいて推定された定位音源方向への直線が定められる。これらの３本の直線は、音源Ｓの位置において一点に交わる。

しかしながら、音源Ｓの定位音源方向には誤差が含まれる。現実的には、図３に示すように１つの音源に係る交点Ｐ_１、Ｐ_２、Ｐ_３の位置が互いに異なる。交点Ｐ_１は、マイクロホンアレイＭＡ_１、ＭＡ_２の位置を通り、それぞれのマイクロホンアレイＭＡ_１、ＭＡ_２が取得した音響信号から推定された音源Ｓの定位音源方向の直線の交点である。交点Ｐ_２は、マイクロホンアレイＭＡ_２、ＭＡ_３の位置を通り、それぞれのマイクロホンアレイＭＡ_２、ＭＡ_３が取得した音響信号から推定された音源Ｓの定位音源方向の直線の交点である。交点Ｐ_３は、マイクロホンアレイＭＡ_１、ＭＡ_３の位置を通り、それぞれのマイクロホンアレイＭＡ_１、ＭＡ_３が取得した音響信号から推定された音源Ｓの定位音源方向の直線の交点である。同一の音源Ｓについて、各マイクロホンアレイが取得した音響信号から推定される定位音源方向の誤差がランダムであれば、真の音源位置は、交点Ｐ_１、Ｐ_２、Ｐ_３のそれぞれを頂点とする三角形の内部の領域にあることが期待される。そこで、初期値設定部１４０は、交点Ｐ_１、Ｐ_２、Ｐ_３間の重心を、音源Ｓの候補である音源候補の推定音源位置の初期値ｘ_ｎとして定める。

但し、音源定位部１２０が各マイクロホンアレイｍから取得した音響信号から推定する音源方向の数は、１個には限らず、複数になることがある。そのため、交点Ｐ_１、Ｐ_２、Ｐ_３は、互いに同一の音源Ｓの方向に基づいて定められるとは限らない。そこで、初期値設定部１４０は、３個の交点Ｐ_１、Ｐ_２、Ｐ_３のうち、各２個の交点間の距離Ｌ_１２、Ｌ_２３、Ｌ_１３が、いずれも予め定めた距離の閾値θ_１未満であるか、少なくとも交点間の距離のいずれかが、その閾値θ_１以上となる距離が存在するか否かを判定する。いずれも閾値θ_１未満と判定するとき、初期値設定部１４０は、それらの交点Ｐ_１、Ｐ_２、Ｐ_３の重心を音源候補ｎの音源位置の初期値ｘ_ｎとして採用する。初期値設定部１４０は、少なくとも交点間の距離のいずれかが、その閾値θ_１以上となる場合、交点Ｐ_１、Ｐ_２、Ｐ_３の重心を音源位置の初期値ｘ_ｎとして定めずに、棄却する。

ここで、音源位置推定部１４には、Ｍ個のマイクロホンアレイＭＡ_１，ＭＡ_２，…，ＭＡ_Ｍのそれぞれの位置ｕ_ＭＡ１，ｕ_ＭＡ２，…，ｕ_ＭＡＭを、予め設定させておく。個々のマイクロホンアレイｍの位置ｕ_ＭＡ１，ｕ_ＭＡ２，…，ｕ_ＭＡＭを要素とする位置ベクトル［ｕ］は、式（９）で表わされる。

式（９）において、マイクロホンアレイｍの位置ｕ_ＭＡｍ（ｍは、１からＭの間の整数）は、ｘ座標ｕ_ＭＡｘｍ、ｙ座標ｕ_ＭＡｙｍを要素値とする２次元の座標［ｕ_ＭＡｘｍ，ｕ_ＭＡｙｍ］である。
上述したように、音源定位部１２０は、各マイクロホンアレイＭＡ_ｍが取得したＱチャネルの音響信号から、それぞれ最大Ｄ_ｍ個の定位音源方向ｄ’_ｍ（１），ｄ’_ｍ（２），…，ｄ’_ｍ（Ｄ_ｍ）をフレームごとに定める。定位音源方向ｄ’_ｍ（１），ｄ’_ｍ（２），…，ｄ’_ｍ（Ｄ_ｍ）を要素とするベクトル［ｄ’］は、式（１０）で表わされる。

次に、本実施形態に係る初期値設定処理の一例について説明する。
図４は、本実施形態に係る初期値設定処理の一例を示すフローチャートである。
（ステップＳ１６２）初期値設定部１４０は、三角分割法においてＭ個のマイクホンアレイから互いに異なる３個のマイクロホンアレイｍ_１、ｍ_２、ｍ_３の組（ｔｒｉｐｌｅｔ）を選択する。その後、ステップＳ１６４の処理に進む。
（ステップＳ１６４）初期値設定部１４０は、選択した３個の組のマイクロホンアレイｍ_１、ｍ_２、ｍ_３のそれぞれについて、それぞれのマイクロホンアレイが取得した音響信号に基づいて推定された最大Ｄ_ｍ個の音源から各１個の音源δ_１、δ_２、δ_３の定位音源方向ｄ’_ｍ１（δ_１）、ｄ’_ｍ２（δ_２）、ｄ’_ｍ３（δ_３）を選択する。選択された３個の定位音源方向ｄ’_ｍ１（δ_１）、ｄ’_ｍ２（δ_２）、ｄ’_ｍ３（δ_３）を要素とする方向ベクトル［ｄ”］は、式（１１）で表される。なお、δ_１、δ_２、δ_３は、それぞれ１からＤ_ｍの間の整数である。

初期値設定部１４０は、３個のマイクロホンアレイのうち各２つのマイクロホンアレイの組（対；ｐａｉｒ）について、それぞれのマイクロホンアレイを通り、それぞれのマイクロホンアレイが取得した音響信号から推定された定位音源方向の直線の交点Ｐ_１、Ｐ_２、Ｐ_３の座標を算出する。なお、以下の説明では、２つの組のマイクロホンアレイのそれぞれを通り、それぞれのマイクロホンアレイが取得した音響信号から推定された定位音源方向の直線の交点を、「マイクロホンアレイ、定位音源方向間の交点」と呼ぶことがある。式（１２）に示すように、交点Ｐ_１は、マイクロホンアレイｍ_１、ｍ_２の位置と、定位音源方向ｄ’_ｍ１（δ_１）、ｄ’_ｍ２（δ_２）により定まる。交点Ｐ_２は、マイクロホンアレイｍ_２、ｍ_３の位置と、定位音源方向ｄ’_ｍ２（δ_２）、ｄ’_ｍ３（δ_３）により定まる。交点Ｐ_３は、マイクロホンアレイｍ_１、ｍ_３の位置と、定位音源方向ｄ’_ｍ１（δ_１）、ｄ’_ｍ３（δ_３）により定まる。その後、ステップＳ１６６の処理に進む。

（ステップＳ１６６）初期値設定部１４０は、互いに異なる交点Ｐ_１、Ｐ_２間の距離Ｌ_１２、交点Ｐ_２、Ｐ_３間の距離Ｌ_２３、交点Ｐ_１、Ｐ_３間の距離Ｌ_１３をそれぞれ算出する。
算出した距離Ｌ_１２、Ｌ_２３、Ｌ_１３がいずれも閾値θ_１以下となる場合、初期値設定部１４０は、３個の交点の組み合わせを、音源候補ｎに係る組み合わせとして選択する。その場合、初期値設定部１４０は、式（１３）に示すように、交点Ｐ_１、Ｐ_２、Ｐ_３の重心を音源候補ｎの音源推定位置の初期値ｘ_ｎとして定める。
他方、距離Ｌ_１２、Ｌ_２３、Ｌ_１３の少なくともいずれか１つが閾値θ_１より大きいとなる場合、初期値設定部１４０は、これらの交点の組み合わせを棄却し、初期値ｘ_ｎを定めない。式（１３）において、φは空集合を示す。その後、図４に示す処理を終了する。

初期値設定部１４０は、マイクロホンアレイｍ_１、ｍ_２、ｍ_３ごとに推定される定位音源方向の組み合わせｄ’_ｍ１（δ_１）、ｄ’_ｍ２（δ_２）、ｄ’_ｍ３（δ_３）ごとに、ステップＳ１６２〜Ｓ１６６の処理を実行する。これにより、音源候補として不適切な交点の組み合わせが棄却され、音源候補ｎごとに音源推定位置の初期値ｘ_ｎが定められる。なお、以下の説明では音源候補数を、Ｎで表す。
また、初期値設定部１４０は、Ｍ個のマイクロホンアレイのうち、３個のマイクロホンアレイの組ごとに、ステップＳ１６２〜Ｓ１６６の処理を実行してもよい。これにより、音源の候補ｎの検出漏れを少なくすることができる。

図５は、４個のマイクロホンアレイＭＡ_１〜ＭＡ_４のうち、３個のマイクロホンアレイＭＡ_１〜ＭＡ_３をマイクロホンアレイｍ_１〜ｍ_３として選択し、それぞれ推定された定位音源方向ｄ’_ｍ１、ｄ’_ｍ２、ｄ’_ｍ３の組み合わせから推定音源位置の初期値ｘ_ｎを定める場合を示す。交点Ｐ_１の方向は、それぞれマイクロホンアレイｍ_１、ｍ_２の位置を基準とする定位音源方向ｄ’_ｍ１、ｄ’_ｍ２と同一の方向となる。交点Ｐ_２の方向は、それぞれマイクロホンアレイｍ_２、ｍ_３の位置を基準とする音源方向ｄ’_ｍ２、ｄ’_ｍ３と同一の方向となる。交点Ｐ_３の方向は、それぞれマイクロホンアレイｍ_１、ｍ_３の位置を基準とする定位音源方向ｄ’_ｍ１、ｄ’_ｍ３と同一の方向となる。定められた初期値ｘ_ｎの方向は、それぞれマイクロホンアレイｍ_１、ｍ_２、ｍ_３の位置を基準とする方向ｄ”_ｍ１、ｄ”_ｍ２、ｄ”_ｍ３となる。よって、音源定位により推定される定位音源方向ｄ’_ｍ１、ｄ’_ｍ２、ｄ’_ｍ３が、それぞれ推定音源方向ｄ”_ｍ１、ｄ”_ｍ２、ｄ”_ｍ３に修正される。

（推定音源位置の更新処理）
次に、推定音源位置の更新処理について説明する。音源定位により推定される音源方向は誤差を含むため、音源方向間の交点から推定される候補音源ごとの推定音源位置も誤差を含む。これらの誤差がランダムであれば、推定音源位置ならびに交点は、各音源の真の音源位置の周囲に分布することが期待される。そこで、本実施形態に係る音源位置更新部１４２は、各２個のマイクロホンアレイ、推定音源方向間の交点についてクラスタリングを行い、これらの交点の分布を複数のクラスタに分類する。ここで、推定音源方向とは、推定音源位置の方向を意味する。クラスタリングの手法として、音源位置更新部１４２は、例えば、ｋ−平均法を用いる。音源位置更新部１４２は、音源候補ごとの推定音源位置がそれぞれの音源候補に対応するクラスタに分類される可能性の度合いである推定確率が高くなるように、その推定音源位置を更新する。

（確率モデル）
推定音源位置を算出する際、音源位置更新部１４２は、三角分割法に基づく確率モデルを用いる。この確率モデルでは、音源候補ごとの推定音源位置がそれぞれの音源候補に対応するクラスタに分類される推定確率が、第１確率と、第２確率と、第３確率と、をそれぞれ因子とする積で表されるように分解されるように近似できるものと仮定する。第１確率は、音源定位により定位音源方向が定められるとき、その音源に対応する音源候補の推定音源位置の方向である推定音源方向が得られる確率である。第２確率は、２つのマイクロホンアレイそれぞれの位置からその推定音源方向への直線の交点が定められるとき、その推定音源位置が得られる確率である。第３確率は、その交点の分類されるクラスタへの出現確率である。

より具体的には、第１確率は、それぞれ定位音源方向ｄ’_ｍｊ、ｄ’_ｍｋを基準とするフォン・ミーゼス分布（ｖｏｎ−Ｍｉｓｅｓｄｉｓｔｒｉｂｕｔｉｏｎ）に従うものと仮定する。つまり、第１確率は、音源定位により各マイクロホンアレイｍ_ｊ、ｍ_ｋが取得される音響信号から推定される定位音源方向ｄ’_ｍｊ、ｄ’_ｍｋに、確率分布がフォン・ミーゼス分布となる誤差が含まれるとの仮定に基づく。理想的には、図６に示す例では、誤差がなければ、定位音源方向ｄ’_ｍｊ、ｄ’_ｍｋとして真の音源方向ｄ_ｍｊ、ｄ_ｍｋが得られる。

第２確率は、マイクロホンアレイｍ_ｊ、ｍ_ｋ、推定音源方向ｄ_ｍｊ、ｄ_ｍｋ間の交点ｓ_ｊ，ｋの位置を基準とする多次元ガウス関数に従うものと仮定する。つまり、第２確率は、各マイクロホンアレイｍ_ｊ、ｍ_ｋのそれぞれを通り、それぞれの方向が推定音源方向ｄ_ｍｊ、ｄ_ｍｋとなる直線の交点ｓ_ｊ，ｋとなる推定音源位置に、確率分布が多次元ガウス分布となる誤差としてガウス雑音が含まれているとの仮定に基づく。理想的には、交点ｓ_ｊ，ｋの座標が多次元ガウス関数の平均値μ_ｃｊ，ｋとなる。
従って、音源位置更新部１４２は、音源定位により得られた定位音源方向ｄ’_ｍｊ、ｄ’_ｍｋに基づいて、音源候補の推定音源方向を与える交点ｓ_ｊ，ｋの座標が、交点ｓ_ｊ，ｋの分布を近似する多次元ガウス関数の平均値μ_ｃｊ，ｋに極力近づくように推定音源方向ｄ_ｍｊ、ｄ_ｍｋを推定する。

第３確率は、マイクロホンアレイｍ_ｊ、ｍ_ｋのそれぞれを通り、それぞれの方向が推定音源方向ｄ_ｍｊ、ｄ_ｍｋとなる直線の交点ｓ_ｊ，ｋが分類されるクラスタｃ_ｊ，ｋの出現確率を示す。つまり、第３確率は、その交点ｓ_ｊ，ｋに相当する推定音源位置のクラスタｃ_ｊ，ｋへの出現確率を示す。
各クラスタと音源を対応付けるため、音源位置更新部１４２は、音源候補ごとの推定音源位置ｘ_ｎの初期値について、初期クラスタリング（ｉｎｉｔｉａｌｃｌｕｓｔｅｒｉｎｇ）を行ってクラスタの個数Ｃを定める。

初期クラスタリングでは、音源位置更新部１４２は、式（１４）に示すように、音源候補ごとの推定音源位置ｘ_ｎについて所定のユークリッド距離の閾値φをパラメータとしてそれぞれ用いて階層クラスタリング（ｈｉｅｒａｒｃｈｉｃａｌｃｌｕｓｔｅｒｉｎｇ）を行って複数のクラスタに分類する。階層クラスタリングとは、１個の対象データだけを含む複数のクラスタを初期状態として生成し、それぞれ異なる対応データを含む２つのクラスタ間のユークリッド距離を算出し、算出したユークリッド距離が最も小さいクラスタ同士を逐次に併合して、新たなクラスタを形成する手法である。クラスタを併合する処理は、ユークリッド距離が閾値φに達するまで繰り返す。閾値φとして、例えば、音源位置の推定誤差よりも大きい値を予め設定しておけばよい。従って、閾値φより距離が小さい複数の音源候補同士が１つのクラスタに集約され、それぞれのクラスタが音源に対応付けられる。そして、クラスタリングにより得られるクラスタの数Ｃが音源数として推定される。

式（１４）において、ｈｉｅｒａｒｃｈｙとは、階層クラスタリングを示す。ｃ_ｎは、クラスタリングに得られる各クラスタのインデックスｃ_ｎを示す。ｍａｘ（…）は、…の最大値を示す。

次に、確率モデルの適用例について説明する。上述したように、各マイクロホンアレイｍ_ｉについて、定位音源方向ｄ’_ｍｉが定められるとき推定音源方向ｄ_ｍｉが得られる第１確率（ｄ’_ｍｉ，ｄ_ｍｉ；β_ｍｉ）は、式（１５）に示すフォン・ミーゼス分布に従うものと仮定する。

フォン・ミーゼス分布は、最大値、最小値を、それぞれ１、０とする連続関数であり、定位音源方向ｄ’_ｍｉと推定音源方向ｄ_ｍｉが等しいときに最大値１をとり、定位音源方向ｄ’_ｍｉと推定音源方向ｄ_ｍｉのなす角が大きいほど関数値が小さくなる。式（１５）において、音源方向ｄ’_ｍｉ、推定音源方向ｄ_ｍｉは、それぞれ大きさが１に正規化された単位ベクトルで示されている。β_ｍｉは、関数値の広がりを示す形状パラメータを示す。形状パラメータβ_ｍｉが大きいほど、第１の確率は正規分布に近似し、形状パラメータβ_ｍｉが小さいほど、第２の確率は一様分布に近似する。Ｉ_０（β_ｍｉ）は、第０次の第一種変形ベッセル関数を示す。フォン・ミーゼス分布は、音源方向のように角度に加わったノイズの分布をモデル化するうえで好適である。確率モデルでは、形状パラメータβ_ｍｉをモデルパラメータの１つとする。

音響処理システムＳ１全体として、定位音源方向［ｄ’］のもとで推定音源方向［ｄ］が得られる確率ｐ（［ｄ’］｜［ｄ］）は、式（１６）に示すようにマイクロホンアレイｍ_ｉ間での第１確率ｆ（ｄ’_ｍｉ，ｄ_ｍｉ；β_ｍｉ）の総乗と仮定する。

ここで、定位音源方向［ｄ’］、推定音源方向［ｄ］は、それぞれ定位音源方向ｄ’_ｍｉ、推定音源方向ｄ_ｍｉを要素として含むベクトルである。
また、確率モデルでは、マイクロホンアレイｍ_ｊ、ｍ_ｋ、推定音源方向ｄ_ｍｊ、ｄ_ｍｋ間の交点ｓ_ｊ，ｋが得られるとき、その交点ｓ_ｊ，ｋが分類されるクラスタｃ_ｊ，ｋに対応する推定音源位置が得られる第２確率ｐ（ｓ_ｊ，ｋ｜ｃ_ｊ，ｋ）が、式（１７）に示す多変量ガウス分布Ｎ（ｓ_ｊ，ｋ；μ_ｃｊ，ｋ，Σ_ｃｊ，ｋ）に従うことを仮定する。μ_ｃｊ，ｋ、Σ_ｃｊ，ｋは、それぞれ多変量ガウス分布の平均、分散を示す。この平均は、推定音源位置、推定音源位置の分布の大きさや偏りを示す。交点ｓ_ｊ，ｋは、上述したように、マイクロホンアレイｍ_ｊ、ｍ_ｋそれぞれの位置ｕ_ｊ、ｕ_ｋと、推定音源方向ｄ_ｍｊ、ｄ_ｍｋとから定まる関数である。以下の説明では、交点の位置を、ｇ（ｄ_ｍｊ、ｄ_ｍｋ）と示すことがある。確率モデルでは、平均μ_ｃｊ，ｋ、分散Σ_ｃｊ，ｋをモデルパラメータの一部とする。

音響処理システムＳ１全体として、各２つのマイクロホンアレイ、推定音源方向［ｄ］間の交点の分布が得られるとき、それぞれの候補音源に対応するクラスタ［ｃ］が得られる確率ｐ（［ｄ］｜［ｃ］）は、式（１８）に示すように交点間での第２確率ｐ（ｓ_ｊ，ｋ｜ｃ_ｊ，ｋ）の総乗に近似されるものと仮定する。［ｃ］は、クラスタｃ_ｊ，ｋを要素として含むベクトルである。

また、確率モデルでは、第３確率として、２つのマイクロホンアレイｍ_ｊ、ｍ_ｋ、推定音源方向ｄ_ｍｊ、ｄ_ｍｋ間の交点ｓ_ｊ，ｋが分類されるクラスタｃ_ｊ，ｋの出現確率ｐ（ｃ_ｊ，ｋ）をモデルパラメータの１つとする。このパラメータをπ_ｃｊ，ｋと表すことがある。

（音源位置の更新）
次に、上述した確率モデルを用いた音源位置の更新処理について説明する。
音源位置更新部１４２は、音源定位により定位音源方向［ｄ’］が得られるとき、音源候補ごとの推定音源位置［ｄ］がそれぞれの音源候補に対応するクラスタ［ｃ］に分類される推定確率ｐ（［ｃ］，［ｄ］，［ｄ’］）が高くなるように、推定音源位置［ｄ］を再帰的に更新する。音源位置更新部１４２は、各２つのマイクロホンアレイ、推定音源方向間の交点の分布についてクラスタリングを行ってクラスタ［ｃ］に分類する。
推定音源位置［ｄ］を更新するため、音源位置更新部１４２は、ビタビ学習法（ＶｉｔｅｒｂｉＴｒａｉｎｉｎｇ）を応用した手法を用いる。

音源位置更新部１４２は、式（１９）に示すように、モデルパラメータ［μ^＊］，［Σ^＊］，［β^＊］を一定として、推定確率ｐ（［ｃ］，［ｄ］，［ｄ’］；［μ^＊］，［Σ］^＊，［β^＊］）を最大化する推定音源位置［ｄ^＊］、クラスタ［ｃ^＊］を算出する処理と、式（２０）に示すように、算出した推定音源位置［ｄ^＊］、クラスタ［ｃ^＊］を一定として、推定確率ｐ（［ｃ^＊］，［ｄ^＊］，［ｄ’］；［μ］，［Σ］，［β］）を最大化するモデルパラメータ［π^＊］、［μ^＊］、［Σ^＊］、［β^＊］を算出する処理と、を逐次に繰り返す。…^＊は、最大化したパラメータ…を示す。ここで、最大化とは、巨視的に増加させること、もしくはそのための処理を意味し、その処理により一時的もしくは局所的に減少する場合もありうる。

式（１９）の右辺は、式（１６）〜（１８）を代入して、式（２１）に示すように変形される。

式（２１）に示すように、推定確率ｐ（［ｃ］，［ｄ］，［ｄ’］）は、上述の第１確率と、第２確率と、第３確率と、をそれぞれ因子とする積で表される。但し、式（２１）において値がゼロ以下となる因子を、乗算対象としない。
式（２１）の右辺は、式（２２）、（２３）に示すようにクラスタｃ_ｊ，ｋの関数と音源方向［ｄ］の関数に分解される。従って、クラスタｃ_ｊ，ｋと推定音源方向［ｄ］は、個々に更新可能となる。

音源位置更新部１４２は、式（２２）の右辺の値をより大きくするように全ての交点ｇ（ｄ^＊ _ｍｊ，ｄ^＊ _ｍｋ）をクラスタｃ^＊ _ｊ，ｋを要素とするクラスタ［ｃ^＊］に分類する。
音源位置更新部１４２は、クラスタｃ^＊ _ｊ，ｋを定める際、階層クラスタリングを行う。階層クラスタリングは、各２つのクラスタ間の距離を算出し、最も距離が小さい２つのクラスタを併合して新たなクラスタを生成する処理を逐次に繰り返す手法である。このとき、音源位置更新部１４２は、２つのクラスタ間の距離として、一方のクラスタに分類される交点ｇ（ｄ^＊ _ｍｊ，ｄ^＊ _ｍｋ）と他方のクラスタｃ_{ｊ’，ｋ’}の中心である平均μ_{ｃｊ’，ｋ’}との間の距離のうち最も小さい距離を用いる。

一般に、推定音源方向［ｄ］は、他の変数との依存性が高いため解析的に最適値を算出することは困難である。そこで、式（２３）の右辺を式（２４）に示すように近似的に推定音源方向ｄ_ｍｉの関数に分解する。音源位置更新部１４２は、式（２４）の右辺第３〜５行に示す値をコスト関数としてより大きくするように個々の推定音源方向ｄ_ｍｉを更新する。

推定音源方向ｄ_ｍｉを更新する際、音源位置更新部１４２は、次に説明する制約条件（ｃ１）、（ｃ２）のもとで、最急降下法（ｇｒａｄｉｅｎｔｄｅｓｃｅｎｔｍｅｔｈｏｄ）を用いて推定音源方向ｄ^＊ _ｍｉを探索する。
（ｃ１）音源定位により推定された定位音源方向［ｄ’］のそれぞれが、それぞれ対応する真の音源方向［ｄ］に近似している。
（ｃ２）推定音源位置に相当する平均μ_ｃｊ，ｋが、直前に更新された推定音源方向ｄ^＊ _ｍｊ、ｄ^＊ _ｍｋ、ｄ^＊ _ｍｉに基づく３つの交点Ｐ_ｊ、Ｐ_ｋ、Ｐ_ｉを頂点とする三角形の領域内にある。但し、マイクロホンアレイｍ_ｉは、マイクロホンアレイｍ_ｊ、ｍ_ｋとは別個のマイクロホンアレイである。

例えば、推定音源方向ｄ_ｍ３を更新する際、図７に示すように、音源位置更新部１４２は、マイクロホンアレイｍ_３から交点Ｐ_２の方向を起点ｄ_{ｍｉｎ（ｍ３）}とし、マイクロホンアレイｍ_３から交点Ｐ_１の方向を終点ｄ_{ｍａｘ（ｍ３）}とする方向の範囲内で、上述のコスト関数が最も大きくなる推定音源方向ｄ_ｍ３を推定音源方向ｄ^＊ _ｍ３として定める。他の音源方向ｄ_ｍ１、ｄ_ｍ２等を更新する際も、音源位置更新部１４２は、同様の制約条件を課してコスト関数が最も大きくなる推定音源方向ｄ_ｍ１、ｄ_ｍ２を探索する。即ち、音源位置更新部１４２は、マイクロホンアレイｍ_１から交点Ｐ_３の方向を起点ｄ_{ｍｉｎ（ｍ１）}とし、交点Ｐ_２の方向を終点ｄ_{ｍａｘ（ｍ１）}とする方向の範囲内で、コスト関数が最も大きくなる推定音源方向ｄ^＊ _ｍ１を探索する。音源位置更新部１４２は、マイクロホンアレイｍ_２から交点Ｐ_１の方向を起点ｄ_{ｍｉｎ（ｍ２）}とし、交点Ｐ_３の方向を終点ｄ_{ｍａｘ（ｍ２）}とする方向の範囲内で、コスト関数が最も大きくなる推定音源方向ｄ^＊ _ｍ２を探索する。従って、推定音源方向の探索領域が、直前に更新された推定音源方向ｄ^＊ _ｍ１等に基づいて定めた探索領域内に制限されるので、計算量が低減することができる。また、コスト関数の非線形性による解の不安定性が回避される。

なお、式（２０）の右辺は、式（１６）〜（１８）を代入して、式（２５）に示すように変形される。音源位置更新部１４２は、式（２５）の右辺の値を大きくするように、モデルパラメータのセット［π^＊］、［μ^＊］、［Σ^＊］、［β^＊］を更新する。

音源位置更新部１４２は、式（２５）の右辺の値をより大きくするため、式（２６）に示す関係を用いて、定位音源方向［ｄ’］、更新された推定音源方向［ｄ^＊］及び更新されたクラスタ［ｃ^＊］に基づいて、各クラスタｃのモデルパラメータπ^＊ _ｃ、μ^＊ _ｃ、Σ^＊ _ｃと各マイクロホンアレイｍのモデルパラメータβ^＊ _ｍを算出することができる。

式（２６）において、モデルパラメータπ^＊ _ｃは、音源候補数Ｎに対する、推定音源位置がクラスタｃに属する音源候補数Ｎ_ｃの割合、即ち、推定音源が分類されるクラスタｃへの出現確率を示す。モデルパラメータμ^＊ _ｃは、クラスタｃに属する交点ｓ_ｊ，ｋ（＝ｇ（ｄ^＊ _ｍｊ，ｄ^＊ _ｍｋ））の座標の平均値、即ち、クラスタｃの中心を示す。モデルパラメータμ^＊ _ｃは、クラスタｃに属する交点ｓ_ｊ，ｋの座標の分散を示す。モデルパラメータβ^＊ _ｍは、マイクロホンアレイｉについての定位音源方向ｄ’_ｍｉと推定音源方向ｄ^＊ _ｍｉとの内積の平均値を示す。

次に、本実施形態に係る音源位置更新処理の一例について説明する。
図８は、本実施形態に係る音源位置更新処理の一例を示すフローチャートである。
（ステップＳ１８２）音源位置更新部１４２は、更新処理に係る各種の初期値を設定する。音源位置更新部１４２は、初期値設定部１４０から入力された初期推定音源位置情報が示す音源候補ごとの推定音源位置の初期値を設定する。また、音源位置更新部１４２は、推定音源位置の初期値［ｄ］、クラスタの初期値［ｃ］、出現確率の初期値π^＊ _ｃ、平均の初期値μ^＊ _ｃ、分散の初期値Σ^＊ _ｃ、形状パラメータの初期値β^＊ _ｍ、を、それぞれ式（２７）に示すように設定する。推定音源方向の初期値［ｄ］として、定位音源方向［ｄ’］が設定される。クラスタの初期値ｃ_ｊ，ｋとして、音源推定位置の初期値ｘ_ｎが属するクラスタｃ_ｎが設定される。出現確率の初期値π^＊ _ｃとして、クラスタ数Ｃの逆数が設定される。平均の初期値μ^＊ _ｃとして、クラスタｃに属する音源推定位置の初期値ｘ_ｎの平均値が設定される。分散の初期値Σ^＊ _ｃとして、単位行列が設定される。形状パラメータの初期値β^＊ _ｍとして、１が設定される。その後、ステップＳ１８４の処理に進む。

（ステップＳ１８４）音源位置更新部１４２は、上述の制約条件のもとで、式（２４）の右辺に示すコスト関数が大きくなるように推定音源方向ｄ^＊ _ｍｉを更新する。その後、ステップＳ１８６の処理に進む。
（ステップＳ１８６）音源位置更新部１４２は、式（２６）に示す関係を用いて各クラスタｃの出現確率π^＊ _ｃ、平均μ^＊ _ｃ、分散Σ^＊ _ｃと各マイクロホンアレイｍの形状パラメータβ^＊ _ｍを算出する。その後、ステップＳ１８８の処理に進む。

（ステップＳ１８８）音源位置更新部１４２は、更新した推定音源方向ｄ^＊ _ｍｊ、ｄ^＊ _ｍｋから交点ｇ（ｄ^＊ _ｍｊ，ｄ^＊ _ｍｋ）を定める。音源位置更新部１４２は、式（２２）の右辺に示すコスト関数の値が大きくなるように、交点（ｄ^＊ _ｍｊ，ｄ^＊ _ｍｋ）の分布についてクラスタリングを行って複数のクラスタｃ_ｊ，ｋに分類する。その後、ステップＳ１９０の処理に進む。

（ステップＳ１９０）音源位置更新部１４２は、音源方向ｄ^＊ _ｍｉと推定音源位置ｘ^＊ _ｎとする平均μ_ｃｊ，ｋのいずれか又は両方の更新量を算出し、算出した更新量が所定の更新量よりも小さいか否かにより、収束したか否かを判定する。更新量は、例えば、更新前後の音源方向ｄ^＊ _ｍｉの差分のマイクロホンアレイ間ｍ_ｉ間の二乗和、平均μ_ｃｊ，ｋの更新前後の差分のクラスタｃ間の二乗和の一方又はそれらの重み付き和のいずれであってもよい。収束したと判定する場合（ステップＳ１９０ＹＥＳ）、ステップＳ１９２の処理に進む。収束していないと判定する場合（ステップＳ１９０ＮＯ）、ステップＳ１８４の処理に戻る。

（ステップＳ１９２）音源位置更新部１４２は、更新された推定音源位置ｘ^＊ _ｎ最確（ｍｏｓｔｐｒｏｂａｂｌｅ）音源位置として定める。音源位置更新部１４２は、音源候補ごとの推定音源位置を示す推定音源位置情報を音源特定部１６に出力する。音源位置更新部１４２は、更新された推定音源方向［ｄ^＊］を最確音源方向として定め、音源候補ごとの推定音源方向を示す推定音源位置情報を音源特定部１６に出力してもよい。また、音源位置更新部１４２は、音源候補ごとの音源識別情報をさらに推定音源位置情報に含めて出力してもよい。音源識別情報には、各音源候補の推定音源位置の初期値に係る３個のマイクロホンアレイを示すインデックスの少なくともいずれか１つと、マイクロホンアレイごとの音源定位により推定された音源を示すインデックスの少なくともいずれか１つが含まれればよい。その後、図８に示す処理を終了する。

（音源特定部の処理）
次に、本実施形態に係る音源特定部１６の処理について説明する。音源位置更新部１４２は、３個のマイクロホンアレイのうち、各２つのマイクロホンアレイにより取得された音源方向の３つの交点に基づいて、推定音源位置を定めていた。しかしながら、各マイクロホンアレイから取得されて音響信号により独立に音源方向が推定されうる。そのため、音源位置更新部１４２は、２個のマイクロホンアレイのそれぞれについて、互いに異なる音源の音源方向同士で交点を定めてしまうことがある。その交点は、音源が実在している位置とは異なる位置に生じるため、いわゆるゴースト（虚像）として検出されることがある。例えば、図９に示す例では、マイクロホンアレイＭＡ_１、ＭＡ_２、ＭＡ_３により、それぞれ音源Ｓ_１、Ｓ_２、Ｓ_１の方向に音源方向が推定される。その場合、マイクロホンアレイＭＡ_１、ＭＡ_３による交点Ｐ_３は、いずれも音源Ｓ_１の方向に基づいて定められるため、音源Ｓ_１の位置に近似する。しかしながら、マイクロホンアレイＭＡ_２、ＭＡ_３による交点Ｐ_２は、それぞれ音源Ｓ_２、Ｓ_１の方向に基づいて定められるため、音源Ｓ_１、Ｓ_２のいずれの位置からも離れた位置となる。

そこで、音源特定部１６は、マイクロホンアレイごとの各音源の音源別信号のスペクトルを複数の第２のクラスタに分類し、前記第２のクラスタのそれぞれに属する各スペクトルに係る音源が同一であるか否かを判定する。音源特定部１６は、同一と判定した音源の前記推定音源位置を、同一でないと判定した音源よりも優先して選択する。これにより、虚像の検出により音源位置が誤って推定されることが防止される。

（周波数分析）
周波数分析部１２４は、音源ごとに分離された音源別音響信号について周波数分析を行う。図１０は、本実施形態に係る周波数分析処理の一例を示すフローチャートである。
（ステップＳ２０２）周波数分析部１２４は、各マイクロホンアレイｍで取得された音響信号から分離された各音源の音源別音響信号をフレームごとに短時間フーリエ変換を行ってスペクトル［Ｆ_ｍ，１］、［Ｆ_ｍ，２］〜［Ｆ_ｍ，ｓｍ］を算出する。その後、ステップＳ２０４の処理に進む。
（ステップＳ２０４）周波数分析部１２４は、音源ごとに算出した周波数スペクトルをマイクロホンアレイｍごとに行間で統合して、スペクトル行列［Ｆ_ｍ］を構成する。周波数分析部１２４は、マイクロホンアレイｍごとのスペクトル行列［Ｆ_ｍ］を行間で統合してスペクトル行列［Ｆ］を構成する。周波数分析部１２４は、構成したスペクトル行列［Ｆ］と音源方向情報とを対応付けて音源特定部１６に出力する。その後、図１０に示す処理を終了する。

（スコア算出）
音源特定部１６の分散算出部１６０とスコア算出部１６２は、次に例示するスコア算出処理を行う。
図１１は、本実施形態に係るスコア算出処理の一例を示すフローチャートである。
（ステップＳ２２２）分散算出部１６０は、周波数分析部１２４から入力されるスペクトル行列［Ｆ］が示すマイクロホンアレイｍならびに音源の組ごとのスペクトルについてｋ−平均法を用いてクラスタリングを行い、複数の第２クラスタに分類する。クラスタ数Ｋは、予め分散算出部１６０に設定しておく。但し、分散算出部１６０は、スペクトルごとのクラスタの初期値を、繰り返し回数ｒごとに変更する。クラスタ数Ｋは、音源候補数Ｎと等しくしてもよい。分散算出部１６０は、スペクトルごとに分類される第２クラスタのインデックスｃ_{ｉ，ｘ＊ｎ}を要素として含むクラスタ行列［ｃ^＊］を構成する。クラスタ行列［ｃ^＊］の各列、各行は、それぞれマイクロホンアレイｉ、音源ｘ^＊ _ｎに対応付けられる。マイクロホンアレイの数Ｍが３である場合、クラスタ行列［ｃ^＊］は、式（２８）に示すように、Ｎ行３列の行列となる。

分散算出部１６０は、音源位置更新部１４２から入力される推定音源位置情報が示す音源候補ごとの音源識別情報に基づいて、各音源候補に対応する第２クラスタを特定する。分散算出部１６０は、例えば、クラスタ行列において音源識別情報が示すマイクロホンアレイの列と音源列のうち、クラスタ行列に含まれるマイクロホンアレイの列と音源の行に配置された、インデックスが示す第２クラスタを特定することができる。
分散算出部１６０は、第２クラスタに対応する音源候補ごとの推定音源位置の分散Ｖ_ｘ＊ｎを算出する。その後、ステップＳ２２４の処理に進む。

（ステップＳ２２４）分散算出部１６０は、第２クラスタｃ_ｘ＊ｎのそれぞれについて、
分類された複数のスペクトルに係る音源が互いに同一の音源であるか否かを判定する。分散算出部１６０は、例えば、複数のスペクトルのうち、各２つのスペクトル間の類似度を示す指標が示す類似度が、いずれも所定の類似度よりも高いとき、同一の音源であると判定する。分散算出部１６０は、少なくとも１組のスペクトル間の類似度を示す指標が所定の類似度以下となるとき、同一の音源ではないと判定する。類似度の指標として、例えば、内積、ユークリッド距離、などを用いることができる。内積は、その値が大きいほど類似度が高いことを示す。ユークリッド距離は、その値が小さいほど類似度が低いことを示す。なお、分散算出部１６０は、複数のスペクトルの類似度の指標として、それらの分散を算出してもよい。分散算出部１６０は、分散が所定の分散の閾値よりも小さいとき、同一の音源であると判定し、分散がその閾値以上であるとき、同一の音源ではないと判定してもよい。同一の音源であると判定する場合（ステップＳ２２４ＹＥＳ）、ステップＳ２２６の処理に進む。同一の音源ではないと判定する場合（ステップＳ２２４ＮＯ）、ステップＳ２２８の処理に進む。

（ステップＳ２２６）分散算出部１６０は、現在の繰り返し回数ｒにおいて第２クラスタｃ_ｘ＊ｎについて算出した分散Ｖ_ｘ＊ｎ（ｒ）が、前回の繰り返し回数ｒ−１に算出した分散Ｖ_ｘ＊ｎ（ｒ−１）以下になったか否かを判定する。分散Ｖ_ｘ＊ｎ（ｒ−１）以下になったと判定する場合（ステップＳ２２６ＹＥＳ）、ステップＳ２３２の処理に進む。分散Ｖ_ｘ＊ｎ（ｒ−１）より大きいと判定する場合（ステップＳ２２６ＮＯ）、ステップＳ２３０の処理に進む。

（ステップＳ２２８）分散算出部１６０は、現在の繰り返し回数ｒの第２クラスタｃ_ｘ＊ｎの分散Ｖ_ｘ＊ｎ（ｒ）をＮａＮと設定し、スコアｅ_ｎ,ｒをδとする。ＮａＮは、分散が無効であることを示す記号（ｎｏｔａｎｕｍｂｅｒ）である。δは、０よりも小さい所定の実数である。その後、ステップＳ２３４の処理に進む。
（ステップＳ２３０）分散算出部１６０は、現在の繰り返し回数ｒの第２クラスタｃ_ｘ＊ｎのスコアｅ_ｎ,ｒを０とする。その後、ステップＳ２３４の処理に進む。
（ステップＳ２３２）分散算出部１６０は、現在の繰り返し回数ｒの第２クラスタｃ_ｘ＊ｎのスコアｅ_ｎ,ｒをεとする。その後、ステップＳ２３４の処理に進む。

（ステップＳ２３４）分散算出部１６０は、現在の繰り返し回数ｒが所定の繰り返し回数Ｒに達したか否かを判定する。達していないと判定するとき（ステップＳ２３４ＮＯ）、ステップＳ２３６の処理に進む。達したと判定するとき（ステップＳ２３４ＹＥＳ）、分散算出部１６０は、第２クラスタごとの各回のスコアと推定音源位置を示すスコア算出情報をスコア算出部１６２に出力し、ステップＳ２３８の処理に進む。
（ステップＳ２３６）分散算出部１６０は、現在の繰り返し回数ｒを、１増加させる。その後、ステップＳ２２２の処理に戻る。

（ステップＳ２３８）スコア算出部１６２は、式（２９）に示すように分散算出部１６０から入力されるスコア算出情報に基づいて、第２クラスタｃ_ｘ＊ｎごとにスコアｅ_ｎ,ｒの合計値ｅ_ｎを算出する。スコア算出部１６２は、座標値ｘ_ｎが相互に所定の範囲内にある推定音源位置ｘ_ｉにそれぞれ対応する第２クラスタｉの合計値ｅ_ｉの総和ｅ’_ｎを算出する。これは、相互に座標値が等しいもしくは所定の範囲内にある推定音源位置に対応する第２クラスタを、１個の第２クラスタとして統合するためである。相互に座標値が等しいもしくは所定の範囲内にある推定音源位置に対応する第２クラスタが生じるのは、一般に各１個の音源からの発音期間の方が周波数分析に係るフレーム長よりも長いうえ、周波数特性が変動するためである。

スコア算出部１６２は、式（３０）に示すように分散算出部１６０から入力されるスコア算出情報に基づいて、第２クラスタｃ_ｘ＊ｎごとに有効な分散が算出された回数を存在度数ａ_ｎとして計数する。スコア算出部１６２は、有効な分散が算出されていないか否かを、分散Ｖ_ｘ＊ｎ（ｒ）にＮａＮが設定されたか否かにより判定することができる。式（３０）の第１行の右辺のａ_ｎ，ｒは、ＮａＮが設定された繰り返し回数ｒについて０、ＮａＮが設定されていない繰り返し回数ｒについて１となる。
スコア算出部１６２は、座標値ｘ_ｎが相互に所定の範囲内にある推定音源位置ｘ_ｉにそれぞれ対応する第２クラスタｉの存在度数ａ_ｉの総和ａ’_ｎを算出する。その後、ステップＳ２４０の処理に進む。

（ステップＳ２４０）スコア算出部１６２は、式（３１）に示すように、統合した第２クラスタｎのそれぞれについてスコアの総和ｅ’_ｎを存在度数の総和ａ’_ｎで除算して最終スコアｅ^＊ _ｎを算出する。統合した第２クラスタｎは、個々の音源候補に対応する。スコア算出部１６２は、算出した音源候補ごとの最終スコアと推定音源位置を示す最終スコア情報を音源選択部１６４に出力する。その後、図１１に示す処理を終了する。

上述の例では、ステップＳ２２８、Ｓ２３０、Ｓ２３２においてスコアｅ_ｎ,ｒをそれぞれδ、０、εとする場合を例にしたが、これには限られない。ステップＳ２２８、Ｓ２３０、Ｓ２３２において定められるスコアｅ_ｎ,ｒの値の大小関係は、その昇順であればよい。

（音源選択）
音源選択部１６４は、次に例示する音源選択処理を行う。
図１２は、本実施形態に係る音源選択処理の一例を示すフローチャートである。
（ステップＳ２４２）音源選択部１６４は、スコア算出部１６２から入力された最終スコア情報が示す音源候補の最終スコアｅ^＊ _ｎが所定の最終スコアの閾値θ_２以上であるか否かを判定する。閾値θ_２以上と判定する場合（ステップＳ２４２ＹＥＳ）、ステップＳ２４４の処理に進む。閾値θ_２未満と判定する場合（ステップＳ２４２ＮＯ）、ステップＳ２４６の処理に進む。

（ステップＳ２４４）音源選択部１６４は、最終スコアｅ^＊ _ｎが正常値（Ｉｎｌｉｅｒ）と判定し、その音源候補を音源として選択する。音源選択部１６４は、選択した音源に対応する推定音源位置を示す出力音源位置情報を音響処理装置１の外部に出力部１８を介して出力する。
（ステップＳ２４６）音源選択部１６４は、最終スコアｅ^＊ _ｎが異常値（Ｏｕｔｌｉｅｒ）と判定し、対応する音源候補を音源として選択せずに棄却する。その後、図１２に示す処理を終了する。

（音響処理）
音響処理装置１は、全体として次に例示する音響処理を行う。
図１３は、本実施形態に係る音響処理の一例を示すフローチャートである。
（ステップＳ１２）音源定位部１２０は、入力部１０から入力され、各マイクロホンアレイから取得された複数チャネルの音響信号に基づいて各音源の定位音源方向を予め定めた長さのフレームごとに推定する（音源定位）。音源定位部１２０は、音源定位において、例えば、ＭＵＳＩＣ法を用いる。その後、ステップＳ１４の処理に進む。
（ステップＳ１４）音源分離部１２２は、音源ごとの定位音源方向に基づいて、各マイクロホンアレイから取得された音響信号を音源ごとの音源別音響信号に分離する。音源分離部１２２は、音源分離部において、例えば、ＧＨＤＳＳ法を用いる。その後、ステップＳ１６の処理に進む。

（ステップＳ１６）初期値設定部１４０は、三角分割法により、３個のマイクロホンアレイのうち、各２個のマイクロホンアレイの組ごとに推定された定位音源方向に基づいて交点を定める。初期値設定部１４０は、定めた交点を音源候補の推定音源位置の初期値として定める。その後、ステップＳ１８の処理に進む。
（ステップＳ１８）音源位置更新部１４２は、各２個のマイクロホンアレイの組ごとに推定音源方向に基づいて定められる交点の分布を複数のクラスタに分類する。音源位置更新部１４２は、音源候補ごとの推定音源位置が、それぞれの音源候補に対応するクラスタに属する確率が高くなるように推定音源位置を更新する。ここで、音源位置更新部１４２は、上述の音源位置更新処理を行う。その後、ステップＳ２０の処理に進む。

（ステップＳ２０）周波数分析部１２４は、各マイクロホンアレイについて音源ごとに分離した音源別音響信号について周波数分析を行い、スペクトルを算出する。その後、ステップＳ２２の処理に進む。
（ステップＳ２２）分散算出部１６０は、算出したスペクトルを複数の第２クラスタに分類し、分類した第２クラスタに属するスペクトルに係る音源が相互に同一であるか否かを判定する。分散算出部１６０は、第２クラスタに属するスペクトルに係る音源候補ごとの推定音源位置の分散を算出する。スコア算出部１６２は、同一と判定された音源に係る第２クラスタを、同一でないと判定した音源に係る第２クラスタよりも大きくなるように第２クラスタごとの最終スコアを定める。スコア算出部１６２は、クラスタの安定性として、繰り返しごとの推定音源位置の分散の増加が稀な第２クラスタほど大きくなるように最終スコアを定める。ここで、分散算出部１６０とスコア算出部１６２は、上述のスコア算出処理を行う。その後、ステップＳ２４の処理に進む。
（ステップＳ２４）音源選択部１６４は、最終スコアが、所定の最終スコアの閾値以上となる第２クラスタに対応する音源候補を音源として選択し、最終スコアの閾値未満となる第２クラスタに対応する音源候補を棄却する。音源選択部１６４は、選択した音源に係る推定音源位置を出力する。その後、図１３に示す処理を終了する。

（フレームデータ解析）
音響処理システムＳ１は、記憶部（図示せず）を備え、図１３に示す音響処理を行う前に、各マイクロホンアレイが収音した音響信号を記憶しておいてもよい。記憶部は、音響処理装置１の一部として構成されてもよいし、音響処理装置１とは別個の外部機器に設置されてもよい。音響処理装置１は、記憶部から読み出した音響信号を用いて図１３に示す音響処理を行ってもよい（バッチ処理）。

上述の図１３の音響処理のうち、音源位置更新処理（ステップＳ１８）、スコア算出処理（ステップＳ２２）は、複数のフレームの音響信号に基づく各種のデータを要するうえ、処理時間が長い。オンライン処理において、あるフレームについて図１３の処理を完了した後で、次のフレームの処理を開始すると、出力が間欠的となるため現実的ではない。
そこで、オンライン処理において、初期処理部１２によるステップＳ１２、Ｓ１４、Ｓ２０の処理が、音源位置推定部１４と音源特定部１６によるステップＳ１６、Ｓ１８、Ｓ２２、Ｓ２４の処理と並列に行われてもよい。但し、ステップＳ１２〜Ｓ１４、Ｓ２０の処理において、現時点ｔ_０までの第１区間内の音響信号もしくは音響信号から導出された各種のデータを処理対象とする。ステップＳ１２、Ｓ１４、Ｓ２０の処理において、現時点ｔ_０までの第１区間内の音響信号もしくは音響信号から導出された各種のデータを処理対象とする。ステップＳ１６、Ｓ１８、Ｓ２２、Ｓ２４の処理において、第１区間よりも過去の第２区間内の音響信号もしくは各種のデータを処理対象とする。

図１４は、処理対象のデータ区間の例を示す図である。
図１４において、左右方向は時刻を示す。右上のｔ_０は、現時点を示す。ｗ_ｌは、個々のフレームｗ_１、ｗ_２、…のフレーム長を示す。音響処理装置１の入力部１０には、フレームごとに最新の音響信号が入力され、音響処理装置１の記憶部（図示せず）は、期間がｎ_ｅ・ｗ_ｌの音響信号と導出されるデータを記憶する。そして、記憶部は、フレームごとに最も過去の音響信号とデータを棄却する。ｎ_ｅは、記憶される全データのフレーム数を示す。初期処理部１２は、全データのうち最新の第１区間内のデータを用いて、ステップＳ１２〜Ｓ１４、Ｓ２０の処理を行う。第１区間の長さが、初期処理長ｎ_ｔ・ｗ_ｌに相当する。ｎ_ｔは、予め定めた初期処理長のフレーム数を示す。音源位置推定部１４と音源特定部１６は、全データのうち第１区間の終期よりも後の第２区間のデータを用いて、ステップＳ１６、Ｓ１８、Ｓ２２、Ｓ２４の処理を行う。第２区間の長さが、バッチ長ｎ_ｂ・ｗ_ｌに相当する。ｎ_ｂは、予め定めたバッチ長のフレーム数を示す。第１区間、第２区間には、フレームごとに、それぞれ最新のフレームの音響信号、第ｎ_ｔ＋１フレームの音響信号と導出されるデータが加入される。他方、第１区間、第２区間には、フレームごとに第ｎ_ｔフレームの音響信号とその音響信号から導出されるデータと、第ｎ_ｅフレームの音響信号と導出されるデータが棄却される。このように、初期処理部１２と、音源位置推定部１４ならびに音源特定部１６は、それぞれ第１区間内のデータと、第２区間内のデータとを使い分けることで、出力がフレーム間で継続するように図１３に示す音響処理がオンラインで実行可能となる。

以上に説明したように、本実施形態に係る音響処理装置１は、位置が異なるＭ個の収音部２０のそれぞれから取得した複数チャネルの音響信号に基づいて音源の方向である定位音源方向を定める音源定位部１２０を備える。また、音響処理装置１は、２個の収音部２０の組ごとに当該収音部２０のそれぞれから音源の推定音源位置への方向である推定音源方向への直線の交点を定める音源位置推定部１４を備える。音源位置推定部１４は、交点の分布を複数のクラスタに分類し、推定音源位置がその音源に対応するクラスタに分類される確率である推定確率が高くなるように推定音源位置を更新する。
この構成により、それぞれ異なる収音部２０からの定位音源方向により定まる交点が分類されるクラスタの範囲内に、対応する音源の推定音源位置が分類される可能性が高くなるように推定音源位置が調整される。クラスタの範囲内には音源が存在する可能性が高くなるため、調整される推定音源位置がより正確な音源位置として得られる。

また、推定確率は、定位音源方向が定められるとき推定音源方向が得られる確率である第１確率と、交点が定められるとき推定音源位置が得られる確率である第２確率と、交点が分類されるクラスタの出現確率である第３確率と、をそれぞれ因子とする積である。
一般に、定位音源方向、推定音源位置及び交点は相互に依存するが、音源位置推定部１４は、第１確率、第２確率及び第３確率をそれぞれ独立な推定確率の因子として推定音源位置を定めることができる。そのため、推定音源位置の調整に係る計算負荷が低減する。

また、第１確率は、定位音源方向を基準とするフォン・ミーゼス分布に従い、第２確率は、交点の位置を基準とする多次元ガウス関数に従う。音源位置推定部１４は、推定確率が高くなるように、フォン・ミーゼス分布の形状パラメータと、多次元ガウス関数の平均ならびに分散と、を更新する。
この構成により、第１確率の推定音源方向の関数、第２確率の推定音源位置の関数が、それぞれ形状パラメータ、平均ならびに分散といった少数のパラメータで表される。そのため、推定音源位置の調整に係る計算負荷がさらに低減する。

また、音源位置推定部１４は、収音部２０の３個から定められる３個の交点の重心を推定音源位置の初期値として定める。
この構成により、推定音源位置の初期値を、音源が存在する可能性が高い３個の交点をそれぞれ頂点とする三角形の領域内に設定することができる。そのため、調整による推定音源位置の変化が収束するまでの計算負荷が低減する。

また、音響処理装置１は、複数チャネルの音響信号から音源ごとの音源別信号に分離する音源分離部１２２と、音源別信号のスペクトルを算出する周波数分析部１２４を備える。音響処理装置１は、算出したスペクトルを複数の第２クラスタに分類し、第２クラスタのそれぞれに分類される各スペクトルに係る音源が同一であるか否かを判定し、同一と判定した音源の推定音源位置を、同一でないと判定した音源よりも優先して選択する音源特定部１６を備える。
この構成により、スペクトルに基づいて同一と判定されなかった音源の定位音源方向の交点に基づいて推定された推定音源位置が棄却される可能性が高くなる。そのため、互いに異なる音源の推定音源方向の交点に基づいて推定音源位置が虚像（ゴースト）として誤って選択される可能性を低くすることができる。

音源特定部１６は、第２クラスタのそれぞれに分類されるスペクトルに係る音源の推定音源位置の分散に基づいて当該第２クラスタの安定性を評価し、安定性が高い第２クラスタほど当該第２クラスタにスペクトルが分類される音源の推定音源位置を優先して選択する。
この構成により、推定音源位置が定常的な音源のスペクトルが分類される第２クラスタに対応する音源の推定音源位置が選択される可能性が高くなる。即ち、推定音源位置が選択される第２クラスタには、偶発的に互いに異なる音源の推定音源方向の交点に基づいて推定される推定音源位置が含まれる可能性が低くなる。そのため、互いに異なる音源の推定音源方向の交点に基づいて推定音源位置が虚像として誤って選択される可能性をさらに低くすることができる。

以上、図面を参照してこの発明の実施形態について説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。

例えば、分散算出部１６０は、図１１の処理のうちステップＳ２２２、Ｓ２２４の処理を行い、ステップＳ２２６〜Ｓ２４０の処理を行わなくてもよい。その場合には、スコア算出部１６２が省略されてもよい。その場合、音源選択部１６４は、第２クラスタに分類されるスペクトルに係る音源が互いに同一と判定された第２クラスタに対応する候補音源を音源として選択し、同一と判定されない第２クラスタに対応する候補音源を棄却してもよい。音源選択部１６４は、選択した音源に対応する推定音源位置を示す出力音源位置情報を音響処理装置１の外部に出力する。
また、音響処理装置１において、周波数分析部１２４と音源特定部１６が省略されてもよい。その場合、音源位置更新部１４２は、音源候補ごとの推定音源位置を示す推定音源位置情報を出力部１８に出力する。

音響処理装置１は、収音部２０−１〜２０−Ｍと一体化した単一の装置として構成されてもよい。
収音部２０の数Ｍは、３個に限られず４個以上であってもよい。また、収音部２０ごとに収音可能とする音響信号のチャネル数が異なってもよいし、それぞれの音響信号から推定可能な音源数が異なってもよい。
第１確率が従う確率分布は、フォン・ミーゼス分布に限られず、ロジスティック関数の導関数など、１次元空間内のある基準値に対する最大値を与える１次元の確率分布であればよい。
第２確率が従う確率分布は、多次元ガウス関数に限られず、多次元ロジスティック関数の一次導関数など、多次元空間内のある基準値に対する最大値を与える多次元の確率分布であればよい。

なお、上述した実施形態及び変形例における音響処理装置１の一部、例えば、音源定位部１２０、音源分離部１２２、周波数分析部１２４、初期値設定部１４０、音源位置更新部１４２、分散算出部１６０、スコア算出部１６２及び音源選択部１６４をコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、音響処理装置１に内蔵されたコンピュータシステムであって、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
また、上述した実施形態及び変形例における音響処理装置１の一部、または全部を、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）等の集積回路として実現してもよい。音響処理装置１の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はＬＳＩに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりＬＳＩに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。

Ｓ１…音響処理システム、１…音響処理装置、１０…入力部、１２…初期処理部、１４…音源位置推定部、１６…音源特定部、１８…出力部、１２０…音源定位部、１２２…音源分離部、１２４…周波数分析部、１４０…初期値設定部、１４２…音源位置更新部、１６０…分散算出部、１６２…スコア算出部、１６４…音源選択部

Claims

位置が異なるＭ（Ｍは、３以上の整数）個の収音部のそれぞれから取得した複数チャネルの音響信号に基づいて音源の方向である定位音源方向を定める音源定位部と、
３個の前記収音部の組のうち２個の前記収音部の対ごとに当該収音部のそれぞれから前記定位音源方向への直線の交点を定め、それぞれ定めた交点の重心を音源の位置の推定値である推定音源位置の初期値として定め、
前記収音部の対ごとに当該収音部のそれぞれから前記推定音源位置への方向である推定音源方向への直線の交点を定め、前記交点の分布を複数のクラスタに分類し、
前記推定音源位置が前記音源に対応するクラスタに分類される確率である推定確率がより高くなるように、前記推定音源位置と前記クラスタを一定にして当該推定確率が従う確率モデルのモデルパラメータを更新する処理と、
前記推定確率がより高くなるように、前記モデルパラメータを一定にして前記推定音源位置と前記クラスタを更新する処理と、を行う音源位置推定部と、
を備える音響処理装置。
前記推定確率は、前記定位音源方向が定められるとき前記推定音源方向が得られる確率である第１確率と、前記交点が定められるとき前記推定音源位置が得られる確率である第２確率と、前記交点が分類されるクラスタの出現確率である第３確率と、をそれぞれ因子とする積である
請求項１に記載の音響処理装置。
前記第１確率は、前記定位音源方向を基準とするフォン・ミーゼス分布に従い、前記第２確率は、前記交点の位置を基準とする多次元ガウス関数に従い、
前記音源位置推定部は、
前記推定確率がより高くなるように、前記フォン・ミーゼス分布の形状パラメータと、前記多次元ガウス関数の平均ならびに分散と、を更新する
請求項２に記載の音響処理装置。
前記複数チャネルの音響信号から音源ごとの音源別信号に分離する音源分離部と、
前記音源別信号のスペクトルを算出する周波数分析部と、
前記スペクトルを複数の第２クラスタに分類し、前記第２クラスタのそれぞれに分類される各スペクトルに係る音源が同一であるか否かを判定し、
同一と判定した音源の前記推定音源位置を、同一でないと判定した音源の前記推定音源位置よりも優先して選択する音源特定部と、
を備える請求項１から請求項３のいずれか一項に記載の音響処理装置。
前記音源特定部は、
前記第２クラスタのそれぞれに分類されるスペクトルに係る音源の前記推定音源位置の分散に基づいて当該第２クラスタの安定性を評価し、
前記安定性が高い第２クラスタほど当該第２クラスタにスペクトルが分類される音源の前記推定音源位置を優先して選択する
請求項４に記載の音響処理装置。
音響処理装置における音響処理方法であって、
前記音響処理装置が、
位置が異なるＭ（Ｍは、３以上の整数）個の収音部のそれぞれから取得した複数チャネルの音響信号に基づいて音源の方向である定位音源方向を定める音源定位過程と、
３個の前記収音部の組のうち２個の前記収音部の対ごとに当該収音部のそれぞれから前記定位音源方向への直線の交点を定め、それぞれ定めた交点の重心を音源の位置の推定値である推定音源位置の初期値として定め、
前記収音部の対ごとに当該収音部のそれぞれから前記推定音源位置への方向である推定音源方向への直線の交点を定め、前記交点の分布を複数のクラスタに分類し、
前記推定音源位置が前記音源に対応するクラスタに分類される確率である推定確率がより高くなるように、前記推定音源位置と前記クラスタを一定にして当該推定確率が従う確率モデルのモデルパラメータを更新する処理と、
前記推定確率がより高くなるように、前記モデルパラメータを一定にして前記推定音源位置と前記クラスタを更新する処理と、を行う音源位置推定過程と、
を有する音響処理方法。
位置が異なるＭ（Ｍは、３以上の整数）個の収音部のそれぞれから取得した複数チャネルの音響信号に基づいて音源の方向である定位音源方向を定める音源定位手順と、
３個の前記収音部の組のうち２個の前記収音部の対ごとに当該収音部のそれぞれから前記定位音源方向への直線の交点を定め、それぞれ定めた交点の重心を音源の位置の推定値である推定音源位置の初期値として定め、
前記収音部の対ごとに当該収音部のそれぞれから前記推定音源位置への方向である推定音源方向への直線の交点を定め、前記交点の分布を複数のクラスタに分類し、
前記推定音源位置が前記音源に対応するクラスタに分類される確率である推定確率がより高くなるように、前記推定音源位置と前記クラスタを一定にして当該推定確率が従う確率モデルのモデルパラメータを更新する処理と、
前記推定確率がより高くなるように、前記モデルパラメータを一定にして前記推定音源位置と前記クラスタを更新する処理と、を行う音源位置推定手順と、
を実行させるためのプログラム。