JP6973254B2

JP6973254B2 - 信号分析装置、信号分析方法および信号分析プログラム

Info

Publication number: JP6973254B2
Application number: JP2018073471A
Authority: JP
Inventors: 信貴伊藤; 智広中谷; 章子荒木
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-04-05
Filing date: 2018-04-05
Publication date: 2021-11-24
Anticipated expiration: 2038-04-05
Also published as: JP2019184747A; US20200411027A1; US11302343B2; WO2019194300A1

Description

本発明は、信号分析装置、信号分析方法および信号分析プログラムに関する。

Ｎ´個（Ｎ´は０以上の整数）の音源信号が混在する状況において、それぞれ異なる位置で取得された複数の観測信号から、各時刻において各音源が鳴っているか否かを判定するダイアリゼーション技術がある。Ｎ´は真の音源数であり、Ｎは仮定した音源数であるとする。仮定した音源数であるＮは、真の音源数Ｎ´以上になるように、十分大きく設定しているものとする。具体的に、音声会議などの用途を想定すると、会議の席が６席用意されている場合には、想定される最大の参加者数は６人であるので、Ｎ＝６とすればよい。なお、実際の参加者は４人である場合には、Ｎ´＝４になる。

N. Ito, S. Araki, M. Delcroix, and T. Nakatani, "PROBABILISTIC SPATIAL DICTIONARY BASED ONLINE ADAPTIVE BEAMFORMING FOR MEETING RECOGNITION IN NOISY AND REVERBERANT ENVIRONMENTS", in Proceedings of International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Mar. 2017.

ここで、図７を用いて、従来のダイアリゼーション装置について説明する。図７は、従来のダイアリゼーション装置の構成を示す図である。図７に示すように、従来のダイアリゼーション装置１Ｐは、周波数領域変換部１１Ｐ、特徴抽出部１２Ｐ、記憶部１３Ｐ、音源位置生起確率推定部１４Ｐおよびダイアリゼーション部１５Ｐを有する。

周波数領域変換部１１Ｐは、入力された観測信号ｙ_ｍ（τ）を受け取り、短時間フーリエ変換などにより時間周波数領域の観測信号ｙ_ｍ（ｔ，ｆ）を計算する。ここで、τはサンプル点のインデックスであり、ｔ＝１，・・・，Ｔはフレームのインデックスであり、ｆ＝１，・・・，Ｆは周波数ビンのインデックスであり、ｍ＝１，・・・，Ｍはマイクロホンのインデックスである。Ｍ個のマイクロホンはそれぞれ異なる位置に配置されているとする。

特徴抽出部１２Ｐは、周波数領域変換部１１Ｐからの時間周波数領域の観測信号ｙ_ｍ（ｔ，ｆ）を受け取り、音源位置に関する特徴ベクトルｚ（ｔ，ｆ）を時間周波数点ごとに計算する（（１）式）。

ただし、ｙ（ｔ，ｆ）は（２）式であり、||ｙ（ｔ，ｆ）||_２は（３）式である。特徴ベクトルｚ（ｔ，ｆ）は、観測信号ベクトルｙ（ｔ，ｆ）の方向を表す単位ベクトルである。

従来技術では、各音源信号は、Ｋ個の音源位置の候補のいずれかから到来すると仮定し、それらの音源位置候補をインデックス（以下、「音源位置インデックス」）ｋ＝１，・・・，Ｋで表す。図８は、音声会議用途を想定した場合における話者の位置候補を説明する図である。例えば、複数の話者がテーブル２０の周りに着席して会話をしている状況では、図８に示すように、テーブルの周囲を細かく分割するｋ（ｋ＝１，・・・，Ｋ）個の点を音源位置候補とすることができる。なお、図８において、「ａｒｒａｙ」はＭ個のマイクロホンを表し、ｎは音源（話者）のインデックスを表し、Ｎは仮定された音源数（話者数）を表す。

従来技術では、各音源信号はスパースである、すなわち、各音源信号は少数の時間周波数点においてのみ有意なエネルギーを持つ、と仮定する。例えば、音声信号は、この仮定を比較的良く満足することが知られている。このスパース性の仮定の下では、各時間周波数点において、異なる音源信号が重なり合うことは稀であるため、各時間周波数点において、観測信号はただ１つの音源信号だけからなると近似できる。上述の通り、特徴ベクトルｚ（ｔ，ｆ）は、観測信号ベクトルｙ（ｔ，ｆ）の方向を表す単位ベクトルであるが、上記のスパース性の近似の下では、これは時間周波数点（ｔ，ｆ）にて観測信号に含まれる音源信号の音源位置に応じた値を取る。そのため、特徴ベクトルｚ（ｔ，ｆ）は、時間周波数点（ｔ，ｆ）において観測信号に含まれる音源信号の音源位置に応じて異なる確率分布に従う。

そこで、記憶部１３Ｐは、各音源位置候補ｋ、各周波数ビンｆに対する特徴ベクトルｚ（ｔ，ｆ）の確率分布ｑ_ｋｆを記憶する（ｋ＝１，・・・，Ｋ、ｆ＝１，・・・，Ｆ）。ここで、（１）式の特徴ベクトルｚ（ｔ，ｆ）の確率分布は、周波数ビンｆによって異なる分布形状を取るため、確率分布ｑ_ｋｆは、周波数ビンｆに依存すると仮定した。

音源位置生起確率推定部１４Ｐは、特徴抽出部１２Ｐからの特徴ベクトルｚ（ｔ，ｆ）と、記憶部１３Ｐからの確率分布ｑ_ｋｆと、を受け取って、フレームごとの音源位置インデックスの確率分布である音源位置生起確率π_ｋ（ｔ）を推定する。

音源位置生起確率推定部１４Ｐで得られた音源位置生起確率π_ｋ（ｔ）は、ｔ番目のフレームにおいて、ｋ番目の音源位置候補から音が到来する確率とみなせる。したがって、各フレームｔにおいて、音源位置生起確率π_ｋ（ｔ）は、鳴っている音源信号の音源位置に対応するｋの値では大きい値を取り、それ以外のｋの値では小さい値を取る。

例えば、フレームｔにおいて１個の音源信号のみが鳴っている場合には、音源位置生起確率π_ｋ（ｔ）は、その音源信号の音源位置に対応するｋの値では大きい値を取り、それ以外のｋの値では小さい値を取る。また、フレームｔにおいて２個の音源信号が鳴っている場合には、音源位置生起確率π_ｋ（ｔ）はそれらの音源信号の音源位置に対応するｋの値では大きい値を取り、それ以外のｋの値では小さい値を取る。したがって、フレームｔにおける音源位置生起確率π_ｋ（ｔ）のピークを検出することにより、フレームｔにて鳴っている音の音源位置を検出することができる。

そこで、ダイアリゼーション部１５Ｐは、音源位置生起確率推定部１４Ｐからの音源位置生起確率π_ｋ（ｔ）に基づいて、各フレームにおいて各音源が鳴っているか否かを判定する（すなわち、ダイアリゼーションを行う）。

具体的には、ダイアリゼーション部１５Ｐはまず、フレームごとに音源位置生起確率π_ｋ（ｔ）のピークを検出する。上述のように、このピークは、当該フレームにおいて鳴っている音の音源位置に対応する。ダイアリゼーション部１５Ｐは、さらに、各音源位置候補１，・・・，Ｋがどの音源に対応するかという音源位置候補と音源との対応関係が既知であるという仮定の下、各フレームｔにおいて、音源位置生起確率π_ｋ（ｔ）がピークを取る音源位置インデックスｋの値に対応する音源が鳴っており、そうでない音源は鳴っていないと判定することにより、ダイアリゼーションを行う。

なお、上記で音源位置候補と音源との対応関係が既知であると仮定した。例えば、各音源の音源位置の大まかな推定値が与えられている場合には、これに基づいて上記の対応関係を求めることができる（各音源位置候補を、最も位置が近い音源に対応付ければよい）。

しかしながら、従来のダイアリゼーション装置では、まず音源位置生起確率π_ｋ（ｔ）を推定し、次に音源位置生起確率π_ｋ（ｔ）に基づいてダイアリゼーションを行っていた。その際、音源位置生起確率π_ｋ（ｔ）は最尤法により最適に推定されていたが、ダイアリゼーションはヒューリスティクスに基づいており、最適ではなかった。また、従来のダイアリゼーション装置では、各音源信号の音源位置を既知としており、音源定位は行えなかった。

本発明は、上記に鑑みてなされたものであって、最適なダイアリゼーションの実行、または、適切な音源定位の実行を可能にする信号分析装置、信号分析方法および信号分析プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明の信号分析装置は、複数の信号源位置候補についての時間区間であるフレームごとの各信号源位置候補から信号が到来する確率からなる信号源位置生起確率行列Ｑを、複数の信号源についての信号源ごとの各信号源位置候補から信号が到来する確率からなる信号源位置確率行列Ｂと、フレームごとの各信号源からの信号の存在確率からなる信号源存在確率行列Ａと、の積でモデル化し、前記のモデル化に基づいて、信号源位置確率行列Ｂおよび信号源存在確率行列Ａの少なくとも一方を推定する推定部を有することを特徴とする。

本発明によれば、最適なダイアリゼーションの実行、または、適切な音源定位の実行を可能にする。

図１は、第１の実施形態に係る信号分析装置の構成の一例を示す図である。図２は、第１の実施形態に係る信号分析処理の処理手順の一例を示すフローチャートである。図３は、第１の実施形態の変形例１に係る信号分析装置の構成の一例を示す図である。図４は、第１の実施形態の変形例２に係る信号分析装置の構成の一例を示す図である。図５は、第１の実施形態の変形例３に係る信号分析装置の構成の一例を示す図である。図６は、プログラムが実行されることにより、信号分析装置が実現されるコンピュータの一例を示す図である。図７は、従来のダイアリゼーション装置の構成を示す図である。図８は、音声会議用途を想定した場合における話者の位置候補を説明する図である。

以下に、本願に係る信号分析装置、信号分析方法および信号分析プログラムの実施形態を図面に基づいて詳細に説明する。また、本発明は、以下に説明する実施形態により限定されるものではない。なお、以下では、ベクトル、行列又はスカラーであるＡに対し、“＾Ａ”と記載する場合は「“Ａ”の直上に“＾”が記された記号」と同じであるとする。また、ベクトル、行列又はスカラーであるＡに対し、“~Ａ”と記載する場合は「“Ａ”の直上に“~”が記された記号」と同じであるとする。

［第１の実施形態］
まず、第１の実施形態に係る信号分析装置について説明する。なお、第１の実施形態においては、Ｎ´個（Ｎ´は０以上の整数）の音源信号が混在する状況において、それぞれ異なる位置でマイクロホンにより取得されたＭ個（Ｍは２以上の整数）の観測信号ｙ_ｍ（τ）（ｍ＝１，・・・，Ｍ、Ｍはマイクロホンのインデックス、τはサンプル点のインデックス）が信号分析装置に入力されるものとする。

なお、本第１の実施形態における「音源信号」は、目的信号（例えば、音声）であってもよいし、特定の音源位置から到来する雑音である方向性雑音（例えば、テレビから流れる音楽）であってもよい。また、様々な音源位置から到来する雑音である拡散性雑音を、まとめて１つの「音源信号」とみなしてもよい。拡散性雑音の例としては、雑踏やカフェ等における大勢の人々の話し声、駅や空港における足音、空調による雑音などが挙げられる。

図１および図２を用いて、第１の実施形態の構成と処理について説明する。図１は、第１の実施形態に係る信号分析装置の構成の一例を示す図である。図２は、第１の実施形態に係る信号分析装置の処理の一例を示す図である。第１の実施形態に係る信号分析装置１は、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、ＣＰＵ（Central Processing Unit）等を含むコンピュータ等に所定のプログラムが読み込まれて、ＣＰＵが所定のプログラムを実行することで実現される。

図１に示すように、信号分析装置１は、周波数領域変換部１１、特徴抽出部１２、記憶部１３、初期化部（図示しない）、推定部１０および収束判定部（図示しない）を有する。

まず、信号分析装置１の各部の概要について説明する。周波数領域変換部１１は、入力された観測信号ｙ_ｍ（τ）を取得し（ステップＳ１）、短時間フーリエ変換などを用いて、観測信号ｙ_ｍ（τ）を周波数領域に変換して時間周波数領域の観測信号ｙ_ｍ（ｔ，ｆ）を得る（ステップＳ２）。ここで、ｔ＝１，・・・，Ｔはフレームのインデックスであり、ｆ＝１，・・・，Ｆは周波数ビンのインデックスである。

特徴抽出部１２は、周波数領域変換部１１からの時間周波数領域の観測信号ｙ_ｍ（ｔ，ｆ）を受け取り、音源位置に関する特徴ベクトル（（４）式）を時間周波数点ごとに計算する（ステップＳ３）。

なお、特徴量が１次元の場合には、ｚ（ｔ，ｆ）はスカラーとなるが、これは当然１次元のベクトルともみなせることから、この場合でも、式中では太字のｚを用いて表し（（５）式参照）、特徴ベクトルと称する。

本実施形態では、各音源信号はＫ個の音源位置の候補のいずれかから到来すると仮定し、それらの音源位置候補をインデックス（以下、「音源位置インデックス」）１，・・・，Ｋで表す。例えば、音源が円卓の周りに着席して会話している複数の話者であり、Ｍ個のマイクロホンが円卓の中央の数ｃｍ四方程度の小領域内に置かれており、音源位置として円卓の中央から見たときの音源の方位角のみに注目するとき、０°〜３６０°をＫ等分したＫ個の方位角Δφ，２Δφ，・・・，ＫΔφ（Δφ＝３６０°／Ｋ）を音源位置候補とすることができる。この例に限らず、一般に任意の所定のＫ点を、音源位置候補として指定することができる。

また、音源位置候補は、拡散性雑音を表す音源位置候補でもよい。拡散性雑音は、１つの音源位置から到来するのではなく、多数の音源位置から到来する。このような拡散性雑音も「多数の音源位置から到来する」という１つの音源位置候補とみなすことにより、拡散性雑音が存在する状況でも正確な推定が可能になる。

記憶部１３は、各音源位置候補ｋ、各周波数ビンｆに対する特徴ベクトルｚ（ｔ，ｆ）の確率分布ｑ_ｋｆを記憶する（ｋ＝１，・・・，Ｋ、ｆ＝１，・・・，Ｆ）。

図示しない初期化部は、フレームごとの各音源からの信号の存在確率である音源存在確率α_ｎ（ｔ）（ｎ＝１，・・・，Ｎは音源インデックス）と、音源ごとの各音源位置候補から信号が到来する確率（音源位置候補のインデックスである音源位置インデックスの音源ごとの確率分布）である音源位置確率β_ｋｎと、を初期化する（ステップＳ４）。例えば、初期化部は、乱数に基づいてこれらを初期化すればよい。

推定部１０は、複数の音源位置候補についての時間区間であるフレームごとの各音源位置候補から信号が到来する確率からなる音源位置生起確率行列Ｑを、複数の音源についての音源ごとの各音源位置候補から信号が到来する確率からなる音源位置確率行列Ｂと、フレームごとの各音源からの信号の存在確率からなる音源存在確率行列Ａと、の積でモデル化し、前記のモデル化に基づいて、音源位置確率行列Ｂおよび音源存在確率行列Ａの少なくとも一方を推定する。推定部１０は、事後確率更新部１４、音源存在確率更新部１５、音源位置確率更新部１６を有する。

事後確率更新部１４は、特徴抽出部１２からの特徴ベクトルｚ（ｔ，ｆ）と、記憶部１３からの確率分布ｑ_ｋｆと、音源存在確率更新部１５からの音源存在確率（ただし例外として、事後確率更新部１４における最初の処理の際には、初期化部からの音源存在確率）α_ｎ（ｔ）と、音源位置確率更新部１６からの音源位置確率（ただし例外として、事後確率更新部１４における最初の処理の際には、初期化部からの音源位置確率）β_ｋｎと、を受け取って、事後確率γ_ｋｎ（ｔ，ｆ）を計算し、更新する（ステップＳ５）。ここで、事後確率γ_ｋｎ（ｔ，ｆ）とは、特徴ベクトルｚ（ｔ，ｆ）が与えられた下での音源位置インデックスおよび音源インデックスの同時分布である。

音源存在確率更新部１５は、事後確率更新部１４からの事後確率γ_ｋｎ（ｔ，ｆ）を受け取って、音源存在確率α_ｎ（ｔ）を更新する（ステップＳ６）。

音源位置確率更新部１６は、事後確率更新部１４からの事後確率γ_ｋｎ（ｔ，ｆ）を受け取って、音源位置確率β_ｋｎを更新する（ステップＳ７）。

図示しない収束判定部は、処理が収束したかどうかの判定を行う（ステップＳ８）。収束判定部は、収束していないと判定した場合（ステップＳ８：Ｎｏ）、事後確率更新部１４での処理（ステップＳ５）に戻って、処理が継続される。一方、収束したと収束判定部が判定した場合（ステップＳ８：Ｙｅｓ）、音源存在確率更新部１５が音源存在確率α_ｎ（ｔ）を、音源位置確率更新部１６が音源位置確率β_ｋｎを、それぞれ出力し（ステップＳ９）、信号分析装置１での処理が終了する。

次に、第１の実施形態の処理の詳細について説明する。周波数領域変換部１１での処理については上述の通りである。特徴抽出部１２において抽出される特徴ベクトルｚ（ｔ，ｆ）は、どのような特徴ベクトルであってもよいが、本第１の実施形態では、その一例として、（６）式の特徴ベクトルｚ（ｔ，ｆ）を用いる。

ただし、ｙ（ｔ，ｆ）は（７）式であり、||ｙ（ｔ，ｆ）||_２は（８）式である（上付きのＴは転置を表す）。

（６）式の特徴ベクトルについては、参考文献１「H. Sawada, S. Araki, and S. Makino, “Underdetermined convolutive blind source separation via frequency bin-wise clustering and permutation alignment”, IEEE Transactions on Audio, Speech, and Language Processing, vol. 19, no. 3, pp. 516−527, Mar. 2011.」を参照されたい。

本第１の実施形態では、特徴抽出部１２で抽出された特徴ベクトルｚ（ｔ，ｆ）の確率分布ｐ（ｚ（ｔ，ｆ））を、（９）式でモデル化する。

ここで、π_ｋ（ｔ）は、フレームごとの音源位置インデックスの確率分布である音源位置生起確率である。π_ｋ（ｔ）は確率であるから、当然、次の（１０）式を満たすものとする。

（９）式のモデルは、各時間周波数点（ｔ，ｆ）における特徴ベクトルｚ（ｔ，ｆ）が、次の生成過程に基づいて生成されるという仮定に基づいている。

１．（ｔ，ｆ）における観測信号ｙ（ｔ，ｆ）に含まれる音源信号の音源位置を表す音源位置インデックスｋ（ｔ，ｆ）が、（１１）式の確率分布に従って生成される。すなわち、（ｔ，ｆ）にて観測信号ｙ（ｔ，ｆ）に含まれる音源信号がｋ番目の音源位置候補から到来する確率はπ_ｋ（ｔ）である（ｋ＝１，・・・，Ｋ）。

２．（ｔ，ｆ）における観測信号ｙ（ｔ，ｆ）に含まれる音源信号の音源位置を表す音源位置インデックスがｋ（ｔ，ｆ）＝ｋであるという条件の下で、特徴ベクトルｚ（ｔ，ｆ）が、（１２）式の条件付き分布に従って生成される。すなわち、条件ｋ（ｔ，ｆ）＝ｋの下で、特徴ベクトルｚ（ｔ，ｆ）は確率密度ｑ_ｋｆ（ｚ）に従う。

このとき、和の法則と積の法則より、特徴ベクトルｚ（ｔ，ｆ）の確率分布は、次の（１３）式〜（１５）式で与えられる。

これで、（９）式が導かれた。

本第１の実施形態では、各音源位置候補ｋ、各周波数ビンｆに対する特徴ベクトルｚ（ｔ，ｆ）の確率分布である（１２）式の確率分布ｑ_ｋｆは、事前に準備され、記憶部１３に記憶されているものとする。例えば、特徴ベクトルｚ（ｔ，ｆ）として、（６）式の特徴ベクトルを用い、確率分布ｑ_ｋｆを、（１６）式の複素ワトソン分布によりモデル化する場合、記憶部１３は、事前に準備されたｑ_ｋｆをモデル化するパラメータａ_ｋｆ,κ_ｋｆを、各音源位置候補ｋおよび各周波数ビンｆに対して記憶すればよい。

ここで、ａ_ｋｆは、確率分布ｑ_ｋｆの山（モード）の位置を表すパラメータであり、κ_ｋｆは、確率分布ｑ_ｋｆの山の急峻さ（集中度）を表すパラメータである。これらのパラメータは、マイクロホン配置の情報をもとに事前に準備してもよいし、実測データから事前に学習してもよい。詳細については、参考文献２「N. Ito, S. Araki, and T. Nakatani, “Data-driven and physical model-based designs of probabilistic spatial dictionary for online meeting diarization and adaptive beamforming”, in Proceedings of European Signal Processing Conference (EUSIPCO), pp. 1205−1209, Aug. 2017.」に開示されている。他の特徴ベクトル・確率分布を用いた場合にも、上と同様にして確率分布ｑ_ｋｆを準備することができる。

本第１の実施形態では、「ｑ_ｋｆ」のように添え字ｆを添えている。これは、上の例のように、特徴ベクトルｚ（ｔ，ｆ）の確率分布ｑ_ｋｆが周波数ビンｆに依存する場合も扱えるようにするためであるが、ｑ_ｋ１＝・・・＝ｑ_ｋＦとなるようにすることで、特徴ベクトルｚ（ｔ，ｆ）の確率分布ｑ_ｋｆが周波数ビンｆに依存しない場合も扱えることに注意する。

音源位置生起確率π_ｋ（ｔ）は、フレームには依存する（すなわちｔには依存する）が周波数ビンには依存しない（すなわちｆには依存しない）と仮定した。これは、鳴っている音源（複数でもよい）が時刻によって変わる（例えば、複数人による会話において、発話している話者が時刻によって変わる）などの理由により、音源信号がどの音源位置候補から到来する確率が高いかは時刻によって変わるためである。

本第１の実施形態では、音源位置生起確率π_ｋ（ｔ）が、音源存在確率α_ｎ（ｔ）と音源位置確率β_ｋｎを用いて、次の（１７）式のように表されると仮定する。

ここで、音源存在確率α_ｎ（ｔ）と音源位置確率β_ｋｎは確率であるから、次の２式（（１８）式および（１９）式）を満たすものとする。

このとき、（１７）式の音源位置生起確率π_ｋ（ｔ）が（１０）式を満たすことが、次の（２０）式〜（２３）式のようにして確認できる。

（１７）式のモデルは、各時間周波数点（ｔ，ｆ）における音源位置インデックスｋ（ｔ，ｆ）が、次の生成過程に基づいて生成されるという仮定に基づいている。

１．（ｔ，ｆ）における観測信号ｙ（ｔ，ｆ）に含まれる音源信号を表す音源インデックスｎ（ｔ，ｆ）が、（２４）式の確率分布に従って生成される。

２．（ｔ，ｆ）における観測信号ｙ（ｔ，ｆ）に含まれる音源信号を表す音源インデックスがｎ（ｔ，ｆ）＝ｎであるという条件の下で、（ｔ，ｆ）における音源位置インデックスｋ（ｔ，ｆ）が、（２５）式の条件付き分布に従って生成される。

このとき、和の法則と積の法則より、音源位置インデックスｋ（ｔ，ｆ）の確率分布は、次の（２６）式〜（２９）式で与えられる。

これによって（１７）式が導かれた。

なお、音源存在確率α_ｎ（ｔ）は、フレームには依存する（すなわちｔには依存する）が周波数ビンには依存しない（すなわちｆには依存しない）と仮定した。これは、鳴っている音源（複数でもよい）が時刻によって変わるなどの理由により、どの音源信号が存在する確率が高いかは時刻によって変わるが、音源が鳴っているフレームではどの周波数においても該音源が存在する可能性があるためである。また、音源位置確率β_ｋｎは、フレームおよび周波数ビンに依存しない（すなわちｔおよびｆに依存しない）と仮定した。これは、各音源信号がどの音源位置候補から到来する確率が高いかは、その音源の位置に従ってある程度定まっており、大きくは変動しないという仮定に基づいている。

（１７）式は、次の（３０）式のように行列形式で表すことができる。

ここで、行列Ｑ，Ｂ，Ａは、以下の（３１）式〜（３３）式のように定義される。

実際、（３０）式の両辺の（ｋ，ｔ）要素から、（１７）式が得られる。Ｑは、音源位置生起確率π_ｋ（ｔ）からなる行列であるから、音源位置生起確率行列と呼ぶ。Ｂは、音源位置確率β_ｋｎからなる行列であるから、音源位置確率行列と呼ぶ。Ａは、音源存在確率α_ｎ（ｔ）からなる行列であるから、音源存在確率行列と呼ぶ。

（９）式に（１７）式を代入することによって、本第１の実施形態では、特徴ベクトルｚ（ｔ，ｆ）の確率分布を次の（３４）式によりモデル化する。

本第１の実施形態では、（３５）式に示す尤度の最大化に基づいて、音源存在確率α_ｎ（ｔ）および音源位置確率β_ｋｎを推定（最尤推定）する。

最尤推定は、ＥＭアルゴリズムに基づいて、ＥステップとＭステップを交互に所定回数だけ繰り返すことで実現できる。この反復により尤度（（３５）式）を単調増加させることができることが理論的に保証されている。すなわち、
（ｉ回目の反復において得られたパラメータの推定値に対する尤度）≦（ｉ＋１回目の反復において得られたパラメータの推定値に対する尤度）
となる。

Ｅステップでは、特徴ベクトルｚ（ｔ，ｆ）が与えられた下での音源位置インデックスｋ（ｔ，ｆ）と音源インデックスｎ（ｔ，ｆ）との同時分布である（３６）式の事後確率γ_ｋｎ（ｔ，ｆ）を、Ｍステップで得られた音源存在確率α_ｎ（ｔ）および音源位置確率β_ｋｎの推定値（ただし例外として、１回目の反復の際には、音源存在確率α_ｎ（ｔ）および音源位置確率β_ｋｎの推定値の初期値）に基づいて更新する。

ここで、事後確率γ_ｋｎ（ｔ，ｆ）は確率であるから、当然、次の（３７）式を満たす。

Ｅステップでは、具体的には、次の（３８）式により事後確率γ_ｋｎ（ｔ，ｆ）を更新する。なお、（３８）式の処理は事後確率更新部１４で行われる。

Ｍステップでは、音源存在確率α_ｎ（ｔ）および音源位置確率β_ｋｎの推定値を、事後確率γ_ｋｎ（ｔ，ｆ）に基づいて、以下の（３９）式および（４０）式のように更新する。（３９）式の処理は、音源存在確率更新部１５において実行され、（４０）式の処理は音源位置確率更新部１６において実行される。

なお、尤度（（３５）式）の最大化は、ＥＭアルゴリズムに限らず他の最適化法（例えば、勾配法）により行ってもよい。

また、（３８）式の処理は必須ではない。例えば、ＥＭアルゴリズムの代わりに勾配法を用いる場合、（３８）式の処理は不要である。

また、音源存在確率α_ｎ（ｔ）が既知の場合には、音源存在確率α_ｎ（ｔ）と音源位置確率β_ｋｎの両方を推定するのではなく、音源存在確率α_ｎ（ｔ）を固定して、音源位置確率β_ｋｎだけを推定してもよい。例えば、音源存在確率α_ｎ（ｔ）を固定して、（３８）式による事後確率γ_ｋｎ（ｔ，ｆ）の更新および（４０）式による音源位置確率β_ｋｎの更新を交互に繰り返せばよい。

また、音源位置確率β_ｋｎが既知の場合には、音源存在確率α_ｎ（ｔ）と音源位置確率β_ｋｎの両方を推定するのではなく、音源位置確率β_ｋｎを固定して、音源存在確率α_ｎ（ｔ）だけを推定してもよい。例えば、音源位置確率β_ｋｎを固定して、（３８）式による事後確率γ_ｋｎ（ｔ，ｆ）の更新および（３９）式による音源存在確率α_ｎ（ｔ）の更新を交互に繰り返せばよい。

ここで、上述のＥＭアルゴリズムにおける更新則（３８）式，（３９）式および（４０）式の導出を述べる。Ｅステップでは、Ｍステップで得られたパラメータの推定値（ただし例外として、１回目の反復においては、パラメータの推定値の初期値）に基づいて、隠れ変数の事後確率を更新する。本第１の実施形態における隠れ変数は、音源位置インデックスｋ（ｔ，ｆ）と音源インデックスｎ（ｔ，ｆ）とする。したがって、隠れ変数の事後確率γ_ｋｎ（ｔ，ｆ）は、（４１）式である。

これは次の（４２）式〜（４４）式のように計算できる。

これでＥステップの更新則（３８）式が導かれた。

Ｍステップでは、Ｅステップで計算した隠れ変数の事後確率に基づいて、パラメータの推定値を更新する。その際の更新則は、観測変数と隠れ変数の同時分布の対数に対して、Ｅステップで計算した隠れ変数の事後確率に関する期待値を計算することで得られるＱ関数を最大化することにより得られる。本第１の実施形態の場合、観測変数は特徴ベクトルｚ（ｔ，ｆ）であり、隠れ変数は音源位置インデックスｋ（ｔ，ｆ）および音源インデックスｎ（ｔ，ｆ）であるから、Ｑ関数は次の（４５）式〜（４８）式のようになる。

ここで、Ｃは、音源存在確率α_ｎ（ｔ）および音源位置確率β_ｋｎに依らない定数を表す。このＱ関数を最大化する音源存在確率α_ｎ（ｔ）および音源位置確率β_ｋｎの推定値は、拘束条件（１８）式および（１９）式に注意して、ラグランジュの未定乗数法を適用することにより得られる。以下、音源存在確率α_ｎ（ｔ）についてのみ説明するが、音源位置確率β_ｋｎについても同様である。ラグランジュ未定乗数をλとした（４９）式を示す。

（４９）式をα_ｎ（ｔ）に関して偏微分したものを０とおくことにより、（５０）式を得る。

これをα_ｎ（ｔ）について解いて、（５１）式を得る。

（５１）式はラグランジュ未定乗数λを含んでいるが、λの値は、（５１）式を拘束条件（１８）式に代入することにより、定めることができる（（５２）式および（５３）式参照）。

よって、λ＝Ｆである。これによって（３９）式が導出された。

［第１の実施形態の効果］
このように、第１の実施形態では、複数の音源位置候補についての時間区間であるフレームごとの各音源位置候補から信号が到来する確率からなる音源位置生起確率行列Ｑを、複数の音源についての音源ごとの各音源位置候補から信号が到来する確率からなる音源位置確率行列Ｂと、フレームごとの各音源からの信号の存在確率からなる音源存在確率行列Ａと、の積でモデル化する。したがって、本第１の実施形態では、このモデル化に基づいて、音源位置確率行列Ｂおよび音源存在確率行列Ａの少なくとも一方を最適に推定することができる。

後述するように、音源存在確率行列の推定はダイアリゼーションに相当する。このため、本第１の実施形態に示した、音源位置確率行列および音源存在確率行列を推定する構成と、音源存在確率行列のみを推定する構成とでは、最適にダイアリゼーションを行える。また、後述するように、音源位置確率行列の推定は音源定位に相当する。このため、本第１の実施形態に示した、音源位置確率行列および音源存在確率行列を推定する構成と、音源位置確率行列のみを推定する構成と、では、適切に音源定位を実行することができる。

［第１の実施形態の変形例１］
第１の実施形態の変形例１では、第１の実施形態で得られた音源存在確率α_ｎ（ｔ）を用いて、ダイアリゼーションを行う例について説明する。

図３は、第１の実施形態の変形例１に係る信号分析装置の構成の一例を示す図である。図３に示すように、第１の実施形態の変形例１に係る信号分析装置１Ａは、図１に示す信号分析装置１と比して、ダイアリゼーションを行うダイアリゼーション部１７をさらに有する。

ここで、ダイアリゼーションとは、複数人が会話をしている状況で、マイクロホンで取得された観測信号から、各時刻において各話者が話しているか否かを判定する技術である。このような状況に対して第１の実施形態を適用した場合、音源存在確率α_ｎ（ｔ）は、各時刻において各話者が話している確率とみなすことができる。そこで、ダイアリゼーション部１７は、ｃを所定の閾値（たとえばｃ＝０．５）として、（５４）式のように判定を行うことで、各フレームにおいて各話者が話しているか否かの判定、すなわちダイアリゼーションを行い、ダイアリゼーション結果ｄ_ｎ（ｔ）を出力する。例えば、ｄ_ｎ（ｔ）は、フレームｔにおいて話者ｎが話していると判定されたときには１、そうでないときには０とすればよい。

ただし、音源信号が音声信号と雑音の両方からなる場合は、音声信号に対応するｎに対するα_ｎ（ｔ）のみを用いる構成としてもよい。例えば、ｎ＝１，・・・，Ｎ−１が音声信号に対応し、ｎ＝Ｎが雑音に対応する場合は、α_ｎ（ｔ）（１≦ｎ≦Ｎ−１）に対して（５４）式を適用することにより、各フレームにおいて話者１〜Ｎ−１が話しているか否かを判定することができる。

なお、（５４）式は、一例である。このため、（５４）式の上段の式では、「α_ｎ（ｔ）＞ｃ」の代わりに「α_ｎ（ｔ）≧ｃ」としてもよい。すなわち、ダイアリゼーション部１７は、音源存在確率α_ｎ（ｔ）が所定の閾値より大きい場合に、「話している（音源からの信号が存在している）」と判定する代わりに、音源存在確率α_ｎ（ｔ）が所定の閾値以上である場合に、「話している（音源からの信号が存在している）」と判定してもよい。また、（５４）式の下段の式では、「α_ｎ（ｔ）≦ｃ」の代わりに「α_ｎ（ｔ）＜ｃ」としてもよい。すなわち、ダイアリゼーション部１７は、音源存在確率α_ｎ（ｔ）が所定の閾値以下である場合に、「話していない（音源からの信号が存在していない）」と判定する代わりに、音源存在確率α_ｎ（ｔ）が所定の閾値より小さい場合に、「話していない（音源からの信号が存在していない）」と判定してもよい。また、ダイアリゼーション部１７は、「話している（音源からの信号が存在している）」との判定だけをしてもよく、「話していない（音源からの信号が存在していない）」との判定だけをしてもよく、さらに、両方の判定をしてもよい。

この信号分析装置１Ａのように、少なくとも１つの音源の少なくとも１つのフレームについて、音源存在確率行列Ａに含まれる該フレームにおける該音源からの信号の存在確率が所定の閾値より大きいまたは所定の閾値以上である場合に、該フレームにおいて該音源からの信号が存在していると判定する、および／または、少なくとも１つの音源の少なくとも１つのフレームについて、推定部１０が推定した音源存在確率行列Ａに含まれる該フレームにおける該音源からの信号の存在確率が所定の閾値より小さいまたは所定の閾値以下である場合に、該フレームにおいて該音源からの信号が存在していないと判定するダイアリゼーション部１７をさらに有し、ダイアリゼーションを行ってもよい。

［第１の実施形態の変形例２］
第１の実施形態の変形例２では、第１の実施形態で得られた音源位置確率β_ｋｎを用いて、音源定位を行う例について説明する。

図４は、第１の実施形態の変形例２に係る信号分析装置の構成の一例を示す図である。図４に示すように、第１の実施形態の変形例２に係る信号分析装置１Ｂは、図１に示す信号分析装置１と比して、音源定位を行う音源定位部１８をさらに有する。

ここで、音源定位とは、マイクロホンで取得された観測信号から、各音源（複数あってもよい）の座標を推定する技術である。特に、各音源の直交座標（ξ η ζ）^Ｔ（ξ，η，ζはそれぞれｘ，ｙ，ｚ座標）または球座標（ρ θ φ）^Ｔ（ρ，θ，φはそれぞれ動径、天頂角、方位角）をすべて推定する場合と、これらの座標のうちの一部のみ、例えば方位角φのみを推定する場合（この場合の音源定位は到来方向推定とも呼ばれる）と、がある。

本第１の実施の形態の変形例２では、各音源位置候補の座標（直交座標、球座標、またはそれらの一部の座標）が分かっていると仮定する。

また、第１の実施形態により得られた音源位置確率β_ｋｎは、各音源の位置が各音源位置候補である確率とみなすことができる。そこで、音源定位部１８は、次のように処理を行うことによって、各音源の座標を推定し、出力する。

１．ｎを固定してβ_ｋｎが最大となるｋの値ｋ_ｎを求める。
２．ｋ_ｎの値に対応する音源位置候補の座標を、ｎ番目の音源の座標の推定値とする。
３．上記１、２を、各ｎに対して行う。

［第１の実施形態の変形例３］
第１の実施形態の変形例３では、第１の実施形態で得られた音源存在確率α_ｎ（ｔ）および音源位置確率β_ｋｎを用いて、各時間周波数点においてどの音源が存在するかを表すマスクを求める例について説明する。

図５は、第１の実施形態の変形例３に係る信号分析装置の構成の一例を示す図である。図５に示すように、第１の実施形態の変形例３に係る信号分析装置１Ｃは、図１に示す信号分析装置１と比して、音源存在確率α_ｎ（ｔ）および音源位置確率β_ｋｎを用いてマスクを推定するマスク推定部１９をさらに有する。マスク推定部１９は、音源存在確率行列Ａに含まれるフレームごとの各音源からの信号の存在確率である音源存在確率α_ｎ（ｔ）と、音源位置確率行列Ｂに含まれる音源ごとの各音源位置候補から信号が到来する確率である音源位置確率β_ｋｎと、特徴抽出部１２からの特徴ベクトルｚ（ｔ，ｆ）と、記憶部１３からの確率分布ｑ_ｋｆと、を用いて、各時間周波数点においてどの音源が存在するかを表すマスクを推定する。

マスク推定部１９は、まず、音源存在確率α_ｎ（ｔ）と、音源位置確率β_ｋｎと、特徴ベクトルｚ（ｔ，ｆ）と、確率分布ｑ_ｋｆと、を用いて、特徴ベクトルｚ（ｔ，ｆ）が観測された下での、各時間周波数点での音源位置インデックスｋ（ｔ，ｆ）および音源インデックスｎ（ｔ，ｆ）の同時分布である事後確率γ_ｋｎ（ｔ，ｆ）を、次の（５５）式により計算する。なお、ＥＭアルゴリズムを用いる場合には、Ｅステップにおいて更新した（３８）式の事後確率γ_ｋｎ（ｔ，ｆ）をそのまま用いてもよい。

次に、マスク推定部１９は、特徴ベクトルｚ（ｔ，ｆ）が観測された下での音源インデックスｎ（ｔ，ｆ）の条件付き確率であるマスクλ_ｎ（ｔ，ｆ）（（５６）式）を計算する。

具体的には、マスク推定部１９は、事後確率γ_ｋｎ（ｔ，ｆ）を用いて、次の（５７）式および（５８）式に基づいてマスクλ_ｎ（ｔ，ｆ）を計算できる。

上式と（３７）式より、λ_ｎ（ｔ，ｆ）は次の（５９）式を満たす。

ひとたびマスクが求まれば、音源分離、雑音除去、音源定位などに用いることができる。以下では、音源分離への応用例について説明する。

マスクλ_ｎ（ｔ，ｆ）は、時間周波数点（ｔ，ｆ）において音源信号ｎが存在する場合には１に近い値を取り、そうでない場合には０に近い値を取る。したがって、例えば１番目のマイクロホンで取得した観測信号ｙ_１（ｔ，ｆ）に、音源信号ｎに対するマスクλ_ｎ（ｔ，ｆ）を掛ければ、音源信号ｎが存在する時間周波数点（ｔ，ｆ）における成分は保存され、音源信号ｎが存在しない時間周波数点（ｔ，ｆ）における成分は抑圧されるため、音源信号ｎに対応する分離信号＾ｓ_ｎ（ｔ，ｆ）が（６０）式のように得られる。

そして、これを各音源信号ｎに対して行うことにより、音源分離を実現することができる。なお、上では、１番目のマイクロホンで取得した観測信号ｙ_１（ｔ，ｆ）を用いる例について説明したが、これに限らず、任意のマイクロホンで取得した観測信号を用いることができる。

［第１の実施形態の変形例４］
第１の実施形態および第１の実施形態の変形例１〜３では、全フレームの観測信号ベクトルｙ（ｔ，ｆ）が得られてからまとめて処理を行うバッチ処理について説明したが、各フレームの観測信号ベクトルｙ（ｔ，ｆ）が得られるごとに逐次処理を行うオンライン処理を行ってもよい。第１の実施形態の変形例４では、このオンライン処理について説明する。

上述のＥＭアルゴリズムの処理（３８）式、（３９）式および（４０）式のうち、（３８）式と（３９）式とはフレームごとに計算できるが、（４０）式はｔに関する和を含むため、そのままではフレームごとに計算できない。これをフレームごとに計算できるようにするために、まず、（４０）式が次の（６１）式のように書き直せることに着目する。

ここで、（６２）式に示すγ_ｋｎの上に“−”が記された記号は、事後確率γ_ｋｎ（ｔ，ｆ）のｔとｆとに関する平均である。

β_ｋｎをフレームごとに計算できるようにするために、（６１）式におけるγ_ｋｎの上に“−”が記された記号で表わされた平均を移動平均~γ_ｋｎで置き換える（（６３）式）。ここで、β_ｋｎ（ｔ）は、β_ｋｎと同じ意味であるが、フレームｔで更新された値であることを明示的に表したものである。

ここで、移動平均~γ_ｋｎ（ｔ）は、フレームごとに次の（６４）式により更新できる。なお、δは忘却係数である。

本第１の実施形態の変形例４に係る信号分析装置１における処理の流れは次の通りである。フレームｔごとに、事後確率更新部１４が（３８）式により事後確率γ_ｋｎ（ｔ，ｆ）を更新し、音源存在確率更新部１５が（３９）式により音源存在確率α_ｎ（ｔ）を更新し、音源位置確率更新部１６が（６４）式により移動平均~γ_ｋｎ（ｔ）を更新し、（６３）式により音源位置確率β_ｋｎ（ｔ）を更新する。

［第１の実施形態の変形例５］
第１の実施形態では、音源位置確率行列と音源存在確率行列との積で表わされた音源位置生起確率行列を混合重みとする混合分布を特徴ベクトルｚ（ｔ，ｆ）に当てはめることにより、音源位置確率行列と音源存在確率行列を推定する例について説明した。これに限らず、第１の実施形態では、まず、従来技術を用いて音源位置生起確率行列を求めてから、これを音源位置確率行列と音源存在確率行列との積に分解することにより、音源位置確率行列と音源存在確率行列を推定する構成としてもよい。本第１の実施形態の変形例５では、そのような構成例について説明する。

第１の実施形態の変形例５に係る信号分析装置では、従来技術により音源位置生起確率π_ｋ（ｔ）を推定し、音源位置生起確率π_ｋ（ｔ）からなる音源位置生起確率行列Ｑを（６５）式のように、音源位置確率β_ｋｎからなる音源位置確率行列Ｂと、音源存在確率α_ｎ（ｔ）からなる音源存在確率行列Ａと、の積に分解することにより、音源位置確率β_ｋｎと音源存在確率α_ｎ（ｔ）を得る。

これは、音源位置確率行列Ｂと音源存在確率行列Ａとの積ＢＡが音源位置生起確率行列Ｑに近づくように音源位置確率行列Ｂと音源存在確率行列Ａとを推定することにより、行うことができる。

上記の推定は、ＮＭＦ（nonnegative matrix factorization）などの既存技術を用いて行うことができる。ＮＭＦについては、参考文献３「亀岡弘和, “非負値行列因子分解”, 計測と制御, vol. 51, no. 9, 2012.」、参考文献４「澤田宏, “非負値行列因子分解ＮＭＦの基礎とデータ／信号解析への応用”, 電子情報通信学会誌, vol. 95, no. 9, pp. 829−833, 2012.」などに開示されている。

［第１の実施形態の変形例６］
本第１の実施形態は、音信号に限らず、他の信号（脳波、脳磁図、無線信号など）に対して適用してもよい。すなわち、本発明における観測信号は、複数のマイクロホン（マイクロホンアレイ）により取得された観測信号に限らず、脳波計、脳磁計、アンテナアレイなどの他のセンサアレイ（複数のセンサ）により取得された、空間上の位置から時系列として発生する信号からなる観測信号であってもよい。

［システム構成等］
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。すなわち、上記学習方法および音声認識方法において説明した処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

［プログラム］
図６は、プログラムが実行されることにより、信号分析装置１，１Ａ，１Ｂ，１Ｃが実現されるコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ１０１１およびＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

ハードディスクドライブ１０９０は、例えば、ＯＳ（Operating System）１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、信号分析装置１，１Ａ，１Ｂ，１Ｃの各処理を規定するプログラムは、コンピュータ１０００により実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、信号分析装置１，１Ａ，１Ｂ，１Ｃにおける機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid State Drive）により代替されてもよい。

また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３およびプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３およびプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等はすべて本発明の範疇に含まれる。

１，１Ａ，１Ｂ，１Ｃ信号分析装置
１Ｐダイアリゼーション装置
１０推定部
１１，１１Ｐ周波数領域変換部
１２，１２Ｐ特徴抽出部
１３，１３Ｐ記憶部
１４事後確率更新部
１４Ｐ音源位置生起確率推定部
１５音源存在確率更新部
１６音源位置確率更新部
１７，１５Ｐダイアリゼーション部
１８音源定位部
１９マスク推定部

Claims

複数の信号源位置候補についての時間区間であるフレームごとの各信号源位置候補から信号が到来する確率からなる信号源位置生起確率行列Ｑを、複数の信号源についての信号源ごとの前記各信号源位置候補から信号が到来する確率からなる信号源位置確率行列Ｂと、前記フレームごとの前記各信号源からの信号の存在確率からなる信号源存在確率行列Ａと、の積でモデル化し、前記モデル化に基づいて、前記信号源位置確率行列Ｂおよび前記信号源存在確率行列Ａの少なくとも一方を推定する推定部を有することを特徴とする信号分析装置。
前記推定部は、前記モデル化された信号源位置生起確率行列Ｑを混合重みとする混合分布を、複数のフレームについて、観測された信号に当てはめることにより、前記信号源位置確率行列Ｂおよび前記信号源存在確率行列Ａの少なくとも一方を推定することを特徴とする請求項１に記載の信号分析装置。
前記推定部は、前記信号源位置確率行列Ｂと前記信号源存在確率行列Ａとの積が前記信号源位置生起確率行列Ｑに近づくように、前記信号源位置確率行列Ｂおよび前記信号源存在確率行列Ａの少なくとも一方を推定することを特徴とする請求項１に記載の信号分析装置。
少なくとも１つの信号源の少なくとも１つのフレームについて、前記推定部が推定した前記信号源存在確率行列Ａに含まれる該フレームにおける該信号源からの信号の存在確率が所定の閾値より大きい場合にまたは所定の閾値以上である場合に、該フレームにおいて該信号源からの信号が存在していると判定する、および／または、少なくとも１つの信号源の少なくとも１つのフレームについて、前記推定部が推定した前記信号源存在確率行列Ａに含まれる該フレームにおける該信号源からの信号の存在確率が所定の閾値より小さい場合にまたは所定の閾値以下である場合に、該フレームにおいて該信号源からの信号が存在していないと判定するダイアリゼーション部をさらに有することを特徴とする請求項１から３のいずれか一つに記載の信号分析装置。
各信号源位置候補の直交座標、球座標、またはそれらの一部の座標が分かっていると仮定した場合、前記信号源位置確率行列Ｂに含まれる各信号源からの信号の位置確率を、各信号源の位置が各信号源の位置候補である確率とみなし、ｎ番目の信号源に対する該信号源からの信号の位置確率が最大となる音源位置候補の座標を、ｎ番目の信号源の座標の推定値とすることで、信号源の座標を推定する音源定位を行う音源定位部をさらに有することを特徴とする請求項１〜３のいずれか一つに記載の信号分析装置。
前記信号源存在確率行列Ａに含まれる該信号源からの信号の存在確率および前記信号源位置確率行列Ｂに含まれる各信号源からの信号の位置確率を用いて、各時間周波数点においてどの信号源が存在するかを表すマスクを推定するマスク推定部をさらに備えることを特徴とする請求項１〜３のいずれか一つに記載の信号分析装置。
信号分析装置が実行する信号分析方法であって、
複数の信号源位置候補についての時間区間であるフレームごとの各信号源位置候補から信号が到来する確率からなる信号源位置生起確率行列Ｑを、複数の信号源についての信号源ごとの前記各信号源位置候補から信号が到来する確率からなる信号源位置確率行列Ｂと、前記フレームごとの前記各信号源からの信号の存在確率からなる信号源存在確率行列Ａと、の積でモデル化し、前記モデル化に基づいて、前記信号源位置確率行列Ｂおよび前記信号源存在確率行列Ａの少なくとも一方を推定する推定工程
を含んだことを特徴とする信号分析方法。
コンピュータを、請求項１〜６のいずれか一つに記載の信号分析装置として機能さ
せるための信号分析プログラム。