JP2021092695A

JP2021092695A - 音源分離装置、音源分離方法、およびプログラム

Info

Publication number: JP2021092695A
Application number: JP2019223975A
Authority: JP
Inventors: 一博中臺; Kazuhiro Nakadai; 泰宏鍵本; Yasuhiro Kagimoto; 克寿糸山; Katsutoshi Itoyama; 健次西田; Kenji Nishida
Original assignee: Honda Motor Co Ltd; Tokyo Institute of Technology NUC
Current assignee: Honda Motor Co Ltd; Tokyo Institute of Technology NUC
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2021-06-17
Anticipated expiration: 2039-12-11
Also published as: JP7292646B2

Abstract

【課題】同方向に複数の音源が存在する場合であっても、所望の音源を取り出すことができる音源分離装置、音源分離方法、およびプログラムを提供することを目的としている。【解決手段】音源分離装置は、音響信号を収音する複数のマイクロホンアレイと、少なくとも２つのマイクロホンアレイによって収音されたそれぞれの収音音響信号に、注目音源の第１音響信号と、注目音源と同じ方向の他の音源の第２音響信号とが含まれる場合、少なくとも２つのマイクロホンアレイによって収音されたそれぞれの収音音響信号に含まれている共通成分を抽出して、収音音響信号から前記第１音響信号を抽出する抽出部と、を備える。【選択図】図２

Description

本発明は、音源分離装置、音源分離方法、およびプログラムに関する。

複数の音源から特定の音源を抽出する技術が開発されている。例えば、位置情報を用いた音源分離手法としてビームフォーミングを用いる手法がある。ビームフォーミングでは、信号の到達時間差や位相差を用いることにより、方向情報に基づいた音源分離を行うことができる（例えば、特許文献１参照）。

特開２０１０−１５２１０７号公報

しかしながら、従来技術では、同方向に複数の音源が存在する場合に、所望の音源を取り出すことが困難であった。

本発明は、上記の問題点に鑑みてなされたものであって、同方向に複数の音源が存在する場合であっても、所望の音源を取り出すことができる音源分離装置、音源分離方法、およびプログラムを提供することを目的としている。

（１）上記目的を達成するため、本発明の一態様に係る音源分離装置は、音響信号を収音する複数のマイクロホンアレイと、少なくとも２つの前記マイクロホンアレイによって収音されたそれぞれの収音音響信号に、注目音源の第１音響信号と、前記注目音源と同じ方向の他の音源の第２音響信号とが含まれる場合、少なくとも２つの前記マイクロホンアレイによって収音されたそれぞれの前記収音音響信号に含まれている共通成分を抽出して、前記収音音響信号から前記第１音響信号を抽出する抽出部と、を備える。

（２）また、本発明の一態様に係る音源分離装置において、前記抽出部は、前記共通成分を、潜在的ディリクレ配分法を用いて抽出するようにしてもよい。

（３）また、本発明の一態様に係る音源分離装置において、前記収音音響信号に含まれている音のトピックを分類する分類部、をさらに備え、前記抽出部は、前記分類部によって、前記マイクロホンアレイ毎に分類された前記トピックを比較し、比較した結果、複数の前記マイクロホンアレイそれぞれが収音した前記収音音響信号において同じトピックである場合に、前記同じトピックを前記注目音源であると推定して、前記収音音響信号から、前記同じトピックに対応する音響信号を前記第１音響信号として抽出するようにしてもよい。

（４）また、本発明の一態様に係る音源分離装置において、前記分類部は、前記マイクロホンアレイそれぞれによって収音された前記収音音響信号を周波数スペクトルに変換し、前記マイクロホンアレイ毎の前記周波数スペクトルを、時間フレームにおいてＭ（Ｍは２以上の整数）個の区間に分割してセグメント化し、各セグメントに含まれている前記時間フレーム毎の周波数スペクトルを前記トピック毎に分類するようにしてもよい。

（５）また、本発明の一態様に係る音源分離装置において、前記抽出部は、時間区間毎の前記トピックの分布と、前記トピック毎の前記周波数スペクトルを量子化した量子化スペクトルの分布を推定し、前記トピックの分布と前記量子化スペクトルの分布の事後確率が、それぞれアクティブ状態を判別するための閾値より大きいものをアクティブ状態であるとし、同時刻の前記セグメントごとの前記トピックの分布を比較し、少なくとも２つの前記マイクロホンアレイにおいてアクティブになっている前記トピックを抽出することで前記共通成分を抽出するようにしてもよい。

（６）また、本発明の一態様に係る音源分離装置において、前記マイクロホンアレイに対して、前記注目音源の方向にビームを形成するように制御する制御部、をさらに備え、複数の前記マイクロホンアレイは、前記制御部の制御に応じて、前記注目音源の前記第１音響信号を含む前記収音音響信号を収音するようにしてもよい。

（７）また、本発明の一態様に係る音源分離装置において、前記マイクロホンアレイそれぞれが収音した前記収音音響信号に対して音源定位を行う音源定位部と、前記マイクロホンアレイそれぞれが収音した前記収音音響信号から、前記音源定位された定位結果に基づいて、前記第１音響信号を含む分離信号を分離する音源分離部と、をさらに備え、前記抽出部は、少なくとも２つの前記マイクロホンアレイそれぞれの前記収音音響信号から分離されたそれぞれの前記分離信号に含まれている共通成分を抽出して、前記収音音響信号から前記第１音響信号を抽出するようにしてもよい。

（８）上記目的を達成するため、本発明の一態様に係る音源分離方法は、複数のマイクロホンアレイが、音響信号を収音し、抽出部が、少なくとも２つの前記マイクロホンアレイによって収音されたそれぞれの収音音響信号に、注目音源の第１音響信号と、前記注目音源と同じ方向の他の音源の第２音響信号とが含まれる場合、少なくとも２つの前記マイクロホンアレイによって収音されたそれぞれの前記収音音響信号に含まれている共通成分を抽出して、前記収音音響信号から前記第１音響信号を抽出する。

（９）上記目的を達成するため、本発明の一態様に係るプログラムは、コンピュータに、複数のマイクロホンアレイによって音響信号を収音させ、少なくとも２つの前記マイクロホンアレイそれぞれによって収音された収音音響信号に、注目音源の第１音響信号と、前記注目音源と同じ方向の他の音源の第２音響信号とが含まれる場合、少なくとも２つの前記マイクロホンアレイによって収音されたそれぞれの前記収音音響信号に含まれている共通成分を抽出させ、前記収音音響信号から前記第１音響信号を抽出させる。

上述した（１）〜（９）によれば、収音音響信号に含まれている共通成分を抽出するようにしたので、同方向に複数の音源が存在する場合であっても、所望の音源を取り出すことができる。
また、上述した（２）によれば、潜在的ディリクレ配分法によって共通成分を抽出するようにしたので、精度良く所望の音源を取り出すことができる。
また、上述した（３）によれば、収音音響信号を音のトピックに分類して、一致しているトピックを共通成分をとして抽出するようにしたので、精度良く所望の音源を取り出すことができる。
また、上述した（４）によれば、収音音響信号をセグメントに分け、セグメント毎に音のトピックに分類して、一致しているトピックを共通成分をとして抽出するようにしたので、精度良く所望の音源を取り出すことができる。
また、上述した（５）によれば、同時刻のセグメントごとのトピック分布を比較し，少なくとも２つのマイクロホンアレイでアクティブになっているトピックを抽出して共通成分を抽出するようにしたので、精度良く所望の音源を取り出すことができる。
また、上述した（６）によれば、ビームフォーミングによって分離された収音音響信号に含まれている共通成分を抽出するようにしたので、同方向に複数の音源が存在する場合であっても、所望の音源を取り出すことができる。
また、上述した（７）によれば、音源定位処理と音源分離処理によって収音音響信号から分離信号を分離し、分離信号に含まれている共通成分を抽出するようにしたので、同方向に複数の音源が存在する場合であっても、所望の音源を取り出すことができる。

実施形態に係る分離対象の音源の位置例とマイクロホンアレイの配置例を示す図である。第１実施形態に係る音源分離装置の構成例を示すブロック図である。第１実施形態に係る音源分離装置が行う処理手順を示すフローチャートである。周波数スペクトルの量子化スペクトル化を説明するための図である。ｋ−ｍｅａｎｓの処理手順例を示すフローチャートである。ＬＤＡの量子化スペクトルのまとまりの生成過程例を示すフローチャートである。ＬＤＡのグラフィカルモデルを表す図である。実施形態に係るトピックモデルに対する変分ベイズ推定のアルゴリズムの一例である。注目音源のスペクトル推定の例を示す図である。クラスタ数Ｋ＝６００、セグメントの時間区間ｄ＝４秒、トピック数Ｌ＝５のときの抽出音の一例を示す図である。クラスタ数Ｋ＝６００、時間区間ｄ＝４秒の場合のトピック数Ｌに伴う分離性能の変化を示す図である。クラスタ数Ｋ＝１００、３００、６００と、セグメントの長さの違いによる分離性能の変化を示す図である。クラスタ数Ｋ＝６００、時間区間ｄ＝４秒、トピック数Ｌ＝５の場合、無音成分とユニーク成分の除去を行う場合と行わない場合の分離性能を比較した評価結果を示す図である。第２実施形態に係る音源分離装置の構成例を示すブロック図である。無音区間と発話区間を説明するための図である。

以下、本発明の実施の形態について図面を参照しながら説明する。
まず、実施形態の概要を説明する。図１は、実施形態に係る分離対象の音源の位置例とマイクロホンアレイの配置例を示す図である。
図１に示す例では、４人の話者の音源Ｓ_０〜Ｓ_３のうち、音源Ｓ_０を注目音源とする。符号ＭＡ_１〜ＭＡ_３は、マイクロホンアレイである。マイクロホンアレイＭＡ_１によって収音された音響信号を分離した分離音には音源Ｓ_０とＳ_１が含まれる。マイクロホンアレイＭＡ_２によって収音された音響信号を分離した分離音には音源Ｓ_０とＳ_２が含まれる。マイクロホンアレイＭＡ_３によって収音された音響信号を分離した分離音には音源Ｓ_０とＳ_３が含まれる。

図１のように注目音源Ｓ_０は、複数のマイクロホンアレイで収音して分離した分離音に共通で含まれる場合がある。このため、以下に説明する各実施形態では、複数のマイクロホンアレイで収音して分離した分離音に共通で含まれる共通成分を抽出することで、所望の音源を分離する。

＜第１実施形態＞
第１実施形態では、音源方向が既知であり、ビームフォーミング法によって音源方向の音響信号を収音して分離する例を説明する。

［音源分離装置の構成例］
まず、本実施形態の音源分離装置１の構成例を説明する。
図２は、本実施形態に係る音源分離装置１の構成例を示すブロック図である。図２に示すように、音源分離装置１は、収音部２、および処理部３を備える。
収音部２は、第１マイクロホンアレイ２−１、第２マイクロホンアレイ２−２、および第３マイクロホンアレイ２−３を備える。なお、図２に示す構成では、収音部２が３つのマイクロホンアレイを備える例を説明するが、マイクロホンアレイの数は２つ以上であればよい。
処理部３は、ビームフォーミング制御部３０、取得部３１、変換部３４、分類部３５、除去部３６、抽出部３７、逆変換部３８、および出力部３９を備える。

［音源分離装置の動作、機能］
次に、音源分離装置１の各部の動作と機能例を説明する。
第１マイクロホンアレイ２−１、第２マイクロホンアレイ２−２、および第３マイクロホンアレイ２−３それぞれは、処理部３のビームフォーミング制御部３０に応じて、既知の音源方向にビームを形成する。第１マイクロホンアレイ２−１、第２マイクロホンアレイ２−２、および第３マイクロホンアレイ２−３それぞれは、Ｐ（Ｐは２以上の整数）個ずつのマイクロホンを備えるマイクロホンアレイである。第１マイクロホンアレイ２−１、第２マイクロホンアレイ２−２、および第３マイクロホンアレイ２−３それぞれは、収音した音響信号を処理部３に出力する。なお、各マイクロホンアレイが出力する音響信号には、マイクロホンアレイを識別するための識別情報が含まれている。なお、各マイクロホンアレイが収音した音響信号は、ビームフォーミング法で既知の音源方向に形成された、例えば１つのビームによる１つの指向性マイクロホンによって収音された音響信号に相当する。なお、マイクロホンアレイそれぞれが集音する収音音響信号は、図１のように、注目音源の第１音響信号と、注目音源と同じ方向の他の音源の第２音響信号とが含まれている場合があるとする。

ビームフォーミング制御部３０は、ビームフォーミング法によって既知の音源方向にビームを形成するように、第１マイクロホンアレイ２−１、第２マイクロホンアレイ２−２、および第３マイクロホンアレイ２−３それぞれを制御する。

取得部３１は、第１マイクロホンアレイ２−１、第２マイクロホンアレイ２−２、および第３マイクロホンアレイ２−３それぞれが出力する音響信号（収音音響信号）を取得する。取得部３１は、取得したマイクロホンアレイ毎の音響信号を変換部３４に出力する。

変換部３４は、取得部３１が出力するマイクロホンアレイ毎の音響信号を取得する。変換部３４は、マイクロホンアレイ毎の音響信号に対して短時間フーリエ変換（ＳＴＦＴ；ｓｈｏｒｔ−ｔｉｍｅＦｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ）を行って、時間周波数領域の振幅スペクトル（以下、周波数スペクトルともいう）に変換する。変換部３４は、変換したマイクロホンアレイ毎の周波数スペクトルを分類部３５に出力する。

分類部３５は、変換部３４が出力するマイクロホンアレイ毎の周波数スペクトルを取得する。分類部３５は、各マイクロホンアレイの周波数スペクトルを、時間フレームにおいてＭ（Ｍは２以上の整数）個の区間に分割してセグメント化する。分類部３５は、時間フレーム毎の振幅スペクトルを１つのベクトルと見なして、各セグメントに含まれている時間フレーム毎の周波数スペクトルを量子化スペクトルとし、量子化スペクトルの数をカウントする。また、分類部３５は、マイクロホンアレイ毎に、各セグメントに含まれている量子化スペクトルを、例えばｋ−ｍｅａｎｓ法のクラスタリング手法で分類する。なお、分類方法については、後述する。分類部３５は、マイクロホンアレイ毎に、カウントした結果を示すカウント情報と、分類結果を示す分類情報を除去部３６に出力する。

除去部３６は、分類部３５が出力するカウント情報と分類情報を取得する。除去部３６は、量子化スペクトルからノイズ成分を除去する。ここで、人の話し声には、無音成分が多く含まれるため、多くの時間区間に含まれる量子化スペクトルが無音である可能性が高い。このため、除去部３６は、例えば全区間の７割以上に出てくる分類単位と、３未満のセグメントにしか出てこない量子化スペクトルを除去する。除去部３６は、ノイズ成分の除去後のカウント情報と分類情報を抽出部３７に出力する。

抽出部３７は、除去部３６が出力するノイズ成分の除去後のカウント情報と分類情報を取得する。抽出部３７は、取得したカウント情報と分類情報を用いて、例えば潜在的ディリクレ配分法（ＬＤＡ；ＬａｔｅｎｔＤｉｒｉｃｈｌｅｔＡｌｌｏｃａｔｉｏｎ）を用いて、マイクロホンアレイ毎かつセグメント毎に、周波数スペクトルを話者や発話内容に基づくトピックとして、トピック分布を推定する。抽出部３７は、複数のマイクロホンアレイにおいて、トピックの時間同一性によるスペクトル抽出を行うことで、注目音源の推定時間周波数スペクトログラムを抽出する。具体的には、抽出部３７は、時間区間ごとに推定したトピックを選び、推定したトピックが持つトピック分布に存在する周波数スペクトルだけを抽出する。なお、推定方法については後述する。抽出部３７は、抽出したスペクトルを逆変換部３８に出力する。

逆変換部３８は、抽出部３７が出力するスペクトルを取得する。逆変換部３８は、取得したすスペクトルに対して、逆短時間フーリエ変換（ＩＳＴＦＴ；Ｉｎｖｅｒｓｅｓｈｏｒｔ-ｔｉｍｅＦｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ）を行うことで注目音源の推定信号を復元する。逆変換部３８は、復元した注目音源の音響信号を出力部３９に出力する。

出力部３９は、例えばスピーカーである。出力部３９は、逆変換部３８が出力する音響信号を再生する。

［音源分離装置１の処理］
次に、音源分離装置１が行う処理手順例を説明する。
図３は、本実施形態に係る音源分離装置１が行う処理手順を示すフローチャートである。

（ステップＳ１）ビームフォーミング制御部３０は、収音部２の各マイクロホンアレイに対して、既知の音源方向にビームを形成するように制御する。

（ステップＳ２）収音部２は、形成されたビームによって、音響信号を収音する。これにより、収音部２は、音源方向の音源に対応する音響信号を収音する。なお、収音された音響信号は、分離音であり、図１のように、同じ音源方向の複数の音源の音響信号を含む場合がある。

（ステップＳ３）変換部３４は、収音されたマイクロホンアレイ毎の音響信号に対して短時間フーリエ変換を行って、周波数スペクトルに変換する。

（ステップＳ４）分類部３５は、各マイクロホンアレイの周波数スペクトルを、時間フレームにおいてＭ個の区間に分割してセグメント化する。続けて、分類部３５は、各セグメントに含まれている量子化スペクトルの数をカウントする。続けて、分類部３５は、マイクロホンアレイ毎に、各セグメントに含まれている量子化スペクトルを、例えばｋ−ｍｅａｎｓ法のクラスタリング手法で分類する。

（ステップＳ５）除去部３６は、量子化スペクトルからノイズ成分を除去する。

（ステップＳ６）抽出部３７は、取得したカウント情報と分類情報を用いて、例えば潜在的ディリクレ配分法を用いて、マイクロホンアレイ毎かつセグメント毎に、周波数スペクトルを話者や発話内容に基づくトピックとして、トピック分布を推定する。

（ステップＳ７）抽出部３７は、複数のマイクロホンアレイにおいて、トピックの時間同一性によるスペクトル抽出を行うことで、注目音源の推定時間周波数スペクトログラムを抽出する。

（ステップＳ８）逆変換部３８は、取得したスペクトルに対して、逆短時間フーリエ変換を行うことで注目音源の推定信号を復元する。続けて、出力部３９は、逆変換部３８が出力する音響信号を再生する。

［ＬＤＡを用いた注目音源の抽出方法］
次に、ＬＤＡを用いた注目音源の抽出方法を説明する。
実施形態では、複数のマイクロホンアレイでビームフォーミングして得られた注目音源方向の各分離音に対して、全ての分離音に共通する成分だけを取り出すことで注目音源が抽出する。

実施形態では、時間フレームごとの周波数スペクトルを一つの量子化スペクトルとして扱い、時間区間ごとの周波数スペクトルの集合をセグメントとして扱う。このようにすることで、周波数スペクトルを話者や発話内容に基づくトピックと呼ばれるグループに分類することができる。
別の話者のスペクトルは異なるトピックに割り振られる場合は、ある時間区間で分離音のトピックが異なる場合は注目音源が存在していない。また、すべての分離音に同じトピックが割り当てられる場合は、そのトピックは注目音源である。
実施形態では、このようにしてトピックの時間同一性から注目音源のトピックを推定し，そのトピックがもつ周波数スペクトルだけを抜き出すことで共通成分を抽出する。

（前処理）
実施形態では、音響信号に対してＬＤＡを適用するために、音を量子化スペクトル化する前処理を行う。
実施形態では、時間フレームごとの振幅スペクトルを一つの量子化スペクトルベクトルとみなし、例えば、ｋ−ｍｅａｎｓ法のクラスタリング手法を用いて、似たような成分を持つ量子化スペクトルベクトルをいくつかのグループに分ける。

まず、ｋ−ｍｅａｎｓ法による周波数スペクトルの量子化スペクトル化について説明する。
短時間フーリエ変換を音響信号Ｘ_ｉ（ｔ）に適用すると、時間周波数領域の振幅スペクトルＹ_ｉ（ω、ｔ）∈Ｒ^Ｆ×Ｔ（Ｒは、正の実数全体の集合）が得られる。ここで，Ｆは周波数ビン数を表し、Ｔは時間フレーム数を表す。図４のように、時間フレームごとの振幅スペクトルｙ_ｉ（ｔ）を一つのベクトルとみなして量子化スペクトル化を行う。さらに、実施形態では、ｋ−ｍｅａｎｓ法により、ｙ_ｉ（ｔ）をＫ個のクラスｋ∈｛１，…，Ｋ｝に分類する。図４は、周波数スペクトルの量子化スペクトル化を説明するための図である。図４において、横軸は時間フレームであり、縦軸は周波数である。

ここで、ｋ−ｍｅａｎｓの処理手順例を説明する。
図５は、ｋ−ｍｅａｎｓの処理手順例を示すフローチャートである。なお、ｉはマイクロホンアレイの番号であり、Ｋは量子化スペクトルのクラスタのクラスタ数である。実施形態では、周波数ベクトル成分の類似性に基づき、マイクロホンアレイｉ毎、時間フレームｔ毎にクラスｋが割り当てられる。

（ステップＳ１１）分類部３５は、ｙ_ｉ（ｔ）をランダムにクラスタｋに配分する。

（ステップＳ１２）分類部３５は、各クラスｋに属するｘ_ｉｔのクラスタ中心Ｖ_ｋを計算する。
（ステップＳ１３）分類部３５は、ｙ_ｉｔを最も近いクラスタ中心Ｖ_ｋに再配分する。

（ステップＳ１４）分類部３５は、変化が収束したか否か、事前に与えられた回数が終了したか否かを判別する。分類部３５は、変化が収束した、または事前に与えられた回数が終了したと判別した場合（ステップＳ１４；ＹＥＳ）、処理を終了する。分類部３５は、変化が収束していない、かつ事前に与えられた回数が終了していないと判別した場合（ステップＳ１４；ＮＯ）、ステップＳ１２の処理に戻す。

次に、トピックモデルについて説明する。各分離音の共通成分を抽出するために、実施形態では、音響信号にトピックモデルを当てはめる。
トピックモデルは、大量の文書データから何らかの意味情報を発見するための道具として考えられたものである。トピックモデルは、文書データの解析手法として考案されたが、その構造モデルの汎用性の高さから、画像処理やソーシャルネットワーク解析、音響信号処理などでも使われている。音響信号処理分野では、例えば信号到来方向（ＤＯＡ；ＤｉｒｅｃｔｉｏｎＯｆＡｒｒｉｖａｌ）情報にトピックモデルを用いた話者推定法が考案されている。

トピックモデルでは、セグメントｍ毎にトピック分布ｍ＝（θ_ｍ１，…，θ_ｍＬ）が得られる。ここでθ_ｍｌ＝ｐ（ｌ｜θ_ｍ）は、セグメントｍの量子化スペクトルにトピックｌが割り当てられる確率を表し、θ_ｍｌ≧０、Σ_ｌθ_ｍｌ＝１を満たす。また、トピックｌごとに量子化スペクトル分布φ_ｌ＝（φ_ｌ１，…，φ_ｌＫ）が得られる。φ_ｌｋ＝ｐ（ｋ｜φ_ｌ）は、トピックｌにおける値ｋの現れやすさを表す確率であり、φ_ｌｋ≧０、Σ_ｋφ_ｌｋ＝１を満たす。

また、トピックモデルでは、量子化スペクトルの順序は考慮せず、どの量子化スペクトルが何回現れるかによってセグメントを表現する。そのため、各マイクロホンアレイｉの分離信号をＭ個の区間に分割しセグメント化する。
分類部３５は、このようにして得たセグメントｍ_ｉに対して、それぞれに含まれる量子化スペクトルｋの数を数える。分類部３５は、この操作によってＬＤＡへの頻度行列Ｗ∈Ｒ^３Ｍ×Ｋ（Ｒは、正の実数全体の集合）を作成する。なお、頻度行列Ｗの行数が３Ｍの理由は、３つのマイクロホンアレイのセグメント全体でＬＤＡを計算するためである。

（ＬＤＡによる注目トピックの推定）
上述したように、前処理後、除去部３６は、ノイズ成分を除去する。
実施形態では、前処理で作成された頻度行列Ｗに対してＬＤＡを適用する。ＬＤＡの推定法については変分ベイズ法を用いる。

実施形態では、ＬＤＡを用いて、各セグメントのトピック分布θ_ｉｍ＝｛θ_１，…，θ_Ｌ｝（ただし、ｉ＝１，…，Ｎ、ｍ＝１，…，Ｍ）と、トピック毎の量子化スペクトル分布φ_ｌ＝｛φ_ｌ１，…，φ_ｌＫ｝（ただし、ｌ＝１，…，Ｌ）を推定する。ＬＤＡでは、量子化スペクトル分布とトピック分布に多項分布，その事前分布にディリクレ分布を仮定する。ここで、多項分布は「値がｋになる確率がφ_ｋであるとき，Ｋ種類の離散値から１つの値を取り出す操作をＮ回行ったときの確率」を表す。多項分布は、次式（１）のように表される。なお、ｘは、分離音である。

また、ディリクレ分布は、φ_ｋ≧０、Σ_ｋ＝１ ^Ｋφ_ｋ＝１という制約を満たす多項分布のパラメータφ＝（φ_１，…，φ_ｋ）の確率分布であり、次式（２）のように表される。

式（２）において、Γ（・）はガンマ関数を表し、分数部分は正規化項である。また、βはハイパーパラメータを表し、βの値によって多項分布のパラメータがφとなる確率が決まる。

図６は、ＬＤＡの量子化スペクトルのまとまりの生成過程例を示すフローチャートである。
なお、ｌはトピック番号を表し、ｍはセグメント番号を表し、Ｎ_ｍはセグメントｍに含まれる量子化スペクトル数を表している。また、セグメントｍのｎ番目の量子化スペクトルに対して、ｚ_ｍｎはトピック番号を表し、ｗ_ｍｎは単語番号を表す。
この生成過程では、トピック分布と量子化スペクトル分布を多項分布で表し、事前分布としてはディリクレ分布を採用する。また、α、βはそれぞれのハイパーパラメータを表す。

（ステップＳ２１〜Ｓ２３）抽出部３７は、トピックｌについて、１〜Ｌまで分布を生成｛φ_ｌ〜Ｄｉｒｉｃｈｌｅｔ（β）｝する処理（ステップＳ２２）を繰り返す。

（ステップＳ２４〜Ｓ３０）抽出部３７は、セグメントｍについて、１，…，Ｍまで、トピック分布を生成｛θ_ｍ〜Ｄｉｒｉｃｈｌｅｔ（α）｝（ステップＳ２５）と、ステップＳ２６〜Ｓ２９の処理を繰り返す。

（ステップＳ２６〜Ｓ２９）抽出部３７は、量子化スペクトルｎについて、１，…，Ｎ_ｍまで、トピックを生成｛ｚ_ｍｎ〜Ｍｕｌｔｉｎｏｍｉａｌ（θ_ｍ）｝（ステップＳ２７）と、量子化スペクトルを生成｛ｗ_ｍｎ〜Ｍｕｌｔｉｎｏｍｉａｌ（φ_ｚｍｎ）｝（ステップＳ２８）の処理を繰り返す。

ここで、ＬＤＡのグラフィカルモデルを説明する。
ＬＤＡのグラフィカルモデルは図７のようになる。図７は、ＬＤＡのグラフィカルモデルを表す図である。図７において、丸で囲われたノード（α、β、θ、φ、ｗ、ｚ）は未知変数を表し、四角で囲われた部分（Ｌ、Ｎ、Ｍ）は繰り返しを表す。グラフィカルモデルでは、各ノードの確率的依存関係が視覚的に表現される。

実施形態では、変分ベイズ法を用いてＬＤＡの推定を行う。以下、変分ベイズ法によるトピック推定方法を説明する。
以下の説明において、トピックモデルの未知変数は、トピック集合Ｚ、トピック分布集合Θ、量子化スペクトル分布集合Φである。
まず，トピックモデルの対数周辺尤度ｌｏｇｐ（Ｗ｜α，β）の変分下限Ｆを次式（３）のように求める。

式（３）において、３つ目の変形式の不等式は、イェンゼンの不等式を用いている。また、４つ目の式変形では、計算の簡単化のために変分事後分布をｑ（Ｚ，Θ，Φ）＝ｑ（Ｚ）ｑ（Θ，Φ）と変形できることを仮定している。

次に変分事後分布ｑ（ｚ）の推定を行う。推定では、ラグランジュの未定乗数法を用いて、確率分布であるための制約条件Σ_ｚｑ（ｚ）＝１のもとで変分下限Ｆの最大化を行う。推定では、Ｆ（ｑ（Ｚ））を次式（４）のように置き、式（４）の極値を求める。

なお、式（４）において、λ（・）は、未定乗数である。
∂Ｆ（ｑ（Ｚ））／ｑ（Ｚ）＝０を解くと、Ｆ（（ｑ（Ｚ））を最大化するｑ_ｍｎｌは、次式（５）のようになる。

ただし、式（５）において、Ψ（・）は、ディガンマ関数である。
同様に、ｑ（Θ、Φ）に対しても、変分下限Ｆの最大化を行う。Ｆ（ｑ（Θ、Φ））を、次式（６）のようにおき、式（６）の極値を求める。

∂Ｆ（ｑ（Θ、Φ））／ｑ（Θ、Φ）＝０を解くと、トピック分布の変分事後分布ｑ（Θ）は、次式（７）のようになる。

式（７）において、トピック分布の変分事後分布ｑ（Θ）のパラメータα_ｍｌは、次式（８）のように定義している。

さらに、量子化スペクトル分布の変分事後分布ｑ（Φ）は、次式（９）のように求めることができる。

なお、式（９）において、パラメータβ_ｌｋを、次式（１０）と定義している。

抽出部３７は、パラメータα_ｍｌ、β_ｌｋを、式（８）と式（１０）によって更新することで、トピック分布と量子化スペクトル分布を推定する。

図８は、本実施形態に係るトピックモデルに対する変分ベイズ推定のアルゴリズムの一例である。

（ステップＳ１０１）抽出部３７は、変分事後パラメータα_ｍｌ、β_ｌｋを、ランダムな正の値で初期化する。

（ステップＳ１０２〜Ｓ１１４）抽出部３７は、終了条件を満たすまでステップＳ１０２〜Ｓ１１４の処理を繰り返す。

（ステップＳ１０３）抽出部３７は、パラメータα_ｍｎ ^ｎｅｗ＝αに設定し、β_ｌｋ ^ｎｅｗ＝βに設定することで、ステップＳ１０４以降のパラメータを初期化する。

（ステップＳ１０４〜Ｓ１１２）抽出部３７は、ステップＳ１０４〜Ｓ１１２の処理をＭ回繰り返す。
（ステップＳ１０５〜Ｓ１１１）抽出部３７は、ステップＳ１０５〜Ｓ１１１の処理をＮ回繰り返す。
（ステップＳ１０６〜Ｓ１１０）抽出部３７は、ステップＳ１０６〜Ｓ１１０の処理をＬ回繰り返す。

（ステップＳ１０７）抽出部３７は、式（５）の計算を行う。
（ステップＳ１０８）抽出部３７は、パラメータα_ｍｌ ^ｎｅｗ＝α_ｍｌ ^ｎｅｗ＋ｑ_ｍｎｌに設定して、トピック分布の変分事後分布のパラメータを更新する。
（ステップＳ１０９）抽出部３７は、パラメータβ_ｌｗｍｎ ^ｎｅｗ＝β_ｌｗｍｎ ^ｎｅｗ＋ｑ_ｍｎｌに設定して、量子化スペクトル分布の変分事後分布のパラメータを更新する。

（ステップＳ１１０）抽出部３７は、ステップＳ１０６〜Ｓ１１０の処理をＬ回繰り返した後、ステップＳ１１１の処理に進める。
（ステップＳ１１１）抽出部３７は、ステップＳ１０５〜Ｓ１１１の処理をＮ回繰り返した後、ステップＳ１１２の処理に進める。
（ステップＳ１１２）抽出部３７は、ステップＳ１０４〜Ｓ１１２の処理をＭ回繰り返した後、ステップＳ１１３の処理に進める。

（ステップＳ１１３）抽出部３７は、パラメータα_ｍｌ＝α_ｍｌ ^ｎｅｗに設定し、
β_ｌｋ＝β_ｌｋ ^ｎｅｗに設定して更新する。
（ステップＳ１１４）抽出部３７は、終了条件を満たした後、処理を終了する。なお、終了条件は、例えば所定の範囲に収束した場合または所定回数の処理を行った場合である。

これらの処理によって、ＬＤＡにより時間区間毎のトピック分布Θ∈Ｒ^３Ｍ×Ｌと、トピック毎の量子化スペクトルの分布Φ∈Ｒ^Ｌ×Ｋが推定される。なお、実施形態では、トピック分布と量子化スペクトル分布の事後確率が、それぞれ閾値γ、ηを超えたものをアクティブ状態であると定義する。
具体的には、トピック分布θ_ｉｍにどのトピックが含まれているかを判別するために閾値γと比較して、α_ｉｍｌを次式（１１）のように決定する。

また、量子化スペクトル分布においてアクティブパラメータβ_ｌｋを閾値ηと比較して、β_ｌｋを次式（１２）のように決定する。

α_ｉｍｌ＝１である場合は、トピックｌがそのセグメントに出現する確率が高いことを表している。また、β_ｌｋ＝１の場合は、クラスタｋがトピックｌに含まれている確率が高いことを表す。
別の時間区間ｍ、ｍ’に同じ音が含まれる場合、その音を含むトピックｌは、どちらの時間区間でもアクティブ状態になる可能性が高い。つまり、α_ｉｍｌ＝α_ｉｍ’ｌ＝１となる可能性が高い。このため、同じ時間区間におけるそれぞれの入力音で同じトピックがアクティブ状態であれば、そのトピックは注目音源の可能性が高い。

図９は、注目音源のスペクトル推定の例を示す図である。図９において、符号ｇ１１０は、マイクロホンアレイｉが収音した音響信号であり、処理部３への入力信号である。また、符号ｇ１１１は第１マイクロホンアレイ２−１が収音した音響信号を示し、符号ｇ１１２は第２マイクロホンアレイ２−２が収音した音響信号を示し、符号ｇ１１３は第３マイクロホンアレイ２−３が収音した音響信号を示す。また、符号ｇ１２０は推定信号を表す。符号ｇ１１１〜ｇ１１３、ｇ１２０において、横軸は時間フレームであり、縦軸は振幅である。

図９では、入力信号を時間区間ごとに最もアクティブなトピックを濃淡でして示している。符号ｇ１３０の四角で囲まれた部分に着目すると、同じ時間区間で全ての入力信号が同じ色に色分けされているため、そのトピックは注目音源を表す。
実施形態では、同じ時間区間ｍにおいて、トピックｌが全ての入力信号でα_ｉｍｌ＝１となっている場合に、このトピックｌを抽出し、抽出したトピックを推定トピックとする。

さらに、抽出部３７は、時間区間毎に推定トピックを選び、選んだ推定トピックが持つ量子化スペクトル分布のアクティブパラメータβ_ｌｋ＝１となっている量子化スペクトルを抽出する。そして、逆変換部３８は、抽出された量子化スペクトルに対して逆短時間フーリエ変換を行うことで注目音源の推定信号ｅ_ｉ（ｔ）を復元する。

なお、図９に示した例では、３つの第１マイクロホンアレイ２−１〜第３マイクロホンアレイ２−３（図２）それぞれに、同じトピックが含まれている場合に、注目音源であると推定して抽出する例を説明したが、これに限らない。
図９の例は、図１に示したように、３つの第１マイクロホンアレイ２−１〜第３マイクロホンアレイ２−３それぞれが収音した音響信号に注目音源Ｓ_０が含まれている例であるが、例えば３つの第１マイクロホンアレイ２−１〜第３マイクロホンアレイ２−３のうち、２つのマイクロホンアレイで収音した音響信号に注目信号が含まれている場合もあり得る。このような場合は、収音に用いた複数のマイクロホンアレイのうち、２つ以上のマイクロホンアレイに同じトピックが含まれている場合に、その共通のトピックを注目音源であると推定するようにしてもよい。

以上のように、本実施形態では、注目音源の内容（トピック）に注目した。そして、本実施形態では、複数のマイクロホンアレイで注目音源の方向の音を分離し、それぞれの音のトピックを、トピックモデルを用いて推定することにより、それぞれのマイクロホンアレイで共通するトピックを持つ部分を注目音源の音であると推定するようにした。
これにより本実施形態によれば、簡易に注目音源を分離することができる。

＜評価結果＞
次に、本実施形態の音源分離装置１を用いて評価を行った結果を説明する。
評価は、図１のように４人の音源に対して、３つのマイクロホンアレイを用いて収音して音源分離した。なお、音源には、サンプリング周波数１６ｋＨｚ、長さ３０秒の男性による朗読音声を用いた。この４人の音源のうち、２人目の音声データを注目音源Ｓ_０とした。また、１人目の音声を音源Ｓ_３とし、３人目の音声を音源Ｓ_１とし、４人目の音声を音源Ｓ_２とした。注目音源Ｓ_０は、前半３０秒で発話し、それ以外の音源が後半３０秒で発話しているようにした。このように、合計６０秒の分離信号を３つ作成した。なお、評価では、注目音源と他の音源との発話時間が重なっていない状態で行った。また、全ての分離信号で注目音源の振幅や位相が等しいという条件で評価を行った。また、サンプリング周波数を１６０００Ｈｚとし、短時間フーリエ変換の窓幅を５１２とし、短時間フーリエ変換のシフト幅を２５６とし、短時間フーリエ変換の窓関数としてハミング窓を用いた。

評価では、作成した分離信号Ｘ_ｉ（ｔ）に対して短時間フーリエ変換を行い、変換して得られた振幅スペクトルＹ_ｉ（ω、ｔ）をｋ−ｍｅａｎｓ法で量子化スペクトル化した。ｋ−ｍｅａｎｓ法のクラスタ数は、Ｋ＝１００、３００、６００とした。セグメント化では、マイクロホンアレイ毎に、Ｍ＝１０、１５、２０、２５個のセグメントに分割した、この時、各セグメントｍの時間間隔は、それぞれｄ＝６、４、３、２．４秒である。分離信号は、３０秒の部分で注目音源からその他の音源で切り替わるため、ｄ＝３秒と６秒の場合は、セグメントの教会と音源の教会が一致しているため、全てのセグメントに１つの音源しか含まれていない。また、ｄ＝２．４秒と４秒の場合は、３０秒をまたぐセグメントに注目音源とその他の音源が同時に含まれる。セグメント化の後、全体の７割以上に出現する量子化スペクトルと、３未満のセグメントのみに出現する量子化スペクトルを除去し、セグメント毎の頻度行列Ｗを作成した。

ＬＤＡの推定法として、上述した変分ベイズ法を用いた。またトピック分布と量子化スペクトル分布の事前分布には、どちらにもディリクレ分布を用いて、それぞれのハイパーパラメータの初期値を１／Ｌ、１／Ｋとした。さらに、アクティブ判定の閾値をγ＝１／Ｌとし、η＝１／Ｋとした。

また、音源分離性能の評価指標には，ＢｓｓＥｖａｌのＳｏｕｒｃｅｔｏＤｉｓｔｏｒｔｉｏｎＲａｔｉｏ（ＳＤＲ）を使用した。ＳＤＲは、推定された音源信号と全てのノイズのエネルギー比を表す。計算には、ＢｓｓＥｖａｌｔｏｏｌｂｏｘを使いた。評価では、分離しない状態からどれだけＳＤＲ値が改善するかを評価した。また、評価では、推定信号はマイクロホンアレイ毎に得られるため、マイクロホンアレイ毎にＳＤＲを計算し平均化したものを指標とした。

ここで、分離を行う混合音に含まれる真の目的音源信号ｓ_ｉ（ｔ）に対し、推定信号ｓ＾_ｉ（ｔ）は、次式（１３）のように分解できる。

式（１３）において、ｓ_{ｔａｒｇｅｔ}（ｔ）は目的音源信号項、ｅ_{ｉｎｔｅｒｆ}（ｔ）は混合音に含まれる他の音源に由来するノイズ項、ｅ_{ｎｏｉｓｅ}（ｔ）は他の音源によらない外部からのノイズ項、ｅ_{ａｒｔｉｆ}（ｔ）は分離アルゴリズム由来のノイズ項を表す。
また、ＳＤＲの計算式は、次式（１４）で表される。

図１０は、クラスタ数Ｋ＝６００、セグメントの時間区間ｄ＝４秒、トピック数Ｌ＝５のときの抽出音の一例を示す図である。図１０において、符号ｇ２０１は、第１マイクロホンアレイ２−１で得られた注目音源方向の分離音の波形である。符号ｇ２０２は、正解音源の信号波形である。符号ｇ２０３は、第１マイクロホンアレイ２−１が収音した音響信号から抽出した推定信号の波形である。符号ｇ２０１〜ｇ２０３において、横軸は時刻（秒）であり、縦軸は振幅である。

図１０の評価結果では、正解音源の波形と推定信号の波形を比較すると、推定信号が殆どの時間期間で正解音源部分を抽出できている。このように、本実施形態によれば、正解信号と同じ時間区間の音だけを精度良く取り出すことができる。

次に、各パラメータの値を変えたときに分離精度がどのように変化するか評価した結果を説明する。
図１１は、クラスタ数Ｋ＝６００、時間区間ｄ＝４秒の場合のトピック数Ｌに伴う分離性能の変化を示す図である。横軸はトピック数であり、縦軸はＳＤＲ改善率［ｄＢ］である。
図１１に示す評価結果において、ＳＤＲ改善率は本実施形態の手法を適用した場合と適用しない場合のＳＤＲの差分を表し、この値が高い値であるほど分離が高性能であることを意味する。この評価結果では、トピック数Ｌ＝２の時、ほとんどＳＤＲ値が改善していないのに対し、トピック数Ｌが大きいほど分離性能が上がる傾向であった。このため、トピック数Ｌは、適用する音響信号に応じて変更するようにしてもよい。また、トピック数は、例えば機械学習によって設定や変更するようにしてもよい。

図１２は、クラスタ数Ｋ＝１００、３００、６００と、セグメントの長さの違いによる分離性能の変化を示す図である。符号ｇ３１０は分離性能の変化を示すグラフであり、符号ｇ３２０は、符号ｇ３１０のグラフの各値を示す表である。符号ｇ３１０において、横軸はクラスタ数であり、縦軸はＳＤＲ改善率［ｄＢ］である。また、符号ｇ３１１は時間間隔が２．４秒であり、符号ｇ３１２は時間間隔が３秒であり、符号ｇ３１３は時間間隔が４秒であり、符号ｇ３１４は時間間隔が６秒である。

この評価結果では、ｋ−ｍｅａｎｓのクラスタ数Ｋについてみると、Ｋが小さい時は分離精度が低い。この理由は、クラスタ数Ｋが少ないとき、異なる音も同じクラスに割り当てられてしまうため分離性能が低下するためである。また、Ｋが大きすぎると各周波数スペクトルに対して量子化スペクトル番号が一対一で割り当てられてしまう。
これらのことから、Ｋは小さすぎず大きすぎない適切な値を設定した方が、より精度を向上することができる。このため、クラスタ数Ｋは、適用する環境等に応じて設定するようにしてもよく、例えば機械学習によって設定や変更するようにしてもよい。

また、図１２において、セグメントの違いについて比較すると、ｄ＝２．４秒、４秒の場合は、３０秒付近で同じセグメントに注目音源とその他の音源が含まれる。この理由は、トピック分布が共起性に基づいて単語を分類するためである。このため、この評価では、ｄ＝２．４秒、４秒の場合に推定トピックに別の音源の持つ単語が含まれる可能性が高くなる。クラスタ数Ｋ＝６００では、ｄ＝３秒の場合にＳＤＲ値が高いのに対し、ｄ＝４秒の場合にＳＤＲ値が低くなっている。

図１３は、クラスタ数Ｋ＝６００、時間区間ｄ＝４秒、トピック数Ｌ＝５の場合、無音成分とユニーク成分の除去を行う場合と行わない場合の分離性能を比較した評価結果を示す図である。符号ｇ４１０は評価結果をグラフで表したものであり、符号ｇ４２０は符号ｇ４１０のグラフの値を表で表したものである。符号ｇ４１０において、横軸は時間区間ｄであり、縦軸はＳＤＲ改善率［ｄＢ］である。また、符号ｇ４１１は無音除去ありの場合であり、符号ｇ４１２は無音除去無しの場合である。

図１３のように、比較例の無音除去しない場合はＳＤＲ値が劣化するが、本実施形態のように無音除去した場合はＳＤＲ値が大きく向上する。この理由は、評価に用いた人の朗読音は無音成分を多く持つため、複数の時間区間で無音成分を持つトピックがアクティブ状態と判別されたためである。

＜第２実施形態＞
第２実施形態では、音源それぞれの方向を音源定位処理と音源分離処理によって検出する例を説明する。

［音源分離装置１Ａの構成例］
まず、本実施形態の音源分離装置１Ａの構成例を説明する。
図１４は、本実施形態に係る音源分離装置１Ａの構成例を示すブロック図である。図１４に示すように、音源分離装置１Ａは、収音部２Ａ、および処理部３Ａを備える。なお、第１実施形態の音源分離装置１と同様の機能を有する機能部については、同じ符号を用いて説明を省略する。
収音部２Ａは、第１マイクロホンアレイ２−１、第２マイクロホンアレイ２−２、および第３マイクロホンアレイ２−３を備える。
処理部３Ａは、取得部３１Ａ、音源定位部３２、音源分離部３３、変換部３４Ａ、分類部３５、除去部３６、抽出部３７、逆変換部３８、および出力部３９を備える。

［音源分離装置１Ａの動作、機能］
次に、音源分離装置１Ａの各部の動作と機能例を説明する。
第１マイクロホンアレイ２−１、第２マイクロホンアレイ２−２、および第３マイクロホンアレイ２−３それぞれは、収音したＰチャネルの音響信号を処理部３Ａに出力する。なお、各マイクロホンアレイが出力するＰチャネルの音響信号には、マイクロホンアレイを識別するための識別情報が含まれている。

取得部３１Ａは、第１マイクロホンアレイ２−１、第２マイクロホンアレイ２−２、および第３マイクロホンアレイ２−３それぞれが出力するＰチャネルの音響信号を取得する。取得部３１Ａは、取得したマイクロホンアレイ毎のＰチャネルの音響信号を音源定位部３２と音源分離部３３に出力する。

音源定位部３２は、取得部３１Ａが出力するマイクロホンアレイ毎のＰチャネルの音響信号を取得する。音源定位部３２は、取得したマイクロホンアレイ毎のＰチャネルの音響信号に対して、例えばビームフォーミング法またはＭＵＳＩＣ法による音源定位処理を行って、音響信号に含まれる音源方向を推定する。音源定位部３２は、マイクロホンアレイ毎に、推定した音源定位情報を音源分離部３３に出力する。

音源分離部３３は、音源定位部３２が出力する音源定位情報と、取得部３１Ａが出力するマイクロホンアレイ毎のＭチャネルの音響信号を取得する。音源分離部３３は、マイクロホンアレイ毎に、Ｍチャネルの音響信号から音源定位された方向の音響信号を抽出する。音源分離部３３は、例えばＧＨＤＳＳ（ＧｅｏｍｅｔｒｉｃＨｉｇｈ-ｏｒｄｅｒＤｉｃｏｒｒｅｌａｔｉｏｎ-ｂａｓｅｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎ）法によって、音源分離処理を行う。例えば、図１において、マイクロホンアレイＭＡ_１が第１マイクロホンアレイ２−１の場合は、音源Ｓ_０とＳ_１が１チャネルの音響信号として抽出される。同様に、音源分離部３３は、第２マイクロホンアレイ２−２によって収音されたＰチャネルの音響信号に対して、音源に対応する音響信号を抽出する。音源分離部３３は、第３マイクロホンアレイ２−３によって収音されたＰチャネルの音響信号に対して、音源に対応する音響信号を抽出する。音源分離部３３は、抽出したマイクロホンアレイ毎の音響信号を変換部３４Ａに出力する。

なお、本実施形態において、複数のマイクロホンアレイの基準方向は、例えば図１の複数のマイクロホンアレイＭＡ_１〜ＭＡ_３の重心（注目音源Ｓ_０位置）方向等に設定するようにしてもよい。

第１実施形態では、ビームフォーミング法で形成されたビームによって注目音源を含む音響信号を収音することで、注目音源の音響信号を分離したが、本実施形態では、音源定位処理と音源分離処理によって、注目音源の音響信号を分離する。その後、処理部３Aは、第１実施形態と同様に、トピックの抽出、分類、共通トピックの抽出による推定トピックの推定等を行う。

本実施形態の音源分離装置１Ａの構成によっても、第１実施形態と同様の効果を得ることができる。

＜変形例＞
上述した第１実施形態と第２実施形態では、ｋ−ｍｅａｎｓ法によってクラスタリングを行う例を説明したが、これに限らない。クラスタリングは、他の周知の手法（例えば重み付き平均法等）を用いてもよい。

また、上述した第１実施形態と第２実施形態では、先にクラスタリングを行い、クラスタリング後に除去部３６がノイズ成分を除去し、ノイズ成分が除去された後に注目音源を抽出する例を説明したが、これに限らない。

図１５は、無音区間と発話区間を説明するための図である。
図１５に示すように、音響信号には、一般的に無音区間ｇ５０１が含まれている。このような無音区間を除去、または発話区間ｇ５０２を抽出し、発話区間に対して所定の区間毎のからトピックを抽出するようにしてもよい。無音区間または発話区間の検出は、例えば音響信号の振幅に対する発話区間検出のための閾値と音響信号を比較して検出するようにしてもよい。

なお、本発明における音源分離装置１（または１Ａ）の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音源分離装置１（または１Ａ）が行う処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

１，１Ａ…音源分離装置、
２，２Ａ…収音部、
３，３Ａ…処理部、
２−１…第１マイクロホンアレイ、
２−２…第２マイクロホンアレイ、
２−３…第３マイクロホンアレイ、
３０…ビームフォーミング制御部、
３１…取得部、
３２…音源定位部、
３３…音源分離部、
３４，３４Ａ…変換部、
３５…分類部、
３６…除去部、
３７…抽出部、
３８…逆変換部、
３９…出力部、
４０…音源定位部

Claims

音響信号を収音する複数のマイクロホンアレイと、
少なくとも２つの前記マイクロホンアレイによって収音されたそれぞれの収音音響信号に、注目音源の第１音響信号と、前記注目音源と同じ方向の他の音源の第２音響信号とが含まれる場合、少なくとも２つの前記マイクロホンアレイによって収音されたそれぞれの前記収音音響信号に含まれている共通成分を抽出して、前記収音音響信号から前記第１音響信号を抽出する抽出部と、
を備える音源分離装置。
前記抽出部は、
前記共通成分を、潜在的ディリクレ配分法を用いて抽出する、
請求項１に記載の音源分離装置。
前記収音音響信号に含まれている音のトピックを分類する分類部、をさらに備え、
前記抽出部は、
前記分類部によって、前記マイクロホンアレイ毎に分類された前記トピックを比較し、比較した結果、複数の前記マイクロホンアレイそれぞれが収音した前記収音音響信号において同じトピックである場合に、前記同じトピックを前記注目音源であると推定して、前記収音音響信号から、前記同じトピックに対応する音響信号を前記第１音響信号として抽出する、
請求項１または請求項２に記載の音源分離装置。
前記分類部は、
前記マイクロホンアレイそれぞれによって収音された前記収音音響信号を周波数スペクトルに変換し、前記マイクロホンアレイ毎の前記周波数スペクトルを、時間フレームにおいてＭ（Ｍは２以上の整数）個の区間に分割してセグメント化し、各セグメントに含まれている前記時間フレーム毎の周波数スペクトルを前記トピック毎に分類する、
請求項３に記載の音源分離装置。
前記抽出部は、
時間区間毎の前記トピックの分布と、前記トピック毎の前記周波数スペクトルを量子化した量子化スペクトルの分布を推定し、前記トピックの分布と前記量子化スペクトルの分布の事後確率が、それぞれアクティブ状態を判別するための閾値より大きいものをアクティブ状態であるとし、
同時刻の前記セグメントごとの前記トピックの分布を比較し、少なくとも２つの前記マイクロホンアレイにおいてアクティブになっている前記トピックを抽出することで前記共通成分を抽出する、
請求項４に記載の音源分離装置。
前記マイクロホンアレイに対して、前記注目音源の方向にビームを形成するように制御する制御部、をさらに備え、
複数の前記マイクロホンアレイは、前記制御部の制御に応じて、前記注目音源の前記第１音響信号を含む前記収音音響信号を収音する、
請求項１から請求項５のいずれか１項に記載の音源分離装置。
前記マイクロホンアレイそれぞれが収音した前記収音音響信号に対して音源定位を行う音源定位部と、
前記マイクロホンアレイそれぞれが収音した前記収音音響信号から、前記音源定位された定位結果に基づいて、前記第１音響信号を含む分離信号を分離する音源分離部と、をさらに備え、
前記抽出部は、
少なくとも２つの前記マイクロホンアレイそれぞれの前記収音音響信号から分離されたそれぞれの前記分離信号に含まれている共通成分を抽出して、前記収音音響信号から前記第１音響信号を抽出する、
請求項１から請求項５のいずれか１項に記載の音源分離装置。
複数のマイクロホンアレイが、音響信号を収音し、
抽出部が、少なくとも２つの前記マイクロホンアレイによって収音されたそれぞれの収音音響信号に、注目音源の第１音響信号と、前記注目音源と同じ方向の他の音源の第２音響信号とが含まれる場合、少なくとも２つの前記マイクロホンアレイによって収音されたそれぞれの前記収音音響信号に含まれている共通成分を抽出して、前記収音音響信号から前記第１音響信号を抽出する、
音源分離方法。
コンピュータに、
複数のマイクロホンアレイによって音響信号を収音させ、
少なくとも２つの前記マイクロホンアレイそれぞれによって収音された収音音響信号に、注目音源の第１音響信号と、前記注目音源と同じ方向の他の音源の第２音響信号とが含まれる場合、少なくとも２つの前記マイクロホンアレイによって収音されたそれぞれの前記収音音響信号に含まれている共通成分を抽出させ、前記収音音響信号から前記第１音響信号を抽出させる、
プログラム。