JP6339520B2

JP6339520B2 - 音源分離装置、音源分離方法および音源分離プログラム

Info

Publication number: JP6339520B2
Application number: JP2015075262A
Authority: JP
Inventors: 慶介木下; 中谷　智広; 智広中谷
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2015-04-01
Filing date: 2015-04-01
Publication date: 2018-06-06
Anticipated expiration: 2035-04-01
Also published as: JP2016194657A

Description

本発明は、音源分離装置、音源分離方法および音源分離プログラムに関する。

複数の目的音源が存在する環境で音響信号を収音すると、しばしば目的信号同士が互いに重なり合った混合信号が観測される。この時、注目している目的音源が音声信号である場合、その他の音源信号がその目的信号に重畳した影響により、目的音声の明瞭度は大きく低下してしまう。

また、目的の音声信号（以下、目的信号）にその他の音源信号が重畳する形で観測されると、観測信号から目的信号の性質を正確に抽出することが困難となり、自動音声認識（以下、音声認識）システムの認識率も著しく低下する。よって認識率の低下を防ぐためには、複数の目的信号をそれぞれ分離し、目的信号の明瞭度を回復する工夫（方法）が必要である。

複数の目的信号をそれぞれ分離する要素技術は、さまざまな音響信号処理システムに用いることが可能である。例えば、実環境下で収音された音から目的信号を抽出して聞き取り易さを向上させる補聴器、目的信号を抽出することで音声の明瞭度を向上させるＴＶ会議システム、実環境で用いられる音声認識システム、機械制御インタフェースにおける機械と人間との対話装置などに利用することが出来る。

図７に、従来の音源分離装置（例えば、非特許文献１参照）の機能構成を示してその動作を簡単に説明する。図７は、従来の音源分離装置を示す図である。図７に示すように、音源分離装置５０は、全マイク共通音源存在事後確率推定部５１およびフィルタリング部５２を備える。

全マイク共通音源存在事後確率推定部５１は、複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号を入力として、当該各観測信号の各時間周波数ビンを特徴付ける特徴ベクトルを算出し、その特徴ベクトルを分類することで各音源に関する存在確率である音源存在事後確率を計算する。フィルタリング部５２は、複数のマイクロホンで収音した複数チャネルの観測信号に、上記存在確率を乗算することで音源信号を回復する。

H. Sawada, S. Araki, and S. Makino, "Underdetermined Convolutive Blind Source Separation via Frequency Bin-Wise Clustering and Permutation Alignment," IEEE Trans. Audio, Speech and Lang. Process., vol. 19, pp.516-527, March 2011.

しかしながら、従来の音源分離技術では、全マイクロホンが密集して配置されていることが想定されており、マイクロホンが空間的に分散配置されている状況（以下、分散マイクアレイ環境）は想定されていなかった。すなわち、複数のマイクロホンノードが空間的に大きく分散された形で配置されていると、各マイクロホンノードで観測されるある音源の音圧は同程度にならない。極端な場合は、ある音源はあるマイクロホンノードにおいて実質的に観測不可能な状況も起こり得る。このような状況では、各マイクロホンノードで異なる音源存在確率（アクティビティパタン）を仮定することが妥当である。なお、マイクロホンノードとは、2つ以上のマイクからなるマイクロホンアレイを指す。例えば、複数のマイクロホンを具備するICレコーダは１マイクロホンノードに相当する。

ところが、従来の方法では、録音現場にあるすべてのマイクロホンノードで得られたすべての観測を用いると、全マイクロホンノードに共通な音源存在確率を計算することしかできなかった。また、従来法をマイクロホンノードごとに独立に適用し処理を行えば、マイクロホンノード別に音源存在確率を計算することは可能であったが、この場合は、各マイクロホンノード間に存在するであろう有益な情報が有効活用されず、結果、分散マイクロホンアレイ環境において、効果的な音源分離を行うことができないという課題があった。

この発明は、このような課題に鑑みてなされたものであり、分散マイクロホンアレイ環境においても効果的に音源分離を行うことを目的とする。

本発明の音源分離装置は、複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号であるマイクロホンノード観測信号に基づいて各マイクロホンノードにおける各音源に関する音源存在事後確率を推定し、また、前記音源存在事後確率を更新するための情報である更新情報に基づいて前記音源存在事後確率を更新するマイクノード別音源存在事後確率推定部と、同一時間周波数ビンにおいては前記各マイクロホンノード間での前記各音源に関する前記音源存在事後確率が共起すると仮定し、前記音源存在事後確率の共起関係をモデル化し、前記各マイクロホンノードの前記音源存在事後確率の共起性が大きくなるように前記モデルにおけるパラメータを推定し、前記パラメータを基に前記更新情報を算出するマイクノード間音源存在事後確率共起パタン検出部と、前記マイクノード別音源存在事後確率推定部における前記音源存在事後確率の更新および前記マイクノード間音源存在事後確率共起パタン検出部における前記更新情報の算出を、前記音源存在事後確率または前記パラメータが収束するまで繰り返し実行させる収束判定部と、前記マイクロホンノード観測信号に対し、前記音源存在事後確率または前記更新情報を用いてフィルタリングすることで、前記各音源の前記音源信号を推定する出力音推定部と、を有することを特徴とする。

また、本発明の音源分離方法は、音源分離装置で実行される音源分離方法であって、複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号であるマイクロホンノード観測信号に基づいて各マイクロホンノードにおける各音源に関する音源存在事後確率を推定し、また、前記音源存在事後確率を更新するための情報である更新情報に基づいて前記音源存在事後確率を更新するマイクノード別音源存在事後確率推定工程と、同一時間周波数ビンにおいては前記各マイクロホンノード間での前記各音源に関する前記音源存在事後確率が共起すると仮定し、前記音源存在事後確率の共起関係をモデル化し、前記各マイクロホンノードの前記音源存在事後確率の共起性が大きくなるように前記モデルにおけるパラメータを推定し、前記パラメータを基に前記更新情報を算出するマイクノード間音源存在事後確率共起パタン検出工程と、前記マイクノード別音源存在事後確率推定工程における前記音源存在事後確率の更新および前記マイクノード間音源存在事後確率共起パタン検出工程における前記更新情報の算出を、前記音源存在事後確率または前記パラメータが収束するまで繰り返し実行させる収束判定工程と、前記マイクロホンノード観測信号に対し、前記音源存在事後確率または前記更新情報を用いてフィルタリングすることで、前記各音源の前記音源信号を推定する出力音推定工程と、を含んだことを特徴とする。

本発明によれば、分散マイクロホンアレイ環境においても効果的に音源分離を行うことができる。

図１は、実施形態に係る音源分離装置の構成の概要を示す図である。図２は、実施形態に係る音源分離装置の詳細な構成を示すブロック図である。図３は、実施形態に係る音源分離装置が用いられる音響環境を示す図である。図４は、実施形態に係る音源分離装置の音源分離性能を示す図である。図５は、実施形態に係る音源分離装置の処理を示すフローチャートである。図６は、音源分離プログラムを実行するコンピュータを示す図である。図７は、従来の音源分離装置を示す図である。

以下に、本願に係る音源分離装置、音源分離方法および音源分離プログラムの実施形態を図面に基づいて詳細に説明する。なお、この実施形態により本願に係る音源分離装置、音源分離方法および音源分離プログラムが限定されるものではない。まず、観測信号のモデル化について説明する。

［観測信号のモデル化］
観測信号のモデル化においては、初めに変数を定義する。Iはマイクロホンノードの総数、Jは各マイクロホンノード内のクラスタの数、Kは音源の数（本明細書の中ではJ=Kとしているが、JとKは異なる値でも構わない）、x_iはi番目のマイクロホンノードの観測特徴量、xは全マイクロホンノードの観測特徴量をまとめたx_iの集合、n_i,jはi番目のマイクロホンノードのj番目のクラスタに対応する音源のアクティビティを表すバイナリ変数（１の場合は音源がアクティブ、０の場合は音源がアクティブではない状態を指す）、nはn_i,jの集合、a_kは全マイクロホンノードに共通した潜在的な音源アクティビティを表す変数（１の場合は音源がアクティブ、０の場合は音源がアクティブではない状態を指す）、aはa_kの集合を表す。

なお、以降の説明における処理は、すべて各周波数ビンについて独立に行うものであるため、周波数インデックスは簡単のため省略する。従来のクラスタリングベース音源分離（例えば、非特許文献１参照）をi番目のマイクロホンノード観測信号x_i（x_iは、正規化観測ベクトルに対応）に適用する場合、マイクロホンノード観測信号x_iは式（１）に示すような混合分布型の確率モデルで表されていた。

この時、式（１）のp(n_i,j)は、j番目の音源がi番目のノードでアクティブになる事前確率を表す。また、式（１）のp(x_i|n_i,j;θ⁽ⁿ _i ⁾)はワトソン分布などの分布を表し、θ⁽ⁿ _i ⁾は分布のパラメータ（ワトソン分布の場合は平均方向パラメータ、密度パラメータに対応し、ガウス分布の場合は平均や分散等に対応する）を表す。この式で表される尤度を最大化するように分布パラメータを調整した後に得られるp(n_i,j|x_i)は、i番目以外のマイクロホンノードから得られる情報を使わなかった場合に得ることのできる、i番目のノードでのj番目の音源に関する音源存在事後確率である。

一方、実施形態においては、観測信号xの確率モデル（つまり、観測信号に関する尤度p(x;θ)）を式（２）のように表す。

式（２）の3段目は、各マイクロホンノードの観測値x_iは独立であるとの仮定の元に得られている。式（２）を見ると、本発明は、音源のアクティビティを示す事前確率の部分（つまり、p(n,a;θ^(w)）の部分に、新たに全マイクロホンノードに共通した潜在的な音源アクティビティを表す変数であるaが追加され、各ノードでの音源アクティビティ情報nと全ノードに共通する潜在的な音源アクティビティ情報aの同時確率で事前確率が表されていることが分かる。

音源のアクティビティを示す事前確率p(n,a;θ^(w))は、様々な形を取ることができるが、ここでは、マイクロホンノード間の音源アクティビティの共起性（つまり、n_1,j ,n_2,j ,... ,n_I,jの共起性）に注目したモデルとなるよう、式（３）〜（５）に示すような制限付きボルツマンマシン(RBM:Restricted Boltzman Machine)の形で表す。

式（３）のθ^(w)は、RBMの中で使われるパラメータ｛W_i, b_i, c｝を表す。制限付きボルツマンマシンは協調フィルタに使われるなど、ノード間での観測信号（実施形態におけるノード間での音源存在事後確率に相当）の共起性を捉えることのできるモデルである。RBMでは一般的に入力層への入力nが与えられた場合の隠れ層での値a_kに関する事後確率、また隠れ層での値a_kが与えられた場合の入力層での値nに関する事後確率を定義し、それをパラメータ推定アルゴリズムの中で用いる。それらの事後確率を式（６）〜（８）のように定義する。

［本発明の考え］
実施形態の詳細な説明の前に、本発明の考えの概略について説明する。本発明は、各マイクロホンノードのそれぞれにおいて、音源分離のためのフィルタである音源存在事後確率を計算するものである。従来法では、この値を計算するために、他のマイクロホンノードからの情報を取り入れることはできなかった。

しかし、提案方法では、マイクロホンノード間で情報をやり取りし、あるマイクロホンノードで観測されている音源アクティビティと共起するような音源アクティビティパタンが他のマイクロホンノードで観測されれば、それらの共起性が増す様に、マイクノード間音源存在事後確率共起パタン検出部１２にてパラメータ推定が進む。結果、ある音源が複数のマイクロホンノードで観測されていれば、その音源に関する存在事後確率は互いに共起性が増すようにパラメータが調整され、より精度の高い推定が可能となる。

例えば、マイクロホンノード１、２、３の同一時間周波数ビンで、多くの場合、ある音源に関する事後確率が共起しているとする。そのような状況下で、ある時間周波数ビンでは、その音源に関してマイクロホンノード１と２のみで共起関係が確認され、マイクロホンノード３では共起していないとする。すると、マイクロホンノード３のこの時間周波数ビンでの推定値は誤りである確率が高い。

このような誤りは、マイクロホンノード１、２、３でのこの音源に関する存在事後確率の共起性を高めるようにパラメータを推定することで解消される。逆に、マイクロホンノード１のみで同音源がアクティブであり、マイクロホンノード２と３ではアクティブでない場合、その時間周波数ビンでは本来同音源はアクティブでない可能性が高い。そのような場合も「アクティブではない」という共起性が高まることで、マイクロホンノード１の誤りが訂正される。マイクロホンノード間での音源存在事後確率の共起性を高めるようにパラメータを学習する具体的手順については、実施形態の説明において詳細に説明する。

［実施形態］
図１を用いて、実施形態に係る音源分離装置の構成について説明する。図１は、実施形態に係る音源分離装置の構成の概要を示す図である。音源分離装置１０は、マイクノード別音源存在事後確率推定部１１と、マイクノード間音源存在事後確率共起パタン検出部１２と、収束判定部１３と、出力音推定部１４と、を具備する。

図１に示すように、音源分離装置１０は、複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号を入力とする。なお、特に音源分離装置１０における処理を説明する際に、入力される複数チャネルの観測信号をマイクロホンノード観測信号と呼ぶ場合がある。

マイクノード別音源存在事後確率推定部１１は、複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号であるマイクロホンノード観測信号に基づいて各マイクロホンノードにおける各音源に関する音源存在事後確率を推定し、また、前記音源存在事後確率を更新するための情報である更新情報に基づいて音源存在事後確率を更新する。

例えば、マイクノード別音源存在事後確率推定部１１は、マイクロホンノード観測信号である時間フレームtにおける複数の音源から発せられる音源信号をi番目のマイクロホンノードで収音した観測特徴量x_iに基づいて式（２）のp(x_i|n_i;θ⁽ⁿ _i ⁾)を推定することによって音源存在事後確率であるj番目の音源のi番目のマイクロホンノードでの存在事後確率p(n_i,j|x_i)を推定し、更新情報に基づいて観測信号の尤度p(x;θ)が最大になるようにp(x_i|n_i;θ⁽ⁿ _i ⁾)を再推定することによって音源存在事後確率であるj番目の音源のi番目のマイクロホンノードでの存在事後確率p(n_i,j|x_i)を更新する。

マイクノード間音源存在事後確率共起パタン検出部１２は、同一時間周波数ビンにおいては各マイクロホンノード間での各音源に関する音源存在事後確率が共起すると仮定し、音源存在事後確率の共起関係をモデル化し、各マイクロホンノードの音源存在事後確率の共起性が大きくなるようにモデルにおけるパラメータを推定し、パラメータを基に更新情報を算出する。

例えば、マイクノード間音源存在事後確率共起パタン検出部１２は、全てのi、全てのj、全てのtにおける音源存在事後確率の全ての時間フレームtに関するp(n_i,j|x_i,t)の集合を用いて、各マイクロホンノードにおける音源アクティビティ情報nおよび全ノードに共通する潜在的な音源アクティビティ情報aの同時確率であって、音源のアクティビティを示す事前確率p(n,a;θ^(w))が最大になるように、音源存在事後確率の共起性を示すモデルのパラメータであるθ^(w)を推定し、更新情報を算出する。

収束判定部１３は、マイクノード別音源存在事後確率推定部１１における音源存在事後確率の更新およびマイクノード間音源存在事後確率共起パタン検出部１２における更新情報の算出を、音源存在事後確率またはパラメータが収束するまで繰り返し実行させる。

出力音推定部１４は、マイクロホンノード観測信号に対し、音源存在事後確率または更新情報を用いてフィルタリングすることで、各音源の音源信号を推定する。

次に、図２を参照しながら、音源分離装置１０の各部について詳細に説明する。図２は、実施形態に係る音源分離装置の詳細な構成を示すブロック図である。音源分離装置１０は、複数のマイクロホンノード２０からマイクロホンノード観測信号を入力され、各音源の音源イメージを推定し、出力装置２１等に出力する。なお、音源分離装置１０は、推定した音源イメージをスピーカ等の出力装置に出力してもよいし、記憶装置等に出力し記憶させるようにしてもよい。

図２に示すように、音源分離装置１０は、マイクノード別音源存在事後確率推定部１１と、マイクノード間音源存在事後確率共起パタン検出部１２と、収束判定部１３と、出力音推定部１４と、入力部１５と、出力部１６と、を有する。また、マイクノード別音源存在事後確率推定部１１は、第一音源存在事後確率初期値算出部１１１と、第一音源存在事後確率更新部１１２と、を有する。また、マイクノード間音源存在事後確率共起パタン検出部１２は、共起関係モデルパラメータ算出部１２１と、第二音源存在事後確率算出部１２２と、を有する。

まず、入力部１５には、複数の音源から発せられる音源信号を複数のマイクロホンノード２０で収音した観測信号が入力される。そして、第一音源存在事後確率初期値算出部１１１は、複数の音源から発せられる音源信号を複数のマイクロホンノードで収音した観測信号を用いて、各マイクロホンノードから得られる情報を使って得られる各音源がアクティブな確率である第一音源存在事後確率を算出する。

次に、共起関係モデルパラメータ算出部１２１は、各マイクロホンノードの第一音源存在事後確率同士の共起関係をモデル化し、共起関係が大きくなるようにモデルのパラメータを算出し、既に算出したパラメータが存在する場合は、最新のパラメータに更新する。

さらに、第二音源存在事後確率算出部１２２は、パラメータを用いて、複数のマイクロホンノードから得られる情報を使った音源存在事後確率である第二音源存在事後確率を算出する。そして、第一音源存在事後確率更新部１１２は、第二音源存在事後確率を用いて、第一音源存在事後確率を更新する。

ここで、収束判定部１３は、第一音源存在事後確率更新部１１２および共起関係モデルパラメータ算出部１２１における更新量が、所定の閾値以下であるか否かを判定し、更新量が所定の閾値以下でない場合は、更新量が所定の閾値以下となるまで第一音源存在事後確率更新部１１２および共起関係モデルパラメータ算出部１２１における処理を繰り返し実行させる。

最後に、出力音推定部１４１は、収束判定部１３において、更新量が所定の閾値以下であると判定された場合に、観測信号に対し、第二音源存在事後確率を用いてフィルタリングを行い、各音源に関する音源イメージを推定する。以降、各部における処理について説明する。

［マイクノード別音源存在事後確率推定部１１での処理（初期値の計算）］
まず、マイクノード間音源存在事後確率共起パタン検出部１２で処理を行う前のマイクノード別音源存在事後確率推定部１１における処理について説明する。この時、マイクノード別音源存在事後確率推定部１１は、第一音源存在事後確率の初期値を算出する。なお、マイクノード間音源存在事後確率共起パタン検出部１２から出力される補正情報を用いた第一音源存在事後確率の更新処理については後述する。

最初に、マイクノード別音源存在事後確率推定部１１の第一音源存在事後確率初期値算出部１１１は、複数の音源から発せられる音源信号をi番目のマイクロホンノードで収音した観測特徴量x_iおよび式（１）を用いて、j番目の音源のi番目のマイクロホンノードでの存在事後確率p(n_i,j|x_i)を計算する。具体的には、第一音源存在事後確率初期値算出部１１１は、式（１）の値を最大化するよう、最尤推定で分布パラメータθ⁽ⁿ _i ⁾を推定することで初期値を算出する。式（１）の混合分布パラメータの最尤推定は、期待値最大化アルゴリズムを用いて行うことができることが知られており、そのアルゴリズムの中でp(n_i,j|x_i)は計算される。

［マイクノード間音源存在事後確率共起パタン検出部１２での処理］
次に、マイクノード間音源存在事後確率共起パタン検出部１２の共起関係モデルパラメータ算出部１２１は、上記で得られた第一音源存在事後確率の集合、つまり全てのi（マイクロホンノードインデックス）、全てのj（各マイクロホンノードにおけるクラスタインデックス）、すべての時間フレームtに関するp(n_i,j|x_j,t)（xに時間フレームインデックスtを追加）を用いて、各事後確率の共起関係をモデル化（学習）する。具体的に、共起関係モデルパラメータ算出部１２１は、式（４）等で示されるRBMのパラメータ｛W_i, b_i, c｝をp(n,a;θ^(w))が最大となるように学習する。この学習には、一般的にはcontrastive divergenceを用いた最急降下法（参考文献１：G. E. Hinton, “A practical guide to training restricted Boltzmann machines,” Univ. of Toronto, Toronto, ON, Canada, Tech. Rep., 2010.）が用いられる。ここで、最急降下法で推定する各パラメータ｛W_i, b_i, c｝の勾配は式（９）〜（１１）によって計算される。

そして、共起関係モデルパラメータ算出部１２１は、各勾配を計算した後、各パラメータは、通常の最急降下法により式（１２）〜（１４）によって更新する。

ここで、μはパラメータ更新のためのステップサイズであり、0.0001など比較的小さな値が用いられる。さらに、共起関係モデルパラメータ算出部１２１は、後述のように、収束判定部１３に制御されることで、式（１２）〜（１４）の計算を十分にパラメータの更新量が小さくなるまで繰り返す。なお、各パラメータの勾配計算を表した式（９）〜（１１）中のn^およびn~は、計算を繰り返すごとに、以下のように計算する。

［n^_t,i,jの計算］
＜手順a1＞
まず、p(n_i,j=1|x_j)を従来のクラスタリングベース音源分離等を用いて計算する。
＜手順a2＞
次に、n^_t,i,jの初期値をp(n_i,j|x_j,t)からサンプリングする。ここで、サンプリングの具体的な処理例について説明する。まず、時間t、ノードiの観測特徴量x^_t,iがクラスタjに帰属する事後確率をクラスタ1〜Jについて計算する。この時、1〜Jまでの事後確率の値を合算すれば1となる。次に、これらの事後確率を基に、0〜1の区間を分割する。例えば、クラスタ1,2,3で計算される帰属事後確率がそれぞれ、0.1,0.7,0.2であれば、0〜1の区間を[0.0 0.1),[0.1 0.8),[0.8 1.0]に分割し、各区間を各クラスタと紐づける。その後、1〜0の範囲の乱数を一つ発生させ、その乱数がどの区間に帰属するかを検出する。その該当区間に対応するクラスのn^_t,i,jを1とし、それ以外の同一マイクロホンノード内のn^_t,i,jを0とする。
＜手順a3＞
以下の（a3.1）および（a3.2）を所定の回数繰り返す。（本実施例では１回）
（a3.1）現在求められているn^_t,i,jを基に、式（６）を用いてa^_t,kを計算する。
（a3.2）a^_t,kとx_t,i（マイクロホンノードi、時間tの観測特徴量）とマイクノード別音源存在事後確率推定部１１で推定されたp(x_i|n_i,j=1)を基に、式（７）および式（８）を用いて、n^_t,i,jを計算する。
＜手順a4＞
手順a3で計算されたn^_t,i,jを利用して式（９）〜（１１）の計算を行う。

［n~_t,i,jの計算］
＜手順b1＞
n~_t,i,jの初期値をp(n_i,j|x_j,t)からサンプリングする。（具体的な処理例は、手順a2と同様）
＜手順b2＞
以下の（b3.1）および（b3.2）を所定の回数繰り返す。（本実施例では１回）
（b3.1）現在求められているn~_t,i,jを基に、式（６）を用いてa~_t,kを計算する。
（b3.2）a~_t,kを基に、式（７）を用いて、n~_t,i,jを計算する。
＜手順b3＞
手順b3で計算されたn~_t,i,jを利用して式（９）〜（１１）の計算を行う。

そして、マイクノード間音源存在事後確率共起パタン検出部１２の第二音源存在事後確率算出部１２２は、求められたパラメータ｛W_i, b_i, c｝から式（８）を基に更新情報である第二音源存在事後確率p(n_i,j=1|a^_t,x_t)を計算する。

[マイクノード別音源存在事後確率推定部１１での処理（初期値計算以降の処理）]
マイクノード別音源存在事後確率推定部１１の第一音源存在事後確率更新部１１２は、マイクノード間音源存在事後確率共起パタン検出部１２で得られた更新情報である第二音源存在事後確率p(n_i,j=1|a^_t,x_t)を用いて、式（２）が最大となるようにp(x_i|n_i;θ⁽ⁿ _i ⁾)の分布パラメータを更新する。以下では、更新方法の一例を示す。

はじめに、第一音源存在事後確率更新部１１２は、式（２）におけるp(x_i|n_i;θ⁽ⁿ _i ⁾)を式（１５）のように表す。

式（１５）は、p(x_i|n_i;θ⁽ⁿ _i ⁾)を一般的な指数型分布族の関数で表している。ここで、式（１５）の尤度式の対数をとったもの（対数尤度関数）のθ⁽ⁿ _i ⁾に関する勾配は、以下の式（１６）のようになる。

この時、第一音源存在事後確率更新部１１２は、p(n,a|x)を以下の式（１７）に示すように近似的に求める。

式（１７）の値は、前段のマイクノード間音源存在事後確率共起パタン検出部１２での処理の最終段階で求めた、式（８）を基に計算される第二音源存在事後確率p(n_i,j=1|a^_t,x_t)をすべての時間フレームtについて平均した値に相当する。最終的に、第一音源存在事後確率更新部１１２は、式（１７）の値が0となるように下記の式（１８）のように置き、方程式を解くことでθ⁽ⁿ _i ⁾の値を計算する。

式（１８）のθ⁽ⁿ _i ⁾の値が計算されれば、再度第一音源存在事後確率p(n_i,j|x_i)を計算することが可能となり、その値をマイクノード間音源存在事後確率共起パタン検出部１２に出力すれば、マイクノード間音源存在事後確率共起パタン検出部１２にて再度パラメータ｛W_i, b_i, c｝の更新処理が行われる。

[収束判定部１３での処理]
収束判定部１３は、第一音源存在事後確率更新部１１２、共起関係モデルパラメータ算出部１２１および第二音源存在事後確率算出部１２２における処理を繰り返し行い、式（１８）のマイクノード別音源存在事後確率推定部１１のパラメータθ⁽ⁿ _i ⁾や式（２）のマイクノード間音源存在事後確率共起パタン検出部１２のパラメータθ^(w)の更新量が所定の閾値以下となったところで、収束したと判定し、繰り返しを終了するように制御する。また、式（２）に示す尤度が十分に大きな値となったところで収束したと判定してもよい。

［評価実験］
実施形態に係る音源分離装置の性能を評価する目的で評価実験を行った。実験条件は次の通りとした。図３に、シミュレーションに用いた音響環境を示す。図３は、実施形態に係る音源分離装置が用いられる音響環境を示す図である。部屋のサイズは１０ｍ（Ｗ）×５ｍ（Ｄ）×５ｍ（Ｈ）であり、残響時間は０．２、０．４、０．６、０．８秒の4条件とした。この音響環境を鏡像法（参考文献２：J.B.Allen and D.A.Berkeley, “Image method for efficiently simulating small-room acoustics, ”J.Acoust.Soc.Am.,vol.65(4),pp.943-950,1979.）を用いてシミュレーションした。

また、背景雑音のある環境を模擬するため、コンピュータ上で白色雑音を発生させ、SN比が１０ｄＢとなるよう信号に足し合わせ、観測信号を作成した。話者は、６人おり、６人中３人の話者が半径８０ｃｍの円状に等間隔を開けて部屋の左側に座り、その他の３人は同様に半径８０ｃｍの円状に等間隔を開けて部屋の右側に座り、全員が同時会話している状況を想定した。これは、会議室や飲食店などでの会話状況を模擬している。収音機器としては、図３に示すように、３つのマイクからなるマイクロホンノードが２つある状況を想定した。

本発明と比較する従来法は、すべてのマイクロホンにおいて共通の音源存在事後確率を仮定して、ソフトマスクを用いた音源分離を行う非特許文献１に示された方法とした。
評価指標としては音源分離性能を示すSIR（Signal-to-interference ratio）を用いた。音源分離性能はSIRの値が大きいほど、性能が良いことを示す。評価音声としては、TIMIT（参考文献３：W.Fisher, G.R.Doddington, and K.M.Goudie-Marshall, “The DARPA speech recognition research database: specifications and status, ”inProc. DARPA workshop on Speech Recognition, 7986, pp.96-99.）から無作為に抽出した音声を用い、各音響環境において計２０個の異なる混合音声を用意し、結果はそれらの平均値として算出した。

図４に、評価実験の結果を示す。図４は、実施形態に係る音源分離装置の音源分離性能を示す図である。横軸は残響時間、縦軸はSIR値、つまり音源分離性能（ｄＢ）を表している。全残響環境において、本発明は従来法よりも高い性能を達成していることが示されている。このように本発明の音源分離装置によれば、分散マイクロホンアレイ環境においても効率的に音源分離を行うことが確認できた。

［出力音推定部１４での処理］
収束判定部１３によって更新量が収束したと判定された場合は、出力音推定部１４は、第二音源存在事後確率を用いてフィルタリングを行い、各音源に関する音源イメージを推定する。

［実施形態の処理の流れ］
図５を用いて、実施形態に係る音源分離装置１０の処理の流れについて説明する。図５は、実施形態に係る音源分離装置の処理を示すフローチャートである。まず、マイクノード別音源存在事後確率推定部１１は、第一音源存在事後確率の初期値を算出する（ステップＳ１０１）。次に、マイクノード間音源存在事後確率共起パタン検出部１２は、第一音源存在事後確率の共起関係をモデル化するパラメータを算出し、既に算出された既存のパラメータが存在している場合は、既存のパラメータを更新する（ステップＳ１０２）。そして、マイクノード間音源存在事後確率共起パタン検出部１２は、算出したパラメータを基に第二音源存在事後確率を算出する（ステップＳ１０３）。

ここで、収束判定部１３が、各更新量が閾値以下でないと判定した場合（ステップＳ１０４、Ｎｏ）は、マイクノード別音源存在事後確率推定部１１は、第二音源存在事後確率を基に第一音源存在事後確率を更新する（ステップＳ１０５）。そして、マイクノード間音源存在事後確率共起パタン検出部１２は、更新された第一音源存在事後確率を用いて再び処理を行う。

これに対して、収束判定部１３が、各更新量が閾値以下であると判定した場合（ステップＳ１０４、Ｙｅｓ）は、マイクノード間音源存在事後確率共起パタン検出部１２は、第二音源存在事後確率を出力音推定部１４に出力する（ステップＳ１０６）。最後に、出力音推定部１４は、時間ごとの音源存在事後確率をフィルタとして音源分離を行う（ステップＳ１０７）。

［実施形態の効果］
まず、音源分離装置１０は、複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号であるマイクロホンノード観測信号に基づいて各マイクロホンノードにおける各音源に関する音源存在事後確率を推定し、また、前記音源存在事後確率を更新するための情報である更新情報に基づいて音源存在事後確率を更新する。そして、音源分離装置１０は、同一時間周波数ビンにおいては各マイクロホンノード間での各音源に関する音源存在事後確率が共起すると仮定し、音源存在事後確率の共起関係をモデル化し、各マイクロホンノードの音源存在事後確率の共起性が大きくなるようにモデルにおけるパラメータを推定し、パラメータを基に更新情報を算出する。さらに、音源分離装置１０は、音マイクノード別音源存在事後確率推定部における音源存在事後確率の更新およびマイクノード間音源存在事後確率共起パタン検出部における更新情報の算出を、音源存在事後確率またはパラメータが収束するまで繰り返し実行させる。最後に、音源分離装置１０は、マイクロホンノード観測信号に対し、音源存在事後確率または更新情報を用いてフィルタリングすることで、各音源の音源信号を推定する。

これにより、共起性を考慮した音源存在事後確率のモデルの作成を行うことができ、複数のマイクロホンノードから得られる情報を音源分離に利用することが可能となる。その結果、分散マイクロホンアレイ環境においても効果的に音源分離を行うことができるようになる。

［装置構成等］
音声分離装置１０における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

なお、効率的にRBMのパラメータ推定を行う目的で、contrastive divergence法を用いた方法について説明を行ったが、この発明はこの実施例に限定されない。また、マイクノード別音源存在事後確率推定部１１での分布パラメータの推定のために式（１６）の値をゼロと置く方法について説明を行ったが、この発明はこの実施例に限定されない。例えば式（２）の値を最大化するために、全パラメータの全ての組み合わせを探索する全組み合わせ探索法を用いても、この発明の技術思想の範囲に含まれる。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）/ＲＷ（Re Writable）等を、光磁気記録媒体として、ＭＯ（Magneto Opticaldisc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasableand Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

音源分離装置１０は、内包する各機能（装置）を物理的・仮想的に分散可能であり、その際は両装置内の各機能（装置）が各々一つの単位として分散されることとしてもよい。また、例えば、収束判定部１３は省略可能であり、マイクノード別音源存在事後確率推定部１１、またはマイクノード間音源存在事後確率共起パタン検出部１２に組み込まれることとしてもよい。また各装置内の各部は、有効に機能する程度において別の各装置に組み込まれる構成をとってもよい。

［プログラム］
また、上記実施の形態に係る音源分離装置１０が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。この場合、コンピュータがプログラムを実行することにより、上記実施の形態と同様の効果を得ることができる。さらに、かかるプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませて実行することにより上記実施の形態と同様の処理を実現してもよい。以下に、音源分離装置１０と同様の機能を実現する音源分離プログラムを実行するコンピュータの一例を説明する。

図６は、音源分離プログラムを実行するコンピュータを示す図である。図６に示すように、コンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ（Central Processing Unit）１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１およびＲＡＭ（Random Access Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。ディスクドライブ１１００には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース１０５０には、例えば、マウス１１１０およびキーボード１１２０が接続される。ビデオアダプタ１０６０には、例えば、ディスプレイ１１３０が接続される。

ここで、図６に示すように、ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３およびプログラムデータ１０９４を記憶する。上記実施の形態で説明した各テーブルは、例えばハードディスクドライブ１０９０やメモリ１０１０に記憶される。

また、音源分離プログラムは、例えば、コンピュータ１０００によって実行される指令が記述されたプログラムモジュールとして、ハードディスクドライブ１０９０に記憶される。具体的には、上記実施の形態で説明した音源分離装置１０が実行する各処理が記述されたプログラムモジュールが、ハードディスクドライブ１０９０に記憶される。

また音源分離プログラムによる情報処理に用いられるデータは、プログラムデータとして、例えば、ハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、ハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した各手順を実行する。

なお、音源分離プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、音源分離プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ＬＡＮ（Local Area Network）やＷＡＮ（Wide Area Network）等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

１０音源分離装置
１１マイクノード別音源存在事後確率推定部
１２マイクノード間音源存在事後確率共起パタン検出部
１３収束判定部
１４出力音推定部
１５入力部
２０マイクロホンノード
２１出力装置

Claims

複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号であるマイクロホンノード観測信号に基づいて各マイクロホンノードにおける各音源に関する音源存在事後確率を推定し、また、前記音源存在事後確率を更新するための情報である更新情報に基づいて前記音源存在事後確率を更新するマイクノード別音源存在事後確率推定部と、
同一時間周波数ビンにおいては前記各マイクロホンノード間での前記各音源に関する前記音源存在事後確率が共起すると仮定し、前記音源存在事後確率の共起関係をモデル化し、前記各マイクロホンノードの前記音源存在事後確率の共起性が大きくなるように前記モデルにおけるパラメータを推定し、前記パラメータを基に前記更新情報を算出するマイクノード間音源存在事後確率共起パタン検出部と、
前記マイクノード別音源存在事後確率推定部における前記音源存在事後確率の更新および前記マイクノード間音源存在事後確率共起パタン検出部における前記更新情報の算出を、前記音源存在事後確率または前記パラメータが収束するまで繰り返し実行させる収束判定部と、
前記マイクロホンノード観測信号に対し、前記音源存在事後確率または前記更新情報を用いてフィルタリングすることで、前記各音源の前記音源信号を推定する出力音推定部と、
を有することを特徴とする音源分離装置。
前記マイクノード別音源存在事後確率推定部は、
前記マイクロホンノード観測信号である時間フレームtにおける前記複数の音源から発せられる前記音源信号をi番目のマイクロホンノードで収音した観測特徴量x_iに基づいてp(x_i|n_i;θ⁽ⁿ _i ⁾)を推定することによって前記音源存在事後確率であるj番目の音源の前記i番目のマイクロホンノードでの存在事後確率p(n_i,j|x_i)を推定し、前記更新情報に基づいて前記観測信号の尤度p(x;θ)が最大になるようにp(x_i|n_i;θ⁽ⁿ _i ⁾)を再推定することによって前記音源存在事後確率であるj番目の音源の前記i番目のマイクロホンノードでの存在事後確率p(n_i,j|x_i)を更新し、
前記マイクノード間音源存在事後確率共起パタン検出部は、
全てのi、全てのj、全てのtにおける前記音源存在事後確率の全ての時間フレームtに関するp(n_i,j|x_i,t)の集合を用いて、前記各マイクロホンノードにおける音源アクティビティ情報nおよび全ノードに共通する潜在的な音源アクティビティ情報aの同時確率であって、音源のアクティビティを示す事前確率p(n,a;θ^(w))が最大になるように、前記音源存在事後確率の共起性を示す前記モデルの前記パラメータであるθ^(w)を推定し、前記更新情報を算出することを特徴とする請求項１に記載の音源分離装置。
音源分離装置で実行される音源分離方法であって、
複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号であるマイクロホンノード観測信号に基づいて各マイクロホンノードにおける各音源に関する音源存在事後確率を推定し、また、前記音源存在事後確率を更新するための情報である更新情報に基づいて前記音源存在事後確率を更新するマイクノード別音源存在事後確率推定工程と、
同一時間周波数ビンにおいては前記各マイクロホンノード間での前記各音源に関する前記音源存在事後確率が共起すると仮定し、前記音源存在事後確率の共起関係をモデル化し、前記各マイクロホンノードの前記音源存在事後確率の共起性が大きくなるように前記モデルにおけるパラメータを推定し、前記パラメータを基に前記更新情報を算出するマイクノード間音源存在事後確率共起パタン検出工程と、
前記マイクノード別音源存在事後確率推定工程における前記音源存在事後確率の更新および前記マイクノード間音源存在事後確率共起パタン検出工程における前記更新情報の算出を、前記音源存在事後確率または前記パラメータが収束するまで繰り返し実行させる収束判定工程と、
前記マイクロホンノード観測信号に対し、前記音源存在事後確率または前記更新情報を用いてフィルタリングすることで、前記各音源の前記音源信号を推定する出力音推定工程と、
を含んだことを特徴とする音源分離方法。
前記マイクノード別音源存在事後確率推定工程は、
前記マイクロホンノード観測信号である時間フレームtにおける前記複数の音源から発せられる前記音源信号をi番目のマイクロホンノードで収音した観測特徴量x_iに基づいてp(x_i|n_i;θ⁽ⁿ _i ⁾)を推定することによって前記音源存在事後確率であるj番目の音源の前記i番目のマイクロホンノードでの存在事後確率p(n_i,j|x_i)を推定し、前記更新情報に基づいて前記観測信号の尤度p(x;θ)が最大になるようにp(x_i|n_i;θ⁽ⁿ _i ⁾)を再推定することによって前記音源存在事後確率であるj番目の音源の前記i番目のマイクロホンノードでの存在事後確率p(n_i,j|x_i)を更新し、
前記マイクノード間音源存在事後確率共起パタン検出工程は、
全てのi、全てのj、全てのtにおける前記音源存在事後確率の全ての時間フレームtに関するp(n_i,j|x_i,t)の集合を用いて、前記各マイクロホンノードにおける音源アクティビティ情報nおよび全ノードに共通する潜在的な音源アクティビティ情報aの同時確率であって、音源のアクティビティを示す事前確率p(n,a;θ^(w))が最大になるように、前記音源存在事後確率の共起性を示す前記モデルの前記パラメータであるθ^(w)を推定し、前記更新情報を算出することを特徴とする請求項３に記載の音源分離方法。
コンピュータを請求項１または２に記載の音源分離装置として機能させるための音源分離プログラム。