JP6339520B2 - 音源分離装置、音源分離方法および音源分離プログラム - Google Patents

音源分離装置、音源分離方法および音源分離プログラム Download PDF

Info

Publication number
JP6339520B2
JP6339520B2 JP2015075262A JP2015075262A JP6339520B2 JP 6339520 B2 JP6339520 B2 JP 6339520B2 JP 2015075262 A JP2015075262 A JP 2015075262A JP 2015075262 A JP2015075262 A JP 2015075262A JP 6339520 B2 JP6339520 B2 JP 6339520B2
Authority
JP
Japan
Prior art keywords
sound source
posterior probability
microphone
existence
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015075262A
Other languages
English (en)
Other versions
JP2016194657A (ja
Inventor
慶介 木下
慶介 木下
中谷 智広
智広 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015075262A priority Critical patent/JP6339520B2/ja
Publication of JP2016194657A publication Critical patent/JP2016194657A/ja
Application granted granted Critical
Publication of JP6339520B2 publication Critical patent/JP6339520B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、音源分離装置、音源分離方法および音源分離プログラムに関する。
複数の目的音源が存在する環境で音響信号を収音すると、しばしば目的信号同士が互いに重なり合った混合信号が観測される。この時、注目している目的音源が音声信号である場合、その他の音源信号がその目的信号に重畳した影響により、目的音声の明瞭度は大きく低下してしまう。
また、目的の音声信号(以下、目的信号)にその他の音源信号が重畳する形で観測されると、観測信号から目的信号の性質を正確に抽出することが困難となり、自動音声認識(以下、音声認識)システムの認識率も著しく低下する。よって認識率の低下を防ぐためには、複数の目的信号をそれぞれ分離し、目的信号の明瞭度を回復する工夫(方法)が必要である。
複数の目的信号をそれぞれ分離する要素技術は、さまざまな音響信号処理システムに用いることが可能である。例えば、実環境下で収音された音から目的信号を抽出して聞き取り易さを向上させる補聴器、目的信号を抽出することで音声の明瞭度を向上させるTV会議システム、実環境で用いられる音声認識システム、機械制御インタフェースにおける機械と人間との対話装置などに利用することが出来る。
図7に、従来の音源分離装置(例えば、非特許文献1参照)の機能構成を示してその動作を簡単に説明する。図7は、従来の音源分離装置を示す図である。図7に示すように、音源分離装置50は、全マイク共通音源存在事後確率推定部51およびフィルタリング部52を備える。
全マイク共通音源存在事後確率推定部51は、複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号を入力として、当該各観測信号の各時間周波数ビンを特徴付ける特徴ベクトルを算出し、その特徴ベクトルを分類することで各音源に関する存在確率である音源存在事後確率を計算する。フィルタリング部52は、複数のマイクロホンで収音した複数チャネルの観測信号に、上記存在確率を乗算することで音源信号を回復する。
H. Sawada, S. Araki, and S. Makino, "Underdetermined Convolutive Blind Source Separation via Frequency Bin-Wise Clustering and Permutation Alignment," IEEE Trans. Audio, Speech and Lang. Process., vol. 19, pp.516-527, March 2011.
しかしながら、従来の音源分離技術では、全マイクロホンが密集して配置されていることが想定されており、マイクロホンが空間的に分散配置されている状況(以下、分散マイクアレイ環境)は想定されていなかった。すなわち、複数のマイクロホンノードが空間的に大きく分散された形で配置されていると、各マイクロホンノードで観測されるある音源の音圧は同程度にならない。極端な場合は、ある音源はあるマイクロホンノードにおいて実質的に観測不可能な状況も起こり得る。このような状況では、各マイクロホンノードで異なる音源存在確率(アクティビティパタン)を仮定することが妥当である。なお、マイクロホンノードとは、2つ以上のマイクからなるマイクロホンアレイを指す。例えば、複数のマイクロホンを具備するICレコーダは1マイクロホンノードに相当する。
ところが、従来の方法では、録音現場にあるすべてのマイクロホンノードで得られたすべての観測を用いると、全マイクロホンノードに共通な音源存在確率を計算することしかできなかった。また、従来法をマイクロホンノードごとに独立に適用し処理を行えば、マイクロホンノード別に音源存在確率を計算することは可能であったが、この場合は、各マイクロホンノード間に存在するであろう有益な情報が有効活用されず、結果、分散マイクロホンアレイ環境において、効果的な音源分離を行うことができないという課題があった。
この発明は、このような課題に鑑みてなされたものであり、分散マイクロホンアレイ環境においても効果的に音源分離を行うことを目的とする。
本発明の音源分離装置は、複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号であるマイクロホンノード観測信号に基づいて各マイクロホンノードにおける各音源に関する音源存在事後確率を推定し、また、前記音源存在事後確率を更新するための情報である更新情報に基づいて前記音源存在事後確率を更新するマイクノード別音源存在事後確率推定部と、同一時間周波数ビンにおいては前記各マイクロホンノード間での前記各音源に関する前記音源存在事後確率が共起すると仮定し、前記音源存在事後確率の共起関係をモデル化し、前記各マイクロホンノードの前記音源存在事後確率の共起性が大きくなるように前記モデルにおけるパラメータを推定し、前記パラメータを基に前記更新情報を算出するマイクノード間音源存在事後確率共起パタン検出部と、前記マイクノード別音源存在事後確率推定部における前記音源存在事後確率の更新および前記マイクノード間音源存在事後確率共起パタン検出部における前記更新情報の算出を、前記音源存在事後確率または前記パラメータが収束するまで繰り返し実行させる収束判定部と、前記マイクロホンノード観測信号に対し、前記音源存在事後確率または前記更新情報を用いてフィルタリングすることで、前記各音源の前記音源信号を推定する出力音推定部と、を有することを特徴とする。
また、本発明の音源分離方法は、音源分離装置で実行される音源分離方法であって、複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号であるマイクロホンノード観測信号に基づいて各マイクロホンノードにおける各音源に関する音源存在事後確率を推定し、また、前記音源存在事後確率を更新するための情報である更新情報に基づいて前記音源存在事後確率を更新するマイクノード別音源存在事後確率推定工程と、同一時間周波数ビンにおいては前記各マイクロホンノード間での前記各音源に関する前記音源存在事後確率が共起すると仮定し、前記音源存在事後確率の共起関係をモデル化し、前記各マイクロホンノードの前記音源存在事後確率の共起性が大きくなるように前記モデルにおけるパラメータを推定し、前記パラメータを基に前記更新情報を算出するマイクノード間音源存在事後確率共起パタン検出工程と、前記マイクノード別音源存在事後確率推定工程における前記音源存在事後確率の更新および前記マイクノード間音源存在事後確率共起パタン検出工程における前記更新情報の算出を、前記音源存在事後確率または前記パラメータが収束するまで繰り返し実行させる収束判定工程と、前記マイクロホンノード観測信号に対し、前記音源存在事後確率または前記更新情報を用いてフィルタリングすることで、前記各音源の前記音源信号を推定する出力音推定工程と、を含んだことを特徴とする。
本発明によれば、分散マイクロホンアレイ環境においても効果的に音源分離を行うことができる。
図1は、実施形態に係る音源分離装置の構成の概要を示す図である。 図2は、実施形態に係る音源分離装置の詳細な構成を示すブロック図である。 図3は、実施形態に係る音源分離装置が用いられる音響環境を示す図である。 図4は、実施形態に係る音源分離装置の音源分離性能を示す図である。 図5は、実施形態に係る音源分離装置の処理を示すフローチャートである。 図6は、音源分離プログラムを実行するコンピュータを示す図である。 図7は、従来の音源分離装置を示す図である。
以下に、本願に係る音源分離装置、音源分離方法および音源分離プログラムの実施形態を図面に基づいて詳細に説明する。なお、この実施形態により本願に係る音源分離装置、音源分離方法および音源分離プログラムが限定されるものではない。まず、観測信号のモデル化について説明する。
[観測信号のモデル化]
観測信号のモデル化においては、初めに変数を定義する。Iはマイクロホンノードの総数、Jは各マイクロホンノード内のクラスタの数、Kは音源の数(本明細書の中ではJ=Kとしているが、JとKは異なる値でも構わない)、xiはi番目のマイクロホンノードの観測特徴量、xは全マイクロホンノードの観測特徴量をまとめたxiの集合、ni,jはi番目のマイクロホンノードのj番目のクラスタに対応する音源のアクティビティを表すバイナリ変数(1の場合は音源がアクティブ、0の場合は音源がアクティブではない状態を指す)、nはni,jの集合、akは全マイクロホンノードに共通した潜在的な音源アクティビティを表す変数(1の場合は音源がアクティブ、0の場合は音源がアクティブではない状態を指す)、aはakの集合を表す。
なお、以降の説明における処理は、すべて各周波数ビンについて独立に行うものであるため、周波数インデックスは簡単のため省略する。従来のクラスタリングベース音源分離(例えば、非特許文献1参照)をi番目のマイクロホンノード観測信号xi(xiは、正規化観測ベクトルに対応)に適用する場合、マイクロホンノード観測信号xiは式(1)に示すような混合分布型の確率モデルで表されていた。
Figure 0006339520
この時、式(1)のp(ni,j)は、j番目の音源がi番目のノードでアクティブになる事前確率を表す。また、式(1)のp(xi|ni,j(n i ))はワトソン分布などの分布を表し、θ(n i )は分布のパラメータ(ワトソン分布の場合は平均方向パラメータ、密度パラメータに対応し、ガウス分布の場合は平均や分散等に対応する)を表す。この式で表される尤度を最大化するように分布パラメータを調整した後に得られるp(ni,j|xi)は、i番目以外のマイクロホンノードから得られる情報を使わなかった場合に得ることのできる、i番目のノードでのj番目の音源に関する音源存在事後確率である。
一方、実施形態においては、観測信号xの確率モデル(つまり、観測信号に関する尤度p(x;θ))を式(2)のように表す。
Figure 0006339520
式(2)の3段目は、各マイクロホンノードの観測値xiは独立であるとの仮定の元に得られている。式(2)を見ると、本発明は、音源のアクティビティを示す事前確率の部分(つまり、p(n,a;θ(w))の部分に、新たに全マイクロホンノードに共通した潜在的な音源アクティビティを表す変数であるaが追加され、各ノードでの音源アクティビティ情報nと全ノードに共通する潜在的な音源アクティビティ情報aの同時確率で事前確率が表されていることが分かる。
音源のアクティビティを示す事前確率p(n,a;θ(w))は、様々な形を取ることができるが、ここでは、マイクロホンノード間の音源アクティビティの共起性(つまり、n1,j ,n2,j ,... ,nI,jの共起性)に注目したモデルとなるよう、式(3)〜(5)に示すような制限付きボルツマンマシン(RBM:Restricted Boltzman Machine)の形で表す。
Figure 0006339520
式(3)のθ(w)は、RBMの中で使われるパラメータ{Wi, bi, c}を表す。制限付きボルツマンマシンは協調フィルタに使われるなど、ノード間での観測信号(実施形態におけるノード間での音源存在事後確率に相当)の共起性を捉えることのできるモデルである。RBMでは一般的に入力層への入力nが与えられた場合の隠れ層での値akに関する事後確率、また隠れ層での値akが与えられた場合の入力層での値nに関する事後確率を定義し、それをパラメータ推定アルゴリズムの中で用いる。それらの事後確率を式(6)〜(8)のように定義する。
Figure 0006339520
[本発明の考え]
実施形態の詳細な説明の前に、本発明の考えの概略について説明する。本発明は、各マイクロホンノードのそれぞれにおいて、音源分離のためのフィルタである音源存在事後確率を計算するものである。従来法では、この値を計算するために、他のマイクロホンノードからの情報を取り入れることはできなかった。
しかし、提案方法では、マイクロホンノード間で情報をやり取りし、あるマイクロホンノードで観測されている音源アクティビティと共起するような音源アクティビティパタンが他のマイクロホンノードで観測されれば、それらの共起性が増す様に、マイクノード間音源存在事後確率共起パタン検出部12にてパラメータ推定が進む。結果、ある音源が複数のマイクロホンノードで観測されていれば、その音源に関する存在事後確率は互いに共起性が増すようにパラメータが調整され、より精度の高い推定が可能となる。
例えば、マイクロホンノード1、2、3の同一時間周波数ビンで、多くの場合、ある音源に関する事後確率が共起しているとする。そのような状況下で、ある時間周波数ビンでは、その音源に関してマイクロホンノード1と2のみで共起関係が確認され、マイクロホンノード3では共起していないとする。すると、マイクロホンノード3のこの時間周波数ビンでの推定値は誤りである確率が高い。
このような誤りは、マイクロホンノード1、2、3でのこの音源に関する存在事後確率の共起性を高めるようにパラメータを推定することで解消される。逆に、マイクロホンノード1のみで同音源がアクティブであり、マイクロホンノード2と3ではアクティブでない場合、その時間周波数ビンでは本来同音源はアクティブでない可能性が高い。そのような場合も「アクティブではない」という共起性が高まることで、マイクロホンノード1の誤りが訂正される。マイクロホンノード間での音源存在事後確率の共起性を高めるようにパラメータを学習する具体的手順については、実施形態の説明において詳細に説明する。
[実施形態]
図1を用いて、実施形態に係る音源分離装置の構成について説明する。図1は、実施形態に係る音源分離装置の構成の概要を示す図である。音源分離装置10は、マイクノード別音源存在事後確率推定部11と、マイクノード間音源存在事後確率共起パタン検出部12と、収束判定部13と、出力音推定部14と、を具備する。
図1に示すように、音源分離装置10は、複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号を入力とする。なお、特に音源分離装置10における処理を説明する際に、入力される複数チャネルの観測信号をマイクロホンノード観測信号と呼ぶ場合がある。
マイクノード別音源存在事後確率推定部11は、複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号であるマイクロホンノード観測信号に基づいて各マイクロホンノードにおける各音源に関する音源存在事後確率を推定し、また、前記音源存在事後確率を更新するための情報である更新情報に基づいて音源存在事後確率を更新する。
例えば、マイクノード別音源存在事後確率推定部11は、マイクロホンノード観測信号である時間フレームtにおける複数の音源から発せられる音源信号をi番目のマイクロホンノードで収音した観測特徴量xiに基づいて式(2)のp(xi|ni(n i ))を推定することによって音源存在事後確率であるj番目の音源のi番目のマイクロホンノードでの存在事後確率p(ni,j|xi)を推定し、更新情報に基づいて観測信号の尤度p(x;θ)が最大になるようにp(xi|ni(n i ))を再推定することによって音源存在事後確率であるj番目の音源のi番目のマイクロホンノードでの存在事後確率p(ni,j|xi)を更新する。
マイクノード間音源存在事後確率共起パタン検出部12は、同一時間周波数ビンにおいては各マイクロホンノード間での各音源に関する音源存在事後確率が共起すると仮定し、音源存在事後確率の共起関係をモデル化し、各マイクロホンノードの音源存在事後確率の共起性が大きくなるようにモデルにおけるパラメータを推定し、パラメータを基に更新情報を算出する。
例えば、マイクノード間音源存在事後確率共起パタン検出部12は、全てのi、全てのj、全てのtにおける音源存在事後確率の全ての時間フレームtに関するp(ni,j|xi,t)の集合を用いて、各マイクロホンノードにおける音源アクティビティ情報nおよび全ノードに共通する潜在的な音源アクティビティ情報aの同時確率であって、音源のアクティビティを示す事前確率p(n,a;θ(w))が最大になるように、音源存在事後確率の共起性を示すモデルのパラメータであるθ(w)を推定し、更新情報を算出する。
収束判定部13は、マイクノード別音源存在事後確率推定部11における音源存在事後確率の更新およびマイクノード間音源存在事後確率共起パタン検出部12における更新情報の算出を、音源存在事後確率またはパラメータが収束するまで繰り返し実行させる。
出力音推定部14は、マイクロホンノード観測信号に対し、音源存在事後確率または更新情報を用いてフィルタリングすることで、各音源の音源信号を推定する。
次に、図2を参照しながら、音源分離装置10の各部について詳細に説明する。図2は、実施形態に係る音源分離装置の詳細な構成を示すブロック図である。音源分離装置10は、複数のマイクロホンノード20からマイクロホンノード観測信号を入力され、各音源の音源イメージを推定し、出力装置21等に出力する。なお、音源分離装置10は、推定した音源イメージをスピーカ等の出力装置に出力してもよいし、記憶装置等に出力し記憶させるようにしてもよい。
図2に示すように、音源分離装置10は、マイクノード別音源存在事後確率推定部11と、マイクノード間音源存在事後確率共起パタン検出部12と、収束判定部13と、出力音推定部14と、入力部15と、出力部16と、を有する。また、マイクノード別音源存在事後確率推定部11は、第一音源存在事後確率初期値算出部111と、第一音源存在事後確率更新部112と、を有する。また、マイクノード間音源存在事後確率共起パタン検出部12は、共起関係モデルパラメータ算出部121と、第二音源存在事後確率算出部122と、を有する。
まず、入力部15には、複数の音源から発せられる音源信号を複数のマイクロホンノード20で収音した観測信号が入力される。そして、第一音源存在事後確率初期値算出部111は、複数の音源から発せられる音源信号を複数のマイクロホンノードで収音した観測信号を用いて、各マイクロホンノードから得られる情報を使って得られる各音源がアクティブな確率である第一音源存在事後確率を算出する。
次に、共起関係モデルパラメータ算出部121は、各マイクロホンノードの第一音源存在事後確率同士の共起関係をモデル化し、共起関係が大きくなるようにモデルのパラメータを算出し、既に算出したパラメータが存在する場合は、最新のパラメータに更新する。
さらに、第二音源存在事後確率算出部122は、パラメータを用いて、複数のマイクロホンノードから得られる情報を使った音源存在事後確率である第二音源存在事後確率を算出する。そして、第一音源存在事後確率更新部112は、第二音源存在事後確率を用いて、第一音源存在事後確率を更新する。
ここで、収束判定部13は、第一音源存在事後確率更新部112および共起関係モデルパラメータ算出部121における更新量が、所定の閾値以下であるか否かを判定し、更新量が所定の閾値以下でない場合は、更新量が所定の閾値以下となるまで第一音源存在事後確率更新部112および共起関係モデルパラメータ算出部121における処理を繰り返し実行させる。
最後に、出力音推定部141は、収束判定部13において、更新量が所定の閾値以下であると判定された場合に、観測信号に対し、第二音源存在事後確率を用いてフィルタリングを行い、各音源に関する音源イメージを推定する。以降、各部における処理について説明する。
[マイクノード別音源存在事後確率推定部11での処理(初期値の計算)]
まず、マイクノード間音源存在事後確率共起パタン検出部12で処理を行う前のマイクノード別音源存在事後確率推定部11における処理について説明する。この時、マイクノード別音源存在事後確率推定部11は、第一音源存在事後確率の初期値を算出する。なお、マイクノード間音源存在事後確率共起パタン検出部12から出力される補正情報を用いた第一音源存在事後確率の更新処理については後述する。
最初に、マイクノード別音源存在事後確率推定部11の第一音源存在事後確率初期値算出部111は、複数の音源から発せられる音源信号をi番目のマイクロホンノードで収音した観測特徴量xiおよび式(1)を用いて、j番目の音源のi番目のマイクロホンノードでの存在事後確率p(ni,j|xi)を計算する。具体的には、第一音源存在事後確率初期値算出部111は、式(1)の値を最大化するよう、最尤推定で分布パラメータθ(n i )を推定することで初期値を算出する。式(1)の混合分布パラメータの最尤推定は、期待値最大化アルゴリズムを用いて行うことができることが知られており、そのアルゴリズムの中でp(ni,j|xi)は計算される。
[マイクノード間音源存在事後確率共起パタン検出部12での処理]
次に、マイクノード間音源存在事後確率共起パタン検出部12の共起関係モデルパラメータ算出部121は、上記で得られた第一音源存在事後確率の集合、つまり全てのi(マイクロホンノードインデックス)、全てのj(各マイクロホンノードにおけるクラスタインデックス)、すべての時間フレームtに関するp(ni,j|xj,t)(xに時間フレームインデックスtを追加)を用いて、各事後確率の共起関係をモデル化(学習)する。具体的に、共起関係モデルパラメータ算出部121は、式(4)等で示されるRBMのパラメータ{Wi, bi, c}をp(n,a;θ(w))が最大となるように学習する。この学習には、一般的にはcontrastive divergenceを用いた最急降下法(参考文献1:G. E. Hinton, “A practical guide to training restricted Boltzmann machines,” Univ. of Toronto, Toronto, ON, Canada, Tech. Rep., 2010.)が用いられる。ここで、最急降下法で推定する各パラメータ{Wi, bi, c}の勾配は式(9)〜(11)によって計算される。
Figure 0006339520
そして、共起関係モデルパラメータ算出部121は、各勾配を計算した後、各パラメータは、通常の最急降下法により式(12)〜(14)によって更新する。
Figure 0006339520
ここで、μはパラメータ更新のためのステップサイズであり、0.0001など比較的小さな値が用いられる。さらに、共起関係モデルパラメータ算出部121は、後述のように、収束判定部13に制御されることで、式(12)〜(14)の計算を十分にパラメータの更新量が小さくなるまで繰り返す。なお、各パラメータの勾配計算を表した式(9)〜(11)中のn^およびn~は、計算を繰り返すごとに、以下のように計算する。
[n^t,i,jの計算]
<手順a1>
まず、p(ni,j=1|xj)を従来のクラスタリングベース音源分離等を用いて計算する。
<手順a2>
次に、n^t,i,jの初期値をp(ni,j|xj,t)からサンプリングする。ここで、サンプリングの具体的な処理例について説明する。まず、時間t、ノードiの観測特徴量x^t,iがクラスタjに帰属する事後確率をクラスタ1〜Jについて計算する。この時、1〜Jまでの事後確率の値を合算すれば1となる。次に、これらの事後確率を基に、0〜1の区間を分割する。例えば、クラスタ1,2,3で計算される帰属事後確率がそれぞれ、0.1,0.7,0.2であれば、0〜1の区間を[0.0 0.1),[0.1 0.8),[0.8 1.0]に分割し、各区間を各クラスタと紐づける。その後、1〜0の範囲の乱数を一つ発生させ、その乱数がどの区間に帰属するかを検出する。その該当区間に対応するクラスのn^t,i,jを1とし、それ以外の同一マイクロホンノード内のn^t,i,jを0とする。
<手順a3>
以下の(a3.1)および(a3.2)を所定の回数繰り返す。(本実施例では1回)
(a3.1)現在求められているn^t,i,jを基に、式(6)を用いてa^t,kを計算する。
(a3.2)a^t,kとxt,i(マイクロホンノードi、時間tの観測特徴量)とマイクノード別音源存在事後確率推定部11で推定されたp(xi|ni,j=1)を基に、式(7)および式(8)を用いて、n^t,i,jを計算する。
<手順a4>
手順a3で計算されたn^t,i,jを利用して式(9)〜(11)の計算を行う。
[n~t,i,jの計算]
<手順b1>
n~t,i,jの初期値をp(ni,j|xj,t)からサンプリングする。(具体的な処理例は、手順a2と同様)
<手順b2>
以下の(b3.1)および(b3.2)を所定の回数繰り返す。(本実施例では1回)
(b3.1)現在求められているn~t,i,jを基に、式(6)を用いてa~t,kを計算する。
(b3.2)a~t,kを基に、式(7)を用いて、n~t,i,jを計算する。
<手順b3>
手順b3で計算されたn~t,i,jを利用して式(9)〜(11)の計算を行う。
そして、マイクノード間音源存在事後確率共起パタン検出部12の第二音源存在事後確率算出部122は、求められたパラメータ{Wi, bi, c}から式(8)を基に更新情報である第二音源存在事後確率p(ni,j=1|a^t,xt)を計算する。
[マイクノード別音源存在事後確率推定部11での処理(初期値計算以降の処理)]
マイクノード別音源存在事後確率推定部11の第一音源存在事後確率更新部112は、マイクノード間音源存在事後確率共起パタン検出部12で得られた更新情報である第二音源存在事後確率p(ni,j=1|a^t,xt)を用いて、式(2)が最大となるようにp(xi|ni(n i ))の分布パラメータを更新する。以下では、更新方法の一例を示す。
はじめに、第一音源存在事後確率更新部112は、式(2)におけるp(xi|ni(n i ))を式(15)のように表す。
Figure 0006339520
式(15)は、p(xi|ni(n i ))を一般的な指数型分布族の関数で表している。ここで、式(15)の尤度式の対数をとったもの(対数尤度関数)のθ(n i )に関する勾配は、以下の式(16)のようになる。
Figure 0006339520
この時、第一音源存在事後確率更新部112は、p(n,a|x)を以下の式(17)に示すように近似的に求める。
Figure 0006339520
式(17)の値は、前段のマイクノード間音源存在事後確率共起パタン検出部12での処理の最終段階で求めた、式(8)を基に計算される第二音源存在事後確率p(ni,j=1|a^t,xt)をすべての時間フレームtについて平均した値に相当する。最終的に、第一音源存在事後確率更新部112は、式(17)の値が0となるように下記の式(18)のように置き、方程式を解くことでθ(n i )の値を計算する。
Figure 0006339520
式(18)のθ(n i )の値が計算されれば、再度第一音源存在事後確率p(ni,j|xi)を計算することが可能となり、その値をマイクノード間音源存在事後確率共起パタン検出部12に出力すれば、マイクノード間音源存在事後確率共起パタン検出部12にて再度パラメータ{Wi, bi, c}の更新処理が行われる。
[収束判定部13での処理]
収束判定部13は、第一音源存在事後確率更新部112、共起関係モデルパラメータ算出部121および第二音源存在事後確率算出部122における処理を繰り返し行い、式(18)のマイクノード別音源存在事後確率推定部11のパラメータθ(n i )や式(2)のマイクノード間音源存在事後確率共起パタン検出部12のパラメータθ(w)の更新量が所定の閾値以下となったところで、収束したと判定し、繰り返しを終了するように制御する。また、式(2)に示す尤度が十分に大きな値となったところで収束したと判定してもよい。
[評価実験]
実施形態に係る音源分離装置の性能を評価する目的で評価実験を行った。実験条件は次の通りとした。図3に、シミュレーションに用いた音響環境を示す。図3は、実施形態に係る音源分離装置が用いられる音響環境を示す図である。部屋のサイズは10m(W)×5m(D)×5m(H)であり、残響時間は0.2、0.4、0.6、0.8秒の4条件とした。この音響環境を鏡像法(参考文献2:J.B.Allen and D.A.Berkeley, “Image method for efficiently simulating small-room acoustics, ”J.Acoust.Soc.Am.,vol.65(4),pp.943-950,1979.)を用いてシミュレーションした。
また、背景雑音のある環境を模擬するため、コンピュータ上で白色雑音を発生させ、SN比が10dBとなるよう信号に足し合わせ、観測信号を作成した。話者は、6人おり、6人中3人の話者が半径80cmの円状に等間隔を開けて部屋の左側に座り、その他の3人は同様に半径80cmの円状に等間隔を開けて部屋の右側に座り、全員が同時会話している状況を想定した。これは、会議室や飲食店などでの会話状況を模擬している。収音機器としては、図3に示すように、3つのマイクからなるマイクロホンノードが2つある状況を想定した。
本発明と比較する従来法は、すべてのマイクロホンにおいて共通の音源存在事後確率を仮定して、ソフトマスクを用いた音源分離を行う非特許文献1に示された方法とした。
評価指標としては音源分離性能を示すSIR(Signal-to-interference ratio)を用いた。音源分離性能はSIRの値が大きいほど、性能が良いことを示す。評価音声としては、TIMIT(参考文献3:W.Fisher, G.R.Doddington, and K.M.Goudie-Marshall, “The DARPA speech recognition research database: specifications and status, ”inProc. DARPA workshop on Speech Recognition, 7986, pp.96-99.)から無作為に抽出した音声を用い、各音響環境において計20個の異なる混合音声を用意し、結果はそれらの平均値として算出した。
図4に、評価実験の結果を示す。図4は、実施形態に係る音源分離装置の音源分離性能を示す図である。横軸は残響時間、縦軸はSIR値、つまり音源分離性能(dB)を表している。全残響環境において、本発明は従来法よりも高い性能を達成していることが示されている。このように本発明の音源分離装置によれば、分散マイクロホンアレイ環境においても効率的に音源分離を行うことが確認できた。
[出力音推定部14での処理]
収束判定部13によって更新量が収束したと判定された場合は、出力音推定部14は、第二音源存在事後確率を用いてフィルタリングを行い、各音源に関する音源イメージを推定する。
[実施形態の処理の流れ]
図5を用いて、実施形態に係る音源分離装置10の処理の流れについて説明する。図5は、実施形態に係る音源分離装置の処理を示すフローチャートである。まず、マイクノード別音源存在事後確率推定部11は、第一音源存在事後確率の初期値を算出する(ステップS101)。次に、マイクノード間音源存在事後確率共起パタン検出部12は、第一音源存在事後確率の共起関係をモデル化するパラメータを算出し、既に算出された既存のパラメータが存在している場合は、既存のパラメータを更新する(ステップS102)。そして、マイクノード間音源存在事後確率共起パタン検出部12は、算出したパラメータを基に第二音源存在事後確率を算出する(ステップS103)。
ここで、収束判定部13が、各更新量が閾値以下でないと判定した場合(ステップS104、No)は、マイクノード別音源存在事後確率推定部11は、第二音源存在事後確率を基に第一音源存在事後確率を更新する(ステップS105)。そして、マイクノード間音源存在事後確率共起パタン検出部12は、更新された第一音源存在事後確率を用いて再び処理を行う。
これに対して、収束判定部13が、各更新量が閾値以下であると判定した場合(ステップS104、Yes)は、マイクノード間音源存在事後確率共起パタン検出部12は、第二音源存在事後確率を出力音推定部14に出力する(ステップS106)。最後に、出力音推定部14は、時間ごとの音源存在事後確率をフィルタとして音源分離を行う(ステップS107)。
[実施形態の効果]
まず、音源分離装置10は、複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号であるマイクロホンノード観測信号に基づいて各マイクロホンノードにおける各音源に関する音源存在事後確率を推定し、また、前記音源存在事後確率を更新するための情報である更新情報に基づいて音源存在事後確率を更新する。そして、音源分離装置10は、同一時間周波数ビンにおいては各マイクロホンノード間での各音源に関する音源存在事後確率が共起すると仮定し、音源存在事後確率の共起関係をモデル化し、各マイクロホンノードの音源存在事後確率の共起性が大きくなるようにモデルにおけるパラメータを推定し、パラメータを基に更新情報を算出する。さらに、音源分離装置10は、音マイクノード別音源存在事後確率推定部における音源存在事後確率の更新およびマイクノード間音源存在事後確率共起パタン検出部における更新情報の算出を、音源存在事後確率またはパラメータが収束するまで繰り返し実行させる。最後に、音源分離装置10は、マイクロホンノード観測信号に対し、音源存在事後確率または更新情報を用いてフィルタリングすることで、各音源の音源信号を推定する。
これにより、共起性を考慮した音源存在事後確率のモデルの作成を行うことができ、複数のマイクロホンノードから得られる情報を音源分離に利用することが可能となる。その結果、分散マイクロホンアレイ環境においても効果的に音源分離を行うことができるようになる。
[装置構成等]
音声分離装置10における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
なお、効率的にRBMのパラメータ推定を行う目的で、contrastive divergence法を用いた方法について説明を行ったが、この発明はこの実施例に限定されない。また、マイクノード別音源存在事後確率推定部11での分布パラメータの推定のために式(16)の値をゼロと置く方法について説明を行ったが、この発明はこの実施例に限定されない。例えば式(2)の値を最大化するために、全パラメータの全ての組み合わせを探索する全組み合わせ探索法を用いても、この発明の技術思想の範囲に含まれる。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(Re Writable)等を、光磁気記録媒体として、MO(Magneto Opticaldisc)等を、半導体メモリとしてEEP−ROM(Electronically Erasableand Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
音源分離装置10は、内包する各機能(装置)を物理的・仮想的に分散可能であり、その際は両装置内の各機能(装置)が各々一つの単位として分散されることとしてもよい。また、例えば、収束判定部13は省略可能であり、マイクノード別音源存在事後確率推定部11、またはマイクノード間音源存在事後確率共起パタン検出部12に組み込まれることとしてもよい。また各装置内の各部は、有効に機能する程度において別の各装置に組み込まれる構成をとってもよい。
[プログラム]
また、上記実施の形態に係る音源分離装置10が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。この場合、コンピュータがプログラムを実行することにより、上記実施の形態と同様の効果を得ることができる。さらに、かかるプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませて実行することにより上記実施の形態と同様の処理を実現してもよい。以下に、音源分離装置10と同様の機能を実現する音源分離プログラムを実行するコンピュータの一例を説明する。
図6は、音源分離プログラムを実行するコンピュータを示す図である。図6に示すように、コンピュータ1000は、例えば、メモリ1010と、CPU(Central Processing Unit)1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011およびRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。ディスクドライブ1100には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1110およびキーボード1120が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1130が接続される。
ここで、図6に示すように、ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。上記実施の形態で説明した各テーブルは、例えばハードディスクドライブ1090やメモリ1010に記憶される。
また、音源分離プログラムは、例えば、コンピュータ1000によって実行される指令が記述されたプログラムモジュールとして、ハードディスクドライブ1090に記憶される。具体的には、上記実施の形態で説明した音源分離装置10が実行する各処理が記述されたプログラムモジュールが、ハードディスクドライブ1090に記憶される。
また音源分離プログラムによる情報処理に用いられるデータは、プログラムデータとして、例えば、ハードディスクドライブ1090に記憶される。そして、CPU1020が、ハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。
なお、音源分離プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、音源分離プログラムに係るプログラムモジュール1093やプログラムデータ1094は、LAN(Local Area Network)やWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
10 音源分離装置
11 マイクノード別音源存在事後確率推定部
12 マイクノード間音源存在事後確率共起パタン検出部
13 収束判定部
14 出力音推定部
15 入力部
20 マイクロホンノード
21 出力装置

Claims (5)

  1. 複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号であるマイクロホンノード観測信号に基づいて各マイクロホンノードにおける各音源に関する音源存在事後確率を推定し、また、前記音源存在事後確率を更新するための情報である更新情報に基づいて前記音源存在事後確率を更新するマイクノード別音源存在事後確率推定部と、
    同一時間周波数ビンにおいては前記各マイクロホンノード間での前記各音源に関する前記音源存在事後確率が共起すると仮定し、前記音源存在事後確率の共起関係をモデル化し、前記各マイクロホンノードの前記音源存在事後確率の共起性が大きくなるように前記モデルにおけるパラメータを推定し、前記パラメータを基に前記更新情報を算出するマイクノード間音源存在事後確率共起パタン検出部と、
    前記マイクノード別音源存在事後確率推定部における前記音源存在事後確率の更新および前記マイクノード間音源存在事後確率共起パタン検出部における前記更新情報の算出を、前記音源存在事後確率または前記パラメータが収束するまで繰り返し実行させる収束判定部と、
    前記マイクロホンノード観測信号に対し、前記音源存在事後確率または前記更新情報を用いてフィルタリングすることで、前記各音源の前記音源信号を推定する出力音推定部と、
    を有することを特徴とする音源分離装置。
  2. 前記マイクノード別音源存在事後確率推定部は、
    前記マイクロホンノード観測信号である時間フレームtにおける前記複数の音源から発せられる前記音源信号をi番目のマイクロホンノードで収音した観測特徴量xiに基づいてp(xi|ni(n i ))を推定することによって前記音源存在事後確率であるj番目の音源の前記i番目のマイクロホンノードでの存在事後確率p(ni,j|xi)を推定し、前記更新情報に基づいて前記観測信号の尤度p(x;θ)が最大になるようにp(xi|ni(n i ))を再推定することによって前記音源存在事後確率であるj番目の音源の前記i番目のマイクロホンノードでの存在事後確率p(ni,j|xi)を更新し、
    前記マイクノード間音源存在事後確率共起パタン検出部は、
    全てのi、全てのj、全てのtにおける前記音源存在事後確率の全ての時間フレームtに関するp(ni,j|xi,t)の集合を用いて、前記各マイクロホンノードにおける音源アクティビティ情報nおよび全ノードに共通する潜在的な音源アクティビティ情報aの同時確率であって、音源のアクティビティを示す事前確率p(n,a;θ(w))が最大になるように、前記音源存在事後確率の共起性を示す前記モデルの前記パラメータであるθ(w)を推定し、前記更新情報を算出することを特徴とする請求項1に記載の音源分離装置。
  3. 音源分離装置で実行される音源分離方法であって、
    複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号であるマイクロホンノード観測信号に基づいて各マイクロホンノードにおける各音源に関する音源存在事後確率を推定し、また、前記音源存在事後確率を更新するための情報である更新情報に基づいて前記音源存在事後確率を更新するマイクノード別音源存在事後確率推定工程と、
    同一時間周波数ビンにおいては前記各マイクロホンノード間での前記各音源に関する前記音源存在事後確率が共起すると仮定し、前記音源存在事後確率の共起関係をモデル化し、前記各マイクロホンノードの前記音源存在事後確率の共起性が大きくなるように前記モデルにおけるパラメータを推定し、前記パラメータを基に前記更新情報を算出するマイクノード間音源存在事後確率共起パタン検出工程と、
    前記マイクノード別音源存在事後確率推定工程における前記音源存在事後確率の更新および前記マイクノード間音源存在事後確率共起パタン検出工程における前記更新情報の算出を、前記音源存在事後確率または前記パラメータが収束するまで繰り返し実行させる収束判定工程と、
    前記マイクロホンノード観測信号に対し、前記音源存在事後確率または前記更新情報を用いてフィルタリングすることで、前記各音源の前記音源信号を推定する出力音推定工程と、
    を含んだことを特徴とする音源分離方法。
  4. 前記マイクノード別音源存在事後確率推定工程は、
    前記マイクロホンノード観測信号である時間フレームtにおける前記複数の音源から発せられる前記音源信号をi番目のマイクロホンノードで収音した観測特徴量xiに基づいてp(xi|ni(n i ))を推定することによって前記音源存在事後確率であるj番目の音源の前記i番目のマイクロホンノードでの存在事後確率p(ni,j|xi)を推定し、前記更新情報に基づいて前記観測信号の尤度p(x;θ)が最大になるようにp(xi|ni(n i ))を再推定することによって前記音源存在事後確率であるj番目の音源の前記i番目のマイクロホンノードでの存在事後確率p(ni,j|xi)を更新し、
    前記マイクノード間音源存在事後確率共起パタン検出工程は、
    全てのi、全てのj、全てのtにおける前記音源存在事後確率の全ての時間フレームtに関するp(ni,j|xi,t)の集合を用いて、前記各マイクロホンノードにおける音源アクティビティ情報nおよび全ノードに共通する潜在的な音源アクティビティ情報aの同時確率であって、音源のアクティビティを示す事前確率p(n,a;θ(w))が最大になるように、前記音源存在事後確率の共起性を示す前記モデルの前記パラメータであるθ(w)を推定し、前記更新情報を算出することを特徴とする請求項3に記載の音源分離方法。
  5. コンピュータを請求項1または2に記載の音源分離装置として機能させるための音源分離プログラム。
JP2015075262A 2015-04-01 2015-04-01 音源分離装置、音源分離方法および音源分離プログラム Active JP6339520B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015075262A JP6339520B2 (ja) 2015-04-01 2015-04-01 音源分離装置、音源分離方法および音源分離プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015075262A JP6339520B2 (ja) 2015-04-01 2015-04-01 音源分離装置、音源分離方法および音源分離プログラム

Publications (2)

Publication Number Publication Date
JP2016194657A JP2016194657A (ja) 2016-11-17
JP6339520B2 true JP6339520B2 (ja) 2018-06-06

Family

ID=57323126

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015075262A Active JP6339520B2 (ja) 2015-04-01 2015-04-01 音源分離装置、音源分離方法および音源分離プログラム

Country Status (1)

Country Link
JP (1) JP6339520B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110610718B (zh) * 2018-06-15 2021-10-08 炬芯科技股份有限公司 一种提取期望声源语音信号的方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5568530B2 (ja) * 2011-09-06 2014-08-06 日本電信電話株式会社 音源分離装置とその方法とプログラム
JP6114053B2 (ja) * 2013-02-15 2017-04-12 日本電信電話株式会社 音源分離装置、音源分離方法、およびプログラム
JP6059112B2 (ja) * 2013-08-21 2017-01-11 日本電信電話株式会社 音源分離装置とその方法とプログラム

Also Published As

Publication number Publication date
JP2016194657A (ja) 2016-11-17

Similar Documents

Publication Publication Date Title
US11900947B2 (en) Method and system for automatically diarising a sound recording
JP6235938B2 (ja) 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム
JP6243858B2 (ja) 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム
JP5842056B2 (ja) 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体
JP6927419B2 (ja) 推定装置、学習装置、推定方法、学習方法及びプログラム
CN106710599A (zh) 一种基于深度神经网络的特定声源检测方法与系统
JP5568530B2 (ja) 音源分離装置とその方法とプログラム
JP5634959B2 (ja) 雑音/残響除去装置とその方法とプログラム
Nandwana et al. Robust unsupervised detection of human screams in noisy acoustic environments
JP7218601B2 (ja) 学習データ取得装置、モデル学習装置、それらの方法、およびプログラム
JP6723120B2 (ja) 音響処理装置および音響処理方法
KR102087307B1 (ko) 잔향 환경에 강인한 음원 방향 추정을 위한 심화 신경망 기반의 앙상블 음원 방향 추정 방법 및 장치
US20050027514A1 (en) Method and apparatus for automatically recognizing audio data
JP6594839B2 (ja) 話者数推定装置、話者数推定方法、およびプログラム
KR102401959B1 (ko) 다채널 음향 신호를 이용한 심화 신경망 기반의 잔향 제거, 빔포밍 및 음향 인지 모델의 결합 학습 방법 및 장치
JP2008158035A (ja) 多音源有音区間判定装置、方法、プログラム及びその記録媒体
Imoto et al. Acoustic topic model for scene analysis with intermittently missing observations
Chettri et al. A study on convolutional neural network based end-to-end replay anti-spoofing
KR20190037025A (ko) 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템
JP6505346B1 (ja) Dnn音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラム
JP6339520B2 (ja) 音源分離装置、音源分離方法および音源分離プログラム
JP6721165B2 (ja) 入力音マスク処理学習装置、入力データ処理関数学習装置、入力音マスク処理学習方法、入力データ処理関数学習方法、プログラム
JP6059112B2 (ja) 音源分離装置とその方法とプログラム
JP5731929B2 (ja) 音声強調装置とその方法とプログラム
JP6114053B2 (ja) 音源分離装置、音源分離方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170621

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180412

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180508

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180510

R150 Certificate of patent or registration of utility model

Ref document number: 6339520

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150