JP2019074625A

JP2019074625A - 音源分離方法および音源分離装置

Info

Publication number: JP2019074625A
Application number: JP2017200108A
Authority: JP
Inventors: 林太郎池下; Rintaro Ikeshita; 洋平川口; Yohei Kawaguchi
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2017-10-16
Filing date: 2017-10-16
Publication date: 2019-05-16
Anticipated expiration: 2037-10-16
Also published as: US20190115043A1; US10720174B2; JP6976804B2

Abstract

【課題】高い分離性能を有する音源分離方法を提供する。【解決手段】処理装置，記憶装置，入力装置，出力装置を備える情報処理装置により，モデル化された音源分布を用いて，入力装置から入力される音声信号の音源分離を行う音源分離方法である。この方法では，モデルが従う条件として，各音源は互いに独立であり，各音源の有するパワーを帯域分割された周波数帯域ごとにモデル化し，異なる周波数帯域間のパワーの関係については非負値行列分解によってモデル化し，音源の分割された成分は複素正規分布に従う，ことを特徴とする。【選択図】図２

Description

本発明は，音源分離に係わる技術に関するものである。

ブラインド音源分離技術とは，複数音源が混合した観測信号のみから，音源の混合過程などの情報が未知の状況で，混合前の個々の元信号を推定する信号処理技術のことである。近年，マイクロホン数が音源数以上の条件で音源分離を行う，優決定ブラインド音源分離技術の研究が盛んに進められている。

従来から知られる「独立成分分析」は，環境に存在する音源が互いに統計的に独立であると仮定して音源分離を行う手法である。一般に，独立成分分析では，マイク観測信号を時間周波数領域に変換して，分離信号が統計的に独立になるように周波数帯域ごとに分離フィルタを推定する。分離フィルタの推定を周波数帯域ごとに行うために，独立成分分析では，最終的な音源分離結果を得るために，各周波数帯域の分離結果を音源の順番に並び替える必要がある。この問題はパーミュテーション問題と呼ばれ，解決が容易でない問題として知られている。

パーミュテーション問題を回避できる手法として，「独立ベクトル分析」が注目されている。独立ベクトル分析では，各音源に対して，音源の時間周波数成分を全周波数帯域に渡って束ねた音源ベクトルを考え，音源ベクトルが互いに独立になるように分離フィルタを推定する（特許文献１）。独立ベクトル分析では，一般に，音源ベクトルが球面対称な確率分布に従うことを仮定するため，音源の有する周波数方向の構造をモデル化せずに音源分離を行っていた。

「独立低ランク行列分析」は，独立ベクトル分析における音源ベクトルを，非負値行列分解（NMF: Nonnegative Matrix Factorization）でモデル化して音源分離を行う手法である（非特許文献１）。独立低ランク行列分析は，独立ベクトル分析と同様に，パーミュテーション問題を回避できる手法である。さらに，音源ベクトルをNMFでモデル化することで，音源の有する周波数方向の構造を利用して音源分離を行うことができる。

特開２０１４−４１３０８号公報

D. Kitamura, N. Ono, H. Sawada, H. Kameoka, and H. Saruwatari, "Determined Blind Source Separation Unifying Independent Vector Analysis and Nonnegative Matrix Factorization," IEEE/ACM Transactions on Ausio, Speech, and Language Processing, vol. 24, no.9, pp. 1626−1641, September, 2016.

特許文献１の独立ベクトル分析は，音響信号の有する周波数方向の構造を無視しているため，精度上の制約があった。非特許文献１の独立低ランク行列分析は，音源ベクトルをNMFでモデル化することで，音声信号に顕著な周波数成分の共起情報を利用して音源分離を行うことができる。しかしながら，NMFによるモデル化では，音声信号などが有する近傍の周波数間の強い高次相関を利用することができないため，周波数成分の共起だけでは捉えられない音声信号などに対して，音源分離性能が低いという問題があった。

本発明の一側面は，処理装置，記憶装置，入力装置，出力装置を備える情報処理装置により，モデル化された音源分布を用いて，入力装置から入力される音声信号の音源分離を行う音源分離方法である。この方法では，モデルが従う条件として，各音源は互いに独立であり，各音源の有するパワーを帯域分割された周波数帯域ごとにモデル化し，異なる周波数帯域間のパワーの関係については非負値行列分解によってモデル化し，音源の分割された成分は複素正規分布に従う，ことを特徴とする。

本発明の他の一側面は，処理装置，記憶装置，入力装置，出力装置を備え，モデル化された音源分布を用いて，入力装置から入力される音声信号の音源分離を行う音源分離装置である。この装置では，モデルが従う条件として，各音源は互いに独立であり，各音源の有するパワーを帯域分割された周波数帯域ごとにモデル化し，異なる周波数帯域間のパワーの関係については非負値行列分解によってモデル化し，音源の分割された成分は複素正規分布に従う，ことを特徴とする。

本発明によれば，高い分離性能を有する音源分離方法を提供することができる。

比較例の概念フロー図。基本的な実施例の概念フロー図。周波数帯域を音声信号の特徴に合わせて分割する処理の概念図。発展的な実施例の概念フロー図。第一実施形態による音源分離装置の機能構成を例示するブロック図。実施例のハードウェアのブロック図。第一実施形態による音源分離装置の処理フローを例示する流れ図。第二実施形態による音源分離装置の機能構成を例示する流れ図。第二実施形態による音源分離装置の処理フローを例示する流れ図。

実施の形態について，図面を用いて詳細に説明する。ただし，本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で，その具体的構成を変更し得ることは当業者であれば容易に理解される。

以下に説明する発明の構成において，同一部分又は同様な機能を有する部分には同一の符号を異なる図面間で共通して用い，重複する説明は省略することがある。

同一あるいは同様な機能を有する要素が複数ある場合には，同一の符号に異なる添字を付して説明する場合がある。ただし，複数の要素を区別する必要がない場合には，添字を省略して説明する場合がある。

本明細書等における「第１」，「第２」，「第３」などの表記は，構成要素を識別するために付するものであり，必ずしも，数，順序，もしくはその内容を限定するものではない。また，構成要素の識別のための番号は文脈毎に用いられ，一つの文脈で用いた番号が，他の文脈で必ずしも同一の構成を示すとは限らない。また，ある番号で識別された構成要素が，他の番号で識別された構成要素の機能を兼ねることを妨げるものではない。

詳細な説明の前に，本実施例の特徴を非特許文献１の独立低ランク行列分析と比較して説明する。

図１は独立低ランク行列分析を用いた音源分離を説明するために，本発明者らが作成した比較例の概念フロー図である。音源分離装置では，通常複数のマイクロホンで観測された信号を，例えばフーリエ変換により時間と周波数の領域の信号に変換する（処理Ｓ１００１）。このような信号は，例えば時間と周波数の２軸を定義した平面上で，音のパワー（単位時間あたりの音のエネルギー）の大きな領域を濃く（または明るく）示すグラフィックで，可視化して表示することができる。

独立低ランク行列分析では，音源の従う確率分布を以下の条件でモデル化する（処理Ｓ１００２）。すなわち，（Ａ）各音源は互いに独立である。（Ｂ）各音源の時間周波数成分は複素正規分布に従う。（Ｃ）正規分布の分散をNMFで低ランク分解する。

処理Ｓ１００３〜処理Ｓ１００５は，NMFのパラメータと分離フィルタの最適化処理である。処理Ｓ１００３で，NMFのパラメータを推定する。処理Ｓ１００４で，推定したNMFのパラメータで音源ベクトルが互いに独立になるように分離フィルタを推定する。この処理を，所定回数繰り返し行う。具体例としては，例えば特許文献１で開示されている補助関数法による推定がある。処理Ｓ１００５ではパラメータとフィルタが収束あるいは所定回数更新が終わったことをもってパラメータの設定を完了する。

処理Ｓ１００６にて，設定されたパラメータとフィルタを観測信号に適用し、音源分離後の時間周波数領域の信号を，時間領域の信号に変換して出力する。

先に述べたように，独立低ランク行列分析の課題の一つは，近傍の周波数間の強い相関を捉えられないことである。また，独立低ランク行列分析で仮定する音源の従う確率分布は，時変型の複素正規分布であり，大きな尖度を有する音声信号などに対して，音源分離性能が低いという問題があった。実施例では，この課題を考慮する例を示す。

図２は本発明の基本的な実施例の概念フロー図である。処理Ｓ２００２におけるモデル化に特徴を持たせている。すなわち，（Ａ）各音源は互いに独立である。（Ｂ−１）周波数帯域を音声信号の特徴に合わせて分割する。（Ｂ−２）各音源の分割された成分は複素正規分布に従う。（Ｃ）正規分布の分散をNMFで低ランク分解する。（Ｂ−１）（Ｂ−２）の特徴により，音声信号の近傍の周波数間の強い相関を捉えることができる。また，NMFのパラメータ数を削減できるので最適化（音源分離）の処理が容易になる。

図３は，（Ｂ−１）の周波数帯域を音声信号の特徴に合わせて分割する処理の概念を示す図である。縦軸と横軸は周波数帯域（単位kHz）を示しており，色の濃い部分は相関が高いことを示す。本実施例では，周波数帯域を領域３００１、領域３００２、領域３００３のように，相関の高い部分を纏めて分割することによって，類似の特徴を持つ周波数帯域を抽出してモデル化することができる。

例えば，音源からマイク１９１により得られる音の帯域が２０〜２０kHzだったとすると，周波数帯域の分割は，例えば（帯域１）２０〜１００Hz，（帯域２）１００Hz〜１kHz，（帯域３）１kHz〜２０kHzのように相関の強い範囲を大きさは自由に分割することができる。このとき，分割した帯域を合計したとき，想定される音源の周波数帯域をすべてカバーすることが望ましい。

図４は本発明の発展的な実施例の概念フロー図である。図４の例のモデル化処理Ｓ４００２では，図２の例のモデル化処理Ｓ２００２の条件に加えて，（Ｄ）分割された成分毎に有音と無音の確率分布を別々にモデル化している。ここで，有音，無音とは，着目している特定の音源からの音（例えば人間による発話）の有無を意味している。

従来の独立低ランク行列分析は，有音区間と有音区間とで音源は異なる確率分布に従うという情報を利用していないため，音源が時間的に入れ替わる実環境において，音源分離性能が十分でない。図４の処理Ｓ４００３で，例えば音源の確率分布を音声が含まれる音声用モデルと音声が含まれない無音用モデルを切り替えて適用することで，音声区間と無音区間が非定常に変化する信号に対して，高い分離性能を有する音源分離方法を提供することができる。この際のモデル切替の具体的なアルゴリズムとして，後述するEMアルゴリズム（Expectation-Maximization Algorithm）がある。

また，上記処理で取り入れたモデル化において，モデル化誤差を補正することが望ましい。その際に，DNN（Deep Neural Network;ディープニューラルネットワーク）といった機械学習手法でモデル化誤差が補正可能である。そこで，処理Ｓ４００３，Ｓ１００３においては，あらかじめ録音し収集した複数の、好ましくは大量の音源を用いて、DNNに事前学習させておき，音源の確率分布のモデル化誤差をDNNによって補正することが考えられる。この構成では，音源分離性能の向上が期待できる。

以下の実施例では，具体的な例として周波数帯域分割と，分離対象信号の尖度といった分布情報と，を用いて分離対象信号の確率モデルと観測信号の生成過程をモデル化し，音源状態の判別と音源分離とを同時に解決し，音源状態の推定結果を予め学習しておいたニューラルネットワークを用いて補正する例を説明する。本発明の実施の形態について具体的に説明する前に，本実施例における観測信号の生成モデルについて説明する。また，本実施例を記述するための記号を定義する。

＜観測モデル＞
音源数とマイクロホンの数は等しくNであると仮定する。音源数よりマイクロホンの数が多い場合は，次元削減などを用いればよい。N個の音源が発する時間領域の時系列信号が混合して，N個のマイクロホンで観測されるとする。

時間周波数(f,t)における音源信号と観測信号をそれぞれ（数１）

とおき，線形混合（数２）

を仮定する。

ここで，f∈[N_F]:=｛1,・・・,N_F｝は周波数のインデックス，t∈[N_T]:=｛1,・・・,N_T｝は時間フレームのインデックス，A_fは周波数fにおける混合行列である。

（数３）は各音源n∈[N]:=｛1,・・・,N｝に対する分離フィルタW_n,fからなる分離行列である。また，^Tはベクトルの転置，^hはエルミート転置を表す。音源の従う確率分布について，次の分解（数４）を仮定する：

各時間フレームt∈[N_T]において，各音源n∈[N]が有音状態であるか無音状態であるかを表現するために，（数５）に示す潜在変数｛Z_n,t｝_n,tを導入する：

潜在変数｛Z_n,t｝_n,tを用いると，各音源n∈[N]の確率分布は（数６）のように表される。

ここで（数７）

と定義した。潜在変数｛Z_n,t｝_n,tを導入したことで，本実施例の音源分離方法は，音源の状態（有音状態あるいは無音状態）に応じて分布の形状を切り替えることが可能である。

本実施例では，｛π_n,t,c｝_cにディリクレ事前分布を仮定する。すなわち（数８）

と仮定する。ここで，φcはディリクレ事前分布のハイパーパラメータである。

次に，本実施例のポイントである帯域分割について説明する。周波数帯域[N_F]の分割を与える集合族Eを導入する：

ここで，Ｕに似た記号は集合の直和を表す。この集合族Eのことを帯域分割と呼ぶことにする。音源の状態Z_n,tが与えられたもとでの音源n∈[N]が従う確率分布は，帯域分割Eを用いて，（数１０）のように分解されると仮定する。

ここで，S_n,F,tは｛S_n,f,t│f∈F｝を並べたベクトルである。

たとえば，従来の独立成分分析と独立低ランク行列分析では，帯域分割として（数１１）を仮定していると見ることができる。

また，従来の独立ベクトル分析は，帯域分割として（数１２）を仮定していると見ることができる。

図３で説明したように，本実施例の帯域分割によれば，音源分離の対象となる信号にとって適切な帯域分割Eを設定することで，周波数帯域F∈Eにおける周波数間の強い高次相関を陽にモデル化することができる。

音源の状態Z_n,tが与えられたときのS_n,F,tが従う分布としては，例えば，複素変数の多変量指数べき分布(complex-valued multivariate exponential power distribution)

を用いることができる．ここで，Γ（・）はガンマ関数，｜F｜は集合F∈Eの濃度，｜｜・｜｜はL²ノルム，また，α_n,f,t,c∈R_>0とβ_c∈R_>0は多変量指数べき分布のパラメータである。ただし，R_>0は正の実数全体からなる集合である。

多変量指数べき分布（数１３）は，β_c＝１のとき，多変量複素正規分布に一致する。一方で，β_c＜１のとき，多変量指数べき分布は多変量複素正規分布より大きな尖度をもつ。このように，本実施例における音源分離方法は，音源分離の対象となる信号が大きな尖度をもつ場合も，β_cを調節することで，音源を適切にモデル化することができる。

音源が無音状態にあるとき，すなわち，Z_n,t,c＝０のとき，小さなε＞０を用いて，

と定義する。これは，無音状態のとき，S_n,F,tがおよそ０であることをモデル化している。

一方で，音源が有音状態にあるとき，すなわち，Z_n,t,c＝１のとき，｛α_n,F,t,1｝_n,F,tを（数１５）のように非負値行列分解(NMF)を用いてモデル化することにする：

ここで，K_nは音源n∈[N]に対するNMFの基底数を表す。また，｛u_n,F,k｝_Fは音源n∈[N]のk番目の基底であり，｛ν_n,k,t｝_tは音源n∈[N]のk番目の基底に対するアクティベーションを表す。

また，（数１６）のように，｛α_n,F,t,1｝_n,F,tのNMFによるモデル化において，各音源n∈[N]に対する基底数K_nを固定する代わりに，音源全体の基底数Kを与えて，潜在変数｛y_n,k｝_n,kを用いて各音源n∈[N]に自動的に基底を割り当てることもできる：

ここで，潜在変数｛y_n,k｝_n,kは（数１７），

または（数１８），

を満たすとする。

以上が，本実施例の音源分離装置の第一実施形態と第二実施形態における，観測信号の生成モデルの説明である。本実施例において，モデルパラメータΘの集合は（数１９）

または（数２０），

である。

モデルパラメータΘの推定は，例えば，次の事後確率最大化基準に基づいて実行できる：

各実施形態の説明では，J(Θ)の最大化を公知のEMアルゴリズムを用いて実行する方法を説明するが，既存のいかなる最適化アルゴリズムも用いることができる。以降では，図面を参照して本発明の各実施形態について説明する。

図５〜図７を用いて，第一実施形態に関わる音源分離装置１００を説明する。図５は，第一実施形態による音源分離装置の機能構成を例示するブロック図である。音源分離装置１００は，帯域分割決定部１０１と，時間周波数領域変換部１１０と，音源状態更新部１２０と，モデルパラメータ更新部１３０と，時間周波数領域分離音計算部１４０と，時間領域変換部１５０と，音源状態出力部１６０と，を備える。ここで，モデルパラメータ更新部１３０は，混合重み更新部１３１と，NMFパラメータ更新部１３２と，分離フィルタ更新部１３３と，から構成される。

図６は本実施例の音源分離装置１００のハードウェア構成図である。本実施例では音源分離装置１００は，処理装置６０１，記憶装置６０２，入力装置６０３，出力装置６０４を備える，一般的なサーバで構成した。計算や制御等の機能は，記憶装置６０２に格納されたプログラムが処理装置６０１によって実行されることで，図５，図７に示す定められた処理を他のハードウェアと協働して実現する。実行するプログラム，その機能，あるいはその機能を実現する手段を，「機能」，「手段」，「部」，「ユニット」，「モジュール」等と呼ぶ場合がある。

図５におけるマイク１９１は，キーボードやマウス等とともに入力装置６０３の一部を構成し，記憶装置６０２は処理装置の処理に必要なデータやプログラムを格納する。出力インタフェース１９２は，処理結果を他の記憶装置や，出力装置６０４であるプリンタや表示装置に出力する。

図７は，第一実施形態による音源分離装置の処理フローを例示する流れ図である。図７を参照して，音源分離装置１００の動作例を説明する。ただし，観測信号の生成モデルと生成モデルにおける記号の定義は，＜観測モデル＞で述べたものを断りなしに用いる。音源分離においては、仮定された音源について、各音源がどのような確率分布に従っているかをモデル化し、音源分離を行う。

以下では，＜観測モデル＞におけるNMFの基底について，（数１６）のように，潜在変数｛y_n,k｝_n,kを用いて各音源に自動に基底を割り当てるモデルについてのみ説明する。このときのモデルパラメータΘは（数２０）で与えられる。詳細は省くが，（数１５）の場合にも全く同様にして，音源分離方法を導出することができる。

モデルパラメータΘの推定は，（数２１）の最適化問題を，たとえば一般化EMアルゴリズムで解くことによって達成される。一般化EMアルゴリズムにおける潜在変数は｛z_n,t｝_n,t'、完全データは｛x_f,t,z_n,t｝_n,f,tである。

音源分離装置１００の各部は，ステップS２００において，モデルパラメータの初期化を行う。また，帯域分割決定部１０１は，ステップS２００において，（数９）で定義された帯域分割Eを，分離対象信号の事前知識をもとに決定する。例えば、音源分離の対象となる音声信号を予め収録しておき、図３に示したような周波数の相関の計算を行い、所定閾値以上の相関を持つ周波数帯域を自動的に纏めることで，音源分離に適した周波数帯域分割を決めることが可能である。あるいは、予め作業者が図３に示すような表示を基にして、音源分離の対象となる複数種類の音声の其々に対して、マニュアルで領域を設定しておいてもよい。

周波数の相関は音源の種類（例えば、会話、音楽、雑踏の中）等で異なると考えられるため、周波数帯域分割のパターンは、音源の種類ごとに複数想定できる。すなわち、音源の種類の応じて、複数の帯域分割のパターンを準備することが可能である。例えば、会議、音楽、駅構内のように、予め収録した音声データをもとにして、それぞれのシチュエーション用の周波数帯域分割パターンを準備しておくことができる。

上記方法で準備された複数の帯域分割のパターンは記憶装置６０２に記録しておき、実際に音源分離を行う際に、音源分離する対象に応じて選択することができる。例えば，帯域分割決定部１０１は，会話や音楽など想定される音源ごとに，選択可能な帯域分割方法を出力装置６０４である表示装置に表示し，使用者が入力装置６０３により帯域分割方法を選択できるようにしても良い。

時間周波数領域変換部１１０は，短時間フーリエ変換などにより，マイクロホンを用いて観測した混合信号の時間周波数表現｛x_f,t｝_f,tを計算して出力する（ステップS２０１）。

音源状態更新部１２０は，時間周波数領域変換部１１０が出力した観測信号の時間周波数表現｛x_f,t｝_f,tと，後述のモデルパラメータ更新部１３０が出力する各モデルパラメータの推定値Θ’と，を用いて，各音源n∈[N]と各時間フレームt∈[N_T]に対して，音源の状態がz_n,t＝c∈｛0,1｝であるという事後確率q_n,t,cを計算して，モデルパラメータ更新部１３０に出力する（ステップS２０２）。このステップS２０２は，一般化EMアルゴリズムのEステップに対応する。

音源状態の事後確率｛q_n,t,c｝_n,t,cは，更新式（数２２）

に基づき計算される。ここで，

である。

モデルパラメータ更新部１３０は，時間周波数領域変換部１１０が出力する観測信号の時間周波数表現と，音源状態更新部１２０が出力する音源状態の事後確率｛q_n,t,c｝_n,t,cとを用いて，モデルパラメータΘの値を更新する（ステップS２０３，ステップS２０４，ステップS２０５）。

ステップ S２０３とステップS２０４とステップS２０５は，一般化EMアルゴリズムのMステップに対応し，以下のように，混合重み更新部１３１と，NMFパラメータ更新部１３２と，分離フィルタ更新部１３３と，によって実行される。

一般化EMアルゴリズムのMステップでは，（数２１）におけるコスト関数J(Θ)の上界を与えるQ(Θ)を計算し，次の（数２４）の最小化問題を解くことを行う：

ただし，

とおいた．また，Q(Θ)において，定数項は省略した．このg_n,F,t,cのことを，音源状態cにおけるコントラスト関数，あるいは，単に，コントラスト関数と呼ぶことにする。

補助関数に基づく最適化アルゴリズムを導出するために，コントラスト関数g(r)は，次の２つの条件（C1）と（C2）を満たすとする：
（C１）g:R_>0 → Rは連続微分可能。
（C２）g'(r)/rは常に正の値をとり，かつ，単調非増加。
ここで，g'(r)は， g(r)のrに関する微分係数を表す。（数１３）で与えられる複素変数の多変量指数べき分布は，β_n,c≦１のとき，上の条件（C１）と（C2）を満たす。

（数２４）におけるQ(Θ)の第一項に，（数１３）と（数１４）と（数１６）を代入すると，

と書き表される。ただし，定数項は省略した。

混合重み更新部１３１は，最適化問題（数２４）の最小値を与えるπ_n,t,cを計算して出力する（ステップS２０３）。具体的には，

を計算して出力する。

NMFパラメータ更新部１３２は，最適化問題（数２４）に基づいて，モデルパラメータ｛y_n,k,u_F,k,ν_k,t｝_n,F,t,kを更新する（ステップS２０４）。ここでは，補助関数法を用いた更新式を与える。

パラメータ｛y_n,k,u_F,k,ν_k,t｝_n,F,t,kに関するQ(Θ)の補助関数Q⁺(Θ)として

（数２８）を導くことができる。また，等号は，

のとき，またそのときに限って成立する。補助関数法では，「補助関数Q⁺(Θ)の計算」と「補助関数Q⁺(Θ)を最小化するようなパラメータ更新」を交互に繰り返すことで，もともとの目的関数Q(Θ)を最小化していく。

補助関数Q⁺(Θ)を用いると，パラメータ｛y_n,k｝_n,kの更新式は，以下のように与えられる：

ただし，（数３０）によって更新した後に，Σ_ny_n,k＝１を満たすように，

のように更新することにする。あるいは，

のように更新してもよい。

また，パラメータ｛u_F,k,ν_k,t｝_F,k,tの更新式は，以下のように与えられる：

分離フィルタ更新部１３３は，最適化問題（数２４）に基づいて，分離フィルタ｛W_f｝_fを更新する（ステップ２０５）。ここでは，補助関数法を用いた更新式を与える。

パラメータ｛W_f｝_fに関するQ(Θ)の補助関数Q_w ⁺(Θ)として

を導くことができる。ここで，

とおいた。ただし，g'_c(r)は，g_c(r)のrに関する微分である。

補助関数Q_w ⁺(Θ)を用いると，分離フィルタ｛W_f｝_fの更新式は，以下のように与えられる：

モデルパラメータ更新部１３０は，混合重み更新部１３１，NMFパラメータ更新部１３２，分離フィルタ更新部１３３において求めたモデルパラメータの推定値を出力する。

ステップS２０２からステップS２０５までの処理は，事前にユーザが設定した所定の更新回数に達したとき，あるいは，モデルパラメータ更新部１３０において各パラメータの値が収束するまで，反復して行う（ステップS２０６）。反復回数の最大値は１００などに設定することができる。反復処理が終了したとき，モデルパラメータ更新部１３０は，推定した分離フィルタ｛W_f｝_fを出力する。

また，反復処理が終了してモデルのパラメータが決定したとき，音源状態出力部１６０は，音源状態更新部１２０で求めた音源状態の事後確率｛q_n,t,c｝_n,t,cを出力する。この事後確率を用いることで，各音源の有音区間だけを抽出することが可能となる。すなわち，本実施例における音源分離装置１００は，音源分離と音源状態の推定とを同時に解決可能な装置である。

次に，時間周波数領域分離音計算部１４０について説明する。時間周波数領域分離音計算部１４０は，時間周波数領域変換部１１０が出力した観測信号の時間周波数表現｛x_f,t｝_f,tと，モデルパラメータ更新部１３０が出力する分離フィルタ｛W_f｝_fとを用いて，各時間周波数領域(f,t)における各音源n∈[N]の分離信号s_n(f,t)を計算して出力する（ステップS２０７）。

時間領域変換部１５０は，各音源n∈[N]に対して，時間周波数領域の分離信号s_n(f,t)を時間領域の分離信号に変換して出力する（ステップS２０８）。

図８および図９を用いて，第二実施形態に関わる音源分離装置３００を説明する。第二実施形態の音源分離装置３００は，図８における音源状態補正部３２０が加わることを除けば，図５に示した第一実施形態の音源分離装置１００と同じ構成であるので，以下では，音源状態補正部３２０についてのみ説明し，他の説明を省略する。

また，図９に示した第二実施形態の処理フローも，音源状態（事後確率）の補正（ステップS４００）が加わることを除けば，図７に示した第一実施形態の処理フローと同じであるため，以下では，音源状態（事後確率）の補正（ステップS４００）についてのみ説明し，他の説明を省略する。

音源状態補正部３２０は，学習用データ貯蓄部３２１と音源状態補正部３２２とからなる。音源状態補正部３２０は，学習用データ貯蓄部３２１に保存された信号データを用いて，（数２２）で表される音源状態の事後確率｛q_n,t,c｝_n,t,cを補正するためのニューラルネットワークを事前に学習して，学習されたニューラルネットワークを保存する。

上記のニューラルネットワークの学習方法としては，音源状態の真値を（数３７）で表すとき，

（数３８）を満たすような写像fをニューラルネットワークによってモデル化し，学習用データを用いて写像fを学習すればよい。

音源状態補正部３２２は，音源状態補正部３２０に保存されたニューラルネットワークを用いて，音源状態更新部１２０が出力する音源状態の事後確率｛q_n,t,c｝_n,t,cの補正値｛q'_n,t,c｝_n,t,cを計算して，モデルパラメータ更新部１３０に出力する（ステップS４００）。

ステップS２０６において反復処理が終了したとき，音源状態出力部１６０は，音源状態補正部３２０で求めた音源状態の事後確率の補正値｛q'_n,t,c｝_n,t,cを出力する。

詳細は省略するが，音源状態の事後確率｛q_n,t,c｝_n,t,cの代わりに，音源状態の事前確率である混合重み｛π_n,t,c｝_n,t,cを，学習されたネットワークを用いて補正してもよい。

＜プログラム及び記憶媒体＞
本実施例の音源分離装置をコンピュータによって実現する場合，各装置が有する機能はプログラムによって記述される。そして，例えばROM，RAM，CPU等で構成されるコンピュータに所定のプログラムが読み込まれて，CPUがそのプログラムを実行することで実現される。

＜ロボット，サイネージなどで実施＞
本実施例の音源分離装置は，ロボットやサイネージといった装置，及びサーバと連携するいかなるシステムにおいて実施することができる。本実施例によれば，周波数成分の共起だけでは捉えられない複雑な時間周波数構造を有する信号に対して，あるいは，分布形状が複素正規分布とは大きく異なる信号に対して，あるいは，有音区間と無音区間が非定常に変化する信号に対して，高い分離性能を有する音源分離方法を提供することができる。

本実施例によれば，周波数成分の共起だけでは捉えられない複雑な時間周波数構造を有する信号に対して，高い分離性能を有する音源分離方法を提供することができる。

本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることが可能である。また、各実施例の構成の一部について、他の実施例の構成の追加・削除・置換をすることが可能である。

Claims

処理装置，記憶装置，入力装置，出力装置を備える情報処理装置により，モデル化された音源分布を用いて，前記入力装置から入力される音声信号の音源分離を行う音源分離方法であって，
前記モデルが従う条件として，
各音源は互いに独立であり，各音源の有するパワーを帯域分割された周波数帯域ごとにモデル化し，異なる周波数帯域間のパワーの関係については非負値行列分解によってモデル化し，前記音源の分割された成分は複素正規分布に従う，
ことを特徴とする音源分離方法。
各音源の有するパワーを，周波数間の相関に基づいて帯域分割された周波数帯域ごとにモデル化する，
請求項１記載の音源分離方法。
各音源の有するパワーを，入力される音声信号に対応した方法で帯域分割された周波数帯域ごとにモデル化する，
請求項１記載の音源分離方法。
複数種類の帯域分割方法を準備して前記記憶装置に格納しておき，
前記音声信号の音源分離を行う際に，前記入力装置からの入力によってその内の一つを選択する，
請求項３記載の音源分離方法。
前記音源の分割された成分の分布は多変量指数べき分布に従う，
請求項１記載の音源分離方法。
前記音源の状態によって音源の確率分布を切り替える，
請求項１記載の音源分離方法。
前記音源が有音状態であるか無音状態であるかを表現するために，２値をとる潜在変数を導入して，音源の確率分布を表現する，
請求項６記載の音源分離方法。
音源状態の事前確率および事後確率の少なくとも一つの推定値を，最適化の各反復において、ディープニューラルネットワークを用いて補正する，
請求項１記載の音源分離方法。
処理装置，記憶装置，入力装置，出力装置を備え，モデル化された音源分布を用いて，前記入力装置から入力される音声信号の音源分離を行う音源分離装置であって，
前記モデルが従う条件として，
各音源は互いに独立であり，各音源の有するパワーを帯域分割された周波数帯域ごとにモデル化し，異なる周波数帯域間のパワーの関係については非負値行列分解によってモデル化し，前記音源の分割された成分は複素正規分布に従う，
ことを特徴とする音源分離装置。
選択可能な複数種類の帯域分割方法を前記出力装置に表示し，前記入力装置により帯域分割方法を選択可能とする、帯域分割決定部を備える、
請求項９記載の音源分離装置。
前記帯域分割方法と前記入力装置から入力される音声信号の時間周波数表現を用いて，前記モデルのパラメータを更新するモデルパラメータ更新部と,
前記入力装置から入力される音声信号の時間周波数表現と，前記モデルパラメータ更新部が出力する前記モデルのパラメータを用いて，前記音源の状態を表す事後確率を計算する音源状態更新部と，を備える，
請求項１０記載の音源分離装置。
前記モデルパラメータ更新部は，前記音源状態更新部が出力する事後確率も用いて，前記モデルのパラメータを更新する，
請求項１１記載の音源分離装置。
前記モデルパラメータ更新部の反復処理が終了したとき，前記音源状態更新手段部で計算した前記事後確率を出力する音源状態出力部を備える，
請求項１２記載の音源分離装置。