JP7245669B2

JP7245669B2 - 音源分離装置、音源分離方法、およびプログラム

Info

Publication number: JP7245669B2
Application number: JP2019034713A
Authority: JP
Inventors: 一博中臺; 湧太日下; 克寿糸山; 健次西田
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2019-02-27
Filing date: 2019-02-27
Publication date: 2023-03-24
Anticipated expiration: 2039-02-27
Also published as: US20200273480A1; JP2020140041A; US10839823B2

Description

本発明は、音源分離装置、音源分離方法、およびプログラムに関する。

図２４のように１本のマイクロホン（符号ｇ９０２）で収録したモノラルの音響信号（符号ｇ９０３）の中に含まれる音源を分離する手法として非負値行列因子分解（Ｎｏｎ－ｎｅｇａｔｉｖｅＭａｔｒｉｘＦａｃｔｏｒｉｚａｔｉｏｎ；ＮＭＦ）が研究されている。図２４は、１本のマイクで収録した音響信号の例を示す図である。図２４に示す例では、収録された音響信号に３種類の楽器（符号ｇ９０１）の音響信号が混じっている。

このＮＭＦの手法は、図２５のように入力された音響信号（符号ｇ９１１）からスペクトログラム（符号ｇ９１２、ｇ９１３）を生成し、生成したスペクトログラムを基底スペクトル（符号ｇ９１４、音色パターン）とアクティベーション（符号ｇ９１５基底スペクトルの大きさとタイミング）に分解することにより、音響信号の中の音源（例えば、どの楽器が鳴っているか）を分離するものである。図２５は、ＮＭＦの概略を示す図である。なお、符号ｇ９１４が示す領域において、横軸は振幅であり、縦軸は周波数である。符号ｇ９１５が示す領域において、横軸は時間であり、縦軸は振幅である。ここで、基底スペクトルとは，混合音の振幅スペクトルに含まれる各楽器の音色のスペクトルパターンを表す。また、アクティベーションとは、基底スペクトルの振幅の時間変化、つまり各楽器の音色の出現タイミングと大きさを表す。ＮＭＦでは、図２５のように、振幅スペクトルＸは、基底スペクトルＷとアクティベーションＨの積で近似される（Ｘ≒ＷＨ）。

ＮＭＦを用いた音源分離手法として、罰則条件付き教師ありＮＭＦが提案されている（例えば特許文献１参照）。特許文献１に記載の技術では、記憶装置が、第１音源の音響の各成分の振幅スペクトルを示すＫ個の基底ベクトルを含む非負の基底行列Ｆを記憶する。また、特許文献１に記載の技術では、行列分解部が、基底行列Ｆを利用した非負値行列因子分解で第１音源の音響と第２音源の音響との混合音を示す音響信号ＳＡ（ｔ）の振幅スペクトログラムを示す観測行列Ｙから、基底行列Ｆの各基底ベクトルに対する加重値の時間変化を示すＫ個の係数ベクトルを含む係数行列Ｇと、第２音源の音響の各成分の振幅スペクトルを示すＤ個の基底ベクトルを含む基底行列ｈと、基底行列ｈの各基底ベクトルに対する加重値の時間変化を示すＤ個の係数ベクトルを含む係数行列Ｕを生成し、音響生成部は、基底行列Ｆと係数行列Ｇとに応じた音響信号ＳＢ（ｔ）および基底行列ｈと係数行列Ｕとに応じた音響信号ＳＢ（ｔ）の少なくとも一方を生成する。

特開２０１３－３３１９６号公報

しかしながら、特許文献１に記載の教師ありＮＭＦでは、教師音を利用して目的の音源を分離することができるが、分離したい音源の音色と教師音に音色に差がある場合、分離精度が低下するという課題があった。

本発明は、上記の問題点に鑑みてなされたものであって、複数の音源の音が混合されたモノラル音源から音源を従来より精度良く分離することができる音源分離装置、音源分離方法、およびプログラムを提供することを目的とする。

（１）上記目的を達成するため、本発明の一態様に係る音源分離装置＜１＞は、音響信号から生成したスペクトログラムを非負値行列因子分解により基底スペクトルとアクティベーションに分解することで音響信号の中から特定の音源を分離する音源分離装置であって、複数の音源による混合音を含む前記音響信号を取得する信号取得部＜１１＞と、前記複数の音源のうち少なくとも１つの音源に対する立ち上がりのタイミングを示す立ち上がり情報を取得する立ち上がり情報取得部＜１２＞と、前記立ち上がり情報に基づいて、前記アクティベーションＨに対してマルコフ連鎖によって前記音源の存在を０と１の変数で制御するバイナリマスクＳを設定し、設定した前記バイナリマスクＳを用いて前記音響信号から生成したスペクトログラムＸを非負値行列因子分解により前記基底スペクトルＷと前記アクティベーションＨに分解することで前記音響信号の中から特定の音源を分離する音源分離部＜１３＞と、を備える。

（２）また、本発明の一態様に係る音源分離装置において、前記音源分離部は、前記立ち上がり情報を、非負値行列因子分解の確率モデルに含めず、前記基底スペクトルＷと前記アクティベーションＨと前記バイナリマスクＳそれぞれの推定を行うギブスサンプリングにおいて、前記立ち上がり情報に基づくオンセットＩを前記バイナリマスクＳの推定を補助する形で間接的に利用するようにしてもよい。

（３）また、本発明の一態様に係る音源分離装置において、前記音源分離部は、ギブスサンプリングを用いて前記基底スペクトルＷと前記アクティベーションＨと前記バイナリマスクＳそれぞれの期待値を推定することで、前記基底スペクトルＷと前記アクティベーションＨと前記バイナリマスクＳそれぞれを推定するようにしてもよい。

（４）また、本発明の一態様に係る音源分離装置において、前記音源分離部は、前記基底スペクトルＷと前記アクティベーションＨと前記バイナリマスクＳそれぞれを初期化した後、以下の各式に対してギブスサンプリングを用いて、前記基底スペクトルＷと前記アクティベーションＨと前記バイナリマスクＳそれぞれの期待値を推定し、

上記各式において、Ｚ ^{（ｉ＋１）} は、ｉ＋１番目のステップにおける補助変数であるようにしてもよい。

（５）上記目的を達成するため、本発明の一態様に係る音源分離方法は、音響信号から生成したスペクトログラムを非負値行列因子分解により基底スペクトルとアクティベーションに分解することで音響信号の中から特定の音源を分離する音源分離装置における音源分離方法であって、信号取得部が、複数の音源による混合音を含む前記音響信号を取得する信号取得手順と、立ち上がり情報取得部が、前記複数の音源のうち少なくとも１つの音源に対する立ち上がりのタイミングを示す立ち上がり情報を取得する立ち上がり情報取得手順と、音源分離部が、前記立ち上がり情報に基づいて、前記アクティベーションＨに対してマルコフ連鎖によって前記音源の存在を０と１の変数で制御するバイナリマスクＳを設定し、設定した前記バイナリマスクＳを用いて前記音響信号から生成したスペクトログラムＸを非負値行列因子分解により前記基底スペクトルＷと前記アクティベーションＨに分解することで前記音響信号の中から特定の音源を分離する音源分離手順と、を含む。

（６）上記目的を達成するため、本発明の一態様に係るプログラムは、音響信号から生成したスペクトログラムを非負値行列因子分解により基底スペクトルとアクティベーションに分解することで音響信号の中から特定の音源を分離する音源分離装置におけるコンピュータに、複数の音源による混合音を含む前記音響信号を取得する信号取得手順と、前記複数の音源のうち少なくとも１つの音源に対する立ち上がりのタイミングを示す立ち上がり情報を取得する立ち上がり情報取得手順と、前記立ち上がり情報に基づいて、前記アクティベーションＨに対してマルコフ連鎖によって前記音源の存在を０と１の変数で制御するバイナリマスクＳを設定し、設定した前記バイナリマスクＳを用いて前記音響信号から生成したスペクトログラムＸを非負値行列因子分解により前記基底スペクトルＷと前記アクティベーションＨに分解することで前記音響信号の中から特定の音源を分離する音源分離手順と、を実行させる。

上述した（１）～（６）によれば、複数の音源の音が混合されたモノラル音源から音源を従来より精度良く分離することができる。また、上述した（１）～（６）によれば、例えば利用者が前処理として分離したい信号の一部について、目的音源が現れる箇所にマークをつける作業を行うだけで、マークを付けた音源を分離抽出することができる。また、上述した（１）～（６）によれば、教師音源が不要で利用者の負荷が小さいという利点がある。

実施形態に係る音源分離装置の構成例を示すブロック図である。実施形態に係る音源分離装置が行う処理の概要を示す図である。アクティベーションとバイナリマスクを示す図である。バイナリマスクの例を示す図である。バイナリマスクの生成方法を示す図である。オンセットの例を示す図である。オンセットとバイナリマスクの関係を説明するための図である。オンセット行列を説明するための図である。オンセットとアクティベーションの関係を説明するための図である。Ｗ，Ｈ，Ｓをギブスサンプリングによって求めるアルゴリズムを示す図である。実施形態のモデルをグラフィカルモデルで表した図である。本実施形態の音源分離装置の音源分離処理のフローチャートである。評価に用いた音源の波形データを示す図である。立ち上がり情報に基づいて生成したオンセットの例を示す図である。オンセットを用いない場合の基底スペクトル、バイナリマスク、アクティベーションとバイナリマスクの要素積の期待値を示す図である。オンセットを用いた場合の基底スペクトル、バイナリマスク、バイナリマスクを用いて分離したアクティベーションを示す図である。メロディのみを入力して事前学習した基底スペクトルを示す図である。メロディのみを入力して事前学習したアクティベーションのヒートマップを示す図である。メロディのみを入力して事前学習したバイナリマスクのヒートマップを示す図である。事前学習させた正解データのアクティベーションとバイナリマスクの要素積のヒートマップを示す図である。オンセット無しの場合のアクティベーションとバイナリマスクの要素積のヒートマップを示す図である。オンセットありの場合のアクティベーションとバイナリマスクの要素積のヒートマップを示す図である。オンセット無し、先頭の音のみにオンセットあり、全ての音にオンセットありそれぞれの相関係数の箱ひげ図である。１本のマイクで収録した音響信号の例を示す図である。ＮＭＦの概略を示す図である。

以下、本発明の実施の形態について図面を参照しながら説明する。
図１は、本実施形態に係る音源分離装置１の構成例を示すブロック図である。図１に示すように、音源分離装置１は、信号取得部１１、立ち上がり取得部１２、音源分離部１３、記憶部１４、および出力部１５を備える。
また、音源分離部１３は、短時間フーリエ変換部１３１、オンセット生成部１３２、バイナリマスク生成部１３３、ＮＭＦ部１３４、および逆短時間フーリエ変換部１３５を備える。
また、音源分離装置１には、無線または有線で操作部２が接続されている。

音源分離装置１は、利用者が入力した立ち上がり情報を用いて、取得した音響信号に含まれている音源を分離する。

操作部２は、利用者が操作した操作結果を検出する。操作結果には、音響信号に含まれている各音源の立ち上がりのタイミングを示す立ち上がり情報が含まれている。操作部２は、立ち上がり情報を音源分離装置１に出力する。

信号取得部１１は、音響信号を取得し、取得した音響信号を音源分離部１３に出力する。

立ち上がり取得部１２は、操作部２から立ち上がり情報を取得し、取得した立ち上がり情報を音源分離部１３に出力する。

音源分離部１３は、取得された音響信号に対して、取得された立ち上がり情報を用いて音源を分離する。

短時間フーリエ変換部１３１は、信号取得部１１が出力する音響信号に対して短時間フーリエ変換（Ｓｈｏｒｔ－ＴｉｍｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ；ＳＴＦＴ）を行って、時間領域から周波数領域に変換してスペクトログラムを生成する。

オンセット生成部１３２は、取得された立ち上がり情報に基づいてオンセット行列Ｉを生成する。なお、オンセット、オンセット行列Ｉの生成方法については後述する。

バイナリマスク生成部１３３は、バイナリマスクＳを生成する。なお、バイナリマスクＳ、バイナリマスクＳの生成方法については後述する。

ＮＭＦ部１３４は、非負値行列因子分解にバイナリマスクとオンセットを導入したモデルを用いて、取得された音響信号のスペクトログラムを、基底スペクトルＷとアクティベーションＨに分離する。具体的には、ＮＭＦ部１３４は、バイナリマスクＳとオンセット行列Ｉを用いて、取得された音響信号のスペクトログラムを、記憶部１４が記憶するモデルを用いて基底スペクトルＷとアクティベーションＨに分離することで、音源を分離する。

逆短時間フーリエ変換部１３５は、分離された基底スペクトルに対して逆短時間フーリエ変換を行うことで、分離した音源の波形データを生成する。逆短時間フーリエ変換部１３５は、分離した結果の音源情報（波形データ等）を出力部１５に出力する。

記憶部１４は、非負値行列因子分解にバイナリマスクとオンセットを導入したモデルを記憶する。

出力部１５は、音源分離部１３が出力する音源情報を外部装置（例えば、表示装置、音声認識装置等）に出力する。

＜非負値行列因子分解＞
まず、非負値行列因子分解（Ｎｏｎ－ｎｅｇａｔｉｖｅＭａｔｒｉｘＦａｃｔｏｒｉｚａｔｉｏｎ；ＮＭＦ）の概要を、図２５を参照しながら説明する。非負値行列因子分解とは、非負値行列を２つの非負値行列に分解するアルゴリズムである。なお、非負値行列とは、すべての成分がゼロ以上であるような行列である。音源分離処理における非負値行列因子分解では、例えば複数の楽器の音で構成されるモノラルの混合音ｇ９１１に対して、短時間フーリエ変換を行って得られるスペクトログラム（振幅スペクトル）Ｘ（∈Ｒ_＋ ^Ｆ×Ｔ、ｇ９１３）を入力とする。なお、ｆ＝１，２，…，Ｆは振幅スペクトルの周波数ビンであり、ｔ＝１，２，…，Ｔは時間フレームである。なお、Ｒ_＋は非負の実数の全体を表す集合である。非負値行列因子分解では、スペクトログラム（振幅スペクトル）を、次式（１）のように２つの非負値行列Ｗ（ｇ９１４）、Ｈ（ｇ９１５）に近似分解する。

Ｗ（∈Ｒ_＋ ^Ｆ×Ｋ）は基底スペクトルであり、混合音の振幅スペクトルに含まれる各楽器の音色のスペクトルパターンを表している。基底スペクトルは、列方向に振幅スペクトルを構成する支配的なスペクトルの基底が並んだ形をしている。また、Ｈ（∈Ｒ_＋ ^Ｋ×Ｔ）はアクティベーションであり、基底スペクトルの振幅の時間変化、つまり各楽器の音色の出現タイミングと大きさを表している。アクティベーションは、行方向に基底スペクトルの各要素のゲインが並んだ形をしている。なお、ｋ＝１，２，…，Ｋは基底を表し、基底数Ｋは振幅スペクトルを構成する音色の数と考えることができる。ただし、非負値行列因子分解ではＫを推定することができないため、事前に適当な値を与える。

なお、非負値行列因子分解では、式（１）のようにスペクトログラム（振幅スペクトル）Ｘを２つの行列の積ＷＨに近似を行うが、一般に２つの行列の間には誤差が発生する。このため、次式（２）のように、ＸとＷＨの「距離」をコスト関数とする最小化問題を解くことにより、ＷとＨを求める。

なお、式（２）においてＤ（Ｘ｜ＷＨ）はコスト関数であり、行列の要素ごとに考えることで次式（３）のように表すことができる。

式（３）において、ｄ（ｘ｜ｙ）はｘとｙとの距離を表す関数であり、例えばユークリッド距離やＫＬ（Ｋｕｌｌｂａｃｋ－Ｌｅｉｂｌｅｒ）ダイバージェンス、板倉齋藤距離などを用いる。

このようにして得られた各基底により構成される振幅スペクトルに対し，逆短時間フーリエ変換を行うことで、それぞれの基底の信号を復元することができる。なお、逆短時間フーリエ変換を行う際には振幅スペクトルだけではなく位相スペクトルも必要であるが、非負値行列因子分解では元の信号を短時間フーリエ変換したときに得られる位相スペクトルをそのまま使う。

しかしながら、複数の楽器による音響信号では、それぞれの楽器音が試行ごとにランダムな基底として出現するため、基底と楽器が一対一に対応しないという問題点が存在する。また、複数の楽器による音響信号では、必ずしも１つの楽器が１つの基底として出現するとは限らず、同じ楽器でも音の高さや音色が異なれば別の基底に別れて分離されるといった特徴もある。このため、本実施形態では、非負値行列因子分解にオンセット（楽器音の立ち上がり情報）を入力できるようにするために、アクティベーションの制御を行うバイナリマスクを導入する。

＜ベータ過程ＮＭＦ＞
まず、バイナリマスクを導入したＮＭＦであるベータ過程ＮＭＦ（ＢｅｔａＰｒｏｃｅｓｓＳｐａｒｓｅＮＭＦ；ＢＰ－ＮＭＦ）（参考文献１参照）について概略を説明する。
参考文献１；” Beta Process Non-negative Matrix Factorization with Stochastic Structured Mean-Field Variational Inference”, Dawen Liang, Matthew D Hoffman, arXiv, Vol. 1411.1804, 2014, p1-6

ベータ過程ＮＭＦは単にバイナリマスクを導入したのみではなく、同時に基底数の自動推定を行うことができるという特徴をもつ。これを実現するために、ベータ過程ＮＭＦではモデルを最小化問題として捉えるかわりに、各変数に事前分布を仮定し入力信号の振幅スペクトルが観測されたときの事後分布を推定するベイズ推論の問題として解釈を行う。

ベータ過程ＮＭＦでは，楽器音の存在を０／１変数で制御するバイナリマスクＳ（∈｛０，１｝^Ｋ×Ｔ）を、アクティベーションと要素積をとる形で導入する。このとき非負値行列因子分解の式（１）に対応する振幅スペクトルの近似分解式は次式（４）のようになる。なお、式（４）において、丸の中に点の記号は、ＷとＳの行列の要素毎の積を表す。

ベータ過程ＮＭＦでは，式（４）の各変数に事前分布を与えることで、スペクトログラム（振幅スペクトル）Ｘ（∈Ｎ_＋ ^Ｆ×Ｔ、Ｎ_＋は非負の自然数）の生成モデルを構築する。ここで、Ｘの各要素が通常の非負値行列因子分解と異なり非負の実数となっているのは、Ｘの各要素が基底スペクトルＷとアクティベーションＨの和をパラメータとするポアソン分布に従って生成されるとモデル化を行うためである。

また、ＷとＨは、次式（６）と（７）のように、各要素がポアソン分布の共役事前分布であるガンマ分布に従って生成されるとする。

なお、ａ，ｂ，ｃ，ｄは、それぞれガンマ分布のハイパーパラメータである。ガンマ分布とは、次式（８）のような確率密度関数で表される確率分布である。

式（８）において、ｘ＞０、α＞０、β＞０であり、Γ（・）はガンマ関数である。また、αは分布の形状を表すシェイプパラメータであり、βは分布の広がりを表すスケールパラメータの逆数（レートパラメータ）である。ガンマ分布は、シェイプパラメータの値が小さいときに確率変数が０に近い値をとりやすくなる。そのため、基底スペクトルとアクティベーションにスパース性を誘起するため、シェイプパラメータには小さな値を与えるようにする。

次にバイナリマスクに事前分布を導入する。なお、バイナリマスクとは、０か１の値によるハードマスクである。バイナリマスクＳの各要素は０か１の値をとるため、各基底にπ_ｋをパラメータとするベルヌーイ分布に従って次式（９）のように生成されるとする。

さらに、次式（１０）のようにπ_ｋにベータ過程を事前分布として導入する。

式（１０）において、ａ_０、ｂ_０はベータ過程のハイパーパラメータである。
このように、モデルを構成する各変数に事前分布を導入し、モデル全体を振幅スペクトルの確率的な生成モデルと解釈すると、振幅スペクトルが観測されたときに各変数の事後分布を求めることで、それぞれの値を求めることができる。事後分布はベイズの定理を用いて計算することができるが、一般に正規化項の影響などで解析的に計算することは困難であるため、例えば、変分ベイズ法や様々なサンプリングアルゴリズムを用いて近似的に期待値を計算する。

＜バイナリマスクにオンセットを用いる非負値行列因子分解＞
図２は、本実施形態に係る音源分離装置１が行う処理の概要を示す図である。図２において、符号ｇ１１、ｇ１２はスペクトログラムＸであり、バイナリマスクＳ（ｇ１３、ｇ１４）と、オンセットＩ（ｇ１５、ｇ１６）が入力であり、基底スペクトルＷ（ｇ１７、ｇ１８）とアクティベーションＨ（ｇ１９、ｇ２０）が出力である。

本実施形態では、モノラルの音響信号の振幅スペクトルと分離対象である音源の立ち上がり時刻（オンセット）を入力として、オンセットが与えられた楽器音の振幅スペクトルを出力する。振幅スペクトルは、音響信号に対して短時間フーリエ変換を行って得る。楽器音のオンセットは、利用者が実際に楽曲を聴取しながら目的楽器の発音時刻に合わせて操作部を操作した立ち上がり情報を利用する。

音源分離部１３は、分離音の振幅スペクトルと、それに応じた適切な位相スペクトルを用いて逆短時間フーリエ変換を行うことで分離音の音響信号を得る。なお、位相スペクトルは、混合音の位相スペクトルをそのまま用いてもよいし、振幅スペクトルから位相スペクトルを推定する周知の手法により得られるものを用いてもよい。

図３は、アクティベーションとバイナリマスクを示す図である。図３において、横軸は時間フレームであり、縦軸はアクティベーションの振幅とバイナリマスクの０と１を表す。図３にしめすように、ローレベルを０（ＯＦＦ）、ハイレベルを１（ＯＮ）とする。また、符号ｇ５１はアクティベーションであり、符号ｇ５２はバイナリマスクである。

図４は、バイナリマスクの例を示す図である。図４において、横軸は時間フレーム、縦軸はバイナリマスクの０と１を表す。なお、Ｋ＝１～３は、基底数Ｋであり、振幅スペクトルを構成する音色である。図２、図３に示すように、バイナリマスクは、音源毎に生成される。また、図２に示すように、オンセットは音源毎に生成される。

次に、バイナリマスクの生成方法を説明する。
図５は、バイナリマスクの生成方法を示す図である。符号ｇ２０１は状態遷移図であり、符号ｇ２１１はバイナリマスクである。なお、以下の説明では、収録される音源は楽器音である場合を説明する。

バイナリマスクは、楽器音が楽器の種類に応じたある程度の時間持続するという音楽的な過程に基づいて、各基底に対してマルコフ連鎖を用いてモデル化を行う。楽器音が生じており、アクティベーションが大きな値をとるとき、バイナリマスクの値は１とな
る。これをバイナリマスクのＯＮ状態（ｇｇ２０３）とする。また、楽器音が生じておらず、アクティベーションが非常に小さな値をとるとき、バイナリマスクの値は０となる。これをバイナリマスクのＯＦＦ状態（ｇ２０２）とする。

バイナリマスクの各要素は１つ前の時間フレームのバイナリマスクの値に依存してこれら２つの状態を遷移するとする。このとき、ＯＦＦ状態からＯＮ状態への遷移確率をＡ_０（∈（０，１）、ｇ２０４）、ＯＮ状態からＯＮ状態への遷移確率をＡ_１（∈（０，１）、ｇ２０６）とし、バイナリマスクの初期時間フレームの状態は初期確率φ（∈（０，１））によって状態が決定されるとする。符号ｇ２０５はＯＮ状態からＯＦＦ状態への遷移確率１－Ａ_１であり、符号ｇ２０７はＯＦＦ状態からＯＦＦ状態への遷移確率１－Ａ_０である。

バイナリマスクがＯＮ状態である、つまり楽器音が生じている状態では次の時間フレームも生じている確率Ａ_１が高く、楽器音が停止しＯＦＦ状態に遷移する確率１－Ａ_１は低いと考えられる。また、バイナリマスクがＯＦＦ状態、つまり楽器音が生じていない状態では次の時間フレームも生じていない確率１－Ａ_０が高く、楽器音が発生してＯＮ状態に遷移する確率Ａ_０は低いと考えられる。
このため、Ａ_１は大きい値を、Ａ_０が小さい値を事前に設定する。具体的には、Ａ_１＝０．９９，Ａ０＝０．０１とした。
このようなマルコフ連鎖を用いてモデル化を行ったバイナリマスクの各基底Ｓ_ｋ（ｋ＝１，２，…，Ｋ）の同時確率は次式（１１）のように表される。

したがって、バイナリマスク全体の同時確率は次式（１２）のように表される。

ここで、ｐ（Ｓ_ｋｔ｜Ｓ_ｋｔ－１）は、バイナリマスクの各基底の初期時間フレームｔ＝２，３，…，Ｔの要素が従う確率分布である。バイナリマスクは、０か１の２値をとるため、初期確率φをパラメータとするベルヌーイ分布を用いて次式（１３）のように表すことができる。

また、ｐ（Ｓ_ｋｔ｜Ｓ_ｋｔ－１）はバイナリマスクの各基底の時間フレームｔ＝２，３，…，Ｔの要素が従う確率分布であり、１つ前の時間フレームにおける値が０であればＡ_０，１であればＡ_１をパラメータとするベルヌーイ分布を用いて表すことができる。このため、ｐ（Ｓ_ｋｔ｜Ｓ_ｋｔ－１）は２つのベルヌーイ分布の積として次式（１４）のように表される。

＜オンセットの説明＞
次に、オンセットについて説明する。
図６は、オンセットの例を示す図である。図６において、横軸は時間フレームであり、縦軸はオンセットがある（１）ない（０）を表している。また、符号ｇ３０１～ｇ３０３それぞれは、音響信号に含まれているそれぞれの音源の立ち上がりに対応したオンセットである。

次に、オンセットとアクティベーションの関係、オンセットとバイナリマスクの関係を説明する。
図７は、オンセットとアクティベーションの関係を説明するための図である。図８は、オンセットとバイナリマスクの関係を説明するための図である。図７と図８において、横軸は時間フレーム、縦軸はアクティベーションの振幅またはバイナリマスクの状態である。また、図７と図８において、符号ｇ５１は、アクティベーションであり、符号ｇ５２はバイナリマスクであり、符号ｇ５３はオンセットである。

オンセットは、図７に示すように、アクティベーションが０に近い値から大きな値に変化することに対応する。このため，非負値行列因子分解に楽器のオンセットを入力するためには、アクティベーションの楽器の発音時刻に相当する時間フレームの要素に、適当な値を与えればよい。しかし、非負値行列因子分解の性質上この値は振幅スペクトルや基底スペクトルの対応する要素の値によって決定されるため、オンセットの大きさの情報を妥当な値で与えることは困難である。

このため、本実施形態では、オンセットの時間情報（発音時刻）のみを用いて分離を行うために，アクティベーションに楽器が発音している／いない（ＯＮ／ＯＦＦ）を１／０の２値で表現するバイナリマスクを導入した。そして，本実施形態では、オンセットをアクティベーションではなく、図７のようにバイナリマスクの０から１への変化とみなすことで入力とした。

本実施形態では、バイナリマスクを利用する上述したＢＰ－ＮＭＦに基づいてモデルを構築する。振幅スペクトルの近似分解を式（４）と同様に定義し、振幅スペクトルと基底スペクトル，アクティベーションには式（５）～（７）のようにＢＰ－ＮＭＦと同様の事前分布を導入する。
分離したい音が楽器音の場合、基底の数は分離したい楽器音の数に依存するため基底数の自動推定は不要である。このため、バイナリマスクの事前分布にはベータ過程ではなくより音楽的な構造を考慮し簡単に扱うことができるようにマルコフ連鎖を用いる。さらにオンセットを行列形式で表現し、バイナリマスクの事後分布の計算に補助的に用いることで、与えたオンセットに対応する楽器音を分離する。

次に、オンセット行列を説明する。
図９は、オンセット行列を説明するための図である。符号ｇ２５１～ｇ２５３は状態を示し、符号ｇ２６１はオンセット行列を説明するための図である。符号ｇ２６１において、横軸は時間フレーム、縦軸はオン（ＯＮ）状態とオフ（ＯＦＦ）状態を表す。また、符号ｇ２６２は開始フレームを示し、符号ｇ２６３は持続フレームを表す。

ここで、オンセット行列Ｉは、次式（１５）のように、大きさがバイナリマスクと同サイズであり、各要素が０か１の値をとる２値の行列とする。

オンセット行列を作成する際は、まず初めにオンセットの開始フレームを決定する。本実施形態では、利用者によって開始フレームが与えるなどして既知のものとした。そして、図９に示すように開始フレームから一定フレームの間１が持続する形とした。この意味合いは、オンセットが与えられた楽器音が１フレームのみで終了せず、一定フレーム持続するという仮定に基づいている。なお、持続フレームの長さは事前に決める必要がある。

なお、このオンセット行列は、ＮＭＦの確率モデルには含めず、後述する各変数の推定を行うギブスサンプリングにおいてバイナリマスクの推定を補助する形で間接的に利用する。

＜モデルのサンプリング＞
本実施形態のモデル（ＮＭＦにバイナリマスクとオンセットを導入したモデル）に対し、スペクトログラム（振幅スペクトル）Ｘとオンセット行列Ｉが観測されたもとで、事後分布ｐ（Ｗ，Ｈ，Ｓ｜Ｘ）を推定する。この事後分布は、次式（１６）によって求めることができるが、正規化項ｐ（Ｘ）の計算が困難であるため直接求めることは難しい。

このため、本実施形態では、事後分布そのものではなく、各確率変数の期待値の評価を行う。本実施形態では、ギブスサンプリングを用いて基底スペクトル、アクティベーション、バイナリマスクの期待値を求める。なお、ギブスサンプリングとは、サンプリング手法であるマルコフ連鎖モンテカルロ（ＭＣＭＣ）法の１つである。ギブスサンプリングでは、ステップごとに変数を１つずつ置き換えていくことでサンプル列を生成する。このとき、置き換える値は置き換える変数以外の値を固定した条件での対象の条件付き分布から抽出された値を用いる。例として確率分布ｐ（ｚ）＝ｐ（ｚ_１，ｚ_２，ｚ_３）からｚを、ギブスサンプリングを用いて期待値を求める方法を説明する。

まず、変数ｚ_１，ｚ_２，ｚ_３を適当に初期化する。その後、ｉ＋１番目のステップにおいてｚ_１ ^（ｉ），ｚ_２ ^（ｉ），ｚ_３ ^（ｉ）の値を前ステップで得ているとしたとき、まずｚ_ｉ ^１を次式（１７）の条件付き分布から抽出したｚ_１ ^{（ｉ＋１）}で置き換える。

次に、次式（１８）のように、抽出したｚ_１ ^{（ｉ＋１）}を用いてｚ_２ ^{（ｉ＋１）}を抽出し、ｚ_２ ^（ｉ）に置き換える。

次に、次式（１９）のように、抽出したｚ_２ ^{（ｉ＋１）}を用いてｚ_３ ^{（ｉ＋１）}を抽出し、ｚ_３ ^（ｉ）に置き換える。

これらの処理を繰り返すことで得られるサンプル列（ｚ_１ ^（ｉ），ｚ_２ ^（ｉ），ｚ_３ ^（ｉ）），…，（ｚ_１ ^（Ｎ），ｚ_２ ^（Ｎ），ｚ_３ ^（Ｎ））に対して平均を取ることで確率変数の期待値を近似すえる。ただし、サンプル列の初期は変数の値が収束していないことがあるため、バーンインと呼ばれるサンプル列を破棄する期間をとる。また、ギブスサンプリングはマルコフ連鎖に基づく手法であるため、前後する変数の相関の影響をなくすために期待値計算には一定サンプルごとの値を使用する。

本実施形態のモデルにおいて、求めたい確率変数は基底スペクトルＷ、アクティベーションＨ、バイナリマスクＳである。このため、条件付き分布の計算を簡単に行うために、次式（２０）のうように補助変数Ｚ∈Ｎ^{Ｆ×Ｔ×Ｋ}（Ｎは自然数の集合）を導入する。

補助変数Ｚの導入によって，スペクトログラム（振幅スペクトル）Ｘ_ｆｔは、次式（２１）のようにＺ_ｆｋの各基底の和として表すことができる。

補助変数Ｚの導入により、モデルでのギブスサンプリングの各変数のサンプリング式は次式（２２）～（２５）のようになる。

本実施形態では、図１０のように、この４つのサンプリング式（２２）～（２４）を用いて各変数の値を繰り返し抽出し、サンプル列を形成することで期待値の近似計算を行う。図１０は、Ｗ，Ｈ，Ｓをギブスサンプリングによって求めるアルゴリズムを示す図である。
サンプリング式の条件付き分布を導出する際に、モデル全体の同時確率ｐ（Ｘ，Ｚ，Ｗ，Ｈ，Ｓ）が必要となる。確率変数の依存関係を有向グラフとして表現する手法としてグラフィカルモデルがある。

グラフィカルモデルを用いるとモデルにおける変数の要素レベルの依存関係は図１１のように表すことができる。
図１１は、本実施形態のモデルをグラフィカルモデルで表した図である。図１１において、符号ｇ４５３のノードは観測された変数、符号ｇ４５１とｇ４５２とｇ４５４とｇ４５５のノード未観測の変数を表す。条件付き分布ｐ（ｘ｜ｙ）で表される関係をｙのノードからｘのノードに向かう矢印を用いて表現している。また，ノードを囲う長方形のプレートはその角に書かれている文字（Ｆ、Ｔ、Ｋ）の回数だけ繰り返すことを表している。また、図１１において、φは初期確率であり、Ａ_１はＯＦＦ状態からＯＮ状態への遷移確率（図５）であり、Ａ_０はＯＮ状態からＯＮ状態への遷移確率（図５）である。

したがって、モデル全体の同時確率は次式（２６）のように分解された形で表すことができる。

式（２６）の各項はそれぞれの変数の事前分布を用いて表されるため、これを用いてサンプリング式の導出を行う。
補助変数Ｚをサンプリングする際は，基底ｋ＝１，２，…，Ｋに対して式（２７）に従って得られるベクトルＺ_ｆｔを用いてＺを構成したものをサンプリング結果として使用する。

なお、式（２７）において、Ｍｕｌｔ（ｘ｜ｎ，ｐ）は、試行回数をｎ、各試行においてｋ＝１，２，…，Ｋが出る確率をｐ＝（ｐ_１，ｐ_２，…，ｐ_Ｋ）としたとき，ｋが出た回数ｘ＝（ｘ_１，ｘ_２，…，ｘ_Ｋ）が従う多項分布である。

また、Ｗは次式（２８）に従ってサンプリングを行い、Ｈは次式（２９）に従ってサンプリングを行う。

また、次式（３０）のＰ_１と次式（３１）のＰ_０を用いて，Ｓｋｔは次式（３２）のようなベルヌーイ分布から、時間フレームｔ＝１から順番にサンプリングを行う。なお、Ｐ_１とＰ_０はそれぞれバイナリマスクの要素が１，０である尤度である。なお、Ｓのサンプリングを行う際に、対応するインデックスの値を１を固定することでサンプリングの補助を行う。

なお、式（３０）と式（３１）において、記号￢は否定を表し、￢ｋは命題ｋが偽を表す。

＜処理手順＞
次に、本実施形態の音源分離装置１の音源分離手順を説明する。
図１２は、本実施形態の音源分離装置１の音源分離処理のフローチャートである。

（ステップＳ１）信号取得部１１は、音響信号を取得する。
（ステップＳ２）短時間フーリエ変換部１３１は、取得された音響信号に対して短時間フーリエ変換を行ってスペクトログラムを生成する。

（ステップＳ３）立ち上がり取得部１２は、操作部２が出力する立ち上がり情報を取得する。
（ステップＳ４）オンセット生成部１３２は、立ち上がり情報に基づいてオンセット行列Ｉを生成する。

（ステップＳ５）ＮＭＦ部１３４は、スペクトルＷとアクティベーションＨとバイナリマスクＳそれぞれの推定を行うギブスサンプリングにおいて、オンセットＩをバイナリマスクＳの推定を補助する形で間接的に利用することで、スペクトルＷとアクティベーションＨとバイナリマスクＳそれぞれの推定を行う。

（ステップＳ６）ＮＭＦ部１３４は、推定したスペクトルＷとアクティベーションＨとバイナリマスクＳを用いて、スペクトルＷとアクティベーションＨに分離することで音源を分離する。

＜評価結果＞
次に、本実施形態の音源分離装置１を評価した評価結果例を説明する。
まず、オンセットの有無について比較した結果を説明する。
評価では、図１３に示すピアノの３音（ド（Ｃ４）、ミ（Ｅ４）、ソ（Ｇ４））からなるトイデータを音響信号に用いた。また、上記の混合音のうちド（Ｃ４）のみを分離して評価を行った。図１３は、評価に用いた音源の波形データを示す図である。図１３において、横軸は時間フレーム、縦軸は振幅を正規化した大きさである。また、図１４は、立ち上がり情報に基づいて生成したオンセットの例を示す図である。図１４において、横軸は時間フレームであり、縦軸はオン状態（１）とオフ状態（０）を表す。図１４の示すように、分離する対象のド（Ｃ４）に対応するｋ＝１のオンセット（ｇ５５１）のみが生成され、符号ｇ５５２のようにｋ＝２に対するオンセットは生成されない。

図１５は、オンセットを用いない場合の基底スペクトル、バイナリマスク、アクティベーションとバイナリマスクの要素積の期待値を示す図である。なお、図１５では、混合音のうちｋ＝１、ｋ＝２を示している。符号ｇ６０１、ｇ６１１およびｇ６２１は、ｋ＝１に対応する基底スペクトル、バイナリマスク、アクティベーションとバイナリマスクの要素積の期待値をプロットしたグラフである。また、符号ｇ６０２、ｇ６１２およびｇ６２２は、ｋ＝２に対応する基底スペクトル、バイナリマスク、アクティベーションとバイナリマスクの要素積の期待値をプロットしたグラフである。

図１６は、オンセットを用いた場合の基底スペクトル、バイナリマスク、バイナリマスクを用いて分離したアクティベーションを示す図である。なお、図１６でも、混合音のうちｋ＝１、ｋ＝２を示している。符号ｇ６３１、ｇ６４１およびｇ６５１は、ｋ＝１に対応する基底スペクトル、バイナリマスク、バイナリマスクである。また、符号ｇ６３２、ｇ６４２およびｇ６５２は、ｋ＝２に対応する基底スペクトル、バイナリマスク、バイナリマスクである。また、符号ｇ６５３は、オンセットである。

なお、図１５と図１６において、符号ｇ６０１、ｇ６０２、ｇ６３１およびｇ６３２において横軸は周波数ビンであり、縦軸は振幅である。ｇ６１１、ｇ６１２、ｇ６２１、ｇ６２２、ｇ６４１、ｇ６４２、ｇ６５１およびｇ６５２において、横軸は時間フレームである。ｇ６１１、ｇ６１２、ｇ６４１、ｇ６４２において、縦軸はバイナリマスクとオンセットがオン状態（１）とオフ状態（０）を表す。ｇ６２１、ｇ６２２、ｇ６５１、ｇ６５２において、縦軸はバイナリマスクとオンセットの振幅を表す。

図１５に示したように、オンセットを与えなかった場合は、基底ｋ＝１にミとソの音が分離されており，ｋ＝２にドの音が分離されてしまっている。これはある１回のギブスサンプリングによる結果であるが、複数回サンプリングを行った結果を確認しても、それぞれの基底にランダムな音が分離される傾向がみられた。

図１６に示したように、ドの先頭にオンセットを与えてサンプリングを行った場合は基底ｋ＝１にドの音が分離され、基底ｋ＝２にミとソの音が正しく分離されていることが確認できた。実際に分離された音を聴いて確認を行ったところ、基底ｋ＝１にドの音が分離されていた。
これもある１回のギブスサンプリングによる結果であるが、複数回サンプリングを行った結果を確認しても、全ての試行で基底ｋ＝１にのみドの音が分離されていた。なお、ドの音の全てにオンセットを与えてサンプリングを行った場合も、基底ｋ＝１にドの音が、基底ｋ＝２にミとソの音が正しく分離されていることが確認できた。
以上のように，本実施形態のように音の先頭のみにオンセットを与えた場合でも。頑健な分離が見込めることがわかった。

次に、ピアノの動作検証用音源よりも複雑な音楽データを入力として特定の楽器音としてメロディの分離を行い、その分離性能の評価を行った結果を説明する。
評価では、約１０秒間の音響信号（サンプリングレート２２０２０（Ｈｚ））を用いた。この音響信号に含まれる楽器はメロディ、ピアノ、ギター、ベースの４種類である。音響信号に対して、フレーム長さ５１２サンプル、シフト幅２５６サンプル、窓関数をハニング窓として短時間フーリエ変換を行って振幅スペクトルを作成した。
評価では、メロディのオンセットを与えてメロディのみの分離を行った、ハイパーパラメータをａ＝ｂ＝２、ｃ＝ｄ＝１、φ＝０．０１、Ａ_１＝０．９９、Ａ_０＝０．０１とした。また基底数Ｋはメロディの音高数７と、他の構成楽器数３の和である１０とした。

図１７は、メロディのみを入力して事前学習した基底スペクトルのヒートマップを示す図である。図１７において、横軸は基底数ｋであり、縦軸は周波数ビンである。
図１８は、メロディのみを入力して事前学習したアクティベーションのヒートマップを示す図である。図１８において、横軸は時間フレームであり、縦軸は基底数ｋである。
図１９は、メロディのみを入力して事前学習したバイナリマスクのヒートマップを示す図である。図１９において、横軸は時間フレームであり、縦軸は基底数ｋである。

図２０は、事前学習させた正解データのアクティベーションとバイナリマスクの要素積のヒートマップを示す図である。図２０において、横軸は時間フレーム、縦軸は基底数ｋである。与えたオンセットに対応する楽器音が分離できていた場合、その基底の相関係数は１に近い値をとり、異なる基底を分離していた場合は０に近い値をとると考えられる。

図２１は、オンセット無しの場合のアクティベーションとバイナリマスクの要素積のヒートマップを示す図である。図２０において、横軸は時間フレーム、縦軸は基底数ｋである。なお、オンセットを与えない場合は基底のソートは行っていない。
正解データである図２０と図２１とを比較すると、オンセット無しの場合は適切に音源を分離できていない。

図２２は、オンセットありの場合のアクティベーションとバイナリマスクの要素積のヒートマップを示す図である。図２２において、横軸は時間フレーム、縦軸は基底数ｋである。
正解データである図２０と図２２とを比較すると、オンセットを与えた場合は目的の基底が分離できていることが確認できた。

図２３は、オンセット無し（ｎｏｏｎｓｅｔ）、先頭の音のみにオンセットあり（ｈｅａｄ）、全ての音にオンセットあり（ａｌｌ）それぞれの相関係数の箱ひげ図である。図２３において、横軸は相関係数（ｃｏｒｒｅｌａｔｉｏｎ）、縦軸はオンセット無し（ｎｏｏｎｓｅｔ）、先頭の音のみにオンセットあり（ｈｅａｄ）、全ての音にオンセットあり（ａｌｌ）である。なお、図２３おいて、ひげは最小値と最大値を表し、箱の左端と右端は第一四分位点と第三四分位点を表し、箱中央の線は中央値を表している。

オンセットを与えなかった場合は、中央値が０に近い値をとっているため，基底と音高はうまく対応していないことが分かる。
オンセットを与えた場合は、基底の相関係数は１に近い値をとっているため、与えたオンセットに対応する楽器音が分離できている。

以上のように、本実施形態では、ＮＭＦにマルコフ連鎖に基づくバイナリマスク導入できることでオンセットを与えることができるようにした。そして、本実施形態では、利用者が入力したオンセットのタイミング（立ち上がり）を取得するようにした。
すなわち、本実施形態では、利用者が目的音源の発音タイミングをマークして、目的音源の存在に対応するバイナリマスクをマルコフ連鎖モデルに基づき推定し、このマスクを非負値行列因子分解（ＮＭＦ）を確率モデルとして表現した枠組みに導入した。

これにより、本実施形態では、利用者が入力した立ち上がりタイミングを用いて目的の楽器音が分離できる。この結果、本実施形態によれば、複数の音源の音が混合されたモノラル音源から音源をオンセット無しの従来技術より精度良く分離することができる。
また、本実施形態によれば、ユーザが前処理として分離したい信号の一部について、目的音源が現れる箇所に操作部２を操作してマークをつける作業を行うだけで、マークを付けた音源を分離抽出することができる。また、本実施形態によれば、教師音源が不要でユーザ負荷が小さいという利点がある。

なお、上述した例では、音響信号に含まれる音源例として楽器を例に説明したが、音源はこれに限らない。

なお、本発明における音源分離装置１の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音源分離装置１が行う処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。

１…音源分離装置、１１…信号取得部、１２…立ち上がり取得部、１３…音源分離部、１４…記憶部、１５…出力部、１３１…短時間フーリエ変換部、１３２…オンセット生成部、１３３…バイナリマスク生成部、１３４…ＮＭＦ部、１３５…逆短時間フーリエ変換部

Claims

音響信号から生成したスペクトログラムを非負値行列因子分解により基底スペクトルとアクティベーションに分解することで音響信号の中から特定の音源を分離する音源分離装置であって、
複数の音源による混合音を含む前記音響信号を取得する信号取得部と、
前記複数の音源のうち少なくとも１つの音源に対する立ち上がりのタイミングを示す立ち上がり情報を取得する立ち上がり情報取得部と、
前記立ち上がり情報に基づいて、前記アクティベーションＨに対してマルコフ連鎖によって前記音源の存在を０と１の変数で制御するバイナリマスクＳを設定し、設定した前記バイナリマスクＳを用いて前記音響信号から生成したスペクトログラムＸを非負値行列因子分解により前記基底スペクトルＷと前記アクティベーションＨに分解することで前記音響信号の中から特定の音源を分離する音源分離部と、
を備える音源分離装置。
前記音源分離部は、前記立ち上がり情報を、非負値行列因子分解の確率モデルに含めず、前記基底スペクトルＷと前記アクティベーションＨと前記バイナリマスクＳそれぞれの推定を行うギブスサンプリングにおいて、前記立ち上がり情報に基づくオンセットＩを前記バイナリマスクＳの推定を補助する形で間接的に利用する、請求項１に記載の音源分離装置。
前記音源分離部は、ギブスサンプリングを用いて前記基底スペクトルＷと前記アクティベーションＨと前記バイナリマスクＳそれぞれの期待値を推定することで、前記基底スペクトルＷと前記アクティベーションＨと前記バイナリマスクＳそれぞれを推定する、請求項１または請求項２に記載の音源分離装置。
前記音源分離部は、前記基底スペクトルＷと前記アクティベーションＨと前記バイナリマスクＳそれぞれを初期化した後、以下の各式に対してギブスサンプリングを用いて、前記基底スペクトルＷと前記アクティベーションＨと前記バイナリマスクＳそれぞれの期待値を推定し、

上記各式において、Ｚ ^{（ｉ＋１）} は、ｉ＋１番目のステップにおける補助変数である、
請求項１から請求項３のいずれか１項に記載の音源分離装置。
音響信号から生成したスペクトログラムを非負値行列因子分解により基底スペクトルとアクティベーションに分解することで音響信号の中から特定の音源を分離する音源分離装置における音源分離方法であって、
信号取得部が、複数の音源による混合音を含む前記音響信号を取得する信号取得手順と、
立ち上がり情報取得部が、前記複数の音源のうち少なくとも１つの音源に対する立ち上がりのタイミングを示す立ち上がり情報を取得する立ち上がり情報取得手順と、
音源分離部が、前記立ち上がり情報に基づいて、前記アクティベーションＨに対してマルコフ連鎖によって前記音源の存在を０と１の変数で制御するバイナリマスクＳを設定し、設定した前記バイナリマスクＳを用いて前記音響信号から生成したスペクトログラムＸを非負値行列因子分解により前記基底スペクトルＷと前記アクティベーションＨに分解することで前記音響信号の中から特定の音源を分離する音源分離手順と、
を含む音源分離方法。
音響信号から生成したスペクトログラムを非負値行列因子分解により基底スペクトルとアクティベーションに分解することで音響信号の中から特定の音源を分離する音源分離装置におけるコンピュータに、
複数の音源による混合音を含む前記音響信号を取得する信号取得手順と、
前記複数の音源のうち少なくとも１つの音源に対する立ち上がりのタイミングを示す立ち上がり情報を取得する立ち上がり情報取得手順と、
前記立ち上がり情報に基づいて、前記アクティベーションＨに対してマルコフ連鎖によって前記音源の存在を０と１の変数で制御するバイナリマスクＳを設定し、設定した前記バイナリマスクＳを用いて前記音響信号から生成したスペクトログラムＸを非負値行列因子分解により前記基底スペクトルＷと前記アクティベーションＨに分解することで前記音響信号の中から特定の音源を分離する音源分離手順と、
を実行させるプログラム。