JP6535611B2 - 音源分離装置、方法、及びプログラム - Google Patents

音源分離装置、方法、及びプログラム Download PDF

Info

Publication number
JP6535611B2
JP6535611B2 JP2016014692A JP2016014692A JP6535611B2 JP 6535611 B2 JP6535611 B2 JP 6535611B2 JP 2016014692 A JP2016014692 A JP 2016014692A JP 2016014692 A JP2016014692 A JP 2016014692A JP 6535611 B2 JP6535611 B2 JP 6535611B2
Authority
JP
Japan
Prior art keywords
basis
sound source
time
activation
source separation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016014692A
Other languages
English (en)
Other versions
JP2017134284A (ja
Inventor
亜紀 林
亜紀 林
弘和 亀岡
弘和 亀岡
達史 松林
達史 松林
澤田 宏
宏 澤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016014692A priority Critical patent/JP6535611B2/ja
Publication of JP2017134284A publication Critical patent/JP2017134284A/ja
Application granted granted Critical
Publication of JP6535611B2 publication Critical patent/JP6535611B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Auxiliary Devices For Music (AREA)

Description

本発明は、音源分離装置、方法、及びプログラムに係り、特に、複数の音源からの音源信号が混合された混合信号を分離する音源分離装置、方法、及びプログラムに関する。
音楽音響信号の多くは、複数の例えば楽器などの音源から構成されており、混合信号の分離は音楽構造理解や自動採譜、楽器やピッチの部分的な編集、雑音除去、欠損値補間など多くの場面で必要になる。近年、音響信号処理分野において、自動採譜や音源分離などへの有効性から非負値行列分解(Non-negative Matrix Factorization, NMF)への注目が高まっている。NMFでは、混合信号(観測信号)のスペクトログラムを非負値行列Yで表現した上で、2つの非負値行列H、Uの積の形に分解する(図1参照)。これは、各時間窓で観測されたスペクトルを、時間変化する係数行列U(アクティベーション)の値でスケールされた基底スペクトルHの線形和で近似していることに該当し、観測行列はランク1 のスペクトログラムHω,kk,tの和の形で表現される。
NMFの重要な特徴として、非負値制約により分解行列がスパースな値を持つことが挙げられる。例えば、Uには多くの0要素が含まれることが多い。この特徴により、各時間窓の観測スペクトルは、多くの場合少数の基底スペクトルの和で表現される。従って、各基底スペクトルには観測信号全体において複数回出現する典型的なスペクトル(多くの場合は頻出する楽音)が抽出され、効率の良い分解表現が可能になる。
S.A. Raczynski, N.Ono, and S.Sagayama. Multipitch Analysis with Harmonic Nonnegative Matrix Approximation. ISMIR 2007, 8th International Conference on Music Information Retrieval. Citeseer, 2007. E.Vincent, N.Bertin, and R.Badeau. Harmonic and Inharmonic Nonnegative Matrix Factorization for Polyphonic Pitch Transcription. IEEE International Conference on Acoustics, Speech and Signal Processing, 2008. ICASSP 2008., pages 109-112. IEEE, 2008. H.Kameoka, M.Nakano, K.Ochiai, Y.Imoto, K.Kashino, and S.Sagayama. Constrained and Regularized Variants of Non-negative Matrix Factorization Incorporating Music-specic Constraints. ICASSP, pages 5365-5368, 2012. T.Virtanen. Monaural Sound Source Separation by Nonnegative Matrix Factorization with Temporal Continuity and Sparseness Criteria. IEEE Transactions on Audio, Speech, and Language Processing, 15(3):1066-1074, 2007. M.Nakano, J.LeRoux, H.Kameoka, Y.Kitano, N.Ono, and S.Sagayama. Nonnegative Matrix Factorization with Markov-chained Bases for Modeling Time-varying Patterns in Music Spectrograms. Latent Variable Analysis and Signal Separation, pages 149-156. Springer, 2010. K.Ochiai, H.Kameoka, and S.Sagayama. Explicit Beat Structure Modeling for Non-negative Matrix Factorization-based Multipitch Analysis. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 133-136. IEEE, 2012. Rafii Zafar and Bryan Pardo. Repeating pattern extraction technique (REPET): A simple method for music/voice separation, IEEE Transactions on Audio, Speech, and Language Processing, Vol. 21, no.1, pp. 73-84, 2013.
しかしながら、音楽スペクトログラムにNMFを適用する際には、以下に示す2つの課題がある。第1に、精度と、分離信号の有意性との間にトレードオフが発生する。NMFではX=HUと観測行列Yの間の近似誤差を目的関数として定義し、その目的関数を最小化する。基底数を増やすことにより近似誤差は減少するが、基底数を増やしすぎると分解行列の解釈性が下がる。例えば、極端な例としてY=HIやY=IUなどの無意味な分解結果が出力されてしまう場合がある。ここでIは単位行列を示す。したがって、多くの基底を用いて精度(少ない近似誤差)を保ちながら、有意性の高い分離を行うためには、非負値性以外の有用な制約をHUに課したモデルが必要になる。
NMFの第2の課題として、局所的最適解問題が上げられる。既存のNMFの最適化アルゴリズムの多くは収束が保証されているものの、ある限られた領域においてのみ最適な局所的最適解へ収束してしまう場合が多く、必ずしも全ての領域において最適な大域的最適解が求まるとは限らない。音楽音響信号への適用において、この局所的最適解は、例えば分離信号が聴覚で捉えられる音楽事象に対応しないなど、音楽的に解釈不可能な解となり得る。
上記の問題を解決するには、データの特徴を反映した制約をモデルHUや目的関数に組み込むことが考えられる。例えば、音楽の和声構造を各基底スペクトルに仮定した手法(非特許文献1、2)や、音色の類似性を考慮して基底をクラスタリングする枠組みを導入した手法(非特許文献3)が提案されている。音楽の時間変化特徴を考慮した制約付NMF も提案されており、発音が一定時間持続することを仮定したモデル(非特許文献4)や、「アタック」「ディケイ」「サステイン」「リリース」などの楽音の状態変化を基底スペクトルに仮定したモデル(非特許文献5)、ビート(拍)に応じたリズムをアクティベーションに仮定した制約付NMF(非特許文献6)が提案されている。単純かつ単一な周期成分を抽出する手法(非特許文献7)も提案されているが、周期性は単一であるとは限らず,複数の音源で異なる複数の周期性が存在する可能性がある。
本発明では、上記問題を解決するために成されたものであり、周期的な発音パターンを抽出することができる音源分離装置、方法、及びプログラムを提供することを目的とする。周期性を想定した一部の基底で、どの音源がいつ発音するかを示すアクティベーションに基底毎に異なる周期性を仮定し、目的関数に制約として加えることにより,周期的な発音パターンの抽出を促進する。
上記目的を達成するために、第1の発明に係る音源分離装置は、複数の音源からの音源信号が混合された混合信号の時系列データを入力として、各時刻tにおける各周波数ωの観測時間周波数成分Yω,tを表す観測時間周波数成分Yを出力する混合信号時間周波数変換部と、前記観測時間周波数成分Yに基づいて、各基底kの、各周波数ωにおけるパワースペクトルHω,kを表す基底スペクトルHと、各基底kの、各時刻tにおけるパワーUk.tを表すアクティベーションUとの積Xと、前記観測時間周波数成分Yとの誤差、及び各基底kのパワーUk.tに周期性を仮定したときの、前記アクティベーションUとの誤差を用いて表わされた目的関数を最適化するように、前記基底スペクトルHと、前記アクティベーションUを推定する教師なし音源分離適用部と、を含んで構成されている。
第2の発明に係る音源分離方法は、混合信号時間周波数変換部及び教師なし音源分離適用部を含む音源分離装置における音源分離方法であって、前記混合信号時間周波数変換部が、複数の音源からの音源信号が混合された混合信号の時系列データを入力として、各時刻tにおける各周波数ωの観測時間周波数成分Yω,tを表す観測時間周波数成分Yを出力し、前記教師なし音源分離適用部が、前記観測時間周波数成分Yに基づいて、各基底kの、各周波数ωにおけるパワースペクトルHω,kを表す基底スペクトルHと、各基底kの、各時刻tにおけるパワーUk.tを表すアクティベーションUとの積Xと、前記観測時間周波数成分Yとの誤差、及び各基底kのパワーUk.tに周期性を仮定したときの、前記アクティベーションUとの誤差を用いて表わされた目的関数を最適化するように、前記基底スペクトルHと、前記アクティベーションUを推定する。
第3の発明に係る音源分離装置は、複数の音源iの各々に対して、前記音源iからの音源信号の時系列データを入力として、各時刻tにおける各周波数ωの観測時間周波数成分Si ω,tを表す観測時間周波数成分Siを出力する分離信号時間周波数変換部と、前記複数の音源iの各々に対して、前記観測時間周波数成分Siに基づいて、各基底kiの、各周波数ωにおけるパワースペクトルHi ω,kを表す基底スペクトルHiと、各基底kiの、各時刻tにおけるパワーUi k.tを表すアクティベーションUiとの積Xiと、前記観測時間周波数成分Siとの誤差、及び各基底kiのパワーUi k.tに周期性を仮定したときの、前記アクティベーションUiとの誤差を用いて表わされた目的関数を最適化するように、前記基底スペクトルHiと、前記アクティベーションUiを推定する分離信号音源分離適用部と、前記複数の音源iの各々に対して推定された前記基底スペクトルHiを統合して、各基底kの、各周波数ωにおけるパワースペクトルHω,kを表す基底スペクトルHを生成する基底スペクトル統合部と、複数の音源からの音源信号が混合された混合信号の時系列データを入力として、各時刻tにおける各周波数ωの観測時間周波数成分Yω,tを表す観測時間周波数成分Yを出力する混合信号時間周波数変換部と、前記観測時間周波数成分Yに基づいて、前記基底スペクトル統合部によって生成された前記基底スペクトルHと、各基底kの、各時刻tにおけるパワーUk.tを表すアクティベーションUとの積Xと、観測時間周波数成分Yとの誤差、及び各基底kのパワーUk.tに周期性を仮定したときの、前記アクティベーションUとの誤差を用いて表わされた目的関数を最適化するように、前記アクティベーションUを推定する混合信号音源分離適用部と、を含んで構成されている。
第4の発明に係る音源分離方法は、分離信号時間周波数変換部、分離信号音源分離適用部、基底スペクトル統合部、混合信号時間周波数変換部、及び混合信号音源分離適用部を含む音源分離装置における音源分離方法であって、前記分離信号時間周波数変換部が、複数の音源iの各々に対して、前記音源iからの音源信号の時系列データを入力として、各時刻tにおける各周波数ωの観測時間周波数成分Si ω,tを表す観測時間周波数成分Siを出力し、前記分離信号音源分離適用部が、前記複数の音源iの各々に対して、前記観測時間周波数成分Siに基づいて、各基底kiの、各周波数ωにおけるパワースペクトルHi ω,kを表す基底スペクトルHiと、各基底kiの、各時刻tにおけるパワーUi k.tを表すアクティベーションUiとの積Xiと、前記観測時間周波数成分Siとの誤差、及び各基底kiのパワーUi k.tに周期性を仮定したときの、前記アクティベーションUiとの誤差を用いて表わされた目的関数を最適化するように、前記基底スペクトルHiと、前記アクティベーションUiを推定し、前記基底スペクトル統合部が、前記複数の音源iの各々に対して推定された前記基底スペクトルHiを統合して、各基底kの、各周波数ωにおけるパワースペクトルHω,kを表す基底スペクトルHを生成し、前記混合信号時間周波数変換部が、複数の音源からの音源信号が混合された混合信号の時系列データを入力として、各時刻tにおける各周波数ωの観測時間周波数成分Yω,tを表す観測時間周波数成分Yを出力し、前記混合信号音源分離適用部が、前記観測時間周波数成分Yに基づいて、前記基底スペクトル統合部によって生成された前記基底スペクトルHと、各基底kの、各時刻tにおけるパワーUk.tを表すアクティベーションUとの積Xと、観測時間周波数成分Yとの誤差、及び各基底kのパワーUk.tに周期性を仮定したときの、前記アクティベーションUとの誤差を用いて表わされた目的関数を最適化するように、前記アクティベーションUを推定する。
また、本発明のプログラムは、コンピュータを、上記の音源分離装置を構成する各部として機能させるためのプログラムである。
以上説明したように、本発明の音源分離装置、方法、及びプログラムによれば、基底スペクトルHと、アクティベーションUとの積Xと、観測時間周波数成分との誤差、各基底kのパワーUk.tに周期性を仮定したときの、アクティベーションUとの誤差、及び周期関数のスパース化のためのスパース化項を用いて表わされた目的関数を最適化するように、基底スペクトルHと、アクティベーションUを推定することにより、周期的な発音パターンを抽出することができる。
NMFの表現を示す図である。 アクティベーションUk,tとα、βの推定結果の例を示す図である。 本発明の第1の実施の形態に係る音源分離装置の機能的構成を示すブロック図である。 本発明の第1の実施の形態に係る音源分離装置の教師あり音源分離適用部の構成を示すブロック図である。 本発明の第1、第2の実施の形態に係る音源分離装置の分離信号音源分離適用部又は混合信号音源分離適用部の構成を示すブロック図である。 本発明の第1の実施の形態に係る音源分離装置における音源分離処理ルーチンを示すフローチャート図である。 本発明の第2の実施の形態に係る音源分離装置の機能的構成を示すブロック図である。 本発明の第2の実施の形態に係る音源分離装置の教師なし音源分離適用部の構成を示すブロック図である。 本発明の第2の実施の形態に係る音源分離装置における音源分離処理ルーチンを示すフローチャート図である。 提案手法による音源分離結果を示す図である。 従来のNMFによる音源分離結果を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態の概要>
まず、本実施の形態における概要について説明する。本実施の形態では、各音符やドラム音の発音タイミングにおける、リズムの周期性を仮定して、制約付NMFを提案する。特にベースやドラムなどの楽器で周期性が想定される。どの音源がいつ発音するかを示すアクティベーションに周期性を仮定し、目的関数に制約として加えることにより、周期的な発音パターンの抽出を促進する。周期性を仮定する制約を加えた目的関数において、最適解を求めるアルゴリズムを定式化した上で、教師あり・教師なし両方の枠組みにおいて音源分離に適用する方法を提案する。
<提案モデルの定式化>
本実施の形態では、周期を考慮したパターン抽出方法(提案手法)を非負値周期成分分析手法(Non-negative Periodic Component Analysis, NPCA)と呼ぶ。NPCAの目的関数は以下のように定義される。
w1,w2>0 は正則化パラメータである。
I(H,U)は通常のNMFの目的関数で考慮されるものと同じ、観測行列Yと、NMFモデルによる分解行列の積X=HUとの近似誤差である。
以下のようなNMFモデルを考える。
ここで、kは基底インデックス、Kは基底数を示し、ωとtはそれぞれ周波数と時間窓を示す。YとXとの間の距離尺度としてIダイバージェンス(参考文献1を参照)を用いると、I(H,U)は以下のように書ける。
[参考文献1]:I.Csiszar. I-divergence Geometry of Probability Distributions and Minimization Problems. The Annals of Probability, pages 146-158, 1975.
J(U, α, β)はアクティベーションUk,1, ... , Uk,T に周期性を仮定するための制約を表す項である。T は時間-周波数表現における時間窓数を示す。提案法では、Uの非負性を保つために、Uk,tの対数を取ったものが、倍音構造を考慮した正弦曲線の重み付き和で近似されること、すなわち
と表現できることを仮定する。提案手法では、
が、周期1/Pmの繰り返しパターンの形状を決定する。
ここで、各正弦曲線の周期は基本周波数Pmの整数倍に限定される形を取っており、nは各周波数のn倍音を表現するための変数である。この制約により、
がちょうど周波数Pmの周期構造を持つことが保証される。以上により、log Uk,t はM 個の周期関数の和で表現される。なお、式(4) はUを正弦曲線の重み付き和の指数の形で近似していると捉えられる。
周期{Pm}について、例えば
などと定義することが考えられる。また、倍音を表す定数の集合{n} について、{1, 2, ..., 9, 10} などの定義が考えられる。上述の例では、想定できる周期の数Mは20 となる。
提案モデルでは、自動的にUk,tを最適に表現する周期を推定することができる。図2に、ある短い音楽データにおけるUk,tと、Uk,tの太枠で囲まれた時間窓内に対応するαk m,n、βk m,nの推定例を示す。例においては、図2(A)〜(D)で示されるいくつかのmとnの組み合わせに該当するαk m,nとβk m,nの値が他のmやnに比べて、大きい値を持つと推定された。下の周期関数の図は、抽出されたm, nに対応するcos nPmt またはsin nPmt のUの太枠内の時間窓における離散曲線を示す。Sum と書かれた曲線は、図2(A)〜(D)に該当する曲線の重み付き和を示し、Exp と書かれた尖った曲線は、Sum の指数を取ったものである。Exp の曲線は実際に推定されたUk,tに近い形をしていることが分かる。
なお、図2(A)、(B)などで発生しているエーリアシングを回避して、より明示的な周期を推定するためには、Pmの定義を式(5)から変更することも考えられる。最大周波数PMがナイキスト周波数以下になるように以下の式(5A)でPmを定義する。ここで
a=2π/T、b=(π-0.001)/Nである。加えて、式(5)や式(5A)では周波数が少ないほど密に値を取るように設定していたが、これを以下の式(5B)のようにエーリアシングを回避した上で均等に分割することも考えられる。なお、式(5A)、式(5B)でPmを定義する際には、式(5)に比べてPmの範囲が狭くなるため、Mの値を上述の20よりも少なくする方がよいと考えられる。
(5A)
(5B)
提案手法では、アクティベーションUに周期性を仮定するための目的関数J(U, α, β) を、式(4) の両辺間のユークリッド距離を用いて、以下のように定義する。
ここで、
と置いた。
式(4) でUに周期性を仮定すると、m, n の組み合わせによっては、想定する正弦曲線が冗長になる場合がある。Uk,tを最小限の周期関数の重み付き和で表現するために、本発明の実施の形態ではα とβ に、以下に示すgroup sparsity を考慮する。
ここで、係数αとβを、同じ基本周波数を用いるM個の異なるグループに分け、group sparsity を誘導するための項
を定義する。L(α, β) は、高々数個のα とβ のグループのみが非ゼロの値を取り、他の全てのグループでは値が0になっている場合、小さい値を取る。従って、L(α, β)を目的関数に含めて最小化することにより、Uk,tを最小限の周期で表現できる。図2はgroup sparsity を考慮したα とβ の推定結果を示している。
数種類のmに関連するα, β のグループでのみ、αとβの値が大きくなっている。グループmごとに、倍音n方向の二乗和を最小化することにより、n方向の二乗和が0に近くなった場合、全てのnで該当するα, βの値が強制的に0に変換される。スパース性を保ちつつ、n方向では複数の係数が非ゼロになることを許容している。
なお、α, βをスパース化する際には、上述したgroup sparsity だけでなく、倍音方向、すなわちn方向にもスパース性を仮定する方法も考えられる。倍音成分も最小限に抑えることが可能になる。m, n両方向にスパース性を仮定する場合、sparsity 誘導項は
となる。
本発明の実施の形態では、以上のように各基底スペクトルのアクティベーションに対して、十分な数の周期候補の中から適切に選択された、最小限の周期関数の和で表現される任意の周期を持つ周期的イベントを検出・推定した上で、その周期性を行列分解の枠組みで考慮することが可能になる。
<最適化アルゴリズム>
目的関数である式(1)を最小化するH,U,α,βの値を求めるアルゴリズムについて説明する。繰り返し計算により目的関数を最小化することができる。各ループでは、それぞれH、U、αとβについて最適化を行う3段階のステップを実施する。最適化を解析的に行うことは不可能であるが、補助関数法を用いて、目的関数の各項に対して設定した上界関数I+、J+、L+を最小化することにより、間接的にH,U,α,βの値を最適化する更新式を導出することができる。上界関数をH,U,α,βに関して最小化するステップと、目的関数と上界関数の値が等しくなるように補助変数を更新するステップを繰り返すことで、目的関数を単調に降下させることができる。
まず、I(H,U)の上界関数I+ については、通常のNMFと同様に、Jensen の不等式を用いて以下のように設定することができる。
補助変数λは
を満たす正の重み定数であり、等号成立条件は
である。
次に、J(U, α, β) の上界関数J+ は以下のように設計できる。
ここで、
である。等号成立条件はξ=Uk,t である。なお、上記の上界関数を設計するにあたって非特許文献8で証明されている以下の不等式を使用した。
[非特許文献8]:樋口卓哉, 亀岡弘和. ケプストラム距離正則化に基づく多重音解析. 情報処理学会研究報告[音楽情報科学], 2014(10):1-6, 2014.
最後に、f(x)=xp/2 に接する放物線がx>0 のとき常にf(x) 以上の値を取ることを利用し、L(α, β) に関する上界関数L+ を以下のように設計する。
であり、等号成立条件は
である。
続いて、上述した上界関数を用いてH,U, α, β の更新式を導出する。更新式は、上界関数を偏微分したものを0と置いて、各変数について解くことにより得られる。
H、Uの更新式は以下のように導出される。
ここで、
である。
α、β は、以下のようなαk m,n とβk m,n に関する連立方程式を解くことにより更新できる。
(22)
(23)
連立方程式
の解は、例えばMatlab では
、Python 言語のNumPy では
、R 言語では
とすることにより解くことができる。
<本発明の第1の実施の形態に係る音源分離装置の構成>
次に、本発明の第1の実施の形態に係る音源分離装置の構成について説明する。第1の実施の形態では、教師データとして分離信号が入手できる状況を想定して、教師あり音源分離を行う。図3に示すように、本発明の第1の実施の形態に係る音源分離装置100は、CPUと、RAMと、後述する音源分離処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この音源分離装置100は、機能的には図3に示すように入力部10と、演算部20と、出力部90と、を含んで構成されている。
入力部10は、複数の音源iの各々に対して、当該音源iからの音源信号の時系列データを受け付け、分離信号記憶部22に記憶する。また、入力部10は、複数の音源からの音源信号が混合された混合信号の時系列データを受け付け、混合信号記憶部24に記憶する。
演算部20は、分離信号記憶部22と、混合信号記憶部24と、分離信号入力受付部26と、分離信号時間周波数変換部28と、混合信号入力受付部30と、混合信号時間周波数変換部32と、教師あり音源分離適用部34と、Winnerfilter適用部36と、IFFT適用部38と、分離信号描画部40と、分離信号再生部42とを含んで構成されている。
分離信号記憶部22には、入力部10において受け付けた複数の音源の各々の分離信号の時系列データが記憶されている。なお、音源の一例は、楽器である。
混合信号記憶部24には、入力部10において受け付けた混合信号の時系列データが記憶されている。
分離信号入力受付部26は、分離信号記憶部22から、複数の音源の各々の分離信号の時系列データを受け付ける。
分離信号時間周波数変換部28は、複数の音源iの各々に対して、分離信号入力受付部26により受け付けた当該音源iからの音源信号の時系列データを入力として、各時刻tにおける各周波数ωの観測時間周波数成分Si ω,tを表す観測時間周波数成分Siを出力する。なお、本実施の形態においては、音源iからの音源信号をフーリエ変換した複素スペクトログラムの絶対値を格納した観測時間周波数成分Siを求める。
混合信号入力受付部30は、混合信号記憶部24から、混合信号の時系列データを受け付ける。
混合信号時間周波数変換部32は、混合信号入力受付部30により受け付けた混合信号の時系列データを入力として、各時刻tにおける各周波数ωの観測時間周波数成分Yω,tを表す観測時間周波数成分Yを出力する。
教師あり音源分離適用部34は、図4に示すように、入力受付部50、分離信号音源分離適用部52、基底スペクトル統合部54、混合信号音源分離適用部56、及び結果出力部58を含んで構成されている。
入力受付部50は、分離信号時間周波数変換部28によって、複数の音源iの各々に対して出力された、観測時間周波数成分Siを受け付け、混合信号時間周波数変換部32によって出力された観測時間周波数成分Yを受け付ける。
分離信号音源分離適用部52は、複数の音源iの各々に対して、観測時間周波数成分Siに基づいて、各基底kiの、各周波数ωにおけるパワースペクトルHi ω,kを表す基底スペクトルHiと、各基底kiの、各時刻tにおけるパワーUi k.tを表すアクティベーションUiとの積Xiと、前記観測時間周波数成分Siとの誤差、各基底kiのパワーUi k.tに周期性を仮定したときの、前記アクティベーションUiとの誤差、及び各基底kiのパワーUi k.tに対して、複数の基本周波数の各々の倍音で表わされる各周期関数の和を用いて周期性を仮定したときの、同じ基本周波数で表わされる前記周期関数のグループのスパース化のためのスパース化項を用いて表わされた、上記(1)式と同様の式で示される目的関数を最適化するように、基底スペクトルHiと、アクティベーションUi、周期性を表す変数α、βを推定する。なお、本実施の形態では、目的関数に含まれるL(α, β)として、上記(8)式で表わされるgroup sparsity を誘導するための項を用いる。
分離信号音源分離適用部52は、図5に示すように、初期値設定部60、変数更新部62、補助変数更新部64、及び収束判定部66を含んで構成されている。
初期値設定部60は、音源iに対して、基底スペクトルHiと、アクティベーションUiと、周期性を表す変数α、βと、補助変数λとに初期値を設定する。Hi,Uiの初期値には、例えば、通常のNMFによる分解結果を使用すればよい。α、βの初期値については、NPCAの目的関数のうち、α、βの値がないと計算できないL(α、β)に関する項を取り除いたものを用いて算出すればよい。
変数更新部62は、音源iに対して、観測時間周波数成分Siと、初期値設定部60により初期値が設定された、又は変数更新部62及び補助変数更新部64により前回更新された、基底スペクトルHiと、アクティベーションUiと、周期性を表す変数α、βと、補助変数λとに基づいて、上記(18)式、(19)式、(22)式、(23)式と同様の式に従って、基底スペクトルHiと、アクティベーションUiと、周期性を表す変数α、βとを更新する。
補助変数更新部64は、音源iに対して、変数更新部62により更新された、基底スペクトルHiと、アクティベーションUiとに基づいて、上記(11)式と同様の式に従って、補助変数λを更新する。
収束判定部66は、音源iに対して、予め定められた収束条件を満たすまで、変数更新部62における更新処理と、補助変数更新部64における更新処理とを繰り返させる。
例えば、予め定めた繰り返し回数に到達した場合に、収束条件を満たすと判定する。
音源信号音源分離適用部52は、複数の音源iの各々に対して、上述した、初期値設定部60、変数更新部62、補助変数更新部64、及び収束判定部66の一連の処理を繰り返す。
基底スペクトル統合部54は、音源信号音源分離適用部52によって複数の音源iの各々に対して推定された基底スペクトルHiを統合して、各基底kの、各周波数ωにおけるパワースペクトルHω,kを表す基底スペクトルHを生成する。
例えば、基底スペクトル統合部54は、音源ごとに推定された基底スペクトルHi ω,kをひとつの行列に統合し、混合信号の分離用の基底スペクトルHω,kを作成する。この時、統合された基底スペクトルの基底数Kは
個となる。
混合信号音源分離適用部56は、観測時間周波数成分Yに基づいて、基底スペクトル統合部54によって生成された基底スペクトルHと、各基底kの、各時刻tにおけるパワーUk.tを表すアクティベーションUとの積Xと、観測時間周波数成分Yとの誤差、各基底kのパワーUk.tに周期性を仮定したときの、アクティベーションUとの誤差、及び各基底kのパワーUk.tに対して、複数の基本周波数の各々の倍音で表わされる各周期関数の和を用いて周期性を仮定したときの、同じ基本周波数で表わされる前記周期関数のグループのスパース化のためのスパース化項を用いて表わされた、上記(1)式に示す目的関数を用いて表わされた目的関数を最適化するように、アクティベーションU、周期性を表す変数α、βを推定する。
この時、各基底kの、各周波数ωにおけるパワースペクトルHω,kを表す基底スペクトルHを更新せずに固定したまま、アクティベーションU、周期性を表す変数α、βのみを最適化する。
混合信号音源分離適用部56は、音源信号音源分離適用部52と同様に、上記図5に示すように、初期値設定部60、変数更新部62、補助変数更新部64、及び収束判定部66を含んで構成されている。
混合信号音源分離適用部56の初期値設定部60は、基底スペクトルHとして、基底スペクトル統合部54によって生成された基底スペクトルHを設定すると共に、アクティベーションUと、周期性を表す変数α、βと、補助変数λとに初期値を設定する。
混合信号音源分離適用部56の変数更新部62は、観測時間周波数成分Yと、初期値設定部60により初期値が設定された、又は変数更新部62及び補助変数更新部64により前回更新された、基底スペクトルHと、アクティベーションUと、周期性を表す変数α、βと、補助変数λとに基づいて、上記(19)式、(22)式、(23)式に従って、アクティベーションUと、周期性を表す変数α、βとを更新する。
混合信号音源分離適用部56の補助変数更新部64は、基底スペクトルHと、変数更新部62により更新されたアクティベーションUとに基づいて、上記(11)式に従って、補助変数λを更新する。
混合信号音源分離適用部56の収束判定部66は、予め定められた収束条件を満たすまで、変数更新部62における更新処理と、補助変数更新部64における更新処理とを繰り返させる。
結果出力部58は、基底スペクトル統合部54によって生成された基底スペクトルHと、混合信号音源分離適用部56によって得られたアクティベーションUとを、Winnerfilter適用部36へ出力する。
Winnerfilter適用部36は、結果出力部58から出力された基底スペクトルHと、アクティベーションUとに基づいて、Winner filterを作成した上で、混合信号から得られた複素スペクトログラムである観測時間周波数成分YにWinner filterをかけて分離信号の複素スペクトログラムを計算する。
ここで、分離信号の複素スペクトログラム^si ω,tが以下のように計算される。
ここで、yω,tは入力された観測時間周波数成分Yの複素スペクトログラムを表す。k ∈ i は、i番目の音源(楽器)に割り当てられた基底インデックスの集合を示す。
IFFT適用部38は、Winnerfilter適用部36によって計算された音源iの各々の分離信号の複素スペクトログラム^si ω,tに対して、逆フーリエ変換することにより、音源iの各々の分離信号を作成する。
分離信号描画部40は、IFFT適用部38によって作成された音源iの各々の分離信号を描画した結果を、出力部90により出力する。
分離信号再生部42は、IFFT適用部38によって作成された音源iの各々の分離信号を再生して、出力部90により出力する。
<本発明の第1の実施の形態に係る音源分離装置の作用>
次に、本発明の第1の実施の形態に係る音源分離装置100の作用について説明する。まず、入力部10において複数の音源iの各々の分離信号の時系列データを受け付け、分離信号記憶部22に記憶する。次に、入力部10において、混合信号の時系列データを受け付け、混合信号記憶部24に記憶する。そして、音源分離装置100は、図6に示す音源分離処理ルーチンを実行する。
まず、ステップS100では、分離信号記憶部22に記憶されている複数の音源iの各々の分離信号の時系列データに基づいて、音源iの各々について、観測時間周波数成分Siに変換する。
次に、ステップS102では、混合信号記憶部24に記憶されている混合信号の時系列データに基づいて、観測時間周波数成分Yに変換する。
そして、ステップS104において、音源iについて、ステップS100において取得した観測時間周波数成分Siに基づいて、基底スペクトルHi、アクティベーションUi、周期性を表す変数α、βを推定する。
ステップS104では、上述したように、音源iについて、基底スペクトルHi、アクティベーションUi、及び周期性を表す変数α、βの更新と、補助変数λの更新とを繰り返すことにより、基底スペクトルHi、アクティベーションUi、周期性を表す変数α、βが推定される。
ステップS106では、全ての音源について、上記ステップS104の処理が実行されたか否かを判定する。上記ステップS104の処理が実行されていない音源が存在する場合には、上記ステップS104へ戻り、当該音源について、ステップS104の処理が実行する。一方、全ての音源について、上記ステップS104の処理が実行された場合には、ステップS108へ進む。
ステップS108では、上記ステップS104で音源iの各々について推定された基底スペクトルHiを統合することにより、基底スペクトルHを生成する。
そして、ステップS110では、上記ステップS102において取得した観測時間周波数成分Yと、上記ステップS108で生成された基底スペクトルHとに基づいて、アクティベーションU、及び周期性を表す変数α、βを推定する。
ステップS110では、上述したように、アクティベーションU、及び周期性を表す変数α、βの更新と、補助変数λの更新とを繰り返すことにより、アクティベーションU、周期性を表す変数α、βが推定される。
そして、ステップS112では、上記ステップS102において取得した観測時間周波数成分Yと、上記ステップS108で生成された基底スペクトルHと、上記ステップS110で推定されたアクティベーションUとに基づいて、音源iの各々の分離信号の複素スペクトログラム^si ω,tを計算する。
次のステップS114では、上記ステップS112で計算された音源iの各々の分離信号の複素スペクトログラム^si ω,tに対して、逆フーリエ変換することにより、音源iの各々の分離信号を作成する。
ステップS116では、上記ステップS114で作成された音源iの各々の分離信号を描画した結果を、出力部90により出力する。
ステップS118では、上記ステップS114作成された音源iの各々の分離信号を再生して、出力部90により出力し、音源分離処理ルーチンを終了する。
以上説明したように、第1の実施の形態に係る音源分離装置によれば、基底スペクトルHと、アクティベーションUとの積Xと、観測時間周波数成分との誤差、各基底kのパワーUk.tに周期性を仮定したときの、アクティベーションUとの誤差、及び周期関数のスパース化のためのスパース化項を用いて表わされた目的関数を最適化するように、基底スペクトルHとアクティベーションUを推定することにより、周期的な発音パターンを抽出することができる。
また、NMFにおいてどの音源がいつ発音するかを示すアクティベーションに任意の周期性を仮定し、その周期を推定しながら行列分解を行うことにより、周期的な発音パターンの抽出を促進できる。この際、音楽音響信号の特性を考慮し、周期性を最小限の周期とその倍音成分にあたる正弦曲数の和で表現することにより、音源ごとに異なる任意の周期性を自動推定することができる。
また、周期的リズムが含まれる楽曲に対する、教師ありの音源分離性能の向上が期待される。また、周期を最小限の周期関数とその倍音にあたる周期関数の和で表現することにより、周期性形状の把握が可能になり、自動採譜の効率化や音楽におけるリズム構造の理解促進が期待される。
また、一部の音源にのみ周期性を仮定することにより、周期成分と非周期成分の分離が可能になる。
<本発明の第2の実施の形態に係る音源分離装置の構成>
次に、本発明の第2の実施の形態に係る音源分離装置の構成について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
第2の実施の形態では、教師データとしての分離信号が入力されずに、教師なしの音源分離を行う点が、第1の実施の形態と主に異なっている。
図7に示すように、本発明の第2の実施の形態に係る音源分離装置200は、入力部10と、演算部220と、出力部90と、を含んで構成されている。
入力部10は、複数の音源からの音源信号が混合された混合信号の時系列データを受け付け、混合信号記憶部24に記憶する。
演算部220は、混合信号記憶部24と、混合信号入力受付部30と、混合信号時間周波数変換部32と、教師なし音源分離適用部234と、Winnerfilter適用部36と、IFFT適用部38と、分離信号描画部40と、分離信号再生部42とを含んで構成されている。
教師なし音源分離適用部234は、図8に示すように、入力受付部250、混合信号音源分離適用部256、及び結果出力部58を含んで構成されている。
入力受付部50は、混合信号時間周波数変換部32によって出力された観測時間周波数成分Yを受け付ける。
混合信号音源分離適用部256は、観測時間周波数成分Yに基づいて、各基底kの、各周波数ωにおけるパワースペクトルHω,kを表す基底スペクトルHと、各基底kの、各時刻tにおけるパワーUk.tを表すアクティベーションUとの積Xと、観測時間周波数成分Yとの誤差、各基底kのパワーUk.tに周期性を仮定したときの、前記アクティベーションUとの誤差、及び各基底kのパワーUk.tに対して、複数の基本周波数の各々の倍音で表わされる各周期関数の和を用いて周期性を仮定したときの、同じ基本周波数で表わされる前記周期関数のグループのスパース化のためのスパース化項を用いて表わされた、上記(1)式で示される目的関数を最適化するように、基底スペクトルHと、アクティベーションU、周期性を表す変数α、βを推定する。
混合信号音源分離適用部256は、上記第1の実施の形態の分離信号音源分離適用部52と同様に、初期値設定部60、変数更新部62、補助変数更新部64、及び収束判定部66を含んで構成されている。
混合信号音源分離適用部256の初期値設定部60は、基底スペクトルHと、アクティベーションUと、周期性を表す変数α、βと、補助変数λとに初期値を設定する。
混合信号音源分離適用部256の変数更新部62は、観測時間周波数成分Yと、初期値設定部60により初期値が設定された、又は変数更新部62及び補助変数更新部64により前回更新された、基底スペクトルHと、アクティベーションUと、周期性を表す変数α、βと、補助変数λとに基づいて、上記(18)式、(19)式、(22)式、(23)式に従って、基底スペクトルHと、アクティベーションUと、周期性を表す変数α、βとを更新する。
混合信号音源分離適用部256の補助変数更新部64は、変数更新部62により更新された、基底スペクトルHと、アクティベーションUとに基づいて、上記(11)式に従って、補助変数λを更新する。
混合信号音源分離適用部256の収束判定部66は、予め定められた収束条件を満たすまで、変数更新部62における更新処理と、補助変数更新部64における更新処理とを繰り返させる。
<本発明の第2の実施の形態に係る音源分離装置の作用>
次に、本発明の第2の実施の形態に係る音源分離装置200の作用について説明する。まず、入力部10において、混合信号の時系列データを受け付け、混合信号記憶部24に記憶する。そして、音源分離装置200は、図9に示す音源分離処理ルーチンを実行する。なお、第1の実施の形態と同様の処理については、同一符号を付して詳細な説明を省略する。
まず、ステップS102では、混合信号記憶部24に記憶されている混合信号の時系列データに基づいて、観測時間周波数成分Yに変換する。
そして、ステップS210において、ステップS102において取得した観測時間周波数成分Yに基づいて、基底スペクトルH、アクティベーションU、周期性を表す変数α、βを推定する。
ステップS210では、上述したように、基底スペクトルH、アクティベーションU、及び周期性を表す変数α、βの更新と、補助変数λの更新とを繰り返すことにより、基底スペクトルH、アクティベーションU、周期性を表す変数α、βが推定される。
そして、ステップS112では、上記ステップS102において取得した観測時間周波数成分Yと、上記ステップS210で推定された基底スペクトルH、及びアクティベーションUとに基づいて、音源iの各々の分離信号の複素スペクトログラム^si ω,tを計算する。
次のステップS114では、上記ステップS112で計算された音源iの各々の分離信号の複素スペクトログラム^si ω,tに対して、逆フーリエ変換することにより、音源iの各々の分離信号を作成する。
ステップS116では、上記ステップS114で作成された音源iの各々の分離信号を描画した結果を、出力部90により出力する。
ステップS118では、上記ステップS114作成された音源iの各々の分離信号を再生して、出力部90により出力し、音源分離処理ルーチンを終了する。
なお、第2の実施の形態に係る音源分離装置200の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。
このように、第2の実施の形態に係る音源分離装置によれば、周期的リズムが含まれる楽曲に対する、教師なしの音源分離性能の向上が期待される。
<実施例>
第1、第2の実施の形態における音源分離装置100、200による教師なし音源分離、教師あり音源分離の実施例をそれぞれ示す。周波数Pmの定義としては式(5)のものを用い、M=20とした。音楽データセットとしては、SiSEC2015(https://sisec.inria.fr/professionally-produced-music-recordings/)で”Professionally-produced music recordings (MUS) ”として公開されている”The Mixing Secret Dataset 100 (MSD100) ” を用いた。
データセットは異なるジャンルを含む100 のヴォーカル付き楽曲で構成されている。混合信号に加え、歌手または楽器毎に分離された分離信号も公開されている。
実験データとして、下記の3楽曲のデータを選出した。
・ musicA - ”AM Contra - Heart Peripheral (Electronic Dance Pop) ”
・ musicB - ”Actions - Devil's Words (Power Pop) ”
・ musicC - ”Actions - South of the Water (Power Pop) ”
上記の3 楽曲の分離信号は、全てベース、ドラム、その他の楽器、ヴォーカルの4 トラックに分離されていた。
本実験では、musicA1、musicA2、musicB、musicC として、それぞれ上記楽曲の一部を抽出した。抽出区間は、順番に1:50-2:00, 0:50-0:60, 1:47-1:57, 1:07-1:17 である。各抽出区間は、大きな旋律の変化を避けて、人手で決定した。音楽データはモノラルでサンプリング周波数は22.050kHz とした。短時間フーリエ変換におけるフレーム長は32ms として、フレームシフト長は16ms とした。
NPCAにおけるH,Uの初期値には、通常のNMFによる分解結果を使用した。
NMF におけるH,Uの初期値には乱数を使用した。正則化パラメータw1、w2はともに0.2 とし、p = 1.0 とした。
まず、教師なし音源分離において、提案手法NPCA が分離信号を使用することなく周期的に発生する楽音を抽出できることを検証する。図10はmusicA1 に対するアクティベーションUk,t の推定結果を示す。基底数Kは24とした。図10中下部の太枠内の12 個の基底にのみ、周期性制約を適用した。以下、この基底を周期基底と呼ぶ。α、β の推定は、周期基底のみで行った。図10中で各基底のアクティベーションの左に付けられた楽器ラベルは、分離信号を人手で聴いて付加した。周期的に発音される音と、非周期的に発音される音を分離して、主に周期基底において周期的に発音される音が抽出されていることが確認できる。周期的なリズムが想定されるドラムやベースの音は主に周期基底に、ランダムなリズムが想定されるボーカルは主にそれ以外の基底に割り当てられている。その他の楽器についても周期成分と非周期成分がそれぞれ周期基底、それ以外の基底に分類されていることが分かる。
図11に、同じデータに対して通常のNMF を適用した場合の結果を示す。多くの基底のアクティベーションが、ドラムやベースの周期的なリズムに影響され、周期的でないその他の楽器などにおいても、ドラムやベースのリズムに該当するアクティベーションの微小な増加がみられる。アクティベーションの左側に示された楽器ラベルにおいても、多くの基底がベース(11 基底)とドラム(8 基底)に割り当てられており、ヴォーカルは部分的に1 基底に抽出されているのみである。これに対して、提案手法NPCA では、周期成分と非周期成分が分離され、4 基底でヴォーカルの大部分を表現できており、分離性能もNMFと比べて向上していることが確認できた。実験を通して、提案モデルが周期的にアクティベートされる基底を限られた基底数の中にまとめて扱うことができることが示され、この特長は精度と分離信号の解釈性とのトレードオフを解決するのに有効であることが示唆される。加えて、提案モデルを使用すれば、例えば、上記図2のような形でα とβ の値を参照することにより、各基底にどのような周期と位相を持つ周期性が推定されたのかを把握することもできる。このようなリズム構造の把握は、自動採譜や楽曲理解のための分析において重要である。
続いて、教師あり音源分離においてNPCAの性能を通常のNMFと比較する。
ここで、NPCA・NMF ともに全ての楽器iに対して基底数Ki= 6 とした。したがって、NPCAにおける、4楽器による混合信号の分離時の基底数Kは24となる。
定量的に分離性能の比較を行うために、signal-to-noise ratio (SNR) を評価指標として用いる。SNR は
で定義される。ここで、si ω,t は入力された楽器i の分離信号の複素スペクトログラムを、^ si ω,tは式(24) でWinnerfilter により得られる分離信号の複素スペクトログラムを示す。SNR が高いほど、分解性能が高いことを示す。以下、本実施例では、SNR improvement、すなわちSNR とSNR-all の差を評価のために用いる。SNR-all は^si ω,tの代わりに混合信号の複素スペクトログラムを用いて算出したSNR の値である。表1 はNMF とNPCA による音源分離結果から算出したSNR improvement の値の一覧である。
結果から、特にベースやドラムなどの周期性が想定される楽器における分離性能の向上が確認できる。musicC においては、ヴォーカルパートにおいてもSNR improvement の値が向上している。実際、musicC のヴォーカルの旋律は抽出した10 秒間で2 回繰り返されており、提案法が多くの周期的なリズムを奏でる楽器に対して分離性能を向上できることが分かる。楽器によってはSNR improvement の値が低下している場合があるものの、周期性という強い制約を与えているにも限らずtotal のSNR improvement の値がNMF よりも増加していることが確認でき、教師あり音源分離の枠組みにおいても提案手法が音源分離性能を向上できることが示せた。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上記の実施の形態においては、目的関数のスパース化項として、gruop sparsityを誘導するための項を用いる場合を例に説明したが、これに限定されるものではなく、目的関数のスパース化項として、各基底kのパワーUk.tに対して、複数の基本周波数の各々の倍音で表わされる各周期関数の和を用いて周期性を仮定したときの、周期関数のスパース化のためのスパース化項を用いてもよい。具体的には、目的関数に含まれるL(α, β)として、上記(9)式で表わされるsparsityを誘導するための項を用いてもよい。
また、フーリエ変換を用いて、観測時間周波数成分を求める場合を例に説明したが、これに限定されるものではなく、ウェーブレット変換を用いて、時間周波数展開を行って、観測時間周波数成分を求めるようにしてもよい。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。
10 入力部
20、220 演算部
22 分離信号記憶部
24 混合信号記憶部
26 分離信号入力受付部
30 混合信号入力受付部
28 分離信号時間周波数変換部
32 混合信号時間周波数変換部
34 教師あり音源分離適用部
36 Winnerfilter適用部
38 IFFT適用部
40 分離信号描画部
42 分離信号再生部
50、250 入力受付部
52 分離信号音源分離適用部
54 基底スペクトル統合部
56、256 混合信号音源分離適用部
58 結果出力部
60 初期値設定部
62 変数更新部
64 補助変数更新部
66 収束判定部
90 出力部
100、200 音源分離装置
234 教師なし音源分離適用部

Claims (9)

  1. 複数の音源からの音源信号が混合された混合信号の時系列データを入力として、各時刻tにおける各周波数ωの観測時間周波数成分Yω,tを表す観測時間周波数成分Yを出力する混合信号時間周波数変換部と、
    前記観測時間周波数成分Yに基づいて、各基底kの、各周波数ωにおけるパワースペクトルHω,kを表す基底スペクトルHと、各基底kの、各時刻tにおけるパワーUk,tを表すアクティベーションUとの積Xと、前記観測時間周波数成分Yとの誤差、及び前記アクティベーションUと、各基底kのパワーUk,tに周期性を仮定して表現されるアクティベーションUとの誤差を用いて表わされた目的関数を最適化するように、前記基底スペクトルHと、前記アクティベーションUを推定する教師なし音源分離適用部と、
    を含む音源分離装置。
  2. 複数の音源iの各々に対して、前記音源iからの音源信号の時系列データを入力として、各時刻tにおける各周波数ωの観測時間周波数成分Si ω,tを表す観測時間周波数成分Siを出力する分離信号時間周波数変換部と、
    前記複数の音源iの各々に対して、前記観測時間周波数成分Siに基づいて、各基底kiの、各周波数ωにおけるパワースペクトルHi ω,kを表す基底スペクトルHiと、各基底kiの、各時刻tにおけるパワーUi k,tを表すアクティベーションUiとの積Xiと、前記観測時間周波数成分Siとの誤差、及び各基底kiのパワーUi k,tに周期性を仮定したときの、前記アクティベーションUiとの誤差を用いて表わされた目的関数を最適化するように、前記基底スペクトルHiと、前記アクティベーションUiを推定する分離信号音源分離適用部と、
    前記複数の音源iの各々に対して推定された前記基底スペクトルHiを統合して、各基底kの、各周波数ωにおけるパワースペクトルHω,kを表す基底スペクトルHを生成する基底スペクトル統合部と、
    複数の音源からの音源信号が混合された混合信号の時系列データを入力として、各時刻tにおける各周波数ωの観測時間周波数成分Yω,tを表す観測時間周波数成分Yを出力する混合信号時間周波数変換部と、
    前記観測時間周波数成分Yに基づいて、前記基底スペクトル統合部によって生成された前記基底スペクトルHと、各基底kの、各時刻tにおけるパワーUk.tを表すアクティベーションUとの積Xと、観測時間周波数成分Yとの誤差、及び前記アクティベーションUと、各基底kのパワーUk,tに周期性を仮定して表現されるアクティベーションUとの誤差を用いて表わされた目的関数を最適化するように、前記アクティベーションUを推定する混合信号音源分離適用部と、
    を含む音源分離装置。
  3. 前記目的関数は、各基底kのパワーUk,tに対して、複数の基本周波数の各々の倍音で表わされる各周期関数の和を用いて周期性を仮定したときの、前記周期関数のスパース化のためのスパース化項を更に含む請求項1又は2記載の音源分離装置。
  4. 前記目的関数に含まれる前記スパース化項は、各基底kのパワーUk,tに対して、複数の基本周波数の各々の倍音で表わされる各周期関数の和を用いて周期性を仮定したときの、同じ基本周波数で表わされる前記周期関数のグループのスパース化のためのものである請求項3記載の音源分離装置。
  5. 混合信号時間周波数変換部及び教師なし音源分離適用部を含む音源分離装置における音源分離方法であって、
    前記混合信号時間周波数変換部が、複数の音源からの音源信号が混合された混合信号の時系列データを入力として、各時刻tにおける各周波数ωの観測時間周波数成分Yω,tを表す観測時間周波数成分Yを出力し、
    前記教師なし音源分離適用部が、前記観測時間周波数成分Yに基づいて、各基底kの、各周波数ωにおけるパワースペクトルHω,kを表す基底スペクトルHと、各基底kの、各時刻tにおけるパワーUk,tを表すアクティベーションUとの積Xと、前記観測時間周波数成分Yとの誤差、及び前記アクティベーションUと、各基底kのパワーUk,tに周期性を仮定して表現されるアクティベーションUとの誤差を用いて表わされた目的関数を最適化するように、前記基底スペクトルHと、前記アクティベーションUを推定する
    音源分離方法。
  6. 分離信号時間周波数変換部、分離信号音源分離適用部、基底スペクトル統合部、混合信号時間周波数変換部、及び混合信号音源分離適用部を含む音源分離装置における音源分離方法であって、
    前記分離信号時間周波数変換部が、複数の音源iの各々に対して、前記音源iからの音源信号の時系列データを入力として、各時刻tにおける各周波数ωの観測時間周波数成分Si ω,tを表す観測時間周波数成分Siを出力し、
    前記分離信号音源分離適用部が、前記複数の音源iの各々に対して、前記観測時間周波数成分Siに基づいて、各基底kiの、各周波数ωにおけるパワースペクトルHi ω,kを表す基底スペクトルHiと、各基底kiの、各時刻tにおけるパワーUi k,tを表すアクティベーションUiとの積Xiと、前記観測時間周波数成分Siとの誤差、及び各基底kiのパワーUi k,tに周期性を仮定したときの、前記アクティベーションUiとの誤差を用いて表わされた目的関数を最適化するように、前記基底スペクトルHiと、前記アクティベーションUiを推定し、
    前記基底スペクトル統合部が、前記複数の音源iの各々に対して推定された前記基底スペクトルHiを統合して、各基底kの、各周波数ωにおけるパワースペクトルHω,kを表す基底スペクトルHを生成し、
    前記混合信号時間周波数変換部が、複数の音源からの音源信号が混合された混合信号の時系列データを入力として、各時刻tにおける各周波数ωの観測時間周波数成分Yω,tを表す観測時間周波数成分Yを出力し、
    前記混合信号音源分離適用部が、前記観測時間周波数成分Yに基づいて、前記基底スペクトル統合部によって生成された前記基底スペクトルHと、各基底kの、各時刻tにおけるパワーUk,tを表すアクティベーションUとの積Xと、観測時間周波数成分Yとの誤差、及び前記アクティベーションUと、各基底kのパワーUk,tに周期性を仮定して表現されるアクティベーションUとの誤差を用いて表わされた目的関数を最適化するように、前記アクティベーションUを推定する
    音源分離方法。
  7. 前記目的関数は、各基底kのパワーUk,tに対して、複数の基本周波数の各々の倍音で表わされる各周期関数の和を用いて周期性を仮定したときの、前記周期関数のスパース化のためのスパース化項を更に含む請求項5又は6記載の音源分離方法。
  8. 前記目的関数に含まれる前記スパース化項は、各基底kのパワーUk,tに対して、複数の基本周波数の各々の倍音で表わされる各周期関数の和を用いて周期性を仮定したときの、同じ基本周波数で表わされる前記周期関数のグループのスパース化のためのものである請求項7記載の音源分離方法。
  9. コンピュータを、請求項1〜請求項4の何れか1項記載の音源分離装置を構成する各部として機能させるためのプログラム。
JP2016014692A 2016-01-28 2016-01-28 音源分離装置、方法、及びプログラム Active JP6535611B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016014692A JP6535611B2 (ja) 2016-01-28 2016-01-28 音源分離装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016014692A JP6535611B2 (ja) 2016-01-28 2016-01-28 音源分離装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2017134284A JP2017134284A (ja) 2017-08-03
JP6535611B2 true JP6535611B2 (ja) 2019-06-26

Family

ID=59504289

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016014692A Active JP6535611B2 (ja) 2016-01-28 2016-01-28 音源分離装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6535611B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110491412B (zh) * 2019-08-23 2022-02-25 北京市商汤科技开发有限公司 声音分离方法和装置、电子设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009039897A1 (en) * 2007-09-26 2009-04-02 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V. Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program
JP5188319B2 (ja) * 2008-08-13 2013-04-24 日本電信電話株式会社 信号解析装置、信号解析方法、プログラム及び記録媒体
JP6482173B2 (ja) * 2014-01-20 2019-03-13 キヤノン株式会社 音響信号処理装置およびその方法

Also Published As

Publication number Publication date
JP2017134284A (ja) 2017-08-03

Similar Documents

Publication Publication Date Title
Jaiswal et al. Clustering NMF basis functions using shifted NMF for monaural sound source separation
Fuentes et al. Harmonic adaptive latent component analysis of audio and application to music transcription
Chien et al. Bayesian factorization and learning for monaural source separation
Cogliati et al. Piano music transcription with fast convolutional sparse coding
Benetos Automatic transcription of polyphonic music exploiting temporal evolution
JP5580585B2 (ja) 信号分析装置、信号分析方法及び信号分析プログラム
Laroche et al. Drum extraction in single channel audio signals using multi-layer non negative matrix factor deconvolution
Nakano et al. Nonnegative matrix factorization with Markov-chained bases for modeling time-varying patterns in music spectrograms
Şimşekli et al. Score guided audio restoration via generalised coupled tensor factorisation
JP6535611B2 (ja) 音源分離装置、方法、及びプログラム
Liao et al. Monaural source separation using Ramanujan subspace dictionaries
Kronvall et al. Sparse chroma estimation for harmonic audio
Park et al. Separation of instrument sounds using non-negative matrix factorization with spectral envelope constraints
JP2012027196A (ja) 信号分析装置、方法、及びプログラム
JP2009204808A (ja) 音響特徴抽出方法及び、その装置、そのプログラム、そのプログラムを記録した記録媒体
Nakamura et al. Harmonic-temporal factor decomposition for unsupervised monaural separation of harmonic sounds
Laroche et al. Hybrid projective nonnegative matrix factorization with drum dictionaries for harmonic/percussive source separation
Benetos et al. Multiple-F0 estimation and note tracking for Mirex 2015 using a sound state-based spectrogram factorization model
Hayashi et al. Non-negative periodic component analysis for music source separation
de Andrade Scatolini et al. Multipitch estimation using a PLCA-based model: Impact of partial user annotation
Kameoka et al. Nonnegative matrix factorization with basis clustering using cepstral distance regularization
Lee et al. Automatic transcription of piano music by sparse representation of magnitude spectra
Sharma Musical instrument sound signal separation from mixture using DWT and Fast ICA based algorithm in noisy environment
Hennequin et al. Scale-invariant probabilistic latent component analysis
O'Hanlon et al. Improved template based chord recognition using the CRP feature

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180219

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190129

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190313

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190528

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190603

R150 Certificate of patent or registration of utility model

Ref document number: 6535611

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150