JP7245669B2 - 音源分離装置、音源分離方法、およびプログラム - Google Patents

音源分離装置、音源分離方法、およびプログラム Download PDF

Info

Publication number
JP7245669B2
JP7245669B2 JP2019034713A JP2019034713A JP7245669B2 JP 7245669 B2 JP7245669 B2 JP 7245669B2 JP 2019034713 A JP2019034713 A JP 2019034713A JP 2019034713 A JP2019034713 A JP 2019034713A JP 7245669 B2 JP7245669 B2 JP 7245669B2
Authority
JP
Japan
Prior art keywords
sound source
binary mask
onset
source separation
acoustic signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019034713A
Other languages
English (en)
Other versions
JP2020140041A (ja
Inventor
一博 中臺
湧太 日下
克寿 糸山
健次 西田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2019034713A priority Critical patent/JP7245669B2/ja
Priority to US16/790,278 priority patent/US10839823B2/en
Publication of JP2020140041A publication Critical patent/JP2020140041A/ja
Application granted granted Critical
Publication of JP7245669B2 publication Critical patent/JP7245669B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Auxiliary Devices For Music (AREA)

Description

本発明は、音源分離装置、音源分離方法、およびプログラムに関する。
図24のように1本のマイクロホン(符号g902)で収録したモノラルの音響信号(符号g903)の中に含まれる音源を分離する手法として非負値行列因子分解(Non-negative Matrix Factorization;NMF)が研究されている。図24は、1本のマイクで収録した音響信号の例を示す図である。図24に示す例では、収録された音響信号に3種類の楽器(符号g901)の音響信号が混じっている。
このNMFの手法は、図25のように入力された音響信号(符号g911)からスペクトログラム(符号g912、g913)を生成し、生成したスペクトログラムを基底スペクトル(符号g914、音色パターン)とアクティベーション(符号g915基底スペクトルの大きさとタイミング)に分解することにより、音響信号の中の音源(例えば、どの楽器が鳴っているか)を分離するものである。図25は、NMFの概略を示す図である。なお、符号g914が示す領域において、横軸は振幅であり、縦軸は周波数である。符号g915が示す領域において、横軸は時間であり、縦軸は振幅である。ここで、基底スペクトルとは,混合音の振幅スペクトルに含まれる各楽器の音色のスペクトルパターンを表す。また、アクティベーションとは、基底スペクトルの振幅の時間変化、つまり各楽器の音色の出現タイミングと大きさを表す。NMFでは、図25のように、振幅スペクトルXは、基底スペクトルWとアクティベーションHの積で近似される(X≒WH)。
NMFを用いた音源分離手法として、罰則条件付き教師ありNMFが提案されている(例えば特許文献1参照)。特許文献1に記載の技術では、記憶装置が、第1音源の音響の各成分の振幅スペクトルを示すK個の基底ベクトルを含む非負の基底行列Fを記憶する。また、特許文献1に記載の技術では、行列分解部が、基底行列Fを利用した非負値行列因子分解で第1音源の音響と第2音源の音響との混合音を示す音響信号SA(t)の振幅スペクトログラムを示す観測行列Yから、基底行列Fの各基底ベクトルに対する加重値の時間変化を示すK個の係数ベクトルを含む係数行列Gと、第2音源の音響の各成分の振幅スペクトルを示すD個の基底ベクトルを含む基底行列hと、基底行列hの各基底ベクトルに対する加重値の時間変化を示すD個の係数ベクトルを含む係数行列Uを生成し、音響生成部は、基底行列Fと係数行列Gとに応じた音響信号SB(t)および基底行列hと係数行列Uとに応じた音響信号SB(t)の少なくとも一方を生成する。
特開2013-33196号公報
しかしながら、特許文献1に記載の教師ありNMFでは、教師音を利用して目的の音源を分離することができるが、分離したい音源の音色と教師音に音色に差がある場合、分離精度が低下するという課題があった。
本発明は、上記の問題点に鑑みてなされたものであって、複数の音源の音が混合されたモノラル音源から音源を従来より精度良く分離することができる音源分離装置、音源分離方法、およびプログラムを提供することを目的とする。
(1)上記目的を達成するため、本発明の一態様に係る音源分離装置<1>は、音響信号から生成したスペクトログラムを非負値行列因子分解により基底スペクトルとアクティベーションに分解することで音響信号の中から特定の音源を分離する音源分離装置であって、複数の音源による混合音を含む前記音響信号を取得する信号取得部<11>と、前記複数の音源のうち少なくとも1つの音源に対する立ち上がりのタイミングを示す立ち上がり情報を取得する立ち上がり情報取得部<12>と、前記立ち上がり情報に基づいて、前記アクティベーションHに対してマルコフ連鎖によって前記音源の存在を0と1の変数で制御するバイナリマスクSを設定し、設定した前記バイナリマスクSを用いて前記音響信号から生成したスペクトログラムXを非負値行列因子分解により前記基底スペクトルWと前記アクティベーションHに分解することで前記音響信号の中から特定の音源を分離する音源分離部<13>と、を備える。
(2)また、本発明の一態様に係る音源分離装置において、前記音源分離部は、前記立ち上がり情報を、非負値行列因子分解の確率モデルに含めず、前記基底スペクトルWと前記アクティベーションHと前記バイナリマスクSそれぞれの推定を行うギブスサンプリングにおいて、前記立ち上がり情報に基づくオンセットIを前記バイナリマスクSの推定を補助する形で間接的に利用するようにしてもよい。
(3)また、本発明の一態様に係る音源分離装置において、前記音源分離部は、ギブスサンプリングを用いて前記基底スペクトルWと前記アクティベーションHと前記バイナリマスクSそれぞれの期待値を推定することで、前記基底スペクトルWと前記アクティベーションHと前記バイナリマスクSそれぞれを推定するようにしてもよい。
(4)また、本発明の一態様に係る音源分離装置において、前記音源分離部は、前記基底スペクトルWと前記アクティベーションHと前記バイナリマスクSそれぞれを初期化した後、以下の各式に対してギブスサンプリングを用いて、前記基底スペクトルWと前記アクティベーションHと前記バイナリマスクSそれぞれの期待値を推定し、
Figure 0007245669000001
Figure 0007245669000002
Figure 0007245669000003
上記各式において、Z (i+1) は、i+1番目のステップにおける補助変数であるようにしてもよい。
(5)上記目的を達成するため、本発明の一態様に係る音源分離方法は、音響信号から生成したスペクトログラムを非負値行列因子分解により基底スペクトルとアクティベーションに分解することで音響信号の中から特定の音源を分離する音源分離装置における音源分離方法であって、信号取得部が、複数の音源による混合音を含む前記音響信号を取得する信号取得手順と、立ち上がり情報取得部が、前記複数の音源のうち少なくとも1つの音源に対する立ち上がりのタイミングを示す立ち上がり情報を取得する立ち上がり情報取得手順と、音源分離部が、前記立ち上がり情報に基づいて、前記アクティベーションHに対してマルコフ連鎖によって前記音源の存在を0と1の変数で制御するバイナリマスクSを設定し、設定した前記バイナリマスクSを用いて前記音響信号から生成したスペクトログラムXを非負値行列因子分解により前記基底スペクトルWと前記アクティベーションHに分解することで前記音響信号の中から特定の音源を分離する音源分離手順と、を含む。
(6)上記目的を達成するため、本発明の一態様に係るプログラムは、音響信号から生成したスペクトログラムを非負値行列因子分解により基底スペクトルとアクティベーションに分解することで音響信号の中から特定の音源を分離する音源分離装置におけるコンピュータに、複数の音源による混合音を含む前記音響信号を取得する信号取得手順と、前記複数の音源のうち少なくとも1つの音源に対する立ち上がりのタイミングを示す立ち上がり情報を取得する立ち上がり情報取得手順と、前記立ち上がり情報に基づいて、前記アクティベーションHに対してマルコフ連鎖によって前記音源の存在を0と1の変数で制御するバイナリマスクSを設定し、設定した前記バイナリマスクSを用いて前記音響信号から生成したスペクトログラムXを非負値行列因子分解により前記基底スペクトルWと前記アクティベーションHに分解することで前記音響信号の中から特定の音源を分離する音源分離手順と、を実行させる。
上述した(1)~(6)によれば、複数の音源の音が混合されたモノラル音源から音源を従来より精度良く分離することができる。また、上述した(1)~(6)によれば、例えば利用者が前処理として分離したい信号の一部について、目的音源が現れる箇所にマークをつける作業を行うだけで、マークを付けた音源を分離抽出することができる。また、上述した(1)~(6)によれば、教師音源が不要で利用者の負荷が小さいという利点がある。
実施形態に係る音源分離装置の構成例を示すブロック図である。 実施形態に係る音源分離装置が行う処理の概要を示す図である。 アクティベーションとバイナリマスクを示す図である。 バイナリマスクの例を示す図である。 バイナリマスクの生成方法を示す図である。 オンセットの例を示す図である。 オンセットとバイナリマスクの関係を説明するための図である。 オンセット行列を説明するための図である。 オンセットとアクティベーションの関係を説明するための図である。 W,H,Sをギブスサンプリングによって求めるアルゴリズムを示す図である。 実施形態のモデルをグラフィカルモデルで表した図である。 本実施形態の音源分離装置の音源分離処理のフローチャートである。 評価に用いた音源の波形データを示す図である。 立ち上がり情報に基づいて生成したオンセットの例を示す図である。 オンセットを用いない場合の基底スペクトル、バイナリマスク、アクティベーションとバイナリマスクの要素積の期待値を示す図である。 オンセットを用いた場合の基底スペクトル、バイナリマスク、バイナリマスクを用いて分離したアクティベーションを示す図である。 メロディのみを入力して事前学習した基底スペクトルを示す図である。 メロディのみを入力して事前学習したアクティベーションのヒートマップを示す図である。 メロディのみを入力して事前学習したバイナリマスクのヒートマップを示す図である。 事前学習させた正解データのアクティベーションとバイナリマスクの要素積のヒートマップを示す図である。 オンセット無しの場合のアクティベーションとバイナリマスクの要素積のヒートマップを示す図である。 オンセットありの場合のアクティベーションとバイナリマスクの要素積のヒートマップを示す図である。 オンセット無し、先頭の音のみにオンセットあり、全ての音にオンセットありそれぞれの相関係数の箱ひげ図である。 1本のマイクで収録した音響信号の例を示す図である。 NMFの概略を示す図である。
以下、本発明の実施の形態について図面を参照しながら説明する。
図1は、本実施形態に係る音源分離装置1の構成例を示すブロック図である。図1に示すように、音源分離装置1は、信号取得部11、立ち上がり取得部12、音源分離部13、記憶部14、および出力部15を備える。
また、音源分離部13は、短時間フーリエ変換部131、オンセット生成部132、バイナリマスク生成部133、NMF部134、および逆短時間フーリエ変換部135を備える。
また、音源分離装置1には、無線または有線で操作部2が接続されている。
音源分離装置1は、利用者が入力した立ち上がり情報を用いて、取得した音響信号に含まれている音源を分離する。
操作部2は、利用者が操作した操作結果を検出する。操作結果には、音響信号に含まれている各音源の立ち上がりのタイミングを示す立ち上がり情報が含まれている。操作部2は、立ち上がり情報を音源分離装置1に出力する。
信号取得部11は、音響信号を取得し、取得した音響信号を音源分離部13に出力する。
立ち上がり取得部12は、操作部2から立ち上がり情報を取得し、取得した立ち上がり情報を音源分離部13に出力する。
音源分離部13は、取得された音響信号に対して、取得された立ち上がり情報を用いて音源を分離する。
短時間フーリエ変換部131は、信号取得部11が出力する音響信号に対して短時間フーリエ変換(Short-Time Fourier Transform;STFT)を行って、時間領域から周波数領域に変換してスペクトログラムを生成する。
オンセット生成部132は、取得された立ち上がり情報に基づいてオンセット行列Iを生成する。なお、オンセット、オンセット行列Iの生成方法については後述する。
バイナリマスク生成部133は、バイナリマスクSを生成する。なお、バイナリマスクS、バイナリマスクSの生成方法については後述する。
NMF部134は、非負値行列因子分解にバイナリマスクとオンセットを導入したモデルを用いて、取得された音響信号のスペクトログラムを、基底スペクトルWとアクティベーションHに分離する。具体的には、NMF部134は、バイナリマスクSとオンセット行列Iを用いて、取得された音響信号のスペクトログラムを、記憶部14が記憶するモデルを用いて基底スペクトルWとアクティベーションHに分離することで、音源を分離する。
逆短時間フーリエ変換部135は、分離された基底スペクトルに対して逆短時間フーリエ変換を行うことで、分離した音源の波形データを生成する。逆短時間フーリエ変換部135は、分離した結果の音源情報(波形データ等)を出力部15に出力する。
記憶部14は、非負値行列因子分解にバイナリマスクとオンセットを導入したモデルを記憶する。
出力部15は、音源分離部13が出力する音源情報を外部装置(例えば、表示装置、音声認識装置等)に出力する。
<非負値行列因子分解>
まず、非負値行列因子分解(Non-negative Matrix Factorization;NMF)の概要を、図25を参照しながら説明する。非負値行列因子分解とは、非負値行列を2つの非負値行列に分解するアルゴリズムである。なお、非負値行列とは、すべての成分がゼロ以上であるような行列である。音源分離処理における非負値行列因子分解では、例えば複数の楽器の音で構成されるモノラルの混合音g911に対して、短時間フーリエ変換を行って得られるスペクトログラム(振幅スペクトル)X(∈R F×T、g913)を入力とする。なお、f=1,2,…,Fは振幅スペクトルの周波数ビンであり、t=1,2,…,Tは時間フレームである。なお、Rは非負の実数の全体を表す集合である。非負値行列因子分解では、スペクトログラム(振幅スペクトル)を、次式(1)のように2つの非負値行列W(g914)、H(g915)に近似分解する。
Figure 0007245669000004
W(∈R F×K)は基底スペクトルであり、混合音の振幅スペクトルに含まれる各楽器の音色のスペクトルパターンを表している。基底スペクトルは、列方向に振幅スペクトルを構成する支配的なスペクトルの基底が並んだ形をしている。また、H(∈R K×T)はアクティベーションであり、基底スペクトルの振幅の時間変化、つまり各楽器の音色の出現タイミングと大きさを表している。アクティベーションは、行方向に基底スペクトルの各要素のゲインが並んだ形をしている。なお、k=1,2,…,Kは基底を表し、基底数Kは振幅スペクトルを構成する音色の数と考えることができる。ただし、非負値行列因子分解ではKを推定することができないため、事前に適当な値を与える。
なお、非負値行列因子分解では、式(1)のようにスペクトログラム(振幅スペクトル)Xを2つの行列の積WHに近似を行うが、一般に2つの行列の間には誤差が発生する。このため、次式(2)のように、XとWHの「距離」をコスト関数とする最小化問題を解くことにより、WとHを求める。
Figure 0007245669000005
なお、式(2)においてD(X|WH)はコスト関数であり、行列の要素ごとに考えることで次式(3)のように表すことができる。
Figure 0007245669000006
式(3)において、d(x|y)はxとyとの距離を表す関数であり、例えばユークリッド距離やKL(Kullback-Leibler)ダイバージェンス、板倉齋藤距離などを用いる。
このようにして得られた各基底により構成される振幅スペクトルに対し,逆短時間フーリエ変換を行うことで、それぞれの基底の信号を復元することができる。なお、逆短時間フーリエ変換を行う際には振幅スペクトルだけではなく位相スペクトルも必要であるが、非負値行列因子分解では元の信号を短時間フーリエ変換したときに得られる位相スペクトルをそのまま使う。
しかしながら、複数の楽器による音響信号では、それぞれの楽器音が試行ごとにランダムな基底として出現するため、基底と楽器が一対一に対応しないという問題点が存在する。また、複数の楽器による音響信号では、必ずしも1つの楽器が1つの基底として出現するとは限らず、同じ楽器でも音の高さや音色が異なれば別の基底に別れて分離されるといった特徴もある。このため、本実施形態では、非負値行列因子分解にオンセット(楽器音の立ち上がり情報)を入力できるようにするために、アクティベーションの制御を行うバイナリマスクを導入する。
<ベータ過程NMF>
まず、バイナリマスクを導入したNMFであるベータ過程NMF(Beta Process Sparse NMF;BP-NMF)(参考文献1参照)について概略を説明する。
参考文献1;” Beta Process Non-negative Matrix Factorization with Stochastic Structured Mean-Field Variational Inference”, Dawen Liang, Matthew D Hoffman, arXiv, Vol. 1411.1804, 2014, p1-6
ベータ過程NMFは単にバイナリマスクを導入したのみではなく、同時に基底数の自動推定を行うことができるという特徴をもつ。これを実現するために、ベータ過程NMFではモデルを最小化問題として捉えるかわりに、各変数に事前分布を仮定し入力信号の振幅スペクトルが観測されたときの事後分布を推定するベイズ推論の問題として解釈を行う。
ベータ過程NMFでは,楽器音の存在を0/1変数で制御するバイナリマスクS(∈{0,1}K×T)を、アクティベーションと要素積をとる形で導入する。このとき非負値行列因子分解の式(1)に対応する振幅スペクトルの近似分解式は次式(4)のようになる。なお、式(4)において、丸の中に点の記号は、WとSの行列の要素毎の積を表す。
Figure 0007245669000007
ベータ過程NMFでは,式(4)の各変数に事前分布を与えることで、スペクトログラム(振幅スペクトル)X(∈N F×T、Nは非負の自然数)の生成モデルを構築する。ここで、Xの各要素が通常の非負値行列因子分解と異なり非負の実数となっているのは、Xの各要素が基底スペクトルWとアクティベーションHの和をパラメータとするポアソン分布に従って生成されるとモデル化を行うためである。
Figure 0007245669000008
また、WとHは、次式(6)と(7)のように、各要素がポアソン分布の共役事前分布であるガンマ分布に従って生成されるとする。
Figure 0007245669000009
Figure 0007245669000010
なお、a,b,c,dは、それぞれガンマ分布のハイパーパラメータである。ガンマ分布とは、次式(8)のような確率密度関数で表される確率分布である。
Figure 0007245669000011
式(8)において、x>0、α>0、β>0であり、Γ(・)はガンマ関数である。また、αは分布の形状を表すシェイプパラメータであり、βは分布の広がりを表すスケールパラメータの逆数(レートパラメータ)である。ガンマ分布は、シェイプパラメータの値が小さいときに確率変数が0に近い値をとりやすくなる。そのため、基底スペクトルとアクティベーションにスパース性を誘起するため、シェイプパラメータには小さな値を与えるようにする。
次にバイナリマスクに事前分布を導入する。なお、バイナリマスクとは、0か1の値によるハードマスクである。バイナリマスクSの各要素は0か1の値をとるため、各基底にπをパラメータとするベルヌーイ分布に従って次式(9)のように生成されるとする。
Figure 0007245669000012
さらに、次式(10)のようにπにベータ過程を事前分布として導入する。
Figure 0007245669000013
式(10)において、a、bはベータ過程のハイパーパラメータである。
このように、モデルを構成する各変数に事前分布を導入し、モデル全体を振幅スペクトルの確率的な生成モデルと解釈すると、振幅スペクトルが観測されたときに各変数の事後分布を求めることで、それぞれの値を求めることができる。事後分布はベイズの定理を用いて計算することができるが、一般に正規化項の影響などで解析的に計算することは困難であるため、例えば、変分ベイズ法や様々なサンプリングアルゴリズムを用いて近似的に期待値を計算する。
<バイナリマスクにオンセットを用いる非負値行列因子分解>
図2は、本実施形態に係る音源分離装置1が行う処理の概要を示す図である。図2において、符号g11、g12はスペクトログラムXであり、バイナリマスクS(g13、g14)と、オンセットI(g15、g16)が入力であり、基底スペクトルW(g17、g18)とアクティベーションH(g19、g20)が出力である。
本実施形態では、モノラルの音響信号の振幅スペクトルと分離対象である音源の立ち上がり時刻(オンセット)を入力として、オンセットが与えられた楽器音の振幅スペクトルを出力する。振幅スペクトルは、音響信号に対して短時間フーリエ変換を行って得る。楽器音のオンセットは、利用者が実際に楽曲を聴取しながら目的楽器の発音時刻に合わせて操作部を操作した立ち上がり情報を利用する。
音源分離部13は、分離音の振幅スペクトルと、それに応じた適切な位相スペクトルを用いて逆短時間フーリエ変換を行うことで分離音の音響信号を得る。なお、位相スペクトルは、混合音の位相スペクトルをそのまま用いてもよいし、振幅スペクトルから位相スペクトルを推定する周知の手法により得られるものを用いてもよい。
図3は、アクティベーションとバイナリマスクを示す図である。図3において、横軸は時間フレームであり、縦軸はアクティベーションの振幅とバイナリマスクの0と1を表す。図3にしめすように、ローレベルを0(OFF)、ハイレベルを1(ON)とする。また、符号g51はアクティベーションであり、符号g52はバイナリマスクである。
図4は、バイナリマスクの例を示す図である。図4において、横軸は時間フレーム、縦軸はバイナリマスクの0と1を表す。なお、K=1~3は、基底数Kであり、振幅スペクトルを構成する音色である。図2、図3に示すように、バイナリマスクは、音源毎に生成される。また、図2に示すように、オンセットは音源毎に生成される。
次に、バイナリマスクの生成方法を説明する。
図5は、バイナリマスクの生成方法を示す図である。符号g201は状態遷移図であり、符号g211はバイナリマスクである。なお、以下の説明では、収録される音源は楽器音である場合を説明する。
バイナリマスクは、楽器音が楽器の種類に応じたある程度の時間持続するという音楽的な過程に基づいて、各基底に対してマルコフ連鎖を用いてモデル化を行う。楽器音が生じており、アクティベーションが大きな値をとるとき、バイナリマスクの値は1 とな
る。これをバイナリマスクのON状態(gg203)とする。また、楽器音が生じておらず、アクティベーションが非常に小さな値をとるとき、バイナリマスクの値は0 となる。これをバイナリマスクのOFF状態(g202)とする。
バイナリマスクの各要素は1つ前の時間フレームのバイナリマスクの値に依存してこれら2つの状態を遷移するとする。このとき、OFF状態からON状態への遷移確率をA(∈(0,1)、g204)、ON状態からON状態への遷移確率をA(∈(0,1)、g206)とし、バイナリマスクの初期時間フレームの状態は初期確率φ(∈(0,1))によって状態が決定されるとする。符号g205はON状態からOFF状態への遷移確率1-Aであり、符号g207はOFF状態からOFF状態への遷移確率1-Aである。
バイナリマスクがON状態である、つまり楽器音が生じている状態では次の時間フレームも生じている確率Aが高く、楽器音が停止しOFF状態に遷移する確率1-Aは低いと考えられる。また、バイナリマスクがOFF状態、つまり楽器音が生じていない状態では次の時間フレームも生じていない確率1-Aが高く、楽器音が発生してON状態に遷移する確率Aは低いと考えられる。
このため、Aは大きい値を、Aが小さい値を事前に設定する。具体的には、A=0.99,A0=0.01とした。
このようなマルコフ連鎖を用いてモデル化を行ったバイナリマスクの各基底S(k=1,2,…,K)の同時確率は次式(11)のように表される。
Figure 0007245669000014
したがって、バイナリマスク全体の同時確率は次式(12)のように表される。
Figure 0007245669000015
ここで、p(Skt|Skt-1)は、バイナリマスクの各基底の初期時間フレームt=2,3,…,Tの要素が従う確率分布である。バイナリマスクは、0か1の2値をとるため、初期確率φをパラメータとするベルヌーイ分布を用いて次式(13)のように表すことができる。
Figure 0007245669000016
また、p(Skt|Skt-1)はバイナリマスクの各基底の時間フレームt=2,3,…,Tの要素が従う確率分布であり、1つ前の時間フレームにおける値が0であればA,1であればAをパラメータとするベルヌーイ分布を用いて表すことができる。このため、p(Skt|Skt-1)は2つのベルヌーイ分布の積として次式(14)のように表される。
Figure 0007245669000017
<オンセットの説明>
次に、オンセットについて説明する。
図6は、オンセットの例を示す図である。図6において、横軸は時間フレームであり、縦軸はオンセットがある(1)ない(0)を表している。また、符号g301~g303それぞれは、音響信号に含まれているそれぞれの音源の立ち上がりに対応したオンセットである。
次に、オンセットとアクティベーションの関係、オンセットとバイナリマスクの関係を説明する。
図7は、オンセットとアクティベーションの関係を説明するための図である。図8は、オンセットとバイナリマスクの関係を説明するための図である。図7と図8において、横軸は時間フレーム、縦軸はアクティベーションの振幅またはバイナリマスクの状態である。また、図7と図8において、符号g51は、アクティベーションであり、符号g52はバイナリマスクであり、符号g53はオンセットである。
オンセットは、図7に示すように、アクティベーションが0に近い値から大きな値に変化することに対応する。このため,非負値行列因子分解に楽器のオンセットを入力するためには、アクティベーションの楽器の発音時刻に相当する時間フレームの要素に、適当な値を与えればよい。しかし、非負値行列因子分解の性質上この値は振幅スペクトルや基底スペクトルの対応する要素の値によって決定されるため、オンセットの大きさの情報を妥当な値で与えることは困難である。
このため、本実施形態では、オンセットの時間情報(発音時刻)のみを用いて分離を行うために,アクティベーションに楽器が発音している/いない(ON/OFF)を1/0の2値で表現するバイナリマスクを導入した。そして,本実施形態では、オンセットをアクティベーションではなく、図7のようにバイナリマスクの0から1への変化とみなすことで入力とした。
本実施形態では、バイナリマスクを利用する上述したBP-NMFに基づいてモデルを構築する。振幅スペクトルの近似分解を式(4)と同様に定義し、振幅スペクトルと基底スペクトル,アクティベーションには式(5)~(7)のようにBP-NMFと同様の事前分布を導入する。
分離したい音が楽器音の場合、基底の数は分離したい楽器音の数に依存するため基底数の自動推定は不要である。このため、バイナリマスクの事前分布にはベータ過程ではなくより音楽的な構造を考慮し簡単に扱うことができるようにマルコフ連鎖を用いる。さらにオンセットを行列形式で表現し、バイナリマスクの事後分布の計算に補助的に用いることで、与えたオンセットに対応する楽器音を分離する。
次に、オンセット行列を説明する。
図9は、オンセット行列を説明するための図である。符号g251~g253は状態を示し、符号g261はオンセット行列を説明するための図である。符号g261において、横軸は時間フレーム、縦軸はオン(ON)状態とオフ(OFF)状態を表す。また、符号g262は開始フレームを示し、符号g263は持続フレームを表す。
ここで、オンセット行列Iは、次式(15)のように、大きさがバイナリマスクと同サイズであり、各要素が0か1の値をとる2値の行列とする。
Figure 0007245669000018
オンセット行列を作成する際は、まず初めにオンセットの開始フレームを決定する。本実施形態では、利用者によって開始フレームが与えるなどして既知のものとした。そして、図9に示すように開始フレームから一定フレームの間1が持続する形とした。この意味合いは、オンセットが与えられた楽器音が1フレームのみで終了せず、一定フレーム持続するという仮定に基づいている。なお、持続フレームの長さは事前に決める必要がある。
なお、このオンセット行列は、NMFの確率モデルには含めず、後述する各変数の推定を行うギブスサンプリングにおいてバイナリマスクの推定を補助する形で間接的に利用する。
<モデルのサンプリング>
本実施形態のモデル(NMFにバイナリマスクとオンセットを導入したモデル)に対し、スペクトログラム(振幅スペクトル)Xとオンセット行列Iが観測されたもとで、事後分布p(W,H,S|X)を推定する。この事後分布は、次式(16)によって求めることができるが、正規化項p(X)の計算が困難であるため直接求めることは難しい。
Figure 0007245669000019
このため、本実施形態では、事後分布そのものではなく、各確率変数の期待値の評価を行う。本実施形態では、ギブスサンプリングを用いて基底スペクトル、アクティベーション、バイナリマスクの期待値を求める。なお、ギブスサンプリングとは、サンプリング手法であるマルコフ連鎖モンテカルロ(MCMC)法の1つである。ギブスサンプリングでは、ステップごとに変数を1つずつ置き換えていくことでサンプル列を生成する。このとき、置き換える値は置き換える変数以外の値を固定した条件での対象の条件付き分布から抽出された値を用いる。例として確率分布p(z)=p(z,z,z)からzを、ギブスサンプリングを用いて期待値を求める方法を説明する。
まず、変数z,z,zを適当に初期化する。その後、i+1番目のステップにおいてz (i),z (i),z (i)の値を前ステップで得ているとしたとき、まずz を次式(17)の条件付き分布から抽出したz (i+1)で置き換える。
Figure 0007245669000020
次に、次式(18)のように、抽出したz (i+1)を用いてz (i+1)を抽出し、z (i)に置き換える。
Figure 0007245669000021
次に、次式(19)のように、抽出したz (i+1)を用いてz (i+1)を抽出し、z (i)に置き換える。
Figure 0007245669000022
これらの処理を繰り返すことで得られるサンプル列(z (i),z (i),z (i)),…,(z (N),z (N),z (N))に対して平均を取ることで確率変数の期待値を近似すえる。ただし、サンプル列の初期は変数の値が収束していないことがあるため、バーンインと呼ばれるサンプル列を破棄する期間をとる。また、ギブスサンプリングはマルコフ連鎖に基づく手法であるため、前後する変数の相関の影響をなくすために期待値計算には一定サンプルごとの値を使用する。
本実施形態のモデルにおいて、求めたい確率変数は基底スペクトルW、アクティベーションH、バイナリマスクSである。このため、条件付き分布の計算を簡単に行うために、次式(20)のうように補助変数Z∈NF×T×K(Nは自然数の集合)を導入する。
Figure 0007245669000023
補助変数Zの導入によって,スペクトログラム(振幅スペクトル)Xftは、次式(21)のようにZfkの各基底の和として表すことができる。
Figure 0007245669000024
補助変数Zの導入により、モデルでのギブスサンプリングの各変数のサンプリング式は次式(22)~(25)のようになる。
Figure 0007245669000025
Figure 0007245669000026
Figure 0007245669000027
Figure 0007245669000028
本実施形態では、図10のように、この4つのサンプリング式(22)~(24)を用いて各変数の値を繰り返し抽出し、サンプル列を形成することで期待値の近似計算を行う。図10は、W,H,Sをギブスサンプリングによって求めるアルゴリズムを示す図である。
サンプリング式の条件付き分布を導出する際に、モデル全体の同時確率p(X,Z,W,H,S)が必要となる。確率変数の依存関係を有向グラフとして表現する手法としてグラフィカルモデルがある。
グラフィカルモデルを用いるとモデルにおける変数の要素レベルの依存関係は図11のように表すことができる。
図11は、本実施形態のモデルをグラフィカルモデルで表した図である。図11において、符号g453のノードは観測された変数、符号g451とg452とg454とg455のノード未観測の変数を表す。条件付き分布p(x|y)で表される関係をyのノードからxのノードに向かう矢印を用いて表現している。また,ノードを囲う長方形のプレートはその角に書かれている文字(F、T、K)の回数だけ繰り返すことを表している。また、図11において、φは初期確率であり、AはOFF状態からON状態への遷移確率(図5)であり、AはON状態からON状態への遷移確率(図5)である。
したがって、モデル全体の同時確率は次式(26)のように分解された形で表すことができる。
Figure 0007245669000029
式(26)の各項はそれぞれの変数の事前分布を用いて表されるため、これを用いてサンプリング式の導出を行う。
補助変数Zをサンプリングする際は,基底k=1,2,…,Kに対して式(27)に従って得られるベクトルZftを用いてZを構成したものをサンプリング結果として使用する。
Figure 0007245669000030
なお、式(27)において、Mult(x|n,p)は、試行回数をn、各試行においてk=1,2,…,Kが出る確率をp=(p,p,…,p)としたとき,kが出た回数x=(x,x,…,x)が従う多項分布である。
また、Wは次式(28)に従ってサンプリングを行い、Hは次式(29)に従ってサンプリングを行う。
Figure 0007245669000031
Figure 0007245669000032
また、次式(30)のPと次式(31)のPを用いて,Sktは次式(32)のようなベルヌーイ分布から、時間フレームt=1から順番にサンプリングを行う。なお、PとPはそれぞれバイナリマスクの要素が1,0である尤度である。なお、Sのサンプリングを行う際に、対応するインデックスの値を1を固定することでサンプリングの補助を行う。
Figure 0007245669000033
Figure 0007245669000034
Figure 0007245669000035
なお、式(30)と式(31)において、記号¬は否定を表し、¬kは命題kが偽を表す。
<処理手順>
次に、本実施形態の音源分離装置1の音源分離手順を説明する。
図12は、本実施形態の音源分離装置1の音源分離処理のフローチャートである。
(ステップS1)信号取得部11は、音響信号を取得する。
(ステップS2)短時間フーリエ変換部131は、取得された音響信号に対して短時間フーリエ変換を行ってスペクトログラムを生成する。
(ステップS3)立ち上がり取得部12は、操作部2が出力する立ち上がり情報を取得する。
(ステップS4)オンセット生成部132は、立ち上がり情報に基づいてオンセット行列Iを生成する。
(ステップS5)NMF部134は、スペクトルWとアクティベーションHとバイナリマスクSそれぞれの推定を行うギブスサンプリングにおいて、オンセットIをバイナリマスクSの推定を補助する形で間接的に利用することで、スペクトルWとアクティベーションHとバイナリマスクSそれぞれの推定を行う。
(ステップS6)NMF部134は、推定したスペクトルWとアクティベーションHとバイナリマスクSを用いて、スペクトルWとアクティベーションHに分離することで音源を分離する。
<評価結果>
次に、本実施形態の音源分離装置1を評価した評価結果例を説明する。
まず、オンセットの有無について比較した結果を説明する。
評価では、図13に示すピアノの3音(ド(C4)、ミ(E4)、ソ(G4))からなるトイデータを音響信号に用いた。また、上記の混合音のうちド(C4)のみを分離して評価を行った。図13は、評価に用いた音源の波形データを示す図である。図13において、横軸は時間フレーム、縦軸は振幅を正規化した大きさである。また、図14は、立ち上がり情報に基づいて生成したオンセットの例を示す図である。図14において、横軸は時間フレームであり、縦軸はオン状態(1)とオフ状態(0)を表す。図14の示すように、分離する対象のド(C4)に対応するk=1のオンセット(g551)のみが生成され、符号g552のようにk=2に対するオンセットは生成されない。
図15は、オンセットを用いない場合の基底スペクトル、バイナリマスク、アクティベーションとバイナリマスクの要素積の期待値を示す図である。なお、図15では、混合音のうちk=1、k=2を示している。符号g601、g611およびg621は、k=1に対応する基底スペクトル、バイナリマスク、アクティベーションとバイナリマスクの要素積の期待値をプロットしたグラフである。また、符号g602、g612およびg622は、k=2に対応する基底スペクトル、バイナリマスク、アクティベーションとバイナリマスクの要素積の期待値をプロットしたグラフである。
図16は、オンセットを用いた場合の基底スペクトル、バイナリマスク、バイナリマスクを用いて分離したアクティベーションを示す図である。なお、図16でも、混合音のうちk=1、k=2を示している。符号g631、g641およびg651は、k=1に対応する基底スペクトル、バイナリマスク、バイナリマスクである。また、符号g632、g642およびg652は、k=2に対応する基底スペクトル、バイナリマスク、バイナリマスクである。また、符号g653は、オンセットである。
なお、図15と図16において、符号g601、g602、g631およびg632において横軸は周波数ビンであり、縦軸は振幅である。g611、g612、g621、g622、g641、g642、g651およびg652において、横軸は時間フレームである。g611、g612、g641、g642において、縦軸はバイナリマスクとオンセットがオン状態(1)とオフ状態(0)を表す。g621、g622、g651、g652において、縦軸はバイナリマスクとオンセットの振幅を表す。
図15に示したように、オンセットを与えなかった場合は、基底k=1にミとソの音が分離されており,k=2にドの音が分離されてしまっている。これはある1回のギブスサンプリングによる結果であるが、複数回サンプリングを行った結果を確認しても、それぞれの基底にランダムな音が分離される傾向がみられた。
図16に示したように、ドの先頭にオンセットを与えてサンプリングを行った場合は基底k=1にドの音が分離され、基底k=2にミとソの音が正しく分離されていることが確認できた。実際に分離された音を聴いて確認を行ったところ、基底k=1にドの音が分離されていた。
これもある1回のギブスサンプリングによる結果であるが、複数回サンプリングを行った結果を確認しても、全ての試行で基底k=1にのみドの音が分離されていた。なお、ドの音の全てにオンセットを与えてサンプリングを行った場合も、基底k=1にドの音が、基底k=2にミとソの音が正しく分離されていることが確認できた。
以上のように,本実施形態のように音の先頭のみにオンセットを与えた場合でも。頑健な分離が見込めることがわかった。
次に、ピアノの動作検証用音源よりも複雑な音楽データを入力として特定の楽器音としてメロディの分離を行い、その分離性能の評価を行った結果を説明する。
評価では、約10秒間の音響信号(サンプリングレート22020(Hz))を用いた。この音響信号に含まれる楽器はメロディ、ピアノ、ギター、ベースの4種類である。音響信号に対して、フレーム長さ512サンプル、シフト幅256サンプル、窓関数をハニング窓として短時間フーリエ変換を行って振幅スペクトルを作成した。
評価では、メロディのオンセットを与えてメロディのみの分離を行った、ハイパーパラメータをa=b=2、c=d=1、φ=0.01、A=0.99、A=0.01とした。また基底数Kはメロディの音高数7と、他の構成楽器数3の和である10とした。
図17は、メロディのみを入力して事前学習した基底スペクトルのヒートマップを示す図である。図17において、横軸は基底数kであり、縦軸は周波数ビンである。
図18は、メロディのみを入力して事前学習したアクティベーションのヒートマップを示す図である。図18において、横軸は時間フレームであり、縦軸は基底数kである。
図19は、メロディのみを入力して事前学習したバイナリマスクのヒートマップを示す図である。図19において、横軸は時間フレームであり、縦軸は基底数kである。
図20は、事前学習させた正解データのアクティベーションとバイナリマスクの要素積のヒートマップを示す図である。図20において、横軸は時間フレーム、縦軸は基底数kである。与えたオンセットに対応する楽器音が分離できていた場合、その基底の相関係数は1に近い値をとり、異なる基底を分離していた場合は0に近い値をとると考えられる。
図21は、オンセット無しの場合のアクティベーションとバイナリマスクの要素積のヒートマップを示す図である。図20において、横軸は時間フレーム、縦軸は基底数kである。なお、オンセットを与えない場合は基底のソートは行っていない。
正解データである図20と図21とを比較すると、オンセット無しの場合は適切に音源を分離できていない。
図22は、オンセットありの場合のアクティベーションとバイナリマスクの要素積のヒートマップを示す図である。図22において、横軸は時間フレーム、縦軸は基底数kである。
正解データである図20と図22とを比較すると、オンセットを与えた場合は目的の基底が分離できていることが確認できた。
図23は、オンセット無し(no onset)、先頭の音のみにオンセットあり(head)、全ての音にオンセットあり(all)それぞれの相関係数の箱ひげ図である。図23において、横軸は相関係数(correlation)、縦軸はオンセット無し(no onset)、先頭の音のみにオンセットあり(head)、全ての音にオンセットあり(all)である。なお、図23おいて、ひげは最小値と最大値を表し、箱の左端と右端は第一四分位点と第三四分位点を表し、箱中央の線は中央値を表している。
オンセットを与えなかった場合は、中央値が0に近い値をとっているため,基底と音高はうまく対応していないことが分かる。
オンセットを与えた場合は、基底の相関係数は1に近い値をとっているため、与えたオンセットに対応する楽器音が分離できている。
以上のように、本実施形態では、NMFにマルコフ連鎖に基づくバイナリマスク導入できることでオンセットを与えることができるようにした。そして、本実施形態では、利用者が入力したオンセットのタイミング(立ち上がり)を取得するようにした。
すなわち、本実施形態では、利用者が目的音源の発音タイミングをマークして、目的音源の存在に対応するバイナリマスクをマルコフ連鎖モデルに基づき推定し、このマスクを非負値行列因子分解(NMF)を確率モデルとして表現した枠組みに導入した。
これにより、本実施形態では、利用者が入力した立ち上がりタイミングを用いて目的の楽器音が分離できる。この結果、本実施形態によれば、複数の音源の音が混合されたモノラル音源から音源をオンセット無しの従来技術より精度良く分離することができる。
また、本実施形態によれば、ユーザが前処理として分離したい信号の一部について、目的音源が現れる箇所に操作部2を操作してマークをつける作業を行うだけで、マークを付けた音源を分離抽出することができる。また、本実施形態によれば、教師音源が不要でユーザ負荷が小さいという利点がある。
なお、上述した例では、音響信号に含まれる音源例として楽器を例に説明したが、音源はこれに限らない。
なお、本発明における音源分離装置1の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音源分離装置1が行う処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。
1…音源分離装置、11…信号取得部、12…立ち上がり取得部、13…音源分離部、14…記憶部、15…出力部、131…短時間フーリエ変換部、132…オンセット生成部、133…バイナリマスク生成部、134…NMF部、135…逆短時間フーリエ変換部

Claims (6)

  1. 音響信号から生成したスペクトログラムを非負値行列因子分解により基底スペクトルとアクティベーションに分解することで音響信号の中から特定の音源を分離する音源分離装置であって、
    複数の音源による混合音を含む前記音響信号を取得する信号取得部と、
    前記複数の音源のうち少なくとも1つの音源に対する立ち上がりのタイミングを示す立ち上がり情報を取得する立ち上がり情報取得部と、
    前記立ち上がり情報に基づいて、前記アクティベーションHに対してマルコフ連鎖によって前記音源の存在を0と1の変数で制御するバイナリマスクSを設定し、設定した前記バイナリマスクSを用いて前記音響信号から生成したスペクトログラムXを非負値行列因子分解により前記基底スペクトルWと前記アクティベーションHに分解することで前記音響信号の中から特定の音源を分離する音源分離部と、
    を備える音源分離装置。
  2. 前記音源分離部は、前記立ち上がり情報を、非負値行列因子分解の確率モデルに含めず、前記基底スペクトルWと前記アクティベーションHと前記バイナリマスクSそれぞれの推定を行うギブスサンプリングにおいて、前記立ち上がり情報に基づくオンセットIを前記バイナリマスクSの推定を補助する形で間接的に利用する、請求項1に記載の音源分離装置。
  3. 前記音源分離部は、ギブスサンプリングを用いて前記基底スペクトルWと前記アクティベーションHと前記バイナリマスクSそれぞれの期待値を推定することで、前記基底スペクトルWと前記アクティベーションHと前記バイナリマスクSそれぞれを推定する、請求項1または請求項2に記載の音源分離装置。
  4. 前記音源分離部は、前記基底スペクトルWと前記アクティベーションHと前記バイナリマスクSそれぞれを初期化した後、以下の各式に対してギブスサンプリングを用いて、前記基底スペクトルWと前記アクティベーションHと前記バイナリマスクSそれぞれの期待値を推定し、
    Figure 0007245669000036
    Figure 0007245669000037
    Figure 0007245669000038
    上記各式において、Z (i+1) は、i+1番目のステップにおける補助変数である、
    請求項1から請求項3のいずれか1項に記載の音源分離装置。
  5. 音響信号から生成したスペクトログラムを非負値行列因子分解により基底スペクトルとアクティベーションに分解することで音響信号の中から特定の音源を分離する音源分離装置における音源分離方法であって、
    信号取得部が、複数の音源による混合音を含む前記音響信号を取得する信号取得手順と、
    立ち上がり情報取得部が、前記複数の音源のうち少なくとも1つの音源に対する立ち上がりのタイミングを示す立ち上がり情報を取得する立ち上がり情報取得手順と、
    音源分離部が、前記立ち上がり情報に基づいて、前記アクティベーションHに対してマルコフ連鎖によって前記音源の存在を0と1の変数で制御するバイナリマスクSを設定し、設定した前記バイナリマスクSを用いて前記音響信号から生成したスペクトログラムXを非負値行列因子分解により前記基底スペクトルWと前記アクティベーションHに分解することで前記音響信号の中から特定の音源を分離する音源分離手順と、
    を含む音源分離方法。
  6. 音響信号から生成したスペクトログラムを非負値行列因子分解により基底スペクトルとアクティベーションに分解することで音響信号の中から特定の音源を分離する音源分離装置におけるコンピュータに、
    複数の音源による混合音を含む前記音響信号を取得する信号取得手順と、
    前記複数の音源のうち少なくとも1つの音源に対する立ち上がりのタイミングを示す立ち上がり情報を取得する立ち上がり情報取得手順と、
    前記立ち上がり情報に基づいて、前記アクティベーションHに対してマルコフ連鎖によって前記音源の存在を0と1の変数で制御するバイナリマスクSを設定し、設定した前記バイナリマスクSを用いて前記音響信号から生成したスペクトログラムXを非負値行列因子分解により前記基底スペクトルWと前記アクティベーションHに分解することで前記音響信号の中から特定の音源を分離する音源分離手順と、
    を実行させるプログラム。
JP2019034713A 2019-02-27 2019-02-27 音源分離装置、音源分離方法、およびプログラム Active JP7245669B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019034713A JP7245669B2 (ja) 2019-02-27 2019-02-27 音源分離装置、音源分離方法、およびプログラム
US16/790,278 US10839823B2 (en) 2019-02-27 2020-02-13 Sound source separating device, sound source separating method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019034713A JP7245669B2 (ja) 2019-02-27 2019-02-27 音源分離装置、音源分離方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2020140041A JP2020140041A (ja) 2020-09-03
JP7245669B2 true JP7245669B2 (ja) 2023-03-24

Family

ID=72140315

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019034713A Active JP7245669B2 (ja) 2019-02-27 2019-02-27 音源分離装置、音源分離方法、およびプログラム

Country Status (2)

Country Link
US (1) US10839823B2 (ja)
JP (1) JP7245669B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113903334B (zh) * 2021-09-13 2022-09-23 北京百度网讯科技有限公司 声源定位模型的训练与声源定位方法、装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014134688A (ja) 2013-01-10 2014-07-24 Yamaha Corp 音響解析装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006337851A (ja) * 2005-06-03 2006-12-14 Sony Corp 音声信号分離装置及び方法
US8015003B2 (en) * 2007-11-19 2011-09-06 Mitsubishi Electric Research Laboratories, Inc. Denoising acoustic signals using constrained non-negative matrix factorization
US20100138010A1 (en) * 2008-11-28 2010-06-03 Audionamix Automatic gathering strategy for unsupervised source separation algorithms
JP5706782B2 (ja) * 2010-08-17 2015-04-22 本田技研工業株式会社 音源分離装置及び音源分離方法
JP5942420B2 (ja) 2011-07-07 2016-06-29 ヤマハ株式会社 音響処理装置および音響処理方法
US9093056B2 (en) * 2011-09-13 2015-07-28 Northwestern University Audio separation system and method
US9966088B2 (en) * 2011-09-23 2018-05-08 Adobe Systems Incorporated Online source separation
US9460732B2 (en) * 2013-02-13 2016-10-04 Analog Devices, Inc. Signal source separation
JP6371516B2 (ja) * 2013-11-15 2018-08-08 キヤノン株式会社 音響信号処理装置および方法
JP6464449B2 (ja) * 2014-08-29 2019-02-06 本田技研工業株式会社 音源分離装置、及び音源分離方法
WO2016050780A1 (en) * 2014-10-02 2016-04-07 Sony Corporation Method, apparatus and system
CN105989852A (zh) * 2015-02-16 2016-10-05 杜比实验室特许公司 分离音频源
JP6543843B2 (ja) * 2015-06-18 2019-07-17 本田技研工業株式会社 音源分離装置、および音源分離方法
JP6723120B2 (ja) * 2016-09-05 2020-07-15 本田技研工業株式会社 音響処理装置および音響処理方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014134688A (ja) 2013-01-10 2014-07-24 Yamaha Corp 音響解析装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Sebastian Ewert et al.,Score-Informed Source Separation for Musical Audio Recordings: An overview,IEEE Signal Processing Magazine,2014年04月,Vol.31, No.3,p.116-124

Also Published As

Publication number Publication date
US20200273480A1 (en) 2020-08-27
JP2020140041A (ja) 2020-09-03
US10839823B2 (en) 2020-11-17

Similar Documents

Publication Publication Date Title
Smaragdis et al. Separation by “humming”: User-guided sound extraction from monophonic mixtures
Grindlay et al. Transcribing multi-instrument polyphonic music with hierarchical eigeninstruments
Paiement et al. A probabilistic model for chord progressions
US8380331B1 (en) Method and apparatus for relative pitch tracking of multiple arbitrary sounds
US20130132085A1 (en) Systems and Methods for Non-Negative Hidden Markov Modeling of Signals
JP2013033196A (ja) 音響処理装置
Chien et al. Bayesian factorization and learning for monaural source separation
Cogliati et al. Piano music transcription with fast convolutional sparse coding
Yoshii et al. Infinite composite autoregressive models for music signal analysis.
Rodriguez-Serrano et al. Online score-informed source separation with adaptive instrument models
JP7245669B2 (ja) 音源分離装置、音源分離方法、およびプログラム
Ueda et al. Bayesian drum transcription based on nonnegative matrix factor decomposition with a deep score prior
Şimşekli et al. Score guided audio restoration via generalised coupled tensor factorisation
Grindlay et al. A probabilistic subspace model for multi-instrument polyphonic transcription
Kasák et al. Music information retrieval for educational purposes-an overview
JP2009204808A (ja) 音響特徴抽出方法及び、その装置、そのプログラム、そのプログラムを記録した記録媒体
JP2012027196A (ja) 信号分析装置、方法、及びプログラム
JP5771582B2 (ja) 音響信号分析装置、方法、及びプログラム
Vanambathina Speech enhancement using an iterative posterior nmf
JP2017151228A (ja) 信号処理方法および音信号処理装置
Badeau et al. Nonnegative matrix factorization
JP5318042B2 (ja) 信号解析装置、信号解析方法及び信号解析プログラム
Hori et al. Multiresolutional Hierarchical Bayesian NMF for Detailed Audio Analysis of Music Performances
JP7498408B2 (ja) 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
Basnet et al. Deep learning based voice conversion network

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190419

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20190624

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20190624

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220927

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221011

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230307

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230313

R150 Certificate of patent or registration of utility model

Ref document number: 7245669

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150