JP2017134284A - 音源分離装置、方法、及びプログラム - Google Patents
音源分離装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2017134284A JP2017134284A JP2016014692A JP2016014692A JP2017134284A JP 2017134284 A JP2017134284 A JP 2017134284A JP 2016014692 A JP2016014692 A JP 2016014692A JP 2016014692 A JP2016014692 A JP 2016014692A JP 2017134284 A JP2017134284 A JP 2017134284A
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- base
- source separation
- activation
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Auxiliary Devices For Music (AREA)
Abstract
【解決手段】混合信号時間周波数変換部32が、混合信号の時系列データを入力として、各時刻tにおける各周波数ωの観測時間周波数成分Yω,tを表す観測時間周波数成分Yを出力する。教師なし音源分離適用部234が、観測時間周波数成分Yに基づいて、基底スペクトルHと、アクティベーションUとの積Xと、観測時間周波数成分Yとの誤差、及び各基底kのパワーUk.tに周期性を仮定したときの、アクティベーションUとの誤差を用いて表わされた目的関数を最適化するように、基底スペクトルHと、アクティベーションUを推定する。
【選択図】図7
Description
まず、本実施の形態における概要について説明する。本実施の形態では、各音符やドラム音の発音タイミングにおける、リズムの周期性を仮定して、制約付NMFを提案する。特にベースやドラムなどの楽器で周期性が想定される。どの音源がいつ発音するかを示すアクティベーションに周期性を仮定し、目的関数に制約として加えることにより、周期的な発音パターンの抽出を促進する。周期性を仮定する制約を加えた目的関数において、最適解を求めるアルゴリズムを定式化した上で、教師あり・教師なし両方の枠組みにおいて音源分離に適用する方法を提案する。
本実施の形態では、周期を考慮したパターン抽出方法(提案手法)を非負値周期成分分析手法(Non-negative Periodic Component Analysis, NPCA)と呼ぶ。NPCAの目的関数は以下のように定義される。
なお、図2(A)、(B)などで発生しているエーリアシングを回避して、より明示的な周期を推定するためには、Pmの定義を式(5)から変更することも考えられる。最大周波数PMがナイキスト周波数以下になるように以下の式(5A)でPmを定義する。ここで
a=2π/T、b=(π-0.001)/Nである。加えて、式(5)や式(5A)では周波数が少ないほど密に値を取るように設定していたが、これを以下の式(5B)のようにエーリアシングを回避した上で均等に分割することも考えられる。なお、式(5A)、式(5B)でPmを定義する際には、式(5)に比べてPmの範囲が狭くなるため、Mの値を上述の20よりも少なくする方がよいと考えられる。
(5B)
目的関数である式(1)を最小化するH,U,α,βの値を求めるアルゴリズムについて説明する。繰り返し計算により目的関数を最小化することができる。各ループでは、それぞれH、U、αとβについて最適化を行う3段階のステップを実施する。最適化を解析的に行うことは不可能であるが、補助関数法を用いて、目的関数の各項に対して設定した上界関数I+、J+、L+を最小化することにより、間接的にH,U,α,βの値を最適化する更新式を導出することができる。上界関数をH,U,α,βに関して最小化するステップと、目的関数と上界関数の値が等しくなるように補助変数を更新するステップを繰り返すことで、目的関数を単調に降下させることができる。
(23)
次に、本発明の第1の実施の形態に係る音源分離装置の構成について説明する。第1の実施の形態では、教師データとして分離信号が入手できる状況を想定して、教師あり音源分離を行う。図3に示すように、本発明の第1の実施の形態に係る音源分離装置100は、CPUと、RAMと、後述する音源分離処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この音源分離装置100は、機能的には図3に示すように入力部10と、演算部20と、出力部90と、を含んで構成されている。
次に、本発明の第1の実施の形態に係る音源分離装置100の作用について説明する。まず、入力部10において複数の音源iの各々の分離信号の時系列データを受け付け、分離信号記憶部22に記憶する。次に、入力部10において、混合信号の時系列データを受け付け、混合信号記憶部24に記憶する。そして、音源分離装置100は、図6に示す音源分離処理ルーチンを実行する。
次に、本発明の第2の実施の形態に係る音源分離装置の構成について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
次に、本発明の第2の実施の形態に係る音源分離装置200の作用について説明する。まず、入力部10において、混合信号の時系列データを受け付け、混合信号記憶部24に記憶する。そして、音源分離装置200は、図9に示す音源分離処理ルーチンを実行する。なお、第1の実施の形態と同様の処理については、同一符号を付して詳細な説明を省略する。
第1、第2の実施の形態における音源分離装置100、200による教師なし音源分離、教師あり音源分離の実施例をそれぞれ示す。周波数Pmの定義としては式(5)のものを用い、M=20とした。音楽データセットとしては、SiSEC2015(https://sisec.inria.fr/professionally-produced-music-recordings/)で”Professionally-produced music recordings (MUS) ”として公開されている”The Mixing Secret Dataset 100 (MSD100) ” を用いた。
・ musicB - ”Actions - Devil's Words (Power Pop) ”
・ musicC - ”Actions - South of the Water (Power Pop) ”
20、220 演算部
22 分離信号記憶部
24 混合信号記憶部
26 分離信号入力受付部
30 混合信号入力受付部
28 分離信号時間周波数変換部
32 混合信号時間周波数変換部
34 教師あり音源分離適用部
36 Winnerfilter適用部
38 IFFT適用部
40 分離信号描画部
42 分離信号再生部
50、250 入力受付部
52 分離信号音源分離適用部
54 基底スペクトル統合部
56、256 混合信号音源分離適用部
58 結果出力部
60 初期値設定部
62 変数更新部
64 補助変数更新部
66 収束判定部
90 出力部
100、200 音源分離装置
234 教師なし音源分離適用部
Claims (9)
- 複数の音源からの音源信号が混合された混合信号の時系列データを入力として、各時刻tにおける各周波数ωの観測時間周波数成分Yω,tを表す観測時間周波数成分Yを出力する混合信号時間周波数変換部と、
前記観測時間周波数成分Yに基づいて、各基底kの、各周波数ωにおけるパワースペクトルHω,kを表す基底スペクトルHと、各基底kの、各時刻tにおけるパワーUk.tを表すアクティベーションUとの積Xと、前記観測時間周波数成分Yとの誤差、及び各基底kのパワーUk.tに周期性を仮定したときの、前記アクティベーションUとの誤差を用いて表わされた目的関数を最適化するように、前記基底スペクトルHと、前記アクティベーションUを推定する教師なし音源分離適用部と、
を含む音源分離装置。 - 複数の音源iの各々に対して、前記音源iからの音源信号の時系列データを入力として、各時刻tにおける各周波数ωの観測時間周波数成分Si ω,tを表す観測時間周波数成分Siを出力する分離信号時間周波数変換部と、
前記複数の音源iの各々に対して、前記観測時間周波数成分Siに基づいて、各基底kiの、各周波数ωにおけるパワースペクトルHi ω,kを表す基底スペクトルHiと、各基底kiの、各時刻tにおけるパワーUi k.tを表すアクティベーションUiとの積Xiと、前記観測時間周波数成分Siとの誤差、及び各基底kiのパワーUi k.tに周期性を仮定したときの、前記アクティベーションUiとの誤差を用いて表わされた目的関数を最適化するように、前記基底スペクトルHiと、前記アクティベーションUiを推定する分離信号音源分離適用部と、
前記複数の音源iの各々に対して推定された前記基底スペクトルHiを統合して、各基底kの、各周波数ωにおけるパワースペクトルHω,kを表す基底スペクトルHを生成する基底スペクトル統合部と、
複数の音源からの音源信号が混合された混合信号の時系列データを入力として、各時刻tにおける各周波数ωの観測時間周波数成分Yω,tを表す観測時間周波数成分Yを出力する混合信号時間周波数変換部と、
前記観測時間周波数成分Yに基づいて、前記基底スペクトル統合部によって生成された前記基底スペクトルHと、各基底kの、各時刻tにおけるパワーUk.tを表すアクティベーションUとの積Xと、観測時間周波数成分Yとの誤差、及び各基底kのパワーUk.tに周期性を仮定したときの、前記アクティベーションUとの誤差を用いて表わされた目的関数を最適化するように、前記アクティベーションUを推定する混合信号音源分離適用部と、
を含む音源分離装置。 - 前記目的関数は、各基底kのパワーUk.tに対して、複数の基本周波数の各々の倍音で表わされる各周期関数の和を用いて周期性を仮定したときの、前記周期関数のスパース化のためのスパース化項を更に含む請求項1又は2記載の音源分離装置。
- 前記目的関数に含まれる前記スパース化項は、各基底kのパワーUk.tに対して、複数の基本周波数の各々の倍音で表わされる各周期関数の和を用いて周期性を仮定したときの、同じ基本周波数で表わされる前記周期関数のグループのスパース化のためのものである請求項3記載の音源分離装置。
- 混合信号時間周波数変換部及び教師なし音源分離適用部を含む音源分離装置における音源分離方法であって、
前記混合信号時間周波数変換部が、複数の音源からの音源信号が混合された混合信号の時系列データを入力として、各時刻tにおける各周波数ωの観測時間周波数成分Yω,tを表す観測時間周波数成分Yを出力し、
前記教師なし音源分離適用部が、前記観測時間周波数成分Yに基づいて、各基底kの、各周波数ωにおけるパワースペクトルHω,kを表す基底スペクトルHと、各基底kの、各時刻tにおけるパワーUk.tを表すアクティベーションUとの積Xと、前記観測時間周波数成分Yとの誤差、及び各基底kのパワーUk.tに周期性を仮定したときの、前記アクティベーションUとの誤差を用いて表わされた目的関数を最適化するように、前記基底スペクトルHと、前記アクティベーションUを推定する
音源分離方法。 - 分離信号時間周波数変換部、分離信号音源分離適用部、基底スペクトル統合部、混合信号時間周波数変換部、及び混合信号音源分離適用部を含む音源分離装置における音源分離方法であって、
前記分離信号時間周波数変換部が、複数の音源iの各々に対して、前記音源iからの音源信号の時系列データを入力として、各時刻tにおける各周波数ωの観測時間周波数成分Si ω,tを表す観測時間周波数成分Siを出力し、
前記分離信号音源分離適用部が、前記複数の音源iの各々に対して、前記観測時間周波数成分Siに基づいて、各基底kiの、各周波数ωにおけるパワースペクトルHi ω,kを表す基底スペクトルHiと、各基底kiの、各時刻tにおけるパワーUi k.tを表すアクティベーションUiとの積Xiと、前記観測時間周波数成分Siとの誤差、及び各基底kiのパワーUi k.tに周期性を仮定したときの、前記アクティベーションUiとの誤差を用いて表わされた目的関数を最適化するように、前記基底スペクトルHiと、前記アクティベーションUiを推定し、
前記基底スペクトル統合部が、前記複数の音源iの各々に対して推定された前記基底スペクトルHiを統合して、各基底kの、各周波数ωにおけるパワースペクトルHω,kを表す基底スペクトルHを生成し、
前記混合信号時間周波数変換部が、複数の音源からの音源信号が混合された混合信号の時系列データを入力として、各時刻tにおける各周波数ωの観測時間周波数成分Yω,tを表す観測時間周波数成分Yを出力し、
前記混合信号音源分離適用部が、前記観測時間周波数成分Yに基づいて、前記基底スペクトル統合部によって生成された前記基底スペクトルHと、各基底kの、各時刻tにおけるパワーUk.tを表すアクティベーションUとの積Xと、観測時間周波数成分Yとの誤差、及び各基底kのパワーUk.tに周期性を仮定したときの、前記アクティベーションUとの誤差を用いて表わされた目的関数を最適化するように、前記アクティベーションUを推定する
音源分離方法。 - 前記目的関数は、各基底kのパワーUk.tに対して、複数の基本周波数の各々の倍音で表わされる各周期関数の和を用いて周期性を仮定したときの、前記周期関数のスパース化のためのスパース化項を更に含む請求項5又は6記載の音源分離方法。
- 前記目的関数に含まれる前記スパース化項は、各基底kのパワーUk.tに対して、複数の基本周波数の各々の倍音で表わされる各周期関数の和を用いて周期性を仮定したときの、同じ基本周波数で表わされる前記周期関数のグループのスパース化のためのものである請求項7記載の音源分離方法。
- コンピュータを、請求項1〜請求項4の何れか1項記載の音源分離装置を構成する各部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016014692A JP6535611B2 (ja) | 2016-01-28 | 2016-01-28 | 音源分離装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016014692A JP6535611B2 (ja) | 2016-01-28 | 2016-01-28 | 音源分離装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017134284A true JP2017134284A (ja) | 2017-08-03 |
JP6535611B2 JP6535611B2 (ja) | 2019-06-26 |
Family
ID=59504289
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016014692A Active JP6535611B2 (ja) | 2016-01-28 | 2016-01-28 | 音源分離装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6535611B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021036046A1 (zh) * | 2019-08-23 | 2021-03-04 | 北京市商汤科技开发有限公司 | 声音分离方法和装置、电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010044248A (ja) * | 2008-08-13 | 2010-02-25 | Nippon Telegr & Teleph Corp <Ntt> | 信号解析装置、信号解析方法、プログラム及び記録媒体 |
JP2010541350A (ja) * | 2007-09-26 | 2010-12-24 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 周囲信号を抽出するための重み付け係数を取得する装置および方法における周囲信号を抽出する装置および方法、並びに、コンピュータプログラム |
JP2015138053A (ja) * | 2014-01-20 | 2015-07-30 | キヤノン株式会社 | 音響信号処理装置およびその方法 |
-
2016
- 2016-01-28 JP JP2016014692A patent/JP6535611B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010541350A (ja) * | 2007-09-26 | 2010-12-24 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 周囲信号を抽出するための重み付け係数を取得する装置および方法における周囲信号を抽出する装置および方法、並びに、コンピュータプログラム |
JP2010044248A (ja) * | 2008-08-13 | 2010-02-25 | Nippon Telegr & Teleph Corp <Ntt> | 信号解析装置、信号解析方法、プログラム及び記録媒体 |
JP2015138053A (ja) * | 2014-01-20 | 2015-07-30 | キヤノン株式会社 | 音響信号処理装置およびその方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021036046A1 (zh) * | 2019-08-23 | 2021-03-04 | 北京市商汤科技开发有限公司 | 声音分离方法和装置、电子设备 |
Also Published As
Publication number | Publication date |
---|---|
JP6535611B2 (ja) | 2019-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Duan et al. | Multiple fundamental frequency estimation by modeling spectral peaks and non-peak regions | |
US9111526B2 (en) | Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal | |
US6541691B2 (en) | Generation of a note-based code | |
Fuentes et al. | Harmonic adaptive latent component analysis of audio and application to music transcription | |
Jaiswal et al. | Clustering NMF basis functions using shifted NMF for monaural sound source separation | |
JP2008058755A (ja) | 音分析装置およびプログラム | |
Chien et al. | Bayesian factorization and learning for monaural source separation | |
Cogliati et al. | Piano music transcription with fast convolutional sparse coding | |
Sebastian et al. | An analysis of the high resolution property of group delay function with applications to audio signal processing | |
Duan et al. | Note-level Music Transcription by Maximum Likelihood Sampling. | |
Nakano et al. | Nonnegative matrix factorization with Markov-chained bases for modeling time-varying patterns in music spectrograms | |
Cogliati et al. | Piano music transcription modeling note temporal evolution | |
JP6535611B2 (ja) | 音源分離装置、方法、及びプログラム | |
Kronvall et al. | Sparse chroma estimation for harmonic audio | |
Laroche et al. | Hybrid projective nonnegative matrix factorization with drum dictionaries for harmonic/percussive source separation | |
Park et al. | Separation of instrument sounds using non-negative matrix factorization with spectral envelope constraints | |
JP2012027196A (ja) | 信号分析装置、方法、及びプログラム | |
Nakamura et al. | Harmonic-temporal factor decomposition for unsupervised monaural separation of harmonic sounds | |
Benetos et al. | Multiple-F0 estimation and note tracking for Mirex 2015 using a sound state-based spectrogram factorization model | |
Lee et al. | Automatic transcription of piano music by sparse representation of magnitude spectra | |
Hayashi et al. | Non-negative periodic component analysis for music source separation | |
Marolt | Automatic transcription of bell chiming recordings | |
Sharma | Musical instrument sound signal separation from mixture using DWT and Fast ICA based algorithm in noisy environment | |
Kameoka et al. | Nonnegative matrix factorization with basis clustering using cepstral distance regularization | |
Singh et al. | Efficient pitch detection algorithms for pitched musical instrument sounds: A comparative performance evaluation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180219 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190121 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190129 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190313 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190528 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190603 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6535611 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |