JP7245669B2 - 音源分離装置、音源分離方法、およびプログラム - Google Patents
音源分離装置、音源分離方法、およびプログラム Download PDFInfo
- Publication number
- JP7245669B2 JP7245669B2 JP2019034713A JP2019034713A JP7245669B2 JP 7245669 B2 JP7245669 B2 JP 7245669B2 JP 2019034713 A JP2019034713 A JP 2019034713A JP 2019034713 A JP2019034713 A JP 2019034713A JP 7245669 B2 JP7245669 B2 JP 7245669B2
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- binary mask
- onset
- source separation
- acoustic signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000926 separation method Methods 0.000 title claims description 71
- 238000001228 spectrum Methods 0.000 claims description 93
- 230000004913 activation Effects 0.000 claims description 74
- 238000001994 activation Methods 0.000 claims description 74
- 239000011159 matrix material Substances 0.000 claims description 63
- 238000000034 method Methods 0.000 claims description 40
- 238000005070 sampling Methods 0.000 claims description 34
- 230000000630 rising effect Effects 0.000 claims description 13
- 238000009826 distribution Methods 0.000 description 39
- 238000010586 diagram Methods 0.000 description 38
- 230000006870 function Effects 0.000 description 10
- 230000007704 transition Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000011156 evaluation Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 3
- 239000011295 pitch Substances 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Auxiliary Devices For Music (AREA)
Description
図1は、本実施形態に係る音源分離装置1の構成例を示すブロック図である。図1に示すように、音源分離装置1は、信号取得部11、立ち上がり取得部12、音源分離部13、記憶部14、および出力部15を備える。
また、音源分離部13は、短時間フーリエ変換部131、オンセット生成部132、バイナリマスク生成部133、NMF部134、および逆短時間フーリエ変換部135を備える。
また、音源分離装置1には、無線または有線で操作部2が接続されている。
まず、非負値行列因子分解(Non-negative Matrix Factorization;NMF)の概要を、図25を参照しながら説明する。非負値行列因子分解とは、非負値行列を2つの非負値行列に分解するアルゴリズムである。なお、非負値行列とは、すべての成分がゼロ以上であるような行列である。音源分離処理における非負値行列因子分解では、例えば複数の楽器の音で構成されるモノラルの混合音g911に対して、短時間フーリエ変換を行って得られるスペクトログラム(振幅スペクトル)X(∈R+ F×T、g913)を入力とする。なお、f=1,2,…,Fは振幅スペクトルの周波数ビンであり、t=1,2,…,Tは時間フレームである。なお、R+は非負の実数の全体を表す集合である。非負値行列因子分解では、スペクトログラム(振幅スペクトル)を、次式(1)のように2つの非負値行列W(g914)、H(g915)に近似分解する。
まず、バイナリマスクを導入したNMFであるベータ過程NMF(Beta Process Sparse NMF;BP-NMF)(参考文献1参照)について概略を説明する。
参考文献1;” Beta Process Non-negative Matrix Factorization with Stochastic Structured Mean-Field Variational Inference”, Dawen Liang, Matthew D Hoffman, arXiv, Vol. 1411.1804, 2014, p1-6
このように、モデルを構成する各変数に事前分布を導入し、モデル全体を振幅スペクトルの確率的な生成モデルと解釈すると、振幅スペクトルが観測されたときに各変数の事後分布を求めることで、それぞれの値を求めることができる。事後分布はベイズの定理を用いて計算することができるが、一般に正規化項の影響などで解析的に計算することは困難であるため、例えば、変分ベイズ法や様々なサンプリングアルゴリズムを用いて近似的に期待値を計算する。
図2は、本実施形態に係る音源分離装置1が行う処理の概要を示す図である。図2において、符号g11、g12はスペクトログラムXであり、バイナリマスクS(g13、g14)と、オンセットI(g15、g16)が入力であり、基底スペクトルW(g17、g18)とアクティベーションH(g19、g20)が出力である。
図5は、バイナリマスクの生成方法を示す図である。符号g201は状態遷移図であり、符号g211はバイナリマスクである。なお、以下の説明では、収録される音源は楽器音である場合を説明する。
る。これをバイナリマスクのON状態(gg203)とする。また、楽器音が生じておらず、アクティベーションが非常に小さな値をとるとき、バイナリマスクの値は0 となる。これをバイナリマスクのOFF状態(g202)とする。
このため、A1は大きい値を、A0が小さい値を事前に設定する。具体的には、A1=0.99,A0=0.01とした。
このようなマルコフ連鎖を用いてモデル化を行ったバイナリマスクの各基底Sk(k=1,2,…,K)の同時確率は次式(11)のように表される。
次に、オンセットについて説明する。
図6は、オンセットの例を示す図である。図6において、横軸は時間フレームであり、縦軸はオンセットがある(1)ない(0)を表している。また、符号g301~g303それぞれは、音響信号に含まれているそれぞれの音源の立ち上がりに対応したオンセットである。
図7は、オンセットとアクティベーションの関係を説明するための図である。図8は、オンセットとバイナリマスクの関係を説明するための図である。図7と図8において、横軸は時間フレーム、縦軸はアクティベーションの振幅またはバイナリマスクの状態である。また、図7と図8において、符号g51は、アクティベーションであり、符号g52はバイナリマスクであり、符号g53はオンセットである。
分離したい音が楽器音の場合、基底の数は分離したい楽器音の数に依存するため基底数の自動推定は不要である。このため、バイナリマスクの事前分布にはベータ過程ではなくより音楽的な構造を考慮し簡単に扱うことができるようにマルコフ連鎖を用いる。さらにオンセットを行列形式で表現し、バイナリマスクの事後分布の計算に補助的に用いることで、与えたオンセットに対応する楽器音を分離する。
図9は、オンセット行列を説明するための図である。符号g251~g253は状態を示し、符号g261はオンセット行列を説明するための図である。符号g261において、横軸は時間フレーム、縦軸はオン(ON)状態とオフ(OFF)状態を表す。また、符号g262は開始フレームを示し、符号g263は持続フレームを表す。
本実施形態のモデル(NMFにバイナリマスクとオンセットを導入したモデル)に対し、スペクトログラム(振幅スペクトル)Xとオンセット行列Iが観測されたもとで、事後分布p(W,H,S|X)を推定する。この事後分布は、次式(16)によって求めることができるが、正規化項p(X)の計算が困難であるため直接求めることは難しい。
サンプリング式の条件付き分布を導出する際に、モデル全体の同時確率p(X,Z,W,H,S)が必要となる。確率変数の依存関係を有向グラフとして表現する手法としてグラフィカルモデルがある。
図11は、本実施形態のモデルをグラフィカルモデルで表した図である。図11において、符号g453のノードは観測された変数、符号g451とg452とg454とg455のノード未観測の変数を表す。条件付き分布p(x|y)で表される関係をyのノードからxのノードに向かう矢印を用いて表現している。また,ノードを囲う長方形のプレートはその角に書かれている文字(F、T、K)の回数だけ繰り返すことを表している。また、図11において、φは初期確率であり、A1はOFF状態からON状態への遷移確率(図5)であり、A0はON状態からON状態への遷移確率(図5)である。
補助変数Zをサンプリングする際は,基底k=1,2,…,Kに対して式(27)に従って得られるベクトルZftを用いてZを構成したものをサンプリング結果として使用する。
次に、本実施形態の音源分離装置1の音源分離手順を説明する。
図12は、本実施形態の音源分離装置1の音源分離処理のフローチャートである。
(ステップS2)短時間フーリエ変換部131は、取得された音響信号に対して短時間フーリエ変換を行ってスペクトログラムを生成する。
(ステップS4)オンセット生成部132は、立ち上がり情報に基づいてオンセット行列Iを生成する。
次に、本実施形態の音源分離装置1を評価した評価結果例を説明する。
まず、オンセットの有無について比較した結果を説明する。
評価では、図13に示すピアノの3音(ド(C4)、ミ(E4)、ソ(G4))からなるトイデータを音響信号に用いた。また、上記の混合音のうちド(C4)のみを分離して評価を行った。図13は、評価に用いた音源の波形データを示す図である。図13において、横軸は時間フレーム、縦軸は振幅を正規化した大きさである。また、図14は、立ち上がり情報に基づいて生成したオンセットの例を示す図である。図14において、横軸は時間フレームであり、縦軸はオン状態(1)とオフ状態(0)を表す。図14の示すように、分離する対象のド(C4)に対応するk=1のオンセット(g551)のみが生成され、符号g552のようにk=2に対するオンセットは生成されない。
これもある1回のギブスサンプリングによる結果であるが、複数回サンプリングを行った結果を確認しても、全ての試行で基底k=1にのみドの音が分離されていた。なお、ドの音の全てにオンセットを与えてサンプリングを行った場合も、基底k=1にドの音が、基底k=2にミとソの音が正しく分離されていることが確認できた。
以上のように,本実施形態のように音の先頭のみにオンセットを与えた場合でも。頑健な分離が見込めることがわかった。
評価では、約10秒間の音響信号(サンプリングレート22020(Hz))を用いた。この音響信号に含まれる楽器はメロディ、ピアノ、ギター、ベースの4種類である。音響信号に対して、フレーム長さ512サンプル、シフト幅256サンプル、窓関数をハニング窓として短時間フーリエ変換を行って振幅スペクトルを作成した。
評価では、メロディのオンセットを与えてメロディのみの分離を行った、ハイパーパラメータをa=b=2、c=d=1、φ=0.01、A1=0.99、A0=0.01とした。また基底数Kはメロディの音高数7と、他の構成楽器数3の和である10とした。
図18は、メロディのみを入力して事前学習したアクティベーションのヒートマップを示す図である。図18において、横軸は時間フレームであり、縦軸は基底数kである。
図19は、メロディのみを入力して事前学習したバイナリマスクのヒートマップを示す図である。図19において、横軸は時間フレームであり、縦軸は基底数kである。
正解データである図20と図21とを比較すると、オンセット無しの場合は適切に音源を分離できていない。
正解データである図20と図22とを比較すると、オンセットを与えた場合は目的の基底が分離できていることが確認できた。
オンセットを与えた場合は、基底の相関係数は1に近い値をとっているため、与えたオンセットに対応する楽器音が分離できている。
すなわち、本実施形態では、利用者が目的音源の発音タイミングをマークして、目的音源の存在に対応するバイナリマスクをマルコフ連鎖モデルに基づき推定し、このマスクを非負値行列因子分解(NMF)を確率モデルとして表現した枠組みに導入した。
また、本実施形態によれば、ユーザが前処理として分離したい信号の一部について、目的音源が現れる箇所に操作部2を操作してマークをつける作業を行うだけで、マークを付けた音源を分離抽出することができる。また、本実施形態によれば、教師音源が不要でユーザ負荷が小さいという利点がある。
Claims (6)
- 音響信号から生成したスペクトログラムを非負値行列因子分解により基底スペクトルとアクティベーションに分解することで音響信号の中から特定の音源を分離する音源分離装置であって、
複数の音源による混合音を含む前記音響信号を取得する信号取得部と、
前記複数の音源のうち少なくとも1つの音源に対する立ち上がりのタイミングを示す立ち上がり情報を取得する立ち上がり情報取得部と、
前記立ち上がり情報に基づいて、前記アクティベーションHに対してマルコフ連鎖によって前記音源の存在を0と1の変数で制御するバイナリマスクSを設定し、設定した前記バイナリマスクSを用いて前記音響信号から生成したスペクトログラムXを非負値行列因子分解により前記基底スペクトルWと前記アクティベーションHに分解することで前記音響信号の中から特定の音源を分離する音源分離部と、
を備える音源分離装置。 - 前記音源分離部は、前記立ち上がり情報を、非負値行列因子分解の確率モデルに含めず、前記基底スペクトルWと前記アクティベーションHと前記バイナリマスクSそれぞれの推定を行うギブスサンプリングにおいて、前記立ち上がり情報に基づくオンセットIを前記バイナリマスクSの推定を補助する形で間接的に利用する、請求項1に記載の音源分離装置。
- 前記音源分離部は、ギブスサンプリングを用いて前記基底スペクトルWと前記アクティベーションHと前記バイナリマスクSそれぞれの期待値を推定することで、前記基底スペクトルWと前記アクティベーションHと前記バイナリマスクSそれぞれを推定する、請求項1または請求項2に記載の音源分離装置。
- 音響信号から生成したスペクトログラムを非負値行列因子分解により基底スペクトルとアクティベーションに分解することで音響信号の中から特定の音源を分離する音源分離装置における音源分離方法であって、
信号取得部が、複数の音源による混合音を含む前記音響信号を取得する信号取得手順と、
立ち上がり情報取得部が、前記複数の音源のうち少なくとも1つの音源に対する立ち上がりのタイミングを示す立ち上がり情報を取得する立ち上がり情報取得手順と、
音源分離部が、前記立ち上がり情報に基づいて、前記アクティベーションHに対してマルコフ連鎖によって前記音源の存在を0と1の変数で制御するバイナリマスクSを設定し、設定した前記バイナリマスクSを用いて前記音響信号から生成したスペクトログラムXを非負値行列因子分解により前記基底スペクトルWと前記アクティベーションHに分解することで前記音響信号の中から特定の音源を分離する音源分離手順と、
を含む音源分離方法。 - 音響信号から生成したスペクトログラムを非負値行列因子分解により基底スペクトルとアクティベーションに分解することで音響信号の中から特定の音源を分離する音源分離装置におけるコンピュータに、
複数の音源による混合音を含む前記音響信号を取得する信号取得手順と、
前記複数の音源のうち少なくとも1つの音源に対する立ち上がりのタイミングを示す立ち上がり情報を取得する立ち上がり情報取得手順と、
前記立ち上がり情報に基づいて、前記アクティベーションHに対してマルコフ連鎖によって前記音源の存在を0と1の変数で制御するバイナリマスクSを設定し、設定した前記バイナリマスクSを用いて前記音響信号から生成したスペクトログラムXを非負値行列因子分解により前記基底スペクトルWと前記アクティベーションHに分解することで前記音響信号の中から特定の音源を分離する音源分離手順と、
を実行させるプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019034713A JP7245669B2 (ja) | 2019-02-27 | 2019-02-27 | 音源分離装置、音源分離方法、およびプログラム |
US16/790,278 US10839823B2 (en) | 2019-02-27 | 2020-02-13 | Sound source separating device, sound source separating method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019034713A JP7245669B2 (ja) | 2019-02-27 | 2019-02-27 | 音源分離装置、音源分離方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020140041A JP2020140041A (ja) | 2020-09-03 |
JP7245669B2 true JP7245669B2 (ja) | 2023-03-24 |
Family
ID=72140315
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019034713A Active JP7245669B2 (ja) | 2019-02-27 | 2019-02-27 | 音源分離装置、音源分離方法、およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US10839823B2 (ja) |
JP (1) | JP7245669B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113903334B (zh) * | 2021-09-13 | 2022-09-23 | 北京百度网讯科技有限公司 | 声源定位模型的训练与声源定位方法、装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014134688A (ja) | 2013-01-10 | 2014-07-24 | Yamaha Corp | 音響解析装置 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006337851A (ja) * | 2005-06-03 | 2006-12-14 | Sony Corp | 音声信号分離装置及び方法 |
US8015003B2 (en) * | 2007-11-19 | 2011-09-06 | Mitsubishi Electric Research Laboratories, Inc. | Denoising acoustic signals using constrained non-negative matrix factorization |
US20100138010A1 (en) * | 2008-11-28 | 2010-06-03 | Audionamix | Automatic gathering strategy for unsupervised source separation algorithms |
JP5706782B2 (ja) * | 2010-08-17 | 2015-04-22 | 本田技研工業株式会社 | 音源分離装置及び音源分離方法 |
JP5942420B2 (ja) | 2011-07-07 | 2016-06-29 | ヤマハ株式会社 | 音響処理装置および音響処理方法 |
US9093056B2 (en) * | 2011-09-13 | 2015-07-28 | Northwestern University | Audio separation system and method |
US9966088B2 (en) * | 2011-09-23 | 2018-05-08 | Adobe Systems Incorporated | Online source separation |
US9460732B2 (en) * | 2013-02-13 | 2016-10-04 | Analog Devices, Inc. | Signal source separation |
JP6371516B2 (ja) * | 2013-11-15 | 2018-08-08 | キヤノン株式会社 | 音響信号処理装置および方法 |
JP6464449B2 (ja) * | 2014-08-29 | 2019-02-06 | 本田技研工業株式会社 | 音源分離装置、及び音源分離方法 |
WO2016050780A1 (en) * | 2014-10-02 | 2016-04-07 | Sony Corporation | Method, apparatus and system |
CN105989852A (zh) * | 2015-02-16 | 2016-10-05 | 杜比实验室特许公司 | 分离音频源 |
JP6543843B2 (ja) * | 2015-06-18 | 2019-07-17 | 本田技研工業株式会社 | 音源分離装置、および音源分離方法 |
JP6723120B2 (ja) * | 2016-09-05 | 2020-07-15 | 本田技研工業株式会社 | 音響処理装置および音響処理方法 |
-
2019
- 2019-02-27 JP JP2019034713A patent/JP7245669B2/ja active Active
-
2020
- 2020-02-13 US US16/790,278 patent/US10839823B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014134688A (ja) | 2013-01-10 | 2014-07-24 | Yamaha Corp | 音響解析装置 |
Non-Patent Citations (1)
Title |
---|
Sebastian Ewert et al.,Score-Informed Source Separation for Musical Audio Recordings: An overview,IEEE Signal Processing Magazine,2014年04月,Vol.31, No.3,p.116-124 |
Also Published As
Publication number | Publication date |
---|---|
US20200273480A1 (en) | 2020-08-27 |
JP2020140041A (ja) | 2020-09-03 |
US10839823B2 (en) | 2020-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Smaragdis et al. | Separation by “humming”: User-guided sound extraction from monophonic mixtures | |
Grindlay et al. | Transcribing multi-instrument polyphonic music with hierarchical eigeninstruments | |
Paiement et al. | A probabilistic model for chord progressions | |
US8380331B1 (en) | Method and apparatus for relative pitch tracking of multiple arbitrary sounds | |
US20130132085A1 (en) | Systems and Methods for Non-Negative Hidden Markov Modeling of Signals | |
JP2013033196A (ja) | 音響処理装置 | |
Chien et al. | Bayesian factorization and learning for monaural source separation | |
Cogliati et al. | Piano music transcription with fast convolutional sparse coding | |
Yoshii et al. | Infinite composite autoregressive models for music signal analysis. | |
Rodriguez-Serrano et al. | Online score-informed source separation with adaptive instrument models | |
JP7245669B2 (ja) | 音源分離装置、音源分離方法、およびプログラム | |
Ueda et al. | Bayesian drum transcription based on nonnegative matrix factor decomposition with a deep score prior | |
Şimşekli et al. | Score guided audio restoration via generalised coupled tensor factorisation | |
Grindlay et al. | A probabilistic subspace model for multi-instrument polyphonic transcription | |
Kasák et al. | Music information retrieval for educational purposes-an overview | |
JP2009204808A (ja) | 音響特徴抽出方法及び、その装置、そのプログラム、そのプログラムを記録した記録媒体 | |
JP2012027196A (ja) | 信号分析装置、方法、及びプログラム | |
JP5771582B2 (ja) | 音響信号分析装置、方法、及びプログラム | |
Vanambathina | Speech enhancement using an iterative posterior nmf | |
JP2017151228A (ja) | 信号処理方法および音信号処理装置 | |
Badeau et al. | Nonnegative matrix factorization | |
JP5318042B2 (ja) | 信号解析装置、信号解析方法及び信号解析プログラム | |
Hori et al. | Multiresolutional Hierarchical Bayesian NMF for Detailed Audio Analysis of Music Performances | |
JP7498408B2 (ja) | 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム | |
Basnet et al. | Deep learning based voice conversion network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190419 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20190624 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20190624 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211126 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220927 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221011 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221208 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230307 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230313 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7245669 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |