JP2024033382A - 楽器識別方法、楽器識別装置、および、楽器識別プログラム - Google Patents
楽器識別方法、楽器識別装置、および、楽器識別プログラム Download PDFInfo
- Publication number
- JP2024033382A JP2024033382A JP2022136925A JP2022136925A JP2024033382A JP 2024033382 A JP2024033382 A JP 2024033382A JP 2022136925 A JP2022136925 A JP 2022136925A JP 2022136925 A JP2022136925 A JP 2022136925A JP 2024033382 A JP2024033382 A JP 2024033382A
- Authority
- JP
- Japan
- Prior art keywords
- musical instrument
- acoustic
- image
- sound signal
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000005236 sound signal Effects 0.000 claims abstract description 49
- 238000004364 calculation method Methods 0.000 claims description 74
- 238000010586 diagram Methods 0.000 abstract description 11
- 238000007781 pre-processing Methods 0.000 description 15
- 230000033764 rhythmic process Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000009527 percussion Methods 0.000 description 2
- 102220560218 Calcium/calmodulin-dependent protein kinase type IV_S12A_mutation Human genes 0.000 description 1
- 102220614306 F-box only protein 4_S12E_mutation Human genes 0.000 description 1
- 102220466509 Putative histone H2B type 2-C_S11E_mutation Human genes 0.000 description 1
- 102220515663 Zinc finger protein Helios_S13A_mutation Human genes 0.000 description 1
- 102220515664 Zinc finger protein Helios_S13D_mutation Human genes 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 102200012170 rs10084168 Human genes 0.000 description 1
- 102220328583 rs111822347 Human genes 0.000 description 1
- 102200084388 rs121918345 Human genes 0.000 description 1
- 102220308767 rs1466840832 Human genes 0.000 description 1
- 102220024392 rs267607495 Human genes 0.000 description 1
- 102200159387 rs62636495 Human genes 0.000 description 1
- 102220065825 rs77602559 Human genes 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10G—REPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
- G10G3/00—Recording music in notation form, e.g. recording the mechanical operation of a musical instrument
- G10G3/04—Recording music in notation form, e.g. recording the mechanical operation of a musical instrument using electrical means
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Auxiliary Devices For Music (AREA)
- Image Analysis (AREA)
Abstract
【課題】入力音の音源の楽器を特定する情報を自動で識別する。【解決手段】楽器識別方法は、音信号に基づいて音響特徴量を算出し、前記音響特徴量に基づいて画像認識技術で用いられる画像特徴量を算出し、前記音信号と楽器を特定する情報とが対応しており、前記画像特徴量を入力とし、前記楽器を特定する情報を出力として訓練させた学習済モデルを用いて、前記音信号から前記楽器を特定する情報を出力する。【選択図】図2
Description
この発明の一実施形態は、楽器識別方法、楽器識別装置、および、楽器識別プログラムに関する。
非特許文献1には、音響特徴量から得られた画像特徴量を用いて、音楽のジャンルを推定する方法が開示されている。
Combining visual and acoustic features for music genreclassification, Expert Systems With Applications 45(2016)108-117, An Internationaljournal
ミキサの操作等において、入力音の音源の楽器名等の楽器を特定する情報を知りたいことがある。しかしながら、非特許文献1の方法では、入力音の音源の楽器名を自動で識別できない。
以上の事情を考慮して、本開示のひとつの態様は、入力音の音源の楽器を特定する情報を自動で識別することを目的とする。
楽器識別方法は、音信号に基づいて音響特徴量を算出し、前記音響特徴量に基づいて画像認識技術で用いられる画像特徴量を算出し、前記音信号と楽器を特定する情報とが対応しており、前記画像特徴量を入力とし、前記楽器を特定する情報を出力として訓練させた学習済モデルを用いて、前記音信号から前記楽器を特定する情報を出力する。
楽器識別装置は、入力音の音源の楽器を特定する情報を自動で識別できる。
図1は、楽器識別装置10の構成を示すブロック図である。図2は、楽器識別装置10の概略処理を示すフローチャートである。
楽器識別装置10は、前処理部20、音響特徴量算出部30、画像特徴量算出部40、および、識別部50を備える。識別部50は、学習済モデル500を記憶している。
楽器識別装置10は、例えば、プロセッサ、コンピュータ等、これらによって実行される後述の処理を行うためのプログラム、および、該プログラムを記憶する記憶媒体で実現される。なお、プログラムの記憶箇所は、クラウド上にあってもよい。また、学習済モデル500の記憶箇所も、クラウド上にあってもよい。
(概略的な構成および処理の説明)
推定対象の楽器の演奏音(出力音)の音信号は、前処理部20に入力される。前処理部20は、入力された音信号に、正規化や無音除去等の前処理を行う。前処理部20は、前処理後の音信号を、音響特徴量算出部30に出力する。
推定対象の楽器の演奏音(出力音)の音信号は、前処理部20に入力される。前処理部20は、入力された音信号に、正規化や無音除去等の前処理を行う。前処理部20は、前処理後の音信号を、音響特徴量算出部30に出力する。
音響特徴量算出部30は、音信号に基づいて音響特徴量を算出する(図2、S11)。音響特徴量算出部30は、音響特徴量を画像特徴量算出部40に出力する。
画像特徴量算出部40は、音響特徴量に基づいて画像特徴量を算出する(図2、S12)。より具体的には、画像特徴量算出部40は、音響特徴量に基づいて二次元画像を形成し、二次元画像から画像特徴量を算出する。
画像特徴量は、画像認識技術において高い認識精度が得られる特徴量である。例えば、画像特徴量は、画像の輝度勾配や各色のエッジ、コーナー、ブロブ、鮮やかさ、明るさ、色合い等に基づいた、画像の局所的な特徴量である。
画像特徴量算出部40は、画像特徴量を識別部50に出力する。この際、画像特徴量算出部40は、画像特徴量とともに音響特徴量を、識別部50に出力してもよい。
識別部50は、少なくとも画像特徴量を入力とし、学習済モデル500を用いて、楽器名を識別して、出力する(図2、S13)。学習済モデル500は、楽器の演奏音と楽器名とが対応しており、画像特徴量を入力とし、楽器名を出力として訓練させた機械学習モデルである。楽器名が、本発明の「楽器を特定する情報」の一例である。すなわち、本実施形態では、楽器名を識別する態様を示すが、音源の楽器を特定する別の情報であっても、本実施形態の態様を適用でき、識別できる。
このように、楽器識別装置10は、音響特徴量に基づく画像特徴量を用いて、楽器(楽器名)を識別する。楽器識別装置10は、画像特徴量を用いることで、音響特徴量に基づく認識精度の高い画像認識を用いて楽器を識別できる。これにより、楽器識別装置10は、楽器の識別精度を向上できる。
以下、楽器識別装置10が行う具体的な処理の例について説明する。
(楽器識別の流れ)
(前処理)
図3(A)、図3(B)、図3(C)は、音響特徴量を算出するための前処理を説明するための波形図の一例を示す。図3(A)、図3(B)、図3(C)に示す波形は、それぞれに異なる楽器の演奏音(出力音)を示す。
(前処理)
図3(A)、図3(B)、図3(C)は、音響特徴量を算出するための前処理を説明するための波形図の一例を示す。図3(A)、図3(B)、図3(C)に示す波形は、それぞれに異なる楽器の演奏音(出力音)を示す。
前処理部20には、図3(A)、図3(B)、図3(C)に示すような波形の音信号が入力される。音信号の波形とは、音信号の振幅の時間遷移を示すものである。
前処理部20は、正規化を行うことで、楽器の識別のための基準音量(振幅)に波形を調整する。これにより、楽器識別装置10は、楽器の音の大きさが識別結果に与える影響を、抑制できる。すなわち、楽器識別装置10は、楽器を大音量で演奏したか、小音量で演奏したかの差が識別結果に与える影響を抑制できる。
前処理部20は、音信号の無音部を除去することで、音響特徴量を算出するためのサンプリング期間Tsの音信号(波形)を出力する。これにより、前処理部20は、音響特徴量を算出するための前処理を行った演奏音を出力する。
音響特徴量を算出するための前処理を行った演奏音とは、旋律やリズムに影響されない音であることが好ましい。例えば、非調和楽器である打楽器であれば、打楽器を1回(またはリズムに関係無く複数回)たたく(演奏する)ことで発生する音である。また、調和楽器である弦楽器であれば、弦楽器の弦を1回(または旋律やリズムに関係無く複数回)ひくまたははじくことで発生する音である。
このような演奏音を用いることで、楽器識別装置10は、音響特徴量が旋律やリズムの影響を受けることを抑制し、楽器の識別精度を向上できる。
なお、これらの前処理部20で行う処理は、音響特徴量算出部30で行ってもよい。
(特徴量の抽出(音響特徴量の算出および画像特徴量の算出))
図4は、音響特徴量の算出から画像特徴量の算出にかけての処理の流れを示すブロック図である。なお、図4では、音信号から複数種類の音響特徴量を算出し、複数種類の音響特徴量から複数種類の画像特徴量を算出する場合を示す。図5(A)、図5(B)、図5(C)は、音響特徴量の一例を示す図である。図5(A)は、対数スペクトログラムを示し、図5(B)は、対数メルスペクトログラムを示し、図5(C)は、CQTスペクトログラムを示し、これらは、1つの音信号に基づいて算出されている。
図4は、音響特徴量の算出から画像特徴量の算出にかけての処理の流れを示すブロック図である。なお、図4では、音信号から複数種類の音響特徴量を算出し、複数種類の音響特徴量から複数種類の画像特徴量を算出する場合を示す。図5(A)、図5(B)、図5(C)は、音響特徴量の一例を示す図である。図5(A)は、対数スペクトログラムを示し、図5(B)は、対数メルスペクトログラムを示し、図5(C)は、CQTスペクトログラムを示し、これらは、1つの音信号に基づいて算出されている。
音響特徴量算出部30は、入力された音信号に対して、短時間フーリエ変換(STFT)を行うことで、時間周波数領域への変換を行う。音響特徴量算出部30は、音信号の短時間フーリエ変換結果に基づいて、対数スペクトログラム、対数メルスペクトログラムを算出する。
音響特徴量算出部30は、入力された音信号に対して、定Q変換(CQT)を行うことで、時間周波数領域への変換を行う。音響特徴量算出部30は、音信号の定Q変換結果に基づいて、CQTスペクトログラムを算出する。
図5(A)図5(B)、図5(C)に示すように、対数スペクトログラム、対数メルスペクトログラム、CQTスペクトログラムは、時間と周波数と二軸を用いたスペクトログラムである。すなわち、音響特徴量は、時間と周波数の二軸のスペクトログラムによって表される。そして、これら複数種類の音響特徴量のスペクトログラムは、図5(A)、図5(B)、図5(C)に示すように、それぞれに異なる特徴量を有する。したがって、音響特徴量算出部30は、それぞれの異なる音響特徴量を取得できる。
なお、楽器識別装置10は、これらの音響特徴量の少なくとも1種類を算出し、この音響特徴量に基づいて画像特徴量を算出すれば、楽器を識別できる。また、音響特徴量は、音信号を時間周波数領域に変換したものであれば、他の手法を用いたものであってもよい。
画像特徴量算出部40は、音響特徴量、すなわち、対数スペクトログラム、対数メルスペクトログラム、CQTスペクトログラムに基づいて、LBP(Local Binary Pattern)およびHOG(Histograms of Oriented Gradients)の少なくとも1つの画像特徴抽出法を用いて、画像特徴量を算出する。
図6(A)、図6(B)は、画像特徴量の一例を示す図である。図6(A)は、LBPムを示し、図5(B)は、HOCを示し、これらは、1つの音響特徴量(図5(B)の対数メルスペクトログラム)に基づいて算出されている。
図6(A)、図6(B)に示すように、LBP、HOGは、周波数と時間の二次元の画像で構成される。LBPは、音響特徴量に基づく画像の局所的な特徴(パターンやエッジ)が抽出されたものであり、HOGは、音響特徴量に基づく画像の輝度の勾配が抽出されたものである。すなわち、画像特徴量は、音響特徴量に基づく画像の特徴が周波数と時間の二次元画像で表される。そして、これら複数種類の画像特徴量は、図6(A)、図6(B)に示すように、それぞれに異なる特徴量を有する。したがって、画像特徴量算出部40は、それぞれの異なる画像特徴量を取得できる。
なお、楽器識別装置10は、これらの画像特徴量の少なくとも1種類を算出すれば、楽器を識別できる。また、画像特徴量は、音響特徴量を画像化し、この画像における画像認識技術を用いて高精度な画像認識が可能な特徴が得られるものであれば、他の手法(例えば、HSV等)を用いたものであってもよい。
(学習および推定)
識別部50は、例えば、CNN(畳み込みニューラルネットワーク)を用いて学習済モデル500を訓練する。この学習済モデル500は、音信号と楽器名とが対応しているデータセットによって、画像特徴量を入力とし、楽器名を出力として訓練されている。
識別部50は、例えば、CNN(畳み込みニューラルネットワーク)を用いて学習済モデル500を訓練する。この学習済モデル500は、音信号と楽器名とが対応しているデータセットによって、画像特徴量を入力とし、楽器名を出力として訓練されている。
識別部50は、この学習済モデル500を用いて画像特徴量を入力として楽器(楽器名)を識別し、出力する。
この際、識別部50は、例えば、ConvMixerを分類器として用いる。ConvMixerは、画像特徴量である二次元データをパッチに分割した後、畳み込み層に通過させるものである。ConvMixerは、パッチに分割するため局所的な特徴を捉えやすく、時間周波数表現において局所的に楽器の特徴が現れる楽器識別に適する。また、ConvMixerは、ネットワークがパッチ分割と畳み込みのみで構成されているので、学習が容易で、事前学習モデルや転移学習などを用いなくても、高精度な識別を可能とする学習済モデル500を実現できる。
このように、楽器識別装置10は、楽器の識別に適するように音響特徴量を算出し、この音響特徴量から、画像認識技術において画像認識精度が高い画像特徴量をする。そして、楽器識別装置10は、このような画像特徴量を用いることで、楽器の識別精度を向上できる。
また、楽器識別装置10は、特徴量の組み合わせを調整して楽器の識別を行うこともできる。これにより、楽器識別装置10は、楽器の分類(例えば、調和楽器か非調和楽器かなど)等に応じて特徴量の組合せを設定でき、楽器の識別精度をさらに向上できる。
このような楽器識別装置10は、例えば、ミキサの入力段に適用できる。利用方法としては、楽器識別装置10は、ミキサの入力段に接続された音楽ソース(楽器)を自動で識別する。ミキサは、表示等を用いて識別結果をユーザに通知する。これにより、ユーザは、音楽ソースを容易に且つより正確に把握でき、ミキサの設定等の操作を容易にできる。
(音響特徴量の算出、画像特徴量の算出、識別手法の各種具体例)
図7から図14の各図は、音響特徴量の算出、画像特徴量の算出、および、識別手法の処理例を示すフローチャートである。図7から図14は、それぞれに異なる処理を行っている。
図7から図14の各図は、音響特徴量の算出、画像特徴量の算出、および、識別手法の処理例を示すフローチャートである。図7から図14は、それぞれに異なる処理を行っている。
(画像特徴量のみを用いる処理)
画像特徴量を用い、音響特徴量を用いない処理を、図7から図10を参照して、以下の(A)から(D)に示す。
画像特徴量を用い、音響特徴量を用いない処理を、図7から図10を参照して、以下の(A)から(D)に示す。
(A) 1種類の画像特徴量の学習済モデルを用いる処理(図7参照)
音響特徴量算出部30は、音信号に基づいて1種類の音響特徴量を算出する(S11A)。例えば、音響特徴量算出部30は、対数スペクトログラム、対数メルスペクトログラム、および、CQTスペクトログラムのいずれか1種類を算出する。
音響特徴量算出部30は、音信号に基づいて1種類の音響特徴量を算出する(S11A)。例えば、音響特徴量算出部30は、対数スペクトログラム、対数メルスペクトログラム、および、CQTスペクトログラムのいずれか1種類を算出する。
画像特徴量算出部40は、1種類の音響特徴量に基づいて1種類の画像特徴量を算出する(S12A)。例えば、画像特徴量算出部40は、音響特徴量が対数メルスペクトログラムであれば、対数メルスペクトログラムのLBPまたはHOGを算出する。
識別部50は、1種類の画像特徴量を入力とした学習済モデル500を用いて、楽器名を識別する(S13A)。例えば、識別部50は、画像特徴量が対数メルスペクトログラムのLBPであれば、対数メルスペクトログラムのLBPを入力とした学習済モデル500を用いて、楽器名を識別する。
(B) 1種類の音響特徴量に基づく複数種類の画像特徴量のアンサンブル学習済モデルを用いる処理(図8参照)
音響特徴量算出部30は、音信号に基づいて1種類の音響特徴量を算出する(S11B)。
音響特徴量算出部30は、音信号に基づいて1種類の音響特徴量を算出する(S11B)。
画像特徴量算出部40は、1種類の音響特徴量に基づいて複数種類の画像特徴量を算出する(S12B)。例えば、画像特徴量算出部40は、音響特徴量が対数メルスペクトログラムであれば、対数メルスペクトログラムのLBPおよびHOGを算出する。
識別部50は、複数種類の画像特徴量を入力とするアンサンブル学習された学習済モデル500を用いて、楽器名を識別する(S13B)。例えば、識別部50は、画像特徴量が対数メルスペクトログラムのLBPおよびHOGであれば、対数メルスペクトログラムのLBPおよびHOGを入力とするアンサンブル学習された学習済モデル500を用いて、楽器名を識別する。
(C) 複数種類の音響特徴量に基づく1種類で複数の画像特徴量のアンサンブル学習済モデルを用いる処理(図9参照)
音響特徴量算出部30は、音信号に基づいて複数種類の音響特徴量を算出する(S11C)。例えば、音響特徴量算出部30は、対数スペクトログラム、対数メルスペクトログラム、および、CQTスペクトログラムのうち複数種類を算出する。
音響特徴量算出部30は、音信号に基づいて複数種類の音響特徴量を算出する(S11C)。例えば、音響特徴量算出部30は、対数スペクトログラム、対数メルスペクトログラム、および、CQTスペクトログラムのうち複数種類を算出する。
画像特徴量算出部40は、複数種類の音響特徴量に基づいて1種類で複数(同種で複数)の画像特徴量を算出する(S12C)。例えば、画像特徴量算出部40は、音響特徴量が対数メルスペクトログラムとCQTスペクトログラムであれば、対数メルスペクトログラムのLBPおよびCQTスペクトログラムのLBPを算出する。
識別部50は、1種類で複数の画像特徴量を入力とするアンサンブル学習された学習済モデル500を用いて、楽器名を識別する(S13C)。例えば、識別部50は、画像特徴量が対数メルスペクトログラムのLBPおよびCQTスペクトログラムのLBPであれば、対数メルスペクトログラムのLBPおよびCQTスペクトログラムのLBPを入力とするアンサンブル学習された学習済モデル500を用いて、楽器名を識別する。
(D) 複数種類の音響特徴量に基づく複数種類の画像特徴量のアンサンブル学習済モデルを用いる処理(図10参照)
音響特徴量算出部30は、音信号に基づいて複数種類の音響特徴量を算出する(S11D)。例えば、音響特徴量算出部30は、対数スペクトログラム、対数メルスペクトログラム、および、CQTスペクトログラムのうち複数種類を算出する。
音響特徴量算出部30は、音信号に基づいて複数種類の音響特徴量を算出する(S11D)。例えば、音響特徴量算出部30は、対数スペクトログラム、対数メルスペクトログラム、および、CQTスペクトログラムのうち複数種類を算出する。
画像特徴量算出部40は、複数種類の音響特徴量に基づいて複数種類の画像特徴量を算出する(S12D)。例えば、画像特徴量算出部40は、音響特徴量が対数スペクトログラム、対数メルスペクトログラム、および、CQTスペクトログラムであれば、対数スペクトログラム、対数メルスペクトログラム、および、CQTスペクトログラムのそれぞれについてLBPとHOGを算出する。
識別部50は、複数種類で複数の画像特徴量を入力とするアンサンブル学習された学習済モデル500を用いて、楽器名を識別する(S13D)。例えば、識別部50は、画像特徴量が対数スペクトログラム、対数メルスペクトログラム、および、CQTスペクトログラムのそれぞれのLBPとHOGであれば、対数スペクトログラム、対数メルスペクトログラム、および、CQTスペクトログラムのそれぞれのLBPとHOGを入力とするアンサンブル学習された学習済モデル500を用いて、楽器名を識別する。
(画像特徴量と音響特徴量とを用いる場合)
画像特徴量と音響特徴量とを用いる処理を、図11から図14を参照して、以下の(E)から(H)に示す。なお、以下の(E)から(H)では、基本的な処理を説明し、(A)から(D)に示したような具体例は省略する。
画像特徴量と音響特徴量とを用いる処理を、図11から図14を参照して、以下の(E)から(H)に示す。なお、以下の(E)から(H)では、基本的な処理を説明し、(A)から(D)に示したような具体例は省略する。
(E) 1種類の画像特徴量と1種類の音響特徴量のアンサンブル学習済モデルを用いる処理(図11参照)
音響特徴量算出部30は、音信号に基づいて1種類の音響特徴量を算出する(S11E)。画像特徴量算出部40は、1種類の音響特徴量に基づいて1種類の画像特徴量を算出する(S12E)。識別部50は、1種類の画像特徴量と1種類の音響特徴量を入力とするアンサンブル学習された学習済モデル500を用いて、楽器名を識別する(S13E)。
音響特徴量算出部30は、音信号に基づいて1種類の音響特徴量を算出する(S11E)。画像特徴量算出部40は、1種類の音響特徴量に基づいて1種類の画像特徴量を算出する(S12E)。識別部50は、1種類の画像特徴量と1種類の音響特徴量を入力とするアンサンブル学習された学習済モデル500を用いて、楽器名を識別する(S13E)。
(F) 複数種類の画像特徴量と1種類の音響特徴量のアンサンブル学習済モデルを用いる処理(図12参照)
音響特徴量算出部30は、音信号に基づいて1種類の音響特徴量を算出する(S11F)。画像特徴量算出部40は、1種類の音響特徴量に基づいて複数種類の画像特徴量を算出する(S12F)。識別部50は、複数種類の画像特徴量と1種類の音響特徴量を入力とするアンサンブル学習された学習済モデル500を用いて、楽器名を識別する(S13F)。
音響特徴量算出部30は、音信号に基づいて1種類の音響特徴量を算出する(S11F)。画像特徴量算出部40は、1種類の音響特徴量に基づいて複数種類の画像特徴量を算出する(S12F)。識別部50は、複数種類の画像特徴量と1種類の音響特徴量を入力とするアンサンブル学習された学習済モデル500を用いて、楽器名を識別する(S13F)。
(G)1種類で複数の画像特徴量と複数種類の音響特徴量のアンサンブル学習済モデルを用いる処理(図13参照)
音響特徴量算出部30は、音信号に基づいて複数種類の音響特徴量を算出する(S11G)。画像特徴量算出部40は、複数種類の音響特徴量に基づいて1種類で複数の画像特徴量を算出する(S12G)。識別部50は、1種類で複数の画像特徴量と複数種類の音響特徴量を入力とするアンサンブル学習された学習済モデル500を用いて、楽器名を識別する(S13G)。
音響特徴量算出部30は、音信号に基づいて複数種類の音響特徴量を算出する(S11G)。画像特徴量算出部40は、複数種類の音響特徴量に基づいて1種類で複数の画像特徴量を算出する(S12G)。識別部50は、1種類で複数の画像特徴量と複数種類の音響特徴量を入力とするアンサンブル学習された学習済モデル500を用いて、楽器名を識別する(S13G)。
(H)複数種類の画像特徴量と複数種類の音響特徴量のアンサンブル学習済モデルを用いる処理(図13参照)
音響特徴量算出部30は、音信号に基づいて複数種類の音響特徴量を算出する(S11H)。画像特徴量算出部40は、複数種類の音響特徴量に基づいて複数種類の画像特徴量を算出する(S12H)。識別部50は、複数種類で画像特徴量と複数種類の音響特徴量を入力とするアンサンブル学習された学習済モデル500を用いて、楽器名を識別する(S13H)。
音響特徴量算出部30は、音信号に基づいて複数種類の音響特徴量を算出する(S11H)。画像特徴量算出部40は、複数種類の音響特徴量に基づいて複数種類の画像特徴量を算出する(S12H)。識別部50は、複数種類で画像特徴量と複数種類の音響特徴量を入力とするアンサンブル学習された学習済モデル500を用いて、楽器名を識別する(S13H)。
このように、楽器識別装置10は、少なくとも画像特徴量を用いて楽器を識別する場合を含み、特徴量の各種の組合せで楽器を識別できる。
特に、楽器識別装置10が画像特徴量と音響特徴量とを用いて楽器を識別する場合、以下の作用効果を奏する。
音響特徴量から画像特徴量に変換する際、欠損してしまった特徴が存在する場合がある。すなわち、音響特徴量には存在するが画像特徴量には存在しない特徴が存在する場合がある。しかしながら、楽器識別装置10は、画像特徴量と音響特徴量とを用いて識別を行うことで、この欠損してしまった特徴も含んで、楽器を識別できる。
(実験結果)
図15(A)、図15(B)は、上述の各種手法を用いたときの識別結果(正答率)を示す表である。図15(C)は、従来の識別方法を用いたときの識別結果(正答率)を示す表である。図15(A)は、1種類の音響特徴量、または、1種類の画像特徴量をもちいたときの識別結果であり、図15(B)は、アンサンブル手法を用いたときの識別結果である。
図15(A)、図15(B)は、上述の各種手法を用いたときの識別結果(正答率)を示す表である。図15(C)は、従来の識別方法を用いたときの識別結果(正答率)を示す表である。図15(A)は、1種類の音響特徴量、または、1種類の画像特徴量をもちいたときの識別結果であり、図15(B)は、アンサンブル手法を用いたときの識別結果である。
図15(A)、図15(B)、図15(C)に示すように、楽器識別装置10は、画像特徴量を用いることで、少なくとも従来の識別方法と同程度以上で楽器を識別でき、採用する画像特徴量を適宜選択することで、よりも高い精度で楽器を識別できる。また、楽器識別装置10は、画像特徴量と音響特徴量とのアンサンブル手法を用いることで、さらに高い精度で楽器を識別できる。また、楽器識別装置10は、アンサンブルする特徴量の数を増やすことによって、より一層高い精度で楽器を識別できる。
なお、上述の説明では、単楽器の出力音が単音であり、単音から楽器を識別する態様を示した。しかしながら、単楽器の複数音、和音、複数楽器の音等から楽器や複数楽器のアンサンブル等を識別することも可能であり、この際、上述の技術を適用することができる。
本実施形態の説明は、すべての点で例示であって、制限的なものではない。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲には、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
10:楽器識別装置
20:前処理部
30:音響特徴量算出部
40:画像特徴量算出部
50:識別部
500:学習済モデル
20:前処理部
30:音響特徴量算出部
40:画像特徴量算出部
50:識別部
500:学習済モデル
Claims (17)
- 音信号に基づいて音響特徴量を算出し、
前記音響特徴量に基づいて、画像認識技術で用いられる画像特徴量を算出し、
前記音信号と楽器を特定する情報とが対応しており、前記画像特徴量を入力とし、前記楽器を特定する情報を出力として訓練させた学習済モデルを用いて、前記音信号から前記楽器を特定する情報を出力する、
楽器識別方法。 - 前記学習済モデルは、前記音響特徴量を入力としてさらに加えて訓練させたモデルである、
請求項1に記載の楽器識別方法。 - 前記音響特徴量に対して、複数種類の前記画像特徴量を算出し、
前記学習済モデルは、前記複数種類の画像特徴量を入力として訓練させたモデルである、
請求項1または請求項2に記載の楽器識別方法。 - 前記音信号に基づいて、複数種類の前記音響特徴量を算出し、
前記学習済モデルは、前記複数種類の音響特徴量に基づく複数の前記画像特徴量を入力として訓練させたモデルである、
請求項1または請求項2に記載の楽器識別方法。 - 前記音信号に基づいて、複数種類の前記音響特徴量を算出し、
前記学習済モデルは、前記複数種類の音響特徴量に基づく複数種類の前記画像特徴量を入力として訓練させたモデルである、
請求項1または請求項2に記載の楽器識別方法。 - 前記音信号における1回の発音から前記音響特徴量を算出する、
請求項1または請求項2に記載の楽器識別方法。 - 前記音信号として、単楽器の出力音を入力する、
請求項1または請求項2に記載の楽器識別方法。 - 前記学習済モデルは、CNNである、
請求項1または請求項2に記載の楽器識別方法。 - 音信号に基づいて音響特徴量を算出する音響特徴量算出部と、
前記音響特徴量に基づいて、画像認識技術で用いられる画像特徴量を算出する画像特徴量算出部と、
前記音信号と楽器を特定する情報とが対応しており、前記画像特徴量を入力とし、前記楽器を特定する情報を出力として訓練させた学習済モデルを用いて、前記音信号から前記楽器を特定する情報を出力する識別部と、
を備える、
楽器識別装置。 - 前記学習済モデルは、前記音響特徴量を入力としてさらに加えて訓練させたモデルである、
請求項9に記載の楽器識別装置。 - 前記画像特徴量算出部は、前記音響特徴量に対して、複数種類の前記画像特徴量を算出し、
前記学習済モデルは、前記複数種類の画像特徴量を入力として訓練させたモデルである、
請求項9または請求項10に記載の楽器識別装置。 - 前記音響特徴量算出部は、前記音信号に基づいて、複数種類の前記音響特徴量を算出し、
前記画像特徴量算出部は、前記複数種類の音響特徴量に基づく複数の前記画像特徴量を算出し、
前記学習済モデルは、前記複数種類の音響特徴量に基づく複数の前記画像特徴量を入力として訓練させたモデルである、
請求項9または請求項10に記載の楽器識別装置。 - 前記音響特徴量算出部は、前記音信号に基づいて、複数種類の前記音響特徴量を算出し、
前記画像特徴量算出部は、前記複数種類の音響特徴量に基づく複数種類の前記画像特徴量を算出し、
前記学習済モデルは、前記複数種類の音響特徴量に基づく複数種類の前記画像特徴量を入力として訓練させたモデルである、
請求項9または請求項10に記載の楽器識別装置。 - 前記音響特徴量算出部は、前記音信号における1回の発音から前記音響特徴量を算出する、
請求項9または請求項10に記載の楽器識別装置。 - 前記音響特徴量算出部は、前記音信号として、単楽器の出力音を入力する、
請求項9または請求項10に記載の楽器識別装置。 - 前記学習済モデルは、CNNである、
請求項9または請求項10に記載の楽器識別装置。 - 音信号に基づいて音響特徴量を算出し、
前記音響特徴量に基づいて、画像認識技術で用いられる画像特徴量を算出し、
前記音信号と楽器を特定する情報とが対応しており、前記画像特徴量を入力とし、前記楽器を特定する情報を出力として訓練させた学習済モデルを用いて、前記音信号から前記楽器を特定する情報を出力する、
処理をコンピュータで実行させる楽器識別プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022136925A JP2024033382A (ja) | 2022-08-30 | 2022-08-30 | 楽器識別方法、楽器識別装置、および、楽器識別プログラム |
PCT/JP2023/030880 WO2024048492A1 (ja) | 2022-08-30 | 2023-08-28 | 楽器識別方法、楽器識別装置、および、楽器識別プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022136925A JP2024033382A (ja) | 2022-08-30 | 2022-08-30 | 楽器識別方法、楽器識別装置、および、楽器識別プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024033382A true JP2024033382A (ja) | 2024-03-13 |
Family
ID=90099885
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022136925A Pending JP2024033382A (ja) | 2022-08-30 | 2022-08-30 | 楽器識別方法、楽器識別装置、および、楽器識別プログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2024033382A (ja) |
WO (1) | WO2024048492A1 (ja) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110000359A1 (en) * | 2008-02-15 | 2011-01-06 | Pioneer Corporation | Music composition data analyzing device, musical instrument type detection device, music composition data analyzing method, musical instrument type detection device, music composition data analyzing program, and musical instrument type detection program |
JP7243052B2 (ja) * | 2018-06-25 | 2023-03-22 | カシオ計算機株式会社 | オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム |
JP2021128252A (ja) * | 2020-02-13 | 2021-09-02 | 学校法人梅村学園 | 音源分離プログラム、音源分離装置、音源分離方法及び生成プログラム |
CN114627885A (zh) * | 2022-02-25 | 2022-06-14 | 西安电子科技大学 | 一种基于asrt算法的小样本数据集乐器识别方法 |
-
2022
- 2022-08-30 JP JP2022136925A patent/JP2024033382A/ja active Pending
-
2023
- 2023-08-28 WO PCT/JP2023/030880 patent/WO2024048492A1/ja unknown
Also Published As
Publication number | Publication date |
---|---|
WO2024048492A1 (ja) | 2024-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cano et al. | Musical source separation: An introduction | |
JP7243052B2 (ja) | オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム | |
Duan et al. | Multiple fundamental frequency estimation by modeling spectral peaks and non-peak regions | |
US9779706B2 (en) | Context-dependent piano music transcription with convolutional sparse coding | |
Cogliati et al. | Context-dependent piano music transcription with convolutional sparse coding | |
CN108766409A (zh) | 一种戏曲合成方法、装置和计算机可读存储介质 | |
Natsiou et al. | Audio representations for deep learning in sound synthesis: A review | |
Ewert et al. | Piano transcription in the studio using an extensible alternating directions framework | |
US11875777B2 (en) | Information processing method, estimation model construction method, information processing device, and estimation model constructing device | |
Jonason | The control-synthesis approach for making expressive and controllable neural music synthesizers | |
WO2013187986A1 (en) | Systems, methods, apparatus, and computer-readable media for pitch trajectory analysis | |
Itoyama et al. | Integration and adaptation of harmonic and inharmonic models for separating polyphonic musical signals | |
US20210366454A1 (en) | Sound signal synthesis method, neural network training method, and sound synthesizer | |
Caetano et al. | A source-filter model for musical instrument sound transformation | |
WO2024048492A1 (ja) | 楽器識別方法、楽器識別装置、および、楽器識別プログラム | |
US20210350783A1 (en) | Sound signal synthesis method, neural network training method, and sound synthesizer | |
Kitahara et al. | Instrogram: A new musical instrument recognition technique without using onset detection nor f0 estimation | |
WO2020241641A1 (ja) | 生成モデル確立方法、生成モデル確立システム、プログラムおよび訓練データ準備方法 | |
Stöter et al. | Unison Source Separation. | |
Lavault et al. | StyleWaveGAN: Style-based synthesis of drum sounds using generative adversarial networks for higher audio quality | |
Shtern et al. | Evaluating music mastering quality using machine learning | |
US20210366453A1 (en) | Sound signal synthesis method, generative model training method, sound signal synthesis system, and recording medium | |
US20210383816A1 (en) | Sound signal generation method, generative model training method, sound signal generation system, and recording medium | |
Tanabe et al. | Music source separation with generative adversarial network and waveform averaging | |
Julian et al. | Music to Score Conversion using Machine Learning |