JP2024033382A - 楽器識別方法、楽器識別装置、および、楽器識別プログラム - Google Patents

楽器識別方法、楽器識別装置、および、楽器識別プログラム Download PDF

Info

Publication number
JP2024033382A
JP2024033382A JP2022136925A JP2022136925A JP2024033382A JP 2024033382 A JP2024033382 A JP 2024033382A JP 2022136925 A JP2022136925 A JP 2022136925A JP 2022136925 A JP2022136925 A JP 2022136925A JP 2024033382 A JP2024033382 A JP 2024033382A
Authority
JP
Japan
Prior art keywords
musical instrument
acoustic
image
sound signal
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022136925A
Other languages
English (en)
Inventor
賀文 水野
多伸 近藤
祐 高橋
さやか 塩田
佑樹 城間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Tokyo Metropolitan Public University Corp
Original Assignee
Yamaha Corp
Tokyo Metropolitan Public University Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp, Tokyo Metropolitan Public University Corp filed Critical Yamaha Corp
Priority to JP2022136925A priority Critical patent/JP2024033382A/ja
Priority to PCT/JP2023/030880 priority patent/WO2024048492A1/ja
Publication of JP2024033382A publication Critical patent/JP2024033382A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10GREPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
    • G10G3/00Recording music in notation form, e.g. recording the mechanical operation of a musical instrument
    • G10G3/04Recording music in notation form, e.g. recording the mechanical operation of a musical instrument using electrical means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Auxiliary Devices For Music (AREA)
  • Image Analysis (AREA)

Abstract

【課題】入力音の音源の楽器を特定する情報を自動で識別する。【解決手段】楽器識別方法は、音信号に基づいて音響特徴量を算出し、前記音響特徴量に基づいて画像認識技術で用いられる画像特徴量を算出し、前記音信号と楽器を特定する情報とが対応しており、前記画像特徴量を入力とし、前記楽器を特定する情報を出力として訓練させた学習済モデルを用いて、前記音信号から前記楽器を特定する情報を出力する。【選択図】図2

Description

この発明の一実施形態は、楽器識別方法、楽器識別装置、および、楽器識別プログラムに関する。
非特許文献1には、音響特徴量から得られた画像特徴量を用いて、音楽のジャンルを推定する方法が開示されている。
Combining visual and acoustic features for music genreclassification, Expert Systems With Applications 45(2016)108-117, An Internationaljournal
ミキサの操作等において、入力音の音源の楽器名等の楽器を特定する情報を知りたいことがある。しかしながら、非特許文献1の方法では、入力音の音源の楽器名を自動で識別できない。
以上の事情を考慮して、本開示のひとつの態様は、入力音の音源の楽器を特定する情報を自動で識別することを目的とする。
楽器識別方法は、音信号に基づいて音響特徴量を算出し、前記音響特徴量に基づいて画像認識技術で用いられる画像特徴量を算出し、前記音信号と楽器を特定する情報とが対応しており、前記画像特徴量を入力とし、前記楽器を特定する情報を出力として訓練させた学習済モデルを用いて、前記音信号から前記楽器を特定する情報を出力する。
楽器識別装置は、入力音の音源の楽器を特定する情報を自動で識別できる。
図1は、楽器識別装置10の構成を示すブロック図である。 図2は、楽器識別装置10の概略処理を示すフローチャートである。 図3(A)、図3(B)、図3(C)は、音響特徴量を算出するための前処理を説明するための波形図の一例を示す。 図4は、音響特徴量の算出から画像特徴量の算出にかけての処理の流れを示すブロック図である。 図5(A)、図5(B)、図5(C)は、音響特徴量の一例を示す図である。 図6(A)、図6(B)は、画像特徴量の一例を示す図である。 図7は、音響特徴量の算出、画像特徴量の算出、および、識別手法の処理例を示すフローチャートである。 図8は、音響特徴量の算出、画像特徴量の算出、および、識別手法の処理例を示すフローチャートである。 図9は、音響特徴量の算出、画像特徴量の算出、および、識別手法の処理例を示すフローチャートである。 図10は、音響特徴量の算出、画像特徴量の算出、および、識別手法の処理例を示すフローチャートである。 図11は、音響特徴量の算出、画像特徴量の算出、および、識別手法の処理例を示すフローチャートである。 図12は、音響特徴量の算出、画像特徴量の算出、および、識別手法の処理例を示すフローチャートである。 図13は、音響特徴量の算出、画像特徴量の算出、および、識別手法の処理例を示すフローチャートである。 図14は、音響特徴量の算出、画像特徴量の算出、および、識別手法の処理例を示すフローチャートである。 図15(A)、図15(B)は、上述の各種手法を用いたときの識別結果(正答率)を示す表であり、図15(C)は、従来の識別方法を用いたときの識別結果(正答率)を示す表である。
図1は、楽器識別装置10の構成を示すブロック図である。図2は、楽器識別装置10の概略処理を示すフローチャートである。
楽器識別装置10は、前処理部20、音響特徴量算出部30、画像特徴量算出部40、および、識別部50を備える。識別部50は、学習済モデル500を記憶している。
楽器識別装置10は、例えば、プロセッサ、コンピュータ等、これらによって実行される後述の処理を行うためのプログラム、および、該プログラムを記憶する記憶媒体で実現される。なお、プログラムの記憶箇所は、クラウド上にあってもよい。また、学習済モデル500の記憶箇所も、クラウド上にあってもよい。
(概略的な構成および処理の説明)
推定対象の楽器の演奏音(出力音)の音信号は、前処理部20に入力される。前処理部20は、入力された音信号に、正規化や無音除去等の前処理を行う。前処理部20は、前処理後の音信号を、音響特徴量算出部30に出力する。
音響特徴量算出部30は、音信号に基づいて音響特徴量を算出する(図2、S11)。音響特徴量算出部30は、音響特徴量を画像特徴量算出部40に出力する。
画像特徴量算出部40は、音響特徴量に基づいて画像特徴量を算出する(図2、S12)。より具体的には、画像特徴量算出部40は、音響特徴量に基づいて二次元画像を形成し、二次元画像から画像特徴量を算出する。
画像特徴量は、画像認識技術において高い認識精度が得られる特徴量である。例えば、画像特徴量は、画像の輝度勾配や各色のエッジ、コーナー、ブロブ、鮮やかさ、明るさ、色合い等に基づいた、画像の局所的な特徴量である。
画像特徴量算出部40は、画像特徴量を識別部50に出力する。この際、画像特徴量算出部40は、画像特徴量とともに音響特徴量を、識別部50に出力してもよい。
識別部50は、少なくとも画像特徴量を入力とし、学習済モデル500を用いて、楽器名を識別して、出力する(図2、S13)。学習済モデル500は、楽器の演奏音と楽器名とが対応しており、画像特徴量を入力とし、楽器名を出力として訓練させた機械学習モデルである。楽器名が、本発明の「楽器を特定する情報」の一例である。すなわち、本実施形態では、楽器名を識別する態様を示すが、音源の楽器を特定する別の情報であっても、本実施形態の態様を適用でき、識別できる。
このように、楽器識別装置10は、音響特徴量に基づく画像特徴量を用いて、楽器(楽器名)を識別する。楽器識別装置10は、画像特徴量を用いることで、音響特徴量に基づく認識精度の高い画像認識を用いて楽器を識別できる。これにより、楽器識別装置10は、楽器の識別精度を向上できる。
以下、楽器識別装置10が行う具体的な処理の例について説明する。
(楽器識別の流れ)
(前処理)
図3(A)、図3(B)、図3(C)は、音響特徴量を算出するための前処理を説明するための波形図の一例を示す。図3(A)、図3(B)、図3(C)に示す波形は、それぞれに異なる楽器の演奏音(出力音)を示す。
前処理部20には、図3(A)、図3(B)、図3(C)に示すような波形の音信号が入力される。音信号の波形とは、音信号の振幅の時間遷移を示すものである。
前処理部20は、正規化を行うことで、楽器の識別のための基準音量(振幅)に波形を調整する。これにより、楽器識別装置10は、楽器の音の大きさが識別結果に与える影響を、抑制できる。すなわち、楽器識別装置10は、楽器を大音量で演奏したか、小音量で演奏したかの差が識別結果に与える影響を抑制できる。
前処理部20は、音信号の無音部を除去することで、音響特徴量を算出するためのサンプリング期間Tsの音信号(波形)を出力する。これにより、前処理部20は、音響特徴量を算出するための前処理を行った演奏音を出力する。
音響特徴量を算出するための前処理を行った演奏音とは、旋律やリズムに影響されない音であることが好ましい。例えば、非調和楽器である打楽器であれば、打楽器を1回(またはリズムに関係無く複数回)たたく(演奏する)ことで発生する音である。また、調和楽器である弦楽器であれば、弦楽器の弦を1回(または旋律やリズムに関係無く複数回)ひくまたははじくことで発生する音である。
このような演奏音を用いることで、楽器識別装置10は、音響特徴量が旋律やリズムの影響を受けることを抑制し、楽器の識別精度を向上できる。
なお、これらの前処理部20で行う処理は、音響特徴量算出部30で行ってもよい。
(特徴量の抽出(音響特徴量の算出および画像特徴量の算出))
図4は、音響特徴量の算出から画像特徴量の算出にかけての処理の流れを示すブロック図である。なお、図4では、音信号から複数種類の音響特徴量を算出し、複数種類の音響特徴量から複数種類の画像特徴量を算出する場合を示す。図5(A)、図5(B)、図5(C)は、音響特徴量の一例を示す図である。図5(A)は、対数スペクトログラムを示し、図5(B)は、対数メルスペクトログラムを示し、図5(C)は、CQTスペクトログラムを示し、これらは、1つの音信号に基づいて算出されている。
音響特徴量算出部30は、入力された音信号に対して、短時間フーリエ変換(STFT)を行うことで、時間周波数領域への変換を行う。音響特徴量算出部30は、音信号の短時間フーリエ変換結果に基づいて、対数スペクトログラム、対数メルスペクトログラムを算出する。
音響特徴量算出部30は、入力された音信号に対して、定Q変換(CQT)を行うことで、時間周波数領域への変換を行う。音響特徴量算出部30は、音信号の定Q変換結果に基づいて、CQTスペクトログラムを算出する。
図5(A)図5(B)、図5(C)に示すように、対数スペクトログラム、対数メルスペクトログラム、CQTスペクトログラムは、時間と周波数と二軸を用いたスペクトログラムである。すなわち、音響特徴量は、時間と周波数の二軸のスペクトログラムによって表される。そして、これら複数種類の音響特徴量のスペクトログラムは、図5(A)、図5(B)、図5(C)に示すように、それぞれに異なる特徴量を有する。したがって、音響特徴量算出部30は、それぞれの異なる音響特徴量を取得できる。
なお、楽器識別装置10は、これらの音響特徴量の少なくとも1種類を算出し、この音響特徴量に基づいて画像特徴量を算出すれば、楽器を識別できる。また、音響特徴量は、音信号を時間周波数領域に変換したものであれば、他の手法を用いたものであってもよい。
画像特徴量算出部40は、音響特徴量、すなわち、対数スペクトログラム、対数メルスペクトログラム、CQTスペクトログラムに基づいて、LBP(Local Binary Pattern)およびHOG(Histograms of Oriented Gradients)の少なくとも1つの画像特徴抽出法を用いて、画像特徴量を算出する。
図6(A)、図6(B)は、画像特徴量の一例を示す図である。図6(A)は、LBPムを示し、図5(B)は、HOCを示し、これらは、1つの音響特徴量(図5(B)の対数メルスペクトログラム)に基づいて算出されている。
図6(A)、図6(B)に示すように、LBP、HOGは、周波数と時間の二次元の画像で構成される。LBPは、音響特徴量に基づく画像の局所的な特徴(パターンやエッジ)が抽出されたものであり、HOGは、音響特徴量に基づく画像の輝度の勾配が抽出されたものである。すなわち、画像特徴量は、音響特徴量に基づく画像の特徴が周波数と時間の二次元画像で表される。そして、これら複数種類の画像特徴量は、図6(A)、図6(B)に示すように、それぞれに異なる特徴量を有する。したがって、画像特徴量算出部40は、それぞれの異なる画像特徴量を取得できる。
なお、楽器識別装置10は、これらの画像特徴量の少なくとも1種類を算出すれば、楽器を識別できる。また、画像特徴量は、音響特徴量を画像化し、この画像における画像認識技術を用いて高精度な画像認識が可能な特徴が得られるものであれば、他の手法(例えば、HSV等)を用いたものであってもよい。
(学習および推定)
識別部50は、例えば、CNN(畳み込みニューラルネットワーク)を用いて学習済モデル500を訓練する。この学習済モデル500は、音信号と楽器名とが対応しているデータセットによって、画像特徴量を入力とし、楽器名を出力として訓練されている。
識別部50は、この学習済モデル500を用いて画像特徴量を入力として楽器(楽器名)を識別し、出力する。
この際、識別部50は、例えば、ConvMixerを分類器として用いる。ConvMixerは、画像特徴量である二次元データをパッチに分割した後、畳み込み層に通過させるものである。ConvMixerは、パッチに分割するため局所的な特徴を捉えやすく、時間周波数表現において局所的に楽器の特徴が現れる楽器識別に適する。また、ConvMixerは、ネットワークがパッチ分割と畳み込みのみで構成されているので、学習が容易で、事前学習モデルや転移学習などを用いなくても、高精度な識別を可能とする学習済モデル500を実現できる。
このように、楽器識別装置10は、楽器の識別に適するように音響特徴量を算出し、この音響特徴量から、画像認識技術において画像認識精度が高い画像特徴量をする。そして、楽器識別装置10は、このような画像特徴量を用いることで、楽器の識別精度を向上できる。
また、楽器識別装置10は、特徴量の組み合わせを調整して楽器の識別を行うこともできる。これにより、楽器識別装置10は、楽器の分類(例えば、調和楽器か非調和楽器かなど)等に応じて特徴量の組合せを設定でき、楽器の識別精度をさらに向上できる。
このような楽器識別装置10は、例えば、ミキサの入力段に適用できる。利用方法としては、楽器識別装置10は、ミキサの入力段に接続された音楽ソース(楽器)を自動で識別する。ミキサは、表示等を用いて識別結果をユーザに通知する。これにより、ユーザは、音楽ソースを容易に且つより正確に把握でき、ミキサの設定等の操作を容易にできる。
(音響特徴量の算出、画像特徴量の算出、識別手法の各種具体例)
図7から図14の各図は、音響特徴量の算出、画像特徴量の算出、および、識別手法の処理例を示すフローチャートである。図7から図14は、それぞれに異なる処理を行っている。
(画像特徴量のみを用いる処理)
画像特徴量を用い、音響特徴量を用いない処理を、図7から図10を参照して、以下の(A)から(D)に示す。
(A) 1種類の画像特徴量の学習済モデルを用いる処理(図7参照)
音響特徴量算出部30は、音信号に基づいて1種類の音響特徴量を算出する(S11A)。例えば、音響特徴量算出部30は、対数スペクトログラム、対数メルスペクトログラム、および、CQTスペクトログラムのいずれか1種類を算出する。
画像特徴量算出部40は、1種類の音響特徴量に基づいて1種類の画像特徴量を算出する(S12A)。例えば、画像特徴量算出部40は、音響特徴量が対数メルスペクトログラムであれば、対数メルスペクトログラムのLBPまたはHOGを算出する。
識別部50は、1種類の画像特徴量を入力とした学習済モデル500を用いて、楽器名を識別する(S13A)。例えば、識別部50は、画像特徴量が対数メルスペクトログラムのLBPであれば、対数メルスペクトログラムのLBPを入力とした学習済モデル500を用いて、楽器名を識別する。
(B) 1種類の音響特徴量に基づく複数種類の画像特徴量のアンサンブル学習済モデルを用いる処理(図8参照)
音響特徴量算出部30は、音信号に基づいて1種類の音響特徴量を算出する(S11B)。
画像特徴量算出部40は、1種類の音響特徴量に基づいて複数種類の画像特徴量を算出する(S12B)。例えば、画像特徴量算出部40は、音響特徴量が対数メルスペクトログラムであれば、対数メルスペクトログラムのLBPおよびHOGを算出する。
識別部50は、複数種類の画像特徴量を入力とするアンサンブル学習された学習済モデル500を用いて、楽器名を識別する(S13B)。例えば、識別部50は、画像特徴量が対数メルスペクトログラムのLBPおよびHOGであれば、対数メルスペクトログラムのLBPおよびHOGを入力とするアンサンブル学習された学習済モデル500を用いて、楽器名を識別する。
(C) 複数種類の音響特徴量に基づく1種類で複数の画像特徴量のアンサンブル学習済モデルを用いる処理(図9参照)
音響特徴量算出部30は、音信号に基づいて複数種類の音響特徴量を算出する(S11C)。例えば、音響特徴量算出部30は、対数スペクトログラム、対数メルスペクトログラム、および、CQTスペクトログラムのうち複数種類を算出する。
画像特徴量算出部40は、複数種類の音響特徴量に基づいて1種類で複数(同種で複数)の画像特徴量を算出する(S12C)。例えば、画像特徴量算出部40は、音響特徴量が対数メルスペクトログラムとCQTスペクトログラムであれば、対数メルスペクトログラムのLBPおよびCQTスペクトログラムのLBPを算出する。
識別部50は、1種類で複数の画像特徴量を入力とするアンサンブル学習された学習済モデル500を用いて、楽器名を識別する(S13C)。例えば、識別部50は、画像特徴量が対数メルスペクトログラムのLBPおよびCQTスペクトログラムのLBPであれば、対数メルスペクトログラムのLBPおよびCQTスペクトログラムのLBPを入力とするアンサンブル学習された学習済モデル500を用いて、楽器名を識別する。
(D) 複数種類の音響特徴量に基づく複数種類の画像特徴量のアンサンブル学習済モデルを用いる処理(図10参照)
音響特徴量算出部30は、音信号に基づいて複数種類の音響特徴量を算出する(S11D)。例えば、音響特徴量算出部30は、対数スペクトログラム、対数メルスペクトログラム、および、CQTスペクトログラムのうち複数種類を算出する。
画像特徴量算出部40は、複数種類の音響特徴量に基づいて複数種類の画像特徴量を算出する(S12D)。例えば、画像特徴量算出部40は、音響特徴量が対数スペクトログラム、対数メルスペクトログラム、および、CQTスペクトログラムであれば、対数スペクトログラム、対数メルスペクトログラム、および、CQTスペクトログラムのそれぞれについてLBPとHOGを算出する。
識別部50は、複数種類で複数の画像特徴量を入力とするアンサンブル学習された学習済モデル500を用いて、楽器名を識別する(S13D)。例えば、識別部50は、画像特徴量が対数スペクトログラム、対数メルスペクトログラム、および、CQTスペクトログラムのそれぞれのLBPとHOGであれば、対数スペクトログラム、対数メルスペクトログラム、および、CQTスペクトログラムのそれぞれのLBPとHOGを入力とするアンサンブル学習された学習済モデル500を用いて、楽器名を識別する。
(画像特徴量と音響特徴量とを用いる場合)
画像特徴量と音響特徴量とを用いる処理を、図11から図14を参照して、以下の(E)から(H)に示す。なお、以下の(E)から(H)では、基本的な処理を説明し、(A)から(D)に示したような具体例は省略する。
(E) 1種類の画像特徴量と1種類の音響特徴量のアンサンブル学習済モデルを用いる処理(図11参照)
音響特徴量算出部30は、音信号に基づいて1種類の音響特徴量を算出する(S11E)。画像特徴量算出部40は、1種類の音響特徴量に基づいて1種類の画像特徴量を算出する(S12E)。識別部50は、1種類の画像特徴量と1種類の音響特徴量を入力とするアンサンブル学習された学習済モデル500を用いて、楽器名を識別する(S13E)。
(F) 複数種類の画像特徴量と1種類の音響特徴量のアンサンブル学習済モデルを用いる処理(図12参照)
音響特徴量算出部30は、音信号に基づいて1種類の音響特徴量を算出する(S11F)。画像特徴量算出部40は、1種類の音響特徴量に基づいて複数種類の画像特徴量を算出する(S12F)。識別部50は、複数種類の画像特徴量と1種類の音響特徴量を入力とするアンサンブル学習された学習済モデル500を用いて、楽器名を識別する(S13F)。
(G)1種類で複数の画像特徴量と複数種類の音響特徴量のアンサンブル学習済モデルを用いる処理(図13参照)
音響特徴量算出部30は、音信号に基づいて複数種類の音響特徴量を算出する(S11G)。画像特徴量算出部40は、複数種類の音響特徴量に基づいて1種類で複数の画像特徴量を算出する(S12G)。識別部50は、1種類で複数の画像特徴量と複数種類の音響特徴量を入力とするアンサンブル学習された学習済モデル500を用いて、楽器名を識別する(S13G)。
(H)複数種類の画像特徴量と複数種類の音響特徴量のアンサンブル学習済モデルを用いる処理(図13参照)
音響特徴量算出部30は、音信号に基づいて複数種類の音響特徴量を算出する(S11H)。画像特徴量算出部40は、複数種類の音響特徴量に基づいて複数種類の画像特徴量を算出する(S12H)。識別部50は、複数種類で画像特徴量と複数種類の音響特徴量を入力とするアンサンブル学習された学習済モデル500を用いて、楽器名を識別する(S13H)。
このように、楽器識別装置10は、少なくとも画像特徴量を用いて楽器を識別する場合を含み、特徴量の各種の組合せで楽器を識別できる。
特に、楽器識別装置10が画像特徴量と音響特徴量とを用いて楽器を識別する場合、以下の作用効果を奏する。
音響特徴量から画像特徴量に変換する際、欠損してしまった特徴が存在する場合がある。すなわち、音響特徴量には存在するが画像特徴量には存在しない特徴が存在する場合がある。しかしながら、楽器識別装置10は、画像特徴量と音響特徴量とを用いて識別を行うことで、この欠損してしまった特徴も含んで、楽器を識別できる。
(実験結果)
図15(A)、図15(B)は、上述の各種手法を用いたときの識別結果(正答率)を示す表である。図15(C)は、従来の識別方法を用いたときの識別結果(正答率)を示す表である。図15(A)は、1種類の音響特徴量、または、1種類の画像特徴量をもちいたときの識別結果であり、図15(B)は、アンサンブル手法を用いたときの識別結果である。
図15(A)、図15(B)、図15(C)に示すように、楽器識別装置10は、画像特徴量を用いることで、少なくとも従来の識別方法と同程度以上で楽器を識別でき、採用する画像特徴量を適宜選択することで、よりも高い精度で楽器を識別できる。また、楽器識別装置10は、画像特徴量と音響特徴量とのアンサンブル手法を用いることで、さらに高い精度で楽器を識別できる。また、楽器識別装置10は、アンサンブルする特徴量の数を増やすことによって、より一層高い精度で楽器を識別できる。
なお、上述の説明では、単楽器の出力音が単音であり、単音から楽器を識別する態様を示した。しかしながら、単楽器の複数音、和音、複数楽器の音等から楽器や複数楽器のアンサンブル等を識別することも可能であり、この際、上述の技術を適用することができる。
本実施形態の説明は、すべての点で例示であって、制限的なものではない。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲には、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
10:楽器識別装置
20:前処理部
30:音響特徴量算出部
40:画像特徴量算出部
50:識別部
500:学習済モデル

Claims (17)

  1. 音信号に基づいて音響特徴量を算出し、
    前記音響特徴量に基づいて、画像認識技術で用いられる画像特徴量を算出し、
    前記音信号と楽器を特定する情報とが対応しており、前記画像特徴量を入力とし、前記楽器を特定する情報を出力として訓練させた学習済モデルを用いて、前記音信号から前記楽器を特定する情報を出力する、
    楽器識別方法。
  2. 前記学習済モデルは、前記音響特徴量を入力としてさらに加えて訓練させたモデルである、
    請求項1に記載の楽器識別方法。
  3. 前記音響特徴量に対して、複数種類の前記画像特徴量を算出し、
    前記学習済モデルは、前記複数種類の画像特徴量を入力として訓練させたモデルである、
    請求項1または請求項2に記載の楽器識別方法。
  4. 前記音信号に基づいて、複数種類の前記音響特徴量を算出し、
    前記学習済モデルは、前記複数種類の音響特徴量に基づく複数の前記画像特徴量を入力として訓練させたモデルである、
    請求項1または請求項2に記載の楽器識別方法。
  5. 前記音信号に基づいて、複数種類の前記音響特徴量を算出し、
    前記学習済モデルは、前記複数種類の音響特徴量に基づく複数種類の前記画像特徴量を入力として訓練させたモデルである、
    請求項1または請求項2に記載の楽器識別方法。
  6. 前記音信号における1回の発音から前記音響特徴量を算出する、
    請求項1または請求項2に記載の楽器識別方法。
  7. 前記音信号として、単楽器の出力音を入力する、
    請求項1または請求項2に記載の楽器識別方法。
  8. 前記学習済モデルは、CNNである、
    請求項1または請求項2に記載の楽器識別方法。
  9. 音信号に基づいて音響特徴量を算出する音響特徴量算出部と、
    前記音響特徴量に基づいて、画像認識技術で用いられる画像特徴量を算出する画像特徴量算出部と、
    前記音信号と楽器を特定する情報とが対応しており、前記画像特徴量を入力とし、前記楽器を特定する情報を出力として訓練させた学習済モデルを用いて、前記音信号から前記楽器を特定する情報を出力する識別部と、
    を備える、
    楽器識別装置。
  10. 前記学習済モデルは、前記音響特徴量を入力としてさらに加えて訓練させたモデルである、
    請求項9に記載の楽器識別装置。
  11. 前記画像特徴量算出部は、前記音響特徴量に対して、複数種類の前記画像特徴量を算出し、
    前記学習済モデルは、前記複数種類の画像特徴量を入力として訓練させたモデルである、
    請求項9または請求項10に記載の楽器識別装置。
  12. 前記音響特徴量算出部は、前記音信号に基づいて、複数種類の前記音響特徴量を算出し、
    前記画像特徴量算出部は、前記複数種類の音響特徴量に基づく複数の前記画像特徴量を算出し、
    前記学習済モデルは、前記複数種類の音響特徴量に基づく複数の前記画像特徴量を入力として訓練させたモデルである、
    請求項9または請求項10に記載の楽器識別装置。
  13. 前記音響特徴量算出部は、前記音信号に基づいて、複数種類の前記音響特徴量を算出し、
    前記画像特徴量算出部は、前記複数種類の音響特徴量に基づく複数種類の前記画像特徴量を算出し、
    前記学習済モデルは、前記複数種類の音響特徴量に基づく複数種類の前記画像特徴量を入力として訓練させたモデルである、
    請求項9または請求項10に記載の楽器識別装置。
  14. 前記音響特徴量算出部は、前記音信号における1回の発音から前記音響特徴量を算出する、
    請求項9または請求項10に記載の楽器識別装置。
  15. 前記音響特徴量算出部は、前記音信号として、単楽器の出力音を入力する、
    請求項9または請求項10に記載の楽器識別装置。
  16. 前記学習済モデルは、CNNである、
    請求項9または請求項10に記載の楽器識別装置。
  17. 音信号に基づいて音響特徴量を算出し、
    前記音響特徴量に基づいて、画像認識技術で用いられる画像特徴量を算出し、
    前記音信号と楽器を特定する情報とが対応しており、前記画像特徴量を入力とし、前記楽器を特定する情報を出力として訓練させた学習済モデルを用いて、前記音信号から前記楽器を特定する情報を出力する、
    処理をコンピュータで実行させる楽器識別プログラム。
JP2022136925A 2022-08-30 2022-08-30 楽器識別方法、楽器識別装置、および、楽器識別プログラム Pending JP2024033382A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022136925A JP2024033382A (ja) 2022-08-30 2022-08-30 楽器識別方法、楽器識別装置、および、楽器識別プログラム
PCT/JP2023/030880 WO2024048492A1 (ja) 2022-08-30 2023-08-28 楽器識別方法、楽器識別装置、および、楽器識別プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022136925A JP2024033382A (ja) 2022-08-30 2022-08-30 楽器識別方法、楽器識別装置、および、楽器識別プログラム

Publications (1)

Publication Number Publication Date
JP2024033382A true JP2024033382A (ja) 2024-03-13

Family

ID=90099885

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022136925A Pending JP2024033382A (ja) 2022-08-30 2022-08-30 楽器識別方法、楽器識別装置、および、楽器識別プログラム

Country Status (2)

Country Link
JP (1) JP2024033382A (ja)
WO (1) WO2024048492A1 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110000359A1 (en) * 2008-02-15 2011-01-06 Pioneer Corporation Music composition data analyzing device, musical instrument type detection device, music composition data analyzing method, musical instrument type detection device, music composition data analyzing program, and musical instrument type detection program
JP7243052B2 (ja) * 2018-06-25 2023-03-22 カシオ計算機株式会社 オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム
JP2021128252A (ja) * 2020-02-13 2021-09-02 学校法人梅村学園 音源分離プログラム、音源分離装置、音源分離方法及び生成プログラム
CN114627885A (zh) * 2022-02-25 2022-06-14 西安电子科技大学 一种基于asrt算法的小样本数据集乐器识别方法

Also Published As

Publication number Publication date
WO2024048492A1 (ja) 2024-03-07

Similar Documents

Publication Publication Date Title
Cano et al. Musical source separation: An introduction
JP7243052B2 (ja) オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム
Duan et al. Multiple fundamental frequency estimation by modeling spectral peaks and non-peak regions
US9779706B2 (en) Context-dependent piano music transcription with convolutional sparse coding
Cogliati et al. Context-dependent piano music transcription with convolutional sparse coding
CN108766409A (zh) 一种戏曲合成方法、装置和计算机可读存储介质
Natsiou et al. Audio representations for deep learning in sound synthesis: A review
Ewert et al. Piano transcription in the studio using an extensible alternating directions framework
US11875777B2 (en) Information processing method, estimation model construction method, information processing device, and estimation model constructing device
Jonason The control-synthesis approach for making expressive and controllable neural music synthesizers
WO2013187986A1 (en) Systems, methods, apparatus, and computer-readable media for pitch trajectory analysis
Itoyama et al. Integration and adaptation of harmonic and inharmonic models for separating polyphonic musical signals
US20210366454A1 (en) Sound signal synthesis method, neural network training method, and sound synthesizer
Caetano et al. A source-filter model for musical instrument sound transformation
WO2024048492A1 (ja) 楽器識別方法、楽器識別装置、および、楽器識別プログラム
US20210350783A1 (en) Sound signal synthesis method, neural network training method, and sound synthesizer
Kitahara et al. Instrogram: A new musical instrument recognition technique without using onset detection nor f0 estimation
WO2020241641A1 (ja) 生成モデル確立方法、生成モデル確立システム、プログラムおよび訓練データ準備方法
Stöter et al. Unison Source Separation.
Lavault et al. StyleWaveGAN: Style-based synthesis of drum sounds using generative adversarial networks for higher audio quality
Shtern et al. Evaluating music mastering quality using machine learning
US20210366453A1 (en) Sound signal synthesis method, generative model training method, sound signal synthesis system, and recording medium
US20210383816A1 (en) Sound signal generation method, generative model training method, sound signal generation system, and recording medium
Tanabe et al. Music source separation with generative adversarial network and waveform averaging
Julian et al. Music to Score Conversion using Machine Learning