JP2024033382A

JP2024033382A - 楽器識別方法、楽器識別装置、および、楽器識別プログラム

Info

Publication number: JP2024033382A
Application number: JP2022136925A
Authority: JP
Inventors: 賀文水野; 多伸近藤; 祐高橋; さやか塩田; 佑樹城間
Original assignee: Yamaha Corp; Tokyo Metropolitan Public University Corp
Current assignee: Yamaha Corp; Tokyo Metropolitan Public University Corp
Priority date: 2022-08-30
Filing date: 2022-08-30
Publication date: 2024-03-13
Also published as: WO2024048492A1

Abstract

【課題】入力音の音源の楽器を特定する情報を自動で識別する。【解決手段】楽器識別方法は、音信号に基づいて音響特徴量を算出し、前記音響特徴量に基づいて画像認識技術で用いられる画像特徴量を算出し、前記音信号と楽器を特定する情報とが対応しており、前記画像特徴量を入力とし、前記楽器を特定する情報を出力として訓練させた学習済モデルを用いて、前記音信号から前記楽器を特定する情報を出力する。【選択図】図２

Description

この発明の一実施形態は、楽器識別方法、楽器識別装置、および、楽器識別プログラムに関する。

非特許文献１には、音響特徴量から得られた画像特徴量を用いて、音楽のジャンルを推定する方法が開示されている。

Combining visual and acoustic features for music genreclassification, Expert Systems With Applications 45(2016)108-117, An Internationaljournal

ミキサの操作等において、入力音の音源の楽器名等の楽器を特定する情報を知りたいことがある。しかしながら、非特許文献１の方法では、入力音の音源の楽器名を自動で識別できない。

以上の事情を考慮して、本開示のひとつの態様は、入力音の音源の楽器を特定する情報を自動で識別することを目的とする。

楽器識別方法は、音信号に基づいて音響特徴量を算出し、前記音響特徴量に基づいて画像認識技術で用いられる画像特徴量を算出し、前記音信号と楽器を特定する情報とが対応しており、前記画像特徴量を入力とし、前記楽器を特定する情報を出力として訓練させた学習済モデルを用いて、前記音信号から前記楽器を特定する情報を出力する。

楽器識別装置は、入力音の音源の楽器を特定する情報を自動で識別できる。

図１は、楽器識別装置１０の構成を示すブロック図である。図２は、楽器識別装置１０の概略処理を示すフローチャートである。図３（Ａ）、図３（Ｂ）、図３（Ｃ）は、音響特徴量を算出するための前処理を説明するための波形図の一例を示す。図４は、音響特徴量の算出から画像特徴量の算出にかけての処理の流れを示すブロック図である。図５（Ａ）、図５（Ｂ）、図５（Ｃ）は、音響特徴量の一例を示す図である。図６（Ａ）、図６（Ｂ）は、画像特徴量の一例を示す図である。図７は、音響特徴量の算出、画像特徴量の算出、および、識別手法の処理例を示すフローチャートである。図８は、音響特徴量の算出、画像特徴量の算出、および、識別手法の処理例を示すフローチャートである。図９は、音響特徴量の算出、画像特徴量の算出、および、識別手法の処理例を示すフローチャートである。図１０は、音響特徴量の算出、画像特徴量の算出、および、識別手法の処理例を示すフローチャートである。図１１は、音響特徴量の算出、画像特徴量の算出、および、識別手法の処理例を示すフローチャートである。図１２は、音響特徴量の算出、画像特徴量の算出、および、識別手法の処理例を示すフローチャートである。図１３は、音響特徴量の算出、画像特徴量の算出、および、識別手法の処理例を示すフローチャートである。図１４は、音響特徴量の算出、画像特徴量の算出、および、識別手法の処理例を示すフローチャートである。図１５（Ａ）、図１５（Ｂ）は、上述の各種手法を用いたときの識別結果（正答率）を示す表であり、図１５（Ｃ）は、従来の識別方法を用いたときの識別結果（正答率）を示す表である。

図１は、楽器識別装置１０の構成を示すブロック図である。図２は、楽器識別装置１０の概略処理を示すフローチャートである。

楽器識別装置１０は、前処理部２０、音響特徴量算出部３０、画像特徴量算出部４０、および、識別部５０を備える。識別部５０は、学習済モデル５００を記憶している。

楽器識別装置１０は、例えば、プロセッサ、コンピュータ等、これらによって実行される後述の処理を行うためのプログラム、および、該プログラムを記憶する記憶媒体で実現される。なお、プログラムの記憶箇所は、クラウド上にあってもよい。また、学習済モデル５００の記憶箇所も、クラウド上にあってもよい。

（概略的な構成および処理の説明）
推定対象の楽器の演奏音（出力音）の音信号は、前処理部２０に入力される。前処理部２０は、入力された音信号に、正規化や無音除去等の前処理を行う。前処理部２０は、前処理後の音信号を、音響特徴量算出部３０に出力する。

音響特徴量算出部３０は、音信号に基づいて音響特徴量を算出する（図２、Ｓ１１）。音響特徴量算出部３０は、音響特徴量を画像特徴量算出部４０に出力する。

画像特徴量算出部４０は、音響特徴量に基づいて画像特徴量を算出する（図２、Ｓ１２）。より具体的には、画像特徴量算出部４０は、音響特徴量に基づいて二次元画像を形成し、二次元画像から画像特徴量を算出する。

画像特徴量は、画像認識技術において高い認識精度が得られる特徴量である。例えば、画像特徴量は、画像の輝度勾配や各色のエッジ、コーナー、ブロブ、鮮やかさ、明るさ、色合い等に基づいた、画像の局所的な特徴量である。

画像特徴量算出部４０は、画像特徴量を識別部５０に出力する。この際、画像特徴量算出部４０は、画像特徴量とともに音響特徴量を、識別部５０に出力してもよい。

識別部５０は、少なくとも画像特徴量を入力とし、学習済モデル５００を用いて、楽器名を識別して、出力する（図２、Ｓ１３）。学習済モデル５００は、楽器の演奏音と楽器名とが対応しており、画像特徴量を入力とし、楽器名を出力として訓練させた機械学習モデルである。楽器名が、本発明の「楽器を特定する情報」の一例である。すなわち、本実施形態では、楽器名を識別する態様を示すが、音源の楽器を特定する別の情報であっても、本実施形態の態様を適用でき、識別できる。

このように、楽器識別装置１０は、音響特徴量に基づく画像特徴量を用いて、楽器（楽器名）を識別する。楽器識別装置１０は、画像特徴量を用いることで、音響特徴量に基づく認識精度の高い画像認識を用いて楽器を識別できる。これにより、楽器識別装置１０は、楽器の識別精度を向上できる。

以下、楽器識別装置１０が行う具体的な処理の例について説明する。

（楽器識別の流れ）
（前処理）
図３（Ａ）、図３（Ｂ）、図３（Ｃ）は、音響特徴量を算出するための前処理を説明するための波形図の一例を示す。図３（Ａ）、図３（Ｂ）、図３（Ｃ）に示す波形は、それぞれに異なる楽器の演奏音（出力音）を示す。

前処理部２０には、図３（Ａ）、図３（Ｂ）、図３（Ｃ）に示すような波形の音信号が入力される。音信号の波形とは、音信号の振幅の時間遷移を示すものである。

前処理部２０は、正規化を行うことで、楽器の識別のための基準音量（振幅）に波形を調整する。これにより、楽器識別装置１０は、楽器の音の大きさが識別結果に与える影響を、抑制できる。すなわち、楽器識別装置１０は、楽器を大音量で演奏したか、小音量で演奏したかの差が識別結果に与える影響を抑制できる。

前処理部２０は、音信号の無音部を除去することで、音響特徴量を算出するためのサンプリング期間Ｔｓの音信号（波形）を出力する。これにより、前処理部２０は、音響特徴量を算出するための前処理を行った演奏音を出力する。

音響特徴量を算出するための前処理を行った演奏音とは、旋律やリズムに影響されない音であることが好ましい。例えば、非調和楽器である打楽器であれば、打楽器を1回（またはリズムに関係無く複数回）たたく（演奏する）ことで発生する音である。また、調和楽器である弦楽器であれば、弦楽器の弦を１回（または旋律やリズムに関係無く複数回）ひくまたははじくことで発生する音である。

このような演奏音を用いることで、楽器識別装置１０は、音響特徴量が旋律やリズムの影響を受けることを抑制し、楽器の識別精度を向上できる。

なお、これらの前処理部２０で行う処理は、音響特徴量算出部３０で行ってもよい。

（特徴量の抽出（音響特徴量の算出および画像特徴量の算出））
図４は、音響特徴量の算出から画像特徴量の算出にかけての処理の流れを示すブロック図である。なお、図４では、音信号から複数種類の音響特徴量を算出し、複数種類の音響特徴量から複数種類の画像特徴量を算出する場合を示す。図５（Ａ）、図５（Ｂ）、図５（Ｃ）は、音響特徴量の一例を示す図である。図５（Ａ）は、対数スペクトログラムを示し、図５（Ｂ）は、対数メルスペクトログラムを示し、図５（Ｃ）は、ＣＱＴスペクトログラムを示し、これらは、１つの音信号に基づいて算出されている。

音響特徴量算出部３０は、入力された音信号に対して、短時間フーリエ変換（ＳＴＦＴ）を行うことで、時間周波数領域への変換を行う。音響特徴量算出部３０は、音信号の短時間フーリエ変換結果に基づいて、対数スペクトログラム、対数メルスペクトログラムを算出する。

音響特徴量算出部３０は、入力された音信号に対して、定Ｑ変換（ＣＱＴ）を行うことで、時間周波数領域への変換を行う。音響特徴量算出部３０は、音信号の定Ｑ変換結果に基づいて、ＣＱＴスペクトログラムを算出する。

図５（Ａ）図５（Ｂ）、図５（Ｃ）に示すように、対数スペクトログラム、対数メルスペクトログラム、ＣＱＴスペクトログラムは、時間と周波数と二軸を用いたスペクトログラムである。すなわち、音響特徴量は、時間と周波数の二軸のスペクトログラムによって表される。そして、これら複数種類の音響特徴量のスペクトログラムは、図５（Ａ）、図５（Ｂ）、図５（Ｃ）に示すように、それぞれに異なる特徴量を有する。したがって、音響特徴量算出部３０は、それぞれの異なる音響特徴量を取得できる。

なお、楽器識別装置１０は、これらの音響特徴量の少なくとも１種類を算出し、この音響特徴量に基づいて画像特徴量を算出すれば、楽器を識別できる。また、音響特徴量は、音信号を時間周波数領域に変換したものであれば、他の手法を用いたものであってもよい。

画像特徴量算出部４０は、音響特徴量、すなわち、対数スペクトログラム、対数メルスペクトログラム、ＣＱＴスペクトログラムに基づいて、ＬＢＰ（ＬｏｃａｌＢｉｎａｒｙＰａｔｔｅｒｎ）およびＨＯＧ（ＨｉｓｔｏｇｒａｍｓｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔｓ）の少なくとも１つの画像特徴抽出法を用いて、画像特徴量を算出する。

図６（Ａ）、図６（Ｂ）は、画像特徴量の一例を示す図である。図６（Ａ）は、ＬＢＰムを示し、図５（Ｂ）は、ＨＯＣを示し、これらは、１つの音響特徴量（図５（Ｂ）の対数メルスペクトログラム）に基づいて算出されている。

図６（Ａ）、図６（Ｂ）に示すように、ＬＢＰ、ＨＯＧは、周波数と時間の二次元の画像で構成される。ＬＢＰは、音響特徴量に基づく画像の局所的な特徴（パターンやエッジ）が抽出されたものであり、ＨＯＧは、音響特徴量に基づく画像の輝度の勾配が抽出されたものである。すなわち、画像特徴量は、音響特徴量に基づく画像の特徴が周波数と時間の二次元画像で表される。そして、これら複数種類の画像特徴量は、図６（Ａ）、図６（Ｂ）に示すように、それぞれに異なる特徴量を有する。したがって、画像特徴量算出部４０は、それぞれの異なる画像特徴量を取得できる。

なお、楽器識別装置１０は、これらの画像特徴量の少なくとも１種類を算出すれば、楽器を識別できる。また、画像特徴量は、音響特徴量を画像化し、この画像における画像認識技術を用いて高精度な画像認識が可能な特徴が得られるものであれば、他の手法（例えば、ＨＳＶ等）を用いたものであってもよい。

（学習および推定）
識別部５０は、例えば、ＣＮＮ（畳み込みニューラルネットワーク）を用いて学習済モデル５００を訓練する。この学習済モデル５００は、音信号と楽器名とが対応しているデータセットによって、画像特徴量を入力とし、楽器名を出力として訓練されている。

識別部５０は、この学習済モデル５００を用いて画像特徴量を入力として楽器（楽器名）を識別し、出力する。

この際、識別部５０は、例えば、ＣｏｎｖＭｉｘｅｒを分類器として用いる。ＣｏｎｖＭｉｘｅｒは、画像特徴量である二次元データをパッチに分割した後、畳み込み層に通過させるものである。ＣｏｎｖＭｉｘｅｒは、パッチに分割するため局所的な特徴を捉えやすく、時間周波数表現において局所的に楽器の特徴が現れる楽器識別に適する。また、ＣｏｎｖＭｉｘｅｒは、ネットワークがパッチ分割と畳み込みのみで構成されているので、学習が容易で、事前学習モデルや転移学習などを用いなくても、高精度な識別を可能とする学習済モデル５００を実現できる。

このように、楽器識別装置１０は、楽器の識別に適するように音響特徴量を算出し、この音響特徴量から、画像認識技術において画像認識精度が高い画像特徴量をする。そして、楽器識別装置１０は、このような画像特徴量を用いることで、楽器の識別精度を向上できる。

また、楽器識別装置１０は、特徴量の組み合わせを調整して楽器の識別を行うこともできる。これにより、楽器識別装置１０は、楽器の分類（例えば、調和楽器か非調和楽器かなど）等に応じて特徴量の組合せを設定でき、楽器の識別精度をさらに向上できる。

このような楽器識別装置１０は、例えば、ミキサの入力段に適用できる。利用方法としては、楽器識別装置１０は、ミキサの入力段に接続された音楽ソース（楽器）を自動で識別する。ミキサは、表示等を用いて識別結果をユーザに通知する。これにより、ユーザは、音楽ソースを容易に且つより正確に把握でき、ミキサの設定等の操作を容易にできる。

（音響特徴量の算出、画像特徴量の算出、識別手法の各種具体例）
図７から図１４の各図は、音響特徴量の算出、画像特徴量の算出、および、識別手法の処理例を示すフローチャートである。図７から図１４は、それぞれに異なる処理を行っている。

（画像特徴量のみを用いる処理）
画像特徴量を用い、音響特徴量を用いない処理を、図７から図１０を参照して、以下の（Ａ）から（Ｄ）に示す。

（Ａ）１種類の画像特徴量の学習済モデルを用いる処理（図７参照）
音響特徴量算出部３０は、音信号に基づいて１種類の音響特徴量を算出する（Ｓ１１Ａ）。例えば、音響特徴量算出部３０は、対数スペクトログラム、対数メルスペクトログラム、および、ＣＱＴスペクトログラムのいずれか１種類を算出する。

画像特徴量算出部４０は、１種類の音響特徴量に基づいて１種類の画像特徴量を算出する（Ｓ１２Ａ）。例えば、画像特徴量算出部４０は、音響特徴量が対数メルスペクトログラムであれば、対数メルスペクトログラムのＬＢＰまたはＨＯＧを算出する。

識別部５０は、１種類の画像特徴量を入力とした学習済モデル５００を用いて、楽器名を識別する（Ｓ１３Ａ）。例えば、識別部５０は、画像特徴量が対数メルスペクトログラムのＬＢＰであれば、対数メルスペクトログラムのＬＢＰを入力とした学習済モデル５００を用いて、楽器名を識別する。

（Ｂ）１種類の音響特徴量に基づく複数種類の画像特徴量のアンサンブル学習済モデルを用いる処理（図８参照）
音響特徴量算出部３０は、音信号に基づいて１種類の音響特徴量を算出する（Ｓ１１Ｂ）。

画像特徴量算出部４０は、１種類の音響特徴量に基づいて複数種類の画像特徴量を算出する（Ｓ１２Ｂ）。例えば、画像特徴量算出部４０は、音響特徴量が対数メルスペクトログラムであれば、対数メルスペクトログラムのＬＢＰおよびＨＯＧを算出する。

識別部５０は、複数種類の画像特徴量を入力とするアンサンブル学習された学習済モデル５００を用いて、楽器名を識別する（Ｓ１３Ｂ）。例えば、識別部５０は、画像特徴量が対数メルスペクトログラムのＬＢＰおよびＨＯＧであれば、対数メルスペクトログラムのＬＢＰおよびＨＯＧを入力とするアンサンブル学習された学習済モデル５００を用いて、楽器名を識別する。

（Ｃ）複数種類の音響特徴量に基づく１種類で複数の画像特徴量のアンサンブル学習済モデルを用いる処理（図９参照）
音響特徴量算出部３０は、音信号に基づいて複数種類の音響特徴量を算出する（Ｓ１１Ｃ）。例えば、音響特徴量算出部３０は、対数スペクトログラム、対数メルスペクトログラム、および、ＣＱＴスペクトログラムのうち複数種類を算出する。

画像特徴量算出部４０は、複数種類の音響特徴量に基づいて１種類で複数（同種で複数）の画像特徴量を算出する（Ｓ１２Ｃ）。例えば、画像特徴量算出部４０は、音響特徴量が対数メルスペクトログラムとＣＱＴスペクトログラムであれば、対数メルスペクトログラムのＬＢＰおよびＣＱＴスペクトログラムのＬＢＰを算出する。

識別部５０は、１種類で複数の画像特徴量を入力とするアンサンブル学習された学習済モデル５００を用いて、楽器名を識別する（Ｓ１３Ｃ）。例えば、識別部５０は、画像特徴量が対数メルスペクトログラムのＬＢＰおよびＣＱＴスペクトログラムのＬＢＰであれば、対数メルスペクトログラムのＬＢＰおよびＣＱＴスペクトログラムのＬＢＰを入力とするアンサンブル学習された学習済モデル５００を用いて、楽器名を識別する。

（Ｄ）複数種類の音響特徴量に基づく複数種類の画像特徴量のアンサンブル学習済モデルを用いる処理（図１０参照）
音響特徴量算出部３０は、音信号に基づいて複数種類の音響特徴量を算出する（Ｓ１１Ｄ）。例えば、音響特徴量算出部３０は、対数スペクトログラム、対数メルスペクトログラム、および、ＣＱＴスペクトログラムのうち複数種類を算出する。

画像特徴量算出部４０は、複数種類の音響特徴量に基づいて複数種類の画像特徴量を算出する（Ｓ１２Ｄ）。例えば、画像特徴量算出部４０は、音響特徴量が対数スペクトログラム、対数メルスペクトログラム、および、ＣＱＴスペクトログラムであれば、対数スペクトログラム、対数メルスペクトログラム、および、ＣＱＴスペクトログラムのそれぞれについてＬＢＰとＨＯＧを算出する。

識別部５０は、複数種類で複数の画像特徴量を入力とするアンサンブル学習された学習済モデル５００を用いて、楽器名を識別する（Ｓ１３Ｄ）。例えば、識別部５０は、画像特徴量が対数スペクトログラム、対数メルスペクトログラム、および、ＣＱＴスペクトログラムのそれぞれのＬＢＰとＨＯＧであれば、対数スペクトログラム、対数メルスペクトログラム、および、ＣＱＴスペクトログラムのそれぞれのＬＢＰとＨＯＧを入力とするアンサンブル学習された学習済モデル５００を用いて、楽器名を識別する。

（画像特徴量と音響特徴量とを用いる場合）
画像特徴量と音響特徴量とを用いる処理を、図１１から図１４を参照して、以下の（Ｅ）から（Ｈ）に示す。なお、以下の（Ｅ）から（Ｈ）では、基本的な処理を説明し、（Ａ）から（Ｄ）に示したような具体例は省略する。

（Ｅ）１種類の画像特徴量と１種類の音響特徴量のアンサンブル学習済モデルを用いる処理（図１１参照）
音響特徴量算出部３０は、音信号に基づいて１種類の音響特徴量を算出する（Ｓ１１Ｅ）。画像特徴量算出部４０は、１種類の音響特徴量に基づいて１種類の画像特徴量を算出する（Ｓ１２Ｅ）。識別部５０は、１種類の画像特徴量と１種類の音響特徴量を入力とするアンサンブル学習された学習済モデル５００を用いて、楽器名を識別する（Ｓ１３Ｅ）。

（Ｆ）複数種類の画像特徴量と１種類の音響特徴量のアンサンブル学習済モデルを用いる処理（図１２参照）
音響特徴量算出部３０は、音信号に基づいて１種類の音響特徴量を算出する（Ｓ１１Ｆ）。画像特徴量算出部４０は、１種類の音響特徴量に基づいて複数種類の画像特徴量を算出する（Ｓ１２Ｆ）。識別部５０は、複数種類の画像特徴量と１種類の音響特徴量を入力とするアンサンブル学習された学習済モデル５００を用いて、楽器名を識別する（Ｓ１３Ｆ）。

（Ｇ）１種類で複数の画像特徴量と複数種類の音響特徴量のアンサンブル学習済モデルを用いる処理（図１３参照）
音響特徴量算出部３０は、音信号に基づいて複数種類の音響特徴量を算出する（Ｓ１１Ｇ）。画像特徴量算出部４０は、複数種類の音響特徴量に基づいて１種類で複数の画像特徴量を算出する（Ｓ１２Ｇ）。識別部５０は、１種類で複数の画像特徴量と複数種類の音響特徴量を入力とするアンサンブル学習された学習済モデル５００を用いて、楽器名を識別する（Ｓ１３Ｇ）。

（Ｈ）複数種類の画像特徴量と複数種類の音響特徴量のアンサンブル学習済モデルを用いる処理（図１３参照）
音響特徴量算出部３０は、音信号に基づいて複数種類の音響特徴量を算出する（Ｓ１１Ｈ）。画像特徴量算出部４０は、複数種類の音響特徴量に基づいて複数種類の画像特徴量を算出する（Ｓ１２Ｈ）。識別部５０は、複数種類で画像特徴量と複数種類の音響特徴量を入力とするアンサンブル学習された学習済モデル５００を用いて、楽器名を識別する（Ｓ１３Ｈ）。

このように、楽器識別装置１０は、少なくとも画像特徴量を用いて楽器を識別する場合を含み、特徴量の各種の組合せで楽器を識別できる。

特に、楽器識別装置１０が画像特徴量と音響特徴量とを用いて楽器を識別する場合、以下の作用効果を奏する。

音響特徴量から画像特徴量に変換する際、欠損してしまった特徴が存在する場合がある。すなわち、音響特徴量には存在するが画像特徴量には存在しない特徴が存在する場合がある。しかしながら、楽器識別装置１０は、画像特徴量と音響特徴量とを用いて識別を行うことで、この欠損してしまった特徴も含んで、楽器を識別できる。

（実験結果）
図１５（Ａ）、図１５（Ｂ）は、上述の各種手法を用いたときの識別結果（正答率）を示す表である。図１５（Ｃ）は、従来の識別方法を用いたときの識別結果（正答率）を示す表である。図１５（Ａ）は、１種類の音響特徴量、または、１種類の画像特徴量をもちいたときの識別結果であり、図１５（Ｂ）は、アンサンブル手法を用いたときの識別結果である。

図１５（Ａ）、図１５（Ｂ）、図１５（Ｃ）に示すように、楽器識別装置１０は、画像特徴量を用いることで、少なくとも従来の識別方法と同程度以上で楽器を識別でき、採用する画像特徴量を適宜選択することで、よりも高い精度で楽器を識別できる。また、楽器識別装置１０は、画像特徴量と音響特徴量とのアンサンブル手法を用いることで、さらに高い精度で楽器を識別できる。また、楽器識別装置１０は、アンサンブルする特徴量の数を増やすことによって、より一層高い精度で楽器を識別できる。

なお、上述の説明では、単楽器の出力音が単音であり、単音から楽器を識別する態様を示した。しかしながら、単楽器の複数音、和音、複数楽器の音等から楽器や複数楽器のアンサンブル等を識別することも可能であり、この際、上述の技術を適用することができる。

本実施形態の説明は、すべての点で例示であって、制限的なものではない。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲には、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

１０：楽器識別装置
２０：前処理部
３０：音響特徴量算出部
４０：画像特徴量算出部
５０：識別部
５００：学習済モデル

Claims

音信号に基づいて音響特徴量を算出し、
前記音響特徴量に基づいて、画像認識技術で用いられる画像特徴量を算出し、
前記音信号と楽器を特定する情報とが対応しており、前記画像特徴量を入力とし、前記楽器を特定する情報を出力として訓練させた学習済モデルを用いて、前記音信号から前記楽器を特定する情報を出力する、
楽器識別方法。
前記学習済モデルは、前記音響特徴量を入力としてさらに加えて訓練させたモデルである、
請求項１に記載の楽器識別方法。
前記音響特徴量に対して、複数種類の前記画像特徴量を算出し、
前記学習済モデルは、前記複数種類の画像特徴量を入力として訓練させたモデルである、
請求項１または請求項２に記載の楽器識別方法。
前記音信号に基づいて、複数種類の前記音響特徴量を算出し、
前記学習済モデルは、前記複数種類の音響特徴量に基づく複数の前記画像特徴量を入力として訓練させたモデルである、
請求項１または請求項２に記載の楽器識別方法。
前記音信号に基づいて、複数種類の前記音響特徴量を算出し、
前記学習済モデルは、前記複数種類の音響特徴量に基づく複数種類の前記画像特徴量を入力として訓練させたモデルである、
請求項１または請求項２に記載の楽器識別方法。
前記音信号における１回の発音から前記音響特徴量を算出する、
請求項１または請求項２に記載の楽器識別方法。
前記音信号として、単楽器の出力音を入力する、
請求項１または請求項２に記載の楽器識別方法。
前記学習済モデルは、ＣＮＮである、
請求項1または請求項２に記載の楽器識別方法。
音信号に基づいて音響特徴量を算出する音響特徴量算出部と、
前記音響特徴量に基づいて、画像認識技術で用いられる画像特徴量を算出する画像特徴量算出部と、
前記音信号と楽器を特定する情報とが対応しており、前記画像特徴量を入力とし、前記楽器を特定する情報を出力として訓練させた学習済モデルを用いて、前記音信号から前記楽器を特定する情報を出力する識別部と、
を備える、
楽器識別装置。
前記学習済モデルは、前記音響特徴量を入力としてさらに加えて訓練させたモデルである、
請求項９に記載の楽器識別装置。
前記画像特徴量算出部は、前記音響特徴量に対して、複数種類の前記画像特徴量を算出し、
前記学習済モデルは、前記複数種類の画像特徴量を入力として訓練させたモデルである、
請求項９または請求項１０に記載の楽器識別装置。
前記音響特徴量算出部は、前記音信号に基づいて、複数種類の前記音響特徴量を算出し、
前記画像特徴量算出部は、前記複数種類の音響特徴量に基づく複数の前記画像特徴量を算出し、
前記学習済モデルは、前記複数種類の音響特徴量に基づく複数の前記画像特徴量を入力として訓練させたモデルである、
請求項９または請求項１０に記載の楽器識別装置。
前記音響特徴量算出部は、前記音信号に基づいて、複数種類の前記音響特徴量を算出し、
前記画像特徴量算出部は、前記複数種類の音響特徴量に基づく複数種類の前記画像特徴量を算出し、
前記学習済モデルは、前記複数種類の音響特徴量に基づく複数種類の前記画像特徴量を入力として訓練させたモデルである、
請求項９または請求項１０に記載の楽器識別装置。
前記音響特徴量算出部は、前記音信号における１回の発音から前記音響特徴量を算出する、
請求項９または請求項１０に記載の楽器識別装置。
前記音響特徴量算出部は、前記音信号として、単楽器の出力音を入力する、
請求項９または請求項１０に記載の楽器識別装置。
前記学習済モデルは、ＣＮＮである、
請求項９または請求項１０に記載の楽器識別装置。
音信号に基づいて音響特徴量を算出し、
前記音響特徴量に基づいて、画像認識技術で用いられる画像特徴量を算出し、
前記音信号と楽器を特定する情報とが対応しており、前記画像特徴量を入力とし、前記楽器を特定する情報を出力として訓練させた学習済モデルを用いて、前記音信号から前記楽器を特定する情報を出力する、
処理をコンピュータで実行させる楽器識別プログラム。