JP2022151387A - 楽譜画像から音楽情報を作成する方法とそのコンピューティングデバイスおよびプログラム - Google Patents
楽譜画像から音楽情報を作成する方法とそのコンピューティングデバイスおよびプログラム Download PDFInfo
- Publication number
- JP2022151387A JP2022151387A JP2021054429A JP2021054429A JP2022151387A JP 2022151387 A JP2022151387 A JP 2022151387A JP 2021054429 A JP2021054429 A JP 2021054429A JP 2021054429 A JP2021054429 A JP 2021054429A JP 2022151387 A JP2022151387 A JP 2022151387A
- Authority
- JP
- Japan
- Prior art keywords
- bar
- staff
- feature
- image
- deep learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000013136 deep learning model Methods 0.000 claims abstract description 51
- 238000012937 correction Methods 0.000 claims description 41
- 238000000605 extraction Methods 0.000 claims description 13
- 239000000284 extract Substances 0.000 claims description 5
- 238000012545 processing Methods 0.000 description 62
- 238000012549 training Methods 0.000 description 30
- 230000000694 effects Effects 0.000 description 23
- 230000008569 process Effects 0.000 description 15
- 238000013135 deep learning Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 6
- 239000011295 pitch Substances 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- IJJWOSAXNHWBPR-HUBLWGQQSA-N 5-[(3as,4s,6ar)-2-oxo-1,3,3a,4,6,6a-hexahydrothieno[3,4-d]imidazol-4-yl]-n-(6-hydrazinyl-6-oxohexyl)pentanamide Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)NCCCCCC(=O)NN)SC[C@@H]21 IJJWOSAXNHWBPR-HUBLWGQQSA-N 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000007717 exclusion Effects 0.000 description 2
- 230000013016 learning Effects 0.000 description 2
- 239000002184 metal Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 101100498818 Arabidopsis thaliana DDR4 gene Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- ZLIBICFPKPWGIZ-UHFFFAOYSA-N pyrimethanil Chemical compound CC1=CC(C)=NC(NC=2C=CC=CC=2)=N1 ZLIBICFPKPWGIZ-UHFFFAOYSA-N 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Landscapes
- Character Discrimination (AREA)
- Auxiliary Devices For Music (AREA)
- Image Analysis (AREA)
Abstract
Description
用語と定義
画像(イメージ)
本明細書で使用される画像またはイメージ(これらの用語は本明細書中で交換可能に用いられ、特に示されなければ同じ意味を有する)とは、本発明の方法で解析可能な任意の種類の画像である。画像は、写真またはスクリーン表示のような二次元であってもよいし、ホログラムのような三次元画像であってもよい。画像(イメージ)の例としては、画像、ビデオ、写真等が挙げられ、これらは、コンピュータ、サーバ、記憶媒体(例えば、RAM、ROM、キャッシュ、SSD、ハードディスク)、またはそのようなものに、それぞれまたは一緒に、ファイル(例えば、.jpg、.jpeg、.tiff、.png、.gif、.mp3、mp4、または.movファイル)として表示および/または保存することができる。
本明細書で使用される情報はデータと関連している。違いは、情報が不確実性を解決することである。データは、冗長なシンボルを表すことができるが、最適なデータ圧縮を介して情報に近づく。情報は、伝送および解釈のための様々な形態に符号化することができる(例えば、情報は、符号のシーケンスに符号化されてもよいし、信号を介して伝送されてもよい)。情報のこの一般的な概念は、本明細書で適用することができる。情報の形態に関しては、情報は、文書化された形態、デジタル化された形態、オーディオ形態、ビデオ形態、またはそのような形態の組み合わせであってもよく、特定の形態に限定されない。光学的音楽認識(OMR)の技術では、情報は、例えば、楽譜またはデジタル化された、可読性のある、または可聴性の形式の他の任意の媒体として提供されてもよい。可視化されたもの又は可聴化されたもののいずれも許容される。
本明細書では、領域単位は各小節であってもよい。OMRの技術では、領域単位は、5本の線(五線)を含むスタッフ(Staff;五線譜とも称されるが、本明細書中では「スタッフ」と「五線譜」は互換可能である場合もある)、1つ以上のスタッフを含む小節(メジャー(measure);本明細書中では「小節」と「メジャー」は互換可能である場合もある)であってもよい。
本明細書で使用される位置基準は、五線譜の五線の一つ又は複数の線であってもよい。
本明細書で使用される特徴モデルは、その特徴モデルが画像から情報を抽出できるものであれば、どのような特徴モデルであってもよい。特徴モデルは、例えば、一般的な特徴モデル、好ましくはAIモデル、より好ましくは機械学習モデル、さらに好ましくは深層学習(ディープラーニング)モデルであってもよい。複数のモデルが、画像または少なくとも1つの解析領域(各小節を含むもの)における推論に使用されてもよい。使用する特徴モデルの数は、1、2、3、4、5、6、7、8、9、10、15、20、25、50、100、350、500、750、または1000以上であってもよい。上記値の任意の二つの間の数も含まれる。小節の抽出に用いる特徴モデルの数は、好ましくは1であり、小節を含む解析領域の推論に用いる特徴モデルの数は、特に限定はされないが、好ましくは1~100であり、より好ましくは1~25であり、さらに好ましくは1~10であり、さらに好ましくは1~5である。
楽曲情報を作成する際の本明細書に開示される特徴モデルの具体例としては、小節モデル、Clefモデル、Bodyモデル、Accidentalモード、Arm/Beamモデル、および/またはRestモデルなどが挙げられるが、これらに特に限定されるものではない。これらのモデルの詳細については後述する。
本明細書で使用される特徴カテゴリは、関連する特徴モデルに対応する。特に指示がない限り、特徴カテゴリは、使用されるモデルのこの特徴に関係する。特徴カテゴリは、モデルが画像からこの特徴に関するデータを抽出できるものであれば、どのような種類のものであってもよい。得られるデータは任意のものであってもよく、必ずしも有用なものではない。したがって、抽出されたデータの全てがその後の解析に使用されるとは限らない。各カテゴリは、手動で選択されてもよいし、別のモデルによって自動的に選択されてもよい。これにより、楽譜画像からの音楽情報の自動生成を容易にすることができる。
本発明の一実施形態では、独自に特徴カテゴリを作成したものもあるので、それらは、Clef、Accidental、Body、Arm/Beam、Restと表記して特徴カテゴリを示すことにする。
本明細書では、各特徴モデルの上記特徴カテゴリには、1種類以上の特徴タイプが含まれる。また、特徴タイプの種類は特に限定されず、任意の種類を単独で使用してもよいし、組み合わせて使用してもよい。また、音符特徴タイプを、これら一又は複数の特徴カテゴリと位置基準を組み合わせて使用してアノテーションしてもよい。本明細書中では、音符特徴タイプには、音符と休符のものが含まれる。従って、音符への言及は、音符と休符の両者を含む場合がある。
本発明の一実施形態では、Clef特徴カテゴリはト音記号、へ音記号、オクターブシフトの特徴タイプを含む。Accidental特徴カテゴリは♯(シャープ)、♭(フラット)、ナチュラルの特徴タイプを含む。Body特徴カテゴリは音符の黒丸部分、点付き黒丸、半白丸(半音符)、点付き半白丸、全黒丸(全音符)、点付き全音符の特徴タイプを含む。Arm/Beam特徴カテゴリは連なっていないクオーターのステム部分(上向きと下向き)、旗の付いた8th(上向きと下向き)、8th(上部、下部)(開始、中間、終了)の連なっている部分、16th(上部、下部)(開始、中間、終了)の連なっている部分の特徴タイプを含む。Rest特徴カテゴリは全休符、半休符、クオーター、8th、16th休符の特徴タイプを含む。これらの特徴タイプを表5に示す。具体的な形は図3を参照されたい。
楽譜(スコア)は、歌や楽器の音楽作品の音程、リズム、および/または和音を示すために音楽記号を使用して表記した手書きまたは印刷あるいは電子的に読み取り可能な形式のものを含む。スコアという用語は、楽譜(シートミュージック)の一般的な代替(より一般的な)用語である。本明細書で使用される楽譜またはスコアは、一般的に楽譜と呼ばれることがある。本明細書で使用される楽譜の画像の例には、可視化またはデジタル化された楽譜画像の任意の形態が含まれる。
スタッフ(五線譜)は、5本の水平線と4つのスペースで構成されており、それぞれが異なる音程を表しているものを含む。スタッフは、例えば、以下の実施形態を含む。意図された効果に応じて対応する音程や機能に応じて適切な音楽記号がスタッフに配置される。音符は音程ごとに配置される。音程は五線上の縦の位置によって決定され、左から右へと演奏される。どの位置にどの音符があるかは、スタッフの先頭にある音部記号(クレフ記号)によって決まる。音部記号は、特定の線を特定の音として識別し、他のすべての音はその線に対して相対的に決定される。2本のスタッフがある音楽を繋いだり、一人の演奏者が一度に演奏したりする場合、グランドスタッフ(大五線譜)が使用される。一般的には、上段のスタッフ(五線譜)はト音記号、下段のスタッフはヘ音記号が使用される。例えば、ピアノの音楽は、右手用と左手用の2つのスタッフで書かれている。小節線は、五線上の音符を小節に区切ってまとめることに使用される。
音楽の表記法では、小節またはメジャー(以下、小節と呼ぶ場合がある)とは、特定の拍数に対応する時間のセグメントであり、各拍は特定の音価で表され、小節の境界は垂直の小節線で示される。音楽を小節に分割することで、作曲の中で位置を特定するための定期的な基準点が得られる。また、スタッフの各小節を一括して読み込んで演奏することができるので、音楽をより簡単に追うことができる。
各スタッフは5つの線(ライン)(五線)で構成されている。ラインとスペースには下から上へ番号を振ることができる。音符は、ライン(音符の玉部分の中央を通る線)上またはスペースに配置することができる。このスペースには4つの内側のスペースと、上部または下部の2つの外側のスペースとが含まれる。
本発明の一実施形態では、スタッフの5つの線の位置を位置基準にして、音階(ステップ)をト音記号またはへ音記号に対応させて割り当てた。本明細書中では音階はA(ラ)、B(シ)、C(ド)、D(レ)、E(ミ)、F(ファ)、G(ソ)を原則的に使用する。
音楽記号の例には:線(例、五線、小節線、ブレース、カッコ)、音符と休符(例、全音、半音、四分音、八分音、16分音、32分音、64分音、128分音、256分音、ビーム音、ドット音または休符)、臨時記号(フラット、シャープ、ナチュラル、ダブルフラット、ダブルシャープなど)、調号(例、フラット調号、シャープ調号)、四分音(デミフラット、フラットアンドハーフ、デミシャープ、シャープアンドハーフ)、拍子記号(例、ビート数とビートタイプで表示されるシンプルな拍子記号、コモンタイム、テンポなどのメトロノームマーク)、音符の関係性を示すもの(例、タイ、スラー、グリッサンド、グリッサンド、タプレット、コード、アルペジオコード)、ダイナミクス(例、ピアニッシモ、ピアニッシモ、ピアノ、メゾピアノ、メゾフォルテ、フォルテ、フォルティッシモ、フォルティッシモ、スフォルツァンド、クレッシェンド、ディミヌエンド)、奏法記号(例、スタッカティッシモ、スタッカティッシモ、スタッカティッシモ スタッカティッシモ、スタッカート、テヌート、フェルマータ、アクセント、マルカート)、装飾音(例、トリル、アッパー・モーデント、ロア・モーデント、グルペット、アポッジアトゥーラ、アッキアッカトゥーラ)、オクターブ記号(例えば、オッタバ)、反復とコーダ(例、トレモロ、反復記号、シミュレーション記号、ボルタカッコ、ダカポ、ダルセグノ、セグノ、コーダ)、またはその他の音楽記号が含まれる。
本発明の一実施形態では、楽譜の画像から情報を生成するという問題に対処するために、いくつかのタイプが修正または作成される。本実施形態で使用される特徴タイプは、表5に記載されている。
別段の記載がない限り、本明細書で指定された方向は、当技術分野で通常使用される意味を有する。水平方向と垂直方向は、任意の画像に提供される。水平方向、垂直方向のいずれかを任意に設定してもよいが、位置は、各特徴モデルによって、x位置、y位置として提供されてもよい。これらの位置は、直接使用してもよいし、位置基準のいずれかを参照して再設定可能である。
既存技術との対比
特許文献1~3に開示される技術では、五線と小節線を認識し、その後、五線等を消去して音符記号等を認識し、その際に小節線を利用して認識した音符情報の再構築を行うものである。したがって、各小節に着目し、各小節を抽出してその後の音符情報の再構築を行う本発明とは技術思想が異なる。五線の傾斜を補正する工程も記載されているが、各小節内の五線の位置を補正する記載はない。
以下具体的な実施形態について詳述する。
本発明の第1実施形態は、楽譜画像から音楽情報を作成する方法であって、楽譜画像から少なくとも一つの小節を抽出する工程を含む、方法を提供する。この方法は、例えば、楽譜画像を入力する工程又は前記少なくとも一つの小節の各小節内の音符から音楽情報を作成する工程を含んでもよい。以下、本発明のある実施形態の工程を説明したフローチャート(図1)に基づいて、本方法の工程と任意ではあるが含む場合がある工程とを詳細に説明する。これら工程の順序は変更される場合がある。
楽譜画像入力工程(1)では、楽譜画像を入力する。楽譜画像の画像は上記で定義されたような任意の画像である。楽譜には、楽曲の全体または一部が含まれる。楽譜は複数のページを含む場合があり、各ページが対象となる場合がある。入力は下記のコンピューティングデバイスが読み取り可能または認識可能な任意の方式で実施される。
小節抽出工程(2)では、前記楽譜画像から少なくとも一つの小節を抽出する。本明細書中で使用する、用語「小節」は領域単位として上記で定義されるものであり、小節またはメジャーと呼ぶ場合がある。本明細書では、各小節は好ましくはグランドスタッフ(大五線譜)のものではなく、一つのスタッフの中の単位(一つのスタッフ中の各小節線で区切られるセグメント)を指す。小節は領域単位として抽出されてもよい。また抽出された小節に対して、小節ごとに(例えば、小節単位で)音符を同定してもよい。抽出した小節を解析後に再構築して音楽情報を作成する工程を含んでもよい。
各小節は機械学習モデルで抽出されてもよい。この際には、小節モデルの種類は、どのようなものであってもよい。また、小節モデルの数は特に限定されず、1、2、3、4、5、10以上であってもよい。また、その数は、上記の数よりも多くても少なくてもよく、また、その間の任意の数であってもよい。好ましくは、各小節の取得に要する処理時間の観点から、その数は1である。
各小節に基づいて解析領域が設定される。この解析領域は、各小節の一部であってもよいし、各小節の一部または全体を含んでいてもよい。解析領域は、任意の形状を有していてもよい。解析領域の形状は、各小節の形状と同じであってもよいし、異なる形状であってもよい。
(3-1)全体画像傾斜補正工程(工程S301)
位置基準補正工程(3)は、前記少なくとも一つの小節の各小節内の五線の位置を補正する工程である。この五線位置補正工程は、任意ではあるが、入力した前記楽譜画像全体をある五線の傾斜を補正して水平にするようにする工程を含む。この楽譜画像全体の五線の傾斜を補正する方法は、好ましくは小節抽出工程(2)の前に実施される。これにより、より効率的に各小節を抽出することを可能とする。
1.入力イメージをグレースケール化し、Canny法を用いて画像のエッジを抽出する。
2.Hough法を用いて直線を検出する。
3.一番長い直線の傾き角を計算して画像の回転角度を求める。
4.求めた回転角度で画像全体を回転する。
各小節の五線傾斜の補正は、基本的に(3-1)全体画像傾斜補正と同様に実施することができる。画像の各領域で五線の傾斜が異なるものに対しては、各小節内の五線の傾斜を個別に補正することが好ましい。但し、各小節内の五線は横方向に伸びる直線の閾値で選択を掛けてもよい。この各小節に対する五線傾斜の補正は既存技術には無い顕著な効果を奏する(例、図4C)。この補正により、楽譜の写真等の五線譜の歪みが画像に不均一なものにおいてさえも位置基準となる五線をより精度高く提供できる。
五線の位置は小節モデルで抽出した小節が正確な位置で(特に、五線譜の上下の線に沿って)抽出されると仮定して計算する。このように工程(2)で抽出される小節は、各小節を単に抽出するだけでなく、各小節の位置基準を定める指標となるという二重の効果を奏する。また、解析領域は五線譜の高さを指標として上部と下部に任意のサイズで設定可能である。上部と下部の解析領域は楽譜により幅があるので幅広に検出した特徴モデルを利用するかしないかは選択できるようにしてもよい。このようにして仮定した五線は実際の五線とズレがある場合がある。このズレを補正するためにalphaとbeta変数を導入してもよい。alphaは五線譜の中央からのズレであり、betaは五線譜間の間隔を補正する値である場合がある。この二つの値を以下のアルゴリズムを用いて自動で求めることができる。
2.その各alpha、betaを使い五線譜をイメージ中に重ね書きする。
3.画像をグレースケール化しGaussian閾値処理した画像の黒い部分の面積を求める。
4.五線譜が重なる場合が面積は最小になると考え最小値を求め、その時のalpha、betaの値を補正に使用する。
(4-1)複数の特徴モデルと特徴タイプの使用
この工程では、複数の特徴モデルが推論のために各小節に基づいた解析領域に適用される。複数の特徴カテゴリに対応するディープラーニングモデルを組み合わせることで、多様な音符記号等を表現することができる。特徴モデルは、それぞれ好ましくは、AIモデル、より好ましくは機械学習モード、さらに好ましくはディープラーニングモデルであってもよい。それらの任意の組み合わせが許容され、それらは単独で使用してもよいし、組み合わせて使用してもよい。
特徴タイプの数が少ない複数の特徴モデルは、特徴タイプの数が多い1つの特徴モデルよりも容易に学習実施可能であった。また、実施例2は、少数の特徴タイプを持つように特徴カテゴリを選択した場合に、各特徴タイプの認識精度が高くなることを実証する。このように、本発明によれば、特徴モデルの学習性能を向上可能とするという顕著な効果を奏する。
推論処理の数は、抽出される領域単位の数が大きくなると増加する。近い将来起こるであろうCPUやGPUの数が多いコンピュータの設定の場合、この設定を利用して推論処理を並列に処理し、処理時間を短縮することが考えられる。例えば、解析領域数が100、推論用の特徴モデル数が10の場合、1,000個の独立した推論処理を完了させる必要がある。CPUやGPUの数が増えるにつれて、複数の特徴モデルを並列に使用すると、すべての推論処理にかかる時間が短くなることが期待される。本実施例3で示すように8コアのCPUで並列処理しても処理時間は単純に1/8にならないので、実際に現状の検証可能なアーキテクチャーで試験して処理時間を測定することが必要である。そこで実際に処理時間を比較した本実施例3と4が並列処理の有用性を実証した。実施例4では、処理時間はCPUを直列で処理した時間の約10分の1であり、GPUでの並列処理により顕著に処理時間の短縮ができることを実証する。複数の特徴モデルによる推論に複数のCPU/GPUを使用することは、総処理時間の点で優れていると考えられる。したがって、本発明の好ましい実施形態では、並列処理により推論処理に要する時間を短縮することが可能となるという顕著な効果を奏する。
各特徴モデル(例、accidental、arm/beam、body、clef、restモデル)によって推論された各特徴タイプがマッピングされる。このマッピングは、特徴モデルで使用される座標系を使用して実行してもよいし、位置基準を使用して実行してもよい。さらに、座標系と位置参照との組み合わせが、各特徴タイプをマッピングするために使用されてもよい。
各特徴タイプは、少なくとも1つの位置基準である五線位置を用いて解析され、順に音符のアノテーション(同定;これらは互換的に用いられる場合がある)に使用してもよい。解析の方向は任意に設定してもよいし、水平方向または垂直方向であってもよい。整列された特徴タイプは、一部の特徴タイプが解析の対象から除外されてもよいが、順次解析されてもよい。
解析中の特徴タイプがClefカテゴリGまたはF(cf0またはcf1)である場合は、Clefの状態を変化させる。
解析中の特徴タイプがAccidentalカテゴリである場合は、位置基準を組み合わせてAccidentalテーブルを変更する。
解析中の特徴タイプがRestカテゴリである場合は、Restタイプに合わせてアノテーションして、その要素を出力リストに追加する。
解析中の特徴タイプがBodyカテゴリである場合は、和音を検出する。そして、音符の長さをArm/Beamタイプで特定するために、垂直方向に重なる特徴タイプをソーティングしてリストにするのが好ましい。その中にRestタイプが含まれる場合は、その位置によってVoiceを指定するのが好ましい(一番下にある場合はVoice1、一番上にある場合はVoice2に設定可能)。中間位置にある場合は前後の位置に応じてBodyタイプの前の要素として追加するか後の要素として追加するかを決定し、出力リストに追加してもよい。
3個以上のBodyタイプがある場合は、対象のものと、下のArm/Beamに属する(下向きのステムの)ものとの距離と、上のArm/Beamに属する(上向きのステムの)ものとの距離を計算して近いものに割り当てることができる。その際、下のArm/Beamに属するものはVoice1に割り当て、上のArm/Beamに属するものはVoice2に割り当てるのが好ましい。
一番下がRestである場合はRestをVoice1に割り当て、一又は複数のBodyタイプはVoice2に割り当てることが好ましい。
一番上がRestである場合はRestをVoice2に割り当て、一又は複数のBodyタイプはVoice1に割り当てることが好ましい。
一番上がArm/Beamである場合は、Bodyタイプの種類によって場合分けする。特徴タイプbd0~bd3の様にArmまたはBeamと組み合わせて音符をアノテーションするものと、bd4~bd5のようにArmとBeamを持たないものとをそれぞれアノテーションする。この際にVoiceはVoice1に設定し、後述するVoice調整工程で適宜変更する場合がある。
一番下がArm/Beamである場合も、Bodyタイプの種類によって場合分けする。特徴タイプbd0~bd3の様にArmまたはBeamと組み合わせて音符をアノテーションするものと、bd4~bd5のようにArmとBeamを持たないものとをそれぞれアノテーションする。この際にVoiceはVoice1に設定し、後述するVoice調整工程で適宜変更する場合がある。
この場合は、bd4~bd5の特徴タイプが想定される。しかしながら、Arm/Beam特徴タイプやRest特徴タイプが認識されなかった結果(例、小節の最下部や最上部に位置していて認識できない場合や特徴モデルの推論で検出されなかった場合も含む)である場合も考えられる。従って、bd0~bd3の者が含まれている場合は、適宜Arm/Beamを補うように処理することが好ましい。また、このケースでも音符はVoice1に割り当てることが好ましい。
小節は楽曲によって決められた音符長を有する。この工程では、上記(4-3)音符アノテーション工程で同定された音符群のVoiceが正しく割り当てられたかどうかを確認する。ケース1~3では、各音符がVoice1またはVoice2に割り当てられているが、ケース4~6では、各音符は便宜的にVoice1に割り当てられている。そこで、この状態で、Voice1とVoice2に属する各音符の長さを、和音を考慮して計算する。そして、小節の規定の音符長よりも長くなった場合は、Voiceの調整を実施する。例えば、上側にArm/Beamを有するBodyタイプをVoice2にし、残り(例、bd4~bd5)のBodyタイプをVoice1にする場合がある。また、下側にArm/Beamを有するBodyタイプをVoice1にし、残り(例、bd4~bd5)のBodyタイプをVoice2にする場合がある。さらに全音符(bd4~bd5)をVoice2にする場合がある。この調整工程を繰り返して行ってもよい。
(5-1)前記領域単位に関してアノテーションした各特徴タイプのデータを組み立てる工程
この工程では、各領小節に関してアノテーションされた音符特徴タイプ由来のデータが組み立てられる。組み立て中に、アノテーションに利用した1つ以上の特徴タイプが削除されてもよい。削除された特徴タイプは、アノテーション中に別の特徴タイプに影響を与える可能性があるが、情報を生成するためには不要である場合があるからである。
一つ以上の小節について得られたデータを直列または並列に接続して情報を生成する。場合によっては、小節の数は1であってもよい。この場合、1つの小節に含まれるアノテーションされた音符特徴タイプのデータを使用してもよい。
本発明の方法を実施して画像から情報を作成するためのコンピューティングデバイス
実施形態2は、本発明の方法を実施して画像から情報を作成するためのコンピューティングデバイスに関する。
本発明の方法を実施して画像から情報を作成するためのプログラム
実施形態3は、本発明の方法を実施して画像から情報を作成するためのプログラムに関する。本発明のプログラムは、本発明の方法を実施できる限り、プログラム全体または部分を含む。
本発明の一実施形態によれば、画像から情報を作成する方法であって、画像から領域単位を抽出する工程、前記領域単位に基づいて解析領域と前記領域単位中に少なくとも一つの位置基準を設定する工程、複数の特徴モデルを前記解析領域に適用して推論を行い、各特徴モデルは複数の特徴タイプに対して前記推論を実行する工程、各特徴モデル中の前記複数の特徴タイプのそれぞれの位置をマッピングして整列させる工程、前記少なくとも一つの位置基準を使用して、各特徴タイプを解析しアノテーションする工程、前記領域単位に関してアノテーションした各特徴タイプのデータを組み立てる工程、一又は複数の前記領域単位に関する前記データを直列および/または並列に接続して情報を作成する工程、の少なくとも1つの工程を含む方法が提供される。また本発明の一実施形態によれば、上記方法を実施して画像から情報を作成するためのコンピューティングデバイスが提供される。コンピューティングデバイスの例には、特に限定はされないが、RAM、ROM、キャッシュ、SSD、ハードディスクが含まれる。また、クラウド上のもの、サーバ上のもの、オンプレミスのコンピュータ上のもの等の任意の形態のコンピューティングデバイスが含まれる。また本発明の一実施形態によれば、上記方法を実施して画像から情報を作成するためのプログラム又はこのプログラムを記録した記録媒体が提供される。記録媒体は、非一時的なコンピュータ読み取り可能な記録媒体であってもよい。
楽譜中の小節用ディープラーニングモデルの訓練と推論
まず、47個の楽譜全体図(各楽譜は数個から約50個の小節を含んでいた)を使用してYOLOv5の小節モデルを訓練し、mAP@.5(特徴タイプ用のモデル中での正確性の指標)が0.95を達成した。この小節モデルのカテゴリはx0、x1、およびy0の小節特徴タイプがあり、それらは以下の表1に示されるようにそれぞれ、ト音記号(G clef)で始まる小節、へ音記号(F clef)で始まる小節、それ以外の残りの小節を示していた。訓練データの作成にはlabelImgソフトウエア(https://github.com/tzutalin/labelImg)を使用してバウンディングボックス(Bounding Box)を各イメージ中で各タイプを割り当てた。その際に、五線の最上部と最下部の線に沿うようにバウンディングボックスを設定した。また、訓練用の訓練データ、試験データ、および検証データはRoboflow(https://app.roboflow.com/)で調整した。
複数のディープラーニングモデルを使って実行する訓練
各音楽記号特徴カテゴリ(以下の実施例5で説明する)に対応する複数のYOLOv5モデルを訓練した。また、複数の特徴タイプを組み合わせて表現することで、全体で表現される音楽記号(音符)特徴タイプの数も飛躍的に増加し、これは有利な効果となった。
直列または並列で複数のモデルを処理した場合に掛かった処理時間の比較
これまで作成したディープラーニングモデルを使って楽譜イメージから各小節を認識および処理して、サイズを揃えた解析領域を用意した。そしてその各解析領域に対して、5つの特徴カテゴリの上記モデルを適用して解析データを作成する手順を自動化した。そして、処理に掛かった時間を計測した。この際、5つの特徴カテゴリのモデルの処理を直列で処理するか、または、並列処理するかして、その処理時間を比較した。結果を表3に示す。
GPUでの処理速度
実際にGPUを使用して処理時間が短縮されるかどうかを検討した。実施例3での処理をAWSのEC2インスタンスg4dn.metalを使用して処理時間を計測した。g4dn.metalのCPU/GPU構成は、NVIDIA T4 Tensor Core GPUが8個、vCPUが96個、RAMが384GiB等であった。処理はGPUを直列または並列に使用するようにプログラミングした。結果を表4に示す。
少数の特徴モデルの少数の特徴タイプを用いる新たな音符特徴タイプの作成
表2に示すようにディープラーニングモデルの訓練と推論に用いた特徴カテゴリと特徴タイプはClefが5種類(3つは不使用)、Accidentalが3種類、Bodyが6種類、Arm/Beamが8種類、Restが5種類あった。表5と図3に示す。
傾いた楽譜イメージの補正
図4Aはサラバンドの楽譜を傾いた状態で写真を撮ったイメージである。五線譜が水平状態にないと位置基準として機能しないことからまずは、楽譜画像全体の水平化を行った(図4B)。手順は以下のものであった。
2.Hough法を用いて直線を検出した。
3.一番長い直線の傾き角を計算して画像の回転角度を求めた。
4.求めた回転角度で画像全体を回転した。
五線の位置と間隔の補正
位置基準として五線を用いた。五線の位置は小節モデルで抽出した小節が正確な位置で抽出されたとして計算した。そして解析領域を五線の高さの1.2倍として上部と下部に設定した。実際のアノテーションで述べるが、上部と下部の解析領域は楽譜により幅があるので幅広に検出した特徴モデルを利用するかしないかは選択できるようにした。ここでは初期値の五線の位置は図5Aで示したように、実際のものとはズレがあった。このズレを補正するためにalphaとbeta変数(係数)を導入した。alphaは五線の中央からのズレであり、betaは五線間の間隔を補正する値であった。この二つの値を以下のアルゴリズムを用いて自動で求めた。
2.その各alpha、betaを使い五線をイメージ中に重ね書きした。
3.画像をグレースケール化しGaussian閾値処理した画像の黒い部分の面積を求めた。
4.五線が重なる場合が面積は最小になると考え最小値を求め、その時のalpha、betaの値を補正に使用した。
各音符のアノテーションとMusicXMLファイルの作成
以下にアノテーションの方法の要点を簡単に説明する。各小節をディープラーニング小節モデルで抽出し、一部重なって認識されていた小節を除去する処理を重なりのあった位置に基づいて自動で実施した。その後、スタッフごとに並列に並んでいた小節を取り出し直列に繋いで各スタッフの元データとした。
スタッフ番号を1か2に指定して、スタッフの小節(メジャー(measure))を一続きのリストにした。そして、前から順に一つずつ小節を取り出した。そして、各小節に含まれる全ての特徴タイプを水平方向(x)(順方向)にソーティングした。各アノテーションに影響する要素として現状のClefの状態とAccidentalテーブル(どの音階にシャープやフラットがあるかを教示するテーブル)とを更新しながら各音符をアノテーションした。Accidentalテーブルは初期値のfifths(どの長調または短調かを指定するもの)の状態を入力し、次の小節を解析する際には直前のfifthsの状態を反映させた。
水平方向にソーティングした特徴タイプを順に解析した。解析は各タイプがどの特徴カテゴリにあるかに場合分けをした。
解析中の特徴タイプがClefカテゴリGまたはF(cf0またはcf1)であった場合は、Clefの状態を変化させた。
解析中の特徴タイプがAccidentalカテゴリであった場合は、位置基準と組み合わせてAccidentalテーブルを変更した。
解析中の特徴タイプがRestカテゴリであった場合は、Restタイプに合わせてアノテーションして、その要素を出力リストに追加した。
解析中の特徴タイプがBodyカテゴリであった場合は、和音を検出し、音符の長さをArm/Beamタイプで特定するために、垂直方向に重なる特徴タイプをソーティングしてリストにした。その中にRestタイプが含まれる場合は、その位置によってVoiceを指定した(一番下にある場合はVoice1、一番上にある場合はVoice2にした)。中間位置にある場合は前後の位置に応じてBodyタイプの前の要素として追加するか後の要素として追加するかを決定し、出力リストに追加した。
ケース2:一番下がRestである場合
ケース3:一番上がRestである場合
ケース4:一番上がArm/Beamである場合
ケース5:一番下がArm/Beamである場合
ケース6:一番上と下が共にBodyである場合
各Bodyタイプのアノテーションでは現在のClefとaccidentalテーブルを引数として渡して、音符特徴タイプをアノテーションした。
小節のアノテーション結果を検証した。上記ケース4~6では全ての音符をVoice1に割れ当てた。その結果、アノテーションされた音符の長さの合計が小節に決められた長さを越えた場合にはVoice(声)を変更した。具体的には、下向きのステムを持つ音符をVoice1、上向きのステムを持つものをVoice2に割り当てた。小節内の音符の長さをVoiceごとに再計算し、Voice1の小節内の音符の長さがまだ決められた長さを越えている場合は、全音符をVoice2に割り当てた。
出来上がった各小節のデータを直列につないでスタッフ全体のデータを作成した。出来たデータはElementTree(ET)の形にして要素を登録してデータを構造化した。
ET構造化した音符データをXMLファイルへと変換する関数を用いてXML化して、MusicXMLファイルを作成した。
図6は、図2Cのバッハのメヌエットの楽譜イメージのスタッフ1を本発明の方法により各音符を同定してXML化し、そのXMLファイルをSibelius(図6A)とMuseScore(図6B)で読み込み表示させた結果である。図6に示すように作製したXMLファイルはSibelius、MuseScore、Finale(図示しない;表示小節の調整が必要)で読み込んで表示することができた。
MusicXMLからの音の再生
本発明で作成されたMusicXMLから一般的なソフトウエアを使用して音が再生されるかどうかを確認した。
Claims (9)
- 楽譜画像から音楽情報を作成する方法であって、
楽譜画像を入力する工程と、
前記楽譜画像から少なくとも一つの小節を抽出する工程と、
前記少なくとも一つの小節の各小節内の音符を同定する工程と、
同定された前記音符から音楽情報を作成する工程を、含む方法。 - 前記少なくとも一つの小節がディープラーニングモデルによって抽出される、請求項1に記載の方法。
- 前記少なくとも一つの小節の各小節内の五線の位置を補正する工程をさらに含む、請求項1または2に記載の方法。
- 前記少なくとも一つの小節の各小節内の前記音符をディープラーニングモデルを使用して同定する、請求項1~3のいずれか一項に記載の方法。
- 前記少なくとも一つの小節の各小節内の前記音符を複数のディープラーニングモデルを使用して同定する、請求項1~4のいずれか一項に記載の方法。
- 前記複数のディープラーニングモデルが並列に処理される、請求項5に記載の方法。
- 前記音楽情報が、XMLファイル、musicXMLファイル、MIDIファイル、mp3ファイル、wavファイル、および楽譜からなる群より選択される、請求項1~6のいずれか一項に記載の方法。
- 楽譜画像から音楽情報を作成するためのコンピューティングデバイスであって、
楽譜画像を入力する入力部と、
前記楽譜画像から少なくとも一つの小節を抽出する小節抽出部と、
前記少なくとも一つの小節の各小節内の五線の位置を補正する五線補正部と、
前記少なくとも一つの小節の各小節内の音符を複数のディープラーニングモデルを使用して同定する音符同定部と、
同定された前記音符から音楽情報を作成する音楽情報作成部と、を含み、
前記少なくとも一つの小節がディープラーニングモデルによって抽出され、
前記複数のディープラーニングモデルが並列に処理され、
前記音楽情報が、XMLファイル、musicXMLファイル、MIDIファイル、mp3ファイル、wavファイル、および楽譜からなる群より選択される、コンピューティングデバイス。 - 楽譜画像から音楽情報を作成するためのプログラムであって、
楽譜画像を入力する入力部と、
前記楽譜画像から少なくとも一つの小節を抽出する小節抽出部と、
前記少なくとも一つの小節の各小節内の五線の位置を補正する五線補正部と、
前記少なくとも一つの小節の各小節内の音符を複数のディープラーニングモデルを使用して同定する音符同定部と、
同定された前記音符から音楽情報を作成する音楽情報作成部と、を含み、
前記少なくとも一つの小節がディープラーニングモデルによって抽出され、
前記複数のディープラーニングモデルが並列に処理され、
前記音楽情報が、XMLファイル、musicXMLファイル、MIDIファイル、mp3ファイル、wavファイル、および楽譜からなる群より選択される、プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021054429A JP6985543B1 (ja) | 2021-03-27 | 2021-03-27 | 楽譜画像から音楽情報を作成する方法とそのコンピューティングデバイスおよびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021054429A JP6985543B1 (ja) | 2021-03-27 | 2021-03-27 | 楽譜画像から音楽情報を作成する方法とそのコンピューティングデバイスおよびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6985543B1 JP6985543B1 (ja) | 2021-12-22 |
JP2022151387A true JP2022151387A (ja) | 2022-10-07 |
Family
ID=79193327
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021054429A Active JP6985543B1 (ja) | 2021-03-27 | 2021-03-27 | 楽譜画像から音楽情報を作成する方法とそのコンピューティングデバイスおよびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6985543B1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114724151A (zh) * | 2022-04-22 | 2022-07-08 | 厦门大学 | 一种基于卷积神经网络的古筝简谱识别方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07152863A (ja) * | 1993-11-30 | 1995-06-16 | Suzuki Motor Corp | 文字認識装置 |
CN110852375A (zh) * | 2019-11-09 | 2020-02-28 | 北京工业大学 | 基于深度学习的端到端乐谱音符识别方法 |
-
2021
- 2021-03-27 JP JP2021054429A patent/JP6985543B1/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07152863A (ja) * | 1993-11-30 | 1995-06-16 | Suzuki Motor Corp | 文字認識装置 |
CN110852375A (zh) * | 2019-11-09 | 2020-02-28 | 北京工业大学 | 基于深度学习的端到端乐谱音符识别方法 |
Non-Patent Citations (3)
Title |
---|
宮尾 秀俊: "印刷ピアノ楽譜の自動認識", 電子情報通信学会技術研究報告 VOL.90 NO.251, vol. 第90巻, JPN6021046495, 25 June 1999 (1999-06-25), JP, pages 39 - 46, ISSN: 0004646549 * |
松本 和紀 他: "楽譜の認識", 日本音響学会研究発表会議講演論文集 秋I, JPN6021024326, 13 September 1993 (1993-09-13), ISSN: 0004535371 * |
長尾 真 他, 岩波講座 マルチメディア情報学4 文字と音の情報処理 初版, vol. 第1版, JPN6021024327, 13 November 2000 (2000-11-13), pages 170 - 177, ISSN: 0004535370 * |
Also Published As
Publication number | Publication date |
---|---|
JP6985543B1 (ja) | 2021-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dorfer et al. | Learning Audio-Sheet Music Correspondences for Cross-Modal Retrieval and Piece Identification. | |
WO2018194456A1 (en) | Optical music recognition omr : converting sheet music to a digital format | |
Cancino-Chacón et al. | An evaluation of linear and non-linear models of expressive dynamics in classical piano and symphonic music | |
Raphael et al. | New Approaches to Optical Music Recognition. | |
JPWO2020080239A1 (ja) | 情報処理方法、情報処理装置及び情報処理プログラム | |
Henkel et al. | Score Following as a Multi-Modal Reinforcement Learning Problem. | |
JP6985543B1 (ja) | 楽譜画像から音楽情報を作成する方法とそのコンピューティングデバイスおよびプログラム | |
Zalkow et al. | CTC-based learning of chroma features for score–audio music retrieval | |
Peter et al. | Automatic Note-Level Score-to-Performance Alignments in the ASAP Dataset. | |
Shatri et al. | DoReMi: First glance at a universal OMR dataset | |
Benetos et al. | Automatic transcription of Turkish makam music | |
Gururani et al. | Analysis of objective descriptors for music performance assessment | |
Shishido et al. | Production of MusicXML from locally inclined sheetmusic photo image by using measure-based multimodal deep-learning-driven assembly method | |
Henkel et al. | Real-Time Music Following in Score Sheet Images via Multi-Resolution Prediction | |
Syarif et al. | Gamelan Melody Generation Using LSTM Networks Controlled by Composition Meter Rules and Special Notes | |
Holder et al. | Musiplectics: computational assessment of the complexity of music scores | |
JP2682382B2 (ja) | 楽譜認識装置 | |
WO2021166745A1 (ja) | アレンジ生成方法、アレンジ生成装置、及び生成プログラム | |
Martínez-Sevilla et al. | Insights into end-to-end audio-to-score transcription with real recordings: A case study with saxophone works | |
Shishido et al. | Listen to your favorite melodies with img2Mxml, producing MusicXML from sheet music image by measure-based multimodal deep learning-driven assembly | |
JPH06102869A (ja) | 楽譜認識装置 | |
JP2682383B2 (ja) | 楽譜認識装置 | |
Schelehoff | Optical music recognition: overview, challenges, and possibilities | |
JP2650605B2 (ja) | 楽譜認識装置 | |
Shah et al. | Optical Music Symbol Recognition (sheet-to-music and music-to-sheet) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210327 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20210327 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20210402 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210624 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20210722 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210914 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211124 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211125 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6985543 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |