JP2022151387A - 楽譜画像から音楽情報を作成する方法とそのコンピューティングデバイスおよびプログラム - Google Patents

楽譜画像から音楽情報を作成する方法とそのコンピューティングデバイスおよびプログラム Download PDF

Info

Publication number
JP2022151387A
JP2022151387A JP2021054429A JP2021054429A JP2022151387A JP 2022151387 A JP2022151387 A JP 2022151387A JP 2021054429 A JP2021054429 A JP 2021054429A JP 2021054429 A JP2021054429 A JP 2021054429A JP 2022151387 A JP2022151387 A JP 2022151387A
Authority
JP
Japan
Prior art keywords
bar
staff
feature
image
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021054429A
Other languages
English (en)
Other versions
JP6985543B1 (ja
Inventor
知行 宍戸
Tomoyuki Shishido
靖弘 小野
Yasuhiro Ono
ファティ フェヒミユ
Fehmiju Fati
大輔 徳重
Daisuke Tokushige
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2021054429A priority Critical patent/JP6985543B1/ja
Application granted granted Critical
Publication of JP6985543B1 publication Critical patent/JP6985543B1/ja
Publication of JP2022151387A publication Critical patent/JP2022151387A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Auxiliary Devices For Music (AREA)
  • Image Analysis (AREA)

Abstract

【課題】楽譜画像から音楽情報を生成してする方法、コンピューティングデバイス及びプログラム提供する。【解決手段】楽譜画像から音楽情報を作成する方法であって、楽譜画像を入力する工程と、楽譜画像から少なくとも一つの小節を、任意ではあるがディープラーニングモデルを使用して抽出する工程と、任意に、少なくとも一つの小節の各小節内の五線の位置を補正する工程と、少なくとも一つの小節の各小節内の音符を、任意に複数のディープラーニングモデルを使用して同定する工程と、同定された音符から音楽情報を作成する工程を含む。【選択図】図1

Description

本発明は、楽譜画像から音楽情報を作成する方法、コンピューティングデバイス、およびプログラムに関する。
光学式音楽認識(OMR:Optical Music Recognition)は、文書中の楽譜を計算機で読み取る方法を研究する研究分野に関する。OMRの目標は、コンピュータを用いて楽譜の読み取りと解釈を行い、書かれた楽譜の機械読み取り可能なバージョンを作成することである。OMRパイプラインは、前処理、音楽記号認識、記譜法の再構築、最終表現の構築の4つの段階に分類される(非特許文献1)
具体的な処理について、特許文献1は、楽譜のイメージを読み取って得られた画像データから前記楽譜中の五線、音符、記号及びそれらの位置等を認識し、その認識結果に基づいて楽音の音高、発音タイミング及び発音時間等の情報を生成する楽譜認識装置を開示する。この装置内では、(1)前処理(五線・小節線認識、傾斜補正、五線消去およびビーム消去)、(2)オブジェクト認識(外接長方形の探索およびマッチング処理)、(3)イベント認識処理(音高認識および音長認識処理)及び演奏データ作成、(4)自動演奏(MIDIデータ作成及び出力)が行われる。
特許文献2は、紙面の楽譜の情報を含む画像を、画像読み取り手段から取得する画像取得手段と、前記画像取得手段により取得された画像に含まれる楽譜記号を、複数の楽譜記号認識方法を用いて認識して複数の楽譜記号認識結果を出力する楽譜記号認識手段とを有し、前記楽譜記号認識手段は、五線認識処理、段落認識処理、楽譜記号認識処理、及び楽譜全体の処理を行い、楽譜記号同士の関係について複数の候補を検出し、それぞれの候補について、様々な情報を用いて、楽譜的に妥当なものを推定して1つの楽譜記号同士の関係を選別することを特徴とする楽譜認識装置を開示する。
特許文献3は、楽譜画像を基に一部の楽譜記号を認識する事前認識処理部と、前記事前認識処理部の認識結果を修正する修正部と、前記修正部により修正された認識結果を用いて、前記楽譜画像を基に他の楽譜記号を認識する本認識処理部とを有し、前記事前認識処理部は、拍子記号、小節線、音部記号及び調号を認識し、前記本認識処理部は、音符及び休符を認識することを特徴とする楽譜認識装置を開示する。
これらの技術を用いた装置は、開示されるように五線、小節線を認識し、その後、五線や小節線を除去し、音符等をOCR等の技術を用いて認識する工程を有している。
これら従来のOMR装置の例には、Aruspix、Audiveris、Gamera、PhotoScore(楽譜ソフトウエアSibeliusで用いられているもの)等が挙げられる。しかしながら、OMR精度の改善が必要とされてきた。
このOMR精度の改善のためにディープラーニングを用いたアプローチが試されている。ディープラーニングは、例えば、写真、画像、動画などの静的画像と動的画像を含むデータに関する情報の解析と利用を変容させてきた。ディープラーニングの現状と可能性については、多くの文献(例、非特許文献2と3)で検討されている。任意の対象物の分類だけでなくその位置も、YOLO(非特許文献4)やSSD(非特許文献5)などの様々なディープラーニングモデルによって決定可能になっている。分類と位置の両方を使用することで、録画されたビデオ内の物体検出やライブ画像内のリアルタイムの物体検出を含む多くのアプリケーションにおいて有用で汎用性の高いモデルとなっている。現在、その用途は様々な分野で拡大しており、今後も幅広く研究されるだろう。
具体的には、いくつかのディープラーニングモデルがOMRに適用されている。Calvo-Zaralagozaら(非特許文献6)は、楽譜中の楽譜の音楽記号の位置を特定するために、いわゆるConnectionist Temporal Classification(CTC)損失関数を用いた。Zhiqing Huangら(非特許文献7)は、深層畳み込みニューラルネットワークと特徴融合に基づくエンドツーエンド検出モデルを提案している。このモデルは、画像全体を直接処理した後、記号カテゴリと音符の音程と持続時間を出力することができる。また、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)とリカレントニューラルネットワーク(RNN:Recurrent Neural Network)を使用して五線上の音符データを時系列で処理する方法も開示されている(特許文献4)。
さらに、Pachaらは、非特許文献8で、楽譜画像を認識するために小節を認識するディープラーニングモデルを用いている。そして、非特許文献7に開示される方法と同様に、記号カテゴリと音符を認識するディープラーニングモデルを用いて音楽記号認識が可能であることを示している。
特開平6-103416号公報 特開2012-138009号公報 特開2015-56149号公報 国際公開番号WO2018/194456
Rebelo, Ana; Fujinaga, Ichiro; Paszkiewicz, Filipe; Marcal, Andre R.S.; Guedes, Carlos; Cardoso, Jamie dos Santos(2012). "Optical music recognition: state-of-the-art and open issues" (PDF).International Journal of Multimedia Information Retrieval. 1(3): 173-190.doi: 10.1007/s13735-012-0004-6. 松尾豊:ディープラーニングと人工知能の難問,システム制御情報学会誌,Vol.60, No.3, pp.92-98, 2016 Z. Zhao, P. Zheng, S. Xu and X. Wu, "Object Detection With Deep Learning: A Review," in IEEE Transactions on Neural Networks and Learning Systems, vol.30, no.11, pp.3212-3232, Nov. 2019, doi: 10.1109/TNNLS.2018.2876865. Redmon, J., Farhadi, A., YOLOv3: An Incremental Improvement., arXiv 2018, arXiv: 1804.02767 Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C.Y., Berg, A.C., SSD: Single Shot MultiBox Detector., In European Conference on Computer Vision; Springer: Cham, Switzerland, 2016; pp.21-37., doi: 10.1007/978-3-319-46448-0_2. Jorge Calvo-Zaragoza and David Rizo, End-to-End Neural Optical Music Recognition of Monophonic Scores, Appl. Sci., 2018, 8, 606 Zhiqing Huang, Xiang Jia and Yifan Guo, State-of-the-Art Model for Music Object Recognition with Deep Learning, Appl. Sci., 2019, 9, 2645 https://www.youtube.com/watch?v=Mr7simdf0eA
本発明は、楽譜画像から精度高く音符を同定することを目的とする。
具体的には、本発明の第一観点は、楽譜画像から音楽情報を作成する方法であって、楽譜画像を入力する工程と、前記楽譜画像から少なくとも一つの小節を抽出する工程と、前記少なくとも一つの小節の各小節内の音符を同定する工程と、同定された前記音符から音楽情報を作成する工程を、含む方法を提供する。この方法は、特に、楽譜画像から少なくとも一つの小節を抽出する工程を経ることにより、精度高く音符を同定することができる。
ある態様では、前記少なくとも一つの小節がディープラーニングモデルによって抽出される場合がある。好ましくは、前記少なくとも一つの小節のそれぞれが、五線の枠、特に最上部と最下部の線に沿って抽出される。これにより、後述する五線の補正を容易にする効果を有する。
ある態様では、前記少なくとも一つの小節の各小節内の五線の位置を補正する工程をさらに含む。この五線位置補正工程は、任意ではあるが、入力した前記楽譜画像全体をある五線の傾斜を補正して水平にするようにする工程を含む。さらに、前記ディープラーニングによる各小節の抽出は、この水平補正した前記楽譜画像に対して実施してもよい。さらにまた、抽出した各小節内の五線に対して水平補正をする工程を含んでもよい。このように水平補正された各小節の五線の位置を、限定はされないが、実施例6と7に記載する方法等により補正してもよい。この五線補正工程は、各小節をディープラーニングモデルで抽出することにより可能になったものであり、楽譜の写真等の五線譜の歪みが画像に不均一なものに顕著な効果を奏する。
ある態様では、前記少なくとも一つの小節の各小節内の音符を同定する工程をさらに含んでもよい。ある態様では、前記少なくとも一つの小節の各小節内の前記音符を複数のディープラーニングモデルを使用して同定してもよい。複数の特徴カテゴリに対応するディープラーニングモデルを組み合わせることで、多様な音符記号等を表現することが可能になるという顕著な効果を有する。また、多数の特徴タイプを判別する一つの大きなディープラーニングモデルをトレーニングし使用するよりも、複数の特徴カテゴリのディープラーニングモデルを組み合わせることが、学習と推論時の実行性、正確度等の点でより優れていることが分かった。また、本発明に従って抽出した各小節を規格化して学習データとした点も学習と推論の精度の向上に寄与したと考えられ、これらは顕著な効果を奏する。
ある態様では、前記複数のディープラーニングモデルが並列に処理される。これにより、推論の時間を著しく短縮可能であり、今後のCPU/GPU/TPU性能の向上に伴い本発明がますます優れた効果を奏する。
ある態様では、前記音楽情報が、XMLファイル、musicXMLファイル、MIDIファイル、mp3ファイル、wavファイル、および楽譜からなる群より選択される。
本発明の第二観点は、楽譜画像から音楽情報を作成するためのコンピューティングデバイスであって、楽譜画像を入力する入力部と、前記楽譜画像から少なくとも一つの小節を抽出する小節抽出部と、前記少なくとも一つの小節の各小節内の五線の位置を補正する五線補正部と、前記少なくとも一つの小節の各小節内の音符を複数のディープラーニングモデルを使用して同定する音符同定部と、同定された前記音符から音楽情報を作成する音楽情報作成部と、を含み、前記少なくとも一つの小節がディープラーニングモデルによって抽出され、前記複数のディープラーニングモデルが並列に処理され、前記音楽情報が、XMLファイル、musicXMLファイル、MIDIファイル、mp3ファイル、wavファイル、および楽譜からなる群より選択される、コンピューティングデバイスを提供する。このコンピューティングデバイスは、前記第一観点で得られる顕著な効果を有する。
本発明の第三観点は、楽譜画像から音楽情報を作成するためのプログラムであって、楽譜画像を入力する入力部と、前記楽譜画像から少なくとも一つの小節を抽出する小節抽出部と、前記少なくとも一つの小節の各小節内の五線の位置を補正する五線補正部と、前記少なくとも一つの小節の各小節内の音符を複数のディープラーニングモデルを使用して同定する音符同定部と、同定された前記音符から音楽情報を作成する音楽情報作成部と、を含み、前記少なくとも一つの小節がディープラーニングモデルによって抽出され、前記複数のディープラーニングモデルが並列に処理され、前記音楽情報が、XMLファイル、musicXMLファイル、MIDIファイル、mp3ファイル、wavファイル、および楽譜からなる群より選択される、プログラムを提供する。このプログラムも、前記第一観点で得られる顕著な効果を有する。
本発明の一態様によれば、楽譜画像から精度高く音符を同定する顕著な効果が生じる。
本発明の一実施形態の方法の工程を示すフローチャートである。 本発明の実施例1に係る、複数の楽譜イメージに小節ディープラーニングモデルを適用して、各小節を認識させた結果を示す図である。 本発明の実施例5に係る、複数の特徴カテゴリのディープラーニングモデルを、様々な解析領域に適用して特徴タイプの種類と位置を同定したことを示す図である。 本発明の実施例6と7に係る、傾いた楽譜イメージを五線譜に対して水平化した結果を示す図である。 本発明の実施例7に係る、五線譜の位置と間隔の補正した結果を示す図である。 本発明の実施例8に係る、本方法を実施して楽譜イメージからMusicXMLを作成し、2種類の一般的な楽譜ソフトウエア上で表示させた図である。 本発明の実施例8に係る、傾いた楽譜の写真イメージと、そのイメージから本方法を用いてMusicXMLを作成しその結果を一般的な楽譜ソフトウエア上で表示した図である。 本発明の比較例に係る、傾いた楽譜の写真イメージを既存技術でOMR処理した結果を示す図である。
以下、本発明の実施形態について、詳細に説明する。
用語と定義
画像(イメージ)
本明細書で使用される画像またはイメージ(これらの用語は本明細書中で交換可能に用いられ、特に示されなければ同じ意味を有する)とは、本発明の方法で解析可能な任意の種類の画像である。画像は、写真またはスクリーン表示のような二次元であってもよいし、ホログラムのような三次元画像であってもよい。画像(イメージ)の例としては、画像、ビデオ、写真等が挙げられ、これらは、コンピュータ、サーバ、記憶媒体(例えば、RAM、ROM、キャッシュ、SSD、ハードディスク)、またはそのようなものに、それぞれまたは一緒に、ファイル(例えば、.jpg、.jpeg、.tiff、.png、.gif、.mp3、mp4、または.movファイル)として表示および/または保存することができる。
情報
本明細書で使用される情報はデータと関連している。違いは、情報が不確実性を解決することである。データは、冗長なシンボルを表すことができるが、最適なデータ圧縮を介して情報に近づく。情報は、伝送および解釈のための様々な形態に符号化することができる(例えば、情報は、符号のシーケンスに符号化されてもよいし、信号を介して伝送されてもよい)。情報のこの一般的な概念は、本明細書で適用することができる。情報の形態に関しては、情報は、文書化された形態、デジタル化された形態、オーディオ形態、ビデオ形態、またはそのような形態の組み合わせであってもよく、特定の形態に限定されない。光学的音楽認識(OMR)の技術では、情報は、例えば、楽譜またはデジタル化された、可読性のある、または可聴性の形式の他の任意の媒体として提供されてもよい。可視化されたもの又は可聴化されたもののいずれも許容される。
領域単位
本明細書では、領域単位は各小節であってもよい。OMRの技術では、領域単位は、5本の線(五線)を含むスタッフ(Staff;五線譜とも称されるが、本明細書中では「スタッフ」と「五線譜」は互換可能である場合もある)、1つ以上のスタッフを含む小節(メジャー(measure);本明細書中では「小節」と「メジャー」は互換可能である場合もある)であってもよい。
位置基準
本明細書で使用される位置基準は、五線譜の五線の一つ又は複数の線であってもよい。
特徴モデル
本明細書で使用される特徴モデルは、その特徴モデルが画像から情報を抽出できるものであれば、どのような特徴モデルであってもよい。特徴モデルは、例えば、一般的な特徴モデル、好ましくはAIモデル、より好ましくは機械学習モデル、さらに好ましくは深層学習(ディープラーニング)モデルであってもよい。複数のモデルが、画像または少なくとも1つの解析領域(各小節を含むもの)における推論に使用されてもよい。使用する特徴モデルの数は、1、2、3、4、5、6、7、8、9、10、15、20、25、50、100、350、500、750、または1000以上であってもよい。上記値の任意の二つの間の数も含まれる。小節の抽出に用いる特徴モデルの数は、好ましくは1であり、小節を含む解析領域の推論に用いる特徴モデルの数は、特に限定はされないが、好ましくは1~100であり、より好ましくは1~25であり、さらに好ましくは1~10であり、さらに好ましくは1~5である。
楽曲情報を作成する際の本明細書に開示される特徴モデルの具体例としては、小節モデル、Clefモデル、Bodyモデル、Accidentalモード、Arm/Beamモデル、および/またはRestモデルなどが挙げられるが、これらに特に限定されるものではない。これらのモデルの詳細については後述する。
特徴カテゴリ
本明細書で使用される特徴カテゴリは、関連する特徴モデルに対応する。特に指示がない限り、特徴カテゴリは、使用されるモデルのこの特徴に関係する。特徴カテゴリは、モデルが画像からこの特徴に関するデータを抽出できるものであれば、どのような種類のものであってもよい。得られるデータは任意のものであってもよく、必ずしも有用なものではない。したがって、抽出されたデータの全てがその後の解析に使用されるとは限らない。各カテゴリは、手動で選択されてもよいし、別のモデルによって自動的に選択されてもよい。これにより、楽譜画像からの音楽情報の自動生成を容易にすることができる。
本発明の一実施形態では、独自に特徴カテゴリを作成したものもあるので、それらは、Clef、Accidental、Body、Arm/Beam、Restと表記して特徴カテゴリを示すことにする。
特徴タイプ
本明細書では、各特徴モデルの上記特徴カテゴリには、1種類以上の特徴タイプが含まれる。また、特徴タイプの種類は特に限定されず、任意の種類を単独で使用してもよいし、組み合わせて使用してもよい。また、音符特徴タイプを、これら一又は複数の特徴カテゴリと位置基準を組み合わせて使用してアノテーションしてもよい。本明細書中では、音符特徴タイプには、音符と休符のものが含まれる。従って、音符への言及は、音符と休符の両者を含む場合がある。
本発明の一実施形態では、Clef特徴カテゴリはト音記号、へ音記号、オクターブシフトの特徴タイプを含む。Accidental特徴カテゴリは♯(シャープ)、♭(フラット)、ナチュラルの特徴タイプを含む。Body特徴カテゴリは音符の黒丸部分、点付き黒丸、半白丸(半音符)、点付き半白丸、全黒丸(全音符)、点付き全音符の特徴タイプを含む。Arm/Beam特徴カテゴリは連なっていないクオーターのステム部分(上向きと下向き)、旗の付いた8th(上向きと下向き)、8th(上部、下部)(開始、中間、終了)の連なっている部分、16th(上部、下部)(開始、中間、終了)の連なっている部分の特徴タイプを含む。Rest特徴カテゴリは全休符、半休符、クオーター、8th、16th休符の特徴タイプを含む。これらの特徴タイプを表5に示す。具体的な形は図3を参照されたい。
楽譜(スコア)
楽譜(スコア)は、歌や楽器の音楽作品の音程、リズム、および/または和音を示すために音楽記号を使用して表記した手書きまたは印刷あるいは電子的に読み取り可能な形式のものを含む。スコアという用語は、楽譜(シートミュージック)の一般的な代替(より一般的な)用語である。本明細書で使用される楽譜またはスコアは、一般的に楽譜と呼ばれることがある。本明細書で使用される楽譜の画像の例には、可視化またはデジタル化された楽譜画像の任意の形態が含まれる。
スタッフ(五線譜)とメジャー(小節)
スタッフ(五線譜)は、5本の水平線と4つのスペースで構成されており、それぞれが異なる音程を表しているものを含む。スタッフは、例えば、以下の実施形態を含む。意図された効果に応じて対応する音程や機能に応じて適切な音楽記号がスタッフに配置される。音符は音程ごとに配置される。音程は五線上の縦の位置によって決定され、左から右へと演奏される。どの位置にどの音符があるかは、スタッフの先頭にある音部記号(クレフ記号)によって決まる。音部記号は、特定の線を特定の音として識別し、他のすべての音はその線に対して相対的に決定される。2本のスタッフがある音楽を繋いだり、一人の演奏者が一度に演奏したりする場合、グランドスタッフ(大五線譜)が使用される。一般的には、上段のスタッフ(五線譜)はト音記号、下段のスタッフはヘ音記号が使用される。例えば、ピアノの音楽は、右手用と左手用の2つのスタッフで書かれている。小節線は、五線上の音符を小節に区切ってまとめることに使用される。
音楽の表記法では、小節またはメジャー(以下、小節と呼ぶ場合がある)とは、特定の拍数に対応する時間のセグメントであり、各拍は特定の音価で表され、小節の境界は垂直の小節線で示される。音楽を小節に分割することで、作曲の中で位置を特定するための定期的な基準点が得られる。また、スタッフの各小節を一括して読み込んで演奏することができるので、音楽をより簡単に追うことができる。
五線の線(5つの線)
各スタッフは5つの線(ライン)(五線)で構成されている。ラインとスペースには下から上へ番号を振ることができる。音符は、ライン(音符の玉部分の中央を通る線)上またはスペースに配置することができる。このスペースには4つの内側のスペースと、上部または下部の2つの外側のスペースとが含まれる。
本発明の一実施形態では、スタッフの5つの線の位置を位置基準にして、音階(ステップ)をト音記号またはへ音記号に対応させて割り当てた。本明細書中では音階はA(ラ)、B(シ)、C(ド)、D(レ)、E(ミ)、F(ファ)、G(ソ)を原則的に使用する。
音楽記号(特徴)タイプ
音楽記号の例には:線(例、五線、小節線、ブレース、カッコ)、音符と休符(例、全音、半音、四分音、八分音、16分音、32分音、64分音、128分音、256分音、ビーム音、ドット音または休符)、臨時記号(フラット、シャープ、ナチュラル、ダブルフラット、ダブルシャープなど)、調号(例、フラット調号、シャープ調号)、四分音(デミフラット、フラットアンドハーフ、デミシャープ、シャープアンドハーフ)、拍子記号(例、ビート数とビートタイプで表示されるシンプルな拍子記号、コモンタイム、テンポなどのメトロノームマーク)、音符の関係性を示すもの(例、タイ、スラー、グリッサンド、グリッサンド、タプレット、コード、アルペジオコード)、ダイナミクス(例、ピアニッシモ、ピアニッシモ、ピアノ、メゾピアノ、メゾフォルテ、フォルテ、フォルティッシモ、フォルティッシモ、スフォルツァンド、クレッシェンド、ディミヌエンド)、奏法記号(例、スタッカティッシモ、スタッカティッシモ、スタッカティッシモ スタッカティッシモ、スタッカート、テヌート、フェルマータ、アクセント、マルカート)、装飾音(例、トリル、アッパー・モーデント、ロア・モーデント、グルペット、アポッジアトゥーラ、アッキアッカトゥーラ)、オクターブ記号(例えば、オッタバ)、反復とコーダ(例、トレモロ、反復記号、シミュレーション記号、ボルタカッコ、ダカポ、ダルセグノ、セグノ、コーダ)、またはその他の音楽記号が含まれる。
本発明の一実施形態では、楽譜の画像から情報を生成するという問題に対処するために、いくつかのタイプが修正または作成される。本実施形態で使用される特徴タイプは、表5に記載されている。
方向
別段の記載がない限り、本明細書で指定された方向は、当技術分野で通常使用される意味を有する。水平方向と垂直方向は、任意の画像に提供される。水平方向、垂直方向のいずれかを任意に設定してもよいが、位置は、各特徴モデルによって、x位置、y位置として提供されてもよい。これらの位置は、直接使用してもよいし、位置基準のいずれかを参照して再設定可能である。
概要
既存技術との対比
特許文献1~3に開示される技術では、五線と小節線を認識し、その後、五線等を消去して音符記号等を認識し、その際に小節線を利用して認識した音符情報の再構築を行うものである。したがって、各小節に着目し、各小節を抽出してその後の音符情報の再構築を行う本発明とは技術思想が異なる。五線の傾斜を補正する工程も記載されているが、各小節内の五線の位置を補正する記載はない。
非特許文献6では画像全体を直接処理してシンボルカテゴリと音程と持続時間を出力するエンドツーエンドの検出モデルが提案されているが、得られるシンボルカテゴリをどのようにして作成するか、音程と持続時間からどのように音楽情報を生成するのかは明らかにされていない。また、小節に着目して各小節を抽出して音符情報の再構築を行う技術思想は開示されていない。
特許文献4では、畳み込みニューラルネットワークとリカレントニューラルネットワークを使用して五線上の音符データを時系列で処理しているが、各小節を抽出して音符データを作成して時系列処理するものではない。
非特許文献7と8では、音符記号等の検出に1つのエンドツーエンドのディープラーニング検出モデルを利用しているが、各シンボルカテゴリ(特徴タイプ)の検出に複数のモデルを利用することは検討されていない。シンボルカテゴリとタイプの数を増やす必要があるが、どのような方法でアノテーションして、その結果を再構築するかも具体的には提示されていない。また、五線の位置情報により、各音符のステップを同定することが開示されているが、各小節を抽出して位置を各小節に関して補正する技術思想は開示されていない。
複数のモデルを、各記号カテゴリに属する特徴タイプの何れかを検出して解析するというタスクに使用する場合、複数のモデルの出力から音楽情報を生成するための最適な手順と処理構成を見出す必要がある。
非特許文献8では、ディープラーニングモデルによって楽譜イメージ内の小節を認識可能なことが示されている。しかしながら、認識された小節はグランドスタッフ(大五線譜:2つのスタッフを含むもの)であり、本願明細書中に記載される小節(一つのスタッフ中の各小節線で区切られるセグメント)とは異なっている。また、小節を認識する目的は画像が音楽画像であるかどうかを識別するための構造情報を提供するためである。さらに、非特許文献8の小節の認識は小節を含む五線の領域より大きなものを認識しており、できるだけ五線の領域に絞って認識するモデルではない。従って、各小節を抽出して、その単位を用いて五線情報を補正したり、各音符記号をディープラーニングモデルで認識したりするという技術思想とは異なる。さらに、得られた音符記号情報等を再構築して最終的に音楽情報にするやり方は著者も認めているように現在はまだ無い。
以下具体的な実施形態について詳述する。
実施形態1
本発明の第1実施形態は、楽譜画像から音楽情報を作成する方法であって、楽譜画像から少なくとも一つの小節を抽出する工程を含む、方法を提供する。この方法は、例えば、楽譜画像を入力する工程又は前記少なくとも一つの小節の各小節内の音符から音楽情報を作成する工程を含んでもよい。以下、本発明のある実施形態の工程を説明したフローチャート(図1)に基づいて、本方法の工程と任意ではあるが含む場合がある工程とを詳細に説明する。これら工程の順序は変更される場合がある。
(1)楽譜画像入力工程(工程S100)
楽譜画像入力工程(1)では、楽譜画像を入力する。楽譜画像の画像は上記で定義されたような任意の画像である。楽譜には、楽曲の全体または一部が含まれる。楽譜は複数のページを含む場合があり、各ページが対象となる場合がある。入力は下記のコンピューティングデバイスが読み取り可能または認識可能な任意の方式で実施される。
(2)小節抽出工程(工程S200)
小節抽出工程(2)では、前記楽譜画像から少なくとも一つの小節を抽出する。本明細書中で使用する、用語「小節」は領域単位として上記で定義されるものであり、小節またはメジャーと呼ぶ場合がある。本明細書では、各小節は好ましくはグランドスタッフ(大五線譜)のものではなく、一つのスタッフの中の単位(一つのスタッフ中の各小節線で区切られるセグメント)を指す。小節は領域単位として抽出されてもよい。また抽出された小節に対して、小節ごとに(例えば、小節単位で)音符を同定してもよい。抽出した小節を解析後に再構築して音楽情報を作成する工程を含んでもよい。
小節の数は特に限定されず、例えば、1、2、3、4、5、6、7、8、9、10、15、20、25、50、100、150、200、250、50、100、150、200、250、500、1000以上であってもよい。また、その数は、上記の数よりも大きくても低くてもよく、また、それらの内のいずれか2つの数値の間であってもよい。
(2-1)小節抽出機械学習モデル
各小節は機械学習モデルで抽出されてもよい。この際には、小節モデルの種類は、どのようなものであってもよい。また、小節モデルの数は特に限定されず、1、2、3、4、5、10以上であってもよい。また、その数は、上記の数よりも多くても少なくてもよく、また、その間の任意の数であってもよい。好ましくは、各小節の取得に要する処理時間の観点から、その数は1である。
小節モデルは、それぞれ好ましくは、AIモデル、より好ましくは機械学習モード、さらに好ましくは深層学習(ディープラーニング;深層学習とディープラーニングは互換的に本明細書中で使用される)モデルであってもよい。それらの任意の組み合わせが許容され、それらは単独で使用されてもよいし、組み合わせて使用されてもよい。
小節モデルの機能には、小節の種類の分類と位置決めが含まれる。分類と位置決めは、SSDやYOLOモデルなどの1つの特徴モデルを用いて行うことができる。ただし、複数のモデルを組み合わせて使用してもよい。後述する他の特徴モデルについても同様である。
実施例1では、表1に記載される小節を3つのタイプ(x0、x1、y0)に分類するディープラーニングモデルを適用することで非常に効率よく楽譜内の各小節を認識できることが示された。従って、効率よく(例、94%~100%)各小節を認識できるという顕著な効果を本発明が奏することが示される。
(2-2)各小節に基づいて解析領域と前記各小節中に少なくとも一つの位置基準を設定する工程
各小節に基づいて解析領域が設定される。この解析領域は、各小節の一部であってもよいし、各小節の一部または全体を含んでいてもよい。解析領域は、任意の形状を有していてもよい。解析領域の形状は、各小節の形状と同じであってもよいし、異なる形状であってもよい。
また、各小節から導出される解析領域の大きさや数は特に限定されるものではなく、上述した領域単位と実質的に同様の方法で提供されてもよい。本実施例では、上側のマージンと下側のマージンを五線の縦幅の1倍または1.2倍にしている。これにより、小節の五線内の音符だけでなく、下側および上側に位置する音符等も各小節に属する音楽記号として認識することができる。
少なくとも1つの位置基準を設定する。位置基準は上記で定義されるものである。位置基準の種類は特に限定されない。位置基準の種類は、その位置基準が後述する音楽記号をマッピングしたりアノテーションしたりするのに使用できるものであれば、どのような種類であってもよい。好ましくは五線譜内の五線の一又は複数の線である。また、五線間の間隔を適用して、スタッフの上側と下側にも位置基準の線を設けて、上側と下側の領域にある音符のステップを同定することができる。
位置基準の数は特に限定されず、例えば、1、2、3、4、5、6、7、8、9、10、15、20、25、50、75,または100以上であってもよい。また、その数は、上記の数よりも多くても少なくてもよく、また、いずれか2つの間であってもよい。
好ましくは、前記少なくとも一つの小節のそれぞれが、五線の枠、特に最上部と最下部の線に沿って抽出される。この点は非特許文献8で開示される方法と異なる部分であり、後述する五線の補正を容易にする優れた効果を有する。
(3)位置基準補正工程
(3-1)全体画像傾斜補正工程(工程S301)
位置基準補正工程(3)は、前記少なくとも一つの小節の各小節内の五線の位置を補正する工程である。この五線位置補正工程は、任意ではあるが、入力した前記楽譜画像全体をある五線の傾斜を補正して水平にするようにする工程を含む。この楽譜画像全体の五線の傾斜を補正する方法は、好ましくは小節抽出工程(2)の前に実施される。これにより、より効率的に各小節を抽出することを可能とする。
この全体画像傾斜補正は、例えば、以下のような工程で実施可能である。
1.入力イメージをグレースケール化し、Canny法を用いて画像のエッジを抽出する。
2.Hough法を用いて直線を検出する。
3.一番長い直線の傾き角を計算して画像の回転角度を求める。
4.求めた回転角度で画像全体を回転する。
工程(3-1)は効果的に画像全体の傾斜を補正することはできるが、楽譜の写真のように(例、図4A,4B参照)画像の各領域で小節の傾きが均一でないものに対しては、各小節が抽出できるようにはなるものの、位置基準である五線の傾斜を画一的に定めるにはまだ課題が存在していた。既存技術で五線の補正をする場合は、全体の五線を画一的に補正するか又は各五線(小節を跨って存在するもの)の傾斜を補正するにとどまっていた。そこでさらに正確な位置基準を提供するという課題を解決するために、以下の各小節内の五線に対する傾斜の補正を実施する場合がある。
(3-2)各小節傾斜補正工程(工程S302)
各小節の五線傾斜の補正は、基本的に(3-1)全体画像傾斜補正と同様に実施することができる。画像の各領域で五線の傾斜が異なるものに対しては、各小節内の五線の傾斜を個別に補正することが好ましい。但し、各小節内の五線は横方向に伸びる直線の閾値で選択を掛けてもよい。この各小節に対する五線傾斜の補正は既存技術には無い顕著な効果を奏する(例、図4C)。この補正により、楽譜の写真等の五線譜の歪みが画像に不均一なものにおいてさえも位置基準となる五線をより精度高く提供できる。
(3-3)五線位置/間隔補正工程(工程S303)
五線の位置は小節モデルで抽出した小節が正確な位置で(特に、五線譜の上下の線に沿って)抽出されると仮定して計算する。このように工程(2)で抽出される小節は、各小節を単に抽出するだけでなく、各小節の位置基準を定める指標となるという二重の効果を奏する。また、解析領域は五線譜の高さを指標として上部と下部に任意のサイズで設定可能である。上部と下部の解析領域は楽譜により幅があるので幅広に検出した特徴モデルを利用するかしないかは選択できるようにしてもよい。このようにして仮定した五線は実際の五線とズレがある場合がある。このズレを補正するためにalphaとbeta変数を導入してもよい。alphaは五線譜の中央からのズレであり、betaは五線譜間の間隔を補正する値である場合がある。この二つの値を以下のアルゴリズムを用いて自動で求めることができる。
1.イメージ全体の縦幅(五線+上部と下部にそれぞれ五線の高さサイズを任意に拡張した部分を設けたイメージ)を1とする。alphaの範囲を-0.03~0.03の間0.001刻みでループさせ、その各値でbetaを-0.005~0.005の間0.001刻みでループさせる。
2.その各alpha、betaを使い五線譜をイメージ中に重ね書きする。
3.画像をグレースケール化しGaussian閾値処理した画像の黒い部分の面積を求める。
4.五線譜が重なる場合が面積は最小になると考え最小値を求め、その時のalpha、betaの値を補正に使用する。
この(3-3)五線位置/間隔補正工程により、五線の各線の位置が正確に位置決めされてより正確な位置基準を提供することができる。従って、各音符のステップが正確に決定されることで得られる音楽情報がより有用で、その後のヒトによる補正工程の負担を軽減できるという優れた効果を有する。
以上に記載されるように、本発明の一実施形態では、画像を水平に補正し、五線の位置や間隔を補正する方法が好ましくは用いられる。自動補正に用いられる手法の例には、Canny法、Hough法、Gaussian閾値処理(実施例6)、本明細書で開示される独自の五線位置間隔補正方法(実施例7)が含まれる。楽譜の写真等の五線譜の歪みが画像に不均一なものに対してさえも五線の位置を個別に補正することにより、音符のステップや臨時記号(アクシデンタル)(例、#、♭、ナチュラル)等の位置をより精度高く同定することができる。
(4)各小節内の音符を複数のディープラーニングモデルを使用して同定する工程(音符同定工程S400)
(4-1)複数の特徴モデルと特徴タイプの使用
この工程では、複数の特徴モデルが推論のために各小節に基づいた解析領域に適用される。複数の特徴カテゴリに対応するディープラーニングモデルを組み合わせることで、多様な音符記号等を表現することができる。特徴モデルは、それぞれ好ましくは、AIモデル、より好ましくは機械学習モード、さらに好ましくはディープラーニングモデルであってもよい。それらの任意の組み合わせが許容され、それらは単独で使用してもよいし、組み合わせて使用してもよい。
特徴モデルの数は特に限定されず、2、3、4、5、6、7、8、9、10、15、20、25、50、100、150、200、250、500、100以上であってもよい。また、上記の数字よりも大きい数であっても、小さい数であってもよく、いずれか2つの間の数であってもよい。
特徴カテゴリ(例、実施例5)は、任意の音楽記号を認識する特徴モデルに関する。任意の音楽記号には、既定の音楽記号そのものと自作したもの、例えば、音符の各パーツに関するものが含まれる。具体例には、表2に記載されるaccidental、arm/beam、body、clef、restカテゴリが挙げられ、其々のカテゴリには複数の特徴タイプが設定可能である。
実施例2で示されているように、推論のために複数の特徴モデルを使用することは、単一の特徴モデルを使用することに比較していくつかの利点がある。
複数の特徴モデルは、並列に処理されてもよいし、直列に処理されてもよい。しかし、複数の特徴モデルは、実施例3と4で示されるように、推論に必要な時間を短縮するために、並列に処理されることが好ましい。
(i)訓練性能
特徴タイプの数が少ない複数の特徴モデルは、特徴タイプの数が多い1つの特徴モデルよりも容易に学習実施可能であった。また、実施例2は、少数の特徴タイプを持つように特徴カテゴリを選択した場合に、各特徴タイプの認識精度が高くなることを実証する。このように、本発明によれば、特徴モデルの学習性能を向上可能とするという顕著な効果を奏する。
(ii)推論性能
推論処理の数は、抽出される領域単位の数が大きくなると増加する。近い将来起こるであろうCPUやGPUの数が多いコンピュータの設定の場合、この設定を利用して推論処理を並列に処理し、処理時間を短縮することが考えられる。例えば、解析領域数が100、推論用の特徴モデル数が10の場合、1,000個の独立した推論処理を完了させる必要がある。CPUやGPUの数が増えるにつれて、複数の特徴モデルを並列に使用すると、すべての推論処理にかかる時間が短くなることが期待される。本実施例3で示すように8コアのCPUで並列処理しても処理時間は単純に1/8にならないので、実際に現状の検証可能なアーキテクチャーで試験して処理時間を測定することが必要である。そこで実際に処理時間を比較した本実施例3と4が並列処理の有用性を実証した。実施例4では、処理時間はCPUを直列で処理した時間の約10分の1であり、GPUでの並列処理により顕著に処理時間の短縮ができることを実証する。複数の特徴モデルによる推論に複数のCPU/GPUを使用することは、総処理時間の点で優れていると考えられる。したがって、本発明の好ましい実施形態では、並列処理により推論処理に要する時間を短縮することが可能となるという顕著な効果を奏する。
(4-2)各特徴モデル中の前記複数の特徴タイプのそれぞれの位置をマッピングして整列させる工程
各特徴モデル(例、accidental、arm/beam、body、clef、restモデル)によって推論された各特徴タイプがマッピングされる。このマッピングは、特徴モデルで使用される座標系を使用して実行してもよいし、位置基準を使用して実行してもよい。さらに、座標系と位置参照との組み合わせが、各特徴タイプをマッピングするために使用されてもよい。
各特徴タイプは、水平方向または垂直方向に、または二方向に整列させてもよい。1つの特徴カテゴリの特徴タイプを整列させてもよいし、1つ以上の特徴カテゴリの特徴タイプを整列させてもよいし、すべての特徴カテゴリの特徴タイプを整列させてもよい。
整列の方向は特に限定されず、水平方向、垂直方向のいずれであってもよい。また、整列の方向は、1方向であってもよいし、2方向以上であってもよい。
一つ以上の特徴タイプは、アライメントの前、途中、および/または後に除外されてもよい。
(4-3)五線位置(位置基準)を使用して各特徴タイプを解析することにより音符をアノテーションする工程
各特徴タイプは、少なくとも1つの位置基準である五線位置を用いて解析され、順に音符のアノテーション(同定;これらは互換的に用いられる場合がある)に使用してもよい。解析の方向は任意に設定してもよいし、水平方向または垂直方向であってもよい。整列された特徴タイプは、一部の特徴タイプが解析の対象から除外されてもよいが、順次解析されてもよい。
解析される特徴タイプは、複数の特徴モデルのうちの少なくとも1つの特徴モデルからの少なくとも1つの先行解析された特徴タイプの影響を受けてもよい。少なくとも1つの先行解析された特徴タイプの特徴カテゴリは、解析されている特徴タイプの特徴カテゴリと同じであってもよいし、異なるものであってもよい。このようにして、解析結果として得られるアノテーションされた特徴タイプは、先行する特徴タイプが同じ特徴カテゴリまたは異なる特徴カテゴリの後続の特徴タイプに影響を与える間、特定の方向に向けて解析およびアノテーションされてもよい。
具体的には、実施例8では、accidental、clefの各特徴タイプが少なくとも1つの先行解析された特徴タイプに相当する。
本発明の好ましい実施形態では、水平方向または垂直方向に整列された各特徴タイプと、それぞれ、垂直方向または水平方向に重なって整列された各特徴タイプとを使用して前記新たな音符特徴タイプのアノテーションを行う。特徴タイプの全ての位置が水平方向または垂直方向に整列される場合、解析対象となる各特徴タイプは、複数の特徴モデルのうちの少なくとも1つの特徴モデルから、それぞれ垂直方向または水平方向に重なる少なくとも1つの特徴タイプを用いてアノテーションを行ってもよい。
具体的には、各小節の水平方向への特徴タイプのソーティングを実施する場合がある。スタッフ番号を1か2に指定して、スタッフの小節(メジャー(measure))を一続きのリストにし、前から順に一つずつ小節を取り出してもよい。そして、各小節に含まれる全ての特徴タイプを水平方向(x)(順方向)にソーティングする。各アノテーションに影響する要素として現状のClefの状態とAccidentalテーブル(どの音階にシャープやフラットがあるかを教示するテーブル)とを更新しながら各音符をアノテーションしてもよい。Accidentalテーブルは初期値のfifths(どの長調または短調かを指定するもの)の状態を入力し、次の小節を解析する際には直前のfifthsの状態を反映させる場合がある。
水平方向にソーティングした各特徴タイプを前から順に解析するのが好ましい。解析は各タイプがどの特徴カテゴリにあるかに場合分けすることができる。
A.Clefカテゴリ
解析中の特徴タイプがClefカテゴリGまたはF(cf0またはcf1)である場合は、Clefの状態を変化させる。
B.Accidentalカテゴリ
解析中の特徴タイプがAccidentalカテゴリである場合は、位置基準を組み合わせてAccidentalテーブルを変更する。
C.Restカテゴリ
解析中の特徴タイプがRestカテゴリである場合は、Restタイプに合わせてアノテーションして、その要素を出力リストに追加する。
D.Bodyカテゴリ(垂直方向に重なる特徴タイプにより音符を同定)
解析中の特徴タイプがBodyカテゴリである場合は、和音を検出する。そして、音符の長さをArm/Beamタイプで特定するために、垂直方向に重なる特徴タイプをソーティングしてリストにするのが好ましい。その中にRestタイプが含まれる場合は、その位置によってVoiceを指定するのが好ましい(一番下にある場合はVoice1、一番上にある場合はVoice2に設定可能)。中間位置にある場合は前後の位置に応じてBodyタイプの前の要素として追加するか後の要素として追加するかを決定し、出力リストに追加してもよい。
Bodyタイプは垂直方向に重なる特徴タイプの数と位置によって場合分けしてアノテーションすることができる。複数のBodyタイプが含まれる場合はmusicXMLファイルの規定に従って和音(Chord)を割り当て可能である。
ケース1:一番下と上の特徴タイプが共にArm/Beamである場合
3個以上のBodyタイプがある場合は、対象のものと、下のArm/Beamに属する(下向きのステムの)ものとの距離と、上のArm/Beamに属する(上向きのステムの)ものとの距離を計算して近いものに割り当てることができる。その際、下のArm/Beamに属するものはVoice1に割り当て、上のArm/Beamに属するものはVoice2に割り当てるのが好ましい。
ケース2:一番下がRestである場合
一番下がRestである場合はRestをVoice1に割り当て、一又は複数のBodyタイプはVoice2に割り当てることが好ましい。
ケース3:一番上がRestである場合
一番上がRestである場合はRestをVoice2に割り当て、一又は複数のBodyタイプはVoice1に割り当てることが好ましい。
ケース4:一番上がArm/Beamである場合
一番上がArm/Beamである場合は、Bodyタイプの種類によって場合分けする。特徴タイプbd0~bd3の様にArmまたはBeamと組み合わせて音符をアノテーションするものと、bd4~bd5のようにArmとBeamを持たないものとをそれぞれアノテーションする。この際にVoiceはVoice1に設定し、後述するVoice調整工程で適宜変更する場合がある。
ケース5:一番下がArm/Beamである場合
一番下がArm/Beamである場合も、Bodyタイプの種類によって場合分けする。特徴タイプbd0~bd3の様にArmまたはBeamと組み合わせて音符をアノテーションするものと、bd4~bd5のようにArmとBeamを持たないものとをそれぞれアノテーションする。この際にVoiceはVoice1に設定し、後述するVoice調整工程で適宜変更する場合がある。
ケース6:一番上と下が共にBodyである場合
この場合は、bd4~bd5の特徴タイプが想定される。しかしながら、Arm/Beam特徴タイプやRest特徴タイプが認識されなかった結果(例、小節の最下部や最上部に位置していて認識できない場合や特徴モデルの推論で検出されなかった場合も含む)である場合も考えられる。従って、bd0~bd3の者が含まれている場合は、適宜Arm/Beamを補うように処理することが好ましい。また、このケースでも音符はVoice1に割り当てることが好ましい。
上記した各Bodyタイプのアノテーションでは現在のClefとaccidentalテーブルを引数として渡して、音符特徴タイプをアノテーションするのが好ましい。そして、各Bodyタイプのステップを五線の位置との相対距離に従って同定する。
解析済みのBodyとArmとRestタイプは除外リストに入れて再度解析されるのを防止することができる。また、Beamは隣接するBodyタイプの解析のために再度使用可能である。
このようにして水平方向にソーティングした特徴タイプを、以前に解析したある種の特定タイプ(Clef、Accidental)がその後に特徴タイプに影響を及ぼすようにし、また、垂直方向に重なる特徴タイプを垂直方向に影響を及ぼす特徴タイプ(例、Arm/Beam)を使用してアノテーションを実施するのが好ましい。
好ましい実施形態では、前記複数の特徴タイプと前記位置基準(五線位置)を組み合わせて使用して、新たな音符特徴タイプをアノテーションする。音符特徴タイプの数は前記前記複数の特徴タイプと前記位置基準の合計数の好ましくは少なくとも10倍であり、より好ましくは少なくとも100倍であり、さらに好ましくは少なくとも1000倍である。
(4-4)各音符のVoice調整工程
小節は楽曲によって決められた音符長を有する。この工程では、上記(4-3)音符アノテーション工程で同定された音符群のVoiceが正しく割り当てられたかどうかを確認する。ケース1~3では、各音符がVoice1またはVoice2に割り当てられているが、ケース4~6では、各音符は便宜的にVoice1に割り当てられている。そこで、この状態で、Voice1とVoice2に属する各音符の長さを、和音を考慮して計算する。そして、小節の規定の音符長よりも長くなった場合は、Voiceの調整を実施する。例えば、上側にArm/Beamを有するBodyタイプをVoice2にし、残り(例、bd4~bd5)のBodyタイプをVoice1にする場合がある。また、下側にArm/Beamを有するBodyタイプをVoice1にし、残り(例、bd4~bd5)のBodyタイプをVoice2にする場合がある。さらに全音符(bd4~bd5)をVoice2にする場合がある。この調整工程を繰り返して行ってもよい。
実施例5では、少数の特徴モデルの少数の特徴タイプを用いて新たに音符特徴タイプを作成する例を示す。実施例5では、複数カテゴリの比較的少数の特徴タイプを組み合わせることで多数の音符特徴タイプを同定、アノテーションできるという本発明の顕著な効果を実証する。
(5)各小節内の音符から音楽情報を作成する工程(音楽情報作成工程S500)
(5-1)前記領域単位に関してアノテーションした各特徴タイプのデータを組み立てる工程
この工程では、各領小節に関してアノテーションされた音符特徴タイプ由来のデータが組み立てられる。組み立て中に、アノテーションに利用した1つ以上の特徴タイプが削除されてもよい。削除された特徴タイプは、アノテーション中に別の特徴タイプに影響を与える可能性があるが、情報を生成するためには不要である場合があるからである。
組み立て方は特に限定されない。組み立ての方向は、解析中またはアノテーション中と同じ方向であってもよい。ただし、組み立てる方向は、解析中またはアノテーション中とは逆の方向であってもよい。また、アノテーションを時間的に処理する(すなわち、時系列で組み立てる)場合もあるため、アノテーション中は同じ方向にデータを組み立てることが好ましい。
本発明の好ましい実施形態では、前記アノテーションされた音符特徴タイプのデータが時間方向に組み立てられる。
(5-2)一又は複数の小節に関するデータを直列および/または並列に接続して音楽情報を作成する工程
一つ以上の小節について得られたデータを直列または並列に接続して情報を生成する。場合によっては、小節の数は1であってもよい。この場合、1つの小節に含まれるアノテーションされた音符特徴タイプのデータを使用してもよい。
また、複数の小節を有する場合には、複数の小節は直列に接続されていてもよいし、並列に接続されていてもよい。また、直列に接続されたデータをさらに直列に接続してもよいし、並列に接続されたデータをさらに直列に接続してもよいし、並列に接続されたデータをさらに直列に接続して音楽情報を生成してもよい。これにより、複数のスタッフがある楽譜にも対応することができる。
大五線譜を含む楽譜の場合には、右手用の五線譜を直列および並列(段が違うもの)に接続してスタッフ1とし、左手用の五線譜も直列および並列(段が違うもの)に接続してスタッフ2としてもよい。
接続される小節の数は特に限定されず、例えば、1、2、3、4、5、6、7、8、9、10、15、20、25、50、100、150、200、200、250、500、1000、2500、5000、10000、25000、50000、または10000以上であってもよい。また、上記の数字よりも大きくても小さくてもよく、また、いずれか2つの間の数字であってもよい。
各小節の音符データを接続する方法は特に限定されない。音符データは直接接続してもよいし、間接的に接続してもよい。間接的に接続されている場合には、データ間に他のデータや素材を挿入してもよいし、同じデータを繰り返し挿入して音楽情報を生成してもよい。
本発明の一実施形態では、接続されるべき小節は、先行する小節内の特徴タイプ(例、調号や臨時記号)に影響されてもよい。
本発明の一実施形態では、接続される小節の特徴タイプ(例、反復記号等)は、先行する小節に影響を与えてもよい。あるいは、小節を、単にそのまま接続してもよい。
本発明の一実施形態では、音楽情報は、XMLファイル、musicXMLファイル、MIDIファイル、mp3ファイル、wavファイル、および楽譜からなる群より選択される。
本発明の一実施形態では、得られた音楽情報はそのまま最終製品(例、MusicXML、MIDI、mp3ファイル、wavファイル、楽譜)として実施する場合がある。
実施例8では、各音符のアノテーションとMusicXMLファイルの作成の例を示し、本発明の方法が楽譜画像から音楽情報を作成する際に顕著な効果を奏することを実証する。
実施形態2
本発明の方法を実施して画像から情報を作成するためのコンピューティングデバイス
実施形態2は、本発明の方法を実施して画像から情報を作成するためのコンピューティングデバイスに関する。
本発明の第2実施形態は、楽譜画像から音楽情報を作成するためのコンピューティングデバイスであって、楽譜画像から少なくとも一つの小節を抽出する小節抽出部を含む、コンピューティングデバイスを提供する。このコンピューティングデバイスは、例えば、楽譜画像を入力する入力部、前記少なくとも一つの小節の各小節の五線の位置を補正する五線補正部、前記少なくとも一つの小節の各小節内の音符を複数のディープラーニングモデルを使用して同定する音符同定部、又は同定された前記音符から音楽情報を作成する音楽情報作成部、を含んでもよい。ここで、前記少なくとも一つの小節がディープラーニングモデルによって抽出され、前記複数のディープラーニングモデルが並列に処理され、又は前記音楽情報が、XMLファイル、musicXMLファイル、MIDIファイル、mp3ファイル、wavファイル、および楽譜からなる群より選択される、コンピューティングデバイスであってもよい。
コンピューティングデバイスの例には、特に限定はされないが、RAM、ROM、キャッシュ、SSD、ハードディスクが含まれる。また、クラウド上のもの、サーバ上のもの、オンプレミスのコンピュータ上のもの等の任意の形態のコンピューティングデバイスが含まれる。
楽譜画像を入力する入力部は、実施形態1の(1)楽譜画像入力工程を実行する。小節抽出部は、実施形態1の(2)小節抽出工程を実行する。五線補正部は、実施形態1の(3)位置基準補正工程を実行する。音符同定部は、実施形態1の(4)音符同定工程を実行する。音楽情報作成部は、実施形態1の(5)音楽情報作成工程を実行する。また、各部の好ましい態様は、実施例1に記載された態様を準用する。
実施形態3
本発明の方法を実施して画像から情報を作成するためのプログラム
実施形態3は、本発明の方法を実施して画像から情報を作成するためのプログラムに関する。本発明のプログラムは、本発明の方法を実施できる限り、プログラム全体または部分を含む。
本発明のプログラムは、本発明の方法を実施できる限り、任意の言語で記載可能である。その言語の例には、特に限定はされないが、Python, Java, Kotlin, Swift, C, C#, C++, PHP, Ruby, JavaScript, Scala, Go, R, Perl, Unity, COBOL等が含まれる。
実施形態3は、楽譜画像から音楽情報を作成するためのプログラムであって、楽譜画像から少なくとも一つの小節を抽出する小節抽出部を含む、プログラムを提供する。このプログラムは、楽譜画像を入力する入力部、前記少なくとも一つの小節の各小節内の五線の位置を補正する五線補正部、前記少なくとも一つの小節の各小節内の音符を複数のディープラーニングモデルを使用して同定する音符同定部、又は同定された前記音符から音楽情報を作成する音楽情報作成部、を含んでもよい。ここで、前記少なくとも一つの小節がディープラーニングモデルによって抽出され、前記複数のディープラーニングモデルが並列に処理され、又は前記音楽情報が、XMLファイル、musicXMLファイル、MIDIファイル、mp3ファイル、wavファイル、および楽譜からなる群より選択される、プログラムであってもよい。
楽譜画像を入力する入力部は、実施形態1の(1)楽譜画像入力工程を実行する。小節抽出部は、実施形態1の(2)小節抽出工程を実行する。五線補正部は、実施形態1の(3)位置基準補正工程を実行する。音符同定部は、実施形態1の(4)音符同定工程を実行する。音楽情報作成部は、実施形態1の(5)音楽情報作成工程を実行する。また、各部の好ましい態様は、実施例1に記載された態様を準用する。
その他の実施形態
本発明の一実施形態によれば、画像から情報を作成する方法であって、画像から領域単位を抽出する工程、前記領域単位に基づいて解析領域と前記領域単位中に少なくとも一つの位置基準を設定する工程、複数の特徴モデルを前記解析領域に適用して推論を行い、各特徴モデルは複数の特徴タイプに対して前記推論を実行する工程、各特徴モデル中の前記複数の特徴タイプのそれぞれの位置をマッピングして整列させる工程、前記少なくとも一つの位置基準を使用して、各特徴タイプを解析しアノテーションする工程、前記領域単位に関してアノテーションした各特徴タイプのデータを組み立てる工程、一又は複数の前記領域単位に関する前記データを直列および/または並列に接続して情報を作成する工程、の少なくとも1つの工程を含む方法が提供される。また本発明の一実施形態によれば、上記方法を実施して画像から情報を作成するためのコンピューティングデバイスが提供される。コンピューティングデバイスの例には、特に限定はされないが、RAM、ROM、キャッシュ、SSD、ハードディスクが含まれる。また、クラウド上のもの、サーバ上のもの、オンプレミスのコンピュータ上のもの等の任意の形態のコンピューティングデバイスが含まれる。また本発明の一実施形態によれば、上記方法を実施して画像から情報を作成するためのプログラム又はこのプログラムを記録した記録媒体が提供される。記録媒体は、非一時的なコンピュータ読み取り可能な記録媒体であってもよい。
本明細書中で「A~B」という記載は、AおよびBを含む。また、本発明に係る工程等について各実施形態で説明したが、これらの記載に限定されるものではなく、種々の変更を行うことができる。
以下、実施例を参照して本発明をさらに詳細に説明するが、本発明は以下の実施例に限定はされない。
実施例1
楽譜中の小節用ディープラーニングモデルの訓練と推論
まず、47個の楽譜全体図(各楽譜は数個から約50個の小節を含んでいた)を使用してYOLOv5の小節モデルを訓練し、mAP@.5(特徴タイプ用のモデル中での正確性の指標)が0.95を達成した。この小節モデルのカテゴリはx0、x1、およびy0の小節特徴タイプがあり、それらは以下の表1に示されるようにそれぞれ、ト音記号(G clef)で始まる小節、へ音記号(F clef)で始まる小節、それ以外の残りの小節を示していた。訓練データの作成にはlabelImgソフトウエア(https://github.com/tzutalin/labelImg)を使用してバウンディングボックス(Bounding Box)を各イメージ中で各タイプを割り当てた。その際に、五線の最上部と最下部の線に沿うようにバウンディングボックスを設定した。また、訓練用の訓練データ、試験データ、および検証データはRoboflow(https://app.roboflow.com/)で調整した。
Figure 2022151387000002
次に、この小節モデルの訓練に用いなかった楽譜イメージでの推論に適用した。図2Aはヘンデルによる「サラバンドと変奏」の楽譜の一部をスキャンして得たPDF由来イメージ中の推論結果を示す。図2Bは同じ楽譜をスマートフォンのカメラを使用して得た写真イメージ中の推論結果を示す。
その結果、各楽譜イメージ中で100%の小節が、その推論の正確度0.91~0.95で認識され抽出された。
また、ベートーベンの「悲愴第二楽章」の楽譜の一部(この小節モデルのトレーニングに用いたもの)も100%の小節がその推論の正確度0.92~0.93で認識され抽出された。
さらに、この小節モデルの訓練に用いなかった別の楽譜である、バッハの「メヌエット」の楽譜イメージでは、66個の小節のうち一つの小節がx0とx1で重複して認識され、2つの小節が融合して認識されていた。また、一つの小節では隣接する一つの音符を含んでいた。推論の正確度は0.79~0.93であり、総合的には約94%の小節が正しく認識されていた。結果を図2Cに示す。
これにより本小節モデルが、訓練に用いなかった楽譜のPDF由来イメージや写真イメージにおいてさえも効率的に小節を抽出することができて有用であることが実証された。
実施例2
複数のディープラーニングモデルを使って実行する訓練
各音楽記号特徴カテゴリ(以下の実施例5で説明する)に対応する複数のYOLOv5モデルを訓練した。また、複数の特徴タイプを組み合わせて表現することで、全体で表現される音楽記号(音符)特徴タイプの数も飛躍的に増加し、これは有利な効果となった。
各小節を抽出し、それに基づいて解析領域を決定し、拡大してサイズを一定(416x416ピクセル)にし、訓練データを作成した。訓練データの作成は、実施例1と同様にlabelImgソフトウエアを使用してバウンディングボックス(Bounding Box)を割り当てた。
特徴カテゴリ(詳細は、実施例5で記載する)は、accidental、arm/beam、body、clef、restカテゴリを作成し、其々のカテゴリには複数の特徴タイプを設定した。特徴タイプの数は、それぞれ、accidentalが3個、arm/beamが8個、bodyが6個、clefが5個、restが5個と上記一つのディープラーニングモデルと比べると少なかった。また、訓練に用いた画像数(訓練、テスト、検証用のデータの全体数)は、それぞれ、accidentalが199個、arm/beamが546個、bodyが537個、clefが149個、restが611個とやはり、通常のディープラーニングでの訓練データ数よりも1桁以上少なかった。例えば、手書き数字のデータセットMNISTでは、訓練セット数60,000、テストセット数10,000である。したがって、特徴タイプの種類によってはこれまで考えられていた必要な数より少ないデータセット数でのディープラーニングの訓練ができた。これは本発明が少ない数の特徴タイプの組み合わせで多数の特徴タイプを表現できることに由来すると考えられる。したがって、訓練の質を落とさず、ディープラーニングの訓練を実施できるという顕著な効果の一つとなった。
訓練の結果、mAP@.5は、それぞれ、accidentalモデルが0.99、arm/beamモデルが0.99、bodyモデルが0.94、clefモデルが0.99、restモデルが0.99であった。訓練は基本的に500エポック(epoch)をバッチサイズ(batch size)16でGPU(16G)を搭載したGoogle Colaboratoryを使用して行った。初期値のウエイト(weights)は前回の訓練で用いたものを使用した。したがって、実際は2~4回のトレーニング(転移学習)の結果である。これまでの結果を表2に示す。
Figure 2022151387000003
これらの結果は比較的少数の特徴タイプを比較的小規模な訓練データを用いて複数のディープラーニングモデルで訓練することにより優れた結果が得られる場合があることを実証した。多数の特徴タイプを判別する一つの大きなディープラーニングモデルをトレーニングし使用するよりも、複数の特徴カテゴリのディープラーニングモデルを組み合わせることが、学習と推論時の実行性、正確度等の点でより優れている場合がある。したがって、本実施例の構成の複数機械学習モデルを訓練して使用することが従来法よりも有利であり、極めて顕著な効果があることを示す。
実施例3
直列または並列で複数のモデルを処理した場合に掛かった処理時間の比較
これまで作成したディープラーニングモデルを使って楽譜イメージから各小節を認識および処理して、サイズを揃えた解析領域を用意した。そしてその各解析領域に対して、5つの特徴カテゴリの上記モデルを適用して解析データを作成する手順を自動化した。そして、処理に掛かった時間を計測した。この際、5つの特徴カテゴリのモデルの処理を直列で処理するか、または、並列処理するかして、その処理時間を比較した。結果を表3に示す。
Figure 2022151387000004
3種類の楽譜イメージを使い、処理時間を比較した。使用したコンピュータはiMacPro(プロセッサ:3.2 GHz、8コアIntel Xeon W;メモリ:64 GB 2666 MHz DDR4)であった。直列での処理に掛かった平均時間は、メヌエット(66小節)、サラバンド(48小節)、悲愴第二楽章(58小節)が、それぞれ153.8秒、121.5秒、138.1秒で小節の数にほぼ比例していた。並列での処理に掛かった平均時間は、メヌエット、サラバンド、悲愴第二楽章が、それぞれ81.3秒、63.0秒、75.4秒でこれも小節の数にほぼ比例していた。並列化処理により、メヌエット、サラバンド、悲愴第二楽章に関して、それぞれ、処理時間が52.9%、51.9%、54.6%と約二分の一に短縮された。
直列処理でも8コアに分散してある程度処理が進んでいたと考えられるため処理時間は1/8にはならなかったが、ディープラーニングモデルの推論にかかる時間は顕著に短縮された。今回の推論数は約50個の小節に対してそれぞれ5個の特徴モデルを適用するので約250プロセスを処理する必要があった。本実施例では一つのCPU(8コア)で処理した。しかし、複数のCPUとGPUを有する構成が今後主流になると考えられるので、本発明の処理構成はそのCPU/GPUの数の増加に伴いさらに処理時間を短縮可能である。従って、本実施例の構成は顕著な効果を有している。
実施例4
GPUでの処理速度
実際にGPUを使用して処理時間が短縮されるかどうかを検討した。実施例3での処理をAWSのEC2インスタンスg4dn.metalを使用して処理時間を計測した。g4dn.metalのCPU/GPU構成は、NVIDIA T4 Tensor Core GPUが8個、vCPUが96個、RAMが384GiB等であった。処理はGPUを直列または並列に使用するようにプログラミングした。結果を表4に示す。
Figure 2022151387000005
メヌエットの楽譜を、GPUを直列にして処理した処理時間は平均70.9秒であり、CPUを直列で使用した場合の平均153.8秒、並列で処理した場合の平均81.3秒よりも短かった。また、並列での処理時間は平均16.4秒であり、直列処理の約1/4の処理時間であった。この処理時間はCPUを直列で処理した時間の約10分の1であり、GPUでの並列処理により顕著に処理時間の短縮ができることを実証した。したがって、実施例4はGPUを並列で処理することにより本発明の効果がさらに増強されることを示している。コンピュータの能力(例、CPUやGPU等の容量や数)が大きくなればなるほど、複数のモデルを並列に処理するための時間は短くなり、本発明の適用性と性能がコンピュータパワーの増加に伴って著しく向上する。
実施例5
少数の特徴モデルの少数の特徴タイプを用いる新たな音符特徴タイプの作成
表2に示すようにディープラーニングモデルの訓練と推論に用いた特徴カテゴリと特徴タイプはClefが5種類(3つは不使用)、Accidentalが3種類、Bodyが6種類、Arm/Beamが8種類、Restが5種類あった。表5と図3に示す。
Figure 2022151387000006
ト音記号に関しては五線譜の位置を位置基準にしてD3~G6までの25の音階を割り当てた、へ音記号に対してはF1~B4までの25音階を割り当てた。Bodyの位置する場所によって、これにより2×25×6(Bodyの種類数)=300種類のバリエーションを表現できる。さらに、ArmとBeamの種類によってそれぞれの音符の長さが決定される(全音符はArm/Beamを取らない、また、半音符はam0またはam1しかとらない)。また、Beamは開始、中間、終了の3種類がつらなりの位置によって表現される。したがって、300×2(全音符2種類)+300×2(半音符2種類)×2(am0またはam1)+300×2(黒丸の種類)×(4(Armの種類)+4(Beamの種類)×3(開始、中間、終了))=11,400。これにAccidentalが3種類あるので、すべての音階に適用されるわけでは必ずしもないが、11,400×3=34,200。したがって、19個の特徴タイプから音符という新たな音符特徴タイプが約3万種類表現できることになった。さらに和音を考慮すると和音は2,3,4,5の音の任意の組み合わせであるから、表現できる前記特徴タイプの数はさらに飛躍的に増え、軽く10万種類上の単音と和音を表現できる。したがって、複数カテゴリの比較的少数の特徴タイプを組み合わせることで多数の新たな音符特徴タイプである音符を同定、アノテーションできるという本実施例の顕著な効果を実証した。具体的なアノテーション方法は実施例7で解説する。
実施例6
傾いた楽譜イメージの補正
図4Aはサラバンドの楽譜を傾いた状態で写真を撮ったイメージである。五線譜が水平状態にないと位置基準として機能しないことからまずは、楽譜画像全体の水平化を行った(図4B)。手順は以下のものであった。
1.入力イメージをグレースケール化し、Canny法を用いて画像のエッジを抽出した。
2.Hough法を用いて直線を検出した。
3.一番長い直線の傾き角を計算して画像の回転角度を求めた。
4.求めた回転角度で画像全体を回転した。
得られた全体イメージでは各小節はまだ完全に水平化されなかった(中央部は水平化の度合いが高いが上部、下部ではまだ補正が必要であった。)。横方向に伸びる直線の閾値で選択を掛けた以外は再度上記手順と同様に各小節の水平化を行った(図4C)。得られたイメージを特徴モデルで推論すると各特徴タイプが認識されることが分かった(図4D)。
この結果は、画面全体の傾きを補正するだけでなく、本実施例の要素である領域単位(小節)ごとに傾きを位置基準によって補正することで、発明の精度が向上するという顕著な効果を奏する。
この水平化により、従来法では問題であった五線譜の傾き補正が容易にできるようになり、本発明の実施を効率的に実行できることが分かった。
実施例7
五線の位置と間隔の補正
位置基準として五線を用いた。五線の位置は小節モデルで抽出した小節が正確な位置で抽出されたとして計算した。そして解析領域を五線の高さの1.2倍として上部と下部に設定した。実際のアノテーションで述べるが、上部と下部の解析領域は楽譜により幅があるので幅広に検出した特徴モデルを利用するかしないかは選択できるようにした。ここでは初期値の五線の位置は図5Aで示したように、実際のものとはズレがあった。このズレを補正するためにalphaとbeta変数(係数)を導入した。alphaは五線の中央からのズレであり、betaは五線間の間隔を補正する値であった。この二つの値を以下のアルゴリズムを用いて自動で求めた。
1.イメージ全体の縦幅(五線譜+上部と下部にそれぞれ五線譜の高さの1.2倍を設けたイメージ)を1とした。alphaの範囲を-0.03~0.03の間0.001刻みでループさせ、その各値でbetaを-0.005~0.005の間0.001刻みでループさせた。
2.その各alpha、betaを使い五線をイメージ中に重ね書きした。
3.画像をグレースケール化しGaussian閾値処理した画像の黒い部分の面積を求めた。
4.五線が重なる場合が面積は最小になると考え最小値を求め、その時のalpha、betaの値を補正に使用した。
その補正結果を図5Bに示す。この自動補正機能を各小節のアノテーション時に実行することで正確度が高い音符の音階の同定ができるようになった。これにより本発明の効果をさらに改善することができた。
実施例8
各音符のアノテーションとMusicXMLファイルの作成
以下にアノテーションの方法の要点を簡単に説明する。各小節をディープラーニング小節モデルで抽出し、一部重なって認識されていた小節を除去する処理を重なりのあった位置に基づいて自動で実施した。その後、スタッフごとに並列に並んでいた小節を取り出し直列に繋いで各スタッフの元データとした。
8-1水平方向への特徴タイプのソーティング
スタッフ番号を1か2に指定して、スタッフの小節(メジャー(measure))を一続きのリストにした。そして、前から順に一つずつ小節を取り出した。そして、各小節に含まれる全ての特徴タイプを水平方向(x)(順方向)にソーティングした。各アノテーションに影響する要素として現状のClefの状態とAccidentalテーブル(どの音階にシャープやフラットがあるかを教示するテーブル)とを更新しながら各音符をアノテーションした。Accidentalテーブルは初期値のfifths(どの長調または短調かを指定するもの)の状態を入力し、次の小節を解析する際には直前のfifthsの状態を反映させた。
8-2各特徴タイプを前から順に解析
水平方向にソーティングした特徴タイプを順に解析した。解析は各タイプがどの特徴カテゴリにあるかに場合分けをした。
A.Clefカテゴリ
解析中の特徴タイプがClefカテゴリGまたはF(cf0またはcf1)であった場合は、Clefの状態を変化させた。
B.Accidentalカテゴリ
解析中の特徴タイプがAccidentalカテゴリであった場合は、位置基準と組み合わせてAccidentalテーブルを変更した。
C.Restカテゴリ
解析中の特徴タイプがRestカテゴリであった場合は、Restタイプに合わせてアノテーションして、その要素を出力リストに追加した。
D.Bodyカテゴリ(垂直方向に重なる特徴タイプにより音符を同定)
解析中の特徴タイプがBodyカテゴリであった場合は、和音を検出し、音符の長さをArm/Beamタイプで特定するために、垂直方向に重なる特徴タイプをソーティングしてリストにした。その中にRestタイプが含まれる場合は、その位置によってVoiceを指定した(一番下にある場合はVoice1、一番上にある場合はVoice2にした)。中間位置にある場合は前後の位置に応じてBodyタイプの前の要素として追加するか後の要素として追加するかを決定し、出力リストに追加した。
Bodyタイプは垂直方向に重なる特徴タイプの数と位置によって場合分けしてアノテーションした。複数のBodyタイプが含まれる場合はmusicXMLファイルの規定に従って和音(Chord)を割り当てた。
ケース1:一番下と上の特徴タイプが共にArm/Beamである場合
ケース2:一番下がRestである場合
ケース3:一番上がRestである場合
ケース4:一番上がArm/Beamである場合
ケース5:一番下がArm/Beamである場合
ケース6:一番上と下が共にBodyである場合
各Bodyタイプのアノテーションでは現在のClefとaccidentalテーブルを引数として渡して、音符特徴タイプをアノテーションした。
解析済みのBodyとArmとRestタイプは除外リストに入れて再度解析されるのを防止した。また、Beamは隣接するBodyタイプの解析のために再度使用した。
このようにして水平方向にソーティングした特徴タイプを、以前に解析したある種の特定タイプ(Clef、Accidental)がその後に特徴タイプに影響を及ぼすようにし、また、垂直方向に重なる特徴タイプを垂直方向に影響を及ぼす特徴タイプ(例、Arm/Beam)を使用してアノテーションを実施した。ここの音階はalpha、betaで音階の位置を個々の小節で補正した。
8-3Voiceの調整
小節のアノテーション結果を検証した。上記ケース4~6では全ての音符をVoice1に割れ当てた。その結果、アノテーションされた音符の長さの合計が小節に決められた長さを越えた場合にはVoice(声)を変更した。具体的には、下向きのステムを持つ音符をVoice1、上向きのステムを持つものをVoice2に割り当てた。小節内の音符の長さをVoiceごとに再計算し、Voice1の小節内の音符の長さがまだ決められた長さを越えている場合は、全音符をVoice2に割り当てた。
8-4各小節を直列に結合
出来上がった各小節のデータを直列につないでスタッフ全体のデータを作成した。出来たデータはElementTree(ET)の形にして要素を登録してデータを構造化した。
8-5MusicXMLファイルの作成
ET構造化した音符データをXMLファイルへと変換する関数を用いてXML化して、MusicXMLファイルを作成した。
結果
図6は、図2Cのバッハのメヌエットの楽譜イメージのスタッフ1を本発明の方法により各音符を同定してXML化し、そのXMLファイルをSibelius(図6A)とMuseScore(図6B)で読み込み表示させた結果である。図6に示すように作製したXMLファイルはSibelius、MuseScore、Finale(図示しない;表示小節の調整が必要)で読み込んで表示することができた。
次に、アノテーションの正確さの評価を行った。図6に示すXMLを個々の楽譜ソフトウエア上で表示した結果を、元の画像イメージである図2Cと比較した。結果を表6にまとめた。
Figure 2022151387000007
スタッフ1に関しては、小節は97%(32/33)の精度で認識されていて、小節抽出の精度が高いことを実証した。個々の特徴タイプと位置基準とを組み合わせて同定された新しい音符特徴タイプの音階(step)(Clefタイプと位置基準の五線譜に基づくもの)、音符(Note)(さらに長さも含むもの)、和音(Chord)(全体がすべて一致するもの)に関しては、それぞれ、98%(125/128)、95%(122/128)、100%(1/1)の正確さだった。臨時記号(Accidental)(音階と記号の両方が一致するもの)も100%(3/3)認識された。
スタッフ2に関しては、小節は97%(32/33)の精度で認識されていた。音階(step)、音符(Note)、和音(Chord)に関しては、それぞれ、95%(71/75)、95%(71/75)、100%(1/1)の正確さだった。休符(Rest)は40%(2/5)、臨時記号(Accidental)は50%(1/2)認識された。
これらの結果から本実施例の方法によりアノテーションされた音符の精度が極めて高いことが示され、本実施例が顕著な効果があることが証明された。
さらに、元の画像はPDFからデジタル的に作成されたイメージだけでなく、実際に利用される可能性の高い、楽譜を写真で取ったイメージからもXMLを作成できるか検討した。この際に、写真イメージは五線譜が水平でない場合が多いと考えられるので、図7Aに示されるような傾いた写真イメージからXML化を実施した。得られた結果を、Sibeliusを用いてスタッフ1の楽譜を表示した(図7B)。
表6に示すように、小節は96%(23/24)の精度で認識されていた。音階(step)、音符(Note)、和音(Chord)に関しては、それぞれ、87%(135/156)、86%(134/156)、78%(29/37)の正確さだった。休符(Rest)は64%(16/25)、臨時記号(Accidental)は71%(10/14)認識された。
特に、サラバンドは比較的複雑な和音(Chord)が37か所スタッフ1に含まれていたが、78%の正確さでそれら和音を認識していたことは驚くべき結果であり、本実施例の顕著な効果を実証した。
比較例として、図7Aの楽譜を既存のOMRアプリであるPhotoScore2020に入力してOMR処理を実行した結果を図8に示す。図8で示すように傾いた写真イメージからの正しい音符情報の取得は既存技術ではできなかった。さらに、MuseScore3ではPDF画像のみ現状解析可能なので図7Aの写真をPDFに変換しOMR処理を行ったが「unsuccessful」と出力され全く解析はできなかった。
従って、画像イメージとして写真からのものであり且つ水平でない位置基準(五線譜)のものからでも高い正確さ(約86%)で音符を認識できたことは本実施例のさらなる顕著な効果を実証する。
実施例9
MusicXMLからの音の再生
本発明で作成されたMusicXMLから一般的なソフトウエアを使用して音が再生されるかどうかを確認した。
実施例8で確認したメヌエットとサラバンドのXMLファイルをMuseScore3とSibelius Firstで読み込んで音源再生機能を使用して音が再生されることを確認した。
また、MuseScore3のExport機能を使ってmp3ファイル、wavファイル、midiファイルとしても出力可能であることを確認した。そして、mp3ファイルとwavファイルをコンピュータ上で再生し音が出力されることを確認した。またmidiファイルはLogic Proソフトウエアに読み込んで音が再生されることを確認した。
本発明の画像由来情報作成方法は、OMR分野に有用である。また、本発明のディープラーニングモデルを用いる画像由来情報作成方法は、一般的には、例えば、自動運転、ロボット操作、医療診断、医療機器(内視鏡、カテーテル)操作、製品検査等の画像を使って操作・判断する分野に有用である。

Claims (9)

  1. 楽譜画像から音楽情報を作成する方法であって、
    楽譜画像を入力する工程と、
    前記楽譜画像から少なくとも一つの小節を抽出する工程と、
    前記少なくとも一つの小節の各小節内の音符を同定する工程と、
    同定された前記音符から音楽情報を作成する工程を、含む方法。
  2. 前記少なくとも一つの小節がディープラーニングモデルによって抽出される、請求項1に記載の方法。
  3. 前記少なくとも一つの小節の各小節内の五線の位置を補正する工程をさらに含む、請求項1または2に記載の方法。
  4. 前記少なくとも一つの小節の各小節内の前記音符をディープラーニングモデルを使用して同定する、請求項1~3のいずれか一項に記載の方法。
  5. 前記少なくとも一つの小節の各小節内の前記音符を複数のディープラーニングモデルを使用して同定する、請求項1~4のいずれか一項に記載の方法。
  6. 前記複数のディープラーニングモデルが並列に処理される、請求項5に記載の方法。
  7. 前記音楽情報が、XMLファイル、musicXMLファイル、MIDIファイル、mp3ファイル、wavファイル、および楽譜からなる群より選択される、請求項1~6のいずれか一項に記載の方法。
  8. 楽譜画像から音楽情報を作成するためのコンピューティングデバイスであって、
    楽譜画像を入力する入力部と、
    前記楽譜画像から少なくとも一つの小節を抽出する小節抽出部と、
    前記少なくとも一つの小節の各小節内の五線の位置を補正する五線補正部と、
    前記少なくとも一つの小節の各小節内の音符を複数のディープラーニングモデルを使用して同定する音符同定部と、
    同定された前記音符から音楽情報を作成する音楽情報作成部と、を含み、
    前記少なくとも一つの小節がディープラーニングモデルによって抽出され、
    前記複数のディープラーニングモデルが並列に処理され、
    前記音楽情報が、XMLファイル、musicXMLファイル、MIDIファイル、mp3ファイル、wavファイル、および楽譜からなる群より選択される、コンピューティングデバイス。
  9. 楽譜画像から音楽情報を作成するためのプログラムであって、
    楽譜画像を入力する入力部と、
    前記楽譜画像から少なくとも一つの小節を抽出する小節抽出部と、
    前記少なくとも一つの小節の各小節内の五線の位置を補正する五線補正部と、
    前記少なくとも一つの小節の各小節内の音符を複数のディープラーニングモデルを使用して同定する音符同定部と、
    同定された前記音符から音楽情報を作成する音楽情報作成部と、を含み、
    前記少なくとも一つの小節がディープラーニングモデルによって抽出され、
    前記複数のディープラーニングモデルが並列に処理され、
    前記音楽情報が、XMLファイル、musicXMLファイル、MIDIファイル、mp3ファイル、wavファイル、および楽譜からなる群より選択される、プログラム。
JP2021054429A 2021-03-27 2021-03-27 楽譜画像から音楽情報を作成する方法とそのコンピューティングデバイスおよびプログラム Active JP6985543B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021054429A JP6985543B1 (ja) 2021-03-27 2021-03-27 楽譜画像から音楽情報を作成する方法とそのコンピューティングデバイスおよびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021054429A JP6985543B1 (ja) 2021-03-27 2021-03-27 楽譜画像から音楽情報を作成する方法とそのコンピューティングデバイスおよびプログラム

Publications (2)

Publication Number Publication Date
JP6985543B1 JP6985543B1 (ja) 2021-12-22
JP2022151387A true JP2022151387A (ja) 2022-10-07

Family

ID=79193327

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021054429A Active JP6985543B1 (ja) 2021-03-27 2021-03-27 楽譜画像から音楽情報を作成する方法とそのコンピューティングデバイスおよびプログラム

Country Status (1)

Country Link
JP (1) JP6985543B1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114724151A (zh) * 2022-04-22 2022-07-08 厦门大学 一种基于卷积神经网络的古筝简谱识别方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07152863A (ja) * 1993-11-30 1995-06-16 Suzuki Motor Corp 文字認識装置
CN110852375A (zh) * 2019-11-09 2020-02-28 北京工业大学 基于深度学习的端到端乐谱音符识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07152863A (ja) * 1993-11-30 1995-06-16 Suzuki Motor Corp 文字認識装置
CN110852375A (zh) * 2019-11-09 2020-02-28 北京工业大学 基于深度学习的端到端乐谱音符识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
宮尾 秀俊: "印刷ピアノ楽譜の自動認識", 電子情報通信学会技術研究報告 VOL.90 NO.251, vol. 第90巻, JPN6021046495, 25 June 1999 (1999-06-25), JP, pages 39 - 46, ISSN: 0004646549 *
松本 和紀 他: "楽譜の認識", 日本音響学会研究発表会議講演論文集 秋I, JPN6021024326, 13 September 1993 (1993-09-13), ISSN: 0004535371 *
長尾 真 他, 岩波講座 マルチメディア情報学4 文字と音の情報処理 初版, vol. 第1版, JPN6021024327, 13 November 2000 (2000-11-13), pages 170 - 177, ISSN: 0004535370 *

Also Published As

Publication number Publication date
JP6985543B1 (ja) 2021-12-22

Similar Documents

Publication Publication Date Title
Dorfer et al. Learning Audio-Sheet Music Correspondences for Cross-Modal Retrieval and Piece Identification.
WO2018194456A1 (en) Optical music recognition omr : converting sheet music to a digital format
Cancino-Chacón et al. An evaluation of linear and non-linear models of expressive dynamics in classical piano and symphonic music
Raphael et al. New Approaches to Optical Music Recognition.
JPWO2020080239A1 (ja) 情報処理方法、情報処理装置及び情報処理プログラム
Henkel et al. Score Following as a Multi-Modal Reinforcement Learning Problem.
JP6985543B1 (ja) 楽譜画像から音楽情報を作成する方法とそのコンピューティングデバイスおよびプログラム
Zalkow et al. CTC-based learning of chroma features for score–audio music retrieval
Peter et al. Automatic Note-Level Score-to-Performance Alignments in the ASAP Dataset.
Shatri et al. DoReMi: First glance at a universal OMR dataset
Benetos et al. Automatic transcription of Turkish makam music
Gururani et al. Analysis of objective descriptors for music performance assessment
Shishido et al. Production of MusicXML from locally inclined sheetmusic photo image by using measure-based multimodal deep-learning-driven assembly method
Henkel et al. Real-Time Music Following in Score Sheet Images via Multi-Resolution Prediction
Syarif et al. Gamelan Melody Generation Using LSTM Networks Controlled by Composition Meter Rules and Special Notes
Holder et al. Musiplectics: computational assessment of the complexity of music scores
JP2682382B2 (ja) 楽譜認識装置
WO2021166745A1 (ja) アレンジ生成方法、アレンジ生成装置、及び生成プログラム
Martínez-Sevilla et al. Insights into end-to-end audio-to-score transcription with real recordings: A case study with saxophone works
Shishido et al. Listen to your favorite melodies with img2Mxml, producing MusicXML from sheet music image by measure-based multimodal deep learning-driven assembly
JPH06102869A (ja) 楽譜認識装置
JP2682383B2 (ja) 楽譜認識装置
Schelehoff Optical music recognition: overview, challenges, and possibilities
JP2650605B2 (ja) 楽譜認識装置
Shah et al. Optical Music Symbol Recognition (sheet-to-music and music-to-sheet)

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210327

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210327

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20210402

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210624

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210722

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210914

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211125

R150 Certificate of patent or registration of utility model

Ref document number: 6985543

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150