JP2022151387A

JP2022151387A - 楽譜画像から音楽情報を作成する方法とそのコンピューティングデバイスおよびプログラム

Info

Publication number: JP2022151387A
Application number: JP2021054429A
Authority: JP
Inventors: 知行宍戸; Tomoyuki Shishido; 靖弘小野; Yasuhiro Ono; ファティフェヒミユ; Fehmiju Fati; 大輔徳重; Daisuke Tokushige
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-03-27
Filing date: 2021-03-27
Publication date: 2022-10-07
Anticipated expiration: 2041-03-27
Also published as: JP6985543B1

Abstract

【課題】楽譜画像から音楽情報を生成してする方法、コンピューティングデバイス及びプログラム提供する。【解決手段】楽譜画像から音楽情報を作成する方法であって、楽譜画像を入力する工程と、楽譜画像から少なくとも一つの小節を、任意ではあるがディープラーニングモデルを使用して抽出する工程と、任意に、少なくとも一つの小節の各小節内の五線の位置を補正する工程と、少なくとも一つの小節の各小節内の音符を、任意に複数のディープラーニングモデルを使用して同定する工程と、同定された音符から音楽情報を作成する工程を含む。【選択図】図１

Description

本発明は、楽譜画像から音楽情報を作成する方法、コンピューティングデバイス、およびプログラムに関する。

光学式音楽認識（ＯＭＲ：ＯｐｔｉｃａｌＭｕｓｉｃＲｅｃｏｇｎｉｔｉｏｎ）は、文書中の楽譜を計算機で読み取る方法を研究する研究分野に関する。ＯＭＲの目標は、コンピュータを用いて楽譜の読み取りと解釈を行い、書かれた楽譜の機械読み取り可能なバージョンを作成することである。ＯＭＲパイプラインは、前処理、音楽記号認識、記譜法の再構築、最終表現の構築の４つの段階に分類される（非特許文献１）

具体的な処理について、特許文献１は、楽譜のイメージを読み取って得られた画像データから前記楽譜中の五線、音符、記号及びそれらの位置等を認識し、その認識結果に基づいて楽音の音高、発音タイミング及び発音時間等の情報を生成する楽譜認識装置を開示する。この装置内では、（１）前処理（五線・小節線認識、傾斜補正、五線消去およびビーム消去）、（２）オブジェクト認識（外接長方形の探索およびマッチング処理）、（３）イベント認識処理（音高認識および音長認識処理）及び演奏データ作成、（４）自動演奏（ＭＩＤＩデータ作成及び出力）が行われる。

特許文献２は、紙面の楽譜の情報を含む画像を、画像読み取り手段から取得する画像取得手段と、前記画像取得手段により取得された画像に含まれる楽譜記号を、複数の楽譜記号認識方法を用いて認識して複数の楽譜記号認識結果を出力する楽譜記号認識手段とを有し、前記楽譜記号認識手段は、五線認識処理、段落認識処理、楽譜記号認識処理、及び楽譜全体の処理を行い、楽譜記号同士の関係について複数の候補を検出し、それぞれの候補について、様々な情報を用いて、楽譜的に妥当なものを推定して１つの楽譜記号同士の関係を選別することを特徴とする楽譜認識装置を開示する。

特許文献３は、楽譜画像を基に一部の楽譜記号を認識する事前認識処理部と、前記事前認識処理部の認識結果を修正する修正部と、前記修正部により修正された認識結果を用いて、前記楽譜画像を基に他の楽譜記号を認識する本認識処理部とを有し、前記事前認識処理部は、拍子記号、小節線、音部記号及び調号を認識し、前記本認識処理部は、音符及び休符を認識することを特徴とする楽譜認識装置を開示する。

これらの技術を用いた装置は、開示されるように五線、小節線を認識し、その後、五線や小節線を除去し、音符等をＯＣＲ等の技術を用いて認識する工程を有している。

これら従来のＯＭＲ装置の例には、Ａｒｕｓｐｉｘ、Ａｕｄｉｖｅｒｉｓ、Ｇａｍｅｒａ、ＰｈｏｔｏＳｃｏｒｅ（楽譜ソフトウエアＳｉｂｅｌｉｕｓで用いられているもの）等が挙げられる。しかしながら、ＯＭＲ精度の改善が必要とされてきた。

このＯＭＲ精度の改善のためにディープラーニングを用いたアプローチが試されている。ディープラーニングは、例えば、写真、画像、動画などの静的画像と動的画像を含むデータに関する情報の解析と利用を変容させてきた。ディープラーニングの現状と可能性については、多くの文献（例、非特許文献２と３）で検討されている。任意の対象物の分類だけでなくその位置も、ＹＯＬＯ（非特許文献４）やＳＳＤ（非特許文献５）などの様々なディープラーニングモデルによって決定可能になっている。分類と位置の両方を使用することで、録画されたビデオ内の物体検出やライブ画像内のリアルタイムの物体検出を含む多くのアプリケーションにおいて有用で汎用性の高いモデルとなっている。現在、その用途は様々な分野で拡大しており、今後も幅広く研究されるだろう。

具体的には、いくつかのディープラーニングモデルがＯＭＲに適用されている。Ｃａｌｖｏ－Ｚａｒａｌａｇｏｚａら（非特許文献６）は、楽譜中の楽譜の音楽記号の位置を特定するために、いわゆるＣｏｎｎｅｃｔｉｏｎｉｓｔＴｅｍｐｏｒａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ（ＣＴＣ）損失関数を用いた。ＺｈｉｑｉｎｇＨｕａｎｇら（非特許文献７）は、深層畳み込みニューラルネットワークと特徴融合に基づくエンドツーエンド検出モデルを提案している。このモデルは、画像全体を直接処理した後、記号カテゴリと音符の音程と持続時間を出力することができる。また、畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）とリカレントニューラルネットワーク（ＲＮＮ：ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）を使用して五線上の音符データを時系列で処理する方法も開示されている（特許文献４）。

さらに、Ｐａｃｈａらは、非特許文献８で、楽譜画像を認識するために小節を認識するディープラーニングモデルを用いている。そして、非特許文献７に開示される方法と同様に、記号カテゴリと音符を認識するディープラーニングモデルを用いて音楽記号認識が可能であることを示している。

特開平６－１０３４１６号公報特開２０１２－１３８００９号公報特開２０１５－５６１４９号公報国際公開番号ＷＯ２０１８／１９４４５６

Rebelo, Ana; Fujinaga, Ichiro; Paszkiewicz, Filipe; Marcal, Andre R.S.; Guedes, Carlos; Cardoso, Jamie dos Santos(2012). "Optical music recognition: state-of-the-art and open issues" (PDF).International Journal of Multimedia Information Retrieval. 1(3): 173-190.doi: 10.1007/s13735-012-0004-6. 松尾豊：ディープラーニングと人工知能の難問，システム制御情報学会誌，Vol.60, No.3, pp.92-98, 2016 Z. Zhao, P. Zheng, S. Xu and X. Wu, "Object Detection With Deep Learning: A Review," in IEEE Transactions on Neural Networks and Learning Systems, vol.30, no.11, pp.3212-3232, Nov. 2019, doi: 10.1109/TNNLS.2018.2876865. Redmon, J., Farhadi, A., YOLOv3: An Incremental Improvement., arXiv 2018, arXiv: 1804.02767 Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C.Y., Berg, A.C., SSD: Single Shot MultiBox Detector., In European Conference on Computer Vision; Springer: Cham, Switzerland, 2016; pp.21-37., doi: 10.1007/978-3-319-46448-0_2. Jorge Calvo-Zaragoza and David Rizo, End-to-End Neural Optical Music Recognition of Monophonic Scores, Appl. Sci., 2018, 8, 606 Zhiqing Huang, Xiang Jia and Yifan Guo, State-of-the-Art Model for Music Object Recognition with Deep Learning, Appl. Sci., 2019, 9, 2645 https://www.youtube.com/watch?v=Mr7simdf0eA

本発明は、楽譜画像から精度高く音符を同定することを目的とする。

具体的には、本発明の第一観点は、楽譜画像から音楽情報を作成する方法であって、楽譜画像を入力する工程と、前記楽譜画像から少なくとも一つの小節を抽出する工程と、前記少なくとも一つの小節の各小節内の音符を同定する工程と、同定された前記音符から音楽情報を作成する工程を、含む方法を提供する。この方法は、特に、楽譜画像から少なくとも一つの小節を抽出する工程を経ることにより、精度高く音符を同定することができる。

ある態様では、前記少なくとも一つの小節がディープラーニングモデルによって抽出される場合がある。好ましくは、前記少なくとも一つの小節のそれぞれが、五線の枠、特に最上部と最下部の線に沿って抽出される。これにより、後述する五線の補正を容易にする効果を有する。

ある態様では、前記少なくとも一つの小節の各小節内の五線の位置を補正する工程をさらに含む。この五線位置補正工程は、任意ではあるが、入力した前記楽譜画像全体をある五線の傾斜を補正して水平にするようにする工程を含む。さらに、前記ディープラーニングによる各小節の抽出は、この水平補正した前記楽譜画像に対して実施してもよい。さらにまた、抽出した各小節内の五線に対して水平補正をする工程を含んでもよい。このように水平補正された各小節の五線の位置を、限定はされないが、実施例６と７に記載する方法等により補正してもよい。この五線補正工程は、各小節をディープラーニングモデルで抽出することにより可能になったものであり、楽譜の写真等の五線譜の歪みが画像に不均一なものに顕著な効果を奏する。

ある態様では、前記少なくとも一つの小節の各小節内の音符を同定する工程をさらに含んでもよい。ある態様では、前記少なくとも一つの小節の各小節内の前記音符を複数のディープラーニングモデルを使用して同定してもよい。複数の特徴カテゴリに対応するディープラーニングモデルを組み合わせることで、多様な音符記号等を表現することが可能になるという顕著な効果を有する。また、多数の特徴タイプを判別する一つの大きなディープラーニングモデルをトレーニングし使用するよりも、複数の特徴カテゴリのディープラーニングモデルを組み合わせることが、学習と推論時の実行性、正確度等の点でより優れていることが分かった。また、本発明に従って抽出した各小節を規格化して学習データとした点も学習と推論の精度の向上に寄与したと考えられ、これらは顕著な効果を奏する。

ある態様では、前記複数のディープラーニングモデルが並列に処理される。これにより、推論の時間を著しく短縮可能であり、今後のＣＰＵ／ＧＰＵ／ＴＰＵ性能の向上に伴い本発明がますます優れた効果を奏する。

ある態様では、前記音楽情報が、ＸＭＬファイル、ｍｕｓｉｃＸＭＬファイル、ＭＩＤＩファイル、ｍｐ３ファイル、ｗａｖファイル、および楽譜からなる群より選択される。

本発明の第二観点は、楽譜画像から音楽情報を作成するためのコンピューティングデバイスであって、楽譜画像を入力する入力部と、前記楽譜画像から少なくとも一つの小節を抽出する小節抽出部と、前記少なくとも一つの小節の各小節内の五線の位置を補正する五線補正部と、前記少なくとも一つの小節の各小節内の音符を複数のディープラーニングモデルを使用して同定する音符同定部と、同定された前記音符から音楽情報を作成する音楽情報作成部と、を含み、前記少なくとも一つの小節がディープラーニングモデルによって抽出され、前記複数のディープラーニングモデルが並列に処理され、前記音楽情報が、ＸＭＬファイル、ｍｕｓｉｃＸＭＬファイル、ＭＩＤＩファイル、ｍｐ３ファイル、ｗａｖファイル、および楽譜からなる群より選択される、コンピューティングデバイスを提供する。このコンピューティングデバイスは、前記第一観点で得られる顕著な効果を有する。

本発明の第三観点は、楽譜画像から音楽情報を作成するためのプログラムであって、楽譜画像を入力する入力部と、前記楽譜画像から少なくとも一つの小節を抽出する小節抽出部と、前記少なくとも一つの小節の各小節内の五線の位置を補正する五線補正部と、前記少なくとも一つの小節の各小節内の音符を複数のディープラーニングモデルを使用して同定する音符同定部と、同定された前記音符から音楽情報を作成する音楽情報作成部と、を含み、前記少なくとも一つの小節がディープラーニングモデルによって抽出され、前記複数のディープラーニングモデルが並列に処理され、前記音楽情報が、ＸＭＬファイル、ｍｕｓｉｃＸＭＬファイル、ＭＩＤＩファイル、ｍｐ３ファイル、ｗａｖファイル、および楽譜からなる群より選択される、プログラムを提供する。このプログラムも、前記第一観点で得られる顕著な効果を有する。

本発明の一態様によれば、楽譜画像から精度高く音符を同定する顕著な効果が生じる。

本発明の一実施形態の方法の工程を示すフローチャートである。本発明の実施例１に係る、複数の楽譜イメージに小節ディープラーニングモデルを適用して、各小節を認識させた結果を示す図である。本発明の実施例５に係る、複数の特徴カテゴリのディープラーニングモデルを、様々な解析領域に適用して特徴タイプの種類と位置を同定したことを示す図である。本発明の実施例６と７に係る、傾いた楽譜イメージを五線譜に対して水平化した結果を示す図である。本発明の実施例７に係る、五線譜の位置と間隔の補正した結果を示す図である。本発明の実施例８に係る、本方法を実施して楽譜イメージからＭｕｓｉｃＸＭＬを作成し、２種類の一般的な楽譜ソフトウエア上で表示させた図である。本発明の実施例８に係る、傾いた楽譜の写真イメージと、そのイメージから本方法を用いてＭｕｓｉｃＸＭＬを作成しその結果を一般的な楽譜ソフトウエア上で表示した図である。本発明の比較例に係る、傾いた楽譜の写真イメージを既存技術でＯＭＲ処理した結果を示す図である。

以下、本発明の実施形態について、詳細に説明する。
用語と定義
画像（イメージ）
本明細書で使用される画像またはイメージ（これらの用語は本明細書中で交換可能に用いられ、特に示されなければ同じ意味を有する）とは、本発明の方法で解析可能な任意の種類の画像である。画像は、写真またはスクリーン表示のような二次元であってもよいし、ホログラムのような三次元画像であってもよい。画像（イメージ）の例としては、画像、ビデオ、写真等が挙げられ、これらは、コンピュータ、サーバ、記憶媒体（例えば、ＲＡＭ、ＲＯＭ、キャッシュ、ＳＳＤ、ハードディスク）、またはそのようなものに、それぞれまたは一緒に、ファイル（例えば、．ｊｐｇ、．ｊｐｅｇ、．ｔｉｆｆ、．ｐｎｇ、．ｇｉｆ、．ｍｐ３、ｍｐ４、または．ｍｏｖファイル）として表示および／または保存することができる。

情報
本明細書で使用される情報はデータと関連している。違いは、情報が不確実性を解決することである。データは、冗長なシンボルを表すことができるが、最適なデータ圧縮を介して情報に近づく。情報は、伝送および解釈のための様々な形態に符号化することができる（例えば、情報は、符号のシーケンスに符号化されてもよいし、信号を介して伝送されてもよい）。情報のこの一般的な概念は、本明細書で適用することができる。情報の形態に関しては、情報は、文書化された形態、デジタル化された形態、オーディオ形態、ビデオ形態、またはそのような形態の組み合わせであってもよく、特定の形態に限定されない。光学的音楽認識（ＯＭＲ）の技術では、情報は、例えば、楽譜またはデジタル化された、可読性のある、または可聴性の形式の他の任意の媒体として提供されてもよい。可視化されたもの又は可聴化されたもののいずれも許容される。

領域単位
本明細書では、領域単位は各小節であってもよい。ＯＭＲの技術では、領域単位は、５本の線（五線）を含むスタッフ（Ｓｔａｆｆ；五線譜とも称されるが、本明細書中では「スタッフ」と「五線譜」は互換可能である場合もある）、１つ以上のスタッフを含む小節（メジャー（ｍｅａｓｕｒｅ）；本明細書中では「小節」と「メジャー」は互換可能である場合もある）であってもよい。

位置基準
本明細書で使用される位置基準は、五線譜の五線の一つ又は複数の線であってもよい。

特徴モデル
本明細書で使用される特徴モデルは、その特徴モデルが画像から情報を抽出できるものであれば、どのような特徴モデルであってもよい。特徴モデルは、例えば、一般的な特徴モデル、好ましくはＡＩモデル、より好ましくは機械学習モデル、さらに好ましくは深層学習（ディープラーニング）モデルであってもよい。複数のモデルが、画像または少なくとも１つの解析領域（各小節を含むもの）における推論に使用されてもよい。使用する特徴モデルの数は、１、２、３、４、５、６、７、８、９、１０、１５、２０、２５、５０、１００、３５０、５００、７５０、または１０００以上であってもよい。上記値の任意の二つの間の数も含まれる。小節の抽出に用いる特徴モデルの数は、好ましくは１であり、小節を含む解析領域の推論に用いる特徴モデルの数は、特に限定はされないが、好ましくは１～１００であり、より好ましくは１～２５であり、さらに好ましくは１～１０であり、さらに好ましくは１～５である。
楽曲情報を作成する際の本明細書に開示される特徴モデルの具体例としては、小節モデル、Ｃｌｅｆモデル、Ｂｏｄｙモデル、Ａｃｃｉｄｅｎｔａｌモード、Ａｒｍ／Ｂｅａｍモデル、および／またはＲｅｓｔモデルなどが挙げられるが、これらに特に限定されるものではない。これらのモデルの詳細については後述する。

特徴カテゴリ
本明細書で使用される特徴カテゴリは、関連する特徴モデルに対応する。特に指示がない限り、特徴カテゴリは、使用されるモデルのこの特徴に関係する。特徴カテゴリは、モデルが画像からこの特徴に関するデータを抽出できるものであれば、どのような種類のものであってもよい。得られるデータは任意のものであってもよく、必ずしも有用なものではない。したがって、抽出されたデータの全てがその後の解析に使用されるとは限らない。各カテゴリは、手動で選択されてもよいし、別のモデルによって自動的に選択されてもよい。これにより、楽譜画像からの音楽情報の自動生成を容易にすることができる。
本発明の一実施形態では、独自に特徴カテゴリを作成したものもあるので、それらは、Ｃｌｅｆ、Ａｃｃｉｄｅｎｔａｌ、Ｂｏｄｙ、Ａｒｍ／Ｂｅａｍ、Ｒｅｓｔと表記して特徴カテゴリを示すことにする。

特徴タイプ
本明細書では、各特徴モデルの上記特徴カテゴリには、１種類以上の特徴タイプが含まれる。また、特徴タイプの種類は特に限定されず、任意の種類を単独で使用してもよいし、組み合わせて使用してもよい。また、音符特徴タイプを、これら一又は複数の特徴カテゴリと位置基準を組み合わせて使用してアノテーションしてもよい。本明細書中では、音符特徴タイプには、音符と休符のものが含まれる。従って、音符への言及は、音符と休符の両者を含む場合がある。
本発明の一実施形態では、Ｃｌｅｆ特徴カテゴリはト音記号、へ音記号、オクターブシフトの特徴タイプを含む。Ａｃｃｉｄｅｎｔａｌ特徴カテゴリは♯（シャープ）、♭（フラット）、ナチュラルの特徴タイプを含む。Ｂｏｄｙ特徴カテゴリは音符の黒丸部分、点付き黒丸、半白丸（半音符）、点付き半白丸、全黒丸（全音符）、点付き全音符の特徴タイプを含む。Ａｒｍ／Ｂｅａｍ特徴カテゴリは連なっていないクオーターのステム部分（上向きと下向き）、旗の付いた８ｔｈ（上向きと下向き）、８ｔｈ（上部、下部）（開始、中間、終了）の連なっている部分、１６ｔｈ（上部、下部）（開始、中間、終了）の連なっている部分の特徴タイプを含む。Ｒｅｓｔ特徴カテゴリは全休符、半休符、クオーター、８ｔｈ、１６ｔｈ休符の特徴タイプを含む。これらの特徴タイプを表５に示す。具体的な形は図３を参照されたい。

楽譜（スコア）
楽譜（スコア）は、歌や楽器の音楽作品の音程、リズム、および／または和音を示すために音楽記号を使用して表記した手書きまたは印刷あるいは電子的に読み取り可能な形式のものを含む。スコアという用語は、楽譜（シートミュージック）の一般的な代替（より一般的な）用語である。本明細書で使用される楽譜またはスコアは、一般的に楽譜と呼ばれることがある。本明細書で使用される楽譜の画像の例には、可視化またはデジタル化された楽譜画像の任意の形態が含まれる。

スタッフ（五線譜）とメジャー（小節）
スタッフ（五線譜）は、５本の水平線と４つのスペースで構成されており、それぞれが異なる音程を表しているものを含む。スタッフは、例えば、以下の実施形態を含む。意図された効果に応じて対応する音程や機能に応じて適切な音楽記号がスタッフに配置される。音符は音程ごとに配置される。音程は五線上の縦の位置によって決定され、左から右へと演奏される。どの位置にどの音符があるかは、スタッフの先頭にある音部記号（クレフ記号）によって決まる。音部記号は、特定の線を特定の音として識別し、他のすべての音はその線に対して相対的に決定される。２本のスタッフがある音楽を繋いだり、一人の演奏者が一度に演奏したりする場合、グランドスタッフ（大五線譜）が使用される。一般的には、上段のスタッフ（五線譜）はト音記号、下段のスタッフはヘ音記号が使用される。例えば、ピアノの音楽は、右手用と左手用の２つのスタッフで書かれている。小節線は、五線上の音符を小節に区切ってまとめることに使用される。
音楽の表記法では、小節またはメジャー（以下、小節と呼ぶ場合がある）とは、特定の拍数に対応する時間のセグメントであり、各拍は特定の音価で表され、小節の境界は垂直の小節線で示される。音楽を小節に分割することで、作曲の中で位置を特定するための定期的な基準点が得られる。また、スタッフの各小節を一括して読み込んで演奏することができるので、音楽をより簡単に追うことができる。

五線の線（５つの線）
各スタッフは５つの線（ライン）（五線）で構成されている。ラインとスペースには下から上へ番号を振ることができる。音符は、ライン（音符の玉部分の中央を通る線）上またはスペースに配置することができる。このスペースには４つの内側のスペースと、上部または下部の２つの外側のスペースとが含まれる。
本発明の一実施形態では、スタッフの５つの線の位置を位置基準にして、音階（ステップ）をト音記号またはへ音記号に対応させて割り当てた。本明細書中では音階はＡ（ラ）、Ｂ（シ）、Ｃ（ド）、Ｄ（レ）、Ｅ（ミ）、Ｆ（ファ）、Ｇ（ソ）を原則的に使用する。

音楽記号（特徴）タイプ
音楽記号の例には：線（例、五線、小節線、ブレース、カッコ）、音符と休符（例、全音、半音、四分音、八分音、１６分音、３２分音、６４分音、１２８分音、２５６分音、ビーム音、ドット音または休符）、臨時記号（フラット、シャープ、ナチュラル、ダブルフラット、ダブルシャープなど）、調号（例、フラット調号、シャープ調号）、四分音（デミフラット、フラットアンドハーフ、デミシャープ、シャープアンドハーフ）、拍子記号（例、ビート数とビートタイプで表示されるシンプルな拍子記号、コモンタイム、テンポなどのメトロノームマーク）、音符の関係性を示すもの（例、タイ、スラー、グリッサンド、グリッサンド、タプレット、コード、アルペジオコード）、ダイナミクス（例、ピアニッシモ、ピアニッシモ、ピアノ、メゾピアノ、メゾフォルテ、フォルテ、フォルティッシモ、フォルティッシモ、スフォルツァンド、クレッシェンド、ディミヌエンド）、奏法記号（例、スタッカティッシモ、スタッカティッシモ、スタッカティッシモスタッカティッシモ、スタッカート、テヌート、フェルマータ、アクセント、マルカート）、装飾音（例、トリル、アッパー・モーデント、ロア・モーデント、グルペット、アポッジアトゥーラ、アッキアッカトゥーラ）、オクターブ記号（例えば、オッタバ）、反復とコーダ（例、トレモロ、反復記号、シミュレーション記号、ボルタカッコ、ダカポ、ダルセグノ、セグノ、コーダ）、またはその他の音楽記号が含まれる。
本発明の一実施形態では、楽譜の画像から情報を生成するという問題に対処するために、いくつかのタイプが修正または作成される。本実施形態で使用される特徴タイプは、表５に記載されている。

方向
別段の記載がない限り、本明細書で指定された方向は、当技術分野で通常使用される意味を有する。水平方向と垂直方向は、任意の画像に提供される。水平方向、垂直方向のいずれかを任意に設定してもよいが、位置は、各特徴モデルによって、ｘ位置、ｙ位置として提供されてもよい。これらの位置は、直接使用してもよいし、位置基準のいずれかを参照して再設定可能である。

概要
既存技術との対比
特許文献１～３に開示される技術では、五線と小節線を認識し、その後、五線等を消去して音符記号等を認識し、その際に小節線を利用して認識した音符情報の再構築を行うものである。したがって、各小節に着目し、各小節を抽出してその後の音符情報の再構築を行う本発明とは技術思想が異なる。五線の傾斜を補正する工程も記載されているが、各小節内の五線の位置を補正する記載はない。

非特許文献６では画像全体を直接処理してシンボルカテゴリと音程と持続時間を出力するエンドツーエンドの検出モデルが提案されているが、得られるシンボルカテゴリをどのようにして作成するか、音程と持続時間からどのように音楽情報を生成するのかは明らかにされていない。また、小節に着目して各小節を抽出して音符情報の再構築を行う技術思想は開示されていない。

特許文献４では、畳み込みニューラルネットワークとリカレントニューラルネットワークを使用して五線上の音符データを時系列で処理しているが、各小節を抽出して音符データを作成して時系列処理するものではない。

非特許文献７と８では、音符記号等の検出に１つのエンドツーエンドのディープラーニング検出モデルを利用しているが、各シンボルカテゴリ（特徴タイプ）の検出に複数のモデルを利用することは検討されていない。シンボルカテゴリとタイプの数を増やす必要があるが、どのような方法でアノテーションして、その結果を再構築するかも具体的には提示されていない。また、五線の位置情報により、各音符のステップを同定することが開示されているが、各小節を抽出して位置を各小節に関して補正する技術思想は開示されていない。

複数のモデルを、各記号カテゴリに属する特徴タイプの何れかを検出して解析するというタスクに使用する場合、複数のモデルの出力から音楽情報を生成するための最適な手順と処理構成を見出す必要がある。

非特許文献８では、ディープラーニングモデルによって楽譜イメージ内の小節を認識可能なことが示されている。しかしながら、認識された小節はグランドスタッフ（大五線譜：２つのスタッフを含むもの）であり、本願明細書中に記載される小節（一つのスタッフ中の各小節線で区切られるセグメント）とは異なっている。また、小節を認識する目的は画像が音楽画像であるかどうかを識別するための構造情報を提供するためである。さらに、非特許文献８の小節の認識は小節を含む五線の領域より大きなものを認識しており、できるだけ五線の領域に絞って認識するモデルではない。従って、各小節を抽出して、その単位を用いて五線情報を補正したり、各音符記号をディープラーニングモデルで認識したりするという技術思想とは異なる。さらに、得られた音符記号情報等を再構築して最終的に音楽情報にするやり方は著者も認めているように現在はまだ無い。
以下具体的な実施形態について詳述する。

実施形態１
本発明の第１実施形態は、楽譜画像から音楽情報を作成する方法であって、楽譜画像から少なくとも一つの小節を抽出する工程を含む、方法を提供する。この方法は、例えば、楽譜画像を入力する工程又は前記少なくとも一つの小節の各小節内の音符から音楽情報を作成する工程を含んでもよい。以下、本発明のある実施形態の工程を説明したフローチャート（図１）に基づいて、本方法の工程と任意ではあるが含む場合がある工程とを詳細に説明する。これら工程の順序は変更される場合がある。

（１）楽譜画像入力工程（工程Ｓ１００）
楽譜画像入力工程（１）では、楽譜画像を入力する。楽譜画像の画像は上記で定義されたような任意の画像である。楽譜には、楽曲の全体または一部が含まれる。楽譜は複数のページを含む場合があり、各ページが対象となる場合がある。入力は下記のコンピューティングデバイスが読み取り可能または認識可能な任意の方式で実施される。

（２）小節抽出工程（工程Ｓ２００）
小節抽出工程（２）では、前記楽譜画像から少なくとも一つの小節を抽出する。本明細書中で使用する、用語「小節」は領域単位として上記で定義されるものであり、小節またはメジャーと呼ぶ場合がある。本明細書では、各小節は好ましくはグランドスタッフ（大五線譜）のものではなく、一つのスタッフの中の単位（一つのスタッフ中の各小節線で区切られるセグメント）を指す。小節は領域単位として抽出されてもよい。また抽出された小節に対して、小節ごとに（例えば、小節単位で）音符を同定してもよい。抽出した小節を解析後に再構築して音楽情報を作成する工程を含んでもよい。

小節の数は特に限定されず、例えば、１、２、３、４、５、６、７、８、９、１０、１５、２０、２５、５０、１００、１５０、２００、２５０、５０、１００、１５０、２００、２５０、５００、１０００以上であってもよい。また、その数は、上記の数よりも大きくても低くてもよく、また、それらの内のいずれか２つの数値の間であってもよい。

（２－１）小節抽出機械学習モデル
各小節は機械学習モデルで抽出されてもよい。この際には、小節モデルの種類は、どのようなものであってもよい。また、小節モデルの数は特に限定されず、１、２、３、４、５、１０以上であってもよい。また、その数は、上記の数よりも多くても少なくてもよく、また、その間の任意の数であってもよい。好ましくは、各小節の取得に要する処理時間の観点から、その数は１である。

小節モデルは、それぞれ好ましくは、ＡＩモデル、より好ましくは機械学習モード、さらに好ましくは深層学習（ディープラーニング；深層学習とディープラーニングは互換的に本明細書中で使用される）モデルであってもよい。それらの任意の組み合わせが許容され、それらは単独で使用されてもよいし、組み合わせて使用されてもよい。

小節モデルの機能には、小節の種類の分類と位置決めが含まれる。分類と位置決めは、ＳＳＤやＹＯＬＯモデルなどの１つの特徴モデルを用いて行うことができる。ただし、複数のモデルを組み合わせて使用してもよい。後述する他の特徴モデルについても同様である。

実施例１では、表１に記載される小節を３つのタイプ（ｘ０、ｘ１、ｙ０）に分類するディープラーニングモデルを適用することで非常に効率よく楽譜内の各小節を認識できることが示された。従って、効率よく（例、９４％～１００％）各小節を認識できるという顕著な効果を本発明が奏することが示される。

（２－２）各小節に基づいて解析領域と前記各小節中に少なくとも一つの位置基準を設定する工程
各小節に基づいて解析領域が設定される。この解析領域は、各小節の一部であってもよいし、各小節の一部または全体を含んでいてもよい。解析領域は、任意の形状を有していてもよい。解析領域の形状は、各小節の形状と同じであってもよいし、異なる形状であってもよい。

また、各小節から導出される解析領域の大きさや数は特に限定されるものではなく、上述した領域単位と実質的に同様の方法で提供されてもよい。本実施例では、上側のマージンと下側のマージンを五線の縦幅の１倍または１．２倍にしている。これにより、小節の五線内の音符だけでなく、下側および上側に位置する音符等も各小節に属する音楽記号として認識することができる。

少なくとも１つの位置基準を設定する。位置基準は上記で定義されるものである。位置基準の種類は特に限定されない。位置基準の種類は、その位置基準が後述する音楽記号をマッピングしたりアノテーションしたりするのに使用できるものであれば、どのような種類であってもよい。好ましくは五線譜内の五線の一又は複数の線である。また、五線間の間隔を適用して、スタッフの上側と下側にも位置基準の線を設けて、上側と下側の領域にある音符のステップを同定することができる。

位置基準の数は特に限定されず、例えば、１、２、３、４、５、６、７、８、９、１０、１５、２０、２５、５０、７５，または１００以上であってもよい。また、その数は、上記の数よりも多くても少なくてもよく、また、いずれか２つの間であってもよい。

好ましくは、前記少なくとも一つの小節のそれぞれが、五線の枠、特に最上部と最下部の線に沿って抽出される。この点は非特許文献８で開示される方法と異なる部分であり、後述する五線の補正を容易にする優れた効果を有する。

（３）位置基準補正工程
（３－１）全体画像傾斜補正工程（工程Ｓ３０１）
位置基準補正工程（３）は、前記少なくとも一つの小節の各小節内の五線の位置を補正する工程である。この五線位置補正工程は、任意ではあるが、入力した前記楽譜画像全体をある五線の傾斜を補正して水平にするようにする工程を含む。この楽譜画像全体の五線の傾斜を補正する方法は、好ましくは小節抽出工程（２）の前に実施される。これにより、より効率的に各小節を抽出することを可能とする。

この全体画像傾斜補正は、例えば、以下のような工程で実施可能である。
１．入力イメージをグレースケール化し、Ｃａｎｎｙ法を用いて画像のエッジを抽出する。
２．Ｈｏｕｇｈ法を用いて直線を検出する。
３．一番長い直線の傾き角を計算して画像の回転角度を求める。
４．求めた回転角度で画像全体を回転する。

工程（３－１）は効果的に画像全体の傾斜を補正することはできるが、楽譜の写真のように（例、図４Ａ，４Ｂ参照）画像の各領域で小節の傾きが均一でないものに対しては、各小節が抽出できるようにはなるものの、位置基準である五線の傾斜を画一的に定めるにはまだ課題が存在していた。既存技術で五線の補正をする場合は、全体の五線を画一的に補正するか又は各五線（小節を跨って存在するもの）の傾斜を補正するにとどまっていた。そこでさらに正確な位置基準を提供するという課題を解決するために、以下の各小節内の五線に対する傾斜の補正を実施する場合がある。

（３－２）各小節傾斜補正工程（工程Ｓ３０２）
各小節の五線傾斜の補正は、基本的に（３－１）全体画像傾斜補正と同様に実施することができる。画像の各領域で五線の傾斜が異なるものに対しては、各小節内の五線の傾斜を個別に補正することが好ましい。但し、各小節内の五線は横方向に伸びる直線の閾値で選択を掛けてもよい。この各小節に対する五線傾斜の補正は既存技術には無い顕著な効果を奏する（例、図４Ｃ）。この補正により、楽譜の写真等の五線譜の歪みが画像に不均一なものにおいてさえも位置基準となる五線をより精度高く提供できる。

（３－３）五線位置／間隔補正工程（工程Ｓ３０３）
五線の位置は小節モデルで抽出した小節が正確な位置で（特に、五線譜の上下の線に沿って）抽出されると仮定して計算する。このように工程（２）で抽出される小節は、各小節を単に抽出するだけでなく、各小節の位置基準を定める指標となるという二重の効果を奏する。また、解析領域は五線譜の高さを指標として上部と下部に任意のサイズで設定可能である。上部と下部の解析領域は楽譜により幅があるので幅広に検出した特徴モデルを利用するかしないかは選択できるようにしてもよい。このようにして仮定した五線は実際の五線とズレがある場合がある。このズレを補正するためにａｌｐｈａとｂｅｔａ変数を導入してもよい。ａｌｐｈａは五線譜の中央からのズレであり、ｂｅｔａは五線譜間の間隔を補正する値である場合がある。この二つの値を以下のアルゴリズムを用いて自動で求めることができる。

１．イメージ全体の縦幅（五線＋上部と下部にそれぞれ五線の高さサイズを任意に拡張した部分を設けたイメージ）を１とする。ａｌｐｈａの範囲を－０．０３～０．０３の間０．００１刻みでループさせ、その各値でｂｅｔａを－０．００５～０．００５の間０．００１刻みでループさせる。
２．その各ａｌｐｈａ、ｂｅｔａを使い五線譜をイメージ中に重ね書きする。
３．画像をグレースケール化しＧａｕｓｓｉａｎ閾値処理した画像の黒い部分の面積を求める。
４．五線譜が重なる場合が面積は最小になると考え最小値を求め、その時のａｌｐｈａ、ｂｅｔａの値を補正に使用する。

この（３－３）五線位置／間隔補正工程により、五線の各線の位置が正確に位置決めされてより正確な位置基準を提供することができる。従って、各音符のステップが正確に決定されることで得られる音楽情報がより有用で、その後のヒトによる補正工程の負担を軽減できるという優れた効果を有する。

以上に記載されるように、本発明の一実施形態では、画像を水平に補正し、五線の位置や間隔を補正する方法が好ましくは用いられる。自動補正に用いられる手法の例には、Ｃａｎｎｙ法、Ｈｏｕｇｈ法、Ｇａｕｓｓｉａｎ閾値処理（実施例６）、本明細書で開示される独自の五線位置間隔補正方法（実施例７）が含まれる。楽譜の写真等の五線譜の歪みが画像に不均一なものに対してさえも五線の位置を個別に補正することにより、音符のステップや臨時記号（アクシデンタル）（例、＃、♭、ナチュラル）等の位置をより精度高く同定することができる。

（４）各小節内の音符を複数のディープラーニングモデルを使用して同定する工程（音符同定工程Ｓ４００）
（４－１）複数の特徴モデルと特徴タイプの使用
この工程では、複数の特徴モデルが推論のために各小節に基づいた解析領域に適用される。複数の特徴カテゴリに対応するディープラーニングモデルを組み合わせることで、多様な音符記号等を表現することができる。特徴モデルは、それぞれ好ましくは、ＡＩモデル、より好ましくは機械学習モード、さらに好ましくはディープラーニングモデルであってもよい。それらの任意の組み合わせが許容され、それらは単独で使用してもよいし、組み合わせて使用してもよい。

特徴モデルの数は特に限定されず、２、３、４、５、６、７、８、９、１０、１５、２０、２５、５０、１００、１５０、２００、２５０、５００、１００以上であってもよい。また、上記の数字よりも大きい数であっても、小さい数であってもよく、いずれか２つの間の数であってもよい。

特徴カテゴリ（例、実施例５）は、任意の音楽記号を認識する特徴モデルに関する。任意の音楽記号には、既定の音楽記号そのものと自作したもの、例えば、音符の各パーツに関するものが含まれる。具体例には、表２に記載されるａｃｃｉｄｅｎｔａｌ、ａｒｍ／ｂｅａｍ、ｂｏｄｙ、ｃｌｅｆ、ｒｅｓｔカテゴリが挙げられ、其々のカテゴリには複数の特徴タイプが設定可能である。

実施例２で示されているように、推論のために複数の特徴モデルを使用することは、単一の特徴モデルを使用することに比較していくつかの利点がある。

複数の特徴モデルは、並列に処理されてもよいし、直列に処理されてもよい。しかし、複数の特徴モデルは、実施例３と４で示されるように、推論に必要な時間を短縮するために、並列に処理されることが好ましい。

（ｉ）訓練性能
特徴タイプの数が少ない複数の特徴モデルは、特徴タイプの数が多い１つの特徴モデルよりも容易に学習実施可能であった。また、実施例２は、少数の特徴タイプを持つように特徴カテゴリを選択した場合に、各特徴タイプの認識精度が高くなることを実証する。このように、本発明によれば、特徴モデルの学習性能を向上可能とするという顕著な効果を奏する。

（ｉｉ）推論性能
推論処理の数は、抽出される領域単位の数が大きくなると増加する。近い将来起こるであろうＣＰＵやＧＰＵの数が多いコンピュータの設定の場合、この設定を利用して推論処理を並列に処理し、処理時間を短縮することが考えられる。例えば、解析領域数が１００、推論用の特徴モデル数が１０の場合、１，０００個の独立した推論処理を完了させる必要がある。ＣＰＵやＧＰＵの数が増えるにつれて、複数の特徴モデルを並列に使用すると、すべての推論処理にかかる時間が短くなることが期待される。本実施例３で示すように８コアのＣＰＵで並列処理しても処理時間は単純に１／８にならないので、実際に現状の検証可能なアーキテクチャーで試験して処理時間を測定することが必要である。そこで実際に処理時間を比較した本実施例３と４が並列処理の有用性を実証した。実施例４では、処理時間はＣＰＵを直列で処理した時間の約１０分の１であり、ＧＰＵでの並列処理により顕著に処理時間の短縮ができることを実証する。複数の特徴モデルによる推論に複数のＣＰＵ／ＧＰＵを使用することは、総処理時間の点で優れていると考えられる。したがって、本発明の好ましい実施形態では、並列処理により推論処理に要する時間を短縮することが可能となるという顕著な効果を奏する。

（４－２）各特徴モデル中の前記複数の特徴タイプのそれぞれの位置をマッピングして整列させる工程
各特徴モデル（例、ａｃｃｉｄｅｎｔａｌ、ａｒｍ／ｂｅａｍ、ｂｏｄｙ、ｃｌｅｆ、ｒｅｓｔモデル）によって推論された各特徴タイプがマッピングされる。このマッピングは、特徴モデルで使用される座標系を使用して実行してもよいし、位置基準を使用して実行してもよい。さらに、座標系と位置参照との組み合わせが、各特徴タイプをマッピングするために使用されてもよい。

各特徴タイプは、水平方向または垂直方向に、または二方向に整列させてもよい。１つの特徴カテゴリの特徴タイプを整列させてもよいし、１つ以上の特徴カテゴリの特徴タイプを整列させてもよいし、すべての特徴カテゴリの特徴タイプを整列させてもよい。

整列の方向は特に限定されず、水平方向、垂直方向のいずれであってもよい。また、整列の方向は、１方向であってもよいし、２方向以上であってもよい。

一つ以上の特徴タイプは、アライメントの前、途中、および／または後に除外されてもよい。

（４－３）五線位置（位置基準）を使用して各特徴タイプを解析することにより音符をアノテーションする工程
各特徴タイプは、少なくとも１つの位置基準である五線位置を用いて解析され、順に音符のアノテーション（同定；これらは互換的に用いられる場合がある）に使用してもよい。解析の方向は任意に設定してもよいし、水平方向または垂直方向であってもよい。整列された特徴タイプは、一部の特徴タイプが解析の対象から除外されてもよいが、順次解析されてもよい。

解析される特徴タイプは、複数の特徴モデルのうちの少なくとも１つの特徴モデルからの少なくとも１つの先行解析された特徴タイプの影響を受けてもよい。少なくとも１つの先行解析された特徴タイプの特徴カテゴリは、解析されている特徴タイプの特徴カテゴリと同じであってもよいし、異なるものであってもよい。このようにして、解析結果として得られるアノテーションされた特徴タイプは、先行する特徴タイプが同じ特徴カテゴリまたは異なる特徴カテゴリの後続の特徴タイプに影響を与える間、特定の方向に向けて解析およびアノテーションされてもよい。

具体的には、実施例８では、ａｃｃｉｄｅｎｔａｌ、ｃｌｅｆの各特徴タイプが少なくとも１つの先行解析された特徴タイプに相当する。

本発明の好ましい実施形態では、水平方向または垂直方向に整列された各特徴タイプと、それぞれ、垂直方向または水平方向に重なって整列された各特徴タイプとを使用して前記新たな音符特徴タイプのアノテーションを行う。特徴タイプの全ての位置が水平方向または垂直方向に整列される場合、解析対象となる各特徴タイプは、複数の特徴モデルのうちの少なくとも１つの特徴モデルから、それぞれ垂直方向または水平方向に重なる少なくとも１つの特徴タイプを用いてアノテーションを行ってもよい。

具体的には、各小節の水平方向への特徴タイプのソーティングを実施する場合がある。スタッフ番号を１か２に指定して、スタッフの小節（メジャー（ｍｅａｓｕｒｅ））を一続きのリストにし、前から順に一つずつ小節を取り出してもよい。そして、各小節に含まれる全ての特徴タイプを水平方向（ｘ）（順方向）にソーティングする。各アノテーションに影響する要素として現状のＣｌｅｆの状態とＡｃｃｉｄｅｎｔａｌテーブル（どの音階にシャープやフラットがあるかを教示するテーブル）とを更新しながら各音符をアノテーションしてもよい。Ａｃｃｉｄｅｎｔａｌテーブルは初期値のｆｉｆｔｈｓ（どの長調または短調かを指定するもの）の状態を入力し、次の小節を解析する際には直前のｆｉｆｔｈｓの状態を反映させる場合がある。

水平方向にソーティングした各特徴タイプを前から順に解析するのが好ましい。解析は各タイプがどの特徴カテゴリにあるかに場合分けすることができる。

Ａ．Ｃｌｅｆカテゴリ
解析中の特徴タイプがＣｌｅｆカテゴリＧまたはＦ（ｃｆ０またはｃｆ１）である場合は、Ｃｌｅｆの状態を変化させる。

Ｂ．Ａｃｃｉｄｅｎｔａｌカテゴリ
解析中の特徴タイプがＡｃｃｉｄｅｎｔａｌカテゴリである場合は、位置基準を組み合わせてＡｃｃｉｄｅｎｔａｌテーブルを変更する。

Ｃ．Ｒｅｓｔカテゴリ
解析中の特徴タイプがＲｅｓｔカテゴリである場合は、Ｒｅｓｔタイプに合わせてアノテーションして、その要素を出力リストに追加する。

Ｄ．Ｂｏｄｙカテゴリ（垂直方向に重なる特徴タイプにより音符を同定）
解析中の特徴タイプがＢｏｄｙカテゴリである場合は、和音を検出する。そして、音符の長さをＡｒｍ／Ｂｅａｍタイプで特定するために、垂直方向に重なる特徴タイプをソーティングしてリストにするのが好ましい。その中にＲｅｓｔタイプが含まれる場合は、その位置によってＶｏｉｃｅを指定するのが好ましい（一番下にある場合はＶｏｉｃｅ１、一番上にある場合はＶｏｉｃｅ２に設定可能）。中間位置にある場合は前後の位置に応じてＢｏｄｙタイプの前の要素として追加するか後の要素として追加するかを決定し、出力リストに追加してもよい。

Ｂｏｄｙタイプは垂直方向に重なる特徴タイプの数と位置によって場合分けしてアノテーションすることができる。複数のＢｏｄｙタイプが含まれる場合はｍｕｓｉｃＸＭＬファイルの規定に従って和音（Ｃｈｏｒｄ）を割り当て可能である。

ケース１：一番下と上の特徴タイプが共にＡｒｍ／Ｂｅａｍである場合
３個以上のＢｏｄｙタイプがある場合は、対象のものと、下のＡｒｍ／Ｂｅａｍに属する（下向きのステムの）ものとの距離と、上のＡｒｍ／Ｂｅａｍに属する（上向きのステムの）ものとの距離を計算して近いものに割り当てることができる。その際、下のＡｒｍ／Ｂｅａｍに属するものはＶｏｉｃｅ１に割り当て、上のＡｒｍ／Ｂｅａｍに属するものはＶｏｉｃｅ２に割り当てるのが好ましい。

ケース２：一番下がＲｅｓｔである場合
一番下がＲｅｓｔである場合はＲｅｓｔをＶｏｉｃｅ１に割り当て、一又は複数のＢｏｄｙタイプはＶｏｉｃｅ２に割り当てることが好ましい。

ケース３：一番上がＲｅｓｔである場合
一番上がＲｅｓｔである場合はＲｅｓｔをＶｏｉｃｅ２に割り当て、一又は複数のＢｏｄｙタイプはＶｏｉｃｅ１に割り当てることが好ましい。

ケース４：一番上がＡｒｍ／Ｂｅａｍである場合
一番上がＡｒｍ／Ｂｅａｍである場合は、Ｂｏｄｙタイプの種類によって場合分けする。特徴タイプｂｄ０～ｂｄ３の様にＡｒｍまたはＢｅａｍと組み合わせて音符をアノテーションするものと、ｂｄ４～ｂｄ５のようにＡｒｍとＢｅａｍを持たないものとをそれぞれアノテーションする。この際にＶｏｉｃｅはＶｏｉｃｅ１に設定し、後述するＶｏｉｃｅ調整工程で適宜変更する場合がある。

ケース５：一番下がＡｒｍ／Ｂｅａｍである場合
一番下がＡｒｍ／Ｂｅａｍである場合も、Ｂｏｄｙタイプの種類によって場合分けする。特徴タイプｂｄ０～ｂｄ３の様にＡｒｍまたはＢｅａｍと組み合わせて音符をアノテーションするものと、ｂｄ４～ｂｄ５のようにＡｒｍとＢｅａｍを持たないものとをそれぞれアノテーションする。この際にＶｏｉｃｅはＶｏｉｃｅ１に設定し、後述するＶｏｉｃｅ調整工程で適宜変更する場合がある。

ケース６：一番上と下が共にＢｏｄｙである場合
この場合は、ｂｄ４～ｂｄ５の特徴タイプが想定される。しかしながら、Ａｒｍ／Ｂｅａｍ特徴タイプやＲｅｓｔ特徴タイプが認識されなかった結果（例、小節の最下部や最上部に位置していて認識できない場合や特徴モデルの推論で検出されなかった場合も含む）である場合も考えられる。従って、ｂｄ０～ｂｄ３の者が含まれている場合は、適宜Ａｒｍ／Ｂｅａｍを補うように処理することが好ましい。また、このケースでも音符はＶｏｉｃｅ１に割り当てることが好ましい。

上記した各Ｂｏｄｙタイプのアノテーションでは現在のＣｌｅｆとａｃｃｉｄｅｎｔａｌテーブルを引数として渡して、音符特徴タイプをアノテーションするのが好ましい。そして、各Ｂｏｄｙタイプのステップを五線の位置との相対距離に従って同定する。

解析済みのＢｏｄｙとＡｒｍとＲｅｓｔタイプは除外リストに入れて再度解析されるのを防止することができる。また、Ｂｅａｍは隣接するＢｏｄｙタイプの解析のために再度使用可能である。

このようにして水平方向にソーティングした特徴タイプを、以前に解析したある種の特定タイプ（Ｃｌｅｆ、Ａｃｃｉｄｅｎｔａｌ）がその後に特徴タイプに影響を及ぼすようにし、また、垂直方向に重なる特徴タイプを垂直方向に影響を及ぼす特徴タイプ（例、Ａｒｍ／Ｂｅａｍ）を使用してアノテーションを実施するのが好ましい。

好ましい実施形態では、前記複数の特徴タイプと前記位置基準（五線位置）を組み合わせて使用して、新たな音符特徴タイプをアノテーションする。音符特徴タイプの数は前記前記複数の特徴タイプと前記位置基準の合計数の好ましくは少なくとも１０倍であり、より好ましくは少なくとも１００倍であり、さらに好ましくは少なくとも１０００倍である。

（４－４）各音符のＶｏｉｃｅ調整工程
小節は楽曲によって決められた音符長を有する。この工程では、上記（４－３）音符アノテーション工程で同定された音符群のＶｏｉｃｅが正しく割り当てられたかどうかを確認する。ケース１～３では、各音符がＶｏｉｃｅ１またはＶｏｉｃｅ２に割り当てられているが、ケース４～６では、各音符は便宜的にＶｏｉｃｅ１に割り当てられている。そこで、この状態で、Ｖｏｉｃｅ１とＶｏｉｃｅ２に属する各音符の長さを、和音を考慮して計算する。そして、小節の規定の音符長よりも長くなった場合は、Ｖｏｉｃｅの調整を実施する。例えば、上側にＡｒｍ／Ｂｅａｍを有するＢｏｄｙタイプをＶｏｉｃｅ２にし、残り（例、ｂｄ４～ｂｄ５）のＢｏｄｙタイプをＶｏｉｃｅ１にする場合がある。また、下側にＡｒｍ／Ｂｅａｍを有するＢｏｄｙタイプをＶｏｉｃｅ１にし、残り（例、ｂｄ４～ｂｄ５）のＢｏｄｙタイプをＶｏｉｃｅ２にする場合がある。さらに全音符（ｂｄ４～ｂｄ５）をＶｏｉｃｅ２にする場合がある。この調整工程を繰り返して行ってもよい。

実施例５では、少数の特徴モデルの少数の特徴タイプを用いて新たに音符特徴タイプを作成する例を示す。実施例５では、複数カテゴリの比較的少数の特徴タイプを組み合わせることで多数の音符特徴タイプを同定、アノテーションできるという本発明の顕著な効果を実証する。

（５）各小節内の音符から音楽情報を作成する工程（音楽情報作成工程Ｓ５００）
（５－１）前記領域単位に関してアノテーションした各特徴タイプのデータを組み立てる工程
この工程では、各領小節に関してアノテーションされた音符特徴タイプ由来のデータが組み立てられる。組み立て中に、アノテーションに利用した１つ以上の特徴タイプが削除されてもよい。削除された特徴タイプは、アノテーション中に別の特徴タイプに影響を与える可能性があるが、情報を生成するためには不要である場合があるからである。

組み立て方は特に限定されない。組み立ての方向は、解析中またはアノテーション中と同じ方向であってもよい。ただし、組み立てる方向は、解析中またはアノテーション中とは逆の方向であってもよい。また、アノテーションを時間的に処理する（すなわち、時系列で組み立てる）場合もあるため、アノテーション中は同じ方向にデータを組み立てることが好ましい。

本発明の好ましい実施形態では、前記アノテーションされた音符特徴タイプのデータが時間方向に組み立てられる。

（５－２）一又は複数の小節に関するデータを直列および／または並列に接続して音楽情報を作成する工程
一つ以上の小節について得られたデータを直列または並列に接続して情報を生成する。場合によっては、小節の数は１であってもよい。この場合、１つの小節に含まれるアノテーションされた音符特徴タイプのデータを使用してもよい。

また、複数の小節を有する場合には、複数の小節は直列に接続されていてもよいし、並列に接続されていてもよい。また、直列に接続されたデータをさらに直列に接続してもよいし、並列に接続されたデータをさらに直列に接続してもよいし、並列に接続されたデータをさらに直列に接続して音楽情報を生成してもよい。これにより、複数のスタッフがある楽譜にも対応することができる。

大五線譜を含む楽譜の場合には、右手用の五線譜を直列および並列（段が違うもの）に接続してスタッフ１とし、左手用の五線譜も直列および並列（段が違うもの）に接続してスタッフ２としてもよい。

接続される小節の数は特に限定されず、例えば、１、２、３、４、５、６、７、８、９、１０、１５、２０、２５、５０、１００、１５０、２００、２００、２５０、５００、１０００、２５００、５０００、１００００、２５０００、５００００、または１００００以上であってもよい。また、上記の数字よりも大きくても小さくてもよく、また、いずれか２つの間の数字であってもよい。

各小節の音符データを接続する方法は特に限定されない。音符データは直接接続してもよいし、間接的に接続してもよい。間接的に接続されている場合には、データ間に他のデータや素材を挿入してもよいし、同じデータを繰り返し挿入して音楽情報を生成してもよい。

本発明の一実施形態では、接続されるべき小節は、先行する小節内の特徴タイプ（例、調号や臨時記号）に影響されてもよい。

本発明の一実施形態では、接続される小節の特徴タイプ（例、反復記号等）は、先行する小節に影響を与えてもよい。あるいは、小節を、単にそのまま接続してもよい。

本発明の一実施形態では、音楽情報は、ＸＭＬファイル、ｍｕｓｉｃＸＭＬファイル、ＭＩＤＩファイル、ｍｐ３ファイル、ｗａｖファイル、および楽譜からなる群より選択される。

本発明の一実施形態では、得られた音楽情報はそのまま最終製品（例、ＭｕｓｉｃＸＭＬ、ＭＩＤＩ、ｍｐ３ファイル、ｗａｖファイル、楽譜）として実施する場合がある。

実施例８では、各音符のアノテーションとＭｕｓｉｃＸＭＬファイルの作成の例を示し、本発明の方法が楽譜画像から音楽情報を作成する際に顕著な効果を奏することを実証する。

実施形態２
本発明の方法を実施して画像から情報を作成するためのコンピューティングデバイス
実施形態２は、本発明の方法を実施して画像から情報を作成するためのコンピューティングデバイスに関する。

本発明の第２実施形態は、楽譜画像から音楽情報を作成するためのコンピューティングデバイスであって、楽譜画像から少なくとも一つの小節を抽出する小節抽出部を含む、コンピューティングデバイスを提供する。このコンピューティングデバイスは、例えば、楽譜画像を入力する入力部、前記少なくとも一つの小節の各小節の五線の位置を補正する五線補正部、前記少なくとも一つの小節の各小節内の音符を複数のディープラーニングモデルを使用して同定する音符同定部、又は同定された前記音符から音楽情報を作成する音楽情報作成部、を含んでもよい。ここで、前記少なくとも一つの小節がディープラーニングモデルによって抽出され、前記複数のディープラーニングモデルが並列に処理され、又は前記音楽情報が、ＸＭＬファイル、ｍｕｓｉｃＸＭＬファイル、ＭＩＤＩファイル、ｍｐ３ファイル、ｗａｖファイル、および楽譜からなる群より選択される、コンピューティングデバイスであってもよい。

コンピューティングデバイスの例には、特に限定はされないが、ＲＡＭ、ＲＯＭ、キャッシュ、ＳＳＤ、ハードディスクが含まれる。また、クラウド上のもの、サーバ上のもの、オンプレミスのコンピュータ上のもの等の任意の形態のコンピューティングデバイスが含まれる。

楽譜画像を入力する入力部は、実施形態１の（１）楽譜画像入力工程を実行する。小節抽出部は、実施形態１の（２）小節抽出工程を実行する。五線補正部は、実施形態１の（３）位置基準補正工程を実行する。音符同定部は、実施形態１の（４）音符同定工程を実行する。音楽情報作成部は、実施形態１の（５）音楽情報作成工程を実行する。また、各部の好ましい態様は、実施例１に記載された態様を準用する。

実施形態３
本発明の方法を実施して画像から情報を作成するためのプログラム
実施形態３は、本発明の方法を実施して画像から情報を作成するためのプログラムに関する。本発明のプログラムは、本発明の方法を実施できる限り、プログラム全体または部分を含む。

本発明のプログラムは、本発明の方法を実施できる限り、任意の言語で記載可能である。その言語の例には、特に限定はされないが、Ｐｙｔｈｏｎ，Ｊａｖａ，Ｋｏｔｌｉｎ，Ｓｗｉｆｔ，Ｃ，Ｃ＃，Ｃ＋＋，ＰＨＰ，Ｒｕｂｙ，ＪａｖａＳｃｒｉｐｔ，Ｓｃａｌａ，Ｇｏ，Ｒ，Ｐｅｒｌ，Ｕｎｉｔｙ，ＣＯＢＯＬ等が含まれる。

実施形態３は、楽譜画像から音楽情報を作成するためのプログラムであって、楽譜画像から少なくとも一つの小節を抽出する小節抽出部を含む、プログラムを提供する。このプログラムは、楽譜画像を入力する入力部、前記少なくとも一つの小節の各小節内の五線の位置を補正する五線補正部、前記少なくとも一つの小節の各小節内の音符を複数のディープラーニングモデルを使用して同定する音符同定部、又は同定された前記音符から音楽情報を作成する音楽情報作成部、を含んでもよい。ここで、前記少なくとも一つの小節がディープラーニングモデルによって抽出され、前記複数のディープラーニングモデルが並列に処理され、又は前記音楽情報が、ＸＭＬファイル、ｍｕｓｉｃＸＭＬファイル、ＭＩＤＩファイル、ｍｐ３ファイル、ｗａｖファイル、および楽譜からなる群より選択される、プログラムであってもよい。

その他の実施形態
本発明の一実施形態によれば、画像から情報を作成する方法であって、画像から領域単位を抽出する工程、前記領域単位に基づいて解析領域と前記領域単位中に少なくとも一つの位置基準を設定する工程、複数の特徴モデルを前記解析領域に適用して推論を行い、各特徴モデルは複数の特徴タイプに対して前記推論を実行する工程、各特徴モデル中の前記複数の特徴タイプのそれぞれの位置をマッピングして整列させる工程、前記少なくとも一つの位置基準を使用して、各特徴タイプを解析しアノテーションする工程、前記領域単位に関してアノテーションした各特徴タイプのデータを組み立てる工程、一又は複数の前記領域単位に関する前記データを直列および／または並列に接続して情報を作成する工程、の少なくとも1つの工程を含む方法が提供される。また本発明の一実施形態によれば、上記方法を実施して画像から情報を作成するためのコンピューティングデバイスが提供される。コンピューティングデバイスの例には、特に限定はされないが、ＲＡＭ、ＲＯＭ、キャッシュ、ＳＳＤ、ハードディスクが含まれる。また、クラウド上のもの、サーバ上のもの、オンプレミスのコンピュータ上のもの等の任意の形態のコンピューティングデバイスが含まれる。また本発明の一実施形態によれば、上記方法を実施して画像から情報を作成するためのプログラム又はこのプログラムを記録した記録媒体が提供される。記録媒体は、非一時的なコンピュータ読み取り可能な記録媒体であってもよい。

本明細書中で「Ａ～Ｂ」という記載は、ＡおよびＢを含む。また、本発明に係る工程等について各実施形態で説明したが、これらの記載に限定されるものではなく、種々の変更を行うことができる。

以下、実施例を参照して本発明をさらに詳細に説明するが、本発明は以下の実施例に限定はされない。

実施例１
楽譜中の小節用ディープラーニングモデルの訓練と推論
まず、４７個の楽譜全体図（各楽譜は数個から約５０個の小節を含んでいた）を使用してＹＯＬＯｖ５の小節モデルを訓練し、ｍＡＰ＠．５（特徴タイプ用のモデル中での正確性の指標）が０．９５を達成した。この小節モデルのカテゴリはｘ０、ｘ１、およびｙ０の小節特徴タイプがあり、それらは以下の表１に示されるようにそれぞれ、ト音記号（Ｇｃｌｅｆ）で始まる小節、へ音記号（Ｆｃｌｅｆ）で始まる小節、それ以外の残りの小節を示していた。訓練データの作成にはｌａｂｅｌＩｍｇソフトウエア（https://github.com/tzutalin/labelImg）を使用してバウンディングボックス（ＢｏｕｎｄｉｎｇＢｏｘ）を各イメージ中で各タイプを割り当てた。その際に、五線の最上部と最下部の線に沿うようにバウンディングボックスを設定した。また、訓練用の訓練データ、試験データ、および検証データはＲｏｂｏｆｌｏｗ（https://app.roboflow.com/）で調整した。

次に、この小節モデルの訓練に用いなかった楽譜イメージでの推論に適用した。図２Ａはヘンデルによる「サラバンドと変奏」の楽譜の一部をスキャンして得たＰＤＦ由来イメージ中の推論結果を示す。図２Ｂは同じ楽譜をスマートフォンのカメラを使用して得た写真イメージ中の推論結果を示す。

その結果、各楽譜イメージ中で１００％の小節が、その推論の正確度０．９１～０．９５で認識され抽出された。

また、ベートーベンの「悲愴第二楽章」の楽譜の一部（この小節モデルのトレーニングに用いたもの）も１００％の小節がその推論の正確度０．９２～０．９３で認識され抽出された。

さらに、この小節モデルの訓練に用いなかった別の楽譜である、バッハの「メヌエット」の楽譜イメージでは、６６個の小節のうち一つの小節がｘ０とｘ１で重複して認識され、２つの小節が融合して認識されていた。また、一つの小節では隣接する一つの音符を含んでいた。推論の正確度は０．７９～０．９３であり、総合的には約９４％の小節が正しく認識されていた。結果を図２Ｃに示す。

これにより本小節モデルが、訓練に用いなかった楽譜のＰＤＦ由来イメージや写真イメージにおいてさえも効率的に小節を抽出することができて有用であることが実証された。

実施例２
複数のディープラーニングモデルを使って実行する訓練
各音楽記号特徴カテゴリ（以下の実施例５で説明する）に対応する複数のＹＯＬＯｖ５モデルを訓練した。また、複数の特徴タイプを組み合わせて表現することで、全体で表現される音楽記号（音符）特徴タイプの数も飛躍的に増加し、これは有利な効果となった。

各小節を抽出し、それに基づいて解析領域を決定し、拡大してサイズを一定（４１６ｘ４１６ピクセル）にし、訓練データを作成した。訓練データの作成は、実施例１と同様にｌａｂｅｌＩｍｇソフトウエアを使用してバウンディングボックス（ＢｏｕｎｄｉｎｇＢｏｘ）を割り当てた。

特徴カテゴリ（詳細は、実施例５で記載する）は、ａｃｃｉｄｅｎｔａｌ、ａｒｍ／ｂｅａｍ、ｂｏｄｙ、ｃｌｅｆ、ｒｅｓｔカテゴリを作成し、其々のカテゴリには複数の特徴タイプを設定した。特徴タイプの数は、それぞれ、ａｃｃｉｄｅｎｔａｌが３個、ａｒｍ／ｂｅａｍが８個、ｂｏｄｙが６個、ｃｌｅｆが５個、ｒｅｓｔが５個と上記一つのディープラーニングモデルと比べると少なかった。また、訓練に用いた画像数（訓練、テスト、検証用のデータの全体数）は、それぞれ、ａｃｃｉｄｅｎｔａｌが１９９個、ａｒｍ／ｂｅａｍが５４６個、ｂｏｄｙが５３７個、ｃｌｅｆが１４９個、ｒｅｓｔが６１１個とやはり、通常のディープラーニングでの訓練データ数よりも１桁以上少なかった。例えば、手書き数字のデータセットＭＮＩＳＴでは、訓練セット数６０，０００、テストセット数１０，０００である。したがって、特徴タイプの種類によってはこれまで考えられていた必要な数より少ないデータセット数でのディープラーニングの訓練ができた。これは本発明が少ない数の特徴タイプの組み合わせで多数の特徴タイプを表現できることに由来すると考えられる。したがって、訓練の質を落とさず、ディープラーニングの訓練を実施できるという顕著な効果の一つとなった。

訓練の結果、ｍＡＰ＠．５は、それぞれ、ａｃｃｉｄｅｎｔａｌモデルが０．９９、ａｒｍ／ｂｅａｍモデルが０．９９、ｂｏｄｙモデルが０．９４、ｃｌｅｆモデルが０．９９、ｒｅｓｔモデルが０．９９であった。訓練は基本的に５００エポック（ｅｐｏｃｈ）をバッチサイズ（ｂａｔｃｈｓｉｚｅ）１６でＧＰＵ（１６Ｇ）を搭載したＧｏｏｇｌｅＣｏｌａｂｏｒａｔｏｒｙを使用して行った。初期値のウエイト（ｗｅｉｇｈｔｓ）は前回の訓練で用いたものを使用した。したがって、実際は２～４回のトレーニング（転移学習）の結果である。これまでの結果を表２に示す。

これらの結果は比較的少数の特徴タイプを比較的小規模な訓練データを用いて複数のディープラーニングモデルで訓練することにより優れた結果が得られる場合があることを実証した。多数の特徴タイプを判別する一つの大きなディープラーニングモデルをトレーニングし使用するよりも、複数の特徴カテゴリのディープラーニングモデルを組み合わせることが、学習と推論時の実行性、正確度等の点でより優れている場合がある。したがって、本実施例の構成の複数機械学習モデルを訓練して使用することが従来法よりも有利であり、極めて顕著な効果があることを示す。

実施例３
直列または並列で複数のモデルを処理した場合に掛かった処理時間の比較
これまで作成したディープラーニングモデルを使って楽譜イメージから各小節を認識および処理して、サイズを揃えた解析領域を用意した。そしてその各解析領域に対して、５つの特徴カテゴリの上記モデルを適用して解析データを作成する手順を自動化した。そして、処理に掛かった時間を計測した。この際、５つの特徴カテゴリのモデルの処理を直列で処理するか、または、並列処理するかして、その処理時間を比較した。結果を表３に示す。

３種類の楽譜イメージを使い、処理時間を比較した。使用したコンピュータはｉＭａｃＰｒｏ（プロセッサ：３．２ＧＨｚ、８コアＩｎｔｅｌＸｅｏｎＷ；メモリ：６４ＧＢ２６６６ＭＨｚＤＤＲ４）であった。直列での処理に掛かった平均時間は、メヌエット（６６小節）、サラバンド（４８小節）、悲愴第二楽章（５８小節）が、それぞれ１５３．８秒、１２１．５秒、１３８．１秒で小節の数にほぼ比例していた。並列での処理に掛かった平均時間は、メヌエット、サラバンド、悲愴第二楽章が、それぞれ８１．３秒、６３．０秒、７５．４秒でこれも小節の数にほぼ比例していた。並列化処理により、メヌエット、サラバンド、悲愴第二楽章に関して、それぞれ、処理時間が５２．９％、５１．９％、５４．６％と約二分の一に短縮された。

直列処理でも８コアに分散してある程度処理が進んでいたと考えられるため処理時間は１／８にはならなかったが、ディープラーニングモデルの推論にかかる時間は顕著に短縮された。今回の推論数は約５０個の小節に対してそれぞれ５個の特徴モデルを適用するので約２５０プロセスを処理する必要があった。本実施例では一つのＣＰＵ（８コア）で処理した。しかし、複数のＣＰＵとＧＰＵを有する構成が今後主流になると考えられるので、本発明の処理構成はそのＣＰＵ／ＧＰＵの数の増加に伴いさらに処理時間を短縮可能である。従って、本実施例の構成は顕著な効果を有している。

実施例４
ＧＰＵでの処理速度
実際にＧＰＵを使用して処理時間が短縮されるかどうかを検討した。実施例３での処理をＡＷＳのＥＣ２インスタンスｇ４ｄｎ．ｍｅｔａｌを使用して処理時間を計測した。ｇ４ｄｎ．ｍｅｔａｌのＣＰＵ／ＧＰＵ構成は、ＮＶＩＤＩＡＴ４ＴｅｎｓｏｒＣｏｒｅＧＰＵが８個、ｖＣＰＵが９６個、ＲＡＭが３８４ＧｉＢ等であった。処理はＧＰＵを直列または並列に使用するようにプログラミングした。結果を表４に示す。

メヌエットの楽譜を、ＧＰＵを直列にして処理した処理時間は平均７０．９秒であり、ＣＰＵを直列で使用した場合の平均１５３．８秒、並列で処理した場合の平均８１．３秒よりも短かった。また、並列での処理時間は平均１６．４秒であり、直列処理の約１／４の処理時間であった。この処理時間はＣＰＵを直列で処理した時間の約１０分の１であり、ＧＰＵでの並列処理により顕著に処理時間の短縮ができることを実証した。したがって、実施例４はＧＰＵを並列で処理することにより本発明の効果がさらに増強されることを示している。コンピュータの能力（例、ＣＰＵやＧＰＵ等の容量や数）が大きくなればなるほど、複数のモデルを並列に処理するための時間は短くなり、本発明の適用性と性能がコンピュータパワーの増加に伴って著しく向上する。

実施例５
少数の特徴モデルの少数の特徴タイプを用いる新たな音符特徴タイプの作成
表２に示すようにディープラーニングモデルの訓練と推論に用いた特徴カテゴリと特徴タイプはＣｌｅｆが５種類（３つは不使用）、Ａｃｃｉｄｅｎｔａｌが３種類、Ｂｏｄｙが６種類、Ａｒｍ／Ｂｅａｍが８種類、Ｒｅｓｔが５種類あった。表５と図３に示す。

ト音記号に関しては五線譜の位置を位置基準にしてＤ３～Ｇ６までの２５の音階を割り当てた、へ音記号に対してはＦ１～Ｂ４までの２５音階を割り当てた。Ｂｏｄｙの位置する場所によって、これにより２×２５×６（Ｂｏｄｙの種類数）＝３００種類のバリエーションを表現できる。さらに、ＡｒｍとＢｅａｍの種類によってそれぞれの音符の長さが決定される（全音符はＡｒｍ／Ｂｅａｍを取らない、また、半音符はａｍ０またはａｍ１しかとらない）。また、Ｂｅａｍは開始、中間、終了の３種類がつらなりの位置によって表現される。したがって、３００×２（全音符２種類）＋３００×２（半音符２種類）×２（ａｍ０またはａｍ１）＋３００×２（黒丸の種類）×（４（Ａｒｍの種類）＋４（Ｂｅａｍの種類）×３（開始、中間、終了））＝１１，４００。これにＡｃｃｉｄｅｎｔａｌが３種類あるので、すべての音階に適用されるわけでは必ずしもないが、１１，４００×３＝３４，２００。したがって、１９個の特徴タイプから音符という新たな音符特徴タイプが約３万種類表現できることになった。さらに和音を考慮すると和音は２，３，４，５の音の任意の組み合わせであるから、表現できる前記特徴タイプの数はさらに飛躍的に増え、軽く１０万種類上の単音と和音を表現できる。したがって、複数カテゴリの比較的少数の特徴タイプを組み合わせることで多数の新たな音符特徴タイプである音符を同定、アノテーションできるという本実施例の顕著な効果を実証した。具体的なアノテーション方法は実施例７で解説する。

実施例６
傾いた楽譜イメージの補正
図４Ａはサラバンドの楽譜を傾いた状態で写真を撮ったイメージである。五線譜が水平状態にないと位置基準として機能しないことからまずは、楽譜画像全体の水平化を行った（図４Ｂ）。手順は以下のものであった。

１．入力イメージをグレースケール化し、Ｃａｎｎｙ法を用いて画像のエッジを抽出した。
２．Ｈｏｕｇｈ法を用いて直線を検出した。
３．一番長い直線の傾き角を計算して画像の回転角度を求めた。
４．求めた回転角度で画像全体を回転した。

得られた全体イメージでは各小節はまだ完全に水平化されなかった（中央部は水平化の度合いが高いが上部、下部ではまだ補正が必要であった。）。横方向に伸びる直線の閾値で選択を掛けた以外は再度上記手順と同様に各小節の水平化を行った（図４Ｃ）。得られたイメージを特徴モデルで推論すると各特徴タイプが認識されることが分かった（図４Ｄ）。

この結果は、画面全体の傾きを補正するだけでなく、本実施例の要素である領域単位（小節）ごとに傾きを位置基準によって補正することで、発明の精度が向上するという顕著な効果を奏する。

この水平化により、従来法では問題であった五線譜の傾き補正が容易にできるようになり、本発明の実施を効率的に実行できることが分かった。

実施例７
五線の位置と間隔の補正
位置基準として五線を用いた。五線の位置は小節モデルで抽出した小節が正確な位置で抽出されたとして計算した。そして解析領域を五線の高さの１．２倍として上部と下部に設定した。実際のアノテーションで述べるが、上部と下部の解析領域は楽譜により幅があるので幅広に検出した特徴モデルを利用するかしないかは選択できるようにした。ここでは初期値の五線の位置は図５Ａで示したように、実際のものとはズレがあった。このズレを補正するためにａｌｐｈａとｂｅｔａ変数（係数）を導入した。ａｌｐｈａは五線の中央からのズレであり、ｂｅｔａは五線間の間隔を補正する値であった。この二つの値を以下のアルゴリズムを用いて自動で求めた。

１．イメージ全体の縦幅（五線譜＋上部と下部にそれぞれ五線譜の高さの１．２倍を設けたイメージ）を１とした。ａｌｐｈａの範囲を－０．０３～０．０３の間０．００１刻みでループさせ、その各値でｂｅｔａを－０．００５～０．００５の間０．００１刻みでループさせた。
２．その各ａｌｐｈａ、ｂｅｔａを使い五線をイメージ中に重ね書きした。
３．画像をグレースケール化しＧａｕｓｓｉａｎ閾値処理した画像の黒い部分の面積を求めた。
４．五線が重なる場合が面積は最小になると考え最小値を求め、その時のａｌｐｈａ、ｂｅｔａの値を補正に使用した。

その補正結果を図５Ｂに示す。この自動補正機能を各小節のアノテーション時に実行することで正確度が高い音符の音階の同定ができるようになった。これにより本発明の効果をさらに改善することができた。

実施例８
各音符のアノテーションとＭｕｓｉｃＸＭＬファイルの作成
以下にアノテーションの方法の要点を簡単に説明する。各小節をディープラーニング小節モデルで抽出し、一部重なって認識されていた小節を除去する処理を重なりのあった位置に基づいて自動で実施した。その後、スタッフごとに並列に並んでいた小節を取り出し直列に繋いで各スタッフの元データとした。

８－１水平方向への特徴タイプのソーティング
スタッフ番号を１か２に指定して、スタッフの小節（メジャー（ｍｅａｓｕｒｅ））を一続きのリストにした。そして、前から順に一つずつ小節を取り出した。そして、各小節に含まれる全ての特徴タイプを水平方向（ｘ）（順方向）にソーティングした。各アノテーションに影響する要素として現状のＣｌｅｆの状態とＡｃｃｉｄｅｎｔａｌテーブル（どの音階にシャープやフラットがあるかを教示するテーブル）とを更新しながら各音符をアノテーションした。Ａｃｃｉｄｅｎｔａｌテーブルは初期値のｆｉｆｔｈｓ（どの長調または短調かを指定するもの）の状態を入力し、次の小節を解析する際には直前のｆｉｆｔｈｓの状態を反映させた。

８－２各特徴タイプを前から順に解析
水平方向にソーティングした特徴タイプを順に解析した。解析は各タイプがどの特徴カテゴリにあるかに場合分けをした。

Ａ．Ｃｌｅｆカテゴリ
解析中の特徴タイプがＣｌｅｆカテゴリＧまたはＦ（ｃｆ０またはｃｆ１）であった場合は、Ｃｌｅｆの状態を変化させた。

Ｂ．Ａｃｃｉｄｅｎｔａｌカテゴリ
解析中の特徴タイプがＡｃｃｉｄｅｎｔａｌカテゴリであった場合は、位置基準と組み合わせてＡｃｃｉｄｅｎｔａｌテーブルを変更した。

Ｃ．Ｒｅｓｔカテゴリ
解析中の特徴タイプがＲｅｓｔカテゴリであった場合は、Ｒｅｓｔタイプに合わせてアノテーションして、その要素を出力リストに追加した。

Ｄ．Ｂｏｄｙカテゴリ（垂直方向に重なる特徴タイプにより音符を同定）
解析中の特徴タイプがＢｏｄｙカテゴリであった場合は、和音を検出し、音符の長さをＡｒｍ／Ｂｅａｍタイプで特定するために、垂直方向に重なる特徴タイプをソーティングしてリストにした。その中にＲｅｓｔタイプが含まれる場合は、その位置によってＶｏｉｃｅを指定した（一番下にある場合はＶｏｉｃｅ１、一番上にある場合はＶｏｉｃｅ２にした）。中間位置にある場合は前後の位置に応じてＢｏｄｙタイプの前の要素として追加するか後の要素として追加するかを決定し、出力リストに追加した。

Ｂｏｄｙタイプは垂直方向に重なる特徴タイプの数と位置によって場合分けしてアノテーションした。複数のＢｏｄｙタイプが含まれる場合はｍｕｓｉｃＸＭＬファイルの規定に従って和音（Ｃｈｏｒｄ）を割り当てた。

ケース１：一番下と上の特徴タイプが共にＡｒｍ／Ｂｅａｍである場合
ケース２：一番下がＲｅｓｔである場合
ケース３：一番上がＲｅｓｔである場合
ケース４：一番上がＡｒｍ／Ｂｅａｍである場合
ケース５：一番下がＡｒｍ／Ｂｅａｍである場合
ケース６：一番上と下が共にＢｏｄｙである場合
各Ｂｏｄｙタイプのアノテーションでは現在のＣｌｅｆとａｃｃｉｄｅｎｔａｌテーブルを引数として渡して、音符特徴タイプをアノテーションした。

解析済みのＢｏｄｙとＡｒｍとＲｅｓｔタイプは除外リストに入れて再度解析されるのを防止した。また、Ｂｅａｍは隣接するＢｏｄｙタイプの解析のために再度使用した。

このようにして水平方向にソーティングした特徴タイプを、以前に解析したある種の特定タイプ（Ｃｌｅｆ、Ａｃｃｉｄｅｎｔａｌ）がその後に特徴タイプに影響を及ぼすようにし、また、垂直方向に重なる特徴タイプを垂直方向に影響を及ぼす特徴タイプ（例、Ａｒｍ／Ｂｅａｍ）を使用してアノテーションを実施した。ここの音階はａｌｐｈａ、ｂｅｔａで音階の位置を個々の小節で補正した。

８－３Ｖｏｉｃｅの調整
小節のアノテーション結果を検証した。上記ケース４～６では全ての音符をＶｏｉｃｅ１に割れ当てた。その結果、アノテーションされた音符の長さの合計が小節に決められた長さを越えた場合にはＶｏｉｃｅ（声）を変更した。具体的には、下向きのステムを持つ音符をＶｏｉｃｅ１、上向きのステムを持つものをＶｏｉｃｅ２に割り当てた。小節内の音符の長さをＶｏｉｃｅごとに再計算し、Ｖｏｉｃｅ１の小節内の音符の長さがまだ決められた長さを越えている場合は、全音符をＶｏｉｃｅ２に割り当てた。

８－４各小節を直列に結合
出来上がった各小節のデータを直列につないでスタッフ全体のデータを作成した。出来たデータはＥｌｅｍｅｎｔＴｒｅｅ（ＥＴ）の形にして要素を登録してデータを構造化した。

８－５ＭｕｓｉｃＸＭＬファイルの作成
ＥＴ構造化した音符データをＸＭＬファイルへと変換する関数を用いてＸＭＬ化して、ＭｕｓｉｃＸＭＬファイルを作成した。

結果
図６は、図２Ｃのバッハのメヌエットの楽譜イメージのスタッフ１を本発明の方法により各音符を同定してＸＭＬ化し、そのＸＭＬファイルをＳｉｂｅｌｉｕｓ（図６Ａ）とＭｕｓｅＳｃｏｒｅ（図６Ｂ）で読み込み表示させた結果である。図６に示すように作製したＸＭＬファイルはＳｉｂｅｌｉｕｓ、ＭｕｓｅＳｃｏｒｅ、Ｆｉｎａｌｅ（図示しない；表示小節の調整が必要）で読み込んで表示することができた。

次に、アノテーションの正確さの評価を行った。図６に示すＸＭＬを個々の楽譜ソフトウエア上で表示した結果を、元の画像イメージである図２Ｃと比較した。結果を表６にまとめた。

スタッフ１に関しては、小節は９７％（３２／３３）の精度で認識されていて、小節抽出の精度が高いことを実証した。個々の特徴タイプと位置基準とを組み合わせて同定された新しい音符特徴タイプの音階（ｓｔｅｐ）（Ｃｌｅｆタイプと位置基準の五線譜に基づくもの）、音符（Ｎｏｔｅ）（さらに長さも含むもの）、和音（Ｃｈｏｒｄ）（全体がすべて一致するもの）に関しては、それぞれ、９８％（１２５／１２８）、９５％（１２２／１２８）、１００％（１／１）の正確さだった。臨時記号（Ａｃｃｉｄｅｎｔａｌ）（音階と記号の両方が一致するもの）も１００％（３／３）認識された。

スタッフ２に関しては、小節は９７％（３２／３３）の精度で認識されていた。音階（ｓｔｅｐ）、音符（Ｎｏｔｅ）、和音（Ｃｈｏｒｄ）に関しては、それぞれ、９５％（７１／７５）、９５％（７１／７５）、１００％（１／１）の正確さだった。休符（Ｒｅｓｔ）は４０％（２／５）、臨時記号（Ａｃｃｉｄｅｎｔａｌ）は５０％（１／２）認識された。

これらの結果から本実施例の方法によりアノテーションされた音符の精度が極めて高いことが示され、本実施例が顕著な効果があることが証明された。

さらに、元の画像はＰＤＦからデジタル的に作成されたイメージだけでなく、実際に利用される可能性の高い、楽譜を写真で取ったイメージからもＸＭＬを作成できるか検討した。この際に、写真イメージは五線譜が水平でない場合が多いと考えられるので、図７Ａに示されるような傾いた写真イメージからＸＭＬ化を実施した。得られた結果を、Ｓｉｂｅｌｉｕｓを用いてスタッフ１の楽譜を表示した（図７Ｂ）。

表６に示すように、小節は９６％（２３／２４）の精度で認識されていた。音階（ｓｔｅｐ）、音符（Ｎｏｔｅ）、和音（Ｃｈｏｒｄ）に関しては、それぞれ、８７％（１３５／１５６）、８６％（１３４／１５６）、７８％（２９／３７）の正確さだった。休符（Ｒｅｓｔ）は６４％（１６／２５）、臨時記号（Ａｃｃｉｄｅｎｔａｌ）は７１％（１０／１４）認識された。

特に、サラバンドは比較的複雑な和音（Ｃｈｏｒｄ）が３７か所スタッフ１に含まれていたが、７８％の正確さでそれら和音を認識していたことは驚くべき結果であり、本実施例の顕著な効果を実証した。

比較例として、図７Ａの楽譜を既存のＯＭＲアプリであるＰｈｏｔｏＳｃｏｒｅ２０２０に入力してＯＭＲ処理を実行した結果を図８に示す。図８で示すように傾いた写真イメージからの正しい音符情報の取得は既存技術ではできなかった。さらに、ＭｕｓｅＳｃｏｒｅ３ではＰＤＦ画像のみ現状解析可能なので図７Ａの写真をＰＤＦに変換しＯＭＲ処理を行ったが「ｕｎｓｕｃｃｅｓｓｆｕｌ」と出力され全く解析はできなかった。

従って、画像イメージとして写真からのものであり且つ水平でない位置基準（五線譜）のものからでも高い正確さ（約８６％）で音符を認識できたことは本実施例のさらなる顕著な効果を実証する。

実施例９
ＭｕｓｉｃＸＭＬからの音の再生
本発明で作成されたＭｕｓｉｃＸＭＬから一般的なソフトウエアを使用して音が再生されるかどうかを確認した。

実施例８で確認したメヌエットとサラバンドのＸＭＬファイルをＭｕｓｅＳｃｏｒｅ３とＳｉｂｅｌｉｕｓＦｉｒｓｔで読み込んで音源再生機能を使用して音が再生されることを確認した。

また、ＭｕｓｅＳｃｏｒｅ３のＥｘｐｏｒｔ機能を使ってｍｐ３ファイル、ｗａｖファイル、ｍｉｄｉファイルとしても出力可能であることを確認した。そして、ｍｐ３ファイルとｗａｖファイルをコンピュータ上で再生し音が出力されることを確認した。またｍｉｄｉファイルはＬｏｇｉｃＰｒｏソフトウエアに読み込んで音が再生されることを確認した。

本発明の画像由来情報作成方法は、ＯＭＲ分野に有用である。また、本発明のディープラーニングモデルを用いる画像由来情報作成方法は、一般的には、例えば、自動運転、ロボット操作、医療診断、医療機器（内視鏡、カテーテル）操作、製品検査等の画像を使って操作・判断する分野に有用である。

Claims

楽譜画像から音楽情報を作成する方法であって、
楽譜画像を入力する工程と、
前記楽譜画像から少なくとも一つの小節を抽出する工程と、
前記少なくとも一つの小節の各小節内の音符を同定する工程と、
同定された前記音符から音楽情報を作成する工程を、含む方法。
前記少なくとも一つの小節がディープラーニングモデルによって抽出される、請求項１に記載の方法。
前記少なくとも一つの小節の各小節内の五線の位置を補正する工程をさらに含む、請求項１または２に記載の方法。
前記少なくとも一つの小節の各小節内の前記音符をディープラーニングモデルを使用して同定する、請求項１～３のいずれか一項に記載の方法。
前記少なくとも一つの小節の各小節内の前記音符を複数のディープラーニングモデルを使用して同定する、請求項１～４のいずれか一項に記載の方法。
前記複数のディープラーニングモデルが並列に処理される、請求項５に記載の方法。
前記音楽情報が、ＸＭＬファイル、ｍｕｓｉｃＸＭＬファイル、ＭＩＤＩファイル、ｍｐ３ファイル、ｗａｖファイル、および楽譜からなる群より選択される、請求項１～６のいずれか一項に記載の方法。
楽譜画像から音楽情報を作成するためのコンピューティングデバイスであって、
楽譜画像を入力する入力部と、
前記楽譜画像から少なくとも一つの小節を抽出する小節抽出部と、
前記少なくとも一つの小節の各小節内の五線の位置を補正する五線補正部と、
前記少なくとも一つの小節の各小節内の音符を複数のディープラーニングモデルを使用して同定する音符同定部と、
同定された前記音符から音楽情報を作成する音楽情報作成部と、を含み、
前記少なくとも一つの小節がディープラーニングモデルによって抽出され、
前記複数のディープラーニングモデルが並列に処理され、
前記音楽情報が、ＸＭＬファイル、ｍｕｓｉｃＸＭＬファイル、ＭＩＤＩファイル、ｍｐ３ファイル、ｗａｖファイル、および楽譜からなる群より選択される、コンピューティングデバイス。
楽譜画像から音楽情報を作成するためのプログラムであって、
楽譜画像を入力する入力部と、
前記楽譜画像から少なくとも一つの小節を抽出する小節抽出部と、
前記少なくとも一つの小節の各小節内の五線の位置を補正する五線補正部と、
前記少なくとも一つの小節の各小節内の音符を複数のディープラーニングモデルを使用して同定する音符同定部と、
同定された前記音符から音楽情報を作成する音楽情報作成部と、を含み、
前記少なくとも一つの小節がディープラーニングモデルによって抽出され、
前記複数のディープラーニングモデルが並列に処理され、
前記音楽情報が、ＸＭＬファイル、ｍｕｓｉｃＸＭＬファイル、ＭＩＤＩファイル、ｍｐ３ファイル、ｗａｖファイル、および楽譜からなる群より選択される、プログラム。