JP2017507346A

JP2017507346A - 光学的音楽認識のためのシステムおよび方法

Info

Publication number: JP2017507346A
Application number: JP2016543138A
Authority: JP
Inventors: ベジェルフォー、イヴゲニー; ザカイ、マイケル; レジェフ、ロン
Original assignee: トナラリミテッド
Priority date: 2013-12-31
Filing date: 2014-12-24
Publication date: 2017-03-16
Also published as: EP3090385A4; US20160300555A1; WO2015101908A1; US9478201B1; EP3090385A1

Abstract

音楽認識は、デジタルフォーマットでの音楽要素の楽譜を受け取るステップと、そのデジタルフォーマットを、楽譜をモデルとする複合音楽データオブジェクトに変換するステップと、複合音楽データオブジェクト内の調号を確率的に定義するステップと、複合音楽データオブジェクトのそれぞれの小節内の音楽要素を演奏する開始時間を、それぞれの小節内の他の音楽要素のリズム値を無視して計算するステップと、そして定義された調号と計算された開始時間を有する出力を生成するステップと、により実行される。【選択図】図１

Description

本発明は、一般的に音楽ドキュメントのコンピュータ処理に関し、詳細には楽譜の自動分析に関するものである。

本明細書で使用される頭字語および略語は表１に示される：

光学的音楽認識（ＯＭＲ）は、光学的標識認識の特別の形態であり、そこでは楽譜のドキュメント的特徴が認識されそして分析される。楽譜は本質的に簡潔に符号化された媒体であり、それにより作曲家は楽曲のコンセプト、および楽曲の演奏に対する指示を伝えようとする。

光学的音楽認識（ＯＭＲ）の１つの困難さは、現代のデータ通信プロトコルと対照的に、楽譜のしきたりが、一連の要素の間隔空けおよび区画分けのような事柄に関する強力な仕様を有しないという事実である。実際作曲家は意図せずにまたは意図的に楽譜のしきたりを破ることがある。このような変則の結果は熟練した演奏者により理解可能かつ補償されるが、それでもデジタル楽譜により可能となった機能、例えば楽器デジタルインタフェース（ＭＩＤＩ）再生、楽譜追従、および注釈を無くすこと、を光学的音楽認識（ＯＭＲ）アプリケーションが、高い信頼度で提供するための能力を低下させうる。

ＣｈｅｎＳｈｙｕｒｎｇ氏他に与えられた米国特許ＮＯ８，０６７，６８２、それは本明細書に参照して採り入れられるが、は、１つの技法を提案し、そこでは楽譜が検知され、そして縦線をサーチすることにより、その楽譜内の少なくとも１つの小節が獲得され、それにより、その楽譜内のそれぞれの小節の位置に基づいて認知の順序を計画する。次に画像獲得装置が、認知順序に従って小節の１つを獲得するように制御され、そして獲得された小節内の音楽情報が認識されそして直ちに出力される。方法は、すべてのそれぞれの小節が処理されるまで、認知順序に従って画像獲得装置を制御するステップを繰り返し実行し、獲得された小節を認識し、そして他の小節の音楽情報を出力する。

米国特許ＮＯ８，０６７，６８２

本発明の実施形態は、楽譜内の多義の調号を正確に識別し、楽譜内の変則、例えば個別の小節において宣言された拍子を守らないこと、をうまく処理することにより、光学的音楽認識（ＯＭＲ）の品質を向上させる。

本発明の実施形態によれば、音楽認識の方法であって、デジタルフォーマットでの音楽要素の楽譜を受け取るステップと、ここに前記音楽要素は小節、調号、および第一と第二の縦線を有し；デジタルフォーマットを、楽譜をモデルとする複合音楽データオブジェクトに変換するステップと、ここに複合音楽データオブジェクト内の音楽要素は座標を有し；複合音楽データオブジェクト内の調号を確率的に定義するステップと；複合音楽データオブジェクトのそれぞれの小節内の音楽要素を演奏する開始時間を、それぞれの小節内の他の音楽要素のリズム値を無視して計算するステップと；そして定義された調号と計算された開始時間を有する出力を生成するステップと；を有することを特徴とする音楽認識の方法、が提供される。

本発明の方法の１側面では、複合音楽データオブジェクト内の調号を定義するステップは、隠れマルコフモデルでの計算のために推定調号を提示することにより実行される。
さらに本発明の方法の別の１つの側面では、隠れマルコフモデルは：複合音楽データオブジェクトが１つのキーで始まる確率を行列要素とする初期確率行列と；そして複合音楽データオブジェクト内で１つのキーから別の１つのキーに遷移する確率を行列要素とする遷移確率行列と；を有する。

さらに本発明の別の側面では、開始時間を計算する前記ステップは：複合音楽データオブジェクトのそれぞれの小節内において、他の音楽要素のリズム値と矛盾する変則リズム要素を識別するステップと；そしてそれぞれの小節の座標に対する変則リズム要素の座標に従って、変則リズム要素の開始時間を計算するステップと；を有する。
さらに本発明の別の１つの側面では、楽譜を光学的にスキャンすることによりデジタルフォーマットを生成するステップをさらに有する。

本方法の別の側面では、デジタルフォーマットを、複合音楽データオブジェクトに変換するステップは、プロセッサに受け入れ可能な１つの新しいデジタルフォーマットで楽譜を生成するステップを有する。
本方法の追加の側面では、音楽要素は、それぞれのコード間隔を有する複数のコードを有し、そして開始時間を計算するステップはコード間隔の結合を計算するステップを有する。
本方法の別の側面は、コード間隔の複数の結合の結合を計算し、そしてその複数の結合が単一の小節内にあるか否かを決定するステップを含む。

本方法の１つの側面は、１つの小節におけるコード間隔の結合が、１つの小節の存続期間期待値の既定の割合より小さい、ことを決定するステップと；そしてその決定に応答して、１つの小節がピックアップ小節の候補であることを報告するステップと；をさらに有する。
本方法の追加の側面は、音楽演奏としてその出力を実行するステップを含む。
本発明の他の実施形態は上記の方法を実行するためのコンピュータソフトウェア製品を提供する。

本発明のより良い理解のため、以下の図を伴う事例としての実施形態を参照する。類似の要素は類似の参照番号を与えられる：
本発明の１実施形態による、音楽認識システムのブロック図である。本発明の１実施形態による、光学的音楽認識のための方法の流れ図の前半部分である。本発明の１実施形態による、光学的音楽認識のための方法の流れ図の後半部分である。本発明の１実施形態による、光学的音楽認識（ＯＭＲ）装置の出力をモデルとしたクラス図である。本発明の１実施形態による、音楽的データオブジェクトをモデルとしたクラス図である。本発明の１実施形態による、隠れマルコフモデルにより形成される出力行列を示す表である。図６は本発明の１実施形態による、記譜法の一例である。図７は本発明の１実施形態による、採用可能なリズム系統図である。図８は本発明の１実施形態により処理される欠陥記譜法を示す図である。図９は本発明の１実施形態により翻訳された複合記譜法を示す図である。図１０は本発明の１実施形態により翻訳された複合記譜法を示す図である。図１１は本発明の１実施形態による、コード存続期間の結合の決定を示す例示的小節である。

以下の記述において、本発明の種々の原理の十分な理解を提供するため、多くの特定の詳細が示される。しかしながら、当業者には、これら詳細のすべてが本発明を実施するために常に必要ではないことは明白である。本明細書の場合、従来技術のアルゴリズムおよび処理のための周知の回路、制御ロジック、およびコンピュータプログラム命令は、一般的概念を不必要に不明瞭にさせないため、詳細には示されない。

本発明の側面はソフトウェアプログラムコードにおいて実現されてもよく、ソフトウェアプログラムコードは一般的にコンピュータ読み取り可能媒体のような永久記憶装置内で維持される。クライアント／サーバー環境では、このようなソフトウェアプログラムコードはサーバーまたはクライアント上で記憶される。ソフトウェアプログラムコードはデータ処理システムと共に使用されるための、ディスケット、ハードドライブ、またはＣＤＲＯＭのような任意の種々の公知の非一過性接触可能媒体上で実現されてもよい。そのコードはそのようなメディア上で配布されてもよく、または、他のコンピュータシステムのユーザによる使用のため、１つのコンピュータシステムのメモリまたは記憶装置から、何らかのタイプのネットワークを介して、他のコンピュータシステムの記憶装置に配布されてもよい。

ここで図に戻って、本発明の１実施形態による、音楽認識システムのブロック図である図１を参照する。システム１０は一般的に汎用または埋め込み型コンピュータプロセッサを有し、それは以下で記載される機能を実行するための適切なソフトウェアでプログラムされている。これらの機能は単一のプロセッサまたは多重プロセッサ上で走るソフトウェアにおいて実行される。ソフトウェはコンピュータシステムで使用されるディスケット、ハードドライブ、またはＣＤＲＯＭのような任意の種々の公知の非一過性接触可能媒体上で実現されてもよい。コードはそのようなメディア上で配布されてもよく、または、他の１つのコンピュータシステムのメモリまたは記憶装置から、ネットワークを介して、そのシステム１０に配布されてもよい。あるいはさらに、システム１０はデジタル信号プロセッサまたは配線論理を有してもよい。

図１の事例では、処理ユニット１２は中央演算処理装置（ＣＰＵ）１４、メモリ１６、および２次記憶装置１８を有し、２次記憶装置はハードディスクドライブ（ＨＤＤ）でありうる。処理ユニット１２は公知の画像フォーマットに従った入力データを１つ以上の光学入力装置から受け取り、その光学入力装置の事例は図１にカメラ２０、光学スキャナ２２およびベクター画像モジュール２４として示される。それら光学入力装置の画像フォーマットは同じである必要は無い。

処理ユニット１２は楽譜の品質を向上させるため、以下で詳述するような態様でデータを処理し、そして結果を入力／出力モジュール２６を介して出力する。これはデジタル楽譜２８、例えば音楽ＸＭＬファイル、または楽器デジタルインタフェース（ＭＩＤＩ）ファイル３０であってよい。

次に図２Ａ、２Ｂ、それらはまとめて図２と呼ばれるが、を参照する。それは本発明の１実施形態による、光学的音楽認識のための方法の流れ図である。図２では説明の明確化のため、処理のステップは特定の直線的順序で示されている。しかし、それらステップの多くは並列に、同期せずに、または異なる順番で実行されうることは明白である。当業者はまた、１つの処理が選択肢として、幾つかの互いに関係する状態またはイベント、例えば状態図で表現されうることを理解しよう。さらに、表示された処理ステップは、処理を実行するのに必ずしも全てが必要ではない。

最初のステップ３２において楽譜の画像が光学的装置、例えばカメラ２０またはスキャナ２２（図１）により獲得され、そして既知の画像フォーマットの画像データとしてプロセッサに出力される。あるいは事前に存在する画像ファイルがプロセッサに提示されてもよい。

次にステップ３４において、ステップ３２で出力されたデータが一連の画像にフォーマット化され、１つの画像が楽譜の１頁から構成される。ステップ３４の結果は一連の未処理デジタル画像３６である。

次にステップ３８において、未処理画像３６が画像処理を受け、それはノイズのできるだけ少ないアライメントされたデジタル画像を得るため、種々の組み合わせの、一部切り取り（クロッピング）、傾き調整（デスキュー）、アンワーピング、鮮明化、および画像処理技術において公知の他の輪郭補償を含んでもよい。

選択肢として、ステップ３８で生成されたデジタル画像はグレースケール画像４０に変換されてもよい。これは従来技術の損失のある、または損失の無い技術を用いて、種々の方法で達成可能である。ステップ４２で、そのグレースケール画像は閲覧に適した従来技術の画像フォーマット、例えばＰＤＦファイル４２で出力されてもよい。

ステップ３８はまた一連の未圧縮モノクロデジタル画像４４の生成を含んでもよく、そのモノクロ画像はステップ４６での更なるデジタル処理に使用される。ステップ４６はモノクロ画像４４を、一般的には楽譜の１ページずつ、光学的音楽認識（ＯＭＲ）装置に提出することを含む。多くの光学的音楽認識（ＯＭＲ）装置が、公知のフォーマットのデジタル出力流を出力する限りにおいて適合する。

次に、判断ステップ４８において、未処理の画像またはページが存在するかが決定される。決定が肯定的であると、制御はステップ４６に戻る。否定的な場合、制御はステップ５０に進む。

ステップ５０において、ＯＭＲによるデジタル画像フォーマットの出力は、元の音符をモデルとした複合音楽データオブジェクト５２に変換される。実際の変換はステップ４６で採用されたＯＭＲ装置の特定のフォーマットに特殊化される。

ここで本発明の１実施形態による、ＯＭＲ装置の出力をモデルとしたクラス図である、図３を参照する。

ここで本発明の１実施形態による、音楽的データオブジェクト５２をモデルとしたクラス図である図４を参照する。音楽的データオブジェクト５２の属性は楽譜全体に渡たる音楽的要素、例えば小節、音符および臨時音記号を表わす。これらの要素は、識別され、そして位置座標および他の特性を図４のクラス図に示されるように割り当てられる。図３と図４に示されるクラスはステップ５０を実行するために使用される。

従来技術のＯＭＲ装置は多くの場合楽譜の特定の特徴を不完全に表現する：（１）調号の識別；および（２）楽譜内の変則、例えば個々の小節において表示された拍子を守っていないこと。これらの問題は以下の章で取り扱われる。

（調号の識別）
図２に戻って音楽データオブジェクト５２状の一連の処理はステップ５４で始まる。ステップ５４は、座標システム内の推定調号を含む対象領域を識別することを有する。

西洋音楽の記譜法では、７つの音名があるが（Ａ−Ｇ、ド−シ）、しかし１２の音がある。全ての「中間音」、ピアノ鍵盤で黒い鍵で出現する音、はシャープ（黒い鍵を白い鍵の右側に示すため）またはフラット（黒い鍵を白い鍵の左側に示すため）を音符の符頭の次に追加することにより示される。殆どの楽曲は調（長調／短調）で記載され、そこでは一定のシャープまたはフラットが規則的に出現する。作曲家はこのような場合、それぞれの臨時音記号（シャープ、フラットおよび本位記号に対する集合的語彙）を別々に示すより、むしと調号を使用する。繰り返しの臨時音記号は、符頭に隣接することなく、それぞれの譜表の初めに、音部記号のすぐ後に、一緒に示されてもよい。

光学的音楽認識（ＯＭＲ）の実行には、調号の適切な識別に関していくつかの困難さがある。第一にシャープと本位記号は非常に似通っている。低品質および／または低解像度のスキャンを使用する場合、ＯＭＲの実行はしばしばそれら２つを混同する。第二に、調号の次の最初の音符が、調号の次に臨時音記号を有する場合、その臨時音記号は誤って調号の一部と認識されるかもしれない。これらの困難さは以下の本発明の実施形態により克服される。

上記の識別ステップにより得られる推定調号情報は、その調号をより正確に定義するため、隠れマルコフモデル（ＨＭＭ）に掛けられる。隠れマルコフモデル（ＨＭＭ）は統計的モデルであり、その中でモデル化されるシステム−この場合、楽曲の演奏−がマルコフプロセスであると見做され、そのマルコフプロセスは、直接観察することの出来ない（「隠れ」）状態を持ち、しかし観察可能な出力を与える。そのシステムにより横断される一連の状態、例えば楽譜内での１つのキーから他のキーへの遷移、を推測するため、観察された出力に対し確率的な分析が適用される。隠れマルコフモデル（ＨＭＭ）は、主にシャープおよびフラットの計数を調号を定義するものとして考える。

その楽譜内のそれぞれの調号に対する最初の確率が隠れマルコフモデル（ＨＭＭ）に提出される。ＨＭＭはこれらの確率にたいして感受性が高くないため、それらの確率が比較的均一に分布されている限り、ＨＭＭはこれら確率が理論的に正確である場合に、そうでない場合に比べてより効率的に働く。１つの楽譜内の調号に対する最初の可能性は、例えば、現在の楽譜の作曲家の作品の統計的調査から、現在の楽譜と同じカテゴリーの他の作曲家による作曲から、またはユーザにより以前分析された楽譜の蓄積された経験から、得られる。

本発明のアプローチは楽譜をモデルとするために、その楽譜内の音楽要素の位置、詳細には調号を含むと考えられる対象領域内の位置、に対応する座標を有する２次元状態空間を使用する。計算を実行する電子プロセッサは、以下に詳述する３つの考慮点に基づいて２次元状態空間に亘って確率分布を計算する。プロセッサは、調号を有する領域における臨時音記号の最も有りそうな数を決定するのに、この確率分布を使用する。本明細書では、処理ユニット１２（図１）は、楽譜内の対象領域を実際の調号に適合させるため、隠れマルコフモデル（ＨＭＭ）において周知の前方―後方アルゴリズムを実行する。観察可能な状態は、対象領域における観察可能な数の臨時音記号に対応する。隠れた状態は実際の数の臨時音記号に対応する。隠れマルコフモデル（ＨＭＭ）は臨時音記号の観察された数が与えられた場合の、実際の数を報告する。

本発明の実施形態は、画像分析に音楽的論理を適用することにより、光学的音楽認識（ＯＭＲ）分析を再翻訳する。以下の点が考慮される：
１．歌または楽章の最初の調号：調号の異なる確率が考慮され、そして非常に巧妙に統計的に関連付けされる−調号内の臨時音記号が少ない程、その調号はより正しい。この前提は作曲における歴史的傾向を反映している。さらに、最初の譜表の調号の次の調号が調べられる、何故ならば調号の変更は頻発しないからである。

２．画像分析はしばしば異なるシステムに対し異なる調号を回答する。（１つのシステムは同時に演奏されることを想定される譜表の集合体である。）ここで再度、統計的前提が役に立つ−調号は不変の確率が変更の確率に比べてずっと高い。繰り返しになるが、周辺のシステムの調号が調査される。

３．同一のシステム内の異なる譜表が異なる調号を有することは非常に稀である。この法則に対する例外は、自然なことだが、譜表の一部がサキソフォンまたはクラリネットなどの転調楽器に属する場合に起こる−このような楽器は残りの楽器とは常に異なる調号を有する−しかし再び、転調楽器の調号と残りの楽器の調号の関係は常に一定である。これら３つの前提が隠れマルコフモデル（ＨＭＭ）を介して計算され、そして画像分析の結果がそれに従って修正される。Ｓｏｕｒｃｅｆｏｒｇｅ社から入手可能なＧＨＭＭスイートは隠れマルコフモデル（ＨＭＭ）に適している。ＨＭＭは、楽曲の間に調号が変化する可能性を認識しながら、その楽譜のそれぞれの調号内の臨時音記号の最も可能性の高い数とタイプを報告する。ＨＭＭにより提供された情報は、統計的分析に基づいて、検知された変化が事実であるのか否かの理解を向上させる。以前に決定された推定調号が間違いであることが分かった場合、それらは訂正される。

適切な隠れマルコフモデル（ＨＭＭ）の実行の１つがリスト１に示される。

インデックスタプルを単一の行列座標に変換するために、我々はそれをベースＮ（ｂａｓｅＮ）に変換する。
以下は１つのシステムに１つの譜表を有する楽曲の事例である。
以下の臨時音記号の配列を画像処理より獲得したとする、ここで数字はそれぞれの譜表で見つかったシャープ（♯）印の数を表す：
１，０，１，１，３，１，１，１，４，４，４，４，５，４，４
この配列をＨＭＭに掛けることにより以下の修正された調号の配列を得る：
１，１，１，１，１，１，１，１，４，４，４，４，４，４，４
この結果は、大胆なケースでの数値（２，５，１３番目の位置）が画像処理の誤りであるとＨＭＭが決定したことを意味する。

ここで上記の配列に対する隠れマルコフモデル（ＨＭＭ）の数値入り出力行列を示す表である図５を参照する。
（リズムの変則）
以下の議論が、リズムの変則を取り扱う本発明の原理の理解を進めるために提供される。殆どの西洋のクラッシックおよびポピュラー音楽に関係する西洋式記譜法ではリズムのカウントは殆どの場合一定である。歌および楽曲は小節から構成される。これら小節は固定した数の拍を有し、それはその歌または楽章を通じて一定である傾向がある。平均的な聴衆は直感的に小節および拍を識別する、何故ならば、それぞれの小節の最初の拍が他の拍よりもリズム的に重要である、即ちその小節の「強拍」として理解される。このように音楽作品の定義的特徴の１つはその拍子―１小節あたりの拍の長さと数である。

本発明の１実施形態により処理される、記譜法の一例である図６を参照する。小節８６は４分の４拍子における４つの四分音符の小節であり、この拍子は最もポピュラーな拍子であり、「普通拍子」として知られる。拍子表示８８はそれぞれの歌または楽章の初め、および拍子が変わる場所にのみ出現する。

本発明の１実施形態により採用可能なリズム系統９０を示す図である図７を参照する。西洋式記譜法におけるそれぞれの音符のリズム値は、いくつかの画像的要素により決定される：
１．音符の符頭：符頭は長方形（２全音符、別名ダブル全音符）または円形（全てのそれより短い音符）でありうる。中空（２全音符、全音符、二分音符）または中が詰まった形態（それより短い全ての音符）でありうる。
２．符幹：符幹は存在しないか（２全音符、全音符）または存在するか（それより短い全ての音符）である。
３．ビーム／符尾：これらは相互に交換可能である。ビームは四分音符より短い音符のグループ化のために使用される。符尾は同じ長さの音符で、単一のグループ化されない音符に使用される。ビーム／符尾の数はリズム値の短さを示す：１本は八分音符用、２本は十六分音符用、３本は三十二分音符用、等である。

リズム系統図９０は幾つかの一般的リズムを示す。ピラミッドの各レベルの音符は１つ上のレベルの音符より２倍短い。２全音符は全音符の２倍である。この系統図は実際に演奏される音符の形状を示す。他の音符（不図示）の対応するピラミッドが存在し、光学的音楽認識（ＯＭＲ）の実行は演奏される音符のピラミッドに対するものと同様にそれを取り扱う。

本発明の１実施形態により克服される、欠陥記譜法を翻訳する場合の１つの困難さを示す、図８を参照する。従来技術の光学的音楽認識（ＯＭＲ）の実行は、所与の音符のリズム値を確認するため、音符の符頭、符幹、ビームおよび符尾を検知するよう努める。誤ったスキャニングまたは印刷の汚れが完全な誤検知をもたらす。例えば音符９２の汚れは誤識別につながる。この事例では、元々の四分音符９４が符頭内の白色領域９６を有して印刷された。このことはそれが二分音符９８として検知される結果となる。その結果、小節全体の計数が捨て去られる、何故ならば、殆どの光学的音楽認識（ＯＭＲ）の実行によれば、その小節が追加の四分音符を有するように見えるからである。言うまでもなく、音符９２のすぐ後の音符はその実際のタイミングより四分音符遅くスタートすると推定される。以下で詳述される画像的配置は、汚れた音符９２の次の音符のスタート時間を、小節内のその画像的位置に従って決定する。言い換えれば、音符９２のすぐ次の音符は決定された時間に、音符９２の翻訳に関係なく始まる。このような画像的配置の使用は多声および不完全な光学的スキャンおよび楽譜再生に起因する複雑さを平均化して無くす。

本発明の１実施形態により克服される、欠陥記譜法を翻訳する場合の他の１つの困難さを示す、図９を参照する。作曲家は時に、自由または表現を優先して数学的なリズム記譜法の約束事を無視する。１９世紀のポーランド系フランス人作曲家フレデリック・ショパンはこの種の多くの事例を与えている。図９はショパンの夜想曲、作品９−１、１５小節、左手部分から選択された１つの楽譜の１つの楽節１００である。ショパンが２声を１つの手の楽譜に書いたことが分かる。左から２番目の音符として書かれた二分音符１０２は演奏するピアニストに２つの事を伝えるためにそこに存在する：
１．この音符は八分音符より長く維持される。
２．この音符は強調されるべきである。

しかし、二分音符１０２のリズム値は意味をなさない。それは何処にも由来せず、そしてそれは楽節１００の残りの部分以前に八分音符を終わらせる。当該リズム値を小節内の音符のタイミングと調和させようとする、殆どの光学的音楽認識（ＯＭＲ）の実行は、これが誤りであると報告するであろう。実際ＷｉｌｌａｒｄＡ．Ｐａｌｍｅｒにより編集されたこの楽曲のアルフレッド版では、この小節に次のコメントが付されている：「ショパンは意図的に二分音符を八分音符グループの２番目の上に置いた。この記譜法は数学的には正確ではないが、意味は明確であり、そして記譜法における不必要な複雑さを回避している。」

本発明の１実施形態により克服される、欠陥記譜法を翻訳する場合のもう１つの困難さを示す、図１０を参照する。図１０はショパンの夜想曲、作品２７−１、５１小節、左手部分から選択された事例的な記譜法である。図１０の中に我々は、ショパンが自由で、即興曲風な右手用の楽節１０４を小節の終わりの部分に書いたことを見てとれる。ピアニストはこれらの音符を、左手部分１０６の画像的対応物に大雑把に対抗して演奏する。しかし、ショパンがこの楽節のために選んだ記譜法は八分音符の記譜法であり、そして殆どの光学的音楽認識（ＯＭＲ）の実行は八分音符の記譜法として理解するが、そのＯＭＲはそれほど多くの八分音符を１つの小節に適合させる方法を知らない。さらに複雑なことに、リズム的に言って、即興曲的な楽節１０４をカウント始めることさえ無しに、この小節の右手部分１０８は完全に満杯である。作曲家は時々、いくつの音符が所与のリズム値の空間に適合すべきかを示すため、このような楽節に数字を加える。しかし、編集版はまた、運指記号のような数字の他の使用を含むので、従来技術の光学的音楽認識（ＯＭＲ）の実行はこのような数字の異なる使用の間を区別できない。

図１０は１９世紀初めより存在する音楽印刷の基礎的典型を示す：各音符の始まりは、画像的に、その音符が演奏されるタイミングに相当する位置に配置される。このことは、小節の正確に中間点で演奏されることが想定されている、右手パート１０８の第２の音符は画像的にも左の縦線１１０と右の縦線１１２の間の距離の約半分の位置に配置される、ことを意味する。同様に、左手は、右手の第１の音符に対して６つの音符を演奏することが想定されており、そして従ってこのことも画像的に示される。音符のリズムのカウントと画像的配置との間のこの関係の伝統が、ショパンが使用したような自由を出現させた。演奏家が彼らの演奏のための正しいタイミングを決定する場合、彼らはその画像的レイアウトを使用するであろうと、ショパンは推定し、そしてそれゆえショパンは数学的に正しくないリズム的記譜法を使用することを自分自身で認めた。このように画像的配置の使用は演奏家がリズムにアプローチする方法の必須の部分になった。簡便のため、それぞれの小節における他の音楽要素のリズム値と矛盾する二分音符１０２および楽節１０４は、本明細書では「変則的リズム要素」と呼ばれる。

既存のＯＭＲ実行では、それぞれの１つ前の音符の値をカウントしようとし、そして、その値が使い果たされた時に、次に演奏される音符を指名することにより、それぞれの音符の始まりの正しいタイミングを決定する。従って、上記の制限および誤りが、必然的にカウントの根本的破壊につながるであろうことは理解できる。それにもかかわらず本願発明者らは、リズム分割に対する画像的順守が、それぞれの音符の始まりの正しいタイミングを決定するのに有用であることを発見した：音符の画像的配置、即ち２つの縦線の間の相対的位置を測定することにより、音符の始まりの正しいタイミングのための非常に近い近似値を得ることができる。本発明の実施形態はこの方法論を利用し、そしてその結果は従来のＯＭＲ法に比べてはるかに正確である。さらに、本発明の革新的ＯＭＲ処理は、演奏家がリズムの記譜法を取り扱う方法を真似しているため、前述した困難さは全て解決される。

（開始時間の割り当て）
上述のように、小節において宣言されたリズム値と一致しない音符的表現を受け入れることが出来ず、そしてこのような場合に誤りを生成することは、従来のＯＭＲ実行の共通した弱点である。本発明の１実施形態では、ありうるリズム的複雑性を取り扱うため、相対的視覚位置アルゴリズムが、その音の始まりの正しいタイミングを確立するために、２つの縦線の間の相対的位置を利用する。言い換えれば、音符またはコードは、その小節の音楽的時間間隔に対する、音楽的時間（例えばビート）の１つの点において始まる、何故ならば、音符の画像的位置はその小節の画像的長さに対する位置であるからである。

そのアルゴリズムは以下の等式で表わすことが出来る：

ここでｔ_{ｓｔａｒｔ}はおよびｔ_ｅｎｄはそれぞれ小節の最初と最後の音楽的時間であり；ｔ_ｎｏｔｅは音符またはコードが始まる音楽的時間であり；ｐｘ_{ｓｔａｒｔ}およびｐｘ_ｅｎｄは音楽データオブジェクト５２から得られる画像的座標、例えばピクセルであり；値ｐｘ_{ｓｔａｒｔ}は小節内の最初に演奏可能な音楽オブジェクト（音符または休止符）に設定され；ｐｘ_ｅｎｄは小節の最終縦線に設定され；ｐｘ_ｎｏｔｅは音符またはコードの画像的座標を意味する。言い換えれば、変則リズム要素の開始時間は小節内の他の音楽要素のリズム値を無視することにより割り当てられる。

図２に戻り、ステップ５６において等式（１）が適用され、１つの音符としてのそれぞれのコードの開始位置を取り扱う。

（存続期間の結合）
次にステップ５８において、それぞれの小節に対しコード存続期間の結合が決定される。
次に本発明の１実施形態による、コード存続期間の結合の決定を示す例示的小節である、図１１を参照する。間隔６０はコード６２，６４，６６の間隔の結合を意味する。それぞれのコードの間隔は破線６８，７０，７２で示される。それぞれのコード６２，６４，６６の空間的間隔は１つ以上の他のコード６２，６４，６６と重なる。結合測定の事例的適用を以下に示す：

（２線小節の識別）
小節ｍ１とｍ２、およびそれぞれの存続期間（ｄｕｒ）および結合（ｕｎ）を前提として、リスト２の疑似コードはｍ１とｍ２が同一の小節であるか否かを決定する方法を示す：

リスト２において、関数ｕｎ（）は１つの小節内の全てのコード結合の合計を報告する。

（ピックアップ小節の識別）
上記で定義された１つの小節の結合が小さすぎる場合（一般的にその小節の存続期間期待値の０．８未満）、その小節はピックアップ小節の候補として分類される。

（品質推定）
もし１つの小節の結合がその小節の既知の存続期間と大きく異なる場合（一般的にその小節の期待値存続期間の０．８未満または３倍より大きい）、それは悪い品質の小節として標識付けされる。

図２を再度参照して、次に判断ステップ７４において、現在の楽譜内にボルタ符号が存在するか否かが決定される。
もし判断ステップ７４の決定が肯定的な場合、制御はステップ７６に進み、そこでボルタ符号は、全てのＯＭＲ装置がボルタ符号を報告するとは限らないので、必要な場合、追加の画像処理を使用して、位置決めされる。ボルタ符号の識別はステップ７８における演奏順序の精度を高める。

ステップ７６の終了後、または判断ステップ７４の決定が否定的な場合、制御はステップ７８に進み、そこでは楽曲の演奏順序が決定される。このステップの実行は本出願の範囲の外にあり、したがってこれ以上議論されない。

次にステップ８０において、デジタル楽譜からなるデータファイルが音楽データオブジェクト５２から生成される。１つの選択肢として、ＭＩＤＩファイルがステップ８２において生成され、ＭＩＤＩファイル８４が得られる。有用なデータファイルの他の事例としてはレイアウト情報を持つＸＭＬファイルおよびＳｑｌｉｔｅ（登録商標）データベースへの追加がある。ステップ８０では従来技術で既知の他の多くのフォーマットのデータファイルが生成されてもよい。さらにあるいは、生成された出力は、既知の電子音楽認識手法を使用して演奏されてもよい。

本発明は上記で示され記述された特定のものに制限されないことは当業者には理解されよう。むしろ本発明の範囲は上記で記載された種々の特徴の組み合わせおよびサブ組み合わせ、および上記の記載を読んだ当業者が想起するそれらの変化形および修飾形を含む。

Claims

音楽認識の方法であって、
デジタルフォーマットでの音楽要素の楽譜を受け取るステップと、
ここに前記音楽要素は小節、調号、および第一と第二の縦線を有し；
前記デジタルフォーマットを、前記楽譜をモデルとする複合音楽データオブジェクトに変換するステップと、
ここに前記複合音楽データオブジェクト内の前記音楽要素は座標を有し；
前記複合音楽データオブジェクト内の前記調号を確率的に定義するステップと；
前記複合音楽データオブジェクトのそれぞれの小節内の音楽要素を演奏する開始時間を、前記それぞれの小節内の他の音楽要素のリズム値を無視して計算するステップと；そして
前記定義された調号と前記計算された開始時間を有する出力を生成するステップと；
を有することを特徴とする音楽認識の方法。
前記複合音楽データオブジェクト内の前記調号を定義する前記ステップは、隠れマルコフモデルでの計算のために推定調号を提示することにより実行される、ことを特徴とする請求項１に記載の方法。
前記隠れマルコフモデルは：
前記複合音楽データオブジェクトが１つのキーで始まる確率を行列要素とする初期確率行列と；そして
前記複合音楽データオブジェクト内で１つのキーから別の１つのキーに遷移する確率を行列要素とする遷移確率行列と；
を有する、ことを特徴とする請求項１または２に記載の方法。
前記開始時間を計算する前記ステップは：
前記複合音楽データオブジェクトのそれぞれの前記小節内において、他の音楽要素の前記リズム値と矛盾する変則リズム要素を識別するステップと；そして
前記それぞれの小節の前記座標に対する前記変則リズム要素の前記座標に従って、前記変則リズム要素の前記開始時間を計算するステップと；
を有することを特徴とする請求項１−３のいずれかに記載の方法。
前記音楽要素の１つの開始時間を計算するステップは、以下の１つの等式を使用して実行されることを特徴とする請求項１−４のいずれかに記載の方法：

ここでｔ_{ｓｔａｒｔ}はおよびｔ_ｅｎｄはそれぞれ、現在の小節の最初と最後の音楽的時間であり；ｔ_ｎｏｔｅは１つの音楽要素が始まる音楽的時間であり；ｐｘ_{ｓｔａｒｔ}およびｐｘ_ｅｎｄはそれぞれ、前記１つの音楽要素の始まりと終わりの座標であり；ｐｘ_{ｓｔａｒｔ}は前記現在の小節内の最初に演奏可能な音楽オブジェクトの座標を示す。
前記楽譜を光学的にスキャンすることにより前記デジタルフォーマットを生成するステップをさらに有する、ことを特徴とする請求項１−５のいずれかに記載の方法。
前記デジタルフォーマットを、前記複合音楽データオブジェクトに変換する前記ステップは、プロセッサに受け入れ可能な１つの新しいデジタルフォーマットで前記楽譜を生成するステップを有する、ことを特徴とする請求項１−６のいずれかに記載の方法。
前記音楽要素は、それぞれのコード間隔を有する複数のコードを有し、そして開始時間を計算する前記ステップは前記コード間隔の結合を計算するステップを有する、ことを特徴とする請求項１−７のいずれかに記載の方法。
コード間隔の複数の結合の１つの結合を計算し、そして前記複数の結合が単一の小節内にあるか否かを決定するステップをさらに有する、ことを特徴とする請求項１−８のいずれかに記載の方法。
１つの前記小節における前記コード間隔の前記結合が、前記１つの小節の存続期間期待値の既定の割合より小さい、ことを決定するステップと；そして
前記決定に応答して、前記１つの小節がピックアップ小節の候補であることを報告するステップと；
をさらに有することを特徴とする、請求項１−９のいずれかに記載の方法。
音楽演奏として前記出力を実行するステップをさらに有する、ことを特徴とする請求項１−１０のいずれかに記載の方法。
音楽認識のためのコンピュータソフトウェア製品であって、コンピュータプログラム命令が保存される非一過性のコンピュータ読み取り可能記憶媒体を有し、前記命令はコンピュータにより実行された場合、コンピュータに対し以下のステップを実行するようにさせる、ことを特徴とするコンピュータソフトウェア製品：
デジタルフォーマットでの音楽要素の楽譜を受け取るステップと、
ここに前記音楽要素は小節、調号、および第一と第二の縦線を有し；
前記デジタルフォーマットを、前記楽譜をモデルとする複合音楽データオブジェクトに変換するステップと、
ここに前記複合音楽データオブジェクト内の前記音楽要素は座標を有し；
前記複合音楽データオブジェクト内の前記調号を確率的に定義するステップと；
前記複合音楽データオブジェクトのそれぞれの小節内の音楽要素を演奏する開始時間を、前記それぞれの小節内の他の音楽要素のリズム値を無視して計算するステップと；そして
前記定義された調号と前記計算された開始時間を有する出力を生成するステップ。
前記複合音楽データオブジェクト内の前記調号を定義する前記ステップは、隠れマルコフモデルでの計算のために推定調号を提示することにより実行され、
前記隠れマルコフモデルは：
前記複合音楽データオブジェクトが１つのキーで始まる確率を行列要素とする初期確率行列と；そして
前記複合音楽データオブジェクト内で１つのキーから別の１つのキーに遷移する確率を行列要素とする遷移確率行列と；
を有する、ことを特徴とする請求項１２に記載のコンピュータソフトウェア製品。
前記開始時間を計算する前記ステップは：
前記複合音楽データオブジェクトのそれぞれの前記小節内において、他の音楽要素の前記リズム値と矛盾する変則リズム要素を識別するステップと；そして
それぞれの前記小節の前記座標に対する前記変則リズム要素の前記座標に従って、前記変則リズム要素の開始時間を計算するステップと；
を有することを特徴とする請求項１２または１３に記載のコンピュータソフトウェア製品。
前記音楽要素の１つの開始時間を計算するステップは、以下の１つの等式を使用して実行されることを特徴とする請求項１２−１４のいずれかに記載のコンピュータソフトウェア製品：

ここでｔ_{ｓｔａｒｔ}はおよびｔ_ｅｎｄはそれぞれ、現在の小節の最初と最後の音楽的時間であり；ｔ_ｎｏｔｅは１つの音楽要素が始まる音楽的時間であり；ｐｘ_{ｓｔａｒｔ}およびｐｘ_ｅｎｄはそれぞれ、前記１つの音楽要素の始まりと終わりの座標であり；ｐｘ_{ｓｔａｒｔ}は前記現在の小節内の最初に演奏可能な音楽オブジェクトの座標を示す。
前記開始時間を計算する前記ステップは：
前記複合音楽データオブジェクトのそれぞれの前記小節内において、他の音楽要素の前記リズム値と矛盾する変則リズム要素を識別するステップと；そして
それぞれの前記小節の前記座標に対する前記変則リズム要素の前記座標に従って、前記変則リズム要素の開始時間を計算するステップと；を有し、
そして前記複合音楽データオブジェクト内の前記調号を定義する前記ステップは、隠れマルコフモデルでの計算のために推定調号を提示することにより実行される、
ことを特徴とする請求項１２−１５のいずれかに記載のコンピュータソフトウェア製品。
前記音楽要素は、それぞれのコード間隔を有する複数のコードを有し、そして開始時間を計算する前記ステップは前記コード間隔の１つの結合を計算するステップを有する、ことを特徴とする請求項１２−１６のいずれかに記載のコンピュータソフトウェア製品。
コード間隔の複数の結合の１つの結合を計算し、そして前記複数の結合が単一の小節内にあるか否かを決定するステップをさらに有する、ことを特徴とする請求項１２−１７のいずれかに記載のコンピュータソフトウェア製品。
１つの前記小節における前記コード間隔の前記結合が、前記１つの小節の存続期間期待値の既定の割合より小さい、ことを決定するステップと；そして
前記決定に応答して、前記１つの小節がピックアップ小節の候補であることを報告するステップと；
をさらに有することを特徴とする、請求項１２−１８のいずれかに記載のコンピュータソフトウェア製品。