JP2017507346A - 光学的音楽認識のためのシステムおよび方法 - Google Patents
光学的音楽認識のためのシステムおよび方法 Download PDFInfo
- Publication number
- JP2017507346A JP2017507346A JP2016543138A JP2016543138A JP2017507346A JP 2017507346 A JP2017507346 A JP 2017507346A JP 2016543138 A JP2016543138 A JP 2016543138A JP 2016543138 A JP2016543138 A JP 2016543138A JP 2017507346 A JP2017507346 A JP 2017507346A
- Authority
- JP
- Japan
- Prior art keywords
- music
- data object
- music data
- calculating
- musical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 46
- 230000003287 optical effect Effects 0.000 title description 24
- 230000033764 rhythmic process Effects 0.000 claims abstract description 43
- 239000002131 composite material Substances 0.000 claims abstract description 31
- 239000011159 matrix material Substances 0.000 claims description 15
- 230000001788 irregular Effects 0.000 claims description 12
- 230000007704 transition Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 3
- 150000001875 compounds Chemical class 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000010191 image analysis Methods 0.000 description 3
- 230000001020 rhythmical effect Effects 0.000 description 3
- SEQDDYPDSLOBDC-UHFFFAOYSA-N Temazepam Chemical compound N=1C(O)C(=O)N(C)C2=CC=C(Cl)C=C2C=1C1=CC=CC=C1 SEQDDYPDSLOBDC-UHFFFAOYSA-N 0.000 description 2
- 230000002547 anomalous effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 239000000543 intermediate Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/30—Character recognition based on the type of data
- G06V30/304—Music notations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19187—Graphical models, e.g. Bayesian networks or Markov models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10G—REPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
- G10G1/00—Means for the representation of music
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0033—Recording/reproducing or transmission of music for electrophonic musical instruments
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/18—Selecting circuits
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/051—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or detection of onsets of musical sounds or notes, i.e. note attack timings
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/071—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for rhythm pattern analysis or rhythm style recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/081—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for automatic key or tonality recognition, e.g. using musical rules or a knowledge base
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2220/00—Input/output interfacing specifically adapted for electrophonic musical tools or instruments
- G10H2220/155—User input interfaces for electrophonic musical instruments
- G10H2220/441—Image sensing, i.e. capturing images or optical patterns for musical purposes or musical control purposes
- G10H2220/455—Camera input, e.g. analyzing pictures from a video camera and using the analysis results as control data
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/005—Algorithms for electrophonic musical instruments or musical processing, e.g. for automatic composition or resource allocation
- G10H2250/015—Markov chains, e.g. hidden Markov models [HMM], for musical processing, e.g. musical analysis or musical composition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Character Discrimination (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
音楽認識は、デジタルフォーマットでの音楽要素の楽譜を受け取るステップと、そのデジタルフォーマットを、楽譜をモデルとする複合音楽データオブジェクトに変換するステップと、複合音楽データオブジェクト内の調号を確率的に定義するステップと、複合音楽データオブジェクトのそれぞれの小節内の音楽要素を演奏する開始時間を、それぞれの小節内の他の音楽要素のリズム値を無視して計算するステップと、そして定義された調号と計算された開始時間を有する出力を生成するステップと、により実行される。【選択図】図1
Description
本発明は、一般的に音楽ドキュメントのコンピュータ処理に関し、詳細には楽譜の自動分析に関するものである。
光学的音楽認識(OMR)は、光学的標識認識の特別の形態であり、そこでは楽譜のドキュメント的特徴が認識されそして分析される。楽譜は本質的に簡潔に符号化された媒体であり、それにより作曲家は楽曲のコンセプト、および楽曲の演奏に対する指示を伝えようとする。
光学的音楽認識(OMR)の1つの困難さは、現代のデータ通信プロトコルと対照的に、楽譜のしきたりが、一連の要素の間隔空けおよび区画分けのような事柄に関する強力な仕様を有しないという事実である。実際作曲家は意図せずにまたは意図的に楽譜のしきたりを破ることがある。このような変則の結果は熟練した演奏者により理解可能かつ補償されるが、それでもデジタル楽譜により可能となった機能、例えば楽器デジタルインタフェース(MIDI)再生、楽譜追従、および注釈を無くすこと、を光学的音楽認識(OMR)アプリケーションが、高い信頼度で提供するための能力を低下させうる。
Chen Shyurng氏他に与えられた米国特許NO8,067,682、それは本明細書に参照して採り入れられるが、は、1つの技法を提案し、そこでは楽譜が検知され、そして縦線をサーチすることにより、その楽譜内の少なくとも1つの小節が獲得され、それにより、その楽譜内のそれぞれの小節の位置に基づいて認知の順序を計画する。次に画像獲得装置が、認知順序に従って小節の1つを獲得するように制御され、そして獲得された小節内の音楽情報が認識されそして直ちに出力される。方法は、すべてのそれぞれの小節が処理されるまで、認知順序に従って画像獲得装置を制御するステップを繰り返し実行し、獲得された小節を認識し、そして他の小節の音楽情報を出力する。
本発明の実施形態は、楽譜内の多義の調号を正確に識別し、楽譜内の変則、例えば個別の小節において宣言された拍子を守らないこと、をうまく処理することにより、光学的音楽認識(OMR)の品質を向上させる。
本発明の実施形態によれば、音楽認識の方法であって、デジタルフォーマットでの音楽要素の楽譜を受け取るステップと、ここに前記音楽要素は小節、調号、および第一と第二の縦線を有し;デジタルフォーマットを、楽譜をモデルとする複合音楽データオブジェクトに変換するステップと、ここに複合音楽データオブジェクト内の音楽要素は座標を有し;複合音楽データオブジェクト内の調号を確率的に定義するステップと;複合音楽データオブジェクトのそれぞれの小節内の音楽要素を演奏する開始時間を、それぞれの小節内の他の音楽要素のリズム値を無視して計算するステップと;そして定義された調号と計算された開始時間を有する出力を生成するステップと;を有することを特徴とする音楽認識の方法、が提供される。
本発明の方法の1側面では、複合音楽データオブジェクト内の調号を定義するステップは、隠れマルコフモデルでの計算のために推定調号を提示することにより実行される。
さらに本発明の方法の別の1つの側面では、隠れマルコフモデルは:複合音楽データオブジェクトが1つのキーで始まる確率を行列要素とする初期確率行列と;そして複合音楽データオブジェクト内で1つのキーから別の1つのキーに遷移する確率を行列要素とする遷移確率行列と;を有する。
さらに本発明の方法の別の1つの側面では、隠れマルコフモデルは:複合音楽データオブジェクトが1つのキーで始まる確率を行列要素とする初期確率行列と;そして複合音楽データオブジェクト内で1つのキーから別の1つのキーに遷移する確率を行列要素とする遷移確率行列と;を有する。
さらに本発明の別の側面では、開始時間を計算する前記ステップは:複合音楽データオブジェクトのそれぞれの小節内において、他の音楽要素のリズム値と矛盾する変則リズム要素を識別するステップと;そしてそれぞれの小節の座標に対する変則リズム要素の座標に従って、変則リズム要素の開始時間を計算するステップと;を有する。
さらに本発明の別の1つの側面では、楽譜を光学的にスキャンすることによりデジタルフォーマットを生成するステップをさらに有する。
さらに本発明の別の1つの側面では、楽譜を光学的にスキャンすることによりデジタルフォーマットを生成するステップをさらに有する。
本方法の別の側面では、デジタルフォーマットを、複合音楽データオブジェクトに変換するステップは、プロセッサに受け入れ可能な1つの新しいデジタルフォーマットで楽譜を生成するステップを有する。
本方法の追加の側面では、音楽要素は、それぞれのコード間隔を有する複数のコードを有し、そして開始時間を計算するステップはコード間隔の結合を計算するステップを有する。
本方法の別の側面は、コード間隔の複数の結合の結合を計算し、そしてその複数の結合が単一の小節内にあるか否かを決定するステップを含む。
本方法の追加の側面では、音楽要素は、それぞれのコード間隔を有する複数のコードを有し、そして開始時間を計算するステップはコード間隔の結合を計算するステップを有する。
本方法の別の側面は、コード間隔の複数の結合の結合を計算し、そしてその複数の結合が単一の小節内にあるか否かを決定するステップを含む。
本方法の1つの側面は、1つの小節におけるコード間隔の結合が、1つの小節の存続期間期待値の既定の割合より小さい、ことを決定するステップと;そしてその決定に応答して、1つの小節がピックアップ小節の候補であることを報告するステップと;をさらに有する。
本方法の追加の側面は、音楽演奏としてその出力を実行するステップを含む。
本発明の他の実施形態は上記の方法を実行するためのコンピュータソフトウェア製品を提供する。
本方法の追加の側面は、音楽演奏としてその出力を実行するステップを含む。
本発明の他の実施形態は上記の方法を実行するためのコンピュータソフトウェア製品を提供する。
本発明のより良い理解のため、以下の図を伴う事例としての実施形態を参照する。類似の要素は類似の参照番号を与えられる:
本発明の1実施形態による、音楽認識システムのブロック図である。
本発明の1実施形態による、光学的音楽認識のための方法の流れ図の前半部分である。
本発明の1実施形態による、光学的音楽認識のための方法の流れ図の後半部分である。
本発明の1実施形態による、光学的音楽認識(OMR)装置の出力をモデルとしたクラス図である。
本発明の1実施形態による、音楽的データオブジェクトをモデルとしたクラス図である。
本発明の1実施形態による、隠れマルコフモデルにより形成される出力行列を示す表である。
図6は本発明の1実施形態による、記譜法の一例である。 図7は本発明の1実施形態による、採用可能なリズム系統図である。 図8は本発明の1実施形態により処理される欠陥記譜法を示す図である。
図9は本発明の1実施形態により翻訳された複合記譜法を示す図である。 図10は本発明の1実施形態により翻訳された複合記譜法を示す図である。 図11は本発明の1実施形態による、コード存続期間の結合の決定を示す例示的小節である。
以下の記述において、本発明の種々の原理の十分な理解を提供するため、多くの特定の詳細が示される。しかしながら、当業者には、これら詳細のすべてが本発明を実施するために常に必要ではないことは明白である。本明細書の場合、従来技術のアルゴリズムおよび処理のための周知の回路、制御ロジック、およびコンピュータプログラム命令は、一般的概念を不必要に不明瞭にさせないため、詳細には示されない。
本発明の側面はソフトウェアプログラムコードにおいて実現されてもよく、ソフトウェアプログラムコードは一般的にコンピュータ読み取り可能媒体のような永久記憶装置内で維持される。クライアント/サーバー環境では、このようなソフトウェアプログラムコードはサーバーまたはクライアント上で記憶される。ソフトウェアプログラムコードはデータ処理システムと共に使用されるための、ディスケット、ハードドライブ、またはCDROMのような任意の種々の公知の非一過性接触可能媒体上で実現されてもよい。そのコードはそのようなメディア上で配布されてもよく、または、他のコンピュータシステムのユーザによる使用のため、1つのコンピュータシステムのメモリまたは記憶装置から、何らかのタイプのネットワークを介して、他のコンピュータシステムの記憶装置に配布されてもよい。
ここで図に戻って、本発明の1実施形態による、音楽認識システムのブロック図である図1を参照する。システム10は一般的に汎用または埋め込み型コンピュータプロセッサを有し、それは以下で記載される機能を実行するための適切なソフトウェアでプログラムされている。これらの機能は単一のプロセッサまたは多重プロセッサ上で走るソフトウェアにおいて実行される。ソフトウェはコンピュータシステムで使用されるディスケット、ハードドライブ、またはCDROMのような任意の種々の公知の非一過性接触可能媒体上で実現されてもよい。コードはそのようなメディア上で配布されてもよく、または、他の1つのコンピュータシステムのメモリまたは記憶装置から、ネットワークを介して、そのシステム10に配布されてもよい。あるいはさらに、システム10はデジタル信号プロセッサまたは配線論理を有してもよい。
図1の事例では、処理ユニット12は中央演算処理装置(CPU)14、メモリ16、および2次記憶装置18を有し、2次記憶装置はハードディスクドライブ(HDD)でありうる。処理ユニット12は公知の画像フォーマットに従った入力データを1つ以上の光学入力装置から受け取り、その光学入力装置の事例は図1にカメラ20、光学スキャナ22およびベクター画像モジュール24として示される。それら光学入力装置の画像フォーマットは同じである必要は無い。
処理ユニット12は楽譜の品質を向上させるため、以下で詳述するような態様でデータを処理し、そして結果を入力/出力モジュール26を介して出力する。これはデジタル楽譜28、例えば音楽XMLファイル、または楽器デジタルインタフェース(MIDI)ファイル30であってよい。
次に図2A、2B、それらはまとめて図2と呼ばれるが、を参照する。それは本発明の1実施形態による、光学的音楽認識のための方法の流れ図である。図2では説明の明確化のため、処理のステップは特定の直線的順序で示されている。しかし、それらステップの多くは並列に、同期せずに、または異なる順番で実行されうることは明白である。当業者はまた、1つの処理が選択肢として、幾つかの互いに関係する状態またはイベント、例えば状態図で表現されうることを理解しよう。さらに、表示された処理ステップは、処理を実行するのに必ずしも全てが必要ではない。
最初のステップ32において楽譜の画像が光学的装置、例えばカメラ20またはスキャナ22(図1)により獲得され、そして既知の画像フォーマットの画像データとしてプロセッサに出力される。あるいは事前に存在する画像ファイルがプロセッサに提示されてもよい。
次にステップ34において、ステップ32で出力されたデータが一連の画像にフォーマット化され、1つの画像が楽譜の1頁から構成される。ステップ34の結果は一連の未処理デジタル画像36である。
次にステップ38において、未処理画像36が画像処理を受け、それはノイズのできるだけ少ないアライメントされたデジタル画像を得るため、種々の組み合わせの、一部切り取り(クロッピング)、傾き調整(デスキュー)、アンワーピング、鮮明化、および画像処理技術において公知の他の輪郭補償を含んでもよい。
選択肢として、ステップ38で生成されたデジタル画像はグレースケール画像40に変換されてもよい。これは従来技術の損失のある、または損失の無い技術を用いて、種々の方法で達成可能である。ステップ42で、そのグレースケール画像は閲覧に適した従来技術の画像フォーマット、例えばPDFファイル42で出力されてもよい。
ステップ38はまた一連の未圧縮モノクロデジタル画像44の生成を含んでもよく、そのモノクロ画像はステップ46での更なるデジタル処理に使用される。ステップ46はモノクロ画像44を、一般的には楽譜の1ページずつ、光学的音楽認識(OMR)装置に提出することを含む。多くの光学的音楽認識(OMR)装置が、公知のフォーマットのデジタル出力流を出力する限りにおいて適合する。
次に、判断ステップ48において、未処理の画像またはページが存在するかが決定される。決定が肯定的であると、制御はステップ46に戻る。否定的な場合、制御はステップ50に進む。
ステップ50において、OMRによるデジタル画像フォーマットの出力は、元の音符をモデルとした複合音楽データオブジェクト52に変換される。実際の変換はステップ46で採用されたOMR装置の特定のフォーマットに特殊化される。
ここで本発明の1実施形態による、OMR装置の出力をモデルとしたクラス図である、図3を参照する。
ここで本発明の1実施形態による、音楽的データオブジェクト52をモデルとしたクラス図である図4を参照する。音楽的データオブジェクト52の属性は楽譜全体に渡たる音楽的要素、例えば小節、音符および臨時音記号を表わす。これらの要素は、識別され、そして位置座標および他の特性を図4のクラス図に示されるように割り当てられる。図3と図4に示されるクラスはステップ50を実行するために使用される。
従来技術のOMR装置は多くの場合楽譜の特定の特徴を不完全に表現する:(1)調号の識別;および(2)楽譜内の変則、例えば個々の小節において表示された拍子を守っていないこと。これらの問題は以下の章で取り扱われる。
(調号の識別)
図2に戻って音楽データオブジェクト52状の一連の処理はステップ54で始まる。ステップ54は、座標システム内の推定調号を含む対象領域を識別することを有する。
図2に戻って音楽データオブジェクト52状の一連の処理はステップ54で始まる。ステップ54は、座標システム内の推定調号を含む対象領域を識別することを有する。
西洋音楽の記譜法では、7つの音名があるが(A−G、ド−シ)、しかし12の音がある。全ての「中間音」、ピアノ鍵盤で黒い鍵で出現する音、はシャープ(黒い鍵を白い鍵の右側に示すため)またはフラット(黒い鍵を白い鍵の左側に示すため)を音符の符頭の次に追加することにより示される。殆どの楽曲は調(長調/短調)で記載され、そこでは一定のシャープまたはフラットが規則的に出現する。作曲家はこのような場合、それぞれの臨時音記号(シャープ、フラットおよび本位記号に対する集合的語彙)を別々に示すより、むしと調号を使用する。繰り返しの臨時音記号は、符頭に隣接することなく、それぞれの譜表の初めに、音部記号のすぐ後に、一緒に示されてもよい。
光学的音楽認識(OMR)の実行には、調号の適切な識別に関していくつかの困難さがある。第一にシャープと本位記号は非常に似通っている。低品質および/または低解像度のスキャンを使用する場合、OMRの実行はしばしばそれら2つを混同する。第二に、調号の次の最初の音符が、調号の次に臨時音記号を有する場合、その臨時音記号は誤って調号の一部と認識されるかもしれない。これらの困難さは以下の本発明の実施形態により克服される。
上記の識別ステップにより得られる推定調号情報は、その調号をより正確に定義するため、隠れマルコフモデル(HMM)に掛けられる。隠れマルコフモデル(HMM)は統計的モデルであり、その中でモデル化されるシステム−この場合、楽曲の演奏−がマルコフプロセスであると見做され、そのマルコフプロセスは、直接観察することの出来ない(「隠れ」)状態を持ち、しかし観察可能な出力を与える。そのシステムにより横断される一連の状態、例えば楽譜内での1つのキーから他のキーへの遷移、を推測するため、観察された出力に対し確率的な分析が適用される。隠れマルコフモデル(HMM)は、主にシャープおよびフラットの計数を調号を定義するものとして考える。
その楽譜内のそれぞれの調号に対する最初の確率が隠れマルコフモデル(HMM)に提出される。HMMはこれらの確率にたいして感受性が高くないため、それらの確率が比較的均一に分布されている限り、HMMはこれら確率が理論的に正確である場合に、そうでない場合に比べてより効率的に働く。1つの楽譜内の調号に対する最初の可能性は、例えば、現在の楽譜の作曲家の作品の統計的調査から、現在の楽譜と同じカテゴリーの他の作曲家による作曲から、またはユーザにより以前分析された楽譜の蓄積された経験から、得られる。
本発明のアプローチは楽譜をモデルとするために、その楽譜内の音楽要素の位置、詳細には調号を含むと考えられる対象領域内の位置、に対応する座標を有する2次元状態空間を使用する。計算を実行する電子プロセッサは、以下に詳述する3つの考慮点に基づいて2次元状態空間に亘って確率分布を計算する。プロセッサは、調号を有する領域における臨時音記号の最も有りそうな数を決定するのに、この確率分布を使用する。本明細書では、処理ユニット12(図1)は、楽譜内の対象領域を実際の調号に適合させるため、隠れマルコフモデル(HMM)において周知の前方―後方アルゴリズムを実行する。観察可能な状態は、対象領域における観察可能な数の臨時音記号に対応する。隠れた状態は実際の数の臨時音記号に対応する。隠れマルコフモデル(HMM)は臨時音記号の観察された数が与えられた場合の、実際の数を報告する。
本発明の実施形態は、画像分析に音楽的論理を適用することにより、光学的音楽認識(OMR)分析を再翻訳する。以下の点が考慮される:
1.歌または楽章の最初の調号:調号の異なる確率が考慮され、そして非常に巧妙に統計的に関連付けされる−調号内の臨時音記号が少ない程、その調号はより正しい。この前提は作曲における歴史的傾向を反映している。さらに、最初の譜表の調号の次の調号が調べられる、何故ならば調号の変更は頻発しないからである。
1.歌または楽章の最初の調号:調号の異なる確率が考慮され、そして非常に巧妙に統計的に関連付けされる−調号内の臨時音記号が少ない程、その調号はより正しい。この前提は作曲における歴史的傾向を反映している。さらに、最初の譜表の調号の次の調号が調べられる、何故ならば調号の変更は頻発しないからである。
2.画像分析はしばしば異なるシステムに対し異なる調号を回答する。(1つのシステムは同時に演奏されることを想定される譜表の集合体である。)ここで再度、統計的前提が役に立つ−調号は不変の確率が変更の確率に比べてずっと高い。繰り返しになるが、周辺のシステムの調号が調査される。
3.同一のシステム内の異なる譜表が異なる調号を有することは非常に稀である。この法則に対する例外は、自然なことだが、譜表の一部がサキソフォンまたはクラリネットなどの転調楽器に属する場合に起こる−このような楽器は残りの楽器とは常に異なる調号を有する−しかし再び、転調楽器の調号と残りの楽器の調号の関係は常に一定である。これら3つの前提が隠れマルコフモデル(HMM)を介して計算され、そして画像分析の結果がそれに従って修正される。Sourceforge社から入手可能なGHMMスイートは隠れマルコフモデル(HMM)に適している。HMMは、楽曲の間に調号が変化する可能性を認識しながら、その楽譜のそれぞれの調号内の臨時音記号の最も可能性の高い数とタイプを報告する。HMMにより提供された情報は、統計的分析に基づいて、検知された変化が事実であるのか否かの理解を向上させる。以前に決定された推定調号が間違いであることが分かった場合、それらは訂正される。
インデックスタプルを単一の行列座標に変換するために、我々はそれをベースN(base N)に変換する。
以下は1つのシステムに1つの譜表を有する楽曲の事例である。
以下の臨時音記号の配列を画像処理より獲得したとする、ここで数字はそれぞれの譜表で見つかったシャープ(♯)印の数を表す:
1,0,1,1,3,1,1,1,4,4,4,4,5,4,4
この配列をHMMに掛けることにより以下の修正された調号の配列を得る:
1,1,1,1,1,1,1,1,4,4,4,4,4,4,4
この結果は、大胆なケースでの数値(2,5,13番目の位置)が画像処理の誤りであるとHMMが決定したことを意味する。
以下は1つのシステムに1つの譜表を有する楽曲の事例である。
以下の臨時音記号の配列を画像処理より獲得したとする、ここで数字はそれぞれの譜表で見つかったシャープ(♯)印の数を表す:
1,0,1,1,3,1,1,1,4,4,4,4,5,4,4
この配列をHMMに掛けることにより以下の修正された調号の配列を得る:
1,1,1,1,1,1,1,1,4,4,4,4,4,4,4
この結果は、大胆なケースでの数値(2,5,13番目の位置)が画像処理の誤りであるとHMMが決定したことを意味する。
ここで上記の配列に対する隠れマルコフモデル(HMM)の数値入り出力行列を示す表である図5を参照する。
(リズムの変則)
以下の議論が、リズムの変則を取り扱う本発明の原理の理解を進めるために提供される。殆どの西洋のクラッシックおよびポピュラー音楽に関係する西洋式記譜法ではリズムのカウントは殆どの場合一定である。歌および楽曲は小節から構成される。これら小節は固定した数の拍を有し、それはその歌または楽章を通じて一定である傾向がある。平均的な聴衆は直感的に小節および拍を識別する、何故ならば、それぞれの小節の最初の拍が他の拍よりもリズム的に重要である、即ちその小節の「強拍」として理解される。このように音楽作品の定義的特徴の1つはその拍子―1小節あたりの拍の長さと数である。
(リズムの変則)
以下の議論が、リズムの変則を取り扱う本発明の原理の理解を進めるために提供される。殆どの西洋のクラッシックおよびポピュラー音楽に関係する西洋式記譜法ではリズムのカウントは殆どの場合一定である。歌および楽曲は小節から構成される。これら小節は固定した数の拍を有し、それはその歌または楽章を通じて一定である傾向がある。平均的な聴衆は直感的に小節および拍を識別する、何故ならば、それぞれの小節の最初の拍が他の拍よりもリズム的に重要である、即ちその小節の「強拍」として理解される。このように音楽作品の定義的特徴の1つはその拍子―1小節あたりの拍の長さと数である。
本発明の1実施形態により処理される、記譜法の一例である図6を参照する。小節86は4分の4拍子における4つの四分音符の小節であり、この拍子は最もポピュラーな拍子であり、「普通拍子」として知られる。拍子表示88はそれぞれの歌または楽章の初め、および拍子が変わる場所にのみ出現する。
本発明の1実施形態により採用可能なリズム系統90を示す図である図7を参照する。西洋式記譜法におけるそれぞれの音符のリズム値は、いくつかの画像的要素により決定される:
1.音符の符頭:符頭は長方形(2全音符、別名ダブル全音符)または円形(全てのそれより短い音符)でありうる。中空(2全音符、全音符、二分音符)または中が詰まった形態(それより短い全ての音符)でありうる。
2.符幹:符幹は存在しないか(2全音符、全音符)または存在するか(それより短い全ての音符)である。
3.ビーム/符尾:これらは相互に交換可能である。ビームは四分音符より短い音符のグループ化のために使用される。符尾は同じ長さの音符で、単一のグループ化されない音符に使用される。ビーム/符尾の数はリズム値の短さを示す:1本は八分音符用、2本は十六分音符用、3本は三十二分音符用、等である。
1.音符の符頭:符頭は長方形(2全音符、別名ダブル全音符)または円形(全てのそれより短い音符)でありうる。中空(2全音符、全音符、二分音符)または中が詰まった形態(それより短い全ての音符)でありうる。
2.符幹:符幹は存在しないか(2全音符、全音符)または存在するか(それより短い全ての音符)である。
3.ビーム/符尾:これらは相互に交換可能である。ビームは四分音符より短い音符のグループ化のために使用される。符尾は同じ長さの音符で、単一のグループ化されない音符に使用される。ビーム/符尾の数はリズム値の短さを示す:1本は八分音符用、2本は十六分音符用、3本は三十二分音符用、等である。
リズム系統図90は幾つかの一般的リズムを示す。ピラミッドの各レベルの音符は1つ上のレベルの音符より2倍短い。2全音符は全音符の2倍である。この系統図は実際に演奏される音符の形状を示す。他の音符(不図示)の対応するピラミッドが存在し、光学的音楽認識(OMR)の実行は演奏される音符のピラミッドに対するものと同様にそれを取り扱う。
本発明の1実施形態により克服される、欠陥記譜法を翻訳する場合の1つの困難さを示す、図8を参照する。従来技術の光学的音楽認識(OMR)の実行は、所与の音符のリズム値を確認するため、音符の符頭、符幹、ビームおよび符尾を検知するよう努める。誤ったスキャニングまたは印刷の汚れが完全な誤検知をもたらす。例えば音符92の汚れは誤識別につながる。この事例では、元々の四分音符94が符頭内の白色領域96を有して印刷された。このことはそれが二分音符98として検知される結果となる。その結果、小節全体の計数が捨て去られる、何故ならば、殆どの光学的音楽認識(OMR)の実行によれば、その小節が追加の四分音符を有するように見えるからである。言うまでもなく、音符92のすぐ後の音符はその実際のタイミングより四分音符遅くスタートすると推定される。以下で詳述される画像的配置は、汚れた音符92の次の音符のスタート時間を、小節内のその画像的位置に従って決定する。言い換えれば、音符92のすぐ次の音符は決定された時間に、音符92の翻訳に関係なく始まる。このような画像的配置の使用は多声および不完全な光学的スキャンおよび楽譜再生に起因する複雑さを平均化して無くす。
本発明の1実施形態により克服される、欠陥記譜法を翻訳する場合の他の1つの困難さを示す、図9を参照する。作曲家は時に、自由または表現を優先して数学的なリズム記譜法の約束事を無視する。19世紀のポーランド系フランス人作曲家フレデリック・ショパンはこの種の多くの事例を与えている。図9はショパンの夜想曲、作品9−1、15小節、左手部分から選択された1つの楽譜の1つの楽節100である。ショパンが2声を1つの手の楽譜に書いたことが分かる。左から2番目の音符として書かれた二分音符102は演奏するピアニストに2つの事を伝えるためにそこに存在する:
1.この音符は八分音符より長く維持される。
2.この音符は強調されるべきである。
1.この音符は八分音符より長く維持される。
2.この音符は強調されるべきである。
しかし、二分音符102のリズム値は意味をなさない。それは何処にも由来せず、そしてそれは楽節100の残りの部分以前に八分音符を終わらせる。当該リズム値を小節内の音符のタイミングと調和させようとする、殆どの光学的音楽認識(OMR)の実行は、これが誤りであると報告するであろう。実際Willard A.Palmerにより編集されたこの楽曲のアルフレッド版では、この小節に次のコメントが付されている:「ショパンは意図的に二分音符を八分音符グループの2番目の上に置いた。この記譜法は数学的には正確ではないが、意味は明確であり、そして記譜法における不必要な複雑さを回避している。」
本発明の1実施形態により克服される、欠陥記譜法を翻訳する場合のもう1つの困難さを示す、図10を参照する。図10はショパンの夜想曲、作品27−1、51小節、左手部分から選択された事例的な記譜法である。図10の中に我々は、ショパンが自由で、即興曲風な右手用の楽節104を小節の終わりの部分に書いたことを見てとれる。ピアニストはこれらの音符を、左手部分106の画像的対応物に大雑把に対抗して演奏する。しかし、ショパンがこの楽節のために選んだ記譜法は八分音符の記譜法であり、そして殆どの光学的音楽認識(OMR)の実行は八分音符の記譜法として理解するが、そのOMRはそれほど多くの八分音符を1つの小節に適合させる方法を知らない。さらに複雑なことに、リズム的に言って、即興曲的な楽節104をカウント始めることさえ無しに、この小節の右手部分108は完全に満杯である。作曲家は時々、いくつの音符が所与のリズム値の空間に適合すべきかを示すため、このような楽節に数字を加える。しかし、編集版はまた、運指記号のような数字の他の使用を含むので、従来技術の光学的音楽認識(OMR)の実行はこのような数字の異なる使用の間を区別できない。
図10は19世紀初めより存在する音楽印刷の基礎的典型を示す:各音符の始まりは、画像的に、その音符が演奏されるタイミングに相当する位置に配置される。このことは、小節の正確に中間点で演奏されることが想定されている、右手パート108の第2の音符は画像的にも左の縦線110と右の縦線112の間の距離の約半分の位置に配置される、ことを意味する。同様に、左手は、右手の第1の音符に対して6つの音符を演奏することが想定されており、そして従ってこのことも画像的に示される。音符のリズムのカウントと画像的配置との間のこの関係の伝統が、ショパンが使用したような自由を出現させた。演奏家が彼らの演奏のための正しいタイミングを決定する場合、彼らはその画像的レイアウトを使用するであろうと、ショパンは推定し、そしてそれゆえショパンは数学的に正しくないリズム的記譜法を使用することを自分自身で認めた。このように画像的配置の使用は演奏家がリズムにアプローチする方法の必須の部分になった。簡便のため、それぞれの小節における他の音楽要素のリズム値と矛盾する二分音符102および楽節104は、本明細書では「変則的リズム要素」と呼ばれる。
既存のOMR実行では、それぞれの1つ前の音符の値をカウントしようとし、そして、その値が使い果たされた時に、次に演奏される音符を指名することにより、それぞれの音符の始まりの正しいタイミングを決定する。従って、上記の制限および誤りが、必然的にカウントの根本的破壊につながるであろうことは理解できる。それにもかかわらず本願発明者らは、リズム分割に対する画像的順守が、それぞれの音符の始まりの正しいタイミングを決定するのに有用であることを発見した:音符の画像的配置、即ち2つの縦線の間の相対的位置を測定することにより、音符の始まりの正しいタイミングのための非常に近い近似値を得ることができる。本発明の実施形態はこの方法論を利用し、そしてその結果は従来のOMR法に比べてはるかに正確である。さらに、本発明の革新的OMR処理は、演奏家がリズムの記譜法を取り扱う方法を真似しているため、前述した困難さは全て解決される。
(開始時間の割り当て)
上述のように、小節において宣言されたリズム値と一致しない音符的表現を受け入れることが出来ず、そしてこのような場合に誤りを生成することは、従来のOMR実行の共通した弱点である。本発明の1実施形態では、ありうるリズム的複雑性を取り扱うため、相対的視覚位置アルゴリズムが、その音の始まりの正しいタイミングを確立するために、2つの縦線の間の相対的位置を利用する。言い換えれば、音符またはコードは、その小節の音楽的時間間隔に対する、音楽的時間(例えばビート)の1つの点において始まる、何故ならば、音符の画像的位置はその小節の画像的長さに対する位置であるからである。
上述のように、小節において宣言されたリズム値と一致しない音符的表現を受け入れることが出来ず、そしてこのような場合に誤りを生成することは、従来のOMR実行の共通した弱点である。本発明の1実施形態では、ありうるリズム的複雑性を取り扱うため、相対的視覚位置アルゴリズムが、その音の始まりの正しいタイミングを確立するために、2つの縦線の間の相対的位置を利用する。言い換えれば、音符またはコードは、その小節の音楽的時間間隔に対する、音楽的時間(例えばビート)の1つの点において始まる、何故ならば、音符の画像的位置はその小節の画像的長さに対する位置であるからである。
そのアルゴリズムは以下の等式で表わすことが出来る:
ここでtstartはおよびtendはそれぞれ小節の最初と最後の音楽的時間であり;tnoteは音符またはコードが始まる音楽的時間であり;pxstartおよびpxendは音楽データオブジェクト52から得られる画像的座標、例えばピクセルであり;値pxstartは小節内の最初に演奏可能な音楽オブジェクト(音符または休止符)に設定され;pxendは小節の最終縦線に設定され;pxnoteは音符またはコードの画像的座標を意味する。言い換えれば、変則リズム要素の開始時間は小節内の他の音楽要素のリズム値を無視することにより割り当てられる。
図2に戻り、ステップ56において等式(1)が適用され、1つの音符としてのそれぞれのコードの開始位置を取り扱う。
(存続期間の結合)
次にステップ58において、それぞれの小節に対しコード存続期間の結合が決定される。
次に本発明の1実施形態による、コード存続期間の結合の決定を示す例示的小節である、図11を参照する。間隔60はコード62,64,66の間隔の結合を意味する。それぞれのコードの間隔は破線68,70,72で示される。それぞれのコード62,64,66の空間的間隔は1つ以上の他のコード62,64,66と重なる。結合測定の事例的適用を以下に示す:
次にステップ58において、それぞれの小節に対しコード存続期間の結合が決定される。
次に本発明の1実施形態による、コード存続期間の結合の決定を示す例示的小節である、図11を参照する。間隔60はコード62,64,66の間隔の結合を意味する。それぞれのコードの間隔は破線68,70,72で示される。それぞれのコード62,64,66の空間的間隔は1つ以上の他のコード62,64,66と重なる。結合測定の事例的適用を以下に示す:
(2線小節の識別)
小節m1とm2、およびそれぞれの存続期間(dur)および結合(un)を前提として、リスト2の疑似コードはm1とm2が同一の小節であるか否かを決定する方法を示す:
リスト2において、関数un()は1つの小節内の全てのコード結合の合計を報告する。
小節m1とm2、およびそれぞれの存続期間(dur)および結合(un)を前提として、リスト2の疑似コードはm1とm2が同一の小節であるか否かを決定する方法を示す:
(ピックアップ小節の識別)
上記で定義された1つの小節の結合が小さすぎる場合(一般的にその小節の存続期間期待値の0.8未満)、その小節はピックアップ小節の候補として分類される。
上記で定義された1つの小節の結合が小さすぎる場合(一般的にその小節の存続期間期待値の0.8未満)、その小節はピックアップ小節の候補として分類される。
(品質推定)
もし1つの小節の結合がその小節の既知の存続期間と大きく異なる場合(一般的にその小節の期待値存続期間の0.8未満または3倍より大きい)、それは悪い品質の小節として標識付けされる。
もし1つの小節の結合がその小節の既知の存続期間と大きく異なる場合(一般的にその小節の期待値存続期間の0.8未満または3倍より大きい)、それは悪い品質の小節として標識付けされる。
図2を再度参照して、次に判断ステップ74において、現在の楽譜内にボルタ符号が存在するか否かが決定される。
もし判断ステップ74の決定が肯定的な場合、制御はステップ76に進み、そこでボルタ符号は、全てのOMR装置がボルタ符号を報告するとは限らないので、必要な場合、追加の画像処理を使用して、位置決めされる。ボルタ符号の識別はステップ78における演奏順序の精度を高める。
もし判断ステップ74の決定が肯定的な場合、制御はステップ76に進み、そこでボルタ符号は、全てのOMR装置がボルタ符号を報告するとは限らないので、必要な場合、追加の画像処理を使用して、位置決めされる。ボルタ符号の識別はステップ78における演奏順序の精度を高める。
ステップ76の終了後、または判断ステップ74の決定が否定的な場合、制御はステップ78に進み、そこでは楽曲の演奏順序が決定される。このステップの実行は本出願の範囲の外にあり、したがってこれ以上議論されない。
次にステップ80において、デジタル楽譜からなるデータファイルが音楽データオブジェクト52から生成される。1つの選択肢として、MIDIファイルがステップ82において生成され、MIDIファイル84が得られる。有用なデータファイルの他の事例としてはレイアウト情報を持つXMLファイルおよびSqlite(登録商標)データベースへの追加がある。ステップ80では従来技術で既知の他の多くのフォーマットのデータファイルが生成されてもよい。さらにあるいは、生成された出力は、既知の電子音楽認識手法を使用して演奏されてもよい。
本発明は上記で示され記述された特定のものに制限されないことは当業者には理解されよう。むしろ本発明の範囲は上記で記載された種々の特徴の組み合わせおよびサブ組み合わせ、および上記の記載を読んだ当業者が想起するそれらの変化形および修飾形を含む。
Claims (19)
- 音楽認識の方法であって、
デジタルフォーマットでの音楽要素の楽譜を受け取るステップと、
ここに前記音楽要素は小節、調号、および第一と第二の縦線を有し;
前記デジタルフォーマットを、前記楽譜をモデルとする複合音楽データオブジェクトに変換するステップと、
ここに前記複合音楽データオブジェクト内の前記音楽要素は座標を有し;
前記複合音楽データオブジェクト内の前記調号を確率的に定義するステップと;
前記複合音楽データオブジェクトのそれぞれの小節内の音楽要素を演奏する開始時間を、前記それぞれの小節内の他の音楽要素のリズム値を無視して計算するステップと;そして
前記定義された調号と前記計算された開始時間を有する出力を生成するステップと;
を有することを特徴とする音楽認識の方法。 - 前記複合音楽データオブジェクト内の前記調号を定義する前記ステップは、隠れマルコフモデルでの計算のために推定調号を提示することにより実行される、ことを特徴とする請求項1に記載の方法。
- 前記隠れマルコフモデルは:
前記複合音楽データオブジェクトが1つのキーで始まる確率を行列要素とする初期確率行列と;そして
前記複合音楽データオブジェクト内で1つのキーから別の1つのキーに遷移する確率を行列要素とする遷移確率行列と;
を有する、ことを特徴とする請求項1または2に記載の方法。 - 前記開始時間を計算する前記ステップは:
前記複合音楽データオブジェクトのそれぞれの前記小節内において、他の音楽要素の前記リズム値と矛盾する変則リズム要素を識別するステップと;そして
前記それぞれの小節の前記座標に対する前記変則リズム要素の前記座標に従って、前記変則リズム要素の前記開始時間を計算するステップと;
を有することを特徴とする請求項1−3のいずれかに記載の方法。 - 前記楽譜を光学的にスキャンすることにより前記デジタルフォーマットを生成するステップをさらに有する、ことを特徴とする請求項1−5のいずれかに記載の方法。
- 前記デジタルフォーマットを、前記複合音楽データオブジェクトに変換する前記ステップは、プロセッサに受け入れ可能な1つの新しいデジタルフォーマットで前記楽譜を生成するステップを有する、ことを特徴とする請求項1−6のいずれかに記載の方法。
- 前記音楽要素は、それぞれのコード間隔を有する複数のコードを有し、そして開始時間を計算する前記ステップは前記コード間隔の結合を計算するステップを有する、ことを特徴とする請求項1−7のいずれかに記載の方法。
- コード間隔の複数の結合の1つの結合を計算し、そして前記複数の結合が単一の小節内にあるか否かを決定するステップをさらに有する、ことを特徴とする請求項1−8のいずれかに記載の方法。
- 1つの前記小節における前記コード間隔の前記結合が、前記1つの小節の存続期間期待値の既定の割合より小さい、ことを決定するステップと;そして
前記決定に応答して、前記1つの小節がピックアップ小節の候補であることを報告するステップと;
をさらに有することを特徴とする、請求項1−9のいずれかに記載の方法。 - 音楽演奏として前記出力を実行するステップをさらに有する、ことを特徴とする請求項1−10のいずれかに記載の方法。
- 音楽認識のためのコンピュータソフトウェア製品であって、コンピュータプログラム命令が保存される非一過性のコンピュータ読み取り可能記憶媒体を有し、前記命令はコンピュータにより実行された場合、コンピュータに対し以下のステップを実行するようにさせる、ことを特徴とするコンピュータソフトウェア製品:
デジタルフォーマットでの音楽要素の楽譜を受け取るステップと、
ここに前記音楽要素は小節、調号、および第一と第二の縦線を有し;
前記デジタルフォーマットを、前記楽譜をモデルとする複合音楽データオブジェクトに変換するステップと、
ここに前記複合音楽データオブジェクト内の前記音楽要素は座標を有し;
前記複合音楽データオブジェクト内の前記調号を確率的に定義するステップと;
前記複合音楽データオブジェクトのそれぞれの小節内の音楽要素を演奏する開始時間を、前記それぞれの小節内の他の音楽要素のリズム値を無視して計算するステップと;そして
前記定義された調号と前記計算された開始時間を有する出力を生成するステップ。 - 前記複合音楽データオブジェクト内の前記調号を定義する前記ステップは、隠れマルコフモデルでの計算のために推定調号を提示することにより実行され、
前記隠れマルコフモデルは:
前記複合音楽データオブジェクトが1つのキーで始まる確率を行列要素とする初期確率行列と;そして
前記複合音楽データオブジェクト内で1つのキーから別の1つのキーに遷移する確率を行列要素とする遷移確率行列と;
を有する、ことを特徴とする請求項12に記載のコンピュータソフトウェア製品。 - 前記開始時間を計算する前記ステップは:
前記複合音楽データオブジェクトのそれぞれの前記小節内において、他の音楽要素の前記リズム値と矛盾する変則リズム要素を識別するステップと;そして
それぞれの前記小節の前記座標に対する前記変則リズム要素の前記座標に従って、前記変則リズム要素の開始時間を計算するステップと;
を有することを特徴とする請求項12または13に記載のコンピュータソフトウェア製品。 - 前記開始時間を計算する前記ステップは:
前記複合音楽データオブジェクトのそれぞれの前記小節内において、他の音楽要素の前記リズム値と矛盾する変則リズム要素を識別するステップと;そして
それぞれの前記小節の前記座標に対する前記変則リズム要素の前記座標に従って、前記変則リズム要素の開始時間を計算するステップと;を有し、
そして前記複合音楽データオブジェクト内の前記調号を定義する前記ステップは、隠れマルコフモデルでの計算のために推定調号を提示することにより実行される、
ことを特徴とする請求項12−15のいずれかに記載のコンピュータソフトウェア製品。 - 前記音楽要素は、それぞれのコード間隔を有する複数のコードを有し、そして開始時間を計算する前記ステップは前記コード間隔の1つの結合を計算するステップを有する、ことを特徴とする請求項12−16のいずれかに記載のコンピュータソフトウェア製品。
- コード間隔の複数の結合の1つの結合を計算し、そして前記複数の結合が単一の小節内にあるか否かを決定するステップをさらに有する、ことを特徴とする請求項12−17のいずれかに記載のコンピュータソフトウェア製品。
- 1つの前記小節における前記コード間隔の前記結合が、前記1つの小節の存続期間期待値の既定の割合より小さい、ことを決定するステップと;そして
前記決定に応答して、前記1つの小節がピックアップ小節の候補であることを報告するステップと;
をさらに有することを特徴とする、請求項12−18のいずれかに記載のコンピュータソフトウェア製品。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361922140P | 2013-12-31 | 2013-12-31 | |
US61/922,140 | 2013-12-31 | ||
PCT/IB2014/067306 WO2015101908A1 (en) | 2013-12-31 | 2014-12-24 | System and method for optical music recognition |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017507346A true JP2017507346A (ja) | 2017-03-16 |
Family
ID=53493339
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016543138A Pending JP2017507346A (ja) | 2013-12-31 | 2014-12-24 | 光学的音楽認識のためのシステムおよび方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9478201B1 (ja) |
EP (1) | EP3090385A4 (ja) |
JP (1) | JP2017507346A (ja) |
WO (1) | WO2015101908A1 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10725650B2 (en) * | 2014-03-17 | 2020-07-28 | Kabushiki Kaisha Kawai Gakki Seisakusho | Handwritten music sign recognition device and program |
JP7197263B2 (ja) * | 2017-10-18 | 2022-12-27 | ヤマハ株式会社 | 画像解析方法およびプログラム |
CN107945780A (zh) * | 2017-11-23 | 2018-04-20 | 北京物灵智能科技有限公司 | 一种基于计算机视觉的乐器演奏方法及装置 |
US11615772B2 (en) * | 2020-01-31 | 2023-03-28 | Obeebo Labs Ltd. | Systems, devices, and methods for musical catalog amplification services |
US11900825B2 (en) | 2020-12-02 | 2024-02-13 | Joytunes Ltd. | Method and apparatus for an adaptive and interactive teaching of playing a musical instrument |
US11893898B2 (en) | 2020-12-02 | 2024-02-06 | Joytunes Ltd. | Method and apparatus for an adaptive and interactive teaching of playing a musical instrument |
US11972693B2 (en) | 2020-12-02 | 2024-04-30 | Joytunes Ltd. | Method, device, system and apparatus for creating and/or selecting exercises for learning playing a music instrument |
US11670188B2 (en) | 2020-12-02 | 2023-06-06 | Joytunes Ltd. | Method and apparatus for an adaptive and interactive teaching of playing a musical instrument |
CN112926603B (zh) * | 2021-03-26 | 2024-01-23 | 平安科技(深圳)有限公司 | 乐谱识别方法、装置、设备及存储介质 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5773741A (en) * | 1996-09-19 | 1998-06-30 | Sunhawk Corporation, Inc. | Method and apparatus for nonsequential storage of and access to digital musical score and performance information |
AU6418400A (en) * | 1999-07-26 | 2001-02-13 | Thomas J. Buhr | Apparatus for musical composition |
US7314994B2 (en) * | 2001-11-19 | 2008-01-01 | Ricoh Company, Ltd. | Music processing printer |
CA2425965C (en) * | 2003-04-11 | 2007-10-16 | David Kestenbaum | Coloured music notation system and method of colourizing music notation |
US7432432B2 (en) * | 2004-09-21 | 2008-10-07 | Microsoft Corporation | System and method for recognizing handwritten music notations |
CN101103386A (zh) * | 2004-12-15 | 2008-01-09 | 缪斯艾米股份有限公司 | 用于乐谱捕捉和带同步呈现的合成音频演奏的系统与方法 |
WO2007092479A2 (en) * | 2006-02-06 | 2007-08-16 | Lydia Machell | Braille music systems and methods |
CN102610222B (zh) * | 2007-02-01 | 2014-08-20 | 缪斯亚米有限公司 | 音乐转录的方法,系统和装置 |
US20090125799A1 (en) * | 2007-11-14 | 2009-05-14 | Kirby Nathaniel B | User interface image partitioning |
KR101459766B1 (ko) * | 2008-02-12 | 2014-11-10 | 삼성전자주식회사 | 휴대 단말에서 자동반주 악보를 인식하는 방법 |
US8660678B1 (en) * | 2009-02-17 | 2014-02-25 | Tonara Ltd. | Automatic score following |
US8779268B2 (en) * | 2009-06-01 | 2014-07-15 | Music Mastermind, Inc. | System and method for producing a more harmonious musical accompaniment |
TWI386912B (zh) * | 2009-06-12 | 2013-02-21 | Univ Nat Taiwan Science Tech | 即時辨識樂譜的方法與系統 |
JP5960488B2 (ja) * | 2012-04-24 | 2016-08-02 | 株式会社河合楽器製作所 | 楽譜演奏装置及び楽譜演奏プログラム |
US8933312B2 (en) * | 2012-06-01 | 2015-01-13 | Makemusic, Inc. | Distribution of audio sheet music as an electronic book |
US8697972B2 (en) * | 2012-07-31 | 2014-04-15 | Makemusic, Inc. | Method and apparatus for computer-mediated timed sight reading with assessment |
US9424822B2 (en) * | 2014-05-27 | 2016-08-23 | Terrence Bisnauth | Musical score display device and accessory therefor |
JP6481319B2 (ja) * | 2014-10-01 | 2019-03-13 | ヤマハ株式会社 | 楽譜表示装置および楽譜表示方法 |
US20160189694A1 (en) * | 2014-10-08 | 2016-06-30 | Richard Lynn Cowan | Systems and methods for generating presentation system page commands |
-
2014
- 2014-12-24 EP EP14876924.3A patent/EP3090385A4/en not_active Withdrawn
- 2014-12-24 JP JP2016543138A patent/JP2017507346A/ja active Pending
- 2014-12-24 US US15/027,248 patent/US9478201B1/en active Active
- 2014-12-24 WO PCT/IB2014/067306 patent/WO2015101908A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
EP3090385A4 (en) | 2017-08-23 |
US20160300555A1 (en) | 2016-10-13 |
WO2015101908A1 (en) | 2015-07-09 |
US9478201B1 (en) | 2016-10-25 |
EP3090385A1 (en) | 2016-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2017507346A (ja) | 光学的音楽認識のためのシステムおよび方法 | |
Calvo-Zaragoza et al. | Understanding optical music recognition | |
JP6197631B2 (ja) | 楽譜解析装置および楽譜解析方法 | |
US6930236B2 (en) | Apparatus for analyzing music using sounds of instruments | |
Giraud et al. | Computational fugue analysis | |
US9478200B2 (en) | Mapping estimation apparatus | |
Sentürk et al. | Score informed tonic identification for makam music of Turkey | |
Paleari et al. | A multimodal approach to music transcription | |
Zalkow et al. | CTC-based learning of chroma features for score–audio music retrieval | |
WO2021166531A1 (ja) | 推定モデル構築方法、演奏解析方法、推定モデル構築装置、および演奏解析装置 | |
Peter et al. | Automatic Note-Level Score-to-Performance Alignments in the ASAP Dataset. | |
CN113076967B (zh) | 一种基于图像和音频的乐谱双重识别系统 | |
Shan et al. | Automatic Generation of Piano Score Following Videos. | |
CN115331648A (zh) | 音频数据处理方法、装置、设备、存储介质及产品 | |
Lupker et al. | Music theory, the missing link between music-related big data and artificial intelligence. | |
CN113053337A (zh) | 一种音准评定方法、装置、设备及存储介质 | |
JP2979409B2 (ja) | 楽譜認識方法及び装置 | |
JPH07117833B2 (ja) | 音符列間類似度計算装置 | |
Schramm et al. | Audiovisual tool for solfège assessment | |
Shanin et al. | Annotating Jazz Recordings Using Lead Sheet Alignment with Deep Chroma Features | |
JP6728572B2 (ja) | 撥弦楽器演奏評価装置、楽曲演奏装置及び撥弦楽器演奏評価プログラム | |
Fremerey | Automatic organization of digital music documents: Sheet music and audio | |
WO2022244403A1 (ja) | 楽譜作成装置、訓練装置、楽譜作成方法および訓練方法 | |
JP4595852B2 (ja) | 演奏データ処理装置及びプログラム | |
JP2018025644A (ja) | 楽曲Key推定装置及び楽曲コード進行推定装置 |