JP2017511917A

JP2017511917A - 音楽記号を認識するための方法および装置

Info

Publication number: JP2017511917A
Application number: JP2016551230A
Authority: JP
Inventors: ヴァレント，ファビオ; ラリカン，ピエール−ミシェル
Original assignee: マイスクリプト
Priority date: 2014-02-10
Filing date: 2015-01-26
Publication date: 2017-04-27
Anticipated expiration: 2035-01-26
Also published as: JP6506770B2; KR102293538B1; WO2015117855A1; CN106164932A; US20160322038A1; CN106164932B; US9711117B2; US20150228259A1; KR20160122231A; US9424823B2; EP3105709A1

Abstract

手書き音楽符号から音楽記号を認識するための音楽記号認識装置および方法を開示する。様々な実装例は、−手書き音楽符号を検出するステップ（Ｓ２）と、−手書き音楽符号を複数の基本インクセグメントにセグメント化するステップ（Ｓ６）と、−基本インクセグメントをグラフィックオブジェクトにグループ化するステップ（Ｓ８）と、−各グラフィックオブジェクトについて、１つの音楽記号候補および記号コスト決定するステップ（Ｓ１０）と、−音楽的記号候補を構文解析するステップ（Ｓ１２）と、を含み、ここで、構文解析するステップは、・文法ルールを音楽記号候補に適用することによってグラフを形成するステップであって、各グラフは、少なくとも１つの下位ノードに適用された文法ルールに対応する非末端ノードを備える、ステップ（Ｓ１４）と、・各適用された文法ルールをその適用された文法の適切性を代表する空間コストに関連付けるステップ（Ｓ１６）と、・記号コストおよび空間コストに基づいて、グラフを、手書き音楽符号の最も代表的なグラフとして選択するステップ（Ｓ１８）と、を含む。【選択図】図９

Description

本発明は、手書き音楽符号の音楽記号への変換に関し、より詳細にはデジタルフォーマットの手書き音楽符号に基づいて音楽記号を認識する方法およびそのような方法を実施するための装置に関する。

本発明は、入力デバイス上でユーザによって入力された手書き音楽符号、または電子フォーマット（例えば、電子文書）で予め受け取られたかもしくは記憶されていて、そして音楽記号を認識する目的で処理される手書き音楽符号に適用可能である。

ここ数年にわたり、スマートフォン、ポケットＰＣまたはタブレットＰＣなどのペンとの相互作用に基づくコンピュータシステムが著しく成長してきた。タッチスクリーン上で指またはスタイラスを使用することは、非常に直感的である。なぜなら、それにより、ユーザは、紙面上で行うような自然なやり方で作詞したり、作曲したりすることができるからである。

現在、ユーザによって入力された手書き符号を認識するための能力を有するタッチスクリーンを備えた入力デバイスが多く存在する。

例えば、タッチスクリーン上で実現される手書き描画の解釈（すなわち、オンライン認識）は、複雑な処理を必要とする。なぜなら、これらの描画は、対象の符号の種類、ユーザのスタイルなどに応じて、様々な性質の多くの要素から構成され得るからである。オンライン文書の認識は、オンザフライで、またはユーザの明示的な要求などの特定の条件の検出時のみに、生じることができる。オンザフライ認識システムは、文書が書かれている最中にユーザのストロークを対応の記号表現に直接変換する。これは、重要な処理能力を必要とする。

手書き音楽認識は、ここ何年かにわたっていくつかの進展が見られた特別な分野である。オフライン認識システム（特に、スキャンされた音楽符号に適用される光学方法）についていくつかの改善が達成されてきたが、オンライン認識システムのための音楽記号認識は、効率やユーザにとっての使いやすさの点でまだ満足の行くものではない。

特許文献１は、音符のメニューが音楽エディタアプリケーション上に提供され、ユーザが所望の音符または音楽記号上をクリックするシステムを記載する。しかし、このアプリケーションは、ユーザが音楽記号を自然で容易なやり方で書くことができないという制約などのいくつかの欠点を有する。

米国特許第６５３８１８７号明細書

そこで、手書き音楽符号に基づいて音楽記号をより効率よく認識することを可能にする解決策が求められている。より高い効率が求められているのは、タッチスクリーンなどの入力デバイス上でユーザによって入力された音楽符号の処理、または後の処理のために電子フォーマットで予め記憶されている手書き音楽符号である。また、ユーザが音楽符号を書くためのより使いやすい方法が求められている。

本発明は、上記の要求および欠点に対応することを目的とする。本発明の他の目的および利点は、本明細書から導かれ得る。

本発明は、音楽記号を手書き音楽符号に基づいて認識するための音楽記号認識装置によって実施される方法を提供する。当該方法は、
−手書き音楽符号を検出するステップと、
−前記手書き音楽符号を複数の基本インクセグメントにプレセグメント化するステップと、
−前記基本インクセグメントを基本インクセグメント間の空間的関係に基づいてグラフィックオブジェクトにグループ化するステップであって、ここで、各基本インクセグメントは、前記グラフィックオブジェクトのうちの１つ以上に属する、ステップと、
−各グラフィックオブジェクトについて、少なくとも１つの音楽記号候補を、前記グラフィックオブジェクトが前記音楽記号候補の所定のクラスに属する確からしさを代表する割り当て記号コストに関連付けて決定するステップであって、前記決定は、前記グラフィックオブジェクトから抽出されたグラフィック特徴に基づく、ステップと、
−前記音楽的記号候補を構文解析するステップと、
を含み、
ここで、前記構文解析するステップは、
・所定のセットの文法ルールのうちの少なくとも１つを前記音楽記号候補に適用することによって１つ以上のグラフを形成するステップであって、ここで、各グラフは、１セットの少なくとも１つの下位ノードに適用された文法ルールに対応する少なくとも１つの非末端ノードを備え、ここで、各下位ノードは、音楽記号候補に対応する末端ノード、または少なくとも１つの他の下位ノードに適用された文法ルールに対応する非末端ノードのいずれかである、ステップと、
・少なくとも２つの下位ノードに適用された各文法ルールを、前記適用された文法ルールの定義にしたがい、前記少なくとも２つの下位ノードのグラフィックオブジェクト間の空間的関係に基づいて、前記適用された文法ルールの適切性を代表する空間コストに関連付けるステップと、
・各音楽記号候補に関連付けられた前記記号コストおよび各適用された文法ルールに関連付けられた前記空間コストに基づいて、少なくとも１つの前記グラフを、前記手書き音楽符号の最も代表的なグラフとして選択するステップと、
を含む。

本発明は、記号コストおよび空間コストを考慮して最も適切なグラフを選択するので、手書き音楽符号に対して最良の記号表現を見つけることができる点で有利である。一方の記号コストと他方の空間コストとの相補性のおかげで、選択部は、対象の手書き音楽符号に対して最も適切な組み合わせのグラフを検出する。

音楽符号は、一般に、音楽家および作曲家に周知の標準の作曲ルールにしたがって描画される。本発明は、最適な認識効率を達成するために、音楽符号が通常書かれる際にしたがう特定のルールおよび方法を考慮する。

特定の実施形態において、前記形成ステップは、前記セットの文法ルールのそれぞれを前記音楽記号候補に適用することを再帰的に試みるステップを含む。

特定の実施形態において、前記構文解析ステップは、各グラフに対する総コストを、前記グラフの前記音楽記号候補に割り当てられた各記号コストおよび前記グラフにおいて適用された前記少なくとも１つの文法ルールに関連付けられた各空間コストを考慮して、計算するステップを含む。

特定の実施形態において、前記選択ステップは、各グラフについて得られた前記総コストに基づく。

特定の実施形態において、各グラフについての前記総コストは、前記グラフの少なくとも各空間コストおよび記号コストを合計することによって得られる。

特定の実施形態において、前記選択ステップは、前記検出された手書き音楽記号を表す各可能なグラフを決定し、最も低い総コストを有する前記グラフを選出するステップを含む。

特定の実施形態において、前記方法は、前記音楽記号認識装置のディスプレイ上に、前記少なくとも１つの選択されたグラフの前記記号候補を表示するステップを含む。

特定の実施形態において、表示される各記号候補は、前記ディスプレイ上に存在する前記対応のグラフィックオブジェクトに取って代わる。

特定の実施形態において、前記方法は、前記プレセグメント化ステップの前に、前記検出された手書き音楽記号を正規化するステップを含む。前記正規化ステップを前記検出された手書き音楽符号に適用することによって、前記検出された手書き音楽符号をその初期筆記スタイルに対して不変および独立とすることができる。

特定の実施形態において、前記少なくとも１つの音楽記号候補を決定するステップは、ニューラルネットワークによって行われる。ニューラルネットワークなどの分類器の学習能力は、前記決定ステップにおける分類効率を著しく向上することができる。決定部を訓練して、異なる人の異なるスタイルを学習させることができる。

特定の実施形態において、各文法ルールは、適用可能な場合に下記を定義する。
−音楽記号または１グループの音楽記号と少なくとも非末端ノードとの所定の関連付け
−前記関連付けにおいて少なくとも２つの下位ノードがある場合、前記下位ノードに対応する前記グラフィックオブジェクトの相互の空間的関係の関数としての、前記文法ルールの適切性を代表する前記空間コストの値

特定の実施形態において、前記方法は、前記検出された手書き音楽記号を最も代表するグラフとして選択された各グラフに基づいて構文木を生成するステップを含む。

特定の実施形態において、前記音楽記号候補を決定するステップは、前記グラフィックオブジェクトの静的グラフィック特徴および動的グラフィック特徴のうちの少なくとも１つを抽出するステップを含み、前記決定ステップは、前記抽出ステップの結果に基づく。

特定の実施形態において、前記検出ステップにおいて、前記音楽符号認識装置は、前記音楽符号認識装置の入力表面上でユーザによって入力された前記手書き音楽記号を検出する。

特定の実施形態において、本発明にかかる音楽記号を認識するための方法の様々なステップは、コンピュータプログラム命令によって規定される。

したがって、また、本発明は、記録媒体上のコンピュータプログラムを提供する。このコンピュータプログラムは、音楽記号認識装置、より一般にはコンピュータによって実施されるように構成される。このコンピュータプログラムは、上記のように音楽記号を認識するための方法の実施に適合するようにされた命令を備える。

本発明のコンピュータプログラムは、任意のプログラミング言語によって表現でき、ソースコード、オブジェクトコード、もしくはソースコードとオブジェクトコードとの間の任意の中間コード（例えば、部分的にコンパイルされた形態）の形態、または任意の他の適切な形態を取ることができる。

また、本発明は、音楽記号認識装置、より一般にはコンピュータ、によって読み取り可能な記録媒体を提供する。この記録媒体は、上記のようなコンピュータプログラム命令を備える。

上記の記録媒体は、前記コンピュータプログラムを記憶できる任意のエンティティまたはデバイスであり得る。例えば、前記記録媒体は、ＲＯＭメモリ（ＣＤ−ＲＯＭもしくはマイクロ電子回路に実装されたＲＯＭ）などの記憶手段、または例えばフロッピーディスクもしくはハードディスクなどの磁気記憶手段を備えることができる。

本発明の記録媒体は、電気もしくは光学ケーブルを介して、または電波もしくは任意の他の適切な手段によって伝搬され得る、電気または光学信号などの、伝送可能媒体に対応することができる。本発明にかかるコンピュータプログラムは、特に、インターネットまたは同様のネットワークからダウンロードできる。

あるいは、前記記録媒体は、コンピュータプログラムがロードされる集積回路に対応することができる。前記回路は、本発明の方法を実行するか、または本発明の方法の実行に使用されるように改変される。

また、本発明は、手書き音楽符号に基づいて音楽記号を認識するための音楽記号認識装置を提供する。前記装置は、
−手書き音楽符号を検出するための検出部と、
−前記手書き音楽符号を複数の基本インクセグメントにプレセグメント化するためのプレセグメント化部と、
−前記基本インクセグメントを基本インクセグメント間の空間的関係に基づいてグラフィックオブジェクトにグループ化するためのグループ化部であって、ここで、各基本インクセグメントは、前記グラフィックオブジェクトのうちの１つ以上に属する、グループ化部と、
−各グラフィックオブジェクトについて、少なくとも１つの音楽記号候補を、前記グラフィックオブジェクトが前記音楽記号候補の所定のクラスに属する確からしさを代表する割り当て記号コストに関連付けて決定するための決定部であって、前記決定は、前記グラフィックオブジェクトから抽出されたグラフィック特徴に基づく、決定部と、
−前記音楽的記号候補を構文解析する構文解析部と、
を含み、
ここで、前記構文解析部は、
・所定のセットの文法ルールのうちの少なくとも１つを前記音楽記号候補に適用することによって１つ以上のグラフを形成するための形成部であって、ここで、各グラフは、１セットの少なくとも１つの下位ノードに適用された文法ルールに対応する少なくとも１つの非末端ノードを備え、ここで、各下位ノードは、音楽記号候補に対応する末端ノード、または少なくとも１つの他の下位ノードに適用された文法ルールに対応する非末端ノードのいずれかである、形成部と、
・少なくとも２つの下位ノードに適用された適用文法ルールを、前記適用された文法ルールの定義にしたがい、前記少なくとも２つの下位ノードのグラフィックオブジェクト間の空間的関係に基づいて、前記適用された文法ルールの適切性を代表する空間コストに関連付けるための関連付け部と、
・各音楽記号候補に関連付けられた前記記号コストおよび各適用された文法ルールに関連付けられた前記空間コストに基づいて、少なくとも１つの前記グラフを、前記手書き音楽符号の最も代表的なグラフとして選択するための選択部と、
を含む。

なお、本発明にかかる音楽記号を認識するための方法に関して上記した様々な実施形態は、本発明の音楽記号認識装置と関連して同様に実施できる。さらに、音楽記号を認識するための方法の様々な実施形態に関して上記した利点および記載は、本発明にかかる音楽記号認識装置の様々な実施形態に同様に当てはまる。

特定の実施形態において、前記装置は、入力表面を含む。ここで、前記検出部は、前記入力表面上でユーザによって入力された手書き音楽記号を検出するように構成される。

特定の実施形態において、前記検出部は、ニューラルネットワークである。

本発明の他の特徴および利点は、あくまで非限定な例示を目的として与えられる、以下に記載の好適な実施形態を読む際により明らかとなり、かつ添付の図面からより明らかとなる。

図１は、本発明の特定の実施形態にかかる音楽記号認識装置の外観を示す図である。図２は、本発明の特定の実施形態にかかる図１の音楽記号認識装置の主要なハードウエア構成要素を示すブロック図である。図３は、本発明の特定の実施形態にかかる図１の音楽記号認識装置の主要な機能部を示すブロック図である。図４は、音楽記号認識装置の検出部、プレセグメント化部およびグループ化部が本発明の特定の実施形態にしたがってどのように動作するかを示す図である。図５は、音楽記号認識装置の検出部、プレセグメント化部およびグループ化部が本発明の特定の実施形態にしたがってどのように動作するかを示す図である。図６は、音楽記号認識装置の検出部、プレセグメント化部およびグループ化部が本発明の特定の実施形態にしたがってどのように動作するかを示す図である。図８Ａ〜８Ｆは、本発明の特定の実施形態にかかる音楽記号認識装置の形成部によって形成される様々なグラフを示す図である。図９は、本発明の特定の実施形態にかかる音楽記号を認識するための方法の主要なステップを示すフローチャートである。

上記のように、本発明は、入力デバイス上でユーザによって入力された手書き音楽符号、または後の処理のために電子フォーマット（例えば、電子文書）で予め記憶されているかまたは受け取られた手書き音楽符号に適用可能である。

本明細書において、用語「音楽符号」は、ユーザが音楽を作曲する際に描画し得る任意の種類の符号またはスコアに関する。例えば、音楽符号は、例えば、四分音符（または、「クロチェット」）、八分音符、二分音符（または、「ミニム」）、全音符、キー（ト音記号、ヘ音記号など）、単純拍子または複合拍子、四分休符、変化記号（フラット、シャープまたは付点音符）などを指し得る。各音符のピッチは、譜線（もしあれば）上のその位置に左右され得る。しかし、五線譜の使用は、本発明を実施するために必須ではないことが理解されるべきである。

音楽符号は、一般に音楽家および作曲家に周知の標準の作曲ルールにしたがって描画される。本発明は、最適な認識効率を達成するために、音楽符号が通常書かれる際にしたがう特定のルールおよび方法を考慮する。

以下に、本発明の特定の実施形態を図１〜９を参照して説明する。

図１は、本発明の特定の実施形態にかかる音楽記号認識を行うのに適した例示の音楽記号認識装置２を図示する。この場合、音楽記号認識装置２は、携帯型タッチスクリーンデバイス（例えば、タブレットコンピュータなど）であり、記載を簡単にするために以下では「端末２」と称す。

なお、例示の実施形態は、本明細書においてタブレットコンピュータ上に実装されるとして説明するが、当業者であれば、本明細書に記載の処理に対応する適切なプロセッサおよびメモリを有する装置などの任意のコンピュータのような装置上に実装され得ることを理解する。本発明の音楽記号認識装置は、情報携帯端末（ＰＤＡ）、携帯電話、ラップトップまたはデスクトップコンピュータなどであってもよい。

本例において、端末２は、ユーザが作曲する際に手書き音楽符号８を入力できるようにするタッチスクリーン４（または、デジタイザ）を含む。タッチスクリーン４は、ユーザによって入力された手書き音楽符号、および本実施形態にしたがって端末２によって行われる音楽記号認識の結果を表示するように動作可能である。

音楽符号入力は、スタイラス６、指などをタッチスクリーン４の表面に当てることによって行うことができる。このタッチスクリーン４は、ユーザがスタイラス６を用いてその上で行う動作をキャプチャすることができる。より詳細は後述するが、スタイラス６とタッチスクリーン４との間の接触は、デジタルインクのストロークを生成する。ユーザによって描画された様々なインクストロークは、対応する音楽記号に変換するために端末２によって処理される。

なお、本発明の音楽記号認識装置は、タッチスクリーン、より一般には音楽符号８を入力するためのユーザ入力インタフェース、を必ずしも含まない。

音楽記号認識装置は、予め電子フォーマット（例えば、電子文書）で記憶された音楽符号を得て、その音楽符号を相当する音楽記号に変換してもよい。あるいは、音楽記号認識は、端末２の外部から電子フォーマットで受け取った音楽符号を処理してもよい。

図２は、端末２の例示のハードウエアアーキテクチャを示す。この例において、端末２は、コンピュータのハードウエア構造を与える。特に、端末２は、コントローラ１０（例えば、プロセッサ）、ＲＡＭメモリ１２、ＲＯＭメモリ１４、書き換え可能不揮発性メモリ１６（例えば、ＥＥＰＲＯＭ型）、ユーザインタフェース１８、および端末２が外部デバイスと通信できる（例えば、ＷｉＦｉ技術に基づいて）ようにする通信インタフェース２０を備える。

コントローラ１０は、端末２のその他の構成要素とバスラインを介して協働する。

端末２の書き換え可能不揮発性メモリ１６は、本発明の特定の実施形態にかかる記録媒体を構成する。メモリ１６は、本発明の特定の実施形態にかかるコンピュータプログラムＰを含む。このコンピュータプログラムは、本発明の特定の実施形態にかかる方法を実施するための命令を備える。この方法の主要なステップ（Ｓ２〜Ｓ１８）を図９のフローチャートを特に参照して詳細に説明する。

メモリ１６に記憶されるクラスＣＬおよびセットＧＲの文法ルールは、以下に図４〜９を参照してより明らかとなる。

ユーザインタフェース１８は、ユーザが手書き音楽符号８を入力できるようにするための入力部１８Ａ、および端末８が手書き音楽符号８または本発明の音楽記号認識の結果として得られる対応の音楽記号を表示できるようにする出力部１８Ｂを含む。タッチスクリーン以外の入力および出力部が本発明の範囲内で考えられ得る。

本実施形態において、タッチスクリーン４は、入力表面および表示表面を同時に形成する。入力表面および表示表面がそれぞれに分かれている他の実施形態が考えられ得る（例えば、画面とは別のタッチパッド）。

上記のように、ユーザインタフェース１８を含むことは、本発明を行うために必須となるものではない。

図３は、本発明の特定の実施形態にかかるコンピュータプログラムＰを実行する際にコントローラ１０によって実施される機能部を示す機能図である。

本例において、端末２は、手書き音楽符号８を電子フォーマットで記憶するために使用可能な記憶部２４を含む。この目的のために、記憶部２４は、１つ以上の手書き音楽符号を含む電子文書を記憶してもよい。記憶部２４は、例えば、コントローラ１０の制御下に動作するメモリ１６によって実装されてもよい。

検出部２６は、手書き音楽符号（または、その一部）を検出するように動作可能である。検出される手書き音楽符号は、様々なソースから得られてもよい。検出部２６は、ユーザによってユーザインタフェース１８を用いて入力された手書き音楽符号を検出してもよい。あるいは、検出部２６は、記憶部２４から手書き音楽符号８を取り出してもよいし、および／または端末２外から（例えば、通信インタフェース２０を用いて）手書き音楽符号８を受け取ってもよい。各手書き音楽符号は、例えば、１セットの（ｘ，ｙ）座標によって表される。譜線は、作曲中のユーザを視覚的に助けるために表示されるのが好ましいが、これは必須ではない。

プレセグメント化部２８は、検出された手書き音楽符号を複数の基本インクセグメントにプレセグメント化するように動作可能である。より詳細は後述するが、基本インクセグメント（以下に、インクセグメントとも呼ぶ）は、手書き音楽符号の輪郭の任意の基本部分を定義する。基本インクセグメントは、例えば、前記符号の輪郭上に配置される２つの連続して隣接するセグメント化点によって区切られる。各インクセグメントは、手書き音楽符号またはその一部を表す。生成されたインクセグメントは、後で適切な音楽記号候補を決定するために使用される。

グループ化部３０は、インクセグメントをインクセグメント間の空間的関係に基づいてグラフィックオブジェクトにグループ化するように動作可能である。各インクセグメントは、１つ以上のグラフィックオブジェクトに属してもよい。

検出部（または、分類器）３２は、グループ化部３０によって形成された各グラフィックオブジェクトについて、少なくとも１つの音楽記号候補を割り当て記号コストに関連付けて決定するように動作可能である。検出部３２によって割り当てられた各記号コストは、対応するグラフィックオブジェクトがメモリ１６に記憶されたクラスＣＬのうちの決定された音楽記号候補の所定のクラスに属する確からしさを代表する。

この例において、記号コストが高くなるほど、音楽記号候補が対応するグラフィックオブジェクトの良い候補である確率が低くなる。あるいは、クラスが一致する確からしさが高くなるほど高くなる記号スコアを記号コストＳＣの代わりに使用してもよい。スコアは、関数（−ｌｏｇ）によってコストに変換できる。

検出部３２によって行われる決定は、記号認識処理を受けたグラフィックオブジェクトから抽出されるグラフィック特徴に基づく。

構文解析部３４は、手書き音楽符号をユーザにとって周知の意味を有する適切な音楽記号に変換するために検出部３２の出力を処理するように動作可能である。本実施形態において、構文解析部は、下記の３つの部（またはサブ部）を備える。
−形成部３６
−関連付け部３８
−選択部４０

形成部３６は、所定セットＧＲの文法ルール（メモリ１６に記憶される）からの少なくとも１つの文法ルールを検出部３２によって生成された音楽記号候補に適用することによって１つ以上のグラフを形成するように動作可能である。より詳細は後述するが、これらのグラフのそれぞれは、１セットの少なくとも１つの下位ノードに適用された文法ルールに対応する少なくとも１つの非末端ノードを備える。各文法ルールは、１つ以上の下位ノードに適用されるように定義される。各下位ノードは、音楽記号候補に対応する末端ノード、または少なくとも１つの他の下位ノードに適用された文法ルールに対応する非末端ノードのいずれかである。

末端ノードは、下位を全く有さないが、末端ノードは、グラフにおいて少なくとも１つの下位を有する。

上記のように、文法ルールは、その定義に応じて、１つ以上の下位ノードに適用可能である。関連付け部３８は、グラフにおいて少なくとも２つの下位ノードに適用された各文法ルールを、適用された文法ルールの適切性を代表する空間コストに関連付けるように動作可能である。その空間コストは、適用された文法ルールの定義にしたがって、その少なくとも２つの下位ノードのグラフィックオブジェクト間の空間的関係に基づいて決定される。

選択部４０は、各音楽記号候補に関連付けられた記号コストおよび各適用された文法ルールに関連付けられた空間コストに基づいて、少なくとも１つのグラフを、処理されている手書き音楽符号を最も代表するグラフとして選択するように動作可能である。

以下に、端末８によって実施される音楽記号を認識するための方法の例示の実施形態の主要なステップＳ２〜Ｓ１８を図４〜９を参照して説明する。端末２の上記機能部の動作は、図４〜９に例示される例示の実施形態からより明らかとなる。

この例において、検出部２６は、図４に例示するように手書き音楽符号ＭＡを検出する（Ｓ２）。この場合においてわかるように、検出された音楽符号ＭＡは、１つのフラット、２つの八分音符および１つの二分音符を連続して含む。これらの音楽符号は、譜線５０上のデジタルインクストロークによって表される。

音楽符号ＭＡは、ユーザによってユーザインタフェース１８の入力部１８Ａを用いて入力されるか、記憶部２４から取り出されるか、または端末２の外部から直接受け取るか（または、それらの任意の組み合わせ）のいずれでもよい。いずれにせよ、記憶部２４は、本発明にかかる音楽記号認識を実施する際に手書き音楽符号または任意の中間もしくは最終データ結果を記憶するために使用できる。

２つの八分音符は、それぞれ黒塗りの卵形符頭、およびその符頭の右側から上を向いた真っ直ぐな符尾（はた）のない符幹から形成される。２つの符幹は、連桁で接続される。二分音符は、白抜きの卵形符頭および符尾のない真っ直ぐな音符符幹で表される。

必要ならば、好適な実施形態において、端末２は、得られたデジタルインクストロークを正規化し、それによりこれらのストロークを初期筆記スタイルに対して不変および独立とするために、オプションの前処理（Ｓ４）をデジタルインクストロークに適用する。そのような前処理を適用するかどうかについての決定、適用する場合にはこの前処理の性質についての決定は、例えば、音楽記号認識を行うために必要な品質レベルに左右され得る。

この正規化ステップＳ４は、とりわけ、下記の変換（または、その任意の組み合わせ）のいずれかを含んでもよい。
−信号センタリングに基づくか、または譜線位置に関して、位置正規化することによって、入力信号の第１の均質化を可能にする
−五線譜インターラインまたは任意の他の基準サイズについてのサイズ正規化
−平滑化アルゴリズム（例えば、Ｂスプラインまたはベジール曲線フィッテイング）に基づく信号平滑化。これは、例えば、低空間解像度の場合に有用である
−点補間。これは、例えば、低取得解像度の場合に有用である

当業者には明らかであるが、この前処理は、上記に列挙しなかった任意の他の正規化基準に基づいてもよい。

図５に示すように、一旦前処理ステップＳ４が完了すると、プレセグメント化部２８は、手書き音楽符号ＭＡを複数の基本インクセグメントにプレセグメント化することを行う（Ｓ６）。そうするために、音楽符号ＡＭのデジタルインクストロークは、基本インクセグメントＳＧ１〜ＳＧ８にセグメント化される。これらのインクセグメントＳＧは、後の音楽記号の認識のために端末２によって処理され得る最小のインクパーツを構成する。

プレセグメント化ステップＳ６は、ストロークをその構成セグメントに分解するための位置を定義する特定の点の検出に基づく。そのような特定の点は、例えば、２つのインクストローク間の交点、インクストロークの傾きの変化、符号内の特定の角度などに対応してもよい。理解され得るように、手書き音楽符号を基本インクセグメントに分解するために様々な技術が使用され得る。当業者であれば、そのようなプレセグメント化をどのように実施するかがわかるので、この点についてのさらなる詳細は省略する。

本例において、フラット符号は、インクセグメントＳＧ１およびＳＧ２に分解される。さらに、２つの高さ音符は、２つの黒塗りの符頭、２つの対応の符幹およびその間の連桁にそれぞれ対応するインクセグメントＳＧ３〜ＳＧ７に分解される。二分音符は、インクセグメントＳＧ８およびＳＧ９に分解される。しかし、この特定の例において、他のインクセグメント化を考えてもよい。

図６に示すように、次いでグループ化部３０は、基本インクセグメントＳＧ１〜ＳＧ９を、それぞれ少なくとも１つのインクセグメントを含む特定のセットにグループ化する（Ｓ８）。各セットは、本例において、ＧＯ１〜ＧＯ９として参照されるグラフィックオブジェクトＧＯを形成する。各グラフィックオブジェクトは、この段階で端末２に対して記号的な意味を有さないエンティティを構成する。これらのエンティティは、後で端末２によって処理され、適切な音楽記号に変換される。

この例において、例えば、２つの第１のインクセグメントＳＧ１およびＳＧ２は、フラットを表す第１のグラフィックオブジェクトＧＯ１を形成するようにグループ化される。

上記のように、各インクセグメントＳＧ１〜ＳＧ９は、生成されたグラフィックオブジェクトＧＯ１〜ＧＯ９のうちの１つ以上に属する。グラフィックオブジェクトＧＯ５は、例えば、グラフィックオブジェクトＧＯ６およびＧＯ７を、２つのインクセグメントＳＧ５およびＳＧ６を接続する連桁とともに含む。しかし、音楽記号を認識するために使用される実施内容に応じて、他の様々なグループ化がなされ得る。

グループ化動作Ｓ８は、基本インクセグメント間の空間的関係に基づいて行われる。この特定の例において、グループ化部３０は、下記の判断基準のうちの少なくとも１つに基づいて、インクセグメントＳＧ１〜ＳＧ９をグラフィックオブジェクトＧＯ１〜ＧＯ９にグループ化する。
−インクセグメント間の距離
−インクセグメントの相対的な水平および／または垂直位置
−インクセグメント間で異なり得る任意の関連インク性質（例えば、サイズ）

任意の他の適切な判断基準を各特定の場合における必要性に応じて適用してもよいことは言うまでもない。

ステップＳ８の完了後、検出部（または、分類器）３２は、グループ化部３０によって生成された各グラフィックオブジェクトＧＯ１〜ＧＯ９について、少なくとも１つの音楽記号候補ＭＳＣを割り当て記号コストＳＣに関連付けて決定する（Ｓ１０）。決定ステップＳ１０の結果は、図７に示すように、表の形態で表すことができる。この表は、前記グラフィックオブジェクトＧＯ１〜ＧＯ９のそれぞれについて、検出部３２によって決定された音楽記号候補ＭＳＣおよびそれぞれの割り当て記号コストＳＣを列挙する。

各割り当て記号コストＳＣは、それぞれのグラフィックオブジェクトがメモリ１６に記憶されたクラスＣＬのうちの所定のクラスに属する確からしさを代表する。記号候補リストは、あるグラフィックオブジェクトが入力として与えられた、最も確からしいクラスを考慮して構築される。

この例において、コストＳＣが低くなるほど、グラフィックオブジェクトが所定のクラスに対応する確からしさが高くなる。あるいは、クラスが一致する確からしさが高くなるにつれ高くなる記号スコアを記号コストＳＣの代わりに使用してもよい。上記のように、スコアは、関数（−ｌｏｇ）によってコストに変換できる。

プログラマは、クラスを生成または削除し、その定義を改変して各特定の場合の要件を満たすことができることは言うまでもない。

クラスは、少なくとも１つのグラフィック特徴判断基準に関して、特定の音楽記号を描画する１つまたは様々な方法を規定する。その結果、検出部３２は、グラフィックオブジェクトのグラフィック特徴に基づいて、所定のクラスから音楽記号を認識することを学習できる。

クラスは、検出部３２によって認識可能な音楽記号（例えば、符幹、黒符頭、白符頭、フラットサインなど）のうちの１つに対応する。記号候補は、特定のグラフィックオブジェクトに対するクラスの例である。

検出部３２は、上記決定ステップＳ１０を、グラフィックオブジェクトＧＯ１〜ＧＯ９のそれぞれから抽出されたグラフィック（または、幾何学的）特徴に基づいて行う。検出部３２は、各グラフィックオブジェクトのグラフィック特徴と所与のセットＣＬのクラスとを比較し、一致するものを探す。所与のグラフィックオブジェクトのグラフィック特徴が特定のクラスの定義と一致（すくなくともある程度）すれば、検出部３２は、その所与のグラフィックオブジェクトは、この特定のクラスに属する可能性があると推定し、次いでそのクラスの記号候補がそのグラフィックオブジェクトの候補リストに追加される。

決定ステップＳ１０は、例えば、グラフィックオブジェクトの所定の静的グラフィック特徴、グラフィックオブジェクトの所定の動的グラフィック特徴、またはその両方に基づくことができる。

特定の実施形態において、音楽記号候補の決定ステップＳ１０は、上記グラフィックオブジェクトＧＯの静的グラフィック特徴および動的グラフィック特徴のうちの少なくとも１つを抽出するステップを含む。この決定ステップＳ１０は、その抽出ステップの結果に基づく。

動的情報は、例えば、スタイラス６の軌跡から抽出でき、グラフィックオブジェクトを形成するインクストロークの位置、方向および曲率などの情報に基づく。他方、静的情報は、例えば、インクのビットマップ表現から演算でき、通常、射影および／またはヒストグラムに基づく。

図７に示す結果からわかるように、１つまたは数個の音楽記号候補が各グラフィックオブジェクトについて決定され得る。グラフィックオブジェクトＧＯ２について、例えば、音楽記号候補は、明らかに不適切である。結果として、検出部３２によって割り当てられた対応の記号コストＳＣ２１は、非常に高く、音楽記号候補ＭＳＣ２１がグラフィックオブジェクトＧＯ２の良好な候補である確率が低いことを意味する。

ある場合に、検出部３２は、特定のグラフィックオブジェクトが属し得るクラスを見つけられず、それぞれの音楽記号候補が出力されないことがあり得る。これは、例えば、グラフィックオブジェクトがグループ化部３０によって良好に定義されなかった場合に起こり得る。

特定の実施形態において、検出部３２は、分類器である。非限定的な例示の目的で、検出部３２は、下記の手段の少なくとも１つに基づいてもよい。
−コホネンニューラルネットワーク
−サポートベクターマシン
−カーネル法
−隠れマルコフモデル
−ニューラルネットワーク
−他のパターン認識パラダイム

オンラインのペンベースの入力機構から得られる音楽記号を識別するための、例えば、ニューラルネットワーク分類器の使用は、当業者に周知されているので、本明細書においては詳細を省略する。より具体的には、音楽記号認識に対するニューラルネットワークに基づく（ＡＮＮ）アプローチは、過去にすでに考えられてきた。ＡＮＮは、訓練プロセスを介してパターンを認識することを「学習」しなければならないパターン認識の統計的方法として使用できる。特定の実施形態において、ネットワークノード間の「重み」に関して表現される、ＡＮＮのパラメータは、訓練段階中に調整される。一旦訓練されると、ネットワークは、新たな音楽符号が与えられると、以前にそれと完全に一致するものに出会っていなくても、その新たな音楽符号を処理および分類することが可能である。

これらのＡＮＮシステムの学習能力は、ステップＳ１０における分類効率を著しく向上できる。検出部３２は、異なる人の異なるスタイルを学習するように訓練できる。

ＡＮＮの広く使用されている形態である多層パーセプトロン（ＭＬＰ）を本実施形態における検出部３４として使用して、決定ステップＳ１０を行うことができる。

特定の実施形態において、決定ステップＳ１０の段階において、検出部３２によって提示される音楽記号候補のうちのいくつかは、その記号コストが所定の閾値より高いか、またはその反対に低い場合に、直ちに棄却または有効とすることができる。特定の実施形態において、検出部３２は、非常に低い確率を有する（例えば、所定の閾値より高い記号コストを有する）音楽記号候補を切り捨てるように構成される。切り捨ては、処理対象のデータの量を低減し、速度および資源使用効率を増加させることができる。音楽記号候補を保持または棄却することを可能にするこの閾値は、例えば、特定の認識処理について達成したい認識の関連性レベルに基づいて、ユーザによって構成されてもよいことが理解されるべきである。

次いで、構文解析部３４は、音楽記号候補を構文解析して（Ｓ１２）、各グラフィックオブジェクトに対して最も適切な音楽記号候補を決定する。この例において、この構文解析動作Ｓ１２は、さらに以下に記載のステップＳ１４、Ｓ１６およびＳ１８を含む。

より詳細には、形成部３６は、所定セットＧＲの文法ルールのうちの少なくとも１つを、検出部３２によって予め決定された音楽記号候補に適用することによって、１つ以上のグラフを形成する（Ｓ１４）。

図８Ａ〜８Ｅは、本場合において、形成部３６によって形成された（Ｓ１４）例示のグラフＧＲ１〜ＧＲ９を示す。

上記のように、グラフＧＲ１〜ＧＲ９のそれぞれは、１セットの少なくとも１つの下位ノードに適用される文法ルールに対応する少なくとも１つの非末端ノードを備える。各下位ノードは、検出部３２によって予め決定された音楽記号候補のうちの１つに対応する末端ノード（すなわち、下位を有さないノード）、または少なくとも１つの他の下位ノードに適用された文法ルール（セットＧＲのうちの文法ルール）に対応する非末端ノード（すなわち、少なくとも１つの下位ノードを有するノード）のいずれかである。

図８Ａ〜８Ｅにおける例示のグラフからわかるように、文法ルールは、その定義に応じて、１つの下位ノードまたは複数の下位ノードのいずれかに適用可能であり得る。

本実施形態において、形成部３６は、メモリ１６に記憶された所定のセットＧＲのうちの各文法ルールを、検出部３２によって予め得られた音楽記号候補ＭＳＣに適用しようとする。

特定の実施形態において、形成部３６は、所定のセットＧＲの各文法ルールを各音楽記号候補に適用することを再帰的に試みる。上記のように、各文法ルールは、１つまたは数個の下位ノードに適用できる。特定の実施形態において、形成部３６は、各文法ルールの定義に規定されるように、その文法ルールを複数の下位ノードに適用しようとする。

特定の文法ルールは、特定のセットの少なくとも１つの音楽記号候補に適用可能であってもよいし、適用可能でなくてもよい。適用可能な場合、形成部３６は、その文法ルールの定義にしたがってグラフを出力する。適用可能でなければ、グラフは、出力されない。

特定の実施形態において、ステップＳ１４において適用される各文法ルールは、特定の音楽記号または１グループの音楽記号と少なくとも非末端ノードとの所定の関連付けを定義する。

上記のように、形成部３６は、少なくとも１つの文法ルールを検出部３２によって予め決定された音楽記号候補に適用することによって１つ以上のグラフを形成する（Ｓ１４）。形成部３６がグラフを構築する方法は、各場合に応じて変化し得るし、プログラマまたはユーザによって適宜改変され得る。図８Ａ〜８Ｅは、非限定的な例示の目的で提供されるのみである。実施例を説明するために、わずかではあるが可能なグラフを図示する。しかし、この特定の例において、本発明の原理に基づいて他のグラフが形成され得ることが理解されるべきである。

図８Ａに示すように、形成部３６は、「識別」ルールをＭＳＣ１１に適用することによってグラフＧＲ１を生成し、同じ識別ルールをＭＳＣ１２に適用することによって同じやり方でグラフＧＲ２を生成する。グラフＧＲ１は、この場合に適用される識別ルールに対応する非末端ノードＮＤ１、およびこの場合において音楽記号候補ＭＳＣ１１に対応する末端ノードである１つの下位ノードによって形成される。同様に、非端末ＮＤ２および１つの末端ノードＤＮ２１によってグラフＧＲ２が形成される。

この実施形態において、１つの下位ノードに適用するだけの識別ルールによっては、音楽記号候補の関連付けは行われない。識別ルールは、特定の音楽記号候補をそれ自体で意味のあるエンティティとして識別する。

図８Ｂに示すように、形成部３６は、さらに「変化」ルールをＭＳＣ１２およびＭＳＣ３２に適用することによってグラフＧＲ３を生成し、変化ルールをＭＳＣ１２およびＭＳＣ３１に適用することによって同じやり方でグラフＧＲ４を生成する。グラフＧＲ３は、この場合に適用される変化ルールに対応する非末端ノードＮＤ３、およびこの場合にＭＳＣ１２およびＭＳＣ３２にそれぞれ対応する２つの末端ノードである２つの下位ノードによって形成される。同様に、非末端ノードＮＤ４ならびに２つの下位末端ノードＤＮ４１およびＤＮ４２によってグラフＧＲ４が形成される。

本例において、変化ルールは、フラットなどの変化を音符に関連付けるように設計される。変化ルールの定義によると、変化は、変化対象の音符の前に位置しなければならない。

さらに、関連付け部３８は、少なくとも２つの下位ノードに適用された各文法ルールを、適用された文法ルールにしたがい、その少なくとも２つの下位ノードのグラフィックオブジェクト間の空間的関係に基づいて、適用された文法ルールの適切性を代表する空間コストＰＣに関連付ける（Ｓ１６）。

この特定の例において、関連付け部３８は、下記の判断基準のうちの少なくとも１つに基づいて空間コストＰＣを決定した。
−グラフィックオブジェクト間の距離
−グラフィックオブジェクトの相対的な水平および／または垂直位置
−インクセグメントどうしを異ならせ得る任意の関連インク性質（例えば、サイズ）

任意の他の適切な判断基準を、各特定の場合の必要性に応じて、適用してもよいことは言うまでもない。

形成部３６および関連付け部３８は、２つの別個の機能部、または形成ステップＳ１４および関連付けステップＳ１６を行うように動作可能な１つの同じ機能部のいずれかとしてみなすことができる。形成および関連付けステップＳ１４、Ｓ１６は、任意の適切な順番で行うことができる。例えば、空間コストＰＣは、グラフが形成されたら直ちに計算され、割り当てられる。あるいは、空間コストＰＣは、予め形成された様々なグラフに対して同じ段階で計算され得る。

図８Ａからわかるように、識別ルールは、空間コストＰＣが関連付け部３６によってグラフＧＲ１およびＧＲ２に割り当てられないように、１つの下位末端ノードだけに適用するように定義される。

しかし、図８Ｂに示すように、関連付け部３８は、空間コストＰＣ１およびＰＣ２を決定し、グラフＧＲ３およびＧＲ４をそれぞれ空間コストＰＣ３およびＰＣ４に関連付ける（Ｓ１６）。

特定の実施形態において、各文法ルールは、適用可能な場合に、下記を定義する。
−音楽記号または１グループの音楽記号の少なくとも非末端ノードとの所定の関連付け
−その関連付けにおいて少なくとも２つの下位ノードが存在するならば、その下位ノードに対応するグラフィックオブジェクトの相互の空間的関係の関数として、その文法ルールの適切性を代表する空間コストの値

特定の実施形態において、空間コストは、文法ルール内でグラフィックオブジェクトを隔てている距離から推定される。例えば、図１０に示すように、符幹ルールのコスト関数は、符幹と符頭との間の水平間隔ｄｘおよび符幹の底部と符頭の中央との間の垂直並びの（ａｌｉｇｎｍｅｎｔ）差ｄｙに基づく。この場合、空間コストＰＣは、下記の式に基づいて計算される。

コスト＿符幹ルール＝ｆ（ｄｘ）＋ｆ（ｄｙ）

図８Ｃに示すように、また、形成部３６は、グラフＧＲ５およびＧＲ６を形成する（Ｓ１４）。グラフＧＲ５は、「符幹」ルールを２つの下位ノードに適用することによって形成される。すなわち、
−ＭＳＣ１２およびＭＳＣ３２に適応された変化ルールに対応するグラフＧＲ３の非末端ノードＮＤ３
−音楽記号候補ＭＳＣ４１に対応する末端ノードＤＮ５１

言い換えると、グラフＧＲ５における符幹ルールは、グラフＧＲ３において適用された変化ルールおよびＭＳＣ４１に適用される。本場合に、符幹ルールは、符頭を符幹に関連付けて、その関連付けを音符として識別するように定義される。

加えて、関連付け部３８は、空間コストＰＣ５をグラフＧＲ５の符幹ルール（非末端ノードＮＤ５）に関連付ける（Ｓ１６）。

グラフＧＲ６は、符幹ルールをグラフＧＲ４の非末端ノードＮＤ４およびＭＳＣ４１に対応する下位の末端ノードＤＮ６１に適応することによって同様の方法で形成される。空間コストＰＣ６は、関連付け部３８によってグラフＧＲ６における非末端ノードＮＤ６に割り当てられる（Ｓ１６）。

上記の例からわかるように、形成部３６は、音楽記号候補から様々なグラフを構築し、それらの間の最も適切な関連付けを文法ルールの利用可能なセットＧＲにしたがって行うように動作可能である。

図８Ｄに示すように、本例において、形成部は、「連桁開始」ルールをグラフＧＲ６、およびグラフＧＲ８の非末端ノードに適用することによってグラフＧＲ７を形成する（Ｓ１４）。グラフＧＲ８は、「連桁終了」ルールをＭＳＣ５１、およびグラフＧＲ９の非末端ノードに適用することによって形成される。グラフＧＲ９は、黒塗りの符頭および上向きの符幹から構成されるノードを識別するために、符幹ルールをＭＳＣ７１およびＭＳＣ６１に適用することによって形成される。グラフＧＲ８の連桁開始ルールおよび連桁終了ルールは、２つの音符を接続する連桁としてＭＳＣ５１を認識することがわかる。

空間コストＰＣ７、ＰＣ８およびＰＣ９が、適宜、関連付け部３８によってグラフＧＲ７、ＧＲ８およびＧＲ９のそれぞれに割り当てられる（Ｓ１６）。

なおさらに、図８Ｅに示すように、形成部３６は、符幹ルールをＭＳＣ８１およびＭＳＣ９１に適用することによってグラフＧＲ１０を形成し、符幹ルールをＭＳＣ８２およびＭＳＣ９１に適用することによってグラフＧＲ１１を形成する。空間コストＰＣ１０およびＰＣ１１が関連付け部３８によってグラフＧＲ１０およびＧＲ１１にそれぞれ関連付けられる（すなわち、対応する文法ルールを用いて関連付けられる）（Ｓ１６）。

ステップＳ１８において、選択部４０は、各音楽記号候補に関連づけられた記号コストおよび各適用された文法ルールに関連付けられた空間コストに基づいて、形成部３６によって形成される少なくとも１つのグラフを、手書き音楽符号ＭＡを最も代表するグラフとして選択する（Ｓ１８）。

図８Ｆに示すように、本例において、形成部３６は、「構文木」とも呼ばれる完全なグラフＧＲ１２を形成する（Ｓ１４）。完全なグラフＧＲ１２は、図４に示す手書き音楽符号ＭＡ全体を表すのでそう呼ばれる。グラフＧＲ１２は、「水平ペア」ルールを上記グラフＧＲ７およびＧＲ１０に適用することによって形成される。水平ペアルールによって形成される非末端ノードは、関連付け部３８によって空間コストＰＣ１２に関連付けられる。

この例において、選択部４０は、グラフＧＲ１２を、手書き音楽符号ＭＡを最も代表するグラフとして選択する（Ｓ１８）。この選択は、下記に基づいて行われる。
−グラフＧＲ１２の各音楽記号候補に関連付けられた記号コストＳＣ、すなわち、ＳＣ１２、ＳＣ３１、ＳＣ４１、ＳＣ５１、ＳＣ７１、ＳＣ６１、ＳＣ８１およびＳＣ９１
−グラフＧＲ１２を形成するために適用された各文法ルールに関連付けられた空間コストＰＣ、すなわち、ＰＣ４、ＰＣ６〜ＰＣ１０およびＰＣ１２

選択部４０が最も適切なグラフを選択するように最終の構文木を生成することは、好ましいが必須ではない。選択部４０は、手書き音楽符号ＭＡの記号バージョンを組み合わせにより表す複数のより小さなグラフを選択してもよい。

本発明の利点は、記号コストおよび空間コストを考慮して最も適切なグラフを選択するので、手書き音楽符号に対して最も良好な記号表現を見つけることができることである。一方の記号コストと他方の空間コストとの相補性のおかげで、選択部４０は、対象の手書き音楽符号に最も適切なグラフの組み合わせを検出する。

特定の実施形態において、選択部４０は、形成部３６によって形成された各グラフについて（またはおそらくは、上記のように切り捨てが行われる場合の、形成部３６によって維持される各グラフについて）、これらのグラフの音楽記号候補ＭＳＣに割り当てられた各記号コストＳＣおよびそのグラフにおいて適用された文法ルールに関連付けられた各空間コストＰＣ（もしあれば）を考慮に入れた総コストＴＣを計算する。

好適な実施形態において、選択部４０は、各グラフに対して得られた総コストＴＣに基づいて最も代表的なグラフを選択する（Ｓ１８）。

特定の実施形態において、各グラフに対する総コストＴＣは、そのグラフの少なくとも各空間コストＰＣおよび記号コストＳＣを合計することによって得られる。例えば、グラフ１２の総コストＴＣ１２は、下記のように計算することができる。

ＴＣ１２＝ＴＳＣ１２＋ＴＰＣ１２

ここで、ＴＳＣ１２（ＧＲ１２に対する総記号コスト）およびＴＰＣ１２（ＧＲ１２に対する総空間コスト）は、下記の通りである。

ＴＳＣ１２＝ＳＣ１２＋ＳＣ３１＋ＳＣ４１＋ＳＣ５１＋ＳＣ６１＋ＳＣ７１＋ＳＣ８１＋ＳＣ９１
ＴＰＣ１２＝ＰＣ４＋ＰＣ６＋ＰＣ７＋ＰＣ８＋ＰＣ９＋ＰＣ１０＋ＰＣ１２

上記の例において、総コストは、重みづけをすることなく、各記号コストおよび空間コストを合計することによって計算される（すなわち、すべての重みの合計が１に等しい）。変形例において、この合計の各コストは、総コストＴＣ１２の計算において、多少の重要度を与えるように適宜重みづけできる。重み係数は、各状況に対して認識システムを最適化するようにユーザまたはプログラマによって改変できる。

特定の実施形態において、選択部４０は、検出された手書き音楽符号を表す各可能なグラフを決定し、最も低い総コストを有する１つ以上のグラフを選択する。上記の例に戻ると、グラフＧＲ１２がこの特定の実施形態にしたがって選択部４０によって選択される。なぜなら、グラフＧＲ１２は、他の形成された（または、維持された）グラフの総コストと比較して最も低い総コストＴＣ１２を有するからである。

特定の実施形態において、上記方法は、選択部４０によって選択されたグラフに含まれる１つ以上の記号候補を上記端末２によって表示させるステップをさらに含む。例えば、この選択の結果は、図２に示す出力部１８Ｂ（例えば、図１に示すタッチスクリーン４）上に、端末２によって適切な順番で表示される。

選択されたグラフを表示する様々な方法が本発明において考えられ得る。特定の実装例において、表示される各記号候補は、ディスプレイ上に存在する対応のグラフィックオブジェクトに取って代わる。その結果、ユーザは、所与の手書き音楽符号が予め描画された位置に、端末２によって認識された対応の音楽記号を見ることができる。

好ましくは、音楽記号認識装置は、選択された音楽記号候補をリアルタイム（または、ほぼリアルタイム）で表示して、ユーザに、ユーザの手書きを適切な標準化された音楽記号に即時に変換するような能力を有し、そのように構成される。

好ましくは、選択された音楽記号は、所定の設定パラメータ（フォントサイズ、色など）にしたがって表示される。

特定の実施形態において、また、選択部４０は、統計的言語モデルを使用して、最も適切なグラフを選択する。言語モデルは、事前の統計的知識に基づいて音楽記号シーケンスの確率を決定可能にする。この言語モデルは、例えば、ユーザ入力履歴、および／または音楽スコアの大きなデータベースから推定される、許可または不許可にされる言語の関連付けを定義する１セットのルールに基づいて構築できる。特定の実施形態において、選択部４０は、少なくとも２つの音楽記号候補に適用された１つ以上の文法ルールに対して言語コストＬＣを計算する。言語モデルが使用される場合、選択部４０は、記号および空間コストに加えて、各計算された言語モデルＬＣを考慮するように構成される。言語モデルを使用することによって、本発明の音楽記号認識処理の効率をさらに向上することが可能になる。

Claims

音楽記号を手書き音楽符号に基づいて認識するための音楽記号認識装置によって実施される方法であって、前記方法は、
−手書き音楽符号を検出するステップと、
−前記手書き音楽符号を複数の基本インクセグメントにプレセグメント化するステップと、
−前記基本インクセグメントを基本インクセグメント間の空間的関係に基づいてグラフィックオブジェクトにグループ化するステップであって、ここで、各基本インクセグメントは、前記グラフィックオブジェクトのうちの１つ以上に属する、ステップと、
−各グラフィックオブジェクトについて、少なくとも１つの音楽記号候補を、前記グラフィックオブジェクトが前記音楽記号候補の所定のクラスに属する確からしさを代表する割り当て記号コストに関連付けて決定するステップであって、前記決定は、前記グラフィックオブジェクトから抽出されたグラフィック特徴に基づく、ステップと、
−前記音楽的記号候補を構文解析するステップと、
を含み、
ここで、前記構文解析するステップは、
・所定のセットの文法ルールのうちの少なくとも１つを前記音楽記号候補に適用することによって１つ以上のグラフを形成するステップであって、ここで、各グラフは、１セットの少なくとも１つの下位ノードに適用された文法ルールに対応する少なくとも１つの非末端ノードを備え、ここで、各下位ノードは、音楽記号候補に対応する末端ノード、または少なくとも１つの他の下位ノードに適用された文法ルールに対応する非末端ノードのいずれかである、ステップと、
・少なくとも２つの下位ノードに適用された各文法ルールを、前記適用された文法ルールの定義にしたがい、前記少なくとも２つの下位ノードのグラフィックオブジェクト間の空間的関係に基づいて、前記適用された文法ルールの適切性を代表する空間コストに関連付けるステップと、
・各音楽記号候補に関連付けられた前記記号コストおよび各適用された文法ルールに関連付けられた前記空間コストに基づいて、少なくとも１つの前記グラフを、前記手書き音楽符号の最も代表的なグラフとして選択するステップと、
を含む、方法。
前記形成ステップは、前記セットの文法ルールのそれぞれを前記音楽記号候補に適用することを再帰的に試みるステップを含む、請求項１に記載の方法。
前記構文解析ステップは、各グラフに対する総コストを、前記グラフの前記音楽記号候補に割り当てられた各記号コストおよび前記グラフにおいて適用された前記少なくとも１つの文法ルールに関連付けられた各空間コストを考慮して、計算するステップを含む、請求項１または２に記載の方法。
前記選択ステップは、各グラフについて得られた前記総コストに基づく、請求項３に記載の方法。
各グラフについての前記総コストは、前記グラフの少なくとも各空間コストおよび記号コストを合計することによって得られる、請求項３または４に記載の方法。
前記選択ステップは、前記検出された手書き音楽記号を表す各可能なグラフを決定し、最も低い総コストを有する前記グラフを選出するステップを含む、請求項４または５に記載の方法。
前記音楽記号認識装置のディスプレイ上に、前記少なくとも１つの選択されたグラフの前記記号候補を表示するステップを含む、請求項１〜６のうちのいずれか１つに記載の方法。
表示される各記号候補は、前記ディスプレイ上に存在する前記対応のグラフィックオブジェクトに取って代わる、請求項７に記載の方法。
前記プレセグメント化ステップの前に、前記検出された手書き音楽記号を正規化するステップを含む、請求項１〜８のうちのいずれか１つに記載の方法。
前記少なくとも１つの音楽記号候補を決定するステップは、ニューラルネットワークによって行われる、請求項１〜９のうちのいずれか１つに記載の方法。
各文法ルールは、適用可能な場合に、
−音楽記号または１グループの音楽記号と少なくとも非末端ノードとの所定の関連付け
−前記関連付けにおいて少なくとも２つの下位ノードがある場合、前記下位ノードに対応する前記グラフィックオブジェクトの相互の空間的関係の関数としての、前記文法ルールの適切性を代表する前記空間コストの値
を定義する、請求項１〜１０のうちのいずれか１つに記載の方法。
前記検出された手書き音楽記号を最も代表するグラフとして選択された各グラフに基づいて構文木を生成するステップを含む、請求項１〜１１のうちのいずれか１つに記載の方法。
前記音楽記号候補を決定するステップは、前記グラフィックオブジェクトの静的グラフィック特徴および動的グラフィック特徴のうちの少なくとも１つを抽出するステップを含み、前記決定ステップは、前記抽出ステップの結果に基づく、請求項１〜１２のうちのいずれか１つに記載の方法。
前記検出ステップにおいて、前記音楽符号認識装置は、前記音楽符号認識装置の入力表面上でユーザによって入力された前記手書き音楽記号を検出する、請求項１〜１３のうちのいずれか１つに記載の方法。
コンピュータプログラムであって、前記コンピュータプログラムがコンピュータ上で実行される場合に、請求項１〜１４のうちのいずれか１つに記載の方法を実施するための命令を備えるコンピュータプログラム。
コンピュータによって読み取り可能な記録媒体であって、請求項１〜１４のうちのいずれか１つに記載の方法を実施するための命令を備えるコンピュータプログラムを記憶する記録媒体。
手書き音楽符号に基づいて音楽記号を認識するための音楽記号認識装置であって、前記装置は、
−手書き音楽符号を検出するための検出部と、
−前記手書き音楽符号を複数の基本インクセグメントにプレセグメント化するためのプレセグメント化部と、
−前記基本インクセグメントを基本インクセグメント間の空間的関係に基づいてグラフィックオブジェクトにグループ化するためのグループ化部であって、ここで、各基本インクセグメントは、前記グラフィックオブジェクトのうちの１つ以上に属する、グループ化部と、
−各グラフィックオブジェクトについて、少なくとも１つの音楽記号候補を、前記グラフィックオブジェクトが前記音楽記号候補の所定のクラスに属する確からしさを代表する割り当て記号コストに関連付けて決定するための決定部であって、前記決定は、前記グラフィックオブジェクトから抽出されたグラフィック特徴に基づく、決定部と、
−前記音楽的記号候補を構文解析する構文解析部と、
を含み、
ここで、前記構文解析部は、
・所定のセットの文法ルールのうちの少なくとも１つを前記音楽記号候補に適用することによって１つ以上のグラフを形成するための形成部であって、ここで、各グラフは、１セットの少なくとも１つの下位ノードに適用された文法ルールに対応する少なくとも１つの非末端ノードを備え、ここで、各下位ノードは、音楽記号候補に対応する末端ノード、または少なくとも１つの他の下位ノードに適用された文法ルールに対応する非末端ノードのいずれかである、形成部と、
・少なくとも２つの下位ノードに適用された適用文法ルールを、前記適用された文法ルールの定義にしたがい、前記少なくとも２つの下位ノードのグラフィックオブジェクト間の空間的関係に基づいて、前記適用された文法ルールの適切性を代表する空間コストに関連付けるための関連付け部と、
・各音楽記号候補に関連付けられた前記記号コストおよび各適用された文法ルールに関連付けられた前記空間コストに基づいて、少なくとも１つの前記グラフを、前記手書き音楽符号の最も代表的なグラフとして選択するための選択部と、
を含む、音楽記号認識装置。
入力表面であって、ここで、前記検出部は、前記入力表面上でユーザによって入力された手書き音楽記号を検出するように構成される、入力表面を含む、請求項１７に記載の装置。
前記検出部は、ニューラルネットワークである、請求項１７または１８である装置。