JP2018533076A

JP2018533076A - 音楽言語のコンピュータ支援教育のシステムおよび方法

Info

Publication number: JP2018533076A
Application number: JP2018528018A
Authority: JP
Inventors: コレン，モレル; コレン，ツィッピー; エレル，アドラム
Original assignee: Koren Morel; Koren Tzipi
Current assignee: Koren Morel; Koren Tzipi
Priority date: 2015-10-25
Filing date: 2016-10-20
Publication date: 2018-11-08
Also published as: WO2017072754A3; IL258883B; US20180308382A1; EP3365883A2; WO2017072754A2; US10134300B2; IL258883A; RU2690863C1; EP3365883A4

Abstract

発明の主題は、書かれた音楽言語を教育および学習するコンピュータ化されたシステムを開示する。システムは、１つ以上の音符パラメータを有する音符の特性のシーケンスを含む基準音楽データオブジェクトを取得し、音楽データオブジェクトから音符の特性を抽出し、音符の特性に基づいて関連する音符の音節を判断し、音符の特性に従って、視覚的な楽譜を生成し、判断した音符の音節と音符の特性に従って、合成ソルフェージュ歌唱音を生成するように構成されるプロセッサと、楽譜を表示するように構成された表示装置と、コンピュータ化されたシステムのユーザーに、合成ソルフェージュ歌唱音を出力するように構成された音声生成ユニットと、を備える。

Description

発明の主題は、一般に、コンピュータ化された装置により支援される書かれた音楽言語を教育、学習し、歌唱能力を成長させるシステムおよび方法に関し、特に、コンピュータ支援ソルフェージュの教育、学習、および練習に関する。

音楽言語は、音の音響特性のセット間の複雑に編成された時間関係に基づくものである。記譜言語は、可聴音を記述した表現であり、録音する時代までの音楽を記録し、維持し、伝播し、普及させる唯一の方法であり、複雑な音楽構成を教育、学習する唯一の方法であった。従って、楽譜を読んで学習することは、音楽的識字と音楽的非識字との間で違いを生じさせる。

ソルフェージュは、ドレミファ音階で歌って楽譜を練習する方法ある。ソルフェージュは、初等教育から大学院レベルの教育まで、様々なレベルの音楽教育で教えられている。ソルフェージュを知ることは、楽譜から音符を読むこができ、心の中で音符の音高、音名、リズムパターンおよび強さを聞くことができ、対応する音を声で出すことである。ソルフェージュは、楽譜の各音符に明確な音節を割り当てるシステムであるソルミゼーション形式である。様々な形式のソルミゼーションが使用されており、ソルフェージュは、ヨーロッパ、北米、南米、ラテン語とスラブ語の国で一般的に使用されているソルミゼーション形式である。「ソルミゼーション」と「ソルフェージュ」という用語は同じ意味で使用できる。他の国では、文化や言語、音節の名前が異なっている。例えば、日本語、中国語、インド語、韓国語、アラビア語等である。

ソルフェージュの技術は、音階を特定の音節に割り当て、こられの音節を使用して異なる音符のシーケンスを歌って練習することを含む。ソルフェージュを学習する際、シーケンスは、一般的に、使用される間隔やリズム等の点で徐々に難しくなる。

ラテン語およびスラブ語の国で練習に用いられる一般的な７つの音節は、ド、レ、ミ、ファ、ソ、ラ、シである。英語を話す国では、Ａ、Ｂ、Ｃ（ラ、シ、ドに相当）のシステムもまた使用されている。音名または音符の音節は、本明細書で言及するとき、楽譜の特定の表記に関連し、例えば、ド、レ、ミ、ファ、ソ、ラ、シの一つである。教室では、ソルフェージュ法による音楽教育とは、音高、長さ、強度などの関連する音響特性を持つ書かれた楽譜を解釈し、自分の声でドレミファ音節を歌いながら練習することを意味する。

発明の主題の目的は、書かれた音楽言語を教育および学習するコンピュータ化されたシステムを開示することであって、システムは、１つ以上の音符のパラメータを有する音符の特性のシーケンスを含む基準音楽データオブジェクトを取得し、音楽データオブジェクトから音符の特性を抽出し、音符の特性に基づいて関連する音符の音節を判断し、音符の特性に従って、視覚的な楽譜を生成し、判断した音符の音節と音符の特性に従って、合成ソルフェージュ歌唱音を生成するように構成されたプロセッサと、楽譜を表示するように構成された表示装置と、コンピュータ化されたシステムのユーザーに、合成ソルフェージュ歌唱音を出力するように構成された音声生成ユニットと、を備える。

場合によっては、コンピュータ化されたシステムは、更に、ユーザーによって歌われた１つ以上の音符の録音を取得するように構成される。

場合によっては、コンピュータ化されたシステムは、更に、音符の録音を解析して、基準音楽データオブジェクトに対応する解析された音楽データオブジェクトを生成するように構成される。

場合によっては、コンピュータ化されたシステムは、更に、解析された音楽データオブジェクトを基準音楽データオブジェクトと比較し、録音の正確性のレベルを判断し、解析された音楽データオブジェクトの正確性を評価し、表示装置を介して、ユーザーに録音の正確性評価を表示するように構成される。

場合によっては、音楽データオブジェクトは、スタンダードＭＩＤIファイルである。

場合によっては、コンピュータ化されたシステムは、更に、音符の音が聴覚的に生成されるとき、ユーザーが楽譜を追いかけることを可能にするために、合成ソルフェージュ歌唱音の対応する音符と同時に、楽譜に沿って表示される動的で視覚的な表示を提供する。

場合によっては、１つ以上の音符のパラメータは、音符の音高、音符の長さ、音符の強度、音符の音節、音符のタイミング、およびこれらの組合わせのうち少なくとも１つを含む。

場合によっては、音楽プロセッサは、更に、少なくとも歌った音節と、歌った音節の音高を認識するように構成される。

場合によっては、プロセッサは、更に、音節認識システムにより使用される音響特性のセットの音高を使用するように構成される。

場合によっては、コンピュータ化されたシステムは、サーバから基準音楽データオブジェクトを取得するように構成される通信ユニットを更に備える。

場合によっては、コンピュータ化されたシステムは、基準音楽データオブジェクトを格納するように構成される記憶装置を更に備える。

場合によっては、音楽プロセッサは、更に、入力ファイルから基準音楽データオブジェクトを生成するように構成される

場合によっては、音楽データオブジェクトは、ＭｕｓｉｃＸＭＬファイルである。

場合によっては、録音の正確性評価は、少なくとも音高の評価と長さの評価を含む。

場合によっては、録音の正確性評価は、強度の評価を含む。

以下の図面と関連して実施形態の説明を参照して、発明の主題の限定されない実施形態を説明する。図面は、通常、例示を意味するのみであり、大きさやサイズを示すものではなく、限定されるものではない。対応する要素または類似する要素は、任意に、同一の符合または文字で特定される。
図１は、発明の主題のいくつかの例示的な実施形態に係る、ソルフェージュの音節に沿った表記の視覚的表現を示す。図２は、発明の主題のいくつかの例示的な実施形態に係る、音楽言語の指導を補助するように構成されたシステムを示す。図３は、発明の主題のいくつかの例示的な実施形態に係る、音楽言語の指導を補助するように構成されたコンピュータ装置を示す。図４は、発明の主題のいくつかの例示的な実施形態に係る、sign2sing合成メカニズム、sing2sign解析メカニズム等の２つの主要な機能の構成要素の概略図を示す。図５は、発明の主題のいくつかの例示的な実施形態に係る、音楽言語の指導を補助するように構成されたシステムのサーバを示す。図６は、発明の主題のいくつかの例示的な実施形態に係る、音楽データオブジェクトを示す。図７は、発明の主題のいくつかの例示的な実施形態に係る、ソルフェージュの音符の音と楽譜を出力する方法を示す。図８は、発明の主題のいくつかの例示的な実施形態に係る、歌唱録音の精度のフィードバックを提供するsing2sign ユニットを示す。図９は、発明の主題のいくつかの例示的な実施形態に係る、歌唱録音の精度のフィードバックを提供するための歌唱録音のパラメータを解析する方法を示す。図１０は、発明の主題のいくつかの例示的な実施形態に係る、音節認識装置用の音節間の遷移確率の非限定的で例示的な構成を示す。図１１は、発明の主題のいくつかの例示的な実施形態に係る、フィードバックされた楽譜の表示の一例を示す。

発明の主題は、通常、いくつかの例示的な実施形態に係る、コンピュータ化された装置を使用して、楽譜、ソルフェージュ、歌唱を教育および学習するシステムおよび方法に関する。

図１は、楽譜の一例を示す。楽譜１００は、１つまたは１つ以上の音符が記載または印刷される五線１０５を含む。ここでは音符１１０で表す。五線１０５上の音符１１０の配置または位置は、音高を表し、長さは異なる音符の形状により表わされる。また、強度および強度の変化用の記号は、楽譜１００に表すことができ、パフォーマンス中の意図する音の強度を示す。例えば、音符をやや強く歌うためのメゾフォルテ（ｍｆ）１２０や、音符をやや弱く歌うためのメゾピアノ（ｍｐ）１２１である。楽譜は左から右、上から下に読む。

ソルフェージュを学習する生徒は、このような楽譜を読み、自身の声を使って、適切な音高、タイミング、および強度で音符１１０を歌う。音符を歌うという意味は、関連するソルフェージュの音節１３５（例えば、ド、レ、ミ、ファ、ソ、ラ、シのうちの一つ）を発するということである。音節１３５は、楽譜１００の上に現れない。生徒は、音符の位置（または音高）とそれらの名前との関係を記憶する必要がある。音節を発することは記憶プロセスを高める。ある場合では、視覚的な表示は、再生中にどの音符がコンピュータプログラムにより発音されるかを示す視覚的インジケータ１４０を提供してもよい。

教室の状況では、生徒は、教師の指導の下で集団的なソルフェージュの歌唱だけを練習することができるが、家庭での個別の練習は、十分な専門的な指導や支援がないためほとんど不可能である。公立学校向けの最新の音楽カリキュラムの多くはソルフェージュを使用することを要求および推奨しているが、達成するのは難しく、楽器の演奏を習う生徒のみ練習で音楽教育に到達することができる。

音楽教育を支援するコンピュータプログラムがある。しかしながら、既存のプログラムには、音符名を発しながら、楽譜に書かれた音符を歌う等のソルフェージュを教えるものはない。例えば、「Sight-singing(登録商標)」というプログラムは、書かれた音符のメロディーを生成するが、音は、人間や人間のような声による音名の発音ではなく、電子シンセサイザーの音である。また、このプログラムは、歌唱を録音し、声の音高を解析して、歌唱者に音高が低すぎるか高すぎるか、長さが正確かどうかを示すことができる。しかしながら、発せられた音符／ソルフェージュ、タイミング、強度等の音の他のパラメータを認識して、フィードバックすることはない。従って、「Sight-singing（登録商標）」は、ソルフェージュの学習の支援には適していない。

人間のような歌唱を合成するコンピュータプログラムがある。例えば、「Vocaloid（登録商標）」と呼ばれるソフトウェア製品は、メロディー入力とそれに付随する歌詞入力を受け付け、メロディーに従って歌詞を歌う人間のような声を合成する。こられのプラグラムのいずれも音を出した音符をユーザーに表示せず、歌唱の録音を可能にして、自身のパフォーマンスの正確性を歌唱者にフィードバックしない。従って、ソルフェージュの学習の支援に使用することができない。

音声信号から話した文章内容を認識するspeech-to-textプログラムが存在する。このようなプログラムは、理論的には、sight-seeingのようなプログラムと一緒に、歌われた音符名に対するフィードバックを生成することが可能である。しかしながら、speech-to-textプログラムは、音声信号の音響特性の統計的モデルを構築するため多くの人間の音声の録音を利用する機械学習方法を使用していて、音声が話すのではなく、歌であると、その精度が低下する。さらに、プログラムは、認識した各音節の音高、タイミング、長さ、強度に対する情報を提供しない。従って、ソルフェージュの学習の支援には不十分である。

開示した発明の主題に係る一つの技術的解決は、コンピュータ化された装置が音楽言語の学習を支援する視覚的および聴覚的なソルフェージュ指導ツールをユーザーに提供するように構成されたシステムおよび方法を提供することである。コンピュータ化された装置は、楽譜と音符の音の音楽データオブジェクトを使用する。音楽データオブジェクトは、１つまたは１つ以上の音符関連データ、例えば、歌、音楽セグメントまたはそれらの一部を含むデジタルデータ構造である。発明の主題は、例えば、視覚的に、スクリーン上に楽譜を示すこと、ユーザーにソルフェージュ歌唱として音符を聴覚的に同時に聞くことを可能にすること、例えば、コンピュータ化されたシステムは、正確な音高、長さ、強度で音符名を発声することを含む。これにより、ユーザーが音符の聴覚的特性を学習し、音楽言語について理解することができる。

発明の主題の他の技術的解決は、ユーザーの歌唱の録音を用いて、フィードバックとユーザーの歌唱パフォーマンスの正確性の評価を提供することである。コンピュータ化された装置は、録音された歌唱を解析し、リアルタイムでフィードバックを示し、既存の楽譜上に、歌った音符の音高、長さ、強度、音節および／またはテンポの即時表現を提供し、ユーザーがオリジナルの楽譜とユーザーのパフォーマンスの比較を見ることを可能にする。

発明の主題は、ソルフェージュの教育を支援する完全かつ専用の解決を記載する。これは、製品として現存するいくつかの部品、例えば、Vocaloid(登録商標)、Sight-singing(登録商標)、speech-to-text(音声認識)の製品等を含むが、そのような製品の一部ではない追加の構成要素を提供する。特に、音符シーケンスの音高、長さ、強度、音節、および、テンポの少なくとも一つを含む対応する基準音楽データオブジェクト、および、予想される歌う音節と音節セグメントの音高の予想される関係に基づいて、予想される歌う音符のシーケンスの知識を考慮することにより、録音された歌唱の解析における優れた精度が確立される。この知識は、speech-textプログラムでは考慮されていない。音節と音高を組み合わせて解析することで、ユーザーにフィードバックする必要がある歌った音符のタイミング、長さ、および強さ等の他の信号パラメータをより正確に評価することが可能になる。

本発明の実施形態は、非一過性のコンピュータまたはプロセッサ可読記憶媒体等の物品を含むことができる。例えば、プロセッサまたはコントローラにより実行されると、プロセッサまたはコントローラに本明細書で開示される方法を実行させる、コンピュータ実行可能命令等の命令をエンコードするか、含むか、格納する、メモリ、ディスクドライブ、ＵＳＢフラッシュメモリ等である。本明細書で開示されるプロセスおよびディスプレイは、特定のコンピュータまたは他の装置に本質的に関係していない。様々な汎用システムは、本明細書の教示に従ってプログラムと共に使用することができ、または所望の方法を実行する専用装置を構築することが有用であることがわかる。本明細書で説明される発明の実施形態を構築するために、様々なプログラミング言語が使用されてもよいことが理解されるであろう。

図２は、発明の主題のいくつか施形態に係る、ソルフェージュおよび音楽の視覚−歌唱（sight-singing）を教育するシステムを示す。システム２００は、破線２１５で示される任意の数のコンピュータ化された装置２０５を表す、コンピュータ化された装置２０５で例示される１つ以上のコンピュータ化された装置を備える。コンピュータ化された装置２０５は、処理装置により実行されると、コンピュータ化された装置２０５のユーザーに、コンピュータが実行可能なソフトウェアまたはアプリケーションを使用して音楽言語を学習することを可能にする、コンピュータが実行可能なソフトウェアまたはアプリケーションを格納する記憶装置を備える。コンピュータ化された装置２０５は、非一過性のコンピュータ化されたシステムまたはプロセッサ可読記憶媒体等の物品を含む、または操作的に接続することができる。例えば、プロセッサまたはコントローラにより実行されると、プロセッサまたはコントローラに本明細書で開示される方法を実行させる、コンピュータ実行可能命令等の命令をエンコードするか、含むか、格納する、メモリ、ディスクドライブ、ＵＳＢフラッシュメモリ等である。命令は、プロセッサまたはコントローラに本明細書に開示される方法のプロセスを実行させることができる。

コンピュータが実行可能なソフトウェアまたはアプリケーションは、音符関連のプロパティを含むコンピュータ可読ファイルまたは音楽データオブジェクトを実行する。音符関連のプロパティは、楽譜を形成するデータと音楽データオブジェクトの音符の音を含む。音楽データオブジェクトは、１つ以上の音符のシーケンスを含む、各音符は、音符の音高、音符の長さ、音符の強度、および音符に関連する音節のプロパティのうちの少なくとも一つを含む。音楽データオブジェクトは、例えば、www.midi.org/specifications/category/complete-midi-1-0-detailed-specification、www.midi.org/articles/an-intoro-to-midi、および／またはusermanuals.musicxml.com/MusicXML/MusicXML.htmにて開示され、参照として援用される、ＳＭＦスタンダードＭＩＤIファイル、ｍｕｓｉｃＸＭＬ、または同様なデジタルミュージックファイル等の音楽データを有する読み取り可能なデジタルファイルとして提供されもよい。

システム２００は、波線２２５により示される任意の数のサーバ２２０として表される、サーバ２２０で例示される１つ以上のサーバをさらに備える。サーバ２２０は、通常、データオブジェクト、例えば、ユーザーが音楽言語を学習することを可能にする、可聴な音符の音と視覚的な音符に関連する表現等の音符関連表現のシーケンスを生成するために用いられる基準音楽データオブジェクトを格納する。コンピュータ化された装置２０５は、サーバ２２０にアクセスして、音楽データオブジェクトを取得する。いくつかの非限定的実施形態では、サーバ２２０は、ユーザーの音楽データオブジェクトへのアクセスを管理する。例えば、登録されたユーザーのみが音楽データオブジェクトにアクセスすることができる。

いくつかの非限定的実施形態では、１つ以上のコンピュータ化された装置２０５は、１つ以上のサーバ２２０に操作的に接続、リンク、または結合され、接続またはリンクは、ネットワーク２３０により例示され、表される。ネットワーク２３０は、１つ以上コンピュータ化された装置２０５と１つ以上のサーバ２２０の間に１つ以上の通信手段を有する。例えば、ネットワークのリンクは、有線、無線，ＬＡＮ、ＷＡＮＮまたは同様なものを介して、操作可能に１つ以上のコンピュータ化された装置２０５を１つ以上のサーバ２２０に接続することを可能にする。

図３は、発明の主題のいくつかの例示的な実施形態に係る音楽言語の指導を支援するように構成されたコンピュータ化された装置３００を示す。コンピュータ化された装置３００は、音楽プロセッサ３０５と、基準音楽データオブジェクトの楽譜を表示し、ユーザーが視覚的に見ることが可能になる表示装置３１０とを備える。コンピュータ化された装置３００は、合成されたソルフェージュ歌唱音を生成し、ユーザーが合成音を聞くことが可能になるオーディオ生成またはオーディオレンダリングユニット３１５を備える。コンピュータ化された装置３００は、ユーザーに自身のソルフェージュの歌唱パフォーマンスを録音することが可能になる録音ユニット３２０を備える。コンピュータ化された装置３００は、記憶装置３２５を備える。コンピュータ化された装置３００は、コンピュータ化された装置３００がサーバ２２０と通信し、コンピュータ化された装置３００のユーザーにより使用される１つ以上の基準データオブジェクトを取得するようにする通信ユニット３３０を備えることができる。

ある場合では、ユーザーは他のユーザーによる使用のためサーバ２００に音楽データオブジェクトを更にアップロードすることができ、音楽データオブジェクトは、例えばネットワークインターフェイスを介して、サーバ２００から遠隔にアクセスすることができる。

音楽プロセッサ３０５は、入力として基準音楽データオブジェクト４１５を受信し、基準音楽の楽譜を表示し、基準音楽データオブジェクトから推測される音高、長さ、強度、およびテンポで音節の合成ソルフェージュ歌唱である可聴音を生成する図４のsign2singユニット４１０を備える。

音楽プロセッサは、例えば、ユーザーのソルフェージュ歌唱音のパフォーマンス４４５を取得し、対応する基準音楽データオブジェクトに従って歌唱パフォーマンスを解析し、音高の正確性、長さの正確性、強度の正確性、テンポの正確性、音節の正確性、またはそれらの組み合わせ等の様々なプロパティに従って、ユーザーの正確性の評価を生成し、自身の歌唱の正確性をユーザーへの視覚的フィードバック４５５を生成するsing2sign解析モジュール等の図４のsing2signユニット４５０を備える。

図４は、発明の主題のいくつかの例示的な実施形態に係る、システムの２つの主要な機能構成要素、例えば、sign2sing合成モジュールとsing2sign解析モジュールの概略図を示す。図３の記憶装置３３０は、図３のコンピュータ化された装置３００のユーザーがアクセス可能な１つ以上の基準音楽データオブジェクトを格納する。１つ以上の基準音楽データオブジェクトの各基準データオブジェクトは、異なる音符のシーケンスに関するデータを格納することができる。音楽データオブジェクトと音符関連データは図４に更に説明する。

図５は、発明の主題のいくつかの例示的な実施形態に係る音楽言語の指導を支援するように構成されたシステムのサーバを示す。サーバ５００は、音楽データオブジェクトを格納するサーバデータベース５１０を備える。音楽データオブジェクトは、サーバ５００に格納され、図２の１つ以上のコンピュータ化された装置２０５の音楽データオブジェクトへのアクセスを可能にする。サーバ５００は、サーバ５００が１つ以上のコンピュータ化された装置２０５と通信することを可能にする通信ユニット５１５を備える。通信ユニット５１０は、音楽データオブジェクトをコンピュータ化された装置２０５に送信する。通信ユニット５１０は、また、コンピュータ化された装置２０５から音楽データオブジェクトを受信するように構成される。音楽データオブジェクトはサーバデータベース５０５に格納され、１つ以上のコンピュータ化された装置２０５の他のコンピュータ化された装置によりアクセスされる。

サーバ５００は、サーバ５００にアクセスし、音楽データオブジェクトを取得する登録ユーザーに関連するデータを格納するユーザー登録ユニット５２０を備える。例えば、ユーザー登録ユニット５２０は、公立学校のコンピュータのユーザーに関連する情報、例えば、音楽先生または生徒、を格納して、ユーザーの１回の登録を行うことを可能にし、音楽データオブジェクトを取得またはアップロードする。コンピュータ２０５は、ユーザー登録ユニット５２０に格納されるユーザー名とパスワードを提供することによってサーバ５００にアクセスする。一度ログインすると、コンピュータ２０５のユーザーは、音楽データオブジェクトにアクセスし、音楽言語を生徒に教育する内容を使用することができる。

図６は、発明の主題のいくつかの例示的な実施形態に係る音楽データオブジェクトを示す。音楽データオブジェクト６００は、例えば、音符のシーケンス等の複数の音符を含む。各音符は、対応する音符関連データ、または、音符プロパティ６０１のセットに関連することができる。音符プロパティ６０１の各セットは、音符の音高６０５、音符の長さ６１５、音符の強度６２０、音符のテンポ６２５、音符の注釈６１０、および音符の音節６３０を含む。音楽データオブジェクト６００は、音楽セグメントまたは音楽構成、またはその一部を表していてもよい。

音符の音高６０５は、音符の周波数に対応する値を有し、例えば、第４オクターヴの音符ラは、４４０Ｈｚの周波数を有する。

音符の長さ６１５は、１／８、１／４、１／２、フル等の値を含む。これらの音符の長さは、相対的な時間の長さに関連付けられ、例えば、半音符は、四分音符の長さの２倍の長さを有している。

音楽のテンポ６２５は、音符シーケンスのあるセグメント内の音符の物理的な長さに対応する時間関連値を有し、例えば、そのセグメントの全ての四分音符をミリ秒まで計測した時間の長さである。他の実施形態では、テンポは、八分音符、四分音符、または半音符の物理的な長さに対応してもよい。テンポは、音符のシーケンス全体で一定であってもよく、または、音符のシーケンスの異なるセグメントで異なる値であってもよい。

音符の強度６２０は、例えば、音楽データオブジェクトに描かれている音符シーケンスの他の音符より、その音符を強調するか、大きくするか等、音符の相対的な強度に関連付けられる。

音符の音節６３０は、例えば、音符の音節ドなど、音符に関連付けられる名前または音節である。場合によっては、音符の音節６３０は、１つ以上の音節を含んでもよい。

音符の注釈６１０は、例えば、図３の表示装置３１０の表示等の音符の視覚的なグラフィック表示を示す。音符の注釈６１０は、音楽データオブジェクト６００により表される音符シーケンスの各音符の音符プロパティ６０１の他の要素に関連する。例えば、音符の注釈６１０は、音符の音高６０５、音符の強度６２０等に従って、計算され、音符シーケンスの各音符の正確なグラフィック楽譜を生成することができる。例示的な音符の注釈６１０を図１に示す。

音楽データオブジェクト６００は、各音符が３つの点６０３で示される音符の特性６０１に関連する、音符シーケンスを含むことができ、対応する音符のプロパティ６０１と共に音符のシーケンスは、音符のシーケンスの聴覚的かつ視覚的な表現を生成することを可能にする。

なお、ここで提供される音楽データオブジェクト６００は、基準音楽データオブジェクトおよび／または解析音楽データオブジェクトであってもよい。

図７は、発明の主題のいくつの例示的な実施形態に係る、図４のsign2singユニット４１０により行われ、視覚的な音符および合成音声セグメントを生成する方法を示す。sign2singユニット４１０は、基準音楽データオブジェクトを取得するステップ７０２を実行するように構成される。例えば、基準音楽データオブジェクトは、図３の記憶装置３２５または図２のサーバ２０５から取得する。発明の主題のいくつかの例示的な実施形態では、取得した基準音楽データオブジェクトは、pdfファイル、イメージファイル、テキストファイル、ビデオファイル等の入力ファイルから生成してもよい。

sign2singユニット４１０は、基準音楽データオブジェクトに表される音符のシーケンスに対応した基準音節のシーケンスを判断するステップ７０５を実行するように構成される。ステップ７０５のいくつかの実施形態では、音符のシーケンスの各音符のための基準音節は、明示的に音符関連データに格納され、直接取得することができる。ステップ７０５のいくつかの実施形態では、基準音節は、音楽データオブジェクトに格納されず、音符の音高のプロパティに従って判断される。例示的な基準音節のシーケンスは、例えば、「ド-レ-ミ-ド-レ-シ-ド-レ-ファ」である。

sign2singユニット４１０は、基準音楽データオブジェクトに対応するグラフィック楽譜を生成するステップ７１０を実行するように構成される。グラフィック楽譜は、sign2singユニットから出力され、例えば、コンピュータスクリーン等のコンピュータ化された装置３００の表示装置３１０に表示することができる。グラフィック楽譜は、コンピュータ化された装置３００のユーザーが楽譜を読むことを可能し、オーディオレンダリングユニット３１５により音符の音を出し、グラフィック音符と対応する音楽の音の音響プロパティとの間の関係をユーザーが知ることができる。楽譜は、記載された音符の注釈、音符表記の形状に基づく長さの表示、テンポ（例えば、モデラート）、動的な表示、例えば、現在再生されている音符を示す１４０を含むことができる。

sign2singユニット４１０は、基準音楽データオブジェクトに基づいて、人間のように歌う音節の可聴な合成シーケンスを生成するステップ７２０を実行するように構成される。例えば、図３のオーディオレンダリングユニット３１５により生成される。合成された音符の音のシーケンスは、図３のコンピュータ化された装置３００のユーザーに音を鳴らすことができ、これにより、現在発生している音の音符を実質的に同時に、楽譜に沿って表示することができる動的で視覚的な表示を追いながら、ユーザーが音符の音を聞き、音符の音高、長さ、テンポ、関連する音節、および強度を学習することを可能にする。

本発明のいくつかの例示的な実施形態では、合成されたシーケンスは、テキスト読み上げエンジン（text to speech engine)の特別なケースとして実装される。テキスト読み上げエンジンは、デジタル音響信号の形の基本の音響音声ユニットのデータセットと、基本のユニットを互いに結びつける規則と、どこでどのように各単語を強調するか、文のどこに強調が起こるかの規則のセットに従って、基本のユニットの音高、長さ、および強度を判断するプロソディ要素を備える。異なるテキスト読み上げ構成は、異なる基本の音響音声ユニットのセットを選択する。開示された主題では、ソルフェージュの合成は、音響音声ユニット用に、ド、レ、ミ、ファ、ソ、ラ、シ等の音符名の音節を選択して実施され、プロソディ要素を音符関連プロパティ、例えば、音高、長さ、強度等、に置き換えて、音符プロパティまたは関連音符データに従って、判断する。

発明の主題のいくつかの例示的な実施形態では、ユーザーが音楽データオブジェクトを選択したとき、特定の音楽データオブジェクトに対応するグラフィック楽譜は、例えば、表示装置３１０を通してユーザーに表示される。発明の主題のいくつかの例示的な実施形態では、システムが、例えば、ユーザーから音を提供する指示を受信、例えば、オーディオレンダリングユニット３１５を介して出力される音を生成するコマンドを受信したとき、対応する音を生成する。発明の主題のいくつの例示的な実施形態では、オーディオレンダリングユニット３１５を介して出力される対応する音と同時または実質的に同時に、位置がそのとき発生されている音符を示す動的または移動する視覚的なマーク１４０が楽譜１００上に表示される。

図８は、発明の主題のいくつかの例示的な実施形態に係る、ユーザーにより歌われた音楽セグメントの録音された入力を解析し、歌の録音の正確性に関するフィードバックを生成する方法を実行するsing2signユニットを示す。図４のsing2signユニット４５０は、例えば、図３の録音ユニット３２０を作動し、記憶装置に録音を格納して、録音を取得するステップ８０５を実行するように構成された処理装置により実行されるソフトウェアモジュールでもよい。

sing2signユニット４５０は、基準音楽データオブジェクトと、sign2singユニット４１０により抽出された対応する音符関連データを取得するステップ８０７を実行する。

sing2signユニット４５０は、例えば、ユーザーにより歌われたソルフェージュセグメント等の録音を解析するステップ８１０を実行する。解析は、ユーザーの歌の録音を解析された音楽データオブジェクトに変換することを含む。異なる音符のシーケンスと、これらの関連音符プロパティ、例えば、音高、タイミング、長さ、強度、歌唱された音節等を判断するために、解析は、ユーザーによって歌われた音のパラメータ、例えば、時間分割等の解析を含む。ここで使用される音符のタイミングとは、例えば、録音の最初から、または、前回判断した音符の終わりから計測した、歌われた音節の開始時間を示す。場合によっては、少なくとも歌われた音節と歌われた音節の音高が音楽プロセッサ３０５により認識され、歌の録音の解析は作動される。解析された音楽データオブジェクトは、例えば、対応する基準音楽データオブジェクトに提供される音符のシーケンスの音符に関連する各音符のプロパティ（例えば、音高、長さ、テンポ、音節、強度等を含む）のために計算された値を格納することにより、解析ユニット８１０の出力に基づいて生成することができる。ステップ８１０の方法は、図９で更に説明する。

sing2signユニット４５０は、ステップ７０５で判断された対応する基準音節のシーケンスを含む、基準音楽データオブジェクトと、sign2singユニット４１０により抽出された対応する音符関連データを取得するステップ８０７を実行する。

sing2signユニット４５０は、録音された音声に基づいて、ユーザーのパフォーマンスの正確性評価を生成するステップ８２０を実行するように構成される。sing2signユニット４５０は、解析された音楽データオブジェクトと、対応する基準音楽データオブジェクトを比較して、歌唱の録音の正確性評価を判断する。正確性評価は、例えば、歌唱の録音から生成された解析した音楽データブジェクトと、基準音楽データオブジェクト等の基準パラメータとの差または比率として、量子化される。

正確性評価は、正確性の値を、不正確性の重度に関するいくつかの指標の一つに変換する正確性−量子化テーブルを介して実行される。例えば、テーブルは、録音された音声の所定の音符の音高のずれは、正確な音高に合理的に近い範囲内にあるか、正確な音高にいくらか近いか、または全く正確ではないかを示す値の範囲を含むことができる。場合によっては、正確性−量子化テーブルは、例えば、図３の記憶装置３２５に格納することができる。例えば、第１の値より低いずれは、誤差がないとし、第１の値と第２の値の間のずれは、小さな誤差とし、第２の値より大きいずれは、重大な誤差とする。テーブルは、また、小さい低すぎる音高の誤差や重大な高すぎる音高の誤差等の誤差の方向を示す。

一つの例示的な実施形態では、正確性評価は、最初に解析された音楽データオブジェクトを、フォーマットにおいて基準音楽データオブジェクトに類似または同一である量子化音楽データオブジェクトに変換することにより達成される。例えば、基準音楽データオブジェクトは、各オクターヴの７つの可能な値のうち１つにより音符の音高を示してもよい。解析された音楽データオブジェクトを同一のフォーマットに変換することは、解析された音高の値が７つの可能な値のうちの１つに量子化されることを含むことができる。例えば、解析された音高が「ド」と「レ」の間であるとき、「ド」か「レ」のいずれか近い方に量子化される。変換後、音楽プロセッサ３０５は、ステップ８２０を実行するように構成され、解析されたオブジェクトと基準音楽データオブジェクトとの正確性評価の比較、および差異を判断する。差異は、誤差として判定し、そして図１１に示すフィードバックの一部としてユーザーに提供することができる。例えば、フィードバックは、ユーザーが歌った音符の音高は、「ミ」ではなく「レ」の音のようであることを示してもよい。

sing2signユニット４５０は、ユーザーのための視覚的なフィードバックの形式の正確性評価を表すフィードバック表現を生成するステップ８３０を実行する。例えば、フィードバックは、図１１のいくつかの例示的な実施形態に示される、音楽データオブジェクトに表現される音符のシーケンスの各音に対して、音高の正確性、音符音節の発音の正確性、最初と最後のタイミングの正確性、音符の長さの正確性、テンポの正確性、強度の正確性等の歌唱の録音から判断された様々なパラメータの正確性のレベルを示すメッセージ、グラフ、棒線、チャート、音階等の１つ以上の表示を示す視覚的な表現でもよい。

図９は、発明の主題のいくつかの例示的な実施形態に係る、歌唱の録音の正確性のフィードバックを提供するために、歌唱の録音の解析されたパラメータを取得する歌唱の録音を解析する方法を示す。方法は、例えば、コンピュータ化されたシステムのプロセッサを用いて実行することができる。ステップ９１１は、第１の音高の推定を生成することを記載している。第１の音高の推定を生成することは、音高の値の推定とAutocorrelation-based methodにより周期的に計測されるものに基づいて行われる。Autocorrelation-based methodは、例えば、Parsons, "Voice and Speech Processing", McGraw Hill, ISBN 0-07-048541-0, 1986, Chapter 8 ("Parsons")、およびS. A. Zahorian and H. Hu, "A spectral/temporal method for robust fundamental frequency tracking," J. Acoustical Society America 123(6), June 2008 ("Zahorian")に開示され、参照として援用される。

発明の主題の他の例示的な実施形態では、第１の音高の推定は、例えば、Parsonsに記載され、参照として援用されるCepstruｍ-based methodを介して推定される。発明の主題の他の例示的な実施形態では、音高の推定は、上記のAutocorrelation-based methodまたはCepstrum-base method、またはそれらの組合わせ、または当業者に知られている方法から導き出せる。

ステップ９１１では、独立した音高の推定はフレーム毎に生成される。フレームは、１０から１００ミリ秒の長さの範囲にある音声信号の短いセグメントである。第１の音高の推定は、フレーム毎の音高の値および周期性計測を生成する。所定の時間フレームにおける周期性計測は、時間フレーム内の信号の程度が母音に属する程度に相関することが知られている。

ステップ９１２は、音節認識と時間分割を実行する。音節認識と時間分割は、例えば、X. Huang, A. Acero and H. Hon, "Spoken Language Processing", Prentice Hall, ISBN-13-022616-5, 2001 ("Huang") に開示および参照して援用されるように、speech-to-textエンジンの特別なバージョンを介して、取得する。speech-to-text methodの特別なバージョンは、録音された信号に対応する最も可能性の高い音節のシーケンス、および図１０に概略的に示される可能性の高い音節のシーケンスのような各音節の開始および終了時間に対応する表示を生成する。

当業者には、speech-to-textエンジンは、認識される音声単位の統計モデルに依存し、録音した信号をこれらの統計モデルと比較することに留意されたい。例示的な一実施形態では、統計モデルは、Hidden Markov Statistical modelsを使用して、実施してもよい。統計モデルは、当該技術分野で知られているように、音響録音のデータベースを用いて、早期の練習段階で生成される。モデルは、所定のパラメータのセットで特徴付けられる所定の数学的関数のセットからなり、各音声単位は、所定のパラメータの異なる値を有している。各音声ユニットは、直接観察されない状態のシーケンスに従ってモデル化される、各状態は、観察された音響特性の確立分布によって特徴付けられ、確立分布は、当該技術分野では、出現確立として知られる。

典型的にはspeech to textエンジンの場合、上記出力確率が定義される上記音響特性は、時間フレームに対応するケプストラム係数を含む。音節を特徴付ける所定のパラメータのセットは、状態間の遷移確率と、各状態に対応する出力確率パラメータとからなる。上記所定のパラメータの組は、録音のデータベースから生成される。さらに、「Grammar」として当業者によって称される音声単位の所定の遷移確率のセットは、典型的には、文脈が認識時に予想されるものと類似している大きなテキストのデータベースから生成される。認識時に、認識装置は、音声単位の可能なシーケンスの確率を評価し、最も可能性の高いシーケンスを検索する。

発明の主題の例示的な実施形態では、ステップ９１２の本主題にて実行する音節認識は、上記音響特性に関して開示した最先端のspeech-to-textから逸脱する。一実施形態では、最新のspeech-to-textに使用されるケプストラム係数に加えて、音高の値および周期性計測値も音響特性に含まれる。出現確率は、最新技術で使用されているケプストラル係数に対する確率分布に加えて、音高の値に対する確率分布、および周期性計測によって決定された全体の出現確率における上記確率分布の部分的重みを含む。

一つの実施形態では、音声認識は、基本の音声単位の選択では、最新のspeech-to-textから逸脱している、上記音声単位は、ソルフェージュ音節と、無音の期間を検知する無音単位を備える。最新の技術とは対照的に、音節毎の複数の音声単位は、異なるオクターヴで歌われた音節に割り当てられる。一実施形態では、オクターヴの数は、構成可能である。

発明の主題のいくつかの例示的な実施形態では、各音節は、少なくとも第１の状態は子音に対応し、少なくとも最後の状態が母音に対応する、少なくとも２つのHidden Markov Model状態によりモデル化される。

発明の主題のいくつかの例示的な実施形態では、短いポーズの音声単位が音声単位のセットに追加される。

発明の主題のいくつかの例示的な実施形態では、音節認識で使用されるgrammarは、全ての音節間の遷移が可能であるように構成されているが、明細書ではPeによって示されるより高い確率が、解析された録音された音声セグメントに対応する基準音楽データオブジェクトから抽出された、基準音節のシーケンスと一致する音節間の遷移に割り当てられる。Peは、構成可能なパラメータである。上記のgrammarは、音節認識動作９１２に誤ったシーケンスを検知することを可能にするが、そのような誤ったシーケンスを低い確率で重み付けする。

発明の主題のいくつかの例示的な実施形態では、音節認識に使用されるgrammarは、基準音楽より１オクターヴ高い、または１オクターヴ低い音節状態への遷移を含むように構成される。

発明の主題のいくつかの例示的な実施形態では、音節認識動作９１２は、音高の関連情報を含まない音響特性を使用することを含む。いくつかの実施形態では、第１の音高の推定および音節認識の生成を逆にすることができ、第１および第２の音高推定を1つの音高推定ユニットに統合することができる。

発明の主題のいくつかの例示的な実施形態では、音節認識の出現確立は、多変量ガウス分布の混合によってモデル化される。発明の主題のいくつかの例示的な実施形態では、出現確立は、ニューラルネットワークによってモデル化される。

音節認識の出力は、最新のspeech to textよりもより詳細であるものを含む。音節認識動作９１２は、最も確率の高い音節のシーケンス、最も確率の高い各音節の開始時間と終了時間、および最も確率の高い各音節の母音状態の開始時間と終了時間等を有する。

解析ステップ８１０のとき、プロセッサは、音節認識データベース８１６から音節認識データを取得する。音節認識データベース８１６は、例えば、コンピュータ化されたシステム２０５および／またはサーバ２２０に格納することができる。

ステップ９１３は、音符毎に第２の音高の推定を生成することを記載している。第２の音高の推定は、各音符の音節の母音状態の開始時間と終了時間の間の全てのフレームにわたる、第１の音高の推定９１１により計算された全てのフレーム毎の音高の値の平均の計算である。一実施形態では、前記の音高の平均値は、歌われた音符に対応する解析された音高の値として使用または判定されてもよい。

発明の主題のいくつかの例示的な実施形態では、音符毎の音高の値は、フィードバックを改善するために更に正規化される。この正規化は、例えば、歌われた音符が正しい旋律であるとき、旋律から外れたとき等、歌唱者へのフィードバクの目的で、何が「正確」な音高であるかの考慮の特徴付けに関係する。場合によっては、歌唱者は、互いに完全に調節されているが、絶対音階に対して、相対的に旋律から外れている音符を発声する。例えば、第４オクターヴの「ラ」が４４０Ｈｚの周波数である楽譜である。そのような実施形態では、ユーザーに対して、歌った音符の相対的な音高の誤差のみを含むフィードバックを提供することが好ましい。歌った音符の絶対的な音高のオフセットは、全ての歌った音符のわたる基準の音高の値と解析された音高の値の平均差または平均比率から推定される。絶対的な音高のオフセットを使用して、例えば、解析された音高から絶対的な音高のオフセットを引くことにより、または解析された音高を絶対的な音高のオフセットで割ることにより、音符毎の正規化され解析された音高の値を生成することができる。

ステップ９１４は、音節の分割に基づいて、タイミングと長さの判断を生成することを記載している。場合によっては、各認識した音節の開始時間は、対応する歌った音符の解析されたタイミングとする。場合によっては、各音節の終了タイミングと開始タイミングの差を使用して、対応する歌った音符の長さを計算することができる。

ステップ９１５は、強度の推定を生成することを記載している。場合によっては、各音符の強度は、各音符の声量と各音符の声量の平均の比として計算され、各音符の声量は、各音符の音節の開始タイミングと終了タイミングの間の平均として計算される。

図１０は、主題のいくつかの例示的な実施形態に係る、音節認識動作９１２のための音札間の遷移確率の非限定的な例示的な構成を示す。この例は、Ｐｅパラメータを構成するために使用することができ、音声認識動作９１２が誤ったシーケンスを検出することを可能にするが、そのような誤ったシーケンスには低い確率で重み付けする。

ここに示される例では、基準音節シーケンスは「ド−レ−ミ」である。基準シーケンスに対応する遷移確率には、太線１０１０、１０１５、１０２０、１０２５で示されるように、より高い確率Peが割り当てられる。図１０は、細い線を用いた可能な遷移確率のいくつかの視覚的な図を示す。例えば、音節「ド」との間の遷移が示されている。この例は、基準音節シーケンスを使用して、歌唱の録音において最も可能性のある音節のシーケンスを決定することを示している。発明の主題のいくつかの例示的な実施形態では、grammarは、遷移確率にいかなる制限もなく完全に自由であることに留意されたい。

図１１は、発明の主題のいくつかの例示的な実施形態に係る、ユーザーのパフォーマンスの評価およびフィードバックの表示の一例を示す。主題のいくつかの例示的な実施形態では、フィードバックは、基準楽譜に類似するフィードバックまたは評価楽譜からなることができるが、例えば、表示された音符の位置、大きさ、強調および/または色を使用して、音符のプロパティの視覚的表現は、解析された録音に対応する音符の解析された音高、タイミング、長さおよび強度の評価された正確性に関連する。

フィードバック楽譜の表示１１００は、基準音楽データオブジェクトのオリジナルな楽譜を提供する楽譜１１０１を提供する。楽譜１１０１は、音高、長さ、強度、テンポなどを含む実際の音符等の基準表示１１０５を提供する。楽譜１１００は、ユーザーの入力されたパフェーマンスに従って生成されたフィードバックを提供するフィードバック表示１１０６を含む。例えば、解析された音高が低すぎるか高すぎる場合には、音符表示１１０６を基準１１０５の下または上に置き、音高が正しい場合、緑、音高が正しくない場合、赤で、音符表示を着色することによって、音高が正しいかどうかを示すことにより、フィードバックが提供される。フィードバック表示１１０６は、例えば、「正確な音高」、「正確な音節」等、文字を記載する形式でフィードバックを提供することができる。

発明の主題のいくつかの例示的な実施形態では、フィードバックレイヤは、一対の波線表示１１１２によってフィードバックを提供する二次フィードバック表示１１１０を提供することができる。例えば、歌った音符の長さが短すぎると、波線表示１１１２は短く表示され、歌った音符の長さが長すぎる場合、波形表示１１１２は長く表示される。歌った音符が遅く開始されると、音符の表示の後に波線が始まる。強度がだんだん強く、またはだんだん弱くなるとき、波線は、それぞれ収束または発散するように示される。場合によっては、表示は、カスタム楽譜に従って、音符の形状を変更することによって、長さについて別のフィードバックを提供してもよい。例えば、基準音符が４分音符で、解析された長さが半音符に似ていた場合、フィードバック音符１１０６は、実線の形状ではなく、実線ではない形状を有する。

「プロセッサ」または「コンピュータ」という用語またはそのシステムは、本明細書では、汎用プロセッサまたはマイクロプロセッサ、RISCプロセッサ、またはDSPなどの当技術分野の通常の文脈として使用され、メモリまたは通信ポート等の追加の要素を備える可能性がある。任意選択的にまたは追加的に、「プロセッサ」または「コンピュータ」またはその派生語は、提供されるまたは組み込まれたプログラムを実行することができる、および／またはデータ記憶装置および／または入力ポート、出力ポート等の他の装置を制御および／またはアクセスすることができる装置を示す。「プロセッサ」または「コンピュータ」という用語は、メモリなどの１つ以上の他のリソースを共有する可能性があり、接続および／またはリンクおよび/または他の方法で通信する複数のプロセッサまたはコンピュータも示す。

「ソフトウェア」、「プログラム」、「ソフトウェアプロシージャ」または「プロシージャ」または「ソフトウェアコード」または「コード」または「アプリケーション」という用語は、その文脈によって互換的に使用されてもよく、一般的にアルゴリズムおよび／または他のプロセスまたは方法を表す一連の動作を実行する１つ以上の命令または指示または回路を示す。このプログラムは、RAM、ROM、またはディスクなどの媒体に格納されるか、またはプロセッサまたは他の回路などの装置によってアクセス可能で実行可能な回路に埋め込まれる。

プロセッサおよびプログラムは、プログラムされた一連の動作を実行するように設計された、任意選択的にプロセッサまたは他の回路を備えるまたはリンクされる、FPGAまたはASICなどの電子ゲートのアレイのような、少なくとも部分的に同一の装置を構成してもよい。

コンピュータ化された装置またはコンピュータ化されたシステムという用語または類似の用語は、１つ以上のプログラムに従って動作可能または動作する１つ以上のプロセッサを備える装置を示す。

限定するものではないが、本明細書で使用するモジュールは、同一ユニットまたは異なるユニット上の１つ以上のパーツを操作または相互作用するプログラムの一部などのシステムの一部、または１つ以上の他の部品と相互作用する電子部品またはアセンブリを示す。

限定するものではないが、本明細書で使用するプロセスは、ある目的または結果を達成するための操作の集まりを表す。

本明細書で使用する「サーバ」という用語は、データおよび／または運用サービスまたはサービスを１つ以上の他の装置に提供するコンピュータ化された装置を示す。

目的またはその変形について「構成する」および／または「適用する」という用語は、目的を達成するために、設計および／または実装および／または動作可能または動作する、少なくとも１つのソフトウェアおよび／または電子回路および／または補助装置を使用することを意味する。

プログラムおよび／またはデータを格納および／または含む装置は、製品を構成する。別段の指定がない限り、プログラムおよび／またはデータは、非一時的な媒体中または非一時な媒体上に格納される。

フローチャートおよびブロック図は、本開示の主題の様々な実施形態に係るアーキテクチャ、システムの可能な構成の機能または動は作、方法、およびコンピュータプログラム製品を示す。これに関して、フローチャートまたはブロック図の各ブロックは、特定の論理機能を実施するための１つ以上の実行可能命令を含むモジュール、セグメント、またはプログラムコードの部分を表すことができる。また、いくつかの代替の実施例では、例示または説明された動作は、同じまたは同等の効果を達成するために、一連の動作の代わりに、異なる順序で、または組み合わせで、または同時動作として起こり得ることにも留意されたい。

以下の特許請求の範囲内の対応する構成、材料、動作、及び全ての手段またはステップ・プラス・ファンクションの要素の均等物は、請求項に記載された他の要素と組み合わせで機能を実行する構成、材料、または動作を含むことを意図する。本明細書で使用される、単数形「a」、「an」および「the」は、文脈で明確に示さない限り、複数形も含むことが意図される。本明細書で使用される場合、「備える」および／または「含む」および／または「有する」という用語は、記載された特徴、整数、ステップ、動作、要素および／または構成要素の存在を特定するが、１つ以上の他の特徴、整数、ステップ、動作、要素、構成要素、および／またはそれらのグループの存在または追加を排除するものではない

本明細書で使用される用語は、特定されない限り、限定するものとして理解されるべきではなく、特定の実施形態を説明する目的のみのものであり、開示される主題を限定することを意図するものではない。開示された主題の特定の実施形態が図示され説明されたが、本開示は本明細書に記載される実施形態に限定されないことは明らかである。数多くの修正、変更、変形、置換および等価物は排除されない

以下の特許請求の範囲内の用語は、本明細書において特徴付けられるかまたは記載されるように、限定することなく解釈されるべきである。

本開示は、例示的な実施形態を参照して説明されたが、当業者は、発明の主題の範囲から逸脱することなく、様々な変更を行うことができ、均等物がその要素と置き換えることができることを理解するであろう。さらに、その本質的な範囲から逸脱することなく、教示に特定の状況または材料を適合させるために、多くの変形を行うことができる。従って、開示された発明の主題は、本主題を実施するために考えられる最良の形態として開示された特定の実施形態に限定されるものではなく、以下の特許請求の範囲によってのみ限定されることが意図される。

Claims

書かれた音楽言語を教育および学習するコンピュータ化されたシステムであって、
１つ以上の音符のパラメータを有する音符の特性のシーケンスを含む基準音楽データオブジェクトを取得し、
前記音楽データオブジェクトから前記音符の特性を抽出し、
前記音符の特性に基づいて関連する音符の音節を判断し、
前記音符の特性に従って、視覚的な楽譜を生成し、
判断した前記音符の音節と前記音符の特性に従って、合成ソルフェージュ歌唱音を生成するように構成されたプロセッサと、
前記楽譜を表示するように構成された表示装置と、
前記コンピュータ化されたシステムのユーザーに、前記合成ソルフェージュ歌唱音を出力するように構成された音声生成ユニットと、を備えるコンピュータ化されたシステム。
更に、ユーザーによって歌われた１つ以上の音符の録音を取得するように構成される請求項１記載のコンピュータ化されたシステム。
更に、前記音符の前記録音を解析して、前記基準音楽データオブジェクトに対応する解析された音楽データオブジェクトを生成するように構成される請求項２記載のコンピュータ化されたシステム。
前記解析された音楽データオブジェクトを前記基準音楽データオブジェクトと比較し、前記録音の正確性のレベルを判断し、
前記解析された音楽データオブジェクトの正確性を評価し、
前記表示装置を介して、ユーザーに前記録音の正確性評価を表示するように更に構成される請求項３記載のコンピュータ化されたシステム。
前記録音の前記正確性評価は、少なくとも音高の評価と長さの評価を含む請求項４記載のコンピュータ化されたシステム。
前記録音の前記正確性評価は、強度の評価を含む請求項４記載のコンピュータ化されたシステム。
前記音楽プロセッサは、更に、少なくとも歌った音節と、歌った音節の音高を認識するように構成される請求項３記載のコンピュータ化されたシステム。
前記プロセッサは、更に、前記音節認識システムにより使用される音響特性のセットの音高を使用するように構成される請求項７記載のコンピュータ化されたシステム。
請求項１の前記コンピュータ化されたシステムは、サーバから基準音楽データオブジェクトを取得するように構成される通信ユニットを更に備える請求項８記載のコンピュータ化されたシステム。
前記音楽データオブジェクトは、スタンダードＭＩＤIファイルである請求項１記載のコンピュータ化されたシステム。
前記音符の音が聴覚的に生成されるとき、ユーザーが前記楽譜を追いかけることを可能にするために、前記合成ソルフェージュ歌唱音の対応する音符と同時に、前記楽譜に沿って表示される動的で視覚的な表示を提供するように更に構成される請求項１記載のコンピュータ化されたシステム。
前記１つ以上の音符のパラメータは、音符の音高、音符の長さ、音符の強度、音符の音節、音符のタイミング、およびこれらの組合わせのうち少なくとも１つを含む請求項１記載のコンピュータ化されたシステム。
基準音楽データオブジェクトを格納するように構成される記憶装置を更に備える請求項１記載のコンピュータ化されたシステム。
前記音楽プロセッサは、更に、入力ファイルから基準音楽データオブジェクトを生成するように構成される請求項１記載のコンピュータ化されたシステム。
前記音楽データオブジェクトは、ＭｕｓｉｃＸＭＬファイルである請求項１記載のコンピュータ化されたシステム。