JP5958041B2

JP5958041B2 - 表情演奏リファレンスデータ生成装置、演奏評価装置、カラオケ装置及び装置

Info

Publication number: JP5958041B2
Application number: JP2012094853A
Authority: JP
Inventors: 松本　秀一; 秀一松本
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2012-04-18
Filing date: 2012-04-18
Publication date: 2016-07-27
Anticipated expiration: 2032-04-18
Also published as: CN104170006B; JP2013222140A; WO2013157602A1; CN104170006A; TWI497484B; KR20140124843A; TW201407602A; KR101666535B1

Description

この発明は、楽曲演奏の巧拙を評価する技術に関する。

例えば、歌唱者の歌唱演奏の巧拙を採点する採点機能を備えた歌唱用のカラオケ装置（以下、特に断らない限り、単に「カラオケ装置」という）に関わる技術が各種提案されている。この種の技術を開示した文献として、特許文献１がある。同文献に開示されたカラオケ装置は、利用者の歌唱音から抽出したピッチとガイドメロディとしてあらかじめ準備されたデータから抽出したピッチとの差分を歌唱曲のノート毎に算出し、この差分に基づいて基本得点を算出する。また、このカラオケ装置は、ビブラートやしゃくりなどの技法を駆使した歌唱が行われた場合にはその歌唱が行われた回数に応じたボーナスポイントを算出する。このカラオケ装置は、基本得点とボーナスポイントの合計点を最終的な評価結果として利用者に提示する。この技術によると、ビブラートやしゃくりなどといった難度の高い技法を駆使した歌唱を評価結果に反映させることができる。

また、歌唱音を示す波形から、ビブラートやしゃくりなどの技法を用いた歌唱が行われたことを検出する技術を開示した文献として、例えば特許文献２乃至６がある。

特開２００５−１０７３３４号公報特開２００５−１０７３３０号公報特開２００５−１０７０８７号公報特開２００８−２６８３７０号公報特開２００５−１０７３３６号公報特開２００８−２２５１１５号公報

しかしながら、特許文献１の技術の場合、本来であればビブラートやしゃくりなどの技法を駆使した歌唱を行うことが好ましくない歌唱箇所についてそのような歌唱が行われた場合であっても、ボーナスポイントが加算されてしまう。このため、評価結果として提示される得点が人間の感性によるものと乖離してしまうという問題があった。

本発明は、このような課題に鑑みてなされたものであり、カラオケ歌唱等の楽曲演奏の評価において、人間の感性によるものにより近い評価結果を提示できるようにすることを目的とする。

上記課題を解決するため、本発明は、任意数の任意の演奏者による楽曲の演奏音の各々に関し、当該演奏音のピッチまたは音量を示すピッチ音量データを取得するピッチ音量データ取得手段と、前記ピッチ音量データ取得手段により取得されたピッチ音量データにより示されるピッチまたは音量の少なくとも一方の特性が、前記楽曲における任意のタイミングにおいて予め定められた１以上の表情演奏の特性のうちの一の特性を示す場合、当該表情演奏と、前記楽曲に含まれるノートまたはノート群の発音開始時刻を基準とする当該タイミングとの対を示す表情演奏出現データを生成する表情演奏出現データ生成手段と、前記表情演奏出現データ生成手段により生成された任意数の表情演奏出現データに基づき、前記楽曲に含まれるノートまたはノート群の各々に関し、当該ノートまたはノート群の発音開始時刻を基準とする時間軸上のいずれのタイミングでいずれの表情演奏がいずれの頻度で出現しているかを特定し、当該特定した情報を用いて前記発音開始時刻を基準とする前記時間軸上の各時刻と当該時刻においてそれぞれ当該楽曲の演奏中に行われるべき表情演奏が行なわれた場合の評価点との各対で示す表情演奏リファレンスデータを生成する表情演奏リファレンスデータ生成手段と、を備える表情演奏リファレンスデータ生成装置を提供する。
また、本発明は、楽曲に含まれるノートまたはノート群の発音開始時刻を基準とする時間軸上において当該発音開始時刻から当該楽曲の演奏中に行われるべき表情演奏が実際に行なわれる時刻までの時間差と当該時間差に応じて動的に変化する評価点との関係を当該表情演奏ごとに示す表情演奏リファレンスデータを取得する表情演奏リファレンスデータ取得手段と、演奏者による前記楽曲の演奏音から当該演奏音のピッチまたは音量を示すピッチ音量データを生成するピッチ音量データ生成手段と、前記ピッチ音量データ生成手段により生成された前記ピッチ音量データにより示されるピッチまたは音量の少なくとも一方の特性が、前記楽曲における前記表情演奏リファレンスデータにより示される所定時間範囲内において前記表情演奏リファレンスデータにより行われるべきであるとされる表情演奏の特性を示す場合、当該表情演奏の出現時刻に応じた前記評価点を用いて評価を行う演奏評価手段と、を備える演奏評価装置を提供する。

また、本発明は、上記の演奏評価装置と、楽曲の伴奏を指示する伴奏データを取得する伴奏データ取得手段と、前記伴奏データの指示に従い伴奏の楽音を示す音信号を出力する音信号出力手段と、を備えるカラオケ装置を提供する。

また、本発明は、任意数の任意の演奏者による楽曲の演奏音の各々に関し、前記楽曲に含まれるノートまたはノート群の発音開始時刻を基準とする一のタイミングにおいて一の表情演奏が出現したことを示す表情演奏出現データを取得する表情演奏出現データ取得手段と、前記表情演奏出現データ取得手段により取得された任意数の表情演奏出現データに基づき、前記楽曲に含まれるノートまたはノート群の各々に関し、当該ノートまたはノート群の発音開始時刻を基準とする時間軸上のいずれのタイミングでいずれの表情演奏がいずれの頻度で出現しているかを特定し、当該特定した情報を用いて前記発音開始時刻を基準とする前記時間軸上の各時刻と当該時刻においてそれぞれ当該楽曲の演奏中に行われるべき表情演奏が行なわれた場合の評価点との各対で示す表情演奏リファレンスデータを生成する表情演奏リファレンスデータ生成手段と、前記表情演奏リファレンスデータ生成手段により生成された表情演奏リファレンスデータを演奏評価装置に送信する送信手段と、を備える装置を提供する。

本発明によれば、個々の楽曲の演奏において、望ましいタイミングで望ましい表情演奏が行われると、演奏者に対し高い評価を与える演奏評価装置が実現される。その結果、演奏者により表情演奏が行われた場合、人間の感性との乖離の少ない評価がなされる。

この発明の一実施形態である歌唱評価システムの構成を示す図である。タメの歌唱音の波形を示す図である。ビブラートの歌唱音の波形を示す図である。コブシの歌唱音の波形を示す図である。シャクリの歌唱音の波形を示す図である。フォールの歌唱音の波形を示す図である。この発明の一実施形態である歌唱評価システムの動作を示すフローチャートである。タメについて生成した統計データの一例である。ビブラートについて生成した統計データの一例である。コブシについて生成した統計データの一例である。シャクリについて生成した統計データの一例である。フォールについて生成した統計データの一例である。

以下、図面を参照し、この発明の実施の形態を説明する。
図１は、本発明の一実施形態である歌唱評価システム１の構成を示す図である。この歌唱評価システム１は、カラオケ装置１０−ｍ（ｍ＝１、２…Ｍ：Ｍはカラオケ装置の総数）とサーバ装置３０とを有する。カラオケ装置１０−ｍは、各カラオケ店に一台または複数台ずつ設置される。サーバ装置３０は、システム運営センタ内に設置される。カラオケ装置１０−ｍとサーバ装置３０はネットワーク９０に接続され、互いに各種データの送受
信が可能である。

カラオケ装置１０−ｍは、利用者の歌唱を支える伴奏曲の放音と歌詞の表示とを通じた歌唱演出と、利用者の歌唱の巧拙の評価とを行う装置である。ここで、カラオケ装置１０−ｍは、歌唱の巧拙の評価では、利用者の歌唱音のピッチ及び音量の良否を評価対象とする評価と、以下に示す５種類の表情歌唱の良否を評価対象とする評価とを行い、２つの評価の評価結果である得点をコメントメッセージとともに利用者に提示する。
ａ１．タメ
これは、歌唱曲内の特定の音の歌いだしを故意に遅らせる表情歌唱である。図２に示すように、この歌唱が行われた場合、歌唱音の前の音のものから当該音のものへと音のピッチが変化する時刻が楽譜（模範的な歌唱）における両音に対応する２つのノート（音符）の遷移時刻よりも僅かな時間だけ遅れる。
ｂ２．ビブラート
これは、歌唱曲内の特定の音を見かけのピッチを保ちつつ細かく震わせる表情歌唱である。図３に示すように、この歌唱が行われた場合、歌唱音のピッチは楽譜におけるその音に対応するノートの高さを跨いで周期的に変化する。
ｃ１．コブシ
これは、歌唱曲内の特定の音の声色を発音の途中でうなるように変化させる表情歌唱である。図４に示すように、この歌唱が行われた場合、歌唱音のピッチは楽譜におけるその音に対応するノートの途中で一過的に上昇する。
ｄ１．シャクリ
これは、歌唱曲内の特定の音を本来の高さよりも低い声で発音してから本来の高さに近づけていく歌唱手法である。図５に示すように、この歌唱が行われた場合、歌唱音の発音開始時刻におけるピッチは楽譜におけるその音に対応するノートの高さよりも低くなる。そして、この歌唱音のピッチは発音開始後に緩やかに上昇してノートの高さとほぼ同じ高さに達する。
ｅ１．フォール
これは、歌唱曲内の特定の音を本来の高さよりも高い声で発音してから本来の高さに近づけていく歌唱手法である。図６に示すように、この歌唱が行われた場合、歌唱音の発音始時刻におけるピッチは楽譜におけるその音に対応するノートの高さよりも高くなる。そして、この歌唱音のピッチは発音開始後に緩やかに下降してノートの高さとほぼ同じ高さに達する。

図１に戻り、歌唱評価システム１全体の説明を続ける。カラオケ装置１０−ｍは、音源１１、スピーカ１２、マイクロホン１３、表示部１４、通信インターフェース１５、ボーカルアダプタ１６、ＣＰＵ１７、ＲＡＭ１８、ＲＯＭ１９、ハードディスク２０、シーケンサ２１を有する。音源１１は、ＭＩＤＩ（Musical Instrument Digital Interface）の各種メッセージに従った音信号Ｓ_Aを出力する。スピーカ１２は、与えられた信号を音として放音する。マイクロホン１３は、音を収音して収音信号Ｓ_Mを出力する。表示部１４は、画像信号Ｓ_Iに応じた画像を表示する。通信インターフェース１５は、ネットワーク９０に接続された装置との間でデータを送受信する。

ボーカルアダプタ１６は、音信号Ｓ_Mのピッチ及び音量を測定し、それらの時間的な変化を示すピッチ音量データを生成するピッチ音量データ生成手段としての役割を果たす。具体的には、ボーカルアダプタ１６は、マイクロホン１３から与えられた音信号Ｓ_Mのピッチを時間Ｔ_S（例えば、Ｔ_S＝３０ミリ秒とする）毎に検出し、この検出結果を信号Ｓ_Pとして出力する。また、ボーカルアダプタ１６は、マイクロホン１３から与えられた音信号Ｓ_Mの音量を時間Ｔ_S毎に検出し、この検出結果を信号Ｓ_Lとして出力する。

ＣＰＵ１７は、ＲＡＭ１８をワークエリアとして利用しつつＲＯＭ１９やハードディス
ク２０に記憶されたプログラムを実行する。このＣＰＵ１７の動作の詳細は後述する。ＲＯＭ１９には、ＩＰＬ（Initial Program Loader）などが記憶されている。ハードディスク２０には、各種歌唱曲の曲データＭＤ−ｎ（ｎ＝１〜Ｎ）（Ｎは、歌唱曲の種類の総数）、リファレンスデータベースＤＢＲＫ、及び歌唱評価プログラムＶＰＧが記憶されている。各歌唱曲の曲データＭＤ−ｎは、歌唱曲の伴奏内容、歌唱曲の歌詞、及び歌唱曲の模範的な歌唱内容をＳＭＦ（Standard MIDI File）形式で記録したデータである。

具体的に説明すると、図１の枠内に示すように、曲データＭＤ−ｎは、ヘッダＨＤ、伴奏トラックＴＲ_AC、歌詞トラックＴＲ_LY、模範歌唱リファレンストラックＴＲ_NRを有している。ヘッダＨＤには、曲番号、曲名、ジャンル、演奏時間、タイムベース（４分音符１つ分の時間に相当するティック数）などの情報が記述されている。

伴奏トラックＴＲ_ACには、歌唱曲の楽譜の伴奏パートにおける各ノートＮＴ（ｉ）（ｉは、楽譜の該当パートの先頭のノートＮＴ（１）から数えた順番を示す）の音の発音を指示するイベントＥＶ（ｉ）_ONとその消音を指示するイベントＥＶ（ｉ）_OFF、及び相前後するイベントの実行時間差（ティック数）を示すデルタタイムＤＴが時系列順に記述されている。

歌詞トラックＴＲ_LYには、歌唱曲の歌詞を示す各データＤ_LYと、各歌詞の表示時刻（より具体的には、各歌詞の表示時刻と各々の前の歌詞の表示時刻との間の時間差（ティック数））を示すデルタタイムＤＴが時系列順に記述されている。

模範歌唱リファレンストラックＴＲ_NRには、歌唱曲の楽譜の歌唱パートにおける各ノートＮＴ（ｉ）の音の発音を指示するイベントＥＶ（ｉ）_ONとその消音を指示するイベントＥＶ（ｉ）_OFF、及び相前後するイベントの実行時間差（ティック数）を示すデルタタイムＤＴが時系列順に記述されている。

リファレンスデータベースＤＢＲＫには、５種類の表情歌唱リファレンスデータＤＤ_a1、ＤＤ_a2、ＤＤ_a3、ＤＤ_a4、ＤＤ_a5が記憶されている。表情歌唱リファレンスデータＤＤ_a1は、歌唱曲に含まれるノートＮＴ（ｉ）の発音開始時刻を基準点ｔ_BSとする時間軸上の各時刻ｔとそれらの時刻ｔにおいてタメによる歌唱が行われた場合の評価点ＶＳＲ（ｔ）の各対を示すデータである。表情歌唱リファレンスデータＤＤ_a2は、歌唱曲に含まれるノートＮＴ（ｉ）の発音開始時刻を基準点ｔ_BSとする時間軸上の各時刻ｔとそれらの時刻ｔにおいてビブラートによる歌唱が行われた場合の評価点ＶＳＲ（ｔ）の各対を示すデータである。表情歌唱リファレンスデータＤＤ_a3は、歌唱曲に含まれるノートＮＴ（ｉ）の発音開始時刻を基準点ｔ_BSとする時間軸上の各時刻ｔとそれらの時刻ｔにおいてコブシによる歌唱が行われた場合の評価点ＶＳＲ（ｔ）の各対を示すデータである。表情歌唱リファレンスデータＤＤ_a4は、歌唱曲に含まれるノートＮＴ（ｉ）の発音開始時刻を基準点ｔ_BSとする時間軸上の各時刻ｔとそれらの時刻ｔにおいてシャクリによる歌唱が行われた場合の評価点ＶＳＲ（ｔ）の各対を示すデータである。表情歌唱リファレンスデータＤＤ_a5は、歌唱曲に含まれるノートＮＴ（ｉ）の発音開始時刻を基準点ｔ_BSとする時間軸上の各時刻ｔとそれらの時刻ｔにおいてフォールによる歌唱が行われた場合の評価点ＶＳＲ（ｔ）の各対を示すデータである。以下では、５種類の表情歌唱リファレンスデータＤＤ_a1、ＤＤ_a2、ＤＤ_a3、ＤＤ_a4、ＤＤ_a5を区別しない場合は表情歌唱リファレンスデータＤＤと記す。

歌唱評価プログラムＶＰＧは、次の４つの機能を有する。
ａ２．標準評価機能
これは、ボーカルアダプタ１６の出力信号Ｓ_L及びＳ_Pが示すピッチ及び音量と模範歌唱リファレンストラックＴＲ_NR内の各イベントＥＶ（ｉ）_ON及びＥＶ（ｉ）_OFFにより決ま
る各ノートＮＴ（ｉ）の模範ピッチＰＣＨ_REF及び模範音量ＬＶ_REFとを比較し、この比較の結果に基づいて歌唱の巧拙を評価する機能である。
ｂ２．表情歌唱評価機能
これは、ボーカルアダプタ１６の出力信号Ｓ_Pが示すピッチ波形に表情歌唱の特徴波形が出現する度に、表情歌唱の対象となったノートＮＴ（ｉ）の発音開始時刻を基準点ｔ_BSとする時間軸上における表情歌唱の特徴波形の出現時刻を求め、この出現時刻と対応する評価点ＶＳＲ（ｔ）をリファレンスデータベースＤＢＲＫ内における該当の表情歌唱リファレンスデータＤＤの各評価点ＶＳＲ（ｔ）の中から選択し、この評価点ＶＳＲ（ｔ）に基づいて歌唱の巧拙を評価する機能である。
ｃ２．評価結果提示機能
これは、ａ２による評価の評価結果及びｂ２による評価の評価結果から得点を算出し、この得点をコメントメッセージとともに表示部１４に表示させる機能である。

シーケンサ２１は、リモートコントローラ（不図示）による歌唱曲の歌唱開始操作を契機として該当曲の曲データＭＤ−ｎがハードディスク２０からＲＡＭ１８に転送された場合に、その曲データＭＤ−ｎ内のイベントＥＶ（ｉ）_ON、ＥＶ（ｉ）_OFF、およびデータＤ_LYを装置各部に供給する。具体的には、シーケンサ２１は、ＲＡＭ１８に曲データＭＤ−ｎが記憶されると、この曲データＭＤ−ｎのヘッダＨＤに記述されたタイムベースとリモートコントローラ（不図示）により指定されたテンポとに基づいて１ティックの時間長を決定し、この時間長の経過に合わせてティックをカウントしつつ次の３つの処理を行う。

第１の処理では、シーケンサ２１は、ティックのカウント数が伴奏トラックＴＲ_AC内のデルタタイムＤＴと一致する度にそれに後続するイベントＥＶ（ｉ）_ON（またはＥＶ（ｉ）_OFF）を読み出して音源１１に供給する。音源１１は、シーケンサ２１からイベントＥＶ（ｉ）_ONが供給されるとそのイベントＥＶ（ｉ）_ONが指定する音信号Ｓ_Aをスピーカ１２に供給し、シーケンサ２１からイベントＥＶ（ｉ）_OFFが供給されるとスピーカ１２への音信号Ｓ_Aの供給を止める。

第２の処理では、シーケンサ２１は、ティックのカウント数が歌詞トラックＴＲ_LY内のデルタタイムＤＴと一致する度にそれに後続するデータＤ_LYを読み出して表示部１４に供給する。表示部１４は、シーケンサ２１からデータＤ_LYが供給されるとそのデータＤ_LYを歌詞テロップの画像に変換し、この画像をディスプレイ（不図示）に表示させる。

シーケンサ２１がこの第１および第２の処理を行うことにより、スピーカ１２からの伴奏音の放音とディスプレイへの歌詞の表示とが進行する。利用者は、スピーカ１２から放音される伴奏音を聴きつつディスプレイに表示された歌詞をマイクロホン１３に向かって歌唱する。利用者がマイクロホン１３に向かって歌唱している間、マイクロホン１３は利用者の歌唱音の収音信号Ｓ_Mを出力し、ボーカルアダプタ１６はこの信号Ｓ_Mのピッチ及び音量を示す信号Ｓ_P及びＳ_Lを出力する。

第３の処理では、シーケンサ２１は、ティックのカウント数が模範歌唱リファレンストラックＴＲ_NR内のデルタタイムＤＴと一致する度にそれに後続するイベントＥＶ（ｉ）_ON（またはＥＶ（ｉ）_OFF）を読み出してＣＰＵ１７に供給する。ＣＰＵ１７は、シーケンサ２１から供給されるイベントＥＶ（ｉ）_ON及びＥＶ（ｉ）_OFFとボーカルアダプタ１６の出力信号Ｓ_P及びＳ_Lとを用いて利用者の歌唱の巧拙を評価する。詳しくは、後述する。

サーバ装置３０は、カラオケ店舗におけるサービスの提供を支援する役割を果たす装置である。サーバ装置３０は、通信インターフェース３５、ＣＰＵ３７、ＲＡＭ３８、ＲＯＭ３９、ハードディスク４０を有する。通信インターフェース３５は、ネットワーク９０
に接続された装置との間でデータを送受信する。ＣＰＵ３７は、ＲＡＭ３８をワークエリアとして利用しつつ、ＲＯＭ３９やハードディスク４０に記憶された各種プログラムを実行する。このＣＰＵ３７の動作の詳細は後述する。ＲＯＭ３９にはＩＰＬなどが記憶されている。

ハードディスク４０には、歌唱サンプルデータベースＤＢＳ、リファレンスデータベースＤＢＲＳ、および歌唱分析プログラムＡＰＧが記憶されている。歌唱サンプルデータベースＤＢＳには、各々が１つの歌唱曲と対応する歌唱サンプルデータＤＳ群が個別に記憶される。歌唱サンプルデータＤＳは、一定水準以上の歌唱力を有する者が歌唱曲を歌唱したときの歌唱音のピッチ波形及び音量波形を記録したデータである。リファレンスデータベースＤＢＲＳには、各カラオケ装置１０−ｍのリファレンスデータベースＤＢＲＫ内に格納されるべき最新の表情歌唱リファレンスデータＤＤが記憶される。

歌唱分析プログラムＡＰＧは、次の３つの機能を有する。
ａ３．蓄積機能
これは、カラオケ装置１０−ｍから各歌唱曲の歌唱サンプルデータＤＳを１曲分ずつ取得し、取得した歌唱サンプルデータＤＳを歌唱サンプルデータベースＤＢＳに蓄積する機能である。
ｂ３．書き換え機能
これは、歌唱サンプルデータベースＤＢＳに蓄積された歌唱サンプルデータＤＳの各々について、当該歌唱サンプルデータＤＳが示す波形内から表情歌唱の特徴波形を探索し、この探索結果から表情歌唱の対象となったノートＮＴ（ｉ）の発音開始時刻を基準点ｔ_BSとする時間軸上の各時刻ｔとそれらの時刻ｔにおける表情歌唱の出現数Ｎｕｍとの関係を示す統計データを生成し、リファレンスデータベースＤＢＲ内の表情歌唱リファレンスデータＤＤにおける各時刻ｔと対応する評価点ＶＳＲ（ｔ）を統計データの内容に基づいて書き換える機能である。
ｃ３．送信機能
これは、書き換え機能により書き換えた表情歌唱リファレンスデータＤＤをカラオケ装置１０−ｍからの要求に応じてカラオケ装置１０−ｍに送信する機能である。

次に、本実施形態の動作を説明する。図７は、本実施形態の動作を示すフローチャートである。図７において、カラオケ装置１０−ｍのＣＰＵ１７は、歌唱曲の歌唱開始操作が行われた場合（Ｓ１００：Ｙｅｓ）、シーケンサ２１に制御信号Ｓ_Oを供給してシーケンサ２１に処理（上述した第１〜第３の処理）を開始させる（Ｓ１２０）。ＣＰＵ１７は、シーケンサ２１による処理が始まると、標準歌唱評価処理（Ｓ１３０）と表情歌唱評価処理（Ｓ１４０）の２つの処理を行う。この２つの処理の詳細は次の通りである。

ａ４．標準歌唱評価処理（Ｓ１３０）
この処理では、ＣＰＵ１７は、シーケンサ２１からイベントＥＶ（ｉ）_ONが供給されてから次のイベントＥＶ（ｉ）_OFFが供給されるまでの時間をｉ番目のノートＮＴ（ｉ）に相当する音の発音時間Ｔ_NT（ｉ）とする。ＣＰＵ１７は、発音時間Ｔ_NT（ｉ）の間のボーカルアダプタ１６の出力信号Ｓ_Pが示すピッチとイベントＥＶ（ｉ）_ONのノートナンバを変換した模範ピッチＰＣＨ_REFとの差ＰＣＨ_DEF、及びその間の信号Ｓ_Pが示す音量とイベントＥＶ（ｉ）_ONのベロシティを変換した模範音量ＬＶ_REFとの差ＬＶ_DEFを求め、この差ＰＣＨ_DEF及び差ＬＶ_DEFが所定範囲に収まる場合にノートＮＴ（ｉ）の歌唱が合格であると判定する。ＣＰＵ１７は、利用者による歌唱の開始から終了までの間に亘ってこのノート判定を行い、歌唱の終了時点における全ノートＴＮ（ｉ）の数を合格と判定したノートＮＴ（ｉ）の数で除算した値に１００を乗じた値を基本得点ＳＲ_BASEとする。

また、この処理では、ＣＰＵ１７は、ボーカルアダプタ１６の出力信号Ｓ_Pが示すピッ
チ波形内に、タメ、ビブラート、コブシ、シャクリ、フォールのいずれかの表情歌唱の特徴波形が出現した否かを判定する。ここで、タメの特徴波形の判定手法の詳細は特許文献２を、ビブラートの特徴波形の判定手法の詳細は特許文献３を、コブシの特徴波形の判定手法の詳細は特許文献４を、シャクリの特徴波形の判定手法の詳細は特許文献５を、フォールの特徴波形の判定手法の詳細は特許文献６を参照されたい。ＣＰＵ１７は、利用者による歌唱の開始から終了までの間に亘ってこの特徴波形判定を行い、歌唱の終了時点における表情歌唱の出現数に所定の係数を乗じた値を加算点ＳＲ_ADDとする。そして、この処理では、基本得点ＳＲ_BASEと加算点ＳＲ_ADDの合計を標準得点ＳＲ_NORとする。

ｂ４．表情歌唱評価処理（Ｓ１４０）
この処理では、ＣＰＵ１７は、音源イベントＥＶ（ｉ）_ONの出力から次のイベントＥＶ（ｉ）_OFFの出力までの時間をｉ番目のノートＮＴ（ｉ）に相当する音の発音時間Ｔ_NT（ｉ）とする。そして、ＣＰＵ１７は、発音時間Ｔ_NT（ｉ）の間のボーカルアダプタ１６の出力信号Ｓ_Pが示すピッチ波形内に表情歌唱の特徴波形が出現した場合には、発音時間Ｔ_NT（ｉ）内における表情歌唱の出現時刻と出現した表情歌唱の種類を求める。ＣＰＵ１７は、そのように特定した表情歌唱の種類と出現時刻とを示す表情歌唱出現データを生成する。

そして、ＣＰＵ１７は、生成した表情歌唱出現データに示される表情歌唱およびその出現時刻に応じた評価点ＶＳＲ（ｔ）を、表情歌唱リファレンスデータＤＤが示す一連の評価点ＶＳＲ（ｔ）の中から選択する。ＣＰＵは、利用者による歌唱の開始から終了までの間に亘ってこのような評価点ＶＳＲ（ｔ）の選択を行い、歌唱の終了時点における評価点ＶＳＲ（ｔ）の平均値を表情得点ＳＲ_EXとする。

ＣＰＵ１７は、利用者による歌唱曲の歌唱が終了すると、評価結果提示処理を行う（Ｓ１５０）。評価結果提示処理では、ＣＰＵ１７は、標準歌唱評価処理により採点した標準得点ＳＲ_NORと表情歌唱評価処理により採点した表情得点ＳＲ_EXのうち高い方の得点を選択する。そして、ＣＰＵ１７は、標準得点ＳＲ_NORを選択した場合、この得点ＳＲ_NORと、例えば「クールで精緻な歌ですね」といった得点ＳＲ_NORに応じたコメントメッセージを表示部１４に表示させる。また、ＣＰＵ１７は、表情得点ＳＲ_EXを選択した場合、この得点ＳＲ_EXと、例えば「人情味あふれていますね」といった表情得点ＳＲ_EXに応じたコメントメッセージを表示部１４に表示させる。

次に、ＣＰＵ１７は、サンプル送信処理を行う（Ｓ１６０）。サンプル送信処理では、ＣＰＵ１７は、歌唱曲の歌唱の開始から終了までの間にボーカルアダプタ１６が出力した信号Ｓ_P及びＳ_Lを当該歌唱曲の歌唱サンプルデータＤＳとし、この歌唱サンプルデータＤＳとステップＳ１３０で求めた基本得点ＳＲ_BASE（歌唱評価データ）とを含むメッセージＭＳ１をサーバ装置３０に送信する。

サーバ装置３０のＣＰＵ３７は、カラオケ装置１０−ｍからメッセージＭＳ１を取得すると（Ｓ２００：Ｙｅｓ）、このメッセージＭＳ１から歌唱サンプルデータＤＳと基本得点ＳＲ_BASEとを取り出し、この基本得点ＳＲ_BASEを上級者とそうでない者とを分ける基準得点ＳＲ_TH（たとえば、８０点とする）と比較する（Ｓ２２０）。ＣＰＵ３７は、基本得点ＳＲ_BASEが基準得点ＳＲ_THよりも高い場合（Ｓ２２０：Ｙｅｓ）、メッセージＭＳ１から取り出した歌唱サンプルデータＤＳを歌唱サンプルデータベースＤＢＳに蓄積する（Ｓ２３０）。

続いて、ＣＰＵ３７は書き換え処理を行う（Ｓ２４０）。書き換え処理では、ＣＰＵ３７は、次の５つの処理を行う。第１の処理では、ＣＰＵ３７は、歌唱サンプルデータベースＤＢＳに蓄積された各歌唱サンプルデータＤＳが示すピッチ波形内からタメの特徴波形
を探索し、この探索結果を示す表情歌唱出現データ（タメが出現したノートＮＴ（ｉ）の発音開始時刻を基準点ｔ_BSとする時間軸上の各時刻ｔを示すデータ）を生成する。続いて、ＣＰＵ３７はタメに関し生成した表情歌唱出現データに基づき、ノートＮＴ（ｉ）の発音開始時刻を基準点ｔ_BSとする時間軸上の各時刻ｔとそれらの時刻ｔにおける表情歌唱「タメ」の出現数Ｎｕｍとの関係を示す統計データを生成し、表情歌唱リファレンスデータＤＤ_a1における各時刻ｔと対応する評価点ＶＳＲ（ｔ）をこの統計データの内容に基づいて書き換える。

図８は、タメについての統計データの一例を示す図である。この例の統計データでは、基準点ｔ_BSより時間Ｔ１_a1だけ前の時刻ｔ１_a1と基準点ｔ_BSより時間Ｔ４_a1だけ後の時刻ｔ４_a1との間に表情歌唱の出現数Ｎｕｍが分布している。そして、この例の統計データでは、基準点ｔ_BSの直後の時刻ｔ２_a1に出現数Ｎｕｍの最大ピークが表れており、時刻ｔ２_a1よりも遅れた時刻ｔ３_a1に出現数Ｎｕｍの２番目のピークが表れている。よって、この例の統計データによる書き換え後の表情歌唱リファレンスデータＤＤ_a1では、時刻ｔ２_a1の評価点ＶＳＲ（ｔ２_a1）が最も高くなり、時刻ｔ３_a1の評価点ＶＳＲ（ｔ３_a1）が２番目に高くなる。

第２の処理では、ＣＰＵ３７は、歌唱サンプルデータベースＤＢＳに蓄積された各歌唱サンプルデータＤＳが示すピッチ波形内からビブラートの特徴波形を探索し、この探索結果を示す表情歌唱出現データ（ビブラートが出現したノートＮＴ（ｉ）の発音開始時刻を基準点ｔ_BSとする時間軸上の各時刻ｔを示すデータ）を生成する。続いて、ＣＰＵ３７はビブラートに関し生成した表情歌唱出現データに基づき、ノートＮＴ（ｉ）の発音開始時刻を基準点ｔ_BSする時間軸上の各時刻ｔとそれらの時刻ｔにおける表情歌唱の出現数Ｎｕｍとの関係を示す統計データを生成し、表情歌唱リファレンスデータＤＤ_a2における各時刻ｔと対応する評価点ＶＳＲ（ｔ）をこの統計データの内容に基づいて書き換える。

図９は、ビブラートについての統計データの一例を示す図である。この例の統計データでは、基準点ｔ_BSと基準点ｔ_BSより時間Ｔ２_a2だけ後の時刻ｔ２_a2との間に表情歌唱の出現数Ｎｕｍが分布している。そして、この例の統計データでは、基準点ｔ_BSよりも時間Ｔ１_a2だけ後の時刻ｔ１_a2に出現数Ｎｕｍの最大ピークが表れている。よって、この例の統計データによる書き換え後の表情歌唱リファレンスデータＤＤ_a2では、時刻ｔ１_a2の評価点ＶＳＲ（ｔ１_a2）が最も高くなる。

第３の処理では、ＣＰＵ３７は、歌唱サンプルデータベースＤＢＳに蓄積された各歌唱サンプルデータＤＳが示すピッチ波形内からコブシの特徴波形を探索し、この探索結果を示す表情歌唱出現データ（コブシが出現したノートＮＴ（ｉ）の発音開始時刻を基準点ｔ_BSとする時間軸上の各時刻ｔを示すデータ）を生成する。続いて、ＣＰＵ３７はコブシに関し生成した表情歌唱出現データに基づき、ノートＮＴ（ｉ）の発音開始時刻を基準点ｔ_BSとする時間軸上の各時刻ｔとそれらの時刻ｔにおける表情歌唱の出現数Ｎｕｍとの関係を示す統計データを生成し、表情歌唱リファレンスデータＤＤ_a3における各時刻ｔと対応する評価点ＶＳＲ（ｔ）をこの統計データの内容に基づいて書き換える。

図１０は、コブシについての統計データの一例を示す図である。この例の統計データでは、基準点ｔ_BSと基準点ｔ_BSより時間Ｔ２_a3だけ後の時刻ｔ２_a3との間に表情歌唱の出現数Ｎｕｍが分布している。そして、この例の統計データでは、基準点ｔ_BSよりも時間Ｔ１_a3だけ後の時刻ｔ１_a3に出現数Ｎｕｍの最大ピークが表れている。よって、この例の統計データによる書き換え後の表情歌唱リファレンスデータＤＤ_a3では、時刻ｔ１_a3の評価点ＶＳＲ（ｔ１_a3）が最も高くなる。

第４の処理では、ＣＰＵ３７は、歌唱サンプルデータベースＤＢＳに蓄積された各歌唱
サンプルデータＤＳが示すピッチ波形内からシャクリの特徴波形を探索し、この探索結果を示す表情歌唱出現データ（シャクリが出現したノートＮＴ（ｉ）の発音開始時刻を基準点ｔ_BSとする時間軸上の各時刻ｔを示すデータ）を生成する。続いて、ＣＰＵ３７はシャクリに関し生成した表情歌唱出現データに基づき、ノートＮＴ（ｉ）の発音開始時刻を基準点ｔ_BSとする時間軸上の各時刻ｔとそれらの時刻ｔにおける表情歌唱の出現数Ｎｕｍとの関係を示す統計データを生成し、表情歌唱リファレンスデータＤＤ_a4における各時刻ｔと対応する評価点ＶＳＲ（ｔ）をこの統計データの内容に基づいて書き換える。

図１１は、シャクリについての統計データの一例を示す図である。この例の統計データでは、基準点ｔ_BSと基準点ｔ_BSより時間Ｔ２_a4だけ後の時刻ｔ２_a4との間に表情歌唱の出現数Ｎｕｍが分布している。そして、この例の統計データでは、基準点ｔ_BSに出現数Ｎｕｍの最大ピークが表れており、基準点ｔ_BSよりも時間Ｔ１_a4だけ遅れた時刻ｔ１_a4に出現数Ｎｕｍの２番目のピークが表れている。よって、この例の統計データによる書き換え後の表情歌唱リファレンスデータＤＤ_a4では、時刻ｔ_BSの評価点ＶＳＲ（ｔ_BS）が最も高くなり、時刻ｔ１_a4の評価点ＶＳＲ（ｔ１_a4）が２番目に高くなる。

第５の処理では、ＣＰＵ３７は、歌唱サンプルデータベースＤＢＳに蓄積された各歌唱サンプルデータＤＳが示すピッチ波形内からフォールの特徴波形を探索し、この探索結果を示す表情歌唱出現データ（フォールが出現したノートＮＴ（ｉ）の発音開始時刻を基準点ｔ_BSとする時間軸上の各時刻ｔを示すデータ）を生成する。続いて、ＣＰＵ３７はフォールに関し生成した表情歌唱出現データに基づき、ノートＮＴ（ｉ）の発音開始時刻を基準点ｔ_BSとする時間軸上の各時刻ｔとそれらの時刻ｔにおける表情歌唱の出現数Ｎｕｍとの関係を示す統計データを生成し、表情歌唱リファレンスデータＤＤ_a5における各時刻と対応する評価点ＶＳＲ（ｔ）をこの統計データの内容に基づいて書き換える。

図１２は、フォールについての統計データの一例を示す図である。この例の統計データでは、基準点ｔ_BSより時間Ｔ１_a5だけ後の時刻ｔ１_a5と時刻ｔ_BSから時間Ｔ２_a5だけ後の時刻ｔ２_a5との間に表情歌唱の出現数Ｎｕｍが分布している。そして、この例の統計データでは、時刻ｔ２_a5に出現数Ｎｕｍの最大ピークが表れている。よって、この例の統計データによる書き換え後の表情歌唱リファレンスデータＤＤ_a5では、時刻ｔ２_a5の評価点ＶＳＲ（ｔ２_a5）が最も高くなる。

図７において、カラオケ装置１０−ｍのＣＰＵ１７は、予め決められた問合せ時刻が到来する度に（Ｓ１１０：Ｙｅｓ）、問合せ処理を行う（Ｓ１７０）。この問合せ処理では、ＣＰＵ１７は、最新データの送信を求めるメッセージＭＳ２をサーバ装置３０に送信する（Ｓ１７０）。サーバ装置３０のＣＰＵ３７は、カラオケ装置１０−ｍからメッセージＭＳ２を受信すると（Ｓ２１０：Ｙｅｓ）、前回のメッセージＭＳ２の受信時刻から今回のメッセージＭＳ２の受信時刻までの間に内容を書き換えた表情歌唱リファレンスデータＤＤをメッセージＭ２の送信元のカラオケ装置１０−ｍに送信する（Ｓ２５０）。カラオケ装置１０−ｍのＣＰＵ１７は、サーバ装置３０から表情歌唱リファレンスデータＤＤを受信すると、この表情歌唱リファレンスデータＤＤをリファレンスデータベースＤＢＲＫに上書きしてその内容を更新する（Ｓ１８０）。

以上が、本実施形態の構成の詳細である。本実施形態によると、次の効果が得られる。
第１に、本実施形態の表情付け歌唱評価処理では、ボーカルアダプタ１６の出力信号の波形に表情歌唱の特徴波形が出現する度に、表情歌唱の対象となったノートＮＴ（ｉ）の発音開始時刻を基準点とする時間軸上における表情歌唱の特徴波形の出現時刻を求め、この出現時刻と対応する評価点ＶＳＲ（ｔ）を歌唱リファレンスデータＤＤ内の各評価点ＶＳＲ（ｔ）の中から選択し、この選択した評価点ＶＳＲ（ｔ）に基づいて歌唱の巧拙を評価する。よって、本実施形態によると、利用者が表情歌唱を行ったとしても、そのタイミ
ングが適切でなければ良好な評価が得られないことになる。従って、本実施形態によると、人の感性によるものにより近い評価結果を提示することができる。

第２に、本実施形態では、歌唱サンプルデータベースＤＢＳ内に蓄積された表情歌唱リファレンスデータＤＤの各々について、当該データＤＤが示す波形内から表情歌唱の特徴波形を探索し、この探索結果から表情歌唱の対象となったノートＮＴ（ｉ）の発音開始時刻を基準点とする時間軸上の各時刻とそれらの時刻における表情歌唱の出現数との関係を示す統計データを生成し、歌唱リファレンスデータＤＤにおける各時刻と対応する評価点ＶＳＲ（ｔ）を統計データの内容に基づいて書き換える。よって、本実施形態によると、歌唱曲を歌い込んでいる上級者らの歌い方の傾向の変化を評価結果に反映させることができる。

以上、この発明の一実施形態について説明したが、この発明には他にも実施形態があり得る。例えば、以下の通りである。
（１）上記実施形態では、ＣＰＵ１７は、タメ、ビブラート、コブシ、シャクリ、フォールの５種類の表情歌唱をボーカルアダプタ１６の出力信号Ｓ_Pから検出した。しかし、この５種類以外の表情歌唱を検出してもよい。たとえば、抑揚をつけた歌唱を検出してもよい。

（２）上記実施形態では、ＣＰＵ１７は、ボーカルアダプタ１６の出力信号Ｓ_P及びＳ_Lの両方を用いて標準歌唱評価処理を行い、ボーカルアダプタ１６の出力信号Ｓ_P及びＳ_Lのうちピッチを示す信号Ｓ_Pのみを用いて表情歌唱評価処理を行った。しかし、ＣＰＵ１７は、信号Ｓ_P及びＳ_Lの一方のみを用いて標準歌唱評価処理を行ってもよい。また、ＣＰＵ１７は、信号Ｓ_P及びＳ_Lの両方を用いて表情歌唱評価処理を行ってもよい。

（３）上記実施形態の表情歌唱評価処理では、表情歌唱の特徴波形の出現時刻に基づいて歌唱の巧拙を評価した。しかし、表情歌唱の特徴波形の出現時刻以外の要素（たとえば、タメ、ビブラート、コブシ、シャクリ、フォールの各々の長さや深さなど）を加味した評価を行ってもよい。

（４）上記実施形態の表情歌唱評価処理では、歌唱曲に含まれるノートの各々に応じた歌唱音において出現する表情歌唱を検出する構成が採用されているが、歌唱曲に含まれる一連の複数のノート（ノート群）に応じた歌唱音において出現する表情歌唱を検出する構成が採用されてもよい。例えば、クレッシェンド・デクレッシェンドのような表情歌唱は、一連の複数のノートの歌唱において行われる表情歌唱であるため、それらの表情歌唱の検出および評価はノート群を単位として行われる方が望ましい。従って、そのような表情歌唱に関する表情歌唱リファレンスデータＤＤもまたノート群単位で構成されることが望ましい。

（５）上記実施形態では、カラオケ装置１０からサーバ装置３０に対し、歌唱曲の歌唱の開始から終了までの間にボーカルアダプタ１６が出力した信号Ｓ_P及びＳ_Lを含む歌唱サンプルデータＤＳ（ピッチ音量データ）を送信し、サーバ装置３０においては歌唱サンプルデータＤＳから各表情歌唱の検出およびその出現のタイミングの特定処理が行われる構成が採用されている。これに代えて、カラオケ装置１０からサーバ装置３０に対し、マイクロホン１３により収音された音を示す音信号Ｓ_M（歌唱音を示す音声波形データ）を送信し、サーバ装置３０において音信号Ｓ_Mから信号Ｓ_pおよび信号Ｓ_Lを生成する処理（上記実施形態におけるボーカルアダプタ１６が行う処理）が行われる構成が採用されてもよい。また、カラオケ装置１０からサーバ装置３０に対し、歌唱評価プログラムＶＰＧに従い行われる表情歌唱評価処理（Ｓ１４０）に際し特定した表情歌唱の種別およびその出現のタイミングを示すデータ（表情歌唱出現データ）を送信し、サーバ装置３０においては表
情歌唱の検出処理は行わずカラオケ装置１０から送信されてくる表情歌唱出現データに基づき表情歌唱リファレンスデータＤＤの更新処理が行われる構成が採用されてもよい。

（６）上記実施形態では、サーバ装置３０が統計データの生成とこれに基づく表情歌唱リファレンスデータＤＤの書き換えを行った。しかし、各カラオケ装置１０−ｍが過去に自機により生成、もしくは他のカラオケ装置１０−ｍから直接またはサーバ装置３０を介して取得した歌唱音を示す音信号Ｓ_Mや、それらの音信号Ｓ_Mから生成した信号Ｓ_pおよび信号Ｓ_L、もしくはそれらの信号を用いて特定した表情歌唱の種別およびその出現のタイミングを示すデータ（表情歌唱出現データ）をハードディスク２０に記憶しておき、ＣＰＵ１７がそれらを読み出して用いて、サーバ装置３０がＳ２４０で行う処理と同様の処理、すなわち統計データの生成とこれに基づく表情歌唱リファレンスデータＤＤの書き換えを行うようにしてもよい。

（７）上記実施形態における歌唱の評価の方法および評価結果の歌唱者への提示の態様は様々に変更可能である。例えば、上記実施形態においては、標準歌唱評価処理（Ｓ１３０）にて表情歌唱の出現回数に基づき算出される加算点ＳＲ_ADDを基本得点ＳＲ_BASEと合計することで標準得点ＳＲ_NORを算出する構成が採用されているが、標準歌唱評価処理においては表情歌唱の出現は考慮せず、基本得点ＳＲ_BASEのみを算出する構成が採用されてもよい。また、上記実施形態においては、歌唱者に対し、標準歌唱評価処理により採点した標準得点ＳＲ_NORと表情歌唱評価処理により採点した表情得点ＳＲ_EXのうち高い方の得点が表示されるが、それらの両方を表示する、それらの合計点数を表示するなど、他の態様で歌唱者に対する評価結果の提示が行われてもよい。

（８）上記実施形態では、表情歌唱リファレンスデータＤＤの更新に際し、基本得点ＳＲ_BASEが基準得点ＳＲ_THよりも高い歌唱者を上級者とし、上級者に関する歌唱サンプルデータＤＳのみを用いて表情歌唱リファレンスデータＤＤの更新を行う構成が採用されている。表情歌唱リファレンスデータＤＤの更新に用いる歌唱サンプルデータＤＳの選択方法はこれに限られない。例えば、基本得点ＳＲ_BASEに代えて、基本得点ＳＲ_BASEに加算点ＳＲ_ADDを合計した標準得点ＳＲ_NORを上級者の推定の基準として用いてもよい。また、全く表情歌唱を行わないために基本得点ＳＲ_BASEが高得点となっている上級者を除外するために、下側の閾値（基準得点ＳＲ_TH）に加え上側の閾値を設け、上側の閾値より高い基本得点ＳＲ_BASE（またはその他の得点）の歌唱者の歌唱サンプルデータＤＳは表情歌唱リファレンスデータＤＤの更新には用いない、という構成が採用されてもよい。また、上記のように歌唱者を上級者とそれ以外の者に２分する代わりに、例えば基本得点ＳＲ_BASEが高い歌唱者の歌唱サンプルデータＤＳに大きい重み付けを付けて表情歌唱リファレンスデータＤＤの更新に用いるようにしてもよい。

（９）上記実施形態では、楽曲演奏を評価する演奏評価装置の一例として、歌唱用のカラオケ装置に設けられ、歌唱演奏を評価する演奏評価装置を示したが、本発明にかかる演奏評価装置は歌唱演奏の評価に限定されず、各種楽器を用いた楽曲演奏の評価にも適用可能である。すなわち、上記実施形態において用いた「歌唱」という言葉は、より一般的な「演奏」という言葉で置き換えられる。なお、器楽演奏を評価する演奏評価装置においては、例えばギターにおけるチョーキングなど、個々の楽器に応じた表情演奏に関する評価が行われることになる。また、楽曲が歌唱曲でなく楽器用の楽曲である場合、楽器演奏用のカラオケ装置は、曲データＭＤは歌詞トラックＴＲ_LYに代えて、例えば楽譜を示すデータと、楽譜の各区間（例えば、２小節もしくは４小節のブロックなど）の表示時刻を示すデルタタイムが時系列順に記述されたデータである楽譜トラックを含むように構成され、シーケンサ２１および表示部１４は楽譜トラックに従い、楽曲の進行に伴い伴奏箇所に応じた楽譜を示す画像信号をディスプレイに出力するように構成されることになる。なお、歌唱用のカラオケ装置および楽器演奏用のカラオケ装置において、歌詞もしくは楽譜の表示
が不要な場合は、シーケンサ２１および表示部１４による画像信号の出力処理は行われなくてもよい。

（１０）上記実施形態では、いわゆる専用機としてのカラオケ装置に本発明にかかる演奏評価装置が設けられている例を示したが、本発明にかかる演奏評価装置は専用機に限られない。例えば、パーソナルコンピュータや携帯情報端末（例えば携帯電話機やスマートホン）やゲーム装置等の各種装置にプログラムに従った処理を行わせることによって本発明にかかる演奏評価装置を実現する構成が採用されてもよい。

１…歌唱評価システム、１０…カラオケ装置、１１…音源、１２…スピーカ、１３…マイクロホン、１４…表示部、１５…通信インターフェース、１６…ボーカルアダプタ、１７…ＣＰＵ、１８…ＲＡＭ、１９…ＲＯＭ、２０…ハードディスク、２１…シーケンサ、３０…サーバ装置、３５…通信インターフェース、３７…ＣＰＵ、３８…ＲＡＭ、３９…ＲＯＭ、４０…ハードディスク、９０…ネットワーク

Claims

任意数の任意の演奏者による楽曲の演奏音の各々に関し、当該演奏音のピッチまたは音量を示すピッチ音量データを取得するピッチ音量データ取得手段と、
前記ピッチ音量データ取得手段により取得されたピッチ音量データにより示されるピッチまたは音量の少なくとも一方の特性が、前記楽曲における任意のタイミングにおいて予め定められた１以上の表情演奏の特性のうちの一の特性を示す場合、当該表情演奏と、前記楽曲に含まれるノートまたはノート群の発音開始時刻を基準とする当該タイミングとの対を示す表情演奏出現データを生成する表情演奏出現データ生成手段と、
前記表情演奏出現データ生成手段により生成された任意数の表情演奏出現データに基づき、前記楽曲に含まれるノートまたはノート群の各々に関し、当該ノートまたはノート群の発音開始時刻を基準とする時間軸上のいずれのタイミングでいずれの表情演奏がいずれの頻度で出現しているかを特定し、当該特定した情報を用いて前記発音開始時刻を基準とする前記時間軸上の各時刻と当該時刻においてそれぞれ当該楽曲の演奏中に行われるべき表情演奏が行なわれた場合の評価点との各対で示す表情演奏リファレンスデータを生成する表情演奏リファレンスデータ生成手段と、
を備える表情演奏リファレンスデータ生成装置。
楽曲に含まれるノートまたはノート群の発音開始時刻を基準とする時間軸上において当該発音開始時刻から当該楽曲の演奏中に行われるべき表情演奏が実際に行なわれる時刻までの時間差と当該時間差に応じて動的に変化する評価点との関係を当該表情演奏ごとに示す表情演奏リファレンスデータを取得する表情演奏リファレンスデータ取得手段と、
演奏者による前記楽曲の演奏音から当該演奏音のピッチまたは音量を示すピッチ音量データを生成するピッチ音量データ生成手段と、
前記ピッチ音量データ生成手段により生成された前記ピッチ音量データにより示されるピッチまたは音量の少なくとも一方の特性が、前記楽曲における前記表情演奏リファレンスデータにより示される所定時間範囲内において前記表情演奏リファレンスデータにより行われるべきであるとされる表情演奏の特性を示す場合、当該表情演奏の出現時刻に応じた前記評価点を用いて評価を行う演奏評価手段と、
を備える演奏評価装置。
任意数の任意の演奏者による楽曲の演奏音の各々に関し、当該演奏音のピッチまたは音量を示すピッチ音量データを取得するピッチ音量データ取得手段と、
前記ピッチ音量データ取得手段により取得されたピッチ音量データにより示されるピッチまたは音量の少なくとも一方の特性が、前記楽曲における任意のタイミングにおいて予め定められた１以上の表情演奏の特性のうちの一の特性を示す場合、当該表情演奏と、前記楽曲に含まれるノートまたはノート群の発音開始時刻を基準とする当該タイミングとの対を示す表情演奏出現データを生成する表情演奏出現データ生成手段と、
前記表情演奏出現データ生成手段により生成された任意数の表情演奏出現データに基づき、前記楽曲に含まれるノートまたはノート群の各々に関し、当該ノートまたはノート群の発音開始時刻を基準とする時間軸上のいずれのタイミングでいずれの表情演奏がいずれの頻度で出現しているかを特定し、当該特定した情報を用いて前記発音開始時刻を基準とする前記時間軸上の各時刻と当該時刻においてそれぞれ当該楽曲の演奏中に行われるべき表情演奏が行なわれた場合の評価点との各対で示す前記表情演奏リファレンスデータを生成する表情演奏リファレンスデータ生成手段と、
を備え、
前記表情演奏リファレンスデータ取得手段は、前記表情演奏リファレンスデータ生成手段によって生成された前記表情演奏リファレンスデータを取得する
請求項２に記載の演奏評価装置。
前記楽曲の模範となるピッチまたは音量を示す模範演奏リファレンスデータを取得する模範演奏リファレンスデータ取得手段
を備え、
前記演奏評価手段は、前記ピッチ音量データ生成手段により生成されたピッチ音量データにより示されるピッチと、前記模範演奏リファレンスデータにより示されるピッチとの比較の結果に基づき前記演奏者による前記楽曲の演奏に対する評価を行う
請求項２または３に記載の演奏評価装置。
前記演奏評価手段は、
前記ピッチ音量データ生成手段により生成されたピッチ音量データにより示されるピッチまたは音量と、前記模範演奏リファレンスデータにより示されるピッチまたは音量との比較の結果に基づき、前記演奏者による前記楽曲の演奏に関する第１の得点を求めると共に、
前記ピッチ音量データ生成手段により生成されたピッチ音量データにより示されるピッチまたは音量と、前記表情演奏リファレンスデータにより示されるピッチまたは音量との比較の結果に基づき、前記演奏者による前記楽曲の演奏に対する第２の得点を求め、
前記第１の得点および前記第２の得点に基づき、前記楽曲の演奏に対する演奏評価を行うことを特徴とする
請求項４に記載の演奏評価装置。
前記楽曲の模範となるピッチを示す模範演奏リファレンスデータを取得する模範演奏リファレンスデータ取得手段
を備え、
前記演奏評価手段は、前記ピッチ音量データ生成手段により生成されたピッチ音量データにより示されるピッチと、前記模範演奏リファレンスデータにより示されるピッチとの比較の結果に基づき前記演奏者による前記楽曲の演奏に対する評価を行い、
前記ピッチ音量データ取得手段により取得されるピッチ音量データは、前記演奏評価手段により前記模範演奏リファレンスデータを用いて行われた評価の結果、または前記演奏評価手段と同様の手段を備える他機により前記模範演奏リファレンスデータと同様のデータを用いて行われた評価の結果を示す演奏評価データを伴い、
前記表情演奏リファレンスデータ生成手段は、前記ピッチ音量データ取得手段により取得されるピッチ音量データのうち所定の条件を満たす演奏評価データを伴うピッチ音量データを用いて前記表情演奏出現データ生成手段により生成された表情演奏出現データに基づき、前記表情演奏リファレンスデータを生成する
請求項３に記載の演奏評価装置。
請求項２乃至６のいずれか１項に記載の演奏評価装置と、
楽曲の伴奏を指示する伴奏データを取得する伴奏データ取得手段と、
前記伴奏データの指示に従い伴奏の楽音を示す音信号を出力する音信号出力手段と、
を備える
カラオケ装置。
前記楽曲は歌唱曲であり、
前記歌唱曲の歌詞を示す歌詞データを取得する歌詞データ取得手段と、
前記歌詞データにより示される歌詞であって、前記音信号出力手段により現在出力されている音信号が示す伴奏とともに歌唱されるべき歌詞を示す画像信号を出力する画像信号出力手段と、
を備える請求項７に記載のカラオケ装置。
前記楽曲は楽器により演奏される楽曲であり、
前記楽曲の楽譜を示す楽譜データを取得する楽譜データ取得手段と、
前記楽譜データにより示される楽譜であって、前記音信号出力手段により現在出力されている音信号が示す伴奏とともに行われるべき演奏を指示する楽譜を示す画像信号を出力する画像信号出力手段と、
を備える請求項７に記載のカラオケ装置。
任意数の任意の演奏者による楽曲の演奏音の各々に関し、前記楽曲に含まれるノートまたはノート群の発音開始時刻を基準とする一のタイミングにおいて一の表情演奏が出現したことを示す表情演奏出現データを取得する表情演奏出現データ取得手段と、
前記表情演奏出現データ取得手段により取得された任意数の表情演奏出現データに基づき、前記楽曲に含まれるノートまたはノート群の各々に関し、当該ノートまたはノート群の発音開始時刻を基準とする時間軸上のいずれのタイミングでいずれの表情演奏がいずれの頻度で出現しているかを特定し、当該特定した情報を用いて前記発音開始時刻を基準とする前記時間軸上の各時刻と当該時刻においてそれぞれ当該楽曲の演奏中に行われるべき表情演奏が行なわれた場合の評価点との各対で示す表情演奏リファレンスデータを生成する表情演奏リファレンスデータ生成手段と、
前記表情演奏リファレンスデータ生成手段により生成された表情演奏リファレンスデータを演奏評価装置に送信する送信手段と、
を備える装置。