JP6075313B2

JP6075313B2 - プログラム，情報処理装置，及び評価データ生成方法

Info

Publication number: JP6075313B2
Application number: JP2014060253A
Authority: JP
Inventors: 典昭阿瀬見
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2014-03-24
Filing date: 2014-03-24
Publication date: 2017-02-08
Anticipated expiration: 2034-03-24
Also published as: JP2015184447A

Description

本発明は、歌唱を評価するための評価データを生成するプログラム、情報処理装置、及び評価データ生成方法に関する。

従来、楽曲の歌唱旋律を歌った歌唱の巧拙を評価する歌唱評価技術が知られている（特許文献１参照）。
この種の歌唱評価技術として、歌唱音声における音高の推移に基づく基準点数に、付加点数を加えた評価点数を算出する技術が提案されている。この種の歌唱評価技術における基準点数は、歌唱旋律を構成する音符ごとに規定された１つの音高を表すリファレンスデータと、歌唱音声における音高とのズレが小さいほど高い点数となるように算出される。また、付加点数は、歌唱音声から検出した歌唱技巧（例えば、しゃくりやこぶしなど）の回数が多いほど高い点数となるように算出される。

特開２００７−２３３０１３号公報

ところで、人間が歌唱する場合、歌唱音声の音高や音圧は、１つの音符の期間内であっても、一定に保持されず変動する。１つの音符の期間内における歌唱音声の音高や音圧の変動は、歌手ごとに表れる特徴である。このような歌手ごとに表れる特徴を、カラオケ装置などのユーザが表現して歌唱した場合、高い評価とすることが好ましい。

しかしながら、従来の歌唱評価技術では、カラオケ装置などのユーザが、楽曲の歌手特有の特徴を表現して歌唱しても、何ら評価されないという課題があった。
そこで、本発明は、楽曲における歌手特有の特徴を表現して歌唱することを評価可能な評価データを提供することを目的とする。

上記目的を達成するためになされた本発明は、第１取得ステップと、抽出ステップと、第２取得ステップと、特定ステップと、第１決定ステップと、生成ステップとをコンピュータに実行させるプログラムである。

本発明のプログラムにおける第１取得ステップでは、ボーカル音を含む楽曲を表す楽曲データを第１記憶部から取得する。抽出ステップでは、第１取得ステップにより取得された楽曲データから、ボーカル音を表すボーカルデータを抽出する。第２取得ステップでは、楽曲を構成する複数の音符から構成される楽譜データであって、音符ごとの演奏時間である第１時間長と、複数の音符間の時間長である第２時間長とを含む楽譜データを第２記憶部から取得する。

さらに、特定ステップでは、抽出ステップで抽出したボーカルデータと、第２取得ステップで取得した楽譜データの第１時間長及び第２時間長とに基づいて、楽曲における歌唱旋律を構成する音符それぞれに対応するボーカルデータの区間である音符ボーカルデータを特定する。第１決定ステップでは、特定ステップにて特定した音符ボーカルデータに基づいて、音符ボーカルデータの振幅及び基本周波数の少なくともいずれか一方の音符に対応する区間内での推移を表す特徴変化量を決定する。そして、生成ステップでは、第１決定ステップにより決定された特徴変化量を用いて、歌唱を評価するための評価データを生成する。

このようなプログラムが実行されることで生成される評価データは、音符ボーカルデータの振幅及び基本周波数の少なくともいずれか一方が、音符に対応する区間内で推移した特徴変化量を含む。この特徴変化量には、その楽曲を歌唱した人物の歌い方のクセが表れる。

つまり、評価データは、楽曲を歌唱した歌手特有の歌い方の特徴を音符ごとに表したものである。
ここで、例えば、情報処理装置の利用者が、評価データを生成するために用いた楽曲とは異なる楽曲について歌唱した歌声を、評価データを用いて評価する場合を想定する。この場合、利用者が歌唱した楽曲の各音符について、評価データにおける特徴変化量と、歌声から検出した音符それぞれでの振幅または基本周波数の推移との相関が高いほど、情報処理装置の利用者は、歌手特有の歌い方の特徴を表現できていると言える。

したがって、本発明のプログラムによれば、楽曲を歌唱したプロの歌手特有の特徴の表現を評価可能な評価データを生成できる。
楽譜データには、音符の音高が含まれる。この場合、本発明のプログラムにおいては、対応付ステップを、コンピュータにさらに実行させても良い。この対応付ステップでは、第２取得ステップで取得した楽譜データに含まれる音符の音高及び第１時間長と、第１決定ステップで決定された特徴変化量とを、対応する音符ごとに対応付ける。

この場合の本発明のプログラムにおける生成ステップでは、少なくとも、音符の音高と第１時間長との組み合わせが共通である音符を、所定の条件を満たす音符として、所定の条件を満たす音符ごとに特徴変化量の代表値を決定し、その決定した特徴変化量の代表値を含む評価データを生成しても良い。

このようなプログラムによれば、所定の条件を満たす音符ごとに決定した特徴変化量の代表値を含むデータを、評価データとして生成することができる。このような評価データによれば、特徴変化量が、所定の条件を満たす音符ごとに代表値化されているため、データ量を低減できる。なお、ここで言う代表値には、平均値や、最頻値、中央値を含む。

また、楽譜データには、楽曲の歌唱旋律を構成する音符に割り当てられた歌詞の音節を表す歌詞情報が含まれる。この場合の対応付ステップでは、第２取得ステップで取得した楽譜データに含まれる音符の音高、第１時間長、及び歌詞情報と、第１決定ステップで決定された特徴変化量とを、対応する音符ごとに対応付けても良い。そして、生成ステップでは、音符の音高と、第１時間長と、歌詞情報との組み合わせが共通である音符を、所定の条件を満たす音符として、所定の条件を満たす音符ごとに特徴変化量の代表値を決定しても良い。

このようなプログラムによれば、音符の音高と、第１時間長と、歌詞情報とが共通である音符を、所定の条件を満たす音符として、音符に対応する特徴変化量の代表値を、当該所定の条件を満たす音符ごとに決定できる。

ここで、楽曲においては、同一種類の音符に対して異なる音節が歌詞として割り当てられていることがある。この場合、楽曲を歌唱したプロの歌手は、音符と音節との組み合わせによって、歌唱の方法が異なる可能性が高い。つまり、音高と第１時間長との組み合わせによって決まる音符が同一であっても、その音符に割り当てられた歌詞の音節が異なる場合には、音符ボーカルデータにおける特徴変化量は、異なる可能性が高い。

このため、本発明のプログラムのように、音高と第１時間長とに加えて歌詞情報が共通である音符ごとに決定した特徴変化量の代表値を評価データに含めれば、歌手の歌い方のより細かな特徴の表現を評価可能な評価データを生成できる。

そして、本発明における対応付ステップでは、第２取得ステップで取得した楽譜データに含まれる音符の音高、第１時間長、及び第２時間長と、第１決定ステップで決定された特徴変化量とを、対応する音符ごとに対応付けても良い。この場合の生成ステップでは、楽曲における時間軸に沿って連続する少なくとも２つの音符の組み合わせである音符群のうち、少なくとも、音符の音高と第１時間長と第２時間長との組み合わせが共通である音符群を所定の条件を満たす音符として、所定の条件を満たす音符ごとに特徴変化量の代表値を決定しても良い。

このようなプログラムによれば、音符群ごとに決定した特徴変化量の代表値を含むデータを評価データとして生成できる。
ここで、楽曲における音符のうちの１つを対象音符と称し、楽曲における時間軸に沿って対象音符の直前の音符を前音符と称し、楽曲における時間軸に沿って対象音符の直後の音符を後音符と称す。

そして、前音符から対象音符へとボーカルデータが切り替わった場合や、対象音符から後音符へとボーカルデータが切り替わった場合には、それらの音符の組み合わせごとに、音符ボーカルデータでの基本周波数の推移や音圧の推移が異なる。つまり、音符群が異なることによって、特徴変化量には、歌手特有の歌い方に細かな特徴が表れる。

このため、代表値を求める対象を共通の音符群ごととする本発明のプログラムによれば、情報処理装置の利用者が歌唱した歌声について、歌手特有のより細かな特徴の表現を評価可能な評価データを生成できる。

ところで、本発明における生成ステップよれば、楽曲を歌唱した歌手ごとに評価データを生成できる。
また、本発明における第１決定ステップでは、設定ステップと、変化量決定ステップとをコンピュータに実行させても良い。設定ステップでは、音符ボーカルデータに、少なくとも２つ以上の分析窓を時間軸に沿って連続するように設定する。変化量決定ステップでは、設定ステップにて音符ボーカルデータに設定された分析窓それぞれにおける音符ボーカルデータの振幅及び基本周波数の少なくともいずれか一方の値を決定し、その決定した分析窓それぞれにおける音符ボーカルデータの振幅及び基本周波数の少なくともいずれか一方の値を時間軸に沿って配置することで、特徴変化量を決定する。

本発明のプログラムによれば、音符ボーカルデータにおける分析窓での振幅及び基本周波数の少なくともいずれか一方の値を決定し、その決定した分析窓ごとの値の推移を特徴変化量として決定できる。

この結果、本発明のプログラムにおいて、例えば、分析窓の個数を増加すれば、音符それぞれにおける歌手特有の歌い方のより詳細な内容を評価データとして生成できる。
本発明のプログラムにおいては、歌唱取得ステップと、第２特定ステップと、第２決定ステップと、評価決定ステップとをコンピュータにさらに実行させても良い。

歌唱取得ステップでは、所定の楽曲の演奏中に入力された音声を表す歌唱データを取得する。第２特定ステップでは、歌唱取得ステップにより取得された歌唱データに基づいて、所定の楽曲の歌唱旋律を構成する対象音符に対応する歌唱データの区間である音符歌唱データを特定する。

そして、第２決定ステップでは、第２特定ステップにて特定した音符歌唱データに基づいて、音符歌唱データの振幅及び基本周波数の少なくともいずれか一方の対象音符に対応する区間内での推移を表す歌唱変化量を決定する。評価決定ステップでは、第２決定ステップで決定された歌唱変化量と、生成ステップで生成された特徴変化量との相関値を決定し、その決定した相関値が高いほど高い評価とする。

このようなプログラムによれば、楽曲を歌唱したプロの歌手特有の歌い方における特徴の表現を評価できる。
本発明は、第１取得手段と、抽出手段と、第２取得手段と、特定手段と、決定手段と、生成手段とを備えた情報処理装置としてなされていても良い。

本発明における第１取得手段は、楽曲データを第１記憶部から取得する。抽出手段は、第１取得手段により取得された楽曲データからボーカルデータを抽出する。第２取得手段は、楽譜データを第２記憶部から取得する。特定手段は、抽出手段で抽出したボーカルデータと、第２取得手段で取得した楽譜データの第１時間長及び第２時間長とに基づいて、音符ボーカルデータを特定する。そして、決定手段は、特定手段にて特定した音符ボーカルデータに基づいて、特徴変化量を決定する。生成手段は、決定手段により決定された特徴変化量を用いて、評価データを生成する。

このような情報処理装置によれば、本発明のプログラムを実行した場合と同様の効果を得ることができる。
なお、本発明は、第１取得手順と、抽出手順と、第２取得手順と、特定手順と、決定手順と、生成手順とを情報処理装置が実行する評価データ生成方法としてなされていても良い。

第１取得手順では、第１記憶部から楽曲データを情報処理装置が取得する。抽出手順では、第１取得手順により取得された楽曲データからボーカルデータを情報処理装置が抽出する。第２取得手順では、第２記憶部から楽譜データを情報処理装置が取得する。特定手順では、抽出手順で抽出したボーカルデータと、第２取得手順で取得した楽譜データの第１時間長及び第２時間長とに基づいて、音符ボーカルデータを情報処理装置が特定する。そして、決定手順では、特定手順にて特定した音符ボーカルデータに基づいて、特徴変化量を情報処理装置が決定する。生成手順では、決定手順により決定された特徴変化量を用いて、評価データを情報処理装置が生成する。

このような評価データ生成方法によれば、本発明のプログラムを実行した場合と同様の効果を得ることができる。
すなわち、本発明としての情報処理装置や評価データ生成方法によって生成された評価データを用いて歌声を評価すれば、その評価結果を、楽曲を歌唱したプロの歌手特有の歌い方における特徴の表現を評価したものとすることができる。

本発明が適用された情報処理装置を備えたシステムの概略構成を示すブロック図である。情報処理装置が実行する特徴量算出処理の処理手順を示すフローチャートである。特徴変化量の概要を例示する図である。基準特徴量の概要を例示する図である。情報処理サーバが実行する採点基準生成処理の処理手順を示すフローチャートである。採点基準の概要を例示する図である。カラオケ装置が実行するカラオケ採点処理の処理手順を示すフローチャートである。

以下に本発明の実施形態を図面と共に説明する。
〈システム構成〉
図１に示すカラオケ装置３０は、ユーザが指定した楽曲を演奏すると共に、その楽曲の演奏中にユーザが歌唱した歌唱音声を評価する装置である。このカラオケ装置３０において実行される評価は、指定した楽曲において表現されるプロの歌手の歌い方における特徴を、ユーザが歌唱音声によって表現している度合いである。

このような評価を実現するために構築されるシステム１は、情報処理装置３と、情報処理サーバ１０と、カラオケ装置３０とを備えている。
情報処理装置３は、楽曲ごとに用意された楽曲データＷＤ及びＭＩＤＩ楽曲ＭＤに基づいて、基準特徴量ＳＦを算出する。ここで言う基準特徴量ＳＦとは、楽曲を歌唱する歌手ごとの歌い方における特徴を表すデータであり、特許請求の範囲における評価データの一例である。

情報処理サーバ１０は、少なくとも、ＭＩＤＩ楽曲ＭＤ及び情報処理装置３にて算出された基準特徴量ＳＦを記憶部１４に記憶する。さらに、情報処理サーバ１０は、基準特徴量ＳＦ及びＭＩＤＩ楽曲ＭＤに基づいて採点基準ＭＳを生成する。ここで言う採点基準ＭＳとは、カラオケ装置３０が実行するカラオケ採点処理に用いるデータであり、各楽曲において表現されるプロの歌手の歌い方における特徴を表すデータである。

カラオケ装置３０は、ユーザが指定した楽曲に対応するＭＩＤＩ楽曲ＭＤ及び採点基準ＭＳを情報処理サーバ１０から取得し、そのＭＩＤＩ楽曲ＭＤに基づいて楽曲を演奏すると共に、その楽曲の演奏中に入力された音声を評価する。

＜楽曲データ＞
次に、楽曲データＷＤは、特定の楽曲ごとに予め用意されたものであり、楽曲に関する情報が記述された楽曲管理情報と、楽曲の演奏音を表す原盤波形データとを備えている。楽曲管理情報には、楽曲を識別する楽曲識別情報（以下、楽曲ＩＤと称す）と、楽曲を歌唱したプロの歌手を識別する歌手識別情報（以下、歌手ＩＤと称す）とが含まれる。

本実施形態の原盤波形データは、複数の楽器の演奏音と、歌唱旋律をプロの歌手が歌唱したボーカル音とを含む音声データである。この音声データは、非圧縮音声ファイルフォーマットの音声ファイルによって構成されたデータであっても良いし、音声圧縮フォーマットの音声ファイルによって構成されたデータであっても良い。

なお、以下では、原盤波形データに含まれる演奏音を表す音声波形データを伴奏データと称し、原盤波形データに含まれるボーカル音を表す音声波形データをボーカルデータと称す。

本実施形態の伴奏データに含まれる楽器の演奏音としては、打楽器（例えば、ドラム，太鼓，シンバルなど）の演奏音，弦楽器（例えば、ギター，ベースなど）の演奏音，打弦楽器（例えば、ピアノ）の演奏音，及び管楽器（例えば、トランペットやクラリネットなど）の演奏音がある。一般的な楽曲においては、通常、打楽器やベースがリズム楽器として用いられる。

＜ＭＩＤＩ楽曲＞
ＭＩＤＩ楽曲ＭＤは、楽曲ごとに予め用意されたものであり、演奏データと、歌詞データとを有している。

このうち、演奏データは、周知のＭＩＤＩ（ＭｕｓｉｃａｌＩｎｓｔｒｕｍｅｎｔＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ）規格によって、一つの楽曲の楽譜を表したデータである。この演奏データは、楽曲ＩＤと、歌手ＩＤと、当該楽曲にて用いられる楽器ごとの楽譜を表す楽譜トラックとを少なくとも有している。

そして、楽譜トラックには、ＭＩＤＩ音源から出力される個々の演奏音について、少なくとも、音高（いわゆるノートナンバー）と、ＭＩＤＩ音源が演奏音を出力する期間（以下、音符長と称す）とが規定されている。楽譜トラックにおける音符長は、当該演奏音の出力を開始するまでの当該楽曲の演奏開始からの時間を表す演奏開始タイミング（いわゆるノートオンタイミング）と、当該演奏音の出力を終了するまでの当該楽曲の演奏開始からの時間を表す演奏終了タイミング（いわゆるノートオフタイミング）とによって規定されている。

すなわち、楽譜トラックでは、ノートナンバーと、ノートオンタイミング及びノートオフタイミングによって表される音符長とによって、１つの音符ＮＯが規定される。そして、楽譜トラックは、音符ＮＯが演奏順に配置されることによって、１つの楽譜として機能する。なお、楽譜トラックは、例えば、鍵盤楽器、弦楽器、打楽器、及び管楽器などの楽器ごとに用意されている。このうち、本実施形態では、特定の楽器（例えば、ヴィブラフォン）が、楽曲において歌唱旋律を担当する楽器として規定されている。

一方、歌詞データは、楽曲の歌詞に関するデータであり、歌詞テロップデータと、歌詞プロパティデータと、歌詞出力データとを備えている。歌詞テロップデータは、楽曲の歌詞を構成する文字（以下、歌詞構成文字とする）を表す。歌詞プロパティデータは、歌詞構成文字それぞれの音節及びその音節の母音を表す。歌詞出力データは、歌詞構成文字の出力タイミングである歌詞出力タイミングを、演奏データの演奏と対応付けるタイミング対応関係が規定されたデータである。

具体的に、本実施形態におけるタイミング対応関係は、演奏データの演奏を開始するタイミングに、歌詞テロップデータの出力を開始するタイミングが対応付けられている。さらに、タイミング対応関係では、楽曲の時間軸に沿った各歌詞構成文字の歌詞出力タイミングが、演奏データの演奏開始からの経過時間によって規定されている。これにより、楽譜トラックに規定された個々の演奏音（即ち、音符ＮＯ）と、歌詞構成文字それぞれとが対応付けられる。

〈情報処理装置〉
情報処理装置３は、記憶部５と、制御部６とを備えた周知の情報処理装置（例えば、パーソナルコンピュータ（ＰＣ））である。

記憶部５は、記憶内容を読み書き可能に構成された周知の記憶装置である。記憶部５には、少なくとも１つの楽曲データＷＤと、少なくとも１つのＭＩＤＩ楽曲ＭＤとが、共通する楽曲ごとに対応付けられて記憶されている。なお、図１に示す符号「ｎ」は、情報処理装置３の記憶部５に記憶されている楽曲データＷＤ及びＭＩＤＩ楽曲ＭＤの個数を表し、１以上の自然数である。

制御部６は、ＲＯＭ７，ＲＡＭ８，ＣＰＵ９を備えた周知のマイクロコンピュータを中心に構成された周知の制御装置である。ＲＯＭ７は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを記憶する。ＲＡＭ８は、処理プログラムやデータを一時的に記憶する。ＣＰＵ９は、ＲＯＭ７やＲＡＭ８に記憶された処理プログラムに従って各処理（各種演算）を実行する。

本実施形態のＲＯＭ７には、記憶部５に記憶されている楽曲データＷＤ及びＭＩＤＩ楽曲ＭＤに基づいて、基準特徴量ＳＦを算出する特徴量算出処理を、制御部６が実行するための処理プログラムが記憶されている。

〈情報処理サーバ〉
情報処理サーバ１０は、通信部１２と、記憶部１４と、制御部１６とを備えている。
このうち、通信部１２は、通信網を介して、情報処理サーバ１０が外部との間で通信を行う。すなわち、情報処理サーバ１０は、通信網を介してカラオケ装置３０と接続されている。なお、ここで言う通信網は、有線による通信網であっても良いし、無線による通信網であっても良い。

記憶部１４は、記憶内容を読み書き可能に構成された周知の記憶装置である。この記憶部１４には、少なくとも、複数のＭＩＤＩ楽曲ＭＤが記憶される。この記憶部１４に記憶されるＭＩＤＩ楽曲ＭＤには、情報処理装置３の記憶部５に記憶されたＭＩＤＩ楽曲ＭＤの楽曲と同一の楽曲に加えて、情報処理装置３の記憶部５に記憶されていないＭＩＤＩ楽曲ＭＤの楽曲を含む。なお、図１に示す符号「ｍ」は、情報処理サーバ１０の記憶部１４に記憶されているＭＩＤＩ楽曲ＭＤの個数を表し、２以上の自然数である。

さらに、記憶部１４には、情報処理装置３が特徴量算出処理を実行することで生成された基準特徴量ＳＦが記憶される。また、記憶部１４には、情報処理装置３にて生成された採点基準ＭＳが記憶される。

制御部１６は、ＲＯＭ１８，ＲＡＭ２０，ＣＰＵ２２を備えた周知のマイクロコンピュータを中心に構成された周知の制御装置である。ＲＯＭ１８，ＲＡＭ２０，ＣＰＵ２２は、それぞれ、ＲＯＭ７，ＲＡＭ８，ＣＰＵ９と同様に構成されている。

なお、本実施形態のＲＯＭ１８には、記憶部１４に記憶された基準特徴量ＳＦ及びＭＩＤＩ楽曲ＭＤに基づいて採点基準ＭＳを生成する採点基準算出処理を、制御部１６が実行するための処理プログラムが記憶されている。

〈カラオケ装置〉
カラオケ装置３０は、通信部３２と、入力受付部３４と、楽曲再生部３６と、記憶部３８と、音声制御部４０と、映像制御部４６と、制御部５０とを備えている。

通信部３２は、通信網を介して、カラオケ装置３０が外部との間で通信を行う。入力受付部３４は、外部からの操作に従って情報や指令の入力を受け付ける入力機器である。ここでの入力機器とは、例えば、キーやスイッチ、リモコンの受付部などである。

楽曲再生部３６は、情報処理サーバ１０からダウンロードしたＭＩＤＩ楽曲ＭＤに基づく楽曲の演奏を実行する。楽曲再生部３６は、例えば、ＭＩＤＩ音源である。音声制御部４０は、音声の入出力を制御するデバイスであり、出力部４２と、マイク入力部４４とを備えている。

マイク入力部４４には、マイク６２が接続される。これにより、マイク入力部４４は、ユーザの歌唱音を取得する。出力部４２にはスピーカ６０が接続されている。出力部４２は、楽曲再生部３６によって再生される楽曲の音源信号、マイク入力部４４からの歌唱音の音源信号をスピーカ６０に出力する。スピーカ６０は、出力部４２から出力される音源信号を音に換えて出力する。

映像制御部４６は、制御部５０から送られてくる映像データに基づく映像の出力を行う。映像制御部４６には、映像の表示を行う表示部６４が接続されている。
制御部５０は、ＲＯＭ５２，ＲＡＭ５４，ＣＰＵ５６を少なくとも有した周知のコンピュータを中心に構成されている。ＲＯＭ５２，ＲＡＭ５４，ＣＰＵ５６は、それぞれ、ＲＯＭ７，ＲＡＭ８，ＣＰＵ９と同様に構成されている。

そして、ＲＯＭ５２には、カラオケ採点処理を制御部５０が実行するための処理プログラムが記憶されている。カラオケ採点処理は、ユーザによって指定された楽曲を演奏すると共に、ユーザが指定した楽曲において表現されるプロの歌手の歌い方における特徴を、演奏期間中にマイク６２を介して入力された音声によって表現している度合いを評価する。

〈特徴量算出処理〉
次に、情報処理装置３の制御部６が実行する特徴量算出処理について説明する。
この特徴量算出処理は、処理プログラムを起動するための起動指令が、情報処理装置３の入力受付部（図示せず）を介して入力されたタイミングで起動される。

そして、特徴量算出処理では、図２に示すように、起動されると、まず、制御部６は、情報処理装置３の入力受付部（図示せず）を介して入力された歌手ＩＤを取得する（Ｓ１０５）。続いて、制御部６は、情報処理装置３の記憶部５に記憶されている全ての楽曲データＷＤの中から、Ｓ１０５にて取得した歌手ＩＤが対応付けられた一つの楽曲データＷＤを取得する（Ｓ１１０）。

さらに、特徴量算出処理では、制御部６は、情報処理装置３の記憶部５に記憶されている全てのＭＩＤＩ楽曲ＭＤの中から、Ｓ１１０で取得した楽曲データＷＤと同一の楽曲ＩＤが対応付けられた一つのＭＩＤＩ楽曲ＭＤを取得する（Ｓ１２０）。すなわち、Ｓ１１０及びＳ１２０では、制御部６は、同一の楽曲に対する楽曲データＷＤ及びＭＩＤＩ楽曲ＭＤを取得する。

続いて、制御部６は、Ｓ１１０にて取得した楽曲データＷＤ（以下、「取得楽曲データ」と称す）における各音符に対応する各音の再生時間に、Ｓ１２０で取得したＭＩＤＩ楽曲ＭＤ（以下、「取得ＭＩＤＩ」と称す）を構成する各音符の演奏タイミングが一致するように、その取得ＭＩＤＩを調整する（Ｓ１３０）。このＳ１３０における取得ＭＩＤＩを調整する手法として、周知の手法（例えば、特許第５３１０６７７号に記載の手法）を用いることが考えられる。特許第５３１０６７７号に記載の手法では、具体的には、制御部６は、取得ＭＩＤＩをレンダリングし、その取得ＭＩＤＩのレンダリング結果と取得楽曲データの原盤波形データとの双方を規定時間単位でスペクトルデータに変換する。そして、双方のスペクトルデータ上の時間が同期するように、各演奏音の演奏開始タイミング及び演奏終了タイミングを修正する。なお、スペクトルデータ上の時間が同期するように調整する際には、ＤＰマッチングを用いても良い。

特徴量算出処理では、制御部６は、取得楽曲データＷＤに含まれる原盤波形データを取得する（Ｓ１４０）。続いて、制御部６は、Ｓ１４０にて取得した原盤波形データから、ボーカルデータと伴奏データとを分離して抽出する（Ｓ１５０）。このＳ１５０において制御部６が実行する、伴奏データとボーカルデータとの分離手法として、周知の手法（例えば、特開２００８−１３４６０６に記載された“ＰｒｅＦＥｓｔ”）を使って推定された音高および調波成分を利用する手法が考えられる。なお、ＰｒｅＦＥｓｔとは、原盤波形データにおいて最も優勢な音声波形をボーカルデータとみなしてボーカルの音高（即ち、基本周波数）および調波成分の大きさを推定する手法である。

さらに、制御部６は、Ｓ１３０にて時間調整が実施されたＭＩＤＩ楽曲ＭＤ（以下、「調整済ＭＩＤＩ」と称す）と、Ｓ１５０で抽出したボーカルデータとに基づいて、音符ボーカルＶｏ（ａ，ｉ）を特定する（Ｓ１６０）。音符ボーカルＶｏ（ａ，ｉ）とは、ボーカルデータにおいて、歌唱旋律を構成する各音符ＮＯ（ａ，ｉ）に対応する区間である。Ｓ１６０においては、制御部６は、Ｓ１５０で抽出したボーカルデータに、調整済ＭＩＤＩにおける演奏開始タイミングｎｎｔ（ａ，ｉ）及び演奏終了タイミングｎｆｔ（ａ，ｉ）を照合することで、音符ボーカルＶｏ（ａ，ｉ）を特定する。なお、符号ａは、楽曲を識別する符号であり、符号ｉは、楽曲における歌唱旋律の音符ＮＯを識別する符号である。

さらに、特徴量算出処理では、制御部６は、音符ボーカルＶｏ（ａ，ｉ）のそれぞれに、複数の分析窓を設定する（Ｓ１７０）。このＳ１７０での分析窓の設定では、制御部６は、時間軸に沿って複数個の分析窓が互いに隣接するように設定する。この分析窓は、音符ＮＯ（ａ，ｉ）の時間長よりも短い時間長を有した区間である。また、以下では、１つの音符ボーカルＶｏ（ａ，ｉ）に設定される分析窓の個数を「Ｌ」とする。

続いて、制御部６は、音符ボーカルＶｏ（ａ，ｉ）における振幅の音符ＮＯ（ａ，ｉ）に対応する区間内での推移を表す歌唱振幅ベクトルＡ（ａ，ｉ）を算出する（Ｓ１８０）。Ｓ１８０においては、制御部６は、まず、図３（Ａ）に示すように、Ｓ１７０にて設定された分析窓それぞれにおける音符ボーカルＶｏ（ａ，ｉ）の振幅値を算出する。そして、制御部６は、それらの分析窓ごとに算出された振幅値を時間軸に沿って配置することで、振幅値の配列を生成し、その振幅値の配列を歌唱振幅ベクトルＡ（ａ，ｉ）として算出する。さらに、制御部は、歌唱振幅ベクトルＡ（ａ，ｉ）に、音符ボーカルＶｏ（ａ，ｉ）に設定された分析窓の個数Ｌを対応付ける。なお、Ｓ１８０において算出する分析窓ごとの振幅は、例えば、各分析窓内での音符ボーカルＶｏ（ａ，ｉ）の離散値を、相加平均したものであっても良い。

さらに、特徴量算出処理では、制御部６は、音符ボーカルＶｏ（ａ，ｉ）における基本周波数の音符ＮＯ（ａ，ｉ）に対応する区間内での推移を表す歌唱音高ベクトルＦ（ａ，ｉ）を算出する（Ｓ１９０）。このＳ１９０では、制御部６は、まず、図３（Ｂ）に示すように、Ｓ１７０にて設定された分析窓それぞれにおける音符ボーカルＶｏ（ａ，ｉ）の基本周波数ｆ０を算出する。そして、制御部６は、それらの分析窓ごとに算出された基本周波数ｆ０を時間軸に沿って配置することで、基本周波数ｆ０の配列を生成し、その基本周波数ｆ０の配列を歌唱音高ベクトルＦ（ａ，ｉ）として算出する。さらに、制御部６は、音符ボーカルＶｏ（ａ，ｉ）に設定された分析窓の数Ｌを、歌唱音高ベクトルＦ（ａ，ｉ）に対応付ける。本実施形態における基本周波数ｆ０の算出手法として、種種の周知の手法が考えられる。一例として、Ｓ１９０では、制御部６は、音符ボーカルＶｏ（ａ，ｉ）に設定された分析窓それぞれについて、周波数解析（例えば、ＤＦＴ）を実施し、自己相関の結果、最も強い周波数成分を基本周波数ｆ０とすることが考えられる。

このＳ１８０にて算出される歌唱振幅ベクトルＡ及びＳ１９０にて算出される歌唱音高ベクトルＦのうちの少なくともいずれか一方が、特許請求の範囲に記載の特徴変化量の一例である。

さらに、特徴量算出処理では、制御部６は、各音符ボーカルＶｏ（ａ，ｉ）での複数の歌唱技巧についての評価を表す技巧特徴量Ｓ（ａ，ｉ）を決定する（Ｓ２００）。ここで言う複数の歌唱技巧には、少なくとも“ビブラート”，“ため”，“しゃくり”，“フォール”，“こぶし”を含む。

このうち、“ビブラート”についての技巧特徴量（以下、「ビブラート特徴量」と称す）ｖｉｂの算出では、制御部６は、まず、音符ボーカルＶｏ（ａ，ｉ）それぞれについて周波数解析（ＤＦＴ）を実施する。そして、制御部６は、下記（１）式に従って、ビブラート特徴量ｖｉｂを算出する。

ｖｉｂ（ａ，ｉ）＝ｖｉｂ＿ｐｅｒ（ａ，ｉ）×ｖｉｐ＿ｄｅｐ（ａ，ｉ）（１）
ただし、上記（１）式におけるｖｉｂ＿ｐｅｒ（ａ，ｉ）は、各音符ボーカルＶｏ（ａ，ｉ）におけるスペクトルピークの突出精度を表す指標である。このｖｉｂ＿ｐｅｒは、周波数解析結果（即ち、振幅スペクトル）のピーク値を、周波数解析結果の平均値で除すことで求めれば良い。また、上記（１）式におけるｖｉｐ＿ｄｅｐは、各音符ボーカルＶｏ（ａ，ｉ）の標準偏差である。

“ため”についての技巧特徴量（以下、「ため特徴量」と称す）ｔｔ（ａ，ｉ）の算出では、制御部６は、まず、伴奏データにおける非調波成分の音声波形をリズム楽器の演奏音波形として抽出する。非調波成分の抽出手法は、周知の手法を用いれば良い。具体的な手法の例として、非調波成分の音声波形を表すフィルタとして予め用意されたフィルタに伴奏音データを通過させることが考えられる。

さらに、ため特徴量ｔｔ（ａ，ｉ）の算出では、制御部６は、リズム楽器の演奏音波形において、音圧が規定値以上となるタイミングを拍の位置として推定する。続いて、制御部６は、楽曲の歌唱旋律を構成する音符ＮＯの中で、音価が最も短い音符（以下、「最短音符」と称す）を抽出する。そして、制御部６は、抽出した最短音符の音価にて拍の位置の間隔を除すことで、発声タイミングを特定する。ここで言う発声タイミングとは、ボーカルデータにおいて、各音符ＮＯ（ａ，ｉ）に対して歌唱を開始する可能性のあるタイミングである。

ため特徴量ｔｔ（ａ，ｉ）の算出では、さらに、制御部６は、規定条件を満たす発声タイミングを特定する。ここで言う規定条件を満たすとは、各音符（ａ，ｉ）の演奏開始タイミングｎｎｔ（ａ，ｉ）よりも遅い発声タイミングであって、かつ、演奏開始タイミングｎｎｔ（ａ，ｉ）から減算した値の絶対値が最小となる発声タイミングである。そして、特定した発声タイミングを演奏開始タイミングｎｎｔ（ａ，ｉ）から減算した時間長を、ため特徴量ｔｔ（ａ，ｉ）として算出する。

“しゃくり”についての技巧特徴量（以下、「しゃくり特徴量」と称す）ｒｉｓｅ（ａ，ｉ）の算出では、制御部６は、まず、ボーカルデータの音高時間変化を微分した微分変化を算出する。続いて、制御部６は、各音符ＮＯ（ａ，ｉ）の演奏開始タイミングｎｎｔ（ａ，ｉ）以前で、微分変化が時間軸に沿って正の値となったタイミングを特定する。さらに、制御部６は、その特定した各タイミングから演奏開始タイミングｎｎｔ（ａ，ｉ）までの区間におけるボーカルデータの音高時間変化と予め規定された模範曲線との相互相関値を、しゃくり特徴量ｒｉｓｅ（ａ，ｉ）として算出する。

“フォール”についての技巧特徴量（以下、「フォール特徴量」と称す）ｆａｌｌ（ａ，ｉ）の算出では、制御部６は、各音符ＮＯ（ａ，ｉ）の演奏終了タイミングｎｆｔ（ａ，ｉ）以降で、微分変化が時間軸に沿って正の値となった最初のタイミングを特定する。さらに、制御部６は、歌唱旋律を構成する各音符ＮＯ（ａ，ｉ）の演奏終了タイミングｎｆｔ（ａ，ｉ）から、その特定したタイミングまでの区間におけるボーカルデータの音高時間変化と、予め規定された模範曲線との相互相関値を、フォール特徴量ｆａｌｌ（ａ，ｉ）として算出する。

“こぶし”についての技巧特徴量（以下、「こぶし特徴量」と称す）ｋｏｂ（ａ，ｉ）の算出では、制御部６は、まず、こぶし区間を特定する。ここで言うこぶし区間とは、複数の音高に渡る各音符ＮＯを同一母音で音高を変化させながら歌っている区間である。

このため、こぶし特徴量ｋｏｂ（ａ，ｉ）の算出では、制御部６は、同一母音で発声された区間（以下、「同一母音区間」と称す）を特定する。この同一母音区間の特定方法として、各音符ボーカルＶｏ（ａ，ｉ）のメル周波数ケプストラム（ＭＦＣＣ）の平均値の類似性を相互相関で算出し、相互相関値が閾値以上である音符ボーカルＶｏを同一母音区間として特定する方法を用いる。

また、制御部６は、同一母音区間において、設定条件を満たす同一母音区間だけをこぶし区間として特定する。ここで言う設定条件を満たすとは、時間軸に沿って隣接する音符ボーカルＶｏ（ａ，ｉ−１）に対応する音符ＮＯ（ａ，ｉ−１）の演奏終了タイミングｎｆｔ（ａ，ｉ−１）と演奏開始タイミングｎｎｔ（ａ，ｉ）との時間間隔が閾値以下であり、かつ、隣接する音符ボーカルＶｏの音高が全て異なることである。

そして、こぶし特徴量ｋｏｂ（ａ，ｉ）の算出では、制御部６は、こぶし区間におけるボーカルデータからクロマベクトルを算出する。さらに、制御部６は、同こぶし区間における伴奏データのクロマベクトルを算出し、ボーカルデータのクロマベクトルとの相互相関値をこぶし特徴量ｋｏｂ（ａ，ｉ）として算出する。

さらに、特徴量算出処理では、制御部６は、各音符ボーカルＶｏ（ａ，ｉ）に対応する音符ＮＯ（ａ，ｉ）の音符プロパティｐ（ａ，ｉ）を特定する（Ｓ２１０）。本実施形態のＳ２１０では、具体的には、制御部６は、取得ＭＩＤＩから、その取得ＭＩＤＩに規定された各音符ＮＯ（ａ，ｉ）の情報を音符プロパティｐ（ａ，ｉ）として抽出して特定する。

ここで言う音符プロパティｐ（ａ，ｉ）には、対象音符属性と、前音符属性と、後音符属性とを含む。
対象音符属性とは、音符ＮＯ（ａ，ｉ）の属性を表す情報である。この対象音符属性には、音符ＮＯ（ａ，ｉ）の音階（音高）、音符長（第１時間長の一例）、歌詞の音節、及び歌詞の母音を含む。また、前音符属性とは、時間軸に沿って音符ＮＯ（ａ，ｉ）の一つ前の音符（以下、前音符と称す）ＮＯ（ａ，ｉ−１）の属性を表す情報である。この前音符属性には、前音符ＮＯ（ａ，ｉ）の音階（音高）、音符長、歌詞の音節、及び前音符ＮＯ（ａ，ｉ−１）と音符ＮＯ（ａ，ｉ）との間の時間長（即ち、無音期間）を含む。

さらに、後音符属性とは、時間軸に沿って対象音符ＮＯ（ａ，ｉ）の一つ後の音符（以下、後音符と称す）ＮＯ（ａ，ｉ＋１）の属性を表す情報である。この後音符属性には、音階（音高）、音符長、歌詞の音節、及び音符ＮＯ（ａ，ｉ）と後音符ＮＯ（ａ，ｉ＋１）との間の時間長（即ち、無音期間，第２時間長の一例）を含む。

なお、音符プロパティｐ（ａ，ｉ）における音符長、及び音符間の時間長は、予め規定された階級へと量子化されたものでも良い。
特徴量算出処理では、続いて、制御部６は、Ｓ２１０で特定した各音符ＮＯ（ａ，ｉ）の音符プロパティｐ（ａ，ｉ）を、対応する音符ＮＯ（ａ，ｉ）の歌唱振幅ベクトルＡ（ａ，ｉ）、歌唱音高ベクトルＦ（ａ，ｉ）、及び技巧特徴量Ｓ（ａ，ｉ）と対応付ける（Ｓ２２０）。

さらに、特徴量算出処理では、制御部６は、Ｓ１０５にて取得した歌手ＩＤが対応付けられた楽曲のうち、予め設定された設定条件を満たす全楽曲について、Ｓ１１０からＳ２２０のステップを完了したか否かを判定する（Ｓ２３０）。ここで言う設定条件とは、Ｓ１０５にて取得した歌手ＩＤが対応付けられ、楽曲データＷＤとＭＩＤＩ楽曲ＭＤとの双方が用意されていることである。

このＳ２３０での判定の結果、設定条件を満たす全楽曲について、Ｓ１１０からＳ２２０のステップを完了していなければ（Ｓ２３０：ＮＯ）、制御部６は、特徴量算出処理をＳ１１０へと戻す。そして、制御部６は、Ｓ１０５にて指定された歌手ＩＤが対応付けられた楽曲データＷＤの中から、新たな楽曲データＷＤを取得し（Ｓ１１０）、さらに、その楽曲データＷＤに対応するＭＩＤＩ楽曲ＭＤを取得して（Ｓ１２０）、Ｓ１３０からＳ２３０のステップを実行する。

一方、Ｓ２３０での判定の結果、全楽曲について、Ｓ１１０からＳ２２０のステップを完了していれば（Ｓ２３０：ＹＥＳ）、制御部６は、特徴量算出処理をＳ２４０へと移行させる。

そのＳ２４０では、制御部６は、歌唱振幅ベクトルＡ（ａ，ｉ）、歌唱音高ベクトルＦ（ａ，ｉ）、及び技巧特徴量Ｓ（ａ，ｉ）のそれぞれについて、対応付けられた音符プロパティｐが共通するものごとに代表値を算出する。

すなわち、本実施形態のＳ２４０では、制御部６は、対象音符属性と前音符属性と後音符属性との全てが共通する音符ＮＯごとに、それらの属性が共通する各音符ＮＯにおける歌唱振幅ベクトルＡ及び分析窓の個数Ｌの相加平均を、歌唱振幅ベクトルＡ及び分析窓の代表値として算出する。

また、制御部６は、対象音符属性と前音符属性と後音符属性との全てが共通する音符ＮＯごとに、それらの属性が共通する音符ＮＯにおける歌唱音高ベクトルＦ及び分析窓の個数Ｌの相加平均を、歌唱音高ベクトルＦ及び分析窓の代表値として算出する。

また、制御部６は、対象音符属性と前音符属性と後音符属性との全てが共通する音符ＮＯごとに、それらの属性が共通する音符ＮＯにおける技巧特徴量ｐそれぞれの相加平均を、技巧特徴量Ｓの代表値として算出する。

このＳ２４０にて代表値として算出する相加平均は、歌唱振幅ベクトルＡ（ａ，ｉ）、歌唱音高ベクトルＦ（ａ，ｉ）、及び技巧特徴量Ｓ（ａ，ｉ）を算出した全ての楽曲の範囲内で実施する。なお、Ｓ２４０において算出する代表値は、相加平均の結果に限るものではなく、中央値や最頻値であっても良い。

続いて、制御部６は、Ｓ２４０にて算出された歌唱振幅ベクトルＡ、歌唱音高ベクトルＦ、分析窓の個数Ｌ、及び技巧特徴量Ｓのそれぞれの代表値を、対応する音符プロパティｐ及び歌手ＩＤと対応付けることで、基準特徴量ＳＦを生成して記憶部５に記憶する（Ｓ２５０）。

その後、制御部６は、本特徴量算出処理を終了する。
つまり、特徴量算出処理では、歌手の歌い方における特徴を表す基準特徴量ＳＦを歌手ごとに生成する。この特徴量算出処理にて生成される基準特徴量ＳＦは、図４に示すように、歌手の歌手ＩＤと、共通する音符プロパティｐにおける歌唱振幅ベクトルＡ、歌唱音高ベクトルＦ、及び技巧特徴量Ｓのそれぞれの代表値と、その共通する音符プロパティｐが対応付けられたものである。

なお、情報処理装置３の制御部６が特徴量算出処理を実行することで生成される基準特徴量ＳＦは、可搬型の記憶媒体を用いて情報処理サーバ１０の記憶部１４に記憶されても良い。情報処理装置３と情報処理サーバ１０とが通信網を介して接続されている場合には、情報処理装置３の記憶部５に記憶された基準特徴量ＳＦは、通信網を介して転送されることで、情報処理サーバ１０の記憶部１４に記憶されても良い。

＜採点基準生成処理＞
次に、情報処理サーバ１０の制御部１６が実行する採点基準生成処理について説明する。

この採点基準生成処理では、起動されると、図５に示すように、制御部１６は、記憶部１４に記憶されている全てのＭＩＤＩ楽曲ＭＤの中から１つのＭＩＤＩ楽曲ＭＤを取得する（Ｓ３１０）。このＳ３１０にて制御部１６が取得する１つのＭＩＤＩ楽曲ＭＤは、カラオケ採点処理のＳ５１０（詳しくは後述）にて指定された楽曲に対応するＭＩＤＩ楽曲ＭＤであっても良いし、情報処理サーバ１０に接続された入力装置（図示せず）を介して指定された楽曲に対応するＭＩＤＩ楽曲ＭＤであっても良い。

続いて、制御部１６は、Ｓ３１０にて取得したＭＩＤＩ楽曲ＭＤを分析し、そのＭＩＤＩ楽曲ＭＤにおける歌唱旋律を構成する各音符ＮＯ（ｂ，ｉ）の音符プロパティｐ（ｂ，ｉ）を特定する（Ｓ３２０）。ここでの符号ｂは、Ｓ３１０にて取得したＭＩＤＩ楽曲ＭＤに対応する楽曲を識別する符号である。

そして、採点基準生成処理では、制御部１６は、Ｓ３１０にて取得したＭＩＤＩ楽曲ＭＤに含まれる歌手ＩＤと一致する歌手ＩＤが対応付けられた基準特徴量ＳＦを、記憶部１４から取得する（Ｓ３３０）。続いて、制御部１６は、Ｓ３２０での分析によって特定された各音符ＮＯ（ｂ，ｉ）に、Ｓ３２０にて取得し、かつ特定の条件を満たす歌唱振幅ベクトルＡ、歌唱音高ベクトルＦ、分析窓の個数Ｌ、及び技巧特徴量Ｓのそれぞれの代表値を割り当てることで、採点基準ＭＳを生成する（Ｓ３４０）。ここで言う特定の条件とは、各音符ＮＯ（ｂ，ｉ）における音符プロパティｐ（ｂ，ｉ）と一致する音符プロパティｐ（ｂ，ｉ）が対応付けられていることである。

なお、基準特徴量ＳＦの中に、特定の条件を満たす基準特徴量ＳＦが存在しない場合も考えられる。この場合のＳ３４０では、制御部１６は、音符ＮＯ（ｂ，ｉ）の音符プロパティｐ（ｂ，ｉ）に近接する音符プロパティｐが対応付けられた歌唱振幅ベクトルＡ、歌唱音高ベクトルＦ、分析窓の個数Ｌ、及び技巧特徴量Ｓのそれぞれの代表値を、その音符ＮＯ（ｂ，ｉ）に割り当てれば良い。ここで言う近接する音符プロパティｐとは、例えば、音階が一音違う、音符長が１階級違うことなどである。また、上記の方法とは別に、制御部１６は、時間及び周波数の２つの軸について、両隣の２つの音符ＮＯ（ｂ，ｉ−１），ＮＯ（ｂ，ｉ＋１）に対応する歌唱振幅ベクトルＡ、歌唱音高ベクトルＦ、分析窓の個数Ｌ、及び技巧特徴量Ｓのそれぞれの代表値を平均した値を、その音符ＮＯ（ｂ，ｉ）に割り当てても良い。

さらに、Ｓ３４０では、制御部１６は、生成した採点基準ＭＳを記憶部１４に記憶する。
その後、本採点基準生成処理を終了する。

つまり、採点基準生成処理では、図６に示すように、ＭＩＤＩ楽曲ＭＤにおける歌唱旋律を構成する各音符ＮＯ（ｂ，ｉ）に、その音符ＮＯ（ｂ，ｉ）の音符プロパティｐと共通する音符プロパティｐが対応付けられた歌唱振幅ベクトルＡ、歌唱音高ベクトルＦ、及び技巧特徴量Ｓのそれぞれの代表値を割り当てる。これにより、情報処理サーバ１０の制御部１６は、採点基準ＭＳを生成する。

＜カラオケ採点処理＞
次に、カラオケ装置３０の制御部５０が実行するカラオケ採点処理について説明する。
このカラオケ採点処理は、カラオケ採点処理を実行するための処理プログラムを起動する指令が入力されると起動される。

そして、カラオケ採点処理では、起動されると、図７に示すように、制御部５０は、まず、入力受付部３４を介して指定された楽曲に対応するＭＩＤＩ楽曲ＭＤを、情報処理サーバ１０の記憶部１４から取得する（Ｓ５１０）。続いて、制御部５０は、Ｓ５１０にて取得したＭＩＤＩ楽曲ＭＤを演奏する（Ｓ５２０）。具体的にＳ５３０では、制御部５０は、楽曲再生部３６にＭＩＤＩ楽曲ＭＤを出力し、そのＭＩＤＩ楽曲ＭＤを取得した楽曲再生部３６は、楽曲の演奏を行う。そして、楽曲再生部３６によって演奏された楽曲の音源信号が、出力部４２を介してスピーカ６０へと出力される。すると、スピーカ６０は、音源信号を音に換えて出力する。

さらに、カラオケ採点処理では、制御部５０は、マイク６２及びマイク入力部４４を介して入力された音声を歌唱データとして取得する（Ｓ５３０）。そして、制御部５０は、Ｓ５３０にて取得した歌唱データを記憶部３８に記憶する（Ｓ５４０）。

続いて、カラオケ採点処理では、制御部５０は、楽曲の演奏を終了したか否かを判定する（Ｓ５５０）。この判定の結果、楽曲の演奏を終了していなければ（Ｓ５５０：ＮＯ）、制御部５０は、カラオケ採点処理をＳ５３０へと戻す。一方、Ｓ５５０での判定の結果、楽曲の演奏が終了していれば（Ｓ５５０：ＹＥＳ）、制御部５０は、カラオケ採点処理をＳ５６０へと移行させる。

そのＳ５６０では、制御部５０は、記憶部３８に記憶されている全ての歌唱データを取得する。そして、制御部５０は、楽曲における時間軸に沿った歌唱データから、歌唱旋律を構成する各音符ＮＯ（ｃ，ｉ）を歌唱した区間の歌唱波形（以下、「音符歌唱データ」と称す）Ｖｏｓ（ｃ，ｉ）それぞれを抽出する（Ｓ５７０）。この音符歌唱データの特定は、例えば、「ボーカルデータ」を「歌唱データ」へと読み替えた上で、特徴量算出処理におけるＳ１６０と同様の手法を用いれば良い。ここでの符号ｃは、Ｓ５１０にて取得したＭＩＤＩ楽曲ＭＤに対応する楽曲を表す符号である。

続いて、カラオケ採点処理では、制御部５０は、各音符歌唱データＶｏｓ（ｃ，ｉ）における歌い方の特徴を表す歌唱特徴量、及び歌唱技巧を評価した歌唱技巧量ＳＳ（ｃ，ｉ）を算出する（Ｓ５８０）。ここで言う歌唱特徴量とは、歌声振幅ベクトルＡＡ（ｃ，ｉ）と、歌声音高ベクトルＦＦ（ｃ，ｉ）とを含む。この歌声振幅ベクトルＡＡ、及び歌声音高ベクトルＦＦのうちの少なくともいずれか一方は、特許請求の範囲の記載における歌唱変化量の一例である。

このうち、歌声振幅ベクトルＡＡ（ｃ，ｉ）は、音符歌唱データＶｏｓ（ｃ，ｉ）の振幅の音符ＮＯ（ｃ，ｉ）に対応する区間内での推移を表す。この歌声振幅ベクトルＡＡ（ｃ，ｉ）の算出方法は、「音符ボーカル」を「音符歌唱データ」へと読み替えた上で、特徴量算出処理におけるＳ１７０，Ｓ１８０と同様の手法を用いれば良い。

歌声音高ベクトルＦＦ（ｃ，ｉ）は、音符歌唱データの基本周波数の音符ＮＯ（ｃ，ｉ）に対応する区間内での推移を表す。この歌声音高ベクトルＦＦ（ｃ，ｉ）の算出方法は、「音符ボーカル」を「音符歌唱データ」へと読み替えた上で、特徴量算出処理におけるＳ１７０，Ｓ１９０と同様の手法を用いれば良い。

また、歌唱技巧量ＳＳ（ｃ，ｉ）には、歌声ビブラート特徴量Ｖｖｉｂ（ｃ，ｉ）と、歌声ため特徴量Ｖｔｔ（ｃ，ｉ）と、歌声しゃくり特徴量Ｖｒｉｓｅ（ｃ，ｉ）と、歌声フォール特徴量Ｖｆａｌｌ（ｃ，ｉ）と、こぶし特徴量Ｖｋｏｂ（ｃ，ｉ）とを含む。

このうち、歌声ビブラート特徴量Ｖｖｉｂ（ｃ，ｉ）は、音符歌唱データＶｏｓ（ｃ，ｉ）における“ビブラート”についての歌唱技巧量である。歌声ため特徴量Ｖｔｔ（ｃ，ｉ）は、音符歌唱データＶｏｓ（ｃ，ｉ）における“ため”についての歌唱技巧量である。歌声しゃくり特徴量Ｖｒｉｓｅ（ｃ，ｉ）は、音符歌唱データＶｏｓ（ｃ，ｉ）における“しゃくり”についての歌唱技巧量である。歌声フォール特徴量Ｖｆａｌｌ（ｃ，ｉ）は、音符歌唱データＶｏｓ（ｃ，ｉ）における“フォール”についての歌唱技巧量である。また、こぶし特徴量Ｖｋｏｂ（ｃ，ｉ）は、音符歌唱データＶｏｓ（ｃ，ｉ）における“こぶし”についての歌唱技巧量である。

これらの歌声ビブラート特徴量Ｖｖｉｂ（ｃ，ｉ）、歌声ため特徴量Ｖｔｔ（ｃ，ｉ）、歌声しゃくり特徴量Ｖｒｉｓｅ（ｃ，ｉ）、歌声フォール特徴量Ｖｆａｌｌ（ｃ，ｉ）、及びこぶし特徴量Ｖｋｏｂ（ｃ，ｉ）の算出方法は、「ボーカルデータ」を「歌唱データ」へと、「音符ボーカル」を「音符歌唱データ」へと読み替えた上で、特徴量算出処理におけるＳ２００と同様の手法を用いれば良い。

カラオケ採点処理では、続いて、制御部５０は、Ｓ５１０にて取得したＭＩＤＩ楽曲ＭＤに対応する採点基準ＭＳを情報処理サーバ１０の記憶部１４から取得する（Ｓ５９０）。続いて、制御部は、Ｓ５１０にて取得したＭＩＤＩ楽曲ＭＤに対応する楽曲において表現されるプロの歌手の歌い方における特徴を、歌唱音声によってユーザが表現している度合いを評価した評価点を算出する（Ｓ６００）。

このＳ６００では、制御部５０は、音高正確度、振幅正確度、及び技巧正確度のそれぞれを評価点として算出する。
具体的には、制御部５０は、採点基準ＭＳにおける各音符ＮＯ（ｃ，ｉ）の歌唱振幅ベクトルＡ（ｃ，ｉ）と、Ｓ５８０にて算出した歌声振幅ベクトルＡＡ（ｃ，ｉ）との相関値を、対応する音符ＮＯ（ｃ，ｉ）ごとに算出する。そして、制御部５０は、音符ＮＯ（ｃ，ｉ）ごとに算出した相関値の全音符ＮＯに渡る相加平均を振幅正確度として算出する。つまり、振幅正確度は、楽曲ｃを歌唱するプロの歌手の歌い方における特徴のうち、音符ＮＯ（ｃ，ｉ）に対応する区間内での音圧の推移の類似性が高いほど高い値となる。

また、制御部５０は、採点基準ＭＳにおける各音符ＮＯ（ｉ）の歌唱音高ベクトルＦ（ｃ，ｉ）と、Ｓ５８０にて算出した歌声音高ベクトルＦＦ（ｃ，ｉ）との相関値を、対応する音符ＮＯ（ｃ，ｉ）ごとに算出する。そして、制御部５０は、音符ＮＯ（ｃ，ｉ）ごとに算出した相関値の全音符ＮＯに渡る相加平均を音高正確度として算出する。つまり、音高正確度は、楽曲ｃを歌唱するプロの歌手の歌い方における特徴のうち、音符ＮＯ（ｃ，ｉ）に対応する区間内での基本周波数（音高）の推移の類似性が高いほど高い値となる。

さらに、制御部５０は、採点基準ＭＳにおける各音符ＮＯ（ｃ，ｉ）のビブラート特徴量ｖｉｂ（ｃ，ｉ）と、Ｓ５８０にて算出した歌声ビブラート特徴量Ｖｖｉｂ（ｃ，ｉ）との相関値を、対応する音符ＮＯ（ｃ，ｉ）ごとに算出する。そして、制御部５０は、音符ＮＯ（ｃ，ｉ）ごとに算出した相関値の全音符ＮＯに渡る相加平均を、技巧正確度のうちの“ビブラート”に関する評価として算出する。

制御部５０は、採点基準ＭＳにおける各音符ＮＯ（ｉ）のため特徴量ｔｔ（ｃ，ｉ）と、Ｓ５８０にて算出した歌声ため特徴量Ｖｔｔ（ｃ，ｉ）との相関値を、対応する音符ＮＯ（ｃ，ｉ）ごとに算出する。そして、制御部５０は、音符ＮＯ（ｃ，ｉ）ごとに算出した相関値の全音符ＮＯに渡る相加平均を、技巧正確度のうちの“ため”に関する評価として算出する。

制御部５０は、採点基準ＭＳにおける各音符ＮＯ（ｉ）のしゃくり特徴量ｒｉｓｅ（ｃ，ｉ）と、Ｓ５８０にて算出した歌声しゃくり特徴量Ｖｒｉｓｅ（ｃ，ｉ）との相関値を、対応する音符ＮＯ（ｃ，ｉ）ごとに算出する。そして、制御部５０は、音符ＮＯ（ｃ，ｉ）ごとに算出した相関値の全音符ＮＯに渡る相加平均を、技巧正確度のうちの“しゃくり”に関する評価として算出する。

制御部５０は、採点基準ＭＳにおける各音符ＮＯ（ｉ）のフォール特徴量ｆａｌｌ（ｃ，ｉ）と、Ｓ５８０にて算出した歌声フォール特徴量Ｖｆａｌｌ（ｃ，ｉ）との相関値を、対応する音符ＮＯ（ｃ，ｉ）ごとに算出する。そして、制御部５０は、音符ＮＯ（ｃ，ｉ）ごとに算出した相関値の全音符ＮＯに渡る相加平均を、技巧正確度のうちの“フォール”に関する評価として算出する。

なお、Ｓ６００においては、制御部５０は、採点基準ＭＳにおける各音符ＮＯ（ｉ）のこぶし特徴量ｋｏｂ（ｃ，ｉ）と、Ｓ５８０にて算出したこぶし特徴量Ｖｋｏｂ（ｃ，ｉ）との相関値を、対応する音符ＮＯ（ｃ，ｉ）ごとに算出する。そして、制御部５０は、音符ＮＯ（ｃ，ｉ）ごとに算出した相関値の全音符ＮＯに渡る相加平均を、技巧正確度のうちの“こぶし”に関する評価として算出する。

そして、制御部５０は、Ｓ６００にて算出した音高正確度、振幅正確度、及び技巧正確度のそれぞれを表示部６４に表示させる（Ｓ６１０）。Ｓ６１０での表示は、制御部５０が、映像制御部４６を介して表示部６４に対して制御信号を出力することで実現する。

その後、本カラオケ採点処理を終了し、次の起動タイミングまで待機する。
つまり、カラオケ採点処理では、制御部５０は、ユーザに指定された楽曲を演奏する。これと共に、カラオケ採点処理では、制御部５０は、楽曲の演奏中に入力された歌唱データを解析して歌唱特徴量（即ち、歌声振幅ベクトルＡＡ、及び歌声音高ベクトルＦＦ）及び歌唱技巧量ＳＳを算出する。さらに、カラオケ採点処理では、制御部５０は、歌声振幅ベクトルＡＡと歌唱振幅ベクトルＡ（ｃ，ｉ）との相関値を振幅正確度（即ち、評価点の１つ）として、歌声音高ベクトルＦＦと歌唱音高ベクトルＦとの相関値を音高正確度（即ち、評価点の１つ）として算出する。カラオケ採点処理では、制御部５０は、歌唱技巧量ＳＳと技巧特徴量Ｓとの相関値を技巧正確度（評価点の１つ）として算出する。
［実施形態の効果］
以上説明したように、特徴量算出処理が実行されることで算出される歌唱振幅ベクトルＡ（ａ，ｉ）は、音符ボーカルＶｏ（ａ，ｉ）の振幅が音符ＮＯ（ａ，ｉ）に対応する区間内で推移したものである。また、特徴量算出処理が実行されることで算出される歌唱音高ベクトルＦ（ａ，ｉ）は、音符ボーカルＶｏ（ａ，ｉ）の基本周波数ｆ０が音符ＮＯ（ａ，ｉ）に対応する区間内で推移したものである。

これらの歌唱振幅ベクトルＡ及び歌唱音高ベクトルＦには、その楽曲ａを歌唱した人物の歌い方の特徴（クセ）が表れる。つまり、歌唱振幅ベクトルＡ及び歌唱音高ベクトルＦは、楽曲を歌唱した歌手特有の歌い方の特徴を音符ＮＯごとに表したものである。

そして、特徴量算出処理では、歌唱振幅ベクトルＡ及び歌唱音高ベクトルＦを音符プロパティｐ及び歌手ＩＤと対応付けることで、基準特徴量ＳＦを生成している。したがって、特徴量算出処理を実行した情報処理装置３によれば、情報処理装置３自身が生成した基準特徴量ＳＦを、楽曲を歌唱したプロの歌手特有の特徴の表現を評価可能なデータとすることができる。

さらに、特徴量算出処理では、音符プロパティｐが一致する音符ＮＯごとに、歌唱振幅ベクトルＡ及び歌唱音高ベクトルＦの代表値を求めて、その歌唱振幅ベクトルＡ及び歌唱音高ベクトルＦの代表値を基準特徴量ＳＦとしている。このため、特徴量算出処理によれば、基準特徴量ＳＦのデータ量を低減できる。

ところで、楽曲においては、音高及び音価の組み合わせが一致する複数の音符に対して異なる歌詞が割り当てられていることがある。この場合、楽曲を歌唱した歌手は、音符と歌詞との組み合わせによって、歌唱の方法が異なる可能性が高い。

このため、特徴量算出処理では、音符プロパティｐに、音符ＮＯの音高と音符長とに加えて、歌詞の音節や歌詞の母音を含んでいる。
このように、音符プロパティｐに歌詞に関する情報を含むことで、特徴量算出処理では、音符ＮＯの音高と音符長と歌詞の音節と歌詞の母音との組み合わせが一致する音符ごとに、歌唱振幅ベクトルＡ及び歌唱音高ベクトルＦの代表値を算出できる。

また、前音符ＮＯ（ａ，ｉ−１）から音符ＮＯ（ａ，ｉ）へとボーカルデータが切り替わった場合や、音符ＮＯ（ａ，ｉ）から後音符ＮＯ（ａ，ｉ＋１）へとボーカルデータが切り替わった場合には、それらの音符ＮＯの組み合わせごとに、歌唱振幅ベクトルＡ及び歌唱音高ベクトルＦが異なる。

このため、特徴量算出処理では、対象音符属性に加えて前音符属性及び後音符属性を、音符プロパティｐに含んでいる。このように前音符属性及び後音符属性を音符プロパティｐに含むことで、特徴量算出処理によれば、代表値を求める対象を共通の音符群とすることができる。

これらの結果、特徴量算出処理によれば、歌手の歌い方のより細かな特徴の表現を評価可能な基準特徴量ＳＦを求めることができる。また、採点基準生成処理における採点基準ＭＳの生成方法は、ＭＩＤＩ楽曲ＭＤにおける歌唱旋律を構成する各音符ＮＯ（ｂ，ｉ）に、その音符ＮＯ（ｂ，ｉ）の音符プロパティｐと共通する音符プロパティｐが対応付けられた歌唱振幅ベクトルＡ、歌唱音高ベクトルＦの代表値を割り当てることである。

このような採点基準生成処理によれば、基準特徴量ＳＦの算出に用いた楽曲とは異なる楽曲についても採点基準ＭＳを生成することができる。さらに、カラオケ採点処理によれば、カラオケ装置３０のユーザが指定した楽曲において表現されるプロの歌手の歌い方における特徴を、ユーザが歌唱音声によって表現している度合いを評価できる。
［その他の実施形態］
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。

例えば、上記実施形態における特徴量算出処理は、情報処理装置３にて実行されていたが、本発明において特徴量算出処理を実行する装置は、情報処理装置３に限るものではない。すなわち、特徴量算出処理を実行する装置は、情報処理サーバ１０であっても良いし、カラオケ装置３０であっても良い。この場合、情報処理装置３は、システム１から省略されていても良い。

上記実施形態における採点基準生成処理は、情報処理サーバ１０にて実行されていたが、本発明において採点基準算出処理を実行する装置は、情報処理サーバ１０に限るものではなく、情報処理装置３であっても良いし、カラオケ装置３０であっても良い。

上記実施形態におけるカラオケ採点処理は、カラオケ装置３０にて実行されていたが、本発明においてカラオケ採点処理を実行する装置は、カラオケ装置３０に限るものではなく、情報処理装置３であっても良い。

ところで、上記実施形態においては、特徴量算出処理と採点基準生成処理とは別個の処理として構成されていたが、本発明においては、特徴量算出処理と採点基準生成処理とは１つの処理として構成されていても良い。この場合、特徴量算出処理と採点基準生成処理とからなる１つの処理は、情報処理サーバ１０にて実行されても良いし、情報処理装置３にて実行されても良い。

また、上記実施形態においては、採点基準生成処理とカラオケ採点処理とは別個の処理として構成されていたが、本発明においては、採点基準生成処理とカラオケ採点処理とは１つの処理として構成されていても良い。この場合、採点基準生成処理とカラオケ採点処理とからなる１つの処理は、情報処理サーバ１０にて実行されても良いし、カラオケ装置３０にて実行されても良い。

さらには、本発明においては、特徴量算出処理と採点基準生成処理とカラオケ採点処理とが１つの処理として構成されていても良い。この場合、特徴量算出処理と採点基準生成処理とカラオケ採点処理とからなる１つの処理は、情報処理装置３にて実行されても良いし、カラオケ装置３０にて実行されても良い。特徴量算出処理と採点基準生成処理とカラオケ採点処理とからなる１つの処理がカラオケ装置３０にて実行される場合には、情報処理装置３は、システム１から省略されていても良い。

ところで、上記実施形態においては、音符プロパティｐに、対象音符属性、前音符属性、及び後音符属性を含んでいたが、音符プロパティｐには、対象音符属性だけを含んでも良いし、対象音符属性と、前音符属性及び後音符属性のうちのいずれかだけを含んでも良い。

また、上記実施形態のカラオケ採点処理におけるＳ６００では、振幅正確度について、歌声振幅ベクトルＡＡと歌唱振幅ベクトルＡとの相関値を算出することで求めていたが、振幅正確度の算出方法は、これに限るものではなく、歌声振幅ベクトルＡＡと歌唱振幅ベクトルＡとの内積を、振幅正確度としても良い。

上記実施形態のカラオケ採点処理におけるＳ６００では、音高正確度について、歌声音高ベクトルＦＦと歌唱音高ベクトルＦとの相関値を算出することで求めていたが、音高正確度の算出方法は、これに限るものではなく、歌声音高ベクトルＦＦと歌唱音高ベクトルＦとの内積を、音高正確度としても良い。

上記実施形態のカラオケ採点処理におけるＳ６００では、技巧正確度について、歌声技巧量ＳＳと技巧特徴量Ｓとの相関値を算出することで求めていたが、技巧正確度の算出方法は、これに限るものではなく、歌声技巧量ＳＳと技巧特徴量Ｓとの内積を、技巧正確度としても良い。

さらに、上記実施形態のカラオケ採点処理におけるＳ６００では、楽曲における特徴的な技巧が強く表れているほど、大きな点数となるように技巧ごとに予め規定された重みを、技巧正確度のうちの、ビブラートに関する評価、ために関する評価、しゃくりに関する評価、フォールに関する評価、こぶしに関する評価のそれぞれに付与した重み付き演算により、技巧正確度を算出しても良い。

なお、上記実施形態の構成の一部を、課題を解決できる限りにおいて省略した態様も本発明の実施形態である。また、上記実施形態と変形例とを適宜組み合わせて構成される態様も本発明の実施形態である。また、特許請求の範囲に記載した文言によって特定される発明の本質を逸脱しない限度において考え得るあらゆる態様も本発明の実施形態である。

１…システム３…情報処理装置５，１４，３８…記憶部６，１６，５０…制御部７，１８，５２…ＲＯＭ８，２０，５４…ＲＡＭ９，２２，５６…ＣＰＵ１０…情報処理サーバ１２，３２…通信部３０…カラオケ装置３４…入力受付部３６…楽曲再生部４０…音声制御部４２…出力部４４…マイク入力部４６…映像制御部６０…スピーカ６２…マイク６４…表示部

Claims

ボーカル音を含む楽曲を表す楽曲データを第１記憶部から取得する第１取得ステップと、
前記第１取得ステップにより取得された楽曲データから、前記ボーカル音を表すボーカルデータを抽出する抽出ステップと、
前記楽曲を構成する複数の音符から構成される楽譜データであって、前記音符ごとの演奏時間である第１時間長と、前記複数の音符間の時間長である第２時間長とを含む楽譜データを第２記憶部から取得する第２取得ステップと、
前記抽出ステップで抽出したボーカルデータと、前記第２取得ステップで取得した楽譜データの前記第１時間長及び前記第２時間長とに基づいて、前記楽曲における歌唱旋律を構成する音符それぞれに対応する前記ボーカルデータの区間である音符ボーカルデータを特定する特定ステップと、
前記特定ステップにて特定した前記音符ボーカルデータに基づいて、前記音符ボーカルデータの振幅及び基本周波数の少なくともいずれか一方の前記音符に対応する区間内での推移を表す特徴変化量を決定する第１決定ステップと、
前記第１決定ステップにより決定された前記特徴変化量を用いて、歌唱を評価するための評価データを生成する生成ステップと、
をコンピュータに実行させ、
前記楽譜データには、前記音符の音高を含み、
前記第２取得ステップで取得した楽譜データに含まれる前記音符の音高及び前記第１時間長と、前記第１決定ステップで決定された特徴変化量とを、対応する前記音符ごとに対応付ける対応付ステップを、
前記コンピュータにさらに実行させ、
さらに、前記生成ステップは、
少なくとも、前記音符の音高と前記第１時間長との組み合わせが共通である前記音符を、所定の条件を満たす音符として、前記所定の条件を満たす音符ごとに前記特徴変化量の代表値を決定し、その決定した前記特徴変化量の代表値を含む前記評価データを生成する
ことを特徴とするプログラム。
前記楽譜データには、前記楽曲の歌唱旋律を構成する音符に割り当てられた歌詞の音節を表す歌詞情報を含み、
前記対応付ステップは、
前記第２取得ステップで取得した楽譜データに含まれる前記音符の音高、前記第１時間長、及び前記歌詞情報と、前記第１決定ステップで決定された特徴変化量とを、対応する音符ごとに対応付け、
前記生成ステップは、
前記音符の音高と、前記第１時間長と、前記歌詞情報との組み合わせが共通である前記音符を、前記所定の条件を満たす音符として、前記所定の条件を満たす音符ごとに前記特徴変化量の代表値を決定する
ことを特徴とする請求項１に記載のプログラム。
前記生成ステップは、
前記楽曲を歌唱した歌手ごとに、前記評価データを生成する
ことを特徴とする請求項１または請求項２に記載のプログラム。
前記第１決定ステップは、
前記音符ボーカルデータに、少なくとも２つ以上の分析窓を時間軸に沿って連続するように設定する設定ステップと、
前記設定ステップにて前記音符ボーカルデータに設定された前記分析窓それぞれにおける前記音符ボーカルデータの振幅及び基本周波数の少なくともいずれか一方の値を決定し、その決定した前記分析窓それぞれにおける前記音符ボーカルデータの振幅及び基本周波数の少なくともいずれか一方の値を時間軸に沿って配置することで、前記特徴変化量を決定する変化量決定ステップと
を前記コンピュータに実行させることを特徴とする請求項１から請求項３までのいずれか一項に記載のプログラム。
所定の楽曲の演奏中に入力された音声を表す歌唱データを取得する歌唱取得ステップと、
前記歌唱取得ステップにより取得された前記歌唱データに基づいて、前記所定の楽曲の歌唱旋律を構成する対象音符に対応する前記歌唱データの区間である音符歌唱データを特定する第２特定ステップと、
前記第２特定ステップにて特定した前記音符歌唱データに基づいて、前記音符歌唱データの振幅及び基本周波数の少なくともいずれか一方の前記対象音符に対応する区間内での推移を表す歌唱変化量を決定する第２決定ステップと、
前記第２決定ステップで決定された歌唱変化量と、前記生成ステップで生成された特徴変化量との相関値を決定し、その決定した前記相関値が高いほど高い評価とする評価決定ステップと、
を前記コンピュータにさらに実行させることを特徴とする請求項１から請求項４までのいずれか一項に記載のプログラム。
ボーカル音を含む楽曲を表す楽曲データを第１記憶部から取得する第１取得手段と、
前記第１取得手段により取得された楽曲データから、前記ボーカル音を表すボーカルデータを抽出する抽出手段と、
前記楽曲を構成する複数の音符から構成される楽譜データであって、前記音符ごとの演奏時間である第１時間長と、前記複数の音符間の時間長である第２時間長とを含む楽譜データを第２記憶部から取得する第２取得手段と、
前記抽出手段で抽出したボーカルデータと、前記第２取得手段で取得した楽譜データの前記第１時間長及び前記第２時間長とに基づいて、前記楽曲における歌唱旋律を構成する音符それぞれに対応する前記ボーカルデータの区間である音符ボーカルデータを特定する特定手段と、
前記特定手段にて特定した前記音符ボーカルデータに基づいて、前記音符ボーカルデータの振幅及び基本周波数の少なくともいずれか一方の前記音符に対応する区間内での推移を表す特徴変化量を決定する決定手段と、
前記決定手段により決定された前記特徴変化量を用いて、歌唱を評価するための評価データを生成する生成手段と、
を備え、
前記楽譜データには、前記音符の音高を含み、
前記第２取得手段にて取得した楽譜データに含まれる前記音符の音高及び前記第１時間長と、前記決定手段により決定された特徴変化量とを、対応する前記音符ごとに対応付ける対応付手段をさらに備え、
さらに、前記生成手段は、
少なくとも、前記音符の音高と前記第１時間長との組み合わせが共通である前記音符を、所定の条件を満たす音符として、前記所定の条件を満たす音符ごとに前記特徴変化量の代表値を決定し、その決定した前記特徴変化量の代表値を含む前記評価データを生成する
ことを特徴とする情報処理装置。
ボーカル音を含む楽曲を表す楽曲データを第１記憶部から、情報処理装置が取得する第１取得手順と、
前記第１取得手順により取得された楽曲データから、前記ボーカル音を表すボーカルデータを、前記情報処理装置が抽出する抽出手順と、
前記楽曲を構成する複数の音符から構成される楽譜データであって、前記音符ごとの演奏時間である第１時間長と、前記複数の音符間の時間長である第２時間長とを含む楽譜データを第２記憶部から、前記情報処理装置が取得する第２取得手順と、
前記抽出手順で抽出したボーカルデータと、前記第２取得手順で取得した楽譜データの前記第１時間長及び前記第２時間長とに基づいて、前記楽曲における歌唱旋律を構成する音符それぞれに対応する前記ボーカルデータの区間である音符ボーカルデータを、前記情報処理装置が特定する特定手順と、
前記特定手順にて特定した前記音符ボーカルデータに基づいて、前記音符ボーカルデータの振幅及び基本周波数の少なくともいずれか一方の前記音符に対応する区間での推移を表す特徴変化量を、前記情報処理装置が決定する決定手順と、
前記決定手順により決定された前記特徴変化量を用いて、歌唱を評価するための評価データを、前記情報処理装置が生成する生成手順と、
を備え、
前記楽譜データには、前記音符の音高を含み、
前記第２取得手順にて取得した楽譜データに含まれる前記音符の音高及び前記第１時間長と、前記決定手段により決定された特徴変化量とを、対応する前記音符ごとに対応付ける対応付手順をさらに備え、
さらに、前記生成手順は、
少なくとも、前記音符の音高と前記第１時間長との組み合わせが共通である前記音符を、所定の条件を満たす音符として、前記所定の条件を満たす音符ごとに前記特徴変化量の代表値を決定し、その決定した前記特徴変化量の代表値を含む前記評価データを生成する
ことを特徴とする評価データ生成方法。