JP2015184448A

JP2015184448A - プログラム，情報処理装置，及び評価方法

Info

Publication number: JP2015184448A
Application number: JP2014060254A
Authority: JP
Inventors: 典昭阿瀬見; Noriaki Asemi
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2014-03-24
Filing date: 2014-03-24
Publication date: 2015-10-22
Anticipated expiration: 2034-03-24
Also published as: JP6075314B2

Abstract

【課題】歌手特有の特徴を表現した歌唱を評価可能な技術の提供。【解決手段】情報処理サーバは、楽曲ＩＤを取得し、その楽曲ＩＤに対応する楽譜データを取得する。そして、歌手ＩＤを取得し、その歌手ＩＤと対応付けられた第１評価データを取得する。さらに、情報処理サーバは、取得した楽譜データを構成する第１音符に、第１評価データにおける特徴変化量であって、第１音符における音高と音符長との組み合わせに一致する音高と音符長との組み合わせからなる第２音符での特徴変化量を対応付けることで、第２評価データを生成する。カラオケ装置は、情報処理サーバで生成した第２評価データを用いて、音声入力部から取得した音声データを評価する。【選択図】図７

Description

本発明は、歌唱を評価するプログラム、情報処理装置、及び評価方法に関する。

従来、楽曲の歌唱旋律を歌唱した歌唱の巧拙を評価する歌唱評価技術が知られている（特許文献１参照）。この種の歌唱評価技術として、歌唱音声の音高の推移に基づく基準点数に、付加点数を加えた評価点数を算出するものが提案されている。この種の歌唱評価技術における基準点数は、歌唱旋律を構成する音符ごとに規定された１つの音高を表すリファレンスデータと、歌唱音声における音高とのズレが小さいほど高い点数となるように算出される。また、付加点数は、歌唱音声から検出した歌唱技巧の回数が多いほど高い点数となるように算出される。

特開２００７−２３３０１３号公報

ところで、プロの歌手が歌唱した楽曲においては、多くの場合、その楽曲の歌手ごとに特有の特徴として、歌い方や声質が表れる。そして、カラオケ装置などの利用者が歌唱した歌声を評価する場合、歌手特有の歌い方の特徴や声質（以下、「特徴など」と称す）を表現した歌唱を高い評価とすることが望まれている。

しかしながら、従来の歌唱評価技術では、カラオケ装置などの利用者が歌唱した歌声を評価する場合に、歌手特有の特徴などを表現した歌唱について、何ら評価していないという課題があった。

そこで、本発明は、歌手特有の特徴を表現した歌唱を評価可能な技術を提供することを目的とする。

上記目的を達成するためになされた本発明は、第１情報取得ステップと、第１取得ステップと、第２情報取得ステップと、第２取得ステップと、生成ステップと、評価ステップとをコンピュータに実行させるプログラムに関する。

本発明における第１情報取得ステップでは、楽曲を識別する楽曲識別情報を取得する。第１取得ステップでは、第１情報取得ステップで取得した楽曲識別情報を用いて、音高及び音符長が規定された複数の第１音符から構成される第１楽譜データを、第１記憶部から取得する。第２情報取得ステップでは、歌手を識別する歌手識別情報を取得する。第２取得ステップでは、特徴変化量と歌手識別情報とを対応付けて記憶した第２記憶部から、歌手識別情報と対応付けられた特徴変化量を取得する。

そして、生成ステップでは、第２取得ステップで取得した特徴変化量、及び第１取得ステップで取得した楽譜データに基づいて、その楽譜データを構成する第１音符に、その第１音符における音高及び音符長に一致する第２音符での特徴変化量を対応付けることで、評価データを生成する。その生成した評価データを用いて、評価ステップでは、音声入力部から取得した音声データを評価する。

このようなプログラムにおいて生成される評価データは、楽譜データを構成する各音符に、その音符に対応する特徴変化量を対応付けたものである。ここで言う特徴変化量は、複数の第２音符ごとにおける音高及び音符長に対応付けられた指標であって、ボーカル音を含む楽曲データから抽出されたボーカルデータの振幅と基本周波数との少なくともいずれか一方の推移を表す。このため、特徴変化量には、楽曲を歌唱した人物の歌い方のクセが表れる。

つまり、評価データは、楽曲を歌唱した歌手特有の歌い方の特徴を表したものである。ここで、例えば、情報処理装置の利用者が、歌手が歌唱した楽曲とは異なる楽曲について歌い、その歌声を、本発明のプログラムを実行することで評価する場合を想定する。

この場合、利用者が歌った楽曲の各音符について、評価データにおける特徴変化量と、歌唱音声から検出した各音符における振幅または基本周波数の推移との相関が高いほど、情報処理装置の利用者は、歌手特有の歌い方の特徴を表現できていると言える。

したがって、本発明のプログラムによれば、情報処理装置の利用者が歌唱した歌声について、歌手特有の歌い方の特徴を、評価データに基づいて評価することができる。特に、本発明のプログラムによれば、利用者が歌った歌唱音声が、歌手特有の特徴にどの程度類似しているのかという類似性を評価できる。

ところで、本発明のプログラムにおいては、第３取得ステップと、抽出ステップと、第４取得ステップと、第１特定ステップと、第１決定ステップと、基礎生成ステップと、記憶制御ステップとをコンピュータに実行させても良い。

この場合、第３取得ステップでは、楽曲データを取得する。抽出ステップでは、第３取得ステップにより取得された楽曲データから、ボーカル音を表すボーカルデータを抽出する。さらに、第４取得ステップでは、音高及び音符長が規定された複数の第２音符から構成される第２楽譜データを取得する。そして、第１特定ステップでは、第４取得ステップで取得した第２楽譜データに含まれる複数の第２音符それぞれの音符長である第１時間長と、複数の第２音符間の時間長である第２時間長とに基づいて、ボーカルデータの中で、複数の第２音符それぞれに対応する音符ボーカルデータを特定する。第１決定ステップでは、第１特定ステップにより特定された音符ボーカルデータに基づいて、複数の第２音符それぞれの特徴変化量を決定する。その決定された特徴変化量と歌手識別情報とを対応付けて、記憶制御ステップにて第２記憶部に記憶する。

このようなプログラムによれば、楽曲を歌唱したプロの歌手特有の特徴を表した特徴変化量と歌手識別情報とを対応付けて第２記憶部に記憶できる。ところで、第２楽譜データには、複数の第２音符に割り当てられた歌詞を表す歌詞情報を含んでも良い。
この場合、本発明のプログラムは、第４取得ステップで取得した第２楽譜データに含まれる複数の第２音符それぞれの音高、第１時間長、及び歌詞情報と、第１決定ステップで決定された特徴変化量とを、対応する第２音符に対応付け、さらに、複数の第２音符の中で、音高と第１時間長と歌詞情報との組み合わせが所定の条件を満たす第２音符について、特徴変化量の代表値を決定する第２決定ステップ、をコンピュータに実行させても良い。さらに、本発明のプログラムにおける記憶制御ステップは、第２決定ステップにより決定された特徴変化量の代表値と、歌手識別情報とを対応付けて第２記憶部に記憶させても良い。

本発明のプログラムによれば、音符の音高と、第１時間長と、歌詞情報とが共通である音符を、所定の条件を満たす音符として、音符に対応する特徴変化量の代表値を、当該所定の条件を満たす音符ごとに決定できる。

ここで、楽曲においては、同一種類の音符に対して異なる歌詞が割り当てられていることが多い。この場合、楽曲を歌唱した歌手は、音符と歌詞との組み合わせによって、歌唱の方法が異なる可能性が高い。つまり、音高と第１時間長との組み合わせからなる音符が同一であっても、その音符に割り当てられた歌詞が異なる場合には、音符ボーカルデータにおける特徴変化量は、異なる可能性が高い。

このため、本発明のプログラムのように、歌手の歌い方のより細かな特徴の表現を評価可能な特徴変化量を生成できる。
しかも、本発明のプログラムにおける特徴変化量は、所定の条件を満たす音符ごとに代表値化されている。このため、本発明のプログラムによれば、データ量を低減できる。

なお、ここで言う代表値とは、平均値や、最頻値、中央値を含むものである。また、楽譜データに歌詞情報が含まれる場合、本発明のプログラムは、第２楽譜データに含まれる複数の第２音符それぞれの音高、第１時間長、第２時間長、及び歌詞情報と、第１決定ステップで決定された特徴変化量とを、対応する第２音符ごとに対応付けても良い。

さらに、本発明のプログラムにおいては、複数の第２音符の中で、音高と第１時間長と第２時間長と歌詞情報との組み合わせが所定の条件を満たす第２音符について、特徴変化量の代表値を決定する第２決定ステップとをコンピュータに実行させても良い。

この場合、記憶制御ステップでは、第２決定ステップにより決定された特徴変化量の代表値と、歌手識別情報とを対応付けて第２記憶部に記憶させても良い。
このようなプログラムによれば、音符群ごとに決定した特徴変化量の代表値を第２記憶部に記憶できる。

ここで、楽曲における音符のうちの１つを対象音符と称し、楽曲における時間軸に沿って対象音符の直前の音符を前音符と称し、楽曲における時間軸に沿って対象音符の直後の音符を後音符と称す。

そして、前音符から対象音符へとボーカルデータが切り替わった場合や、対象音符から後音符へとボーカルデータが切り替わった場合には、それらの音符の組み合わせごとに、音符ボーカルデータでの基本周波数の推移や音圧の推移が異なる。つまり、音符群が異なることによって、特徴変化量には、歌手特有の歌い方に細かな特徴が表れる。

このため、本発明のプログラムにおいては、代表値を求める対象を共通の音符群ごととしても良い。このようなプログラムによれば、情報処理装置の利用者が歌唱した歌声について、歌手特有のより細かな特徴の表現を評価可能な評価データを生成できる。

また、本発明における第１決定ステップは、設定ステップと、変化量決定ステップとをコンピュータに実行させても良い。設定ステップでは、音符ボーカルデータに、少なくとも２つ以上の分析窓を時間軸に沿って連続するように設定する。変化量決定ステップでは、設定ステップにより設定された分析窓それぞれにおける音符ボーカルデータの振幅及び基本周波数の少なくともいずれか一方の値を決定し、音符ボーカルデータの振幅及び基本周波数の少なくともいずれか一方の値が時間軸に沿って変化する量を特徴変化量として決定する。

このような特徴変化量であれば、音符ボーカルデータの振幅及び基本周波数の少なくともいずれか一方の値をより詳細なものとすることができる。この結果、本発明のプログラムを実行することで、音符それぞれにおける歌手特有の歌い方の特徴をより詳細に評価できる。

さらに、本発明における評価ステップは、音声取得ステップと、第２特定ステップと、特徴決定ステップと、評価決定ステップとをコンピュータに実行させても良い。
この場合の音声取得ステップでは、音声入力部を介して音声データを取得する。第２特定ステップでは、音声取得ステップにより取得された音声データに基づいて、音声データの中で、複数の第１音符にそれぞれ対応する音符音声データを特定する。

さらに、特徴決定ステップでは、音符音声データの振幅及び基本周波数の少なくともいずれか一方の推移を表す歌唱変化量を、複数の第１音符それぞれについて決定する。評価決定ステップでは、歌唱変化量と、評価データに含まれる特徴変化量との第１相関値を決定し、その決定した第１相関値が高いほど高い評価とする。

このようなプログラムによれば、歌手特有の特徴の再現性をより確実に評価できる。
ところで、第２記憶部には、声質特徴量が、特徴変化量と歌手識別情報と対応付けて記憶されていても良い。この場合、本発明における第２取得ステップでは、第２記憶部から、第２情報取得ステップにて取得した歌手識別情報と対応付けられた特徴変化量及び声質特徴量を取得する。

そして、生成ステップでは、特徴変化量及び声質特徴量、及び第１取得ステップで取得した第１楽譜データに基づいて、第１楽譜データを構成する第１音符に、第１音符における音高及び音符長に一致する第２音符での特徴変化量及び声質特徴量を対応付けることで、評価データを生成する。

さらに、本発明における特徴決定ステップでは、音符音声データのメル周波数ケプストラムを表す歌唱声質を、複数の第１音符それぞれについて決定する。そして、評価決定ステップでは、歌唱声質と、評価データに含まれる声質特徴量との第２相関値を決定し、その決定した第２相関値が高いほど高い評価とする。

声質特徴量は、複数の第２音符ごとにおける音高及び音符長に対応付けられた指標であって、ボーカルデータのメル周波数ケプストラムである。つまり、本発明における評価データは、楽曲を歌唱した歌手特有の歌い方の特徴に加えて、歌手特有の声質を表したものである。

例えば、情報処理装置の利用者が、歌手が歌唱した楽曲とは異なる楽曲について歌い、その歌声を、本発明のプログラムを実行することで評価することを想定する。この場合、評価データにおける声質特徴量と、歌唱音声から決定した歌唱声質との相関が高いほど、情報処理装置の利用者は、歌手特有の声質を再現できていると言える。

したがって、本発明のプログラムによれば、情報処理装置の利用者が歌唱した歌声について、歌手特有の声質の再現性を評価できる。特に、本発明のプログラムによれば、利用者が歌った歌唱音声の声質が、歌手特有の声質にどの程度類似しているのかという類似性を評価できる。

本発明は、第１情報取得手段と、第１取得手段と、第２情報取得手段と、第２取得手段と、生成手段と、評価手段とを備える情報処理装置としてなされていても良い。
第１情報取得手段は、楽曲識別情報を取得する。第１取得手段は、第１情報取得手段で取得した楽曲識別情報を用いて、第１楽譜データを第１記憶部から取得する。第２情報取得手段は、歌手識別情報を取得する。第２取得手段は、第２記憶部から、歌手識別情報と対応付けられた特徴変化量を取得する。

さらに、生成手段は、第１楽譜データを構成する第１音符に、第１音符における音高及び音符長に一致する第２音符での特徴変化量を対応付けることで、評価データを生成する。評価手段は、生成手段で生成した評価データを用いて、音声入力部から取得した音声データを評価する。

このような情報処理装置によれば、請求項１に係るプログラムを実行した場合と同様の効果を得ることができる。また、本発明は、第１情報取得手順と、第１取得手順と、第２情報取得手順と、第２取得手順と、生成手順と、評価手順とを、情報処理装置が実行する評価方法としてなされていても良い。

この場合の第１情報取得手順では、楽曲識別情報を情報処理装置が取得する。第１取得手順では、第１情報取得手順で取得した楽曲識別情報を用いて、第１楽譜データを、第１記憶部から、情報処理装置が取得する。第２情報取得手順では、歌手識別情報を、情報処理装置が取得する。第２取得手順では、第２記憶部から、歌手識別情報と対応付けられた特徴変化量を、情報処理装置が取得する。

そして、生成手順では、第１楽譜データを構成する第１音符に、その第１音符における音高及び音符長に一致する第２音符での特徴変化量を対応付けることで、情報処理装置が、評価データを生成する。その評価データを用いて、評価手順では、音声入力部から取得した音声データを、情報処理装置が評価する。

このような評価方法によれば、請求項１に係るプログラムを実行した場合と同様の効果を得ることができる。

本発明が適用された情報処理装置を備えたシステムの概略構成を示すブロック図である。情報処理装置が実行する特徴量算出処理の処理手順を示すフローチャートである。特徴変化量を例示する図である。第１評価データを例示する図である。情報処理サーバが実行する評価データ生成処理の処理手順を示すフローチャートである。第２評価データの概要を例示する図である。カラオケ装置が実行するカラオケ採点処理の処理手順を示すフローチャートである。

以下に本発明の実施形態を図面と共に説明する。
〈システム構成〉
図１に示すカラオケ装置３０は、ユーザが指定した楽曲を演奏すると共に、その楽曲の演奏中にユーザが歌唱した歌唱音声を評価する装置である。このカラオケ装置３０において実行される評価は、ユーザによって指定された歌手が、ユーザによって指定された楽曲を歌唱した場合に表れると想定される、その歌手の歌い方の特徴を、ユーザが表現している度合いである。

このような評価を実現するために構築されるシステム１は、情報処理装置３と、情報処理サーバ１０と、カラオケ装置３０とを備えている。情報処理装置３は、楽曲ごとに用意された楽曲データＷＤ及びＭＩＤＩ楽曲ＭＤに基づいて、第１評価データＳＦを算出する。ここで言う第１評価データＳＦとは、楽曲を歌唱するプロの歌手ごとの歌い方における特徴を表すデータである。

情報処理サーバ１０は、少なくとも、ＭＩＤＩ楽曲ＭＤ及び情報処理装置３にて算出された第１評価データＳＦを記憶部１４に記憶する。さらに、情報処理サーバ１０は、第１評価データＳＦ及びＭＩＤＩ楽曲ＭＤに基づいて第２評価データＭＳを生成する。ここで言う第２評価データＭＳとは、カラオケ装置３０が実行するカラオケ採点処理に用いるデータであり、ユーザによって指定された歌手が、ユーザによって指定された楽曲を歌唱した場合に表れると想定されるその歌手の歌い方の特徴を表すデータである。この第２評価データＭＳは、特許請求の範囲に記載された評価データの１例である。

カラオケ装置３０は、ユーザが指定した楽曲に対応するＭＩＤＩ楽曲ＭＤ及び第２評価データＭＳを情報処理サーバ１０から取得し、そのＭＩＤＩ楽曲ＭＤに基づいて楽曲を演奏すると共に、その楽曲の演奏中に入力された音声を評価する。

＜楽曲データ＞
次に、楽曲データＷＤは、特定の楽曲ごとに予め用意されたものであり、楽曲に関する情報が記述された楽曲管理情報と、楽曲の演奏音を表す原盤波形データとを備えている。楽曲管理情報には、少なくとも、楽曲を識別する楽曲識別情報（以下、楽曲ＩＤと称す）と、楽曲を歌唱したプロの歌手を識別する歌手識別情報（以下、歌手ＩＤと称す）とが含まれる。

本実施形態の原盤波形データは、複数の楽器の演奏音と、歌唱旋律をプロの歌手が歌唱した歌唱音とを含む音声データである。この音声データは、非圧縮音声ファイルフォーマットの音声ファイルによって構成されたデータであっても良いし、音声圧縮フォーマットの音声ファイルによって構成されたデータであっても良い。なお、以下では、原盤波形データに含まれる演奏音を表す音声波形データを伴奏データと称し、原盤波形データに含まれる歌唱音を表す音声波形データをボーカルデータと称す。

本実施形態の伴奏データに含まれる楽器の演奏音としては、打楽器（例えば、ドラム，太鼓，シンバルなど）の演奏音，弦楽器（例えば、ギター，ベースなど）の演奏音，打弦楽器（例えば、ピアノ）の演奏音，及び管楽器（例えば、トランペットやクラリネットなど）の演奏音がある。一般的な楽曲においては、通常、打楽器やベースがリズム楽器として用いられる。

＜ＭＩＤＩ楽曲＞
次に、ＭＩＤＩ楽曲ＭＤは、楽曲ごとに予め用意されたものであり、演奏データと、歌詞データとを有している。

このうち、演奏データは、周知のＭＩＤＩ（ＭｕｓｉｃａｌＩｎｓｔｒｕｍｅｎｔＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ）規格によって、一つの楽曲の楽譜を表したデータである。この演奏データは、楽曲ＩＤと、歌手ＩＤと、当該楽曲にて用いられる楽器ごとの楽譜を表す楽譜トラックとを少なくとも有している。

そして、楽譜トラックには、ＭＩＤＩ音源から出力される個々の演奏音について、少なくとも、音高（いわゆるノートナンバー）と、ＭＩＤＩ音源が演奏音を出力する期間（以下、音符長と称す）とが規定されている。ただし、楽譜トラックの音符長は、当該演奏音の出力を開始するまでの当該楽曲の演奏開始からの時間を表す演奏開始タイミング（いわゆるノートオンタイミング）と、当該演奏音の出力を終了するまでの当該楽曲の演奏開始からの時間を表す演奏終了タイミング（いわゆるノートオフタイミング）とによって規定されている。

すなわち、楽譜データでは、ノートナンバーと、ノートオンタイミング及びノートオフタイミングによって表される音符長とによって、１つの音符ＮＯが規定される。そして、楽譜データは、音符ＮＯが演奏順に配置されることによって、１つの楽譜として機能する。

なお、楽譜トラックは、例えば、鍵盤楽器、弦楽器、打楽器、及び管楽器などの楽器ごとに用意されている。このうち、本実施形態では、特定の楽器（例えば、ヴィブラフォン）が、楽曲において歌唱旋律を担当する楽器として規定されている。

一方、歌詞データは、楽曲の歌詞に関するデータであり、歌詞テロップデータと、歌詞プロパティデータと、歌詞出力データとを備えている。歌詞テロップデータは、楽曲の歌詞を構成する文字（以下、歌詞構成文字とする）を表す。歌詞プロパティデータは、歌詞構成文字それぞれの音節及びその音節の母音を表す。歌詞出力データは、歌詞構成文字の出力タイミングである歌詞出力タイミングを、演奏データの演奏と対応付けるタイミング対応関係が規定されたデータである。

具体的に、本実施形態におけるタイミング対応関係は、演奏データの演奏を開始するタイミングに、歌詞テロップデータの出力を開始するタイミングが対応付けられた上で、当該楽曲の時間軸に沿った各歌詞構成文字の歌詞出力タイミングが、演奏データの演奏開始からの経過時間によって規定されている。これにより、楽譜トラックに規定された個々の演奏音（即ち、音符ＮＯ）と、歌詞構成文字それぞれとが対応付けられる。

〈情報処理装置〉
情報処理装置３は、記憶部５と、制御部６とを備えている。記憶部５は、記憶内容を読み書き可能に構成された周知の記憶装置である。記憶部５には、少なくとも１つの楽曲データＷＤと、少なくとも１つのＭＩＤＩ楽曲ＭＤとが記憶されている。この記憶部５に記憶される楽曲データＷＤとＭＩＤＩ楽曲ＭＤとは、共通する楽曲に対応するものである。なお、図１に示す符号「ｎ」は、情報処理装置３の記憶部５に記憶されている楽曲データＷＤ及びＭＩＤＩ楽曲ＭＤの個数を表し、１以上の自然数である。

制御部６は、ＲＯＭ７，ＲＡＭ８，ＣＰＵ９を備えた周知のマイクロコンピュータを中心に構成された周知の制御装置である。ＲＯＭ７は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを記憶する。ＲＡＭ８は、処理プログラムやデータを一時的に記憶する。ＣＰＵ９は、ＲＯＭ７やＲＡＭ８に記憶された処理プログラムに従って各処理を実行する。

本実施形態のＲＯＭ７には、記憶部５に記憶されている楽曲データＷＤ及びＭＩＤＩ楽曲ＭＤに基づいて、第１評価データＳＦを算出する特徴量算出処理を、制御部６が実行するための処理プログラムが記憶されている。

〈情報処理サーバ〉
情報処理サーバ１０は、通信部１２と、記憶部１４と、制御部１６とを備えている。このうち、通信部１２は、通信網を介して、情報処理サーバ１０が外部との間で通信を行う。すなわち、情報処理サーバ１０は、通信網を介してカラオケ装置３０と接続されている。なお、ここで言う通信網は、有線による通信網であっても良いし、無線による通信網であっても良い。

記憶部１４は、記憶内容を読み書き可能に構成された周知の記憶装置である。この記憶部１４には、少なくとも、複数のＭＩＤＩ楽曲ＭＤが記憶される。この記憶部１４に記憶されるＭＩＤＩ楽曲ＭＤに対応する楽曲には、情報処理装置３の記憶部５に記憶されたＭＩＤＩ楽曲ＭＤの楽曲と同一の楽曲に加えて、情報処理装置３の記憶部５に記憶されていないＭＩＤＩ楽曲ＭＤの楽曲を含む。なお、図１に示す符号「ｍ」は、情報処理サーバ１０の記憶部１４に記憶されているＭＩＤＩ楽曲ＭＤの個数を表し、２以上の自然数である。

さらに、記憶部１４には、情報処理装置３が特徴量算出処理を実行することで生成された第１評価データＳＦが記憶される。また、記憶部１４には、第２評価データＭＳが記憶される。

制御部１６は、ＲＯＭ１８，ＲＡＭ２０，ＣＰＵ２２を備えた周知のマイクロコンピュータを中心に構成された周知の制御装置である。ＲＯＭ１８，ＲＡＭ２０，ＣＰＵ２２は、それぞれ、ＲＯＭ７，ＲＡＭ８，ＣＰＵ９と同様に構成されている。

なお、本実施形態のＲＯＭ１８には、記憶部１４に記憶された第１評価データＳＦ及びＭＩＤＩ楽曲ＭＤに基づいて第２評価データＭＳを生成する評価データ算出処理を、制御部１６が実行するための処理プログラムが記憶されている。

〈カラオケ装置〉
カラオケ装置３０は、通信部３２と、入力受付部３４と、楽曲再生部３６と、記憶部３８と、音声制御部４０と、映像制御部４６と、制御部５０とを備えている。

通信部３２は、通信網を介して、カラオケ装置３０が外部との間で通信を行う。入力受付部３４は、外部からの操作に従って情報や指令の入力を受け付ける入力機器である。本実施形態における入力機器とは、例えば、キーやスイッチ、リモコンの受付部などである。

楽曲再生部３６は、情報処理サーバ１０からダウンロードしたＭＩＤＩ楽曲ＭＤに基づく楽曲の演奏を実行する（ＭＩＤＩ音源）。音声制御部４０は、音声の入出力を制御するデバイスであり、出力部４２と、マイク入力部４４とを備えている。

マイク入力部４４には、マイク６２が接続される。これにより、マイク入力部４４は、ユーザの歌唱音を取得する（特許請求の範囲における音声入力部の一例）。出力部４２にはスピーカ６０が接続されている。出力部４２は、楽曲再生部３６によって再生される楽曲の音源信号、マイク入力部４４からの歌唱音の音源信号をスピーカ６０に出力する。スピーカ６０は、出力部４２から出力される音源信号を音に換えて出力する。

映像制御部４６は、制御部５０から送られてくる映像データに基づく映像の出力を行う。映像制御部４６には、映像の表示を行う表示部６４が接続されている。制御部５０は、ＲＯＭ５２，ＲＡＭ５４，ＣＰＵ５６を少なくとも有した周知のコンピュータを中心に構成されている。ＲＯＭ５２，ＲＡＭ５４，ＣＰＵ５６は、それぞれ、ＲＯＭ７，ＲＡＭ８，ＣＰＵ９と同様に構成されている。

そして、ＲＯＭ５２には、カラオケ採点処理を制御部５０が実行するための処理プログラムが記憶されている。カラオケ採点処理は、ユーザによって指定された楽曲を演奏し、その演奏期間中にマイク６２を介して入力された音声を評価する処理である。カラオケ採点処理によって評価する対象は、ユーザによって指定された楽曲を、ユーザによって指定された歌手が歌唱した場合に表れると想定される、その歌手の歌い方の特徴を、ユーザが表現している度合いである。

〈特徴量算出処理〉
次に、情報処理装置３の制御部６が実行する特徴量算出処理について説明する。この特徴量算出処理は、処理プログラムを起動するための起動指令が、情報処理装置３の入力受付部（図示せず）を介して入力されたタイミングで起動される。

そして、特徴量算出処理では、図２に示すように、起動されると、まず、制御部６は、情報処理装置３の入力受付部（図示せず）を介して入力された歌手ＩＤを取得する（Ｓ１０５）。続いて、制御部６は、情報処理装置３の記憶部５に記憶されている全ての楽曲データＷＤの中から、Ｓ１０５にて取得した歌手ＩＤが対応付けられた一つの楽曲データＷＤを取得する（Ｓ１１０）。

さらに、特徴量算出処理では、制御部６は、情報処理装置３の記憶部５に記憶されている全てのＭＩＤＩ楽曲ＭＤの中から、Ｓ１１０で取得した楽曲データＷＤと同一の楽曲ＩＤが対応付けられた一つのＭＩＤＩ楽曲ＭＤを取得する（Ｓ１２０）。すなわち、Ｓ１１０及びＳ１２０では、制御部６は、同一の楽曲に対する楽曲データＷＤ及びＭＩＤＩ楽曲ＭＤを取得する。

続いて、制御部６は、Ｓ１１０にて取得した楽曲データＷＤ（以下、「取得楽曲データ」と称す）における各音符に対応する各音の再生時間に、Ｓ１２０で取得したＭＩＤＩ楽曲ＭＤ（以下、「取得ＭＩＤＩ」と称す）を構成する各音符の演奏タイミングが一致するように、その取得ＭＩＤＩを調整する（Ｓ１３０）。このＳ１３０における取得ＭＩＤＩを調整する手法として、周知の手法（例えば、特許第５３１０６７７号に記載の手法）を用いることが考えられる。特許第５３１０６７７号に記載の手法では、具体的には、制御部６は、取得ＭＩＤＩをレンダリングし、その取得ＭＩＤＩのレンダリング結果と取得楽曲データの原盤波形データとの双方を規定時間単位でスペクトルデータに変換する。そして、双方のスペクトルデータ上の時間が同期するように、各演奏音の演奏開始タイミング及び演奏終了タイミングを修正する。なお、スペクトルデータ上の時間が同期するように調整する際には、ＤＰマッチングを用いても良い。

特徴量算出処理では、制御部６は、取得楽曲データＷＤに含まれる原盤波形データを取得する（Ｓ１４０）。続いて、制御部６は、Ｓ１４０にて取得した原盤波形データから、ボーカルデータと伴奏データとを分離して抽出する（Ｓ１５０）。このＳ１５０において制御部６が実行する、伴奏データとボーカルデータとの分離手法として、周知の手法（例えば、特開２００８−１３４６０６に記載された“ＰｒｅＦＥｓｔ”）を使って推定された音高および調波成分を利用する手法が考えられる。なお、ＰｒｅＦＥｓｔとは、原盤波形データにおいて最も優勢な音声波形をボーカルデータとみなしてボーカルの音高（即ち、基本周波数）および調波成分の大きさを推定する手法である。

さらに、制御部６は、Ｓ１３０にて時間調整が実施されたＭＩＤＩ楽曲ＭＤ（以下、「調整済ＭＩＤＩ」と称す）と、Ｓ１５０で抽出したボーカルデータとに基づいて、そのボーカルデータにおいて、歌唱旋律を構成する各音符ＮＯ（ａ，ｉ）に対応する区間（以下、「音符ボーカル」と称す）Ｖｏ（ａ，ｉ）を特定する（Ｓ１６０）。本実施形態のＳ１６０では、制御部６は、Ｓ１５０で抽出したボーカルデータに、調整済ＭＩＤＩにおける演奏開始タイミング及び演奏終了タイミングを照合することで、音符ボーカルＶｏ（ａ，ｉ）を特定すれば良い。なお、符号ａは、楽曲を識別する符号であり、符号ｉは、楽曲における歌唱旋律の音符ＮＯを識別する符号である。

さらに、特徴量算出処理では、制御部６は、音符ボーカルＶｏ（ａ，ｉ）のそれぞれに、複数の分析窓を設定する（Ｓ１７０）。このＳ１７０での分析窓の設定では、制御部６は、複数個の分析窓が時間軸に沿って互いに隣接するように設定する。この分析窓は、音符ＮＯ（ａ，ｉ）の時間長よりも短い時間長を有した区間である。また、以下では、１つの音符ボーカルＶｏ（ａ，ｉ）に設定される分析窓の個数を「Ｌ」とする。

続いて、制御部６は、音符ボーカルＶｏ（ａ，ｉ）における振幅の音符ＮＯ（ａ，ｉ）に対応する区間内での推移を表す歌唱振幅ベクトルＡ（ａ，ｉ）を算出する（Ｓ１８０）。具体的には、Ｓ１８０では、制御部６は、まず、図３（Ａ）に示すように、Ｓ１７０にて設定された分析窓それぞれにおける音符ボーカルＶｏ（ａ，ｉ）の振幅値を算出する。そして、制御部６は、それらの分析窓ごとに算出された振幅値を時間軸に沿って配置することで、振幅値の配列を生成し、その振幅値の配列を歌唱振幅ベクトルＡ（ａ，ｉ）として算出する。さらに、制御部は、歌唱振幅ベクトルＡ（ａ，ｉ）に、音符ボーカルＶｏ（ａ，ｉ）に設定された分析窓の個数Ｌを対応付ける。なお、Ｓ１８０において算出する分析窓ごとの振幅は、例えば、各分析窓内での音符ボーカルＶｏ（ａ，ｉ）の離散値を、相加平均したものであっても良い。

さらに、特徴量算出処理では、制御部６は、音符ボーカルＶｏ（ａ，ｉ）における基本周波数の音符ＮＯ（ａ，ｉ）に対応する区間内での推移を表す歌唱音高ベクトルＦ（ａ，ｉ）を算出する（Ｓ１９０）。このＳ１９０では、制御部６は、まず、図３（Ｂ）に示すように、Ｓ１７０にて設定された分析窓それぞれにおける音符ボーカルＶｏ（ａ，ｉ）の基本周波数ｆ０を算出する。そして、制御部６は、それらの分析窓ごとに算出された基本周波数ｆ０を時間軸に沿って配置することで、基本周波数ｆ０の配列を生成し、その基本周波数ｆ０の配列を歌唱音高ベクトルＦ（ａ，ｉ）として算出する。さらに、制御部６は、音符ボーカルＶｏ（ａ，ｉ）に設定された分析窓の数Ｌを、歌唱音高ベクトルＦ（ａ，ｉ）に対応付ける。本実施形態における基本周波数ｆ０の算出手法として、種種の周知の手法が考えられる。一例として、Ｓ１９０では、制御部６は、音符ボーカルＶｏ（ａ，ｉ）に設定された分析窓それぞれについて、周波数解析（例えば、ＤＦＴ）を実施し、自己相関の結果、最も強い周波数成分を基本周波数ｆ０とすることが考えられる。

このＳ１８０にて算出される歌唱振幅ベクトルＡ及びＳ１９０にて算出される歌唱音高ベクトルＦのうちの少なくともいずれか一方が、特許請求の範囲に記載の特徴変化量の一例である。

さらに、特徴量算出処理では、制御部６は、各音符ボーカルＶｏ（ａ，ｉ）での複数の歌唱技巧についての評価を表す技巧特徴量Ｓ（ａ，ｉ）を決定する（Ｓ２００）。ここで言う複数の歌唱技巧には、少なくとも“ビブラート”，“ため”，“しゃくり”，“フォール”，“こぶし”を含む。

このうち、“ビブラート”についての技巧特徴量（以下、「ビブラート特徴量」と称す）ｖｉｂの算出では、制御部６は、まず、音符ボーカルＶｏ（ａ，ｉ）それぞれについて周波数解析（ＤＦＴ）を実施する。そして、制御部６は、下記（１）式に従って、ビブラート特徴量ｖｉｂを算出する。

ｖｉｂ（ａ，ｉ）＝ｖｉｂ＿ｐｅｒ（ａ，ｉ）×ｖｉｐ＿ｄｅｐ（ａ，ｉ）（１）
ただし、上記（１）式におけるｖｉｂ＿ｐｅｒ（ａ，ｉ）は、各音符ボーカルＶｏ（ａ，ｉ）におけるスペクトルピークの突出精度を表す指標である。このｖｉｂ＿ｐｅｒは、周波数解析結果（即ち、振幅スペクトル）のピーク値を、周波数解析結果の平均値で除すことで求めれば良い。また、上記（１）式におけるｖｉｐ＿ｄｅｐは、各音符ボーカルＶｏ（ａ，ｉ）の標準偏差である。

“ため”についての技巧特徴量（以下、「ため特徴量」と称す）ｔｔ（ａ，ｉ）の算出では、制御部６は、まず、伴奏データにおける非調波成分の音声波形をリズム楽器の演奏音波形として抽出する。非調波成分の抽出手法として、周知の手法を用いれば良い。具体的な手法の例としては、非調波成分の音声波形を表すフィルタとして予め用意されたフィルタに伴奏音データを通過させることが考えられる。

さらに、ため特徴量ｔｔ（ａ，ｉ）の算出では、制御部６は、リズム楽器の演奏音波形において、音圧が規定値以上となるタイミングを拍の位置として推定する。続いて、制御部６は、楽曲の歌唱旋律を構成する音符の中で、音価が最も短い音符（以下、「最短音符」と称す）を抽出する。そして、制御部６は、抽出した最短音符の音価にて拍の位置の間隔を除すことで、発声タイミングを特定する。ここで言う発声タイミングとは、各音符ＮＯ（ａ，ｉ）に対してボーカルデータにおいて歌唱を開始する可能性のあるタイミングである。

ため特徴量ｔｔ（ａ，ｉ）の算出では、さらに、制御部６は、規定条件を満たす発声タイミングを特定する。ここで言う規定条件を満たすとは、各音符（ａ，ｉ）の演奏開始タイミングｎｎｔ（ａ，ｉ）よりも遅い発声タイミングであって、かつ、演奏開始タイミングｎｎｔ（ａ，ｉ）から減算した値の絶対値が最小となる発声タイミングである。そして、特定した発声タイミングを演奏開始タイミングｎｎｔ（ａ，ｉ）から減算した時間長を、ため特徴量ｔｔ（ａ，ｉ）として算出する。

“しゃくり”についての技巧特徴量（以下、「しゃくり特徴量」と称す）ｒｉｓｅ（ａ，ｉ）の算出では、制御部６は、まず、ボーカルデータの音高時間変化を微分した微分変化を算出する。続いて、制御部６は、各音符ＮＯ（ａ，ｉ）の演奏開始タイミングｎｎｔ（ａ，ｉ）以前で、微分変化が時間軸に沿って正の値となったタイミングを特定する。さらに、制御部６は、その特定した各タイミングから演奏開始タイミングｎｎｔ（ａ，ｉ）までの区間におけるボーカルデータの音高時間変化と予め規定された模範曲線との相互相関値を、しゃくり特徴量ｒｉｓｅ（ａ，ｉ）として算出する。

“フォール”についての技巧特徴量（以下、「フォール特徴量」と称す）ｆａｌｌ（ａ，ｉ）の算出では、制御部６は、各音符ＮＯ（ａ，ｉ）の演奏終了タイミングｎｆｔ（ａ，ｉ）以降で、微分変化が時間軸に沿って正の値となった最初のタイミングを特定する。さらに、制御部６は、歌唱旋律を構成する各音符ＮＯ（ａ，ｉ）の演奏終了タイミングｎｆｔ（ａ，ｉ）から、その特定したタイミングまでの区間におけるボーカルデータの音高時間変化と、予め規定された模範曲線との相互相関値を、フォール特徴量ｆａｌｌ（ａ，ｉ）として算出する。

“こぶし”についての技巧特徴量（以下、「こぶし特徴量」と称す）ｋｏｂ（ａ，ｉ）の算出では、制御部６は、まず、こぶし区間を特定する。ここで言うこぶし区間とは、複数の音高に渡る各音符ＮＯを同一母音で音高を変化させながら歌っている区間である。

このため、こぶし特徴量ｋｏｂ（ａ，ｉ）の算出では、制御部６は、同一母音で発声された区間（以下、「同一母音区間」と称す）を特定する。この同一母音区間の特定方法として、各音符ボーカルＶｏ（ａ，ｉ）のメル周波数ケプストラム（ＭＦＣＣ）の平均値の類似性を相互相関で算出し、相互相関値が閾値以上である音符ボーカルＶｏを同一母音区間として特定する方法を用いる。

また、制御部６は、同一母音区間において、設定条件を満たす同一母音区間だけをこぶし区間として特定する。ここで言う設定条件を満たすとは、時間軸に沿って隣接する音符ボーカルＶｏ（ａ，ｉ−１）に対応する音符ＮＯ（ａ，ｉ−１）の演奏終了タイミングｎｆｔ（ａ，ｉ−１）と演奏開始タイミングｎｎｔ（ａ，ｉ）との時間間隔が閾値以下であり、かつ、隣接する音符ボーカルＶｏの音高が全て異なることである。

そして、こぶし特徴量ｋｏｂ（ａ，ｉ）の算出では、制御部６は、こぶし区間におけるボーカルデータからクロマベクトルを算出する。さらに、制御部６は、同こぶし区間における伴奏データのクロマベクトルを算出し、ボーカルデータのクロマベクトルとの相互相関値をこぶし特徴量ｋｏｂ（ａ，ｉ）として算出する。

続いて、特徴量算出処理では、制御部６は、各音符ボーカルＶｏ（ａ，ｉ）における歌手の声質を表す声質特徴量Ｍ（ａ，ｉ）を算出する（Ｓ２１０）。このＳ２１０では、制御部６は、まず、Ｓ１７０にて設定された音符ボーカルＶｏ（ａ，ｉ）の分析窓それぞれについて、周波数解析（例えば、ＤＦＴ）を実施する。制御部６は、周波数解析の結果（周波数スペクトル）に対してケプストラム分析を実行することで、各分析窓のメル周波数ケプストラム（ＭＦＣＣ）を算出する。そして、制御部６は、分析窓ごとのメル周波数ケプストラム（ＭＦＣＣ）を、音符ＮＯ（ａ，ｉ）に設定された全ての分析窓に渡って相加平均し、その相加平均の結果を声質特徴量Ｍ（ａ，ｉ）として算出する。

さらに、特徴量算出処理では、制御部６は、各音符ボーカルＶｏ（ａ，ｉ）に対応する音符ＮＯ（ａ，ｉ）の音符プロパティｐ（ａ，ｉ）を特定する（Ｓ２２０）。本実施形態のＳ２２０では、具体的には、制御部６は、取得ＭＩＤＩから、その取得ＭＩＤＩに規定された各音符ＮＯ（ａ，ｉ）の情報を音符プロパティｐ（ａ，ｉ）として抽出して特定する。

ここで言う音符プロパティｐ（ａ，ｉ）には、対象音符属性と、前音符属性と、後音符属性とを含む。対象音符属性とは、音符ＮＯ（ａ，ｉ）の属性を表す情報である。この対象音符属性には、音符ＮＯ（ａ，ｉ）の音階（音高）、音符長（第１時間長の一例）、歌詞の音節、及び歌詞の母音を含む。また、前音符属性とは、時間軸に沿って音符ＮＯ（ａ，ｉ）の一つ前の音符（以下、前音符と称す）ＮＯ（ａ，ｉ−１）の属性を表す情報である。この前音符属性には、前音符ＮＯ（ａ，ｉ−１）の音階（音高）、音符長、歌詞の音節、及び前音符ＮＯ（ａ，ｉ−１）と音符ＮＯ（ａ，ｉ）との間の時間長を含む。

さらに、後音符属性とは、時間軸に沿って対象音符ＮＯ（ａ，ｉ）の一つ後の音符（以下、後音符と称す）ＮＯ（ａ，ｉ＋１）の属性を表す情報である。この後音符属性には、音階（音高）、音符長、歌詞の音節、及び音符ＮＯ（ａ，ｉ）と後音符ＮＯ（ａ，ｉ＋１）との間の時間長（特許請求の範囲における第２時間長の一例）を含む。

なお、音符プロパティｐ（ａ，ｉ）における音符長、及び音符間の時間長は、予め規定された階級へと量子化されていても良い。
特徴量算出処理では、続いて、制御部６は、Ｓ２２０で特定した各音符ＮＯ（ａ，ｉ）の音符プロパティｐ（ａ，ｉ）を、対応する音符ＮＯ（ａ，ｉ）の歌唱振幅ベクトルＡ（ａ，ｉ）、歌唱音高ベクトルＦ（ａ，ｉ）、及び技巧特徴量Ｓ（ａ，ｉ）と対応付ける（Ｓ２３０）。

さらに、特徴量算出処理では、制御部６は、Ｓ１０５にて取得した歌手ＩＤが対応付けられた楽曲のうち、予め設定された設定条件を満たす全楽曲について、Ｓ１１０からＳ２３０のステップを完了したか否かを判定する（Ｓ２４０）。ここで言う設定条件とは、Ｓ１０５にて取得した歌手ＩＤが対応付けられ、楽曲データＷＤとＭＩＤＩ楽曲ＭＤとの双方が用意されていることである。

このＳ２４０での判定の結果、設定条件を満たす全楽曲について、Ｓ１１０からＳ２３０のステップを完了していなければ（Ｓ２４０：ＮＯ）、制御部６は、特徴量算出処理をＳ１１０へと戻す。そして、制御部６は、Ｓ１０５にて指定された歌手ＩＤが対応付けられた楽曲データＷＤの中から、新たな楽曲データＷＤを取得し（Ｓ１１０）、さらに、その楽曲データＷＤに対応するＭＩＤＩ楽曲ＭＤを取得して（Ｓ１２０）、Ｓ１３０からＳ２４０のステップを実行する。

一方、Ｓ２４０での判定の結果、全楽曲について、Ｓ１１０からＳ２３０のステップを完了していれば（Ｓ２４０：ＹＥＳ）、制御部６は、特徴量算出処理をＳ２５０へと移行させる。

そのＳ２５０では、制御部６は、歌唱振幅ベクトルＡ（ａ，ｉ）、歌唱音高ベクトルＦ（ａ，ｉ）、声質特徴量Ｍ（ａ，ｉ）、及び技巧特徴量Ｓ（ａ，ｉ）のそれぞれについて、対応付けられた音符プロパティｐが共通するものごとに代表値を算出する。

すなわち、本実施形態のＳ２５０では、制御部６は、対象音符属性と前音符属性と後音符属性との全てが共通する音符ＮＯにおける歌唱振幅ベクトルＡ及び分析窓の個数Ｌの相加平均を算出する。そして、制御部６は、対象音符属性と前音符属性と後音符属性との全てが共通する音符ＮＯごとの歌唱振幅ベクトルＡ及び分析窓の個数Ｌの相加平均の結果それぞれを、歌唱振幅ベクトルＡ及び分析窓の代表値とする。

また、制御部６は、対象音符属性と前音符属性と後音符属性との全てが共通する音符ＮＯにおける歌唱音高ベクトルＦ及び分析窓の個数Ｌの相加平均を算出する。そして、制御部６は、対象音符属性と前音符属性と後音符属性との全てが共通する音符ＮＯごとの歌唱音高ベクトルＦ及び分析窓の個数Ｌの相加平均の結果それぞれを、歌唱音高ベクトルＦ及び分析窓の代表値とする。

また、制御部６は、対象音符属性と前音符属性と後音符属性との全てが共通する音符ＮＯにおける声質特徴量Ｍの相加平均を算出する。そして、制御部６は、対象音符属性と前音符属性と後音符属性との全てが共通する音符ＮＯごとの声質特徴量Ｍの相加平均の結果それぞれを声質特徴量Ｍの代表値とする。ただし、ここで言う「対象音符属性と前音符属性と後音符属性との全てが共通」には、歌詞の音節だけが不一致である場合を含む。

また、制御部６は、対象音符属性と前音符属性と後音符属性との全てが共通する音符ＮＯにおける技巧特徴量Ｓそれぞれの相加平均を算出する。そして、制御部６は、対象音符属性と前音符属性と後音符属性との全てが共通する音符ＮＯごとの技巧特徴量Ｓそれぞれの相加平均の結果それぞれを、技巧特徴量Ｓの代表値とする。

このＳ２５０にて代表値として算出する相加平均は、歌唱振幅ベクトルＡ（ａ，ｉ）、歌唱音高ベクトルＦ（ａ，ｉ）、声質特徴量Ｍ（ａ，ｉ）、及び技巧特徴量Ｓ（ａ，ｉ）を算出した全ての楽曲の範囲内で実施する。なお、Ｓ２５０において算出する代表値は、相加平均の結果に限るものではなく、中央値や最頻値であっても良い。

続いて、制御部６は、Ｓ２５０にて算出された歌唱振幅ベクトルＡ、歌唱音高ベクトルＦ、分析窓の個数Ｌ、声質特徴量Ｍ、及び技巧特徴量Ｓのそれぞれの代表値を、対応する音符プロパティｐ及び歌手ＩＤと対応付けることで、第１評価データＳＦを生成して記憶部５に記憶する（Ｓ２６０）。

その後、制御部６は、本特徴量算出処理を終了する。つまり、特徴量算出処理では、歌手の歌い方における特徴を表す第１評価データＳＦを歌手ごとに生成する。この特徴量算出処理にて生成される第１評価データＳＦは、図４に示すように、歌手の歌手ＩＤごとに、共通する音符プロパティｐごとの歌唱振幅ベクトルＡ、歌唱音高ベクトルＦ、声質特徴量Ｍ、及び技巧特徴量Ｓのそれぞれの代表値と、その共通する音符プロパティｐが対応付けられたものである。

なお、情報処理装置３の制御部６が特徴量算出処理を実行することで生成される第１評価データＳＦは、可搬型の記憶媒体を用いて情報処理サーバ１０の記憶部１４に記憶されても良い。情報処理装置３と情報処理サーバ１０とが通信網を介して接続されている場合には、情報処理装置３の記憶部５に記憶された第１評価データＳＦは、その通信網を介して転送されることで、情報処理サーバ１０の記憶部１４に記憶されても良い。

＜評価データ生成処理＞
この評価データ生成処理では、起動されると、図５に示すように、制御部１６が、評価の対象とすべき歌手の歌手ＩＤを取得する（Ｓ３１０）。このＳ３１０にて制御部１６が取得する歌手ＩＤは、カラオケ採点処理のＳ５２０（詳しくは後述）にて指定された歌手に対応するものであっても良いし、情報処理サーバ１０に接続された入力装置（図示せず）を介して入力されたものであっても良い。

続いて、評価の対象とすべき楽曲の楽曲ＩＤを取得する（Ｓ３２０）。このＳ３１０にて制御部１６が取得する歌手ＩＤは、カラオケ採点処理のＳ５２０（詳しくは後述）にて指定された楽曲に対応するものであっても良いし、情報処理サーバ１０に接続された入力装置（図示せず）を介して入力されたものであっても良い。

さらに、評価データ生成処理では、制御部１６は、記憶部１４に記憶されている全てのＭＩＤＩ楽曲ＭＤの中から、Ｓ３２０で取得した楽曲ＩＤに対応するＭＩＤＩ楽曲ＭＤを取得する（Ｓ３３０）。

続いて、制御部１６は、Ｓ３１０にて取得したＭＩＤＩ楽曲ＭＤのメロディトラックを分析し、そのメロディトラックを構成する各音符ＮＯ（ｂ，ｉ）の音符プロパティｐ（ｂ，ｉ）を特定する（Ｓ３４０）。ここでの符号ｂは、Ｓ３１０にて取得したＭＩＤＩ楽曲ＭＤに対応する楽曲を識別する符号である。

そして、評価データ生成処理では、制御部１６は、Ｓ３１０にて取得した歌手ＩＤが対応付けられた第１評価データＳＦを、記憶部１４から取得する（Ｓ３５０）。続いて、制御部１６は、Ｓ３４０での分析によって特定されたＭＩＤＩ楽曲ＭＤのメロディトラックを構成する各音符ＮＯ（ｂ，ｉ）に、Ｓ３５０にて取得した第１評価データを構成する各種情報を対応付けることで、第２評価データＭＳを生成する（Ｓ３６０）。ここで言う各種情報とは、特定の条件を満たす歌唱振幅ベクトルＡ、歌唱音高ベクトルＦ、分析窓の個数Ｌ、声質特徴量Ｍ、及び技巧特徴量Ｓのそれぞれの代表値である。さらに、ここで言う特定の条件とは、各音符ＮＯ（ｂ，ｉ）における音符プロパティｐ（ｂ，ｉ）と一致する音符プロパティｐが対応付けられていることである。

なお、第１評価データＳＦの中に、特定の条件を満たす第１評価データＳＦが存在しないことも考えられる。この場合には、Ｓ３６０では、制御部６は、その音符ＮＯ（ｂ，ｉ）の音符プロパティｐ（ｂ，ｉ）に近接する音符プロパティｐが対応付けられた歌唱振幅ベクトルＡ、歌唱音高ベクトルＦ、分析窓の個数Ｌ、声質特徴量Ｍ、及び技巧特徴量Ｓのそれぞれの代表値を、その音符ＮＯ（ｂ，ｉ）に割り当てれば良い。ここで言う近接する音符プロパティｐとは、例えば、音階が一音違う、音符長が１階級違うことなどである。また、上記の方法とは別に、制御部６は、時間及び周波数の２つの軸について、両隣の２つの音符ＮＯ（ｂ，ｉ−１），ＮＯ（ｂ，ｉ＋１）に対応する歌唱振幅ベクトルＡ、歌唱音高ベクトルＦ、分析窓の個数Ｌ、声質特徴量Ｍ、及び技巧特徴量Ｓのそれぞれの代表値を平均した値を、その音符ＮＯ（ｂ，ｉ）に割り当てても良い。

さらに、Ｓ３６０では、制御部１６は、Ｓ３５０にて取得した第１評価データＳＦにおける歌手ＩＤを、生成した第２評価データＭＳに対応付けて記憶部１４に記憶する。
その後、本評価データ生成処理を終了する。

つまり、評価データ生成処理では、図６に示すように、ＭＩＤＩ楽曲ＭＤにおける歌唱旋律を構成する各音符ＮＯ（ｂ，ｉ）に、その音符ＮＯ（ｂ，ｉ）の音符プロパティｐと共通する音符プロパティｐが対応付けられた歌唱振幅ベクトルＡ、歌唱音高ベクトルＦ、声質特徴量Ｍ、及び技巧特徴量Ｓのそれぞれの代表値を割り当てることで、第２評価データＭＳを生成する。この第２評価データＭＳは、カラオケ装置３０のユーザによって指定された歌手ごと、かつ、ユーザによって指定された楽曲ごとに生成される。

＜カラオケ採点処理＞
カラオケ採点処理は、カラオケ採点処理を実行するための処理プログラムを起動する指令が入力されると起動される。

そして、カラオケ採点処理では、起動されると、図７に示すように、制御部５０は、まず、入力受付部３４を介して指定された歌手に対応する歌手ＩＤを取得する（Ｓ５１０）。制御部５０は、このＳ５１０にて制御部５０が取得した歌手ＩＤを、情報処理サーバ１０に出力し、評価データ生成処理におけるＳ３１０にて制御部１６に取得させても良い。

続いて、入力受付部３４を介して指定された楽曲に対応する楽曲ＩＤを取得する（Ｓ５２０）。制御部５０は、Ｓ５２０にて制御部５０が取得した楽曲ＩＤを、情報処理サーバ１０に出力し、評価データ生成処理におけるＳ３２０にて制御部１６に取得させても良い。

続いて、制御部５０は、Ｓ５２０にて取得した楽曲ＩＤに対応するＭＩＤＩ楽曲ＭＤを、情報処理サーバ１０の記憶部１４から取得する（Ｓ５３０）。さらに、制御部５０は、Ｓ５３０にて取得したＭＩＤＩ楽曲ＭＤを演奏する（Ｓ５４０）。具体的にＳ５４０では、制御部５０は、楽曲再生部３６にＭＩＤＩ楽曲ＭＤを出力し、そのＭＩＤＩ楽曲ＭＤを取得した楽曲再生部３６は、楽曲の演奏を行う。そして、楽曲再生部３６によって演奏された楽曲の音源信号が、出力部４２を介してスピーカ６０へと出力される。すると、スピーカ６０は、音源信号を音に換えて出力する。

さらに、カラオケ採点処理では、制御部５０は、マイク６２及びマイク入力部４４を介して入力された音声を音声データとして取得する（Ｓ５５０）。そして、制御部５０は、Ｓ５３０にて取得した音声データを記憶部３８に記憶する（Ｓ５６０）。

続いて、カラオケ採点処理では、制御部５０は、楽曲の演奏を終了したか否かを判定する（Ｓ５７０）。この判定の結果、楽曲の演奏を終了していなければ（Ｓ５７０：ＮＯ）、制御部５０は、カラオケ採点処理をＳ５５０へと戻す。一方、Ｓ５７０での判定の結果、楽曲の演奏が終了していれば（Ｓ５７０：ＹＥＳ）、制御部５０は、カラオケ採点処理をＳ５８０へと移行させる。

そのＳ５８０では、制御部５０は、記憶部３８に記憶されている全ての音声データを取得する。そして、制御部５０は、楽曲における時間軸に沿った音声データから、歌唱旋律を構成する各音符ＮＯ（ｃ，ｉ）を歌唱した区間の歌唱波形（以下、「音符音声データ」と称す）Ｖｏｓ（ｃ，ｉ）それぞれを抽出する（Ｓ５９０）。この音符音声データの特定は、例えば、「ボーカルデータ」を「歌唱データ」へと読み替えた上で、特徴量算出処理におけるＳ１６０と同様の手法を用いれば良い。ここでの符号ｃは、Ｓ５３０にて取得したＭＩＤＩ楽曲ＭＤに対応する楽曲を表す符号である。

続いて、カラオケ採点処理では、制御部５０は、各音符音声データＶｏｓ（ｃ，ｉ）における歌い方の特徴を表す歌唱特徴量を算出する（Ｓ６００）。ここで言う歌唱特徴量とは、歌声振幅ベクトルＡＡ（ｃ，ｉ）と、歌声音高ベクトルＦＦ（ｃ，ｉ）とを含む。この歌声振幅ベクトルＡＡ、及び歌声音高ベクトルＦＦのうちの少なくともいずれか一方は、特許請求の範囲の記載における歌唱変化量の一例である。

このうち、歌声振幅ベクトルＡＡ（ｃ，ｉ）は、音符音声データＶｏｓ（ｃ，ｉ）の振幅の音符ＮＯ（ｃ，ｉ）に対応する区間内での推移を表す。この歌声振幅ベクトルＡＡ（ｃ，ｉ）の算出方法は、「音符ボーカル」を「音符音声データ」へと読み替えた上で、特徴量算出処理におけるＳ１７０，Ｓ１８０と同様の手法を用いれば良い。

歌声音高ベクトルＦＦ（ｃ，ｉ）は、音符音声データの基本周波数の音符ＮＯ（ｃ，ｉ）に対応する区間内での推移を表す。この歌声音高ベクトルＦＦ（ｃ，ｉ）の算出方法は、「音符ボーカル」を「音符音声データ」へと読み替えた上で、特徴量算出処理におけるＳ１７０，Ｓ１９０と同様の手法を用いれば良い。

さらに、カラオケ採点処理では、制御部５０は、各音符音声データＶｏｓ（ｃ，ｉ）におけるユーザの声質を表す歌唱声質ＭＭ（ｃ，ｉ）を算出する（Ｓ６１０）。この歌唱声質ＭＭ（ｃ，ｉ）の算出方法は、「音符ボーカル」を「音符音声データ」へと読み替えた上で、特徴量算出処理におけるＳ１７０，Ｓ２１０と同様の手法を用いれば良い。

続いて、制御部５０は、各音符音声データＶｏｓ（ｃ，ｉ）におけるユーザの歌唱技巧を評価した歌唱技巧量ＳＳ（ｃ，ｉ）を算出する（Ｓ６２０）。この歌唱技巧量ＳＳ（ｃ，ｉ）には、歌声ビブラート特徴量Ｖｖｉｂ（ｃ，ｉ）と、歌声ため特徴量Ｖｔｔ（ｃ，ｉ）と、歌声しゃくり特徴量Ｖｒｉｓｅ（ｃ，ｉ）と、歌声フォール特徴量Ｖｆａｌｌ（ｃ，ｉ）と、こぶし特徴量Ｖｋｏｂ（ｃ，ｉ）とを含む。

このうち、歌声ビブラート特徴量Ｖｖｉｂ（ｃ，ｉ）は、音符音声データＶｏｓ（ｃ，ｉ）における“ビブラート”についての歌唱技巧量である。歌声ため特徴量Ｖｔｔ（ｃ，ｉ）は、音符音声データＶｏｓ（ｃ，ｉ）における“ため”についての歌唱技巧量である。歌声しゃくり特徴量Ｖｒｉｓｅ（ｃ，ｉ）は、音符音声データＶｏｓ（ｃ，ｉ）における“しゃくり”についての歌唱技巧量である。歌声フォール特徴量Ｖｆａｌｌ（ｃ，ｉ）は、音符音声データＶｏｓ（ｃ，ｉ）における“フォール”についての歌唱技巧量である。また、こぶし特徴量Ｖｋｏｂ（ｃ，ｉ）は、音符音声データＶｏｓ（ｃ，ｉ）における“こぶし”についての歌唱技巧量である。

これらの歌声ビブラート特徴量Ｖｖｉｂ（ｃ，ｉ）、歌声ため特徴量Ｖｔｔ（ｃ，ｉ）、歌声しゃくり特徴量Ｖｒｉｓｅ（ｃ，ｉ）、歌声フォール特徴量Ｖｆａｌｌ（ｃ，ｉ）、及びこぶし特徴量Ｖｋｏｂ（ｃ，ｉ）の算出方法は、「ボーカルデータ」を「音声データ」へと、「音符ボーカル」を「音符音声データ」へと読み替えた上で、特徴量算出処理におけるＳ２００と同様の手法を用いれば良い。

カラオケ採点処理では、続いて、制御部５０は、Ｓ５１０にて取得した歌手ＩＤかつＳ５２０にて取得した楽曲ＩＤに対応する第２評価データＭＳを情報処理サーバ１０の記憶部１４から取得する（Ｓ６３０）。続いて、制御部５０は、Ｓ５１０にて取得した歌手ＩＤに対応する歌手が、Ｓ５２０にて取得した楽曲ＩＤに対応する楽曲を歌唱したと想定した場合に表れる、その歌手の歌い方の特徴をユーザが歌唱によって再現して度合いを評価した評価点を算出する（Ｓ６４０）。

このＳ６４０では、制御部５０は、音高正確度、振幅正確度、技巧正確度、及び声質正確度のそれぞれを評価点として算出する。具体的には、制御部５０は、第２評価データＭＳにおける各音符ＮＯ（ｃ，ｉ）の歌唱振幅ベクトルＡ（ｃ，ｉ）と、Ｓ６００にて算出した歌声振幅ベクトルＡＡ（ｃ，ｉ）との相関値を、対応する音符ＮＯ（ｃ，ｉ）ごとに算出する。そして、制御部５０は、音符ＮＯ（ｃ，ｉ）ごとに算出した相関値の全ての音符ＮＯに渡る相加平均を振幅正確度として算出する。つまり、振幅正確度は、プロの歌手が楽曲ｃを歌唱した場合に表れると推定される音符ＮＯ（ｃ，ｉ）に対応する区間内での音圧の推移に、ユーザの音符ＮＯ（ｃ，ｉ）に対応する区間内での音圧の推移が類似するほど、高い値となる。

また、制御部５０は、第２評価データＭＳにおける各音符ＮＯ（ｉ）の歌唱音高ベクトルＦ（ｃ，ｉ）と、Ｓ６００にて算出した歌声音高ベクトルＦＦ（ｃ，ｉ）との相関値を、対応する音符ＮＯ（ｃ，ｉ）ごとに算出する。そして、制御部５０は、音符ＮＯ（ｃ，ｉ）ごとに算出した相関値の全ての音符ＮＯに渡る相加平均を音高正確度として算出する。つまり、音高正確度は、プロの歌手が楽曲ｃを歌唱した場合に表れると推定される音符ＮＯ（ｃ，ｉ）に対応する区間内での基本周波数ｆ０の推移に、ユーザの音符ＮＯ（ｃ，ｉ）に対応する区間内での基本周波数ｆ０の推移が類似するほど、高い値となる。

さらに、制御部５０は、第２評価データＭＳにおける各音符ＮＯ（ｃ，ｉ）のビブラート特徴量ｖｉｂ（ｃ，ｉ）と、Ｓ６３０にて算出した歌声ビブラート特徴量Ｖｖｉｂ（ｃ，ｉ）との相関値を、対応する音符ＮＯ（ｃ，ｉ）ごとに算出する。そして、制御部５０は、音符ＮＯ（ｃ，ｉ）ごとに算出した相関値の全ての音符ＮＯに渡る相加平均を、技巧正確度のうちの“ビブラート”に関する評価として算出する。

制御部５０は、第２評価データＭＳにおける各音符ＮＯ（ｉ）のため特徴量ｔｔ（ｃ，ｉ）と、Ｓ６３０にて算出した歌声ため特徴量Ｖｔｔ（ｃ，ｉ）との相関値を、対応する音符ＮＯ（ｃ，ｉ）ごとに算出する。そして、制御部５０は、音符ＮＯ（ｃ，ｉ）ごとに算出した相関値の全ての音符ＮＯに渡る相加平均を、技巧正確度のうちの“ため”に関する評価として算出する。

制御部５０は、第２評価データＭＳにおける各音符ＮＯ（ｉ）のしゃくり特徴量ｒｉｓｅ（ｃ，ｉ）と、Ｓ６３０にて算出した歌声しゃくり特徴量Ｖｒｉｓｅ（ｃ，ｉ）との相関値を、対応する音符ＮＯ（ｃ，ｉ）ごとに算出する。そして、制御部５０は、音符ＮＯ（ｃ，ｉ）ごとに算出した相関値の全ての音符ＮＯに渡る相加平均を、技巧正確度のうちの“しゃくり”に関する評価として算出する。

制御部５０は、第２評価データＭＳにおける各音符ＮＯ（ｉ）のフォール特徴量ｆａｌｌ（ｃ，ｉ）と、Ｓ６３０にて算出した歌声フォール特徴量Ｖｆａｌｌ（ｃ，ｉ）との相関値を、対応する音符ＮＯ（ｃ，ｉ）ごとに算出する。そして、制御部５０は、音符ＮＯ（ｃ，ｉ）ごとに算出した相関値の全ての音符ＮＯに渡る相加平均を、技巧正確度のうちの“フォール”に関する評価として算出する。

なお、Ｓ６４０においては、制御部５０は、第２評価データＭＳにおける各音符ＮＯ（ｉ）のこぶし特徴量ｋｏｂ（ｃ，ｉ）と、Ｓ６３０にて算出したこぶし特徴量Ｖｋｏｂ（ｃ，ｉ）との相関値を、対応する音符ＮＯ（ｃ，ｉ）ごとに算出する。そして、制御部５０は、音符ＮＯ（ｃ，ｉ）ごとに算出した相関値の全ての音符ＮＯに渡る相加平均を、技巧正確度のうちの“こぶし”に関する評価として算出する。

さらに、Ｓ６４０においては、第２評価データＭＳにおける各音符ＮＯ（ｃ，ｉ）の声質特徴量Ｍ（ｃ，ｉ）と、Ｓ６１０にて算出した歌唱声質ＭＭ（ｃ，ｉ）との相関値を、対応する音符ＮＯ（ｃ，ｉ）ごとに算出する。そして、制御部５０は、音符ＮＯ（ｃ，ｉ）ごとに算出した相関値の全ての音符ＮＯに渡る相加平均を声質正確度として算出する。つまり、声質正確度は、プロの歌手が楽曲ｃを歌唱した場合に表れると推定される声質にユーザの声質が類似するほど、高い値となる。

そして、制御部５０は、Ｓ６００にて算出した音高正確度、振幅正確度、声質正確度、及び技巧正確度のそれぞれを表示部６４に表示させる（Ｓ６５０）。Ｓ６５０での表示は、制御部５０が、映像制御部４６を介して表示部６４に対して制御信号を出力することで実現する。

その後、本カラオケ採点処理を終了し、次の起動タイミングまで待機する。つまり、カラオケ採点処理では、制御部５０は、ユーザに指定された楽曲を演奏する。これと共に、カラオケ採点処理では、制御部５０は、楽曲の演奏中に入力された音声データを解析して歌唱特徴量（即ち、歌声振幅ベクトルＡＡ、及び歌声音高ベクトルＦＦ）、歌唱声質ＭＭ、及び歌唱技巧量ＳＳを算出する。さらに、カラオケ採点処理では、制御部５０は、歌声振幅ベクトルＡＡと歌唱振幅ベクトルＡとの相関値を振幅正確度として算出する。また、カラオケ採点処理では、制御部５０は、歌声音高ベクトルＦＦと歌唱音高ベクトルＦとの相関値を音高正確度として算出する。さらに、カラオケ採点処理では、制御部５０は、歌唱声質ＭＭと声質特徴量Ｍとの相関値を声質正確度として算出する。カラオケ採点処理では、制御部５０は、歌唱技巧量ＳＳと技巧特徴量Ｓとの相関値を技巧正確度として算出する。
［実施形態の効果］
以上説明したように、特徴量算出処理が実行されることで算出される歌唱振幅ベクトルＡ（ａ，ｉ）は、音符ボーカルＶｏ（ａ，ｉ）の振幅が音符ＮＯ（ａ，ｉ）に対応する区間内で推移したものである。また、特徴量算出処理が実行されることで算出される歌唱音高ベクトルＦ（ａ，ｉ）は、音符ボーカルＶｏ（ａ，ｉ）の基本周波数ｆ０が音符ＮＯ（ａ，ｉ）に対応する区間内で推移したものである。

これらの歌唱振幅ベクトルＡ及び歌唱音高ベクトルＦには、その楽曲ａを歌唱した人物の歌い方の特徴が表れる。また、特徴量算出処理が実行されることで算出される声質特徴量Ｍ（ａ，ｉ）は、音符ボーカルＶｏ（ａ，ｉ）におけるメル周波数ケプストラム（ＭＦＣＣ）であり、その楽曲ａを歌唱した人物の各音符における声質を表す。

つまり、特徴量算出処理によれば、特徴量算出処理を実行することで生成される第１評価データＳＦを、楽曲ａを歌唱した歌手特有の歌い方の特徴に加えて、歌手特有の声質を表したものとすることができる。

さらに、特徴量算出処理では、音符プロパティｐが一致する音符ＮＯごとに、歌唱振幅ベクトルＡ、歌唱音高ベクトルＦ、及び声質特徴量Ｍの代表値を求めて、その歌唱振幅ベクトルＡ、歌唱音高ベクトルＦ、及び声質特徴量Ｍの代表値を第１評価データＳＦとしている。このため、特徴量算出処理によれば、第１評価データＳＦのデータ量を低減できる。

ところで、楽曲においては、音高及び音価の組み合わせが一致する複数の音符に対して異なる歌詞が割り当てられていることがある。この場合、楽曲を歌唱した歌手は、音符と歌詞との組み合わせによって、歌唱の方法が異なる可能性が高い。

このため、特徴量算出処理では、音符プロパティｐに、音符ＮＯの音高と音符長とに加えて、歌詞の音節や歌詞の母音を含んでいる。このように、音符プロパティｐに歌詞に関する情報を含むことで、特徴量算出処理では、音符ＮＯの音高と音符長と歌詞の音節と歌詞の母音との組み合わせが一致する音符ごとに、歌唱振幅ベクトルＡ及び歌唱音高ベクトルＦの代表値を算出できる。

また、前音符ＮＯ（ａ，ｉ−１）から音符ＮＯ（ａ，ｉ）へとボーカルデータが切り替わった場合や、音符ＮＯ（ａ，ｉ）から後音符ＮＯ（ａ，ｉ＋１）へとボーカルデータが切り替わった場合には、それらの音符ＮＯの組み合わせごとに、歌唱振幅ベクトルＡ及び歌唱音高ベクトルＦが異なる。

このため、特徴量算出処理では、対象音符属性に加えて前音符属性及び後音符属性を、音符プロパティｐに含んでいる。このように前音符属性及び後音符属性を音符プロパティｐに含むことで、特徴量算出処理によれば、代表値を求める対象を共通の音符群とすることができる。

これらの結果、特徴量算出処理によれば、歌手の歌い方のより細かな特徴の表現を評価可能な第１評価データＳＦを求めることができる。また、評価データ生成処理における第２評価データＭＳの生成方法は、カラオケ装置３０のユーザによって指定されたＭＩＤＩ楽曲ＭＤにおける歌唱旋律を構成する各音符ＮＯ（ｂ，ｉ）に、カラオケ装置３０のユーザによって指定された歌手ＩＤが対応付けられた第１評価データＳＦであって、音符ＮＯ（ｂ，ｉ）の音符プロパティｐと共通する音符プロパティｐが対応付けられた歌唱振幅ベクトルＡ、歌唱音高ベクトルＦ、及び声質特徴量Ｍの代表値を割り当てることである。

このような評価データ生成処理によれば、ユーザによって指定された歌手が、ユーザによって指定された楽曲を歌唱した場合に表れると想定される、その歌手の歌い方の特徴を表した第２評価データを生成できる。

そして、第２評価データを用いて歌唱を評価するカラオケ採点処理によれば、ユーザによって指定された歌手が、ユーザによって指定された楽曲を歌唱した場合に表れると想定される、その歌手の歌い方の特徴を、ユーザが表現している度合い、即ち、ユーザによる物まねの程度を評価できる。

特に、カラオケ採点処理によれば、音声データにおける振幅または基本周波数の各音符における推移が、ユーザによって指定された歌手が歌唱した場合に表れると想定した場合の特徴に対する類似度合いを評価できる。また、カラオケ採点処理によれば、カラオケ装置３０のユーザが歌った歌唱音声における声質が、ユーザによって指定された歌手が、ユーザによって指定された楽曲を歌唱した場合に表れると想定される、その歌手にどの程度類似しているのかという類似性を評価できる。
［その他の実施形態］
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。

例えば、上記実施形態における特徴量算出処理は、情報処理装置３にて実行されていたが、本発明において特徴量算出処理を実行する装置は、情報処理装置３に限るものではない。すなわち、特徴量算出処理を実行する装置は、情報処理サーバ１０であっても良いし、カラオケ装置３０であっても良い。この場合、情報処理装置３は、システム１から省略されていても良い。

上記実施形態における評価データ生成処理は、情報処理サーバ１０にて実行されていたが、本発明において評価データ生成処理を実行する装置は、情報処理サーバ１０に限るものではなく、情報処理装置３であっても良いし、カラオケ装置３０であっても良い。

上記実施形態におけるカラオケ採点処理は、カラオケ装置３０にて実行されていたが、本発明においてカラオケ採点処理を実行する装置は、カラオケ装置３０に限るものではなく、情報処理装置３であっても良い。

ところで、上記実施形態においては、特徴量算出処理と評価データ生成処理とは別個の処理として構成されていたが、本発明においては、特徴量算出処理と評価データ生成処理とは１つの処理として構成されていても良い。この場合、特徴量算出処理と評価データ生成処理とからなる１つの処理は、情報処理サーバ１０にて実行されても良いし、情報処理装置３にて実行されても良い。

また、上記実施形態においては、評価データ生成処理とカラオケ採点処理とは別個の処理として構成されていたが、本発明においては、評価データ生成処理とカラオケ採点処理とは１つの処理として構成されていても良い。この場合、評価データ生成処理とカラオケ採点処理とからなる１つの処理は、情報処理サーバ１０にて実行されても良いし、カラオケ装置３０にて実行されても良い。

さらには、本発明においては、特徴量算出処理と評価データ生成処理とカラオケ採点処理とが１つの処理として構成されていても良い。この場合、特徴量算出処理と評価データ生成処理とカラオケ採点処理とからなる１つの処理は、情報処理装置３にて実行されても良いし、カラオケ装置３０にて実行されても良い。特徴量算出処理と評価データ生成処理とカラオケ採点処理とからなる１つの処理がカラオケ装置３０にて実行される場合には、情報処理装置３は、システム１から省略されていても良い。

ところで、上記実施形態においては、音符プロパティｐに、対象音符属性、前音符属性、及び後音符属性を含んでいたが、音符プロパティｐには、対象音符属性だけを含んでも良いし、対象音符属性と、前音符属性及び後音符属性のうちのいずれかだけを含んでも良い。

ところで、上記実施形態のカラオケ採点処理におけるＳ６４０では、振幅正確度について、歌声振幅ベクトルＡＡと歌唱振幅ベクトルＡとの相関値を算出することで求めていたが、振幅正確度の算出方法は、これに限るものではなく、歌声振幅ベクトルＡＡと歌唱振幅ベクトルＡとの内積を、振幅正確度としても良い。

上記実施形態のカラオケ採点処理におけるＳ６４０では、音高正確度について、歌声音高ベクトルＦＦと歌唱音高ベクトルＦとの相関値を算出することで求めていたが、音高正確度の算出方法は、これに限るものではなく、歌声音高ベクトルＦＦと歌唱音高ベクトルＦとの内積を、音高正確度としても良い。

上記実施形態のカラオケ採点処理におけるＳ６４０では、声質正確度について、歌唱声質ＭＭと声質特徴量Ｍとの相関値を算出することで求めていたが、声質正確度の算出方法は、これに限るものではなく、歌唱声質ＭＭと声質特徴量Ｍとの内積を、声質正確度としても良い。

上記実施形態のカラオケ採点処理におけるＳ６４０では、技巧正確度について、歌声技巧量ＳＳと技巧特徴量Ｓとの相関値を算出することで求めていたが、技巧正確度の算出方法は、これに限るものではなく、歌声技巧量ＳＳと技巧特徴量Ｓとの内積を、技巧正確度としても良い。

さらに、上記実施形態のカラオケ採点処理におけるＳ６４０では、楽曲における特徴的な技巧が強く表れているほど、大きな点数となるように技巧ごとに予め規定された重みを、技巧正確度のうちの、ビブラートに関する評価、ために関する評価、しゃくりに関する評価、フォールに関する評価、こぶしに関する評価のそれぞれに付与した重み付き演算することで、１つの技巧正確度を算出しても良い。

なお、上記実施形態の構成の一部を、課題を解決できる限りにおいて省略した態様も本発明の実施形態である。また、上記実施形態と変形例とを適宜組み合わせて構成される態様も本発明の実施形態である。また、特許請求の範囲に記載した文言によって特定される発明の本質を逸脱しない限度において考え得るあらゆる態様も本発明の実施形態である。

１…システム３…情報処理装置５，１４，３８…記憶部６，１６，５０…制御部７，１８，５２…ＲＯＭ８，２０，５４…ＲＡＭ９，２２，５６…ＣＰＵ１０…情報処理サーバ１２，３２…通信部３０…カラオケ装置３４…入力受付部３６…楽曲再生部４０…音声制御部４２…出力部４４…マイク入力部４６…映像制御部６０…スピーカ６２…マイク６４…表示部

Claims

楽曲を識別する楽曲識別情報を取得する第１情報取得ステップと、
前記第１情報取得ステップで取得した楽曲識別情報を用いて、音高及び音符長が規定された複数の第１音符から構成される第１楽譜データを、第１記憶部から取得する第１取得ステップと、
歌手を識別する歌手識別情報を取得する第２情報取得ステップと、
複数の第２音符ごとにおける音高及び音符長に対応付けられた特徴変化量であって、ボーカル音を含む楽曲データから抽出されたボーカルデータの振幅と基本周波数との少なくともいずれか一方の推移を表す特徴変化量と、前記歌手識別情報とを対応付けて記憶した第２記憶部から、前記歌手識別情報と対応付けられた前記特徴変化量を取得する第２取得ステップと、
前記第２取得ステップで取得した特徴変化量、及び前記第１取得ステップで取得した第１楽譜データに基づいて、前記第１楽譜データを構成する第１音符に、前記第１音符における音高及び音符長に一致する前記第２音符での特徴変化量を対応付けることで、評価データを生成する生成ステップと、
前記生成ステップで生成した評価データを用いて、音声入力部から取得した音声データを評価する評価ステップと、
をコンピュータに実行させることを特徴とするプログラム。
前記楽曲データを取得する第３取得ステップと、
前記第３取得ステップにより取得された楽曲データから、前記ボーカル音を表すボーカルデータを抽出する抽出ステップと、
音高及び音符長が規定された複数の第２音符から構成される第２楽譜データを取得する第４取得ステップと、
前記第４取得ステップで取得した第２楽譜データに含まれる前記複数の第２音符それぞれの音符長である第１時間長と、前記複数の第２音符間の時間長である第２時間長とに基づいて、前記ボーカルデータの中で、前記複数の第２音符それぞれに対応する音符ボーカルデータを特定する第１特定ステップと、
前記第１特定ステップにより特定された前記音符ボーカルデータに基づいて、前記複数の第２音符それぞれの前記特徴変化量を決定する第１決定ステップと、
前記第１決定ステップにより決定された前記特徴変化量と、前記歌手識別情報とを対応付けて、前記第２記憶部に記憶する記憶制御ステップと、
をさらにコンピュータに実行させることを特徴とする請求項１に記載のプログラム。
前記第２楽譜データには、前記複数の第２音符に割り当てられた歌詞を表す歌詞情報を含み、
前記プログラムは、
前記第４取得ステップで取得した第２楽譜データに含まれる前記複数の第２音符それぞれの音高、前記第１時間長、及び前記歌詞情報と、前記第１決定ステップで決定された特徴変化量とを、対応する前記第２音符に対応付け、
さらに、前記複数の第２音符の中で、前記音高と前記第１時間長と前記歌詞情報との組み合わせが所定の条件を満たす前記第２音符について、前記特徴変化量の代表値を決定する第２決定ステップ、
をコンピュータに実行させ、
前記記憶制御ステップは、
前記第２決定ステップにより決定された前記特徴変化量の代表値と、前記歌手識別情報とを対応付けて前記第２記憶部に記憶させることを特徴とする請求項２に記載のプログラム。
前記第２楽譜データには、前記複数の第２音符に割り当てられた歌詞を表す歌詞情報を含み、
前記プログラムは、
前記第４取得ステップで取得した第２楽譜データに含まれる前記複数の第２音符それぞれの音高、前記第１時間長、前記第２時間長、及び前記歌詞情報と、前記第１決定ステップで決定された特徴変化量とを、対応する前記第２音符ごとに対応付け、
さらに、前記複数の第２音符の中で、前記音高と前記第１時間長と前記第２時間長と前記歌詞情報との組み合わせが所定の条件を満たす前記第２音符について、前記特徴変化量の代表値を決定する第２決定ステップと、
をコンピュータに実行させ、
前記記憶制御ステップは、
前記第２決定ステップにより決定された前記特徴変化量の代表値と、前記歌手識別情報とを対応付けて前記第２記憶部に記憶させることを特徴とする請求項２に記載のプログラム。
前記第１決定ステップは、
前記音符ボーカルデータに、少なくとも２つ以上の分析窓を時間軸に沿って連続するように設定する設定ステップと、
前記設定ステップにより設定された前記分析窓それぞれにおける前記音符ボーカルデータの振幅及び基本周波数の少なくともいずれか一方の値を決定し、前記音符ボーカルデータの振幅及び基本周波数の少なくともいずれか一方の値が時間軸に沿って変化する量を前記特徴変化量として決定する変化量決定ステップと
を前記コンピュータに実行させることを特徴とする請求項２から請求項４までのいずれか一項に記載のプログラム。
前記評価ステップは、
前記音声入力部を介して前記音声データを取得する音声取得ステップと、
前記音声取得ステップにより取得された前記音声データに基づいて、前記音声データの中で、前記複数の第１音符にそれぞれ対応する音符音声データを特定する第２特定ステップと、
前記音符音声データの振幅及び基本周波数の少なくともいずれか一方の推移を表す歌唱変化量を、前記複数の第１音符それぞれについて決定する特徴決定ステップと、
前記歌唱変化量と、前記評価データに含まれる特徴変化量との第１相関値を決定し、その決定した前記第１相関値が高いほど高い評価とする評価決定ステップと
を前記コンピュータに実行させることを特徴とする請求項１から請求項５までのいずれか一項に記載のプログラム。
前記第２記憶部には、前記複数の第２音符ごとにおける音高及び音符長に対応付けられた声質特徴量であって、前記ボーカルデータのメル周波数ケプストラムである前記声質特徴量が、前記特徴変化量と前記歌手識別情報と対応付けて記憶され、
前記第２取得ステップは、前記第２記憶部から、前記第２情報取得ステップにて取得した歌手識別情報と対応付けられた前記特徴変化量及び前記声質特徴量を取得し、
前記生成ステップは、前記特徴変化量及び前記声質特徴量、及び前記第１取得ステップで取得した第１楽譜データに基づいて、前記第１楽譜データを構成する第１音符に、前記第１音符における音高及び音符長に一致する前記第２音符での特徴変化量及び前記声質特徴量を対応付けることで、評価データを生成し、
前記特徴決定ステップは、前記音符音声データのメル周波数ケプストラムを表す歌唱声質を、前記複数の第１音符それぞれについて決定し、
前記評価決定ステップは、前記歌唱声質と、前記評価データに含まれる声質特徴量との第２相関値を決定し、その決定した前記第２相関値が高いほど高い評価とすることを特徴とする請求項６に記載のプログラム。
楽曲を識別する楽曲識別情報を取得する第１情報取得手段と、
前記第１情報取得手段で取得した楽曲識別情報を用いて、音高及び音符長が規定された複数の第１音符から構成される第１楽譜データを、第１記憶部から取得する第１取得手段と、
歌手を識別する歌手識別情報を取得する第２情報取得手段と、
複数の第２音符ごとにおける音高及び音符長に対応付けられた特徴変化量であって、ボーカル音を含む楽曲データから抽出されたボーカルデータの振幅と基本周波数との少なくともいずれか一方の推移を表す特徴変化量と、前記歌手識別情報とを対応付けて記憶した第２記憶部から、前記歌手識別情報と対応付けられた前記特徴変化量を取得する第２取得手段と、
前記第２取得手段で取得した特徴変化量、及び前記第１取得手段で取得した第１楽譜データに基づいて、前記第１楽譜データを構成する第１音符に、前記第１音符における音高及び音符長に一致する前記第２音符での特徴変化量を対応付けることで、評価データを生成する生成手段と、
前記生成手段で生成した評価データを用いて、音声入力部から取得した音声データを評価する評価手段と、
を備えることを特徴とする情報処理装置。
楽曲を識別する楽曲識別情報を、情報処理装置が取得する第１情報取得手順と、
前記第１情報取得手順で取得した楽曲識別情報を用いて、音高及び音符長が規定された複数の第１音符から構成される第１楽譜データを、第１記憶部から、前記情報処理装置が取得する第１取得手順と、
歌手を識別する歌手識別情報を、前記情報処理装置が取得する第２情報取得手順と、
複数の第２音符ごとにおける音高及び音符長に対応付けられた特徴変化量であって、ボーカル音を含む楽曲データから抽出されたボーカルデータの振幅と基本周波数との少なくともいずれか一方の推移を表す特徴変化量と、前記歌手識別情報とを対応付けて記憶した第２記憶部から、前記歌手識別情報と対応付けられた前記特徴変化量を、前記情報処理装置が取得する第２取得手順と、
前記第２取得手順で取得した特徴変化量、及び前記第１取得手順で取得した第１楽譜データに基づいて、前記第１楽譜データを構成する第１音符に、前記第１音符における音高及び音符長に一致する前記第２音符での特徴変化量を対応付けることで、評価データを、前記情報処理装置が生成する生成手順と、
前記生成手順で生成した評価データを用いて、音声入力部から取得した音声データを、前記情報処理装置が評価する評価手順と、
を備えることを特徴とする評価方法。