JP2015184448A - プログラム,情報処理装置,及び評価方法 - Google Patents

プログラム,情報処理装置,及び評価方法 Download PDF

Info

Publication number
JP2015184448A
JP2015184448A JP2014060254A JP2014060254A JP2015184448A JP 2015184448 A JP2015184448 A JP 2015184448A JP 2014060254 A JP2014060254 A JP 2014060254A JP 2014060254 A JP2014060254 A JP 2014060254A JP 2015184448 A JP2015184448 A JP 2015184448A
Authority
JP
Japan
Prior art keywords
note
data
change amount
music
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014060254A
Other languages
English (en)
Other versions
JP6075314B2 (ja
Inventor
典昭 阿瀬見
Noriaki Asemi
典昭 阿瀬見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP2014060254A priority Critical patent/JP6075314B2/ja
Publication of JP2015184448A publication Critical patent/JP2015184448A/ja
Application granted granted Critical
Publication of JP6075314B2 publication Critical patent/JP6075314B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Auxiliary Devices For Music (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

【課題】歌手特有の特徴を表現した歌唱を評価可能な技術の提供。【解決手段】情報処理サーバは、楽曲IDを取得し、その楽曲IDに対応する楽譜データを取得する。そして、歌手IDを取得し、その歌手IDと対応付けられた第1評価データを取得する。さらに、情報処理サーバは、取得した楽譜データを構成する第1音符に、第1評価データにおける特徴変化量であって、第1音符における音高と音符長との組み合わせに一致する音高と音符長との組み合わせからなる第2音符での特徴変化量を対応付けることで、第2評価データを生成する。カラオケ装置は、情報処理サーバで生成した第2評価データを用いて、音声入力部から取得した音声データを評価する。【選択図】図7

Description

本発明は、歌唱を評価するプログラム、情報処理装置、及び評価方法に関する。
従来、楽曲の歌唱旋律を歌唱した歌唱の巧拙を評価する歌唱評価技術が知られている(特許文献1参照)。この種の歌唱評価技術として、歌唱音声の音高の推移に基づく基準点数に、付加点数を加えた評価点数を算出するものが提案されている。この種の歌唱評価技術における基準点数は、歌唱旋律を構成する音符ごとに規定された1つの音高を表すリファレンスデータと、歌唱音声における音高とのズレが小さいほど高い点数となるように算出される。また、付加点数は、歌唱音声から検出した歌唱技巧の回数が多いほど高い点数となるように算出される。
特開2007−233013号公報
ところで、プロの歌手が歌唱した楽曲においては、多くの場合、その楽曲の歌手ごとに特有の特徴として、歌い方や声質が表れる。そして、カラオケ装置などの利用者が歌唱した歌声を評価する場合、歌手特有の歌い方の特徴や声質(以下、「特徴など」と称す)を表現した歌唱を高い評価とすることが望まれている。
しかしながら、従来の歌唱評価技術では、カラオケ装置などの利用者が歌唱した歌声を評価する場合に、歌手特有の特徴などを表現した歌唱について、何ら評価していないという課題があった。
そこで、本発明は、歌手特有の特徴を表現した歌唱を評価可能な技術を提供することを目的とする。
上記目的を達成するためになされた本発明は、第1情報取得ステップと、第1取得ステップと、第2情報取得ステップと、第2取得ステップと、生成ステップと、評価ステップとをコンピュータに実行させるプログラムに関する。
本発明における第1情報取得ステップでは、楽曲を識別する楽曲識別情報を取得する。第1取得ステップでは、第1情報取得ステップで取得した楽曲識別情報を用いて、音高及び音符長が規定された複数の第1音符から構成される第1楽譜データを、第1記憶部から取得する。第2情報取得ステップでは、歌手を識別する歌手識別情報を取得する。第2取得ステップでは、特徴変化量と歌手識別情報とを対応付けて記憶した第2記憶部から、歌手識別情報と対応付けられた特徴変化量を取得する。
そして、生成ステップでは、第2取得ステップで取得した特徴変化量、及び第1取得ステップで取得した楽譜データに基づいて、その楽譜データを構成する第1音符に、その第1音符における音高及び音符長に一致する第2音符での特徴変化量を対応付けることで、評価データを生成する。その生成した評価データを用いて、評価ステップでは、音声入力部から取得した音声データを評価する。
このようなプログラムにおいて生成される評価データは、楽譜データを構成する各音符に、その音符に対応する特徴変化量を対応付けたものである。ここで言う特徴変化量は、複数の第2音符ごとにおける音高及び音符長に対応付けられた指標であって、ボーカル音を含む楽曲データから抽出されたボーカルデータの振幅と基本周波数との少なくともいずれか一方の推移を表す。このため、特徴変化量には、楽曲を歌唱した人物の歌い方のクセが表れる。
つまり、評価データは、楽曲を歌唱した歌手特有の歌い方の特徴を表したものである。ここで、例えば、情報処理装置の利用者が、歌手が歌唱した楽曲とは異なる楽曲について歌い、その歌声を、本発明のプログラムを実行することで評価する場合を想定する。
この場合、利用者が歌った楽曲の各音符について、評価データにおける特徴変化量と、歌唱音声から検出した各音符における振幅または基本周波数の推移との相関が高いほど、情報処理装置の利用者は、歌手特有の歌い方の特徴を表現できていると言える。
したがって、本発明のプログラムによれば、情報処理装置の利用者が歌唱した歌声について、歌手特有の歌い方の特徴を、評価データに基づいて評価することができる。特に、本発明のプログラムによれば、利用者が歌った歌唱音声が、歌手特有の特徴にどの程度類似しているのかという類似性を評価できる。
ところで、本発明のプログラムにおいては、第3取得ステップと、抽出ステップと、第4取得ステップと、第1特定ステップと、第1決定ステップと、基礎生成ステップと、記憶制御ステップとをコンピュータに実行させても良い。
この場合、第3取得ステップでは、楽曲データを取得する。抽出ステップでは、第3取得ステップにより取得された楽曲データから、ボーカル音を表すボーカルデータを抽出する。さらに、第4取得ステップでは、音高及び音符長が規定された複数の第2音符から構成される第2楽譜データを取得する。そして、第1特定ステップでは、第4取得ステップで取得した第2楽譜データに含まれる複数の第2音符それぞれの音符長である第1時間長と、複数の第2音符間の時間長である第2時間長とに基づいて、ボーカルデータの中で、複数の第2音符それぞれに対応する音符ボーカルデータを特定する。第1決定ステップでは、第1特定ステップにより特定された音符ボーカルデータに基づいて、複数の第2音符それぞれの特徴変化量を決定する。その決定された特徴変化量と歌手識別情報とを対応付けて、記憶制御ステップにて第2記憶部に記憶する。
このようなプログラムによれば、楽曲を歌唱したプロの歌手特有の特徴を表した特徴変化量と歌手識別情報とを対応付けて第2記憶部に記憶できる。ところで、第2楽譜データには、複数の第2音符に割り当てられた歌詞を表す歌詞情報を含んでも良い。
この場合、本発明のプログラムは、第4取得ステップで取得した第2楽譜データに含まれる複数の第2音符それぞれの音高、第1時間長、及び歌詞情報と、第1決定ステップで決定された特徴変化量とを、対応する第2音符に対応付け、さらに、複数の第2音符の中で、音高と第1時間長と歌詞情報との組み合わせが所定の条件を満たす第2音符について、特徴変化量の代表値を決定する第2決定ステップ、をコンピュータに実行させても良い。さらに、本発明のプログラムにおける記憶制御ステップは、第2決定ステップにより決定された特徴変化量の代表値と、歌手識別情報とを対応付けて第2記憶部に記憶させても良い。
本発明のプログラムによれば、音符の音高と、第1時間長と、歌詞情報とが共通である音符を、所定の条件を満たす音符として、音符に対応する特徴変化量の代表値を、当該所定の条件を満たす音符ごとに決定できる。
ここで、楽曲においては、同一種類の音符に対して異なる歌詞が割り当てられていることが多い。この場合、楽曲を歌唱した歌手は、音符と歌詞との組み合わせによって、歌唱の方法が異なる可能性が高い。つまり、音高と第1時間長との組み合わせからなる音符が同一であっても、その音符に割り当てられた歌詞が異なる場合には、音符ボーカルデータにおける特徴変化量は、異なる可能性が高い。
このため、本発明のプログラムのように、歌手の歌い方のより細かな特徴の表現を評価可能な特徴変化量を生成できる。
しかも、本発明のプログラムにおける特徴変化量は、所定の条件を満たす音符ごとに代表値化されている。このため、本発明のプログラムによれば、データ量を低減できる。
なお、ここで言う代表値とは、平均値や、最頻値、中央値を含むものである。また、楽譜データに歌詞情報が含まれる場合、本発明のプログラムは、第2楽譜データに含まれる複数の第2音符それぞれの音高、第1時間長、第2時間長、及び歌詞情報と、第1決定ステップで決定された特徴変化量とを、対応する第2音符ごとに対応付けても良い。
さらに、本発明のプログラムにおいては、複数の第2音符の中で、音高と第1時間長と第2時間長と歌詞情報との組み合わせが所定の条件を満たす第2音符について、特徴変化量の代表値を決定する第2決定ステップとをコンピュータに実行させても良い。
この場合、記憶制御ステップでは、第2決定ステップにより決定された特徴変化量の代表値と、歌手識別情報とを対応付けて第2記憶部に記憶させても良い。
このようなプログラムによれば、音符群ごとに決定した特徴変化量の代表値を第2記憶部に記憶できる。
ここで、楽曲における音符のうちの1つを対象音符と称し、楽曲における時間軸に沿って対象音符の直前の音符を前音符と称し、楽曲における時間軸に沿って対象音符の直後の音符を後音符と称す。
そして、前音符から対象音符へとボーカルデータが切り替わった場合や、対象音符から後音符へとボーカルデータが切り替わった場合には、それらの音符の組み合わせごとに、音符ボーカルデータでの基本周波数の推移や音圧の推移が異なる。つまり、音符群が異なることによって、特徴変化量には、歌手特有の歌い方に細かな特徴が表れる。
このため、本発明のプログラムにおいては、代表値を求める対象を共通の音符群ごととしても良い。このようなプログラムによれば、情報処理装置の利用者が歌唱した歌声について、歌手特有のより細かな特徴の表現を評価可能な評価データを生成できる。
また、本発明における第1決定ステップは、設定ステップと、変化量決定ステップとをコンピュータに実行させても良い。設定ステップでは、音符ボーカルデータに、少なくとも2つ以上の分析窓を時間軸に沿って連続するように設定する。変化量決定ステップでは、設定ステップにより設定された分析窓それぞれにおける音符ボーカルデータの振幅及び基本周波数の少なくともいずれか一方の値を決定し、音符ボーカルデータの振幅及び基本周波数の少なくともいずれか一方の値が時間軸に沿って変化する量を特徴変化量として決定する。
このような特徴変化量であれば、音符ボーカルデータの振幅及び基本周波数の少なくともいずれか一方の値をより詳細なものとすることができる。この結果、本発明のプログラムを実行することで、音符それぞれにおける歌手特有の歌い方の特徴をより詳細に評価できる。
さらに、本発明における評価ステップは、音声取得ステップと、第2特定ステップと、特徴決定ステップと、評価決定ステップとをコンピュータに実行させても良い。
この場合の音声取得ステップでは、音声入力部を介して音声データを取得する。第2特定ステップでは、音声取得ステップにより取得された音声データに基づいて、音声データの中で、複数の第1音符にそれぞれ対応する音符音声データを特定する。
さらに、特徴決定ステップでは、音符音声データの振幅及び基本周波数の少なくともいずれか一方の推移を表す歌唱変化量を、複数の第1音符それぞれについて決定する。評価決定ステップでは、歌唱変化量と、評価データに含まれる特徴変化量との第1相関値を決定し、その決定した第1相関値が高いほど高い評価とする。
このようなプログラムによれば、歌手特有の特徴の再現性をより確実に評価できる。
ところで、第2記憶部には、声質特徴量が、特徴変化量と歌手識別情報と対応付けて記憶されていても良い。この場合、本発明における第2取得ステップでは、第2記憶部から、第2情報取得ステップにて取得した歌手識別情報と対応付けられた特徴変化量及び声質特徴量を取得する。
そして、生成ステップでは、特徴変化量及び声質特徴量、及び第1取得ステップで取得した第1楽譜データに基づいて、第1楽譜データを構成する第1音符に、第1音符における音高及び音符長に一致する第2音符での特徴変化量及び声質特徴量を対応付けることで、評価データを生成する。
さらに、本発明における特徴決定ステップでは、音符音声データのメル周波数ケプストラムを表す歌唱声質を、複数の第1音符それぞれについて決定する。そして、評価決定ステップでは、歌唱声質と、評価データに含まれる声質特徴量との第2相関値を決定し、その決定した第2相関値が高いほど高い評価とする。
声質特徴量は、複数の第2音符ごとにおける音高及び音符長に対応付けられた指標であって、ボーカルデータのメル周波数ケプストラムである。つまり、本発明における評価データは、楽曲を歌唱した歌手特有の歌い方の特徴に加えて、歌手特有の声質を表したものである。
例えば、情報処理装置の利用者が、歌手が歌唱した楽曲とは異なる楽曲について歌い、その歌声を、本発明のプログラムを実行することで評価することを想定する。この場合、評価データにおける声質特徴量と、歌唱音声から決定した歌唱声質との相関が高いほど、情報処理装置の利用者は、歌手特有の声質を再現できていると言える。
したがって、本発明のプログラムによれば、情報処理装置の利用者が歌唱した歌声について、歌手特有の声質の再現性を評価できる。特に、本発明のプログラムによれば、利用者が歌った歌唱音声の声質が、歌手特有の声質にどの程度類似しているのかという類似性を評価できる。
本発明は、第1情報取得手段と、第1取得手段と、第2情報取得手段と、第2取得手段と、生成手段と、評価手段とを備える情報処理装置としてなされていても良い。
第1情報取得手段は、楽曲識別情報を取得する。第1取得手段は、第1情報取得手段で取得した楽曲識別情報を用いて、第1楽譜データを第1記憶部から取得する。第2情報取得手段は、歌手識別情報を取得する。第2取得手段は、第2記憶部から、歌手識別情報と対応付けられた特徴変化量を取得する。
さらに、生成手段は、第1楽譜データを構成する第1音符に、第1音符における音高及び音符長に一致する第2音符での特徴変化量を対応付けることで、評価データを生成する。評価手段は、生成手段で生成した評価データを用いて、音声入力部から取得した音声データを評価する。
このような情報処理装置によれば、請求項1に係るプログラムを実行した場合と同様の効果を得ることができる。また、本発明は、第1情報取得手順と、第1取得手順と、第2情報取得手順と、第2取得手順と、生成手順と、評価手順とを、情報処理装置が実行する評価方法としてなされていても良い。
この場合の第1情報取得手順では、楽曲識別情報を情報処理装置が取得する。第1取得手順では、第1情報取得手順で取得した楽曲識別情報を用いて、第1楽譜データを、第1記憶部から、情報処理装置が取得する。第2情報取得手順では、歌手識別情報を、情報処理装置が取得する。第2取得手順では、第2記憶部から、歌手識別情報と対応付けられた特徴変化量を、情報処理装置が取得する。
そして、生成手順では、第1楽譜データを構成する第1音符に、その第1音符における音高及び音符長に一致する第2音符での特徴変化量を対応付けることで、情報処理装置が、評価データを生成する。その評価データを用いて、評価手順では、音声入力部から取得した音声データを、情報処理装置が評価する。
このような評価方法によれば、請求項1に係るプログラムを実行した場合と同様の効果を得ることができる。
本発明が適用された情報処理装置を備えたシステムの概略構成を示すブロック図である。 情報処理装置が実行する特徴量算出処理の処理手順を示すフローチャートである。 特徴変化量を例示する図である。 第1評価データを例示する図である。 情報処理サーバが実行する評価データ生成処理の処理手順を示すフローチャートである。 第2評価データの概要を例示する図である。 カラオケ装置が実行するカラオケ採点処理の処理手順を示すフローチャートである。
以下に本発明の実施形態を図面と共に説明する。
〈システム構成〉
図1に示すカラオケ装置30は、ユーザが指定した楽曲を演奏すると共に、その楽曲の演奏中にユーザが歌唱した歌唱音声を評価する装置である。このカラオケ装置30において実行される評価は、ユーザによって指定された歌手が、ユーザによって指定された楽曲を歌唱した場合に表れると想定される、その歌手の歌い方の特徴を、ユーザが表現している度合いである。
このような評価を実現するために構築されるシステム1は、情報処理装置3と、情報処理サーバ10と、カラオケ装置30とを備えている。情報処理装置3は、楽曲ごとに用意された楽曲データWD及びMIDI楽曲MDに基づいて、第1評価データSFを算出する。ここで言う第1評価データSFとは、楽曲を歌唱するプロの歌手ごとの歌い方における特徴を表すデータである。
情報処理サーバ10は、少なくとも、MIDI楽曲MD及び情報処理装置3にて算出された第1評価データSFを記憶部14に記憶する。さらに、情報処理サーバ10は、第1評価データSF及びMIDI楽曲MDに基づいて第2評価データMSを生成する。ここで言う第2評価データMSとは、カラオケ装置30が実行するカラオケ採点処理に用いるデータであり、ユーザによって指定された歌手が、ユーザによって指定された楽曲を歌唱した場合に表れると想定されるその歌手の歌い方の特徴を表すデータである。この第2評価データMSは、特許請求の範囲に記載された評価データの1例である。
カラオケ装置30は、ユーザが指定した楽曲に対応するMIDI楽曲MD及び第2評価データMSを情報処理サーバ10から取得し、そのMIDI楽曲MDに基づいて楽曲を演奏すると共に、その楽曲の演奏中に入力された音声を評価する。
<楽曲データ>
次に、楽曲データWDは、特定の楽曲ごとに予め用意されたものであり、楽曲に関する情報が記述された楽曲管理情報と、楽曲の演奏音を表す原盤波形データとを備えている。楽曲管理情報には、少なくとも、楽曲を識別する楽曲識別情報(以下、楽曲IDと称す)と、楽曲を歌唱したプロの歌手を識別する歌手識別情報(以下、歌手IDと称す)とが含まれる。
本実施形態の原盤波形データは、複数の楽器の演奏音と、歌唱旋律をプロの歌手が歌唱した歌唱音とを含む音声データである。この音声データは、非圧縮音声ファイルフォーマットの音声ファイルによって構成されたデータであっても良いし、音声圧縮フォーマットの音声ファイルによって構成されたデータであっても良い。なお、以下では、原盤波形データに含まれる演奏音を表す音声波形データを伴奏データと称し、原盤波形データに含まれる歌唱音を表す音声波形データをボーカルデータと称す。
本実施形態の伴奏データに含まれる楽器の演奏音としては、打楽器(例えば、ドラム,太鼓,シンバルなど)の演奏音,弦楽器(例えば、ギター,ベースなど)の演奏音,打弦楽器(例えば、ピアノ)の演奏音,及び管楽器(例えば、トランペットやクラリネットなど)の演奏音がある。一般的な楽曲においては、通常、打楽器やベースがリズム楽器として用いられる。
<MIDI楽曲>
次に、MIDI楽曲MDは、楽曲ごとに予め用意されたものであり、演奏データと、歌詞データとを有している。
このうち、演奏データは、周知のMIDI(Musical Instrument Digital Interface)規格によって、一つの楽曲の楽譜を表したデータである。この演奏データは、楽曲IDと、歌手IDと、当該楽曲にて用いられる楽器ごとの楽譜を表す楽譜トラックとを少なくとも有している。
そして、楽譜トラックには、MIDI音源から出力される個々の演奏音について、少なくとも、音高(いわゆるノートナンバー)と、MIDI音源が演奏音を出力する期間(以下、音符長と称す)とが規定されている。ただし、楽譜トラックの音符長は、当該演奏音の出力を開始するまでの当該楽曲の演奏開始からの時間を表す演奏開始タイミング(いわゆるノートオンタイミング)と、当該演奏音の出力を終了するまでの当該楽曲の演奏開始からの時間を表す演奏終了タイミング(いわゆるノートオフタイミング)とによって規定されている。
すなわち、楽譜データでは、ノートナンバーと、ノートオンタイミング及びノートオフタイミングによって表される音符長とによって、1つの音符NOが規定される。そして、楽譜データは、音符NOが演奏順に配置されることによって、1つの楽譜として機能する。
なお、楽譜トラックは、例えば、鍵盤楽器、弦楽器、打楽器、及び管楽器などの楽器ごとに用意されている。このうち、本実施形態では、特定の楽器(例えば、ヴィブラフォン)が、楽曲において歌唱旋律を担当する楽器として規定されている。
一方、歌詞データは、楽曲の歌詞に関するデータであり、歌詞テロップデータと、歌詞プロパティデータと、歌詞出力データとを備えている。歌詞テロップデータは、楽曲の歌詞を構成する文字(以下、歌詞構成文字とする)を表す。歌詞プロパティデータは、歌詞構成文字それぞれの音節及びその音節の母音を表す。歌詞出力データは、歌詞構成文字の出力タイミングである歌詞出力タイミングを、演奏データの演奏と対応付けるタイミング対応関係が規定されたデータである。
具体的に、本実施形態におけるタイミング対応関係は、演奏データの演奏を開始するタイミングに、歌詞テロップデータの出力を開始するタイミングが対応付けられた上で、当該楽曲の時間軸に沿った各歌詞構成文字の歌詞出力タイミングが、演奏データの演奏開始からの経過時間によって規定されている。これにより、楽譜トラックに規定された個々の演奏音(即ち、音符NO)と、歌詞構成文字それぞれとが対応付けられる。
〈情報処理装置〉
情報処理装置3は、記憶部5と、制御部6とを備えている。記憶部5は、記憶内容を読み書き可能に構成された周知の記憶装置である。記憶部5には、少なくとも1つの楽曲データWDと、少なくとも1つのMIDI楽曲MDとが記憶されている。この記憶部5に記憶される楽曲データWDとMIDI楽曲MDとは、共通する楽曲に対応するものである。なお、図1に示す符号「n」は、情報処理装置3の記憶部5に記憶されている楽曲データWD及びMIDI楽曲MDの個数を表し、1以上の自然数である。
制御部6は、ROM7,RAM8,CPU9を備えた周知のマイクロコンピュータを中心に構成された周知の制御装置である。ROM7は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを記憶する。RAM8は、処理プログラムやデータを一時的に記憶する。CPU9は、ROM7やRAM8に記憶された処理プログラムに従って各処理を実行する。
本実施形態のROM7には、記憶部5に記憶されている楽曲データWD及びMIDI楽曲MDに基づいて、第1評価データSFを算出する特徴量算出処理を、制御部6が実行するための処理プログラムが記憶されている。
〈情報処理サーバ〉
情報処理サーバ10は、通信部12と、記憶部14と、制御部16とを備えている。このうち、通信部12は、通信網を介して、情報処理サーバ10が外部との間で通信を行う。すなわち、情報処理サーバ10は、通信網を介してカラオケ装置30と接続されている。なお、ここで言う通信網は、有線による通信網であっても良いし、無線による通信網であっても良い。
記憶部14は、記憶内容を読み書き可能に構成された周知の記憶装置である。この記憶部14には、少なくとも、複数のMIDI楽曲MDが記憶される。この記憶部14に記憶されるMIDI楽曲MDに対応する楽曲には、情報処理装置3の記憶部5に記憶されたMIDI楽曲MDの楽曲と同一の楽曲に加えて、情報処理装置3の記憶部5に記憶されていないMIDI楽曲MDの楽曲を含む。なお、図1に示す符号「m」は、情報処理サーバ10の記憶部14に記憶されているMIDI楽曲MDの個数を表し、2以上の自然数である。
さらに、記憶部14には、情報処理装置3が特徴量算出処理を実行することで生成された第1評価データSFが記憶される。また、記憶部14には、第2評価データMSが記憶される。
制御部16は、ROM18,RAM20,CPU22を備えた周知のマイクロコンピュータを中心に構成された周知の制御装置である。ROM18,RAM20,CPU22は、それぞれ、ROM7,RAM8,CPU9と同様に構成されている。
なお、本実施形態のROM18には、記憶部14に記憶された第1評価データSF及びMIDI楽曲MDに基づいて第2評価データMSを生成する評価データ算出処理を、制御部16が実行するための処理プログラムが記憶されている。
〈カラオケ装置〉
カラオケ装置30は、通信部32と、入力受付部34と、楽曲再生部36と、記憶部38と、音声制御部40と、映像制御部46と、制御部50とを備えている。
通信部32は、通信網を介して、カラオケ装置30が外部との間で通信を行う。入力受付部34は、外部からの操作に従って情報や指令の入力を受け付ける入力機器である。本実施形態における入力機器とは、例えば、キーやスイッチ、リモコンの受付部などである。
楽曲再生部36は、情報処理サーバ10からダウンロードしたMIDI楽曲MDに基づく楽曲の演奏を実行する(MIDI音源)。音声制御部40は、音声の入出力を制御するデバイスであり、出力部42と、マイク入力部44とを備えている。
マイク入力部44には、マイク62が接続される。これにより、マイク入力部44は、ユーザの歌唱音を取得する(特許請求の範囲における音声入力部の一例)。出力部42にはスピーカ60が接続されている。出力部42は、楽曲再生部36によって再生される楽曲の音源信号、マイク入力部44からの歌唱音の音源信号をスピーカ60に出力する。スピーカ60は、出力部42から出力される音源信号を音に換えて出力する。
映像制御部46は、制御部50から送られてくる映像データに基づく映像の出力を行う。映像制御部46には、映像の表示を行う表示部64が接続されている。制御部50は、ROM52,RAM54,CPU56を少なくとも有した周知のコンピュータを中心に構成されている。ROM52,RAM54,CPU56は、それぞれ、ROM7,RAM8,CPU9と同様に構成されている。
そして、ROM52には、カラオケ採点処理を制御部50が実行するための処理プログラムが記憶されている。カラオケ採点処理は、ユーザによって指定された楽曲を演奏し、その演奏期間中にマイク62を介して入力された音声を評価する処理である。カラオケ採点処理によって評価する対象は、ユーザによって指定された楽曲を、ユーザによって指定された歌手が歌唱した場合に表れると想定される、その歌手の歌い方の特徴を、ユーザが表現している度合いである。
〈特徴量算出処理〉
次に、情報処理装置3の制御部6が実行する特徴量算出処理について説明する。この特徴量算出処理は、処理プログラムを起動するための起動指令が、情報処理装置3の入力受付部(図示せず)を介して入力されたタイミングで起動される。
そして、特徴量算出処理では、図2に示すように、起動されると、まず、制御部6は、情報処理装置3の入力受付部(図示せず)を介して入力された歌手IDを取得する(S105)。続いて、制御部6は、情報処理装置3の記憶部5に記憶されている全ての楽曲データWDの中から、S105にて取得した歌手IDが対応付けられた一つの楽曲データWDを取得する(S110)。
さらに、特徴量算出処理では、制御部6は、情報処理装置3の記憶部5に記憶されている全てのMIDI楽曲MDの中から、S110で取得した楽曲データWDと同一の楽曲IDが対応付けられた一つのMIDI楽曲MDを取得する(S120)。すなわち、S110及びS120では、制御部6は、同一の楽曲に対する楽曲データWD及びMIDI楽曲MDを取得する。
続いて、制御部6は、S110にて取得した楽曲データWD(以下、「取得楽曲データ」と称す)における各音符に対応する各音の再生時間に、S120で取得したMIDI楽曲MD(以下、「取得MIDI」と称す)を構成する各音符の演奏タイミングが一致するように、その取得MIDIを調整する(S130)。このS130における取得MIDIを調整する手法として、周知の手法(例えば、特許第5310677号に記載の手法)を用いることが考えられる。特許第5310677号に記載の手法では、具体的には、制御部6は、取得MIDIをレンダリングし、その取得MIDIのレンダリング結果と取得楽曲データの原盤波形データとの双方を規定時間単位でスペクトルデータに変換する。そして、双方のスペクトルデータ上の時間が同期するように、各演奏音の演奏開始タイミング及び演奏終了タイミングを修正する。なお、スペクトルデータ上の時間が同期するように調整する際には、DPマッチングを用いても良い。
特徴量算出処理では、制御部6は、取得楽曲データWDに含まれる原盤波形データを取得する(S140)。続いて、制御部6は、S140にて取得した原盤波形データから、ボーカルデータと伴奏データとを分離して抽出する(S150)。このS150において制御部6が実行する、伴奏データとボーカルデータとの分離手法として、周知の手法(例えば、特開2008−134606に記載された“PreFEst”)を使って推定された音高および調波成分を利用する手法が考えられる。なお、PreFEstとは、原盤波形データにおいて最も優勢な音声波形をボーカルデータとみなしてボーカルの音高(即ち、基本周波数)および調波成分の大きさを推定する手法である。
さらに、制御部6は、S130にて時間調整が実施されたMIDI楽曲MD(以下、「調整済MIDI」と称す)と、S150で抽出したボーカルデータとに基づいて、そのボーカルデータにおいて、歌唱旋律を構成する各音符NO(a,i)に対応する区間(以下、「音符ボーカル」と称す)Vo(a,i)を特定する(S160)。本実施形態のS160では、制御部6は、S150で抽出したボーカルデータに、調整済MIDIにおける演奏開始タイミング及び演奏終了タイミングを照合することで、音符ボーカルVo(a,i)を特定すれば良い。なお、符号aは、楽曲を識別する符号であり、符号iは、楽曲における歌唱旋律の音符NOを識別する符号である。
さらに、特徴量算出処理では、制御部6は、音符ボーカルVo(a,i)のそれぞれに、複数の分析窓を設定する(S170)。このS170での分析窓の設定では、制御部6は、複数個の分析窓が時間軸に沿って互いに隣接するように設定する。この分析窓は、音符NO(a,i)の時間長よりも短い時間長を有した区間である。また、以下では、1つの音符ボーカルVo(a,i)に設定される分析窓の個数を「L」とする。
続いて、制御部6は、音符ボーカルVo(a,i)における振幅の音符NO(a,i)に対応する区間内での推移を表す歌唱振幅ベクトルA(a,i)を算出する(S180)。具体的には、S180では、制御部6は、まず、図3(A)に示すように、S170にて設定された分析窓それぞれにおける音符ボーカルVo(a,i)の振幅値を算出する。そして、制御部6は、それらの分析窓ごとに算出された振幅値を時間軸に沿って配置することで、振幅値の配列を生成し、その振幅値の配列を歌唱振幅ベクトルA(a,i)として算出する。さらに、制御部は、歌唱振幅ベクトルA(a,i)に、音符ボーカルVo(a,i)に設定された分析窓の個数Lを対応付ける。なお、S180において算出する分析窓ごとの振幅は、例えば、各分析窓内での音符ボーカルVo(a,i)の離散値を、相加平均したものであっても良い。
さらに、特徴量算出処理では、制御部6は、音符ボーカルVo(a,i)における基本周波数の音符NO(a,i)に対応する区間内での推移を表す歌唱音高ベクトルF(a,i)を算出する(S190)。このS190では、制御部6は、まず、図3(B)に示すように、S170にて設定された分析窓それぞれにおける音符ボーカルVo(a,i)の基本周波数f0を算出する。そして、制御部6は、それらの分析窓ごとに算出された基本周波数f0を時間軸に沿って配置することで、基本周波数f0の配列を生成し、その基本周波数f0の配列を歌唱音高ベクトルF(a,i)として算出する。さらに、制御部6は、音符ボーカルVo(a,i)に設定された分析窓の数Lを、歌唱音高ベクトルF(a,i)に対応付ける。本実施形態における基本周波数f0の算出手法として、種種の周知の手法が考えられる。一例として、S190では、制御部6は、音符ボーカルVo(a,i)に設定された分析窓それぞれについて、周波数解析(例えば、DFT)を実施し、自己相関の結果、最も強い周波数成分を基本周波数f0とすることが考えられる。
このS180にて算出される歌唱振幅ベクトルA及びS190にて算出される歌唱音高ベクトルFのうちの少なくともいずれか一方が、特許請求の範囲に記載の特徴変化量の一例である。
さらに、特徴量算出処理では、制御部6は、各音符ボーカルVo(a,i)での複数の歌唱技巧についての評価を表す技巧特徴量S(a,i)を決定する(S200)。ここで言う複数の歌唱技巧には、少なくとも“ビブラート”,“ため”,“しゃくり”,“フォール”,“こぶし”を含む。
このうち、“ビブラート”についての技巧特徴量(以下、「ビブラート特徴量」と称す)vibの算出では、制御部6は、まず、音符ボーカルVo(a,i)それぞれについて周波数解析(DFT)を実施する。そして、制御部6は、下記(1)式に従って、ビブラート特徴量vibを算出する。
vib(a,i)=vib_per(a,i)×vip_dep(a,i) (1)
ただし、上記(1)式におけるvib_per(a,i)は、各音符ボーカルVo(a,i)におけるスペクトルピークの突出精度を表す指標である。このvib_perは、周波数解析結果(即ち、振幅スペクトル)のピーク値を、周波数解析結果の平均値で除すことで求めれば良い。また、上記(1)式におけるvip_depは、各音符ボーカルVo(a,i)の標準偏差である。
“ため”についての技巧特徴量(以下、「ため特徴量」と称す)tt(a,i)の算出では、制御部6は、まず、伴奏データにおける非調波成分の音声波形をリズム楽器の演奏音波形として抽出する。非調波成分の抽出手法として、周知の手法を用いれば良い。具体的な手法の例としては、非調波成分の音声波形を表すフィルタとして予め用意されたフィルタに伴奏音データを通過させることが考えられる。
さらに、ため特徴量tt(a,i)の算出では、制御部6は、リズム楽器の演奏音波形において、音圧が規定値以上となるタイミングを拍の位置として推定する。続いて、制御部6は、楽曲の歌唱旋律を構成する音符の中で、音価が最も短い音符(以下、「最短音符」と称す)を抽出する。そして、制御部6は、抽出した最短音符の音価にて拍の位置の間隔を除すことで、発声タイミングを特定する。ここで言う発声タイミングとは、各音符NO(a,i)に対してボーカルデータにおいて歌唱を開始する可能性のあるタイミングである。
ため特徴量tt(a,i)の算出では、さらに、制御部6は、規定条件を満たす発声タイミングを特定する。ここで言う規定条件を満たすとは、各音符(a,i)の演奏開始タイミングnnt(a,i)よりも遅い発声タイミングであって、かつ、演奏開始タイミングnnt(a,i)から減算した値の絶対値が最小となる発声タイミングである。そして、特定した発声タイミングを演奏開始タイミングnnt(a,i)から減算した時間長を、ため特徴量tt(a,i)として算出する。
“しゃくり”についての技巧特徴量(以下、「しゃくり特徴量」と称す)rise(a,i)の算出では、制御部6は、まず、ボーカルデータの音高時間変化を微分した微分変化を算出する。続いて、制御部6は、各音符NO(a,i)の演奏開始タイミングnnt(a,i)以前で、微分変化が時間軸に沿って正の値となったタイミングを特定する。さらに、制御部6は、その特定した各タイミングから演奏開始タイミングnnt(a,i)までの区間におけるボーカルデータの音高時間変化と予め規定された模範曲線との相互相関値を、しゃくり特徴量rise(a,i)として算出する。
“フォール”についての技巧特徴量(以下、「フォール特徴量」と称す)fall(a,i)の算出では、制御部6は、各音符NO(a,i)の演奏終了タイミングnft(a,i)以降で、微分変化が時間軸に沿って正の値となった最初のタイミングを特定する。さらに、制御部6は、歌唱旋律を構成する各音符NO(a,i)の演奏終了タイミングnft(a,i)から、その特定したタイミングまでの区間におけるボーカルデータの音高時間変化と、予め規定された模範曲線との相互相関値を、フォール特徴量fall(a,i)として算出する。
“こぶし”についての技巧特徴量(以下、「こぶし特徴量」と称す)kob(a,i)の算出では、制御部6は、まず、こぶし区間を特定する。ここで言うこぶし区間とは、複数の音高に渡る各音符NOを同一母音で音高を変化させながら歌っている区間である。
このため、こぶし特徴量kob(a,i)の算出では、制御部6は、同一母音で発声された区間(以下、「同一母音区間」と称す)を特定する。この同一母音区間の特定方法として、各音符ボーカルVo(a,i)のメル周波数ケプストラム(MFCC)の平均値の類似性を相互相関で算出し、相互相関値が閾値以上である音符ボーカルVoを同一母音区間として特定する方法を用いる。
また、制御部6は、同一母音区間において、設定条件を満たす同一母音区間だけをこぶし区間として特定する。ここで言う設定条件を満たすとは、時間軸に沿って隣接する音符ボーカルVo(a,i−1)に対応する音符NO(a,i−1)の演奏終了タイミングnft(a,i−1)と演奏開始タイミングnnt(a,i)との時間間隔が閾値以下であり、かつ、隣接する音符ボーカルVoの音高が全て異なることである。
そして、こぶし特徴量kob(a,i)の算出では、制御部6は、こぶし区間におけるボーカルデータからクロマベクトルを算出する。さらに、制御部6は、同こぶし区間における伴奏データのクロマベクトルを算出し、ボーカルデータのクロマベクトルとの相互相関値をこぶし特徴量kob(a,i)として算出する。
続いて、特徴量算出処理では、制御部6は、各音符ボーカルVo(a,i)における歌手の声質を表す声質特徴量M(a,i)を算出する(S210)。このS210では、制御部6は、まず、S170にて設定された音符ボーカルVo(a,i)の分析窓それぞれについて、周波数解析(例えば、DFT)を実施する。制御部6は、周波数解析の結果(周波数スペクトル)に対してケプストラム分析を実行することで、各分析窓のメル周波数ケプストラム(MFCC)を算出する。そして、制御部6は、分析窓ごとのメル周波数ケプストラム(MFCC)を、音符NO(a,i)に設定された全ての分析窓に渡って相加平均し、その相加平均の結果を声質特徴量M(a,i)として算出する。
さらに、特徴量算出処理では、制御部6は、各音符ボーカルVo(a,i)に対応する音符NO(a,i)の音符プロパティp(a,i)を特定する(S220)。本実施形態のS220では、具体的には、制御部6は、取得MIDIから、その取得MIDIに規定された各音符NO(a,i)の情報を音符プロパティp(a,i)として抽出して特定する。
ここで言う音符プロパティp(a,i)には、対象音符属性と、前音符属性と、後音符属性とを含む。対象音符属性とは、音符NO(a,i)の属性を表す情報である。この対象音符属性には、音符NO(a,i)の音階(音高)、音符長(第1時間長の一例)、歌詞の音節、及び歌詞の母音を含む。また、前音符属性とは、時間軸に沿って音符NO(a,i)の一つ前の音符(以下、前音符と称す)NO(a,i−1)の属性を表す情報である。この前音符属性には、前音符NO(a,i−1)の音階(音高)、音符長、歌詞の音節、及び前音符NO(a,i−1)と音符NO(a,i)との間の時間長を含む。
さらに、後音符属性とは、時間軸に沿って対象音符NO(a,i)の一つ後の音符(以下、後音符と称す)NO(a,i+1)の属性を表す情報である。この後音符属性には、音階(音高)、音符長、歌詞の音節、及び音符NO(a,i)と後音符NO(a,i+1)との間の時間長(特許請求の範囲における第2時間長の一例)を含む。
なお、音符プロパティp(a,i)における音符長、及び音符間の時間長は、予め規定された階級へと量子化されていても良い。
特徴量算出処理では、続いて、制御部6は、S220で特定した各音符NO(a,i)の音符プロパティp(a,i)を、対応する音符NO(a,i)の歌唱振幅ベクトルA(a,i)、歌唱音高ベクトルF(a,i)、及び技巧特徴量S(a,i)と対応付ける(S230)。
さらに、特徴量算出処理では、制御部6は、S105にて取得した歌手IDが対応付けられた楽曲のうち、予め設定された設定条件を満たす全楽曲について、S110からS230のステップを完了したか否かを判定する(S240)。ここで言う設定条件とは、S105にて取得した歌手IDが対応付けられ、楽曲データWDとMIDI楽曲MDとの双方が用意されていることである。
このS240での判定の結果、設定条件を満たす全楽曲について、S110からS230のステップを完了していなければ(S240:NO)、制御部6は、特徴量算出処理をS110へと戻す。そして、制御部6は、S105にて指定された歌手IDが対応付けられた楽曲データWDの中から、新たな楽曲データWDを取得し(S110)、さらに、その楽曲データWDに対応するMIDI楽曲MDを取得して(S120)、S130からS240のステップを実行する。
一方、S240での判定の結果、全楽曲について、S110からS230のステップを完了していれば(S240:YES)、制御部6は、特徴量算出処理をS250へと移行させる。
そのS250では、制御部6は、歌唱振幅ベクトルA(a,i)、歌唱音高ベクトルF(a,i)、声質特徴量M(a,i)、及び技巧特徴量S(a,i)のそれぞれについて、対応付けられた音符プロパティpが共通するものごとに代表値を算出する。
すなわち、本実施形態のS250では、制御部6は、対象音符属性と前音符属性と後音符属性との全てが共通する音符NOにおける歌唱振幅ベクトルA及び分析窓の個数Lの相加平均を算出する。そして、制御部6は、対象音符属性と前音符属性と後音符属性との全てが共通する音符NOごとの歌唱振幅ベクトルA及び分析窓の個数Lの相加平均の結果それぞれを、歌唱振幅ベクトルA及び分析窓の代表値とする。
また、制御部6は、対象音符属性と前音符属性と後音符属性との全てが共通する音符NOにおける歌唱音高ベクトルF及び分析窓の個数Lの相加平均を算出する。そして、制御部6は、対象音符属性と前音符属性と後音符属性との全てが共通する音符NOごとの歌唱音高ベクトルF及び分析窓の個数Lの相加平均の結果それぞれを、歌唱音高ベクトルF及び分析窓の代表値とする。
また、制御部6は、対象音符属性と前音符属性と後音符属性との全てが共通する音符NOにおける声質特徴量Mの相加平均を算出する。そして、制御部6は、対象音符属性と前音符属性と後音符属性との全てが共通する音符NOごとの声質特徴量Mの相加平均の結果それぞれを声質特徴量Mの代表値とする。ただし、ここで言う「対象音符属性と前音符属性と後音符属性との全てが共通」には、歌詞の音節だけが不一致である場合を含む。
また、制御部6は、対象音符属性と前音符属性と後音符属性との全てが共通する音符NOにおける技巧特徴量Sそれぞれの相加平均を算出する。そして、制御部6は、対象音符属性と前音符属性と後音符属性との全てが共通する音符NOごとの技巧特徴量Sそれぞれの相加平均の結果それぞれを、技巧特徴量Sの代表値とする。
このS250にて代表値として算出する相加平均は、歌唱振幅ベクトルA(a,i)、歌唱音高ベクトルF(a,i)、声質特徴量M(a,i)、及び技巧特徴量S(a,i)を算出した全ての楽曲の範囲内で実施する。なお、S250において算出する代表値は、相加平均の結果に限るものではなく、中央値や最頻値であっても良い。
続いて、制御部6は、S250にて算出された歌唱振幅ベクトルA、歌唱音高ベクトルF、分析窓の個数L、声質特徴量M、及び技巧特徴量Sのそれぞれの代表値を、対応する音符プロパティp及び歌手IDと対応付けることで、第1評価データSFを生成して記憶部5に記憶する(S260)。
その後、制御部6は、本特徴量算出処理を終了する。つまり、特徴量算出処理では、歌手の歌い方における特徴を表す第1評価データSFを歌手ごとに生成する。この特徴量算出処理にて生成される第1評価データSFは、図4に示すように、歌手の歌手IDごとに、共通する音符プロパティpごとの歌唱振幅ベクトルA、歌唱音高ベクトルF、声質特徴量M、及び技巧特徴量Sのそれぞれの代表値と、その共通する音符プロパティpが対応付けられたものである。
なお、情報処理装置3の制御部6が特徴量算出処理を実行することで生成される第1評価データSFは、可搬型の記憶媒体を用いて情報処理サーバ10の記憶部14に記憶されても良い。情報処理装置3と情報処理サーバ10とが通信網を介して接続されている場合には、情報処理装置3の記憶部5に記憶された第1評価データSFは、その通信網を介して転送されることで、情報処理サーバ10の記憶部14に記憶されても良い。
<評価データ生成処理>
この評価データ生成処理では、起動されると、図5に示すように、制御部16が、評価の対象とすべき歌手の歌手IDを取得する(S310)。このS310にて制御部16が取得する歌手IDは、カラオケ採点処理のS520(詳しくは後述)にて指定された歌手に対応するものであっても良いし、情報処理サーバ10に接続された入力装置(図示せず)を介して入力されたものであっても良い。
続いて、評価の対象とすべき楽曲の楽曲IDを取得する(S320)。このS310にて制御部16が取得する歌手IDは、カラオケ採点処理のS520(詳しくは後述)にて指定された楽曲に対応するものであっても良いし、情報処理サーバ10に接続された入力装置(図示せず)を介して入力されたものであっても良い。
さらに、評価データ生成処理では、制御部16は、記憶部14に記憶されている全てのMIDI楽曲MDの中から、S320で取得した楽曲IDに対応するMIDI楽曲MDを取得する(S330)。
続いて、制御部16は、S310にて取得したMIDI楽曲MDのメロディトラックを分析し、そのメロディトラックを構成する各音符NO(b,i)の音符プロパティp(b,i)を特定する(S340)。ここでの符号bは、S310にて取得したMIDI楽曲MDに対応する楽曲を識別する符号である。
そして、評価データ生成処理では、制御部16は、S310にて取得した歌手IDが対応付けられた第1評価データSFを、記憶部14から取得する(S350)。続いて、制御部16は、S340での分析によって特定されたMIDI楽曲MDのメロディトラックを構成する各音符NO(b,i)に、S350にて取得した第1評価データを構成する各種情報を対応付けることで、第2評価データMSを生成する(S360)。ここで言う各種情報とは、特定の条件を満たす歌唱振幅ベクトルA、歌唱音高ベクトルF、分析窓の個数L、声質特徴量M、及び技巧特徴量Sのそれぞれの代表値である。さらに、ここで言う特定の条件とは、各音符NO(b,i)における音符プロパティp(b,i)と一致する音符プロパティpが対応付けられていることである。
なお、第1評価データSFの中に、特定の条件を満たす第1評価データSFが存在しないことも考えられる。この場合には、S360では、制御部6は、その音符NO(b,i)の音符プロパティp(b,i)に近接する音符プロパティpが対応付けられた歌唱振幅ベクトルA、歌唱音高ベクトルF、分析窓の個数L、声質特徴量M、及び技巧特徴量Sのそれぞれの代表値を、その音符NO(b,i)に割り当てれば良い。ここで言う近接する音符プロパティpとは、例えば、音階が一音違う、音符長が1階級違うことなどである。また、上記の方法とは別に、制御部6は、時間及び周波数の2つの軸について、両隣の2つの音符NO(b,i−1),NO(b,i+1)に対応する歌唱振幅ベクトルA、歌唱音高ベクトルF、分析窓の個数L、声質特徴量M、及び技巧特徴量Sのそれぞれの代表値を平均した値を、その音符NO(b,i)に割り当てても良い。
さらに、S360では、制御部16は、S350にて取得した第1評価データSFにおける歌手IDを、生成した第2評価データMSに対応付けて記憶部14に記憶する。
その後、本評価データ生成処理を終了する。
つまり、評価データ生成処理では、図6に示すように、MIDI楽曲MDにおける歌唱旋律を構成する各音符NO(b,i)に、その音符NO(b,i)の音符プロパティpと共通する音符プロパティpが対応付けられた歌唱振幅ベクトルA、歌唱音高ベクトルF、声質特徴量M、及び技巧特徴量Sのそれぞれの代表値を割り当てることで、第2評価データMSを生成する。この第2評価データMSは、カラオケ装置30のユーザによって指定された歌手ごと、かつ、ユーザによって指定された楽曲ごとに生成される。
<カラオケ採点処理>
カラオケ採点処理は、カラオケ採点処理を実行するための処理プログラムを起動する指令が入力されると起動される。
そして、カラオケ採点処理では、起動されると、図7に示すように、制御部50は、まず、入力受付部34を介して指定された歌手に対応する歌手IDを取得する(S510)。制御部50は、このS510にて制御部50が取得した歌手IDを、情報処理サーバ10に出力し、評価データ生成処理におけるS310にて制御部16に取得させても良い。
続いて、入力受付部34を介して指定された楽曲に対応する楽曲IDを取得する(S520)。制御部50は、S520にて制御部50が取得した楽曲IDを、情報処理サーバ10に出力し、評価データ生成処理におけるS320にて制御部16に取得させても良い。
続いて、制御部50は、S520にて取得した楽曲IDに対応するMIDI楽曲MDを、情報処理サーバ10の記憶部14から取得する(S530)。さらに、制御部50は、S530にて取得したMIDI楽曲MDを演奏する(S540)。具体的にS540では、制御部50は、楽曲再生部36にMIDI楽曲MDを出力し、そのMIDI楽曲MDを取得した楽曲再生部36は、楽曲の演奏を行う。そして、楽曲再生部36によって演奏された楽曲の音源信号が、出力部42を介してスピーカ60へと出力される。すると、スピーカ60は、音源信号を音に換えて出力する。
さらに、カラオケ採点処理では、制御部50は、マイク62及びマイク入力部44を介して入力された音声を音声データとして取得する(S550)。そして、制御部50は、S530にて取得した音声データを記憶部38に記憶する(S560)。
続いて、カラオケ採点処理では、制御部50は、楽曲の演奏を終了したか否かを判定する(S570)。この判定の結果、楽曲の演奏を終了していなければ(S570:NO)、制御部50は、カラオケ採点処理をS550へと戻す。一方、S570での判定の結果、楽曲の演奏が終了していれば(S570:YES)、制御部50は、カラオケ採点処理をS580へと移行させる。
そのS580では、制御部50は、記憶部38に記憶されている全ての音声データを取得する。そして、制御部50は、楽曲における時間軸に沿った音声データから、歌唱旋律を構成する各音符NO(c,i)を歌唱した区間の歌唱波形(以下、「音符音声データ」と称す)Vos(c,i)それぞれを抽出する(S590)。この音符音声データの特定は、例えば、「ボーカルデータ」を「歌唱データ」へと読み替えた上で、特徴量算出処理におけるS160と同様の手法を用いれば良い。ここでの符号cは、S530にて取得したMIDI楽曲MDに対応する楽曲を表す符号である。
続いて、カラオケ採点処理では、制御部50は、各音符音声データVos(c,i)における歌い方の特徴を表す歌唱特徴量を算出する(S600)。ここで言う歌唱特徴量とは、歌声振幅ベクトルAA(c,i)と、歌声音高ベクトルFF(c,i)とを含む。この歌声振幅ベクトルAA、及び歌声音高ベクトルFFのうちの少なくともいずれか一方は、特許請求の範囲の記載における歌唱変化量の一例である。
このうち、歌声振幅ベクトルAA(c,i)は、音符音声データVos(c,i)の振幅の音符NO(c,i)に対応する区間内での推移を表す。この歌声振幅ベクトルAA(c,i)の算出方法は、「音符ボーカル」を「音符音声データ」へと読み替えた上で、特徴量算出処理におけるS170,S180と同様の手法を用いれば良い。
歌声音高ベクトルFF(c,i)は、音符音声データの基本周波数の音符NO(c,i)に対応する区間内での推移を表す。この歌声音高ベクトルFF(c,i)の算出方法は、「音符ボーカル」を「音符音声データ」へと読み替えた上で、特徴量算出処理におけるS170,S190と同様の手法を用いれば良い。
さらに、カラオケ採点処理では、制御部50は、各音符音声データVos(c,i)におけるユーザの声質を表す歌唱声質MM(c,i)を算出する(S610)。この歌唱声質MM(c,i)の算出方法は、「音符ボーカル」を「音符音声データ」へと読み替えた上で、特徴量算出処理におけるS170,S210と同様の手法を用いれば良い。
続いて、制御部50は、各音符音声データVos(c,i)におけるユーザの歌唱技巧を評価した歌唱技巧量SS(c,i)を算出する(S620)。この歌唱技巧量SS(c,i)には、歌声ビブラート特徴量Vvib(c,i)と、歌声ため特徴量Vtt(c,i)と、歌声しゃくり特徴量Vrise(c,i)と、歌声フォール特徴量Vfall(c,i)と、こぶし特徴量Vkob(c,i)とを含む。
このうち、歌声ビブラート特徴量Vvib(c,i)は、音符音声データVos(c,i)における“ビブラート”についての歌唱技巧量である。歌声ため特徴量Vtt(c,i)は、音符音声データVos(c,i)における“ため”についての歌唱技巧量である。歌声しゃくり特徴量Vrise(c,i)は、音符音声データVos(c,i)における“しゃくり”についての歌唱技巧量である。歌声フォール特徴量Vfall(c,i)は、音符音声データVos(c,i)における“フォール”についての歌唱技巧量である。また、こぶし特徴量Vkob(c,i)は、音符音声データVos(c,i)における“こぶし”についての歌唱技巧量である。
これらの歌声ビブラート特徴量Vvib(c,i)、歌声ため特徴量Vtt(c,i)、歌声しゃくり特徴量Vrise(c,i)、歌声フォール特徴量Vfall(c,i)、及びこぶし特徴量Vkob(c,i)の算出方法は、「ボーカルデータ」を「音声データ」へと、「音符ボーカル」を「音符音声データ」へと読み替えた上で、特徴量算出処理におけるS200と同様の手法を用いれば良い。
カラオケ採点処理では、続いて、制御部50は、S510にて取得した歌手IDかつS520にて取得した楽曲IDに対応する第2評価データMSを情報処理サーバ10の記憶部14から取得する(S630)。続いて、制御部50は、S510にて取得した歌手IDに対応する歌手が、S520にて取得した楽曲IDに対応する楽曲を歌唱したと想定した場合に表れる、その歌手の歌い方の特徴をユーザが歌唱によって再現して度合いを評価した評価点を算出する(S640)。
このS640では、制御部50は、音高正確度、振幅正確度、技巧正確度、及び声質正確度のそれぞれを評価点として算出する。具体的には、制御部50は、第2評価データMSにおける各音符NO(c,i)の歌唱振幅ベクトルA(c,i)と、S600にて算出した歌声振幅ベクトルAA(c,i)との相関値を、対応する音符NO(c,i)ごとに算出する。そして、制御部50は、音符NO(c,i)ごとに算出した相関値の全ての音符NOに渡る相加平均を振幅正確度として算出する。つまり、振幅正確度は、プロの歌手が楽曲cを歌唱した場合に表れると推定される音符NO(c,i)に対応する区間内での音圧の推移に、ユーザの音符NO(c,i)に対応する区間内での音圧の推移が類似するほど、高い値となる。
また、制御部50は、第2評価データMSにおける各音符NO(i)の歌唱音高ベクトルF(c,i)と、S600にて算出した歌声音高ベクトルFF(c,i)との相関値を、対応する音符NO(c,i)ごとに算出する。そして、制御部50は、音符NO(c,i)ごとに算出した相関値の全ての音符NOに渡る相加平均を音高正確度として算出する。つまり、音高正確度は、プロの歌手が楽曲cを歌唱した場合に表れると推定される音符NO(c,i)に対応する区間内での基本周波数f0の推移に、ユーザの音符NO(c,i)に対応する区間内での基本周波数f0の推移が類似するほど、高い値となる。
さらに、制御部50は、第2評価データMSにおける各音符NO(c,i)のビブラート特徴量vib(c,i)と、S630にて算出した歌声ビブラート特徴量Vvib(c,i)との相関値を、対応する音符NO(c,i)ごとに算出する。そして、制御部50は、音符NO(c,i)ごとに算出した相関値の全ての音符NOに渡る相加平均を、技巧正確度のうちの“ビブラート”に関する評価として算出する。
制御部50は、第2評価データMSにおける各音符NO(i)のため特徴量tt(c,i)と、S630にて算出した歌声ため特徴量Vtt(c,i)との相関値を、対応する音符NO(c,i)ごとに算出する。そして、制御部50は、音符NO(c,i)ごとに算出した相関値の全ての音符NOに渡る相加平均を、技巧正確度のうちの“ため”に関する評価として算出する。
制御部50は、第2評価データMSにおける各音符NO(i)のしゃくり特徴量rise(c,i)と、S630にて算出した歌声しゃくり特徴量Vrise(c,i)との相関値を、対応する音符NO(c,i)ごとに算出する。そして、制御部50は、音符NO(c,i)ごとに算出した相関値の全ての音符NOに渡る相加平均を、技巧正確度のうちの“しゃくり”に関する評価として算出する。
制御部50は、第2評価データMSにおける各音符NO(i)のフォール特徴量fall(c,i)と、S630にて算出した歌声フォール特徴量Vfall(c,i)との相関値を、対応する音符NO(c,i)ごとに算出する。そして、制御部50は、音符NO(c,i)ごとに算出した相関値の全ての音符NOに渡る相加平均を、技巧正確度のうちの“フォール”に関する評価として算出する。
なお、S640においては、制御部50は、第2評価データMSにおける各音符NO(i)のこぶし特徴量kob(c,i)と、S630にて算出したこぶし特徴量Vkob(c,i)との相関値を、対応する音符NO(c,i)ごとに算出する。そして、制御部50は、音符NO(c,i)ごとに算出した相関値の全ての音符NOに渡る相加平均を、技巧正確度のうちの“こぶし”に関する評価として算出する。
さらに、S640においては、第2評価データMSにおける各音符NO(c,i)の声質特徴量M(c,i)と、S610にて算出した歌唱声質MM(c,i)との相関値を、対応する音符NO(c,i)ごとに算出する。そして、制御部50は、音符NO(c,i)ごとに算出した相関値の全ての音符NOに渡る相加平均を声質正確度として算出する。つまり、声質正確度は、プロの歌手が楽曲cを歌唱した場合に表れると推定される声質にユーザの声質が類似するほど、高い値となる。
そして、制御部50は、S600にて算出した音高正確度、振幅正確度、声質正確度、及び技巧正確度のそれぞれを表示部64に表示させる(S650)。S650での表示は、制御部50が、映像制御部46を介して表示部64に対して制御信号を出力することで実現する。
その後、本カラオケ採点処理を終了し、次の起動タイミングまで待機する。つまり、カラオケ採点処理では、制御部50は、ユーザに指定された楽曲を演奏する。これと共に、カラオケ採点処理では、制御部50は、楽曲の演奏中に入力された音声データを解析して歌唱特徴量(即ち、歌声振幅ベクトルAA、及び歌声音高ベクトルFF)、歌唱声質MM、及び歌唱技巧量SSを算出する。さらに、カラオケ採点処理では、制御部50は、歌声振幅ベクトルAAと歌唱振幅ベクトルAとの相関値を振幅正確度として算出する。また、カラオケ採点処理では、制御部50は、歌声音高ベクトルFFと歌唱音高ベクトルFとの相関値を音高正確度として算出する。さらに、カラオケ採点処理では、制御部50は、歌唱声質MMと声質特徴量Mとの相関値を声質正確度として算出する。カラオケ採点処理では、制御部50は、歌唱技巧量SSと技巧特徴量Sとの相関値を技巧正確度として算出する。
[実施形態の効果]
以上説明したように、特徴量算出処理が実行されることで算出される歌唱振幅ベクトルA(a,i)は、音符ボーカルVo(a,i)の振幅が音符NO(a,i)に対応する区間内で推移したものである。また、特徴量算出処理が実行されることで算出される歌唱音高ベクトルF(a,i)は、音符ボーカルVo(a,i)の基本周波数f0が音符NO(a,i)に対応する区間内で推移したものである。
これらの歌唱振幅ベクトルA及び歌唱音高ベクトルFには、その楽曲aを歌唱した人物の歌い方の特徴が表れる。また、特徴量算出処理が実行されることで算出される声質特徴量M(a,i)は、音符ボーカルVo(a,i)におけるメル周波数ケプストラム(MFCC)であり、その楽曲aを歌唱した人物の各音符における声質を表す。
つまり、特徴量算出処理によれば、特徴量算出処理を実行することで生成される第1評価データSFを、楽曲aを歌唱した歌手特有の歌い方の特徴に加えて、歌手特有の声質を表したものとすることができる。
さらに、特徴量算出処理では、音符プロパティpが一致する音符NOごとに、歌唱振幅ベクトルA、歌唱音高ベクトルF、及び声質特徴量Mの代表値を求めて、その歌唱振幅ベクトルA、歌唱音高ベクトルF、及び声質特徴量Mの代表値を第1評価データSFとしている。このため、特徴量算出処理によれば、第1評価データSFのデータ量を低減できる。
ところで、楽曲においては、音高及び音価の組み合わせが一致する複数の音符に対して異なる歌詞が割り当てられていることがある。この場合、楽曲を歌唱した歌手は、音符と歌詞との組み合わせによって、歌唱の方法が異なる可能性が高い。
このため、特徴量算出処理では、音符プロパティpに、音符NOの音高と音符長とに加えて、歌詞の音節や歌詞の母音を含んでいる。このように、音符プロパティpに歌詞に関する情報を含むことで、特徴量算出処理では、音符NOの音高と音符長と歌詞の音節と歌詞の母音との組み合わせが一致する音符ごとに、歌唱振幅ベクトルA及び歌唱音高ベクトルFの代表値を算出できる。
また、前音符NO(a,i−1)から音符NO(a,i)へとボーカルデータが切り替わった場合や、音符NO(a,i)から後音符NO(a,i+1)へとボーカルデータが切り替わった場合には、それらの音符NOの組み合わせごとに、歌唱振幅ベクトルA及び歌唱音高ベクトルFが異なる。
このため、特徴量算出処理では、対象音符属性に加えて前音符属性及び後音符属性を、音符プロパティpに含んでいる。このように前音符属性及び後音符属性を音符プロパティpに含むことで、特徴量算出処理によれば、代表値を求める対象を共通の音符群とすることができる。
これらの結果、特徴量算出処理によれば、歌手の歌い方のより細かな特徴の表現を評価可能な第1評価データSFを求めることができる。また、評価データ生成処理における第2評価データMSの生成方法は、カラオケ装置30のユーザによって指定されたMIDI楽曲MDにおける歌唱旋律を構成する各音符NO(b,i)に、カラオケ装置30のユーザによって指定された歌手IDが対応付けられた第1評価データSFであって、音符NO(b,i)の音符プロパティpと共通する音符プロパティpが対応付けられた歌唱振幅ベクトルA、歌唱音高ベクトルF、及び声質特徴量Mの代表値を割り当てることである。
このような評価データ生成処理によれば、ユーザによって指定された歌手が、ユーザによって指定された楽曲を歌唱した場合に表れると想定される、その歌手の歌い方の特徴を表した第2評価データを生成できる。
そして、第2評価データを用いて歌唱を評価するカラオケ採点処理によれば、ユーザによって指定された歌手が、ユーザによって指定された楽曲を歌唱した場合に表れると想定される、その歌手の歌い方の特徴を、ユーザが表現している度合い、即ち、ユーザによる物まねの程度を評価できる。
特に、カラオケ採点処理によれば、音声データにおける振幅または基本周波数の各音符における推移が、ユーザによって指定された歌手が歌唱した場合に表れると想定した場合の特徴に対する類似度合いを評価できる。また、カラオケ採点処理によれば、カラオケ装置30のユーザが歌った歌唱音声における声質が、ユーザによって指定された歌手が、ユーザによって指定された楽曲を歌唱した場合に表れると想定される、その歌手にどの程度類似しているのかという類似性を評価できる。
[その他の実施形態]
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。
例えば、上記実施形態における特徴量算出処理は、情報処理装置3にて実行されていたが、本発明において特徴量算出処理を実行する装置は、情報処理装置3に限るものではない。すなわち、特徴量算出処理を実行する装置は、情報処理サーバ10であっても良いし、カラオケ装置30であっても良い。この場合、情報処理装置3は、システム1から省略されていても良い。
上記実施形態における評価データ生成処理は、情報処理サーバ10にて実行されていたが、本発明において評価データ生成処理を実行する装置は、情報処理サーバ10に限るものではなく、情報処理装置3であっても良いし、カラオケ装置30であっても良い。
上記実施形態におけるカラオケ採点処理は、カラオケ装置30にて実行されていたが、本発明においてカラオケ採点処理を実行する装置は、カラオケ装置30に限るものではなく、情報処理装置3であっても良い。
ところで、上記実施形態においては、特徴量算出処理と評価データ生成処理とは別個の処理として構成されていたが、本発明においては、特徴量算出処理と評価データ生成処理とは1つの処理として構成されていても良い。この場合、特徴量算出処理と評価データ生成処理とからなる1つの処理は、情報処理サーバ10にて実行されても良いし、情報処理装置3にて実行されても良い。
また、上記実施形態においては、評価データ生成処理とカラオケ採点処理とは別個の処理として構成されていたが、本発明においては、評価データ生成処理とカラオケ採点処理とは1つの処理として構成されていても良い。この場合、評価データ生成処理とカラオケ採点処理とからなる1つの処理は、情報処理サーバ10にて実行されても良いし、カラオケ装置30にて実行されても良い。
さらには、本発明においては、特徴量算出処理と評価データ生成処理とカラオケ採点処理とが1つの処理として構成されていても良い。この場合、特徴量算出処理と評価データ生成処理とカラオケ採点処理とからなる1つの処理は、情報処理装置3にて実行されても良いし、カラオケ装置30にて実行されても良い。特徴量算出処理と評価データ生成処理とカラオケ採点処理とからなる1つの処理がカラオケ装置30にて実行される場合には、情報処理装置3は、システム1から省略されていても良い。
ところで、上記実施形態においては、音符プロパティpに、対象音符属性、前音符属性、及び後音符属性を含んでいたが、音符プロパティpには、対象音符属性だけを含んでも良いし、対象音符属性と、前音符属性及び後音符属性のうちのいずれかだけを含んでも良い。
ところで、上記実施形態のカラオケ採点処理におけるS640では、振幅正確度について、歌声振幅ベクトルAAと歌唱振幅ベクトルAとの相関値を算出することで求めていたが、振幅正確度の算出方法は、これに限るものではなく、歌声振幅ベクトルAAと歌唱振幅ベクトルAとの内積を、振幅正確度としても良い。
上記実施形態のカラオケ採点処理におけるS640では、音高正確度について、歌声音高ベクトルFFと歌唱音高ベクトルFとの相関値を算出することで求めていたが、音高正確度の算出方法は、これに限るものではなく、歌声音高ベクトルFFと歌唱音高ベクトルFとの内積を、音高正確度としても良い。
上記実施形態のカラオケ採点処理におけるS640では、声質正確度について、歌唱声質MMと声質特徴量Mとの相関値を算出することで求めていたが、声質正確度の算出方法は、これに限るものではなく、歌唱声質MMと声質特徴量Mとの内積を、声質正確度としても良い。
上記実施形態のカラオケ採点処理におけるS640では、技巧正確度について、歌声技巧量SSと技巧特徴量Sとの相関値を算出することで求めていたが、技巧正確度の算出方法は、これに限るものではなく、歌声技巧量SSと技巧特徴量Sとの内積を、技巧正確度としても良い。
さらに、上記実施形態のカラオケ採点処理におけるS640では、楽曲における特徴的な技巧が強く表れているほど、大きな点数となるように技巧ごとに予め規定された重みを、技巧正確度のうちの、ビブラートに関する評価、ために関する評価、しゃくりに関する評価、フォールに関する評価、こぶしに関する評価のそれぞれに付与した重み付き演算することで、1つの技巧正確度を算出しても良い。
なお、上記実施形態の構成の一部を、課題を解決できる限りにおいて省略した態様も本発明の実施形態である。また、上記実施形態と変形例とを適宜組み合わせて構成される態様も本発明の実施形態である。また、特許請求の範囲に記載した文言によって特定される発明の本質を逸脱しない限度において考え得るあらゆる態様も本発明の実施形態である。
1…システム 3…情報処理装置 5,14,38…記憶部 6,16,50…制御部 7,18,52…ROM 8,20,54…RAM 9,22,56…CPU 10…情報処理サーバ 12,32…通信部 30…カラオケ装置 34…入力受付部 36…楽曲再生部 40…音声制御部 42…出力部 44…マイク入力部 46…映像制御部 60…スピーカ 62…マイク 64…表示部

Claims (9)

  1. 楽曲を識別する楽曲識別情報を取得する第1情報取得ステップと、
    前記第1情報取得ステップで取得した楽曲識別情報を用いて、音高及び音符長が規定された複数の第1音符から構成される第1楽譜データを、第1記憶部から取得する第1取得ステップと、
    歌手を識別する歌手識別情報を取得する第2情報取得ステップと、
    複数の第2音符ごとにおける音高及び音符長に対応付けられた特徴変化量であって、ボーカル音を含む楽曲データから抽出されたボーカルデータの振幅と基本周波数との少なくともいずれか一方の推移を表す特徴変化量と、前記歌手識別情報とを対応付けて記憶した第2記憶部から、前記歌手識別情報と対応付けられた前記特徴変化量を取得する第2取得ステップと、
    前記第2取得ステップで取得した特徴変化量、及び前記第1取得ステップで取得した第1楽譜データに基づいて、前記第1楽譜データを構成する第1音符に、前記第1音符における音高及び音符長に一致する前記第2音符での特徴変化量を対応付けることで、評価データを生成する生成ステップと、
    前記生成ステップで生成した評価データを用いて、音声入力部から取得した音声データを評価する評価ステップと、
    をコンピュータに実行させることを特徴とするプログラム。
  2. 前記楽曲データを取得する第3取得ステップと、
    前記第3取得ステップにより取得された楽曲データから、前記ボーカル音を表すボーカルデータを抽出する抽出ステップと、
    音高及び音符長が規定された複数の第2音符から構成される第2楽譜データを取得する第4取得ステップと、
    前記第4取得ステップで取得した第2楽譜データに含まれる前記複数の第2音符それぞれの音符長である第1時間長と、前記複数の第2音符間の時間長である第2時間長とに基づいて、前記ボーカルデータの中で、前記複数の第2音符それぞれに対応する音符ボーカルデータを特定する第1特定ステップと、
    前記第1特定ステップにより特定された前記音符ボーカルデータに基づいて、前記複数の第2音符それぞれの前記特徴変化量を決定する第1決定ステップと、
    前記第1決定ステップにより決定された前記特徴変化量と、前記歌手識別情報とを対応付けて、前記第2記憶部に記憶する記憶制御ステップと、
    をさらにコンピュータに実行させることを特徴とする請求項1に記載のプログラム。
  3. 前記第2楽譜データには、前記複数の第2音符に割り当てられた歌詞を表す歌詞情報を含み、
    前記プログラムは、
    前記第4取得ステップで取得した第2楽譜データに含まれる前記複数の第2音符それぞれの音高、前記第1時間長、及び前記歌詞情報と、前記第1決定ステップで決定された特徴変化量とを、対応する前記第2音符に対応付け、
    さらに、前記複数の第2音符の中で、前記音高と前記第1時間長と前記歌詞情報との組み合わせが所定の条件を満たす前記第2音符について、前記特徴変化量の代表値を決定する第2決定ステップ、
    をコンピュータに実行させ、
    前記記憶制御ステップは、
    前記第2決定ステップにより決定された前記特徴変化量の代表値と、前記歌手識別情報とを対応付けて前記第2記憶部に記憶させることを特徴とする請求項2に記載のプログラム。
  4. 前記第2楽譜データには、前記複数の第2音符に割り当てられた歌詞を表す歌詞情報を含み、
    前記プログラムは、
    前記第4取得ステップで取得した第2楽譜データに含まれる前記複数の第2音符それぞれの音高、前記第1時間長、前記第2時間長、及び前記歌詞情報と、前記第1決定ステップで決定された特徴変化量とを、対応する前記第2音符ごとに対応付け、
    さらに、前記複数の第2音符の中で、前記音高と前記第1時間長と前記第2時間長と前記歌詞情報との組み合わせが所定の条件を満たす前記第2音符について、前記特徴変化量の代表値を決定する第2決定ステップと、
    をコンピュータに実行させ、
    前記記憶制御ステップは、
    前記第2決定ステップにより決定された前記特徴変化量の代表値と、前記歌手識別情報とを対応付けて前記第2記憶部に記憶させることを特徴とする請求項2に記載のプログラム。
  5. 前記第1決定ステップは、
    前記音符ボーカルデータに、少なくとも2つ以上の分析窓を時間軸に沿って連続するように設定する設定ステップと、
    前記設定ステップにより設定された前記分析窓それぞれにおける前記音符ボーカルデータの振幅及び基本周波数の少なくともいずれか一方の値を決定し、前記音符ボーカルデータの振幅及び基本周波数の少なくともいずれか一方の値が時間軸に沿って変化する量を前記特徴変化量として決定する変化量決定ステップと
    を前記コンピュータに実行させることを特徴とする請求項2から請求項4までのいずれか一項に記載のプログラム。
  6. 前記評価ステップは、
    前記音声入力部を介して前記音声データを取得する音声取得ステップと、
    前記音声取得ステップにより取得された前記音声データに基づいて、前記音声データの中で、前記複数の第1音符にそれぞれ対応する音符音声データを特定する第2特定ステップと、
    前記音符音声データの振幅及び基本周波数の少なくともいずれか一方の推移を表す歌唱変化量を、前記複数の第1音符それぞれについて決定する特徴決定ステップと、
    前記歌唱変化量と、前記評価データに含まれる特徴変化量との第1相関値を決定し、その決定した前記第1相関値が高いほど高い評価とする評価決定ステップと
    を前記コンピュータに実行させることを特徴とする請求項1から請求項5までのいずれか一項に記載のプログラム。
  7. 前記第2記憶部には、前記複数の第2音符ごとにおける音高及び音符長に対応付けられた声質特徴量であって、前記ボーカルデータのメル周波数ケプストラムである前記声質特徴量が、前記特徴変化量と前記歌手識別情報と対応付けて記憶され、
    前記第2取得ステップは、前記第2記憶部から、前記第2情報取得ステップにて取得した歌手識別情報と対応付けられた前記特徴変化量及び前記声質特徴量を取得し、
    前記生成ステップは、前記特徴変化量及び前記声質特徴量、及び前記第1取得ステップで取得した第1楽譜データに基づいて、前記第1楽譜データを構成する第1音符に、前記第1音符における音高及び音符長に一致する前記第2音符での特徴変化量及び前記声質特徴量を対応付けることで、評価データを生成し、
    前記特徴決定ステップは、前記音符音声データのメル周波数ケプストラムを表す歌唱声質を、前記複数の第1音符それぞれについて決定し、
    前記評価決定ステップは、前記歌唱声質と、前記評価データに含まれる声質特徴量との第2相関値を決定し、その決定した前記第2相関値が高いほど高い評価とすることを特徴とする請求項6に記載のプログラム。
  8. 楽曲を識別する楽曲識別情報を取得する第1情報取得手段と、
    前記第1情報取得手段で取得した楽曲識別情報を用いて、音高及び音符長が規定された複数の第1音符から構成される第1楽譜データを、第1記憶部から取得する第1取得手段と、
    歌手を識別する歌手識別情報を取得する第2情報取得手段と、
    複数の第2音符ごとにおける音高及び音符長に対応付けられた特徴変化量であって、ボーカル音を含む楽曲データから抽出されたボーカルデータの振幅と基本周波数との少なくともいずれか一方の推移を表す特徴変化量と、前記歌手識別情報とを対応付けて記憶した第2記憶部から、前記歌手識別情報と対応付けられた前記特徴変化量を取得する第2取得手段と、
    前記第2取得手段で取得した特徴変化量、及び前記第1取得手段で取得した第1楽譜データに基づいて、前記第1楽譜データを構成する第1音符に、前記第1音符における音高及び音符長に一致する前記第2音符での特徴変化量を対応付けることで、評価データを生成する生成手段と、
    前記生成手段で生成した評価データを用いて、音声入力部から取得した音声データを評価する評価手段と、
    を備えることを特徴とする情報処理装置。
  9. 楽曲を識別する楽曲識別情報を、情報処理装置が取得する第1情報取得手順と、
    前記第1情報取得手順で取得した楽曲識別情報を用いて、音高及び音符長が規定された複数の第1音符から構成される第1楽譜データを、第1記憶部から、前記情報処理装置が取得する第1取得手順と、
    歌手を識別する歌手識別情報を、前記情報処理装置が取得する第2情報取得手順と、
    複数の第2音符ごとにおける音高及び音符長に対応付けられた特徴変化量であって、ボーカル音を含む楽曲データから抽出されたボーカルデータの振幅と基本周波数との少なくともいずれか一方の推移を表す特徴変化量と、前記歌手識別情報とを対応付けて記憶した第2記憶部から、前記歌手識別情報と対応付けられた前記特徴変化量を、前記情報処理装置が取得する第2取得手順と、
    前記第2取得手順で取得した特徴変化量、及び前記第1取得手順で取得した第1楽譜データに基づいて、前記第1楽譜データを構成する第1音符に、前記第1音符における音高及び音符長に一致する前記第2音符での特徴変化量を対応付けることで、評価データを、前記情報処理装置が生成する生成手順と、
    前記生成手順で生成した評価データを用いて、音声入力部から取得した音声データを、前記情報処理装置が評価する評価手順と、
    を備えることを特徴とする評価方法。
JP2014060254A 2014-03-24 2014-03-24 プログラム,情報処理装置,及び評価方法 Active JP6075314B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014060254A JP6075314B2 (ja) 2014-03-24 2014-03-24 プログラム,情報処理装置,及び評価方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014060254A JP6075314B2 (ja) 2014-03-24 2014-03-24 プログラム,情報処理装置,及び評価方法

Publications (2)

Publication Number Publication Date
JP2015184448A true JP2015184448A (ja) 2015-10-22
JP6075314B2 JP6075314B2 (ja) 2017-02-08

Family

ID=54351049

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014060254A Active JP6075314B2 (ja) 2014-03-24 2014-03-24 プログラム,情報処理装置,及び評価方法

Country Status (1)

Country Link
JP (1) JP6075314B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017134346A (ja) * 2016-01-29 2017-08-03 ブラザー工業株式会社 カラオケシステム、カラオケ装置、及びプログラム
WO2021157615A1 (ja) * 2020-02-04 2021-08-12 Jeインターナショナル株式会社 音声補正装置、歌唱システム、音声補正方法、およびプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1069216A (ja) * 1996-08-27 1998-03-10 Yamaha Corp カラオケ装置
JP2001117568A (ja) * 1999-10-21 2001-04-27 Yamaha Corp 歌唱評価装置およびカラオケ装置
JP2007232750A (ja) * 2006-02-27 2007-09-13 Yamaha Corp カラオケ装置、制御方法およびプログラム
JP2010085657A (ja) * 2008-09-30 2010-04-15 Brother Ind Ltd 難易度推定システムおよびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1069216A (ja) * 1996-08-27 1998-03-10 Yamaha Corp カラオケ装置
JP2001117568A (ja) * 1999-10-21 2001-04-27 Yamaha Corp 歌唱評価装置およびカラオケ装置
JP2007232750A (ja) * 2006-02-27 2007-09-13 Yamaha Corp カラオケ装置、制御方法およびプログラム
JP2010085657A (ja) * 2008-09-30 2010-04-15 Brother Ind Ltd 難易度推定システムおよびプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017134346A (ja) * 2016-01-29 2017-08-03 ブラザー工業株式会社 カラオケシステム、カラオケ装置、及びプログラム
WO2021157615A1 (ja) * 2020-02-04 2021-08-12 Jeインターナショナル株式会社 音声補正装置、歌唱システム、音声補正方法、およびプログラム

Also Published As

Publication number Publication date
JP6075314B2 (ja) 2017-02-08

Similar Documents

Publication Publication Date Title
JP6060867B2 (ja) 情報処理装置,データ生成方法,及びプログラム
JP5598516B2 (ja) カラオケ用音声合成システム,及びパラメータ抽出装置
JP6075314B2 (ja) プログラム,情報処理装置,及び評価方法
JP6075313B2 (ja) プログラム,情報処理装置,及び評価データ生成方法
JP5292702B2 (ja) 楽音信号生成装置及びカラオケ装置
JP6098422B2 (ja) 情報処理装置、及びプログラム
JP5782972B2 (ja) 情報処理システム,プログラム
JP6252420B2 (ja) 音声合成装置、及び音声合成システム
JP6056799B2 (ja) プログラム、情報処理装置、及びデータ生成方法
JP2013210501A (ja) 素片登録装置,音声合成装置,及びプログラム
JP5810947B2 (ja) 発声区間特定装置、音声パラメータ生成装置、及びプログラム
JP6260565B2 (ja) 音声合成装置、及びプログラム
JP5983670B2 (ja) プログラム、情報処理装置、及びデータ生成方法
JP6365483B2 (ja) カラオケ装置,カラオケシステム,及びプログラム
JP6011506B2 (ja) 情報処理装置,データ生成方法,及びプログラム
JP5413380B2 (ja) 楽曲データ修正装置
JP6406182B2 (ja) カラオケ装置、及びカラオケシステム
JP6252408B2 (ja) 表示制御装置,及び表示制御システム
JP6281447B2 (ja) 音声合成装置,及び音声合成システム
JP6090043B2 (ja) 情報処理装置、及びプログラム
JP5569307B2 (ja) プログラム、及び編集装置
JP6260499B2 (ja) 音声合成システム、及び音声合成装置
JP6365561B2 (ja) カラオケシステム、カラオケ装置、及びプログラム
JP5845857B2 (ja) パラメータ抽出装置、音声合成システム
JP2016071188A (ja) 採譜装置、及び採譜システム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160524

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160725

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161226

R150 Certificate of patent or registration of utility model

Ref document number: 6075314

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150