JP6365483B2

JP6365483B2 - カラオケ装置，カラオケシステム，及びプログラム

Info

Publication number: JP6365483B2
Application number: JP2015186811A
Authority: JP
Inventors: 典昭阿瀬見
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2015-09-24
Filing date: 2015-09-24
Publication date: 2018-08-01
Anticipated expiration: 2035-09-24
Also published as: JP2017062313A

Description

本発明は、歌唱音声を評価する技術に関する。

従来、楽曲を演奏すると共に、楽曲の演奏に併せて入力された歌唱音声を評価するカラオケ装置が知られている（特許文献１参照）。そして、特許文献１に記載されたカラオケ装置では、歌唱音声の評価を以下の手順で実施している。

特許文献１に記載されたカラオケ装置では、模範歌唱信号と歌唱信号とに対する二つの音声の特徴点を抽出し、特定話者単語音声認識を実施する。その特定話者単語音声認識によって得られた声質、発生単語の長さを比較し、この比較の結果を表す類似度を評価結果として出力する。

特開平１１−２５９０８１号公報

このようなカラオケ装置では、楽曲の実演家であるオリジナル歌手の歌い回しや声質に対する再現性を評価していると考えられる。
カラオケ装置のユーザの歌い回しや声質は、オリジナルの歌手の歌い回しや声質に類似していない場合が多い。

従来の技術では、オリジナルの歌手の歌い回しや声質に類似していない場合、評価が低くなり、当該ユーザのモチベーションが低下する可能性があるという課題があった。
そこで、本発明は、カラオケにおいて、ユーザのモチベーションが低下することを抑制する技術を提供することを目的とする。

上記目的を達成するためになされた本発明の一態様のカラオケ装置は、楽譜取得手段と、演奏手段と、波形取得手段と、特徴取得手段と、類似特定手段と、生成手段と、評価手段とを備える。

このうち、楽譜取得手段は、歌詞が割り当てられた楽曲のうち指定の楽曲について、音高と音符長とが規定された複数の構成音符が時間軸に沿って配置された楽譜データを取得する。

演奏手段は、楽譜取得手段で取得した楽譜データの前記構成音符に従って、前記指定の楽曲を演奏する。
さらに、波形取得手段は、演奏手段による前記指定の楽曲の演奏に合わせて歌唱したユーザの歌声の波形を表す波形データを取得する。

そして、特徴取得手段は、波形取得手段により取得した前記波形データから、歌唱の特徴を表す少なくとも１つの特徴量を含む歌声特徴量を取得する。
類似特定手段は、複数の歌手特徴データから、前記特徴取得手段により取得した前記歌声特徴量に類似する歌手特徴量を含む前記歌手特徴データを特定する。ここで言う複数の歌手特徴データとは、複数の既定の歌手それぞれについて、前記音高と音符長とが規定された各音符を含む単位音符と、前記単位音符に対する発声母音との組み合わせごとに、前記少なくとも一つの特徴量を含む歌手特徴量を対応付けたデータを歌手特徴データとして蓄積したデータ群である。

そして、生成手段は、楽譜取得手段で取得した指定楽譜データと、類似特定手段で取得した前記歌手特徴データとに基づいて、評価基準データを生成する。この評価基準データは、前記指定楽譜データを構成する構成音符に、前記歌手特徴データにおいて、当該構成音符の音高，音符長及び発声母音に一致する前記単位音符に対応付けられた歌手特徴量を割り当てたデータである。

そして、評価手段は、前記演奏手段による前記指定の楽曲の演奏に合わせて歌唱したユーザの歌声の波形を表す波形データを、前記生成手段で生成した評価基準データに基づいて評価する。

このようなカラオケ装置では、当該カラオケ装置のユーザの歌い方の特徴に類似する歌手（以下、類似歌手と称す）を特定する。そして、カラオケ装置では、その特定した類似歌手が指定楽曲を歌唱した場合に、各構成音符においてどのような歌い方となるのかを表す評価基準データを生成する。

すなわち、カラオケ装置によれば、ユーザの歌い方に近い、類似歌手が指定楽曲を歌唱した場合にどのような歌い方をするのかという点を基準として、ユーザの歌い方を評価できる。このため、カラオケ装置によれば、カラオケ装置のユーザがオリジナル歌手の歌い回しや声質に類似していない場合であっても、評価が低くなることを防止できる。

この結果、カラオケ装置によれば、評価が低いことに起因して、ユーザのモチベーションが上がらなくなることを抑制できる。
前記単位音符は、前記楽曲において時間軸に沿って連続する少なくとも２つの音符の組み合わせであってもよい。この場合、前記連続する少なくとも２つの音符の組み合わせには、前記歌手特徴量が対応付けられていてもよい。

さらに、類似特定手段は、前記歌手特徴データの前記連続する少なくとも２つの音符の組み合わせに対応付けられた前記歌手特徴量を用いて、前記歌声特徴量に類似する前記歌手特徴データを特定してもよい。

このようなカラオケ装置によれば、特徴データに含まれる情報をより詳しくできる。そして、カラオケ装置においては、当該カラオケ装置のユーザの歌唱をより詳細に評価できる。

また、本発明の一態様のカラオケ装置では、単位音符は、前記楽曲において時間軸に沿って連続する少なくとも３つの音符の組み合わせであってもよい。この場合、前記単位音符を構成する少なくとも３つの音符のうちの１つの音符に、音符長と、時間軸に沿って当該音符の演奏開始タイミングと当該音符の前後に演奏される音符の演奏開始タイミングとの時間差を示す時間長とが定められていてもよい。

さらに、類似特定手段は、前記歌手特徴データの前記音符長と、前記時間長とを用いて、前記歌声特徴量の前記特徴量に類似する前記歌手特徴データを特定してもよい。
カラオケ装置のユーザは、通常、構成音符の演奏開始タイミングを把握することで、楽曲におけるリズムを認識している。

したがって、カラオケ装置によれば、単位音符を構成する少なくとも３つの音符のうちの１つの音符に、音符長と、時間軸に沿って当該音符の演奏開始タイミングと当該音符の前後に演奏される音符の演奏開始タイミングとの時間差を示す時間長とを表すことで、楽曲におけるリズムを特徴量の分類項目とすることができる。

また、本発明の一態様のカラオケ装置では、前記少なくとも一つの特徴量のそれぞれは、予め規定された歌い方の項目それぞれにおける特徴量であってもよい。この場合、評価手段は、生成手段で生成した評価基準データにおける歌手特徴量と、前記特徴取得手段で取得した歌声特徴量との相関を前記少なくとも一つの特徴量の項目ごとに算出した結果を、前記評価とすればよい。

このようなカラオケ装置によれば、ユーザの歌唱を、歌声特徴量として規定された項目ごとに評価できる。
なお、本発明の一態様のカラオケ装置において、歌手特徴データは、前記複数の既定の歌手の中で、当該歌手に特徴的な歌い方の項目に対する特徴量を特定特徴量として、特徴的な歌い方の項目以外の他の特徴量より大きな重みが付されたものであってもよい。そして、類似特定手段は、前記特定特徴量に前記他の特徴量より大きな重みを付した前記歌手特徴データを用いて、前記歌声特徴量に類似する歌手特徴量を含む前記歌手特徴データを特定するものであってもよい。

さらに、生成手段は、前記歌手特徴データの前記特定特徴量に、前記特定特徴量以外の前記特徴量より大きな重みが付された前記歌声特徴量を用いて前記評価基準データを生成するものであってもよい。評価手段は、生成手段で生成した前記特定特徴量に重みが付された前記評価基準データにおける歌手特徴量と、前記指定の楽曲を歌唱した前記ユーザの歌唱の前記波形データから取得された前記歌声特徴量との相関が高いほど高い評価としてもよい。

このようなカラオケ装置によれば、特定した類似歌手における特徴的な歌い方を表現できているほど、高い評価とすることができる。
本発明の一態様におけるカラオケ装置は、波形取得手段で取得した波形データから、前記指定の楽曲を歌唱するユーザの歌唱の特徴を表す照合特徴量を導出する特徴導出手段を備えていてもよい。

さらに、カラオケ装置の評価手段は、前記特徴導出手段で導出した照合特徴量を、前記生成手段で生成した評価基準データにおける歌手特徴量に基づいて評価してもよい。
このようなカラオケ装置によれば、評価基準データにおける歌手特徴量に基づいて照合特徴量を評価できる。

本発明の一態様のカラオケ装置においては、評価手段での評価結果を報知する報知手段を備えていてもよい。
このようなカラオケ装置によれば、評価結果を報知できる。

さらに、本発明の一態様のカラオケ装置における報知手段は、類似特定手段で取得した類似特徴データに対応する既定の歌手である類似歌手に関する情報を報知してもよい。
カラオケ装置によれば、類似歌手に関する情報を報知できる。よって、カラオケ装置のユーザは、類似歌手を認識でき、類似歌手の歌い方がユーザ自身の歌い方に類似していることを知ることができる。

ここで言う「類似歌手に関する情報」には、類似歌手の名前やその類似歌手の歌い方の特徴などを含む。
本発明の一態様は、楽譜取得手段と、演奏手段と、波形取得手段と、特徴取得手段と、類似特定手段と、生成手段と、評価手段とを備えたカラオケシステムであってもよい。

このようなカラオケシステムによれば、カラオケ装置と同様の効果を得ることができる。
また、本発明の一態様は、楽譜取得手順と、演奏手順と、波形取得手順と、特徴取得手順と、類似特定手順と、生成手順と、評価手順とを、コンピュータに実行させるプログラムであってもよい。

このように、本発明がプログラムとしてなされていれば、記録媒体から必要に応じてコンピュータにロードさせて起動することや、必要に応じて通信回線を介してコンピュータに取得させて起動することにより用いることができる。そして、コンピュータに各手順を実行させることによって、当該コンピュータを、カラオケ装置と同様に動作させることができる。

カラオケシステムの概略構成を示すブロック図である。歌手特徴データの一例を示す説明図である。演奏処理の処理手順を示すフローチャートである。類似歌手特定処理の処理手順を示すフローチャートである。（Ａ）特徴量の１つである「タメ時間」を説明する説明図であり、（Ｂ）特徴量の１つである「音高特徴」を説明する説明図である。特徴量の１つである「ビブラート特徴」を説明する説明図である。評価処理の処理手順を示すフローチャートである。

以下に、本発明の一態様としての実施形態を図面と共に説明する。
＜カラオケシステム＞
図１に示すカラオケシステム１は、情報処理サーバ１０と、カラオケ装置３０とを備えている。カラオケシステム１は、カラオケ装置３０のユーザによって指定された楽曲を演奏すると共に、ユーザの歌唱を評価するシステムである。

本実施形態における楽曲とは、複数の構成音符が時間軸に沿って配置された楽曲であって、構成音符の少なくとも一部に歌詞が割り当てられた楽曲である。また、以下では、カラオケ装置３０のユーザによって指定された楽曲を指定の楽曲と称す。

なお、カラオケシステム１は、複数のカラオケ装置３０を備えている。
＜情報処理サーバ＞
情報処理サーバ１０は、通信部１２と、記憶部１４と、制御部１６とを備えている。

通信部１２は、通信網を介して、情報処理サーバ１０が外部との間で通信を行う。すなわち、情報処理サーバ１０は、通信網を介してカラオケ装置３０と接続されている。なお、ここで言う通信網は、有線による通信網であってもよいし、無線による通信網であってもよい。

記憶部１４は、記憶内容を読み書き可能に構成された周知の記憶装置である。この記憶部１４には、詳しくは後述する少なくとも１つのＭＩＤＩ楽曲ＭＤが記憶される。なお、図１に示す符号「ｎ」は、情報処理サーバ１０の記憶部１４に記憶されているＭＩＤＩ楽曲ＭＤを識別する識別子である。この符号「ｎ」は、１以上の自然数である。

さらに、記憶部１４には、後述する少なくとも１つの歌手特徴データＣＤが蓄積された歌手特徴データベースが格納されている。なお、図１に示す符号「ｍ」は、情報処理サーバ１０の記憶部１４に記憶されている歌手特徴データＣＤを識別する識別子である。この符号「ｍ」は、１以上の自然数である。

制御部１６は、ＲＯＭ１８，ＲＡＭ２０，ＣＰＵ２２を備えた周知のマイクロコンピュータを中心に構成された周知の制御装置である。ＲＯＭ１８は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを記憶する。ＲＡＭ２０は、処理プログラムやデータを一時的に記憶する。ＣＰＵ２２は、ＲＯＭ１８やＲＡＭ２０に記憶された処理プログラムに従って各処理を実行する。
＜ＭＩＤＩ楽曲＞
ＭＩＤＩ楽曲ＭＤは、楽曲ごとに予め用意されたデータである。ＭＩＤＩ楽曲ＭＤは、楽譜データと、歌詞データと、楽曲情報とを備えている。

楽譜データは、周知のＭＩＤＩ（ＭｕｓｉｃａｌＩｎｓｔｒｕｍｅｎｔＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ）規格によって、一つの楽曲の楽譜を表したデータである。この楽譜データは、楽曲の主旋律を表す主旋律楽譜トラックと、主旋律以外の旋律である副旋律を表す副旋律楽譜トラックとを備えている。

これらの楽譜トラックには、ＭＩＤＩ音源にて演奏される個々の構成音符について、少なくとも、音高（いわゆるノートナンバー）と、音符長とが規定されている。楽譜トラックにおける音符長は、当該構成音符のノートオンタイミングと、当該構成音符のノートオフタイミングとによって規定されている。

歌詞データは、楽曲の歌詞に関するデータである。歌詞データは、歌詞テキストデータと、歌詞出力データとを備えている。歌詞テキストデータは、楽曲の歌詞を構成する文字（以下、歌詞構成文字とする）を表す。歌詞出力データは、歌詞構成文字の出力タイミングである歌詞出力タイミングを、楽譜データに基づく演奏と対応付けるタイミング対応関係が規定されたデータである。

このタイミング対応関係においては、楽曲の主旋律を構成する構成音符のうちの少なくとも一部の構成音符に歌詞構成文字を割り当てることが規定されている。ここで言う「少なくとも一部の音符」とは、前奏や間奏を除くという意味を含むものである。したがって、歌詞構成文字は、例えば、Ａメロや、Ｂメロ、サビなどのフレーズを構成する構成音符に割り当てられている。

なお、本実施形態における歌詞構成文字は、歌詞を音節ごとに表した文字である。そして、本実施形態における歌詞構成文字には、各文字における母音を識別する情報を含む。
楽曲情報は、楽曲に関する情報である。楽曲情報には、楽曲を識別する識別情報（即ち、楽曲ＩＤ）と、オリジナル歌手に関する情報であるオリジナル歌手情報とを含む。

ここで言うオリジナル歌手とは、楽曲を歌唱した実演家としての歌手であり、例えば、楽曲情報で対応付けられる楽曲を持ち歌として歌うプロの歌手である。そして、オリジナル歌手情報には、オリジナル歌手の氏名や、オリジナル歌手を識別する歌手ＩＤを含む。
＜歌手特徴データ＞
歌手特徴データベースは、歌手特徴データＣＤを複数蓄積したデータ群である。

歌手特徴データＣＤは、図２に示すように、実演家である歌手の特徴量を発声情報ごとに表したデータである。歌手特徴データＣＤは、歌手ごとに予め用意されている。
歌手特徴データＣＤは、歌手情報と、発声情報と、歌手特徴量とを備えている。歌手特徴データＣＤに歌手特徴量が発声情報として登録される歌手には、例えば、上述したような複数の楽曲をそれぞれ持ち歌として歌う複数のオリジナル歌手と、楽曲情報に登録されたいずれかの楽曲をカバーして歌唱する歌手とが含まれている。言い換えると、歌手特徴データＣＤには、異なる楽曲をそれぞれ歌唱した複数の実演家であるオリジナル歌手およびカバー歌手の歌手特徴量を集めたものであってもよい。本実施形態のオリジナル歌手およびカバー歌手が、本発明における複数の既定の歌手の一例である。以下、オリジナル歌手およびカバー歌手を総称して説明する場合を、「歌手」とし、楽曲情報で対応付けられる楽曲を持ち歌として歌うプロの歌手を称して説明する場合を「オリジナル歌手」として、説明する。

発声情報は、単位音符と、発声母音とを備え、単位音符と発声母音との組み合わせによって規定される情報である。
ここで言う単位音符とは、時間軸に沿って連続する少なくとも２つの音符の組み合わせである。具体的に本実施形態における単位音符は、時間軸に沿って連続する３つの音符の組み合わせである。単位音符は、単位音符を構成する音符（以下、単位構成音符と称す）それぞれの音高と音符長との組み合わせによって規定される。

すなわち、本実施形態においては、単位構成音符として、対象音符と、その対象音符に時間軸に沿って前に位置する前音符と、対象音符に時間軸に沿って後ろに位置する後音符とを備えている。なお、本実施形態においては、対象音符の音符長として、対象音符の音価が規定されている。また、前音符の時間長として、前音符の演奏開始タイミングから対象音符の演奏開始タイミングまでの時間差が規定されている。後音符の時間長として、対象音符の演奏開始タイミングから後音符の演奏開始タイミングまでの時間差が規定されている。

発声母音は、単位構成音符において歌唱される歌詞の母音である。発声母音は、対象音符において歌唱される歌詞の母音だけであってもよいし、対象音符と前音符と後音符とのそれぞれにおいて歌唱される歌詞の母音の組み合わせであってもよい。

歌手特徴量は、単位音符に含まれる対象音符を歌手それぞれが歌唱した場合の特徴量である。
ここで言う特徴量とは、歌声における音声の特徴を表す特徴量である。この特徴量として、詳しくは後述する「時間特徴」、「音高特徴」、「ビブラート特徴」、「音量特徴」、「スペクトル特徴」，「声質特徴量」などを含む。

「時間特徴」には、「タメ時間」を含む。「音高特徴」には、「音高変化微分（開始）」、「音高変化微分（終了）」を含む。「ビブラート特徴」には、「ビブラート周波数」、「ビブラート深さ」、「ビブラート開始時刻」を含む。「音量特徴」には、「音量平均」、「音量微分平均」、「音量比」を含む。「スペクトル特徴」には、「スペクトル変動指数」を含む。各特徴量の詳細については、後述する。

歌手情報は、歌手に関する情報である。歌手情報には、歌手の氏名と、オリジナル歌手を識別する識別番号である歌手ＩＤと、特定特徴量とを含む。ここで言う特定特徴量とは、当該歌手に特徴的な特徴量であり、予め指定された種類の特徴量である。この特定特徴量は、１種類の特徴量であってもよいし、複数種類の特徴量であってもよい。

すなわち、歌手特徴データＣＤは、音高と音符長とによって規定される音符のそれぞれに割り当てられた歌詞の発声母音それぞれを複数の実演家である歌手それぞれが歌唱した場合の特徴量を表したデータである。
＜カラオケ装置＞
カラオケ装置３０は、通信部３２と、入力受付部３４と、楽曲再生部３６と、記憶部３８と、音声制御部４０と、映像制御部４６と、制御部５０とを備えている。

通信部３２は、通信網を介して、カラオケ装置３０が外部との間で通信を行う。入力受付部３４は、外部からの操作に従って情報や指令の入力を受け付ける入力機器である。ここでの入力機器とは、例えば、キーやスイッチ、リモコンの受付部などである。

楽曲再生部３６は、情報処理サーバ１０からダウンロードしたＭＩＤＩ楽曲ＭＤに基づく楽曲の演奏を実行する。この楽曲再生部３６は、例えば、ＭＩＤＩ音源である。音声制御部４０は、音声の入出力を制御するデバイスであり、出力部４２と、マイク入力部４４とを備えている。

マイク入力部４４には、マイク６２が接続される。これにより、マイク入力部４４は、マイク６２を介して入力された音声を取得する。出力部４２は、楽曲再生部３６によって再生される楽曲の音源信号、マイク入力部４４からの歌唱音の音源信号をスピーカ６０に出力する。スピーカ６０は、出力部４２から出力される音源信号を音に換えて出力する。

映像制御部４６は、制御部５０から送られてくる映像データに基づく映像または画像の出力を行う。映像制御部４６には、映像または画像を表示する表示部６４が接続されている。

記憶部３８は、記憶内容を読み書き可能に構成された周知の記憶装置である。
制御部５０は、ＲＯＭ５２，ＲＡＭ５４，ＣＰＵ５６を少なくとも有した周知のコンピュータを中心に構成されている。ＲＯＭ５２は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを記憶する。ＲＡＭ５４は、処理プログラムやデータを一時的に記憶する。ＣＰＵ５６は、ＲＯＭ５２やＲＡＭ５４に記憶された処理プログラムに従って各処理を実行する。

本実施形態のＲＯＭ５２には、指定楽曲データに基づいて指定の楽曲を演奏する演奏処理を制御部５０が実行するための処理プログラムが記憶されている。
＜演奏処理＞
次に、カラオケ装置３０の制御部５０が実行する演奏処理について、図３を用いて説明する。

図３に示す演奏処理が起動されると、制御部５０は、まず、入力受付部３４を介して指定された楽曲（即ち、指定の楽曲）の楽曲ＩＤを取得する（Ｓ１１０）。そして、制御部５０は、Ｓ１１０で取得した楽曲ＩＤを含むＭＩＤＩ楽曲ＭＤを、情報処理サーバ１０の記憶部１４から取得する（Ｓ１２０）。

そして、制御部５０は、ＭＩＤＩ楽曲ＭＤに基づいて指定の楽曲の演奏を実行する（Ｓ１３０）。このＳ１３０におけるＭＩＤＩ楽曲ＭＤに基づく演奏では、制御部５０は、楽曲再生部３６にＭＩＤＩ楽曲ＭＤを時間軸に沿って順次出力する。そのＭＩＤＩ楽曲ＭＤを取得した楽曲再生部３６は、指定の楽曲の演奏を行う。そして、楽曲再生部３６によって演奏された指定の楽曲の音源信号が、出力部４２を介してスピーカ６０へと出力される。スピーカ６０は、音源信号を音に換えて出力する。

このＳ１３０におけるＭＩＤＩ楽曲ＭＤに基づく演奏では、制御部５０は、歌詞出力データ及び歌詞テキストデータを映像制御部４６に出力する。この歌詞出力データ及び歌詞テキストデータを取得した映像制御部４６は、指定の楽曲の演奏に併せて歌詞構成文字を表示部６４に順次表示する。

続いて、制御部５０は、マイク６２及びマイク入力部４４を介して入力された音声を波形データとして取得する（Ｓ１４０）。ここで言う波形データとは、ユーザが発した音声の波形を表すデータである。本実施形態における波形データは、指定の楽曲をユーザが歌唱した歌声を表すデータである。

そして、制御部５０は、指定の楽曲における類似特定区間の演奏が終了したか否かを判定する（Ｓ１５０）。ここで言う類似特定区間とは、指定の楽曲に対して予め規定された区間である。この類似特定区間として、例えば、指定の楽曲における最初の数フレーズや、指定の楽曲における最初のサビが終了するまでの区間などが規定されていてもよい。また、指定の楽曲に対して予め規定された区間であれば、楽曲における途中の一部区間が規定されていてもよい。

このＳ１５０での判定の結果、指定の楽曲における類似特定区間の演奏が終了していなければ（Ｓ１５０：ＮＯ）、制御部５０は、演奏処理をＳ１４０へと戻す。一方、Ｓ１５０での判定の結果、指定の楽曲における類似特定区間の演奏が終了していれば（Ｓ１５０：ＹＥＳ）、制御部５０は、演奏処理をＳ１６０へと移行させる。

そのＳ１６０では、制御部５０は、類似歌手特定処理を実行する。類似歌手特定処理は、ユーザの歌い方に類似する歌い方をする歌手（以下、類似歌手と称す）を特定する処理である。この類似歌手特定処理の処理内容については、詳しくは後述する。なお、類似歌手は、指定の楽曲を歌唱したオリジナル歌手でなくともよい。

演奏処理では、続いて、マイク６２及びマイク入力部４４を介して入力された音声を波形データとして取得する（Ｓ１７０）。このＳ１７０で取得する波形データは、類似特定区間の演奏終了後にマイク６２を介して入力された音声であってもよいし、類似特定区間を含む指定の楽曲の演奏中にマイク６２を介して入力された音声であってもよい。

そして、制御部５０は、指定の楽曲における評価区間の演奏が終了したか否かを判定する（Ｓ１８０）。ここで言う評価区間とは、指定の楽曲に対して予め規定された区間である。この評価区間として、例えば、指定の楽曲における規定数のフレーズや、指定の楽曲の１番が終了するまでの区間、指定の楽曲の全体が終了するまでの区間などが規定されていてもよい。

このＳ１８０での判定の結果、指定の楽曲における評価区間の演奏が終了していなければ（Ｓ１８０：ＮＯ）、制御部５０は、演奏処理をＳ１７０へと戻す。一方、Ｓ１８０での判定の結果、指定の楽曲における評価区間の演奏が終了していれば（Ｓ１８０：ＹＥＳ）、制御部５０は、演奏処理をＳ１９０へと移行させる。

そのＳ１９０では、制御部５０は、評価処理を実行する。評価処理は、類似歌手が指定の楽曲を歌唱した場合の歌い方を表す評価基準データに基づいて、ユーザの歌唱を評価する処理である。この評価処理の処理内容については、詳しくは後述する。

制御部５０は、その後、演奏処理を終了する。
＜類似歌手特定処理＞
演奏処理のＳ１６０で起動される類似歌手特定処理について、図４を用いて説明する。

この類似歌手特定処理が起動されると、図４に示すように、制御部５０は、先のＳ１４０で取得した波形データを音響分析する（Ｓ３１０）。このＳ３１０における音響分析では、制御部５０は、周波数スペクトル推移、基本周波数推移、及び音圧推移を導出する。

周波数スペクトル推移の導出では、制御部５０は、まず、予め規定された単位時間の分析窓を、互いに隣接かつ少なくとも一部が重複するように波形データに対して設定する。そして、音響分析では、制御部５０は、波形データの分析窓それぞれについて、周波数解析（例えば、ＤＦＴ）を実施する。この周波数解析を分析窓ごとに実行した結果を時間軸に沿って配置することで、周波数スペクトル推移を導出する。

また、基本周波数推移の導出方法の一例としては、設定された分析窓それぞれの波形データについて周波数解析（例えば、ＤＦＴ）を実行し、自己相関の結果、最も強い周波数成分を基本周波数として導出することが考えられる。そして、このように導出した基本周波数を時間軸に沿って配置することで、基本周波数推移を導出することが考えられる。

さらに、音圧推移の導出方法の一例としては、分析窓ごとに、波形データの振幅を二乗した結果を音圧として導出することが考えられる。そして、このように導出した音圧を時間軸に沿って配置することで、音圧推移を導出することが考えられる。

さらに、類似歌手特定処理では、制御部５０は、Ｓ３１０にて導出した波形データの周波数スペクトル推移、基本周波数推移、音圧推移、及びＳ１４０で取得した波形データそのものを分析して歌声特徴量を導出する（Ｓ３２０）。ここで言う歌声特徴量とは、波形データにおける特徴量である。歌声特徴量は、「タメ時間」、「音高変化微分（開始）」、「音高変化微分（終了）」、「ビブラート周波数」、「ビブラート深さ」、「ビブラート開始時刻」、「音量平均」、「音量微分平均」、「音量比」、「スペクトル変動指数」、「声質特徴量」である。

まず、「タメ時間」の導出方法の一例について説明する。
「タメ時間」の導出では、例えば、制御部５０は、図５（Ａ）に示すように、波形データにおける発声開始タイミングと、ＭＩＤＩ楽曲ＭＤにおける構成音符のノートオンタイミングとの、対応する構成音符ごとの時間差分を、各構成音符に対する「タメ時間」として特定する。

なお、波形データにおける発声開始タイミングの特定方法としては、周知の手法を用いればよい。具体的には波形データの音圧の推移において、その音圧が閾値以上となるタイミングを発声開始タイミングとして特定すればよい。

次に、「音高変化微分（開始）」、「音高変化微分（終了）」の導出方法の一例について説明する。ここで言う「音高変化微分（開始）」、「音高変化微分（終了）」とは、それぞれ、音高遷移音符群における音高の移行区間において、音高の変化が開始される変化開始タイミング、及び音高の変化が終了される変化終了タイミングでの、波形データの基本周波数推移における傾きである。なお、音高遷移音符群とは、連続する音符であり、かつ互いの音高が異なる音符の組である。

具体的に、「音高変化微分（開始）」、「音高変化微分（終了）」の導出では、図５（Ｂ）に示すように、制御部５０は、基本周波数推移の中から、一つの時間窓における基本周波数（以下、第１探索音高と称す）を抽出する。そして、第１探索音高に対応する時間窓よりも時間軸に沿って前のＮ個分の時間窓における基本周波数の平均値に対する、第１探索音高の変化率が、規定された第１比率以上となる時間窓を変化開始タイミングとする。なお、ここで言う第１比率とは、音高遷移音符群を構成する音符間の音高差に対して規定されたものであり、例えば、αパーセントであってもよい。

また、基本周波数推移の中から、一つの時間窓における基本周波数（以下、第２探索音高と称す）を抽出する。そして、第２探索音高に対応する時間窓よりも時間軸に沿って後のＮ個分の時間窓における基本周波数の平均値に対する、第２探索音高の変化率が、規定された第２比率未満となる時間窓を変化終了タイミングとする。なお、ここで言う第２比率とは、音高遷移音符群を構成する音符間の音高差に対して規定されたものであり、例えば、βパーセントであってもよい。

さらに、制御部５０は、変化開始タイミングにおける第１探索音高の変化率、変化終了タイミングにおける第２探索音高の変化率のそれぞれを、「音高変化微分（開始）」、「音高変化微分（終了）」として導出する。

「音高一致度」、「ビブラート周波数」、「ビブラート深さ」、「ビブラート開始時刻」の導出方法の一例について説明する。
まず、「音高一致度」の導出では、制御部５０は、図６に示すように、各構成音符の音高に対する基本周波数推移の一致度の平均値を「音高一致度」として導出する。ここで言う一致度は、半音単位で算出してもよい。

また、「ビブラート周波数」、「ビブラート深さ」、「ビブラート開始時間」の導出方法としては、周知の方法を用いればよい。「ビブラート周波数」、「ビブラート深さ」、「ビブラート開始時間」の導出方法の一例として、特開２０１０−０８５６５５号公報に記載された方法を用いてもよい。

なお、ここで言う「ビブラート周波数」は、図６に示すように、ビブラートを用いて歌唱された波形データの区間における基本周波数の振動周期の逆数である。「ビブラート深さ」は、ビブラートを用いて歌唱された波形データの区間における基本周波数の周波数軸に沿った振れ幅を表す。「ビブラート開始時間」は、波形データにおいて、ビブラートを用いて歌唱が開始されたタイミングである。

「音量平均」、「音量微分平均」、「音量比」の導出方法の一例について説明する。
「音量平均」の導出では、制御部５０は、音圧推移において、構成音符内での音圧の平均値を「音量平均」として導出する。さらに、「音量微分平均」の導出では、制御部５０は、音圧推移において構成音符内での微分値の平均値を「音量微分平均」として導出する。また、「音量比」の導出では、制御部５０は、音圧推移において、対象音符に対する音圧と前音符に対する音圧との比を「音量比」として導出する。

「スペクトル変動指標」の導出方法の一例について説明する。
「スペクトル変動指標」の導出では、制御部５０は、周波数スペクトル推移における構成音符内のスペクトル包絡に関して、隣接する分析窓間全てに対して相関関数を算出する。そして、制御部５０は、相関関数の絶対値の構成音符ごとの平均値を「スペクトル変動指標」として導出する。

「声質特徴量」の導出方法の一例について説明する。
「声質特徴量」の導出では、制御部５０は、波形データの分析窓それぞれについて、周波数解析（例えば、ＤＦＴ）を実施する。制御部５０は、周波数スペクトル推移に対してケプストラム分析を実行することで、各分析窓のメル周波数ケプストラム（ＭＦＣＣ）を算出する。そして、制御部５０は、分析窓ごとのメル周波数ケプストラム（ＭＦＣＣ）を、構成音符に設定された全ての分析窓に渡って相加平均し、その相加平均の結果を、各構成音符の声質特徴量として導出する。

類似歌手特定処理では、続いて、制御部５０は、先のＳ１２０で取得したＭＩＤＩ楽曲ＭＤに基づいて、類似特定区間に含まれる構成音符の音符パラメータを特定する（Ｓ３３０）。ここで言う音符パラメータとは、構成音符に含まれる主音符と主音符の前後の音符における音高との組み合わせである。この音符パラメータは、各音符の音符長、音高、及び各音符それぞれにて歌唱される歌詞の母音との組み合わせである。

さらに、類似歌手特定処理では、制御部５０は、情報処理サーバ１０に格納されている歌手特徴データの個数を、歌手の総数を表す歌手総数として取得する（Ｓ３４０）。続いて、制御部５０は、類似歌手を探索する対象（以下、被探索歌手と称す）を表す歌手ＩＤである歌手インデックスＳｉを初期値に設定する（Ｓ３５０）。

そして、類似歌手特定処理では、制御部５０は、歌手インデックスＳｉが歌手総数未満であるか否かを判定する（Ｓ３６０）。このＳ３６０での判定の結果、歌手インデックスＳｉが歌手総数以上であれば（Ｓ３６０：ＮＯ）、制御部５０は、詳しくは後述するＳ４４０へと類似歌手特定処理を移行させる。

一方、Ｓ３６０での判定の結果、歌手インデックスＳｉが歌手総数未満であれば（Ｓ３６０：ＹＥＳ）、制御部５０は、類似歌手特定処理をＳ３７０へと移行させる。そのＳ３７０では、制御部５０は、歌手インデックスＳｉが含まれる歌手特徴データを情報処理サーバ１０から取得する。

続いて、制御部５０は、Ｓ３６０で取得した歌手特徴データに含まれる歌手特徴量の中から、Ｓ３２０で特定した構成音符の音符パラメータに一致する発声情報と対応付けられた歌手特徴量を取得する（Ｓ３８０）。そして、制御部５０は、Ｓ３２０で導出した歌声特徴量と、Ｓ３８０で取得した歌手特徴量との、対応する音符ごとの内積を評価内積として算出する（Ｓ３９０）。Ｓ３９０では、制御部５０は、特徴量の種類ごと、かつ構成音符の音符パラメータごとに評価内積を算出する。

さらに、類似歌手特定処理では、制御部５０は、評価内積の代表値である内積代表値を算出する（Ｓ４００）。Ｓ４００では、制御部５０は、特徴量ごと、かつ音符ごとに評価内積を算出された評価内積を重みづけ平均した結果を、内積代表値として算出すればよい。

この場合、制御部５０は、特定特徴量に大きな重みを付与すればよい。ここで言う特定特徴量に大きな重みとは、被探索歌手において特徴的な特徴量である特定特徴量には、特定特徴量以外の特徴量より大きな重みとすることである。実現方法としては、特定特徴量に対応する重みを大きくしてもよいし、特定特徴量以外の特徴量を小さくしてもよい。

すなわち、歌手特徴データベースに蓄積された歌手特徴データＣＤのいずれかの歌手の特徴的な歌い方に近い歌い方が可能であるほど、Ｓ４００で算出される内積代表値は大きな値となる。

類似歌手特定処理では、制御部５０は、類似歌手特定処理における今回のサイクルのＳ４００で算出した内積代表値（以下、今代表値と称す）が、前回以前のサイクルのＳ４００で算出された内積代表値の中で最大の内積代表値（以下、最大値と称す）よりも大きいか否かを判定する（Ｓ４１０）。このＳ４１０での判定の結果、今代表値が最大値よりも大きければ（Ｓ４１０：ＹＥＳ）、制御部５０は、今回のサイクルにて設定されている歌手インデックスＳｉを、類似歌手インデックスＳＳｉとして設定する（Ｓ４２０）。なお、Ｓ４１０での判定の結果、今代表値が最大値以上であるとき、今回のサイクルにて設定されている歌手インデックスＳｉを、類似歌手インデックスＳＳｉとして設定してもよい。万が一、内積代表値が同じ歌手インデックスＳｉが２つ以上存在した場合は、同じ内積代表値の歌手インデックスＳｉからランダムに何れかの歌手インデックスＳｉを選択し、類似歌手インデックスＳＳｉとしてもよい。あるいは、いずれかの特定特徴量が大きい歌手インデックスＳｉを、類似歌手インデックスＳＳｉとしてもよい。ここで言う類似歌手インデックスＳＳｉとは、被探索歌手の歌手ＩＤであり、類似歌手である可能性が最も高い歌手を示す歌手ＩＤである。

制御部５０は、その後、類似歌手特定処理をＳ４３０へと移行させる。
ところで、Ｓ４１０での判定の結果、今代表値が最大値以下であれば（Ｓ４１０：ＮＯ）、制御部５０は、類似歌手特定処理をＳ４３０へと移行させる。

そのＳ４３０では、制御部５０は、歌手インデックスＳｉを一つインクリメントする。制御部５０は、その後、類似歌手特定処理をＳ３６０へと戻す。そして、制御部５０は、情報処理サーバ１０に格納された全ての歌手特徴データに含まれる歌手特徴量と、歌声特徴量との内積の算出（即ち、照合）が完了するまで、Ｓ３６０からＳ４３０までのステップを繰り返す。

そして、全ての歌手特徴データに含まれる歌手特徴量と歌声特徴量との内積の算出が完了すると（即ち、Ｓ３５０での判定の結果、歌手インデックスＳｉが歌手総数以上となると）移行するＳ４４０では、制御部５０は、類似歌手インデックスＳＳｉが含まれる歌手特徴データを類似特徴データとして情報処理サーバ１０から取得する。ここで言う類似特徴データとは、歌声特徴量に最も類似する歌手特徴量を有した歌手特徴データであり、類似歌手の歌手特徴データである。

制御部５０は、その後、類似歌手特定処理を終了する。
つまり、類似歌手特定処理では、制御部５０は、類似歌手を特定し、その特定した類似歌手の歌手特徴データ（即ち、類似特徴データ）を取得する。
＜評価処理＞
次に、演奏処理のＳ１９０で実行される評価処理について、図７を用いて説明する。

この評価処理が起動されると、図７に示すように、制御部５０は、まず、先のＳ４３０で取得した類似特徴データと指定楽譜データとに基づいて、評価基準データを生成する（Ｓ５１０）。ここで言う指定楽譜データとは、先のＳ１２０で取得した指定の楽曲のＭＩＤＩ楽曲ＭＤに含まれている主旋律楽譜トラックである。

また、評価基準データは、指定楽譜データによって表される構成音符に、当該構成音符の音高，音符長及び発声母音に一致する単位音符に対応付けられた特徴量を割り当てたデータである。このＳ５１０においては、制御部５０は、指定楽譜データによって表される各構成音符に、類似特徴データに含まれる歌手特徴量の中で、当該構成音符の音符パラメータに一致する発声情報と対応付けられた特徴量を割り当てることで、評価基準データを生成すればよい。例えば、特徴的な特徴量である特定特徴量に、特定特徴量以外の特徴量より大きな重みが付されている場合、特徴量の重みを考慮して、評価基準データを作成すればよい。

続いて評価処理では、制御部５０は、先のＳ１７０で取得した波形データを音響分析する（Ｓ５２０）。このＳ５２０における音響分析では、制御部５０は、周波数スペクトル推移、基本周波数推移、及び音圧推移を導出する。ここで言う音響分析は、類似歌手特定処理におけるＳ３２０と同様であるため、ここでの詳しい説明は省略する。

評価処理では、制御部５０は、波形データを分析して、波形データにおける特徴量である歌声特徴量を導出する（Ｓ５３０）。この歌声特徴量の導出方法としては、Ｓ３２０における歌声特徴量の導出方法と同様の手法を用いればよい。

制御部５０は、指定の楽曲の評価区間に含まれる構成音符の音符パラメータに一致する発声情報と対応付けられた歌手特徴量を、類似特徴データから取得する（Ｓ５４０）。
そして、評価処理では、制御部５０は、評価項目を表す評価インデックスＥｉを初期値に設定する（Ｓ５５０）。ここで言う評価項目とは、評価の対象とする特徴量である。評価項目の一例として、「時間特徴」、「音高特徴」、「ビブラート特徴」、「音量特徴」、「スペクトル特徴」、「声質特徴量」が挙げられる。

続いて制御部５０は、評価インデックスＥｉが評価項目の総数未満であるか否かを判定する（Ｓ５６０）。このＳ５６０での判定の結果、評価インデックスＥｉが評価項目の総数以上であれば（Ｓ５６０：ＮＯ）、制御部５０は、詳しくは後述するＳ６３０へと評価処理を移行させる。

一方、Ｓ５６０での判定の結果、評価インデックスＥｉが評価項目の総数未満であれば（Ｓ５６０：ＹＥＳ）、制御部５０は、評価処理をＳ５７０へと移行させる。そのＳ５７０では、評価インデックスＥｉによって表される評価項目に含まれる特徴量が一次元であるか否かを判定する。このＳ５７０では、例えば、評価インデックスＥｉによって表される評価項目が「時間特徴」であれば、その「時間特徴」に含まれる特徴量は「タメ時間」だけであるため、制御部５０は、特徴量が一次元であるものと判定する。一方、Ｓ５７０では、例えば、評価インデックスＥｉによって表される評価項目が「ビブラート特徴」であれば、その「ビブラート特徴」には「ビブラート周波数」、「ビブラート深さ」、「ビブラート開始時刻」が含まれるため、制御部５０は、特徴量が一次元ではないものと判定する。

そして、Ｓ５７０での判定の結果、評価インデックスＥｉによって表される評価項目に含まれる特徴量が一次元であれば（Ｓ５７０：ＹＥＳ）、制御部５０は、時間軸に沿って、歌手特徴量と歌声特徴量との正規化された相互相関値を算出する（Ｓ５８０）。その後、制御部５０は、詳しくは後述するＳ６１０へと評価処理を移行させる。

一方、Ｓ５７０での判定の結果、評価インデックスＥｉによって表される評価項目に含まれる特徴量が一次元でなければ（Ｓ５７０：ＮＯ）、制御部５０は、構成音符ごとに、歌手特徴量と歌声特徴量との内積を算出する（Ｓ５９０）。続いて、制御部５０は、Ｓ５９０で算出した内積の代表値である項目代表値を算出する（Ｓ６００）。ここで言う代表値とは、平均値であってもよいし、最頻値であってもよい。制御部５０は、その後、評価処理をＳ６１０へと移行させる。

そのＳ６１０では、制御部５０は、Ｓ５８０で算出された相互相関値、またはＳ６００で算出された項目代表値を、評価インデックスＥｉによって表される評価項目に対する評価値へと変換する。このＳ６１０では、制御部５０は、歌手特徴量と歌声特徴量との相関が高いほど高い評価となる評価値へと変換すればよい。

評価処理では、続いて、制御部５０は、評価インデックスＥｉを１つインクリメントする（Ｓ６２０）。制御部５０は、その後評価処理をＳ５６０へと戻す。
ところで、評価インデックスＥｉが評価項目の総数以上となった場合に移行するＳ６３０では、制御部５０は、Ｓ６１０で変換された評価項目ごとの評価値を、映像制御部４６へと出力する。この評価項目ごとの評価値を取得した映像制御部４６は、評価項目ごとの評価値を表示部６４に表示させる。

さらに、評価処理では、制御部５０は、総合評価を算出する（Ｓ６４０）。このＳ６４０では、評価項目ごとの評価値を加算した結果を総合評価として算出してもよいし、評価項目ごとの評価値を重み付け加算した結果を総合評価として算出してもよい。重み付け加算を実行する場合、類似歌手の特定特徴量に、特定特徴量以外の特徴量より大きな重みを付与すればよい。すなわち、類似歌手に特徴的な歌い方を表す歌手特徴量に対する重みを大きなものとしてもよい。

なお、総合評価の算出方法はこれに限るものではなく、例えば、評価項目ごとの評価値の平均値を総合評価としてもよい。さらには、指定の楽曲の主旋律を構成する構成音符の音高と、波形データの基本周波数推移との一致度に、評価項目ごとの評価値の平均値を加算した結果を総合評価としてもよいし、その他の方法で算出してもよい。

評価処理では、続いて制御部５０は、Ｓ６４０で算出した総合評価を映像制御部４６へと出力する（Ｓ６５０）。この総合評価を取得した映像制御部４６は、総合評価を表示部６４に表示させる。

さらに、制御部５０は、先のＳ４３０で取得した類似特徴データに含まれる歌手情報を映像制御部４６へと出力する（Ｓ６６０）。この歌手情報を取得した映像制御部４６は、少なくとも、類似歌手の氏名を表示部６４に表示させる。

その後、本評価処理を終了する。
［実施形態の効果］
以上説明したように、カラオケ装置３０によれば、類似歌手が指定の楽曲を歌唱した場合にどのような歌い方をするのかという点を基準として、ユーザの歌い方を評価できる。このため、カラオケ装置３０によれば、カラオケ装置３０のユーザが指定の楽曲における歌手の歌い回しや声質に類似していない場合であっても、評価が低くなることを防止できる。

この結果、カラオケ装置３０によれば、評価が低いことに起因して、ユーザのモチベーションが上がらなくなることを抑制できる。
また、カラオケ装置３０においては、類似歌手に関する情報を報知している。

したがって、カラオケ装置３０のユーザは、類似歌手を認識でき、類似歌手の歌い方が自身の歌い方に類似していることを知ることができる。
また、カラオケシステム１においては、対象音符と、その対象音符に時間軸に沿って前に位置する前音符と、対象音符に時間軸に沿って後ろに位置する後音符とを、単位構成音符としている。

このような音符の組み合わせを単位音符とすることで、歌手特徴データＣＤに含まれる情報をより詳しくできる。このような歌手特徴データＣＤによって歌唱を評価することで、カラオケ装置３０においては、当該カラオケ装置３０のユーザの歌唱をより詳細に評価できる。

特に、上記実施形態では、前音符及び後音符の音符長を、当該前音符及び当該後音符の演奏開始タイミングによって表している。このため、カラオケ装置３０においては、指定の楽曲におけるリズムを特徴量の分類項目とすることができる。

また、評価処理においては、類似歌手の特定特徴量に、特定特徴量以外の特徴量より大きな重みを付与して重み付き加算をした結果を総合評価として算出した場合を想定する。
この場合、カラオケ装置３０によれば、類似歌手における特徴的な歌い方を表現できているほど、高い評価とすることができる。
［その他の実施形態］
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。

（１）上記実施形態においては、類似特定処理において類似歌手の特定に用いる波形データを、指定の楽曲の演奏中に入力された音声としていたが、類似歌手の特定に用いる歌声データは、これに限るものではない。類似歌手の特定に用いる波形データは、例えば、ユーザが楽曲を歌唱した場合に予め録音した歌声であってもよい。また、本発明は、指定の楽曲の演奏中に入力された音声を用いて、演奏の終了後に類似歌手の特定および評価処理を行うものであってもよい。

（２）上記実施形態においては、評価処理において評価の対象とする波形データを、指定の楽曲の演奏中に入力された歌声としていたが、評価処理において評価の対象とする波形データは、これに限るものではない。評価の対象とする波形データは、例えば、ユーザが楽曲を歌唱した場合に録音された歌声であってもよい。

この場合、評価処理は、指定の楽曲の演奏が終了した後に実行されてもよい。
（３）上記実施形態の類似歌手特定処理では、歌声特徴量と歌手特徴量との内積に従って、ユーザの歌い方と被探索歌手の歌い方との類似度合いを求めていたが、ユーザの歌い方と被探索歌手の歌い方との類似度合いの求め方は、内積に限るものではない。すなわち、ユーザの歌い方と被探索歌手の歌い方との類似度合いは、歌声特徴量と歌手特徴量との相関に基づくものであれば、どのように求められていてもよい。

（４）上記実施形態の類似歌手特定処理では、歌声特徴量と歌手特徴量との内積に従って、ユーザの歌唱の評価指標を求めていたが、ユーザの評価指標の求め方は、内積に限るものではない。すなわち、ユーザの歌唱の評価指標は、歌声特徴量と歌手特徴量との相関に基づくものであれば、どのように求められていてもよい。

（５）上記実施形態の評価処理におけるＳ６３０、Ｓ６５０、Ｓ６６０では、それぞれ、評価項目ごとの評価値、総合評価、歌手情報を、表示部６４に表示することで、ユーザに、評価項目ごとの評価値、総合評価、歌手情報を通知していたが、ユーザへの通知方法は、表示に限るものではない。例えば、評価項目ごとの評価値、総合評価、歌手情報を音によって出力してもよい。つまり、評価処理におけるＳ６３０、Ｓ６５０、Ｓ６６０では、それぞれ、評価項目ごとの評価値、総合評価、歌手情報が報知されれば、どのような方法で実現されてもよい。

（６）上記実施形態においては、特徴量として、「時間特徴」、「音高特徴」、「ビブラート特徴」、「音量特徴」、「スペクトル特徴」，「声質特徴量」を想定していたが、特徴量は、これらの特徴量の少なくとも１つが含まれていれば、歌声の特徴を表す他の特徴量の少なくとも１つが省略されていてもよいし、当該他の特徴量が含まれていてもよい。

（７）上記実施形態における「時間特徴」は、「タメ時間」であったが、「時間特徴」は、歌唱における時間に関係する他の特徴量を含んでいてもよいし、当該他の特徴量に置き換えられていてもよい。

上記実施形態における「音高特徴」には、「音高変化微分（開始）」、「音高変化微分（終了）」を含んでいたが、「音高特徴」は、２つの特徴量のうちのいずれかでもよいし、歌唱における音高に関係する他の特徴量を含んでいてもよいし、当該他の特徴量に置き換えられていてもよい。

上記実施形態における「ビブラート特徴」には、「ビブラート周波数」、「ビブラート深さ」、「ビブラート開始時刻」を含んでいたが、「ビブラート特徴」は、「ビブラート周波数」、「ビブラート深さ」、「ビブラート開始時刻」のうちの少なくとも１つが省略されていてもよい。また、「ビブラート特徴」は、歌唱におけるビブラートに関する他の特徴量を含んでいてもよいし、当該他の特徴量に置き換えられていてもよい。

上記実施形態における「音量特徴」には、「音量平均」、「音量微分平均」、「音量比」を含んでいたが、「音量特徴」は、「音量平均」、「音量微分平均」、「音量比」の内の少なくとも１つが省略されていてもよい。また、「音量特徴」には、歌唱における音量に関する他の特徴量を含んでいてもよいし、当該他の特徴量に置き換えられていてもよい。

上記実施形態における「スペクトル特徴」は、「スペクトル変動指数」であったが、「スペクトル特徴」は、歌唱におけるスペクトルに関係する他の特徴量を含んでいてもよいし、当該他の特徴量に置き換えられていてもよい。

（８）上記実施形態のカラオケシステム１においては、ＭＩＤＩ楽曲ＭＤ及び歌手特徴データＣＤが情報処理サーバ１０に格納されていたが、ＭＩＤＩ楽曲ＭＤ及び歌手特徴データＣＤは、カラオケ装置３０に格納されていてもよい。この場合、情報処理サーバ１０は省略されていてもよい。

（９）なお、上記実施形態の構成の一部を省略した態様も本発明の実施形態である。また、上記実施形態と変形例とを適宜組み合わせて構成される態様も本発明の実施形態である。また、特許請求の範囲に記載した文言によって特定される発明の本質を逸脱しない限度において考え得るあらゆる態様も本発明の実施形態である。

（１０）本発明は、前述したカラオケ装置３０，カラオケシステム１の他、カラオケ装置３０として機能する情報処理装置、カラオケ装置３０としてコンピュータを機能させるためのプログラム、このプログラムを記録した記録媒体など、種々の形態で本発明を実現することもできる。

なお、ここで言う記録媒体には、例えば、ＤＶＤ−ＲＯＭ、ＣＤ−ＲＯＭ、ハードディスク等のコンピュータ読み取り可能な電子媒体を含む。
［対応関係の一例］
演奏処理のＳ１２０を実行することで得られる機能が、楽譜取得手段の一例である。Ｓ１３０を実行することで得られる機能が演奏手段の一例である。Ｓ１４０を実行することで得られる機能が波形取得手段の一例である。

類似歌手特定処理のＳ３２０を実行することで得られる機能が特徴取得手段の一例である。Ｓ４４０を実行することで得られる機能が類似特定手段の一例である。
評価処理のＳ５１０を実行することで得られる機能が生成手段の一例である。Ｓ６４０，Ｓ６４０を実行することで得られる機能が評価手段の一例である。

また、演奏処理のＳ１７０を実行することで得られる機能が特徴導出手段の一例である。評価処理のＳ６３０，Ｓ６５０，Ｓ６６０を実行することで得られる機能が報知手段の一例である。

１…カラオケシステム１０…情報処理サーバ１２…通信部１４…記憶部１６，５０…制御部１８，５２…ＲＯＭ２０，５４…ＲＡＭ２２，５６…ＣＰＵ３０…カラオケ装置３２…通信部３４…入力受付部３６…楽曲再生部３８…記憶部４０…音声制御部４２…出力部４４…マイク入力部４６…映像制御部６０…スピーカ６２…マイク６４…表示部

Claims

歌詞が割り当てられた楽曲のうち指定の楽曲について、音高と音符長とが規定された複数の構成音符が時間軸に沿って配置された楽譜データを取得する楽譜取得手段と、
前記楽譜取得手段で取得した楽譜データの前記構成音符に従って、前記指定の楽曲を演奏する演奏手段と、
前記演奏手段による前記指定の楽曲の演奏に合わせて歌唱したユーザの歌声の波形を表す波形データを取得する波形取得手段と、
前記波形取得手段により取得した前記波形データから、歌唱の特徴を表す少なくとも１つの特徴量を含む歌声特徴量を取得する特徴取得手段と、
複数の既定の歌手それぞれについて、前記音高と音符長とが規定された各音符を含む単位音符と、前記単位音符に対する発声母音との組み合わせごとに、前記少なくとも一つの特徴量を含む歌手特徴量を対応付けたデータを歌手特徴データとして蓄積した複数の歌手特徴データから、前記特徴取得手段により取得した前記歌声特徴量に類似する歌手特徴量を含む前記歌手特徴データを特定する類似特定手段と、
前記楽譜取得手段で取得した指定楽譜データと、前記類似特定手段で取得した前記歌手特徴データとに基づいて、前記指定楽譜データを構成する構成音符に、前記歌手特徴データにおいて、当該構成音符の音高，音符長及び発声母音に一致する前記単位音符に対応付けられた歌手特徴量を割り当てた評価基準データを生成する生成手段と、
前記演奏手段による前記指定の楽曲の演奏に合わせて歌唱したユーザの歌声の波形を表す波形データを、前記生成手段で生成した評価基準データに基づいて評価する評価手段と
を備える、カラオケ装置。
前記単位音符は、前記楽曲において時間軸に沿って連続する少なくとも２つの音符の組み合わせであり、
前記連続する少なくとも２つの音符の組み合わせには、前記歌手特徴量が対応付けられており、
前記類似特定手段は、前記歌手特徴データの前記連続する少なくとも２つの音符の組み合わせに対応付けられた前記歌手特徴量を用いて、前記歌声特徴量に類似する前記歌手特徴データを特定する
請求項１に記載のカラオケ装置。
前記単位音符は、前記楽曲において時間軸に沿って連続する少なくとも３つの音符の組み合わせであり、
前記単位音符を構成する少なくとも３つの音符のうちの１つの音符に、音符長と、時間軸に沿って当該音符の演奏開始タイミングと当該音符の前後に演奏される音符の演奏開始タイミングとの時間差を示す時間長とが定められており、
前記類似特定手段は、前記歌手特徴データの前記音符長と、前記時間長とを用いて、前記歌声特徴量の前記特徴量に類似する前記歌手特徴データを特定する
請求項１または請求項２に記載のカラオケ装置。
前記少なくとも一つの特徴量のそれぞれは、予め規定された歌い方の項目それぞれにおける特徴量であり、
前記評価手段は、
前記生成手段で生成した評価基準データにおける歌手特徴量と、前記特徴取得手段で取得した歌声特徴量との相関を前記少なくとも一つの特徴量の項目ごとに算出した結果を、前記評価とする
請求項１から請求項３までのいずれか一項に記載のカラオケ装置。
前記歌手特徴データは、前記複数の既定の歌手の中で、当該歌手に特徴的な歌い方の項目に対する特徴量を特定特徴量として、特徴的な歌い方の項目以外の他の特徴量より大きな重みが付されたものであり、
前記類似特定手段は、前記特定特徴量に前記他の特徴量より大きな重みを付した前記歌手特徴データを用いて、前記歌声特徴量に類似する歌手特徴量を含む前記歌手特徴データを特定するものであり、
前記生成手段は、前記歌手特徴データの前記特定特徴量に、前記特定特徴量以外の前記特徴量より大きな重みが付された前記歌声特徴量を用いて前記評価基準データを生成するものであり、
前記評価手段は、
前記生成手段で生成した前記特定特徴量に重みが付された前記評価基準データにおける歌手特徴量と、前記指定の楽曲を歌唱した前記ユーザの歌唱の前記波形データから取得された前記歌声特徴量との相関が高いほど高い評価とする
請求項４に記載のカラオケ装置。
前記波形取得手段で取得した波形データから、前記指定の楽曲を歌唱するユーザの歌唱の特徴を表す照合特徴量を導出する特徴導出手段を備え、
前記評価手段は、前記特徴導出手段で導出した照合特徴量を、前記生成手段で生成した評価基準データにおける照合特徴量に基づいて評価する
請求項１から請求項５までのいずれか一項に記載のカラオケ装置。
前記評価手段での評価結果を報知する報知手段
を備える請求項１から請求項６までのいずれか一項に記載のカラオケ装置。
前記報知手段は、
前記類似特定手段で取得した類似特徴データに対応する既定の歌手である類似歌手に関する情報を報知する
請求項７に記載のカラオケ装置。
歌詞が割り当てられた楽曲のうち指定の楽曲について、音高と音符長とが規定された複数の構成音符が時間軸に沿って配置された楽譜データを取得する楽譜取得手段と、
前記楽譜取得手段で取得した楽譜データの前記構成音符に従って、前記指定の楽曲を演奏する演奏手段と、
前記演奏手段による前記指定の楽曲の演奏に合わせて歌唱したユーザの歌声の波形を表す波形データを取得する波形取得手段と、
前記波形取得手段により取得した前記波形データから、歌唱の特徴を表す少なくとも１つの特徴量を含む歌声特徴量を取得する特徴取得手段と、
複数の既定の歌手それぞれについて、前記音高と音符長とが規定された各音符を含む単位音符と、前記単位音符に対する発声母音との組み合わせごとに、前記少なくとも一つの特徴量を含む歌手特徴量を対応付けたデータを歌手特徴データとして蓄積した複数の歌手特徴データから、前記特徴取得手段により取得した前記歌声特徴量に類似する歌手特徴量を含む前記歌手特徴データを特定する類似特定手段と、
前記楽譜取得手段で取得した指定楽譜データと、前記類似特定手段で取得した前記歌手特徴データとに基づいて、前記指定楽譜データを構成する構成音符に、前記歌手特徴データにおいて、当該構成音符の音高，音符長及び発声母音に一致する前記単位音符に対応付けられた歌手特徴量を割り当てた評価基準データを生成する生成手段と、
前記演奏手段による前記指定の楽曲の演奏に合わせて歌唱したユーザの歌声の波形を表す波形データを、前記生成手段で生成した評価基準データに基づいて評価する評価手段と
を備える、カラオケシステム。
コンピュータに実行させるプログラムであって、
歌詞が割り当てられた楽曲のうち指定の楽曲について、音高と音符長とが規定された複数の構成音符が時間軸に沿って配置された楽譜データを取得する楽譜取得手順と、
前記楽譜取得手順で取得した楽譜データの前記構成音符に従って、前記指定の楽曲を演奏する演奏手順と、
前記演奏手順による前記指定の楽曲の演奏に合わせて歌唱したユーザの歌声の波形を表す波形データを取得する波形取得手順と、
前記波形取得手順により取得した前記波形データから、歌唱の特徴を表す少なくとも１つの特徴量を含む歌声特徴量を取得する特徴取得手順と、
複数の既定の歌手それぞれについて、前記音高と音符長とが規定された各音符を含む単位音符と、前記単位音符に対する発声母音との組み合わせごとに、前記少なくとも一つの特徴量を含む歌手特徴量を対応付けたデータを歌手特徴データとして蓄積した複数の歌手特徴データから、前記特徴取得手順により取得した前記歌声特徴量に類似する歌手特徴量を含む前記歌手特徴データを特定する類似特定手順と、
前記楽譜取得手順で取得した指定楽譜データと、前記類似特定手順で取得した前記歌手特徴データとに基づいて、前記指定楽譜データを構成する構成音符に、前記歌手特徴データにおいて、当該構成音符の音高，音符長及び発声母音に一致する前記単位音符に対応付けられた歌手特徴量を割り当てた評価基準データを生成する生成手順と、
前記演奏手順による前記指定の楽曲の演奏に合わせて歌唱したユーザの歌声の波形を表す波形データを、前記生成手順で生成した評価基準データに基づいて評価する評価手順とを、
前記コンピュータに実行させる、プログラム。