JP6428066B2

JP6428066B2 - 採点装置及び採点方法

Info

Publication number: JP6428066B2
Application number: JP2014181115A
Authority: JP
Inventors: 達哉村上; 立舟張
Original assignee: Omron Corp
Current assignee: Omron Corp
Priority date: 2014-09-05
Filing date: 2014-09-05
Publication date: 2018-11-28
Anticipated expiration: 2034-09-05
Also published as: JP2016057337A; US9892652B2; CN105405436A; US20160071428A1; CN105405436B; EP2993615B1; EP2993615A1

Description

本発明は、歌唱者の歌唱行為に対するスコアを算出する採点装置及び採点方法に関する。

カラオケの楽曲を再生するカラオケ装置として、歌唱者の歌唱行為に対するスコアを算出可能なカラオケ装置がある。歌唱行為に対するスコアを算出する機能は“採点機能”などと呼ばれている。従来の採点機能では、歌唱行為における音程、抑揚、声量、等の音に関する情報に基づいてスコアが算出される。歌唱者は、上記採点機能を利用することで、歌唱行為の結果をスコアで確認することができ、歌唱行為をより楽しむことができる。

歌唱行為を歌唱者により楽しませるための他の機能も実用化されている。例えば、インターネットを利用して歌唱行為に対するスコアの全国ランキングを表示する機能、歌唱行為に対するスコアでビンゴゲームを行う機能、歌唱者の音声を変換してスピーカーから出力する機能、等が実用化されている。

また、歌唱行為を歌唱者により楽しませるための技術として、特許文献１に開示の技術がある。特許文献１に開示の技術では、聞き手の感情が推定され、推定結果に基づいてカラオケの映像が編集される。

カラオケ装置は娯楽装置として利用されることが多いため、歌唱行為を歌唱者により楽しませるための機能へのニーズは高い。

特開２００９−２８８４４６号公報

本発明は、歌唱行為を歌唱者により楽しませることができる技術を提供することを目的とする。

上記目的を達成するために、本発明は以下の構成を採用する。

本発明の採点装置は、歌唱者を撮影した画像データを取得する取得手段と、前記取得手段で取得された画像データから、前記歌唱者の顔の特徴として、歌唱中の表情又は顔の動きに関わる特徴を検出する検出手段と、前記検出手段で検出された特徴に基づいて、前記歌唱者の歌唱行為に対するスコアを算出する算出手段と、を有することを特徴とする。

本発明の採点装置では、歌唱者の歌唱行為に対するスコアの算出基準の１つとして、従来考慮されていなかった歌唱者の顔の特徴（歌唱中の表情又は顔の動きに関わる特徴）が考慮される。これにより、歌唱者に、歌い方をより工夫させることができ、歌唱行為をより楽しませることができる。また、歌唱行為をより楽しめる歌唱者の層を広げることができる。例えば、歌声に自信が無い人でも、表情などを工夫することで高いスコアを狙えることができるため、歌唱行為をより楽しむことができる。顔の特徴は、例えば、表情、顔器官の動きの大きさ、顔器官の特徴点の位置関係、視線方向、目の開き具合、特徴点近傍
の濃淡値、特徴点近傍の濃淡値の周期性、特徴点近傍の濃淡値の方向性、色分布、輝度分布、等である。

また、前記画像データは動画像の画像データであり、前記検出手段は、前記動画像のＮフレーム（Ｎは１以上の整数）毎に、前記歌唱者の顔の特徴を検出し、前記算出手段は、前記Ｎフレーム毎の特徴に基づいて前記スコアを算出する、ことが好ましい。このような構成にすることにより、楽曲全体を歌唱者が歌唱する歌唱行為に対するスコアとして、より適切な値を得ることができる。また、楽曲全体に渡って、歌唱者に歌い方をより工夫させることができる。その結果、歌唱者に歌唱行為をより楽しませることができる。

また、前記歌唱者が歌唱する楽曲に対して、目標の顔の特徴が予め定められており、前記算出手段は、前記検出手段で検出された特徴を前記目標の特徴と比較し、その比較結果に基づいて前記スコアを算出する、ことが好ましい。例えば、前記歌唱者が歌唱する楽曲に対して、目標の表情が予め定められており、前記検出手段は、前記楽曲の少なくとも一部の期間である採点期間における前記歌唱者の表情を検出し、前記算出手段は、前記採点期間のうち前記目標の表情と一致する表情が検出された期間の長さの総和が大きいほど高い値を、前記スコアとして、算出する、ことが好ましい。または、前記目標の特徴は、画像データから抽出される特徴ベクトルであり、前記検出手段は、前記取得手段で取得された画像データから、前記歌唱者の顔の特徴ベクトルを抽出し、前記算出手段は、前記検出手段で抽出された特徴ベクトルと、目標の特徴ベクトルと、の類似度を算出し、算出した類似度に基づいて前記スコアを算出する、ことが好ましい。目標の特徴は、例えば、楽曲の提供者が意図した特徴である。そのため、このような構成にすることにより、楽曲の提供者の意図により適したスコアを得ることができる。

また、前記歌唱者が歌唱する楽曲に対して、目標の表情が予め定められており、前記検出手段は、予め定められた複数の表情のそれぞれについて、その表情と前記歌唱者の表情との類似度を算出し、前記算出手段は、前記目標の表情に対応する類似度に基づいて、前記スコアを算出する、ことが好ましい。このような構成にすることによっても、楽曲の提供者の意図により適したスコアを得ることができる。

また、前記歌唱者が歌唱する楽曲に対して、顔の特徴を変化させて歌唱すべき時間位置である特徴変化位置が予め定められており、前記算出手段は、前記特徴変化位置における前記検出手段で検出された特徴の変化の大きさに基づいて、前記スコアを算出する、ことが好ましい。このような構成にすることによっても、楽曲の提供者の意図により適したスコアを得ることができる。

また、前記歌唱者が歌唱する楽曲の期間毎に、目標の顔の特徴が予め定められている、ことが好ましい。例えば、前記歌唱者が歌唱する楽曲のフレーズ毎に、目標の顔の特徴が予め定められている、ことが好ましい。このような構成にすることにより、歌唱者に、期間毎（フレーズ毎）に歌い方をより工夫させることができ、歌唱行為をより楽しませることができる。

また、前記算出手段は、前記歌唱者が歌唱する楽曲のフレーズ毎に、そのフレーズを前記歌唱者が歌唱しているときの前記歌唱者の顔の特徴に基づいて、当該フレーズを前記歌唱者が歌唱する歌唱行為に対するスコアである部分スコアを算出する、ことが好ましい。このような構成にすることにより、フレーズ毎のスコアを得ることができるため、歌唱者に歌唱行為をより楽しませることができる。例えば、フレーズを歌唱する歌唱行為がどの程度のレベルかを歌唱者に把握させることができ、顔の特徴を工夫すべきフレーズを歌唱者に把握させることができる。その結果、歌唱者に、フレーズ毎に歌い方をより工夫させることができ、歌唱行為をより楽しませることができる。

また、前記算出手段は、前記フレーズ毎の部分スコアに基づいて、前記楽曲全体を前記歌唱者が歌唱する歌唱行為に対するスコアである全体スコアを算出する、ことが好ましい。このような構成にすることにより、フレーズ毎のスコア（部分スコア）だけでなく、楽曲全体のスコア（全体スコア）をも得ることができるため、歌唱者に歌唱行為をより楽しませることができる。例えば、楽曲全体を歌唱する歌唱行為がどの程度のレベルかを歌唱者に把握させることができるため、歌唱者に歌唱行為をより楽しませることができる。

また、本発明は、上記手段の少なくとも一部を有する採点装置として捉えてもよいし、上記処理の少なくとも一部を含む採点方法、または、かかる方法を実現するためのシミュレーションプログラムやそのプログラムを記録した記録媒体として捉えることもできる。なお、上記手段及び処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。

本発明によれば、歌唱行為を歌唱者により楽しませることができる。

図１は、実施例１〜５に係るカラオケシステムの構成の一例を示す図である。図２は、実施例１〜５に係る採点装置の機能構成の一例を示すブロック図である。図３は、実施例１に係る採点装置の動作の流れの一例を示すフローチャートである。図４は、実施例１に係る採点装置の動作の具体例を示す図である。図５は、実施例２に係る採点装置の動作の流れの一例を示すフローチャートである。図６は、実施例２に係る採点装置の動作の具体例を示す図である。図７は、実施例３に係る採点装置の動作の流れの一例を示すフローチャートである。図８は、実施例３に係る採点装置の動作の具体例を示す図である。図９は、実施例４に係る採点装置の動作の流れの一例を示すフローチャートである。図１０は、実施例４に係る採点装置の動作の具体例を示す図である。図１１は、実施例５に係る採点装置の動作の流れの一例を示すフローチャートである。図１２は、実施例５に係る採点装置の動作の具体例を示す図である。図１３は、実施例１に係る表情の検出方法の一例を示す図である。図１４は、実施例１に係る正解表情の決定方法の一例を示す図である。図１５は、実施例１に係る正解表情の決定方法の一例を示すフローチャートである。図１６は、実施例１に係る正解表情の決定方法の一例を示す図である。図１７は、実施例１に係る正解表情の決定方法の一例を示すフローチャートである。図１８は、実施例１に係る正解表情を決定する際に使用する情報（シーンの特徴と表情との対応関係を表す情報）の一例を示す図である。図１９（ａ）は、実施例２に係るカラオケ画像の一例を示す図である。そして、図１９（ｂ），１９（ｃ）は、実施例１〜５に係るカラオケ画像の一例を示す図である。図２０（ａ），２０（ｄ）は、実施例１〜５に係るスコアの表示方法の一例を示す図である。そして、図２０（ｂ），２０（ｃ）は、実施例１〜５に係るスコアの表示方法の一例を示す図である。

＜実施例１＞
以下、本発明の実施例１に係る採点装置及び採点方法について説明する。
本実施例に係る採点装置は、歌唱者の歌唱行為を採点する装置であり、例えば、カラオケのシステム（カラオケシステム）において使用される。

（システム構成）
図１は、本実施例に係るカラオケシステムの構成の一例を示す図である。
図１に示すように、本実施例に係るカラオケシステムは、採点装置１００、撮影装置１０１、カラオケ装置１０２、表示装置１０３、スピーカー１０４、マイクロフォン１０５、等を有する。

マイクロフォン１０５は、音を電気信号に変換し、電気信号をカラオケ装置１０２に送信する。例えば、歌唱者の歌声が電気信号に変換されてカラオケ装置１０２に送信される。

カラオケ装置１０２は、楽曲を表す電気信号を生成する。例えば、カラオケ装置１０２は、歌唱者が選択した楽曲を表す電気信号を生成する。
また、カラオケ装置１０２は、音を表す電気信号をマイクロフォン１０５から受信する。例えば、カラオケ装置１０２は、歌唱者の歌声を表す電気信号をマイクロフォン１０５から受信する。
そして、カラオケ装置１０２は、音を表す電気信号をスピーカー１０４に送信する。例えば、カラオケ装置１０２は、楽曲、歌唱者の歌声、または、それら両方を表す電気信号を生成し、生成した電気信号をスピーカー１０４に送信する。

また、カラオケ装置１０２は、採点装置１００から採点結果（歌唱者の歌唱行為に対するスコアを表すスコアデータ）を取得する。
また、カラオケ装置１０２は、画像データを表示装置１０３に出力する。例えば、カラオケ装置１０２は、楽曲に応じた画像データ（カラオケの画像（映像）を表す画像データ；カラオケ画像データ）、採点結果を表す画像データ（スコア画像データ）、等を表示装置１０３に出力する。

スピーカー１０４は、電気信号に応じた音を発する。例えば、スピーカー１０４は、楽曲、歌唱者の歌声、または、それら両方を出力する。

表示装置１０３は、カラオケ装置１０２から出力された画像データに基づく画像を画面に表示する。例えば、表示装置１０３は、カラオケ画像データに基づく画像（カラオケ画像）、スコア画像データに基づく画像（スコア画像）、等を画面に表示する。

撮影装置１０１は、歌唱者を撮影することによって画像データ（撮影画像データ）を生成し、撮影画像データを採点装置１００に出力する。

採点装置１００は、歌唱者を撮影した撮影画像データを撮影装置１０１から取得し、取得した撮影画像データに基づいて、歌唱者の歌唱行為に対するスコアを算出する。そして、採点装置１００は、算出したスコアを表すスコアデータをカラオケ装置１０２に出力する。
なお、採点装置１００はカラオケ装置１０２の内部に設けられていてもよい。
なお、本実施例では、撮影画像データのみに基づいてスコアが算出される例を説明するが、これに限らない。例えば、歌唱行為における音程、抑揚、声量、等の音に関する情報をさらに考慮してスコアが算出されてもよい。

（採点装置の構成）
図２は、採点装置１００の機能構成の一例を示すブロック図である。
採点装置１００は、画像取得部２０１、特徴検出部２０２、記憶部２０３、スコア算出部２０４、等を有する。

画像取得部２０１は、撮影装置１０１から撮影画像データを取得し、取得した撮影画像データを特徴検出部２０２に出力する。本実施例では、撮影画像データとして、動画像の画像データが取得される。

特徴検出部２０２は、画像取得部２０１から出力された撮影画像データから、歌唱者の顔の特徴として、歌唱中の表情又は顔の動きに関わる特徴を検出する。“表情”は、例えば、顔つきによって表された感情や情緒を意味する。“顔の動き”は、例えば、顔器官の動き、複数の顔器官の間の位置関係の変化、などを意味する。そして、特徴検出部２０２は、特徴の検出結果をスコア算出部２０４に出力する。本実施例では、撮影画像データが表す動画像のＮフレーム（Ｎは１以上の整数）毎に、歌唱者の顔の特徴が検出される。本実施例では、歌唱者の顔の特徴として、歌唱者の表情が検出される。以後、特徴検出部２０２によって検出された表情を“検出表情”と記載する。

記憶部２０３には、目標の顔の特徴を表す目標特徴情報が、歌唱者が歌唱する楽曲に対応付けられて記録されている。このように、本実施例では、歌唱者が歌唱する楽曲に対して、目標の特徴が予め定められている。具体的には、楽曲に対して、１つ（１種類）の特徴が、目標の特徴として予め定められている。より具体的には、楽曲に対して、１つの表情が、目標の表情（正解表情）として予め定められている。記憶部２０３としては、磁気ディスク、光ディスク、不揮発性メモリ、等を使用することができる。

スコア算出部２０４は、特徴検出部２０２で検出された特徴（Ｎフレーム毎の特徴）に基づいて、歌唱者の歌唱行為に対するスコアを算出する。本実施例では、検出された特徴（Ｎフレーム毎の特徴）が目標の特徴と比較され、その比較結果に基づいてスコアが算出される。具体的には、Ｎフレーム毎の検出表情が正解表情と比較され、その比較結果に基づいてスコアが算出される。

このように、本実施例では、歌唱者の歌唱行為に対するスコアの算出基準の１つとして、従来考慮されていなかった歌唱者の顔の特徴が考慮される。これにより、歌唱者に、歌い方をより工夫させることができ、歌唱行為をより楽しませることができる。また、歌唱行為をより楽しめる歌唱者の層を広げることができる。例えば、歌声に自信が無い人でも、表情などを工夫することで高いスコアを狙えることができるため、歌唱行為をより楽しむことができる。

なお、本実施例では、目標特徴情報を用いてスコアを算出する例を説明するが、これに限らない。特徴検出部２０２で検出された特徴が使用されれば、スコアはどのように算出されてもよい。例えば、特徴とスコアの対応関係を表す情報（関数やテーブル）を用いてスコアが算出されてもよい。但し、目標特徴情報は、例えば、楽曲の提供者が意図した特徴を表す情報である。そのため、目標特徴情報を使用することにより、楽曲の提供者の意図により適したスコアを得ることができる。

なお、本実施例では、撮影画像データが動画像の画像データであり、且つ、動画像のＮ
フレーム毎の特徴を検出して使用する例を説明するが、これに限らない。例えば、撮影画像データは静止画の画像データであってもよい。そして、１枚の画像データ（静止画の画像データ、または、動画像の１フレームの画像データ）から特徴が検出されてもよい。但し、Ｎフレーム毎の特徴を使用することにより、楽曲全体を歌唱者が歌唱する歌唱行為に対するスコアとして、より適切な値を得ることができる。また、楽曲全体に渡って、歌唱者に歌い方をより工夫させることができる。その結果、歌唱者に歌唱行為をより楽しませることができる。

なお、本実施例では、顔の特徴として表情を使用する例を説明するが、これに限らない。例えば、顔の特徴として、顔器官の動きの大きさ、顔器官の特徴点の位置関係、視線方向、目の開き具合、特徴点近傍の濃淡値、特徴点近傍の濃淡値の周期性、特徴点近傍の濃淡値の方向性、色分布、輝度分布、等が使用されてもよい。

（特徴の検出方法）
本実施例に係る特徴の検出方法の一例について、図１３を用いて説明する。
以下では、顔の特徴として表情を検出する例を説明する。

特徴検出部２０２は、撮影画像データが表す画像の領域から、歌唱者の顔の特徴点を検出する。図１３において、×印は特徴点を示す。具体的には、特徴検出部２０２は、撮影画像データが表す画像の領域から歌唱者の顔の領域（顔領域）を検出し、顔領域から特徴点を検出する。顔領域を検出する処理（顔検出処理）には、既存のどのような技術が適用されてもよい。例えば、顔検出処理の方法には、テクスチャー情報を用いたパターンマッチング、輪郭や顔の器官（目、鼻、口など）に基づくモデルフィッティングによって顔領域を検出する方法、肌の色や濃淡の分布に基づき顔領域を検出する方法、等がある。

特徴検出部２０２は、検出した特徴点の配置のパターンに基づいて、歌唱者の表情を検出する。本実施例では、表情毎に特徴点の配置のパターンを表すパターン情報が予め定められている。特徴検出部２０２は、パターン情報が表す複数の表情の中から、検出した特徴点の配置のパターンに対応する表情を、歌唱者の表情として検出する。表情には、例えば、「楽しい表情」、「悲しい表情」、「真剣な表情」、等がある。

なお、撮影画像データが表す画像には、歌唱者以外の人の顔が写っていることがある。その場合には、例えば、マイクの領域を検出し、マイクの領域に最も近い顔の領域を、歌唱者の顔の領域として検出すればよい。マイクの領域は、顔検出処理と同様の処理を行うことにより、検出することができる。
なお、表情の検出に特化した特徴点を検出することが好ましい。例えば、表情変化の生じやすい器官（例えば、両目、眉、頬、額、口元など）などの特徴点を検出することが好ましい。図１３の例では、目頭、目じり、口元、上唇の中心、及び、下唇の中心の５か所が特徴点として検出されている。
なお、表情の検出方法は、上記方法に限らない。例えば、顔器官の動きの大きさ、視線方向、目の開き具合、特徴点近傍の濃淡値、特徴点近傍の濃淡値の周期性、特徴点近傍の濃淡値の方向性、色分布、輝度分布、等を使用して、表情が検出されてもよい。

（目標特徴情報の生成方法）
本実施例に係る目標特徴情報の生成方法の一例について、図１４〜１８を用いて説明する。
以下では、正解表情を決定する例を説明する。
なお、以下で説明する方法はあくまで一例であり、本実施例に係る目標特徴情報の生成方法は以下の方法に限定されない。

１つ目の方法について、図１４，１５を用いて説明する。
１つ目の方法では、図１４に示すように、楽曲を歌唱しているアーティストの表情に基づいて正解表情が決定される。１つ目の方法では、楽曲を歌唱しているアーティストを表す画像データ（アーティスト画像データ）が使用される。アーティスト画像データは、例えば、歌番組、プロモーションビデオ（ＰＶ）、等の画像データである。

図１５に示すように、楽曲の開始から終了まで、Ｓ６０１の処理が繰り返し行われる。Ｓ６０１の処理は、例えば、Ｍフレーム毎（Ｍは１以上の整数）に行われる。Ｍは、Ｎと同じ値であってもよいし、Ｎと異なる値であってもよい。
Ｓ６０１では、アーティスト画像データからアーティストの表情が検出される。

次に、検出された複数の表情（アーティストの表情）に基づいて、正解表情が検出される（Ｓ６０２）。例えば、検出頻度が最も高い表情が正解表情として検出される。

なお、検出された複数の特徴（アーティストの顔の特徴）の最頻値以外の代表値が、目標の特徴として決定されてもよい。最頻値以外の代表値は、例えば、最大値、最小値、平均値、中間値、等である。
なお、詳細は他の実施例で説明するが、楽曲の期間（フレーズ等）毎に目標の特徴が定められていてもよい。その場合には、楽曲の期間毎に、その期間に対して検出された複数の特徴に基づいて、当該期間の目標の特徴が決定されてもよい。

２つ目の方法について、図１６〜１８を用いて説明する。
２つ目の方法では、図１６に示すように、楽曲のＰＶのシーンの特徴に基づいて、正解表情が決定される。２つ目の方法では、楽曲のＰＶの画像データ（ＰＶ画像データ）が使用される。

図１７に示すように、楽曲の開始から終了まで、Ｓ７０１の処理が繰り返し行われる。Ｓ７０１の処理は、例えば、Ｍフレーム毎（Ｍは１以上の整数）に行われる。
Ｓ７０１では、ＰＶ画像データからシーンの特徴が検出される。シーンの特徴は、例えば、色の数、輝度、エッジの数、色分布、輝度分布、等である。

次に、検出された特徴（ＰＶのシーンの特徴）に基づいて、正解表情が検出される（Ｓ７０２）。例えば、図１８に示すように、シーンの特徴と表情との対応関係を表す情報（テーブル）が予め用意されている。図１８に示す情報は、事前学習によって決定することができる。Ｓ７０２では、Ｍフレーム毎に、そのフレームの特徴に対応する表情が、図１８の情報から取得される。そして、取得された頻度が最も高い表情が正解表情として検出される。

なお、Ｍフレーム毎の顔の特徴の最頻値以外の代表値が、目標の特徴として決定されてもよい。
なお、楽曲の期間毎に、その期間に対して取得された複数の特徴（シーンの特徴、または、顔の特徴）に基づいて、当該期間の目標の特徴が決定されてもよい。

（採点装置の動作）
本実施例に係る採点装置１００の動作の流れの一例について、図３のフローチャートを用いて説明する。図３のフローチャートは、歌唱者が楽曲の歌唱を開始することをトリガとして開始される。具体的には、図３のフローチャートは、歌唱者が歌唱する楽曲が再生されることをトリガとして開始される。

図３に示すように、採点の開始から採点の終了までの期間（採点期間）において、Ｎフ
レーム毎（所定時間毎）に、Ｓ１０１〜Ｓ１０４の処理が行われる。採点期間は、楽曲の少なくとも一部の期間である。楽曲の開始から終了までの期間が採点期間として使用されてもよい。

Ｓ１０１では、画像取得部２０１が、撮影画像データを取得する。その後、Ｓ１０２に処理が進められる。
Ｓ１０２では、特徴検出部２０２が、Ｓ１０１で取得された撮影画像データから、歌唱者の表情を検出する。その後、Ｓ１０３に処理が進められる。
Ｓ１０３では、スコア算出部２０４が、Ｓ１０２で検出された表情（検出表情）が記憶部２０３に記録されている正解表情と一致するか否かを判定する。検出表情が正解表情と一致する場合には、Ｓ１０４に処理が進められる。検出表情が正解表情と一致しない場合には、Ｓ１０４の処理は行われない。なお、正解表情と完全に一致する検出表情のみが“正解表情と一致する検出表情”として判定されてもよいし、そうでなくてもよい。正解表情と完全に一致する検出表情と、正解表情に類似した検出表情と、が“正解表情と一致する検出表情”として判定されてもよい。
Ｓ１０４では、スコア算出部２０４が、カウント値Ｃｎｔを１だけインクリメントする。カウント値Ｃｎｔは、正解表情と一致する検出表情が検出された回数を表す。カウント値Ｃｎｔは、図３のフローチャートの開始時に、０に初期化される。

採点期間の終了後、Ｓ１０５に処理が進められる。
Ｓ１０５では、スコア算出部２０４が、カウント値Ｃｎｔに基づいてスコアを算出する。本実施例では、採点期間のうち正解表情と一致する検出表情が検出された期間の長さの総和が大きいほど高い値が、スコアとして算出される。具体的には、カウント値Ｃｎｔが大きいほど高い値が、スコアとして算出される。例えば、検出表情の総検出回数に対するカウント値の割合が、スコアとして算出される。スコア算出部２０５は、算出したスコアを表すスコアデータをカラオケ装置１０２に出力する。

次に、カラオケ装置１０２が、Ｓ１０５で算出されたスコアを表すスコア画像データを、表示装置１０３に出力する（Ｓ１０６）。それにより、Ｓ１０５で算出されたスコアを表すスコア画像が、表示装置１０３の画面に表示される。図２０（ａ）は、スコア画像の一例を示す。
なお、Ｓ１０６の処理は、採点装置１００が行ってもよい。即ち、スコアを表示装置１０３の画面に表示する機能を、採点装置１００が有していてもよい。

（採点装置の動作の具体例）
本実施例に係る採点装置１００の動作の具体例について、図４を用いて説明する。
図４の例では、楽曲に対して１つの正解表情「楽しい表情」が予め定められている。そして、図４の例では、歌唱者の表情が合計６回検出されている。

１回目では、図３のＳ１０２において、歌唱者の表情として「楽しい表情」が検出されている。そして、検出表情が正解表情と一致するため、Ｓ１０４において、カウント値Ｃｎｔに１が加算される。その結果、カウント値Ｃｎｔが０から１に更新される。
２回目では、図３のＳ１０２において、歌唱者の表情として「悲しい表情」が検出されている。そして、検出表情が正解表情と一致しないため、Ｓ１０４の処理は行われず、カウント値Ｃｎｔ＝１が維持される。
３回目では、図３のＳ１０２において、歌唱者の表情として「楽しい表情」が検出されている。そして、検出表情が正解表情と一致するため、Ｓ１０４において、カウント値Ｃｎｔに１が加算される。その結果、カウント値Ｃｎｔが１から２に更新される。
４回目では、図３のＳ１０２において、歌唱者の表情として「悲しい表情」が検出されている。そして、検出表情が正解表情と一致しないため、Ｓ１０４の処理は行われず、カ
ウント値Ｃｎｔ＝２が維持される。
５回目では、図３のＳ１０２において、歌唱者の表情として「楽しい表情」が検出されている。そして、検出表情が正解表情と一致するため、Ｓ１０４において、カウント値Ｃｎｔに１が加算される。その結果、カウント値Ｃｎｔが２から３に更新される。
６回目では、図３のＳ１０２において、歌唱者の表情として「真剣な表情」が検出されている。そして、検出表情が正解表情と一致しないため、Ｓ１０４の処理は行われず、カウント値Ｃｎｔ＝３が維持される。

図４の例では、カウント値Ｃｎｔの最終的な値として３が得られる。そして、検出表情の総検出回数は６である。そのため、スコアとして、５０点（＝５０％＝１００×３÷６）が得られる。
なお、検出表情として、「楽しい表情」、「悲しい表情」、及び、「真剣な表情」以外の表情が検出されてもよい。正解表情として、「楽しい表情」、「悲しい表情」、及び、「真剣な表情」以外の表情が使用されてもよい。

以上述べたように、本実施例によれば、歌唱者の歌唱行為に対するスコアの算出基準の１つとして、従来考慮されていなかった歌唱者の顔の特徴が考慮される。具体的には、採点期間における歌唱者の表情を検出され、採点期間のうち正解表情と一致する表情が検出された期間の長さの総和が大きいほど高い値が、スコアとして算出される。これにより、歌唱者に、歌い方をより工夫させることができ、歌唱行為をより楽しませることができる。また、歌唱行為をより楽しめる歌唱者の層を広げることができる。

＜実施例２＞
以下、本発明の実施例２に係る採点装置及び採点方法について説明する。
なお、本実施例に係るカラオケシステムの構成、及び、本実施例に係る採点装置の構成は、実施例１（図１，２）と同じであるため、それらの説明は省略する。

本実施例では、スコア算出部２０４は、歌唱者が歌唱する楽曲のフレーズ毎に、そのフレーズを歌唱者が歌唱しているときの歌唱者の顔の特徴に基づいて、当該フレーズを歌唱者が歌唱する歌唱行為に対するスコアである部分スコアを算出する。このような構成にすることにより、フレーズ毎のスコアを得ることができるため、歌唱者に歌唱行為をより楽しませることができる。例えば、フレーズを歌唱する歌唱行為がどの程度のレベルかを歌唱者に把握させることができ、顔の特徴を工夫すべきフレーズを歌唱者に把握させることができる。その結果、歌唱者に、フレーズ毎に歌い方をより工夫させることができ、歌唱行為をより楽しませることができる。

また、本実施例では、スコア算出部２０４は、フレーズ毎の部分スコアに基づいて、楽曲全体を歌唱者が歌唱する歌唱行為に対するスコアである全体スコアを算出する。このような構成にすることにより、フレーズ毎のスコア（部分スコア）だけでなく、楽曲全体のスコア（全体スコア）をも得ることができるため、歌唱者に歌唱行為をより楽しませることができる。例えば、楽曲全体を歌唱する歌唱行為がどの程度のレベルかを歌唱者に把握させることができるため、歌唱者に歌唱行為をより楽しませることができる。

また、本実施例では、歌唱者が歌唱する楽曲の期間毎に、目標の顔の特徴が予め定められている。具体的には、歌唱者が歌唱する楽曲のフレーズ毎に、目標の顔の特徴が予め定められている。このような構成にすることにより、歌唱者に、期間毎（フレーズ毎）に歌い方をより工夫させることができ、歌唱行為をより楽しませることができる。

なお、目標の特徴が用意される１つの期間は１フレーズの期間に限らない。目標の特徴が用意される期間の長さは特に限定されない。目標の特徴が用意される期間は１フレーズの期間より長くても短くてもよい。
なお、実施例１では説明を省略したが、カラオケの画像として、正解表情をさらに表す画像が表示されることが好ましい。例えば、本実施例の場合には、フレーズ毎に、そのフレーズに対応付けて、当該フレーズの正解表情が表示されることが好ましい（図１９（ａ））。それにより、歌唱者の歌唱中に、歌唱者に正解表情を把握させることができ、正解表情への表情づくりを歌唱者に促すことができる。その結果、歌い方を工夫させる効果、及び、歌唱行為をより楽しませる効果を、より確実に得ることができる。
また、カラオケの画像として、現在の検出表情をさらに表す画像が表示されることが好ましい（図１９（ｂ））。それにより、歌唱者の歌唱中に、歌唱者に自身の表情を把握させることができる。その結果、歌唱者に表情づくりをより工夫させたり、歌唱行為に対する歌唱者のやる気を高めたりすることができる。
また、カラオケの画像として、正解表情と検出情報の比較結果を表すグラフィック画像（アイコンやメッセージ）が重畳された画像が表示されることが好ましい。例えば、「もっと真剣な表情で！」、「いい表情だ！」、などのメッセージが重畳された画像が表示されることが好ましい（図１９（ｃ））。これによっても、歌唱者に表情づくりをより工夫させたり、歌唱行為に対する歌唱者のやる気を高めたりすることができる。

（採点装置の動作）
本実施例に係る採点装置１００の動作の流れの一例について、図５のフローチャートを用いて説明する。図５のフローチャートは、歌唱者が楽曲の歌唱を開始することをトリガとして開始される。具体的には、図５のフローチャートは、歌唱者が歌唱する楽曲が再生されることをトリガとして開始される。
なお、以下では、顔の特徴が表情である場合の例を説明するが、顔の特徴は表情に限らない。

図５に示すように、採点の開始から採点の終了までの期間（採点期間）において、Ｎフレーム毎（所定時間毎）に、Ｓ２０１〜Ｓ２０６の処理が行われる。

Ｓ２０１では、画像取得部２０１が、撮影画像データを取得する。その後、Ｓ２０２に処理が進められる。
Ｓ２０２では、特徴検出部２０２が、Ｓ２０１で取得された撮影画像データから、歌唱者の表情を検出する。その後、Ｓ２０３に処理が進められる。
Ｓ２０３では、スコア算出部２０４が、Ｓ２０２で検出された表情（検出表情）が記憶部２０３に記録されている正解表情と一致するか否かを判定する。具体的には、検出表情が現在の歌唱対象のフレーズ（ｎ番目（ｎは１以上の整数）のフレーズ）の正解表情と一致するか否かが判定される。検出表情が正解表情と一致する場合には、Ｓ２０４に処理が進められる。検出表情が正解表情と一致しない場合には、Ｓ２０５に処理が進められる。

Ｓ２０４では、スコア算出部２０４が、ｎ番目のフレーズのカウント値Ｃｎｔ（ｎ）を１だけインクリメントする。その後、Ｓ２０５に処理が進められる。カウント値Ｃｎｔ（ｎ）は、ｎ番目のフレーズの期間において正解表情と一致する検出表情が検出された回数を表す。各フレーズのカウント値Ｃｎｔ（ｎ）は、図５のフローチャートの開始時に、０に初期化される。

Ｓ２０５では、スコア算出部２０４が、ｎ番目のフレーズ（フレーズｎ）の期間が終了したか否かを判定する。ｎ番目のフレーズの期間が終了した場合には、Ｓ２０６に処理が進められる。ｎ番目のフレーズの期間が終了していない場合には、Ｓ２０６の処理は行われない。
Ｓ２０６では、スコア算出部２０４が、フレーズ番号ｎを１だけインクリメントする。フレーズ番号ｎは、フレーズの番号である。フレーズ番号ｎは、図５のフローチャートの
開始時に、１に初期化される。

採点期間の終了後、Ｓ２０７に処理が進められる。
Ｓ２０７では、スコア算出部２０４が、カウント値Ｃｎｔ（ｎ）に基づいて部分スコアと全体スコアを算出する。本実施例では、フレーズ毎に、カウント値Ｃｎｔ（ｎ）が大きいほど高い値が、スコアとして算出される。具体的には、フレーズ毎に、そのフレーズの期間における検出表情の総検出回数に対する、当該フレーズのカウント値Ｃｎｔ（ｎ）の割合が、当該フレーズの部分スコアとして算出される。そして、フレーズ毎の部分スコアの平均値が、全体スコアとして算出される。スコア算出部２０５は、算出したスコアを表すスコアデータをカラオケ装置１０２に出力する。

なお、実施例１のスコアの算出方法と同様に、部分スコアの算出方法は上記方法に限定されない。
また、全体スコアの算出方法も上記方法に限らない。例えば、実施例１と同様の方法で全体スコアが算出されてもよい。また、フレーズ毎の部分スコアを重みづけ合成することにより、全体スコアが算出されてもよい。重みづけ合成では、楽曲で最も盛り上がるフレーズ（例えばサビ）の部分スコアの重みとして、他の部分スコアの重みよりも大きい重みが設定されることが好ましい。

次に、カラオケ装置１０２が、Ｓ２０７で算出されたスコアを表すスコア画像データを、表示装置１０３に出力する（Ｓ２０８）。それにより、Ｓ２０７で算出されたスコアを表すスコア画像が、表示装置１０３の画面に表示される。図２０（ｂ）は、スコア画像の一例を示す。図２０（ｂ）のスコア画像は、部分スコア（フレーズ別得点）と全体スコア（総合得点）の両方を表す。

なお、図３のＳ１０６の処理と同様に、Ｓ２０８の処理は採点装置１００が行ってもよい。
なお、部分スコアと全体スコアの両方が採点結果として表示装置１０３の画面に表示されてもよいし、部分スコアと全体スコアの一方が採点結果として表示装置１０３の画面に表示されてもよい。
なお、図２０（ｃ）に示すように、歌唱者の歌唱中にリアルタイムで部分スコアが表示されてもよい。また、図２０（ｄ）に示すように、歌唱者の歌唱中に、採点開始から現在までの期間における歌唱行為に対するスコアがリアルタイムで算出されて表示されてもよい。それにより、歌唱者に表情づくりをより工夫させたり、歌唱行為に対する歌唱者のやる気を高めたりすることができる。

（採点装置の動作の具体例）
本実施例に係る採点装置１００の動作の具体例について、図６を用いて説明する。
図６の例では、楽曲に第１フレーズから第３フレーズまでの３つのフレーズがある。第１フレーズの正解表情として「楽しい表情」が予め定められており、第２フレーズの正解表情として「真剣な表情」が予め定められており、第３フレーズの正解表情として「悲しい表情」が予め定められている。そして、図６の例では、第１フレーズの期間において、歌唱者の表情が合計４回検出されており、第２フレーズの期間において、歌唱者の表情が合計４回検出されており、第３フレーズの期間において、歌唱者の表情が合計３回検出されている。

第１フレーズの期間に関する処理について説明する。
１回目では、図５のＳ２０２において、歌唱者の表情として「楽しい表情」が検出されている。そして、検出表情が正解表情と一致するため、Ｓ２０４において、カウント値Ｃｎｔ（１）に１が加算される。その結果、カウント値Ｃｎｔ（１）が０から１に更新され
る。
２回目でも、図５のＳ２０２において、歌唱者の表情として「楽しい表情」が検出されている。そして、検出表情が正解表情と一致するため、Ｓ２０４において、カウント値Ｃｎｔ（１）に１が加算される。その結果、カウント値Ｃｎｔ（１）が１から２に更新される。
３回目でも、図５のＳ２０２において、歌唱者の表情として「楽しい表情」が検出されている。そして、検出表情が正解表情と一致するため、Ｓ２０４において、カウント値Ｃｎｔ（１）に１が加算される。その結果、カウント値Ｃｎｔ（１）が２から３に更新される。
４回目では、図５のＳ２０２において、歌唱者の表情として「真剣な表情」が検出されている。そして、検出表情が正解表情と一致しないため、Ｓ２０４の処理は行われず、カウント値Ｃｎｔ（１）＝３が維持される。

第２フレーズの期間に関する処理について説明する。
１回目では、図５のＳ２０２において、歌唱者の表情として「悲しい表情」が検出されている。そして、検出表情が正解表情と一致しないため、Ｓ２０４の処理は行われず、カウント値Ｃｎｔ（２）＝０が維持される。
２回目では、図５のＳ２０２において、歌唱者の表情として「真剣な表情」が検出されている。そして、検出表情が正解表情と一致するため、Ｓ２０４において、カウント値Ｃｎｔ（２）に１が加算される。その結果、カウント値Ｃｎｔ（２）が０から１に更新される。
３回目では、図５のＳ２０２において、歌唱者の表情として「悲しい表情」が検出されている。そして、検出表情が正解表情と一致しないため、Ｓ２０４の処理は行われず、カウント値Ｃｎｔ（２）＝１が維持される。
４回目では、図５のＳ２０２において、歌唱者の表情として「真剣な表情」が検出されている。そして、検出表情が正解表情と一致するため、Ｓ２０４において、カウント値Ｃｎｔ（２）に１が加算される。その結果、カウント値Ｃｎｔ（２）が１から２に更新される。

第３フレーズの期間に関する処理について説明する。
１回目では、図５のＳ２０２において、歌唱者の表情として「悲しい表情」が検出されている。そして、検出表情が正解表情と一致するため、Ｓ２０４において、カウント値Ｃｎｔ（３）に１が加算される。その結果、カウント値Ｃｎｔ（３）が０から１に更新される。
２回目でも、図５のＳ２０２において、歌唱者の表情として「悲しい表情」が検出されている。そして、検出表情が正解表情と一致するため、Ｓ２０４において、カウント値Ｃｎｔ（３）に１が加算される。その結果、カウント値Ｃｎｔ（３）が１から２に更新される。
３回目では、図５のＳ２０２において、歌唱者の表情として「真剣な表情」が検出されている。そして、検出表情が正解表情と一致しないため、Ｓ２０４の処理は行われず、カウント値Ｃｎｔ（３）＝２が維持される。

図６の例では、第１フレームのカウント値Ｃｎｔ（１）の最終的な値として３が得られる。そして、第１フレームの期間における検出表情の総検出回数は４である。そのため、第１フレームの部分スコアとして、７５点（＝７５％＝１００×３÷４）が得られる。
また、図６の例では、第２フレームのカウント値Ｃｎｔ（２）の最終的な値として２が得られる。そして、第２フレームの期間における検出表情の総検出回数は４である。そのため、第２フレームの部分スコアとして、５０点（＝５０％＝１００×２÷４）が得られる。
また、図６の例では、第３フレームのカウント値Ｃｎｔ（３）の最終的な値として２が
得られる。そして、第３フレームの期間における検出表情の総検出回数は３である。そのため、第３フレームの部分スコアとして、６７点（＝６７％＝１００×２÷３）が得られる。
そして、全体スコアとして、６４点（＝（７５＋５０＋６７）÷３）が得られる。

以上述べたように、本実施例によれば、楽曲の期間毎に予め定められた目標の特徴を用いてスコアが算出される。また、フレーズ毎のスコア（部分スコア）と、楽曲全体のスコア（全体スコア）と、が算出される。それにより、歌唱者に、歌い方をより工夫させることができ、歌唱行為をより楽しませることができる。

＜実施例３＞
以下、本発明の実施例３に係る採点装置及び採点方法について説明する。
なお、本実施例に係るカラオケシステムの構成、及び、本実施例に係る採点装置の構成は、実施例１（図１，２）と同じであるため、それらの説明は省略する。

本実施例では、実施例１と同様に、楽曲に対して１つの正解表情が予め定められている例を説明する。
なお、実施例２と同様に、楽曲の期間毎に正解表情が予め定められていてもよい。

本実施例では、特徴検出部２０２は、予め定められた複数の特徴のそれぞれについて、その表情と歌唱者の表情との類似度を算出する。即ち、本実施例では、予め定められた各表情と、歌唱者の表情と、の類似度が、顔の特徴として検出される。
そして、本実施例では、スコア算出部２０４は、正解表情に対応する類似度に基づいて、スコアを算出する。
このような構成にすることにより、楽曲の提供者の意図により適したスコアを得ることができる。

（採点装置の動作）
本実施例に係る採点装置１００の動作の流れの一例について、図７のフローチャートを用いて説明する。図７のフローチャートは、歌唱者が楽曲の歌唱を開始することをトリガとして開始される。具体的には、図７のフローチャートは、歌唱者が歌唱する楽曲が再生されることをトリガとして開始される。

図７に示すように、採点の開始から採点の終了までの期間（採点期間）において、Ｎフレーム毎（所定時間毎）に、Ｓ３０１とＳ３０２の処理が行われる。

Ｓ３０１では、画像取得部２０１が、撮影画像データを取得する。その後、Ｓ３０２に処理が進められる。
Ｓ３０２では、特徴検出部２０２が、予め定められた表情毎に、その表情と、Ｓ３０１で取得された撮影画像データが表す歌唱者の表情と、の類似度を算出する。本実施例では、「楽しい表情」、「悲しい表情」、及び、「真剣な表情」の３つの表情のそれぞれについて、類似度が算出される。
なお、「楽しい表情」、「悲しい表情」、及び、「真剣な表情」以外の表情が予め定められていてもよい。

採点期間の終了後、Ｓ３０３に処理が進められる。
Ｓ３０３では、スコア算出部２０４が、Ｓ３０２で算出された類似度のうち、正解表情に対応する類似度（正解類似度）に基づいて、スコアを算出する。本実施例では、類似度として０以上１００以下の値が算出される。そして、Ｎフレーム毎の正解類似度の平均値が、スコア（全体スコア）として算出される。スコア算出部２０５は、算出したスコアを
表すスコアデータをカラオケ装置１０２に出力する。

なお、スコアの算出方法は上記方法に限らない。例えば、Ｎフレーム毎の正解類似度の他の代表値（最大値、最小値、最頻値、中間値、等）がスコアとして算出されてもよい。
なお、本実施例と実施例２とを組み合わせてもよい。具体的には、フレーズ毎に、そのフレーズに対して算出された正解類似度に基づいて、当該フレーズの部分スコアが算出されてもよい。

次に、カラオケ装置１０２が、Ｓ３０３で算出されたスコアを表すスコア画像データを、表示装置１０３に出力する（Ｓ３０４）。それにより、Ｓ３０３で算出されたスコアを表すスコア画像が、表示装置１０３の画面に表示される。
なお、図３のＳ１０６の処理と同様に、Ｓ３０４の処理は採点装置１００が行ってもよい。

（採点装置の動作の具体例）
本実施例に係る採点装置１００の動作の具体例について、図８を用いて説明する。
図８の例では、楽曲に対して１つの正解表情「楽しい表情」が予め定められている。そして、図８の例では、表情の類似度が合計３回算出されている。

１回目では、図７のＳ３０２において、「楽しい表情」と歌唱者の表情との類似度として１００が、「悲しい表情」と歌唱者の表情との類似度として０が、「真剣な表情」と歌唱者の表情との類似度として０が、算出されている。
２回目では、図７のＳ３０２において、「楽しい表情」と歌唱者の表情との類似度として２０が、「悲しい表情」と歌唱者の表情との類似度として６０が、「真剣な表情」と歌唱者の表情との類似度として２０が、算出されている。
３回目では、図７のＳ３０２において、「楽しい表情」と歌唱者の表情との類似度として３０が、「悲しい表情」と歌唱者の表情との類似度として５０が、「真剣な表情」と歌唱者の表情との類似度として２０が、算出されている。

図７の例では、正解表情は「楽しい表情」であり、「楽しい表情」と歌唱者の表情との類似度が上述した正解類似度である。そして、表情の類似度の総算出回数は３である。そのため、スコアとして、５０点（＝（１００＋２０＋３０）÷３）が得られる。

以上述べたように、本実施例によれば、歌唱者の歌唱行為に対するスコアの算出基準の１つとして、従来考慮されていなかった歌唱者の顔の特徴が考慮される。これにより、歌唱者に、歌い方をより工夫させることができ、歌唱行為をより楽しませることができる。

＜実施例４＞
以下、本発明の実施例４に係る採点装置及び採点方法について説明する。
なお、本実施例に係るカラオケシステムの構成、及び、本実施例に係る採点装置の構成は、実施例１（図１，２）と同じであるため、それらの説明は省略する。

本実施例では、顔の特徴として、画像データ（顔の画像を表す顔画像データ）から抽出される特徴ベクトルが使用される。特徴ベクトルとしてどのようなデータが使用されてもよい。例えば、表情を検出するために必要なデータを特徴ベクトルとして使用することができる。
特徴ベクトルは、顔画像データから抽出される複数の特徴量の集合である。即ち、特徴ベクトルは、顔画像データから抽出される複数の特徴量のそれぞれを成分として有するベクトルである。特徴量の個数は期待するスコア算出精度に応じて任意に設定できるが、数十から数万個以上の特徴量の集合を特徴ベクトルとして使用することが好ましい。特徴量
にはどのような種類のものが使用されてもよい。例えば、顔器官の動きの大きさ、顔器官の特徴点の位置関係、視線方向、目の開き具合、特徴点近傍の濃淡値、特徴点近傍の濃淡値の周期性、特徴点近傍の濃淡値の方向性、色分布、輝度分布、等を特徴量として採用できる。特徴ベクトルは、顔の特徴を数値化したものと言うことができる。表情や顔の動きによって顔の特徴が変化するのと同様に、表情や顔の動きによって特徴ベクトルも変化する。
そして、本実施例では、目標（正解）の顔の特徴として、楽曲の時間位置の変化に応じて変化する特徴ベクトルが予め定められている。例えば、楽曲の期間毎に、目標の顔の特徴ベクトルが予め定められている例を説明する。
なお、実施例１と同様に、楽曲に対して目標の特徴が１つ（１種類）だけ予め定められていてもよい。

本実施例では、特徴検出部２０２は、画像取得部２０１から出力された撮影画像データから、歌唱者の顔の特徴ベクトルを抽出（検出）する。具体的には、特徴検出部２０２は、実施例１で述べた顔検出処理により、撮影画像データが表す画像の領域から歌唱者の顔の領域（顔領域）を検出する。そして、特徴検出部２０２は、検出した顔領域から複数の特徴量を抽出し、抽出した複数の特徴量の集合を特徴ベクトルとして取得する。
そして、本実施例では、スコア算出部２０４は、特徴検出部２０２で抽出された特徴ベクトルと、目標の特徴ベクトルと、の類似度を算出し、算出した類似度に基づいてスコアを算出する。類似度にはどのような指標を用いてもよい。例えば、特徴空間上における上記２つの特徴ベクトルの間の距離（ユークリッド距離など）、上記２つの特徴ベクトルの内積、等を類似度として用いることができる。特徴空間は、特徴ベクトルを構成する複数の特徴量に対応する複数の軸が定められている空間である。
このような構成にすることにより、楽曲の提供者の意図により適したスコアを得ることができる。

（採点装置の動作）
本実施例に係る採点装置１００の動作の流れの一例について、図９のフローチャートを用いて説明する。図９のフローチャートは、歌唱者が楽曲の歌唱を開始することをトリガとして開始される。具体的には、図９のフローチャートは、歌唱者が歌唱する楽曲が再生されることをトリガとして開始される。

図９に示すように、採点の開始から採点の終了までの期間（採点期間）において、Ｎフレーム毎（所定時間毎）に、Ｓ４０１〜Ｓ４０３の処理が行われる。

Ｓ４０１では、画像取得部２０１が、撮影画像データを取得する。その後、Ｓ４０２に処理が進められる。
Ｓ４０２では、特徴検出部２０２が、Ｓ４０１で取得された撮影画像データから、歌唱者の顔の特徴ベクトルを抽出する。その後、Ｓ４０３に処理が進められる。
Ｓ４０３では、スコア算出部２０４が、Ｓ４０２で抽出された特徴ベクトル（検出特徴ベクトル）と、記憶部２０３に記録されている特徴ベクトル（正解（目標）の顔の特徴ベクトル；正解特徴ベクトル）と、の類似度を算出する。具体的には、現在の歌唱対象の時間位置（楽曲の時間位置）の正解特徴ベクトルと検出特徴ベクトルとの類似度が算出される。

採点期間の終了後、Ｓ４０４に処理が進められる。
Ｓ４０４では、スコア算出部２０４が、Ｓ４０４で算出された類似度に基づいて、スコアを算出する。本実施例では、類似度として０以上１００以下の値が算出される。そして、Ｎフレーム毎の類似度の平均値が、スコア（全体スコア）として算出される。スコア算出部２０５は、算出したスコアを表すスコアデータをカラオケ装置１０２に出力する。

なお、スコアの算出方法は上記方法に限らない。例えば、Ｎフレーム毎の類似度の他の代表値（最大値、最小値、最頻値、中間値、等）がスコアとして算出されてもよい。
なお、本実施例と実施例２とを組み合わせてもよい。具体的には、フレーズ毎に、そのフレーズに対して算出された類似度に基づいて、当該フレーズの部分スコアが算出されてもよい。

（採点装置の動作の具体例）
本実施例に係る採点装置１００の動作の具体例について、図１０を用いて説明する。
図１０の例では、正解特徴ベクトルとして、楽曲の時間位置の変化に応じて変化する特徴ベクトルが予め定められている。そして、図１０の例では、特徴ベクトルの類似度が合計６回算出されている。

１回目では、図９のＳ４０３において、歌唱者の顔の特徴ベクトルと正解特徴ベクトルとの類似度として５０が算出されている。
２回目では、図９のＳ４０３において、歌唱者の顔の特徴ベクトルと正解特徴ベクトルとの類似度として７５が算出されている。
３回目では、図９のＳ４０３において、歌唱者の顔の特徴ベクトルと正解特徴ベクトルとの類似度として１００が算出されている。
４回目では、図９のＳ４０３において、歌唱者の顔の特徴ベクトルと正解特徴ベクトルとの類似度として５０が算出されている。
５回目では、図９のＳ４０３において、歌唱者の顔の特徴ベクトルと正解特徴ベクトルとの類似度として１００が算出されている。
６回目では、図９のＳ４０３において、歌唱者の顔の特徴ベクトルと正解特徴ベクトルとの類似度として７５が算出されている。

図１０の例では、特徴ベクトルの類似度の総算出回数は６である。そのため、スコアとして、７５点（＝（５０＋７５＋１００＋５０＋１００＋７５）÷６）が得られる。

以上述べたように、本実施例によれば、歌唱者の歌唱行為に対するスコアの算出基準の１つとして、従来考慮されていなかった歌唱者の顔の特徴が考慮される。これにより、歌唱者に、歌い方をより工夫させることができ、歌唱行為をより楽しませることができる。
また、本実施例によれば、正解表情ベクトルの生成方法を変えることで様々なスコア算出処理（スコアを算出する処理）を実現することができる。例えば、楽曲のアーティストの顔画像データから抽出された特徴ベクトルを正解表情ベクトルとして使用することにより、楽曲のアーティストによく似た顔で歌唱した場合に高いスコアを得ることができるスコア算出処理を実現することができる。また、目標表情の一般的な顔の画像を表す顔画像データから抽出された特徴ベクトルを正解表情ベクトルとして使用することにより、実施例１〜３と略等しいスコアを得ることができるスコア算出処理を実現することができる。

＜実施例５＞
以下、本発明の実施例５に係る採点装置及び採点方法について説明する。
なお、本実施例に係るカラオケシステムの構成、及び、本実施例に係る採点装置の構成は、実施例１（図１，２）と同じであるため、それらの説明は省略する。

本実施例では、歌唱者が歌唱する楽曲に対して、顔の特徴を変化させて歌唱すべき時間位置である特徴変化位置が予め定められている。具体的には、特徴変化位置を表す情報が、記憶部２０３に予め記録されている。
そして、本実施例では、スコア算出部２０４は、特徴変化位置における検出特徴（特徴検出部２０２で検出された特徴）の変化の大きさに基づいて、スコアを算出する。
このような構成にすることにより、楽曲の提供者の意図により適したスコアを得ることができる。
なお、本実施例で使用される顔の特徴は特に限定されない。本実施例では、例えば、顔の特徴として、顔器官の動きの大きさを使用することができる。顔器官の動きの大きさは、例えば、図１３に示すような特徴点の位置の変化に基づいて検出することができる。具体的には、図１３の特徴点３０１と特徴点３０２の間の距離の変化（変動）の大きさを、口の動きの大きさとして検出することができる。

（採点装置の動作）
本実施例に係る採点装置１００の動作の流れの一例について、図１１のフローチャートを用いて説明する。図１１のフローチャートは、歌唱者が楽曲の歌唱を開始することをトリガとして開始される。具体的には、図１１のフローチャートは、歌唱者が歌唱する楽曲が再生されることをトリガとして開始される。

図１１に示すように、採点の開始から採点の終了までの期間（採点期間）において、Ｎフレーム毎（所定時間毎）に、Ｓ５０１〜Ｓ５０４の処理が行われる。

Ｓ５０１では、画像取得部２０１が、撮影画像データを取得する。その後、Ｓ５０２に処理が進められる。
Ｓ５０２では、特徴検出部２０２が、Ｓ５０１で取得された撮影画像データから、歌唱者の顔の特徴を検出する。その後、Ｓ５０３に処理が進められる。
Ｓ５０３では、特徴検出部２０２が、現在の歌唱対象の時間位置（楽曲の時間位置）が特徴変化位置であるか否かを判定する。現在の歌唱対象の時間位置が特徴変化位置である場合には、Ｓ５０４に処理が進められる。現在の歌唱対象の時間位置が特徴変化位置でない場合には、Ｓ５０４の処理は行われない。
Ｓ５０４では、特徴検出部２０２が、Ｓ５０２で検出された特徴（現特徴）と、過去に検出された特徴（過去特徴）と、に基づいて、顔の特徴の変化の大きさ（特徴変化量）を算出する。例えば、過去特徴は現特徴の１つ前に検出された特徴であり、過去特徴と現特徴の差（絶対値）が特徴変化量として算出される。

なお、過去特徴は、現特徴の１つ前に検出された特徴に限らない。過去特徴は、現特徴よりも時間的に前に検出された特徴であればよい。複数の過去特徴が使用され、過去特徴と現特徴の差（絶対値）の代表値が特徴変化量として算出されてもよい。
なお、Ｓ５０３とＳ５０４の処理は、スコア算出部２０４によって行われてもよい。

採点期間の終了後、Ｓ５０５に処理が進められる。
Ｓ５０５では、スコア算出部２０４が、Ｓ５０４で算出された特徴変化量に基づいて、スコアを算出する。本実施例では、特徴変化量として、０以上１００以下の値に正規化された値が算出される。そして、算出された複数の特徴変化量の平均値が、スコア（全体スコア）として算出される。特徴変化位置の数が１つである場合には、Ｓ５０４で算出された特徴変化量がスコア（全体スコア）として算出（設定）される。

なお、スコアの算出方法は上記方法に限らない。例えば、複数の特徴変化量の他の代表値（最大値、最小値、最頻値、中間値、等）がスコアとして算出されてもよい。
なお、本実施例と実施例２とを組み合わせてもよい。具体的には、フレーズ毎に、そのフレーズに対して算出された特徴変化量に基づいて、当該フレーズの部分スコアが算出されてもよい。

次に、カラオケ装置１０２が、Ｓ５０５で算出されたスコアを表すスコア画像データを、表示装置１０３に出力する（Ｓ５０６）。それにより、Ｓ５０５で算出されたスコアを表すスコア画像が、表示装置１０３の画面に表示される。
なお、図３のＳ１０６の処理と同様に、Ｓ５０６の処理は採点装置１００が行ってもよい。

（採点装置の動作の具体例）
本実施例に係る採点装置１００の動作の具体例について、図１２を用いて説明する。
図１２の例では、楽曲の採点期間内に、２つの特徴変化位置が予め定められている。そして、図１２の例では、歌唱者の顔の特徴が合計６回検出されている。

１回目では、歌唱対象の時間位置が特徴変化位置でないため、図１１のＳ５０４の処理は行われない。即ち、１回目では、特徴変化量は算出されない。図１２において、「−」は、特徴変化量が算出されていないことを示す。
２回目では、歌唱対象の時間位置が特徴変化位置であるため、図１１のＳ５０４において、特徴変化量が算出される。図１２の例では、歌唱者の表情が真剣な表情から楽しい表情に変化しており、特徴変化量として４０が算出されている。
３回目及び４回目では、歌唱対象の時間位置が特徴変化位置でないため、図１１のＳ５０４の処理は行われない。
５回目では、歌唱対象の時間位置が特徴変化位置であるため、図１１のＳ５０４において、特徴変化量が算出される。図１２の例では、歌唱者の表情が悲しい表情から楽しい表情に変化しており、特徴変化量として８０が算出されている。
６回目では、歌唱対象の時間位置が特徴変化位置でないため、図１１のＳ５０４の処理は行われない。

図１２の例では、特徴変化位置の総数は２である。そのため、スコアとして、６０点（＝（４０＋８０）÷２）が得られる。

＜その他の実施例＞
記憶装置に記録されたプログラムを読み込み実行することで前述した実施例の機能を実現するシステムや装置のコンピュータ（又はＣＰＵ、ＭＰＵ等のデバイス）によっても、本発明を実施することができる。また、例えば、記憶装置に記録されたプログラムを読み込み実行することで前述した実施例の機能を実現するシステムや装置のコンピュータによって実行されるステップからなる方法によっても、本発明を実施することができる。この目的のために、上記プログラムは、例えば、ネットワークを通じて、又は、上記記憶装置となり得る様々なタイプの記録媒体（つまり、非一時的にデータを保持するコンピュータ読取可能な記録媒体）から、上記コンピュータに提供される。したがって、上記コンピュータ（ＣＰＵ、ＭＰＵ等のデバイスを含む）、上記方法、上記プログラム（プログラムコード、プログラムプロダクトを含む）、上記プログラムを非一時的に保持するコンピュータ読取可能な記録媒体は、いずれも本発明の範疇に含まれる。

１００採点装置
１０１撮影装置
１０２カラオケ装置
１０３表示装置
１０４スピーカー
１０５マイクロフォン
２０１画像取得部
２０２特徴検出部
２０３記憶部
２０４スコア算出部

Claims

歌唱者を撮影した画像データを取得する取得手段と、
前記取得手段で取得された画像データから、前記歌唱者の顔の特徴として、歌唱中の表情又は顔の動きに関わる特徴を検出する検出手段と、
前記検出手段で検出された特徴に基づいて、前記歌唱者の歌唱行為に対するスコアを算出する算出手段と、
を有することを特徴とする採点装置。
前記画像データは動画像の画像データであり、
前記検出手段は、前記動画像のＮフレーム（Ｎは１以上の整数）毎に、前記歌唱者の顔の特徴を検出し、
前記算出手段は、前記Ｎフレーム毎の特徴に基づいて前記スコアを算出する
ことを特徴とする請求項１に記載の採点装置。
前記歌唱者が歌唱する楽曲に対して、目標の特徴が予め定められており、
前記算出手段は、前記検出手段で検出された特徴を前記目標の特徴と比較し、その比較結果に基づいて前記スコアを算出する
ことを特徴とする請求項１または２に記載の採点装置。
前記歌唱者が歌唱する楽曲に対して、目標の特徴として、目標の表情が予め定められており、
前記検出手段は、前記楽曲の少なくとも一部の期間である採点期間における前記歌唱者の表情を検出し、
前記算出手段は、前記採点期間のうち前記目標の表情と一致する表情が検出された期間の長さの総和が大きいほど高い値を、前記スコアとして、算出する
ことを特徴とする請求項１〜３のいずれか１項に記載の採点装置。
前記目標の特徴は、画像データから抽出される特徴ベクトルであり、
前記検出手段は、前記取得手段で取得された画像データから、前記歌唱者の顔の特徴ベクトルを抽出し、
前記算出手段は、前記検出手段で抽出された特徴ベクトルと、目標の特徴ベクトルと、の類似度を算出し、算出した類似度に基づいて前記スコアを算出する
ことを特徴とする請求項３〜４のいずれか１項に記載の採点装置。
前記歌唱者が歌唱する楽曲に対して、目標の特徴として、目標の表情が予め定められており、
前記検出手段は、予め定められた複数の表情のそれぞれについて、その表情と前記歌唱者の表情との類似度を算出し、
前記算出手段は、前記目標の表情に対応する類似度に基づいて、前記スコアを算出することを特徴とする請求項１または２に記載の採点装置。
前記歌唱者が歌唱する楽曲のフレーズ毎に、目標の特徴が予め定められている
ことを特徴とする請求項３〜６のいずれか１項に記載の採点装置。
前記歌唱者が歌唱する楽曲に対して、顔の特徴を変化させて歌唱すべき時間位置である特徴変化位置が予め定められており、
前記算出手段は、前記特徴変化位置における前記検出手段で検出された特徴の変化の大きさに基づいて、前記スコアを算出する
ことを特徴とする請求項１に記載の採点装置。
前記算出手段は、前記歌唱者が歌唱する楽曲のフレーズ毎に、そのフレーズを前記歌唱者が歌唱しているときの前記歌唱者の顔の特徴に基づいて、当該フレーズを前記歌唱者が歌唱する歌唱行為に対するスコアである部分スコアを算出する
ことを特徴とする請求項１〜８のいずれか１項に記載の採点装置。
歌唱者を撮影した画像データを取得する取得ステップと、
前記取得ステップで取得された画像データから、前記歌唱者の顔の特徴を検出する検出ステップと、
前記検出ステップで検出された特徴に基づいて、前記歌唱者の歌唱行為に対するスコアを算出する算出ステップと、
を有することを特徴とする採点方法。
請求項１０に記載の採点方法の各ステップをコンピュータに実行させるプログラム。