JP5201540B2

JP5201540B2 - カラオケ装置及びカラオケ歌唱者の静止画出力方法

Info

Publication number: JP5201540B2
Application number: JP2010167541A
Authority: JP
Inventors: 勝巳戸田
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2010-07-26
Filing date: 2010-07-26
Publication date: 2013-06-05
Anticipated expiration: 2030-07-26
Also published as: JP2012027340A

Description

本発明は、カラオケ演奏曲の再生サービスを提供するカラオケ装置、及び、このカラオケ装置でのカラオケ歌唱者の静止画を出力するためのカラオケ歌唱者の静止画出力方法に関する。

カラオケ装置において、カラオケ演奏曲の再生以外に、これに付帯する種々様々なサービスが既に提唱されている。例えば、歌唱者の歌唱している姿を１台のビデオカメラで撮影してディスプレイに表示するカラオケ装置が、従来既に提唱されている（例えば、特許文献１参照）。この従来のカラオケ装置には、１台のビデオカメラと、このビデオカメラの向きを所定範囲内で自在に変化させるためのサーボ式雲台と、歌唱者の持つワイヤレスマイクロフォンからの無線標識信号を受信し、その無線標識信号の発信源の位置にビデオカメラの向きを合わせるようにサーボ式雲台を駆動する駆動制御手段と、が備えられている。

また、近年、娯楽性の向上のために、上記のようにして撮影した歌唱中の映像を録画してサーバへアップロードし、当該歌唱者や他のユーザがその歌唱映像（動作）をパソコンや携帯端末より閲覧して楽しめるようにしたサービスが、既に提供されている。通常、このようなサービスでは、閲覧したい動画を選択するためのウェブページにおいて、各動画中のある１場面の静止画が適宜に抽出選択され、サムネイルとして表示されている。

アップロードされる動画の中からサムネイルとして選択されるべき静止画は、動画内容を代表する代表画像という意味では、本来、歌唱者を含む利用者の集団がもっとも盛り上がっているタイミングの静止画がふさわしい。このような、特定の静止画を動画から選択して抽出する技術としては、例えば、特許文献２や特許文献３に記載の手法が既に提唱されている。これらの従来技術の手法では、音量の大きいところを盛り上がりタイミングと判断し、その盛り上がりタイミングの静止画を抽出するようになっている。

特開平１０−２４０２７６号公報特許第４１９８３３１号特許第４４３５１３０号

しかしながら、上記特許文献２や特許文献３に記載の技術を上記カラオケ動画における静止画の選択に適用した場合、音量を基準として盛り上がりタイミングを判定することから、録画されたカラオケ動画における、視聴者が歌唱者の歌を聴かず大声で雑談していている場合も盛り上がりタイミングと判定される可能性がある。したがって、カラオケ装置の利用者の盛り上がりタイミングを正確に判定し、当該タイミングにおける最適な静止画を確実に得ることは難しかった。

本発明の目的は、カラオケ装置の利用者の盛り上がりタイミングの静止画を確実に抽出することで娯楽性を向上できる、カラオケ装置、及び、カラオケ歌唱者の静止画出力方法を提供することにある。

上記目的を達成するために、第１の発明は、楽曲データ及び映像データを用いて、カラオケ演奏曲の再生サービスを提供するカラオケ装置であって、歌唱者が歌唱するための前記楽曲データを再生する楽曲再生手段と、前記楽曲再生手段により前記楽曲データの再生が行われるのにしたがい、前記映像データを表示可能な表示手段と、前記歌唱者以外の視聴者及び前記歌唱者を含む所定範囲の視野を撮影し、当該所定範囲の映像データを生成する少なくとも１台の動画撮影カメラと、前記動画撮影カメラにより生成された前記所定範囲の映像データにより、顔が前記歌唱者の方向を向いている前記視聴者の人数を算出する算出手段と、前記算出手段により算出される前記人数の時間的推移により、前記歌唱者及び前記視聴者を含む集団の盛り上がりタイミングを決定する決定手段とを有することを特徴とする。

本願第１発明においては、娯楽性の向上のために、歌唱者及び視聴者の集団の盛り上がりを検出する。まず、少なくとも１台の動画撮影カメラが、歌唱者及び視聴者を含む所定範囲の視野を撮影して、当該所定範囲の映像データを生成する。そして、生成された映像データに基づき、算出手段が、顔が歌唱者の方向を向いている視聴者の人数を算出する。

ここで、集団が盛り上がっているときとは、歌唱者の歌唱によって視聴者が心より楽しんでいるときであり、その瞬間には、視聴者の視線が歌唱者のほうへ向いているのが通常である。そこで、本願第１発明においては、決定手段が、算出手段が算出した視聴者の人数の時間的推移により、盛り上がりタイミングを決定する。これにより、顔が歌唱者へ向いている視聴者の人数が最も多い瞬間を、当該集団の盛り上がりタイミングと決定することができる。この結果、例えば、上記生成された映像データのうち、当該盛り上がりタイミングにおける静止画を抽出し、当該サービス提供時間の代表画像としてサーバへアップロードしたり、カラオケ装置の表示手段に代表画像として映し出したり、等種々のサービスを行うことが可能となる。これにより、カラオケ装置の娯楽性をさらに向上することができる。

第２発明は、上記第１発明において、前記歌唱者に所持され、当該歌唱者によるカラオケ歌唱の音声信号を入力するためのマイクロフォンと、前記マイクロフォンに設けられ、標識信号を発生する標識信号発生手段と、前記動画撮影カメラは、１台設けられるとともに、前記マイクロフォン及び前記歌唱者を含む前記所定範囲の視野を自装置を中心とした全周を撮影し、前記標識信号発生手段から発生された前記標識信号を含む前記所定範囲の映像データを生成し、前記算出手段は、前記１台の動画撮影カメラにより生成された前記所定範囲の映像データに含まれる前記標識信号に基づいて前記マイクロフォン及び前記歌唱者の位置を特定するとともに、前記所定範囲のうち前記歌唱者の位置以外の範囲の映像データに所定の顔認識処理を行って前記視聴者の顔の向きを決定することにより、顔が前記歌唱者の方向を向いている前記視聴者の人数を算出することを特徴とする。

本願第２発明においては、カラオケ演奏時には、楽曲再生手段によって楽曲データの再生が行われるとともに表示手段により映像データが表示され、それら再生及び表示に合わせて、歌唱者がマイクロフォンにより歌唱を行う。また、動画撮影カメラは１台のみ備えられる。上記歌唱の際には、その１台の動画撮影カメラが、歌唱者及びマイクロフォンを含む所定範囲の視野を撮影し、当該所定範囲の映像データを生成する。このとき、自装置を中心とした全周を撮影可能な、視野が広い動画撮影カメラ（例えば魚眼レンズを備え全周３６０°撮影可能なカメラ）を用いることにより、歌唱者及び視聴者の全員が、動画撮影カメラが生成した映像データの中に常に含まれる。

ここで、マイクロフォンには、標識信号を発生する標識信号発生手段が備えられている。したがって、上記生成された所定範囲の映像データには、歌唱者の所持したマイクロフォンの位置に対応した標識信号が、歌唱者の姿と共に必ず記録されている。そこで、これに対応して、算出手段が、映像データに含まれる標識信号を用いてマイクロフォン及び歌唱者の位置を特定するとともに、歌唱者の位置以外の映像データに対し顔認識処理を行って視聴者の顔の向きを決定する。これにより、複数台のカメラを用いなくても、顔が歌唱者の方向を向いている視聴者の人数を確実に算出することができる。

第３発明は、上記第２発明において、前記所定範囲の映像データから、前記決定手段により決定された前記盛り上がりタイミングにおける前記歌唱者を含む少なくとも１つの部分静止画を前記全周の中心に対して劣弧をとる扇形に切り出すとともに、その切り出した前記扇形の劣弧を直線に補正することで、前記扇形を四角形に補正する補正処理を行って、１つの静止画とする映像処理手段と、前記静止画を、当該カラオケ装置にネットワーク接続されたサーバへ出力する静止画出力手段とを有することを特徴とする。

決定手段により決定された盛り上がりタイミングにおける静止画を生成する場合、上記のように視野が広い動画撮影カメラの映像データから得た静止画は視野の端部ほど歪んだ状態となっている場合がある。そこで本願第３発明においては、映像処理手段が、上記所定範囲の映像データから、当該盛り上がりタイミングにおける歌唱者を含む部分静止画を全周の中心に対して劣弧をとる扇形に切り出すと共に、その切り出した部分静止画に所定の補正処理を行う。補正処理としては、切り出した扇形の劣弧を直線に補正し、扇形を四角形とする。これにより、上記歪んだ状態が是正された正常な静止画を、静止画出力手段が代表画像としてサーバへ出力することができる。この結果、サーバへアクセスした各ユーザが、当該静止画を閲覧し、楽しむことができる。

第４発明は、上記第３発明において、前記映像処理手段により補正処理された前記少なくとも１つの静止画に対し所定の顔認識処理を行い、前記歌唱者の顔を認識できるかどうかを判定する判定手段を有し、前記静止画出力手段は、前記映像処理手段により補正処理された前記少なくとも１つの静止画のうち、前記判定手段により前記歌唱者の顔を認識できると判定された静止画を、前記サーバへ出力することを特徴とする。

歌唱者及び視聴者の集団が盛り上がっている盛り上がりタイミングにおいて、たまたま歌唱者が下を向いたり横を向いたりしている場合がある。このようなタイミングにおける静止画は、歌唱者の顔が正しく記録されていないため、代表画像としては必ずしも好ましくない。そこで本願第４発明においては、判定手段が、補正処理後の少なくとも１つの静止画それぞれに対し、歌唱者の顔を認識できるかどうかを判定する。そして、静止画出力手段は、歌唱者の顔が認識できると判定された静止画をサーバへ出力する。これにより、歌唱者の顔が正しく記録された静止画のみを、確実に代表画像としてサーバへ出力することができる。

第５発明は、上記第４発明において、外部から歌唱者ＩＤを入力する歌唱者ＩＤ入力手段を有し、前記映像処理手段はさらに、前記所定範囲の映像データから、前記特定された前記歌唱者の位置を含む部分映像データを切り出して所定の補正処理を行い、前記静止画出力手段は、歌唱者ＩＤ入力手段より入力された前記歌唱者ＩＤと、前記判定手段により前記歌唱者の顔を認識できると判定された静止画と、前記映像処理手段による補正処理後の前記部分映像データと、を対応付けて、当該カラオケ装置にネットワーク接続された前記サーバへ出力することを特徴とする。

これにより、歌唱者の顔が写っている静止画と、当該歌唱者の歌唱者ＩＤと、その歌唱者が歌っている映像とが、サーバへアップロードされる。この結果、当該歌唱者やその他の各ユーザが、歌唱者ＩＤを用いて当該静止画を検索して閲覧したり、さらに対応する歌唱映像を閲覧して、楽しむことができる。

上記目的を達成するために、第６の発明は、カラオケ演奏曲を再生するカラオケ装置に備えられたコンピュータが実行する、当該カラオケ演奏曲の歌唱者を含む静止画を生成して出力するためのカラオケ歌唱者の静止画出力方法であって、少なくとも１台の動画撮影カメラにより撮影され生成された、前記歌唱者以外の視聴者及び前記歌唱者を含む所定範囲の映像データを取得する取得手順と、前記取得手順で取得された前記所定範囲の映像データにより、顔が前記歌唱者の方向を向いている前記視聴者の人数を算出する算出手順と、前記算出手順で算出された前記人数の時間的推移により、前記歌唱者及び前記視聴者を含む集団の盛り上がりタイミングを決定する決定手順と、前記取得手順で取得された前記所定範囲の映像データから、前記決定手順で決定された前記盛り上がりタイミングにおける前記歌唱者を含む少なくとも１つの静止画を抽出する抽出手順と、前記抽出手順で抽出された前記静止画、又は、当該静止画を補正した後の静止画を、前記カラオケ装置に接続されたサーバへ出力する出力手順と、を有することを特徴とする。

本願第６発明においては、少なくとも１台の動画撮影カメラが、歌唱者及び視聴者を含む所定範囲の視野を撮影して、当該所定範囲の映像データを生成する。そして、生成された映像データに基づき、算出手段で、顔が歌唱者の方向を向いている視聴者の人数が算出される。集団が盛り上がっているときとは、歌唱者の歌唱によって視聴者が心より楽しんでいるときであるから、その瞬間には、視聴者の視線が歌唱者のほうへ向いている。そこで、決定手段で、算出手順において算出され視聴者の人数の時間的推移により、盛り上がりタイミングが決定される。これにより、顔が歌唱者へ向いている視聴者の人数が最も多い瞬間を、当該集団の盛り上がりタイミングと決定することができる。これにより、上記取得手順で取得された映像データのうち、当該盛り上がりタイミングにおける静止画が抽出手順で抽出され、当該抽出された静止画（又はそれを補正した静止画）をサービス提供時間の代表画像として出力手順でサーバへアップロードすることができる。この結果、カラオケ装置の娯楽性をさらに向上することができる。

本発明によれば、カラオケ装置の利用者の盛り上がりタイミングの静止画を確実に抽出し、娯楽性を向上することができる。

本発明の一実施の形態のカラオケ装置が設置されたカラオケルームを概略的に表す図である。マイクの外観を表す側面図である。カラオケ装置を備えたカラオケシステムの全体構成を表す機能ブロック図である。全周カメラから入力された映像を画像処理して歌唱者の動画データを得るプロセスを表す説明図である。全周カメラによりカラオケルーム内を撮影したときに取得される画像を模式的に表す図である。視聴者の１人が歌唱者を見ていない状態において、全周カメラによりカラオケルーム内を撮影したときに取得される画像を模式的に表す別の図である。視聴者の１人が歌唱者を見ていない状態でのカラオケルームを概略的に表す図である。タイミングログの一例を示す説明図である。装置本体の制御部により実行される処理手順の詳細を表すフローチャートである。ログ作成処理の手順の詳細を表すフローチャートである。ホストサーバにアップロードされたサムネイルの表示例を表す図である。歌唱者の顔が写っている静止画を抽出する変形例において、装置本体の制御部により実行される処理手順の詳細を表すフローチャートである。音声レベルを考慮して抽出する変形例において、装置本体の制御部により実行される処理手順の詳細を表すフローチャートである。

以下、本発明の一実施の形態を図面を参照しつつ説明する。

図１は、本実施形態のカラオケ装置が設置されたカラオケルームを概略的に表す図である。

図１において、カラオケ店舗等のカラオケルームＫＲには、カラオケ装置１０が設置されている。カラオケ装置１０は、楽曲データとしてのＭｕｓｉｃａｌＩｎｓｔｒｕｍｅｎｔＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ（ＭＩＤＩ；登録商標）データ及び映像データを用いて、カラオケ演奏曲の再生サービスを提供する装置である。図１に示すものでは、利用者Ａ〜Ｃがカラオケ歌唱を行っている。カラオケ装置１０は、コマンダと称される装置本体１００と、リモコン２００と、マイクロフォン（以下、略してマイク）３００と、１台の全周カメラ４００（動画撮影カメラ）とを有している。装置本体１００、リモコン２００、及びマイク３００については、後で詳述する。

全周カメラ４００は、この例では、例えばカラオケルームＫＲの天井中心に下向きに備え付けられている。全周カメラ４００は、マイク３００及び歌唱者Ａ〜Ｃを含む所定範囲の固定的な視野を撮影し、その範囲の映像データを生成する。具体的には、全周カメラ４００は、魚眼レンズを有し、当該カメラ４００を中心とした、左右３６０度、上下９０度の半球状視野を１枚に収めた映像データを得る。魚眼レンズの機能によって、全周カメラ４００の視野内の像は、近い物体ほど円の中心に写り、遠い物体ほど円の周辺部に写る性質を持つ。また、魚眼レンズにより広い視野角が得られる代償として、全ての物体は扇状に歪曲して写るようになる。従って、全周カメラ４００によりカラオケルームＫＲ内の全体を撮影すると、全体的に扇状に歪曲した画像が取得されることとなる。

図２は、マイク３００の外観を表す図である。図２において、マイク３００は、利用者によるカラオケ歌唱の音声を音声信号に変換して入力するものである。

マイク３００は、マイク素子３０１が内蔵されたマイクハウジング３０２を有している。マイクハウジング３０２の上部には、電源スイッチ３０３が設けられている。マイクハウジング３０２の下部には、所定の色（この例では、緑色）の標識信号としてのマーカ光を発光する、標識信号発生手段としての発光ダイオード（ＬＥＤ）３０４と、このＬＥＤ３０４から発した緑色のマーカ光を均一に拡散させる半透明の光拡散球３０５とが設けられている。

図３は、上記のカラオケ装置１０を備えたカラオケシステムの全体構成を表す機能ブロック図である。

図３において、カラオケシステム１は、上記カラオケルームＫＲに設置された上記カラオケ装置１０と、ホストサーバ２０とを有している。カラオケ装置１０とホストサーバ２０とは、例えば通信ネットワーク等のネットワークＮＷとを介し、互いに情報送受信可能に接続されている。

カラオケ装置１０は、上記の装置本体１００、リモコン２００、マイク３００、及び全周カメラ４００を有している。装置本体１００とリモコン２００とは、例えば無線又は有線のＬＡＮ等のネットワークを介し、互いに情報送受信可能に接続されている。装置本体１００とマイク３００とは、無線回線又は有線回線により接続されている。

装置本体１００は、制御部１０１と、大容量記憶装置１０３と、操作部１０４と、受信部１０５と、音源１０６と、音声制御部１０７と、スピーカ１０８と、表示部１０９と、通信制御部１１０とを有している。

制御部１０１は、図示しないＣＰＵや、ＲＡＭ及びＲＯＭ等のメモリを備えている。この制御部１０１は、ＲＡＭの一時記憶機能を利用しつつ、ＲＯＭや上記大容量記憶装置１０３に予め記憶された各種プログラムを実行する。これにより、装置本体１００全体の制御を行う。

特に、制御部１０１は、全周カメラ４００により得られたカラオケルームＫＲ内の撮像画像に対して所定の画像処理を行い、マイク３００を持った歌唱者の複数の画像（集合体としての動画を構成する複数の静止画。以下同様）を生成し、その画像を大容量記憶装置１０３に記憶するとともに表示部１０９に表示させる処理を行う（詳細は後述）。

大容量記憶装置１０３は、例えばＨａｒｄＤｉｓｋＤｒｉｖｅ（ＨＤＤ）などから構成される。この大容量記憶装置１０３には、ＭＩＤＩデータ、背景映像データ、及び歌詞データ等の各種情報が記憶されている。また、この大容量記憶装置１０３には、利用者の歌唱時の動画データが順次記憶される。

操作部１０４は、例えば複数のキーやスイッチなどから構成される。利用者は、この操作部１０４又は後述のリモコン２００の操作部２０４を用いて、カラオケ演奏曲の予約操作等の各種操作を行うことができる。

受信部１０５は、上記のマイク３００から出力された歌唱者の音声信号を受信する。

音源１０６は、上記制御部１０１によって大容量記憶装置１０３から読み出されたＭＩＤＩデータを再生して音声制御部１０７へ出力する。音声制御部１０７は、音源１０６から出力されたＭＩＤＩデータ、及び、受信部１０５を介してマイク３００により入力された音声信号を増幅し、スピーカ１０８へ出力する。スピーカ１０８は、音声制御部１０７から出力されたＭＩＤＩデータ及び音声信号を音声出力する。

なお、以下適宜、音源１０６、音声出力部１０７、及びスピーカ１０８を、省略して「音源１０６等」と称する。音源１０６等は、楽曲データを再生する楽曲再生手段を構成している。

表示部１０９は、例えば液晶ディスプレイなどから構成され、各種映像を表示する表示手段として機能する。特に、表示部１０９は、上記音源１０６等によるＭＩＤＩデータの再生に同期して、言い換えれば、音源１０６等によりＭＩＤＩデータの再生が行われるのに従い、大容量記憶装置１０３から読み出された背景映像データ、及び歌詞データに対応したテロップ等を表示することができる。

通信制御部１１０は、リモコン２００やホストサーバ２０との間で情報通信の制御を行う。

リモコン２００は、利用者がカラオケ演奏曲の予約操作等の各種操作を行うための操作端末である。このリモコン２００は、制御部２０１と、記憶装置２０３と、操作部２０４と、表示部２０９と、通信制御部２１０とを有している。

制御部２０１は、図示しないＣＰＵやＲＡＭ及びＲＯＭ等のメモリを備えている。この制御部２０１は、ＲＡＭの一時記憶機能を利用しつつ、ＲＯＭや上記記憶装置２０３に予め記憶された各種プログラムを実行する。これにより、リモコン２００全体の制御を行う。

記憶装置２０３は、例えば不揮発性メモリなどから構成され、各種情報を記憶する。操作部２０４は、例えば複数のキーやスイッチなどから構成される。利用者は、この操作部２０４又は上記カラオケ装置１００の操作部１０４を用いて、カラオケ演奏曲の予約操作等の各種操作を行うことができる。表示部２０９は、例えば液晶ディスプレイなどから構成され、各種表示を行う。

通信制御部２１０は、装置本体１００やホストサーバ２０との間で情報通信の制御を行う。

ホストサーバ２０には、利用者の歌唱中の姿の動画データが圧縮動画ファイルとしてアップロード可能である（詳細は後述）。このホストサーバ２０にアップロードされた動画データは、所定のＷｅｂページにおいて特定の利用者の端末より閲覧可能となっている（後述の図１１も参照）。

ここで、本実施形態の特徴の１つとして、全周カメラ４００により得られたカラオケルームＫＲ内の映像画像に含まれるマーカ光に基づいてマイク３００の位置が特定され、そのマイク３００の位置を含む部分映像が切り出され、マイク３００を持った歌唱者の動画（カラオケ投稿動画）データが取得される。このとき、全周カメラ４００で撮像して得られた映像信号は、人間の通常の視野とは大きく異なるので、カラオケ投稿動画の用途としてそのまま使うことはできない。このため、全周カメラ４００で撮像して得られた映像信号に対して所定の処理を施す必要がある。

図４（ａ）〜（ｆ）は、全周カメラ４００より入力された映像を画像処理して歌唱者の動画データを得るプロセスを表す説明図である。本処理は、装置本体１００の制御部１０１によって実行される。

図４（ａ）に示すように、まず全周カメラ４００で取得したカラオケルームＫＲ内の映像を入力する。ここでは、利用者Ａ〜Ｃ及びマイク３００の映像のみを表し、テーブルや装置本体１００等の映像は省略してある。

その後、図４（ｂ）に示すように、全周カメラ４００より入力された映像において、所定の色（この例では緑）の成分以外の成分を除去するカラーフィルタ処理を行う。具体的には、色フィルタ（ここでは緑フィルタ）を通して、全周カメラ４００より入力された映像から緑色の成分のみを抽出する。色フィルタは、ＲＧＢのＧ値のみを通過させるか、又は、ＹＵＶのＵＶが一定範囲内にある画素値のみを通過させる、ＣＰＵ演算処理による画素データファイルである。

その後、図４（ｃ）に示すように、カラーフィルタ処理が行われた映像データを輝度フィルタに通し、輝度が一定以上の値を示す画素値のみを通過させることで、画像データの２値化を行う。これにより、画像の中の「純粋な緑色に近く、一定以上の明るさがある」画素のみが「１」を示し、それ以外の画素は「０」を示すビットマップが得られる。

その後、図４（ｄ）に示すように、全周カメラ４００より入力された映像についてエリア判定を行う。具体的には、予め蜘蛛の巣状に定義されたマップに従い、角度方向（人間の視覚での左右に相当）に対して８分解（Ａ〜Ｈ）、距離方向（人間の視覚での奥行きに相当）に対して３分解（１〜３）又は４分解（１〜４）の計２８分解された各エリアについて、エリアごとにビットマップの画素値を全て加算する。この加算値が最も大きい値（図中ではエリアＧ２）がマーカ光を検知しており、撮影すべき歌唱者がいるエリア（方向）であると判定される。

その後、図４（ｅ）に示すように、図４（ｄ）に示す処理で選択されたエリアについて、扇状スキャンによる画像の形状補正を行う。具体的には、エリア内にある画素を同図に示した走査線に従って並べなおす処理を行う。これによって、扇形状の直径方向はＹ軸、円周方向はＸ軸の矩形状に変形し矯正される。ここで、中心部に近い走査線は短く、円周部に近い走査線は長いが、同一値の画素で補完して拡大するか、画素を省略して縮小し、一定長の線データを得る。走査線の座標パターンは、エリアＡ１〜Ｈ４ごとに予め用意されている。

全ての走査線について変換処理が終了すると、図４（ｆ）に示すような、最終的な出力画像（図中ではエリアＧ２の画像）が得られる。この画像は、全周カメラ４００に写ったマーカ光の周辺領域だけを切り取った上で、湾曲した魚眼レンズの円形視野角を通常の矩形視野角へと変換補正したものである。言い換えれば、全周の中心に対して劣弧をとる扇形が切り出されると共に、その切り出された扇形の劣弧を直線に補正することで、扇形が四角形に補正されたものである。このような補正であることから、結果的にマイク３００を持っている歌唱者（この例では利用者Ａ）に対して通常のカメラを向けたのと同等の結果が得られる。本実施形態では、歌唱者（この例では利用者Ａ）が歌唱している間の映像に対し上記変換補正が行われることで、歌唱者である利用者Ａを含む連続的な映像が取得され、記憶される。

なお、これらの処理は、動画を構成する各画像（静止画）に対して行われるので、毎秒３０フレームの速度で処理されるが、演算能力の関係上、例えば１０フレームにつき１フレームの頻度で処理を行うなど、間引きを行ってもよい。

本実施形態では、上記のようにして歌唱者（この例では利用者Ａ）の位置を特定した後、その歌唱者に対し、他の利用者（この例では利用者Ｂ，Ｃ）が視線を向けているかどうかで、これら利用者Ａ，Ｂ，Ｃからなるグループの盛り上がりタイミングを検出する。

すなわち、上述においては、エリアＧ２の画像についての処理を例にとって説明したが、それ以外の２７個のエリア、すなわち、エリアＡ１〜Ａ３，Ｂ１〜Ｂ３，Ｃ１〜Ｃ４，Ｄ１〜Ｄ４，Ｅ１〜Ｅ３，Ｆ１〜Ｆ３，Ｇ１，Ｇ３，Ｇ４，Ｈ１〜Ｈ４についても、同様の手法で各エリアに対して通常のカメラを向けた場合と同等の映像を得ることができる。これにより、歌唱者である利用者Ａのまわりの所定範囲（例えば通常は人の存在が考えにくいカラオケルームＫＲの四隅に相当するエリアＣ４，Ｄ４，Ｇ４，Ｈ４を除く範囲）の映像を得ることができ、当該所定範囲に他の利用者（視聴者）がいるかどうかを、公知の顔認識技術等により検知することができる。この例で言えば、利用者Ｂ及び利用者Ｃの存在が、上記の顔認識技術等を用いて認識される。図５は、このようにして歌唱者（利用者Ａ）まわりの所定範囲の画像が取得された状態を概念的に表している。

そして、さらに、本実施形態では、図５のように歌唱者（利用者Ａ）まわりの所定範囲について取得された画像を用いて、歌唱者以外の利用者（この例では利用者Ｂ，Ｃ）が歌唱者（利用者Ａ）に対し視線を向けているかどうかを検出する。図５の例は、破線矢印で示すように、２名の利用者Ｂ，Ｃ全員の顔が利用者Ａに向き、利用者Ａに対し視線を向けている状態を表しており、現実の空間における上記図１に示した状態に対応している。

一方、例えば、利用者Ｂ，Ｃのうち利用者Ｃの顔が歌唱者である利用者Ａを向いておらず、利用者Ａに対し視線を向けているのは利用者Ｂの１名のみである状態もありうる。この場合も、上記の顔技術認識等を用いて図６に示すような歌唱者（利用者Ａ）まわりの所定範囲の画像が取得されることで、上記のような状態であることが認識される。現実の空間では図７に示されるような状態となる。

以上のようにして、本実施形態では、利用者Ａが歌唱者として歌唱しているとき、所定周期（例えば数十ｍｓｅｃ等）ごとの各タイミングにおいて利用者Ａの方に顔が向き視線を向けている他の利用者の人数を検出する。その検出した人数は、時系列に沿ったタイミングログに記録される。そして、歌唱者へ顔を向けている他の利用者（視聴者）が最も多いタイミングを、この集団の盛り上がりタイミングである、と決定する。

図８は、上記盛り上がりタイミングを決定するために用いられる、上記タイミングログの例を表す説明図である。図８に示すように、タイミングログには、各データが取得された時刻（言い換えれば録画時刻）を例えばｍｓｅｃ単位で表す「時刻」欄と、前述のようにしてマーカ光に基づき識別された歌唱者を表す「歌唱者」欄と、上記顔認識により識別された、歌唱者以外の在室利用者すなわち視聴者を表す「視聴者」欄と、その視聴者のうち歌唱者の方を顔が向いている視聴者を表す「歌唱者の方を向いている視聴者」の欄とが、記録欄としてそれぞれ設けられている。図示のように、この例では、左から右に向かって時系列的に各データが記録されている。

例えば利用者Ａが歌唱している間は、「歌唱者」欄には当該時刻範囲の全タイミングにおいて「Ａ」が記録される。利用者Ａが歌唱しているカラオケルームＫＲ内に利用者Ｂ，Ｃの両方が在室しているタイミングでは「視聴者」欄に「Ｂ，Ｃ」が記録される。例えば利用者Ｂがトイレに行くために退室し視聴者として利用者Ｃのみが在室しているタイミングでは「Ｃ」のみが記録される。

また、利用者Ａが歌唱しているときに利用者Ｂ，Ｃの両方が利用者Ａの方を向いているタイミングでは「歌唱者の方を向いている視聴者」欄に「Ｂ，Ｃ」が記録される（図５及び図１の状態に相当）。一方、利用者Ａが歌唱しているときに利用者Ｃは利用者Ａの方を向いているが、利用者Ｂは例えば壁の方を向いており利用者Ａの方を向いていないタイミングでは「歌唱者の方を向いている視聴者」欄に「Ｃ」のみが記録され（図６及び図７の状態に相当）、誰も利用者Ａの方を向いていないタイミングでは「なし」と記録される。

図８に示す例では、図中左右方向の中央に位置するタイミングで、歌唱者である利用者Ａの方を、２人の利用者Ｂ，Ｃが向いている。したがって、このタイミングが、「盛り上がりタイミング」である、として決定される。

そして、先に述べたように、本実施形態では、歌唱者が歌唱している間の当該歌唱者（上記の例では利用者Ａ）を含む映像が連続的に取得され、記憶されている。このように記憶された映像すなわち動画は多数の静止画の集合体であるが、本実施形態では、上記盛り上がりタイミングとして決定されたタイミングの静止画が、上記歌唱者を撮影した映像を代表する、サムネイル画像として抽出される。

図９は、上記の手法を実行するために、制御部１０１により実行される処理手順の詳細を表すフローチャートである。

図９において、カラオケ演奏曲に対応したＭＩＤＩデータの再生が開始されると、このフローが開始される。すなわち、音源１０６等によるＭＩＤＩデータの再生と同期して、背景映像データ及び歌詞データが表示部１０９に表示される。すると、歌唱者によるカラオケ演奏曲の歌唱が行われ、マイク３００よりカラオケ歌唱の音声が入力される。

まずステップＳ１０において、全周カメラ４００により撮影された、カラオケルームＫＲ内の映像データを取得する。この手順が、各請求項記載の取得手順を構成する。

その後、ステップＳ２５で、カラオケルームＫＲ内の映像データに含まれるマーカ光に基づいて、マイク３００の位置を特定する。このステップＳ２５の処理は、前述の図４（ａ）〜図４（ｃ）に示した画像処理に対応するものである。そして、ステップＳ３０において、カラオケルームＫＲ内の映像データからマイク３００の位置を含む部分映像データを切り出す。このステップＳ３０の処理は、図４（ｄ）に示したエリア判定処理に対応するものである。

その後、ステップＳ３５において、マイク３００の位置を含む部分映像データの補正処理を行い、マイク３００を持った歌唱者の姿が写った画像を得る。このステップＳ３５の処理は、図４（ｅ），図４（ｆ）に示した画像の形状矯正に対応する。そして、ステップＳ４０において、補正処理後の画像を表示部１０９の一部領域に表示させるとともに、撮影時刻と関連づけて大容量記憶装置１０３に保存する。

その後、ステップＳ１００において、上記図８を用いて説明したタイミング六を作成するログ作成処理が実行される。図１０は、このステップＳ１００の詳細手順を表すフローチャートである。

図１０において、まずステップＳ１１０で、歌唱者の位置から所定範囲（前述の例ではカラオケルームＫＲの四隅を除く範囲）内の映像データを補正する。なお、この補正処理は、上記ステップＳ３５での補正処理と同等のものを実行すれば足りるので、詳細な説明を省略する。

その後、ステップＳ１２０において、上記ステップＳ１１０で補正された所定範囲の映像データに対し、公知の顔認識処理を実行し、視聴者の姿を検出する。

そして、ステップＳ１３０に移り、上記ステップＳ１２０において検出した視聴者について、各視聴者の顔の向きを検出する。この検出には、上記同様、公知の適宜の顔認識処理やその他の画像解析処理により、各視聴者の顔の輪郭線や鼻・口の位置を特定し、顔の向きがカラオケルームＫＲ内のいずれの方向を向いているかを算出すればよい。

その後、ステップＳ１４０に移り、上記ステップＳ１３０での検出結果に基づき、歌唱者の方を向いている視聴者人数をカウントする。そして、ステップＳ１２０で検出されたカラオケルームＫＲ内に在室する視聴者の数と、上記カウントされた歌唱者の方を向いている視聴者の人数と、撮影時刻とを上記タイミングログにデータとして記録する。なお、この作成されたタイミングログは、例えば上記大容量記憶装置１０３内に、参照可能に蓄積され格納される。なお、これらステップＳ１２０、ステップＳ１３０、及びステップＳ１４０が各請求項記載の算出手順を構成すると共に、算出手段として機能する。その後、ステップＳ４５（図９参照）に移る。

図９に戻り、ステップＳ４５では、カラオケ演奏曲に対応したＭＩＤＩデータの再生が終了したかどうかを判定する。カラオケ演奏曲に対応したＭＩＤＩデータの再生が終了したときは、ステップＳ４５の判定が満たされてステップＳ５０に移る。一方、カラオケ演奏曲に対応したＭＩＤＩデータの再生が終了していないときは、ステップＳ４５の判定が満たされず、ステップＳ１０に戻り、同様の手順を繰り返す。これにより、カラオケ演奏曲の再生が終了しない間は、ステップＳ１０〜ステップＳ４０及びステップＳ１００が繰り返され、ステップＳ４０を経るたびにステップＳ４０において大容量記憶装置１０３に補正処理後の映像（動画）が順次保存されていき、また、動画を構成する各画像（静止画）に対しステップＳ１００のログ作成処理が実行される。すなわち、各画像（静止画）ごとにステップＳ１０〜ステップＳ４０及びステップＳ１００が繰り返されるのである。

ステップＳ５０では、動画投稿指示操作画面を表示部１０９の一部領域に表示させる。なお、この動画投稿指示操作画面には、操作者（歌唱者である利用者Ａ。但し、利用者Ｂ，Ｃが操作してもよい）のＩＤ、すなわち歌唱者ＩＤの入力を促す表示が含まれている。その後、ステップＳ５５に移る。

ステップＳ５５では、表示部１０９の動画投稿指示操作画面によって、操作者よりカラオケ動画の投稿が指示されたかどうかを判定する。すなわち、上記歌唱者ＩＤの入力を促す表示に対応して（例えば装置本体１００の操作部１０４又はリモコン２００の操作部２０４により）歌唱者ＩＤが入力されると共に、適宜の投稿指示ボタン等の操作がなされたかどうかが判定される。なお、上記操作部１０４又は操作部２０４が各請求項記載の歌唱者ＩＤ入力手段として機能する。カラオケ動画の投稿が指示されたときは、ステップＳ５５の判定が満たされてステップＳ２００に移り、カラオケ動画の投稿が指示されないときは、ステップＳ５５の判定が満たされず、このフローを終了する。

ステップＳ２００では、上記ステップＳ１００のログ作成処理により作成されたタイミングログ（図８参照）の「視聴者の方を向いている視聴者」の欄を参照し、各タイミングにおける歌唱者の方に向いている視聴者の人数を取得する。そして、当該人数が最大となっているタイミングを、盛り上がりタイミングとして決定する。このステップＳ２００が、各請求項記載の決定手順を構成すると共に、決定手段として機能する。

その後、ステップＳ２１０に移り、上記ステップＳ４０において撮影時刻と関連づけて大容量記憶装置１０３に記憶されていた歌唱者の姿を含む複数の画像データの中から、上記ステップＳ２００で決定した盛り上がりタイミングに対応した画像（静止画）を取得し、その画像をサムネイル画像（代表画像）とする。このステップＳ２１０と前述のステップＳ３０及びステップＳ３５とが、各請求項記載の映像処理手段として機能する。その後、ステップＳ６０に移る。

ステップＳ６０では、前述のステップＳ１０〜ステップＳ４０及びステップＳ１００の繰り返し時にステップＳ４０で大容量記憶装置１０３に順次保存された補正処理後の複数の出力映像を用いた動画データと、ステップＳ２１０で取得されたサムネイル画像と、ステップＳ５５で入力された歌唱者ＩＤとを、互いに関連づけた態様でホストサーバ２０にアップロードする。なお、このステップＳ６０が、各請求項記載の出力手順を構成するとともに、静止画出力手段として機能する。ステップＳ６０が完了すると、このフローを終了する。

ホストサーバ２０にアップロードされた上記サムネイルの、前述の所定のｗｅｂページでの表示例を図１１に示す。図１１に示す表示例では、歌唱者（例えば利用者Ａ〜Ｃのいずれか。上記の例では利用者Ａ）が歌唱しているサムネイル画像が、カラオケ演奏曲の曲名、歌唱日時（上記盛り上がりタイミングの日時を含む）、カラオケ動画の再生回数、評価等とともに表示されている。ｗｅｂページの画面上で例えばこのサムネイル画像（又は対応する操作部等）をクリックすることにより、上記ステップＳ６０でアップロードされた歌唱者による歌唱時の動画をすべて再生し、閲覧することができる。この例では、このようにして行った閲覧の後の、当該カラオケ動画に対する閲覧した利用者による評価（「うまい」「おもしろい」「かわいい」「泣ける」が併せて記入され、表示される（詳細な図示は省略）。

以上説明したように、本実施形態においては、娯楽性の向上のために、歌唱者（前述の例では利用者Ａ）及び視聴者（前述の例では利用者Ｂ，Ｃ）の集団の盛り上がりを検出する。前述したように、集団が盛り上がっているときとは、歌唱者の歌唱によって視聴者が心より楽しんでいるときであり、その瞬間には、視聴者の視線が歌唱者のほうへ向いているのが通常である。そこで、全周カメラ４００の撮影結果に基づき生成されたカラオケルームＫＲ内の映像データに対し顔認識処理を行い、その認識結果に基づき、各タイミングにおける「歌唱者の方を向いている視聴者」の人数をタイミングログとして記録する（図８、図９のステップＳ１００参照）。そして、当該人数の時間的推移により、盛り上がりタイミングを決定する（ステップＳ２００参照）。これにより、顔が歌唱者へ向いている視聴者の人数が最も多い瞬間を、当該集団の盛り上がりタイミングと決定することができる。この結果、全周カメラ４００での撮影により生成された映像データのうち、当該盛り上がりタイミングにおける静止画を抽出し（ステップＳ２１０参照）、当該サービス提供時間の代表画像としてホストサーバ２０へアップロードすることができる（ステップＳ６０）。この結果、ホストサーバ２０へアクセスした各ユーザ等が、当該静止画を閲覧し、楽しむことができる（図１１参照）。なおこのサムネイルは、カラオケ装置１０の表示部１０９に映し出すこともできる。このような種々のサービスを行うことにより、カラオケ装置１０の娯楽性をさらに向上することができる。

また、本実施形態では特に、１台の全周カメラ４００が、歌唱者及びマイクロ３００を含む所定範囲の視野を撮影し、当該所定範囲の映像データを生成する。このとき、カメラを中心とした全周を撮影可能な視野が広い全周カメラ４００を用いることにより、歌唱者（上記の例では利用者Ａ）及び視聴者（上記の利用者Ｂ，Ｃ）の全員が、当該カメラが生成した映像データの中に常に含まれる。そして生成された所定範囲の映像データには、歌唱者の所持したマイク３００の位置に対応したマーカ光が、歌唱者の姿と共に必ず記録されている。そこで、映像データに含まれるマーカ光を用いてマイク３００及び歌唱者の位置を特定する（図９のステップＳ２５参照）とともに、歌唱者の位置以外の映像データに対し顔認識処理を行って視聴者の顔の向きを決定する（図１０のステップＳ１２０、ステップＳ１３０参照）。これにより、複数台のカメラを用いなくても、全周カメラ４００の１台だけで、顔が歌唱者の方向を向いている視聴者の人数を確実に算出することができる。

ここで、上記静止画を生成する場合、上記のように視野が広い全周カメラ４００の映像データから得た静止画は視野の端部ほど歪んだ状態となっている。本実施形態では特に、図９のステップＳ３５において、上記所定範囲の映像データから、歌唱者を含む部分静止画を全周の中心に対して劣弧をとる扇形に切り出すと共に、その切り出した部分静止画に所定の補正処理を行う（前述したように、切り出した扇形の劣弧を直線に補正し、扇形を四角形とする）。これにより、上記歪んだ状態が是正された正常な静止画からなる盛り上がりタイミングのサムネイルを、ステップＳ６０において代表画像としてホストサーバ２０へ出力することができる。

なお、本発明は、上記実施形態に限られるものではなく、その趣旨及び技術的思想を逸脱しない範囲内で種々の変形が可能である。以下、そのような変形例を説明する。

（１）歌唱者の顔が写っている静止画を抽出する場合
例えば、歌唱者及び視聴者の集団が盛り上がっている盛り上がりタイミングにおいて、たまたま歌唱者が下を向いたり横を向いたりしている場合がある。このようなタイミングにおける静止画は、歌唱者の顔が正しく記録されていないため、代表画像としては必ずしも好ましくない。本変形例は、このような場合に対応するためのものである。

図１２は、この変形例において制御部１０１により実行される処理手順の詳細を表すフローチャートであり、上記図９に対応する図である。図９と同等の手順には同一の符号を付し、説明を省略又は簡略化する。

図１２において、本変形例では、図９におけるステップＳ２１０を省略すると共に、新たに、ステップＳ２２０、ステップＳ２３０、ステップＳ２４０、ステップＳ２５０、ステップＳ２６０を設けている。

ステップＳ１０〜ステップＳ４０及びステップＳ２００の処理は、図９と同様であり、詳細な説明を省略する。ステップＳ２００が終了したら、新たに設けたステップＳ２２０に移る。

ステップＳ２２０では、上記ステップＳ２００での盛り上がりタイミングの決定結果に基づき、盛り上がりタイミングが複数あったかどうかを判定する。すなわち、上記タイミングログにおいて、複数のタイミングにおいて、歌唱者の方を向いている視聴者の数が同人数であったかどうか、が判定される。

盛り上がりタイミングが１つに限られ、複数はなかった場合は、ステップＳ２２０の判定が満たされず、ステップＳ２５０に移る。ステップＳ２５０では、上記ステップＳ４０において撮影時刻と関連づけて大容量記憶装置１０３に記憶されていた歌唱者の姿を含む多数の画像データの中から、上記１つの盛り上がりタイミングに対応した画像（静止画）を取得し、その画像をサムネイル画像とする。その後、ステップ６０に移る。

一方、ステップＳ２２０において、盛り上がりタイミングが複数あった場合は、ステップＳ２２０の判定が満たされ、ステップＳ２３０に移る。ステップＳ２３０では上記ステップＳ４０において撮影時刻と関連づけて大容量記憶装置１０３に記憶されていた歌唱者の姿を含む多数の画像データの中から、上記複数の盛り上がりタイミングに対応した画像（静止画）を取得する。そして、それら複数の静止画の中に対し、公知の顔認識の手法を用いて、歌唱者の顔が認識できるものがあるかを判定する。なお、このステップＳ２２０が、各請求項記載の判定手段として機能する。

歌唱者の顔が認識できるものがある場合は、ステップＳ２３０の判定が満たされ、ステップＳ２４０に移り、当該認識できる静止画をサムネイル画像とする。なお、歌唱者の顔が認識できる静止画が複数あった場合には、その中の適宜のいずれか１つをサムネイルとすればよい。その後、ステップ６０に移る。

一方、ステップＳ２３０において、歌唱者の顔が認識できる静止画が無い場合は、ステップＳ２６０に移る。ステップＳ２６０では、上記ステップＳ２３０において取得された、複数の静止画の中の適宜のいずれか１つをサムネイルとする。その後、ステップＳ６０に移る。なお、歌唱者の顔が認識できなかったことに対応して、このステップＳ２６０ではサムネイルを設定せず、表示部１０９に表示信号を出力して適宜のエラー表示を行い、このフローを終了するようにしてもよい。また盛り上がりタイミングが１つしかなくステップＳ２２０での判定が満たされなかった場合にも、ステップＳ２３０と同様の判定を行い、判定が満たされなかった場合には、上記同様にサムネイルを設定せずエラー表示としてもよい。

なお、ステップＳ６０の処理は、図９と同様であるので、詳細な説明を省略する。また、ステップＳ２５０、ステップＳ２４０、ステップＳ２６０と前述のステップＳ３０及びステップＳ３５とが、各請求項記載の映像処理手段として機能する。

本変形例においては、サムネイルを設定してホストサーバ２０へ出力する際、なるべく歌唱者の顔が正しく記録された静止画をサムネイルにすることができる。

（２）音声レベルを考慮して抽出する場合
例えば、歌唱者及び視聴者の集団が盛り上がっている盛り上がりタイミングにおいて、たまたま歌唱者が歌っていない場合がある。すなわち、歌唱者の歌唱ではないジェスチャーや仕草、表情等により視聴者が一斉に着目した場合等、歌唱者による歌唱以外の行動により盛り上がりが生じた場合である。このようなタイミングにおける静止画は、歌唱を行っていないため、カラオケ歌唱動画の代表画像としては必ずしも好ましくない。本変形例は、このような場合に対応するためのものである。

図１３は、この変形例において制御部１０１により実行される処理手順の詳細を表すフローチャートであり、上記図９や図１２に対応する図である。図１２と同等の手順には同一の符号を付し、説明を省略又は簡略化する。

図１２において、本変形例では、図９におけるステップＳ２３０及びステップＳ２４０に代え、ステップＳ３００、ステップＳ３１０を設けている。

すなわち、図１３に示すように、ステップＳ２２０の判定が満たされたら、ステップＳ３００に移る。ステップＳ３００では、上記ステップＳ４０において撮影時刻と関連づけて大容量記憶装置１０３に記憶されていた歌唱者の姿を含む多数の画像データの中から、上記複数の盛り上がりタイミングに対応した画像（静止画）を取得する。そして、それら複数の静止画の中に対し、当該タイミングにおけるマイク３００からの音声レベルが所定値未満のものがあるかを判定する。すなわち、この変形例では、上記大容量記憶装置１０３に記憶された各画像データは、その時点でのマイク３００の音声レベルとも予め対応付けられた形で、記憶されている。

音声レベルが所定値未満のものがあった場合には、ステップＳ３００の判定が満たされ、ステップＳ３１０に移り、音声レベルが所定値以上となっているときの静止画をサムネイル画像とする。なお、音声レベルが所定値以上となっている静止画が複数あった場合には、その中の適宜のいずれか１つをサムネイルとすればよい。その後、ステップ６０に移る。

一方、ステップＳ３００において、音声レベルが所定値未満であるものがない場合は、ステップＳ２６０に移り、上記同様、上記ステップＳ２３０において取得された、複数の静止画の中の適宜のいずれか１つをサムネイルとする。その後、ステップＳ６０に移る。

なお、ステップＳ６０の処理は、図９と同様であるので、詳細な説明を省略する。また、ステップＳ２５０、ステップＳ３１０、ステップＳ２６０と前述のステップＳ３０及びステップＳ３５とが、各請求項記載の映像処理手段として機能する。

本変形例においては、サムネイルを設定してホストサーバ２０へ出力する際、なるべく歌唱者が実際に歌唱している様子が記録された静止画をサムネイルにすることができる。

（３）その他
以上においては、１台の全周カメラ４００を用いて撮影を行った場合を例にとって説明したが、これに限られない。すなわち、カメラを複数台用い、歌唱者撮影カメラで歌唱者を撮影すると共に、視聴者を撮影するために配置した別の視聴者撮影カメラにて室内の視聴者を撮影するようにしても良い。いずれにしても、歌唱者の方向へ向かっている視聴者の人数を検出できれば足りる。

なお、図９、図１０、図１２、図１３等に示すフローチャートは本発明を上記フローに示す手順に限定するものではなく、発明の趣旨及び技術的思想を逸脱しない範囲内で手順の追加・削除又は順番の変更等をしてもよい。

また、以上既に述べた以外にも、上記実施形態や各変形例による手法を適宜組み合わせて利用しても良い。

その他、一々例示はしないが、本発明は、その趣旨を逸脱しない範囲内において、種々の変更が加えられて実施されるものである。

１０カラオケ装置
１０６音源（楽曲再生手段）
１０７音声制御部（楽曲再生手段）
１０８スピーカ（楽曲再生手段）
１０９表示部（表示手段）
２００リモコン
３００マイク（マイクロフォン）
３０４ＬＥＤ（標識信号発生手段）
４００全周カメラ（動画撮影カメラ）
Ａ利用者（歌唱者）
Ｂ利用者（視聴者）
Ｃ利用者（視聴者）

Claims

楽曲データ及び映像データを用いて、カラオケ演奏曲の再生サービスを提供するカラオケ装置であって、
歌唱者が歌唱するための前記楽曲データを再生する楽曲再生手段と、
前記楽曲再生手段により前記楽曲データの再生が行われるのにしたがい、前記映像データを表示可能な表示手段と、
前記歌唱者以外の視聴者及び前記歌唱者を含む所定範囲の視野を撮影し、当該所定範囲の映像データを生成する少なくとも１台の動画撮影カメラと、
前記動画撮影カメラにより生成された前記所定範囲の映像データにより、顔が前記歌唱者の方向を向いている前記視聴者の人数を算出する算出手段と、
前記算出手段により算出される前記人数の時間的推移により、前記歌唱者及び前記視聴者を含む集団の盛り上がりタイミングを決定する決定手段と、
を有することを特徴とするカラオケ装置。
請求項１記載のカラオケ装置において、
前記歌唱者に所持され、当該歌唱者によるカラオケ歌唱の音声信号を入力するためのマイクロフォンと、
前記マイクロフォンに設けられ、標識信号を発生する標識信号発生手段と、
前記動画撮影カメラは、１台設けられるとともに、
前記マイクロフォン及び前記歌唱者を含む前記所定範囲の視野を自装置を中心とした全周を撮影し、前記標識信号発生手段から発生された前記標識信号を含む前記所定範囲の映像データを生成し、
前記算出手段は、
前記１台の動画撮影カメラにより生成された前記所定範囲の映像データに含まれる前記標識信号に基づいて前記マイクロフォン及び前記歌唱者の位置を特定するとともに、前記所定範囲のうち前記歌唱者の位置以外の範囲の映像データに所定の顔認識処理を行って前記視聴者の顔の向きを決定することにより、顔が前記歌唱者の方向を向いている前記視聴者の人数を算出する
ことを特徴とするカラオケ装置。
請求項２記載のカラオケ装置において、
前記所定範囲の映像データから、前記決定手段により決定された前記盛り上がりタイミングにおける前記歌唱者を含む少なくとも１つの部分静止画を前記全周の中心に対して劣弧をとる扇形に切り出すとともに、その切り出した前記扇形の劣弧を直線に補正することで、前記扇形を四角形に補正する補正処理を行って、１つの静止画とする映像処理手段と、
前記静止画を、当該カラオケ装置にネットワーク接続されたサーバへ出力する静止画出力手段と
を有することを特徴とするカラオケ装置。
請求項３記載のカラオケ装置において、
前記映像処理手段により補正処理された前記少なくとも１つの静止画に対し所定の顔認識処理を行い、前記歌唱者の顔を認識できるかどうかを判定する判定手段を有し、
前記静止画出力手段は、
前記映像処理手段により補正処理された前記少なくとも１つの静止画のうち、前記判定手段により前記歌唱者の顔を認識できると判定された静止画を、前記サーバへ出力する
ことを特徴とするカラオケ装置。
請求項４記載のカラオケ装置において、
外部から歌唱者ＩＤを入力する歌唱者ＩＤ入力手段
を有し、
前記映像処理手段はさらに、
前記所定範囲の映像データから、前記特定された前記歌唱者の位置を含む部分映像データを切り出して所定の補正処理を行い、
前記静止画出力手段は、
歌唱者ＩＤ入力手段より入力された前記歌唱者ＩＤと、前記判定手段により前記歌唱者の顔を認識できると判定された静止画と、前記映像処理手段による補正処理後の前記部分映像データと、を対応付けて、当該カラオケ装置にネットワーク接続された前記サーバへ出力する
ことを特徴とするカラオケ装置。
カラオケ演奏曲を再生するカラオケ装置に備えられたコンピュータが実行する、当該カラオケ演奏曲の歌唱者を含む静止画を生成して出力するためのカラオケ歌唱者の静止画出力方法であって、
少なくとも１台の動画撮影カメラにより撮影され生成された、前記歌唱者以外の視聴者及び前記歌唱者を含む所定範囲の映像データを取得する取得手順と、
前記取得手順で取得された前記所定範囲の映像データにより、顔が前記歌唱者の方向を向いている前記視聴者の人数を算出する算出手順と、
前記算出手順で算出された前記人数の時間的推移により、前記歌唱者及び前記視聴者を含む集団の盛り上がりタイミングを決定する決定手順と、
前記取得手順で取得された前記所定範囲の映像データから、前記決定手順で決定された前記盛り上がりタイミングにおける前記歌唱者を含む少なくとも１つの静止画を抽出する抽出手順と、
前記抽出手順で抽出された前記静止画、又は、当該静止画を補正した後の静止画を、前記カラオケ装置に接続されたサーバへ出力する出力手順と、
を有することを特徴とするカラオケ歌唱者の静止画出力方法。