以下、本発明の一実施の形態を図面を参照しつつ説明する。
図1は、本実施形態のカラオケ装置が設置されたカラオケルームを概略的に表す図である。
図1において、カラオケ店舗等のカラオケルームKRには、カラオケ装置10が設置されている。カラオケ装置10は、楽曲データとしてのMusical Instrument Digital Interface(MIDI;登録商標)データ及び映像データを用いて、カラオケ演奏曲の再生サービスを提供する装置である。図1に示すものでは、利用者A〜Cがカラオケ歌唱を行っている。カラオケ装置10は、コマンダと称される装置本体100と、リモコン200と、マイクロフォン(以下、略してマイク)300と、1台の全周カメラ400(動画撮影カメラ)とを有している。装置本体100、リモコン200、及びマイク300については、後で詳述する。
全周カメラ400は、この例では、例えばカラオケルームKRの天井中心に下向きに備え付けられている。全周カメラ400は、マイク300及び歌唱者A〜Cを含む所定範囲の固定的な視野を撮影し、その範囲の映像データを生成する。具体的には、全周カメラ400は、魚眼レンズを有し、当該カメラ400を中心とした、左右360度、上下90度の半球状視野を1枚に収めた映像データを得る。魚眼レンズの機能によって、全周カメラ400の視野内の像は、近い物体ほど円の中心に写り、遠い物体ほど円の周辺部に写る性質を持つ。また、魚眼レンズにより広い視野角が得られる代償として、全ての物体は扇状に歪曲して写るようになる。従って、全周カメラ400によりカラオケルームKR内の全体を撮影すると、全体的に扇状に歪曲した画像が取得されることとなる。
図2は、マイク300の外観を表す図である。図2において、マイク300は、利用者によるカラオケ歌唱の音声を音声信号に変換して入力するものである。
マイク300は、マイク素子301が内蔵されたマイクハウジング302を有している。マイクハウジング302の上部には、電源スイッチ303が設けられている。マイクハウジング302の下部には、所定の色(この例では、緑色)の標識信号としてのマーカ光を発光する、標識信号発生手段としての発光ダイオード(LED)304と、このLED304から発した緑色のマーカ光を均一に拡散させる半透明の光拡散球305とが設けられている。
図3は、上記のカラオケ装置10を備えたカラオケシステムの全体構成を表す機能ブロック図である。
図3において、カラオケシステム1は、上記カラオケルームKRに設置された上記カラオケ装置10と、ホストサーバ20とを有している。カラオケ装置10とホストサーバ20とは、例えば通信ネットワーク等のネットワークNWとを介し、互いに情報送受信可能に接続されている。
カラオケ装置10は、上記の装置本体100、リモコン200、マイク300、及び全周カメラ400を有している。装置本体100とリモコン200とは、例えば無線又は有線のLAN等のネットワークを介し、互いに情報送受信可能に接続されている。装置本体100とマイク300とは、無線回線又は有線回線により接続されている。
装置本体100は、制御部101と、大容量記憶装置103と、操作部104と、受信部105と、音源106と、音声制御部107と、スピーカ108と、表示部109と、通信制御部110とを有している。
制御部101は、図示しないCPUや、RAM及びROM等のメモリを備えている。この制御部101は、RAMの一時記憶機能を利用しつつ、ROMや上記大容量記憶装置103に予め記憶された各種プログラムを実行する。これにより、装置本体100全体の制御を行う。
特に、制御部101は、全周カメラ400により得られたカラオケルームKR内の撮像画像に対して所定の画像処理を行い、マイク300を持った歌唱者の複数の画像(集合体としての動画を構成する複数の静止画。以下同様)を生成し、その画像を大容量記憶装置103に記憶するとともに表示部109に表示させる処理を行う(詳細は後述)。
大容量記憶装置103は、例えばHard Disk Drive(HDD)などから構成される。この大容量記憶装置103には、MIDIデータ、背景映像データ、及び歌詞データ等の各種情報が記憶されている。また、この大容量記憶装置103には、利用者の歌唱時の動画データが順次記憶される。
操作部104は、例えば複数のキーやスイッチなどから構成される。利用者は、この操作部104又は後述のリモコン200の操作部204を用いて、カラオケ演奏曲の予約操作等の各種操作を行うことができる。
受信部105は、上記のマイク300から出力された歌唱者の音声信号を受信する。
音源106は、上記制御部101によって大容量記憶装置103から読み出されたMIDIデータを再生して音声制御部107へ出力する。音声制御部107は、音源106から出力されたMIDIデータ、及び、受信部105を介してマイク300により入力された音声信号を増幅し、スピーカ108へ出力する。スピーカ108は、音声制御部107から出力されたMIDIデータ及び音声信号を音声出力する。
なお、以下適宜、音源106、音声出力部107、及びスピーカ108を、省略して「音源106等」と称する。音源106等は、楽曲データを再生する楽曲再生手段を構成している。
表示部109は、例えば液晶ディスプレイなどから構成され、各種映像を表示する表示手段として機能する。特に、表示部109は、上記音源106等によるMIDIデータの再生に同期して、言い換えれば、音源106等によりMIDIデータの再生が行われるのに従い、大容量記憶装置103から読み出された背景映像データ、及び歌詞データに対応したテロップ等を表示することができる。
通信制御部110は、リモコン200やホストサーバ20との間で情報通信の制御を行う。
リモコン200は、利用者がカラオケ演奏曲の予約操作等の各種操作を行うための操作端末である。このリモコン200は、制御部201と、記憶装置203と、操作部204と、表示部209と、通信制御部210とを有している。
制御部201は、図示しないCPUやRAM及びROM等のメモリを備えている。この制御部201は、RAMの一時記憶機能を利用しつつ、ROMや上記記憶装置203に予め記憶された各種プログラムを実行する。これにより、リモコン200全体の制御を行う。
記憶装置203は、例えば不揮発性メモリなどから構成され、各種情報を記憶する。操作部204は、例えば複数のキーやスイッチなどから構成される。利用者は、この操作部204又は上記カラオケ装置100の操作部104を用いて、カラオケ演奏曲の予約操作等の各種操作を行うことができる。表示部209は、例えば液晶ディスプレイなどから構成され、各種表示を行う。
通信制御部210は、装置本体100やホストサーバ20との間で情報通信の制御を行う。
ホストサーバ20には、利用者の歌唱中の姿の動画データが圧縮動画ファイルとしてアップロード可能である(詳細は後述)。このホストサーバ20にアップロードされた動画データは、所定のWebページにおいて特定の利用者の端末より閲覧可能となっている(後述の図11も参照)。
ここで、本実施形態の特徴の1つとして、全周カメラ400により得られたカラオケルームKR内の映像画像に含まれるマーカ光に基づいてマイク300の位置が特定され、そのマイク300の位置を含む部分映像が切り出され、マイク300を持った歌唱者の動画(カラオケ投稿動画)データが取得される。このとき、全周カメラ400で撮像して得られた映像信号は、人間の通常の視野とは大きく異なるので、カラオケ投稿動画の用途としてそのまま使うことはできない。このため、全周カメラ400で撮像して得られた映像信号に対して所定の処理を施す必要がある。
図4(a)〜(f)は、全周カメラ400より入力された映像を画像処理して歌唱者の動画データを得るプロセスを表す説明図である。本処理は、装置本体100の制御部101によって実行される。
図4(a)に示すように、まず全周カメラ400で取得したカラオケルームKR内の映像を入力する。ここでは、利用者A〜C及びマイク300の映像のみを表し、テーブルや装置本体100等の映像は省略してある。
その後、図4(b)に示すように、全周カメラ400より入力された映像において、所定の色(この例では緑)の成分以外の成分を除去するカラーフィルタ処理を行う。具体的には、色フィルタ(ここでは緑フィルタ)を通して、全周カメラ400より入力された映像から緑色の成分のみを抽出する。色フィルタは、RGBのG値のみを通過させるか、又は、YUVのUVが一定範囲内にある画素値のみを通過させる、CPU演算処理による画素データファイルである。
その後、図4(c)に示すように、カラーフィルタ処理が行われた映像データを輝度フィルタに通し、輝度が一定以上の値を示す画素値のみを通過させることで、画像データの2値化を行う。これにより、画像の中の「純粋な緑色に近く、一定以上の明るさがある」画素のみが「1」を示し、それ以外の画素は「0」を示すビットマップが得られる。
その後、図4(d)に示すように、全周カメラ400より入力された映像についてエリア判定を行う。具体的には、予め蜘蛛の巣状に定義されたマップに従い、角度方向(人間の視覚での左右に相当)に対して8分解(A〜H)、距離方向(人間の視覚での奥行きに相当)に対して3分解(1〜3)又は4分解(1〜4)の計28分解された各エリアについて、エリアごとにビットマップの画素値を全て加算する。この加算値が最も大きい値(図中ではエリアG2)がマーカ光を検知しており、撮影すべき歌唱者がいるエリア(方向)であると判定される。
その後、図4(e)に示すように、図4(d)に示す処理で選択されたエリアについて、扇状スキャンによる画像の形状補正を行う。具体的には、エリア内にある画素を同図に示した走査線に従って並べなおす処理を行う。これによって、扇形状の直径方向はY軸、円周方向はX軸の矩形状に変形し矯正される。ここで、中心部に近い走査線は短く、円周部に近い走査線は長いが、同一値の画素で補完して拡大するか、画素を省略して縮小し、一定長の線データを得る。走査線の座標パターンは、エリアA1〜H4ごとに予め用意されている。
全ての走査線について変換処理が終了すると、図4(f)に示すような、最終的な出力画像(図中ではエリアG2の画像)が得られる。この画像は、全周カメラ400に写ったマーカ光の周辺領域だけを切り取った上で、湾曲した魚眼レンズの円形視野角を通常の矩形視野角へと変換補正したものである。言い換えれば、全周の中心に対して劣弧をとる扇形が切り出されると共に、その切り出された扇形の劣弧を直線に補正することで、扇形が四角形に補正されたものである。このような補正であることから、結果的にマイク300を持っている歌唱者(この例では利用者A)に対して通常のカメラを向けたのと同等の結果が得られる。本実施形態では、歌唱者(この例では利用者A)が歌唱している間の映像に対し上記変換補正が行われることで、歌唱者である利用者Aを含む連続的な映像が取得され、記憶される。
なお、これらの処理は、動画を構成する各画像(静止画)に対して行われるので、毎秒30フレームの速度で処理されるが、演算能力の関係上、例えば10フレームにつき1フレームの頻度で処理を行うなど、間引きを行ってもよい。
本実施形態では、上記のようにして歌唱者(この例では利用者A)の位置を特定した後、その歌唱者に対し、他の利用者(この例では利用者B,C)が視線を向けているかどうかで、これら利用者A,B,Cからなるグループの盛り上がりタイミングを検出する。
すなわち、上述においては、エリアG2の画像についての処理を例にとって説明したが、それ以外の27個のエリア、すなわち、エリアA1〜A3,B1〜B3,C1〜C4,D1〜D4,E1〜E3,F1〜F3,G1,G3,G4,H1〜H4についても、同様の手法で各エリアに対して通常のカメラを向けた場合と同等の映像を得ることができる。これにより、歌唱者である利用者Aのまわりの所定範囲(例えば通常は人の存在が考えにくいカラオケルームKRの四隅に相当するエリアC4,D4,G4,H4を除く範囲)の映像を得ることができ、当該所定範囲に他の利用者(視聴者)がいるかどうかを、公知の顔認識技術等により検知することができる。この例で言えば、利用者B及び利用者Cの存在が、上記の顔認識技術等を用いて認識される。図5は、このようにして歌唱者(利用者A)まわりの所定範囲の画像が取得された状態を概念的に表している。
そして、さらに、本実施形態では、図5のように歌唱者(利用者A)まわりの所定範囲について取得された画像を用いて、歌唱者以外の利用者(この例では利用者B,C)が歌唱者(利用者A)に対し視線を向けているかどうかを検出する。図5の例は、破線矢印で示すように、2名の利用者B,C全員の顔が利用者Aに向き、利用者Aに対し視線を向けている状態を表しており、現実の空間における上記図1に示した状態に対応している。
一方、例えば、利用者B,Cのうち利用者Cの顔が歌唱者である利用者Aを向いておらず、利用者Aに対し視線を向けているのは利用者Bの1名のみである状態もありうる。この場合も、上記の顔技術認識等を用いて図6に示すような歌唱者(利用者A)まわりの所定範囲の画像が取得されることで、上記のような状態であることが認識される。現実の空間では図7に示されるような状態となる。
以上のようにして、本実施形態では、利用者Aが歌唱者として歌唱しているとき、所定周期(例えば数十msec等)ごとの各タイミングにおいて利用者Aの方に顔が向き視線を向けている他の利用者の人数を検出する。その検出した人数は、時系列に沿ったタイミングログに記録される。そして、歌唱者へ顔を向けている他の利用者(視聴者)が最も多いタイミングを、この集団の盛り上がりタイミングである、と決定する。
図8は、上記盛り上がりタイミングを決定するために用いられる、上記タイミングログの例を表す説明図である。図8に示すように、タイミングログには、各データが取得された時刻(言い換えれば録画時刻)を例えばmsec単位で表す「時刻」欄と、前述のようにしてマーカ光に基づき識別された歌唱者を表す「歌唱者」欄と、上記顔認識により識別された、歌唱者以外の在室利用者すなわち視聴者を表す「視聴者」欄と、その視聴者のうち歌唱者の方を顔が向いている視聴者を表す「歌唱者の方を向いている視聴者」の欄とが、記録欄としてそれぞれ設けられている。図示のように、この例では、左から右に向かって時系列的に各データが記録されている。
例えば利用者Aが歌唱している間は、「歌唱者」欄には当該時刻範囲の全タイミングにおいて「A」が記録される。利用者Aが歌唱しているカラオケルームKR内に利用者B,Cの両方が在室しているタイミングでは「視聴者」欄に「B,C」が記録される。例えば利用者Bがトイレに行くために退室し視聴者として利用者Cのみが在室しているタイミングでは「C」のみが記録される。
また、利用者Aが歌唱しているときに利用者B,Cの両方が利用者Aの方を向いているタイミングでは「歌唱者の方を向いている視聴者」欄に「B,C」が記録される(図5及び図1の状態に相当)。一方、利用者Aが歌唱しているときに利用者Cは利用者Aの方を向いているが、利用者Bは例えば壁の方を向いており利用者Aの方を向いていないタイミングでは「歌唱者の方を向いている視聴者」欄に「C」のみが記録され(図6及び図7の状態に相当)、誰も利用者Aの方を向いていないタイミングでは「なし」と記録される。
図8に示す例では、図中左右方向の中央に位置するタイミングで、歌唱者である利用者Aの方を、2人の利用者B,Cが向いている。したがって、このタイミングが、「盛り上がりタイミング」である、として決定される。
そして、先に述べたように、本実施形態では、歌唱者が歌唱している間の当該歌唱者(上記の例では利用者A)を含む映像が連続的に取得され、記憶されている。このように記憶された映像すなわち動画は多数の静止画の集合体であるが、本実施形態では、上記盛り上がりタイミングとして決定されたタイミングの静止画が、上記歌唱者を撮影した映像を代表する、サムネイル画像として抽出される。
図9は、上記の手法を実行するために、制御部101により実行される処理手順の詳細を表すフローチャートである。
図9において、カラオケ演奏曲に対応したMIDIデータの再生が開始されると、このフローが開始される。すなわち、音源106等によるMIDIデータの再生と同期して、背景映像データ及び歌詞データが表示部109に表示される。すると、歌唱者によるカラオケ演奏曲の歌唱が行われ、マイク300よりカラオケ歌唱の音声が入力される。
まずステップS10において、全周カメラ400により撮影された、カラオケルームKR内の映像データを取得する。この手順が、各請求項記載の取得手順を構成する。
その後、ステップS25で、カラオケルームKR内の映像データに含まれるマーカ光に基づいて、マイク300の位置を特定する。このステップS25の処理は、前述の図4(a)〜図4(c)に示した画像処理に対応するものである。そして、ステップS30において、カラオケルームKR内の映像データからマイク300の位置を含む部分映像データを切り出す。このステップS30の処理は、図4(d)に示したエリア判定処理に対応するものである。
その後、ステップS35において、マイク300の位置を含む部分映像データの補正処理を行い、マイク300を持った歌唱者の姿が写った画像を得る。このステップS35の処理は、図4(e),図4(f)に示した画像の形状矯正に対応する。そして、ステップS40において、補正処理後の画像を表示部109の一部領域に表示させるとともに、撮影時刻と関連づけて大容量記憶装置103に保存する。
その後、ステップS100において、上記図8を用いて説明したタイミング六を作成するログ作成処理が実行される。図10は、このステップS100の詳細手順を表すフローチャートである。
図10において、まずステップS110で、歌唱者の位置から所定範囲(前述の例ではカラオケルームKRの四隅を除く範囲)内の映像データを補正する。なお、この補正処理は、上記ステップS35での補正処理と同等のものを実行すれば足りるので、詳細な説明を省略する。
その後、ステップS120において、上記ステップS110で補正された所定範囲の映像データに対し、公知の顔認識処理を実行し、視聴者の姿を検出する。
そして、ステップS130に移り、上記ステップS120において検出した視聴者について、各視聴者の顔の向きを検出する。この検出には、上記同様、公知の適宜の顔認識処理やその他の画像解析処理により、各視聴者の顔の輪郭線や鼻・口の位置を特定し、顔の向きがカラオケルームKR内のいずれの方向を向いているかを算出すればよい。
その後、ステップS140に移り、上記ステップS130での検出結果に基づき、歌唱者の方を向いている視聴者人数をカウントする。そして、ステップS120で検出されたカラオケルームKR内に在室する視聴者の数と、上記カウントされた歌唱者の方を向いている視聴者の人数と、撮影時刻とを上記タイミングログにデータとして記録する。なお、この作成されたタイミングログは、例えば上記大容量記憶装置103内に、参照可能に蓄積され格納される。なお、これらステップS120、ステップS130、及びステップS140が各請求項記載の算出手順を構成すると共に、算出手段として機能する。その後、ステップS45(図9参照)に移る。
図9に戻り、ステップS45では、カラオケ演奏曲に対応したMIDIデータの再生が終了したかどうかを判定する。カラオケ演奏曲に対応したMIDIデータの再生が終了したときは、ステップS45の判定が満たされてステップS50に移る。一方、カラオケ演奏曲に対応したMIDIデータの再生が終了していないときは、ステップS45の判定が満たされず、ステップS10に戻り、同様の手順を繰り返す。これにより、カラオケ演奏曲の再生が終了しない間は、ステップS10〜ステップS40及びステップS100が繰り返され、ステップS40を経るたびにステップS40において大容量記憶装置103に補正処理後の映像(動画)が順次保存されていき、また、動画を構成する各画像(静止画)に対しステップS100のログ作成処理が実行される。すなわち、各画像(静止画)ごとにステップS10〜ステップS40及びステップS100が繰り返されるのである。
ステップS50では、動画投稿指示操作画面を表示部109の一部領域に表示させる。なお、この動画投稿指示操作画面には、操作者(歌唱者である利用者A。但し、利用者B,Cが操作してもよい)のID、すなわち歌唱者IDの入力を促す表示が含まれている。その後、ステップS55に移る。
ステップS55では、表示部109の動画投稿指示操作画面によって、操作者よりカラオケ動画の投稿が指示されたかどうかを判定する。すなわち、上記歌唱者IDの入力を促す表示に対応して(例えば装置本体100の操作部104又はリモコン200の操作部204により)歌唱者IDが入力されると共に、適宜の投稿指示ボタン等の操作がなされたかどうかが判定される。なお、上記操作部104又は操作部204が各請求項記載の歌唱者ID入力手段として機能する。カラオケ動画の投稿が指示されたときは、ステップS55の判定が満たされてステップS200に移り、カラオケ動画の投稿が指示されないときは、ステップS55の判定が満たされず、このフローを終了する。
ステップS200では、上記ステップS100のログ作成処理により作成されたタイミングログ(図8参照)の「視聴者の方を向いている視聴者」の欄を参照し、各タイミングにおける歌唱者の方に向いている視聴者の人数を取得する。そして、当該人数が最大となっているタイミングを、盛り上がりタイミングとして決定する。このステップS200が、各請求項記載の決定手順を構成すると共に、決定手段として機能する。
その後、ステップS210に移り、上記ステップS40において撮影時刻と関連づけて大容量記憶装置103に記憶されていた歌唱者の姿を含む複数の画像データの中から、上記ステップS200で決定した盛り上がりタイミングに対応した画像(静止画)を取得し、その画像をサムネイル画像(代表画像)とする。このステップS210と前述のステップS30及びステップS35とが、各請求項記載の映像処理手段として機能する。その後、ステップS60に移る。
ステップS60では、前述のステップS10〜ステップS40及びステップS100の繰り返し時にステップS40で大容量記憶装置103に順次保存された補正処理後の複数の出力映像を用いた動画データと、ステップS210で取得されたサムネイル画像と、ステップS55で入力された歌唱者IDとを、互いに関連づけた態様でホストサーバ20にアップロードする。なお、このステップS60が、各請求項記載の出力手順を構成するとともに、静止画出力手段として機能する。ステップS60が完了すると、このフローを終了する。
ホストサーバ20にアップロードされた上記サムネイルの、前述の所定のwebページでの表示例を図11に示す。図11に示す表示例では、歌唱者(例えば利用者A〜Cのいずれか。上記の例では利用者A)が歌唱しているサムネイル画像が、カラオケ演奏曲の曲名、歌唱日時(上記盛り上がりタイミングの日時を含む)、カラオケ動画の再生回数、評価等とともに表示されている。webページの画面上で例えばこのサムネイル画像(又は対応する操作部等)をクリックすることにより、上記ステップS60でアップロードされた歌唱者による歌唱時の動画をすべて再生し、閲覧することができる。この例では、このようにして行った閲覧の後の、当該カラオケ動画に対する閲覧した利用者による評価(「うまい」「おもしろい」「かわいい」「泣ける」が併せて記入され、表示される(詳細な図示は省略)。
以上説明したように、本実施形態においては、娯楽性の向上のために、歌唱者(前述の例では利用者A)及び視聴者(前述の例では利用者B,C)の集団の盛り上がりを検出する。前述したように、集団が盛り上がっているときとは、歌唱者の歌唱によって視聴者が心より楽しんでいるときであり、その瞬間には、視聴者の視線が歌唱者のほうへ向いているのが通常である。そこで、全周カメラ400の撮影結果に基づき生成されたカラオケルームKR内の映像データに対し顔認識処理を行い、その認識結果に基づき、各タイミングにおける「歌唱者の方を向いている視聴者」の人数をタイミングログとして記録する(図8、図9のステップS100参照)。そして、当該人数の時間的推移により、盛り上がりタイミングを決定する(ステップS200参照)。これにより、顔が歌唱者へ向いている視聴者の人数が最も多い瞬間を、当該集団の盛り上がりタイミングと決定することができる。この結果、全周カメラ400での撮影により生成された映像データのうち、当該盛り上がりタイミングにおける静止画を抽出し(ステップS210参照)、当該サービス提供時間の代表画像としてホストサーバ20へアップロードすることができる(ステップS60)。この結果、ホストサーバ20へアクセスした各ユーザ等が、当該静止画を閲覧し、楽しむことができる(図11参照)。なおこのサムネイルは、カラオケ装置10の表示部109に映し出すこともできる。このような種々のサービスを行うことにより、カラオケ装置10の娯楽性をさらに向上することができる。
また、本実施形態では特に、1台の全周カメラ400が、歌唱者及びマイクロ300を含む所定範囲の視野を撮影し、当該所定範囲の映像データを生成する。このとき、カメラを中心とした全周を撮影可能な視野が広い全周カメラ400を用いることにより、歌唱者(上記の例では利用者A)及び視聴者(上記の利用者B,C)の全員が、当該カメラが生成した映像データの中に常に含まれる。そして生成された所定範囲の映像データには、歌唱者の所持したマイク300の位置に対応したマーカ光が、歌唱者の姿と共に必ず記録されている。そこで、映像データに含まれるマーカ光を用いてマイク300及び歌唱者の位置を特定する(図9のステップS25参照)とともに、歌唱者の位置以外の映像データに対し顔認識処理を行って視聴者の顔の向きを決定する(図10のステップS120、ステップS130参照)。これにより、複数台のカメラを用いなくても、全周カメラ400の1台だけで、顔が歌唱者の方向を向いている視聴者の人数を確実に算出することができる。
ここで、上記静止画を生成する場合、上記のように視野が広い全周カメラ400の映像データから得た静止画は視野の端部ほど歪んだ状態となっている。本実施形態では特に、図9のステップS35において、上記所定範囲の映像データから、歌唱者を含む部分静止画を全周の中心に対して劣弧をとる扇形に切り出すと共に、その切り出した部分静止画に所定の補正処理を行う(前述したように、切り出した扇形の劣弧を直線に補正し、扇形を四角形とする)。これにより、上記歪んだ状態が是正された正常な静止画からなる盛り上がりタイミングのサムネイルを、ステップS60において代表画像としてホストサーバ20へ出力することができる。
なお、本発明は、上記実施形態に限られるものではなく、その趣旨及び技術的思想を逸脱しない範囲内で種々の変形が可能である。以下、そのような変形例を説明する。
(1)歌唱者の顔が写っている静止画を抽出する場合
例えば、歌唱者及び視聴者の集団が盛り上がっている盛り上がりタイミングにおいて、たまたま歌唱者が下を向いたり横を向いたりしている場合がある。このようなタイミングにおける静止画は、歌唱者の顔が正しく記録されていないため、代表画像としては必ずしも好ましくない。本変形例は、このような場合に対応するためのものである。
図12は、この変形例において制御部101により実行される処理手順の詳細を表すフローチャートであり、上記図9に対応する図である。図9と同等の手順には同一の符号を付し、説明を省略又は簡略化する。
図12において、本変形例では、図9におけるステップS210を省略すると共に、新たに、ステップS220、ステップS230、ステップS240、ステップS250、ステップS260を設けている。
ステップS10〜ステップS40及びステップS200の処理は、図9と同様であり、詳細な説明を省略する。ステップS200が終了したら、新たに設けたステップS220に移る。
ステップS220では、上記ステップS200での盛り上がりタイミングの決定結果に基づき、盛り上がりタイミングが複数あったかどうかを判定する。すなわち、上記タイミングログにおいて、複数のタイミングにおいて、歌唱者の方を向いている視聴者の数が同人数であったかどうか、が判定される。
盛り上がりタイミングが1つに限られ、複数はなかった場合は、ステップS220の判定が満たされず、ステップS250に移る。ステップS250では、上記ステップS40において撮影時刻と関連づけて大容量記憶装置103に記憶されていた歌唱者の姿を含む多数の画像データの中から、上記1つの盛り上がりタイミングに対応した画像(静止画)を取得し、その画像をサムネイル画像とする。その後、ステップ60に移る。
一方、ステップS220において、盛り上がりタイミングが複数あった場合は、ステップS220の判定が満たされ、ステップS230に移る。ステップS230では上記ステップS40において撮影時刻と関連づけて大容量記憶装置103に記憶されていた歌唱者の姿を含む多数の画像データの中から、上記複数の盛り上がりタイミングに対応した画像(静止画)を取得する。そして、それら複数の静止画の中に対し、公知の顔認識の手法を用いて、歌唱者の顔が認識できるものがあるかを判定する。なお、このステップS220が、各請求項記載の判定手段として機能する。
歌唱者の顔が認識できるものがある場合は、ステップS230の判定が満たされ、ステップS240に移り、当該認識できる静止画をサムネイル画像とする。なお、歌唱者の顔が認識できる静止画が複数あった場合には、その中の適宜のいずれか1つをサムネイルとすればよい。その後、ステップ60に移る。
一方、ステップS230において、歌唱者の顔が認識できる静止画が無い場合は、ステップS260に移る。ステップS260では、上記ステップS230において取得された、複数の静止画の中の適宜のいずれか1つをサムネイルとする。その後、ステップS60に移る。なお、歌唱者の顔が認識できなかったことに対応して、このステップS260ではサムネイルを設定せず、表示部109に表示信号を出力して適宜のエラー表示を行い、このフローを終了するようにしてもよい。また盛り上がりタイミングが1つしかなくステップS220での判定が満たされなかった場合にも、ステップS230と同様の判定を行い、判定が満たされなかった場合には、上記同様にサムネイルを設定せずエラー表示としてもよい。
なお、ステップS60の処理は、図9と同様であるので、詳細な説明を省略する。また、ステップS250、ステップS240、ステップS260と前述のステップS30及びステップS35とが、各請求項記載の映像処理手段として機能する。
本変形例においては、サムネイルを設定してホストサーバ20へ出力する際、なるべく歌唱者の顔が正しく記録された静止画をサムネイルにすることができる。
(2)音声レベルを考慮して抽出する場合
例えば、歌唱者及び視聴者の集団が盛り上がっている盛り上がりタイミングにおいて、たまたま歌唱者が歌っていない場合がある。すなわち、歌唱者の歌唱ではないジェスチャーや仕草、表情等により視聴者が一斉に着目した場合等、歌唱者による歌唱以外の行動により盛り上がりが生じた場合である。このようなタイミングにおける静止画は、歌唱を行っていないため、カラオケ歌唱動画の代表画像としては必ずしも好ましくない。本変形例は、このような場合に対応するためのものである。
図13は、この変形例において制御部101により実行される処理手順の詳細を表すフローチャートであり、上記図9や図12に対応する図である。図12と同等の手順には同一の符号を付し、説明を省略又は簡略化する。
図12において、本変形例では、図9におけるステップS230及びステップS240に代え、ステップS300、ステップS310を設けている。
すなわち、図13に示すように、ステップS220の判定が満たされたら、ステップS300に移る。ステップS300では、上記ステップS40において撮影時刻と関連づけて大容量記憶装置103に記憶されていた歌唱者の姿を含む多数の画像データの中から、上記複数の盛り上がりタイミングに対応した画像(静止画)を取得する。そして、それら複数の静止画の中に対し、当該タイミングにおけるマイク300からの音声レベルが所定値未満のものがあるかを判定する。すなわち、この変形例では、上記大容量記憶装置103に記憶された各画像データは、その時点でのマイク300の音声レベルとも予め対応付けられた形で、記憶されている。
音声レベルが所定値未満のものがあった場合には、ステップS300の判定が満たされ、ステップS310に移り、音声レベルが所定値以上となっているときの静止画をサムネイル画像とする。なお、音声レベルが所定値以上となっている静止画が複数あった場合には、その中の適宜のいずれか1つをサムネイルとすればよい。その後、ステップ60に移る。
一方、ステップS300において、音声レベルが所定値未満であるものがない場合は、ステップS260に移り、上記同様、上記ステップS230において取得された、複数の静止画の中の適宜のいずれか1つをサムネイルとする。その後、ステップS60に移る。
なお、ステップS60の処理は、図9と同様であるので、詳細な説明を省略する。また、ステップS250、ステップS310、ステップS260と前述のステップS30及びステップS35とが、各請求項記載の映像処理手段として機能する。
本変形例においては、サムネイルを設定してホストサーバ20へ出力する際、なるべく歌唱者が実際に歌唱している様子が記録された静止画をサムネイルにすることができる。
(3)その他
以上においては、1台の全周カメラ400を用いて撮影を行った場合を例にとって説明したが、これに限られない。すなわち、カメラを複数台用い、歌唱者撮影カメラで歌唱者を撮影すると共に、視聴者を撮影するために配置した別の視聴者撮影カメラにて室内の視聴者を撮影するようにしても良い。いずれにしても、歌唱者の方向へ向かっている視聴者の人数を検出できれば足りる。
なお、図9、図10、図12、図13等に示すフローチャートは本発明を上記フローに示す手順に限定するものではなく、発明の趣旨及び技術的思想を逸脱しない範囲内で手順の追加・削除又は順番の変更等をしてもよい。
また、以上既に述べた以外にも、上記実施形態や各変形例による手法を適宜組み合わせて利用しても良い。
その他、一々例示はしないが、本発明は、その趣旨を逸脱しない範囲内において、種々の変更が加えられて実施されるものである。