以下、本発明の一実施形態について説明する。
(カラオケ装置の構成)
先ず、本発明の一実施形態に係るカラオケ装置の構成について、図1を参照しつつ説明する。本実施形態に係るカラオケ装置1は、各地のカラオケ店舗等に設置されており、例えば、カラオケ店舗内に設置されるルータを介して、通信網Nによってサーバ90と接続されている。又、当該カラオケ装置1は、カラオケ店舗の客室ごとに設置されている。
図1に示すように、本実施形態に係るカラオケ装置1は、制御部10と、コントロールパネル20と、ディスプレイ30と、スピーカ40と、マイク50と、カメラ60と、画像処理部70と、通信I/F80を有している。従って、歌唱者は、スピーカ40から出力される所望の楽曲に係る伴奏に合わせて、マイク50を用いてカラオケ歌唱を行う。この時、歌詞テロップ及び背景画像が、ディスプレイ30に表示される。従って、歌唱者は、ディスプレイ30における歌詞テロップの表示に従って、カラオケ歌唱を行い得る。
そして、カメラ60は、通常、客室内の所定範囲を撮影可能な位置に配置されている。従って、当該カラオケ装置1は、カラオケ歌唱を行う歌唱者及び聴衆を撮影し得る。尚、当該カメラ60は、自由に移動させることができる。
制御部10は、CPU、ROM、RAMを有している。制御部10のCPUは、種々のプログラム(例えば、後述する撮影映像処理プログラム等)を実行する。制御部10のROMは、種々のデータを記憶する。具体的には、制御部10のROMは、撮影映像処理プログラム等(図2参照)を記憶している。コマンダのRAMは、種々のデータを一時的に記憶する。
そして、カラオケデータ記憶部15は、カラオケ歌唱に用いられる楽曲に対応するカラオケデータを記憶している。当該カラオケデータは、楽音データ、再生映像データを含んでいる。楽音データは、ある楽曲に係る伴奏音楽データであり、当該楽音データをスピーカ40から出力することにより、カラオケ歌唱に用いられる。再生映像データは、ディスプレイ30へ出力される映像データであり、背景映像データと、歌詞テロップデータにより構成される。
背景映像データは、カラオケ歌唱に際し、ディスプレイ30に表示される画面の背景映像を構成するデータである。尚、カラオケデータに係る楽曲を歌唱するアーティストのプロモーションビデオ映像を、当該背景映像データとすることも可能である。そして、歌詞テロップデータは、カラオケ歌唱に際し、ディスプレイ30に表示される歌詞テロップを構成し、カラオケデータに係る楽曲の歌詞を示す。
コントロールパネル20は、カラオケ装置1に関する各種指示の入力を受け付ける。当該コントロールパネル20は、コントロールパネルに配設された各種操作キーや、リモコン(図示せず)に対するユーザの操作入力を受け付ける。当該リモコンは、コントロールパネル20を介して、カラオケ装置1との間で、赤外線通信や電波通信可能に無線接続されている。
ディスプレイ30は、所謂、液晶ディスプレイにより構成される。ディスプレイ30は、映像再生部35を介して、制御部10に接続されており、制御部10により、カラオケデータに基づいて入力された映像信号に係る映像を画面上に描画・表示する。又、ディスプレイ30は、制御部10による制御に基づいて、後述するカメラ60により撮影された投稿動画データの内容を、画面上に描画・表示し得る。
映像再生部35は、カラオケデータ記憶部15に格納されているカラオケデータの再生映像データを読み出し、当該再生映像データに基づく映像の再生を行う。即ち、当該映像再生部35は、MPEGデコーダを有している。MPEGデコーダは、MPEGフォーマットで生成されている再生映像データ(即ち、背景映像データや歌詞テロップデータ)をデコードし、ビデオ信号を出力する。
スピーカ40は、ミキシングアンプ41及び音声再生部45を介して、制御部10に接続されており、カラオケ楽曲の伴奏音楽、カラオケ歌唱に係る歌唱音声等を音声出力する。音声再生部45は、制御部10の制御により、カラオケデータを構成する楽音データに基づいて、楽曲の伴奏音楽に係る音声信号を、ミキシングアンプ41へ出力する。
ミキシングアンプ41は、音声再生部45により入力された楽曲の伴奏音楽に係る音声信号を増幅して、スピーカ40へ出力する。又、ミキシングアンプ41は、マイク50と接続されており、当該マイク50に入力されたカラオケ歌唱に係る音声信号を増幅して、スピーカ40へ出力する。そして、ミキシングアンプ41は、音声再生部45及びマイク50の両者から音声信号が入力された場合、伴奏音楽に係る音声信号と、カラオケ歌唱に係る音声信号を混合した混合音声信号を、スピーカ40へ出力する。
マイク50は、歌唱者がカラオケ歌唱を行う際に用いられ、当該歌唱等に基づく音声信号を、ミキシングアンプ41に入力する。尚、マイク50の個数は、適宜設定可能である。又、マイク50は、当該マイク50本体の所定部分に、マイク位置出力部51を有している。マイク位置出力部51は、当該マイク50固有の発光色で発光するLED(Light Emitting Diode)を有して構成されており、当該マイク50のマイク位置Mを検出する際に用いられる。
カメラ60は、基本的に、所謂、デジタルビデオカメラであり、当該カラオケ装置1によるカラオケ歌唱の様子を撮影可能に構成されている。そして、カメラ60は、画像形成部、CPU、ROM、RAM、レンズ(図示せず)を有している。画像形成部は、撮像面を有しており、レンズを介して、当該撮像面に入射された光に基づいて、アナログ信号である撮影映像信号を生成する。そして、当該画像形成部は、生成した撮影映像信号を、画像処理部70へ出力する。当該画像形成部の構成については、既に公知であるため、その詳細な説明を省略する。
画像処理部70は、制御部10の制御に基づいて、カメラ60により撮影された撮影映像Rに対して、所定の処理を行う。当該画像処理部70は、顔画像認識部71、マイク位置検出部72、画像編集部73、キャラクタ画像記憶部74、撮影映像記録部75、A/Dコンバータ、静止画抽出部、MPEGエンコーダを有して構成されている。
画像処理部70は、カメラ60により撮影された撮影映像信号(即ち、アナログ信号)を、A/Dコンバータによりデジタル信号に変換することで、撮影映像フレームRfを、静止画抽出部及び画像編集部73へ出力する。そして、画像処理部70は、撮影映像処理プログラム(図2)に基づく所定タイミングで、A/Dコンバータから入力された撮影映像フレームRfを、静止画である撮影映像Rとして抽出する。抽出された撮影映像Rは、顔画像認識部71及びマイク位置検出部72に対して入力される。
顔画像認識部71は、静止画抽出部により静止画として抽出された撮影映像Rを対象として所定の画像処理を行うことで、撮影映像R中における人物の顔画像Fを認識し、当該人物の顔の位置(以下、顔位置P)を特定する(図4参照)。具体的には、当該顔画像認識部71は、所定の肌色テーブルを用いて、撮影映像Rを構成する各画素を評価することにより、撮影映像R中の顔画像Fを構成する顔領域と髪領域を特定する。この点については、既に公知であるため(例えば、特許文献2参照)、詳細な説明を省略する。これらの処理を行うことにより、当該カラオケ装置1は、撮影映像R中に存在する各顔画像Fを抽出し得る。そして、顔画像認識部71は、抽出した顔画像Fに基づいて、撮影映像Rに撮影されている人物の顔位置P(例えば、顔画像Fの中心位置)を特定する。
マイク位置検出部72は、静止画抽出部により静止画として抽出された撮影映像Rを対象として所定の画像処理を行うことで、撮影映像R中に含まれるマイク50のマイク位置Mを特定する(図5参照)。具体的には、マイク位置検出部72は、各マイク50におけるマイク位置出力部51の発光色が規定された発光色テーブルに基づいて、撮影映像Rから、所定の明度以上の特定色(即ち、発光色テーブルに規定されている色)の画素を特定する。これにより、当該マイク位置検出部72は、撮影映像Rにおける各マイク50のマイク位置M(即ち、各マイク位置出力部51の位置)を特定し得る。
画像編集部73は、後述する撮影映像処理プログラムに基づいて、撮影映像フレームRf中の各顔画像Fを、キャラクタ画像記憶部74に格納されているキャラクタ画像(後述する聴衆キャラクタ画像Ca、歌唱キャラクタ画像Cs、熱唱キャラクタ画像Ce)に変更する(図6、図9、図10参照)。これにより、当該カラオケ装置1は、撮影映像フレームRfに基づき生成される投稿動画データにおいて、撮影映像に含まれる顔画像を隠すことができる。
キャラクタ画像記憶部74は、上述したように、画像編集部73による顔画像Fの変更処理に用いられるキャラクタ画像を記憶している。キャラクタ画像は、少なくとも、聴衆キャラクタ画像Ca、歌唱キャラクタ画像Cs、熱唱キャラクタ画像Ceの3種類に分類される。聴衆キャラクタ画像Caは、カラオケ歌唱を聴いている表情を示す顔部分のキャラクタ画像である。歌唱キャラクタ画像Csは、カラオケ歌唱を行っている表情を示す顔部分のキャラクタ画像である。熱唱キャラクタ画像Ceは、歌唱キャラクタ画像Csよりも熱心にカラオケ歌唱を行っている表情を示す顔部分のキャラクタ画像である。又、キャラクタ画像記憶部74は、聴衆キャラクタ画像Ca、歌唱キャラクタ画像Cs、熱唱キャラクタ画像Ceの組を、当該カラオケ装置1に使用可能なマイク50の数以上格納している。
MPEGエンコーダは、画像編集部73から入力された撮影映像フレームRfと、マイク50から入力された音声信号を、MPEGフォーマットでエンコードし、投稿動画データを生成する。ここで、投稿動画データのフォーマットは適宜選択することができる。
撮影映像記録部75は、MPEGエンコーダで生成された投稿動画データを記憶する。これにより、カメラ60からの撮影映像信号及びマイク50からの音声信号は、画像編集部73による所定の画像処理を経てキャプチャされる。そして、撮影映像記録部75に記憶された投稿動画データは、後述するサーバ90へのアップロードの対象となる。即ち、撮影映像記録部75に記憶された投稿動画データは、コントロールパネル20に対する所定の操作に基づいて、通信I/F80及び通信網Nを介して、サーバ90の投稿動画データベース91にアップロードされる。
(サーバの構成)
次に、サーバ90の構成について、図面を参照しつつ詳細に説明する。図1に示すように、サーバ90は、通信網Nを介して、カラオケ装置1と接続されており、投稿動画データベース91を有している。投稿動画データベース91は、カラオケ装置1からアップロードされた投稿動画データを記憶している。又、投稿動画データベース91は、パーソナルコンピュータ等を介して、アクセスされ得る。投稿された撮影映像(後述する投稿動画データ)の利用者は、パーソナルコンピュータ等を介して、投稿動画データベース91から投稿動画データを読み出して再生することで、投稿された撮影映像を閲覧できる。
(撮影映像処理プログラムの内容)
次に、本実施形態に係るカラオケ装置1で実行される撮影映像処理プログラムについて、図2を参照しつつ詳細に説明する。尚、当該撮影映像処理プログラムは、制御部10により実行される。
先ず、S1においては、制御部10は、コントロールパネル20に対して、撮影開始操作が行われたか否かを判断する。撮影開始操作とは、カメラ60によるカラオケ歌唱等の様子に関する撮影を開始する旨を指示する為の操作である。尚、撮影開始は、カラオケ楽曲の再生開始と連動するように構成することも可能である。撮影開始操作が行われた場合(S1:YES)、制御部10は、S2に処理を移行する。撮影開始操作が行われていない場合(S1:NO)、制御部10は、撮影開始操作が行われるまで、処理を待機する。
S2に移行すると、制御部10は、画像処理部70を制御して、顔位置検出処理を実行する。具体的には、制御部10は、先ず、画像処理部70の静止画抽出部を制御し、静止画抽出部に入力された撮影映像フレームRfを、撮影映像R(図3参照)として顔画像認識部71へ入力する。その後、制御部10は、顔画像認識部71を制御することで、撮影映像Rに含まれる各顔画像Fを特定する。その後、制御部10は、顔画像認識部71を制御することで、各顔画像Fに係る顔位置Pを特定する。撮影映像Rに含まれる各顔画像Fの顔位置Pを特定した後、制御部10は、S3に処理を移行する。
例えば、図3に示すように、当該カラオケ装置1によるカラオケに、3人の人物が興じている様子をカメラ60で撮影した場合、撮影映像Rは、第1人物画像Sa、第2人物画像Sb、第3人物画像Scを含んでいる。従って、制御部10は、当該撮影映像Rに対して、顔位置検出処理(S2)を実行した場合、顔画像認識部71によって、肌色テーブル等に基づいて、第1人物画像Saに係る顔画像F(第1顔画像Fa)、第2人物画像Sbに係る顔画像F(第2顔画像Fb)、第3人物画像Scに係る顔画像F(第3顔画像Fc)を特定し得る(図4参照)。又、制御部10は、特定した第1顔画像Fa〜第3顔画像Fcの大きさに基づいて、第1顔画像Faに係る人物の顔位置P(第1顔位置Pa)、第2顔画像Fbに係る人物の顔位置P(第2顔位置Pb)、第3顔画像Fcに係る人物の顔位置P(第3顔位置Pc)を特定し得る(図4参照)。
S3では、制御部10は、画像処理部70を制御して、マイク位置検出処理を実行する。具体的には、制御部10は、先ず、画像処理部70の静止画抽出部を制御し、静止画抽出部に入力された撮影映像フレームRfを、撮影映像R(図3参照)としてマイク位置検出部72へ入力する。その後、制御部10は、マイク位置検出部72を制御することで、発光色テーブルに基づいて、撮影映像Rから、所定の明度以上の特定色(即ち、発光色テーブルに規定されている色)の画素を特定する。つまり、特定された画素の位置が、撮影映像Rにおけるマイク50のマイク位置Mとなる。撮影映像Rに含まれる各マイク50のマイク位置Mを特定すると、制御部10は、各マイク50のマイク位置Mを、制御部10のRAMに格納する。その後、制御部10は、S4に処理を移行する。
例えば、図3に示すように、当該カラオケ装置1に3本のマイク50が用いられている場合、撮影映像Rは、第1マイク位置Ma、第2マイク位置Mb、第3マイク位置Mcを含み得る。従って、制御部10は、当該撮影映像Rに対して、マイク位置検出処理(S3)を実行した場合、マイク位置検出部72によって、発光色テーブル等に基づいて、第1マイク50Aの第1マイク位置出力部51Aに係るマイク位置M(第1マイク位置Ma)、第2マイク50Bの第2マイク位置出力部51Bに係るマイク位置M(第2マイク位置Mb)、第3マイク50Cの第3マイク位置出力部51Cに係るマイク位置M(第3マイク位置Mc)を特定し得る(図5参照)。その後、制御部10は、第1マイク位置Ma〜第3マイク位置Mcを、制御部10のRAMに格納し、S4に処理を移行する。
S4においては、制御部10は、直前に実行された顔位置検出処理(S2)、マイク位置検出処理(S3)が、今回の撮影における初回であるか否かを判断する。初回である場合(S4:YES)、制御部10は、S5に処理を移行する。一方、初回でない場合(S4:NO)、制御部10は、S7に処理を移行する。
S5に移行すると、制御部10は初回顔画像変換処理を実行する。初回顔画像変換処理(S5)では、制御部10は、顔位置検出処理(S2)の検出結果に基づいて、画像編集部73によって、撮影映像フレームRfにおける各顔画像Fをキャラクタ画像記憶部74に格納されている聴衆キャラクタ画像Caに変更する。例えば、図4に示すように、撮影映像R中の第1顔画像Fa〜第3顔画像Fcを検出した場合、制御部10は、画像編集部73により、撮影映像フレームRf中の第1顔画像Fa〜第3顔画像Fcを全て聴衆キャラクタ画像Caに変更する(図6参照)。その後、制御部10は、S6に処理を移行する。
S6では、制御部10は、今回の撮影の終了時期であるか否かを判断する。例えば、制御部10は、今回の撮影に係るカラオケ楽曲の演奏終了時期をもって、撮影の終了時期となったか否かを判断する。撮影終了時期である場合(S6:YES)、制御部10は、撮影映像処理プログラムを終了する。一方、未だ撮影終了時期ではない場合(S6:NO)、制御部10は、S2に処理を戻す。
S7においては、制御部10は、未処理マイクが存在するか否かを判断する。ここで、未処理マイクとは、未だ、歌唱者の特定に関する処理(S9〜S13)を完了していないマイク50を意味する。未処理マイクが存在する場合(S7:YES)、制御部10は、一の未処理マイクを、歌唱者の特定に関する処理(S9〜S13)の処理対象である処理対象マイクに設定し、S9に処理を移行する。未処理マイクが存在しない場合(S7:NO)、制御部10は、S8に処理を移行する。
S8に移行すると、制御部10は、画像編集部73を制御し、聴衆画像変換処理を実行する。聴衆画像変換処理(S8)においては、制御部10は、画像編集部73を制御し、撮影映像フレームRfに未だ存在する全て顔画像F(即ち、歌唱キャラクタ画像Cs、熱唱キャラクタ画像Ceに変更されていない顔画像F)を、キャラクタ画像記憶部74に格納されている聴衆キャラクタ画像Caに変更する。その後、制御部10は、S6に処理を移行する。
S9では、制御部10は、マイク位置変化量が所定値以下であるか否かを判断する。ここで、マイク位置変化量とは、今回のマイク位置検出処理(S3)で検出された処理対象マイクのマイク位置Mと、前回のマイク位置検出処理(S3)で検出された処理対象マイクのマイク位置Mの差(絶対値)を意味する。又、所定値は、マイク位置検出部72による検出誤差を考慮して設定されるものであり、実質的にマイク位置Mの変化がないと判断し得る閾値である。マイク位置変化量が所定値以下である場合(S9:YES)、制御部10は、処理対象マイクがカラオケ歌唱に用いられていないものと判断し、当該処理対象マイクに関するS10〜S13の処理を実行することなく、S7に処理を戻す。一方、マイク位置変化量が所定値より大きい場合(S9:NO)、制御部10は、当該処理対象マイクがカラオケ歌唱に用いられているものと判断し、S10に処理を移行する。
具体的には、S9において、制御部10は、異なる撮影時間の撮影映像Rを2枚用いて、マイク位置変化量を判断している。1枚目の撮影映像R(撮影時間t=n)でマイク位置Mと判断した画素位置と、2枚目の撮影映像R(撮影時間t=n+1)でマイク位置Mと判断した画素位置とを比較し、2つの位置の位置変化量が数画素以内(所定値:数画素)であれば、制御部10は、(S9:YES)として、マイク位置Mの変化がない(つまり、マイク50は机上等に置かれている状態(例えば、後述する第3マイク50C))と判断し得る。カメラ60が通常のビデオカメラであれば、約30枚/秒の間隔で撮影映像Rを作成し得るので、2枚の異なる撮影時間の撮影映像Rは、当回の撮影映像フレームRfと、次回の撮影映像フレームRfとから作成すればよい。
S10においては、制御部10は、顔位置検出処理(S2)、マイク位置検出処理(S3)の検出結果に基づいて、歌唱者特定処理を実行する。歌唱者特定処理(S10)では、制御部10は、撮影映像Rに含まれる各顔画像Fの顔位置Pと、撮影映像R中における処理対象マイクのマイク位置Mに基づいて、処理対象マイクを用いてカラオケ歌唱する歌唱者の顔画像Fを特定する。具体的には、制御部10は、先ず、撮影映像Rに含まれる一の顔画像Fの顔位置Pと、処理対象マイクのマイク位置Mとに基づいて、当該顔位置Pに係る人物の顔と処理対象マイクの距離(後述する第1算出距離La等)を算出する。全ての顔位置Pと、処理対象マイクのマイク位置Mとの距離の算出を終えると、制御部10は、算出した距離が最も短い顔位置Pに係る顔画像Fを、歌唱者に係る顔画像に特定する。一般に、カラオケ歌唱を行う場合、歌唱者は、マイク50を自己の口元近傍に位置させるため、当該カラオケ装置1は、処理対象マイクを用いてカラオケ歌唱を行う歌唱者の顔画像を、高い精度で特定し得る。その後、制御部10は、S11に処理を移行する。
S11に移行すると、制御部10は、処理対象マイクに対する音声入力があったか否かを判断する。処理対象マイクに対する音声入力があった場合(S11:YES)、制御部10は、S13に処理を移行する。一方、処理対象マイクに対する音声入力がない場合(S11:NO)、制御部10は、S12に処理を移行する。
S12では、制御部10は、画像編集部73を制御し、第1歌唱画像変換処理を実行する。第1歌唱画像変換処理(S12)においては、制御部10は、歌唱者特定処理(S10)により、処理対象マイクに係る歌唱者の顔画像Fとして特定された顔画像Fを、キャラクタ画像記憶部74に記憶されている歌唱キャラクタ画像Csに変更する。尚、撮影映像フレームRf中に、別のマイク50の歌唱者に係る歌唱キャラクタ画像Csが存在する場合、制御部10は、当該歌唱キャラクタ画像Csとは異なるキャラクタに係る歌唱キャラクタ画像Csを用いて、第1歌唱画像変換処理(S12)を実行する(図9参照)。その後、制御部10は、S7に処理を戻す。
S13では、制御部10は、画像編集部73を制御し、第2歌唱画像変換処理を実行する。第2歌唱画像変換処理(S13)においては、制御部10は、歌唱者特定処理(S10)により、処理対象マイクに係る歌唱者の顔画像Fとして特定された顔画像Fを、当該処理対象マイクに音声入力がなされたことに基づいて、キャラクタ画像記憶部74に記憶されている熱唱キャラクタ画像Ceに変更する。尚、撮影映像フレームRf中に、別のマイク50の歌唱者に係る熱唱キャラクタ画像Ceが存在する場合、制御部10は、当該熱唱キャラクタ画像Ceとは異なるキャラクタに係る熱唱キャラクタ画像Ceを用いて、第2歌唱画像変換処理(S13)を実行する。その後、制御部10は、S7に処理を戻す。
(歌唱者特定処理の具体的内容)
続いて、撮影映像処理プログラムにおける歌唱者特定処理(S10)の処理内容について、具体例を用いて詳細に説明する。具体例としては、図3に示す撮影映像Rを処理対象として、顔位置検出処理(S2)、マイク位置検出処理(S3)が実行された場合を挙げる。従って、図4に示すように、当該撮影映像Rに対して、顔位置検出処理(S2)を実行することにより、制御部10は、第1顔画像Fa〜第3顔画像Fc及び第1顔位置Pa〜第3顔位置Pcを特定している。又、図5に示すように、当該撮影映像Rに対して、マイク位置検出処理(S3)を実行することにより、制御部10は、第1マイク50A〜第3マイク50Cについて、第1マイク位置Ma〜第3マイク位置Mcを特定している。
先ず、処理対象マイクとして、第1マイク50Aが設定された場合について、図7を参照しつつ説明する。先ず、制御部10は、処理対象マイクのマイク位置Mである第1マイク位置Maと、第1顔位置Paに基づいて、処理対象マイクと第1人物画像Saに係る人物の顔の距離(即ち、第1算出距離La)を算出する。第1マイク位置Ma及び第1顔位置Paは、何れも撮影映像Rという同一平面上の位置を示すため、制御部10は、第1算出距離Laを算出し得る。同様に、制御部10は、第1マイク位置Maと第2顔位置Pbに基づいて、処理対象マイクと第2人物画像Sbに係る人物の顔の距離(第2算出距離Lb)を算出し、第1マイク位置Maと第3顔位置Pcに基づいて、処理対象マイクと第3人物画像Scに係る人物の顔の距離(第3算出距離Lc)を算出する。図7に示すように、第1算出距離La〜第3算出距離Lcの中では、第1算出距離Laが最も短い。従って、制御部10は、第1算出距離Laの算出に用いた第1顔位置Paに対応する第1顔画像Faを、第1マイク50Aに係る歌唱者の顔画像Fと特定する。
次に、処理対象マイクとして、第2マイク50Bが設定された場合について、図8を参照しつつ説明する。この場合、制御部10は、処理対象マイクのマイク位置Mである第2マイク位置Mbと、第1顔位置Paに基づいて、第1算出距離Laを算出する。同様に、制御部10は、第2マイク位置Mbと第2顔位置Pbに基づいて、第2算出距離Lbを算出し、第2マイク位置Mbと第3顔位置Pcに基づいて、第3算出距離Lcを算出する。図8に示すように、第1算出距離La〜第3算出距離Lcの中では、第2算出距離Lbが最も短い。従って、制御部10は、第2算出距離Lbの算出に用いた第2顔位置Pbに対応する第2顔画像Fbを、第2マイク50Bに係る歌唱者の顔画像Fと特定する。
尚、図3〜図10に示すように、第3マイク50Cは、カラオケ歌唱に用いられておらず、机上に置かれた状態にある。従って、第3マイク50Cに係るマイク位置変化量は所定値以下となり、制御部10は、第3マイク50Cに係る歌唱者を特定することなく、S7に処理を戻す。
(第1歌唱画像変換処理の具体的内容)
続いて、撮影映像処理プログラムにおける第1歌唱画像変換処理(S12)の処理内容について、具体例を用いて詳細に説明する。具体例としては、上述した歌唱者特定処理(S10)に係る具体例と同様の例を用いて説明する。尚、以下の説明では、第1マイク50A〜第3マイク50Cの何れにおいても、音声入力がなされていないものとする。
上述したように、処理対象マイクを第1マイク50Aとする歌唱者特定処理(S10)では、第1顔位置Paに係る第1顔画像Faが、第1マイク50Aに係る歌唱者の顔画像Fとして特定される(図7参照)。従って、処理対象マイクが第1マイク50Aである場合の第1歌唱画像変換処理(S12)では、制御部10は、画像編集部73を制御することにより、撮影映像フレームRfにおける第1顔画像Faを、キャラクタ画像記憶部74に格納されている歌唱キャラクタ画像Csに変更する(図9参照)。
その後、制御部10は、S7に処理を戻すと、未処理マイクである第2マイク50Bを処理対象マイクとした処理(S9〜S11)を行い、処理対象マイクを第2マイク50Bとした第1歌唱画像変換処理(S12)に移行する。図8を用いて説明したように、処理対象マイクを第2マイク50Bとする歌唱者特定処理(S10)では、第2顔位置Pbに係る第2顔画像Fbが、第2マイク50Bに係る歌唱者の顔画像Fとして特定される。従って、処理対象マイクが第2マイク50Bである場合の第1歌唱画像変換処理(S12)では、制御部10は、画像編集部73を制御することにより、撮影映像フレームRfにおける第2顔画像Fbを、キャラクタ画像記憶部74に格納されている歌唱キャラクタ画像Csに変更する。この時、制御部10は、画像編集部73を制御して、第1顔画像Faを変換した歌唱キャラクタ画像Csとは異なる歌唱キャラクタ画像Csに変更する(図9参照)。
又、第3マイク50Cについては、上述のように、S9の判断処理により、S10〜S13の処理対象から除外される。従って、撮影映像フレームRf中の第3顔画像Fcに対しては、制御部10は、聴衆画像変換処理(S8)を実行し、聴衆キャラクタ画像Caに変更する(図9参照)。
(第2歌唱画像変換処理の具体的内容)
次に、撮影映像処理プログラムにおける第2歌唱画像変換処理(S13)の処理内容について、具体例を用いて詳細に説明する。具体例としては、上述した歌唱者特定処理(S10)に係る具体例と同様の例を用いて説明する。尚、以下の説明においては、第1マイク50Aにおいて、第1人物画像Saに係る人物による音声入力がなされているものとし、第2マイク50B、第3マイク50Cへの音声入力はなされていないものとする。
この場合も、上述した第1歌唱画像変換処理(S12)の具体例と同様に、処理対象マイクを第1マイク50Aとする歌唱者特定処理(S10)では、第1顔位置Paに係る第1顔画像Faが、第1マイク50Aに係る歌唱者の顔画像Fとして特定される(図7参照)。又、上述したように、第1マイク50Aには、第1人物画像Saに係る人物による音声入力がなされている。従って、処理対象マイクが第1マイク50Aである場合の第2歌唱画像変換処理(S13)では、制御部10は、画像編集部73を制御することにより、撮影映像フレームRfにおける第1顔画像Faを、キャラクタ画像記憶部74に格納されている熱唱キャラクタ画像Ceに変更する(図10参照)。
尚、この場合において、処理対象マイクを第2マイク50Bとした場合の処理、及び、処理対象マイクを第3マイク50Cとした場合の処理は、上述した第1歌唱画像変換処理(S12)の具体例と同様である(図10参照)。従って、この点に関する詳細な説明は省略する。
以上、説明したように、本実施形態に係るカラオケ装置1は、顔位置検出処理(S2)で検出した顔位置Pと、マイク位置検出処理(S3)で検出したマイク位置Mに基づいて、カメラ60で撮影された人物の顔と、マイク50の間の距離を算出する(S10)。そして、当該カラオケ装置1は、算出した距離が最も短い人物の顔に係る顔画像Fを、歌唱キャラクタ画像Cs又は熱唱キャラクタ画像Ceに変更し(S12、S13)、それ以外の人物の顔画像Fを聴衆キャラクタ画像Caに変更する(S8)。一般に、カラオケ歌唱を行う際に、歌唱者は、マイクを自己の口元近傍に位置させる。従って、当該カラオケ装置1は、撮影映像フレームRf中の顔画像Fを、的確に歌唱者と聴衆を区別し、歌唱者及び聴衆の区別に応じたキャラクタ画像に変更し得る。これにより、当該カラオケ装置1は、歌唱者等の顔が公開されることを防止しつつ、主たる撮影対象である歌唱者を目立たせた映像を用いたサービスを行い得る。
又、当該カラオケ装置1は、複数本のマイク50が用いられている場合、マイク50毎に、マイク50と顔の間の距離を算出し、各マイク50に係る歌唱者の顔画像を特定する。そして、当該カラオケ装置1は、第1歌唱画像変換処理(S12)を実行する際に、マイク50毎に異なる歌唱キャラクタ画像Csを用いて、各マイク50に係る歌唱者の顔画像Fを変更する。即ち、当該カラオケ装置1は、撮影映像フレームRf中におけるマイク50毎に、異なる歌唱キャラクタ画像Csに変更するので、撮影映像フレームRfをバラエティに富んだものにすることができ、より良質なサービスを提供し得る。
そして、当該カラオケ装置1は、マイク50に対する音声入力の有無に応じて、当該マイク50との距離が最も短い人物(即ち、当該マイク50を用いた歌唱者)の顔画像Fを、歌唱キャラクタ画像Cs、熱唱キャラクタ画像Ceの何れかに変更する。即ち、当該カラオケ装置1は、歌唱者が歌唱しているか否かに応じて、撮影映像フレームRfのキャラクタ画像の種類を変更することにより、実際の顔画像をキャラクタ画像に変更した場合であっても、より臨場感のある撮影映像フレームRfを提供し得る。
更に、当該カラオケ装置1は、所定間隔で、マイク位置検出処理(S3)を実行し、前回のマイク位置Mと、今回のマイク位置Mに基づいて、マイク位置変化量を算出する。そして、当該カラオケ装置1は、マイク位置変化量が所定範囲内であるマイク50については、歌唱者特定処理(S10)、第1歌唱画像変換処理(S12)、第2歌唱画像変換処理(S13)を行うことなく、当該マイク50に対する処理を終了する。一般に、カラオケ装置1においては、マイク50を手に持って歌唱することが多いため、少なくとも「手ぶれ」による位置変化が、当該マイク50に生じる。即ち、マイク50の位置変化量が所定範囲内であれば、当該マイク50は、カラオケ歌唱に用いられていないものと推定される。従って、当該カラオケ装置1は、未使用のマイク50に係る処理(S10〜S13)を省略することで、処理負担を軽減すると共に、撮影映像フレームRfにおける歌唱者と聴衆を、より適切に区別し、キャラクタ画像への変更を行い得る。
以上、実施形態に基づき本発明を説明したが、本発明は上述した実施形態に何ら限定されるものではなく、本発明の趣旨を逸脱しない範囲内で種々の改良変更が可能である。更に、上述した各フローチャートは単なる一例であり、該各フローチャートの処理と同等の結果を得ることできるものであれば、他のフローチャートによって処理を実現してもよい。そして、上述したカラオケ装置のみならず、カラオケシステム、該方法をコンピュータに実行させるためのプログラム、該プログラムを記録した記録媒体等としても本発明は実現可能である。