以下、本発明の実施形態について説明する。図1に示すカラオケシステムは、ホスト装置1とカラオケ装置2とユーザー端末3とを有している。そして、これらが通信回線4を介して通信可能に接続されている。カラオケ装置2は、例えばカラオケ店KBの各カラオケルームRMに設置されている。そして、通信デュエットを行う場合、一対のカラオケ装置2,2は通信回線4を介して通信可能に接続される。後述するように、本実施形態のカラオケ装置2は、通信デュエットの歌唱動画を生成する機能を有しており、生成した歌唱動画をホスト装置1にアップロードする。ホスト装置1は、通信デュエットの歌唱動画をはじめ、多数の歌唱動画を記憶しており、選択された歌唱動画をユーザー端末3に表示させる。以下、カラオケシステムを構成する各装置1〜3について説明する。
まず、ホスト装置1について説明する。ホスト装置1は、サーバーとして機能し、顧客情報や歌唱動画データといった各種情報を蓄積して管理する。図2に示すように、ホスト装置1は、ホスト側制御部11と、ホスト側通信部12と、ホスト側記憶部13とを有している。ホスト側制御部11は、ホスト装置1における制御の中心となる部分であり、CPU11aやメモリ11bを有している。CPU11aは、メモリ11bに記憶された動作プログラムに従って各種の制御を実行する。メモリ11bは、CPU11aに実行されるプログラムを記憶したり、プログラムの実行時に各種情報を一時的に記憶したりする記憶素子である。ホスト側通信部12は、ホスト装置1を通信回線4に接続するためのインタフェースを提供する。
ホスト側記憶部13は、大容量の情報を記憶する記憶装置であり、ハードディスクドライブ等によって構成されている。ホスト側記憶部13の一部領域は、顧客情報記憶領域、歌唱音声データ記憶領域、歌唱映像データ記憶領域、閲覧用動画データ記憶領域として用いられている。
顧客情報記憶領域は、利用者(歌唱者)の個人情報や履歴データが利用者IDに対応付けられた状態で記憶される領域である。歌唱音声データ記憶領域は、カラオケ装置2からアップロードされた歌唱音声のデータ(以下歌唱音声データという)が記憶される領域であり、歌唱映像データ記憶領域は、カラオケ装置2からアップロードされた歌唱映像のデータ(以下歌唱映像データという)が記憶される領域である。
これらの歌唱音声データや歌唱映像データは、歌唱動画コンテンツの基となる歌唱動画データであり、単独歌唱で取得されたデータと通信デュエットで取得されたデータとが含まれる。そして、歌唱音声データ及び歌唱映像データは、楽曲IDや利用者ID等の各種情報と対応付けられた状態で記憶されている。なお、本実施形態において、歌唱音声データはMP3形式のデータが用いられ、歌唱映像データはMPEG2形式のデータが用いられている。
閲覧用動画データ記憶領域には、ユーザー端末3に閲覧させるための閲覧用動画データが記憶される。この閲覧用動画データは、ユーザー端末3で再生される歌唱動画コンテンツの基となるデータである。この歌唱動画コンテンツもまた、単独歌唱や通信デュエットで生成されたものが含まれる。本実施形態の閲覧用動画データは、WMV形式やMP4形式の動画データであり、カラオケ装置2からの歌唱動画データ(歌唱音声データ,歌唱映像データ)のアップロードに伴って、ホスト側制御部11が生成する。
次に、カラオケ装置2について説明する。カラオケ装置2は、カラオケ演奏や歌唱採点を行うものであり、例えば図3に示すように、カラオケ本体21と、スピーカ22と、モニタ23と、マイク24と、ビデオカメラ25と、リモコン装置26と、映像用通信端末27と、音声用通信端末28とを有している。
カラオケ本体21は、選択されたカラオケ楽曲の演奏制御、歌詞及び背景映像の表示制御、マイク24を通じて入力された歌唱音声信号の処理といった、カラオケに関する各種の制御を行う部分である。このカラオケ本体21については、後で詳しく説明する。
スピーカ22は、カラオケ本体21に接続されており、カラオケ本体21からの放音信号に基づいて放音する。モニタ23もカラオケ本体21に接続されており、カラオケ本体21からの映像信号に基づいて映像を画面に表示する。マイク24もカラオケ本体21に接続されており、歌唱者の音声をアナログの歌唱音声信号に変換してカラオケ本体21に入力させる。ビデオカメラ25もカラオケ本体21に接続されており、撮影された映像(例えば歌唱中の映像)を歌唱映像データとしてカラオケ本体21に入力させる。
リモコン装置26は、カラオケ本体21との間で情報を送受信するための双方向通信可能な短距離無線通信部を備えており、カラオケ楽曲の予約時などに操作される。カラオケ楽曲の予約時において、リモコン装置26からは、演奏対象の楽曲を識別するための楽曲IDを含んだ操作信号が送信される。登録された利用者がリモコン装置26を通じてログインした場合、その利用者の利用者IDがホスト装置1に送信される。この利用者IDに基づき、ホスト装置1は、歌唱を行う利用者を認識することができる。
また、本実施形態のリモコン装置26は、通信デュエットにおける開始信号を送信する開始信号送信手段としても機能する。詳細は後述するが、このカラオケシステムでは、通信デュエットの実行時において、一方のカラオケ装置2が親機として機能し、他方のカラオケ装置2が子機として機能する。そして、親側のカラオケ装置2が有するリモコン装置26からの開始信号が、親側のカラオケ本体21と子側のカラオケ本体21に送信される。この場合、親側のカラオケ本体21に対しては開始信号が直接入力される。一方、子側のカラオケ本体21に対しては、開始信号が近隣のアクセスポイント(図示せず)及び通信回線4(汎用通信回線4A)を介して送信される。
さらに、リモコン装置26は、ユーザー端末3としても機能する。この場合、リモコン装置26は、アクセスポイントや通信回線4(汎用通信回線4A)を介してホスト装置1に接続される。このため、利用者は、カラオケ店KBに居ながらにして、マイページにアクセスできる。
映像用通信端末27及び音声用通信端末28は、通信デュエットが行われる際に、相手側のカラオケ装置2と通信回線4を介して接続される部分であり、ビデオカメラ25で撮影された歌唱映像データ、及び、マイク24等を通じて取得された歌唱音声データが送受信される。具体的には、映像用通信端末27は、映像用通信回線4Bを介して歌唱映像データを、相手側のカラオケ装置2が有する映像用通信端末27と送受信する。同様に、音声用通信端末28は、音声用通信回線4Cを介して歌唱音声データを、相手側のカラオケ装置2が有する音声用通信端末28と送受信する。これらの映像用通信回線4B及び音声用通信回線4Cでは、接続先となるカラオケ装置2を電話番号などによって選択できる。
映像用通信端末27で受信された相手側のカラオケ装置2からの歌唱映像データは、カラオケ本体21に入力される。同様に、音声用通信端末28で受信された相手側のカラオケ装置2からの歌唱音声データもまた、カラオケ本体21に入力される。なお、カラオケ本体21は、汎用通信回線4Aを介して相手側のカラオケ本体21やホスト装置1と通信可能に接続されている。そして、通信デュエット時の歌唱映像データ及び歌唱音声データを除く各種のデータや情報は、汎用通信回線4Aを介して送受信される。このように、本実施形態のカラオケシステムでは、通信デュエット時の歌唱映像データ及び歌唱音声データが、専用の映像用通信回線4B及び音声用通信回線4Cを介して送受信されている。
次に、カラオケ本体21について詳細に説明する。図4に示すように、カラオケ本体21は、本体側制御部31と、本体側通信部32と、本体側記憶部33と、音響処理部34と、表示処理部35と、映像入力部36と、操作部37とを有している。そして、これらの各部がバスを介して通信可能な状態に接続されている。
本体側制御部31は、カラオケ本体21における制御の中心となる部分であり、CPU31aやメモリ31bを有している。CPU31aは、メモリ31bに記憶された動作プログラムに従って各種の制御を実行する。例えば、操作部37からの操作を受け付ける操作入力処理やシーケンサとして動作するシーケンサ処理を行う。メモリ31bは、CPU31aに実行されるプログラムを記憶したり、プログラムの実行時に各種情報を一時的に記憶したりする記憶素子である。このため、メモリ31bには、各種のプログラムを記憶する記憶領域が設けられている。
本体側通信部32は、カラオケ本体21を通信回線4(汎用通信回線4A)に接続するためのインタフェースを提供する。この本体側通信部32は、本体側制御部31によって動作が制御される。
本体側記憶部33は、各種のデータを記憶する大容量の記憶装置であり、例えばハードディスクドライブによって構成されている。この本体側記憶部33には、例えば、楽曲データ記憶領域、背景映像データ記憶領域、歌唱映像データ記憶領域、歌唱音声データ記憶領域が設けられる。
楽曲データ記憶領域には、リモコン装置26で選択されたカラオケ楽曲を演奏するための楽曲データが記憶され、背景映像データ記憶領域には、モニタ23に背景映像を表示させるための背景映像データが記憶される。歌唱映像データ記憶領域には、ビデオカメラ25で撮影された歌唱映像データが記憶され、歌唱音声データ記憶領域には、歌唱音声信号をデジタルデータ化した歌唱音声データが記憶される。なお、歌唱映像データ記憶領域及び歌唱音声データ記憶領域には、後述するように、通信デュエット時に取得された歌唱映像データや歌唱音声データも記憶される。
音響処理部34は、カラオケ楽曲に対する演奏の制御を行ったり、マイク24を通じて入力された歌唱音声信号をデジタルの歌唱音声データに変換する等の制御を行ったりする部分である。この音響処理部34では、楽曲データに応じて生成された楽音信号と歌唱音声データとが適当なバランスでミキシングされ、放音信号としてスピーカ22へ出力される。また、音響処理部34は、通信デュエットが行われている際、楽曲データや歌唱音声データに加え、音声用通信端末28を介して受信した相手側の歌唱音声データもミキシングする。これにより、利用者は、相手側の歌唱音声データの再生音声と合唱が行える。
表示処理部35は、カラオケ演奏時における背景映像の表示等の制御を行う。カラオケ演奏時において、表示処理部35には背景映像データが入力されており、この背景映像データのデコードが行われる。そして、表示処理部35は、デコードで生成された背景映像の映像信号に歌詞テロップを合成し、合成後の映像信号をモニタ23に出力する。その結果、モニタ23には、背景映像に歌詞テロップが重ねられた映像が表示される。
また、表示処理部35は、通信デュエットが行われている際、映像用通信端末27を介して受信した相手側の歌唱映像データをモニタ23に表示させる。このとき、モニタ23の所定位置には、ビデオカメラ25から直接入力された映像データに基づく映像、すなわち利用者の歌唱映像が上書き(スーパーインポーズ)される。
映像入力部36は、ビデオカメラ25からの歌唱映像データの取り込み処理を行う部分であり、いわゆるビデオカードで構成されている。この映像入力部36は、例えば、ビデオカメラ25及び映像用通信端末27と接続するための外部インタフェースと、バスを通じて本体側制御部31等と接続するための内部インタフェースと、フレームバッファとしてのビデオメモリを有している(何れも図示せず)。
操作部37は、パネルスイッチやリモコン受信回路などからなっており、利用者によるパネルスイッチやリモコン装置26の操作に応じた操作信号を本体側制御部31に対して出力する。本体側制御部31は、操作入力処理を行うことで操作信号を検出し、対応する処理を実行する。なお、パネルスイッチやリモコン装置26は、操作を選択するための種々のキースイッチ(図示せず)を備えている。
そして、リモコン装置26を通じた操作により、通信デュエットの実行を選択できる。ここで、通信デュエットの選択処理について簡単に説明する。
リモコン装置26を操作して通信デュエットを選択すると、一方のカラオケ装置2が親側に、他方のカラオケ装置2が子側に定められる。そして、映像用通信回線4B及び音声用通信回線4Cを介して映像用通信端末27及び音声用通信端末28が、相手側となるカラオケ装置2の映像用通信端末27及び音声用通信端末28と通信する。これにより、歌唱映像データと歌唱音声データが一対のカラオケ装置2,2の間で相互に送受信され、相手側の映像及び音声を視聴できる。また、対象となるカラオケ楽曲の楽曲IDが本体側制御部31のメモリ31bに記憶され、演奏可能な状態で待機される。
ビデオカメラ25やマイク24等が調整され、通信デュエットが行える状態になったならば、利用者は、親側のリモコン装置26を操作し、通信デュエットの開始を指示する。これにより、親側のリモコン装置26から開始信号が送信され、親側のカラオケ本体21に対しては直接入力される。一方、子側のカラオケ本体21に対しては、アクセスポイント及び汎用通信回線4Aを通じて開始信号が送信される。そして、開始信号が各カラオケ本体21,21で受信されると通信デュエットが開始される。その際、親側のカラオケ本体21(本体側記憶部33の歌唱映像データ記憶領域及び歌唱音声データ記憶領域)には、歌唱映像データ及び歌唱音声データが記録される。
次に、ユーザー端末3について説明する。ユーザー端末3は、カラオケの利用者によって操作される通信端末であり、歌唱動画コンテンツを閲覧する際などに操作される。図1に示すように、ユーザー端末3は、パーソナルコンピュータ3A、タブレットコンピュータ3B、携帯電話機3Cなどが含まれる。また、前述したように、リモコン装置26もユーザー端末3に含まれる。
図5に示すように、ユーザー端末3は、端末側制御部41と、端末側通信部42と、端末側記憶部43と、表示部44と、入力部45とを有している。
端末側制御部41は、ユーザー端末3における制御の中心となる部分であり、CPU41aやメモリ41bを有している。CPU41aは、メモリ41bに記憶された動作プログラムに従って各種の制御を実行する。メモリ41bは、CPU41aに実行されるプログラムを記憶したり、プログラムの実行時に各種情報を一時的に記憶したりする記憶素子である。端末側通信部42は、ユーザー端末3を通信回線4(汎用通信回線4A)に接続するためのインタフェースを提供する。端末側記憶部43は、各種の情報を記憶する記憶装置であり、不揮発性メモリやハードディスクドライブ等によって構成される。
表示部44及び入力部45は、いずれもユーザインタフェースを提供する部分である。表示部44は、各種メニューや操作用のラジオボタン等を表示する部分であり、例えば液晶表示装置やブラウン管で構成される。入力部45は、利用者による操作を操作情報として取り込む部分であり、例えばキーボード、マウス、タッチパネルによって構成される。なお、可搬性が要求されるタブレットコンピュータ3Bやリモコン装置26では、表示部44と入力部45とが一体化されたタッチパネル付きの液晶表示パネルが好適に用いられる。
次に、上記構成を有するカラオケシステム(歌唱動画生成システム)の動作について説明する。このカラオケシステムは、通信デュエット時における録画処理に特徴を有している。このため、通信デュエットの動作を中心に説明を行う。
図6は、通信デュエットを行う一対のカラオケ装置2A,2Bが通信回線4を介して接続された状態を説明するブロック図である。前述したように、通信デュエットの実行時には、一方のカラオケ装置2が親側となり、他方のカラオケ装置2が子側となる。便宜上、以下の説明では、親側のカラオケ装置2を親側カラオケ装置2Aといい、子側のカラオケ装置2を子側カラオケ装置2Bという。なお、親側カラオケ装置2Aが本発明の第1カラオケ装置に相当し、子側カラオケ装置2Bが本発明の第2カラオケ装置に相当する。そして、親側カラオケ装置2Aが備える各部を「親側」の語を付して示し、子側カラオケ装置2Bが備える各部を「子側」の語を付して示すこととする。
親側リモコン装置26A及び子側リモコン装置26Bへの操作によって通信デュエットが選択されると、親側映像用通信端末27Aと子側映像用通信端末27Bとが映像用通信回線4Bを介して通信可能に接続され、親側音声用通信端末28Aと子側音声用通信端末28Bとが音声用通信回線4Cを介して通信可能に接続される。これにより、親側ビデオカメラ25Aで撮影された映像が子側モニタ23Bで視認可能となり、親側マイク24Aで集音された音声が子側スピーカ22Bから放音されるようになる。同様に、子側ビデオカメラ25Bで撮影された映像が親側モニタ23Aで視認可能となり、子側マイク24Bで集音された音声が親側スピーカ22Aから放音されるようになる。なお、親側カラオケ本体21Aと子側カラオケ本体21Bとは汎用通信回線4Aを介して常時通信可能に接続されているので、必要な情報は、汎用通信回線4Aを介して送受信することができる。
また、通信デュエットが選択されると、親側カラオケ本体21Aの本体側制御部31と子側カラオケ本体21Bの本体側制御部31のそれぞれに、通信デュエットの対象となるカラオケ楽曲の楽曲IDが記憶され、演奏可能な状態で待機される。その後、各ビデオカメラ25A,25Bの角度や各マイク24A,24Bの入力感度等が調整され、通信デュエットが行える状態になったならば、親側リモコン装置26Aにより、通信デュエットの開始が指示される。これにより、親側リモコン装置26Aから開始信号が送信され、親側カラオケ本体21Aと子側カラオケ本体21Bに受信される。開始信号の受信を契機に、通信デュエットが開始され、親側カラオケ本体21Aと子側カラオケ本体21Bのそれぞれでカラオケ伴奏が開始される。各利用者は、カラオケ伴奏にあわせて歌唱を行うことで、デュエットを行うことができる。
図7は、通信デュエットの様子を説明する図である。同図に示すように、親側カラオケルームRM(親)では、親側モニタ23Aに子側歌唱映像XBと親側歌唱映像XAが表示されている。同様に、子側カラオケルームRM(子)では、子側モニタ23Bに親側歌唱映像XAと子側歌唱映像XBが表示されている。また、親側カラオケルームRM及び子側カラオケルームRMでは、親側歌唱音声と子側歌唱音声とが合成された合成音声が親側スピーカ22A及び子側スピーカ22Bから放音される。このように、通信回線4で接続された一対のカラオケ装置2A,2Bで歌唱映像と歌唱音声が共有されることで、通信デュエットが実現される。
図8に示すように、このカラオケシステムでは、開始信号の受信を契機にして、親側カラオケ本体21Aの本体側記憶部33A(映像記録手段)に、歌唱映像データが記録される。すなわち、図中矢印で示すように、親側ビデオカメラ25Aで取得された親側歌唱映像XA(第1歌唱映像)のデータと、子側ビデオカメラ25B(第2ビデオカメラ25)で取得されて映像用通信回線4Bを通じて受信された子側歌唱映像XB(第2歌唱映像)のデータが、本体側記憶部33Aの歌唱映像データ記憶領域に記録される。
同様に、この本体側記憶部33A(音声記録手段)には、歌唱音声データも記録される。すなわち、親側マイク24Aで集音され、音響処理部34で変換された親側歌唱音声(第1歌唱音声)のデータと、子側マイク24Bで集音された後に音響処理部34で変換され、音声用通信回線4Cを通じて送信された子側歌唱音声(第2歌唱音声)のデータと、親側歌唱音声データと子側歌唱音声データの合成で得られた合成歌唱音声のデータとが記録される。
通信デュエットが終了すると、親側カラオケ本体21Aの本体側制御部31(歌唱映像合成手段)は、記録された親側歌唱映像データと子側歌唱映像データとを合成し、合成唱映像データを生成する。そして、生成された合成唱映像データは、歌唱音声データ(親側歌唱音声データ,子側歌唱音声データ,合成歌唱音声データ)とともに、ホスト装置1へアップロードされる。
ここで、歌唱音声データは比較的小容量であることから回線負荷が小さく、親側カラオケ装置2Aと子側カラオケ装置2Bとの間で相互にデータを送受信しても遅れを殆ど感じずにデュエット歌唱が行える。このため、親側カラオケ本体21Aでは、時間差を調整せずに親側歌唱音声データと子側歌唱音声データを合成することができる。これに対し、歌唱映像データは、歌唱音声データよりも十分に大きな容量であることから回線負荷が大きく、親側カラオケ装置2Aと子側カラオケ装置2Bとの間で相互にデータを送受信すると、図8に符号dtで示す遅れが生じてしまう。
図9は、本体側記憶部33Aに記録された親側歌唱映像データVD−Aと子側歌唱映像データVD−Bを模式的に説明する図である。この図に示すように、親側歌唱映像データVD−Aは、時系列で取得された複数のフレームFR−A(コマのデータ)で構成されている。同様に、子側歌唱映像データVD−Bも、時系列で取得された複数のフレームFR−Bで構成されている。これらの歌唱映像データVD−A,Bは、親側リモコン装置26Aからの開始信号の受信を契機に、本体側記憶部33Aへの記録が行われる。このため、親側歌唱映像データVD−Aは、開始信号の受信タイミングである時刻t0から記録が開始される。一方、子側歌唱映像データVD−Bは、時間dtだけ遅れて親側カラオケ本体21Aに受信されることから、この子側歌唱映像データVD−Bにおける子側カラオケ本体21Bでの開始信号の受信タイミングは、時刻t0から時間dtだけ後の時刻t1になる。
通信デュエットの実行中は、歌唱音声に遅れが殆ど生じないことから、歌唱映像XA,XBに多少の遅れが生じても支障はないと考えられる。しかし、歌唱動画を作成するに際しては、歌唱映像XA,XBについても遅れがないことが望ましい。
このような事情に鑑み、本実施形態のカラオケシステムでは、合成唱映像データの生成に際し、親側歌唱映像XAと子側歌唱映像XBの時間差を補正している。
図6を参照して概略を説明すると、まず、子側カラオケ本体21B(本体側制御部31,映像入力部36)は、参照用フレーム取得手段として機能し、開始信号の受信タイミングから規定時間の経過後に、子側ビデオカメラ25Bからのフレームを参照用フレームとして取得する。そして、子側カラオケ本体21B(本体側制御部31,本体側通信部32)は、取得した参照用フレームを、汎用通信回線4Aを通じて親側カラオケ本体21Aへ送信する。次に、親側カラオケ本体21A(本体側制御部31)は、映像特定手段として機能し、受信した参照用フレームを本体側記憶部33Aに記録された子側歌唱映像データVD−Bと照合し、開始タイミングから規定時間の経過後に撮影された映像フレームを特定する。さらに、親側カラオケ本体21A(本体側制御部31)は、歌唱映像合成手段として機能し、特定されたフレームに基づいて、本体側記憶部33Aに記録された親側歌唱映像データVD−Aと子側歌唱映像データVD−Bの時間差を補正し、これらの歌唱映像データVD−A,Bを合成する。
以下、図10のフローチャートを参照し、通信デュエットにおける一連の処理について説明する。
通信デュエットを行うに際し、親側カラオケ装置2Aの利用者及び子側カラオケ装置2Bの利用者は、それぞれ親側リモコン装置26A及び子側リモコン装置26Bを操作し、各カラオケ装置2A,2Bを通信デュエットのモードに設定する(S1)。この設定により、親側映像用通信端末27Aと子側映像用通信端末27Bとの間で歌唱映像データが相互に送受信されるとともに、親側音声用通信端末28Aと子側音声用通信端末28Bとの間で歌唱音声データが相互に送受信される。そして、図10に一点鎖線の枠で示すように、歌唱映像データ及び歌唱音声データの送受信は、カラオケ演奏が終了するまでの期間に亘って行われる。
各カラオケ装置2A,2Bで準備が整ったならば、親側カラオケ装置2Aの利用者は、親側リモコン装置26Aを操作して通信デュエットの開始を指示する。これにより、親側リモコン装置26Aからは開始信号が送信され(S2)、親側カラオケ本体21Aと子側カラオケ本体21Bのそれぞれに受信される。開始信号の受信に伴い、親側カラオケ装置2Aでは、対象となるカラオケ楽曲の演奏を開始するとともに、親側歌唱映像データVD−A、子側歌唱映像データVD−B、親側歌唱音声データ、子側歌唱音声データ、及び、合成歌唱音声データの本体側記憶部33Aへの記録を開始する(S3)。また、子側カラオケ装置2Bでは、対象となるカラオケ楽曲の演奏を開始する(S4)。
演奏開始から規定時間(本実施形態では30秒)経過すると、親側カラオケ本体21Aの本体側制御部31は、紹介画像取得手段として機能し、親側ビデオカメラ25AからのフレームFR−Aを、親側サムネイル画像SM−A(第1紹介画像)として複数枚取得する(S5)。図11の例では4枚のフレームが親側サムネイル画像SM−Aとして取得されている。そして、取得された親側サムネイル画像SM−Aは、本体側制御部31のメモリ31bに一時記憶される。
図10に示すように、子側カラオケ本体21Bの本体側制御部31は、参照用フレーム取得手段として機能し、子側ビデオカメラ25BからのフレームFR−Bを子側サムネイル画像SM−B(参照用フレーム)として、複数枚(本実施形態では4枚)取得する(S6)。取得された子側サムネイル画像SM−Bは、本体側制御部31のメモリ31bに一時記憶される。
子側サムネイル画像SM−Bを取得すると、子側カラオケ本体21Bの本体側制御部31及び本体側通信部32は、参照用フレーム送信手段として機能し、参照用フレームとして取得した子側サムネイル画像SM−Bを、汎用通信回線4Aを通じて親側カラオケ装置2Aへ送信する(S7)。そして、親側カラオケ本体21Aの本体側制御部31及び本体側通信部32は子側サムネイル画像SM−Bを受信し(S8)、メモリ31bに一時記憶させる。
対象となるカラオケ楽曲の演奏が終了したならば(S9),(S10)、親側カラオケ装置2A及び子側カラオケ装置2Bは、歌唱音声データの送受信を終了する。あわせて、親側カラオケ装置2Aは、歌唱音声データの本体側記憶部33Aへの記録を停止する(S9)。
また、親側カラオケ装置2Aは、カラオケ楽曲の演奏終了後、子側カラオケ装置2Bから送られてくる歌唱映像データの時間差を考慮し、この時間差以上となる所定時間経過後に、歌唱映像データの送受信を終了する。あわせて、歌唱映像データの本体側記憶部33Aへの記録を停止する(S11)。
次に、親側カラオケ本体21Aの本体側制御部31は、映像特定手段として機能し、受信した子側サムネイル画像SM−B(参照用フレーム)を本体側記憶部33A(映像記録手段)に記録された子側歌唱映像データVD−B(第2歌唱映像のデータ)と照合し、子側歌唱映像データVD−Bに含まれる複数のフレームFR−Bの中から、開始タイミングから規定時間の経過後に撮影されたフレームFR−Bを特定する(S12)。
図11の例で説明すると、本体側制御部31は、まず、子側歌唱映像データVD−Bを構成する複数のフレームの中から、親側サムネイル画像SM−Aと同じタイミングで記録された4枚のフレームを選択する。そして、選択したフレームと子側サムネイル画像SM−Bとを比較し、両者の相関度を判定する。次に、本体側制御部31は、フレーム1枚分だけ後側にずらした4枚のフレームを選択する。すなわち、先に選択したフレーム群のうち、一番古いフレームを外すとともに直近の新しいフレームを追加する。新たなフレーム群を選択したならば、子側サムネイル画像SM−Bと比較し、両者の相関度を判定する。
このように、フレーム群を順次ずらしながら相関度を判定してゆくと、相関度は、子側サムネイル画像SM−Bと同じフレーム群が選択された際に最大となる。そして、相関度が最大のフレーム群は子側サムネイル画像SM−Bと同じタイミングで撮影されたものと解されることから、本体側制御部31(映像特定手段)は、相関度が最大のフレーム群を開始タイミングから規定時間の経過後に撮影されたフレームFR−Bとして特定する。
フレームFR−Bを特定したならば、図10に示すように、親側カラオケ本体21Aの本体側制御部31は、歌唱映像合成手段として機能し、先の処理で特定されたフレーム群に基づいて、本体側記憶部33(映像記録手段)に記録された親側歌唱映像データVD−A(第1歌唱映像データ)と子側歌唱映像データVD−B(第2歌唱映像データ)の時間差を補正する(S13)。
図12の例で説明すると、本体側制御部31は、親側サムネイル画像SM−Aとして取得された親側歌唱映像データVD−Aのフレーム群(斜線フレーム)と、先の処理で特定された子側歌唱映像データVD−Bのフレーム群(斜線フレーム)とが同じタイミングで取得されたものとして、親側歌唱映像データVD−Aと子側歌唱映像データVD−Bの時間差を補正する。
時間差を補正したならば、図10に示すように、親側カラオケ本体21Aの本体側制御部31は、親側歌唱映像データVD−Aと子側歌唱映像データVD−Bとを合成する(S14)。これにより、図13に示すように、親側歌唱映像データVD−Aと子側歌唱映像データVD−Bとが同期された合成歌唱映像データが生成される。
歌唱映像データを合成したならば、図10に示すように、親側カラオケ本体21Aの本体側制御部31は、アップロード手段として機能し、生成された合成歌唱映像データと、歌唱音声データ(親側歌唱音声データ,子側歌唱音声データ,合成歌唱音声データ)と、サムネイル画像(親側サムネイル画像SM−A,子側サムネイル画像SM−B)とを、汎用通信回線4Aを通じてホスト装置1へアップロードする(S15)。
このように、本実施形態では、通信デュエットが行われると、親側カラオケ装置2Aで歌唱映像データを合成してホスト装置1へアップロードしているので、回線負荷の上昇を抑えることができる。また、開始信号の受信から規定時間が経過したタイミングで取得された子側サムネイル画像SM−Bを親側カラオケ装置2Aへ転送し、子側歌唱映像データVD−Bの照合に用いているので、時刻情報を用いなくても各歌唱映像データの時間差を補正することができる。
また、通信回線4に関し、本実施形態では、歌唱映像データを送受信するための映像用通信回線4Bと歌唱音声データ音声用通信回線4Cとに分けられているので、大容量の歌唱映像データと小容量の歌唱音声データとを分けて処理をすることができる。これにより、歌唱音声データについては時間差を補正せずに合成し、歌唱映像データについてのみ時間差の補正処理を行えば済む。その結果、処理の効率化を図ることができる。
また、参照用フレームに関し、本実施形態では複数(4枚)のフレームを取得し、これらのフレームを用いて照合を行っているので、照合の精度を高めることができる。
また、本実施形態では、紹介画像としてのサムネイル画像SM−A,SM−Bを親側歌唱映像データVD−Aと子側歌唱映像データVD−Bのそれぞれから取得し、子側サムネイル画像SM−Bによって照合を行っている。このように、合成歌唱映像を紹介するためのサムネイル画像が照合にも用いられているので、参照用フレームとサムネイル画像とを個別に取得する構成に比べ、処理効率を向上させることができる。
以上の実施形態の説明は、本発明の理解を容易にするためのものであり、本発明を限定するものではない。本発明はその趣旨を逸脱することなく、変更、改良され得ると共に本発明にはその等価物が含まれる。例えば、次のように構成してもよい。
通信回線4に関し、本実施形態では、映像用通信回線4B、音声用通信回線4C、及び、汎用通信回線4Aの3種類に分かれているものを例示したが、この構成に限られない。例えば、歌唱映像データと歌唱音声データとを汎用通信回線4Aとは異なる専用回線で送受信するようにしてもよいし、全てのデータを汎用通信回線4Aで送受信するようにしてもよい。
参照用フレーム(サムネイル画像)として取得されるフレームの数に関し、本実施形態では4枚のフレームを取得することとしたが、この構成に限られない。例えば、1〜3枚のフレームを取得してもよいし5枚以上のフレームを取得してもよい。
規定時間に関し、本実施形態では30秒に定め、サムネイル画像を参照用フレームとして用いることとしたが、この構成に限られない。例えば、開始信号の受信直後に参照用フレームを取得し、サムネイル画像については別途取得してもよい。
開始信号に関し、本実施形態では、親側カラオケ装置2Aが備える親側リモコン装置26Aから送信するものを例示したが、この構成に限られない。例えば、子側リモコン装置26Bから送信するようにしてもよいし、ホスト装置1から送信するようにしてもよい。
歌唱映像の合成やアップロードに関し、本実施形態では、親側カラオケ装置2Aが備える本体側制御部31で行うものを例示したが、子側カラオケ装置2Bが備える本体側制御部31で行ってもよい。