JP6051040B2

JP6051040B2 - 歌唱動画生成システム

Info

Publication number: JP6051040B2
Application number: JP2012284278A
Authority: JP
Inventors: 藤木　剛; 剛藤木
Original assignee: Daiichikosho Co Ltd
Current assignee: Daiichikosho Co Ltd
Priority date: 2012-12-27
Filing date: 2012-12-27
Publication date: 2016-12-21
Anticipated expiration: 2032-12-27
Also published as: JP2014127904A

Description

本発明は、通信デュエットの歌唱動画を生成する歌唱動画生成システムに関する。

通信回線で接続されたカラオケ装置同士の間で行われる通信デュエットが知られている。この通信デュエットでは、通信遅延による演奏等の違和感が問題となっており、この違和感を解消する技術が提案されている。例えば、特許文献１のシステムでは、パケットに時刻情報を付与することで通信時の遅延時間を測定し、測定された遅延時間に基づいて複数のカラオケ装置に対する制御を行っている。簡単に説明すると、送信側のカラオケ装置Ａと受信側のカラオケ装置Ｂとでセッションを行う場合、カラオケ装置Ａは、カラオケ装置Ｂに対してバック演奏データの送信開始後、遅延時間分待機した後に演奏を開始する。これにより、遅延の影響を各カラオケ装置Ａ，Ｂに分散させている。

また、近年は、ホスト装置に記録されたカラオケ歌唱の動画をカラオケ装置にダウンロードし、この動画の再生にあわせて合唱するコラボレーション歌唱が行われている。そして、特許文献２には、或るカラオケ歌唱の動画と別のカラオケ歌唱の動画とを合成（混成）し、新たな歌唱動画を生成するシステムが開示されている。

特開２０１１−２４２５６０号公報特開２０１１−５９６１９号公報

今後は、コラボレーション歌唱と同様に、通信デュエットについても一方のカラオケ歌唱の動画と他方のカラオケ歌唱の動画とを合成し、デュエットの歌唱動画を生成する要望が生じると思われる。特許文献２の技術では、ホスト装置（中央装置）で合成を行うことから、一方のカラオケ歌唱の動画と他方のカラオケ歌唱の動画とを個別にホスト装置へアップロードすることとなる。このように、各カラオケ装置からホスト装置へ動画データをアップロードすると、その分だけ通信回線を占有することとなり、回線負荷の観点から好ましくない。

回線負荷の上昇を抑えるため、通信デュエットの終了後に一方のカラオケ装置で各動画を合成し、合成後の動画をホスト装置へアップロードすることが考えられる。しかし、単に合成したのでは、一方のカラオケ装置の歌唱動画と通信回線を通じて受信された他方のカラオケ装置の歌唱動画との間で時間差が生じてしまう。時間差を解消すべく、特許文献１の記載技術を適用することが考えられるが、パケットに時刻情報を付与する構成であることから、各カラオケ装置で認識される時刻をｍｓ（ミリ秒）単位の高い精度で揃える必要がある。

本発明は、このような事情に鑑みてなされたものであり、その目的は、通信デュエットの歌唱動画を生成するに際し、回線負荷の上昇を抑え、時刻情報を用いなくても時差を補正することにある。

前記目的を達成するため、本発明は、第１ビデオカメラを備える第１カラオケ装置と、第２ビデオカメラを備える第２カラオケ装置とを通信回線で接続し、前記第１カラオケ装置と前記第２カラオケ装置との間で開始信号の受信を契機に行われる通信デュエットについて、歌唱動画を生成する歌唱動画生成システムであって、前記第１カラオケ装置に備えられ、前記第１ビデオカメラで取得された第１歌唱映像、及び、前記第２ビデオカメラで取得されて前記通信回線を通じて受信された第２歌唱映像を、前記開始信号の受信を契機に記録する映像記録手段と、前記第２カラオケ装置に備えられ、前記開始信号の受信タイミングから規定時間の経過後に前記第２ビデオカメラからの映像フレームを参照用フレームとして取得する参照用フレーム取得手段と、前記第２カラオケ装置に備えられ、前記参照用フレームを、前記通信回線を通じて前記第１カラオケ装置へ送信する参照用フレーム送信手段と、前記第１カラオケ装置に備えられ、受信した前記参照用フレームを前記映像記録手段に記録された前記第２歌唱映像と照合し、前記第２歌唱映像に含まれる前記開始タイミングから前記規定時間の経過後に撮影された映像フレームを特定する映像特定手段と、前記第１カラオケ装置に備えられ、前記映像特定手段によって特定された特定フレームに基づいて、前記映像記録手段に記憶された前記第１歌唱映像と前記第２歌唱映像の時間差を補正し、前記第１歌唱映像と前記第２歌唱映像とを合成する歌唱映像合成手段とを有することを特徴とする。

本発明によれば、第１ビデオカメラで撮影された第１歌唱映像と第２ビデオカメラで撮影された第２歌唱映像とを、第１カラオケ装置に備えられた歌唱映像合成手段で合成するので、ホスト装置に対しては合成後の歌唱映像及び歌唱音声をアップロードすれば足りる。このため、回線負荷の上昇を抑えることができる。また、開始信号の受信タイミングから規定時間の経過後に第２カラオケ装置で取得された参照用フレームを第１カラオケ装置に転送し、この参照用フレームを第１カラオケ装置で記録された第２歌唱映像と照合しているので、時刻情報を用いなくても、第２歌唱映像における開始信号の受信から規定時間の経過時点を特定できる。そして、開始信号の受信から規定時間の経過時点は第１カラオケ装置でも認識されているので、歌唱映像合成手段は、時刻情報を用いなくても第１歌唱映像と第２歌唱映像の時間差を補正することができる。

前述の歌唱動画生成システムにおいて、前記通信回線は、前記第１歌唱映像及び前記第２歌唱映像を送受信するための映像用通信回線と、歌唱音声を送受信するための音声用通信回線とを含むことが好ましい。この構成では、第１歌唱映像及び第２歌唱映像と歌唱音声とが別の通信回線で送受信されているので、歌唱映像よりも小容量の歌唱音声については、歌唱映像と処理を分けることができる。例えば、通信回線が高速化していることから、歌唱音声については時差を補正せずに合成することができる。このように、歌唱映像と歌唱音声とを別の回線で送受信することで、処理の効率化を図ることができる。

前述の歌唱動画生成システムにおいて、前記参照用フレーム取得手段は、前記参照用フレームとして複数のフレームを取得することが好ましい。この構成では、参照用フレームとして複数のフレームを取得しているので、照合の精度を高めることができる。

前述の歌唱動画生成システムにおいて、前記第１カラオケ装置に備えられ、前記開始信号の受信タイミングから前記規定時間の経過後に、前記第１ビデオカメラからの映像フレームを、前記歌唱映像合成手段で合成された合成歌唱映像を紹介するための第１紹介画像として取得し、かつ、前記参照用フレームを、前記合成歌唱映像を紹介するための第２紹介画像として取得する紹介画像取得手段を有することが好ましい。この構成では、参照用フレームを、合成歌唱映像を紹介するための紹介画像としても用いるので、紹介画像を別途取得する構成に比べて処理効率を向上させることができる。

本発明の歌唱動画生成システムによれば、第１ビデオカメラを備える第１カラオケ装置と、第２ビデオカメラを備える第２カラオケ装置とを通信回線で接続して行われる通信デュエットの歌唱動画に関し、カラオケ装置からのアップロード時における回線負荷の上昇を抑えることができ、時刻情報を用いなくても第１歌唱映像と第２歌唱映像との間の時差を補正することができる。

カラオケシステムの概略構成を説明する概念図である。ホスト装置の構成を説明するブロック図である。カラオケ装置の構成を説明するブロック図である。カラオケ本体の構成を説明するブロック図である。ユーザー端末の構成を説明するブロック図である。通信デュエットを行う一対のカラオケ装置が通信回線を介して接続された状態を説明するブロック図である。通信デュエット時における各カラオケルームの様子を説明する図である。通信デュエット時における信号の流れを説明する図である。親側の本体側記憶部に記録された歌唱映像データを説明する図である。各カラオケ装置の動作を説明するフローチャートである。参照用フレームによる照合を説明する模式図である。時間差の補正を説明する図である。合成後の歌唱映像を説明する図である。

以下、本発明の実施形態について説明する。図１に示すカラオケシステムは、ホスト装置１とカラオケ装置２とユーザー端末３とを有している。そして、これらが通信回線４を介して通信可能に接続されている。カラオケ装置２は、例えばカラオケ店ＫＢの各カラオケルームＲＭに設置されている。そして、通信デュエットを行う場合、一対のカラオケ装置２，２は通信回線４を介して通信可能に接続される。後述するように、本実施形態のカラオケ装置２は、通信デュエットの歌唱動画を生成する機能を有しており、生成した歌唱動画をホスト装置１にアップロードする。ホスト装置１は、通信デュエットの歌唱動画をはじめ、多数の歌唱動画を記憶しており、選択された歌唱動画をユーザー端末３に表示させる。以下、カラオケシステムを構成する各装置１〜３について説明する。

まず、ホスト装置１について説明する。ホスト装置１は、サーバーとして機能し、顧客情報や歌唱動画データといった各種情報を蓄積して管理する。図２に示すように、ホスト装置１は、ホスト側制御部１１と、ホスト側通信部１２と、ホスト側記憶部１３とを有している。ホスト側制御部１１は、ホスト装置１における制御の中心となる部分であり、ＣＰＵ１１ａやメモリ１１ｂを有している。ＣＰＵ１１ａは、メモリ１１ｂに記憶された動作プログラムに従って各種の制御を実行する。メモリ１１ｂは、ＣＰＵ１１ａに実行されるプログラムを記憶したり、プログラムの実行時に各種情報を一時的に記憶したりする記憶素子である。ホスト側通信部１２は、ホスト装置１を通信回線４に接続するためのインタフェースを提供する。

ホスト側記憶部１３は、大容量の情報を記憶する記憶装置であり、ハードディスクドライブ等によって構成されている。ホスト側記憶部１３の一部領域は、顧客情報記憶領域、歌唱音声データ記憶領域、歌唱映像データ記憶領域、閲覧用動画データ記憶領域として用いられている。

顧客情報記憶領域は、利用者（歌唱者）の個人情報や履歴データが利用者ＩＤに対応付けられた状態で記憶される領域である。歌唱音声データ記憶領域は、カラオケ装置２からアップロードされた歌唱音声のデータ（以下歌唱音声データという）が記憶される領域であり、歌唱映像データ記憶領域は、カラオケ装置２からアップロードされた歌唱映像のデータ（以下歌唱映像データという）が記憶される領域である。

これらの歌唱音声データや歌唱映像データは、歌唱動画コンテンツの基となる歌唱動画データであり、単独歌唱で取得されたデータと通信デュエットで取得されたデータとが含まれる。そして、歌唱音声データ及び歌唱映像データは、楽曲ＩＤや利用者ＩＤ等の各種情報と対応付けられた状態で記憶されている。なお、本実施形態において、歌唱音声データはＭＰ３形式のデータが用いられ、歌唱映像データはＭＰＥＧ２形式のデータが用いられている。

閲覧用動画データ記憶領域には、ユーザー端末３に閲覧させるための閲覧用動画データが記憶される。この閲覧用動画データは、ユーザー端末３で再生される歌唱動画コンテンツの基となるデータである。この歌唱動画コンテンツもまた、単独歌唱や通信デュエットで生成されたものが含まれる。本実施形態の閲覧用動画データは、ＷＭＶ形式やＭＰ４形式の動画データであり、カラオケ装置２からの歌唱動画データ（歌唱音声データ，歌唱映像データ）のアップロードに伴って、ホスト側制御部１１が生成する。

次に、カラオケ装置２について説明する。カラオケ装置２は、カラオケ演奏や歌唱採点を行うものであり、例えば図３に示すように、カラオケ本体２１と、スピーカ２２と、モニタ２３と、マイク２４と、ビデオカメラ２５と、リモコン装置２６と、映像用通信端末２７と、音声用通信端末２８とを有している。

カラオケ本体２１は、選択されたカラオケ楽曲の演奏制御、歌詞及び背景映像の表示制御、マイク２４を通じて入力された歌唱音声信号の処理といった、カラオケに関する各種の制御を行う部分である。このカラオケ本体２１については、後で詳しく説明する。

スピーカ２２は、カラオケ本体２１に接続されており、カラオケ本体２１からの放音信号に基づいて放音する。モニタ２３もカラオケ本体２１に接続されており、カラオケ本体２１からの映像信号に基づいて映像を画面に表示する。マイク２４もカラオケ本体２１に接続されており、歌唱者の音声をアナログの歌唱音声信号に変換してカラオケ本体２１に入力させる。ビデオカメラ２５もカラオケ本体２１に接続されており、撮影された映像（例えば歌唱中の映像）を歌唱映像データとしてカラオケ本体２１に入力させる。

リモコン装置２６は、カラオケ本体２１との間で情報を送受信するための双方向通信可能な短距離無線通信部を備えており、カラオケ楽曲の予約時などに操作される。カラオケ楽曲の予約時において、リモコン装置２６からは、演奏対象の楽曲を識別するための楽曲ＩＤを含んだ操作信号が送信される。登録された利用者がリモコン装置２６を通じてログインした場合、その利用者の利用者ＩＤがホスト装置１に送信される。この利用者ＩＤに基づき、ホスト装置１は、歌唱を行う利用者を認識することができる。

また、本実施形態のリモコン装置２６は、通信デュエットにおける開始信号を送信する開始信号送信手段としても機能する。詳細は後述するが、このカラオケシステムでは、通信デュエットの実行時において、一方のカラオケ装置２が親機として機能し、他方のカラオケ装置２が子機として機能する。そして、親側のカラオケ装置２が有するリモコン装置２６からの開始信号が、親側のカラオケ本体２１と子側のカラオケ本体２１に送信される。この場合、親側のカラオケ本体２１に対しては開始信号が直接入力される。一方、子側のカラオケ本体２１に対しては、開始信号が近隣のアクセスポイント（図示せず）及び通信回線４（汎用通信回線４Ａ）を介して送信される。

さらに、リモコン装置２６は、ユーザー端末３としても機能する。この場合、リモコン装置２６は、アクセスポイントや通信回線４（汎用通信回線４Ａ）を介してホスト装置１に接続される。このため、利用者は、カラオケ店ＫＢに居ながらにして、マイページにアクセスできる。

映像用通信端末２７及び音声用通信端末２８は、通信デュエットが行われる際に、相手側のカラオケ装置２と通信回線４を介して接続される部分であり、ビデオカメラ２５で撮影された歌唱映像データ、及び、マイク２４等を通じて取得された歌唱音声データが送受信される。具体的には、映像用通信端末２７は、映像用通信回線４Ｂを介して歌唱映像データを、相手側のカラオケ装置２が有する映像用通信端末２７と送受信する。同様に、音声用通信端末２８は、音声用通信回線４Ｃを介して歌唱音声データを、相手側のカラオケ装置２が有する音声用通信端末２８と送受信する。これらの映像用通信回線４Ｂ及び音声用通信回線４Ｃでは、接続先となるカラオケ装置２を電話番号などによって選択できる。

映像用通信端末２７で受信された相手側のカラオケ装置２からの歌唱映像データは、カラオケ本体２１に入力される。同様に、音声用通信端末２８で受信された相手側のカラオケ装置２からの歌唱音声データもまた、カラオケ本体２１に入力される。なお、カラオケ本体２１は、汎用通信回線４Ａを介して相手側のカラオケ本体２１やホスト装置１と通信可能に接続されている。そして、通信デュエット時の歌唱映像データ及び歌唱音声データを除く各種のデータや情報は、汎用通信回線４Ａを介して送受信される。このように、本実施形態のカラオケシステムでは、通信デュエット時の歌唱映像データ及び歌唱音声データが、専用の映像用通信回線４Ｂ及び音声用通信回線４Ｃを介して送受信されている。

次に、カラオケ本体２１について詳細に説明する。図４に示すように、カラオケ本体２１は、本体側制御部３１と、本体側通信部３２と、本体側記憶部３３と、音響処理部３４と、表示処理部３５と、映像入力部３６と、操作部３７とを有している。そして、これらの各部がバスを介して通信可能な状態に接続されている。

本体側制御部３１は、カラオケ本体２１における制御の中心となる部分であり、ＣＰＵ３１ａやメモリ３１ｂを有している。ＣＰＵ３１ａは、メモリ３１ｂに記憶された動作プログラムに従って各種の制御を実行する。例えば、操作部３７からの操作を受け付ける操作入力処理やシーケンサとして動作するシーケンサ処理を行う。メモリ３１ｂは、ＣＰＵ３１ａに実行されるプログラムを記憶したり、プログラムの実行時に各種情報を一時的に記憶したりする記憶素子である。このため、メモリ３１ｂには、各種のプログラムを記憶する記憶領域が設けられている。

本体側通信部３２は、カラオケ本体２１を通信回線４（汎用通信回線４Ａ）に接続するためのインタフェースを提供する。この本体側通信部３２は、本体側制御部３１によって動作が制御される。

本体側記憶部３３は、各種のデータを記憶する大容量の記憶装置であり、例えばハードディスクドライブによって構成されている。この本体側記憶部３３には、例えば、楽曲データ記憶領域、背景映像データ記憶領域、歌唱映像データ記憶領域、歌唱音声データ記憶領域が設けられる。

楽曲データ記憶領域には、リモコン装置２６で選択されたカラオケ楽曲を演奏するための楽曲データが記憶され、背景映像データ記憶領域には、モニタ２３に背景映像を表示させるための背景映像データが記憶される。歌唱映像データ記憶領域には、ビデオカメラ２５で撮影された歌唱映像データが記憶され、歌唱音声データ記憶領域には、歌唱音声信号をデジタルデータ化した歌唱音声データが記憶される。なお、歌唱映像データ記憶領域及び歌唱音声データ記憶領域には、後述するように、通信デュエット時に取得された歌唱映像データや歌唱音声データも記憶される。

音響処理部３４は、カラオケ楽曲に対する演奏の制御を行ったり、マイク２４を通じて入力された歌唱音声信号をデジタルの歌唱音声データに変換する等の制御を行ったりする部分である。この音響処理部３４では、楽曲データに応じて生成された楽音信号と歌唱音声データとが適当なバランスでミキシングされ、放音信号としてスピーカ２２へ出力される。また、音響処理部３４は、通信デュエットが行われている際、楽曲データや歌唱音声データに加え、音声用通信端末２８を介して受信した相手側の歌唱音声データもミキシングする。これにより、利用者は、相手側の歌唱音声データの再生音声と合唱が行える。

表示処理部３５は、カラオケ演奏時における背景映像の表示等の制御を行う。カラオケ演奏時において、表示処理部３５には背景映像データが入力されており、この背景映像データのデコードが行われる。そして、表示処理部３５は、デコードで生成された背景映像の映像信号に歌詞テロップを合成し、合成後の映像信号をモニタ２３に出力する。その結果、モニタ２３には、背景映像に歌詞テロップが重ねられた映像が表示される。

また、表示処理部３５は、通信デュエットが行われている際、映像用通信端末２７を介して受信した相手側の歌唱映像データをモニタ２３に表示させる。このとき、モニタ２３の所定位置には、ビデオカメラ２５から直接入力された映像データに基づく映像、すなわち利用者の歌唱映像が上書き（スーパーインポーズ）される。

映像入力部３６は、ビデオカメラ２５からの歌唱映像データの取り込み処理を行う部分であり、いわゆるビデオカードで構成されている。この映像入力部３６は、例えば、ビデオカメラ２５及び映像用通信端末２７と接続するための外部インタフェースと、バスを通じて本体側制御部３１等と接続するための内部インタフェースと、フレームバッファとしてのビデオメモリを有している（何れも図示せず）。

操作部３７は、パネルスイッチやリモコン受信回路などからなっており、利用者によるパネルスイッチやリモコン装置２６の操作に応じた操作信号を本体側制御部３１に対して出力する。本体側制御部３１は、操作入力処理を行うことで操作信号を検出し、対応する処理を実行する。なお、パネルスイッチやリモコン装置２６は、操作を選択するための種々のキースイッチ（図示せず）を備えている。

そして、リモコン装置２６を通じた操作により、通信デュエットの実行を選択できる。ここで、通信デュエットの選択処理について簡単に説明する。

リモコン装置２６を操作して通信デュエットを選択すると、一方のカラオケ装置２が親側に、他方のカラオケ装置２が子側に定められる。そして、映像用通信回線４Ｂ及び音声用通信回線４Ｃを介して映像用通信端末２７及び音声用通信端末２８が、相手側となるカラオケ装置２の映像用通信端末２７及び音声用通信端末２８と通信する。これにより、歌唱映像データと歌唱音声データが一対のカラオケ装置２，２の間で相互に送受信され、相手側の映像及び音声を視聴できる。また、対象となるカラオケ楽曲の楽曲ＩＤが本体側制御部３１のメモリ３１ｂに記憶され、演奏可能な状態で待機される。

ビデオカメラ２５やマイク２４等が調整され、通信デュエットが行える状態になったならば、利用者は、親側のリモコン装置２６を操作し、通信デュエットの開始を指示する。これにより、親側のリモコン装置２６から開始信号が送信され、親側のカラオケ本体２１に対しては直接入力される。一方、子側のカラオケ本体２１に対しては、アクセスポイント及び汎用通信回線４Ａを通じて開始信号が送信される。そして、開始信号が各カラオケ本体２１，２１で受信されると通信デュエットが開始される。その際、親側のカラオケ本体２１（本体側記憶部３３の歌唱映像データ記憶領域及び歌唱音声データ記憶領域）には、歌唱映像データ及び歌唱音声データが記録される。

次に、ユーザー端末３について説明する。ユーザー端末３は、カラオケの利用者によって操作される通信端末であり、歌唱動画コンテンツを閲覧する際などに操作される。図１に示すように、ユーザー端末３は、パーソナルコンピュータ３Ａ、タブレットコンピュータ３Ｂ、携帯電話機３Ｃなどが含まれる。また、前述したように、リモコン装置２６もユーザー端末３に含まれる。

図５に示すように、ユーザー端末３は、端末側制御部４１と、端末側通信部４２と、端末側記憶部４３と、表示部４４と、入力部４５とを有している。

端末側制御部４１は、ユーザー端末３における制御の中心となる部分であり、ＣＰＵ４１ａやメモリ４１ｂを有している。ＣＰＵ４１ａは、メモリ４１ｂに記憶された動作プログラムに従って各種の制御を実行する。メモリ４１ｂは、ＣＰＵ４１ａに実行されるプログラムを記憶したり、プログラムの実行時に各種情報を一時的に記憶したりする記憶素子である。端末側通信部４２は、ユーザー端末３を通信回線４（汎用通信回線４Ａ）に接続するためのインタフェースを提供する。端末側記憶部４３は、各種の情報を記憶する記憶装置であり、不揮発性メモリやハードディスクドライブ等によって構成される。

表示部４４及び入力部４５は、いずれもユーザインタフェースを提供する部分である。表示部４４は、各種メニューや操作用のラジオボタン等を表示する部分であり、例えば液晶表示装置やブラウン管で構成される。入力部４５は、利用者による操作を操作情報として取り込む部分であり、例えばキーボード、マウス、タッチパネルによって構成される。なお、可搬性が要求されるタブレットコンピュータ３Ｂやリモコン装置２６では、表示部４４と入力部４５とが一体化されたタッチパネル付きの液晶表示パネルが好適に用いられる。

次に、上記構成を有するカラオケシステム（歌唱動画生成システム）の動作について説明する。このカラオケシステムは、通信デュエット時における録画処理に特徴を有している。このため、通信デュエットの動作を中心に説明を行う。

図６は、通信デュエットを行う一対のカラオケ装置２Ａ，２Ｂが通信回線４を介して接続された状態を説明するブロック図である。前述したように、通信デュエットの実行時には、一方のカラオケ装置２が親側となり、他方のカラオケ装置２が子側となる。便宜上、以下の説明では、親側のカラオケ装置２を親側カラオケ装置２Ａといい、子側のカラオケ装置２を子側カラオケ装置２Ｂという。なお、親側カラオケ装置２Ａが本発明の第１カラオケ装置に相当し、子側カラオケ装置２Ｂが本発明の第２カラオケ装置に相当する。そして、親側カラオケ装置２Ａが備える各部を「親側」の語を付して示し、子側カラオケ装置２Ｂが備える各部を「子側」の語を付して示すこととする。

親側リモコン装置２６Ａ及び子側リモコン装置２６Ｂへの操作によって通信デュエットが選択されると、親側映像用通信端末２７Ａと子側映像用通信端末２７Ｂとが映像用通信回線４Ｂを介して通信可能に接続され、親側音声用通信端末２８Ａと子側音声用通信端末２８Ｂとが音声用通信回線４Ｃを介して通信可能に接続される。これにより、親側ビデオカメラ２５Ａで撮影された映像が子側モニタ２３Ｂで視認可能となり、親側マイク２４Ａで集音された音声が子側スピーカ２２Ｂから放音されるようになる。同様に、子側ビデオカメラ２５Ｂで撮影された映像が親側モニタ２３Ａで視認可能となり、子側マイク２４Ｂで集音された音声が親側スピーカ２２Ａから放音されるようになる。なお、親側カラオケ本体２１Ａと子側カラオケ本体２１Ｂとは汎用通信回線４Ａを介して常時通信可能に接続されているので、必要な情報は、汎用通信回線４Ａを介して送受信することができる。

また、通信デュエットが選択されると、親側カラオケ本体２１Ａの本体側制御部３１と子側カラオケ本体２１Ｂの本体側制御部３１のそれぞれに、通信デュエットの対象となるカラオケ楽曲の楽曲ＩＤが記憶され、演奏可能な状態で待機される。その後、各ビデオカメラ２５Ａ，２５Ｂの角度や各マイク２４Ａ，２４Ｂの入力感度等が調整され、通信デュエットが行える状態になったならば、親側リモコン装置２６Ａにより、通信デュエットの開始が指示される。これにより、親側リモコン装置２６Ａから開始信号が送信され、親側カラオケ本体２１Ａと子側カラオケ本体２１Ｂに受信される。開始信号の受信を契機に、通信デュエットが開始され、親側カラオケ本体２１Ａと子側カラオケ本体２１Ｂのそれぞれでカラオケ伴奏が開始される。各利用者は、カラオケ伴奏にあわせて歌唱を行うことで、デュエットを行うことができる。

図７は、通信デュエットの様子を説明する図である。同図に示すように、親側カラオケルームＲＭ（親）では、親側モニタ２３Ａに子側歌唱映像ＸＢと親側歌唱映像ＸＡが表示されている。同様に、子側カラオケルームＲＭ（子）では、子側モニタ２３Ｂに親側歌唱映像ＸＡと子側歌唱映像ＸＢが表示されている。また、親側カラオケルームＲＭ及び子側カラオケルームＲＭでは、親側歌唱音声と子側歌唱音声とが合成された合成音声が親側スピーカ２２Ａ及び子側スピーカ２２Ｂから放音される。このように、通信回線４で接続された一対のカラオケ装置２Ａ，２Ｂで歌唱映像と歌唱音声が共有されることで、通信デュエットが実現される。

図８に示すように、このカラオケシステムでは、開始信号の受信を契機にして、親側カラオケ本体２１Ａの本体側記憶部３３Ａ（映像記録手段）に、歌唱映像データが記録される。すなわち、図中矢印で示すように、親側ビデオカメラ２５Ａで取得された親側歌唱映像ＸＡ（第１歌唱映像）のデータと、子側ビデオカメラ２５Ｂ（第２ビデオカメラ２５）で取得されて映像用通信回線４Ｂを通じて受信された子側歌唱映像ＸＢ（第２歌唱映像）のデータが、本体側記憶部３３Ａの歌唱映像データ記憶領域に記録される。

同様に、この本体側記憶部３３Ａ（音声記録手段）には、歌唱音声データも記録される。すなわち、親側マイク２４Ａで集音され、音響処理部３４で変換された親側歌唱音声（第１歌唱音声）のデータと、子側マイク２４Ｂで集音された後に音響処理部３４で変換され、音声用通信回線４Ｃを通じて送信された子側歌唱音声（第２歌唱音声）のデータと、親側歌唱音声データと子側歌唱音声データの合成で得られた合成歌唱音声のデータとが記録される。

通信デュエットが終了すると、親側カラオケ本体２１Ａの本体側制御部３１（歌唱映像合成手段）は、記録された親側歌唱映像データと子側歌唱映像データとを合成し、合成唱映像データを生成する。そして、生成された合成唱映像データは、歌唱音声データ（親側歌唱音声データ，子側歌唱音声データ，合成歌唱音声データ）とともに、ホスト装置１へアップロードされる。

ここで、歌唱音声データは比較的小容量であることから回線負荷が小さく、親側カラオケ装置２Ａと子側カラオケ装置２Ｂとの間で相互にデータを送受信しても遅れを殆ど感じずにデュエット歌唱が行える。このため、親側カラオケ本体２１Ａでは、時間差を調整せずに親側歌唱音声データと子側歌唱音声データを合成することができる。これに対し、歌唱映像データは、歌唱音声データよりも十分に大きな容量であることから回線負荷が大きく、親側カラオケ装置２Ａと子側カラオケ装置２Ｂとの間で相互にデータを送受信すると、図８に符号ｄｔで示す遅れが生じてしまう。

図９は、本体側記憶部３３Ａに記録された親側歌唱映像データＶＤ−Ａと子側歌唱映像データＶＤ−Ｂを模式的に説明する図である。この図に示すように、親側歌唱映像データＶＤ−Ａは、時系列で取得された複数のフレームＦＲ−Ａ（コマのデータ）で構成されている。同様に、子側歌唱映像データＶＤ−Ｂも、時系列で取得された複数のフレームＦＲ−Ｂで構成されている。これらの歌唱映像データＶＤ−Ａ，Ｂは、親側リモコン装置２６Ａからの開始信号の受信を契機に、本体側記憶部３３Ａへの記録が行われる。このため、親側歌唱映像データＶＤ−Ａは、開始信号の受信タイミングである時刻ｔ０から記録が開始される。一方、子側歌唱映像データＶＤ−Ｂは、時間ｄｔだけ遅れて親側カラオケ本体２１Ａに受信されることから、この子側歌唱映像データＶＤ−Ｂにおける子側カラオケ本体２１Ｂでの開始信号の受信タイミングは、時刻ｔ０から時間ｄｔだけ後の時刻ｔ１になる。

通信デュエットの実行中は、歌唱音声に遅れが殆ど生じないことから、歌唱映像ＸＡ，ＸＢに多少の遅れが生じても支障はないと考えられる。しかし、歌唱動画を作成するに際しては、歌唱映像ＸＡ，ＸＢについても遅れがないことが望ましい。

このような事情に鑑み、本実施形態のカラオケシステムでは、合成唱映像データの生成に際し、親側歌唱映像ＸＡと子側歌唱映像ＸＢの時間差を補正している。

図６を参照して概略を説明すると、まず、子側カラオケ本体２１Ｂ（本体側制御部３１，映像入力部３６）は、参照用フレーム取得手段として機能し、開始信号の受信タイミングから規定時間の経過後に、子側ビデオカメラ２５Ｂからのフレームを参照用フレームとして取得する。そして、子側カラオケ本体２１Ｂ（本体側制御部３１，本体側通信部３２）は、取得した参照用フレームを、汎用通信回線４Ａを通じて親側カラオケ本体２１Ａへ送信する。次に、親側カラオケ本体２１Ａ（本体側制御部３１）は、映像特定手段として機能し、受信した参照用フレームを本体側記憶部３３Ａに記録された子側歌唱映像データＶＤ−Ｂと照合し、開始タイミングから規定時間の経過後に撮影された映像フレームを特定する。さらに、親側カラオケ本体２１Ａ（本体側制御部３１）は、歌唱映像合成手段として機能し、特定されたフレームに基づいて、本体側記憶部３３Ａに記録された親側歌唱映像データＶＤ−Ａと子側歌唱映像データＶＤ−Ｂの時間差を補正し、これらの歌唱映像データＶＤ−Ａ，Ｂを合成する。

以下、図１０のフローチャートを参照し、通信デュエットにおける一連の処理について説明する。

通信デュエットを行うに際し、親側カラオケ装置２Ａの利用者及び子側カラオケ装置２Ｂの利用者は、それぞれ親側リモコン装置２６Ａ及び子側リモコン装置２６Ｂを操作し、各カラオケ装置２Ａ，２Ｂを通信デュエットのモードに設定する（Ｓ１）。この設定により、親側映像用通信端末２７Ａと子側映像用通信端末２７Ｂとの間で歌唱映像データが相互に送受信されるとともに、親側音声用通信端末２８Ａと子側音声用通信端末２８Ｂとの間で歌唱音声データが相互に送受信される。そして、図１０に一点鎖線の枠で示すように、歌唱映像データ及び歌唱音声データの送受信は、カラオケ演奏が終了するまでの期間に亘って行われる。

各カラオケ装置２Ａ，２Ｂで準備が整ったならば、親側カラオケ装置２Ａの利用者は、親側リモコン装置２６Ａを操作して通信デュエットの開始を指示する。これにより、親側リモコン装置２６Ａからは開始信号が送信され（Ｓ２）、親側カラオケ本体２１Ａと子側カラオケ本体２１Ｂのそれぞれに受信される。開始信号の受信に伴い、親側カラオケ装置２Ａでは、対象となるカラオケ楽曲の演奏を開始するとともに、親側歌唱映像データＶＤ−Ａ、子側歌唱映像データＶＤ−Ｂ、親側歌唱音声データ、子側歌唱音声データ、及び、合成歌唱音声データの本体側記憶部３３Ａへの記録を開始する（Ｓ３）。また、子側カラオケ装置２Ｂでは、対象となるカラオケ楽曲の演奏を開始する（Ｓ４）。

演奏開始から規定時間（本実施形態では３０秒）経過すると、親側カラオケ本体２１Ａの本体側制御部３１は、紹介画像取得手段として機能し、親側ビデオカメラ２５ＡからのフレームＦＲ−Ａを、親側サムネイル画像ＳＭ−Ａ（第１紹介画像）として複数枚取得する（Ｓ５）。図１１の例では４枚のフレームが親側サムネイル画像ＳＭ−Ａとして取得されている。そして、取得された親側サムネイル画像ＳＭ−Ａは、本体側制御部３１のメモリ３１ｂに一時記憶される。

図１０に示すように、子側カラオケ本体２１Ｂの本体側制御部３１は、参照用フレーム取得手段として機能し、子側ビデオカメラ２５ＢからのフレームＦＲ−Ｂを子側サムネイル画像ＳＭ−Ｂ（参照用フレーム）として、複数枚（本実施形態では４枚）取得する（Ｓ６）。取得された子側サムネイル画像ＳＭ−Ｂは、本体側制御部３１のメモリ３１ｂに一時記憶される。

子側サムネイル画像ＳＭ−Ｂを取得すると、子側カラオケ本体２１Ｂの本体側制御部３１及び本体側通信部３２は、参照用フレーム送信手段として機能し、参照用フレームとして取得した子側サムネイル画像ＳＭ−Ｂを、汎用通信回線４Ａを通じて親側カラオケ装置２Ａへ送信する（Ｓ７）。そして、親側カラオケ本体２１Ａの本体側制御部３１及び本体側通信部３２は子側サムネイル画像ＳＭ−Ｂを受信し（Ｓ８）、メモリ３１ｂに一時記憶させる。

対象となるカラオケ楽曲の演奏が終了したならば（Ｓ９），（Ｓ１０）、親側カラオケ装置２Ａ及び子側カラオケ装置２Ｂは、歌唱音声データの送受信を終了する。あわせて、親側カラオケ装置２Ａは、歌唱音声データの本体側記憶部３３Ａへの記録を停止する（Ｓ９）。

また、親側カラオケ装置２Ａは、カラオケ楽曲の演奏終了後、子側カラオケ装置２Ｂから送られてくる歌唱映像データの時間差を考慮し、この時間差以上となる所定時間経過後に、歌唱映像データの送受信を終了する。あわせて、歌唱映像データの本体側記憶部３３Ａへの記録を停止する（Ｓ１１）。

次に、親側カラオケ本体２１Ａの本体側制御部３１は、映像特定手段として機能し、受信した子側サムネイル画像ＳＭ−Ｂ（参照用フレーム）を本体側記憶部３３Ａ（映像記録手段）に記録された子側歌唱映像データＶＤ−Ｂ（第２歌唱映像のデータ）と照合し、子側歌唱映像データＶＤ−Ｂに含まれる複数のフレームＦＲ−Ｂの中から、開始タイミングから規定時間の経過後に撮影されたフレームＦＲ−Ｂを特定する（Ｓ１２）。

図１１の例で説明すると、本体側制御部３１は、まず、子側歌唱映像データＶＤ−Ｂを構成する複数のフレームの中から、親側サムネイル画像ＳＭ−Ａと同じタイミングで記録された４枚のフレームを選択する。そして、選択したフレームと子側サムネイル画像ＳＭ−Ｂとを比較し、両者の相関度を判定する。次に、本体側制御部３１は、フレーム１枚分だけ後側にずらした４枚のフレームを選択する。すなわち、先に選択したフレーム群のうち、一番古いフレームを外すとともに直近の新しいフレームを追加する。新たなフレーム群を選択したならば、子側サムネイル画像ＳＭ−Ｂと比較し、両者の相関度を判定する。

このように、フレーム群を順次ずらしながら相関度を判定してゆくと、相関度は、子側サムネイル画像ＳＭ−Ｂと同じフレーム群が選択された際に最大となる。そして、相関度が最大のフレーム群は子側サムネイル画像ＳＭ−Ｂと同じタイミングで撮影されたものと解されることから、本体側制御部３１（映像特定手段）は、相関度が最大のフレーム群を開始タイミングから規定時間の経過後に撮影されたフレームＦＲ−Ｂとして特定する。

フレームＦＲ−Ｂを特定したならば、図１０に示すように、親側カラオケ本体２１Ａの本体側制御部３１は、歌唱映像合成手段として機能し、先の処理で特定されたフレーム群に基づいて、本体側記憶部３３（映像記録手段）に記録された親側歌唱映像データＶＤ−Ａ（第１歌唱映像データ）と子側歌唱映像データＶＤ−Ｂ（第２歌唱映像データ）の時間差を補正する（Ｓ１３）。

図１２の例で説明すると、本体側制御部３１は、親側サムネイル画像ＳＭ−Ａとして取得された親側歌唱映像データＶＤ−Ａのフレーム群（斜線フレーム）と、先の処理で特定された子側歌唱映像データＶＤ−Ｂのフレーム群（斜線フレーム）とが同じタイミングで取得されたものとして、親側歌唱映像データＶＤ−Ａと子側歌唱映像データＶＤ−Ｂの時間差を補正する。

時間差を補正したならば、図１０に示すように、親側カラオケ本体２１Ａの本体側制御部３１は、親側歌唱映像データＶＤ−Ａと子側歌唱映像データＶＤ−Ｂとを合成する（Ｓ１４）。これにより、図１３に示すように、親側歌唱映像データＶＤ−Ａと子側歌唱映像データＶＤ−Ｂとが同期された合成歌唱映像データが生成される。

歌唱映像データを合成したならば、図１０に示すように、親側カラオケ本体２１Ａの本体側制御部３１は、アップロード手段として機能し、生成された合成歌唱映像データと、歌唱音声データ（親側歌唱音声データ，子側歌唱音声データ，合成歌唱音声データ）と、サムネイル画像（親側サムネイル画像ＳＭ−Ａ，子側サムネイル画像ＳＭ−Ｂ）とを、汎用通信回線４Ａを通じてホスト装置１へアップロードする（Ｓ１５）。

このように、本実施形態では、通信デュエットが行われると、親側カラオケ装置２Ａで歌唱映像データを合成してホスト装置１へアップロードしているので、回線負荷の上昇を抑えることができる。また、開始信号の受信から規定時間が経過したタイミングで取得された子側サムネイル画像ＳＭ−Ｂを親側カラオケ装置２Ａへ転送し、子側歌唱映像データＶＤ−Ｂの照合に用いているので、時刻情報を用いなくても各歌唱映像データの時間差を補正することができる。

また、通信回線４に関し、本実施形態では、歌唱映像データを送受信するための映像用通信回線４Ｂと歌唱音声データ音声用通信回線４Ｃとに分けられているので、大容量の歌唱映像データと小容量の歌唱音声データとを分けて処理をすることができる。これにより、歌唱音声データについては時間差を補正せずに合成し、歌唱映像データについてのみ時間差の補正処理を行えば済む。その結果、処理の効率化を図ることができる。

また、参照用フレームに関し、本実施形態では複数（４枚）のフレームを取得し、これらのフレームを用いて照合を行っているので、照合の精度を高めることができる。

また、本実施形態では、紹介画像としてのサムネイル画像ＳＭ−Ａ，ＳＭ−Ｂを親側歌唱映像データＶＤ−Ａと子側歌唱映像データＶＤ−Ｂのそれぞれから取得し、子側サムネイル画像ＳＭ−Ｂによって照合を行っている。このように、合成歌唱映像を紹介するためのサムネイル画像が照合にも用いられているので、参照用フレームとサムネイル画像とを個別に取得する構成に比べ、処理効率を向上させることができる。

以上の実施形態の説明は、本発明の理解を容易にするためのものであり、本発明を限定するものではない。本発明はその趣旨を逸脱することなく、変更、改良され得ると共に本発明にはその等価物が含まれる。例えば、次のように構成してもよい。

通信回線４に関し、本実施形態では、映像用通信回線４Ｂ、音声用通信回線４Ｃ、及び、汎用通信回線４Ａの３種類に分かれているものを例示したが、この構成に限られない。例えば、歌唱映像データと歌唱音声データとを汎用通信回線４Ａとは異なる専用回線で送受信するようにしてもよいし、全てのデータを汎用通信回線４Ａで送受信するようにしてもよい。

参照用フレーム（サムネイル画像）として取得されるフレームの数に関し、本実施形態では４枚のフレームを取得することとしたが、この構成に限られない。例えば、１〜３枚のフレームを取得してもよいし５枚以上のフレームを取得してもよい。

規定時間に関し、本実施形態では３０秒に定め、サムネイル画像を参照用フレームとして用いることとしたが、この構成に限られない。例えば、開始信号の受信直後に参照用フレームを取得し、サムネイル画像については別途取得してもよい。

開始信号に関し、本実施形態では、親側カラオケ装置２Ａが備える親側リモコン装置２６Ａから送信するものを例示したが、この構成に限られない。例えば、子側リモコン装置２６Ｂから送信するようにしてもよいし、ホスト装置１から送信するようにしてもよい。

歌唱映像の合成やアップロードに関し、本実施形態では、親側カラオケ装置２Ａが備える本体側制御部３１で行うものを例示したが、子側カラオケ装置２Ｂが備える本体側制御部３１で行ってもよい。

１…ホスト装置，２…カラオケ装置，２Ａ…親側カラオケ装置，２Ｂ…子側カラオケ装置，３…ユーザー端末，３Ａ…パーソナルコンピュータ，３Ｂ…タブレットコンピュータ，３Ｃ…携帯電話機，４…通信回線，４Ａ…汎用通信回線，４Ｂ…映像用通信回線，４Ｃ…音声用通信回線，１１…ホスト側制御部，１１ａ…ＣＰＵ，１１ｂ…メモリ，１２…ホスト側通信部，１３…ホスト側記憶部，２１…カラオケ本体，２１Ａ…親側カラオケ本体，２１Ｂ…子側カラオケ本体，２２…スピーカ，２２Ａ…親側スピーカ，２２Ｂ…子側スピーカ，２３…モニタ，２３Ａ…親側モニタ，２３Ｂ…子側モニタ，２４…マイク，２４Ａ…親側マイク，２４Ｂ…子側マイク，２５…ビデオカメラ，２５Ａ…親側ビデオカメラ，２５Ｂ…子側ビデオカメラ，２６…リモコン装置，２６Ａ…親側リモコン装置，２６Ｂ…子側リモコン装置，２７…映像用通信端末，２７Ａ…親側映像用通信端末，２７Ｂ…子側映像用通信端末，２８…音声用通信端末，２８Ａ…親側音声用通信端末，２８Ｂ…子側音声用通信端末，３１…本体側制御部，３１ａ…ＣＰＵ，３１ｂ…メモリ，３２…本体側通信部，３３…本体側記憶部，３４…音響処理部，３５…表示処理部，３６…映像入力部，３７…操作部，４１…端末側制御部，４１ａ…ＣＰＵ，４１ｂ…メモリ，４２…端末側通信部，４３…端末側記憶部，４４…表示部，４５…入力部，ＫＢ…カラオケ店，ＲＭ…カラオケルーム，ＸＡ…親側歌唱映像，ＸＢ…子側歌唱映像，ＶＤ−Ａ…親側歌唱映像データ，ＶＤ−Ｂ…子側歌唱映像データ，ＦＲ−Ａ…親側歌唱映像データのフレーム，ＦＲ−Ｂ…子側歌唱映像データのフレーム，ＳＭ−Ａ…親側サムネイル画像，ＳＭ−Ｂ…子側サムネイル画像

Claims

第１ビデオカメラを備える第１カラオケ装置と、第２ビデオカメラを備える第２カラオケ装置とを通信回線で接続し、前記第１カラオケ装置と前記第２カラオケ装置との間で開始信号の受信を契機に行われる通信デュエットについて、歌唱動画を生成する歌唱動画生成システムであって、
前記第１カラオケ装置に備えられ、前記第１ビデオカメラで取得された第１歌唱映像、及び、前記第２ビデオカメラで取得されて前記通信回線を通じて受信された第２歌唱映像を、前記開始信号の受信を契機に記録する映像記録手段と、
前記第２カラオケ装置に備えられ、前記開始信号の受信タイミングから規定時間の経過後に前記第２ビデオカメラからの映像フレームを参照用フレームとして取得する参照用フレーム取得手段と、
前記第２カラオケ装置に備えられ、前記参照用フレームを、前記通信回線を通じて前記第１カラオケ装置へ送信する参照用フレーム送信手段と、
前記第１カラオケ装置に備えられ、受信した前記参照用フレームを前記映像記録手段に記録された前記第２歌唱映像と照合し、前記第２歌唱映像に含まれる前記開始信号の受信タイミングから前記規定時間の経過後に撮影された映像フレームを特定する映像特定手段と、
前記第１カラオケ装置に備えられ、前記映像特定手段によって特定された特定フレームに基づいて、前記映像記録手段に記憶された前記第１歌唱映像と前記第２歌唱映像の時間差を補正し、前記第１歌唱映像と前記第２歌唱映像とを合成する歌唱映像合成手段と
を有することを特徴とする歌唱動画生成システム。
前記通信回線は、前記第１歌唱映像及び前記第２歌唱映像を送受信するための映像用通信回線と、歌唱音声を送受信するための音声用通信回線とを含むことを特徴とする請求項１に記載の歌唱動画生成システム。
前記参照用フレーム取得手段は、前記参照用フレームとして複数のフレームを取得することを特徴とする請求項１又は２に記載の歌唱動画生成システム。
前記第１カラオケ装置に備えられ、前記開始信号の受信タイミングから前記規定時間の経過後に、前記第１ビデオカメラからの映像フレームを、前記歌唱映像合成手段で合成された合成歌唱映像を紹介するための第１紹介画像として取得し、かつ、前記参照用フレームを、前記合成歌唱映像を紹介するための第２紹介画像として取得する紹介画像取得手段を有することを特徴とする請求項１から３の何れか１項に記載の歌唱動画生成システム。