JP2017005371A

JP2017005371A - 共演映像演出装置および共演映像演出システム

Info

Publication number: JP2017005371A
Application number: JP2015115022A
Authority: JP
Inventors: 敦木田; Atsushi Kida
Original assignee: Roland Corp
Current assignee: Roland Corp
Priority date: 2015-06-05
Filing date: 2015-06-05
Publication date: 2017-01-05

Abstract

【課題】楽曲の再生に合わせてその演奏映像を表示させる場合において、その興趣を新規な手法によって向上させ得る共演映像演出装置および共演映像演出システムを提供すること。【解決手段】本発明によれば、カメラにより撮影される演奏映像と、予め準備されている背景映像とが、いずれも距離情報を持っており、演奏映像内の合成対象を背景映像に合成する際に、合成対象の距離情報を背景映像の距離情報に変換した上で、合成対象を背景映像に配置するので、合成対象が背景映像に含まれる各要素との前後関係において違和感なく合成される。また、合成の際には、合成対象の大きさが、演奏映像の距離情報と背景映像の距離情報とに応じたサイズにリサイズされるので、合成対象を、その配置と背景映像の画面高さとに対して違和感のない高さで合成でき、さらにその映像を新たな背景映像として再利用する事も出来る。【選択図】図２

Description

本発明は、共演映像演出装置および共演映像演出システムに関し、特に、時間的、または空間的に異なる状況において撮影された個々の演奏映像を、あたかも同一のステージ上などで同時に共演（合奏）しているような、リアリティのある共演映像を演出、作成できる共演映像演出装置および共演映像システムに関する。

近年、ユーザが特定の楽曲を歌唱したり楽器演奏を行った演奏映像をインターネット上の映像投稿サイトにアップロードして閲覧可能としたり、カラオケ施設において自己の演奏映像を撮影してサーバ等にそのデータを保存し、後日その映像を再生して楽しむ事が行われている。さらに、その演奏映像に合わせてさらに演奏を重ねたり、これらの映像を複数用いて、あたかも同時に演奏しているかのような効果が得られるよう加工する事により、時間や空間を超えた仮想的な共演（合奏）を楽しむような試みも行われるようになってきた。

また、従来より、被写体の撮影画像と、当該撮影画像とは別の背景画像とを用いて、あたかも被写体が背景画像と同じ場所に存在するような画像を合成する技術がある。これは一般にはクロマキー合成やルミナンスキー合成などとして知られており、被写体の撮影画像の画像データから、所定の物理情報に基づいて、例えば人体部分とそれ以外とを切り分け、人体部分の画像を、ベースとなる背景画像上に貼り込むようにして合成するものである。近年では、３次元情報に基づいたよりリアルな合成も試みられている。

特許文献１では、撮影した画像から距離情報などに基づいて抽出した歌唱者の動きに応じ、モデルやキャラクタに動きを再現させて背景画像内に配置して表示するカラオケ装置が提案されている。

特開２０１５−６００６１号公報

しかしながら、特許文献１のカラオケ装置では、歌唱者の動きに合わせたモデルまたはキャラクタが背景画像内に合成表示されるだけであり、冒頭で述べたように演奏を重ねたりするものではない。特許文献１の図１３には、歌手を含む歌手背景画像を背景画像とし、当該背景画像（歌手背景画像）に歌唱者を合成する例が開示されているが、単に歌唱者が背景画像中の歌手画像と位置が重ならないよう固定的な位置関係に基づいて合成されるだけであり、例えば、歌手背景画像に含まれる歌手の歌唱音と、歌唱者の歌唱音とを重ねたり、合成を繰り返して多数の歌手や楽器演奏者による共演（合奏）画像を生成して楽しむ事などは考慮されていない。

本発明は、上述した事情を鑑みてなされたものであり、背景画像と演奏者の映像とを一定のリアリティを持たせて合成することで仮想的な共演（合奏）映像を提供し、共演時や鑑賞時の興趣を向上させ得る共演映像演出装置および共演映像演出システムを提供することを目的とする。

課題を解決するための手段および発明の効果

この目的を達成するために、請求項１記載の共演映像演出装置によれば、第１距離情報を持つとともに演奏音を含む演奏映像を構成する第１フレーム画像から、当該演奏映像における被写体である前記演奏音の演奏者に対応する合成対象が、抽出手段により抽出される。第１距離情報は、演奏映像を撮影する撮影部からの距離を示す情報である。抽出された合成対象を、第２距離情報を持つとともに少なくとも伴奏音を含む背景映像を構成する第２フレーム画像内に設けられた仮想ステージ上の所定位置に配置したときの、当該合成対象に対する第１距離情報が、変換手段により、背景映像が持つ第２距離情報に変換される。第２距離情報は、背景映像を撮影した撮影部からの距離を示す情報である。

よって、第２距離情報を持つ合成対象を背景映像に合成する場合、背景映像に含まれる各種要素のうち、第２距離情報が、合成対象に対する第２距離情報より撮影部に近いことを示す要素は、得られた合成映像において、合成対象より前方に配置される。一方、第２距離情報が、合成対象に対する第２距離情報より撮影部から遠いことを示す要素は、得られた合成映像において、合成対象より後方に配置されることになる。これにより、合成対象が、背景映像に含まれる各要素に対し自然な前後関係で配置された合成映像を得ることができる。

また、合成対象を仮想ステージ上の所定位置に配置したときに、合成対象の高さが背景映像に応じた高さとなるような合成倍率が、合成倍率算出手段により算出される。算出された合成倍率でリサイズされた、変換手段により変換された第２距離情報を持つ合成対象が、合成手段により、背景映像を構成する第２フレーム画像内の仮想ステージ上の所定位置に配置して合成される。よって、合成対象が背景映像に対して違和感のないサイズで合成された合成映像を得ることができる。

さらに、合成対象が配置される所定位置は、背景映像内の仮想ステージ上に予め設定されている演奏パート毎の初期位置のうち、合成対象に対応する演奏者に担当させる所定の演奏パートに対する初期位置と、演奏映像における合成対象の、基準位置からの移動量とに基づき、配置設定手段により設定される。よって、合成対象を、当該合成対象に対応する演奏者に担当させる演奏パートに対して予め設定されている初期位置に応じた位置に配置させることができるので、演奏パートとして自然な位置に合成対象を配置させることができる。上記の通り、合成対象は、背景映像に対し、前後関係およびサイズのいずれについても違和感なく合成されているので、当該合成対象が、演奏パートとして自然な位置に配置されたことにより、リアリティのあるライブ演奏の映像であるかのような仮想的な共演（合奏）映像の提供が可能となる。これにより、共演時や共演後の映像鑑賞時における興趣を向上できる。

請求項２記載の共演映像演出装置によれば、請求項１が奏する効果に加え、次の効果を奏する。演奏映像に含まれる演奏音と、背景映像に含まれる少なくとも伴奏音とを合成して合奏音を生成し、当該合奏音を含む合成映像が生成される。よって、仮想的な共演映像として、合奏音を含む合成映像を提供できるので、共演時や共演後の映像鑑賞時における興趣を好適に向上できる。

請求項３記載の共演映像演出装置によれば、請求項１または２が奏する効果に加え、次の効果を奏する。生成された合成映像は記憶部に記憶され、背景映像として利用できるので、撮影映像に含まれる演奏者が追加された背景画像を後に利用できる。よって、共演（合奏）映像における共演者の数を合成映像の生成毎に増やすことができる。

請求項４記載の共演映像演出装置によれば、請求項１から３のいずれかが奏する効果に加え、次の効果を奏する。記憶部に記憶された、背景映像に合成可能な、合成対象とは異なる他の演奏者を含む、当該他の演奏者を撮影した撮影部からの距離を示す第３距離情報を持つ共演者映像が、選択手段により選択された場合には、当該選択された共演者映像に含まれる他の演奏者を、仮想ステージ上における当該他の演奏者に担当させる演奏パートに対する初期位置に応じた第２の所定位置に配置したときの、当該他の演奏者に対する第３距離情報が、変換手段により、第２距離情報に変換される。また、選択された共演者映像に含まれる他の演奏者を第２の所定位置に配置したときに、当該他の演奏者の高さが背景映像に応じた高さとなるような合成倍率が、合成倍率算出手段により算出される。そして、算出された合成倍率でリサイズされた、第２距離情報を持つ共演者映像に含まれる他の演奏者が、合成手段により、背景映像内の仮想ステージ上における第２の所定位置に配置される。よって、記憶部に記憶される演奏者映像の中から、所望の演奏者を含む演奏者を選んで共演させることができる。

請求項５記載の共演映像演出装置によれば、請求項４が奏する効果に加え、次の効果を奏する。演奏映像から抽出された合成対象と、当該合成対象に対する第１距離情報とを含む映像が、記憶手段により、背景映像に合成可能な他の演奏者を含む第３距離情報を持つ共演者映像として、記憶部に記憶される。よって、演奏映像を撮影する毎に、当該演奏映像に含まれる合成対象を、その後に他の演奏者として利用できる。

請求項６記載の共演映像演出装置によれば、請求項１から５のいずれかが奏する効果に加え、次の効果を奏する。合成映像が合成対象とは異なる他の演奏者を含む場合、当該合成映像において、合成対象が他の演奏者に対して所定距離以下に近づく可能性があるかが、第１判断手段により判断される。その可能性があると判断された場合には、その旨を報せる表示が、警告表示手段により、警告表示として表示部に表示される。よって、合成対象に対応するユーザは、警告表示に基づき、合成映像上で他の演奏者と重なる可能性があることを知ることができる。

請求項７記載の共演映像演出装置によれば、請求項６が奏する効果に加え、次の効果を奏する。他の演奏者を含む映像を演奏映像に対して時間的にずらして取得することで、第１判断手段による判断を行うことができる。

請求項８記載の共演映像演出装置によれば、請求項６が奏する効果に加え、次の効果を奏する。他の演奏者を含む映像を記憶部から先読みして取得することで、第１判断手段による判断を行うことができる。

請求項９記載の共演映像演出装置によれば、請求項８が奏する効果に加え、次の効果を奏する。記憶部に記憶されている背景映像を用いて、第１判断手段による判断を行うことができる。

請求項１０記載の共演映像演出装置によれば、請求項８が奏する効果に加え、次の効果を奏する。記憶部に記憶されている、背景映像に合成可能な共演者映像を用いて、第１判断手段による判断を行うことができる。

請求項１１記載の共演映像演出装置によれば、請求項６から１０のいずれかが奏する効果に加え、次の効果を奏する。合成映像における、合成対象と、当該合成対象に対して所定距離以下に近づく可能性がある他の演奏者との位置関係を示す表示が、警告表示として表示されるので、ユーザに、自身に対応する合成対象の位置と、当該合成対象に重なる可能性のある他の演奏者の位置との位置関係を報せることができる。

請求項１２記載の共演映像演出装置によれば、請求項６から１１のいずれかが奏する効果に加え、次の効果を奏する。合成対象と当該合成対象に対して所定距離以下に近づく可能性のある他の演奏者との重なりを回避するための方向を案内する表示が、警告表示として表示されるので、合成対象に対応するユーザに、合成画像上で他の演奏者との重なりを回避するためにどのように動けばよいかを報せることができる。

請求項１３記載の共演映像演出装置によれば、請求項１から１２のいずれかが奏する効果に加え、次の効果を奏する。合成対象が仮想ステージの境界に対して所定距離以下に近づいたかが、第２判断手段により判断される。合成対象が仮想ステージの境界に対して所定距離以下に近づいたと判断された場合に、その旨を報せる表示が、警告表示手段により、警告表示として表示部に表示される。これにより、合成対象となるユーザは、仮想ステージの端部に近づいていることを知ることができる。

請求項１４記載の共演映像演出装置によれば、請求項６から１３のいずれかが奏する効果に加え、次の効果を奏する。撮影部により撮影中の演奏映像の撮影対象である演奏者の周囲に設置された複数の表示部のそれぞれに警告表示が表示されるので、演奏者として撮影中のユーザは、周囲に設置された複数の表示部のうち、自身がそのときに視線を向けている方向にある表示部の警告表示を見ることができる。そのため、ユーザは、警告表示を見るためにわざわざ特定の方向を向く必要がない。これにより、不自然な方向に視線を向ける不自然な映像が得られることを抑制できる。

請求項１５記載の共演映像演出装置によれば、請求項１４が奏する効果に加え、次の効果を奏する。警告表示は、撮影中の演奏者であるユーザの視線方向に合わせて異なる内容で表示されるので、ユーザは、複数の表示部のうち、どの表示部に表示された警告表示を見ても、その内容を把握し易い。

請求項１６記載の共演映像演出装置によれば、請求項１から１５のいずれかが奏する効果に加え、次の効果を奏する。合成映像において、所定の演奏パートを担当する合成対象と、所定の演奏パート以外の演奏パートを担当する他の演奏者とが含まれる場合、仮想ステージ上における被写体と演奏者との位置関係を示す表示が、位置表示手段により表示部に表示される。よって、被写体となるユーザは、各演奏者の位置関係を把握することができる。

請求項１７記載の共演映像演出装置によれば、請求項１６が奏する効果に加え、次の効果を奏する。仮想ステージ上における合成対象と他の演奏者との位置関係を示す表示に加え、仮想ステージの境界が表示部に表示されるので、合成対象となるユーザは、各演奏者の位置関係だけでなく、各演奏者が立つ仮想ステージの境界を把握することができる。

請求項１８記載の共演映像演出装置によれば、請求項１から１７のいずれかが奏する効果に加え、次の効果を奏する。合成映像において、合成対象を含む所定領域が、ズーム手段によりズームされた場合、合成映像における前記所定領域以外の領域に対し、当該合成映像に対する第２距離情報に基づくぼかし処理が、ぼかし手段によって施される。よって、望遠効果による臨場感を出すことができる。

請求項１９記載の共演映像演出装置によれば、請求項１から１８のいずれかが奏する効果に加え、次の効果を奏する。合成対象が合成された第２フレーム画像から構成される合成映像が表示部に表示される。その一方で、合成映像は、演奏映像に含まれる演奏音と、背景映像に含まれる少なくとも伴奏音とから合成された合奏音を含み、当該合奏音が発音される。よって、演奏者として参加したユーザは、自身が演奏する姿を表示部に表示された合成映像の中に見ることができるとともに、自身の演奏音を含む合奏音を聞くことができる。これにより、ユーザは、自身が演奏者として共演したことを実感させることができるので、当該ユーザに共演する楽しみを提供できる。

請求項２０記載の映像演出システムによれば、請求項１９の共演映像演出装置が奏する効果に加え、次の効果を奏する。撮影部により撮影中の演奏映像の撮影対象である演奏者の前方と、当該演奏者の左右方向とにそれぞれ設置される表示部を備えている。前方および左右方向に表示される各表示部には、合成映像が表示されるとともに、放音される合奏音に対応する補助表示が表示される。よって、ユーザは、他の演奏者の方を向いて演奏を行う場合において、左右方向の表示部にて、合成映像と補助表示を見ることができるので、ユーザが不自然な方向に視線を向ける不自然な映像が得られることを抑制できる。

本発明の共演映像演出装置を用いた共演システムの構成を示すブロック図である。演奏映像と背景映像とから合成映像が生成されるまでの一連の処理の流れを示す模式図である。（ａ）は、被写体を仮想ステージに配置させたときの距離情報の変化を説明するための模式図であり、（ｂ）は、被写体を合成する際に行うリサイズを説明するための模式図である。（ａ）は、ユーザの移動に応じた仮想ステージ上の被写体の移動を説明するための模式図であり、（ｂ）は、各演奏パートの初期位置の一例を示す模式図である。（ａ）は、３面モニタの配置を示す模式図であり、（ｂ）は、正面モニタの表示内容の一例を示す模式図であり、（ｃ）は、メンバー配置を示す画像の一例を示す模式図である。（ａ）および（ｂ）は、それぞれ、左モニタおよび右モニタの表示内容の一例を示す模式図である。各モニタに表示される警告表示の一例を示す模式図である。（ａ）〜（ｃ）は、それぞれ、メイン処理、初期設定処理、および合成映像生成処理を示すフローチャートである。対象抽出処理を示すフローチャートである。対象抽出処理を示すフローチャートである。合成処理を示すフローチャートである。トリミング・背景ぼかし処理を示すフローチャートである。トリミング・背景ぼかし処理を示すフローチャートである。合成映像処理の流れを示すブロック図である。

以下、本発明の好ましい実施形態について、添付図面を参照して説明する。図１は、本発明の共演映像演出装置を含む共演システム１の構成を示すブロック図である。共演システム１は、演奏処理装置１０と、正面モニタＤ１と、左モニタＤ２と、右モニタＤ３と、配信サーバＳｕとを含む。演奏処理装置１０は、ユーザが演奏を行う楽曲の再生を行うとともに、ユーザの演奏音または演奏情報とユーザの演奏映像を取り込み、本発明の共演映像演出装置として映像合成などを行った後にその結果を出力する。

詳細は後述するが、演奏処理装置１０は、再生される楽音に合わせて演奏を行うユーザをカメラＣＡで撮影し、その撮影映像（以下「演奏映像」と称す）から、ユーザ部分の画像を合成対象として抽出する。演奏処理装置１０は、演奏映像から抽出された合成対象を、予め準備されている背景映像に合成し、得られた映像（以下「合成映像」と称す）をモニタＤ１〜Ｄ３に表示する。

特に、本実施形態において、演奏映像および背景映像は、各映像を撮影したカメラからの距離情報のマップであるデプスマップを持っており、演奏処理装置１０は、かかるデプスマップを利用し、演奏映像から抽出した合成対象（すなわち、ユーザ部分の画像）を、背景映像の距離情報に合わせて合成する。これにより、合成対象が、背景映像に含まれる各要素との前後関係において違和感なく合成される。

なお、本明細書における「映像」は、画像（より詳細には、フレーム画像）と音とを含んで構成される動画を意味する。しかし、以下の説明において、「映像」の処理は、特に明示しない限り、当該映像を構成する画像の処理を意味する。なお、本実施形態の「映像」は、１の映像を構成する画像と音とが格納された１のファイルとして存在するものであってもよいし、１の映像を構成する画像と音とがそれぞれ別体（例えば、別ファイル）として存在するものであってもよい。なお、画像と音とがそれぞれ別体として存在する場合、再生の際には、画像と音とは同期して再生され、記録の際には、画像と音とが同期して記録される。

演奏処理装置１０は、ＣＰＵ１１と、ＲＯＭ１２と、ＲＡＭ１３と、通信部１４と、楽器接続部１５と、音源部１６と、楽音制御部１７と、アンプ１８と、ＡＤコンバータ１９と、ハードディスク２０と、映像制御部２１と、カメラ入力部２２と、赤外線入力部２３と、操作部２４と、表示部２５とを有する。

ＣＰＵ１１は、ＲＯＭ１２に記憶される固定値やプログラム、ＲＡＭ１３に記憶されているデータなどに従って、演奏処理装置１０の各部を制御する中央制御装置である。ＲＯＭ１２は、ＣＰＵ１１に実行させる各種プログラムなどを記憶するリード・オンリー・メモリである。後述する図８から図１３のフローチャートに示す各処理は、ＲＯＭ１２に記憶されるプログラムに従い、ＣＰＵ１１が実行する。ＲＡＭ１３はＣＰＵ１１の作業エリアなどに利用されるランダム・アクセス・メモリである。

通信部１４は、インターネットなどの通信回線上の配信サーバＳｕと通信するための装置である。演奏処理装置１０は、通信部１４を介して、配信サーバＳｕから、楽曲データや背景映像などの配信を受ける。なお、配信サーバＳｕから受信した楽曲データや背景映像などの各種データは、ハードディスク２０に設けられた各種データベースのうち、受信したデータに応じたデータベースに記憶される。

楽器接続部１５は、楽器Ｉから入力された演奏信号を、ＣＰＵ１１などに供給する。楽器接続部１５に接続される楽器Ｉは、例えば、エレキギターや、エレキベースや、電子ドラムや、キーボードなどの各種電子楽器である。音源部１６は、ハードディスク２０から読み出した楽曲データや、楽器接続部１５を介して入力された楽器Ｉの演奏信号に応じた楽音信号を出力する。楽音制御部１７は、音源部１６から出力された楽音信号をアンプ１８により増幅可能な信号に変換して出力する。

アンプ１８には、楽音制御部１７から入力された楽音信号と、マイクＭＣから入力されたアナログの音声信号とをミキシングするミキシング回路が設けられている。アンプ１８は、ミキシングにより得られたミキシング信号を増幅してスピーカＳＰに出力する。これにより、ミキシング信号に基づく楽音がスピーカＳＰから放音される。ＡＤコンバータ１９は、マイクＭＣから入力されたアナログの音声信号をディジタル信号に変換して、ＣＰＵ１１などに供給する。なお、楽器Ｉから演奏信号ではなく演奏楽音（オーディオ信号）が入力される場合はマイク入力の場合と同様の経路（図示せず）が用意される。

ハードディスク２０には、楽曲データベースや、背景映像データベースなどの各種データベースが設けられている。楽曲データベースには、演奏処理装置１０が再生可能な楽曲の楽曲データが記憶される。楽曲データベースには、多数（例えば、数万曲分）の楽曲データが記憶されている。楽曲データは、音源部１６により所定の楽器の演奏音を生成するためのＭＩＤＩデータなどの演奏情報と、歌詞を表示させるための歌詞情報などを含む。

背景映像データベースには、演奏処理装置１０が再生可能な楽曲の各々に対する背景映像のデータが記憶される。背景映像は、当該背景映像を撮影したカメラからの距離情報が格納されたデプスマップを持つ。なお、背景映像データベースに記憶される背景映像は、１の楽曲に対して１つとは限らず、１の楽曲に対して複数であってもよく、また複数の楽曲に同じ背景映像が対応していてもよい。

映像制御部２１は、正面モニタＤ１、左モニタＤ２、および右モニタＤ３の各々への出力映像を生成する装置である。映像制御部２１は、ＣＰＵ１１からの制御信号に基づき、演奏映像から抽出した合成対象（ユーザ部分の画像）を背景映像に合成したり、生成された合成映像などを含む画面を出力先のモニタＤ１〜Ｄ３に応じてレイアウトしたりする。

カメラ入力部２２は、カメラＣＡからの撮影信号を入力する。なお、カメラＣＡは、デプスマップを持つ映像を撮影できるカメラである。つまり、カメラＣＡは、映像を撮影する撮影カメラと、撮影された映像に対する３次元計測用のカメラ（例えば、赤外線カメラ）とを含んで構成される。

赤外線入力部２３は、赤外線を受光する受光部（図示せず）を有し、当該受光部を介して入力された赤外線信号に応じた操作信号をＣＰＵ１１に出力する。赤外線入力部２３に入力される赤外線信号は、例えば、演奏処理装置１０を遠隔操作するリモコン（図示せず）からの赤外線信号である。操作部２４は、演奏処理装置１０の筐体に設けられたボタンなどの操作子が操作されたことに応じて、操作信号をＣＰＵ１１に出力する。表示部２５は、演奏処理装置１０の筐体に設けられたＬＣＤやＬＥＤなどであり、ＣＰＵ１１からの制御信号に基づく表示を行う。

図２から図７を参照して、本発明の概要を説明する。上述した通り、演奏処理装置１０は、演奏映像から抽出された合成対象（ユーザ部分の画像）を背景映像に合成した合成映像を生成する。当該合成映像の生成は、映像を構成するフレーム画像の単位で行われる。図２は、演奏映像と背景映像とから合成映像が生成されるまでの一連の処理の流れを示す模式図である。なお、本実施形態では、簡単のため、演奏映像や背景映像を撮影するカメラは、撮影中にＰＴＺ（パン・チルト・ズーム）操作が行われないものとする。

再生される楽音に合わせて演奏するユーザ１００をカメラＣＡで撮影すると（図２（ａ））、図２（ｂ）に示すように、デプスマップ２０１を持つ演奏映像２００が生成される。図２（ａ）では、演奏として歌唱を行うユーザ１００を例示したが、ギターやドラムなどの各種楽器の演奏を行うユーザであってもよい。演奏映像２００は、カメラＣＡによる実空間（すなわち、実写）の撮影映像である。デプスマップ２０１は、演奏映像２００を構成するフレーム画像の単位で生成され、各フレーム画像の画素単位でカメラＣＡからの距離情報が格納される。

本実施形態において、距離情報は、１６ビット幅のデータであり、０から６５５３５（１０進法）までの整数値をとることができる。距離情報は、カメラＣＡに近いほど小さい値となり、カメラＣＡから遠くなるにつれて大きい値となる。仮に距離情報を各画素の明るさに置き換えて可視化すると、デプスマップ２０１は、距離情報が小さい値であるほど暗く、距離情報が大きくなるにつれて明るくなるグラデーション画像として表現される。よって、デプスマップ２０１の画像は、カメラＣＡに近いほど暗く、カメラＣＡから遠くなるほど明るくなる。なお、このような可視化は必須ではないが、ユーザの利便のために表示してもよい。

本実施形態では、距離情報の単位をミリメートル（ｍｍ）とし、０から６５５３５までの範囲に対し、０ｍｍから６５５３５ｍｍまでの実測範囲を割り当てる。つまり、本実施形態では、デプスマップ２０１において距離情報が示す値が、カメラＣＡから被写体までのｍｍ単位の距離を示す。カメラＣＡからの距離が６５５３５ｍｍを超える場合、距離情報を０とする。なお、距離情報の範囲に対する実測範囲の割り当ては、０ｍｍから６５５３５ｍｍに限らず、適宜の範囲を採用できる。また、距離情報の単位は、ｍｍに限らず、距離に関する適宜の単位を利用できる。

次に、図２（ｃ）に示すように、デプスマップ２０１に基づいて、演奏映像２００からユーザ１００に相当する合成対象２００ａが抽出される。具体的には、ユーザ１００が存在すると考えられる一定範囲の距離情報を持つ画素からなる範囲が抽出される。抽出された合成対象２００ａに対する距離情報は、抽出元の演奏映像２００のデプスマップ２０１から取得される。抽出元の演奏映像２００のデプスマップ２０１から、合成対象２００ａの部分の距離情報のみを抽出したデプスマップを生成してもよい。

合成対象２００ａの抽出は、フレーム画像毎に行われる。本実施形態では、演奏映像２００から抽出された、デプスマップ２０１を持つ合成対象２００ａのフレーム画像からなる映像を、共演者映像としてハードディスク２０に保存し、後に、ユーザ１００と共演する他の演奏者（すなわち、共演者）の映像として利用できる。なお、共演者映像の保存先は配信サーバＳｕであってもよい。

ハードディスク２０には、図２（ｄ）に示すような、デプスマップ３０１を持つ背景映像３００が記憶されている。背景映像３００は、デプスマップを持つ映像を撮影できる、カメラＣＡと同様の構成のカメラを用いて予め撮影された、ステージの撮影映像である。図２（ｄ）に示す例では、背景映像３００は、後方に舞台幕が垂らされるとともに照明が当てられた無人のステージの映像である。

背景映像３００は、後にカメラＣＡを用いて撮影されるユーザ１００が実施する演奏パート以外の演奏パートを担当する共演者を含むステージの映像であってもよい。なお、共演者を含むステージの背景映像３００は、楽曲毎に撮影される。本実施形態では、背景映像３００は、楽曲毎に準備されている。楽曲に応じて、１または複数の背景映像３００が準備されている。なお、ステージが無人であったり、演奏を行わない共演者を含むなど、異なる楽曲の背景映像にも利用できる場合は、同じ背景映像３００を、複数の楽曲が利用できる構成としてもよい。

デプスマップ３０１は、上述したデプスマップ２０１と同様に構成される。デプスマップ３０１には、背景映像３００を撮影したカメラからの距離情報が画素単位で格納される。以下、演奏映像２００を撮影するカメラＣＡからの距離情報と、背景映像３００を撮影するカメラからの距離情報とを区別できるよう、前者を「第１距離情報」と称し、後者を「第２距離情報」と称することがある。

ハードディスク２０から読み出された背景映像３００に、演奏映像２００から抽出された合成対象２００ａを合成した合成映像４００が生成される（図２（ｅ））。このとき、合成対象２００ａは、背景映像３００内の仮想ステージ上における、ユーザ１００が担当する演奏パートに応じて設定された初期位置を基準とする位置に配置される。合成対象２００ａの合成は、フレーム画像の単位で行われる。本実施形態では、上記のようにハードディスク２０に記憶させた共演者映像を利用し、当該共演者映像に含まれる共演者も背景映像３００に合成できる。

演奏映像２００から抽出された合成対象２００ａが、仮想ステージに配置されたことにより、合成対象２００ａに対応するユーザ１００を撮影するカメラからの距離も変化する。例えば、図３（ａ）に示すように、演奏映像２００の撮影時においてカメラＣＡから距離Ｗａだけ離れた位置で撮影されるユーザ１００を、仮想ステージ５００上に配置させた結果、仮想ステージ５００を撮影するカメラ（すなわち、背景映像３００を撮影するカメラ）から、当該仮想ステージ５００上のユーザ１００までの距離はＷｂに変化する。図３（ａ）に示す例では、距離Ｗｂは、距離Ｗａより長い場合を示したが、距離Ｗｂが、距離Ｗａより短くなる場合もあり得る。

よって、合成対象２００ａを背景映像３００に合成する際には、抽出された合成対象２００ａに対する距離情報（第１距離情報）を、合成対象２００ａを仮想ステージに配置させたときのカメラからの距離を示す距離情報（第２距離情報）に変換する。これにより、合成対象２００ａを、仮想ステージに含まれる舞台幕や共演者や機材などの各要素との前後関係を保ちつつ合成できる。つまり、カメラからの距離が合成対象２００ａより近い要素を、合成対象２００ａの前方に配置し、カメラからの距離が合成対象２００ａより遠い要素を、合成対象２００ａの後方に配置できる。

ここで、カメラからユーザ１００までの距離が第１距離情報と第２距離情報とで異なる場合、その相違に応じて合成対象２００ａの高さ（より詳細には、高さと幅を含めた大きさ）を変化させる必要がある。本実施形態では、合成の際には、演奏映像２００から抽出された合成対象２００ａの高さを、背景映像３００の画面高さに応じた高さにリサイズする。これにより、合成対象２００ａを、その配置と背景映像３００の画面高さとに対して違和感のない高さで合成できる。

具体的に、図３（ｂ）に示すように、映像として収まる範囲の高さｈは、その映像を撮影したカメラの画角（より詳細には、縦画角）ｆｏｖと、当該カメラから被写体までの距離ｄとから、以下の式（１）を用いて算出することができる。

ｈ＝２＊ｄ＊ｔａｎ（ｆｏｖ／２） …（１）

本実施形態では、レンズのディストーションはないものとして、抽出された合成対象２００ａに対する実空間での距離情報（すなわち、第１距離情報）と、カメラＣＡのレンズの画角とから、上記式（１）に基づき、演奏映像２００に映り込む合成対象２００ａの高さ（ｍｍ単位）を算出する。次に、演奏映像２００の高さ方向であるＹ方向の全ピクセル数と、合成対象２００ａのＹ方向のピクセル数との比率を用いて、演奏映像２００に映り込む合成対象２００ａの高さ（ｍｍ単位）から、合成対象２００ａに対応するユーザ１００の身長（ｍｍ単位）を算出する。なお、本実施形態においては、画面の左上端を原点として、右へ向かう方向へｘ座標、下へ向かう方向へｙ座標を取っている。

次に、仮想ステージ５００上における合成対象２００ａの配置位置までの距離情報（すなわち、第２距離情報）と、背景映像３００を撮影したカメラの画角とから、上記式（１）に基づき、仮想ステージ５００における上記配置位置において映り込む画面高さ（ｍｍ単位）を算出する。

次に、上記のように算出された背景映像３００の画面高さと、ユーザ１００の身長との比率から、仮想ステージ５００における上記配置位置に配置する合成対象２００ａのｙ方向のピクセル数を算出する。次に、演奏映像２００から抽出された合成対象２００ａのｙ方向のピクセル数が、仮想ステージ５００における上記配置位置に配置する合成対象２００ａのｙ方向のピクセル数となるような合成倍率を算出する。そして、演奏映像２００から抽出された合成対象２００ａを、算出された合成倍率で拡大または縮小させて背景映像３００に合成する。

演奏映像２００から抽出された合成対象２００ａを配置させる位置は、演奏映像２００における合成対象２００ａの基準位置を、当該合成対象２００ａに対応するユーザ１００が担当する演奏パートに応じた初期位置とする。演奏映像２００における合成対象２００ａの基準位置は、例えば、演奏映像２００における合成対象２００ａの最初の位置である。当該基準位置は、画素の座標と、当該画素に対する第１距離情報とで表される。一方、演奏パートに応じた初期位置は、画素の座標と、当該画素に対する第２距離情報とで表される。

本実施形態では、演奏パートに応じた初期位置は、各背景映像３００の演奏パート毎にハードディスク２０に準備されているものとする。あるいは、仮想ステージ５００上の平面座標や、高さ方向も含めた空間座標をハードディスク２０などに記憶させておき、演奏パートに応じた初期位置とする画素座標を、周知の透視変換式などを用いて求めてもよい。

実空間においてユーザ１００が移動した場合（すなわち、演奏映像２００における合成対象２００ａが移動した場合）、その移動が仮想ステージ５００における初期位置からどの方向にどの程度移動したかを算出し、仮想ステージ５００上にて合成対象２００ａを配置させる位置を移動させる。例えば、図４（ａ）に示すように、実空間においてユーザ１００が、基準位置Ｐａから前方（矢印Ａ方向）に移動した場合、仮想ステージ５００上の合成対象２００ａの位置は、仮想ステージ５００上のユーザ１００が初期位置Ｐｂから前方に実空間での移動量に応じた移動量で移動したときの位置とされる。

演奏パートに応じた初期位置Ｐｂは、ライブ演奏における一般的なパートの配置に応じて設定される。例えば、楽曲を演奏するメンバーが、ボーカルＶｏと、ギターＧｔと、ベースＢａと、ドラムＤｒとの４人構成である場合、各演奏パートの初期位置は、図４（ｂ）に示すように設定される。つまり、ボーカルＶｏの初期位置は、仮想ステージ５００の前方中央に設定され、ドラムＤｒの初期位置は、仮想ステージ５００の後方中央に設定される。ギターＧｔの初期位置は、仮想ステージ５００における向かって右側に設定される。ベースＢａの初期位置は、仮想ステージ５００における向かって左側に設定される。

なお、楽曲に応じてメンバー構成が異なることがあるので、利用可能なメンバー構成毎に、各演奏パートの初期位置が準備されている。なお、同じメンバー構成であっても、楽曲やアーティストに応じて、各演奏パートの初期位置が異なる場合がある。つまり、メンバー構成が、ボーカルＶｏ、ギターＧｔ、ベースＢａ、およびドラムＤｒであっても、各演奏パートの初期配置が図４（ｂ）に示す配置とはならない場合もある。

本実施形態の共演システム１では、正面モニタＤ１、左モニタＤ２、および右モニタＤ３からなる３面モニタ構成が採用される。図５（ａ）に示すように、正面モニタＤ１、左モニタＤ２、および右モニタＤ３は、ユーザ１００がカメラＣＡを向いた場合に、それぞれ、ユーザ１００の正面、左側、および右側となるよう設置される。

図５（ｂ）は、正面モニタＤ１の表示内容の一例を示す模式図である。正面モニタＤ１には、領域Ｊ１〜領域Ｊ４が設けられる。領域Ｊ１には、合成映像４００が表示される。領域Ｊ２には、再生中の楽曲に対応する補助表示が表示される。補助表示は、例えば、歌詞または譜面などである。領域Ｊ３には、ユーザ１００に対する警告が表示される。領域Ｊ４には、メンバー配置を示す画像６００が表示される。

図５（ｃ）は、画像６００の一例を示す模式図である。図５（ｃ）には、図５（ｂ）の領域Ｊ４に表示される画像６００を例示する。画像６００には、領域Ｊ１に表示される合成映像４００の現フレーム画像における、各演奏メンバーの位置が表示される。よって、ユーザ１００は、画像６００の内容から、各演奏メンバーの相対的な配置を把握できる。

図５（ｂ）の領域Ｊ１に表示される合成映像４００には、演奏メンバーとして、ボーカルＶｏと、ギターＧｔと、ベースＢａと、ドラムＤｒが含まれているので、図５（ｃ）の画像６００には、ボーカルＶｏ、ギターＧｔ、ベースＢａ、およびドラムＤｒの各位置が円として表示される。なお、画像６００において各演奏メンバーを示す図形は、円に限られるものではない。また、各演奏メンバーを示す図形に、演奏パートに応じた文字列、例えば、ボーカルを示す図形に「Ｖｏ」などの文字列を表示させてもよい。

本実施形態では、画像６００に表示する各演奏メンバーを示す図形の表示態様を、その演奏メンバーが、演奏映像２００から抽出された合成対象２００ａに対応するユーザ１００であるか、共演者であるかに応じて変化させる。図５（ｃ）に示す例では、ユーザ１００の演奏パートを示す図形を塗りつぶし、共演者の演奏パートを示す図形にハッチングをかけることで両者の表示態様の違いを表している。表示態様の違いとしては、図形を着色する色や、図形の形状を異ならせることが例示される。

本実施形態では、背景映像３００を、撮影中の演奏映像２００に対して数秒（例えば、１秒）程度先読みし、数秒後に位置が移動している共演者について、数秒後における移動先の位置を画像６００に表示する。また、ハードディスク２０に記憶された共演者映像を利用する場合もまた、同様の先読みを行い、数秒後における共演者の移動先の位置を画像６００に表示する。

例えば、図５（ｃ）に示すように、共演者であるギターＧｔが数秒後に現在位置から移動している場合に、その移動先の位置を破線の丸Ｍとして表示する。ギターＧｔ以外の演奏パートについても、数秒後に位置が移動するものがある場合には同様に移動先の位置に破線の丸を表示する。なお、移動先の位置の表示形態としては、破線の丸に限らず、色の変更、図形の変更、単なる点として表すなど、種々の形態を採用できる。

画像６００には、仮想ステージ５００の境界を示す枠が表示される。これにより、ユーザ１００は、仮想ステージ５００の境界を把握できる。合成映像４００にスピーカなどの機材が含まれる場合には、仮想ステージ５００上にスピーカなどの機材を示す図形が、当該機材の配置に応じた位置に表示される構成としてもよい。

図５（ｂ）に示すように、正面モニタＤ１の領域Ｊ４に表示される画像６００は、仮想ステージ５００の前方（矢印Ｆ方向）が正面モニタＤ１の上側に向けて配置される。これにより、ユーザ１００が正面モニタＤ１を向く状況では、ユーザ１００の右方が仮想ステージ５００の右方となり、ユーザ１００の左方が仮想ステージ５００の左方となる。よって、仮想ステージ５００の前方を正面モニタＤ１の上方に向けて配置させた画像６００を、正面モニタＤ１に表示させることにより、ユーザ１００は、自身の動き、および、共演者の動きを画像６００の内容から感覚的に把握できる。

図６（ａ）および（ｂ）は、それぞれ、左モニタＤ２および右モニタＤ３の表示内容の一例を示す模式図である。左モニタＤ２および右モニタＤ３には、正面モニタＤ１と同様の領域Ｊ１〜領域Ｊ４が設けられる。モニタＤ２，Ｄ３の領域Ｊ１および領域Ｊ２には、それぞれ、正面モニタＤ１に表示される合成映像４００および補助表示と同じものが表示される。

正面モニタＤ１の領域Ｊ３に警告表示が表示された場合、左モニタＤ２および右モニタＤ３の領域Ｊ３にも同じ警告表示が表示される。なお、モニタＤ２，Ｄ３の領域Ｊ３に表示される警告表示のサイズは、正面モニタＤ１の領域Ｊ３に表示される警告表示のサイズより縮小されていてもよい。

左モニタＤ２の領域Ｊ４には、正面モニタＤ１の領域Ｊ４に表示される画像６００と同じ画像が表示される。ただし、左モニタＤ２に表示される画像は、図６（ａ）に示すように、仮想ステージ５００の前方（矢印Ｆ方向）が左モニタＤ２の右側に向けて配置される。ユーザ１００が左モニタＤ２を向く状況では、ユーザ１００の右方が仮想ステージ５００の前方となり、ユーザ１００の左方が仮想ステージ５００の後方となる。よって、仮想ステージ５００の前方を左モニタＤ２の右側に向けて配置させた画像６００を、左モニタＤ２に表示させることにより、ユーザ１００は、自身の動き、および、共演者の動きを画像６００の内容から感覚的に把握できる。

一方、右モニタＤ３の領域Ｊ４にもまた、正面モニタＤ１の領域Ｊ４に表示される画像６００と同じ画像が表示される。ただし、右モニタＤ３に表示される画像は、図６（ｂ）に示すように、仮想ステージ５００の前方（矢印Ｆ方向）が左モニタＤ３の左側に向けて配置される。ユーザ１００が右モニタＤ３を向く状況では、ユーザ１００の左方が仮想ステージ５００の前方となり、ユーザ１００の右方が仮想ステージ５００の後方となる。よって、仮想ステージ５００の前方を右モニタＤ３の左側に向けて配置させた画像６００を、右モニタＤ３に表示させることにより、ユーザ１００は、自身の動き、および、共演者の動きを画像６００の内容から感覚的に把握できる。

このように、本実施形態の共演システム１では、ユーザ１００の左右に設置されるモニタＤ２，Ｄ３の領域Ｊ１〜Ｊ４には、正面モニタＤ１の領域Ｊ１〜Ｊ４と同内容の表示が行われる。よって、ユーザ１００が左または右方向を向いて演奏を行ったとしても、ユーザ１００は、向いた側に設定されているモニタＤ２，Ｄ３を見ることによって、合成映像４００、補助表示、警告表示、および画像６００を見ることができる。

ユーザ１００は、演奏を行う一方で、合成映像４００を生成するための合成対象２００ａとなる被写体としてカメラＣＡにより撮影される。そのため、ユーザ１００が左または右方向を向いて演奏を行いつつ、歌詞などの補助表示を見るために不自然な方向に視線を向けた場合には、その不自然な姿が合成映像４００として表示されることになる。

これに対し、本実施形態では、ユーザ１００が左または右方向を向いたとしても、ユーザ１００は、左右のモニタＤ２，Ｄ３で補助表示などを見ることができるので、左右方向を向いたユーザ１００が不自然な方向に視線を向ける不自然な映像が得られることを抑制できる。ライブ演奏などでは、メンバー同士で横を向いて顔を合わせながら演奏することもあるので、左右にモニタＤ２，Ｄ３を設けることにより、ライブ演奏らしいリアリティがある合成映像４００を生成できる。

図７を参照して、各モニタＤ１〜Ｄ３の領域Ｊ３に表示される警告表示を説明する。合成対象２００ａが合成映像４００の仮想空間において他の要素（例えば、共演者や機材など）に重なることがあると、一方が他方を突き抜けるなどの不自然な部分を含む映像が生成される。

これに対し、本実施形態では、背景映像３００を、撮影中の演奏映像２００に対して数秒程度先読みし、先読みされた数秒後の共演者が合成対象２００ａと重なるかの判断を行う。また、ハードディスク２０に記憶された共演者映像を利用する場合も同様の先読みを行い、数秒後における共演者が合成対象２００ａと重なるかを判断する。そして、重なると判断された場合に、各モニタＤ１〜Ｄ３の領域Ｊ３に警告表示を行う。なお、「重なる」とは、合成対象２００ａおよび共演者を構成する画素の中に、映像面における上下左右の位置と、カメラからの距離とが合成対象ユーザ１００の前面から背面までの厚さ（人間の一般的な厚さ）も含めて交差する画素が存在することである。

図７（ａ）は、数秒後の共演者と合成対象２００ａとが重なると判断された場合の警告表示の一例を示す模式図である。この例では、画像６００に示すように、合成対象２００ａ（すなわち、ユーザ１００）であるボーカルＶｏの左側に、数秒後のギターＧｔが重なる場合を示す。かかる場合、領域Ｊ３には、警告表示７００として、右向きの矢印７００ａと、「右へ」というテキスト７００ｂとが表示される。

これにより、ユーザ１００は、右へ移動することが好ましいと判断できるので、共演者と重ならないようにするための行動をユーザ１００に取らせることができる。一方、画像６００には、合成対象２００と共演者とが重なる位置にマーク６０１が表示される。マーク６０１の表示により、ユーザ１００は、どの演奏者がどの方向から重なるのかを把握できる。なお、図７（ａ）に示すマーク６０１もまた、上述した警告表示７００と同様の警告表示である。

また、合成対象２００ａが仮想ステージ５００の領域外に出た場合、ステージ外で演奏しているかのような不自然な映像が生成される。これに対し、本実施形態では、合成対象２００ａが仮想ステージ５００の境界に達した場合には、各モニタＤ１〜Ｄ３の領域Ｊ３に警告表示を行う。

図７（ｂ）は、合成対象２００ａが仮想ステージ５００の境界に達した場合の警告表示の一例を示す模式図である。この例では、画像６００に示すように、合成対象２００ａ（すなわち、ユーザ１００）であるボーカルＶｏが、仮想ステージ５００の前方の境界５００ａに達した場合を示す。かかる場合、領域Ｊ３には、警告表示７００として、下向きの矢印７００ａと、「後ろへ」というテキスト７００ｂとが表示される。

これにより、ユーザ１００は、後ろへ移動することが好ましいと判断できるので、仮想ステージ５００の領域外から出ないようにするための行動をユーザ１００に取らせることができる。一方、画像６００には、合成対象２００が達した境界の位置にマーク６０１が表示される。マーク６０１の表示により、ユーザ１００は、仮想ステージ５００の境界のうちどの境界に達したかを把握できる。なお、図７（ｂ）に示すマーク６０１もまた、上述した警告表示７００と同様の警告表示である。

なお、領域Ｊ３に警告表示７００として表示する矢印７００ａおよびテキスト７００ｂが示す方向を、ユーザ１００に対するモニタＤ１〜Ｄ３の向きに応じて変えてもよい。例えば、図７（ａ）のように、右方向を示す矢印７００ａおよびテキスト７００ｂが、正面モニタＤ１に表示する場合に、左モニタＤ２には、後ろ方向を示す矢印７００ａおよびテキスト７００ｂを表示し、右モニタＤ３には、前方向を示す矢印７００ａおよびテキスト７００ｂを表示するようにしてもよい。

これにより、領域Ｊ４に表示する画面６００の向きを、ユーザ１００に対するモニタＤ１〜Ｄ３の設置位置に応じて変えた場合（図５（ｂ）、図６（ａ）、および図６（ｂ）参照）と同様、各モニタＤ１〜Ｄ３を向いたユーザ１００の身体の向きに適した方向を、好ましい移動方向として示すことができる。よって、ユーザ１００は、共演者と重ならないようにするための移動方向を感覚的に判断できる。

次に、図８から図１３を参照して、上記のように構成された演奏処理装置１０が実行する処理について説明する。図８から図１３に示す各フローチャートは、ＣＰＵ１１が、ＲＯＭ１２に記憶されるプログラムに従い実行する処理である。図８（ａ）は、メイン処理を示すフローチャートである。本処理は、リモコンから、利用する楽曲の選択を指示する赤外線信号が赤外線入力部２３を介して、演奏処理装置１０に入力されたことに基づき開始される。ＣＰＵ１１は、まず、合成映像４００を生成するための初期設定処理を実行する（Ｓ１０）。初期設定処理（Ｓ１０）の詳細については、図８（ｂ）を参照して後述する。

ＣＰＵ１１は、初期設定処理（Ｓ１０）の終了後、カメラＣＡからの演奏映像２００の入力と、背景映像３００の再生と、リモコンで選択された楽曲の再生とを開始する（Ｓ２０）。なお、背景映像３００および楽曲は同期再生される。楽曲は、ユーザ１００が担当する演奏パートと、共演者が担当する演奏パートとを除く演奏パートの音声が再生される。Ｓ２０の処理が、本発明の楽音出力手段に相当する。

共演者映像を利用する場合、Ｓ２０において、ＣＰＵ１１は、共演者映像および当該共演者映像の演奏音も同期再生する。なお、演奏映像２００および共演者映像のデータにも、各々対応する演奏（すなわち、各演奏者による演奏）の楽音が含まれているので、これらの各映像に含まれる楽音も適宜の割合でミキシングされて再生される。なお、ミキシングは手動で混合比を設定しても、予め各演奏パートの混合比が定まっているなどで自動的に行われてもよい。また、各演奏パートの配置や距離に応じた公知技術のパンニングやリバーブなどの効果を適宜付してもよい。また、ＣＰＵ１１は、演奏映像２００の入力に伴い、入力された演奏映像２００を録画するともに、マイクＭＣまたは楽器接続部１５から入力された楽器Ｉの演奏音を録音する。

ＣＰＵ１１は、合成映像生成処理を実行する（Ｓ３０）。合成映像生成処理（Ｓ３０）は、演奏映像２００と背景映像３００とから合成映像４００を生成するとともに、モニタＤ１〜Ｄ３に対する表示レイアウトを行う処理であり、その詳細は、図８（ｃ）を参照して後述する。

次に、ＣＰＵ１１は、合成映像生成処理（Ｓ３０）の処理結果に基づき、モニタＤ１〜Ｄ３への表示処理を実行する（Ｓ４０）。Ｓ４０の処理が、本発明の警告表示手段、位置表示手段、合成映像表示手段、および補助表示手段に相当する。表示処理（Ｓ４０）の結果、合成映像生成処理（Ｓ３０）により生成された合成映像４００が各モニタＤ１〜Ｄ３の領域Ｊ１に表示される。補助表示（例えば、歌詞情報に基づく歌詞）が各モニタＤ１〜Ｄ３の領域Ｊ２に表示される。また、警告表示７００を表示する必要がある場合には、その警告表示７００が各モニタＤ１〜Ｄ３の領域Ｊ３に表示される。また、生成された合成映像４００でのメンバー配置を示す画像６００が各モニタＤ１〜Ｄ３の領域Ｊ４に表示される。

ＣＰＵ１１は、表示処理（Ｓ４０）の実行後、楽曲の再生が終了したかを判断する（Ｓ５０）。ＣＰＵ１１は、楽曲の再生が未だ終了していないと判断した場合（Ｓ５０：Ｎｏ）、処理をＳ３０に移行する。一方、ＣＰＵ１１は、楽曲の再生が終了したと判断した場合（Ｓ５０：Ｙｅｓ）、本処理を終了する。

図８（ｂ）は、上述した初期設定処理（Ｓ１０）を示すフローチャートである。ＣＰＵ１１は、選択された楽曲に応じた背景映像３００をハードディスク２０から読み込む（Ｓ１１）。選択された楽曲に対して準備される背景画像３００が１つである場合には、その１つの背景画像３００が読み込まれる。選択された楽曲に対してステージ種類が異なる複数の背景画像３００が準備されている場合には、ユーザ１００に選択されたステージ種類の背景画像３００が読み込まれる。ステージ種類としては、ステージのシチュエーションや、ステージを行うアーティストなどが例示される。

ＣＰＵ１１は、ユーザ１００の演奏パートを設定する（Ｓ１２）。Ｓ１１にて読み込んだ背景映像３００において、利用可能な演奏パートが１つである場合には、その演奏パートがユーザ１００の演奏パートとして設定される。一方、利用可能な演奏パートが複数ある場合には、それらの演奏パートの中から、ユーザ１００により選択された演奏パートが設定される。

ＣＰＵ１１は、ユーザ１００の演奏パート以外の演奏パートを担当させる共演者を選択する（Ｓ１３）。Ｓ１３の処理が、本発明の選択手段に相当する。Ｓ１３の処理は、Ｓ１１にて読み込んだ背景映像３００が、ユーザ１００以外に、共演者映像に含まれる共演者を合成できることを条件として実行される。つまり、上記条件が満たされない場合、ＣＰＵ１１は、Ｓ１３の処理をスキップする。なお、本実施形態では、背景映像３００に、その収録時に収録された演奏者が含まれる場合、その演奏者が担当する演奏パートには、ユーザ１００または他の演奏者のいずれも合成できないものとする。つまり、ＣＰＵ１１は、Ｓ１３において、共演者を合成できる演奏パート毎に共演者を選択する。

共演者を合成できる１の演奏パートに対し、複数の共演者映像がハードディスク２０に記憶されている場合、ＣＰＵ１１は、ユーザ１００に選択された共演者を当該演奏パートに対して選択する。ハードディスク２０に記憶される共演者映像としては、予め準備されているものと、先に収録された演奏映像２００から生成されたものとがある。先に収録された演奏映像２００から生成された共演者映像が記憶されていない場合、ＣＰＵ１１は、予め準備されている共演者映像の共演者を自動的に選択する。

なお、複数の共演者映像がある場合、ＣＰＵ１１は、それらの共演者映像に含まれる共演者のリストを正面モニタＤ１やリモコンの表示部などに表示させ、ユーザに当該リストから共演者を選択させる。リストには、選択可能な共演者映像毎に、各共演者映像に対して付加された情報（例えば、収録日や、映像データのファイル名など）を表示することにより、所望の共演者をユーザ１００に選択させ易くすることができる。背景映像３００に演奏者が含まれており、共演者映像を選択できない演奏パートが存在する場合、その旨を正面モニタＤ１やリモコンの表示部などに表示させてもよい。

ＣＰＵ１１は、Ｓ１３にて選択された共演者を含む共演者映像をハードディスク２０からから読み込む（Ｓ１４）。なお、ＣＰＵ１１は、Ｓ１３の処理をスキップした場合には、Ｓ１４の処理もスキップする。ＣＰＵ１１は、ユーザ１００と、Ｓ１３にて選択された共演者とについて、それぞれの演奏パートに応じた仮想ステージ上での初期位置を割り当て（Ｓ１５）、本処理を終了して、メイン処理に戻る。

図８（ｃ）は、上述した合成映像生成処理（Ｓ３０）を示すフローチャートである。本処理は、フレーム画像の単位で行われる処理である。ＣＰＵ１１は、対象抽出処理（Ｓ３１）を実行する。Ｓ３１の処理は、演奏映像２００からフレーム画像単位で合成対象２００ａを抽出する処理であり、その詳細は図９および図１０を参照して後述する。Ｓ３１の処理が、本発明の抽出手段に相当する。

ＣＰＵ１１は、合成処理を実行する（Ｓ３２）。Ｓ３２の処理は、フレーム画像の単位で、Ｓ３１にて抽出された合成対象２００ａを背景映像３００のフレーム画像（以下「背景画像」と称す）に合成し、合成画像（合成映像４００のフレーム画像）を生成する処理である。また、Ｓ３２では、合成対象２００ａが共演者と重なるか否かなど、警告の必要がある状況が生じたかの判定や、生成された合成画像におけるメンバー配置を示す画像６００の生成も行う。合成処理（Ｓ３２）の詳細は、図１１を参照して後述する。

ＣＰＵ１１は、トリミング・背景ぼかし処理を実行する（Ｓ３３）。Ｓ３３の処理は、Ｓ３２にて生成された合成画像について、選択されたシーンによって合成対象２００ａをズームする必要がある場合に、選択されたシーンに応じて合成対象２００ａをトリミングしてズームを行うとともに、背景にぼかしをかける処理である。トリミング・背景ぼかし処理（Ｓ３３）の詳細については、図１２および図１３を参照して後述する。本実施形態では、選択可能なシーンとして、全身を映すシーンと、全身の一部（例えば、上半身、顔など）をズームさせて映すシーンとが準備されている。なお、合成対象２００ａのズームが不要な場合、すなわち、全身を映すシーンが選択されている場合には、ＣＰＵ１１は、Ｓ３３の処理をスキップする。

ＣＰＵ１１は、表示レイアウト処理を行い（Ｓ３４）、本処理を終了する。具体的に、ＣＰＵ１１は、Ｓ３２にて生成された合成画像、または、Ｓ３３にて処理が施された合成画像を、モニタＤ１〜Ｄ３の領域Ｊ１にレイアウトする。ＣＰＵ１１は、楽曲データに含まれる歌詞情報に基づく歌詞及び譜面を、モニタＤ１〜Ｄ３の領域Ｊ２にレイアウトする。また、ＣＰＵ１１は、必要に応じて警告表示７００を、モニタＤ１〜Ｄ３の領域Ｊ３にレイアウトする。ＣＰＵ１１は、生成された画像６００を、モニタＤ１〜Ｄ３の領域Ｊ４にレイアウトする。なお、画像６００は、出力先のモニタに応じた表示の向きでレイアウトされる。

図９は、上述した対象抽出処理（Ｓ３１）を示すフローチャートである。なお、本実施形態では、演奏映像２００から抽出される合成対象２００ａは１つとする。ＣＰＵ１１は、ｐ、ｘ、ｙ、ｄｓＭ、およびｄｓｒに０を設定する（Ｓ３１０１）。ｐは、処理対象の画素Ｐｘの位置を示す値である。ｘおよびｙは、処理対象の画素Ｐｘのｘ方向位置およびｙ方向位置を示す値である。画素Ｐｘのｘ位置は、画素Ｐｘに対するｐの値を、ピクセル単位で表される画像幅ｗＰで除したときの余りである。画素Ｐｘのｙ位置は、画素Ｐｘに対するｐの値を画像幅ｗＰで除したときの商である。なお、左上角の画素Ｐｘの（ｘ，ｙ）が（０，０）である。ｄｓＭは、合成対象を構成する各画素の距離情報（ｍｍ単位）のスタックである。ｄｓｒは、ｄｓＭのスタック数を示す。

ＣＰＵ１１は、Ｓ３１０１において、上位置配列ｔＭ（０，…，ｗ−１）に、初期値として−１を設定する。上位置配列ｔＭ（ｘ）は、ｘ位置毎の上位置の高さ算出用リストである。０，…，ｗ−１は、画素Ｐｘのｘ位置として取り得るｗ個の各値である。また、ＣＰＵ１１は、Ｓ３１０１において、下位置配列ｂＭ（０，…，ｗ−１）に、初期値として−１を設定する。下位置配列ｂＭ（ｘ）は、ｘ位置毎の下位置の高さ算出用リストである。

ＣＰＵ１１は、デプスマップ（ｐ）の値をｄＭに設定する（Ｓ３１０２）。デプスマップ（ｐ）は、デプスマップ２０１にけるｐの値に対する画素の画素値、すなわち、画素Ｐｘに対する第１距離情報（カメラＣＡからの距離情報）を示す。ｄＭは、処理対象の画素Ｐｘの距離情報（ｍｍ単位）を示す。

ＣＰＵ１１は、ｄＭの値が、ｄＭｉｎ＜ｄＭ＜ｄＭａｘを満たすかを判断する（Ｓ３１０３）。ｄＭｉｎおよびｄＭａｘは、合成対象２００ａとして抽出する距離の範囲（以下、「抜き範囲」と称す）の下限値および上限値である。本実施形態では、演奏するユーザ１００の動きが少ないことを前提とし、「抜き範囲」は、ユーザ１００の演奏パートに対する初期位置と、人間の一般的な厚みとを考慮して決められた範囲とする。

ＣＰＵ１１は、ｄＭの値が上記不等式を満たさないと判断した場合（Ｓ３１０３：Ｎｏ）、処理中のｐの値に対応する画素Ｐｘが合成対象の画素でないとして、０を抽出マスク画像（ｐ）に設定し（Ｓ３１１２）、処理をＳ３１０８に移行する。一方、ＣＰＵ１１は、ｄＭの値が上記不等式を満たすと判断した場合（Ｓ３１０３：Ｙｅｓ）、処理中のｐの値に対応する画素Ｐｘが合成対象の画素であるとして、２５５を抽出マスク画像（ｐ）に設定する（Ｓ３１０４）。また、ＣＰＵ１１は、Ｓ３１０４において、ｄＭの値を、スタックｄｓＭに積み、ｄｓｒをインクリメントする。

ＣＰＵ１１は、現在のｘの値に対するｔＭ（ｘ）が−１であるかを判断する（Ｓ３１０５）。ＣＰＵ１１は、ｔＭ（ｘ）が−１であると判断した場合（Ｓ３１０５：Ｙｅｓ）、現在のｙの値をｔＭ（ｘ）に設定し（Ｓ３１０６）、処理をＳ３１０７に移行する。一方、ＣＰＵ１１は、ｔＭ（ｘ）が−１でないと判断した場合（Ｓ３１０５：Ｎｏ）、処理をＳ３１０７に移行する。Ｓ３１０７において、ＣＰＵ１１は、現在のｙの値をｂＭ（ｘ）に設定する。

Ｓ３１０８において、ＣＰＵ１１は、ｐの値が、画像データのデータ長ｌｅｎｇｔｈに達したかを判断する。ＣＰＵ１１は、ｐの値がｌｅｎｇｔｈに達したと判断した場合（Ｓ３１０８：Ｙｅｓ）、処理をＳ３１３１（図１０参照）に移行する。ＣＰＵ１１は、ｐの値がｌｅｎｇｔｈに達していないと判断した場合（Ｓ３１０８：Ｎｏ）、ｐ、ｘをインクリメントする（Ｓ３１０９）。

ＣＰＵ１１は、ｘの値が画像幅ｗＰに達したかを判断する（Ｓ３１１０）。ＣＰＵ１１は、ｘの値が画像幅ｗＰに達したと判断した場合（Ｓ３１１０：Ｙｅｓ）、ｘに０を設定し，ｙをインクリメントし（Ｓ３１１１）、処理をＳ３１０２に移行する。一方、ＣＰＵ１１は、ｘの値が画像幅ｗＰに達していないと判断した場合（Ｓ３１１０：Ｎｏ）、処理をＳ３１０２に移行する。

図１０に示すように、ＣＰＵ１１は、ｘおよびｍａｘＨＰに０を設定する（Ｓ３１３１）。また、ＣＰＵ１１は、Ｓ３１３１において、ｌｈＰに−１を設定し、ｒｈＰに０を設定する。ｍａｘＨＰ、ｌｈＰ、およびｒｈＰは、それぞれ、ピクセル単位で表される合成対象２００ａの高さ、左位置、および右位置を示す。

ＣＰＵ１１は、ｔＭ（ｘ）が−１であるかを判断する（Ｓ３１３２）。ＣＰＵ１１は、ｔＭ（ｘ）が−１であると判断した場合（Ｓ３１３２：Ｙｅｓ）、処理をＳ３１３７に移行する。一方、ＣＰＵ１１は、ｔＭ（ｘ）が−１でないと判断した場合（Ｓ３１３２：Ｎｏ）、ｌｈＰが−１であるかを判断する（Ｓ３１３３）。ＣＰＵ１１は、ｌｈＰが−１でないと判断した場合（Ｓ３１３３：Ｎｏ）、現在のｘの値をｒｈＰに設定する（Ｓ３１３４）。一方、ＣＰＵ１１は、ｌｈＰが−１であると判断した場合（Ｓ３１３３：Ｙｅｓ）、現在のｘの値をｌｈＰに設定し（Ｓ３１４２）、処理をＳ３１３４に移行する。

ＣＰＵ１１は、ｂＭ（ｘ）−ｔＭ（ｘ）がｍａｘＨＰより大きいかを判断する（Ｓ３１３５）。ＣＰＵ１１は、ｂＭ（ｘ）−ｔＭ（ｘ）がｍａｘＨＰ以下であると判断した場合（Ｓ３１３５：Ｎｏ）、処理をＳ３１３７に移行する。一方、ＣＰＵ１１は、ｂＭ（ｘ）−ｔＭ（ｘ）がｍａｘＨＰより大きいと判断した場合（Ｓ３１３５：Ｙｅｓ）、ｂＭ（ｘ）−ｔＭ（ｘ）の値を、ｍａｘＨＰに設定する（Ｓ３１３６）。

ＣＰＵ１１は、ｘをインクリメントし（Ｓ３１３７）、ｘが、ｘ方向の画素数を示すｗより小さいかを判断する（Ｓ３１３８）。ＣＰＵ１１は、ｘの値がｗの値より小さいと判断した場合（Ｓ３１３８：Ｙｅｓ）、処理をＳ３１３２に移行する。一方、ＣＰＵ１１は、ｘの値がｗの値以上である判断した場合（Ｓ３１３８：Ｎｏ）、Ｓ３１３９の処理を実行する。具体的に、ＣＰＵ１１は、スタックｄｓＭから、スタックされているｄＭを取り出し、ｄｓｒの値を、カウンタｉに設定する。ＣＰＵ１１は、ｄｃＭに０を設定する。ｄｃＭは、距離情報（ｍｍ単位）の累積値を示す。

ＣＰＵ１１は、ｉの値が０より大きいかを判断する（Ｓ３１４０）。ＣＰＵ１１は、ｉの値が０より大きいと判断した場合（Ｓ３１４０：Ｙｅｓ）、ｄＭの値をｄｃＭの値に加算した値を、ｄｃＭに設定する（Ｓ３１４１）。また、ＣＰＵ１１は、ｉをデクリメントする。ＣＰＵ１１は、Ｓ３１４１の処理後、処理をＳ３１４０に移行する。一方、ｉの値が０以下であると判断した場合（Ｓ３１４０：Ｎｏ）、ＣＰＵ１１は、ｍａｘＨＰを、ｈＰで割った値を、ｍａｘＨＨに設定する（Ｓ３１４３）。ｈＰは、演奏映像２００のフレーム画像の高さ（ピクセル単位）である。ｍａｘＨＨは、演奏映像２００のフレーム画像（以下「映像画像」と称す）の高さに対する、合成対象２００ａの高さの比率である。

ＣＰＵ１１は、ｄｃＭをｄｓｒで割った値を、ｄａＭに設定する（Ｓ３１４４）。ｄａＭは、カメラＣＡからの合成対象２００ａの平均距離（ｍｍ単位）を示す。ＣＰＵ１１は、２＊ｄａＭ＊ｔａｎ（ｆｏｖ／２）の値を、ｈＭに設定する（Ｓ３１４５）。ｈＭは、演奏画像２００に映り込んだ合成対象２００ａの高さ（ｍｍ単位）である。ｆｏｖは、演奏映像２００を撮影するカメラ（すなわち、カメラＣＡ）の縦画角である。つまり、Ｓ３１４５では、ｄａＭと、カメラＣＡの縦画角ｆｏｖとから、上記式（１）に従い、演奏画像に映り込んだ合成対象２００ａの高さ（ｍｍ単位）が算出される。

ＣＰＵ１１は、ｍａｘＨＨとｈＭとの積を、ｍａｘＨＭに設定する（Ｓ３１４６）。ｍａｘＨＭは、合成対象２００ａに対応する演奏者の実空間における高さ（すなわち、身長）を示す。ＣＰＵ１１は、ｒｈＰからｌｈＰを引いた値を、ｗｈＰに設定する（Ｓ３１４７）。ｗｈＰは、合成対象２００ａの左右幅（ピクセル単位）を示す。ＣＰＵ１１は、ｄａＭ−ｒＭの値を、ｄｒＭに設定する（Ｓ３１４８）。ｒＭは、演奏映像２００において予め決められている撮影基準位置の距離情報（ｍｍ単位）である。ｄｒＭは、合成対象２００ａの撮影基準距離からの差（ｍｍ単位）を示す。ＣＰＵ１１は、Ｓ３１４８の処理後、本処理を終了して、合成映像生成処理（Ｓ３０）に戻る。

上述した対象抽出処理（Ｓ３１）によれば、演出映像２００から、抽出マスク画像（ｐ）の値が２５５である画素部分、すなわち、ｄＭｉｎおよびｄＭａｘにより規定される抜き範囲内の距離情報（第１距離情報）を有する画素部分を、合成対象２００ａとして抽出できる。

なお、抽出された合成対象２００ａを含むフレーム画像からなる映像は、共演者映像としてハードディスク２０に保存される。共演者映像をハードディスク２０に保存する処理が、本発明の記憶手段に相当する。共演者映像、すなわち、抽出された合成対象２００ａを含むフレーム画像からなる映像はデプスマップを持つ。共演者映像のデプスマップは、演奏映像２００のデプスマップ２０１である。また、共演者映像には、人物高さ情報および位置情報を関連付けて保存する。あるいは、共演者映像に対する人物高さ情報および位置情報は、当該共演者映像に紐付けてハードディスク２０や配信サーバＳｕに記憶されてもよい。なお、人物高さ情報は、Ｓ３１４６にて算出されたｍａｘＨＭの値であり、位置情報は、Ｓ３１４８にて算出されたｄｒＭの値である。

図１１は、上述した合成処理（Ｓ３２）を示すフローチャートである。以下では、演奏映像２００から抽出される合成対象２００ａのみが背景映像３００に合成されるものとして説明する。ＣＰＵ１１は、２＊（ｓｐＭ＋ｄｒＭ）＊ｔａｎ（ｆｏｖ’／２）の値を、ｈＭ’に設定する（Ｓ３２０１）。ｓｐＭは、背景映像３００における配置基準位置の距離情報（ｍｍ単位）である。つまり、ｓｐＭは、合成対象２００ａに対応するユーザ１００が担当する演奏パートの仮想ステージ５００上における初期位置の距離情報である。ｈＭ’は、背景画像に映り込んだ対象物の高さ（ｍｍ単位）である。ｆｏｖ’は、背景映像３００を撮影するカメラの縦画角である。つまり、Ｓ３２０１では、配置基準位置からｄｒＭだけ前または後方にずれた位置における、背景画像３００に映り込んだ対象物の高さ（ｍｍ単位）が算出される。なお、Ｓ３２０１におけるｓｐＭ＋ｄｒＭの算出が、本発明の変換手段に相当する。

ＣＰＵ１１は、ｍａｘＨＭをｈＭ’で割った値を、ｈｄｃに設定する（Ｓ３２０２）。ｈｄｃは、背景画像３００に映り込んだ対象物の高さに対する、演奏映像２００に映り込んだ合成対象２００ａの高さの比率である。ＣＰＵ１１は、ｈＰ’とｈｄｃとの積を、ｓｈｈＰに設定する（Ｓ３２０３）。ｈＰ’は、背景画像の高さ（ピクセル単位）である。ｓｈｈＰは、合成対象２００ａを仮想ステージ５００に配置する時の高さ（ピクセル単位）である。

ＣＰＵ１１は、ｓｈｈＰをｍａｘＨＰで割った値を、ｓｒｓに設定する（Ｓ３２０４）。ｓｒｓは、合成対象２００ａを仮想ステージ５００に配置する際に乗じる倍率（すなわち、合成倍率）である。Ｓ３２０４の処理が、本発明の合成倍率算出手段に相当する。ＣＰＵ１１は、ｓｒｐｈＰ＋（（ｌｈＰ−ｒｐｈＰ）＊ｓｒｓ）の値を、ｓｌｈＰに設定する（Ｓ３２０５）。ｓｌｈＰは、仮想ステージ５００上に配置された合成対象２００ａの左位置（ピクセル単位）である。

ｓｒｐｈＰは、背景映像３００における配置基準位置（ピクセル単位）、つまり、ユーザ１００が担当する演奏パートの仮想ステージ５００上における初期位置に対応する画素のｘ方向位置である。ｒｐｈＰは、演奏映像２００において予め決められている撮影基準位置に対応する画素のｘ方向位置である。

また、ＣＰＵ１１は、Ｓ３２０５において、ｓｒｐｈＰ＋（（ｒｈＰ−ｒｐｈＰ）＊ｓｒｓ）の値を、ｓｒｈＰに設定する。ｓｒｈＰは、仮想ステージ５００上に配置された合成対象２００ａの右位置（ピクセル単位）である。よって、Ｓ３２０５によれば、ユーザ１００の撮影基準位置からの移動と、Ｓ３２０４にて算出された倍率ｓｒｓを考慮して、仮想ステージ５００上に配置された合成対象２００ａの左位置および右位置が算出される。なお、Ｓ３２０５の処理が、本発明の配置設定手段に相当する。

ｓｌｈＰおよびｓｒｈＰが算出されると、背景画像に合成対象２００ａをコピーする（すなわち、合成する）際の矩形領域の左上座標および右下座標を決定できる。本実施形態では、説明を簡単にするため、ステージ面が映らない（すなわち、仮想ステージを含む平面の延長上にカメラがあって、演奏者までの距離にかかわらず演奏者のステージ接地点のｙ座標が変化しない）ものとして、当該矩形領域の左上座標および右下座標のｙ座標を、配置基準位置のｙ方向位置を用いて決定する。配置基準位置のｙ方向位置をｓｒｙとした場合、左上座標は（ｓｌｈＰ，ｓｒｙ−ｓｈｈＰ）であり、右下座標は（ｓｒｈＰ，ｓｒｙ）である。

ＣＰＵ１１は、リサイズコピー処理を実行する（Ｓ３２０６）。リサイズコピー処理（Ｓ３２０６）において、ＣＰＵ１１は、（ｓｌｈＰ，ｓｒｙ−ｓｈｈＰ）および（ｓｒｈＰ，ｓｒｙ）により特定される矩形領域に収まるよう、デプスマップ２０１を含めて、合成対象２００ａを背景映像画像にリサイズコピーする。合成対象２００ａのコピー（合成）は、抽出マスク画像（ｐ）を用いるαブレンドによって行う。本処理により、合成画像と、合成後のデプスマップ（以下「合成デプスマップ」と称す）とが生成される。なお、画像をリサイズするアルゴリズムは周知技術であるので、詳細な説明は省略する。Ｓ３２０６の処理が、本発明の合成手段に相当する。

ＣＰＵ１１は、当たり判定処理を実行し（Ｓ３２０７）、本処理を終了して、合成映像生成処理（Ｓ３０）に戻る。当たり判定処理（Ｓ３２０７）において、ＣＰＵ１１は、背景映像３００のデータを、現在の再生位置より数フレーム分先読みする。

ＣＰＵ１１は、第１の当たり判定処理として、数フレーム先における共演者（背景映像３００に含まれる演奏者、または、選択された共演者映像の共演者が、合成画像上の合成対象２００ａと重なるかを判定する。具体的に、ＣＰＵ１１は、数フレーム先における共演者の画素位置と、共演者に対応するデプスマップ３０１の距離情報と、合成画像上の合成対象２００ａの画素位置と、合成デプスマップの距離情報とに基づき、当たり判定を行う。

背景映像３００が共演者を含む場合、当該背景映像３００は、背景映像３００を構成する各フレーム画像内における各共演者の位置を示す位置情報を含む。また、上述した通り、共演者映像は、当該共演者映像を構成する各フレーム画像内における位置情報を含む。なお、背景映像３００内における各共演者の位置情報は、当該背景映像３００に紐付けてハードディスク２０や配信サーバＳｕに記憶されていてもよい。第１の当たり判定の際には、共演者の画素位置は、背景映像３００または共演者映像に含まれる各共演者の位置情報に基づいて特定される。なお、簡単のため、各演奏者の厚さは固定値であるとするが、演奏者毎に異なる値を用いてもよい。

ＣＰＵ１１は、画素位置と距離情報により特定される共演者の座標と、画素位置と距離情報により特定される合成対象２００ａの座標とが重なった場合に第１の警告情報を出力する。第１の警告情報は、ユーザ１００に推奨される移動方向を示す情報を含む。なお、当該情報は、数フレーム先における共演者の位置と、合成画像上の合成対象２００ａの位置と、重なった座標の位置とに基づいて決定される。第１の当たり判定処理が、先読み手段、および第１判断手段に相当する。

また、第２の当たり判定処理として、ＣＰＵ１１は、合成画像上の合成対象２００ａが仮想ステージ５００の境界位置に重なるかを判定する。ＣＰＵ１１は、画素位置と距離情報により特定される合成対象２００ａの座標が、画素位置と距離情報により特定される仮想ステージ５００の境界を示す座標と重なった場合に第２の警告情報を出力する。なお、仮想ステージ５００の境界位置は、仮想ステージ５００の角部の画素位置と、仮想ステージ５００の奥行を示す距離情報とから定義される。第２の警告情報には、ユーザ１００に推奨される移動方向を示す情報を含む。なお、上記各当たり判定処理にて用いるアルゴリズムは周知技術であるので、詳細な説明は省略する。第２の当たり判定処理が、第２判断手段に相当する。

合成処理（Ｓ３２）に関する上記説明では、合成対象２００ａのみが背景映像３００に合成されるものとした。ハードディスク２０に記憶されている共演者映像の共演者を合成する場合、合成処理（Ｓ３２）では、先読みするフレーム画像も含め、全ての共演者について、それぞれ、上記した合成対象２００ａの場合と同様の処理を行う。なお、共演者を合成する場合、共演者の左右位置および高さは、共演者映像に関連づけて保存されている人物高さ情報および位置情報を用いる。

図１２は、上述したトリミング・背景ぼかし処理（Ｓ３３）を示すフローチャートである。ＣＰＵ１１は、トリミング処理として、選択されたシーンに応じた領域（例えば、上半身領域や顔領域）の拡大を行う（Ｓ３３０１）。なお、本処理のアルゴリズムは、画像をリサイズするアルゴリズムと同様であり周知技術であるので、詳細な説明は省略する。

ＣＰＵ１１は、背景ぼかし処理として、以下のＳ３３０２〜Ｓ３３４２の処理を実行する。Ｓ３３０２〜Ｓ３３４２の処理が、本発明のぼかし手段に相当する。

Ｓ３３０２〜Ｓ３３４２に示す背景ぼかし処理は、コンボリューションサイズ３×３の４近傍処理の畳み込み演算を用いる処理である。具体的に、ＣＰＵ１１は、ｘおよびｙに１を設定し、ｄＭに０を設定する（Ｓ３３０２）。ＣＰＵ１１は、ｄｓｃおよびｃに０を設定する（Ｓ３３０３）。ｄｓｃは、画素値の累積値である。ｃは、ｄｓｃにて累積された画素値の数を示すカウンタである。

ＣＰＵ１１は、ｘ＋（ｙ＊ｗＰ）の値をｊに設定する（Ｓ３３０４）。ＣＰＵ１１は、ｊの値が、ｌｅｎｇｔｈ−ｗＰより小さいかを判断する（Ｓ３３０５）。ＣＰＵ１１は、ｊ＜（ｌｅｎｇｔｈ−ｗＰ）であると判断した場合（Ｓ３３０５：Ｙｅｓ）、本処理を終了して、合成映像生成処理（Ｓ３０）に戻る。一方、ＣＰＵ１１は、ｊ＜（ｌｅｎｇｔｈ−ｗＰ）でないと判断した場合（Ｓ３３０５：Ｎｏ）、合成デプスマップ（ｊ）の値をｄＭに設定する（Ｓ３３０６）。

ＣＰＵ１１は、ｄＭの値が、ｄＭｉｎ＜ｄＭ＜ｄＭａｘを満たすかを判断する（Ｓ３３０７）。ＣＰＵ１１は、ｄＭの値が上記不等式を満たすと判断した場合（Ｓ３３０７：Ｙｅｓ）、合成画像（ｊ）を出力画像（ｊ）とし（Ｓ３３０８）、処理をＳ３３０３に移行する。一方、ＣＰＵ１１は、ｄＭの値が、上記不等式を満たさないと判断した場合（Ｓ３３０７：Ｎｏ）、合成画像（ｊ）の画素値をｄｓｃに加算した値を、ｄｓｃに設定する（Ｓ３３０９）。ＣＰＵ１１は、ｃをインクリメントする（Ｓ３３１０）。

ＣＰＵ１１は、ｘ−１＋（ｙ＊ｗＰ）の値をｊに設定する（Ｓ３３１１）。ＣＰＵ１１は、合成デプスマップ（ｊ）の値をｄＭに設定する（Ｓ３３１２）。ＣＰＵ１１は、ｄＭの値が、ｄＭｉｎ＜ｄＭ＜ｄＭａｘを満たすかを判断する（Ｓ３３１３）。ＣＰＵ１１は、ｄＭの値が上記不等式を満たすと判断した場合（Ｓ３３１３：Ｙｅｓ）、処理をＳ３３１４に移行する。一方、ＣＰＵ１１は、ｄＭの値が、上記不等式を満たさないと判断した場合（Ｓ３３１３：Ｎｏ）、合成画像（ｊ）の画素値をｄｓｃに加算した値を、ｄｓｃに設定する（Ｓ３３１７）。ＣＰＵ１１は、ｃをインクリメントする（Ｓ３３１８）。

ＣＰＵ１１は、ｘ＋１＋（ｙ＊ｗＰ）の値をｊに設定する（Ｓ３３１４）。ＣＰＵ１１は、合成デプスマップ（ｊ）の値をｄＭに設定する（Ｓ３３１５）。ＣＰＵ１１は、ｄＭの値が、ｄＭｉｎ＜ｄＭ＜ｄＭａｘを満たすかを判断する（Ｓ３３１６）。ＣＰＵ１１は、ｄＭの値が上記不等式を満たすと判断した場合（Ｓ３３１６：Ｙｅｓ）、処理をＳ３３３１（図１３参照）に移行する。一方、ＣＰＵ１１は、ｄＭの値が、上記不等式を満たさないと判断した場合（Ｓ３３１６：Ｎｏ）、合成画像（ｊ）の画素値をｄｓｃに加算した値を、ｄｓｃに設定する（Ｓ３３１９）。ＣＰＵ１１は、ｃをインクリメントする（Ｓ３３２０）。

図１３に示すように、ＣＰＵ１１は、ｘ＋（（ｙ−１）＊ｗＰ）の値をｊに設定する（Ｓ３３３１）。ＣＰＵ１１は、合成デプスマップ（ｊ）の値をｄＭに設定する（Ｓ３３３２）。ＣＰＵ１１は、ｄＭの値が、ｄＭｉｎ＜ｄＭ＜ｄＭａｘを満たすかを判断する（Ｓ３３３３）。ＣＰＵ１１は、ｄＭの値が上記不等式を満たすと判断した場合（Ｓ３３３３：Ｙｅｓ）、処理をＳ３３３４に移行する。一方、ＣＰＵ１１は、ｄＭの値が、上記不等式を満たさないと判断した場合（Ｓ３３３３：Ｎｏ）、合成画像（ｊ）の画素値をｄｓｃに加算した値を、ｄｓｃに設定する（Ｓ３３３９）。ＣＰＵ１１は、ｃをインクリメントする（Ｓ３３４０）。

ＣＰＵ１１は、ｘ＋（（ｙ＋１）＊ｗＰ）の値をｊに設定する（Ｓ３３３４）。ＣＰＵ１１は、合成デプスマップ（ｊ）の値をｄＭに設定する（Ｓ３３３５）。ＣＰＵ１１は、ｄＭの値が、ｄＭｉｎ＜ｄＭ＜ｄＭａｘを満たすかを判断する（Ｓ３３３６）。ＣＰＵ１１は、ｄＭの値が上記不等式を満たすと判断した場合（Ｓ３３３６：Ｙｅｓ）、ＣＰＵ１１は、ｄｓｒをｃで割った値を、出力画像（ｊ）に設定する（Ｓ３３３７）。ＣＰＵ１１は、ｃに０を設定し（Ｓ３３３８）、処理をＳ３３０３に移行する。一方、ｄＭの値が、上記不等式を満たさないと判断した場合（Ｓ３３３６：Ｎｏ）、合成画像（ｊ）の画素値をｄｓｃに加算した値を、ｄｓｃに設定する（Ｓ３３４１）。ＣＰＵ１１は、ｃをインクリメントする（Ｓ３３４２）。

上述したトリミング・背景ぼかし処理（Ｓ３３）によれば、選択されたシーンに応じた領域を拡大した場合には、その背景にぼかし処理がかけられるので、望遠ズームレンズで撮影したかのような臨場感のある映像を生成できる。

なお、本実施形態では、背景ぼかし処理において、コンボリューションサイズ３×３の４近傍処理の畳み込み演算を用いる構成としたが、コンボリューションサイズ５×５など、より大きなコンボリューションサイズを用いてもよい。コンボリューションサイズが大きくなるほど、ぼかし量が増える。また、ぼかし量は、中央画素と周辺画素の重み付けによっても変化させることができる。

選択されたシーンに応じた領域によって、コンボリューションサイズを使い分けてもよい。例えば、上半身領域を拡大した場合には、コンボリューションサイズ３×３の処理を行い、顔領域を拡大した場合には、より大きなコンボリューションサイズで処理を行う。これにより、合成対象２００ａの一部が拡大されるほど、背景のぼかし量が増えるので、リアリティのある望遠効果を出すことができる。

図１４は、上述した合成映像生成処理（Ｓ３０）の流れを示すブロック図である。演奏処理装置１０に入力される演奏映像２００およびデプスマップ２０１が、対象抽出処理（Ｓ３１）に供されると、合成対象２００ａを含むフレーム画像からなる映像（「合成対象映像」と称す）と、当該合成対象映像のデプスマップとが生成される。なお、合成対象映像のデプスマップは、デプスマップ２０１である。また、対象抽出処理（Ｓ３１）において、人物高さ情報（ｍａｘＨＭ）および位置情報（ｄｒＭ）が算出される。

対象抽出処理にて得られた合成対象映像は、共演者映像２５０としてハードディスク２０に保存される。共演者映像は、デプスマップ２５１を持つ。デプスマップ２５１は、合成対象映像のデプスマップである。また、共演者映像２５０は、対象抽出処理にて算出された人物高さ情報および位置情報が関連付けられる。

対象抽出処理（Ｓ３１）にて得られた合成対象映像、当該合成対象映像のデプスマップ、ならびに、人物高さ情報および位置情報は、合成処理（Ｓ３２）に供される。一方、ユーザ１００により選択されたステージに応じた背景映像３００が再生され、当該背景映像３００およびデプスマップ３０１が、合成処理（Ｓ３２）に供される。また、ユーザ１００により共演者が選択された場合には、選択された共演者に応じた共演者映像２５０が再生され、当該共演者映像２５０、デプスマップ２５１、ならびに、人物高さ情報および位置情報が、合成処理（Ｓ３２）に供される。

合成処理（Ｓ３２）において、演奏映像２００から抽出された合成対象２００ａと、共演者映像２５０の共演者とが、背景映像３００に合成される。このとき、合成対象２００ａは、ユーザ１００により選択された、当該ユーザ１００が担当する演奏パートの初期位置に応じた位置に合成される。これにより、合成映像４００と、合成デプスマップ４０１とが生成される。

合成処理（Ｓ３２）にて生成された合成映像４００および合成デプスマップ４０１は、トリミング・背景ぼかし処理（Ｓ３３）に供され、ユーザ１００により選択されたシーンと、再生される楽曲データのタイミングに応じて、合成対象２００ａのトリミングおよび拡大と、背景にぼかしがかけられる。処理後の映像が出力映像４００ａとして得られる。なお、選択されたシーンが全身である場合には、トリミング・背景ぼかし処理（Ｓ３３）はスキップされるので、出力映像４００ａは、合成映像４００そのものとなる。

出力映像４００ａは、表示レイアウト処理（Ｓ３４）に供される。表示レイアウト処理（Ｓ３４）には、合成処理（Ｓ３２）の当たり判定の結果として生成された警告情報と、合成処理（Ｓ３２）にて生成されたメンバー配置を示す画像６００とが入力される。表示レイアウト処理（Ｓ３４）では、出力映像４００ａと、楽曲データに含まれる歌詞情報に基づく歌詞などの補助表示と、警告情報と、画像６００とが、出力先のモニタＤ１〜Ｄ３に応じてレイアウトされる。表示レイアウト処理（Ｓ３４）によりレイアウトされた画面が各モニタＤ１〜Ｄ３に出力され、出力先のモニタＤ１〜Ｄ３において表示される。

トリミング・背景ぼかし処理（Ｓ３３）にて生成された出力画像４００ａは、図示されない映像端子から映像出力として出力することもできる。これにより、モニタＤ１〜Ｄ３以外のモニタで、ユーザ１００以外の人（例えば、ユーザ１００と一緒に共演映像を楽しんでいる他のユーザ）に、出力映像４００ａを見せることができる。また、出力映像４００ａと、ミキシングされた楽音とをＤＶＤなどのメディアに記録することも可能である。

本実施形態の演奏処理装置１０によれば、カメラＣＡにより撮影される演奏映像２００と、予め準備されている背景映像３００とが、いずれもデプスマップを持っており、演奏映像２００の合成対象２００ａを背景映像３００に合成する際に、合成対象２００ａの距離情報（すなわち、演奏映像２００の距離情報）を、背景映像３００の距離情報に変換した上で、合成対象２００ａを背景映像３００に配置するので、合成対象２００ａが背景映像３００に含まれる各要素との前後関係において違和感なく合成され、ここで合成された映像を新たな背景映像として使用する事もできる。また、合成の際には、合成対象２００ａの大きさが、演奏映像２００の距離情報と背景映像３００の距離情報とに応じたサイズにリサイズされるので、合成対象２００ａを、その配置と背景映像３００の画面高さとに対して違和感のない高さで合成できる。

また、合成対象２００ａは、合成対象２００ａに対応する演奏者（すなわち、カメラＣＡで撮影されるユーザ１００）が担当する演奏パートに応じた位置に配置される。上記の通り、合成対象２００ａは、背景映像３００に対し、前後関係およびサイズのいずれについても違和感なく合成されているので、当該合成対象が、演奏パートとして自然な位置に配置されたことにより、合成対象２００ａを含む合成映像４００をリアリティのあるライブ演奏の映像であるかのように得ることができる。そして、演奏処理装置１０は、そのような合成映像４００を、再生中の楽曲と同期させて各モニタＤ１〜Ｄ３に表示させるので、仮想共演行為における興趣を好適に向上させることができる。

以上、実施形態に基づき本発明を説明したが、本発明は上記形態に何ら限定されるものではなく、本発明の趣旨を逸脱しない範囲内で種々の変形改良が可能であることは容易に推察できるものである。

例えば、上記実施形態では、ｄＭｉｎおよびｄＭａｘにより予め規定される抜き範囲を利用する構成としたが、演奏映像２００内での対象物の動きに基づいて人物を特定し、特定された各人物の前後の距離範囲を抜き範囲とする構成としてもよい。本変形例によれば、対象抽出処理（Ｓ３１）にて複数の合成対象２００ａを抽出することも可能である。このように、対象抽出処理（Ｓ３１）にて複数の合成対象２００ａを抽出する場合には、楽曲の再生前または再生直後の各演奏者の配置に応じて、各演奏者の演奏パートを自動的に決定する構成としてもよい。

上記実施形態では、メンバー配置画像６００には、演奏を行う各メンバーの配置と、仮想ステージ５００の境界５００ａとを表示させる構成としたが、スピーカなどの機材を特定し、それら機材の配置を画像６００に表示させてもよい。また、当たり判定として、仮想ステージ５００上の機材と、合成対象２００ａとの重なりを判定し、その結果に応じた警告表示７００を行う構成としてもよい。

上記実施形態では、合成対象２００ａと、先読みされた共演者や仮想ステージ５００の境界５００ａとが重なった場合に、両者が当たると判定する構成としたが、両者が所定距離以下に近づいた場合に当たると判定し、警告表示７００を表示する構成としてもよい。

上記実施形態では、楽曲データが配信サーバＳｕから配信される構成としたが、演奏処理装置１０に内蔵されるハードディスク２０などの記憶部に記憶されていてもよい。また、楽曲データを、可搬の記憶媒体や記憶装置から読み込む構成であってもよい。

上記実施形態では、再生する楽曲データの演奏情報としてＭＩＤＩデータを例示したが、オーディオデータであってもよい。ＭＩＤＩデータおよびオーディオデータのいずれの場合も、特定の演奏パートの楽音を含まないデータ（所謂、マイナスワンデータ）を再生したり、全演奏パートの楽音を含むデータから特定の演奏パート、すなわち、ユーザ１００または共演者が担当する演奏パートを除いて再生することで本発明を適用できる。なお、ＭＩＤＩデータから特定の演奏パートの楽音を除く場合、該当パートをミュートして再生すればよい。一方、オーディオデータについても、パート毎に独立したトラックを持つ場合はそのトラックをミュートすればよく、また、公知技術（例えば、所謂「センターキャンセル」などと呼ばれる技術）を用いることによって、特定の演奏パートの楽音を除いて再生することもできる。なお、ユーザがマイクを用いる場合は、他のパートを、ヘッドホンを用いて再生することで楽音の混入を防ぐことができる。

上記実施形態では、ユーザ１００または共演者が担当する演奏パート以外の演奏パートの楽音を再生し、ユーザ１００または共演者の演奏音を重ねることを例示したが、楽音として再生される演奏パートについて、再生される当該演奏パートの楽音に、ユーザ１００または共演者の演奏音を重ねてもよい。また、所謂エアギターのような演奏の振りの画像のみを合成したり、演奏音のみを重ねることもできる。

上記実施形態に例示したように作成された合成映像４００を、背景映像２００としてハードディスク２０や配信サーバＳｕなどに保存してもよい。その場合、合成映像４００の生成に用いた演奏映像２００における合成対象２００ａの位置情報を、元の背景映像３００（すなわち、合成映像４００の生成に用いた背景映像３００）に追加して記憶する。なお、合成対象２００ａの位置情報は、当該合成対象２００ａについて、Ｓ３１４８にて算出されたｄｒＭの値と、配置基準位置の距離情報（すなわち、ｓｐＭ）である。

これにより、作成された合成映像４００を、背景映像３００として、次の演奏者の演奏映像をさらに合成できる。この場合、合成映像４００から作成された背景映像３００には、合成により追加された合成対象２００ａの位置情報が追加されているので、当該合成対象２００ａを含めて背景映像３００に含まれる全ての演奏者について、次の演奏者との当たり判定（第１の当たり判定）を行うことができる。

なお、背景映像３００に含まれる、仮想ステージ５００や他の演奏者の位置情報は、背景映像３００の撮影時にカメラから取得することに限らず、手動で入力してもよい。また、背景映像３００は、カメラにより撮影された実映像でなく、架空のＣＧ映像であってもよい。ＣＧ映像を背景映像３００として用いる場合、仮想ステージ５００や他の演奏者の位置情報は、ＣＧ映像のデータから取得してもよいし、手動で入力してもよい。

上記実施形態では、背景映像に同期された楽曲を再生しながら、ユーザ１００が演奏することによって、合成映像を生成することを例示したが、演奏映像と背景映像とから最初に合成映像を生成する場合において、楽曲の再生は必須ではない。例えば、ユーザ１００がメトロノーム音など聞きながら演奏を行い、ユーザ１００の演奏映像を背景映像に合成した合成映像をまず生成した後、次のユーザは、ユーザ１００が演奏した楽音およびメトロノーム音を聞きながら演奏を行い、次のユーザの演奏映像を、ユーザ１００を含む合成映像にさらに合成することもできる。

上記実施形態では、カメラＣＡでリアルタイムに撮影される演奏映像２００を用いる構成としたが、ハードディスク２０に予め記憶されている演奏映像を用いてもよい。あるいは、配信サーバＳｕなどの遠方のサーバにて再生されて配信される演奏映像を用いてもよい。

上記実施形態では、ハードディスク２０に記憶されている背景映像３００を用いる構成としたが、カメラでリアルタイムに撮影される背景映像を用いてもよい。あるいは、配信サーバＳｕなどの遠方のサーバにて再生されて配信される背景映像を用いてもよい。

なお、リアルタイムで撮影される背景映像や、遠方のサーバにて再生されて配信される背景映像を用いる場合、背景映像および音声を所定時間遅延させ、ユーザは、遅延されて再生される背景映像や音声に合わせて演奏することにより、遅延されていない背景映像とユーザの実演奏映像を用いて擬似的に遅延時間分の背景映像の先読みを行うことができる。よって、かかる場合も、上記実施形態と同様に、合成対象２００ａと他の演奏者とが数秒後に重なるか否かの判定を行うことが可能である。この場合、実演奏の合成は遅延された背景映像や音声に対して行うことになる。

上記実施形態では、Ｓ３２０５にて算出されたｓｌｈＰおよびｓｒｈＰを用いて、背景画像に合成対象２００ａをコピーする際の矩形領域の左上および右上座標を決定する場合に、ステージ面が映らない（すなわち、仮想ステージを含む平面の延長上にカメラがあって、演奏者までの距離にかかわらず演奏者のステージ接地点のｙ座標が変化しない）ものとした。つまり、演奏者までの距離にかかわらずｓｒｙの値が変化しないとした。これに対し、背景映像が仮想ステージの前方上空から俯瞰撮影された場合、演奏者までの距離（すなわち、演奏者のステージ上の奥行き方向の位置）に応じて、接地点のｙ座標が上下に変化する。演奏者の距離に応じて、接地点のｙ座標が上下に変化する場合には、ステージの奥行き方向の距離と、画面上でのステージの縦方向の画素数から、奥行き方向の位置に応じたｙ座標を算出し、演奏者の初期位置やその後の移動に応じてｓｒｙの値を変化させればよい。この場合、空間座標に基づいた計算を行うことにより、ｓｒｙの値をより精密に算出できる。

上記実施形態では、背景映像３００内の共演者の位置情報や、共演者映像の共演者の位置情報として、各フレーム画像における位置情報、すなわち、各共演者の移動が反映された位置情報を用いる構成としたが、共演者の位置情報を、初期位置などの固定的な位置情報としてもよい。また、位置情報に大きな変化があるタイミングで新たな位置情報が取得されるものであってもよい。

１０演奏処理装置
１００ユーザ
２００演奏映像
２００ａ合成対象
３００背景映像
４００合成映像

Claims

撮影部からの距離を示す第１距離情報を持つとともに演奏音を含む演奏映像を構成する第１フレーム画像から、当該演奏映像における被写体である前記演奏音の演奏者に対応する合成対象を抽出する抽出手段と、
前記抽出手段により抽出された合成対象を、撮影部からの距離を示す第２距離情報を持つとともに少なくとも伴奏音を含む背景映像を構成する第２フレーム画像内に設けられた仮想ステージ上の所定位置に配置したときの、当該合成対象に対する前記第１距離情報を、前記第２距離情報に変換する変換手段と、
前記所定位置を、前記背景映像内の前記仮想ステージ上に予め設定されている演奏パート毎の初期位置のうち、合成対象に対応する演奏者に担当させる所定の演奏パートに対する初期位置と、前記演奏映像における前記合成対象の、基準位置からの移動量とに基づいて設定する配置設定手段と、
前記合成対象を前記所定位置に配置したときに、前記合成対象の高さが前記背景映像に応じた高さとなるような合成倍率を算出する合成倍率算出手段と、
前記合成倍率算出手段により算出された合成倍率でリサイズされた、前記変換手段により変換された第２距離情報を持つ前記合成対象を、前記第２フレーム画像内の仮想ステージ上の前記所定位置に配置して合成することにより、前記第２フレーム画像から構成される合成映像を生成する合成手段と、
を備えていることを特徴とする共演映像演出装置。
前記合成手段は、前記演奏映像に含まれる前記演奏音と前記背景映像に含まれる前記少なくとも伴奏音とを合成して合奏音を生成し、当該合奏音を含む前記合成映像を生成することを特徴とする請求項１記載の共演映像演出装置。
前記合成手段により生成された合成映像を記憶部に記憶する第１記憶手段を備え、
前記背景映像は、前記第１記憶手段により前記記憶部に記憶された合成映像であることを特徴とする請求項１または２に記載の共演映像演出装置。
記憶部に記憶されている、前記背景映像に合成可能な、前記合成対象とは異なる他の演奏者を含む、当該他の演奏者を撮影した撮影部からの距離を示す第３距離情報を持つ共演者映像を選択する選択手段を備え、
前記変換手段は、前記選択手段により前記共演者映像が選択された場合、当該共演者映像を構成するフレーム画像に含まれる前記他の演奏者を、前記第２フレーム画像内に設けられた仮想ステージ上における前記演奏パート毎の初期位置のうち、当該他の演奏者に担当させる演奏パートに対する初期位置に応じた第２の所定位置に配置したときの、当該他の演奏者に対する前記第３距離情報を、前記第２距離情報に変換し、
前記合成倍率算出手段は、前記選択手段により前記共演者映像が選択された場合、当該共演者映像を構成するフレーム画像に含まれる他の演奏者を前記第２の所定位置に配置したときに、当該他の演奏者の高さが前記背景映像に応じた高さとなるような合成倍率を算出し、
前記合成手段は、前記選択手段により前記共演者映像が選択された場合、前記演奏映像から抽出された合成対象の合成に加え、前記合成倍率算出手段により算出された合成倍率でリサイズされた、前記変換手段による変換後の第２距離情報を持つ前記共演者映像に含まれる他の演奏者を、前記背景映像内の仮想ステージ上における前記第２の所定位置に配置して合成することにより前記合成映像を生成することを特徴とする請求項１から３のいずれかに記載の共演映像演出装置。
前記抽出手段により抽出された合成対象と、当該合成対象に対する前記第１距離情報とを含む映像を、前記背景映像に合成可能な他の演奏者を含む前記第３距離情報を持つ前記共演者映像として、記憶部に記憶する第２記憶手段を備えていることを特徴とする請求項４記載の共演映像演出装置。
所定の警告表示前記表示部に表示する警告表示手段と、
前記合成手段により生成された合成映像が、前記合成対象とは異なる他の演奏者を含む場合、当該合成映像において、前記合成対象が前記他の演奏者に対して所定距離以下に近づく可能性があるかを判断する第１判断手段と、を備え、
前記警告表示手段は、前記第１判断手段により前記可能性があると判断された場合に、前記警告表示として、その旨を報せる表示を表示させることを特徴とする請求項１から５のいずれかに記載の共演映像演出装置。
前記他の演奏者は、前記合成手段により前記合成対象と合成される、前記演奏映像とは異なる映像に含まれており、
前記他の演奏者を含む前記演奏映像とは異なる映像を、前記演奏映像に対して時間的にずらして取得する取得手段を備え、
前記第１判断手段は、前記取得手段により前記演奏映像に対して時間的にずらして取得された前記演奏映像とは異なる映像に含まれる前記他の演奏者に対して、前記合成対象が所定距離以下に近づく可能性があるかを判断することを特徴とする請求項６記載の共演映像演出装置。
前記他の演奏者を含む前記演奏映像とは異なる映像は、記憶部に記憶されており、
前記取得手段は、前記記憶部に記憶されている前記他の演奏者を含む前記演奏映像とは異なる映像を、前記演奏映像に対して先読みして取得することを特徴とする請求項７記載の共演映像演出装置。
前記他の演奏者を含む前記演奏映像とは異なる映像は、記憶部に記憶されている前記背景映像であることを特徴とする請求項８記載の共演映像演出装置。
前記他の演奏者を含む前記演奏映像とは異なる映像は、記憶部に記憶されている、前記背景映像に合成可能な、前記合成対象とは異なる他の演奏者を含む共演者映像であることを特徴とする請求項８記載の共演映像演出装置。
前記警告表示手段は、前記警告表示として、前記合成映像における、前記合成対象と、当該合成対象に対して所定距離以下に近づく可能性がある前記他の演奏者との位置関係を示す表示を表示させることを特徴とする請求項６から１０のいずれかに記載の共演映像演出装置。
前記警告表示手段は、前記警告表示として、前記合成対象と当該合成対象に対して所定距離以下に近づく可能性のある前記他の演奏者との重なりを回避するための方向を案内する表示を表示させることを特徴とする請求項６から１１のいずれかに記載の共演映像演出装置。
所定の警告表示前記表示部に表示する警告表示手段と、
前記合成対象が、前記仮想ステージの境界に対して所定距離以下に近づいたかを判断する第２判断手段と、を備え、
前記警告表示手段は、前記第２判断手段により前記所定距離以下に近づいたと判断された場合に、前記警告表示として、その旨を報せる表示を表示部に表示させることを特徴とする請求項１から１２のいずれかに記載の共演映像演出装置。
前記抽出手段は、撮影部により撮影中の前記演奏映像を構成する第１フレーム画像から、前記合成対象を抽出し、
前記警告表示手段は、前記撮影部により撮影中の前記演奏映像の撮影対象である演奏者の周囲に設置された複数の表示部のそれぞれに前記警告表示を表示させることを特徴とする請求項６から１３のいずれかに記載の共演映像演出装置。
前記警告表示手段は、前記演奏者の視線方向に合わせて異なる内容の前記警告表示を、前記複数の表示部のそれぞれに表示することを特徴とする請求項１４記載の共演映像演出装置。
前記合成映像において、前記所定の演奏パートを担当する前記抽出手段により抽出された合成対象と、前記所定の演奏パート以外の演奏パートを担当する他の演奏者とが含まれる場合、前記仮想ステージ上における前記合成対象と前記他の演奏者との位置関係を示す表示を表示部に表示させる位置表示手段を備えていることを特徴とする請求項１から１５のいずれかに記載の共演映像演出装置。
前記位置表示手段は、前記仮想ステージ上における前記合成対象と前記他の演奏者との位置関係を示す表示と、当該仮想ステージの境界とを、前記表示部に表示させることを特徴とする請求項１６記載の共演映像演出装置。
前記合成映像において、前記合成対象における所定領域をズームするズーム手段と、
前記ズーム手段によるズームが行われた場合、前記合成映像における前記所定領域以外の領域に対し、前記合成映像に対する前記第２距離情報に基づくぼかし処理を施すぼかし手段と、
を備えていることを特徴とする請求項１から１７のいずれかに記載の共演映像演出装置。
前記合成手段は、前記演奏映像に含まれる前記演奏音と前記背景映像に含まれる前記少なくとも伴奏音とを合成して合奏音を生成し、当該合奏音を含む前記合成映像を生成し、
前記合成手段により合成された前記第２フレーム画像から構成される合成映像を、表示部に表示させる合成映像表示手段と、
前記合成手段により合成された前記合成映像に含まれる合奏音を放音させる楽音出力手段と、
を備えていることを特徴とする請求項１から１８のいずれかに記載の共演映像演出装置。
前記請求項１９記載の共演映像演出装置と、
撮影部により撮影中の前記演奏映像の撮影対象である演奏者の前方と、当該演奏者の左右方向とにそれぞれ設置される表示部と、を備え、
前記共演映像演出装置は、
前記楽音出力手段により放音される前記合奏音に対応する補助表示を前記表示部に表示させる補助表示手段を備え、
前記合成映像表示手段は、前記前方および左右方向に表示される各表示部に前記合成映像を表示させ、
前記補助表示手段は、前記前方および左右方向に表示される各表示部に前記補助表示を表示させることを特徴とする映像演出システム。