JP2017005371A - 共演映像演出装置および共演映像演出システム - Google Patents

共演映像演出装置および共演映像演出システム Download PDF

Info

Publication number
JP2017005371A
JP2017005371A JP2015115022A JP2015115022A JP2017005371A JP 2017005371 A JP2017005371 A JP 2017005371A JP 2015115022 A JP2015115022 A JP 2015115022A JP 2015115022 A JP2015115022 A JP 2015115022A JP 2017005371 A JP2017005371 A JP 2017005371A
Authority
JP
Japan
Prior art keywords
video
performance
image
display
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015115022A
Other languages
English (en)
Inventor
敦 木田
Atsushi Kida
敦 木田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Roland Corp
Original Assignee
Roland Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Roland Corp filed Critical Roland Corp
Priority to JP2015115022A priority Critical patent/JP2017005371A/ja
Publication of JP2017005371A publication Critical patent/JP2017005371A/ja
Pending legal-status Critical Current

Links

Abstract

【課題】楽曲の再生に合わせてその演奏映像を表示させる場合において、その興趣を新規な手法によって向上させ得る共演映像演出装置および共演映像演出システムを提供すること。【解決手段】本発明によれば、カメラにより撮影される演奏映像と、予め準備されている背景映像とが、いずれも距離情報を持っており、演奏映像内の合成対象を背景映像に合成する際に、合成対象の距離情報を背景映像の距離情報に変換した上で、合成対象を背景映像に配置するので、合成対象が背景映像に含まれる各要素との前後関係において違和感なく合成される。また、合成の際には、合成対象の大きさが、演奏映像の距離情報と背景映像の距離情報とに応じたサイズにリサイズされるので、合成対象を、その配置と背景映像の画面高さとに対して違和感のない高さで合成でき、さらにその映像を新たな背景映像として再利用する事も出来る。【選択図】図2

Description

本発明は、共演映像演出装置および共演映像演出システムに関し、特に、時間的、または空間的に異なる状況において撮影された個々の演奏映像を、あたかも同一のステージ上などで同時に共演(合奏)しているような、リアリティのある共演映像を演出、作成できる共演映像演出装置および共演映像システムに関する。
近年、ユーザが特定の楽曲を歌唱したり楽器演奏を行った演奏映像をインターネット上の映像投稿サイトにアップロードして閲覧可能としたり、カラオケ施設において自己の演奏映像を撮影してサーバ等にそのデータを保存し、後日その映像を再生して楽しむ事が行われている。さらに、その演奏映像に合わせてさらに演奏を重ねたり、これらの映像を複数用いて、あたかも同時に演奏しているかのような効果が得られるよう加工する事により、時間や空間を超えた仮想的な共演(合奏)を楽しむような試みも行われるようになってきた。
また、従来より、被写体の撮影画像と、当該撮影画像とは別の背景画像とを用いて、あたかも被写体が背景画像と同じ場所に存在するような画像を合成する技術がある。これは一般にはクロマキー合成やルミナンスキー合成などとして知られており、被写体の撮影画像の画像データから、所定の物理情報に基づいて、例えば人体部分とそれ以外とを切り分け、人体部分の画像を、ベースとなる背景画像上に貼り込むようにして合成するものである。近年では、3次元情報に基づいたよりリアルな合成も試みられている。
特許文献1では、撮影した画像から距離情報などに基づいて抽出した歌唱者の動きに応じ、モデルやキャラクタに動きを再現させて背景画像内に配置して表示するカラオケ装置が提案されている。
特開2015−60061号公報
しかしながら、特許文献1のカラオケ装置では、歌唱者の動きに合わせたモデルまたはキャラクタが背景画像内に合成表示されるだけであり、冒頭で述べたように演奏を重ねたりするものではない。特許文献1の図13には、歌手を含む歌手背景画像を背景画像とし、当該背景画像(歌手背景画像)に歌唱者を合成する例が開示されているが、単に歌唱者が背景画像中の歌手画像と位置が重ならないよう固定的な位置関係に基づいて合成されるだけであり、例えば、歌手背景画像に含まれる歌手の歌唱音と、歌唱者の歌唱音とを重ねたり、合成を繰り返して多数の歌手や楽器演奏者による共演(合奏)画像を生成して楽しむ事などは考慮されていない。
本発明は、上述した事情を鑑みてなされたものであり、背景画像と演奏者の映像とを一定のリアリティを持たせて合成することで仮想的な共演(合奏)映像を提供し、共演時や鑑賞時の興趣を向上させ得る共演映像演出装置および共演映像演出システムを提供することを目的とする。
課題を解決するための手段および発明の効果
この目的を達成するために、請求項1記載の共演映像演出装置によれば、第1距離情報を持つとともに演奏音を含む演奏映像を構成する第1フレーム画像から、当該演奏映像における被写体である前記演奏音の演奏者に対応する合成対象が、抽出手段により抽出される。第1距離情報は、演奏映像を撮影する撮影部からの距離を示す情報である。抽出された合成対象を、第2距離情報を持つとともに少なくとも伴奏音を含む背景映像を構成する第2フレーム画像内に設けられた仮想ステージ上の所定位置に配置したときの、当該合成対象に対する第1距離情報が、変換手段により、背景映像が持つ第2距離情報に変換される。第2距離情報は、背景映像を撮影した撮影部からの距離を示す情報である。
よって、第2距離情報を持つ合成対象を背景映像に合成する場合、背景映像に含まれる各種要素のうち、第2距離情報が、合成対象に対する第2距離情報より撮影部に近いことを示す要素は、得られた合成映像において、合成対象より前方に配置される。一方、第2距離情報が、合成対象に対する第2距離情報より撮影部から遠いことを示す要素は、得られた合成映像において、合成対象より後方に配置されることになる。これにより、合成対象が、背景映像に含まれる各要素に対し自然な前後関係で配置された合成映像を得ることができる。
また、合成対象を仮想ステージ上の所定位置に配置したときに、合成対象の高さが背景映像に応じた高さとなるような合成倍率が、合成倍率算出手段により算出される。算出された合成倍率でリサイズされた、変換手段により変換された第2距離情報を持つ合成対象が、合成手段により、背景映像を構成する第2フレーム画像内の仮想ステージ上の所定位置に配置して合成される。よって、合成対象が背景映像に対して違和感のないサイズで合成された合成映像を得ることができる。
さらに、合成対象が配置される所定位置は、背景映像内の仮想ステージ上に予め設定されている演奏パート毎の初期位置のうち、合成対象に対応する演奏者に担当させる所定の演奏パートに対する初期位置と、演奏映像における合成対象の、基準位置からの移動量とに基づき、配置設定手段により設定される。よって、合成対象を、当該合成対象に対応する演奏者に担当させる演奏パートに対して予め設定されている初期位置に応じた位置に配置させることができるので、演奏パートとして自然な位置に合成対象を配置させることができる。上記の通り、合成対象は、背景映像に対し、前後関係およびサイズのいずれについても違和感なく合成されているので、当該合成対象が、演奏パートとして自然な位置に配置されたことにより、リアリティのあるライブ演奏の映像であるかのような仮想的な共演(合奏)映像の提供が可能となる。これにより、共演時や共演後の映像鑑賞時における興趣を向上できる。
請求項2記載の共演映像演出装置によれば、請求項1が奏する効果に加え、次の効果を奏する。演奏映像に含まれる演奏音と、背景映像に含まれる少なくとも伴奏音とを合成して合奏音を生成し、当該合奏音を含む合成映像が生成される。よって、仮想的な共演映像として、合奏音を含む合成映像を提供できるので、共演時や共演後の映像鑑賞時における興趣を好適に向上できる。
請求項3記載の共演映像演出装置によれば、請求項1または2が奏する効果に加え、次の効果を奏する。生成された合成映像は記憶部に記憶され、背景映像として利用できるので、撮影映像に含まれる演奏者が追加された背景画像を後に利用できる。よって、共演(合奏)映像における共演者の数を合成映像の生成毎に増やすことができる。
請求項4記載の共演映像演出装置によれば、請求項1から3のいずれかが奏する効果に加え、次の効果を奏する。記憶部に記憶された、背景映像に合成可能な、合成対象とは異なる他の演奏者を含む、当該他の演奏者を撮影した撮影部からの距離を示す第3距離情報を持つ共演者映像が、選択手段により選択された場合には、当該選択された共演者映像に含まれる他の演奏者を、仮想ステージ上における当該他の演奏者に担当させる演奏パートに対する初期位置に応じた第2の所定位置に配置したときの、当該他の演奏者に対する第3距離情報が、変換手段により、第2距離情報に変換される。また、選択された共演者映像に含まれる他の演奏者を第2の所定位置に配置したときに、当該他の演奏者の高さが背景映像に応じた高さとなるような合成倍率が、合成倍率算出手段により算出される。そして、算出された合成倍率でリサイズされた、第2距離情報を持つ共演者映像に含まれる他の演奏者が、合成手段により、背景映像内の仮想ステージ上における第2の所定位置に配置される。よって、記憶部に記憶される演奏者映像の中から、所望の演奏者を含む演奏者を選んで共演させることができる。
請求項5記載の共演映像演出装置によれば、請求項4が奏する効果に加え、次の効果を奏する。演奏映像から抽出された合成対象と、当該合成対象に対する第1距離情報とを含む映像が、記憶手段により、背景映像に合成可能な他の演奏者を含む第3距離情報を持つ共演者映像として、記憶部に記憶される。よって、演奏映像を撮影する毎に、当該演奏映像に含まれる合成対象を、その後に他の演奏者として利用できる。
請求項6記載の共演映像演出装置によれば、請求項1から5のいずれかが奏する効果に加え、次の効果を奏する。合成映像が合成対象とは異なる他の演奏者を含む場合、当該合成映像において、合成対象が他の演奏者に対して所定距離以下に近づく可能性があるかが、第1判断手段により判断される。その可能性があると判断された場合には、その旨を報せる表示が、警告表示手段により、警告表示として表示部に表示される。よって、合成対象に対応するユーザは、警告表示に基づき、合成映像上で他の演奏者と重なる可能性があることを知ることができる。
請求項7記載の共演映像演出装置によれば、請求項6が奏する効果に加え、次の効果を奏する。他の演奏者を含む映像を演奏映像に対して時間的にずらして取得することで、第1判断手段による判断を行うことができる。
請求項8記載の共演映像演出装置によれば、請求項6が奏する効果に加え、次の効果を奏する。他の演奏者を含む映像を記憶部から先読みして取得することで、第1判断手段による判断を行うことができる。
請求項9記載の共演映像演出装置によれば、請求項8が奏する効果に加え、次の効果を奏する。記憶部に記憶されている背景映像を用いて、第1判断手段による判断を行うことができる。
請求項10記載の共演映像演出装置によれば、請求項8が奏する効果に加え、次の効果を奏する。記憶部に記憶されている、背景映像に合成可能な共演者映像を用いて、第1判断手段による判断を行うことができる。
請求項11記載の共演映像演出装置によれば、請求項6から10のいずれかが奏する効果に加え、次の効果を奏する。合成映像における、合成対象と、当該合成対象に対して所定距離以下に近づく可能性がある他の演奏者との位置関係を示す表示が、警告表示として表示されるので、ユーザに、自身に対応する合成対象の位置と、当該合成対象に重なる可能性のある他の演奏者の位置との位置関係を報せることができる。
請求項12記載の共演映像演出装置によれば、請求項6から11のいずれかが奏する効果に加え、次の効果を奏する。合成対象と当該合成対象に対して所定距離以下に近づく可能性のある他の演奏者との重なりを回避するための方向を案内する表示が、警告表示として表示されるので、合成対象に対応するユーザに、合成画像上で他の演奏者との重なりを回避するためにどのように動けばよいかを報せることができる。
請求項13記載の共演映像演出装置によれば、請求項1から12のいずれかが奏する効果に加え、次の効果を奏する。合成対象が仮想ステージの境界に対して所定距離以下に近づいたかが、第2判断手段により判断される。合成対象が仮想ステージの境界に対して所定距離以下に近づいたと判断された場合に、その旨を報せる表示が、警告表示手段により、警告表示として表示部に表示される。これにより、合成対象となるユーザは、仮想ステージの端部に近づいていることを知ることができる。
請求項14記載の共演映像演出装置によれば、請求項6から13のいずれかが奏する効果に加え、次の効果を奏する。撮影部により撮影中の演奏映像の撮影対象である演奏者の周囲に設置された複数の表示部のそれぞれに警告表示が表示されるので、演奏者として撮影中のユーザは、周囲に設置された複数の表示部のうち、自身がそのときに視線を向けている方向にある表示部の警告表示を見ることができる。そのため、ユーザは、警告表示を見るためにわざわざ特定の方向を向く必要がない。これにより、不自然な方向に視線を向ける不自然な映像が得られることを抑制できる。
請求項15記載の共演映像演出装置によれば、請求項14が奏する効果に加え、次の効果を奏する。警告表示は、撮影中の演奏者であるユーザの視線方向に合わせて異なる内容で表示されるので、ユーザは、複数の表示部のうち、どの表示部に表示された警告表示を見ても、その内容を把握し易い。
請求項16記載の共演映像演出装置によれば、請求項1から15のいずれかが奏する効果に加え、次の効果を奏する。合成映像において、所定の演奏パートを担当する合成対象と、所定の演奏パート以外の演奏パートを担当する他の演奏者とが含まれる場合、仮想ステージ上における被写体と演奏者との位置関係を示す表示が、位置表示手段により表示部に表示される。よって、被写体となるユーザは、各演奏者の位置関係を把握することができる。
請求項17記載の共演映像演出装置によれば、請求項16が奏する効果に加え、次の効果を奏する。仮想ステージ上における合成対象と他の演奏者との位置関係を示す表示に加え、仮想ステージの境界が表示部に表示されるので、合成対象となるユーザは、各演奏者の位置関係だけでなく、各演奏者が立つ仮想ステージの境界を把握することができる。
請求項18記載の共演映像演出装置によれば、請求項1から17のいずれかが奏する効果に加え、次の効果を奏する。合成映像において、合成対象を含む所定領域が、ズーム手段によりズームされた場合、合成映像における前記所定領域以外の領域に対し、当該合成映像に対する第2距離情報に基づくぼかし処理が、ぼかし手段によって施される。よって、望遠効果による臨場感を出すことができる。
請求項19記載の共演映像演出装置によれば、請求項1から18のいずれかが奏する効果に加え、次の効果を奏する。合成対象が合成された第2フレーム画像から構成される合成映像が表示部に表示される。その一方で、合成映像は、演奏映像に含まれる演奏音と、背景映像に含まれる少なくとも伴奏音とから合成された合奏音を含み、当該合奏音が発音される。よって、演奏者として参加したユーザは、自身が演奏する姿を表示部に表示された合成映像の中に見ることができるとともに、自身の演奏音を含む合奏音を聞くことができる。これにより、ユーザは、自身が演奏者として共演したことを実感させることができるので、当該ユーザに共演する楽しみを提供できる。
請求項20記載の映像演出システムによれば、請求項19の共演映像演出装置が奏する効果に加え、次の効果を奏する。撮影部により撮影中の演奏映像の撮影対象である演奏者の前方と、当該演奏者の左右方向とにそれぞれ設置される表示部を備えている。前方および左右方向に表示される各表示部には、合成映像が表示されるとともに、放音される合奏音に対応する補助表示が表示される。よって、ユーザは、他の演奏者の方を向いて演奏を行う場合において、左右方向の表示部にて、合成映像と補助表示を見ることができるので、ユーザが不自然な方向に視線を向ける不自然な映像が得られることを抑制できる。
本発明の共演映像演出装置を用いた共演システムの構成を示すブロック図である。 演奏映像と背景映像とから合成映像が生成されるまでの一連の処理の流れを示す模式図である。 (a)は、被写体を仮想ステージに配置させたときの距離情報の変化を説明するための模式図であり、(b)は、被写体を合成する際に行うリサイズを説明するための模式図である。 (a)は、ユーザの移動に応じた仮想ステージ上の被写体の移動を説明するための模式図であり、(b)は、各演奏パートの初期位置の一例を示す模式図である。 (a)は、3面モニタの配置を示す模式図であり、(b)は、正面モニタの表示内容の一例を示す模式図であり、(c)は、メンバー配置を示す画像の一例を示す模式図である。 (a)および(b)は、それぞれ、左モニタおよび右モニタの表示内容の一例を示す模式図である。 各モニタに表示される警告表示の一例を示す模式図である。 (a)〜(c)は、それぞれ、メイン処理、初期設定処理、および合成映像生成処理を示すフローチャートである。 対象抽出処理を示すフローチャートである。 対象抽出処理を示すフローチャートである。 合成処理を示すフローチャートである。 トリミング・背景ぼかし処理を示すフローチャートである。 トリミング・背景ぼかし処理を示すフローチャートである。 合成映像処理の流れを示すブロック図である。
以下、本発明の好ましい実施形態について、添付図面を参照して説明する。図1は、本発明の共演映像演出装置を含む共演システム1の構成を示すブロック図である。共演システム1は、演奏処理装置10と、正面モニタD1と、左モニタD2と、右モニタD3と、配信サーバSuとを含む。演奏処理装置10は、ユーザが演奏を行う楽曲の再生を行うとともに、ユーザの演奏音または演奏情報とユーザの演奏映像を取り込み、本発明の共演映像演出装置として映像合成などを行った後にその結果を出力する。
詳細は後述するが、演奏処理装置10は、再生される楽音に合わせて演奏を行うユーザをカメラCAで撮影し、その撮影映像(以下「演奏映像」と称す)から、ユーザ部分の画像を合成対象として抽出する。演奏処理装置10は、演奏映像から抽出された合成対象を、予め準備されている背景映像に合成し、得られた映像(以下「合成映像」と称す)をモニタD1〜D3に表示する。
特に、本実施形態において、演奏映像および背景映像は、各映像を撮影したカメラからの距離情報のマップであるデプスマップを持っており、演奏処理装置10は、かかるデプスマップを利用し、演奏映像から抽出した合成対象(すなわち、ユーザ部分の画像)を、背景映像の距離情報に合わせて合成する。これにより、合成対象が、背景映像に含まれる各要素との前後関係において違和感なく合成される。
なお、本明細書における「映像」は、画像(より詳細には、フレーム画像)と音とを含んで構成される動画を意味する。しかし、以下の説明において、「映像」の処理は、特に明示しない限り、当該映像を構成する画像の処理を意味する。なお、本実施形態の「映像」は、1の映像を構成する画像と音とが格納された1のファイルとして存在するものであってもよいし、1の映像を構成する画像と音とがそれぞれ別体(例えば、別ファイル)として存在するものであってもよい。なお、画像と音とがそれぞれ別体として存在する場合、再生の際には、画像と音とは同期して再生され、記録の際には、画像と音とが同期して記録される。
演奏処理装置10は、CPU11と、ROM12と、RAM13と、通信部14と、楽器接続部15と、音源部16と、楽音制御部17と、アンプ18と、ADコンバータ19と、ハードディスク20と、映像制御部21と、カメラ入力部22と、赤外線入力部23と、操作部24と、表示部25とを有する。
CPU11は、ROM12に記憶される固定値やプログラム、RAM13に記憶されているデータなどに従って、演奏処理装置10の各部を制御する中央制御装置である。ROM12は、CPU11に実行させる各種プログラムなどを記憶するリード・オンリー・メモリである。後述する図8から図13のフローチャートに示す各処理は、ROM12に記憶されるプログラムに従い、CPU11が実行する。RAM13はCPU11の作業エリアなどに利用されるランダム・アクセス・メモリである。
通信部14は、インターネットなどの通信回線上の配信サーバSuと通信するための装置である。演奏処理装置10は、通信部14を介して、配信サーバSuから、楽曲データや背景映像などの配信を受ける。なお、配信サーバSuから受信した楽曲データや背景映像などの各種データは、ハードディスク20に設けられた各種データベースのうち、受信したデータに応じたデータベースに記憶される。
楽器接続部15は、楽器Iから入力された演奏信号を、CPU11などに供給する。楽器接続部15に接続される楽器Iは、例えば、エレキギターや、エレキベースや、電子ドラムや、キーボードなどの各種電子楽器である。音源部16は、ハードディスク20から読み出した楽曲データや、楽器接続部15を介して入力された楽器Iの演奏信号に応じた楽音信号を出力する。楽音制御部17は、音源部16から出力された楽音信号をアンプ18により増幅可能な信号に変換して出力する。
アンプ18には、楽音制御部17から入力された楽音信号と、マイクMCから入力されたアナログの音声信号とをミキシングするミキシング回路が設けられている。アンプ18は、ミキシングにより得られたミキシング信号を増幅してスピーカSPに出力する。これにより、ミキシング信号に基づく楽音がスピーカSPから放音される。ADコンバータ19は、マイクMCから入力されたアナログの音声信号をディジタル信号に変換して、CPU11などに供給する。なお、楽器Iから演奏信号ではなく演奏楽音(オーディオ信号)が入力される場合はマイク入力の場合と同様の経路(図示せず)が用意される。
ハードディスク20には、楽曲データベースや、背景映像データベースなどの各種データベースが設けられている。楽曲データベースには、演奏処理装置10が再生可能な楽曲の楽曲データが記憶される。楽曲データベースには、多数(例えば、数万曲分)の楽曲データが記憶されている。楽曲データは、音源部16により所定の楽器の演奏音を生成するためのMIDIデータなどの演奏情報と、歌詞を表示させるための歌詞情報などを含む。
背景映像データベースには、演奏処理装置10が再生可能な楽曲の各々に対する背景映像のデータが記憶される。背景映像は、当該背景映像を撮影したカメラからの距離情報が格納されたデプスマップを持つ。なお、背景映像データベースに記憶される背景映像は、1の楽曲に対して1つとは限らず、1の楽曲に対して複数であってもよく、また複数の楽曲に同じ背景映像が対応していてもよい。
映像制御部21は、正面モニタD1、左モニタD2、および右モニタD3の各々への出力映像を生成する装置である。映像制御部21は、CPU11からの制御信号に基づき、演奏映像から抽出した合成対象(ユーザ部分の画像)を背景映像に合成したり、生成された合成映像などを含む画面を出力先のモニタD1〜D3に応じてレイアウトしたりする。
カメラ入力部22は、カメラCAからの撮影信号を入力する。なお、カメラCAは、デプスマップを持つ映像を撮影できるカメラである。つまり、カメラCAは、映像を撮影する撮影カメラと、撮影された映像に対する3次元計測用のカメラ(例えば、赤外線カメラ)とを含んで構成される。
赤外線入力部23は、赤外線を受光する受光部(図示せず)を有し、当該受光部を介して入力された赤外線信号に応じた操作信号をCPU11に出力する。赤外線入力部23に入力される赤外線信号は、例えば、演奏処理装置10を遠隔操作するリモコン(図示せず)からの赤外線信号である。操作部24は、演奏処理装置10の筐体に設けられたボタンなどの操作子が操作されたことに応じて、操作信号をCPU11に出力する。表示部25は、演奏処理装置10の筐体に設けられたLCDやLEDなどであり、CPU11からの制御信号に基づく表示を行う。
図2から図7を参照して、本発明の概要を説明する。上述した通り、演奏処理装置10は、演奏映像から抽出された合成対象(ユーザ部分の画像)を背景映像に合成した合成映像を生成する。当該合成映像の生成は、映像を構成するフレーム画像の単位で行われる。図2は、演奏映像と背景映像とから合成映像が生成されるまでの一連の処理の流れを示す模式図である。なお、本実施形態では、簡単のため、演奏映像や背景映像を撮影するカメラは、撮影中にPTZ(パン・チルト・ズーム)操作が行われないものとする。
再生される楽音に合わせて演奏するユーザ100をカメラCAで撮影すると(図2(a))、図2(b)に示すように、デプスマップ201を持つ演奏映像200が生成される。図2(a)では、演奏として歌唱を行うユーザ100を例示したが、ギターやドラムなどの各種楽器の演奏を行うユーザであってもよい。演奏映像200は、カメラCAによる実空間(すなわち、実写)の撮影映像である。デプスマップ201は、演奏映像200を構成するフレーム画像の単位で生成され、各フレーム画像の画素単位でカメラCAからの距離情報が格納される。
本実施形態において、距離情報は、16ビット幅のデータであり、0から65535(10進法)までの整数値をとることができる。距離情報は、カメラCAに近いほど小さい値となり、カメラCAから遠くなるにつれて大きい値となる。仮に距離情報を各画素の明るさに置き換えて可視化すると、デプスマップ201は、距離情報が小さい値であるほど暗く、距離情報が大きくなるにつれて明るくなるグラデーション画像として表現される。よって、デプスマップ201の画像は、カメラCAに近いほど暗く、カメラCAから遠くなるほど明るくなる。なお、このような可視化は必須ではないが、ユーザの利便のために表示してもよい。
本実施形態では、距離情報の単位をミリメートル(mm)とし、0から65535までの範囲に対し、0mmから65535mmまでの実測範囲を割り当てる。つまり、本実施形態では、デプスマップ201において距離情報が示す値が、カメラCAから被写体までのmm単位の距離を示す。カメラCAからの距離が65535mmを超える場合、距離情報を0とする。なお、距離情報の範囲に対する実測範囲の割り当ては、0mmから65535mmに限らず、適宜の範囲を採用できる。また、距離情報の単位は、mmに限らず、距離に関する適宜の単位を利用できる。
次に、図2(c)に示すように、デプスマップ201に基づいて、演奏映像200からユーザ100に相当する合成対象200aが抽出される。具体的には、ユーザ100が存在すると考えられる一定範囲の距離情報を持つ画素からなる範囲が抽出される。抽出された合成対象200aに対する距離情報は、抽出元の演奏映像200のデプスマップ201から取得される。抽出元の演奏映像200のデプスマップ201から、合成対象200aの部分の距離情報のみを抽出したデプスマップを生成してもよい。
合成対象200aの抽出は、フレーム画像毎に行われる。本実施形態では、演奏映像200から抽出された、デプスマップ201を持つ合成対象200aのフレーム画像からなる映像を、共演者映像としてハードディスク20に保存し、後に、ユーザ100と共演する他の演奏者(すなわち、共演者)の映像として利用できる。なお、共演者映像の保存先は配信サーバSuであってもよい。
ハードディスク20には、図2(d)に示すような、デプスマップ301を持つ背景映像300が記憶されている。背景映像300は、デプスマップを持つ映像を撮影できる、カメラCAと同様の構成のカメラを用いて予め撮影された、ステージの撮影映像である。図2(d)に示す例では、背景映像300は、後方に舞台幕が垂らされるとともに照明が当てられた無人のステージの映像である。
背景映像300は、後にカメラCAを用いて撮影されるユーザ100が実施する演奏パート以外の演奏パートを担当する共演者を含むステージの映像であってもよい。なお、共演者を含むステージの背景映像300は、楽曲毎に撮影される。本実施形態では、背景映像300は、楽曲毎に準備されている。楽曲に応じて、1または複数の背景映像300が準備されている。なお、ステージが無人であったり、演奏を行わない共演者を含むなど、異なる楽曲の背景映像にも利用できる場合は、同じ背景映像300を、複数の楽曲が利用できる構成としてもよい。
デプスマップ301は、上述したデプスマップ201と同様に構成される。デプスマップ301には、背景映像300を撮影したカメラからの距離情報が画素単位で格納される。以下、演奏映像200を撮影するカメラCAからの距離情報と、背景映像300を撮影するカメラからの距離情報とを区別できるよう、前者を「第1距離情報」と称し、後者を「第2距離情報」と称することがある。
ハードディスク20から読み出された背景映像300に、演奏映像200から抽出された合成対象200aを合成した合成映像400が生成される(図2(e))。このとき、合成対象200aは、背景映像300内の仮想ステージ上における、ユーザ100が担当する演奏パートに応じて設定された初期位置を基準とする位置に配置される。合成対象200aの合成は、フレーム画像の単位で行われる。 本実施形態では、上記のようにハードディスク20に記憶させた共演者映像を利用し、当該共演者映像に含まれる共演者も背景映像300に合成できる。
演奏映像200から抽出された合成対象200aが、仮想ステージに配置されたことにより、合成対象200aに対応するユーザ100を撮影するカメラからの距離も変化する。例えば、図3(a)に示すように、演奏映像200の撮影時においてカメラCAから距離Waだけ離れた位置で撮影されるユーザ100を、仮想ステージ500上に配置させた結果、仮想ステージ500を撮影するカメラ(すなわち、背景映像300を撮影するカメラ)から、当該仮想ステージ500上のユーザ100までの距離はWbに変化する。図3(a)に示す例では、距離Wbは、距離Waより長い場合を示したが、距離Wbが、距離Waより短くなる場合もあり得る。
よって、合成対象200aを背景映像300に合成する際には、抽出された合成対象200aに対する距離情報(第1距離情報)を、合成対象200aを仮想ステージに配置させたときのカメラからの距離を示す距離情報(第2距離情報)に変換する。これにより、合成対象200aを、仮想ステージに含まれる舞台幕や共演者や機材などの各要素との前後関係を保ちつつ合成できる。つまり、カメラからの距離が合成対象200aより近い要素を、合成対象200aの前方に配置し、カメラからの距離が合成対象200aより遠い要素を、合成対象200aの後方に配置できる。
ここで、カメラからユーザ100までの距離が第1距離情報と第2距離情報とで異なる場合、その相違に応じて合成対象200aの高さ(より詳細には、高さと幅を含めた大きさ)を変化させる必要がある。本実施形態では、合成の際には、演奏映像200から抽出された合成対象200aの高さを、背景映像300の画面高さに応じた高さにリサイズする。これにより、合成対象200aを、その配置と背景映像300の画面高さとに対して違和感のない高さで合成できる。
具体的に、図3(b)に示すように、映像として収まる範囲の高さhは、その映像を撮影したカメラの画角(より詳細には、縦画角)fovと、当該カメラから被写体までの距離dとから、以下の式(1)を用いて算出することができる。
h=2*d*tan(fov/2) …(1)
本実施形態では、レンズのディストーションはないものとして、抽出された合成対象200aに対する実空間での距離情報(すなわち、第1距離情報)と、カメラCAのレンズの画角とから、上記式(1)に基づき、演奏映像200に映り込む合成対象200aの高さ(mm単位)を算出する。次に、演奏映像200の高さ方向であるY方向の全ピクセル数と、合成対象200aのY方向のピクセル数との比率を用いて、演奏映像200に映り込む合成対象200aの高さ(mm単位)から、合成対象200aに対応するユーザ100の身長(mm単位)を算出する。なお、本実施形態においては、画面の左上端を原点として、右へ向かう方向へx座標、下へ向かう方向へy座標を取っている。
次に、仮想ステージ500上における合成対象200aの配置位置までの距離情報(すなわち、第2距離情報)と、背景映像300を撮影したカメラの画角とから、上記式(1)に基づき、仮想ステージ500における上記配置位置において映り込む画面高さ(mm単位)を算出する。
次に、上記のように算出された背景映像300の画面高さと、ユーザ100の身長との比率から、仮想ステージ500における上記配置位置に配置する合成対象200aのy方向のピクセル数を算出する。次に、演奏映像200から抽出された合成対象200aのy方向のピクセル数が、仮想ステージ500における上記配置位置に配置する合成対象200aのy方向のピクセル数となるような合成倍率を算出する。そして、演奏映像200から抽出された合成対象200aを、算出された合成倍率で拡大または縮小させて背景映像300に合成する。
演奏映像200から抽出された合成対象200aを配置させる位置は、演奏映像200における合成対象200aの基準位置を、当該合成対象200aに対応するユーザ100が担当する演奏パートに応じた初期位置とする。演奏映像200における合成対象200aの基準位置は、例えば、演奏映像200における合成対象200aの最初の位置である。当該基準位置は、画素の座標と、当該画素に対する第1距離情報とで表される。一方、演奏パートに応じた初期位置は、画素の座標と、当該画素に対する第2距離情報とで表される。
本実施形態では、演奏パートに応じた初期位置は、各背景映像300の演奏パート毎にハードディスク20に準備されているものとする。あるいは、仮想ステージ500上の平面座標や、高さ方向も含めた空間座標をハードディスク20などに記憶させておき、演奏パートに応じた初期位置とする画素座標を、周知の透視変換式などを用いて求めてもよい。
実空間においてユーザ100が移動した場合(すなわち、演奏映像200における合成対象200aが移動した場合)、その移動が仮想ステージ500における初期位置からどの方向にどの程度移動したかを算出し、仮想ステージ500上にて合成対象200aを配置させる位置を移動させる。例えば、図4(a)に示すように、実空間においてユーザ100が、基準位置Paから前方(矢印A方向)に移動した場合、仮想ステージ500上の合成対象200aの位置は、仮想ステージ500上のユーザ100が初期位置Pbから前方に実空間での移動量に応じた移動量で移動したときの位置とされる。
演奏パートに応じた初期位置Pbは、ライブ演奏における一般的なパートの配置に応じて設定される。例えば、楽曲を演奏するメンバーが、ボーカルVoと、ギターGtと、ベースBaと、ドラムDrとの4人構成である場合、各演奏パートの初期位置は、図4(b)に示すように設定される。つまり、ボーカルVoの初期位置は、仮想ステージ500の前方中央に設定され、ドラムDrの初期位置は、仮想ステージ500の後方中央に設定される。ギターGtの初期位置は、仮想ステージ500における向かって右側に設定される。ベースBaの初期位置は、仮想ステージ500における向かって左側に設定される。
なお、楽曲に応じてメンバー構成が異なることがあるので、利用可能なメンバー構成毎に、各演奏パートの初期位置が準備されている。なお、同じメンバー構成であっても、楽曲やアーティストに応じて、各演奏パートの初期位置が異なる場合がある。つまり、メンバー構成が、ボーカルVo、ギターGt、ベースBa、およびドラムDrであっても、各演奏パートの初期配置が図4(b)に示す配置とはならない場合もある。
本実施形態の共演システム1では、正面モニタD1、左モニタD2、および右モニタD3からなる3面モニタ構成が採用される。図5(a)に示すように、正面モニタD1、左モニタD2、および右モニタD3は、ユーザ100がカメラCAを向いた場合に、それぞれ、ユーザ100の正面、左側、および右側となるよう設置される。
図5(b)は、正面モニタD1の表示内容の一例を示す模式図である。正面モニタD1には、領域J1〜領域J4が設けられる。領域J1には、合成映像400が表示される。領域J2には、再生中の楽曲に対応する補助表示が表示される。補助表示は、例えば、歌詞または譜面などである。領域J3には、ユーザ100に対する警告が表示される。領域J4には、メンバー配置を示す画像600が表示される。
図5(c)は、画像600の一例を示す模式図である。図5(c)には、図5(b)の領域J4に表示される画像600を例示する。画像600には、領域J1に表示される合成映像400の現フレーム画像における、各演奏メンバーの位置が表示される。よって、ユーザ100は、画像600の内容から、各演奏メンバーの相対的な配置を把握できる。
図5(b)の領域J1に表示される合成映像400には、演奏メンバーとして、ボーカルVoと、ギターGtと、ベースBaと、ドラムDrが含まれているので、図5(c)の画像600には、ボーカルVo、ギターGt、ベースBa、およびドラムDrの各位置が円として表示される。なお、画像600において各演奏メンバーを示す図形は、円に限られるものではない。また、各演奏メンバーを示す図形に、演奏パートに応じた文字列、例えば、ボーカルを示す図形に「Vo」などの文字列を表示させてもよい。
本実施形態では、画像600に表示する各演奏メンバーを示す図形の表示態様を、その演奏メンバーが、演奏映像200から抽出された合成対象200aに対応するユーザ100であるか、共演者であるかに応じて変化させる。図5(c)に示す例では、ユーザ100の演奏パートを示す図形を塗りつぶし、共演者の演奏パートを示す図形にハッチングをかけることで両者の表示態様の違いを表している。表示態様の違いとしては、図形を着色する色や、図形の形状を異ならせることが例示される。
本実施形態では、背景映像300を、撮影中の演奏映像200に対して数秒(例えば、1秒)程度先読みし、数秒後に位置が移動している共演者について、数秒後における移動先の位置を画像600に表示する。また、ハードディスク20に記憶された共演者映像を利用する場合もまた、同様の先読みを行い、数秒後における共演者の移動先の位置を画像600に表示する。
例えば、図5(c)に示すように、共演者であるギターGtが数秒後に現在位置から移動している場合に、その移動先の位置を破線の丸Mとして表示する。ギターGt以外の演奏パートについても、数秒後に位置が移動するものがある場合には同様に移動先の位置に破線の丸を表示する。なお、移動先の位置の表示形態としては、破線の丸に限らず、色の変更、図形の変更、単なる点として表すなど、種々の形態を採用できる。
画像600には、仮想ステージ500の境界を示す枠が表示される。これにより、ユーザ100は、仮想ステージ500の境界を把握できる。合成映像400にスピーカなどの機材が含まれる場合には、仮想ステージ500上にスピーカなどの機材を示す図形が、当該機材の配置に応じた位置に表示される構成としてもよい。
図5(b)に示すように、正面モニタD1の領域J4に表示される画像600は、仮想ステージ500の前方(矢印F方向)が正面モニタD1の上側に向けて配置される。これにより、ユーザ100が正面モニタD1を向く状況では、ユーザ100の右方が仮想ステージ500の右方となり、ユーザ100の左方が仮想ステージ500の左方となる。よって、仮想ステージ500の前方を正面モニタD1の上方に向けて配置させた画像600を、正面モニタD1に表示させることにより、ユーザ100は、自身の動き、および、共演者の動きを画像600の内容から感覚的に把握できる。
図6(a)および(b)は、それぞれ、左モニタD2および右モニタD3の表示内容の一例を示す模式図である。左モニタD2および右モニタD3には、正面モニタD1と同様の領域J1〜領域J4が設けられる。モニタD2,D3の領域J1および領域J2には、それぞれ、正面モニタD1に表示される合成映像400および補助表示と同じものが表示される。
正面モニタD1の領域J3に警告表示が表示された場合、左モニタD2および右モニタD3の領域J3にも同じ警告表示が表示される。なお、モニタD2,D3の領域J3に表示される警告表示のサイズは、正面モニタD1の領域J3に表示される警告表示のサイズより縮小されていてもよい。
左モニタD2の領域J4には、正面モニタD1の領域J4に表示される画像600と同じ画像が表示される。ただし、左モニタD2に表示される画像は、図6(a)に示すように、仮想ステージ500の前方(矢印F方向)が左モニタD2の右側に向けて配置される。ユーザ100が左モニタD2を向く状況では、ユーザ100の右方が仮想ステージ500の前方となり、ユーザ100の左方が仮想ステージ500の後方となる。よって、仮想ステージ500の前方を左モニタD2の右側に向けて配置させた画像600を、左モニタD2に表示させることにより、ユーザ100は、自身の動き、および、共演者の動きを画像600の内容から感覚的に把握できる。
一方、右モニタD3の領域J4にもまた、正面モニタD1の領域J4に表示される画像600と同じ画像が表示される。ただし、右モニタD3に表示される画像は、図6(b)に示すように、仮想ステージ500の前方(矢印F方向)が左モニタD3の左側に向けて配置される。ユーザ100が右モニタD3を向く状況では、ユーザ100の左方が仮想ステージ500の前方となり、ユーザ100の右方が仮想ステージ500の後方となる。よって、仮想ステージ500の前方を右モニタD3の左側に向けて配置させた画像600を、右モニタD3に表示させることにより、ユーザ100は、自身の動き、および、共演者の動きを画像600の内容から感覚的に把握できる。
このように、本実施形態の共演システム1では、ユーザ100の左右に設置されるモニタD2,D3の領域J1〜J4には、正面モニタD1の領域J1〜J4と同内容の表示が行われる。よって、ユーザ100が左または右方向を向いて演奏を行ったとしても、ユーザ100は、向いた側に設定されているモニタD2,D3を見ることによって、合成映像400、補助表示、警告表示、および画像600を見ることができる。
ユーザ100は、演奏を行う一方で、合成映像400を生成するための合成対象200aとなる被写体としてカメラCAにより撮影される。そのため、ユーザ100が左または右方向を向いて演奏を行いつつ、歌詞などの補助表示を見るために不自然な方向に視線を向けた場合には、その不自然な姿が合成映像400として表示されることになる。
これに対し、本実施形態では、ユーザ100が左または右方向を向いたとしても、ユーザ100は、左右のモニタD2,D3で補助表示などを見ることができるので、左右方向を向いたユーザ100が不自然な方向に視線を向ける不自然な映像が得られることを抑制できる。ライブ演奏などでは、メンバー同士で横を向いて顔を合わせながら演奏することもあるので、左右にモニタD2,D3を設けることにより、ライブ演奏らしいリアリティがある合成映像400を生成できる。
図7を参照して、各モニタD1〜D3の領域J3に表示される警告表示を説明する。合成対象200aが合成映像400の仮想空間において他の要素(例えば、共演者や機材など)に重なることがあると、一方が他方を突き抜けるなどの不自然な部分を含む映像が生成される。
これに対し、本実施形態では、背景映像300を、撮影中の演奏映像200に対して数秒程度先読みし、先読みされた数秒後の共演者が合成対象200aと重なるかの判断を行う。また、ハードディスク20に記憶された共演者映像を利用する場合も同様の先読みを行い、数秒後における共演者が合成対象200aと重なるかを判断する。そして、重なると判断された場合に、各モニタD1〜D3の領域J3に警告表示を行う。なお、「重なる」とは、合成対象200aおよび共演者を構成する画素の中に、映像面における上下左右の位置と、カメラからの距離とが合成対象ユーザ100の前面から背面までの厚さ(人間の一般的な厚さ)も含めて交差する画素が存在することである。
図7(a)は、数秒後の共演者と合成対象200aとが重なると判断された場合の警告表示の一例を示す模式図である。この例では、画像600に示すように、合成対象200a(すなわち、ユーザ100)であるボーカルVoの左側に、数秒後のギターGtが重なる場合を示す。かかる場合、領域J3には、警告表示700として、右向きの矢印700aと、「右へ」というテキスト700bとが表示される。
これにより、ユーザ100は、右へ移動することが好ましいと判断できるので、共演者と重ならないようにするための行動をユーザ100に取らせることができる。一方、画像600には、合成対象200と共演者とが重なる位置にマーク601が表示される。マーク601の表示により、ユーザ100は、どの演奏者がどの方向から重なるのかを把握できる。なお、図7(a)に示すマーク601もまた、上述した警告表示700と同様の警告表示である。
また、合成対象200aが仮想ステージ500の領域外に出た場合、ステージ外で演奏しているかのような不自然な映像が生成される。これに対し、本実施形態では、合成対象200aが仮想ステージ500の境界に達した場合には、各モニタD1〜D3の領域J3に警告表示を行う。
図7(b)は、合成対象200aが仮想ステージ500の境界に達した場合の警告表示の一例を示す模式図である。この例では、画像600に示すように、合成対象200a(すなわち、ユーザ100)であるボーカルVoが、仮想ステージ500の前方の境界500aに達した場合を示す。かかる場合、領域J3には、警告表示700として、下向きの矢印700aと、「後ろへ」というテキスト700bとが表示される。
これにより、ユーザ100は、後ろへ移動することが好ましいと判断できるので、仮想ステージ500の領域外から出ないようにするための行動をユーザ100に取らせることができる。一方、画像600には、合成対象200が達した境界の位置にマーク601が表示される。マーク601の表示により、ユーザ100は、仮想ステージ500の境界のうちどの境界に達したかを把握できる。なお、図7(b)に示すマーク601もまた、上述した警告表示700と同様の警告表示である。
なお、領域J3に警告表示700として表示する矢印700aおよびテキスト700bが示す方向を、ユーザ100に対するモニタD1〜D3の向きに応じて変えてもよい。例えば、図7(a)のように、右方向を示す矢印700aおよびテキスト700bが、正面モニタD1に表示する場合に、左モニタD2には、後ろ方向を示す矢印700aおよびテキスト700bを表示し、右モニタD3には、前方向を示す矢印700aおよびテキスト700bを表示するようにしてもよい。
これにより、領域J4に表示する画面600の向きを、ユーザ100に対するモニタD1〜D3の設置位置に応じて変えた場合(図5(b)、図6(a)、および図6(b)参照)と同様、各モニタD1〜D3を向いたユーザ100の身体の向きに適した方向を、好ましい移動方向として示すことができる。よって、ユーザ100は、共演者と重ならないようにするための移動方向を感覚的に判断できる。
次に、図8から図13を参照して、上記のように構成された演奏処理装置10が実行する処理について説明する。図8から図13に示す各フローチャートは、CPU11が、ROM12に記憶されるプログラムに従い実行する処理である。図8(a)は、メイン処理を示すフローチャートである。本処理は、リモコンから、利用する楽曲の選択を指示する赤外線信号が赤外線入力部23を介して、演奏処理装置10に入力されたことに基づき開始される。CPU11は、まず、合成映像400を生成するための初期設定処理を実行する(S10)。初期設定処理(S10)の詳細については、図8(b)を参照して後述する。
CPU11は、初期設定処理(S10)の終了後、カメラCAからの演奏映像200の入力と、背景映像300の再生と、リモコンで選択された楽曲の再生とを開始する(S20)。なお、背景映像300および楽曲は同期再生される。楽曲は、ユーザ100が担当する演奏パートと、共演者が担当する演奏パートとを除く演奏パートの音声が再生される。S20の処理が、本発明の楽音出力手段に相当する。
共演者映像を利用する場合、S20において、CPU11は、共演者映像および当該共演者映像の演奏音も同期再生する。なお、演奏映像200および共演者映像のデータにも、各々対応する演奏(すなわち、各演奏者による演奏)の楽音が含まれているので、これらの各映像に含まれる楽音も適宜の割合でミキシングされて再生される。なお、ミキシングは手動で混合比を設定しても、予め各演奏パートの混合比が定まっているなどで自動的に行われてもよい。また、各演奏パートの配置や距離に応じた公知技術のパンニングやリバーブなどの効果を適宜付してもよい。また、CPU11は、演奏映像200の入力に伴い、入力された演奏映像200を録画するともに、マイクMCまたは楽器接続部15から入力された楽器Iの演奏音を録音する。
CPU11は、合成映像生成処理を実行する(S30)。合成映像生成処理(S30)は、演奏映像200と背景映像300とから合成映像400を生成するとともに、モニタD1〜D3に対する表示レイアウトを行う処理であり、その詳細は、図8(c)を参照して後述する。
次に、CPU11は、合成映像生成処理(S30)の処理結果に基づき、モニタD1〜D3への表示処理を実行する(S40)。S40の処理が、本発明の警告表示手段、位置表示手段、合成映像表示手段、および補助表示手段に相当する。表示処理(S40)の結果、合成映像生成処理(S30)により生成された合成映像400が各モニタD1〜D3の領域J1に表示される。補助表示(例えば、歌詞情報に基づく歌詞)が各モニタD1〜D3の領域J2に表示される。また、警告表示700を表示する必要がある場合には、その警告表示700が各モニタD1〜D3の領域J3に表示される。また、生成された合成映像400でのメンバー配置を示す画像600が各モニタD1〜D3の領域J4に表示される。
CPU11は、表示処理(S40)の実行後、楽曲の再生が終了したかを判断する(S50)。CPU11は、楽曲の再生が未だ終了していないと判断した場合(S50:No)、処理をS30に移行する。一方、CPU11は、楽曲の再生が終了したと判断した場合(S50:Yes)、本処理を終了する。
図8(b)は、上述した初期設定処理(S10)を示すフローチャートである。CPU11は、選択された楽曲に応じた背景映像300をハードディスク20から読み込む(S11)。選択された楽曲に対して準備される背景画像300が1つである場合には、その1つの背景画像300が読み込まれる。選択された楽曲に対してステージ種類が異なる複数の背景画像300が準備されている場合には、ユーザ100に選択されたステージ種類の背景画像300が読み込まれる。ステージ種類としては、ステージのシチュエーションや、ステージを行うアーティストなどが例示される。
CPU11は、ユーザ100の演奏パートを設定する(S12)。S11にて読み込んだ背景映像300において、利用可能な演奏パートが1つである場合には、その演奏パートがユーザ100の演奏パートとして設定される。一方、利用可能な演奏パートが複数ある場合には、それらの演奏パートの中から、ユーザ100により選択された演奏パートが設定される。
CPU11は、ユーザ100の演奏パート以外の演奏パートを担当させる共演者を選択する(S13)。S13の処理が、本発明の選択手段に相当する。S13の処理は、S11にて読み込んだ背景映像300が、ユーザ100以外に、共演者映像に含まれる共演者を合成できることを条件として実行される。つまり、上記条件が満たされない場合、CPU11は、S13の処理をスキップする。なお、本実施形態では、背景映像300に、その収録時に収録された演奏者が含まれる場合、その演奏者が担当する演奏パートには、ユーザ100または他の演奏者のいずれも合成できないものとする。つまり、CPU11は、S13において、共演者を合成できる演奏パート毎に共演者を選択する。
共演者を合成できる1の演奏パートに対し、複数の共演者映像がハードディスク20に記憶されている場合、CPU11は、ユーザ100に選択された共演者を当該演奏パートに対して選択する。ハードディスク20に記憶される共演者映像としては、予め準備されているものと、先に収録された演奏映像200から生成されたものとがある。先に収録された演奏映像200から生成された共演者映像が記憶されていない場合、CPU11は、予め準備されている共演者映像の共演者を自動的に選択する。
なお、複数の共演者映像がある場合、CPU11は、それらの共演者映像に含まれる共演者のリストを正面モニタD1やリモコンの表示部などに表示させ、ユーザに当該リストから共演者を選択させる。リストには、選択可能な共演者映像毎に、各共演者映像に対して付加された情報(例えば、収録日や、映像データのファイル名など)を表示することにより、所望の共演者をユーザ100に選択させ易くすることができる。背景映像300に演奏者が含まれており、共演者映像を選択できない演奏パートが存在する場合、その旨を正面モニタD1やリモコンの表示部などに表示させてもよい。
CPU11は、S13にて選択された共演者を含む共演者映像をハードディスク20からから読み込む(S14)。なお、CPU11は、S13の処理をスキップした場合には、S14の処理もスキップする。CPU11は、ユーザ100と、S13にて選択された共演者とについて、それぞれの演奏パートに応じた仮想ステージ上での初期位置を割り当て(S15)、本処理を終了して、メイン処理に戻る。
図8(c)は、上述した合成映像生成処理(S30)を示すフローチャートである。本処理は、フレーム画像の単位で行われる処理である。CPU11は、対象抽出処理(S31)を実行する。S31の処理は、演奏映像200からフレーム画像単位で合成対象200aを抽出する処理であり、その詳細は図9および図10を参照して後述する。S31の処理が、本発明の抽出手段に相当する。
CPU11は、合成処理を実行する(S32)。S32の処理は、フレーム画像の単位で、S31にて抽出された合成対象200aを背景映像300のフレーム画像(以下「背景画像」と称す)に合成し、合成画像(合成映像400のフレーム画像)を生成する処理である。また、S32では、合成対象200aが共演者と重なるか否かなど、警告の必要がある状況が生じたかの判定や、生成された合成画像におけるメンバー配置を示す画像600の生成も行う。合成処理(S32)の詳細は、図11を参照して後述する。
CPU11は、トリミング・背景ぼかし処理を実行する(S33)。S33の処理は、S32にて生成された合成画像について、選択されたシーンによって合成対象200aをズームする必要がある場合に、選択されたシーンに応じて合成対象200aをトリミングしてズームを行うとともに、背景にぼかしをかける処理である。トリミング・背景ぼかし処理(S33)の詳細については、図12および図13を参照して後述する。本実施形態では、選択可能なシーンとして、全身を映すシーンと、全身の一部(例えば、上半身、顔など)をズームさせて映すシーンとが準備されている。なお、合成対象200aのズームが不要な場合、すなわち、全身を映すシーンが選択されている場合には、CPU11は、S33の処理をスキップする。
CPU11は、表示レイアウト処理を行い(S34)、本処理を終了する。具体的に、CPU11は、S32にて生成された合成画像、または、S33にて処理が施された合成画像を、モニタD1〜D3の領域J1にレイアウトする。CPU11は、楽曲データに含まれる歌詞情報に基づく歌詞及び譜面を、モニタD1〜D3の領域J2にレイアウトする。また、CPU11は、必要に応じて警告表示700を、モニタD1〜D3の領域J3にレイアウトする。CPU11は、生成された画像600を、モニタD1〜D3の領域J4にレイアウトする。なお、画像600は、出力先のモニタに応じた表示の向きでレイアウトされる。
図9は、上述した対象抽出処理(S31)を示すフローチャートである。なお、本実施形態では、演奏映像200から抽出される合成対象200aは1つとする。CPU11は、p、x、y、dsM、およびdsrに0を設定する(S3101)。pは、処理対象の画素Pxの位置を示す値である。xおよびyは、処理対象の画素Pxのx方向位置およびy方向位置を示す値である。画素Pxのx位置は、画素Pxに対するpの値を、ピクセル単位で表される画像幅wPで除したときの余りである。画素Pxのy位置は、画素Pxに対するpの値を画像幅wPで除したときの商である。なお、左上角の画素Pxの(x,y)が(0,0)である。dsMは、合成対象を構成する各画素の距離情報(mm単位)のスタックである。dsrは、dsMのスタック数を示す。
CPU11は、S3101において、上位置配列tM(0,…,w−1)に、初期値として−1を設定する。上位置配列tM(x)は、x位置毎の上位置の高さ算出用リストである。0,…,w−1は、画素Pxのx位置として取り得るw個の各値である。また、CPU11は、S3101において、下位置配列bM(0,…,w−1)に、初期値として−1を設定する。下位置配列bM(x)は、x位置毎の下位置の高さ算出用リストである。
CPU11は、デプスマップ(p)の値をdMに設定する(S3102)。デプスマップ(p)は、デプスマップ201にけるpの値に対する画素の画素値、すなわち、画素Pxに対する第1距離情報(カメラCAからの距離情報)を示す。dMは、処理対象の画素Pxの距離情報(mm単位)を示す。
CPU11は、dMの値が、dMin<dM<dMaxを満たすかを判断する(S3103)。dMinおよびdMaxは、合成対象200aとして抽出する距離の範囲(以下、「抜き範囲」と称す)の下限値および上限値である。本実施形態では、演奏するユーザ100の動きが少ないことを前提とし、「抜き範囲」は、ユーザ100の演奏パートに対する初期位置と、人間の一般的な厚みとを考慮して決められた範囲とする。
CPU11は、dMの値が上記不等式を満たさないと判断した場合(S3103:No)、処理中のpの値に対応する画素Pxが合成対象の画素でないとして、0を抽出マスク画像(p)に設定し(S3112)、処理をS3108に移行する。一方、CPU11は、dMの値が上記不等式を満たすと判断した場合(S3103:Yes)、処理中のpの値に対応する画素Pxが合成対象の画素であるとして、255を抽出マスク画像(p)に設定する(S3104)。また、CPU11は、S3104において、dMの値を、スタックdsMに積み、dsrをインクリメントする。
CPU11は、現在のxの値に対するtM(x)が−1であるかを判断する(S3105)。CPU11は、tM(x)が−1であると判断した場合(S3105:Yes)、現在のyの値をtM(x)に設定し(S3106)、処理をS3107に移行する。一方、CPU11は、tM(x)が−1でないと判断した場合(S3105:No)、処理をS3107に移行する。S3107において、CPU11は、現在のyの値をbM(x)に設定する。
S3108において、CPU11は、pの値が、画像データのデータ長lengthに達したかを判断する。CPU11は、pの値がlengthに達したと判断した場合(S3108:Yes)、処理をS3131(図10参照)に移行する。CPU11は、pの値がlengthに達していないと判断した場合(S3108:No)、p、xをインクリメントする(S3109)。
CPU11は、xの値が画像幅wPに達したかを判断する(S3110)。CPU11は、xの値が画像幅wPに達したと判断した場合(S3110:Yes)、xに0を設定し,yをインクリメントし(S3111)、処理をS3102に移行する。一方、CPU11は、xの値が画像幅wPに達していないと判断した場合(S3110:No)、処理をS3102に移行する。
図10に示すように、CPU11は、xおよびmaxHPに0を設定する(S3131)。また、CPU11は、S3131において、lhPに−1を設定し、rhPに0を設定する。maxHP、lhP、およびrhPは、それぞれ、ピクセル単位で表される合成対象200aの高さ、左位置、および右位置を示す。
CPU11は、tM(x)が−1であるかを判断する(S3132)。CPU11は、tM(x)が−1であると判断した場合(S3132:Yes)、処理をS3137に移行する。一方、CPU11は、tM(x)が−1でないと判断した場合(S3132:No)、lhPが−1であるかを判断する(S3133)。CPU11は、lhPが−1でないと判断した場合(S3133:No)、現在のxの値をrhPに設定する(S3134)。一方、CPU11は、lhPが−1であると判断した場合(S3133:Yes)、現在のxの値をlhPに設定し(S3142)、処理をS3134に移行する。
CPU11は、bM(x)−tM(x)がmaxHPより大きいかを判断する(S3135)。CPU11は、bM(x)−tM(x)がmaxHP以下であると判断した場合(S3135:No)、処理をS3137に移行する。一方、CPU11は、bM(x)−tM(x)がmaxHPより大きいと判断した場合(S3135:Yes)、bM(x)−tM(x)の値を、maxHPに設定する(S3136)。
CPU11は、xをインクリメントし(S3137)、xが、x方向の画素数を示すwより小さいかを判断する(S3138)。CPU11は、xの値がwの値より小さいと判断した場合(S3138:Yes)、処理をS3132に移行する。一方、CPU11は、xの値がwの値以上である判断した場合(S3138:No)、S3139の処理を実行する。具体的に、CPU11は、スタックdsMから、スタックされているdMを取り出し、dsrの値を、カウンタiに設定する。CPU11は、dcMに0を設定する。dcMは、距離情報(mm単位)の累積値を示す。
CPU11は、iの値が0より大きいかを判断する(S3140)。CPU11は、iの値が0より大きいと判断した場合(S3140:Yes)、dMの値をdcMの値に加算した値を、dcMに設定する(S3141)。また、CPU11は、iをデクリメントする。CPU11は、S3141の処理後、処理をS3140に移行する。一方、iの値が0以下であると判断した場合(S3140:No)、CPU11は、maxHPを、hPで割った値を、maxHHに設定する(S3143)。hPは、演奏映像200のフレーム画像の高さ(ピクセル単位)である。maxHHは、演奏映像200のフレーム画像(以下「映像画像」と称す)の高さに対する、合成対象200aの高さの比率である。
CPU11は、dcMをdsrで割った値を、daMに設定する(S3144)。daMは、カメラCAからの合成対象200aの平均距離(mm単位)を示す。CPU11は、2*daM*tan(fov/2)の値を、hMに設定する(S3145)。hMは、演奏画像200に映り込んだ合成対象200aの高さ(mm単位)である。fovは、演奏映像200を撮影するカメラ(すなわち、カメラCA)の縦画角である。つまり、S3145では、daMと、カメラCAの縦画角fovとから、上記式(1)に従い、演奏画像に映り込んだ合成対象200aの高さ(mm単位)が算出される。
CPU11は、maxHHとhMとの積を、maxHMに設定する(S3146)。maxHMは、合成対象200aに対応する演奏者の実空間における高さ(すなわち、身長)を示す。CPU11は、rhPからlhPを引いた値を、whPに設定する(S3147)。whPは、合成対象200aの左右幅(ピクセル単位)を示す。CPU11は、daM−rMの値を、drMに設定する(S3148)。rMは、演奏映像200において予め決められている撮影基準位置の距離情報(mm単位)である。drMは、合成対象200aの撮影基準距離からの差(mm単位)を示す。CPU11は、S3148の処理後、本処理を終了して、合成映像生成処理(S30)に戻る。
上述した対象抽出処理(S31)によれば、演出映像200から、抽出マスク画像(p)の値が255である画素部分、すなわち、dMinおよびdMaxにより規定される抜き範囲内の距離情報(第1距離情報)を有する画素部分を、合成対象200aとして抽出できる。
なお、抽出された合成対象200aを含むフレーム画像からなる映像は、共演者映像としてハードディスク20に保存される。共演者映像をハードディスク20に保存する処理が、本発明の記憶手段に相当する。共演者映像、すなわち、抽出された合成対象200aを含むフレーム画像からなる映像はデプスマップを持つ。共演者映像のデプスマップは、演奏映像200のデプスマップ201である。また、共演者映像には、人物高さ情報および位置情報を関連付けて保存する。あるいは、共演者映像に対する人物高さ情報および位置情報は、当該共演者映像に紐付けてハードディスク20や配信サーバSuに記憶されてもよい。なお、人物高さ情報は、S3146にて算出されたmaxHMの値であり、位置情報は、S3148にて算出されたdrMの値である。
図11は、上述した合成処理(S32)を示すフローチャートである。以下では、演奏映像200から抽出される合成対象200aのみが背景映像300に合成されるものとして説明する。CPU11は、2*(spM+drM)*tan(fov’/2)の値を、hM’に設定する(S3201)。spMは、背景映像300における配置基準位置の距離情報(mm単位)である。つまり、spMは、合成対象200aに対応するユーザ100が担当する演奏パートの仮想ステージ500上における初期位置の距離情報である。hM’は、背景画像に映り込んだ対象物の高さ(mm単位)である。fov’は、背景映像300を撮影するカメラの縦画角である。つまり、S3201では、配置基準位置からdrMだけ前または後方にずれた位置における、背景画像300に映り込んだ対象物の高さ(mm単位)が算出される。なお、S3201におけるspM+drMの算出が、本発明の変換手段に相当する。
CPU11は、maxHMをhM’で割った値を、hdcに設定する(S3202)。hdcは、背景画像300に映り込んだ対象物の高さに対する、演奏映像200に映り込んだ合成対象200aの高さの比率である。CPU11は、hP’とhdcとの積を、shhPに設定する(S3203)。hP’は、背景画像の高さ(ピクセル単位)である。shhPは、合成対象200aを仮想ステージ500に配置する時の高さ(ピクセル単位)である。
CPU11は、shhPをmaxHPで割った値を、srsに設定する(S3204)。srsは、合成対象200aを仮想ステージ500に配置する際に乗じる倍率(すなわち、合成倍率)である。S3204の処理が、本発明の合成倍率算出手段に相当する。CPU11は、srphP+((lhP−rphP)*srs)の値を、slhPに設定する(S3205)。slhPは、仮想ステージ500上に配置された合成対象200aの左位置(ピクセル単位)である。
srphPは、背景映像300における配置基準位置(ピクセル単位)、つまり、ユーザ100が担当する演奏パートの仮想ステージ500上における初期位置に対応する画素のx方向位置である。rphPは、演奏映像200において予め決められている撮影基準位置に対応する画素のx方向位置である。
また、CPU11は、S3205において、srphP+((rhP−rphP)*srs)の値を、srhPに設定する。srhPは、仮想ステージ500上に配置された合成対象200aの右位置(ピクセル単位)である。よって、S3205によれば、ユーザ100の撮影基準位置からの移動と、S3204にて算出された倍率srsを考慮して、仮想ステージ500上に配置された合成対象200aの左位置および右位置が算出される。なお、S3205の処理が、本発明の配置設定手段に相当する。
slhPおよびsrhPが算出されると、背景画像に合成対象200aをコピーする(すなわち、合成する)際の矩形領域の左上座標および右下座標を決定できる。本実施形態では、説明を簡単にするため、ステージ面が映らない(すなわち、仮想ステージを含む平面の延長上にカメラがあって、演奏者までの距離にかかわらず演奏者のステージ接地点のy座標が変化しない)ものとして、当該矩形領域の左上座標および右下座標のy座標を、配置基準位置のy方向位置を用いて決定する。配置基準位置のy方向位置をsryとした場合、左上座標は(slhP,sry−shhP)であり、右下座標は(srhP,sry)である。
CPU11は、リサイズコピー処理を実行する(S3206)。リサイズコピー処理(S3206)において、CPU11は、(slhP,sry−shhP)および(srhP,sry)により特定される矩形領域に収まるよう、デプスマップ201を含めて、合成対象200aを背景映像画像にリサイズコピーする。合成対象200aのコピー(合成)は、抽出マスク画像(p)を用いるαブレンドによって行う。本処理により、合成画像と、合成後のデプスマップ(以下「合成デプスマップ」と称す)とが生成される。なお、画像をリサイズするアルゴリズムは周知技術であるので、詳細な説明は省略する。S3206の処理が、本発明の合成手段に相当する。
CPU11は、当たり判定処理を実行し(S3207)、本処理を終了して、合成映像生成処理(S30)に戻る。当たり判定処理(S3207)において、CPU11は、背景映像300のデータを、現在の再生位置より数フレーム分先読みする。
CPU11は、第1の当たり判定処理として、数フレーム先における共演者(背景映像300に含まれる演奏者、または、選択された共演者映像の共演者が、合成画像上の合成対象200aと重なるかを判定する。具体的に、CPU11は、数フレーム先における共演者の画素位置と、共演者に対応するデプスマップ301の距離情報と、合成画像上の合成対象200aの画素位置と、合成デプスマップの距離情報とに基づき、当たり判定を行う。
背景映像300が共演者を含む場合、当該背景映像300は、背景映像300を構成する各フレーム画像内における各共演者の位置を示す位置情報を含む。また、上述した通り、共演者映像は、当該共演者映像を構成する各フレーム画像内における位置情報を含む。なお、背景映像300内における各共演者の位置情報は、当該背景映像300に紐付けてハードディスク20や配信サーバSuに記憶されていてもよい。第1の当たり判定の際には、共演者の画素位置は、背景映像300または共演者映像に含まれる各共演者の位置情報に基づいて特定される。なお、簡単のため、各演奏者の厚さは固定値であるとするが、演奏者毎に異なる値を用いてもよい。
CPU11は、画素位置と距離情報により特定される共演者の座標と、画素位置と距離情報により特定される合成対象200aの座標とが重なった場合に第1の警告情報を出力する。第1の警告情報は、ユーザ100に推奨される移動方向を示す情報を含む。なお、当該情報は、数フレーム先における共演者の位置と、合成画像上の合成対象200aの位置と、重なった座標の位置とに基づいて決定される。第1の当たり判定処理が、先読み手段、および第1判断手段に相当する。
また、第2の当たり判定処理として、CPU11は、合成画像上の合成対象200aが仮想ステージ500の境界位置に重なるかを判定する。CPU11は、画素位置と距離情報により特定される合成対象200aの座標が、画素位置と距離情報により特定される仮想ステージ500の境界を示す座標と重なった場合に第2の警告情報を出力する。なお、仮想ステージ500の境界位置は、仮想ステージ500の角部の画素位置と、仮想ステージ500の奥行を示す距離情報とから定義される。第2の警告情報には、ユーザ100に推奨される移動方向を示す情報を含む。なお、上記各当たり判定処理にて用いるアルゴリズムは周知技術であるので、詳細な説明は省略する。第2の当たり判定処理が、第2判断手段に相当する。
合成処理(S32)に関する上記説明では、合成対象200aのみが背景映像300に合成されるものとした。ハードディスク20に記憶されている共演者映像の共演者を合成する場合、合成処理(S32)では、先読みするフレーム画像も含め、全ての共演者について、それぞれ、上記した合成対象200aの場合と同様の処理を行う。なお、共演者を合成する場合、共演者の左右位置および高さは、共演者映像に関連づけて保存されている人物高さ情報および位置情報を用いる。
図12は、上述したトリミング・背景ぼかし処理(S33)を示すフローチャートである。CPU11は、トリミング処理として、選択されたシーンに応じた領域(例えば、上半身領域や顔領域)の拡大を行う(S3301)。なお、本処理のアルゴリズムは、画像をリサイズするアルゴリズムと同様であり周知技術であるので、詳細な説明は省略する。
CPU11は、背景ぼかし処理として、以下のS3302〜S3342の処理を実行する。S3302〜S3342の処理が、本発明のぼかし手段に相当する。
S3302〜S3342に示す背景ぼかし処理は、コンボリューションサイズ3×3の4近傍処理の畳み込み演算を用いる処理である。具体的に、CPU11は、xおよびyに1を設定し、dMに0を設定する(S3302)。CPU11は、dscおよびcに0を設定する(S3303)。dscは、画素値の累積値である。cは、dscにて累積された画素値の数を示すカウンタである。
CPU11は、x+(y*wP)の値をjに設定する(S3304)。CPU11は、jの値が、length−wPより小さいかを判断する(S3305)。CPU11は、j<(length−wP)であると判断した場合(S3305:Yes)、本処理を終了して、合成映像生成処理(S30)に戻る。一方、CPU11は、j<(length−wP)でないと判断した場合(S3305:No)、合成デプスマップ(j)の値をdMに設定する(S3306)。
CPU11は、dMの値が、dMin<dM<dMaxを満たすかを判断する(S3307)。CPU11は、dMの値が上記不等式を満たすと判断した場合(S3307:Yes)、合成画像(j)を出力画像(j)とし(S3308)、処理をS3303に移行する。一方、CPU11は、dMの値が、上記不等式を満たさないと判断した場合(S3307:No)、合成画像(j)の画素値をdscに加算した値を、dscに設定する(S3309)。CPU11は、cをインクリメントする(S3310)。
CPU11は、x−1+(y*wP)の値をjに設定する(S3311)。CPU11は、合成デプスマップ(j)の値をdMに設定する(S3312)。CPU11は、dMの値が、dMin<dM<dMaxを満たすかを判断する(S3313)。CPU11は、dMの値が上記不等式を満たすと判断した場合(S3313:Yes)、処理をS3314に移行する。一方、CPU11は、dMの値が、上記不等式を満たさないと判断した場合(S3313:No)、合成画像(j)の画素値をdscに加算した値を、dscに設定する(S3317)。CPU11は、cをインクリメントする(S3318)。
CPU11は、x+1+(y*wP)の値をjに設定する(S3314)。CPU11は、合成デプスマップ(j)の値をdMに設定する(S3315)。CPU11は、dMの値が、dMin<dM<dMaxを満たすかを判断する(S3316)。CPU11は、dMの値が上記不等式を満たすと判断した場合(S3316:Yes)、処理をS3331(図13参照)に移行する。一方、CPU11は、dMの値が、上記不等式を満たさないと判断した場合(S3316:No)、合成画像(j)の画素値をdscに加算した値を、dscに設定する(S3319)。CPU11は、cをインクリメントする(S3320)。
図13に示すように、CPU11は、x+((y−1)*wP)の値をjに設定する(S3331)。CPU11は、合成デプスマップ(j)の値をdMに設定する(S3332)。CPU11は、dMの値が、dMin<dM<dMaxを満たすかを判断する(S3333)。CPU11は、dMの値が上記不等式を満たすと判断した場合(S3333:Yes)、処理をS3334に移行する。一方、CPU11は、dMの値が、上記不等式を満たさないと判断した場合(S3333:No)、合成画像(j)の画素値をdscに加算した値を、dscに設定する(S3339)。CPU11は、cをインクリメントする(S3340)。
CPU11は、x+((y+1)*wP)の値をjに設定する(S3334)。CPU11は、合成デプスマップ(j)の値をdMに設定する(S3335)。CPU11は、dMの値が、dMin<dM<dMaxを満たすかを判断する(S3336)。CPU11は、dMの値が上記不等式を満たすと判断した場合(S3336:Yes)、CPU11は、dsrをcで割った値を、出力画像(j)に設定する(S3337)。CPU11は、cに0を設定し(S3338)、処理をS3303に移行する。一方、dMの値が、上記不等式を満たさないと判断した場合(S3336:No)、合成画像(j)の画素値をdscに加算した値を、dscに設定する(S3341)。CPU11は、cをインクリメントする(S3342)。
上述したトリミング・背景ぼかし処理(S33)によれば、選択されたシーンに応じた領域を拡大した場合には、その背景にぼかし処理がかけられるので、望遠ズームレンズで撮影したかのような臨場感のある映像を生成できる。
なお、本実施形態では、背景ぼかし処理において、コンボリューションサイズ3×3の4近傍処理の畳み込み演算を用いる構成としたが、コンボリューションサイズ5×5など、より大きなコンボリューションサイズを用いてもよい。コンボリューションサイズが大きくなるほど、ぼかし量が増える。また、ぼかし量は、中央画素と周辺画素の重み付けによっても変化させることができる。
選択されたシーンに応じた領域によって、コンボリューションサイズを使い分けてもよい。例えば、上半身領域を拡大した場合には、コンボリューションサイズ3×3の処理を行い、顔領域を拡大した場合には、より大きなコンボリューションサイズで処理を行う。これにより、合成対象200aの一部が拡大されるほど、背景のぼかし量が増えるので、リアリティのある望遠効果を出すことができる。
図14は、上述した合成映像生成処理(S30)の流れを示すブロック図である。演奏処理装置10に入力される演奏映像200およびデプスマップ201が、対象抽出処理(S31)に供されると、合成対象200aを含むフレーム画像からなる映像(「合成対象映像」と称す)と、当該合成対象映像のデプスマップとが生成される。なお、合成対象映像のデプスマップは、デプスマップ201である。また、対象抽出処理(S31)において、人物高さ情報(maxHM)および位置情報(drM)が算出される。
対象抽出処理にて得られた合成対象映像は、共演者映像250としてハードディスク20に保存される。共演者映像は、デプスマップ251を持つ。デプスマップ251は、合成対象映像のデプスマップである。また、共演者映像250は、対象抽出処理にて算出された人物高さ情報および位置情報が関連付けられる。
対象抽出処理(S31)にて得られた合成対象映像、当該合成対象映像のデプスマップ、ならびに、人物高さ情報および位置情報は、合成処理(S32)に供される。一方、ユーザ100により選択されたステージに応じた背景映像300が再生され、当該背景映像300およびデプスマップ301が、合成処理(S32)に供される。また、ユーザ100により共演者が選択された場合には、選択された共演者に応じた共演者映像250が再生され、当該共演者映像250、デプスマップ251、ならびに、人物高さ情報および位置情報が、合成処理(S32)に供される。
合成処理(S32)において、演奏映像200から抽出された合成対象200aと、共演者映像250の共演者とが、背景映像300に合成される。このとき、合成対象200aは、ユーザ100により選択された、当該ユーザ100が担当する演奏パートの初期位置に応じた位置に合成される。これにより、合成映像400と、合成デプスマップ401とが生成される。
合成処理(S32)にて生成された合成映像400および合成デプスマップ401は、トリミング・背景ぼかし処理(S33)に供され、ユーザ100により選択されたシーンと、再生される楽曲データのタイミングに応じて、合成対象200aのトリミングおよび拡大と、背景にぼかしがかけられる。処理後の映像が出力映像400aとして得られる。なお、選択されたシーンが全身である場合には、トリミング・背景ぼかし処理(S33)はスキップされるので、出力映像400aは、合成映像400そのものとなる。
出力映像400aは、表示レイアウト処理(S34)に供される。表示レイアウト処理(S34)には、合成処理(S32)の当たり判定の結果として生成された警告情報と、合成処理(S32)にて生成されたメンバー配置を示す画像600とが入力される。表示レイアウト処理(S34)では、出力映像400aと、楽曲データに含まれる歌詞情報に基づく歌詞などの補助表示と、警告情報と、画像600とが、出力先のモニタD1〜D3に応じてレイアウトされる。表示レイアウト処理(S34)によりレイアウトされた画面が各モニタD1〜D3に出力され、出力先のモニタD1〜D3において表示される。
トリミング・背景ぼかし処理(S33)にて生成された出力画像400aは、図示されない映像端子から映像出力として出力することもできる。これにより、モニタD1〜D3以外のモニタで、ユーザ100以外の人(例えば、ユーザ100と一緒に共演映像を楽しんでいる他のユーザ)に、出力映像400aを見せることができる。また、出力映像400aと、ミキシングされた楽音とをDVDなどのメディアに記録することも可能である。
本実施形態の演奏処理装置10によれば、カメラCAにより撮影される演奏映像200と、予め準備されている背景映像300とが、いずれもデプスマップを持っており、演奏映像200の合成対象200aを背景映像300に合成する際に、合成対象200aの距離情報(すなわち、演奏映像200の距離情報)を、背景映像300の距離情報に変換した上で、合成対象200aを背景映像300に配置するので、合成対象200aが背景映像300に含まれる各要素との前後関係において違和感なく合成され、ここで合成された映像を新たな背景映像として使用する事もできる。また、合成の際には、合成対象200aの大きさが、演奏映像200の距離情報と背景映像300の距離情報とに応じたサイズにリサイズされるので、合成対象200aを、その配置と背景映像300の画面高さとに対して違和感のない高さで合成できる。
また、合成対象200aは、合成対象200aに対応する演奏者(すなわち、カメラCAで撮影されるユーザ100)が担当する演奏パートに応じた位置に配置される。上記の通り、合成対象200aは、背景映像300に対し、前後関係およびサイズのいずれについても違和感なく合成されているので、当該合成対象が、演奏パートとして自然な位置に配置されたことにより、合成対象200aを含む合成映像400をリアリティのあるライブ演奏の映像であるかのように得ることができる。そして、演奏処理装置10は、そのような合成映像400を、再生中の楽曲と同期させて各モニタD1〜D3に表示させるので、仮想共演行為における興趣を好適に向上させることができる。
以上、実施形態に基づき本発明を説明したが、本発明は上記形態に何ら限定されるものではなく、本発明の趣旨を逸脱しない範囲内で種々の変形改良が可能であることは容易に推察できるものである。
例えば、上記実施形態では、dMinおよびdMaxにより予め規定される抜き範囲を利用する構成としたが、演奏映像200内での対象物の動きに基づいて人物を特定し、特定された各人物の前後の距離範囲を抜き範囲とする構成としてもよい。本変形例によれば、対象抽出処理(S31)にて複数の合成対象200aを抽出することも可能である。このように、対象抽出処理(S31)にて複数の合成対象200aを抽出する場合には、楽曲の再生前または再生直後の各演奏者の配置に応じて、各演奏者の演奏パートを自動的に決定する構成としてもよい。
上記実施形態では、メンバー配置画像600には、演奏を行う各メンバーの配置と、仮想ステージ500の境界500aとを表示させる構成としたが、スピーカなどの機材を特定し、それら機材の配置を画像600に表示させてもよい。また、当たり判定として、仮想ステージ500上の機材と、合成対象200aとの重なりを判定し、その結果に応じた警告表示700を行う構成としてもよい。
上記実施形態では、合成対象200aと、先読みされた共演者や仮想ステージ500の境界500aとが重なった場合に、両者が当たると判定する構成としたが、両者が所定距離以下に近づいた場合に当たると判定し、警告表示700を表示する構成としてもよい。
上記実施形態では、楽曲データが配信サーバSuから配信される構成としたが、演奏処理装置10に内蔵されるハードディスク20などの記憶部に記憶されていてもよい。また、楽曲データを、可搬の記憶媒体や記憶装置から読み込む構成であってもよい。
上記実施形態では、再生する楽曲データの演奏情報としてMIDIデータを例示したが、オーディオデータであってもよい。MIDIデータおよびオーディオデータのいずれの場合も、特定の演奏パートの楽音を含まないデータ(所謂、マイナスワンデータ)を再生したり、全演奏パートの楽音を含むデータから特定の演奏パート、すなわち、ユーザ100または共演者が担当する演奏パートを除いて再生することで本発明を適用できる。なお、MIDIデータから特定の演奏パートの楽音を除く場合、該当パートをミュートして再生すればよい。一方、オーディオデータについても、パート毎に独立したトラックを持つ場合はそのトラックをミュートすればよく、また、公知技術(例えば、所謂「センターキャンセル」などと呼ばれる技術)を用いることによって、特定の演奏パートの楽音を除いて再生することもできる。なお、ユーザがマイクを用いる場合は、他のパートを、ヘッドホンを用いて再生することで楽音の混入を防ぐことができる。
上記実施形態では、ユーザ100または共演者が担当する演奏パート以外の演奏パートの楽音を再生し、ユーザ100または共演者の演奏音を重ねることを例示したが、楽音として再生される演奏パートについて、再生される当該演奏パートの楽音に、ユーザ100または共演者の演奏音を重ねてもよい。また、所謂エアギターのような演奏の振りの画像のみを合成したり、演奏音のみを重ねることもできる。
上記実施形態に例示したように作成された合成映像400を、背景映像200としてハードディスク20や配信サーバSuなどに保存してもよい。その場合、合成映像400の生成に用いた演奏映像200における合成対象200aの位置情報を、元の背景映像300(すなわち、合成映像400の生成に用いた背景映像300)に追加して記憶する。なお、合成対象200aの位置情報は、当該合成対象200aについて、S3148にて算出されたdrMの値と、配置基準位置の距離情報(すなわち、spM)である。
これにより、作成された合成映像400を、背景映像300として、次の演奏者の演奏映像をさらに合成できる。この場合、合成映像400から作成された背景映像300には、合成により追加された合成対象200aの位置情報が追加されているので、当該合成対象200aを含めて背景映像300に含まれる全ての演奏者について、次の演奏者との当たり判定(第1の当たり判定)を行うことができる。
なお、背景映像300に含まれる、仮想ステージ500や他の演奏者の位置情報は、背景映像300の撮影時にカメラから取得することに限らず、手動で入力してもよい。また、背景映像300は、カメラにより撮影された実映像でなく、架空のCG映像であってもよい。CG映像を背景映像300として用いる場合、仮想ステージ500や他の演奏者の位置情報は、CG映像のデータから取得してもよいし、手動で入力してもよい。
上記実施形態では、背景映像に同期された楽曲を再生しながら、ユーザ100が演奏することによって、合成映像を生成することを例示したが、演奏映像と背景映像とから最初に合成映像を生成する場合において、楽曲の再生は必須ではない。例えば、ユーザ100がメトロノーム音など聞きながら演奏を行い、ユーザ100の演奏映像を背景映像に合成した合成映像をまず生成した後、次のユーザは、ユーザ100が演奏した楽音およびメトロノーム音を聞きながら演奏を行い、次のユーザの演奏映像を、ユーザ100を含む合成映像にさらに合成することもできる。
上記実施形態では、カメラCAでリアルタイムに撮影される演奏映像200を用いる構成としたが、ハードディスク20に予め記憶されている演奏映像を用いてもよい。あるいは、配信サーバSuなどの遠方のサーバにて再生されて配信される演奏映像を用いてもよい。
上記実施形態では、ハードディスク20に記憶されている背景映像300を用いる構成としたが、カメラでリアルタイムに撮影される背景映像を用いてもよい。あるいは、配信サーバSuなどの遠方のサーバにて再生されて配信される背景映像を用いてもよい。
なお、リアルタイムで撮影される背景映像や、遠方のサーバにて再生されて配信される背景映像を用いる場合、背景映像および音声を所定時間遅延させ、ユーザは、遅延されて再生される背景映像や音声に合わせて演奏することにより、遅延されていない背景映像とユーザの実演奏映像を用いて擬似的に遅延時間分の背景映像の先読みを行うことができる。よって、かかる場合も、上記実施形態と同様に、合成対象200aと他の演奏者とが数秒後に重なるか否かの判定を行うことが可能である。この場合、実演奏の合成は遅延された背景映像や音声に対して行うことになる。
上記実施形態では、S3205にて算出されたslhPおよびsrhPを用いて、背景画像に合成対象200aをコピーする際の矩形領域の左上および右上座標を決定する場合に、ステージ面が映らない(すなわち、仮想ステージを含む平面の延長上にカメラがあって、演奏者までの距離にかかわらず演奏者のステージ接地点のy座標が変化しない)ものとした。つまり、演奏者までの距離にかかわらずsryの値が変化しないとした。これに対し、背景映像が仮想ステージの前方上空から俯瞰撮影された場合、演奏者までの距離(すなわち、演奏者のステージ上の奥行き方向の位置)に応じて、接地点のy座標が上下に変化する。演奏者の距離に応じて、接地点のy座標が上下に変化する場合には、ステージの奥行き方向の距離と、画面上でのステージの縦方向の画素数から、奥行き方向の位置に応じたy座標を算出し、演奏者の初期位置やその後の移動に応じてsryの値を変化させればよい。この場合、空間座標に基づいた計算を行うことにより、sryの値をより精密に算出できる。
上記実施形態では、背景映像300内の共演者の位置情報や、共演者映像の共演者の位置情報として、各フレーム画像における位置情報、すなわち、各共演者の移動が反映された位置情報を用いる構成としたが、共演者の位置情報を、初期位置などの固定的な位置情報としてもよい。また、位置情報に大きな変化があるタイミングで新たな位置情報が取得されるものであってもよい。
10 演奏処理装置
100 ユーザ
200 演奏映像
200a 合成対象
300 背景映像
400 合成映像

Claims (20)

  1. 撮影部からの距離を示す第1距離情報を持つとともに演奏音を含む演奏映像を構成する第1フレーム画像から、当該演奏映像における被写体である前記演奏音の演奏者に対応する合成対象を抽出する抽出手段と、
    前記抽出手段により抽出された合成対象を、撮影部からの距離を示す第2距離情報を持つとともに少なくとも伴奏音を含む背景映像を構成する第2フレーム画像内に設けられた仮想ステージ上の所定位置に配置したときの、当該合成対象に対する前記第1距離情報を、前記第2距離情報に変換する変換手段と、
    前記所定位置を、前記背景映像内の前記仮想ステージ上に予め設定されている演奏パート毎の初期位置のうち、合成対象に対応する演奏者に担当させる所定の演奏パートに対する初期位置と、前記演奏映像における前記合成対象の、基準位置からの移動量とに基づいて設定する配置設定手段と、
    前記合成対象を前記所定位置に配置したときに、前記合成対象の高さが前記背景映像に応じた高さとなるような合成倍率を算出する合成倍率算出手段と、
    前記合成倍率算出手段により算出された合成倍率でリサイズされた、前記変換手段により変換された第2距離情報を持つ前記合成対象を、前記第2フレーム画像内の仮想ステージ上の前記所定位置に配置して合成することにより、前記第2フレーム画像から構成される合成映像を生成する合成手段と、
    を備えていることを特徴とする共演映像演出装置。
  2. 前記合成手段は、前記演奏映像に含まれる前記演奏音と前記背景映像に含まれる前記少なくとも伴奏音とを合成して合奏音を生成し、当該合奏音を含む前記合成映像を生成することを特徴とする請求項1記載の共演映像演出装置。
  3. 前記合成手段により生成された合成映像を記憶部に記憶する第1記憶手段を備え、
    前記背景映像は、前記第1記憶手段により前記記憶部に記憶された合成映像であることを特徴とする請求項1または2に記載の共演映像演出装置。
  4. 記憶部に記憶されている、前記背景映像に合成可能な、前記合成対象とは異なる他の演奏者を含む、当該他の演奏者を撮影した撮影部からの距離を示す第3距離情報を持つ共演者映像を選択する選択手段を備え、
    前記変換手段は、前記選択手段により前記共演者映像が選択された場合、当該共演者映像を構成するフレーム画像に含まれる前記他の演奏者を、前記第2フレーム画像内に設けられた仮想ステージ上における前記演奏パート毎の初期位置のうち、当該他の演奏者に担当させる演奏パートに対する初期位置に応じた第2の所定位置に配置したときの、当該他の演奏者に対する前記第3距離情報を、前記第2距離情報に変換し、
    前記合成倍率算出手段は、前記選択手段により前記共演者映像が選択された場合、当該共演者映像を構成するフレーム画像に含まれる他の演奏者を前記第2の所定位置に配置したときに、当該他の演奏者の高さが前記背景映像に応じた高さとなるような合成倍率を算出し、
    前記合成手段は、前記選択手段により前記共演者映像が選択された場合、前記演奏映像から抽出された合成対象の合成に加え、前記合成倍率算出手段により算出された合成倍率でリサイズされた、前記変換手段による変換後の第2距離情報を持つ前記共演者映像に含まれる他の演奏者を、前記背景映像内の仮想ステージ上における前記第2の所定位置に配置して合成することにより前記合成映像を生成することを特徴とする請求項1から3のいずれかに記載の共演映像演出装置。
  5. 前記抽出手段により抽出された合成対象と、当該合成対象に対する前記第1距離情報とを含む映像を、前記背景映像に合成可能な他の演奏者を含む前記第3距離情報を持つ前記共演者映像として、記憶部に記憶する第2記憶手段を備えていることを特徴とする請求項4記載の共演映像演出装置。
  6. 所定の警告表示前記表示部に表示する警告表示手段と、
    前記合成手段により生成された合成映像が、前記合成対象とは異なる他の演奏者を含む場合、当該合成映像において、前記合成対象が前記他の演奏者に対して所定距離以下に近づく可能性があるかを判断する第1判断手段と、を備え、
    前記警告表示手段は、前記第1判断手段により前記可能性があると判断された場合に、前記警告表示として、その旨を報せる表示を表示させることを特徴とする請求項1から5のいずれかに記載の共演映像演出装置。
  7. 前記他の演奏者は、前記合成手段により前記合成対象と合成される、前記演奏映像とは異なる映像に含まれており、
    前記他の演奏者を含む前記演奏映像とは異なる映像を、前記演奏映像に対して時間的にずらして取得する取得手段を備え、
    前記第1判断手段は、前記取得手段により前記演奏映像に対して時間的にずらして取得された前記演奏映像とは異なる映像に含まれる前記他の演奏者に対して、前記合成対象が所定距離以下に近づく可能性があるかを判断することを特徴とする請求項6記載の共演映像演出装置。
  8. 前記他の演奏者を含む前記演奏映像とは異なる映像は、記憶部に記憶されており、
    前記取得手段は、前記記憶部に記憶されている前記他の演奏者を含む前記演奏映像とは異なる映像を、前記演奏映像に対して先読みして取得することを特徴とする請求項7記載の共演映像演出装置。
  9. 前記他の演奏者を含む前記演奏映像とは異なる映像は、記憶部に記憶されている前記背景映像であることを特徴とする請求項8記載の共演映像演出装置。
  10. 前記他の演奏者を含む前記演奏映像とは異なる映像は、記憶部に記憶されている、前記背景映像に合成可能な、前記合成対象とは異なる他の演奏者を含む共演者映像であることを特徴とする請求項8記載の共演映像演出装置。
  11. 前記警告表示手段は、前記警告表示として、前記合成映像における、前記合成対象と、当該合成対象に対して所定距離以下に近づく可能性がある前記他の演奏者との位置関係を示す表示を表示させることを特徴とする請求項6から10のいずれかに記載の共演映像演出装置。
  12. 前記警告表示手段は、前記警告表示として、前記合成対象と当該合成対象に対して所定距離以下に近づく可能性のある前記他の演奏者との重なりを回避するための方向を案内する表示を表示させることを特徴とする請求項6から11のいずれかに記載の共演映像演出装置。
  13. 所定の警告表示前記表示部に表示する警告表示手段と、
    前記合成対象が、前記仮想ステージの境界に対して所定距離以下に近づいたかを判断する第2判断手段と、を備え、
    前記警告表示手段は、前記第2判断手段により前記所定距離以下に近づいたと判断された場合に、前記警告表示として、その旨を報せる表示を表示部に表示させることを特徴とする請求項1から12のいずれかに記載の共演映像演出装置。
  14. 前記抽出手段は、撮影部により撮影中の前記演奏映像を構成する第1フレーム画像から、前記合成対象を抽出し、
    前記警告表示手段は、前記撮影部により撮影中の前記演奏映像の撮影対象である演奏者の周囲に設置された複数の表示部のそれぞれに前記警告表示を表示させることを特徴とする請求項6から13のいずれかに記載の共演映像演出装置。
  15. 前記警告表示手段は、前記演奏者の視線方向に合わせて異なる内容の前記警告表示を、前記複数の表示部のそれぞれに表示することを特徴とする請求項14記載の共演映像演出装置。
  16. 前記合成映像において、前記所定の演奏パートを担当する前記抽出手段により抽出された合成対象と、前記所定の演奏パート以外の演奏パートを担当する他の演奏者とが含まれる場合、前記仮想ステージ上における前記合成対象と前記他の演奏者との位置関係を示す表示を表示部に表示させる位置表示手段を備えていることを特徴とする請求項1から15のいずれかに記載の共演映像演出装置。
  17. 前記位置表示手段は、前記仮想ステージ上における前記合成対象と前記他の演奏者との位置関係を示す表示と、当該仮想ステージの境界とを、前記表示部に表示させることを特徴とする請求項16記載の共演映像演出装置。
  18. 前記合成映像において、前記合成対象における所定領域をズームするズーム手段と、
    前記ズーム手段によるズームが行われた場合、前記合成映像における前記所定領域以外の領域に対し、前記合成映像に対する前記第2距離情報に基づくぼかし処理を施すぼかし手段と、
    を備えていることを特徴とする請求項1から17のいずれかに記載の共演映像演出装置。
  19. 前記合成手段は、前記演奏映像に含まれる前記演奏音と前記背景映像に含まれる前記少なくとも伴奏音とを合成して合奏音を生成し、当該合奏音を含む前記合成映像を生成し、
    前記合成手段により合成された前記第2フレーム画像から構成される合成映像を、表示部に表示させる合成映像表示手段と、
    前記合成手段により合成された前記合成映像に含まれる合奏音を放音させる楽音出力手段と、
    を備えていることを特徴とする請求項1から18のいずれかに記載の共演映像演出装置。
  20. 前記請求項19記載の共演映像演出装置と、
    撮影部により撮影中の前記演奏映像の撮影対象である演奏者の前方と、当該演奏者の左右方向とにそれぞれ設置される表示部と、を備え、
    前記共演映像演出装置は、
    前記楽音出力手段により放音される前記合奏音に対応する補助表示を前記表示部に表示させる補助表示手段を備え、
    前記合成映像表示手段は、前記前方および左右方向に表示される各表示部に前記合成映像を表示させ、
    前記補助表示手段は、前記前方および左右方向に表示される各表示部に前記補助表示を表示させることを特徴とする映像演出システム。
JP2015115022A 2015-06-05 2015-06-05 共演映像演出装置および共演映像演出システム Pending JP2017005371A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015115022A JP2017005371A (ja) 2015-06-05 2015-06-05 共演映像演出装置および共演映像演出システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015115022A JP2017005371A (ja) 2015-06-05 2015-06-05 共演映像演出装置および共演映像演出システム

Publications (1)

Publication Number Publication Date
JP2017005371A true JP2017005371A (ja) 2017-01-05

Family

ID=57754546

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015115022A Pending JP2017005371A (ja) 2015-06-05 2015-06-05 共演映像演出装置および共演映像演出システム

Country Status (1)

Country Link
JP (1) JP2017005371A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107911749A (zh) * 2017-10-27 2018-04-13 优酷网络技术(北京)有限公司 一种合演图谱的展示、提供方法、客户端及服务器
CN113824993A (zh) * 2021-09-24 2021-12-21 北京市商汤科技开发有限公司 一种视频处理的方法、装置、电子设备及存储介质
CN115250357A (zh) * 2021-04-26 2022-10-28 海信集团控股股份有限公司 终端设备、视频处理方法和电子设备
WO2023210388A1 (ja) * 2022-04-28 2023-11-02 ソニーグループ株式会社 情報処理装置および方法、並びにプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107911749A (zh) * 2017-10-27 2018-04-13 优酷网络技术(北京)有限公司 一种合演图谱的展示、提供方法、客户端及服务器
CN115250357A (zh) * 2021-04-26 2022-10-28 海信集团控股股份有限公司 终端设备、视频处理方法和电子设备
CN115250357B (zh) * 2021-04-26 2024-04-12 海信集团控股股份有限公司 终端设备、视频处理方法和电子设备
CN113824993A (zh) * 2021-09-24 2021-12-21 北京市商汤科技开发有限公司 一种视频处理的方法、装置、电子设备及存储介质
WO2023210388A1 (ja) * 2022-04-28 2023-11-02 ソニーグループ株式会社 情報処理装置および方法、並びにプログラム

Similar Documents

Publication Publication Date Title
JP6317854B2 (ja) 仮想三次元空間生成方法、映像システム、その制御方法およびコンピュータ装置での読み取りが可能な記録媒体
EP3236345A1 (en) An apparatus and associated methods
JP5772111B2 (ja) 表示制御装置
JP2015520403A (ja) カラオケダンシングゲーム
JP5429495B2 (ja) 録画装置及び録画プログラム
US20080260184A1 (en) Virtual Recording Studio
EP2444971A2 (en) Centralized database for 3-D and other information in videos
JP2017005371A (ja) 共演映像演出装置および共演映像演出システム
JP4981370B2 (ja) 動画生成システム、及び動画生成方法
WO2015151766A1 (ja) 投影撮影システム、カラオケ装置及びシミュレーション装置
JP5375897B2 (ja) 画像生成方法、画像生成装置及びプログラム
KR101414217B1 (ko) 실시간 영상합성 장치 및 그 방법
JP2001169309A (ja) 情報記録装置および情報再生装置
JP2008131379A (ja) 配信システム、および端末装置
KR101918853B1 (ko) 게임 리플레이 영상 생성 시스템
JP2004328788A (ja) 記録済みの背景映像に別途撮影された人物映像を合成して表示出力する方法およびその方法を採用したカラオケ装置
JP2011053276A (ja) 背景映像可変表示機能を備えるカラオケシステム
KR101295862B1 (ko) 증강 현실 영상을 제공하는 노래방 장치 및 그 방법
JP2022176206A (ja) 情報処理装置、動画合成方法及び動画合成プログラム
JP6548499B2 (ja) カラオケシステム
JP6110731B2 (ja) ジェスチャーによるコマンド入力識別システム
JP5803956B2 (ja) カラオケシステム及びカラオケ装置
KR20170075321A (ko) 증강현실 노래방 시스템
JP2020194030A (ja) カラオケシステム
JP2024004671A (ja) 動画収録システム、動画収録方法およびプログラム