JP2022043909A

JP2022043909A - コンテンツ提示装置、及びプログラム

Info

Publication number: JP2022043909A
Application number: JP2020149411A
Authority: JP
Inventors: 数馬吉野; Kazuma Yoshino; 裕之川喜田; Hiroyuki Kawakita; 拓也半田; Takuya Handa; 健介久富; Kensuke Hisatomi
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2020-09-04
Filing date: 2020-09-04
Publication date: 2022-03-16

Abstract

【課題】異なる空間にいる人とコンテンツを同じ空間を共有しながら体験している感覚を提供できるコンテンツ提示装置を提供する。【解決手段】コンテンツ提示装置は、基準位置設定部と、周辺映像取得部と、第１被写体映像抽出部と、背景映像取得部と、第２被写体映像を他のコンテンツ提示装置から取得する第２被写体映像取得部と、コンテンツ取得部と、第１被写体映像の位置を第１被写体基準位置情報に基づいて設定する第１被写体位置設定部と、第２被写体映像の位置を第２被写体基準位置情報に基づいて設定する第２被写体位置設定部と、コンテンツ位置設定部と、提示映像を出力する提示部とを備え、コンテンツが表示される位置と第１被写体基準位置情報が示す位置と第２被写体基準位置情報が示す位置との間の相対的な位置関係、第１被写体基準位置情報、及び第２被写体基準位置情報がそれぞれ他のコンテンツ提示装置との間で共有されている。【選択図】図１

Description

特許法第３０条第２項適用申請有り（１）公開者名日本放送協会ウェブサイトの掲載日令和２年７月２７日掲載アドレスｈｔｔｐｓ：／／ｗｗｗ．ｎｈｋ．ｏｒ．ｊｐ／ｉｎｆｏ／ｐｒ／ｍａｒｕｋａｊｉ／ａｓｓｅｔｓ／ｐｄｆ／４５０．ｐｄｆｈｔｔｐｓ：／／ｗｗｗ．ｎｈｋ．ｏｒ．ｊｐ／ｓｔｒｌ／ｎｅｗｓ／２０２０／７．ｈｔｍｌ（２）発行者名日本放送協会刊行物名技研だより２０２０年８月号掲載年月日令和２年８月６日掲載アドレスｈｔｔｐｓ：／／ｗｗｗ．ｎｈｋ．ｏｒ．ｊｐ／ｓｔｒｌ／ｈｔｔｐｓ：／／ｗｗｗ．ｎｈｋ．ｏｒ．ｊｐ／ｓｔｒｌ／ｐｕｂｌｉｃａ／ｇｉｋｅｎ＿ｄａｙｏｒｉ／１８５／１．ｈｔｍｌｈｔｔｐｓ：／／ｗｗｗ．ｎｈｋ．ｏｒ．ｊｐ／ｓｔｒｌ／ｐｕｂｌｉｃａ／ｇｉｋｅｎ＿ｄａｙｏｒｉ／１８５／ｐｄｆ／ｄａｙｏｒｉ１８５．ｐｄｆ（３）発行者名株式会社電波新聞社刊行物名電波新聞令和２年８月３日付第３面発行年月日令和２年８月３日（４）発行者名株式会社電波新聞社刊行物名電波新聞令和２年９月２日付第１面発行年月日令和２年９月２日

本発明は、コンテンツ提示装置、及びプログラムに関する。

拡張現実（ＡＲ：ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ）コンテンツ及び仮想現実（ＶＲ：ＶｉｒｔｕａｌＲｅａｌｉｔｙ）コンテンツの体験において、他の人と一緒に体験している感覚を提供するシステムが求められている。
例えば、非特許文献１では、ゲーム、映画、会議などのＶＲ共有体験の有効性を検証するため、３次元映像をリアルタイムで撮影、伝送することにより、自分の隣に別空間の人物を再現し、一方、別空間の人物の隣には自分を再現するシステムを構築している。
また、非特許文献２では、別空間の人物と自然なコミュニケーションを可能とするＡＲシステムとして、別空間の人物を３次元撮影し、自分が体験しているＡＲ空間に、その別空間の人物をリアルタイムに再現するシステムが提案されている。また、非特許文献２では、デバイスを変えて当該システムをＶＲに活用することについても言及している。
さらに、物理的に離れている人に加えて同じ空間にいる人とも一緒に、相手の存在を感じながらリアルタイムにコンテンツ体験を共有可能なＡＲ／ＶＲシステムを提供することが求められている。

Simon et al，"EVERYDAY PHOTO-REALISTIC SOCIAL VR:COMMUNICATE AND COLLABORATE WITH AN ENHANCED CO-PRESENCE AND IMMERSION"、IBC 2019 Sergio et al，" Holoportation: Virtual 3D Teleportation in Real-time", UIST ’16， October 16-19，2016

異なる空間にいる人とコンテンツを同じ空間を共有できるためには、コンテンツ（ＡＲコンテンツ、ＶＲコンテンツ、またはＡＲコンテンツとＶＲコンテンツとが混合したコンテンツであるＡＲ／ＶＲ混合コンテンツ）の位置も含めて互いの位置関係を矛盾なく共有する必要がある。

本発明は上記の点に鑑みてなされたものであり、異なる空間にいる人とコンテンツを同じ空間を共有しながら体験している感覚を提供できるコンテンツ提示装置、及びプログラムを提供する。

［１］上記の課題を解決するため、本発明の一態様によるコンテンツ提示装置は、第１被写体が撮影された画像を含む映像である第１被写体映像について基準となる位置及び向きを示す情報である第１被写体基準位置情報と、第２被写体が撮影された画像を含む映像である第２被写体映像について基準となる位置及び向きを示す情報である第２被写体基準位置情報をとを３次元空間内に設定する基準位置設定部と、前記第１被写体を含む自装置の周辺の映像である周辺映像を取得する周辺映像取得部と、前記周辺映像から前記第１被写体映像を抽出する第１被写体映像抽出部と、背景として用いられる映像である背景映像を取得する背景映像取得部と、前記第２被写体映像を他のコンテンツ提示装置から取得する第２被写体映像取得部と、コンテンツを取得するコンテンツ取得部と、前記第１被写体映像の前記３次元空間内の位置及び向きを前記第１被写体基準位置情報に基づいて設定する第１被写体位置設定部と、前記第２被写体映像の前記３次元空間内の位置及び向きを前記第２被写体基準位置情報に基づいて設定する第２被写体位置設定部と、前記第１被写体基準位置情報が示す位置と、前記第２被写体基準位置情報が示す位置との間の所定の相対的位置関係に基づいて前記コンテンツが表示される前記３次元空間内の位置を設定するコンテンツ位置設定部と、前記３次元空間内の位置及び向きが設定された前記第１被写体映像と、前記３次元空間内の位置及び向きが設定された前記第２被写体映像と、前記３次元空間内の位置が設定された前記コンテンツとが、前記背景映像を背景として前記３次元空間内に表示された映像である提示映像を出力する提示部と、を備え、前記コンテンツが表示される前記３次元空間内の位置と前記第１被写体基準位置情報が示す位置と前記第２被写体基準位置情報が示す位置との間の相対的な位置関係、前記第１被写体基準位置情報、及び前記第２被写体基準位置情報がそれぞれ前記他のコンテンツ提示装置との間で共有されている。

［２］また、本発明の一態様は、上記のコンテンツ提示装置において、前記提示部は、前記コンテンツに含まれる音声を、前記コンテンツが表示される前記３次元空間内の位置に基づいて定位させて出力する、ものである。

［３］また、本発明の一態様は、上記のコンテンツ提示装置において、前記提示部は、前記第２被写体映像に含まれる音声を、前記第２被写体映像の前記３次元空間内の位置に基づいて定位させて出力する、ものである。

［４］また、本発明の一態様は、上記のコンテンツ提示装置において、前記第１被写体映像の前記３次元空間内の位置と、前記第２被写体映像の前記３次元空間内の位置とに基づいて、前記提示映像において前記第１被写体映像と前記第２被写体映像とのいずれが手前側にあるかを判定するオクルージョン再現部をさらに備え、前記提示部は、前記オクルージョン再現部の判定結果に基づいて前記提示映像を出力する、ものである。

［５］また、本発明の一態様は、上記のコンテンツ提示装置において、前記第２被写体位置設定部は、前記第２被写体基準位置情報に基づいて前記第２被写体映像に含まれる前記第２被写体の足の位置を前記３次元空間の底面の位置に一致させて、前記第２被写体映像の前記３次元空間内の位置を設定する、ものである。

［６］また、本発明の一態様は、上記のコンテンツ提示装置において、前記提示部は、前記第２被写体映像を所定未満の透過度において表示する、ものである。

［７］また、本発明の一態様は、上記のコンテンツ提示装置において、前記提示部は、ビデオシースルー方式を用いて前記提示映像を生成する、ものである。

［８］また、本発明の一態様は、第１被写体が撮影された画像を含む映像である第１被写体映像について基準となる位置及び向きを示す情報である第１被写体基準位置情報と、第２被写体が撮影された画像を含む映像である第２被写体映像について基準となる位置及び向きを示す情報である第２被写体基準位置情報とを３次元空間内に設定する基準位置設定過程と、前記第１被写体を含む自装置の周辺の映像である周辺映像を取得する周辺映像取得過程と、前記周辺映像から前記第１被写体映像を抽出する第１被写体映像抽出過程と、背景として用いられる映像である背景映像を取得する背景映像取得過程と、前記第２被写体映像を他のコンテンツ提示装置から取得する第２被写体映像取得過程と、コンテンツを取得するコンテンツ取得過程と、前記第１被写体映像の前記３次元空間内の位置及び向きを前記第１被写体基準位置情報に基づいて設定する第１被写体位置設定過程と、前記第２被写体映像の前記３次元空間内の位置及び向きを前記第２被写体基準位置情報に基づいて設定する第２被写体位置設定過程と、前記第１被写体基準位置情報が示す位置と、前記第２被写体基準位置情報が示す位置との間の所定の相対的位置関係に基づいて前記コンテンツが表示される前記３次元空間内の位置を設定するコンテンツ位置設定過程と、前記３次元空間内の位置及び向きが設定された前記第１被写体映像と、前記３次元空間内の位置及び向きが設定された前記第２被写体映像と、前記３次元空間内の位置が設定された前記コンテンツとが、前記背景映像を背景として前記３次元空間内に表示された映像である提示映像を出力する提示過程と、の処理をコンピューターに実行させるプログラムであって、前記コンテンツが表示される前記３次元空間内の位置と前記第１被写体基準位置情報が示す位置と前記第２被写体基準位置情報が示す位置との間の相対的な位置関係、前記第１被写体基準位置情報、及び前記第２被写体基準位置情報がそれぞれ前記他のコンピューターとの間で共有されているプログラムである。

本発明によれば、異なる空間にいる人とコンテンツを同じ空間を共有しながら体験している感覚を提供できる。

本発明の実施形態に係るコンテンツ提示システムの構成一例を示す図である。実施形態に係るコンテンツ提示装置の構成の一例を示す図である。実施形態に係る撮影部の構成の一例を示す図である。実施形態に係る表示部の構成の一例を示す図である。実施形態に係る撮影処理の一例を示す図である。実施形態に係る表示処理の一例を示す図である。実施形態に係る位置設定処理の一例を示す図である。実施形態に係る被写体の位置を設定するためにヘッドマウントディスプレイに表示される映像の一例を示す図である。実施形態に係るコンテンツ、第１被写体映像、及び第２被写体映像の相対的な位置関係の一例を示す図である。実施形態に係るＡＲまたはＶＲオブジェクトの描画の一例を示す図である。実施形態に係る第１被写体映像と第２被写体映像についてのオクルージョンの再現の一例を示す図である。実施形態に係る第２被写体映像とコンテンツについてのオクルージョンの再現の一例を示す図である。実施形態に係るＡＲとＶＲとを組み合わせたコンテンツの一例を示す図である。実施形態に係るＡＲとＶＲとを組み合わせたコンテンツの一例を示す図である。実施形態に係るＡＲとＶＲとを組み合わせたコンテンツの一例を示す図である。

（実施形態）
以下、図面を参照しながら本発明の実施形態について詳しく説明する。図１は、本実施形態に係るコンテンツ提示システムＳの構成一例を示す図である。コンテンツ提示システムＳは、複数のコンテンツ提示装置１（コンテンツ提示装置１－１、１－２）と、サーバー装置２と、複数のヘッドマウントディスプレイＨ１（ヘッドマウントディスプレイＨ１－１、Ｈ１－２）と、複数のステレオカメラＳＣ１（ステレオカメラＳＣ１－１、ＳＣ１－２）複数のＲＧＢＤカメラＣＭ１（ＲＧＢＤカメラＣＭ１－１、ＣＭ１－２）とを備える。ユーザーは、ＲＧＢＤカメラＣＭ１によって撮影されるため、本実施形態ではユーザーのことを被写体という。

コンテンツ提示システムＳでは、複数の被写体は互いに離れた異なる空間に存在する。図１に示す例では、第１被写体Ｐ１、第２被写体Ｐ２はそれぞれ、第１の空間Ｒ１、第２の空間Ｒ２にそれぞれ存在している。第１の空間Ｒ１と、第２の空間Ｒ２とは互いに離れた場所に存在している。第１の空間Ｒ１と第２の空間Ｒ２とが離れている距離はいずれでもよい。第１の空間Ｒ１と第２の空間Ｒ２との間は建物の壁などで仕切られていてもよいし、仕切られていなくてもよい。第１の空間Ｒ１と第２の空間Ｒ２とは、同じ部屋のなかの異なる場所であってもよい。第１の空間Ｒ１は、例えば、第１被写体Ｐ１の自宅の部屋であり、第２の空間Ｒ２は、例えば、第１被写体Ｐ１の自宅から離れた場所にある第２被写体Ｐ２の自宅の部屋である。

複数のコンテンツ提示装置１は、相互に通信しながら連携動作する。図１では、コンテンツ提示装置１－１、コンテンツ提示装置１－２それぞれは、第１の空間Ｒ１、第２の空間Ｒ２にそれぞれ設置されて同時に稼働する。各々のコンテンツ提示装置１は、１人の被写体によって使用される。図１では、コンテンツ提示装置１－１、コンテンツ提示装置１－２それぞれは、第１被写体Ｐ１、第２被写体Ｐ２によってそれぞれ使用される。複数のコンテンツ提示装置１は、ネットワークＮＷ、及びサーバー装置２を介して相互に情報を交換する。コンテンツ提示装置１、及びサーバー装置２はそれぞれ、無線通信または有線通信によってネットワークＮＷに接続する。

コンテンツ提示装置１は、一例として、パーソナルコンピュータ（ＰＣ：ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）である。コンテンツ提示装置１は、スマートフォンなどの携帯端末装置であってもよい。コンテンツ提示装置１は、ヘッドマウントディスプレイＨ１と一体となって備えられてもよい。例えば、コンテンツ提示装置１は、小型の端末装置としてヘッドマウントディスプレイＨ１に内蔵されてもよいし、コンテンツ提示装置１の機能がプログラムとして実現されて、ヘッドマウントディスプレイＨ１に内蔵された演算装置によって当該プログラムが実行されてもよい。

以下では第１被写体Ｐ１の側の構成について説明するが、第２被写体Ｐ２の側の構成は、第１被写体Ｐ１の側の構成と同様である。
第１被写体Ｐ１は、ヘッドマウントディスプレイＨ１－１を装着している。ヘッドマウントディスプレイＨ１－１は、ディスプレイ装置、マイク、スピーカ、及びＨＭＤ位置測定部を備える。ＨＭＤ位置測定部は、ヘッドマウントディスプレイＨ１－１の位置及び姿勢を測定する。
ステレオカメラＳＣ１－１は、一例としてヘッドマウントディスプレイＨ１と一体となって備えられる。ステレオカメラＳＣ１－１は、第１被写体Ｐ１から見た第１の空間Ｒ１の風景、及び第１被写体Ｐ１の体の一部を撮影する。第１被写体Ｐ１の体の一部とは、例えば、第１被写体Ｐ１から見た自身の手、腕などである。ヘッドマウントディスプレイＨ１－１は、ステレオカメラＳＣ１－１によって撮影された映像を、自装置に備えられたディスプレイ装置に再生させる。

第１被写体Ｐ１は、第１の空間Ｒ１の第１被写体Ｐ１の背後の風景とともにＲＧＢＤカメラＣＭ１－１によって撮影される。第１被写体映像ＰＶ１は、第１被写体Ｐ１が撮影された画像を含む映像である。第１被写体映像ＰＶ１には、第１被写体Ｐ１が撮影された画像とともに、ヘッドマウントディスプレイＨ１－１に備えられるマイクによって収音された第１被写体Ｐ１の音声が含まる。

ＲＧＢＤカメラＣＭ１－１によって撮影された映像は、コンテンツ提示装置１－１を介してコンテンツ提示装置１－２に送信される。一方、第２被写体Ｐ２の側においてＲＧＢＤカメラＣＭ１－２によって撮影された映像は、コンテンツ提示装置１－２を介してコンテンツ提示装置１－１によって受信される。ヘッドマウントディスプレイＨ１－１は、提示映像Ｖ１－１を自装置に備えられるディスプレイ装置に提示させる。提示映像Ｖ１－１には、背景映像ＢＧ１－１を背景として、第１被写体Ｐ１の体の一部の映像とともに、ＲＧＢＤカメラＣＭ１－２によって撮影された映像に含まれる第２被写体映像ＰＶ２、及びコンテンツＣ１が含まれる。ここで背景映像ＢＧ１は、ヘッドマウントディスプレイＨ１が再生する映像において背景として用いられる映像である。本実施形態では、ヘッドマウントディスプレイＨ１－１が再生する映像において背景として用いられる背景映像ＢＧ１－１は、一例として、ステレオカメラＳＣ１－１によって撮影された第１の空間Ｒ１の風景の映像である。第２被写体映像ＰＶ２は、第２被写体Ｐ２が撮影された画像を含む映像である。第２被写体映像ＰＶ２には、第２被写体Ｐ２の音声が含まれる。
コンテンツＣ１は、ヘッドマウントディスプレイＨ１が再生する映像において拡張現実（ＡＲ：ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ）として表示される。コンテンツＣ１は、例えば、テレビ放送、ＡＲを用いた３次元映像などである。

同様にして、第２被写体Ｐ２の側では、ヘッドマウントディスプレイＨ１－２は、提示映像Ｖ１－２を自装置に備えられるディスプレイ装置に提示させる。提示映像Ｖ１－２には、背景映像ＢＧ１－２を背景として、第２被写体Ｐ２の体の一部の映像とともに、ＲＧＢＤカメラＣＭ１－１によって撮影された映像に含まれる第１被写体映像ＰＶ１、及びコンテンツＣ１が含まれる。コンテンツＣ１は、第１被写体Ｐ１の側において提示される提示映像Ｖ１－１と、第２被写体Ｐ２の側において提示される提示映像Ｖ１－２とにおいて共通である。

上述したように、背景映像ＢＧ１には、被写体が存在している空間の風景が用いられる。第１被写体Ｐ１と第２被写体Ｐ２とは、互いに離れた異なる空間にそれぞれ存在しているため、第１被写体Ｐ１の側において用いられる背景映像ＢＧ１－１と、第２被写体Ｐ２の側において用いられる背景映像ＢＧ１－２とは、互いに異なる。
なお、背景映像ＢＧ１として、第１被写体Ｐ１の側と、第２被写体Ｐ２の側とにおいて共通の映像が用いられてもよい。例えば、背景映像ＢＧ１として、第１の空間Ｒ１、または第２の空間Ｒ２以外の第３の空間の風景の映像が用いられてもよい。第３の空間とは、例えば、バーチャル空間である。このバーチャル空間には、例えば、各種の施設（例えば、放送スタジオ、会議室、映画館、水族館、美術館、コンサート会場、娯楽施設など）、屋外（海岸、山中、公園、観光名所など）などが含まれる。バーチャル空間は、リアルタイムストリーミングによる現在の風景の映像であってもよいし、過去に撮影された風景の映像であってもよい。バーチャル空間は、コンピュータグラフィックスによって作成された実際に存在しない場所であってもよい。

コンテンツ提示システムＳでは、互いに離れた異なる空間に存在する複数の被写体に、互いに同じ空間に存在するように感じさせながら共通のコンテンツが提示される。

［コンテンツ提示装置の構成］
ここで図２から図４を参照し、コンテンツ提示装置１の構成について説明する。
図２は、本実施形態に係るコンテンツ提示装置１の構成の一例を示す図である。コンテンツ提示装置１は、撮影部１１と、表示部１２とを備える。撮影部１１は、第１被写体映像ＰＶ１を第２被写体Ｐ２の側のコンテンツ提示装置１に送信する。表示部１２は、提示映像をヘッドマウントディスプレイＨ１に備えられるディスプレイ装置に表示させる。

コンテンツ提示装置１が備える上記の各機能部の少なくとも一部の機能は、電子回路を用いて実現され得る。また、それらの各機能部の一部または全部が、コンピューターと、プログラムとを用いて実現されてもよい。各機能部は、必要に応じて、記憶手段を有する。記憶手段は、例えば、電子回路上において所定の状態を維持するフリップフロップや、プログラムを用いる場合のプログラム上の変数や、プログラムの実行によりアロケーションされるメモリーである。また、必要に応じて、磁気ハードディスク装置やソリッドステートドライブ（ＳＳＤ）といった不揮発性の記憶手段を用いるようにしてもよい。

［撮影部の構成］
図３は、本実施形態に係る撮影部１１の構成の一例を示す図である。
ＲＧＢＤ撮影部３１は、自装置（ＲＧＢＤカメラＣＭ１－１）の周辺の映像であるＲＧＢＤ映像を撮影する。ＲＧＢＤ映像には、第１の空間Ｒ１に存在する第１被写体Ｐ１と、第１被写体Ｐ１の背後の風景とが含まれる。ＲＧＢＤ撮影部３１は、図１に示したＲＧＢＤカメラＣＭ１－１に対応する。

第１被写体位置測定部３２は、ヘッドマウントディスプレイＨ１－１の位置及び姿勢を測定する。第１被写体位置測定部３２は、例えば、ヘッドマウントディスプレイＨ１－１に内蔵されるＨＭＤ位置測定部である。ここで、位置は、３次元空間における位置座標で表される情報である。また、姿勢は、ヘッドマウントディスプレイＨ１－１の向きを、例えば３次元の角度の情報で表した情報である。ＨＭＤ位置測定部は、例えば、ジャイロセンサーやカメラを内蔵することにより、位置および姿勢を取得するようにしてもよい。また、ヘッドマウントディスプレイＨ１－１と一体となって備えられるステレオカメラＳＣ１－１が撮影した画像からも自己位置推定ができるため、ＨＭＤ位置測定部は、ステレオカメラＳＣ１－１が取得した映像から、位置および姿勢を算出してもよい。また、ＨＭＤ位置測定部は、外部からのビーコン信号を受信することによって、あるいは実空間内の場所を特定するためにクロックと同期して外部から発せられる赤外線等の信号を受信することによって、位置や姿勢を取得するようにしてもよい。また、ＨＭＤ位置測定部は、外部（例えば、コンテンツの視聴空間である部屋内）に設けられた複数のカメラ（例えば、ＲＧＢＤカメラＣＭ１－１）がヘッドマウントディスプレイＨ１－１を撮影して、求められた位置および姿勢の情報を受信するようにしてもよい。
第１被写体位置測定部３２は、測定したヘッドマウントディスプレイＨ１－１の位置及び姿勢を示す情報を、ＨＭＤ位置情報としてコンテンツ提示装置１に出力する。

第１被写体音声取得部３３は、第１の空間Ｒ１に存在する第１被写体Ｐ１の音声を取得する。第１被写体音声取得部３３は、ヘッドマウントディスプレイＨ１－１に内蔵されるマイクである。第１被写体音声取得部３３は、取得した第１被写体Ｐ１の音声を示す情報を、第１被写体音声情報としてコンテンツ提示装置１に出力する。

撮影部１１は、第１被写体映像切り出し部１１１と、第１被写体映像供給部１１２とを備える。
第１被写体映像切り出し部１１１は、ＲＧＢＤ撮影部３１によって撮影されたＲＧＢＤ映像から第１被写体映像ＰＶ１を切り出す。第１被写体映像切り出し部１１１は、一例として、ＲＧＢＤ映像に含まれる距離の情報に基づいて距離情報（デプスマップ）を生成し、生成した距離情報に基づいて、予め設定された距離（深さ）に基づいてＲＧＢＤ映像から第１被写体映像ＰＶ１を切り出す。ここで距離情報は、ＲＧＢＤカメラＣＭ１－１からみた距離（深さ）がＲＧＢＤ映像の画素毎に示された情報である。ＲＧＢＤ撮影部３１によって撮影されたＲＧＢＤ映像において、第１被写体Ｐ１に対応する部分のＲＧＢＤカメラＣＭ１－１からみた距離（深さ）は、第１被写体Ｐ１以外の背景の部分のＲＧＢＤカメラＣＭ１－１からみた距離（深さ）に比べて近いため、第１被写体映像切り出し部１１１は、距離情報に基づいてＲＧＢＤ映像から第１被写体映像ＰＶ１を切り出すことができる。予め設定された距離（深さ）は、第１被写体Ｐ１とＲＧＢＤカメラＣＭ１－１との距離に応じて予め設定される。なお、第１被写体Ｐ１とＲＧＢＤカメラＣＭ１－１との間には他の物体が配置されていないことが好ましい。

なお、第１被写体映像切り出し部１１１がＲＧＢＤ映像から第１被写体映像ＰＶ１を切り出す方法は、距離情報に基づく方法に限られない。第１被写体映像切り出し部１１１は、機械学習に基いてＲＧＢＤ映像から第１被写体映像ＰＶ１を切り出してもよい。この場合、第１被写体映像切り出し部１１１は、例えば、機械学習により、映像における第１被写体Ｐ１の特徴を予め学習済みである。第１被写体映像切り出し部１１１は、学習済みのモデルを参照することにより、ＲＧＢＤ映像内において第１被写体Ｐ１が映っている箇所（画像内の領域の座標等の情報）を特定することによって第１被写体映像ＰＶ１を切り出す。また別の一例として、第１被写体映像切り出し部１１１は、テンプレートを用いたパターンマッチングに基づいてＲＧＢＤ映像内において第１被写体Ｐ１が映っている箇所を特定してもよい。

第１被写体映像供給部１１２は、第１被写体映像切り出し部１１１によって切り出された第１被写体映像ＰＶ１、第１被写体位置測定部３２から出力されるＨＭＤ位置情報、第１被写体音声取得部３３から出力される第１被写体音声情報を、他のコンテンツ提示装置１（コンテンツ提示装置１－２）に供給する。なお、第１被写体音声情報は、第１被写体映像ＰＶ１に含めて供給される。

［表示部の構成］
図４は、本実施形態に係る表示部１２の構成の一例を示す図である。表示部１２は、外部情報取得部１３と、制御コマンド取得部１４と、コンテンツ取得部１５と、処理部１６と、データ共有部１７と、第２被写体情報取得部１８と、記憶部１９とを備える。

外部情報取得部１３は、周辺映像取得部１３１と、距離情報取得部１３２と、第１被写体位置・姿勢取得部１３３とを備える。周辺映像取得部１３１は、ステレオカメラＳＣ１－１が撮影した周辺映像Ｅ１を取得する。周辺映像Ｅ１は、第１被写体Ｐ１を含む自装置（コンテンツ提示装置１－１）の周辺の映像である。周辺映像Ｅ１には、第１被写体Ｐ１の音声が含まれる。

距離情報取得部１３２は、周辺映像取得部１３１が取得する周辺映像Ｅ１に対応する距離情報（デプスマップ）を取得する。ここで距離情報取得部１３２は、ステレオカメラＳＣ１－１が撮影した周辺映像Ｅ１に基づいてステレオマッチングを用いて距離情報（デプスマップ）を取得（生成）する。なお、コンテンツ提示装置１とは別の装置によってステレオカメラＳＣ１－１が撮影した周辺映像Ｅ１から距離情報が算出されて、距離情報取得部１３２は、別の装置によって算出された距離情報を取得してもよい。なお、距離画像を取得することそのものは、既存技術を利用して実現可能である。

第１被写体位置・姿勢取得部１３３は、ヘッドマウントディスプレイＨ１－１から第１被写体位置姿勢情報を取得する。第１被写体位置姿勢情報は、第１被写体Ｐ１の位置及び姿勢を示す情報である。第１被写体位置・姿勢取得部１３３は、ヘッドマウントディスプレイＨ１－１からヘッドマウントディスプレイＨ１－１の位置及び姿勢を示す情報を、第１被写体位置姿勢情報として取得する。

制御コマンド取得部１４は、操作部（不図示）から制御コマンドを取得する。制御コマンドは、コンテンツについての操作を示す。操作部は、第１被写体Ｐ１からの操作を受け付ける。操作部は、例えば、リモートコントローラー（リモコン）、キーボード、コントローラーなどを含んで構成される。コンテンツについての操作に応じて、コンテンツの内部状態が更新される。コンテンツの内部状態には、選択されたコンテンツ（番組など）を示す情報、再生または停止の区別、音量、コンテンツが表示される位置及び向き、コンテンツが表示される領域の大きさなどが含まれる。コンテンツを選択するとは、番組（またはチャンネル）などを選択することである。コンテンツが表示される位置は、第１被写体Ｐ１からみて左右方向あるいは奥行方向の位置によって指定される。

コンテンツ取得部１５は、コンテンツＣ１を記憶部１９から取得する。なお、本実施形態では、コンテンツＣ１が記憶部１９に予め記憶されている場合の一例について説明するが、これに限られない。コンテンツ取得部１５は、コンテンツ提示装置１以外からコンテンツを取得してもよい。例えば、コンテンツ取得部１５は、ＤＶＤやブルーレイディスクやハードディスク装置などといった記録媒体から、コンテンツを取得してもよい。あるいは、コンテンツ取得部１５は、通信や放送等の信号で配信されるコンテンツを取得してもよい。

処理部１６は、外部情報取得部１３、制御コマンド取得部１４、コンテンツ取得部１５、データ共有部１７、第２被写体情報取得部１８からの情報を処理し、ディスプレイ装置４に表示させる提示映像Ｖ１を計算し、出力する。処理部１６の構成の詳細は後述する。

データ共有部１７は、コンテンツ提示装置１（コンテンツ提示装置１－１）が他のコンテンツ提示装置１（コンテンツ提示装置１－２）との間で制御コマンドを共有するための処理を行う。データ共有部１７は、制御コマンド取得部１４が取得した制御コマンドを、他のコンテンツ提示装置１に送信する。データ共有部１７は、他のコンテンツ提示装置１から制御コマンドを受信する。コンテンツについての操作は、上述したように第１被写体Ｐ１からの操作によって行われる場合と、第２被写体Ｐ２からの操作が他のコンテンツ提示装置１（コンテンツ提示装置１－２）から受信されて行われる場合とがある。

第２被写体情報取得部１８は、第２被写体映像取得部１８１と、第２被写体位置・姿勢取得部１８２とを備える。第２被写体映像取得部１８１は、第２被写体映像ＰＶ２を他のコンテンツ提示装置１（コンテンツ提示装置１－２）から取得する。第２被写体映像ＰＶ２には、第２被写体Ｐ２の音声が含まれる。第２被写体映像取得部１８１が他のコンテンツ提示装置１－２から取得する第２被写体映像ＰＶ２は、他のコンテンツ提示装置１－２の側に備えられるＲＧＢＤ撮影部（図３に示したＲＧＢＤ撮影部３１に対応）によって撮影されたＲＧＢＤ画像から切り出された第２被写体映像ＰＶ２と、他のコンテンツ提示装置１－２の側に備えられる第２被写体音声取得部（図３に示した第１被写体音声取得部３３に対応）によって取得された第２被写体Ｐ２の音声である。第２被写体位置・姿勢取得部１８２は、第２被写体Ｐ２の他のコンテンツ提示装置１（コンテンツ提示装置１－２）から第２被写体位置姿勢情報を取得する。第２被写体位置姿勢情報は、第２被写体Ｐ２の位置及び姿勢を示す情報である。

記憶部１９は、各種の情報を記憶する。各種の情報には、コンテンツＣ１、共有基準情報１９２が含まれる。共有基準情報１９２は、第１被写体映像ＰＶ１、第２被写体映像ＰＶ２、及びコンテンツＣ１が提示映像Ｖ１において表示される位置、及び向きの基準を示す情報である。共有基準情報１９２には、後述する第１被写体基準位置情報Ｍ１、及び第２被写体基準位置情報Ｍ２が含まれる。また、共有基準情報１９２には、コンテンツＣ１が表示される３次元空間Ｔ１内の位置と第１被写体基準位置情報Ｍ１が示す位置と第２被写体基準位置情報Ｍ２が示す位置との間の相対的な位置関係が含まれる。共有基準情報１９２は、コンテンツ提示装置１（コンテンツ提示装置１－１）と他のコンテンツ提示装置１（コンテンツ提示装置１－２）との間で共有されている。第１被写体基準位置情報Ｍ１が示す位置、及び第２被写体基準位置情報Ｍ２が示す位置については後述する。記憶部１９は、磁気ハードディスク装置や半導体記憶装置等の記憶装置を用いて構成される。

なお、本実施形態では、共有基準情報１９２が記憶部１９に予め記憶されている場合の一例について説明するが、これに限られない。コンテンツ提示装置１は、共有基準情報１９２をコンテンツ提示装置１以外の外部の装置（例えば、サーバー装置２）から取得してもよい。

処理部１６は、位置設定部１６１と、第１被写体映像抽出部１６６と、背景映像取得部１６７と、マスク生成部１６８と、オクルージョン再現部１６９と、提示部１６１０とを備える。
位置設定部１６１は、第１被写体映像ＰＶ１、第２被写体映像ＰＶ２、及びコンテンツＣ１が提示映像Ｖ１において表示される位置、及び向きを設定する。位置設定部１６１は、基準位置設定部１６２と、第１被写体位置設定部１６３と、第２被写体位置設定部１６４と、コンテンツ位置設定部１６５とを備える。

基準位置設定部１６２は、第１被写体基準位置情報Ｍ１、及び第２被写体基準位置情報Ｍ２を３次元空間Ｔ１内に設定する。３次元空間Ｔ１は、提示映像Ｖ１を生成するために各要素（第１被写体映像ＰＶ１、第２被写体映像ＰＶ２、及びコンテンツＣ１）の位置、向きを計算するための３次元空間である。第１被写体基準位置情報Ｍ１は、第１被写体映像ＰＶ１について基準となる位置及び向きを示す情報である。第２被写体基準位置情報Ｍ２は、第２被写体映像ＰＶ２について基準となる位置及び向きを示す情報である。第１被写体基準位置情報Ｍ１、及び第２被写体基準位置情報Ｍ２はそれぞれ、一例として、３次元空間Ｔ１内に配置された３つの点（マーカーともいう）である。第１被写体基準位置情報Ｍ１、及び第２被写体基準位置情報Ｍ２それぞれは、３つのマーカーによって３次元空間Ｔ１における位置と向きとを示す。ここで向きには、垂直方向についての向きと、この垂直方向に垂直な方向である回転方向についての向きとの２つの向きが含まれる。第１被写体基準位置情報Ｍ１が示す向きに垂直方向についての向きと、この垂直方向に垂直な方向である回転方向についての向きとが含まれることによって、第１被写体Ｐ１は、自身が装着しているヘッドマウントディスプレイＨ１－１の向きが、３次元空間Ｔ１に対して傾いていないかを確認できる。ヘッドマウントディスプレイＨ１－１の向きが、３次元空間Ｔ１に対して傾いているとは、例えば、ヘッドマウントディスプレイＨ１－１を装着している第１被写体Ｐ１が第１の空間Ｒ１の床に対して直立している場合に、この床が３次元空間Ｔ１における水平面に対して傾いていることである。ヘッドマウントディスプレイＨ１－１の向きが、３次元空間Ｔ１に対して傾いている場合には、第１被写体Ｐ１は自身の姿勢を調整してヘッドマウントディスプレイＨ１－１の向きを調整する。

基準位置設定部１６２は、第２被写体基準位置情報Ｍ２を、第２被写体基準位置情報Ｍ２が示す位置と第１被写体基準位置情報Ｍ１が示す位置との間の所定の相対的位置関係に基づいて３次元空間Ｔ１内に設定する。第１被写体基準位置情報Ｍ１が示す位置とは、例えば、第１被写体基準位置情報Ｍ１が示す３つの点のうちの１つの点の位置である。同様に、第２被写体基準位置情報Ｍ２が示す位置とは、例えば、第２被写体基準位置情報Ｍ２が示す３つの点のうちの１つの点の位置である。所定の相対的位置関係は、共有基準情報１９２に含まれる。この所定の相対的位置関係は、３次元空間Ｔ１内に設定された原点及び座標系に基づく関係である。３次元空間Ｔ１内に原点及び座標系が設定されて第１被写体基準位置情報Ｍ１が示す位置が設定されると、それら第１被写体基準位置情報Ｍ１が示す位置に対して第２被写体基準位置情報Ｍ２が示す位置が決められる。第２被写体基準位置情報Ｍ２が示す位置は、例えば、第１被写体基準位置情報Ｍ１が示す位置と、ＲＧＢＤカメラＣＭ１が設置される位置との間に含まれる位置である。

なお、本実施形態では、第１被写体基準位置情報Ｍ１、及び第２被写体基準位置情報Ｍ２は、それぞれ３つのマーカーである場合の一例について説明するが、これに限られない。第１被写体基準位置情報Ｍ１、及び第２被写体基準位置情報Ｍ２は、３次元空間Ｔ１における位置と、垂直方向についての向きと、回転方向についての向きとを示しさえすれば他の情報であってもよい。例えば、第１被写体基準位置情報Ｍ１、及び第２被写体基準位置情報Ｍ２は、それぞれ３次元の局所座標系であってもよい。局所座標系は、３次元空間Ｔ１に設定される座標系とは別に、３次元空間Ｔ１の点ごとに設定される。
他の例として、第１被写体基準位置情報Ｍ１、及び第２被写体基準位置情報Ｍ２は、それぞれ４つ以上のマーカーであってもよい。

第１被写体位置設定部１６３は、第１被写体映像ＰＶ１の３次元空間Ｔ１内の位置及び向きを第１被写体基準位置情報Ｍ１に基づいて設定する。
第２被写体位置設定部１６４は、第２被写体映像ＰＶ２の３次元空間Ｔ１内の位置及び向きを第２被写体基準位置情報Ｍ２に基づいて設定する。
コンテンツ位置設定部１６５は、第１被写体基準位置情報Ｍ１が示す位置と、第２被写体基準位置情報Ｍ２が示す位置との間の所定の相対的位置関係に基づいてコンテンツＣ１が表示される３次元空間Ｔ１内の位置を設定する。この所定の相対的位置関係は、共有基準情報１９２に含まれる。この所定の相対的位置関係は、例えば、第１被写体基準位置情報Ｍ１が示す位置と、第２被写体基準位置情報Ｍ２が示す位置と、コンテンツＣ１の位置とが所定の長さの３辺をもつ三角形を形成するような相対的位置関係である。

第１被写体映像抽出部１６６は、周辺映像Ｅ１から所定の被写体（人等）の映像を抽出する。また、所定の被写体の映像には、第１被写体映像ＰＶ１とともに、同一の空間（第１の空間Ｒ１）内で同一のバーチャルリアリティコンテンツを一緒に体験している他者の体の映像が含まれる。第１被写体映像抽出部１６６は、周辺映像取得部１３１が取得した周辺映像Ｅ１内の、第１被写体Ｐ１を認識する処理を行う。第１被写体映像抽出部１６６は、周辺映像Ｅ１から距離情報（デプスマップ）を生成し、生成した距離情報と、予め設定された深さに基づいて周辺映像Ｅ１内において所定の被写体が映っている箇所（画像内の領域の座標等の情報）を特定する。第１被写体映像抽出部１６６は、認識処理の結果として、周辺映像Ｅ１内の領域の位置情報を、マスク生成部１６８に供給する。
上述したように、所定の被写体の映像には、第１被写体映像ＰＶ１が含まれる。したがって、第１被写体映像抽出部１６６は、周辺映像Ｅ１から第１被写体映像ＰＶ１を抽出する。

なお、第１被写体映像抽出部１６６は、機械学習に基づいて第１被写体Ｐ１を認識してもよい。その場合、第１被写体映像抽出部１６６は、機械学習により、映像における所定被写体の特徴を予め学習済みである。第１被写体映像抽出部１６６は、学習済みのモデルを参照することにより、周辺映像Ｅ１内において所定の被写体が映っている箇所（画像内の領域の座標等の情報）を特定し、その情報を出力する。
また、第１被写体映像抽出部１６６は、抽出する被写体の種類に応じて抽出のためのアルゴリズムを選択してもよい。例えば、第１被写体映像抽出部１６６は、同一の空間（第１の空間Ｒ１）内で同一のバーチャルリアリティコンテンツを一緒に体験している他者が遠方に存在する場合に当該他者の映像の抽出に機械学習を用い、当該他者以外の被写体の映像の抽出に距離情報を用いてもよい。

背景映像取得部１６７は、背景映像ＢＧ１を取得する。背景映像取得部１６７は、周辺映像取得部１３１が取得した周辺映像Ｅ１から、提示領域の映像（画像）を切り出す。背景映像取得部１６７は、切り出した提示領域の映像を背景映像ＢＧ１として取得する。提示領域の映像は、周辺映像Ｅ１全体の一部のみ（例えば、中心付近の部分）であってもよい。これにより、周辺映像取得部１３１が取得する周辺映像Ｅ１の視野角と、ディスプレイ装置４に表示する提示映像Ｖ１の視野角とを、合わせることができる。背景映像取得部１６７は、切り出した映像（画像）を、提示部１６１０に供給する。なお、背景映像取得部１６７の処理は、中心射影の処理を含んでよい。

マスク生成部１６８は、マスク情報を生成する。マスク生成部１６８は、距離情報に基づくマスク情報と、認識結果に基づくマスク情報とを生成する。距離情報に基づくマスク情報は、距離情報取得部１３２から供給される距離情報に基づいて提示映像を提示すべき領域であるか否かを表す。また、認識結果に基づくマスク情報は、第１被写体映像抽出部１６６が認識した被写体（第１被写体Ｐ１の体、または第１の空間Ｒ１に存在し第１被写体Ｐ１とコンテンツを共有する被写体）が存在する領域であるか否かを表す。本実施形態では、マスク情報は、第１被写体映像ＰＶ１、第２被写体映像ＰＶ２、及びコンテンツＣ１を表示すべき領域であるか、周辺映像Ｅ１を表示すべき領域であるかを表す情報である。

上記のように、マスク生成部１６８は、距離情報に基づくマスクと、認識結果に基づくマスクとを生成する。これにより、提示部１６１０は、次のような提示を行えるようになる。例えば、自分自身（つまり、第１被写体Ｐ１）の体や、同一の空間（第１の空間Ｒ１）内で同一のバーチャルリアリティコンテンツを一緒に体験している他者の体、及び他の空間（第２の空間Ｒ２）内で同一のバーチャルリアリティコンテンツを一緒に体験している他者（第２被写体Ｐ２の）体を、バーチャルリアリティ映像の中に提示することができる。第１被写体映像切り出し部１１１によって認識される所定の被写体（人等）に関しては、自装置からの距離に関わらず、周辺映像Ｅ１の表示が行われるようにすることができる。特定の被写体（人等）以外に関しては、距離情報に基づく提示が行われる。つまり、自装置から比較的近い範囲の物は、周辺映像Ｅ１に含まれる形で、バーチャルリアリティ空間の中に提示される。また、自装置から比較的遠い範囲に存在する物は、周辺映像Ｅ１に含まれる形では提示されない。そのように自装置から比較的遠い範囲に存在する物が存在する領域では、最背面に全天球映像Ｚ１が提示される。

ここで、「比較的近い範囲」とは、例えば、人がその場から動くことなく（例えば、着座のまま）手を伸ばして触れられる範囲である。例えば、１メートル以内程度の範囲である。逆に「比較的遠い範囲」とは、例えば、２メートル以上程度の範囲である。その中間の距離の範囲（１メートル以上且つ２メートル以下）では、近距離用の周辺映像Ｅ１と、遠距離用の全天球映像Ｚ１とを混合した映像が提示されてもよい。
３次元空間Ｔ１は、近距離領域ＴＮ１と、遠距離領域ＴＦ１とからなる。近距離領域ＴＮ１は、上記した「比較的近い範囲」である。遠距離領域ＴＦ１は、上記した「比較的遠い範囲」である。

オクルージョン再現部１６９は、オクルージョンについての処理を行う。オクルージョンとは、手前に存在する物体を奥に存在する物体を隠すようにして描画することである。オクルージョン再現部１６９は、第１被写体映像ＰＶ１の３次元空間Ｔ１内の位置と、第２被写体映像ＰＶ２の３次元空間Ｔ１内の位置とに基づいて、提示映像Ｖ１において第１被写体映像ＰＶ１と第２被写体映像ＰＶ２とのいずれが手前側にあるかを判定する。オクルージョン再現部１６９は、判定結果を提示部１６１０に供給する。

提示部１６１０は、提示映像Ｖ１を生成する。提示映像Ｖ１は、３次元空間Ｔ１内の位置及び向きが設定された第１被写体映像ＰＶ１と、３次元空間Ｔ１内の位置及び向きが設定された第２被写体映像ＰＶ２と、３次元空間Ｔ１内の位置が設定されたコンテンツＣ１とが、周辺映像Ｅ１を背景として３次元空間Ｔ１内に表示された映像である。提示部１６１０は、マスク生成部１６８によって生成されたマスク情報と、オクルージョン再現部１６９による判定結果とに基づいて、提示映像Ｖ１内において、第１被写体映像ＰＶ１、第２被写体映像ＰＶ２、及びコンテンツＣ１相互間の位置関係を反映して提示映像Ｖ１を生成する。なお、提示映像Ｖ１を生成する処理をレンダリングともいう。提示部１６１０は、生成した提示映像Ｖ１をディスプレイ装置４に出力する。

提示部１６１０は、提示映像Ｖ１をディスプレイ装置４に出力する処理において、第２被写体映像ＰＶ２に含まれる音声を、第２被写体映像ＰＶ２の３次元空間Ｔ１内の位置に基づいて定位させて出力する。また、提示部１６１０は、提示映像Ｖ１をディスプレイ装置４に出力する処理において、コンテンツＣ１に含まれる音声を、コンテンツＣ１が表示される３次元空間Ｔ１内の位置に基づいて定位させて出力する。なお、提示部１６１０は、コンテンツＣ１に含まれる音声を、コンテンツＣ１が表示される３次元空間Ｔ１内の位置以外から出力してもよい。

ディスプレイ装置４は、提示部１６１０が出力する提示映像Ｖ１を表示する。ディスプレイ装置４は、ヘッドマウントディスプレイＨ１に内蔵される。ディスプレイ装置４は、画面上の領域ごとに、提示部１６１０から出力される提示映像Ｖ１を表示する。なお、ディスプレイ装置４は、例えば立体視のためのステレオ表示を行うものであってもよい。

［撮影処理］
ここで本実施形態に係る撮影処理について説明する。撮影処理とは、ＲＧＢＤカメラＣＭ１によって被写体が撮像され、撮影部１１によって被写体の映像が他のコンテンツ提示装置１に送信される処理である。図５は、本実施形態に係る撮影処理の一例を示す図である。図５に示す撮影処理は、コンテンツ提示装置１が提示する提示映像Ｖ１の１フレーム分についての処理に対応する。なお、図５に示す撮影処理は、第１被写体映像ＰＶ１の側を例に取って説明するが、第２被写体映像ＰＶ２の側の撮影処理についても同様である。

ステップＳ１０：第１被写体映像切り出し部１１１は、ＲＧＢＤ撮影部３１によって撮影されたＲＧＢＤ映像を取得する。ＲＧＢＤ映像は、ＲＧＢＤ撮影部３１（ＲＧＢＤカメラＣＭ１－１）によって撮影され、ＲＧＢＤカメラＣＭ１－１の周辺の映像であって、第１被写体Ｐ１を含む。

ステップＳ２０：第１被写体映像切り出し部１１１は、ＲＧＢＤ撮影部３１によって撮影されたＲＧＢＤ映像から第１被写体映像ＰＶ１を切り出す。ここで第１被写体映像切り出し部１１１は、予め設定された深さに基づいてＲＧＢＤ映像から第１被写体映像ＰＶ１を切り出す。なお、第１被写体映像切り出し部１１１は、機械学習に基いてＲＧＢＤ映像から第１被写体映像ＰＶ１を切り出してもよい。第１被写体映像切り出し部１１１は、切り出した第１被写体映像ＰＶ１を第１被写体映像供給部１１２に供給する。
ステップＳ３０：第１被写体映像供給部１１２は、第１被写体映像切り出し部１１１から供給される第１被写体映像ＰＶ１を他のコンテンツ提示装置１－２に送信する。

ステップＳ４０：第１被写体映像供給部１１２は、第１被写体位置測定部３２からＨＭＤ位置情報を取得する。ＨＭＤ位置情報は、上述したように第１被写体位置測定部３２（ヘッドマウントディスプレイＨ１－１に内蔵されるジャイロセンサー）によって測定されたヘッドマウントディスプレイＨ１－１の位置及び姿勢を示す。
ステップＳ５０：第１被写体映像供給部１１２は、第１被写体音声取得部３３から第１被写体音声情報を取得する。第１被写体音声情報は、上述したように第１被写体音声取得部３３（ヘッドマウントディスプレイＨ１－１に内蔵されるマイク）によって取得された第１被写体Ｐ１の音声を示す。
ステップＳ６０：第１被写体映像供給部１１２は、取得したＨＭＤ位置情報、及び第１被写体音声情報を他のコンテンツ提示装置１－２に送信する。

ステップＳ７０：撮影部１１は、撮影処理の終了条件が満たされたか否かを判定する。撮影処理の終了条件とは、例えば、撮影処理を終了する操作を撮影部１１が受け付けること、あるいはヘッドマウントディスプレイＨ１－１の電源がオフになることである。撮影部１１は、撮影処理の終了条件が満たされと判定した場合（ステップＳ７０；ＹＥＳ）、撮影処理を終了する。一方、撮影部１１は、撮影処理の終了条件が満たされていないと判定した場合（ステップＳ７０；ＮＯ）、ステップＳ１０の処理を再度実行する。
以上で、撮影部１１は、撮影処理を終了する。

なお、撮影処理において、ステップＳ１０からステップＳ２０までの第１被写体映像ＰＶ１が切り出されるまでの処理と、ステップＳ４０のＨＭＤ位置情報を取得する処理と、ステップＳ５０の第１被写体音声情報を取得する処理とは、並列して実行されてもよい。また、ステップＳ３０の第１被写体映像ＰＶ１を送信する処理と、ステップＳ６０のＨＭＤ位置情報、及び第１被写体音声情報を送信する処理とは、並列してあるいは一度に実行されてもよい。第１被写体音声情報は、他のコンテンツ提示装置１－２に送信される前に、第１被写体映像ＰＶ１に含まれて送信されてもよい。

［表示処理］
次に本実施形態に係る表示処理について説明する。表示処理とは、ヘッドマウントディスプレイＨ１に内蔵されるディスプレイ装置４に提示映像Ｖ１を表示させる処理である。図６は、本実施形態に係る表示処理の一例を示す図である。図６に示す表示処理は、コンテンツ提示装置１が提示する提示映像Ｖ１の１フレーム分についての処理に対応する。なお、図６に示す表示処理は、第１被写体映像ＰＶ１の側を例に取って説明するが、第２被写体映像ＰＶ２の側の撮影処理についても同様である。

ステップＳ１１０：提示部１６１０は、基準位置設定部１６２によって３次元空間Ｔ１内に設定された第１被写体基準位置情報Ｍ１、及び第２被写体基準位置情報Ｍ２をディスプレイ装置４に表示させる。

ステップＳ１２０：周辺映像取得部１３１は、ステレオカメラＳＣ１－１が撮影した周辺映像Ｅ１を取得する。ステレオカメラＳＣ１－１が撮影した周辺映像Ｅ１は、左側のカメラによって撮像された映像と、右側のカメラによって撮像された映像との組である。
ステップＳ１３０：提示部１６１０は、背景映像取得部１６７によって切り出された提示領域の映像をディスプレイ装置４に表示させる。ここで第１被写体映像ＰＶ１は、第１被写体映像抽出部１６６によって周辺映像Ｅ１から抽出されてディスプレイ装置４に表示される。

ステップＳ１４０：第１被写体位置設定部１６３は、第１被写体映像ＰＶ１の３次元空間Ｔ１内の位置及び向きを第１被写体基準位置情報Ｍ１に基づいて設定する。ここで第１被写体位置設定部１６３は、レンダリングによって生成される提示映像Ｖ１において視点となる位置及び向きを調整することによって３次元空間Ｔ１における第１被写体映像ＰＶ１の位置を調整する。第１被写体映像ＰＶ１の位置が第１被写体基準位置情報Ｍ１に基づいて設定（調整）される前では、提示映像Ｖ１において視点となる位置及び向きは、ヘッドマウントディスプレイＨ１－１の仕様に基づいて設定されている初期の表示における所定の位置及び向きに設定されて提示映像Ｖ１が表示される。そのため、３次元空間Ｔ１内において第１被写体映像ＰＶ１の位置及び向きは、第１被写体基準位置情報Ｍ１が示す位置及び向きからは一般にはずれている。第１被写体位置設定部１６３は、提示映像Ｖ１において視点となる位置及び向きを第１被写体基準位置情報Ｍ１が示す位置及び向きに一致させる。これによって、第１被写体位置設定部１６３は、３次元空間Ｔ１内において、第１被写体映像ＰＶ１の位置及び向きを第１被写体基準位置情報Ｍ１が示す位置及び向きに一致させる。

ステップＳ１５０：提示部１６１０は、第２被写体映像取得部１８１によって取得された第２被写体映像ＰＶ２をディスプレイ装置４に表示させる。ここで提示部１６１０は、第２被写体映像ＰＶ２を所定未満の透過度において表示する。ここで所定未満の透過度とは、第１被写体Ｐ１にとって第２被写体映像ＰＶ２が透けていないと感じられる程度の透過度である。なお、提示部１６１０は、第２被写体映像ＰＶ２を所定以上の透過度において表示してもよい。
提示部１６１０は、第２被写体映像ＰＶ２を実写映像として表示する。実写映像として表示するとは、ＲＧＢＤカメラＣＭ１－２によって第２被写体Ｐ２が撮影された映像を、画素値をそのまま用いて質感を損なうことなく表示することである。

提示部１６１０は、オクルージョン再現部１６９によって判定された第２被写体映像ＰＶ２と、提示領域に含まれる他の物体に対応する映像とのいずれが手前にあるかの判定結果に基づいて第２被写体映像ＰＶ２を表示させる。提示領域に含まれる他の物体には、第１被写体映像ＰＶ１、周辺映像Ｅ１に撮影された風景が含まれる。

ステップＳ１６０：第２被写体位置設定部１６４は、第２被写体映像ＰＶ２の３次元空間Ｔ１内の位置及び向きを第２被写体基準位置情報Ｍ２に基づいて設定する。ここで第２被写体Ｐ２を撮影するステレオカメラＳＣ１－２は、自装置の位置から撮影される風景をみた場合の映像を、自装置の高さ方向及び左右方向の位置を撮影された映像の中心にしてそのままＲＧＢＤ映像として出力する。そのため、第２被写体位置設定部１６４は、３次元空間Ｔ１内において第２被写体映像ＰＶ２を投影する仮想的なカメラ（プロジェクタ）の位置及び向きを調整することによって、３次元空間Ｔ１内における第２被写体映像ＰＶ２の位置及び向きを調整する。以下の説明では、３次元空間Ｔ１内において第２被写体映像ＰＶ２を投影する仮想的なカメラを仮想カメラＶＣ１－１という。第２被写体映像ＰＶ２の位置が第２被写体基準位置情報Ｍ２に基づいて設定（調整）される前では、仮想カメラＶＣ１－１の位置及び向きは、ヘッドマウントディスプレイＨ１－１の仕様に基づいて設定されている初期の表示における所定の位置及び向きに設定されている。そのため、３次元空間Ｔ１内において第２被写体映像ＰＶ２の位置及び向きは、第２被写体基準位置情報Ｍ２が示す位置及び向きからは一般にはずれている。第２被写体位置設定部１６４は、３次元空間Ｔ１内において仮想カメラＶＣ１－１の位置及び向きを調整することによって、３次元空間Ｔ１内において、第２被写体映像ＰＶ２の位置及び向きを第２被写体基準位置情報Ｍ２が示す位置及び向きに一致させる。

上述したように、ステップＳ１４０及びステップＳ１６０において、３次元空間Ｔ１内の第１被写体映像ＰＶ１、及び第２被写体映像ＰＶ２それぞれの位置及び向きが、第１被写体基準位置情報Ｍ１及び第２被写体基準位置情報Ｍ２に基づいてそれぞれ設定される。３次元空間Ｔ１内の第１被写体映像ＰＶ１、及び第２被写体映像ＰＶ２それぞれの位置及び向きが一度設定されると、以降のフレームにおいて、３次元空間Ｔ１内の第１被写体映像ＰＶ１、及び第２被写体映像ＰＶ２それぞれの位置及び向きの変化は、第１被写体基準位置情報Ｍ１及び第２被写体基準位置情報Ｍ２に基づいてそれぞれ設定された位置及び向きからの相対的な変化となる。コンテンツ提示システムＳでは、第１被写体基準位置情報Ｍ１、第２被写体基準位置情報Ｍ２、及び第１被写体基準位置情報Ｍ１が示す位置と第２被写体基準位置情報Ｍ２が示す位置との間の相対的な位置関係は、複数のコンテンツ提示装置１相互間において共有されている。したがって、以降のフレームにおける第１被写体基準位置情報Ｍ１及び第２被写体基準位置情報Ｍ２に基づいてそれぞれ設定された位置及び向きからの相対的な変化は、複数のコンテンツ提示装置１相互間において共有される。

ステップＳ１７０：提示部１６１０は、ディスプレイ装置４に表示されている第１被写体基準位置情報Ｍ１、及び第２被写体基準位置情報Ｍ２を非表示にする。

ステップＳ１８０：提示部１６１０は、他のコンテンツ提示装置１－２から受信したＨＭＤ位置情報に基づいて、第２被写体映像ＰＶ２に含まれる音声を第２被写体映像ＰＶ２の３次元空間Ｔ１内の位置に基づいて定位させて出力（再生）する。他のコンテンツ提示装置１－２から受信したＨＭＤ位置情報は、第２被写体Ｐ２に装着されているヘッドマウントディスプレイＨ１－２の位置を示す。第２被写体映像ＰＶ２に含まれる音声は、第２被写体映像ＰＶ２に第２被写体音声情報として含まれている。なお、提示部１６１０は、第２被写体映像ＰＶ２に含まれる音声を第２被写体映像ＰＶ２の３次元空間Ｔ１内の位置以外の位置から出力してもよい。

ステップＳ１９０：提示部１６１０は、操作部（不図示）に制御コマンドが入力されたか否かを判定する。操作部とは、第１被写体映像ＰＶ１側の操作部と、第２被写体映像ＰＶ２側の操作部の両方である。第１被写体映像ＰＶ１側の操作部に入力される制御コマンドは、制御コマンド取得部１４から取得される。第２被写体映像ＰＶ２側の操作部に入力される制御コマンドは、他のコンテンツ提示装置１－２からデータ共有部１７によって取得される。制御コマンド取得部１４は、制御コマンドが入力されたと判定した場合（ステップＳ１９０；ＹＥＳ）、ステップＳ２００の処理を実行する。一方、制御コマンド取得部１４は、制御コマンドが入力さていないと判定した場合（ステップＳ１９０；ＮＯ）、ステップＳ２２０の処理を実行する。

ステップＳ２００：データ共有部１７は、制御コマンド取得部１４が取得した制御コマンドを他のコンテンツ提示装置１－２に送信する。
ステップＳ２１０：制御コマンド取得部１４は、取得した制御コマンドに応じてコンテンツＣ１の内部状態を更新する。

ステップＳ２２０：マスク生成部１６８は、同一空間共有用マスク情報を生成する。同一空間共有用マスク情報は、第１の空間Ｒ１内に存在する被写体（第１被写体Ｐ１の体、または第１の空間Ｒ１に存在し第１被写体Ｐ１とコンテンツを共有する被写体）が存在する領域であるか否かを示す。
ステップＳ２３０：マスク生成部１６８は、ステップ２２０において生成した同一空間共有用マスク情報に、第２被写体映像ＰＶ２が存在する領域であるか否かを示す情報を追加する。

ステップＳ２４０：マスク生成部１６８は、コンテンツの内部状態に応じてコンテンツＣ１が存在する領域であるか否かを示す情報を同一空間共有用マスク情報に追加する。
ステップＳ２５０：提示部１６１０は、同一空間共有用マスク情報に基づいて、コンテンツＣ１を提示映像Ｖ１に追加する。ここで提示部１６１０は、コンテンツＣ１に含まれる映像、及び音声を提示映像Ｖ１に追加する。

ステップＳ２６０：提示部１６１０は、生成した提示映像Ｖ１をディスプレイ装置４に出力し、表示させる。ここで提示部１６１０は、ビデオシースルー方式を用いて提示映像Ｖ１を生成する。ディスプレイ装置４は、ビデオシースルー方式を用いて提示映像Ｖ１を表示する。なお、ディスプレイ装置４は、光学シースルー方式を用いて提示映像Ｖ１を表示してもよい。

ステップＳ２７０：処理部１６は、表示処理の終了条件が満たされたか否かを判定する。表示処理の終了条件とは、例えば、ヘッドマウントディスプレイＨ１－１の電源がオフになることである。処理部１６は、表示処理の終了条件が満たされたと判定した場合（ステップＳ２７０；ＹＥＳ）、表示処理を終了する。一方、処理部１６は、表示処理の終了条件が満たされていないと判定した場合（ステップＳ２７０；ＮＯ）、ステップＳ１２０に戻って以降の処理を再度実行する。ここで、２回目以降の表示処理においては、ステップＳ１１０、ステップＳ１４０、ステップＳ１６０、及びステップＳ１７０の各処理は省略される。
以上で、表示部１２は表示処理を終了する。

なお、図６に示した表示処理においては、第２被写体映像ＰＶ２の表示位置が設定された後に、コンテンツＣ１の表示位置が設定される場合の一例について説明したが、これに限られない。コンテンツＣ１の表示位置が設定された後に、第２被写体映像ＰＶ２の表示位置が設定されてもよい。

［位置設定］
ここで図７、図８を参照し、位置設定部１６１が第１被写体映像ＰＶ１、第２被写体映像ＰＶ２、及びコンテンツＣ１の３次元空間Ｔ１内のそれぞれの位置を設定する処理について説明する。図７は、本実施形態に係る位置設定処理の一例を示す図である。図７（Ａ）は、第１被写体Ｐ１の側の３次元空間Ｔ１－１における位置関係を示す。図７（Ｂ）は、第２被写体Ｐ２の側の３次元空間Ｔ１－２における位置関係を示す。３次元空間Ｔ１－１、及び３次元空間Ｔ１－２には、原点Ｏ１が予め設定されている。なお、図７（Ａ）では第１被写体Ｐ１の体の全体が示されているが、ヘッドマウントディスプレイＨ１－１に表示される提示映像Ｖ１では、第１被写体Ｐ１の体は、ステレオカメラＳＣ１－１によって撮影された部分のみがビデオシースルーに基づいて表示される。同様に、図７（Ｂ）では第２被写体Ｐ２の体の全体が示されているが、ヘッドマウントディスプレイＨ１－２に表示される提示映像Ｖ１では、第２被写体Ｐ２の体は、ステレオカメラＳＣ１－２によって撮影された部分のみがビデオシースルーに基づいて表示される。

第１被写体第１マーカーＭ１１、第１被写体第２マーカーＭ１２、及び第１被写体第３マーカーＭ１３の組は、第１被写体基準位置情報Ｍ１の一例である。第１被写体第１マーカーＭ１１、第１被写体第２マーカーＭ１２、及び第１被写体第３マーカーＭ１３は、原点Ｏ１に対する所定の相対位置に設定される。第１被写体第１マーカーＭ１１、第１被写体第２マーカーＭ１２、及び第１被写体第３マーカーＭ１３それぞれの原点Ｏ１からの距離、及び原点Ｏ１からみた方向は予め決定されている。換言すれば、第１被写体第１マーカーＭ１１、第１被写体第２マーカーＭ１２、及び第１被写体第３マーカーＭ１３のそれぞれの位置を、３次元空間Ｔ１－１に予め設定された３次元座標系によって表した場合の各座標の値は予め決定されている。

第２被写体第１マーカーＭ２１、第２被写体第２マーカーＭ２２、及び第２被写体第３マーカーＭ２３の組は、第２被写体基準位置情報Ｍ２の一例である。第２被写体第１マーカーＭ２１、第２被写体第２マーカーＭ２２、及び第２被写体第３マーカーＭ２３は、原点Ｏ１に対する所定の相対位置に設定される。第２被写体第１マーカーＭ２１、第２被写体第２マーカーＭ２２、及び第２被写体第３マーカーＭ２３それぞれの原点Ｏ１からの距離、及び原点Ｏ１からみた方向は予め決定されている。換言すれば、第２被写体第１マーカーＭ２１、第２被写体第２マーカーＭ２２、及び第２被写体第３マーカーＭ２３のそれぞれの位置を、３次元空間Ｔ１－１に予め設定された３次元座標系によって表した場合の各座標の値は予め決定されている。

上述したように、第１被写体第１マーカーＭ１１、第１被写体第２マーカーＭ１２、及び第１被写体第３マーカーＭ１３は原点Ｏ１に対する所定の相対位置に設定されるため、第２被写体第１マーカーＭ２１、第２被写体第２マーカーＭ２２、及び第２被写体第３マーカーＭ２３は、第１被写体第１マーカーＭ１１、第１被写体第２マーカーＭ１２、及び第１被写体第３マーカーＭ１３に対する所定の相対位置に設定される。

第１被写体映像ＰＶ１は、例えば、第１被写体映像ＰＶ１の頭部、腰、第１被写体Ｐ１の正面の方向の所定の位置がそれぞれ、第１被写体第１マーカーＭ１１、第１被写体第２マーカーＭ１２、及び第１被写体第３マーカーＭ１３にそれぞれ一致するように表示される。ただし、ヘッドマウントディスプレイＨ１－１に表示される提示映像Ｖ１では、第１被写体Ｐ１の体のうちステレオカメラＳＣ１－１によって撮影された部分のみがビデオシースルーに基づいて第１被写体映像ＰＶ１として表示される。

第２被写体映像ＰＶ２は、上述したように３次元空間Ｔ１－１において仮想カメラＶＣ１－１によって投影されて表示される。第２被写体映像ＰＶ２は、例えば、第２被写体映像ＰＶ２の頭部、腰、第２被写体Ｐ２の正面の方向の所定の位置がそれぞれ、第２被写体第１マーカーＭ２１、第２被写体第２マーカーＭ２２、及び第２被写体第３マーカーＭ２３にそれぞれ一致するように表示される。第２被写体映像ＰＶ２に第２被写体音声情報として含まれる音声は、第２被写体音声位置ＰＰ２に定位されて出力される。第２被写体音声位置ＰＰ２は、第２被写体映像ＰＶ２の頭部の位置（第２被写体第１マーカーＭ２１の位置）に基づいて設定される。第２被写体音声位置ＰＰ２は、例えば、第２被写体映像ＰＶ２の頭部の位置に設定される。あるいは第２被写体音声位置ＰＰ２は、第２被写体映像ＰＶ２の頭部の位置から高さ方向に所定の距離だけ離れた位置に設定されてもよい。第２被写体音声位置ＰＰ２は、第２被写体映像ＰＶ２の頭部の位置に基づいて設定された後、この頭部の位置の移動に連動して移動する。

図７（Ｂ）に示す３次元空間Ｔ１－２においても、第１被写体第１マーカーＭ１１、第１被写体第２マーカーＭ１２、第１被写体第３マーカーＭ１３、第２被写体第１マーカーＭ２１、第２被写体第２マーカーＭ２２、及び第２被写体第３マーカーＭ２３は、図７（Ａ）に示す３次元空間Ｔ１－１と設定された位置と同じ位置に設定される。第１被写体第１マーカーＭ１１、第１被写体第２マーカーＭ１２、第１被写体第３マーカーＭ１３、第２被写体第１マーカーＭ２１、第２被写体第２マーカーＭ２２、及び第２被写体第３マーカーＭ２３それぞれの原点Ｏ１からの距離、及び原点Ｏ１からみた方向は、３次元空間Ｔ１－１と、３次元空間Ｔ１－２との間で同じである。換言すれば、第１被写体第１マーカーＭ１１、第１被写体第２マーカーＭ１２、第１被写体第３マーカーＭ１３、第２被写体第１マーカーＭ２１、第２被写体第２マーカーＭ２２、及び第２被写体第３マーカーＭ２３それぞれの座標の値は、３次元空間Ｔ１－１と、３次元空間Ｔ１－２との間で同じである。第１被写体音声位置ＰＰ１は、例えば、第１被写体映像ＰＶ１の頭部の位置に設定される。あるいは第１被写体音声位置ＰＰ１は、第１被写体映像ＰＶ１の頭部の位置から高さ方向に所定の距離だけ離れた位置に設定されてもよい。第１被写体音声位置ＰＰ１は、第１被写体映像ＰＶ１の頭部の位置に基づいて設定された後、この頭部の位置の移動に連動して移動する。

第１被写体映像ＰＶ１は、３次元空間Ｔ１－２において仮想カメラＶＣ１－２によって投影されて表示される。図７に示す例では、第１被写体映像ＰＶ１の頭部、腰、第１被写体Ｐ１の正面の方向の所定の位置がそれぞれ、第１被写体第１マーカーＭ１１、第１被写体第２マーカーＭ１２、及び第１被写体第３マーカーＭ１３にそれぞれ一致されるように表示され、第２被写体映像ＰＶ２の頭部、腰、第２被写体Ｐ２の正面の方向の所定の位置がそれぞれ、第２被写体第１マーカーＭ２１、第２被写体第２マーカーＭ２２、及び第２被写体第３マーカーＭ２３にそれぞれ一致するように表示される場合の一例について説明したが、これに限られない。第１被写体映像ＰＶ１に含まれる部分のうち、第１被写体基準位置情報Ｍ１が示す位置に応じた所定の３つの部分が第１被写体基準位置情報Ｍ１が示す３つの位置にそれぞれ一致されるように表示されてもよい。例えば、第１被写体第１マーカーＭ１１、第１被写体第２マーカーＭ１２、及び第１被写体第３マーカーＭ１３それぞれの位置に応じて、第１被写体映像ＰＶ１の肩、腕、足の位置が、第１被写体映像ＰＶ１の第１被写体基準位置情報Ｍ１が示す位置への位置合わせに用いられてもよい。また、第１被写体基準位置情報Ｍ１が示す位置に応じて、第１被写体Ｐ１の周囲の所定の方向（正面の方向以外に、背面の方向、左右の方向など）の所定の位置が第１被写体映像ＰＶ１の第１被写体基準位置情報Ｍ１が示す位置への位置合わせに用いられてもよい。
第２被写体映像ＰＶ２の第２被写体基準位置情報Ｍ２が示す位置への位置合わせについても同様に、第２被写体映像ＰＶ２に含まれる部分のうち第２被写体基準位置情報Ｍ２が示す位置に応じた所定の３つの部分が第２被写体基準位置情報Ｍ２が示す位置に一致されるように表示されてもよい。

ここで、第１被写体映像ＰＶ１及び第２被写体映像ＰＶ２の位置の設定をヘッドマウントディスプレイＨ１－１に表示される映像を用いて説明する。図８は、本実施形態に係る被写体の位置を設定するためにヘッドマウントディスプレイＨ１－１に表示される映像の一例を示す図である。図８に示す例では、第１被写体Ｐ１は第１の空間Ｒ１においてヘッドマウントディスプレイＨ１－１を頭部に装着した状態で椅子ＯＢ１に座っている。第２被写体Ｐ２は、第２の空間Ｒ２において椅子に座っている。図８に示す例では、第２被写体映像ＰＶ２には、第２被写体Ｐ２の映像とともに第２被写体Ｐ２が座っている椅子ＯＢ２の映像が含まれる。

図８（Ａ）は、第２被写体映像ＰＶ２の位置が、第２被写体第１マーカーＭ２１、第２被写体第２マーカーＭ２２、及び第２被写体第３マーカーＭ２３に対してずれている状態を示す。図８（Ａ）では、第２被写体映像ＰＶ２における第２被写体Ｐ２の腰の位置（つまり、椅子ＯＢ２の座面の位置）と、第２被写体第２マーカーＭ２２の位置とがずれている。一方、第１被写体Ｐ１が座っている椅子ＯＢ１の座面の位置と、第１被写体第２マーカーＭ１２の位置とは一致しており、第１被写体映像ＰＶ１の位置は、第１被写体Ｐ１の位置が、第１被写体第１マーカーＭ１１、第１被写体第２マーカーＭ１２、第１被写体第３マーカーＭ１３に対してずれていない。

第２被写体映像ＰＶ２の位置の調整は、上下方向、前後方向、左右方向について行われる。第２被写体映像ＰＶ２に含まれる第２被写体Ｐ２の足の位置は、３次元空間Ｔ１の底面の位置に一致するように上下方向の調整が行われる。つまり、第２被写体位置設定部１６４は、第２被写体基準位置情報Ｍ２に基づいて第２被写体映像ＰＶ２に含まれる第２被写体Ｐ２の足の位置を３次元空間Ｔ１の底面の位置に一致させて、第２被写体映像ＰＶ２の３次元空間Ｔ１内の位置を設定する。なお、第２被写体位置設定部１６４は、第２被写体Ｐ２の足の位置を３次元空間Ｔ１の底面の位置以外の位置に一致させて第２被写体映像ＰＶ２の３次元空間Ｔ１内の位置を設定してもよい。

第２被写体映像ＰＶ２の位置が、第２被写体第１マーカーＭ２１、第２被写体第２マーカーＭ２２、及び第２被写体第３マーカーＭ２３に対して調整されると、図８（Ｃ）に示す状態が得られる。図８（Ｃ）では、第２被写体映像ＰＶ２における第２被写体Ｐ２の腰の位置（つまり、椅子ＯＢ２の座面の位置）と、第２被写体第２マーカーＭ２２の位置とが一致している。

一方、図８（Ｂ）では、第１被写体Ｐ１の位置が、第１被写体第１マーカーＭ１１、第１被写体第２マーカーＭ１２、第１被写体第３マーカーＭ１３に対してずれている状態を示す。図８（Ｂ）では、第１被写体Ｐ１が座っている椅子ＯＢ１の座面の位置と、第１被写体第２マーカーＭ１２の位置とがずれている。一方、第２被写体映像ＰＶ２における第２被写体Ｐ２の腰の位置（つまり、椅子ＯＢ２の座面の位置）と、第２被写体第２マーカーＭ２２の位置とは一致しており、第２被写体映像ＰＶ２の位置が、第２被写体第１マーカーＭ２１、第２被写体第２マーカーＭ２２、及び第２被写体第３マーカーＭ２３に対してずれていない。

第１被写体映像ＰＶ１の位置の調整は、前後方向、左右方向について行われる。ヘッドマウントディスプレイＨ１－１に表示される映像において、３次元空間Ｔ１の底面はヘッドマウントディスプレイＨ１－１の上下方向の位置に基づいて予め調整される。ヘッドマウントディスプレイＨ１－１の上下方向の位置と、正面の方向とがそれぞれ、３次元空間Ｔ１の底面の位置と、水平方向の位置とにそれぞれ一致するように予め調整されている場合には、第１被写体映像ＰＶ１の上下方向の位置の調整は行われない。ヘッドマウントディスプレイＨ１－１の上下方向の位置と、正面の方向とがそれぞれ、３次元空間Ｔ１の底面の位置と、水平方向の位置とにそれぞれ一致するように予め調整されていない場合には、第１被写体映像ＰＶ１の上下方向の位置の調整が行われる。

第１被写体映像ＰＶ１の位置が、第１被写体第１マーカーＭ１１、第１被写体第２マーカーＭ１２、第１被写体第３マーカーＭ１３に対して調整されると、図８（Ｃ）に示す状態が得られる。図８（Ｃ）では、第１被写体Ｐ１が座っている椅子ＯＢ１の座面の位置と、第１被写体第２マーカーＭ１２の位置とが一致している。
なお、第１被写体映像ＰＶ１、あるいは第２被写体映像ＰＶ２の位置の調整が完了すると、各マーカーは非表示の状態にされる。

ここで第２被写体映像ＰＶ２は、第２被写体Ｐ２がＲＧＢＤカメラＣＭ１－２に一方向から撮影されて得られる映像である。第２被写体映像ＰＶ２における第２被写体Ｐ２の上下方向の位置は、撮影部１１によって調整される。これは、ＲＧＢＤカメラＣＭ１－２の上下方向の位置（高さ）が第２被写体Ｐ２の目線と同程度の上下方向の位置（高さ）にあることが好ましいためである。

第２被写体映像ＰＶ２における第２被写体Ｐ２の上下方向に垂直な方向の位置、及び当該方向についての向き（回転の向き）は、ＲＧＢＤカメラＣＭ１－２の位置によって調整されてもよいし、表示部１２によって調整されてもよいし、ＲＧＢＤカメラＣＭ１－２の位置による調整と表示部１２による調整とが組み合わされて調整されてもよい。本実施形態では、第２被写体映像ＰＶ２における第２被写体Ｐ２の上下方向に垂直な方向についての向きが適当でない場合には、一例として、第２被写体Ｐ２を撮影するＲＧＢＤカメラＣＭ１－２の上下方向に垂直な方向の位置、及び当該方向についての向き（回転の向き）が調整される。第２被写体映像ＰＶ２における第２被写体Ｐ２の上下方向に垂直な方向の位置、及び当該方向についての向き（回転の向き）は、ＲＧＢＤカメラＣＭ１－２の位置によって調整される場合には、ＲＧＢＤカメラＣＭ１－２の撮影範囲における第２被写体映像ＰＶ２の位置あるいは向きを一定にできる。

なお、上述したようにＲＧＢＤカメラＣＭ１－２の向きが調整される代わりに、表示部１２によって第２被写体映像ＰＶ２における第２被写体Ｐ２の上下方向に垂直な方向の位置、及び当該方向についての向き（回転の向き）が変更されてもよい。その場合、表示部１２に備えられる第２被写体位置設定部１６４は、画像処理に基づいて第２被写体映像ＰＶ２の上下方向に垂直な方向の位置、及び当該方向についての向き（回転の向き）を変更する。第２被写体位置設定部１６４は、予め取得された第２被写体Ｐ２についての複数の方向から撮影した場合の複数の画像から、適当な画像が選択してもよい。または、第２被写体位置設定部１６４は、機械学習などを用いた画像処理に基づいて第２被写体Ｐ２を他の方向から撮影した場合の画像を生成することによって第２被写体映像ＰＶ２における第２被写体Ｐ２の向きを変更してもよい。

図７に戻って位置設定の説明を続ける。
コンテンツＣ１が表示される３次元空間Ｔ１内の位置は、原点Ｏ１に対する所定の相対位置に設定される。第１被写体基準位置情報Ｍ１が示す位置、及び第２被写体基準位置情報Ｍ２が示す位置は、原点Ｏ１に対する所定の相対位置に設定されているため、コンテンツＣ１が表示される位置は、第１被写体基準位置情報Ｍ１が示す位置、及び第２被写体基準位置情報Ｍ２が示す位置に対する所定の相対位置に設定されている。
コンテンツＣ１に含まれる音声は、コンテンツ音声位置ＰＣ１に定位されて再生される。コンテンツ音声位置ＰＣ１は、コンテンツＣ１が表示される位置に基づいて設定される。コンテンツ音声位置ＰＣ１は、例えば、コンテンツＣ１が表示される位置に設定される。なおコンテンツ音声位置ＰＣ１は、コンテンツＣ１が表示される位置から高さ方向に所定の距離だけ離れた位置に設定されてもよい。コンテンツ音声位置ＰＣ１は、コンテンツＣ１が表示される位置に基づいて設定された後、コンテンツＣ１が表示される位置の移動に連動して移動する。

ここで図９を参照し、コンテンツＣ１が表示される位置と、第１被写体映像ＰＶ１が表示される位置と、第２被写体映像ＰＶ２が表示される位置との関係について説明する。図９は、本実施形態に係るコンテンツＣ１、第１被写体映像ＰＶ１、及び第２被写体映像ＰＶ２間の相対的な位置関係の一例を示す図である。
図９（Ａ）は、第１被写体Ｐ１の側の３次元空間Ｔ１－１における位置関係を示す。図９（Ａ）において、位置Ａ１－１、Ａ２－１、Ａ３－１はそれぞれ、第１被写体Ｐ１の位置、第２被写体映像ＰＶ２が表示される位置、コンテンツＣ１が表示される位置を示す。位置Ａ２－１は、位置Ａ１－１と、ＲＧＢＤカメラＣＭ１－１が設置される位置との間の位置に設定される。または、ＲＧＢＤカメラＣＭ１－１が、位置Ａ１－１から位置Ａ２－１への方向に所定の距離だけ離れた位置に設置されてもよい。また、位置Ａ３－１は、位置Ａ１－１、Ａ２－１、Ａ３－１が所定の長さの３辺をもつ三角形の頂点に対応するように設定される。

図９（Ｂ）は、第２被写体Ｐ２の側の３次元空間Ｔ１－２における位置関係を示す。図９（Ｂ）において、位置Ａ１－２、Ａ２－２、Ａ３－２はそれぞれ、第１被写体映像ＰＶ１、第２被写体Ｐ２の位置、コンテンツＣ１が表示される位置を示す。位置Ａ１－２は、位置Ａ２－２と、ＲＧＢＤカメラＣＭ１－２が設置される位置との間の位置に設定される。または、ＲＧＢＤカメラＣＭ１－２が、位置Ａ２－２から位置Ａ１－２への方向に所定の距離だけ離れた位置に設置されてもよい。また、位置Ａ３－２は、位置Ａ１－２、Ａ２－２、Ａ３－２が所定の長さの３辺をもつ三角形の頂点に対応するように設定される。

ここで、３次元空間Ｔ１－１において位置Ａ３－１は、位置Ａ１－１、Ａ２－１、Ａ３－１によって形成される所定の長さの３辺をもつ三角形と、３次元空間Ｔ１－２において位置Ａ１－２、Ａ２－２、Ａ３－２によって形成される所定の長さの３辺をもつ三角形とは合同である。つまり、コンテンツ提示装置１においては、コンテンツＣ１が表示される３次元空間Ｔ１内の位置と第１被写体基準位置情報Ｍ１が示す位置と第２被写体基準位置情報Ｍ２が示す位置との間の相対的な位置関係は、他のコンテンツ提示装置１との間で共有されている。

［ＡＲまたはＶＲオブジェクトの描画］
提示映像Ｖ１におけるＡＲまたはＶＲオブジェクトの描画の規則について説明する。図１０は、本実施形態に係るＡＲまたはＶＲオブジェクトの描画の一例を示す図である。上述したように、３次元空間Ｔ１は、第１被写体Ｐ１からの距離に応じて互いに区別される近距離領域ＴＮ１と、遠距離領域ＴＦ１とからなる。

提示映像Ｖ１は、背景映像ＢＧ１と、物体映像Ｂ１とからなる。背景映像ＢＧ１は、周辺映像Ｅ１と、全天球映像Ｚ１とからなる。周辺映像Ｅ１は、近距離領域ＴＮ１における背景の映像として用いられる。周辺映像Ｅ１には、第１被写体Ｐ１が存在する周辺の例えば、床あるいは地面の映像とともに、第１被写体Ｐ１が存在する第１の空間Ｒ１に存在する様々な物体の映像が含まれる。図１０では、周辺映像Ｅ１に含まれる物体の映像として、住宅の柱の映像である映像Ｅ１０が示されている。全天球映像Ｚ１は、ＶＲオブジェクトであり、遠距離領域ＴＦ１における背景の映像として用いられる。

物体映像Ｂ１に含まれる映像には、第１被写体映像ＰＶ１、第２被写体映像ＰＶ２、コンテンツＣ１、第３被写体映像ＰＶ３がある。第３被写体映像ＰＶ３は、第１の空間Ｒ１に存在する人物のうち遠距離領域ＴＦ１に存在する人物の映像である。第２被写体映像ＰＶ２、コンテンツＣ１は、ＡＲオブジェクトである。

本実施形態では、近距離領域ＴＮ１には、ステレオカメラＳＣ１によって撮影された第１被写体Ｐ１の第１の空間Ｒ１の風景の映像が表示される。遠距離領域ＴＦ１には、ＶＲの映像である全天球映像Ｚ１が最背面の背景として表示されてよい。なお、遠距離領域ＴＦ１には、全天球映像Ｚ１が表示されなくてもよい。

ここで以下の説明においては、背景映像ＢＧ１と物体映像Ｂ１とのうち全天球映像Ｚ１以外の映像を、Ａグループオブジェクトといい、全天球映像Ｚ１をＢグループオブジェクトという。
提示映像Ｖ１において、Ａグループオブジェクトはグループオブジェクトよりも手前に表示される。Ａグループオブジェクト同士は、第１被写体Ｐ１からの距離に基づいてオクルージョンが再現されて表示される。Ａグループオブジェクトは、近距離領域ＴＮ１、遠距離領域ＴＦ１、近距離領域ＴＮ１と遠距離領域ＴＦ１との境界上のいずれに表示されてもよい。ここで第１の空間Ｒ１に存在する様々な物体の映像、及び第３被写体映像ＰＶ３は、３次元空間Ｔ１において存在する位置が決まっているため、それらの位置に応じて表示される。

［オクルージョンの再現］
次に図１１及び図１２を参照し、オクルージョンの再現について説明する。図１１は、本実施形態に係る第１被写体映像ＰＶ１と第２被写体映像ＰＶ２についてのオクルージョンの再現の一例を示す図である。図１１（Ａ）では、第１被写体映像ＰＶ１として第１被写体Ｐ１の手の映像示されている。この第１被写体Ｐ１の手の位置が第２被写体映像ＰＶ２の位置よりも手前にある場合、提示映像Ｖ１において当該手が第２被写体映像ＰＶ２と重なる部分は第２被写体映像ＰＶ２よりも手前に表示される。つまり、この場合、第１被写体映像ＰＶ１は、当該手が見える態様で表示される。

一方、図１１（Ｂ）では、第１被写体Ｐ１の手の位置は第２被写体映像ＰＶ２の位置よりも奥側ある。この場合、提示映像Ｖ１において当該手が第２被写体映像ＰＶ２と重なる部分は第２被写体映像ＰＶ２に隠されて表示される。つまり、この場合、第１被写体映像ＰＶ１は、当該手の一部分が見えない態様で表示される。

図１２は、本実施形態に係る第２被写体映像ＰＶ２とコンテンツについてのオクルージョンの再現の一例を示す図である。図１２では、コンテンツとしてコンテンツＣ３（エクセサイズをしているトレーナーのＡＲオブジェクト）が表示されている。第２被写体映像ＰＶ２は、コンテンツＣ３よりも手前にあるため、コンテンツＣ３は、コンテンツＣ３の一部（脚の部分）が、第２被写体映像ＰＶ２に含まれる椅子に隠れる態様で表示されている。

［コンテンツの例］
次に図１３から図１５を参照し、コンテンツ提示装置１によって提示されるＡＲとＶＲとを組み合わせた様々なコンテンツの例について説明する。図１３では、コンテンツとしてコンテンツＣ１３が表示されている。コンテンツＣ１３は、テレビ画面のＡＲオブジェクトである。図１３では、テレビ画面が空中に表示されている。図１４では、コンテンツとしてコンテンツＣ１４が表示されている。コンテンツＣ１４は、エクセサイズをしているトレーナーのＡＲオブジェクトである。コンテンツＣ１４は、トレーナーの３次元映像である。
図１３及び図１４では、Ｂグループオブジェクトである全天球映像Ｚ１は表示されておらず、遠距離領域ＴＦ１には、周辺映像Ｅ１が背景として表示されている。図１３及び図１４では、Ａグループオブジェクトである第１被写体映像ＰＶ１と、第２被写体映像ＰＶ２と、コンテンツとは、３次元空間Ｔ１における位置に応じてオクルージョンを再現して表示されている。

図１５では、全天球映像Ｚ１５が遠距離領域ＴＦ１に背景として表示されている。全天球映像Ｚ１５は、水族館の風景である。Ａグループオブジェクトである第１被写体映像ＰＶ１と、第２被写体映像ＰＶ２とは、Ｂグループオブジェクトである全天球映像Ｚ１５よりも手前に表示されている。Ａグループオブジェクトである第１被写体映像ＰＶ１と、第２被写体映像ＰＶ２は、３次元空間Ｔ１における位置に応じてオクルージョンを再現して表示されている。

以上に説明したように、本実施形態に係るコンテンツ提示装置１は、基準位置設定部１６２と、周辺映像取得部１３１と、第１被写体映像抽出部１６６と、背景映像取得部１６７と、第２被写体映像取得部１８１と、コンテンツ取得部１５と、第１被写体位置設定部１６３と、第２被写体位置設定部１６４と、コンテンツ位置設定部１６５と、提示部１６１０と、を備える。基準位置設定部１６２は、第１被写体Ｐ１が撮影された画像を含む映像である第１被写体映像ＰＶ１について基準となる位置及び向きを示す情報である第１被写体基準位置情報Ｍ１と、第２被写体Ｐ２が撮影された画像を含む映像である第２被写体映像ＰＶ２について基準となる位置及び向きを示す情報である第２被写体基準位置情報Ｍ２とを３次元空間Ｔ１内に設定する。周辺映像取得部１３１は、第１被写体Ｐ１を含む自装置の周辺の映像である周辺映像Ｅ１を取得する。第１被写体映像抽出部１６６は、周辺映像Ｅ１から第１被写体映像ＰＶ１を抽出する。背景映像取得部１６７は、背景として用いられる映像である背景映像ＢＧ１を取得する。第２被写体映像取得部１８１は、第２被写体映像ＰＶ２を他のコンテンツ提示装置１－２から取得する。コンテンツ取得部１５は、コンテンツＣ１を取得する。第１被写体位置設定部１６３は、第１被写体映像ＰＶ１の３次元空間Ｔ１内の位置及び向きを第１被写体基準位置情報Ｍ１に基づいて設定する。第２被写体位置設定部１６４は、第２被写体映像ＰＶ２の３次元空間Ｔ１内の位置及び向きを第２被写体基準位置情報Ｍ２に基づいて設定する。コンテンツ位置設定部１６５は、第１被写体基準位置情報Ｍ１が示す位置と、第２被写体基準位置情報Ｍ２が示す位置との間の所定の相対的位置関係に基づいてコンテンツＣ１が表示される３次元空間Ｔ１内の位置を設定する。提示部１６１０は、３次元空間Ｔ１内の位置及び向きが設定された第１被写体映像ＰＶ１と、３次元空間Ｔ１内の位置及び向きが設定された第２被写体映像ＰＶ２と、３次元空間Ｔ１内の位置が設定されたコンテンツＣ１とが、背景映像ＢＧ１を背景として３次元空間Ｔ１内に表示された映像である提示映像Ｖ１を出力する。コンテンツ提示装置１では、コンテンツＣ１が表示される３次元空間Ｔ１内の位置と第１被写体基準位置情報Ｍ１が示す位置と第２被写体基準位置情報Ｍ２が示す位置との間の相対的な位置関係、第１被写体基準位置情報Ｍ１、及び第２被写体基準位置情報Ｍ２がそれぞれ他のコンテンツ提示装置１－２との間で共有されている。

この構成により、本実施形態に係るコンテンツ提示装置１では、異なる空間にいる人同士がコンテンツの位置を含めた互いの位置関係を矛盾なく共有できるため、異なる空間にいる人とコンテンツ（ＡＲコンテンツ、ＶＲコンテンツ、またはＡＲコンテンツとＶＲコンテンツとが混合したコンテンツであるＡＲ／ＶＲ混合コンテンツ）を同じ空間を共有しながら体験している感覚を提供できる。

将来の放送コンテンツについては、ＡＲとＶＲとをシームレスに切り替えながら表示することが想定される。これを可能とし、なおかつ、実空間とバーチャルオブジェクトを同程度の品質で合成して表示できるシステムが必要とされる。そしてそのようなシステム内で、それぞれのユーザーがいずれの位置を基準点として空間を展開し、異なる空間をどのようにして矛盾なく共有するかを具体的に設計することが求められる。
コンテンツ提示装置１では、自分と遠方の人物とコンテンツの相対位置関係が矛盾することなく、同一エリアにいる人物だけでなく、物理的に同じ場所に存在しない人とも一緒に、言語外コミュニケーションも行いながら、ＡＲ／ＶＲ混合コンテンツを視聴体験することができる。ＡＲ／ＶＲ混合コンテンツは、将来の放送コンテンツとして想定されている。コンテンツ提示装置１では、ローカルエリア及びネットワークを介して家族や友人の様子を見ながら、一緒にＡＲコンテンツ、ＶＲコンテンツ、またはＡＲ／ＶＲ混合コンテンツを十分な視野角をもって視聴可能であり、実空間とバーチャル空間を同程度の品質で混合してシミュレーションできる環境を提供できる。

また、本実施形態に係るコンテンツ提示装置１では、提示部１６１０は、コンテンツＣ１に含まれる音声を、コンテンツＣ１が表示される３次元空間Ｔ１内の位置に基づいて定位させて出力する。
この構成により、本実施形態に係るコンテンツ提示装置１では、コンテンツＣ１に含まれる音声がコンテンツＣ１が表示される３次元空間Ｔ１内の位置から聞こえてくるため、コンテンツＣ１を視聴する際の臨場感を増すことができる。

また、本実施形態に係るコンテンツ提示装置１では、提示部１６１０は、第２被写体映像ＰＶ２に含まれる音声を、第２被写体映像ＰＶ２の３次元空間Ｔ１内の位置に基づいて定位させて出力する。
この構成により、本実施形態に係るコンテンツ提示装置１では、第２被写体Ｐ２の音声が第２被写体映像ＰＶ２の３次元空間Ｔ１内の位置から聞こえてくるため、異なる空間に存在する人が隣で音声を発しているかのように感じることができる。

また、本実施形態に係るコンテンツ提示装置１では、オクルージョン再現部１６９をさらに備える。オクルージョン再現部１６９は、第１被写体映像ＰＶ１の３次元空間Ｔ１内の位置と、第２被写体映像ＰＶ２の３次元空間Ｔ１内の位置とに基づいて、提示映像Ｖ１において第１被写体映像ＰＶ１と第２被写体映像ＰＶ２とのいずれが手前側にあるかを判定する。提示部１６１０は、オクルージョン再現部１６９の判定結果に基づいて提示映像Ｖ１を出力する。
この構成により、本実施形態に係るコンテンツ提示装置１では、異なる空間にいる人同士が互いの前後の位置関係を矛盾なく共有できるため、前後の位置関係に矛盾がある場合に比べてより自然に異なる空間に存在する人が隣に存在するかのように感じることができる。

また、本実施形態に係るコンテンツ提示装置１では、第２被写体位置設定部１６４は、第２被写体基準位置情報Ｍ２に基づいて第２被写体映像ＰＶ２に含まれる第２被写体Ｐ２の足の位置を３次元空間Ｔ１の底面の位置に一致させて、第２被写体映像ＰＶ２の３次元空間Ｔ１内の位置を設定する。
この構成により、本実施形態に係るコンテンツ提示装置１では、異なる空間にいる人同士が互いの高さ（上下）方向の位置関係を矛盾なく共有できるため、高さ（上下）方向の位置関係に矛盾がある場合に比べてより自然に異なる空間に存在する人が隣に存在するかのように感じることができる。

また、本実施形態に係るコンテンツ提示装置１では、提示部１６１０は、第２被写体映像ＰＶ２を所定未満の透過度において表示する。
この構成により、本実施形態に係るコンテンツ提示装置１では、異なる空間にいる人同士が互いの外観を、透明な映像として表示される場合に比べて実際の外観に近づけて見ることできるため、異なる空間に存在する人の外観を実際の外観に近づけて当該人が隣に存在するかのように感じることができる。

また、本実施形態に係るコンテンツ提示装置１では、提示部１６１０は、ビデオシースルー方式を用いて提示映像Ｖ１を生成する。
この構成により、本実施形態に係るコンテンツ提示装置１では、提示映像Ｖ１において自分の体が自然な態様で表示されるため、異なる空間にいる人と同じ空間を共有しながら体験する感覚をより自然なものにできる。自然な態様とは、距離感、質感、応答性（ディレイ）などが実際のものに近いことである。

なお、データ共有部１７は、同期部の機能を有していてもよい。同期部は、提示部１６１０が出力する提示映像Ｖ１においてコンテンツＣ１、または全天球映像Ｚ１の時間方向の再生位置を、他のコンテンツ提示装置１－２との間で同期させる。コンテンツ提示装置１－１と、他のコンテンツ提示装置１－２とは、通信により、随時情報を交換できる。

なお、本実施形態では、第１被写体映像切り出し部１１１が撮影部１１に備えられる場合の一例について説明したが、これに限られない。第１被写体映像切り出し部１１１は、表示部１２に備えられてもよい。その場合、第１被写体映像切り出し部１１１は、第２被写体映像切り出し部として表示部１２に備えられる。ここで第１被写体映像切り出し部１１１は、第２被写体映像切り出し部として表示部１２に備えられる場合について説明する。撮影部１１に備えられる被写体映像供給部は、ＲＧＢＤ撮影部３１によって撮影された第２被写体Ｐ２が撮影されたＲＧＢＤ映像を他のコンテンツ提示装置１に供給する。第２被写体映像取得部１８１は、他のコンテンツ提示装置１から供給されるＲＧＢＤ映像を取得する。表示部１２に備えられる第２被写体映像切り出し部は、第２被写体映像取得部１８１が取得したＲＧＢＤ映像から第２被写体映像ＰＶ２を切り出す。

なお、本実施形態では、一例として２台のコンテンツ提示装置１が同時に稼働している状況を示しているが、連携動作するコンテンツ提示装置１の数は、任意である。連携動作するコンテンツ提示装置１の数に応じて、複数人の被写体は、コンテンツの位置を含めた互いの位置関係を矛盾なく共有しながら共通のコンテンツを視聴できる。

なお、上述した各実施形態におけるコンテンツ提示装置が有する機能の少なくとも一部をコンピューターで実現することができる。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＵＳＢメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。

本発明は、例えば、映像コンテンツを提示するための装置や、映像コンテンツを提示するサービス等に利用することができる。但し、本発明の利用範囲はここに例示したものには限られない。

１、１－１、１－２…コンテンツ提示装置、１６２…基準位置設定部、１３１…周辺映像取得部、１６６…第１被写体映像抽出部、１６７…背景映像取得部、１８１…第２被写体映像取得部、１５…コンテンツ取得部、１６３…第１被写体位置設定部、１６４…第２被写体位置設定部、１６５…コンテンツ位置設定部、１６１０…提示部、Ｐ１…第１被写体、Ｐ２…第２被写体、ＰＶ１…第１被写体映像、ＰＶ２…第２被写体映像、Ｃ１…コンテンツ、Ｍ１…第１被写体基準位置情報、Ｍ２…第２被写体基準位置情報、Ｔ１…３次元空間、Ｅ１…周辺映像、ＢＧ１…背景映像

Claims

第１被写体が撮影された画像を含む映像である第１被写体映像について基準となる位置及び向きを示す情報である第１被写体基準位置情報と、第２被写体が撮影された画像を含む映像である第２被写体映像について基準となる位置及び向きを示す情報である第２被写体基準位置情報とを３次元空間内に設定する基準位置設定部と、
前記第１被写体を含む自装置の周辺の映像である周辺映像を取得する周辺映像取得部と、
前記周辺映像から前記第１被写体映像を抽出する第１被写体映像抽出部と、
背景として用いられる映像である背景映像を取得する背景映像取得部と、
前記第２被写体映像を他のコンテンツ提示装置から取得する第２被写体映像取得部と、
コンテンツを取得するコンテンツ取得部と、
前記第１被写体映像の前記３次元空間内の位置及び向きを前記第１被写体基準位置情報に基づいて設定する第１被写体位置設定部と、
前記第２被写体映像の前記３次元空間内の位置及び向きを前記第２被写体基準位置情報に基づいて設定する第２被写体位置設定部と、
前記第１被写体基準位置情報が示す位置と、前記第２被写体基準位置情報が示す位置との間の所定の相対的位置関係に基づいて前記コンテンツが表示される前記３次元空間内の位置を設定するコンテンツ位置設定部と、
前記３次元空間内の位置及び向きが設定された前記第１被写体映像と、前記３次元空間内の位置及び向きが設定された前記第２被写体映像と、前記３次元空間内の位置が設定された前記コンテンツとが、前記背景映像を背景として前記３次元空間内に表示された映像である提示映像を出力する提示部と、
を備え、
前記コンテンツが表示される前記３次元空間内の位置と前記第１被写体基準位置情報が示す位置と前記第２被写体基準位置情報が示す位置との間の相対的な位置関係、前記第１被写体基準位置情報、及び前記第２被写体基準位置情報がそれぞれ前記他のコンテンツ提示装置との間で共有されている
コンテンツ提示装置。
前記提示部は、前記コンテンツに含まれる音声を、前記コンテンツが表示される前記３次元空間内の位置に基づいて定位させて出力する
請求項１に記載のコンテンツ提示装置。
前記提示部は、前記第２被写体映像に含まれる音声を、前記第２被写体映像の前記３次元空間内の位置に基づいて定位させて出力する
請求項１または請求項２に記載のコンテンツ提示装置。
前記第１被写体映像の前記３次元空間内の位置と、前記第２被写体映像の前記３次元空間内の位置とに基づいて、前記提示映像において前記第１被写体映像と前記第２被写体映像とのいずれが手前側にあるかを判定するオクルージョン再現部をさらに備え、
前記提示部は、前記オクルージョン再現部の判定結果に基づいて前記提示映像を出力する
請求項１から請求項３のいずれか一項に記載のコンテンツ提示装置。
前記第２被写体位置設定部は、前記第２被写体基準位置情報に基づいて前記第２被写体映像に含まれる前記第２被写体の足の位置を前記３次元空間の底面の位置に一致させて、前記第２被写体映像の前記３次元空間内の位置を設定する
請求項１から請求項４のいずれか一項に記載のコンテンツ提示装置。
前記提示部は、前記第２被写体映像を所定未満の透過度において表示する
請求項１から請求項５のいずれか一項に記載のコンテンツ提示装置。
前記提示部は、ビデオシースルー方式を用いて前記提示映像を生成する
請求項１から請求項６のいずれか一項に記載のコンテンツ提示装置。
第１被写体が撮影された画像を含む映像である第１被写体映像について基準となる位置及び向きを示す情報である第１被写体基準位置情報と、第２被写体が撮影された画像を含む映像である第２被写体映像について基準となる位置及び向きを示す情報である第２被写体基準位置情報とを３次元空間内に設定する基準位置設定過程と、
前記第１被写体を含む自装置の周辺の映像である周辺映像を取得する周辺映像取得過程と、
前記周辺映像から前記第１被写体映像を抽出する第１被写体映像抽出過程と、
背景として用いられる映像である背景映像を取得する背景映像取得過程と、
前記第２被写体映像を他のコンテンツ提示装置から取得する第２被写体映像取得過程と、
コンテンツを取得するコンテンツ取得過程と、
前記第１被写体映像の前記３次元空間内の位置及び向きを前記第１被写体基準位置情報に基づいて設定する第１被写体位置設定過程と、
前記第２被写体映像の前記３次元空間内の位置及び向きを前記第２被写体基準位置情報に基づいて設定する第２被写体位置設定過程と、
前記第１被写体基準位置情報が示す位置と、前記第２被写体基準位置情報が示す位置との間の所定の相対的位置関係に基づいて前記コンテンツが表示される前記３次元空間内の位置を設定するコンテンツ位置設定過程と、
前記３次元空間内の位置及び向きが設定された前記第１被写体映像と、前記３次元空間内の位置及び向きが設定された前記第２被写体映像と、前記３次元空間内の位置が設定された前記コンテンツとが、前記背景映像を背景として前記３次元空間内に表示された映像である提示映像を出力する提示過程と、
の処理をコンピューターに実行させるプログラムであって、
前記コンテンツが表示される前記３次元空間内の位置と前記第１被写体基準位置情報が示す位置と前記第２被写体基準位置情報が示す位置との間の相対的な位置関係、前記第１被写体基準位置情報、及び前記第２被写体基準位置情報がそれぞれ前記他のコンピューターとの間で共有されている
プログラム。