JP7296164B1

JP7296164B1 - 情報処理装置、方法、コンテンツ作成プログラム、およびコンテンツ再生プログラム

Info

Publication number: JP7296164B1
Application number: JP2022128569A
Authority: JP
Inventors: 恒一郎藏岡; 紘一倉部; 肇川口
Original assignee: 株式会社MuuMu
Priority date: 2022-08-12
Filing date: 2022-08-12
Publication date: 2023-06-22
Anticipated expiration: 2042-08-12
Also published as: JP2024025633A; JP2024025261A; WO2024034248A1

Abstract

【課題】視覚的コンテンツの利用を促す。
【解決手段】本開示の一態様のコンテンツ作成プログラムは、コンピュータを、カメラによって撮影された人物の画像と、当該人物の撮影時におけるカメラの位置および姿勢を特定可能な情報とを取得する手段、人物の画像に基づく視覚的コンテンツを作成する手段、実空間または仮想空間において視覚的コンテンツを表示するための表示領域のサイズを、人物の画像と、カメラの内部パラメータと、カメラと人物との間の距離に関する情報とに基づいて決定する手段、表示領域の位置および向きを、カメラの位置および姿勢に基づいて決定する手段、として機能させる。
【選択図】図５

Description

本開示は、情報処理装置、方法、システム、コンテンツ作成プログラム、およびコンテンツ再生プログラムに関する。

ＡＲ（Augmented Reality）／ＶＲ（Virtual Reality）技術は、様々な分野で利用されている。

特許文献１では、人物などの仮想画像の位置や角度を時間に応じて変化させる制御を行うことで、より自然なＡＲ画像の表示の実現を試みている。

国際公開第2013/187130号公報

特許文献１では、ＡＲ画像のサイズをどのように設定すべきかについて特段の記載または示唆がない。また、特許文献１に記載の技術では、ユーザは能動的にＡＲ画像を再生するトリガとなる有体物（ポスター等）を撮影することが必須であり、事前知識がなければＡＲ画像を容易には再生できない。

本開示の目的は、視覚的コンテンツの利用を促す技術を提供することである。

本開示の一態様のコンテンツ作成プログラムは、第１コンピュータを、第１カメラによって撮影された人物の画像と、当該人物の撮影時における第１カメラの位置および姿勢を特定可能な情報とを取得する手段、人物の画像に基づく第１視覚的コンテンツを作成する手段、実空間または仮想空間において第１視覚的コンテンツを表示するための表示領域のサイズを、人物の画像と、第１カメラの内部パラメータと、第１カメラと人物との間の距離に関する情報とに基づいて決定する手段、表示領域の位置および向きを、第１カメラの位置および姿勢に基づいて決定する手段、として機能させる。

本実施形態の情報処理システムの構成を示すブロック図である。本実施形態の収録用端末の構成を示すブロック図である。本実施形態のサーバの構成を示すブロック図である。本実施形態の再生用端末の構成を示すブロック図である。本実施形態の一態様の説明図である。本実施形態のコンテンツデータベースのデータ構造を示す図である。本実施形態のコンテンツ作成処理のフローチャートである。表示領域のサイズの決定方法の説明図である。表示領域のサイズの決定方法の説明図である。本実施形態のコンテンツ再生処理のフローチャートである。本実施形態の情報処理において表示される画面例を示す図である。

以下、本発明の一実施形態について、図面に基づいて詳細に説明する。なお、実施形態を説明するための図面において、同一の構成要素には原則として同一の符号を付し、その繰り返しの説明は省略する。

（１）情報処理システムの構成
情報処理システムの構成について説明する。図１は、本実施形態の情報処理システムの構成を示すブロック図である。

図１に示すように、情報処理システム１は、収録用端末１０と、サーバ３０と、再生用端末５０とを備える。
収録用端末１０及びサーバ３０は、ネットワーク（例えば、インターネット又はイントラネット）ＮＷを介して接続される。再生用端末５０及びサーバ３０は、ネットワークＮＷを介して接続される。

収録用端末１０は、サーバ３０にリクエストを送信する情報処理装置の一例である。収録用端末１０は、例えば、スマートフォン、タブレット端末、又は、パーソナルコンピュータである。収録用端末１０は、視覚的コンテンツの素材となる人物の画像を撮影するために用いられる。視覚的コンテンツは、例えばＡＲコンテンツまたはＶＲコンテンツを構成する画像（例えば、２次元または３次元の静止画、または動画）を含む。また、視覚的コンテンツは、画像の撮影時に録音された音声をさらに含むことができる。

再生用端末５０は、サーバ３０にリクエストを送信する情報処理装置の一例である。再生用端末５０は、例えば、スマートフォン、タブレット端末、又は、パーソナルコンピュータである。再生用端末５０は、視覚的コンテンツを再生するために用いられる。

サーバ３０は、クライアント装置（具体的には、収録用端末１０または再生用端末５０）から送信されたリクエストに応じたレスポンスをクライアント装置に提供する情報処理装置の一例である。サーバ３０は、例えば、サーバコンピュータである。サーバ３０は、収録用端末１０から取得した情報に基づいて視覚的コンテンツを作成する。また、サーバ３０は、視覚的コンテンツの再生に必要な情報を再生用端末５０に提供する。

（１－１）収録用端末の構成
収録用端末の構成について説明する。図２は、本実施形態の収録用端末の構成を示すブロック図である。

図２に示すように、収録用端末１０は、記憶装置１１と、プロセッサ１２と、入出力インタフェース１３と、通信インタフェース１４とを備える。収録用端末１０は、ディスプレイ２１、カメラ２２、および計測部２３に接続される。

記憶装置１１は、プログラム及びデータを記憶するように構成される。記憶装置１１は、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、及び、ストレージ（例えば、フラッシュメモリ又はハードディスク）の組合せである。

プログラムは、例えば、以下のプログラムを含む。
・ＯＳ（Operating System）のプログラム
・情報処理を実行するアプリケーション（例えば、ウェブブラウザ、視覚的コンテンツの作成用アプリケーション）のプログラム

データは、例えば、以下のデータを含む。
・情報処理において参照されるデータベース
・情報処理を実行することによって得られるデータ（つまり、情報処理の実行結果）

プロセッサ１２は、記憶装置１１に記憶されたプログラムを起動することによって、収録用端末１０の機能を実現するコンピュータである。プロセッサ１２は、例えば、以下の少なくとも１つである。
・ＣＰＵ（Central Processing Unit）
・ＧＰＵ（Graphic Processing Unit）
・ＡＳＩＣ（Application Specific Integrated Circuit）
・ＦＰＧＡ（Field Programmable Array）

入出力インタフェース１３は、収録用端末１０に接続される入力デバイスから情報（例えば、ユーザの指示、センシング信号、画像信号、音声信号）を取得し、かつ、収録用端末１０に接続される出力デバイスに情報（例えば画像信号、制御信号）を出力するように構成される。

入力デバイスは、例えば、カメラ２２、計測部２３、マイクロホン、キーボード、ポインティングデバイス、タッチパネル、又は、それらの組合せである。
出力デバイスは、例えば、ディスプレイ２１、スピーカ、又は、それらの組合せである。

通信インタフェース１４は、収録用端末１０と外部装置（例えばサーバ３０）との間の通信を制御するように構成される。

ディスプレイ２１は、画像（静止画、または動画）を表示するように構成される。ディスプレイ２１は、例えば、液晶ディスプレイ、または有機ＥＬディスプレイである。

カメラ２２は、収録用端末１０からの制御に応じて画像（静止画、または動画）を撮影するように構成される。カメラ２２は、典型的には人物を含む被写体の静止画または動画を撮影する（つまり、被写体の色情報を取得する）。さらに、カメラ２２（例えばステレオカメラ）または図示しない他のセンサ（例えば、Ｌｉｄａｒ（light detection and ranging））が、被写体の深度情報を取得してもよい。色情報に加えて深度情報を用いることで、３次元の静止画または動画を含む視覚的コンテンツを作成することができる（つまり、視覚的コンテンツの立体化）。

計測部２３は、所定の計測を行う。一例として、計測部２３は、ＧＰＳ（Global Positioning System）モジュールを含む。収録用端末１０は、ＧＰＳモジュールによって計測された位置情報に基づいて、カメラ２２の位置を特定してもよい。

（１－２）サーバの構成
サーバの構成について説明する。図３は、本実施形態のサーバの構成を示すブロック図である。

図３に示すように、サーバ３０は、記憶装置３１と、プロセッサ３２と、入出力インタフェース３３と、通信インタフェース３４とを備える。

記憶装置３１は、プログラム及びデータを記憶するように構成される。記憶装置３１は、例えば、ＲＯＭ、ＲＡＭ、及び、ストレージ（例えば、フラッシュメモリ又はハードディスク）の組合せである。

プログラムは、例えば、以下のプログラムを含む。
・ＯＳのプログラム
・情報処理を実行するアプリケーションのプログラム

データは、例えば、以下のデータを含む。
・情報処理において参照されるデータベース
・情報処理の実行結果

プロセッサ３２は、記憶装置３１に記憶されたプログラムを起動することによって、サーバ３０の機能を実現するコンピュータである。プロセッサ３２は、例えば、以下の少なくとも１つである。
・ＣＰＵ
・ＧＰＵ
・ＡＳＩＣ
・ＦＰＧＡ

入出力インタフェース３３は、サーバ３０に接続される入力デバイスから情報（例えばユーザの指示）を取得し、かつ、サーバ３０に接続される出力デバイスに情報（例えば画像信号）を出力するように構成される。
入力デバイスは、例えば、キーボード、ポインティングデバイス、タッチパネル、又は、それらの組合せである。
出力デバイスは、例えば、ディスプレイである。

通信インタフェース３４は、サーバ３０と外部装置（例えば収録用端末１０または再生用端末５０）との間の通信を制御するように構成される。

（１－３）再生用端末の構成
再生用端末の構成について説明する。図４は、本実施形態の再生用端末の構成を示すブロック図である。

図４に示すように、再生用端末５０は、記憶装置５１と、プロセッサ５２と、入出力インタフェース５３と、通信インタフェース５４とを備える。再生用端末５０は、ディスプレイ６１、カメラ６２、および計測部６３に接続される。

記憶装置５１は、プログラム及びデータを記憶するように構成される。記憶装置５１は、例えば、ＲＯＭ、ＲＡＭ、及び、ストレージ（例えば、フラッシュメモリ又はハードディスク）の組合せである。

プログラムは、例えば、以下のプログラムを含む。
・ＯＳのプログラム
・情報処理を実行するアプリケーション（例えば、ウェブブラウザ、視覚的コンテンツの再生用アプリケーション）のプログラム

プロセッサ５２は、記憶装置５１に記憶されたプログラムを起動することによって、再生用端末５０の機能を実現するコンピュータである。プロセッサ５２は、例えば、以下の少なくとも１つである。
・ＣＰＵ
・ＧＰＵ
・ＡＳＩＣ
・ＦＰＧＡ

入出力インタフェース５３は、再生用端末５０に接続される入力デバイスから情報（例えば、ユーザの指示、センシング信号、画像信号）を取得し、かつ、再生用端末５０に接続される出力デバイスに情報（例えば画像信号、制御信号、音声信号）を出力するように構成される。

入力デバイスは、例えば、カメラ６２、計測部６３、マイクロホン、キーボード、ポインティングデバイス、タッチパネル、又は、それらの組合せである。
出力デバイスは、例えば、ディスプレイ６１、スピーカ、又は、それらの組合せである。

通信インタフェース５４は、再生用端末５０と外部装置（例えばサーバ３０）との間の通信を制御するように構成される。

ディスプレイ６１は、画像（静止画、または動画）を表示するように構成される。ディスプレイ６１は、例えば、液晶ディスプレイ、または有機ＥＬディスプレイである。

カメラ６２は、再生用端末５０からの制御に応じて画像（静止画、または動画）を撮影するように構成される。カメラ６２は、典型的には人物を含む被写体の静止画または動画を撮影する（つまり、被写体の色情報を取得する）。さらに、カメラ６２（例えばステレオカメラ）または図示しない他のセンサ（例えば、Ｌｉｄａｒ）が、被写体の深度情報を取得してもよい。

計測部６３は、所定の計測を行う。一例として、計測部６３は、ＧＰＳモジュールを含む。再生用端末５０は、ＧＰＳモジュールによって計測された位置情報に基づいて、カメラ６２の位置を特定してもよい。

（２）実施形態の一態様
本実施形態の一態様について説明する。図５は、本実施形態の一態様の説明図である。

図５に示すように、収録用端末１０は、カメラ２２が人物を撮影することで生成した画像ＩＭ１０を取得する。収録用端末１０は、画像ＩＭ１０を記憶装置１１に保存する。

画像ＩＭ１０には、人物に対応する被写体領域ＯＢ１０ａを含む。カメラ２２は、人物が、例えば展示物、商品、などの傍で案内を行う様子を撮影し得る。収録用端末１０は、図示しないマイクロホンによって受信された人物の音声をさらに取得してもよい。この場合に、収録用端末１０は、取得した音声を画像ＩＭ１０とともに、視覚的コンテンツを作成するための素材として記憶装置１１に保存する。

また、収録用端末１０は、計測部２３から位置情報を取得し、当該位置情報に基づいてカメラ２２の位置を特定する。収録用端末１０は、カメラ２２の位置情報を記憶装置１１に保存する。

収録用端末１０は、ユーザからの指示に応じて視覚的コンテンツの作成をサーバ３０に要求する。作成要求には、例えば以下の情報が含まれる。
・視覚的コンテンツの素材（少なくとも画像ＩＭ１０を含み、さらに、深度情報、または音声の少なくとも１つを含み得る）
・カメラ２２の位置を特定可能な情報（例えば、カメラ２２の位置情報、画像ＩＭ１０、または画像ＩＭ１０を解析することで得られる空間特徴量の少なくとも１つ）
・カメラ２２の姿勢を特定可能な情報（例えば、画像ＩＭ１０、または画像ＩＭ１０を解析することで得られる空間特徴量の少なくとも１つ）

サーバ３０は、収録用端末１０から取得した素材に基づいて視覚的コンテンツを作成する。一例として、サーバ３０は、画像ＩＭ１０のうち被写体領域ＯＢ１０ａを抽出することで、視覚的コンテンツＶＣ１１を作成する。

サーバ３０は、実空間または仮想空間において視覚的コンテンツＶＣ１１を表示するための表示領域のサイズを、画像ＩＭ１０と、カメラ２２と人物との間の距離に関する情報（例えば画像ＩＭ１０に対応する深度情報、手入力された距離の値、または撮影環境におけるデフォルト値）と、カメラ２２の内部パラメータとに基づいて決定する。表示領域は、視覚的コンテンツを表示するための２次元の領域である。なお、視覚的コンテンツが３次元の静止画または動画に相当する場合に、表示領域の法線方向が視覚的コンテンツの奥行方向として定められる。後述するように、サーバ３０は、表示領域において再生された視覚的コンテンツＶＣ１１によって表現される人物のサイズが、画像ＩＭ１０の被写体であった人物の実サイズを再現するように表示領域のサイズを決定する。表示領域は、例えば水平面に対して略直交する平面として定義される。なお、表示領域が仮想空間に設置され、かつ実空間におけるスケールと仮想空間におけるスケールとの間の対応関係が一定に定められている場合に、仮想空間において人物の実サイズを再現するとは、当該実サイズに対応する仮想空間内のサイズを再現することを意味する。

サーバ３０は、収録用端末１０から取得した情報に基づいて、画像ＩＭ１０の撮影時におけるカメラ２２の位置および姿勢を特定する。一例として、サーバ３０は、計測部２３に含まれるＧＰＳモジュールによって計測された位置情報に基づいてカメラ２２の位置を特定する。また、サーバ３０は、画像ＩＭ１０を解析することで得られる空間特徴量に基づいて、上記位置でのカメラ２２の姿勢を特定する。サーバ３０は、特定した位置および姿勢に基づいて、表示領域の位置および向きを決定する。表示領域の向きは、例えばロール角、ピッチ角、およびヨー角の組み合わせとして表現可能である。

サーバ３０は、表示領域における視覚的コンテンツＶＣ１１の再生を開始するために再生側の実カメラ（つまり、カメラ６２）の位置および姿勢が満たすべき条件（以下、「再生開始条件」という）を、前述のように特定したカメラ２２の位置および姿勢に基づいて設定する。なお、表示領域が仮想空間に設置される場合には、実カメラの代わりに仮想カメラの仮想空間における位置および姿勢について再生開始条件の成立／不成立が判定されることになる。

（３）データベース
本実施形態のデータベースについて説明する。以下のデータベースは、記憶装置３１に記憶される。

（３－１）コンテンツデータベース
本実施形態のコンテンツデータベースについて説明する。図６は、本実施形態のコンテンツデータベースのデータ構造を示す図である。

コンテンツデータベースには、コンテンツ情報が格納される。コンテンツ情報は、サーバ３０によって作成された視覚的コンテンツに関する情報である。

図６に示すように、コンテンツデータベースは、「コンテンツＩＤ」フィールドと、「コンテンツファイル」フィールドと、「位置」フィールドと、「向き」フィールドと、「サイズ」フィールドと、「再生開始条件」フィールドとを含む。各フィールドは、互いに関連付けられている。

「コンテンツＩＤ」フィールドには、コンテンツＩＤが格納される。コンテンツＩＤは、視覚的コンテンツを識別する情報である。

「コンテンツファイル」フィールドには、コンテンツファイル情報が格納される。コンテンツファイル情報は、視覚的コンテンツを再生するためのコンテンツファイルに関する情報である。一例として、コンテンツファイル情報は、コンテンツファイルにアクセスするためのアドレス情報であってもよいし、コンテンツファイルのデータであってもよい。

「位置」フィールドには、位置情報が格納される。位置情報は、視覚的コンテンツを再生するための表示領域の位置に関する情報である。位置情報は、例えば、現実空間または仮想空間における表示領域の設置位置を示す地理的座標情報であってよい。

「向き」フィールドには、向き情報が格納される。向き情報は、視覚的コンテンツを再生するための表示領域の向きに関する情報である。向き情報は、例えば、現実空間または仮想空間における表示領域の正面方向（つまり、表示領域の法線方向）を示す角度（例えば、ロール角、ヨー角、ピッチ角、またはそれらの組み合わせ）情報であってよい。

「サイズ」フィールドには、サイズ情報が格納される。サイズ情報は、視覚的コンテンツを再生するための表示領域のサイズに関する情報である。サイズ情報は、例えば、鉛直方向のサイズと水平方向のサイズとを示す情報であってよい。

「再生開始条件」フィールドには、再生開始条件情報が格納される。再生開始条件情報は、視覚的コンテンツの再生を開始するための条件（再生開始条件）に関する情報である。再生開始条件情報は、例えば、再生側の実カメラまたは仮想カメラが満たすべき位置および姿勢を定義する。一例として、再生開始条件情報は、再生側の実カメラまたは仮想カメラについて許容される位置情報の範囲を特定可能な情報と、再生側の実カメラまたは仮想カメラによって撮影された画像について許容される空間特徴量の範囲を特定可能な情報とを含むことができる。

（４）情報処理
本実施形態の情報処理について説明する。

（４－１）コンテンツ作成処理
本実施形態のコンテンツ作成処理について説明する。図７は、本実施形態のコンテンツ作成処理のフローチャートである。図８は、表示領域のサイズの決定方法の説明図である。図９は、表示領域のサイズの決定方法の説明図である。

本実施形態のコンテンツ作成処理は、例えば、ユーザが収録用端末１０上でコンテンツ作成用のアプリケーションを起動し、例えば所定のオブジェクト（一例として、視覚的コンテンツの作成を開始するためのユーザ指示を受け付けるオブジェクト）を選択することで、開始し得る。

図７に示すように、サーバ３０は、情報の取得（Ｓ１３０）を実行する。
具体的には、サーバ３０は、収録用端末１０から視覚的コンテンツの作成要求を受信する。サーバ３０は、受信した作成要求に基づいて以下の情報を取得する。
・視覚的コンテンツの素材（少なくともカメラ２２の撮影画像を含み、さらに、深度情報、または音声の少なくとも１つを含み得る）
・カメラ２２の位置を特定可能な情報（例えば、カメラ２２の位置情報、撮影画像、または撮影画像を解析することで得られる空間特徴量の少なくとも１つ）
・カメラ２２の姿勢を特定可能な情報（例えば、撮影画像、または撮影画像を解析することで得られる空間特徴量の少なくとも１つ）

ステップＳ１３０の後に、サーバ３０は、視覚的コンテンツの作成（Ｓ１３１）を実行する。
具体的には、サーバ３０は、ステップＳ１３０において取得した素材に基づいて、視覚的コンテンツを作成する。
第１例として、サーバ３０は、撮影画像から人物が写っている領域を抽出し、残りの領域（つまり背景部分）を破棄する。これにより、サーバ３０は、人物以外の視覚要素を実質的に含まない画像（静止画または動画）を作成することができる。サーバ３０は、かかる画像を２次元の視覚的コンテンツとして扱ってもよい。
なお第１のオプションとして、サーバ３０は、抽出した領域の輪郭に沿って所定の色かつ太さの曲線または直線の少なくとも１つを付加することで、輪郭の凹凸をなめらかに見せることができる。第２のオプションとして、サーバ３０は、抽出した領域の下部に影に相当するエフェクトを付加することで、視覚的コンテンツのリアリティを高めることができる。

第２例として、サーバ３０は、第１例に示した２次元の視覚的コンテンツに対して深度情報を付加することで、３次元の視覚的コンテンツを作成する。

第３例として、サーバ３０は、第１例に示した２次元の視覚的コンテンツ、または第２例に示した３次元の視覚的コンテンツに対して、音声を付加することで、音声付きの視覚的コンテンツを作成する。

ステップＳ１３１の後に、サーバ３０は、表示領域のサイズの決定（Ｓ１３２）を実行する。
具体的には、サーバ３０は、ステップＳ１３０において取得した情報に基づいて、ステップＳ１３１において作成した視覚的コンテンツが表示領域において再生された場合に当該視覚的コンテンツによって表現される人物のサイズが当該人物の実サイズを再現するように、表示領域のサイズを決定する。

一例として、サーバ３０は、カメラ２２による撮影画像と、カメラ２２から人物の基準点までの距離に関する情報（一例として、当該撮影画像に対応する深度情報）と、カメラ２２の内部パラメータとに基づいて、表示領域のサイズを決定する。カメラ２２の内部パラメータは、ステップＳ１３０において取得されてもよいし、予め収録用端末１０からサーバ３０に通知されていてもよい。

以下、図８および図９を用いて、表示サイズの決定例について説明する。
サーバ３０は、カメラ２２から人物の基準点までの距離に関する情報に基づいて、カメラ２２（例えばレンズ中心）から撮影画像に含まれる人物ＨＭの基準点（例えば腰の部位）までの距離Ｄｈを特定する。サーバ３０は、この基準点の撮影画像平面ＩＰにおける座標（画像座標）と、カメラ２２の内部パラメータとに基づいて、カメラ座標系の原点からカメラ座標点（つまりカメラ座標系で表現した基準点の位置）に向かう方向（以下、「カメラ座標ベクトル」という）を計算する。サーバ３０は、カメラ２２の光軸に直交し、かつ人物ＨＭの基準点を通る平面（以下、「対象平面」という）ＴＰからカメラ２２までの距離Ｄｔを、距離Ｄｈと、カメラ座標ベクトルとに基づいて計算する。なお、図９の例では、対象平面ＴＰは、水平方向に対して直交するように描かれているが、水平方向に対して直交しなくてもよい。対象平面ＴＰのうちカメラ２２の撮影範囲に含まれる（つまり、カメラ２２の画角に収められる）矩形領域の水平方向のサイズＨｔおよび垂直方向のサイズＶｔが、表示領域の目標サイズとなる。カメラ２２の備えるイメージセンサの水平方向のサイズをＨｓとし、垂直方向のサイズをＶｓとし、カメラ２２の焦点距離をｆとすると、サーバ３０は、表示領域のサイズを以下のように決定する。
Ｈｔ＝Ｈｓ＊Ｄｔ／ｆ
Ｖｔ＝Ｖｓ＊Ｄｔ／ｆ

ステップＳ１３２の後に、サーバ３０は、表示領域の位置および向きの決定（Ｓ１３３）を実行する。
具体的には、サーバ３０は、ステップＳ１３０において取得した情報に基づいて、表示領域の位置および向きを決定する。一例として、サーバ３０は、カメラ座標系における前述の対象平面の位置および向きを、カメラ２２の外部パラメータ（つまり、カメラ２２の位置および姿勢）に基づいて世界座標系に変換することで、表示領域の位置および向きを決定する。

ステップＳ１３３の後に、サーバ３０は、再生開始条件の設定（Ｓ１３４）を実行する。
具体的には、サーバ３０は、ステップＳ１３０において取得した情報に基づいて、再生開始条件を設定する。第１例として、サーバ３０は、世界座標系におけるカメラ２２の位置（座標）に基づく所定の範囲を再生側の実カメラの位置が満たすべき条件として設定する。第２例として、サーバ３０は、世界座標系におけるカメラ２２の位置（座標）に対応する仮想空間の座標基づく所定の範囲を再生側の仮想カメラの位置が満たすべき条件として設定する。第３例として、サーバ３０は、カメラ２２の撮影画像を解析することで得られた空間特徴量に基づく所定の範囲を再生側の実カメラまたは仮想カメラの姿勢が満たすべき条件として設定する。

ステップＳ１３４の後に、サーバ３０は、作成した視覚的コンテンツの各種情報をコンテンツデータベース（図６）に保存し、本実施形態のコンテンツ作成処理を終了する。

或いは、サーバ３０は、ステップＳ１３１において作成した視覚的コンテンツに対応する誘導コンテンツをさらに作成してもよい。誘導コンテンツは、対応する視覚的コンテンツを視聴可能な場所を示す。サーバ３０は、視覚的コンテンツ毎に異なる２次元または３次元の画像を備える誘導コンテンツを作成してもよいし、視覚的コンテンツ間で共通の２次元または３次元の画像を備える誘導コンテンツを作成してもよい。また、誘導コンテンツは、音声付きの画像であってもよい。

サーバ３０は、誘導コンテンツの表示領域のサイズを、対応する視覚的コンテンツの表示領域のサイズと独立に決定してもよいし、対応する視覚的コンテンツの表示領域のサイズに基づいて決定してもよい。

サーバ３０は、誘導コンテンツの表示領域の位置および向きを、対応する視覚的コンテンツの表示領域の位置および向きと同一に決定してもよい。

サーバ３０は、誘導コンテンツの再生開始条件を、対応する視覚的コンテンツの再生開始条件に基づいて決定してもよい。例えば、サーバ３０は、対応する視覚的コンテンツの再生を開始するために再生側の実カメラまたは仮想カメラの位置および姿勢が満たすべき範囲よりも広い範囲を、誘導コンテンツの再生開始条件として決定してもよい。或いは、サーバ３０は、誘導コンテンツの再生を開始するために再生側の実カメラまたは仮想カメラの位置および姿勢の少なくとも１つが満たすべき条件を定めなくてもよい。

サーバ３０は、作成した誘導コンテンツの各種情報をコンテンツデータベース（図６）に保存し、本実施形態のコンテンツ作成処理を終了する。

（４－２）コンテンツ再生処理
本実施形態のコンテンツ再生処理について説明する。図１０は、本実施形態のコンテンツ再生処理のフローチャートである。図１１は、本実施形態の情報処理において表示される画面例を示す図である。

本実施形態のコンテンツ再生処理は、例えば、ユーザが再生用端末５０上でコンテンツ再生用のアプリケーション（コンテンツがＷｅｂベースで再生される場合にはＷｅｂブラウザを含み得る）を起動することで、開始し得る。コンテンツ再生用のアプリケーションが実行されている間、再生用端末５０は、カメラ６２によって撮影された画像を、ディスプレイ６１に表示させる。なお、視覚的コンテンツを仮想空間上で再生する場合には、下記説明におけるカメラ６２を仮想カメラとして適宜読み替えればよい。

図１１に示すように、再生用端末５０は、カメラの位置および姿勢の特定（Ｓ１５０）を実行する。
具体的には、再生用端末５０は、カメラ６２の位置および姿勢を特定する。例えば、再生用端末５０は、計測部６３に含まれるＧＰＳモジュールから位置情報を取得し、当該位置情報に基づいてカメラ６２の位置を特定する。また、再生用端末５０は、カメラ６２によって撮影された画像を解析して空間特徴量（カメラ６２の姿勢を特定可能な情報の一例）を得ることで、当該カメラ６２の姿勢を特定する。

ステップＳ１５０の後に、再生用端末５０は、再生開始条件の判定（Ｓ１５１）を実行する。
具体的には、再生用端末５０は、ステップＳ１５０において特定した位置および姿勢が、いずれかの視覚的コンテンツの再生開始条件を満たしているか否かを判定する。再生用端末５０は、サーバ３０から例えばコンテンツデータベース（図６）に登録されている再生開始条件情報を予め取得しておき、各条件について成立または不成立を判定してもよい。或いは、再生用端末５０は、カメラ６２の位置および姿勢を特定可能な情報をサーバ３０へ送信し、当該サーバ３０に判定を行わせてもよい。

ステップＳ１５１においていずれかの視覚的コンテンツに対応する再生開始条件が成立すると判定した場合に、再生用端末５０は、視覚的コンテンツの再生（Ｓ１５２）を実行する。
具体的には、再生用端末５０は、ユーザからの追加の操作を要することなく、成立すると判定された再生開始条件に対応する視覚的コンテンツの再生を自動的に開始する。一例として、再生用端末５０は、成立すると判定された再生開始条件に対応する視覚的コンテンツのコンテンツファイルと、位置情報と、向き情報と、サイズ情報とをサーバ３０から取得する。なお、これらの情報は予め取得することもできる。
再生用端末５０は、位置情報、向き情報、サイズ情報、ならびにカメラ６２の位置および姿勢に基づいて、当該カメラ６２の撮影画像に、視覚的コンテンツを再生するための表示領域をどのように重畳するか（例えば、ディスプレイ６１の画面上での表示領域の位置、向き、サイズ、および形状）を計算する。そして、再生用端末５０は、撮影画像に重畳した表示領域において、視覚的コンテンツの再生を開始する。

なお、ステップＳ１５２において、再生を開始する対象となる視覚的コンテンツに対応する誘導コンテンツが再生中であった場合に、再生用端末５０は、当該誘導コンテンツの再生を終了し、代わりに当該視覚的コンテンツの再生を開始してもよい。
一例として、図１１に示すように、視覚的コンテンツＶＣ１１に対応する（例えば、視覚的コンテンツＶＣ１１を視聴可能な場所を示す）誘導コンテンツＶＣ１２について再生開始条件が成立する場合に、再生用端末５０は画面ＳＣ２０上で当該誘導コンテンツＶＣ１２の再生を開始する。再生用端末５０のユーザが誘導コンテンツＶＣ１２に接近すると、視覚的コンテンツＶＣ１１について再生開始条件が成立する。この場合に、再生用端末５０は、誘導コンテンツＶＣ１２の再生を終了し、再生用端末５０は画面ＳＣ２１上で視覚的コンテンツＶＣ１１の再生を開始する。これにより、ユーザは、どうすれば視覚的コンテンツＶＣ１１を再生できるかについて事前知識がなかったとしても、画面を見ながら直感的にカメラ６２を移動させることで、視覚的コンテンツＶＣ１１を再生することができる。

ステップＳ１５２の後に、再生用端末５０は、カメラの位置および姿勢の特定（Ｓ１５０）を再実行する。なお、再生用端末５０は、ステップＳ１５０において、カメラの位置および姿勢の変化を検出した場合に、以下の処理の少なくとも１つを行うことができる。
・再生中の視覚的コンテンツの表示領域をカメラ６２の撮影画像にどのように重畳するかの再決定（つまり、ディスプレイ６１の画面上での表示領域の位置、向き、サイズ、または形状の少なくとも１つの変更）
・視覚的コンテンツの再生の中断、または終了（例えば、視覚的コンテンツの表示領域がカメラ６２の撮影範囲に含まれなくなった場合）

ステップＳ１５１においていずれの視覚的コンテンツに対応する再生開始条件も成立しないと判定した場合に、再生用端末５０は、カメラの位置および姿勢の特定（Ｓ１５０）を再実行してもよい。

（５）小括
以上説明したように、サーバ３０は、カメラ２２によって撮影された人物の画像と、当該人物の撮影時におけるカメラ２２の位置および姿勢を特定可能な情報とを取得し、当該画像に基づく視覚的コンテンツを作成する。サーバ３０は、作成した視覚的コンテンツを実空間または仮想空間において表示するための表示領域のサイズを、上記人物の画像と、人物とカメラ２２との距離に関する情報と、カメラ２２の内部パラメータとに基づいて決定し、表示領域の位置および向きを、当該画像の撮影時におけるカメラ２２の位置および姿勢に基づいて決定する。このようにして作成された視覚的コンテンツを実空間または仮想空間において再生することで、当該コンテンツを視聴したユーザに、画像の被写体となった人物の存在をリアルに感じさせることができる。他方、作成側のユーザは、専門的な知識や複雑な加工を必要とすることなく、人物の動画を撮影するだけで容易にかかる視覚的コンテンツを作成することができる。要するに、本実施形態によれば、視覚的コンテンツの利用を促すことができる。

サーバ３０は、表示領域において再生される視覚的コンテンツによって表現される上記人物のサイズ（特に身長）が、当該人物の実サイズを再現するように表示領域のサイズを決定してもよい。これにより、画像の被写体となった人物に対して等身大の視覚的コンテンツを再生できるので、当該コンテンツを視聴したユーザは、当該人物の存在をよりリアルに感じることができる。

サーバ３０は、カメラ２２から上記人物の基準点までの距離と、カメラ２２の内部パラメータとに応じた表示領域のサイズを決定してもよい。具体的には、サーバ３０は、カメラ２２の光軸に直交し、かつ上記人物の基準点を通る平面と当該カメラ２２との間の距離と、カメラ２２の焦点距離との比率に応じた表示領域のサイズを決定してもよい。これにより、撮影時の人物を等身大で再現可能な表示領域のサイズを決定することができる。

サーバ３０は、表示領域において視覚的コンテンツの作成を開始するためにカメラ６２（または再生側の仮想カメラ）の位置および姿勢が満たすべき再生開始条件を、上記人物の画像の撮影時におけるカメラ２２の位置および姿勢に基づいて設定してもよい。これにより、現実世界または仮想世界にトリガ等を設置することなく視覚的コンテンツを再生可能とすることができる。

サーバ３０は、視覚的コンテンツの再生開始条件を満たすことのできる場所を可視化する誘導コンテンツを作成してもよい。サーバ３０は、誘導コンテンツの再生を開始するためにカメラ６２（または再生側の仮想カメラ）が満たすべき再生開始条件を、対応する視覚的コンテンツの再生開始条件に基づいて設定してもよい。これにより、再生側のユーザは、どうすれば視覚的コンテンツを再生できるかについて事前知識がなかったとしても、画面を見ながら直感的にカメラ６２を移動させることで、視覚的コンテンツを再生することができる。

サーバ３０は、人物の画像から当該人物が写っている領域を抽出し、抽出した領域の輪郭に沿って所定の色かつ太さの曲線または直線の少なくとも１つを付加することで、視覚的コンテンツを作成してもよい。これにより、輪郭の凹凸をなめらかに見せることができる。

サーバ３０は、人物の画像から当該人物が写っている領域を抽出し、抽出した領域の下部に影に相当するエフェクトを付加することで、視覚的コンテンツを作成してもよい。これにより、視覚的コンテンツのリアリティを高めることができる。

本実施形態の再生用端末５０は、カメラ６２（または、再生用端末５０上で実行されているアプリケーションによって生成されている仮想カメラ）の位置および姿勢を特定する。再生用端末５０は、特定した位置および姿勢について、前述の視覚的コンテンツの再生開始条件が成立する場合に、カメラ６２（または仮想カメラ）の撮影画像に前述の表示領域を重畳し、当該表示領域において当該視覚的コンテンツの再生を開始する。これにより、ユーザは、画像の被写体となった人物の存在をリアルに感じることができる。

再生用端末５０は、前述の視覚的コンテンツの再生開始条件の成立の検知に応じて、ユーザからの追加の操作によらずに、当該視覚的コンテンツの再生を開始してもよい。これにより、ユーザは、ディスプレイ６１を見ながら移動するだけで、視覚的コンテンツを視聴することができる。

再生用端末５０は、カメラ６２（または仮想カメラ）の位置および姿勢について、視覚的コンテンツの再生開始条件が成立せず、かつ誘導コンテンツの再生開始条件が成立する場合に、カメラ６２（または仮想カメラ）の撮影画像に重畳して、当該視覚的コンテンツの再生開始条件を満たすことのできる場所を可視化する誘導コンテンツの再生を開始してもよい。これにより、ユーザは、視覚的コンテンツを視聴できる場所を直感的に理解することができる。

（６）その他の変形例
記憶装置１１は、ネットワークＮＷを介して、収録用端末１０と接続されてもよい。ディスプレイ２１、カメラ２２、または計測部２３の少なくとも１つは、収録用端末１０と一体化されてもよい。記憶装置３１は、ネットワークＮＷを介して、サーバ３０と接続されてもよい。記憶装置５１は、ネットワークＮＷを介して、再生用端末５０と接続されてもよい。ディスプレイ６１、カメラ６２、または計測部６３の少なくとも１つは、再生用端末５０と一体化されてもよい。

上記説明では、各処理において各ステップを特定の順序で実行する例を示したが、各ステップの実行順序は、依存関係がない限りは説明した例に制限されない。上記の処理の各ステップは、収録用端末１０、サーバ３０、および再生用端末５０の何れでも実行可能である。例えば、再生開始条件の判定（Ｓ１５１）は、再生用端末５０がサーバ３０に行わせてもよい。また、本実施形態ではサーバ３０がコンテンツ作成処理を実行する例を示したが、収録用端末１０が、コンテンツ作成処理を実行し、実行結果をサーバ３０にアップロードしてもよい。収録用端末１０とサーバ３０との間の処理の分担、またはサーバ３０と再生用端末５０との間の処理の分担は任意に定めることができる。

上記説明では、対象平面とカメラ２２との間の距離と、カメラ２２の焦点距離との間の比率に基づいて表示領域のサイズを計算する例を示した。しかしながら、サーバ３０は、撮影画像と、カメラ２２から人物の基準点までの距離に関する情報と、カメラ２２の内部パラメータとに基づいて、人物の身体の部位間の位置の差を計算し、当該差に応じて表示領域のサイズを決定してもよい。つまり、サーバ３０は、人物の身体の第１部位（例えば頭部）の位置（高さ）と、人物の身体の第２部位（例えば足）の位置（高さ）とをそれぞれ、撮影画像と、カメラ２２から第１部位および第２部位までの距離に関する情報と、内部パラメータとに基づいて計算（推定）する。一例として、サーバ３０は、撮影画像における第１部位および第２部位の座標を特定し、対応するカメラ座標ベクトルをそれぞれ計算する。さらに、サーバ３０は、カメラ座標ベクトルと、カメラ２２から第１部位および第２部位までの距離とに基づいて、両者の位置の差を計算する。これにより、人物の身長（部位間の高さの差）に応じた表示サイズを決定することができる。

上記説明では、再生用端末５０が、視覚的コンテンツの位置情報、向き情報、サイズ情報、ならびにカメラ６２の位置および姿勢に基づいて、当該カメラ６２の撮影画像に、視覚的コンテンツを再生するための表示領域をどのように重畳するかを計算する例を示した。しかしながら、再生用端末５０は、視覚的コンテンツの再生中に亘って、カメラ６２（または仮想カメラ）の位置または姿勢にかかわらず、視覚的コンテンツが所定の方向（例えば正面）を向くように制御してもよい。これにより、カメラ６２（または仮想カメラ）の位置または姿勢が多少ずれたとしてもユーザは所定の方向向きの視覚的コンテンツを視聴することができる。また、表示領域の向きの制御に関する演算量を抑えることができる。なお、カメラ６２（または仮想カメラ）の位置または姿勢のずれが許容範囲を超えた場合（例えば、視覚的コンテンツの再生開始条件が成立しなくなった場合）に、再生用端末５０は、視覚的コンテンツの再生を中断または終了してもよい。これにより、例えば撮影時に人物が視線、指、または手などを使って指し示した方向と、視覚的コンテンツで表現される人物が指し示す方向とが乖離し、ユーザに違和感を与えるのを防止することができる。

上記説明では、再生開始条件が成立すると判定された場合に、対応する視覚的コンテンツの再生が、ユーザからの追加の操作を要することなく、自動的に開始される例を示した。しかしながら、再生開始条件が成立し、かつユーザが所定の操作（例えばタップ操作）を行ったことを条件に、再生用端末５０が、対応する視覚的コンテンツを再生してもよい。

上記説明では、計測部２３が、ＧＰＳモジュールを備える例について説明した。しかしながら、計測部２３は、ＧＰＳモジュールに加えて、またはＧＰＳモジュールに代えて他の構成要素を備え得る。例えば、計測部２３は、加速度センサ、地磁気センサ、またはジャイロセンサの少なくとも１つを含んでもよい。この場合に、かかるセンサからのセンシング信号に基づいてカメラ２２の姿勢を特定し、または当該センシング信号と画像の空間特徴量との組み合わせに基づいてカメラ２２の姿勢を特定することができる。或いは、ＶＰＳ（Visual Positioning Service/System）のように、画像の空間特徴量のみに基づいてカメラ２２の位置または姿勢を特定することもできる。この場合に、計測部２３は省略可能である。

同様に、計測部６３が、ＧＰＳモジュールを備える例について説明した。しかしながら、計測部６３は、ＧＰＳモジュールに加えて、またはＧＰＳモジュールに代えて他の構成要素を備え得る。例えば、計測部６３は、加速度センサ、地磁気センサ、またはジャイロセンサの少なくとも１つを含んでもよい。この場合に、かかるセンサからのセンシング信号に基づいてカメラ６２の姿勢を特定し、または当該センシング信号と画像の空間特徴量との組み合わせに基づいてカメラ６２の姿勢を特定することができる。或いは、ＶＰＳのように、画像の空間特徴量のみに基づいてカメラ６２の位置または姿勢を特定することもできる。この場合に、計測部６３は省略可能である。

上記説明では、視覚的コンテンツの再生を開始するために再生側のカメラの位置および姿勢が満たすべき再生開始条件を、収録側のカメラの位置および姿勢に基づいて設定する例を示した。しかしながら、再生開始条件は、この例に限られず、例えば現実世界または仮想世界に設置されたトリガを設定されてもよい。トリガは、例えば、商品または展示物等の物体であってもよいし、ＱＲコード（登録商標）などのコードであってもよい。トリガが物体である場合に撮影画像から当該物体が物体認識モデルにより認識されることが再生開始条件として定められてよいし、トリガがコードである場合に撮影画像に基づいて当該コードの情報が復号されることが再生開始条件として定められてよい。また、同一の視覚的コンテンツについて、複数種類の再生開始条件が設定され、いずれかの再生開始条件が成立した場合に当該視覚的コンテンツの再生が開始されてもよい。

上記説明では、視覚的コンテンツを再生する例を示した。しかしながら、視覚的コンテンツは様々な補助情報と組み合わせてユーザに提示されてよい。第１例として、視覚的コンテンツには、特定のＷｅｂページ（例えば、特定のＥＣ（Electronic Commerce）サイトのトップページもしくは特定の商品が掲載されたページ、または展示物の詳細情報が掲載された解説用のＷｅｂページ）のリンクが埋め込まれていてもよい。ユーザが視覚的コンテンツを選択（例えばタップ操作等）した場合に、再生用端末５０は、自動的に、またはユーザの承認を条件に、リンク先のＷｅｂページを表示してもよい。第２例として、視覚的コンテンツとともに、または視覚的コンテンツの再生終了後に、特定のＷｅｂページにアクセスするためのリンク情報を表示するオブジェクトが画面に配置されてもよい。ユーザがこのオブジェクトを選択（例えばタップ操作等）した場合に、再生用端末５０は、自動的に、またはユーザの承認を条件に、リンク先のＷｅｂページを表示してもよい。第３例として、視覚的コンテンツとともに、または視覚的コンテンツの再生終了後に、特定のＥＣサイトにおいて特定の商品の購入に関する操作を受け付けるオブジェクトが画面に配置されてもよい。ユーザがこのオブジェクトを選択（例えばタップ操作等）した場合に、再生用端末５０は、自動的に、またはユーザの承認を条件に、特定の商品の購入に関する要求（例えば、ユーザアカウントに紐付けられるカートに特定の商品を追加する要求、または特定の商品の決済画面を開く要求）を特定のＥＣサイトのサーバへ送信してもよい。

以上、本発明の実施形態について詳細に説明したが、本発明の範囲は上記の実施形態に限定されない。また、上記の実施形態は、本発明の主旨を逸脱しない範囲において、種々の改良や変更が可能である。また、上記の実施形態及び変形例は、組合せ可能である。

１：情報処理システム
１０：収録用端末
１１：記憶装置
１２：プロセッサ
１３：入出力インタフェース
１４：通信インタフェース
２１：ディスプレイ
２２：カメラ
２３：計測部
３０：サーバ
３１：記憶装置
３２：プロセッサ
３３：入出力インタフェース
３４：通信インタフェース
５０：再生用端末
５１：記憶装置
５２：プロセッサ
５３：入出力インタフェース
５４：通信インタフェース
６１：ディスプレイ
６２：カメラ
６３：計測部

Claims

第１コンピュータを、
第１カメラによって撮影された人物の画像と、当該人物の撮影時における前記第１カメラの位置および姿勢を特定可能な情報とを取得する手段、
前記人物の画像に基づく第１視覚的コンテンツを作成する手段、
実空間または仮想空間において前記第１視覚的コンテンツを表示するための表示領域のサイズを、前記人物の画像と、前記第１カメラの内部パラメータと、前記第１カメラと前記人物との間の距離に関する情報とに基づいて決定する手段、
前記表示領域の位置および向きを、前記第１カメラの位置および姿勢に基づいて決定する手段、
として機能させ、
前記表示領域のサイズを決定する手段は、前記第１カメラから前記人物の基準点までの距離と、前記第１カメラの内部パラメータとに応じた前記表示領域のサイズを決定する、
コンテンツ作成プログラム。
前記表示領域のサイズを決定する手段は、前記第１カメラの光軸に直交し、かつ前記人物の基準点を通る平面と前記第１カメラとの間の距離と、前記第１カメラの焦点距離との比率に応じた前記表示領域のサイズを決定する、
請求項１に記載のコンテンツ作成プログラム。
第１コンピュータを、
第１カメラによって撮影された人物の画像と、当該人物の撮影時における前記第１カメラの位置および姿勢を特定可能な情報とを取得する手段、
前記人物の画像に基づく第１視覚的コンテンツを作成する手段、
実空間または仮想空間において前記第１視覚的コンテンツを表示するための表示領域のサイズを、前記人物の画像と、前記第１カメラの内部パラメータと、前記第１カメラと前記人物との間の距離に関する情報とに基づいて決定する手段、
前記表示領域の位置および向きを、前記第１カメラの位置および姿勢に基づいて決定する手段、
前記表示領域において前記第１視覚的コンテンツの再生を開始するために再生側の実カメラまたは仮想カメラの位置および姿勢が満たすべき第１条件を、前記人物の撮影時における前記第１カメラの位置および姿勢に基づいて設定する手段、
として機能させる、コンテンツ作成プログラム。
前記第１コンピュータを、
前記第１条件を満たすことのできる場所を可視化する第２視覚的コンテンツを作成する手段、
前記第２視覚的コンテンツの再生を開始するために前記再生側の実カメラまたは仮想カメラの位置および姿勢が満たすべき第２条件を、前記第１条件に基づいて設定する手段、
として機能させる、請求項３に記載のコンテンツ作成プログラム。
請求項３に記載のコンテンツ作成プログラムによって作成された視覚的コンテンツを表示可能なコンテンツ再生プログラムであって、
第２コンピュータを、
実カメラまたは仮想カメラである第２カメラの位置および姿勢を特定する手段、
前記第２カメラの位置および姿勢について前記第１条件が成立する場合に、前記第２カメラの撮影画像に前記表示領域を重畳し、当該表示領域において前記第１視覚的コンテンツの再生を開始する手段、
として機能させるコンテンツ再生プログラム。
前記第１視覚的コンテンツの再生を開始する手段は、前記第１条件の成立の検知に応じて、前記第２コンピュータのユーザからの追加の操作によらずに、前記第１視覚的コンテンツの再生を開始する、
請求項５に記載のコンテンツ再生プログラム。
前記第２コンピュータを、前記第２カメラの位置および姿勢について前記第１条件が成立せず、かつ第２条件が成立する場合に、前記第２カメラの撮影画像に重畳して、前記第１条件を満たすことのできる場所を可視化する第２視覚的コンテンツの再生を開始する手段、として機能させる、
請求項５に記載のコンテンツ再生プログラム。
第１カメラによって撮影された人物の画像と、当該人物の撮影時における前記第１カメラの位置および姿勢を特定可能な情報とを取得する手段と、
前記人物の画像に基づく視覚的コンテンツを作成する手段と、
実空間または仮想空間において前記視覚的コンテンツを表示するための表示領域のサイズを、前記人物の画像と、前記第１カメラの内部パラメータと、前記第１カメラと前記人物との間の距離に関する情報とに基づいて決定する手段と、
前記表示領域の位置および向きを、前記第１カメラの位置および姿勢に基づいて決定する手段と、
を具備し、
前記表示領域のサイズを決定する手段は、前記第１カメラから前記人物の基準点までの距離と、前記第１カメラの内部パラメータとに応じた前記表示領域のサイズを決定する、
情報処理装置。
第１カメラによって撮影された人物の画像と、当該人物の撮影時における前記第１カメラの位置および姿勢を特定可能な情報とを取得する手段と、
前記人物の画像に基づく第１視覚的コンテンツを作成する手段と、
実空間または仮想空間において前記第１視覚的コンテンツを表示するための表示領域のサイズを、前記人物の画像と、前記第１カメラの内部パラメータと、前記第１カメラと前記人物との間の距離に関する情報とに基づいて決定する手段と、
前記表示領域の位置および向きを、前記第１カメラの位置および姿勢に基づいて決定する手段と、
前記表示領域において前記第１視覚的コンテンツの再生を開始するために再生側の実カメラまたは仮想カメラの位置および姿勢が満たすべき第１条件を、前記人物の撮影時における前記第１カメラの位置および姿勢に基づいて設定する手段と、
を具備する、情報処理装置。
コンピュータが、
第１カメラによって撮影された人物の画像と、当該人物の撮影時における前記第１カメラの位置および姿勢を特定可能な情報とを取得するステップと、
前記人物の画像に基づく視覚的コンテンツを作成するステップと、
実空間または仮想空間において前記視覚的コンテンツを表示するための表示領域のサイズを、前記人物の画像と、前記第１カメラの内部パラメータと、前記第１カメラと前記人物との間の距離に関する情報とに基づいて決定するステップと、
前記表示領域の位置および向きを、前記第１カメラの位置および姿勢に基づいて決定するステップと、
を実行し、
前記表示領域のサイズを決定するステップにおいて、前記コンピュータは、前記第１カメラから前記人物の基準点までの距離と、前記第１カメラの内部パラメータとに応じた前記表示領域のサイズを決定する、
方法。