JP6304242B2

JP6304242B2 - 画像処理装置、画像処理方法およびプログラム

Info

Publication number: JP6304242B2
Application number: JP2015509985A
Authority: JP
Inventors: 俊一笠原; 暦本　純一; 純一暦本
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2013-04-04
Filing date: 2014-03-14
Publication date: 2018-04-04
Anticipated expiration: 2034-03-14
Also published as: CN104104862B; CN104104862A; CN204465706U; US20160054793A1; WO2014162852A1; US9823739B2; EP2983139A4; JPWO2014162852A1; EP2983139A1

Description

本開示は、画像処理装置、画像処理方法およびプログラムに関する。

近年、実世界に付加的な情報を重畳してユーザに提示する拡張現実（ＡＲ：Augmented Reality）と呼ばれる技術が注目されている。ＡＲ技術においてユーザに提示される情報は、アノテーションとも呼ばれ、テキスト、アイコンまたはアニメーションなど様々な形態の仮想的なオブジェクトを用いて可視化されうる。例えば、特許文献１には、こうしたＡＲの仮想オブジェクトの操作を、ＡＲ空間へのユーザの没入感を損なうことなく実現するための技術が記載されている。

特開２０１２−２１２３４５号公報

上記の特許文献１などで提案されているＡＲ技術は、未だ開発されてから日が浅く、さまざまな局面でＡＲを活用するための技術が十分に提案されているとはいいがたい。例えば、ＡＲ技術を利用したユーザ間のインタラクションを円滑にするための技術も、十分には提案されていないものの一つである。

そこで、本開示では、ＡＲ技術を利用したユーザ間のインタラクションをより円滑にすることが可能な、新規かつ改良された画像処理装置、画像処理方法およびプログラムを提案する。

本開示によれば、第１の視点から実空間を撮像した第１の画像を入力画像として出力画像を生成する画像処理部を備え、上記画像処理部は、上記実空間における上記第１の視点の位置および姿勢に基づいて、上記実空間において上記第１の視点とは異なる位置および姿勢を有する第２の視点から上記実空間を仮想的に撮像した第２の画像を上記出力画像として生成する画像処理装置が提供される。

また、本開示によれば、第１の視点から実空間を撮像した第１の画像を入力画像として出力画像を生成するプロセッサが、上記実空間における上記第１の視点の位置および姿勢に基づいて、上記実空間において上記第１の視点とは異なる位置および姿勢を有する第２の視点から上記実空間を仮想的に撮像した第２の画像を上記出力画像として生成することを含む画像処理方法が提供される。

また、本開示によれば、第１の視点から実空間を撮像した第１の画像を入力画像として出力画像を生成するコンピュータに、上記実空間における上記第１の視点の位置および姿勢に基づいて、上記実空間において上記第１の視点とは異なる位置および姿勢を有する第２の視点から上記実空間を仮想的に撮像した第２の画像を上記出力画像として生成する機能を実現させるためのプログラムが提供される。

以上説明したように本開示によれば、ＡＲ技術を利用したユーザ間のインタラクションをより円滑にすることができる。

本開示の一実施形態に係るシステムの概略的な構成を示す図である。本開示の一実施形態に係る装置の概略的な構成を示す図である。本開示の一実施形態における撮像画像の共有の例を示す図である。本開示の一実施形態におけるアノテーション入力の例を示す図である。本開示の一実施形態における撮像画像の共有の別の例を示す図である。本開示の一実施形態において利用されうる技術の処理の例を示すフローチャートである。本開示の一実施形態において利用されうる技術の処理の別の例を示すフローチャートである。本開示の一実施形態における１人称画像の表示例を示す図である。本開示の一実施形態における３人称画像の表示例を示す図である。本開示の一実施形態における３人称画像の表示例を示す図である。本開示の一実施形態における３人称画像の表示例を示す図である。本開示の一実施形態における１．３人称画像の表示例を示す図である。本開示の一実施形態における１．３人称画像について説明するための図である。本開示の一実施形態における１．３人称画像について説明するための図である。本開示の一実施形態における１．３人称画像および３人称画像の例について説明するための図である。本開示の一実施形態における１．３人称画像および３人称画像の例について説明するための図である。本開示の一実施形態における１．３人称画像および３人称画像の例について説明するための図である。本開示の一実施形態において異なる視点の画像が同時に表示される例を示す図である。本開示の一実施形態において異なる視点の画像が同時に表示される例を示す図である。本開示の一実施形態におけるアノテーション表示の第１の例を示す図である。本開示の一実施形態におけるアノテーション表示の第２の例を示す図である。本開示の一実施形態におけるアノテーション表示の第３の例を示す図である。本開示の一実施形態におけるアノテーション表示の第４の例を示す図である。本開示の一実施形態におけるアノテーション表示の第５の例を示す図である。本開示の一実施形態におけるアノテーション表示の第６の例を示す図である。本開示の一実施形態におけるアノテーションの配置について説明するための図である。本開示の一実施形態におけるアノテーションの配置の選択の例を示す図である。本開示の一実施形態における視認可能範囲外にあるアノテーションの表示の第１の例を示す図である。本開示の一実施形態における視認可能範囲外にあるアノテーションの表示の第１の例を示す図である。本開示の一実施形態における視認可能範囲外にあるアノテーションの表示の第１の例を示す図である。本開示の一実施形態における視認可能範囲外にあるアノテーションの表示の第２の例を示す図である。本開示の一実施形態における視認可能範囲外にあるアノテーションの表示の第２の例を示す図である。本開示の一実施形態における視認可能範囲外にあるアノテーションの表示の第３の例を示す図である。本開示の一実施形態における視認可能範囲外にあるアノテーションの表示の第３の例を示す図である。本開示の一実施形態における視認可能範囲外にあるアノテーションの表示の第４の例を示す図である。本開示の一実施形態における視認可能範囲外にあるアノテーションの表示の第５の例を示す図である。本開示の一実施形態における視認可能範囲外にあるアノテーションの表示の第６の例を示す図である。本開示の一実施形態における視認可能範囲外にあるアノテーションの表示の応用例を示す図である。本開示の一実施形態における視認可能範囲外にあるアノテーションの表示の応用例を示す図である。本開示の一実施形態におけるエッジ検出を利用したアノテーション対象物体の表示例を示す図である。本開示の一実施形態におけるストリーミングフレームのロールバック表示の例を示す図である。本開示の一実施形態におけるストリーミングフレームのロールバック表示の例を示す図である。本開示の一実施形態に係る技術を利用して旅行者の視点を共有するアプリケーションの例を示す図である。本開示の一実施形態に係る技術を利用して登山者の視点を共有するアプリケーションの例を示す図である。本開示の一実施形態に係る技術を利用して料理をする人の視点を共有するアプリケーションの例を示す図である。本開示の一実施形態に係る技術を利用して買い物をする人の視点を共有するアプリケーションの例を示す図である。本開示の一実施形態に係る技術を利用して工作をする人の視点を共有するアプリケーションの例を示す図である。本開示の一実施形態に係る技術を利用して複数のユーザの視点を切り替えて共有するアプリケーションの例を示す図である。本開示の一実施形態に係る技術を利用して複数のユーザの視点を切り替えて共有するアプリケーションの例を示す図である。本開示の一実施形態に係る技術を利用して複数のユーザの視点を切り替えて共有するアプリケーションの例を示す図である。本開示の一実施形態に係る技術を利用して複数のユーザの視点を切り替えて共有するアプリケーションの例を示す図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

なお、説明は以下の順序で行うものとする。
１．システムおよび装置の構成
１−１．システム構成
１−２．装置構成
２．実空間画像の共有およびインタラクション
２−１．インタラクションの概念
２−２．利用されうる技術
３．可変視点画像の表示の例
４．アノテーションの実空間への表示
４−１．表示例
４−２．アノテーションの配置
５．視認可能範囲外にあるアノテーションの表示
６．その他の表示例
７．アプリケーションの例
８．補足

（１．システムおよび装置の構成）
（１−１．システム構成）
図１は、本開示の一実施形態に係るシステムの概略的な構成を示す図である。図１を参照すると、システム１０は、サーバ１００と、クライアント２００〜７００とを有する。

サーバ１００は、単一のサーバ装置、または有線または無線の各種ネットワークで接続されて協働する複数のサーバ装置によって実現される機能の集合体であり、クライアント２００〜７００にサービスを提供する。

クライアント２００〜７００は、サーバ１００と有線または無線の各種ネットワークで接続された端末装置である。クライアント２００〜７００は、システム１０の中で以下の（１）〜（３）の少なくともいずれかの機能を実現する。

（１）カメラなどの撮像手段を有し、実空間の画像をサーバ１００に提供する装置。
（２）ディスプレイなどの表示手段と、タッチパネルなどの操作手段とを有し、（１）の装置から提供された画像をサーバ１００から取得し、ユーザの閲覧に供するとともに、ユーザによる画像へのアノテーション入力を受け付ける装置。
（３）ディスプレイなどの表示手段を有し、（２）の装置によって入力が受け付けられたアノテーションを実空間に直接的または間接的に表示させる装置。

クライアント２００は、ウェアラブル端末である（以下、単にウェアラブル端末２００ともいう）。ウェアラブル端末２００は、例えば撮像手段または表示手段のいずれかまたは両方を有し、上記（１）または（３）のいずれかまたは両方の装置として機能する。図示された例においてウェアラブル端末２００は眼鏡型であるが、ユーザの身体に装着可能な形状であればこの例には限られない。上記（１）の装置として機能する場合、ウェアラブル端末２００は、撮像手段として、例えば眼鏡のフレーム部分に設置されたカメラを有する。このカメラによって、ウェアラブル端末２００は、ユーザの視点に近い位置から実空間の画像を取得することができる。取得した画像は、サーバ１００に送信される。また、上記（３）の装置として機能する場合、ウェアラブル端末２００は、表示手段として、例えば眼鏡のレンズ部分の一部または全部に設置されたディスプレイを有する。ウェアラブル端末２００は、上記のカメラによって撮像された画像をこのディスプレイに表示させるとともに、当該画像に対して上記（２）の装置によって入力されたアノテーションを重畳表示させる。あるいは、ディスプレイが透過型である場合、ウェアラブル端末２００は、ユーザが直接視認している実世界の像にアノテーションを透過的に重畳表示させてもよい。

クライアント３００は、タブレット端末である（以下、単にタブレット端末３００ともいう）。タブレット端末３００は、少なくとも表示手段および操作手段を有し、例えば上記（２）の装置として機能しうる。タブレット端末３００は、さらに撮像手段を有し、上記の（１）または（３）のいずれかまたは両方の装置として機能してもよい。つまり、タブレット端末３００は、上記の（１）〜（３）の装置のうちの任意の装置として機能しうる。上記（２）の装置として機能する場合、タブレット端末３００は、例えば表示手段としてディスプレイを、操作手段としてディスプレイ上のタッチセンサを有し、上記（１）の装置からサーバ１００を介して提供される画像を表示するとともに、当該画像に対するユーザのアノテーション入力を受け付ける。受け付けられたアノテーション入力は、サーバ１００を介して上記（３）の装置に提供される。上記（１）の装置として機能する場合、タブレット端末３００は、例えば上記のウェアラブル端末２００と同様に撮像手段としてカメラを有し、ユーザがタブレット端末３００を実空間にかざすことによって、ユーザの視線の延長線上にある実空間の画像を取得することができる。取得した画像は、サーバ１００に送信される。上記（３）の装置として機能する場合、タブレット端末３００は、上記のカメラによって撮像された画像をディスプレイに表示させるとともに、当該画像に対して上記（２）の装置（例えば他のタブレット端末など）によって入力されたアノテーションを重畳表示させる。あるいは、ディスプレイが透過型である場合、タブレット端末３００は、ユーザが直接視認している実世界の像にアノテーションを透過的に重畳表示させてもよい。

クライアント４００は、携帯電話（スマートフォン）である（以下、単に携帯電話４００ともいう）。なお、システム１０における携帯電話４００の機能は、タブレット端末３００と同様であるため、詳細な説明は省略する。なお、図示していないが、例えば携帯型ゲーム機やデジタルカメラのような装置も、通信手段と表示手段、操作手段または撮像手段とを有していれば、システム１０においてタブレット端末３００や携帯電話４００と同様に機能しうる。

クライアント５００は、ラップトップＰＣ（Personal Computer）である（以下、単にラップトップＰＣ５００ともいう）。ラップトップＰＣ５００は、表示手段および操作手段を有し、上記（２）の装置として機能する。図示された例において、ラップトップＰＣ５００は、基本的に固定して使用されるために上記（１）の装置としては機能しない装置の例として扱われている。図示していないが、例えばデスクトップＰＣやテレビなども、ラップトップＰＣ５００と同様に機能しうる。ラップトップＰＣ５００は、表示手段としてディスプレイを、操作手段としてマウスやキーボードを有し、上記（１）の装置からサーバ１００を介して提供される画像を表示するとともに、当該画像に対するユーザのアノテーション入力を受け付ける。受け付けられたアノテーション入力は、サーバ１００を介して上記(３)の装置に提供される。また、ラップトップＰＣ５００は、上記(３)の装置として機能することも可能である。この場合、ラップトップＰＣ５００は、自ら撮像した実空間の画像にアノテーションを重畳表示させるのではなく、後述する例のように、実空間の一部となってアノテーションを表示する。なお、このようなアノテーションの表示は、上記のタブレット端末３００や携帯電話４００などでも可能である。

クライアント６００は、固定カメラである（以下、単に固定カメラ６００ともいう）。固定カメラ６００は、撮像手段を有し、上記（１）の装置として機能する。図示された例において、固定カメラ６００は、固定して使用され、かつ表示手段を有さないために上記（２）および（３）の装置としては機能しない装置の例として扱われている。図示していないが、例えばテスクトップＰＣやテレビに画面の前を映すカメラが設けられている場合や、デジタルカメラのような移動可能な装置が三脚などに一時的に固定されている場合も、これらの装置は固定カメラ６００と同様に機能しうる。固定カメラ６００は、撮像手段としてカメラを有し、固定された視点（カメラが自動的に、または撮像画像を閲覧するユーザの操作に応じてスイングするような場合も含む）から実空間の画像を取得することができる。取得した画像は、サーバ１００に送信される。あるいは、クライアント６００は、移動体に取り付けられたカメラであってもよい。移動体は、例えば、自動車や動物など、搭乗者またはそれ自身の意思によって移動してもよい。また、クライアント６００が取り付けられる移動体は、無線通信などを用いたユーザの制御に基づいて飛行または走行したり、プログラムに従って自動的に飛行または走行したりしながら撮像を実行する装置（ロボットカメラ）であってもよい。

クライアント７００は、プロジェクタである（以下、単にプロジェクタ７００ともいう）。プロジェクタ７００は、表示手段として投影装置を有し、上記（３）の装置として機能する。図示された例において、プロジェクタ７００は、撮像手段を有さず、また表示（投影）した画像に対する入力を受け付ける操作手段も有さないため、上記（１）および(２)の装置としては機能しない装置の例として扱われている。プロジェクタ７００は、投影装置を用いてスクリーンやオブジェクトの表面に画像を投影することによって、実空間にアノテーションを表示させる。なお、プロジェクタ７００は、固定型のものが図示されているが、ハンドヘルド型のものであってもよい。

以上、本開示の一実施形態に係るシステムについて説明した。図１に示されたように、本実施形態に係るシステム１０は、実空間の画像を取得可能な装置（ウェアラブル端末２００、タブレット端末３００、携帯電話４００、固定カメラ６００）と、実空間の画像をユーザの閲覧に供するとともにユーザによる画像へのアノテーション入力を受け付けることが可能な装置（タブレット端末３００、携帯電話４００、ラップトップＰＣ５００）と、アノテーションを実空間に直接的または間接的に表示させる装置（ウェアラブル端末２００、タブレット端末３００、携帯電話４００、ラップトップＰＣ５００、プロジェクタ７００）とを含みうる。

サーバ１００は、上記の各装置と協働することによって、実空間の画像を取得し、その画像をユーザ（例えば上記実空間にはいないユーザでありうる）の閲覧に供するとともにユーザによる画像へのアノテーション入力を受け付け、入力されたアノテーションを上記実空間に直接的または間接的に表示させる機能を実現する。このような機能によって、例えば、第１のユーザがいる実空間の画像を第２のユーザが閲覧し、第２のユーザが画像に対して加えたアノテーションが上記実空間に直接的または間接的に表示されて第１のユーザによって視認されるといったような、ＡＲ技術を利用したユーザ間のインタラクションが可能になる。

上記のようなシステム１０において表示されるＡＲ画像（例えば、実空間にアノテーションが表示された画像）の具体的な例については後述する。図示された例のシステム１０において、ＡＲ画像を構成するための画像処理は、主にサーバ１００で実行される。しかし、他の例では、画像処理の一部または全部が、例えば実空間にアノテーションを表示させる上記（３）の装置や、実空間の画像を表示するとともにアノテーション入力を受け付ける上記（２）の装置などで実行されてもよい。本明細書では、このような画像処理を実行する装置を総称して「画像処理装置」という。

（１−２．装置構成）
図２は、本開示の一実施形態に係る装置の概略的な構成を示す図である。図２を参照すると、装置９００は、プロセッサ９１０、およびメモリ９２０を含む。装置９００は、さらに、表示部９３０、操作部９４０、通信部９５０、撮像部９６０、またはセンサ９７０を含みうる。これらの構成要素は、バス９８０によって相互に接続される。装置９００は、例えば、上記のサーバ１００を構成するサーバ装置、およびクライアント２００〜７００を実現しうる。

プロセッサ９１０は、例えばＣＰＵ（Central Processing Unit）またはＤＳＰ（Digital Signal Processor）といったような各種のプロセッサであり、例えばメモリ９２０に格納されたプログラムに従って演算や制御などの動作を実行することによって各種の機能を実現する。プロセッサ９１０は、例えば上記のサーバ１００およびクライアント２００〜７００の装置全体の制御機能を実現する。プロセッサ９１０は、例えばサーバ１００において、後述する例のようなＡＲ画像の表示を実現するための画像処理を実行する。また、プロセッサ９１０は、例えばサーバ１００、ウェアラブル端末２００、タブレット端末３００、携帯電話４００、ラップトップＰＣ５００、またはプロジェクタ７００において、後述する例のようなＡＲ画像の表示を実現するための表示制御を実行する。

メモリ９２０は、半導体メモリまたはハードディスクなどの記憶媒体によって構成され、装置９００による処理のためのプログラムおよびデータを格納する。メモリ９２０は、例えば、撮像部９６０によって取得された撮像画像データや、センサ９７０によって取得されたセンサデータを格納してもよい。なお、本明細書で説明するプログラムおよびデータの一部は、メモリ９２０に格納されることなく、外部のデータソース（例えばデータサーバ、ネットワークストレージまたは外付けメモリなど）から取得されてもよい。

表示部９３０は、例えば上述した表示手段を有するクライアントに設けられる。表示部９３０は、例えば装置９００の形状に応じたディスプレイでありうる。例えば、上記の例でいえば、ウェアラブル端末２００は、例えば眼鏡のレンズ部分に対応した形状のディスプレイを有しうる。また、タブレット端末３００や携帯電話４００、ラップトップＰＣ５００は、それぞれの筐体に設けられる平板型のディスプレイを有しうる。あるいは、表示部９３０は、オブジェクトに画像を投影する投影装置であってもよい。上記の例では、プロジェクタ７００が表示部として投影装置を有しうる。

操作部９４０は、例えば、上述した操作手段を有するクライアントに設けられる。操作部９４０は、例えばディスプレイ上に設けられたタッチセンサ（ディスプレイとあわせてタッチパネルを構成する）やタッチパッド、マウスなどのポインティングデバイスに、必要に応じてキーボード、ボタン、スイッチなどを組み合わせて構成される。操作部９４０は、例えばポインティングデバイスによって表示部９３０に表示された画像中の位置を特定し、その位置に対してキーボードやボタン、スイッチなどによって何らかの情報を入力するユーザの操作を受け付ける。あるいは、操作部９４０は、ポインティングデバイスによって表示部９３０に表示された画像中の位置を特定し、さらにポインティングデバイスによってその位置に対して何らかの情報を入力するユーザの操作を受け付けてもよい。操作部９４０は、ポインティングデバイスに代えて、またはポインティングデバイスとともに、ユーザのジェスチャに基づいて、画像中の位置を特定したり、その位置に対して何らかの情報を入力するための操作を取得してもよい。ユーザのジェスチャは、例えば、カメラモジュール（撮像部９６０と同じであってもよいし、異なってもよい）によって取得された画像を解析し、ユーザの体の部分などの操作体の動きを認識することによって特定される。また、例えば、ユーザのジェスチャは、ディスプレイを有する装置とは別の装置、例えばディスプレイに向き合うユーザの指や手首などに装着されるウェアラブル装置に設けられるモーションセンサの検出結果に基づいて取得されてもよい。この場合、例えば、モーションセンサによって検出されるユーザの指や手首などの加速度や角速度に基づいて、ユーザのジェスチャが特定される。

通信部９５０は、装置９００による他の装置との間の通信を仲介する通信インターフェースである。通信部９５０は、任意の無線通信プロトコルまたは有線通信プロトコルをサポートし、他の装置との間の通信接続を確立する。上記の例では、クライアントで撮像された実空間の画像や入力されたアノテーション情報のサーバ１００への送信、およびサーバ１００からクライアントへの実空間の画像やアノテーション情報の送信に通信部９５０が用いられる。

撮像部９６０は、画像を撮像するカメラモジュールである。撮像部９６０は、ＣＣＤ（Charge Coupled Device）またはＣＭＯＳ（Complementary Metal Oxide Semiconductor）などの撮像素子を用いて実空間を撮像し、撮像画像を生成する。撮像部９６０によって生成される一連の撮像画像は、映像を構成する。なお、撮像部９６０は、必ずしも装置９００の一部でなくてもよい。例えば、装置９００と有線または無線で接続される撮像装置が撮像部９６０として扱われてもよい。また、撮像部９６０は、撮像部９６０と被写体との間の距離を画素ごとに測定する深度（depth）センサを含んでいてもよい。深度センサから出力される深度データは、後述するように実空間を撮像した画像における環境の認識のために利用されうる。

センサ９７０は、測位センサ、加速度センサおよびジャイロセンサなどのさまざまなセンサを含みうる。センサ９７０において得られる測定結果は、実空間を撮像した画像における環境の認識の支援、地理的な位置に特化したデータの取得、またはユーザ入力の検出などのさまざまな用途で利用されてもよい。なお、センサ９７０は、撮像部９６０を有する装置、上記の例ではウェアラブル端末２００やタブレット端末３００、携帯電話４００、または固定カメラ６００に設けられうる。

（２．実空間画像の共有およびインタラクション）
次に、図３Ａ〜図４を参照して、本開示の一実施形態に係るインタラクションの基本的な概念について説明する。

（２−１．インタラクションの概念）
図３Ａは、本開示の一実施形態における撮像画像の共有の例を示す図である。図示された例では、ウェアラブル端末２００のカメラ２６０（撮像部）によって撮像された実空間の画像がサーバ１００を介してタブレット端末３００にストリーミング配信され、ディスプレイ３３０（表示部）に画像１３００として表示される。このとき、ウェアラブル端末２００では、撮像された実空間の画像がディスプレイ２３０（表示部）に表示されるか、実空間の像がディスプレイ２３０を透過して直接視認される。このときディスプレイ２３０に表示されている像（透過して視認される背景を含む）を、以下では画像１２００として参照する。

図３Ｂは、本開示の一実施形態におけるアノテーション入力の例を示す図である。タブレット端末３００では、ディスプレイ３３０上にタッチセンサ３４０（操作部）が設けられており、ディスプレイ３３０に表示された画像１３００に対するユーザのタッチ入力を取得することが可能である。図示された例では、画像１３００内のある位置を指示するユーザのタッチ入力がタッチセンサ３４０によって取得され、その位置にポインタ１３１０が表示されている。さらに、例えば別途表示されるスクリーンキーボードなどを用いて入力されたテキストが、画像１３００にコメント１３２０として表示されている。このポインタ１３１０およびコメント１３２０が、アノテーションとしてサーバ１００を介してウェアラブル端末２００に送信される。

ウェアラブル端末２００では、タブレット端末３００で入力されたアノテーションが、画像１２００にポインタ１２１０およびコメント１２２０として表示される。画像１２００においてこれらのアノテーションが表示される位置は、タブレット端末３００で表示される画像１３００における実空間の位置に対応している。このようにして、送信側（ストリーミング側）の装置であるウェアラブル端末２００と、受信側（視聴者側）の装置であるタブレット端末３００との間でのインタラクションが成立する。なお、この例において、装置間でアノテーションの表示位置を対応させたり、アノテーションを継続的に表示させたりするために用いられうる技術については後述する。

図３Ｂは、本開示の一実施形態における撮像画像の共有の別の例を示す図である。図示された例では、タブレット端末３００ａのカメラ（撮像部；背面側にあるため図示されていない）によって撮像された実空間の画像がタブレット端末３００ｂにストリーミング配信され、ディスプレイ３３０ｂ（表示部）に画像１３００ｂとして表示される。このとき、タブレット端末３００ａでは、撮像された実空間の画像がディスプレイ３３０ａに表示されるか、実空間の像がディスプレイ３３０ａを透過して直接視認されている。このときディスプレイ３３０ａに表示されている像（透過して視認される背景を含む）を、以下では画像１３００ａとして参照する。図示された例でも、タブレット端末３００ｂで画像１３００ｂに対して入力されたアノテーションを画像１３００ａに表示させることによって、送信側（ストリーミング側）の装置であるタブレット端末３００ａと、受信側（視聴者側）の装置であるタブレット端末３００ｂとの間でのインタラクションが成立しうる。

なお、本実施形態における実空間の画像の共有とそれに基づくユーザ間のインタラクションは、ウェアラブル端末２００およびタブレット端末３００に係る上記の例には限られず、既に説明した携帯電話４００、ラップトップＰＣ５００、固定カメラ６００、またはプロジェクタ７００も、それぞれの機能（例えば上述した（１）〜（３）の機能）を実現する限りにおいて、任意の装置を送信側（ストリーミング側）および受信側（視聴者側）として成立しうる。

（２−２．利用されうる技術）
本実施形態では、上述した実空間画像の共有とインタラクションを実現するにあたって、いくつかの技術が利用される。まず、本実施形態では、送信側の装置において、送信される実空間の画像データに空間情報が付加される。空間情報は、送信側の装置の撮像部（図３Ａおよび図３Ｂの例ではウェアラブル端末２００のカメラ２６０、図４の例ではタブレット端末３００ａのカメラ）が実空間の中でどのように移動しているかを推定することを可能にする情報である。

例えば、空間情報は、ＳｆＭ（Structure from Motion）法またはＳＬＡＭ（Simultaneous Localization And Mapping）法などの公知の画像認識技術によって認識される環境認識行列でありうる。環境認識行列は、例えば送信側の装置固有の座標系に対する基準環境（実空間）の座標系の相対的な位置および姿勢を示す。例えば、ＳＬＡＭ法が利用される場合、送信側の装置のプロセッサが、装置の位置、姿勢、速度および角速度、ならびに撮像画像に含まれる少なくとも１つの特徴点の位置を含む状態変数を、拡張カルマンフィルタの原理に基づいて撮像画像のフレームごとに更新する。これによって、装置の位置および姿勢を基準とする基準環境の位置および姿勢を、単眼カメラからの入力画像を利用して認識することができる。なお、ＳＬＡＭ法の詳しい説明は、例えば“Real-Time Simultaneous Localization and Mapping with a Single Camera”（Andrew J.Davison，Proceedings of the 9th IEEE International Conference on Computer Vision Volume 2, 2003, pp.1403-1410）に記載されている。

他にも、空間情報は、撮像部の実空間における相対的な位置および姿勢を示す情報であればどのようなものであってもよい。例えば、撮像部に設けられうる深度センサからの深度データに基づいて環境認識行列が認識されてもよい。また、赤外線測距システムまたはモーションキャプチャシステムなどの環境認識システムからの出力データに基づいて環境認識行列が認識されてもよい。こうした技術の一例は、例えばS.Izadi, et al, KinectFusion: Real-time 3D Reconstruction and Interaction Using a Moving Depth Camera, ACM Symposium on User Interface Software and Technology, 2011に記載されているが、この例には限られず、公知の様々な技術が空間情報の生成に利用可能である。

あるいは、空間情報は、実空間を撮像した一連のフレーム画像のステッチング解析によって、各フレーム画像の相対的な位置関係を特定することによって生成されてもよい。この場合、ステッチング解析は、基底平面上に各フレーム画像を貼りつける２次元ステッチング解析、または空間内の任意の位置に各フレーム画像を貼りつける３次元ステッチング解析でありうる。

以下、上記の技術に係る送信側の装置、受信側の装置、およびサーバの処理の例について、図５Ａのフローチャートを参照しながら、図３Ａおよび図３Ｂに示した例を用いて説明する。なお、上記の技術は、図３Ａおよび図３Ｂの例に関わらず上述したシステム１０における任意の装置の組み合わせについて適用可能でありうる。

まず、ウェアラブル端末２００（送信側の装置）において、撮像部が実空間の画像データを取得するとともに、撮像部またはセンサが取得した情報を必要に応じてプロセッサが処理することによって空間情報が生成される（ステップＳ１０１）。画像データと空間情報とは、互いに関連付けられてウェアラブル端末２００の通信部からサーバ１００に送信される（ステップＳ１０３）。サーバ１００では、通信部がウェアラブル端末２００から画像データおよび空間情報を受信し、画像データをタブレット端末３００（受信側の装置）に転送する（ステップＳ１０５）。また、サーバ１００では、プロセッサが空間情報を用いて受信された画像内の位置とウェアラブル端末２００が存在する実空間の位置とを関係づける（ステップＳ１０７）。

タブレット端末３００では、通信部がサーバ１００から画像データを受信し、受信された画像データに基づいてプロセッサがディスプレイ３３０に画像１３００を表示させる（ステップＳ１０９）。ここで、タッチセンサ３４０によって画像１３００に対するユーザのアノテーション入力が取得された場合（ステップＳ１１１）、プロセッサはアノテーション入力を画像１３００内の位置（例えばポインタ１３１０の位置）に関係づけ、通信部からサーバ１００に送信する（ステップＳ１１３）。

サーバ１００では、通信部がタブレット端末３００から送信されたアノテーション入力および画像内の位置の情報を受信すると、プロセッサが受信された情報に含まれる画像内の位置を実空間の位置に変換する（ステップＳ１１５）。変換後の実空間の位置に関連付けられたアノテーション入力は、通信部からウェアラブル端末２００に送信される（ステップＳ１１７）。

ウェアラブル端末２００では、通信部がサーバ１００からアノテーション入力および実空間の位置の情報を受信し、プロセッサが空間情報を用いてアノテーション情報に関連付けられた実空間の位置を現在ディスプレイ２３０に表示されている画像１２００内の位置に変換し（ステップＳ１１９）、その位置にアノテーション（例えばポインタ１２１０やコメント１２２０）を表示させる（ステップＳ１２１）。

図５Ｂに、上記の処理の別の例を示す。この例では、サーバ１００のプロセッサが画像内の位置と実空間の位置とを関係づけた後に、通信部が画像データとともに画像に含まれる実空間の位置の情報をタブレット端末３００に送信する（ステップＳ２０１）。タブレット端末３００では、ディスプレイ３３０に画像が表示される（ステップＳ１０９）のは上記の図５Ａの例と同様であるが、アノテーション入力が、画像内の位置ではなくステップＳ２０１で受信された実空間の位置に関連付けて送信される（ステップＳ２０３）。従って、サーバ１００では、通信部が実空間の位置が関連付けられたアノテーション入力の情報をウェアラブル端末２００に転送すればよい（ステップＳ２０５）。

（第１の利点）
上記で説明した技術には、いくつかの利点がある。例えば、ウェアラブル端末２００で実空間の画像が取得されてから、タブレット端末３００で当該画像に対するアノテーションが入力され、さらにそのアノテーションがウェアラブル端末２００に送信されるまでには時間差が生じていることが多い。

従って、画像内の位置を基準にしてアノテーションをやりとりすると、上記の時間差の間にユーザや装置の移動によってウェアラブル端末２００で表示される画像１２００の表示範囲が変化したために、タブレット端末３００から送信されたアノテーションが、ウェアラブル端末２００ではタブレット端末３００のユーザが画像１３００を見ながら意図した位置とは異なった位置に表示される場合がある。

これに対して、上記の技術を適用すれば、アノテーションを実空間の位置に関連付けることが可能であるため、画像１２００の表示範囲の変化に関わらず、ウェアラブル端末２００でも、タブレット端末３００のユーザが画像１３００を見ながら意図した位置（例えば実空間にある特定のオブジェクトに対応する位置）にアノテーションが表示されうる。

（第２の利点）
また、例えば、ウェアラブル端末２００で表示される実空間の画像１２００が、ディスプレイ２３０を透過して直接視認されるものであったり、ディスプレイ２３０の外側に見えている実空間の像と整合させてディスプレイ２３０に表示されるものであったりする場合、画像１２００の範囲が、ウェアラブル端末２００のカメラ２６０が撮像する実空間の画像の範囲よりも狭い（つまり、ウェアラブル端末２００のユーザが視認している範囲よりも、撮像画像の範囲の方が広い）場合がありうる。

このような場合、タブレット端末３００のディスプレイ３３０に表示される画像１３００の範囲がウェアラブル端末２００の画像１２００の範囲よりも広くなり、タブレット端末３００のユーザが、画像１２００の外側、つまりウェアラブル端末２００のユーザには見えていない領域にアノテーションを入力することが可能になりうる。従って、画像内の位置を基準にしてアノテーションをやりとりすると、タブレット端末３００では入力可能であっても、ウェアラブル端末２００の画像１２００には表示されないアノテーションが発生してしまう。

これに対して、上記の技術を適用すれば、アノテーションを実空間の位置に関連付けることが可能であるため、サーバ１００またはウェアラブル端末２００に受信された時点では画像１２００の表示範囲に入っていない位置に対するアノテーションであっても、例えばその後に画像１２００の表示範囲が変化してアノテーションの位置を含むようになった場合に画像１２００に表示することができる。

なお、上記の技術には、ここで説明したものには限られず、利用される状況に応じて他の利点が存在しうる。それらの利点は、以下の説明の中で明示または示唆されうる。

（３．可変視点画像の表示の例）
次に、図６〜図１２を参照して、本開示の一実施形態に係る可変視点画像の表示について説明する。本実施形態では、上記のように、送信側の装置が、実空間の画像データに空間情報を付加して送信する。空間情報は、例えば送信側の装置の撮像部の実空間における位置および姿勢を示す情報である。この情報を利用すれば、以下で説明するように、１人称画像（撮像部が撮像した実空間の画像）の視点にとらわれず、自由な視点で実空間を観察する画像を生成して受信側の装置に提供することが可能である。

なお、以下の説明では、送信側の装置、受信側の装置、およびサーバの動作について、図３Ａおよび図３Ｂに示した例を用いて説明するが、同様の構成は、図３Ａおよび図３Ｂの例に限らず上述したシステム１０における任意の装置の組み合わせによって実現されうる。

（１人称画像）
図６は、本開示の一実施形態における１人称画像の表示例を示す図である。図６には、１人称画像１０１０が示されている。１人称画像１０１０は、ウェアラブル端末２００（送信側の装置）のカメラ２６０が撮像した画像であり、ウェアラブル端末２００でディスプレイ２３０に表示される画像１２００と同一でありうるため、本明細書では「１人称画像」という。１人称画像１０１０はストリーミングフレーム、つまりカメラ２６０が撮像している一連のフレーム画像であるため、その表示範囲は例えばウェアラブル端末２００を装着したユーザの動きに伴って刻々と変化する。

（３人称画像）
図７〜図９は、本開示の一実施形態における３人称画像の表示例を示す図である。図７〜図９に示された３人称画像１０２０は、ウェアラブル端末２００のカメラ２６０が存在する実空間を、撮像画像のデータとともに提供された空間情報に基づいて１人称画像とは異なる視点から仮想的に撮像した画像である。３人称画像１０２０は、１人称画像１０１０とは異なり、ウェアラブル端末２００のカメラ２６０の実空間での位置、すなわち送信側の装置の視点に関わらず自由に設定された視点で生成されうるため、本明細書では「３人称画像」という。３人称画像１０２０は、例えば、サーバ１００のプロセッサが、ウェアラブル端末２００から提供された空間情報に基づいてウェアラブル端末２００のカメラ２６０が取得した実空間の画像を加工することによって生成され、通信部によってタブレット端末３００に送信されうる。

３人称画像１０２０では、カメラ２６０が撮像した画像がストリーミングフレーム１０２１として表示されうる。ストリーミングフレーム１０２１は、例えば上記の１人称画像１０１０と同じ画像であり、空間情報に従って、表示されている実空間の中でストリーミングフレーム１０２１の画面に対応する四角形の領域に配置される。この領域の形状は、例えば３人称画像１０２０の視点のストリーミングフレーム１０２１に対する傾きに応じて、例えば台形や不等辺四角形などの形状に変形されうる。

なお、３人称画像１０２０で完全に自由な視点の設定が可能である場合、例えばストリーミングフレーム１０２１が３人称画像１０２０の表示範囲外になるような視点を設定したり、ストリーミングフレーム１０２１の背面側に視点を設定したりすることも可能でありうる。このような場合、３人称画像１０２０にはストリーミングフレーム１０２１が表示されなくなってもよい。さらに、この場合、３人称画像１０２０とストリーミングフレームを提供するカメラ２６０を有するウェアラブル端末２００とのリンクが解除され、３人称画像１０２０が一時的に送信側の装置から離脱してもよい。この場合、離脱したときの空間情報のキャッシュに基づいてさらに３人称画像１０２０の視点を移動させることが可能でありえ、例えばストリーミングフレーム１０２１や、他の送信側の装置から提供されるストリーミングフレームが再び３人称画像１０２０の表示範囲に入った場合に、３人称画像１０２０と送信側の装置とのリンクが再開されうる。また、３人称画像１０２０の視点がストリーミングフレーム１０２１の背面側に設定された場合、ストリーミングフレーム１０２１の表示は枠だけになって継続されてもよい。あるいは、３人称画像１０２０における視点の設定は、上記のようにストリーミングフレーム１０２１の通常の表示がされない範囲を除くように制限されてもよい。

３人称画像１０２０におけるストリーミングフレーム１０２１以外の部分は、空間情報によって認識されていてもリアルタイムの画像は提供されていないため、例えば図示された例のようにワイヤーフレームなどを用いて模式的に表示されうる。なお、図示されたワイヤーフレームは四角い部屋を示しているが、これは必ずしも実空間がこのような部屋であることを意味せず、例えば広い実空間において上下を認識させるために表示されるものであってもよい。また、図９に示す例のように、過去に提供されたストリーミングフレーム１０２４が、例えばステッチング解析の結果を利用してストリーミングフレーム１０２１に貼り合わされて表示されてもよい。あるいは、ストリーミングフレーム１０２１の周囲には、後述する１．３人称画像と同様の周辺領域画像が表示されてもよい。

さらに、図７および図８に示されるように、３人称画像１０２０には、１人称画像の視点オブジェクト１０２２と、１．３人称画像の視点オブジェクト１０２３とが表示されてもよい。１人称画像の視点オブジェクト１０２２は、１人称画像、すなわちストリーミングフレーム１０２１の視点を示す。また、１．３人称画像の視点オブジェクト１０２３は、後述する１．３人称画像を生成するにあたり、仮想的に設定される視点を示す。これらの視点の位置は、いずれも空間情報に基づいて特定されうる。３人称画像１０２０では、例えば視点オブジェクト１０２２または視点オブジェクト１０２３を選択することによって、それぞれの視点に対応する画像、すなわち１人称画像１０１０または後述する１．３人称画像への切り替えが可能であってもよい。また、３人称画像１０２０では、実空間において認識されているオブジェクトを基準にして、当該オブジェクトが正対および／または拡大されるように自動的に視点を変更することが可能であってもよい。

このような表示のため、３人称画像１０２０の表示範囲は、例えばウェアラブル端末２００のカメラ２６０が移動したことによるストリーミングフレーム１０２１の表示範囲の変化の影響を受けなくてもよい。例えば、カメラ２６０が移動すると、ストリーミングフレーム１０２１の表示領域および表示内容が変化し、１人称画像の視点オブジェクト１０２２が移動しうるが、３人称画像１０２０の表示範囲は維持されうる。また、１．３人称画像の視点オブジェクト１０２３も、カメラ２６０の移動に伴って移動しうる。３人称画像１０２０の表示範囲は、例えばタブレット端末３００において３人称画像１０２０を閲覧するユーザからの視点変更の指示が取得された場合に変更されうる。

なお、３人称画像１０２０は、必ずしも単一の送信側の装置、例えばウェアラブル端末２００のカメラ２６０によって取得された実空間の画像のみに基づいて生成されなくてもよい。例えば、３人称画像１０２０は、例えば、ウェアラブル端末２００と同じ実空間（例えば同じ部屋など）に存在する他の装置（例えば固定カメラ６００）によって取得された実空間の画像をさらに組み合わせることによって生成されてもよい。この場合、固定カメラ６００も、実空間の画像データに空間情報を付加してサーバ１００に提供する。サーバ１００は、それぞれの装置から提供された空間情報に基づいて、複数の実空間の画像データを組み合わせた３人称画像１０２０を生成しうる。この場合、３人称画像１０２０では、複数のストリーミングフレーム１０２１が表示されてもよい。

（１．３人称画像）
図１０Ａは、本開示の一実施形態における１．３人称画像の表示例を示す図である。図１０Ａには、１．３人称画像１０３０が示されている。１．３人称画像１０３０は、ウェアラブル端末２００のカメラ２６０が撮像した画像に基づいて、カメラ２６０の背面側の視点から実空間を仮想的に撮像した画像である。１．３人称画像１０３０の視点は、１人称画像１０１０の視点とは別に設定されうるが、３人称画像１０２０の視点のように自由に設定されるわけではないため、本明細書では、１人称画像と３人称画像との中間的な性質を有する画像を意味する用語として「１．３人称画像」を用いる。なお、１．３人称画像１０３０の視点と１人称画像１０１０の視点との関係は、例えば図７および図８に示された３人称画像１０２０で表示される視点オブジェクト１０２２および視点オブジェクト１０２３の関係を参照すれば容易に理解できる。

１．３人称画像１０３０では、例えば、カメラ２６０が撮像した画像がストリーミングフレーム１０３１として表示される。ストリーミングフレーム１０３１は、例えば上記の１人称画像１０１０と同一の画像でありうる。ここで、１．３人称画像１０３０の視点はカメラ２６０の背面側に設定されるため、ストリーミングフレーム１０３１の位置は典型的には１．３人称画像１０３０の中央付近であり、ストリーミングフレーム１０３１の形状は典型的には矩形である。

ここで、カメラ２６０が移動した場合、１．３人称画像１０３０の表示範囲もストリーミングフレーム１０３１に追従して変化しうる。このとき、例えばサーバ１００のプロセッサが、空間情報に基づいて算出されるカメラ２６０の変位をノイズフィルタまたはローパスフィルタなどによって処理した上で、１．３人称画像１０３０の視点の変位に反映させてもよい。これによって、例えばカメラ２６０の細かい動きによってストリーミングフレーム１０３１にぶれが生じている場合にも、１．３人称画像１０３０のぶれを抑制できる。また、例えばウェアラブル端末２００のユーザが振り向くなどしてカメラ２６０の位置または姿勢が急に変化した場合にも、１．３人称画像１０３０の表示範囲を滑らかに追従させることによって、視点にどのような変化が生じたかを１．３人称画像１０３０を閲覧しているユーザが認識することを容易にすることができる。このように、ストリーミングフレーム１０３１の表示範囲変化に対する１．３人称画像１０３０の表示範囲の変化に調整が加えられる場合、ストリーミングフレーム１０３１は一時的に１．３人称画像１０３０の中央以外の位置に表示されたり、１．３人称画像１０３０に表示されなかったりすることがありうる。

また、１．３人称画像１０３０では、ストリーミングフレーム１０３１の周囲に、周辺領域画像１０３２が表示されうる。周辺領域画像１０３２は、３人称画像１０２０について図９を参照して示した例のように、過去に提供されたストリーミングフレームをステッチング解析などの結果を利用してストリーミングフレーム１０３１の周囲に貼り合わせることによって生成されうる。あるいは、ＳＬＡＭ法などによって検出された特徴点や、デンスマッピングの３次元データなどを用いて生成されたストリーミングフレーム１０３１の周囲の空間モデルが周辺領域画像１０３２として表示されてもよい。このとき、空間モデルに含まれる面に過去のストリーミングフレームから抽出された画像がテクスチャとして貼り付けられてもよい。例えばストリーミングフレーム１０３１から遠い１．３人称画像１０３０の辺縁部などでは、過去のストリーミングフレーム１０３１として蓄積された画像が少なかったり、ストリーミングフレーム１０３１の表示範囲から外れてから時間が経ったために実空間の状況が変化している可能性があったり、空間モデルの精度が低かったりする可能性がある。そのような場合、周辺領域画像１０３２は、図示されているように、部分的に表示されないか、部分的にぼかして表示されてもよい。

図１０Ｂおよび図１０Ｃは、本開示の一実施形態における１．３人称画像について説明するための図である。これらの図を参照して、上述した１．３人称画像について、別の観点からさらに説明する。図１０Ｂに示されているように、１．３人称画像の視点ＣＰ２は、例えばＳＬＡＭ法などによって取得される実空間の座標系において、１人称画像の視点ＣＰ１を仮想的に後ろに移動した位置に設定される。

ここで、例えばサーバ１００のプロセッサは、視点ＣＰ２が視点ＣＰ１に追従するときの移動速度（以下、視点ＣＰ２の追従速度ともいう）に所定の上限値を設定したり、視点ＣＰ１の移動速度に１よりも小さいゲインをかけて視点ＣＰ２の追従速度を設定したりすることによって、視点ＣＰ１が急に移動した場合でも視点ＣＰ２を滑らかに追従させることができる。これによって、視点にどのような変化が生じたかを１．３人称画像を閲覧するユーザに容易に認識させることができる。

しかしながら、視点ＣＰ１によって取得されるフレームＦＲＭ、すなわち１人称画像の最新のフレームが１．３人称画像の範囲から外れてしまうと、１．３人称画像に表示される空間のコンテキストを保持することが困難になる。そこで、例えば上記のように上限値やゲインが設定されることによって視点ＣＰ２の追従速度が抑制されるような場合であっても、視点ＣＰ１の移動速度が大きいためにフレームＦＲＭの所定の割合以上の領域が１．３人称画像の範囲から外れた場合には、例えば上限値やゲインの値をより大きくして視点ＣＰ２の追従速度を上げ、フレームＦＲＭを１．３人称画像の範囲内に保つ制御が追加されてもよい。

図１０Ｃは、例えば上記のような制御が実施される場合に表示される画像の例を示す。Ａでは、１人称画像１０１０が表示されている。Ｂでは、１人称画像１０１０の視点を仮想的に後ろに移動させることによって、１．３人称画像１０３０の表示が開始される。図示された例では、このとき過去のフレーム画像はまだ蓄積されていないため、１．３人称画像１０３０のフレームＦＲＭ以外の部分には何も表示されていない。

Ｃでは、１．３人称画像１０３０が表示された状態で視点ＣＰ１が移動し、１．３人称画像の視点ＣＰ２も視点ＣＰ１に追従して移動している。ただし、上記の例のように視点ＣＰ２の追従速度が抑制されているため、１．３人称画像１０３０の表示範囲の移動はフレームＦＲＭの移動に対して少し遅れる。従って、フレームＦＲＭは、１．３人称画像１０３０の中央からは少し外れて位置している。一方、このとき、例えばＢなどで表示されていた過去のフレームＦＲＭの画像を利用して、最新のフレームＦＲＭ以外の部分にもオブジェクトが表示されている。

Ｄでは、視点ＣＰ１の移動速度が大きかったために、視点ＣＰ２が抑制された追従速度では視点ＣＰ１に追従しきれず、フレームＦＲＭの一部が１．３人称画像１０３０の表示範囲から外れている。このとき、例えばサーバ１００のプロセッサは、上限値やゲインの値をより大きくして視点ＣＰ２の追従速度を上げる。結果として、Ｅでは、フレームＦＲＭの全体が再び１．３人称画像１０３０の表示範囲に戻っている。

上述したような視点ＣＰ１の移動速度およびフレームＦＲＭの表示状態による視点ＣＰ２の追従速度の制御に加えて、例えばサーバ１００のプロセッサは、タブレット端末３００などの１．３人称画像１０３０への操作（例えばアノテーションの入力など）を取得する装置において、タッチパネルなどを介した１．３人称画像１０３０への操作が取得されている場合には、視点ＣＰ２の移動を抑制することによって１．３人称画像１０３０の表示範囲を固定させてもよい。これによって、例えば、ユーザが１．３人称画像１０３０に表示された特定の位置に対してする操作が容易になる。

また、１人称画像１０１０と１．３人称画像１０３０との表示の切り替えについて、例えば以下のような構成が可能である。まず、例えばサーバ１００のプロセッサは、カメラの視点位置が認識されていない（探索中である）場合には、１人称画像１０１０を表示させる。ここで、例えばＳＬＡＭ法などによって視点位置が認識され、トラッキングが開始された場合、プロセッサは表示される画像を１．３人称画像１０３０に切り替えてもよい。その後、例えばＳＬＡＭ法などによるトラッキングが失敗し、視点位置の探索が再開された場合には、プロセッサが表示される画像を１人称画像１０１０に戻してもよい。なお、この例における１人称画像１０１０から１．３人称画像１０３０への遷移や、１．３人称画像１０３０から１人称画像１０１０への遷移は、いずれもアニメーションを伴って表示されてもよい。

以上で説明したように、本実施形態では、受信側の装置（上記の例ではタブレット端末３００）において、送信側の装置（上記の例ではウェアラブル端末２００）の撮像部が撮像している範囲を超えて実空間を表示する画像を提供することが可能である。これによって、受信側の装置のユーザは、送信側の装置のユーザの視点にとらわれず、自由な視点で実空間の画像を共有することができる。

（応用例１）
さらに、図１０Ｄ〜図１０Ｆを参照して、本開示の一実施形態における１．３人称画像および３人称画像の例について説明する。なお、この項での説明では、１．３人称画像と３人称画像とを総称して体外離脱視点画像ともいう。

体外離脱視点画像は、過去のフレーム（１人称画像のフレーム）とリアルタイムのフレーム（最新のフレームＦＲＭ）とが配置されている仮想的な空間を、画像を閲覧するユーザがコントロールする仮想的なカメラ視点Ｍ_ｖからの映像としてレンダリングすることによって生成される。空間に配置されたフレームのレンダリングでは、ステッチングのエラーによる視覚的な不整合を軽減するために、仮想カメラの姿勢と配置されているフレームとの姿勢差分に基づいて決定される透過度でそれぞれのフレームが表示される。

空間認識が失敗された場合、Ｍ_ｖは所定の時間維持されつつ、過去のフレームは徐々に消失し、リアルタイムのフレームのみが描画更新される。所定の時間内に空間認識が復帰した場合には、過去のフレームの描画を復帰する。一方、所定の時間内に空間認識が復帰しない場合には、空間認識を初期化して再び体外離脱視点の構築を開始する。

ここで、この例において、体外離脱視点画像には大きく分けて３つのモードが設定される。以下の説明では、３つのモードを、追従モード、視点移動モード、およびポインティングモードと称するが、この名称は便宜的なものである。例えばサーバ１００のプロセッサは、画像を閲覧するユーザの操作によってこれらのモードの切替えなどを制御する。

（追従モード）
図１０Ｄに示す追従モードは、画像を閲覧するユーザＵ（以下、閲覧ユーザともいう）が特段の操作をすることなく体外離脱視点画像を閲覧している場合に設定されるモードである。仮想カメラの位置姿勢が図示されるように決定されることによって、追従モードの画像１０３０ｄが表示される。例えばＳＬＡＭ法などによって推定されたウェアラブル端末２００（送信側の装置）のカメラ２６０の姿勢・位置Ｍ_ｂｃ（ｔ）から得られる平行移動成分Ｔ_ｂｃ（ｔ）および回転成分Ｒ_ｂｃ（ｔ）のそれぞれをｋ_Ｔ，ｋ_Ｒの係数として平滑化したＴ’_ｂｃ（ｔ），Ｒ’_ｂｃ（ｔ）から、以下の式１によって平滑化されたカメラ姿勢Ｍ’_ｂｃ（ｔ）を得ることができる。

図１０Ｄに示されているように、仮想カメラの位置および姿勢Ｍ_ｖ（ｔ）は、時系列的に平滑化されたカメラ姿勢Ｍ’_ｂｃ（ｔ）から、より広い範囲が見られるように所定のオフセット量Ｔ_{ｏｆｆｓｅｔ}だけ仮想的に後方に移動した位置に、各時刻において近づくように制御される。ここで、係数ｋ_ｖが、どの程度カメラ２６０の視点に追従するかを制御するために設定される。本例では、リアルタイムのフレーム（ＦＲＭ）が画像の範囲に収まっているときには係数ｋ_ｖがより小さい値に設定され（仮想カメラはあまり動かずに空間に定位した画像を提供する）、リアルタイムのフレーム（ＦＲＭ）が画像の範囲に収まっていないときには係数ｋ_ｖがより大きな値に設定される（仮想カメラがリアルタイムのフレームを追跡する）。このような係数ｋｖを用いた制御は、例えば以下の式２のように表される。

これによって、閲覧ユーザは、カメラ２６０の動きを基にして平滑化された動きで、空間的に定位ししてステッチされた状態で、リアルタイムのフレームと過去のフレームとを同時に閲覧することができる。従って、閲覧ユーザは、カメラ２６０（を装着したユーザ）よりも空間を広く見回せるとともに、カメラ２６０（を装着したユーザ）の現在の視野の空間における位置を認識することが可能である。追従モードでは、このようなそれぞれの視野の関係がユーザの介入なしに自動的に更新されるので、例えば、閲覧ユーザ、カメラ２６０を装着したユーザともに視野の設定制御をする必要はない。

（視点移動モード）
図１０Ｅに示す視点移動モードは、例えば、画像を閲覧するユーザＵ（以下、閲覧ユーザともいう）が、ディスプレイから所定の距離以上離れてポインティング操作を実行した（図示された例ではジェスチャによってポインティング操作が実行されているが、ポインティングデバイスなどを使用したポインティング操作であってもよい）場合に設定されるモードである。視点移動モードでは、仮想カメラの位置Ｍ_ｖを移動させた画像１０３０ｅが表示されうる。

例えば、ユーザＵは、ディスプレイから所定の距離以上離れた位置で、追従モードの画像１０３０ｄに対するポインティング操作を実行する。このとき、サーバ１００のプロセッサは、ポインティング操作によって特定された画像内の位置と、追従モードにおいて表示される各フレームとのヒット判定を実行し、この結果に基づいて、ユーザＵによってポインティングされているフォーカスフレームＦＲＭ’を特定する。さらに、プロセッサは、フィーかすフレームＦＲＭ’の位置Ｍ’_ｆから所定のオフセット量Ｔ（ｄ）_{ｏｆｆｓｅｔ}だけ仮想的に後方に移動した位置に仮想カメラの新たな位置Ｍ’_ｖを設定する。これによって、仮想カメラの位置は、それまでの追従モードにおける位置Ｍ_ｖから視点移動モードにおける位置Ｍ’_ｖへと移動する。この移動は、例えばアニメーションを伴って実行されてもよい。

視点移動モードでは、最新のカメラ２６０の向きとは独立して、仮想カメラの位置を制御することができる。なお、上記のオフセットＴ（ｄ）_{ｏｆｆｓｅｔ}は、追従モードでのオフセットＴ_{ｏｆｆｓｅｔ}に比べてより大きい値に設定されてもよい。この場合、視点移動モードでは、追従モードに比べてより広い視野で周囲を観察することが可能になる。

（ポインティングモード）
図１０Ｆに示すポインティングモードは、例えば、画像を閲覧するユーザＵ（以下、閲覧ユーザともいう）が、ディスプレイから所定の距離以内でポインティング操作を実行した（図示された例ではジェスチャによってポインティング操作が実行されているが、ポインティングデバイスなどを使用したポインティング操作であってもよい）場合に設定されるモードである。ポインティングモードにおいて、仮想カメラの位置Ｍ’_ｖは、上記の視点移動モードと同様のアルゴリズムによって決定されうる。ただし、仮想カメラの位置Ｍ’_ｖは、さらに、フォーカスフレームＦＲＭ’をズームして見ることができる位置に設定されてもよい。これによって、閲覧ユーザは、フォーカスフレームＦＲＭ’をより詳細に観察することができる。このような仮想カメラの位置Ｍ’_ｖの設定の結果、閲覧ユーザには画像１０３０ｆが提供される。

さらに、ポインティングモードでは、カメラ２６０が存在する空間に対して固定されたポインティングを実行することが可能である。この場合、例えば、サーバ１００のプロセッサは、ポインティング操作によって特定された画像内の位置（２次元のポインティング座標）と、画像に含まれる空間の特徴点群Ｐ_０，Ｐ_１，・・・，Ｐ_Ｎの２次元座標とを比較し、特徴点群の中から、ポインティング座標に対して最近傍に位置する３つの特徴点Ｐ’_０，Ｐ’_１，Ｐ’_２を抽出する。プロセッサは、空間における３次元のポインティング座標を、上記の３点（Ｐ’_０，Ｐ’_１，Ｐ’_２）を含む平面上の点と仮定して、例えば以下の式３によってポインティング座標Ｐ’（ｘ，ｙ，ｚ）を算出する。

上記の式３において、ａおよびｂの値を求めれば、上記の３点を含む平面上の点を求めることができる。例えばサーバ１００のプロセッサによって実行される以上のような処理によって、閲覧ユーザは、フレームのピクセルへのポインティングではなく、フレームから認識された空間座標における３次元の点へのポインティングを実行することができる。
なお、上記の例では、ユーザＵのディスプレイからの距離に応じて視点移動モードとポインティングモードとの切替えが実行されたが、この距離は、例えばディスプレイが比較的大型である場合にはディスプレイからユーザＵの立ち位置までの距離であってもよい。また、例えば、タブレット端末やスマートフォンなどに設けられた比較的小型のディスプレイの場合には、視点移動モードとポインティングモードとの切替えに用いられる距離が、ジェスチャを実行しているユーザＵの手（指）までの距離や、ユーザＵが把持しているポインティングデバイスまでの距離として特定されてもよい。例えば、ユーザＵが手のジェスチャによってポインティング操作を開始した場合、ディスプレイから手までの距離が閾値を超えている場合には視点移動モードが選択される。その後、ディスプレイから手までの距離が閾値以下になった場合に、上述のように視点移動モードがポインティングモードに切り替えられてもよい。

（応用例２）
さらに、既に述べたように、本実施形態では実空間の位置を基準にしてアノテーションをやりとりする技術を利用することが可能である。この技術を利用すれば、タブレット端末３００（受信側の装置）のユーザは、３人称画像１０２０や１．３人称画像１０３０において表示されるストリーミングフレーム１０２１，１０３１以外の領域に対してもアノテーションを入力することができる。これによって、例えば、ウェアラブル端末２００（送信側の装置）が過去に見ていたが現在は見ていないオブジェクトや実空間内の位置に対してもアノテーションを加えることが可能である。このアノテーションは、例えば、後にストリーミングフレーム１０２１，１０３１が移動した場合に表示されてもよいし、後述する例のように、ウェアラブル端末２００において、画像１２００の外にアノテーションが存在することを示す通知が表示されてもよい。

図１１および図１２は、本開示の一実施形態において異なる視点の画像が同時に表示される例を示す図である。図１１に例示する画像１０４０では、３人称画像１０２０と１人称画像１０１０とが同時に表示されている。このとき、３人称画像１０２０では、例えば１人称画像の視点オブジェクト１０２２が強調表示されてもよい。また、図示された例では３人称画像１０２０の画面の子画面として１人称画像１０１０が表示されているが、逆に１人称画像１０１０の画面の子画面として３人称画像１０２０が表示されてもよい。

一方、図１２に例示する画像１０５０では、３人称画像１０２０と１．３人称画像１０３０とが同時に表示されている。このとき、３人称画像１０２０では、例えば１．３人称画像の視点オブジェクト１０２３が強調表示されてもよい。また、図示された例では３人称画像１０２０の画面の子画面として１．３人称画像１０３０が表示されているが、逆に１．３人称画像１０３０の画面の子画面として３人称画像１０２０が表示されてもよい。

このように、異なる視点の画像を同時に表示して受信側の装置（上記の例ではタブレット端末３００）のユーザに提供することによって、例えば、ユーザが所望する共有体験を提供する画像がどの視点からの画像であるかを容易に発見することができる。

（４．アノテーションの実空間への表示）
続いて、図１３〜図２０を参照して、本開示の一実施形態におけるアノテーションの実空間への表示について説明する。本実施形態では、上記のように、送信側の装置において送信される実空間の画像データに空間情報が付加される。空間情報は、例えば送信側の装置の撮像部の実空間における位置および姿勢を示す情報である。この情報を利用すれば、受信側の装置で入力されたアノテーションを、さまざまな形で送信側の装置がある実空間に直接的または間接的に表示させることが可能である。

なお、以下の説明では、送信側の装置、受信側の装置、およびサーバの動作について、特定の装置の例を用いて説明するが、同様の構成は、これらの例に関わらず上述したシステム１０における任意の装置の組み合わせによって実現されうる。

（４−１．表示例）
図１３は、本開示の一実施形態におけるアノテーション表示の第１の例を示す図である。図１３には、タブレット端末３００ｃとタブレット端末３００ｄとが示されている。図示された例において、タブレット端末３００ｃは、図示しないカメラ（撮像部）によって実空間の画像を撮像し、それをディスプレイ３３０ｃ（表示部）に画像１３００ｃとして表示させる。タブレット端末３００ｃのユーザは、ディスプレイ３３０ｃ上に設けられたタッチセンサ３４０（操作部）によって画像１３００ｃに対するアノテーション１３１０ｃを入力する。ここで、タブレット端末３００ｃでは、画像１３００ｃ内の位置ではなく、画像１３００ｃによってとらえられている実空間内の位置を指定してアノテーション１３１０ｃが入力される。実空間内の位置は、タブレット端末３００ｃが撮像画像とともに取得する空間情報に基づいて指定することが可能であり、例えばタブレット端末３００ｃの撮像部を基準にした相対的な位置、または空間内の特徴点などを基準とした位置として表現されうる。

一方、タブレット端末３００ｄも、図示しないカメラ（撮像部）によって実空間の画像を撮像し、それをディスプレイ３３０ｄ（表示部）に画像１３００ｄとして表示させている。図示されているように、タブレット端末３００ｃとタブレット端末３００ｄとは同じ空間にあり、タブレット端末３００ｄのカメラの画角にはタブレット端末３００ｃが含まれるため、画像１３００ｄにはタブレット端末３００ｃ’が映っている。さらに、タブレット端末３００ｃにおいて入力された画像１３００ｃに対するアノテーション１３１０ｃの情報は、サーバ１００を介して、または機器間通信によってタブレット端末３００ｄに送信されており、画像１３００ｄにおいてアノテーション１３１０ｄとして表示される。

ここで、アノテーション１３１０ｄは、タブレット端末３００ｃにおいて指定された実空間内の位置に表示される。このことは、アノテーション１３１０ｄが画像１３００ｄ内でタブレット端末３００ｃ’から離れた空中に表示されていることによって表現されている。タブレット端末３００ｄも撮像画像とともに空間情報を取得することが可能であり、取得した空間情報によって空間内でのタブレット端末３００ｃの位置、または空間内の特徴点の位置などを特定することができる。従って、タブレット端末３００ｄは、例えばタブレット端末３００ｃから取得した実空間内の位置を示す情報と、自ら取得した空間情報とに基づいてアノテーション１３１０ｄの空間内での位置を特定することができる。

なお、上記の例を、図１を参照して説明したシステム１０に対応付けると、タブレット端末３００ｃが（１）および（２）の装置として機能しており、タブレット端末３００ｄが（３）の装置として機能していることになる。上記のように、タブレット端末３００ｃにおいて入力されたアノテーション１３１０ｃの情報は機器間通信によってタブレット端末３００ｄに送信されてもよい。この場合、上記の例は、各装置がサーバを介さずに通信し、いずれかの装置において空間情報を利用した画像処理が実行されるシステム１０の変形例を示しているともいえる。

図１４は、本開示の一実施形態におけるアノテーション表示の第２の例を示す図である。図１４には、タブレット端末３００と、プロジェクタ７００（図示せず）によって画像が投影されるスクリーン（ＳＣＲＥＥＮ）とが示されている。図示された例において、タブレット端末３００は、図示しないカメラ（撮像部）によって実空間の画像を撮像し、それをディスプレイ３３０（表示部）に画像１３００として表示させる。図示されているように、タブレット端末３００のカメラの画角にはスクリーンが含まれるため、画像１３００にはスクリーン（ＳＣＲＥＥＮ’）が映っている。

タブレット端末３００のユーザは、ディスプレイ３３０上に設けられたタッチセンサ３４０（操作部）によって画像１３００に対するアノテーション１３１０を入力する。図示された例において、アノテーション１３１０は、スクリーン（ＳＣＲＥＥＮ’）上に描かれる落書きである。アノテーション１３１０は、例えばタブレット端末３００が撮像画像とともに取得する空間情報に基づいて、実空間におけるスクリーン（ＳＣＲＥＥＮ）上の位置に関連付けられる。タブレット端末３００において入力されたアノテーション１３１０の情報は、実空間の位置情報（スクリーンの位置を示す）とともに、サーバ１００を介して、または機器間通信によってプロジェクタ７００に送信される。

プロジェクタ７００は、撮像画像は取得しないが、タブレット端末３００と同様に空間情報を取得しており、スクリーン（ＳＣＲＥＥＮ）の実空間における位置を認識している。従って、プロジェクタ７００は、タブレット端末３００においてアノテーション１３１０として入力されたのと同様のアノテーション１７１０（落書き）をスクリーン（ＳＣＲＥＥＮ）に投影することができる。この場合、プロジェクタ７００は、タブレット端末３００でディスプレイ３３０に表示されている画像１３００（仮想空間）に対して入力されたアノテーションを、に投影することによって実空間に直接的に表示させているともいえる。

図１５には、本開示の一実施形態におけるアノテーション表示の第３の例を示す図である。図１５には、タブレット端末３００と、ラップトップＰＣ５００とが示されている。図示された例において、タブレット端末３００は、図示しないカメラ（撮像部）によって実空間の画像を撮像し、それをディスプレイ３３０（表示部）に画像１３００として表示させる。図示されているように、タブレット端末３００のカメラの画角にはラップトップＰＣ５００のディスプレイ５３０（表示部）が含まれるため、画像１３００にはディスプレイ５３０’が映っている。

タブレット端末３００のユーザは、ディスプレイ３３０上に設けられたタッチセンサ３４０（操作部）によって画像１３００に対するアノテーション１３１０を入力する。図示された例において、アノテーション１３１０は、ディスプレイ５３０’上に表示されたコンテンツのサムネイル画像の１つを囲む円である。アノテーション１３１０は、例えばタブレット端末３００が撮像画像とともに取得する空間情報に基づいて、実空間におけるディスプレイ５３０の位置に関連付けられる。タブレット端末３００において入力されたアノテーション１３１０の情報は、実空間の位置情報（ディスプレイ５３０の位置を示す）とともに、サーバ１００を介して、または機器間通信によってラップトップＰＣ５００に送信される。

ラップトップＰＣ５００は、撮像画像は取得しないが、タブレット端末３００と同様に空間情報を取得しており、実空間におけるディスプレイ５３０の位置を認識している。従って、ラップトップＰＣ５００は、タブレット端末３００において入力されたアノテーション１３１０に対応して、アノテーション１３１０として入力されたのと同様のアノテーション１５１０（サムネイル画像の１つを囲む円）をディスプレイ５３０に表示させることができる。この場合、ラップトップＰＣ５００は、タブレット端末３００でディスプレイ３３０に表示されている画像１３００（仮想空間）に対して入力されたアノテーションを、実空間の一部を構成するディスプレイ５３０に表示させることによって実空間に直接的に表示させているといえる。

図１６は、本開示の一実施形態におけるアノテーション表示の第４の例を示す図である。図１６には、ウェアラブル端末２００と、タブレット端末３００と、プロジェクタ７００とが示されている。図示された例において、ウェアラブル端末２００は、カメラ２６０（撮像部）によって実空間の画像を撮像するとともに空間情報を取得し、撮像画像のデータを空間情報とともにサーバ１００を介してタブレット端末３００に送信する。ここで、タブレット端末３００は、例えばウェアラブル端末２００およびプロジェクタ７００とは異なる場所に存在してもよい。

タブレット端末３００は、受信した画像をディスプレイ３３０（表示部）に画像１３００として表示させる。図示されているように、画像１３００には、ウェアラブル端末２００と同じ空間にあるテーブルと、テーブルの上のカップ、皿、鍵（ＫＥＹ’）が含まれる。タブレット端末３００のユーザは、ディスプレイ３３０上に設けられたタッチセンサ３４０（操作部）によって画像１３００に対するアノテーション１３１０を入力する。図示された例において、アノテーション１３１０は、鍵（ＫＥＹ’）を囲む円と、「Please bring this（これをもってきて）」というメッセージとを含む。アノテーション１３１０は、ウェアラブル端末２００から画像とともに受信された空間情報に基づいて、実空間における鍵（ＫＥＹ）の位置に関連付けられる。タブレット端末３００において入力されたアノテーション１３１０の情報は、実空間の位置情報（例えば鍵（ＫＥＹ）の位置を示す）とともに、サーバ１００を介してプロジェクタ７００に送信される。

プロジェクタ７００は、撮像画像は取得しないが、ウェアラブル端末２００と同様に空間情報を取得しており、画像が投影される面（図示された例では例えばテーブルの表面）の実空間における位置を認識している。従って、プロジェクタ７００は、タブレット端末３００においてアノテーション１３１０として入力されたのと同様のアノテーション１７１０（円およびメッセージ）を、テーブルの上の鍵（ＫＥＹ）の周りに投影することができる。これによって、ウェアラブル端末２００のユーザは、テーブルの表面に投影されたアノテーション１７１０を直接視認することができうる。従って、この場合、ウェアラブル端末２００は、ディスプレイなどの表示部を有さなくてもよい。

上記の例では、ウェアラブル端末２００において撮像された実空間の画像に付加された空間情報に基づいて特定される実空間の位置情報を基準にすることによって、タブレット端末３００において入力されたアノテーションを、画像を撮影した装置とは異なる装置であるプロジェクタ７００によって実空間に表示させることが可能になる。このような構成よって、例えばウェアラブル端末２００が必ずしもディスプレイなどの表示部を有さなくてもよくなり、ＡＲ技術を利用したユーザ間のインタラクションを実践するにあたっての装置構成の自由度が向上しうる。

図１７は、本開示の一実施形態におけるアノテーション表示の第５の例を示す図である。図１７には、固定カメラ６００と、タブレット端末３００と、プロジェクタ７００とが示されている。なお、プロジェクタ７００は、これまでの例で示された固定型のものとは異なり、ハンドヘルド型でありうる。図示された例において、固定カメラ６００は、カメラ６６０（撮像部）によって実空間の画像を撮像するとともに空間情報を取得し、撮像画像のデータを空間情報とともにサーバ１００を介してタブレット端末３００に送信する。ここで、タブレット端末３００は、例えば固定カメラ６００およびプロジェクタ７００とは異なる場所に存在してもよい。

なお、固定カメラ６００は移動しないため、固定カメラ６００における空間情報は上記の例えばウェアラブル端末２００などの場合とは異なる方法で取得されてもよい。例えば、固定カメラ６００における空間情報は、設置時などに周辺環境を計測して設定された固定の情報であってもよい。この場合、固定カメラ６００は、メモリに格納された空間情報を有するほかは、空間情報の取得のためのセンサなどは有さなくてもよい。このような空間情報の取得は、他の固定型の装置においても可能である。

タブレット端末３００は、受信した画像をディスプレイ３３０（表示部）に画像１３００として表示させる。図示されているように、画像１３００には、固定カメラ６００の下にあるテーブルと、テーブルの上の鍵（ＫＥＹ’）が含まれる。タブレット端末３００のユーザは、ディスプレイ３３０上に設けられたタッチセンサ３４０（操作部）によって画像１３００に対するアノテーション１３１０を入力する。図示された例において、アノテーション１３１０は、鍵（ＫＥＹ’）を囲む円を含む。アノテーション１３１０は、固定カメラ６００から画像とともに受信された空間情報に基づいて、実空間における鍵（ＫＥＹ）の位置に関連付けられる。タブレット端末３００において入力されたアノテーション１３１０の情報は、実空間の位置情報（例えば鍵（ＫＥＹ）の位置を示す）とともに、サーバ１００を介してプロジェクタ７００に送信される。

プロジェクタ７００は、撮像画像は取得しないが（してもよい）、空間情報を取得しており、画像が投影される面（図示された例では例えばテーブルの表面）の実空間における位置を認識している。従って、プロジェクタ７００は、タブレット端末１３１０においてアノテーション１３１０として入力されたのと同様のアノテーション１７１０（円）を、テーブルの上の鍵（ＫＥＹ）の周りに投影することができる。なお、プロジェクタ７００はハンドヘルド型であり、ユーザに携帯されて容易に移動することが可能である。従って、プロジェクタ７００における空間情報の取得方法は、例えばウェアラブル端末２００などの携帯型の端末と同様でありうる。

上記の例では、固定カメラ６００において撮像された実空間の画像に付加された空間情報に基づいて特定される実空間の位置情報を基準にすることによって、タブレット端末３００において入力されたアノテーションが、画像を撮像した装置とは異なる装置であるプロジェクタ７００によって実空間に直接的に表示される。この例において、プロジェクタ７００はハンドヘルド型であり、ユーザに携帯されて実空間内の任意の位置に画像を投影することが可能である。それゆえ、例えば、ユーザは、あたかも懐中電灯を用いて暗闇の中を探索するかのように、プロジェクタ７００で実空間内のいろいろな場所に画像を投影させることによって、タブレット端末３００のユーザが入力したアノテーションによってよって指示されたオブジェクトまたは位置を探索することができる。この場合、ユーザは、ウェアラブル端末２００のような装置を装着する必要すらなく、より自由にＡＲ技術を利用したユーザ間のインタラクションを実践することができる。

図１８は、本開示の一実施形態におけるアノテーション表示の第６の例を示す図である。図１８の例は、上記で図１６を参照して説明した例の変形例ともいえる。図には、ウェアラブル端末２００と、タブレット端末３００とが示されている。図示された例において、ウェアラブル端末２００は、カメラ２６０（撮像部）によって実空間の画像を撮像するとともに空間情報を取得し、撮像画像のデータを空間情報とともにサーバ１００を介して、ウェアラブル端末２００およびタブレット端末３００とは異なる場所にある装置に送信する。なお、図では送信先の装置は図示されていない。

タブレット端末３００は、上記送信先の装置において入力されたアノテーションの情報をサーバ１００から受信する。タブレット端末３００は、ウェアラブル端末２００と同じ空間にあるテーブルの上に置かれている。タブレット端末３００は、撮像画像を取得していないが（撮像部自体は有していてもよい）、ウェアラブル端末２００と同様に空間情報を取得しており、実空間におけるディスプレイ３３０の位置を認識している。図示された例において、テーブルの上に置かれたタブレット端末３００のディスプレイ３３０には、隣にある鍵（ＫＥＹ）を指す矢印１３１０が表示されている。この矢印は、上記送信先の装置において、画像に表示された鍵に対して入力されたアノテーションに対応する表示でありうる。

（４−２．アノテーションの配置）
図１９は、本開示の一実施形態におけるアノテーションの配置について説明するための図である。図１９に示されたウェアラブル端末２００は、カメラ２６０（撮像部）で撮像した実空間の画像を空間情報とともにサーバ１００に送信する。さらに、ウェアラブル端末２００は、送信した画像に対して他の装置で入力されたアノテーションの情報を実空間の位置情報とともに受信し、受信した情報に基づいて、ディスプレイ２３０（表示部）を透過して視認される実空間の像に重畳してアノテーション１２１０を表示させる。なお、アノテーション１２１０は、実空間の像に重畳して仮想的に表示された結果ウェアラブル端末２００のユーザに認識される位置に図示されている。つまり、図示されたようなアノテーション１２１０は、ウェアラブル端末２００のユーザ以外には不可視である。

アノテーション１２１０は、テーブルの上にある鍵（ＫＥＹ）を指して表示されるが、図ではその２つの例が示されている。ここでいう２つの例とは、空間配置されるアノテーション１２１０ａ、およびオブジェクト配置されるアノテーション１２１０ｂである。

図示された例において、アノテーション１２１０ａは、鍵（ＫＥＹ）の上方の空中に表示される。このようなアノテーションの空間配置は、画像を視認するユーザの注意を惹きやすいため、例えばアノテーションによって方向を指示したい場合などに適する。また、例えば写真の撮影アングルなどを表現したい場合、写真撮影時にカメラが配置されていた位置は空中であることが多いので（カメラは通常ユーザに把持されるか三脚などの上に設置されるため）、アノテーションの空間配置は有用でありうる。なお、上記のアノテーションの空間配置は、例えばアノテーションがディスプレイに画像として表示される場合に可能でありうる他、例えば上記の図１６および図１７の例のようにアノテーションがプロジェクタによって投影して表示される場合にも、例えばプロジェクタが３Ｄプロジェクタであれば可能である。

一方、アノテーション１２１０ｂは、鍵（ＫＥＹ）が置かれたテーブルの上で、鍵（ＫＥＹ）の近傍に表示される。このようなアノテーションのオブジェクト配置は、アノテーションの対象になっているオブジェクトとの関係が認識されやすいため、例えばアノテーションによってオブジェクトを指示したい場合などに適する。なお、アノテーションをオブジェクト配置する場合、対象となるオブジェクトを特定するために、ＳＬＡＭ法などによって検出された特徴点や、デンスマッピングの３次元データなどが用いられうる。あるいは、公知のオブジェクト認識技術によって個々のオブジェクトが認識されている場合、それらのオブジェクトの中から対象となるオブジェクトが特定されてもよい。オブジェクトが認識されている場合、例えばオブジェクトが（ユーザの手で移動されるなどして）空間とは独立して移動したような場合でも、オブジェクトを追尾してアノテーションを配置することが可能である。

アノテーション入力を受け付ける装置（以下、例としてタブレット端末３００とするが、他の装置であってもよい）では、上記のようなアノテーションの空間配置とオブジェクト配置とが、何らかの方法で選択される。例えば、タブレット端末３００またはサーバ１００のプロセッサが、ユーザが入力しようとしているアノテーションの種類に応じて空間配置またはオブジェクト配置を自動的に初期設定してもよい。上記のように、方向の指示や撮影アングルの表示の場合には空間配置が自動的に選択され、オブジェクトの指示の場合にはオブジェクト配置が自動的に選択されうる。また、アノテーションの配置は、装置の操作部に対するユーザの操作によって選択可能であってもよい。

例えば、図２０に示した例のように、タブレット端末３００のディスプレイ３３０に表示された画像１３００に対してタッチセンサ３４０を用いてアノテーション１３１０を入力する場合、空間配置されたアノテーション１３１０ａとオブジェクト配置されたアノテーション１３１０ｂとが両方表示され、ユーザがタッチ操作によっていずれかを選択するＧＵＩ（Graphical User Interface）が提供されてもよい。

例えばこのようなＧＵＩによってアノテーション１３１０の配置を切り替える場合、アノテーション１３１０が空間配置によって空中に表示されているのか、オブジェクト配置によってその奥のオブジェクトの面に表示されているのかが識別しにくい場合がある。そのような場合のために、例えば、空間配置されたアノテーション１３１０ａについては、画像１３００に映った実空間の上方を光源として影を表示させることによって、空中に配置されていることを識別しやすくしてもよい。同様の表示として、空間配置されたアノテーション１３１０から、その下のオブジェクトの面までの垂線を表示してもよい。また、アノテーション１３１０の奥行き方向の位置を認識しやすくするために、画像１３００の奥行き方向にグリッドを表示してもよい。アノテーション１３１０の奥行き方向の位置の調整には、タッチセンサ３４０を利用したピンチイン／アウトや、別途設けられる手前／奥への移動ボタンが用いられてもよい。また、タブレット端末３００のセンサがタブレット端末３００自体をユーザから見て手前／奥に動かす動きを検出して、プロセッサがその動きをアノテーション１３１０の奥行き方向の位置に反映されてもよい。

（５．視認可能範囲外にあるアノテーションの表示）
続いて、図２１〜図３２を参照して、本開示の一実施形態における視認可能範囲外にあるアノテーションの表示について説明する。本実施形態では、上記のように、送信側の装置において送信される実空間の画像データに空間情報が付加される。この空間情報を利用すれば、受信側の装置では、送信側の装置で表示されている画像の表示範囲に関わらず、実空間の任意の位置に対してアノテーションを入力することが可能である。

例えば、上述した図３Ａおよび図３Ｂの例では、ウェアラブル端末２００（送信側の装置）でディスプレイ２３０（表示部）に表示される画像１２００の表示範囲よりも、カメラ２６０（撮像部）によって撮像されてタブレット端末３００（受信側の装置）において表示される画像１３００の表示範囲の方が広い。このような場合、タブレット端末３００では、現時点ではウェアラブル端末２００で表示される画像１２００の表示範囲に含まれていない実空間の位置に対してもアノテーション１３１０，１３２０を入力することが可能である。入力されたアノテーションは、ウェアラブル端末２００で取得された空間情報に基づいて定義される実空間での位置情報に関連付けてタブレット端末３００、サーバ１００またはウェアラブル端末２００で保持され、後にウェアラブル端末２００とともにカメラ２６０が移動したことによってその位置が画像１２００の表示範囲内になった場合に、画像１２００にアノテーション１２１０，１２２０として表示されうる。

また、例えば、上述した図７〜図１０Ｃの例では、３人称画像１０２０または１．３人称画像１０３０として、送信側の装置で視認されている１人称画像１０１０を超えた範囲の画像が表示され、受信側の装置でこれらの画像を閲覧するユーザは、１人称画像１０１０の表示範囲の外にある実空間に対してもアノテーションを入力することが可能である。この場合も、入力されたアノテーションは、送信側の装置で取得された空間情報に基づいて定義される実空間での位置情報に関連付けて保持され、後に１人称画像１０１０の表示範囲が移動してその位置を含むようになった場合に表示されうる。

上記のような場合、例えば送信側の装置（以下、例としてウェアラブル端末２００とする）のユーザがアノテーションの存在を知らなければ、アノテーションが画像１２００の表示範囲に含まれることなく時間が経過してしまう可能性がある。ＡＲ技術を利用したユーザ間のインタラクションでは、多くのアノテーションは受信側の装置（以下、例としてタブレット端末３００とする）のユーザがウェアラブル端末２００のユーザに何かを伝えるために入力すると考えられるため、アノテーションの存在はウェアラブル端末２００のユーザに知らされる方が望ましい。

そこで、本実施形態では、以下の例に示すように、視認可能範囲外にあるアノテーションに関する情報が表示されうる。これらの情報の表示もまたアノテーションの一種であるが、以下の説明では、受信側の装置のユーザによって入力されたものを特にアノテーションと呼んで区別する場合がある。これらの表示のための表示制御は、例えばアノテーションを表示させる装置（例えばウェアラブル端末２００やタブレット端末３００など）のプロセッサで実行されてもよいし、これらの装置における視認可能範囲外を認識しているサーバ１００のプロセッサによって実行されてもよい。なお、以下の例は、例えば上述したさまざまな例とは独立して、実空間の画像の視認可能範囲外にアノテーションが入力される可能性がある場合には遍く適用されうる。

（第１の例）
図２１〜図２３は、本開示の一実施形態における視認可能範囲外にあるアノテーションの表示の第１の例を示す図である。

図２１は、アノテーションが画像１２００（視認可能範囲）の中にある場合の表示例を示す。この場合、アノテーションは、テーブルの上に置かれたカップ（ＣＵＰ）を対象として表示され、ポインタ１２１０と、コメント１２２０とを含む。

図２２は、アノテーションの対象であるカップ（ＣＵＰ）が画像１２００の外にある場合の表示例を示す。この場合、図２１に示したようなアノテーションの代わりに、アノテーションの対象が存在する方向を示す方向表示１２３０が表示されうる。方向表示１２３０は、例えば、ウェアラブル端末２００が取得している空間情報に基づいて、画像１２００の表示範囲とアノテーションの対象との位置関係を特定することによって表示可能になる。また、このとき、アノテーションのうちのコメント１２２０が、方向表示１２３０とともに表示されてもよい。コメント１２２０は、アノテーションの内容または種類などを示す情報であるため、ポインタ１２１０ではなく方向表示１２３０とともに表示されても有用である。

図２３は、ウェアラブル端末２００のユーザが方向表示１２３０に応じてカメラ２６０の向きを変えたことなどによって画像１２００の表示範囲が移動し、アノテーションの対象であるカップ（ＣＵＰ）の一部が画像１２００に含まれるようになった場合の表示例を示す。この場合、対象の全部が画像１２００に含まれていなくても、ポインタ１２１０の一部とコメント１２２０とがアノテーションとして表示されてもよい。

（第２の例）
図２４および図２５は、本開示の一実施形態における視認可能範囲外にあるアノテーションの表示の第２の例を示す図である。この第２の例では、視認可能範囲外にアノテーションの対象が存在することに加えて、アノテーションの対象までの距離が表示される。

図２４は、視認可能範囲からアノテーションの対象までの距離が異なる２つの画像に対する表示の例を示す図である。この例では、視認可能範囲外にアノテーションが存在することが、円１２４０によって表示される。円１２４０は、図２５にも示すように、アノテーションの対象から視認可能範囲までの距離に応じた半径で表示される。図２５Ａに示されるように、アノテーションの対象から視認可能範囲（画像１２００ａ）までの距離が大きい場合、より大きい半径ｒ_１の円１２４０ａが表示される。また、図２５Ｂに示されるように、アノテーションの対象から視認可能範囲（画像１２００ｂ）までの距離が小さい場合、より小さい半径ｒ_２の円１２４０ｂが表示される。円１２４０の半径ｒは、アノテーションの対象までの距離に応じて連続的に設定されてもよいし、段階的に設定されてもよい。また、図２４に示されるように、円１２４０とともに、アノテーションのうちのコメント１２２０が表示されてもよい。

このように円１２４０を表示することによって、例えば、画像１２００を見ているユーザが、視認可能範囲外にアノテーションが存在することだけではなく、画像１２００の表示範囲をどの方向にどの程度移動させればアノテーションを視認することができるかを直感的に把握することができうる。

（第３の例）
図２６および図２７は、本開示の一実施形態における視認可能範囲外にあるアノテーションの表示の第３の例を示す図である。

図２６は、アノテーションの対象であるリンゴ（ＡＰＰＬＥ）が画像１２００の外にある場合の表示例を示す。この場合、図２２の例と同様の方向表示１２５０とともに、対象のアイコン１２５１が表示されうる。アイコン１２５１は、例えば現在または過去においてカメラ２６０が撮像した画像にリンゴ（ＡＰＰＬＥ）が含まれる場合、サーバ１００またはウェアラブル端末２００のプロセッサがカメラ２６０によって撮像された画像からリンゴＡＰＰＬＥの部分を切り出すことによって生成されうる。この場合、アイコン１２５１は、カメラ２６０が取得するフレーム画像の変化に応じて変化する必要はなく、例えば静止画であってよい。あるいは、リンゴＡＰＰＬＥがオブジェクト認識されている場合であれば、カメラ２６０が撮像した画像に関係なく、リンゴを表すイラストや写真がアイコン１２５１として表示されてもよい。また、このとき、アノテーションのうちのコメント１２２０が、方向表示１２５０およびアイコン１２５１とともに表示されてもよい。

図２７は、ウェアラブル端末２００のユーザが方向表示１２３０に応じてカメラ２６０の向きを変えたことなどによって画像１２００の表示範囲が移動し、アノテーションの対象であるリンゴ（ＡＰＰＬＥ）の一部が画像１２００に含まれるようになった場合の表示例を示す。この場合、方向表示１２５０およびアイコン１２５１の表示が終了し、図２３の例と同様にポインタ１２１０の一部とコメント１２２０とがアノテーションとして表示されてもよい。

このようにアイコン１２５１を表示することによって、例えば、画像１２００を見ているユーザが、視認可能範囲外にアノテーションが存在することだけではなく、アノテーションの対象が何であるかを把握することができ、すぐに見るか、後で見るかといった行動の決定が容易になりうる。

（第４の例）
図２８は、本開示の一実施形態における視認可能範囲外にあるアノテーションの表示の第４の例を示す図である。図示された例では、アノテーションの対象であるリンゴ（ＡＰＰＬＥ）が画像１２００の外にある場合に、リンゴにより近い画像１２００の端部分１２６０が光る。例えば、画像１２００ａでは、リンゴが画面の右下の方向にあるため、右下の端部分１２６０ａが光る。また、画像１２００ｂでは、リンゴが画面の左上の方向にあるため、左上の端部分１２６０ｂが光る。画像１２００ｃでは、リンゴが画面の左下の方向にあるため、左下の端部分１２６０ｃが光る。

上記の例において、端部分１２６０の領域は、画像１２００からみてアノテーションの対象が存在する方向に基づいて設定されうる。図には斜め方向の例が示されているが、他の例では、リンゴが画像１２００の左方向にある場合に、左の端部分１２６０が光ってもよい。この場合、端部分１２６０は、画像１２００の左側の辺の全体であってもよい。また、アノテーションの対象が斜め方向に存在し、画像１２００の角を含む端部分１２６０が光る場合、角を挟んだ端部分１２６０の縦部分と横部分の比率は、アノテーションの対象が存在する方向の角度に応じて設定されてもよい。この場合、例えば、より上に近い左上に対象が存在すれば端部分１２６０の縦部分（画像１２００の左辺に沿う）よりも横部分（画像１２００の上辺に沿う）が長くなりうる。逆に、より左に近い左上に対象が存在すれば端部分１２６０の横部分（画像１２００の上辺に沿う）よりも縦部分（画像１２００の左辺に沿う）が長くなりうる。また、別の例において、端部分１２６０は光る代わりに所定の色（透過色でありうる）で着色されてもよい。

このように、端部分１２６０の表示の変化によって視認可能範囲外にアノテーションが存在することを通知する場合、例えば矢印などによる別途の方向表示をしなくてもよいため、画像１２００の表示を邪魔することなくアノテーションの存在を通知することができる。

（第５の例）
図２９は、本開示の一実施形態における視認可能範囲外にあるアノテーションの表示の第５の例を示す図である。図示された例では、アノテーションとしてコメント１２２０が表示されている。しかし、コメント１２２０は横に長いため、画像１２００には表示しきれていない。図では、これによって生じる非表示部分１２２１も示されている。この場合のコメント１２２０の非表示部分１２２１も、視認可能範囲外にあるアノテーションであるといえる。この非表示部分１２２１の存在を示すために、コメント１２２０が画像１２００の端部に当接した部分に発光領域１２８０が表示される。

ここで、発光領域１２８０の長さは、非表示部分１２２１の長さ（例えば長さ方向のピクセル数などで表現されてもよく、コメント１２２０の表示部分との比率や他の非表示部分１２２１との比率によって表現されてもよい）に応じて設定されうる。図示された例では、コメント１２２０ａの非表示部分１２２１ａについて発光領域１２８０ａが表示され、コメント１２２０ｂの非表示部分１２２１ｂについて発光領域１２８０ｂが表示されるが、非表示部分１２２１ａよりも非表示部分１２２１ｂの方が長いことを反映して、発光領域１２８０ａよりも発光領域１２８０ｂの方が長く表示されてもよい。

このように、発光領域１２８０の表示によって視認可能範囲外にアノテーションが存在することを通知する場合、アノテーションであるコメント１２２０の内部で表示を完結させることができるため、画像１２００の表示を邪魔することなくアノテーションの存在を通知することができる。また、非表示部分１２２１の長さに応じて発光領域１２８０の長さが設定される場合、コメント１２２０が全体としてどのくらいの長さであるかがユーザに直感的に把握されるため、すぐに見るか、後で見るかといった行動の決定が容易になる。なお、コメント１２２０の非表示部分１２２１を画像１２００の表示に含めようとする場合、例えば画像１２００の表示範囲を移動させてもよいし、あるいはコメント１２２０を画像１２００の内側（図示された例のコメント１２２０ａであれば左側、コメント１２２０ｂであれば右側）にドラッグしてもよい。

（第６の例）
図３０は、本開示の一実施形態における視認可能範囲外にあるアノテーションの表示の第６の例を示す図である。図示された例では、道案内で方向を示す矢印のアノテーション１２１０が表示されている。このアノテーション１２１０は、例えばユーザが画像１２００ｂを見ている場合には視認可能であるが、画像１２００ａを見ている場合には視認可能ではない。そこで、ユーザが画像１２００ａを見ている場合には、アノテーション１２１０の影１２９０が表示されうる。影１２９０が表示されることによって、画像１２００ａを見ているユーザは、画面の上方の外にアノテーションが存在することを認識することができる。

その後、ユーザが画像１２００ｂを見るようになった場合、影１２９０の表示は終了してもよいし、継続されてもよい。影１２９０がアノテーション１２１０とともに継続して表示される場合、影１２９０が表示されることによって、ユーザは空中に配置されたアノテーション１２１０の奥行き方向の位置を認識することが容易になりうる。

このように影１２９０を表示することによって、仮想的な光源の方向による制約はあるものの、違和感のない表示によってユーザにアノテーションの存在を通知することができる。

（応用例）
図３１および図３２は、本開示の一実施形態における視認可能範囲外にあるアノテーションの表示の応用例を示す図である。図示された例では、ウェアラブル端末２００のユーザが見ている画像１２００が画像１２００ａから画像１２００ｂ、さらに画像１２００ｃへと変化する中で、アノテーションの表示が変化する。画像１２００には、アノテーションとして、ポインタ１２１０と、方向表示１２３０と、コメント１２２０とが表示される。

なお、ポインタ１２１０は、上記のいくつかの例とは異なり、例えばユーザの注視領域を示すアイコンとして画像１２００の中央付近に継続して表示される。ウェアラブル端末２００のユーザは、例えばタブレット端末３００のユーザによって入力されたアノテーションの対象（図示された例では鍋（ＰＡＮ））がポインタ１２１０に入るように、方向表示１２３０によって誘導される。

画像１２００ａおよび画像１２００ｂでは、鍋（ＰＡＮ）がユーザの視認可能範囲外にあるため、鍋のある方向を示す方向表示１２３０ａおよび方向表示１２３０ｂが表示される。ユーザが方向表示１２３０に従って画像１２００の表示範囲を移動させ、画像１２００ｃで鍋を表示範囲に捉え、さらにポインタ１２１０の中に鍋を入れると、そこで初めてコメント１２２０が表示される。このときの画像１２００ｃを、図３２に別途示す。

このような表示の変化は、アノテーションの対象である鍋（ＰＡＮ）がポインタ１２１０の中に入ったことによって、ウェアラブル端末２００のユーザが鍋に対するアノテーションを確認できる状態になったと判断されるために生じる。このように、確認が必要とされるアノテーションについては、アノテーションの対象がユーザの注視領域（またはフォーカス領域）に入った場合に確認可能な状態になったと認定してアノテーションの全体を表示することとし、それまでは方向表示１２３０などによって対象を注視領域（またはフォーカス領域）に入れるようユーザを誘導し続けてもよい。

なお、ユーザがアノテーションを確認可能な状態になったことは、単にアノテーションの対象が注視領域（またはフォーカス領域）に入ったことだけではなく、その状態で所定の時間が経過したことによって認定されてもよい。

（６．その他の表示例）
続いて、図３３〜図３５を参照して、本開示の一実施形態におけるその他の表示例について説明する。

図３３は、本開示の一実施形態におけるエッジ検出を利用したアノテーション対象物体の表示例を示す図である。図示された例では、車（ＶＥＨＩＣＬＥ）を対象にしてアノテーション１２１０が入力されている。画像１２００では、アノテーション１２１０が表示されるとともに、車のエッジに光るエフェクト１２８５が表示される。このような表示は、例えば、ウェアラブル端末２００での空間情報の生成処理によって、特徴点の解析などによって車（ＶＥＨＩＣＬＥ）のエッジが検出されている場合に可能である。

エッジを基準にしてエフェクト１２８５を表示させることによって、例えば対象のオブジェクトが認識されておらず「この辺り」という位置の指定によってアノテーションが入力された場合にも、アノテーションの対象を表現することができる。対象のオブジェクトが認識されている場合には、そのオブジェクトのエッジについてエフェクト１２８５を表示させてもよい。

図３４および図３５は、本開示の一実施形態におけるストリーミングフレームのロールバック表示の例を示す図である。この例では、図３４に示されるように、ウェアラブル端末２００（送信側の装置の例）のユーザが見ている画像１２００が、画像１２００ｐから画像１２００ｑ、画像１２００ｒ、画像１２００ｓへと変化する。これらの画像は、いずれもストリーミングフレームとして順次サーバ１００を介してタブレット端末３００（受信側の装置の例）に送信される。

タブレット端末３００のユーザは、上記の各画像に対してアノテーションを入力することができる。図示された例では、画像１２００ｐに対してアノテーション１２１０ｐ（コメントＡ）が、画像１２００ｑに対してアノテーション１２１０ｑ（コメントＢ）が、それぞれ入力されている。これらのアノテーションは、リアルタイムで画像１２００に表示されてもよいし、例えば画像１２００の表示範囲が移動したなどの理由によってリアルタイムでは画像１２００に表示されていなくてもよい。

ここで、図示された例では、上記のようにアノテーションが入力されたストリーミングフレームを、図３５に示すような一覧表示画面１２０５で後から閲覧することが可能である。一覧表示画面１２０５は、アノテーションが入力されたストリーミングフレーム、つまり画像１２００ｐ，１２００ｑが一覧表示される。画像１２００ｐ，１２００ｑには、例えばリアルタイムで表示されなかった（されていてもよい）アノテーション１２１０ｐ，１２１０ｑがそれぞれ表示されうる。このような表示は、例えばサーバ１００が画像１２００ｐに対するアノテーション１２１０ｐの入力があったことを検出した場合に、ストリーミングフレームの中で画像１２００ｐをスナップショットとして保存するとともにアノテーション１２１０ｐの情報を関連付けることによって可能になりうる。

また、別の例として、一覧表示画面１２０５に代えて、画像１２００に、画像１２００ｐまたは画像１２００ｑが取得された位置（つまり、画像１２００の表示範囲が再び画像１２００ｐまたは画像１２００ｑと同じになる位置）までウェアラブル端末２００のユーザを誘導するようなナビゲーションが表示されてもよい。この場合も、ユーザがナビゲーションに従って画像１２００ｐ，１２００ｑと同様の画像１２００を視認した場合には、画像１２００にアノテーション１２１０ｐまたはアノテーション１２１０ｑが表示されてもよい。

（７．アプリケーションの例）
続いて、図３６〜図４４を参照して、本開示の一実施形態を利用したアプリケーションの例について説明する。

図３６は、本開示の一実施形態に係る技術を利用して旅行者の視点を共有するアプリケーションの例を示す図である。例えばウェアラブル端末２００などの送信側の装置を装着して旅行先の実空間の画像を提供するのは一般の旅行者でありうる（専門のレポーターであってもよい）。例えばタブレット端末３００などの受信側の装置を用いて提供された画像１３００を閲覧するユーザは、例えば画像全体に対して、または画像の中の特定のオブジェクトや位置に対してコメント１３２０（アノテーションの一例）を入力することが可能である。入力されたコメント１３２０は、ウェアラブル端末２００のディスプレイに表示されて旅行者に対してリクエストやアドバイスなどを伝えるのに用いられてもよい。あるいは、コメント１３２０は、図示されているようにタブレット端末３００の画像１３００に表示されてもよい。この場合、例えば、複数のユーザがそれぞれ入力したコメント１３２０がいずれも画像１３００上に表示されることによって、旅行者の視点を共有しているユーザ間でのコミュニケーションが発生してもよい。

図３７は、本開示の一実施形態に係る技術を利用して登山者の視点を共有するアプリケーションの例を示す図である。図３６の例と同様に、例えばウェアラブル端末２００などを装着して実空間の画像を提供するのは一般の登山者でありうる（専門のレポーターであってもよい）。例えばタブレット端末３００などを用いて提供された画像１３００を閲覧するユーザは、例えば画像全体に対して、または画像の中の特定のオブジェクトや位置に対してコメント１３２０（アノテーションの一例）を入力することが可能である。また、アノテーションの入力とは別に、画像１３００を閲覧するユーザは、画像１３００をキャプチャして写真のように保存してもよい。上記の例と同様に、入力されたコメント１３２０は、登山者に対してアドバイスなどを伝えたり、登山者の視点を共有しているユーザ間でのコミュニケーションに用いられたりしてもよい。

図３８は、本開示の一実施形態に係る技術を利用して料理をする人の視点を共有するアプリケーションの例を示す図である。例えばウェアラブル端末２００などを装着して旅行先の実空間の画像を提供するのは、例えば料理が得意な一般のユーザでありうる（料理の先生であってもよい）。例えばタブレット端末３００などを用いて提供される画像１３００を閲覧するユーザは、例えば画像全体に対して、または画像の中の特定の位置に対してコメント１３２０を入力することができる。コメント１３２０は、例えばウェアラブル端末２００のディスプレイに表示されて、先生役のユーザに質問などを伝えるのに用いられうる。コメント１３２０を、画像１３００内の位置ではなくウェアラブル端末２００の周囲の実空間の位置に関連付けることによって、例えば特定の材料や器具（図示された例では、鍋の中身を混ぜるおたまがもっと小さいものでもよいかという質問がされている）についてコメント１３２０が入力された場合に、ウェアラブル端末２００の移動によって画像の表示範囲が変化していても、コメント１３２０を入力したユーザが意図した位置（上記の例であれば、おたまの位置）にコメントが表示されうる。

図３９は、本開示の一実施形態に係る技術を利用して買い物をする人の視点を共有するアプリケーションの例を示す図である。この例では、ウェアラブル端末２００などを装着して店頭の画像を提供するユーザに対して、タブレット端末３００などを用いてこの画像を共有するユーザは、個別の画像の共有を許可されたユーザ、例えば画像を提供するユーザの家族などでありうる。つまり、図３９の例では、プライベートな範囲で実空間の画像が共有されている。実空間の画像をプライベートに共有するか、パブリックに共有するかは、例えば提供される実空間の画像の種類や、画像を提供するユーザがアノテーションとしてどのような情報を得られることを望んでいるかによって適宜設定されうる。

図示された例では、コメント１３２０として、買い物リスト１３２０ｐと、リンゴのうちの１つを指定するコメント１３２０ｑとが入力されている。このうち、リンゴを指定するコメント１３２０ｑは、ウェアラブル端末２００の移動によって画像の表示範囲が変化しても同じリンゴに対して表示されることが望ましいため、ウェアラブル端末２００の周囲の実空間の位置に関連付けられうる。一方、買い物リスト１３２０ｐは、ウェアラブル端末２００の移動によって画像の表示範囲が変化しても引き続き画像の同じ位置に表示されることが望ましいため、画像１３００内の位置に関連付けられてもよい。このように、アノテーションが入力される装置（例えばタブレット端末３００）のプロセッサは、アノテーションの種類やユーザ操作などに応じて、アノテーションを実空間の位置に関連付けるか、画像内の位置に関連付けるかを切り替えてもよい。

図４０は、本開示の一実施形態に係る技術を利用して工作をする人の視点を共有するアプリケーションの例を示す図である。この例では、ウェアラブル端末２００などを装着して工作過程の画像を提供するユーザに対して、タブレット端末３００などを用いてこの画像を共有するユーザは、画像を提供するユーザが予め先生として指定したユーザでありうる。先生役のユーザは、画像１３００を閲覧し、例えばコメント１３２０ｓ（部品が壊れやすいことへの注意を喚起するアドバイス）などのアノテーションを入力することができる。一方、画像を提供するユーザも、例えば音声認識など（キーボードなどによる入力でもよい）を利用して、例えば先生役のユーザへの質問などのコメント１３２０ｔを入力することが可能でありうる。

つまり、図示された例では、コメント１３２０を介して、画像を提供するユーザと先生役のユーザとの間で例えば工作に関するインタラクティブな会話が可能である。この場合も、コメント１３２０が実空間の位置に関連付けられることによって、対象になっている部品などの位置に正確にコメントを表示させることができる。なお、この画像は、さらに別のユーザとの間でも共有することが可能であってもよい。この場合、画像を提供するユーザおよび先生役のユーザ以外の他のユーザによるコメント１３２０の入力は制限されてもよい。あるいは、他のユーザによって入力されたコメント１３２０は、他のユーザ同士の間に限って画像１３００に表示されてもよい。

図４１〜図４４は、本開示の一実施形態に係る技術を利用して複数のユーザの視点を切り替えて共有するアプリケーションの例を示す図である。

図４１は、視点の切り替えを概念的に説明するための図である。図４１には、同じ実空間に存在する２つのウェアラブル端末２００ａ，２００ｂが、それぞれ撮像部を有して画像１２００ａ，１２００ｂを取得している様子が示されている。このとき、ウェアラブル端末２００ａ，２００ｂがそれぞれ空間情報を取得していれば、実空間の位置情報を介して互いの位置（視点位置）を認識することができる。従って、例えば、画像１２００ａに映っているウェアラブル端末２００ｂ、または画像１２００ｂに映っているウェアラブル端末２００ａを選択することによって、画像１２００ａの表示と画像１２００ｂの表示とを切り替えることができる。

図４２は、３人称画像を用いた視点切り替えの例を示す図である。図示された例では、タブレット端末３００のディスプレイ３３０に３人称画像１０２０が表示されており、そこに２つのストリーミングフレーム１０２１ａ，１０２１ｂが表示されている。これらのストリーミングフレームは、例えば、図４１に示したウェアラブル端末２００ａ，２００ｂによってそれぞれ取得されたものでありうる。ユーザは、例えばディスプレイ３３０上のタッチセンサ３４０へのタッチ操作でいずれかのストリーミングフレーム１０２１を選択することによって、ウェアラブル端末２００ａの視点からの画像とウェアラブル端末２００ｂの視点からの画像とを切り替えて共有することができる。

図４３および図４４は、１人称画像を用いた視点切り替えの例を示す図である。図４３に示された例では、１人称画像１０１０に、切り替え可能な視点を示すポインタ１０１１と、その視点に関する情報１０１２とが表示されている。ポインタ１０１１は、例えば、別の視点で画像を提供している装置を指し示す表示でありえ、図示されているようにその装置によって提供される画像の画角を表してもよい。また、情報１０１２は、例えば他の装置によって提供される画像がどのような種類の画像であるか（図示された例では「Camera View」である）、誰によって提供される画像であるか、などを示す。ユーザが受信側の装置の操作部を介してポインタ１０１１または情報１０１２を選択した場合、図４４に示すように他の視点からの１人称画像１０１０’に表示が切り替えられうる。なお、図４３に示された画像は、ファッションショーに出演しているモデルを見る観客の視点からの画像である。一方、図４４に示された画像は、上記のモデルの視点からの画像であり、ランウェイの脇にいる観客が映っている。

なお、上記のような切り替え可能な複数の視点画像のそれぞれには、例えばパブリックかプライベートか、有料か無料か、などといった属性が設定されていてもよい。この場合、例えば、図４２に示した３人称画像１０２０や図４３に示した１人称画像１０１０には、パブリックであるか、プライベートであっても既に許可が与えられているために閲覧することが可能である画像に限ってポインタ１０１１や情報１０１２が表示されてもよい。あるいは、３人称画像１０２０や１人称画像１０１０では、画像を閲覧しているユーザの設定によって、無料であるか、有料であっても既に購入されているために閲覧することが可能である画像に限ってポインタ１０１１や情報１０１２が表示されてもよい。

（８．補足）
本開示の実施形態は、例えば、上記で説明したような画像処理装置（サーバまたはクライアント）、システム、画像処理装置またはシステムで実行される画像処理方法、画像処理装置を機能させるためのプログラム、およびプログラムが記録された一時的でない有形の媒体を含みうる。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）第１の視点から実空間を撮像した第１の画像を入力画像として出力画像を生成する画像処理部を備え、
前記画像処理部は、前記実空間における前記第１の視点の位置および姿勢に基づいて、前記実空間において前記第１の視点とは異なる位置および姿勢を有する第２の視点から前記実空間を仮想的に撮像した第２の画像を前記出力画像として生成する画像処理装置。
（２）前記第２の視点の位置および姿勢は、前記第１の視点の位置および姿勢を基準にして設定される、前記（１）に記載の画像処理装置。
（３）端末装置の表示部を制御して前記出力画像を表示させる表示制御部をさらに備え、
前記画像処理部は、前記実空間における前記第１の視点の位置および姿勢に基づいて、前記実空間において位置および姿勢が自由に設定される第３の視点から前記実空間を仮想的に撮像した第３の画像を前記出力画像として生成し、
前記表示制御部は、前記第２の画像または前記第３の画像のいずれかまたは両方を前記表示部に表示させる、前記（２）に記載の画像処理装置。
（４）前記表示制御部は、少なくとも前記第３の画像を前記表示部に表示させ、
前記画像処理部は、前記第２の視点が前記第３の画像の範囲に含まれる場合に、前記第２の視点を示すアイコンを前記第３の画像に表示させる、前記（３）に記載の画像処理装置。
（５）前記表示部に表示された画像に対するユーザ操作に基づく情報を取得する操作取得部をさらに備え、
前記画像処理部は、前記第２の視点を示すアイコンを選択するユーザ操作に基づく情報が取得された場合には、前記第２の画像を前記第３の画像とともに、または前記第３の画像に代えて前記出力画像として提供する、前記（４）に記載の画像処理装置。
（６）前記第２の視点は、前記第１の視点をセットバックさせた視点である、前記（２）〜（５）のいずれか１項に記載の画像処理装置。
（７）前記画像処理部は、連続的に撮像される前記第１の画像に基づいて連続的に前記第２の画像を生成し、
前記第２の視点の位置および姿勢は、前記第１の視点の位置および姿勢に追従して変化する、前記（２）〜（６）のいずれか１項に記載の画像処理装置。
（８）前記画像処理部は、前記第１の視点の位置および姿勢の変化をスムージングして前記第２の視点の位置および姿勢に反映させる、前記（７）に記載の画像処理装置。
（９）前記画像処理部は、前記第２の視点の位置および姿勢の変化量に制限を設定するとともに、前記第１の視点の位置および姿勢と前記第２の視点の位置および姿勢との関係に基づいて前記第２の画像内に表示される前記第１の画像が前記第２の画像の範囲から所定の割合以上外れた場合には前記制限を解除する、前記（８）に記載の画像処理装置。
（１０）前記第２の視点の位置および姿勢は、前記実空間に配置されたオブジェクトの位置および姿勢を基準にして設定される、前記（１）に記載の画像処理装置。
（１１）前記画像処理部は、前記第１の視点が前記第２の画像の範囲に含まれる場合に、前記第１の視点を示すアイコンを前記第２の画像に表示させる、前記（１）〜（１０）のいずれか１項に記載の画像処理装置。
（１２）端末装置の表示部を制御して前記出力画像を表示させる表示制御部と、
前記表示部に表示された画像に対するユーザ操作に基づく情報を取得する操作取得部と
をさらに備え、
前記画像処理部は、前記第１の視点を示すアイコンを選択するユーザ操作に基づく情報が取得された場合には、第１の画像を前記第２の画像とともに、または前記第２の画像に代えて前記出力画像として提供する、前記（１１）に記載の画像処理装置。
（１３）前記画像処理部は、前記実空間における位置および姿勢が互いに異なる複数の視点のうちのいずれか１つの視点を前記第２の視点として前記第２の画像を生成するとともに、前記複数の視点のうちの他の視点が前記第２の画像の範囲に含まれる場合に、前記他の視点を示すアイコンを前記第２の画像に表示させる、前記（１）〜（１２）のいずれか１項に記載の画像処理装置。
（１４）端末装置の表示部を制御して前記出力画像を表示させる表示制御部と、前記表示部に表示された画像に対するユーザ操作に基づく情報を取得する操作取得部と
をさらに備え、
前記画像処理部は、前記他の視点を示すアイコンを選択するユーザ操作に基づく情報が取得された場合には、前記選択されたアイコンに対応する前記他の視点を前記第２の視点として前記第２の画像を生成して、新たに生成された前記第２の画像を元の前記第２の画像とともに、または元の前記第２の画像に代えて前記出力画像として提供する、前記（１３）に記載の画像処理装置。
（１５）前記画像処理部は、前記第１の視点の位置および姿勢と前記第２の視点の位置および姿勢との関係に基づいて変形された前記第１の画像を前記第２の画像内に表示させる、前記（１）〜（１４）のいずれか１項に記載の画像処理装置。
（１６）前記画像処理部は、連続的に撮像される前記第１の画像に基づいて連続的に前記第２の画像を生成し、最新の前記第１の画像を前記第２の画像内に表示させるとともに、過去の前記第１の画像に基づいて前記第２の画像の前記最新の第１の画像以外の部分を生成する、前記（１５）に記載の画像処理装置。
（１７）前記画像処理部は、前記最新の第１の画像と前記過去の第１の画像との間、または前記過去の第１の画像同士の間でのステッチングによって前記第２の画像の前記最新の第１の画像以外の部分を生成する、前記（１６）に記載の画像処理装置。
（１８）前記画像処理部は、前記実空間における位置および姿勢が互いに異なる複数の前記第１の視点から前記実空間を撮像した複数の前記第１の画像を入力画像として前記出力画像を生成するとともに、前記複数の第１の視点のそれぞれの位置および姿勢と前記第１の視点の位置および姿勢との関係に基づいて変形された前記複数の第１の画像を前記第２の画像内に表示させる、前記（１５）〜（１７）のいずれか１項に記載の画像処理装置。
（１９）第１の視点から実空間を撮像した第１の画像を入力画像として出力画像を生成するプロセッサが、
前記実空間における前記第１の視点の位置および姿勢に基づいて、前記実空間において前記第１の視点とは異なる位置および姿勢を有する第２の視点から前記実空間を仮想的に撮像した第２の画像を前記出力画像として生成すること
を含む画像処理方法。
（２０）第１の視点から実空間を撮像した第１の画像を入力画像として出力画像を生成するコンピュータに、
前記実空間における前記第１の視点の位置および姿勢に基づいて、前記実空間において前記第１の視点とは異なる位置および姿勢を有する第２の視点から前記実空間を仮想的に撮像した第２の画像を前記出力画像として生成する機能
を実現させるためのプログラム。

１０システム
１００サーバ
２００，３００，４００，５００，６００，７００クライアント
９００装置
９１０プロセッサ
９２０メモリ
９３０表示部
９４０操作部
９５０通信部
９６０撮像部
９７０センサ

Claims

第１の視点から実空間を撮像した第１の画像を入力画像として出力画像を生成する画像処理部を備え、
前記画像処理部は、前記実空間における前記第１の視点の位置および姿勢に基づいて、前記実空間において前記第１の視点とは異なる位置および姿勢を有する第２の視点から前記実空間を仮想的に撮像した第２の画像を前記出力画像として生成し、前記第１の視点の位置および姿勢と前記第２の視点の位置および姿勢との関係に基づいて変形された前記第１の画像を前記第２の画像内に表示させ、連続的に撮像される前記第１の画像に基づいて連続的に前記第２の画像を生成し、最新の前記第１の画像を前記第２の画像内に表示させるとともに、過去の前記第１の画像に基づいて前記第２の画像の前記最新の第１の画像以外の部分を生成する画像処理装置。
前記第２の視点の位置および姿勢は、前記第１の視点の位置および姿勢を基準にして設定される、請求項１に記載の画像処理装置。
端末装置の表示部を制御して前記出力画像を表示させる表示制御部をさらに備え、
前記画像処理部は、前記実空間における前記第１の視点の位置および姿勢に基づいて、前記実空間において位置および姿勢が自由に設定される第３の視点から前記実空間を仮想的に撮像した第３の画像を前記出力画像として生成し、
前記表示制御部は、前記第２の画像または前記第３の画像のいずれかまたは両方を前記表示部に表示させる、請求項２に記載の画像処理装置。
前記表示制御部は、少なくとも前記第３の画像を前記表示部に表示させ、
前記画像処理部は、前記第２の視点が前記第３の画像の範囲に含まれる場合に、前記第２の視点を示すアイコンを前記第３の画像に表示させる、請求項３に記載の画像処理装置。
前記表示部に表示された画像に対するユーザ操作に基づく情報を取得する操作取得部をさらに備え、
前記画像処理部は、前記第２の視点を示すアイコンを選択するユーザ操作に基づく情報が取得された場合には、前記第２の画像を前記第３の画像とともに、または前記第３の画像に代えて前記出力画像として提供する、請求項４に記載の画像処理装置。
前記第２の視点は、前記第１の視点をセットバックさせた視点である、請求項２に記載の画像処理装置。
前記画像処理部は、連続的に撮像される前記第１の画像に基づいて連続的に前記第２の画像を生成し、
前記第２の視点の位置および姿勢は、前記第１の視点の位置および姿勢に追従して変化する、請求項２に記載の画像処理装置。
前記画像処理部は、前記第１の視点の位置および姿勢の変化をスムージングして前記第２の視点の位置および姿勢に反映させる、請求項７に記載の画像処理装置。
前記画像処理部は、前記第２の視点の位置および姿勢の変化量に制限を設定するとともに、前記第１の視点の位置および姿勢と前記第２の視点の位置および姿勢との関係に基づいて前記第２の画像内に表示される前記第１の画像が前記第２の画像の範囲から所定の割合以上外れた場合には前記制限を解除する、請求項８に記載の画像処理装置。
前記第２の視点の位置および姿勢は、前記実空間に配置されたオブジェクトの位置および姿勢を基準にして設定される、請求項１に記載の画像処理装置。
前記画像処理部は、前記第１の視点が前記第２の画像の範囲に含まれる場合に、前記第１の視点を示すアイコンを前記第２の画像に表示させる、請求項１に記載の画像処理装置。
端末装置の表示部を制御して前記出力画像を表示させる表示制御部と、
前記表示部に表示された画像に対するユーザ操作に基づく情報を取得する操作取得部と
をさらに備え、
前記画像処理部は、前記第１の視点を示すアイコンを選択するユーザ操作に基づく情報が取得された場合には、第１の画像を前記第２の画像とともに、または前記第２の画像に代えて前記出力画像として提供する、請求項１１に記載の画像処理装置。
前記画像処理部は、前記実空間における位置および姿勢が互いに異なる複数の視点のうちのいずれか１つの視点を前記第２の視点として前記第２の画像を生成するとともに、前記複数の視点のうちの他の視点が前記第２の画像の範囲に含まれる場合に、前記他の視点を示すアイコンを前記第２の画像に表示させる、請求項１に記載の画像処理装置。
端末装置の表示部を制御して前記出力画像を表示させる表示制御部と、前記表示部に表示された画像に対するユーザ操作に基づく情報を取得する操作取得部と
をさらに備え、
前記画像処理部は、前記他の視点を示すアイコンを選択するユーザ操作に基づく情報が取得された場合には、前記選択されたアイコンに対応する前記他の視点を前記第２の視点として前記第２の画像を生成して、新たに生成された前記第２の画像を元の前記第２の画像とともに、または元の前記第２の画像に代えて前記出力画像として提供する、請求項１３に記載の画像処理装置。
前記画像処理部は、前記最新の第１の画像と前記過去の第１の画像との間、または前記過去の第１の画像同士の間でのステッチングによって前記第２の画像の前記最新の第１の画像以外の部分を生成する、請求項１に記載の画像処理装置。
前記画像処理部は、前記実空間における位置および姿勢が互いに異なる複数の前記第１の視点から前記実空間を撮像した複数の前記第１の画像を入力画像として前記出力画像を生成するとともに、前記複数の第１の視点のそれぞれの位置および姿勢と前記第１の視点の位置および姿勢との関係に基づいて変形された前記複数の第１の画像を前記第２の画像内に表示させる、請求項１に記載の画像処理装置。
第１の視点から実空間を撮像した第１の画像を入力画像として出力画像を生成するプロセッサが、
前記実空間における前記第１の視点の位置および姿勢に基づいて、前記実空間において前記第１の視点とは異なる位置および姿勢を有する第２の視点から前記実空間を仮想的に撮像した第２の画像を前記出力画像として生成することと、
前記第１の視点の位置および姿勢と前記第２の視点の位置および姿勢との関係に基づいて変形された前記第１の画像を前記第２の画像内に表示させることと、
連続的に撮像される前記第１の画像に基づいて連続的に前記第２の画像を生成し、最新の前記第１の画像を前記第２の画像内に表示させるとともに、過去の前記第１の画像に基づいて前記第２の画像の前記最新の第１の画像以外の部分を生成することと、
を含む画像処理方法。
第１の視点から実空間を撮像した第１の画像を入力画像として出力画像を生成するコンピュータに、
前記実空間における前記第１の視点の位置および姿勢に基づいて、前記実空間において前記第１の視点とは異なる位置および姿勢を有する第２の視点から前記実空間を仮想的に撮像した第２の画像を前記出力画像として生成する機能と、
前記第１の視点の位置および姿勢と前記第２の視点の位置および姿勢との関係に基づいて変形された前記第１の画像を前記第２の画像内に表示させる機能と、
連続的に撮像される前記第１の画像に基づいて連続的に前記第２の画像を生成し、最新の前記第１の画像を前記第２の画像内に表示させるとともに、過去の前記第１の画像に基づいて前記第２の画像の前記最新の第１の画像以外の部分を生成する機能と、
を実現させるためのプログラム。