JP2018200678A

JP2018200678A - ヘッドマウントデバイスと通信可能なコンピュータによって実行されるプログラム、当該プログラムを実行するための情報処理装置、およびヘッドマウントデバイスと通信可能なコンピュータによって実行される方法

Info

Publication number: JP2018200678A
Application number: JP2018031368A
Authority: JP
Inventors: 一晃澤木; Kazuaki Sawaki
Original assignee: Colopl Inc
Current assignee: Colopl Inc
Priority date: 2017-05-26
Filing date: 2018-02-23
Publication date: 2018-12-20
Anticipated expiration: 2037-05-26
Also published as: JP6947661B2

Abstract

【課題】ヘッドマウントデバイスを使用するユーザを分析する技術を提供すること。【解決手段】ヘッドマウントデバイスと通信可能なコンピュータによって実行されるプログラムは、仮想空間を定義するステップ（Ｓ２０１０）と、ヘッドマウントデバイスの出力に基づいて仮想空間におけるヘッドマウントデバイスのユーザの視点位置を取得するステップ（Ｓ２０２０）と、ユーザの操作または動作を表す信号を受け付けるステップと、信号が表すユーザの操作または動作がユーザの関心を示すときに、視点位置をメモリに保存するステップ（Ｓ２０６０）とを備える。【選択図】図２０

Description

この開示は、ヘッドマウントデバイスを使用するユーザの関心を取得する技術に関し、より特定的には、視線に基づいてユーザの関心を取得する技術に関する。

近年、ヘッドマウントデバイス（ＨＭＤ：Head-Mounted Device）装置を用いて仮想現実を提供する技術開発が盛んに行なわれている。

例えば、特許文献１は、ＨＭＤを装着したユーザの視線を取得する技術を開示している。また、非特許文献１は、仮想空間上でのシューティングゲームにおいて、ユーザの視線を利用して、対象物への照準を合わせる技術を開示している。

米国特許出願公開第２０１６／００３８０６９号明細書

"視線ひとつでここまで体験は変わる。アイトラッキングシステム搭載ＶＲヘッドセット「ＦＯＶＥ」"、［online］、［平成２９年４月２０日検索］、インターネット〈URL：http://www.gizmodo.jp/2016/09/tgs2016-vr-fove.html〉

ところで、近年、マーケティングのためにユーザ行動を分析する技術が種々開発されている。例えば、タッチパネルを利用するアプリケーションの画面ごとに、どこが多くタッチされたかを表す技術が存在する。このようなユーザの行動を分析する技術は、仮想空間の技術分野にも必要とされている。

本開示は、上記のような問題を解決するためになされたものであって、ある局面における目的は、ＨＭＤを使用するユーザを分析する技術を提供することである。

ある実施の形態に従うと、ヘッドマウントデバイスと通信可能なコンピュータによって実行されるプログラムが提供される。このプログラムはコンピュータに、仮想空間を定義するステップと、ヘッドマウントデバイスの出力に基づいて仮想空間におけるヘッドマウントデバイスのユーザの視点位置を取得するステップと、ユーザの操作または動作を表す信号を受け付けるステップと、信号が表すユーザの操作または動作がユーザの関心を示すときに、視点位置をメモリに保存するステップとを実行させる。

開示された技術的特徴の上記および他の目的、特徴、局面および利点は、添付の図面と関連して理解されるこの発明に関する次の詳細な説明から明らかとなるであろう。

ＨＭＤシステムの構成の概略を表す図である。ある局面に従うコンピュータのハードウェア構成の一例を表すブロック図である。ある実施の形態に従うＨＭＤに設定されるｕｖｗ視野座標系を概念的に表す図である。ある実施の形態に従う仮想空間を表現する一態様を概念的に表す図である。ある実施の形態に従うＨＭＤを装着するユーザの頭部を上から表した図である。仮想空間において視認領域をＸ方向から見たＹＺ断面を表す図である。仮想空間において視認領域をＹ方向から見たＸＺ断面を表す図である。ある実施の形態に従うコンピュータをモジュール構成として表わすブロック図である。ネットワークにおいて、複数のＨＭＤのそれぞれが、複数のユーザのそれぞれに仮想空間を提供する状況を表す模式図である。図９Ａにおけるユーザの視界画像を示す図である。ユーザの顔画像から口を検出する処理について説明する図である。動き検出モジュールが口の形状を検出する処理を説明するための図（その１）である。動き検出モジュールが口の形状を検出する処理を説明するための図（その２）である。フェイストラッキングデータの構造の一例を表す図である。サーバのハードウェア構成およびモジュール構成を説明する図である。サーバがコンピュータと通信してユーザ情報を更新する処理を表すフローチャートである。ユーザが視認する視界画像を表す図である。図１６の状態に対応する仮想空間を表す図である。視点位置情報のデータ構造の一例を表す図である。ユーザが無表情時に取得される顔の特徴点を表す図である。ユーザが驚いたときに取得される顔の特徴点を表す図である。ある実施形態に従う視点位置をストレージに保存する処理を表すフローチャートである。視点位置と感情の種類とを関連付けて保存する処理を表すフローチャートである。視点位置情報に基づくヒートマップを表す図である。ユーザが視線を注ぐ対象を特定して広告を配信するまでの一連の処理の一例を表すフローチャートである。パノラマ画像ＤＢのデータ構造の一例を表す図である。第１テーブルのデータ構造の一例を表す図である。第２テーブルのデータ構造の一例を表す図である。ユーザにパノラマ画像を推奨する処理を説明するための図である。視点位置を視点位置情報に保存しない場合の処理について説明するための図である。視点位置を視点位置情報に保存する処理を中止する処理を表すフローチャートである。ステップＳ２９２０の処理を説明するためのフローチャートである。

以下、この技術的思想の実施の形態について図面を参照しながら詳細に説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称および機能も同じである。したがって、それらについての詳細な説明は繰り返さない。なお、以下で説明される各実施の形態は、適宜選択的に組み合わされてもよい。

［ＨＭＤシステムの構成］
図１を参照して、ＨＭＤ（Head-Mounted Device）システム１００の構成について説明する。図１は、ＨＭＤシステム１００の構成の概略を表す図である。ＨＭＤシステム１００は、家庭用のシステムとしてあるいは業務用のシステムとして提供される。

ＨＭＤシステム１００は、ＨＭＤ（Head-Mounted Device）セット１０５Ａ，１０５Ｂ，１０５Ｃ，１０５Ｄと、ネットワーク１９とサーバ１５０とを含む。ＨＭＤセット１０５Ａ，１０５Ｂ，１０５Ｃ，１０５Ｄの各々は、ネットワーク１９を介してサーバ１５０と通信可能に構成される。以下、ＨＭＤセット１０５Ａ，１０５Ｂ，１０５Ｃ，１０５Ｄを総称して、ＨＭＤセット１０５とも言う。なお、ＨＭＤシステム１００を構成するＨＭＤセット１０５の数は、４つに限られず、３つ以下でも、５つ以上でもよい。ＨＭＤセット１０５は、ＨＭＤ１１０と、ＨＭＤセンサ１２０と、コントローラ１６０と、コンピュータ２００とを備える。ＨＭＤ１１０は、モニタ１１２と、第１カメラ１１５と、第２カメラ１１７と、スピーカ１１８と、マイク１１９と、注視センサ１４０とを含む。コントローラ１６０は、モーションセンサ１３０を含み得る。

ある局面において、コンピュータ２００は、インターネットその他のネットワーク１９に接続可能であり、ネットワーク１９に接続されているサーバ１５０その他のコンピュータ（例えば、他のＨＭＤセット１０５のコンピュータ）と通信可能である。別の局面において、ＨＭＤ１１０は、ＨＭＤセンサ１２０の代わりに、センサ１１４を含み得る。

ＨＭＤ１１０は、ユーザ１９０の頭部に装着され、動作中に仮想空間をユーザ１９０に提供し得る。より具体的には、ＨＭＤ１１０は、右目用の画像および左目用の画像をモニタ１１２にそれぞれ表示する。ユーザ１９０の各目がそれぞれの画像を視認すると、ユーザ１９０は、両目の視差に基づき当該画像を３次元の画像として認識し得る。ＨＭＤ１００は、モニタを備える所謂ヘッドマウントディスプレイと、スマートフォンその他のモニタを有する端末を装着可能なヘッドマウント機器のいずれをも含み得る。

モニタ１１２は、例えば、非透過型の表示装置として実現される。ある局面において、モニタ１１２は、ユーザ１９０の両目の前方に位置するようにＨＭＤ１１０の本体に配置されている。したがって、ユーザ１９０は、モニタ１１２に表示される３次元画像を視認すると、仮想空間に没入することができる。ある実施の形態において、仮想空間は、例えば、背景、ユーザ１９０が操作可能なオブジェクト、ユーザ１９０が選択可能なメニューの画像を含む。ある実施の形態において、モニタ１１２は、所謂スマートフォンその他の情報表示端末が備える液晶モニタまたは有機ＥＬ（Electro Luminescence）モニタとして実現され得る。

他の局面において、モニタ１１２は、透過型の表示装置として実現され得る。この場合、ＨＭＤ１１０は、図１に示されるようにユーザ１９０の目を覆う密閉型ではなく、メガネ型のような開放型であり得る。透過型のモニタ１１２は、その透過率を調整することにより、一時的に非透過型の表示装置として構成可能であってもよい。また、モニタ１１２は、仮想空間を構成する画像の一部と、現実空間とを同時に表示する構成を含んでいてもよい。例えば、モニタ１１２は、ＨＭＤ１１０に搭載されたカメラで撮影した現実空間の画像を表示してもよいし、一部の透過率を高く設定することにより現実空間を視認可能にしてもよい。

ある局面において、モニタ１１２は、右目用の画像を表示するためのサブモニタと、左目用の画像を表示するためのサブモニタとを含み得る。別の局面において、モニタ１１２は、右目用の画像と左目用の画像とを一体として表示する構成であってもよい。この場合、モニタ１１２は、高速シャッタを含む。高速シャッタは、画像がいずれか一方の目にのみ認識されるように、右目用の画像と左目用の画像とを交互に表示可能に作動する。

ある局面において、ＨＭＤ１１０は、複数の光源（図示しない）を含む。各光源は例えば、赤外線を発するＬＥＤ（Light Emitting Diode）により実現される。ＨＭＤセンサ１２０は、ＨＭＤ１１０の動きを検出するためのポジショントラッキング機能を有する。より具体的には、ＨＭＤセンサ１２０は、ＨＭＤ１１０が発する複数の赤外線を読み取り、現実空間内におけるＨＭＤ１１０の位置および傾きを検出する。

なお、別の局面において、ＨＭＤセンサ１２０は、カメラにより実現されてもよい。この場合、ＨＭＤセンサ１２０は、カメラから出力されるＨＭＤ１１０の画像情報を用いて、画像解析処理を実行することにより、ＨＭＤ１１０の位置および傾きを検出することができる。

別の局面において、ＨＭＤ１１０は、位置検出器として、ＨＭＤセンサ１２０の代わりに、あるいはＨＭＤセンサ１２０に加えてセンサ１１４を備えてもよい。ＨＭＤ１１０は、センサ１１４を用いて、ＨＭＤ１１０自身の位置および傾きを検出し得る。例えば、センサ１１４が角速度センサ、地磁気センサ、あるいは加速度センサである場合、ＨＭＤ１１０は、ＨＭＤセンサ１２０の代わりに、これらの各センサのいずれかを用いて、自身の位置および傾きを検出し得る。一例として、センサ１１４が角速度センサである場合、角速度センサは、現実空間におけるＨＭＤ１１０の３軸周りの角速度を経時的に検出する。ＨＭＤ１１０は、各角速度に基づいて、ＨＭＤ１１０の３軸周りの角度の時間的変化を算出し、さらに、角度の時間的変化に基づいて、ＨＭＤ１１０の傾きを算出する。

第１カメラ１１５は、ユーザ１９０の顔の下部を撮影する。より具体的には、第１カメラ１１５は、ユーザ１９０の鼻および口などを撮影する。第２カメラ１１７は、ユーザ１９０の目および眉などを撮影する。ＨＭＤ１１０のユーザ１９０側の筐体をＨＭＤ１１０の内側、ＨＭＤ１１０のユーザ１９０とは逆側の筐体をＨＭＤ１１０の外側と定義する。ある局面において、第１カメラ１１５は、ＨＭＤ１１０の外側に配置され、第２カメラ１１７は、ＨＭＤ１１０の内側に配置され得る。第１カメラ１１５および第２カメラ１１７が生成した画像は、コンピュータ２００に入力される。

スピーカ１１８は、音声信号を音声に変換してユーザ１９０に出力する。マイク１１９は、ユーザ１９０の発話を音声信号（電気信号）に変換してコンピュータ２００に出力する。なお、他の局面において、ＨＭＤ１１０は、スピーカ１１８に替えてイヤホンを含み得る。

注視センサ１４０は、ユーザ１９０の右目および左目の視線が向けられる方向（視線）を検出する。当該方向の検出は、例えば、公知のアイトラッキング機能によって実現される。注視センサ１４０は、当該アイトラッキング機能を有するセンサにより実現される。ある局面において、注視センサ１４０は、右目用のセンサおよび左目用のセンサを含むことが好ましい。注視センサ１４０は、例えば、ユーザ１９０の右目および左目に赤外光を照射するとともに、照射光に対する角膜および虹彩からの反射光を受けることにより各眼球の回転角を検出するセンサであってもよい。注視センサ１４０は、検出した各回転角に基づいて、ユーザ１９０の視線を検知することができる。

サーバ１５０は、コンピュータ２００にプログラムを送信し得る。別の局面において、サーバ１５０は、他のユーザによって使用されるＨＭＤに仮想現実を提供するための他のコンピュータ２００と通信し得る。例えば、アミューズメント施設において、複数のユーザが参加型のゲームを行なう場合、各コンピュータ２００は、各ユーザの動作に基づく信号を他のコンピュータ２００と通信して、同じ仮想空間において複数のユーザが共通のゲームを楽しむことを可能にする。

コントローラ１６０は、有線または無線によりコンピュータ２００に接続されている。コントローラ１６０は、ユーザ１９０からコンピュータ２００への命令の入力を受け付ける。ある局面において、コントローラ１６０は、ユーザ１９０によって把持可能に構成される。別の局面において、コントローラ１６０は、ユーザ１９０の身体あるいは衣類の一部に装着可能に構成される。別の局面において、コントローラ１６０は、コンピュータ２００から送信される信号に基づいて、振動、音、光のうちの少なくともいずれかを出力するように構成されてもよい。別の局面において、コントローラ１６０は、ユーザ１９０から、仮想空間に配置されるオブジェクトの位置や動きを制御するための操作を受け付ける。

モーションセンサ１３０は、ある局面において、ユーザ１９０の手に取り付けられて、ユーザ１９０の手の動きを検出する。例えば、モーションセンサ１３０は、手の回転速度、回転数等を検出する。検出された信号は、コンピュータ２００に送られる。モーションセンサ１３０は、例えば、手袋型のコントローラ１６０に設けられている。ある実施の形態において、現実空間における安全のため、コントローラ１６０は、手袋型のようにユーザ１９０の手に装着されることにより容易に飛んで行かないものに装着されるのが望ましい。別の局面において、ユーザ１９０に装着されないセンサがユーザ１９０の手の動きを検出してもよい。例えば、ユーザ１９０を撮影するカメラの信号が、ユーザ１９０の動作を表わす信号として、コンピュータ２００に入力されてもよい。モーションセンサ１３０とコンピュータ２００とは、一例として、無線により互いに接続される。無線の場合、通信形態は特に限られず、例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）その他の公知の通信手法が用いられる。

［ハードウェア構成］
図２を参照して、本実施の形態に係るコンピュータ２００について説明する。図２は、ある局面に従うコンピュータ２００のハードウェア構成の一例を表すブロック図である。コンピュータ２００は、主たる構成要素として、プロセッサ１０と、メモリ１１と、ストレージ１２と、入出力インターフェイス１３と、通信インターフェイス１４とを備える。各構成要素は、それぞれ、バス１５に接続されている。

プロセッサ１０は、コンピュータ２００に与えられる信号に基づいて、あるいは、予め定められた条件が成立したことに基づいて、メモリ１１またはストレージ１２に格納されているプログラムに含まれる一連の命令を実行する。ある局面において、プロセッサ１０は、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processor Unit）、ＦＰＧＡ（Field-Programmable Gate Array）その他のデバイスとして実現される。

メモリ１１は、プログラムおよびデータを一時的に保存する。プログラムは、例えば、ストレージ１２からロードされる。データは、コンピュータ２００に入力されたデータと、プロセッサ１０によって生成されたデータとを含む。ある局面において、メモリ１１は、ＲＡＭ（Random Access Memory）その他の揮発メモリとして実現される。

ストレージ１２は、プログラムおよびデータを永続的に保持する。ストレージ１２は、例えば、ＲＯＭ（Read-Only Memory）、ハードディスク装置、フラッシュメモリ、その他の不揮発記憶装置として実現される。ストレージ１２に格納されるプログラムは、ＨＭＤシステム１００において仮想空間を提供するためのプログラム、シミュレーションプログラム、ゲームプログラム、ユーザ認証プログラム、他のコンピュータ２００との通信を実現するためのプログラムを含む。ストレージ１２に格納されるデータは、仮想空間を規定するためのデータおよびオブジェクト等を含む。

なお、別の局面において、ストレージ１２は、メモリカードのように着脱可能な記憶装置として実現されてもよい。さらに別の局面において、コンピュータ２００に内蔵されたストレージ１２の代わりに、外部の記憶装置に保存されているプログラムおよびデータを使用する構成が使用されてもよい。このような構成によれば、例えば、アミューズメント施設のように複数のＨＭＤシステム１００が使用される場面において、プログラムやデータの更新を一括して行なうことが可能になる。

ある実施の形態において、入出力インターフェイス１３は、ＨＭＤ１１０、ＨＭＤセンサ１２０およびモーションセンサ１３０との間で信号を通信する。ある局面において、ＨＭＤ１１０に含まれる第１カメラ１１５，第２カメラ１１７，スピーカ１１８，およびマイク１１９は、ＨＭＤ１１０の入出力インターフェイス１３を介してコンピュータ２００との通信を行ない得る。ある局面において、入出力インターフェイス１３は、ＵＳＢ（Universal Serial Bus）、ＤＶＩ（Digital Visual Interface）、ＨＤＭＩ（登録商標）（High-Definition Multimedia Interface）その他の端子を用いて実現される。なお、入出力インターフェイス１３は上述のものに限られない。

ある実施の形態において、入出力インターフェイス１３は、さらに、コントローラ１６０と通信し得る。例えば、入出力インターフェイス１３は、コントローラ１６０およびモーションセンサ１３０から出力された信号の入力を受ける。別の局面において、入出力インターフェイス１３は、プロセッサ１０から出力された命令を、コントローラ１６０に送る。当該命令は、振動、音声出力、発光等をコントローラ１６０に指示する。コントローラ１６０は、当該命令を受信すると、その命令に応じて、振動、音声出力または発光のいずれかを実行する。

通信インターフェイス１４は、ネットワーク１９に接続されて、ネットワーク１９に接続されている他のコンピュータ（例えば、サーバ１５０）と通信する。ある局面において、通信インターフェイス１４は、例えば、ＬＡＮ（Local Area Network）その他の有線通信インターフェイス、あるいは、ＷｉＦｉ（Wireless Fidelity）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＮＦＣ（Near Field Communication）その他の無線通信インターフェイスとして実現される。なお、通信インターフェイス１４は上述のものに限られない。

ある局面において、プロセッサ１０は、ストレージ１２にアクセスし、ストレージ１２に格納されている１つ以上のプログラムをメモリ１１にロードし、当該プログラムに含まれる一連の命令を実行する。当該１つ以上のプログラムは、コンピュータ２００のオペレーティングシステム、仮想空間を提供するためのアプリケーションプログラム、仮想空間で実行可能なゲームソフトウェア等を含み得る。プロセッサ１０は、入出力インターフェイス１３を介して、仮想空間を提供するための信号をＨＭＤ１１０に送る。ＨＭＤ１１０は、その信号に基づいてモニタ１１２に映像を表示する。

なお、図２に示される例では、コンピュータ２００は、ＨＭＤ１１０の外部に設けられる構成が示されているが、別の局面において、コンピュータ２００は、ＨＭＤ１１０に内蔵されてもよい。一例として、モニタ１１２を含む携帯型の情報通信端末（例えば、スマートフォン）がコンピュータ２００として機能してもよい。

また、コンピュータ２００は、複数のＨＭＤ１１０に共通して用いられる構成であってもよい。このような構成によれば、例えば、複数のユーザに同一の仮想空間を提供することもできるので、各ユーザは同一の仮想空間で他のユーザと同一のアプリケーションを楽しむことができる。

ある実施の形態において、ＨＭＤシステム１００では、グローバル座標系が予め設定されている。グローバル座標系は、現実空間における鉛直方向、鉛直方向に直交する水平方向、並びに、鉛直方向および水平方向の双方に直交する前後方向にそれぞれ平行な、３つの基準方向（軸）を有する。本実施の形態では、グローバル座標系は視点座標系のひとつである。そこで、グローバル座標系における水平方向、鉛直方向（上下方向）、および前後方向は、それぞれ、ｘ軸、ｙ軸、ｚ軸と規定される。より具体的には、グローバル座標系において、ｘ軸は現実空間の水平方向に平行である。ｙ軸は、現実空間の鉛直方向に平行である。ｚ軸は現実空間の前後方向に平行である。

ある局面において、ＨＭＤセンサ１２０は、赤外線センサを含む。赤外線センサが、ＨＭＤ１１０の各光源から発せられた赤外線をそれぞれ検出すると、ＨＭＤ１１０の存在を検出する。ＨＭＤセンサ１２０は、さらに、各点の値（グローバル座標系における各座標値）に基づいて、ＨＭＤ１１０を装着したユーザ１９０の動きに応じた、現実空間内におけるＨＭＤ１１０の位置および傾き（向き）を検出する。より詳しくは、ＨＭＤセンサ１２０は、経時的に検出された各値を用いて、ＨＭＤ１１０の位置および傾きの時間的変化を検出できる。

グローバル座標系は現実空間の座標系と平行である。したがって、ＨＭＤセンサ１２０によって検出されたＨＭＤ１１０の各傾きは、グローバル座標系におけるＨＭＤ１１０の３軸周りの各傾きに相当する。ＨＭＤセンサ１２０は、グローバル座標系におけるＨＭＤ１１０の傾きに基づき、ｕｖｗ視野座標系をＨＭＤ１１０に設定する。ＨＭＤ１１０に設定されるｕｖｗ視野座標系は、ＨＭＤ１１０を装着したユーザ１９０が仮想空間において物体を見る際の視点座標系に対応する。

［ｕｖｗ視野座標系］
図３を参照して、ｕｖｗ視野座標系について説明する。図３は、ある実施の形態に従うＨＭＤ１１０に設定されるｕｖｗ視野座標系を概念的に表す図である。ＨＭＤセンサ１２０は、ＨＭＤ１１０の起動時に、グローバル座標系におけるＨＭＤ１１０の位置および傾きを検出する。プロセッサ１０は、検出された値に基づいて、ｕｖｗ視野座標系をＨＭＤ１１０に設定する。

図３に示されるように、ＨＭＤ１１０は、ＨＭＤ１１０を装着したユーザ１９０の頭部を中心（原点）とした３次元のｕｖｗ視野座標系を設定する。より具体的には、ＨＭＤ１１０は、グローバル座標系を規定する水平方向、鉛直方向、および前後方向（ｘ軸、ｙ軸、ｚ軸）を、グローバル座標系内においてＨＭＤ１１０の各軸周りの傾きだけ各軸周りにそれぞれ傾けることによって新たに得られる３つの方向を、ＨＭＤ１１０におけるｕｖｗ視野座標系のピッチ軸（ｕ軸）、ヨー軸（ｖ軸）、およびロール軸（ｗ軸）として設定する。

ある局面において、ＨＭＤ１１０を装着したユーザ１９０が直立し、かつ、正面を視認している場合、プロセッサ１０は、グローバル座標系に平行なｕｖｗ視野座標系をＨＭＤ１１０に設定する。この場合、グローバル座標系における水平方向（ｘ軸）、鉛直方向（ｙ軸）、および前後方向（ｚ軸）は、ＨＭＤ１１０におけるｕｖｗ視野座標系のピッチ軸（ｕ軸）、ヨー軸（ｖ軸）、およびロール軸（ｗ軸）に一致する。

ｕｖｗ視野座標系がＨＭＤ１１０に設定された後、ＨＭＤセンサ１２０は、ＨＭＤ１１０の動きに基づいて、設定されたｕｖｗ視野座標系におけるＨＭＤ１１０の傾きを検出できる。この場合、ＨＭＤセンサ１２０は、ＨＭＤ１１０の傾きとして、ｕｖｗ視野座標系におけるＨＭＤ１１０のピッチ角（θｕ）、ヨー角（θｖ）、およびロール角（θｗ）をそれぞれ検出する。ピッチ角（θｕ）は、ｕｖｗ視野座標系におけるピッチ軸周りのＨＭＤ１１０の傾き角度を表す。ヨー角（θｖ）は、ｕｖｗ視野座標系におけるヨー軸周りのＨＭＤ１１０の傾き角度を表す。ロール角（θｗ）は、ｕｖｗ視野座標系におけるロール軸周りのＨＭＤ１１０の傾き角度を表す。

ＨＭＤセンサ１２０は、検出されたＨＭＤ１１０の傾きに基づいて、ＨＭＤ１１０が動いた後のＨＭＤ１１０におけるｕｖｗ視野座標系を、ＨＭＤ１１０に設定する。ＨＭＤ１１０と、ＨＭＤ１１０のｕｖｗ視野座標系との関係は、ＨＭＤ１１０の位置および傾きに関わらず、常に一定である。ＨＭＤ１１０の位置および傾きが変わると、当該位置および傾きの変化に連動して、グローバル座標系におけるＨＭＤ１１０のｕｖｗ視野座標系の位置および傾きが変化する。

ある局面において、ＨＭＤセンサ１２０は、赤外線センサからの出力に基づいて取得される赤外線の光強度および複数の点間の相対的な位置関係（例えば、各点間の距離など）に基づいて、ＨＭＤ１１０の現実空間内における位置を、ＨＭＤセンサ１２０に対する相対位置として特定してもよい。また、プロセッサ１０は、特定された相対位置に基づいて、現実空間内（グローバル座標系）におけるＨＭＤ１１０のｕｖｗ視野座標系の原点を決定してもよい。

［仮想空間］
図４を参照して、仮想空間についてさらに説明する。図４は、ある実施の形態に従う仮想空間２を表現する一態様を概念的に表す図である。仮想空間２は、中心２１の３６０度方向の全体を覆う全天球状の構造を有する。図４では、説明を複雑にしないために、仮想空間２のうちの上半分の天球が例示されている。仮想空間２では各メッシュが規定される。各メッシュの位置は、仮想空間２に規定されるＸＹＺ座標系における座標値として予め規定されている。コンピュータ２００は、仮想空間２に展開可能なパノラマ画像２２（静止画、動画等）を構成する各部分画像を、仮想空間２において対応する各メッシュにそれぞれ対応付ける。

ある局面において、仮想空間２では、中心２１を原点とするＸＹＺ座標系が規定される。ＸＹＺ座標系は、例えば、グローバル座標系に平行である。ＸＹＺ座標系は視点座標系の一種であるため、ＸＹＺ座標系における水平方向、鉛直方向（上下方向）、および前後方向は、それぞれＸ軸、Ｙ軸、Ｚ軸として規定される。したがって、ＸＹＺ座標系のＸ軸（水平方向）がグローバル座標系のｘ軸と平行であり、ＸＹＺ座標系のＹ軸（鉛直方向）がグローバル座標系のｙ軸と平行であり、ＸＹＺ座標系のＺ軸（前後方向）がグローバル座標系のｚ軸と平行である。

ＨＭＤ１１０の起動時、すなわちＨＭＤ１１０の初期状態において、仮想カメラ１が、仮想空間２の中心２１に配置される。ある局面において、プロセッサ１０は、仮想カメラ１が撮影する画像をＨＭＤ１１０のモニタ１１２に表示する。仮想カメラ１は、現実空間におけるＨＭＤ１１０の動きに連動して、仮想空間２を同様に移動する。これにより、現実空間におけるＨＭＤ１１０の位置および傾きの変化が、仮想空間２において同様に再現され得る。

仮想カメラ１には、ＨＭＤ１１０の場合と同様に、ｕｖｗ視野座標系が規定される。仮想空間２における仮想カメラのｕｖｗ視野座標系は、現実空間（グローバル座標系）におけるＨＭＤ１１０のｕｖｗ視野座標系に連動するように規定されている。したがって、ＨＭＤ１１０の傾きが変化すると、それに応じて、仮想カメラ１の傾きも変化する。また、仮想カメラ１は、ＨＭＤ１１０を装着したユーザ１９０の現実空間における移動に連動して、仮想空間２において移動することもできる。

コンピュータ２００のプロセッサ１０は、仮想カメラ１の位置と傾き（基準視線５）とに基づいて、仮想空間２における視認領域２３を規定する。視認領域２３は、仮想空間２のうち、ＨＭＤ１１０を装着したユーザ１９０が視認する領域に対応する。つまり、仮想カメラ１の位置は、仮想空間２におけるユーザ１９０の視座と言える。

注視センサ１４０によって検出されるユーザ１９０の視線は、ユーザ１９０が物体を視認する際の視点座標系における方向である。ＨＭＤ１１０のｕｖｗ視野座標系は、ユーザ１９０がモニタ１１２を視認する際の視点座標系に等しい。また、仮想カメラ１のｕｖｗ視野座標系は、ＨＭＤ１１０のｕｖｗ視野座標系に連動している。したがって、ある局面に従うＨＭＤシステム１００は、注視センサ１４０によって検出されたユーザ１９０の視線を、仮想カメラ１のｕｖｗ視野座標系におけるユーザ１９０の視線とみなすことができる。

［ユーザの視線］
図５を参照して、ユーザの視線の決定について説明する。図５は、ある実施の形態に従うＨＭＤ１１０を装着するユーザ１９０の頭部を上から表した図である。

ある局面において、注視センサ１４０は、ユーザ１９０の右目および左目の各視線を検出する。ある局面において、ユーザ１９０が近くを見ている場合、注視センサ１４０は、視線Ｒ１およびＬ１を検出する。別の局面において、ユーザ１９０が遠くを見ている場合、注視センサ１４０は、視線Ｒ２およびＬ２を検出する。この場合、ロール軸ｗに対して視線Ｒ２およびＬ２が成す角度は、ロール軸ｗに対して視線Ｒ１およびＬ１が成す角度よりも小さい。注視センサ１４０は、検出結果をコンピュータ２００に送信する。

コンピュータ２００が、視線の検出結果として、視線Ｒ１およびＬ１の検出値を注視センサ１４０から受信した場合には、その検出値に基づいて、視線Ｒ１およびＬ１の交点である注視点Ｎ１を特定する。一方、コンピュータ２００は、視線Ｒ２およびＬ２の検出値を注視センサ１４０から受信した場合には、視線Ｒ２およびＬ２の交点を注視点として特定する。コンピュータ２００は、特定した注視点Ｎ１の位置に基づき、ユーザ１９０の視線Ｎ０を特定する。コンピュータ２００は、例えば、ユーザ１９０の右目Ｒと左目Ｌとを結ぶ直線の中点と、注視点Ｎ１とを通る直線の延びる方向を、視線Ｎ０として検出する。視線Ｎ０は、ユーザ１９０が両目により実際に視線を向けている方向である。また、視線Ｎ０は、視認領域２３に対してユーザ１９０が実際に視線を向けている方向に相当する。

また、別の局面において、ＨＭＤシステム１００は、テレビジョン放送受信チューナを備えてもよい。このような構成によれば、ＨＭＤシステム１００は、仮想空間２においてテレビ番組を表示することができる。

さらに別の局面において、ＨＭＤシステム１００は、インターネットに接続するための通信回路、あるいは、電話回線に接続するための通話機能を備えていてもよい。

［視界領域］
図６および図７を参照して、視認領域２３について説明する。図６は、仮想空間２において視認領域２３をＸ方向から見たＹＺ断面を表す図である。図７は、仮想空間２において視認領域２３をＹ方向から見たＸＺ断面を表す図である。

図６に示されるように、ＹＺ断面における視認領域２３は、領域２４を含む。領域２４は、仮想カメラ１の位置と基準視線５と仮想空間２のＹＺ断面とによって定義される。プロセッサ１０は、仮想空間における基準視線５を中心として極角αを含む範囲を、領域２４として規定する。

図７に示されるように、ＸＺ断面における視認領域２３は、領域２５を含む。領域２５は、仮想カメラ１の位置と基準視線５と仮想空間２のＸＺ断面とによって定義される。プロセッサ１０は、仮想空間２における基準視線５を中心とした方位角βを含む範囲を、領域２５として規定する。極角αおよびβは、仮想カメラ１の位置と仮想カメラ１の傾き（向き）とに応じて定まる。

ある局面において、ＨＭＤシステム１００は、コンピュータ２００からの信号に基づいて、視界画像２６をモニタ１１２に表示させることにより、ユーザ１９０に仮想空間における視界を提供する。視界画像２６は、パノラマ画像２２のうち視認領域２３に対応する部分に相当する。ユーザ１９０が、頭に装着したＨＭＤ１１０を動かすと、その動きに連動して仮想カメラ１も動く。その結果、仮想空間２における視認領域２３の位置が変化する。これにより、モニタ１１２に表示される視界画像２６は、パノラマ画像２２のうち、仮想空間２においてユーザ１９０が向いた方向の視認領域２３に重畳する画像に更新される。ユーザ１９０は、仮想空間２における所望の方向を視認することができる。

このように、仮想カメラ１の傾きは仮想空間２におけるユーザ１９０の視線（基準視線５）に相当し、仮想カメラ１が配置される位置は、仮想空間２におけるユーザ１９０の視点に相当する。したがって、仮想カメラ１の位置または傾きを変更することにより、モニタ１１２に表示される画像が更新され、ユーザ１９０の視界が移動される。

ユーザ１９０は、ＨＭＤ１１０を装着している間、現実世界を視認することなく、仮想空間２に展開されるパノラマ画像２２のみを視認できる。そのため、ＨＭＤシステム１００は、仮想空間２への高い没入感覚をユーザ１９０に与えることができる。

ある局面において、プロセッサ１０は、ＨＭＤ１１０を装着したユーザ１９０の現実空間における移動に連動して、仮想空間２において仮想カメラ１を移動し得る。この場合、プロセッサ１０は、仮想空間２における仮想カメラ１の位置および傾きに基づいて、ＨＭＤ１１０のモニタ１１２に投影される画像領域（視認領域２３）を特定する。

ある実施の形態に従うと、仮想カメラ１は、２つの仮想カメラ、すなわち、右目用の画像を提供するための仮想カメラと、左目用の画像を提供するための仮想カメラとを含み得る。また、ユーザ１９０が３次元の仮想空間２を認識できるように、適切な視差が、２つの仮想カメラに設定される。本実施の形態においては、仮想カメラ１が２つの仮想カメラを含み、２つの仮想カメラのロール軸が合成されることによって生成されるロール軸（ｗ）がＨＭＤ１１０のロール軸（ｗ）に適合されるように構成されているものとして、本開示に係る技術思想を例示する。

［ＨＭＤの制御装置］
図８を参照して、ＨＭＤ１１０の制御装置について説明する。ある実施の形態において、制御装置は周知の構成を有するコンピュータ２００によって実現される。図８は、ある実施の形態に従うコンピュータ２００をモジュール構成として表わすブロック図である。

図８に示されるように、コンピュータ２００は、表示制御モジュール２２０と、仮想空間制御モジュール２３０と、メモリモジュール２４０と、通信制御モジュール２５０とを備える。表示制御モジュール２２０は、サブモジュールとして、仮想カメラ制御モジュール２２１と、視界領域決定モジュール２２２と、視界画像生成モジュール２２３と、傾き特定モジュール２２４と、顔器官検出モジュール２２５と、動き検出モジュール２２６と、視点特定モジュール２２７とを含む。仮想空間制御モジュール２３０は、サブモジュールとして、仮想空間定義モジュール２３１と、仮想オブジェクト生成モジュール２３２と、操作オブジェクト制御モジュール２３３と、アバター制御モジュール２３４とを含む。

ある実施の形態において、表示制御モジュール２２０と仮想空間制御モジュール２３０とは、プロセッサ１０によって実現される。別の実施の形態において、複数のプロセッサ１０が表示制御モジュール２２０と仮想空間制御モジュール２３０として作動してもよい。メモリモジュール２４０は、メモリ１１またはストレージ１２によって実現される。通信制御モジュール２５０は、通信インターフェイス１４によって実現される。

ある局面において、表示制御モジュール２２０は、ＨＭＤ１１０のモニタ１１２における画像表示を制御する。

仮想カメラ制御モジュール２２１は、仮想空間２に仮想カメラ１を配置する。また、仮想カメラ制御モジュール２２１は、仮想空間２における仮想カメラ１の位置と、仮想カメラ１の傾き（向き）を制御する。視界領域決定モジュール２２２は、ＨＭＤ１１０を装着したユーザ１９０の頭の傾きと、仮想カメラ１の位置に応じて、視認領域２３を規定する。視界画像生成モジュール２２３は、決定された視認領域２３に基づいて、モニタ１１２に表示される視界画像２６を生成する。

傾き特定モジュール２２４は、ＨＭＤセンサ１２０の出力に基づいてＨＭＤ１１０の傾きを特定する。他の局面において、傾き特定モジュール２２４は、モーションセンサとして機能するセンサ１１４の出力に基づいてＨＭＤ１１０の傾きを特定する。顔器官検出モジュール２２５は、第１カメラ１１５および第２カメラ１１７が生成するユーザ１９０の顔の画像から、ユーザ１９０の顔を構成する器官（例えば、口，目，眉）を検出する。動き検出モジュール２２６は、顔器官検出モジュール２２５が検出した各器官の動き（形状）を検出する。図１０〜図１２において、顔器官検出モジュール２２５および動き検出モジュール２２６の制御内容は後述される。

視点特定モジュール２２７は、注視センサ１４０からの信号に基づいて、ユーザ１９０の仮想空間２における視線を検出する。次に、視点特定モジュール２２７は、検出したユーザ１９０の視線と仮想空間２の天球とが交わる視点位置（ＸＹＺ座標系における座標値）を検出する。より具体的には、視点特定モジュール２２７は、ｕｖｗ座標系で規定されるユーザ１９０の視線と、仮想カメラ１の位置および傾きとに基づいて、視点位置を検出する。視点特定モジュール２２７は、検出した視点位置をサーバ１５０に送信する。他の局面において、視点特定モジュール２２７は、ユーザ１９０の視線を表す視線情報をサーバ１５０に送信するように構成されてもよい。係る場合、サーバ１５０が受信した視線情報に基づいて視点位置を算出し得る。

仮想空間制御モジュール２３０は、ユーザ１９０に提供される仮想空間２を制御する。仮想空間定義モジュール２３１は、仮想空間２を表わす仮想空間データを生成することにより、ＨＭＤシステム１００における仮想空間２を規定する。

仮想オブジェクト生成モジュール２３２は、仮想空間２に配置されるオブジェクトを生成する。オブジェクトは、例えば、ゲームのストーリーの進行に従って配置される森、山その他を含む風景、動物等を含み得る。

操作オブジェクト制御モジュール２３３は、仮想空間２においてユーザ１９０の操作を受け付けるための操作オブジェクトを仮想空間２に配置する。ユーザ１９０は、操作オブジェクトを操作することにより、例えば、仮想空間２に配置されるオブジェクトを操作する。ある局面において、操作オブジェクトは、例えば、ユーザ１９０の手に相当する手オブジェクト等を含み得る。ある局面において、操作オブジェクト制御モジュール２３３は、モーションセンサ１３０の出力に基づいて現実空間におけるユーザ１９０の手の動きに連動するように仮想空間２における手オブジェクトを動かす。ある局面において、操作オブジェクトは、後述するアバターオブジェクトの手の部分に相当し得る。

アバター制御モジュール２３４は、ネットワークを介して接続される他のコンピュータ２００のユーザ１９０のアバターオブジェクトを仮想空間２に配置するためのデータを生成する。ある局面において、アバター制御モジュール２３４は、ユーザ１９０のアバターオブジェクトを仮想空間２に配置するためのデータを生成する。ある局面において、アバター制御モジュール２３４は、ユーザ１９０を含む画像に基づいて、ユーザ１９０を模したアバターオブジェクトを生成する。他の局面において、アバター制御モジュール２３４は、複数種類のアバターオブジェクト（例えば、動物を模したオブジェクトや、デフォルメされた人のオブジェクト）の中からユーザ１９０による選択を受け付けたアバターオブジェクトを仮想空間２に配置するためのデータを生成する。

アバター制御モジュール２３４は、ＨＭＤセンサ１２０が検出するＨＭＤ１１０の動きをアバターオブジェクトに反映する。例えば、アバター制御モジュール２３４は、ＨＭＤ１１０が傾いたことを検知して、アバターオブジェクトを傾けて配置するためのデータを生成する。また、ある局面において、アバター制御モジュール２３４は、コントローラ１６０の動きをアバターオブジェクトに反映する。この場合、コントローラ１６０は、コントローラ１６０の動きを検知するためのモーションセンサ、加速度センサ、または複数の発光素子（例えば、赤外線ＬＥＤ）などを備える。また、アバター制御モジュール２３４は、動き検出モジュール２２６が検出した顔器官の動作を、仮想空間２に配置されるアバターオブジェクトの顔に反映させる。

仮想空間制御モジュール２３０は、仮想空間２に配置されるオブジェクトのそれぞれが、他のオブジェクトと衝突した場合に、当該衝突を検出する。仮想空間制御モジュール２３０は、例えば、あるオブジェクトと、別のオブジェクトとが触れたタイミングを検出することができ、当該検出がされたときに、予め定められた処理を行なう。仮想空間制御モジュール２３０は、オブジェクトとオブジェクトとが触れている状態から離れたタイミングを検出することができ、当該検出がされたときに、予め定められた処理を行なう。仮想空間制御モジュール２３０は、オブジェクトとオブジェクトとが触れている状態であることを検出することができる。具体的には、操作オブジェクト制御モジュール２３３は、操作オブジェクトと、他のオブジェクトとが触れたときに、これら操作オブジェクトと他のオブジェクトとが触れたことを検出して、予め定められた処理を行なう。

メモリモジュール２４０は、コンピュータ２００が仮想空間２をユーザ１９０に提供するために使用されるデータを保持している。ある局面において、メモリモジュール２４０は、空間情報２４１と、オブジェクト情報２４２と、ユーザ情報２４３と、顔テンプレート２４４とを保持している。

空間情報２４１は、仮想空間２を提供するために規定された１つ以上のテンプレートを保持している。

オブジェクト情報２４２は、仮想空間２を構成する複数のパノラマ画像２２、仮想空間２にオブジェクトを配置するためのデータを含む。パノラマ画像２２は、静止画像および動画像を含み得る。また、パノラマ画像２２は、非現実空間の画像と現実空間の画像（例えば、コンピュータグラフィックス）とを含み得る。

ユーザ情報２４３は、ユーザ１９０を識別するユーザＩＤを保持する。ユーザＩＤは、例えば、ユーザが使用するコンピュータ２００に設定されるＩＰ（Internet Protocol）アドレスまたはＭＡＣ（Media Access Control）アドレスであり得る。他の局面において、ユーザＩＤはユーザによって設定され得る。ユーザ情報２４３は、ＨＭＤシステム１００の制御装置としてコンピュータ２００を機能させるためのプログラム等を含む。

顔テンプレート２４４は、顔器官検出モジュール２２５が、ユーザ１９０の顔器官を検出するために予め記憶されたテンプレートを保持している。ある実施形態において、顔テンプレート２４４は、口テンプレート２４５と、目テンプレート２４６と、眉テンプレート２４７とを保持する。各テンプレートは、顔を構成する器官に対応する画像であり得る。例えば、口テンプレート２４５は、口の画像であり得る。なお、各テンプレートは複数の画像を含んでもよい。

メモリモジュール２４０に格納されているデータおよびプログラムは、ＨＭＤ１１０のユーザ１９０によって入力される。あるいは、プロセッサ１０が、当該コンテンツを提供する事業者が運営するコンピュータ（例えば、サーバ１５０）からプログラムあるいはデータをダウンロードして、ダウンロードされたプログラムあるいはデータをメモリモジュール２４０に格納する。

通信制御モジュール２５０は、ネットワーク１９を介して、サーバ１５０その他の情報通信装置と通信し得る。

ある局面において、表示制御モジュール２２０および仮想空間制御モジュール２３０は、例えば、ユニティテクノロジーズ社によって提供されるＵｎｉｔｙ（登録商標）を用いて実現され得る。別の局面において、表示制御モジュール２２０および仮想空間制御モジュール２３０は、各処理を実現する回路素子の組み合わせとしても実現され得る。

コンピュータ２００における処理は、ハードウェアと、プロセッサ１０により実行されるソフトウェアとによって実現される。このようなソフトウェアは、ハードディスクその他のメモリモジュール２４０に予め格納されている場合がある。また、ソフトウェアは、ＣＤ−ＲＯＭその他のコンピュータ読み取り可能な不揮発性のデータ記録媒体に格納されて、プログラム製品として流通している場合もある。あるいは、当該ソフトウェアは、インターネットその他のネットワークに接続されている情報提供事業者によってダウンロード可能なプログラム製品として提供される場合もある。このようなソフトウェアは、光ディスク駆動装置その他のデータ読取装置によってデータ記録媒体から読み取られて、あるいは、通信制御モジュール２５０を介してサーバ１５０その他のコンピュータからダウンロードされた後、記憶モジュールに一旦格納される。そのソフトウェアは、プロセッサ１０によって記憶モジュールから読み出され、実行可能なプログラムの形式でＲＡＭに格納される。プロセッサ１０は、そのプログラムを実行する。

［アバターオブジェクト］
図９Ａおよび図９Ｂを参照して、本実施の形態に従うアバターオブジェクトについて説明する。以下、ＨＭＤセット１０５Ａ，１０５Ｂの各ユーザのアバターオブジェクトを説明する図である。以下、ＨＭＤセット１０５Ａのユーザをユーザ１９０Ａ、ＨＭＤセット１０５Ｂのユーザをユーザ１９０Ｂ、ＨＭＤセット１０５Ｃのユーザをユーザ１９０Ｃ、ＨＭＤセット１０５Ｄのユーザをユーザ１９０Ｄと表す。また、ＨＭＤセット１０５Ａに関する各構成要素の参照符号にＡが付され、ＨＭＤセット１０５Ｂに関する各構成要素の参照符号にＢが付され、ＨＭＤセット１０５Ｃに関する各構成要素の参照符号にＣが付され、ＨＭＤセット１０５Ｄに関する各構成要素の参照符号にＤが付される。例えば、ＨＭＤ１１０Ａは、ＨＭＤセット１０５Ａに含まれる。

図９Ａは、ネットワークにおいて、複数のＨＭＤのそれぞれが、複数のユーザのそれぞれに仮想空間を提供する状況を表す模式図である。図９Ａを参照して、コンピュータ２００Ａ〜２００Ｄは、ＨＭＤ１１０Ａ〜１１０Ｄを介して、ユーザ１９０Ａ〜１９０Ｄに、仮想空間２Ａ〜２Ｄをそれぞれ提供する。図９Ａに示される例において、仮想空間２Ａおよび仮想空間２Ｂは同じデータによって構成されている。換言すれば、コンピュータ２００Ａとコンピュータ２００Ｂとは同じ仮想空間を共有していることになる。仮想空間２Ａおよび仮想空間２Ｂには、ユーザ１９０Ａのアバターオブジェクト９００Ａと、ユーザ１９０Ｂのアバターオブジェクト９００Ｂとが存在する。なお、仮想空間２Ａにおけるアバターオブジェクト９００Ａおよび仮想空間２Ｂにおけるアバターオブジェクト９００ＢがそれぞれＨＭＤを装着しているが、これは説明を分かりやすくするためのものであって、実際にはこれらのオブジェクトはＨＭＤを装着していない。

ある局面において、仮想カメラ制御モジュール２２１Ａは、ユーザ１９０Ａの視界画像２６Ａを撮影する仮想カメラ１Ａを、アバターオブジェクト９００Ａの目の位置に配置し得る。

図９Ｂは、図９Ａにおけるユーザ１９０Ａの視界画像９１０を示す図である。視界画像９１０は、ＨＭＤ１１０Ａのモニタ１１２Ａに表示される画像である。この視界画像９１０は、仮想カメラ１Ａにより生成された画像である。また、視界画像９１０には、ユーザ１９０Ｂのアバターオブジェクト９００Ｂが表示されている。なお、特に図示はしていないが、ユーザ１９０Ｂの視界画像にも同様に、ユーザ１９０Ａのアバターオブジェクト９００Ａが表示されている。

図９Ｂの状態において、ユーザ１９０Ａは仮想空間を介してユーザ１９０Ｂと対話による通信（コミュニケーション）を図ることができる。より具体的には、マイク１１９Ａにより取得されたユーザ１９０Ａの音声は、サーバ１５０を介してユーザ１９０ＢのＨＭＤ１１０Ｂに送信され、ＨＭＤ１１０Ｂに設けられたスピーカ１１８Ｂから出力される。また、ユーザ１９０Ｂの音声は、サーバ１５０を介してユーザ１９０ＡのＨＭＤ１１０Ａに送信され、ＨＭＤ１１０Ａに設けられたスピーカ１１８Ａから出力される。

また、ユーザ１９０Ｂの動作（ＨＭＤ１１０Ｂの動作およびコントローラ１６０Ｂの動作）は、アバター制御モジュール２３４Ａにより仮想空間２Ａに配置されるアバターオブジェクト９００Ｂに反映される。これにより、ユーザ１９０Ａは、ユーザ１９０Ｂの動作を、アバターオブジェクト９００Ｂを通じて認識できる。

［フェイストラッキング］
以下、図１０〜図１２を参照して、ユーザの表情（顔の動き）を検出するための具体例について説明する。図１０〜図１２では、一例として、ユーザ１９０の口の動きを検出する具体例について説明する。なお、図１０〜図１２で説明される検出方法は、ユーザ１９０の口の動きに限られず、ユーザ１９０の顔を構成する他の器官（例えば、目、眉、鼻、頬）の動きの検出にも適用され得る。

図１０は、ユーザの顔画像１０００から口を検出する制御について説明する図である。第１カメラ１１５により生成された顔画像１０００は、ユーザ１９０の鼻と口とを含む。

顔器官検出モジュール２２５は、顔テンプレート２４４に格納される口テンプレート２４５を利用したパターンマッチングにより、顔画像１０００から口領域１０１０を特定する。ある局面において、顔器官検出モジュール２２５は、顔画像１０００において、矩形上の比較領域を設定し、この比較領域の大きさ、位置および角度をそれぞれ変えながら、比較領域の画像と、口テンプレート２４５の画像との類似度を算出する。顔器官検出モジュール２２５は、予め定められたしきい値よりも大きい類似度が算出された比較領域を、口領域１０１０として特定し得る。

顔器官検出モジュール２２５はさらに、算出した類似度がしきい値よりも大きい比較領域の位置と、他の顔器官（例えば、目、鼻）の位置との相対関係に基づいて、当該比較領域が口領域に相当するか否かを判断し得る。

動き検出モジュール２２６は、顔器官検出モジュール２２５が検出した口領域１０１０から、より詳細な口の形状を検出する。

図１１は、動き検出モジュール２２６が口の形状を検出する処理を説明する図（その１）である。図１１を参照して、動き検出モジュール２２６は、口領域１０１０に含まれる口の形状（唇の輪郭）を検出するための輪郭検出線１１００を設定する。輪郭検出線１１００は、顔の高さ方向に直交する方向に、所定間隔で複数本設定される。

動き検出モジュール２２６は、複数本の輪郭検出線１１００の各々に沿った口領域１０１０の輝度値の変化を検出し、輝度値の変化が急激な位置を輪郭点として特定し得る。より具体的には、動き検出モジュール２２６は、隣接画素との輝度差（すなわち、輝度値変化）が予め定められたしきい値以上である画素を、輪郭点として特定し得る。画素の輝度値は、例えば、画素のＲＢＧ値を所定の重み付けで積算することにより得られる。

動き検出モジュール２２６は、口領域１０１０に対応する画像から２種類の輪郭点を特定する。動き検出モジュール２２６は、口（唇）の外側の輪郭に対応する輪郭点１１１０と、口（唇）の内側の輪郭に対応する輪郭点１１２０とを特定する。ある局面において、動き検出モジュール２２６は、１つの輪郭検出線１１００上に３つ以上の輪郭点が検出された場合には、両端の輪郭点を外側の輪郭点１１１０として特定し得る。この場合、動き検出モジュール２２６は、外側の輪郭点１１１０以外の輪郭点を、内側の輪郭点１１２０として特定し得る。また、動き検出モジュール２２６は、１つの輪郭検出線１１００上に２つ以下の輪郭点が検出された場合には、検出された輪郭点を外側の輪郭点１１１０として特定し得る。

図１２は、動き検出モジュール２２６が口の形状を検出する処理を説明するための図（その２）である。図１２では、外側の輪郭点１１１０は白丸、内側の輪郭点１１２０はハッチングされた丸としてそれぞれ示されている。

動き検出モジュール２２６は、内側の輪郭点１１２０間を補完することにより、口形状１２００を特定する。ある局面において、動き検出モジュール２２６は、スプライン補間などの非線形の補間方法を用いて、口形状１２００を特定し得る。なお、他の局面において、動き検出モジュール２２６は、外側の輪郭点１１１０間を補完することにより口形状１２００を特定してもよい。さらに他の局面において、動き検出モジュール２２６は、想定される口形状（人の上唇と下唇とによって形成され得る所定の形状）から、大きく逸脱する輪郭点を除外し、残った輪郭点によって口形状１２００を特定してもよい。このようにして、動き検出モジュール２２６は、ユーザの口の動作（形状）を特定し得る。なお、口形状１２００の検出方法は上記に限られず、動き検出モジュール２２６は、他の手法により口形状１２００を検出してもよい。また、動き検出モジュール２２６は、同様にして、ユーザの目および眉の動作を検出し得る。なお、動き検出モジュール２２６は、頬、鼻などの器官の形状を検出可能に構成されてもよい。

図１３は、フェイストラッキングデータの構造の一例を表す。動き検出モジュール２２６は、ユーザ１９０の表情を表すフェイストラッキングデータを生成する。フェイストラッキングデータは、検出対象の各器官の形状を構成する特徴点のｕｖｗ視野座標系における位置座標を表す。例えば、図１３に示されるポイントｍ１、ｍ２・・は、口形状１２００を構成する外側の輪郭点１１１０に対応する。ある局面において、フェイストラッキングデータは、第１カメラ１１５の位置を基準（原点）としたｕｖｗ視野座標系における座標値である。他の局面において、フェイストラッキングデータは、各器官ごとに予め定められた特徴点を基準（原点）とした座標系における座標値である。一例として、ポイントｍ１、ｍ２・・は、外側の輪郭点１１１０のうち口角に対応するいずれか一方の特徴点を原点とした座標系における座標値である。

コンピュータ２００は、生成されたフェイストラッキングデータをサーバ１５０に送信する。サーバ１５０は、コンピュータ２００と通信する他のコンピュータ２００にこのデータを転送する。他のコンピュータ２００は、受信したフェイストラッキングデータを、受信元のコンピュータ２００のユーザに対応するアバターオブジェクトに反映する。

図９Ｂに示される例において、コンピュータ２００Ａは、コンピュータ２００Ｂからユーザ１９０Ｂの表情を表すフェイストラッキングデータを受信する。コンピュータ２００Ａは、受信したデータをアバターオブジェクト９００Ｂに反映する。一例として、アバターオブジェクト９００Ｂを構成するポリゴンの頂点のうち、フェイストラッキングデータに対応する頂点が設定されている。コンピュータ２００Ａは、対応する頂点の位置をフェイストラッキングデータに基づいて移動する。これにより、ユーザ１９０Ｂの表情がアバターオブジェクト９００Ｂに反映される。その結果、ユーザ１９０Ａは、アバターオブジェクト９００Ｂを介してユーザ１９０Ｂの表情を認識できる。

［サーバ１５０の制御構造］
図１４は、サーバ１５０のハードウェア構成およびモジュール構成を説明する図である。ある実施の形態において、サーバ１５０は、主たる構成要素として通信インターフェイス１４１０と、プロセッサ１４２０と、ストレージ１４４０とを備える。

通信インターフェイス１４１０は、コンピュータ２００など外部の通信機器と信号を送受信するための変復調処理などを行なう無線通信用の通信モジュールとして機能する。通信インターフェイス１４１０は、チューナ、高周波回路等により実現される。

プロセッサ１４２０は、サーバ１５０の動作を制御する。プロセッサ１４２０は、ストレージ１４４０に格納される各種の制御プログラムを実行することにより、送受信部１４２１、サーバ処理部１４２２、マッチング部１４２３、視点取得部１４２４、感情判断部１４２５、マップ生成部１４２６、切り出し部１４２７、対象特定部１４２８、およびフィルタ部１４２９として機能する。

送受信部１４２１は、各コンピュータ２００との間で各種情報を送受信する。例えば、送受信部１４２１は、仮想空間２にオブジェクトを配置する要求、オブジェクトを仮想空間２から削除する要求、オブジェクトを移動させる要求、ユーザの音声、または仮想空間２を定義するための情報などを各コンピュータ２００に送信する。

サーバ処理部１４２２は、コンピュータ２００から受信した情報に基づいて、後述されるユーザ情報１４４４を更新する。

マッチング部１４２３は、複数のユーザを関連付けるための一連の処理を行なう。マッチング部１４２３は、例えば、複数のユーザが同じ仮想空間２を共有するための入力操作を行った場合に、仮想空間２に属する複数のユーザの各々のユーザＩＤを関連付ける処理などを行なう。

視点取得部１４２４は、コンピュータ２００から受信した視線情報に基づいて、仮想空間２（ＸＹＺ座標系）におけるユーザ１９０の視点位置を取得する。なお、コンピュータ２００の視点特定モジュール２２７が視点位置を特定してサーバ１５０に特定した情報を送信するように構成される場合、プロセッサ１４２０は、視点取得部１４２４として機能しなくてもよい。

感情判断部１４２５は、コンピュータ２００から受信したフェイストラッキングデータに基づいて、ユーザ１９０の感情を判断する。マップ生成部１４２６は、ユーザ１９０の視点位置に基づいてマップを生成する。

切り出し部１４２７は、仮想空間２を構成するパノラマ画像２２におけるユーザ１９０の視点位置の周辺画像を切り出す。対象特定部１４２８は、切り出し部１４２７によって切り出された周辺画像に含まれるコンテンツ（ユーザが視線を注ぐ対象）を特定する。フィルタ部１４２９は、ユーザ１９０の視点位置をストレージ１４４０に保存するか否かを判断する。

ストレージ１４４０は、仮想空間指定情報１４４１と、オブジェクト指定情報１４４２と、パノラマ画像ＤＢ１４４３と、ユーザ情報１４４４と、広告ＤＢ１４４５と、第１テーブルＴＬ１と、第２テーブルＴＬ２と、基準データＤＢ１４４６と、表情識別器ＤＢ１４４７と、物体識別器ＤＢ１４４８とを保持する。

仮想空間指定情報１４４１は、コンピュータ２００の仮想空間定義モジュール２３１が仮想空間２を定義するために用いられる情報である。例えば、仮想空間指定情報１４４１は、仮想空間２の大きさまたは形状を指定する情報を含む。

オブジェクト指定情報１４４２は、コンピュータ２００の仮想オブジェクト生成モジュール２３２が仮想空間２に配置（生成）するオブジェクトを指定する。パノラマ画像ＤＢ１４４３は、コンピュータ２００に配信する複数のパノラマ画像２２を格納する。

ユーザ情報１４４４は、各コンピュータ２００から受信するユーザＩＤを含む。つまり、ユーザ情報１４４４は、複数のユーザの各々を識別する情報を含む。

ユーザ情報１４４４はさらに、表情情報１４５１と、位置情報１４５２と、傾き情報１４５３と、視点位置情報１４５４とを含む。表情情報１４５１は、ユーザごとのフェイストラッキングデータである。一例として、表情情報１４５１は、ユーザＩＤとフェイストラッキングデータとが関連付けられたデータである。

位置情報１４５２は、ユーザＩＤとユーザの視座（仮想カメラ１の位置）とが関連付けられたデータである。傾き情報１４５３は、ユーザＩＤと仮想カメラ１（ＨＭＤ１１０）の傾きとが関連付けられたデータである。視点位置情報１４５４は、ユーザＩＤとパノラマ画像ＩＤと視点位置とが関連付けられたデータである。視点位置情報１４５４の詳細は後述される。ユーザ情報１４４４は、各コンピュータ２００から入力される情報に基づいてサーバ処理部１４２２によって随時更新される。

広告ＤＢ１４４５は、コンピュータ２００に配信するための複数の広告を保持する。第１テーブルＴＬ１は、複数の広告の各々と、対象特定部１４２８によって特定される対象とを互いに関連付けて保持する。第２テーブルＴＬ２は、対象特定部１４２８によって特定される対象と、パノラマ画像２２の種類とを互いに関連付けて保持する。第１テーブルＴＬ１、第２テーブルＴＬ２の詳細は後述される。

基準データＤＢ１４４６は、フェイストラッキングデータとの比較に用いられる基準データと、ユーザＩＤとを関連付けて保持する。表情識別器ＤＢ１４４７は、表情の種類ごとに表情識別器を含む。一例として、表情識別器ＤＢ１４４７は４種類の表情識別器１４６１〜１４６４を含む。表情識別器１４６１は、笑っている表情を識別するためのプログラムとして機能する。表情識別器１４６２は、怒っている表情を識別するためのプログラムとして機能する。表情識別器１４６３は、驚いている表情を識別するためのプログラムとして機能する。表情識別器１４６４は、悲しんでいる表情を識別するためのプログラムとして機能する。例えば、表情識別器１４６１は、複数の笑っている人のフェイストラッキングデータを訓練データとして重み係数を学習する。

物体識別器ＤＢ１４４８は、対象の種類ごとの物体識別器を含む。図１４に示される例において、物体識別器ＤＢ１４４８は、物体識別器１４７１，１４７２，１４７３，・・・を含む。例えば、物体識別器１４７１は、猫を識別するためのプログラムとして機能する。

［ユーザ情報の更新処理］
図１５は、サーバ１５０がコンピュータ２００Ａおよび２００Ｂと通信してユーザ情報１４４４を更新する処理を表すフローチャートである。図１５に示される処理は、コンピュータ２００のプロセッサ１０がメモリ１１またはストレージ１２に格納される制御プログラムを実行し、サーバ１５０のプロセッサ１４２０がストレージ１４４０に格納される制御プログラムを実行することにより実現され得る。

ステップＳ１５０２において、サーバ１５０のプロセッサ１４２０は、コンピュータ２００Ａおよび２００Ｂから入力される情報（例えば、複数のパノラマ画像２２のいずれかを指定する情報）に基づいて、仮想空間を定義する。プロセッサ１４２０は送受信部１４２１として、定義した仮想空間に対応する仮想空間指定情報１４４１をコンピュータ２００Ａおよび２００Ｂに送信する。このとき、各コンピュータ２００は、仮想空間指定情報１４４１と併せてユーザＩＤをサーバ１５０に送信する。プロセッサ１４２０はさらに、マッチング部１４２３として、ユーザ１９０Ａおよび１９０Ｂが同じ仮想空間を共有するものとして、彼らのユーザＩＤを互いに関連付け得る。

ステップＳ１５０４において、コンピュータ２００Ａのプロセッサ１０Ａは、仮想空間定義モジュール２３１Ａとして、仮想空間２Ａを定義する。具体的には、プロセッサ１０Ａは、受信した仮想空間指定情報１４４１に基づくパノラマ画像２２Ａを用いて仮想空間２Ａを構成する。ステップＳ１５０６において、コンピュータ２００Ｂのプロセッサ１０Ｂは、プロセッサ１０Ａと同様に仮想空間２Ｂを定義する。

ステップＳ１５０８において、プロセッサ１０Ａは、第１カメラ１１５Ａおよび第２カメラ１１７Ａによってユーザ１９０Ａの顔を撮影する。このとき、プロセッサ１０Ａは、モニタ１１２Ａに、無表情での撮影を促すメッセージを表示する。プロセッサ１０Ａは、取得した画像に基づいてフェイストラッキングデータを生成する。このとき生成されたフェイストラッキングは基準データとして機能する。プロセッサ１０Ａは、生成した基準データをサーバ１５０に送信する。ステップＳ１５１０において、プロセッサ１０Ｂも同様に、基準データを生成してサーバ１５０に送信する。プロセッサ１０Ａおよび１０Ｂは、サーバ１５０に何らかのデータを送信する際に、ユーザＩＤを併せて送信する。

ステップＳ１５１２において、サーバ１５０は、各コンピュータ２００から受信した基準データに基づいて、基準データＤＢ１４４６を更新する。

ステップＳ１５１４において、プロセッサ１０Ａは、アバター制御モジュール２３４Ａとして、ユーザ１９０Ａ自身のアバターオブジェクト９００Ａ（図１５では「自アバターオブジェクト」と表記）を仮想空間２Ａに配置する。プロセッサ１０Ａはさらに、仮想カメラ１Ａをアバターオブジェクト９００Ａの位置（例えば、目の位置）に配置する。プロセッサ１０Ａは、アバターオブジェクト９００Ａの位置情報（つまり、ユーザ１９０Ａの仮想空間２Ａにおける視座情報）とモデリングデータとをサーバ１５０に送信する。なお、アバターオブジェクト９００Ａが予め定められた種類から選択されるアバターである場合、プロセッサ１０Ａは、当該アバターの種類を特定する情報をサーバ１５０に送信し得る。

ステップＳ１５１６において、プロセッサ１４２０は、受信したアバターオブジェクト９００Ａの位置情報に基づいてユーザ１９０Ａ（のユーザＩＤ）に対応する位置情報１４５２を更新する。プロセッサ１４２０はさらに、コンピュータ２００Ａから受信した情報を、コンピュータ２００Ａと通信するコンピュータ２００Ｂに送信する。

ステップＳ１５１８において、プロセッサ１０Ｂは、アバター制御モジュール２３４Ｂとして、受信した情報に基づいて、仮想空間２Ｂにアバターオブジェクト９００Ａを配置する。

ステップＳ１５２０〜Ｓ１５２４において、ステップＳ１５１４〜Ｓ１５１８と同様に、仮想空間２Ａおよび２Ｂにアバターオブジェクト９００Ｂ（図１５では「他アバターオブジェクト」と表記）が生成され、ユーザ１９０Ｂに対応する位置情報１４５２が更新される。

ステップＳ１５２６において、プロセッサ１０Ａは、第１カメラ１１５Ａおよび第２カメラ１１７Ａによりユーザ１９０Ａの顔を撮影して、深度情報を含む顔画像を生成する。プロセッサ１０Ａは、顔器官検出モジュール２２５Ａおよび動き検出モジュール２２６Ａとして、顔画像に基づいてフェイストラッキングデータを生成し、サーバ１５０に送信する。

ステップＳ１５２８において、プロセッサ１０Ａは、視点特定モジュール２２７Ａとして、ユーザ１９０Ａの仮想空間２Ａにおける視点位置を特定し、サーバ１５０に送信する。

ステップＳ１５３０において、プロセッサ１０Ａは、ＨＭＤセンサ１２０の出力および／またはコントローラ１６０の出力に基づいて、仮想カメラ１Ａの位置および傾きを更新する。プロセッサ１０Ａは、更新後の仮想カメラ１Ａの位置および傾きを示す情報をサーバ１５０に送信する。

ステップＳ１５３２〜Ｓ１５３６において、プロセッサ１０Ｂは、ステップＳ１５２６〜Ｓ１５３０の処理と同様に、フェイストラッキングデータ、ユーザ１９０Ｂの仮想空間２Ｂにおける視点位置、並びに仮想カメラ１Ｂの位置および傾きを示す情報をサーバ１５０に送信する。

ステップＳ１５３８において、プロセッサ１４２０は、コンピュータ２００Ａおよび２００Ｂから受信した各種情報に基づいて、ユーザ情報１４４４を更新する。ある局面において、プロセッサ１４２０は、各コンピュータ２００から受信した視点位置のうち、ユーザ１９０の操作または動作に関する予め定められた条件を満たす視点位置のみを視点位置情報１４５４に保存し得る。この処理の詳細は後述される。

プロセッサ１４２０はさらに、コンピュータ２００Ａから受信した情報をコンピュータ２００Ｂに送信し、コンピュータ２００Ｂから受信した情報をコンピュータ２００Ａに送信する。

ステップＳ１５４０において、プロセッサ１０Ａは、サーバ１５０から受信した情報を仮想空間２Ａに配置されるアバターオブジェクト９００Ｂに反映する。ステップＳ１５４２において、プロセッサ１０Ａは、仮想カメラ１Ａが撮影する視界画像をモニタ１１２Ａに出力する。これにより、ユーザ１９０Ａは、ユーザ１９０Ｂの動きや表情が反映されたアバターオブジェクト９００Ｂを視認できる。その後、プロセッサ１０Ａは、ステップＳ１５２６の処理を再び実行する。

ステップＳ１５４４〜Ｓ１５４６において、プロセッサ１０Ｂは、ステップＳ１５４０〜Ｓ１５４２の処理と同様の処理を実行する。その後、プロセッサ１０Ｂは、ステップＳ１５３２の処理を再び実行する。

ある実施の形態において、繰り返し実行されるステップＳ１５２６〜Ｓ１５４６の処理は、１／６０秒または１／３０秒の間隔で実行され得る。

なお、他の局面において、上記の繰り返し実行される処理は、ユーザ１９０の音声を相手のコンピュータ２００に送信する処理、その他の仮想空間２におけるユーザ同士のコミュニケーションを促進する処理を含み得る。

［視点位置をメモリに保存する処理］
ユーザ１９０は仮想空間２を構成するパノラマ画像２２を評価し得る。仮に、ユーザ１９０がパノラマ画像２２そのものに対して評価を行なった場合、パノラマ画像２２の配信者はユーザ１９０が何に関心を示したかを把握できない可能性がある。その理由は、パノラマ画像２２が３６０度全方位に展開されているため、ユーザ１９０が何を見て評価したかを把握できないためである。以下、このような課題を解決し得る処理を説明する。

（ユーザの操作に基づく保存処理）
まず、図１６および図１７を用いて、ユーザ操作に基づいて、ユーザ１９０の視点位置をメモリに保存する処理を説明する。図１６は、ユーザ１９０Ａが視認する視界画像１６００を表す。図１７は、図１６の状態に対応する仮想空間２Ａを表す。

ある局面において、仮想空間２Ａには、現実空間における市街風景を表すパノラマ画像２２が展開されている。視界画像１６００は、パノラマ画像２２のうち視認領域２３に対応する部分の画像である。視界画像１６００は、パノラマ画像２２の一部である猫１６１０を含む。視界画像１６００はさらに、アバターオブジェクト９００Ｂと、視点オブジェクト１６２０と、操作オブジェクト１６３０と、ＵＩオブジェクト１６４０と、評価オブジェクト１６５０とを含む。

視点オブジェクト１６２０は、ユーザ１９０Ａの仮想空間２Ａにおける視点位置を表す。ある局面において、このオブジェクトは、パノラマ画像２２における視点位置を表す。図１６の例において、ユーザ１９０Ａは、猫１６１０を注視している。

図１７を参照して、プロセッサ１０Ａは、視点特定モジュール２２７Ａとして、ユーザ１９０Ａの視線１７１０を特定する。次に、視点特定モジュール２２７Ａは、視線１７１０と仮想空間２Ａの天球とが交わる座標値１７２０を特定する。プロセッサ１０Ａは、特定された座標値１７２０に視点オブジェクト１６２０を配置する。

ある局面において、プロセッサ１０Ａは、視点特定モジュール２２７Ａにより特定されたＸＹＺ座標系における座標値１７２０をサーバ１５０に送信する。

図１６を再び参照して、操作オブジェクト１６３０は手のオブジェクトであって、ユーザ１９０Ａの手の動きに連動して動く。より具体的には、プロセッサ１０Ａは操作オブジェクト制御モジュール２３３Ａとして、モーションセンサ１３０Ａの出力に基づいて、操作オブジェクト１６３０を動かすためのデータを生成する。

ＵＩオブジェクト１６４０は、パノラマ画像２２に含まれるコンテンツに対するユーザ１９０Ａの評価を受け付けるためのユーザインターフェイスとして機能する。一例として、ＵＩオブジェクト１６４０は、肯定的な文言（図１６の例では「グッド！」）を含む。ある局面において、プロセッサ１０Ａは、仮想カメラ１に連動してＵＩオブジェクト１６４０を動かす。これにより、ユーザ１９０Ａは、常にＵＩオブジェクト１６４０を視認し得る。

ユーザ１９０Ａは、視界画像１６００中に気に入ったコンテンツがあった場合に、ＵＩオブジェクト１６４０を操作する。一例として、ユーザ１９０Ａは、気に入ったコンテンツに視線１７１０を注いでいる状態において、操作オブジェクト１６３０をＵＩオブジェクト１６４０に接触させる。プロセッサ１０Ａは、これらが接触したタイミングの座標値１７２０と、これらが接触したことを表す情報（第１操作情報）とを関連付けてサーバ１５０に送信する。サーバ１５０は、第１の操作情報を関連付けられた視点位置をストレージ１４４０の視点位置情報１４５４に保存する。

他の局面において、プロセッサ１０Ａは、ユーザ１９０の関心を受け付けるためのコントローラ１６０Ａの予め定められたボタン（ＵＩ）が押下されたタイミングの座標値１７２０を、当該ボタンが押下されたことを表す情報（第２操作情報）とともにサーバ１５０に送信してもよい。

第１および第２操作情報は、ユーザ１９０Ａの操作を表す信号である。また、第１および第２操作情報が表すユーザ１９０Ａの操作は、ユーザ１９０Ａの関心を示す。以下、第１操作情報および第２操作情報を総称して「操作情報」とも言う。

図１８は、視点位置情報１４５４のデータ構造の一例を表す。視点位置情報１４５４は、ユーザＩＤと、パノラマ画像ＩＤと、視点位置と、タイミングとを互いに関連付けて保持する。パノラマ画像ＩＤは、複数のパノラマ画像２２の各々を識別する。このタイミングは、パノラマ画像２２が動画像である場合に、動画像の再生中における操作情報が入力されたタイミング（視点位置が取得されたタイミング）を表す。

図１８に示される視点位置情報１４５４は、パノラマ画像２２Ａが再生開始されてから５分３秒経過時点における視点位置（Ｘ１，Ｙ１，Ｚ１）をユーザ１９０Ａが注視していたことを表す。

上記によれば、サーバ１５０は、操作情報と関連付けられたユーザの視点位置をストレージ１４４０に保存できる。これにより、パノラマ画像２２の配信者は、ストレージ１４４０に保存された視点位置を参照することで、どのユーザがパノラマ画像２２に含まれるどのコンテンツに関心を示したのかを把握できる。

図１６を再び参照して、評価オブジェクト１６５０は、ユーザ１９０Ａ、または他のユーザが過去に操作情報の入力を行なったタイミングの視点位置を表す。ユーザ１９０Ａは、評価オブジェクト１６５０を視認することにより、他のユーザがパノラマ画像２２のどのコンテンツに関心を示したのかを把握できる。

なお、評価オブジェクト１６５０は、ユーザ１９０Ａがパノラマ画像２２を視認することを邪魔する可能性がある。そのため、ある実施形態において、評価オブジェクト１６５０は透明（例えば、透過率５０％）に設定される。

（ユーザの動作に基づく保存処理）
上記の例では、サーバ１５０は、ユーザ１９０の操作に基づいて視点位置をストレージに保存するように構成されている。係る場合、パノラマ画像の配信者は、ユーザ１９０の関心を十分に把握できない場合があり得る。例えば、パノラマ画像２２が動画像である場合、ユーザ１９０は、興味のあるコンテンツを視認したタイミングで操作情報をコンピュータ２００に入力できないことがある。また、ユーザ１９０が操作情報の入力を面倒だと思う場合もあり得る。以下、このような課題を解決し得る処理について説明する。

図１９Ａは、ユーザ１９０Ａが無表情時に取得される顔の特徴点を表す。図１９Ｂは、ユーザ１９０Ａが驚いたときに取得される顔の特徴点を表す。図１９Ａおよび図１９Ｂに示される特徴点Ｐは、動き検出モジュール２２６Ａによって取得されるユーザ１９０Ａの顔の特徴点を表す。

図１５のステップＳ１５０８で説明したように、コンピュータ２００Ａは、無表情なユーザ１９０Ａのフェイストラッキングデータ（基準データ）を生成する。図１９Ａに示される特徴点Ｐは、この基準データに対応する。一方、図１９Ｂに示される特徴点Ｐは、ステップＳ１５２６で生成されるフェイストラッキングデータに対応する。図１９Ｂに示される例において、ユーザ１９０Ａは驚いているため、目の特徴点Ｐが顔の高さ方向に広がり、眉の特徴点Ｐが上方向に移動している。つまり、基準データに対するフェイストラッキングデータの変動量は、ユーザ１９０Ａのコンテンツに対する関心の度合いを表す。

そこで、サーバ１５０のプロセッサ１４２０は、基準データに対するフェイストラッキングデータの変動量が予め定められた変動量を上回った場合に、当該フェイストラッキングデータに対応する視点位置を視点位置情報１４５４に保存する。一例として、フェイストラッキングデータに対応する視点位置は、フェイストラッキングデータの入力タイミングに最も近いタイミングで入力された視点位置であり得る。

ある局面において、プロセッサ１０Ａは、各々の特徴点ごとに基準データに対するフェイストラッキングデータの変動量を算出し、その総和に基づいて上記の判断を行なう。他の局面において、プロセッサ１０Ａは、感情による変化の度合いが大きい予め定められた特徴点（例えば、口角に対応する特徴点）についてのみ変動量を算出し、その総和に基づいて上記判断を行なう。

上記によれば、サーバ１５０は、ユーザ１９０Ａがコンテンツに関心を示したときの視点位置を取得できる可能性を高め得る。また、ユーザ１９０は、何らの操作を行なう必要もないためパノラマ画像２２の視聴に集中できる。

（制御構造）
図２０は、ある実施形態に従う視点位置をストレージ１４４０に保存する処理を表すフローチャートである。図２０に示される処理は、サーバ１５０のプロセッサ１４２０によって実行される。

ステップＳ２０１０において、プロセッサ１４２０は、仮想空間指定情報１４４１に基づいて、仮想空間２を定義する。プロセッサ１４２０はさらに、パノラマ画像ＤＢ１４４３に格納される複数のパノラマ画像２２のうち、コンピュータ２００から指定されるパノラマ画像２２を用いて仮想空間２を構成する。

ステップＳ２０２０において、プロセッサ１４２０は、コンピュータ２００からフェイストラッキングデータ、仮想カメラ１の位置および傾き、視点位置、並びにユーザ１９０の操作を表す信号の入力を受け付ける。このフェイストラッキングデータは、ユーザ１９０の動作を表す信号と言える。操作を表す信号は、例えば、コントローラ１６０の出力を含む。他の局面において、操作を表す信号は、操作オブジェクトと他のオブジェクトとが接触したことを表す情報を含む。

ステップＳ２０３０において、プロセッサ１４２０は、視点位置と操作情報とが関連付けられているか否かを判断する。プロセッサ１４２０は、視点位置に操作情報が関連付けられていると判断した場合（ステップＳ２０３０でＹＥＳ）、視点位置をストレージ１４４０に保存する（ステップＳ２０６０）。そうでない場合（ステップＳ２０３０でＮＯ）、プロセッサ１４２０は処理をステップＳ２０４０に進める。

ステップＳ２０４０において、プロセッサ１４２０は、基準データに対するフェイストラッキングデータの変動量を算出する。より具体的には、プロセッサ１４２０は、基準データＤＢ１４４６を参照して、フェイストラッキングデータの送信元のユーザＩＤに対応する基準データを特定する。プロセッサ１４２０は、特定した基準データと、受信したフェイストラッキングデータとを比較して、変動量を算出する。

ステップＳ２０５０において、プロセッサ１４２０は、算出した変動量が予め定められた値を超えたか否かを判断する。プロセッサ１４２０は、算出した変動量が予め定められた値を超えたと判断した場合（ステップＳ２０５０でＹＥＳ）、視点位置をストレージ１４４０に保存する（ステップＳ２０６０）。そうでない場合（ステップＳ２０５０でＮＯ）、プロセッサ１４２０はステップＳ２０２０の処理を再び実行する。

上記によれば、ある実施形態に従うサーバ１５０は、ユーザ１９０の操作または動作がユーザ１９０の関心を示したときに視点位置を取得できる。

なお、上記の例ではサーバ１５０は、ユーザ１９０が関心を示したパノラマ画像２２の位置情報をストレージ１４４０に保存するように構成されているが、他の局面において、ユーザ１９０が関心を示したオブジェクトを表す情報をストレージ１４４０に保存するように構成されてもよい。一例として、ユーザ１９０が所定オブジェクトに視線を注いでいる場合であって上記説明した視点位置を保存する条件が満たされたときに、サーバ１５０は、当該オブジェクトを表す情報（例えば、各オブジェクトに設けられるＩＤ）をストレージ１４４０に保存する。

（音声による視点位置の保存処理）
ある実施形態において、サーバ１５０は、ステップＳ１８２０においてコンピュータ２００からユーザ１９０の発話に対応する音声信号の入力を受け付ける。サーバ１５０は、この音声信号が予め定められた条件を満たした場合に視点位置をストレージ１４４０に保存しても良い。ある局面において、サーバ１５０は、入力された音声信号が予め定められたレベルを上回る場合に、視点位置をストレージ１４４０に保存する。

他の局面において、サーバ１５０は、入力された音声信号からユーザ１９０の感情を推定し、推定された感情に基づいて視点位置をストレージ１４４０に保存する。例えば、サーバ１５０は、音声信号から文字列を抽出して、当該文字列から感情を推定する。このような処理は、例えば、メタデータ社が提供する「感情解析ＡＰＩ」により実現され得る。他の局面において、サーバ１５０は、音声信号の波形から感情を推定する。このような処理は、例えば、ＡＧＩ社が提供する「ＳＴＥｍｏｔｉｏｎＳＤＫ」により実現され得る。

サーバ１５０は、上記の処理により、複数の感情の種類（例えば、「喜」「怒」「哀」「楽」）の中から音声信号に基づいてユーザ１９０の感情の種類を推定する。サーバ１５０は、推定した感情の種類がユーザの関心を示すとき（例えば、感情の種類が「喜」または「楽」のとき）に、視点位置をストレージ１４４０に保存する。このとき、サーバ１５０は、推定した感情の種類を視点位置に関連付けてストレージ１４４０に保存してもよい。

（感情の推測）
図２０の例では、プロセッサ１４２０は、基準データに対するフェイストラッキングデータの変動量が大きいときに、視点位置をストレージ１４４０に保存するように構成されている。係る場合、パノラマ画像２２の配信者は、ユーザ１９０が関心を抱いたコンテンツを把握できるものの、ユーザ１９０が当該コンテンツにどのような感情を抱いたかは分からない。そこで、ある実施形態に従うサーバ１５０は、ユーザ１９０がコンテンツにどのような感情を抱いたかを推測する。

プロセッサ１４２０は、感情判断部１４２５として、基準データに対する変動量がしきい値以上であるフェイストラッキングデータから特徴量を算出する。感情判断部１４２５は、表情識別器１４６１〜１４６４を用いて、算出した特徴量に対応する表情の種類を特定する。

一例として、感情判断部１４２５は、複数のＳＶＭ（Support Vector Machine）に従う表情識別器１４６１〜１４６４を用いて、ＣＮＮ（Convolutional Neural Network）により導出される特徴量から表情の種類（笑い、怒り、驚き、悲しみ）を特定する。なお、表情の種類の特定方法は当該方法に限られず、公知の機械学習が適用され得る。

他の局面において、感情判断部１４２５は、フェイストラッキングデータの配置パターンに基づいて、表情の種類を特定し得る。さらに他の局面において、感情判断部１４２５は、ユーザ１９０の顔画像（第１カメラ１１５および第２カメラ１１７が撮影する画像）の入力を受け付け、当該顔画像に基づいて表情の種類を特定し得る。

図２１は、視点位置と感情の種類とを関連付けて保存する処理を表すフローチャートである。なお、図２１に示される処理のうち上述の処理と同じ処理については同じ符号を付している。そのため、その処理についての説明は繰り返さない。

ステップＳ１９１０において、プロセッサ１４２０は、感情判断部１４２５として、基準データに対する変動量が予め定められた値を超えたフェイストラッキングデータに基づいて、表情の種類を特定する。

ステップＳ１９２０において、プロセッサ１４２０は、視点位置と特定した表情の種類とを関連付けてストレージ１４４０（視点位置情報１４５４）に保存する。

上記によれば、ある実施形態に従うサーバ１５０は、ユーザ１９０が関心を抱いたコンテンツの位置情報（視点位置）と、当該コンテンツに対するユーザ１９０の感情（表情）とを関連付けてストレージ１４４０に保存できる。これにより、パノラマ画像２２の配信者は、より詳細にパノラマ画像２２に対するユーザ１９０の評価を得られる。

（視点の可視化）
上記の例において、プロセッサ１４２０は、ユーザ１９０が関心を示した視点位置をストレージ１４４０に保存するように構成されている。係る場合、パノラマ画像２２の配信者は、視点位置（座標値）と、パノラマ画像２２との対応関係を調べる必要がある。そこで、ある実施形態に従うプロセッサ１４２０は、マップ生成部１４２６として、パノラマ画像２２と視点位置情報１４５４とに基づいてグラフを作成する。このグラフは、パノラマ画像２２における視点位置（ユーザ１９０が関心を示した位置）を可視化する。

図２２は、視点位置情報１４５４に基づくヒートマップ２２００を表す。一例として、プロセッサ１４２０は、パノラマ画像２２上の視点位置が密な領域を赤色で、視点位置が疎な領域を青色で表現してヒートマップ２２００を生成する。図２２の例において、領域２２１０は視点位置が密な領域であって、赤色のハッチがかけられている。

パノラマ画像２２の配信者は、ヒートマップ２２００を見ることにより、ユーザ１９０がパノラマ画像２２のどのコンテンツに関心を示したのかを容易に理解し得る。

ある局面において、プロセッサ１４２０は、視点位置情報１４５４に視点位置を保存する際に、この視点位置の送信元のユーザが、他のユーザと通信していたか否かを関連付けて保存する。例えば、図１７に示される例において、プロセッサ１４２０がコンピュータ２００Ａから視点位置を表す座標値１７２０を受信した場合、ユーザ１９０Ａはユーザ１９０Ｂと通信していると判断して、その旨と視点位置とを関連付けて視点位置情報１４５４に保存する。

ある実施形態に従うプロセッサ１４２０は、他のユーザと通信していた場合の視点位置に基づくヒートマップと、他のユーザと通信していない場合の視点位置に基づくヒートマップとを生成し得る。係る場合、パノラマ画像２２の配信者は、ユーザが１人でパノラマ画像２２を見ているときに関心を示したコンテンツと、ユーザが複数でパノラマ画像２２を見ているときに関心を示したコンテンツとの差を容易に理解し得る。

［ユーザが関心を示したコンテンツの特定］
上記の例において、プロセッサ１４２０は、視点位置をストレージ１４４０に保存する構成であって、視点位置に表示されているコンテンツを特定していない。そのため、パノラマ画像２２の配信者は、ユーザが関心を示したコンテンツを理解するために、視点位置（座標値）とパノラマ画像２２との対応関係を調べなくてはならない。そこで、ある実施形態に従うプロセッサ１４２０は、視点位置に表示されているコンテンツを特定する。

図１６を参照して、ユーザ１９０Ａの視点オブジェクト１６２０が猫１６１０に重畳されている。ある局面において、コンピュータ２００Ａは、視点オブジェクト１６２０が配置される視点位置をサーバ１５０に送信する。

サーバ１５０のプロセッサ１４２０は、切り出し部１４２７として、仮想空間２Ａに展開されているパノラマ画像２２から受信した視点位置周辺の周辺画像１６６０を切り出す。ある局面において、切り出し部１４２７は、視点位置を中心とした予め定められ矩形領域を周辺画像１６６０として切り出す。他の局面において、切り出し部１４２７は、公知の物体検出手法を用いて視点位置のコンテンツが存在するバウンディングボックスを周辺画像１６６０として切り出す。例えば、切り出し部１４２７は、ＳｅｌｅｃｔｉｖｅＳｅａｒｃｈ法を用いて視点位置を中心とする極小領域（例えば、３×３ｐｉｘｅｌ）を設定し、当該領域と似た領域が占有する範囲に基づいて周辺画像１６６０（バウンディングボックス）を切り出す。

次に、プロセッサ１４２０は、対象特定部１４２８として、周辺画像１６６０に含まれるコンテンツ、つまり、ユーザ１９０Ａが視線を注ぐ対象を特定する。対象特定部１４２８は、感情判断部１４２５と同様に、物体識別器１４７１，１４７２，１４７３・・・を用いて対象（コンテンツ）を特定する。そのため、その特定処理については繰り返し説明しない。プロセッサ１４２０は、視線位置と、特定した対象とを関連付けて視点位置情報１４５４に保存し得る。

次に、プロセッサ１４２０は、特定した対象（ユーザ１９０Ａが関心を示したコンテンツ）に基づいて、ユーザ１９０Ａが興味を示すであろう広告を広告ＤＢ１４４５から特定し、特定した広告をコンピュータ２００Ａに配信する。

（制御構造）
図２３は、ユーザ１９０が視線を注ぐ対象を特定して広告を配信するまでの一連の処理の一例を表すフローチャートである。図２３に示される処理は、サーバ１５０のプロセッサ１４２０によって実行される。

ステップＳ２３１０において、プロセッサ１４２０は切り出し部１４２７として、コンピュータ２００から受信した視点位置に基づいてパノラマ画像２２から周辺画像を切り出す。

ステップＳ２３２０において、プロセッサ１４２０は対象特定部１４２８として、パノラマ画像２２に関連付けられた第１タグに基づいて、用いる物体識別器を特定する。図２４を用いてこの処理をより具体的に説明する。

図２４は、パノラマ画像ＤＢ１４４３のデータ構造の一例を表す。ある実施形態に従うパノラマ画像ＤＢ１４４３は、パノラマ画像２２と、第１タグと、第２タグとを互いに関連付けて保持する。

第１タグは、パノラマ画像２２に含まれる対象（コンテンツ）を特定する。第２タグは、パノラマ画像２２の種類を特定する。一例として、第１および第２タグは、パノラマ画像２２の配信者が設定し得る。他の局面において、第１および第２タグは、パノラマ画像２２の視聴者（ユーザ）が設定し得る。

図２４に示される例において、パノラマ画像ＰＡ１は、第１タグとして「船」および「橋」が、第２タグとして「旅行」および「地中海」がそれぞれ関連付けられている。対象特定部１４２８は、パノラマ画像ＰＡ１に関連付けられた第１タグに基づいて、「船」、「橋」それぞれに対応する物体識別器を物体識別器ＤＢ１４４８から特定する。

図２３を再び参照して、ステップＳ２３３０において、プロセッサ１４２０は対象特定部１４２８として、特定した物体識別器を用いて周辺画像に含まれる対象（コンテンツ）を特定する。

ステップＳ２３４０において、プロセッサ１４２０は、特定した対象を視点位置に関連付けてストレージ１４４０（視点位置情報１４５４）に保存する。

ステップＳ２３５０において、プロセッサ１４２０は、第１テーブルＴＬ１を参照して、特定した対象に関連付けられた広告を、視点位置の送信元のコンピュータ２００（に接続されるＨＭＤ１１０）に配信する。図２５を用いてこの処理をより具体的に説明する。

図２５は、第１テーブルＴＬ１のデータ構造の一例を表す。第１テーブルＴＬ１は、広告と対象（コンテンツ）とを互いに関連付けて保持する。ある局面において、プロセッサ１４２０は、ユーザ１９０の注視する対象が「船」であると特定する。係る場合、プロセッサ１４２０は、第１テーブルＴＬ１を参照して、「船」に関連付けられた広告ＡＤ１を、視点位置の送信元のコンピュータ２００に配信する。コンピュータ２００は、受信した広告ＡＤ１をＨＭＤ１１０に出力する。これにより、ユーザ１９０は、広告ＡＤ１を視認する。

図２３を再び参照して、ステップＳ２３６０において、プロセッサ１４２０は、第２テーブルＴＬ２を参照して、特定した対象からユーザ１９０が関心を示すであろうパノラマ画像２２を特定する。図２６を用いてこの処理をより具体的に説明する。

図２６は、第２テーブルＴＬ２のデータ構造の一例を表す。第２テーブルＴＬ２は、対象（コンテンツ）とパノラマ画像２２の種類とを含む。ある局面において、プロセッサ１４２０は、ユーザ１９０の注視する対象が「船」であると特定する。係る場合、プロセッサ１４２０は、第２テーブルＴＬ２を参照して、「船」に対応する種類が「旅行」であると特定する。プロセッサ１４２０はさらに、パノラマ画像ＤＢ１４４３を参照して、第２タグとして「旅行」が関連付けられたパノラマ画像２２を特定する。

図２３を再び参照して、ステップＳ２０７０において、プロセッサ１４２０は、特定したパノラマ画像２２を推奨する情報を、視点位置の送信元のコンピュータ２００（に接続されるＨＭＤ１１０）に配信する。この情報は、例えば、特定したパノラマ画像２２の一部の画像、パノラマ画像ＩＤを含み得る。

コンピュータ２００は、サーバ１５０から受信した上記情報に基づいて、特定されたパノラマ画像２２をユーザ１９０に推奨する。

図２７は、ユーザ１９０にパノラマ画像２２を推奨する処理を説明するための図である。ある局面において、ＨＭＤ１１０のモニタ１１２は、ユーザ１９０がパノラマ画像２２を選択するための視界画像２７００を表示する。

視界画像２７００は、選択領域２７１０と、推奨領域２７２０と、視点オブジェクト２７３０とを含む。選択領域２７１０は、パノラマ画像ＤＢ１４４３に格納される複数のパノラマ画像２２の各々の一部を含む。推奨領域２７２０は、サーバ１５０から受信した上記情報に基づいて特定されるパノラマ画像２２の一部を含む。つまり、推奨領域２７２０に含まれるパノラマ画像２２は、ユーザ１９０が関心を示す可能性が高い。そのため、ユーザ１９０は、興味のあるパノラマ画像２２を推奨領域２７２０から容易に探し得る。

ある局面において、ユーザ１９０は、視点オブジェクト２７３０を操作してパノラマ画像２２を選択する。一例として、ユーザ１９０は、興味のあるパノラマ画像２２の一部に、視点オブジェクト２７３０を予め定められた時間（例えば３秒間）重ね合わせる。コンピュータ２００は、ユーザ１９０によって選択されたパノラマ画像２２を表す情報（例えば、パノラマ画像ＩＤ）をサーバ１５０に送信する。サーバ１５０は、ユーザ１９０によって選択されたパノラマ画像２２をコンピュータ２００に送信する。コンピュータ２００は、受信したパノラマ画像２２を用いて仮想空間２を構成する。これにより、ユーザ１９０は、指定したパノラマ画像２２により構成された仮想空間２を視認できる。

上記によれば、ある実施形態に従うサーバ１５０は、ユーザ１９０が関心を示した対象（コンテンツ）を特定することができる。その際、サーバ１５０は、パノラマ画像２２に関連付けられた第１タグに基づいて、用いる物体識別器を限定できるため、対象を特定する処理に要する負荷を大幅に軽減できる。加えて、パノラマ画像２２の配信者は、第１タグを設定することにより、パノラマ画像２２に含まれる複数のコンテンツのうち、分析対象とするコンテンツを予め限定できる。

また、サーバ１５０は、特定した対象に基づいてユーザ１９０が関心を示す可能性が高い広告およびパノラマ画像２２を効率的に配信できる。

［フィルタリング処理］
図２８は、視点位置を視点位置情報１４５４に保存しない場合の処理について説明するための図である。図２８を参照して、仮想空間２Ａには、パノラマ画像２２Ａが展開されている。また、仮想空間２Ａには、ユーザ１９０Ａに対応するアバターオブジェクト９００Ａと、ユーザ１９０Ｂに対応するアバターオブジェクト９００Ｂとが配置されている。

上記の例において、プロセッサ１４２０は、ユーザ１９０Ａの動作（表情、音声）に基づいてユーザ１９０Ａの視点位置をストレージ１４４０に保存するように構成されている。しかし、ユーザ１９０Ａは仮想空間２Ａ上でユーザ１９０Ｂとコミュニケーションを行なうことができる。そのため、ユーザ１９０Ａの動作がパノラマ画像２２Ａに起因するものではなく、ユーザ１９０Ｂとのコミュニケーションに起因する可能性もある。係る場合、パノラマ画像２２の配信者は、ユーザ１９０Ａのパノラマ画像２２に対する関心を正確に把握することができない。そこで、ある実施形態に従うサーバ１５０のプロセッサ１４２０は、フィルタ部１４２９として、ユーザ間でコミュニケーションが行なわれていると判断した場合に、ユーザの動作に基づく視点位置の保存処理を中止する。以下、図２８を用いて、フィルタ部１４２９の処理を説明する。

ある局面において、フィルタ部１４２９は、仮想空間上でユーザ１９０Ａおよび１９０Ｂが向かい合っている場合に、これらのユーザがコミュニケーションを行なっていると判断する。

プロセッサ１４２０は、コンピュータ２００Ａからユーザ１９０Ａの視線２８１０を表す視線情報を受信する。プロセッサ１４２０は、コンピュータ２００Ｂからユーザ１９０Ｂの視線２８２０を表す視線情報を受信する。一例として、フィルタ部１４２９は、視線２８１０と視線２８２０とが成す角度が略１８０度（例えば、１７０〜１９０度）である場合に、ユーザ１９０Ａおよび１９０Ｂが仮想空間上で向かい合っていると判断する。

この場合、プロセッサ１４２０は、ユーザ１９０の動作（表情、音声）が上記の予め定められた条件を満たした場合であっても、視点位置をストレージ１４４０に保存しない。

他の局面において、フィルタ部１４２９は、仮想空間におけるユーザ１９０Ａの視座と１９０Ｂの視座との間隔が狭い場合に、これらのユーザがコミュニケーションを行なっていると判断する。

プロセッサ１４２０は、コンピュータ２００Ａから仮想カメラ１Ａの位置情報（ユーザ１９０Ａの仮想空間２Ａにおける視座情報）を受信する。プロセッサ１４２０は、コンピュータ２００Ｂから仮想カメラ１Ｂの位置情報を受信する。フィルタ部１４２９は、受信した位置情報に基づいて、ユーザ１９０Ａの視座とユーザ１９０Ｂの視座との間隔Ｄを算出する。フィルタ部１４２９は、間隔Ｄが予め定められた間隔未満である場合に、仮想空間における２人の間隔が狭いと判断する。

さらに他の局面において、フィルタ部１４２９は、ユーザ１９０Ａおよび１９０Ｂが話しているときに、これらのユーザがコミュニケーションを行なっていると判断する。

プロセッサ１４２０は、コンピュータ２００Ａからユーザ１９０Ａの発話に対応する第１音声信号を受信する。プロセッサ１４２０は、コンピュータ２００Ｂからユーザ１９０Ｂの発話に対応する第２音声信号を受信する。フィルタ部１４２９は、第１および第２音声信号が予め定められたレベル以上である場合に、ユーザ１９０Ａおよび１９０Ｂが話していると判断する。

（制御構造）
図２９は、視点位置を視点位置情報１４５４に保存する処理を中止する処理を表すフローチャートである。なお、図２９に示される処理のうち上述の処理と同じ処理については同じ符号を付している。そのため、その処理についての説明は繰り返さない。

ステップＳ２９１０において、プロセッサ１４２０は、コンピュータ２００Ａおよび２００Ｂから、フェイストラッキングデータ、仮想カメラ１の位置および傾き、視点位置、視線方向、並びに音声信号の入力を受け付ける。仮想カメラ１の位置は、ユーザ１９０の仮想空間２における視座を表す。視線方向は、視点特定モジュール２２７が特定するユーザ１９０の仮想空間２における視線の方向である。

プロセッサ１４２０は、視点位置に操作情報が関連付けられていない場合（ステップＳ２０３０でＮＯ）、処理をステップＳ２９２０に進める。

ステップＳ２９２０において、プロセッサ１４２０は、フィルタ部１４２９として視点位置をストレージ１４４０に保存する処理を中止するか否かを判断する。プロセッサ１４２０は、当該処理を中止する場合（ステップＳ２９２０でＹＥＳ）、ステップＳ２７１０の処理を再び実行する。一方、プロセッサ１４２０は、当該処理を中止しない場合（ステップＳ２９２０でＮＯ）、処理をステップＳ２０４０に進める。

図３０は、ステップＳ２９２０の処理を説明するためのフローチャートである。ステップＳ３０１０において、プロセッサ１４２０は、ユーザ１９０Ａの視線とユーザ１９０Ｂの視線とが互いに向かい合うか否かを判断する。プロセッサ１４２０は、これらの視線が互いに向かい合うと判断した場合（ステップＳ３０１０でＹＥＳ）、ステップＳ２７１０の処理を再び実行する。

ステップＳ３０２０において、プロセッサ１４２０は、ユーザ１９０Ａの視座とユーザ１９０Ｂの視座との間隔Ｄが予め定められた間隔未満であるか否かを判断する。プロセッサ１４２０は、間隔Ｄが予め定められた間隔未満であると判断した場合（ステップＳ３０２０でＹＥＳ）、ステップＳ２７１０の処理を再び実行する。

ステップＳ３０３０において、プロセッサ１４２０は、ユーザ１９０Ａに対応する第１音声信号およびユーザ１９０Ｂに対応する第２音声信号が、予め定められたレベル以上であるか否かを判断する。プロセッサ１４２０は、第１および第２音声信号が予め定められたレベル以上であると判断した場合（ステップＳ３０３０でＹＥＳ）、ステップＳ２７１０の処理を再び実行する。

プロセッサ１４２０は、ステップＳ３０１０〜Ｓ３０３０の条件を満たさないと判断した場合、処理をステップＳ２０４０に進める。

上記によれば、サーバ１５０は、ユーザ同士でコミュニケーションを行なっていると判断した場合に、ユーザ１９０の動作に基づく視点位置の保存処理を中止できる。その結果、サーバ１５０は、ユーザ１９０のパノラマ画像２２に対する関心を、より正確に取得し得る。

なお、上記の例において、プロセッサ１４２０は、ステップＳ３０１０〜Ｓ３０３０の条件うち１つでも条件を満たした場合に、視点位置の保存処理を中止するように構成されている。他の局面において、プロセッサ１４２０は、ステップＳ３０１０〜Ｓ３０３０の条件うち、複数の条件を満たした場合に、視点位置の保存処理を中止するように構成されてもよい。

［構成］
以上に開示された技術的特徴は、以下のように要約され得る。

（構成１）ある実施形態に従うと、ＨＭＤ１１０と通信可能なサーバ１５０によって実行されるプログラムが提供される。このプログラムはコンピュータに、仮想空間２を定義するステップ（Ｓ２０１０）と、ＨＭＤ１１０の出力に基づいて仮想空間２におけるＨＭＤ１１０のユーザ１９０の視点位置を取得するステップ（Ｓ２０２０）と、ユーザ１９０の操作または動作を表す信号を受け付けるステップ（Ｓ２０２０）と、信号が表すユーザ１９０の操作または動作がユーザ１９０の関心を示すときに、視点位置をストレージ１４４０（視点位置情報１４５４）に保存するステップ（Ｓ２０６０）とを実行させる。

ある局面において、コンピュータ２００は、ＨＭＤ１１０に設けられた注視センサ１４０の出力から算出されたユーザ１９０の仮想空間２における視点位置をサーバ１５０に出力する。これにより、サーバ１５０は、ユーザ１９０の視点位置を取得する。他の局面において、コンピュータ２００は、ＨＭＤ１１０に設けられた注視センサ１４０の出力から算出されたユーザ１９０の仮想空間２における視線を表す視線情報をサーバ１５０に送信する。コンピュータ２００は、受信した視線情報に基づいてユーザ１９０の仮想空間２における視点位置を取得してもよい。

（構成２）（構成１）において、仮想空間２を定義するステップは、パノラマ動画像を用いて仮想空間２を構成するステップを含む。視点位置をストレージ１４４０に保存するステップは、視点位置と、動画像の再生中に当該視点位置が取得されたタイミングとを関連付けてストレージ１４４０に保存することを含む（図１８）。

（構成３）（構成１）および（構成２）のいずれかにおいて、ユーザ１９０の関心を示すユーザ１９０の操作は、ユーザ１９０の関心を受け付けるためのユーザインターフェイスに対する操作を含む。このユーザインターフェイスは、例えば、コントローラ１６０に設けられた特定のボタンであり得る。他の例として、このユーザインターフェイスは、仮想空間２に配置されるＵＩオブジェクト１６４０であり得る。

（構成４）（構成１）〜（構成３）のいずれかにおいて、ユーザ１９０の動作を表す信号は、ユーザ１９０の表情を表すフェイストラッキングデータを含む。

（構成５）（構成４）に従うプログラムは、フェイストラッキングデータとの比較に用いられる基準データの入力を受け付けるステップ（Ｓ１５１２）をさらに備える。フェイストラッキングデータがユーザ１９０の関心を示すことは、当該フェイストラッキングデータの基準データに対する変動量が予め定められた変動量を超えること（Ｓ２０５０）を含む。

（構成６）（構成４）および（構成５）のいずれかにおいて、視点位置をストレージ１４４０に保存するステップは、フェイストラッキングデータがユーザ１９０の関心を示した場合に、複数の表情の種類の中から当該フェイストラッキングデータに対応する表情の種類を特定すること（Ｓ２１１０）と、特定した表情の種類と視点位置とを関連付けてストレージ１４４０に保存すること（Ｓ２１２０）とを含む。

（構成７）（構成１）〜（構成６）のいずれかにおいて、ユーザ１９０の動作を表す信号は、ユーザ１９０の発話に対応する音声信号を含む。

（構成８）（構成７）に従うプログラムは、複数の感情の種類の中から音声信号に対応するユーザ１９０の感情の種類を推定するステップをさらに含む。視点位置をストレージ１４４０に保存するステップは、推定されたユーザ１９０の感情の種類がユーザ１９０の関心を示すときに、当該推定されたユーザ１９０の感情の種類と視点位置とを関連付けてストレージ１４４０に保存することを含む。

（構成９）（構成１）〜（構成８）のいずれかにおいて、視点位置をストレージ１４４０に保存するステップは、信号がユーザ１９０の関心を示すときに、仮想空間２においてユーザ１９０の視線が注がれる対象を特定し（Ｓ２３３０）、当該対象を視点位置に関連付けてストレージ１４４０に保存すること（Ｓ２３４０）を含む。

（構成１０）（構成９）において、ストレージ１４４０に格納される物体識別器ＤＢ１４４７は、対象の種類ごとに物体識別器１４７１、１４７２、１４７３、・・・を記憶している。仮想空間２を定義するステップは、パノラマ画像２２を用いて仮想空間２を構成するステップを含む。対象を特定することは、パノラマ画像から視点位置の周辺画像を切り出すこと（Ｓ２３１０）と、周辺画像から特徴量を算出することと、対象の種類ごとに記憶された物体識別器１４７１、１４７２、１４７３、・・・を用いて算出した特徴量に対応する対象を特定すること（Ｓ２３２０）とを含む。

（構成１１）（構成１０）において、パノラマ画像２２は、当該パノラマ画像２２に含まれる対象を表す第１タグ情報を含む（図２４）。対象を特定することは、記憶装置に記憶された複数の物体識別器１４７１、１４７２、１４７３、・・・のうち、第１タグ情報が示す対象の物体識別器を用いて特徴量に対応する対象を特定すること（Ｓ２３３０）を含む。

（構成１２）（構成９）〜（構成１１）のいずれかに従うプログラムは、特定された対象に関する広告をＨＭＤ１１０に配信するステップ（Ｓ２３５０）をさらに備える。

（構成１３）（構成１０）〜（構成１２）のいずれかにおいて、ストレージ１４４０は、複数のパノラマ画像２２を格納するパノラマ画像ＤＢ１４４３を含む。（構成１０）〜（構成１２）のいずれかに従うプログラムは、複数のパノラマ画像２２の中から特定された対象に関連するパノラマ画像を特定するステップ（Ｓ２３６０）と、特定されたパノラマ画像を推奨する情報をＨＭＤ１１０に配信するステップ（Ｓ２３７０）とをさらに備える。

（構成１４）（構成１３）において、パノラマ画像２２は、当該パノラマ画像２２の種類を表す第２タグ情報を含む（図２４）。ストレージ１４４０は、対象とパノラマ画像の種類との対応関係を保持するパノラマ画像ＤＢ１４４３を含む。パノラマ画像２２を特定するステップは、パノラマ画像ＤＢ１４４３を参照して、特定された対象に対応する種類の第２タグ情報を含むパノラマ画像２２を特定することを含む。

（構成１５）（構成１）〜（構成１４）のいずれかにおいて、仮想空間２を定義するステップは、パノラマ画像２２を用いて仮想空間２を構成するステップを含む。（構成１）〜（構成１４）のいずれかに従うプログラムは、パノラマ画像２２とストレージ１４４０に保存された視点位置とからグラフを生成するステップをさらに備える。ヒートマップ２２００は、このグラフの一例である。

（構成１６）（構成１）〜（構成１５）のいずれかに従うプログラムは、ユーザ１９０Ａの仮想空間２Ａにおける第１視線方向およびＨＭＤ１１０Ａとは異なる他のＨＭＤ１１０Ｂを使用するユーザ１９０Ｂの仮想空間２Ｂにおける第２視線方向の入力を受け付けるステップ（Ｓ２９１０）をさらに備える。視点位置をストレージ１４４０に保存するステップは、第１視線方向と第２視線方向とが互いに向かい合う場合に、視点位置をストレージ１４４０に保存することを中止すること（Ｓ３０１０）を含む。

（構成１７）（構成１）〜（構成１６）のいずれかに従うプログラムは、ユーザ１９０の仮想空間２Ａにおける第１視座およびＨＭＤ１１０Ａとは異なる他のＨＭＤ１１０Ｂを使用するユーザ１９０Ｂの仮想空間２Ｂにおける第２視座の入力を受け付けるステップ（Ｓ３０１０でＹＥＳ）をさらに備える。視点位置をストレージ１４４０に保存するステップは、仮想空間２Ａにおける第１視座と第２視座との間隔Ｄが所定間隔未満である場合に、視点位置をストレージ１４４０に保存することを中止すること（Ｓ３０２０でＹＥＳ）を含む。

（構成１８）（構成１）〜（構成１７）のいずれかに従うプログラムは、ユーザ１９０の第１音声信号およびＨＭＤ１１０Ａとは異なる他のＨＭＤ１１０Ｂを使用するユーザ１９０Ｂの第２音声信号の入力を受け付けるステップ（Ｓ２９１０）をさらに備える。視点位置をストレージ１４４０に保存するステップは、第１および第２音声信号が予め定められたレベル以上である場合に、視点位置をストレージ１４４０に保存することを中止すること（Ｓ３０３０でＹＥＳ）を含む。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

１仮想カメラ、２仮想空間、１０，１４２０プロセッサ、１１メモリ、１２，１４４０ストレージ、２２パノラマ画像、２３視認領域、２６，９１０，１６００，２７００視界画像、１００ＨＭＤシステム、１０５ＨＭＤセット、１１２モニタ、１１４，１２０センサ、１１５第１カメラ、１１７第２カメラ、１１８スピーカ、１１９マイク、１３０モーションセンサ、１４０注視センサ、１５０サーバ、１６０コントローラ、１９０ユーザ、２００コンピュータ、２２０表示制御モジュール、２２１仮想カメラ制御モジュール、２２２視界領域決定モジュール、２２３視界画像生成モジュール、２２４傾き特定モジュール、２２５顔器官検出モジュール、２２６動き検出モジュール、２２７視点特定モジュール、２３０仮想空間制御モジュール、２３１仮想空間定義モジュール、２３２仮想オブジェクト生成モジュール、２３３操作オブジェクト制御モジュール、２３４アバター制御モジュール、２４０メモリモジュール、２４１空間情報、２４２オブジェクト情報、２４３，１４４４ユーザ情報、２４４顔テンプレート、２４５口テンプレート、２４６目テンプレート、２４７眉テンプレート、２５０通信制御モジュール、９００Ａ，９００Ｂアバターオブジェクト、１０００顔画像、１０１０口領域、１１００輪郭検出線、１１１０，１１２０輪郭点、１２００口形状、１４２１送受信部、１４２２サーバ処理部、１４２３マッチング部、１４２４視点取得部、１４２５感情判断部、１４２６マップ生成部、１４２７切り出し部、１４２８対象特定部、１４２９フィルタ部、１４４１仮想空間指定情報、１４４２オブジェクト指定情報、１４４５広告ＤＢ、１４４６基準データＤＢ、１４５１表情情報、１４５２位置情報、１４５３傾き情報、１４５４視点位置情報、１４７１物体識別器、１４６１表情識別器、１６２０，２７３０視点オブジェクト、１６３０操作オブジェクト、１６４０オブジェクト、１６５０評価オブジェクト、１６６０周辺画像、１７１０，２８１０，２８２０視線、１７２０座標値、２２００ヒートマップ、２７１０選択領域、２７２０推奨領域、Ｐ特徴点、ＴＬ１第１テーブル、ＴＬ２第２テーブル。

Claims

ヘッドマウントデバイスと通信可能なコンピュータによって実行されるプログラムであって、
前記プログラムは前記コンピュータに、
仮想空間を定義するステップと、
前記ヘッドマウントデバイスの出力に基づいて前記仮想空間における前記ヘッドマウントデバイスのユーザの視点位置を取得するステップと、
前記ユーザの操作または動作を表す信号を受け付けるステップと、
前記信号が表す前記ユーザの操作または動作が前記ユーザの関心を示すときに、前記視点位置をメモリに保存するステップとを実行させる、プログラム。
前記仮想空間を定義するステップは、動画像を用いて仮想空間を構成するステップを含み、
前記視点位置をメモリに保存するステップは、前記視点位置と、前記動画像の再生中に当該視点位置が取得されたタイミングとを関連付けて前記メモリに保存することを含む、
請求項１に記載のプログラム。
前記ユーザの関心を示す前記ユーザの操作は、前記ユーザの関心を受け付けるためのユーザインターフェイスに対する操作を含む、請求項１または２に記載のプログラム。
前記ユーザの動作を表す信号は、前記ユーザの表情を表すフェイストラッキングデータを含む、請求項１〜３のいずれか１項に記載のプログラム。
前記プログラムは前記コンピュータに、
前記フェイストラッキングデータとの比較に用いられる基準データの入力を受け付けるステップをさらに実行させ、
前記フェイストラッキングデータが前記ユーザの関心を示すことは、当該フェイストラッキングデータの前記基準データに対する変動量が予め定められた変動量を超えることを含む、請求項４に記載のプログラム。
前記視点位置をメモリに保存するステップは、
前記フェイストラッキングデータが前記ユーザの関心を示した場合に、複数の表情の種類の中から当該フェイストラッキングデータに対応する表情の種類を特定することと、
前記特定した表情の種類と前記視点位置とを関連付けて前記メモリに保存することとを含む、請求項４または５に記載のプログラム。
前記ユーザの動作を表す信号は、前記ユーザの発話に対応する音声信号を含む、請求項１〜６のいずれか１項に記載のプログラム。
前記プログラムは前記コンピュータに、
複数の感情の種類の中から前記音声信号に対応する前記ユーザの感情の種類を推定するステップをさらに実行させ、
前記視点位置をメモリに保存するステップは、前記推定されたユーザの感情の種類が前記ユーザの関心を示すときに、当該推定されたユーザの感情の種類と前記視点位置とを関連付けてメモリに保存することを含む、請求項７に記載のプログラム。
前記視点位置をメモリに保存するステップは、前記信号が前記ユーザの関心を示すときに、前記仮想空間において前記ユーザの視線が注がれる対象を特定し、当該対象を前記視点位置に関連付けて前記メモリに保存することを含む、請求項１〜８のいずれか１項に記載のプログラム。
前記メモリは、対象の種類ごとに物体識別器を記憶しており、
前記仮想空間を定義するステップは、パノラマ画像を用いて仮想空間を構成するステップを含み、
前記対象を特定することは、
前記パノラマ画像から前記視点位置の周辺画像を切り出すことと、
前記周辺画像から特徴量を算出することと、
前記対象の種類ごとに記憶された物体識別器を用いて前記算出した特徴量に対応する対象を特定することとを含む、請求項９に記載のプログラム。
前記パノラマ画像は、当該パノラマ画像に含まれる対象を表す第１タグ情報を含み、
前記対象を特定することは、前記メモリに記憶された複数の物体識別器のうち、前記第１タグ情報が示す対象の前記物体識別器を用いて前記特徴量に対応する対象を特定することを含む、請求項１０に記載のプログラム。
前記プログラムは前記コンピュータに、
前記特定された対象に関する広告を前記ヘッドマウントデバイスに配信するステップをさらに実行させる、請求項９〜１１のいずれか１項に記載のプログラム。
前記メモリは、複数のパノラマ画像を記憶しており、
前記プログラムは前記コンピュータに、
前記複数のパノラマ画像の中から前記特定された対象に関連するパノラマ画像を特定するステップと、
前記特定されたパノラマ画像を推奨する情報を前記ヘッドマウントデバイスに配信するステップとをさらに実行させる、請求項１０〜１２のいずれか１項に記載のプログラム。
前記パノラマ画像は、当該パノラマ画像の種類を表す第２タグ情報を含み、
前記メモリは、前記対象と前記パノラマ画像の種類との対応関係を保持するテーブルを記憶しており、
パノラマ画像を特定するステップは、前記テーブルを参照して、前記特定された対象に対応する種類の第２タグ情報を含むパノラマ画像を特定することを含む、請求項１３に記載のプログラム。
前記仮想空間を定義するステップは、パノラマ画像を用いて仮想空間を構成するステップを含み、
前記プログラムは前記コンピュータに、
前記パノラマ画像と前記メモリに保存された視点位置とからグラフを生成するステップ
をさらに実行させる、請求項１〜１４のいずれか１項に記載のプログラム。
前記プログラムは前記コンピュータに、
前記ユーザの前記仮想空間における第１視線方向および前記ヘッドマウントデバイスとは異なる他のヘッドマウントデバイスを使用する他ユーザの前記仮想空間における第２視線方向の入力を受け付けるステップをさらに実行させ、
前記視点位置をメモリに保存するステップは、前記第１視線方向と前記第２視線方向とが互いに向かい合う場合に、前記視点位置をメモリに保存することを中止することを含む、請求項１〜１５のいずれか１項に記載のプログラム。
前記プログラムは前記コンピュータに、
前記ユーザの前記仮想空間における第１視座および前記ヘッドマウントデバイスとは異なる他のヘッドマウントデバイスを使用する他ユーザの前記仮想空間における第２視座の入力を受け付けるステップをさらに実行させ、
前記視点位置をメモリに保存するステップは、前記仮想空間における前記第１視座と前記第２視座との間隔が所定間隔未満である場合に、前記視点位置をメモリに保存することを中止することを含む、請求項１〜１６のいずれか１項に記載のプログラム。
前記プログラムは前記コンピュータに、
前記ユーザの第１音声信号および前記ヘッドマウントデバイスとは異なる他のヘッドマウントデバイスを使用する他ユーザの第２音声信号の入力を受け付けるステップをさらに実行させ、
前記視点位置をメモリに保存するステップは、前記第１および第２音声信号が予め定められたレベル以上である場合に、前記視点位置をメモリに保存することを中止することを含む、請求項１〜１７のいずれか１項に記載のプログラム。
請求項１〜１８のいずれか１項に記載のプログラムを格納したメモリと、
前記プログラムを実行するためのプロセッサとを備える、情報処理装置。
ヘッドマウントデバイスと通信可能なコンピュータによって実行される方法であって、
仮想空間を定義するステップと、
前記ヘッドマウントデバイスの出力に基づいて前記仮想空間における前記ヘッドマウントデバイスのユーザの視点位置を取得するステップと、
前記ユーザの操作または動作を表す信号を受け付けるステップと、
前記信号が表す前記ユーザの操作または動作が前記ユーザの関心を示すときに、前記視点位置をメモリに保存するステップとを備える、方法。