JP6495399B2

JP6495399B2 - 仮想空間を提供するためにコンピュータで実行されるプログラム、方法、および当該プログラムを実行するための情報処理装置

Info

Publication number: JP6495399B2
Application number: JP2017169613A
Authority: JP
Inventors: 一晃澤木; 星爾佐竹
Original assignee: Colopl Inc
Current assignee: Colopl Inc
Priority date: 2017-09-04
Filing date: 2017-09-04
Publication date: 2019-04-03
Anticipated expiration: 2037-09-04
Also published as: JP2019046250A

Description

この開示は、仮想空間を提供する技術に関し、より特定的には、仮想空間に展開されるパノラマ画像を変更するための技術に関する。

ヘッドマウントデバイス（ＨＭＤ：Head-Mounted Device）を用いて仮想空間を提供する技術が知られている。たとえば、特開２０１６−１４００７８号公報（特許文献１）は、ヘッドマウントディスプレイにパノラマ画像を表示する技術を開示している。

また、近年、仮想空間におけるユーザの体験を豊かにする様々な技術が提案されている。たとえば、非特許文献１は、仮想空間上に複数のユーザの各々のアバターを配置し、これらアバターを通じてユーザ間でのコミュニケーションを図る技術を開示している。

特開２０１６−１４００７８号公報

"Ｆａｃｅｂｏｏｋ、ＶＲの世界で友達と会えるアプリ「Ｓｐａｃｅｓ」を発表"、［online］、［平成２９年８月２５日検索］、インターネット〈URL：http://itpro.nikkeibp.co.jp/atcl/idg/14/481709/042000319/〉

ある局面において、ユーザは、仮想空間に展開されているパノラマ画像を変更したいと考える。非特許文献１は、ユーザに対して切り替え候補のパノラマ画像を提示する技術を開示しているものの、これら切り替え候補のパノラマ画像の中にユーザが所望するパノラマ画像が含まれていない場合があった。したがって、ユーザが所望するパノラマ画像の候補を提示する技術が必要とされている。

本開示は、上記のような問題を解決するためになされたものであって、ある局面における目的は、仮想空間に展開されるパノラマ画像を変更するにあたり、ユーザの所望するパノラマ画像をユーザに提示する技術を提供することである。

ある実施形態に従うと、ヘッドマウントデバイスによって仮想空間を提供するためにコンピュータで実行されるプログラムが提供される。このプログラムはコンピュータに、予め定められた複数のパノラマ画像に含まれる一のパノラマ画像を仮想空間に展開するステップと、ヘッドマウントデバイスのユーザから、仮想空間に展開されているパノラマ画像を他のパノラマ画像に変更するためのトリガの入力を受け付けるステップと、トリガの入力を受け付けた後に、ユーザから検索キーの入力を受け付けるステップと、複数のパノラマ画像の中から、検索キーにより検索された一以上のパノラマ画像を特定するための情報を仮想空間に提示するステップと、ユーザから、一以上のパノラマ画像の中から一のパノラマ画像を選択する入力を受け付けるステップと、選択された一のパノラマ画像を仮想空間に展開するステップとを実行させる。

ある実施形態に従うプログラムは、仮想空間に展開されるパノラマ画像を変更するにあたり、ユーザの所望するパノラマ画像をユーザに提示できる。

開示された技術的特徴の上記および他の目的、特徴、局面および利点は、添付の図面と関連して理解されるこの発明に関する次の詳細な説明から明らかとなるであろう。

ある実施の形態に従うＨＭＤシステムの構成の概略を表す図である。一局面に従うコンピュータのハードウェア構成の一例を表すブロック図である。ある実施の形態に従うＨＭＤに設定されるｕｖｗ視野座標系を概念的に表す図である。ある実施の形態に従う仮想空間を表現する一態様を概念的に表す図である。ある実施の形態に従うＨＭＤを装着するユーザの頭部を上から表した図である。仮想空間において視界領域をＸ方向から見たＹＺ断面を表す図である。仮想空間において視界領域をＹ方向から見たＸＺ断面を表す図である。ある実施の形態に従うコントローラの概略構成を表す図である。ある実施の形態に従うコンピュータをモジュール構成として表すブロック図である。ある実施の形態に従うＨＭＤシステムにおいて実行される処理の一部を表すシーケンスチャートである。仮想空間に展開されているパノラマ画像を変更するための処理を説明する図（その１）である。パノラマ画像を変更するための処理を説明する図（その２）である。パノラマ画像を変更するための処理を説明する図（その３）である。ある実施形態に従うＨＭＤシステムの構成を説明するための図である。ユーザの顔画像から口を検出する制御について説明する図である。フェイストラッキングモジュールが口の形状を検出する処理を説明する図（その１）である。フェイストラッキングモジュールが口の形状を検出する処理を説明するための図（その２）である。フェイストラッキングデータの構造の一例を表す。サーバのハードウェア構成と機能構成とを表すブロック図である。パノラマ画像ＤＢのデータ構造の一例を表す。学習用ＤＢのデータ構造の一例を表す。ユーザが仮想空間において線図を描いている様子を表す視界画像である。ユーザがパノラマ画像を選択する様子を表す視界画像である。線図に基づいてパノラマ画像を変更するための処理を表すフローチャートである。立体的な線図の入力を受け付ける様子を表す視界画像である。立体的な線図を２次元化する処理を説明する図である。フェイストラッキングデータに基づいてパノラマ画像を変更するための処理を表すフローチャートである。ユーザが発話により検索キーを入力する様子を表す視界画像である。音声信号から抽出される文字列に基づいてパノラマ画像を切り替えるための処理を表すフローチャートである。複数のユーザが仮想空間を共有している場合のネットワークを説明する図である。ユーザが視認する視界画像を表す。

以下、この技術的思想の実施形態について図面を参照しながら詳細に説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称および機能も同じである。したがって、それらについての詳細な説明は繰り返さない。なお、以下で説明される各実施の形態および各変形例は、適宜選択的に組み合わされてもよい。

［ＨＭＤシステムの構成］
図１を参照して、ＨＭＤシステム１００の構成について説明する。図１は、ある実施の形態に従うＨＭＤシステム１００の構成の概略を表す図である。ある局面において、ＨＭＤシステム１００は、家庭用のシステムとしてあるいは業務用のシステムとして提供される。

ＨＭＤシステム１００は、ＨＭＤ１１０と、ＨＭＤセンサ１２０と、コントローラ１６０と、コンピュータ２００とを備える。ＨＭＤ１１０は、モニタ１１２と、注視センサ１４０と、スピーカ１１５と、マイク１１９とを含む。コントローラ１６０は、モーションセンサ１３０を含み得る。

ある局面において、コンピュータ２００は、インターネットその他のネットワーク１９に接続可能であり、ネットワーク１９に接続されているサーバ１５０その他のコンピュータと通信可能である。他の局面において、ＨＭＤ１１０は、ＨＭＤセンサ１２０の代わりに、センサ１１４を含み得る。

ＨＭＤ１１０は、ユーザ１９０の頭部に装着され、動作中に仮想空間２をユーザ１９０に提供し得る。より具体的には、ＨＭＤ１１０は、右目用の画像および左目用の画像をモニタ１１２にそれぞれ表示する。ユーザ１９０の各目がそれぞれの画像を視認すると、ユーザ１９０は、両目の視差に基づき当該画像を３次元の画像として認識し得る。

モニタ１１２は、たとえば、非透過型の表示装置として実現される。ある局面において、モニタ１１２は、ユーザ１９０の両目の前方に位置するようにＨＭＤ１１０の本体に配置されている。したがって、ユーザ１９０は、モニタ１１２に表示される３次元画像を視認すると、仮想空間２に没入することができる。ある実施の形態において、仮想空間２は、たとえば、背景、ユーザ１９０が操作可能なオブジェクト、ユーザ１９０が選択可能なメニューの画像を含む。複数のコンピュータ２００が各ユーザの動作に基づく信号を受け渡しすることで、複数のユーザが一の仮想空間２で仮想体験できる構成であれば、各ユーザに対応するアバターオブジェクトが、仮想空間２に提示される。

なお、オブジェクトとは、仮想空間２に存在する仮想の物体である。ある局面において、オブジェクトは、ユーザに対応するアバターオブジェクト、アバターオブジェクトが身に着ける仮想アクセサリおよび仮想衣服、ユーザに関する情報が示されたパネルを模した仮想パネル、手紙を模した仮想手紙、およびポストを模した仮想ポストなどを含む。さらに、アバターオブジェクトは、仮想空間２においてユーザ１９０を象徴するキャラクタであり、たとえば人型、動物型、ロボット型などを含む。オブジェクトの形は様々である。ユーザ１９０は、予め決められたオブジェクトの中から好みのオブジェクトを仮想空間２に提示するようにしてもよいし、自分が作成したオブジェクトを仮想空間２に提示するようにしてもよい。

ある実施の形態において、モニタ１１２は、所謂スマートフォンその他の情報表示端末が備える液晶モニタまたは有機ＥＬ（Electro Luminescence）モニタとして実現され得る。

ある局面において、モニタ１１２は、右目用の画像を表示するためのサブスクリーンと、左目用の画像を表示するためのサブスクリーンとを含み得る。他の局面において、モニタ１１２は、右目用の画像と左目用の画像とを一体として表示する構成であってもよい。この場合、モニタ１１２は、高速シャッタを含む。高速シャッタは、画像がいずれか一方の目にのみ認識されるように、右目用の画像と左目用の画像とを交互に表示可能に作動する。

注視センサ１４０は、ユーザ１９０の右目および左目の視線が向けられる方向（視線方向）を検出する。当該方向の検出は、たとえば、公知のアイトラッキング機能によって実現される。注視センサ１４０は、当該アイトラッキング機能を有するセンサにより実現される。ある局面において、注視センサ１４０は、右目用のセンサおよび左目用のセンサを含むことが好ましい。注視センサ１４０は、たとえば、ユーザ１９０の右目および左目に赤外光を照射するとともに、照射光に対する角膜および虹彩からの反射光を受けることにより各眼球の回転角を検出するセンサであってもよい。注視センサ１４０は、検出した各回転角に基づいて、ユーザ１９０の視線方向を検知することができる。

スピーカ１１５は、コンピュータ２００から受信した音声データに対応する音声（発話）を外部に出力する。マイク１１９は、ユーザ１９０の発話に対応する音声データをコンピュータ２００に出力する。ユーザ１９０は、マイク１１９を用いて他のユーザに向けて発話する一方で、スピーカ１１５を用いて他のユーザの音声（発話）を聞くことができる。

より具体的には、ユーザ１９０がマイク１１９に向かって発話すると、当該ユーザ１９０の発話に対応する音声データがコンピュータ２００に入力される。コンピュータ２００は、その音声データを、ネットワーク１９を介してサーバ１５０に出力する。サーバ１５０は、コンピュータ２００から受信した音声データを、ネットワーク１９を介して他のコンピュータ２００に出力する。他のコンピュータ２００は、サーバ１５０から受信した音声データを、他のユーザが装着するＨＭＤ１１０のスピーカ１１５に出力する。これにより、他のユーザは、ＨＭＤ１１０のスピーカ１１５を介してユーザ１９０の音声を聞くことができる。同様に、他のユーザからの発話は、ユーザ１９０が装着するＨＭＤ１１０のスピーカ１１５から出力される。

コンピュータ２００は、他のユーザのコンピュータ２００から受信した音声データに応じて、当該他のユーザに対応する他アバターオブジェクトを動かすような画像をモニタ１１２に表示する。たとえば、ある局面において、コンピュータ２００は、他アバターオブジェクトの口を動かすような画像をモニタ１１２に表示することで、あたかも仮想空間２内でアバターオブジェクト同士が会話しているかのように仮想空間２を表現する。このように、複数のコンピュータ２００間で音声データの送受信が行なわれることで、一の仮想空間２内で複数のユーザ間での会話（チャット）が実現される。

ＨＭＤセンサ１２０は、複数の光源（図示しない）を含む。各光源は、たとえば、赤外線を発するＬＥＤ（Light Emitting Diode）により実現される。ＨＭＤセンサ１２０は、ＨＭＤ１１０の動きを検出するためのポジショントラッキング機能を有する。ＨＭＤセンサ１２０は、この機能を用いて、現実空間内におけるＨＭＤ１１０の位置および傾きを検出する。

なお、他の局面において、ＨＭＤセンサ１２０は、カメラにより実現されてもよい。この場合、ＨＭＤセンサ１２０は、カメラから出力されるＨＭＤ１１０の画像情報を用いて、画像解析処理を実行することにより、ＨＭＤ１１０の位置および傾きを検出することができる。

他の局面において、ＨＭＤ１１０は、位置検出器として、ＨＭＤセンサ１２０の代わりに、センサ１１４を備えてもよい。ＨＭＤ１１０は、センサ１１４を用いて、ＨＭＤ１１０自身の位置および傾きを検出し得る。たとえば、センサ１１４が、角速度センサ、地磁気センサ、加速度センサ、あるいはジャイロセンサなどである場合、ＨＭＤ１１０は、ＨＭＤセンサ１２０の代わりに、これらの各センサのいずれかを用いて、自身の位置および傾きを検出し得る。一例として、センサ１１４が角速度センサである場合、角速度センサは、現実空間におけるＨＭＤ１１０の３軸周りの角速度を経時的に検出する。ＨＭＤ１１０は、各角速度に基づいて、ＨＭＤ１１０の３軸周りの角度の時間的変化を算出し、さらに、角度の時間的変化に基づいて、ＨＭＤ１１０の傾きを算出する。

また、ＨＭＤ１１０は、透過型表示装置を備えていても良い。この場合、当該透過型表示装置は、その透過率を調整することにより、一時的に非透過型の表示装置として構成可能であってもよい。また、視野画像は仮想空間２を構成する画像の一部に、現実空間を提示する構成を含んでいてもよい。たとえば、ＨＭＤ１１０に搭載されたカメラで撮影した画像を視野画像の一部に重畳して表示させてもよいし、当該透過型表示装置の一部の透過率を高く設定することにより、視野画像の一部から現実空間を視認可能にしてもよい。

サーバ１５０は、コンピュータ２００にプログラムを送信し得る。他の局面において、サーバ１５０は、他のユーザによって使用されるＨＭＤ１１０に仮想現実を提供するための他のコンピュータ２００と通信し得る。たとえば、アミューズメント施設において、複数のユーザが参加型のゲームを行なう場合、各コンピュータ２００は、各ユーザの動作に基づく信号を他のコンピュータ２００と通信して、同じ仮想空間２において複数のユーザが共通のゲームを楽しむことを可能にする。また、上述したように、複数のコンピュータ２００が各ユーザの動作に基づく信号を送受信することで、一の仮想空間２内で複数のユーザが会話を楽しむことができる。

コントローラ１６０は、ユーザ１９０からコンピュータ２００への命令の入力を受け付ける。ある局面において、コントローラ１６０は、ユーザ１９０によって把持可能に構成される。他の局面において、コントローラ１６０は、ユーザ１９０の身体あるいは衣類の一部に装着可能に構成される。他の局面において、コントローラ１６０は、コンピュータ２００から送られる信号に基づいて、振動、音、光のうちの少なくともいずれかを出力するように構成されてもよい。他の局面において、コントローラ１６０は、仮想現実を提供する空間に配置されるオブジェクトの位置や動きを制御するためにユーザ１９０によって与えられる操作を受け付ける。

モーションセンサ１３０は、ある局面において、ユーザ１９０の手に取り付けられて、ユーザ１９０の手の動きを検出する。たとえば、モーションセンサ１３０は、手の回転速度、回転数などを検出する。モーションセンサ１３０によって得られたユーザ１９０の手の動きの検出結果を表すデータ（以下、検出データともいう）は、コンピュータ２００に送られる。モーションセンサ１３０は、たとえば、手袋型のコントローラ１６０に設けられている。ある実施の形態において、現実空間における安全のため、コントローラ１６０は、手袋型のようにユーザ１９０の手に装着されることにより容易に飛んで行かないものに装着されるのが望ましい。他の局面において、ユーザ１９０に装着されないセンサがユーザ１９０の手の動きを検出してもよい。たとえば、ユーザ１９０を撮影するカメラの信号が、ユーザ１９０の動作を表す信号として、コンピュータ２００に入力されてもよい。モーションセンサ１３０とコンピュータ２００とは、有線により、または無線により互いに接続される。無線の場合、通信形態は特に限られず、たとえば、Ｂｌｕｅｔｏｏｔｈ（登録商標）その他の公知の通信手法が用いられる。

他の局面において、ＨＭＤシステム１００は、テレビジョン放送受信チューナを備えてもよい。このような構成によれば、ＨＭＤシステム１００は、仮想空間２においてテレビ番組を表示することができる。

さらに他の局面において、ＨＭＤシステム１００は、インターネットに接続するための通信回路、あるいは、電話回線に接続するための通話機能を備えていてもよい。

［コンピュータのハードウェア構成］
図２を参照して、本実施の形態に係るコンピュータ２００について説明する。図２は、一局面に従うコンピュータ２００のハードウェア構成の一例を表すブロック図である。コンピュータ２００は、主たる構成要素として、プロセッサ１０と、メモリ１１と、ストレージ１２と、入出力インターフェース１３と、通信インターフェース１４とを備える。各構成要素は、それぞれ、バス１５に接続されている。

プロセッサ１０は、コンピュータ２００に与えられる信号に基づいて、あるいは、予め定められた条件が成立したことに基づいて、メモリ１１またはストレージ１２に格納されているプログラムに含まれる一連の命令を実行する。ある局面において、プロセッサ１０は、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processor Unit）、ＦＰＧＡ（Field-Programmable Gate Array）その他のデバイスとして実現される。

メモリ１１は、プログラムおよびデータを一時的に保存する。プログラムは、たとえば、ストレージ１２からロードされる。データは、コンピュータ２００に入力されたデータと、プロセッサ１０によって生成されたデータとを含む。ある局面において、メモリ１１は、ＲＡＭ（Random Access Memory）その他の揮発メモリとして実現される。

ストレージ１２は、プログラムおよびデータを永続的に保持する。ストレージ１２は、たとえば、ＲＯＭ（Read-Only Memory）、ハードディスク装置、フラッシュメモリ、その他の不揮発記憶装置として実現される。ストレージ１２に格納されるプログラムは、ＨＭＤシステム１００において仮想空間２を提供するためのプログラム、シミュレーションプログラム、ゲームプログラム、ユーザ認証プログラム、他のコンピュータ２００との通信を実現するためのプログラムを含む。ストレージ１２に格納されるデータは、仮想空間２を規定するためのデータおよびオブジェクトなどを含む。

なお、他の局面において、ストレージ１２は、メモリカードのように着脱可能な記憶装置として実現されてもよい。さらに他の局面において、コンピュータ２００に内蔵されたストレージ１２の代わりに、外部の記憶装置に保存されているプログラムおよびデータを使用する構成が使用されてもよい。このような構成によれば、たとえば、アミューズメント施設のように複数のＨＭＤシステム１００が使用される場面において、プログラムやデータの更新を一括して行なうことが可能になる。

ある実施の形態において、入出力インターフェース１３は、ＨＭＤ１１０、ＨＭＤセンサ１２０またはモーションセンサ１３０との間で信号を通信する。ある局面において、入出力インターフェース１３は、ＵＳＢ（Universal Serial Bus）インターフェース、ＤＶＩ（Digital Visual Interface）、ＨＤＭＩ（登録商標）（High-Definition Multimedia Interface）その他の端子を用いて実現される。なお、入出力インターフェース１３は上述のものに限られない。

ある実施の形態において、入出力インターフェース１３は、さらに、コントローラ１６０と通信し得る。たとえば、入出力インターフェース１３は、モーションセンサ１３０から出力された信号の入力を受ける。他の局面において、入出力インターフェース１３は、プロセッサ１０から出力された命令を、コントローラ１６０に送る。当該命令は、振動、音声出力、発光などをコントローラ１６０に指示する。コントローラ１６０は、当該命令を受信すると、その命令に応じて、振動、音声出力または発光のいずれかを実行する。

通信インターフェース１４は、ネットワーク１９に接続されて、ネットワーク１９に接続されている他のコンピュータ（たとえば、サーバ１５０、他のユーザのコンピュータ２００など）と通信する。ある局面において、通信インターフェース１４は、たとえば、ＬＡＮ（Local Area Network）その他の有線通信インターフェース、あるいは、ＷｉＦｉ（Wireless Fidelity）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＮＦＣ（Near Field Communication）その他の無線通信インターフェースとして実現される。なお、通信インターフェース１４は上述のものに限られない。

ある局面において、プロセッサ１０は、ストレージ１２にアクセスし、ストレージ１２に格納されている１つ以上のプログラムをメモリ１１にロードし、当該プログラムに含まれる一連の命令を実行する。当該１つ以上のプログラムは、コンピュータ２００のオペレーティングシステム、仮想空間２を提供するためのアプリケーションプログラム、コントローラ１６０を用いて仮想空間２で実行可能なゲームソフトウェアなどを含み得る。プロセッサ１０は、入出力インターフェース１３を介して、仮想空間２を提供するための信号をＨＭＤ１１０に送る。ＨＭＤ１１０は、その信号に基づいてモニタ１１２に映像を表示する。

なお、図２に示される例では、コンピュータ２００は、ＨＭＤ１１０の外部に設けられる構成が示されているが、他の局面において、コンピュータ２００は、ＨＭＤ１１０に内蔵されてもよい。一例として、モニタ１１２を含む携帯型の情報通信端末（たとえば、スマートフォン）がコンピュータ２００として機能してもよい。

また、コンピュータ２００は、複数のＨＭＤ１１０に共通して用いられる構成であってもよい。このような構成によれば、たとえば、複数のユーザに同一の仮想空間２を提供することもできるので、各ユーザは同一の仮想空間２で他のユーザと同一のアプリケーションを楽しむことができる。

ある実施の形態において、ＨＭＤシステム１００では、グローバル座標系が予め設定されている。グローバル座標系は、現実空間における鉛直方向、鉛直方向に直交する水平方向、ならびに、鉛直方向および水平方向の双方に直交する前後方向にそれぞれ平行な、３つの基準方向（軸）を有する。本実施の形態では、グローバル座標系は視点座標系の一つである。そこで、グローバル座標系における水平方向、鉛直方向（上下方向）、および前後方向は、それぞれ、ｘ軸、ｙ軸、ｚ軸と規定される。より具体的には、グローバル座標系において、ｘ軸は現実空間の水平方向に平行である。ｙ軸は、現実空間の鉛直方向に平行である。ｚ軸は現実空間の前後方向に平行である。

ある局面において、ＨＭＤセンサ１２０は、赤外線センサを含む。赤外線センサが、ＨＭＤ１１０の各光源から発せられた赤外線をそれぞれ検出すると、ＨＭＤ１１０の存在を検出する。ＨＭＤセンサ１２０は、さらに、各点の値（グローバル座標系における各座標値）に基づいて、ＨＭＤ１１０を装着したユーザ１９０の動きに応じた、現実空間内におけるＨＭＤ１１０の位置および傾きを検出する。より詳しくは、ＨＭＤセンサ１２０は、経時的に検出された各値を用いて、ＨＭＤ１１０の位置および傾きの時間的変化を検出できる。

グローバル座標系は現実空間の座標系と平行である。したがって、ＨＭＤセンサ１２０によって検出されたＨＭＤ１１０の各傾きは、グローバル座標系におけるＨＭＤ１１０の３軸周りの各傾きに相当する。ＨＭＤセンサ１２０は、グローバル座標系におけるＨＭＤ１１０の傾きに基づき、ｕｖｗ視野座標系をＨＭＤ１１０に設定する。ＨＭＤ１１０に設定されるｕｖｗ視野座標系は、ＨＭＤ１１０を装着したユーザ１９０が仮想空間２において物体を見る際の視点座標系に対応する。

［ｕｖｗ視野座標系］
図３を参照して、ｕｖｗ視野座標系について説明する。図３は、ある実施の形態に従うＨＭＤ１１０に設定されるｕｖｗ視野座標系を概念的に表す図である。ＨＭＤセンサ１２０は、ＨＭＤ１１０の起動時に、グローバル座標系におけるＨＭＤ１１０の位置および傾きを検出する。プロセッサ１０は、検出された値に基づいて、ｕｖｗ視野座標系をＨＭＤ１１０に設定する。

図３に示されるように、ＨＭＤ１１０は、ＨＭＤ１１０を装着したユーザ１９０の頭部を中心（原点）とした３次元のｕｖｗ視野座標系を設定する。より具体的には、ＨＭＤ１１０は、グローバル座標系を規定する水平方向、鉛直方向、および前後方向（ｘ軸、ｙ軸、ｚ軸）を、グローバル座標系内においてＨＭＤ１１０の各軸周りの傾きだけ各軸周りにそれぞれ傾けることによって新たに得られる３つの方向を、ＨＭＤ１１０におけるｕｖｗ視野座標系のピッチ方向（ｕ軸）、ヨー方向（ｖ軸）、およびロール方向（ｗ軸）として設定する。

ある局面において、ＨＭＤ１１０を装着したユーザ１９０が直立し、かつ、正面を視認している場合、プロセッサ１０は、グローバル座標系に平行なｕｖｗ視野座標系をＨＭＤ１１０に設定する。この場合、グローバル座標系における水平方向（ｘ軸）、鉛直方向（ｙ軸）、および前後方向（ｚ軸）は、ＨＭＤ１１０におけるｕｖｗ視野座標系のピッチ方向（ｕ軸）、ヨー方向（ｖ軸）、およびロール方向（ｗ軸）に一致する。

ｕｖｗ視野座標系がＨＭＤ１１０に設定された後、ＨＭＤセンサ１２０は、ＨＭＤ１１０の動きに基づいて、設定されたｕｖｗ視野座標系におけるＨＭＤ１１０の傾き（傾きの変化量）を検出できる。この場合、ＨＭＤセンサ１２０は、ＨＭＤ１１０の傾きとして、ｕｖｗ視野座標系におけるＨＭＤ１１０のピッチ角（θｕ）、ヨー角（θｖ）、およびロール角（θｗ）をそれぞれ検出する。ピッチ角（θｕ）は、ｕｖｗ視野座標系におけるピッチ方向周りのＨＭＤ１１０の傾き角度を表す。ヨー角（θｖ）は、ｕｖｗ視野座標系におけるヨー方向周りのＨＭＤ１１０の傾き角度を表す。ロール角（θｗ）は、ｕｖｗ視野座標系におけるロール方向周りのＨＭＤ１１０の傾き角度を表す。

ＨＭＤセンサ１２０は、検出されたＨＭＤ１１０の傾き角度に基づいて、ＨＭＤ１１０が動いた後のＨＭＤ１１０におけるｕｖｗ視野座標系を、ＨＭＤ１１０に設定する。ＨＭＤ１１０と、ＨＭＤ１１０のｕｖｗ視野座標系との関係は、ＨＭＤ１１０の位置および傾きに関わらず、常に一定である。ＨＭＤ１１０の位置および傾きが変わると、当該位置および傾きの変化に連動して、グローバル座標系におけるＨＭＤ１１０のｕｖｗ視野座標系の位置および傾きが変化する。

ある局面において、ＨＭＤセンサ１２０は、赤外線センサからの出力に基づいて取得される赤外線の光強度および複数の点間の相対的な位置関係（たとえば、各点間の距離など）に基づいて、ＨＭＤ１１０の現実空間内における位置を、ＨＭＤセンサ１２０に対する相対位置として特定してもよい。また、プロセッサ１０は、特定された相対位置に基づいて、現実空間内（グローバル座標系）におけるＨＭＤ１１０のｕｖｗ視野座標系の原点を決定してもよい。

［仮想空間］
図４を参照して、仮想空間２についてさらに説明する。図４は、ある実施の形態に従う仮想空間２を表現する一態様を概念的に表す図である。仮想空間２は、中心２１の３６０度方向の全体を覆う全天球状の構造を有する。図４では、説明を複雑にしないために、仮想空間２のうちの上半分の天球が例示されている。仮想空間２では各メッシュが規定される。各メッシュの位置は、仮想空間２に規定されるＸＹＺ座標系における座標値として予め規定されている。コンピュータ２００は、仮想空間２に展開可能なコンテンツ（静止画、動画など）を構成する各部分画像を、仮想空間２において対応する各メッシュにそれぞれ対応付けて、ユーザ１９０によって視認可能な仮想空間画像２２が展開される仮想空間２をユーザ１９０に提供する。

ある局面において、仮想空間２では、中心２１を原点とするＸＹＺ座標系が規定される。ＸＹＺ座標系は、たとえば、グローバル座標系に平行である。ＸＹＺ座標系は視点座標系の一種であるため、ＸＹＺ座標系における水平方向、鉛直方向（上下方向）、および前後方向は、それぞれＸ軸、Ｙ軸、Ｚ軸として規定される。したがって、ＸＹＺ座標系のＸ軸（水平方向）がグローバル座標系のｘ軸と平行であり、ＸＹＺ座標系のＹ軸（鉛直方向）がグローバル座標系のｙ軸と平行であり、ＸＹＺ座標系のＺ軸（前後方向）がグローバル座標系のｚ軸と平行である。

ＨＭＤ１１０の起動時、すなわちＨＭＤ１１０の初期状態において、仮想カメラ１が、仮想空間２の中心２１に配置される。仮想カメラ１は、現実空間におけるＨＭＤ１１０の動きに連動して、仮想空間２を同様に移動する。これにより、現実空間におけるＨＭＤ１１０の位置および向きの変化が、仮想空間２において同様に再現される。

仮想カメラ１には、ＨＭＤ１１０の場合と同様に、ｕｖｗ視野座標系が規定される。仮想空間２における仮想カメラのｕｖｗ視野座標系は、現実空間（グローバル座標系）におけるＨＭＤ１１０のｕｖｗ視野座標系に連動するように規定されている。したがって、ＨＭＤ１１０の傾きが変化すると、それに応じて、仮想カメラ１の傾きも変化する。また、仮想カメラ１は、ＨＭＤ１１０を装着したユーザ１９０の現実空間における移動に連動して、仮想空間２において移動することもできる。

仮想カメラ１の向きは、仮想カメラ１の位置および傾きに応じて決まるので、ユーザ１９０が仮想空間画像２２を視認する際に基準となる視線（基準視線５）は、仮想カメラ１の向きに応じて決まる。コンピュータ２００のプロセッサ１０は、基準視線５に基づいて、仮想空間２における視界領域２３を規定する。視界領域２３は、仮想空間２のうち、ＨＭＤ１１０を装着したユーザ１９０の視界に対応する。

注視センサ１４０によって検出されるユーザ１９０の視線方向は、ユーザ１９０が物体を視認する際の視点座標系における方向である。ＨＭＤ１１０のｕｖｗ視野座標系は、ユーザ１９０がモニタ１１２を視認する際の視点座標系に等しい。また、仮想カメラ１のｕｖｗ視野座標系は、ＨＭＤ１１０のｕｖｗ視野座標系に連動している。したがって、ある局面に従うＨＭＤシステム１００は、注視センサ１４０によって検出されたユーザ１９０の視線方向を、仮想カメラ１のｕｖｗ視野座標系におけるユーザ１９０の視線方向とみなすことができる。

［ユーザの視線］
図５を参照して、ユーザ１９０の視線方向の決定について説明する。図５は、ある実施の形態に従うＨＭＤ１１０を装着するユーザ１９０の頭部を上から表した図である。

ある局面において、注視センサ１４０は、ユーザ１９０の右目および左目の各視線を検出する。ある局面において、ユーザ１９０が近くを見ている場合、注視センサ１４０は、視線Ｒ１およびＬ１を検出する。他の局面において、ユーザ１９０が遠くを見ている場合、注視センサ１４０は、視線Ｒ２およびＬ２を検出する。この場合、ロール方向ｗに対して視線Ｒ２およびＬ２がなす角度は、ロール方向ｗに対して視線Ｒ１およびＬ１がなす角度よりも小さい。注視センサ１４０は、検出結果をコンピュータ２００に送信する。

コンピュータ２００が、視線の検出結果として、視線Ｒ１およびＬ１の検出値を注視センサ１４０から受信した場合には、その検出値に基づいて、視線Ｒ１およびＬ１の交点である注視点Ｎ１を特定する。一方、コンピュータ２００は、視線Ｒ２およびＬ２の検出値を注視センサ１４０から受信した場合には、視線Ｒ２およびＬ２の交点を注視点として特定する。コンピュータ２００は、特定した注視点Ｎ１の位置に基づき、ユーザ１９０の視線方向Ｎ０を特定する。コンピュータ２００は、たとえば、ユーザ１９０の右目Ｒと左目Ｌとを結ぶ直線の中点と、注視点Ｎ１とを通る直線の延びる方向を、視線方向Ｎ０として検出する。視線方向Ｎ０は、ユーザ１９０が両目により実際に視線を向けている方向である。また、視線方向Ｎ０は、視界領域２３に対してユーザ１９０が実際に視線を向けている方向に相当する。

［視界領域］
図６および図７を参照して、視界領域２３について説明する。図６は、仮想空間２において視界領域２３をＸ方向から見たＹＺ断面を表す図である。図７は、仮想空間２において視界領域２３をＹ方向から見たＸＺ断面を表す図である。

図６に示されるように、ＹＺ断面における視界領域２３は、領域２４を含む。領域２４は、仮想カメラ１の基準視線５と仮想空間２のＹＺ断面とによって定義される。プロセッサ１０は、仮想空間２おける基準視線５を中心として極角αを含む範囲を、領域２４として規定する。

図７に示されるように、ＸＺ断面における視界領域２３は、領域２５を含む。領域２５は、基準視線５と仮想空間２のＸＺ断面とによって定義される。プロセッサ１０は、仮想空間２における基準視線５を中心とした方位角βを含む範囲を、領域２５として規定する。

ある局面において、ＨＭＤシステム１００は、コンピュータ２００からの信号に基づいて、視界画像をモニタ１１２に表示させることにより、ユーザ１９０に仮想空間２を提供する。視界画像は、仮想空間画像２２のうちの視界領域２３に重畳する部分に相当する。ユーザ１９０が、頭に装着したＨＭＤ１１０を動かすと、その動きに連動して仮想カメラ１も動く。その結果、仮想空間２における視界領域２３の位置が変化する。これにより、モニタ１１２に表示される視界画像は、仮想空間画像２２のうち、仮想空間２においてユーザ１９０が向いた方向の視界領域２３に重畳する画像に更新される。ユーザ１９０は、仮想空間２における所望の方向を視認することができる。

ユーザ１９０は、ＨＭＤ１１０を装着している間、現実世界を視認することなく、仮想空間２に展開される仮想空間画像２２のみを視認できる。そのため、ＨＭＤシステム１００は、仮想空間２への高い没入感覚をユーザ１９０に与えることができる。

ある局面において、プロセッサ１０は、ＨＭＤ１１０を装着したユーザ１９０の現実空間における移動に連動して、仮想空間２において仮想カメラ１を移動し得る。この場合、プロセッサ１０は、仮想空間２における仮想カメラ１の位置および向きに基づいて、ＨＭＤ１１０のモニタ１１２に投影される画像領域（すなわち、仮想空間２における視界領域２３）を特定する。

ある実施の形態に従うと、仮想カメラ１は、二つの仮想カメラ、すなわち、右目用の画像を提供するための仮想カメラと、左目用の画像を提供するための仮想カメラとを含むことが望ましい。また、ユーザ１９０が３次元の仮想空間２を認識できるように、適切な視差が、二つの仮想カメラに設定されていることが好ましい。本実施の形態においては、仮想カメラ１が二つの仮想カメラを含み、二つの仮想カメラのロール方向が合成されることによって生成されるロール方向（ｗ）がＨＭＤ１１０のロール方向（ｗ）に適合されるように構成されているものとして、本開示に係る技術思想を例示する。

［コントローラ］
図８を参照して、コントローラ１６０の一例について説明する。図８は、ある実施の形態に従うコントローラ１６０の概略構成を表す図である。

図８の分図（Ａ）に示されるように、ある局面において、コントローラ１６０は、右コントローラ８００と左コントローラ（図示しない）とを含み得る。右コントローラ８００は、ユーザ１９０の右手で操作される。左コントローラは、ユーザ１９０の左手で操作される。ある局面において、右コントローラ８００と左コントローラとは、別個の装置として対称に構成される。したがって、ユーザ１９０は、右コントローラ８００を把持した右手と、左コントローラを把持した左手とをそれぞれ自由に動かすことができる。他の局面において、コントローラ１６０は両手の操作を受け付ける一体型のコントローラであってもよい。以下、右コントローラ８００について説明する。

右コントローラ８００は、グリップ３０と、フレーム３１と、天面３２とを備える。グリップ３０は、ユーザ１９０の右手によって把持されるように構成されている。たとえば、グリップ３０は、ユーザ１９０の右手の掌と３本の指（中指、薬指、小指）とによって保持され得る。

グリップ３０は、ボタン３３，３４と、モーションセンサ１３０とを含む。ボタン３３は、グリップ３０の側面に配置され、右手の中指による操作を受け付ける。ボタン３４は、グリップ３０の前面に配置され、右手の人差し指による操作を受け付ける。ある局面において、ボタン３３，３４は、トリガー式のボタンとして構成される。モーションセンサ１３０は、グリップ３０の筐体に内蔵されている。なお、ユーザ１９０の動作がカメラその他の装置によってユーザ１９０の周りから検出可能である場合には、グリップ３０は、モーションセンサ１３０を備えなくてもよい。

フレーム３１は、その円周方向に沿って配置された複数の赤外線ＬＥＤ３５を含む。赤外線ＬＥＤ３５は、コントローラ１６０を使用するプログラムの実行中に、当該プログラムの進行に合わせて赤外線を発光する。赤外線ＬＥＤ３５から発せられた赤外線は、右コントローラ８００と左コントローラとの各位置や姿勢（傾き、向き）を検出するために使用され得る。図８に示される例では、二列に配置された赤外線ＬＥＤ３５が示されているが、配列の数は図８に示されるものに限られない。一列あるいは３列以上の配列が使用されてもよい。

天面３２は、ボタン３６，３７と、アナログスティック３８とを備える。ボタン３６，３７は、プッシュ式ボタンとして構成される。ボタン３６，３７は、ユーザ１９０の右手の親指による操作を受け付ける。アナログスティック３８は、ある局面において、初期位置（ニュートラルの位置）から３６０度任意の方向への操作を受け付ける。当該操作は、たとえば、仮想空間２に配置されるオブジェクトを移動するための操作を含む。

ある局面において、右コントローラ８００および左コントローラは、赤外線ＬＥＤ３５その他の部材を駆動するための電池を含む。電池は、充電式、ボタン型、乾電池型などを含むが、これらに限定されない。他の局面において、右コントローラ８００と左コントローラは、たとえば、コンピュータ２００のＵＳＢインターフェースに接続され得る。この場合、右コントローラ８００および左コントローラは、電池を必要としない。

図８の分図（Ｂ）は、右コントローラ８００を把持するユーザ１９０の右手に対応して仮想空間２に配置されるハンドオブジェクト８１０の一例を示す。たとえば、ユーザ１９０の右手に対応するハンドオブジェクト８１０に対して、ヨー、ロール、ピッチの各方向が規定される。たとえば、入力操作が、右コントローラ８００のボタン３４に対して行なわれると、ハンドオブジェクト８１０の人差し指を握りこんだ状態とし、入力操作がボタン３４に対して行なわれていない場合には、分図（Ｂ）に示すように、ハンドオブジェクト８１０の人差し指を伸ばした状態とすることもできる。たとえば、ハンドオブジェクト８１０において親指と人差し指とが伸びている場合に、親指の伸びる方向がヨー方向、人差し指の伸びる方向がロール方向、ヨー方向の軸およびロール方向の軸によって規定される平面に垂直な方向がピッチ方向としてハンドオブジェクト８１０に規定される。

［ＨＭＤの制御装置］
図９を参照して、ＨＭＤ１１０の制御装置について説明する。ある実施の形態において、制御装置は周知の構成を有するコンピュータ２００によって実現される。図９は、ある実施の形態に従うコンピュータ２００をモジュール構成として表すブロック図である。

図９に示されるように、コンピュータ２００は、表示制御モジュール２２０と、仮想空間制御モジュール２３０と、音声制御モジュール２２５と、メモリモジュール２４０と、通信制御モジュール２５０とを備える。

表示制御モジュール２２０は、サブモジュールとして、仮想カメラ制御モジュール２２１と、視界領域決定モジュール２２２と、視界画像生成モジュール２２３と、基準視線特定モジュール２２４と、視線検出モジュール２２６と、ハンドトラッキングモジュール２２７と、フェイストラッキングモジュール２２８とを含む。

仮想空間制御モジュール２３０は、サブモジュールとして、仮想空間定義モジュール２３１と、仮想オブジェクト生成モジュール２３２と、手オブジェクト制御モジュール２３３とを含む。

ある実施の形態において、表示制御モジュール２２０、仮想空間制御モジュール２３０、および音声制御モジュール２２５は、プロセッサ１０によって実現される。他の実施の形態において、複数のプロセッサ１０が表示制御モジュール２２０、仮想空間制御モジュール２３０、および音声制御モジュール２２５として作動してもよい。メモリモジュール２４０は、メモリ１１またはストレージ１２によって実現される。通信制御モジュール２５０は、通信インターフェース１４によって実現される。

ある局面において、表示制御モジュール２２０は、ＨＭＤ１１０のモニタ１１２における画像表示を制御する。仮想カメラ制御モジュール２２１は、仮想空間２に仮想カメラ１を配置し、仮想カメラ１の挙動、向きなどを制御する。視界領域決定モジュール２２２は、ＨＭＤ１１０を装着したユーザ１９０の頭の向きに応じて、視界領域２３を規定する。視界画像生成モジュール２２３は、決定された視界領域２３に基づいて、モニタ１１２に表示される視界画像のデータ（視界画像データともいう）を生成する。さらに、視界画像生成モジュール２２３は、仮想空間制御モジュール２３０から受信したデータに基づいて、視界画像データを生成する。視界画像生成モジュール２２３によって生成された視界画像データは、通信制御モジュール２５０によってＨＭＤ１１０に出力される。基準視線特定モジュール２２４は、ＨＭＤセンサ１２０またはセンサ１１４からの信号に基づいて基準視線（ＨＭＤ１１０の傾き）を検出する。視線検出モジュール２２６は、注視センサ１４０からの信号に基づいて、ユーザ１９０の視線を特定する。ハンドトラッキングモジュール２２７は、ユーザ１９０が装着するコントローラ１６０の動き、つまり、ユーザ１９０の手の動きを検出する。より具体的には、ＨＭＤセンサ１２０は、コントローラ１６０に設けられた赤外線ＬＥＤ３５が発する赤外線を検出してコンピュータ２００に出力する。ハンドトラッキングモジュール２２７は、ＨＭＤセンサ１２０から入力される検出結果に基づいて、コントローラ１６０（右コントローラ８００および左コントローラの各々）の位置を検出する。フェイストラッキングモジュール２２８は、ユーザ１９０の表情を検出する。フェイストラッキングモジュール２２８の詳細は後述される。

仮想空間制御モジュール２３０は、ユーザ１９０に提供される仮想空間２を制御する。仮想空間定義モジュール２３１は、仮想空間２を表す仮想空間データを生成することにより、ＨＭＤシステム１００における仮想空間２を規定する。

仮想オブジェクト生成モジュール２３２は、仮想空間２に配置されるオブジェクトのデータを生成する。オブジェクトは、たとえば、他アバターオブジェクト、仮想パネル、仮想手紙、および仮想ポストなどを含み得る。仮想オブジェクト生成モジュール２３２によって生成されたデータは、視界画像生成モジュール２２３に出力される。

手オブジェクト制御モジュール２３３は、手オブジェクトを仮想空間２に配置する。手オブジェクトは、たとえば、コントローラ１６０を保持したユーザ１９０の右手あるいは左手に対応する。ある局面において、手オブジェクト制御モジュール２３３は、右手あるいは左手に対応する手オブジェクトを仮想空間２に配置するためのデータを生成する。また、手オブジェクト制御モジュール２３３は、ユーザ１９０によるコントローラ１６０の操作に応じて、手オブジェクトを動かすためのデータを生成する。手オブジェクト制御モジュール２３３によって生成されたデータは、視界画像生成モジュール２２３に出力される。

他の局面において、ユーザ１９０の体の一部の動き（たとえば、左手、右手、左足、右足、頭などの動き）がコントローラ１６０に関連付けられている場合、仮想空間制御モジュール２３０は、ユーザ１９０の体の一部に対応する部分オブジェクトを仮想空間２に配置するためのデータを生成する。仮想空間制御モジュール２３０は、ユーザ１９０が体の一部を用いてコントローラ１６０を操作すると、部分オブジェクトを動かすためのデータを生成する。これらのデータは、視界画像生成モジュール２２３に出力される。

音声制御モジュール２２５は、ＨＭＤ１１０から、ユーザ１９０のマイク１１９を用いた発話を検出すると、当該発話に対応する音声データの送信対象のコンピュータ２００を特定する。音声データは、音声制御モジュール２２５によって特定されたコンピュータ２００に送信される。音声制御モジュール２２５は、ネットワーク１９を介して他のユーザのコンピュータ２００から音声データを受信すると、当該音声データに対応する音声（発話）をスピーカ１１５から出力する。

メモリモジュール２４０は、コンピュータ２００が仮想空間２をユーザ１９０に提供するために使用されるデータを保持している。ある局面において、メモリモジュール２４０は、空間情報２４１と、オブジェクト情報２４２と、ユーザ情報２４３と、顔情報２４４とを保持している。

空間情報２４１は、仮想空間２を提供するために規定された１つ以上のテンプレートを保持している。

オブジェクト情報２４２は、仮想空間２において再生されるコンテンツ、当該コンテンツで使用されるオブジェクトを配置するための情報を保持している。当該コンテンツは、たとえば、ゲーム、現実社会と同様の風景を表したコンテンツなどを含み得る。さらに、オブジェクト情報２４２は、コントローラ１６０を操作するユーザ１９０の手に相当する手オブジェクトを仮想空間２に配置するためのデータと、各ユーザのアバターオブジェクトを仮想空間２に配置するためのデータと、仮想パネルなどのその他のオブジェクトを仮想空間２に配置するためのデータとを含む。

ユーザ情報２４３は、ＨＭＤシステム１００の制御装置としてコンピュータ２００を機能させるためのプログラム、オブジェクト情報２４２に保持される各コンテンツを使用するアプリケーションプログラムなどを保持している。メモリモジュール２４０に格納されているデータおよびプログラムは、ＨＭＤ１１０のユーザ１９０によって入力される。あるいは、プロセッサ１０が、当該コンテンツを提供する事業者が運営するコンピュータ（たとえば、サーバ１５０）からプログラムあるいはデータをダウンロードして、ダウンロードされたプログラムあるいはデータをメモリモジュール２４０に格納する。顔情報２４４は、ユーザ１９０の顔器官を検出するために必要なテンプレートを含む。ある実施形態において、顔情報２４４は、口テンプレート２４５と、目テンプレート２４６と、眉テンプレート２４７とを含む。各テンプレートは、顔を構成する器官に対応する画像であり得る。たとえば、口テンプレート２４５は、口の画像であり得る。なお、各テンプレートは複数の画像を含んでもよい。

通信制御モジュール２５０は、ネットワーク１９を介して、サーバ１５０その他の情報通信装置と通信し得る。

ある局面において、表示制御モジュール２２０および仮想空間制御モジュール２３０は、たとえば、ユニティテクノロジーズ社によって提供されるＵｎｉｔｙ（登録商標）を用いて実現され得る。他の局面において、表示制御モジュール２２０および仮想空間制御モジュール２３０は、各処理を実現する回路素子の組み合わせとしても実現され得る。

コンピュータ２００における処理は、ハードウェアと、プロセッサ１０により実行されるソフトウェアとによって実現される。このようなソフトウェアは、ハードディスクその他のメモリモジュール２４０に予め格納されている場合がある。また、ソフトウェアは、ＣＤ−ＲＯＭその他のコンピュータ読み取り可能な不揮発性のデータ記録媒体に格納されて、プログラム製品として流通している場合もある。あるいは、当該ソフトウェアは、インターネットその他のネットワークに接続されている情報提供事業者によってダウンロード可能なプログラム製品として提供される場合もある。このようなソフトウェアは、光ディスク駆動装置その他のデータ読取装置によってデータ記録媒体から読み取られて、あるいは、通信制御モジュール２５０を介してサーバ１５０その他のコンピュータからダウンロードされた後、記憶モジュールに一旦格納される。そのソフトウェアは、プロセッサ１０によって記憶モジュールから読み出され、実行可能なプログラムの形式でＲＡＭに格納される。プロセッサ１０は、そのプログラムを実行する。

コンピュータ２００を構成するハードウェアは、一般的なものである。したがって、本実施の形態に係る最も本質的な部分は、コンピュータ２００に格納されたプログラムであるとも言える。なお、コンピュータ２００のハードウェアの動作は周知であるので、詳細な説明は繰り返さない。

なお、データ記録媒体としては、ＣＤ−ＲＯＭ、ＦＤ（Flexible Disk）、ハードディスクに限られず、磁気テープ、カセットテープ、光ディスク（ＭＯ（Magnetic Optical Disc）／ＭＤ（Mini Disc）／ＤＶＤ（Digital Versatile Disc））、ＩＣ（Integrated Circuit）カード（メモリカードを含む）、光カード、マスクＲＯＭ、ＥＰＲＯＭ（Electronically Programmable Read-Only Memory）、ＥＥＰＲＯＭ（Electronically Erasable Programmable Read-Only Memory）、フラッシュＲＯＭなどの半導体メモリなどの固定的にプログラムを担持する不揮発性のデータ記録媒体でもよい。

ここで言うプログラムとは、プロセッサ１０により直接実行可能なプログラムだけでなく、ソースプログラム形式のプログラム、圧縮処理されたプログラム、暗号化されたプログラムなどを含み得る。

［ＨＭＤシステムの制御構造］
図１０を参照して、ＨＭＤシステム１００の制御構造について説明する。図１０は、ある実施の形態に従うＨＭＤシステム１００において実行される処理の一部を表すシーケンスチャートである。

図１０に示されるように、ステップＳ１０１０にて、コンピュータ２００のプロセッサ１０は、仮想空間定義モジュール２３１として、仮想空間画像データを特定し、仮想空間２を定義する。

ステップＳ１０２０にて、プロセッサ１０は、仮想カメラ１を初期化する。たとえば、プロセッサ１０は、メモリのワーク領域において、仮想カメラ１を仮想空間２において予め規定された中心点に配置し、仮想カメラ１の視線をユーザ１９０が向いている方向に向ける。

ステップＳ１０３０にて、プロセッサ１０は、視界画像生成モジュール２２３として、初期の視界画像を表示するための視界画像データを生成する。生成された視界画像データは、通信制御モジュール２５０によってＨＭＤ１１０に出力される。

ステップＳ１０３２にて、ＨＭＤ１１０のモニタ１１２は、コンピュータ２００から受信した視界画像データに基づいて、視界画像を表示する。ＨＭＤ１１０を装着したユーザ１９０は、視界画像を視認すると仮想空間２を認識し得る。

ステップＳ１０３４にて、ＨＭＤセンサ１２０は、ＨＭＤ１１０から発信される複数の赤外線光に基づいて、ＨＭＤ１１０の位置と傾きを検知する。検知結果は、動き検知データとして、コンピュータ２００に出力される。

ステップＳ１０４０にて、プロセッサ１０は、ＨＭＤ１１０の動き検知データに含まれる位置と傾きとに基づいて、ＨＭＤ１１０を装着したユーザ１９０の視界方向を特定する。

ステップＳ１０５０にて、プロセッサ１０は、アプリケーションプログラムを実行し、アプリケーションプログラムに含まれる命令に基づいて、仮想空間２にオブジェクトを提示する。このとき提示されるオブジェクトは、他アバターオブジェクトを含む。

ステップＳ１０６０にて、コントローラ１６０は、モーションセンサ１３０から出力される信号に基づいて、ユーザ１９０の操作を検出し、その検出された操作を表す検出データをコンピュータ２００に出力する。なお、他の局面において、ユーザ１９０によるコントローラ１６０の操作は、ユーザ１９０の周囲に配置されたカメラからの画像に基づいて検出されてもよい。

ステップＳ１０６５にて、プロセッサ１０は、コントローラ１６０から取得した検出データに基づいて、ユーザ１９０によるコントローラ１６０の操作を検出する。

ステップＳ１０７０にて、プロセッサ１０は、手オブジェクトを仮想空間２に提示するための視界画像データを生成する。

ステップＳ１０８０にて、プロセッサ１０は、ユーザ１９０によるコントローラ１６０の操作に基づく視界画像データを生成する。生成された視界画像データは、通信制御モジュール２５０によってＨＭＤ１１０に出力される。

ステップＳ１０９２にて、ＨＭＤ１１０は、受信した視界画像データに基づいて視界画像を更新し、更新後の視界画像をモニタ１１２に表示する。

［技術思想］
次に、図１１〜図１３を用いて本開示に従う技術思想を説明する。図１１は、仮想空間２に展開されている仮想空間画像２２（以下、「パノラマ画像２２」とも言う）を変更するための処理を説明する図（その１）である。

図１１を参照して、仮想空間２には花１１１０を含むパノラマ画像２２が展開されている。また、仮想空間２は、スピーカオブジェクト１１２０を含む。ある局面において、ユーザ１９０は、仮想空間２に展開されているパノラマ画像２２を変更したいと思う。係る場合、ユーザ１９０は、パノラマ画像２２を変更するためのトリガをコンピュータ２００に入力する（ステップＳ１）。一例として、トリガは、スピーカオブジェクト１１２０とハンドオブジェクト８１０とを接触させることを含む。

その後、ユーザ１９０は、検索キーをコンピュータ２００に入力する（ステップＳ２）。図１１に示される例において、ユーザ１９０は、「動物」と発話する。コンピュータ２００は、マイク１１９から入力される音声信号から文字列「動物」を抽出する。コンピュータ２００は、抽出された文字列を表す検索キー１１３０をサーバ１５０に送信する（ステップＳ３）。サーバ１５０は、パノラマ画像ＤＢ（データベース）１９３４を保持するストレージ１９３０を有する。パノラマ画像ＤＢ１９３４は、パノラマ画像（動画像を含む）と、パノラマ画像を識別する情報（以下、「パノラマ画像ＩＤ」とも言う。）とを関連付けて複数保持する。

サーバ１５０は、コンピュータ２００から検索キー１１３０が入力されると、当該検索キー１１３０に基づいて、パノラマ画像ＤＢ１９３４に格納される複数のパノラマ画像の中から、一以上のパノラマ画像を検索する（ステップＳ４）。サーバ１５０は、検索された一以上のパノラマ画像のサムネイル１１４０を生成する。サムネイル１１４０は、パノラマ画像を特定するための情報として機能する。サーバ１５０は、生成したサムネイル１１４０とパノラマ画像ＩＤ１１５０とをコンピュータ２００に送信する（ステップＳ５）。

図１２は、パノラマ画像２２を変更するための処理を説明する図（その２）である。図１２に示される視界画像１２００は、サムネイル１２１０〜１２６０を含む。これらのサムネイルは、受信した一以上のサムネイル１１４０に対応する。また、これらのサムネイルは、静止画像または動画像のいずれであってもよい。

ユーザ１９０は、サムネイル１２１０〜１２６０のうち一のサムネイル（パノラマ画像）をハンドオブジェクト８１０で選択する（ステップＳ６）。たとえば、ユーザ１９０は、犬を含むサムネイル１２１０とハンドオブジェクト８１０とを接触させることにより、サムネイル１２１０を選択する。

図１３は、パノラマ画像２２を変更するための処理を説明する図（その３）である。コンピュータ２００は、ユーザ１９０から選択されたサムネイルに対応するパノラマ画像ＩＤ１３１０をサーバ１５０に送信する（ステップＳ７）。サーバ１５０は、受信したパノラマ画像ＩＤに対応するパノラマ画像１３２０をコンピュータ２００に送信する。コンピュータ２００は、受信したパノラマ画像１３２０を仮想空間２に展開する（ステップＳ９）。これにより、ユーザ１９０は、仮想空間２において犬１３３０を含むパノラマ画像１３２０を視認できる。

上記によれば、コンピュータ２００は、ユーザ１９０に入力された検索キーに関連する一以上のパノラマ画像、換言すれば、ユーザ１９０が所望するパノラマ画像（を特定する情報）をユーザ１９０に提示できる。以下、パノラマ画像を変更するためのより具体的な処理について説明する。

［ＨＭＤシステム１４００の構成］
図１４は、ある実施形態に従うＨＭＤシステム１４００の構成を説明するための図である。ＨＭＤシステム１４００は、ＨＭＤ１１０に替えてＨＭＤ１４１０を有する点において、図１で説明したＨＭＤシステム１００と相違する。

ＨＭＤ１４１０は、第１カメラ１１６と、第２カメラ１１７とを有する点において、ＨＭＤ１１０と相違する。第１カメラ１１６は、ユーザ１９０の顔の下部を撮影する。より具体的には、第１カメラ１１６は、ユーザ１９０の鼻、頬、および口などを撮影する。第２カメラ１１７は、ユーザ１９０の目および眉などを撮影する。ＨＭＤ１４１０のユーザ１９０側の筐体をＨＭＤ１４１０の内側、ＨＭＤ１４１０のユーザ１９０とは逆側の筐体をＨＭＤ１４１０の外側と定義する。ある局面において、第１カメラ１１６は、ＨＭＤ１４１０の外側に配置され、第２カメラ１１７は、ＨＭＤ１４１０の内側に配置され得る。第１カメラ１１６および第２カメラ１１７が生成した画像は、コンピュータ２００に入力される。

フェイストラッキングモジュール２２８は、ユーザ１９０の第１カメラ１１６および第２カメラ１１７が生成するユーザ１９０の顔の画像から、ユーザ１９０の顔を構成する器官（例えば、口，目，眉）を検出する。フェイストラッキングモジュール２２８は、検出した各器官ごとの特徴点の位置を間欠的に検出する。換言すれば、フェイストラッキングモジュール２２８は、ユーザ１９０の表情を検出する。以下、フェイストラッキングモジュール２２８のより具体的な処理を説明する。

［フェイストラッキング］
以下、図１５〜図１８を参照して、ユーザの表情（顔の動き）を検出するための具体例について説明する。図１５〜図１８では、一例として、ユーザ１９０の口の動きを検出する具体例について説明する。なお、図１５〜図１８で説明される検出方法は、ユーザ１９０の口の動きに限られず、ユーザ１９０の顔を構成する他の器官（例えば、目、眉、鼻、頬）の動きの検出にも適用され得る。

図１５は、ユーザの顔画像１５００から口を検出する制御について説明する図である。第１カメラ１１６により生成された顔画像１５００は、ユーザ１９０の鼻と口とを含む。

フェイストラッキングモジュール２２８は、顔情報２４４に格納される口テンプレート２４５を利用したパターンマッチングにより、顔画像１５００から口領域１５１０を特定する。ある局面において、フェイストラッキングモジュール２２８は、顔画像１５００において、矩形上の比較領域を設定し、この比較領域の大きさ、位置および角度をそれぞれ変えながら、比較領域の画像と、口テンプレート２４５の画像との類似度を算出する。フェイストラッキングモジュール２２８は、予め定められたしきい値よりも大きい類似度が算出された比較領域を、口領域１５１０として特定し得る。

フェイストラッキングモジュール２２８はさらに、算出した類似度がしきい値よりも大きい比較領域の位置と、他の顔器官（例えば、目、鼻）の位置との相対関係に基づいて、当該比較領域が口領域に相当するか否かを判断し得る。

フェイストラッキングモジュール２２８は、特定した口領域１５１０に基づいて、より詳細な口の形状を検出する。

図１６は、フェイストラッキングモジュール２２８が口の形状を検出する処理を説明する図（その１）である。図１６を参照して、フェイストラッキングモジュール２２８は、口領域１５１０に含まれる口の形状（唇の輪郭）を検出するための複数の輪郭検出線１６００を設定する。各輪郭検出線１６００は、顔の高さ方向に直交する方向に、予め定められた間隔で設定される。

フェイストラッキングモジュール２２８は、複数の輪郭検出線１６００の各々に沿った口領域１５１０の輝度値の変化を検出し、輝度値の変化が急激な位置を輪郭点として特定し得る。より具体的には、フェイストラッキングモジュール２２８は、隣接画素との輝度差（すなわち、輝度値変化）が予め定められたしきい値以上である画素を、輪郭点として特定し得る。画素の輝度値は、たとえば、画素のＲＢＧ値を所定の重み付けで積算することにより得られる。

フェイストラッキングモジュール２２８は、口領域１５１０に対応する画像から２種類の輪郭点を特定する。フェイストラッキングモジュール２２８は、口（唇）の外側の輪郭に対応する輪郭点１６１０と、口（唇）の内側の輪郭に対応する輪郭点１６２０とを特定する。ある局面において、フェイストラッキングモジュール２２８は、１つの輪郭検出線１６００上に３つ以上の輪郭点が検出された場合には、両端の輪郭点を外側の輪郭点１６１０として特定し得る。この場合、フェイストラッキングモジュール２２８は、外側の輪郭点１６１０以外の輪郭点を、内側の輪郭点１６２０として特定し得る。また、フェイストラッキングモジュール２２８は、１つの輪郭検出線１６００上に二つ以下の輪郭点が検出された場合には、検出された輪郭点を外側の輪郭点１６１０として特定し得る。

図１７は、フェイストラッキングモジュール２２８が口の形状を検出する処理を説明するための図（その２）である。図１７では、外側の輪郭点１６１０は白丸、内側の輪郭点１６２０はハッチングされた丸としてそれぞれ示されている。

フェイストラッキングモジュール２２８は、内側の輪郭点１６２０間を補完することにより、口形状１７００を特定する。この場合、輪郭点１６２０は、口の特徴点と言える。ある局面において、フェイストラッキングモジュール２２８は、スプライン補完などの非線形の補完方法を用いて、口形状１７００を特定し得る。なお、他の局面において、フェイストラッキングモジュール２２８は、外側の輪郭点１６１０間を補完することにより口形状１７００を特定してもよい。さらに他の局面において、フェイストラッキングモジュール２２８は、想定される口形状（人の上唇と下唇とによって形成され得る所定の形状）から、大きく逸脱する輪郭点を除外し、残った輪郭点によって口形状１７００を特定してもよい。このようにして、フェイストラッキングモジュール２２８は、ユーザの口の動作（形状）を特定し得る。なお、口形状１７００の検出方法は上記に限られず、フェイストラッキングモジュール２２８は、他の手法により口形状１７００を検出してもよい。また、フェイストラッキングモジュール２２８は、同様にして、ユーザの目および眉の動作を検出し得る。なお、フェイストラッキングモジュール２２８は、頬、鼻などの器官の形状を検出可能に構成されてもよい。

図１８は、フェイストラッキングデータの構造の一例を表す。フェイストラッキングデータは、各器官の形状を構成する複数の特徴点のｕｖｗ視野座標系における位置座標を表す。たとえば、図１８に示されるポイントｍ１、ｍ２・・は、口形状１７００を構成する内側の輪郭点１６２０に対応する。ある局面において、フェイストラッキングデータは、第１カメラ１１６または第２カメラ１１７の位置を基準（原点）としたｕｖｗ視野座標系における座標値である。他の局面において、フェイストラッキングデータは、各器官ごとに予め定められた特徴点を基準（原点）とした座標系における座標値である。一例として、ポイントｍ１、ｍ２・・・は、内側の輪郭点１６２０のうち口角に対応するいずれか一方の特徴点を原点とした座標系における座標値である。

［サーバ１５０の構成］
図１９は、サーバ１５０のハードウェア構成と機能構成とを表すブロック図である。ある実施形態において、サーバ１５０は、主たるハードウェアとして通信インターフェース１９１０と、プロセッサ１９２０と、ストレージ１９３０とを備える。

通信インターフェース１９１０は、コンピュータ２００など外部の通信機器と信号を送受信するための変復調処理などを行なう無線通信用の通信モジュールとして機能する。通信インターフェース１９１０は、チューナ、高周波回路等により実現される。

プロセッサ１９２０は、サーバ１５０の動作を制御する。プロセッサ１９２０は、ストレージ１９３０に格納される各種の制御プログラムを実行することにより、送受信部１９２１、サーバ処理部１９２２、検索エンジン１９２３、物体特定部１９２４、感情判断部１９２５、学習部１９２６として機能する。

送受信部１９２１は、各コンピュータ２００との間で各種情報を送受信する。たとえば、送受信部１９２１は、仮想空間２にオブジェクトを配置する要求、オブジェクトを仮想空間２から削除する要求、オブジェクトを移動させる要求、ユーザの音声などを各コンピュータ２００に送信する。

サーバ処理部１９２２は、コンピュータ２００から受信した情報に基づいて、後述されるユーザＤＢ１９３３および学習用ＤＢ１９３５を更新する。検索エンジン１９２３は、コンピュータ２００から受信した検索キーに基づいて、パノラマ画像ＤＢ１９３４に含まれる複数のパノラマ画像の中から一以上のパノラマ画像を検索する。

物体特定部１９２４は、後述する学習モデル１９３６を利用して、コンピュータ２００から入力された線図データに対応する物体の候補を特定する。感情判断部１９２５は、後述する学習モデル１９３７を利用して、コンピュータ２００から受信したフェイストラッキングデータに対応するユーザ１９０の感情の候補を判断する。学習部１９２６は、後述する学習モデル１９３６、１９３７を更新する。

ストレージ１９３０は、仮想空間指定情報１９３１と、オブジェクト指定情報１９３２と、ユーザＤＢ１９３３と、パノラマ画像ＤＢ１９３４と、学習用ＤＢ１９３５と、学習モデル１９３６、１９３７とを保持する。

仮想空間指定情報１９３１は、コンピュータ２００の仮想空間定義モジュール２３１が仮想空間２を定義するために用いられる情報である。たとえば、仮想空間指定情報１９３１は、仮想空間２の大きさまたは形状を指定する情報を含む。オブジェクト指定情報１９３２は、コンピュータ２００の仮想オブジェクト生成モジュール２３２が仮想空間２に配置（生成）するオブジェクトを指定する。

ユーザＤＢ１９３３は、ネットワーク１９に接続される複数のコンピュータ２００の各々のユーザ１９０を識別するための情報（以下、「ユーザＩＤ」とも言う）と、ユーザの属性情報とを含む。属性情報は、たとえば、年齢、場所（住所など）、性別、趣味などを含む。パノラマ画像ＤＢ１９３４は、パノラマ画像ＩＤと、パノラマ画像（動画像を含む）とを関連付けて保持する。

学習用ＤＢ１９３５は、検索キーと、当該検索キーにより検索された一以上のパノラマ画像のうちユーザ１９０に選択されたパノラマ画像とを互いに関連付けて保持する。ある局面において、学習用ＤＢ１９３５は、これらの情報にさらにユーザＩＤを関連付けて保持してもよい。パノラマ画像ＤＢ１９３４および学習用ＤＢ１９３５のデータ構造は後述される。

学習モデル１９３６は、コンピュータ２００から入力された線図データに対応する物体を特定するためのプログラムを保持する。学習モデル１９３７は、コンピュータ２００から入力されたフェイストラッキングデータに対応するユーザ１９０の感情を判断するためのプログラムを保持する。一例として、学習モデル１９３６，１９３７は、入力層、複数の中間層、および出力層を含むニューラルネットワークである。学習部１９２６は、学習用ＤＢ１９３５に保持される学習用データに基づいて、学習モデル１９３６、１９３７の各ノード間の重み係数を更新する。学習部１９２６は、一例として、誤差逆伝播法に従い重み係数を更新する。

（パノラマ画像ＤＢ１９３４）
図２０は、パノラマ画像ＤＢ１９３４のデータ構造の一例を表す。パノラマ画像ＤＢ１９３４は、パノラマ画像ＩＤと、画像データと、タイトルと、タグとを互いに関連付けて保持する。

画像データは、動画像データを含み得る。画像データは、たとえば、コンピュータ２００のユーザ、またはサーバ１５０の管理者によりサーバ１５０に投稿（登録）される。タイトルは、画像データの投稿者によって設定される。タグは、画像データの投稿者、またはパノラマ画像の視聴者によって設定される。タグは、パノラマ画像のジャンル、パノラマ画像に含まれる物体などを特定する。タグはさらに、感情タグを含み得る。感情タグは、ユーザ１９０がパノラマ画像を視聴することにより得られると推定される感情を表す。一例として、コメディ動画像のパノラマ画像には、「楽しい」、「リラックス」、「満足」などの感情タグが設定される。

（学習用ＤＢ１９３５）
図２１は、学習用ＤＢ１９３５のデータ構造の一例を表す。学習用ＤＢ１９３５は、テーブル２１１０，２１２０，２１３０を含む。テーブル２１１０は、線図データとしての検索キーと、線図により表される物体と、当該検索キーにより検索された一以上のパノラマ画像のうちユーザ１９０に選択されたパノラマ画像のパノラマ画像ＩＤとを互いに関連付けて保持する。テーブル２１２０は、フェイストラッキングデータとしての検索キーと、フェイストラッキングデータにより表される感情と、当該検索キーにより検索された一以上のパノラマ画像のうちユーザ１９０に選択されたパノラマ画像のパノラマ画像ＩＤとを互いに関連付けて保持する。テーブル２１３０は、音声信号から抽出された文字列としての検索キーと、当該検索キーにより検索された一以上のパノラマ画像のうちユーザ１９０に選択されたパノラマ画像のパノラマ画像ＩＤとを互いに関連付けて保持する。

以下、検索キーとして、ユーザ１９０が仮想空間２で描いた線図を表す線図データ、ユーザ１９０の表情を表すフェイストラッキングデータ、ユーザ１９０の発話に基づく音声信号から抽出された文字列、を用いる実施形態について説明する。

［線図データを検索キーとして用いる］
図２２は、ユーザ１９０が仮想空間２において線図を描いている様子を表す視界画像２２００である。視界画像２２００は、机オブジェクト２２１０を含む。机オブジェクト２２１０の上には、コンピュータ２００がユーザ１９０から線図の入力を受け付けるための入力オブジェクト２２２０が配置されている。入力オブジェクト２２２０の形状は、平らな面を有する略直方体である。

ある局面において、机オブジェクト２２１０の上にペンオブジェクト２２３０が配置されている。また、入力オブジェクト２２２０の近傍に、入力オブジェクト２２２０への線図の入力を促すメッセージオブジェクト２２４０が配置されている。

図２２に示される例において、ハンドオブジェクト８１０とペンオブジェクト２２３０とが関連付けられている。たとえば、コンピュータ２００のプロセッサ１０は、ハンドオブジェクト８１０とペンオブジェクト２２３０とが接触したことを検出して、これらのオブジェクトを互いに関連付ける。

ユーザ１９０は、これらのオブジェクトが関連付けられた状態でコントローラ１６０を動かす。プロセッサ１０はハンドトラッキングモジュール２２７として、コントローラ１６０の動きをハンドオブジェクト８１０に反映する。これにより、ペンオブジェクト２２３０がハンドオブジェクト８１０に連動して動く。

ユーザ１９０は、ペンオブジェクト２２３０を用いて入力オブジェクト２２２０に線図を入力する。より具体的には、プロセッサ１０は、ペンオブジェクト２２３０と入力オブジェクト２２２０との接点の軌跡を表す軌跡オブジェクト２２５０を入力オブジェクト２２２０上に配置する。これにより、ユーザ１９０は、自身が描いた線図（に対応する軌跡オブジェクト２２５０）を認識できる。ある実施形態において、プロセッサ１０は、コントローラ１６０の予め定められたボタンが押下されている間のみ、ペンオブジェクト２２３０と入力オブジェクト２２２０との接点の軌跡をトラッキングするように構成されてもよい。

コンピュータ２００は、軌跡オブジェクト２２５０のデータ（ユーザ１９０が描いた線図を表す線図データ）を検索キーとして、サーバ１５０に送信する。

サーバ１５０のプロセッサ１９２０は、物体特定部１９２４として、コンピュータ２００から入力された線図データが表す物体の候補を特定する。より具体的には、物体特定部１９２４は、学習モデル１９３６の各入力層に線図データを入力し、各出力層から出力された値に基づいて、線図データが表す物体の候補を特定する。一例として、物体特定部１９２４は、予め定められた閾値を超える値を出力した出力層に対応する物体を、線図データが表す物体の候補として特定する。物体特定部１９２４は、特定された物体の候補を表す情報（例えば文字列）を検索エンジン１９２３に出力する。

検索エンジン１９２３は、物体特定部１９２４から入力された情報に基づいて、パノラマ画像ＤＢ１９３４に格納される複数のパノラマ画像の中から一以上のパノラマ画像を検索する。たとえば、検索エンジン１９２３は、物体特定部１９２４から「ねこ」、「いぬ」の文字列の入力を受け付ける。検索エンジン１９２３は、入力された文字列を用いて、パノラマ画像ＤＢ１９３４の中から、タイトルまたはタグに「ねこ」または「いぬ」の文字列を含むパノラマ画像を検索する。プロセッサ１９２０は、検索されたパノラマ画像の画像データからサムネイルを生成する。プロセッサ１９２０は、生成したサムネイルと、当該サムネイルに対応するパノラマ画像ＩＤとをコンピュータ２００に送信する。

図２３は、ユーザ１９０がパノラマ画像を選択する様子を表す視界画像２３００である。視界画像２３００は、ユーザ１９０により入力された検索キーを表すスクリーン２３１０と、サーバ１５０から受信したサムネイル２３２０〜２３５０とを含む。

ユーザ１９０は、サムネイル２３２０〜２３５０のうち一のサムネイル（パノラマ画像）をハンドオブジェクト８１０で選択する。コンピュータ２００は、選択されたサムネイルに対応するパノラマ画像ＩＤをサーバ１５０に送信する。サーバ１５０は、受信したパノラマ画像ＩＤに対応する画像データをコンピュータ２００に送信する。コンピュータ２００は、受信した画像データを仮想空間２に展開する。これにより、ユーザ１９０は、所望のパノラマ画像を視聴できる。なお、パノラマ画像が動画像である場合、コンピュータ２００は、当該パノラマ画像を予めダウンロードしてから仮想空間２に展開してもよいし、当該パノラマ画像をストリーミング再生してもよい。

サーバ１５０のプロセッサ１９２０は、コンピュータ２００から受信したパノラマ画像ＩＤに関連付けられたタグに基づいて、検索キーにより表される物体を特定する。プロセッサ１９２０は、検索キー（線図データ）と、検索キーにより表される物体と、パノラマ画像ＩＤとを検索用ＤＢ１９３５のテーブル２１１０に格納する。ある局面において、プロセッサ１９２０は、学習部１９２６として、線図データと当該線図データにより表される物体とに基づいて、学習モデル１９３６の学習（教師あり学習）を実行する。

上記によれば、サーバ１５０は、ユーザ１９０の描いた線図に基づいて、ユーザ１９０が所望するパノラマ画像の候補をユーザ１９０に提供できる可能性を高め得る。また、図２３の視界画像２３００に示されるように、ユーザ１９０は、自分で入力した検索キー（線図）と、検索キーにより検索されたパノラマ画像（のサムネイル）とを一緒に提示されるため、自身が思い浮かべていた検索キー（線図ではなく文字列）に対応するパノラマ動画を正確に選択し得る。その結果、サーバ１５０は、質の高い学習用データを取得でき、学習効率を高め得る。

ある局面において、視界画像２３００は、検索キーに対応する物体が何であるかをユーザ１９０に問い合わせるための質問オブジェクト２３６０を含む。たとえば、質問オブジェクト２３６０は、検索キーに対応する物体が、最も大きな値を出力した出力層に対応する物体（つまり、ユーザが意図している物体である確率が最も高い物体）であるか否かを問い合わせる。質問オブジェクト２３６０は、当該問い合わせに対する回答の入力を受け付けるための回答オブジェクト２３７０，２３８０を含む。ユーザ１９０は、ハンドオブジェクト８１０で回答オブジェクト２３７０，２３８０のいずれか一方を選択する。コンピュータ２００は、当該問い合わせに対するユーザ１９０の回答結果をサーバ１５０に送信する。サーバ１５０のプロセッサ１９２０は、受信した回答結果と線図データとに基づいて学習モデル１９３６を学習してもよい。

（線図に基づくパノラマ画像の変更処理の制御構造）
図２４は、線図に基づいてパノラマ画像を変更するための処理を表すフローチャートである。図２４に示される処理は、コンピュータ２００のプロセッサ１０およびサーバ１５０のプロセッサ１９２０によって実現される。

ステップＳ２４０５にて、プロセッサ１０は、仮想空間定義モジュール２３１として、仮想空間２にパノラマ画像を展開する。ステップＳ２４１０にて、プロセッサ１０は、仮想空間２に、入力オブジェクト、ペンオブジェクト、操作オブジェクトとして機能するハンドオブジェクト、仮想カメラなどの各種オブジェクトを配置する。

ステップＳ２４１５にて、プロセッサ１０は、操作オブジェクトとペンオブジェクトとが接触したか否かを判断する。プロセッサ１０は、これらのオブジェクトが接触したと判断した場合（ステップＳ２４１５でＹＥＳ）、これらのオブジェクトを関連付ける。また、プロセッサ１０は、これらのオブジェクトが接触したことを、パノラマ画像を変更するためのトリガとして受け付ける。そうでない場合（ステップＳ２４１５でＮＯ）、プロセッサ１０は、トリガを受け付けるまで待機する。

ステップＳ２４２０にて、プロセッサ１０は、入力オブジェクトに対する線図（例えば、ペンオブジェクトと入力オブジェクトとの接点の軌跡）を検索キーとして受け付ける。ステップＳ２４２５にて、プロセッサ１０は、操作オブジェクトとペンオブジェクトとの関連付けが解除されたか否かを判断する。たとえば、ユーザ１９０は、コントローラ１６０に設けられた予め定められたボタンを押下することにより、上記関連付けを解除する。プロセッサ１０は、操作オブジェクトとペンオブジェクトとの関連付けが解除されたと判断した場合（ステップＳ２４２５でＹＥＳ）、ステップＳ２４２０で入力された線図データをサーバ１５０に送信する（ステップＳ２４３０）。そうでない場合（ステップＳ２４２５でＮＯ）、プロセッサ１０は、ステップＳ２４２０の処理を再び実行する。

ステップＳ２４３５にて、プロセッサ１９２０は、コンピュータ２００から線図データ（検索キー）を受信する。ステップＳ２４４０にて、プロセッサ１９２０は、線図データに基づいて物体（例えば、物体を表す文字列）を特定する。ステップＳ２４４５にて、プロセッサ１９２０は、特定した物体を表す文字列に基づいて、パノラマ画像ＤＢ１９３４に格納される複数のパノラマ画像の中から一以上のパノラマ画像を検索する。ステップＳ２４５０にて、プロセッサ１９２０は、検索した一以上のパノラマ画像の各々についてサムネイルを生成し、サムネイルとパノラマ画像ＩＤとをコンピュータ２００に送信する。

ステップＳ２４５５にて、プロセッサ１０は、サーバ１５０からサムネイルとパノラマ画像ＩＤとを受信する。ステップＳ２４６０にて、プロセッサ１０は、検索されたパノラマ画像を特定するための情報として機能するサムネイルを仮想空間２に提示する。ステップＳ２４６５にて、プロセッサ１０は、ユーザ１９０から、一以上のパノラマ画像（サムネイル）の中から一のパノラマ画像（サムネイル）の選択を受け付ける。ステップＳ２４７０にて、プロセッサ１０は、選択されたサムネイルに対応するパノラマ画像ＩＤをサーバ１５０に送信する。

ステップＳ２４７５にて、プロセッサ１９２０は、パノラマ画像ＩＤをコンピュータ２００から受信する。ステップＳ２４８０にて、プロセッサ１９２０は、パノラマ画像ＤＢ１９３４を参照して、受信したパノラマ画像ＩＤに対応する画像データをコンピュータ２００に送信する。

ステップＳ２４８５にて、プロセッサ１０は、仮想空間定義モジュール２３１として、受信した画像データを仮想空間２を構成する天球に展開する。これにより、ユーザ１９０は、自身の所望するパノラマ画像を視認できる。

ステップＳ２４９０にて、プロセッサ１９２０は、学習部１９２６として、検索キーとして入力された線図データと、当該線図データにより表される物体とに基づいて、学習モデル１９３６を学習（更新）する。

（立体的な線図に基づく検索）
上記の例では、コンピュータ２００は、平坦な入力オブジェクトに対してユーザが描く平面的な線図の入力を受け付けるように構成されている。他の局面において、コンピュータ２００は、ユーザが描く立体的な線図を検索キーとして受け付けるように構成されてもよい。

図２５は、立体的な線図の入力を受け付ける様子を表す視界画像２５００である。視界画像２５００は、入力オブジェクト２５１０を含む。図２５に示される例において、入力オブジェクト２５１０は、立方体であって、立方体を構成する各辺が破線で表示されている。

ユーザ１９０は、ペンオブジェクト２２３０が関連付けられたハンドオブジェクト８１０を操作して、入力オブジェクト２５１０に囲まれる領域に立体的な線図を描くことができる。図２５に示される例において、飛行機２５２０が描かれている。

コンピュータ２００は、飛行機２５２０（３次元の線図）を２次元化する。より具体的には、入力オブジェクト２５１０を構成する立方体の各平面に飛行機２５２０を転写する。入力オブジェクト２５１０は、仮想空間２に設定されている各軸に平行に配置されているとする。係る場合、コンピュータ２００は、図２６に示されるように、飛行機２５２０を、ＸＹ平面、ＹＺ平面、およびＺＸ平面にそれぞれ転写する。図２６（Ａ）は、飛行機２５２０をＸＹ平面に転写した線図である。図２６（Ｂ）は、飛行機２５２０をＹＺ平面に転写した線図である。図２６（Ｃ）は、飛行機２５２０をＺＸ平面に転写した線図である。

コンピュータ２００は、得られた２次元の線図データを検索キーとしてサーバ１５０に送信する。その後の処理は上述の通りであるので、当該処理の説明は、繰り返さない。

上記によれば、ユーザ１９０は、仮想空間２上に描いた立体的な線図を検索キーとしてコンピュータ２００およびサーバ１５０に入力できる。ある局面において、ユーザ１９０は、仮想空間２を介して他のユーザと通信する場合がある。係る場合、ユーザ１９０は、ユーザ１９０が意図する物体を、サーバ１５０が入力された線図に基づいて正しく認識できているのか否かを、他のユーザとともにゲーム感覚で楽しむことができる。

［フェイストラッキングデータを検索キーとして用いる］
次に、フェイストラッキングデータ、つまり、ユーザ１９０の表情を検索キーとして用いる場合の実施形態について説明する。

図２７は、フェイストラッキングデータに基づいてパノラマ画像を変更するための処理を表すフローチャートである。なお、図２７に示される処理のうち図２４の処理と同じ処理については同じ符号を付している。そのため、その処理についての説明は繰り返さない。

ステップＳ２７１０にて、コンピュータ２００のプロセッサ１０は、仮想空間２に展開されているパノラマ画像を変更するためのトリガを受け付けたか否かを判断する。たとえば、プロセッサ１０は、コントローラ１６０に設けられた予め定められたボタンが押下されたことに応じて、上記トリガを受け付ける。

ステップＳ２７２０にて、プロセッサ１０は、フェイストラッキングデータを取得する。このとき、プロセッサ１０は、ユーザ１９０に今の感情（気分）、またはパノラマ画像を視聴することにより得たい感情を問い合わせてもよい。ユーザ１９０は、当該問い合わせに応じて表情を作る。第１カメラ１１６および第２カメラ１１７は、そのときのユーザ１９０の顔の画像を生成する。プロセッサ１０はフェイストラッキングモジュール２２８として、入力された顔の画像に基づいてフェイストラッキングデータを生成する。ステップＳ２７３０にて、プロセッサ１０は、生成されたフェイストラッキングデータを検索キーとしてサーバ１５０に送信する。

ステップＳ２７４０にて、サーバ１５０のプロセッサ１９２０は、コンピュータ２００からフェイストラッキングデータの入力を受け付ける。ステップＳ２７５０にて、プロセッサ１９２０は、感情判断部１９２５として、入力されたフェイストラッキングデータが表すユーザ１９０の感情の候補を特定する。より具体的には、感情判断部１９２５は、学習モデル１９３７の各入力層にフェイストラッキングデータを入力し、各出力層から出力された値に基づいて、フェイストラッキングデータが表す感情の候補を特定する。一例として、感情判断部１９２５は、予め定められた閾値を超える値を出力した出力層に対応する感情を、フェイストラッキングデータが表す感情の候補として特定する。ステップＳ２７６０にて、プロセッサ１９２０は、パノラマ画像ＤＢ１９３４に格納されている複数のパノラマ画像の中から、特定された感情の感情タグを含む一以上のパノラマ画像を検索する。

ステップＳ２７９０にて、プロセッサ１９２０は、学習部１９２６として、検索キーとして入力されたフェイストラッキングデータと、当該フェイストラッキングデータにより表される感情とに基づいて、学習モデル１９３７を学習（更新）する。

上記によれば、ユーザ１９０は、表情を作る（たとえば、笑う）だけで、自身の気分（感情）に合わせたパノラマ画像の候補を受けることができる。また、サーバ１５０は、ユーザ１９０の表情（を表すフェイストラッキングデータ）に基づいて、ユーザ１９０が所望するパノラマ画像の候補をユーザ１９０に提供できる可能性を高め得る。

なお、上記の例では、サーバ１５０は、フェイストラッキングデータに基づいてユーザ１９０の感情を推定するように構成されているが、他の局面において他のデータに基づいてユーザ１９０の感情を推定するように構成されてもよい。たとえば、サーバ１５０は、ユーザ１９０の発話に基づく音声信号をコンピュータ２００から受け付け、当該音声信号に基づいてユーザ１９０の感情を推定してもよい。たとえば、サーバ１５０は、音声信号から文字列を抽出して、当該文字列から感情を推定する。このような処理は、たとえば、メタデータ社が提供する「感情解析ＡＰＩ」により実現され得る。他の局面において、サーバ１５０は、音声信号の波形から感情を推定する。このような処理は、たとえば、ＡＧＩ社が提供する「ＳＴＥｍｏｔｉｏｎＳＤＫ」により実現され得る。なお、これらの処理は、サーバ１５０ではなくコンピュータ２００が実行するように構成されてもよい。係る場合、コンピュータ２００は、推定した感情を特定する情報をサーバ１５０に送信する。

［音声信号から抽出される文字列を検索キーとして用いる］
次に、ユーザ１９０の発話に対応する音声信号から抽出される文字列を検索キーとして用いる場合の実施形態について説明する。

図２８は、ユーザ１９０が発話により検索キーを入力する様子を表す視界画像２８００である。視界画像２８００は、机オブジェクト２２１０を含む。机オブジェクト２２１０の上には、スピーカオブジェクト２８１０が配置されている。また、スピーカオブジェクト２８１０に重畳するようにポインタオブジェクト２８２０が配置されている。

ポインタオブジェクト２８２０は、ユーザ１９０の仮想空間２における視点を表す。プロセッサ１０は視線検出モジュール２２６として、注視センサ１４０の出力に基づいて現実空間におけるユーザ１９０の視線を検出する。視線検出モジュール２２６は、現実空間におけるユーザ１９０の視線を、仮想カメラ１の位置および傾き（基準視線）に基づいて、仮想空間２における視線に変換する。仮想オブジェクト生成モジュール２３２は、仮想空間２における視線と、オブジェクトとが衝突する位置にポインタオブジェクト２８２０を配置する。

ある局面において、ユーザ１９０は、スピーカオブジェクト２８１０を選択することで、仮想空間２に展開されているパノラマ画像を変更するためのトリガをコンピュータ２００に入力する。一例として、ユーザ１９０は、ハンドオブジェクト８１０と、スピーカオブジェクト２８１０とを接触させることで、スピーカオブジェクト２８１０を選択する。他の例として、ユーザ１９０は、スピーカオブジェクト２８１０を予め定められた時間にわたり注視する、つまり、ポインタオブジェクト２８２０を予め定められた時間にわたりスピーカオブジェクト２８１０に重畳することにより、スピーカオブジェクト２８１０を選択する。

コンピュータ２００のプロセッサ１０は、ユーザ１９０に対してトリガが入力されたことを通知する。たとえば、プロセッサ１０は、「検索したい内容を話してください」等の、ユーザ１９０の発話を促す音声またはメッセージを出力する。これに従い、ユーザ１９０は、検索したい内容を発話する。プロセッサ１０は、マイク１１９から音声信号を受け付け、当該音声信号から文字列を抽出する。一例として、プロセッサ１０は、音声信号の先頭から所定時間単位（たとえば、１０ｍｓｅｃ単位）で区切られる波形データと、ストレージ１２に格納される音響モデル（図示しない）とを照合して、文字列を抽出する。音響モデルは、母音や子音などの音素ごとの特徴量を表す。一例として、プロセッサ１０は、隠れマルコフモデルに基づき、音声信号と音響モデルとを照合する。プロセッサ１０は、抽出した文字列をサーバ１５０に送信する。

サーバ１５０のプロセッサ１９２０は、パノラマ画像ＤＢ１９３４に格納されている複数のパノラマ画像の中から、タイトルまたはタグに入力された文字列（または当該文字列に含まれる単語）を含むパノラマ画像を検索する。その後の処理は上述の処理と同じであるので繰り返さない。

上記によれば、ユーザ１９０は、単に発話するだけで検索キーをコンピュータ２００に入力できる。また、現実世界においてスピーカ機能を有するデバイス（たとえば、アマゾンエコー（登録商標））とユーザとの間での音声コミュニケーションが一般的になっている。そのため、ユーザ１９０は、スピーカの形状を有するスピーカオブジェクトが音声入力および出力機能を有すると容易に想像し得る。なお、他の局面において、スピーカオブジェクトに替えて、マイクの形状を有するマイクオブジェクトが配置されていてもよい。

（制御構造）
図２９は、音声信号から抽出される文字列に基づいてパノラマ画像を切り替えるための処理を表すフローチャートである。なお、図２９に示される処理のうち図２４の処理と同じ処理については同じ符号を付している。そのため、その処理についての説明は繰り返さない。

ステップＳ２９１０にて、コンピュータ２００のプロセッサ１０は、仮想空間２に展開されているパノラマ画像を変更するためのトリガを受け付けたか否かを判断する。たとえば、プロセッサ１０は、スピーカオブジェクトがユーザ１９０に選択された場合に、上記トリガを受け付けて、ステップＳ２９２０の処理を実行する。そうでない場合（ステップＳ２９１０でＮＯ）、プロセッサ１０は、トリガを受け付けるまで待機する。

ステップＳ２９２０にて、プロセッサ１０は、マイク１１９からユーザ１９０の発話に対応する音声信号の入力を受け付ける。ステップＳ２９３０にて、プロセッサ１０は、音声信号から文字列を抽出し、抽出された文字列を検索キーとしてサーバ１５０に送信する。なお、他の局面において、プロセッサ１０は音声信号をサーバ１５０に送信し、サーバ１５０が音声信号から文字列を抽出するように構成されてもよい。

ステップＳ２９４０にて、サーバ１５０のプロセッサ１９２０は、検索キーとしての文字列をコンピュータ２００から受信する。

上記によれば、ユーザ１９０は、発話するだけで、自身の所望するパノラマ画像の候補を受けることができる。

（他のユーザと連携してパノラマ画像を検索）
上述のように、ユーザ１９０は、ネットワーク１９を介して仮想空間２上で他のユーザとコミュニケーションできる。このとき、ユーザ１９０と他のユーザは、同じパノラマ画像を視聴している。ある局面において、ユーザ１９０は、他のユーザと相談しながらパノラマ画像の変更を行ないたいと考え得る。その理由は、ユーザ１９０が勝手にパノラマ画像２２を変更することで、他のユーザが驚くことを抑制するためである。そこで、以下に、複数のユーザの入力に基づいてパノラマ画像を変更する処理について説明する。

図３０は、複数のユーザが仮想空間を共有している場合のネットワーク１９を説明する図である。図３０に示される例において、ネットワーク１９にコンピュータ２００Ａ、２００Ｂが接続されている。コンピュータ２００ＡはＨＭＤシステム１４００Ａに含まれ、コンピュータ２００ＢはＨＭＤシステム１４００Ｂに含まれる。ＨＭＤシステム１４００ＡおよびＨＭＤシステム１４００Ｂの構成は、上述のＨＭＤシステム１４００と同じ構成である。以下、ＨＭＤシステム１４００Ａのユーザをユーザ１９０Ａ、ＨＭＤシステム１４００Ｂのユーザをユーザ１９０Ｂとする。また、ＨＭＤシステム１４００Ａに関する各構成要素の参照符号にＡが付され、ＨＭＤシステム１４００Ｂに関する各構成要素の参照符号にＢが付される。

図３０に示される例において、コンピュータ２００Ａによって提供される仮想空間２Ａと、コンピュータ２００Ｂによって提供される仮想空間２Ｂとは同じデータによって構成されている。換言すれば、コンピュータ２００Ａとコンピュータ２００Ｂとは同じ仮想空間を共有していることになる。仮想空間２Ａおよび仮想空間２Ｂには、ユーザ１９０Ａに対応するアバターオブジェクト３０００Ａと、ユーザ１９０Ｂに対応するアバターオブジェクト３０００Ｂとが存在する。なお、仮想空間２Ａにおけるアバターオブジェクト３０００Ａおよび仮想空間２Ｂにおけるアバターオブジェクト３０００ＢがそれぞれＨＭＤを装着しているが、これは説明を分かりやすくするためのものであって、実際にはこれらのオブジェクトはＨＭＤを装着していない。

コンピュータ２００Ａは、アバターオブジェクト３０００Ａの目の位置に仮想カメラ１Ａを配置する。これにより、ユーザ１９０Ａは、仮想空間２Ａにおけるアバターオブジェクト３０００Ａの視界を共有する。コンピュータ２００Ｂは、アバターオブジェクト３０００Ｂの目の位置に仮想カメラ１Ｂを配置する。これにより、ユーザ１９０Ｂは、仮想空間２Ｂにおけるアバターオブジェクト３０００Ｂの視界を共有する。仮想空間２Ａおよび仮想空間２Ｂにおいて、アバターオブジェクト３０００Ａとアバターオブジェクト３０００Ｂとは互いに向かい合っている。そのため、ユーザ１９０Ａはユーザ１９０Ｂに対応するアバターオブジェクト３０００Ｂを視認し、ユーザ１９０Ｂはユーザ１９０Ａに対応するアバターオブジェクト３０００Ａを視認する。この状態において、ユーザ１９０Ａとユーザ１９０Ｂとはコミュニケーションを行なう。

たとえば、コンピュータ２００Ｂは、コントローラ１６０Ｂが動いたことを検出すると、コントローラ１６０Ｂの動きを表すデータをサーバ１５０を介してコンピュータ２００Ａに送信する。コンピュータ２００Ａは、受信したデータをアバターオブジェクト３０００Ｂの手に反映する。これにより、ユーザ１９０Ａは、アバターオブジェクト３０００Ｂを介してユーザ１９０Ｂの動きを認識できる。

図３１は、ユーザ１９０Ａが視認する視界画像３１００を表す。視界画像３１００は、コンピュータ２００Ａに接続されているモニタ１１２Ａに表示される。視界画像３１００は、机オブジェクト２２１０と、机オブジェクト２２１０の上に配置されるスピーカオブジェクト２８１０と、アバターオブジェクト３０００Ｂと、サムネイル群３１１０とを含む。

ある局面において、ユーザ１９０Ｂはスピーカオブジェクト２８１０を選択した後に「動物」と発話することで検索キーをコンピュータ２００Ｂに入力する。サーバ１５０は、コンピュータ２００Ｂから入力された検索キーに基づいて検索された複数のパノラマ画像に対応するサムネイル群３１１０を、検索キーの受信元のコンピュータ２００Ｂと、コンピュータ２００Ｂと仮想空間を共有するコンピュータ２００Ａとに対して送信する。

コンピュータ２００Ａは、受信したサムネイル群３１１０を仮想空間２Ａに提示する。これにより、ユーザ１９０Ａは、ユーザ１９０Ｂがコンピュータ２００Ｂに入力した検索キーによって検索されたパノラマ画像を表すサムネイル群３１１０を視認する。

ユーザ１９０Ａは、これらサムネイル群３１１０が表す複数のパノラマ画像をさらに限定するための検索キーをコンピュータ２００Ａに入力できる。たとえば、ユーザ１９０Ａは、自身の注視点を表すポインタオブジェクト３１２０を予め定められた時間にわたりスピーカオブジェクト２８１０に重畳し、スピーカオブジェクト２８１０を選択する。その後、ユーザ１９０Ａは、「ねこ」と発話することで検索キーをコンピュータ２００Ａに入力する。

サーバ１５０は、コンピュータ２００Ａから他の検索キーの入力を受け付けると、動物に関する複数のパノラマ画像のなかから、ねこに関する一以上のパノラマ画像を検索する。サーバ１５０は、検索された一以上のパノラマ画像の各々のサムネイルを生成し、コンピュータ２００Ａおよび２００Ｂに送信する。

コンピュータ２００Ａは、サーバ１５０から新たに一以上のサムネイルを受信すると、現在提示しているサムネイル群３１１０に替えて、新たに受信した一以上のサムネイルを表示する。コンピュータ２００Ｂもコンピュータ２００Ａと同様の動作を行なう。

ユーザ１９０Ａまたは１９０Ｂのいずれか一方が、仮想空間に提示されている一以上のサムネイルの中から一のサムネイルを選択する。これにより、仮想空間２Ａおよび２Ｂに、選択されたサムネイルに対応するパノラマ画像が展開される。

上記によれば、仮想空間を共有するユーザ１９０Ａおよび１９０Ｂは、コミュニケーションを図りながら変更するパノラマ画像を決定できる。

［構成］
以上に開示された技術的特徴は、以下のように要約され得る。

（構成１）ＨＭＤ１１０によって仮想空間２を提供するためにコンピュータ２００で実行されるプログラムが提供される。このプログラムはコンピュータ２００に、複数のパノラマ画像に含まれる一のパノラマ画像を仮想空間２に展開するステップ（ステップＳ２４０５）と、ＨＭＤ１１０のユーザ１９０から、仮想空間２に展開されているパノラマ画像を他のパノラマ画像に変更するためのトリガの入力を受け付けるステップ（ステップＳ２４１５）と、トリガの入力を受け付けた後に、ユーザ１９０から検索キーの入力を受け付けるステップ（ステップＳ２４２０）と、複数のパノラマ画像の中から、検索キーにより検索された一以上のパノラマ画像を特定するための情報を仮想空間２に提示するステップ（ステップＳ２４６０）と、ユーザ１９０から、一以上のパノラマ画像の中から一のパノラマ画像を選択する入力を受け付けるステップ（ステップＳ２４６５）と、選択された一のパノラマ画像を仮想空間２に展開するステップ（ステップＳ２４８５）とを実行させる。

上記の例において、サーバ１５０がパノラマ画像の検索を行なう処理について説明したが、他の実施形態において、コンピュータ２００が検索を行なってもよい。例えば、コンピュータ２００は、ストレージ１２に格納される複数のパノラマ画像の中から、検索キーに基づいて一以上のパノラマ画像を検索してもよい。

上記の例において、コンピュータ２００は、パノラマ画像を特定するための情報として、当該パノラマ画像から生成されるサムネイルを仮想空間２に提示する処理を説明したが、他の例として、パノラマ画像に関連付けられるタイトル、タグを仮想空間２に提示してもよい。

上記によれば、コンピュータ２００は、ユーザ１９０に入力された検索キーに関連する一以上のパノラマ画像、換言すれば、ユーザ１９０が所望するパノラマ画像（を特定する情報）をユーザ１９０に提示できる。

（構成２）ある実施形態において、上記のプログラムはコンピュータ２００に、入力された検索キーと、選択された一のパノラマ画像のパノラマ画像ＩＤとを、コンピュータ２００と通信可能なサーバ１５０に送信するステップ（ステップＳ２４３０、ステップＳ２４７０）とを実行させる。

（構成３）上記の検索キーは、ユーザ１９０が仮想空間２で描いた線図を含む。
上記によれば、ユーザ１９０は、例えば、興味のある物体の名称を知らない、または忘れた場合であっても、当該物体の線図を仮想空間上で描くことによって、コンピュータ２００に当該興味のある物体に関する検索キーを入力できる。

（構成４）ある実施形態において、プログラムはコンピュータ２００に、ユーザ１９０の手の動きを検出するステップをさらに実行させる。上記のユーザ１９０から検索キーの入力を受け付けるステップは、ユーザ１９０の手の動きに基づく線図を検索キーとして受け付けることを含む。

ある局面において、コンピュータ２００は、コントローラ１６０の動きをユーザ１９０の手の動きとして検出する。他の局面において、コンピュータ２００は、図示しない赤外線カメラによりユーザ１９０の手を撮影し、撮影結果に基づいてユーザ１９０の手の動きを検出してもよい。このような技術は、例えば、ＬｅａｐＭｏｔｉｏｎ社が提供するＬｅａｐＭｏｔｉｏｎ（登録商標）によって実現され得る。上記によれば、ユーザ１９０は、仮想空間２上で容易に線図を描くことができる。

（構成５）上記の検索キーの入力を受け付けるステップは、仮想空間２に配置された入力オブジェクトに対してユーザ１９０が描いた線図を検索キーとして受け付けることを含む。

（構成６）上記の検索キーをの入力受け付けるステップは、仮想空間２における予め定められた空間内（例えば、入力オブジェクト２５１０により囲まれる空間）にユーザ１９０が形成した立体オブジェクト（例えば、飛行機２５２０）の入力を受け付けることと、立体オブジェクトを２次元化して得られる線図を検索キーとして受け付けることとを含む。

上記によれば、ユーザ１９０は、立体的な線図を検索キーとしてコンピュータ２００に入力できる。さらに、サーバ１５０またはコンピュータ２００は、平面的な線図よりも情報量の多い立体的な線図に基づいて検索を行なうことが出来るため、ユーザ１９０が所望するパノラマ画像をユーザ１９０に提示できる可能性を高め得る。

（構成７）ある実施形態に従うプログラムはコンピュータ２００に、ユーザ１９０の表情を表すフェイストラッキングデータを検出するステップ（ステップＳ２７２０）をさらに実行させる。検索キーは、ユーザ１９０のフェイストラッキングデータを含む。

ある局面において、コンピュータ２００は、仮想空間２に仮想的なキーボードを配置し、当該仮想的なキーボードに基づいてユーザ１９０から検索キーの入力を受け付けることも考えられる。しかしながら、仮想的なキーボードは触感がないため現実空間におけるハードウェアキーボードと使用感が異なる。そのため、ユーザ１９０は、仮想的なキーボードに対してうまく検索キーを入力できない場合もある。これに対し、ユーザ１９０は、単に表情を作るだけでコンピュータ２００に検索キーを入力できる。

（構成８）上記の検索キーの入力を受け付けるステップは、ユーザ１９０の音声の入力を受け付けることと、ユーザ１９０の音声から抽出された文字列を検索キーとして受け付けることとを含む。

上記によれば、ユーザ１９０は、単に発話するだけでコンピュータ２００に検索キーを入力できる。

（構成９）ある実施形態に従うプログラムはコンピュータ２００に、スピーカオブジェクトまたはマイクオブジェクトを仮想空間２に配置するステップをさらに実行させる。トリガの入力を受け付けるステップは、スピーカオブジェクトまたはマイクオブジェクトに対するユーザ１９０の予め定められた動作をトリガとして受け付けることを含む。

ある局面において、コンピュータ２００は、ユーザ１９０の手の動きに連動するハンドオブジェクトと、スピーカオブジェクトまたはマイクオブジェクトとが接触した場合に、上記トリガの入力を受け付ける。他の局面において、コンピュータ２００は、ユーザ１９０がスピーカオブジェクトまたはマイクオブジェクトを予め定められた時間にわたり見つめたことを検出した場合に、上記トリガの入力を受け付ける。

（構成１０）上記の一以上のパノラマ画像を仮想空間２に提示するステップは、検索キーまたは当該検索キーに基づく情報と、一以上のパノラマ画像とを仮想空間２に提示することを含む。

上記によれば、ユーザ１９０は、自分で入力した検索キーと、検索キーにより検索されたパノラマ画像（のサムネイル）とを一緒に提示されるため、一以上のパノラマ画像の中から自分が意図したパノラマ動画を正確に選択し得る。その結果、サーバ１５０またはコンピュータ２００は、質の高い学習用データを取得でき、学習効率を高め得る。

検索キーに基づく情報は、検索キーに基づいて検索された複数の内容（物体、感情など）のうちユーザ１９０が意図する可能性が最も高い内容が、検索キーに対応するか否かをユーザ１９０に問い合わせる情報であり得る。当該問い合わせに対するユーザ１９０の回答を得ることで、サーバ１５０またはコンピュータ２００は、質の高い学習用データを取得でき、学習効率を高め得る。

（構成１１）ある実施形態において、プログラムはコンピュータ２００Ａに、コンピュータ２００Ｂのユーザ１９０Ｂに対応するアバターオブジェクト３０００Ｂを仮想空間２に配置するステップと、複数のパノラマ画像の中から、コンピュータ２００Ｂのユーザ１９０がコンピュータ２００Ｂに入力した検索キーにより検索された一以上のパノラマ画像を仮想空間２に提示するステップとをさらに実行させる。

上記によれば、コンピュータ２００Ａのユーザ１９０Ａは、仮想空間を共有するユーザ１９０Ｂが入力した検索キーに対する検索結果を確認できる。これにより、コンピュータ２００Ａは、ユーザ１９０Ａが意図せずにパノラマ画像が変更された場合に、ユーザ１９０Ａが驚くことを抑制し得る。

（構成１２）上記の検索キーの入力を受け付けるステップは、コンピュータ２００Ｂのユーザ１９０Ｂによって入力された検索キーにより検索された一以上のパノラマ画像に対する検索キーの入力を受け付けることを含む。

上記によれば、仮想空間を共有するユーザ１９０Ａおよび１９０Ｂは、パノラマ画像を変更する処理において、互いの合意形成を行ないながら、パノラマ画像を変更し得る。

（構成１３）ある実施形態に従うと、上記のいずれかに記載のプログラムを格納したストレージ１２と、当該プログラムを実行するためのプロセッサ１０とを備えるコンピュータ２００が提供される。

（構成１４）ある実施形態に従うと、ＨＭＤ１１０によって仮想空間２を提供するためにコンピュータ２００で実行される方法が提供される。この方法は、複数のパノラマ画像に含まれる一のパノラマ画像を仮想空間２に展開するステップ（ステップＳ２４０５）と、ＨＭＤ１１０のユーザ１９０から、仮想空間２に展開されているパノラマ画像を他のパノラマ画像に変更するためのトリガの入力を受け付けるステップ（ステップＳ２４１５）と、トリガの入力を受け付けた後に、ユーザ１９０から検索キーの入力を受け付けるステップ（ステップＳ２４２０）と、複数のパノラマ画像の中から、検索キーにより検索された一以上のパノラマ画像を特定するための情報を仮想空間２に提示するステップ（ステップＳ２４６０）と、ユーザ１９０から、一以上のパノラマ画像の中から一のパノラマ画像を選択する入力を受け付けるステップ（ステップＳ２４６５）と、選択された一のパノラマ画像を仮想空間２に展開するステップ（ステップＳ２４８５）とを備える。

（構成１５）ある実施形態において、ＨＭＤ１１０に仮想空間２を提供するコンピュータ２００と通信可能なサーバ１５０によって実行されるプログラムが提供される。このプログラムはサーバ１５０に、ＨＭＤ１１０のモニタ１１２に展開されるパノラマ画像を変更するための検索キーの入力をコンピュータ２００から受け付けるステップ（ステップＳ２４３５）と、サーバ１５０のストレージ１９３０のパノラマ画像ＤＢ１９３４に格納される複数のパノラマ画像の中から、検索キーに基づいて一以上のパノラマ画像を検索するステップ（ステップＳ２４４５）と、検索した一以上のパノラマ画像を特定するための情報（例えば、サムネイル）をコンピュータ２００に送信するステップ（ステップＳ２４５０）と、一以上のパノラマ画像の中から選択された一のパノラマ画像のパノラマ画像ＩＤの入力をコンピュータ２００から受け付けるステップ（ステップＳ２４７５）と、パノラマ画像の識別情報と検索キーとに基づいて、検索のための学習を行なうステップ（ステップＳ２４９０）とを実行させる。

上記によれば、サーバ１５０は、検索キーに従い、コンピュータ２００のユーザ１９０が所望するパノラマ画像の候補をユーザ１９０に提供できる。また、サーバ１５０は、検索キーと、ユーザ１９０に選択されたパノラマ画像に関連づけられた情報（例えば、タグ、タイトル）とに基づいて学習を行なうことにより、入力された検索キーに対してユーザ１９０が所望するパノラマ画像をユーザ１９０に提供できる可能性を高め得る。

（構成１６）上記の検索するステップは、検索キーから文字列を検出することと、パノラマ画像ＤＢ１９３４に格納される複数のパノラマ画像の中から、検出された文字列が関連付けられた一以上のパノラマ画像を検索することとを含む。

（構成１７）上記の検索キーは、コンピュータ２００のユーザ１９０のフェイストラッキングデータを含む。上記の検索するステップは、ユーザ１９０のフェイストラッキングデータからユーザ１９０の感情を推測することと、推測された感情に基づいて一以上のパノラマ画像を検索することとを含む。

（構成１８）ある実施形態に従うと、（構成１５）〜（構成１７）のいずれかに記載のプログラムを格納したストレージ１９３０と、当該プログラムを実行するためのプロセッサ１９２０とを備えるサーバ１５０が提供される。

（構成１９）ある実施形態に従うと、ＨＭＤ１１０に仮想空間２を提供するコンピュータ２００と通信可能なサーバ１５０によって実行される方法が提供される。この方法は、ＨＭＤ１１０のモニタ１１２に展開されるパノラマ画像を変更するための検索キーの入力をコンピュータ２００から受け付けるステップ（ステップＳ２４３５）と、サーバ１５０のストレージ１９３０のパノラマ画像ＤＢ１９３４に格納される複数のパノラマ画像の中から、検索キーに基づいて一以上のパノラマ画像を検索するステップ（ステップＳ２４４５）と、検索した一以上のパノラマ画像を特定するための情報（例えば、サムネイル）をコンピュータ２００に送信するステップ（ステップＳ２４５０）と、一以上のパノラマ画像の中から選択された一のパノラマ画像のパノラマ画像ＩＤの入力をコンピュータ２００から受け付けるステップ（ステップＳ２４７５）と、パノラマ画像の識別情報と検索キーとに基づいて、検索のための学習を行なうステップ（ステップＳ２４９０）とを備える。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

１仮想カメラ、２仮想空間、５基準視線、１０，１９２０プロセッサ、１１メモリ、１２，１９３０ストレージ、１９ネットワーク、２２パノラマ画像、１００，１４００ＨＭＤシステム、１１２モニタ、１１４センサ、１１５スピーカ、１１６第１カメラ、１１７第２カメラ、１１９マイク、１２０ＨＭＤセンサ、１３０モーションセンサ、１４０注視センサ、１５０サーバ、１６０コントローラ、１９０ユーザ、２００コンピュータ、２２０表示制御モジュール、２２１仮想カメラ制御モジュール、２２２視界領域決定モジュール、２２３視界画像生成モジュール、２２４基準視線特定モジュール、２２５音声制御モジュール、２２６視線検出モジュール、２２７ハンドトラッキングモジュール、２２８フェイストラッキングモジュール、２３０仮想空間制御モジュール、２３１仮想空間定義モジュール、２３２仮想オブジェクト生成モジュール、２３３手オブジェクト制御モジュール、２４０メモリモジュール、２４１空間情報、２４２オブジェクト情報、２４３ユーザ情報、２４４顔情報、８１０ハンドオブジェクト１１２０，２８１０スピーカオブジェクト、１１３０検索キー、１１４０，１２１０，１２６０，２３２０，２３５０サムネイル、１２００，２２００，２３００，２５００，２８００，３１００視界画像、１９２３検索エンジン、１９２４物体特定部、１９２５感情判断部、１９２６学習部、１９３４パノラマ画像ＤＢ、１９３５学習用ＤＢ、１９３６，１９３７学習モデル、２２２０，２５１０入力オブジェクト、２２３０ペンオブジェクト、２２４０メッセージオブジェクト、２２５０軌跡オブジェクト、２３１０スクリーン、２５２０飛行機、２８２０，３１２０ポインタオブジェクト、３０００Ａ，３０００Ｂアバターオブジェクト。

Claims

複数のユーザが共有する仮想空間をヘッドマウントデバイスによって提供するためにコンピュータで実行されるプログラムであって、前記プログラムは前記コンピュータに、
他のコンピュータとネットワークを介して通信するステップと、
予め定められた複数のパノラマ画像に含まれる一のパノラマ画像を、前記他のコンピュータと共有する仮想空間に展開するステップと、
前記仮想空間に、前記コンピュータを操作し、前記ヘッドマウントデバイスの第１のユーザに対応する第１のアバターオブジェクトと、前記コンピュータと通信する前記他のコンピュータを操作する第２のユーザに対応する第２のアバターオブジェクトとを配置するステップと、
前記第１のユーザの身体の動きを検出するステップと、
前記第２のユーザの身体の動きを、前記ネットワークを介して取得するステップと、
前記第１のユーザの動きが検出されることに応答して、前記仮想空間において前記第１のアバターオブジェクトを動かすステップと、
前記第２のユーザの動きが取得されることに応答して、前記仮想空間において前記第２のアバターオブジェクトを動かすステップと、
前記第１のユーザから、前記仮想空間に展開されているパノラマ画像を他のパノラマ画像に変更するためのトリガの入力を受け付けるステップと、
前記トリガの入力を受け付けた後に、前記第１のユーザから検索キーの入力を受け付けるステップと、
前記複数のパノラマ画像の中から、前記検索キーにより検索された一以上のパノラマ画像を特定するための情報を含む表示用オブジェクトを、前記コンピュータおよび前記他のコンピュータにより共有される前記仮想空間に提示するステップと、
前記表示用オブジェクトに含まれる前記検索された一以上のパノラマ画像を特定するための情報に対し、前記第１のユーザが動かす前記第１のアバターオブジェクトの動き、および、前記第２のユーザが動かす前記第２のアバターオブジェクトの動きに応答して、前記一以上のパノラマ画像の中から一のパノラマ画像を選択する入力を受け付けるステップと、
前記選択された一のパノラマ画像を、前記共有される前記仮想空間に展開するステップとを実行させる、プログラム。
前記プログラムは前記コンピュータに、前記入力された検索キーと、前記選択された一のパノラマ画像の識別情報とを、前記コンピュータと通信可能な情報処理端末に送信するステップとを実行させる、請求項１に記載のプログラム。
前記検索キーは、前記ユーザが前記仮想空間で描いた線図を含む、請求項１または２に記載のプログラム。
前記プログラムは前記コンピュータに、前記ユーザの手の動きを検出するステップをさらに実行させ、
前記ユーザから検索キーの入力を受け付けるステップは、前記ユーザの手の動きに基づく線図を前記検索キーとして受け付けることを含む、請求項３に記載のプログラム。
前記検索キーの入力を受け付けるステップは、前記仮想空間に配置された予め定められたオブジェクトに対して前記ユーザが描いた線図を前記検索キーとして受け付けることを含む、請求項３または４に記載のプログラム。
前記検索キーをの入力受け付けるステップは、
前記仮想空間における予め定められた空間内に前記ユーザが形成した立体オブジェクトの入力を受け付けることと、
前記立体オブジェクトを２次元化して得られる線図を前記検索キーとして受け付けることとを含む、請求項３または４に記載のプログラム。
前記プログラムは前記コンピュータに、前記ユーザの表情を表すデータを検出するステップをさらに実行させ、
前記検索キーは、前記ユーザの表情を表すデータを含む、請求項１または２に記載のプログラム。
前記検索キーの入力を受け付けるステップは、
前記ユーザの音声の入力を受け付けることと、
前記ユーザの音声から抽出された文字列を前記検索キーとして受け付けることとを含む、請求項１または２に記載のプログラム。
前記プログラムは前記コンピュータに、スピーカオブジェクトまたはマイクオブジェクトを前記仮想空間に配置するステップをさらに実行させ、
前記トリガの入力を受け付けるステップは、前記スピーカオブジェクトまたは前記マイクオブジェクトに対する前記ユーザの予め定められた動作を前記トリガとして受け付けることを含む、請求項８に記載のプログラム。
前記一以上のパノラマ画像を前記仮想空間に提示するステップは、前記検索キーまたは当該検索キーに基づく情報と、前記一以上のパノラマ画像とを前記仮想空間に提示することを含む、請求項１〜９のいずれか１項に記載のプログラム。
前記検索キーの入力を受け付けるステップは、前記他のコンピュータのユーザによって入力された検索キーにより検索された一以上のパノラマ画像に対する検索キーの入力を受け付けることを含む、請求項１に記載のプログラム。
請求項１〜１１のいずれか１項に記載のプログラムを格納したメモリと、
前記プログラムを実行するためのプロセッサとを備える、情報処理装置。
複数のユーザが共有する仮想空間をヘッドマウントデバイスによって提供するためにコンピュータで実行される方法であって、
他のコンピュータとネットワークを介して通信するステップと、
予め定められた複数のパノラマ画像に含まれる一のパノラマ画像を、前記他のコンピュータと共有する仮想空間に展開するステップと、
前記仮想空間に、前記コンピュータを操作し、前記ヘッドマウントデバイスの第１のユーザに対応する第１のアバターオブジェクトと、前記コンピュータと通信する前記他のコンピュータを操作する第２のユーザに対応する第２のアバターオブジェクトとを配置するステップと、
前記第１のユーザの身体の動きを検出するステップと、
前記第２のユーザの身体の動きを、前記ネットワークを介して取得するステップと、
前記第１のユーザの動きが検出されることに応答して、前記仮想空間において前記第１のアバターオブジェクトを動かすステップと、
前記第２のユーザの動きが取得されることに応答して、前記仮想空間において前記第２のアバターオブジェクトを動かすステップと、
前記第１のユーザから、前記仮想空間に展開されているパノラマ画像を他のパノラマ画像に変更するためのトリガの入力を受け付けるステップと、
前記トリガの入力を受け付けた後に、前記第１のユーザから検索キーの入力を受け付けるステップと、
前記複数のパノラマ画像の中から、前記検索キーにより検索された一以上のパノラマ画像を特定するための情報を含む表示用オブジェクトを、前記コンピュータおよび前記他のコンピュータにより共有される前記仮想空間に提示するステップと、
前記表示用オブジェクトに含まれる前記検索された一以上のパノラマ画像を特定するための情報に対し、前記第１のユーザが動かす前記第１のアバターオブジェクトの動き、および、前記第２のユーザが動かす前記第２のアバターオブジェクトの動きに応答して、前記一以上のパノラマ画像の中から一のパノラマ画像を選択する入力を受け付けるステップと、
前記選択された一のパノラマ画像を、前記共有される前記仮想空間に展開するステップと、
前記入力された検索キーと、前記選択された一のパノラマ画像の識別情報とを、前記コンピュータと通信可能な情報処理端末に送信するステップとを備える、方法。