JP2018185786A

JP2018185786A - 仮想空間を介して通信するためにコンピュータで実行される方法、当該方法をコンピュータに実行させるプログラム、および、情報処理装置

Info

Publication number: JP2018185786A
Application number: JP2017199932A
Authority: JP
Inventors: 孝司中坊; Takashi Nakabo
Original assignee: Colopl Inc
Current assignee: Colopl Inc
Priority date: 2017-10-13
Filing date: 2017-10-13
Publication date: 2018-11-22

Abstract

【課題】仮想空間上でアバターを通じてコミュニケーションを行なうときに、ネットワークにおけるトラフィックを軽減する技術を提供する。【解決手段】仮想空間を介して通信するためにコンピュータで実行される方法は、第１センサの出力信号を第１時間間隔で受け付けて、受け付けた信号に基づいて第１データを生成するステップ（Ｓ３５１０）と、第２センサの出力信号を第１時間間隔よりも短い第２時間間隔で受け付けて、受け付けた信号に基づいて第２データを生成するステップ（Ｓ３５２０）と、生成された第１データと、生成された第２データとを含む複数のアニメーションデータを生成するステップ（Ｓ３５３０）と、生成された複数のアニメーションデータをコンピュータと通信可能な他のコンピュータに送信するステップ（Ｓ３５５０）とを備える。複数のアニメーションデータに含まれる第２データの総数は、生成された複数の第２データの総数よりも少ない。【選択図】図３５

Description

本開示は通信の制御に関し、より特定的には、仮想現実空間を介した通信の制御に関する。

仮想現実空間（以下、仮想空間とも言う。）を介して通信を行なう技術が知られている。例えば、特開２０１６−１８７４３２号公報（特許文献１）は、「ユーザ同士が同じ仮想空間相で行動するゲームにおいて、参加するユーザの操作能力を同程度にし易くすることができるゲームプログラムおよびゲームシステム」を開示している。また、特許第６０２７５８５号公報（特許文献２）は、「コンピュータに対して過度の負荷をかけることなく、複数のディスプレイからなるディスプレイに高解像度の映像を表示することを可能とする技術」を開示している。

特開２０１６−１８７４３２号公報特許第６０２７５８５号公報

仮想空間上に、複数のユーザの各々のアバターを配置し、これらアバターを通じてユーザ間でのコミュニケーションを図る技術が提案されている。また、現実空間のユーザの動作をアバターオブジェクトに反映する技術も提案されている。

このような場合、各ユーザの端末は、センサによりユーザの動作を検出して検出結果を送受信する。しかしながら、当該検出結果を全て送受信すると、ネットワークのトラフィックが増えることに起因して、受信先で表示されるアバターオブジェクトの動作がコマ落ちし得る。係る場合、ユーザがアバターオブジェクトの動作に対して違和感を覚え、他のユーザとのコミュニケーションを円滑に行なうことが出来ない可能性がある。したがって、アバターオブジェクトの動作に対して違和感を覚えさせることなくコミュニケーションを実現するための技術が必要とされている。

本開示は、上述のような問題点を解決するためになされたものであって、ある局面における目的は、仮想空間上でアバターを介した円滑なコミュニケーションを実現する技術を提供することである。

ある実施形態に従うと、仮想空間を介して通信するためにコンピュータで実行される方法が提供される。この方法は、第１センサの出力信号を第１時間間隔で受け付けて、受け付けた信号に基づいて第１データを生成するステップと、第２センサの出力信号を第１時間間隔よりも短い第２時間間隔で受け付けて、受け付けた信号に基づいて第２データを生成するステップと、生成された第１データと、生成された第２データとを含む複数のアニメーションデータを生成するステップと、生成された複数のアニメーションデータをコンピュータと通信可能な他のコンピュータに送信するステップとを備える。複数のアニメーションデータに含まれる第２データの総数は、生成された複数の第２データの総数よりも少ない。

この発明の上記および他の目的、特徴、局面および利点は、添付の図面と関連して理解されるこの発明に関する次の詳細な説明から明らかとなるであろう。

ある実施形態に従うＨＭＤシステム１００の構成の概略を表す図である。一局面に従うコンピュータ２００のハードウェア構成の一例を表すブロック図である。ある実施形態に従うＨＭＤ１１０に設定されるｕｖｗ視野座標系を概念的に表す図である。ある実施形態に従う仮想空間２を表現する一態様を概念的に表す図である。ある実施形態に従うＨＭＤ１１０を装着するユーザ１９０の頭部を上から表した図である。仮想空間２において視界領域２３をＸ方向から見たＹＺ断面を表す図である。仮想空間２において視界領域２３をＹ方向から見たＸＺ断面を表す図である。ある実施形態に従うコントローラ１６０の概略構成を表す図である。ある実施形態に従うコンピュータ２００をモジュール構成として表すブロック図である。コンピュータ２００，２００Ｎ，２００Ｘのそれぞれによって提示される仮想空間２を表現する一態様を概念的に表す図である。音声データとアイトラッキングデータの同期の一態様を説明するタイミングチャートである。第１のＨＭＤ（例えばＨＭＤ１１０）と、第２のＨＭＤ（例えばＨＭＤ１１０Ｎ）とが実行する処理の一部を表わすフローチャートである。ユーザ１９０が使用するＨＭＤ１１０によって取得されたアイトラッキングデータを表わす図である。ユーザ１９０による発話に基づく音声データを表わす図である。ユーザ１９０Ｎが使用するＨＭＤ１１０Ｎによって取得されたアイトラッキングデータを表わす図である。ユーザ１９０による発話に基づく音声データを表わす図である。ＨＭＤ１１０のモニタ１１２に表示されるチャット画面の推移を表わす図である。変形例に従うＨＭＤシステム１５００の構成の概略を表す図である。変形例に従うコンピュータ２００のハードウェア構成の一例を表すブロック図である。変形例に従うコンピュータ２００のモジュール構成を表すブロック図である。第１カメラ１１６が撮影するユーザの顔画像１８００を示す図である。フェイストラッキングモジュール２２６が口の形状を検出する処理（その１）を示す図である。フェイストラッキングモジュール２２６が口の形状を検出する処理（その２）を示す図である。現実空間におけるユーザ１９０の表情と、仮想空間におけるユーザ１９０のアバターオブジェクト１１１０の表情との対比を表す図である。ユーザ１９０の手をトラッキングする処理について説明するための図である。ハンドトラッキングモジュール２２７の処理を説明するための図である。ハンドトラッキングデータのデータ構造の一例を表す図である。ある実施形態に従うフェイスデータのデータ構造の一例を表す図である。ある実施形態に従うアイデータのデータ構造の一例を表す図である。ある実施形態に従う音声パケットのデータ構造の一例を表す図である。コンピュータ２００とコンピュータ２００Ｎとがチャットアプリケーションによって通信するための処理を表すフローチャートである。リングバッファ１１Ａのデータ構造の一例を表す図である。リングバッファ１１Ｂのデータ構造の一例を表す図である。アニメーションデータの生成処理について説明するための図である。他の局面に従うアニメーションデータの生成処理について説明するための図である。アニメーションパケットの生成処理および送信処理について説明するための図である。アニメーションパケットのデータ構造の一例を表す図である。アバターオブジェクトの動作と、音声の出力タイミングとの同期処理について説明するための図である。音声パケットのデータ構造の一例を表す図である。アニメーションパケットと音声パケットとを用いた映像と音声との同期処理の一例を表すフローチャートである。チャット先のリフレッシュレートを考慮した映像と音声との同期処理の一例を表すフローチャートである。

以下、図面を参照しつつ、本発明の実施形態について説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称および機能も同じである。したがって、それらについての詳細な説明は繰り返さない。

［ＨＭＤシステムの構成］
図１を参照して、ＨＭＤシステム１００の構成について説明する。図１は、ある実施形態に従うＨＭＤシステム１００の構成の概略を表す図である。ある局面において、ＨＭＤシステム１００は、家庭用のシステムとしてあるいは業務用のシステムとして提供される。

ＨＭＤシステム１００は、ネットワーク１９を介して、遠隔地にある他のＨＭＤシステム１００Ｎ，１００Ｘと通信することができる。ＨＭＤシステム１００Ｎは、ユーザ１９０Ｎによって使用され得る。ＨＭＤ１００Ｘは、ユーザ１９０Ｘによって使用され得る。ＨＭＤシステム１００Ｎ，１００Ｘの構成は、ＨＭＤシステム１００の構成と同様である。ＨＭＤシステム１００の構成要素と同様の構成要素には、符号Ｎ，Ｘが付されている。したがって、以下、適宜、ＨＭＤシステム１００の構成を参照して、各ＨＭＤシステムを説明する。

ＨＭＤシステム１００は、ＨＭＤ１１０と、ＨＭＤセンサ１２０と、コントローラ１６０と、コンピュータ２００とを備える。ＨＭＤ１１０は、モニタ１１２と、スピーカ１１５と、マイク１１９と、注視センサ１４０とを含む。コントローラ１６０は、モーションセンサ１３０を含み得る。

ある局面において、コンピュータ２００は、インターネットその他のネットワーク１９に接続可能であり、ネットワーク１９に接続されているサーバ１５０、コンピュータ２００Ｎ，２００Ｘその他のコンピュータと通信可能である。他の局面において、ＨＭＤ１１０は、ＨＭＤセンサ１２０の代わりに、センサ１１４を含み得る。

ＨＭＤ１１０は、ユーザ１９０の頭部に装着され、動作中に仮想空間をユーザ１９０に提供し得る。より具体的には、ＨＭＤ１１０は、右目用の画像および左目用の画像をモニタ１１２にそれぞれ表示する。ユーザ１９０の各目がそれぞれの画像を視認すると、ユーザ１９０は、両目の視差に基づき当該画像を３次元の画像として認識し得る。

モニタ１１２は、例えば、非透過型の表示装置として実現される。ある局面において、モニタ１１２は、ユーザ１９０の両目の前方に位置するようにＨＭＤ１１０の本体に配置されている。したがって、ユーザ１９０は、モニタ１１２に表示される３次元画像を視認すると、仮想空間に没入することができる。ある実施形態において、仮想空間は、例えば、背景、ユーザ１９０が操作可能なオブジェクト、ユーザ１９０が選択可能なメニューの画像を含む。

ある局面において、コンピュータ２００，２００Ｎ，２００Ｘは、各々のユーザ１９０，１９０Ｎ，１９０Ｘの動作に基づく信号を他のコンピュータとの間で通信する。例えば、コンピュータ２００は、仮想空間を提供するための映像信号を生成し、ＨＭＤ１１０に映像信号を送信する。ＨＭＤ１１０は、その映像信号をモニタ１１２に送信すると、モニタ１１２は、その受信した映像信号に基づく仮想空間画像を表示する。他のコンピュータとそのコンピュータに接続されているＨＭＤも、コンピュータ２００とＨＭＤ１１０の場合と同様である。

ある実施形態において、コンピュータ２００，２００Ｎ，２００Ｘが、仮想空間を介して通信するためのＶＲ（Virtual Reality）チャットアプリケーションを実行している時、コンピュータ２００，２００Ｎ，２００Ｘは、各ＨＭＤ１１０，１１０Ｎ，１１０Ｘによって提示される仮想空間を介した通信を実現する。仮想空間を介した通信では、映像と音声とが通信される。この時、各ユーザに対応するアバターオブジェクトが、仮想空間に提示される。例えば、ユーザ１９０が他のユーザ１９０Ｎ，１９０Ｘと通信している時、ユーザ１９０が装着したＨＭＤ１１０は、ユーザ１９０Ｎ，１９０Ｘに対応するアバターオブジェクトを提示する。ユーザ１９０は、仮想空間に没入した状態で、アバターオブジェクトを介して他のユーザ１９０Ｎ，１９０Ｘと通信することができる。

ある実施形態において、モニタ１１２は、所謂スマートフォンその他の情報表示端末が備える液晶モニタまたは有機ＥＬ（Electro Luminescence）モニタとして実現され得る。

ある局面において、モニタ１１２は、右目用の画像を表示するためのサブモニタと、左目用の画像を表示するためのサブモニタとを含み得る。他の局面において、モニタ１１２は、右目用の画像と左目用の画像とを一体として表示する構成であってもよい。この場合、モニタ１１２は、高速シャッタを含む。高速シャッタは、画像がいずれか一方の目にのみ認識されるように、右目用の画像と左目用の画像とを交互に表示可能に作動する。

注視センサ１４０は、ユーザ１９０の右目および左目の視線が向けられる方向（視線方向）を検出する。当該方向の検出は、例えば、公知のアイトラッキング機能によって実現される。注視センサ１４０は、当該アイトラッキング機能を有するセンサにより実現される。ある局面において、注視センサ１４０は、右目用のセンサおよび左目用のセンサを含むことが好ましい。注視センサ１４０は、例えば、ユーザ１９０の右目および左目に赤外光を照射するとともに、照射光に対する角膜および虹彩からの反射光を受けることにより各眼球の回転角を検出するセンサであってもよい。注視センサ１４０は、検出した各回転角に基づいて、ユーザ１９０の視線方向を検知することができる。

スピーカ１１５は、コンピュータ２００から受信した音声データに対応する音声（発話）を外部に出力する。マイク１１９は、ユーザ１９０の発話に対応する音声信号をコンピュータ２００に出力する。ユーザ１９０は、マイク１１９を用いて他のユーザ１９０Ｎ，１９０Ｘに向けて発話でき、スピーカ１１５を用いて他のユーザ１９０Ｎ，１９０Ｘの発話を聞くことができる。

ＨＭＤセンサ１２０は、複数の光源（図示しない）を含む。各光源は、例えば、赤外線を発するＬＥＤ（Light Emitting Diode）により実現される。ＨＭＤセンサ１２０は、ＨＭＤ１１０の動きを検出するためのポジショントラッキング機能を有する。ＨＭＤセンサ１２０は、この機能を用いて、現実空間内におけるＨＭＤ１１０の位置および傾きを検出する。

なお、他の局面において、ＨＭＤセンサ１２０は、カメラにより実現されてもよい。この場合、ＨＭＤセンサ１２０は、カメラから出力されるＨＭＤ１１０の画像情報を用いて、画像解析処理を実行することにより、ＨＭＤ１１０の位置および傾きを検出することができる。

他の局面において、ＨＭＤ１１０は、位置検出器として、ＨＭＤセンサ１２０の代わりに、センサ１１４を備えてもよい。ＨＭＤ１１０は、センサ１１４を用いて、ＨＭＤ１１０自身の位置および傾きを検出し得る。例えば、センサ１１４が、角速度センサ、地磁気センサ、加速度センサ、あるいはジャイロセンサなどである場合、ＨＭＤ１１０は、ＨＭＤセンサ１２０の代わりに、これらの各センサのいずれかを用いて、自身の位置および傾きを検出し得る。一例として、センサ１１４が角速度センサである場合、角速度センサは、現実空間におけるＨＭＤ１１０の３軸周りの角速度を経時的に検出する。ＨＭＤ１１０は、各角速度に基づいて、ＨＭＤ１１０の３軸周りの角度の時間的変化を算出し、さらに、角度の時間的変化に基づいて、ＨＭＤ１１０の傾きを算出する。

また、ＨＭＤ１１０は、透過型表示装置を備えていても良い。この場合、当該透過型表示装置は、その透過率を調整することにより、一時的に非透過型の表示装置として構成可能であってもよい。また、視野画像は仮想空間を構成する画像の一部に、現実空間を提示する構成を含んでいてもよい。例えば、ＨＭＤ１１０に搭載されたカメラで撮影した画像を視野画像の一部に重畳して表示させてもよいし、当該透過型表示装置の一部の透過率を高く設定することにより、視野画像の一部から現実空間を視認可能にしてもよい。

サーバ１５０は、コンピュータ２００にプログラムを送信し得る。他の局面において、サーバ１５０は、他のユーザによって使用されるＨＭＤ１１０に仮想現実を提供するための他のコンピュータ２００と通信し得る。例えば、アミューズメント施設において、複数のユーザが参加型のゲームを行なう場合、各コンピュータ２００は、各ユーザの動作に基づく信号を他のコンピュータ２００と通信して、同じ仮想空間において複数のユーザが対話（チャット）を楽しむことを可能にする。

コントローラ１６０は、ユーザ１９０からコンピュータ２００への命令の入力を受け付ける。ある局面において、コントローラ１６０は、ユーザ１９０によって把持可能に構成される。他の局面において、コントローラ１６０は、ユーザ１９０の身体あるいは衣類の一部に装着可能に構成される。他の局面において、コントローラ１６０は、コンピュータ２００から送られる信号に基づいて、振動、音、光のうちの少なくともいずれかを出力するように構成されてもよい。他の局面において、コントローラ１６０は、仮想現実を提供する空間に配置されるオブジェクトの位置や動きを制御するためにユーザ１９０によって与えられる操作を受け付ける。

モーションセンサ１３０は、ある局面において、ユーザ１９０の手に取り付けられて、ユーザ１９０の手の動きを検出する。例えば、モーションセンサ１３０は、手の回転速度、回転数などを検出する。モーションセンサ１３０によって得られたユーザ１９０の手の動きの検出結果を示すデータは、コンピュータ２００に送られる。モーションセンサ１３０は、例えば、手袋型のコントローラ１６０に設けられている。ある実施形態において、現実空間における安全のため、コントローラ１６０は、手袋型のようにユーザ１９０の手に装着されることにより容易に飛んで行かないものに装着されるのが望ましい。他の局面において、ユーザ１９０に装着されないセンサがユーザ１９０の手の動きを検出してもよい。例えば、ユーザ１９０を撮影するカメラの信号が、ユーザ１９０の動作を表す信号として、コンピュータ２００に入力されてもよい。モーションセンサ１３０とコンピュータ２００とは、有線により、または無線により互いに接続される。無線の場合、通信形態は特に限られず、例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）その他の公知の通信手法が用いられる。

他の局面において、ＨＭＤシステム１００は、テレビジョン放送受信チューナを備えてもよい。このような構成によれば、ＨＭＤシステム１００は、仮想空間２においてテレビ番組を表示することができる。

さらに他の局面において、ＨＭＤシステム１００は、インターネットに接続するための通信回路、あるいは、電話回線に接続するための通話機能を備えていてもよい。

より詳細には、ある局面において、ユーザ１９０は、コントローラを用いてあるいは通信を希望するアバターオブジェクトを視線で選択することにより、通信相手（以下「チャット相手」とも言う。）を選択し得る。以下、チャットの相手としてユーザ１９０Ｎが選択された場合について説明する。なお、チャット相手は一人に限られず、二人以上が選択され得る。

ユーザ１９０が、ユーザ１９０Ｎを選択した後、マイク１１９に向かって発話すると、その音声に基づく音声信号がコンピュータ２００に送信される。また、注視センサ１４０は、ユーザ１９０の視線の動きを検出する。検出結果はアイトラッキングデータとしてコンピュータ２００に送られる。コンピュータ２００は、その受信した音声信号に基づく音声データおよびアイトラッキングデータをユーザ１９０Ｎに送信する。例えば、コンピュータ２００は、ネットワーク１９を介してサーバ１５０に音声データとアイトラッキングデータとを送信する。音声データおよびアイトラッキングデータは、それぞれ、ユーザ１９０Ｎが使用するコンピュータ２００Ｎのネットワークアドレスを含む。サーバ１５０は、コンピュータ２００から受信した音声データおよびアイトラッキングデータを、ネットワーク１９を介してコンピュータ２００Ｎにそれぞれ送信する。なお、音声データおよびアイトラッキングデータがコンピュータ２００Ｎに受信されるタイミングは、常に同じではなく、いずれかのデータが他のデータよりも遅延する場合もあり得る。

コンピュータ２００Ｎは、サーバ１５０から受信した音声データを、ユーザ１９０Ｎが装着するＨＭＤ１１０Ｎのスピーカ１１５に出力する。また、コンピュータ２００Ｎは、受信したアイトラッキングデータに基づいてユーザ１９０のアバターオブジェクトの視線を変更するためのデータを生成し、そのデータをモニタ１１２に送信する。ユーザ１９０Ｎは、ＨＭＤ１１０Ｎのスピーカ１１５を介してユーザ１９０の音声を聞くことができ、モニタ１１２に提示されたアバターオブジェクトを視認できる。

ユーザ１９０Ｎがユーザ１９０に向けて発話を行なう場合も、上述の場合と同様にして音声データとアイトラッキングデータとが、コンピュータ２００Ｎからコンピュータ２００に送信される。このようにして、ユーザ１９０およびユーザ１９０Ｎは、各々のアバターオブジェクトを用いて、仮想空間において対話することができる。

［ハードウェア構成］
図２を参照して、本実施形態に係るコンピュータ２００について説明する。図２は、一局面に従うコンピュータ２００のハードウェア構成の一例を表すブロック図である。コンピュータ２００は、主たる構成要素として、プロセッサ１０と、メモリ１１と、ストレージ１２と、入出力インターフェイス１３と、通信インターフェイス１４とを備える。各構成要素は、それぞれ、バス１５に接続されている。

プロセッサ１０は、コンピュータ２００に与えられる信号に基づいて、あるいは、予め定められた条件が成立したことに基づいて、メモリ１１またはストレージ１２に格納されているプログラムに含まれる一連の命令を実行する。ある局面において、プロセッサ１０は、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processor Unit）、ＦＰＧＡ（Field-Programmable Gate Array）その他のデバイスとして実現される。

メモリ１１は、プログラムおよびデータを一時的に保存する。プログラムは、例えば、ストレージ１２からロードされる。データは、コンピュータ２００に入力されたデータと、プロセッサ１０によって生成されたデータとを含む。ある局面において、メモリ１１は、ＲＡＭ（Random Access Memory）その他の揮発メモリとして実現される。

ストレージ１２は、プログラムおよびデータを永続的に保持する。ストレージ１２は、例えば、ＲＯＭ（Read-Only Memory）、ハードディスク装置、フラッシュメモリ、その他の不揮発記憶装置として実現される。ストレージ１２に格納されるプログラムは、ＨＭＤシステム１００において仮想空間を提供するためのプログラム、シミュレーションプログラム、ゲームプログラム、ユーザ認証プログラム、他のコンピュータ２００との通信を実現するためのプログラムを含む。ストレージ１２に格納されるデータは、仮想空間を規定するためのデータおよびオブジェクトなどを含む。

なお、他の局面において、ストレージ１２は、メモリカードのように着脱可能な記憶装置として実現されてもよい。さらに他の局面において、コンピュータ２００に内蔵されたストレージ１２の代わりに、外部の記憶装置に保存されているプログラムおよびデータを使用する構成が使用されてもよい。このような構成によれば、例えば、アミューズメント施設のように複数のＨＭＤシステム１００が使用される場面において、プログラムやデータの更新を一括して行なうことが可能になる。

ある実施形態において、入出力インターフェイス１３は、ＨＭＤ１１０、ＨＭＤセンサ１２０またはモーションセンサ１３０との間で信号を通信する。ある局面において、入出力インターフェイス１３は、ＵＳＢ（Universal Serial Bus）インターフェイス、ＤＶＩ（Digital Visual Interface）、ＨＭＤＩ（登録商標）（High-Definition Multimedia Interface）その他の端子を用いて実現される。なお、入出力インターフェイス１３は上述のものに限られない。

ある実施形態において、入出力インターフェイス１３は、さらに、コントローラ１６０と通信し得る。例えば、入出力インターフェイス１３は、モーションセンサ１３０から出力された信号の入力を受ける。他の局面において、入出力インターフェイス１３は、プロセッサ１０から出力された命令を、コントローラ１６０に送る。当該命令は、振動、音声出力、発光などをコントローラ１６０に指示する。コントローラ１６０は、当該命令を受信すると、その命令に応じて、振動、音声出力または発光のいずれかを実行する。

通信インターフェイス１４は、ネットワーク１９に接続されて、ネットワーク１９に接続されている他のコンピュータ（例えば、サーバ１５０、コンピュータ２００Ｎ，２００Ｘ等）と通信する。ある局面において、通信インターフェイス１４は、例えば、ＬＡＮ（Local Area Network）その他の有線通信インターフェイス、あるいは、ＷｉＦｉ（Wireless Fidelity）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＮＦＣ（Near Field Communication）その他の無線通信インターフェイスとして実現される。なお、通信インターフェイス１４は上述のものに限られない。

ある局面において、プロセッサ１０は、ストレージ１２にアクセスし、ストレージ１２に格納されている１つ以上のプログラムをメモリ１１にロードし、当該プログラムに含まれる一連の命令を実行する。当該１つ以上のプログラムは、コンピュータ２００のオペレーティングシステム、仮想空間を提供するためのアプリケーションプログラム、コントローラ１６０を用いて仮想空間で実行可能なゲームソフトウェアなどを含み得る。プロセッサ１０は、入出力インターフェイス１３を介して、仮想空間を提供するための信号をＨＭＤ１１０に送る。ＨＭＤ１１０は、その信号に基づいてモニタ１１２に映像を表示する。

なお、図２に示される例では、コンピュータ２００は、ＨＭＤ１１０の外部に設けられる構成が示されているが、他の局面において、コンピュータ２００は、ＨＭＤ１１０に内蔵されてもよい。一例として、モニタ１１２を含む携帯型の情報通信端末（たとえば、スマートフォン）がコンピュータ２００として機能してもよい。

また、コンピュータ２００は、複数のＨＭＤ１１０に共通して用いられる構成であってもよい。このような構成によれば、例えば、複数のユーザに同一の仮想空間を提供することもできるので、各ユーザは同一の仮想空間で他のユーザと同一のアプリケーションを楽しむことができる。

ある実施形態において、ＨＭＤシステム１００では、グローバル座標系が予め設定されている。グローバル座標系は、現実空間における鉛直方向、鉛直方向に直交する水平方向、ならびに、鉛直方向および水平方向の双方に直交する前後方向にそれぞれ平行な、３つの基準方向（軸）を有する。本実施形態では、グローバル座標系は視点座標系の一つである。そこで、グローバル座標系における水平方向、鉛直方向（上下方向）、および前後方向は、それぞれ、ｘ軸、ｙ軸、ｚ軸と規定される。より具体的には、グローバル座標系において、ｘ軸は現実空間の水平方向に平行である。ｙ軸は、現実空間の鉛直方向に平行である。ｚ軸は現実空間の前後方向に平行である。

ある局面において、ＨＭＤセンサ１２０は、赤外線センサを含む。赤外線センサが、ＨＭＤ１１０の各光源から発せられた赤外線をそれぞれ検出すると、ＨＭＤ１１０の存在を検出する。ＨＭＤセンサ１２０は、さらに、各点の値（グローバル座標系における各座標値）に基づいて、ＨＭＤ１１０を装着したユーザ１９０の動きに応じた、現実空間内におけるＨＭＤ１１０の位置および傾きを検出する。より詳しくは、ＨＭＤセンサ１２０は、経時的に検出された各値を用いて、ＨＭＤ１１０の位置および傾きの時間的変化を検出できる。

グローバル座標系は現実空間の座標系と平行である。したがって、ＨＭＤセンサ１２０によって検出されたＨＭＤ１１０の各傾きは、グローバル座標系におけるＨＭＤ１１０の３軸周りの各傾きに相当する。ＨＭＤセンサ１２０は、グローバル座標系におけるＨＭＤ１１０の傾きに基づき、ｕｖｗ視野座標系をＨＭＤ１１０に設定する。ＨＭＤ１１０に設定されるｕｖｗ視野座標系は、ＨＭＤ１１０を装着したユーザ１９０が仮想空間において物体を見る際の視点座標系に対応する。

［ｕｖｗ視野座標系］
図３を参照して、ｕｖｗ視野座標系について説明する。図３は、ある実施形態に従うＨＭＤ１１０に設定されるｕｖｗ視野座標系を概念的に表す図である。ＨＭＤセンサ１２０は、ＨＭＤ１１０の起動時に、グローバル座標系におけるＨＭＤ１１０の位置および傾きを検出する。プロセッサ１０は、検出された値に基づいて、ｕｖｗ視野座標系をＨＭＤ１１０に設定する。

図３に示されるように、ＨＭＤ１１０は、ＨＭＤ１１０を装着したユーザの頭部を中心（原点）とした３次元のｕｖｗ視野座標系を設定する。より具体的には、ＨＭＤ１１０は、グローバル座標系を規定する水平方向、鉛直方向、および前後方向（ｘ軸、ｙ軸、ｚ軸）を、グローバル座標系内においてＨＭＤ１１０の各軸周りの傾きだけ各軸周りにそれぞれ傾けることによって新たに得られる３つの方向を、ＨＭＤ１１０におけるｕｖｗ視野座標系のピッチ方向（ｕ軸）、ヨー方向（ｖ軸）、およびロール方向（ｗ軸）として設定する。

ある局面において、ＨＭＤ１１０を装着したユーザ１９０が直立し、かつ、正面を視認している場合、プロセッサ１０は、グローバル座標系に平行なｕｖｗ視野座標系をＨＭＤ１１０に設定する。この場合、グローバル座標系における水平方向（ｘ軸）、鉛直方向（ｙ軸）、および前後方向（ｚ軸）は、ＨＭＤ１１０におけるｕｖｗ視野座標系のピッチ方向（ｕ軸）、ヨー方向（ｖ軸）、およびロール方向（ｗ軸）に一致する。

ｕｖｗ視野座標系がＨＭＤ１１０に設定された後、ＨＭＤセンサ１２０は、ＨＭＤ１１０の動きに基づいて、設定されたｕｖｗ視野座標系におけるＨＭＤ１１０の傾き（傾きの変化量）を検出できる。この場合、ＨＭＤセンサ１２０は、ＨＭＤ１１０の傾きとして、ｕｖｗ視野座標系におけるＨＭＤ１１０のピッチ角（θｕ）、ヨー角（θｖ）、およびロール角（θｗ）をそれぞれ検出する。ピッチ角（θｕ）は、ｕｖｗ視野座標系におけるピッチ方向周りのＨＭＤ１１０の傾き角度を表す。ヨー角（θｖ）は、ｕｖｗ視野座標系におけるヨー方向周りのＨＭＤ１１０の傾き角度を表す。ロール角（θｗ）は、ｕｖｗ視野座標系におけるロール方向周りのＨＭＤ１１０の傾き角度を表す。

ＨＭＤセンサ１２０は、検出されたＨＭＤ１１０の傾き角度に基づいて、ＨＭＤ１１０が動いた後のＨＭＤ１１０におけるｕｖｗ視野座標系を、ＨＭＤ１１０に設定する。ＨＭＤ１１０と、ＨＭＤ１１０のｕｖｗ視野座標系との関係は、ＨＭＤ１１０の位置および傾きに関わらず、常に一定である。ＨＭＤ１１０の位置および傾きが変わると、当該位置および傾きの変化に連動して、グローバル座標系におけるＨＭＤ１１０のｕｖｗ視野座標系の位置および傾きが変化する。

ある局面において、ＨＭＤセンサ１２０は、赤外線センサからの出力に基づいて取得される赤外線の光強度および複数の点間の相対的な位置関係（例えば、各点間の距離など）に基づいて、ＨＭＤ１１０の現実空間内における位置を、ＨＭＤセンサ１２０に対する相対位置として特定してもよい。また、プロセッサ１０は、特定された相対位置に基づいて、現実空間内（グローバル座標系）におけるＨＭＤ１１０のｕｖｗ視野座標系の原点を決定してもよい。

［仮想空間］
図４を参照して、仮想空間についてさらに説明する。図４は、ある実施形態に従う仮想空間２を表現する一態様を概念的に表す図である。仮想空間２は、中心２１の３６０度方向の全体を覆う全天球状の構造を有する。図４では、説明を複雑にしないために、仮想空間２のうちの上半分の天球が例示されている。仮想空間２では各メッシュが規定される。各メッシュの位置は、仮想空間２に規定されるＸＹＺ座標系における座標値として予め規定されている。コンピュータ２００は、仮想空間２に展開可能なコンテンツ（静止画、動画等）を構成する各部分画像を、仮想空間２において対応する各メッシュにそれぞれ対応付けて、ユーザによって視認可能な仮想空間画像２２が展開される仮想空間２をユーザに提供する。

ある局面において、仮想空間２では、中心２１を原点とするＸＹＺ座標系が規定される。ＸＹＺ座標系は、例えば、グローバル座標系に平行である。ＸＹＺ座標系は視点座標系の一種であるため、ＸＹＺ座標系における水平方向、鉛直方向（上下方向）、および前後方向は、それぞれＸ軸、Ｙ軸、Ｚ軸として規定される。したがって、ＸＹＺ座標系のＸ軸（水平方向）がグローバル座標系のｘ軸と平行であり、ＸＹＺ座標系のＹ軸（鉛直方向）がグローバル座標系のｙ軸と平行であり、ＸＹＺ座標系のＺ軸（前後方向）がグローバル座標系のｚ軸と平行である。

ＨＭＤ１１０の起動時、すなわちＨＭＤ１１０の初期状態において、仮想カメラ１が、仮想空間２の中心２１に配置される。仮想カメラ１は、現実空間におけるＨＭＤ１１０の動きに連動して、仮想空間２を同様に移動する。これにより、現実空間におけるＨＭＤ１１０の位置および向きの変化が、仮想空間２において同様に再現される。

仮想カメラ１には、ＨＭＤ１１０の場合と同様に、ｕｖｗ視野座標系が規定される。仮想空間２における仮想カメラのｕｖｗ視野座標系は、現実空間（グローバル座標系）におけるＨＭＤ１１０のｕｖｗ視野座標系に連動するように規定されている。したがって、ＨＭＤ１１０の傾きが変化すると、それに応じて、仮想カメラ１の傾きも変化する。また、仮想カメラ１は、ＨＭＤ１１０を装着したユーザの現実空間における移動に連動して、仮想空間２において移動することもできる。

仮想カメラ１の向きは、仮想カメラ１の位置および傾きに応じて決まるので、ユーザが仮想空間画像２２を視認する際に基準となる視線（基準視線５）は、仮想カメラ１の向きに応じて決まる。コンピュータ２００のプロセッサ１０は、基準視線５に基づいて、仮想空間２における視界領域２３を規定する。視界領域２３は、仮想空間２のうち、ＨＭＤ１１０を装着したユーザの視界に対応する。

注視センサ１４０によって検出されるユーザ１９０の視線方向は、ユーザ１９０が物体を視認する際の視点座標系における方向である。ＨＭＤ１１０のｕｖｗ視野座標系は、ユーザ１９０がモニタ１１２を視認する際の視点座標系に等しい。また、仮想カメラ１のｕｖｗ視野座標系は、ＨＭＤ１１０のｕｖｗ視野座標系に連動している。したがって、ある局面に従うＨＭＤシステム１００は、注視センサ１４０によって検出されたユーザ１９０の視線方向を、仮想カメラ１のｕｖｗ視野座標系におけるユーザの視線方向とみなすことができる。

［ユーザの視線］
図５を参照して、ユーザの視線方向の決定について説明する。図５は、ある実施形態に従うＨＭＤ１１０を装着するユーザ１９０の頭部を上から表した図である。

ある局面において、注視センサ１４０は、ユーザ１９０の右目および左目の各視線を検出する。ある局面において、ユーザ１９０が近くを見ている場合、注視センサ１４０は、視線Ｒ１およびＬ１を検出する。別の局面において、ユーザ１９０が遠くを見ている場合、注視センサ１４０は、視線Ｒ２およびＬ２を検出する。この場合、ロール方向ｗに対して視線Ｒ２およびＬ２がなす角度は、ロール方向ｗに対して視線Ｒ１およびＬ１がなす角度よりも小さい。注視センサ１４０は、検出結果をコンピュータ２００に送信する。

コンピュータ２００が、視線の検出結果として、視線Ｒ１およびＬ１の検出値を注視センサ１４０から受信した場合には、その検出値に基づいて、視線Ｒ１およびＬ１の交点である注視点Ｎ１を特定する。一方、コンピュータ２００は、視線Ｒ２およびＬ２の検出値を注視センサ１４０から受信した場合には、視線Ｒ２およびＬ２の交点を注視点として特定する。コンピュータ２００は、特定した注視点Ｎ１の位置に基づき、ユーザ１９０の視線方向Ｎ０を特定する。コンピュータ２００は、例えば、ユーザ１９０の右目Ｒと左目Ｌとを結ぶ直線の中点と、注視点Ｎ１とを通る直線の延びる方向を、視線方向Ｎ０として検出する。視線方向Ｎ０は、ユーザ１９０が両目により実際に視線を向けている方向である。また、視線方向Ｎ０は、視界領域２３に対してユーザ１９０が実際に視線を向けている方向に相当する。

別の局面において、ＨＭＤシステム１００は、ＨＭＤシステム１００を構成するいずれかのパーツに、マイクおよびスピーカを備えてもよい。ユーザは、マイクに発話することにより、仮想空間２に対して、音声による指示を与えることができる。

また、別の局面において、ＨＭＤシステム１００は、テレビジョン放送受信チューナを備えてもよい。このような構成によれば、ＨＭＤシステム１００は、仮想空間２においてテレビ番組を表示することができる。

さらに別の局面において、ＨＭＤシステム１００は、インターネットに接続するための通信回路、あるいは、電話回線に接続するための通話機能を備えていてもよい。

［視界領域］
図６および図７を参照して、視界領域２３について説明する。図６は、仮想空間２において視界領域２３をＸ方向から見たＹＺ断面を表す図である。図７は、仮想空間２において視界領域２３をＹ方向から見たＸＺ断面を表す図である。

図６に示されるように、ＹＺ断面における視界領域２３は、領域２４を含む。領域２４は、仮想カメラ１の基準視線５と仮想空間２のＹＺ断面とによって定義される。プロセッサ１０は、仮想空間における基準視線５を中心として極角αを含む範囲を、領域２４として規定する。

図７に示されるように、ＸＺ断面における視界領域２３は、領域２５を含む。領域２５は、基準視線５と仮想空間２のＸＺ断面とによって定義される。プロセッサ１０は、仮想空間２における基準視線５を中心とした方位角βを含む範囲を、領域２５として規定する。

ある局面において、ＨＭＤシステム１００は、コンピュータ２００からの信号に基づいて、視界画像２６をモニタ１１２に表示させることにより、ユーザ１９０に仮想空間を提供する。視界画像２６は、仮想空間画像２２のうち視界領域２３に重畳する部分に相当する。ユーザ１９０が、頭に装着したＨＭＤ１１０を動かすと、その動きに連動して仮想カメラ１も動く。その結果、仮想空間２における視界領域２３の位置が変化する。これにより、モニタ１１２に表示される視界画像２６は、仮想空間画像２２のうち、仮想空間２においてユーザが向いた方向の視界領域２３に重畳する画像に更新される。ユーザは、仮想空間２における所望の方向を視認することができる。

ユーザ１９０は、ＨＭＤ１１０を装着している間、現実世界を視認することなく、仮想空間２に展開される仮想空間画像２２のみを視認できる。そのため、ＨＭＤシステム１００は、仮想空間２への高い没入感覚をユーザに与えることができる。

ある局面において、プロセッサ１０は、ＨＭＤ１１０を装着したユーザ１９０の現実空間における移動に連動して、仮想空間２において仮想カメラ１を移動し得る。この場合、プロセッサ１０は、仮想空間２における仮想カメラ１の位置および向きに基づいて、ＨＭＤ１１０のモニタ１１２に投影される画像領域（すなわち、仮想空間２における視界領域２３）を特定する。

ある実施形態に従うと、仮想カメラ１は、２つの仮想カメラ、すなわち、右目用の画像を提供するための仮想カメラと、左目用の画像を提供するための仮想カメラとを含むことが望ましい。また、ユーザ１９０が３次元の仮想空間２を認識できるように、適切な視差が、２つの仮想カメラに設定されていることが好ましい。本実施形態においては、仮想カメラ１が２つの仮想カメラを含み、２つの仮想カメラのロール方向が合成されることによって生成されるロール方向（ｗ）がＨＭＤ１１０のロール方向（ｗ）に適合されるように構成されているものとして、本開示に係る技術思想を例示する。

［コントローラ］
図８を参照して、コントローラ１６０の一例について説明する。図８は、ある実施形態に従うコントローラ１６０の概略構成を表す図である。

図８の分図（Ａ）に示されるように、ある局面において、コントローラ１６０は、右コントローラ８００と左コントローラとを含み得る。右コントローラ８００は、ユーザ１９０の右手で操作される。左コントローラは、ユーザ１９０の左手で操作される。ある局面において、右コントローラ８００と左コントローラとは、別個の装置として対称に構成される。したがって、ユーザ１９０は、右コントローラ８００を把持した右手と、左コントローラを把持した左手とをそれぞれ自由に動かすことができる。別の局面において、コントローラ１６０は両手の操作を受け付ける一体型のコントローラであってもよい。以下、右コントローラ８００について説明する。

右コントローラ８００は、グリップ３０と、フレーム３１と、天面３２とを備える。グリップ３０は、ユーザ１９０の右手によって把持されるように構成されている。例えば、グリップ３０は、ユーザ１９０の右手の掌と３本の指（中指、薬指、小指）とによって保持され得る。

グリップ３０は、ボタン３３，３４と、モーションセンサ１３０とを含む。ボタン３３は、グリップ３０の側面に配置され、右手の中指による操作を受け付ける。ボタン３４は、グリップ３０の前面に配置され、右手の人差し指による操作を受け付ける。ある局面において、ボタン３３，３４は、トリガー式のボタンとして構成される。モーションセンサ１３０は、グリップ３０の筐体に内蔵されている。なお、ユーザ１９０の動作がカメラその他の装置によってユーザ１９０の周りから検出可能である場合には、グリップ３０は、モーションセンサ１３０を備えなくてもよい。

フレーム３１は、その円周方向に沿って配置された複数の赤外線ＬＥＤ３５を含む。赤外線ＬＥＤ３５は、コントローラ１６０を使用するプログラムの実行中に、当該プログラムの進行に合わせて赤外線を発光する。赤外線ＬＥＤ３５から発せられた赤外線は、右コントローラ８００と左コントローラ（図示しない）との各位置や姿勢（傾き、向き）を検出するために使用され得る。図８に示される例では、二列に配置された赤外線ＬＥＤ３５が示されているが、配列の数は図８に示されるものに限られない。一列あるいは３列以上の配列が使用されてもよい。

天面３２は、ボタン３６，３７と、アナログスティック３８とを備える。ボタン３６，３７は、プッシュ式ボタンとして構成される。ボタン３６，３７は、ユーザ１９０の右手の親指による操作を受け付ける。アナログスティック３８は、ある局面において、初期位置（ニュートラルの位置）から３６０度任意の方向への操作を受け付ける。当該操作は、例えば、仮想空間２に配置されるオブジェクトを移動するための操作を含む。

ある局面において、右コントローラ８００および左コントローラは、赤外線ＬＥＤ３５その他の部材を駆動するための電池を含む。電池は、充電式、ボタン型、乾電池型等を含むが、これらに限定されない。別の局面において、右コントローラ８００と左コントローラは、例えば、コンピュータ２００のＵＳＢインターフェイスに接続され得る。この場合、右コントローラ８００および左コントローラは、電池を必要としない。

図８の分図（Ｂ）は、右コントローラ８００を把持するユーザ１９０の右手に対応して仮想空間に配置されるハンドオブジェクト８１０の一例を示す。例えば、ユーザ１９０の右手に対応するハンドオブジェクト８１０に対して、ヨー、ロール、ピッチの各方向が規定される。例えば、入力操作が、右コントローラ８００のボタン３４に対して行なわれると、ハンドオブジェクト８１０の人差し指を握りこんだ状態とし、入力操作がボタン３４に対して行なわれていない場合には、分図（Ｂ）に示すように、ハンドオブジェクト８１０の人差し指を伸ばした状態とすることもできる。例えば、ハンドオブジェクト８１０において親指と人差し指とが伸びている場合に、親指の伸びる方向がヨー方向、人差し指の伸びる方向がロール方向、ヨー方向の軸およびロール方向の軸によって規定される平面に垂直な方向がピッチ方向としてハンドオブジェクト８１０に規定される。

［ＨＭＤの制御装置］
図９を参照して、ＨＭＤ１１０の制御装置について説明する。ある実施形態において、制御装置は周知の構成を有するコンピュータ２００によって実現される。図９は、ある実施形態に従うコンピュータ２００をモジュール構成として表すブロック図である。

図９に示されるように、コンピュータ２００は、表示制御モジュール２２０と、音声制御モジュール２２５と、仮想空間制御モジュール２３０と、メモリモジュール２４０と、通信制御モジュール２５０とを備える。表示制御モジュール２２０は、サブモジュールとして、仮想カメラ制御モジュール２２１と、視界領域決定モジュール２２２と、視界画像生成モジュール２２３と、基準視線特定モジュール２２４とを含む。仮想空間制御モジュール２３０は、サブモジュールとして、仮想空間定義モジュール２３１と、仮想オブジェクト生成モジュール２３２と、視線検出モジュール２３３と、同期モジュール２３４と、チャット制御モジュール２３５とを含む。

ある実施形態において、表示制御モジュール２２０、音声制御モジュール２２５、仮想空間制御モジュール２３０は、プロセッサ１０によって実現される。他の実施形態において、複数のプロセッサ１０が表示制御モジュール２２０、音声制御モジュール２２５、または仮想空間制御モジュール２３０としてそれぞれ作動してもよい。メモリモジュール２４０は、メモリ１１またはストレージ１２によって実現される。通信制御モジュール２５０は、通信インターフェイス１４によって実現される。

ある局面において、表示制御モジュール２２０は、ＨＭＤ１１０のモニタ１１２における画像表示を制御する。仮想カメラ制御モジュール２２１は、仮想空間２に仮想カメラ１を配置し、仮想カメラ１の挙動、向きなどを制御する。視界領域決定モジュール２２２は、ＨＭＤ１１０を装着したユーザ１９０の頭の向きに応じて、視界領域２３を規定する。視界画像生成モジュール２２３は、決定された視界領域２３に基づいて、モニタ１１２に表示される視界画像を生成する。さらに、視界画像生成モジュール２２３は、仮想空間制御モジュール２３０から受信したデータに基づいて、視界画像を生成する。視界画像生成モジュール２２３によって生成された視界画像のデータは、通信制御モジュール２５０によってＨＭＤ１１０に出力される。基準視線特定モジュール２２４は、注視センサ１４０からの信号に基づいて、ユーザ１９０の視線を特定する。

音声制御モジュール２２５は、ＨＭＤ１１０から、ユーザ１９０の発話に基づく音声信号がコンピュータ２００に入力されたことを検知する。音声制御モジュール２２５は、当該発話に対応する音声信号にその入力時刻を付して、音声データを生成する。音声制御モジュール２２５は、ユーザ１９０のチャットの相手としてコンピュータ２００が通信可能な状態にある他のコンピュータ２００Ｎ，２００Ｘのうち、ユーザ１９０によって選択されたユーザが使用するコンピュータにその音声データを送信する。

仮想空間制御モジュール２３０は、ユーザ１９０に提供される仮想空間２を制御する。まず、仮想空間定義モジュール２３１は、仮想空間２を表す仮想空間データを生成することにより、ＨＭＤシステム１００における仮想空間２を規定する。

仮想オブジェクト生成モジュール２３２は、仮想空間２に配置されるオブジェクトのデータを生成する。例えば、仮想オブジェクト生成モジュール２３２は、仮想空間２を介してユーザ１９０とのチャットを行なう他のユーザ１９０Ｎ，１９０Ｘをそれぞれ表わすアバターオブジェクトのデータを生成する。さらに、仮想オブジェクト生成モジュール２３２は、他のユーザ１９０Ｎ，１９０Ｘからの発話に応じて検出される視線に基づいて、当該ユーザのアバターオブジェクトの視線を変更し得る。

視線検出モジュール２３３は、注視センサ１４０からの出力に基づいて、ユーザ１９０の視線を検出する。ある局面において、視線検出モジュール２３３は、ユーザ１９０による発話が検知されたことに基づいて、その時のユーザ１９０の視線を検出する。視線の検出は、例えば、非接触型のアイトラッキングのように公知の技術により実現される。一例として、強膜反射法のように、注視センサ１４０は、ユーザ１９０の目に赤外線を当て、反射光をカメラ（図示しない）で撮影することにより得られたデータに基づいて、ユーザ１９０の視線の動きを検出し得る。ある局面において、視線検出モジュール２３３は、モニタ１１２の表示領域のいずれかを基準とした座標値（ｘ、ｙ）として、ユーザ１９０の視線の動きに応じた各位置をそれぞれ特定する。

同期モジュール２３４は、仮想空間２を介した通信が行なわれる場合に、音声と映像の同期を実現する。例えば、ある実施形態において、他のコンピュータ２００Ｎにおいて同じタイミングで取得された視線検出結果を示すデータ（アイトラッキングデータ）と音声データとが、異なるタイミングでコンピュータ２００に到着した場合に、同期モジュール２３４は、アバターオブジェクトの変化（例えば、視線の移動、姿勢の変化等）と音声の出力とが同じタイミングで行なわれるように、音声の出力タイミングとアバターオブジェクトのデータの出力タイミングとの同期をとる。

例えば、ある局面において、他のコンピュータ２００Ｎ（すなわち、同一のチャット相手）によって送信された音声データが、そのコンピュータ２００Ｎから送信されたアイトラッキングデータよりも先にコンピュータ２００に到着する場合があり得る。この場合、同期モジュール２３４は、音声データをメモリモジュール２４０のワーク領域に一時的に格納し、アイトラッキングデータを受信するまで、音声の出力を待機する。

逆に、コンピュータ２００Ｎによって送信されたアイトラッキングデータが、音声データよりも先にコンピュータ２００に到着する場合もあり得る。この場合、同期モジュール２３４は、アイトラッキングデータに基づいて視線が変更された後のアバターオブジェクトを提示するための画像データを生成し、その画像データをメモリモジュール２４０のワーク領域に一時的に格納し、音声データを受信するまで画像データの出力を待機する。同期モジュール２３４は、音声データを受信したことを検知すると、メモリモジュール２４０から画像データを読み出し、ＨＭＤ１１０に画像データを出力するとともに、音声制御モジュール２２５を介して音声データをスピーカ１１５に出力する。

チャット制御モジュール２３５は、仮想空間を介した通信を制御する。ある局面において、チャット制御モジュール２３５は、ユーザ１９０の操作に基づいて、あるいは、他のコンピュータ２００Ｎによって送信されたチャットの開始要求に基づいて、メモリモジュール２４０からチャットアプリケーションを読み出し、仮想空間２を介した通信を開始する。ユーザ１９０がコンピュータ２００にユーザＩＤとパスワードとを入力してログイン操作を行なうと、ユーザ１９０は、仮想空間２を介したチャットのメンバーの一人として、そのチャットのセッション（「ルーム」とも呼ばれる）に関連付けられる。その後、コンピュータ２００Ｎを使用するユーザ１９０Ｎがそのセッションにおけるチャットにログインすると、ユーザ１９０とユーザ１９０Ｎとが、そのチャットのメンバーとして互いに関連付けられる。チャット制御モジュール２３５が、コンピュータ２００の通信相手となるコンピュータ２００Ｎのユーザ１９０Ｎを認識すると、仮想オブジェクト生成モジュール２３２は、オブジェクト情報２４２を用いて、ユーザ１９０Ｎに対応するアバターオブジェクトを提示するためのデータを生成し、そのデータをＨＭＤ１１０に出力する。ＨＭＤ１１０が、そのデータに基づいて、ユーザ１９０Ｎに対応するアバターオブジェクトをモニタ１１２に表示すると、ＨＭＤ１１０を装着したユーザ１９０は、そのアバターオブジェクトを仮想空間２において認識する。

ある実施形態において、チャット制御モジュール２３５は、ユーザ１９０の発話に基づく音声データの入力と、注視センサ１４０からのデータの入力とを待機する。ユーザ１９０が、仮想空間２において、アバターオブジェクトを選択するための操作（例えば、コントローラの操作、ジェスチャ、音声による選択、視線による凝視など）を行なうと、チャット制御モジュール２３５は、その操作に基づいて、そのアバターオブジェクトに対応するユーザ（例えばユーザ１９０）がチャット相手として選択されたことを検知する。チャット制御モジュール２３５は、ユーザ１９０による発話を検知すると、ユーザ１９０Ｎが使用するコンピュータ２００Ｎのネットワークアドレスに基づいて、通信制御モジュール２５０を介して、マイク１１９から送られてきた信号に基づく音声データと、注視センサ１４０から送られてきた信号に基づくアイトラッキングデータとを、コンピュータ２００Ｎに送信する。コンピュータ２００Ｎは、アイトラッキングデータに基づいて、ユーザ１９０のアバターオブジェクトの視線を更新し、音声データをＨＭＤ１１０Ｎに送信する。コンピュータ２００Ｎが、同期機能を有している場合には、モニタ１１２におけるアバターオブジェクトの視線の変化と、スピーカ１１５からの音声の出力とが、略同じタイミングで実現されるので、ユーザ１９０Ｎは、違和感を感じにくくなる。

メモリモジュール２４０は、コンピュータ２００が仮想空間２をユーザ１９０に提供するために使用されるデータを保持している。ある局面において、メモリモジュール２４０は、空間情報２４１と、オブジェクト情報２４２と、ユーザ情報２４３とを保持している。

空間情報２４１は、仮想空間２を提供するために規定された１つ以上のテンプレートを保持している。

オブジェクト情報２４２は、仮想空間２を介した通信のために使用されるアバターオブジェクトを表示するためのデータ、仮想空間２において再生されるコンテンツ、当該コンテンツで使用されるオブジェクトを配置するための情報を保持している。当該コンテンツは、例えば、ゲーム、現実社会と同様の風景を表したコンテンツなどを含み得る。アバターオブジェクトを表示するためのデータは、例えば、チャット相手として予め関係が確立された通信相手を模式的に表わす画像データ、当該通信相手の写真等を含み得る。

ユーザ情報２４３は、ＨＭＤシステム１００の制御装置としてコンピュータ２００を機能させるためのプログラム、オブジェクト情報２４２に保持される各コンテンツを使用するアプリケーションプログラム、当該アプリケーションプログラムを実行する際に必要となるユーザＩＤ、パスワードなどを保持している。メモリモジュール２４０に格納されているデータおよびプログラムは、ＨＭＤ１１０のユーザ１９０によって入力される。あるいは、プロセッサ１０が、当該コンテンツを提供する事業者が運営するコンピュータ（たとえば、サーバ１５０）からプログラムあるいはデータをダウンロードして、ダウンロードされたプログラムあるいはデータをメモリモジュール２４０に格納する。

通信制御モジュール２５０は、ネットワーク１９を介して、サーバ１５０その他の情報通信装置と通信し得る。通信制御モジュール２５０は、有線ＬＡＮ、無線ＬＡＮのような公知の通信技術によって実現される。

ある局面において、表示制御モジュール２２０および仮想空間制御モジュール２３０は、例えば、ユニティテクノロジーズ社によって提供されるＵｎｉｔｙ（登録商標）を用いて実現され得る。他の局面において、表示制御モジュール２２０および仮想空間制御モジュール２３０は、各処理を実現する回路素子の組み合わせとしても実現され得る。

コンピュータ２００における処理は、ハードウェアと、プロセッサ１０により実行されるソフトウェアとによって実現される。このようなソフトウェアは、ハードディスクその他のメモリモジュール２４０に予め格納されている場合がある。また、ソフトウェアは、ＣＤ−ＲＯＭその他のコンピュータ読み取り可能な不揮発性のデータ記録媒体に格納されて、プログラム製品として流通している場合もある。あるいは、当該ソフトウェアは、インターネットその他のネットワークに接続されている情報提供事業者によってダウンロード可能なプログラム製品として提供される場合もある。このようなソフトウェアは、光ディスク駆動装置その他のデータ読取装置によってデータ記録媒体から読み取られて、あるいは、通信制御モジュール２５０を介してサーバ１５０その他のコンピュータからダウンロードされた後、記憶モジュールに一旦格納される。そのソフトウェアは、プロセッサ１０によって記憶モジュールから読み出され、実行可能なプログラムの形式でＲＡＭに格納される。プロセッサ１０は、そのプログラムを実行する。

コンピュータ２００を構成するハードウェアは、一般的なものである。したがって、本実施形態に係る最も本質的な部分は、コンピュータ２００に格納されたプログラムであるとも言える。なお、コンピュータ２００のハードウェアの動作は周知であるので、詳細な説明は繰り返さない。

なお、データ記録媒体としては、ＣＤ−ＲＯＭ、ＦＤ（Flexible Disk）、ハードディスクに限られず、磁気テープ、カセットテープ、光ディスク（ＭＯ（Magnetic Optical Disc）／ＭＤ（Mini Disc）／ＤＶＤ（Digital Versatile Disc））、ＩＣ（Integrated Circuit）カード（メモリカードを含む）、光カード、マスクＲＯＭ、ＥＰＲＯＭ（Electronically Programmable Read-Only Memory）、ＥＥＰＲＯＭ（Electronically Erasable Programmable Read-Only Memory）、フラッシュＲＯＭなどの半導体メモリなどの固定的にプログラムを担持する不揮発性のデータ記録媒体でもよい。

ここで言うプログラムとは、プロセッサ１０により直接実行可能なプログラムだけでなく、ソースプログラム形式のプログラム、圧縮処理されたプログラム、暗号化されたプログラムなどを含み得る。

［２ユーザ間の通信によるコンピュータ間の動作］
ここで、二人のユーザ１９０，１９０Ｎが仮想空間２を介して通信する場合のコンピュータ２００，２００Ｎの動作について説明する。以下、コンピュータ２００Ｎに接続されたＨＭＤ１１０Ｎを装着したユーザ１９０Ｎが、コンピュータ２００に接続されたＨＭＤ１１０を装着したユーザ１９０に発話する場合について説明する。

（送信側）ある局面において、ＨＭＤ１１０Ｎを装着したユーザ１９０Ｎは、ユーザ１９０とチャットするために、マイク１１９に向かって発話する。発話の音声信号は、ＨＭＤ１１０Ｎに接続されているコンピュータ２００Ｎに送信される。音声制御モジュール２２５は、音声信号を音声データに変換し、発話が検出された時を表わすタイムスタンプを音声データに関連付ける。タイムスタンプは、例えば、プロセッサ１０の内部クロックの時刻データである。ある局面において、音声信号が通信制御モジュール２５０によって音声データに変換される時の時刻データがタイムスタンプとして使用される。

ユーザ１９０Ｎが発話している時、ユーザ１９０Ｎの視線の動きは、注視センサ１４０によって検出されている。注視センサ１４０による検出結果（アイトラッキングデータ）は、コンピュータ２００Ｎに送られる。視線検出モジュール２３３は、その検出結果に基づいて、ユーザ１９０Ｎの視線の変化を表わす各位置（例えば瞳孔の位置）を特定する。

コンピュータ２００Ｎは、音声データとアイトラッキングデータとをコンピュータ２００に送信する。音声データおよびアイトラッキングデータは、まず、サーバ１５０に送られる。サーバ１５０は、音声データおよびアイトラッキングデータの各ヘッダにある宛先を参照し、音声データおよびアイトラッキングデータをコンピュータ２００に送信する。このとき、音声データがコンピュータ２００に到達するタイミングと、アイトラッキングデータがコンピュータ２００に到達するタイミングとは、一致しない場合がある。

（受信側）コンピュータ２００は、コンピュータ２００Ｎによって送信されたデータをサーバ１５０から受信する。ある局面において、コンピュータ２００のプロセッサ１０は、通信制御モジュール２５０から送られるデータに基づいて、音声データを受信したことを検知する。プロセッサ１０は、音声データの送信元（すなわちコンピュータ２００Ｎ）を特定すると、チャット制御モジュール２３５として、ＨＭＤ１１０のモニタ１１２に、チャットの画面を表示させる。

プロセッサ１０は、さらに、アイトラッキングデータを受信したことを検知する。プロセッサ１０は、アイトラッキングデータの送信元（すなわちコンピュータ２００Ｎ）を特定すると、仮想オブジェクト生成モジュール２３２として、ユーザ１９０Ｎのアバターオブジェクトを表示するためのデータを生成する。

同期モジュール２３４は、コンピュータ２００Ｎから受信した音声データとアイトラッキングデータとの出力タイミングを同期させる。例えば、同期モジュール２３４は、音声データに含まれる送信元識別番号および時刻データと、アイトラッキングデータに含まれる送信元識別番号および時刻データとを比較する。これらのデータが一致する場合、同期モジュール２３４は、音声データおよびアイトラッキングデータが同じコンピュータ２００Ｎから送信されたものであると判定し、アバターオブジェクトを表示するためのデータと音声データとを、同じタイミングでＨＭＤ１１０に出力する。

別の局面において、プロセッサ１０が、音声データよりも先にアイトラッキングデータを受信する場合があり得る。この場合、プロセッサ１０は、アイトラッキングデータから送信元識別番号を検出すると、アイトラッキングデータに対応して送信された音声データが存在すると判定する。プロセッサ１０は、そのアイトラッキングデータに含まれる送信元識別番号および時刻データと同じ送信元識別番号および時刻データを含む音声データを受信するまで、アバターオブジェクトを表示するためのデータの出力を待機する。

さらに別の局面において、プロセッサ１０は、アイトラッキングデータよりも先に音声データを受信する場合があり得る。この場合、プロセッサ１０は、音声データから送信元識別番号を検出すると、その音声データに対応して送信されたアイトラッキングデータが存在すると判定する。プロセッサ１０は、その音声データに含まれる送信元識別番号および時刻データと同じ送信元識別番号および時刻データを含むアイトラッキングデータを受信するまで、音声データの出力を待機する。

なお、上記の各局面において、比較対象となる時刻データは、完全に同一の時刻を示していなくてもよい。

プロセッサ１０は、同じ時刻データを含む音声データおよびアイトラッキングデータの受信を確認すると、音声データをスピーカ１１５に出力し、アイトラッキングデータに基づく変更が反映されたアバターオブジェクトを表示するためのデータをモニタ１１２に出力する。その結果、ユーザ１９０は、ユーザ１９０Ｎによって発せられた音声とアバターとを同じタイミングで認識できるので、信号の伝送遅延によるタイムラグ（例えば、アバターオブジェクトの変化と音声出力のタイミングのずれ）を感じることなく、チャットを楽しむことができる。

また、ユーザ１９０Ｎが使用するコンピュータ２００Ｎのプロセッサ１０も、上述の処理と同様に、音声データの出力タイミングと、ユーザ１９０の視線の動きが反映されたアバターオブジェクトの出力タイミングとの同期をとることができる。その結果、ユーザ１９０Ｎも、ユーザ１９０によって発せられた音声の出力とアバターオブジェクトの変化とを同じタイミングで認識できるので、信号の伝送遅延によるタイムラグを感じることなく、チャットを楽しむことができる。

［チャットの概要］
次に、図１０を参照して、本実施形態に従って行なわれる仮想空間を介したチャットの概要について説明する。図１０は、コンピュータ２００，２００Ｎ，２００Ｘのそれぞれによって提示される仮想空間２を表現する一態様を概念的に表す図である。

図１０に示されるように、コンピュータ２００，２００Ｎ，２００Ｘは、それぞれ、ネットワーク１９を介してサーバ１５０と通信可能である。コンピュータ２００，２００Ｎ，２００Ｘは、それぞれに接続されているＨＭＤ１１０，１１０Ｎ，１１０Ｘを介して、仮想空間画像２２，２２Ｎ，２２Ｘを提供する。仮想空間画像２２，２２Ｎ，２２Ｘは、コンピュータ２００，２００Ｎ，２００Ｘの各ユーザに対応するアバターオブジェクト１０１０，１０１０Ｎ，１０１０Ｘをそれぞれ提示する。

例えば、アバターオブジェクト１０１０，１０１０Ｎ，１０１０Ｘは、ユーザ１９０，１９０Ｎ，１９０Ｘにそれぞれ対応する。例えば、ユーザ１９０が視認する仮想空間画像２２には、ユーザ１９０の通信相手として、アバターオブジェクト１０１０Ｎ，１０１０Ｘが提示される。ユーザ１９０Ｎが視認する仮想空間画像２２Ｎには、ユーザ１９０Ｎの通信相手として、アバターオブジェクト１０１０，１０１０Ｘがそれぞれ提示される。ユーザ１９０Ｘが視認する仮想空間画像２２Ｘには、ユーザ１９０Ｘの通信相手として、アバターオブジェクト１０１０，１０１０Ｎがそれぞれ提示される。

ＨＭＤ１１０，１１０Ｎ，１１０Ｘは、コンピュータ２００，２００Ｎ，２００Ｘを介して、ユーザ１９０，１９０Ｎ，１９０Ｘの位置および傾きに対応する動き検知データをサーバ１５０にそれぞれ送信する。動き検知データはアイトラッキングデータを含み得る。サーバ１５０は、ＨＭＤ１１０から受信した動き検知データを、ＨＭＤ１１０Ｎ，１１０Ｘにそれぞれ送信する。ＨＭＤ１１０Ｎ，１１０Ｘは、当該動き検知データに応じて、仮想空間２に提示されるチャット相手のアバターオブジェクトの表示態様（例えば、アバターオブジェクトの位置および傾き）を変更する。

ある局面において、ＨＭＤ１１０，１１０Ｎ，１１０Ｘは、ユーザ１９０，１９０Ｎ，１９０Ｘの発話に対応する音声データをサーバ１５０にそれぞれ送信する。サーバ１５０は、例えば、ＨＭＤ１１０から受信した音声データおよびアイトラッキングデータを、コンピュータ２００Ｎ，２００Ｘに送信する。コンピュータ２００Ｎ，２００Ｘは、当該アイトラッキングデータに応じて、アバターオブジェクトの表示態様（たとえば、目や頭の向き等）を変更する。ＨＭＤ１１０Ｎ，１１０Ｘは、当該音声データに基づく音声をスピーカ１１５から出力する。

以上より、ＨＭＤ１１０を装着したユーザ１９０が目を動かし、また発話すると、ＨＭＤ１１０と通信可能な状態にある他のＨＭＤ１１０Ｎ，１１０Ｘによって提示される仮想空間２では、ユーザ１９０に対応するアバターオブジェクトの表示態様が変わるとともに、音声がスピーカ１１５から出力される。表示態様が変化するタイミングと音声が出力されるタイミングとが同期するので、仮想空間２を介した通信において、各通信相手は、音声とアバターオブジェクトとを用いたコミュニケーションを違和感なく行なうことができる。

［同期］
図１１を参照して、ある実施形態に従う、ＨＭＤシステム１００における同期について説明する。図１１は、音声データとアイトラッキングデータの同期の一態様を説明するタイミングチャートである。ある実施形態において、ＨＭＤ１１０Ｎ（または、ＨＭＤ１１０Ｎが接続されたコンピュータ２００Ｎ）からＨＭＤ１１０が接続されたコンピュータ２００に伝送される信号の遅延について説明する。ある局面において、ＨＭＤ１１０に接続されたコンピュータ２００と、ＨＭＤ１１０Ｎに接続されたコンピュータ２００Ｎとは、仮想空間２を介して通信するためのチャットアプリケーションを実行している。

時刻ｔ（０）において、ユーザ１９０Ｎが発話すると、コンピュータ２００Ｎは、その時のユーザ１９０Ｎの視線を検出し、発話の内容を音声データに変換する。視線の検出結果は、例えば、アイトラッキングデータを含む。アイトラッキングデータは、予め定められた時間内に取得された複数のデータレコードを含む。各データレコードは、視点のｘ座標値とｙ座標値と、各座標値が取得された時刻データと、当該データレコードの発信元（例えばＨＭＤ１１０Ｎ）の識別番号とを含む。コンピュータ２００Ｎは、チャットアプリケーションの実行時にユーザ１９０Ｎによって指定された宛先（例えば、ユーザ１９０）に基づいて、音声データと、アイトラッキングデータとをコンピュータ２００に送信する。

音声データとアイトラッキングデータとの間には、遅延が生じ得る。例えば、ある局面において、アイトラッキングデータは、グラフ１１１０として示されるように、グラフ１１２０として示される音声データよりも先に、コンピュータ２００に到着し得る。

一例として、時刻ｔ（１）において、アイトラッキングデータ（グラフ１１１０）は、コンピュータ２００に到達しているが、音声データ（グラフ１１２０）はコンピュータ２００に到達していない。そこで、コンピュータ２００は、アイトラッキングデータに基づいて変更されたアバターオブジェクトのデータをＨＭＤ１１０に出力することなく、内部の揮発メモリに保存する。

時刻ｔ（２）において、音声データは、コンピュータ２００に到達する。コンピュータ２００は、その音声データに含まれる時刻データおよび発信元の識別番号と、時刻ｔ（１）において受信したアイトラッキングデータに含まれる時刻データおよび発信元の識別番号とが一致しているか否かを確認する。これらの情報が一致している時、コンピュータ２００は、時刻ｔ（３）において、アイトラッキングデータに基づいて変更されたアバターオブジェクトを表示するためのデータと、音声データとをＨＭＤ１１０に出力する。ＨＭＤ１１０は、当該データに基づいてアバターオブジェクトをモニタ１１２に表示し、音声データに基づく音声をスピーカ１１５から出力する。ＨＭＤ１１０を装着したユーザ１９０は、アバターオブジェクトに反映された視線の変化を認識し、また、ユーザ１９０Ｎによる発話の内容を認識する。このとき、アバターオブジェクトの表示態様の変化と音声出力とが同期しているので、ユーザ１９０は、違和感を覚えない。

［アルゴリズム］
以下、ある実施形態に従うＨＭＤシステム１００の動作を実現するアルゴリズムについて説明する。

［制御構造］
まず、図１２を参照して、ＨＭＤシステム１００における制御構造について説明する。図１２は、第１のＨＭＤ（例えばＨＭＤ１１０）と、第２のＨＭＤ（例えばＨＭＤ１１０Ｎ）とが実行する処理の一部を表わすフローチャートである。

ステップＳ１２１０にて、ＨＭＤ１１０に接続されているコンピュータ２００は、ユーザ１９０の操作に基づいて、仮想空間２を介したチャットを開始するために、サーバ１５０に接続する。また、ステップＳ１２１５にて、ＨＭＤ１１０に接続されているコンピュータ２００Ｎは、ユーザ１９０Ｎの操作に基づいて、仮想空間２を介したチャットを開始するために、サーバ１５０に接続する。

ステップＳ１２２０にて、コンピュータ２００のプロセッサ１０は、仮想空間定義モジュール２３１として、仮想空間２を定義する。その後、プロセッサ１０は、チャット制御モジュール２３５として、コンピュータ２００Ｎとの通信を開始する。ステップＳ１２２５にて、コンピュータ２００Ｎのプロセッサ１０は、仮想空間定義モジュール２３１として、仮想空間２を定義する。その後、プロセッサ１０は、チャット制御モジュール２３５として、コンピュータ２００との通信を開始する。

ステップＳ１２３０にて、プロセッサ１０は、注視センサ１４０から出力された信号に基づいて、ユーザ１９０の視線の動きを検出する。検出結果は、例えば、アイトラッキングデータである。プロセッサ１０は、アイトラッキングデータを、チャット先、すなわち、ＨＭＤ１１０Ｎに送信する。ステップＳ１２３５にて、コンピュータ２００Ｎのプロセッサ１０は、注視センサ１４０から出力された信号に基づいて、ユーザ１９０Ｎの視線の動きを検出する。検出結果は、例えば、アイトラッキングデータである。プロセッサ１０は、アイトラッキングデータを、チャット先、すなわち、ＨＭＤ１１０に送信する。

ステップＳ１２４０にて、プロセッサ１０は、マイク１１９から出力された信号を受信したことに基づいて、ユーザ１９０の発話を受け付け、その信号に基づく音声データをチャット先（ＨＭＤ１１０Ｎ）に送信する。ステップＳ１２４５にて、コンピュータ２００Ｎのプロセッサ１０は、マイク１１９から出力された信号を受信したことに基づいて、ユーザ１９０Ｎの発話を受け付け、その信号に基づく音声データをチャット先（ＨＭＤ１１０）に送信する。

ステップＳ１２５０にて、プロセッサ１０は、ＨＭＤ１１０Ｎを装着したユーザ１９０Ｎの視線の動きの検出結果をコンピュータ２００Ｎから受信する。ステップＳ１２５５にて、コンピュータ２００Ｎのプロセッサ１０は、ＨＭＤ１１０を装着したユーザ１９０の視線の動きの検出結果をコンピュータ２００から受信する。

ステップＳ１２６０にて、プロセッサ１０は、ユーザ１９０Ｎの発話に基づく音声データをコンピュータ２００Ｎから受信する。ステップＳ１２６５にて、コンピュータ２００Ｎのプロセッサ１０は、ユーザ１９０の発話に基づく音声データをコンピュータ２００から受信する。

ステップＳ１２７０にて、プロセッサ１０は、検出結果（アイトラッキングデータ）をアバターオブジェクトに反映し、ユーザ１９０Ｎの視線の変化が反映されたアバターオブジェクトのデータを生成する。ステップＳ１２７５にて、コンピュータ２００Ｎのプロセッサ１０は、検出結果（アイトラッキングデータ）をアバターオブジェクトに反映し、ユーザ１９０の視線の変化が反映されたアバターオブジェクトのデータを生成する。

ステップＳ１２８０にて、プロセッサ１０は、アバターオブジェクトをＨＭＤ１１０に提示するタイミングと、音声をスピーカ１１５から出力するタイミングとの同期をとる処理を行なう。例えば、ある局面において、コンピュータ２００が、あるタイミングでＨＭＤ１１０Ｎによって取得されたアイトラッキングデータを音声データよりも先にコンピュータ２００Ｎから受信した場合、プロセッサ１０は、音声データを受信するまで、ステップＳ１２７０において生成したアバターオブジェクトのデータの出力を待機する。プロセッサ１０は、音声データを受信すると、その音声データの送信元および当該データの取得タイミングとアイトラッキングデータの送信元および当該データの取得タイミングとが同じであるか否かを判定する。これらの送信元および取得タイミングが同じである場合には、プロセッサ１０は、処理をステップＳ１２９０に切り換える。

ステップＳ１２８５にて、コンピュータ２００Ｎのプロセッサ１０は、アバターオブジェクトをＨＭＤ１１０に提示するタイミングと、音声をスピーカ１１５から出力するタイミングとの同期をとる処理を行なう。例えば、ある局面において、コンピュータ２００Ｎが、あるタイミングでＨＭＤ１１０によって取得されたアイトラッキングデータを音声データよりも先にコンピュータ２００から受信した場合、プロセッサ１０は、音声データを受信するまで、ステップＳ１２７５において生成したアバターオブジェクトのデータの出力を待機する。プロセッサ１０は、音声データを受信すると、その音声データの送信元および当該データの取得タイミングとアイトラッキングデータの送信元および当該データの取得タイミングとが同じであるか否かを判定する。これらの送信元が同じである場合には、プロセッサ１０は、処理をステップＳ１２９５に切り換える。

ステップＳ１２９０にて、プロセッサ１０は、アバターオブジェクトのデータと、音声データとを同じタイミングで出力する。ＨＭＤ１１０を装着したユーザ１９０は、モニタ１１２に表示されたアバターオブジェクトの視線の向きが変わったことを認識し、同時に、ユーザ１９０Ｎの発話を聞くことができる。

ステップＳ１２９５にて、コンピュータ２００Ｎのプロセッサ１０は、アバターオブジェクトのデータと、音声データとを同じタイミングで出力する。ＨＭＤ１１０Ｎを装着したユーザ１９０Ｎは、モニタ１１２に表示されたアバターオブジェクトの視線の向きが変わったことを認識し、同時に、ユーザ１９０Ｎの発話を聞くことができる。

なお、別の局面において、コンピュータ２００が、あるタイミングでＨＭＤ１１０Ｎによって取得された音声データをアイトラッキングデータよりも先にコンピュータ２００Ｎから受信する場合があり得る。この場合、ステップＳ１２６０の処理がステップＳ１２５０の処理よりも先に行なわれることになる。プロセッサ１０は、アイトラッキングデータを受信するまで、音声データの出力を待機する。プロセッサ１０は、アイトラッキングデータを受信すると、そのアイトラッキングデータの送信元および当該データの取得タイミングと音声データの送信元および当該データの取得タイミングとが同じであるか否かを判定する。これらの送信元が同じである場合には、プロセッサ１０は、アイトラッキングデータを受信した後に、アバターオブジェクトのデータの出力と、音声データの出力とを同じタイミングで実行する。この場合も、ＨＭＤ１１０を装着したユーザ１９０は、モニタ１１２に表示されたアバターオブジェクトの視線の向きが変わったことを認識し、同時に、ユーザ１９０Ｎの発話を聞くことができる。

なお、別の局面において、コンピュータ２００Ｎが、あるタイミングでＨＭＤ１１０によって取得された音声データをアイトラッキングデータよりも先にコンピュータ２００から受信する場合があり得る。この場合、ステップＳ１２６５の処理がステップＳ１２５５の処理よりも先に行なわれることになる。プロセッサ１０は、アイトラッキングデータを受信するまで、音声データの出力を待機する。プロセッサ１０は、アイトラッキングデータを受信すると、そのアイトラッキングデータの送信元と音声データの送信元とが同じであるか否かを判定する。これらの送信元が同じである場合には、プロセッサ１０は、アイトラッキングデータを受信した後に、アバターオブジェクトのデータの出力と、音声データの出力とを同じタイミングで実行する。この場合も、ＨＭＤ１１０Ｎを装着したユーザ１９０Ｎは、モニタ１１２に表示されたアバターオブジェクトの視線の向きが変わったことを認識し、同時に、ユーザ１９０の発話を聞くことができる。

［データ構造］
次に、図１３Ａ〜図１３Ｄを参照して、ある実施形態に従うＨＭＤシステム１００を伝送されるデータの構造について説明する。図１３Ａは、ユーザ１９０が使用するＨＭＤ１１０によって取得されたアイトラッキングデータを表わす。図１３Ｂは、ユーザ１９０による発話に基づく音声データを表わす。図１３Ｃは、ユーザ１９０Ｎが使用するＨＭＤ１１０Ｎによって取得されたアイトラッキングデータを表わす。図１３Ｄは、ユーザ１９０による発話に基づく音声データを表わす。

図１３Ａを参照して、アイトラッキングデータ１３１０は、ユーザＩＤと、ｘ座標値と、ｙ座標値と、経過時間と、データＩＤとを含む。ユーザＩＤは、視線が検出されたユーザ、すなわちアイトラッキングデータ１３１０の送信元を識別する。ｘ座標値は、視線が検出された時の、ユーザ１９０の瞳孔の中心座標（瞳孔中心点）のｘ座標値を表わす。ｙ座標値は、視線が検出された時のユーザ１９０の瞳孔の中心座標のｙ座標値を表わす。経過時間は、チャットが開始した時から経過した時間を表わす。チャットが行なわれている間、例えば定期的に、視線が継続して検出されるので、経過時間は、視線が検出されたタイミングを特定する。なお、経過時間の代わりに、現実空間での実際の時間、例えば、コンピュータ２００のクロック、測位信号に含まれる時刻情報等が使用されてもよい。データＩＤは、各タイミングで取得されたデータを識別する。

図１３Ｂを参照して、音声データ１３２０は、ユーザＩＤと、音声データと、経過時間と、データＩＤとを含む。ユーザＩＤは、視線が検出されたユーザ、すなわち音声データ１３２０の送信元を特定する。音声データは、ユーザ１９０の発話から生成されたデジタル音声データである。経過時間は、アイトラッキングデータ１３１０と同様に、チャットが開始した時から経過した時間を表わす。データＩＤは、各タイミングで取得されたデータを識別する。

図１３Ｃを参照して、アイトラッキングデータ１３３０は、図１３Ａに示されるアイトラッキングデータ１３１０と同じ構成を有する。したがって、同じ構成の説明は繰り返さない。

図１３Ｄを参照して、アイトラッキングデータ１３３０は、図１３Ｂに示されるアイトラッキングデータ１３３０と同じ構成を有する。したがって、同じ構成の説明は繰り返さない。

図１４を参照して、ある実施形態に従ってＨＭＤ１１０からの出力態様について説明する。図１４は、ＨＭＤ１１０のモニタ１１２に表示されるチャット画面の推移を表わす図である。

（アバターオブジェクトの更新と音声出力とが同期している場合）
状態Ａに示されるように、ある局面において、ユーザ１９０がユーザ１９０Ｎとチャットを開始すると、ＨＭＤ１１０のモニタ１１２は、ユーザ１９０Ｎのアバターオブジェクト１４１０を表示する。ＨＭＤ１１０Ｎを装着したユーザ１９０Ｎが目を動かしながら発話すると、視線検出結果（アイトラッキングデータ１３３０）および音声データ１３４０は、それぞれ、コンピュータ２００Ｎからコンピュータ２００に送信される。コンピュータ２００のプロセッサ１０は、アバターオブジェクトの提示のタイミングと音声データの出力のタイミングとの同期をとる。

状態Ｂに示されるように、その後、ＨＭＤ１１０は、ユーザ１９０Ｎの目の動きが反映された状態でのアバターオブジェクト１４１０と、発話に基づく音声とを同じタイミングで出力する。これにより、ユーザ１９０は、アバターオブジェクト１４１０の視線の変化と音声出力とを同じタイミングで認識できるので、仮想空間２を介したチャットにおいて違和感を覚えなくなる。

（アバターオブジェクトの更新と音声出力とが同期していない場合）
これに対して、状態Ｃに示されるように、別の局面において、仮想空間２を介したチャットにおいて音声データの出力とアバターオブジェクト１４１０の変化とが同期しない場合には、例えば、アバターオブジェクト１４１０の視線の変化のみが、最初にモニタ１１２に表示される。その後、状態Ｄに示されるように、音声が、ＨＭＤ１１０のスピーカ１１５から遅れて出力される。したがって、この場合、アバターオブジェクト１４１０の変化と音声出力とがずれることにより、ユーザ１９０は、違和感を覚え得る。

以上のようにして、ある実施形態に従うＨＭＤシステム１００は、仮想空間２を介したチャットのように映像と音声とが伝送される通信において、ＨＭＤ１１０においてアバターオブジェクト１４１０が提示されるタイミングと、音声が出力されるタイミングとの同期をとる。その結果、ＨＭＤ１１０を装着したユーザ１９０は、チャット相手のユーザ１９０Ｎの視線の移動に基づくアバターオブジェクト１４１０の変化と音声出力とを同時に認識するので、違和感を覚えることなくチャットを続けることができる。

＜変形例＞
上記の例では、ＨＭＤシステム１００は、ＨＭＤ１１０においてアバターオブジェクトの視線が提示されるタイミングと、音声が出力されるタイミングとの同期をとることによって、映像と音声との同期をとるように構成されている。しかしながら、アバターオブジェクトの動作は、視線の動作（眼球の動作）に限られない。この変形例では、視線以外のアバターオブジェクトの動作（に対応する映像）と音声との同期について説明する。

［ＨＭＤシステムの構成］
図１５は、変形例に従うＨＭＤシステム１５００の構成の概略を表す図である。図１６は、変形例に従うコンピュータ２００のハードウェア構成の一例を表すブロック図である。ＨＭＤシステム１５００は、ＨＭＤ１５１０を有し、コントローラ１６０を有さない点において、図１で説明したＨＭＤシステム１００と相違する。変形例に従うコンピュータ２００のハードウェア構成は、メモリ１１がリングバッファ１１Ａおよび１１Ｂを含む点を除き、図２に示されるハードウェア構成と同じである。したがって、同一のハードウェア構成の説明は繰り返さない。

ＨＭＤ１５１０は、第１カメラ１１６と、第２カメラ１１７と、第３カメラ１１８とを有する点において、図１で説明したＨＭＤ１１０と相違する。第１カメラ１１６は、ユーザ１９０の顔の下部を撮影する。一例として、第１カメラ１１６は、ユーザ１９０の鼻および口などを撮影する。第２カメラ１１７は、ユーザの目および眉などを撮影する。ＨＭＤ１５１０のユーザ１９０側の筐体をＨＭＤ１５１０の内側、ＨＭＤ１１０のユーザ１９０とは逆側の筐体をＨＭＤ１５１０の外側と定義する。ある局面において、第１カメラ１１６は、ＨＭＤ１５１０の外側に配置され、第２カメラ１１７は、ＨＭＤ１１０の内側に配置され得る。図１５に示される例において、第１カメラ１１６は、ＨＭＤ１５１０の外側から伸びるフレームに接続され、ユーザ１９０の顔の下部を撮影する。第１カメラ１１６および第２カメラ１１７が生成した画像は、コンピュータ２００に入力される。

第３カメラ１１８は、対象物の深度情報を取得可能に構成される。一例として、第３カメラ１１８は、ＴＯＦ（Time Of Flight）方式に従い、対象物の深度情報を取得する。他の例として、第３カメラ１１８は、パターン照射方式に従い、対象物の深度情報を取得する。ある実施形態において、第３カメラ１１８は、対象物を２つ以上の異なる方向から撮影できるステレオカメラであり得る。また、第３カメラ１１８は、赤外線カメラであってもよい。第３カメラ１１８は、ＨＭＤ１５１０の外側上部に装着され、ユーザ１９０の身体の一部を撮影する。以下、一例として、第３カメラ１１８は、ユーザ１９０の手を撮影する。第３カメラ１１８は取得した対象物（手）の深度情報をコンピュータ２００に出力する。

ユーザ１９０Ｎによって使用されるＨＭＤシステム１５００Ｎ、およびユーザ１９０Ｘによって使用されるＨＭＤシステム１５００Ｘの構成はそれぞれＨＭＤシステム１５００と同じであるため、その説明は繰り返さない。以下、ＨＭＤシステム１５００Ｎの構成要素には符号「Ｎ」を、ＨＭＤシステム１５００Ｘの構成要素には符号「Ｘ」を付して説明する。例えば、ＨＭＤ１５１０Ｎは、ＨＭＤシステム１５００Ｎに含まれる。また、コンピュータ２００Ｎによって提示される仮想空間を仮想空間２Ｎと定義し、コンピュータ２００Ｘによって提示される仮想空間を仮想空間２Ｘと定義する。

［制御装置のモジュール構成］
図１７は、変形例に従うコンピュータ２００のモジュール構成を表すブロック図である。変形例に従うコンピュータ２００は、以下の点において、図９で説明したコンピュータ２００のモジュール構成と相違する。

図１７を参照して、変形例に従う表示制御モジュール２２０は、顔器官検出モジュール２２５Ａと、フェイストラッキングモジュール２２６と、ハンドトラッキングモジュール２２７とをさらに有する。変形例に従うメモリモジュール２４０は、顔情報２４４をさらに記憶している。

顔器官検出モジュール２２５Ａは、第１カメラ１１６および第２カメラ１１７が生成するユーザ１９０の顔の画像から、ユーザ１９０の顔を構成する器官（例えば、口、目、頬、鼻）を検出する。フェイストラッキングモジュール２２６は、顔器官検出モジュール２２５Ａが検出した各器官の動き（形状）を検出する。図１８〜図２０において、顔器官検出モジュール２２５Ａおよびフェイストラッキングモジュール２２６の処理は後述される。

ハンドトラッキングモジュール２２７は、ユーザ１９０の身体の一部の位置を検出（トラッキング）する。当該変形例において、ハンドトラッキングモジュール２２７は、第３カメラ１１８から入力される深度情報に基づいて、ＨＭＤ１５１０に設定されるｕｖｗ視野座標系におけるユーザ１９０の手の位置を検出する。ハンドトラッキングモジュール２２７の処理は、図２２〜図２４において後述される。

顔情報２４４は、顔器官検出モジュール２２５Ａが、ユーザ１９０の顔器官を検出するために予め準備されたテンプレートを含む。一例として、顔情報２４４は、口テンプレート２４５と、目テンプレート２４６と、頬テンプレート２４７と、鼻テンプレート２４８とを含む。これら各テンプレートは、顔を構成する器官に対応する画像であり得る。例えば、口テンプレート２４５は、口の画像であり得る。なお、各テンプレートは複数の画像を含んでもよい。

仮想オブジェクト生成モジュール２３２は、フェイストラッキングモジュール２２６が検出した顔器官の動作を、仮想空間２に配置されるアバターオブジェクトの顔に反映させる。また、仮想オブジェクト生成モジュール２３２は、ハンドトラッキングモジュール２２７が検出した手の動作を、仮想空間２に配置されるアバターオブジェクトの手に反映させる。

［フェイストラッキング］
以下、図１８〜図２０を参照してユーザの顔の動作（形状）を検出するための具体例について説明する。図１８〜図２０では、一例として、ユーザの口の動作を検出する具体例について説明する。なお、図１８〜図２０で説明される検出方法は、ユーザの口の動作に限られず、ユーザの顔を構成する他の器官（例えば、目、眉、頬、鼻）の動作の検出にも適用され得る。

図１８は、第１カメラ１１６が撮影するユーザの顔画像１８００を示す。顔画像１８００は、ユーザ１９０の鼻と口とを含む。

顔器官検出モジュール２２５Ａは、顔情報２４４に格納される口テンプレート２４５を利用したパターンマッチングにより、顔画像１８００から口領域１８１０を特定する。ある局面において、顔器官検出モジュール２２５Ａは、顔画像１８００において、矩形上の比較領域を設定し、この比較領域の大きさ、位置および角度をそれぞれ変えながら、比較領域の画像と、口テンプレート２４５の画像との類似度を算出する。顔器官検出モジュール２２５Ａは、予め定められたしきい値よりも大きい類似度が算出された比較領域を、口領域１８１０として特定し得る。

顔器官検出モジュール２２５Ａはさらに、算出した類似度がしきい値よりも大きい比較領域の位置と、他の顔器官（例えば、目、鼻）の位置との相対関係に基づいて、当該比較領域が口領域に相当するか否かを判断し得る。

フェイストラッキングモジュール２２６は、顔器官検出モジュール２２５Ａが検出した口領域１８１０から、より詳細な口の形状を検出する。

図１９は、フェイストラッキングモジュール２２６が口の形状を検出する処理（その１）を示す。図１９を参照して、フェイストラッキングモジュール２２６は、口領域１８１０に含まれる口の形状（唇の輪郭）を検出するための輪郭検出線１９００を設定する。輪郭検出線１９００は、顔の高さ方向（以下、「縦方向」とも称する）に直交する方向（以下、「横方向」とも称する）に、所定間隔で複数本設定される。

フェイストラッキングモジュール２２６は、複数本の輪郭検出線１９００の各々に沿った口領域１８１０の輝度値の変化を検出し、輝度値の変化が急激な位置を輪郭点として特定し得る。より具体的には、フェイストラッキングモジュール２２６は、隣接画素との輝度差（すなわち、輝度値変化）が予め定められたしきい値以上である画素を、輪郭点として特定し得る。画素の輝度値は、例えば、画素のＲＢＧ値を所定の重み付けで積算することにより得られる。

フェイストラッキングモジュール２２６は、口領域１８１０に対応する画像から２種類の輪郭点を特定する。フェイストラッキングモジュール２２６は、口（唇）の外側の輪郭に対応する輪郭点１９１０と、口（唇）の内側の輪郭に対応する輪郭点１９２０とを特定する。ある局面において、フェイストラッキングモジュール２２６は、１つの輪郭検出線１９００上に３つ以上の輪郭点が検出された場合には、両端の輪郭点を外側の輪郭点１９１０として特定し得る。この場合、フェイストラッキングモジュール２２６は、外側の輪郭点１９１０以外の輪郭点を、内側の輪郭点１９２０として特定し得る。また、フェイストラッキングモジュール２２６は、１つの輪郭検出線１９００上に２つ以下の輪郭点が検出された場合には、検出された輪郭点を外側の輪郭点１９１０として特定し得る。

図２０は、フェイストラッキングモジュール２２６が口の形状を検出する処理（その２）を示す。図２０では、外側の輪郭点１９１０は白丸、内側の輪郭点１９２０はハッチングされた丸としてそれぞれ示されている。

フェイストラッキングモジュール２２６は、内側の輪郭点１９２０間を補完することにより、口形状２０００（口の開き具合）を特定する。ある局面において、フェイストラッキングモジュール２２６は、スプライン補間などの非線形の補間方法を用いて、口形状２０００を特定し得る。この場合、輪郭点１９２０は、口形状２０００を表す特徴点と言える。なお、他の局面において、フェイストラッキングモジュール２２６は、外側の輪郭点１９１０間を補完することにより口形状２０００を特定してもよい。さらに他の局面において、フェイストラッキングモジュール２２６は、想定される口形状（人の上唇と下唇とによって形成され得る所定の形状）から、大きく逸脱する輪郭点を除外し、残った輪郭点によって口形状２０００を特定してもよい。このようにして、フェイストラッキングモジュール２２６は、ユーザ１９０の口の動作（形状）を特定し得る。

フェイストラッキングモジュール２２６はさらに、口を構成する上唇と下唇とを検出し得る。一例として、フェイストラッキングモジュール２２６は、外側の輪郭点１９１０のうち、横方向の両端に存在する輪郭点１９１０−Ｒと輪郭点１９１０−Ｌとを特定する。フェイストラッキングモジュール２２６は、これら両端に存在する輪郭点と、これら輪郭点より上下方向において下側に存在する内側の輪郭点１９２０および外側の輪郭点１９１０とによって囲まれる領域２０１０を下唇として検出し得る。また、フェイストラッキングモジュール２２６は、両端に存在する外側の輪郭点１９１０−Ｒ，１９１０−Ｌと、これら輪郭点より上下方向において上側に存在する内側の輪郭点１９２０および外側の輪郭点１９１０とによって囲まれる領域を上唇として検出し得る。

なお、口形状２０００の検出方法は上記に限られず、フェイストラッキングモジュール２２６は、他の手法により口形状２０００を検出してもよい。また、フェイストラッキングモジュール２２６は、同様にして、ユーザ１９０の目、頬、鼻の形状を検出し得る。より具体的には、フェイストラッキングモジュール２２６は、第１カメラ１１６が生成した画像情報と、頬テンプレート２４７とに基づいて、ユーザ１９０頬の形状を表す特徴点を検出する。フェイストラッキングモジュール２２６は、第１カメラ１１６が生成した画像情報と、鼻テンプレート２４８とに基づいて、ユーザ１９０の鼻の形状を表す特徴点を検出する。フェイストラッキングモジュール２２６は、第２カメラ１１７が生成した画像情報と、目テンプレート２４６とに基づいて、ユーザ１９０の目の形状を表す特徴点を検出する。

ある局面において、第１カメラ１１６および第２カメラ１１７は、第３カメラ１１８と同様に、対象物（顔器官）の深度情報を取得可能に構成される。フェイストラッキングモジュール２２６は、第１カメラ１１６および第２カメラ１１７から入力される深度情報に基づいて、ＨＭＤ１５１０に設定されるｕｖｗ視野座標系におけるユーザ１９０の顔器官の形状を表す特徴点（以下、「フェイストラッキングポイント」とも称する）の位置情報を取得する。フェイストラッキングポイントは、例えば、ユーザ１９０の口の形状を表す輪郭点１９２０を含む。コンピュータ２００は、第１カメラ１１６および第２カメラ１１７が生成した１の画像情報に基づいて、フェイストラッキングモジュール２２６が検出したフェイストラッキングポイントの位置情報を「フェイストラッキングデータ」として他のコンピュータ２００Ｎに出力する。フェイストラッキングデータは、ユーザの顔の表情を表すデータとも言える。フェイストラッキングデータのデータ構造は、図２４において後述されるハンドトラッキングデータのように、顔器官毎に検出される各フェイストラッキングポイントの位置情報によって構成され得る。

図２１は、現実空間におけるユーザ１９０の表情と、仮想空間におけるユーザ１９０のアバターオブジェクト１１１０の表情との対比を表す。図２１（Ａ）は、現実空間におけるユーザ１９０を表す。図２１（Ｂ）は、ユーザ１９０Ｎが視認する視界画像２１００を表す。

図２１（Ａ）を参照して、ＨＭＤシステム１５００を構成する第１カメラ１１６および第２カメラ１１７は、ユーザ１９０を撮影する。このとき、ユーザ１９０は笑っている。なお、図２１（Ａ）において、ユーザはＨＭＤ１５１０を装着しているが、便宜的にＨＭＤ１５１０が存在しないものとして表現している。

フェイストラッキングモジュール２２６は、第１カメラ１１６および第２カメラ１１７によって生成される画像に基づいて、フェイストラッキングデータを生成する。当該フェイストラッキングデータには、ユーザ１９０の口の形状を表す輪郭点の位置情報が含まれる。コンピュータ２００は、生成したフェイストラッキングデータをサーバ１５０に出力する。サーバ１５０は、コンピュータ２００とチャットアプリケーションによって通信を行なうコンピュータ２００Ｎに、当該データを転送する。

コンピュータ２００Ｎのプロセッサ１０Ｎは、仮想オブジェクト生成モジュール２３２Ｎとして、受信したフェイストラッキングデータに基づいてユーザ１９０の顔の表情をアバターオブジェクト１０１０に反映する。一例として、アバターオブジェクト１０１０には、フェイストラッキングモジュール２２６が検出する複数のフェイストラッキングポイントに対応するように、複数の可動ポイントが設定されている。仮想オブジェクト生成モジュール２３２Ｎは、受信したフェイストラッキングポイントの位置（フェイストラッキングデータ）に追随するように、複数の可動ポイントの各々の位置を更新する。これにより、ユーザ１９０Ｎは、仮想空間２Ｎにおいてアバターオブジェクト１０１０の表情を介して、ユーザ１９０の表情を認識できる。図２１（Ｂ）に示される例において、ユーザ１９０Ｎは、視界画像２１００に表示されるアバターオブジェクト１０１０の顔を視認することにより、ユーザ１９０が笑っていることを認識する。

［ハンドトラッキング］
次に、図２２〜図２４を参照して、手の動きをトラッキングする処理について説明する。図２２は、ユーザ１９０の手をトラッキングする処理について説明するための図である。図２２（Ａ）は、現実空間におけるユーザ１９０を表す。図２２（Ｂ）は、ユーザ１９０Ｎの視界画像２２２０に含まれるアバターオブジェクト１０１０を表す。

図２２（Ａ）を参照して、ユーザ１９０は、現実空間においてＨＭＤシステム１５００を装着している。ＨＭＤシステム１５００には、第３カメラ１１８が搭載されている。第３カメラ１１８は、ＨＭＤシステム１５００の前方の空間２２００に含まれる物体の深度情報を取得する。図２２（Ａ）に示される例において、第３カメラ１１８は、空間２２００に含まれるユーザ１９０の手２２１０の深度情報を取得する。

ハンドトラッキングモジュール２２７は、第３カメラ１１８によって取得される深度情報に基づき、ユーザ１９０の手２２１０の位置情報を取得する。第３カメラ１１８はＨＭＤ１５１０に搭載されているため、手２２１０の位置情報はＨＭＤシステム１５００に設定されるｕｖｗ視野座標系における位置を示し得る。コンピュータ２００は、この位置情報を、ハンドトラッキングデータとしてサーバ１５０を介してコンピュータ２００Ｎに送信する。

図２２（Ｂ）に示されるように、コンピュータ２００Ｎのプロセッサ１０Ｎは、仮想オブジェクト生成モジュール２３２Ｎとして、仮想空間２Ｎに配置されるアバターオブジェクト１０１０の手１０２０を、受信したハンドトラッキングデータから導出される位置に追随させる。一例として、プロセッサ１０Ｎは、受信したハンドトラッキングデータが示す位置（ＨＭＤシステム１５００に設定されるｕｖｗ視野座標系の位置）を、アバターオブジェクト１０１０の頭部の位置に基づいてＸＹＺ座標系に変換する。プロセッサ１０Ｎは、アバターオブジェクト１０１０の手１０２０を、変換後の位置に移動させる。このようにして、ユーザ１９０Ｎが視認するアバターオブジェクト１０１０に、ユーザ１９０の手２２１０の動きが反映される。

図２３は、ハンドトラッキングモジュール２２７の処理を説明するための図である。ハンドトラッキングモジュール２２７は、第３カメラ１１８から入力される手の深度情報に基づいて、ユーザ１９０の手２２１０の骨の動きをトラッキングする。図２３に示される例において、ハンドトラッキングモジュール２２７は、ユーザ１９０の手２２１０の関節ａ、ｂ、ｃ・・・、ｘの各位置をそれぞれ検出する。

ハンドトラッキングモジュール２２７は、関節ａ〜ｘの位置関係に基づいて、ユーザ１９０の手２２１０の形状（指の動き）を認識可能に構成される。この意味で、手２２１０の関節ａ〜ｘは、手２２１０の形状を表す特徴点（以下、「ハンドトラッキングポイント」とも称する）とも言える。ハンドトラッキングモジュール２２７は、例えば、ユーザ１９０の手２２１０が指を指していること、手２２１０が開いていること、手２２１０が閉じていること、手２２１０が何かをつまむ動作をしていること、手２２１０がひねられていることなどを認識できる。ハンドトラッキングモジュール２２７はさらに、関節ａ〜ｄと、その他の関節との位置関係により、認識している手が左手であるか右手であるかを判断できる。このような第３カメラ１１８およびハンドトラッキングモジュール２２７は、例えば、ＬｅａｐＭｏｔｉｏｎ社によって提供されるＬｅａｐＭｏｔｉｏｎ（登録商標）によって実現され得る。

図２４は、ハンドトラッキングデータのデータ構造の一例を表す。図２４に示される例において、ハンドトラッキングデータは、手２２１０の関節ａ〜ｘそれぞれについての、ＨＭＤ１１０に設定されるｕｖｗ視野座標系における位置情報を表す。ハンドトラッキングモジュール２２７は、第３カメラ１１８によって生成される画像情報に基づいて、ハンドトラッキングポイントの位置情報を表すハンドトラッキングデータを生成する。

コンピュータ２００は、取得したハンドトラッキングデータを、サーバ１５０に送信する。サーバ１５０は、コンピュータ２００とチャットアプリケーションによって通信を行なうコンピュータ２００Ｎに、当該データを転送する。コンピュータ２００Ｎのプロセッサ１０Ｎは、仮想オブジェクト生成モジュール２３２Ｎとして、受信したハンドトラッキングデータに基づいて、仮想空間２Ｎに配置されるアバターオブジェクト１０１０の手１０２０を構成する関節の位置を更新する。これにより、ユーザ１９０Ｎは、仮想空間２Ｎにおいてアバターオブジェクト１０１０の手１０２０を介して、ユーザ１９０の手２２１０の動きを認識できる。

［映像と音声との同期］
図２５は、ある実施形態においてコンピュータ２００とコンピュータ２００Ｎとの間で送受信されるデータの構造の一例を表す。図２５Ａは、ある実施形態に従うフェイスデータのデータ構造の一例を表す。図２５Ｂは、ある実施形態に従うアイデータのデータ構造の一例を表す。図２５Ｃは、ある実施形態に従う音声パケットのデータ構造の一例を表す。

図２５Ａを参照して、フェイスデータは、ユーザＩＤと、フェイストラッキングデータと、時刻情報と、データＩＤとを含む。ユーザＩＤは、フェイストラッキングデータの送信元を識別する。フェイストラッキングデータは、フェイストラッキングポイントの位置情報を表す。時刻情報は、対応するフェイストラッキングデータがフェイストラッキングモジュール２２６によって生成された時刻であり得る。他の局面において、時刻情報は、フェイストラッキングモジュール２２６によってフェイストラッキングデータが生成された時刻から、遅延時間を差し引いた時刻であり得る。この遅延時間は、第１カメラ１１６および第２カメラ１１７が画像情報を生成する処理に要する時間、およびフェイストラッキングモジュール２２６が画像情報に基づいてフェイストラッキングデータを生成する処理に要する時間を含み得る。遅延時間を考慮された時刻情報は、当該フェイストラッキングデータに対応する表情をユーザ１９０が行なった時刻を正確に表し得る。このデータＩＤは、複数のフェイスデータの各々を識別する。このデータＩＤは、フェイストラッキングデータと他のデータとの同期のために使用される。

ある局面において、ハンドトラッキングデータを含むハンドデータを生成され得る。このハンドデータは、フェイスデータと同様のデータ構造を有する。具体的には、ハンドデータは、ユーザＩＤと、ハンドトラッキングデータと、時刻情報と、データＩＤとを含む。この時刻情報は、ハンドトラッキングモジュール２２７によってハンドトラッキングデータが生成された時刻であり得る。他の局面において、時刻情報は、ハンドトラッキングモジュール２２７によってハンドトラッキングデータが生成された時刻から遅延時間を差し引いた時刻であり得る。この遅延時間は、第３カメラ１１８が画像情報を生成する処理に要する時間、およびハンドトラッキングモジュール２２７が画像情報に基づいてハンドトラッキングデータを生成する処理に要する時間を含み得る。

図２５Ｂを参照して、アイデータは、ユーザＩＤと、アイトラッキングデータと、時刻情報と、データＩＤとを含む。ユーザＩＤは、アイトラッキングデータの送信元を識別する。アイトラッキングデータは、視線検出モジュール２３３によって検出されるユーザ１９０の瞳孔の中心座標値（ｘ座標値およびｙ座標値）を表す。時刻情報は、対応するアイトラッキングデータが視線検出モジュール２３３によって生成された時刻であり得る。他の局面において、時刻情報は、視線検出モジュール２３３によってアイトラッキングデータが生成された時刻から、遅延時間を差し引いた時刻であり得る。この遅延時間は、視線検出モジュール２３３がアイトラッキングデータを生成する処理に要する時間を含み得る。遅延時間が考慮された時刻情報は、当該アイトラッキングデータに対応する動作をユーザ１９０が行なった時刻を正確に表し得る。このデータＩＤは、複数のアイデータの各々を識別する。このデータＩＤは、他のデータとの同期のために使用される。

図２５Ｃを参照して、音声パケットは、ユーザＩＤと、音声信号と、時刻情報と、データＩＤとを含む。ユーザＩＤは、音声パケットの送信元を特定する。音声信号は、ユーザ１９０の発話から生成されたデジタルデータである。時刻情報は、音声信号に対応する発話が行なわれた時刻を表す。ある局面において、時刻情報は、音声信号が取得され始めた時刻を表す。他の局面において、時刻情報は、音声信号が取得され始めた時刻から、遅延時間を差し引いた時刻であり得る。この遅延時間は、マイク１１９で取得されるアナログデータをデジタルデータに変換するために必要な時間であり得る。遅延時間を考慮された時刻情報は、当該音声信号に対応する発話をユーザ１９０が行なった時刻を正確に表し得る。データＩＤは、他のデータとの同期のための識別情報である。

ある局面において、プロセッサ１０は、上記の各種データに関連付けられるデータＩＤを、時刻情報に基づいて決定する。具体的には、プロセッサ１０は、略同じ時刻に取得された各種データに対して、同一のデータＩＤを付すように構成される。

図２６は、コンピュータ２００とコンピュータ２００Ｎとがチャットアプリケーションによって通信するための処理を表すフローチャートである。なお、図２６に示される処理のうち、図１２の処理と同じ処理には図１２に示される符号と同じ符号を付している。そのため、これらの処理については繰り返し説明しない。

ステップＳ２６３０にて、プロセッサ１０は、ユーザ１９０の動作を検出し、検出結果をチャット先であるコンピュータ２００Ｎに送信する。ユーザ１９０の動作は、例えば、ユーザ１９０の視線の動き、顔の表情、手の動きを含む。ユーザ１９０の動作の検出結果は、例えば、アイトラッキングデータ、フェイストラッキングデータ、ハンドトラッキングデータを含み得る。ある局面において、プロセッサ１０は、各々がユーザＩＤ、時刻情報、データＩＤを含むアイデータ、フェイスデータ、およびハンドデータをコンピュータ２００Ｎに送信する。ステップＳ２６３５にて、プロセッサ１０Ｎは、ステップＳ２６３０の処理と同様に、ユーザ１９０Ｎの動作を検出し、検出結果をチャット先、すなわち、コンピュータ２００に送信する。

ステップＳ２６４０にて、プロセッサ１０は、マイク１１９においてユーザ１９０の発話を受け付け、その信号に基づく音声信号をチャット先（コンピュータ２００Ｎ）に送信する。ある局面において、プロセッサ１０はユーザＩＤ、時刻情報、データＩＤを含む音声パケットをコンピュータ２００Ｎに送信する。ステップＳ２６４５にて、プロセッサ１０Ｎは、ステップＳ２６４０の処理と同様に、マイク１１９Ｎにおいてユーザ１９０Ｎの発話を受け付け、音声パケットをチャット先（コンピュータ２００Ｎ）に送信する。

ステップＳ２６５０にて、プロセッサ１０は、ＨＭＤ１５１０Ｎを装着したユーザ１９０Ｎの動作の検出結果をコンピュータ２００Ｎから受信する。ステップＳ２６５５にて、プロセッサ１０Ｎは、ＨＭＤ１５１０を装着したユーザ１９０の動作の検出結果をコンピュータ２００から受信する。

ステップＳ２６６０にて、プロセッサ１０は、ユーザ１９０Ｎの発話に基づく音声信号を含む音声パケットをコンピュータ２００Ｎから受信する。ステップＳ２６６５にて、プロセッサ１０Ｎは、ユーザ１９０の発話に基づく音声信号を含む音声パケットをコンピュータ２００から受信する。

ステップＳ２６７０にて、プロセッサ１０は、ユーザ１９０Ｎの動作の検出結果（アイトラッキングデータ、フェイストラッキングデータ、ハンドトラッキングデータ）を仮想空間２に配置されるアバターオブジェクト１０１０Ｎに反映したデータを生成する。ステップＳ２６７５にて、プロセッサ１０は、ユーザ１９０の動作の検出結果（アイトラッキングデータ、フェイストラッキングデータ、ハンドトラッキングデータ）を仮想空間２Ｎに配置されるアバターオブジェクト１０１０に反映したデータを生成する。

ステップＳ２６８０にて、プロセッサ１０は、アバターオブジェクト１０１０ＮをＨＭＤ１５１０に提示するタイミングと、音声をスピーカ１１５から出力するタイミングとの同期をとる処理を行なう。例えば、ある局面において、コンピュータ２００が、ユーザ１９０Ｎの動作の検出結果を音声パケットよりも先にコンピュータ２００Ｎから受信した場合、プロセッサ１０は、音声パケットを受信するまで、ステップＳ２６７０において生成したアバターオブジェクトのデータの出力を待機する。プロセッサ１０は、音声パケットを受信すると、音声パケットのユーザＩＤおよび時刻情報と、動作の検出結果（アイデータ、フェイスデータ、ハンドデータ）のユーザＩＤと時刻情報とが略同じであるか否かを判定する。一例として、プロセッサ１０は、これらの時刻情報が示す時刻の差分が１０ｍｓｅｃ以内である場合に、これらの時刻情報が略同じであると判定する。プロセッサ１０は、これらのユーザＩＤおよび時刻情報が略同じである場合に、処理をステップＳ１２９０に切り換える。ステップＳ２６８５にて、プロセッサ１０Ｎは、ステップＳ２６８０の処理と同様にして、アバターオブジェクト１０１０をＨＭＤ１５１０Ｎに提示するタイミングと、音声をスピーカ１１５Ｎから出力するタイミングとの同期処理を行なう。

なお、別の局面において、コンピュータ２００が、ユーザ１９０Ｎの音声信号を含む音声パケットを、ユーザ１９０Ｎの動作の検出結果よりも先にコンピュータ２００Ｎから受信する場合があり得る。この場合、プロセッサ１０は、ユーザ１９０Ｎの動作の検出結果を受信するまで、音声信号の出力を待機する。その後の処理は上記の処理と同じであるため、それらの処理の説明は繰り返さない。

なお、さらに別の局面において、プロセッサ１０は、ユーザＩＤとデータＩＤとを用いて上述の同期処理を実行し得る。例えば、ある局面において、コンピュータ２００は、ユーザＩＤ「１９０Ｎ」およびデータＩＤ「００１」に対応するユーザ１９０Ｎの動作の検出結果を、ユーザＩＤ「１９０Ｎ」およびデータＩＤ「００１」に対応する音声パケットよりも先に受信する。この場合、プロセッサ１０は、ユーザＩＤ「１９０Ｎ」およびデータＩＤ「００１」に対応する音声パケットを受信するまで、ユーザＩＤ「１９０Ｎ」およびデータＩＤ「００１」に対応する検出結果に基づいて生成されたアバターオブジェクトのデータの出力を待機する。プロセッサ１０は、ユーザＩＤ「１９０Ｎ」およびデータＩＤ「００１」の音声パケットを受信すると、アバターオブジェクトのデータと、音声信号とを同じタイミングで出力する。ステップＳ２６８０およびＳ２６８５の処理は、受信側で時刻情報に基づいて同期処理を行なうものであるが、データＩＤに基づく同期処理は、送信側が行なうものと言える。

上記によれば、変形例に従うＨＭＤシステム１５００は、ＨＭＤシステム１５００Ｎとの通信（チャット）において、ＨＭＤ１５１０にユーザ１９０Ｎに対応するアバターオブジェクト１０１０Ｎが提示されるタイミングと、ユーザ１９０Ｎの音声が出力されるタイミングとの同期をとる。その結果、ＨＭＤ１５１０を装着したユーザ１９０は、チャット相手のユーザ１９０Ｎの動作に基づくアバターオブジェクト１０１０Ｎの動作と、ユーザ１９０Ｎの音声とを同時に認識するので、違和感を覚えることなくチャットを続けることができる。

［動作を表すデータの送信処理］
次に、ユーザの動作を表すデータ（例えば、アイトラッキングデータ、フェイストラッキングデータ、およびハンドトラッキングデータ）の送信方法について説明する。

アイトラッキングデータ、フェイストラッキングデータ、ハンドトラッキングデータはそれぞれ、単位時間あたりに生成される個数が異なる。それは、注視センサ１４０、第１カメラ１１６、第２カメラ１１７、および第３カメラ１１８の各々のデータ取得間隔が異なること、および、上記各種データを生成する処理を実行するために要する時間が異なることなどに起因する。

ある局面において、チャット先のコンピュータ２００Ｎは、コンピュータ２００から受信した上記各種データに基づいて仮想空間２Ｎに配置されるアバターオブジェクト１０１０の表情、視線、手を同じＦＰＳで更新し得る。このような場合に、コンピュータ２００が生成した各種データを全てコンピュータ２００Ｎに送信してしまうと、無駄が生じ得る。

また、生成された各種データを全てチャット先に送信してしまうと、トラフィックが増えることに起因して、サーバ１５０の処理負担増加およびチャット先で表示されるアバターオブジェクトの動作のコマ落ちが生じ得る。アバターオブジェクトの動作のコマ落ちが生じると、チャット先のユーザは、アバターオブジェクトが不自然な動作をしていると認識し、チャットに集中できない。そこで、以下にこのような課題を解決し得る処理について説明する。

一例として、図２７〜図２９を用いてアイトラッキングデータおよびフェイストラッキングデータをチャット先に送信する処理について説明する。

図２７は、リングバッファ１１Ａのデータ構造の一例を表す。図２８は、リングバッファ１１Ｂのデータ構造の一例を表す。

ある局面において、プロセッサ１０は、フェイストラッキングモジュール２２６として、第１カメラ１１６および第２カメラ１１７の出力信号を１２．５ｍｓｅｃ（８０ＦＰＳ（Flame Per Sec））ごとに受け付ける。フェイストラッキングモジュール２２６は、出力信号を受け付ける毎に、受け付けた信号に基づいてフェイストラッキングデータを生成する。一例として、フェイストラッキングモジュール２２６は、８０ＦＰＳでフェイストラッキングデータを生成する。

図２７に示されるように、プロセッサ１０は、生成したフェイストラッキングデータをメモリ１１に含まれるリングバッファ１１Ａに格納する。図２７の例において、リングバッファ１１Ａは、１０個のフェイストラッキングデータを格納可能に構成される。また、フェイストラッキングデータＦの末尾の数字が大きいほど、新しいデータであることを表す。プロセッサ１０は、最も古いフェイストラッキングデータを新たに入力されたフェイストラッキングデータで更新するように構成される。

また、プロセッサ１０は、視線検出モジュール２３３として注視センサ１４０の出力信号を８．３ｍｓｅｃ（１２０ＦＰＳ）毎に受け付ける。視線検出モジュール２３３は、出力信号を受け付ける毎に、受け付けた信号に基づいてアイトラッキングデータを生成する。一例として、視線検出モジュール２３３は、１２０ＦＰＳでアイトラッキングデータを生成する。

図２８に示されるように、プロセッサ１０は、生成したアイトラッキングデータをリングバッファ１１Ｂに格納する。図２８の例において、リングバッファ１１Ｂは、１０個のアイトラッキングデータを格納可能に構成される。また、アイトラッキングデータＥの末尾の数字が大きいほど、新しいデータであることを表す。プロセッサ１０は、最も古いアイトラッキングデータを新たに入力されたアイトラッキングデータで更新するように構成される。

（アニメーションデータの生成処理−入力タイミングに基づく処理）
図２９は、アニメーションデータの生成処理について説明するための図である。アニメーションデータは、ユーザの動作を表すデータ（例えば、アイトラッキングデータ、フェイストラッキングデータ、ハンドトラッキングデータ）を少なくとも２種類以上含むデータである。他の観点から見れば、アニメーションデータは、ユーザの動作を仮想空間に配置されるアバターオブジェクトに反映させるために必要なデータである。図２９の例において、アニメーションデータは、フェイストラッキングデータとアイトラッキングデータとを含む。

ある局面において、プロセッサ１０は、所定時間間隔毎にアニメーションデータを生成する。所定時間間隔は、一例として１６．７ｍｓｅｃ（６０ＦＰＳ）とする。時刻Ｔ２９００において、プロセッサ１０は、アニメーションデータを生成する。より具体的には、プロセッサ１０は、時刻Ｔ２９００において、リングバッファ１１Ａに格納されている複数のフェイストラッキングデータ（図２９のＦ４，Ｆ５）のうち最新のフェイストラッキングデータ（図２９のＦ５）と、リングバッファ１１Ｂに格納されている複数のアイトラッキングデータ（図２９のＥ６〜Ｅ８）のうち最新のアイトラッキングデータ（図２９のＥ８）とを互いに関連付けてアニメーションデータを生成する。

時刻Ｔ２９００から所定時間経過後の時刻Ｔ２９１０において、プロセッサ１０はアニメーションデータを再び生成する。図２９の例において、プロセッサ１０は、時刻Ｔ２９１０に、最新のフェイストラッキングデータ（図２９のＦ７）とアイトラッキングデータ（図２９のＥ１０）とを互いに関連付けてアニメーションデータを生成する。プロセッサ１０は、生成したアニメーションデータをサーバ１５０を介してチャット先（例えば、コンピュータ２００Ｎ）に送信する。

上記によれば、サーバ１５０を介してチャット先に送信される複数のアニメーションデータの各々を構成するアイトラッキングデータおよびフェイストラッキングデータの総数は、視線検出モジュール２３３によって生成されるアイトラッキングデータおよびフェイストラッキングモジュール２２６によって生成されるフェイストラッキングデータの総数よりも少ない。つまり、ある実施形態に従うＨＭＤシステム１５００は、サーバ１５０を介してチャット先に送信するデータ量を抑制することができる。これにより、ネットワーク１９におけるトラフィックが軽減され、チャット先にアニメーションデータが送信されやすくなる。その結果、チャット先で表示されるアバターオブジェクトは、コマ落ちすることなく滑らかに動作し得る。

また、ある局面に従うＨＭＤシステム１５００は、リングバッファ１１Ａおよび１１Ｂを利用して、略同じ時刻に生成されたアイトラッキングデータとフェイストラッキングデータとを互いに関連付けてアニメメーションデータを生成している。これにより、このアイトラッキングデータに対応する動作をユーザ１９０が行なった時刻と、フェイストラッキングデータに対応する動作をユーザ１９０が行なった時刻とは、略同じになる。そのため、チャット先のコンピュータは、受信したアニメーションデータに含まれるアイトラッキングデータとフェイストラッキングデータとを同じタイミングでアバターオブジェクトに反映するだけで、これらのデータ（に対応するアバターオブジェクトの動作）の同期をとることができる。

上記の例において、第１カメラ１１６および第２カメラ１１７がコンピュータ２００に信号を出力する時間間隔（１２．５ｍｓｅｃ）よりも、注視センサ１４０がコンピュータ２００に信号を出力する時間間隔（８．３ｍｓｅｃ）の方が短い。ある局面において、プロセッサ１０は、生成された複数のアニメーションデータに含まれるアイトラッキングデータの総数が、フェイストラッキングモジュール２２６によって生成されるフェイストラッキングデータの総数よりも少なくなるように、アニメーションデータを生成する。

また、上記の例において、プロセッサ１０は、１つのアイトラッキングデータと１つのフェイストラッキングデータとを互いに関連付けてアニメーションデータを生成しているが、アニメーションデータの生成方法はこれに限られない。例えば、プロセッサ１０は、アイトラッキングデータとフェイストラッキングデータとが一対一対応の関係になるように（例えば、これらのデータを２つずつ含む）アニメーションデータを生成し得る。

さらに他の局面において、プロセッサ１０は、アイトラッキングデータとフェイストラッキングデータとが一対一対応以外の関係になるようにアニメーションデータを生成し得る。例えば、チャット先のコンピュータ２００Ｎが仮想空間２Ｎに配置されるアバターオブジェクト１０１０の視線の動作を更新する頻度が、表情の動作を更新する頻度の２倍である場合がある。この場合、プロセッサ１０は、２つのアイトラッキングデータと１つのフェイストラッキングデータとを含むアニメーションデータを生成し得る。

（アニメーションデータの生成処理−時刻情報に基づく処理）
図３０は、他の局面に従うアニメーションデータの生成処理について説明するための図である。図２９の例では、プロセッサ１０は、最新のアイトラッキングデータとフェイストラッキングデータとを互いに関連付けてアニメーションデータを生成するように構成されている。図３０の例では、プロセッサ１０は、アイトラッキングデータに関連付けられた時刻情報と、フェイストラッキングデータに関連付けられた時刻情報とに基づいて、アニメーションデータを生成する。

アイトラッキングデータに関連付けられた時刻情報は、図２５Ｂで説明した時刻情報であり得る。この場合、コンピュータ２００は、内部のＲＴＣ（Real Time Clock）から時刻情報を取得し得る。他の局面において、アイトラッキングデータに関連付けられた時刻情報は、対応するデータが注視センサ１４０によって検出された時刻であり得る。この場合、コンピュータ２００は注視センサ１４０から時刻情報を取得し得る。

フェイストラッキングデータに関連付けられた時刻情報は、図２５Ａで説明した時刻情報であり得る。この場合、コンピュータ２００は、内部のＲＴＣから時刻情報を取得し得る。他の局面において、フェイストラッキングデータに関連付けられた時刻情報は、対応するデータが第１カメラ１１６または第２カメラ１１７によって検出された時刻であり得る。この場合、コンピュータ２００は第１カメラ１１６または第２カメラ１１７から時刻情報を取得し得る。

図３０を参照して、プロセッサ１０は、アニメーションデータの生成タイミングである時刻Ｔ２９００において、リングバッファ１１Ａ、１１Ｂに格納される複数のアイトラッキングデータおよびフェイストラッキングデータのうち、新しいデータであって、かつ、取得された時刻が互いに最も近い２種類のデータを用いてアニメーションデータを生成する。

一例として、プロセッサ１０は、アイトラッキングデータおよびフェイストラッキングデータのうち、ＦＰＳ（単位時間あたりに生成される個数）が低いフェイストラッキングデータについて、最新のデータ（図３０のＦ５）を特定する。

次に、プロセッサ１０は、特定したフェイストラッキングデータＦ５に関連付けられた時刻Ｔ３０２０に最も近い時刻を関連付けられたアイトラッキングデータを特定する。図３０の例において、プロセッサ１０は、時刻Ｔ３０１０が関連付けられたアイトラッキングデータＥ７を特定する。プロセッサ１０は、これら特定したフェイストラッキングデータとアイトラッキングデータとを互いに関連付けてアニメーションデータを生成する。

上記によれば、ある局面に従うＨＭＤシステム１５００は、アニメーションデータに含まれるフェイストラッキングデータとアイトラッキングデータとの同期をより正確に行なうことができる。

（アニメーションパケット）
ある局面において、プロセッサ１０は、生成したアニメーションデータを複数含むアニメーションパケットを所定時間間隔毎に送信するように構成される。一例として、アニメーションパケットは１００ｍｓｅｃ間隔（１０ＦＰＳ）で送信される。なお、アニメーションパケットの送信時間間隔は固定値でなく、可変値であってもよい。

図３１は、アニメーションパケットの生成処理および送信処理について説明するための図である。図３１を参照して、プロセッサ１０は、時刻Ｔ３１００においてアニメーションパケットＡＰ１をサーバ１５０を介してチャット先に送信する。また、プロセッサ１０は、時刻Ｔ３１００から所定時間（例えば１００ｍｓｅｃ）経過した時刻Ｔ３１１０において次のアニメーションパケットＡＰ２を送信する。

アニメーションパケットＡＰ２は、時刻Ｔ３１００〜時刻Ｔ３１１０の期間に生成されたアニメーションデータＡ１〜Ａ６を含む。このとき、アニメーションデータは上記の期間に生成されているが、必ずしもアニメーションデータを構成するアイトラッキングデータおよびフェイストラッキングデータは上記の期間に生成されている訳ではない。図３１に示される例において、アニメーションデータＡ１を構成するフェイストラッキングデータＦ５は、時刻Ｔ３１００よりも前に生成されている。

図３２は、アニメーションパケットのデータ構造の一例を表す。アニメーションパケットは、ＭＡＣ（Media Access Control）ヘッダ、ＩＰ（Internet Protocol）ヘッダ、ＴＣＰ（Transmission Control Protocol）ヘッダなどの各種ヘッダ情報と、ペイロードと、誤り訂正のためのＦＣＳ（Frame Check Sequence）とを含む。

ＭＡＣヘッダは、チャット先のコンピュータ（例えばコンピュータ２００Ｎ）を特定するための情報を含み得る。サーバ１５０は、ＭＡＣヘッダを参照して、チャット先のコンピュータにアニメーションパケットを転送する。

ペイロードは、複数のアニメーションデータと、ＦＰＳ情報と、ユーザＩＤと、データＩＤとを有する。ＦＰＳ情報は、単位時間あたりに生成されるアニメーションデータの数を表す。ＦＰＳ情報は、チャット先のコンピュータにおけるアニメーションデータの反映処理に用いられ得る。図３１の例において、ＦＰＳ情報は６０である。ユーザＩＤは、アニメーションパケットの送信元を識別する。データＩＤは、複数のアニメーションパケットの各々を互いに識別する。ユーザＩＤおよびデータＩＤは、後述するアバターオブジェクトの動作と音声との同期処理に用いられる。

なお、アニメーションパケットの送信時間間隔が固定値である場合、アニメーションパケットはＦＰＳ情報を含まなくともよい。係る場合、プロセッサ１０は、チャット開始時に、チャット先のコンピュータに当該固定値を表す情報を送信し得る。

（映像と音声との同期）
次に、複数種類のユーザの動作を表すデータを含むアニメーションデータを送受信する場合における、映像と音声との同期処理について説明する。

図３３は、アバターオブジェクトの動作と、音声の出力タイミングとの同期処理について説明するための図である。図３４は、音声パケットのデータ構造の一例を表す。

図３３を参照して、プロセッサ１０は、マイク１１９から所定期間にわたり入力される音声信号を含む音声パケットをチャット先に送信するように構成される。ある局面において、この所定期間は、アニメーションパケットの送信時間間隔と同じ期間に設定される。

より具体的には、プロセッサ１０は、アニメーションパケットを構成する複数のアニメーションデータのうち、最も先に生成されたアニメーションデータに関連付けられた時刻情報が表すタイミングから上記所定期間にわたり入力される音声信号を含むように音声パケットを生成する。ある局面において、アニメーションデータに関連付けられた時刻情報は、当該アニメーションデータを構成するアイトラッキングデータおよびフェイストラッキングデータのいずれか一方に関連付けられた時刻情報（例えば、早い時刻を表す時刻情報）であり得る。他の局面において、アニメーションデータに関連付けられた時刻情報は、当該アニメーションデータが生成された時刻を表す。

図３３の例において、アニメーションパケットＡＰ２は複数のアニメーションデータＡ１〜Ａ６によって構成される。複数のアニメーションデータＡ１〜Ａ６のうち、アニメーションデータＡ１が最も先に生成されている。プロセッサ１０は、最も先に生成されたアニメーションデータＡ１に関連付けられた時刻情報が表す時刻Ｔ３３００から上記所定期間にわたり入力される音声信号を含むように音声パケットを生成する。図３３の例において、アニメーションデータＡ１に関連付けられた時刻情報が表す時刻Ｔ３３００は、アニメーションデータＡ１を構成するフェイストラッキングデータＦ５、アイトラッキングデータＥ８それぞれに関連付けられた時刻情報のうち、早い時刻を表すアイトラッキングデータＥ８に関連付けられた時刻情報である。

図３４に示されるように、ある局面に従う音声パケットは、ユーザＩＤと、データＩＤとを含む。ユーザＩＤは、音声パケットの送信元を識別する。データＩＤは、複数の音声パケットの各々を互いに識別する。プロセッサ１０は、音声パケットに含まれるデータＩＤと、当該音声パケットに対応するアニメーションパケットに含まれるデータＩＤとを同じ値に設定する。より具体的には、プロセッサ１０は、アニメーションパケットのデータＩＤと、当該アニメーションパケットに含まれるアニメーションデータに関連付けられた時刻情報を基準として取得される音声信号を含む音声パケットのデータＩＤとを同じ値に設定する。図３３に示される例において、プロセッサ１０は、アニメーションパケットＡＰ２と、時刻Ｔ３３００〜時刻Ｔ３３１０までの期間にわたり取得された音声信号を含む音声パケットとに、同じデータＩＤを付与する。

プロセッサ１０は、これらアニメーションパケットと音声パケットとをサーバ１５０を介してチャット先のコンピュータ２００Ｎに送信する。コンピュータ２００Ｎは、受信したアニメーションパケットに含まれる複数のアニメーションデータ（を構成するアイトラッキングデータおよびフェイストラッキングデータ）を仮想空間２Ｎに配置されるアバターオブジェクト１０１０に順次反映する。

このとき、コンピュータ２００Ｎは、アニメーションパケットに含まれるＦＰＳ情報に基づいて、アニメーションパケットに含まれる複数のアニメーションデータをアバターオブジェクト１０１０に反映するタイミングを制御する。例えば、ＦＰＳ情報が「６０」（ＦＰＳ）であって、ＨＭＤ１５１０Ｎのモニタ１１２Ｎのリフレッシュレート（画像が単位時間あたりに更新される回数）が「１２０」であるとする。係る場合、コンピュータ２００Ｎは、２フレームに１回の割合で、アニメーションデータをアバターオブジェクト１０１０に反映する。その理由は、仮に１フレーム毎に反映した場合、アバターオブジェクト１０１０の動作が倍速で表示され、ユーザ１９０Ｎが違和感を覚えるためである。

なお、他の局面においてアニメーションパケットは、ＦＰＳ情報に代えて、アニメーションパケットの送信時間間隔を表す情報を含むように構成されても良い。その理由は、アニメーションパケットに含まれるアニメーションデータの数と、送信時間間隔とから、ＦＰＳ情報を導出できるためである。

また、コンピュータ２００Ｎは、受信したアニメーションパケットに含まれるアニメーションデータをアバターオブジェクト１０１０に反映するタイミングで、当該アニメーションパケットと同一のユーザＩＤおよびデータＩＤが付された音声パケットに含まれる音声信号をスピーカ１１９Ｎから出力する。これにより、仮想空間２Ｎにおけるアバターオブジェクト１０１０の動作と、当該動作に同期したユーザ１９０の音声とがユーザ１９０Ｎに提示される。その結果、ユーザ１９０Ｎは、仮想空間２Ｎ上でスムーズにユーザ１９０とのチャットを行なうことができる。

なお、上記の例において、音声パケットは、アニメーションパケットの送信時間間隔にわたり取得された音声信号を含むように構成されている。他の例において、音声パケットは、この送信時間間隔の整数倍の期間にわたり取得された音声信号を含むように構成されてもよい。当該構成によっても、仮想空間２Ｎにおけるアバターオブジェクト１０１０の動作と、当該動作に同期した音声とがユーザ１９０Ｎに提示されるためである。なお、係る場合、データＩＤが付されない（データＩＤがｎｕｌｌである）アニメーションパケットが定期的に生成され得る。

（制御構造）
図３５は、アニメーションパケットと音声パケットとを用いた映像と音声との同期処理の一例を表すフローチャートである。なお、図３５に示される処理のうち、図１２の処理と同じ処理には図１２に示される符号と同じ符号を付している。そのため、これらの処理については繰り返し説明しない。

ステップＳ３５１０にて、コンピュータ２００のプロセッサ１０は、フェイストラッキングモジュール２２６として、第１カメラ１１６および第２カメラ１１７の出力信号を所定間隔（例えば１２．５ｍｓｅｃ）で受け付けて、受け付けた信号に基づいてフェイストラッキングデータを生成する。プロセッサ１０は、生成したフェイストラッキングデータをリングバッファ１１Ａに随時記憶する。

ステップＳ３５２０にて、プロセッサ１０は、視線検出モジュール２３３として、注視センサ１４０の出力信号を所定間隔（例えば８．３ｍｓｅｃ）で受け付けて、受け付けた信号に基づいてアイトラッキングデータを生成する。プロセッサ１０は、生成したアイトラッキングデータをリングバッファ１１Ｂに随時記憶する。

ステップＳ３５３０にて、プロセッサ１０は、所定間隔（例えば６０ＦＰＳ）で生成されるアニメーションデータの生成タイミングで、リングバッファ１１Ａに格納される最新のフェイストラッキングデータと、リングバッファ１１Ｂに格納される最新のアイトラッキングデータとを互いに関連付けてアニメーションデータを生成する。

ステップＳ３５４０にて、プロセッサ１０は、アニメーションパケットの送信時間間隔が経過したか否かを判断する。プロセッサ１０は、送信時間間隔が経過したと判断した場合（ステップＳ３５４０にてＹＥＳ）、処理をステップＳ３５５０に進める。一方、プロセッサ１０は、送信時間間隔が経過していないと判断した場合（ステップＳ３５４０にてＮＯ）、処理をステップＳ３５１０に戻し、再びアニメーションデータを生成するための処理を実行する。

ステップＳ３５５０にて、プロセッサ１０は、送信時間間隔内に生成した複数のアニメーションデータを含むアニメーションパケットを生成して、サーバ１５０を介してチャット先のコンピュータ２００Ｎに送信する。

ステップＳ３５５５にて、コンピュータ２００Ｎのプロセッサ１０Ｎは、サーバ１５０を介してコンピュータ２００からアニメーションパケットを受信する。

ステップＳ３５６０にて、プロセッサ１０は、ステップＳ３５５０で送信したアニメーションパケットを構成する複数アニメーションデータのうち、最も先に生成されたアニメーションデータに関連付けられた時刻情報が表すタイミングから、上記送信時間間隔にわたり取得された音声信号を含む音声パケットを生成する。プロセッサ１０は、生成した音声パケットをコンピュータ２００Ｎに送信する。その後、プロセッサ１０は処理をステップＳ３５１０に戻す。

ステップＳ３５６５にて、プロセッサ１０Ｎは、コンピュータ２００から音声パケットを受信する。

ステップＳ３５７５にて、プロセッサ１０Ｎは、受信したアニメーションパケットに含まれるアニメーションデータを仮想空間２Ｎに配置されるアバターオブジェクト１０１０に反映するタイミングで、当該アニメーションパケットと同一のユーザＩＤおよびデータＩＤが付された音声パケットに含まれる音声信号をスピーカ１１９Ｎから出力する。その後、プロセッサ１０Ｎは、処理をステップＳ３５５５に戻す。

上記によれば、ＨＭＤシステム１５００Ｎは、仮想空間２Ｎに配置されるアバターオブジェクト１０１０の動作と、スピーカ１１９Ｎから出力されるユーザ１９０の音声とを同期できる。そのため、ユーザ１９０Ｎは、仮想空間２Ｎ上でスムーズにユーザ１９０とチャットすることができる。

またコンピュータ２００は、生成された全てのアイトラッキングデータおよびフェイストラッキングデータをチャット先のコンピュータ２００Ｎに送信しない。そのため、ＨＭＤシステム１５００は、ネットワークにおけるトラフィック、サーバ１５０の処理負担、およびチャット先のコンピュータ２００Ｎの処理負担を軽減できる。

（チャット先のリフレッシュレートを考慮した制御構造）
図３６は、チャット先のリフレッシュレートを考慮した映像と音声との同期処理の一例を表すフローチャートである。なお、図３６に示される処理のうち、図３５の処理と同じ処理には図３５に示される符号と同じ符号を付している。そのため、これらの処理については繰り返し説明しない。

ステップＳ３６１５にて、コンピュータ２００Ｎのプロセッサ１０Ｎは、モニタ１１２Ｎのリフレッシュレートをチャット先のコンピュータ２００に送信する。このリフレッシュレートは、モニタ１１２Ｎにおいて仮想空間２Ｎに対応する画像が単位時間に更新される回数を表す。

ステップＳ３６２０にて、コンピュータ２００のプロセッサ１０は、コンピュータ２００Ｎからモニタ１１２Ｎのリフレッシュレートを表す情報を受信する。

ステップＳ３６３０にて、プロセッサ１０は、アニメーションデータの生成時間間隔を設定する。より具体的には、プロセッサ１０は、アニメーションデータの生成時間間隔がモニタ１１２Ｎのリフレッシュレート以下になるようにする。その理由は、例えば、アニメーションデータが６０ＦＰＳで生成され、モニタ１１２Ｎのリフレッシュレートが３０ＦＰＳである場合に、生成されたアニメーションデータを全てコンピュータ２００Ｎに送信してしまうと、半分のアニメーションデータがアバターオブジェクト１０１０に反映されることなく無駄になってしまうためである。

上記によれば、ＨＭＤシステム１５００は、ネットワークにおけるトラフィック、サーバ１５０の処理負担、およびチャット先のコンピュータ２００Ｎの処理負担をより一層軽減し得る。

以上、ある実施形態の局面として開示された上記の技術的特徴は、例えば、以下のように要約され得る。

（構成１）ある実施形態に従うと、仮想空間２を介して通信するためにコンピュータ２００で実行される方法が提供される。この方法は、第１センサ（例えば、第１カメラ１１６および第２カメラ１１７、並びに第３カメラ）の出力信号を第１時間間隔で受け付けて、受け付けた信号に基づいて第１データ（例えば、フェイストラッキングデータ、ハンドトラッキングデータ）を生成するステップ（Ｓ３５１０）と、第１センサとは異なる第２センサ（例えば、注視センサ１４０）の出力信号を第１時間間隔よりも短い第２時間間隔で受け付けて、受け付けた信号に基づいて第２データ（例えば、アイトラッキングデータ）を生成するステップ（Ｓ３５２０）と、生成された第１データと、生成された第２データとを含む複数のアニメーションデータを生成するステップ（Ｓ３５３０）と、生成された複数のアニメーションデータをコンピュータ２００と通信可能な他のコンピュータ２００Ｎに送信するステップ（Ｓ３５５０）とを備える。複数のアニメーションデータに含まれる第２データの総数は、生成された複数の第２データの総数よりも少ない。

（構成２）ある実施形態に従うと、複数のアニメーションデータを生成するステップ（Ｓ３５３０）は、第１データと第２データとが一対一対応になるようにアニメーションデータを生成することを含む。

（構成３）ある実施形態に従うと、上記の方法は、生成された複数の第１データごとに第１時刻情報を取得するステップと、生成された複数の第２データごとに第２時刻情報を取得するステップとをさらに備える。複数のアニメーションデータを生成するステップ（Ｓ３５３０）は、第１および第２時刻情報に基づいて、生成された第１データと、生成された第２データとを、互いに関連付けてアニメーションデータを生成することを含む（図３０）。

（構成４）ある実施形態に従うと、上記の方法は、生成された第１および第２データをメモリ１１に記憶するステップ（Ｓ３５１０，３５２０）をさらに備える。複数のアニメーションデータを生成するステップ（Ｓ３５３０）は、メモリ１１に記憶された第１および第２データのうち、最も新しい第１データと第２データとを互いに関連付けてアニメーションデータを生成することを含む。

（構成５）ある実施形態に従うと、上記の方法は、他のコンピュータ２００Ｎに接続されたヘッドマウントデバイス１５１０Ｎのモニタ１１２Ｎのリフレッシュレート（仮想空間に対応する画像が単位時間あたりに更新される回数）を表す情報を受信するステップ（Ｓ３６２０）をさらに備える。複数のアニメーションデータを生成するステップ（Ｓ３５３０）は、単位時間あたりに生成されるアニメーションデータの個数が、更新される回数以下になるようにアニメーションデータを生成することを含む。

（構成６）ある実施形態に従うと、アニメーションデータを送信するステップ（Ｓ３５３０）は、アニメーションデータを複数個含むアニメーションパケットを所定時間間隔ごとに他のコンピュータ２００Ｎに送信することを含む。

（構成７）ある実施形態に従うと、アニメーションパケットは、単位時間あたりに生成されるアニメーションデータの数の情報または所定時間間隔を表す情報を含む。

（構成８）ある実施形態に従うと、上記の方法は、ユーザ１９０の発話に基づく音声信号を取得するステップと、所定時間間隔の整数倍の期間にわたり取得された音声信号を含む音声パケットを他のコンピュータ２００Ｎに送信するステップ（Ｓ３５６０）とをさらに備える。

（構成９）ある実施形態に従うと、音声パケットは、アニメーションパケットを構成する複数のアニメーションデータのうち最も先に生成されたアニメーションデータに関連付けられた時刻情報が表すタイミングから期間にわたり取得された音声信号を含む。

（構成１０）ある実施形態に従うと、アニメーションパケットは、複数のアニメーションパケットの各々を識別するための識別情報を含む。音声パケットは、当該音声パケットに対応するアニメーションパケットに含まれる識別情報を含む。

（構成１１）ある実施形態に従うと、上記の方法は、コンピュータ２００に接続されたヘッドマウントデバイス１５１０のディスプレイ１１２に視界画像を表示してヘッドマウントデバイス１５１０のユーザ１９０に仮想空間２を提供するステップと、コンピュータ２００に接続されたヘッドマウントデバイス１５１０の動きを検出するステップと、検出された動きに連動して視界画像を更新するステップとを備える。

（構成１２）ある実施形態に従うと、上記のいずれかに記載の方法をコンピュータ２００に実行させるプログラムが提供される。

（構成１３）ある実施形態に従うと、上記のプログラムを格納するためのメモリと、メモリに結合され、プログラムを実行するためのプロセッサとを備える、情報処理装置が提供される。

今回開示された実施形態は全ての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内での全ての変更が含まれることが意図される。

１仮想カメラ、２仮想空間、５基準視線、１０プロセッサ、１１メモリ、１１Ａ，１１Ｂリングバッファ、１２ストレージ、１３入出力インターフェイス、１４通信インターフェイス、１５バス、１９ネットワーク、２１中心、２２，２２Ｎ，２２Ｘ仮想空間画像、２３視界領域、２４，２５領域、２６視界画像、３０グリップ、３１フレーム、３２天面、３３，３４，３６，３７ボタン、３８アナログスティック、１００，１００Ｎ，１００Ｘシステム、１１２，１１２Ｎ，１１２Ｘモニタ、１１４，１２０センサ、１１５スピーカ、１１６第１カメラ、１１７第２カメラ、１１８第３カメラ、１１９マイク、１３０モーションセンサ、１４０注視センサ、１５０サーバ、１６０コントローラ、１９０，１９０Ｎ，１９０Ｘユーザ、２００，２００Ｎ，２００Ｘコンピュータ、２２０表示制御モジュール、２２１仮想カメラ制御モジュール、２２２視界領域決定モジュール、２２３視界画像生成モジュール、２２４基準視線特定モジュール、２２５音声制御モジュール、２２５Ａ顔器官検出モジュール、２２６フェイストラッキングモジュール、２２７ハンドトラッキングモジュール、２３０仮想空間制御モジュール、２３１仮想空間定義モジュール、２３２仮想オブジェクト生成モジュール、２３３視線検出モジュール、２３４同期モジュール、２３５チャット制御モジュール、２４０メモリモジュール、２４１空間情報、２４２オブジェクト情報、２４３ユーザ情報、２４４顔情報、２４５口テンプレート、２４６目テンプレート、２４７頬テンプレート、２４８鼻テンプレート、２５０通信制御モジュール、８００右コントローラ、８１０右手、１０１０，１０１０Ｎ，１０１０Ｘ，１４１０アバターオブジェクト、１１１０，１１２０グラフ、１３１０，１３３０アイトラッキングデータ、１３２０，１３４０音声データ、１８００顔画像、１８１０口領域、１９００輪郭検出線、１９１０，１９２０輪郭点、２０００口形状。

Claims

仮想空間を介して通信するためにコンピュータで実行される方法であって、
第１センサの出力信号を第１時間間隔で受け付けて、前記受け付けた信号に基づいて第１データを生成するステップと、
第２センサの出力信号を前記第１時間間隔よりも短い第２時間間隔で受け付けて、前記受け付けた信号に基づいて第２データを生成するステップと、
前記生成された第１データと、前記生成された第２データとを含む複数のアニメーションデータを生成するステップと、
前記生成された複数のアニメーションデータを前記コンピュータと通信可能な他のコンピュータに送信するステップとを備え、
前記複数のアニメーションデータに含まれる前記第２データの総数は、前記生成された複数の第２データの総数よりも少ない、方法。
前記複数のアニメーションデータを生成するステップは、前記第１データと前記第２データとが一対一対応になるようにアニメーションデータを生成することを含む、請求項１に記載の方法。
前記生成された複数の第１データごとに第１時刻情報を取得するステップと、
前記生成された複数の第２データごとに第２時刻情報を取得するステップとをさらに備え、
前記複数のアニメーションデータを生成するステップは、前記第１および第２時刻情報に基づいて、前記生成された第１データと、前記生成された第２データとを、互いに関連付けてアニメーションデータを生成することを含む、請求項１または２に記載の方法。
前記生成された第１および第２データをメモリに記憶するステップをさらに備え、
前記複数のアニメーションデータを生成するステップは、前記メモリに記憶された前記第１および第２データのうち、最も新しい前記第１データと前記第２データとを互いに関連付けてアニメーションデータを生成することを含む、請求項１または２に記載の方法。
前記他のコンピュータに接続されたヘッドマウントデバイスのディスプレイにおいて前記仮想空間に対応する画像が単位時間あたりに更新される回数を表す情報を受信するステップをさらに備え、
前記複数のアニメーションデータを生成するステップは、単位時間あたりに生成されるアニメーションデータの個数が、前記更新される回数以下になるようにアニメーションデータを生成することを含む、請求項１〜４のいずれか１項に記載の方法。
前記アニメーションデータを送信するステップは、前記アニメーションデータを複数個含むアニメーションパケットを所定時間間隔ごとに前記他のコンピュータに送信することを含む、請求項１〜５のいずれか１項に記載の方法。
前記アニメーションパケットは、単位時間あたりに生成されるアニメーションデータの数の情報または前記所定時間間隔を表す情報を含む、請求項６に記載の方法。
前記ユーザの発話に基づく音声信号を取得するステップと、
前記所定時間間隔の整数倍の期間にわたり取得された前記音声信号を含む音声パケットを前記他のコンピュータに送信するステップとをさらに備える、請求項６または７に記載の方法。
前記音声パケットは、前記アニメーションパケットを構成する複数のアニメーションデータのうち最も先に生成されたアニメーションデータに関連付けられた時刻情報が表すタイミングから前記期間にわたり取得された前記音声信号を含む、請求項８に記載の方法。
前記アニメーションパケットは、複数のアニメーションパケットの各々を識別するための識別情報を含み、
前記音声パケットは、当該音声パケットに対応する前記アニメーションパケットに含まれる識別情報を含む、請求項８または９に記載の方法。
前記コンピュータに接続されたヘッドマウントデバイスのディスプレイに視界画像を表示して前記ヘッドマウントデバイスのユーザに仮想空間を提供するステップと、
前記コンピュータに接続されたヘッドマウントデバイスの動きを検出するステップと、
前記検出された動きに連動して前記視界画像を更新するステップとを備える、請求項１〜９のいずれか１項に記載の方法。
請求項１〜１１のいずれか１項に記載の方法をコンピュータに実現させるためのプログラム。
請求項１２に記載のプログラムを格納したメモリと、
前記プログラムを実行するためのプロセッサとを備える、情報処理装置。