JP2018185786A - 仮想空間を介して通信するためにコンピュータで実行される方法、当該方法をコンピュータに実行させるプログラム、および、情報処理装置 - Google Patents

仮想空間を介して通信するためにコンピュータで実行される方法、当該方法をコンピュータに実行させるプログラム、および、情報処理装置 Download PDF

Info

Publication number
JP2018185786A
JP2018185786A JP2017199932A JP2017199932A JP2018185786A JP 2018185786 A JP2018185786 A JP 2018185786A JP 2017199932 A JP2017199932 A JP 2017199932A JP 2017199932 A JP2017199932 A JP 2017199932A JP 2018185786 A JP2018185786 A JP 2018185786A
Authority
JP
Japan
Prior art keywords
data
user
computer
hmd
animation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2017199932A
Other languages
English (en)
Inventor
孝司 中坊
Takashi Nakabo
孝司 中坊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Colopl Inc
Original Assignee
Colopl Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Colopl Inc filed Critical Colopl Inc
Priority to JP2017199932A priority Critical patent/JP2018185786A/ja
Publication of JP2018185786A publication Critical patent/JP2018185786A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

【課題】仮想空間上でアバターを通じてコミュニケーションを行なうときに、ネットワークにおけるトラフィックを軽減する技術を提供する。【解決手段】仮想空間を介して通信するためにコンピュータで実行される方法は、第1センサの出力信号を第1時間間隔で受け付けて、受け付けた信号に基づいて第1データを生成するステップ(S3510)と、第2センサの出力信号を第1時間間隔よりも短い第2時間間隔で受け付けて、受け付けた信号に基づいて第2データを生成するステップ(S3520)と、生成された第1データと、生成された第2データとを含む複数のアニメーションデータを生成するステップ(S3530)と、生成された複数のアニメーションデータをコンピュータと通信可能な他のコンピュータに送信するステップ(S3550)とを備える。複数のアニメーションデータに含まれる第2データの総数は、生成された複数の第2データの総数よりも少ない。【選択図】図35

Description

本開示は通信の制御に関し、より特定的には、仮想現実空間を介した通信の制御に関する。
仮想現実空間(以下、仮想空間とも言う。)を介して通信を行なう技術が知られている。例えば、特開2016−187432号公報(特許文献1)は、「ユーザ同士が同じ仮想空間相で行動するゲームにおいて、参加するユーザの操作能力を同程度にし易くすることができるゲームプログラムおよびゲームシステム」を開示している。また、特許第6027585号公報(特許文献2)は、「コンピュータに対して過度の負荷をかけることなく、複数のディスプレイからなるディスプレイに高解像度の映像を表示することを可能とする技術」を開示している。
特開2016−187432号公報 特許第6027585号公報
仮想空間上に、複数のユーザの各々のアバターを配置し、これらアバターを通じてユーザ間でのコミュニケーションを図る技術が提案されている。また、現実空間のユーザの動作をアバターオブジェクトに反映する技術も提案されている。
このような場合、各ユーザの端末は、センサによりユーザの動作を検出して検出結果を送受信する。しかしながら、当該検出結果を全て送受信すると、ネットワークのトラフィックが増えることに起因して、受信先で表示されるアバターオブジェクトの動作がコマ落ちし得る。係る場合、ユーザがアバターオブジェクトの動作に対して違和感を覚え、他のユーザとのコミュニケーションを円滑に行なうことが出来ない可能性がある。したがって、アバターオブジェクトの動作に対して違和感を覚えさせることなくコミュニケーションを実現するための技術が必要とされている。
本開示は、上述のような問題点を解決するためになされたものであって、ある局面における目的は、仮想空間上でアバターを介した円滑なコミュニケーションを実現する技術を提供することである。
ある実施形態に従うと、仮想空間を介して通信するためにコンピュータで実行される方法が提供される。この方法は、第1センサの出力信号を第1時間間隔で受け付けて、受け付けた信号に基づいて第1データを生成するステップと、第2センサの出力信号を第1時間間隔よりも短い第2時間間隔で受け付けて、受け付けた信号に基づいて第2データを生成するステップと、生成された第1データと、生成された第2データとを含む複数のアニメーションデータを生成するステップと、生成された複数のアニメーションデータをコンピュータと通信可能な他のコンピュータに送信するステップとを備える。複数のアニメーションデータに含まれる第2データの総数は、生成された複数の第2データの総数よりも少ない。
この発明の上記および他の目的、特徴、局面および利点は、添付の図面と関連して理解されるこの発明に関する次の詳細な説明から明らかとなるであろう。
ある実施形態に従うHMDシステム100の構成の概略を表す図である。 一局面に従うコンピュータ200のハードウェア構成の一例を表すブロック図である。 ある実施形態に従うHMD110に設定されるuvw視野座標系を概念的に表す図である。 ある実施形態に従う仮想空間2を表現する一態様を概念的に表す図である。 ある実施形態に従うHMD110を装着するユーザ190の頭部を上から表した図である。 仮想空間2において視界領域23をX方向から見たYZ断面を表す図である。 仮想空間2において視界領域23をY方向から見たXZ断面を表す図である。 ある実施形態に従うコントローラ160の概略構成を表す図である。 ある実施形態に従うコンピュータ200をモジュール構成として表すブロック図である。 コンピュータ200,200N,200Xのそれぞれによって提示される仮想空間2を表現する一態様を概念的に表す図である。 音声データとアイトラッキングデータの同期の一態様を説明するタイミングチャートである。 第1のHMD(例えばHMD110)と、第2のHMD(例えばHMD110N)とが実行する処理の一部を表わすフローチャートである。 ユーザ190が使用するHMD110によって取得されたアイトラッキングデータを表わす図である。 ユーザ190による発話に基づく音声データを表わす図である。 ユーザ190Nが使用するHMD110Nによって取得されたアイトラッキングデータを表わす図である。 ユーザ190による発話に基づく音声データを表わす図である。 HMD110のモニタ112に表示されるチャット画面の推移を表わす図である。 変形例に従うHMDシステム1500の構成の概略を表す図である。 変形例に従うコンピュータ200のハードウェア構成の一例を表すブロック図である。 変形例に従うコンピュータ200のモジュール構成を表すブロック図である。 第1カメラ116が撮影するユーザの顔画像1800を示す図である。 フェイストラッキングモジュール226が口の形状を検出する処理(その1)を示す図である。 フェイストラッキングモジュール226が口の形状を検出する処理(その2)を示す図である。 現実空間におけるユーザ190の表情と、仮想空間におけるユーザ190のアバターオブジェクト1110の表情との対比を表す図である。 ユーザ190の手をトラッキングする処理について説明するための図である。 ハンドトラッキングモジュール227の処理を説明するための図である。 ハンドトラッキングデータのデータ構造の一例を表す図である。 ある実施形態に従うフェイスデータのデータ構造の一例を表す図である。 ある実施形態に従うアイデータのデータ構造の一例を表す図である。 ある実施形態に従う音声パケットのデータ構造の一例を表す図である。 コンピュータ200とコンピュータ200Nとがチャットアプリケーションによって通信するための処理を表すフローチャートである。 リングバッファ11Aのデータ構造の一例を表す図である。 リングバッファ11Bのデータ構造の一例を表す図である。 アニメーションデータの生成処理について説明するための図である。 他の局面に従うアニメーションデータの生成処理について説明するための図である。 アニメーションパケットの生成処理および送信処理について説明するための図である。 アニメーションパケットのデータ構造の一例を表す図である。 アバターオブジェクトの動作と、音声の出力タイミングとの同期処理について説明するための図である。 音声パケットのデータ構造の一例を表す図である。 アニメーションパケットと音声パケットとを用いた映像と音声との同期処理の一例を表すフローチャートである。 チャット先のリフレッシュレートを考慮した映像と音声との同期処理の一例を表すフローチャートである。
以下、図面を参照しつつ、本発明の実施形態について説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称および機能も同じである。したがって、それらについての詳細な説明は繰り返さない。
[HMDシステムの構成]
図1を参照して、HMDシステム100の構成について説明する。図1は、ある実施形態に従うHMDシステム100の構成の概略を表す図である。ある局面において、HMDシステム100は、家庭用のシステムとしてあるいは業務用のシステムとして提供される。
HMDシステム100は、ネットワーク19を介して、遠隔地にある他のHMDシステム100N,100Xと通信することができる。HMDシステム100Nは、ユーザ190Nによって使用され得る。HMD100Xは、ユーザ190Xによって使用され得る。HMDシステム100N,100Xの構成は、HMDシステム100の構成と同様である。HMDシステム100の構成要素と同様の構成要素には、符号N,Xが付されている。したがって、以下、適宜、HMDシステム100の構成を参照して、各HMDシステムを説明する。
HMDシステム100は、HMD110と、HMDセンサ120と、コントローラ160と、コンピュータ200とを備える。HMD110は、モニタ112と、スピーカ115と、マイク119と、注視センサ140とを含む。コントローラ160は、モーションセンサ130を含み得る。
ある局面において、コンピュータ200は、インターネットその他のネットワーク19に接続可能であり、ネットワーク19に接続されているサーバ150、コンピュータ200N,200Xその他のコンピュータと通信可能である。他の局面において、HMD110は、HMDセンサ120の代わりに、センサ114を含み得る。
HMD110は、ユーザ190の頭部に装着され、動作中に仮想空間をユーザ190に提供し得る。より具体的には、HMD110は、右目用の画像および左目用の画像をモニタ112にそれぞれ表示する。ユーザ190の各目がそれぞれの画像を視認すると、ユーザ190は、両目の視差に基づき当該画像を3次元の画像として認識し得る。
モニタ112は、例えば、非透過型の表示装置として実現される。ある局面において、モニタ112は、ユーザ190の両目の前方に位置するようにHMD110の本体に配置されている。したがって、ユーザ190は、モニタ112に表示される3次元画像を視認すると、仮想空間に没入することができる。ある実施形態において、仮想空間は、例えば、背景、ユーザ190が操作可能なオブジェクト、ユーザ190が選択可能なメニューの画像を含む。
ある局面において、コンピュータ200,200N,200Xは、各々のユーザ190,190N,190Xの動作に基づく信号を他のコンピュータとの間で通信する。例えば、コンピュータ200は、仮想空間を提供するための映像信号を生成し、HMD110に映像信号を送信する。HMD110は、その映像信号をモニタ112に送信すると、モニタ112は、その受信した映像信号に基づく仮想空間画像を表示する。他のコンピュータとそのコンピュータに接続されているHMDも、コンピュータ200とHMD110の場合と同様である。
ある実施形態において、コンピュータ200,200N,200Xが、仮想空間を介して通信するためのVR(Virtual Reality)チャットアプリケーションを実行している時、コンピュータ200,200N,200Xは、各HMD110,110N,110Xによって提示される仮想空間を介した通信を実現する。仮想空間を介した通信では、映像と音声とが通信される。この時、各ユーザに対応するアバターオブジェクトが、仮想空間に提示される。例えば、ユーザ190が他のユーザ190N,190Xと通信している時、ユーザ190が装着したHMD110は、ユーザ190N,190Xに対応するアバターオブジェクトを提示する。ユーザ190は、仮想空間に没入した状態で、アバターオブジェクトを介して他のユーザ190N,190Xと通信することができる。
ある実施形態において、モニタ112は、所謂スマートフォンその他の情報表示端末が備える液晶モニタまたは有機EL(Electro Luminescence)モニタとして実現され得る。
ある局面において、モニタ112は、右目用の画像を表示するためのサブモニタと、左目用の画像を表示するためのサブモニタとを含み得る。他の局面において、モニタ112は、右目用の画像と左目用の画像とを一体として表示する構成であってもよい。この場合、モニタ112は、高速シャッタを含む。高速シャッタは、画像がいずれか一方の目にのみ認識されるように、右目用の画像と左目用の画像とを交互に表示可能に作動する。
注視センサ140は、ユーザ190の右目および左目の視線が向けられる方向(視線方向)を検出する。当該方向の検出は、例えば、公知のアイトラッキング機能によって実現される。注視センサ140は、当該アイトラッキング機能を有するセンサにより実現される。ある局面において、注視センサ140は、右目用のセンサおよび左目用のセンサを含むことが好ましい。注視センサ140は、例えば、ユーザ190の右目および左目に赤外光を照射するとともに、照射光に対する角膜および虹彩からの反射光を受けることにより各眼球の回転角を検出するセンサであってもよい。注視センサ140は、検出した各回転角に基づいて、ユーザ190の視線方向を検知することができる。
スピーカ115は、コンピュータ200から受信した音声データに対応する音声(発話)を外部に出力する。マイク119は、ユーザ190の発話に対応する音声信号をコンピュータ200に出力する。ユーザ190は、マイク119を用いて他のユーザ190N,190Xに向けて発話でき、スピーカ115を用いて他のユーザ190N,190Xの発話を聞くことができる。
HMDセンサ120は、複数の光源(図示しない)を含む。各光源は、例えば、赤外線を発するLED(Light Emitting Diode)により実現される。HMDセンサ120は、HMD110の動きを検出するためのポジショントラッキング機能を有する。HMDセンサ120は、この機能を用いて、現実空間内におけるHMD110の位置および傾きを検出する。
なお、他の局面において、HMDセンサ120は、カメラにより実現されてもよい。この場合、HMDセンサ120は、カメラから出力されるHMD110の画像情報を用いて、画像解析処理を実行することにより、HMD110の位置および傾きを検出することができる。
他の局面において、HMD110は、位置検出器として、HMDセンサ120の代わりに、センサ114を備えてもよい。HMD110は、センサ114を用いて、HMD110自身の位置および傾きを検出し得る。例えば、センサ114が、角速度センサ、地磁気センサ、加速度センサ、あるいはジャイロセンサなどである場合、HMD110は、HMDセンサ120の代わりに、これらの各センサのいずれかを用いて、自身の位置および傾きを検出し得る。一例として、センサ114が角速度センサである場合、角速度センサは、現実空間におけるHMD110の3軸周りの角速度を経時的に検出する。HMD110は、各角速度に基づいて、HMD110の3軸周りの角度の時間的変化を算出し、さらに、角度の時間的変化に基づいて、HMD110の傾きを算出する。
また、HMD110は、透過型表示装置を備えていても良い。この場合、当該透過型表示装置は、その透過率を調整することにより、一時的に非透過型の表示装置として構成可能であってもよい。また、視野画像は仮想空間を構成する画像の一部に、現実空間を提示する構成を含んでいてもよい。例えば、HMD110に搭載されたカメラで撮影した画像を視野画像の一部に重畳して表示させてもよいし、当該透過型表示装置の一部の透過率を高く設定することにより、視野画像の一部から現実空間を視認可能にしてもよい。
サーバ150は、コンピュータ200にプログラムを送信し得る。他の局面において、サーバ150は、他のユーザによって使用されるHMD110に仮想現実を提供するための他のコンピュータ200と通信し得る。例えば、アミューズメント施設において、複数のユーザが参加型のゲームを行なう場合、各コンピュータ200は、各ユーザの動作に基づく信号を他のコンピュータ200と通信して、同じ仮想空間において複数のユーザが対話(チャット)を楽しむことを可能にする。
コントローラ160は、ユーザ190からコンピュータ200への命令の入力を受け付ける。ある局面において、コントローラ160は、ユーザ190によって把持可能に構成される。他の局面において、コントローラ160は、ユーザ190の身体あるいは衣類の一部に装着可能に構成される。他の局面において、コントローラ160は、コンピュータ200から送られる信号に基づいて、振動、音、光のうちの少なくともいずれかを出力するように構成されてもよい。他の局面において、コントローラ160は、仮想現実を提供する空間に配置されるオブジェクトの位置や動きを制御するためにユーザ190によって与えられる操作を受け付ける。
モーションセンサ130は、ある局面において、ユーザ190の手に取り付けられて、ユーザ190の手の動きを検出する。例えば、モーションセンサ130は、手の回転速度、回転数などを検出する。モーションセンサ130によって得られたユーザ190の手の動きの検出結果を示すデータは、コンピュータ200に送られる。モーションセンサ130は、例えば、手袋型のコントローラ160に設けられている。ある実施形態において、現実空間における安全のため、コントローラ160は、手袋型のようにユーザ190の手に装着されることにより容易に飛んで行かないものに装着されるのが望ましい。他の局面において、ユーザ190に装着されないセンサがユーザ190の手の動きを検出してもよい。例えば、ユーザ190を撮影するカメラの信号が、ユーザ190の動作を表す信号として、コンピュータ200に入力されてもよい。モーションセンサ130とコンピュータ200とは、有線により、または無線により互いに接続される。無線の場合、通信形態は特に限られず、例えば、Bluetooth(登録商標)その他の公知の通信手法が用いられる。
他の局面において、HMDシステム100は、テレビジョン放送受信チューナを備えてもよい。このような構成によれば、HMDシステム100は、仮想空間2においてテレビ番組を表示することができる。
さらに他の局面において、HMDシステム100は、インターネットに接続するための通信回路、あるいは、電話回線に接続するための通話機能を備えていてもよい。
より詳細には、ある局面において、ユーザ190は、コントローラを用いてあるいは通信を希望するアバターオブジェクトを視線で選択することにより、通信相手(以下「チャット相手」とも言う。)を選択し得る。以下、チャットの相手としてユーザ190Nが選択された場合について説明する。なお、チャット相手は一人に限られず、二人以上が選択され得る。
ユーザ190が、ユーザ190Nを選択した後、マイク119に向かって発話すると、その音声に基づく音声信号がコンピュータ200に送信される。また、注視センサ140は、ユーザ190の視線の動きを検出する。検出結果はアイトラッキングデータとしてコンピュータ200に送られる。コンピュータ200は、その受信した音声信号に基づく音声データおよびアイトラッキングデータをユーザ190Nに送信する。例えば、コンピュータ200は、ネットワーク19を介してサーバ150に音声データとアイトラッキングデータとを送信する。音声データおよびアイトラッキングデータは、それぞれ、ユーザ190Nが使用するコンピュータ200Nのネットワークアドレスを含む。サーバ150は、コンピュータ200から受信した音声データおよびアイトラッキングデータを、ネットワーク19を介してコンピュータ200Nにそれぞれ送信する。なお、音声データおよびアイトラッキングデータがコンピュータ200Nに受信されるタイミングは、常に同じではなく、いずれかのデータが他のデータよりも遅延する場合もあり得る。
コンピュータ200Nは、サーバ150から受信した音声データを、ユーザ190Nが装着するHMD110Nのスピーカ115に出力する。また、コンピュータ200Nは、受信したアイトラッキングデータに基づいてユーザ190のアバターオブジェクトの視線を変更するためのデータを生成し、そのデータをモニタ112に送信する。ユーザ190Nは、HMD110Nのスピーカ115を介してユーザ190の音声を聞くことができ、モニタ112に提示されたアバターオブジェクトを視認できる。
ユーザ190Nがユーザ190に向けて発話を行なう場合も、上述の場合と同様にして音声データとアイトラッキングデータとが、コンピュータ200Nからコンピュータ200に送信される。このようにして、ユーザ190およびユーザ190Nは、各々のアバターオブジェクトを用いて、仮想空間において対話することができる。
[ハードウェア構成]
図2を参照して、本実施形態に係るコンピュータ200について説明する。図2は、一局面に従うコンピュータ200のハードウェア構成の一例を表すブロック図である。コンピュータ200は、主たる構成要素として、プロセッサ10と、メモリ11と、ストレージ12と、入出力インターフェイス13と、通信インターフェイス14とを備える。各構成要素は、それぞれ、バス15に接続されている。
プロセッサ10は、コンピュータ200に与えられる信号に基づいて、あるいは、予め定められた条件が成立したことに基づいて、メモリ11またはストレージ12に格納されているプログラムに含まれる一連の命令を実行する。ある局面において、プロセッサ10は、CPU(Central Processing Unit)、MPU(Micro Processor Unit)、FPGA(Field-Programmable Gate Array)その他のデバイスとして実現される。
メモリ11は、プログラムおよびデータを一時的に保存する。プログラムは、例えば、ストレージ12からロードされる。データは、コンピュータ200に入力されたデータと、プロセッサ10によって生成されたデータとを含む。ある局面において、メモリ11は、RAM(Random Access Memory)その他の揮発メモリとして実現される。
ストレージ12は、プログラムおよびデータを永続的に保持する。ストレージ12は、例えば、ROM(Read-Only Memory)、ハードディスク装置、フラッシュメモリ、その他の不揮発記憶装置として実現される。ストレージ12に格納されるプログラムは、HMDシステム100において仮想空間を提供するためのプログラム、シミュレーションプログラム、ゲームプログラム、ユーザ認証プログラム、他のコンピュータ200との通信を実現するためのプログラムを含む。ストレージ12に格納されるデータは、仮想空間を規定するためのデータおよびオブジェクトなどを含む。
なお、他の局面において、ストレージ12は、メモリカードのように着脱可能な記憶装置として実現されてもよい。さらに他の局面において、コンピュータ200に内蔵されたストレージ12の代わりに、外部の記憶装置に保存されているプログラムおよびデータを使用する構成が使用されてもよい。このような構成によれば、例えば、アミューズメント施設のように複数のHMDシステム100が使用される場面において、プログラムやデータの更新を一括して行なうことが可能になる。
ある実施形態において、入出力インターフェイス13は、HMD110、HMDセンサ120またはモーションセンサ130との間で信号を通信する。ある局面において、入出力インターフェイス13は、USB(Universal Serial Bus)インターフェイス、DVI(Digital Visual Interface)、HMDI(登録商標)(High-Definition Multimedia Interface)その他の端子を用いて実現される。なお、入出力インターフェイス13は上述のものに限られない。
ある実施形態において、入出力インターフェイス13は、さらに、コントローラ160と通信し得る。例えば、入出力インターフェイス13は、モーションセンサ130から出力された信号の入力を受ける。他の局面において、入出力インターフェイス13は、プロセッサ10から出力された命令を、コントローラ160に送る。当該命令は、振動、音声出力、発光などをコントローラ160に指示する。コントローラ160は、当該命令を受信すると、その命令に応じて、振動、音声出力または発光のいずれかを実行する。
通信インターフェイス14は、ネットワーク19に接続されて、ネットワーク19に接続されている他のコンピュータ(例えば、サーバ150、コンピュータ200N,200X等)と通信する。ある局面において、通信インターフェイス14は、例えば、LAN(Local Area Network)その他の有線通信インターフェイス、あるいは、WiFi(Wireless Fidelity)、Bluetooth(登録商標)、NFC(Near Field Communication)その他の無線通信インターフェイスとして実現される。なお、通信インターフェイス14は上述のものに限られない。
ある局面において、プロセッサ10は、ストレージ12にアクセスし、ストレージ12に格納されている1つ以上のプログラムをメモリ11にロードし、当該プログラムに含まれる一連の命令を実行する。当該1つ以上のプログラムは、コンピュータ200のオペレーティングシステム、仮想空間を提供するためのアプリケーションプログラム、コントローラ160を用いて仮想空間で実行可能なゲームソフトウェアなどを含み得る。プロセッサ10は、入出力インターフェイス13を介して、仮想空間を提供するための信号をHMD110に送る。HMD110は、その信号に基づいてモニタ112に映像を表示する。
なお、図2に示される例では、コンピュータ200は、HMD110の外部に設けられる構成が示されているが、他の局面において、コンピュータ200は、HMD110に内蔵されてもよい。一例として、モニタ112を含む携帯型の情報通信端末(たとえば、スマートフォン)がコンピュータ200として機能してもよい。
また、コンピュータ200は、複数のHMD110に共通して用いられる構成であってもよい。このような構成によれば、例えば、複数のユーザに同一の仮想空間を提供することもできるので、各ユーザは同一の仮想空間で他のユーザと同一のアプリケーションを楽しむことができる。
ある実施形態において、HMDシステム100では、グローバル座標系が予め設定されている。グローバル座標系は、現実空間における鉛直方向、鉛直方向に直交する水平方向、ならびに、鉛直方向および水平方向の双方に直交する前後方向にそれぞれ平行な、3つの基準方向(軸)を有する。本実施形態では、グローバル座標系は視点座標系の一つである。そこで、グローバル座標系における水平方向、鉛直方向(上下方向)、および前後方向は、それぞれ、x軸、y軸、z軸と規定される。より具体的には、グローバル座標系において、x軸は現実空間の水平方向に平行である。y軸は、現実空間の鉛直方向に平行である。z軸は現実空間の前後方向に平行である。
ある局面において、HMDセンサ120は、赤外線センサを含む。赤外線センサが、HMD110の各光源から発せられた赤外線をそれぞれ検出すると、HMD110の存在を検出する。HMDセンサ120は、さらに、各点の値(グローバル座標系における各座標値)に基づいて、HMD110を装着したユーザ190の動きに応じた、現実空間内におけるHMD110の位置および傾きを検出する。より詳しくは、HMDセンサ120は、経時的に検出された各値を用いて、HMD110の位置および傾きの時間的変化を検出できる。
グローバル座標系は現実空間の座標系と平行である。したがって、HMDセンサ120によって検出されたHMD110の各傾きは、グローバル座標系におけるHMD110の3軸周りの各傾きに相当する。HMDセンサ120は、グローバル座標系におけるHMD110の傾きに基づき、uvw視野座標系をHMD110に設定する。HMD110に設定されるuvw視野座標系は、HMD110を装着したユーザ190が仮想空間において物体を見る際の視点座標系に対応する。
[uvw視野座標系]
図3を参照して、uvw視野座標系について説明する。図3は、ある実施形態に従うHMD110に設定されるuvw視野座標系を概念的に表す図である。HMDセンサ120は、HMD110の起動時に、グローバル座標系におけるHMD110の位置および傾きを検出する。プロセッサ10は、検出された値に基づいて、uvw視野座標系をHMD110に設定する。
図3に示されるように、HMD110は、HMD110を装着したユーザの頭部を中心(原点)とした3次元のuvw視野座標系を設定する。より具体的には、HMD110は、グローバル座標系を規定する水平方向、鉛直方向、および前後方向(x軸、y軸、z軸)を、グローバル座標系内においてHMD110の各軸周りの傾きだけ各軸周りにそれぞれ傾けることによって新たに得られる3つの方向を、HMD110におけるuvw視野座標系のピッチ方向(u軸)、ヨー方向(v軸)、およびロール方向(w軸)として設定する。
ある局面において、HMD110を装着したユーザ190が直立し、かつ、正面を視認している場合、プロセッサ10は、グローバル座標系に平行なuvw視野座標系をHMD110に設定する。この場合、グローバル座標系における水平方向(x軸)、鉛直方向(y軸)、および前後方向(z軸)は、HMD110におけるuvw視野座標系のピッチ方向(u軸)、ヨー方向(v軸)、およびロール方向(w軸)に一致する。
uvw視野座標系がHMD110に設定された後、HMDセンサ120は、HMD110の動きに基づいて、設定されたuvw視野座標系におけるHMD110の傾き(傾きの変化量)を検出できる。この場合、HMDセンサ120は、HMD110の傾きとして、uvw視野座標系におけるHMD110のピッチ角(θu)、ヨー角(θv)、およびロール角(θw)をそれぞれ検出する。ピッチ角(θu)は、uvw視野座標系におけるピッチ方向周りのHMD110の傾き角度を表す。ヨー角(θv)は、uvw視野座標系におけるヨー方向周りのHMD110の傾き角度を表す。ロール角(θw)は、uvw視野座標系におけるロール方向周りのHMD110の傾き角度を表す。
HMDセンサ120は、検出されたHMD110の傾き角度に基づいて、HMD110が動いた後のHMD110におけるuvw視野座標系を、HMD110に設定する。HMD110と、HMD110のuvw視野座標系との関係は、HMD110の位置および傾きに関わらず、常に一定である。HMD110の位置および傾きが変わると、当該位置および傾きの変化に連動して、グローバル座標系におけるHMD110のuvw視野座標系の位置および傾きが変化する。
ある局面において、HMDセンサ120は、赤外線センサからの出力に基づいて取得される赤外線の光強度および複数の点間の相対的な位置関係(例えば、各点間の距離など)に基づいて、HMD110の現実空間内における位置を、HMDセンサ120に対する相対位置として特定してもよい。また、プロセッサ10は、特定された相対位置に基づいて、現実空間内(グローバル座標系)におけるHMD110のuvw視野座標系の原点を決定してもよい。
[仮想空間]
図4を参照して、仮想空間についてさらに説明する。図4は、ある実施形態に従う仮想空間2を表現する一態様を概念的に表す図である。仮想空間2は、中心21の360度方向の全体を覆う全天球状の構造を有する。図4では、説明を複雑にしないために、仮想空間2のうちの上半分の天球が例示されている。仮想空間2では各メッシュが規定される。各メッシュの位置は、仮想空間2に規定されるXYZ座標系における座標値として予め規定されている。コンピュータ200は、仮想空間2に展開可能なコンテンツ(静止画、動画等)を構成する各部分画像を、仮想空間2において対応する各メッシュにそれぞれ対応付けて、ユーザによって視認可能な仮想空間画像22が展開される仮想空間2をユーザに提供する。
ある局面において、仮想空間2では、中心21を原点とするXYZ座標系が規定される。XYZ座標系は、例えば、グローバル座標系に平行である。XYZ座標系は視点座標系の一種であるため、XYZ座標系における水平方向、鉛直方向(上下方向)、および前後方向は、それぞれX軸、Y軸、Z軸として規定される。したがって、XYZ座標系のX軸(水平方向)がグローバル座標系のx軸と平行であり、XYZ座標系のY軸(鉛直方向)がグローバル座標系のy軸と平行であり、XYZ座標系のZ軸(前後方向)がグローバル座標系のz軸と平行である。
HMD110の起動時、すなわちHMD110の初期状態において、仮想カメラ1が、仮想空間2の中心21に配置される。仮想カメラ1は、現実空間におけるHMD110の動きに連動して、仮想空間2を同様に移動する。これにより、現実空間におけるHMD110の位置および向きの変化が、仮想空間2において同様に再現される。
仮想カメラ1には、HMD110の場合と同様に、uvw視野座標系が規定される。仮想空間2における仮想カメラのuvw視野座標系は、現実空間(グローバル座標系)におけるHMD110のuvw視野座標系に連動するように規定されている。したがって、HMD110の傾きが変化すると、それに応じて、仮想カメラ1の傾きも変化する。また、仮想カメラ1は、HMD110を装着したユーザの現実空間における移動に連動して、仮想空間2において移動することもできる。
仮想カメラ1の向きは、仮想カメラ1の位置および傾きに応じて決まるので、ユーザが仮想空間画像22を視認する際に基準となる視線(基準視線5)は、仮想カメラ1の向きに応じて決まる。コンピュータ200のプロセッサ10は、基準視線5に基づいて、仮想空間2における視界領域23を規定する。視界領域23は、仮想空間2のうち、HMD110を装着したユーザの視界に対応する。
注視センサ140によって検出されるユーザ190の視線方向は、ユーザ190が物体を視認する際の視点座標系における方向である。HMD110のuvw視野座標系は、ユーザ190がモニタ112を視認する際の視点座標系に等しい。また、仮想カメラ1のuvw視野座標系は、HMD110のuvw視野座標系に連動している。したがって、ある局面に従うHMDシステム100は、注視センサ140によって検出されたユーザ190の視線方向を、仮想カメラ1のuvw視野座標系におけるユーザの視線方向とみなすことができる。
[ユーザの視線]
図5を参照して、ユーザの視線方向の決定について説明する。図5は、ある実施形態に従うHMD110を装着するユーザ190の頭部を上から表した図である。
ある局面において、注視センサ140は、ユーザ190の右目および左目の各視線を検出する。ある局面において、ユーザ190が近くを見ている場合、注視センサ140は、視線R1およびL1を検出する。別の局面において、ユーザ190が遠くを見ている場合、注視センサ140は、視線R2およびL2を検出する。この場合、ロール方向wに対して視線R2およびL2がなす角度は、ロール方向wに対して視線R1およびL1がなす角度よりも小さい。注視センサ140は、検出結果をコンピュータ200に送信する。
コンピュータ200が、視線の検出結果として、視線R1およびL1の検出値を注視センサ140から受信した場合には、その検出値に基づいて、視線R1およびL1の交点である注視点N1を特定する。一方、コンピュータ200は、視線R2およびL2の検出値を注視センサ140から受信した場合には、視線R2およびL2の交点を注視点として特定する。コンピュータ200は、特定した注視点N1の位置に基づき、ユーザ190の視線方向N0を特定する。コンピュータ200は、例えば、ユーザ190の右目Rと左目Lとを結ぶ直線の中点と、注視点N1とを通る直線の延びる方向を、視線方向N0として検出する。視線方向N0は、ユーザ190が両目により実際に視線を向けている方向である。また、視線方向N0は、視界領域23に対してユーザ190が実際に視線を向けている方向に相当する。
別の局面において、HMDシステム100は、HMDシステム100を構成するいずれかのパーツに、マイクおよびスピーカを備えてもよい。ユーザは、マイクに発話することにより、仮想空間2に対して、音声による指示を与えることができる。
また、別の局面において、HMDシステム100は、テレビジョン放送受信チューナを備えてもよい。このような構成によれば、HMDシステム100は、仮想空間2においてテレビ番組を表示することができる。
さらに別の局面において、HMDシステム100は、インターネットに接続するための通信回路、あるいは、電話回線に接続するための通話機能を備えていてもよい。
[視界領域]
図6および図7を参照して、視界領域23について説明する。図6は、仮想空間2において視界領域23をX方向から見たYZ断面を表す図である。図7は、仮想空間2において視界領域23をY方向から見たXZ断面を表す図である。
図6に示されるように、YZ断面における視界領域23は、領域24を含む。領域24は、仮想カメラ1の基準視線5と仮想空間2のYZ断面とによって定義される。プロセッサ10は、仮想空間における基準視線5を中心として極角αを含む範囲を、領域24として規定する。
図7に示されるように、XZ断面における視界領域23は、領域25を含む。領域25は、基準視線5と仮想空間2のXZ断面とによって定義される。プロセッサ10は、仮想空間2における基準視線5を中心とした方位角βを含む範囲を、領域25として規定する。
ある局面において、HMDシステム100は、コンピュータ200からの信号に基づいて、視界画像26をモニタ112に表示させることにより、ユーザ190に仮想空間を提供する。視界画像26は、仮想空間画像22のうち視界領域23に重畳する部分に相当する。ユーザ190が、頭に装着したHMD110を動かすと、その動きに連動して仮想カメラ1も動く。その結果、仮想空間2における視界領域23の位置が変化する。これにより、モニタ112に表示される視界画像26は、仮想空間画像22のうち、仮想空間2においてユーザが向いた方向の視界領域23に重畳する画像に更新される。ユーザは、仮想空間2における所望の方向を視認することができる。
ユーザ190は、HMD110を装着している間、現実世界を視認することなく、仮想空間2に展開される仮想空間画像22のみを視認できる。そのため、HMDシステム100は、仮想空間2への高い没入感覚をユーザに与えることができる。
ある局面において、プロセッサ10は、HMD110を装着したユーザ190の現実空間における移動に連動して、仮想空間2において仮想カメラ1を移動し得る。この場合、プロセッサ10は、仮想空間2における仮想カメラ1の位置および向きに基づいて、HMD110のモニタ112に投影される画像領域(すなわち、仮想空間2における視界領域23)を特定する。
ある実施形態に従うと、仮想カメラ1は、2つの仮想カメラ、すなわち、右目用の画像を提供するための仮想カメラと、左目用の画像を提供するための仮想カメラとを含むことが望ましい。また、ユーザ190が3次元の仮想空間2を認識できるように、適切な視差が、2つの仮想カメラに設定されていることが好ましい。本実施形態においては、仮想カメラ1が2つの仮想カメラを含み、2つの仮想カメラのロール方向が合成されることによって生成されるロール方向(w)がHMD110のロール方向(w)に適合されるように構成されているものとして、本開示に係る技術思想を例示する。
[コントローラ]
図8を参照して、コントローラ160の一例について説明する。図8は、ある実施形態に従うコントローラ160の概略構成を表す図である。
図8の分図(A)に示されるように、ある局面において、コントローラ160は、右コントローラ800と左コントローラとを含み得る。右コントローラ800は、ユーザ190の右手で操作される。左コントローラは、ユーザ190の左手で操作される。ある局面において、右コントローラ800と左コントローラとは、別個の装置として対称に構成される。したがって、ユーザ190は、右コントローラ800を把持した右手と、左コントローラを把持した左手とをそれぞれ自由に動かすことができる。別の局面において、コントローラ160は両手の操作を受け付ける一体型のコントローラであってもよい。以下、右コントローラ800について説明する。
右コントローラ800は、グリップ30と、フレーム31と、天面32とを備える。グリップ30は、ユーザ190の右手によって把持されるように構成されている。例えば、グリップ30は、ユーザ190の右手の掌と3本の指(中指、薬指、小指)とによって保持され得る。
グリップ30は、ボタン33,34と、モーションセンサ130とを含む。ボタン33は、グリップ30の側面に配置され、右手の中指による操作を受け付ける。ボタン34は、グリップ30の前面に配置され、右手の人差し指による操作を受け付ける。ある局面において、ボタン33,34は、トリガー式のボタンとして構成される。モーションセンサ130は、グリップ30の筐体に内蔵されている。なお、ユーザ190の動作がカメラその他の装置によってユーザ190の周りから検出可能である場合には、グリップ30は、モーションセンサ130を備えなくてもよい。
フレーム31は、その円周方向に沿って配置された複数の赤外線LED35を含む。赤外線LED35は、コントローラ160を使用するプログラムの実行中に、当該プログラムの進行に合わせて赤外線を発光する。赤外線LED35から発せられた赤外線は、右コントローラ800と左コントローラ(図示しない)との各位置や姿勢(傾き、向き)を検出するために使用され得る。図8に示される例では、二列に配置された赤外線LED35が示されているが、配列の数は図8に示されるものに限られない。一列あるいは3列以上の配列が使用されてもよい。
天面32は、ボタン36,37と、アナログスティック38とを備える。ボタン36,37は、プッシュ式ボタンとして構成される。ボタン36,37は、ユーザ190の右手の親指による操作を受け付ける。アナログスティック38は、ある局面において、初期位置(ニュートラルの位置)から360度任意の方向への操作を受け付ける。当該操作は、例えば、仮想空間2に配置されるオブジェクトを移動するための操作を含む。
ある局面において、右コントローラ800および左コントローラは、赤外線LED35その他の部材を駆動するための電池を含む。電池は、充電式、ボタン型、乾電池型等を含むが、これらに限定されない。別の局面において、右コントローラ800と左コントローラは、例えば、コンピュータ200のUSBインターフェイスに接続され得る。この場合、右コントローラ800および左コントローラは、電池を必要としない。
図8の分図(B)は、右コントローラ800を把持するユーザ190の右手に対応して仮想空間に配置されるハンドオブジェクト810の一例を示す。例えば、ユーザ190の右手に対応するハンドオブジェクト810に対して、ヨー、ロール、ピッチの各方向が規定される。例えば、入力操作が、右コントローラ800のボタン34に対して行なわれると、ハンドオブジェクト810の人差し指を握りこんだ状態とし、入力操作がボタン34に対して行なわれていない場合には、分図(B)に示すように、ハンドオブジェクト810の人差し指を伸ばした状態とすることもできる。例えば、ハンドオブジェクト810において親指と人差し指とが伸びている場合に、親指の伸びる方向がヨー方向、人差し指の伸びる方向がロール方向、ヨー方向の軸およびロール方向の軸によって規定される平面に垂直な方向がピッチ方向としてハンドオブジェクト810に規定される。
[HMDの制御装置]
図9を参照して、HMD110の制御装置について説明する。ある実施形態において、制御装置は周知の構成を有するコンピュータ200によって実現される。図9は、ある実施形態に従うコンピュータ200をモジュール構成として表すブロック図である。
図9に示されるように、コンピュータ200は、表示制御モジュール220と、音声制御モジュール225と、仮想空間制御モジュール230と、メモリモジュール240と、通信制御モジュール250とを備える。表示制御モジュール220は、サブモジュールとして、仮想カメラ制御モジュール221と、視界領域決定モジュール222と、視界画像生成モジュール223と、基準視線特定モジュール224とを含む。仮想空間制御モジュール230は、サブモジュールとして、仮想空間定義モジュール231と、仮想オブジェクト生成モジュール232と、視線検出モジュール233と、同期モジュール234と、チャット制御モジュール235とを含む。
ある実施形態において、表示制御モジュール220、音声制御モジュール225、仮想空間制御モジュール230は、プロセッサ10によって実現される。他の実施形態において、複数のプロセッサ10が表示制御モジュール220、音声制御モジュール225、または仮想空間制御モジュール230としてそれぞれ作動してもよい。メモリモジュール240は、メモリ11またはストレージ12によって実現される。通信制御モジュール250は、通信インターフェイス14によって実現される。
ある局面において、表示制御モジュール220は、HMD110のモニタ112における画像表示を制御する。仮想カメラ制御モジュール221は、仮想空間2に仮想カメラ1を配置し、仮想カメラ1の挙動、向きなどを制御する。視界領域決定モジュール222は、HMD110を装着したユーザ190の頭の向きに応じて、視界領域23を規定する。視界画像生成モジュール223は、決定された視界領域23に基づいて、モニタ112に表示される視界画像を生成する。さらに、視界画像生成モジュール223は、仮想空間制御モジュール230から受信したデータに基づいて、視界画像を生成する。視界画像生成モジュール223によって生成された視界画像のデータは、通信制御モジュール250によってHMD110に出力される。基準視線特定モジュール224は、注視センサ140からの信号に基づいて、ユーザ190の視線を特定する。
音声制御モジュール225は、HMD110から、ユーザ190の発話に基づく音声信号がコンピュータ200に入力されたことを検知する。音声制御モジュール225は、当該発話に対応する音声信号にその入力時刻を付して、音声データを生成する。音声制御モジュール225は、ユーザ190のチャットの相手としてコンピュータ200が通信可能な状態にある他のコンピュータ200N,200Xのうち、ユーザ190によって選択されたユーザが使用するコンピュータにその音声データを送信する。
仮想空間制御モジュール230は、ユーザ190に提供される仮想空間2を制御する。まず、仮想空間定義モジュール231は、仮想空間2を表す仮想空間データを生成することにより、HMDシステム100における仮想空間2を規定する。
仮想オブジェクト生成モジュール232は、仮想空間2に配置されるオブジェクトのデータを生成する。例えば、仮想オブジェクト生成モジュール232は、仮想空間2を介してユーザ190とのチャットを行なう他のユーザ190N,190Xをそれぞれ表わすアバターオブジェクトのデータを生成する。さらに、仮想オブジェクト生成モジュール232は、他のユーザ190N,190Xからの発話に応じて検出される視線に基づいて、当該ユーザのアバターオブジェクトの視線を変更し得る。
視線検出モジュール233は、注視センサ140からの出力に基づいて、ユーザ190の視線を検出する。ある局面において、視線検出モジュール233は、ユーザ190による発話が検知されたことに基づいて、その時のユーザ190の視線を検出する。視線の検出は、例えば、非接触型のアイトラッキングのように公知の技術により実現される。一例として、強膜反射法のように、注視センサ140は、ユーザ190の目に赤外線を当て、反射光をカメラ(図示しない)で撮影することにより得られたデータに基づいて、ユーザ190の視線の動きを検出し得る。ある局面において、視線検出モジュール233は、モニタ112の表示領域のいずれかを基準とした座標値(x、y)として、ユーザ190の視線の動きに応じた各位置をそれぞれ特定する。
同期モジュール234は、仮想空間2を介した通信が行なわれる場合に、音声と映像の同期を実現する。例えば、ある実施形態において、他のコンピュータ200Nにおいて同じタイミングで取得された視線検出結果を示すデータ(アイトラッキングデータ)と音声データとが、異なるタイミングでコンピュータ200に到着した場合に、同期モジュール234は、アバターオブジェクトの変化(例えば、視線の移動、姿勢の変化等)と音声の出力とが同じタイミングで行なわれるように、音声の出力タイミングとアバターオブジェクトのデータの出力タイミングとの同期をとる。
例えば、ある局面において、他のコンピュータ200N(すなわち、同一のチャット相手)によって送信された音声データが、そのコンピュータ200Nから送信されたアイトラッキングデータよりも先にコンピュータ200に到着する場合があり得る。この場合、同期モジュール234は、音声データをメモリモジュール240のワーク領域に一時的に格納し、アイトラッキングデータを受信するまで、音声の出力を待機する。
逆に、コンピュータ200Nによって送信されたアイトラッキングデータが、音声データよりも先にコンピュータ200に到着する場合もあり得る。この場合、同期モジュール234は、アイトラッキングデータに基づいて視線が変更された後のアバターオブジェクトを提示するための画像データを生成し、その画像データをメモリモジュール240のワーク領域に一時的に格納し、音声データを受信するまで画像データの出力を待機する。同期モジュール234は、音声データを受信したことを検知すると、メモリモジュール240から画像データを読み出し、HMD110に画像データを出力するとともに、音声制御モジュール225を介して音声データをスピーカ115に出力する。
チャット制御モジュール235は、仮想空間を介した通信を制御する。ある局面において、チャット制御モジュール235は、ユーザ190の操作に基づいて、あるいは、他のコンピュータ200Nによって送信されたチャットの開始要求に基づいて、メモリモジュール240からチャットアプリケーションを読み出し、仮想空間2を介した通信を開始する。ユーザ190がコンピュータ200にユーザIDとパスワードとを入力してログイン操作を行なうと、ユーザ190は、仮想空間2を介したチャットのメンバーの一人として、そのチャットのセッション(「ルーム」とも呼ばれる)に関連付けられる。その後、コンピュータ200Nを使用するユーザ190Nがそのセッションにおけるチャットにログインすると、ユーザ190とユーザ190Nとが、そのチャットのメンバーとして互いに関連付けられる。チャット制御モジュール235が、コンピュータ200の通信相手となるコンピュータ200Nのユーザ190Nを認識すると、仮想オブジェクト生成モジュール232は、オブジェクト情報242を用いて、ユーザ190Nに対応するアバターオブジェクトを提示するためのデータを生成し、そのデータをHMD110に出力する。HMD110が、そのデータに基づいて、ユーザ190Nに対応するアバターオブジェクトをモニタ112に表示すると、HMD110を装着したユーザ190は、そのアバターオブジェクトを仮想空間2において認識する。
ある実施形態において、チャット制御モジュール235は、ユーザ190の発話に基づく音声データの入力と、注視センサ140からのデータの入力とを待機する。ユーザ190が、仮想空間2において、アバターオブジェクトを選択するための操作(例えば、コントローラの操作、ジェスチャ、音声による選択、視線による凝視など)を行なうと、チャット制御モジュール235は、その操作に基づいて、そのアバターオブジェクトに対応するユーザ(例えばユーザ190)がチャット相手として選択されたことを検知する。チャット制御モジュール235は、ユーザ190による発話を検知すると、ユーザ190Nが使用するコンピュータ200Nのネットワークアドレスに基づいて、通信制御モジュール250を介して、マイク119から送られてきた信号に基づく音声データと、注視センサ140から送られてきた信号に基づくアイトラッキングデータとを、コンピュータ200Nに送信する。コンピュータ200Nは、アイトラッキングデータに基づいて、ユーザ190のアバターオブジェクトの視線を更新し、音声データをHMD110Nに送信する。コンピュータ200Nが、同期機能を有している場合には、モニタ112におけるアバターオブジェクトの視線の変化と、スピーカ115からの音声の出力とが、略同じタイミングで実現されるので、ユーザ190Nは、違和感を感じにくくなる。
メモリモジュール240は、コンピュータ200が仮想空間2をユーザ190に提供するために使用されるデータを保持している。ある局面において、メモリモジュール240は、空間情報241と、オブジェクト情報242と、ユーザ情報243とを保持している。
空間情報241は、仮想空間2を提供するために規定された1つ以上のテンプレートを保持している。
オブジェクト情報242は、仮想空間2を介した通信のために使用されるアバターオブジェクトを表示するためのデータ、仮想空間2において再生されるコンテンツ、当該コンテンツで使用されるオブジェクトを配置するための情報を保持している。当該コンテンツは、例えば、ゲーム、現実社会と同様の風景を表したコンテンツなどを含み得る。アバターオブジェクトを表示するためのデータは、例えば、チャット相手として予め関係が確立された通信相手を模式的に表わす画像データ、当該通信相手の写真等を含み得る。
ユーザ情報243は、HMDシステム100の制御装置としてコンピュータ200を機能させるためのプログラム、オブジェクト情報242に保持される各コンテンツを使用するアプリケーションプログラム、当該アプリケーションプログラムを実行する際に必要となるユーザID、パスワードなどを保持している。メモリモジュール240に格納されているデータおよびプログラムは、HMD110のユーザ190によって入力される。あるいは、プロセッサ10が、当該コンテンツを提供する事業者が運営するコンピュータ(たとえば、サーバ150)からプログラムあるいはデータをダウンロードして、ダウンロードされたプログラムあるいはデータをメモリモジュール240に格納する。
通信制御モジュール250は、ネットワーク19を介して、サーバ150その他の情報通信装置と通信し得る。通信制御モジュール250は、有線LAN、無線LANのような公知の通信技術によって実現される。
ある局面において、表示制御モジュール220および仮想空間制御モジュール230は、例えば、ユニティテクノロジーズ社によって提供されるUnity(登録商標)を用いて実現され得る。他の局面において、表示制御モジュール220および仮想空間制御モジュール230は、各処理を実現する回路素子の組み合わせとしても実現され得る。
コンピュータ200における処理は、ハードウェアと、プロセッサ10により実行されるソフトウェアとによって実現される。このようなソフトウェアは、ハードディスクその他のメモリモジュール240に予め格納されている場合がある。また、ソフトウェアは、CD−ROMその他のコンピュータ読み取り可能な不揮発性のデータ記録媒体に格納されて、プログラム製品として流通している場合もある。あるいは、当該ソフトウェアは、インターネットその他のネットワークに接続されている情報提供事業者によってダウンロード可能なプログラム製品として提供される場合もある。このようなソフトウェアは、光ディスク駆動装置その他のデータ読取装置によってデータ記録媒体から読み取られて、あるいは、通信制御モジュール250を介してサーバ150その他のコンピュータからダウンロードされた後、記憶モジュールに一旦格納される。そのソフトウェアは、プロセッサ10によって記憶モジュールから読み出され、実行可能なプログラムの形式でRAMに格納される。プロセッサ10は、そのプログラムを実行する。
コンピュータ200を構成するハードウェアは、一般的なものである。したがって、本実施形態に係る最も本質的な部分は、コンピュータ200に格納されたプログラムであるとも言える。なお、コンピュータ200のハードウェアの動作は周知であるので、詳細な説明は繰り返さない。
なお、データ記録媒体としては、CD−ROM、FD(Flexible Disk)、ハードディスクに限られず、磁気テープ、カセットテープ、光ディスク(MO(Magnetic Optical Disc)/MD(Mini Disc)/DVD(Digital Versatile Disc))、IC(Integrated Circuit)カード(メモリカードを含む)、光カード、マスクROM、EPROM(Electronically Programmable Read-Only Memory)、EEPROM(Electronically Erasable Programmable Read-Only Memory)、フラッシュROMなどの半導体メモリなどの固定的にプログラムを担持する不揮発性のデータ記録媒体でもよい。
ここで言うプログラムとは、プロセッサ10により直接実行可能なプログラムだけでなく、ソースプログラム形式のプログラム、圧縮処理されたプログラム、暗号化されたプログラムなどを含み得る。
[2ユーザ間の通信によるコンピュータ間の動作]
ここで、二人のユーザ190,190Nが仮想空間2を介して通信する場合のコンピュータ200,200Nの動作について説明する。以下、コンピュータ200Nに接続されたHMD110Nを装着したユーザ190Nが、コンピュータ200に接続されたHMD110を装着したユーザ190に発話する場合について説明する。
(送信側) ある局面において、HMD110Nを装着したユーザ190Nは、ユーザ190とチャットするために、マイク119に向かって発話する。発話の音声信号は、HMD110Nに接続されているコンピュータ200Nに送信される。音声制御モジュール225は、音声信号を音声データに変換し、発話が検出された時を表わすタイムスタンプを音声データに関連付ける。タイムスタンプは、例えば、プロセッサ10の内部クロックの時刻データである。ある局面において、音声信号が通信制御モジュール250によって音声データに変換される時の時刻データがタイムスタンプとして使用される。
ユーザ190Nが発話している時、ユーザ190Nの視線の動きは、注視センサ140によって検出されている。注視センサ140による検出結果(アイトラッキングデータ)は、コンピュータ200Nに送られる。視線検出モジュール233は、その検出結果に基づいて、ユーザ190Nの視線の変化を表わす各位置(例えば瞳孔の位置)を特定する。
コンピュータ200Nは、音声データとアイトラッキングデータとをコンピュータ200に送信する。音声データおよびアイトラッキングデータは、まず、サーバ150に送られる。サーバ150は、音声データおよびアイトラッキングデータの各ヘッダにある宛先を参照し、音声データおよびアイトラッキングデータをコンピュータ200に送信する。このとき、音声データがコンピュータ200に到達するタイミングと、アイトラッキングデータがコンピュータ200に到達するタイミングとは、一致しない場合がある。
(受信側) コンピュータ200は、コンピュータ200Nによって送信されたデータをサーバ150から受信する。ある局面において、コンピュータ200のプロセッサ10は、通信制御モジュール250から送られるデータに基づいて、音声データを受信したことを検知する。プロセッサ10は、音声データの送信元(すなわちコンピュータ200N)を特定すると、チャット制御モジュール235として、HMD110のモニタ112に、チャットの画面を表示させる。
プロセッサ10は、さらに、アイトラッキングデータを受信したことを検知する。プロセッサ10は、アイトラッキングデータの送信元(すなわちコンピュータ200N)を特定すると、仮想オブジェクト生成モジュール232として、ユーザ190Nのアバターオブジェクトを表示するためのデータを生成する。
同期モジュール234は、コンピュータ200Nから受信した音声データとアイトラッキングデータとの出力タイミングを同期させる。例えば、同期モジュール234は、音声データに含まれる送信元識別番号および時刻データと、アイトラッキングデータに含まれる送信元識別番号および時刻データとを比較する。これらのデータが一致する場合、同期モジュール234は、音声データおよびアイトラッキングデータが同じコンピュータ200Nから送信されたものであると判定し、アバターオブジェクトを表示するためのデータと音声データとを、同じタイミングでHMD110に出力する。
別の局面において、プロセッサ10が、音声データよりも先にアイトラッキングデータを受信する場合があり得る。この場合、プロセッサ10は、アイトラッキングデータから送信元識別番号を検出すると、アイトラッキングデータに対応して送信された音声データが存在すると判定する。プロセッサ10は、そのアイトラッキングデータに含まれる送信元識別番号および時刻データと同じ送信元識別番号および時刻データを含む音声データを受信するまで、アバターオブジェクトを表示するためのデータの出力を待機する。
さらに別の局面において、プロセッサ10は、アイトラッキングデータよりも先に音声データを受信する場合があり得る。この場合、プロセッサ10は、音声データから送信元識別番号を検出すると、その音声データに対応して送信されたアイトラッキングデータが存在すると判定する。プロセッサ10は、その音声データに含まれる送信元識別番号および時刻データと同じ送信元識別番号および時刻データを含むアイトラッキングデータを受信するまで、音声データの出力を待機する。
なお、上記の各局面において、比較対象となる時刻データは、完全に同一の時刻を示していなくてもよい。
プロセッサ10は、同じ時刻データを含む音声データおよびアイトラッキングデータの受信を確認すると、音声データをスピーカ115に出力し、アイトラッキングデータに基づく変更が反映されたアバターオブジェクトを表示するためのデータをモニタ112に出力する。その結果、ユーザ190は、ユーザ190Nによって発せられた音声とアバターとを同じタイミングで認識できるので、信号の伝送遅延によるタイムラグ(例えば、アバターオブジェクトの変化と音声出力のタイミングのずれ)を感じることなく、チャットを楽しむことができる。
また、ユーザ190Nが使用するコンピュータ200Nのプロセッサ10も、上述の処理と同様に、音声データの出力タイミングと、ユーザ190の視線の動きが反映されたアバターオブジェクトの出力タイミングとの同期をとることができる。その結果、ユーザ190Nも、ユーザ190によって発せられた音声の出力とアバターオブジェクトの変化とを同じタイミングで認識できるので、信号の伝送遅延によるタイムラグを感じることなく、チャットを楽しむことができる。
[チャットの概要]
次に、図10を参照して、本実施形態に従って行なわれる仮想空間を介したチャットの概要について説明する。図10は、コンピュータ200,200N,200Xのそれぞれによって提示される仮想空間2を表現する一態様を概念的に表す図である。
図10に示されるように、コンピュータ200,200N,200Xは、それぞれ、ネットワーク19を介してサーバ150と通信可能である。コンピュータ200,200N,200Xは、それぞれに接続されているHMD110,110N,110Xを介して、仮想空間画像22,22N,22Xを提供する。仮想空間画像22,22N,22Xは、コンピュータ200,200N,200Xの各ユーザに対応するアバターオブジェクト1010,1010N,1010Xをそれぞれ提示する。
例えば、アバターオブジェクト1010,1010N,1010Xは、ユーザ190,190N,190Xにそれぞれ対応する。例えば、ユーザ190が視認する仮想空間画像22には、ユーザ190の通信相手として、アバターオブジェクト1010N,1010Xが提示される。ユーザ190Nが視認する仮想空間画像22Nには、ユーザ190Nの通信相手として、アバターオブジェクト1010,1010Xがそれぞれ提示される。ユーザ190Xが視認する仮想空間画像22Xには、ユーザ190Xの通信相手として、アバターオブジェクト1010,1010Nがそれぞれ提示される。
HMD110,110N,110Xは、コンピュータ200,200N,200Xを介して、ユーザ190,190N,190Xの位置および傾きに対応する動き検知データをサーバ150にそれぞれ送信する。動き検知データはアイトラッキングデータを含み得る。サーバ150は、HMD110から受信した動き検知データを、HMD110N,110Xにそれぞれ送信する。HMD110N,110Xは、当該動き検知データに応じて、仮想空間2に提示されるチャット相手のアバターオブジェクトの表示態様(例えば、アバターオブジェクトの位置および傾き)を変更する。
ある局面において、HMD110,110N,110Xは、ユーザ190,190N,190Xの発話に対応する音声データをサーバ150にそれぞれ送信する。サーバ150は、例えば、HMD110から受信した音声データおよびアイトラッキングデータを、コンピュータ200N,200Xに送信する。コンピュータ200N,200Xは、当該アイトラッキングデータに応じて、アバターオブジェクトの表示態様(たとえば、目や頭の向き等)を変更する。HMD110N,110Xは、当該音声データに基づく音声をスピーカ115から出力する。
以上より、HMD110を装着したユーザ190が目を動かし、また発話すると、HMD110と通信可能な状態にある他のHMD110N,110Xによって提示される仮想空間2では、ユーザ190に対応するアバターオブジェクトの表示態様が変わるとともに、音声がスピーカ115から出力される。表示態様が変化するタイミングと音声が出力されるタイミングとが同期するので、仮想空間2を介した通信において、各通信相手は、音声とアバターオブジェクトとを用いたコミュニケーションを違和感なく行なうことができる。
[同期]
図11を参照して、ある実施形態に従う、HMDシステム100における同期について説明する。図11は、音声データとアイトラッキングデータの同期の一態様を説明するタイミングチャートである。ある実施形態において、HMD110N(または、HMD110Nが接続されたコンピュータ200N)からHMD110が接続されたコンピュータ200に伝送される信号の遅延について説明する。ある局面において、HMD110に接続されたコンピュータ200と、HMD110Nに接続されたコンピュータ200Nとは、仮想空間2を介して通信するためのチャットアプリケーションを実行している。
時刻t(0)において、ユーザ190Nが発話すると、コンピュータ200Nは、その時のユーザ190Nの視線を検出し、発話の内容を音声データに変換する。視線の検出結果は、例えば、アイトラッキングデータを含む。アイトラッキングデータは、予め定められた時間内に取得された複数のデータレコードを含む。各データレコードは、視点のx座標値とy座標値と、各座標値が取得された時刻データと、当該データレコードの発信元(例えばHMD110N)の識別番号とを含む。コンピュータ200Nは、チャットアプリケーションの実行時にユーザ190Nによって指定された宛先(例えば、ユーザ190)に基づいて、音声データと、アイトラッキングデータとをコンピュータ200に送信する。
音声データとアイトラッキングデータとの間には、遅延が生じ得る。例えば、ある局面において、アイトラッキングデータは、グラフ1110として示されるように、グラフ1120として示される音声データよりも先に、コンピュータ200に到着し得る。
一例として、時刻t(1)において、アイトラッキングデータ(グラフ1110)は、コンピュータ200に到達しているが、音声データ(グラフ1120)はコンピュータ200に到達していない。そこで、コンピュータ200は、アイトラッキングデータに基づいて変更されたアバターオブジェクトのデータをHMD110に出力することなく、内部の揮発メモリに保存する。
時刻t(2)において、音声データは、コンピュータ200に到達する。コンピュータ200は、その音声データに含まれる時刻データおよび発信元の識別番号と、時刻t(1)において受信したアイトラッキングデータに含まれる時刻データおよび発信元の識別番号とが一致しているか否かを確認する。これらの情報が一致している時、コンピュータ200は、時刻t(3)において、アイトラッキングデータに基づいて変更されたアバターオブジェクトを表示するためのデータと、音声データとをHMD110に出力する。HMD110は、当該データに基づいてアバターオブジェクトをモニタ112に表示し、音声データに基づく音声をスピーカ115から出力する。HMD110を装着したユーザ190は、アバターオブジェクトに反映された視線の変化を認識し、また、ユーザ190Nによる発話の内容を認識する。このとき、アバターオブジェクトの表示態様の変化と音声出力とが同期しているので、ユーザ190は、違和感を覚えない。
[アルゴリズム]
以下、ある実施形態に従うHMDシステム100の動作を実現するアルゴリズムについて説明する。
[制御構造]
まず、図12を参照して、HMDシステム100における制御構造について説明する。図12は、第1のHMD(例えばHMD110)と、第2のHMD(例えばHMD110N)とが実行する処理の一部を表わすフローチャートである。
ステップS1210にて、HMD110に接続されているコンピュータ200は、ユーザ190の操作に基づいて、仮想空間2を介したチャットを開始するために、サーバ150に接続する。また、ステップS1215にて、HMD110に接続されているコンピュータ200Nは、ユーザ190Nの操作に基づいて、仮想空間2を介したチャットを開始するために、サーバ150に接続する。
ステップS1220にて、コンピュータ200のプロセッサ10は、仮想空間定義モジュール231として、仮想空間2を定義する。その後、プロセッサ10は、チャット制御モジュール235として、コンピュータ200Nとの通信を開始する。ステップS1225にて、コンピュータ200Nのプロセッサ10は、仮想空間定義モジュール231として、仮想空間2を定義する。その後、プロセッサ10は、チャット制御モジュール235として、コンピュータ200との通信を開始する。
ステップS1230にて、プロセッサ10は、注視センサ140から出力された信号に基づいて、ユーザ190の視線の動きを検出する。検出結果は、例えば、アイトラッキングデータである。プロセッサ10は、アイトラッキングデータを、チャット先、すなわち、HMD110Nに送信する。ステップS1235にて、コンピュータ200Nのプロセッサ10は、注視センサ140から出力された信号に基づいて、ユーザ190Nの視線の動きを検出する。検出結果は、例えば、アイトラッキングデータである。プロセッサ10は、アイトラッキングデータを、チャット先、すなわち、HMD110に送信する。
ステップS1240にて、プロセッサ10は、マイク119から出力された信号を受信したことに基づいて、ユーザ190の発話を受け付け、その信号に基づく音声データをチャット先(HMD110N)に送信する。ステップS1245にて、コンピュータ200Nのプロセッサ10は、マイク119から出力された信号を受信したことに基づいて、ユーザ190Nの発話を受け付け、その信号に基づく音声データをチャット先(HMD110)に送信する。
ステップS1250にて、プロセッサ10は、HMD110Nを装着したユーザ190Nの視線の動きの検出結果をコンピュータ200Nから受信する。ステップS1255にて、コンピュータ200Nのプロセッサ10は、HMD110を装着したユーザ190の視線の動きの検出結果をコンピュータ200から受信する。
ステップS1260にて、プロセッサ10は、ユーザ190Nの発話に基づく音声データをコンピュータ200Nから受信する。ステップS1265にて、コンピュータ200Nのプロセッサ10は、ユーザ190の発話に基づく音声データをコンピュータ200から受信する。
ステップS1270にて、プロセッサ10は、検出結果(アイトラッキングデータ)をアバターオブジェクトに反映し、ユーザ190Nの視線の変化が反映されたアバターオブジェクトのデータを生成する。ステップS1275にて、コンピュータ200Nのプロセッサ10は、検出結果(アイトラッキングデータ)をアバターオブジェクトに反映し、ユーザ190の視線の変化が反映されたアバターオブジェクトのデータを生成する。
ステップS1280にて、プロセッサ10は、アバターオブジェクトをHMD110に提示するタイミングと、音声をスピーカ115から出力するタイミングとの同期をとる処理を行なう。例えば、ある局面において、コンピュータ200が、あるタイミングでHMD110Nによって取得されたアイトラッキングデータを音声データよりも先にコンピュータ200Nから受信した場合、プロセッサ10は、音声データを受信するまで、ステップS1270において生成したアバターオブジェクトのデータの出力を待機する。プロセッサ10は、音声データを受信すると、その音声データの送信元および当該データの取得タイミングとアイトラッキングデータの送信元および当該データの取得タイミングとが同じであるか否かを判定する。これらの送信元および取得タイミングが同じである場合には、プロセッサ10は、処理をステップS1290に切り換える。
ステップS1285にて、コンピュータ200Nのプロセッサ10は、アバターオブジェクトをHMD110に提示するタイミングと、音声をスピーカ115から出力するタイミングとの同期をとる処理を行なう。例えば、ある局面において、コンピュータ200Nが、あるタイミングでHMD110によって取得されたアイトラッキングデータを音声データよりも先にコンピュータ200から受信した場合、プロセッサ10は、音声データを受信するまで、ステップS1275において生成したアバターオブジェクトのデータの出力を待機する。プロセッサ10は、音声データを受信すると、その音声データの送信元および当該データの取得タイミングとアイトラッキングデータの送信元および当該データの取得タイミングとが同じであるか否かを判定する。これらの送信元が同じである場合には、プロセッサ10は、処理をステップS1295に切り換える。
ステップS1290にて、プロセッサ10は、アバターオブジェクトのデータと、音声データとを同じタイミングで出力する。HMD110を装着したユーザ190は、モニタ112に表示されたアバターオブジェクトの視線の向きが変わったことを認識し、同時に、ユーザ190Nの発話を聞くことができる。
ステップS1295にて、コンピュータ200Nのプロセッサ10は、アバターオブジェクトのデータと、音声データとを同じタイミングで出力する。HMD110Nを装着したユーザ190Nは、モニタ112に表示されたアバターオブジェクトの視線の向きが変わったことを認識し、同時に、ユーザ190Nの発話を聞くことができる。
なお、別の局面において、コンピュータ200が、あるタイミングでHMD110Nによって取得された音声データをアイトラッキングデータよりも先にコンピュータ200Nから受信する場合があり得る。この場合、ステップS1260の処理がステップS1250の処理よりも先に行なわれることになる。プロセッサ10は、アイトラッキングデータを受信するまで、音声データの出力を待機する。プロセッサ10は、アイトラッキングデータを受信すると、そのアイトラッキングデータの送信元および当該データの取得タイミングと音声データの送信元および当該データの取得タイミングとが同じであるか否かを判定する。これらの送信元が同じである場合には、プロセッサ10は、アイトラッキングデータを受信した後に、アバターオブジェクトのデータの出力と、音声データの出力とを同じタイミングで実行する。この場合も、HMD110を装着したユーザ190は、モニタ112に表示されたアバターオブジェクトの視線の向きが変わったことを認識し、同時に、ユーザ190Nの発話を聞くことができる。
なお、別の局面において、コンピュータ200Nが、あるタイミングでHMD110によって取得された音声データをアイトラッキングデータよりも先にコンピュータ200から受信する場合があり得る。この場合、ステップS1265の処理がステップS1255の処理よりも先に行なわれることになる。プロセッサ10は、アイトラッキングデータを受信するまで、音声データの出力を待機する。プロセッサ10は、アイトラッキングデータを受信すると、そのアイトラッキングデータの送信元と音声データの送信元とが同じであるか否かを判定する。これらの送信元が同じである場合には、プロセッサ10は、アイトラッキングデータを受信した後に、アバターオブジェクトのデータの出力と、音声データの出力とを同じタイミングで実行する。この場合も、HMD110Nを装着したユーザ190Nは、モニタ112に表示されたアバターオブジェクトの視線の向きが変わったことを認識し、同時に、ユーザ190の発話を聞くことができる。
[データ構造]
次に、図13A〜図13Dを参照して、ある実施形態に従うHMDシステム100を伝送されるデータの構造について説明する。図13Aは、ユーザ190が使用するHMD110によって取得されたアイトラッキングデータを表わす。図13Bは、ユーザ190による発話に基づく音声データを表わす。図13Cは、ユーザ190Nが使用するHMD110Nによって取得されたアイトラッキングデータを表わす。図13Dは、ユーザ190による発話に基づく音声データを表わす。
図13Aを参照して、アイトラッキングデータ1310は、ユーザIDと、x座標値と、y座標値と、経過時間と、データIDとを含む。ユーザIDは、視線が検出されたユーザ、すなわちアイトラッキングデータ1310の送信元を識別する。x座標値は、視線が検出された時の、ユーザ190の瞳孔の中心座標(瞳孔中心点)のx座標値を表わす。y座標値は、視線が検出された時のユーザ190の瞳孔の中心座標のy座標値を表わす。経過時間は、チャットが開始した時から経過した時間を表わす。チャットが行なわれている間、例えば定期的に、視線が継続して検出されるので、経過時間は、視線が検出されたタイミングを特定する。なお、経過時間の代わりに、現実空間での実際の時間、例えば、コンピュータ200のクロック、測位信号に含まれる時刻情報等が使用されてもよい。データIDは、各タイミングで取得されたデータを識別する。
図13Bを参照して、音声データ1320は、ユーザIDと、音声データと、経過時間と、データIDとを含む。ユーザIDは、視線が検出されたユーザ、すなわち音声データ1320の送信元を特定する。音声データは、ユーザ190の発話から生成されたデジタル音声データである。経過時間は、アイトラッキングデータ1310と同様に、チャットが開始した時から経過した時間を表わす。データIDは、各タイミングで取得されたデータを識別する。
図13Cを参照して、アイトラッキングデータ1330は、図13Aに示されるアイトラッキングデータ1310と同じ構成を有する。したがって、同じ構成の説明は繰り返さない。
図13Dを参照して、アイトラッキングデータ1330は、図13Bに示されるアイトラッキングデータ1330と同じ構成を有する。したがって、同じ構成の説明は繰り返さない。
図14を参照して、ある実施形態に従ってHMD110からの出力態様について説明する。図14は、HMD110のモニタ112に表示されるチャット画面の推移を表わす図である。
(アバターオブジェクトの更新と音声出力とが同期している場合)
状態Aに示されるように、ある局面において、ユーザ190がユーザ190Nとチャットを開始すると、HMD110のモニタ112は、ユーザ190Nのアバターオブジェクト1410を表示する。HMD110Nを装着したユーザ190Nが目を動かしながら発話すると、視線検出結果(アイトラッキングデータ1330)および音声データ1340は、それぞれ、コンピュータ200Nからコンピュータ200に送信される。コンピュータ200のプロセッサ10は、アバターオブジェクトの提示のタイミングと音声データの出力のタイミングとの同期をとる。
状態Bに示されるように、その後、HMD110は、ユーザ190Nの目の動きが反映された状態でのアバターオブジェクト1410と、発話に基づく音声とを同じタイミングで出力する。これにより、ユーザ190は、アバターオブジェクト1410の視線の変化と音声出力とを同じタイミングで認識できるので、仮想空間2を介したチャットにおいて違和感を覚えなくなる。
(アバターオブジェクトの更新と音声出力とが同期していない場合)
これに対して、状態Cに示されるように、別の局面において、仮想空間2を介したチャットにおいて音声データの出力とアバターオブジェクト1410の変化とが同期しない場合には、例えば、アバターオブジェクト1410の視線の変化のみが、最初にモニタ112に表示される。その後、状態Dに示されるように、音声が、HMD110のスピーカ115から遅れて出力される。したがって、この場合、アバターオブジェクト1410の変化と音声出力とがずれることにより、ユーザ190は、違和感を覚え得る。
以上のようにして、ある実施形態に従うHMDシステム100は、仮想空間2を介したチャットのように映像と音声とが伝送される通信において、HMD110においてアバターオブジェクト1410が提示されるタイミングと、音声が出力されるタイミングとの同期をとる。その結果、HMD110を装着したユーザ190は、チャット相手のユーザ190Nの視線の移動に基づくアバターオブジェクト1410の変化と音声出力とを同時に認識するので、違和感を覚えることなくチャットを続けることができる。
<変形例>
上記の例では、HMDシステム100は、HMD110においてアバターオブジェクトの視線が提示されるタイミングと、音声が出力されるタイミングとの同期をとることによって、映像と音声との同期をとるように構成されている。しかしながら、アバターオブジェクトの動作は、視線の動作(眼球の動作)に限られない。この変形例では、視線以外のアバターオブジェクトの動作(に対応する映像)と音声との同期について説明する。
[HMDシステムの構成]
図15は、変形例に従うHMDシステム1500の構成の概略を表す図である。図16は、変形例に従うコンピュータ200のハードウェア構成の一例を表すブロック図である。HMDシステム1500は、HMD1510を有し、コントローラ160を有さない点において、図1で説明したHMDシステム100と相違する。変形例に従うコンピュータ200のハードウェア構成は、メモリ11がリングバッファ11Aおよび11Bを含む点を除き、図2に示されるハードウェア構成と同じである。したがって、同一のハードウェア構成の説明は繰り返さない。
HMD1510は、第1カメラ116と、第2カメラ117と、第3カメラ118とを有する点において、図1で説明したHMD110と相違する。第1カメラ116は、ユーザ190の顔の下部を撮影する。一例として、第1カメラ116は、ユーザ190の鼻および口などを撮影する。第2カメラ117は、ユーザの目および眉などを撮影する。HMD1510のユーザ190側の筐体をHMD1510の内側、HMD110のユーザ190とは逆側の筐体をHMD1510の外側と定義する。ある局面において、第1カメラ116は、HMD1510の外側に配置され、第2カメラ117は、HMD110の内側に配置され得る。図15に示される例において、第1カメラ116は、HMD1510の外側から伸びるフレームに接続され、ユーザ190の顔の下部を撮影する。第1カメラ116および第2カメラ117が生成した画像は、コンピュータ200に入力される。
第3カメラ118は、対象物の深度情報を取得可能に構成される。一例として、第3カメラ118は、TOF(Time Of Flight)方式に従い、対象物の深度情報を取得する。他の例として、第3カメラ118は、パターン照射方式に従い、対象物の深度情報を取得する。ある実施形態において、第3カメラ118は、対象物を2つ以上の異なる方向から撮影できるステレオカメラであり得る。また、第3カメラ118は、赤外線カメラであってもよい。第3カメラ118は、HMD1510の外側上部に装着され、ユーザ190の身体の一部を撮影する。以下、一例として、第3カメラ118は、ユーザ190の手を撮影する。第3カメラ118は取得した対象物(手)の深度情報をコンピュータ200に出力する。
ユーザ190Nによって使用されるHMDシステム1500N、およびユーザ190Xによって使用されるHMDシステム1500Xの構成はそれぞれHMDシステム1500と同じであるため、その説明は繰り返さない。以下、HMDシステム1500Nの構成要素には符号「N」を、HMDシステム1500Xの構成要素には符号「X」を付して説明する。例えば、HMD1510Nは、HMDシステム1500Nに含まれる。また、コンピュータ200Nによって提示される仮想空間を仮想空間2Nと定義し、コンピュータ200Xによって提示される仮想空間を仮想空間2Xと定義する。
[制御装置のモジュール構成]
図17は、変形例に従うコンピュータ200のモジュール構成を表すブロック図である。変形例に従うコンピュータ200は、以下の点において、図9で説明したコンピュータ200のモジュール構成と相違する。
図17を参照して、変形例に従う表示制御モジュール220は、顔器官検出モジュール225Aと、フェイストラッキングモジュール226と、ハンドトラッキングモジュール227とをさらに有する。変形例に従うメモリモジュール240は、顔情報244をさらに記憶している。
顔器官検出モジュール225Aは、第1カメラ116および第2カメラ117が生成するユーザ190の顔の画像から、ユーザ190の顔を構成する器官(例えば、口、目、頬、鼻)を検出する。フェイストラッキングモジュール226は、顔器官検出モジュール225Aが検出した各器官の動き(形状)を検出する。図18〜図20において、顔器官検出モジュール225Aおよびフェイストラッキングモジュール226の処理は後述される。
ハンドトラッキングモジュール227は、ユーザ190の身体の一部の位置を検出(トラッキング)する。当該変形例において、ハンドトラッキングモジュール227は、第3カメラ118から入力される深度情報に基づいて、HMD1510に設定されるuvw視野座標系におけるユーザ190の手の位置を検出する。ハンドトラッキングモジュール227の処理は、図22〜図24において後述される。
顔情報244は、顔器官検出モジュール225Aが、ユーザ190の顔器官を検出するために予め準備されたテンプレートを含む。一例として、顔情報244は、口テンプレート245と、目テンプレート246と、頬テンプレート247と、鼻テンプレート248とを含む。これら各テンプレートは、顔を構成する器官に対応する画像であり得る。例えば、口テンプレート245は、口の画像であり得る。なお、各テンプレートは複数の画像を含んでもよい。
仮想オブジェクト生成モジュール232は、フェイストラッキングモジュール226が検出した顔器官の動作を、仮想空間2に配置されるアバターオブジェクトの顔に反映させる。また、仮想オブジェクト生成モジュール232は、ハンドトラッキングモジュール227が検出した手の動作を、仮想空間2に配置されるアバターオブジェクトの手に反映させる。
[フェイストラッキング]
以下、図18〜図20を参照してユーザの顔の動作(形状)を検出するための具体例について説明する。図18〜図20では、一例として、ユーザの口の動作を検出する具体例について説明する。なお、図18〜図20で説明される検出方法は、ユーザの口の動作に限られず、ユーザの顔を構成する他の器官(例えば、目、眉、頬、鼻)の動作の検出にも適用され得る。
図18は、第1カメラ116が撮影するユーザの顔画像1800を示す。顔画像1800は、ユーザ190の鼻と口とを含む。
顔器官検出モジュール225Aは、顔情報244に格納される口テンプレート245を利用したパターンマッチングにより、顔画像1800から口領域1810を特定する。ある局面において、顔器官検出モジュール225Aは、顔画像1800において、矩形上の比較領域を設定し、この比較領域の大きさ、位置および角度をそれぞれ変えながら、比較領域の画像と、口テンプレート245の画像との類似度を算出する。顔器官検出モジュール225Aは、予め定められたしきい値よりも大きい類似度が算出された比較領域を、口領域1810として特定し得る。
顔器官検出モジュール225Aはさらに、算出した類似度がしきい値よりも大きい比較領域の位置と、他の顔器官(例えば、目、鼻)の位置との相対関係に基づいて、当該比較領域が口領域に相当するか否かを判断し得る。
フェイストラッキングモジュール226は、顔器官検出モジュール225Aが検出した口領域1810から、より詳細な口の形状を検出する。
図19は、フェイストラッキングモジュール226が口の形状を検出する処理(その1)を示す。図19を参照して、フェイストラッキングモジュール226は、口領域1810に含まれる口の形状(唇の輪郭)を検出するための輪郭検出線1900を設定する。輪郭検出線1900は、顔の高さ方向(以下、「縦方向」とも称する)に直交する方向(以下、「横方向」とも称する)に、所定間隔で複数本設定される。
フェイストラッキングモジュール226は、複数本の輪郭検出線1900の各々に沿った口領域1810の輝度値の変化を検出し、輝度値の変化が急激な位置を輪郭点として特定し得る。より具体的には、フェイストラッキングモジュール226は、隣接画素との輝度差(すなわち、輝度値変化)が予め定められたしきい値以上である画素を、輪郭点として特定し得る。画素の輝度値は、例えば、画素のRBG値を所定の重み付けで積算することにより得られる。
フェイストラッキングモジュール226は、口領域1810に対応する画像から2種類の輪郭点を特定する。フェイストラッキングモジュール226は、口(唇)の外側の輪郭に対応する輪郭点1910と、口(唇)の内側の輪郭に対応する輪郭点1920とを特定する。ある局面において、フェイストラッキングモジュール226は、1つの輪郭検出線1900上に3つ以上の輪郭点が検出された場合には、両端の輪郭点を外側の輪郭点1910として特定し得る。この場合、フェイストラッキングモジュール226は、外側の輪郭点1910以外の輪郭点を、内側の輪郭点1920として特定し得る。また、フェイストラッキングモジュール226は、1つの輪郭検出線1900上に2つ以下の輪郭点が検出された場合には、検出された輪郭点を外側の輪郭点1910として特定し得る。
図20は、フェイストラッキングモジュール226が口の形状を検出する処理(その2)を示す。図20では、外側の輪郭点1910は白丸、内側の輪郭点1920はハッチングされた丸としてそれぞれ示されている。
フェイストラッキングモジュール226は、内側の輪郭点1920間を補完することにより、口形状2000(口の開き具合)を特定する。ある局面において、フェイストラッキングモジュール226は、スプライン補間などの非線形の補間方法を用いて、口形状2000を特定し得る。この場合、輪郭点1920は、口形状2000を表す特徴点と言える。なお、他の局面において、フェイストラッキングモジュール226は、外側の輪郭点1910間を補完することにより口形状2000を特定してもよい。さらに他の局面において、フェイストラッキングモジュール226は、想定される口形状(人の上唇と下唇とによって形成され得る所定の形状)から、大きく逸脱する輪郭点を除外し、残った輪郭点によって口形状2000を特定してもよい。このようにして、フェイストラッキングモジュール226は、ユーザ190の口の動作(形状)を特定し得る。
フェイストラッキングモジュール226はさらに、口を構成する上唇と下唇とを検出し得る。一例として、フェイストラッキングモジュール226は、外側の輪郭点1910のうち、横方向の両端に存在する輪郭点1910−Rと輪郭点1910−Lとを特定する。フェイストラッキングモジュール226は、これら両端に存在する輪郭点と、これら輪郭点より上下方向において下側に存在する内側の輪郭点1920および外側の輪郭点1910とによって囲まれる領域2010を下唇として検出し得る。また、フェイストラッキングモジュール226は、両端に存在する外側の輪郭点1910−R,1910−Lと、これら輪郭点より上下方向において上側に存在する内側の輪郭点1920および外側の輪郭点1910とによって囲まれる領域を上唇として検出し得る。
なお、口形状2000の検出方法は上記に限られず、フェイストラッキングモジュール226は、他の手法により口形状2000を検出してもよい。また、フェイストラッキングモジュール226は、同様にして、ユーザ190の目、頬、鼻の形状を検出し得る。より具体的には、フェイストラッキングモジュール226は、第1カメラ116が生成した画像情報と、頬テンプレート247とに基づいて、ユーザ190頬の形状を表す特徴点を検出する。フェイストラッキングモジュール226は、第1カメラ116が生成した画像情報と、鼻テンプレート248とに基づいて、ユーザ190の鼻の形状を表す特徴点を検出する。フェイストラッキングモジュール226は、第2カメラ117が生成した画像情報と、目テンプレート246とに基づいて、ユーザ190の目の形状を表す特徴点を検出する。
ある局面において、第1カメラ116および第2カメラ117は、第3カメラ118と同様に、対象物(顔器官)の深度情報を取得可能に構成される。フェイストラッキングモジュール226は、第1カメラ116および第2カメラ117から入力される深度情報に基づいて、HMD1510に設定されるuvw視野座標系におけるユーザ190の顔器官の形状を表す特徴点(以下、「フェイストラッキングポイント」とも称する)の位置情報を取得する。フェイストラッキングポイントは、例えば、ユーザ190の口の形状を表す輪郭点1920を含む。コンピュータ200は、第1カメラ116および第2カメラ117が生成した1の画像情報に基づいて、フェイストラッキングモジュール226が検出したフェイストラッキングポイントの位置情報を「フェイストラッキングデータ」として他のコンピュータ200Nに出力する。フェイストラッキングデータは、ユーザの顔の表情を表すデータとも言える。フェイストラッキングデータのデータ構造は、図24において後述されるハンドトラッキングデータのように、顔器官毎に検出される各フェイストラッキングポイントの位置情報によって構成され得る。
図21は、現実空間におけるユーザ190の表情と、仮想空間におけるユーザ190のアバターオブジェクト1110の表情との対比を表す。図21(A)は、現実空間におけるユーザ190を表す。図21(B)は、ユーザ190Nが視認する視界画像2100を表す。
図21(A)を参照して、HMDシステム1500を構成する第1カメラ116および第2カメラ117は、ユーザ190を撮影する。このとき、ユーザ190は笑っている。なお、図21(A)において、ユーザはHMD1510を装着しているが、便宜的にHMD1510が存在しないものとして表現している。
フェイストラッキングモジュール226は、第1カメラ116および第2カメラ117によって生成される画像に基づいて、フェイストラッキングデータを生成する。当該フェイストラッキングデータには、ユーザ190の口の形状を表す輪郭点の位置情報が含まれる。コンピュータ200は、生成したフェイストラッキングデータをサーバ150に出力する。サーバ150は、コンピュータ200とチャットアプリケーションによって通信を行なうコンピュータ200Nに、当該データを転送する。
コンピュータ200Nのプロセッサ10Nは、仮想オブジェクト生成モジュール232Nとして、受信したフェイストラッキングデータに基づいてユーザ190の顔の表情をアバターオブジェクト1010に反映する。一例として、アバターオブジェクト1010には、フェイストラッキングモジュール226が検出する複数のフェイストラッキングポイントに対応するように、複数の可動ポイントが設定されている。仮想オブジェクト生成モジュール232Nは、受信したフェイストラッキングポイントの位置(フェイストラッキングデータ)に追随するように、複数の可動ポイントの各々の位置を更新する。これにより、ユーザ190Nは、仮想空間2Nにおいてアバターオブジェクト1010の表情を介して、ユーザ190の表情を認識できる。図21(B)に示される例において、ユーザ190Nは、視界画像2100に表示されるアバターオブジェクト1010の顔を視認することにより、ユーザ190が笑っていることを認識する。
[ハンドトラッキング]
次に、図22〜図24を参照して、手の動きをトラッキングする処理について説明する。図22は、ユーザ190の手をトラッキングする処理について説明するための図である。図22(A)は、現実空間におけるユーザ190を表す。図22(B)は、ユーザ190Nの視界画像2220に含まれるアバターオブジェクト1010を表す。
図22(A)を参照して、ユーザ190は、現実空間においてHMDシステム1500を装着している。HMDシステム1500には、第3カメラ118が搭載されている。第3カメラ118は、HMDシステム1500の前方の空間2200に含まれる物体の深度情報を取得する。図22(A)に示される例において、第3カメラ118は、空間2200に含まれるユーザ190の手2210の深度情報を取得する。
ハンドトラッキングモジュール227は、第3カメラ118によって取得される深度情報に基づき、ユーザ190の手2210の位置情報を取得する。第3カメラ118はHMD1510に搭載されているため、手2210の位置情報はHMDシステム1500に設定されるuvw視野座標系における位置を示し得る。コンピュータ200は、この位置情報を、ハンドトラッキングデータとしてサーバ150を介してコンピュータ200Nに送信する。
図22(B)に示されるように、コンピュータ200Nのプロセッサ10Nは、仮想オブジェクト生成モジュール232Nとして、仮想空間2Nに配置されるアバターオブジェクト1010の手1020を、受信したハンドトラッキングデータから導出される位置に追随させる。一例として、プロセッサ10Nは、受信したハンドトラッキングデータが示す位置(HMDシステム1500に設定されるuvw視野座標系の位置)を、アバターオブジェクト1010の頭部の位置に基づいてXYZ座標系に変換する。プロセッサ10Nは、アバターオブジェクト1010の手1020を、変換後の位置に移動させる。このようにして、ユーザ190Nが視認するアバターオブジェクト1010に、ユーザ190の手2210の動きが反映される。
図23は、ハンドトラッキングモジュール227の処理を説明するための図である。ハンドトラッキングモジュール227は、第3カメラ118から入力される手の深度情報に基づいて、ユーザ190の手2210の骨の動きをトラッキングする。図23に示される例において、ハンドトラッキングモジュール227は、ユーザ190の手2210の関節a、b、c・・・、xの各位置をそれぞれ検出する。
ハンドトラッキングモジュール227は、関節a〜xの位置関係に基づいて、ユーザ190の手2210の形状(指の動き)を認識可能に構成される。この意味で、手2210の関節a〜xは、手2210の形状を表す特徴点(以下、「ハンドトラッキングポイント」とも称する)とも言える。ハンドトラッキングモジュール227は、例えば、ユーザ190の手2210が指を指していること、手2210が開いていること、手2210が閉じていること、手2210が何かをつまむ動作をしていること、手2210がひねられていることなどを認識できる。ハンドトラッキングモジュール227はさらに、関節a〜dと、その他の関節との位置関係により、認識している手が左手であるか右手であるかを判断できる。このような第3カメラ118およびハンドトラッキングモジュール227は、例えば、LeapMotion社によって提供されるLeapMotion(登録商標)によって実現され得る。
図24は、ハンドトラッキングデータのデータ構造の一例を表す。図24に示される例において、ハンドトラッキングデータは、手2210の関節a〜xそれぞれについての、HMD110に設定されるuvw視野座標系における位置情報を表す。ハンドトラッキングモジュール227は、第3カメラ118によって生成される画像情報に基づいて、ハンドトラッキングポイントの位置情報を表すハンドトラッキングデータを生成する。
コンピュータ200は、取得したハンドトラッキングデータを、サーバ150に送信する。サーバ150は、コンピュータ200とチャットアプリケーションによって通信を行なうコンピュータ200Nに、当該データを転送する。コンピュータ200Nのプロセッサ10Nは、仮想オブジェクト生成モジュール232Nとして、受信したハンドトラッキングデータに基づいて、仮想空間2Nに配置されるアバターオブジェクト1010の手1020を構成する関節の位置を更新する。これにより、ユーザ190Nは、仮想空間2Nにおいてアバターオブジェクト1010の手1020を介して、ユーザ190の手2210の動きを認識できる。
[映像と音声との同期]
図25は、ある実施形態においてコンピュータ200とコンピュータ200Nとの間で送受信されるデータの構造の一例を表す。図25Aは、ある実施形態に従うフェイスデータのデータ構造の一例を表す。図25Bは、ある実施形態に従うアイデータのデータ構造の一例を表す。図25Cは、ある実施形態に従う音声パケットのデータ構造の一例を表す。
図25Aを参照して、フェイスデータは、ユーザIDと、フェイストラッキングデータと、時刻情報と、データIDとを含む。ユーザIDは、フェイストラッキングデータの送信元を識別する。フェイストラッキングデータは、フェイストラッキングポイントの位置情報を表す。時刻情報は、対応するフェイストラッキングデータがフェイストラッキングモジュール226によって生成された時刻であり得る。他の局面において、時刻情報は、フェイストラッキングモジュール226によってフェイストラッキングデータが生成された時刻から、遅延時間を差し引いた時刻であり得る。この遅延時間は、第1カメラ116および第2カメラ117が画像情報を生成する処理に要する時間、およびフェイストラッキングモジュール226が画像情報に基づいてフェイストラッキングデータを生成する処理に要する時間を含み得る。遅延時間を考慮された時刻情報は、当該フェイストラッキングデータに対応する表情をユーザ190が行なった時刻を正確に表し得る。このデータIDは、複数のフェイスデータの各々を識別する。このデータIDは、フェイストラッキングデータと他のデータとの同期のために使用される。
ある局面において、ハンドトラッキングデータを含むハンドデータを生成され得る。このハンドデータは、フェイスデータと同様のデータ構造を有する。具体的には、ハンドデータは、ユーザIDと、ハンドトラッキングデータと、時刻情報と、データIDとを含む。この時刻情報は、ハンドトラッキングモジュール227によってハンドトラッキングデータが生成された時刻であり得る。他の局面において、時刻情報は、ハンドトラッキングモジュール227によってハンドトラッキングデータが生成された時刻から遅延時間を差し引いた時刻であり得る。この遅延時間は、第3カメラ118が画像情報を生成する処理に要する時間、およびハンドトラッキングモジュール227が画像情報に基づいてハンドトラッキングデータを生成する処理に要する時間を含み得る。
図25Bを参照して、アイデータは、ユーザIDと、アイトラッキングデータと、時刻情報と、データIDとを含む。ユーザIDは、アイトラッキングデータの送信元を識別する。アイトラッキングデータは、視線検出モジュール233によって検出されるユーザ190の瞳孔の中心座標値(x座標値およびy座標値)を表す。時刻情報は、対応するアイトラッキングデータが視線検出モジュール233によって生成された時刻であり得る。他の局面において、時刻情報は、視線検出モジュール233によってアイトラッキングデータが生成された時刻から、遅延時間を差し引いた時刻であり得る。この遅延時間は、視線検出モジュール233がアイトラッキングデータを生成する処理に要する時間を含み得る。遅延時間が考慮された時刻情報は、当該アイトラッキングデータに対応する動作をユーザ190が行なった時刻を正確に表し得る。このデータIDは、複数のアイデータの各々を識別する。このデータIDは、他のデータとの同期のために使用される。
図25Cを参照して、音声パケットは、ユーザIDと、音声信号と、時刻情報と、データIDとを含む。ユーザIDは、音声パケットの送信元を特定する。音声信号は、ユーザ190の発話から生成されたデジタルデータである。時刻情報は、音声信号に対応する発話が行なわれた時刻を表す。ある局面において、時刻情報は、音声信号が取得され始めた時刻を表す。他の局面において、時刻情報は、音声信号が取得され始めた時刻から、遅延時間を差し引いた時刻であり得る。この遅延時間は、マイク119で取得されるアナログデータをデジタルデータに変換するために必要な時間であり得る。遅延時間を考慮された時刻情報は、当該音声信号に対応する発話をユーザ190が行なった時刻を正確に表し得る。データIDは、他のデータとの同期のための識別情報である。
ある局面において、プロセッサ10は、上記の各種データに関連付けられるデータIDを、時刻情報に基づいて決定する。具体的には、プロセッサ10は、略同じ時刻に取得された各種データに対して、同一のデータIDを付すように構成される。
図26は、コンピュータ200とコンピュータ200Nとがチャットアプリケーションによって通信するための処理を表すフローチャートである。なお、図26に示される処理のうち、図12の処理と同じ処理には図12に示される符号と同じ符号を付している。そのため、これらの処理については繰り返し説明しない。
ステップS2630にて、プロセッサ10は、ユーザ190の動作を検出し、検出結果をチャット先であるコンピュータ200Nに送信する。ユーザ190の動作は、例えば、ユーザ190の視線の動き、顔の表情、手の動きを含む。ユーザ190の動作の検出結果は、例えば、アイトラッキングデータ、フェイストラッキングデータ、ハンドトラッキングデータを含み得る。ある局面において、プロセッサ10は、各々がユーザID、時刻情報、データIDを含むアイデータ、フェイスデータ、およびハンドデータをコンピュータ200Nに送信する。ステップS2635にて、プロセッサ10Nは、ステップS2630の処理と同様に、ユーザ190Nの動作を検出し、検出結果をチャット先、すなわち、コンピュータ200に送信する。
ステップS2640にて、プロセッサ10は、マイク119においてユーザ190の発話を受け付け、その信号に基づく音声信号をチャット先(コンピュータ200N)に送信する。ある局面において、プロセッサ10はユーザID、時刻情報、データIDを含む音声パケットをコンピュータ200Nに送信する。ステップS2645にて、プロセッサ10Nは、ステップS2640の処理と同様に、マイク119Nにおいてユーザ190Nの発話を受け付け、音声パケットをチャット先(コンピュータ200N)に送信する。
ステップS2650にて、プロセッサ10は、HMD1510Nを装着したユーザ190Nの動作の検出結果をコンピュータ200Nから受信する。ステップS2655にて、プロセッサ10Nは、HMD1510を装着したユーザ190の動作の検出結果をコンピュータ200から受信する。
ステップS2660にて、プロセッサ10は、ユーザ190Nの発話に基づく音声信号を含む音声パケットをコンピュータ200Nから受信する。ステップS2665にて、プロセッサ10Nは、ユーザ190の発話に基づく音声信号を含む音声パケットをコンピュータ200から受信する。
ステップS2670にて、プロセッサ10は、ユーザ190Nの動作の検出結果(アイトラッキングデータ、フェイストラッキングデータ、ハンドトラッキングデータ)を仮想空間2に配置されるアバターオブジェクト1010Nに反映したデータを生成する。ステップS2675にて、プロセッサ10は、ユーザ190の動作の検出結果(アイトラッキングデータ、フェイストラッキングデータ、ハンドトラッキングデータ)を仮想空間2Nに配置されるアバターオブジェクト1010に反映したデータを生成する。
ステップS2680にて、プロセッサ10は、アバターオブジェクト1010NをHMD1510に提示するタイミングと、音声をスピーカ115から出力するタイミングとの同期をとる処理を行なう。例えば、ある局面において、コンピュータ200が、ユーザ190Nの動作の検出結果を音声パケットよりも先にコンピュータ200Nから受信した場合、プロセッサ10は、音声パケットを受信するまで、ステップS2670において生成したアバターオブジェクトのデータの出力を待機する。プロセッサ10は、音声パケットを受信すると、音声パケットのユーザIDおよび時刻情報と、動作の検出結果(アイデータ、フェイスデータ、ハンドデータ)のユーザIDと時刻情報とが略同じであるか否かを判定する。一例として、プロセッサ10は、これらの時刻情報が示す時刻の差分が10msec以内である場合に、これらの時刻情報が略同じであると判定する。プロセッサ10は、これらのユーザIDおよび時刻情報が略同じである場合に、処理をステップS1290に切り換える。ステップS2685にて、プロセッサ10Nは、ステップS2680の処理と同様にして、アバターオブジェクト1010をHMD1510Nに提示するタイミングと、音声をスピーカ115Nから出力するタイミングとの同期処理を行なう。
なお、別の局面において、コンピュータ200が、ユーザ190Nの音声信号を含む音声パケットを、ユーザ190Nの動作の検出結果よりも先にコンピュータ200Nから受信する場合があり得る。この場合、プロセッサ10は、ユーザ190Nの動作の検出結果を受信するまで、音声信号の出力を待機する。その後の処理は上記の処理と同じであるため、それらの処理の説明は繰り返さない。
なお、さらに別の局面において、プロセッサ10は、ユーザIDとデータIDとを用いて上述の同期処理を実行し得る。例えば、ある局面において、コンピュータ200は、ユーザID「190N」およびデータID「001」に対応するユーザ190Nの動作の検出結果を、ユーザID「190N」およびデータID「001」に対応する音声パケットよりも先に受信する。この場合、プロセッサ10は、ユーザID「190N」およびデータID「001」に対応する音声パケットを受信するまで、ユーザID「190N」およびデータID「001」に対応する検出結果に基づいて生成されたアバターオブジェクトのデータの出力を待機する。プロセッサ10は、ユーザID「190N」およびデータID「001」の音声パケットを受信すると、アバターオブジェクトのデータと、音声信号とを同じタイミングで出力する。ステップS2680およびS2685の処理は、受信側で時刻情報に基づいて同期処理を行なうものであるが、データIDに基づく同期処理は、送信側が行なうものと言える。
上記によれば、変形例に従うHMDシステム1500は、HMDシステム1500Nとの通信(チャット)において、HMD1510にユーザ190Nに対応するアバターオブジェクト1010Nが提示されるタイミングと、ユーザ190Nの音声が出力されるタイミングとの同期をとる。その結果、HMD1510を装着したユーザ190は、チャット相手のユーザ190Nの動作に基づくアバターオブジェクト1010Nの動作と、ユーザ190Nの音声とを同時に認識するので、違和感を覚えることなくチャットを続けることができる。
[動作を表すデータの送信処理]
次に、ユーザの動作を表すデータ(例えば、アイトラッキングデータ、フェイストラッキングデータ、およびハンドトラッキングデータ)の送信方法について説明する。
アイトラッキングデータ、フェイストラッキングデータ、ハンドトラッキングデータはそれぞれ、単位時間あたりに生成される個数が異なる。それは、注視センサ140、第1カメラ116、第2カメラ117、および第3カメラ118の各々のデータ取得間隔が異なること、および、上記各種データを生成する処理を実行するために要する時間が異なることなどに起因する。
ある局面において、チャット先のコンピュータ200Nは、コンピュータ200から受信した上記各種データに基づいて仮想空間2Nに配置されるアバターオブジェクト1010の表情、視線、手を同じFPSで更新し得る。このような場合に、コンピュータ200が生成した各種データを全てコンピュータ200Nに送信してしまうと、無駄が生じ得る。
また、生成された各種データを全てチャット先に送信してしまうと、トラフィックが増えることに起因して、サーバ150の処理負担増加およびチャット先で表示されるアバターオブジェクトの動作のコマ落ちが生じ得る。アバターオブジェクトの動作のコマ落ちが生じると、チャット先のユーザは、アバターオブジェクトが不自然な動作をしていると認識し、チャットに集中できない。そこで、以下にこのような課題を解決し得る処理について説明する。
一例として、図27〜図29を用いてアイトラッキングデータおよびフェイストラッキングデータをチャット先に送信する処理について説明する。
図27は、リングバッファ11Aのデータ構造の一例を表す。図28は、リングバッファ11Bのデータ構造の一例を表す。
ある局面において、プロセッサ10は、フェイストラッキングモジュール226として、第1カメラ116および第2カメラ117の出力信号を12.5msec(80FPS(Flame Per Sec))ごとに受け付ける。フェイストラッキングモジュール226は、出力信号を受け付ける毎に、受け付けた信号に基づいてフェイストラッキングデータを生成する。一例として、フェイストラッキングモジュール226は、80FPSでフェイストラッキングデータを生成する。
図27に示されるように、プロセッサ10は、生成したフェイストラッキングデータをメモリ11に含まれるリングバッファ11Aに格納する。図27の例において、リングバッファ11Aは、10個のフェイストラッキングデータを格納可能に構成される。また、フェイストラッキングデータFの末尾の数字が大きいほど、新しいデータであることを表す。プロセッサ10は、最も古いフェイストラッキングデータを新たに入力されたフェイストラッキングデータで更新するように構成される。
また、プロセッサ10は、視線検出モジュール233として注視センサ140の出力信号を8.3msec(120FPS)毎に受け付ける。視線検出モジュール233は、出力信号を受け付ける毎に、受け付けた信号に基づいてアイトラッキングデータを生成する。一例として、視線検出モジュール233は、120FPSでアイトラッキングデータを生成する。
図28に示されるように、プロセッサ10は、生成したアイトラッキングデータをリングバッファ11Bに格納する。図28の例において、リングバッファ11Bは、10個のアイトラッキングデータを格納可能に構成される。また、アイトラッキングデータEの末尾の数字が大きいほど、新しいデータであることを表す。プロセッサ10は、最も古いアイトラッキングデータを新たに入力されたアイトラッキングデータで更新するように構成される。
(アニメーションデータの生成処理−入力タイミングに基づく処理)
図29は、アニメーションデータの生成処理について説明するための図である。アニメーションデータは、ユーザの動作を表すデータ(例えば、アイトラッキングデータ、フェイストラッキングデータ、ハンドトラッキングデータ)を少なくとも2種類以上含むデータである。他の観点から見れば、アニメーションデータは、ユーザの動作を仮想空間に配置されるアバターオブジェクトに反映させるために必要なデータである。図29の例において、アニメーションデータは、フェイストラッキングデータとアイトラッキングデータとを含む。
ある局面において、プロセッサ10は、所定時間間隔毎にアニメーションデータを生成する。所定時間間隔は、一例として16.7msec(60FPS)とする。時刻T2900において、プロセッサ10は、アニメーションデータを生成する。より具体的には、プロセッサ10は、時刻T2900において、リングバッファ11Aに格納されている複数のフェイストラッキングデータ(図29のF4,F5)のうち最新のフェイストラッキングデータ(図29のF5)と、リングバッファ11Bに格納されている複数のアイトラッキングデータ(図29のE6〜E8)のうち最新のアイトラッキングデータ(図29のE8)とを互いに関連付けてアニメーションデータを生成する。
時刻T2900から所定時間経過後の時刻T2910において、プロセッサ10はアニメーションデータを再び生成する。図29の例において、プロセッサ10は、時刻T2910に、最新のフェイストラッキングデータ(図29のF7)とアイトラッキングデータ(図29のE10)とを互いに関連付けてアニメーションデータを生成する。プロセッサ10は、生成したアニメーションデータをサーバ150を介してチャット先(例えば、コンピュータ200N)に送信する。
上記によれば、サーバ150を介してチャット先に送信される複数のアニメーションデータの各々を構成するアイトラッキングデータおよびフェイストラッキングデータの総数は、視線検出モジュール233によって生成されるアイトラッキングデータおよびフェイストラッキングモジュール226によって生成されるフェイストラッキングデータの総数よりも少ない。つまり、ある実施形態に従うHMDシステム1500は、サーバ150を介してチャット先に送信するデータ量を抑制することができる。これにより、ネットワーク19におけるトラフィックが軽減され、チャット先にアニメーションデータが送信されやすくなる。その結果、チャット先で表示されるアバターオブジェクトは、コマ落ちすることなく滑らかに動作し得る。
また、ある局面に従うHMDシステム1500は、リングバッファ11Aおよび11Bを利用して、略同じ時刻に生成されたアイトラッキングデータとフェイストラッキングデータとを互いに関連付けてアニメメーションデータを生成している。これにより、このアイトラッキングデータに対応する動作をユーザ190が行なった時刻と、フェイストラッキングデータに対応する動作をユーザ190が行なった時刻とは、略同じになる。そのため、チャット先のコンピュータは、受信したアニメーションデータに含まれるアイトラッキングデータとフェイストラッキングデータとを同じタイミングでアバターオブジェクトに反映するだけで、これらのデータ(に対応するアバターオブジェクトの動作)の同期をとることができる。
上記の例において、第1カメラ116および第2カメラ117がコンピュータ200に信号を出力する時間間隔(12.5msec)よりも、注視センサ140がコンピュータ200に信号を出力する時間間隔(8.3msec)の方が短い。ある局面において、プロセッサ10は、生成された複数のアニメーションデータに含まれるアイトラッキングデータの総数が、フェイストラッキングモジュール226によって生成されるフェイストラッキングデータの総数よりも少なくなるように、アニメーションデータを生成する。
また、上記の例において、プロセッサ10は、1つのアイトラッキングデータと1つのフェイストラッキングデータとを互いに関連付けてアニメーションデータを生成しているが、アニメーションデータの生成方法はこれに限られない。例えば、プロセッサ10は、アイトラッキングデータとフェイストラッキングデータとが一対一対応の関係になるように(例えば、これらのデータを2つずつ含む)アニメーションデータを生成し得る。
さらに他の局面において、プロセッサ10は、アイトラッキングデータとフェイストラッキングデータとが一対一対応以外の関係になるようにアニメーションデータを生成し得る。例えば、チャット先のコンピュータ200Nが仮想空間2Nに配置されるアバターオブジェクト1010の視線の動作を更新する頻度が、表情の動作を更新する頻度の2倍である場合がある。この場合、プロセッサ10は、2つのアイトラッキングデータと1つのフェイストラッキングデータとを含むアニメーションデータを生成し得る。
(アニメーションデータの生成処理−時刻情報に基づく処理)
図30は、他の局面に従うアニメーションデータの生成処理について説明するための図である。図29の例では、プロセッサ10は、最新のアイトラッキングデータとフェイストラッキングデータとを互いに関連付けてアニメーションデータを生成するように構成されている。図30の例では、プロセッサ10は、アイトラッキングデータに関連付けられた時刻情報と、フェイストラッキングデータに関連付けられた時刻情報とに基づいて、アニメーションデータを生成する。
アイトラッキングデータに関連付けられた時刻情報は、図25Bで説明した時刻情報であり得る。この場合、コンピュータ200は、内部のRTC(Real Time Clock)から時刻情報を取得し得る。他の局面において、アイトラッキングデータに関連付けられた時刻情報は、対応するデータが注視センサ140によって検出された時刻であり得る。この場合、コンピュータ200は注視センサ140から時刻情報を取得し得る。
フェイストラッキングデータに関連付けられた時刻情報は、図25Aで説明した時刻情報であり得る。この場合、コンピュータ200は、内部のRTCから時刻情報を取得し得る。他の局面において、フェイストラッキングデータに関連付けられた時刻情報は、対応するデータが第1カメラ116または第2カメラ117によって検出された時刻であり得る。この場合、コンピュータ200は第1カメラ116または第2カメラ117から時刻情報を取得し得る。
図30を参照して、プロセッサ10は、アニメーションデータの生成タイミングである時刻T2900において、リングバッファ11A、11Bに格納される複数のアイトラッキングデータおよびフェイストラッキングデータのうち、新しいデータであって、かつ、取得された時刻が互いに最も近い2種類のデータを用いてアニメーションデータを生成する。
一例として、プロセッサ10は、アイトラッキングデータおよびフェイストラッキングデータのうち、FPS(単位時間あたりに生成される個数)が低いフェイストラッキングデータについて、最新のデータ(図30のF5)を特定する。
次に、プロセッサ10は、特定したフェイストラッキングデータF5に関連付けられた時刻T3020に最も近い時刻を関連付けられたアイトラッキングデータを特定する。図30の例において、プロセッサ10は、時刻T3010が関連付けられたアイトラッキングデータE7を特定する。プロセッサ10は、これら特定したフェイストラッキングデータとアイトラッキングデータとを互いに関連付けてアニメーションデータを生成する。
上記によれば、ある局面に従うHMDシステム1500は、アニメーションデータに含まれるフェイストラッキングデータとアイトラッキングデータとの同期をより正確に行なうことができる。
(アニメーションパケット)
ある局面において、プロセッサ10は、生成したアニメーションデータを複数含むアニメーションパケットを所定時間間隔毎に送信するように構成される。一例として、アニメーションパケットは100msec間隔(10FPS)で送信される。なお、アニメーションパケットの送信時間間隔は固定値でなく、可変値であってもよい。
図31は、アニメーションパケットの生成処理および送信処理について説明するための図である。図31を参照して、プロセッサ10は、時刻T3100においてアニメーションパケットAP1をサーバ150を介してチャット先に送信する。また、プロセッサ10は、時刻T3100から所定時間(例えば100msec)経過した時刻T3110において次のアニメーションパケットAP2を送信する。
アニメーションパケットAP2は、時刻T3100〜時刻T3110の期間に生成されたアニメーションデータA1〜A6を含む。このとき、アニメーションデータは上記の期間に生成されているが、必ずしもアニメーションデータを構成するアイトラッキングデータおよびフェイストラッキングデータは上記の期間に生成されている訳ではない。図31に示される例において、アニメーションデータA1を構成するフェイストラッキングデータF5は、時刻T3100よりも前に生成されている。
図32は、アニメーションパケットのデータ構造の一例を表す。アニメーションパケットは、MAC(Media Access Control)ヘッダ、IP(Internet Protocol)ヘッダ、TCP(Transmission Control Protocol)ヘッダなどの各種ヘッダ情報と、ペイロードと、誤り訂正のためのFCS(Frame Check Sequence)とを含む。
MACヘッダは、チャット先のコンピュータ(例えばコンピュータ200N)を特定するための情報を含み得る。サーバ150は、MACヘッダを参照して、チャット先のコンピュータにアニメーションパケットを転送する。
ペイロードは、複数のアニメーションデータと、FPS情報と、ユーザIDと、データIDとを有する。FPS情報は、単位時間あたりに生成されるアニメーションデータの数を表す。FPS情報は、チャット先のコンピュータにおけるアニメーションデータの反映処理に用いられ得る。図31の例において、FPS情報は60である。ユーザIDは、アニメーションパケットの送信元を識別する。データIDは、複数のアニメーションパケットの各々を互いに識別する。ユーザIDおよびデータIDは、後述するアバターオブジェクトの動作と音声との同期処理に用いられる。
なお、アニメーションパケットの送信時間間隔が固定値である場合、アニメーションパケットはFPS情報を含まなくともよい。係る場合、プロセッサ10は、チャット開始時に、チャット先のコンピュータに当該固定値を表す情報を送信し得る。
(映像と音声との同期)
次に、複数種類のユーザの動作を表すデータを含むアニメーションデータを送受信する場合における、映像と音声との同期処理について説明する。
図33は、アバターオブジェクトの動作と、音声の出力タイミングとの同期処理について説明するための図である。図34は、音声パケットのデータ構造の一例を表す。
図33を参照して、プロセッサ10は、マイク119から所定期間にわたり入力される音声信号を含む音声パケットをチャット先に送信するように構成される。ある局面において、この所定期間は、アニメーションパケットの送信時間間隔と同じ期間に設定される。
より具体的には、プロセッサ10は、アニメーションパケットを構成する複数のアニメーションデータのうち、最も先に生成されたアニメーションデータに関連付けられた時刻情報が表すタイミングから上記所定期間にわたり入力される音声信号を含むように音声パケットを生成する。ある局面において、アニメーションデータに関連付けられた時刻情報は、当該アニメーションデータを構成するアイトラッキングデータおよびフェイストラッキングデータのいずれか一方に関連付けられた時刻情報(例えば、早い時刻を表す時刻情報)であり得る。他の局面において、アニメーションデータに関連付けられた時刻情報は、当該アニメーションデータが生成された時刻を表す。
図33の例において、アニメーションパケットAP2は複数のアニメーションデータA1〜A6によって構成される。複数のアニメーションデータA1〜A6のうち、アニメーションデータA1が最も先に生成されている。プロセッサ10は、最も先に生成されたアニメーションデータA1に関連付けられた時刻情報が表す時刻T3300から上記所定期間にわたり入力される音声信号を含むように音声パケットを生成する。図33の例において、アニメーションデータA1に関連付けられた時刻情報が表す時刻T3300は、アニメーションデータA1を構成するフェイストラッキングデータF5、アイトラッキングデータE8それぞれに関連付けられた時刻情報のうち、早い時刻を表すアイトラッキングデータE8に関連付けられた時刻情報である。
図34に示されるように、ある局面に従う音声パケットは、ユーザIDと、データIDとを含む。ユーザIDは、音声パケットの送信元を識別する。データIDは、複数の音声パケットの各々を互いに識別する。プロセッサ10は、音声パケットに含まれるデータIDと、当該音声パケットに対応するアニメーションパケットに含まれるデータIDとを同じ値に設定する。より具体的には、プロセッサ10は、アニメーションパケットのデータIDと、当該アニメーションパケットに含まれるアニメーションデータに関連付けられた時刻情報を基準として取得される音声信号を含む音声パケットのデータIDとを同じ値に設定する。図33に示される例において、プロセッサ10は、アニメーションパケットAP2と、時刻T3300〜時刻T3310までの期間にわたり取得された音声信号を含む音声パケットとに、同じデータIDを付与する。
プロセッサ10は、これらアニメーションパケットと音声パケットとをサーバ150を介してチャット先のコンピュータ200Nに送信する。コンピュータ200Nは、受信したアニメーションパケットに含まれる複数のアニメーションデータ(を構成するアイトラッキングデータおよびフェイストラッキングデータ)を仮想空間2Nに配置されるアバターオブジェクト1010に順次反映する。
このとき、コンピュータ200Nは、アニメーションパケットに含まれるFPS情報に基づいて、アニメーションパケットに含まれる複数のアニメーションデータをアバターオブジェクト1010に反映するタイミングを制御する。例えば、FPS情報が「60」(FPS)であって、HMD1510Nのモニタ112Nのリフレッシュレート(画像が単位時間あたりに更新される回数)が「120」であるとする。係る場合、コンピュータ200Nは、2フレームに1回の割合で、アニメーションデータをアバターオブジェクト1010に反映する。その理由は、仮に1フレーム毎に反映した場合、アバターオブジェクト1010の動作が倍速で表示され、ユーザ190Nが違和感を覚えるためである。
なお、他の局面においてアニメーションパケットは、FPS情報に代えて、アニメーションパケットの送信時間間隔を表す情報を含むように構成されても良い。その理由は、アニメーションパケットに含まれるアニメーションデータの数と、送信時間間隔とから、FPS情報を導出できるためである。
また、コンピュータ200Nは、受信したアニメーションパケットに含まれるアニメーションデータをアバターオブジェクト1010に反映するタイミングで、当該アニメーションパケットと同一のユーザIDおよびデータIDが付された音声パケットに含まれる音声信号をスピーカ119Nから出力する。これにより、仮想空間2Nにおけるアバターオブジェクト1010の動作と、当該動作に同期したユーザ190の音声とがユーザ190Nに提示される。その結果、ユーザ190Nは、仮想空間2N上でスムーズにユーザ190とのチャットを行なうことができる。
なお、上記の例において、音声パケットは、アニメーションパケットの送信時間間隔にわたり取得された音声信号を含むように構成されている。他の例において、音声パケットは、この送信時間間隔の整数倍の期間にわたり取得された音声信号を含むように構成されてもよい。当該構成によっても、仮想空間2Nにおけるアバターオブジェクト1010の動作と、当該動作に同期した音声とがユーザ190Nに提示されるためである。なお、係る場合、データIDが付されない(データIDがnullである)アニメーションパケットが定期的に生成され得る。
(制御構造)
図35は、アニメーションパケットと音声パケットとを用いた映像と音声との同期処理の一例を表すフローチャートである。なお、図35に示される処理のうち、図12の処理と同じ処理には図12に示される符号と同じ符号を付している。そのため、これらの処理については繰り返し説明しない。
ステップS3510にて、コンピュータ200のプロセッサ10は、フェイストラッキングモジュール226として、第1カメラ116および第2カメラ117の出力信号を所定間隔(例えば12.5msec)で受け付けて、受け付けた信号に基づいてフェイストラッキングデータを生成する。プロセッサ10は、生成したフェイストラッキングデータをリングバッファ11Aに随時記憶する。
ステップS3520にて、プロセッサ10は、視線検出モジュール233として、注視センサ140の出力信号を所定間隔(例えば8.3msec)で受け付けて、受け付けた信号に基づいてアイトラッキングデータを生成する。プロセッサ10は、生成したアイトラッキングデータをリングバッファ11Bに随時記憶する。
ステップS3530にて、プロセッサ10は、所定間隔(例えば60FPS)で生成されるアニメーションデータの生成タイミングで、リングバッファ11Aに格納される最新のフェイストラッキングデータと、リングバッファ11Bに格納される最新のアイトラッキングデータとを互いに関連付けてアニメーションデータを生成する。
ステップS3540にて、プロセッサ10は、アニメーションパケットの送信時間間隔が経過したか否かを判断する。プロセッサ10は、送信時間間隔が経過したと判断した場合(ステップS3540にてYES)、処理をステップS3550に進める。一方、プロセッサ10は、送信時間間隔が経過していないと判断した場合(ステップS3540にてNO)、処理をステップS3510に戻し、再びアニメーションデータを生成するための処理を実行する。
ステップS3550にて、プロセッサ10は、送信時間間隔内に生成した複数のアニメーションデータを含むアニメーションパケットを生成して、サーバ150を介してチャット先のコンピュータ200Nに送信する。
ステップS3555にて、コンピュータ200Nのプロセッサ10Nは、サーバ150を介してコンピュータ200からアニメーションパケットを受信する。
ステップS3560にて、プロセッサ10は、ステップS3550で送信したアニメーションパケットを構成する複数アニメーションデータのうち、最も先に生成されたアニメーションデータに関連付けられた時刻情報が表すタイミングから、上記送信時間間隔にわたり取得された音声信号を含む音声パケットを生成する。プロセッサ10は、生成した音声パケットをコンピュータ200Nに送信する。その後、プロセッサ10は処理をステップS3510に戻す。
ステップS3565にて、プロセッサ10Nは、コンピュータ200から音声パケットを受信する。
ステップS3575にて、プロセッサ10Nは、受信したアニメーションパケットに含まれるアニメーションデータを仮想空間2Nに配置されるアバターオブジェクト1010に反映するタイミングで、当該アニメーションパケットと同一のユーザIDおよびデータIDが付された音声パケットに含まれる音声信号をスピーカ119Nから出力する。その後、プロセッサ10Nは、処理をステップS3555に戻す。
上記によれば、HMDシステム1500Nは、仮想空間2Nに配置されるアバターオブジェクト1010の動作と、スピーカ119Nから出力されるユーザ190の音声とを同期できる。そのため、ユーザ190Nは、仮想空間2N上でスムーズにユーザ190とチャットすることができる。
またコンピュータ200は、生成された全てのアイトラッキングデータおよびフェイストラッキングデータをチャット先のコンピュータ200Nに送信しない。そのため、HMDシステム1500は、ネットワークにおけるトラフィック、サーバ150の処理負担、およびチャット先のコンピュータ200Nの処理負担を軽減できる。
(チャット先のリフレッシュレートを考慮した制御構造)
図36は、チャット先のリフレッシュレートを考慮した映像と音声との同期処理の一例を表すフローチャートである。なお、図36に示される処理のうち、図35の処理と同じ処理には図35に示される符号と同じ符号を付している。そのため、これらの処理については繰り返し説明しない。
ステップS3615にて、コンピュータ200Nのプロセッサ10Nは、モニタ112Nのリフレッシュレートをチャット先のコンピュータ200に送信する。このリフレッシュレートは、モニタ112Nにおいて仮想空間2Nに対応する画像が単位時間に更新される回数を表す。
ステップS3620にて、コンピュータ200のプロセッサ10は、コンピュータ200Nからモニタ112Nのリフレッシュレートを表す情報を受信する。
ステップS3630にて、プロセッサ10は、アニメーションデータの生成時間間隔を設定する。より具体的には、プロセッサ10は、アニメーションデータの生成時間間隔がモニタ112Nのリフレッシュレート以下になるようにする。その理由は、例えば、アニメーションデータが60FPSで生成され、モニタ112Nのリフレッシュレートが30FPSである場合に、生成されたアニメーションデータを全てコンピュータ200Nに送信してしまうと、半分のアニメーションデータがアバターオブジェクト1010に反映されることなく無駄になってしまうためである。
上記によれば、HMDシステム1500は、ネットワークにおけるトラフィック、サーバ150の処理負担、およびチャット先のコンピュータ200Nの処理負担をより一層軽減し得る。
以上、ある実施形態の局面として開示された上記の技術的特徴は、例えば、以下のように要約され得る。
(構成1) ある実施形態に従うと、仮想空間2を介して通信するためにコンピュータ200で実行される方法が提供される。この方法は、第1センサ(例えば、第1カメラ116および第2カメラ117、並びに第3カメラ)の出力信号を第1時間間隔で受け付けて、受け付けた信号に基づいて第1データ(例えば、フェイストラッキングデータ、ハンドトラッキングデータ)を生成するステップ(S3510)と、第1センサとは異なる第2センサ(例えば、注視センサ140)の出力信号を第1時間間隔よりも短い第2時間間隔で受け付けて、受け付けた信号に基づいて第2データ(例えば、アイトラッキングデータ)を生成するステップ(S3520)と、生成された第1データと、生成された第2データとを含む複数のアニメーションデータを生成するステップ(S3530)と、生成された複数のアニメーションデータをコンピュータ200と通信可能な他のコンピュータ200Nに送信するステップ(S3550)とを備える。複数のアニメーションデータに含まれる第2データの総数は、生成された複数の第2データの総数よりも少ない。
(構成2) ある実施形態に従うと、複数のアニメーションデータを生成するステップ(S3530)は、第1データと第2データとが一対一対応になるようにアニメーションデータを生成することを含む。
(構成3) ある実施形態に従うと、上記の方法は、生成された複数の第1データごとに第1時刻情報を取得するステップと、生成された複数の第2データごとに第2時刻情報を取得するステップとをさらに備える。複数のアニメーションデータを生成するステップ(S3530)は、第1および第2時刻情報に基づいて、生成された第1データと、生成された第2データとを、互いに関連付けてアニメーションデータを生成することを含む(図30)。
(構成4) ある実施形態に従うと、上記の方法は、生成された第1および第2データをメモリ11に記憶するステップ(S3510,3520)をさらに備える。複数のアニメーションデータを生成するステップ(S3530)は、メモリ11に記憶された第1および第2データのうち、最も新しい第1データと第2データとを互いに関連付けてアニメーションデータを生成することを含む。
(構成5) ある実施形態に従うと、上記の方法は、他のコンピュータ200Nに接続されたヘッドマウントデバイス1510Nのモニタ112Nのリフレッシュレート(仮想空間に対応する画像が単位時間あたりに更新される回数)を表す情報を受信するステップ(S3620)をさらに備える。複数のアニメーションデータを生成するステップ(S3530)は、単位時間あたりに生成されるアニメーションデータの個数が、更新される回数以下になるようにアニメーションデータを生成することを含む。
(構成6) ある実施形態に従うと、アニメーションデータを送信するステップ(S3530)は、アニメーションデータを複数個含むアニメーションパケットを所定時間間隔ごとに他のコンピュータ200Nに送信することを含む。
(構成7) ある実施形態に従うと、アニメーションパケットは、単位時間あたりに生成されるアニメーションデータの数の情報または所定時間間隔を表す情報を含む。
(構成8) ある実施形態に従うと、上記の方法は、ユーザ190の発話に基づく音声信号を取得するステップと、所定時間間隔の整数倍の期間にわたり取得された音声信号を含む音声パケットを他のコンピュータ200Nに送信するステップ(S3560)とをさらに備える。
(構成9) ある実施形態に従うと、音声パケットは、アニメーションパケットを構成する複数のアニメーションデータのうち最も先に生成されたアニメーションデータに関連付けられた時刻情報が表すタイミングから期間にわたり取得された音声信号を含む。
(構成10) ある実施形態に従うと、アニメーションパケットは、複数のアニメーションパケットの各々を識別するための識別情報を含む。音声パケットは、当該音声パケットに対応するアニメーションパケットに含まれる識別情報を含む。
(構成11) ある実施形態に従うと、上記の方法は、コンピュータ200に接続されたヘッドマウントデバイス1510のディスプレイ112に視界画像を表示してヘッドマウントデバイス1510のユーザ190に仮想空間2を提供するステップと、コンピュータ200に接続されたヘッドマウントデバイス1510の動きを検出するステップと、検出された動きに連動して視界画像を更新するステップとを備える。
(構成12) ある実施形態に従うと、上記のいずれかに記載の方法をコンピュータ200に実行させるプログラムが提供される。
(構成13) ある実施形態に従うと、上記のプログラムを格納するためのメモリと、メモリに結合され、プログラムを実行するためのプロセッサとを備える、情報処理装置が提供される。
今回開示された実施形態は全ての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内での全ての変更が含まれることが意図される。
1 仮想カメラ、2 仮想空間、5 基準視線、10 プロセッサ、11 メモリ、11A,11B リングバッファ、12 ストレージ、13 入出力インターフェイス、14 通信インターフェイス、15 バス、19 ネットワーク、21 中心、22,22N,22X 仮想空間画像、23 視界領域、24,25 領域、26 視界画像、30 グリップ、31 フレーム、32 天面、33,34,36,37 ボタン、38 アナログスティック、100,100N,100X システム、112,112N,112X モニタ、114,120 センサ、115 スピーカ、116 第1カメラ、117 第2カメラ、118 第3カメラ、119 マイク、130 モーションセンサ、140 注視センサ、150 サーバ、160 コントローラ、190,190N,190X ユーザ、200,200N,200X コンピュータ、220 表示制御モジュール、221 仮想カメラ制御モジュール、222 視界領域決定モジュール、223 視界画像生成モジュール、224 基準視線特定モジュール、225 音声制御モジュール、225A 顔器官検出モジュール、226 フェイストラッキングモジュール、227 ハンドトラッキングモジュール、230 仮想空間制御モジュール、231 仮想空間定義モジュール、232 仮想オブジェクト生成モジュール、233 視線検出モジュール、234 同期モジュール、235 チャット制御モジュール、240 メモリモジュール、241 空間情報、242 オブジェクト情報、243 ユーザ情報、244 顔情報、245 口テンプレート、246 目テンプレート、247 頬テンプレート、248 鼻テンプレート、250 通信制御モジュール、800 右コントローラ、810 右手、1010,1010N,1010X,1410 アバターオブジェクト、1110,1120 グラフ、1310,1330 アイトラッキングデータ、1320,1340 音声データ、1800 顔画像、1810 口領域、1900 輪郭検出線、1910,1920 輪郭点、2000 口形状。

Claims (13)

  1. 仮想空間を介して通信するためにコンピュータで実行される方法であって、
    第1センサの出力信号を第1時間間隔で受け付けて、前記受け付けた信号に基づいて第1データを生成するステップと、
    第2センサの出力信号を前記第1時間間隔よりも短い第2時間間隔で受け付けて、前記受け付けた信号に基づいて第2データを生成するステップと、
    前記生成された第1データと、前記生成された第2データとを含む複数のアニメーションデータを生成するステップと、
    前記生成された複数のアニメーションデータを前記コンピュータと通信可能な他のコンピュータに送信するステップとを備え、
    前記複数のアニメーションデータに含まれる前記第2データの総数は、前記生成された複数の第2データの総数よりも少ない、方法。
  2. 前記複数のアニメーションデータを生成するステップは、前記第1データと前記第2データとが一対一対応になるようにアニメーションデータを生成することを含む、請求項1に記載の方法。
  3. 前記生成された複数の第1データごとに第1時刻情報を取得するステップと、
    前記生成された複数の第2データごとに第2時刻情報を取得するステップとをさらに備え、
    前記複数のアニメーションデータを生成するステップは、前記第1および第2時刻情報に基づいて、前記生成された第1データと、前記生成された第2データとを、互いに関連付けてアニメーションデータを生成することを含む、請求項1または2に記載の方法。
  4. 前記生成された第1および第2データをメモリに記憶するステップをさらに備え、
    前記複数のアニメーションデータを生成するステップは、前記メモリに記憶された前記第1および第2データのうち、最も新しい前記第1データと前記第2データとを互いに関連付けてアニメーションデータを生成することを含む、請求項1または2に記載の方法。
  5. 前記他のコンピュータに接続されたヘッドマウントデバイスのディスプレイにおいて前記仮想空間に対応する画像が単位時間あたりに更新される回数を表す情報を受信するステップをさらに備え、
    前記複数のアニメーションデータを生成するステップは、単位時間あたりに生成されるアニメーションデータの個数が、前記更新される回数以下になるようにアニメーションデータを生成することを含む、請求項1〜4のいずれか1項に記載の方法。
  6. 前記アニメーションデータを送信するステップは、前記アニメーションデータを複数個含むアニメーションパケットを所定時間間隔ごとに前記他のコンピュータに送信することを含む、請求項1〜5のいずれか1項に記載の方法。
  7. 前記アニメーションパケットは、単位時間あたりに生成されるアニメーションデータの数の情報または前記所定時間間隔を表す情報を含む、請求項6に記載の方法。
  8. 前記ユーザの発話に基づく音声信号を取得するステップと、
    前記所定時間間隔の整数倍の期間にわたり取得された前記音声信号を含む音声パケットを前記他のコンピュータに送信するステップとをさらに備える、請求項6または7に記載の方法。
  9. 前記音声パケットは、前記アニメーションパケットを構成する複数のアニメーションデータのうち最も先に生成されたアニメーションデータに関連付けられた時刻情報が表すタイミングから前記期間にわたり取得された前記音声信号を含む、請求項8に記載の方法。
  10. 前記アニメーションパケットは、複数のアニメーションパケットの各々を識別するための識別情報を含み、
    前記音声パケットは、当該音声パケットに対応する前記アニメーションパケットに含まれる識別情報を含む、請求項8または9に記載の方法。
  11. 前記コンピュータに接続されたヘッドマウントデバイスのディスプレイに視界画像を表示して前記ヘッドマウントデバイスのユーザに仮想空間を提供するステップと、
    前記コンピュータに接続されたヘッドマウントデバイスの動きを検出するステップと、
    前記検出された動きに連動して前記視界画像を更新するステップとを備える、請求項1〜9のいずれか1項に記載の方法。
  12. 請求項1〜11のいずれか1項に記載の方法をコンピュータに実現させるためのプログラム。
  13. 請求項12に記載のプログラムを格納したメモリと、
    前記プログラムを実行するためのプロセッサとを備える、情報処理装置。
JP2017199932A 2017-10-13 2017-10-13 仮想空間を介して通信するためにコンピュータで実行される方法、当該方法をコンピュータに実行させるプログラム、および、情報処理装置 Withdrawn JP2018185786A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017199932A JP2018185786A (ja) 2017-10-13 2017-10-13 仮想空間を介して通信するためにコンピュータで実行される方法、当該方法をコンピュータに実行させるプログラム、および、情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017199932A JP2018185786A (ja) 2017-10-13 2017-10-13 仮想空間を介して通信するためにコンピュータで実行される方法、当該方法をコンピュータに実行させるプログラム、および、情報処理装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2017087311A Division JP6229089B1 (ja) 2017-04-26 2017-04-26 仮想空間を介して通信するためにコンピュータで実行される方法、当該方法をコンピュータに実行させるプログラム、および、情報処理装置

Publications (1)

Publication Number Publication Date
JP2018185786A true JP2018185786A (ja) 2018-11-22

Family

ID=64356054

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017199932A Withdrawn JP2018185786A (ja) 2017-10-13 2017-10-13 仮想空間を介して通信するためにコンピュータで実行される方法、当該方法をコンピュータに実行させるプログラム、および、情報処理装置

Country Status (1)

Country Link
JP (1) JP2018185786A (ja)

Similar Documents

Publication Publication Date Title
JP6212667B1 (ja) 仮想空間を介して通信するためにコンピュータで実行される方法、当該方法をコンピュータに実行させるプログラム、および、情報処理装置
JP6229089B1 (ja) 仮想空間を介して通信するためにコンピュータで実行される方法、当該方法をコンピュータに実行させるプログラム、および、情報処理装置
US20180165862A1 (en) Method for communication via virtual space, program for executing the method on a computer, and information processing device for executing the program
US20180189549A1 (en) Method for communication via virtual space, program for executing the method on computer, and information processing apparatus for executing the program
JP6263252B1 (ja) 情報処理方法、装置、および当該情報処理方法をコンピュータに実行させるためのプログラム
US10313481B2 (en) Information processing method and system for executing the information method
US10223064B2 (en) Method for providing virtual space, program and apparatus therefor
US20190018479A1 (en) Program for providing virtual space, information processing apparatus for executing the program, and method for providing virtual space
JP6290467B1 (ja) 情報処理方法、装置、および当該情報処理方法をコンピュータに実行させるプログラム
US10410395B2 (en) Method for communicating via virtual space and system for executing the method
JP6306765B1 (ja) 仮想空間を移動するためにコンピュータで実行される方法、当該方法をコンピュータに実行させるプログラムおよび情報処理装置
US20180348987A1 (en) Method executed on computer for providing virtual space, program and information processing apparatus therefor
JP6201028B1 (ja) 情報処理方法、装置、および当該情報処理方法をコンピュータに実行させるためのプログラム
US20180299948A1 (en) Method for communicating via virtual space and system for executing the method
US20180329487A1 (en) Information processing method, computer and program
JP2018125003A (ja) 情報処理方法、装置、および当該情報処理方法をコンピュータに実行させるプログラム
JP6495398B2 (ja) 仮想空間を提供するための方法、プログラム、および当該プログラムを実行するための情報処理装置
JP6225242B1 (ja) 情報処理方法、装置、および当該情報処理方法をコンピュータに実行させるプログラム
JP2018142319A (ja) 仮想空間を移動するためにコンピュータで実行される方法、当該方法をコンピュータに実行させるプログラムおよび情報処理装置
JP2019030638A (ja) 情報処理方法、装置、および当該情報処理方法をコンピュータに実行させるためのプログラム
JP2018092592A (ja) 情報処理方法、装置、および当該情報処理方法をコンピュータに実行させるためのプログラム
JP2019016071A (ja) 情報処理方法、プログラム及びコンピュータ
JP6321247B1 (ja) 仮想空間を移動するためにコンピュータで実行される方法、当該方法をコンピュータに実行させるプログラムおよび情報処理装置
JP2018185786A (ja) 仮想空間を介して通信するためにコンピュータで実行される方法、当該方法をコンピュータに実行させるプログラム、および、情報処理装置
JP2019016358A (ja) 情報処理方法、プログラム及びコンピュータ

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200323

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20210202