以下、この技術的思想の実施の形態について図面を参照しながら詳細に説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称および機能も同じである。したがって、それらについての詳細な説明は繰り返さない。なお、以下で説明される各実施の形態は、適宜選択的に組み合わされてもよい。
[HMDシステムの構成]
図1を参照して、HMD(Head-Mounted Device)システム100の構成について説明する。図1は、HMDシステム100の構成の概略を表す図である。HMDシステム100は、家庭用のシステムとしてあるいは業務用のシステムとして提供される。
HMDシステム100は、HMD(Head-Mounted Device)セット105A,105B,105C,105Dと、ネットワーク19とサーバ150とを含む。HMDセット105A,105B,105C,105Dの各々は、ネットワーク19を介してサーバ150と通信可能に構成される。以下、HMDセット105A,105B,105C,105Dを総称して、HMDセット105とも言う。なお、HMDシステム100を構成するHMDセット105の数は、4つに限られず、3つ以下でも、5つ以上でもよい。HMDセット105は、HMD110と、HMDセンサ120と、コントローラ160と、コンピュータ200とを備える。HMD110は、モニタ112と、第1カメラ115と、第2カメラ117と、スピーカ118と、マイク119と、注視センサ140とを含む。コントローラ160は、モーションセンサ130を含み得る。
ある局面において、コンピュータ200は、インターネットその他のネットワーク19に接続可能であり、ネットワーク19に接続されているサーバ150その他のコンピュータ(例えば、他のHMDセット105のコンピュータ)と通信可能である。別の局面において、HMD110は、HMDセンサ120の代わりに、センサ114を含み得る。
HMD110は、ユーザ190の頭部に装着され、動作中に仮想空間をユーザ190に提供し得る。より具体的には、HMD110は、右目用の画像および左目用の画像をモニタ112にそれぞれ表示する。ユーザ190の各目がそれぞれの画像を視認すると、ユーザ190は、両目の視差に基づき当該画像を3次元の画像として認識し得る。HMD100は、モニタを備える所謂ヘッドマウントディスプレイと、スマートフォンその他のモニタを有する端末を装着可能なヘッドマウント機器のいずれをも含み得る。
モニタ112は、例えば、非透過型の表示装置として実現される。ある局面において、モニタ112は、ユーザ190の両目の前方に位置するようにHMD110の本体に配置されている。したがって、ユーザ190は、モニタ112に表示される3次元画像を視認すると、仮想空間に没入することができる。ある実施の形態において、仮想空間は、例えば、背景、ユーザ190が操作可能なオブジェクト、ユーザ190が選択可能なメニューの画像を含む。ある実施の形態において、モニタ112は、所謂スマートフォンその他の情報表示端末が備える液晶モニタまたは有機EL(Electro Luminescence)モニタとして実現され得る。
他の局面において、モニタ112は、透過型の表示装置として実現され得る。この場合、HMD110は、図1に示されるようにユーザ190の目を覆う密閉型ではなく、メガネ型のような開放型であり得る。透過型のモニタ112は、その透過率を調整することにより、一時的に非透過型の表示装置として構成可能であってもよい。また、モニタ112は、仮想空間を構成する画像の一部と、現実空間とを同時に表示する構成を含んでいてもよい。例えば、モニタ112は、HMD110に搭載されたカメラで撮影した現実空間の画像を表示してもよいし、一部の透過率を高く設定することにより現実空間を視認可能にしてもよい。
ある局面において、モニタ112は、右目用の画像を表示するためのサブモニタと、左目用の画像を表示するためのサブモニタとを含み得る。別の局面において、モニタ112は、右目用の画像と左目用の画像とを一体として表示する構成であってもよい。この場合、モニタ112は、高速シャッタを含む。高速シャッタは、画像がいずれか一方の目にのみ認識されるように、右目用の画像と左目用の画像とを交互に表示可能に作動する。
ある局面において、HMD110は、複数の光源(図示しない)を含む。各光源は例えば、赤外線を発するLED(Light Emitting Diode)により実現される。HMDセンサ120は、HMD110の動きを検出するためのポジショントラッキング機能を有する。より具体的には、HMDセンサ120は、HMD110が発する複数の赤外線を読み取り、現実空間内におけるHMD110の位置および傾きを検出する。
なお、別の局面において、HMDセンサ120は、カメラにより実現されてもよい。この場合、HMDセンサ120は、カメラから出力されるHMD110の画像情報を用いて、画像解析処理を実行することにより、HMD110の位置および傾きを検出することができる。
別の局面において、HMD110は、位置検出器として、HMDセンサ120の代わりに、あるいはHMDセンサ120に加えてセンサ114を備えてもよい。HMD110は、センサ114を用いて、HMD110自身の位置および傾きを検出し得る。例えば、センサ114が角速度センサ、地磁気センサ、あるいは加速度センサである場合、HMD110は、HMDセンサ120の代わりに、これらの各センサのいずれかを用いて、自身の位置および傾きを検出し得る。一例として、センサ114が角速度センサである場合、角速度センサは、現実空間におけるHMD110の3軸周りの角速度を経時的に検出する。HMD110は、各角速度に基づいて、HMD110の3軸周りの角度の時間的変化を算出し、さらに、角度の時間的変化に基づいて、HMD110の傾きを算出する。
第1カメラ115は、ユーザ190の顔の下部を撮影する。より具体的には、第1カメラ115は、ユーザ190の鼻および口などを撮影する。第2カメラ117は、ユーザ190の目および眉などを撮影する。HMD110のユーザ190側の筐体をHMD110の内側、HMD110のユーザ190とは逆側の筐体をHMD110の外側と定義する。ある局面において、第1カメラ115は、HMD110の外側に配置され、第2カメラ117は、HMD110の内側に配置され得る。第1カメラ115および第2カメラ117が生成した画像は、コンピュータ200に入力される。
スピーカ118は、音声信号を音声に変換してユーザ190に出力する。マイク119は、ユーザ190の発話を音声信号(電気信号)に変換してコンピュータ200に出力する。なお、他の局面において、HMD110は、スピーカ118に替えてイヤホンを含み得る。
注視センサ140は、ユーザ190の右目および左目の視線が向けられる方向(視線)を検出する。当該方向の検出は、例えば、公知のアイトラッキング機能によって実現される。注視センサ140は、当該アイトラッキング機能を有するセンサにより実現される。ある局面において、注視センサ140は、右目用のセンサおよび左目用のセンサを含むことが好ましい。注視センサ140は、例えば、ユーザ190の右目および左目に赤外光を照射するとともに、照射光に対する角膜および虹彩からの反射光を受けることにより各眼球の回転角を検出するセンサであってもよい。注視センサ140は、検出した各回転角に基づいて、ユーザ190の視線を検知することができる。
サーバ150は、コンピュータ200にプログラムを送信し得る。別の局面において、サーバ150は、他のユーザによって使用されるHMDに仮想現実を提供するための他のコンピュータ200と通信し得る。例えば、アミューズメント施設において、複数のユーザが参加型のゲームを行なう場合、各コンピュータ200は、各ユーザの動作に基づく信号を他のコンピュータ200と通信して、同じ仮想空間において複数のユーザが共通のゲームを楽しむことを可能にする。
コントローラ160は、有線または無線によりコンピュータ200に接続されている。コントローラ160は、ユーザ190からコンピュータ200への命令の入力を受け付ける。ある局面において、コントローラ160は、ユーザ190によって把持可能に構成される。別の局面において、コントローラ160は、ユーザ190の身体あるいは衣類の一部に装着可能に構成される。別の局面において、コントローラ160は、コンピュータ200から送信される信号に基づいて、振動、音、光のうちの少なくともいずれかを出力するように構成されてもよい。別の局面において、コントローラ160は、ユーザ190から、仮想空間に配置されるオブジェクトの位置や動きを制御するための操作を受け付ける。
モーションセンサ130は、ある局面において、ユーザ190の手に取り付けられて、ユーザ190の手の動きを検出する。例えば、モーションセンサ130は、手の回転速度、回転数等を検出する。検出された信号は、コンピュータ200に送られる。モーションセンサ130は、例えば、手袋型のコントローラ160に設けられている。ある実施の形態において、現実空間における安全のため、コントローラ160は、手袋型のようにユーザ190の手に装着されることにより容易に飛んで行かないものに装着されるのが望ましい。別の局面において、ユーザ190に装着されないセンサがユーザ190の手の動きを検出してもよい。例えば、ユーザ190を撮影するカメラの信号が、ユーザ190の動作を表わす信号として、コンピュータ200に入力されてもよい。モーションセンサ130とコンピュータ200とは、一例として、無線により互いに接続される。無線の場合、通信形態は特に限られず、例えば、Bluetooth(登録商標)その他の公知の通信手法が用いられる。
[ハードウェア構成]
図2を参照して、本実施の形態に係るコンピュータ200について説明する。図2は、ある局面に従うコンピュータ200のハードウェア構成の一例を表すブロック図である。コンピュータ200は、主たる構成要素として、プロセッサ10と、メモリ11と、ストレージ12と、入出力インターフェイス13と、通信インターフェイス14とを備える。各構成要素は、それぞれ、バス15に接続されている。
プロセッサ10は、コンピュータ200に与えられる信号に基づいて、あるいは、予め定められた条件が成立したことに基づいて、メモリ11またはストレージ12に格納されているプログラムに含まれる一連の命令を実行する。ある局面において、プロセッサ10は、CPU(Central Processing Unit)、MPU(Micro Processor Unit)、FPGA(Field-Programmable Gate Array)その他のデバイスとして実現される。
メモリ11は、プログラムおよびデータを一時的に保存する。プログラムは、例えば、ストレージ12からロードされる。データは、コンピュータ200に入力されたデータと、プロセッサ10によって生成されたデータとを含む。ある局面において、メモリ11は、RAM(Random Access Memory)その他の揮発メモリとして実現される。
ストレージ12は、プログラムおよびデータを永続的に保持する。ストレージ12は、例えば、ROM(Read-Only Memory)、ハードディスク装置、フラッシュメモリ、その他の不揮発記憶装置として実現される。ストレージ12に格納されるプログラムは、HMDシステム100において仮想空間を提供するためのプログラム、シミュレーションプログラム、ゲームプログラム、ユーザ認証プログラム、他のコンピュータ200との通信を実現するためのプログラムを含む。ストレージ12に格納されるデータは、仮想空間を規定するためのデータおよびオブジェクト等を含む。
なお、別の局面において、ストレージ12は、メモリカードのように着脱可能な記憶装置として実現されてもよい。さらに別の局面において、コンピュータ200に内蔵されたストレージ12の代わりに、外部の記憶装置に保存されているプログラムおよびデータを使用する構成が使用されてもよい。このような構成によれば、例えば、アミューズメント施設のように複数のHMDシステム100が使用される場面において、プログラムやデータの更新を一括して行なうことが可能になる。
ある実施の形態において、入出力インターフェイス13は、HMD110、HMDセンサ120およびモーションセンサ130との間で信号を通信する。ある局面において、HMD110に含まれる第1カメラ115,第2カメラ117,スピーカ118,およびマイク119は、HMD110の入出力インターフェイス13を介してコンピュータ200との通信を行ない得る。ある局面において、入出力インターフェイス13は、USB(Universal Serial Bus)、DVI(Digital Visual Interface)、HDMI(登録商標)(High-Definition Multimedia Interface)その他の端子を用いて実現される。なお、入出力インターフェイス13は上述のものに限られない。
ある実施の形態において、入出力インターフェイス13は、さらに、コントローラ160と通信し得る。例えば、入出力インターフェイス13は、コントローラ160およびモーションセンサ130から出力された信号の入力を受ける。別の局面において、入出力インターフェイス13は、プロセッサ10から出力された命令を、コントローラ160に送る。当該命令は、振動、音声出力、発光等をコントローラ160に指示する。コントローラ160は、当該命令を受信すると、その命令に応じて、振動、音声出力または発光のいずれかを実行する。
通信インターフェイス14は、ネットワーク19に接続されて、ネットワーク19に接続されている他のコンピュータ(例えば、サーバ150)と通信する。ある局面において、通信インターフェイス14は、例えば、LAN(Local Area Network)その他の有線通信インターフェイス、あるいは、WiFi(Wireless Fidelity)、Bluetooth(登録商標)、NFC(Near Field Communication)その他の無線通信インターフェイスとして実現される。なお、通信インターフェイス14は上述のものに限られない。
ある局面において、プロセッサ10は、ストレージ12にアクセスし、ストレージ12に格納されている1つ以上のプログラムをメモリ11にロードし、当該プログラムに含まれる一連の命令を実行する。当該1つ以上のプログラムは、コンピュータ200のオペレーティングシステム、仮想空間を提供するためのアプリケーションプログラム、仮想空間で実行可能なゲームソフトウェア等を含み得る。プロセッサ10は、入出力インターフェイス13を介して、仮想空間を提供するための信号をHMD110に送る。HMD110は、その信号に基づいてモニタ112に映像を表示する。
なお、図2に示される例では、コンピュータ200は、HMD110の外部に設けられる構成が示されているが、別の局面において、コンピュータ200は、HMD110に内蔵されてもよい。一例として、モニタ112を含む携帯型の情報通信端末(例えば、スマートフォン)がコンピュータ200として機能してもよい。
また、コンピュータ200は、複数のHMD110に共通して用いられる構成であってもよい。このような構成によれば、例えば、複数のユーザに同一の仮想空間を提供することもできるので、各ユーザは同一の仮想空間で他のユーザと同一のアプリケーションを楽しむことができる。
ある実施の形態において、HMDシステム100では、グローバル座標系が予め設定されている。グローバル座標系は、現実空間における鉛直方向、鉛直方向に直交する水平方向、並びに、鉛直方向および水平方向の双方に直交する前後方向にそれぞれ平行な、3つの基準方向(軸)を有する。本実施の形態では、グローバル座標系は視点座標系のひとつである。そこで、グローバル座標系における水平方向、鉛直方向(上下方向)、および前後方向は、それぞれ、x軸、y軸、z軸と規定される。より具体的には、グローバル座標系において、x軸は現実空間の水平方向に平行である。y軸は、現実空間の鉛直方向に平行である。z軸は現実空間の前後方向に平行である。
ある局面において、HMDセンサ120は、赤外線センサを含む。赤外線センサが、HMD110の各光源から発せられた赤外線をそれぞれ検出すると、HMD110の存在を検出する。HMDセンサ120は、さらに、各点の値(グローバル座標系における各座標値)に基づいて、HMD110を装着したユーザ190の動きに応じた、現実空間内におけるHMD110の位置および傾き(向き)を検出する。より詳しくは、HMDセンサ120は、経時的に検出された各値を用いて、HMD110の位置および傾きの時間的変化を検出できる。
グローバル座標系は現実空間の座標系と平行である。したがって、HMDセンサ120によって検出されたHMD110の各傾きは、グローバル座標系におけるHMD110の3軸周りの各傾きに相当する。HMDセンサ120は、グローバル座標系におけるHMD110の傾きに基づき、uvw視野座標系をHMD110に設定する。HMD110に設定されるuvw視野座標系は、HMD110を装着したユーザ190が仮想空間において物体を見る際の視点座標系に対応する。
[uvw視野座標系]
図3を参照して、uvw視野座標系について説明する。図3は、ある実施の形態に従うHMD110に設定されるuvw視野座標系を概念的に表す図である。HMDセンサ120は、HMD110の起動時に、グローバル座標系におけるHMD110の位置および傾きを検出する。プロセッサ10は、検出された値に基づいて、uvw視野座標系をHMD110に設定する。
図3に示されるように、HMD110は、HMD110を装着したユーザ190の頭部を中心(原点)とした3次元のuvw視野座標系を設定する。より具体的には、HMD110は、グローバル座標系を規定する水平方向、鉛直方向、および前後方向(x軸、y軸、z軸)を、グローバル座標系内においてHMD110の各軸周りの傾きだけ各軸周りにそれぞれ傾けることによって新たに得られる3つの方向を、HMD110におけるuvw視野座標系のピッチ軸(u軸)、ヨー軸(v軸)、およびロール軸(w軸)として設定する。
ある局面において、HMD110を装着したユーザ190が直立し、かつ、正面を視認している場合、プロセッサ10は、グローバル座標系に平行なuvw視野座標系をHMD110に設定する。この場合、グローバル座標系における水平方向(x軸)、鉛直方向(y軸)、および前後方向(z軸)は、HMD110におけるuvw視野座標系のピッチ軸(u軸)、ヨー軸(v軸)、およびロール軸(w軸)に一致する。
uvw視野座標系がHMD110に設定された後、HMDセンサ120は、HMD110の動きに基づいて、設定されたuvw視野座標系におけるHMD110の傾きを検出できる。この場合、HMDセンサ120は、HMD110の傾きとして、uvw視野座標系におけるHMD110のピッチ角(θu)、ヨー角(θv)、およびロール角(θw)をそれぞれ検出する。ピッチ角(θu)は、uvw視野座標系におけるピッチ軸周りのHMD110の傾き角度を表す。ヨー角(θv)は、uvw視野座標系におけるヨー軸周りのHMD110の傾き角度を表す。ロール角(θw)は、uvw視野座標系におけるロール軸周りのHMD110の傾き角度を表す。
HMDセンサ120は、検出されたHMD110の傾きに基づいて、HMD110が動いた後のHMD110におけるuvw視野座標系を、HMD110に設定する。HMD110と、HMD110のuvw視野座標系との関係は、HMD110の位置および傾きに関わらず、常に一定である。HMD110の位置および傾きが変わると、当該位置および傾きの変化に連動して、グローバル座標系におけるHMD110のuvw視野座標系の位置および傾きが変化する。
ある局面において、HMDセンサ120は、赤外線センサからの出力に基づいて取得される赤外線の光強度および複数の点間の相対的な位置関係(例えば、各点間の距離など)に基づいて、HMD110の現実空間内における位置を、HMDセンサ120に対する相対位置として特定してもよい。また、プロセッサ10は、特定された相対位置に基づいて、現実空間内(グローバル座標系)におけるHMD110のuvw視野座標系の原点を決定してもよい。
[仮想空間]
図4を参照して、仮想空間についてさらに説明する。図4は、ある実施の形態に従う仮想空間2を表現する一態様を概念的に表す図である。仮想空間2は、中心21の360度方向の全体を覆う全天球状の構造を有する。図4では、説明を複雑にしないために、仮想空間2のうちの上半分の天球が例示されている。仮想空間2では各メッシュが規定される。各メッシュの位置は、仮想空間2に規定されるXYZ座標系における座標値として予め規定されている。コンピュータ200は、仮想空間2に展開可能なパノラマ画像22(静止画、動画等)を構成する各部分画像を、仮想空間2において対応する各メッシュにそれぞれ対応付ける。
ある局面において、仮想空間2では、中心21を原点とするXYZ座標系が規定される。XYZ座標系は、例えば、グローバル座標系に平行である。XYZ座標系は視点座標系の一種であるため、XYZ座標系における水平方向、鉛直方向(上下方向)、および前後方向は、それぞれX軸、Y軸、Z軸として規定される。したがって、XYZ座標系のX軸(水平方向)がグローバル座標系のx軸と平行であり、XYZ座標系のY軸(鉛直方向)がグローバル座標系のy軸と平行であり、XYZ座標系のZ軸(前後方向)がグローバル座標系のz軸と平行である。
HMD110の起動時、すなわちHMD110の初期状態において、仮想カメラ1が、仮想空間2の中心21に配置される。ある局面において、プロセッサ10は、仮想カメラ1が撮影する画像をHMD110のモニタ112に表示する。仮想カメラ1は、現実空間におけるHMD110の動きに連動して、仮想空間2を同様に移動する。これにより、現実空間におけるHMD110の位置および傾きの変化が、仮想空間2において同様に再現され得る。
仮想カメラ1には、HMD110の場合と同様に、uvw視野座標系が規定される。仮想空間2における仮想カメラのuvw視野座標系は、現実空間(グローバル座標系)におけるHMD110のuvw視野座標系に連動するように規定されている。したがって、HMD110の傾きが変化すると、それに応じて、仮想カメラ1の傾きも変化する。また、仮想カメラ1は、HMD110を装着したユーザ190の現実空間における移動に連動して、仮想空間2において移動することもできる。
コンピュータ200のプロセッサ10は、仮想カメラ1の位置と傾き(基準視線5)とに基づいて、仮想空間2における視認領域23を規定する。視認領域23は、仮想空間2のうち、HMD110を装着したユーザ190が視認する領域に対応する。つまり、仮想カメラ1の位置は、仮想空間2におけるユーザ190の視座と言える。
注視センサ140によって検出されるユーザ190の視線は、ユーザ190が物体を視認する際の視点座標系における方向である。HMD110のuvw視野座標系は、ユーザ190がモニタ112を視認する際の視点座標系に等しい。また、仮想カメラ1のuvw視野座標系は、HMD110のuvw視野座標系に連動している。したがって、ある局面に従うHMDシステム100は、注視センサ140によって検出されたユーザ190の視線を、仮想カメラ1のuvw視野座標系におけるユーザ190の視線とみなすことができる。
[ユーザの視線]
図5を参照して、ユーザの視線の決定について説明する。図5は、ある実施の形態に従うHMD110を装着するユーザ190の頭部を上から表した図である。
ある局面において、注視センサ140は、ユーザ190の右目および左目の各視線を検出する。ある局面において、ユーザ190が近くを見ている場合、注視センサ140は、視線R1およびL1を検出する。別の局面において、ユーザ190が遠くを見ている場合、注視センサ140は、視線R2およびL2を検出する。この場合、ロール軸wに対して視線R2およびL2が成す角度は、ロール軸wに対して視線R1およびL1が成す角度よりも小さい。注視センサ140は、検出結果をコンピュータ200に送信する。
コンピュータ200が、視線の検出結果として、視線R1およびL1の検出値を注視センサ140から受信した場合には、その検出値に基づいて、視線R1およびL1の交点である注視点N1を特定する。一方、コンピュータ200は、視線R2およびL2の検出値を注視センサ140から受信した場合には、視線R2およびL2の交点を注視点として特定する。コンピュータ200は、特定した注視点N1の位置に基づき、ユーザ190の視線N0を特定する。コンピュータ200は、例えば、ユーザ190の右目Rと左目Lとを結ぶ直線の中点と、注視点N1とを通る直線の延びる方向を、視線N0として検出する。視線N0は、ユーザ190が両目により実際に視線を向けている方向である。また、視線N0は、視認領域23に対してユーザ190が実際に視線を向けている方向に相当する。
また、別の局面において、HMDシステム100は、テレビジョン放送受信チューナを備えてもよい。このような構成によれば、HMDシステム100は、仮想空間2においてテレビ番組を表示することができる。
さらに別の局面において、HMDシステム100は、インターネットに接続するための通信回路、あるいは、電話回線に接続するための通話機能を備えていてもよい。
[視界領域]
図6および図7を参照して、視認領域23について説明する。図6は、仮想空間2において視認領域23をX方向から見たYZ断面を表す図である。図7は、仮想空間2において視認領域23をY方向から見たXZ断面を表す図である。
図6に示されるように、YZ断面における視認領域23は、領域24を含む。領域24は、仮想カメラ1の位置と基準視線5と仮想空間2のYZ断面とによって定義される。プロセッサ10は、仮想空間における基準視線5を中心として極角αを含む範囲を、領域24として規定する。
図7に示されるように、XZ断面における視認領域23は、領域25を含む。領域25は、仮想カメラ1の位置と基準視線5と仮想空間2のXZ断面とによって定義される。プロセッサ10は、仮想空間2における基準視線5を中心とした方位角βを含む範囲を、領域25として規定する。極角αおよびβは、仮想カメラ1の位置と仮想カメラ1の傾き(向き)とに応じて定まる。
ある局面において、HMDシステム100は、コンピュータ200からの信号に基づいて、視界画像26をモニタ112に表示させることにより、ユーザ190に仮想空間における視界を提供する。視界画像26は、パノラマ画像22のうち視認領域23に対応する部分に相当する。ユーザ190が、頭に装着したHMD110を動かすと、その動きに連動して仮想カメラ1も動く。その結果、仮想空間2における視認領域23の位置が変化する。これにより、モニタ112に表示される視界画像26は、パノラマ画像22のうち、仮想空間2においてユーザ190が向いた方向の視認領域23に重畳する画像に更新される。ユーザ190は、仮想空間2における所望の方向を視認することができる。
このように、仮想カメラ1の傾きは仮想空間2におけるユーザ190の視線(基準視線5)に相当し、仮想カメラ1が配置される位置は、仮想空間2におけるユーザ190の視点に相当する。したがって、仮想カメラ1の位置または傾きを変更することにより、モニタ112に表示される画像が更新され、ユーザ190の視界が移動される。
ユーザ190は、HMD110を装着している間、現実世界を視認することなく、仮想空間2に展開されるパノラマ画像22のみを視認できる。そのため、HMDシステム100は、仮想空間2への高い没入感覚をユーザ190に与えることができる。
ある局面において、プロセッサ10は、HMD110を装着したユーザ190の現実空間における移動に連動して、仮想空間2において仮想カメラ1を移動し得る。この場合、プロセッサ10は、仮想空間2における仮想カメラ1の位置および傾きに基づいて、HMD110のモニタ112に投影される画像領域(視認領域23)を特定する。
ある実施の形態に従うと、仮想カメラ1は、2つの仮想カメラ、すなわち、右目用の画像を提供するための仮想カメラと、左目用の画像を提供するための仮想カメラとを含み得る。また、ユーザ190が3次元の仮想空間2を認識できるように、適切な視差が、2つの仮想カメラに設定される。本実施の形態においては、仮想カメラ1が2つの仮想カメラを含み、2つの仮想カメラのロール軸が合成されることによって生成されるロール軸(w)がHMD110のロール軸(w)に適合されるように構成されているものとして、本開示に係る技術思想を例示する。
[HMDの制御装置]
図8を参照して、HMD110の制御装置について説明する。ある実施の形態において、制御装置は周知の構成を有するコンピュータ200によって実現される。図8は、ある実施の形態に従うコンピュータ200をモジュール構成として表わすブロック図である。
図8に示されるように、コンピュータ200は、表示制御モジュール220と、仮想空間制御モジュール230と、メモリモジュール240と、通信制御モジュール250とを備える。表示制御モジュール220は、サブモジュールとして、仮想カメラ制御モジュール221と、視界領域決定モジュール222と、視界画像生成モジュール223と、傾き特定モジュール224と、顔器官検出モジュール225と、動き検出モジュール226と、視点特定モジュール227とを含む。仮想空間制御モジュール230は、サブモジュールとして、仮想空間定義モジュール231と、仮想オブジェクト生成モジュール232と、操作オブジェクト制御モジュール233と、アバター制御モジュール234とを含む。
ある実施の形態において、表示制御モジュール220と仮想空間制御モジュール230とは、プロセッサ10によって実現される。別の実施の形態において、複数のプロセッサ10が表示制御モジュール220と仮想空間制御モジュール230として作動してもよい。メモリモジュール240は、メモリ11またはストレージ12によって実現される。通信制御モジュール250は、通信インターフェイス14によって実現される。
ある局面において、表示制御モジュール220は、HMD110のモニタ112における画像表示を制御する。
仮想カメラ制御モジュール221は、仮想空間2に仮想カメラ1を配置する。また、仮想カメラ制御モジュール221は、仮想空間2における仮想カメラ1の位置と、仮想カメラ1の傾き(向き)を制御する。視界領域決定モジュール222は、HMD110を装着したユーザ190の頭の傾きと、仮想カメラ1の位置に応じて、視認領域23を規定する。視界画像生成モジュール223は、決定された視認領域23に基づいて、モニタ112に表示される視界画像26を生成する。
傾き特定モジュール224は、HMDセンサ120の出力に基づいてHMD110の傾きを特定する。他の局面において、傾き特定モジュール224は、モーションセンサとして機能するセンサ114の出力に基づいてHMD110の傾きを特定する。顔器官検出モジュール225は、第1カメラ115および第2カメラ117が生成するユーザ190の顔の画像から、ユーザ190の顔を構成する器官(例えば、口,目,眉)を検出する。動き検出モジュール226は、顔器官検出モジュール225が検出した各器官の動き(形状)を検出する。図10〜図12において、顔器官検出モジュール225および動き検出モジュール226の制御内容は後述される。
視点特定モジュール227は、注視センサ140からの信号に基づいて、ユーザ190の仮想空間2における視線を検出する。次に、視点特定モジュール227は、検出したユーザ190の視線と仮想空間2の天球とが交わる視点位置(XYZ座標系における座標値)を検出する。より具体的には、視点特定モジュール227は、uvw座標系で規定されるユーザ190の視線と、仮想カメラ1の位置および傾きとに基づいて、視点位置を検出する。視点特定モジュール227は、検出した視点位置をサーバ150に送信する。他の局面において、視点特定モジュール227は、ユーザ190の視線を表す視線情報をサーバ150に送信するように構成されてもよい。係る場合、サーバ150が受信した視線情報に基づいて視点位置を算出し得る。
仮想空間制御モジュール230は、ユーザ190に提供される仮想空間2を制御する。仮想空間定義モジュール231は、仮想空間2を表わす仮想空間データを生成することにより、HMDシステム100における仮想空間2を規定する。
仮想オブジェクト生成モジュール232は、仮想空間2に配置されるオブジェクトを生成する。オブジェクトは、例えば、ゲームのストーリーの進行に従って配置される森、山その他を含む風景、動物等を含み得る。
操作オブジェクト制御モジュール233は、仮想空間2においてユーザ190の操作を受け付けるための操作オブジェクトを仮想空間2に配置する。ユーザ190は、操作オブジェクトを操作することにより、例えば、仮想空間2に配置されるオブジェクトを操作する。ある局面において、操作オブジェクトは、例えば、ユーザ190の手に相当する手オブジェクト等を含み得る。ある局面において、操作オブジェクト制御モジュール233は、モーションセンサ130の出力に基づいて現実空間におけるユーザ190の手の動きに連動するように仮想空間2における手オブジェクトを動かす。ある局面において、操作オブジェクトは、後述するアバターオブジェクトの手の部分に相当し得る。
アバター制御モジュール234は、ネットワークを介して接続される他のコンピュータ200のユーザ190のアバターオブジェクトを仮想空間2に配置するためのデータを生成する。ある局面において、アバター制御モジュール234は、ユーザ190のアバターオブジェクトを仮想空間2に配置するためのデータを生成する。ある局面において、アバター制御モジュール234は、ユーザ190を含む画像に基づいて、ユーザ190を模したアバターオブジェクトを生成する。他の局面において、アバター制御モジュール234は、複数種類のアバターオブジェクト(例えば、動物を模したオブジェクトや、デフォルメされた人のオブジェクト)の中からユーザ190による選択を受け付けたアバターオブジェクトを仮想空間2に配置するためのデータを生成する。
アバター制御モジュール234は、HMDセンサ120が検出するHMD110の動きをアバターオブジェクトに反映する。例えば、アバター制御モジュール234は、HMD110が傾いたことを検知して、アバターオブジェクトを傾けて配置するためのデータを生成する。また、ある局面において、アバター制御モジュール234は、コントローラ160の動きをアバターオブジェクトに反映する。この場合、コントローラ160は、コントローラ160の動きを検知するためのモーションセンサ、加速度センサ、または複数の発光素子(例えば、赤外線LED)などを備える。また、アバター制御モジュール234は、動き検出モジュール226が検出した顔器官の動作を、仮想空間2に配置されるアバターオブジェクトの顔に反映させる。
仮想空間制御モジュール230は、仮想空間2に配置されるオブジェクトのそれぞれが、他のオブジェクトと衝突した場合に、当該衝突を検出する。仮想空間制御モジュール230は、例えば、あるオブジェクトと、別のオブジェクトとが触れたタイミングを検出することができ、当該検出がされたときに、予め定められた処理を行なう。仮想空間制御モジュール230は、オブジェクトとオブジェクトとが触れている状態から離れたタイミングを検出することができ、当該検出がされたときに、予め定められた処理を行なう。仮想空間制御モジュール230は、オブジェクトとオブジェクトとが触れている状態であることを検出することができる。具体的には、操作オブジェクト制御モジュール233は、操作オブジェクトと、他のオブジェクトとが触れたときに、これら操作オブジェクトと他のオブジェクトとが触れたことを検出して、予め定められた処理を行なう。
メモリモジュール240は、コンピュータ200が仮想空間2をユーザ190に提供するために使用されるデータを保持している。ある局面において、メモリモジュール240は、空間情報241と、オブジェクト情報242と、ユーザ情報243と、顔テンプレート244とを保持している。
空間情報241は、仮想空間2を提供するために規定された1つ以上のテンプレートを保持している。
オブジェクト情報242は、仮想空間2を構成する複数のパノラマ画像22、仮想空間2にオブジェクトを配置するためのデータを含む。パノラマ画像22は、静止画像および動画像を含み得る。また、パノラマ画像22は、非現実空間の画像と現実空間の画像(例えば、コンピュータグラフィックス)とを含み得る。
ユーザ情報243は、ユーザ190を識別するユーザIDを保持する。ユーザIDは、例えば、ユーザが使用するコンピュータ200に設定されるIP(Internet Protocol)アドレスまたはMAC(Media Access Control)アドレスであり得る。他の局面において、ユーザIDはユーザによって設定され得る。ユーザ情報243は、HMDシステム100の制御装置としてコンピュータ200を機能させるためのプログラム等を含む。
顔テンプレート244は、顔器官検出モジュール225が、ユーザ190の顔器官を検出するために予め記憶されたテンプレートを保持している。ある実施形態において、顔テンプレート244は、口テンプレート245と、目テンプレート246と、眉テンプレート247とを保持する。各テンプレートは、顔を構成する器官に対応する画像であり得る。例えば、口テンプレート245は、口の画像であり得る。なお、各テンプレートは複数の画像を含んでもよい。
メモリモジュール240に格納されているデータおよびプログラムは、HMD110のユーザ190によって入力される。あるいは、プロセッサ10が、当該コンテンツを提供する事業者が運営するコンピュータ(例えば、サーバ150)からプログラムあるいはデータをダウンロードして、ダウンロードされたプログラムあるいはデータをメモリモジュール240に格納する。
通信制御モジュール250は、ネットワーク19を介して、サーバ150その他の情報通信装置と通信し得る。
ある局面において、表示制御モジュール220および仮想空間制御モジュール230は、例えば、ユニティテクノロジーズ社によって提供されるUnity(登録商標)を用いて実現され得る。別の局面において、表示制御モジュール220および仮想空間制御モジュール230は、各処理を実現する回路素子の組み合わせとしても実現され得る。
コンピュータ200における処理は、ハードウェアと、プロセッサ10により実行されるソフトウェアとによって実現される。このようなソフトウェアは、ハードディスクその他のメモリモジュール240に予め格納されている場合がある。また、ソフトウェアは、CD−ROMその他のコンピュータ読み取り可能な不揮発性のデータ記録媒体に格納されて、プログラム製品として流通している場合もある。あるいは、当該ソフトウェアは、インターネットその他のネットワークに接続されている情報提供事業者によってダウンロード可能なプログラム製品として提供される場合もある。このようなソフトウェアは、光ディスク駆動装置その他のデータ読取装置によってデータ記録媒体から読み取られて、あるいは、通信制御モジュール250を介してサーバ150その他のコンピュータからダウンロードされた後、記憶モジュールに一旦格納される。そのソフトウェアは、プロセッサ10によって記憶モジュールから読み出され、実行可能なプログラムの形式でRAMに格納される。プロセッサ10は、そのプログラムを実行する。
[アバターオブジェクト]
図9Aおよび図9Bを参照して、本実施の形態に従うアバターオブジェクトについて説明する。以下、HMDセット105A,105Bの各ユーザのアバターオブジェクトを説明する図である。以下、HMDセット105Aのユーザをユーザ190A、HMDセット105Bのユーザをユーザ190B、HMDセット105Cのユーザをユーザ190C、HMDセット105Dのユーザをユーザ190Dと表す。また、HMDセット105Aに関する各構成要素の参照符号にAが付され、HMDセット105Bに関する各構成要素の参照符号にBが付され、HMDセット105Cに関する各構成要素の参照符号にCが付され、HMDセット105Dに関する各構成要素の参照符号にDが付される。例えば、HMD110Aは、HMDセット105Aに含まれる。
図9Aは、ネットワークにおいて、複数のHMDのそれぞれが、複数のユーザのそれぞれに仮想空間を提供する状況を表す模式図である。図9Aを参照して、コンピュータ200A〜200Dは、HMD110A〜110Dを介して、ユーザ190A〜190Dに、仮想空間2A〜2Dをそれぞれ提供する。図9Aに示される例において、仮想空間2Aおよび仮想空間2Bは同じデータによって構成されている。換言すれば、コンピュータ200Aとコンピュータ200Bとは同じ仮想空間を共有していることになる。仮想空間2Aおよび仮想空間2Bには、ユーザ190Aのアバターオブジェクト900Aと、ユーザ190Bのアバターオブジェクト900Bとが存在する。なお、仮想空間2Aにおけるアバターオブジェクト900Aおよび仮想空間2Bにおけるアバターオブジェクト900BがそれぞれHMDを装着しているが、これは説明を分かりやすくするためのものであって、実際にはこれらのオブジェクトはHMDを装着していない。
ある局面において、仮想カメラ制御モジュール221Aは、ユーザ190Aの視界画像26Aを撮影する仮想カメラ1Aを、アバターオブジェクト900Aの目の位置に配置し得る。
図9Bは、図9Aにおけるユーザ190Aの視界画像910を示す図である。視界画像910は、HMD110Aのモニタ112Aに表示される画像である。この視界画像910は、仮想カメラ1Aにより生成された画像である。また、視界画像910には、ユーザ190Bのアバターオブジェクト900Bが表示されている。なお、特に図示はしていないが、ユーザ190Bの視界画像にも同様に、ユーザ190Aのアバターオブジェクト900Aが表示されている。
図9Bの状態において、ユーザ190Aは仮想空間を介してユーザ190Bと対話による通信(コミュニケーション)を図ることができる。より具体的には、マイク119Aにより取得されたユーザ190Aの音声は、サーバ150を介してユーザ190BのHMD110Bに送信され、HMD110Bに設けられたスピーカ118Bから出力される。また、ユーザ190Bの音声は、サーバ150を介してユーザ190AのHMD110Aに送信され、HMD110Aに設けられたスピーカ118Aから出力される。
また、ユーザ190Bの動作(HMD110Bの動作およびコントローラ160Bの動作)は、アバター制御モジュール234Aにより仮想空間2Aに配置されるアバターオブジェクト900Bに反映される。これにより、ユーザ190Aは、ユーザ190Bの動作を、アバターオブジェクト900Bを通じて認識できる。
[フェイストラッキング]
以下、図10〜図12を参照して、ユーザの表情(顔の動き)を検出するための具体例について説明する。図10〜図12では、一例として、ユーザ190の口の動きを検出する具体例について説明する。なお、図10〜図12で説明される検出方法は、ユーザ190の口の動きに限られず、ユーザ190の顔を構成する他の器官(例えば、目、眉、鼻、頬)の動きの検出にも適用され得る。
図10は、ユーザの顔画像1000から口を検出する制御について説明する図である。第1カメラ115により生成された顔画像1000は、ユーザ190の鼻と口とを含む。
顔器官検出モジュール225は、顔テンプレート244に格納される口テンプレート245を利用したパターンマッチングにより、顔画像1000から口領域1010を特定する。ある局面において、顔器官検出モジュール225は、顔画像1000において、矩形上の比較領域を設定し、この比較領域の大きさ、位置および角度をそれぞれ変えながら、比較領域の画像と、口テンプレート245の画像との類似度を算出する。顔器官検出モジュール225は、予め定められたしきい値よりも大きい類似度が算出された比較領域を、口領域1010として特定し得る。
顔器官検出モジュール225はさらに、算出した類似度がしきい値よりも大きい比較領域の位置と、他の顔器官(例えば、目、鼻)の位置との相対関係に基づいて、当該比較領域が口領域に相当するか否かを判断し得る。
動き検出モジュール226は、顔器官検出モジュール225が検出した口領域1010から、より詳細な口の形状を検出する。
図11は、動き検出モジュール226が口の形状を検出する処理を説明する図(その1)である。図11を参照して、動き検出モジュール226は、口領域1010に含まれる口の形状(唇の輪郭)を検出するための輪郭検出線1100を設定する。輪郭検出線1100は、顔の高さ方向に直交する方向に、所定間隔で複数本設定される。
動き検出モジュール226は、複数本の輪郭検出線1100の各々に沿った口領域1010の輝度値の変化を検出し、輝度値の変化が急激な位置を輪郭点として特定し得る。より具体的には、動き検出モジュール226は、隣接画素との輝度差(すなわち、輝度値変化)が予め定められたしきい値以上である画素を、輪郭点として特定し得る。画素の輝度値は、例えば、画素のRBG値を所定の重み付けで積算することにより得られる。
動き検出モジュール226は、口領域1010に対応する画像から2種類の輪郭点を特定する。動き検出モジュール226は、口(唇)の外側の輪郭に対応する輪郭点1110と、口(唇)の内側の輪郭に対応する輪郭点1120とを特定する。ある局面において、動き検出モジュール226は、1つの輪郭検出線1100上に3つ以上の輪郭点が検出された場合には、両端の輪郭点を外側の輪郭点1110として特定し得る。この場合、動き検出モジュール226は、外側の輪郭点1110以外の輪郭点を、内側の輪郭点1120として特定し得る。また、動き検出モジュール226は、1つの輪郭検出線1100上に2つ以下の輪郭点が検出された場合には、検出された輪郭点を外側の輪郭点1110として特定し得る。
図12は、動き検出モジュール226が口の形状を検出する処理を説明するための図(その2)である。図12では、外側の輪郭点1110は白丸、内側の輪郭点1120はハッチングされた丸としてそれぞれ示されている。
動き検出モジュール226は、内側の輪郭点1120間を補完することにより、口形状1200を特定する。ある局面において、動き検出モジュール226は、スプライン補間などの非線形の補間方法を用いて、口形状1200を特定し得る。なお、他の局面において、動き検出モジュール226は、外側の輪郭点1110間を補完することにより口形状1200を特定してもよい。さらに他の局面において、動き検出モジュール226は、想定される口形状(人の上唇と下唇とによって形成され得る所定の形状)から、大きく逸脱する輪郭点を除外し、残った輪郭点によって口形状1200を特定してもよい。このようにして、動き検出モジュール226は、ユーザの口の動作(形状)を特定し得る。なお、口形状1200の検出方法は上記に限られず、動き検出モジュール226は、他の手法により口形状1200を検出してもよい。また、動き検出モジュール226は、同様にして、ユーザの目および眉の動作を検出し得る。なお、動き検出モジュール226は、頬、鼻などの器官の形状を検出可能に構成されてもよい。
図13は、フェイストラッキングデータの構造の一例を表す。動き検出モジュール226は、ユーザ190の表情を表すフェイストラッキングデータを生成する。フェイストラッキングデータは、検出対象の各器官の形状を構成する特徴点のuvw視野座標系における位置座標を表す。例えば、図13に示されるポイントm1、m2・・は、口形状1200を構成する外側の輪郭点1110に対応する。ある局面において、フェイストラッキングデータは、第1カメラ115の位置を基準(原点)としたuvw視野座標系における座標値である。他の局面において、フェイストラッキングデータは、各器官ごとに予め定められた特徴点を基準(原点)とした座標系における座標値である。一例として、ポイントm1、m2・・は、外側の輪郭点1110のうち口角に対応するいずれか一方の特徴点を原点とした座標系における座標値である。
コンピュータ200は、生成されたフェイストラッキングデータをサーバ150に送信する。サーバ150は、コンピュータ200と通信する他のコンピュータ200にこのデータを転送する。他のコンピュータ200は、受信したフェイストラッキングデータを、受信元のコンピュータ200のユーザに対応するアバターオブジェクトに反映する。
図9Bに示される例において、コンピュータ200Aは、コンピュータ200Bからユーザ190Bの表情を表すフェイストラッキングデータを受信する。コンピュータ200Aは、受信したデータをアバターオブジェクト900Bに反映する。一例として、アバターオブジェクト900Bを構成するポリゴンの頂点のうち、フェイストラッキングデータに対応する頂点が設定されている。コンピュータ200Aは、対応する頂点の位置をフェイストラッキングデータに基づいて移動する。これにより、ユーザ190Bの表情がアバターオブジェクト900Bに反映される。その結果、ユーザ190Aは、アバターオブジェクト900Bを介してユーザ190Bの表情を認識できる。
[サーバ150の制御構造]
図14は、サーバ150のハードウェア構成およびモジュール構成を説明する図である。ある実施の形態において、サーバ150は、主たる構成要素として通信インターフェイス1410と、プロセッサ1420と、ストレージ1440とを備える。
通信インターフェイス1410は、コンピュータ200など外部の通信機器と信号を送受信するための変復調処理などを行なう無線通信用の通信モジュールとして機能する。通信インターフェイス1410は、チューナ、高周波回路等により実現される。
プロセッサ1420は、サーバ150の動作を制御する。プロセッサ1420は、ストレージ1440に格納される各種の制御プログラムを実行することにより、送受信部1421、サーバ処理部1422、マッチング部1423、視点取得部1424、感情判断部1425、マップ生成部1426、切り出し部1427、対象特定部1428、およびフィルタ部1429として機能する。
送受信部1421は、各コンピュータ200との間で各種情報を送受信する。例えば、送受信部1421は、仮想空間2にオブジェクトを配置する要求、オブジェクトを仮想空間2から削除する要求、オブジェクトを移動させる要求、ユーザの音声、または仮想空間2を定義するための情報などを各コンピュータ200に送信する。
サーバ処理部1422は、コンピュータ200から受信した情報に基づいて、後述されるユーザ情報1444を更新する。
マッチング部1423は、複数のユーザを関連付けるための一連の処理を行なう。マッチング部1423は、例えば、複数のユーザが同じ仮想空間2を共有するための入力操作を行った場合に、仮想空間2に属する複数のユーザの各々のユーザIDを関連付ける処理などを行なう。
視点取得部1424は、コンピュータ200から受信した視線情報に基づいて、仮想空間2(XYZ座標系)におけるユーザ190の視点位置を取得する。なお、コンピュータ200の視点特定モジュール227が視点位置を特定してサーバ150に特定した情報を送信するように構成される場合、プロセッサ1420は、視点取得部1424として機能しなくてもよい。
感情判断部1425は、コンピュータ200から受信したフェイストラッキングデータに基づいて、ユーザ190の感情を判断する。マップ生成部1426は、ユーザ190の視点位置に基づいてマップを生成する。
切り出し部1427は、仮想空間2を構成するパノラマ画像22におけるユーザ190の視点位置の周辺画像を切り出す。対象特定部1428は、切り出し部1427によって切り出された周辺画像に含まれるコンテンツ(ユーザが視線を注ぐ対象)を特定する。フィルタ部1429は、ユーザ190の視点位置をストレージ1440に保存するか否かを判断する。
ストレージ1440は、仮想空間指定情報1441と、オブジェクト指定情報1442と、パノラマ画像DB1443と、ユーザ情報1444と、広告DB1445と、第1テーブルTL1と、第2テーブルTL2と、基準データDB1446と、表情識別器DB1447と、物体識別器DB1448とを保持する。
仮想空間指定情報1441は、コンピュータ200の仮想空間定義モジュール231が仮想空間2を定義するために用いられる情報である。例えば、仮想空間指定情報1441は、仮想空間2の大きさまたは形状を指定する情報を含む。
オブジェクト指定情報1442は、コンピュータ200の仮想オブジェクト生成モジュール232が仮想空間2に配置(生成)するオブジェクトを指定する。パノラマ画像DB1443は、コンピュータ200に配信する複数のパノラマ画像22を格納する。
ユーザ情報1444は、各コンピュータ200から受信するユーザIDを含む。つまり、ユーザ情報1444は、複数のユーザの各々を識別する情報を含む。
ユーザ情報1444はさらに、表情情報1451と、位置情報1452と、傾き情報1453と、視点位置情報1454とを含む。表情情報1451は、ユーザごとのフェイストラッキングデータである。一例として、表情情報1451は、ユーザIDとフェイストラッキングデータとが関連付けられたデータである。
位置情報1452は、ユーザIDとユーザの視座(仮想カメラ1の位置)とが関連付けられたデータである。傾き情報1453は、ユーザIDと仮想カメラ1(HMD110)の傾きとが関連付けられたデータである。視点位置情報1454は、ユーザIDとパノラマ画像IDと視点位置とが関連付けられたデータである。視点位置情報1454の詳細は後述される。ユーザ情報1444は、各コンピュータ200から入力される情報に基づいてサーバ処理部1422によって随時更新される。
広告DB1445は、コンピュータ200に配信するための複数の広告を保持する。第1テーブルTL1は、複数の広告の各々と、対象特定部1428によって特定される対象とを互いに関連付けて保持する。第2テーブルTL2は、対象特定部1428によって特定される対象と、パノラマ画像22の種類とを互いに関連付けて保持する。第1テーブルTL1、第2テーブルTL2の詳細は後述される。
基準データDB1446は、フェイストラッキングデータとの比較に用いられる基準データと、ユーザIDとを関連付けて保持する。表情識別器DB1447は、表情の種類ごとに表情識別器を含む。一例として、表情識別器DB1447は4種類の表情識別器1461〜1464を含む。表情識別器1461は、笑っている表情を識別するためのプログラムとして機能する。表情識別器1462は、怒っている表情を識別するためのプログラムとして機能する。表情識別器1463は、驚いている表情を識別するためのプログラムとして機能する。表情識別器1464は、悲しんでいる表情を識別するためのプログラムとして機能する。例えば、表情識別器1461は、複数の笑っている人のフェイストラッキングデータを訓練データとして重み係数を学習する。
物体識別器DB1448は、対象の種類ごとの物体識別器を含む。図14に示される例において、物体識別器DB1448は、物体識別器1471,1472,1473,・・・を含む。例えば、物体識別器1471は、猫を識別するためのプログラムとして機能する。
[ユーザ情報の更新処理]
図15は、サーバ150がコンピュータ200Aおよび200Bと通信してユーザ情報1444を更新する処理を表すフローチャートである。図15に示される処理は、コンピュータ200のプロセッサ10がメモリ11またはストレージ12に格納される制御プログラムを実行し、サーバ150のプロセッサ1420がストレージ1440に格納される制御プログラムを実行することにより実現され得る。
ステップS1502において、サーバ150のプロセッサ1420は、コンピュータ200Aおよび200Bから入力される情報(例えば、複数のパノラマ画像22のいずれかを指定する情報)に基づいて、仮想空間を定義する。プロセッサ1420は送受信部1421として、定義した仮想空間に対応する仮想空間指定情報1441をコンピュータ200Aおよび200Bに送信する。このとき、各コンピュータ200は、仮想空間指定情報1441と併せてユーザIDをサーバ150に送信する。プロセッサ1420はさらに、マッチング部1423として、ユーザ190Aおよび190Bが同じ仮想空間を共有するものとして、彼らのユーザIDを互いに関連付け得る。
ステップS1504において、コンピュータ200Aのプロセッサ10Aは、仮想空間定義モジュール231Aとして、仮想空間2Aを定義する。具体的には、プロセッサ10Aは、受信した仮想空間指定情報1441に基づくパノラマ画像22Aを用いて仮想空間2Aを構成する。ステップS1506において、コンピュータ200Bのプロセッサ10Bは、プロセッサ10Aと同様に仮想空間2Bを定義する。
ステップS1508において、プロセッサ10Aは、第1カメラ115Aおよび第2カメラ117Aによってユーザ190Aの顔を撮影する。このとき、プロセッサ10Aは、モニタ112Aに、無表情での撮影を促すメッセージを表示する。プロセッサ10Aは、取得した画像に基づいてフェイストラッキングデータを生成する。このとき生成されたフェイストラッキングは基準データとして機能する。プロセッサ10Aは、生成した基準データをサーバ150に送信する。ステップS1510において、プロセッサ10Bも同様に、基準データを生成してサーバ150に送信する。プロセッサ10Aおよび10Bは、サーバ150に何らかのデータを送信する際に、ユーザIDを併せて送信する。
ステップS1512において、サーバ150は、各コンピュータ200から受信した基準データに基づいて、基準データDB1446を更新する。
ステップS1514において、プロセッサ10Aは、アバター制御モジュール234Aとして、ユーザ190A自身のアバターオブジェクト900A(図15では「自アバターオブジェクト」と表記)を仮想空間2Aに配置する。プロセッサ10Aはさらに、仮想カメラ1Aをアバターオブジェクト900Aの位置(例えば、目の位置)に配置する。プロセッサ10Aは、アバターオブジェクト900Aの位置情報(つまり、ユーザ190Aの仮想空間2Aにおける視座情報)とモデリングデータとをサーバ150に送信する。なお、アバターオブジェクト900Aが予め定められた種類から選択されるアバターである場合、プロセッサ10Aは、当該アバターの種類を特定する情報をサーバ150に送信し得る。
ステップS1516において、プロセッサ1420は、受信したアバターオブジェクト900Aの位置情報に基づいてユーザ190A(のユーザID)に対応する位置情報1452を更新する。プロセッサ1420はさらに、コンピュータ200Aから受信した情報を、コンピュータ200Aと通信するコンピュータ200Bに送信する。
ステップS1518において、プロセッサ10Bは、アバター制御モジュール234Bとして、受信した情報に基づいて、仮想空間2Bにアバターオブジェクト900Aを配置する。
ステップS1520〜S1524において、ステップS1514〜S1518と同様に、仮想空間2Aおよび2Bにアバターオブジェクト900B(図15では「他アバターオブジェクト」と表記)が生成され、ユーザ190Bに対応する位置情報1452が更新される。
ステップS1526において、プロセッサ10Aは、第1カメラ115Aおよび第2カメラ117Aによりユーザ190Aの顔を撮影して、深度情報を含む顔画像を生成する。プロセッサ10Aは、顔器官検出モジュール225Aおよび動き検出モジュール226Aとして、顔画像に基づいてフェイストラッキングデータを生成し、サーバ150に送信する。
ステップS1528において、プロセッサ10Aは、視点特定モジュール227Aとして、ユーザ190Aの仮想空間2Aにおける視点位置を特定し、サーバ150に送信する。
ステップS1530において、プロセッサ10Aは、HMDセンサ120の出力および/またはコントローラ160の出力に基づいて、仮想カメラ1Aの位置および傾きを更新する。プロセッサ10Aは、更新後の仮想カメラ1Aの位置および傾きを示す情報をサーバ150に送信する。
ステップS1532〜S1536において、プロセッサ10Bは、ステップS1526〜S1530の処理と同様に、フェイストラッキングデータ、ユーザ190Bの仮想空間2Bにおける視点位置、並びに仮想カメラ1Bの位置および傾きを示す情報をサーバ150に送信する。
ステップS1538において、プロセッサ1420は、コンピュータ200Aおよび200Bから受信した各種情報に基づいて、ユーザ情報1444を更新する。ある局面において、プロセッサ1420は、各コンピュータ200から受信した視点位置のうち、ユーザ190の操作または動作に関する予め定められた条件を満たす視点位置のみを視点位置情報1454に保存し得る。この処理の詳細は後述される。
プロセッサ1420はさらに、コンピュータ200Aから受信した情報をコンピュータ200Bに送信し、コンピュータ200Bから受信した情報をコンピュータ200Aに送信する。
ステップS1540において、プロセッサ10Aは、サーバ150から受信した情報を仮想空間2Aに配置されるアバターオブジェクト900Bに反映する。ステップS1542において、プロセッサ10Aは、仮想カメラ1Aが撮影する視界画像をモニタ112Aに出力する。これにより、ユーザ190Aは、ユーザ190Bの動きや表情が反映されたアバターオブジェクト900Bを視認できる。その後、プロセッサ10Aは、ステップS1526の処理を再び実行する。
ステップS1544〜S1546において、プロセッサ10Bは、ステップS1540〜S1542の処理と同様の処理を実行する。その後、プロセッサ10Bは、ステップS1532の処理を再び実行する。
ある実施の形態において、繰り返し実行されるステップS1526〜S1546の処理は、1/60秒または1/30秒の間隔で実行され得る。
なお、他の局面において、上記の繰り返し実行される処理は、ユーザ190の音声を相手のコンピュータ200に送信する処理、その他の仮想空間2におけるユーザ同士のコミュニケーションを促進する処理を含み得る。
[視点位置をメモリに保存する処理]
ユーザ190は仮想空間2を構成するパノラマ画像22を評価し得る。仮に、ユーザ190がパノラマ画像22そのものに対して評価を行なった場合、パノラマ画像22の配信者はユーザ190が何に関心を示したかを把握できない可能性がある。その理由は、パノラマ画像22が360度全方位に展開されているため、ユーザ190が何を見て評価したかを把握できないためである。以下、このような課題を解決し得る処理を説明する。
(ユーザの操作に基づく保存処理)
まず、図16および図17を用いて、ユーザ操作に基づいて、ユーザ190の視点位置をメモリに保存する処理を説明する。図16は、ユーザ190Aが視認する視界画像1600を表す。図17は、図16の状態に対応する仮想空間2Aを表す。
ある局面において、仮想空間2Aには、現実空間における市街風景を表すパノラマ画像22が展開されている。視界画像1600は、パノラマ画像22のうち視認領域23に対応する部分の画像である。視界画像1600は、パノラマ画像22の一部である猫1610を含む。視界画像1600はさらに、アバターオブジェクト900Bと、視点オブジェクト1620と、操作オブジェクト1630と、UIオブジェクト1640と、評価オブジェクト1650とを含む。
視点オブジェクト1620は、ユーザ190Aの仮想空間2Aにおける視点位置を表す。ある局面において、このオブジェクトは、パノラマ画像22における視点位置を表す。図16の例において、ユーザ190Aは、猫1610を注視している。
図17を参照して、プロセッサ10Aは、視点特定モジュール227Aとして、ユーザ190Aの視線1710を特定する。次に、視点特定モジュール227Aは、視線1710と仮想空間2Aの天球とが交わる座標値1720を特定する。プロセッサ10Aは、特定された座標値1720に視点オブジェクト1620を配置する。
ある局面において、プロセッサ10Aは、視点特定モジュール227Aにより特定されたXYZ座標系における座標値1720をサーバ150に送信する。
図16を再び参照して、操作オブジェクト1630は手のオブジェクトであって、ユーザ190Aの手の動きに連動して動く。より具体的には、プロセッサ10Aは操作オブジェクト制御モジュール233Aとして、モーションセンサ130Aの出力に基づいて、操作オブジェクト1630を動かすためのデータを生成する。
UIオブジェクト1640は、パノラマ画像22に含まれるコンテンツに対するユーザ190Aの評価を受け付けるためのユーザインターフェイスとして機能する。一例として、UIオブジェクト1640は、肯定的な文言(図16の例では「グッド!」)を含む。ある局面において、プロセッサ10Aは、仮想カメラ1に連動してUIオブジェクト1640を動かす。これにより、ユーザ190Aは、常にUIオブジェクト1640を視認し得る。
ユーザ190Aは、視界画像1600中に気に入ったコンテンツがあった場合に、UIオブジェクト1640を操作する。一例として、ユーザ190Aは、気に入ったコンテンツに視線1710を注いでいる状態において、操作オブジェクト1630をUIオブジェクト1640に接触させる。プロセッサ10Aは、これらが接触したタイミングの座標値1720と、これらが接触したことを表す情報(第1操作情報)とを関連付けてサーバ150に送信する。サーバ150は、第1の操作情報を関連付けられた視点位置をストレージ1440の視点位置情報1454に保存する。
他の局面において、プロセッサ10Aは、ユーザ190の関心を受け付けるためのコントローラ160Aの予め定められたボタン(UI)が押下されたタイミングの座標値1720を、当該ボタンが押下されたことを表す情報(第2操作情報)とともにサーバ150に送信してもよい。
第1および第2操作情報は、ユーザ190Aの操作を表す信号である。また、第1および第2操作情報が表すユーザ190Aの操作は、ユーザ190Aの関心を示す。以下、第1操作情報および第2操作情報を総称して「操作情報」とも言う。
図18は、視点位置情報1454のデータ構造の一例を表す。視点位置情報1454は、ユーザIDと、パノラマ画像IDと、視点位置と、タイミングとを互いに関連付けて保持する。パノラマ画像IDは、複数のパノラマ画像22の各々を識別する。このタイミングは、パノラマ画像22が動画像である場合に、動画像の再生中における操作情報が入力されたタイミング(視点位置が取得されたタイミング)を表す。
図18に示される視点位置情報1454は、パノラマ画像22Aが再生開始されてから5分3秒経過時点における視点位置(X1,Y1,Z1)をユーザ190Aが注視していたことを表す。
上記によれば、サーバ150は、操作情報と関連付けられたユーザの視点位置をストレージ1440に保存できる。これにより、パノラマ画像22の配信者は、ストレージ1440に保存された視点位置を参照することで、どのユーザがパノラマ画像22に含まれるどのコンテンツに関心を示したのかを把握できる。
図16を再び参照して、評価オブジェクト1650は、ユーザ190A、または他のユーザが過去に操作情報の入力を行なったタイミングの視点位置を表す。ユーザ190Aは、評価オブジェクト1650を視認することにより、他のユーザがパノラマ画像22のどのコンテンツに関心を示したのかを把握できる。
なお、評価オブジェクト1650は、ユーザ190Aがパノラマ画像22を視認することを邪魔する可能性がある。そのため、ある実施形態において、評価オブジェクト1650は透明(例えば、透過率50%)に設定される。
(ユーザの動作に基づく保存処理)
上記の例では、サーバ150は、ユーザ190の操作に基づいて視点位置をストレージに保存するように構成されている。係る場合、パノラマ画像の配信者は、ユーザ190の関心を十分に把握できない場合があり得る。例えば、パノラマ画像22が動画像である場合、ユーザ190は、興味のあるコンテンツを視認したタイミングで操作情報をコンピュータ200に入力できないことがある。また、ユーザ190が操作情報の入力を面倒だと思う場合もあり得る。以下、このような課題を解決し得る処理について説明する。
図19Aは、ユーザ190Aが無表情時に取得される顔の特徴点を表す。図19Bは、ユーザ190Aが驚いたときに取得される顔の特徴点を表す。図19Aおよび図19Bに示される特徴点Pは、動き検出モジュール226Aによって取得されるユーザ190Aの顔の特徴点を表す。
図15のステップS1508で説明したように、コンピュータ200Aは、無表情なユーザ190Aのフェイストラッキングデータ(基準データ)を生成する。図19Aに示される特徴点Pは、この基準データに対応する。一方、図19Bに示される特徴点Pは、ステップS1526で生成されるフェイストラッキングデータに対応する。図19Bに示される例において、ユーザ190Aは驚いているため、目の特徴点Pが顔の高さ方向に広がり、眉の特徴点Pが上方向に移動している。つまり、基準データに対するフェイストラッキングデータの変動量は、ユーザ190Aのコンテンツに対する関心の度合いを表す。
そこで、サーバ150のプロセッサ1420は、基準データに対するフェイストラッキングデータの変動量が予め定められた変動量を上回った場合に、当該フェイストラッキングデータに対応する視点位置を視点位置情報1454に保存する。一例として、フェイストラッキングデータに対応する視点位置は、フェイストラッキングデータの入力タイミングに最も近いタイミングで入力された視点位置であり得る。
ある局面において、プロセッサ10Aは、各々の特徴点ごとに基準データに対するフェイストラッキングデータの変動量を算出し、その総和に基づいて上記の判断を行なう。他の局面において、プロセッサ10Aは、感情による変化の度合いが大きい予め定められた特徴点(例えば、口角に対応する特徴点)についてのみ変動量を算出し、その総和に基づいて上記判断を行なう。
上記によれば、サーバ150は、ユーザ190Aがコンテンツに関心を示したときの視点位置を取得できる可能性を高め得る。また、ユーザ190は、何らの操作を行なう必要もないためパノラマ画像22の視聴に集中できる。
(制御構造)
図20は、ある実施形態に従う視点位置をストレージ1440に保存する処理を表すフローチャートである。図20に示される処理は、サーバ150のプロセッサ1420によって実行される。
ステップS2010において、プロセッサ1420は、仮想空間指定情報1441に基づいて、仮想空間2を定義する。プロセッサ1420はさらに、パノラマ画像DB1443に格納される複数のパノラマ画像22のうち、コンピュータ200から指定されるパノラマ画像22を用いて仮想空間2を構成する。
ステップS2020において、プロセッサ1420は、コンピュータ200からフェイストラッキングデータ、仮想カメラ1の位置および傾き、視点位置、並びにユーザ190の操作を表す信号の入力を受け付ける。このフェイストラッキングデータは、ユーザ190の動作を表す信号と言える。操作を表す信号は、例えば、コントローラ160の出力を含む。他の局面において、操作を表す信号は、操作オブジェクトと他のオブジェクトとが接触したことを表す情報を含む。
ステップS2030において、プロセッサ1420は、視点位置と操作情報とが関連付けられているか否かを判断する。プロセッサ1420は、視点位置に操作情報が関連付けられていると判断した場合(ステップS2030でYES)、視点位置をストレージ1440に保存する(ステップS2060)。そうでない場合(ステップS2030でNO)、プロセッサ1420は処理をステップS2040に進める。
ステップS2040において、プロセッサ1420は、基準データに対するフェイストラッキングデータの変動量を算出する。より具体的には、プロセッサ1420は、基準データDB1446を参照して、フェイストラッキングデータの送信元のユーザIDに対応する基準データを特定する。プロセッサ1420は、特定した基準データと、受信したフェイストラッキングデータとを比較して、変動量を算出する。
ステップS2050において、プロセッサ1420は、算出した変動量が予め定められた値を超えたか否かを判断する。プロセッサ1420は、算出した変動量が予め定められた値を超えたと判断した場合(ステップS2050でYES)、視点位置をストレージ1440に保存する(ステップS2060)。そうでない場合(ステップS2050でNO)、プロセッサ1420はステップS2020の処理を再び実行する。
上記によれば、ある実施形態に従うサーバ150は、ユーザ190の操作または動作がユーザ190の関心を示したときに視点位置を取得できる。
なお、上記の例ではサーバ150は、ユーザ190が関心を示したパノラマ画像22の位置情報をストレージ1440に保存するように構成されているが、他の局面において、ユーザ190が関心を示したオブジェクトを表す情報をストレージ1440に保存するように構成されてもよい。一例として、ユーザ190が所定オブジェクトに視線を注いでいる場合であって上記説明した視点位置を保存する条件が満たされたときに、サーバ150は、当該オブジェクトを表す情報(例えば、各オブジェクトに設けられるID)をストレージ1440に保存する。
(音声による視点位置の保存処理)
ある実施形態において、サーバ150は、ステップS1820においてコンピュータ200からユーザ190の発話に対応する音声信号の入力を受け付ける。サーバ150は、この音声信号が予め定められた条件を満たした場合に視点位置をストレージ1440に保存しても良い。ある局面において、サーバ150は、入力された音声信号が予め定められたレベルを上回る場合に、視点位置をストレージ1440に保存する。
他の局面において、サーバ150は、入力された音声信号からユーザ190の感情を推定し、推定された感情に基づいて視点位置をストレージ1440に保存する。例えば、サーバ150は、音声信号から文字列を抽出して、当該文字列から感情を推定する。このような処理は、例えば、メタデータ社が提供する「感情解析API」により実現され得る。他の局面において、サーバ150は、音声信号の波形から感情を推定する。このような処理は、例えば、AGI社が提供する「ST Emotion SDK」により実現され得る。
サーバ150は、上記の処理により、複数の感情の種類(例えば、「喜」「怒」「哀」「楽」)の中から音声信号に基づいてユーザ190の感情の種類を推定する。サーバ150は、推定した感情の種類がユーザの関心を示すとき(例えば、感情の種類が「喜」または「楽」のとき)に、視点位置をストレージ1440に保存する。このとき、サーバ150は、推定した感情の種類を視点位置に関連付けてストレージ1440に保存してもよい。
(感情の推測)
図20の例では、プロセッサ1420は、基準データに対するフェイストラッキングデータの変動量が大きいときに、視点位置をストレージ1440に保存するように構成されている。係る場合、パノラマ画像22の配信者は、ユーザ190が関心を抱いたコンテンツを把握できるものの、ユーザ190が当該コンテンツにどのような感情を抱いたかは分からない。そこで、ある実施形態に従うサーバ150は、ユーザ190がコンテンツにどのような感情を抱いたかを推測する。
プロセッサ1420は、感情判断部1425として、基準データに対する変動量がしきい値以上であるフェイストラッキングデータから特徴量を算出する。感情判断部1425は、表情識別器1461〜1464を用いて、算出した特徴量に対応する表情の種類を特定する。
一例として、感情判断部1425は、複数のSVM(Support Vector Machine)に従う表情識別器1461〜1464を用いて、CNN(Convolutional Neural Network)により導出される特徴量から表情の種類(笑い、怒り、驚き、悲しみ)を特定する。なお、表情の種類の特定方法は当該方法に限られず、公知の機械学習が適用され得る。
他の局面において、感情判断部1425は、フェイストラッキングデータの配置パターンに基づいて、表情の種類を特定し得る。さらに他の局面において、感情判断部1425は、ユーザ190の顔画像(第1カメラ115および第2カメラ117が撮影する画像)の入力を受け付け、当該顔画像に基づいて表情の種類を特定し得る。
図21は、視点位置と感情の種類とを関連付けて保存する処理を表すフローチャートである。なお、図21に示される処理のうち上述の処理と同じ処理については同じ符号を付している。そのため、その処理についての説明は繰り返さない。
ステップS1910において、プロセッサ1420は、感情判断部1425として、基準データに対する変動量が予め定められた値を超えたフェイストラッキングデータに基づいて、表情の種類を特定する。
ステップS1920において、プロセッサ1420は、視点位置と特定した表情の種類とを関連付けてストレージ1440(視点位置情報1454)に保存する。
上記によれば、ある実施形態に従うサーバ150は、ユーザ190が関心を抱いたコンテンツの位置情報(視点位置)と、当該コンテンツに対するユーザ190の感情(表情)とを関連付けてストレージ1440に保存できる。これにより、パノラマ画像22の配信者は、より詳細にパノラマ画像22に対するユーザ190の評価を得られる。
(視点の可視化)
上記の例において、プロセッサ1420は、ユーザ190が関心を示した視点位置をストレージ1440に保存するように構成されている。係る場合、パノラマ画像22の配信者は、視点位置(座標値)と、パノラマ画像22との対応関係を調べる必要がある。そこで、ある実施形態に従うプロセッサ1420は、マップ生成部1426として、パノラマ画像22と視点位置情報1454とに基づいてグラフを作成する。このグラフは、パノラマ画像22における視点位置(ユーザ190が関心を示した位置)を可視化する。
図22は、視点位置情報1454に基づくヒートマップ2200を表す。一例として、プロセッサ1420は、パノラマ画像22上の視点位置が密な領域を赤色で、視点位置が疎な領域を青色で表現してヒートマップ2200を生成する。図22の例において、領域2210は視点位置が密な領域であって、赤色のハッチがかけられている。
パノラマ画像22の配信者は、ヒートマップ2200を見ることにより、ユーザ190がパノラマ画像22のどのコンテンツに関心を示したのかを容易に理解し得る。
ある局面において、プロセッサ1420は、視点位置情報1454に視点位置を保存する際に、この視点位置の送信元のユーザが、他のユーザと通信していたか否かを関連付けて保存する。例えば、図17に示される例において、プロセッサ1420がコンピュータ200Aから視点位置を表す座標値1720を受信した場合、ユーザ190Aはユーザ190Bと通信していると判断して、その旨と視点位置とを関連付けて視点位置情報1454に保存する。
ある実施形態に従うプロセッサ1420は、他のユーザと通信していた場合の視点位置に基づくヒートマップと、他のユーザと通信していない場合の視点位置に基づくヒートマップとを生成し得る。係る場合、パノラマ画像22の配信者は、ユーザが1人でパノラマ画像22を見ているときに関心を示したコンテンツと、ユーザが複数でパノラマ画像22を見ているときに関心を示したコンテンツとの差を容易に理解し得る。
[ユーザが関心を示したコンテンツの特定]
上記の例において、プロセッサ1420は、視点位置をストレージ1440に保存する構成であって、視点位置に表示されているコンテンツを特定していない。そのため、パノラマ画像22の配信者は、ユーザが関心を示したコンテンツを理解するために、視点位置(座標値)とパノラマ画像22との対応関係を調べなくてはならない。そこで、ある実施形態に従うプロセッサ1420は、視点位置に表示されているコンテンツを特定する。
図16を参照して、ユーザ190Aの視点オブジェクト1620が猫1610に重畳されている。ある局面において、コンピュータ200Aは、視点オブジェクト1620が配置される視点位置をサーバ150に送信する。
サーバ150のプロセッサ1420は、切り出し部1427として、仮想空間2Aに展開されているパノラマ画像22から受信した視点位置周辺の周辺画像1660を切り出す。ある局面において、切り出し部1427は、視点位置を中心とした予め定められ矩形領域を周辺画像1660として切り出す。他の局面において、切り出し部1427は、公知の物体検出手法を用いて視点位置のコンテンツが存在するバウンディングボックスを周辺画像1660として切り出す。例えば、切り出し部1427は、Selective Search法を用いて視点位置を中心とする極小領域(例えば、3×3pixel)を設定し、当該領域と似た領域が占有する範囲に基づいて周辺画像1660(バウンディングボックス)を切り出す。
次に、プロセッサ1420は、対象特定部1428として、周辺画像1660に含まれるコンテンツ、つまり、ユーザ190Aが視線を注ぐ対象を特定する。対象特定部1428は、感情判断部1425と同様に、物体識別器1471,1472,1473・・・を用いて対象(コンテンツ)を特定する。そのため、その特定処理については繰り返し説明しない。プロセッサ1420は、視線位置と、特定した対象とを関連付けて視点位置情報1454に保存し得る。
次に、プロセッサ1420は、特定した対象(ユーザ190Aが関心を示したコンテンツ)に基づいて、ユーザ190Aが興味を示すであろう広告を広告DB1445から特定し、特定した広告をコンピュータ200Aに配信する。
(制御構造)
図23は、ユーザ190が視線を注ぐ対象を特定して広告を配信するまでの一連の処理の一例を表すフローチャートである。図23に示される処理は、サーバ150のプロセッサ1420によって実行される。
ステップS2310において、プロセッサ1420は切り出し部1427として、コンピュータ200から受信した視点位置に基づいてパノラマ画像22から周辺画像を切り出す。
ステップS2320において、プロセッサ1420は対象特定部1428として、パノラマ画像22に関連付けられた第1タグに基づいて、用いる物体識別器を特定する。図24を用いてこの処理をより具体的に説明する。
図24は、パノラマ画像DB1443のデータ構造の一例を表す。ある実施形態に従うパノラマ画像DB1443は、パノラマ画像22と、第1タグと、第2タグとを互いに関連付けて保持する。
第1タグは、パノラマ画像22に含まれる対象(コンテンツ)を特定する。第2タグは、パノラマ画像22の種類を特定する。一例として、第1および第2タグは、パノラマ画像22の配信者が設定し得る。他の局面において、第1および第2タグは、パノラマ画像22の視聴者(ユーザ)が設定し得る。
図24に示される例において、パノラマ画像PA1は、第1タグとして「船」および「橋」が、第2タグとして「旅行」および「地中海」がそれぞれ関連付けられている。対象特定部1428は、パノラマ画像PA1に関連付けられた第1タグに基づいて、「船」、「橋」それぞれに対応する物体識別器を物体識別器DB1448から特定する。
図23を再び参照して、ステップS2330において、プロセッサ1420は対象特定部1428として、特定した物体識別器を用いて周辺画像に含まれる対象(コンテンツ)を特定する。
ステップS2340において、プロセッサ1420は、特定した対象を視点位置に関連付けてストレージ1440(視点位置情報1454)に保存する。
ステップS2350において、プロセッサ1420は、第1テーブルTL1を参照して、特定した対象に関連付けられた広告を、視点位置の送信元のコンピュータ200(に接続されるHMD110)に配信する。図25を用いてこの処理をより具体的に説明する。
図25は、第1テーブルTL1のデータ構造の一例を表す。第1テーブルTL1は、広告と対象(コンテンツ)とを互いに関連付けて保持する。ある局面において、プロセッサ1420は、ユーザ190の注視する対象が「船」であると特定する。係る場合、プロセッサ1420は、第1テーブルTL1を参照して、「船」に関連付けられた広告AD1を、視点位置の送信元のコンピュータ200に配信する。コンピュータ200は、受信した広告AD1をHMD110に出力する。これにより、ユーザ190は、広告AD1を視認する。
図23を再び参照して、ステップS2360において、プロセッサ1420は、第2テーブルTL2を参照して、特定した対象からユーザ190が関心を示すであろうパノラマ画像22を特定する。図26を用いてこの処理をより具体的に説明する。
図26は、第2テーブルTL2のデータ構造の一例を表す。第2テーブルTL2は、対象(コンテンツ)とパノラマ画像22の種類とを含む。ある局面において、プロセッサ1420は、ユーザ190の注視する対象が「船」であると特定する。係る場合、プロセッサ1420は、第2テーブルTL2を参照して、「船」に対応する種類が「旅行」であると特定する。プロセッサ1420はさらに、パノラマ画像DB1443を参照して、第2タグとして「旅行」が関連付けられたパノラマ画像22を特定する。
図23を再び参照して、ステップS2070において、プロセッサ1420は、特定したパノラマ画像22を推奨する情報を、視点位置の送信元のコンピュータ200(に接続されるHMD110)に配信する。この情報は、例えば、特定したパノラマ画像22の一部の画像、パノラマ画像IDを含み得る。
コンピュータ200は、サーバ150から受信した上記情報に基づいて、特定されたパノラマ画像22をユーザ190に推奨する。
図27は、ユーザ190にパノラマ画像22を推奨する処理を説明するための図である。ある局面において、HMD110のモニタ112は、ユーザ190がパノラマ画像22を選択するための視界画像2700を表示する。
視界画像2700は、選択領域2710と、推奨領域2720と、視点オブジェクト2730とを含む。選択領域2710は、パノラマ画像DB1443に格納される複数のパノラマ画像22の各々の一部を含む。推奨領域2720は、サーバ150から受信した上記情報に基づいて特定されるパノラマ画像22の一部を含む。つまり、推奨領域2720に含まれるパノラマ画像22は、ユーザ190が関心を示す可能性が高い。そのため、ユーザ190は、興味のあるパノラマ画像22を推奨領域2720から容易に探し得る。
ある局面において、ユーザ190は、視点オブジェクト2730を操作してパノラマ画像22を選択する。一例として、ユーザ190は、興味のあるパノラマ画像22の一部に、視点オブジェクト2730を予め定められた時間(例えば3秒間)重ね合わせる。コンピュータ200は、ユーザ190によって選択されたパノラマ画像22を表す情報(例えば、パノラマ画像ID)をサーバ150に送信する。サーバ150は、ユーザ190によって選択されたパノラマ画像22をコンピュータ200に送信する。コンピュータ200は、受信したパノラマ画像22を用いて仮想空間2を構成する。これにより、ユーザ190は、指定したパノラマ画像22により構成された仮想空間2を視認できる。
上記によれば、ある実施形態に従うサーバ150は、ユーザ190が関心を示した対象(コンテンツ)を特定することができる。その際、サーバ150は、パノラマ画像22に関連付けられた第1タグに基づいて、用いる物体識別器を限定できるため、対象を特定する処理に要する負荷を大幅に軽減できる。加えて、パノラマ画像22の配信者は、第1タグを設定することにより、パノラマ画像22に含まれる複数のコンテンツのうち、分析対象とするコンテンツを予め限定できる。
また、サーバ150は、特定した対象に基づいてユーザ190が関心を示す可能性が高い広告およびパノラマ画像22を効率的に配信できる。
[フィルタリング処理]
図28は、視点位置を視点位置情報1454に保存しない場合の処理について説明するための図である。図28を参照して、仮想空間2Aには、パノラマ画像22Aが展開されている。また、仮想空間2Aには、ユーザ190Aに対応するアバターオブジェクト900Aと、ユーザ190Bに対応するアバターオブジェクト900Bとが配置されている。
上記の例において、プロセッサ1420は、ユーザ190Aの動作(表情、音声)に基づいてユーザ190Aの視点位置をストレージ1440に保存するように構成されている。しかし、ユーザ190Aは仮想空間2A上でユーザ190Bとコミュニケーションを行なうことができる。そのため、ユーザ190Aの動作がパノラマ画像22Aに起因するものではなく、ユーザ190Bとのコミュニケーションに起因する可能性もある。係る場合、パノラマ画像22の配信者は、ユーザ190Aのパノラマ画像22に対する関心を正確に把握することができない。そこで、ある実施形態に従うサーバ150のプロセッサ1420は、フィルタ部1429として、ユーザ間でコミュニケーションが行なわれていると判断した場合に、ユーザの動作に基づく視点位置の保存処理を中止する。以下、図28を用いて、フィルタ部1429の処理を説明する。
ある局面において、フィルタ部1429は、仮想空間上でユーザ190Aおよび190Bが向かい合っている場合に、これらのユーザがコミュニケーションを行なっていると判断する。
プロセッサ1420は、コンピュータ200Aからユーザ190Aの視線2810を表す視線情報を受信する。プロセッサ1420は、コンピュータ200Bからユーザ190Bの視線2820を表す視線情報を受信する。一例として、フィルタ部1429は、視線2810と視線2820とが成す角度が略180度(例えば、170〜190度)である場合に、ユーザ190Aおよび190Bが仮想空間上で向かい合っていると判断する。
この場合、プロセッサ1420は、ユーザ190の動作(表情、音声)が上記の予め定められた条件を満たした場合であっても、視点位置をストレージ1440に保存しない。
他の局面において、フィルタ部1429は、仮想空間におけるユーザ190Aの視座と190Bの視座との間隔が狭い場合に、これらのユーザがコミュニケーションを行なっていると判断する。
プロセッサ1420は、コンピュータ200Aから仮想カメラ1Aの位置情報(ユーザ190Aの仮想空間2Aにおける視座情報)を受信する。プロセッサ1420は、コンピュータ200Bから仮想カメラ1Bの位置情報を受信する。フィルタ部1429は、受信した位置情報に基づいて、ユーザ190Aの視座とユーザ190Bの視座との間隔Dを算出する。フィルタ部1429は、間隔Dが予め定められた間隔未満である場合に、仮想空間における2人の間隔が狭いと判断する。
さらに他の局面において、フィルタ部1429は、ユーザ190Aおよび190Bが話しているときに、これらのユーザがコミュニケーションを行なっていると判断する。
プロセッサ1420は、コンピュータ200Aからユーザ190Aの発話に対応する第1音声信号を受信する。プロセッサ1420は、コンピュータ200Bからユーザ190Bの発話に対応する第2音声信号を受信する。フィルタ部1429は、第1および第2音声信号が予め定められたレベル以上である場合に、ユーザ190Aおよび190Bが話していると判断する。
(制御構造)
図29は、視点位置を視点位置情報1454に保存する処理を中止する処理を表すフローチャートである。なお、図29に示される処理のうち上述の処理と同じ処理については同じ符号を付している。そのため、その処理についての説明は繰り返さない。
ステップS2910において、プロセッサ1420は、コンピュータ200Aおよび200Bから、フェイストラッキングデータ、仮想カメラ1の位置および傾き、視点位置、視線方向、並びに音声信号の入力を受け付ける。仮想カメラ1の位置は、ユーザ190の仮想空間2における視座を表す。視線方向は、視点特定モジュール227が特定するユーザ190の仮想空間2における視線の方向である。
プロセッサ1420は、視点位置に操作情報が関連付けられていない場合(ステップS2030でNO)、処理をステップS2920に進める。
ステップS2920において、プロセッサ1420は、フィルタ部1429として視点位置をストレージ1440に保存する処理を中止するか否かを判断する。プロセッサ1420は、当該処理を中止する場合(ステップS2920でYES)、ステップS2710の処理を再び実行する。一方、プロセッサ1420は、当該処理を中止しない場合(ステップS2920でNO)、処理をステップS2040に進める。
図30は、ステップS2920の処理を説明するためのフローチャートである。ステップS3010において、プロセッサ1420は、ユーザ190Aの視線とユーザ190Bの視線とが互いに向かい合うか否かを判断する。プロセッサ1420は、これらの視線が互いに向かい合うと判断した場合(ステップS3010でYES)、ステップS2710の処理を再び実行する。
ステップS3020において、プロセッサ1420は、ユーザ190Aの視座とユーザ190Bの視座との間隔Dが予め定められた間隔未満であるか否かを判断する。プロセッサ1420は、間隔Dが予め定められた間隔未満であると判断した場合(ステップS3020でYES)、ステップS2710の処理を再び実行する。
ステップS3030において、プロセッサ1420は、ユーザ190Aに対応する第1音声信号およびユーザ190Bに対応する第2音声信号が、予め定められたレベル以上であるか否かを判断する。プロセッサ1420は、第1および第2音声信号が予め定められたレベル以上であると判断した場合(ステップS3030でYES)、ステップS2710の処理を再び実行する。
プロセッサ1420は、ステップS3010〜S3030の条件を満たさないと判断した場合、処理をステップS2040に進める。
上記によれば、サーバ150は、ユーザ同士でコミュニケーションを行なっていると判断した場合に、ユーザ190の動作に基づく視点位置の保存処理を中止できる。その結果、サーバ150は、ユーザ190のパノラマ画像22に対する関心を、より正確に取得し得る。
なお、上記の例において、プロセッサ1420は、ステップS3010〜S3030の条件うち1つでも条件を満たした場合に、視点位置の保存処理を中止するように構成されている。他の局面において、プロセッサ1420は、ステップS3010〜S3030の条件うち、複数の条件を満たした場合に、視点位置の保存処理を中止するように構成されてもよい。
[構成]
以上に開示された技術的特徴は、以下のように要約され得る。
(構成1) ある実施形態に従うと、HMD110と通信可能なサーバ150によって実行されるプログラムが提供される。このプログラムはコンピュータに、仮想空間2を定義するステップ(S2010)と、HMD110の出力に基づいて仮想空間2におけるHMD110のユーザ190の視点位置を取得するステップ(S2020)と、ユーザ190の操作または動作を表す信号を受け付けるステップ(S2020)と、信号が表すユーザ190の操作または動作がユーザ190の関心を示すときに、視点位置をストレージ1440(視点位置情報1454)に保存するステップ(S2060)とを実行させる。
ある局面において、コンピュータ200は、HMD110に設けられた注視センサ140の出力から算出されたユーザ190の仮想空間2における視点位置をサーバ150に出力する。これにより、サーバ150は、ユーザ190の視点位置を取得する。他の局面において、コンピュータ200は、HMD110に設けられた注視センサ140の出力から算出されたユーザ190の仮想空間2における視線を表す視線情報をサーバ150に送信する。コンピュータ200は、受信した視線情報に基づいてユーザ190の仮想空間2における視点位置を取得してもよい。
(構成2) (構成1)において、仮想空間2を定義するステップは、パノラマ動画像を用いて仮想空間2を構成するステップを含む。視点位置をストレージ1440に保存するステップは、視点位置と、動画像の再生中に当該視点位置が取得されたタイミングとを関連付けてストレージ1440に保存することを含む(図18)。
(構成3) (構成1)および(構成2)のいずれかにおいて、ユーザ190の関心を示すユーザ190の操作は、ユーザ190の関心を受け付けるためのユーザインターフェイスに対する操作を含む。このユーザインターフェイスは、例えば、コントローラ160に設けられた特定のボタンであり得る。他の例として、このユーザインターフェイスは、仮想空間2に配置されるUIオブジェクト1640であり得る。
(構成4) (構成1)〜(構成3)のいずれかにおいて、ユーザ190の動作を表す信号は、ユーザ190の表情を表すフェイストラッキングデータを含む。
(構成5) (構成4)に従うプログラムは、フェイストラッキングデータとの比較に用いられる基準データの入力を受け付けるステップ(S1512)をさらに備える。フェイストラッキングデータがユーザ190の関心を示すことは、当該フェイストラッキングデータの基準データに対する変動量が予め定められた変動量を超えること(S2050)を含む。
(構成6) (構成4)および(構成5)のいずれかにおいて、視点位置をストレージ1440に保存するステップは、フェイストラッキングデータがユーザ190の関心を示した場合に、複数の表情の種類の中から当該フェイストラッキングデータに対応する表情の種類を特定すること(S2110)と、特定した表情の種類と視点位置とを関連付けてストレージ1440に保存すること(S2120)とを含む。
(構成7) (構成1)〜(構成6)のいずれかにおいて、ユーザ190の動作を表す信号は、ユーザ190の発話に対応する音声信号を含む。
(構成8) (構成7)に従うプログラムは、複数の感情の種類の中から音声信号に対応するユーザ190の感情の種類を推定するステップをさらに含む。視点位置をストレージ1440に保存するステップは、推定されたユーザ190の感情の種類がユーザ190の関心を示すときに、当該推定されたユーザ190の感情の種類と視点位置とを関連付けてストレージ1440に保存することを含む。
(構成9) (構成1)〜(構成8)のいずれかにおいて、視点位置をストレージ1440に保存するステップは、信号がユーザ190の関心を示すときに、仮想空間2においてユーザ190の視線が注がれる対象を特定し(S2330)、当該対象を視点位置に関連付けてストレージ1440に保存すること(S2340)を含む。
(構成10) (構成9)において、ストレージ1440に格納される物体識別器DB1447は、対象の種類ごとに物体識別器1471、1472、1473、・・・を記憶している。仮想空間2を定義するステップは、パノラマ画像22を用いて仮想空間2を構成するステップを含む。対象を特定することは、パノラマ画像から視点位置の周辺画像を切り出すこと(S2310)と、周辺画像から特徴量を算出することと、対象の種類ごとに記憶された物体識別器1471、1472、1473、・・・を用いて算出した特徴量に対応する対象を特定すること(S2320)とを含む。
(構成11) (構成10)において、パノラマ画像22は、当該パノラマ画像22に含まれる対象を表す第1タグ情報を含む(図24)。対象を特定することは、記憶装置に記憶された複数の物体識別器1471、1472、1473、・・・のうち、第1タグ情報が示す対象の物体識別器を用いて特徴量に対応する対象を特定すること(S2330)を含む。
(構成12) (構成9)〜(構成11)のいずれかに従うプログラムは、特定された対象に関する広告をHMD110に配信するステップ(S2350)をさらに備える。
(構成13) (構成10)〜(構成12)のいずれかにおいて、ストレージ1440は、複数のパノラマ画像22を格納するパノラマ画像DB1443を含む。(構成10)〜(構成12)のいずれかに従うプログラムは、複数のパノラマ画像22の中から特定された対象に関連するパノラマ画像を特定するステップ(S2360)と、特定されたパノラマ画像を推奨する情報をHMD110に配信するステップ(S2370)とをさらに備える。
(構成14) (構成13)において、パノラマ画像22は、当該パノラマ画像22の種類を表す第2タグ情報を含む(図24)。ストレージ1440は、対象とパノラマ画像の種類との対応関係を保持するパノラマ画像DB1443を含む。パノラマ画像22を特定するステップは、パノラマ画像DB1443を参照して、特定された対象に対応する種類の第2タグ情報を含むパノラマ画像22を特定することを含む。
(構成15) (構成1)〜(構成14)のいずれかにおいて、仮想空間2を定義するステップは、パノラマ画像22を用いて仮想空間2を構成するステップを含む。(構成1)〜(構成14)のいずれかに従うプログラムは、パノラマ画像22とストレージ1440に保存された視点位置とからグラフを生成するステップをさらに備える。ヒートマップ2200は、このグラフの一例である。
(構成16) (構成1)〜(構成15)のいずれかに従うプログラムは、ユーザ190Aの仮想空間2Aにおける第1視線方向およびHMD110Aとは異なる他のHMD110Bを使用するユーザ190Bの仮想空間2Bにおける第2視線方向の入力を受け付けるステップ(S2910)をさらに備える。視点位置をストレージ1440に保存するステップは、第1視線方向と第2視線方向とが互いに向かい合う場合に、視点位置をストレージ1440に保存することを中止すること(S3010)を含む。
(構成17) (構成1)〜(構成16)のいずれかに従うプログラムは、ユーザ190の仮想空間2Aにおける第1視座およびHMD110Aとは異なる他のHMD110Bを使用するユーザ190Bの仮想空間2Bにおける第2視座の入力を受け付けるステップ(S3010でYES)をさらに備える。視点位置をストレージ1440に保存するステップは、仮想空間2Aにおける第1視座と第2視座との間隔Dが所定間隔未満である場合に、視点位置をストレージ1440に保存することを中止すること(S3020でYES)を含む。
(構成18) (構成1)〜(構成17)のいずれかに従うプログラムは、ユーザ190の第1音声信号およびHMD110Aとは異なる他のHMD110Bを使用するユーザ190Bの第2音声信号の入力を受け付けるステップ(S2910)をさらに備える。視点位置をストレージ1440に保存するステップは、第1および第2音声信号が予め定められたレベル以上である場合に、視点位置をストレージ1440に保存することを中止すること(S3030でYES)を含む。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。