JP6742405B2

JP6742405B2 - 表情検出機能を備えたヘッドマウントディスプレイ

Info

Publication number: JP6742405B2
Application number: JP2018517321A
Authority: JP
Inventors: ジフンチュ; チュンウォンパク
Original assignee: Binaryvr Inc
Current assignee: Binaryvr Inc
Priority date: 2015-09-29
Filing date: 2016-09-26
Publication date: 2020-08-19
Anticipated expiration: 2036-09-26
Also published as: US20170091535A1; US20180365484A1; KR20180112756A; DE112016004437T5; CN108140105A; KR102136241B1; WO2017058733A1; US10089522B2; JP2018538593A

Description

本開示は、仮想現実又は拡張現実の環境において使用される、ユーザの表情検出のためのヘッドマウントディスプレイユニット全般に関連する。

仮想現実（ＶＲ）及び拡張現実（ＡＲ）は、没入型リアルライフ経験をさせることを可能にすることから、ゲーム、教育、医療、及びソーシャルネットワーキングサービス等の適用における新興分野となっている。これらの適用の一部として、ユーザが表示装置に表示された自身の３Ｄ表現（例えば、アバター）を通じて他のユーザと関わることができるようにするソーシャルプラットフォームがある。ユーザが仮想現実又は拡張現実を通じて他のユーザと交流できるようにすることにより、これらの適用におけるユーザの経験を向上させることができる。

人同士の交流において、表情は、個人の感情状態について、他者に多くの情報を伝達する。ユーザ間の交流をより豊かなものとするために、ユーザの３Ｄ表現は、ユーザの表情を示すように開発されてもよい。このようにして、ＶＲ又はＡＲ環境において、ユーザの心的状態についてより多くの情報を他のユーザに効果的に伝えることができる。

本願は、２０１５年９月２９日出願の米国仮特許出願シリアル番号６２／２３４，４７８号及び２０１６年５月１６日出願の米国仮特許出願シリアル番号６２／３３７，２６１号に対する米国特許法第１１９条（ｅ）に基づく優先権を主張するものであり、その内容全体を参照としてここに援用する。

実施形態は、ヘッドマウントディスプレイを使用した表情検出に関連する。第１画像は、ヘッドマウントディスプレイ上の第１画像撮影装置により撮影される。第１画像は、ユーザの顔の上部を含む。第２画像は、ヘッドマウントディスプレイ上の第２画像撮影装置により撮影される。第２画像は、ユーザの顔の下部を含む。第１画像及び第２画像を処理することにより、ユーザの表情を表す表情パラメータを抽出する。

一実施形態において、第１画像撮影装置は、一対の赤外線カメラを備える。第２画像撮影装置は、深度カメラ、カラーカメラ、赤外線カメラ、又は２つの立体カメラ、のうちの１つを備える。

一実施形態において、第１画像及び第２画像を処理することにより、少なくとも、第１画像から、ユーザの目及びユーザの眉に関連付けられたランドマーク位置を検出し、第２画像から、ユーザの顔の下部に関連付けられたランドマーク位置を検出する。

一実施形態において、抽出された表情パラメータをユーザのデジタル表現に適用することにより、ユーザのグラフィック表現を生成する。

一実施形態において、ユーザの無表情を表すキャリブレーション画像を撮影および処理することにより、キャリブレーションを実施する。

一実施形態において、キャリブレーション画像に基づき、個人化無表情メッシュを生成し、変形転写技術を個人化無表情メッシュに適用することで、個人化追跡モデルを構築することにより、キャリブレーションを実施する。

一実施形態において、ブレンドシェイプモデルを、個人化追跡モデルに基づき、第１画像及び第２画像におけるランドマーク位置にフィットさせることにより、表情パラメータを得る。

一実施形態において、第１画像及び第２画像はリアルタイムで処理され、表情を取得する。

実施形態は、第１撮影装置と、第２撮影装置と、表示装置と、本体とを備えるヘッドマウントディスプレイにも関連する。第１撮影装置は、目領域を含むユーザの顔の上部を撮影する。第２撮影装置は、第１撮影装置の下方位置に設けられ、ユーザの顔の下部を撮影する。表示装置は、ユーザに画像を表示する。本体には、第１撮影装置、第２撮影装置、及び表示装置が搭載される。

一実施形態において、第２撮影装置は、本体からユーザの顔の下部に向かって伸びる伸張部材に搭載される。

一実施形態において、ヘッドマウントディスプレイユニットは、第２撮影装置が搭載される摺動可能なマウントをさらに備える。

一実施形態において、表示装置は、第１ディスプレイ及び第２ディスプレイを備える。第１ディスプレイは、左側画像をユーザの左目の方に表示し、第２ディスプレイは、右側画像をユーザの右目の方に表示する。

一実施形態において、第１撮影装置は、一対のカメラを備え、カメラは各々、本体の両側に設置される。

一実施形態において、第１撮影装置は、本体の中間に設置されたカメラを備える。

一実施形態において、第２撮影装置は、本体に直接搭載される。

一実施形態において、本体は、目領域を包含する膨らんだ上部を有する。

一実施形態において、表示装置は、一対の別個の表示部を備え、第１撮影装置は、一対の表示部の間に２つのカメラを備える。

実施形態は、ヘッドマウントディスプレイユニットと、演算装置とを備える仮想現実システムにも関連する。演算装置は、ヘッドヘッドマウントディスプレイユニットに通信可能に連結される。演算装置は、ヘッドマウントディスプレイユニットから第１画像及び第２画像を受信し、第１画像及び第２画像を処理することにより、ユーザの表情を表す表情パラメータを抽出する。

図１は、一実施形態に係る、ユーザの表情を撮影および処理するシステムを示すブロック図である。図２Ａは、一実施形態に係る、図１のヘッドマウントディスプレイユニットの概略図である。図２Ｂは、一実施形態に係る、ユーザの目領域の画像を撮影する２Ｄカメラを示す概略図である。図２Ｃは、一実施形態に係る、ユーザの顔に対するヘッドマウントディスプレイユニットの構成要素を示す概略図である。図２Ｄは、他の実施形態に係る、ヘッドマウントディスプレイユニットを示す概略図である。図２Ｅは、他の実施形態に係る、立体画像センサを備えたヘッドマウントディスプレイユニットを示す概略図である。図２Ｆは、他の実施形態に係る、摺動可能な立体画像センサを備えたヘッドマウントディスプレイユニットを示す概略図である。図２Ｇは、一実施形態に係る、主要本体の中間頂上部分に２Ｄカメラを備えたヘッドマウントディスプレイユニットを示す概略図である。図２Ｈは、一実施形態に係る、２Ｄカメラを包含するように膨らんだ上部を備えたヘッドマウントディスプレイユニットを示す概略図である。図２Ｉは、一実施形態に係る、図２Ｇ〜図２Ｈのヘッドマウントディスプレイユニットを使用したユーザの目領域の撮影を示す概略図である。図２Ｊは、一実施形態に係る、ヘッドマウントディスプレイユニットの表示装置の間に一対の２Ｄカメラを配置することを示す概略図である。図２Ｋは、一実施形態に係る、モバイルデバイスを受容するヘッドマウントディスプレイユニットを示す概略図である。図３は、一実施形態に係る、表情を判定するためにヘッドマウントディスプレイユニットに接続された演算装置を示すブロック図である。図４は、一実施形態に係る、演算装置におけるソフトウェアモジュールのブロック図である。図５は、一実施形態に係る、表情を判定するために追跡される顔のランドマークを示す図である。図６は、一実施形態に係る、ユーザのデジタル表現における表情を使用するプロセス全体を示すフローチャートである。図７は、一実施形態に係る、ユーザの表情を検出するプロセスを示すフローチャートである。

図面及び以下の説明は、単なる例示としての好適な実施形態に関連する。以下を検討することにより、本明細書に開示した構造及び方法の代替実施形態は、クレームの主旨から逸脱することなく採用されてもよい実行可能な代替として容易に認識されることに留意しなければならない。
以降、添付の図面に例示したいくつかの実施形態について詳細に説明する。可及的に、図中では同様の参照符号が使用され、同様の機能を示すことがあることに留意しなければならない。図面は、例示のみを目的として開示のシステム（又は方法）の実施形態を示している。以下の説明において、本明細書に記載の主旨から逸脱しない限り、本明細書に示される構造及び方法の代替実施形態が採用されてもよい。

実施形態は、目領域を含むユーザの顔の上部を撮影する画像撮影装置（例えば、赤外線カメラ）と、鼻、唇、顎先、及び頬のうちの少なくとも１つを含むユーザの顔の下部特徴を撮影するもうひとつの画像撮影装置（例えば、深度カメラ）とを含むヘッドマウントディスプレイユニットを使用して、リアルタイムでユーザの表情を検出することに関連する。第１画像撮影装置及び第２画像撮影装置によって撮影された画像が処理され、表情に関連付けられたパラメータを抽出する。このパラメータは、表情を含むユーザのデジタル表現が生成可能となるように、送信又は処理可能である。

本明細書に記載の目領域とは、目と目の上方の眉をカバーする顔領域をいう。

表情検出システムの例としてのアーキテクチャ

図１は、一実施形態に係る、ユーザの表情を撮影及び処理するシステム１００を示すブロック図である。システム１００は、数ある構成要素の中でも特に、ヘッドマウントディスプレイ（ＨＭＤ）１０２と、ＨＭＤ１０２と通信する演算装置１０８とを備えてもよい。ＨＭＤ１０２は、演算装置１０８と連携して使用され、ユーザの姿勢を検出し、ユーザの表情を検出し、ユーザに画像を表示する。

演算装置１０８は、有線通信又は無線通信を介してＨＭＤ１０２と通信してもよい。ＨＭＤ１０２にて再生するための画像及び音声のデータ１２０は、演算装置１０８から送信可能である。ＨＭＤ１０２はまた、ユーザの頭部の姿勢を示し、表情に関連付けられた撮影画像を含む情報１１０を演算装置１０８に送信する。

ＨＭＤ１０２は、図２Ｃを参照して以下に詳細に示す通り、ユーザの頭部に装着される。ＨＭＤ１０２は、数ある構成要素の中でも特に、１つ以上の２Ｄカメラ１０４と、１つ以上の深度カメラ１０５と、１つ以上のディスプレイ１０６とを備えてもよい。ディスプレイ１０６とそのオペレーティングモジュールの詳細については、説明を簡潔にするために、本明細書中では省略する。各２Ｄカメラ１０４は、ユーザの顔の目領域を撮影し、赤外線カメラ又はＲＧＢカメラ（照明ランプを備えるか、備えないかを問わず）として実現されてもよい。各目領域は、目と眉とを含む。一方、深度カメラ１０５は、鼻、唇、頬、及び顎先のうちの少なくとも１つを含むユーザの顔の下部特徴について深度画像を生成する。

演算装置１０８は、以降、図７を参照して詳細に説明する通り、赤外線カメラ１０４及び深度カメラ１０５によって生成された画像を処理することにより、ユーザの表情を判定する。深度カメラ１０５を使用する代わりに、２ＤＲＧＢカメラ又は２Ｄ赤外線（ＩＲ）カメラも使用することができる。

演算装置１０８は、ＨＭＤ１０２とは別個のものとして図１に示されているが、この演算装置１０８は、ＨＭＤ１０２の一部であってもよい。

ヘッドマウントディスプレイの例

図２Ａは、一実施形態に係るＨＭＤ１０２の概略図である。ＨＭＤ１０２は、主要本体２０２と、主要本体２０２から下の方へ伸びる垂直伸張部材２０４とを備える。主要本体２０２は、２Ｄカメラ１０４と、ディスプレイ１０６と、その他のセンサ（例えば、ジャイロスコープ）とを備えて設置される。

ＨＭＤ１０２及び垂直伸張部材２０４は、深度カメラ１０５によって撮影されるユーザの顔の領域の調整を可能にする機構を介して連結されてもよい。垂直伸張部材の代わりに、水平に伸びるか、又は傾斜配向で伸びる部材も深度カメラ１０５を搭載するために使用されてよい。深度カメラ１０５は、（ｉ）３Ｄ深度マップと、（ｉｉ）撮影領域の２Ｄカラー画像又は赤外線画像とを提供する。ユーザの顔の下部特徴を撮影するために深度カメラ１０５を使用することは、数ある理由の中でも特に、顔の下部特徴についての３Ｄジオメトリ情報を高精度に得ることができるという理由により、有利である。深度カメラ１０５を使用する代わりに、２Ｄカラーカメラもユーザの顔の下部特徴を撮影するために使用可能である。２Ｄカラーカメラで撮影されたカラー画像を演算装置１０８で処理することにより、顔の下部特徴について３Ｄジオメトリ情報を生成してもよい。

ＨＭＤ１０２はまた、ユーザがＨＭＤ１０２をユーザの頭部に固定できるように、ストラップ２１２に取り付けられてもよい。

図２Ａに示される通り、一対の２Ｄカメラ１０４が、主要本体２０２の正面壁部の上方隅部に配置されて、ユーザの顔のそれぞれの領域（すなわち、左目及び右目の領域）を撮影する。代替実施形態においては、一対の２ＤカメラをＨＭＤ１０２の側壁２０３に配置することができる。２Ｄカメラ１０４は、ディスプレイ１０６のすぐ隣に配置することもできる。

ディスプレイ１０６は２つの別個の表示モジュールを備えてもよく、そのうちのひとつは左側画像をユーザの左目の方に表示するもの、もう一つは右側画像をユーザの右目の方に表示するものである。２つのディスプレイ１０６は、物理的に離間してもよい。或いは、単一の表示モジュールが、左側画像及び右側画像を別々に表示するための２つの別個の表示領域に分けられてもよい。

図２Ｂは、一実施形態に係る、目と眉を含むユーザの顔２２０の目領域を表す画像を撮影する２Ｄカメラ１０４を示す概略図である。２Ｄカメラ１０４は、ユーザが装着しているときにユーザの顔に対向するＨＭＤ１０２の本体２０２に設置される。具体的には、２Ｄカメラ１０４は、ユーザの顔の片目又は両目の領域を撮影する。

赤外線カメラが、２Ｄカメラ１０４として使用されてもよい。目及び眉の周辺領域の画像を撮影するために赤外線カメラを使用することは、数ある理由の中でも特に、（ｉ）赤外線カメラはユーザの肌に接触することなく顔の特徴を十分に撮影することができるという理由と、（ｉｉ）赤外線カメラは、ＨＭＤ１０２がユーザによって装着されているときに外部の光が遮られることから生じ得る低照明条件の下で動作するという理由により、有利である。

一実施形態において、２Ｄカメラ１０４は、広角を撮影するために魚眼レンズを備えてもよい。２Ｄカメラからユーザの目及び眉までの距離が短い（通常、５センチメートル以内）ため、魚眼レンズを使用して目領域全体を撮影する。深度カメラ１０５も、広角を撮影するために魚眼レンズを備える。

図２Ｃは、一実施形態に係る、ユーザの顔２２０に対するＨＭＤ１０２の構成要素の配置を示す概略図である。図２ＣのＨＭＤ１０２は、左目領域を撮影するものと、右目領域を撮影するものとの一対の２Ｄカメラ１０４を有する。２Ｄカメラの中心軸２４４は、垂直面２５４に対して角度αを成す。角度αは、目領域を撮影するために３０°〜４５°の範囲内であってもよい。

図２Ｄは、他の実施形態に係るＨＭＤ１０２Ｂの概略図である。ＨＭＤ１０２Ｂは、図２ＡのＨＭＤ１０２と同様であるが、ユーザの顔の下部の画像を撮影するためにカメラ１０５Ｂが取り付けられるマウント２０４Ｂを有する。マウント２０４Ｂは、図２Ａの垂直伸張部材よりも短い。カメラ１０５Ｂは、深度カメラであってもよく、又は、ＲＧＢ／グレースケールカメラであってもよい。カメラ１０５Ｂがユーザの顔の下部の画像をよりよく撮影できるように、１つ以上の赤外線又は可視光源（図示せず）もマウント２０４Ｂに取り付けられてもよい。代替実施形態では、ＨＭＤ１０２は別個のマウント又は垂直伸張部材を備えないが、主要本体２０２に直接搭載されたカメラ１０５Ｂを有する。

図２Ｅは、他の実施形態に係るＨＭＤ１０２Ｃの概略図である。ＨＭＤ１０２Ｃは、図２ＤのＨＭＤ１０２Ｂと同様であるが、マウント２０４Ｃに設置される立体カメラ１０５Ｂを有する。両方の立体カメラ１０５Ｂがユーザの顔の下部の画像を撮影する。撮影された画像は、演算装置１０８によって処理され、ユーザの表情を判定する。

図２Ｆは、一実施形態に係るＨＭＤ１０２Ｄの概略図である。ＨＭＤ１０２Ｄは、図２ＥのＨＭＤ１０２Ｃと同様であるが、主要本体２０２に対して摺動可能なマウント２２２Ａ及び２２２Ｂを有する。マウント２２２Ａ及び２２２Ｂにはカメラ１０５Ｄが搭載され、それらはＩＲカメラ又はグレースケールカメラであってもよい。マウント２２２Ａ及び２２２Ｂが主要本体２０２に対して摺動できるようにすることにより、マウント２２２Ａ及び２２２Ｂの位置が、ユーザの顔の下部をよりよく撮影できるように調整されてもよい。いくつかの実施形態において、マウント２２２Ａ及び２２２Ｂは、ユーザによって手動で移動される。他の実施形態においては、マウント２２２Ａ及び２２２Ｂは、アクチュエータ（例えば、図示しないモータである）によって自動調整される。

図２Ｇは、一実施形態に係るＨＭＤ１０２Ｅの概略図である。ＨＭＤ１０２Ｄは、単一の２Ｄカメラ１０４が主要本体２０２の中心に配置されることを除いて、図２ＡのＨＭＤ１０２と同様である。単一の２Ｄカメラ１０４は、図２Ｉを参照して以下に説明する通り、ユーザの顔の左目領域および右目領域を撮影する。

図２Ｈは、一実施形態に係るＨＭＤ１０２Ｆの概略図である。ＨＭＤ１０２Ｆは、主要本体２０２が上の方へ突出した縁部２３３を有することを除いて、図２ＧのＨＭＤ１０２Ｅと同様である。上の方へ突出した縁部２３３は、ユーザの顔の目領域が、主要本体２０２の下に完全に包まれるのを可能とする。

図２Ｉは、図２ＧのＨＭＤ１０２Ｅ又は図２ＨのＨＭＤ１０２Ｆにおける単一の２Ｄカメラ１０４を使用して両側の目領域を撮影することを示す概略図である。２Ｄカメラ１０４で撮影される顔の領域を広げるために、２Ｄカメラ１０４において魚眼レンズが使用されてもよい。

図２Ｊは、一実施形態に係る、２つの別個の２Ｄカメラ１０４Ｊを使用して両側の目領域を撮影することを示す概略図である。図２Ｃの２Ｄカメラ１０４と異なり、２Ｄカメラ１０４Ｊは、ディスプレイ１０６の間に配置される。２Ｄカメラ１０４Ｊの中心軸２４７は、両方の２Ｄカメラ１０４Ｊが顔の目領域に対向するように、垂直面２５４に対して角度βをなす。２Ｄカメラ１０４Ｊをディスプレイ１０６の間に配置する多くの利点のうちの１つとして、ＨＭＤの寸法（特に、幅Ｗ）を小さくできることがあげられる。

図２Ａから図２Ｊを参照して上述したＨＭＤは、画像をそれぞれの目の方に表示する専用ディスプレイ１０６を使用するものとして説明したが、他の実施形態では、ディスプレイは、別のモバイルデバイス（例えば、スマートフォン）の表示装置として実現されてもよい。例えば、図２Ｋは、モバイルデバイス２６１を受容するスロット２６３を有するＨＭＤ１０２Ｇの概略図である。モバイルデバイス２６１が主要本体２０２のスロット２６３に挿入されて、モバイルデバイスの表示装置がＨＭＤ１０２Ｇのディスプレイとして機能してもよい。図２Ｋに示されるようなスロット２６３は、単なる例示であり、異なる構成のスロットも採用可能である。図２Ｋの実施形態において、ディスプレイ１０６は、演算装置１０８と同じように、モバイルデバイス２６１で実現される。

表情を判定する一例としての演算装置

図３は、一実施形態に係る、表情を判定するためにＨＭＤ１０２と接続された演算装置１０８を示すブロック図である。演算装置１０８は、数ある構成要素の中でも特に、メモリ３０２と、プロセッサ３０４と、ＨＭＤインタフェース３０６と、ディスプレイ３０８と、ユーザインタフェース３１０と、これらの構成要素を接続するバス３０１とを備えてもよい。演算装置１０８は、他の演算装置（図示せず）と通信するために、ネットワークインタフェース等の他の構成要素を含んでもよい。

メモリ３０２は、図４を参照して以下に詳細に説明する通り、ソフトウェアモジュールを記憶する非一時的コンピュータ可読記憶媒体である。メモリ３０２に記憶された命令は、プロセッサ３０４によって実行されることにより、表情検出に関連付けられたオペレーションと、検出された表情を組み込んだユーザのデジタル表現の生成とを実施する。

プロセッサ３０４は、メモリ３０２に記憶された種々の命令を実行し、演算装置１０８における他の構成要素のオペレーションを制御する。演算装置１０８は、１つを上回る数のプロセッサを備えてもよい。

ＨＭＤインタフェース３０６は、ＨＭＤ１０２と通信するためのハードウェア、ソフトウェア、ファームウェア、又はそれらの組み合わせである。ＨＭＤインタフェース３０６は、演算装置１０８がＨＭＤ１０２において再生するための画像及び音声のデータ１２０を送信できるようにし、また、ユーザの頭部の姿勢に関連付けられた情報１１０と、表情に関連付けられた撮影画像とをＨＭＤ１０２から受信することができる。ＨＭＤインタフェース３０６は、１つ以上の通信プロトコルに対応するものであってもよい。

ディスプレイ３０８は、画像をレンダリングしてユーザに提示するために使用される。これらの画像には、ＨＭＤ１０２のオペレーションに関連付けられた情報が含まれてもよい。

ユーザインタフェース３１０は、ユーザが演算装置１０８と情報をやりとりできるようにするためのハードウェア、ソフトウェア、ファームウェア、又はそれらの組み合わせである。ユーザインタフェース３１０は、ポインティングデバイス（例えば、マウス）及びキーボードを備えてもよい。

図４は、一実施形態に係る、演算装置１０８におけるソフトウェアモジュールのブロック図である。メモリ３０２は、数あるソフトウェア構成要素の中でも特に、オペレーティングシステム４０６と、表情検出モジュール４１０と、アプリケーションモジュール４４０とを記憶する。メモリ３０２はまた、図４には図示されない他の種々のソフトウェアモジュールも備えてもよい。

オペレーティングシステム４０６は、演算装置１０８において利用可能なリソースの管理を担うソフトウェアモジュールである。利用可能なオペレーティングシステムには、例えば、ＩＯＳ、ＷＩＮＤＯＷＳ（登録商標）、ＬＩＮＵＸ、ＡＮＤＲＯＩＤ（登録商標）、及びＭＡＣＯＳが含まれてもよい。

表情検出モジュール４１０は、２Ｄカメラ１０４から受信した２Ｄ画像（例えば、赤外線画像）４０２と、深度カメラ１０５から受信した画像４０４とに基づいて、ユーザの表情を検出するソフトウェアモジュールである。画像４０４には、深度カメラ１０５によって生成された深度画像とカラー画像又はグレースケール画像との双方が含まれてもよい。表情検出モジュール４１０は、赤外線画像４０２と画像４０４とを処理することにより、ユーザの表情を示す表情（ＦＥ）パラメータ４２４を生成する。

表情検出モジュール４１０には、目及び眉追跡モジュール４１４と、顔下部追跡モジュール４１８と、ＦＥパラメータ生成器４２２とを含むがこれに限定されないサブモジュールが含まれてもよい。目及び眉追跡モジュール４１４は、ランドマーク位置に基づき、２Ｄ画像４０２における瞳の中心と、目の輪郭と、眉の輪郭とを判定する。目及び眉追跡モジュール４１４は、瞳、目の輪郭、眉の輪郭のランドマークのアノテーションのついたトレーニング画像サンプルを用いて事前トレーニングされている。このようなアノテーションは、手動で実施されてもよい。図５Ａ及び図５Ｂ中、例としてのランドマークが「Ｘ」点として示されている。

目及び眉追跡モジュール４１４は、追跡アルゴリズムを採用してもよい。追跡アルゴリズムは、当分野で周知である、例えば、（ｉ）教師あり降下法（ＳＤＭ）、（ｉｉ）変形可能モデルフィッティング、（ｉｉｉ）アクティブアピアランスモデリング、（ｉｉｉ）ディープラーニング技術を使用してもよい。目及び眉追跡モジュール４１４は、ユーザの目と眉とを追跡した結果として、目及び眉の位置及び形状を示すランドマーク位置４１５を生成する。魚眼レンズを使用して２Ｄ画像を撮影するとき、目及び眉追跡モジュール４１４は、追跡アルゴリズムの実行前に、画像を平坦化して、魚眼レンズの使用によって生じた２Ｄ画像中の歪みを除去してもよい。

同様に、顔下部追跡モジュール４１８は、画像４０４に基づき、ユーザの鼻、唇、顎先、頬、及び顎先と頬の周囲の顔のシルエットのうちの少なくとも１つの姿勢を追跡する。下部追跡モジュール４１８は、ユーザの顔の下部のランドマークを追跡するために、当分野において周知である、例えば、（ｉ）教師あり降下法（ＳＤＭ）、（ｉｉ）変形可能モデルフィッティング、（ｉｉｉ）アクティブアピアランスモデリング、（ｉｖ）ディープマシンラーニングのうちの１つを使用して、追跡アルゴリズムも使用してもよい。ユーザの顔の下部におけるランドマークは、例えば、図５Ｃに示されている。顔下部追跡モジュール４１８は、ユーザの顔の下部におけるランドマークを追跡することにより、鼻、唇、顎先、及び頬のうちの少なくとも１つを含む顔の下部特徴のランドマーク位置４１９を生成する。顎先及び頬の周囲のシルエットを検出することの多くの利点のうちの１つとして、顎及び頬の動きを明確に撮影できることがあげられる。それはまた、カメラに対する頭部位置のロバストな追跡にも役立ち、これは唇追跡では容易なことではない。

ＦＥパラメータ生成器４２２は、ランドマーク位置４１５及び４１９と、深度カメラからの３Ｄ深度マップとを受信する。ＦＥパラメータ生成器４２２は、図６を参照して以下に詳細に説明する通り、キャリブレーションプロセス中に得られる個人化３Ｄ表情モデルのモデルを記憶する。ＦＥパラメータ生成器４２２はまた、図７を参照して以下に詳細に説明する通り、ランドマーク位置４１５及び４１９と３Ｄ深度マップを３Ｄ表情モデルのモデルにフィッティングすることにより、ＨＭＤ１０２を装着するユーザの表情を総合的に示す表情（ＦＥ）パラメータ４２４を抽出する。

アプリケーションモジュール４４０は、ＦＥパラメータ４２４の形式での検出表情に基づき、種々のオペレーションを実施する。アプリケーションモジュール４４０には、数ある要素の中でも特に、マッピングモジュール４４２と、グラフィック表現ストレージ４４６と、仮想現実（ＶＲ）／拡張現実（ＡＲ）モジュール４４８とが含まれてもよい。グラフィック表現ストレージ４４６は、ユーザの１つ以上のデジタル表現を記憶する。マッピングモジュール４４２は、グラフィック表現ストレージ４４６からユーザのデジタル表現を検索し、受信されたユーザのデジタル表現にＦＥパラメータ４２４（例えば、ブレンドシェイプウェイト値）をリアルタイムで転写することにより、ＶＲ／ＡＲモジュール４４８において使用するデータを生成する。

ＶＲ／ＡＲモジュール４４８は、ＦＥパラメータ４２４（例えば、ブレンドシェイプ）に従って、又は、転写されたブレンドシェイプウェイトとユーザのデジタル表現の表現パラメータ空間との間のセマンティック・マッピング関数に基づき、ユーザの３Ｄグラフィック表現を生成してもよい。ＶＲ／ＡＲモジュール４４８は、表情に基づく、例えば、ソーシャルネットワーキングサービス、ゲーム、オンラインショッピング、ビデオ通話、及びヒューマン・マシン・インターフェースなどの種々のサービスを実施するソフトウェアモジュールの一部であってもよく、又はこれらと連携して動作してもよい。

表情検出モジュール４１０及びアプリケーションモジュール４４０がソフトウェアモジュールとして実現されるものとして図４に示されているが、これらのモジュールは、集積回路（ＩＣ）構成要素として実現されてもよい。

表情検出プロセス

図６は、一実施形態に係る、ユーザのデジタル表現における表情を使用するプロセス全体を示すフローチャートである。まず、ユーザがＨＭＤ１０２を装着した後、キャリブレーションが実施される（６０６）。一実施形態において、オンラインキャリブレーションプロセスを使用して、ＨＭＤ１０２のユーザのための個人化追跡モデルを構築する。キャリブレーション中、２Ｄカメラ１０４及び／又は深度カメラ１０５が複数の深度画像及び２Ｄカラー画像又は赤外線画像を撮影している間の所定時間（例えば、数秒間）、ユーザは無表情の顔ポーズを保つ。

表情検出モジュール４１０は、キャリブレーションプロセスの一部として、これらの画像を受信し、３Ｄ体積測定モデル作成プロセスを適用することにより、関連付けられた顔色情報を備えた、顔の下半分についての平滑化３Ｄ体積測定顔メッシュを作成する。平滑化３Ｄ体積測定顔メッシュを作成するプロセスは、当分野において周知である（例えば、ＲｉｃｈａｒｄＡ．Ｎｅｗｃｏｍｂｅらによる「ＫｉｎｅｃｔＦｕｓｉｏｎ：Ｒｅａｌ−ｔｉｍｅＤｅｎｓｅＳｕｒｆａｃｅＭａｐｐｉｎｇａｎｄＴｒａｃｋｉｎｇ」Ｍｉｘｅｄａｎｄａｕｇｍｅｎｔｅｄｒｅａｌｉｔｙ（ＩＳＭＡＲ）、２０１１年第１０回ＩＥＥＥ国際シンポジウム、２０１１年を参照のこと。その内容全体を参照としてここに援用する）。表情検出モジュール４１０はまた、目領域画像と顔下部画像とに２Ｄランドマーク検出を実施することにより、目、目のライン、眉のライン、唇のライン、鼻のライン、及び顔のシルエット（例えば、顎先及び頬のライン）の中心及び周囲を探し出す。表情検出モジュール４１０は、複数の撮影画像に亘って２Ｄランドマークを平均化することにより、２Ｄランドマーク検出においてノイズとなるアーティファクトを低減する。ＦＥパラメータ生成器４２２は、３Ｄ体積測定顔メッシュと２Ｄ画像における２Ｄ顔ランドマーク位置とを使用して、（ｉ）テンプレート無表情モデルの剛性ポーズを推定した後、（ｉｉ）無表情の線形主成分分析（ＰＣＡ）モデルを歪ませて、体積測定メッシュと２Ｄランドマークとをフィットさせることにより、個人化無表情モデルを構築する。

具体的には、ＦＥパラメータ生成器４２２は、個人化無表情モデルＭの線形ＰＣＡモーフィングバージョンを利用し、以下の式を使用して、ワールド座標における顔メッシュＷを表す。

式中、ｗはモーフィングモデルに対する線形重みづけベクトルを表し、Ｒは回転行列であり、ｔは変換ベクトルである。ＦＥパラメータ生成器４２２は、以下のエネルギー項を最小化することにより、反復的にｗ及び（Ｒ、ｔ）を求める。

式中、α、β、γは、フィッティング項についての重みづけを表す。Ｃ_ｐｌは、式（４）に規定される通り、体積測定メッシュＶと顔メッシュＷとの間の点−面誤差を最小化するためのフィッティング項である。Ｃ_ｍは、式（５）に規定される通り、口、鼻、及びシルエットの２Ｄ顔特徴ランドマークと顔メッシュＷにおいて対応する頂点との間の点−点誤差を最小化するフィッティング項である。Ｃ_ｒは、式（６）に規定の通り、右目領域の２Ｄ顔特徴ランドマークと顔メッシュＷにおいて対応する頂点との間の点−点誤差を最小化するフィッティング項である。Ｃ_ｌは、式（７）に規定される通り、左目領域の２Ｄ顔特徴ランドマークと顔メッシュＷにおいて対応する頂点との間の点−点誤差を最小化するフィッティング項である。Ｃ_ｐｌは、以下の通り、規定される。

式中、ν_ｉは顔メッシュＷのi番目の頂点であり、は、体積測定メッシュＶ上のν_ｉの最も近い点であり、ｎ_ｉは、体積測定メッシュＶ上のν_ｉにおける面法線である。Ｃ_ｍは、以下の通り、規定される。

式中、ｕ_ｊは、追跡された２Ｄ顔特徴の位置であり、π_ｍ（ν_ｊ）は、ユーザの口、鼻、及びシルエットの周辺のカメラ空間への対応メッシュ頂点ν_ｊの投影である。Ｃ_ｒは、以下の通り、規定される。

式中、ｕ_ｊは、追跡された２Ｄ顔特徴の位置であり、π_ｒ（ν_ｊ）は、対応するメッシュ頂点ν_ｊの右目領域のカメラ空間への投影である。Ｃ_ｌは、以下の通り、規定される。

式中、ｕ_ｊは、追跡された２Ｄ顔特徴の位置であり、π_ｌ（ν_ｊ）は、対応するメッシュ頂点ν_ｊの左目領域のカメラ空間への投影である。

個人化無表情メッシュが構築された後、当分野で周知の通り、テンプレートフェイスの表現ブレンドシェイプからの変形を、変形転写を用いて転写することにより、個人化表情モデル（ブレンドシェイプモデル）が得られる。変形転写を用いて表現ブレンドシェイプからの変形を転写する一例としての方法については、例えば、ＲｏｂｅｒｔＷ．Ｓｕｍｎｅｒらによる「Ｄｅｆｏｒｍａｔｉｏｎｔｒａｎｓｆｅｒｆｏｒｔｒｉａｎｇｌｅｍｅｓｈｅｓ」ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＧｒａｐｈｉｃｓ（ＴＯＧ）２３．３（２００４年）３９９〜４０５頁に記載されている。或いは、顔のジオメトリの広がり、同一性、及び表情をマルチランクデータテンソルに符号化する双線形顔モデルを適用することにより、個人化表情モデルを得ることができる。双線形顔モデルを適用して個人化表情モデルを構築する一例としての方法は、例えば、ＣｈｅｎＣａｏらによる「Ｄｉｓｐｌａｃｅｄｄｙｎａｍｉｃｅｘｐｒｅｓｓｉｏｎｒｅｇｒｅｓｓｉｏｎｆｏｒｒｅａｌ−ｔｉｍｅｆａｃｉａｌｔｒａｃｋｉｎｇａｎｄａｎｉｍａｔｉｏｎ」ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＧｒａｐｈｉｃｓ（ＴＯＧ）３３．４（２０１４年）に記載されている。この内容全体を参照としてここに援用する。

右目及び左目両方にひとつのカメラだけを使用すれば、Ｃ_ｒ及びＣ_ｌは、１つの式に組み合わせられる。

キャリブレーションを実施した後、図７を参照して以下に詳細に説明する通り、ユーザの顔の特徴の２Ｄ画像及び深度画像を追跡及び処理することにより、ユーザの表情を検出する（６１０）。

その後、ユーザのグラフィック表現に組み込むために、検出された表情をユーザのデジタル表現に適用する（６１６）。生成されたグラフィック表現は、演算装置１０８又はネットワーク（例えば、インターネット）を通じて演算装置１０８と通信する遠隔演算装置により、仮想現実又は拡張現実に表示されてもよい。

図７は、一実施形態に係る、表情検出プロセスを示すフローチャートである。まず、図４を参照して以上に詳細に説明した通り、目領域に関連付けられたランドマーク位置４２２を２Ｄ画像から判定する（７１０）。図４を参照して以上に詳細に説明した通り、ＩＲ画像又はＲＧＢ画像及び／又は３Ｄカメラの深度画像を処理することにより、ユーザの顔の下部特徴に関連付けられたランドマーク位置を生成する（７２０）。

ランドマーク位置（及び任意で３Ｄ深度マップデータ）を使用することにより、ユーザの顔全体に対するＦＥパラメータ４２４を生成する（７３０）。一実施形態において、ＦＥパラメータ生成器４２２は、ランドマーク位置４１５に基づき、顎の開放、笑み、及び息を吹く様子等の表現を示すように、ＦＥパラメータ４２４の一部としてブレンドシェイプパラメータを生成する一方で、ランドマーク位置４１９に基づき、目の開閉及び眉の上下を示すように、ＦＥパラメータ４２４の一部としてブレンドシェイプパラメータを生成する。

ＦＥパラメータ４２４を演算するために、追跡されたランドマーク位置４１５が入力制約として組み合わせられ、この入力制約に基づき、ＦＥ表現パラメータにフィッティングが実施される。フィッティングオペレーションは、２つの部分からなってもよい。すなわち、（ｉ）剛性安定化と、（ｉｉ）表現パラメータ追跡とである。最適化オペレーションは、剛性ポーズ値とパラメータ値との双方が収束するまで、剛性安定化と表現パラメータ追跡の間で選択的に実施されてもよい。

剛性安定化については、顔の剛性ポーズをカメラに対して動かすことができる。ユーザが表情を作るとき、頬の筋肉がヘッドセットを前方且つ上方に押し上げ、カメラに対する相対的な顔の剛性ポーズを経時的に変化させる。ポーズがロックされたとき、剛性的な動きにより、表現パラメータ追跡にアーティファクトを生じるため、無関係な剛性的動きの因子により、不正確なパラメータ値が得られることがある。さらに、ユーザが素早く頭部を動かすとき、ヘッドセットが顔にしっかり装着されていたとしても、顔に対して滑り落ちてしまうことがある。このような状況により、頭部ポーズが固定されているという前提が無効になり、表現追跡にアーティファクトを生じる。ヘッドセットに対する頭部の位置のずれを調整するために、剛性安定化が実施され、ヘッドセット上に剛性固定されたカメラに対する頭部の相対的ポーズを演算する。

一実施形態において、頭部の初期剛性ポーズを判定するために、キャリブレーション段階において剛性反復最近接点（ＩＣＰ）アルゴリズムが使用される。しかしながら、追跡モードへの切り替え後、初期剛性ポーズは、ヘッドセットに対する頭部の相対的な動きを調整するように限定的範囲での摂動を許容されたアンカーとして使用される。剛性ＩＣＰはまた、特に、ユーザがＨＭＤを外し、それを再び装着した後に、ＨＭＤからの頭部ポーズのオフセットを考慮して頭部の初期剛性ポーズを判定するために、追跡モードの開始時にいくつかの画像フレームに対して実施されてもよい。その後、剛性ＩＣＰを再び実施することにより、剛性ポーズが再初期化される。初期剛性ポーズが判定された後、追跡されたランドマーク位置と入力された深度マップとを入力制約として使用しつつ、回転のヨー、ロール、ピッチと変換ｘ、ｙ、ｚの値が初期剛性ポーズの所与の限度を超えて外れることがないように、制約を追加して剛性ＩＣＰが実施されてもよい。

ＦＥパラメータ４２４を得るために、ランドマーク位置４１５及び４１９（及び３Ｄカメラが使用される場合には深度マップ）に基づき、個人化追跡モデルにフィッティングが実施される。キャリブレーションプロセスのように、撮影カメラは、ヘッドセットに剛性的に固定されると想定され、それらの相対的ポーズ（すなわち、回転及び変換）におけるパラメータが既知であると想定される。ＦＥパラメータ生成器４２２は、ランドマーク位置４１５及び４１９（及び３Ｄカメラが使用される場合には深度マップ）に基づき、ＦＥ表現パラメータを取得するために、フィッティングオペレーションを実施してもよい。

個人化線形モデルは、個人化無表情モデルＭから導き出された一組の表情形状（例えば、笑顔と顎の開放）である。一実施形態において、ＦＥパラメータ生成器４２２は、フィッティング最適化を実施するためのワールド座標における式（８）に示される通り、個人化線形表現モデル（すなわち、ブレンドシェイプモデル）Ｂを利用して顔メッシュＷを表す。

式中、ｅはブレンドシェイプモデルのための線形重みづけベクトルであり、Ｒは回転行列であり、ｔは剛性安定化ステップから演算された変換ベクトルである。ＦＥパラメータ生成器４２２における追跡プロセスでは、以下のエネルギー項を最小化することにより、最適なｅを反復的にみつける。

式中、α、β、γはフィッティング項についての重みづけを表し、Ｃ^＊ _ｐｌは、式（１０）で規定される通り、深度マップと顔メッシュＷとの間の点−面誤差を最小化するフィッティング項である。Ｃ^＊ _ｍは、式（１１）で規定される通り、口、鼻、シルエットの２Ｄ顔特徴ランドマークと顔のメッシュＷの対応頂点との間の点−点誤差を最小化するフィッティング項である。Ｃ^＊ _ｒは、式（１２）で規定される通り、右目領域の２Ｄ顔特徴ランドマークと顔メッシュＷの対応頂点との間の点−点誤差を最小化するフィッティング項である。Ｃ^＊ _ｌは、式（１３）で規定される通り、左目領域の２Ｄ顔特徴ランドマークと顔メッシュＷの対応頂点との間の点−点誤差を最小化するフィッティング項である。Ｃ^＊ _ｐｌは、以下の通り、規定される。

式中、ν_ｉは顔メッシュＷのｉ番目の頂点であり、ｐ_ｉはν_ｉと同一のカメラ空間座標である深度マップ上の点であり、ｎ_ｉはｐ_ｉにおける面法線である。Ｃ^＊ _ｍは、以下の通り、規定される。

式中、ｕ_ｊは追跡された２Ｄ顔特徴の位置であり、π_ｍ（ν_ｊ）は対応メッシュ頂点ν_ｊの口カメラ空間への投影である。Ｃ^＊ _ｒは、以下の通り、規定される。

式中、ｕ_ｊは追跡された２Ｄ顔特徴の位置であり、π_ｒ（ν_ｊ）は対応メッシュ頂点ν_ｊの右目領域のカメラ空間への投影である。Ｃ^＊ _ｌは、以下の通り、規定される。

式中、ｕ_ｊは追跡された２Ｄ顔特徴の位置であり、π_ｌ（ν_ｊ）は対応メッシュ頂点ν_ｊの左目領域のカメラ空間への投影である。右目及び左目の双方に対して１つのみのカメラが使用される場合、Ｃ_ｒ及びＣ_ｌは、１つの式に組み合わせられる。

一実施形態において、ＦＥパラメータ生成器４２２は、検出されたユーザの表情を総合的に示すＦＥパラメータを追跡プロセスの結果として生成しながら、式（８）中、ｅで表されるブレンドシェイプウェイト値を出力する。

１つ以上の実施形態において、図７のステップは、リアルタイムで実施され、カメラから受信した画像４０２及び４０４の各セットを処理してもよい。さらに、図７に示されるステップ及びステップのシーケンスは、単なる例示である。例えば、ランドマーク位置を判定するステップ７１０と、３Ｄ深度マップデータを判定するステップ７２０とは、逆の順序で実施することもでき、また並列に実施することもできる。

本明細書中、本発明の特定の実施形態及び適用について図示及び説明したが、本発明は、本明細書に開示の精密な構成及び構成要素に限定されるものでなく、本発明の方法及び装置の配置、オペレーション、及び詳細において、添付のクレームによって規定される本発明の主旨及び範囲から逸脱することなく、種々の修正、変更、及び変化が加えられてもよいことが理解されなければならない。

Claims

表情検出方法であって、
ヘッドマウントディスプレイの主要本体上の第１画像撮影装置により、ユーザの目領域を含む前記ユーザの顔の上部の第１画像を撮影することと、
前記ヘッドマウントディスプレイの前記主要本体から前記ユーザの顔の下部に向かって下方に伸びる伸張部材上の第２画像撮影装置により、前記ユーザの顔の前記下部を含む前記ユーザの第２画像を撮影することと、
前記第１画像及び前記第２画像を処理することにより、前記ユーザの表情を表す表情パラメータを抽出することと、を備え、
前記第１画像及び前記第２画像の処理では、剛性安定化を実行し、前記第１画像撮影装置及び前記第２画像撮影装置に対する前記ユーザの顔の相対的なポーズを決定する方法。
前記第１画像撮影装置は、一対の赤外線カメラを備え、前記第２画像撮影装置は、深度カメラ、カラーカメラ、赤外線カメラ、又は２つの立体カメラ、のうちの１つを備える請求項１に記載の方法。
前記第１画像及び前記第２画像を処理することは、
前記第１画像から、前記ユーザの目及び前記ユーザの眉に関連付けられたランドマーク位置を検出することと、
前記第２画像から、前記ユーザの顔の下部に関連付けられたランドマーク位置を検出することと、を備える請求項１に記載の方法。
前記抽出された表情パラメータを前記ユーザのデジタル表現に適用することにより、前記ユーザのグラフィック表現を生成することをさらに備える請求項１に記載の方法。
前記ユーザの無表情を表すキャリブレーション画像を撮影および処理することにより、キャリブレーションを実施することをさらに備える請求項１に記載の方法。
前記キャリブレーションを実施することは、
前記キャリブレーション画像に基づき、個人化無表情メッシュを生成することと、
変形転写技術を前記個人化無表情メッシュに適用することにより、個人化追跡モデルを構築することと、を備え、
前記第１画像及び前記第２画像の前記処理は、前記個人化追跡モデルに基づき、少なくとも１つのブレントシェイプモデルを前記第１画像及び前記第２画像におけるランドマーク位置にフィッティングすることにより、前記表情パラメータを得ることを備える請求項５に記載の方法。
前記第１画像及び前記第２画像の前記処理は、リアルタイムで実施される請求項６に記載の方法。
ヘッドマウントディスプレイであって、
目領域を含むユーザの顔の上部を示す第１画像を撮影するように構成された本体上の第１画像撮影装置と、
前記ユーザの顔の下部を示す第２画像を撮影するように構成され、前記本体から下方に延伸した伸張部材又は前記本体に搭載された第２画像撮影装置と、
剛性安定化を実施し、前記第１画像撮影装置及び前記第２画像撮影装置に対するユーザの顔の相対的なポーズを決定することで生成された画像を前記ユーザに表示するように構成された前記本体上の表示装置と、
前記本体と、
を備えるヘッドマウントディスプレイユニット。
前記第１画像撮影装置は、一対の赤外線カメラを備え、前記第２画像撮影装置は、深度カメラ、カラーカメラ、赤外線カメラ、又は２つの立体カメラのうちの１つを備える請求項８に記載のヘッドマウントディスプレイユニット。
摺動可能なマウントをさらに備える請求項８に記載のヘッドマウントディスプレイユニット。
前記表示装置は、第１ディスプレイ及び第２ディスプレイを備え、前記第１ディスプレイは、左側画像を前記ユーザの左目の方に表示するように構成され、前記第２ディスプレイは、右側画像を前記ユーザの右目の方に表示するように構成される請求項８に記載のヘッドマウントディスプレイユニット。
前記第１画像撮影装置は、一対のカメラを備え、前記カメラは各々、前記本体の両側に設置される請求項８に記載のヘッドマウントディスプレイユニット。
前記第２画像撮影装置は、前記本体に直接搭載される請求項８に記載のヘッドマウントディスプレイユニット。
前記本体は、前記目領域を包含する膨らんだ上部を有する請求項８に記載のヘッドマウントディスプレイユニット。
前記表示装置は、一対の別個の表示部を備え、前記第１画像撮影装置は、前記一対の表示部の間に２つのカメラを備える請求項８に記載のヘッドマウントディスプレイユニット。
仮想現実又は拡張現実システムであって、
目領域を含むユーザの顔の上部の第１画像を撮影するように構成された第１画像撮影装置と、
前記第１画像撮影装置の下方位置に設けられ、前記ユーザの顔の下部の第２画像を撮影するように構成された第２画像撮影装置と、
画像を前記ユーザに表示するように構成された表示装置と、
前記第１画像撮影装置、及び前記表示装置を搭載するように構成された本体と、
前記本体から前記ユーザの顔の前記下部に向かって伸びた伸張部材と、
を備え、
前記第２画像撮影装置は前記本体又は前記伸張部材に搭載されるヘッドマウントディスプレイユニットと、
前記ヘッドマウントディスプレイユニットに通信可能に連結される演算装置と、
を備え、
前記演算装置は、
前記ヘッドマウントディスプレイユニットから前記第１画像及び前記第２画像を受信し、
剛性安定化に基づき個人化無表情メッシュを生成し、前記個人化無表情メッシュに変形転写技術を適用することで個人化追跡モデルを構築することにより、キャリブレーションを実施し、
前記個人化追跡モデルに基づき、前記第１画像及び前記第２画像内のランドマーク位置に少なくともブレンドシェイプモデルをフィッティングすることにより、前記第１画像及び前記第２画像を処理して、前記ユーザの表情を表す表情パラメータを得る仮想現実又は拡張現実システム。
前記演算装置は、
前記第１画像から、前記ユーザの目及び前記ユーザの眉に関連付けられたランドマーク位置を検出し、
前記第２画像から、前記ユーザの顔の前記下部に関連付けられたランドマーク位置を検出するように構成される請求項１６に記載の仮想現実又は拡張現実システム。