JP6964132B2

JP6964132B2 - ウェアラブルデバイスによる顔モデル捕捉

Info

Publication number: JP6964132B2
Application number: JP2019515206A
Authority: JP
Inventors: ゴラムレザアマイェー，; エイドリアンケーラー，; ダグラスリー，
Original assignee: Magic Leap Inc
Current assignee: Magic Leap Inc
Priority date: 2016-09-28
Filing date: 2017-09-27
Publication date: 2021-11-10
Anticipated expiration: 2037-09-27
Also published as: IL265520A; WO2018064169A1; IL265520B1; US10976549B2; EP3519878A4; JP2019531014A; US11740474B2; US20230359044A1; EP4220280A1; IL265520B2; US11428941B2; JP7186844B2; EP3519878A1; CN110023814A; AU2022268332A1; JP2022009208A; US20210223552A1; CN110023814B; AU2017335736B2; US20220357582A1

Description

（関連出願の引用）
本願は、米国仮出願第６２／４００，９０７号（２０１６年９月２８日出願、名称「ＦＡＣＥＭＯＤＥＬＣＡＰＴＵＲＥＢＹＡＮＡＵＧＭＥＮＴＥＤＲＥＡＬＩＴＹＤＥＶＩＣＥ」）に対する米国特許法§１１９（ｅ）に基づく優先権およびその利益を主張し、上記出願の開示は、その全体が参照により本明細書に引用される。
（分野）
本開示は、仮想現実および拡張現実結像ならびに可視化システムに関し、より具体的には、そのようなシステムのユーザの顔モデルを生成することに関する。

現代のコンピューティングおよびディスプレイ技術は、いわゆる「仮想現実」、「拡張現実」、または「複合現実」体験のためのシステムの開発を促進しており、デジタル的に再現された画像またはその一部が、現実であるように見える様式、またはそのように知覚され得る様式でユーザに提示される。仮想現実、または「ＶＲ」シナリオは、典型的には、他の実際の実世界の視覚的入力に対する透過性を伴わずに、デジタルまたは仮想画像情報の提示を伴う。拡張現実または「ＡＲ」シナリオは、典型的には、ユーザの周囲の実際の世界の可視化に対する拡張としてのデジタルまたは仮想画像情報の提示を伴う。複合現実または「ＭＲ」は、新しい環境を生成するための実世界と仮想世界の融合に関連し、物理的オブジェクトと仮想オブジェクトとが、共存し、リアルタイムで相互作用する。結論から述べると、ヒトの視知覚系は、非常に複雑であり、他の仮想または実世界画像要素間における仮想画像要素の快適かつ自然のような感覚で、かつ豊かな提示を促進する、ＶＲ、ＡＲ、またはＭＲ技術の生成は、困難である。本明細書に開示されるシステムおよび方法は、ＶＲ、ＡＲ、およびＭＲ技術に関連する種々の課題に対処する。

顔画像を捕捉し、顔モデルを決定するための複合現実システムの種々の実施形態が、開示される。

頭部搭載型デバイスのユーザのための顔モデルを生成するためのシステムおよび方法が、開示される。頭部搭載型デバイスは、ユーザがデバイスを着けつつある間、またはデバイスを外しつつある間、ユーザの顔を結像するように構成される１つ以上の眼カメラを含むことができる。眼カメラによって取得される画像は、立体視技法、単眼視技法、または組み合わせを使用して分析され、ユーザのための顔モデルを生成し得る。

本明細書に説明される主題の１つ以上の実装の詳細が、付随の図面および以下の説明に記載される。他の特徴、側面、および利点は、説明、図面、ならびに請求項から明白となるであろう。本概要または以下の発明を実施するための形態のいずれも、本発明の主題の範囲を定義または限定することを主張するものではない。

図１は、人物によって視認されるある仮想現実オブジェクトおよびある物理的オブジェクトを伴う、複合現実シナリオの例証を描写する。図２は、ウェアラブルシステムの例を図式的に図示する。図３は、複数の深度平面を使用して３次元画像をシミュレートするためのアプローチの側面を図式的に図示する。図４は、画像情報をユーザに出力するための導波管スタックの例を図式的に図示する。図５は、導波管によって出力され得る例示的出射ビームを示す。図６は、導波管装置と、光を導波管装置へまたはそこから光学的に結合するための光学結合器サブシステムと、多焦点立体ディスプレイ、画像、または明視野の生成において使用される制御サブシステムとを含む、光学システムを示す、概略図である。図７は、ウェアラブルシステムの例のブロック図である。図８は、認識されるオブジェクトに関連して仮想コンテンツをレンダリングする方法の例のプロセスフロー図である。図９は、ウェアラブルシステムの別の例のブロック図である図１０は、仮想ユーザインターフェースと相互作用する方法の例のプロセスフロー図である。図１１は、ユーザが、ウェアラブルデバイスを着けつつある（または外しつつある）間、ユーザの顔の画像を入手することができる例示的ウェアラブルデバイスを図示する。図１２は、顔モデルを生成するための例示的プロセスを図示する。図１３Ａは、立体視技法を使用して顔モデルを生成する例示的プロセスを説明する。図１３Ｂは、単眼視技法を使用して顔モデルを生成する例示的プロセスを説明する。

図面全体を通して、参照番号は、参照される要素間の対応を示すために再使用され得る。図面は、本明細書に説明される例示的実施形態を図示するために提供され、本開示の範囲を限定することを意図されない。

（概要）
拡張または仮想現実システムのユーザは、頭部搭載型ディスプレイ（ＨＭＤ）等のウェアラブルデバイスを使用して、仮想オブジェクトを伴う代替世界に没入することができる。時として、ウェアラブルデバイスは、他のユーザとの相互作用のために、ユーザのアバタ（例えば、仮想画像を含む）をその代替世界内に提示し得る。アバタのための現実的画像および移動を提供するために、ウェアラブルデバイスは、ユーザの顔の外観および表情に基づいて、アバタ画像を提供することができる。アバタ画像は、ウェアラブルデバイスの１つ以上の結像システムによって入手された画像に基づいて、構築され得る。結像システムは、ユーザの眼の移動を追跡するための眼カメラを備え得る内向きに面した結像システムと、ユーザの環境を結像するためのカメラを備え得る外向きに面した結像システムとを含むことができる。しかしながら、ウェアラブルデバイスの結像システムは、ユーザの頭部上に設置されると、ユーザの顔を容易に結像することができない。例えば、内向きに面した結像システムは、ユーザによって装着されるウェアラブルデバイスおよび眼カメラが、ユーザの顔全体を結像するために十分に広い視野を有していないとき、ユーザの眼球周囲領域を結像するように構成され得る。別の例として、外向きに面した結像システムのカメラは、ユーザがウェアラブルデバイスを装着しているとき、ユーザから離れて向くように構成され、したがって、ユーザの顔画像を容易に取得することができない。これは、仮想アバタをレンダリングするための容認可能画像を生成するために、種々の難点をもたらす。

本明細書に説明されるウェアラブルデバイスは、ユーザが、ウェアラブルデバイスを着けつつある間、または外しつつある間、ユーザの顔の画像を取得するように構成される結像システムを提供することによって、これらの難点を低減させることを対象とする。有利には、ウェアラブルデバイスは、内向きに面した結像システムを使用して、ユーザが、デバイスを着けつつある間、または外しつつある間、ユーザの顔の画像を取得することができ、それは、顔画像を入手するための内向きに面した結像システム（その目的は、眼追跡である）の非従来的用途を提供する。さらに、ウェアラブルデバイスは、開始または停止トリガ（例えば、それは、ウェアラブルデバイスによって入手された画像、またはウェアラブルデバイスの移動に基づき得る）を検出することによって、ユーザの顔の結像を自動的に開始および停止することができる。有利には、ユーザが、デバイスを着けつつある間、または外しつつある間、画像を自動的に入手することによって、ユーザは、ウェアラブルデバイスが顔モデルを生成するために、追加のアクションを実施する（例えば、ユーザの頭部の周囲でウェアラブルデバイスを回転または移動させる）必要がなくなり得る。さらに、ウェアラブルデバイスがユーザの顔の上に据え付けられると結像を停止することによって、内向きに面した結像システムは、ユーザの眼を追跡するというその（典型的には）一次機能を自動的に開始することができる。

画像は、静止画像、写真、動画、ビデオからの個々のフレーム、またはビデオを含むことができる。ウェアラブルデバイスは、結像システムによって入手された画像に基づいて、ユーザの顔の３次元（３Ｄ）モデルを構築し得る。例えば、ウェアラブルデバイスは、各々がユーザの顔の領域を録画するように構成された２つの眼カメラを有することができる。ビデオの各フレームに対して、ウェアラブルデバイスは、２つの眼カメラによって入手された画像を合成し、３Ｄ顔モデルを生成することができる。加えて、または代替として、ウェアラブルデバイスは、各眼カメラによって入手された画像を別個に合成し、各眼カメラに対する合成された画像を組み合わせ、３Ｄ顔モデルを生成することができる。

結果として生じるモデルは、仮想アバタを生成すること、ウェアラブルデバイスの適合を決定すること、ユーザ識別を実施すること、画像位置合わせを実施すること、または、ウェアラブルデバイスの動作パラメータを調整すること（例えば、ユーザの眼の眼球間分離（例えば、瞳孔間距離）またはユーザの顔の他のメトリックに基づいて、仮想画像のレンダリング場所、光プロジェクタの相対的位置または向き等を調節する等）等の目的のために使用され得る。

（ウェアラブルシステムの３Ｄディスプレイの例）
ウェアラブルシステム（本明細書では、拡張現実（ＡＲ）システムとも称される）は、２Ｄまたは３Ｄ仮想画像をユーザに提示するために構成されることができる。画像は、組み合わせ等において、静止画像、ビデオのフレーム、またはビデオであり得る。ウェアラブルシステムの少なくとも一部は、ウェアラブルデバイス上に実装されることができ、ウェアラブルデバイスは、ユーザ相互作用のために、単独で、または組み合わせて、ＶＲ、ＡＲ、またはＭＲ環境を提示できる。ウェアラブルデバイスは、頭部搭載型デバイス（ＨＭＤ）であることができ、それは、ＡＲデバイス（ＡＲＤ）と同義的に使用される。さらに、本開示の目的のために、用語「ＡＲ」は、用語「ＭＲ」と同義的に使用される。

図１は、人物によって視認されるある仮想現実オブジェクトおよびある物理的オブジェクトを伴う複合現実シナリオの例証を描写する。図１では、ＭＲ場面１００が、描写され、ＭＲ技術のユーザは、人々、木々、背景における建物、およびコンクリートプラットフォーム１２０を特徴とする実世界公園状設定１１０を見ている。これらのアイテムに加え、ＭＲ技術のユーザは、実世界プラットフォーム１２０上に立っているロボット像１３０と、マルハナバチの擬人化のように見える飛んでいる漫画のようなアバタキャラクタ１４０とも「見ている」と知覚するが、これらの要素は、実世界には存在しない。

３Ｄディスプレイが、真の深度感覚、より具体的には、表面深度のシミュレートされた感覚を生成するために、ディスプレイの視野内の各点に対して、その仮想深度に対応する遠近調節応答を生成することが望ましくあり得る。ディスプレイ点に対する遠近調節応答が、収束および立体視の両眼深度キューによって決定されるようなその点の仮想深度に対応しない場合、ヒトの眼は、遠近調節衝突を体験し、それは、不安定な結像、有害な眼精疲労、頭痛、および遠近調節情報の不在下では、表面深度のほぼ完全な欠落をもたらし得る。

ＶＲ、ＡＲ、およびＭＲ体験は、複数の深度平面に対応する画像が視認者に提供されるディスプレイを有するディスプレイシステムによって提供されることができる。画像は、各深度平面に対して異なり得（例えば、場面またはオブジェクトの若干異なる提示を提供する）、視認者の眼によって別個に焦点を合わせられ、それによって、異なる深度平面上に位置する場面に対する異なる画像特徴に焦点を合わせるために要求される眼の遠近調節に基づいて、または焦点からずれている異なる深度平面上の異なる画像特徴を観察することに基づいて、ユーザに深度キューを提供することに貢献し得る。本明細書のいずれかに議論されるように、そのような深度キューは、確かな深度の知覚を提供する。

図２は、ウェアラブルシステム２００の例を図示し、それは、ＡＲ／ＶＲ／ＭＲ場面を提供するように構成されることができる。ウェアラブルシステム２００は、ＡＲシステム２００とも称され得る。ウェアラブルシステム２００は、ディスプレイ２２０と、ディスプレイ２２０の機能をサポートするための種々の機械的、電子的モジュールおよびシステムとを含む。ディスプレイ２２０は、ユーザ、装着者、または視認者２１０によって装着可能であるフレーム２３０に結合され得る。ディスプレイ２２０は、ユーザ２１０の眼の正面に位置付けられることができる。ディスプレイ２２０は、ＡＲ／ＶＲ／ＭＲコンテンツをユーザに提示するができる。ディスプレイ２２０は、ユーザの頭部上に装着される頭部搭載型ディスプレイを備えていることができる。

いくつかの実施形態では、スピーカ２４０が、フレーム２３０に結合され、ユーザの外耳道に隣接して位置付けられる（いくつかの実施形態では、示されない別のスピーカが、ユーザの他方の外耳道に隣接して位置付けられ、ステレオ／成形可能音響制御を提供する）。ディスプレイ２２０は、環境からオーディオストリームを検出し、周囲音を捕捉するためのオーディオセンサ（例えば、マイクロホン）２３２を含むことができる。いくつかの実施形態では、示されない１つ以上の他のオーディオセンサが、ステレオ音受信を提供するために位置付けられる。ステレオ音受信は、音源の場所を決定するために使用されることができる。ウェアラブルシステム２００は、音声または発話認識をオーディオストリームに対して実施することができる。

ウェアラブルシステム２００は、ユーザの周囲の環境内の世界を観察する外向きに面した結像システム４６４（図４に示される）を含むことができる。ウェアラブルシステム２００は、ユーザの眼移動を追跡することができる内向きに面した結像システム４６２（図４に示される）も含むことができる。内向きに面した結像システムは、一方の眼の移動または両方の眼の移動のいずれかを追跡することができる。内向きに面した結像システム４６２は、フレーム２３０に取り付けられ得、処理モジュール２６０または２７０と電気通信し得、処理モジュールは、内向きに面した結像システムによって入手された画像情報を処理し、例えば、ユーザ２１０の瞳孔直径、眼の向き、眼の移動、または眼姿勢を決定し得る。内向きに面した結像システム４６２は、１つ以上のカメラを含み得る。例えば、少なくとも１つのカメラは、各眼を結像するために使用され得る。カメラによって入手された画像は、各眼に対する瞳孔サイズまたは眼姿勢を別個に決定し、それによって、各眼への画像情報の提示がその眼に対して動的に調整されることを可能にするために使用され得る。別の例として、１つのみの眼の瞳孔直径または向きが、決定され（例えば、その眼の画像を入手するように構成されるカメラのために入手された画像に基づいて）、この眼のために決定された眼特徴は、ユーザ２１０の他の眼に対しても同様であると仮定される。

例として、ウェアラブルシステム２００は、外向きに面した結像システム４６４または内向きに面した結像システム４６２を使用して、ユーザの姿勢の画像を入手することができる。画像は、静止画像、ビデオのフレーム、またはビデオであり得る。

ディスプレイ２２０は、有線導線または無線接続等によって、ローカルデータ処理モジュール２６０に動作可能に結合されることができ（２５０）、ローカルデータ処理モジュール２６０は、フレーム２３０に固定して取り付けられる構成、ユーザによって装着されるヘルメットもしくは帽子に固定して取り付けられる構成、ヘッドホンに内蔵される構成、または、別様にユーザ２１０に除去可能に取り付けられる構成、（例えば、リュック式構成において、ベルト結合式構成において）等、種々の構成において搭載され得る。

ローカル処理およびデータモジュール２６０は、ハードウェアプロセッサおよび不揮発性メモリ（例えば、フラッシュメモリ）等のデジタルメモリを備え得、その両方は、データの処理、キャッシュ、および記憶を補助するために利用され得る。データは、画像捕捉デバイス（例えば、内向きに面した結像システムおよび／または外向きに面した結像システム内のカメラ）、オーディオセンサ（例えば、マイクロホン）、慣性測定ユニット（ＩＭＵ）、加速度計、コンパス、全地球測位システム（ＧＰＳ）ユニット、無線デバイス、もしくはジャイロスコープ等の（例えば、フレーム２３０に動作可能に結合される、または別様にユーザ２１０に取り付けられ得る）センサから捕捉されるデータ（ａ）、または場合によっては処理もしくは読み出し後にディスプレイ２２０にわたすために、遠隔処理モジュール２７０または遠隔データリポジトリ２８０を使用して入手または処理されるデータ（ｂ）を含み得る。ローカル処理およびデータモジュール２６０は、これらの遠隔モジュールがローカル処理およびデータモジュール２６０へのリソースとして利用可能であるように、有線または無線通信リンク等を介して、通信リンク２６２または２６４を遠隔処理モジュール２７０または遠隔データリポジトリ２８０に動作可能に結合され得る。加えて、遠隔処理モジュール２８０および遠隔データリポジトリ２８０は、互いに動作可能に結合され得る。

いくつかの実施形態では、遠隔処理モジュール２７０は、データまたは画像情報を分析および処理するように構成される１つ以上のプロセッサを備え得る。いくつかの実施形態では、遠隔データリポジトリ２８０は、デジタルデータ記憶設備を備え得、それは、インターネットまたは「クラウド」リソース構成における他のネットワーキング構成を通して利用可能であり得る。いくつかの実施形態では、全てのデータは、記憶され、全ての算出は、ローカル処理およびデータモジュールにおいて実施され、遠隔モジュールからの完全に自律的な使用を可能にする。

ヒト視覚系は、複雑であり、深度の現実的知覚を提供することは、困難である。理論によって限定されるわけではないが、オブジェクトの視認者は、両眼離反運動と遠近調節の組み合わせに起因して、オブジェクトを３次元として知覚し得ると考えられる。互いに対する２つの眼の両眼離反運動（すなわち、瞳孔が、互いに向かって、またはそこから離れるように移動し、眼の視線を収束させ、オブジェクトを固視するような瞳孔の回転）は、眼の水晶体の焦点合わせ（または「遠近調節」）に緊密に関連付けられる。通常条件下、焦点を１つのオブジェクトから異なる距離における別のオブジェクトに変化させるための眼のレンズの焦点の変化または眼の遠近調節は、「遠近調節−両眼離反運動反射」として知られる関係下、両眼離反運動の整合変化を自動的に同一距離に生じさせるであろう。同様に、両眼離反運動の変化は、通常条件下、遠近調節の整合変化を誘起するであろう。遠近調節と両眼離反運動との間のより良好な整合を提供するディスプレイシステムは、３次元画像のより現実的かつ快適なシミュレーションを形成し得る。

図３は、複数の深度平面を使用して３次元画像をシミュレートするためのアプローチの側面を図示する。図３を参照すると、ｚ−軸上の眼３０２および３０４からの種々の距離におけるオブジェクトは、それらのオブジェクトが、焦点が合っているように、眼３０２および３０４によって遠近調節される。眼３０２および３０４は、オブジェクトをｚ−軸に沿った異なる距離に焦点を合わせるように特定の遠近調節された状態をとる。その結果、特定の遠近調節された状態は、深度平面３０６のうちの特定の１つに関連付けられていると言われ得、特定の１つは、特定の深度平面におけるオブジェクトまたはオブジェクトの一部が、眼がその深度平面に対して遠近調節された状態にあるとき、焦点が合っているように、関連付けられた焦点距離を有する。いくつかの実施形態では、３次元画像は、眼３０２および３０４の各々に対して、異なる画像の提示を提供することによってシミュレートされ得、深度平面の各々に対応する異なる画像の提示を提供することによってもシミュレートされ得る。例証を明確にするために、別個であるように示されるが、眼３０２および３０４の視野は、例えば、ｚ−軸に沿った距離が増加するにつれて、重複し得ることを理解されたい。加えて、例証を容易にするために、平坦であるように示されるが、深度平面の輪郭は、深度平面内の全ての特徴が特定の遠近調節された状態における眼で焦点が合っているように、物理的空間内で湾曲し得ることを理解されたい。理論によって限定されるわけではないが、ヒトの眼は、典型的には、有限数の深度平面を解釈し、深度知覚を提供することができると考えられる。その結果、知覚された深度の高度に真実味のあるシミュレーションが、眼にこれらの限定数の深度平面の各々に対応する異なる画像の提示を提供することによって達成され得る。

（導波管スタックアセンブリ）
図４は、画像情報をユーザに出力するための導波管スタックの例を図示する。ウェアラブルシステム４００は、複数の導波管４３２ｂ、４３４ｂ、４３６ｂ、４３８ｂ、４４００ｂを使用して、３次元知覚を眼／脳に提供するために利用され得る導波管のスタックまたはスタックされた導波管アセンブリ４８０を含む。いくつかの実施形態では、ウェアラブルシステム４００は、図２のウェアラブルシステム２００に対応し得、図４は、そのウェアラブルシステム２００のいくつかの部分をより詳細に図式的に示す。例えば、いくつかの実施形態では、導波管アセンブリ４８０は、図２のディスプレイ２２０の中に統合され得る。

図４を継続して参照すると、導波管アセンブリ４８０は、複数の特徴４５８、４５６、４５４、４５２を導波管の間にさらに含み得る。いくつかの実施形態では、特徴４５８、４５６、４５４、４５２は、レンズであり得る。他の実施形態では、特徴４５８、４５６、４５４、４５２は、レンズではないこともある。むしろ、それらは、単に、スペーサであり得る（例えば、クラッディング層または空気間隙を形成するための構造）。

導波管４３２ｂ、４３４ｂ、４３６ｂ、４３８ｂ、４４０ｂまたは複数のレンズ４５８、４５６、４５４、４５２は、種々のレベルの波面曲率または光線発散を用いて、画像情報を眼に送信するように構成され得る。各導波管レベルは、特定の深度平面に関連付けられ得、その深度平面に対応する画像情報を出力するように構成され得る。画像投入デバイス４２０、４２２、４２４、４２６、４２８は、導波管４４０ｂ、４３８ｂ、４３６ｂ、４３４ｂ、４３２ｂの中に画像情報を投入するために利用され得、投入デバイスの各々は、眼４１０（図３における眼３０４に対応し得る）に向かって出力するために、各それぞれの導波管にわたり入射光を分配するように構成され得る。光は、画像投入デバイス４２０、４２２、４２４、４２６、４２８の出力表面から出射し、導波管４４０ｂ、４３８ｂ、４３６ｂ、４３４ｂ、４３２ｂの対応する入力縁の中に投入される。いくつかの実施形態では、光の単一ビーム（例えば、コリメートされたビーム）が、各導波管の中に投入されることにより、特定の導波管に関連付けられた深度平面に対応する特定の角度（および発散量）において眼４１０に向かわせられるクローン化されたコリメートビームの場全体を出力し得る。

いくつかの実施形態では、画像投入デバイス４２０、４２２、４２４、４２６、４２８は、各々がそれぞれの対応する導波管４４０ｂ、４３８ｂ、４３６ｂ、４３４ｂ、４３２ｂの中への投入のための画像情報を生成する個別的なディスプレイである。いくつかの他の実施形態では、画像投入デバイス４２０、４２２、４２４、４２６、４２８は、例えば、１つ以上の光学導管（光ファイバケーブル等）を介して、画像情報を画像投入デバイス４２０、４２２、４２４、４２６、４２８の各々に送り得る単一の多重化されたディスプレイの出力端である。

コントローラ４６０が、スタックされた導波管アセンブリ４８０および画像投入デバイス４２０、４２２、４２４、４２６、４２８の動作を制御する。コントローラ４６０は、導波管４４０ｂ、４３８ｂ、４３６ｂ、４３４ｂ、４３２ｂへの画像情報のタイミングおよび提供を調整するプログラミング（例えば、非一過性コンピュータ読み取り可能な媒体内の命令）を含む。いくつかの実施形態では、コントローラ４６０は、単一の一体型デバイス、または、有線または無線通信チャネルによって接続される分散型システムであり得る。コントローラ４６０は、いくつかの実施形態では、処理モジュール２６０または２７０（図２に図示される）の一部であり得る。

導波管４４０ｂ、４３８ｂ、４３６ｂ、４３４ｂ、４３２ｂは、全内部反射（ＴＩＲ）によって各それぞれの導波管内で光を伝搬するように構成され得る。導波管４４０ｂ、４３８ｂ、４３６ｂ、４３４ｂ、４３２ｂの各々は、主要な上部および底部表面と、それらの主要上部表面と底部表面との間に延びている縁とを伴う平面であるか、または別の形状（例えば、湾曲）を有し得る。図示される構成では、導波管４４０ｂ、４３８ｂ、４３６ｂ、４３４ｂ、４３２ｂの各々は、光抽出光学要素４４０ａ、４３８ａ、４３６ａ、４３４ａ、４３２ａを含み得、それらは、光を向け直し、各それぞれの導波管内で伝搬し、導波管から画像情報を眼４１０に出力することによって、光を導波管から抽出するように構成される。抽出された光は、外部結合光とも称され得、光抽出光学要素は、外部結合光学要素とも称され得る。抽出される光のビームは、導波管によって、導波管内で伝搬する光が光向け直し要素に衝突する場所において出力される。光抽出光学要素（４４０ａ、４３８ａ、４３６ａ、４３４ａ、４３２ａ）は、例えば、反射または回折光学特徴であり得る。説明を容易にし、図面を明確にするために、導波管４４０ｂ、４３８ｂ、４３６ｂ、４３４ｂ、４３２ｂの底部主要表面に配置されて図示されるが、いくつかの実施形態では、光抽出光学要素４４０ａ、４３８ａ、４３６ａ、４３４ａ、４３２ａは、上部もしくは底部主要表面に配置され得るか、または、導波管４４０ｂ、４３８ｂ、４３６ｂ、４３４ｂ、４３２ｂの容積内に直接配置され得る。いくつかの実施形態では、光抽出光学要素４４０ａ、４３８ａ、４３６ａ、４３４ａ、４３２ａは、透明基板に取り付けられ、導波管４４０ｂ、４３８ｂ、４３６ｂ、４３４ｂ、４３２ｂを形成する材料の層内に形成され得る。いくつかの他の実施形態では、導波管４４０ｂ、４３８ｂ、４３６ｂ、４３４ｂ、４３２ｂは、材料のモノリシック部品であり得、光抽出光学要素４４０ａ、４３８ａ、４３６ａ、４３４ａ、４３２ａは、その材料部品の表面上および／または内部に形成され得る。

図４を継続して参照すると、本明細書に議論されるように、各導波管４４０ｂ、４３８ｂ、４３６ｂ、４３４ｂ、４３２ｂは、特定の深度平面に対応する画像を形成するための光を出力するように構成される。例えば、眼の最近傍の導波管４３２ｂは、そのような導波管４３２ｂの中に投入されると、コリメートされた光を眼４１０に送達するように構成され得る。コリメートされた光は、光学無限遠焦点面を表し得る。次の上方の導波管４３４ｂは、眼４１０に到達し得る前、第１のレンズ４５２（例えば、負のレンズ）を通過するコリメートされた光を送出するように構成され得る。第１のレンズ４５２は、眼／脳が、その次の上方の導波管４３４ｂから生じる光を光学無限遠から眼４１０に向かって内向きにより近い第１の焦点面から生じるように解釈するように、若干の凸面波面曲率を生成するように構成され得る。同様に、第３の上方の導波管４３６ｂは、眼４１０に到達する前、その出力光を第１のレンズ４５２および第２のレンズ４５４の両方に通す。第１および第２のレンズ４５２、４５４の組み合わせられた屈折力は、眼／脳が、第３の上方の導波管４３６ｂから生じる光が次の上方の導波管４３４ｂからの光であった光学無限遠から人物に向かって内向きにさらに近い第２の焦点面から生じるように解釈するように、別の漸増量の波面曲率を生成するように構成され得る。

他の導波管層（例えば、導波管４３８ｂ、４４０ｂ）およびレンズ（例えば、レンズ４５６、４５８）も同様に構成され、スタック内の最も高い導波管４４０ｂを用いて、人物に最も近い焦点面を表す集約焦点力のために、その出力をそれと眼との間のレンズの全てを通して送出する。スタックされた導波管アセンブリ４８０の他側の世界４７０から生じる光を視認／解釈するとき、レンズ４５８、４５６、４５４、４５２のスタックを補償するために、補償レンズ層４３０が、スタックの上部に配置され、下方のレンズスタック４５８、４５６、４５４、４５２の集約力を補償し得る。そのような構成は、利用可能な導波管／レンズ対と同じ数の知覚される焦点面を提供する。導波管の光抽出光学要素およびレンズの集束側面の両方は、静的であり得る（例えば、動的または電気活性ではない）。いくつかの代替実施形態では、一方または両方は、電気活性特徴を使用して動的であり得る。

図４を継続して参照すると、光抽出光学要素４４０ａ、４３８ａ、４３６ａ、４３４ａ、４３２ａは、導波管に関連付けられた特定の深度平面のために、光をそれらのそれぞれの導波管から外に向け直すことと、この光を適切な発散またはコリメーション量を伴って出力することとの両方を行うように構成され得る。その結果、異なる関連付けられた深度平面を有する導波管は、関連付けられた深度平面に応じて、異なる量の発散を伴う光を出力する異なる構成の光抽出光学要素を有し得る。いくつかの実施形態では、本明細書に議論されるように、光抽出光学要素４４０ａ、４３８ａ、４３６ａ、４３４ａ、４３２ａは、特定の角度において光を出力するように構成され得る立体または表面特徴であり得る。例えば、光抽出光学要素４４０ａ、４３８ａ、４３６ａ、４３４ａ、４３２ａは、体積ホログラム、表面ホログラム、および／または回折格子であり得る。回折格子等の光抽出光学要素は、２０１５年６月２５日に公開された米国特許公開第２０１５／０１７８９３９号（参照することによってその全体として本明細書に組み込まれる）に説明される。

いくつかの実施形態では、光抽出光学要素４４０ａ、４３８ａ、４３６ａ、４３４ａ、４３２ａは、回折パターンまたは「回折光学要素」（また、本明細書では、「ＤＯＥ」とも称される）を形成する回折特徴である。好ましくは、ＤＯＥは、ビームの光の一部のみがＤＯＥの各交差とともに眼４１０に向かって偏向される一方、残りが、全内部反射を介して、導波管を通して移動し続けるように、比較的に低回折効率を有する。画像情報を搬送する光は、したがって、複数の場所において導波管から出射するいくつかの関連出射ビームに分割され、その結果は、導波管内でバウンドするこの特定のコリメートされたビームに対して、眼３０４に向かって非常に均一なパターンの出射放出である。

いくつかの実施形態では、１つ以上のＤＯＥは、能動的に回折する「オン」状態と、それらが有意に回折しない「オフ」状態との間で切り替え可能であり得る。例えば、切り替え可能なＤＯＥは、ポリマー分散液晶の層を備え得、その中で、微小液滴は、ホスト媒体中における回折パターンを備え、微小液滴の屈折率は、ホスト材料の屈折率に実質的に整合するように切り替えられることができる（その場合、パターンは、入射光を著しく回折しない）か、または、微小液滴は、ホスト媒体のものに整合しない屈折率に切り替えられることができる（その場合、パターンは、入射光を能動的に回折する）。

いくつかの実施形態では、深度平面または被写界深度の数および分布は、視認者の眼の瞳孔サイズまたは向きに基づいて、動的に変動させられ得る。被写界深度は、視認者の瞳孔サイズと反比例して変化し得る。その結果、視認者の眼の瞳孔のサイズが減少すると、被写界深度は、増加し、それによって、その平面の場所が眼の焦点深度を越えるため判別不能である１つの平面が、判別可能となり、瞳孔サイズの低減および被写界深度の相当する増加に伴って、より焦点が合って現れ得る。同様に、異なる画像を視認者に提示するために使用される間隔を置かれる深度平面の数は、減少した瞳孔サイズに伴って減少し得る。例えば、視認者は、一方の深度平面から他方の深度平面への眼の遠近調節を調節せずに、第１の深度平面および第２の深度平面の両方の詳細を１つの瞳孔サイズにおいて明確に知覚することが可能ではないこともある。しかしながら、これらの２つの深度平面は、別の瞳孔サイズにおいて、遠近調節を変化させずに、同時に、ユーザに対して十分に焦点があっていることもある。

いくつかの実施形態では、ディスプレイシステムは、瞳孔サイズまたは向きの決定に基づいて、または、特定の瞳孔サイズまたは向きを示す電気信号を受信することに基づいて、画像情報を受信する導波管の数を変動させ得る。例えば、ユーザの眼が、２つの導波管に関連付けられた２つの深度平面間を区別不能である場合、コントローラ４６０（ローカル処理およびデータモジュール２６０の実施形態であり得る）は、これらの導波管のうちの１つへの画像情報の提供を停止するように構成またはプログラムされることができる。有利には、それは、システムへの処理負担を低減させ、それによって、システムの応答性を増加させ得る。導波管のためのＤＯＥがオンおよびオフ状態間で切り替え可能である実施形態では、ＤＯＥは、導波管が画像情報を受信するとき、オフ状態に切り替えられ得る。

いくつかの実施形態では、出射ビームに視認者の眼の直径未満の直径を有するという条件を満たさせることが望ましくあり得る。しかしながら、この条件を満たすことは、視認者の瞳孔のサイズの変動性に照らして、困難であり得る。いくつかの実施形態では、この条件は、視認者の瞳孔のサイズの決定に応答して出射ビームのサイズを変動させることによって、広範囲の瞳孔サイズにわたって満たされる。例えば、瞳孔サイズが減少するにつれて、出射ビームのサイズも、減少し得る。いくつかの実施形態では、出射ビームサイズは、可変開口を使用して変動させられ得る。

ウェアラブルシステム４００は、世界４７０の一部を結像する外向きに面した結像システム４６４（例えば、デジタルカメラ）を含むことができる。世界４７０のこの部分は、世界カメラの視野（ＦＯＶ）と称され得、結像システム４６４は、時として、ＦＯＶカメラとも称される。世界カメラのＦＯＶは、視認者２１０のＦＯＶと同一である場合とそうではない場合があり、視認者２１０のＦＯＶは、視認者２１０が所与の時間に知覚する世界４７０の一部を包含する。例えば、いくつかの状況では、世界カメラのＦＯＶは、ウェアラブルシステム４００の視認者２１０の視野より大きくあり得る。視認者による視認または結像のために利用可能な領域全体は、動眼視野（ＦＯＲ）と称され得る。ＦＯＲは、装着者が、その身体、頭部、または眼を移動させ、空間内の実質的に任意の方向を知覚することができるので、ウェアラブルシステム４００を包囲する４πステラジアンの立体角を含み得る。他のコンテキストでは、装着者の移動は、より抑制され得、それに応じて、装着者のＦＯＲは、より小さい立体角に対し得る。外向きに面した結像システム４６４から得られた画像は、ユーザによって行われるジェスチャ（例えば、手または指のジェスチャ）を追跡すること、ユーザの正面における世界４７０内のオブジェクトを検出すること等を行うために使用されることができる。

ウェアラブルシステム４００は、周囲音を捕捉するためのオーディオセンサ２３２、例えば、マイクロホンを含むことができる。上で説明されるように、いくつかの実施形態では、１つ以上の他のオーディオセンサが、発話源の場所の決定に有用なステレオ音受信を提供するために位置付けられることができる。オーディオセンサ２３２は、別の例として、指向性マイクロホンを備えていることができ、それは、オーディオ源が位置する場所に関するそのような有用な指向性情報も提供することができる。ウェアラブルシステム４００は、発話源を位置特定することにおいて、または特定の瞬間におけるアクティブ話者を決定するために等、外向きに面した結像システム４６４およびオーディオセンサ２３０の両方からの情報を使用することができる。例えば、ウェアラブルシステム４００は、単独で、または話者の反射された画像（例えば、鏡に見られるように）と組み合わせて、音声認識を使用し、話者の識別を決定することができる。別の例として、ウェアラブルシステム４００は、指向性マイクロホンから入手された音に基づいて、環境内の話者の位置を決定することができる。ウェアラブルシステム４００は、発話認識アルゴリズムを用いて、話者の位置から生じる音を解析し、発話のコンテンツを決定し、音声認識技法を使用して、話者の識別（例えば、名前または他の人口統計情報）を決定することができる。

ウェアラブルシステム４００は、眼移動および顔移動等のユーザの移動を観察する内向きに面した結像システム４６６（例えば、デジタルカメラ）も含むことができる。内向きに面した結像システム４６６は、眼４１０の画像を捕捉し、眼３０４の瞳孔のサイズおよび／または向きを決定するために使用され得る。内向きに面した結像システム４６６は、ユーザが見ている方向（例えば、眼姿勢）を決定することにおける使用のために、またはユーザのバイオメトリック識別のために（例えば、虹彩識別を介して）画像を得るために使用されることができる。いくつかの実施形態では、少なくとも１つのカメラが、各眼に対して、独立して、各眼の瞳孔サイズまたは眼姿勢を別個に決定し、それによって、各眼への画像情報の提示がその眼に対して動的に調整されることを可能にするために利用され得る。いくつかの他の実施形態では、片眼４１０のみの瞳孔直径または向き（例えば、対の眼あたり単一カメラのみを使用して）が、決定され、ユーザの両眼に対して同様であると仮定される。内向きに面した結像システム４６６によって得られる画像は、ユーザに提示されるべきオーディオまたは視覚的コンテンツを決定するためにウェアラブルシステム４００によって使用され得るユーザの眼姿勢または気分を決定するために分析され得る。ウェアラブルシステム４００は、ＩＭＵ、加速度計、ジャイロスコープ等のセンサを使用して、頭部姿勢（例えば、頭部位置または頭部向き）も決定し得る。

ウェアラブルシステム４００は、ユーザが、コマンドをコントローラ４６０に入力し、ウェアラブルシステム４００と相互作用し得るユーザ入力デバイス４６６を含むことができる。例えば、ユーザ入力デバイス４６６は、トラックパッド、タッチスクリーン、ジョイスティック、多自由度（ＤＯＦ）コントローラ、容量感知デバイス、ゲームコントローラ、キーボード、マウス、指向性パッド（Ｄパッド）、ワンド、触知デバイス、トーテム（例えば、仮想ユーザ入力デバイスとして機能する）等を含むことができる。マルチＤＯＦコントローラは、コントローラの一部または全部の可能な平行移動（例えば、左／右、前方／後方、もしくは上／下）または回転（例えば、ヨー、ピッチ、もしくはロール）におけるユーザ入力を感知することができる。平行移動をサポートするマルチＤＯＦコントローラは、３ＤＯＦと称され得る一方、平行移動および回転をサポートするマルチＤＯＦコントローラは、６ＤＯＦと称され得る。ある場合、ユーザは、指（例えば、親指）を使用して、タッチセンサ式入力デバイスを押し、またはその上でスワイプし、入力をウェアラブルシステム４００に提供し得る（例えば、ユーザ入力をウェアラブルシステム４００によって提供されるユーザインターフェースに提供するために）。ユーザ入力デバイス４６６は、ウェアラブルシステム４００の使用中、ユーザの手によって保持され得る。ユーザ入力デバイス４６６は、ウェアラブルシステム４００と有線または無線通信することができる。

図５は、導波管によって出力された出射ビームの例を示す。１つの導波管が図示されるが、導波管アセンブリ４８０内の他の導波管も同様に機能し得、導波管アセンブリ４８０は、複数の導波管を含むことを理解されたい。光５２０が、導波管４３２ｂの入力縁４３２ｃにおいて導波管４３２ｂの中に投入され、ＴＩＲによって導波管４３２ｂ内を伝搬する。光５２０がＤＯＥ４３２ａに衝突する点において、光の一部が、出射ビーム５１０として導波管から出射する。出射ビーム５１０は、実質的に平行として図示されるが、それらは、導波管４３２ｂに関連付けられた深度平面に応じて、ある角度で眼４１０に伝搬するように向け直され得る（例えば、発散出射ビーム形成）。実質的に平行出射ビームが、光を外部結合し、眼４１０から遠距離（例えば、光学無限遠）における深度平面に設定されているように見える画像を形成する光抽出光学要素を伴う導波管を示し得ることを理解されたい。他の導波管または他の光抽出光学要素の組は、より発散する出射ビームパターンを出力し得、それは、眼４１０がより近い距離に遠近調節し、網膜に焦点を合わせることを要求し、光学無限遠より眼４１０に近い距離からの光として脳によって解釈されるであろう。

図６は、多焦点立体ディスプレイ、画像、または明視野の生成において使用される光学システムを示す概略図であり、光学システムは、導波管装置と、光を導波管装置へまたはそこから光学的に結合するための光学結合器サブシステムと、制御サブシステムとを含む。光学システムは、導波管装置と、光を導波管装置にまたはそこから光学的に結合するための光学結合器サブシステムと、制御サブシステムとを含むことができる。光学システムは、多焦点立体、画像、または明視野を生成するために使用されることができる。光学システムは、１つ以上の一次平面導波管６３２ａ（１つのみのが図６に示される）と、一次導波管６３２ａの少なくともいくつかの各々に関連付けられた１つ以上のＤＯＥ６３２ｂとを含むことができる。平面導波管６３２ｂは、図４を参照して議論される導波管４３２ｂ、４３４ｂ、４３６ｂ、４３８ｂ、４４０ｂに類似することができる。光学システムは、分配導波管装置を採用し、光を第１の軸（図６の図では、垂直またはＹ−軸）に沿って中継し、第１の軸（例えば、Ｙ−軸）に沿って光の有効射出瞳を拡張させ得る。分配導波管装置は、例えば、分配平面導波管６２２ｂと、分配平面導波管６２２ｂに関連付けられた少なくとも１つのＤＯＥ６２２ａ（二重破線によって図示される）とを含み得る。分配平面導波管６２２ｂは、少なくともいくつかの点において、それと異なる向きを有する一次平面導波管６３２ｂと同様または同じであり得る。同様に、少なくとも１つのＤＯＥ６２２ａは、少なくともいくつかの点において、ＤＯＥ６３２ａと同様または同じであり得る。例えば、分配平面導波管６２２ｂまたはＤＯＥ６２２ａは、それぞれ、一次平面導波管６３２ｂまたはＤＯＥ６３２ａと同一材料から成り得る。図６に示される光学ディスプレイシステム６００の実施形態は、図２に示されるウェアラブルシステム２００の中に統合されることができる。

中継され、射出瞳が拡張された光は、分配導波管装置から１つ以上の一次平面導波管６３２ｂの中に光学的に結合され得る。一次平面導波管６３２ｂは、好ましくは、第１の軸に直交する第２の軸（例えば、図６の図では、水平またはＸ−軸）に沿って、光を中継することができる。着目すべきこととして、第２の軸は、第１の軸に対して非直交軸であることができる。一次平面導波管６３２ｂは、その第２の軸（例えば、Ｘ−軸）に沿って、光の有効射出瞳を拡張させる。例えば、分配平面導波管６２２ｂは、光を垂直またはＹ−軸に沿って中継および拡張させ、光を水平またはＸ−軸に沿って中継および拡張させ得る一次平面導波管６３２ｂにその光を通すことができる。

光学システムは、単一モード光ファイバ６４０の近位端の中に光学的に結合され得る１つ以上の着色光源（例えば、赤色、緑色、および青色レーザ光）６１０を含み得る。光ファイバ６４０の遠位端は、圧電材料の中空管６４２に通されるか、またはそれを通して受け取られ得る。遠位端は、固定されない可撓なカンチレバー６４４として、管６４２から突出する。圧電管６４２は、４つの象限電極（図示せず）に関連付けられることができる。電極は、例えば、管６４２の外側、外側表面もしくは外側周縁、または直径にメッキされ得る。コア電極（図示せず）も、管６４２のコア、中心、内側周縁、または内径に位置し得る。

例えば、ワイヤ６６０を介して電気的に結合される駆動電子機器６５０は、対向する対の電極を駆動し、圧電管６４２を独立して２つの軸において曲げる。光ファイバ６４４の突出する遠位先端は、機械的共鳴モードを有する。共鳴の周波数は、光ファイバ６４４の直径、長さ、および材料性質に依存し得る。圧電管６４２をファイバカンチレバー６４４の第１の機械的共鳴モードの近くで振動させることによって、ファイバカンチレバー６４４は、振動させられ、ファイバカンチレバー６４４は、大きなふれを通して掃引し得る。

２つの軸において共振振動を刺激することによって、ファイバカンチレバー６４４の先端は、２次元（２−Ｄ）走査を満たすエリアにおいて２軸方向に走査される。光源６１０の強度をファイバカンチレバー６４４の走査と同期して変調することによって、ファイバカンチレバー６４４から発せられる光は、画像を形成することができる。そのような設定の説明は、米国特許公開第２０１４／０００３７６２号（参照することによってその全体として本明細書に組み込まれる）に提供されている。

光学結合器サブシステムのコンポーネントは、走査ファイバカンチレバー６４４から発せられる光をコリメートすることができる。コリメートされた光は、鏡面表面６４８によって、少なくとも１つの回折光学要素（ＤＯＥ）６２２ａを含む狭い分配平面導波管６２２ｂの中に反射されることができる。コリメートされた光は、ＴＩＲによって分配平面導波管６２２ｂに沿って（図６の図に対して）垂直に伝搬し、そうすることによって、ＤＯＥ６２２ａと繰り返し交差することができる。ＤＯＥ６２２ａは、好ましくは、低回折効率を有する。これは、光の一部（例えば、１０％）をＤＯＥ６２２ａとの交差の各点においてより大きい一次平面導波管６３２ｂの縁に向かって回折し、光の一部をＴＩＲを介して分配平面導波管６２２ｂの長さに沿ってそのもとの軌道上で継続させることができる。

ＤＯＥ６２２ａとの交差点の各点において、追加の光が、一次導波管６３２ｂの入口に向かって回折されることができる。入射光を複数の外部結合組に分割することによって、光の射出瞳は、分配平面導波管６２２ｂ内のＤＯＥ６２２ａによって垂直に拡張されることができる。分配平面導波管６２２ｂから外部結合されたこの垂直に拡張された光は、一次平面導波管６３２ｂの縁に進入することができる。

一次導波管６３２ｂに進入する光は、ＴＩＲを介して、一次導波管６３２ｂに沿って（図６の図に対して）水平に伝搬することができる。光は、複数の点においてＤＯＥ６３２ａと交差するにつれて、ＴＩＲを介して、一次導波管６３２ｂの長さの少なくとも一部に沿って水平に伝搬する。ＤＯＥ６３２ａは、有利には、線形回折パターンおよび放射対称回折パターンの総和である位相プロファイルを有し、光の偏向および集束の両方を生成するように設計または構成され得る。ＤＯＥ６３２ａは、有利には、ビームの光の一部のみが、ＤＯＥ６３２ａの各交差において視認者の眼に向かって偏向される一方、光の残りが、ＴＩＲを介して、一次導波管６３２ｂを通して伝搬し続けるように、低回折効率（例えば、１０％）を有し得る。

伝搬する光とＤＯＥ６３２ａとの間の交差の各点において、光の一部は、一次導波管６３２ｂの隣接面に向かって回折され、光がＴＩＲから逃散し、一次導波管６３２ｂの面から発することを可能にする。いくつかの実施形態では、ＤＯＥ６３２ａの放射対称回折パターンは、加えて、ある焦点レベルを回折された光に与え、個々のビームの光波面を成形する（例えば、曲率を与える）ことと、ビームを設計される焦点レベルに合致する角度に操向することとの両方を行う。

故に、これらの異なる経路は、異なる角度、焦点レベルで、または、射出瞳において異なる充填パターンをもたらす多様なＤＯＥ６３２ａによって、光が一次平面導波管６３２ｂの外部で結合されるようにすることができる。射出瞳における異なる充填パターンは、有利には、複数の深度平面を伴う明視野ディスプレイを生成するために使用されることができる。導波管アセンブリ内の各層またはスタック内の層の組（例えば、３層）が、それぞれの色（例えば、赤色、青色、緑色）を生成するために採用され得る。したがって、例えば、第１の３つの隣接する層の組が、それぞれ、赤色、青色、および緑色光を第１の焦点深度において生成するために採用され得る。第２の３つの隣接する層の組が、それぞれ、赤色、青色、および緑色光を第２の焦点深度において生成するために採用され得る。複数の組が、種々の焦点深度を伴うフル３Ｄまたは４Ｄカラー画像明視野を生成するために採用され得る。

（ウェアラブルシステムの他のコンポーネント）
多くの実装では、ウェアラブルシステムは、上で説明されるウェアラブルシステムのコンポーネントに加えて、またはその代替として、他のコンポーネントを含み得る。ウェアラブルシステムは、例えば、１つ以上の触知デバイスまたはコンポーネントを含み得る。触知デバイスまたはコンポーネントは、触覚をユーザに提供するように動作可能であり得る。例えば、触知デバイスまたはコンポーネントは、仮想コンテンツ（例えば、仮想オブジェクト、仮想ツール、他の仮想構造）に触れると、圧力またはテクスチャの感覚を提供し得る。触覚は、仮想オブジェクトが表す物理的オブジェクトの感覚を再現し得るか、または仮想コンテンツが表す想像上のオブジェクトもしくはキャラクタ（例えば、ドラゴン）の感覚を再現し得る。いくつかの実装では、触知デバイスまたはコンポーネントは、ユーザによって装着され得る（例えば、ユーザウェアラブルグローブ）。いくつかの実装では、触知デバイスまたはコンポーネントは、ユーザによって保持され得る。

ウェアラブルシステムは、例えば、ユーザによって操作可能であり、ウェアラブルシステムへの入力またはそれとの相互作用を可能にする１つ以上の物理的オブジェクトを含み得る。これらの物理的オブジェクトは、本明細書では、トーテムと称され得る。いくつかのトーテムは、例えば、金属またはプラスチック片、壁、テーブルの表面等、無生物オブジェクトの形態をとり得る。ある実装では、トーテムは、実際には、任意の物理的入力構造（例えば、キー、トリガ、ジョイスティック、トラックボール、ロッカスイッチ）を有していないこともある。代わりに、トーテムは、単に、物理的表面を提供し得、ウェアラブルシステムは、ユーザにトーテムの１つ以上の表面上にあるように見えるように、ユーザインターフェースをレンダリングし得る。例えば、ウェアラブルシステムは、トーテムの１つ以上の表面上に常駐するように見えるように、コンピュータキーボードおよびトラックパッドの画像をレンダリングし得る。例えば、ウェアラブルシステムは、トーテムとしての役割を果たすアルミニウムの薄い長方形プレートの表面上に見えるように、仮想コンピュータキーボードおよび仮想トラックパッドをレンダリングし得る。長方形プレート自体は、任意の物理的キーまたはトラックパッドもしくはセンサを有していない。しかしながら、ウェアラブルシステムは、仮想キーボードまたは仮想トラックパッドを介して行われた選択または入力として、長方形プレートを用いたユーザ操作または相互作用もしくはタッチを検出し得る。ユーザ入力デバイス４６６（図４に示される）は、トラックパッド、タッチパッド、トリガ、ジョイスティック、トラックボール、ロッカもしくは仮想スイッチ、マウス、キーボード、多自由度コントローラ、または別の物理的入力デバイスを含み得るトーテムの実施形態であり得る。ユーザは、単独で、または姿勢と組み合わせて、トーテムを使用し、ウェアラブルシステムまたは他のユーザと相互作用し得る。

（例示的ウェアラブルシステム、環境、およびインターフェース）
ウェアラブルシステムは、高被写界深度をレンダリングされた明視野において達成するために、種々のマッピング関連技法を採用し得る。仮想世界をマッピングすることにおいて、実世界内の全ての特徴および点を把握し、仮想オブジェクトを実世界に関連して正確に描くことが有利である。この目的を達成するために、ウェアラブルシステムのユーザから捕捉されたＦＯＶ画像が、実世界の種々の点および特徴についての情報を伝達する新しい写真を含むことによって、世界モデルに追加されることができる。例えば、ウェアラブルシステムは、マップ点（２Ｄ点または３Ｄ点等）の組を収集し、新しいマップ点を見出し、世界モデルのより正確なバージョンをレンダリングすることができる。第１のユーザの世界モデルは、第２のユーザが第１のユーザを包囲する世界を体験し得るように、（例えば、クラウドネットワーク等のネットワークを経由して）第２のユーザに通信されることができる。

図７は、ＭＲ環境７００の例のブロック図である。ＭＲ環境７００は、入力（例えば、ユーザのウェアラブルシステムからの視覚的入力７０２、室内カメラ等の静止入力７０４、種々のセンサからの感覚入力７０６、ユーザ入力デバイス４６６からのジェスチャ、トーテム、眼追跡、ユーザ入力等）を１つ以上のユーザウェアラブルシステム（例えば、ウェアラブルシステム２００もしくはディスプレイシステム２２０）または静止室内システム（例えば、室内カメラ等）から受信するように構成され得る。ウェアラブルシステムは、種々のセンサ（例えば、加速度計、ジャイロスコープ、温度センサ、移動センサ、深度センサ、ＧＰＳセンサ、内向きに面した結像システム、外向きに面した結像システム等）を使用して、ユーザの環境の場所および種々の他の属性を決定することができる。この情報は、異なる視点からの画像または種々のキューを提供し得る部屋内の静止カメラからの情報でさらに補完され得る。カメラ（室内カメラまたは外向きに面した結像システムのカメラ等）によって入手された画像データは、マッピング点の組にまとめられ得る。

１つ以上のオブジェクト認識装置７０８が、受信されたデータ（例えば、点の集合）を通してクローリングし、点を認識またはマッピングし、画像をタグ付けし、マップデータベース７１０を用いて、意味情報をオブジェクトに付属させることができる。マップデータベース７１０は、経時的に収集された種々の点およびその対応するオブジェクトを備え得る。種々のデバイスおよびマップデータベースは、ネットワーク（例えば、ＬＡＮ、ＷＡＮ等）を通して互いに接続され、クラウドにアクセスすることができる。

この情報およびマップデータベース内の点集合に基づいて、オブジェクト認識装置７０８ａ−７０８ｎは、環境内のオブジェクトを認識し得る。例えば、オブジェクト認識装置は、顔、人物、窓、壁、ユーザ入力デバイス、テレビ、ドキュメント（例えば、本明細書におけるセキュリティ例において説明されるような旅券、運転免許証、パスポート）、ユーザの環境内の他のオブジェクト等を認識することができる。１つ以上のオブジェクト認識装置が、ある特性を伴うオブジェクトのために専門化され得る。例えば、オブジェクト認識装置７０８ａは、顔を認識するために使用され得る一方、別のオブジェクト認識装置は、ドキュメントを認識するために使用され得る。

オブジェクト認識は、種々のコンピュータビジョン技法を使用して実施され得る。例えば、ウェアラブルシステムは、外向きに面した結像システム４６４（図４に示される）によって入手された画像を分析し、場面再構成、イベント検出、ビデオ追跡、オブジェクト認識（例えば、人物またはドキュメント）、オブジェクト姿勢推定、顔認識（例えば、環境内の人物またはドキュメント上の画像から）、学習、インデックス化、運動推定、または画像分析（例えば、写真、署名、識別情報、旅行情報等のドキュメント内の印を識別する）等を実施することができる。１つ以上のコンピュータビジョンアルゴリズムが、これらのタスクを実施するために使用され得る。コンピュータビジョンアルゴリズムの非限定的例は、スケール不変特徴変換（ＳＩＦＴ）、スピードアップロバスト特徴（ＳＵＲＦ）、方向付きＦＡＳＴおよび回転ＢＲＩＥＦ（ＯＲＢ）、バイナリロバスト不変スケーラブルキーポイント（ＢＲＩＳＫ）、高速網膜キーポイント（ＦＲＥＡＫ）、Ｖｉｏｌａ−Ｊｏｎｅｓアルゴリズム、Ｅｉｇｅｎｆａｃｅｓアプローチ、Ｌｕｃａｓ−Ｋａｎａｄｅアルゴリズム、Ｈｏｒｎ−Ｓｃｈｕｎｋアルゴリズム、Ｍｅａｎ−ｓｈｉｆｔアルゴリズム、視覚的同時位置推定およびマッピング（ｖＳＬＡＭ）技法、シーケンシャルベイズ推定器（例えば、カルマンフィルタ、拡張カルマンフィルタ等）、バンドル調節、適応閾値化（および他の閾値化技法）、反復最近傍点（ＩＣＰ）、セミグローバルマッチング（ＳＧＭ）、セミグローバルブロックマッチング（ＳＧＢＭ）、キーポイントヒストグラム、種々の機械学習アルゴリズム（例えば、サポートベクトルマシン、ｋ最近傍アルゴリズム、単純ベイズ、ニューラルネットワーク（畳み込みまたは深層ニューラルネットワークを含む）、または他の教師あり／教師なしモデル等）等を含む。

オブジェクト認識は、加えて、または代替として、種々の機械学習アルゴリズムによって実施されることができる。訓練されると、機械学習アルゴリズムは、ＨＭＤによって記憶されることができる。機械学習アルゴリズムのいくつかの例は、教師ありまたは教師なし機械学習アルゴリズムを含むことができ、回帰アルゴリズム（例えば、通常の最小２乗回帰等）、インスタンスベースのアルゴリズム（例えば、学習ベクトル量子化等）、決定ツリーアルゴリズム（例えば、分類および回帰ツリー等）、ベイズアルゴリズム（例えば、単純ベイズ等）、クラスタリングアルゴリズム（例えば、ｋ−平均クラスタリング等）、関連付けルール学習アルゴリズム（例えば、アプリオリアルゴリズム等）、人工ニューラルネットワークアルゴリズム（例えば、Ｐｅｒｃｅｐｔｒｏｎ等）、深層学習アルゴリズム（例えば、ＤｅｅｐＢｏｌｔｚｍａｎｎＭａｃｈｉｎｅ、すなわち、深層ニューラルネットワーク等）、次元削減アルゴリズム（例えば、主成分分析等）、アンサンブルアルゴリズム（例えば、ＳｔａｃｋｅｄＧｎｅｒａｌｉｚａｔｉｏｎ等）、および／または他の機械学習アルゴリズムを含む。いくつかの実施形態では、個々のモデルは、個々のデータ組のためにカスタマイズされることができる。例えば、ウェアラブルデバイスは、ベースモデルを生成または記憶することができる。ベースモデルは、データタイプ（例えば、テレプレゼンスセッション内の特定のユーザ）、データ組（例えば、テレプレゼンスセッション内のユーザの取得される追加の画像の組）、条件付き状況、または他の変形例に特定の追加のモデルを生成するために、開始点として使用され得る。いくつかの実施形態では、ウェアラブルＨＭＤは、複数の技法を利用して、集約されたデータの分析のためのモデルを生成するように構成されることができる。他の技法は、事前に定義された閾値またはデータ値を使用することを含み得る。

マップデータベース内のこの情報および点の集合に基づいて、オブジェクト認識装置７０８ａ−７０８ｎは、オブジェクトを認識し、オブジェクトを意味情報で補完し、生命をオブジェクトに与え得る。例えば、オブジェクト認識装置が、点の組がドアであることを認識する場合、システムは、いくつかの意味情報を付属させ得る（例えば、ドアは、ヒンジを有し、ヒンジの周りに９０度移動を有する）。オブジェクト認識装置が、点の組が鏡であることを認識する場合、システムは、鏡が、部屋内のオブジェクトの画像を反射し得る反射表面を有するという意味情報を付属させ得る。意味情報は、本明細書に説明されるように、オブジェクトのアフォーダンスを含むことができる。例えば、意味情報は、オブジェクトの法線を含み得る。システムは、ベクトルを割り当てることができ、ベクトルの方向は、オブジェクトの法線を示す。時間と共に、マップデータベースは、システム（ローカルに常駐し得るか、または無線ネットワークを通してアクセス可能であり得る）がより多くのデータを世界から蓄積するにつれて成長する。オブジェクトが認識されると、情報は、１つ以上のウェアラブルシステムに伝送され得る。例えば、ＭＲ環境７００は、Ｃａｌｉｆｏｒｎｉａで生成している場面についての情報を含み得る。環境７００は、ＮｅｗＹｏｒｋにおける１人以上のユーザに伝送され得る。ＦＯＶカメラおよび他の入力から受信されたデータに基づいて、オブジェクト認識装置および他のソフトウェアコンポーネントは、場面が世界の異なる部分に存在し得る第２のユーザに正確に「パス」され得るように、種々の画像から収集された点をマッピングし、オブジェクトを認識すること等ができる。環境７００は、位置特定目的のために、トポロジマップも使用し得る。

図８は、認識されたオブジェクトに関連して仮想コンテンツをレンダリングする方法８００の例のプロセスフロー図である。方法８００は、仮想場面がウェアラブルシステムのユーザに提示され得る方法を説明する。ユーザは、その場面から地理的に遠隔に存在し得る。例えば、ユーザは、ＮｅｗＹｏｒｋに存在し得るが、Ｃａｌｉｆｏｒｎｉａで現在起こっている場面を視認することを欲し得るか、またはＣａｌｉｆｏｒｎｉａに存在する友人と散歩に行くことを欲し得る。

ブロック８１０では、ウェアラブルシステムは、ユーザの環境に関する入力をユーザおよび他のユーザから受信し得る。これは、種々の入力デバイスおよびマップデータベース内にすでに保有されている知識を通して達成され得る。ユーザのＦＯＶカメラ、センサ、ＧＰＳ、眼追跡等が、ブロック８１０において、情報をシステムに伝達する。システムは、ブロック８２０において、この情報に基づいて、疎点を決定し得る。疎点は、ユーザの周囲における種々のオブジェクトの向きおよび位置を表示および理解することにおいて使用され得る姿勢データ（例えば、頭部姿勢、眼姿勢、身体姿勢、または手のジェスチャ）を決定することにおいて使用されることができる。オブジェクト認識装置７０８ａ−７０８ｎは、ブロック８３０において、これらの収集された点を通してクローリングし、マップデータベースを使用して、１つ以上のオブジェクトを認識し得る。この情報は、次いで、ブロック８４０において、ユーザの個々のウェアラブルシステムに伝達され得、所望の仮想場面が、ブロック８５０において、適宜、ユーザに表示され得る。例えば、所望の仮想場面（例えば、ＣＡにおけるユーザ）が、ＮｅｗＹｏｒｋにおけるユーザの種々のオブジェクトおよび他の周囲に関連して、適切な向き、位置等において表示され得る。

図９は、ウェアラブルシステムの別の例のブロック図である。この例では、ウェアラブルシステム９００は、マップ９２０を備え、それは、世界のためのマップデータを含むマップデータベース７１０を含み得る。マップは、ウェアラブルシステム上にローカルに部分的に常駐し得、有線または無線ネットワークによってアクセス可能なネットワーク化された記憶場所（例えば、クラウドシステム内）に部分的に常駐し得る。姿勢プロセス９１０が、ウェアラブルコンピューティングアーキテクチャ（例えば、処理モジュール２６０またはコントローラ４６０）上で実行され、ウェアラブルコンピューティングハードウェアまたはユーザの位置および向きを決定するために、マップ９２０からのデータを利用し得る。姿勢データは、ユーザが、システムを体験し、その世界内で動作するにつれて、オンザフライで収集されたデータから算出され得る。データは、実または仮想環境内のオブジェクトに関する画像、センサ（概して、加速度計およびジャイロスコープコンポーネントを備えている慣性測定ユニット等）からのデータ、および表面情報を備え得る。

疎点表現は、同時位置特定およびマッピング（例えば、ＳＬＡＭまたはｖＳＬＡＭ、入力が画像／視覚のみである構成を指す）プロセスの出力であり得る。システムは、種々のコンポーネントの世界内の場所のみならず、世界が構成される内容も見出すように構成されることができる。姿勢は、多くの目標を達成する構築ブロックであり得、それは、マップにデータ投入すること、およびマップからのデータを使用することを含む。

一実施形態では、疎点位置は、それ自体で完全に適正ではないこともあり、さらなる情報が、多焦点ＡＲ、ＶＲ、またはＭＲ体験を生成するために必要とされ得る。概して、深度マップ情報を指す稠密表現が、少なくとも部分的に、この間隙を充填するために利用され得る。そのような情報は、立体視９４０と称されるプロセスから算出され得、深度情報は、三角測量または飛行時間感知等の技法を使用して決定される。画像情報およびアクティブパターン（アクティブプロジェクタを使用して生成される赤外線パターン等）、画像カメラから入手された画像、または手ジェスチャ／トーテム９５０が、立体視プロセス９４０への入力としての役割を果たし得る。有意な量の深度マップ情報が、一緒に融合され得、このうちのいくつかは、表面表現を用いて要約され得る。例えば、数学的に定義可能な表面は、ゲームエンジンのような他の処理デバイスへの効率的（例えば、大規模点群に対して）かつ要約しやすい入力であり得る。したがって、立体視プロセス（例えば、深度マップ）９４０の出力は、融合プロセス９３０において組み合わせられ得る。姿勢９１０は、同様に、この融合プロセス９３０への入力であり得、融合９３０の出力は、マッププロセス９２０にデータ投入することへの入力となる。サブ表面が、トポグラフィマッピング等において、互いに接続し、より大きい表面を形成し得、マップは、点および表面の大規模ハイブリッドとなる。

複合現実プロセス９６０における種々の側面を解決するために、種々の入力が、利用され得る。例えば、図９に描写される実施形態では、ゲームパラメータは、システムのユーザが１匹以上のモンスタと種々の場所においてモンスタバトルゲームをプレーしていること、モンスタが死んでいることまたは種々の条件下で逃げていること（ユーザがモンスタを撃つ場合等）、種々の場所における壁または他のオブジェクト等を決定するための入力であり得る。世界マップは、オブジェクトの場所に関する情報またはオブジェクトの意味情報を含み得、世界マップは、複合現実に対する別の有用な入力であることができる。世界に対する姿勢は、同様に、入力となり、ほぼあらゆる双方向システムに対して重要な役割を果たす。

ユーザからの制御または入力は、ウェアラブルシステム９００への別の入力である。本明細書に説明されるように、ユーザ入力は、視覚的入力、ジェスチャ、トーテム、オーディオ入力、感覚入力等を含むことができる。動き回るために、またはゲームをプレーするために、例えば、ユーザは、ユーザがしたいことに関してウェアラブルシステム９００に命令する必要があり得る。空間内で自ら移動することのみならず、利用され得る種々の形態のユーザ制御が、存在する。一実施形態では、トーテム（例えば、ユーザ入力デバイス）、または玩具銃等のオブジェクトが、ユーザによって保持され、システムによって追跡され得る。システムは、好ましくは、ユーザがアイテムを保持していることを把握し、ユーザがアイテムと行っている相互作用の種類を理解するように構成されるであろう（例えば、トーテムまたはオブジェクトが、銃である場合、システムは、場所および向きだけではなく、ユーザが、そのようなアクティビティがカメラのいずれかの視野内にないときでも、生じている状況を決定することを補助し得るＩＭＵ等のセンサを装備し得るトリガまたは他の感知ボタンもしくは要素をクリックしているかどうかも理解するように構成され得る。）
手のジェスチャ追跡または認識も、入力情報を提供し得る。ウェアラブルシステム９００は、ボタン押下のため、左または右、停止、握持、保持等をジェスチャするための手のジェスチャを追跡および解釈するように構成され得る。例えば、１つの構成では、ユーザは、非ゲーム環境において電子メールまたはカレンダを通フリップすること、または、別の人物またはプレーヤと「フィストバンプ」を行うことを欲し得る。ウェアラブルシステム９００は、最小量の手のジェスチャを活用するように構成され得、ジェスチャは、動的であることも、動的でないこともある。例えば、ジェスチャは、停止を示すために手を広げること、ＯＫを示すために親指を上げること、ＯＫではないことを示すために親指を下げること、または方向性コマンドを示すために左右もしくは上下に手をフリップすること等、単純な静的ジェスチャであり得る。

眼追跡は、別の入力である（例えば、ユーザが見ている場所を追跡し、ディスプレイ技術を制御し、具体的深度または範囲においてレンダリングする）。一実施形態では、眼の両眼離反運動が、三角測量を使用して決定され得、次いで、その特定の人物のために開発された両眼離反運動／遠近調節モデルを使用して、遠近調節が、決定され得る。眼追跡は、眼カメラによって実施され、眼視線（例えば、片眼または両眼の方向または向き）を決定することができる。他の技法も、例えば、眼の近傍に設置された電極による電位の測定（例えば、電気眼球図記録）等、眼追跡のために使用されることができる。

発話追跡は、単独で、または他の入力（例えば、トーテム追跡、眼追跡、ジェスチャ追跡等）と組み合わせて使用され得る別の入力であり得る。発話追跡は、単独で、または組み合わせて、発話認識、音声認識を含み得る。システム９００は、オーディオストリームを環境から受信するオーディオセンサ（例えば、マイクロホン）を含むことができる。システム９００は、発話している人物（例えば、発話がＡＲＤの装着者からか、別の人物からか、音声（例えば、環境内のラウドスピーカによって伝送される記録された音声）からか）を決定するための音声認識技術と、言われていることを決定するための発話認識技術とを組み込むことができる。ローカルデータおよび処理モジュール２６０または遠隔処理モジュール２７０は、マイクロホンからのオーディオデータ（または、例えば、ユーザによって鑑賞されているビデオストリーム等の別のストリーム内のオーディオデータ）を処理し、例えば、隠れマルコフモデル、動的時間伸縮法（ＤＴＷ）ベースの発話認識、ニューラルネットワーク、ディープフィードフォワードおよび再帰ニューラルネットワーク等の深層学習アルゴリズム、エンドツーエンド自動発話認識、機械学習アルゴリズム（図７を参照して説明される）、または、音響モデル化または言語モデル化等を使用する他のアルゴリズム等の種々の発話認識アルゴリズムを適用することによって、発話のコンテンツを認識することができる。

ローカルデータおよび処理モジュール２６０または遠隔処理モジュール２７０は、音声認識アルゴリズムも適用することができ、それは、話者がウェアラブルシステム９００のユーザ２１０か、ユーザが会話している別の人物であるか等の話者の識別を識別することができる。いくつかの例示的音声認識アルゴリズムは、頻度推定、隠れマルコフモデル、ガウス混合モデル、パターンマッチングアルゴリズム、ニューラルネットワーク、マトリクス表現、ベクトル量子化、話者ダイアライゼーション、決定ツリー、および動的時間伸縮（ＤＴＷ）技法を含むことができる。音声認識技法は、コホートモデルおよび世界モデル等のアンチ話者技法も含むことができる。スペクトル特徴は、話者特性を表すことにおいて使用され得る。ローカルデータおよび処理モジュールまたは遠隔データ処理モジュール２７０は、図７を参照して説明される種々の機械学習アルゴリズムを使用して、音声認識を実施することができる。

カメラシステムに関して、図９に示される例示的ウェアラブルシステム９００は、３つの対のカメラを含むことができる：ユーザの顔の両側に配列された相対的広ＦＯＶまたは受動ＳＬＡＭの対のカメラ、ユーザの正面に向けられ、立体視結像プロセス９４０をハンドリングすることおよびユーザの顔の正面の手のジェスチャおよびトーテム／オブジェクトの軌道を捕捉することも行うための異なる対のカメラ。ステレオプロセス９４０に対するＦＯＶカメラおよび対のカメラは、外向きに面した結像システム４６４（図４に示される）の一部であり得る。ウェアラブルシステム９００は、眼ベクトルおよび他の情報を三角測量するために、ユーザの眼の方に向けられた眼追跡カメラ（図４に示される内向きに面した結像システム４６２の一部であり得る）を含むことができる。ウェアラブルシステム９００は、テクスチャを場面の中に投入するための１つ以上のテクスチャ光プロジェクタ（赤外線（ＩＲ）プロジェクタ等）も備え得る。

図１０は、仮想ユーザインターフェースと相互作用する方法１０００の例のプロセスフロー図である。方法１０００は、本明細書に説明されるウェアラブルシステムによって行われ得る。方法１０００は、テレプレゼンスセッションにおいて方法１０００を実施し得る。

ブロック１０１０では、ウェアラブルシステムは、特定のＵＩを識別し得る。ＵＩのタイプは、ユーザによって事前に決定され得る。ウェアラブルシステムは、特定のＵＩがユーザ入力（例えば、ジェスチャ、視覚的データ、オーディオデータ、感覚データ、直接コマンド等）に基づいて投入される必要があることを識別し得る。ＵＩは、テレプレゼンスセッションに特定であり得る。ブロック１０２０では、ウェアラブルシステムは、仮想ＵＩのためのデータを生成し得る。例えば、ＵＩの境界、一般的構造、形状等に関連付けられたデータが、生成され得る。加えて、ウェアラブルシステムは、ウェアラブルシステムがユーザの物理的場所に関連してＵＩを表示し得るように、ユーザの物理的場所のマップ座標を決定し得る。例えば、ＵＩが、身体中心である場合、ウェアラブルシステムは、ユーザの物理的立ち位置、頭部姿勢、または眼姿勢の座標を決定し得、それによって、リングＵＩが、ユーザの周囲に表示され得るか、または、平面ＵＩが、壁上もしくはユーザの正面に表示され得る。テレプレゼンスコンテキストでは、環境内の別のユーザの存在の実在感覚を作るために、ＵＩは、ＵＩがユーザを包囲しているかのように表示され得る（例えば、ＵＩは、ユーザの周囲に参加者の仮想アバタを表示することができる）。ＵＩが、手中心の場合、ユーザの手のマップ座標が、決定され得る。これらのマップ点は、ＦＯＶカメラ、感覚入力を通して受信されたデータ、または任意の他のタイプの収集されたデータを通して導出され得る。

ブロック１０３０では、ウェアラブルシステムは、データをクラウドからディスプレイに送信し得るか、またはデータは、ローカルデータベースからディスプレイコンポーネントに送信され得る。ブロック１０４０では、ＵＩは、送信されたデータに基づいて、ユーザに表示される。例えば、明視野ディスプレイは、仮想ＵＩをユーザの眼の一方または両方の中に投影することができる。仮想ＵＩが生成されると、ウェアラブルシステムは、ブロック１０５０において、単に、より多くの仮想コンテンツを仮想ＵＩ上に生成するためのユーザからのコマンドを待ち得る。例えば、ＵＩは、ユーザの身体またはユーザの環境内の人物（例えば、旅行者）の身体の周囲の身体中心リングであり得る。ウェアラブルシステムは、次いで、コマンド（ジェスチャ、頭部または眼移動、音声コマンド、ユーザ入力デバイスからの入力等）を待ち得、認識される場合（ブロック１０６０）、コマンドに関連付けられた仮想コンテンツが、ユーザに表示され得る（ブロック１０７０）。

（顔モデルを生成するためのウェアラブルデバイスの例）
図１１は、例示的ウェアラブルデバイスを図示し、それは、ユーザが、ウェアラブルデバイスを着けつつある間、ユーザの顔の画像を入手することができる。ユーザがウェアラブルデバイスを着けつつある（または外しつつある）間に入手された画像は、ユーザの顔モデルを生成するために使用され得る。ウェアラブルデバイス１１５０は、図２を参照して説明される例示的頭部搭載型デバイス（ＨＭＤ）であることができる。ウェアラブルデバイス１１５０は、結像システム１１６０を含むことができ、それは、ユーザ２１０の顔を結像するように構成される。例えば、結像システム１１６０は、ユーザ２１０が、ウェアラブルデバイスを装着しつつある間、ユーザの眼１１１０の眼球周囲領域を結像するように構成される眼カメラ（例えば、眼カメラ１１６０ａおよび眼カメラ１１６０ｂ）等のセンサを含み得る。この例では、眼１１１０ｂは、図３に示される眼３０２に対応し得、眼１１１０ａは、眼３０４に対応し得る。いくつかの実装では、結像システム１１６０は、図４に示される内向きに面した結像システム４６２の実施形態であり得る。

図１１に示されるように、結像システム１１６０は、ユーザ２１０の頭部の方に向いている。眼カメラ１１６０ａは、眼１１６０ａを結像するように構成され得る一方、眼カメラ１１６０ｂは、眼１１１０ｂを結像するように構成され得る。この図では、眼カメラ１１６０ａの光学軸１１４０ａは、眼カメラ１１６０ｂの光学軸１１４０ｂと平行である。いくつかの実装では、眼カメラの一方または両方は、２つの眼カメラの光学軸がもはや平行ではないように回転され得る。例えば、２つの眼カメラは、若干、互いの方に向き得る（例えば、特に、眼カメラが、デバイス１１５０のフレームの外側縁の近傍に配置される場合）。この実装は、交差眼構成を作成し得、それが、２つのカメラ間の視野（ＦＯＶ）の重複を増加させることができ、２つの眼カメラがより近い距離における顔を結像することを可能にするので、有利であり得る。

各眼カメラは、ＦＯＶを有し得る。例えば、眼カメラ１１６０ａのためのＦＯＶは、領域１１２０ａと領域１１３０とを含むことができる。眼カメラ１１６０ｂのためのＦＯＶは、領域１１２０ｂと領域１１３０とを含むことができる。眼カメラ１１６０ａのＦＯＶと眼カメラ１１６０ｂのＦＯＶとは、領域１１３０において重複し得る。この重複ＦＯＶ１１３０により、いくつかの実施形態では、２つの眼カメラは、単一の立体視結像システムとして扱われ得る。２つの眼カメラは、ユーザの顔の３Ｄ画像を提供するために、顔が重複ＦＯＶ内にあるとき、顔の画像を撮影し得る。

いくつかの状況では、ウェアラブルデバイス１１５０が、ユーザ２１０に近すぎるとき、眼カメラは、焦点ずれし得る。例えば、ユーザに関する眼球周囲分離が、４６ｍｍ（成人男性に典型的）であり、２つの眼カメラの各々が、６６度（眼追跡のために適切）の水平ＦＯＶを有すると仮定すると、ウェアラブルデバイスは、顔とウェアラブルデバイスとの間の距離が、少なくとも約１７５ｍｍであるとき、写真を撮影し得る。多くの眼カメラのレンズのための最小焦点距離は、約１４ｍｍである。レンズが、固定焦点距離を有する場合、その焦点深度は、約６５ジオプタである必要がある。

不十分な焦点深度が存在するときに画像が取得される場合、ウェアラブルデバイス１１５０は、画像を低分解能画像として扱い得る。その結果、ウェアラブルデバイスによって生成された顔モデルは、低忠実性を有するか、または顔全体の特徴の疎表現を有し得る。そのような顔モデルは、依然として、ユーザのための眼球間分離を推測するために使用され得、それは、ウェアラブルデバイスがユーザの顔に適合しているかどうかを決定するために有用である。

（ユーザの顔を結像するための例示的トリガ）
ウェアラブルデバイス１１５０は、種々の技法を使用して、ユーザ２１０の結像を開始および停止するためのトリガを決定することができる。例えば、ウェアラブルデバイス１１５０は、ユーザが、ウェアラブルデバイス１１５０を着けつつある（または外しつつある）ことを検出すると、ユーザの顔の結像を開始するように構成され得る。有利には、画像入手を開始または停止するためのトリガは、ウェアラブルデバイス１１５０の移動に関連するデータ（例えば、そのような移動は、デバイス内のＩＭＵを使用して測定され得る）またはウェアラブルデバイス１１５０の１つ以上のカメラ（例えば、例えば、デバイスが、ユーザの顔により近くなるにつれて、またはそこからより遠く離れるにつれて、ユーザの顔の領域がより大きくなること、またはより小さくなることを検出する内向きに面した結像システム４６２または外向きに面した結像システム４６４内のカメラ）によって入手された画像に基づくことができる。したがって、ウェアラブルデバイスは、ユーザ介入なく、画像入手を自動的に開始または停止することができる。

ウェアラブルデバイス１１５０は、デバイス１１５０の移動の検出のために、図２および７を参照して説明される種々のセンサを使用することができる。例示的センサ１１７０ａ、１１７０ｂ（図１１に示される）は、デバイス１１５０のフレーム（例えば、耳掛け部）上に配置される。センサ１１７０ａ、１１７０ｂは、慣性測定ユニット、圧力センサ、近接度センサ等を備えていることができる。他の実装では、センサは、デバイス１１５０の片側（例えば、一方の耳掛け部）上のみに配置される。センサによって入手されたデータは、対応する閾値レベル（例えば、閾値加速、閾値圧力、閾値近接度）に対して分析され得る。データが閾値レベルに達する場合、ウェアラブルデバイス１１５０は、結像プロセスを開始または停止し得る。

例として、ユーザが、ウェアラブルデバイス１１５０を持ち上げると、ウェアラブルデバイス１１５０の慣性測定ユニットは、ウェアラブルデバイス１１５０の加速に関するデータを入手し得る。ウェアラブルデバイス１１５０が、加速がある閾値加速を超えることを決定する場合、ウェアラブルデバイス１１５０は、ユーザの顔の結像を開始し得る。ユーザが、ウェアラブルデバイスを、例えば、頭部上に着けると、加速は、典型的には、減少するであろう。ウェアラブルデバイス１１５０が、加速がある閾値まで低減したことを決定する場合、ウェアラブルデバイス１１５０は、ユーザの顔の画像の撮影を停止し得る。デバイス１１５０は、ユーザが、デバイスをその顔から外すときにも、ユーザの顔を結像し得る。デバイスは、加速がデバイス除去に対する典型的値に達すると、結像を開始し得、ある期間にわたって、またはデバイス１１５０がユーザの顔からある距離になるか、またはそれを超えるまで、結像を継続し得る。

別の例として、ウェアラブルデバイス１１５０は、圧力センサを有し得る。圧力センサは、眼鏡のつる（イヤホン等）またはウェアラブルデバイスの鼻パッドに位置し得る。ウェアラブルデバイス１１５０が、ユーザの顔に着けられると、圧力センサは、ウェアラブルデバイス１１５０がユーザ上にあることを示す信号を送信し得る。その結果、ウェアラブルデバイス１１５０は、ユーザの顔の画像の入手を停止し得る。

トリガは、ウェアラブルデバイス１１５０の１つ以上の結像システムによって入手されたデータに基づくこともできる。例えば、ウェアラブルデバイス１１５０は、内向きに面した結像システム４６２によって取得された画像を使用して、ユーザの顔の結像を停止すべきかどうかを決定することができる。例えば、ユーザが、デバイスを着けるにつれて、内向きに面した結像システム４６２によって入手された画像内のコンテンツは、変化し得る。しかしながら、デバイスが、ユーザの頭部上に据えられているとき、画像のコンテンツは、ユーザが、デバイスを着けつつある（または外しつつある）ときと比較して、それほど変化しないであろう。したがって、ウェアラブルデバイスは、連続画像フレームのある閾値数（例えば、３、５、１０等）またはある閾値持続時間内の画像が、実質的に同一コンテンツを有することを観察すると、記録を停止することができる（例えば、ウェアラブルデバイスが、ユーザの眼が５秒にわたって入手された画像内に連続して現れることを検出すると、ウェアラブルデバイスは、結像を停止することができる）。別の例として、ユーザが、ウェアラブルデバイスを外すにつれて、内向きに面した結像システムは、最初に、眼、次いで、眼球周囲領域、次いで、上側の顔、次いで、下側の顔、次いで、ユーザの首を観察し得る。画像のこの順序は、ユーザがデバイスを着けつつある場合、逆転されるであろう。画像のこの順序を検出することによって、デバイスは、ユーザの顔に付けられつつある（外されつつある）ことを推測することができる。ある場合、ユーザの画像は、閾値より小さくなり得る（例えば、デバイスがユーザから腕の長さにあるとき）、または完全に消失し得る（例えば、デバイスが、テーブル上に置かれ、結像システムが、もはやユーザの方に向いていないので）。ウェアラブルデバイスが、デバイスがもはやユーザ上にないことを検出すると（例えば、上で説明される結像シーケンスを検出することによって、またはユーザの顔が、閾値内で現れないか、またはそれより小さいので）、ウェアラブルデバイスは、画像の入手を停止することができる。

いくつかの状況では、ウェアラブルデバイスは、開始トリガの検出前または停止トリガの検出後、画像を持続的に入手することができる。しかし、ウェアラブルデバイスは、画像が開始トリガと停止トリガの合間に入手される場合、画像と顔モデルの生成を関連付けるように構成されることができる。一例として、ウェアラブルデバイスは、ＩＭＵから入手されたデータに基づいて、開始トリガを検出することができる（例えば、加速の増加が検出される場合）。したがって、この開始トリガ後に入手された画像は、顔モデルの生成に関連付けられるように記憶またはタグ付けされ得る。しかしながら、ウェアラブルデバイスが、停止トリガを検出すると（例えば、もはや加速が存在しない、または画像が、主に、眼球周囲領域を含むとき）、ウェアラブルデバイスは、入手された画像と顔モデルの生成の関連付けを停止するであろう。

ウェアラブルデバイス１１５０は、ウェアラブルデバイス１１５０とユーザ２１０との間の距離を測定するためのセンサを含むこともできる。例えば、センサは、音響または光学信号等の信号を放出し、受信し、信号または信号のフィードバックを使用して、距離を測定し得る。ウェアラブルデバイス１１５０は、結像システム１１６０によって入手された画像を分析することによっても、距離を決定し得る。例えば、ウェアラブルデバイス１１５０は、画像内の顔のサイズに基づいて、距離を決定し得、大サイズは、短距離を示し得る一方、小サイズは、長距離を示し得る。ウェアラブルデバイス１１５０は、距離が閾値に達するか、またはある範囲内にあるとき、ユーザの顔を結像し得る。例えば、図１１に示されるように、ウェアラブルデバイス１１３０の２つの眼カメラは、ユーザの顔が領域１１３０の内側にあるとき、ユーザの顔を立体視的に結像し得る。ユーザの顔が領域１１３０外にあるように、ユーザの顔とウェアラブルデバイス１１５０との間の距離が、十分に小さくなると、ウェアラブルデバイス１１５０は、ユーザの顔の結像を停止し得る。別の例として、ウェアラブルデバイス１１５０は、ユーザ２１０とウェアラブルデバイス１１５０との間の距離が、画像に焦点ずれを生じさせるために十分に小さくなると、ユーザの顔の結像を停止し得る。

いくつかの実装では、デバイス１１５０は、フレームに沿って配置され得る１つ以上の近接度センサ（例えば、容量近接度センサ）を備えている。ユーザの頭部が、近接度センサに接近する（または一対の近接度センサ間で移動を開始する）と、顔結像が、開始されることができ、デバイス１１５０が、ユーザの顔上にあるとき、結像は、停止することができる。

デバイス１１５０は、領域１１３０内のユーザの顔に向かって照明するように構成される光エミッタ１１７５を含むことができる。デバイス１１５０が、結像を開始すると、光は、オンにされ、顔照明を提供することができ、デバイス１１５０が、結像を停止すると、光は、オフにされることができる。いくつかの実装では、光１１７５は、内向きに面した結像システム１１６０の一部であり得る。例えば、一方または両方の眼カメラ１１６０ａおよび１１６０ｂは、光を照明することが可能であり得る。

（顔の画像を入手するための追加の例）
結像システム１１６０を使用して、顔を結像することに加え、またはその代替として、ウェアラブルデバイス１１５０は、他の技法を使用して、顔の画像を取得することができる。例えば、ウェアラブルデバイス１１５０は、ユーザが、ウェアラブルデバイスを装着しつつある間、ユーザの環境を結像するように構成される外向きに面した結像システム（例えば、図４に説明される外向きに面した結像システム４６４参照）を含み得る。ユーザは、外向きに面した結像システムのカメラをユーザの頭部の方に向け、外向きに面した結像システムを使用して、顔の画像を取得することができる。

外向きに面した結像システムは、ユーザが、鏡の近傍にいるときにも、顔の画像を入手することができる。例えば、外向きに面した結像システムは、ユーザが、鏡の正面に立っているとき、ユーザの反射された画像を入手することができる。ウェアラブルシステムは、図１２を参照して説明される顔認識アルゴリズムを使用して、鏡の存在およびユーザの頭部の反射された画像を検出することができる。顔認識アルゴリズムは、単独で、または連動試験と組み合わせて、使用され得る。連動試験では、ウェアラブルシステムは、ＩＭＵによって入手されたデータ、または外向きに面した結像システムを介して観察されたデータに基づいて、ユーザの移動を分析し、そのような移動と外向きに面した結像システムによって観察されるような反射された画像の移動とを比較する。これらの２つの測定された移動が、互いに実質的に追跡する場合、デバイスは、それらが、連動しており、ユーザを表す反射された画像であると仮定することができる。ウェアラブルシステムは、反射された画像の顔認識がユーザの顔に合致する場合、または反射された画像に関連付けられた連動がウェアラブルデバイスによって観察されるようなユーザの運動と互いに関係がある場合、ユーザに属する反射された画像を見出すことができる。鏡の存在の検出およびユーザの顔の反射された画像の分析の追加の例は、「ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙＳｙｓｔｅｍｓａｎｄＭｅｔｈｏｄｓＵｔｉｌｉｚｉｎｇＲｅｆｌｅｃｔｉｏｎｓ」と題された米国特許公開第２０１７／０２０６６９１号（その開示は、参照することによってその全体として本明細書に組み込まれる）にさらに説明される。

さらに、本明細書に説明される例は、ユーザが、ウェアラブルデバイスを着けつつある間のユーザの顔の画像を参照するが、結像は、ユーザがウェアラブルデバイスを外しつつあるときにも生じることができる。例えば、ウェアラブルシステムは、ユーザがウェアラブルデバイスを着ける前、またはユーザがウェアラブルデバイスと相互作用しつつあるとき、ユーザの識別を決定し得る。ウェアラブルシステムは、ユーザによって入力される証明情報に基づいて、または、例えば、虹彩認識または顔認識等のユーザのバイオメトリック情報に基づいて、ユーザの識別を認識することによって、ユーザの識別を決定することができる。ウェアラブルシステムは、ウェアラブルデバイスが除去される前、ウェアラブルデバイスが外されるときに入手された画像とユーザの識別を関連付けることができる。ウェアラブルシステムは、ユーザがウェアラブルデバイスを着けつつある間に入手された画像と、ユーザがウェアラブルデバイスを外しつつある間に入手された画像を組み合わせ、ユーザのための顔モデルを生成することができる。

（立体視技法を使用して顔モデルを生成する例）
図１１に示されるように、眼カメラ１１６０ａおよび眼カメラ１１６０ｂは、重複ＦＯＶ１１３０を有することができる。この重複ＦＯＶにより、２つの眼カメラは、ユーザの顔が領域１１３０内にあるとき、ユーザの顔を結像するための単一立体視システムとして扱われ得る。

ユーザの顔が、領域１１３０内にある間、眼カメラ１１６０ａおよび１１６０ｂは、ウェアラブルデバイス１１５０がユーザ２１０に接近するにつれて、ユーザの対の画像を捕捉することができる。例えば、一対の画像は、眼カメラ１１６０ａによって撮影された画像と、カメラ１１６０ｂによって同時に撮影された画像とを含み得る。一対の画像に対して、ウェアラブルデバイス１１５０は、ブロックマッチングアルゴリズム、セミグローバルマッチングアルゴリズム、セミグローバルブロックマッチングアルゴリズム、視差マップ、三角測量、深度マップ、ニューラルネットワークアルゴリズム、同時位置特定およびマッピングアルゴリズム（例えば、ＳＬＡＭまたはｖ−ＳＬＡＭ）等の立体視アルゴリズムを使用して、顔の情報を分析することができる。例えば、ウェアラブルデバイスは、カメラ１１６０ａによって入手された画像とカメラ１１６０ｂによって入手された画像との間の比較に基づいて、深度を画像内のピクセルの多くまたは全てに関連付け得る。

ウェアラブルデバイス１１５０は、同一技法を複数の対の画像に適用し、顔の情報を抽出することができる。ウェアラブルデバイス１１５０は、複数の対の画像からの情報を融合させ、顔モデルを生成することができる。ウェアラブルデバイス１１５０は、種々の技法を使用して、情報を統合することができる。例として、ウェアラブルデバイス１１５０は、点群を使用して、顔を表し得る。複数の対の画像に関連付けられた群は、反復最近傍点（ＩＣＰ）アルゴリズム等の種々のアルゴリズムを使用して、一緒に適合され得る。ウェアラブルデバイス１１５０は、クラスタ化、平均、または他の類似技法等の技法を使用して、群データ内の外れ値を除外し、顔モデルの表面を平滑化することができる。

別の例として、ウェアラブルデバイスは、キーポイントを使用して、顔を表すことができる。キーポイントは、キーポイント検出器と、スケール不変特徴変換（ＳＩＦＴ）、スピードアップロバスト特徴（ＳＵＲＦ）、方向付きＦＡＳＴおよび回転ＢＲＩＥＦ（ＯＲＢ）等の記述子アルゴリズムとによって生成された値等の抽象的キーポイントであり得る。キーポイントは、眼角、口角、眉毛等の顔に特有の特徴でもあり得る。各対の画像に対して、ウェアラブルデバイス１１５０は、眼カメラ１１６０ａによって撮影された画像内のキーポイントと、眼カメラ１１６０ｂによって撮影された画像内のキーポイントとを合致させることができる。

ウェアラブルデバイス１１５０は、例えば、キーポイントの位置変化を分析することによって、複数の対の画像をにわたる姿勢（顔の位置および向き等）の変化をさらに推測することができる。

ウェアラブルデバイス１１５０は、キーポイントを顔に関連付けられた座標フレームに変換することができる。対の画像からのデータは、座標フレームを使用して、一緒に融合され得る。座標フレームは、外れ値データを平均、集約、および除外するために使用され得る。加えて、または代替として、ウェアラブルデバイス１１５０は、バンドル調整技法を使用して、顔モデルを生成し得る。例えば、ウェアラブルデバイス１１５０は、対の画像からの全てのデータおよび対の画像をにわたる姿勢の変化に対処する単一最小化フレームワークを使用して、顔モデルを再構築することができる。

（単眼視技法を使用して顔モデルを生成する例）
立体視技法を使用して顔モデルを構築することに加え、またはその代替として、ウェアラブルデバイス１１５０は、片眼ベースで顔の画像を融合させることによって、顔モデルを構築することもできる。単眼視技法は、２つのカメラが、重複ＦＯＶ領域１１３０を有していないとき、または重複が小さいとき、有利であり得る。

例えば、カメラ１１６０ａは、ユーザが、ウェアラブルデバイス１１５０を着けつつあるとき、複数の片眼画像を撮影することができる。ウェアラブルデバイス１１５０は、ｖ−ＳＬＡＭまたは類似アルゴリズムを使用して、これらの画像に基づいて、顔モデルの一部を生成することができる。ウェアラブルデバイス１１５０は、これらの画像内のキーポイントに基づいて、カメラ１１６０ａの移動に関連付けられた軌道を計算することができる。同様に、ウェアラブルデバイス１１５０は、眼カメラ１１６０によって撮影された画像に基づいて、同一技法を使用して、顔モデルの別の部分を生成し、カメラ１１６０ｂの移動に関連付けられた軌道を計算することができる。

２つのカメラが、ウェアラブルデバイス１１５０に堅く結合され得るので、２つのカメラの相対的位置は、結像プロセスの間、変化しない。ウェアラブルデバイスは、２つのカメラおよび／または軌道の相対的位置および角度を使用して、顔モデルの２つの部分を単一モデルに組み合わせることができる。いくつかの実装では、軌道は、眼球間距離を計算するためにも使用され得る。

いくつかの実施形態では、ウェアラブルデバイス１１５０は、そのカメラが限定された視野を有し得る場合でも、１つのカメラの画像を使用して、顔モデルを生成することができる。例えば、ウェアラブルデバイスは、眼カメラ１１６０ａによって入手された画像を使用して、顔の一部に対する顔モデルを生成することができる。ユーザの顔２１０は、対称であるので、ウェアラブルデバイスは、顔の一部を軸方向に変換し、顔の他の部分を取得することができる。顔のこれらの２つの部分は、一緒に組み合わせられ、顔モデルを生成し得る。

（他の例示的実施形態）
ウェアラブルデバイスおよび他のコンピューティングシステムによって撮影された画像は、顔のためのテクスチャマップを生成するために使用され得る。顔のテクスチャマップは、皮膚色、眼色、そばかすまたはしわ等の顔特徴を含み得る。ウェアラブルデバイスは、２つの眼カメラによって撮影された画像を融合させ、顔全体の画像を生成することができる。融合された画像は、品質を向上させるために処理され得る。ウェアラブルデバイスは、品質を増加させるために、超解像技術、ラッキー結像法、または他の画像処理技法等の技法を使用することができる。加えて、または代替として、ウェアラブルデバイスは、２つの眼カメラによって撮影された画像のうちの１つを識別し、その画像を処理し、テクスチャマップを作成し得る。例えば、ウェアラブルデバイスは、眼カメラ１１６０ａ（図１１に示される）によって撮影された画像がユーザの顔全体を含むことを識別し得る。ウェアラブルデバイスは、その画像を処理し、その画像を使用して、テクスチャマップを抽出し得る。

顔モデルおよびテクスチャマップは、ウェアラブルデバイスまたは遠隔記憶場所内に記憶され得る。それらは、他のウェアラブルデバイスまたはコンピューティングシステムと共有され得る。例えば、テレプレゼンスセッション中、第１のユーザの顔モデルおよびテクスチャマップは、第２のユーザと共有され、第２のユーザの環境内の第１のユーザの存在の実在感をもたらし得る。

いくつかの実装では、顔モデルは、複数の結像セッション中にウェアラブルデバイスによって撮影された画像に基づいて、および／または他のコンピューティングシステムによって入手された画像に基づいて、生成され得る。例えば、ウェアラブルデバイスは、ユーザが、ウェアラブルデバイスを着けつつある間およびウェアラブルデバイスを外しつつある間、ユーザの顔の画像を入手し得る。ウェアラブルデバイスは、ユーザがウェアラブルデバイスを着けつつある間に入手された画像と、ユーザがウェアラブルデバイスを外しつつある間に入手された画像とに基づいて、顔モデルを生成し得る。

ウェアラブルデバイスは、入手された画像を使用して、既存の顔モデルを更新することもできる。例えば、ウェアラブルデバイスは、ユーザがウェアラブルデバイスを着けつつある間、新しいユーザの顔の画像を収集し、新しい画像に基づいて、同一ユーザのために以前に生成された顔モデルを更新することができる。

ウェアラブルデバイスは、新しい画像を使用して、ユーザのグループに一般的な顔モデルを更新することもできる。いくつかの実施形態では、異なる人口統計学的情報（年齢、性別、人種等）を伴う人々は、異なる一般的な顔モデルを有し得る。例えば、十代の女性が、ある一般的な顔モデルに関連付けられ得る一方、成人男性は、別の一般的な顔モデルに関連付けられ得る。ウェアラブルデバイスは、ユーザの人口統計情報に基づいて、ユーザのための一般的な顔モデルを選択し、ユーザがウェアラブルデバイスを着けつつある間に入手されたユーザ特定の情報で一般的な顔モデルを更新することができる。

ユーザは、例えば、異なる顔特徴およびテクスチャマップを選択することによって、顔モデルをカスタマイズすることもできる。例として、ユーザは、テレプレゼンスセッション中、空想科学小説のエイリアン等の空想上の創造物の外観を選択することができる。

これらの例は、ウェアラブルデバイスを使用して顔モデルを構築するステップを参照するが、顔モデルを生成または更新する全てのプロセスが、ウェアラブルデバイス上で実施されるために要求されるわけではない。ウェアラブルデバイスは、遠隔コンピューティングデバイスと通信し、顔モデルを生成することができる。例えば、ウェアラブルデバイスは、ユーザの顔の画像を入手し、画像（単独で、または、例えば、ユーザの人口統計情報等のユーザの他の情報と組み合わせて）を遠隔コンピューティングデバイス（例えば、サーバ等）に渡すことができる。遠隔コンピューティングデバイスは、画像を分析し、顔モデルを作成することができる。遠隔コンピューティングデバイスは、顔モデルをユーザのウェアラブルデバイスに戻すこと、または顔モデルを別のユーザのウェアラブルデバイスに渡すことができる（例えば、テレプレゼンスセッション中）。

（顔モデルを生成するための例示的プロセス）
図１２は、顔モデルを生成するための例示的プロセスを図示する。プロセス１２００は、図１１に説明されるウェアラブルデバイス１１５０によって実施され得る。ウェアラブルデバイス１１５０は、１つ以上の眼カメラおよびＩＭＵ（図２および７に説明される）等の種々のセンサを含むことができる。

ブロック１２１０では、ウェアラブルデバイスは、ウェアラブルデバイスの移動を検出することができる。移動は、ディスプレイデバイスをユーザの頭部に隣接して配置することを伴い得る（デバイスを着けるためにユーザに向かってか、またはデバイスを外すためにユーザから離れるかのいずれか）。例えば、ウェアラブルデバイスは、ＩＭＵによって入手された加速データを使用して、加速が閾値加速を超えるかどうかを決定することができる。加速が、閾値加速を超える場合、ウェアラブルデバイスは、ユーザがデバイスを着けつつある（または外しつつある）ことを決定し得る。

ブロック１２２０では、ウェアラブルデバイスは、ユーザの顔の画像を捕捉することができる。例えば、１つ以上の眼カメラの各々は、ユーザが、ウェアラブルデバイスを着けつつある間、または外しつつある間、ユーザの顔を結像し得る。眼カメラは、ビデオまたは複数の写真を通して、ユーザの顔を結像し得る。

ブロック１２３０では、ウェアラブルデバイスは、１つ以上の眼カメラによって撮影された画像を分析することができる。２つの眼カメラを使用するいくつかの実装では、２つの眼カメラが、ユーザから十分に遠く離れているとき、２つの眼カメラは、重複ＦＯＶを有し得る。故に、２つの眼カメラは、立体視結像システムとして扱われ得る。ウェアラブルデバイスは、図１１を参照して説明される立体視アルゴリズムを使用して、異なる深度における画像を分析することができる。分析の結果は、点群によって表され得る。ウェアラブルデバイスは、キーポイント検出器および記述子アルゴリズムを使用して、顔の識別可能特徴を抽出することによって、画像を分析することもできる。故に、顔は、識別可能特徴のキーポイントによって表され得る。

ブロック１２４０では、ウェアラブルデバイスは、異なる深度において撮影された画像を組み合わせ、顔モデルを生成することができる。ウェアラブルデバイスはまた、図１１を参照して説明されるように、座標フレームを使用して識別可能特徴を位置合わせすることによって、顔モデルを生成することもできる。

しかしながら、１つ以上の眼カメラは、重複ＦＯＶを有するように要求されない。故に、ブロック１２３０および１２４０では、ウェアラブルデバイスは、片眼カメラを使用して、図１１を参照して説明される単眼視技法を使用して、顔モデルを生成し得る。例えば、ウェアラブルデバイスは、各眼カメラによって別個に入手された画像を分析し、各眼カメラに対する分析の結果を組み合わせ、顔モデルを生成し得るか、またはデバイスは、片眼カメラ（例えば、ユーザの眼のうちの一方を追跡し、他方の眼の移動は、測定された眼の移動から推測される）を有し、単眼視技法を使用して、顔モデルを生成し得る。

随意のブロック１２５０では、ウェアラブルデバイスの動作パラメータが、調節され得る。動作パラメータは、デバイスによってレンダリングされる仮想画像の場所、仮想画像を生成するために使用される光プロジェクタ（例えば、画像投入デバイス４２０、４２２、４２４、４２６、４２８のうちの１つ以上のもの）の相対的位置または向き等を含み得る。動作パラメータは、画像または顔モデルの分析に基づいて調節され得る。例えば、ウェアラブルデバイスは、ユーザの顔モデルに基づいて、眼球間分離を測定することができる。ウェアラブルデバイスは、故に、各眼に対応する光プロジェクタの向きを調節し、仮想画像がユーザの眼のための好適な場所にレンダリングされるようにすることができる。

動作パラメータを調節することに加えて、またはその代替として、ウェアラブルデバイスは、例えば、ユーザの頭部上のウェアラブルデバイスの適合感を決定すること、ユーザ識別または認証を実施すること、または、画像位置合わせまたは較正を実施することを行う等の他の目的のために、画像を分析することができる。ウェアラブルデバイスの適合感を決定する例として、ウェアラブルデバイスは、ユーザの眼球周囲領域の外観を分析し、ウェアラブルデバイスが、傾けられているかどうかを決定することができる。ウェアラブルデバイスの適合感を決定するさらなる説明は、「ＰｅｒｉｏｃｕｌａｒＴｅｓｔｆｏｒＧｌａｓｓｅｓＦｉｔ」と題された米国特許出願第６２／４０４，４９３号（本開示は、参照することによってその全体として本明細書に組み込まれる）に提供される。

画像に基づいてユーザの識別を決定する例として、ウェアラブルデバイスは、種々の顔認識アルゴリズムを入手された画像に適用することによって、ユーザの顔特徴（例えば、顔形状、肌質、鼻、眼、頬の特性等）を分析することができる。いくつかの例顔認識アルゴリズムは、固有顔を使用した主成分分析、線形判別分析、Ｆｉｓｈｅｒｆａｃｅアルゴリズムを使用したエラスティックバンチグラフィックマッチング、隠れマルコフモデル、テンソル表現を使用した多重線形部分空間学習、およびニューロン動機ダイナミックリンクマッチング、または３Ｄ顔認識アルゴリズムを含む。デバイスはまた、画像を分析し、虹彩を識別し、各個人に特有のバイオメトリックシグネチャ（例えば、虹彩コード）を決定し得る。

ウェアラブルデバイスはまた、デバイスがユーザの顔に着けられつつある間、または外されつつある間にウェアラブルデバイスによって入手された画像に基づいて、画像位置合わせを実施することができる。画像位置合わせから取得される結果として生じる画像は、ユーザの顔に加え、またはその代替として、ユーザの環境の一部（例えば、ユーザの部屋またはユーザの近傍の別の人物）を含むことができる。

図１３Ａは、立体視技法を使用して顔モデルを生成する例示的プロセスを説明する。例示的プロセス１３００は、単独で、または組み合わせて、ウェアラブルデバイスまたは遠隔コンピューティングデバイス（例えば、コンピュータまたはサーバ等）によって実施されることができる。

ブロック１３１０では、ウェアラブルデバイスによって入手された顔画像が、アクセスされ得る。顔画像は、デバイスを着けつつあるとき、または外しつつあるときに同時に入手されていることもある（例えば、プロセス１２００のブロック１２１０および１２２０参照）。顔画像は、内向きに面した結像システム４６２によって異なる深度において撮影された対の画像を含む。図１１を参照すると、一対の画像は、眼カメラ１１６０ａによって撮影された第１の画像と、眼カメラ１１６０ｂによって撮影された第２の画像とを含むことができる。第１の画像および第２の画像は、ウェアラブルデバイス１１５０が実質的に同一深度にあるとき、それらのそれぞれのカメラによって撮影され得る。第１の画像および第２の画像は、実質的に同時に、それらのそれぞれのカメラによって撮影され得る。アクセスされる顔画像は、複数のセッション中に撮影された画像を含むこともできる。例えば、いくつかの顔画像は、ユーザがウェアラブルデバイスを着けつつある間、現時点の１週間前に撮影されていることもある一方、他の顔画像は、ユーザがウェアラブルデバイスを着けつつある間、現時点の１日前に撮影されていることもある。顔画像は、ウェアラブルデバイス１１５０上または遠隔データリポジトリ２８０内に記憶され得る。ウェアラブルデバイス１１５０は、顔画像が入手されるにつれて、顔画像を遠隔データリポジトリ２８０に通信することができるか、または、顔画像が入手された後、顔画像を遠隔データリポジトリ２８０にアップロードすることができる。

ブロック１３１２では、立体視アルゴリズムが、アクセスされた顔画像に適用され、深度画像を計算し得る。立体視アルゴリズムの例は、ブロックマッチングアルゴリズム、セミグローバルマッチングアルゴリズム、セミグローバルブロックマッチングアルゴリズム、視差マップ、三角測量、深度マップ、ニューラルネットワークアルゴリズム、同時位置特定およびマッピングアルゴリズム（例えば、ＳＬＡＭまたはｖ−ＳＬＡＭ）等を含む。深度画像は、３Ｄモデルであり得、それは、顔とウェアラブルデバイスとの間の距離に関連する情報を含む。例えば、立体視アルゴリズムは、１つ以上の対の画像に適用され得、結果として生じる出力は、もとの１つ以上の対の画像内の多くまたは全てのピクセルへの深度割り当てを含むことができる。

ブロック１３１４では、顔画像は、顔モデルを生成するために一緒に融合されることができる。多くの技法が、そのような融合のために使用され得る。一例として、顔は、点群（ブロック１３１２における立体算出から必然的に生じるであろう）として扱われ得る。複数のそのような群（立体視アルゴリズムの複数回の適用から生じる）は、ＩＣＰ等のアルゴリズムを使用して、互いに適合され得る。続いて、外れ値が、除外され、表面は、クラスタ化、平均によって、または別の類似技法を使用して、平滑化され得る。点群計算から生じる顔モデルは、稠密モデルであり得る。

顔は、キーポイント（例えば、疎な、異なる、および視覚的に顕著な特徴の組等）の集合としてモデル化され得るか、または、顔に特有の特定の特徴（例えば、眼角、口角、眉毛等）の識別および位置特定によってモデル化され得る。いずれの場合も、これらの特徴は、数学的組み合わせを用いて「融合」され、特徴の場所における不確実性を最小化し得る。一例として、キーポイントは、画像フレーム毎に合致させられ得、それは、姿勢変化（例えば、ユーザの頭部の位置および向きの変化）を推測することもできる。この場合、特徴またはキーポイントは、顔に固定された共通座標フレームに変換され得る。その後、同様のキーポイントは、平均または同様に集約されることができ、おそらく、ある程度の外れ値除外を含む。顔モデルは、キーポイント技法が使用される場合、疎モデルであり得る。

随意のブロック１３１６では、テクスチャマップが、顔モデルに適用され得る。テクスチャマップは、ユーザの顔画像に基づいて決定され得る。例えば、テクスチャマップは、顔画像内に現れるような肌質を含み得る。

随意のブロック１３１８では、顔モデルは、別のウェアラブルデバイスに通信され得る。例えば、ユーザが、別のユーザとのテレプレゼンスセッションの間、顔モデルは、ユーザのアバタを作成するために使用され得、顔モデルは、他のユーザのウェアラブルデバイスに渡され得る。顔モデルは、いくつかの状況では、ユーザにも通信され得る。ユーザは、例えば、髪型を適用すること、または皮膚色もしくは外観を変化させること等によって、顔モデルをさらに操作することができる。

図１３Ｂは、単眼視技法を使用して顔モデルを生成する例示的プロセスを説明する。例示的プロセス１３５０は、単独で、または組み合わせて、ウェアラブルデバイスまたは遠隔コンピューティングデバイス（例えば、コンピュータまたはサーバ等）によって実施されることができる。

ブロック１３５２では、第１の顔画像および第２の顔画像が、アクセスされることができる。顔画像は、デバイスを着けつつあるとき、または外しつつあるとき、同時に入手されていることもある（例えば、プロセス１２００のブロック１２１０および１２２０参照）。第１の顔画像は、第１の眼カメラによって入手され得、第２の顔画像は、第２の眼カメラによって入手され得る。第１の眼カメラおよび第２の眼カメラの各々は、ユーザの顔の一部を結像するように構成され得る。ユーザが、ウェアラブルデバイスを着けつつあるとき、第１の眼カメラおよび第２の眼カメラの各々は、一連の画像を撮影するように構成され得る。

ブロック１３５４では、第１の顔画像は、分析され、顔モデルの第１の部分を作成するために一緒に融合されることができる一方、ブロック１３５６では、第２の顔画像は、分析され、顔モデルの第２の部分を作成するために一緒に融合されることができる。顔モデルの第１の部分および第２の部分は、ＳＬＡＭ、ｖ−ＳＬＡＭ、またはオブジェクト認識装置７０８を参照して説明される他のマッピング技法等の種々のマッピング技法を使用して、それぞれ、第１の顔画像および第２の顔画像に基づいて、作成されることができる。

ブロック１３５８では、顔モデルの第１の部分および第２の部分は、全顔モデルを作成するために組み合わせられることができる。ウェアラブルデバイスは、単独で、またはウェアラブルデバイスの移動軌道（第１の画像および第２の画像から推測されるように）と組み合わせて、第１および第２のカメラの相対的位置および角度を使用して、顔モデルの２つの部分を単一モデルに組み合わせることができる。

例は、顔モデルを参照して説明されたが、類似技法も、身体の他の部分の仮想画像を生成するために適用されることができる（単独で、または顔と組み合わせて）。例えば、ユーザが、ウェアラブルデバイスを着けつつある間、内向きに面した結像システムによって入手された画像のうちのいくつかは、ユーザの胴体の一部、例えば、ユーザの首または上半身（例えば、肩）を含むことができる。ウェアラブルシステムは、図１１−１３Ｂに説明されるような類似アルゴリズムを使用して、ユーザの首または上半身のモデルと組み合わせて、顔モデルを生成することができる。別の例として、ユーザは、外向きに面した結像システムをユーザの顔に向け、ユーザの身体を走査することができる。そのような走査から入手された画像も、ユーザの身体のモデルを生成するために使用されることができる。ユーザの身体のモデルは、仮想アバタにおいて使用されることもできる（例えば、テレプレゼンスセッション中）。

（ウェアラブルデバイスを用いた顔モデル捕捉の追加の側面）
第１の側面では、ユーザの顔の３次元（３Ｄ）モデルを生成するための拡張現実（ＡＲ）システムであって、システムは、３Ｄ環境をユーザに表示するように構成された拡張現実デバイス（ＡＲＤ）と、第１の眼カメラおよび第２の眼カメラを備えている内向きに面した結像システムであって、結像システムは、ユーザの顔の一部を結像するように構成されている、内向きに面した結像システムと、ＡＲＤに関連付けられ、ユーザの移動を検出するように構成された慣性測定ユニット（ＩＭＵ）と、ＡＲＤに関連付けられたコンピュータプロセッサとを備え、コンピュータプロセッサは、移動の指示をＩＭＵから受信することであって、移動は、ＡＲＤをユーザの頭部上に着けることを含む、ことと、ＡＲＤがユーザの頭部に着けられている間、第１の顔の画像を第１の眼カメラから受信すること、および第２の顔の画像を第２の眼カメラから受信することと、第１の画像および第２の画像を分析することと、少なくとも部分的に第１の画像および第２の画像の分析に基づいて、顔の顔モデルを生成することとを行うようにプログラムされている、システム。

第２の側面では、ＩＭＵは、加速度計、コンパス、またはジャイロスコープのうちの１つ以上のものを備えている、側面１に記載のシステム。

第３の側面では、移動の指示は、ＡＲＤの加速の増加または閾値加速に達するＡＲＤの加速の測定を含む、側面１−２のいずれか１項に記載のシステム。

第４の側面では、第１の画像および第２の画像を分析するために、コンピュータプロセッサは、立体視アルゴリズムを使用して、第１の画像および第２の画像を３Ｄ空間内の点群に変換するようにプログラムされている、側面１−３のいずれか１項に記載のシステム。

第５の側面では、立体視アルゴリズムは、ブロックマッチングアルゴリズム、セミグローバルマッチングアルゴリズム、セミグローバルブロックマッチングアルゴリズム、またはニューラルネットワークアルゴリズムのうちの少なくとも１つを含む、側面４に記載のシステム。

第６の側面では、顔モデルを生成するために、コンピュータプロセッサは、反復最近傍点アルゴリズムを使用して、点群を組み合わせるようにさらにプログラムされている、側面５に記載のシステム。

第７の側面では、第１の画像および第２の画像を分析するために、コンピュータプロセッサは、キーポイント検出器および記述子アルゴリズムを使用して第１の画像および第２の画像内のキーポイントを識別するようにさらにプログラムされている、側面１−６のいずれか１項に記載のシステム。

第８の側面では、第１の画像および第２の画像を分析するために、コンピュータプロセッサは、少なくとも部分的に第１の画像および第２の画像に基づいて、顔の顔特徴を識別し、３Ｄ空間内の点を用いて、識別された顔特徴を記述するようにさらにプログラムされている、側面１−７のいずれか１項に記載のシステム。

第９の側面では、顔モデルを生成するために、コンピュータプロセッサは、バンドル調整アルゴリズムを使用して顔特徴またはキーポイントを組み合わせるように構成されている、側面７−８のいずれか１項に記載のシステム。

第１０の側面では、第１の画像および第２の画像を分析し、顔モデルを生成するために、コンピュータプロセッサは、少なくとも部分的に第１の画像に基づいて、顔モデルの第１の部分を生成することと、少なくとも部分的に第２の画像に基づいて、顔モデルの第２の部分を生成することと、顔モデルの第１の部分および顔モデルの第２の部分を組み合わせ、顔モデルを取得することとを行うようにプログラムされている、側面１−９のいずれか１項に記載のシステム。

第１１の側面では、第１の画像および第２の画像の分析は、視覚的同時位置特定およびマッピングアルゴリズムによって実施される、側面１０に記載のシステム。

第１２の側面では、第１の画像は、第１の眼カメラによって撮影された第１のビデオの第１のフレームを備え、第２の画像は、第２の眼カメラによって撮影されたビデオの第２のフレームを備えている、側面１−１１のいずれか１項に記載のシステム。

第１３の側面では、顔モデルを生成するために、コンピュータプロセッサは、ビデオの第１のフレームをビデオの第２のフレームと組み合わせるようにプログラムされている、側面１２に記載のシステム。

第１４の側面では、コンピュータプロセッサは、少なくとも部分的に第１の画像または第２の画像内の１つ以上の画像に基づいて、顔の顔モデルに関連付けられたテクスチャマップを生成するようにさらに構成されている、側面１−１３のいずれか１項に記載のシステム。

第１５の側面では、コンピュータプロセッサは、顔の顔モデルを別のユーザと共有するようにさらに構成されている、側面１−１４のいずれか１項に記載のシステム。

第１６の側面では、第１の眼カメラは、ユーザの左眼を結像するように構成され、第２の眼カメラは、ユーザの右眼を結像するように構成されている、側面１−１５のいずれか１項に記載のシステム。

第１７の側面では、第１の眼カメラおよび第２の眼カメラは、重複している視野を有する、側面１−１６のいずれか１項に記載のシステム。

第１８の側面では、ユーザの顔の３次元（３Ｄ）モデルを生成する方法であって、方法は、コンピュータハードウェアと、３Ｄ環境をユーザに表示するように構成されたディスプレイデバイスと、ユーザの顔の一部を結像するように構成された結像システムと、ディスプレイデバイスの移動を検出するように構成された慣性測定ユニット（ＩＭＵ）とを備えているウェアラブルデバイスの制御下で、ＩＭＵによって、ユーザの顔を結像するためのトリガを検出することであって、トリガは、ディスプレイデバイスをユーザの頭部に隣接して配置しつつあることを含む移動を含む、ことと、結像システムによって、ユーザの顔の少なくとも一部の画像を捕捉することと、結像システムによって捕捉された画像を分析することと、少なくとも部分的に画像の分析に基づいて、顔モデルを生成することとを含む、方法。

第１９の側面では、トリガを検出することは、ＩＭＵによって、ディスプレイデバイスの加速を決定することと、ディスプレイデバイスの加速を閾値加速と比較することと、加速が閾値加速を超えているという比較に応答して、トリガを検出することとを含む、請求項１８に記載の方法。

第２０の側面では、画像のうちの１つ以上のものは、顔以外のユーザの身体の一部を含む、側面１８−１９のいずれか１項に記載の方法。

第２１の側面では、画像は、結像システムの第１の眼カメラによって捕捉された第１の画像と、結像システムの第２の眼カメラによって捕捉された第２の画像とを含む、側面１８−２０のいずれか１項に記載の方法。

第２２の側面では、画像を分析することは、立体視アルゴリズムを使用して、第１の画像および第２の画像を点群に変換することを含む、側面２１に記載の方法。

第２３の側面では、立体視アルゴリズムは、ブロックマッチングアルゴリズム、セミグローバルマッチングアルゴリズム、セミグローバルブロックマッチングアルゴリズム、またはニューラルネットワークアルゴリズムのうちの少なくとも１つを含む、側面２２に記載の方法。

第２４の側面では、顔の顔モデルを生成することは、反復最近傍点アルゴリズムを使用して、点群を組み合わせることを含む、側面２３に記載の方法。

第２５の側面では、画像を分析することは、画像内のユーザの顔に関連付けられたキーポイントを識別することを含み、顔の顔モデルを生成することは、バンドル調整アルゴリズムを使用して、キーポイントを伴う顔モデルを生成することを含む、側面２２−２４のいずれか１項に記載の方法。

第２６の側面では、画像を分析することは、視覚的同時位置特定およびマッピングアルゴリズムを使用して、第１の画像を分析し、顔モデルの第１の部分を生成することと、視覚的同時位置特定およびマッピングアルゴリズムを使用して、第２の画像を分析し、顔モデルの第２の部分を生成することとを含む、側面２２−２５のいずれか１項に記載の方法。

第２７の側面では、顔の顔モデルを生成することは、顔モデルの第１の部分と顔モデルの第２の部分とを組み合わせ、顔モデルを生成することを含む、側面２６に記載の方法。

第２８の側面では、画像は、結像システムによって撮影されたビデオのフレームを含む、側面１８−２７のいずれか１項に記載の方法。

第２９の側面では、少なくとも部分的に画像に基づいて、顔モデルに関連付けられたテクスチャマップを生成することをさらに含む、側面１８−２８のいずれか１項に記載の方法。

第３０の側面では、顔モデルを生成することは、既存の顔モデルにアクセスすることと、少なくとも部分的に画像の分析に基づいて、既存の顔モデルを更新することとを含む、側面１８−２９のいずれか１項に記載の方法。

第３１の側面では、既存の顔モデルは、一般的な顔モデルまたはユーザの顔の以前に生成された顔モデルのうちの少なくとも１つを含む、側面３０に記載の方法。

第３２の側面では、顔モデルを生成することは、ウェアラブルデバイスまたは別のコンピューティングデバイスによって以前に入手された顔の画像にアクセスすることと、少なくとも部分的に結像システムによって捕捉された画像およびアクセスされた画像の分析に基づいて、顔モデルを生成することとを含む、側面１８−３１のいずれか１項に記載の方法。

第３３の側面では、顔モデルを別のディスプレイデバイスに通信することと、他のディスプレイデバイスによって、少なくとも部分的に顔モデルに基づいて、ユーザの顔に関連付けられた画像を表示することとをさらに含む、側面１８−３２のいずれか１項に記載の方法。

第３４の側面では、ユーザの顔の３次元（３Ｄ）モデルを生成するためのシステムであって、システムは、仮想コンテンツをユーザに提示するように構成された頭部搭載型ディスプレイ（ＨＭＤ）と、少なくとも1つの眼カメラを備えている内向きに面した結像システムであって、内向きに面した結像システムは、ユーザがＨＭＤを装着しつつある間、ユーザの顔の少なくとも一部を結像するように構成されている、内向きに面した結像システムと、ＨＭＤに関連付けられ、ＨＭＤの移動を検出するように構成された慣性測定ユニット（ＩＭＵ）と、ハードウェアプロセッサとを備え、ハードウェアプロセッサは、ユーザの顔の結像を開始するためのトリガを検出することであって、トリガは、ＨＭＤをユーザの頭部上に着けつつあること、またはＨＭＤをユーザの頭部から外しつつあることを含むＩＭＵによって検出される移動を含む、ことと、トリガの検出に応答して、少なくとも1つの眼カメラをアクティブにし、画像を入手することと、ＩＭＵまたは内向きに面した結像システムのうちの少なくとも１つから入手されたデータに基づいて、結像を停止するための停止条件を検出することと、立体視アルゴリズムを用いて、少なくとも1つの眼カメラによって入手された画像を分析することと、少なくとも部分的に立体視アルゴリズムの出力に基づいて、画像を融合させ、ユーザの顔の顔モデルを生成することとを行うようにプログラムされている、システム。

第３５の側面では、トリガを検出するために、ハードウェアプロセッサは、ＨＭＤの加速を決定することと、ＨＭＤの加速を閾値加速と比較することと、加速が閾値加速を超えているという比較に応答して、トリガを検出することとを行うようにプログラムされている、側面３４に記載のシステム。

第３６の側面では、停止条件は、ＨＭＤとユーザの頭部との間の距離が閾値距離に達すると、検出される、側面３４−３５のいずれか１項に記載のシステム。

第３７の側面では、立体視アルゴリズムは、ブロックマッチングアルゴリズム、セミグローバルマッチングアルゴリズム、セミグローバルブロックマッチングアルゴリズム、視差マップ、深度マップ、またはニューラルネットワークアルゴリズムのうちの少なくとも１つを含む、側面３４−３６のいずれか１項に記載のシステム。

第３８の側面では、少なくとも1つの眼カメラは、第１の眼カメラおよび第２の眼カメラを備え、第１の眼カメラおよび第２の眼カメラは、重複している視野を有する、側面３４−３７のいずれか１項に記載のシステム。

第３９の側面では、画像は、複数の対の画像を備え、各対の画像は、第１の眼カメラによって入手された第１の画像と、第２の眼カメラによって入手された第２の画像とを含む、側面３８に記載のシステム。

第４０の側面では、一対の画像は、立体視アルゴリズムを用いて、一緒に分析される、側面３９に記載のシステム。

第４１の側面では、立体視アルゴリズムの出力は、複数の対の画像内のピクセルへの深度割り当てを含む、側面３９−４０のいずれか１項に記載のシステム。

第４２の側面では、ユーザの顔は、第１の眼カメラおよび第２の眼カメラによって入手された画像の分析に基づいて、複数の点群によって表され、画像を融合させ、顔モデルを生成するために、ハードウェアプロセッサは、複数の群を互いに適合させることと、複数の群における外れ値を除外することと、クラスタ化または平均のうちの少なくとも１つによって、顔モデルの表面を平滑化することとを行うようにプログラムされている、側面３９−４１のいずれか１項に記載のシステム。

第４３の側面では、複数の群を適合させるために、ハードウェアプロセッサは、反復最近傍点アルゴリズムを複数の群に適用するようにプログラムされている、側面４２に記載のシステム。

第４４の側面では、ハードウェアプロセッサは、画像に基づいて、テクスチャマップを決定することと、テクスチャマップを顔モデルに適用することとを行うようにさらにプログラムされている、側面３４−４３のいずれか１項に記載のシステム。

第４５の側面では、ハードウェアプロセッサは、顔モデルをウェアラブルデバイスに渡すようにさらにプログラムされている、側面３４−４４のいずれか１項に記載のシステム。

第４６の側面では、画像を分析するために、ハードウェアプロセッサは、少なくとも、キーポイント検出器および記述子アルゴリズムを使用して、画像内のキーポイントを識別すること、または顔特徴を画像から識別し、３Ｄ空間内の点を用いて、識別された顔特徴を記述することを行うようにプログラムされている、側面３４−４５のいずれか１項に記載のシステム。

第４７の側面では、画像を融合させるために、ハードウェアプロセッサは、バンドル調整アルゴリズムを使用して、キーポイントまたは顔特徴を組み合わせるようにプログラムされている、側面４６に記載のシステム。

第４８の側面では、ユーザの顔の３次元（３Ｄ）モデルを生成する方法であって、方法は、ユーザの顔モデルを生成することに対する要求を受信することと、ウェアラブルデバイスの内向きに面した結像システムによって入手されたユーザの頭部の画像にアクセスすることであって、内向きに面した結像システムは、少なくとも1つの眼カメラを備えている、ことと、複数の対の画像をアクセスされた画像から識別することと、立体視アルゴリズムを複数の対の画像に適用することによって、画像を分析することと、該分析するステップから取得される出力を融合させ、顔モデルを作成することとを含む、方法。

第４９の側面では、出力は、ユーザの顔に関連付けられた深度マップを含み、深度マップは、顔とウェアラブルデバイスとの間の距離に関連する情報を含む、側面４８に記載の方法。

第５０の側面では、画像は、ウェアラブルがユーザに着けられつつあるとき、またはユーザから外されつつあるときに入手される、側面４８−４９のいずれか１項に記載の方法。

第５１の側面では、少なくとも1つの眼カメラは、第１の眼カメラおよび第２の眼カメラを備え、一対の画像は、それぞれ、第１の眼カメラおよび第２の眼カメラによって実質的に同時に入手される第１の画像および第２の画像を含む、側面４８−５０のいずれか１項に記載の方法。

第５２の側面では、画像を分析することは、複数の対の画像を点群に変換することを含む、側面４８−５１のいずれか１項に記載の方法。

第５３の側面では、出力を融合させることは、反復最近傍点アルゴリズムを使用して、点群を組み合わせることを含む、側面５２に記載の方法。

（他の考慮点）
本明細書に説明される、および／または添付される図に描写されるプロセス、方法、およびアルゴリズムの各々は、具体的かつ特定のコンピュータ命令を実行するように構成される１つ以上の物理的コンピューティングシステム、ハードウェアコンピュータプロセッサ、特定用途向け回路、および／または電子ハードウェアによって実行されるコードモジュールにおいて具現化され、それによって完全もしくは部分的に自動化され得る。例えば、コンピューティングシステムは、具体的コンピュータ命令とともにプログラムされた汎用コンピュータ（例えば、サーバ）または専用コンピュータ、専用回路等を含むことができる。コードモジュールは、実行可能プログラムにコンパイルおよびリンクされ得るか、動的リンクライブラリ内にインストールされ得るか、または、解釈されるプログラミング言語において書き込まれ得る。いくつかの実装では、特定の動作および方法が、所与の機能に特有の回路によって実施され得る。

さらに、本開示の機能性のある実装は、十分に数学的、コンピュータ的、または技術的に複雑であるので、（適切な専門化された実行可能命令を利用する）特定用途向けハードウェアまたは１つ以上の物理的コンピューティングデバイスは、例えば、関与する計算の量もしくは複雑性に起因して、または結果を実質的にリアルタイムで提供するために、機能性を実施する必要があり得る。例えば、動画またはビデオは、多くのフレームを含み、各フレームは、数百万のピクセルを有し得、具体的にプログラムされたコンピュータハードウェアは、商業的に妥当な時間量において所望の画像処理タスクまたは用途を提供するようにビデオデータを処理する必要がある。

コードモジュールまたは任意のタイプのデータは、ハードドライブ、ソリッドステートメモリ、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、光学ディスク、揮発性もしくは不揮発性記憶装置、同一物の組み合わせ、および／等を含む物理的コンピュータ記憶装置等の任意のタイプの非一過性コンピュータ読み取り可能な媒体上に記憶され得る。方法およびモジュール（またはデータ）は、無線ベースおよび有線／ケーブルベースの媒体を含む種々のコンピュータ読み取り可能な伝送媒体上で生成されたデータ信号として（例えば、搬送波または他のアナログもしくはデジタル伝搬信号の一部として）伝送され得、種々の形態（例えば、単一もしくは多重化アナログ信号の一部として、または複数の個別的なデジタルパケットもしくはフレームとして）をとり得る。開示されるプロセスまたはプロセスステップの結果は、任意のタイプの非一過性有形コンピュータ記憶装置内に持続的もしくは別様に記憶され得るか、またはコンピュータ読み取り可能な伝送媒体を介して通信され得る。

本明細書に説明される、および／または添付される図に描写されるフロー図における任意のプロセス、ブロック、状態、ステップ、もしくは機能性は、プロセスにおいて具体的機能（例えば、論理もしくは算術）またはステップを実装するための１つ以上の実行可能命令を含むコードモジュール、セグメント、またはコードの一部を潜在的に表すものとして理解されたい。種々のプロセス、ブロック、状態、ステップ、または機能性は、組み合わせられる、再配列される、追加される、削除される、修正される、または別様に本明細書に提供される例証的例から変更されることができる。いくつかの実施形態では、追加のまたは異なるコンピューティングシステムもしくはコードモジュールが、本明細書に説明される機能性のいくつかまたは全てを実施し得る。本明細書に説明される方法およびプロセスは、任意の特定のシーケンスに限定されず、それに関連するブロック、ステップ、または状態は、適切な他のシーケンスで、例えば、連続して、並行して、またはある他の様式で実施されることもできる。タスクまたはイベントが、開示される例示的実施形態に追加され、またはそれから除去され得る。さらに、本明細書に説明される実装における種々のシステムコンポーネントの分離は、例証を目的とし、全ての実装においてそのような分離を要求するものとして理解されるべきではない。説明されるプログラムコンポーネント、方法、およびシステムは、概して、単一のコンピュータ製品においてともに統合される、または複数のコンピュータ製品にパッケージ化され得ることを理解されたい。多くの実装変形例が、可能である。

プロセス、方法、およびシステムは、ネットワーク（または分散）コンピューティング環境において実装され得る。ネットワーク環境は、企業全体コンピュータネットワーク、イントラネット、ローカルエリアネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）、パーソナルエリアネットワーク（ＰＡＮ）、クラウドコンピューティングネットワーク、クラウドソースコンピューティングネットワーク、インターネット、およびワールドワイドウェブを含む。ネットワークは、有線もしくは無線ネットワーク、または任意の他のタイプの通信ネットワークであり得る。

本開示のシステムおよび方法は、それぞれ、いくつかの革新的側面を有し、そのうちのいかなるものも、本明細書に開示される望ましい属性に単独で関与しないか、またはそのために要求されない。上で説明される種々の特徴およびプロセスは、互いに独立して使用され得るか、または種々の方法で組み合わせられ得る。全ての可能な組み合わせおよび副次的組み合わせが、本開示の範囲内に該当することが意図される。本開示に説明される実装の種々の修正が、当業者に容易に明白であり得、本明細書に定義される一般原理は、本開示の精神または範囲から逸脱することなく、他の実装に適用され得る。したがって、請求項は、本明細書に示される実装または実施形態に限定されることを意図されず、本明細書に開示される本開示、原理、および新規の特徴と一貫する最も広い範囲を与えられるべきである。

別個の実装の文脈において本明細書に説明されるある特徴は、単一の実装における組み合わせにおいて実装されることもできる。逆に、単一の実装の文脈において説明される種々の特徴も、複数の実装において別個に、または任意の好適な副次的組み合わせにおいて実装されることができる。さらに、特徴がある組み合わせにおいて作用するものとして上で説明され、さらに、そのようなものとして最初に請求され得るが、請求される組み合わせからの１つ以上の特徴は、いくつかの場合では、組み合わせから削除されることができ、請求される組み合わせは、副次的組み合わせまたは副次的組み合わせの変形例を対象とし得る。いかなる単一の特徴または特徴のグループも、あらゆる実施形態に必要もしくは必須ではない。

とりわけ、「〜できる（ｃａｎ）」、「〜し得る（ｃｏｕｌｄ）」、「〜し得る（ｍｉｇｈｔ）」、「〜し得る（ｍａｙ）」、「例えば（ｅ．ｇ．）」等、本明細書で使用される条件文は、別様に具体的に記載されない限り、または使用されるような文脈内で別様に理解されない限り、概して、ある実施形態がある特徴、要素、および／またはステップを含む一方、他の実施形態がそれらを含まないことを伝えることが意図される。したがって、そのような条件文は、概して、特徴、要素、および／またはステップが、１つ以上の実施形態に対していかようにも要求されること、または１つ以上の実施形態が、著者の入力または促しの有無を問わず、これらの特徴、要素、および／またはステップが任意の特定の実施形態において含まれる、もしくは実施されるべきかどうかを決定するための論理を必然的に含むことを示唆することを意図されない。用語「〜を備えている」、「〜を含む」、「〜を有する」等は、同義語であり、非限定的方式で包括的に使用され、追加の要素、特徴、行為、動作等を除外しない。また、用語「または」は、その包括的意味において使用され（およびその排他的意味において使用されず）、したがって、例えば、要素のリストを接続するために使用されると、用語「または」は、リスト内の要素のうちの１つ、いくつか、または全てを意味する。加えて、本願および添付される請求項で使用されるような冠詞「ａ」、「ａｎ」、および「ｔｈｅ」は、別様に規定されない限り、「１つ以上の」もしくは「少なくとも１つ」を意味するように解釈されるべきである。

本明細書で使用されるように、項目のリスト「〜のうちの少なくとも１つ」を指す語句は、単一の要素を含む、それらの項目の任意の組み合わせを指す。ある例として、「Ａ、Ｂ、またはＣのうちの少なくとも１つ」は、Ａ、Ｂ、Ｃ、ＡおよびＢ、ＡおよびＣ、ＢおよびＣ、ならびにＡ、Ｂ、およびＣを網羅することが意図される。語句「Ｘ、Ｙ、およびＺのうちの少なくとも１つ」等の接続文は、別様に具体的に記載されない限り、概して、項目、用語等がＸ、Ｙ、またはＺのうちの少なくとも１つであり得ることを伝えるために使用されるような文脈で別様に理解される。したがって、そのような接続文は、概して、ある実施形態が、Ｘのうちの少なくとも１つ、Ｙのうちの少なくとも１つ、およびＺのうちの少なくとも１つがそれぞれ存在するように要求することを示唆することを意図されない。

同様に、動作は、特定の順序で図面に描写され得るが、それは、望ましい結果を達成するために、そのような動作が示される特定の順序で、もしくは連続的順序で実施される、または全ての図示される動作が実施される必要はないと認識されるべきである。さらに、図面は、フローチャートの形態で１つ以上の例示的プロセスを図式的に描写し得る。しかしながら、描写されない他の動作も、図式的に図示される例示的方法およびプロセス内に組み込まれることができる。例えば、１つ以上の追加の動作が、図示される動作のいずれかの前、その後に、それと同時に、またはその間に実施されることができる。加えて、動作は、他の実装において再配列される、または再順序付けられ得る。ある状況では、マルチタスクおよび並列処理が、有利であり得る。さらに、上で説明される実装における種々のシステムコンポーネントの分離は、全ての実装におけるそのような分離を要求するものとして理解されるべきではなく、説明されるプログラムコンポーネントおよびシステムは、概して、単一のソフトウェア製品において一緒に統合される、または複数のソフトウェア製品にパッケージ化され得ることを理解されたい。加えて、他の実装も、以下の請求項の範囲内である。いくつかの場合では、請求項に列挙されるアクションは、異なる順序で実施され、依然として、望ましい結果を達成することができる。

Claims

ユーザの顔の３次元（３Ｄ）モデルを生成するためのシステムであって、前記システムは、
仮想コンテンツをユーザに提示するように構成された頭部搭載型ディスプレイ（ＨＭＤ）と、
少なくとも１つの眼カメラを備えている内向きに面した結像システムであって、前記結像システムは、前記ユーザが前記ＨＭＤを装着しつつある間、前記ユーザの顔の少なくとも一部を結像するように構成されている、内向きに面した結像システムと、
前記ＨＭＤに関連付けられ、前記ＨＭＤの移動を検出するように構成された慣性測定ユニット（ＩＭＵ）と、
ハードウェアプロセッサと
を備え、
前記ハードウェアプロセッサは、
前記ユーザの顔の結像を開始するためのトリガを検出することであって、前記トリガは、前記ＩＭＵによって検出される移動を含み、前記移動は、前記ＨＭＤを前記ユーザの頭部上に着けつつあること、または前記ＨＭＤを前記ユーザの頭部から外しつつあることを含む、ことと、
前記トリガの検出に応答して、前記少なくとも１つの眼カメラをアクティブにし、画像を入手することと、
前記ＩＭＵまたは前記内向きに面した結像システムのうちの少なくとも１つから入手されたデータに基づいて、前記結像を停止するための停止条件を検出することと、
立体視アルゴリズムを用いて、前記少なくとも1つの眼カメラによって入手された前記画像を分析することと、
少なくとも部分的に前記立体視アルゴリズムの出力に基づいて、前記画像を融合させ、前記ユーザの顔の顔モデルを生成することと
を行うようにプログラムされている、システム。
前記トリガを検出するために、前記ハードウェアプロセッサは、
前記ＨＭＤの加速を決定することと、
前記ＨＭＤの加速を閾値加速と比較することと、
前記加速が前記閾値加速を超えているという比較に応答して、前記トリガを検出することと
を行うようにプログラムされている、請求項１に記載のシステム。
前記停止条件は、前記ＨＭＤと前記ユーザの頭部との間の距離が閾値距離に達すると、検出される、請求項１に記載のシステム。
前記立体視アルゴリズムは、ブロックマッチングアルゴリズム、セミグローバルマッチングアルゴリズム、セミグローバルブロックマッチングアルゴリズム、視差マップ、深度マップ、またはニューラルネットワークアルゴリズムのうちの少なくとも１つを含む、請求項１に記載のシステム。
前記少なくとも1つの眼カメラは、第１の眼カメラおよび第２の眼カメラを備え、前記第１の眼カメラおよび前記第２の眼カメラは、重複している視野を有する、請求項１に記載のシステム。
前記画像は、複数の対の画像を備え、各対の画像は、前記第１の眼カメラによって入手された第１の画像と、前記第２の眼カメラによって入手された第２の画像とを備えている、請求項５に記載のシステム。
一対の画像は、前記立体視アルゴリズムを用いて、一緒に分析される、請求項６に記載のシステム。
前記立体視アルゴリズムの出力は、前記複数の対の画像内のピクセルへの深度割り当てを含む、請求項６に記載のシステム。
前記ユーザの顔は、前記第１の眼カメラおよび前記第２の眼カメラによって入手された前記画像の分析に基づいて、複数の点群によって表され、前記画像を融合させ、顔モデルを生成するために、前記ハードウェアプロセッサは、
前記複数の群を互いに適合させることと、
前記複数の群における外れ値を除外することと、
クラスタ化することまたは平均することのうちの少なくとも１つによって、前記顔モデルの表面を平滑化することと
を行うようにプログラムされている、請求項６に記載のシステム。
前記複数の群を適合させるために、前記ハードウェアプロセッサは、反復最近傍点アルゴリズムを前記複数の群に適用するようにプログラムされている、請求項９に記載のシステム。
前記ハードウェアプロセッサは、
前記画像に基づいて、テクスチャマップを決定することと、
前記テクスチャマップを前記顔モデルに適用することと
を行うようにさらにプログラムされている、請求項１に記載のシステム。
前記ハードウェアプロセッサは、前記顔モデルをウェアラブルデバイスに渡すようにさらにプログラムされている、請求項１に記載のシステム。
前記画像を分析するために、前記ハードウェアプロセッサは、少なくとも、
キーポイント検出器および記述子アルゴリズムを使用して、前記画像内のキーポイントを識別すること、または、
顔特徴を前記画像から識別し、３Ｄ空間内の点を用いて前記識別された顔特徴を記述すること
を行うようにプログラムされている、請求項１に記載のシステム。
前記画像を融合させるために、前記ハードウェアプロセッサは、バンドル調整アルゴリズムを使用して前記キーポイントまたは顔特徴を組み合わせるようにプログラムされている、請求項１３に記載のシステム。
ユーザの顔の３次元（３Ｄ）モデルを生成する方法であって、前記方法は、
ユーザの顔モデルを生成することに対する要求を受信することと、
ウェアラブルデバイスの内向きに面した結像システムによって入手された前記ユーザの頭部の画像にアクセスすることであって、前記内向きに面した結像システムは、少なくとも1つの眼カメラを備えている、ことと、
複数の対の画像を前記アクセスされた画像から識別することと、
立体視アルゴリズムを前記複数の対の画像に適用することによって、前記画像を分析することと、
前記分析するステップから取得される出力を融合させ、顔モデルを作成することと
を含む、方法。
前記出力は、前記ユーザの顔に関連付けられた深度マップを含み、前記深度マップは、前記顔と前記ウェアラブルデバイスとの間の距離に関連する情報を含む、請求項１５に記載の方法。
前記画像は、前記ウェアラブルが、前記ユーザに着けられつつあるとき、または前記ユーザから外されつつあるときに入手される、請求項１５に記載の方法。
前記少なくとも1つの眼カメラは、第１の眼カメラおよび第２の眼カメラを備え、一対の画像は、それぞれ、前記第１の眼カメラおよび前記第２の眼カメラによって実質的に同時に入手される第１の画像および第２の画像を備えている、請求項１５に記載の方法。
前記画像を分析することは、前記複数の対の画像を点群に変換することを含む、請求項１５に記載の方法。
前記出力を融合させることは、反復最近傍点アルゴリズムを使用して前記点群を組み合わせることを含む、請求項１９に記載の方法。