JP7307119B2

JP7307119B2 - 完全な顔画像の眼球周囲およびオーディオ合成

Info

Publication number: JP7307119B2
Application number: JP2021072365A
Authority: JP
Inventors: ケーラーエイドリアン
Original assignee: Magic Leap Inc
Current assignee: Magic Leap Inc
Priority date: 2016-11-11
Filing date: 2021-04-22
Publication date: 2023-07-11
Anticipated expiration: 2037-11-09
Also published as: US20200226830A1; IL285010A; JP7378553B2; US20180137678A1; EP3538946B1; IL266420A; IL285010B2; KR102217797B1; EP4202840A1; KR20190084260A; US10565790B2; JP2022159436A; EP3538946A4; JP6913164B2; US11636652B2; IL285010B; US11200736B2; JP2021114324A; IL296031A; US20220130113A1

Description

（関連出願の引用）
本願は、米国仮出願第６２／４２１０３３号（２０１６年１１月１１日出願、名称「ＰＥＲＩＯＣＵＬＡＲＡＮＤＡＵＤＩＯＳＹＮＴＨＥＳＩＳＯＦＡＦＵＬＬＦＡＣＥＩＭＡＧＥ」）に対する米国特許法§１１９（ｅ）に基づく優先権を主張し、上記出願の開示は、その全体が参照により本明細書に引用される。

（分野）
本開示は、複合現実結像ならびに可視化システムに関し、より具体的には、オーディオデータおよび眼球周囲画像を使用した顔画像の合成および生成に関する。

（背景）
現代のコンピューティングおよびディスプレイ技術は、いわゆる「仮想現実」、「拡張現実」、または「複合現実」体験のためのシステムの開発を促進しており、デジタル的に再現された画像またはその一部が、現実であるように見える様式、またはそのように知覚され得る様式でユーザに提示される。仮想現実または「ＶＲ」シナリオは、典型的には、他の実際の実世界の視覚的入力に対する透過性を伴わずに、デジタルまたは仮想画像情報の提示を伴う。拡張現実または「ＡＲ」シナリオは、典型的には、ユーザの周囲の実際の世界の可視化に対する拡張としてのデジタルまたは仮想画像情報の提示を伴う。複合現実または「ＭＲ」は、物理的および仮想オブジェクトが、共存し、リアルタイムで相互作用する新しい環境を生成するための実世界と仮想世界の融合に関連する。結論から述べると、ヒトの視知覚系は、非常に複雑であり、他の仮想または実世界画像要素間における仮想画像要素の快適かつ自然のような感覚で、かつ豊かな提示を促進する、ＶＲ、ＡＲ、またはＭＲ技術の生成は、困難である。本明細書に開示されるシステムおよび方法は、ＶＲ、ＡＲ、ならびにＭＲ技術に関連する種々の課題に対処する。

頭部搭載型デバイス（ＨＭＤ）によって顔の画像を合成するためのシステムおよび方法が、開示される。ＨＭＤは、顔の一部を観察することが不可能である場合がある。本明細書に説明されるシステムおよび方法は、結像されない顔の部分の外形から観察される顔の部分の外形へのマッピングを生成することができる。ＨＭＤは、顔の一部の画像を受信し、マッピングを使用して、観察されない顔の部分の外形を決定することができる。ＨＭＤは、観察される部分と観察されない部分とを組み合わせ、完全な顔画像を合成することができる。

本明細書に説明される主題の１つ以上の実装の詳細が、付随の図面および以下の説明に記載される。他の特徴、側面、および利点は、説明、図面、ならびに請求項から明白となるであろう。本概要または以下の発明を実施するための形態のいずれも、本発明の主題の範囲を定義または限定することを主張するものではない。
本願明細書は、例えば、以下の項目も提供する。
（項目１）
発話中のユーザの顔を動画にするためのウェアラブルシステムであって、前記ウェアラブルシステムは、
ユーザの眼球周囲領域を結像するように構成された内向きに面した結像システムと、
前記ユーザの発話を受信するように構成されたオーディオセンサと、
ハードウェアプロセッサと
を備え、
前記ハードウェアプロセッサは、
前記内向きに面した結像システムを介して、前記ユーザの前記眼球周囲領域の画像を入手することと、
少なくとも部分的に前記画像に基づいて、前記ユーザの少なくとも前記眼球周囲領域の眼球周囲外形をエンコードする眼球周囲顔パラメータを生成することと、
前記オーディオセンサによって、前記ユーザによって発話されたオーディオストリームを入手することと、
前記オーディオストリームにおける音素を識別することと、
マッピングにアクセスすることであって、前記マッピングの入力は、前記音素と前記ユーザの前記眼球周囲領域の前記画像とを備え、前記マッピングの出力は、前記ユーザの少なくとも下側顔の下側顔外形をエンコードする下側顔パラメータを備え、前記下側顔は、前記ユーザによって装着されているとき、前記内向きに面した結像システムによって観察されていない、ことと、
前記マッピングを前記画像に適用し、下側顔パラメータを生成することと、
前記眼球周囲顔パラメータと前記下側顔パラメータとを組み合わせ、３次元（３Ｄ）顔モデルに関連付けられた完全な顔パラメータを生成することと、
少なくとも部分的に前記完全な顔パラメータに基づいて、前記ユーザの顔の動画を生成することと
を行うようにプログラムされている、ウェアラブルシステム。
（項目２）
前記３Ｄ顔モデルは、変形可能線形モデルを備え、前記眼球周囲顔パラメータおよび前記下側顔パラメータは、前記ユーザが発話しているときの前記顔の変形を記述する、項目１に記載のウェアラブルシステム。
（項目３）
前記完全な顔パラメータを生成するために、前記ハードウェアプロセッサは、前記３Ｄ顔モデルを更新し、前記下側顔パラメータまたは前記眼球周囲顔パラメータのうちの少なくとも１つに対する更新を反映するようにプログラムされている、項目２に記載のウェアラブルシステム。
（項目４）
前記マッピングの前記入力は、眼特定の情報、身体移動、または心拍数のうちの少なくとも１つをさらに含む、項目１に記載のウェアラブルシステム。
（項目５）
前記眼特定の情報は、前記ユーザの眼姿勢、瞳孔拡張状態、眼色、または眼瞼状態のうちの少なくとも１つを含む、項目４に記載のウェアラブルシステム。
（項目６）
前記下側顔パラメータは、前記オーディオストリームにおける音素を視覚的に記述する口形素をエンコードする、項目１に記載のウェアラブルシステム。
（項目７）
前記ハードウェアプロセッサは、少なくとも部分的に前記眼球周囲領域の前記画像に基づいて、前記ユーザの顔の皮膚テクスチャを推測するようにさらにプログラムされ、前記ユーザの顔の前記動画は、前記顔の前記皮膚テクスチャを組み込んでいる、項目１に記載のウェアラブルシステム。
（項目８）
前記内向きに面した結像システムは、眼カメラを備え、前記内向きに面した結像システムによって入手された前記眼球周囲領域の前記画像は、第１の眼のための前記眼球周囲領域の画像を備えている、項目１に記載のウェアラブルシステム。
（項目９）
前記完全な顔パラメータを生成するために、前記ハードウェアプロセッサは、
前記内向きに面した結像システムによって入手された前記眼球周囲領域の前記画像に基づいて、第２の眼のための眼球周囲顔パラメータを決定することと、
前記第２の眼のための前記眼球周囲顔パラメータを前記完全な顔パラメータの中に組み込むことと
を行うようにプログラムされている、項目８に記載のウェアラブルシステム。
（項目１０）
前記完全な顔パラメータが適用され、前記ユーザの顔の前記動画を生成するようにするために、前記ハードウェアプロセッサは、命令を複合現実ディスプレイを備えているウェアラブルデバイスに通信するようにプログラムされておりており、前記命令は、前記完全な顔パラメータが適用され、前記３Ｄ顔モデルを中立位置から変動させるようにする、項目１に記載のウェアラブルシステム。
（項目１１）
発話中のユーザの顔を動画にする方法であって、前記方法は、
ユーザの眼球周囲領域を結像するように構成された内向きに面した結像システムによって入手された画像にアクセスすることと、
少なくとも部分的に前記画像に基づいて、前記ユーザの少なくとも前記眼球周囲領域の眼球周囲外形をエンコードする眼球周囲顔パラメータを決定することと、
オーディオセンサによって入手されたユーザによって発話されたオーディオストリームにアクセスすることと、
前記オーディオストリームにおける音素を識別することと、
マッピングにアクセスすることであって、前記マッピングの入力は、前記音素と前記ユーザの前記眼球周囲領域の前記画像とを備え、前記マッピングの出力は、前記ユーザの少なくとも下側顔の下側顔外形をエンコードする下側顔パラメータを備えている、ことと、
前記マッピングを前記画像に適用し、下側顔パラメータを生成することと、
前記眼球周囲顔パラメータと前記下側顔パラメータとを組み合わせ、３次元（３Ｄ）顔モデルに関連付けられた完全な顔パラメータを生成することと、
少なくとも部分的に前記完全な顔パラメータに基づいて、完全な顔画像を生成することと
を含む、方法。
（項目１２）
前記３Ｄ顔モデルは、変形可能線形モデルを備え、前記眼球周囲顔パラメータおよび前記下側顔パラメータは、前記ユーザが発話しているときの前記顔の変形を記述する、項目１１に記載の方法。
（項目１３）
前記完全な顔パラメータを生成するために、前記ハードウェアプロセッサは、前記３Ｄ顔モデルを更新し、前記下側顔パラメータまたは前記眼球周囲顔パラメータのうちの少なくとも１つに対する更新を反映するようにプログラムされている、項目１２に記載の方法。
（項目１４）
前記完全な顔パラメータは、前記ユーザの顔に関連付けられた動画を決定するために、眼特定の情報と組み合わせられる、項目１１に記載の方法。
（項目１５）
前記眼特定の情報は、前記ユーザの眼姿勢、瞳孔拡張状態、眼色、または眼瞼状態のうちの少なくとも１つを含む、項目１４に記載の方法。
（項目１６）
前記下側顔パラメータは、前記オーディオストリームにおける音素を視覚的に記述する口形素をエンコードする、項目１１に記載の方法。
（項目１７）
前記完全な顔画像は、前記ユーザの皮膚テクスチャをさらに組み込んでおり、前記ユーザの前記皮膚テクスチャは、少なくとも部分的に前記内向きに面した結像システムによって入手された前記画像に基づいて決定される、項目１１に記載の方法。
（項目１８）
前記マッピングは、眼球周囲顔パラメータが下側顔パラメータに関連付けられている可能性を含み、前記下側顔パラメータは、それらが閾値基準に達していることの決定に応答して、前記完全な顔画像を生成するために選択される、項目１１に記載の方法。
（項目１９）
前記画像は、静止画像またはビデオフレームのうちの少なくとも１つを含む、項目１１に記載の方法。
（項目２０）
前記完全な顔画像を複合現実環境内にレンダリングするように頭部搭載型ディスプレイに命令することをさらに含む、項目１１に記載の方法。

図１は、人物によって視認されるある仮想現実オブジェクトおよびある物理的オブジェクトを伴う複合現実シナリオの例証を描写する。図２は、ウェアラブルシステムの例を図式的に図示する。図３は、複数の深度平面を使用して３次元画像をシミュレートするためのアプローチの側面を図式的に図示する。図４は、画像情報をユーザに出力するための導波管スタックの例を図式的に図示する。図５は、導波管によって出力され得る例示的出射ビームを示す。図６は、導波管装置と、光を導波管装置へまたはそこから光学的に結合するための光学結合器サブシステムと、多焦点立体ディスプレイ、画像、または明視野の生成において使用される制御サブシステムとを含む光学システムを示す、概略図である。図７は、ウェアラブルシステムの例のブロック図である。図８は、認識されるオブジェクトに関連して仮想コンテンツをレンダリングする方法の例のプロセスフロー図である。図９は、ウェアラブルシステムの別の例のブロック図である。図１０は、仮想ユーザインターフェースと相互作用する方法の例のプロセスフロー図である。図１１は、ユーザの顔の画像を入手することができる例示的ウェアラブルデバイスを図示する。図１２は、片眼に関する眼球周囲領域の例示的画像を図示する。図１３は、機械学習導出モデルを訓練する例を図示し、それは、眼球周囲領域内の外形およびオーディオ入力と下側顔内の外形を互いに関係づけることができる。図１４は、顔の一部がウェアラブルデバイスによって観察されないとき、顔の画像を生成する例を図示する。図１５Ａは、眼球周囲画像および／またはオーディオ入力内の音から下側顔の画像へのマッピングを生成する例示的プロセスを説明する。図１５Ｂは、マッピングを訓練する別の例示的プロセスを図示し、それは、入力としての眼球周囲領域内の顔パラメータおよび／または音素および出力としての下側顔パラメータを有する。図１６Ａは、顔の一部がウェアラブルデバイスによって観察されないとき、完全な顔画像を合成する例示的プロセスを説明する。図１６Ｂは、第１のユーザの完全な顔画像を第２のユーザのウェアラブルデバイスに通信する例を図示する。

図面全体を通して、参照番号は、参照される要素間の対応を示すために再使用され得る。図面は、本明細書に説明される例示的実施形態を図示するために提供され、本開示の範囲を限定することを意図されない。
（概要）

ＡＲ／ＶＲ／ＭＲ環境では、ウェアラブルデバイス（頭部搭載型デバイス等）は、仮想画像を３次元（３Ｄ）空間内に提示することができる。仮想画像は、ユーザの３Ｄ仮想アバタを含み得る。３Ｄ仮想アバタは、ユーザの顔の画像を使用して生成され得る。しかしながら、ユーザが、ウェアラブルデバイスを装着しているとき、顔の一部（例えば、眼を包囲する眼球周囲領域）は、ウェアラブルデバイスによって塞がれ得る。例えば、画像が、外部カメラまたは外向きに面した結像システムを使用して取得される場合、眼球周囲領域の移動（例えば、眼または皮膚移動）は、結像されないこともある。別の例として、画像が、内向きに面した眼カメラを使用して取得される場合、下側顔領域は、眼カメラによって結像されないこともある。その結果、ユーザがウェアラブルデバイスを装着している間、ユーザの顔の表情（ユーザが発話しているとき等）を含むようにユーザの顔の３Ｄアバタを更新することは困難であり得る。

本明細書に説明されるシステムおよび方法は、カメラによって観察されることができる顔の領域の画像を使用して、顔の観察できない領域の外観を推測することによって、少なくともこの課題を解決することを対象とする。ウェアラブルデバイスは、結像される領域と、推測される領域とを使用して、完全な顔画像を合成することができる。ウェアラブルデバイスは、眼球周囲領域の観察可能な外形（ｃｏｎｆｏｒｍａｔｉｏｎ）と下側顔の推測される外形との間のマッピングを使用して、観察できない領域を推測することができる。マッピングは、ユーザによって発せられた音（例えば、ユーザの発話中の音素）、音に対応する顔外形（例えば、音素に関連付けられた口形素）、ユーザの眼球周囲領域の画像、または下側顔の観察される画像等の入力を、単独で、または組み合わせて使用して生成され得る。外形は、顔モデル内の顔パラメータ、ユーザの顔の特徴、またはユーザの顔のために生成された画像等を含み得る。ユーザが発話している間、ウェアラブルデバイスは、オーディオ出力を感知し、音素を識別し、オーディオ入力内の感知される音素から対応する口形素へのマッピングを使用して口形素を推測することができる。

観察される画像は、推測される画像と組み合わせられ、完全な顔画像を生成し得る。完全な顔画像は、ＡＲ／ＶＲ／ＭＲ体験において、ユーザの仮想アバタを動的に更新するために使用され得る。顔のための変形可能線形モデル（ＤＬＭ）（または他の形状またはテクスチャモデル）またはニューラルネットワークが、マッピングを決定すること、訓練すること、または適用することを行うために使用されることができる。

（ウェアラブルシステムの３Ｄディスプレイの例）
ウェアラブルシステム（本明細書では、拡張現実（ＡＲ）システムとも称される）は、２Ｄまたは３Ｄ仮想画像をユーザに提示するために構成されることができる。画像は、組み合わせ等における静止画像、ビデオのフレーム、またはビデオであり得る。ウェアラブルシステムの少なくとも一部は、ユーザ相互作用のために、単独で、または組み合わせて、ＶＲ、ＡＲ、またはＭＲ環境を提示し得るウェアラブルデバイス上に実装されることができる。ウェアラブルデバイスは、頭部搭載型デバイス（ＨＭＤ）であることができ、それは、ＡＲデバイス（ＡＲＤ）と同義的に使用される。さらに、本開示の目的のために、用語「ＡＲ」は、用語「ＭＲ」と同義的に使用される。

図１は、人物によって視認されるある仮想現実オブジェクトおよびある物理的オブジェクトを伴う複合現実シナリオの例証を描写する。図１では、ＭＲ場面１００が、描写され、ＭＲ技術のユーザには、人々、木々、背景における建物、およびコンクリートプラットフォーム１２０を特徴とする実世界公園状設定１１０を見る。これらのアイテムに加え、ＭＲ技術のユーザは、実世界プラットフォーム１２０上に立っているロボット像１３０と、マルハナバチの擬人化のように見える、飛んでいる漫画のようなアバタキャラクタ１４０とも「見えている」と知覚するが、これらの要素は、実世界には存在しない。

３Ｄディスプレイが、真の深度感覚、より具体的には、表面深度のシミュレートされた感覚を生成するために、ディスプレイの視野内の各点のために、その仮想深度に対応する遠近調節応答を生成することが望ましくあり得る。表示点に対する遠近調節応答が、収束および立体視の両眼の深度キューによって決定されるようなその点の仮想深度に対応しない場合、ヒトの眼は、遠近調節衝突を体験し、不安定な結像、有害な眼精疲労、頭痛をもたらし、遠近調節情報がない場合、表面深度のほぼ完全な喪失をもたらし得る。

ＶＲ、ＡＲ、およびＭＲ体験は、複数の深度平面に対応する画像が視認者に提供されるディスプレイを有する、ディスプレイシステムによって提供されることができる。画像は、各深度平面に対して異なり得（例えば、場面またはオブジェクトの若干異なる提示を提供する）、画像は、視認者の眼によって別個に焦点を合わせられ、それによって、異なる深度平面上に位置する場面のための異なる画像特徴に焦点を合わせるために要求される眼の遠近調節に基づく深度キュー、または、焦点外れの異なる深度平面上の異なる画像特徴を観察することに基づく深度キューをユーザに提供するために役立ち得る。本明細書のいずれかに議論されるように、そのような深度キューは、信用できる深度の知覚を提供する。

図２は、ウェアラブルシステム２００の例を図示し、それは、ＡＲ／ＶＲ／ＭＲ場面を提供するように構成されることができる。ウェアラブルシステム２００は、ＡＲシステム２００とも称され得る。ウェアラブルシステム２００は、ディスプレイ２２０と、ディスプレイ２２０の機能をサポートするための種々の機械的および電子的なモジュールおよびシステムとを含む。ディスプレイ２２０は、ユーザ、装着者、または視認者２１０によって装着可能であるフレーム２３０に結合され得る。ディスプレイ２２０は、ユーザ２１０の眼の正面に位置付けられることができる。ディスプレイ２２０は、ＡＲ／ＶＲ／ＭＲコンテンツをユーザに提示するができる。ディスプレイ２２０は、ユーザの頭部上に装着される頭部搭載型ディスプレイを備えていることができる。頭部搭載型ディスプレイは、ヘッドアップディスプレイ（ＨＵＤ）であり得、それは、仮想情報をユーザの視野内の所定の場所に表示することができる（ＨＵＤを通して知覚されるように）。頭部搭載型ディスプレイは、空間拡張現実（ＳＡＲ）ディスプレイもあり得、それは、仮想オブジェクトが実世界オブジェクトと同様に現れるように、視点が定まった様式において（例えば、ユーザの視点から）３Ｄオブジェクトをユーザの環境の中にレンダリングすることができる。仮想オブジェクトをレンダリングするために使用される視点は、レンダリング視点とも称され得る。

いくつかの実施形態では、スピーカ２４０が、フレーム２３０に結合され、ユーザの外耳道に隣接して位置付けられる（いくつかの実施形態では、示されない別のスピーカが、ユーザの他方の外耳道に隣接して位置付けられ、ステレオ／成形可能音響制御を提供する）。ディスプレイ２２０は、環境からオーディオストリームを検出し、周囲音を捕捉するために、オーディオセンサ（例えば、マイクロホン）２３２を含むことができる。いくつかの実施形態では、示されない１つ以上の他のオーディオセンサが、ステレオ音受信を提供するために位置付けられる。ステレオ音受信は、音源の場所を決定するために使用されることができる。ウェアラブルシステム２００は、音声または発話認識をオーディオストリームに実施することができる。

ウェアラブルシステム２００は、ユーザの周囲の環境内の世界を観察する外向きに面した結像システム４６４（図４に示される）を含むことができる。ウェアラブルシステム２００は、ユーザの眼移動を追跡することができる内向きに面した結像システム４６２（図４に示される）も含むことができる。内向きに面した結像システムは、一方の眼の移動または両方の眼の移動のいずれかを追跡することができる。内向きに面した結像システム４６２は、フレーム２３０に取り付けられ得、処理モジュール２６０または２７０と電気通信し得、処理モジュールは、内向きに面した結像システムによって入手された画像情報を処理し、例えば、ユーザ２１０の眼の瞳孔直径もしくは向き、眼の移動、または眼姿勢を決定し得る。内向きに面した結像システム４６２は、１つ以上のカメラを含み得る。例えば、少なくとも１つのカメラは、各眼を結像するために使用され得る。カメラによって入手された画像は、各眼のための瞳孔サイズまたは眼姿勢を別個に決定し、それによって、各眼への画像情報の提示がその眼に対して動的に調整されることを可能にするために使用され得る。別の例として、１つのみの眼の瞳孔直径または向きが、決定され（例えば、その眼の画像を入手するように構成されるカメラのために入手された画像に基づいて）、この眼のために決定された眼特徴は、ユーザ２１０の他の眼のためにも同様であると仮定される。

例として、ウェアラブルシステム２００は、外向きに面した結像システム４６４または内向きに面した結像システム４６２を使用して、ユーザの姿勢の画像を入手することができる。画像は、静止画像、ビデオのフレーム、またはビデオであり得る。

ディスプレイ２２０は、有線導線または無線接続等によって、ローカルデータ処理モジュール２６０に動作可能に結合されることができ（２５０）、ローカルデータ処理モジュール２６０は、フレーム２３０に固定して取り付けられる構成、ユーザによって装着されるヘルメットもしくは帽子に固定して取り付けられる構成、ヘッドホンに内蔵される構成、または別様にユーザ２１０に除去可能に取り付けられる構成（例えば、リュック式構成において、ベルト結合式構成において）等、種々の構成において搭載され得る。

ローカル処理およびデータモジュール２６０は、ハードウェアプロセッサおよびに不揮発性メモリ（例えば、フラッシュメモリ）等のデジタルメモリを備え得、その両方は、データの処理、キャッシュ、および記憶を補助するために利用され得る。データは、ａ）画像捕捉デバイス（例えば、内向きに面した結像システムおよび／または外向きに面した結像システム内のカメラ）、オーディオセンサ（例えば、マイクロホン）、慣性測定ユニット（ＩＭＵ）、加速度計、コンパス、全地球測位システム（ＧＰＳ）ユニット、無線デバイス、もしくはジャイロスコープ等の（例えば、フレーム２３０に動作可能に結合される、または別様にユーザ２１０に取り付けられ得る）センサから捕捉されるデータ、；または、ｂ）場合によっては処理もしくは読み出し後にディスプレイ２２０への通過のために、遠隔処理モジュール２７０もしくは遠隔データリポジトリ２８０を使用して入手もしくは処理されるデータを含み得る。ローカル処理およびデータモジュール２６０は、これらの遠隔モジュールがローカル処理およびデータモジュール２６０へのリソースとして利用可能であるように、有線または無線通信リンク等を介して、通信リンク２６２または２６４によって遠隔処理モジュール２７０または遠隔データリポジトリ２８０に動作可能に結合され得る。加えて、遠隔処理モジュール２８０および遠隔データリポジトリ２８０は、互いに動作可能に結合され得る。

いくつかの実施形態では、遠隔処理モジュール２７０は、データまたは画像情報を分析および処理するように構成される１つ以上のプロセッサを備え得る。いくつかの実施形態では、遠隔データリポジトリ２８０は、デジタルデータ記憶設備を備え得、それは、インターネットまたは「クラウド」リソース構成における他のネットワーキング構成を通して利用可能であり得る。いくつかの実施形態では、全てのデータが、記憶され、全ての算出が、ローカル処理およびデータモジュールにおいて実施され、遠隔モジュールからの完全に自律的な使用を可能にする。

ヒト視覚系は、複雑であり、深度の現実的知覚を提供することは、困難である。理論によって限定されるわけではないが、オブジェクトの視認者は、両眼離反運動と遠近調節との組み合わせによって、オブジェクトを３次元として知覚し得ると考えられる。互いに対する２つの眼の両眼離反運動（すなわち、瞳孔が、互いに向かって、またはそこから離れるように移動し、眼の視線を収束させ、オブジェクトを固視するような瞳孔の回転）は、眼の水晶体の焦点合わせ（または「遠近調節」）に緊密に関連付けられる。通常条件下、焦点を１つのオブジェクトから異なる距離における別のオブジェクトに変化させるために、眼のレンズの焦点を変化させること、または眼を遠近調節することは、「遠近調節－両眼離反運動反射」として知られる関係下、同一距離に対して両眼離反運動における整合変化を自動的に生じさせるであろう。同様に、両眼離反運動の変化は、通常条件下、遠近調節の整合変化を誘起するであろう。遠近調節と両眼離反運動との間のより良好な整合を提供するディスプレイシステムは、３次元画像のより現実的かつ快適なシミュレーションを形成し得る。

図３は、複数の深度平面を使用して３次元画像をシミュレートするためのアプローチの側面を図示する。図３を参照すると、ｚ－軸上の眼３０２および３０４からの種々の距離におけるオブジェクトは、それらのオブジェクトが、焦点が合っているように、眼３０２および３０４によって遠近調節される。眼３０２および３０４は、特定の遠近調節された状態をとり、オブジェクトをｚ－軸に沿った異なる距離に焦点を合わせる。その結果、特定の遠近調節された状態は、特定の深度平面におけるオブジェクトまたはオブジェクトの一部が、眼がその深度平面に対して遠近調節された状態にあるとき、焦点が合っているように、関連付けられた焦点距離を有する深度平面３０６のうちの特定の１つに関連付けられていると言え得る。いくつかの実施形態では、３次元画像は、眼３０２および３０４の各々のために画像の異なる提示を提供することによってシミュレートされ得、深度平面の各々に対応する画像の異なる提示を提供することによってもシミュレートされ得る。例証を明確にするために、別個であるように示されるが、眼３０２および３０４の視野は、例えば、ｚ－軸に沿った距離が増加するにつれて、重複し得ることを理解されたい。加えて、例証を容易にするために、平坦であるように示されるが、深度平面の輪郭は、深度平面内の全ての特徴が特定の遠近調節された状態における眼と焦点が合っているように、物理的空間内で湾曲され得ることを理解されたい。理論によって限定されるわけではないが、ヒトの眼は、典型的には、有限数の深度平面を解釈し、深度知覚を提供することができると考えられる。その結果、知覚された深度の高度に真実味のあるシミュレーションが、眼にこれらの限定数の深度平面の各々に対応する画像の異なる提示を提供することによって達成され得る。

（導波管スタックアセンブリ）
図４は、画像情報をユーザに出力するための導波管スタックの例を図示する。ウェアラブルシステム４００は、複数の導波管４３２ｂ、４３４ｂ、４３６ｂ、４３８ｂ、４４００ｂを使用して、３次元知覚を眼／脳に提供するために利用され得る導波管のスタックまたはスタックされた導波管アセンブリ４８０を含む。いくつかの実施形態では、ウェアラブルシステム４００は、図２のウェアラブルシステム２００に対応し得、図４は、そのウェアラブルシステム２００のいくつかの部分をより詳細に図式的に示す。例えば、いくつかの実施形態では、導波管アセンブリ４８０は、図２のディスプレイ２２０の中に統合され得る。

図４を継続して参照すると、導波管アセンブリ４８０は、複数の特徴４５８、４５６、４５４、４５２も導波管の間に含み得る。いくつかの実施形態では、特徴４５８、４５６、４５４、４５２は、レンズであり得る。他の実施形態では、特徴４５８、４５６、４５４、４５２は、レンズではないこともある。むしろ、それらは、単に、スペーサであり得る（例えば、空気間隙を形成するためのクラッディング層または構造）。

導波管４３２ｂ、４３４ｂ、４３６ｂ、４３８ｂ、４４０ｂまたは複数のレンズ４５８、４５６、４５４、４５２は、種々のレベルの波面曲率または光線発散を用いて画像情報を眼に送信するように構成され得る。各導波管レベルは、特定の深度平面に関連付けられ得、その深度平面に対応する画像情報を出力するように構成され得る。画像投入デバイス４２０、４２２、４２４、４２６、４２８は、導波管４４０ｂ、４３８ｂ、４３６ｂ、４３４ｂ、４３２ｂの中に画像情報を投入するために利用され得、それらの各々は、眼４１０（図３における眼３０４に対応し得る）に向かって出力するために、各それぞれの導波管にわたり入射光を分配するように構成され得る。光は、画像投入デバイス４２０、４２２、４２４、４２６、４２８の出力表面から出射し、導波管４４０ｂ、４３８ｂ、４３６ｂ、４３４ｂ、４３２ｂの対応する入力縁の中に投入される。いくつかの実施形態では、光の単一ビーム（例えば、コリメートされたビーム）が各導波管の中に投入され、特定の導波管に関連付けられた深度平面に対応する特定の角度（および発散量）において眼４１０に向けられるクローン化されたコリメートビームの場全体を出力し得る。

いくつかの実施形態では、画像投入デバイス４２０、４２２、４２４、４２６、４２８は、各々は、対応する導波管４４０ｂ、４３８ｂ、４３６ｂ、４３４ｂ、４３２ｂの中への投入のための画像情報をそれぞれ生成する個別的なディスプレイである。いくつかの他の実施形態では、画像投入デバイス４２０、４２２、４２４、４２６、４２８は、例えば、画像情報を１つ以上の光学導管（光ファイバケーブル等）を介して、画像投入デバイス４２０、４２２、４２４、４２６、４２８の各々に送り得る単一の多重化されたディスプレイの出力端である。

コントローラ４６０が、スタックされた導波管アセンブリ４８０および画像投入デバイス４２０、４２２、４２４、４２６、４２８の動作を制御する。コントローラ４６０は、導波管４４０ｂ、４３８ｂ、４３６ｂ、４３４ｂ、４３２ｂへの画像情報のタイミングおよび提供を調整するプログラミング（例えば、非一過性コンピュータ読み取り可能な媒体内の命令）を含む。いくつかの実施形態では、コントローラ４６０は、単一一体型デバイスまたは有線もしくは無線通信チャネルによって接続される分散型システムであり得る。コントローラ４６０は、いくつかの実施形態では、処理モジュール２６０または２７０（図２に図示される）の一部であり得る。

導波管４４０ｂ、４３８ｂ、４３６ｂ、４３４ｂ、４３２ｂは、全内部反射（ＴＩＲ）によって各それぞれの導波管内で光を伝搬するように構成され得る。導波管４４０ｂ、４３８ｂ、４３６ｂ、４３４ｂ、４３２ｂの各々は、主要な上部および底部表面ならびにそれらの主要上部表面と底部表面との間に延びている縁を伴う平面であるか、または別の形状（例えば、湾曲）を有し得る。図示される構成では、導波管４４０ｂ、４３８ｂ、４３６ｂ、４３４ｂ、４３２ｂの各々は、光抽出光学要素４４０ａ、４３８ａ、４３６ａ、４３４ａ、４３２ａを含み得、光抽出光学要素は、光を向け直し、各それぞれの導波管内で伝搬し、導波管から画像情報を眼４１０に出力することによって、光を導波管から抽出するように構成される。抽出された光は、外部結合光とも称され得、光抽出光学要素は、外部結合光学要素とも称され得る。抽出される光のビームは、導波管によって、導波管内で伝搬する光が光を向け直す要素に衝打する場所において出力される。光抽出光学要素（４４０ａ、４３８ａ、４３６ａ、４３４ａ、４３２ａ）は、例えば、反射または回折光学特徴であり得る。説明を容易にし、図面を明確にするために、導波管４４０ｂ、４３８ｂ、４３６ｂ、４３４ｂ、４３２ｂの底部主要表面に配置されて図示されるが、いくつかの実施形態では、光抽出光学要素４４０ａ、４３８ａ、４３６ａ、４３４ａ、４３２ａは、上部もしくは底部主要表面に配置され得るか、または導波管４４０ｂ、４３８ｂ、４３６ｂ、４３４ｂ、４３２ｂの容積内に直接配置され得る。いくつかの実施形態では、光抽出光学要素４４０ａ、４３８ａ、４３６ａ、４３４ａ、４３２ａは、透明基板に取り付けられ、導波管４４０ｂ、４３８ｂ、４３６ｂ、４３４ｂ、４３２ｂを形成する材料の層内に形成され得る。いくつかの他の実施形態では、導波管４４０ｂ、４３８ｂ、４３６ｂ、４３４ｂ、４３２ｂは、材料のモノリシック部品であり得、光抽出光学要素４４０ａ、４３８ａ、４３６ａ、４３４ａ、４３２ａは、その材料部品の表面上および／または内部に形成され得る。

図４を継続して参照すると、本明細書に議論されるように、各導波管４４０ｂ、４３８ｂ、４３６ｂ、４３４ｂ、４３２ｂは、光を出力し、特定の深度平面に対応する画像を形成するように構成される。例えば、眼に最も近い導波管４３２ｂは、そのような導波管４３２ｂの中に投入されると、コリメートされた光を眼４１０に送達するように構成され得る。コリメートされた光は、光学無限遠焦点面を表し得る。次の上方の導波管４３４ｂは、眼４１０に到達し得る前、第１のレンズ４５２（例えば、負のレンズ）を通過するコリメートされた光を送出するように構成され得る。第１のレンズ４５２は、眼／脳が、その次の上方の導波管４３４ｂから生じる光を光学無限遠から眼４１０に向かって内向きにより近い第１の焦点面から生じるように解釈するように、若干の凸面波面曲率を生成するように構成され得る。同様に、第３の上方の導波管４３６ｂは、眼４１０に到達する前、その出力光を第１のレンズ４５２および第２のレンズ４５４の両方に通す。第１および第２のレンズ４５２、４５４の組み合わせられた屈折力は、眼／脳が、第３の上方の導波管４３６ｂから生じる光が次の上方の導波管４３４ｂからの光であった光学無限遠から人物に向かって内向きにさらに近い第２の焦点面から生じるように解釈するように、別の漸増量の波面曲率を生成するように構成され得る。

他の導波管層（例えば、導波管４３８ｂ、４４０ｂ）およびレンズ（例えば、レンズ４５６、４５８）も同様に構成され、スタック内の最も高い導波管４４０ｂは、人物に最も近い焦点面を表す集約焦点力のために、その出力をそれと眼との間のレンズの全てを通して送出する。スタックされた導波管アセンブリ４８０の他側の世界４７０から生じる光を視認／解釈するとき、レンズ４５８、４５６、４５４、４５２のスタックを補償するために、補償レンズ層４３０が、スタックの上部に配置され、下方のレンズスタック４５８、４５６、４５４、４５２の集約力を補償し得る。そのような構成は、利用可能な導波管／レンズ対と同じ数の知覚される焦点面を提供する。導波管の光抽出光学要素およびレンズの集束側面の両方は、静的であり得る（例えば、動的または電気活性ではない）。いくつかの代替実施形態では、一方または両方は、電気活性特徴を使用して動的であり得る。

図４を継続して参照すると、光抽出光学要素４４０ａ、４３８ａ、４３６ａ、４３４ａ、４３２ａは、導波管に関連付けられた特定の深度平面のために、光をそれらのそれぞれの導波管から外に向け直すことと、この光を適切な量の発散またはコリメーションを伴って出力することとの両方を行うように構成され得る。その結果、異なる関連付けられた深度平面を有する導波管は、関連付けられた深度平面に応じて、異なる量の発散を伴う光を出力する異なる構成の光抽出光学要素を有し得る。いくつかの実施形態では、本明細書に議論されるように、光抽出光学要素４４０ａ、４３８ａ、４３６ａ、４３４ａ、４３２ａは、特定の角度において光を出力するように構成され得る立体または表面特徴であり得る。例えば、光抽出光学要素４４０ａ、４３８ａ、４３６ａ、４３４ａ、４３２ａは、体積ホログラム、表面ホログラム、および／または回折格子であり得る。回折格子等の光抽出光学要素は、２０１５年６月２５日に公開された米国特許公開第２０１５／０１７８９３９号（参照することによってその全体として本明細書に組み込まれる）に説明される。

いくつかの実施形態では、光抽出光学要素４４０ａ、４３８ａ、４３６ａ、４３４ａ、４３２ａは、回折パターンまたは「回折光学要素」（また、本明細書では、「ＤＯＥ」とも称される）を形成する回折特徴である。好ましくは、ＤＯＥは、ビームの光の一部のみがＤＯＥの各交差を用いて眼４１０に向かって偏向される一方、残りが、全内部反射を介して、導波管を通して移動し続けるように、比較的に低回折効率を有する。画像情報を搬送する光は、したがって、複数の場所において導波管から出射するいくつかの関連出射ビームに分割され、その結果は、導波管内で跳ね返るこの特定のコリメートされたビームに対して、眼３０４に向かう非常に均一なパターンの出射放出である。

いくつかの実施形態では、１つ以上のＤＯＥは、能動的に回折する「オン」状態と有意に回折しない「オフ」状態との間で切り替え可能であり得る。例えば、切り替え可能なＤＯＥは、ポリマー分散液晶の層を備え得、その中で微小液滴は、ホスト媒体中の回折パターンを備え、微小液滴の屈折率は、ホスト材料の屈折率に実質的に合致するように切り替えられることができるか（その場合、パターンは、入射光を著しく回折させない）、または、微小液滴は、ホスト媒体のそれに合致しない屈折率に切り替えられることができる（その場合、パターンは、入射光を能動的に回折する）。

いくつかの実施形態では、深度平面または被写界深度の数および分布は、視認者の眼の瞳孔サイズまたは向きに基づいて、動的に変動させられ得る。被写界深度は、視認者の瞳孔サイズと反比例して変化し得る。その結果、視認者の眼の瞳孔のサイズが減少するにつれて、被写界深度は、増加し、それによって、その平面の場所が眼の焦点深度を越えるので判別不能である１つの平面が、判別可能となり、瞳孔サイズの低減および被写界深度の相当する増加に伴って、より焦点が合って現れ得る。同様に、異なる画像を視認者に提示するために使用される、間隔を置かれた深度平面の数は、減少させられた瞳孔サイズに伴って減少させられ得る。例えば、視認者は、一方の深度平面から他方の深度平面への眼の遠近調節を調節せずに、第１の深度平面および第２の深度平面の両方の詳細を１つの瞳孔サイズにおいて明確に知覚することが可能ではないこともある。しかしながら、これらの２つの深度平面は、別の瞳孔サイズにおいて、遠近調節を変化させずに、ユーザに対して同時に十分に焦点が合っていることもある。

いくつかの実施形態では、ディスプレイシステムは、瞳孔サイズまたは向きの決定に基づいて、もしくは特定の瞳孔サイズまたは向きを示す電気信号を受信すると、画像情報を受信する導波管の数を変動させ得る。例えば、ユーザの眼が、２つの導波管に関連付けられた２つの深度平面間を区別不能である場合、コントローラ４６０（ローカル処理およびデータモジュール２６０の実施形態であり得る）は、これらの導波管のうちの１つへの画像情報の提供を停止するように構成またはプログラムされることができる。有利には、これは、システムへの処理負担を低減させ、それによって、システムの応答性を増加させ得る。導波管のためのＤＯＥがオンおよびオフ状態間で切り替え可能である実施形態では、ＤＯＥは、導波管が画像情報を受信すると、オフ状態に切り替えられ得る。

いくつかの実施形態では、出射ビームに視認者の眼の直径未満の直径を有するという条件を満たさせることが望ましくあり得る。しかしながら、この条件を満たすことは、視認者の瞳孔のサイズの変動性に照らして、困難であり得る。いくつかの実施形態では、この条件は、視認者の瞳孔のサイズの決定に応答して出射ビームのサイズを変動させることによって、広範囲の瞳孔サイズにわたって満たされる。例えば、瞳孔サイズが減少するにつれて、出射ビームのサイズも、減少し得る。いくつかの実施形態では、出射ビームサイズは、可変開口を使用して変動させられ得る。

ウェアラブルシステム４００は、世界４７０の一部を結像する外向きに面した結像システム４６４（例えば、デジタルカメラ）を含むことができる。世界４７０のこの部分は、世界カメラの視野（ＦＯＶ）と称され得、結像システム４６４は、時として、ＦＯＶカメラとも称される。世界カメラのＦＯＶは、視認者２１０のＦＯＶと同じであることも、同じでないこともあり、視認者２１０のＦＯＶは、視認者２１０が所与の時間に知覚する世界４７０の一部を包含する。例えば、いくつかの状況では、世界カメラのＦＯＶは、ウェアラブルシステム４００の視認者２１０の視野より大きくあり得る。視認者による視認または結像のために利用可能な領域全体は、動眼視野（ＦＯＲ）と称され得る。ＦＯＲは、装着者が、その身体、頭部、または眼を移動させ、空間内の実質的に任意の方向を知覚することができるので、ウェアラブルシステム４００を包囲する４πステラジアンの立体角を含み得る。他のコンテキストでは、装着者の移動は、より抑制されていることもあり、それに応じて、装着者のＦＯＲは、より小さい立体角に接し得る。外向きに面した結像システム４６４から得られた画像は、ユーザによって行われるジェスチャ（例えば、手または指のジェスチャ）を追跡し、ユーザの正面における世界４７０内のオブジェクトを検出する等のために、使用されることができる。

ウェアラブルシステム４００は、オーディオセンサ２３２、例えば、マイクロホンを含み、周囲音を捕捉することができる。上で説明されるように、いくつかの実施形態では、１つ以上の他のオーディオセンサが、発話源の場所の決定に有用なステレオ音受信を提供するために位置付けられることができる。オーディオセンサ２３２は、別の例として、指向性マイクロホンを備えていることができ、それも、オーディオ源が位置する場所に関するそのような有用な指向性情報を提供することができる。ウェアラブルシステム４００は、発話源を位置特定することにおいて、または特定の瞬間におけるアクティブ話者を決定するため等に、外向きに面した結像システム４６４およびオーディオセンサ２３０の両方からの情報を使用することができる。例えば、ウェアラブルシステム４００は、単独で、または話者の反射された画像（例えば、鏡に見られるように）と組み合わせて、音声認識を使用し、話者の識別を決定することができる。別の例として、ウェアラブルシステム４００は、指向性マイクロホンから入手された音に基づいて、環境内の話者の位置を決定することができる。ウェアラブルシステム４００は、発話認識アルゴリズムを用いて、話者の位置から生じる音を解析し、発話のコンテンツを決定し、音声認識技法を使用して、話者の識別（例えば、名前または他の人口統計情報）を決定することができる。

ウェアラブルシステム４００は、眼移動および顔移動等のユーザの移動を観察する内向きに面した結像システム４６６（例えば、デジタルカメラ）を含むことができる。内向きに面した結像システム４６６は、眼４１０の画像を捕捉し、眼３０４の瞳孔のサイズおよび／または向きを決定するために使用され得る。内向きに面した結像システム４６６は、ユーザが見ている方向（例えば、眼姿勢）を決定することにおいて使用するための画像、またはユーザのバイオメトリック識別（例えば、虹彩識別を介して）のための画像を得るために使用されることができる。いくつかの実施形態では、少なくとも１つのカメラが、各眼のために、独立して、各眼の瞳孔サイズまたは眼姿勢を別個に決定し、それによって、各眼への画像情報の提示がその眼に対して動的に調整されることを可能にするために利用され得る。いくつかの他の実施形態では、片眼４１０のみの瞳孔直径または向き（例えば、対の眼あたり単一カメラのみを使用して）が、決定され、ユーザの両眼に対して同様であると仮定される。内向きに面した結像システム４６６によって得られる画像は、ユーザに提示されるべきオーディオまたは視覚的コンテンツを決定するためにウェアラブルシステム４００によって使用され得るユーザの眼姿勢または気分を決定するために分析され得る。ウェアラブルシステム４００は、ＩＭＵ、加速度計、ジャイロスコープ等のセンサを使用して、頭部姿勢（例えば、頭部位置または頭部向き）も決定し得る。

ウェアラブルシステム４００は、ユーザが、コマンドをコントローラ４６０に入力し、ウェアラブルシステム４００と相互作用し得るユーザ入力デバイス４６６を含むことができる。例えば、ユーザ入力デバイス４６６は、トラックパッド、タッチスクリーン、ジョイスティック、マルチ自由度（ＤＯＦ）コントローラ、容量感知デバイス、ゲームコントローラ、キーボード、マウス、指向性パッド（Ｄパッド）、ワンド、触知デバイス、トーテム（例えば、仮想ユーザ入力デバイスとして機能する）等を含むことができる。マルチＤＯＦコントローラは、コントローラの一部または全部の可能な平行移動（例えば、左／右、前／後、もしくは上／下）または回転（例えば、ヨー、ピッチ、もしくはロール）におけるユーザ入力を感知することができる。平行移動をサポートするマルチＤＯＦコントローラは、３ＤＯＦと称され得る一方、平行移動および回転をサポートするマルチＤＯＦコントローラは、６ＤＯＦと称され得る。ある場合には、ユーザは、指（例えば、親指）を使用して、タッチセンサ式入力デバイスを押し、またはその上でスワイプし、入力をウェアラブルシステム４００に提供し得る（例えば、ユーザ入力をウェアラブルシステム４００によって提供されるユーザインターフェースに提供するために）。ユーザ入力デバイス４６６は、ウェアラブルシステム４００の使用中、ユーザの手によって保持され得る。ユーザ入力デバイス４６６は、ウェアラブルシステム４００と有線または無線通信することができる。

図５は、導波管によって出力された出射ビームの例を示す。１つの導波管が図示されるが、導波管アセンブリ４８０内の他の導波管も同様に機能し得、導波管アセンブリ４８０は、複数の導波管を含むことを理解されたい。光５２０が、導波管４３２ｂの入力縁４３２ｃにおいて導波管４３２ｂの中に投入され、ＴＩＲによって導波管４３２ｂ内を伝搬する。光５２０がＤＯＥ４３２ａに衝突する点において、光の一部が、出射ビーム５１０として導波管から出射する。出射ビーム５１０は、実質的に平行として図示されるが、それらは、導波管４３２ｂに関連付けられた深度平面に応じて、ある角度で眼４１０に伝搬するようにも向け直され得る（例えば、発散出射ビーム形成）。実質的に平行出射ビームは、眼４１０からの遠距離（例えば、光学無限遠）における深度平面に設定されるように現れる画像を形成するように光を外部結合する光抽出光学要素を伴う導波管を示し得ることを理解されたい。他の導波管または他の光抽出光学要素の組は、より発散する出射ビームパターンを出力し得、それは、眼４１０がより近い距離に遠近調節し、網膜に焦点を合わせることを要求し、光学無限遠より眼４１０に近い距離からの光として脳によって解釈されるであろう。

図６は、導波管装置と、光を導波管装置へまたはそこから光学的に結合するための光学結合器サブシステムと、多焦点立体ディスプレイ、画像、または明視野の生成において使用される制御サブシステムとを含む光学システムを示す概略図である。光学システムは、導波管装置と、光を導波管装置にまたはそこから光学的に結合するための光学結合器サブシステムと、制御サブシステムとを含むことができる。光学システムは、多焦点立体、画像、または明視野を生成するために使用されることができる。光学システムは、１つ以上の一次平面導波管６３２ａ（１つのみのが図６に示される）と、一次導波管６３２ａの少なくともいくつかの各々に関連付けられた１つ以上のＤＯＥ６３２ｂとを含むことができる。平面導波管６３２ｂは、図４を参照して議論される導波管４３２ｂ、４３４ｂ、４３６ｂ、４３８ｂ、４４０ｂに類似することができる。光学システムは、分配導波管装置を採用し、光を第１の軸（図６の図では、垂直またはＹ－軸）に沿って中継し、第１の軸（例えば、Ｙ－軸）に沿って光の有効射出瞳を拡張させ得る。分配導波管装置は、例えば、分配平面導波管６２２ｂと、分配平面導波管６２２ｂに関連付けられた少なくとも１つのＤＯＥ６２２ａ（二重破線によって図示される）とを含み得る。分配平面導波管６２２ｂは、少なくともいくつかの点において、それと異なる向きを有する一次平面導波管６３２ｂと類似または同じであり得る。同様に、少なくとも１つのＤＯＥ６２２ａは、少なくともいくつかの点において、ＤＯＥ６３２ａと類似または同じであり得る。例えば、分配平面導波管６２２ｂまたはＤＯＥ６２２ａは、それぞれ、一次平面導波管６３２ｂまたはＤＯＥ６３２ａと同一材料から成り得る。図６に示される光学ディスプレイシステム６００の実施形態は、図２に示されるウェアラブルシステム２００の中に統合されることができる。

中継され、射出瞳が拡張された光は、分配導波管装置から１つ以上の一次平面導波管６３２ｂの中に光学的に結合され得る。一次平面導波管６３２ｂは、好ましくは、第１の軸に直交する第２の軸（例えば、図６の図では、水平またはＸ－軸）に沿って、光を中継することができる。着目すべきこととして、第２の軸は、第１の軸に対して非直交軸であることができる。一次平面導波管６３２ｂは、その第２の軸（例えば、Ｘ－軸）に沿って、光の有効射出瞳を拡張させる。例えば、分配平面導波管６２２ｂは、光を垂直またはＹ－軸に沿って中継および拡張させ、光を水平またはＸ－軸に沿って中継および拡張させ得る一次平面導波管６３２ｂにその光を通すことができる。

光学システムは、単一モード光ファイバ６４０の近位端の中に光学的に結合され得る１つ以上の着色光源（例えば、赤色、緑色、および青色レーザ光）６１０を含み得る。光ファイバ６４０の遠位端は、圧電材料の中空管６４２に通され、またはそれを通して受け取られ得る。遠位端は、固定されない可撓なカンチレバー６４４として、管６４２から突出する。圧電管６４２は、４つの象限電極（図示せず）に関連付けられることができる。電極は、例えば、管６４２の外側、外側表面もしくは外側周縁、または直径にめっきされ得る。コア電極（図示せず）も、管６４２のコア、中心、内側周縁、または内径に位置し得る。

例えば、ワイヤ６６０を介して電気的に結合される駆動電子機器６５０は、圧電管６４２を独立して２つの軸において曲げるように、対向する対の電極を駆動する。光ファイバ６４４の突出する遠位先端は、機械的共鳴モードを有する。共鳴の周波数は、光ファイバ６４４の直径、長さ、および材料性質に依存し得る。圧電管６４２をファイバカンチレバー６４４の第１の機械的共鳴モードの近傍で振動させることによって、ファイバカンチレバー６４４は、振動させられ、大きい偏向を通して掃引し得る。

２つの軸において共振振動を刺激することによって、ファイバカンチレバー６４４の先端は、２次元（２－Ｄ）走査を充填するエリア内において２軸方向に走査される。光源６１０の強度をファイバカンチレバー６４４の走査と同期して変調させることによって、ファイバカンチレバー６４４から発せられる光は、画像を形成することができる。そのような設定の説明は、米国特許公開第２０１４／０００３７６２号（参照することによってその全体として本明細書に組み込まれる）に提供されている。

光学結合器サブシステムのコンポーネントは、走査ファイバカンチレバー６４４から発せられる光をコリメートすることができる。コリメートされた光は、鏡面表面６４８によって、少なくとも１つの回折光学要素（ＤＯＥ）６２２ａを含む狭い分配平面導波管６２２ｂの中に反射されることができる。コリメートされた光は、ＴＩＲによって分配平面導波管６２２ｂに沿って（図６の図に対して）垂直に伝搬し、そうすることによって、ＤＯＥ６２２ａと繰り返し交差することができる。ＤＯＥ６２２ａは、好ましくは、低回折効率を有する。これは、光の一部（例えば、１０％）をＤＯＥ６２２ａとの交差の各点においてより大きい一次平面導波管６３２ｂの縁に向かって回折し、光の一部をＴＩＲを介して分配平面導波管６２２ｂの長さを辿ってそのオリジナル軌道上で継続させることができる。

ＤＯＥ６２２ａとの交差の各点において、追加の光が、一次導波管６３２ｂの入口に向かって回折されることができる。入射光を複数の外部結合組に分割することによって、光の射出瞳は、分配平面導波管６２２ｂ内のＤＯＥ６２２ａによって垂直に拡張されることができる。分配平面導波管６２２ｂから外に結合されたこの垂直に拡張された光は、一次平面導波管６３２ｂの縁に進入することができる。

一次導波管６３２ｂに進入する光は、ＴＩＲを介して、一次導波管６３２ｂに沿って（図６の図に対して）水平に伝搬することができる。光は、ＴＩＲを介して一次導波管６３２ｂの長さの少なくとも一部に沿って水平に伝搬するにつれて、複数の点においてＤＯＥ６３２ａと交差する。ＤＯＥ６３２ａは、有利には、線形回折パターンおよび放射対称回折パターンの総和である位相プロファイルを有し、光の偏向および集束の両方を生成するように設計または構成され得る。ＤＯＥ６３２ａは、有利には、ビームの光の一部のみが、ＤＯＥ６３２ａの各交差において視認者の眼に向かって偏向される一方、光の残りが、ＴＩＲを介して、一次導波管６３２ｂを通して伝搬し続けるように、低回折効率（例えば、１０％）を有し得る。

伝搬する光とＤＯＥ６３２ａとの間の交差の各点において、光の一部は、一次導波管６３２ｂの隣接面に向かって回折され、光がＴＩＲから逃散し、一次導波管６３２ｂの面から発せられることを可能にする。いくつかの実施形態では、ＤＯＥ６３２ａの放射対称回折パターンは、加えて、ある焦点レベルを回折された光に授け、個々のビームの光波面を成形（例えば、曲率を授ける）することと、ビームを設計される焦点レベルに合致する角度に操向することとの両方を行う。

故に、これらの異なる経路は、異なる角度におけるＤＯＥ６３２ａの多重度、焦点レベル、または射出瞳において異なる充填パターンをもたらすことによって、光が一次平面導波管６３２ｂの外部で結合されるようにすることができる。射出瞳における異なる充填パターンは、有利には、複数の深度平面を伴う明視野ディスプレイを生成するために使用されることができる。導波管アセンブリ内の各層またはスタック内の層の組（例えば、３層）が、それぞれの色（例えば、赤色、青色、緑色）を生成するために採用され得る。したがって、例えば、第１の３つの隣接する層の組が、それぞれ、赤色、青色、および緑色光を第１の焦点深度において生成するために採用され得る。第２の３つの隣接する層の組が、それぞれ、赤色、青色、および緑色光を第２の焦点深度において生成するために採用され得る。複数の組が、種々の焦点深度を伴うフル３Ｄまたは４Ｄカラー画像明視野を生成するために採用され得る。

（ウェアラブルシステムの他のコンポーネント）
多くの実装では、ウェアラブルシステムは、上で説明されるウェアラブルシステムのコンポーネントに加えて、またはその代替として、他のコンポーネントを含み得る。ウェアラブルシステムは、例えば、１つ以上の触知デバイスまたはコンポーネントを含み得る。触知デバイスまたはコンポーネントは、触覚をユーザに提供するように動作可能であり得る。例えば、触知デバイスまたはコンポーネントは、仮想コンテンツ（例えば、仮想オブジェクト、仮想ツール、他の仮想構造）に触れると、圧力またはテクスチャの触覚を提供し得る。触覚は、仮想オブジェクトが表す物理的オブジェクトの感覚を再現し得るか、または仮想コンテンツが表す想像上のオブジェクトもしくはキャラクタ（例えば、ドラゴン）の感覚を再現し得る。いくつかの実装では、触知デバイスまたはコンポーネントは、ユーザによって装着され得る（例えば、ユーザウェアラブルグローブ）。いくつかの実装では、触知デバイスまたはコンポーネントは、ユーザによって保持され得る。

ウェアラブルシステムは、例えば、１つ以上の物理的オブジェクトを含み得、それは、ユーザによって操作可能であり、ウェアラブルシステムへの入力またはそれとの相互作用を可能にする。これらの物理的オブジェクトは、本明細書では、トーテムと称され得る。いくつかのトーテムは、例えば、金属またはプラスチック片、壁、テーブルの表面等、無生物オブジェクトの形態をとり得る。ある実装では、トーテムは、実際には、任意の物理的入力構造（例えば、キー、トリガ、ジョイスティック、トラックボール、ロッカスイッチ）を有していないこともある。代わりに、トーテムは、単に、物理的表面を提供し得、ウェアラブルシステムは、ユーザにトーテムの１つ以上の表面上にあるように見えるように、ユーザインターフェースをレンダリングし得る。例えば、ウェアラブルシステムは、トーテムの１つ以上の表面上にあるように見えるように、コンピュータキーボードおよびトラックパッドの画像をレンダリングし得る。例えば、ウェアラブルシステムは、トーテムとしての役割を果たすアルミニウムの薄い長方形プレートの表面上に見えるように、仮想コンピュータキーボードおよび仮想トラックパッドをレンダリングし得る。長方形プレート自体は、任意の物理的キーまたはトラックパッドもしくはセンサを有していない。しかしながら、ウェアラブルシステムは、仮想キーボードまたは仮想トラックパッドを介して行われた選択または入力として、長方形プレートを用いたユーザ操作または相互作用もしくはタッチを検出し得る。ユーザ入力デバイス４６６（図４に示される）は、トラックパッド、タッチパッド、トリガ、ジョイスティック、トラックボール、ロッカもしくは仮想スイッチ、マウス、キーボード、多自由度コントローラ、または別の物理的入力デバイスを含み得るトーテムの実施形態であり得る。ユーザは、単独で、または姿勢と組み合わせて、トーテムを使用し、ウェアラブルシステムまたは他のユーザと相互作用し得る。

本開示のウェアラブルデバイス、ＨＭＤ、およびディスプレイシステムと共に使用可能な触知デバイスおよびトーテムの例は、米国特許公開第２０１５／００１６７７７号（参照することによってその全体として本明細書に組み込まれる）に説明される。

（例示的ウェアラブルシステム、環境、およびインターフェース）
ウェアラブルシステムは、高被写界深度をレンダリングされた明視野内で達成するために、種々のマッピング関連技法を採用し得る。仮想世界をマッピングすることにおいて、実世界内の全ての特徴および点を把握し、仮想オブジェクトを実世界に関連して正確に描くことが有利である。この目的を達成するために、ウェアラブルシステムのユーザから捕捉されたＦＯＶ画像が、実世界の種々の点および特徴についての情報を伝達する新しい写真を含むことによって、世界モデルに追加されることができる。例えば、ウェアラブルシステムは、マップ点（２Ｄ点または３Ｄ点等）の組を収集し、新しいマップ点を見出し、世界モデルのより正確なバージョンをレンダリングすることができる。第１のユーザの世界モデルは、第２のユーザが第１のユーザを包囲する世界を体験し得るように、（例えば、クラウドネットワーク等のネットワークを経由して）第２のユーザに通信されることができる。

図７は、ＭＲ環境７００の例のブロック図である。ＭＲ環境７００は、入力（例えば、ユーザのウェアラブルシステムからの視覚的入力７０２、室内カメラ等の静止入力７０４、種々のセンサからの感覚入力７０６、ユーザ入力デバイス４６６からのジェスチャ、トーテム、眼追跡、ユーザ入力等）を１つ以上のユーザウェアラブルシステム（例えば、ウェアラブルシステム２００もしくはディスプレイシステム２２０）または静止室内システム（例えば、室内カメラ等）から受信するように構成され得る。ウェアラブルシステムは、種々のセンサ（例えば、加速度計、ジャイロスコープ、温度センサ、移動センサ、深度センサ、ＧＰＳセンサ、内向きに面した結像システム、外向きに面した結像システム等）を使用して、ユーザの環境の場所および種々の他の属性を決定することができる。この情報は、異なる視点からの画像または種々のキューを提供し得る部屋内の静止カメラからの情報でさらに補完され得る。カメラ（室内カメラまたは外向きに面した結像システムのカメラ等）によって入手された画像データは、マッピング点の組に低減させられ得る。

１つ以上のオブジェクト認識装置７０８が、受信されたデータ（例えば、点の集合）を通してクローリングし、点を認識またはマッピングし、画像にタグ付けし、マップデータベース７１０を用いて、意味論情報をオブジェクトに添えることができる。マップデータベース７１０は、経時的に収集された種々の点およびその対応するオブジェクトを備え得る。種々のデバイスおよびマップデータベースは、ネットワーク（例えば、ＬＡＮ、ＷＡＮ等）を通して互いに接続され、クラウドにアクセスすることができる。

この情報およびマップデータベース内の点集合に基づいて、オブジェクト認識装置７０８ａ－７０８ｎは、環境内のオブジェクトを認識し得る。例えば、オブジェクト認識装置は、顔、人物、窓、壁、ユーザ入力デバイス、テレビ、ドキュメント（例えば、本明細書におけるセキュリティ例において説明されるような旅券、運転免許証、パスポート）、ユーザの環境内の他のオブジェクト等を認識することができる。１つ以上のオブジェクト認識装置が、ある特性を伴うオブジェクトのために専門化され得る。例えば、オブジェクト認識装置７０８ａは、顔を認識するために使用され得る一方、別のオブジェクト認識装置は、ドキュメントを認識するために使用され得る。

オブジェクト認識は、種々のコンピュータビジョン技法を使用して実施され得る。例えば、ウェアラブルシステムは、外向きに面した結像システム４６４（図４に示される）によって入手された画像を分析し、場面再構成、イベント検出、ビデオ追跡、オブジェクト認識（例えば、人物またはドキュメント）、オブジェクト姿勢推定、顔認識（例えば、環境内の人物またはドキュメント上の画像から）、学習、インデックス化、運動推定、または画像分析（例えば、写真、署名、識別情報、旅行情報等のドキュメント内の印を識別する）等を実施することができる。１つ以上のコンピュータビジョンアルゴリズムが、これらのタスクを実施するために使用され得る。コンピュータビジョンアルゴリズムの非限定的例は、スケール不変特徴変換（ＳＩＦＴ）、スピードアップロバスト特徴（ＳＵＲＦ）、方向付きＦＡＳＴおよび回転ＢＲＩＥＦ（ＯＲＢ）、バイナリロバスト不変スケーラブルキーポイント（ＢＲＩＳＫ）、高速網膜キーポイント（ＦＲＥＡＫ）、Ｖｉｏｌａ－Ｊｏｎｅｓアルゴリズム、Ｅｉｇｅｎｆａｃｅｓアプローチ、Ｌｕｃａｓ－Ｋａｎａｄｅアルゴリズム、Ｈｏｒｎ－Ｓｃｈｕｎｋアルゴリズム、Ｍｅａｎ－ｓｈｉｆｔアルゴリズム、視覚的同時位置推定およびマッピング（ｖＳＬＡＭ）技法、シーケンシャルベイズ推定器（例えば、カルマンフィルタ、拡張カルマンフィルタ等）、バンドル調節、適応閾値化（および他の閾値化技法）、反復最近傍点（ＩＣＰ）、セミグローバルマッチング（ＳＧＭ）、セミグローバルブロックマッチング（ＳＧＢＭ）、キーポイントヒストグラム、種々の機械学習アルゴリズム（例えば、サポートベクトルマシン、ｋ最近傍アルゴリズム、単純ベイズ、ニューラルネットワーク（畳み込みまたは深層ニューラルネットワークを含む）、または他の教師あり／教師なしモデル等）等を含む。

オブジェクト認識は、加えて、または代替として、種々の機械学習アルゴリズムによって実施されることができる。訓練されると、機械学習アルゴリズムは、ＨＭＤによって記憶されることができる。機械学習アルゴリズムのいくつかの例は、教師ありまたは教師なし機械学習アルゴリズムを含むことができ、回帰アルゴリズム（例えば、通常の最小２乗回帰等）、インスタンスベースのアルゴリズム（例えば、学習ベクトル量子化等）、決定ツリーアルゴリズム（例えば、分類および回帰ツリー等）、ベイズアルゴリズム（例えば、単純ベイズ等）、クラスタリングアルゴリズム（例えば、ｋ－平均クラスタリング等）、関連付けルール学習アルゴリズム（例えば、アプリオリアルゴリズム等）、人工ニューラルネットワークアルゴリズム（例えば、Ｐｅｒｃｅｐｔｒｏｎ等）、深層学習アルゴリズム（例えば、ＤｅｅｐＢｏｌｔｚｍａｎｎＭａｃｈｉｎｅ、すなわち、深層ニューラルネットワーク等）、次元削減アルゴリズム（例えば、主成分分析等）、アンサンブルアルゴリズム（例えば、ＳｔａｃｋｅｄＧｎｅｒａｌｉｚａｔｉｏｎ等）、および／または他の機械学習アルゴリズムを含む。いくつかの実施形態では、個々のモデルは、個々のデータ組のためにカスタマイズされることができる。例えば、ウェアラブルデバイスは、ベースモデルを生成または記憶することができる。ベースモデルは、開始点として使用され、データタイプ（例えば、テレプレゼンスセッション内の特定のユーザ）、データ組（例えば、テレプレゼンスセッション内のユーザの取得される追加の画像の組）、条件付き状況、または他の変形例に特定の追加のモデルを生成し得る。いくつかの実施形態では、ウェアラブルＨＭＤは、複数の技法を利用して、集約されたデータの分析のためのモデルを生成するように構成されることができる。他の技法は、事前に定義された閾値またはデータ値を使用することを含み得る。

マップデータベース内のこの情報および点の集合に基づいて、オブジェクト認識装置７０８ａ－７０８ｎは、オブジェクトを認識し、オブジェクトを意味論情報で補完し、生命をオブジェクトに与え得る。例えば、オブジェクト認識装置が、点の組がドアであることを認識する場合、システムは、いくつかの意味論情報を添え得る（例えば、ドアは、ヒンジを有し、ヒンジの周りの９０度移動を有する）。オブジェクト認識装置が、点の組が鏡であることを認識する場合、システムは、鏡が、部屋内のオブジェクトの画像を反射できる反射表面を有するという意味論情報を添え得る。意味論情報は、本明細書に説明されるように、オブジェクトのアフォーダンスを含むことができる。例えば、意味論情報は、オブジェクトの法線を含み得る。システムは、ベクトルを割り当てることができ、その方向は、オブジェクトの法線を示す。経時的に、マップデータベースは、システム（ローカルに常駐し得るか、または無線ネットワークを通してアクセス可能であり得る）がより多くのデータを世界から蓄積するにつれて成長する。オブジェクトが認識されると、情報は、１つ以上のウェアラブルシステムに伝送され得る。例えば、ＭＲ環境７００は、Ｃａｌｉｆｏｒｎｉａで生成している場面についての情報を含み得る。環境７００は、ＮｅｗＹｏｒｋにおける１人以上のユーザに伝送され得る。ＦＯＶカメラおよび他の入力から受信されたデータに基づいて、オブジェクト認識装置および他のソフトウェアコンポーネントは、場面が世界の異なる部分に存在し得る第２のユーザに正確に「パス」され得るように、種々の画像から収集された点をマッピングし、オブジェクトを認識すること等ができる。環境７００は、位置特定目的のために、トポロジマップも使用し得る。

図８は、認識されたオブジェクトに関連して仮想コンテンツをレンダリングする方法８００の例のプロセスフロー図である。方法８００は、仮想場面がウェアラブルシステムのユーザに提示され得る方法を説明する。ユーザは、その場面から地理的に遠隔に存在し得る。例えば、ユーザは、ＮｅｗＹｏｒｋに存在し得るが、Ｃａｌｉｆｏｒｎｉａで現在起こっている場面を視認することを欲し得るか、またはＣａｌｉｆｏｒｎｉａに存在する友人と散歩に行くことを欲し得る。

ブロック８１０では、ウェアラブルシステムは、ユーザの環境に関する入力をユーザおよび他のユーザから受信し得る。これは、種々の入力デバイスおよびマップデータベース内にすでに保有されている知識を通して達成され得る。ユーザのＦＯＶカメラ、センサ、ＧＰＳ、眼追跡等が、ブロック８１０において、情報をシステムに伝達する。システムは、ブロック８２０において、この情報に基づいて、疎点を決定し得る。疎点は、ユーザの周囲における種々のオブジェクトの向きおよび位置を表示ならびに理解することにおいて使用され得る姿勢データ（例えば、頭部姿勢、眼姿勢、身体姿勢、または手のジェスチャ）を決定することにおいて使用され得る。オブジェクト認識装置７０８ａ、７０８ｎは、ブロック８３０において、これらの収集された点を通してクローリングし、マップデータベースを使用して、１つ以上のオブジェクトを認識し得る。この情報は、次いで、ブロック８４０において、ユーザの個々のウェアラブルシステムに伝達されていることもあり、所望の仮想場面が、ブロック８５０において、適宜、ユーザに表示され得る。例えば、所望の仮想場面（例えば、ＣＡにおけるユーザ）が、ＮｅｗＹｏｒｋにおけるユーザの種々のオブジェクトおよび他の周囲に関連して、適切な向き、位置等において表示され得る。

図９は、ウェアラブルシステムの別の例のブロック図である。この例では、ウェアラブルシステム９００は、マップ９２０を備え、それは、世界に関するマップデータを含むマップデータベース７１０を含み得る。マップは、部分的に、ウェアラブルシステム上にローカルに常駐し得、部分的に、有線または無線ネットワークによってアクセス可能なネットワーク化された記憶場所（例えば、クラウドシステム内）に常駐し得る。姿勢プロセス９１０が、ウェアラブルコンピューティングアーキテクチャ（例えば、処理モジュール２６０またはコントローラ４６０）上で実行され、ウェアラブルコンピューティングハードウェアまたはユーザの位置および向きを決定するために、マップ９２０からのデータを利用し得る。姿勢データは、ユーザが、システムを体験し、その世界内で動作するにつれて、オンザフライで収集されたデータから算出され得る。データは、実または仮想環境内のオブジェクトに関する画像、センサ（概して、加速度計およびジャイロスコープコンポーネントを備えている、慣性測定ユニット等）からのデータ、および表面情報を備え得る。

疎点表現は、同時位置特定およびマッピング（例えば、ＳＬＡＭまたはｖＳＬＡＭ、入力が画像／視覚のみである構成を指す）プロセスの出力であり得る。システムは、世界内の種々のコンポーネントの場所だけではなく、世界が構成される内容も見出すように構成されることができる。姿勢は、マップへのデータ投入およびマップからのデータの使用を含む多くの目標を達成する構築ブロックであり得る。

一実施形態では、疎点位置は、それ自体では完全に適正でないこともあり、さらなる情報が、多焦点ＡＲ、ＶＲ、またはＭＲ体験を生成するために必要とされ得る。概して、深度マップ情報を指す稠密表現が、少なくとも部分的にこの間隙を充填するために利用され得る。そのような情報は、立体視９４０と称されるプロセスから算出され得、深度情報は、三角測量または飛行時間感知等の技法を使用して決定される。画像情報およびアクティブパターン（アクティブプロジェクタを使用して生成される赤外線パターン等）、画像カメラから入手された画像、または手ジェスチャ／トーテム９５０が、立体視プロセス９４０への入力としての役割を果たし得る。有意な量の深度マップ情報が、一緒に融合され得、このうちのいくつかは、表面表現を用いて要約され得る。例えば、数学的に定義可能な表面は、ゲームエンジンのような他の処理デバイスへの効率的（例えば、大規模点群に対して）かつ要約しやすい入力であり得る。したがって、立体視プロセス（例えば、深度マップ）９４０の出力は、融合プロセス９３０において組み合わせられ得る。姿勢９１０は、同様に、この融合プロセス９３０への入力であり得、融合９３０の出力は、マップデータ投入プロセス９２０への入力となる。サブ表面が、トポグラフィマッピング等において、互いに接続し、より大きい表面を形成し得、マップは、点および表面の大規模ハイブリッドとなる。

複合現実プロセス９６０における種々の側面を解決するために、種々の入力が、利用され得る。例えば、図９に描写される実施形態では、ゲームパラメータは、システムのユーザが１匹以上のモンスタと種々の場所においてモンスタバトルゲームをプレーしていること、モンスタが死んでいること、または種々の条件下で逃げていること（ユーザがモンスタを撃つ場合等）、種々の場所における壁または他のオブジェクト等を決定するための入力であり得る。世界マップは、オブジェクトの場所に関する情報またはオブジェクトの意味論情報を含み得、世界マップは、複合現実に対する別の有用な入力であることができる。世界に対する姿勢は、同様に、入力となり、ほぼあらゆる双方向システムに対して重要な役割を果たす。

ユーザからの制御または入力は、ウェアラブルシステム９００への別の入力である。本明細書に説明されるように、ユーザ入力は、視覚的入力、ジェスチャ、トーテム、オーディオ入力、感覚入力等を含むことができる。動き回るために、またはゲームをプレーするために、例えば、ユーザは、ウェアラブルシステム９００に、行うことを欲することに関して命令する必要があり得る。空間内で自ら移動するだけではなく、利用され得る種々の形態のユーザ制御が、存在する。一実施形態では、トーテム（例えば、ユーザ入力デバイス）、または玩具銃等のオブジェクトが、ユーザによって保持され、システムによって追跡され得る。システムは、好ましくは、ユーザがアイテムを保持していることを把握し、ユーザがアイテムと行っている相互作用の種類を理解するように構成されるであろう（例えば、トーテムまたはオブジェクトが、銃である場合、システムは、場所および向きだけではなく、ユーザが、そのようなアクティビティがカメラのいずれかの視野内にないときでも、生じている状況を決定することを補助し得るＩＭＵ等のセンサを装備し得るトリガまたは他の感知ボタンもしくは要素をクリックしているかどうかも理解するように構成され得る。）

手のジェスチャ追跡または認識も、入力情報を提供し得る。ウェアラブルシステム９００は、ボタン押し下げのための手のジェスチャ、左または右、停止、握持、保持等をジェスチャするための手のジェスチャを追跡し、解釈するように構成され得る。例えば、１つの構成では、ユーザは、非ゲーム環境において電子メールもしくはカレンダを通してめくること、または別の人物もしくはプレーヤと「フィストバンプ」を行うことを欲し得る。ウェアラブルシステム９００は、動的であることも、そうではないこともある最小量の手のジェスチャを活用するように構成され得る。例えば、ジェスチャは、停止を示すために手を広げること、ＯＫを示すために親指を上げること、ＯＫではないことを示すために親指を下げること、または指向性コマンドを示すために左右もしくは上下に手をフリップすること等、単純な静的ジェスチャであり得る。

眼追跡は、別の入力である（例えば、ユーザが見ている場所を追跡し、ディスプレイ技術を制御し、特定の深度または範囲においてレンダリングする）。一実施形態では、眼の両眼離反運動が、三角測量を使用して決定されていることもあり、次いで、その特定の人物のために開発された両眼離反運動／遠近調節モデルを使用して、遠近調節が、決定され得る。眼追跡は、眼カメラによって実施され、眼視線（例えば、片眼または両眼の方向もしくは向き）を決定することができる。他の技法も、例えば、眼の近傍に設置された電極による電位の測定（例えば、電気眼球図記録）等、眼追跡のために使用されることができる。

発話追跡は、単独で、または他の入力（例えば、トーテム追跡、眼追跡、ジェスチャ追跡等）と組み合わせて使用され得る別の入力であり得る。発話追跡は、単独で、または組み合わせて、発話認識、音声認識を含み得る。システム９００は、オーディオストリームを環境から受信するオーディオセンサ（例えば、マイクロホン）を含むことができる。システム９００は、発話している人物（例えば、発話がＡＲＤの装着者または別の人物もしくは音声（例えば、環境内のラウドスピーカによって伝送される記録された音声）からのものであるかどうか）を決定するための音声認識技術ならびに言われていることを決定するための発話認識技術を組み込むことができる。ローカルデータおよび処理モジュール２６０または遠隔処理モジュール２７０は、マイクロホンからのオーディオデータ（または、例えば、ユーザによって鑑賞されているビデオストリーム等の別のストリーム内のオーディオデータ）を処理し、例えば、隠れマルコフモデル、動的時間伸縮法（ＤＴＷ）ベースの発話認識、ニューラルネットワーク、ディープフィードフォワードおよび再帰ニューラルネットワーク等の深層学習アルゴリズム、エンドツーエンド自動発話認識、機械学習アルゴリズム（図７を参照して説明される）、もしくは音響モデル化または言語モデル化等を使用する他のアルゴリズム等の種々の発話認識アルゴリズムを適用することによって、発話のコンテンツを識別することができる。

ローカルデータおよび処理モジュール２６０または遠隔処理モジュール２７０は、音声認識アルゴリズムを適用することもでき、それは、話者がウェアラブルシステム９００のユーザ２１０またはユーザが会話している別の人物であるかどうか等の話者の識別を識別することができる。いくつかの例示的音声認識アルゴリズムは、頻度推定、隠れマルコフモデル、ガウス混合モデル、パターンマッチングアルゴリズム、ニューラルネットワーク、マトリクス表現、ベクトル量子化、話者ダイアライゼーション、決定ツリー、および動的時間伸縮（ＤＴＷ）技法を含むことができる。音声認識技法は、コホートモデルおよび世界モデル等のアンチ話者技法を含むこともできる。スペクトル特徴は、話者特性を表すことにおいて使用され得る。ローカルデータおよび処理モジュールまたは遠隔データ処理モジュール２７０は、図７を参照して説明される種々の機械学習アルゴリズムを使用して、音声認識を実施することができる。

カメラシステムに関して、図９に示される例示的ウェアラブルシステム９００は、３つの対のカメラを含むことができる：ユーザの顔の両側に配列される相対的広ＦＯＶまたは受動ＳＬＡＭ対のカメラ、ユーザの正面に向けられ、立体視結像プロセス９４０をハンドリングし、ユーザの顔の正面の手のジェスチャおよびトーテム／オブジェクトの軌道も捕捉するための異なる対のカメラ。ステレオプロセス９４０のためのＦＯＶカメラおよび対のカメラは、外向きに面した結像システム４６４（図４に示される）の一部であり得る。ウェアラブルシステム９００は、眼ベクトルおよび他の情報を三角測量するために、ユーザの眼に向けられる眼追跡カメラ（図４に示される内向きに面した結像システム４６２の一部であり得る）を含むことができる。ウェアラブルシステム９００は、１つ以上のテクスチャ化光プロジェクタ（赤外線（ＩＲ）プロジェクタ等）も備え、テクスチャを場面の中に投入し得る。

図１０は、仮想ユーザインターフェースと相互作用する方法１０００の例のプロセスフロー図である。方法１０００は、本明細書に説明されるウェアラブルシステムによって行われ得る。方法１０００は、テレプレゼンスセッションにおいて方法１０００を実施し得る。

ブロック１０１０では、ウェアラブルシステムは、特定のＵＩを識別し得る。ＵＩのタイプは、ユーザによって与えられ得る。ウェアラブルシステムは、特定のＵＩがユーザ入力（例えば、ジェスチャ、視覚的データ、オーディオデータ、感覚データ、直接コマンド等）に基づいてデータ投入される必要があることを識別し得る。ＵＩは、テレプレゼンスセッションに特有であり得る。ブロック１０２０では、ウェアラブルシステムは、仮想ＵＩのためのデータを生成し得る。例えば、ＵＩの境界、一般的構造、形状等に関連付けられたデータが、生成され得る。加えて、ウェアラブルシステムは、ウェアラブルシステムがユーザの物理的場所に関連してＵＩを表示し得るように、ユーザの物理的場所のマップ座標を決定し得る。例えば、ＵＩが、身体中心である場合、ウェアラブルシステムは、リングＵＩがユーザの周囲に表示され得るか、または平面ＵＩが壁上もしくはユーザの正面に表示され得るように、ユーザの物理的スタンス、頭部姿勢、または眼姿勢の座標を決定し得る。テレプレゼンスコンテキストでは、ＵＩは、ＵＩが、ユーザを包囲し、環境内の別のユーザの存在の実在感覚をもたらすかのように表示され得る（例えば、ＵＩは、ユーザの周囲の参加者の仮想アバタを表示することができる）。ＵＩが、手中心の場合、ユーザの手のマップ座標が、決定され得る。これらのマップ点は、ＦＯＶカメラ、感覚入力を通して受信されたデータ、または任意の他のタイプの収集されたデータを通して導出され得る。

ブロック１０３０では、ウェアラブルシステムは、データをクラウドからディスプレイに送信し得るか、またはデータは、ローカルデータベースからディスプレイコンポーネントに送信され得る。ブロック１０４０では、ＵＩは、送信されたデータに基づいて、ユーザに表示される。例えば、明視野ディスプレイは、仮想ＵＩをユーザの眼の一方または両方の中に投影することができる。仮想ＵＩが生成されると、ウェアラブルシステムは、ブロック１０５０において、単に、ユーザからのコマンドを待ち、より多くの仮想コンテンツを仮想ＵＩ上に生成し得る。例えば、ＵＩは、ユーザの身体またはユーザの環境内の人物（例えば、旅行者）の身体の周囲の身体中心リングであり得る。ウェアラブルシステムは、次いで、コマンド（ジェスチャ、頭部または眼移動、音声コマンド、ユーザ入力デバイスからの入力等）を待ち得、認識される場合（ブロック１０６０）、コマンドに関連付けられた仮想コンテンツが、ユーザに表示され得る（ブロック１０７０）。

（ウェアラブルデバイスの例）
図１１は、例示的ウェアラブルデバイスを図示し、それは、ユーザの顔の画像を入手することができる。ウェアラブルデバイスは、ＡＲ、ＶＲ、および／またはＭＲコンテンツを表示するように構成される頭部搭載型デバイス（ＨＭＤ）であり得る。ウェアラブルデバイスによって入手された画像は、静止画像、動画、ビデオからの個々のフレーム、またはビデオを含むことができる。

図１１におけるウェアラブルデバイス１１５０は、図２を参照して説明されるウェアラブルデバイス２００の一部である。ウェアラブルデバイス１１５０は、結像システム１１６０を含むことができ、それは、ユーザ２１０の顔を結像するように構成される。結像システム１１６０は、図４に示される内向きに面した結像システム４６２の例であり得る。例えば、結像システム１１６０は、ユーザ２１０が、ウェアラブルデバイス１１５０を装着している間、ユーザの眼１１１０の眼球周囲領域を結像するように構成される眼カメラ（例えば、眼カメラ１１６０ａおよび眼カメラ１１６０ｂ）等のセンサを含み得る。この例では、眼１１１０ｂは、図３に示される、眼３０２に対応し得、眼１１１０ａは、眼３０４に対応し得る。

各眼カメラは、視野（ＦＯＶ）を有し得る。例えば、眼カメラ１１６０ａのためのＦＯＶは、領域１１２０ａおよび領域１１３０を含むことができる。眼カメラ１１６０ｂのためのＦＯＶは、領域１１２０ｂおよび領域１１３０を含むことができる。眼カメラ１１６０ａのＦＯＶと眼カメラ１１６０ｂのＦＯＶとは、領域１１３０において重複し得る。

図１１に示されるように、結像システム１１６０は、ユーザ２１０の頭部に向いている。眼カメラ１１６０ａは、眼１１１０ａを結像するように構成され得る一方、眼カメラ１１６０ｂは、眼１１１０ｂを結像するように構成され得る。この図では、眼カメラ１１６０ａの光学軸１１４０ａは、眼カメラ１１６０ｂの光学軸１１４０ｂと平行である。

いくつかの実装では、眼カメラの一方または両方は、２つの眼カメラの光学軸がもはや平行ではないように回転させられ得る。例えば、２つの眼カメラは、若干、互いに向かって向いていることもある（例えば、特に、眼カメラが、デバイス１１５０のフレームの外側縁の近傍に配置される場合）。この実装は、交差眼構成を作成し得、交差眼構成が、２つのカメラ間のＦＯＶの重複を増加させ、かつ２つの眼カメラがより近い距離において顔を結像することを可能にし得るので、有利であり得る。

図１１に説明される例は、２つの眼カメラを図示するが、ウェアラブルデバイス１１５０は、２つの眼カメラを有するように要求されない。いくつかの実施形態では、結像システム１１６０は、ユーザの顔を結像する１つの眼カメラを含み得る。１つの眼カメラは、片眼に関連付けられた眼球周囲領域または両眼に関する眼球周囲領域を結像するように構成され得る。他の実施形態では、ウェアラブルデバイス１１５０は、３つ以上の眼カメラを含み得る。

（顔モデルの例）
顔認識、合成、およびレンダリングのコンテキストでは、ヒト顔は、三角形メッシュ、パラメトリック表面、線形空間表現、または他の数学的表現等の３Ｄモデル化技法を使用して表され得る。一例として、３Ｄモデルは、変形可能線形モデル（ＤＬＭ）を使用して構築され得る。ＤＬＭは、ベクトルのリストを用いて、顔の変形の状態をエンコードすることができる。変形ベクトルは、中立顔に関連付けられ、鼻をより大きくすること、口をより狭くすること、または顔をより女性らしくすること等を行い得る。変形ベクトルは、笑顔、しかめっ面、または眉を顰めた顔等の顔の表情にも関連付けられ得る。顔の表現の強度（大声で笑うまたは微笑む等）を所与として、変形ベクトルは、中立顔メッシュに対する強度値によってスケーリングされ得る。例えば、強度値は、人物が大声で笑う場合、人物が、より多くの顔移動を有し、したがって、中立顔に対してより大きい変形を有し得るので、より大きくなり得る。他方で、強度値は、人物が微笑む場合、あまり多くの顔移動が存在しないので、より小さくなり得る。ＤＬＭモデルが、使用されることができるが、本開示は、ＤＬＭモデルに限定されず、他の実施形態では、アクティブ形状モデル（ＡＳＭ）、アクティブ外観モデル（ＡＡＭ）、モーフィング可能モデル（Ｍ）、または任意の他の２次元（２Ｄ）もしくは３Ｄ形状またはテクスチャモデルが、使用され得る。

ウェアラブルデバイス１１５０は、結像システム１１６０によって入手されたユーザの顔の画像を使用して、ユーザの顔のモデルを構築することができる。画像は、ユーザが、デバイスを着けつつあるとき、または外しつつあるとき、結像システム１１６０によって入手され得る。画像は、外向きに面した結像システム４６４（図４に示される）を使用して、ユーザの顔を走査することによっても入手され得る。例えば、外向きに面した結像システム４６４を使用して、ユーザの顔を走査するために、ユーザは、外向きに面した結像システム４６４がユーザの顔に向かって（ユーザの環境ではなく）面するように、ウェアラブルデバイス１１５０を旋回させ得る。ウェアラブルデバイスは、例えば、ユーザが最初にウェアラブルデバイスを使用するとき、またはユーザがウェアラブルデバイスをオンにするとき等、ウェアラブルデバイスの初期化段階中、ユーザの顔のモデルを作成することができる。結像システム１１６０によって入手された画像を使用した顔モデルの生成の例は、「ＦＡＣＥＭＯＤＥＬＣＡＰＴＵＲＥＢＹＡＷＥＡＲＡＢＬＥＤＥＶＩＣＥ」と題された米国特許出願第１５／７１７，２２３号（本開示は、参照することによってその全体として本明細書に組み込まれる）にも説明される。

ユーザの顔のモデルは、基本モデルとユーザに特定のデータとに基づいて生成され得る。例えば、ウェアラブルデバイスは、あるグループの人々に関連付けられたデータから事前に生成された基本モデルを使用することと、ウェアラブルデバイスによって入手された画像を分析することによって取得されるユーザ特定情報に基づいて基本モデルをカスタマイズすることとを行い得る。いくつかの実装では、基本モデルは、ウェアラブルデバイスのユーザに類似する人口統計情報を有するグループの人々に関連付けられ得る（例えば、年齢、性別、民族性等）。例えば、ユーザが、十代の女性である場合、ウェアラブルデバイスは、十代の典型的女性に関連付けられた基本モデルにアクセスし得る。別の例として、ユーザが、ある性別および／また民族グループに属する場合、ウェアラブルデバイスは、その性別または民族グループに共通する基本モデルにアクセスし得る。ウェアラブルデバイスは、統計的分析も使用し、ユーザの顔の特徴の外観を決定することができる。例えば、ウェアラブルデバイスは、あるグループの人々またはユーザに関連付けられた画像に関する統計的分析に基づいて、顔特徴のある顔外観が該当するであろう可能性を決定することができる。ウェアラブルデバイスは、ユーザに特定の入手された画像に基づいて、顔特徴の外観（眼球周囲特徴の外観等）を確認することができる。

ウェアラブルデバイスは、ユーザ特定の画像に基づいて、顔モデルを構築することができる。例えば、ウェアラブルデバイスは、内向きに面した結像システムまたは外向きに面した結像システムによって入手された画像からのみ、ユーザの顔のモデルを生成し得る。いくつかの実装では、ウェアラブルデバイスは、ユーザの顔のより多くの画像が入手されるにつれて、ユーザの顔モデルを更新し得る。例えば、ウェアラブルデバイスは、ユーザがデバイスを着けつつあるときに内向きに面した結像システムによって入手された画像に基づいて、顔モデルを生成し得る。ウェアラブルデバイスは、ユーザがデバイスを外しつつあるとき、またはユーザがデバイスを再び着けつつある次のセッションにおいて入手される新しい画像に基づいて、顔モデルを更新することができる。

これらの例は、ウェアラブルデバイスを使用した顔モデルの構築またはユーザの顔のマップの作成を参照するが、いくつかの実施形態は、遠隔コンピューティングデバイスと通信し、顔モデルを生成または別様に取得するウェアラブルデバイスを含み得る。例えば、ウェアラブルデバイスは、ユーザの顔の画像を入手し、画像（単独で、または、例えば、ユーザの人口統計情報等のユーザの他の情報と組み合わせて）を遠隔コンピューティングデバイス（例えば、サーバ等）に渡すことができる。遠隔コンピューティングデバイスは、画像を分析し、顔モデルを作成することができ、顔モデルをユーザのウェアラブルデバイスに戻すこと、または顔モデルを別のユーザのウェアラブルデバイスに渡すことができる（例えば、テレプレゼンスセッション中）。

顔モデルの一部は、口形素、顎移動等のユーザの下側顔内の特徴を記述し得る。顔モデル内の下側顔の外形は、ユーザが異なる音を生成する（発話する等）ときに変化し得る。例えば、音は、音素に関連付けられ得、音素は、特定の言語における音の知覚的に明確に異なる単位である。音素は、１つの単語と別の単語を区別するために使用される。各音素は、口形素にさらにマッピングされ得、口形素は、音素が発せられるときに生じる顔外形を表すことができる。多くの言語では、口形素と音素との間に１対１の対応が存在せず、いくつかの音素が、単一口形素に対応し得る（例えば、各そのような音素は、発せられるときに顔上で同一に見える）。口形素は、顔のある外形に関連付けられた顔モデルパラメータ値によって表され得る。ユーザが異なる単語を発音するとき、口形素は、変化し得る。したがって、顔の外形は、変化し得、下側顔を記述する顔モデルにおけるパラメータも、適宜、更新され得る。

本明細書に説明されるように、いくつかの状況では、顔モデルは、ユーザがＨＭＤを装着しているとき、直接測定によって、ユーザの下側顔の外形における更新を取得することが不可能である場合がある（例えば、内向きに面した眼追跡カメラは、典型的には、下側顔を結像することができないため）。しかしながら、ＨＭＤは、内向きに面した結像システム（例えば、結像システム４６２または１１６０）を使用して、ユーザの眼球周囲特徴を観察することができる。図１３－１６を参照してさらに説明されるように、ＨＭＤは、機械学習導出モデルを使用して、観察される眼球周囲特徴と下側顔のパラメータをマッピングすることができる。これらの下側顔パラメータは、眼球周囲画像から導出されるパラメータとともに、ユーザの完全な顔結像を合成するために使用され得る。

（眼球周囲領域の例）
図１１を参照して説明されるように、結像システム１１６０によって入手された画像は、ユーザの眼球周囲領域の一部を含み得る。眼球周囲領域は、眼と、眼の周囲の領域とを含むことができる。図１２は、片眼に対する眼球周囲領域の例示的画像を図示する。この例では、眼球周囲領域１２００ａは、眼１２１０ａ（眼窩等）と、眼１２１０ａの周囲の領域とを含むことができる。眼１２１０ａの周囲の領域は、例えば、眉毛１２２０ａと、鼻の一部１２３０ａと、頬１２４０ａと、前額１２５０ａとを含み得る。眼球周囲領域は、１つ以上の眼球周囲特徴もしくは眼球周囲特徴の一部を含むことができる。眼球周囲特徴は、例えば、眼、眼窩、眉毛、鼻、頬、または前額を含み得る。顔の他の特徴またはユーザ特定の詳細も、眼球周囲特徴と見なされ得る。しかしながら、眼球周囲領域は、眼から離れている口または鼻の一部を除外し得る。いくつかの実装では、眼球周囲領域は、キーポイント、点群、ベクトルおよび行列、または他のタイプの数学的表現によって表され得る。

例示的画像１２００ａは、ユーザの眼球周囲領域１２７０を結像するＨＭＤのカメラから取得され得る。この例では、眼球周囲領域１２７０は、眼１２１０ａ（眼窩）、眉毛１２２０ａ、鼻の一部１２３０ａ、頬１２４０ａ、および前額１２５０ａ等の眼球周囲特徴を含む。各眼球周囲特徴は、眼球周囲特徴に関連付けられた種々の特性を有し得る。特性のうちのいくつかは、各眼球周囲特徴に特定のものであり得る。例えば、眼球周囲特徴眉毛１２２０ａは、眉毛の形状、眉毛の色、眉毛の可能性が高い移動または移動方向等を含む、特性を有し得る。眼球周囲特徴眼１２１０ａは、例えば、眼角の形状、サイズ、場所、視線方向、瞳孔場所、眼球中心の場所、眼瞼の形状およびしわ、眼球周囲の皮膚のテクスチャ等の特性を有し得る。多くの他の特性も、各眼球周囲特徴を識別および追跡するために使用され得る。１つ以上の眼球周囲特徴の１つ以上の特性は、キーポイント、点群、または他のタイプの数学的表現によって表され得る。

ウェアラブルデバイスは、スケール不変特徴変換（ＳＩＦＴ）、スピードアップロバスト特徴（ＳＵＲＦ）、方向付きＦＡＳＴおよび回転ＢＲＩＥＦ（ＯＲＢ）、バイナリロバスト不変スケーラブルキーポイント（ＢＲＩＳＫ）、高速網膜キーポイント（ＦＲＥＡＫ）等のニューラルネットワークまたは視覚的キーポイント技法を使用して、眼球周囲特徴および関連付けられた特性を算出および追跡することができる。いくつかの実施形態では、特定の顔特徴は、その特定の眼球周囲特徴のために特に設計された検出器を使用して追跡され得る。例えば、眼角、鼻特徴、口角等の眼球周囲特徴特性は、種々のアルゴリズムを使用して、別個に識別および追跡され得る。これらの眼球周囲特徴特性のうちの１つ以上のものを別個に追跡することは、ユーザが表情を作っている、または発話しているとき、各眼球周囲特徴および／または特性が、実質的運動を受けやすくあり得るので、有利であり得る。これらの眼球周囲特徴および特性を追跡するために使用されるアルゴリズムは、運動の範囲を考慮し得る。例として、いくつかの眼球周囲特徴および／または関連付けられた特性は、ある方向に移動する可能性が高くあり得、および／または他の方向においてより安定したままである可能性が高くあり得る（例えば、眉毛は、左右ではなく、上下に移動する傾向にある）。

ウェアラブルデバイスは、眼球周囲特徴の移動を統計的に分析することができる。これらの統計は、顔特徴がある方向に移動するであろう可能性を決定するために使用され得る。顔特徴の移動は、顔モデル内の１つ以上のパラメータの変形を計算するために使用されることができる。いくつかの実施形態では、１つ以上の眼球周囲特徴または特性は、除去され、または追跡されず、処理需要を低減させ、または信頼性を改良し得る。信頼性を改良することが所望される、状況では、その他より誤差を受けやすい眼球周囲特徴または特性を無視またはマスクすることが有利であり得る。例えば、いくつかの実施形態では、図１２Ｂを参照して説明されるように、ウェアラブルデバイスは、眼球周囲領域１２７０内の他方の眼球周囲特徴または特性を追跡するとき、眼移動がＨＭＤによって認識されないように、眼１２１０ｂの中心エリア１２１２内のピクセルを無視し得る。

ウェアラブルデバイスは、シーケンシャルベイズ推定器（例えば、カルマンフィルタ、拡張カルマンフィルタ等）、バンドル調整等の視覚的同時位置特定およびマッピング（ｖＳＬＡＭ）技法を使用して、眼球周囲特徴および特性を識別および追跡することもできる。いくつかの実施形態では、ウェアラブルデバイスは、ユーザの深度知覚およびマッピングを可能にするように構成され得る。例えば、ウェアラブルデバイスは、稠密マップを構築することができ、稠密マップは、１つ以上のカメラによって入手されたデータから顔の少なくとも一部をエンコードする。キーポイントマップとは対照的に、稠密マップは、その３Ｄ形状が測定される顔のパッチまたは領域を備え得る。

ウェアラブルデバイス上のカメラによって捕捉される眼球周囲領域内のサイズおよびコンテンツは、眼カメラのＦＯＶに依存し得る。いくつかの実装では、眼カメラは、捕捉された眼球周囲領域内の全ての認識可能眼球周囲特徴に適合するための大きいＦＯＶを有していないこともある。例えば、眼カメラによって捕捉された画像は、眼窩を含むが、眉毛を含まないこともある。カメラの技術的仕様は、眼球周囲領域の複数の捕捉されたフレーム内に存在したままである可能性が最も高い眼球周囲特徴、および追跡するために最も信頼性のある眼球周囲特徴を決定し得る。

図１１を参照して説明されるように、いくつかの状況では、各眼カメラは、眼を結像するように構成されるが、２つの眼カメラ（左眼に１つおよび右眼に１つ）は、重複眼球周囲領域がカメラによって結像されるように、重複ＦＯＶ１１３０を有し得る。これは、２つのカメラのＦＯＶが十分に広く、カメラがユーザの顔の中心に向かって内向きに角度付けられ、カメラが互いの近傍に位置付けられているからであり、および／または、２つのカメラがユーザから十分に遠く離れているからであり得る。その結果、ユーザの顔の一部、典型的には、中心部分（例えば、鼻）が、両方の眼カメラによって捕捉され得る。ウェアラブルデバイスは、２つのカメラから取得される画像を組み合わせ、組み合わせられた画像が眼球周囲特徴を含むかどうかを決定し得、眼球周囲特徴が画像内に存在すると決定される場合、ウェアラブルデバイスは、眼球周囲特徴を識別し得る。

（眼球周囲領域の画像を用いて下側顔の画像を生成する例）
眼球周囲領域の画像ならびに眼球周囲領域内の移動は、ＨＭＤの画像システムによって直接観察されることができないユーザの下側顔の画像を推測するために使用され得る。図１３は、機械学習導出モデルを訓練する例を図示し、それは、眼球周囲領域内の外形およびオーディオ入力を下側顔内の外形と互いに関係づけることができる。いくつかの状況では、外形は、顔モデル内のベクトルによって表され得る。機械学習導出モデルは、眼球周囲領域内の外形を表す１つ以上のパラメータの下側顔内の第２の外形を表す他のパラメータへのマッピングを含むことができる。

図１３におけるフロー図１３００は、本明細書に説明されるウェアラブルシステムによって実施され得る。例えば、機械学習導出モデルの訓練は、ローカル処理およびデータモジュール２６０、遠隔データリポジトリ２８０（図２に示される）内に記憶される訓練データを使用する遠隔処理モジュール２７０によって、実施され得る。例として、ＨＭＤは、モデルを訓練するために、画像およびオーディオ入力を入手し、それらをネットワークを介して別のコンピューティングデバイス（サーバ等）に通信することができる。

フロー図１３００では、眼球周囲外形および／またはオーディオ入力から下側顔１３３０の外形へのマッピング１３３０が、生成され得る。ある実装では、マッピング１３３０は、顔モデルの眼球周囲領域における調節または変形から顔モデル内の下側顔領域に対する別の調節または変形までを含むことができる。調節または変形は、顔のモデルの中立位置に対して決定され得る。マッピング１３３０は、下側顔の画像１３１２、眼球周囲画像１３１０、眼特定の情報１３１６、オーディオ入力１３１４を、単独で、または組み合わせて使用して生成され得る。眼球周囲領域の外形は、眼球周囲画像および／または眼特定の情報を含み得る。眼球周囲領域の外形は、眼球周囲顔パラメータ（例えば、ＤＬＭ内の顔空間パラメータ）によって記述（またはエンコード）され得る。下側顔の外形は、下側顔の画像または特徴を含み得る。下側顔の外形は、下側顔パラメータによって記述（またはエンコード）され得る。

眼球周囲画像１３１０、下側顔の画像１３１２、およびオーディオ入力１３１４は、ＨＭＤのユーザに特定のものであるか、またはあるグループの人々からのものであり得る。マッピング１３３０は、あるグループの人々からの情報に基づく汎用マッピングまたはユーザ特定の入力を使用した個々の特定のマッピングであり得る。マッピング１３３０は、あるグループの人々に一般的である情報にも基づくが、個々の特定の情報に基づいて、さらにカスタマイズされ得る。

眼球周囲画像１３１０および眼特定の情報１３１６は、内向きに面した結像システムによって入手され得る。眼球周囲画像１３１０は、眼球周囲特徴を含み得る。眼球周囲画像１３１０は、眼姿勢、瞳孔拡張状態、眼色、眼瞼状態等の眼特定の情報１３１６も含み得る。いくつかの実装では、顔モデルの顔パラメータは、眼特定の情報１３１６を考慮しないこともある。その結果、ウェアラブルシステムは、眼特定の情報１３１６を、眼球周囲顔パラメータと一緒に、別個の入力として入力し、機械導出学習モデルを訓練し得る。

下側顔の画像１３１２は、ウェアラブルデバイスの外部のカメラによって入手され得る。下側顔の画像１３１２は、外向きに面した結像システムによって入手されるようなユーザの顔の反射された結像も使用して取得され得る。いくつかの実施形態では、ＨＭＤは、外向きに面した結像システムと内向きに面した結像システムと（図４に示されるように）の両方を含み得る。ユーザが、反射表面の近傍（鏡の正面等）に存在するとき、ＨＭＤは、外向きに面した結像システムを使用したユーザの顔の反射された結像と、内向きに面した結像システムを使用した眼球周囲領域の画像とを同時に入手することができる。ウェアラブルデバイスは、ユーザが発話しているとき、マイクロホン等のオーディオ入力センサを使用して、音（例えば、オーディオ入力１３１４）を捕捉することができる。

オーディオ入力１３１４、眼球周囲画像１３１０、および下側顔の画像１３１２は、経時的に、および／または異なるユーザから入手され得る。例えば、ウェアラブルデバイスは、画像およびオーディオをユーザの複数のテレプレゼンスセッションにわたって記録し得る。ウェアラブルデバイスは、汎用マッピング１３３０を生成するためにも、それらを複数のユーザから入手し得る。

マッピング１３３０は、種々の入力を使用して生成され得る。一例として、マッピング１３３０は、眼球周囲画像１３１０および下側顔の画像１３１２を使用して訓練され得る。この例では、マッピング１３３０は、眼球周囲外形を下側顔の外形と互いに関係づけることができる。マッピング１３３０は、オーディオ入力１３１４、眼球周囲画像１３１０、および下側顔の画像を使用して生成され得る。その結果、マッピング１３３０は、音および対応する眼球周囲外形を下側顔の外形と互いに関係づけることができる。いくつかの状況では、外形は、顔モデル内のパラメータに関連付けられることができる。例えば、パラメータは、中立顔モデルからの偏差に基づく数学的表現を含み得る。マッピング１３３０は、下側顔のパラメータにマッピングされる眼球周囲領域のパラメータを含み得る。

いくつかの実施形態では、下側顔の画像１３１２は、マッピング１３３０を訓練するために利用可能ではないこともある。その結果、訓練プロセスは、音素１３２０をオーディオ入力１３１４から識別することと、音素を使用して、オーディオ入力１３１４において、口形素１３１８を決定することとを伴い得る。

マッピング１３３０は、眼球周囲画像１３１０と口形素１３１８との間の相関を伴い得る。加えて、または代替として、マッピング１３３０は、オーディオ入力内の音１３１４から口形素１３１８へのマッピングに関連付けられ得る。図１４および１６を参照してさらに説明されるように、口形素１３１８は、眼球周囲画像１３１０と組み合わせられ、顔画像を生成し得る。口形素は、あるグループの人々からのデータを使用して決定され得る。口形素は、ユーザ特定のデータにも基づいて決定され得る。例えば、ウェアラブルデバイスは、ユーザが発話しているとき、対応する口形素の画像を入手することができる。音素は、多くの音が同じ口形素を使用して発音され得るので、視覚的口形素との１対１のマッピングを有していないこともある。その結果、ウェアラブルデバイスは、オーディオ入力１３１４が異なる場合でも、同じ口形素を識別し得る。

ウェアラブルデバイスは、例えば、入手の時間に基づいて、下側顔の画像、眼球周囲領域の画像、および随意に、オーディオ入力を関連付けることができる。ある実施形態では、ウェアラブルデバイスは、音に基づいて、下側顔の画像と眼球周囲領域の画像とを関連付けることができる。一例として、ユーザは、ユーザが発話するとき、常時、反射表面の近傍に存在しないこともある。その結果、下側顔の画像は、眼球周囲領域の画像と異なる時間に入手され得る。ウェアラブルデバイスは、ユーザが鏡の正面に存在するとき、ユーザによって発話された単語ならびに単語に関連付けられた下側顔画像を識別することができ、同じ単語がユーザによって発話されたときに入手された眼球周囲画像を識別することができる。ウェアラブルデバイスは、故に、単語の音に基づいて、下側顔画像を眼球周囲領域の画像と接続することができる。

マッピングの出力１３３０は、顔の少なくとも一部の画像または顔パラメータを含み得る。例えば、下側顔領域が、ウェアラブルデバイスによって観察不可能である場合、ウェアラブルデバイスは、マッピング１３３０を眼球周囲画像（ウェアラブルデバイスによって観察可能である）に適用し、下側顔の画像、下側顔パラメータ、完全な顔画像、または完全な顔の顔パラメータを出力し得る。

マッピング１３３０は、下側顔の対応する顔パラメータまたは画像のための確率論的推定値を含み得る。例えば、ユーザの眼球周囲領域は、ユーザが異なる音を発している場合でも、類似外観を有し得る。その結果、マッピング１３３０は、下側顔内で観察されない顔パラメータが眼球周囲領域内で観察される顔パラメータに関連付けられるかどうかに関する可能性を提供し得る。ウェアラブルデバイスは、最も可能性が高い画像または顔パラメータを選別し得る。画像の可能性は、オーディオ入力、生理学的データ（瞳孔拡張状態、心拍数等）等の他の要因にも、単独で、または組み合わせて基づき得る。

種々の機械学習アルゴリズムが、このプロセスのために使用され得る。モデルを生成および更新するために使用され得る機械学習アルゴリズムのいくつかの例は、教師ありまたは教師なし機械学習アルゴリズムを含むことができ、回帰アルゴリズム（例えば、通常の最小２乗回帰等）、インスタンスベースのアルゴリズム（例えば、学習ベクトル量子化等）、決定ツリーアルゴリズム（例えば、分類および回帰ツリー等）、ベイズアルゴリズム（例えば、単純ベイズ等）、クラスタリングアルゴリズム（例えば、ｋ－平均クラスタリング等）、関連付けルール学習アルゴリズム（例えば、アプリオリアルゴリズム等）、人工ニューラルネットワークアルゴリズム（例えば、Ｐｅｒｃｅｐｔｒｏｎ等）、深層学習アルゴリズム（例えば、ＤｅｅｐＢｏｌｔｚｍａｎｎＭａｃｈｉｎｅまたは深層ニューラルネットワーク等）、次元低減アルゴリズム（例えば、主成分分析等）、アンサンブルアルゴリズム（例えば、ＳｔａｃｋｅｄＧｎｅｒａｌｉｚａｔｉｏｎ等）、および／または他の機械学習アルゴリズムを含む。いくつかの実施形態では、個々のモデルは、個々のデータ組のためにカスタマイズされることができる。例えば、ウェアラブルデバイスは、基本モデルを生成することができる。基本モデルは、開始点として使用され、データタイプ（例えば、特定のユーザ）、データ組（例えば、取得される追加の画像の組）、条件付き状況（例えば、ゲームプレー中のフィット感は、インターネットブラウジングの間のフィット感と異なり得る）、または他の変数に特定の追加のモデルを生成し得る。いくつかの実施形態では、ウェアラブルデバイスは、複数の技法を利用して、集約されたデータの分析のためのモデルを生成するように構成されることができる。他の技法は、事前に定義された閾値またはデータ値の使用を含み得る。経時的に、ウェアラブルデバイスは、機械学習導出モデル１３３０を更新し続けることができる。

図１３を参照すると、基本モデルは、あるグループの人々からのデータを使用して生成されるような眼球周囲画像と下側顔のマッピングを含み得る。マッピング１３３０は、ＨＭＤの数人のユーザの各々のために、カスタマイズされ得る（例えば、家族は、単一ＨＭＤの使用を共有し得、家族の１人ずつにマッピングをカスタマイズすることができる）。

（顔画像を合成する例）
図１４は、顔の一部がウェアラブルデバイスによって観察されないとき顔の画像を生成する例を図示する。図１４におけるフロー図１４００は、本明細書に説明されるウェアラブルデバイスによって実施され得る。この例では、ウェアラブルデバイスは、内向きに面した結像システムを含み得、それは、ユーザの眼球周囲画像１４１０を入手することができる。ウェアラブルデバイスは、オーディオセンサも含むことができ、それは、オーディオ入力１４１４をユーザから取得することができる。しかしながら、内向きに面した結像システムは、ユーザの下側顔の画像を入手することができないこともある。

ユーザの顔の画像を合成するために、ウェアラブルデバイスは、機械学習導出モデル１４２０をオーディオ入力１４１４および／または眼球周囲画像１４１０に適用することができる。機械学習導出モデル１４２０は、図１３に説明されるマッピング１３３０を生成し得る。ウェアラブルデバイスは、ユーザが発話するとき、オーディオストリームをオーディオセンサから受信することができる。ウェアラブルデバイスは、機械学習導出モデル１４２０にアクセスすることができ、それは、音素から口形素へのマッピングを提供し得る。ウェアラブルデバイスは、オーディオストリームを機械学習導出モデル１４２０にフィードし、オーディオストリーム内の音の口形素１４３０を取得することができる。口形素は、眼球周囲画像１４１０と組み合わせられ、顔の画像１４５０を生成し得る。

加えて、または代替として、ウェアラブルデバイスは、機械学習導出モデル１４３０を眼球周囲画像１４１０とオーディオ入力１４１４との組み合わせに適用し、口形素１４３０を取得することができる。この例では、機械学習導出モデル１４２０は、音および眼球周囲画像から口形素へのマッピングを生成し得る。

別の例として、機械学習導出モデル１４２０は、眼球周囲画像から下側顔画像（または口形素）へのマッピングを含み得る。ウェアラブルデバイスは、機械学習導出モデル１４２０を内向きに面した結像システムによって入手された眼球周囲画像に適用することによって、口形素を取得することができる。

マッピング画像に加え、またはその代替として、機械学習導出モデル１４２０は、眼球周囲顔パラメータから下側顔パラメータ、眼球周囲特徴から下側顔パラメータ／画像、または眼球周囲特徴／画像／顔パラメータから完全な顔画像もしくはパラメータ等の他のタイプの外形に関するマッピングも提供し得る。例として、ウェアラブルデバイスは、眼球周囲画像１４１０に基づいて、眼球周囲顔パラメータを計算することができる。ユーザが発話しているとき、ウェアラブルデバイスは、眼球周囲画像１４１０から決定されるような眼球周囲顔パラメータおよび音を機械学習導出モデル１４２０の中に入力することができる。機械学習導出モデル１４２０によって生成されたマッピングは、推定された現在の口形素１４３０を出力し得る。現在の口形素１４３０は、下側顔パラメータのための推定値を生成するために使用され得る。いくつかの状況では、眼球周囲顔パラメータは、眼特定の情報１３１６を考慮しないこともある。その結果、ウェアラブルデバイスは、口形素１４３０を決定するために、眼特定の情報１３１６を機械学習導出モデル１４２０の中にマッピングにおける要因（眼球周囲顔パラメータと別個の要因等）として入力し得る。

いくつかの実装では、機械学習導出モデル１４２０は、口形素に加え、またはその代替として、顔の画像を出力し得る。例えば、機械学習導出モデル１４２０は、オーディオ入力１４１４および眼球周囲画像を完全な顔の画像に関連付け得る。したがって、ウェアラブルシステムは、機械学習導出モデル１４２０からの出力を受信後、顔の画像１４５０を合成する必要はない。ある実装では、機械学習導出モデル１４２０は、３Ｄ顔モデルの顔パラメータを出力し得、顔パラメータは、口形素１４３０または顔の画像１４５０に関連付けられ得る。

ウェアラブルシステムは、下側顔の外形と眼球周囲領域とを組み合わせ、顔の画像１４５０を生成することができる。例えば、ウェアラブルシステムは、眼球周囲画像と下側顔の画像とを組み合わせ、完全な顔画像を作成することができる。いくつかの実装では、ウェアラブルシステムは、以前に生成された顔モデル１４４０を観察される眼球周囲画像１４１０と推定された口形素１４３０とで動的に更新し、ユーザが発話しているときの顔の画像を作成することができる。顔モデル１４４０は、あるグループの人々からのデータに基づいて、生成された汎用モデルであり得る。顔モデル１４４０は、ユーザ特定であり得る。例えば、顔モデルは、ユーザがデバイスを着けている間、内向きに面した結像システムによって入手された画像を用いて生成され得る。

ユーザは、例えば、異なる顔特徴およびテクスチャマップを選択することによって、顔モデルをカスタマイズすることもできる。例として、ユーザは、空想科学小説上のエイリアン等の空想上の創造物の外観を選択することができる。

ウェアラブルデバイスは、ユーザが発話しているときの顔のモデルの１つ以上の顔パラメータを動的に更新し、ユーザの顔移動を反映することができる。例えば、ウェアラブルデバイスは、眼球周囲領域の新しい画像に基づいて、眼球周囲顔パラメータ１４１０に対する変化を計算することによって、顔モデルの眼球周囲領域を更新することができる。ウェアラブルデバイスは、眼球周囲画像１４１０に基づいて推定された口形素１４３０を使用して、ユーザの下側顔を更新することもできる。

加えて、または代替として、ウェアラブルデバイスは、眼球周囲領域、口形素１４３０、およびユーザの顔の他の部分からの画像１４１０を組み合わせることによって、ユーザの顔の表情を動画化することができる。例えば、ユーザが音を発すると、眼球周囲領域の画像１４１０および口形素の画像１４３０は、音に基づいて変化し得る。しかし、いくつかの実装では、眼球周囲領域の画像１４１０または口形素の画像１４３０の１つのみが、変化し得る。例えば、ユーザは、異なる音を発する間、同一眼球周囲表現を有し得る。

いくつかの状況では、マッピング１３３０は、中間段階において、下側顔の可能な外形の組の各々が観察される眼球周囲領域の外形に合致する可能性を生成し得る。ウェアラブルシステムは、そのような外形が閾値基準に達する場合、最高の可能性に関連付けられた下側顔の外形を選択し得る。ウェアラブルデバイスは、受信された入力に基づいて、下側顔の推定された外形の正確度も計算し得る。

顔の画像１４５０は、テレプレゼンスセッションにおいて使用され得る。例えば、２人のユーザがテレプレゼンスセッション中であるとき、ユーザのウェアラブルデバイスは、ユーザの顔パラメータまたは顔の画像に関する更新を他のユーザのウェアラブルデバイスに通信し得る。他のユーザのウェアラブルデバイスは、したがって、更新された顔パラメータに基づいて、ユーザの仮想外観（例えば、ユーザの顔）の動画を更新または提供し、ユーザが発話するとき、より生き生きとした動画を提供し得る。

いくつかの実装では、顔パラメータは、眼特定の情報１３１６を含まないこともある。しかし、マッピングは、それにもかかわらず、内向きに面した結像システムによって観察されるような眼特定の情報１３１６を顔の画像内に組み込み得る。例えば、眼特定の情報は、マッピングが訓練されるとき、別個の入力として使用され得る。ウェアラブルデバイスは、眼特定の情報１３１６のためのパラメータを別のユーザのウェアラブルデバイスに渡すこともでき、それは、ユーザの仮想外観におけるユーザの眼移動を含み、それを更新することができる。

例は、眼球周囲画像を使用して、下側顔の外形を推測することを参照して説明されるが、類似技法は、ユーザの頬またはユーザの身体移動（例えば、ユーザが怒っているとき腕を振る）等、ユーザの他の観察されない領域の移動または画像を推測するためにも使用され得る。例えば、あるユーザに対して、頭部移動と顔の表情（下側顔移動または眼球周囲移動等）との間に強い相関があり得る。ウェアラブルデバイスは、図２に説明されるＩＭＵを使用して、頭部移動データを入手し、頭部移動データを使用して、少なくとも顔パラメータの一部または顔画像の一部を推測することができる。いくつかの状況では、眼球周囲領域は、結像されないこともある一方、ユーザの他の領域は、結像され得る。例えば、ウェアラブルデバイスは、例えば、外向きに面した結像システムを使用して、ユーザの顔の反射された結像を入手することによって、ユーザの下側顔の画像を取得し得る。別の例として、外部カメラが、ユーザの身体移動およびユーザの頭部の移動を観察するために使用されることができる。しかしながら、眼球周囲領域は、眼球周囲領域がウェアラブルデバイスによって塞がれているので、外向きに面した結像システムまたは外部カメラが使用されるとき、結像されないこともある。ウェアラブルデバイスは、類似技法を使用して、下側顔の観察される画像を用いて、眼球周囲領域の外形を推測し得る。ウェアラブルデバイスは、下側顔の外形と眼球周囲外形とのマッピングを生成し、マッピングを適用し、観察される領域の画像および／またはオーディオ入力を使用して、眼球周囲外形を決定し得る。例えば、マッピングは、口形素１４３０から眼球周囲画像１４１０へのものであり得る。ウェアラブルデバイスは、オーディオ入力を使用して、音素を決定することができ、それは、口形素１４３０を決定するためにさらに使用されることができる。ウェアラブルデバイスは、口形素１４３０および／またはオーディオ入力を使用して、対応する眼球周囲画像／パラメータを識別することができる。

いくつかの実装では、入手された眼球周囲画像は、片方の眼のみのための情報を含み得る。ウェアラブルデバイスは、入手された眼球周囲画像に基づいて、他方の眼のための画像を生成するか、または眼球周囲顔パラメータを決定し得る。例えば、２つの眼の移動が同じ方向であり得ること、眼色が同じであり得ること、２つの眼のための形状が類似し得ること、２つの眼が対称であり得ること、等。ウェアラブルデバイスは、片眼の情報（例えば、ユーザが単語を発話しているときに眼がある方向を見ている、ユーザが興奮しているときにユーザの瞳孔が瞳孔拡張する等）を使用して、他方の眼のための情報を決定し、両眼のための眼球周囲画像を顔の画像に組み込むことができる。

加えて、または代替として、本明細書に説明される技法は、皮膚テクスチャをモデル化するためにも使用され得る。例えば、観察されない下側顔の皮膚色は、観察される眼球周囲領域の皮膚色に合致する必要があり得る。いくつかの実装では、人物の人口統計特性（年齢、性別、人種等）ならびに皮膚状態が、眼球周囲画像から決定され得る。機械学習導出モデル１４２０は、眼球周囲特徴の観察される特性から下側顔特徴の特性へのマッピングを含み得る。例えば、眼球周囲画像が、多くのしわを含む場合、マッピングは、下側顔画像もしわを有するべきことを推測するために使用され得る。

（眼球周囲画像を使用して完全な顔画像を合成する例示的プロセス）
図１５Ａは、眼球周囲領域の画像と下側顔の画像との間のマッピングを生成する例示的プロセスを説明する。プロセス１５００は、本明細書に説明されるウェアラブルデバイスによって実施され得る。

ブロック１５１０ａでは、ウェアラブルデバイスは、眼球周囲画像および音に対するオーディオ入力にアクセスすることができる。眼球周囲画像およびオーディオ入力は、あるグループの人々から取得されるか、または、あるユーザに特定であり得る。

ブロック１５２０ａでは、ウェアラブルデバイスは、眼球周囲画像またはオーディオ入力に基づいて、口形素を識別することができる。例えば、ウェアラブルデバイスは、オーディオ入力内の音素を識別することができ、音素は、口形素にさらに関連付けられ得る。ウェアラブルデバイスは、機械学習技法を使用して、音素から口形素へのマッピングを生成し得る。

ウェアラブルデバイスは、機械学習技法を使用して、口形素を眼球周囲画像に関連付けることができる。例えば、人物が怒っているとき、人物は、ある単語を発話する（したがって、ある口形素を有する）傾向にあり得、ある表情を眼球周囲領域内に有し得る。機械学習導出モデルは、ブロック１５３０ａに示されるように、眼球周囲画像を口形素と互いに関係づけ、眼球周囲画像から口形素へのマッピングを生成することができる。

音素に基づいて、口形素を決定することに加え、またはその代替として、ウェアラブルデバイスは、例えば、外部カメラを使用して人物の顔を結像することによっても、または、外向きに面した結像システムを使用して反射された画像を入手することによっても、眼球周囲画像に対応する下側顔の画像（口形素を含む）を入手することができる。ブロック１５３０ａでは、ウェアラブルデバイスは、眼球周囲画像、下側顔の画像、および随意に、オーディオ入力を入力し、眼球周囲画像、オーディオ入力、または組み合わせから下側顔の画像へのマッピングを生成することができる。マッピングは、眼球周囲顔パラメータを使用して生成され得る。例えば、マッピングは、眼球周囲顔パラメータを下側顔パラメータと互いに関係づけ得る。眼球周囲顔パラメータは、眼球周囲画像に基づいて計算され得る一方、下側顔パラメータは、口形素に基づいて計算され得る。

ブロック１５４０ａでは、ウェアラブルデバイスは、随意に、マッピングがあるグループの人々から入手されたデータに基づいて生成される場合、特定のユーザへのマッピングを調整することができる。例えば、ウェアラブルデバイスは、追加のオーディオ情報、ユーザの眼球周囲画像、またはユーザの下側顔の画像にアクセスし、顔のユーザ特定の外形をマッピングの中に組み込むことができる。いくつかの実施形態では、マッピングは、より多くのユーザ特定の情報が取得されるにつれて、経時的に訓練され得る。例えば、ウェアラブルデバイスは、ユーザの発話、眼球周囲画像、または下側顔の画像を経時的に記録することができる。マッピングは、入手された新しい情報に基づいて更新され得る。例として、ウェアラブルデバイスは、毎日、毎週、毎月等、またはウェアラブルデバイスとのユーザの相互作用に基づいて、マッピングを更新し得る。

図１５Ｂは、マッピングを訓練する別の例示的プロセスを図示し、それは、入力としての眼球周囲領域内の顔パラメータおよび／または音素、および出力としての下側顔パラメータを有する。プロセス１５００ｂは、本明細書に説明されるウェアラブルデバイスまたは遠隔コンピューティングシステムによって実施され得る。遠隔コンピューティングシステムは、大きいデータ組に対するデータ分析を実施するように構成されるコンピュータサーバを含み得る。

ブロック１５１０ｂでは、コンピュータシステムは、対の関連付けられた眼球周囲画像と下側顔画像とを含む訓練データにアクセスすることができる。加えて、または代替として、訓練データは、対の関連付けられたオーディオセグメントと下側顔画像とを含むこともできる。これらの画像およびオーディオセグメントは、同じユーザまたは複数のユーザに関連付けられ得る。訓練データは、図２に説明される遠隔データリポジトリ２８０内に記憶され得る。眼球周囲画像は、内向きに面した結像システム４６２を使用して入手され得る。下側顔画像は、外向きに面した結像システム４６４を使用して入手され得る（例えば、ユーザが鏡の正面に存在するとき）。オーディオセグメントは、マイクロホン等のウェアラブルデバイスのオーディオセンサを使用して入手され得る。

ある場合、特徴ベクトル（入力眼球周囲画像およびオーディオセグメントから抽出された各マッピングへの入力）は、音素に対応する入力パラメータの１つの部分組と、眼球周囲領域導出顔パラメータに対応する入力パラメータの１つの部分組とを有する。下側顔パラメータの組の各々のために１つの複数のマッピングが存在し得る。各々がパラメータの異なるリストを有する異なる特徴ベクトルが、各下側顔パラメータのための別個のマッピングにおいて使用されることができる。

コンピュータシステムは、ブロック１５２０ｂおよび１５３０ｂにおいて、それぞれ、眼球周囲画像および下側顔画像内の顔モデルの顔パラメータ（眼球周囲顔パラメータおよび下側顔パラメータ等）を識別するために画像処理技法を使用することができる。画像処理技法は、眼球周囲特徴および下側顔特徴を識別するためのニューラルネットワーク、視覚的キーポイント技法、または他の顔特徴認識技法を含み得る。

ブロック１５４０ｂでは、コンピュータシステムは、発話処理によって、音素をオーディオセグメントから抽出することができる。例えば、コンピュータシステムは、ある期間にわたってウェアラブルデバイスによって記録されるオーディオセグメントを受信することができる。コンピュータシステムは、発話処理技法を使用して発話処理内の音節を識別することができる。いくつかの実施形態では、音素は、口形素にさらに関連付けられ得、それは、下側顔パラメータを決定するために使用され得る。

ブロック１５５０ｂでは、コンピュータシステムは、機械学習技法を使用して、マッピングを訓練することができる。眼球周囲領域パラメータは、マッピングの入力であり得る一方、下側顔パラメータは、マッピングの出力であり得る。いくつかの実施形態では、入力は、音素またはオーディオストリームも含み得る。マッピングの出力は、下側顔パラメータも含み得、それは、眼球周囲領域顔パラメータと組み合わせられ、完全な顔パラメータの組を取得することができる。

図１６Ａは、顔の一部がウェアラブルデバイスによって観察されないとき、完全な顔画像を合成する例示的プロセスを説明する。プロセス１６００ａは、本明細書に説明されるウェアラブルデバイスによって実施され得る。

ブロック１６１０ａでは、ウェアラブルデバイスは、眼球周囲領域の外形にアクセスすることができる。外形は、顔パラメータ（例えば、顔特徴ベクトル等）を使用してエンコードされ得る。外形は、ユーザが発話しているときに入手された眼球周囲画像によって決定され得る。ウェアラブルデバイスは、下側顔の外形を生成するために、機械学習導出モデルにアクセスすることができる。この例では、下側顔の外形は、ユーザが発話するとき、ウェアラブルデバイスによって結像されない。機械学習導出モデルは、図１４に説明される機械学習導出モデル１４２０の例であり得る。例えば、機械学習導出モデルは、オーディオ入力から、単独で、または眼球周囲外形と組み合わせて、下側顔の外形へのマッピングを含み得る。マッピングは、１つ以上の眼球周囲顔パラメータを入力として受け取り、下側顔パラメータを出力することができる。

ブロック１６２０ａでは、ウェアラブルデバイスは、オーディオストリームを受信することができる。ウェアラブルデバイスは、ユーザが発話すると、ユーザによって生成された音を捕捉し得るオーディオセンサ（マイクロホン等）を含むことができる。

ブロック１６３０ａでは、ウェアラブルデバイスは、機械学習導出モデルをオーディオストリームに適用し、下側顔に関する外形を生成することができる。例えば、機械学習導出モデルは、音素から口形素へのマッピングを含み得る。ウェアラブルデバイスは、オーディオストリームにおける音素を識別し、対応する口形素をオーディオストリームから生成することができる。口形素は、１つ以上の顔パラメータ（下側顔パラメータ等）によってエンコードされ得る。ウェアラブルデバイスは、オーディオ入力を眼球周囲領域の画像とともに使用して、対応する下側顔の画像を識別することもできる。いくつかの実施形態では、１つの眼球周囲領域の画像または１つの音素が、複数の下側顔の画像に関連付けられ得、下側顔の各画像は、合致の可能性に関連付けられ得る。ウェアラブルデバイスは、最高の可能性を有する下側顔の画像を選別し得る。合致の可能性は、ウェアラブルデバイスが有する情報の量に基づいて変化し得る。例えば、画像の可能性は、ウェアラブルデバイスが眼球周囲画像とともに音を提供する場合、ウェアラブルデバイスが眼球周囲画像のみを提供する場合と比較して、増加または減少し得る。

ブロック１６４０ａでは、ウェアラブルデバイスは、眼球周囲領域の外形と下側顔の外形とを組み合わせ、完全な顔画像を生成することができる。ブロック１６４０ａは、随意に、眼球周囲画像と、オーディオストリームとを入手するウェアラブルデバイスによって実施され得る。いくつかの実装では、ウェアラブルデバイスが、片眼のみのための画像を有する場合、ウェアラブルデバイスは、他方の眼のための画像を生成し、他方の眼のための画像を完全な顔画像の中に組み込むことができる。ウェアラブルデバイスはまた、眼球周囲領域および下側顔の変化に基づいて、既存の顔画像の一部を更新することができる。

随意に、ブロック１６５０ａでは、ウェアラブルデバイスは、テレプレゼンスセッション中等、顔画像を別のユーザのウェアラブルデバイスに通信することができる。いくつかの実施形態では、ウェアラブルデバイスは、下側顔外形および眼球周囲外形を別のユーザのウェアラブルデバイスに通信し得る。他のユーザのウェアラブルデバイスは、受信された下側顔外形および眼球周囲外形を使用して、組み合わせ、完全な顔画像を生成することができる。

ウェアラブルデバイスは、顔画像に関する更新を他のユーザのウェアラブルデバイスに通信することができる。顔画像に関する更新は、リフレッシュレートに従い得る。例えば、ユーザの顔画像は、他のユーザのウェアラブルデバイスのフレームレートにおいて、または１／２４秒、１／４８秒、１秒、２秒毎に等、所定の時間インターバルにおいて更新され得る。他のユーザのウェアラブルデバイスは、他のユーザの顔画像への受信された更新に基づいて、ユーザの仮想アバタを更新することができる。

いくつかの実装では、ウェアラブルデバイスは、完全な顔画像を合成するために、下側顔の外形および／または眼球周囲領域をエンコードする顔パラメータを別のウェアラブルデバイスに渡すことができる。例えば、ウェアラブルデバイスは、顔パラメータ（完全な顔画像の代わりに）を別のウェアラブルデバイスに通信することができ、別のウェアラブルデバイスは、受信された顔パラメータを使用して、完全な顔画像を合成するであろう。

図１６Ｂは、第１のユーザの顔を表すパラメータを生成し、パラメータを第２のユーザのウェアラブルデバイスに通信する例を図示し、パラメータは、第１のユーザの顔の仮想表現を生成するために使用されることができる。図１６Ｂに説明されるプロセス１６００ｂは、本明細書に説明されるウェアラブルデバイスによって実施され得る。

ブロック１６１０ｂでは、第１のユーザのウェアラブルデバイスは、第１のユーザの眼球周囲画像を入力として受信することができる。ブロック１６２０ｂにおいて、例えば、内向きに面した結像システム４６２は、第１のユーザの眼球周囲領域の画像を入手し、顔モードパラメータを眼球周囲領域の画像から抽出するために、画像をプロセッサに通信することができる。

ブロック１６３０ｂでは、ウェアラブルデバイスは、入力オーディオストリームを第１のユーザのマイクロホンから受信することができる。マイクロホンは、ウェアラブルデバイスの一部であり得る。ブロック１６４０ｂでは、ウェアラブルデバイスは、発話処理によって、音素をオーディオストリームから抽出することができる。音素は、口形素に関連付けられ得る。

ブロック１６５０ｂでは、眼球周囲顔パラメータおよび音素が、機械学習技法によって訓練されたマッピング（例えば、ブロック１５５０ｂにおいて訓練されたマッピング等）の中に入力されることができる。マッピングは、眼球周囲顔パラメータおよび音素に対応する下側顔パラメータの組を出力することができる。

ブロック１６６０ｂでは、第１のユーザのウェアラブルデバイスは、眼球周囲顔パラメータおよび下側顔パラメータを第２のユーザのウェアラブルデバイスに通信することができる。第２のユーザのウェアラブルデバイスは、ブロック１６７０において、受信された眼球周囲顔パラメータおよび下側顔パラメータを使用して、第１のユーザの顔の画像を生成および表示することができる。いくつかの実施形態では、第１のユーザのウェアラブルデバイスは、眼球周囲顔パラメータまたは下側顔パラメータに対する更新（完全な顔パラメータの組の代わりに）を第２のユーザのウェアラブルデバイスに送信する。第２のユーザのウェアラブルデバイスは、故に、更新に基づいて、第１のユーザの画像を調節することができる。

（追加の側面）
第１の側面では、顔の画像を生成する方法であって、方法は、コンピュータプロセッサと、ユーザの眼球周囲領域を結像するように構成された内向きに面した結像システムと、オーディオセンサとを備えている頭部搭載型デバイス（ＨＭＤ）の制御下で、内向きに面した結像システムによって、ユーザの眼球周囲領域の画像を入手することと、少なくとも部分的に画像に基づいて、ユーザの少なくとも眼球周囲領域の眼球周囲外形をエンコードする眼球周囲顔パラメータを生成することと、オーディオセンサによって、ユーザによって発話されたオーディオストリームを入手することと、オーディオストリームにおける音素を識別することと、マッピングにアクセスすることであって、マッピングの入力は、音素およびユーザの眼球周囲領域の画像を備え、マッピングの出力は、ユーザの少なくとも下側顔の下側顔外形をエンコードする下側顔パラメータを備えている、ことと、眼球周囲顔パラメータと下側顔パラメータとを組み合わせ、完全な顔パラメータを生成することとを含む、方法。

第２の側面では、眼球周囲顔パラメータおよび下側顔パラメータは、３次元（３Ｄ）顔モデルの一部である、側面１に記載の方法。

第３の側面では、３Ｄ顔モデルは、変形可能線形モデルを備え、眼球周囲顔パラメータおよび下側顔パラメータは、ユーザが発話しているときの顔の変形を記述する側面２に記載の方法。

第４の側面では、完全な顔パラメータを生成することは、３Ｄ顔モデルを更新し、下側顔パラメータまたは眼球周囲顔パラメータのうちの少なくとも１つに対する更新を反映することを含む、側面３に記載の方法。

第５の側面では、マッピングの入力は、ユーザの眼姿勢、瞳孔拡張状態、眼色、または眼瞼状態のうちの少なくとも１つを含む眼特定の情報をさらに含む、側面１－４のいずれか１項に記載の方法。

第６の側面では、下側顔パラメータは、オーディオストリームにおける音素を視覚的に記述する口形素をエンコードする、側面１－５のいずれか１項に記載の方法。

第７の側面では、完全な顔パラメータを別のユーザのウェアラブルデバイスに通信することをさらに含む、側面１－６のいずれか１項に記載の方法。

第８の側面では、マッピングは、眼球周囲顔パラメータが下側顔パラメータに関連付けられている可能性を含み、下側顔パラメータは、それらが閾値基準に達していることの決定に応答して、完全な顔画像を生成するために選択される、側面１－７のいずれか１項に記載の方法。

第９の側面では、少なくとも部分的に眼球周囲領域の画像に基づいて、ユーザの顔の皮膚テクスチャを推測することをさらに含む、側面１－８のいずれか１項に記載の方法。

第１０の側面では、内向きに面した結像システムは、眼カメラを備え、内向きに面した結像システムによって入手された眼球周囲領域の画像は、第１の眼のための眼球周囲領域の画像を備えている、側面１－９のいずれか１項に記載の方法。

第１１の側面では、完全な顔パラメータを生成することは、内向きに面した結像システムによって入手された眼球周囲領域の画像に基づいて、第２の眼のための眼球周囲顔パラメータを決定することと、第２の眼のための眼球周囲顔パラメータを完全な顔パラメータの中に組み込むこととを含む、側面１０に記載の方法。

第１２の側面では、マッピングの入力は、身体移動または心拍数をさらに含む、側面１－１１のいずれか１項に記載の方法。

第１３の側面では、画像は、写真、ビデオフレーム、またはビデオのうちの少なくとも１つを含む、側面１－１２のいずれか１項に記載の方法。

第１４の側面では、顔の画像を生成する方法であって、方法は、コンピュータプロセッサと、ユーザの眼球周囲領域を結像するように構成された内向きに面した結像システムとを備えている頭部搭載型デバイス（ＨＭＤ）の制御下で、内向きに面した結像システムによって、ユーザの眼球周囲領域の眼球周囲画像を入手することと、少なくとも部分的に画像に基づいて、ユーザの少なくとも眼球周囲領域の眼球周囲外形をエンコードする眼球周囲顔パラメータを生成することと、ユーザの少なくとも下側顔の下側顔外形をエンコードする下側顔パラメータを生成するマッピングにアクセスすることであって、マッピングは、少なくとも部分的にユーザの眼球周囲領域の眼球周囲画像に基づく、ことと、眼球周囲顔パラメータと下側顔パラメータとを組み合わせ、完全な顔パラメータを生成することと、少なくとも部分的に完全な顔パラメータに基づいて、顔の画像を生成することとを含む、方法。

第１５の側面では、下側顔外形は、口形素を含み、マッピングは、少なくとも部分的に眼球周囲画像およびオーディオ入力に基づいて、下側顔パラメータを生成する、側面１４に記載の方法。

第１６の側面では、眼球周囲顔パラメータおよび下側顔パラメータは、３次元（３Ｄ）顔モデルの一部である、側面１４－１５のいずれか１項に記載の方法。

第１７の側面では、３Ｄ顔モデルは、変形可能線形モデルを備え、眼球周囲顔パラメータおよび下側顔パラメータは、ユーザが発話しているときの顔の変形を記述する、側面１６に記載の方法。

第１８の側面では、完全な顔パラメータを生成することは、３Ｄ顔モデルを更新し、下側顔パラメータまたは眼球周囲顔パラメータのうちの少なくとも１つに対する更新を反映することを含む、側面１７に記載の方法。

第１９の側面では、マッピングの入力は、眼特定の情報をさらに含み、眼特定の情報は、ユーザの眼姿勢、瞳孔拡張状態、眼色、または眼瞼状態のうちの少なくとも１つを含む、側面１４－１８のいずれか１項に記載の方法。

第２０の側面では、完全な顔パラメータを別のユーザのウェアラブルデバイスに通信することをさらに含む、側面１４－１９のいずれか１項に記載の方法。

第２１の側面では、マッピングは、眼球周囲顔パラメータが下側顔パラメータに関連付けられている可能性を含み、下側顔パラメータは、それらが閾値基準に達していることの決定に応答して、完全な顔画像を生成するために選択される、側面１４－２０のいずれか１項に記載の方法。

第２２の側面では、少なくとも部分的に眼球周囲領域の画像に基づいて、ユーザの顔の皮膚テクスチャを推測することをさらに含む、側面１４－２１のいずれか１項に記載の方法。

第２３の側面では、マッピングの入力は、身体移動または心拍数をさらに含む、側面１４－２２のいずれか１項に記載の方法。

第２４の側面では、完全な顔パラメータを生成することは、内向きに面した結像システムによって入手された眼球周囲領域の画像に基づいて、第２の眼のための眼球周囲顔パラメータを決定することと、第２の眼のための眼球周囲顔パラメータを完全な顔パラメータの中に組み込むこととを含む、側面１４－２３のいずれか１項に記載の方法。

第２５の側面では、画像を生成することは、ユーザの顔の画像を所定の時間インターバルにおいて更新することを含む、側面１４－２４のいずれか１項に記載の方法。

第２６の側面では、画像は、静止画像またはビデオフレームのうちの少なくとも１つを含む、側面１４－２５のいずれか１項に記載の方法。

第２７の側面では、顔の画像を生成するためのシステムであって、システムは、ユーザの眼球周囲領域を結像するように構成された内向きに面した結像システムと、オーディオセンサと、側面１－２６に記載の方法を実施するように構成されたコンピュータプロセッサとを備えている、システム。

第２８の側面では、ユーザの眼球周囲顔の領域の第１の外形からユーザの顔の第２の外形へのマッピングを生成する方法であって、方法は、ハードウェアコンピュータシステムの制御下で、眼球周囲領域の第１の外形に関連付けられた第１の複数の画像にアクセスすることと、顔の第２の外形に関連付けられた第２の複数の画像を決定することと、第１の複数の画像および第２の複数の画像を使用して、機械学習導出モデルを訓練して、眼球周囲領域の第１の外形から顔の第２の外形へのマッピングを生成することと、マッピングをユーザの拡張現実デバイスに出力することであって、拡張現実デバイスは、ユーザの観察される第１の外形をマッピングの中に入力し、ユーザの予測される第２の外形の出力を受信する、こととを含む、方法。

第２９の側面では、顔の第２の外形は、ユーザの下側顔の外形を含む、側面２８に記載の方法。

第３０の側面では、第１の外形は、眼球周囲顔パラメータによってエンコードされ、第２の外形は、下側顔パラメータまたは完全な顔パラメータのうちの少なくとも１つによってエンコードされる、側面２８－２９のいずれか１項に記載の方法。

第３１の側面では、眼球周囲顔パラメータおよび下側顔パラメータは、３次元（３Ｄ）顔モデルの一部である、側面３０に記載の方法。

第３２の側面では、３Ｄ顔モデルは、変形可能線形モデルである、側面３１に記載の方法。

第３３の側面では、第２の複数の画像は、頭部搭載型デバイスの外向きに面した結像システムまたは外向きに面した結像システムの外部のカメラのうちの少なくとも１つによって入手される、側面２８－３２のいずれか１項に記載の方法。

第３４の側面では、第１の複数の画像に対応するオーディオストリームにアクセスすることをさらに含み、第２の複数の画像は、口形素を含み、口形素は、オーディオストリームに関連付けられた音素を識別し、識別された音素に関連付けられた口形素にアクセスすることによって決定される、側面２８－３３のいずれか１項に記載の方法。

第３５の側面では、機械学習導出モデルは、顔の外形が眼球周囲領域の外形に合致する可能性を含む、側面２８－３４のいずれか１項に記載の方法。

第３６の側面では、機械学習導出モデルは、第１の複数の画像および第２の複数の画像に関連付けられたオーディオストリームまたは眼特定の情報のうちの少なくとも１つを使用してさらに訓練される、側面２８－３５のいずれか１項に記載の方法。

第３７の側面では、ユーザの第１の顔の領域からユーザの顔の第２の領域へのマッピングを生成する方法であって、方法は、ハードウェアコンピュータシステムの制御下で、第１の領域の第１の外形に関連付けられた第１の複数の画像にアクセスすることと、第２の領域の第２の外形に関連付けられた第２の複数の画像を決定することであって、第１の領域の第１の外形の各々は、第２の領域の第２の外形のうちの少なくとも１つに関連付けられている、ことと、第１の複数の画像および第２の複数の画像を使用して、機械学習導出モデルを訓練して、第１の領域の第１の外形から第２の領域の第２の外形へのマッピングを生成することとを含む、方法。

第３８の側面では、第１の領域は、眼球周囲領域であり、第２の領域は、完全な顔または下側顔領域である、側面３７に記載の方法。

第３９の側面では、第１の領域は、完全な顔または下側顔領域であり、第２の領域は、眼球周囲領域である、側面３７に記載の方法。

第４０の側面では、完全な顔および下側顔領域の画像は、頭部搭載型デバイスの外向きに面した結像システムまたは外向きに面した結像システムの外部のカメラのうちの少なくとも１つによって入手される、側面３８または３９に記載の方法。

第４１の側面では、第１の領域は、頭部搭載型デバイスによって観察可能であるが、第２の領域は、頭部搭載型デバイスによって観察可能でない、側面３７－４０のいずれか１項に記載の方法。

第４２の側面では、第１の外形および第２の外形は、顔パラメータによってエンコードされる、側面３７－４１のいずれか１項に記載の方法。

第４３の側面では、顔パラメータは、３次元（３Ｄ）顔モデルの一部である、側面４２に記載の方法。

第４４の側面では、機械学習導出モデルは、第１の領域の第１の外形が第２の領域の第２の外形に合致する可能性を含む、側面３７－４３のいずれか１項に記載の方法。

第４５の側面では、機械学習導出モデルは、第１の複数の画像および第２の複数の画像に関連付けられたオーディオストリームまたは眼特定の情報のうちの少なくとも１つを使用してさらに訓練される、側面３７－４４のいずれか１項に記載の方法。

第４６の側面では、マッピングは、ユーザの下側顔の外形を含む入力と、眼球周囲領域の外形を含む出力とを含む、側面３７－４５のいずれか１項に記載の方法。

第４７の側面では、マッピングをウェアラブルデバイスに通信し、ユーザの下側顔の画像に基づいて、眼球周囲領域の画像を生成することをさらに含む、側面４６に記載の方法。

第４８の側面では、ユーザの第１の顔の領域からユーザの顔の第２の領域へのマッピングを生成するためのシステムであって、側面２８－４７いずれか１項に記載の方法を実施するように構成されたハードウェアプロセッサを備えている、システム。

第４９の側面では、発話中のユーザの顔を動画にするためのウェアラブルシステムであって、ウェアラブルシステムは、ユーザの眼球周囲領域を結像するように構成された内向きに面した結像システムと、ユーザの発話を受信するように構成されたオーディオセンサと、ハードウェアプロセッサとを備え、ハードウェアプロセッサは、内向きに面した結像システムを介して、ユーザの眼球周囲領域の画像を入手することと、少なくとも部分的に画像に基づいて、ユーザの少なくとも眼球周囲領域の眼球周囲外形をエンコードする眼球周囲顔パラメータを生成することと、オーディオセンサによって、ユーザによって発話されたオーディオストリームを入手することと、オーディオストリームにおける音素を識別することと、マッピングにアクセスすることであって、マッピングの入力は、音素とユーザの眼球周囲領域の画像とを備え、マッピングの出力は、ユーザの少なくとも下側顔の下側顔外形をエンコードする下側顔パラメータを備え、下側顔は、ユーザによって装着されているとき、内向きに面した結像システムによって観察されていない、ことと、マッピングを画像に適用し、下側顔パラメータを生成することと、眼球周囲顔パラメータと下側顔パラメータとを組み合わせ、３次元（３Ｄ）顔モデルに関連付けられた完全な顔パラメータを生成することと、少なくとも部分的に完全な顔パラメータに基づいて、ユーザの顔の動画を生成することとを行うようにプログラムされている、ウェアラブルシステム。

第５０の側面では、３Ｄ顔モデルは、変形可能線形モデルを備え、眼球周囲顔パラメータおよび下側顔パラメータは、ユーザが発話しているときの顔の変形を記述する、側面４９に記載のウェアラブルシステム。

第５１の側面では、完全な顔パラメータを生成するために、ハードウェアプロセッサは、３Ｄ顔モデルを更新し、下側顔パラメータまたは眼球周囲顔パラメータのうちの少なくとも１つに対する更新を反映するようにプログラムされている、側面５０に記載のウェアラブルシステム。

第５２の側面では、マッピングの入力は、眼特定の情報、身体移動、または心拍数のうちの少なくとも１つをさらに含む、側面４９－５１のいずれか１項に記載のウェアラブルシステム。

第５３の側面では、眼特定の情報は、ユーザの眼姿勢、瞳孔拡張状態、眼色、または眼瞼状態のうちの少なくとも１つを含む、側面５２に記載のウェアラブルシステム。

第５４の側面では、下側顔パラメータは、オーディオストリームにおける音素を視覚的に記述する口形素をエンコードする、側面４９－５３のいずれか１項に記載のウェアラブルシステム。

第５５の側面では、ハードウェアプロセッサは、少なくとも部分的に眼球周囲領域の画像に基づいて、ユーザの顔の皮膚テクスチャを推測するようにさらにプログラムされ、ユーザの顔の動画は、顔の皮膚テクスチャを組み込んでいる、側面４９－５４のいずれか１項に記載のウェアラブルシステム。

第５６の側面では、内向きに面した結像システムは、眼カメラを備え、内向きに面した結像システムによって入手された眼球周囲領域の画像は、第１の眼のための眼球周囲領域の画像を備えている、側面４９－５５のいずれか１項に記載のウェアラブルシステム。

第５７の側面では、完全な顔パラメータを生成するために、ハードウェアプロセッサは、内向きに面した結像システムによって入手された眼球周囲領域の画像に基づいて、第２の眼のための眼球周囲顔パラメータを決定し、第２の眼のための眼球周囲顔パラメータを完全な顔パラメータの中に組み込むようにプログラムされている、側面５６に記載のウェアラブルシステム。

第５８の側面では、完全な顔パラメータが適用され、ユーザの顔の動画を生成するようにするために、ハードウェアプロセッサは、命令を複合現実ディスプレイを備えているウェアラブルデバイスに通信するようにプログラムされており、命令は、完全な顔パラメータが適用され、３Ｄ顔モデルを中立位置から変動させるようにする、側面４９－５７のいずれか１項に記載のウェアラブルシステム。

第５９の側面では、発話中のユーザの顔を動画にする方法であって、方法は、ユーザの眼球周囲領域を結像するように構成された内向きに面した結像システムによって入手された画像にアクセスすることと、少なくとも部分的に画像に基づいて、ユーザの少なくとも眼球周囲領域の眼球周囲外形をエンコードする眼球周囲顔パラメータを決定することと、オーディオセンサによって入手されたユーザによって発話されたオーディオストリームにアクセスすることと、オーディオストリームにおける音素を識別することと、マッピングにアクセスすることであって、マッピングの入力は、音素とユーザの眼球周囲領域の画像とを備え、マッピングの出力は、ユーザの少なくとも下側顔の下側顔外形をエンコードする下側顔パラメータを備えている、ことと、マッピングを画像に適用し、下側顔パラメータを生成することと、眼球周囲顔パラメータと下側顔パラメータとを組み合わせ、３次元（３Ｄ）顔モデルに関連付けられた完全な顔パラメータを生成することと、少なくとも部分的に完全な顔パラメータに基づいて、完全な顔画像を生成することとを含む、方法。

第６０の側面では、３Ｄ顔モデルは、変形可能線形モデルを備え、眼球周囲顔パラメータおよび下側顔パラメータは、ユーザが発話しているときの顔の変形を記述する、側面５９に記載の方法。

第６１の側面では、完全な顔パラメータを生成するために、ハードウェアプロセッサは、３Ｄ顔モデルを更新し、下側顔パラメータまたは眼球周囲顔パラメータのうちの少なくとも１つに対する更新を反映するようにプログラムされている、側面６０に記載の方法。

第６２の側面では、完全な顔パラメータは、眼特定の情報と組み合わせられ、ユーザの顔に関連付けられた動画を決定する、側面５９－６１のいずれか１項に記載の方法。

第６３の側面では、眼特定の情報は、ユーザの眼姿勢、瞳孔拡張状態、眼色、または眼瞼状態のうちの少なくとも１つを含む、側面６２に記載の方法。

第６４の側面では、下側顔パラメータは、オーディオストリームにおける音素を視覚的に記述する口形素をエンコードする、側面５９－６３のいずれか１項に記載の方法。

第６５の側面では、完全な顔画像は、少なくとも部分的に内向きに面した結像システムによって入手された画像に基づいて決定されるユーザの皮膚テクスチャをさらに組み込んでいる、側面５９－６４のいずれか１項に記載の方法。

第６６の側面では、マッピングは、眼球周囲顔パラメータが下側顔パラメータに関連付けられている可能性を含み、下側顔パラメータは、それらが閾値基準に達していることの決定に応答して、完全な顔画像を生成するために選択される、側面５９－６５のいずれか１項に記載の方法。

第６７の側面では、画像は、静止画像またはビデオフレームのうちの少なくとも１つを含む、側面５９－６６のいずれか１項に記載の方法。

第６８の側面では、完全な顔画像を複合現実環境内にレンダリングするように頭部搭載型ディスプレイに命令することをさらに含む、側面５９－６７のいずれか１項に記載の方法。

（他の考慮点）
本明細書に説明される、および／または添付される図に描写されるプロセス、方法、およびアルゴリズムの各々は、具体的かつ特定のコンピュータ命令を実行するように構成される１つ以上の物理的コンピューティングシステム、ハードウェアコンピュータプロセッサ、特定用途向け回路、および／もしくは電子ハードウェアによって実行されるコードモジュールにおいて具現化され、それによって完全もしくは部分的に自動化され得る。例えば、コンピューティングシステムは、具体的コンピュータ命令とともにプログラムされた汎用コンピュータ（例えば、サーバ）または専用コンピュータ、専用回路等を含むことができる。コードモジュールは、実行可能プログラムにコンパイルおよびリンクされ得る動的リンクライブラリ内にインストールされ得るか、または解釈されるプログラミング言語において書き込まれ得る。いくつかの実装では、特定の動作および方法が、所与の機能に特定の回路によって実施され得る。

さらに、本開示の機能性のある実装は、十分に数学的、コンピュータ的、または技術的に複雑であるため、（適切な専門化された実行可能命令を利用する）特定用途向けハードウェアまたは１つ以上の物理的コンピューティングデバイスは、例えば、関与する計算の量もしくは複雑性に起因して、または結果を実質的にリアルタイムで提供するために、機能性を実施する必要があり得る。例えば、動画またはビデオは、多くのフレームを含み、各フレームは、数百万のピクセルを有し得、具体的にプログラムされたコンピュータハードウェアは、商業的に妥当な時間量において所望の画像処理タスクまたは用途を提供するようにビデオデータを処理する必要がある。

コードモジュールまたは任意のタイプのデータは、ハードドライブ、ソリッドステートメモリ、ランダムアクセスメモリ（ＲＡＭ）、読取専用メモリ（ＲＯＭ）、光学ディスク、揮発性もしくは不揮発性記憶装置等の組み合わせ等を含む物理的コンピュータ記憶装置等の任意のタイプの非一過性コンピュータ読み取り可能な媒体上に記憶され得る。方法およびモジュール（またはデータ）は、無線ベースおよび有線／ケーブルベースの媒体を含む種々のコンピュータ読み取り可能な伝送媒体上で生成されたデータ信号としても（例えば、搬送波または他のアナログもしくはデジタル伝搬信号の一部として）伝送され得、種々の形態（例えば、単一もしくは多重化アナログ信号の一部として、または複数の個別的なデジタルパケットもしくはフレームとして）をとり得る。開示されるプロセスまたはプロセスステップの結果は、任意のタイプの非一過性有形コンピュータ記憶装置内に持続的もしくは別様に記憶され得るか、またはコンピュータ読み取り可能な伝送媒体を介して通信され得る。

本明細書に説明される、および／または添付される図に描写されるフロー図における任意のプロセス、ブロック、状態、ステップ、もしくは機能性は、プロセスにおいて具体的機能（例えば、論理もしくは算術）またはステップを実装するための１つ以上の実行可能命令を含むコードモジュール、セグメント、またはコードの一部を潜在的に表すものとして理解されたい。種々のプロセス、ブロック、状態、ステップ、または機能性は、組み合わせられること、再配列されること、追加されること、削除されること、修正されること、または別様に本明細書に提供される例証的例から変更されることができる。いくつかの実施形態では、追加のまたは異なるコンピューティングシステムもしくはコードモジュールが、本明細書に説明される機能性のいくつかまたは全てを実施し得る。本明細書に説明される方法およびプロセスは、任意の特定のシーケンスに限定されず、それに関連するブロック、ステップ、または状態は、適切な他のシーケンスで、例えば、連続して、並行して、またはある他の様式で実施されることもできる。タスクまたはイベントが、開示される例示的実施形態に追加されるか、またはそれから除去され得る。さらに、本明細書に説明される実装における種々のシステムコンポーネントの分離は、例証を目的とし、全ての実装においてそのような分離を要求するものとして理解されるべきではない。説明されるプログラムコンポーネント、方法、およびシステムは、概して、単一のコンピュータ製品においてともに統合されるか、または複数のコンピュータ製品にパッケージ化され得ることを理解されたい。多くの実装変形例が、可能である。

このプロセス、方法、およびシステムは、ネットワーク（または分散）コンピューティング環境において実装され得る。ネットワーク環境は、企業全体コンピュータネットワーク、イントラネット、ローカルエリアネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）、パーソナルエリアネットワーク（ＰＡＮ）、クラウドコンピューティングネットワーク、クラウドソースコンピューティングネットワーク、インターネット、およびワールドワイドウェブを含む。ネットワークは、有線もしくは無線ネットワーク、または任意の他のタイプの通信ネットワークであり得る。

本開示のシステムおよび方法は、各々、いくつかの革新的側面を有し、そのうちのいかなるものも、本明細書に開示される望ましい属性に単独で関与しないか、またはそのために要求されない。上で説明される種々の特徴およびプロセスは、互いに独立して使用され得るか、または種々の方法で組み合わせられ得る。全ての可能な組み合わせおよび副次的組み合わせが、本開示の範囲内に該当することが意図される。本開示に説明される実装の種々の修正が、当業者に容易に明白であり得、本明細書に定義される一般原理は、本開示の精神または範囲から逸脱することなく、他の実装に適用され得る。したがって、請求項は、本明細書に示される実装に限定されることを意図されず、本明細書に開示される本開示、原理、および新規の特徴と一貫する最も広い範囲を与えられるべきである。

別個の実装の文脈において本明細書に説明されるある特徴は、単一の実装における組み合わせにおいて実装されることもできる。逆に、単一の実装の文脈において説明される種々の特徴も、複数の実装において別個に、または任意の好適な副次的組み合わせにおいて実装されることができる。さらに、特徴がある組み合わせにおいて作用するものとして上で説明され、さらに、そのようなものとして最初に請求され得るが、請求される組み合わせからの１つ以上の特徴は、いくつかの場合、組み合わせから削除されることができ、請求される組み合わせは、副次的組み合わせまたは副次的組み合わせの変形例を対象とし得る。いかなる単一の特徴または特徴のグループも、あらゆる実施形態に必要もしくは必須ではない。

とりわけ、「～できる（ｃａｎ）」、「～し得る（ｃｏｕｌｄ）」、「～し得る（ｍｉｇｈｔ）」、「～し得る（ｍａｙ）」、「例えば（ｅ．ｇ．）」等、本明細書で使用される条件文は、別様に具体的に記載されない限り、または使用されるような文脈内で別様に理解されない限り、概して、ある実施形態がある特徴、要素、および／またはステップを含む一方、他の実施形態がそれらを含まないことを伝えることが意図される。したがって、そのような条件文は、概して、特徴、要素、および／もしくはステップが、１つ以上の実施形態に対していかようにも要求されること、または１つ以上の実施形態が、著者の入力または促しの有無を問わず、これらの特徴、要素、および／もしくはステップが任意の特定の実施形態において含まれること、もしくは実施されるべきかどうかを決定するための論理を必然的に含むことを示唆することを意図されない。用語「～を備えている」、「～を含む」、「～を有する」等は、同義語であり、非限定的方式で包括的に使用され、追加の要素、特徴、行為、動作等を除外しない。用語「または」は、その包括的意味において使用され（およびその排他的意味において使用されず）、したがって、例えば、要素のリストを接続するために使用されると、用語「または」は、リスト内の要素のうちの１つ、いくつか、または全てを意味する。加えて、本願および添付される請求項で使用されるような冠詞「ａ」、「ａｎ」、および「ｔｈｅ」は、別様に規定されない限り、「１つ以上の」もしくは「少なくとも１つ」を意味するように解釈されるべきである。

本明細書で使用されるように、項目のリスト「～のうちの少なくとも１つ」を指す語句は、単一の要素を含む、それらの項目の任意の組み合わせを指す。ある例として、「Ａ、Ｂ、またはＣのうちの少なくとも１つ」は、Ａ、Ｂ、Ｃ、ＡおよびＢ、ＡおよびＣ、ＢおよびＣ、ならびにＡ、Ｂ、およびＣを対象とすることが意図される。語句「Ｘ、Ｙ、およびＺのうちの少なくとも１つ」等の接続文は、別様に具体的に記載されない限り、概して、項目、用語等がＸ、Ｙ、またはＺのうちの少なくとも１つであり得ることを伝えるために使用されるような文脈で別様に理解される。したがって、そのような接続文は、概して、ある実施形態が、Ｘのうちの少なくとも１つ、Ｙのうちの少なくとも１つ、およびＺのうちの少なくとも１つがそれぞれ存在するように要求することを示唆することを意図されない。

同様に、動作は、特定の順序で図面に描写され得るが、それは、望ましい結果を達成するために、そのような動作が示される特定の順序で、もしくは連続的順序で実施される、または全ての図示される動作が実施される必要はないと認識されるべきである。さらに、図面は、フローチャートの形態で１つ以上の例示的プロセスを図式的に描写し得る。しかしながら、描写されない他の動作も、図式的に図示される例示的方法およびプロセス内に組み込まれることができる。例えば、１つ以上の追加の動作が、図示される動作のいずれかの前、その後に、それと同時に、またはその間に実施されることができる。加えて、動作は、他の実装において再配列される、または再順序付けられ得る。ある状況では、マルチタスクおよび並列処理が、有利であり得る。さらに、上で説明される実装における種々のシステムコンポーネントの分離は、全ての実装におけるそのような分離を要求するものとして理解されるべきではなく、説明されるプログラムコンポーネントおよびシステムは、概して、単一のソフトウェア製品においてともに統合される得ること、または複数のソフトウェア製品にパッケージ化され得ることを理解されたい。加えて、他の実装も、以下の請求項の範囲内である。いくつかの場合、請求項に列挙されるアクションは、異なる順序で実施され、依然として、望ましい結果を達成することができる。

Claims

１つ以上のハードウェアコンピュータプロセッサとソフトウェア命令を記憶している１つ以上の非一過性コンピュータ読み取り可能な記憶デバイスとを有するコンピューティングシステムによって実行されるコンピュータ化された方法であって、前記ソフトウェア命令は、前記コンピュータ化された方法を実行するように前記コンピューティングシステムによって実行可能であり、
前記コンピュータ化された方法は、
第１の複数の画像にアクセスすることであって、前記第１の複数の画像の各々は、複数のユーザのうちの対応するユーザの第１の領域の第１の外形に関連付けられており、前記第１の複数の画像の各々は、前記複数のユーザの顔の第２の領域を含まない、ことと、
前記複数のユーザのうちの前記対応するユーザの前記第２の領域の第２の外形に関連付けられている第２の複数の画像にアクセスすることであって、前記第１の領域の前記第１の外形の各々は、前記第２の領域の前記第２の外形のうちの少なくとも１つに関連付けられている、ことと、
前記第１の複数の画像および前記第２の複数の画像を使用して、機械学習導出モデルを訓練して、前記第１の領域の第１の外形から前記第２の領域の第２の外形へのマッピングを生成することであって、前記マッピングは、人物の顔の前記第２の領域を含まない前記人物の前記顔の前記第１の領域の画像を入力として受信するように構成される、ことと
を含み、
前記第１の領域は、眼球周囲領域であり、
前記人物の前記顔の前記第１の領域の前記画像は、頭部搭載型デバイスの内向きに面した結像システムによって入手される画像を含む、コンピュータ化された方法。
１つ以上のハードウェアコンピュータプロセッサとソフトウェア命令を記憶している１つ以上の非一過性コンピュータ読み取り可能な記憶デバイスとを有するコンピューティングシステムによって実行されるコンピュータ化された方法であって、前記ソフトウェア命令は、前記コンピュータ化された方法を実行するように前記コンピューティングシステムによって実行可能であり、
前記コンピュータ化された方法は、
第１の複数の画像にアクセスすることであって、前記第１の複数の画像の各々は、複数のユーザのうちの対応するユーザの第１の領域の第１の外形に関連付けられており、前記第１の複数の画像の各々は、前記複数のユーザの顔の第２の領域を含まない、ことと、
前記複数のユーザのうちの前記対応するユーザの前記第２の領域の第２の外形に関連付けられている第２の複数の画像にアクセスすることであって、前記第１の領域の前記第１の外形の各々は、前記第２の領域の前記第２の外形のうちの少なくとも１つに関連付けられている、ことと、
前記第１の複数の画像および前記第２の複数の画像を使用して、機械学習導出モデルを訓練して、前記第１の領域の第１の外形から前記第２の領域の第２の外形へのマッピングを生成することであって、前記マッピングは、人物の顔の前記第２の領域を含まない前記人物の前記顔の前記第１の領域の画像を入力として受信するように構成される、ことと
を含み、
前記第１の領域は、下側顔領域であり、
前記人物の前記顔の前記第１の領域の前記画像は、頭部搭載型デバイスの外向きに面した結像システムによって入手される前記下側顔領域の画像を含む、コンピュータ化された方法。
前記第２の領域は、完全な顔または下側顔領域である、請求項１に記載の方法。
前記第２の領域は、完全な顔または眼球周囲領域である、請求項２に記載の方法。
前記人物の前記顔の前記第１の領域の前記画像は、前記外向きに面した結像システムの外部のカメラによってさらに入手される前記下側顔領域の画像を含む、請求項４に記載の方法。
前記第１の外形および前記第２の外形は、顔パラメータによってエンコードされる、請求項１または請求項２に記載の方法。
前記顔パラメータは、３次元（３Ｄ）顔モデルの一部である、請求項６に記載の方法。
前記機械学習導出モデルは、前記第１の領域の前記第１の外形が前記第２の領域の前記第２の外形に合致する可能性を含む、請求項１または請求項２に記載の方法。
前記機械学習導出モデルは、前記第１の複数の画像および前記第２の複数の画像に関連付けられたオーディオストリームまたは眼特定の情報のうちの少なくとも１つを使用してさらに訓練される、請求項１または請求項２に記載の方法。
前記マッピングは、前記人物の下側顔の外形を含む追加の入力と、前記眼球周囲領域の外形を含む出力とをさらに含む、請求項１に記載の方法。
前記人物の前記下側顔領域の前記画像に基づいて眼球周囲領域の画像を生成するために前記マッピングをウェアラブルデバイスに通信することをさらに含む、請求項２に記載の方法。
内向きに面した結像システムと、
ハードウェアコンピュータプロセッサと、
ソフトウェア命令を記憶した非一過性コンピュータ読み取り可能な媒体と
を備えるコンピューティングシステムであって、
前記ソフトウェア命令は、前記コンピューティングシステムに動作を実行させるように前記ハードウェアコンピュータプロセッサによって実行可能であり、
前記動作は、
第１の複数の画像にアクセスすることであって、前記第１の複数の画像の各々は、複数のユーザのうちの対応するユーザの第１の領域の第１の外形に関連付けられており、前記第１の複数の画像の各々は、前記複数のユーザの顔の第２の領域を含まない、ことと、
前記複数のユーザのうちの前記対応するユーザの前記第２の領域の第２の外形に関連付けられている第２の複数の画像にアクセスすることであって、前記第１の領域の前記第１の外形の各々は、前記第２の領域の前記第２の外形のうちの少なくとも１つに関連付けられている、ことと、
前記第１の複数の画像および前記第２の複数の画像を使用して、機械学習導出モデルを訓練して、前記第１の領域の第１の外形から前記第２の領域の第２の外形へのマッピングを生成することであって、前記マッピングは、人物の顔の前記第２の領域を含まない前記人物の前記顔の前記第１の領域の画像を入力として受信するように構成される、ことと
を含み、
前記第１の領域は、眼球周囲領域であり、
前記人物の前記顔の前記第１の領域の前記画像は、前記内向きに面した結像システムによって入手される画像を含む、コンピューティングシステム。
外向きに面した結像システムと、
ハードウェアコンピュータプロセッサと、
ソフトウェア命令を記憶した非一過性コンピュータ読み取り可能な媒体と
を備えるコンピューティングシステムであって、
前記ソフトウェア命令は、前記コンピューティングシステムに動作を実行させるように前記ハードウェアコンピュータプロセッサによって実行可能であり、
前記動作は、
第１の複数の画像にアクセスすることであって、前記第１の複数の画像の各々は、複数のユーザのうちの対応するユーザの第１の領域の第１の外形に関連付けられており、前記第１の複数の画像の各々は、前記複数のユーザの顔の第２の領域を含まない、ことと、
前記複数のユーザのうちの前記対応するユーザの前記第２の領域の第２の外形に関連付けられている第２の複数の画像にアクセスすることであって、前記第１の領域の前記第１の外形の各々は、前記第２の領域の前記第２の外形のうちの少なくとも１つに関連付けられている、ことと、
前記第１の複数の画像および前記第２の複数の画像を使用して、機械学習導出モデルを訓練して、前記第１の領域の第１の外形から前記第２の領域の第２の外形へのマッピングを生成することであって、前記マッピングは、人物の顔の前記第２の領域を含まない前記人物の前記顔の前記第１の領域の画像を入力として受信するように構成される、ことと
を含み、
前記第１の領域は、下側顔領域であり、
前記人物の前記顔の前記第１の領域の前記画像は、前記外向きに面した結像システムによって入手される前記下側顔領域の画像を含む、コンピューティングシステム。
顔の画像を生成する方法であって、前記方法は、コンピュータプロセッサと、ユーザの眼球周囲領域を結像するように構成された内向きに面した結像システムと、オーディオセンサとを備えている頭部搭載型デバイス（ＨＭＤ）の制御下で、
前記内向きに面した結像システムによって、前記ユーザの前記眼球周囲領域の画像を入手することと、
少なくとも部分的に前記画像に基づいて、前記ユーザの少なくとも前記眼球周囲領域の眼球周囲外形をエンコードする眼球周囲顔パラメータを生成することと、
前記オーディオセンサによって、前記ユーザによって発話されたオーディオストリームを入手することと、
前記オーディオストリームにおける音素を識別することと、
マッピングにアクセスすることであって、前記マッピングの入力は、音素および前記ユーザの前記眼球周囲領域の前記画像を備え、前記マッピングの出力は、前記ユーザの少なくとも下側顔の下側顔外形をエンコードする下側顔パラメータを備えている、ことと、
前記眼球周囲顔パラメータと前記下側顔パラメータとを組み合わせ、完全な顔パラメータを生成することと
を実行することを含む、方法。
顔の画像を生成する方法であって、前記方法は、コンピュータプロセッサと、ユーザの眼球周囲領域を結像するように構成された内向きに面した結像システムとを備えている頭部搭載型デバイス（ＨＭＤ）の制御下で、
前記内向きに面した結像システムによって、前記ユーザの前記眼球周囲領域の眼球周囲画像を入手することと、
少なくとも部分的に前記画像に基づいて、前記ユーザの少なくとも前記眼球周囲領域の眼球周囲外形をエンコードする眼球周囲顔パラメータを生成することと、
前記ユーザの少なくとも下側顔の下側顔外形をエンコードする下側顔パラメータを生成するマッピングにアクセスすることであって、前記マッピングは、少なくとも部分的に前記ユーザの前記眼球周囲領域の前記眼球周囲画像に基づく、ことと、
前記眼球周囲顔パラメータと前記下側顔パラメータとを組み合わせ、完全な顔パラメータを生成することと、
少なくとも部分的に前記完全な顔パラメータに基づいて、前記顔の画像を生成することと
を実行することを含む、方法。