JP7200195B2

JP7200195B2 - 感覚式アイウェア

Info

Publication number: JP7200195B2
Application number: JP2020191518A
Authority: JP
Inventors: ブロウィエリック; ヤヌシュウッズマイケル; ラビノビッチアンドリュー
Original assignee: Magic Leap Inc
Current assignee: Magic Leap Inc
Priority date: 2016-09-13
Filing date: 2020-11-18
Publication date: 2023-01-06
Anticipated expiration: 2037-09-12
Also published as: KR20230130773A; JP6798010B2; US20200193714A1; KR20230003667A; KR102576135B1; AU2022201504A1; KR102257181B1; EP3513242A1; CA3036208A1; KR20210060676A; IL304038B1; CN109923462A; JP2019535059A; AU2017328161A1; EP3513242A4; KR20190051028A; US20240061243A1; IL265120A; US20220375177A1; IL265120B1

Description

（関連出願の相互参照）
本願は、米国仮出願第６２／３９４，０１３号、出願日２０１６年９月１３日，発明の名称“ＳＥＮＳＯＲＹＥＹＥＷＥＡＲ”および米国仮出願第６２／４４０，３２０号、出願日２０１６年１２月２９日，発明の名称“ＳＹＳＴＥＭＳＡＮＤＭＥＴＨＯＤＳＦＯＲＡＵＧＭＥＮＴＥＤＲＥＡＬＩＴＹ”に対する３５Ｕ．Ｓ．Ｃ． § １１９（ｅ）のもとでの優先権の利益を主張するものであり、これらの開示の全体は、参照により本明細書中に援用される。

本開示は、仮想現実および拡張現実結像ならびに可視化システムに関し、より具体的には、環境内の手話またはテキストを認識し、認識された手話またはテキストに基づいて、仮想コンテンツをレンダリングすることに関する。

現代のコンピューティングおよびディスプレイ技術は、デジタル的に再現された画像またはその一部が、現実であるように見える、もしくはそのように知覚され得る様式でユーザに提示される、いわゆる「仮想現実」、「拡張現実」、または「複合現実」体験のためのシステムの開発を促進している。仮想現実または「ＶＲ」シナリオは、典型的には、他の実際の実世界の視覚的入力に対する透過性を伴わずに、デジタルまたは仮想画像情報の提示を伴う。拡張現実または「ＡＲ」シナリオは、典型的には、ユーザの周囲の実際の世界の可視化に対する拡張としてのデジタルまたは仮想画像情報の提示を伴う。複合現実または「ＭＲ」は、物理的および仮想オブジェクトが、共存し、リアルタイムで相互作用する、新しい環境を生成するための実世界と仮想世界の融合に関連する。結論から述べると、ヒトの視知覚系は、非常に複雑であって、他の仮想または実世界画像要素の中で仮想画像要素の快適かつ自然のような感覚で豊かな提示を促進する、ＶＲ、ＡＲ、またはＭＲ技術の生産は、困難である。本明細書に開示されるシステムおよび方法は、ＶＲ、ＡＲ、ならびにＭＲ技術に関連する種々の課題に対処する。

環境内の手話およびテキストを認識するための複合現実システムの種々の実施形態が、開示される。これらの実施形態は、有利には、身体障害者間のより優れた相互作用を可能にし得る。

複合現実デバイスのための感覚式アイウェアシステムは、他の人々または環境とのユーザの相互作用を促進することができる。一実施例として、感覚式アイウェアシステムは、手話を認識および解釈し、翻訳された情報を複合現実デバイスのユーザに提示することができる。ウェアラブルシステムはまた、ユーザの環境内のテキストを認識し、テキストを修正し（例えば、テキストのコンテンツまたは表示特性を変化させることによって）、修正されたテキストをレンダリングし、オリジナルテキストをオクルードすることができる。

本明細書に説明される主題の１つ以上の実装の詳細が、付随の図面および以下の説明に記載される。他の特徴、側面、および利点は、説明、図面、ならびに請求項から明白となるであろう。本概要または以下の発明を実施するための形態のいずれも、本発明の主題の範囲を定義または限定することを主張するものではない。
本発明は、例えば、以下を提供する。
（項目１）
手話認識のためのウェアラブルシステムであって、前記ウェアラブルシステムは、
仮想コンテンツをユーザに提示するように構成される頭部搭載型ディスプレイと、
前記ユーザの環境を結像するように構成される結像システムと、
前記頭部搭載型ディスプレイおよび前記結像システムと通信するハードウェアプロセッサであって、前記ハードウェアプロセッサは、
前記結像システムによって捕捉された画像を受信することと、
オブジェクト認識装置を用いて、前記画像内のジェスチャを検出することと、
手話における前記ジェスチャの意味を認識することと、
前記ユーザと関連付けられたコンテキスト情報に基づいて、標的言語を識別することと、
前記認識された意味に基づいて、前記ジェスチャを前記標的言語に翻訳することと、
少なくとも部分的に、前記標的言語への前記ジェスチャの翻訳に基づいて、仮想コンテンツを生成することと、
前記頭部搭載型ディスプレイに、前記仮想コンテンツをユーザにレンダリングさせることと
を行うようにプログラムされる、ハードウェアプロセッサと
を備える、ウェアラブルシステム。
（項目２）
前記結像システムは、前記ユーザの周囲を結像するように構成される広角カメラのうちの１つ以上のものを備える、項目１に記載のウェアラブルシステム。
（項目３）
前記ハードウェアプロセッサはさらに、前記ジェスチャと関連付けられた補助情報にアクセスするようにプログラムされ、前記頭部搭載型ディスプレイによってレンダリングされた仮想コンテンツは、前記補助情報を備える、項目１に記載のウェアラブルシステム。
（項目４）
前記ユーザと関連付けられたコンテキスト情報に基づいて、標的言語を識別するために、前記ハードウェアプロセッサは、
前記ウェアラブルシステムによって捕捉されるような前記ユーザの発話、前記ユーザの場所、または前記言語を前記標的言語として選択する前記ユーザからの入力のうちの少なくとも１つに基づいて、前記標的言語をユーザによって理解される言語として設定する
ようにプログラムされる、項目１に記載のウェアラブルシステム。
（項目５）
前記ハードウェアプロセッサは、前記標的言語が発話された言語であるかどうかを決定し、前記標的言語が発話された言語であることの決定に応答して、前記標的言語において、前記翻訳されたジェスチャと関連付けられた発話のオーディオストリームを再生するようにプログラムされる、項目１に記載のウェアラブルシステム。
（項目６）
前記ハードウェアプロセッサは、前記標的言語が別の手話であるかどうかを決定し、前記標的言語が別の手話であることの決定に応答して、前記他の手話における別のジェスチャのグラフィックを前記ジェスチャの翻訳として提示するようにプログラムされる、項目１に記載のウェアラブルシステム。
（項目７）
前記手話における前記ジェスチャの意味を認識するために、前記ハードウェアプロセッサは、深層ニューラルネットワーク技法を前記結像システムによって捕捉された前記画像の一部に適用するようにプログラムされる、項目１に記載のウェアラブルシステム。
（項目８）
前記ハードウェアプロセッサはさらに、少なくとも部分的に、前記ユーザの場所に基づいて、前記手話を候補手話のリストから識別するようにプログラムされる、項目１に記載のウェアラブルシステム。
（項目９）
前記認識された意味に基づいて、前記ジェスチャを前記標的言語に翻訳するために、前記ハードウェアプロセッサは、前記ジェスチャを前記標的言語におけるテキスト表現に変換するようにプログラムされる、項目１に記載のウェアラブルシステム。
（項目１０）
前記ハードウェアプロセッサは、前記検出されたジェスチャ源を決定し、前記検出されたジェスチャ源が前記ウェアラブルシステムのユーザであることの決定に応じて、前記標的言語における前記ジェスチャの翻訳を別のユーザのウェアラブルシステムに通信するようにプログラムされる、項目１に記載のウェアラブルシステム。
（項目１１）
前記ハードウェアプロセッサは、前記仮想コンテンツを前記頭部搭載型ディスプレイによる表示から放逐することからの条件を検出し、前記条件の検出に応答して、前記仮想コンテンツを前記頭部搭載型ディスプレイによる表示から除去するようにプログラムされる、項目１に記載のウェアラブルシステム。
（項目１２）
前記条件は、持続時間、ユーザの手のジェスチャ、またはユーザ入力デバイスからの入力のうちの少なくとも１つを含む、項目１１に記載のウェアラブルシステム。
（項目１３）
前記画像は、ビデオの１つ以上のフレームを含む、項目１に記載のウェアラブルシステム。
（項目１４）
手話認識のための方法であって、前記方法は、
結像システムによって捕捉された画像を受信することと、
前記画像を分析し、ユーザのジェスチャを検出することと、
少なくとも部分的に、前記検出されたジェスチャに基づいて、手話における通信の存在を検出することと、
前記手話における前記ジェスチャの意味を認識することと、
前記ジェスチャが翻訳されるであろう標的言語を識別することと、
前記認識された意味に基づいて、前記ジェスチャを前記標的言語に翻訳することと、
少なくとも部分的に、前記標的言語への前記ジェスチャの翻訳に基づいて、仮想コンテンツを生成することと、
頭部搭載型ディスプレイに、前記仮想コンテンツをユーザにレンダリングさせることと
を含む、方法。
（項目１５）
前記画像は、複合現実コンテンツを提示するように構成される第１のウェアラブルデバイスから受信される一方、前記仮想コンテンツは、レンダリングのために、第２のウェアラブルデバイスに通信され、前記第１のウェアラブルデバイスおよび前記第２のウェアラブルデバイスは、複合現実コンテンツをユーザに提示するように構成される、項目１４に記載の方法。
（項目１６）
前記認識された意味に基づいて、前記ジェスチャを前記標的言語に翻訳することは、前記ジェスチャを前記標的言語におけるテキスト表現に変換することを含む、項目１４に記載の方法。
（項目１７）
前記仮想コンテンツは、前記標的言語におけるテキスト表現または前記標的言語における別のものを表すグラフィックを備える、項目１４に記載の方法。
（項目１８）
前記手話における前記ジェスチャの意味を認識することは、深層ニューラルネットワーク技法を前記結像システムによって捕捉された画像の一部に適用することを含む、項目１４に記載の方法。
（項目１９）
前記手話における通信の存在を検出することは、
前記手話を候補手話のリストから識別することと、
前記検出されたジェスチャが前記手話における表現に対応することを決定することと
を含む、項目１４に記載の方法。
（項目２０）
前記検出されたジェスチャが前記手話における表現に対応することを決定することは、前記ジェスチャを行っている人物の唇の移動および前記ユーザが前記ジェスチャを行っている間に捕捉されたオーディオデータと関連させて前記ジェスチャを分析することを含む、項目１９に記載の方法。

図１は、人物によって視認されるある仮想現実オブジェクトおよびある物理的オブジェクトを伴う、複合現実シナリオの例証を描写する。図２Ａは、感覚式アイウェアシステムを実装し得る、ウェアラブルシステムの実施例を図式的に図示する。図２Ｂは、ウェアラブルシステムの種々の例示的コンポーネントを図式的に図示する。図３は、複数の深度平面を使用して３次元画像をシミュレートするためのアプローチの側面を図式的に図示する。図４は、画像情報をユーザに出力するための導波管スタックの実施例を図式的に図示する。図５は、導波管によって出力され得る、例示的出射ビームを示す。図６は、導波管装置と、光を導波管装置へまたはそこから光学的に結合するための光学結合器サブシステムと、多焦点立体ディスプレイ、画像、またはライトフィールドの生成において使用される、制御サブシステムとを含む、光学システムを示す、概略図である。図７は、ウェアラブルシステムの実施例のブロック図である。図８は、認識されるオブジェクトに関連して仮想コンテンツをレンダリングする方法の実施例のプロセスフロー図である。図９は、感覚式アイウェアシステムを含む、ウェアラブルシステムの別の実施例のブロック図である。図１０は、ウェアラブルシステムへのユーザ入力を決定するための方法の実施例のプロセスフロー図である。図１１は、仮想ユーザインターフェースと相互作用するための方法の実施例のプロセスフロー図である。図１２は、相互に相互作用する複数のウェアラブルシステムを描写する、全体的システム図を図式的に図示する。図１３Ａは、感覚式アイウェアシステムの例示的ユーザ体験を示し、感覚式アイウェアシステムは、手話（例えば、手話者によってジェスチャされる）を解釈することができる。図１３Ｂは、感覚式アイウェアシステムの別の例示的ユーザ体験を示し、標的発話および補助情報の両方が、提示される。図１３Ｃは、テレプレゼンスセッションにおける感覚式アイウェアシステムの例示的ユーザ体験を示す。図１３Ｄは、手話を解釈するための例示的仮想ユーザインターフェースを図示する。図１４Ａおよび１４Ｂは、感覚式アイウェアシステムを用いた対人通信を促進するための例示的プロセスを図示する。図１４Ａおよび１４Ｂは、感覚式アイウェアシステムを用いた対人通信を促進するための例示的プロセスを図示する。図１４Ｃは、変換されたテキストと関連付けられた補助情報を決定し、補助情報を提示するための例示的方法のプロセスフロー図である。図１５は、感覚式アイウェアシステムを用いた対人通信を促進するための別の例示的プロセスを図示する。図１６Ａ－１６Ｅは、環境内のテキストを認識し、テキストの表示特性を修正し、修正されたテキストをレンダリングするように構成される、感覚式アイウェアシステムのための例示的ユーザ体験を図示する。図１６Ａ－１６Ｅは、環境内のテキストを認識し、テキストの表示特性を修正し、修正されたテキストをレンダリングするように構成される、感覚式アイウェアシステムのための例示的ユーザ体験を図示する。図１６Ａ－１６Ｅは、環境内のテキストを認識し、テキストの表示特性を修正し、修正されたテキストをレンダリングするように構成される、感覚式アイウェアシステムのための例示的ユーザ体験を図示する。図１６Ａ－１６Ｅは、環境内のテキストを認識し、テキストの表示特性を修正し、修正されたテキストをレンダリングするように構成される、感覚式アイウェアシステムのための例示的ユーザ体験を図示する。図１６Ａ－１６Ｅは、環境内のテキストを認識し、テキストの表示特性を修正し、修正されたテキストをレンダリングするように構成される、感覚式アイウェアシステムのための例示的ユーザ体験を図示する。図１７は、環境とのユーザの相互作用を促進するための感覚式アイウェアの例示的プロセスを図示する。図１８は、表記のコンテンツを修正することによって、ユーザが物理的環境内の表記を理解することを補助する実施例を図示する。図１９は、ユーザが物理的環境内の表記を理解することを補助する例示的プロセスを図示する。

図面全体を通して、参照番号は、参照される要素間の対応を示すために再使用され得る。図面は、本明細書に説明される例示的実施形態を図示するために提供され、本開示の範囲を限定することを意図されない。
（概要）

ＡＲ／ＶＲ／ＭＲコンテンツを提示するように構成される、ウェアラブルシステムは、感覚式アイウェアシステムを実装し、他の人々または環境とのユーザの相互作用を向上させることができる。例示的ウェアラブルシステムは、頭部搭載型ディスプレイと、種々の結像センサと、１つ以上のハードウェアプロセッサとを備えることができる。ディスプレイは、片眼または両眼の正面に装着される、シースルーディスプレイであることができる。

他の人々とのユーザの相互作用体験を向上させるために、ウェアラブルシステムは、手話を捕捉および解釈するように構成されることができる。手話は、主に、視覚的ジェスチャ（例えば、手の形状、手の配向、手、腕、または身体の移動、もしくは表情）を使用して、通信する。数百もの手話が、世界中で使用されている。いくつかの手話は、その他より頻繁に使用され得る。例えば、アメリカ手話（ＡＳＬ）は、米国およびカナダにおいて広く使用されている。

多くの人々は、任意の手話を把握していない。言語障害者または聴覚障害者およびその会話相手が、同一手話を熟知しているとは限らない。これは、聴覚障害者または言語障害者との会話を妨害し得る。故に、会話相手によって行われている身ぶり（例えば、ジェスチャ）を結像し、身ぶりをテキストまたはグラフィック（例えば、システムユーザが理解する手話における手話ジェスチャのグラフィック）に変換し、次いで、身ぶりと関連付けられた情報（例えば、身ぶりのユーザによって理解される言語への翻訳）を表示することができる、ウェアラブルシステムは、ユーザと会話相手との間の通信を改良することに著しく役立つことができる。さらに、ウェアラブルシステムのユーザに対して最小限のレベルの注意散漫およびそれによる取るに足りないレベルの労力を伴って、（近）リアルタイムで手話のテキストまたはグラフィカル変換を提供することができる、ウェアラブルシステムを有することが望ましくあり得る。

本開示は、ウェアラブルシステムのコンテキストにおいて、そのような望ましいシステムの実施例を開示する。ウェアラブルシステムは、頭部搭載型コンポーネント（例えば、頭部搭載型ディスプレイ等）を含んでもよい。そのようなデバイスは、ユーザが、情報が通常の視認可能実世界とともに（またはその上部に）同時に視認可能であるような様式において、コンピューティングデバイスによって提供される情報を視覚的に受信することを可能にすることができる。そのようなシステムは、表音文字、画像効果、テキスト、グラフィック、または任意の種類のビデオ等、従来のコンピュータ画面上に表示され得る、任意の形態の情報を表示するために使用されることができる。

本明細書に説明されるウェアラブルシステムは、ウェアラブルシステムの手話認識（ＳＬＲ）と表示能力を組み合わせ、ユーザに検出された手話に基づく情報を提供することができる。例えば、ウェアラブルシステム上の外向きに面したカメラは、行われているジェスチャを結像し、ジェスチャ間の身ぶりを識別し、身ぶりをユーザが理解する言語に翻訳し、翻訳をユーザに表示することができる。検出された手話のトランスクリプト（例えば、キャプションまたはテキスト吹き出し）が、ウェアラブルシステムによって、ユーザに表示されることができる。機械学習アルゴリズム（例えば、深層ニューラルネットワーク）は、画像を受信し、身ぶりの識別および翻訳を実施することができる。ユーザによってプロンプトされると、トランスクリプト内の単語の意味または適切なソースからの関連情報が、表示されることができる。ウェアラブルシステムが提供し得る、補助情報の種類は、例えば、インターネット上の膨大な数の利用可能な情報リソースと同様に無限であり得る。

他の人々とのユーザの相互作用体験を向上させることに加え、またはその代替として、感覚式アイウェアシステムはまた、環境とのユーザの体験を改良することができる。環境とのユーザ相互作用を改良する実施例として、感覚式アイウェアシステムを実装するウェアラブルシステムは、環境内のテキスト（例えば、商業用または公共看板等の表記上の、例えば、テキスト）を認識し、テキストの表示特性を修正（例えば、テキストのサイズを増加させることによって）またはテキストのコンテンツを修正（例えば、テキストを別の言語に翻訳することによって）し、修正されたテキストを物理的環境内のテキストにわたってレンダリングすることができる。

本明細書にさらに説明されるように、ウェアラブルシステムは、ユーザの環境の画像を受信することができる。画像は、ウェアラブルシステムの外向きに面した結像システムまたはウェアラブルシステムと関連付けられたトーテムによって入手されてもよい。ウェアラブルシステムは、画像は、１つ以上の表音文字または表意文字を含むかどうかを決定し、１つ以上の表音文字または表意文字をテキストに変換することができる。ウェアラブルシステムは、例えば、機械学習アルゴリズムまたは光学文字認識（ＯＣＲ）アルゴリズム等の種々の技法を使用して、画像が表音文字または表意文字を含むかどうかを決定してもよい。ウェアラブルシステムは、オブジェクト認識装置（例えば、図７に説明される）を使用して、表音文字および表意文字を識別し、それらをテキストに変換してもよい。

ある実施形態では、テキストは、ユーザにウェアラブルシステムを伴わずに見えるであろうものと異なるように、ユーザのための表示されることができる。例えば、ウェアラブルシステムは、頭部搭載型ディスプレイに、オリジナル画像と関連付けられた表音文字または表意文字と関連付けられたフォントサイズと異なるフォントサイズにおいて、テキストを表示させることができる。ウェアラブルシステムはまた、テキストの表示品質を改良することができる。例えば、霧、霞、雨、明光、低光量、表音文字と周囲画像との間の低光量または色コントラスト等の種々の環境要因は、ウェアラブルシステムを用いなければ、環境内のテキストのユーザのクリアなビューを妨げ得る。ウェアラブルシステムは、テキストの明確性を増加させるであろう、標識を提示してもよい（例えば、増加されたコントラスト比またはより大きいフォントを用いて）。

ウェアラブルシステムはまた、テキスト（例えば、テキストを上に表記）をそのオリジナル言語から標的言語に翻訳することができる。例えば、テキストは、ユーザが理解していない言語からユーザが理解している言語に翻訳されてもよい。翻訳されたテキストは、ユーザが、ユーザが理解可能な言語におけるテキストを容易に視認し得るように、オリジナルテキストにわたってレンダリングされてもよい。
（ウェアラブルシステムの３Ｄディスプレイの実施例）

ウェアラブルシステム（本明細書では、拡張現実（ＡＲ）システムとも称される）は、２Ｄまたは３Ｄ仮想画像をユーザに提示するために構成されることができる。画像は、組み合わせまたは同等物における、静止画像、ビデオのフレーム、またはビデオであってもよい。ウェアラブルシステムの少なくとも一部は、ユーザ相互作用のために、単独で、または組み合わせて、ＶＲ、ＡＲ、またはＭＲ環境を提示し得る、ウェアラブルデバイス上に実装されることができる。ウェアラブルデバイスは、頭部搭載型デバイス（ＨＭＤ）であることができ、これは、ＡＲデバイス（ＡＲＤ）と同義的に使用される。さらに、本開示の目的のために、用語「ＡＲ」は、用語「ＭＲ」と同義的に使用される。

図１は、人物によって視認される、ある仮想現実オブジェクトおよびある物理的オブジェクトを伴う、複合現実シナリオの例証を描写する。図１では、ＭＲ場面１００が、描写され、ＭＲ技術のユーザには、人々、木々、背景における建物、およびコンクリートプラットフォーム１２０を特徴とする、実世界公園状設定１１０が見える。これらのアイテムに加え、ＭＲ技術のユーザはまた、実世界プラットフォーム１２０上に立っているロボット像１３０と、マルハナバチの擬人化のように見える、飛んでいる漫画のようなアバタキャラクタ１４０とが「見える」と知覚するが、これらの要素は、実世界には存在しない。

３Ｄディスプレイが、真の深度感覚、より具体的には、表面深度のシミュレートされた感覚を生成するために、ディスプレイの視野内の点毎に、その仮想深度に対応する遠近調節応答を生成することが望ましくあり得る。ディスプレイ点に対する遠近調節応答が、収束および立体視の両眼深度キューによって決定されるようなその点の仮想深度に対応しない場合、ヒトの眼は、遠近調節衝突を体験し、不安定な結像、有害な眼精疲労、頭痛、および遠近調節情報の不在下では、表面深度のほぼ完全な欠如をもたらし得る。

ＶＲ、ＡＲ、およびＭＲ体験は、複数の深度平面に対応する画像が視認者に提供されるディスプレイを有する、ディスプレイシステムによって提供されることができる。画像は、深度平面毎に異なってもよく（例えば、場面またはオブジェクトの若干異なる提示を提供する）、視認者の眼によって別個に集束され、それによって、異なる深度平面上に位置する場面に関する異なる画像特徴に合焦させるために要求される眼の遠近調節に基づいて、または合焦からずれている異なる深度平面上の異なる画像特徴を観察することに基づいて、ユーザに深度キューを提供することに役立ち得る。本明細書のいずれかに議論されるように、そのような深度キューは、信用できる深度の知覚を提供する。

図２Ａは、ウェアラブルシステム２００の実施例を図示し、これは、ＡＲ／ＶＲ／ＭＲ場面を提供するように構成されることができる。ウェアラブルシステム２００はまた、ＡＲシステム２００と称され得る。ウェアラブルシステム２００は、ディスプレイ２２０と、ディスプレイ２２０の機能をサポートするための種々の機械的ならびに電子的モジュールおよびシステムとを含む。ディスプレイ２２０は、ユーザ、装着者、または視認者２１０によって装着可能である、フレーム２３０に結合されてもよい。ディスプレイ２２０は、ユーザ２１０の眼の正面に位置付けられることができる。ディスプレイ２２０は、ＡＲ／ＶＲ／ＭＲコンテンツをユーザに提示するができる。ディスプレイ２２０は、ユーザの頭部上に装着される、頭部搭載型ディスプレイを備えることができる。いくつかの実施形態では、スピーカ２４０が、フレーム２３０に結合され、ユーザの外耳道に隣接して位置付けられる（いくつかの実施形態では、示されない別のスピーカが、ユーザの他方の外耳道に隣接して位置付けられ、ステレオ／成形可能音響制御を提供する）。ディスプレイ２２０は、環境からオーディオストリームを検出し、周囲音を捕捉するために、オーディオセンサ（例えば、マイクロホン）２３２を含むことができる。いくつかの実施形態では、示されない１つ以上の他のオーディオセンサが、ステレオ音受信を提供するために位置付けられる。ステレオ音受信は、音源の場所を決定するために使用されることができる。ウェアラブルシステム２００は、音声または発話認識をオーディオストリームに実施することができる。

ウェアラブルシステム２００は、ユーザの周囲の環境内の世界を観察する、外向きに面した結像システム４６４（図４に示される）を含むことができる。ウェアラブルシステム２００はまた、ユーザの眼移動を追跡することができる、内向きに面した結像システム４６２（図４に示される）を含むことができる。内向きに面した結像システムは、一方の眼の移動または両方の眼の移動のいずれかを追跡することができる。内向きに面した結像システム４６２は、フレーム２３０に取り付けられてもよく、内向きに面した結像システムによって入手された画像情報を処理し、例えば、ユーザ２１０の眼、眼の移動、または眼姿勢の瞳孔直径もしくは配向を決定し得る、処理モジュール２６０または２７０と電気通信してもよい。

実施例として、ウェアラブルシステム２００は、外向きに面した結像システム４６４または内向きに面した結像システム４６２を使用して、ユーザの姿勢の画像を入手することができる。画像は、静止画像、ビデオのフレーム、またはビデオであってもよい。

ディスプレイ２２０は、有線導線または無線接続等によって、フレーム２３０に固定して取り付けられる、ユーザによって装着されるヘルメットもしくは帽子に固定して取り付けられる、ヘッドホンに内蔵される、または別様にユーザ２１０に除去可能に取り付けられる（例えば、リュック式構成において、ベルト結合式構成において）等、種々の構成において搭載され得る、ローカルデータ処理モジュール２６０に動作可能に結合されることができる（２５０）。

ローカル処理およびデータモジュール２６０は、ハードウェアプロセッサならびに不揮発性メモリ（例えば、フラッシュメモリ）等のデジタルメモリを備えてもよく、その両方とも、データの処理、キャッシュ、および記憶を補助するために利用され得る。データは、画像捕捉デバイス（例えば、内向きに面した結像システムおよび／または外向きに面した結像システム内のカメラ）、オーディオセンサ（例えば、マイクロホン）、慣性測定ユニット（ＩＭＵ）、加速度計、コンパス、全地球測位システム（ＧＰＳ）ユニット、無線デバイス、もしくはジャイロスコープ等の（例えば、フレーム２３０に動作可能に結合される、または別様にユーザ２１０に取り付けられ得る）センサから捕捉されるデータ（ａ）または、場合によっては処理もしくは読出後にディスプレイ２２０への通過のために、遠隔処理モジュール２７０もしくは遠隔データリポジトリ２８０を使用して入手もしくは処理されるデータ（ｂ）を含んでもよい。ローカル処理およびデータモジュール２６０は、これらの遠隔モジュールがローカル処理およびデータモジュール２６０へのリソースとして利用可能であるように、有線または無線通信リンク等を介して、通信リンク２６２または２６４を遠隔処理モジュール２７０または遠隔データリポジトリ２８０に動作可能に結合されてもよい。加えて、遠隔処理モジュール２８０および遠隔データリポジトリ２８０は、相互に動作可能に結合されてもよい。

いくつかの実施形態では、遠隔処理モジュール２７０は、データまたは画像情報を分析および処理するように構成される、１つ以上のプロセッサを備えてもよい。いくつかの実施形態では、遠隔データリポジトリ２８０は、デジタルデータ記憶設備を備え得、これは、インターネットまたは「クラウド」リソース構成における他のネットワーキング構成を通して利用可能であってもよい。いくつかの実施形態では、全てのデータが、記憶され、全ての算出が、ローカル処理およびデータモジュールにおいて実施され、遠隔モジュールからの完全に自律的な使用を可能にする。

図２Ｂは、ウェアラブルシステム２００を示し、これは、ディスプレイ２２０と、フレーム２３０とを含むことができる。引き伸ばし図２０２は、ウェアラブルシステム２００の種々のコンポーネントを図式的に図示する。ある実装では、図２Ｂに図示されるコンポーネントのうちの１つ以上のものは、ディスプレイ２２０の一部であることができる。種々のコンポーネントは、単独で、または組み合わせて、ウェアラブルシステム２００のユーザまたはユーザの環境と関連付けられた種々のデータ（例えば、聴覚的または視覚的データ等）を収集することができる。他の実施形態は、ウェアラブルシステムが使用される用途に応じて、付加的またはより少ないコンポーネントを有してもよいことを理解されたい。なお、図２Ｂは、種々のコンポーネントのうちのいくつかと、ウェアラブルシステムを通して収集、分析、および記憶され得る、データのタイプとを提供する基本概念を提供する。

図２Ｂは、例示的ウェアラブルシステム２００を示し、これは、ディスプレイ２２０を含むことができる。ディスプレイ２２０は、ユーザの頭部、またはフレーム２３０に対応する、筐体もしくはフレーム１０８に搭載され得る、ディスプレイレンズ１０６を備えることができる。ディスプレイレンズ１０６は、筐体１０８によって、ユーザの眼３０２、３０４の正面に位置付けられる、１つ以上の透明ミラーを備えてもよく、投影された光３８を眼３０２、３０４の中にバウンスさせ、ビーム成形を促進しながら、また、ローカル環境からの少なくとも一部の光の透過を可能にするように構成されてもよい。投影された光ビーム３８の波面は、投影された光の所望の焦点距離と一致するように屈曲または集束されてもよい。図示されるように、２つの広視野マシンビジョンカメラ１６（世界カメラとも称される）が、筐体１０８に結合され、ユーザの周囲の環境を結像することができる。これらのカメラ１６は、二重捕捉式可視光／非可視（例えば、赤外線）光カメラであることができる。カメラ１６は、図４に示される外向きに面した結像システム４６４の一部であってもよい。世界カメラ１６によって入手された画像は、姿勢プロセッサ３６によって処理されることができる。例えば、姿勢プロセッサ３６は、１つ以上のオブジェクト認識装置７０８（例えば、図７に示される）を実装し、ユーザまたはユーザの環境内の別の人物の姿勢を識別する、またはユーザの環境内の物理的オブジェクトを識別することができる。

図２Ｂを継続して参照すると、光３８を眼３０２、３０４の中に投影するように構成される、ディスプレイミラーおよび光学を伴う、一対の走査式レーザ成形波面（例えば、深度のために）光プロジェクタモジュールが、示される。描写される図はまた、ユーザの眼３０２、３０４を追跡し、レンダリングおよびユーザ入力をサポート可能であるように構成される、赤外線光源２６（発光ダイオード「ＬＥＤ」等）とペアリングされる、２つの小型赤外線カメラ２４を示す。カメラ２４は、図４に示される、内向きに面した結像システム４６２の一部であってもよい。ウェアラブルシステム２００はさらに、センサアセンブリ３９を特徴とすることができ、これは、Ｘ、Ｙ、およびＺ軸加速度計能力ならびに磁気コンパスおよびＸ、Ｙ、およびＺ軸ジャイロスコープ能力を備え、好ましくは、２００Ｈｚ等の比較的に高周波数でデータを提供し得る。センサアセンブリ３９は、図２Ａを参照して説明される、ＩＭＵの一部であってもよい。描写されるシステム２００はまた、ＡＳＩＣ（特定用途向け集積回路）、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）、またはＡＲＭプロセッサ（高度縮小命令セット機械）等の頭部姿勢プロセッサ３６を備えることができ、これは、リアルタイムまたは近リアルタイムユーザ頭部姿勢を捕捉デバイス１６から出力された広視野画像情報からを計算するように構成されてもよい。頭部姿勢プロセッサ３６は、ハードウェアプロセッサであることができ、図２Ａに示されるローカル処理およびデータモジュール２６０の一部として実装されることができる。

また、示されるのは、デジタルまたはアナログ処理を実行し、姿勢をセンサアセンブリ３９からのジャイロスコープ、コンパス、または加速度計データから導出するように構成される、プロセッサ３２である。プロセッサ３２は、図２Ａに示される、ローカル処理およびデータモジュール２６０の一部であってもよい。ウェアラブルシステム２００はまた、図２Ｂに示されるように、例えば、ＧＰＳ３７（全地球測位システム）等の測位システムを含み、姿勢および測位分析を補助することができる。加えて、ＧＰＳはさらに、ユーザの環境についての遠隔ベース（例えば、クラウドベース）の情報を提供してもよい。本情報は、ユーザの環境内のオブジェクトまたは情報を認識するために使用されてもよい。

ウェアラブルシステムは、ＧＰＳ３７および遠隔コンピューティングシステム（例えば、遠隔処理モジュール２７０、別のユーザのＡＲＤ等）によって入手されたデータを組み合わせてもよく、これは、ユーザの環境についてのより多くの情報を提供することができる。一実施例として、ウェアラブルシステムは、ＧＰＳデータに基づいて、ユーザの場所を決定し、ユーザの場所と関連付けられた仮想オブジェクトを含む、世界マップを読み出すことができる（例えば、遠隔処理モジュール２７０と通信することによって）。別の実施例として、ウェアラブルシステム２００は、世界カメラ１６（図４に示される外向きに面した結像システム４６４の一部であってもよい）を使用して、環境を監視することができる。世界カメラ１６によって入手された画像に基づいて、ウェアラブルシステム２００は、環境内の表意文字を検出することができる（例えば、図７に示される１つ以上のオブジェクト認識装置７０８を使用することによって）。ウェアラブルシステムはさらに、ＧＰＳ３７によって入手されたデータを使用して、表意文字を解釈することができる。例えば、ウェアラブルシステム２００は、表意文字が位置する、地理的領域を識別し、地理的領域と関連付けられた１つ以上の言語を識別することができる。ウェアラブルシステムは、故に、識別された言語に基づいて、例えば、識別された言語と関連付けられた統語論、文法、文構造、スペル、句読点等に基づいて、表意文字を解釈することができる。一実施例では、ドイツ滞在ユーザ２１０は、アウトバーンを運転中、交通標識を知覚し得る。ウェアラブルシステム２００は、ユーザ２１０がドイツに滞在しており、結像された交通標識からのテキストが、ＧＰＳ３７から入手されたデータに基づいて（単独で、または世界カメラ１６によって入手された画像と組み合わせて）、ドイツ語である可能性が高いことを識別することができる。

いくつかの状況では、世界カメラ１６によって入手された画像は、ユーザの環境内のオブジェクトの不完全な情報を含み得る。例えば、画像は、霞のある大気、テキスト中の染みまたは誤植、低光量、ぼやけた画像、オクルージョン、世界カメラ１６の限定ＦＯＶ等に起因して、不完全なテキスト（例えば、文、表音文字、または語句）を含み得る。ウェアラブルシステム２００は、ＧＰＳ３７によって入手されたデータを画像内のテキストを認識する際のコンテキスト手掛かりとして使用し得る。

ウェアラブルシステム２００はまた、レンダリングエンジン３４を備えてもよく、これは、世界のユーザのビューのために、ユーザにローカルなレンダリング情報を提供し、スキャナの動作およびユーザの眼の中への結像を促進するように構成されることができる。レンダリングエンジン３４は、ハードウェアプロセッサ（例えば、中央処理ユニットまたはグラフィック処理ユニット等）によって実装されてもよい。いくつかの実施形態では、レンダリングエンジンは、ローカル処理およびデータモジュール２６０の一部である。レンダリングエンジン３４は、ウェアラブルシステム２００の他のコンポーネントに通信可能に結合されることができる（例えば、有線または無線リンクを介して）。例えば、レンダリングエンジン３４は、通信リンク１０２を介して、眼カメラ２４に結合され、通信リンク１０４を介して、投影サブシステム１８（網膜走査ディスプレイに類似する様式において、走査レーザ配列を介して、光をユーザの眼３０２、３０４の中に投影することができる）に結合されることができる。レンダリングエンジン３４はまた、それぞれ、リンク１０５および９４を介して、例えば、センサ姿勢プロセッサ３２および画像姿勢プロセッサ３６等の他の処理ユニットと通信することができる。

カメラ２４（例えば、小型赤外線カメラ）は、眼姿勢を追跡し、レンダリングおよびユーザ入力をサポートするために利用されてもよい。いくつかの例示的眼姿勢は、ユーザが見ている場所または合焦させている深度（眼の輻輳・開散運動（ｖｅｒｇｅｎｃｅ）を用いて推定されてもよい）を含んでもよい。ＧＰＳ３７、ジャイロスコープ、コンパス、および加速度計３９は、大まかなまたは高速姿勢推定を提供するために利用されてもよい。カメラ１６のうちの１つ以上のものは、画像および姿勢を入手することができ、これは、関連付けられたクラウドコンピューティングリソースからのデータと併せて、ローカル環境をマッピングし、ユーザビューを他者と共有するために利用されてもよい。

図２Ｂに描写される例示的コンポーネントは、例証目的のためだけのものである。複数のセンサおよび他の機能モジュールが、例証および説明の容易性のために、ともに示される。いくつかの実施形態は、これらのセンサまたはモジュールの１つのみまたはサブセットを含んでもよい。さらに、これらのコンポーネントの場所は、図２Ｂに描写される位置に限定されない。いくつかのコンポーネントは、ベルト搭載型コンポーネント、ハンドヘルドコンポーネント、またはヘルメットコンポーネント等、他のコンポーネント内に搭載または格納されてもよい。一実施例として、画像姿勢プロセッサ３６、センサ姿勢プロセッサ３２、およびレンダリングエンジン３４は、ベルトパック内に位置付けられ、超広帯域、Ｗｉ－Ｆｉ、Ｂｌｕｅｔｏｏｔｈ（登録商標）等の無線通信を介して、または有線通信を介して、ウェアラブルシステムの他のコンポーネントと通信するように構成されてもよい。描写される筐体１０８は、好ましくは、ユーザによって頭部搭載可能かつ装着可能である。しかしながら、ウェアラブルシステム２００のいくつかのコンポーネントは、ユーザの身体の他の部分に装着されてもよい。例えば、スピーカ２４０が、ユーザの耳の中に挿入され、音をユーザに提供してもよい。

ユーザの眼３０２、３０４の中への光３８の投影に関して、いくつかの実施形態では、カメラ２４は、一般に、眼３０２、３０４の焦点の位置または「焦点深度」と一致する、ユーザの眼３０２、３０４の中心が幾何学的に輻輳される場所を測定するために利用されてもよい。眼が輻輳する全ての点の３次元表面は、「単視軌跡」と称され得る。焦点距離は、有限数の深度をとり得る、または無限に変動し得る。輻輳・開散運動距離から投影された光は、対象の眼３０２、３０４に集束されるように現れる一方、輻輳・開散運動距離の正面または背後の光は、ぼかされる。本開示のウェアラブルシステムおよび他のディスプレイシステムの実施例はまた、米国特許公開第２０１６／０２７０６５６号（参照することによってその全体として本明細書に組み込まれる）に説明される。

ヒト視覚系は、複雑であって、深度の現実的知覚を提供することは、困難である。オブジェクトの視認者は、輻輳・開散運動移動と遠近調節（ａｃｃｍｍｏｄａｔｉｏｎ）の組み合わせに起因して、オブジェクトを３次元として知覚し得ると考えられる。相互に対する２つの眼の輻輳・開散運動移動（例えば、瞳孔が、相互に向かって、またはそこから離れるように移動し、眼の視線を収束させ、オブジェクトを固視するような瞳孔の回転）は、眼の水晶体の合焦（または「遠近調節」）と緊密に関連付けられる。通常条件下、焦点を１つのオブジェクトから異なる距離における別のオブジェクトに変化させるための眼のレンズの焦点の変化または眼の遠近調節は、「遠近調節－輻輳・開散運動反射」として知られる関係下、輻輳・開散運動の整合変化を自動的に同一距離に生じさせるであろう。同様に、輻輳・開散運動の変化は、通常条件下、遠近調節の整合変化を誘起するであろう。遠近調節と輻輳・開散運動との間のより良好な整合を提供するディスプレイシステムは、３次元画像のより現実的かつ快適なシミュレーションを形成し得る。

さらに、約０．７ミリメートル未満のビーム直径を伴う、空間的にコヒーレントな光は、眼が合焦している場所にかかわらず、ヒトの眼によって正しく解決されることができる。したがって、適切な焦点深度の錯覚を作成するために、眼の輻輳・開散運動が、カメラ２４を用いて追跡されてもよく、レンダリングエンジン３４および投影サブシステム１８は、単視軌跡上またはそれに近接する全てのオブジェクトを合焦させてレンダリングし、全ての他のオブジェクトを可変程度に焦点をずらしてレンダリングするために利用されてもよい（例えば、意図的に作成されたぼけを使用して）。好ましくは、システム２２０は、ユーザに、約６０フレーム／秒以上のフレームレートでレンダリングする。上記に説明されるように、好ましくは、カメラ２４は、眼追跡のために利用されてもよく、ソフトウェアは、輻輳・開散運動幾何学形状だけではなく、また、ユーザ入力としての役割を果たすための焦点場所キューも取り上げるように構成されてもよい。好ましくは、そのようなディスプレイシステムは、昼間または夜間の使用のために好適な明度およびコントラストを用いて構成される。

いくつかの実施形態では、ディスプレイシステムは、好ましくは、視覚的オブジェクト整合のために約２０ミリ秒未満の待ち時間、約０．１度未満の角度整合、および約１弧分の分解能を有し、これは、理論によって限定されるわけではないが、ヒトの眼のほぼ限界であると考えられる。ディスプレイシステム２２０は、位置特定システムと統合されてもよく、これは、ＧＰＳ要素、光学追跡、コンパス、加速度計、または他のデータソースを伴い、位置および姿勢決定を補助し得る。位置特定情報は、関連世界のユーザのビュー内における正確なレンダリングを促進するために利用されてもよい（例えば、そのような情報は、眼鏡が実世界に対する場所を把握することを促進するであろう）。

いくつかの実施形態では、ウェアラブルシステム２００は、ユーザの眼の遠近調節に基づいて、１つ以上の仮想画像を表示するように構成される。ユーザに画像が投影されている場所に合焦させるように強制する、従来の３Ｄディスプレイアプローチと異なり、いくつかの実施形態では、ウェアラブルシステムは、投影された仮想コンテンツの焦点を自動的に変動させ、ユーザに提示される１つ以上の画像のより快適な視認を可能にするように構成される。例えば、ユーザの眼が、１ｍの現在の焦点を有する場合、画像は、ユーザの焦点と一致するように投影されてもよい。ユーザが、焦点を３ｍに偏移させる場合、画像は、新しい焦点と一致するように投影される。したがって、ユーザに所定の焦点を強制するのではなく、いくつかの実施形態のウェアラブルシステム２００は、ユーザの眼がより自然な様式において機能することを可能にする。

そのようなウェアラブルシステム２００は、仮想現実デバイスに対して典型的に観察される、眼精疲労、頭痛、および他の生理学的症状の発生率を排除または低減させ得る。これを達成するために、ウェアラブルシステム２００の種々の実施形態は、１つ以上の可変焦点要素（ＶＦＥ）を通して、仮想画像を可変焦点距離に投影するように構成される。１つ以上の実施形態では、３Ｄ知覚は、画像をユーザから固定された焦点面に投影する、多平面焦点システムを通して達成されてもよい。他の実施形態は、可変平面焦点を採用し、焦点面は、ユーザの焦点の現在の状態と一致するように、ｚ－方向に往復して移動される。

多平面焦点システムおよび可変平面焦点システムの両方において、ウェアラブルシステム２００は、眼追跡を採用し、ユーザの眼の輻輳・開散運動を決定し、ユーザの現在の焦点を決定し、仮想画像を決定された焦点に投影してもよい。他の実施形態では、ウェアラブルシステム２００は、ファイバスキャナまたは他の光生成源を通して、網膜を横断して、可変焦点の光ビームをラスタパターンで可変に投影する、光変調器を備える。したがって、画像を可変焦点距離に投影するウェアラブルシステム２００のディスプレイの能力は、ユーザがオブジェクトを３Ｄにおいて視認するための遠近調節を容易にするだけではなく、また、米国特許公開第２０１６／０２７０６５６号（参照することによってその全体として本明細書に組み込まれる）にさらに説明されるように、ユーザの眼球異常を補償するために使用されてもよい。いくつかの他の実施形態では、空間光変調器は、種々の光学コンポーネントを通して、画像をユーザに投影してもよい。例えば、以下にさらに説明されるように、空間光変調器は、画像を１つ以上の導波管上に投影してもよく、これは、次いで、画像をユーザに伝送する。

図３は、複数の深度平面を使用して３次元画像をシミュレートするためのアプローチの側面を図示する。図３を参照すると、ｚ－軸上の眼３０２および３０４からの種々の距離におけるオブジェクトは、それらのオブジェクトが合焦するように、眼３０２および３０４によって遠近調節される。眼３０２および３０４は、特定の遠近調節された状態をとり、オブジェクトをｚ－軸に沿った異なる距離に合焦させる。その結果、特定の遠近調節された状態は、特定の深度平面におけるオブジェクトまたはオブジェクトの一部が、眼がその深度平面に対して遠近調節された状態にあるとき、合焦するように、関連付けられた焦点距離を有する、深度平面３０６のうちの特定の１つと関連付けられると言え得る。いくつかの実施形態では、３次元画像は、眼３０２および３０４毎に、画像の異なる提示を提供することによって、また、深度平面のそれぞれに対応する画像の異なる提示を提供することによって、シミュレートされてもよい。例証を明確にするために、別個であるように示されるが、眼３０２および３０４の視野は、例えば、ｚ－軸に沿った距離が増加するにつれて、重複し得ることを理解されたい。加えて、例証を容易にするために、平坦であるように示されるが、深度平面の等高線は、深度平面内の全ての特徴が特定の遠近調節された状態における眼と合焦するように、物理的空間内で湾曲され得ることを理解されたい。理論によって限定されるわけではないが、ヒトの眼は、典型的には、有限数の深度平面を解釈し、深度知覚を提供することができると考えられる。その結果、知覚された深度の高度に真実味のあるシミュレーションが、眼にこれらの限定数の深度平面のそれぞれに対応する画像の異なる提示を提供することによって達成され得る。
（導波管スタックアセンブリ）

図４は、画像情報をユーザに出力するための導波管スタックの実施例を図示する。ウェアラブルシステム４００は、複数の導波管４３２ｂ、４３４ｂ、４３６ｂ、４３８ｂ、４４００ｂを使用して、３次元知覚を眼／脳に提供するために利用され得る、導波管のスタックまたはスタックされた導波管アセンブリ４８０を含む。いくつかの実施形態では、ウェアラブルシステム４００は、図２Ａのウェアラブルシステム２００に対応してもよく、図４は、そのウェアラブルシステム２００のいくつかの部分をより詳細に概略的に示す。例えば、いくつかの実施形態では、導波管アセンブリ４８０は、図２Ａのディスプレイ２２０の中に統合されてもよい。

図４を継続して参照すると、導波管アセンブリ４８０はまた、複数の特徴４５８、４５６、４５４、４５２を導波管間に含んでもよい。いくつかの実施形態では、特徴４５８、４５６、４５４、４５２は、レンズであってもよい。他の実施形態では、特徴４５８、４５６、４５４、４５２は、レンズではなくてもよい。むしろ、それらは、単に、スペーサであってもよい（例えば、空気間隙を形成するためのクラッディング層または構造）。

導波管４３２ｂ、４３４ｂ、４３６ｂ、４３８ｂ、４４０ｂまたは複数のレンズ４５８、４５６、４５４、４５２は、種々のレベルの波面曲率または光線発散を用いて、画像情報を眼に送信するように構成されてもよい。各導波管レベルは、特定の深度平面と関連付けられてもよく、その深度平面に対応する画像情報を出力するように構成されてもよい。画像投入デバイス４２０、４２２、４２４、４２６、４２８は、それぞれ、眼４１０に向かって出力するために、各個別の導波管を横断して入射光を分散させるように構成され得る、導波管４４０ｂ、４３８ｂ、４３６ｂ、４３４ｂ、４３２ｂの中に画像情報を投入するために利用されてもよい。光は、画像投入デバイス４２０、４２２、４２４、４２６、４２８の出力表面から出射し、導波管４４０ｂ、４３８ｂ、４３６ｂ、４３４ｂ、４３２ｂの対応する入力縁の中に投入される。いくつかの実施形態では、光の単一ビーム（例えば、コリメートされたビーム）が、各導波管の中に投入され、特定の導波管と関連付けられた深度平面に対応する特定の角度（および発散量）において眼４１０に向かって指向される、クローン化されたコリメートビームの場全体を出力してもよい。

いくつかの実施形態では、画像投入デバイス４２０、４２２、４２４、４２６、４２８は、それぞれ、それぞれの対応する導波管４４０ｂ、４３８ｂ、４３６ｂ、４３４ｂ、４３２ｂの中への投入のための画像情報を生成する、離散ディスプレイである。いくつかの他の実施形態では、画像投入デバイス４２０、４２２、４２４、４２６、４２８は、例えば、画像情報を１つ以上の光学導管（光ファイバケーブル等）を介して、画像投入デバイス４２０、４２２、４２４、４２６、４２８のそれぞれに送り得る、単一の多重化されたディスプレイの出力端である。

コントローラ４６０が、スタックされた導波管アセンブリ４８０および画像投入デバイス４２０、４２２、４２４、４２６、４２８の動作を制御する。コントローラ４６０は、導波管４４０ｂ、４３８ｂ、４３６ｂ、４３４ｂ、４３２ｂへの画像情報のタイミングおよび提供を調整する、プログラミング（例えば、非一過性コンピュータ可読媒体内の命令）を含む。いくつかの実施形態では、コントローラ４６０は、単一一体型デバイスまたは有線もしくは無線通信チャネルによって接続される分散型システムであってもよい。コントローラ４６０は、いくつかの実施形態では、処理モジュール２６０または２７０（図２に図示される）の一部であってもよい。

導波管４４０ｂ、４３８ｂ、４３６ｂ、４３４ｂ、４３２ｂは、全内部反射（ＴＩＲ）によって各個別の導波管内で光を伝搬するように構成されてもよい。導波管４４０ｂ、４３８ｂ、４３６ｂ、４３４ｂ、４３２ｂはそれぞれ、主要な上部および底部表面ならびにそれらの主要上部表面と底部表面との間に延在する縁を伴う、平面である、または別の形状（例えば、湾曲）を有してもよい。図示される構成では、導波管４４０ｂ、４３８ｂ、４３６ｂ、４３４ｂ、４３２ｂはそれぞれ、光を再指向させ、各個別の導波管内で伝搬させ、導波管から、画像情報を眼４１０に出力することによって、光を導波管から抽出するように構成される、光抽出光学要素４４０ａ、４３８ａ、４３６ａ、４３４ａ、４３２ａを含んでもよい。抽出された光はまた、外部結合光と称され得、光抽出光学要素はまた、外部結合光学要素と称され得る。抽出された光のビームは、導波管によって、導波管内を伝搬する光が光再指向要素に衝打する場所に出力される。光抽出光学要素（４４０ａ、４３８ａ、４３６ａ、４３４ａ、４３２ａ）は、例えば、反射または回折光学特徴であってもよい。説明の容易性および図面の明確性のために、導波管４４０ｂ、４３８ｂ、４３６ｂ、４３４ｂ、４３２ｂの底部主要表面に配置されて図示されるが、いくつかの実施形態では、光抽出光学要素４４０ａ、４３８ａ、４３６ａ、４３４ａ、４３２ａは、上部または底部主要表面に配置されてもよい、または導波管４４０ｂ、４３８ｂ、４３６ｂ、４３４ｂ、４３２ｂの容積内に直接配置されてもよい。いくつかの実施形態では、光抽出光学要素４４０ａ、４３８ａ、４３６ａ、４３４ａ、４３２ａは、透明基板に取り付けられ、導波管４４０ｂ、４３８ｂ、４３６ｂ、４３４ｂ、４３２ｂを形成する、材料の層内に形成されてもよい。いくつかの他の実施形態では、導波管４４０ｂ、４３８ｂ、４３６ｂ、４３４ｂ、４３２ｂは、材料のモノリシック部品であってもよく、光抽出光学要素４４０ａ、４３８ａ、４３６ａ、４３４ａ、４３２ａは、材料のその部品の表面上および／またはその内部に形成されてもよい。

図４を継続して参照すると、本明細書に議論されるように、各導波管４４０ｂ、４３８ｂ、４３６ｂ、４３４ｂ、４３２ｂは、光を出力し、特定の深度平面に対応する画像を形成するように構成される。例えば、眼の最近傍の導波管４３２ｂは、そのような導波管４３２ｂの中に投入されるにつれて、コリメートされた光を眼４１０に送達するように構成されてもよい。コリメートされた光は、光学無限遠焦点面を表し得る。次の上方の導波管４３４ｂは、眼４１０に到達し得る前に、第１のレンズ４５２（例えば、負のレンズ）を通して通過する、コリメートされた光を送出するように構成されてもよい。第１のレンズ４５２は、眼／脳が、その次の上方の導波管４３４ｂから生じる光を光学無限遠から眼４１０に向かって内向きにより近い第１の焦点面から生じるように解釈するように、若干の凸面波面曲率を生成するように構成されてもよい。同様に、第３の上方の導波管４３６ｂは、眼４１０に到達する前に、その出力光を第１のレンズ４５２および第２のレンズ４５４の両方を通して通過させる。第１および第２のレンズ４５２ならびに４５４の組み合わせられた屈折力は、眼／脳が、第３の導波管４３６ｂから生じる光が次の上方の導波管４３４ｂからの光であった光学無限遠から人物に向かって内向きにさらにより近い第２の焦点面から生じるように解釈するように、別の漸増量の波面曲率を生成するように構成されてもよい。

他の導波管層（例えば、導波管４３８ｂ、４４０ｂ）およびレンズ（例えば、レンズ４５６、４５８）も同様に構成され、スタック内の最高導波管４４０ｂを用いて、人物に最も近い焦点面を表す集約焦点力のために、その出力をそれと眼との間のレンズの全てを通して送出する。スタックされた導波管アセンブリ４８０の他側の世界４７０から生じる光を視認／解釈するとき、レンズ４５８、４５６、４５４、４５２のスタックを補償するために、補償レンズ層４３０が、スタックの上部に配置され、下方のレンズスタック４５８、４５６、４５４、４５２の集約力を補償してもよい。そのような構成は、利用可能な導波管／レンズ対と同じ数の知覚される焦点面を提供する。導波管の光抽出光学要素およびレンズの集束側面は両方とも、静的であってもよい（例えば、動的または電気活性ではない）。いくつかの代替実施形態では、一方または両方とも、電気活性特徴を使用して動的であってもよい。

図４を継続して参照すると、光抽出光学要素４４０ａ、４３８ａ、４３６ａ、４３４ａ、４３２ａは、光をその個別の導波管から再指向し、かつ導波管と関連付けられた特定の深度平面のための適切な発散またはコリメーション量を用いて本光を出力することの両方のために構成されてもよい。その結果、異なる関連付けられた深度平面を有する導波管は、関連付けられた深度平面に応じて、異なる量の発散を伴う光を出力する、異なる構成の光抽出光学要素を有してもよい。いくつかの実施形態では、本明細書に議論されるように、光抽出光学要素４４０ａ、４３８ａ、４３６ａ、４３４ａ、４３２ａは、具体的角度において光を出力するように構成され得る、立体または表面特徴であってもよい。例えば、光抽出光学要素４４０ａ、４３８ａ、４３６ａ、４３４ａ、４３２ａは、体積ホログラム、表面ホログラム、または回折格子であってもよい。回折格子等の光抽出光学要素は、２０１５年６月２５日に公開された米国特許公開第２０１５／０１７８９３９号（参照することによってその全体として本明細書に組み込まれる）に説明される。

いくつかの実施形態では、光抽出光学要素４４０ａ、４３８ａ、４３６ａ、４３４ａ、４３２ａは、回折パターンを形成する回折特徴、すなわち、「回折光学要素」（本明細書では、「ＤＯＥ」とも称される）である。好ましくは、ＤＯＥは、ビームの光の一部のみが、ＤＯＥの各交差点を用いて、眼４１０に向かって偏向される一方、残りが、全内部反射を介して、導波管を通して移動し続けるように、比較的に低回折効率を有する。画像情報を搬送する光は、したがって、複数の場所において導波管から出射する、いくつかの関連出射ビームに分割され、その結果、導波管内でバウンスする本特定のコリメートされたビームに関して、眼３０４に向かって非常に均一パターンの出射放出となることができる。

いくつかの実施形態では、１つ以上のＤＯＥは、能動的に回折する「オン」状態と有意に回折しない「オフ」状態との間で切替可能であってもよい。例えば、切替可能なＤＯＥは、ポリマー分散液晶の層を備えてもよく、その中で微小液滴は、ホスト媒体中に回折パターンを備え、微小液滴の屈折率は、ホスト材料の屈折率に実質的に整合するように切り替えられることができる（その場合、パターンは、入射光を著しく回折させない）、または微小液滴は、ホスト媒体のものに整合しない屈折率に切り替えられることができる（その場合、パターンは、入射光を能動的に回折させる）。

いくつかの実施形態では、深度平面または被写界深度の数および分布は、視認者の眼の瞳孔サイズまたは配向に基づいて、動的に変動されてもよい。被写界深度は、視認者の瞳孔サイズと反比例して変化してもよい。その結果、視認者の眼の瞳孔のサイズが減少するにつれて、被写界深度は、その平面の場所が眼の焦点深度を越えるため判別不能である１つの平面が、判別可能となり、瞳孔サイズの低減および被写界深度の相当する増加に伴って、より合焦して現れ得るように増加する。同様に、異なる画像を視認者に提示するために使用される、離間される深度平面の数は、減少された瞳孔サイズに伴って減少されてもよい。例えば、視認者は、一方の深度平面から他方の深度平面への眼の遠近調節を調節せずに、第１の深度平面および第２の深度平面の両方の詳細を１つの瞳孔サイズにおいて明確に知覚することが可能ではない場合がある。しかしながら、これらの２つの深度平面は、同時に、遠近調節を変化させずに、別の瞳孔サイズにおいてユーザに合焦するには十分であり得る。

いくつかの実施形態では、ディスプレイシステムは、瞳孔サイズまたは配向の決定に基づいて、もしくは特定の瞳孔サイズまたは配向を示す電気信号の受信に応じて、画像情報を受信する導波管の数を変動させてもよい。例えば、ユーザの眼が、２つの導波管と関連付けられた２つの深度平面間を区別不能である場合、コントローラ４６０（ローカル処理およびデータモジュール２６０の実施形態であり得る）は、これらの導波管のうちの１つへの画像情報の提供を停止するように構成またはプログラムされることができる。有利には、これは、システムへの処理負担を低減させ、それによって、システムの応答性を増加させ得る。導波管のためのＤＯＥがオンおよびオフ状態間で切替可能である実施形態では、ＤＯＥは、導波管が画像情報を受信するとき、オフ状態に切り替えられてもよい。

いくつかの実施形態では、出射ビームに視認者の眼の直径未満の直径を有するという条件を満たさせることが望ましくあり得る。しかしながら、本条件を満たすことは、視認者の瞳孔のサイズの変動性に照らして、困難であり得る。いくつかの実施形態では、本条件は、視認者の瞳孔のサイズの決定に応答して出射ビームのサイズを変動させることによって、広範囲の瞳孔サイズにわたって満たされる。例えば、瞳孔サイズが減少するにつれて、出射ビームのサイズもまた、減少し得る。いくつかの実施形態では、出射ビームサイズは、可変開口を使用して変動されてもよい。

ウェアラブルシステム４００は、世界４７０の一部を結像する、外向きに面した結像システム４６４（例えば、デジタルカメラ）を含むことができる。世界４７０の本部分は、世界カメラの視野（ＦＯＶ）と称され得、結像システム４６４は、時として、ＦＯＶカメラとも称される。世界カメラのＦＯＶは、視認者２１０のＦＯＶと同一である場合とそうではない場合があり、これは、視認者２１０が所与の時間に知覚する、世界４７０の一部を包含する。例えば、いくつかの状況では、世界カメラのＦＯＶは、ウェアラブルシステム４００の視認者２１０の視野より大きくあり得る。視認者による視認または結像のために利用可能な領域全体は、動眼視野（ＦＯＲ）と称され得る。ＦＯＲは、装着者が、その身体、頭部、または眼を移動させ、空間内の実質的に任意の方向を知覚することができるため、ウェアラブルシステム４００を囲繞する４πステラジアンの立体角を含んでもよい。他のコンテキストでは、装着者の移動は、より抑制されてもよく、それに応じて、装着者のＦＯＲは、より小さい立体角に接し得る。外向きに面した結像システム４６４から得られた画像は、ユーザによって行われるジェスチャ（例えば、手または指のジェスチャ）を追跡し、ユーザの正面における世界４７０内のオブジェクトを検出する等のために、使用されることができる。

ウェアラブルシステム４００は、オーディオセンサ２３２、例えば、マイクロホンを含み、周囲音を捕捉することができる。上記に説明されるように、いくつかの実施形態では、１つ以上の他のオーディオセンサが、発話源の場所の決定に有用なステレオ音受信を提供するために位置付けられることができる。オーディオセンサ２３２は、別の実施例として、指向性マイクロホンを備えることができ、これはまた、オーディオ源が位置する場所に関するそのような有用な指向性情報を提供することができる。

ウェアラブルシステム４００はまた、眼移動および顔移動等のユーザの移動を観察する、内向きに面した結像システム４６６（例えば、デジタルカメラ）を含むことができる。内向きに面した結像システム４６６は、眼４１０の画像を捕捉し、眼３０４の瞳孔のサイズまたは配向を決定するために使用されてもよい。内向きに面した結像システム４６６は、ユーザが見ている方向（例えば、眼姿勢）を決定する際に使用するため、またはユーザのバイオメトリック識別のため（例えば、虹彩識別を介して）、画像を得るために使用されることができる。いくつかの実施形態では、少なくとも１つのカメラが、眼毎に、独立して、各眼の瞳孔サイズまたは眼姿勢を別個に決定し、それによって、各眼への画像情報の提示がその眼に対して動的に調整されることを可能にするために利用されてもよい。いくつかの他の実施形態では、単一眼４１０のみの瞳孔直径または配向（例えば、対の眼あたり単一カメラのみを使用して）が、決定され、ユーザの両眼に関して類似すると仮定される。内向きに面した結像システム４６６によって得られる画像は、ユーザに提示されるべきオーディオまたは視覚的コンテンツを決定するためにウェアラブルシステム４００によって使用され得る、ユーザの眼姿勢または気分を決定するために分析されてもよい。ウェアラブルシステム４００はまた、ＩＭＵ、加速度計、ジャイロスコープ等のセンサを使用して、頭部姿勢（例えば、頭部位置または頭部配向）を決定してもよい。

ウェアラブルシステム４００は、ユーザが、コマンドをコントローラ４６０に入力し、ウェアラブルシステム４００と相互作用し得る、ユーザ入力デバイス４６６を含むことができる。例えば、ユーザ入力デバイス４６６は、トラックパッド、タッチスクリーン、ジョイスティック、多自由度（ＤＯＦ）コントローラ、容量感知デバイス、ゲームコントローラ、キーボード、マウス、指向性パッド（Ｄパッド）、ワンド、触知デバイス、トーテム（例えば、仮想ユーザ入力デバイスとして機能する）等を含むことができる。マルチＤＯＦコントローラは、コントローラの一部または全部の可能性として考えられる平行移動（例えば、左／右、前方／後方、もしくは上／下）または回転（例えば、ヨー、ピッチ、もしくはロール）におけるユーザ入力を感知することができる。平行移動をサポートする、マルチＤＯＦコントローラは、３ＤＯＦと称され得る一方、平行移動および回転をサポートする、マルチＤＯＦコントローラは、６ＤＯＦと称され得る。ある場合には、ユーザは、指（例えば、親指）を使用して、タッチセンサ式入力デバイスを押下またはその上でスワイプし、入力をウェアラブルシステム４００に提供してもよい（例えば、ユーザ入力をウェアラブルシステム４００によって提供されるユーザインターフェースに提供するために）。ユーザ入力デバイス４６６は、ウェアラブルシステム４００の使用の間、ユーザの手によって保持されてもよい。ユーザ入力デバイス４６６は、ウェアラブルシステム４００と有線または無線通信することができる。

図５は、導波管によって出力された出射ビームの実施例を示す。１つの導波管が、図示されるが、導波管アセンブリ４８０内の他の導波管も、同様に機能してもよく、導波管アセンブリ４８０は、複数の導波管を含むことを理解されたい。光５２０が、導波管４３２ｂの入力縁４３２ｃにおいて導波管４３２ｂの中に投入され、ＴＩＲによって導波管４３２ｂ内を伝搬する。光５２０がＤＯＥ４３２ａに衝突する点において、光の一部が、出射ビーム５１０として導波管から出射する。出射ビーム５１０は、略平行として図示されるが、それらはまた、導波管４３２ｂと関連付けられた深度平面に応じて、ある角度で眼４１０に伝搬するように再指向されてもよい（例えば、発散出射ビーム形成）。略平行出射ビームは、光を外部結合し、眼４１０から遠距離（例えば、光学無限遠）における深度平面に設定されるように現れる画像を形成する光抽出光学要素を伴う、導波管を示し得ることを理解されたい。他の導波管または他の光抽出光学要素のセットは、より発散する、出射ビームパターンを出力してもよく、これは、眼４１０がより近い距離に遠近調節し、網膜に合焦させることを要求し、光学無限遠より眼４１０に近い距離からの光として脳によって解釈されるであろう。

図６は、導波管装置と、光を導波管装置へまたはそこから光学的に結合するための光学結合器サブシステムと、多焦点立体ディスプレイ、画像、またはライトフィールドの生成において使用される制御サブシステムとを含む、光学システムを示す、概略図である。光学システムは、導波管装置と、光を導波管装置にまたはそこから光学的に結合するための光学結合器サブシステムと、制御サブシステムとを含むことができる。光学システムは、多焦点立体、画像、またはライトフィールドを生成するために使用されることができる。光学システムは、１つ以上の一次平面導波管６３２ａ（１つのみのが図６に示される）と、一次導波管６３２ａの少なくともいくつかのそれぞれと関連付けられた１つ以上のＤＯＥ６３２ｂとを含むことができる。平面導波管６３２ｂは、図４を参照して議論される導波管４３２ｂ、４３４ｂ、４３６ｂ、４３８ｂ、４４０ｂに類似することができる。光学システムは、分散導波管装置を採用し、光を第１の軸（図６の図では、垂直またはＹ－軸）に沿って中継し、第１の軸（例えば、Ｙ－軸）に沿って光の有効射出瞳を拡張させてもよい。分散導波管装置は、例えば、分散平面導波管６２２ｂと、分散平面導波管６２２ｂと関連付けられた少なくとも１つのＤＯＥ６２２ａ（二重破線によって図示される）とを含んでもよい。分散平面導波管６２２ｂは、少なくともいくつかの点において、それと異なる配向を有する一次平面導波管６３２ｂと類似または同じであってもよい。同様に、少なくとも１つのＤＯＥ６２２ａは、少なくともいくつかの点において、ＤＯＥ６３２ａと類似または同じであってもよい。例えば、分散平面導波管６２２ｂまたはＤＯＥ６２２ａは、それぞれ、一次平面導波管６３２ｂまたはＤＯＥ６３２ａと同一材料から成ってもよい。図６に示される光学ディスプレイシステム６００の実施形態は、図２Ａに示されるウェアラブルシステム２００の中に統合されることができる。

中継され、射出瞳が拡張された光は、分散導波管装置から１つ以上の一次平面導波管６３２ｂの中に光学的に結合され得る。一次平面導波管６３２ｂは、好ましくは、第１の軸に直交する、第２の軸（例えば、図６の図では、水平またはＸ－軸）に沿って、光を中継することができる。着目すべきこととして、第２の軸は、第１の軸に対して非直交軸であることができる。一次平面導波管６３２ｂは、その第２の軸（例えば、Ｘ－軸）に沿って、光の有効射出瞳を拡張させる。例えば、分散平面導波管６２２ｂは、光を垂直またはＹ－軸に沿って中継および拡張させ、光を水平またはＸ－軸に沿って中継および拡張させ得る、一次平面導波管６３２ｂにその光を通過させることができる。

光学システムは、単一モード光ファイバ６４０の近位端の中に光学的に結合され得る、１つ以上の着色光源（例えば、赤色、緑色、および青色レーザ光）６１０を含んでもよい。光ファイバ６４０の遠位端は、圧電材料の中空管６４２を通して螺合または受容されてもよい。遠位端は、固定されない可撓性カンチレバー６４４として、管６４２から突出する。圧電管６４２は、４つの象限電極（図示せず）と関連付けられることができる。電極は、例えば、管６４２の外側、外側表面もしくは外側周縁、または直径に鍍着されてもよい。コア電極（図示せず）もまた、管６４２のコア、中心、内側周縁、または内径に位置してもよい。

例えば、ワイヤ６６０を介して電気的に結合される、駆動電子機器６５０は、対向する対の電極を駆動し、圧電管６４２を独立して２つの軸において屈曲させる。光ファイバ６４４の突出する遠位先端は、機械的共鳴モードを有する。共鳴の周波数は、光ファイバ６４４の直径、長さ、および材料性質に依存し得る。圧電管６４２をファイバカンチレバー６４４の第１の機械的共鳴モードの近傍で振動させることによって、ファイバカンチレバー６４４は、振動させられ、大偏向を通して掃引し得る。

２つの軸において共振振動を刺激することによって、ファイバカンチレバー６４４の先端は、２次元（２－Ｄ）走査を充填する面積内において２軸方向に走査される。光源６１０の強度をファイバカンチレバー６４４の走査と同期して変調させることによって、ファイバカンチレバー６４４から発せられる光は、画像を形成することができる。そのような設定の説明は、米国特許公開第２０１４／０００３７６２号（参照することによってその全体として本明細書に組み込まれる）に提供されている。

光学結合器サブシステムのコンポーネントは、走査ファイバカンチレバー６４４から発せられる光をコリメートすることができる。コリメートされた光は、鏡面表面６４８によって、少なくとも１つの回折光学要素（ＤＯＥ）６２２ａを含有する、狭分散平面導波管６２２ｂの中に反射されることができる。コリメートされた光は、ＴＩＲによって分散平面導波管６２２ｂに沿って（図６の図に対して）垂直に伝搬し、そうすることによって、ＤＯＥ６２２ａと繰り返し交差することができる。ＤＯＥ６２２ａは、好ましくは、低回折効率を有する。これは、光の一部（例えば、１０％）をＤＯＥ６２２ａとの交差点の各点においてより大きい一次平面導波管６３２ｂの縁に向かって回折させ、光の一部をＴＩＲを介して分散平面導波管６２２ｂの長さを辿ってそのオリジナル軌道上で継続させることができる。

ＤＯＥ６２２ａとの交差点の各点において、付加的光が、一次導波管６３２ｂの入口に向かって回折されることができる。入射光を複数の外部結合セットに分割することによって、光の射出瞳は、分散平面導波管６２２ｂ内のＤＯＥ６２２ａによって垂直に拡張されることができる。分散平面導波管６２２ｂから外部結合された本垂直に拡張された光は、一次平面導波管６３２ｂの縁に進入することができる。

一次導波管６３２ｂに進入する光は、ＴＩＲを介して、一次導波管６３２ｂに沿って（図６の図に対して）水平に伝搬することができる。光は、複数の点においてＤＯＥ６３２ａと交差するにつれて、ＴＩＲを介して、一次導波管６３２ｂの長さの少なくとも一部に沿って水平に伝搬する。ＤＯＥ６３２ａは、有利には、線形回折パターンおよび半径方向対称回折パターンの総和である、位相プロファイルを有し、光の偏向および集束の両方を生成するように設計または構成され得る。ＤＯＥ６３２ａは、有利には、ビームの光の一部のみが、ＤＯＥ６３２ａの各交差点において視認者の眼に向かって偏向される一方、光の残りが、ＴＩＲを介して、一次導波管６３２ｂを通して伝搬し続けるように、低回折効率（例えば、１０％）を有し得る。

伝搬する光とＤＯＥ６３２ａとの間の交差点の各点において、光の一部は、一次導波管６３２ｂの隣接面に向かって回折され、光がＴＩＲから逃散し、一次導波管６３２ｂの面から発せられることを可能にする。いくつかの実施形態では、ＤＯＥ６３２ａの半径方向対称回折パターンは、加えて、ある焦点レベルを回折された光に付与し、個々のビームの光波面を成形（例えば、曲率を付与する）し、かつビームを設計される焦点レベルに合致する角度に操向することの両方を行う。

故に、これらの異なる経路は、異なる角度におけるＤＯＥ６３２ａの多重度、焦点レベル、または射出瞳において異なる充填パターンをもたらすことによって、光を一次平面導波管６３２ｂの外部で結合させることができる。射出瞳における異なる充填パターンは、有利には、複数の深度平面を伴うライトフィールドディスプレイを生成するために使用されることができる。導波管アセンブリ内の各層またはスタック内の層のセット（例えば、３層）が、個別の色（例えば、赤色、青色、緑色）を生成するために採用されてもよい。したがって、例えば、第１の３つの隣接する層のセットが、それぞれ、赤色、青色、および緑色光を第１の焦点深度において生成するために採用されてもよい。第２の３つの隣接する層のセットが、それぞれ、赤色、青色、および緑色光を第２の焦点深度において生成するために採用されてもよい。複数のセットが、種々の焦点深度を伴うフル３Ｄまたは４Ｄカラー画像ライトフィールドを生成するために採用されてもよい。
（ウェアラブルシステムの他のコンポーネント）

多くの実装では、ウェアラブルシステムは、上記に説明されるウェアラブルシステムのコンポーネントに加えて、またはその代替として、他のコンポーネントを含んでもよい。ウェアラブルシステムは、例えば、１つ以上の触知デバイスまたはコンポーネントを含んでもよい。触知デバイスまたはコンポーネントは、触覚をユーザに提供するように動作可能であってもよい。例えば、触知デバイスまたはコンポーネントは、仮想コンテンツ（例えば、仮想オブジェクト、仮想ツール、他の仮想構造）に触れると、圧力またはテクスチャの感覚を提供してもよい。触覚は、仮想オブジェクトが表す物理的オブジェクトの感覚を再現してもよい、または仮想コンテンツが表す想像上のオブジェクトもしくはキャラクタ（例えば、ドラゴン）の感覚を再現してもよい。いくつかの実装では、触知デバイスまたはコンポーネントは、ユーザによって装着されてもよい（例えば、ユーザウェアラブルグローブ）。いくつかの実装では、触知デバイスまたはコンポーネントは、ユーザによって保持されてもよい。

ウェアラブルシステムは、例えば、ユーザによって操作可能であって、ウェアラブルシステムへの入力またはそれとの相互作用を可能にする、１つ以上の物理的オブジェクトを含んでもよい。これらの物理的オブジェクトは、本明細書では、トーテムと称され得る。いくつかのトーテムは、例えば、金属またはプラスチック片、壁、テーブルの表面等、無生物オブジェクトの形態をとってもよい。ある実装では、トーテムは、実際には、任意の物理的入力構造（例えば、キー、トリガ、ジョイスティック、トラックボール、ロッカスイッチ）を有していなくてもよい。代わりに、トーテムは、単に、物理的表面を提供してもよく、ウェアラブルシステムは、ユーザにトーテムの１つ以上の表面上にあるように見えるように、ユーザインターフェースをレンダリングしてもよい。例えば、ウェアラブルシステムは、トーテムの１つ以上の表面上に常駐するように見えるように、コンピュータキーボードおよびトラックパッドの画像をレンダリングしてもよい。例えば、ウェアラブルシステムは、トーテムとしての役割を果たす、アルミニウムの薄い長方形プレートの表面上に見えるように、仮想コンピュータキーボードおよび仮想トラックパッドをレンダリングしてもよい。長方形プレート自体は、任意の物理的キーまたはトラックパッドもしくはセンサを有していない。しかしながら、ウェアラブルシステムは、仮想キーボードまたは仮想トラックパッドを介して行われた選択または入力として、長方形プレートを用いたユーザ操作または相互作用もしくはタッチを検出し得る。ユーザ入力デバイス４６６（図４に示される）は、トラックパッド、タッチパッド、トリガ、ジョイスティック、トラックボール、ロッカもしくは仮想スイッチ、マウス、キーボード、多自由度コントローラ、または別の物理的入力デバイスを含み得る、トーテムの実施形態であってもよい。ユーザは、単独で、または姿勢と組み合わせて、トーテムを使用し、ウェアラブルシステムまたは他のユーザと相互作用してもよい。

本開示のウェアラブルデバイス、ＨＭＤ、およびディスプレイシステムと使用可能な触知デバイスおよびトーテムの実施例は、米国特許公開第２０１５／００１６７７７号（参照することによってその全体として本明細書に組み込まれる）に説明されている。
（例示的ウェアラブルシステム、環境、およびインターフェース）

ウェアラブルシステムは、高被写界深度をレンダリングされたライトフィールド内で達成するために、種々のマッピング関連技法を採用してもよい。仮想世界をマッピングする際、実世界内の全ての特徴および点を把握し、仮想オブジェクトを実世界に関連して正確に描くことが有利である。この目的を達成するために、ウェアラブルシステムのユーザから捕捉されたＦＯＶ画像が、実世界の種々の点および特徴についての情報を伝達する新しい写真を含むことによって、世界モデルに追加されることができる。例えば、ウェアラブルシステムは、マップ点（２Ｄ点または３Ｄ点等）のセットを収集し、新しいマップ点を見出し、世界モデルのより正確なバージョンをレンダリングすることができる。第１のユーザの世界モデルは、第２のユーザが第１のユーザを囲繞する世界を体験し得るように、（例えば、クラウドネットワーク等のネットワークを経由して）第２のユーザに通信されることができる。

図７は、ＭＲ環境７００の実施例のブロック図である。ＭＲ環境７００は、入力（例えば、ユーザのウェアラブルシステムからの視覚的入力７０２、室内カメラ等の定常入力７０４、種々のセンサからの感覚入力７０６、ユーザ入力デバイス４６６からのジェスチャ、トーテム、眼追跡、ユーザ入力等）を１つ以上のユーザウェアラブルシステム（例えば、ウェアラブルシステム２００もしくはディスプレイシステム２２０）または定常室内システム（例えば、室内カメラ等）から受信するように構成されてもよい。ウェアラブルシステムは、種々のセンサ（例えば、加速度計、ジャイロスコープ、温度センサ、移動センサ、深度センサ、ＧＰＳセンサ、内向きに面した結像システム、外向きに面した結像システム等）を使用して、ユーザの環境の場所および種々の他の属性を決定することができる。本情報はさらに、異なる視点からの画像または種々のキューを提供し得る、部屋内の定常カメラからの情報で補完されてもよい。カメラ（室内カメラおよび／または外向きに面した結像システムのカメラ等）によって入手された画像データは、マッピング点のセットに低減されてもよい。

１つ以上のオブジェクト認識装置７０８が、受信されたデータ（例えば、点の集合）を通してクローリングし、点を認識またはマッピングし、画像をタグ付けし、マップデータベース７１０を用いて、意味論情報をオブジェクトに結び付けることができる。マップデータベース７１０は、経時的に収集された種々の点およびその対応するオブジェクトを備えてもよい。種々のデバイスおよびマップデータベースは、ネットワーク（例えば、ＬＡＮ、ＷＡＮ等）を通して相互に接続され、クラウドにアクセスすることができる。

本情報およびマップデータベース内の点集合に基づいて、オブジェクト認識装置７０８ａ－７０８ｎは、環境内のオブジェクトを認識してもよい。例えば、オブジェクト認識装置は、顔、人物、窓、壁、ユーザ入力デバイス、テレビ、ドキュメント（例えば、本明細書におけるセキュリティ実施例において説明されるような旅券、運転免許証、パスポート）、ユーザの環境内の他のオブジェクト等を認識することができる。１つ以上のオブジェクト認識装置が、ある特性を伴うオブジェクトのために特殊化されてもよい。例えば、オブジェクト認識装置７０８ａは、顔を認識するために使用されてもよい一方、別のオブジェクト認識装置は、ドキュメントを認識するために使用されてもよい。

オブジェクト認識は、種々のコンピュータビジョン技法を使用して実施されてもよい。例えば、ウェアラブルシステムは、外向きに面した結像システム４６４（図４に示される）によって入手された画像を分析し、場面再構成、イベント検出、ビデオ追跡、オブジェクト認識（例えば、人物またはドキュメント）、オブジェクト姿勢推定、顔認識（例えば、環境内の人物またはドキュメント上の画像から）、学習、インデックス化、運動推定、または画像分析（例えば、写真、署名、識別情報、旅行情報等のドキュメント内の印を識別する）等を実施することができる。１つ以上のコンピュータビジョンアルゴリズムが、これらのタスクを実施するために使用されてもよい。コンピュータビジョンアルゴリズムの非限定的実施例は、スケール不変特徴変換（ＳＩＦＴ）、スピードアップロバスト特徴（ＳＵＲＦ）、配向ＦＡＳＴおよび回転ＢＲＩＥＦ（ＯＲＢ）、バイナリロバスト不変スケーラブルキーポイント（ＢＲＩＳＫ）、高速網膜キーポイント（ＦＲＥＡＫ）、Ｖｉｏｌａ－Ｊｏｎｅｓアルゴリズム、Ｅｉｇｅｎｆａｃｅｓアプローチ、Ｌｕｃａｓ－Ｋａｎａｄｅアルゴリズム、Ｈｏｒｎ－Ｓｃｈｕｎｋアルゴリズム、Ｍｅａｎ－ｓｈｉｆｔアルゴリズム、視覚的同時位置推定およびマッピング（ｖＳＬＡＭ）技法、シーケンシャルベイズ推定器（例えば、カルマンフィルタ、拡張カルマンフィルタ等）、バンドル調節、適応閾値化（および他の閾値化技法）、反復最近傍点（ＩＣＰ）、セミグローバルマッチング（ＳＧＭ）、セミグローバルブロックマッチング（ＳＧＢＭ）、特徴点ヒストグラム、種々の機械学習アルゴリズム（例えば、サポートベクトルマシン、ｋ最近傍アルゴリズム、単純ベイズ、ニューラルネットワーク（畳み込みまたは深層ニューラルネットワークを含む）、または他の教師あり／教師なしモデル等）等を含む。

１つ以上のオブジェクト認識装置７０８はまた、種々のテキスト認識アルゴリズムを実装し、テキストを画像から識別および抽出することができる。いくつかの例示的テキスト認識アルゴリズムは、光学文字認識（ＯＣＲ）アルゴリズム、深層学習アルゴリズム（深層ニューラルネットワーク等）、パターンマッチングアルゴリズム、事前処理のためのアルゴリズム等を含む。

オブジェクト認識は、加えて、または代替として、種々の機械学習アルゴリズムによって実施されることができる。いったん訓練されると、機械学習アルゴリズムは、ＨＭＤによって記憶されることができる。機械学習アルゴリズムのいくつかの実施例は、教師ありまたは教師なし機械学習アルゴリズムを含むことができ、回帰アルゴリズム（例えば、通常の最小２乗回帰等）、インスタンスベースのアルゴリズム（例えば、学習ベクトル量子化等）、決定ツリーアルゴリズム（例えば、分類および回帰ツリー等）、ベイズアルゴリズム（例えば、単純ベイズ等）、クラスタリングアルゴリズム（例えば、ｋ－平均クラスタリング等）、関連付けルール学習アルゴリズム（例えば、アプリオリアルゴリズム等）、人工ニューラルネットワークアルゴリズム（例えば、Ｐｅｒｃｅｐｔｒｏｎ等）、深層学習アルゴリズム（例えば、ＤｅｅｐＢｏｌｔｚｍａｎｎＭａｃｈｉｎｅ、すなわち、深層ニューラルネットワーク等）、次元削減アルゴリズム（例えば、主成分分析等）、アンサンブルアルゴリズム（例えば、ＳｔａｃｋｅｄＧｎｅｒａｌｉｚａｔｉｏｎ等）、または他の機械学習アルゴリズムを含む。いくつかの実施形態では、個々のモデルは、個々のデータセットのためにカスタマイズされることができる。例えば、ウェアラブルデバイスは、ベースモデルを生成または記憶することができる。ベースモデルは、開始点として使用され、データタイプ（例えば、テレプレゼンスセッション内の特定のユーザ）、データセット（例えば、テレプレゼンスセッション内のユーザの取得される付加的画像のセット）、条件付き状況、または他の変形例に特有の付加的モデルを生成してもよい。いくつかの実施形態では、ウェアラブルＨＭＤは、複数の技法を利用して、集約されたデータの分析のためのモデルを生成するように構成されることができる。他の技法は、事前に定義された閾値またはデータ値を使用することを含んでもよい。

マップデータベース内の本情報および点の集合に基づいて、オブジェクト認識装置７０８ａ－７０８ｎは、オブジェクトを認識し、オブジェクトを意味論情報で補完し、生命をオブジェクトに与えてもよい。例えば、オブジェクト認識装置が、点のセットがドアであることを認識する場合、システムは、いくつかの意味論情報を結び付けてもよい（例えば、ドアは、ヒンジを有し、ヒンジを中心として９０度移動を有する）。オブジェクト認識装置が、点のセットが鏡であることを認識する場合、システムは、鏡が、部屋内のオブジェクトの画像を反射させ得る、反射表面を有するという意味論情報を結び付けてもよい。意味論情報は、本明細書に説明されるように、オブジェクトのアフォーダンスを含むことができる。例えば、意味論情報は、オブジェクトの法線を含んでもよい。システムは、ベクトルを割り当てることができ、その方向は、オブジェクトの法線を示す。経時的に、マップデータベースは、システム（ローカルに常駐し得る、または無線ネットワークを通してアクセス可能であり得る）がより多くのデータを世界から蓄積するにつれて成長する。いったんオブジェクトが認識されると、情報は、１つ以上のウェアラブルシステムに伝送されてもよい。例えば、ＭＲ環境７００は、Ｃａｌｉｆｏｒｎｉａで生成している場面についての情報を含んでもよい。環境７００は、ＮｅｗＹｏｒｋにおける１人以上のユーザに伝送されてもよい。ＦＯＶカメラおよび他の入力から受信されたデータに基づいて、オブジェクト認識装置および他のソフトウェアコンポーネントは、場面が世界の異なる部分に存在し得る第２のユーザに正確に「パス」され得るように、種々の画像から収集された点をマッピングし、オブジェクトを認識すること等ができる。環境７００はまた、位置特定目的のために、トポロジマップを使用してもよい。

図８は、認識されたオブジェクトに関連して仮想コンテンツをレンダリングする方法８００の実施例のプロセスフロー図である。方法８００は、仮想場面がウェアラブルシステムのユーザに提示され得る方法を説明する。ユーザは、その場面から地理的に遠隔に存在してもよい。例えば、ユーザは、ＮｅｗＹｏｒｋに存在し得るが、Ｃａｌｉｆｏｒｎｉａで現在起こっている場面を視認することを所望し得る、またはＣａｌｉｆｏｒｎｉａに存在する友人と散歩に行くことを所望し得る。

ブロック８１０では、ウェアラブルシステムは、ユーザの環境に関する入力をユーザおよび他のユーザから受信してもよい。これは、種々の入力デバイスおよびマップデータベース内にすでに保有されている知識を通して達成されてもよい。ユーザのＦＯＶカメラ、センサ、ＧＰＳ、眼追跡等が、ブロック８１０において、情報をシステムに伝達する。システムは、ブロック８２０において、本情報に基づいて、疎点を決定してもよい。疎点は、ユーザの周囲における種々のオブジェクトの配向および位置を表示ならびに理解する際に使用され得る、姿勢データ（例えば、頭部姿勢、眼姿勢、身体姿勢、または手のジェスチャ）を決定する際に使用されてもよい。オブジェクト認識装置７０８ａ、７０８ｎは、ブロック８３０において、これらの収集された点を通してクローリングし、マップデータベースを使用して、１つ以上のオブジェクトを認識してもよい。本情報は、次いで、ブロック８４０において、ユーザの個々のウェアラブルシステムに伝達されてもよく、所望の仮想場面が、ブロック８５０において、適宜、ユーザに表示されてもよい。例えば、所望の仮想場面（例えば、ＣＡにおけるユーザ）が、ＮｅｗＹｏｒｋにおけるユーザの種々のオブジェクトおよび他の周囲に関連して、適切な配向、位置等において表示されてもよい。

図９は、ウェアラブルシステムの別の実施例のブロック図である。本実施例では、ウェアラブルシステム９００は、世界に関するマップデータを含み得る、マップ９２０を備える、マップデータベース７１０を含んでもよい。マップは、部分的に、ウェアラブルシステム上にローカルに常駐してもよく、部分的に、有線または無線ネットワークによってアクセス可能なネットワーク化された記憶場所（例えば、クラウドシステム内）に常駐してもよい。姿勢プロセス９１０が、ウェアラブルコンピューティングアーキテクチャ（例えば、処理モジュール２６０またはコントローラ４６０）上で実行され、ウェアラブルコンピューティングハードウェアまたはユーザの位置および配向を決定するために、マップ９２０からのデータを利用してもよい。姿勢データは、ユーザが、システムを体験し、その世界内で動作するにつれて、オンザフライで収集されたデータから算出されてもよい。データは、実または仮想環境内のオブジェクトに関する画像、センサ（概して、加速度計およびジャイロスコープコンポーネントを備える、慣性測定ユニット等）からのデータ、および表面情報を備えてもよい。

疎点表現は、同時位置特定およびマッピング（例えば、入力が画像／視覚のみである構成を指す、ＳＬＡＭまたはｖＳＬＡＭ）プロセスの出力であってもよい。システムは、世界内の種々のコンポーネントの場所だけではなく、世界が構成される内容も見出すように構成されることができる。姿勢は、マップへの取込およびマップからのデータを使用することを含め、多くの目標を達成する、構築ブロックであり得る。

一実施形態では、疎点位置は、それ自体では完全に適正であり得ず、さらなる情報が、多焦点ＡＲ、ＶＲ、またはＭＲ体験を生成するために必要とされ得る。概して、深度マップ情報を指す、稠密表現が、少なくとも部分的に、本間隙を充填するために利用されてもよい。そのような情報は、立体視９４０と称されるプロセスから算出されてもよく、深度情報は、三角測量または飛行時間感知等の技法を使用して決定される。画像情報およびアクティブパターン（アクティブプロジェクタを使用して生成される赤外線パターン等）、画像カメラから入手された画像、または手ジェスチャ／トーテム９５０が、立体視プロセス９４０への入力としての役割を果たし得る。有意な量の深度マップ情報が、ともに融合されてもよく、このうちのいくつかは、表面表現を用いて要約されてもよい。例えば、数学的に定義可能な表面は、ゲームエンジンのような他の処理デバイスへの効率的（例えば、大規模点群に対して）かつ要約しやすい入力であってもよい。したがって、立体視プロセス（例えば、深度マップ）９４０の出力は、融合プロセス９３０において組み合わせられてもよい。姿勢９５０は、同様に、本融合プロセス９３０への入力であってもよく、融合９３０の出力は、マップ取込プロセス９２０への入力となる。サブ表面が、トポグラフィマッピング等において相互に接続し、より大きい表面を形成し得、マップは、点および表面の大規模ハイブリッドとなる。

複合現実プロセス９６０における種々の側面を解決するために、種々の入力が、利用されてもよい。例えば、図９に描写される実施形態では、ゲームパラメータは、システムのユーザが１匹以上のモンスタと種々の場所においてモンスタバトルゲームをプレーしていること、モンスタが死んでいる、または種々の条件下で逃げている（ユーザがモンスタを撃つ場合等）、種々の場所における壁または他のオブジェクト、および同等物を決定するための入力であってもよい。世界マップは、複合現実に対する別の有用な入力となる、そのようなオブジェクトが相互に対して存在する場所に関する情報を含んでもよい。世界に対する姿勢は、同様に、入力となり、ほぼあらゆる双方向システムに対して重要な役割を果たす。

ユーザからの制御または入力は、ウェアラブルシステム９００への別の入力である。本明細書に説明されるように、ユーザ入力は、視覚的入力、ジェスチャ、トーテム、オーディオ入力、感覚入力等を含むことができる。動き回るまたはゲームをプレーするために、例えば、ユーザは、ウェアラブルシステム９００に、所望する対象に関して命令する必要があり得る。空間内で自ら移動するだけではなく、利用され得る種々の形態のユーザ制御が、存在する。一実施形態では、トーテム（例えば、ユーザ入力デバイス）、または玩具銃等のオブジェクトが、ユーザによって保持され、システムによって追跡されてもよい。システムは、好ましくは、ユーザがアイテムを保持していることを把握し、ユーザがアイテムと行っている相互作用の種類を理解するように構成されるであろう（例えば、トーテムまたはオブジェクトが、銃である場合、システムは、場所および配向だけではなく、ユーザが、そのようなアクティビティがカメラのいずれかの視野内にないときでも、生じている状況の決定を補助し得る、ＩＭＵ等のセンサを装備し得る、トリガまたは他の感知ボタンもしくは要素をクリックしているかどうかも理解するように構成されてもよい。）

手のジェスチャ追跡または認識もまた、入力情報を提供してもよい。ウェアラブルシステム９００は、ボタン押下のため、左または右、停止、握持、保持等をジェスチャするために、手のジェスチャを追跡および解釈するように構成されてもよい。例えば、１つの構成では、ユーザは、非ゲーム環境において電子メールもしくはカレンダを通して捲る、または別の人物もしくはプレーヤと「フィストバンプ」を行うことを所望し得る。ウェアラブルシステム９００は、動的である場合とそうではない場合がある、最小量の手のジェスチャを活用するように構成されてもよい。例えば、ジェスチャは、停止を示すために手を広げる、ＯＫを示すために親指を上げる、ＯＫではないことを示すために親指を下げる、または指向性コマンドを示すために左右もしくは上下に手をフリップする等、単純な静的ジェスチャであってもよい。手のジェスチャ追跡は、ジェスチャを行い、手話を用いて通信する他者等のユーザの環境内の他者によって行われるジェスチャの追跡を含むことができる（例えば、図１３Ａ参照）。

眼追跡は、別の入力である（例えば、ユーザが見ている場所を追跡し、ディスプレイ技術を制御し、具体的深度または範囲においてレンダリングする）。一実施形態では、眼の輻輳・開散運動が、三角測量を使用して決定されてもよく、次いで、その特定の人物のために開発された輻輳・開散運動／遠近調節モデルを使用して、遠近調節が、決定されてもよい。眼追跡は、眼カメラによって実施され、眼視線（例えば、片眼または両眼の方向もしくは配向）を決定することができる。他の技法も、例えば、眼の近傍に設置された電極による電位の測定（例えば、電気眼球図記録）等、眼追跡のために使用されることができる。

発話追跡は、単独で、または他の入力（例えば、トーテム追跡、眼追跡、ジェスチャ追跡等）と組み合わせて使用され得る、別の入力であり得る。発話追跡は、単独で、または組み合わせて、発話認識、音声認識を含んでもよい。システム９００は、オーディオストリームを環境から受信する、オーディオセンサ（例えば、マイクロホン）を含むことができる。システム９００は、発話している人物（例えば、発話がＡＲＤの装着者または別の人物もしくは音声（例えば、環境内のラウドスピーカによって伝送される記録された音声）からのものであるかどうか）を決定するための音声認識技術ならびに言われていることを決定するための発話認識技術を組み込むことができる。ローカルデータおよび処理モジュール２６０または遠隔処理モジュール２７０は、マイクロホンからのオーディオデータ（または、例えば、ユーザによって鑑賞されているビデオストリーム等の別のストリーム内のオーディオデータ）を処理し、例えば、隠れマルコフモデル、動的時間伸縮法（ＤＴＷ）ベースの発話認識、ニューラルネットワーク、ディープフィードフォワードおよび再帰ニューラルネットワーク等の深層学習アルゴリズム、エンドツーエンド自動発話認識、機械学習アルゴリズム（図７を参照して説明される）、もしくは音響モデル化または言語モデル化等を使用する、他のアルゴリズム等の種々の発話認識アルゴリズムを適用することによって、発話のコンテンツを認識することができる。

複合現実プロセス９６０への別の入力は、環境内の表記を追跡するステップを含むことができる。表記は、商業用または公共看板を含むことができる。図１６Ａ－１９を参照して説明されるように、システムは、表記を認識し、表記内のテキストを識別し、テキストの特性を調節し（例えば、テキストのフォントサイズを増加させ、可読性を改良する）、テキストのコンテンツを修正する（例えば、テキストを外国語言語からユーザによって理解される言語に翻訳する）等を行うことができる。

ローカルデータおよび処理モジュール２６０または遠隔処理モジュール２７０はまた、音声認識アルゴリズムを適用することができ、これは、話者がウェアラブルシステム９００のユーザ２１０またはユーザが会話している別の人物であるかどうか等の話者の識別を識別することができる。いくつかの例示的音声認識アルゴリズムは、頻度推定、隠れマルコフモデル、ガウス混合モデル、パターンマッチングアルゴリズム、ニューラルネットワーク、マトリクス表現、ベクトル量子化、話者ダイアライゼーション、決定ツリー、および動的時間伸縮（ＤＴＷ）技法を含むことができる。音声認識技法はまた、コホートモデルおよび世界モデル等のアンチ話者技法を含むことができる。スペクトル特徴は、話者特性を表す際に使用されてもよい。ローカルデータおよび処理モジュールまたは遠隔データ処理モジュール２７０は、図７を参照して説明される種々の機械学習アルゴリズムを使用して、音声認識を実施することができる。

システム９００はまた、他の人々または環境とのユーザの相互作用を促進するための感覚式アイウェアシステム９７０を含むことができる。感覚式アイウェアシステム９７０の実装は、ＵＩを介して、これらのユーザ制御または入力を使用することができる。ＵＩ要素（例えば、制御、ポップアップウィンドウ、吹き出し、データエントリフィールド等）が、例えば、情報、例えば、変換されたテキスト、グラフィック、または補助情報の表示を放逐するかまたは補助情報の表示を要求するために使用される。ＵＩは、感覚式アイウェアシステム９７０が、手話において会話相手によって行われる身ぶりを翻訳する際に使用するための言語を把握するように、ユーザが、ユーザが理解する１つ以上の言語のリストを入力することを可能にすることができる。そのような実装およびこれらの使用の実施例が、以下にさらに説明される。

感覚式アイウェアシステム９７０はまた、テキスト認識、修正、およびレンダリング特徴を備えることができる。そのような特徴は、ウェアラブルシステムの種々の他のコンポーネントと組み合わせて、環境とのユーザの相互作用を向上させ得る。例えば、ＨＭＤは、ユーザの物理的環境の画像から識別されたテキストに基づいて、画像をディスプレイ上に投影するように（例えば、投影された画像が物理的環境からのオリジナルテキストをオクルードするように）構成される、１つ以上の光源１１を含むことができる。光学的に透過性の接眼レンズ１０６は、１つ以上の光源１１からの光をユーザ２１０に画像として伝送するように構成されることができる。画像は、ＨＭＤシステム２００が画像を表示し得る、多くの可能性として考えられる深度のうちの１つにすぎない、特定の深度にあるかのように現れ得る。ＨＭＤシステム１００は、異なる深度平面３０６上にあるかのように現れ得る、いくつかの異なる深度に現れるように画像を投影可能であり得る（図３参照）。接眼レンズ１０６が光学的に透過性である、いくつかの実施形態では、接眼レンズ１０６は、環境からの光がユーザの眼に入射することを可能にすることができる。したがって、そのような実施形態では、ユーザ２１０には、環境からの画像の一部が、１つ以上の光源１１からの投影された画像とともに見え得る。

カメラシステムに関して、図９に示される例示的ウェアラブルシステム９００は、３つの対のカメラ、すなわち、ユーザの顔の両側に配列される相対的広ＦＯＶまたは受動ＳＬＡＭ対のカメラと、ユーザの正面に配向され、立体視結像プロセス９４０をハンドリングし、また、ユーザの顔の正面の手のジェスチャおよびトーテム／オブジェクトの軌道を捕捉するための異なる対のカメラとを含むことができる。立体視プロセス９４０のためのＦＯＶカメラまたは対のカメラはまた、カメラ１６と称され得る。立体視プロセス９４０のためのＦＯＶカメラおよび対のカメラは、外向きに面した結像システム４６４（図４に示される）の一部であってもよい。ウェアラブルシステム９００は、眼ベクトルおよび他の情報を三角測量するために、ユーザの眼に向かって配向される、眼追跡カメラ（また、眼カメラ２４としても示され、図４に示される内向きに面した結像システム４６２の一部であってもよい）を含むことができる。ウェアラブルシステム９００はまた、１つ以上のテクスチャ化光プロジェクタ（赤外線（ＩＲ）プロジェクタ等）を備え、テクスチャを場面の中に投入してもよい。

図１０は、ウェアラブルシステムへのユーザ入力を決定するための方法１０００の実施例のプロセスフロー図である。本実施例では、ユーザは、トーテムと相互作用してもよい。ユーザは、複数のトーテムを有してもよい。例えば、ユーザは、ソーシャルメディアアプリケーションのための指定される１つのトーテム、ゲームをプレーするための別のトーテム等を有してもよい。ブロック１０１０では、ウェアラブルシステムは、トーテムの運動を検出してもよい。トーテムの移動は、外向きに面した結像システムを通して認識されてもよい、またはセンサ（例えば、触知グローブ、画像センサ、手追跡デバイス、眼追跡カメラ、頭部姿勢センサ等）を通して検出されてもよい。

少なくとも部分的に、検出されたジェスチャ、眼姿勢、頭部姿勢、またはトーテムを通した入力に基づいて、ウェアラブルシステムは、ブロック１０２０において、基準フレームに対するトーテム（またはユーザの眼もしくは頭部もしくはジェスチャ）の位置、配向、または移動を検出する。基準フレームは、それに基づいてウェアラブルシステムがトーテム（またはユーザ）の移動をアクションまたはコマンドに変換する、マップ点のセットであってもよい。ブロック１０３０では、トーテムとのユーザの相互作用が、マッピングされる。基準フレーム１０２０に対するユーザ相互作用のマッピングに基づいて、システムは、ブロック１０４０において、ユーザ入力を決定する。

例えば、ユーザは、トーテムまたは物理的オブジェクトを前後に移動させ、仮想ページを捲り、次のページに移動する、または１つのユーザインターフェース（ＵＩ）ディスプレイ画面から別のＵＩ画面に移動することを示してもよい。別の実施例として、ユーザは、ユーザのＦＯＲ内の異なる実または仮想オブジェクトを見るために、その頭部または眼を移動させてもよい。特定の実または仮想オブジェクトにおけるユーザの注視が、閾値時間より長い場合、その実または仮想オブジェクトは、ユーザ入力として選択されてもよい。いくつかの実装では、ユーザの眼の輻輳・開散運動が、追跡されることができ、遠近調節／輻輳・開散運動モデルが、ユーザが合焦している深度平面に関する情報を提供する、ユーザの眼の遠近調節状態を決定するために使用されることができる。いくつかの実装では、ウェアラブルシステムは、レイキャスティング技法を使用して、ユーザの頭部姿勢または眼姿勢の方向に沿っている実または仮想オブジェクトを決定することができる。種々の実装では、レイキャスティング技法は、実質的に殆ど横幅を伴わない細い光線束を投じる、または実質的横幅を伴う光線（例えば、円錐または円錐台）を投じることを含むことができる。

ユーザインターフェースは、本明細書に説明されるようなディスプレイシステム（図２Ａにおけるディスプレイ２２０等）によって投影されてもよい。また、１つ以上のプロジェクタ等の種々の他の技法を使用して表示されてもよい。プロジェクタは、画像をキャンバスまたは球体等の物理的オブジェクト上に投影してもよい。ユーザインターフェースとの相互作用は、システムの外部またはシステムの一部の１つ以上のカメラを使用して（例えば、内向きに面した結像システム４６２または外向きに面した結像システム４６４を使用して）追跡されてもよい。

図１１は、仮想ユーザインターフェースと相互作用するための方法１１００の実施例のプロセスフロー図である。方法１１００は、本明細書に説明されるウェアラブルシステムによって行われてもよい。方法１１００の実施形態は、ウェアラブルシステムのＦＯＶ内の人物またはドキュメントを検出するためにウェアラブルシステムによって使用されることができる。

ブロック１１１０では、ウェアラブルシステムは、特定のＵＩを識別してもよい。ＵＩのタイプは、ユーザによって与えられてもよい。ウェアラブルシステムは、特定のＵＩがユーザ入力（例えば、ジェスチャ、視覚的データ、オーディオデータ、感覚データ、直接コマンド等）に基づいて取り込まれる必要があることを識別してもよい。ＵＩは、セキュリティシナリオに特有であることができ、システムの装着者は、ドキュメントを装着者に提示するユーザを観察する（例えば、旅客検問所において）。ブロック１１２０では、ウェアラブルシステムは、仮想ＵＩのためのデータを生成してもよい。例えば、ＵＩの境界、一般的構造、形状等と関連付けられたデータが、生成されてもよい。加えて、ウェアラブルシステムは、ウェアラブルシステムがユーザの物理的場所に関連してＵＩを表示し得るように、ユーザの物理的場所のマップ座標を決定してもよい。例えば、ＵＩが、身体中心である場合、ウェアラブルシステムは、リングＵＩがユーザの周囲に表示され得る、または平面ＵＩが壁上またはユーザの正面に表示され得るように、ユーザの物理的立ち位置、頭部姿勢、または眼姿勢の座標を決定してもよい。本明細書に説明されるセキュリティコンテキストでは、ＵＩは、装着者が、旅行者および旅行者のドキュメントを見ている間、ＵＩを容易に視認し得るように、ＵＩがドキュメントをシステムの装着者に提示する旅行者を囲繞しているかのように表示され得る。ＵＩが、手中心の場合、ユーザの手のマップ座標が、決定されてもよい。これらのマップ点は、ＦＯＶカメラ、感覚入力を通して受信されたデータ、または任意の他のタイプの収集されたデータを通して導出されてもよい。

ブロック１１３０では、ウェアラブルシステムは、データをクラウドからディスプレイに送信してもよい、またはデータは、ローカルデータベースからディスプレイコンポーネントに送信されてもよい。ブロック１１４０では、ＵＩは、送信されたデータに基づいて、ユーザに表示される。例えば、ライトフィールドディスプレイは、仮想ＵＩをユーザの眼の一方または両方の中に投影することができる。いったん仮想ＵＩが生成されると、ウェアラブルシステムは、ブロック１１５０において、単に、ユーザからのコマンドを待機し、より多くの仮想コンテンツを仮想ＵＩ上に生成してもよい。例えば、ＵＩは、ユーザの身体またはユーザの環境内の人物（例えば、旅行者）の身体の周囲の身体中心リングであってもよい。ウェアラブルシステムは、次いで、コマンド（ジェスチャ、頭部または眼移動、音声コマンド、ユーザ入力デバイスからの入力等）を待機してもよく、認識される場合（ブロック１１６０）、コマンドと関連付けられた仮想コンテンツが、ユーザに表示されてもよい（ブロック１１７０）。

ウェアラブルシステム、ＵＩ、およびユーザ体験（ＵＸ）の付加的実施例は、米国特許公開第２０１５／００１６７７７号（参照することによってその全体として本明細書に組み込まれる）に説明されている。
（複数のウェアラブルシステム間の例示的通信）

図１２は、相互に相互作用する複数のユーザデバイスを描写する、全体的システム図を図式的に図示する。コンピューティング環境１２００は、ユーザデバイス１２３０ａ、１２３０ｂ、１２３０ｃを含む。ユーザデバイス１２３０ａ、１２３０ｂ、および１２３０ｃは、ネットワーク１２９０を通して、相互に通信することができる。ユーザデバイス１２３０ａ－１２３０ｃはそれぞれ、ネットワークインターフェースを含み、ネットワーク１２９０を介して、遠隔コンピューティングシステム１２２０（また、ネットワークインターフェース１２７１を含んでもよい）と通信することができる。ネットワーク１２９０は、ＬＡＮ、ＷＡＮ、ピアツーピアネットワーク、無線、Ｂｌｕｅｔｏｏｔｈ（登録商標）、または任意の他のネットワークであってもよい。コンピューティング環境１２００はまた、１つ以上の遠隔コンピューティングシステム１２２０を含むことができる。遠隔コンピューティングシステム１２２０は、クラスタ化され、異なる地理的場所に位置する、サーバコンピュータシステムを含んでもよい。ユーザデバイス１２３０ａ、１２３０ｂ、および１２３０ｃは、ネットワーク１２９０を介して、遠隔コンピューティングシステム１２２０と通信してもよい。

遠隔コンピューティングシステム１２２０は、遠隔データリポジトリ１２８０を含んでもよく、これは、具体的ユーザの物理または仮想世界についての情報を維持することができる。データ記憶装置１２８０は、手話辞書、補助情報源等、感覚式アイウェアに有用な情報を含有することができる。遠隔データリポジトリは、図２Ａに示される遠隔データリポジトリ２８０の実施形態であってもよい。遠隔コンピューティングシステム１２２０はまた、遠隔処理モジュール１２７０を含んでもよい。遠隔処理モジュール１２７０は、図２Ａに示される遠隔処理モジュール２７０の実施形態であってもよい。いくつかの実装では、遠隔コンピューティングシステム１２２０は、ウェアラブルシステム２００と無関係の第三者システムであってもよい。

遠隔処理モジュール１２７０は、１つ以上のプロセッサを含んでもよく、これは、ユーザデバイス（１２３０ａ、１２３０ｂ、１２３０ｃ）および遠隔データリポジトリ１２８０と通信することができる。プロセッサは、ユーザデバイスおよび他の源から取得される情報を処理することができる。いくつかの実装では、処理または記憶の少なくとも一部は、ローカル処理およびデータモジュール２６０（図２Ａに示されるように）によって提供されることができる。遠隔コンピューティングシステム１２２０は、所与のユーザが、具体的ユーザ自身の物理的または仮想世界についての情報を別のユーザと共有することを可能にしてもよい。

ユーザデバイスは、単独で、または組み合わせて、ウェアラブルデバイス（ＨＭＤもしくはＡＲＤ等）、コンピュータ、モバイルデバイス、または任意の他のデバイスであってもよい。例えば、ユーザデバイス１２３０ｂおよび１２３０ｃは、図２Ａに示されるウェアラブルシステム２００（または図４に示されるウェアラブルシステム４００）の実施形態であってもよく、これは、ＡＲ／ＶＲ／ＭＲコンテンツを提示するように構成されることができる。

ユーザデバイスのうちの１つ以上のものは、図４に示されるユーザ入力デバイス４６６と併用されることができる。ユーザデバイスは、ユーザおよびユーザの環境についての情報を取得することができる（例えば、図４に示される外向きに面した結像システム４６４を使用して）。ユーザデバイスまたは遠隔コンピューティングシステム１２２０は、ユーザデバイスから取得される情報を使用して、画像、点、および他の情報の集合を構築、更新、および建造することができる。例えば、ユーザデバイスは、入手された未加工情報を処理し、さらなる処理のために、処理された情報を遠隔コンピューティングシステム１２２０に送信してもよい。ユーザデバイスはまた、処理のために、未加工情報を遠隔コンピューティングシステム１２２０に送信してもよい。ユーザデバイスは、処理された情報を遠隔コンピューティングシステム１２２０から受信し、ユーザに投影させる前に、最終処理を提供してもよい。ユーザデバイスはまた、取得された情報を処理し、処理された情報を他のユーザデバイスに渡してもよい。ユーザデバイスは、入手された情報を処理しながら、遠隔データリポジトリ１２８０と通信してもよい。複数のユーザデバイスまたは複数のサーバコンピュータシステムが、入手された画像の構築もしくは処理に関与してもよい。

物理的世界に関する情報は、経時的に展開されてもよく、異なるユーザデバイスによって収集される情報に基づいてもよい。仮想世界のモデルはまた、経時的に展開され、異なるユーザの入力に基づいてもよい。そのような情報およびモデルは、時として、本明細書では、世界マップまたは世界モデルと称され得る。図７および９を参照して説明されるように、ユーザデバイスによって入手された情報は、世界マップ１２１０を構築するために使用されてもよい。世界マップ１２１０は、図９に説明されるマップ９２０の少なくとも一部を含んでもよい。種々のオブジェクト認識装置（例えば、７０８ａ、７０８ｂ、７０８ｃ…７０８ｎ）が、オブジェクトおよびタグ画像を認識するため、ならびに意味論情報をオブジェクトに付加するために使用されてもよい。これらのオブジェクト認識装置はまた、図７に説明される。

遠隔データリポジトリ１２８０は、データを記憶し、世界マップ１２１０の構造を促進するために使用されることができる。ユーザデバイスは、ユーザの環境についての情報を常に更新し、世界マップ１２１０についての情報を受信することができる。世界マップ１２１０は、ユーザまたは別の人物によって作成されてもよい。本明細書に議論されるように、ユーザデバイス（例えば、１２３０ａ、１２３０ｂ、１２３０ｃ）および遠隔コンピューティングシステム１２２０は、単独で、または組み合わせて、世界マップ１２１０を構築および／または更新してもよい。例えば、ユーザデバイスは、遠隔処理モジュール１２７０および遠隔データリポジトリ１２８０と通信してもよい。ユーザデバイスは、ユーザおよびユーザの環境についての情報を入手または処理してもよい。遠隔処理モジュール１２７０は、遠隔データリポジトリ１２８０およびユーザデバイス（例えば、１２３０ａ、１２３０ｂ、１２３０ｃ）と通信し、ユーザおよびユーザの環境についての情報を処理してもよい。遠隔コンピューティングシステム１２２０は、例えば、ユーザの画像を選択的にクロッピングする、ユーザの背景を修正する、仮想オブジェクトをユーザの環境に追加する、ユーザの発話に補助情報で注釈を付ける等、ユーザデバイス（例えば、１２３０ａ、１２３０ｂ、１２３０ｃ）によって入手された情報を修正することができる。遠隔コンピューティングシステム１２２０は、処理された情報を同一または異なるユーザデバイスに送信することができる。

感覚式アイウェアシステムの実施形態の種々の機能性が、以下にさらに説明される。
（ユーザ相互作用を促進するための例示的感覚式アイウェア）

ウェアラブルシステム２００は、他の人々または環境とのユーザの相互作用を促進するための感覚式アイウェアシステム９７０を実装することができる。他の人々と相互作用する一実施例として、ウェアラブルシステム２００は、例えば、手話を構成し得るジェスチャを検出し、手話を別の言語（例えば、別の手話または発話された言語）に翻訳し、翻訳された情報をウェアラブルシステムのユーザに提示することによって、手話を解釈することができる。別の実施例として、感覚式アイウェアシステム９７０は、発話を手話に翻訳し、手話をユーザに提示することができる。

ウェアラブルシステム９７０はまた、環境内のオブジェクトを認識し、（仮想環境内の）オブジェクトの特性を修正し、修正されたオブジェクトを仮想オブジェクトとしてユーザに提示することによって、環境とのユーザの相互作用を促進することができる。例えば、ウェアラブルシステム２００は、外向きに面した結像システム４６４によって入手された画像に基づいて、ユーザの環境内の標識（例えば、交通標識、店舗正面の標識等）を認識し、ユーザの環境内の標識の特性を修正し、修正された標識をユーザに提示することができる。修正された標識は、オリジナル標識がオクルードされ得るように、ユーザの３Ｄ環境上にオーバーレイされてもよい。
（対人通信のためのツールとしての例示的感覚式アイウェアシステム）

いくつかの状況では、会話内の１人以上の人々は、手または身体ジェスチャ（例えば、手話等）を使用して、自身を表し得る。会話は、テレプレゼンスセッションの間または人々が相互に物理的近傍に居るときに生じ得る。ウェアラブルシステム２００は、ユーザが手話者と通信するとき、ウェアラブルシステム２００のユーザ（観察者とも称される）のために、手話者の手話を解釈することができる。ウェアラブルシステム２００はまた、手話者が観察者の発話を理解し得るように、口頭または手話ベースの発話をグラフィック（例えば、手のジェスチャの画像等）に翻訳し、グラフィックを手話者に提示することができる。例えば、頭部搭載型ディスプレイを装着している観察者は、低減された視野を有し得、したがって、観察者は、手話を使用して手話者によって行われる完全ジェスチャを観察不可能である場合がある。ウェアラブルシステム２００は、外向きに面した結像システム４６４を使用して、手話者によるジェスチャを捕捉することができる（ユーザが頭部搭載型ディスプレイを通して知覚することができるものより広い視野を有する、カメラを有し得るため）。ウェアラブルシステム２００は、捕捉されたジェスチャを仮想グラフィックとして観察者に示し、または捕捉されたジェスチャから変換されたテキストを示し、観察者の手話者の発話の理解を促進することができる。さらに、ウェアラブルシステム２００は、１つの手話を別の手話に翻訳するように構成されることができる。例えば、会話内の１人の人物は、アメリカ手話を使用し得、他の人物は、ドゴン手話を使用し得る。ウェアラブルシステム２００は、ドゴン手話を使用する人物のために、アメリカ手話をドゴン手話に翻訳し、アメリカ手話を使用する人物のために、ドゴン手話をアメリカ手話に翻訳することができる。
（例示的手話捕捉）

ウェアラブルシステムは、種々の技法を使用して、オリジナル発話を捕捉し、オリジナル発話を標的発話に翻訳することができる。発話は、手または身体ジェスチャもしくは可聴音の形態であってもよい。本明細書に説明されるように、オリジナル発話は、手話であってもよく、標的発話は、別の手話または発話された言語であってもよい。代替として、オリジナル発話は、発話された言語であってもよい一方、標的発話は、手話である。ウェアラブルシステム２００は、発話のコンテキスト（例えば、発話が対人または電気通信を介したものであるかどうか）に応じて、外向きに面した結像システム４６４、オーディオセンサ２３２を使用して、またはネットワーク１２９０を介して、別のコンピューティングデバイスと通信することによって、オリジナル発話を捕捉することができる。

検出された手話の手話者が感覚式アイウェアシステムの物理的近傍に居る、対人通信の間のオリジナル発話を捕捉する実施例として、外向きに面した結像システム４６４は、ユーザの環境の画像を捕捉することができる。ウェアラブルシステム２００は、画像情報から、手話を構成し得る、ジェスチャ（例えば、手／身体ジェスチャまたは唇移動）を検出することができる。ウェアラブルシステム２００は、例えば、深層ニューラルネットワーク、隠れマルコフモデル、動的プログラミングマッチング等のアルゴリズムを使用して、ジェスチャを認識し、話者によって行われるジェスチャによって表される身ぶりを認識することができる。図７を参照して説明されるように、ジェスチャ認識は、１つ以上のオブジェクト認識装置７０８によって実施されてもよい。

遠隔通信のコンテキストにおいてオリジナル発話を捕捉する実施例として、ウェアラブルシステム２００は、遠隔コンピューティングデバイス（例えば、別のウェアラブルシステム）から受信されたデータを分析することによって、または外向きに面した結像システム４６４によって捕捉されたデータ（例えば、オリジナル発話がテレビ上に存在する場合）を分析することによって、オリジナル発話の存在を捕捉および認識することができる。一実施例では、手話者および観察者は、インターネットビデオチャットセッションを通して、会話してもよい。手話者および観察者はそれぞれ、その個別のＨＭＤを装着することができる。ＨＭＤは、ネットワーク１２９０を介して、相互に通信することができる（図１２に示される）。手話者が、反射表面（例えば、鏡）の正面に居る場合、手話者のＨＭＤは、外向きに面した結像システム４６４を介して、手話者の反射された画像を入手することによって、手話者のジェスチャを捕捉することができる。手話者の反射された画像は、手話の認識および解釈のために、観察者のＨＭＤまたは遠隔コンピューティングシステム１２２０に送信されてもよい。別の実施例として、手話者は、テレビまたはインターネットプログラミング等上に提示されるもの等、ビデオプログラム内の人物であってもよい。手話者のジェスチャが、観察者の場所において視覚的に観察され得る場合、ウェアラブルシステム４６４は、対人通信コンテキストと同一方法において（例えば、オーディオセンサ２３２または外向きに面した結像システム４６４を介して）、手話ジェスチャを捕捉することができる。

別の人物によってジェスチャされる手話のテキストまたはグラフィカル翻訳をウェアラブルシステム２００のユーザに表示することに加え、またはその代替として、ウェアラブルシステムのユーザ２００はまた、手話を用いて通信してもよい。この場合、ウェアラブルシステムは、外向きに面した結像システム４６４によって、ユーザ自身の手話ジェスチャ（一人称視点から）を捕捉することができる。ウェアラブルシステムは、手話を、テキスト、オーディオ、画像等のフォーマットで表され得る、標的発話に変換することができる。ウェアラブルシステム２００は、別のユーザへの提示のために、結果を別のウェアラブルシステムに伝送することができる。本明細書に説明されるように、オリジナル発話から標的発話への変換は、単独で、または組み合わせて、ユーザのウェアラブルシステム、別のユーザのウェアラブルシステム、または遠隔コンピューティングシステム１２２０によって実施されることができる。例えば、ユーザのウェアラブルシステムは、ユーザの手のジェスチャを捕捉し、捕捉されたビデオまたは画像（手話ジェスチャを含有する）を別のユーザのウェアラブルシステムまたは遠隔コンピューティングシステム１２０に伝送することができ、これは、手話をビデオまたは画像から抽出し、手話を発話言語または別の手話のための視聴覚コンテンツに変換することができる。視聴覚コンテンツは、テキスト、グラフィック、ビデオ、動画、音等を含むことができる。
（手話者ジェスチャ除外および源位置特定）

ウェアラブルシステムは、例えば、オーディオセンサ２３２、外向きに面した結像システム４６４、定常入力７０４、またはユーザの環境内の他のセンサ等の種々のセンサを使用して、ジェスチャまたは手話源を識別することができる。一実施例として、ウェアラブルシステムは、一連の手のジェスチャならびに唇移動を外向きに面した結像システム４６４によって入手されたデータから検出してもよい。ウェアラブルシステムは、手話者もまた対応する唇移動を有するため、手のジェスチャが手話者と関連付けられることを見出し得る。別の実施例として、ウェアラブルシステムは、ユーザとジェスチャとの間の距離を測定し、ジェスチャ源を決定することができる。例えば、ウェアラブルシステムは、手が外向きに面した結像システム４６４によって入手された画像内で比較的に大きく現れるため、一連のジェスチャがユーザから生じることを決定することができる。しかし、手が、比較的に小さく現れる場合、ウェアラブルシステムは、ジェスチャがユーザ以外の人物から生じることを見出し得る。さらに別の実施例として、ウェアラブルシステムは、視聴覚コンテンツを再生しているオブジェクトを認識することによって（例えば、オブジェクト認識装置７０８を使用して、テレビを認識することによって）、ジェスチャが視聴覚コンテンツ（例えば、テレビ内）から生じていることを見出し得る。

ジェスチャ源に基づいて、ウェアラブルシステム２００は、ある人々からのジェスチャを処理しないように構成されることができる。例えば、ウェアラブルシステムは、ジェスチャをユーザの環境内の複数の人々から捕捉してもよいが、ウェアラブルシステムは、手話認識のために、ユーザのＦＯＶの中心外の人物からの手話を処理しないように構成されることができる。別の実施例として、ウェアラブルシステムは、ユーザ自身の手話を処理しないように構成されてもよい。

いくつかの実施形態では、ウェアラブルシステムは、例えば、外向きに面した結像システム４６４がユーザの手のジェスチャを捕捉するために、ユーザがその手を挙げる必要がないような角度において、カメラを外向きに面した結像システム４６４内に位置付けること等によって、ユーザ自身の手話を検出するようにセンサを構成することができる。センサはまた、ユーザ自身の手話を検出しないように構成されることができる。例えば、非検出は、ユーザ自身の手の方向（典型的には、ユーザのＦＯＶの下方）における画像を捕捉しない、またはそのような方向における画像をフィルタリング除去する（例えば、クロッピングによって）ことを通して達成されることができる。したがって、システムは、ユーザ自身の手話と他者のものを区別することができる。
（手話からテキストへの例示的変換）

ウェアラブルシステム２００は、捕捉された手話を、ユーザに提示または別の言語に翻訳され得る、テキストに変換することができる。手話からテキストへの変換は、深層学習（深層ニューラルネットワークを利用してもよい）、隠れマルコフモデル、動的プログラミングマッチング等のアルゴリズムを使用して実施されることができる。例えば、深層学習方法（ある場合には、畳み込みニューラルネットワーク）は、身ぶりを表す特徴を決定し、学習された特徴に基づいて、分類モデルを構築するように、既知の身ぶりを含有する画像またはビデオ上で訓練されることができる（教師あり学習）。そのような訓練された深層学習方法は、次いで、ローカル処理およびデータモジュール２６０または遠隔処理モジュールおよびウェアラブルシステム２００のデータリポジトリ２７０、２８０によって、外向きに面した結像サブシステムによって検出された手話者の画像に適用されることができる。

テキスト変換機能性は、単独で、または組み合わせて、ローカル処理およびデータモジュール２６０、遠隔処理モジュール２７０、遠隔データリポジトリ２８０、または遠隔コンピューティングシステム１２２０によって実装されることができる。例えば、ウェアラブルシステム２００は、ＨＭＤ上に実装される手話／テキスト機能性を含むことができる。一実施例として、ウェアラブルシステムは、手話辞書をローカルデータモジュール２６０または遠隔データリポジトリ２８０内に記憶することができる。ウェアラブルシステムは、故に、手話辞書にアクセスし、検出されたジェスチャをテキストに翻訳することができる。別の実施例として、ウェアラブルシステム２００は、遠隔コンピューティングシステム１２２０によって実装される手話／テキスト機能性にアクセスすることができる。ウェアラブルシステム２００は、商業用手話／テキストサービスまたはデータリポジトリとの無線接続を利用してもよい（例えば、アプリケーションプログラミングインターフェース（ＡＰＩ）を介して）。例えば、ウェアラブルシステム２００は、捕捉されたジェスチャを遠隔コンピューティングシステム１２２０に提供し、対応するテキストを遠隔コンピューティングシステム１２２０から受信することができる。

変換がローカルまたは遠隔で実施されるかどうかにかかわらず、変換されたテキストを表示する、補助情報（以下にさらに説明される）を読み出す等の他の処理ステップは、テキスト変換が実施される場所から独立して、ローカルまたは遠隔で行われてもよい。例えば、手話／テキスト変換が、遠隔で行われ、変換されたテキストが、ローカルで表示されるべき（例えば、システムのユーザが、観察者である）場合、捕捉されたビデオストリームは、ネットワークを介して変換を実施する、遠隔処理モジュール２７０または遠隔サーバに送信されることができる。変換されたテキスト文字列は、表示のために、システムのローカルコンポーネント（例えば、ローカル処理およびデータモジュール２６０）に返される。別の実施例として、手話／テキスト変換および補助情報読出が、遠隔で行われる場合、捕捉されたビデオストリームは、ネットワークを介して、遠隔処理モジュール２７０または遠隔サーバに送信されることができ、読み出された補助情報は、システムのローカルコンポーネントに返されることができる。ローカル／遠隔処理の他の組み合わせも、実行可能である。

これらの実施例は、身ぶりをテキストに変換することを参照して説明されるが、身ぶりは、例えば、グラフィック、動画、オーディオ、または他のタイプの視聴覚コンテンツ等の種々の他のフォーマットに変換されてもよい。さらに、身ぶりの翻訳は、身ぶりが最初にテキストに翻訳されることを要求しない。
（１つの手話を別の手話に変換する実施例）

本明細書に記載されるように、数百もの手話が、世界中に存在する。故に、本明細書に説明されるウェアラブルシステムはまた、会話相手の両方が、身ぶりを行なっているが、異なる手話システムであるときに使用されることができる。有利には、各そのような手話者は、その独自のウェアラブルシステムを使用して、他の手話者の身ぶりをユーザ自身の手話システムに翻訳することができる。ウェアラブルシステムは、身ぶりをユーザによって理解されるテキストまたはユーザ自身の手話のグラフィック表現に翻訳してもよい。

ウェアラブルシステム２００は、特定の手話、例えば、アメリカ手話（ＡＳＬ）を認識するように構成されてもよい。ウェアラブルシステム２００はまた、複数の手話、例えば、ＡＳＬ、イギリス手話、中国手話、ドゴン手話等を認識するように構成されてもよい。いくつかの実装では、ウェアラブルシステム２００は、例えば、感覚式アイウェアシステムの場所情報に基づいて、手話認識の再構成をサポートする。ウェアラブルシステムは、単独で、または手話辞書と組み合わせて、例えば、オブジェクト認識装置７０８を利用して、外向きに面した結像システム４６４によって知覚されたジェスチャを認識する、システムがユーザ自身のまたは好ましい手話を認識する方法に類似する手段を通して、外国語手話を認識してもよい。ウェアラブルシステムは、ユーザが知覚する手話をユーザの優勢手話に変換することができる。ユーザの優勢手話は、会話におけるユーザの第１の手話またはユーザの好ましい手話であることができる。ユーザの優勢手話以外の手話は、外国語手話と見なされ得る。ウェアラブルシステムは、ユーザが、外国語手話の変換されたテキストを選択することを可能にすることができる。例えば、ユーザは、外国語手話を選択することができ、ウェアラブルシステムは、外国語手話におけるジェスチャの意味をテキストとしてウェアラブルシステムのユーザに提示することができる。

ウェアラブルシステムは、環境内で発話された言語または場所情報の補助を通して、外国語手話を認識してもよい。例えば、ウェアラブルシステムは、イタリア語がユーザの環境内で発話されたことを検出する、またはＧＰＳによって入手されたデータに基づいて、ユーザがイタリアに滞在していることを決定する。本情報に基づいて、ウェアラブルシステムは、イタリア手話を認識するための機能を自動的にアクティブ化することができる。別の実施例として、ウェアラブルシステムは、ウェアラブルシステムがサポート可能な手話の選好の順序を有してもよい。本実施例では、ＡＳＬは、ユーザが米国出身であるため、イタリア手話より優勢であり得る。しかしながら、いったんウェアラブルシステムが、ユーザが、イタリア語話者によって囲繞されている、または物理的にイタリアに居ることを検出すると、ウェアラブルシステムは、イタリア手話がここではＡＳＬより先に来るように、選好の順序を変化させることができる。したがって、ウェアラブルシステムは、イタリア手話を英語テキストまたはＡＳＬと関連付けられたグラフィックに翻訳することができる。

感覚式アイウェアシステムは、ユーザが外国語手話を理解することに役立ち得るだけではなく、また、ユーザが外国語手話の身ぶりを行うことに役立ち得る。例えば、ウェアラブルシステムは、ユーザ自身の言語を外国語手話に翻訳するように構成されることができる。システムは、外国語手話ジェスチャ（例えば、翻訳された手話）をディスプレイ上に表示することができる。ユーザには、外国語手話におけるジェスチャが見え、ジェスチャを模倣することができる。例えば、ユーザは、聴覚障害手話者と会話し得る。ウェアラブルシステムは、ユーザの発話を捕捉し、ユーザに、手話者が理解する手話における対応するジェスチャを表示することができる。ユーザは、故に、ディスプレイによって提示されるようにジェスチャを行い、手話者と通信することができる。いくつかの実施形態では、ジェスチャをユーザに示すのではなく、ウェアラブルシステムは、手話者がユーザの口頭発話を理解可能であるように、代わりに、ユーザの発話に対応する身ぶりを手話者に通信することができる。

ウェアラブルシステムは、オーディオ増幅器（例えば、スピーカ２４０）を含み、認識された手話をオーディオで提供することができる。例えば、ウェアラブルシステムは、ウェアラブルシステム２００のユーザへの再生のために、手話者による手話をオーディオストリームに変換することができる。
（手話と関連付けられた補助情報を決定する実施例）

人々が、手話を伴う会話を含む、会話中に、単語または語句を把握または理解しないことは、稀ではない。ウェアラブルシステムは、表示されるテキストの一部と関連付けられた補助情報を表示し、ユーザの理解を向上させることができる。補助情報は、定義のコンテキストを拡張し、それに追加される、定義、翻訳、説明等の情報を含むことができる。補助情報は、例えば、テキスト、画像、グラフィック、動画、または他の聴覚的もしくは視覚的情報等の種々の形態で存在してもよい。システムは、例えば、図２Ａにおけるディスプレイ２２０を介して、補助情報を視覚的に提示することができる。システムは、例えば、図２Ａにおけるオーディオ増幅器２４０を介して、聴覚障害者ではないユーザに、補助情報をオーディオとして提示することができる。そのような単語または語句に関する定義、翻訳、説明、または他の情報を提供することによって、ウェアラブルシステムは、有利には、ユーザが、ユーザが観察する手話をより良好に理解することを補助することができる。

補助情報は、ユーザの環境のコンテキスト情報、発話のコンテキスト等に基づいて決定されてもよい。実施例として、ウェアラブルシステムは、会話相手の身ぶりと関連付けられた補助情報を表示するかどうかを決定する際、少なくとも部分的に、ユーザ挙動を利用することができる。例えば、ユーザは、一時的に、ある方向を（例えば、手話者または手話者の手に向かって）注視し得る。ウェアラブルシステムは、ユーザの視線方向（例えば、内向きに面した結像システム４６２を使用して）を検出することができ、それに応答して、会話相手の身ぶりと関連付けられた補助情報を読み出し、表示することができる。

ウェアラブルシステムは、補助情報のデータリポジトリ（例えば、データベース）を備えてもよい。ウェアラブルシステムは、データリポジトリにアクセスすることによって、表示されるテキストと関連付けられた補助情報を読み出すことができる。情報のそのようなデータベースは、ウェアラブルシステムのローカルで、例えば、図２Ａにおけるデータモジュール２６０内に記憶される、または遠隔で、例えば、遠隔データリポジトリ２７０内に記憶されてもよい。ウェアラブルシステムは、公共でアクセス可能な情報、例えば、インターネットに関する情報を利用して、補助情報を決定することができる。例えば、ウェアラブルシステムは、ネットワークにアクセスし、会話内の単語／語句に関するクエリを辞書、百科事典、または他の類似リソース等のインターネット上のリソースに送信することができる。そのようなリソースは、一般的（例えば、Ｗｉｋｉｐｅｄｉａ等の汎用百科事典）、または、例えば、ｒｘｌｉｓｔ．ｃｏｍもしくは鉱物学データベース（例えば、ｗｅｂｍｉｎｅｒａｌ．ｃｏｍ）上のもの等の薬物のインデックス等の特殊なものであってもよい。
（変換された身ぶりまたは補助情報の例示的表示、放逐、および呼び戻し）

ウェアラブルシステムは、単独で、または補助情報と組み合わせて、変換された身ぶり（例えば、テキストまたはグラフィカルフォーマットにおける）をウェアラブルシステム２００のユーザに提示することができる。例えば、ウェアラブルシステム２００は、補助情報を手話の変換された身ぶりとともに表示する、変換された身ぶりまたは補助情報を個々に表示する（例えば、補助情報が表示される持続時間の間、補助情報のみを表示する）、または２つの表示モード間で切り替えるように構成されることができる。単独で、または補助情報と組み合わせて、変換された身ぶりは、時として、表示アイテムと称され得る。

変換されたテキストまたは補助情報は、種々の方法で提示されてもよい。一実施例では、ウェアラブルシステム２００は、変換されたテキストまたは補助情報をテキスト吹き出し内に設置することができ、例えば、テキストは、図１３におけるグラフィック１３５５に図示されるように、手話者の近傍に幾何学的に局所化される。別の実施例として、ウェアラブルシステム２００は、検出された手話のローリングトランスクリプトを表示するように構成されることができる。本構成では、例えば、ユーザの注意が一時的に逸らされた場合、見逃された単語またはさらに文は、迅速に再読されることができる。手話者の変換されたテキストトランスクリプトは、映画におけるエンドクレジットの提示に類似する、ローリングテキストとして表示されてもよい。

変換されたテキストのトランスクリプトを表示するシステムは、いくつかの方法において、例えば、下線が引かれた、着色された、太字テキスト等、補助情報が要求される、単語または語句をハイライトすることができる。そのようなハイライトは、補助情報が読み出される、または表示される前に表示されることができる。本表示モードにおいて構成される、いくつかの実施形態は、ユーザが、ハイライトされたテキストの要求を確認またはキャンセルすることを可能にすることができる。代替として、または加えて、そのようなハイライトは、補助情報とともに表示されることができる。本表示モードは、ユーザに、補助情報が関連付けられるテキストを明確にすることができる。システムは、以下にさらに説明されるように、ユーザが、ＵＩ相互作用を通して、現在または過去の変換されたテキストを選択し、関連付けられた補助情報を読み出す、もしくは呼び戻すことを可能にすることができる。

ウェアラブルシステム２００は、ＵＩ相互作用を介して情報にアクセスするために、ユーザの眼移動を最小限にするように、変換されたテキストまたは補助情報を設置することができる（例えば、テキスト吹き出し内に、またはローリングトランスクリプトとして）。このように、ＵＩは、簡略化され、ユーザは、その注意を手話者から遠くに引き離す必要がない。変換されたテキストまたは補助情報は、読取アクションを会話相手に最小限に可視にするように設置され、そうすることによって、変換されたテキストまたは補助情報へのユーザのアクセスを露見させることなく、あまり注意散漫とならず、より良好な通信を提供し得る。例えば、手話者の場所を決定することが可能な実装は、変換されたテキストまたは補助情報を手話者の隣に設置することができる。外向きに面した結像システム４６４からの画像は、例えば、手話者の顔、ジェスチャ等を、例えば、曖昧にしない、適切な場所の決定に役立ち得る。ウェアラブルシステム２００は、図８に図示されるプロセスフローを使用して、変換されたテキストまたは補助情報表示の場所を決定することができる。例えば、ブロック８５０において認識されるオブジェクトは、その手話が手話認識のために処理されるべき手話者であることができる。

変換されたテキストまたは補助情報がオーディオとして提示される場合（例えば、ユーザが、聴覚障害者ではなく、会話相手が、手話を使用する場合）、ユーザまたは会話相手によって被られる注意散漫を低減させる別の実施例として、ウェアラブルシステムは、ユーザに聞こえるために十分であるが、（言語障害者であるが、聴覚障害者ではない）会話相手に聞こえるためには十分ではない、大きさの音量で情報を提示する、またはユーザもしくは会話相手のいずれも発話していないとき、情報を提示することができる。

表示されるアイテムは、条件が満たされるまで、可視のままであってもよい。例えば、表示されるアイテムは、固定時間量にわたって、次の表示されるアイテムが表示されるまで、またはユーザアクションによって放逐されるまで、可視のままであってもよい。ユーザアクションは、受動的（例えば、内向きに面した結像システム４６２によって捕捉されるような眼移動）であってもよい。ウェアラブルシステムは、ユーザが表示されるアイテムを精査したことを決定すると、表示を放逐することができる。例えば、表示されるアイテムが、テキストである場合、システムは、テキストを通したユーザの眼移動（例えば、左右または上下）を追跡することができる。いったんウェアラブルシステムが、ユーザが表示されるアイテム全体（または表示されるアイテムの大部分）に目を通したことを決定すると、ウェアラブルシステムは、故に、表示されるアイテムを放逐することができる。別の実施例として、表示されるアイテムは、ユーザが表示されるアイテムによって占有されたエリアから眼を逸らしている（またはそれを見ていない）ことがシステムによって観察された後に放逐されてもよい。ユーザアクションはまた、能動的（例えば、外向きに面した結像システム４６４によって捕捉されるような手のジェスチャ、オーディオセンサ２３２によって受信されるような音声入力、またはユーザ入力デバイス４６６からの入力によって）であってもよい。例えば、いったんウェアラブルシステムが、ユーザによるスワイプジェスチャを検出すると、ウェアラブルシステムは、表示されるアイテムを自動的に放逐することができる。

ウェアラブルシステムは、特定のユーザのために、カスタマイズされたユーザインターフェース（ＵＩ）相互作用のセットをサポートするように構成されることができる。ＵＩ相互作用は、指、ポインタ、またはある種類のスタイラスを用いて、眼によるボタン上への注視および後続の固視によって、もしくはその他のいずれかで作動される、ボタンに類似するＵＩ要素の形態をとってもよい。ボタンは、（例えば、キーボード上の）実際の物理的ボタンまたはディスプレイ２２０によって表示される仮想ボタンであることができる。ＵＩ相互作用は、例えば、図４に関連して上記に説明されるように、頭部姿勢の形態をとってもよい。ＵＩ相互作用検出の実施例は、図１０に関連して上記に説明される。

ウェアラブルシステムは、ユーザに、表示されるアイテムの放逐を遅延させるようにプロンプトすることができる。例えば、ウェアラブルシステム２００は、表示されるアイテムの明度を低減させ、または配色を変化させ、表示されるアイテムが、間もなく、例えば、数秒以内に放逐されるであろうことをユーザに通知してもよい。上記に説明されるもの等のＵＩ相互作用は、放逐することを延期するために使用されてもよい。例えば、ウェアラブルシステムは、ユーザが表示されるアイテムから眼を逸らしたことを検出してもよい。したがって、ウェアラブルシステムは、表示されるアイテムの透明度を増加させ、表示されるアイテムが間もなく放逐されるであろうことをユーザに通知することができる。しかしながら、ウェアラブルシステムが、眼追跡を通して、ユーザが表示されるアイテムに眼を戻したことを検出する場合、ＡＲシステムは、表示を放逐することを延期することができる。

上記に説明されるもの等のＵＩ相互作用はまた、放逐された表示されるアイテムを呼び戻すために使用されてもよい。例えば、ユーザ入力デバイスを通した入力アクション（例えば、キーボード上のバックスペースの作動）は、直近に表示されたアイテムを呼び戻すために使用される、または呼び戻しのために特定の表示されるアイテムを選択するために使用されることができる。
（感覚式アイウェアシステムの例示的ユーザ体験）

図１３Ａは、感覚式アイウェアシステムの例示的ユーザ体験を示し、感覚式アイウェアシステムは、ユーザのウェアラブルシステムのために、手話（例えば、手話者によってジェスチャされる）を解釈することができる。本実施例は、感覚式アイウェアシステムのユーザが観察する、手話者１３０１を示す。ユーザは、手話者１３０１が、場面１３０５、１３１０、および１３１５に示されるように、手のジェスチャのシーケンス１３００を行なっていることを知覚することができる。場面１３０５における手のジェスチャは、単語「ｈｏｗ」を表し、場面１３１０における手のジェスチャは、単語「ａｒｅ」を表し、場面１３１５における手のジェスチャは、単語「ｙｏｕ」を表す。したがって、シーケンス１３００は、「Ｈｏｗａｒｅｙｏｕ」として解釈されることができる。シーケンス１３２０および１３４０は、シーケンス１３００と同一ジェスチャを示す。ジェスチャ１３０５は、ジェスチャ１３２５および１３４５に対応し、ジェスチャ１３１０は、ジェスチャ１３３０および１３５０に対応し、ジェスチャ１３１５は、ジェスチャ１３３５および１３５５に対応する。しかしながら、シーケンス１３００、１３２０、および１３４０は、以下にさらに説明されるように、異なるユーザディスプレイ体験を図示する。

シーケンス１３００における手のジェスチャを英語語句「Ｈｏｗａｒｅｙｏｕ」に翻訳するために、ウェアラブルシステム２００の外向きに面した結像システム４６４は、一連の画像またはビデオのいずれかとして、ジェスチャのシーケンスを捕捉することができる。ウェアラブルシステムは、ジェスチャを一連の画像またはビデオから抽出することができる。ウェアラブルシステムは、手話認識を抽出されたジェスチャに、例えば、オブジェクト認識装置７０８または深層学習アルゴリズムを適用することを通して、実施することができる。手話を認識するプロセスでは、ウェアラブルシステムは、ローカルまたは遠隔記憶装置内に記憶される手話辞書にアクセスすることができる。ウェアラブルシステムは、認識された手話から変換されたテキスト（または身ぶりのグラフィック表現）を、ディスプレイ２２０を介して、ユーザ（図示せず）に表示することができる。感覚式アイウェアシステムはまた、変換された身ぶりと関連付けられた補助情報の要求を受信し、本明細書に説明される技法を使用して、補助情報を読み出し、表示することができる。

図１３Ａに図示されるグラフィカルシーケンスでは、単語「ｈｏｗ」を表すことは、例えば、グラフィック１３０５および１３１０に示されるように、２つの明確に異なるジェスチャを行う。ウェアラブルシステムは、第２のジェスチャ（場面１３１０における）後、単語「ｈｏｗ」を表示する前に待機してもよい（場面１３０５においてジェスチャされるように）。加えて、または代替として、ウェアラブルシステムは、グラフィカルシーケンス１３２０に示されるように、文または語句が完了されるまで、テキスト変換または表示を延期してもよく、語句「Ｈｏｗａｒｅｙｏｕ」は、場面１３３５の最後に示される。ウェアラブルシステムは、例えば、グラフィック１３５５に示されるように、変換されたテキストまたは補助情報をキャプションまたはテキスト吹き出しとして表示することができる。キャプションまたはテキスト吹き出しは、ユーザのＦＯＶ内に位置付けられ、例えば、手話者の顔のユーザのビューを曖昧にせずに、手話者に近接近して、ユーザへの注意散漫を最小限にすることができる。

図１３Ｂは、感覚式アイウェアシステムの別の例示的ユーザ体験を示し、標的発話および補助情報の両方が、提示される。本実施例では、ユーザ（図示せず）は、ＨＭＤを装着し、手話者１３６２を知覚することができる。手話者は、手話を使用して、質問「ＷｈｅｒｅｉｓｔｈｅＰＴＯ？」を尋ねている（手話者は、質問の最後に表音文字「Ｏ」をジェスチャするように描写されている）。ウェアラブルシステムは、手話者によって行われるジェスチャを認識し、それらをテキストに変換し、変換されたテキストをテキスト吹き出し１３６０内においてウェアラブルシステムのユーザに表示することができる。ウェアラブルシステムは、「ＰＴＯ」が頭字語であって、ユーザが日常の発話において頻繁に使用しない単語であることを決定することができる。例えば、ウェアラブルシステムは、一般に使用される単語および語句の辞書を維持し、「ＰＴＯ」が辞書内にないことを決定することができる。単語「ＰＴＯ」が辞書内にないことの検出に応じて、ウェアラブルシステムは、語句「ＰＴＯ」と関連付けられた補助情報のアクセスを開始することができる。

ウェアラブルシステムは、コンテキスト情報に基づいて、頭字語に関する補助情報を読み出すことができる。本実施例では、システムは、その場所情報に依拠してもよく、例えば、システム（およびそのユーザ）は、現在、Ｖｉｒｇｉｎｉａ州のＡｌｅｘａｎｄｒｉａにある（居る）。システムは、頭字語「ＰＴＯ」に関する補助情報として、「特許商標庁」を読み出す。システムは、ディスプレイ２２０を介して、補助情報を仮想バナー１３６５としてユーザに表示する。図１３Ｂに示される変換されたテキストおよび補助情報の表示モードは、例証にすぎない。いくつかの実施形態は、それらを異なるように表示してもよい、例えば、両方が、キャプションとして連続して表示される。

複数のウェアラブルシステムの複数のユーザは、その個別のウェアラブルシステムの補助を通して、遠隔で通信することができる。図１３Ｃは、テレプレゼンスセッションにおける感覚式アイウェアシステムの例示的ユーザ体験を示す。例えば、図１３Ｃに図示されるように、（人工デバイスの補助なしでは、相互に直接見えない、または聞こえないような）２つの物理的場所１３７０ａ、１３７０ｂにおける２人のユーザ１３７２ａ、１３７２ｂは両方とも、それぞれ、ウェアラブルシステム１３７４ａ、１３７４ｂを装着することができる。ユーザ１３７２ａ、１３７２ｂの一方または両方は、手話を使用して会話し得る。手のジェスチャは、ユーザの個別のウェアラブルシステムの結像システムによって捕捉され、ネットワーク１２９０を通して伝送されてもよい。ユーザＡ１３７２ａの手話は、変換されたテキストとしてユーザＢ１３７２ｂのデバイス上に表示されてもよく、その逆も同様である。

感覚式アイウェアシステムは、検出された手話をテキストにローカルで変換し、変換されたテキストのみをネットワーク１２９０を通して伝送することができる。他方のユーザのデバイスは、テキストを表示するか、または他方のユーザが聴覚障害者ではない場合、テキストを可聴発話に変換するかのいずれかを行うことができる。これは、対応する画像、ビデオ、またはオーディオを伝送するためよりも少量のデータが、テキストを伝送するために要求されるため、ネットワーク１２９０の帯域幅が制約される場合に有利であり得る。

ウェアラブルシステムはまた、ディスプレイ２２０上に提示される画像を通して、テレプレゼンス会話を向上させることができる。例えば、ディスプレイ２２０は、遠隔手話者のアバタを変換されたテキストまたは補助情報とともに提示し、参加者の視覚的感覚を引き付けることができる。例えば、内向きに面した結像システム４６４を装備するウェアラブルシステムは、ＨＭＤによってオクルードされる装着者の顔の領域を置換するための画像を捕捉することができ、これは、第１のユーザに、テレプレゼンスセッションの間、第２のユーザのオクルードされていない顔が見え得るように、およびその逆も同様であるように、使用されることができる。第１のユーザと関連付けられた世界マップ情報が、感覚式アイウェアシステムを伴うテレプレゼンスセッションの第２のユーザに通信されてもよい。これは、ＨＭＤ装着者によって見られる遠隔ユーザの画像の作成を通して、ユーザ体験を向上させることができる。

テレプレゼンス用途では、画像情報を捕捉することは、観察者であるユーザと関連付けられたデバイスではなく、手話者であるユーザと関連付けられたデバイスによって実施され（例えば、一人称視点から）、これは、対人シナリオにおいて典型的であり得る。手話の存在の検出および手話からテキストへの変換は、いずれかのユーザと関連付けられたデバイスによって、または遠隔システム、例えば、サーバコンピュータシステム１２２０によって実施されることができる。手話源は、画像を捕捉するデバイスに基づいて決定されることができ、例えば、ユーザＡのデバイスが画像を捕捉するとき、ユーザＡが、身ぶりを行なっている。

図１３Ｄは、手話を解釈するための例示的仮想ユーザインターフェースを図示する。本実施例では、ユーザ１３９２は、ウェアラブルシステム１３８０（ウェアラブルシステム２００の少なくとも一部を含んでもよい）を装着している。本実施例では、ユーザ１３９２は、カウンタの背後に居て、カウンタに接近する人物１３９４を知覚する。例えば、ユーザ１３９２は、医療施設における看護師または窓口担当、宿泊客を補助するホテル従業員（例えば、コンシェルジュ）等であってもよい。人物１３９４は、体調が悪く、薬局への行き方等、医療機関を探している場合がある。ウェアラブルシステム１３８０は、図１３Ｄに示されるように、ユーザ１３９４による手のジェスチャを観察することができる（例えば、外向きに面した結像システム４６４を介して）。ウェアラブルシステム１３８０は、（例えば、オブジェクト認識装置７０８を使用して）手のジェスチャが、示されるように、手話における表現であることを自動的に検出し、手のジェスチャと関連付けられた意味を認識し、手のジェスチャの翻訳をユーザ１３９２が理解する標的言語（例えば、英語）で提供することができる。ウェアラブルシステム１３８０は、仮想ユーザインターフェース１３８２を提示し、ウェアラブルシステムによって捕捉された入力１３８４ａ、入力１３８４ａに対応する翻訳１３８４ｂ（例えば、「近くに薬局はありますか？体調が悪くて。」）を示すことができる。ウェアラブルシステムはまた、ユーザ入力要素１３８４ｃおよび１３８４ｄを仮想ユーザインターフェース１３８２上に提供することができる。例えば、ユーザ１３９２は、手のジェスチャ（例えば、押下ジェスチャ）を使用して、ユーザ入力要素１３８４ｃを選択してもよい。ユーザ入力要素１３８４ｃの作動はウェアラブルシステムに、例えば、近くの薬局の場所または「分かりません」等の応答のリストを提供させてもよい。いくつかの実施形態では、ウェアラブルシステム１３８０は、応答のための手話における対応するグラフィックを示すことができる。ユーザ１３９２は、故に、グラフィックに示されるように、手のジェスチャを使用して、人物１３９４に応答することができる。別の実施例として、ユーザ入力要素１３８４ｄが、作動される場合、ウェアラブルシステムは、例えば、ユーザインターフェース要素１３８２を放逐するかまたは援助を要請する等、オプションのリストを提供することができる。いくつかの実施形態では、インターフェース１３８２のエリア１３８４ａは、ユーザ１３９２が人物１３９４と通信するために実施し得る、手話ジェスチャ（例えば、「薬局は、通りの向い側にあります」という身ぶり）を示す、出力グラフィックを含んでもよい。
（対人通信のためのツールとしての感覚式アイウェアシステムのための例示的プロセス）

図１４Ａおよび１４Ｂは、感覚式アイウェアシステムを用いた対人通信を促進するための例示的プロセスを図示する。図１４Ａおよび１４Ｂにおける例示的プロセス１４００および１４４０は、図２Ａに示されるウェアラブルシステムによって実施されることができる。

ブロック１４０４では、ウェアラブルシステムは、環境内の画像情報を捕捉することができる。本明細書に説明されるように、ウェアラブルシステムは、外向きに面した結像システム４６４を使用して、ユーザの周囲内の画像情報を捕捉することができる。ウェアラブルシステムはまた、環境内のオーディオ情報を捕捉することができる。オーディオ情報は、外向きに面した結像システム４６４によって入手されたデータと併用され、発話またはジェスチャ源を決定する、または手話の存在を検出することができる。

ブロック１４０８では、ウェアラブルシステムは、捕捉された画像情報内に手話の存在を検出する。本検出処理は、ローカル（例えば、ローカル処理モジュール７１によって）または遠隔（例えば、遠隔処理モジュール７２によって）で行われてもよい。ウェアラブルシステムは、種々のオブジェクト認識装置を使用して、手のジェスチャの存在を検出することができる。例えば、ウェアラブルシステムは、手のジェスチャのシーケンスが手話における語句または文を構成し得ることを見出し得る。別の実施例として、ウェアラブルシステムは、一連の手のジェスチャならびに唇移動を検出してもよい。ウェアラブルシステムは、そのようなジェスチャおよび唇移動がオーディオ情報を付随しないため、手のジェスチャおよび唇移動が手話と関連付けられることを見出し得る。

いくつかの実施形態では、ウェアラブルシステムは、コンテキスト情報に基づいて、手話を検出および解釈することができる。例えば、ウェアラブルシステムは、（例えば、夕食の会話の）オーディオ信号を受信し、それらの信号を言語に変換し、または意味をその言語から抽出し、それによって、議論の話題のジャンル（または他の属性）を推測することができ、これは、手話を解釈するために使用されることができる（例えば、議論の話題と整合するように手のジェスチャを解釈するため等）。

ウェアラブルシステムは、ユーザ自身の手話を検出または無視するように構成されることができる。ブロック１４０８の機能は、ユーザ自身の手話が比較的に近距離において一人称視点から捕捉され得るため、本構成に基づいて異なり得る。例えば、システムが、ユーザ自身の手話を捕捉するように構成される場合、ユーザの手に下向きに指向される付加的外向きに面したカメラが、オンにされてもよい、または外向きに面した結像システムが、ユーザの手の画像を捕捉するように広角モードに構成されてもよい。

ブロック１４１２では、システムは、手話が検出されるかどうかを決定する。手話が、検出される場合、プロセスフロー１４００は、ブロック１４１６に継続する。手話が、検出されない場合、フローは、ブロック１４０８（図示されるように）またはブロック１４０４（図示せず）に戻る。

ブロック１４０４－１４１２における動作は、ウェアラブルシステム（その結像システムを含む）がオンになると、または手話認識機能が有効にされると、持続的または周期的に（例えば、あるサンプリング頻度で）、実施されてもよい。これらの動作は、フローチャート１４００および１４４０内の他のブロックと並行して（例えば、時限割込によって駆動されるバックグラウンドタスクとして）実施されることができる。それらは、例証目的のために、処理フローシーケンス内で離散ブロックとして示される。しかし、それらは、図示されるシーケンスによって限定されない。上記に説明される実施例以外の多くの処理フローも、システム設計者の裁量に応じて可能性として考えられる。

ブロック１４１６では、ウェアラブルシステムは、検出された手話源（例えば、手話者）を決定することができる。源は、ユーザの物理的近傍に居る人物、ユーザ、またはユーザが知覚する視覚的コンテンツ内の人物であってもよい。手話源は、例えば、システムが、ウェアラブルシステムのＦＯＶの中心またはその近傍の人物のみからの手話を処理するように構成される場合、関連し得る（ＦＯＶの中心の外側の人々からの手話は、例えば、複数の人物が並行して手話で会話しているとき、破棄され、さらに処理され得ない）。別の実施例として、ウェアラブルシステムは、ユーザが見ている人物のみに関する手話認識のために、ジェスチャを処理することができ、これは、ＦＯＶの中心における人物である場合とそうではない場合がある。ウェアラブルシステムは、内向きに面した結像システム４６２および外向きに面した結像システム４６４によって入手されたデータに基づいて、ユーザが見ている人物を識別することができる。例えば、外向きに面したカメラは、ユーザに対する手話者の位置を含む、情報を提供することができる。内向きに面したカメラは、ユーザが見ている方向を含む、情報を提供することができる。両方のカメラからの情報を使用することによって、ウェアラブルシステムは、ユーザが見ている人物と、その人物が手話源であるかどうかとを決定することができる。

ブロック１４２０では、システムは、手話源が変化したかどうかを決定する。変化した場合、フロー１４００は、図１４Ｂに示されるように、ブロック１４２４－ブロック１４４４に継続する。手話源が変化しなかった場合、フローは、ブロック１４２８に移行し、手話認識処理を継続し、これは、画像情報を捕捉するステップ（ブロック１４０４）と、手話の存在を検出するステップ（ブロック１４０８）と、図１４Ｂに示される処理ステップとを含むことができる。例えば、システムが、ジェスチャが同一手話者から生じ続けていると決定する場合、システムは、画像情報を捕捉し、手話を検出し続けることに加え、ブロック１４４８から開始する機能を実施し続けることができる。

ブロック１４４８では、ウェアラブルシステムは、手話をユーザによって理解される言語に翻訳することができる。例えば、システムは、認識された手話をテキストに変換することができ、これは、システムによって表示される（例えば、テキスト吹き出しまたはキャプションとして）と、ユーザによって読み取られることができる。ある場合には、ユーザが、異なる手話を理解する場合、例えば、グラフィックがユーザ自身の手話における身ぶりに変換された身ぶりを示すように、他の手話者の身ぶりのグラフィック表現が、ユーザに表示されることができる。

ブロック１４５２では、例示的システムは、システムが、ユーザ自身ならびに会話相手の手話を検出するように構成されるとき、検出された手話がユーザ自身のものであるかどうかを決定することができる。該当する場合、プロセスは、ブロック１４８４に進み、システムは、変換されたテキストを観察者／会話相手のディスプレイデバイスに伝送することができる。

ブロック１４８４から、システムは、ブロック１４８８に進み、処理を継続することができる。システムが、ユーザ自身の手話を無視するように構成されるとき、ブロック１４５２および１４８４は両方とも、フローから省略されることができる。検出された手話が、ユーザ自身のものではない場合、フローは、ブロック１４５６に継続する。

ブロック１４５６では、ウェアラブルシステムは、上記に説明されるように、ディスプレイによって、変換されたテキストを表示することができる。システムのユーザが、聴覚障害者ではない場合、テキストは、視覚的ディスプレイに加え、またはその代替として、例えば、オーディオ増幅器２４０を通して、オーディオとして提示されることができる。

ブロック１４６０では、ウェアラブルシステムは、変換されたテキストに関する補助情報の要求を監視することができる。補助情報の要求は、トリガ条件の検出に応じて、ユーザのウェアラブルシステムによって送信されてもよい。いくつかの例示的トリガ条件は、ユーザのインジケーション、例えば、ユーザのジェスチャまたはユーザ入力デバイス４６６の作動を含む、またはユーザが理解し得ない単語（または語句）の検出に応じてもよい。

ブロック１４６４では、システムは、要求が受信されたかどうかを決定する。要求が受信されない場合、フローは、ブロック１４７６に移行し、これが、以下にさらに説明される。

要求が受信された場合、ブロック１４６８では、システムは、変換されたテキスト（またはその要求される一部）と関連付けられた補助情報を読み出すことができる。本明細書に説明されるように、補助情報は、例えば、本明細書に説明されるように、ユーザの場所、発話のコンテキスト、または他のタイプの情報等のコンテキスト情報に基づいて、決定され、読み出されてもよい。

ブロック１４７２では、ウェアラブルシステムは、ウェアラブルシステムのディスプレイ２２０を介して、読み出された補助情報を表示することができる。いくつかの実装では、ウェアラブルシステムは、補助情報を表示する前に、変換されたテキストの表示を放逐してもよい。

フローは、ブロック１４６４または１４７２から、ブロック１４７６に進んでもよい。ブロック１４７６では、システムは、変換されたテキストまたは補助情報表示を放逐するための条件を検出することができる。そのような条件が検出されると、ブロック１４８０では、システムは、変換されたテキストまたは補助情報の表示を放逐し、ブロック１４８８に継続することができる。ブロック１４８８では、手話認識の処理は、上記のブロック１４２８の説明に類似する様式において継続する。

ブロック１４０４－１４１２に関して上記に記載されるものと同様に、フローチャート１４４０内の動作は、フローチャート１４００および１４４０の他のブロックと並行して実施されてもよい。それらは、例証目的のために、処理フローシーケンス内で離散ボックスとして示されるが、それらは、図示されるシーケンスによって限定されない。例えば、システムは、変換されたテキストに関する補助情報を表示してもよい（ブロック１４７２において）一方、システムは、付加的手話をテキストに変換する（ブロック１４５６において）、補助情報要求監視を実施する（ブロック１４６０において）、または別の変換されたテキストに関する補助情報を読み出す（ブロック１４６８において）。別の実施例として、システムは、手話をテキストに変換することができる（ブロック１４４８において）一方、以前に要求された（補助情報に関する）変換されたテキストに関する補助情報を読み出す（ブロック１４６８において）。多くの他の処理フローも、システム設計者の裁量に応じて可能性として考えられる。

図１４Ｃは、変換されたテキストと関連付けられた補助情報を決定し、補助情報を提示するための例示的方法のプロセスフロー図である。本プロセス１４９０は、本明細書に説明されるウェアラブルシステム２００または別のコンピューティングデバイス上で実行されることができ、それ自体が、手話認識機能性を有する場合とそうではない場合がある。本プロセス１４９０は、１つの感覚式アイウェアシステムを使用して、手話を検出し、手話をテキストに変換し、変換されたテキストを別のデバイスまたはシステム上に表示することがより有利な状況に適用可能であり得る。例示的状況は、手話者が第２の人物と遠隔で通信することを所望する場合であり得る。手話者のウェアラブルシステムは、手話者自身の手話をテキストに変換することができる。ウェアラブルシステムは、変換されたテキストを第２の人物によって視認可能な遠隔システムに伝送することができる。変換されたテキストは、対応する画像またはビデオよりはるかに少ない情報ビットで伝送されることができるため、そのようなプロセスは、有利には、伝送媒体からはるかに低い帯域幅を要求する、またははるかに信頼性のある通信をもたらすことができる。

プロセス１４９０は、ブロック１４９２から開始し、デバイスまたはシステムは、ある種類の処理を実施し、これは、手話処理に関連する場合とそうではない場合がある。ブロック１４９４では、デバイスまたはシステムは、テキストがウェアラブルシステムから受信されたかどうかを決定することができる。該当しない場合、プロセスは、ブロック１４９２に戻ることができる。該当する場合、プロセスは、ブロック１４９６に進むことができる。ブロック１４９６では、デバイスまたはシステムは、テキストをウェアラブルシステムから受信し、テキストをレンダリングすることができる。プロセスは、次いで、ブロック１４５６に進むことができる。レンダリングデバイスが、ＨＭＤを備える場合、レンダリングデバイスは、テキストをユーザの物理的環境上にオーバーレイされる仮想コンテンツとして提示することができる。ブロック１４５６－１４８０における処理は、図１４Ｂに関連して上記に説明されるように、同様に進むことができる。

図１５は、感覚式アイウェアシステムを用いた対人通信を促進するための別の例示的プロセスを図示する。例示的プロセス１５００は、本明細書に説明されるウェアラブルシステム２００の１つ以上のコンポーネント（例えば、単独で、または組み合わせて、ローカル処理およびデータモジュール２６０、遠隔処理モジュール２７０）によって実施されてもよい。図１２を参照して説明されるように、本図１５に説明されるステップのうちの１つ以上のものは、例えば、別のユーザのウェアラブルシステムまたは第三者のサーバシステム等、ユーザのウェアラブルシステムの一部ではない、１つ以上のコンピューティングデバイスによって実施されることができる。

ブロック１５１０では、ウェアラブルシステムは、環境内の発話を識別および認識することができる。発話は、手話の形態であってもよい。例えば、ウェアラブルシステムは、外向きに面した結像システム４６４によって入手されたデータを分析し、手話の一部である、手のジェスチャを識別することができる。ウェアラブルシステムはまた、オーディオセンサ２３２によって入手されたオーディオデータを分析することができ、これは、ユーザの環境内の人物による発話を含んでもよい。ウェアラブルシステムは、オブジェクト認識装置７０８を使用して、発話を認識することができる。例えば、ウェアラブルシステムは、オブジェクト認識装置を使用して、手話の画像を分析することによって、語句または単語の存在を認識することができる。ウェアラブルシステムはまた、図７に説明される種々の発話認識アルゴリズムを使用して、オーディオデータを認識することができる。

ブロック１５２０では、ウェアラブルシステムは、標的言語を識別することができる。標的言語は、ウェアラブルシステムのユーザが通信するために使用する、言語であってもよい。例えば、ユーザは、英語を使用して他の人々と通信し得る一方、認識されたオリジナル発話（別のユーザによって使用される）は、手話である。標的言語はまた、ユーザまたはウェアラブルシステムによって選択された言語であってもよい。例えば、ユーザは、ユーザが別の言語を話す場合でも、ユーザが、手話を使用して、別の人物と通信することを所望し得るため、ＡＳＬを標的言語として選択してもよい。別の実施例として、ウェアラブルシステムは、ユーザの場所に基づいて、言語を自動的に選択してもよい。例えば、ウェアラブルシステムは、ユーザが滞在している国を決定し、その国の公用語を標的言語として選択することができる。

ブロック１５３０では、ウェアラブルシステムは、検出された発話を標的言語に変換することができる。ウェアラブルシステムは、例えば、辞書翻訳等の本明細書に説明される種々の技法を使用し、そのような変換を実施することができる。

ブロック１５４０では、ウェアラブルシステムは、ウェアラブルシステムのユーザへの提示のために、変換された発話と関連付けられた視聴覚コンテンツを決定することができる。一実施例として、視聴覚コンテンツは、標的言語におけるテキストを含んでもよい。別の実施例として、視聴覚コンテンツは、標的言語におけるオーディオストリームであってもよく、変換された発話は、発話された言語である。さらに別の実施例として、視聴覚コンテンツは、標的言語が手話である場合、グラフィックまたは動画であってもよい。

随意のブロック１５５０では、ウェアラブルシステムは、提示のために、視聴覚コンテンツを頭部搭載型ディスプレイに通信することができる。例えば、視聴覚コンテンツは、１人のユーザのウェアラブルシステムから別のユーザのウェアラブルシステムに通信されてもよい。本実施例では、第１のユーザのウェアラブルシステムは、第１のユーザを捕捉し、発話を標的言語に変換し、変換された発話を第２のユーザのウェアラブルシステムに通信することができる。
（環境と相互作用するためのツールとしての例示的感覚式アイウェアシステム）

別の人物によるジェスチャを認識することに加えて、またはその代替として、本明細書に説明されるウェアラブルシステムはまた、例えば、図７を参照して説明される種々のテキスト認識アルゴリズムを用いて、環境内の標識を認識することができる。ウェアラブルシステムはまた、テキストを修正し（例えば、表示特性またはテキストのコンテンツを修正する）、修正されたテキストをユーザの物理的環境上にレンダリングすることができる。例えば、修正されたテキストは、ユーザが、オリジナルテキストではなく、修正されたテキストを知覚するであろうように、オリジナルテキストにオーバーレイし、それをオクルードするようにレンダリングされてもよい。
（テキストの表示特性を修正する実施例）

図１６Ａ－１６Ｅは、環境内のテキストを認識し、テキストと関連付けられた表示特性を修正し、修正されたテキストをレンダリングするように構成される、感覚式アイウェアシステムのための例示的ユーザ体験を図示する。図１６Ａを参照すると、ユーザ２１０は、ウェアラブルシステム（図１６Ａには図示せず）を装着することができ、ディスプレイ２２０を介して、環境内の物理的オブジェクト１６０６が見え得る。ウェアラブルシステムは、外向きに面した結像システム４６４を含むことができ、これは、画像１６０２内にオブジェクト１６０６を備える、画像１６０２を捕捉することができる。外向きに面した結像システム４６４に加え、またはその代替として、ウェアラブルシステム２００は、他のセンサまたはデバイスを使用して、物理的オブジェクトの画像を捕捉することができる。例えば、ユーザ入力デバイス４６６（例えば、トーテム）は、結像能力を有してもよく、画像１６０２を捕捉することができ、これは、オブジェクト１６０６の画像を含む。オブジェクト１６０６は、手書き文字、表音文字、記号、または表意文字１６１０をその上または中に含有し得る、標識または他のオブジェクトを含んでもよい。例えば、表音文字が、オブジェクト上に書かれている、またはオブジェクトから、それとともに成形される、もしくはそれに内蔵されてもよい。テキストはまた、静的または点滅光のシーケンス、もしくは１つ以上の物理的オブジェクトの配列であってもよい。図１６Ａ－１６Ｅに示される実施例では、オブジェクト１６０６は、交通一時停止標識である。他の実施例では、限定ではないが、オブジェクト１６０６は、任意のタイプの表記（例えば、商業用または公共看板）、書籍、雑誌、紙片、コンピュータディスプレイ画面、テレビ画面等であり得る。

ウェアラブルシステム２００は、例えば、図７を参照して説明されるように、１つ以上のオブジェクト認識装置７０８を使用して、画像１６０２を分析し、オブジェクト１６０６を認識することができる。一実施例として、ウェアラブルシステムは、オブジェクト１６０６が交通標識であることを認識することができる（例えば、図１６Ａでは八角形である、オブジェクト１６０６の形状に基づいて）。別の実施例として、ウェアラブルシステムは、オブジェクト１６０６内のテキストの存在を認識することができる。ウェアラブルシステムは、テキストのフォーマットにかかわらず、テキストを認識することができる（例えば、テキストがオブジェクト上にある、またはテキストを投影する光のシーケンス（例えば、ネオンライト、ＬＥＤライト等）によって表されるかどうかにかかわらず）。

図１８を参照してさらに説明されるであろうように、ある実施形態では、ウェアラブルシステム２００は、テキストの意味を認識し、テキストをオリジナル言語から標的言語に変換することができる。例えば、ウェアラブルシステム２００は、例えば、英語、中国語、スペイン語、ドイツ語、アラブ語、ヒンディー語等、種々の言語からの表音文字、記号、または表意文字を識別し、オリジナルの表示される言語からのテキストを別の言語に翻訳することができる。いくつかの実施形態では、そのような翻訳は、以前に規定された設定（例えば、ユーザの選好またはユーザの人口統計もしくは地理的情報等）に従って自動的に生じることができる。いくつかの実施形態では、翻訳は、ユーザからのコマンド（例えば、口頭またはジェスチャ）に応答して行われることができる。

ウェアラブルシステム２００は、オブジェクト認識装置７０８を使用して、テキスト１６１０の特性を分析することができる。例えば、ウェアラブルシステム２００は、テキスト１６１０と関連付けられたフォントサイズまたは書体を認識することができる。ウェアラブルシステムは、テキスト１６１０の特性を調節し、修正されたテキストを生成することができる。例えば、ウェアラブルシステム２００は、テキスト１６１０のサイズを調節し、テキスト１６１０を拡大または縮小してもよい。修正されたテキストのサイズは、部分的に、眼２１０からオリジナルテキスト１６１０までの距離またはユーザの特性に依存してもよい。例えば、テキスト１６１０が、ユーザから遠く離れている場合、ウェアラブルシステムは、テキスト１６１０を拡大することができる。別の実施例として、ユーザの眼の能力に応じて、システムは、テキストのサイズを調節する方法に関する決定を行うことができる。ウェアラブルシステムは、ユーザから以前に入手された情報に基づいて、人物の眼の能力を決定することができる。例えば、ユーザは、眼の任意の視覚問題が存在するかどうかを入力することができる。ウェアラブルシステムはまた、視覚試験をユーザに実施し（例えば、仮想オブジェクトを異なる深度平面およびサイズにおいて表示し、ユーザが仮想オブジェクトを明確に知覚することができるかどうかを決定することによって）、ユーザの眼の能力を決定することができる。ユーザの眼の能力に基づいて、ウェアラブルシステムは、テキストの特性（例えば、距離／場所、色、サイズ、フォント等）に基づいて、ユーザがテキスト１６１０を知覚する可能性が高いであろうかどうかを決定することができる。例えば、ウェアラブルシステムは、ウェアラブルシステムが、ユーザがテキストを明確に知覚することができないことを決定する場合（例えば、テキストが焦点からずれているとき）、テキストを拡大または太字にすることができる。ユーザが近視であるが、テキストがユーザから遠く離れている場合、ウェアラブルシステムは、ユーザがテキストをより容易に知覚し得るように、テキストのサイズを拡大することができる。サイズ調節は、近視の程度に対応してもよい。サイズは、ユーザの近視の程度が大きい場合、より大きい拡大率と関連付けられてもよい一方、サイズは、ユーザの近視の程度が小さい場合、より小さい拡大率と関連付けられてもよい。本明細書にさらに説明されるように、ウェアラブルシステムはまた、ユーザの眼の能力に基づいて、修正されたテキストの表示場所を変化させることができる。図３を参照すると、ディスプレイシステム２２０は、複数の深度平面を含むことができる。ユーザが遠視であるが、テキストがユーザに近接する場合、ウェアラブルシステムは、修正されたテキストがユーザから遠く離れて現れるように、修正されたテキストをオリジナル深度平面よりユーザから遠く離れた深度平面３０６にレンダリングすることができる。サイズ調節は、テキストのフォントサイズを変化させることによって生じることができる（例えば、テキストが文字列として認識される場合）。サイズ調節はまた、テキスト１６１０を含有する画像１６０２の一部をズームインまたはアウト（例えば、デジタルズーム）することによって生じることができる（例えば、テキストが、テキスト文字列ではなく、画像として分析される場合）。

ウェアラブルシステム２００は、修正されたテキストをユーザにレンダリングすることができる。図１６Ａを継続して参照すると、ＨＭＤを装着しているユーザには、オブジェクト１６０６のレンダリングされたバージョン１６１８を含有する、仮想画像１６１４（ＨＭＤによってレンダリングされるように）が見え得る。いくつかの実装では、オブジェクト１６０６のレンダリングされたバージョン１６１８は、オリジナルテキストをオクルードすることができる。図１６Ａに示されるように、レンダリングされたテキスト１６２２は、「ＳＴＯＰ（一時停止）」であって、オリジナルテキスト１６１０と比較して拡大されている。ＨＭＤは、拡大されたテキスト１６２２をオリジナルテキスト１６１０上にオーバーレイされるようにレンダリングすることができ、したがって、ユーザは、オリジナルテキスト１６１０を知覚し得ない。本実施例では、テキストサイズを増加させることによって、ユーザは、有利には、実際には、はるかに小さく、知覚が困難であり得る、下層テキスト１６１０をより容易に知覚し、理解し、それに応答することができる。

図１６Ｂは、ユーザの環境内のテキストの特性を修正する別の実施例を図示する。レンダリングされたテキスト１６３４によって示されるように、ウェアラブルシステム２００は、オリジナルテキスト１６１０のフォントを太字にすることができる。フォントを太字にすることに加え、またはその代替として、例えば、テキスト色、陰影、輪郭、フォーマット（例えば、イタリック体、下線、アライメント、両端揃え等）等を変化させること等、オリジナルテキスト１６１０への他の改変も、同様に行われることができる。ウェアラブルシステム２００は、レンダリングされたテキスト１６３４を点滅、回転させる等、テキスト１６１０と関連付けられたグラフィック要素を追加（または修正）してもよい。

図１６Ｃは、修正されたテキストを焦点インジケータ１６４０とともにレンダリングする実施例を図示する。焦点インジケータ１６４０は、黒丸、十字線、後光、色、知覚される深度の変化（例えば、レンダリングされたテキストをより近くに現れさせる）、テキストの背景の追加または変化、動画、または他の視覚的効果等の視覚的効果を備えることができ、これは、ユーザの注意を引き付ける。図１６Ｃに示される実施例では、ウェアラブルシステム２００は、焦点インジケータ１６４０をテキスト１６３８がレンダリングされる背景１６５０として表示するように構成されてもよい。背景１６５０は、境界領域１６４２と、内側領域１６４６とを備えることができる。境界領域１６４２は、内側領域１６４６を境界することができる。示される実施形態では、仮想表音文字１６３８が、内側領域１６４６内に表示される。テキスト背景１６５０は、テキスト背景１６５０が、ユーザにＨＭＤを伴わずに見えないであろうものと異なる背景であるように、表示される画像１６１４内にレンダリングされることができる。いくつかの実施形態では、内側領域１６４６および境界領域１６４２のうちの１つ以上のものは、モノクロ（例えば、白色、黒色、または灰色）である。システムは、オリジナルテキスト１６１０ではなく、レンダリングされたテキスト１６３８が、ユーザによって見えるように、背景１６５０を改変することができる。例えば、背景は、オリジナルテキスト１６１０をオクルードし得るように、不透明であってもよい。処理電子機器はまた、画像１６１４の残りの中に混成するように、背景１６５０を表示するように構成されることができる。例えば、背景１６５０は、画像１６１４の残りと同一色およびテクスチャ効果を有してもよい。ウェアラブルシステムはまた、例えば、後光をテキスト１６３８または背景１６５０の周囲に表示する等、テキスト１６３８または背景１６５０をハイライトするように、背景１６５０およびテキスト１６３８を表示することができる。そのような場合、背景１６５０は、画像１６１４の残りの中にシームレスに統合し得ない。例えば、内側領域１６４６は、背景１６５０またはテキスト１６３８を強調するために、境界領域１６４２によって輪郭が付けられ得る。

ある状況下では、オリジナルテキストの視覚的外観は、例えば、ユーザとオブジェクト１６０６との間の環境効果（例えば、雨、霧）のため、明確ではない場合がある。図１６Ｄは、より読みやすいように、テキストの特性を修正し、修正されたテキストをレンダリングする実施例を図示する。本図では、テキスト１６２６は、ユーザ２１０にぼけて現れる。テキストは、種々の理由から、ぼけて知覚され得る。例えば、低視力を伴うユーザは、特定の距離においてテキストがはっきり見えない場合がある。近視を伴うユーザは、近傍に現れるテキストの画像が比較的に明確である一方、遠くに現れるテキストがぼけることを見出し得る。同様に、遠視を伴うユーザには、遠くに現れるテキストが明確に見え得る一方、近傍に現れるテキストに合焦させることが困難である。しかし、眼条件は、画像がぼけて現れ得る唯一の理由ではあり得ない。眼２１０が遠近調節することができるものより近くまたはより遠くに現れるテキストもまた、ぼけて現れ得る。テキストが、ユーザに対して急速に移動するように現れる場合、テキスト１６２６は、ぼけて現れ得る。気候または天候要因ならびに画像を入手したカメラの分解能等の上記に説明されるもの以外の要因もまた、一因となり得る。

本実施例では、ウェアラブルシステム２００は、ぼけたテキスト１６２６またはそうでなければ読取が困難であるテキストをより明確にまたはより読みやすくすることができる。テキストが、ユーザにぼけて現れるが、ウェアラブルシステムによって受信された画像ではそうではない場合、ウェアラブルシステムは、図１３Ａを参照して説明される類似技法を使用して、外向きに面した結像システム４６４または別のデバイス（例えば、ユーザ入力デバイス４６６または車載カメラ等のウェアラブルシステムの外部のカメラ等）によって入手された画像を分析し、テキスト１６２６を識別することができる。ウェアラブルシステムは、事実上、テキスト１６３０によって示されるように、テキストをレンダリングすることができる。ある実装では、ウェアラブルシステムは、ユーザまたは環境の条件に基づいて、仮想テキスト１６３０の特性を調節することができる。例えば、ユーザが、近視である場合、ウェアラブルシステムは、テキスト１６２６のフォントを拡大する、またはユーザのより近く（例えば、より近い深度平面上）に現れるようにテキストをレンダリングすることができる。別の実施例として、環境が暗いとき、ウェアラブルシステムは、テキスト１６３０と仮想画像１６１４の他の領域との間のコントラスト比を増加させることができる。

いくつかの状況では、テキスト１６２６は、ウェアラブルシステムによって取得される画像１６０２がぼけているため（例えば、高速運転速度に起因して、またはカメラの分解能が低いとき）、ぼけて現れる。本明細書に説明されるように、ウェアラブルシステムは、オブジェクト認識装置７０８を使用して、ぼけたテキスト１６２６の存在を識別することができる。例えば、ウェアラブルシステムは、オブジェクト１６０６内または上のテキストの存在に関する尤度を決定することができる。いくつかの状況では、尤度が閾値を超える場合、ウェアラブルシステムは、例えば、ＯＣＲアルゴリズム等の図７を参照して説明される、１つ以上のテキスト認識アルゴリズムを使用して、ぼけたテキスト１６２６に対応する最も可能性が高い表音文字１６３０を識別することができる。

図１６Ｅは、オリジナルテキスト１６１０が、障害物１６５４に起因して、部分的に判読不能であるときのシナリオを図示する。示されるように、障害物１６５４は、オリジナル画像１６０２内のオリジナルテキスト１６１０の一部を被覆する。しかしながら、障害物１６５４は、１つ以上の種々の形態をとることができる。例えば、障害物１６５４は、例えば、支柱、建物等、眼２１０またはディスプレイと画像１６０２との間のある物理的障害物であり得る。障害物１６５４はまた、上記に説明されるもの等の環境または天候障害物であり得る。障害物１６５４はまた、オブジェクト１６０６上にあり得る（例えば、テキスト１６１０の一部が、標識１６０６上の別のオブジェクトによってオクルードされる、またはテキスト１６１０の一部が、消去される、欠損している、またはステッカーによって被覆される）。これは、例えば、蓄積された埃または泥を有する表面、書字１６１０が見出されるオブジェクト１６０６の表面への損傷、インクのしみ（例えば、プリンタから）、オリジナルテキスト１６１０内の歪曲、または任意の他の類似障害物１６５４を含み得る。

システムは、オリジナルテキスト１６１０が伝える内容を決定する際、コンテキスト情報（時として、本明細書では、コンテキスト手掛かりとも称される）を使用してもよい。本明細書に説明される種々のコンテキスト手掛かりが、個々に、または組み合わせて、ウェアラブルシステムによって使用され、テキスト１６１０に関する完全テキストを決定してもよい。例示的コンテキスト手掛かりは、ユーザの場所である。例えば、上記に説明されるように、ＧＰＳシステム３７（図２Ｂ参照）は、ユーザの場所データを入手することができ、場所データに基づいて、ウェアラブルシステムは、テキストの言語に関する初期推量を提供することができる。適用可能である場合、いくつかの実施形態では、ウェアラブルシステムは、付加的情報を可視スペクトル外の波長（例えば、赤外線、紫外線）における１つ以上の光源から受信された信号から得てもよい。例えば、ウェアラブルシステムは、紫外線光を標識１６０６に向かって放出し、紫外線光下のみで可視の表記情報を露見させてもよい（または別の源（例えば、太陽）によって表記から反射された紫外線光を検出してもよい）。いくつかの実施形態では、システムは、システムがオリジナルテキスト１６１０の可視部分をチェックし得る、単語のデータベースへのアクセスを有する。そのような実施例では、ウェアラブルシステム２００は、表音文字の候補または最も可能性が高い単語を決定可能であり得る。例えば、図１６Ｅに示されるように、システムは、部分的に、オブジェクト１６０６の八面体形状またはオブジェクト１６０６の赤色（図示せず）に起因して、表音文字が「ＳＴＯＰ（一時停止）」であると推測する。

ウェアラブルシステムは、コンテキスト手掛かりとして、周囲の単語、記号、句読点、または表意文字に依拠し、オリジナルテキスト１６１０が伝える内容を決定可能であり得る。ある実施形態では、システムは、例えば、機械学習技法を使用して、場所特有のコンテキスト手掛かりを識別可能である。例えば、システムは、ユーザが路上を運転中であって、路上標識上で頻繁に使用される単語に対するテキストの識別に先入観があり得ることを検出可能であり得る。ウェアラブルシステムは、ローカル処理およびデータモジュール２７０または遠隔処理モジュール２８０（例えば、図２Ａ参照）によってアクセスされ得る、データベースを備えてもよい。データベースは、ユーザが従事している特定のアクティビティ（例えば、スキー）、ユーザの地理的場所、ユーザの進行速度、ユーザの高度、システムによって受信される周囲雑音の音量またはタイプ、システムによって受信されたエリア内の可視または他の光のレベルまたはタイプ、システムの周囲の温度または気候、ユーザからのテキストの知覚された距離、もしくはシステムが取り上げる別の当事者によって発話された単語のカテゴリまたは複数のカテゴリと関連付けられた単語のカテゴリを記憶してもよい。いくつかの実施形態では、ウェアラブルシステムは、本情報をコンテキスト手掛かりとして使用して、上記に説明される１つ以上の関連付けに従って、ユーザによって視認されるテキストの単語または言語に関して可能性がより高い候補をより正確に絞り込むことができる。いくつかの実施形態では、ウェアラブルシステムは、機械学習アルゴリズム（例えば、深層ニューラルネットワーク）を使用して、種々の状況における以前の単語から「学習」し、本状況に基づいて、可能性が高い単語を識別することができる。故に、本学習を実施することによって、ウェアラブルシステム２００は、ユーザの挙動に具体化されることができ、テキストをより迅速または効率的に決定することができる。

図１６Ａ－１６Ｅに説明される実施例では、システムは、ユーザからのオリジナル表音文字が現れる知覚された距離に基づいて、テキストを表示すべき深度を決定することができる。オリジナル表音文字とユーザとの間の知覚された距離は、立体視アルゴリズムを適用する（例えば、外向きに面した結像システムによって入手されたデータに）、または深度センサ（例えば、ライダ）によって入手されたデータを分析する等によって、種々の技法を使用して測定されてもよい。立体視アルゴリズムは、ブロックマッチングアルゴリズム、セミグローバルマッチングアルゴリズム、セミグローバルブロックマッチングアルゴリズムアルゴリズム、視差マップ、三角測量、深度マップ、ニューラルネットワークアルゴリズム、同時位置特定およびマッピングアルゴリズム（例えば、ＳＬＡＭまたはｖ－ＳＬＡＭ）等を含むことができる。ユーザに近接して知覚される表音文字は、ディスプレイシステム２２０上の近傍深度に表示されてもよい。いくつかの実施形態では、ユーザから第１の距離閾値（例えば、約８００ｃｍ）より近くに現れる表音文字は、第１の深度において、システム上に表示される。いくつかの実施形態では、第１の距離閾値は、約２００ｃｍより近くに現れる表音文字が第１の深度に表示されるように、２００ｃｍである。いくつかの実施形態では、第１の距離閾値は、約８０ｃｍである。表音文字が第１の深度にあるかのように表示されるかどうかまたは使用される第１の距離閾値は、いくつかの要因に依存し得る。１つの要因は、システムが表示可能な異なる深度の数であり得る。例えば、実施形態がオブジェクトを２つの異なる深度にのみ表示する場合、より短い第１の距離閾値が、使用されてもよい一方、実施形態がテキストをより多数の異なる深度に表示し得るとき、より小さい範囲が、使用されてもよい。例えば、ユーザが、新聞を読んでいる場合、システムは、テキストをユーザの近くに知覚し、したがって、新聞上の表音文字は、近い深度にあるかのように、システム上に表示されるであろう。図３に示されるように、ディスプレイシステム２２０は、複数の深度平面３０６を備えてもよく、これは、仮想オブジェクトをユーザから異なる距離に現れさせることができる。ある実装では、ウェアラブルシステムは、ユーザの眼の能力に基づいて、修正されたテキストのレンダリング場所を調節することができる。例えば、ユーザが、近視である場合、ウェアラブルシステムは、修正されたテキストを、テキストが元々対応する深度平面よりユーザに近い深度平面にレンダリングすることができる。別の実施例として、ユーザが、遠視である場合、ウェアラブルシステムは、修正されたテキストを、オリジナルテキストが現れる場所よりユーザから遠く離れた深度平面にレンダリングすることができる。

同様に、ユーザから遠くに知覚される表音文字は、ディスプレイシステム上の遠い深度に表示されてもよい。いくつかの実施形態では、ユーザからほぼ第２の距離閾値より遠くに現れる表音文字は、第１の深度より遠く離れて現れる第２の深度においてシステム上に表示される。いくつかの実施形態では、第２の距離閾値は、約３００ｃｍである。いくつかの実施形態では、第２の距離閾値は、約６００ｃｍである。いくつかの実施形態では、第２の距離閾値は、約１０ｍである。例えば、運転中に広告板上で視認されるテキストは、第２の深度にレンダリングされてもよい。

第１および第２の距離閾値間の差異は、種々の実施形態において異なり得る。差異の大きさは、例えば、システムがテキストを表示することができる深度の数、実世界オブジェクトまたはテキストから距離を知覚するシステムの能力の精度または正確度、もしくは手動または工場設定等のいくつかの要因に基づき得る。いくつかの実施形態では、差異は、１００ｍ未満である。いくつかの実施形態では、差異は、７００ｃｍ未満である。いくつかの実施形態では、差異は、３０ｃｍ未満である。ある実施形態では、差異は、ゼロである（例えば、第１の距離閾値および第２の距離閾値は、同一である）。

いくつかの実施形態では、システムは、負の差異を取り扱うことが可能である。すなわち、オブジェクトまたはテキストが第１の深度および第２の深度の両方に表示されるための基準に適合する、ある重複が存在する。そのような実施形態では、ウェアラブルシステムは、コンテキスト手掛かりを使用して、最もシームレスな視認体験をユーザに提供するであろう深度を決定することができる。例えば、最初に、ユーザに近接して現れるが、ユーザから離れるように急速に移動する、オブジェクトは、最初に、第１の深度に表示されるための基準に適合し得る。しかしながら、システムは、オブジェクトの場所の機動のため、オブジェクトを第２の深度に表示するであろうことを決定し得る。

ウェアラブルシステムのいくつかの実施形態は、テキストを３つ以上の深度に表示可能である。そのような場合、第１および第２の深度間の第３、第４等の深度に対応する、中間距離閾値または距離の範囲が、含まれることができる。例えば、いくつかの実施形態では、テキストは、表音文字が、例えば、ディスプレイ２２０から約１００ｃｍ～３００ｃｍ離れるように現れるとき、第３の深度にレンダリングされてもよい。

ウェアラブルシステム２００は、自動的に、またはユーザ入力に応答して、テキストを画像から識別または認識するように構成されることができる。テキストが自動的に識別される、実施形態では、ユーザは、画像をテキストとともに視認することができ、システムは、ユーザによるコマンドを伴わずに、本明細書に説明されるように、テキストを識別および表示することができる。テキストがユーザ入力に応答して識別される、実施形態では、ユーザは、種々のコマンドを使用して、テキストの識別または表示を開始することができる。例えば、コマンドは、口頭キュー、手のジェスチャ、頭部運動（例えば、点頭）、眼移動（例えば、瞬目）等であってもよい。
（テキストの表示特性を修正する例示的プロセス）

図１７は、環境とのユーザの相互作用を促進するための感覚式アイウェアの例示的プロセスを図示する。プロセス１７００は、ウェアラブルシステム２００の１つ以上のコンポーネント（例えば、単独で、または組み合わせて、ローカル処理およびデータモジュール２６０、遠隔処理モジュール２７０）によって実施されることができる。

ブロック１７０４では、ウェアラブルシステムは、１つ以上のカメラを通して、光学信号を受信することができる。１つ以上のカメラは外向きに面した結像システム４６４の一部または車載カメラもしくはユーザ入力デバイス４６６等の別のコンピューティングデバイスの一部であってもよい。

ブロック１７０８では、ウェアラブルシステムは、画像を信号から識別するステップを含むことができる。例えば、ウェアラブルシステムは、光学信号をヒト可読画像に変換することができる。いくつかの実施形態では、画像を信号から識別するステップはまた、例えば、１つ以上のオブジェクト認識装置７０８を使用して、光学文字認識（ＯＣＲ）を画像に実施する等、画像のコンテンツを認識するステップを含むことができる。ある実施形態では、光学文字認識プロセスは、１つ以上の表音文字または表意文字のテキストまたは言語の可能性が高い候補を識別するステップを含む。光学文字認識プロセスは、種々のコンテキスト情報（例えば、コンテキスト手掛かり）を使用して、認識を実施してもよい。いくつかの例示的コンテキスト情報は、ユーザまたはユーザの近傍の他者が従事しているアクティビティ、ユーザの地理的場所、ユーザの現在の進行速度、ユーザの現在の高度、システムによって受信される周囲雑音の音量またはタイプ、ディスプレイシステムによって受信されたエリア内の可視または他の光のレベルまたはタイプ、ディスプレイシステムによって検出された温度または気候、ユーザからの表意文字または表音文字の知覚された距離、もしくはディスプレイによって検出された単語のカテゴリまたはジャンルを含んでもよい。

図１７を継続して参照すると、プロセス１７００はさらに、ブロック１７１２に示されるように、画像が表音文字または表意文字を含むかどうかを決定するステップを含むことができる。いくつかの実施形態では、プロセス１７００が、画像が表音文字または表意文字を備えていないことを決定する場合、プロセスは、ブロック１７０４に戻ることができる。プロセス１７００が、画像が表音文字または表意文字を含むことを決定する場合、方法は、ブロック１７１６に継続する。

ブロック１７１６では、ウェアラブルシステムは、表音文字または表意文字をテキストに変換することができる。これは、例えば、テキストを第１の言語と異なる第２の言語において表示するステップを含むことができる（図１８および１９を参照してさらに説明されるように）。いくつかの実施形態では、１つ以上の表音文字または表意文字（画像から）をテキストに変換するステップは、ユーザまたは別の人物からの入力またはコマンドの受信に応答して行われることができる。そのような入力またはコマンドは、例えば、口頭コマンド、手のジェスチャ、頭部の運動、またはユーザの眼のうちの一方または両方の移動等の種々のモードを含むことができる。これらの実施例は、限定と見なされるべきではない。

ブロック１７２０では、ウェアラブルシステムは、ディスプレイに、ユーザから複数の深度のうちの第１の深度に現れるようにテキストをレンダリングするように命令することができる。いくつかの実施形態では、テキストを表示するステップは、光学的に透過性の接眼レンズを通して、光をユーザに画像として伝送するステップを含む。接眼レンズは、本明細書に説明されるもののいずれかであることができる。例えば、光は、ユーザの眼の中に指向され、画像を眼内に形成し得る。ウェアラブルシステムは、本明細書に説明されるように、ファイバ走査プロジェクタまたは他のプロジェクタを使用してもよい。いくつかの実施形態では、方法は、場所データをＧＰＳシステム３７（図２Ｂを参照して説明される）から受信してもよい。本場所データは、図１６Ａ－１６Ｅを参照して本明細書にさらに説明されるように、システムが画像から抽出されたテキストを推測することに役立てるために使用されることができる。

ウェアラブルシステムはまた、テキストを修正し、修正されたテキストをレンダリングすることができる（例えば、ディスプレイ２２０からの光をユーザの眼に向かって投影する）。例えば、方法は、オリジナル表音文字または表意文字に対して、異なるフォント、フォントサイズ、色、背景または背景色、フォーマット、明確性のレベル、言語、または明度において、テキストを表示することができる。いくつかの実施形態では、方法は、テキストを動画化するステップまたはテキストと相互作用する仮想オブジェクトを組み込むステップを含むことができる。
（表記のコンテンツを修正する実施例）

テキストの表示特性を修正することに加え、またはその代替として、ウェアラブルシステムはまた、例えば、テキストをから１つの言語から別の言語に翻訳し、修正されたテキストを表示すること等によって、テキストのコンテンツを修正することができる。図１８は、表記のコンテンツを修正することによって、ユーザが物理的環境内の表記を理解することを補助する実施例を図示し、表記は、ローカル言語からウェアラブルシステムのユーザが理解可能な標的言語に翻訳される。

図１８は、２つの場面１８００ａおよび１８００ｂを図示する。場面１８００ａは、本明細書に説明されるＨＭＤを装着せずに、ユーザによって知覚されることができる。場面１８００ｂは、ＨＭＤを装着しているユーザによって知覚されることができる（例えば、ディスプレイ２２０を通して、説明される翻訳プロセスを伴わずに）。図示されるように、両場面１８００ａおよび１８００ｂは、路上１８０２と、歩行者１８０４とを含む。場面１８００ａはまた、路上標識１８１０ａおよび１８２０ａを示し、これは、簡体字中国語表意文字を含む。標識１８２０ａはまた、英語表意文字を含む。しかしながら、ＨＭＤのユーザ（図１８には図示せず）は、英語話者であり得、中国語表意文字を理解し得ない。有利には、いくつかの実施形態では、ウェアラブルシステムは、路上標識１８１０ａおよび１８２０ｂ上のテキストを自動的に認識し、路上標識の外国語言語テキスト部分をユーザが理解する言語に変換することができる。ウェアラブルシステムはまた、場面１８００ｂに示されるように、翻訳された表記を仮想画像として物理的標識にわたって提示することができる。故に、ユーザは、ＨＭＤが、下層中国語テキストが知覚されないような十分な明度を伴って、仮想画像を表示するため（英語テキストを用いて）、標識１８１０ａ、１８２０ａ内の中国語テキストを知覚せず、代わりに、標識１８１０ｂ、１８２０ｂに示される英語テキストを知覚するであろう。

ＨＭＤ（例えば、ウェアラブルシステム２００）は、図１６Ａ－１７を参照して説明されるような類似技法を使用して、ユーザの環境内の標識を識別し、標識を認識することができる。いくつかの状況では、ウェアラブルシステム２００は、標識の一部のみを翻訳するように構成されてもよい。例えば、ウェアラブルシステム２００は、英語部分がユーザによって理解され得るため（例えば、ユーザの標的言語であるため）、中国語テキストを有する標識１８２０ａの部分のみを翻訳し、英語テキスト（「ＧＯＬＤＳＴＡＲ」）を有する標識１８２０ａの部分を翻訳しない。しかしながら、ユーザが英語および簡体字中国語の両方を読むことができるような、ユーザがバイリンガルである状況では、ウェアラブルシステム２００は、標識１８１０ａおよび１８２０ａ上のいずれのテキストも標識１８１０ｂおよび１８２０ｂに翻訳しないように構成されてもよい。

図１６Ａ－１６Ｅを参照して説明されるように、ウェアラブルシステム２００は、標識の表示特性を調節するように構成されることができる。例えば、標識１８２０ａの中国語部分の翻訳から生じたテキストは、標識１８２０ａ上のオリジナル中国語表意文字より長くなり得る。その結果、ウェアラブルシステムは、レンダリングされたテキスト（標識１８２０ｂに示されるように）がオリジナル標識の境界内に適合し得るように、翻訳されたテキスト（例えば、「ショッピングセンター」）のフォントサイズを縮小させてもよい。

図１８は、簡体字中国語および英語表意文字を示すが、これは、例証のためのものであって、限定ではない。ウェアラブルディスプレイシステム２００の実施形態によって認識および変換される言語は、例えば、英語、中国語（簡体字または繁体字）、日本語、韓国語、フランス語、スペイン語、ドイツ語、ロシア語、アラブ語、ロマンス諸語、インド・ヨーロッパ語族、シナ・チベット語族、アフロ・アジア語族、ヘブライ語、マレー・ポリネシア語族等の任意の言語を含むことができる。
（表記のコンテンツを修正する例示的プロセス）

図１９は、ユーザが物理的環境内の表記を理解することを補助する例示的プロセスを図示する。例示的プロセス１９００は、ウェアラブルシステム２００の１つ以上のコンポーネント（例えば、単独で、または組み合わせて、ローカル処理およびデータモジュール２６０、遠隔処理モジュール２７０）によって実施されてもよい。

ブロック１９１０では、ウェアラブルシステムは、ユーザの環境の画像を受信することができる。画像は、外向きに面した結像システム４６４、ユーザ入力デバイス４６６、またはウェアラブルシステムの外部の別のデバイス上のカメラによって捕捉されることができる。画像は、静止画像、ビデオのフレーム、またはビデオであってもよい。

ブロック１９２０では、ウェアラブルシステムは、画像を分析し、ユーザの環境内の表記を識別することができる。ウェアラブルシステムは、オブジェクト認識装置７０８を使用して、そのような識別を実施することができる。例えば、オブジェクト認識装置７０８は、オブジェクト上のテキストの存在を検出し、したがって、オブジェクトを標識として分類することができる、または表記の規則的境界を認識することができる（例えば、図１８における長方形標識１８１０ａ、１８１０ｂ）。

ブロック１９３０では、ウェアラブルシステムは、表記１９３０上のテキストを認識することができる。例えば、ウェアラブルシステムは、標識上に存在する表意文字または表音文字を決定することができる。別の実施例として、ウェアラブルシステムは、テキストの言語を決定することができる。ウェアラブルシステムは、例えば、ユーザの場所、統語論、文法、テキストのスペル等、ユーザまたは標識と関連付けられたコンテキスト手掛かりに基づいて、そのような決定を行うことができる。ウェアラブルシステムはさらに、ブロック１９３０において、テキストの意味を決定することができる（例えば、辞書をルックアップすることによって）。

ブロック１９４０では、ウェアラブルシステムは、テキストの少なくとも一部を標的言語に変換することができる。標的言語は、ユーザの選好またはユーザの人口統計情報に基づいて決定されてもよい。例えば、標的言語は、ユーザの母国と関連付けられた公用語、ユーザの母国語、ユーザによって最も頻繁に使用される言語、またはユーザが発話した言語（例えば、ウェアラブルシステムへの音声コマンドまたは別のユーザとの会話において）等であってもよい。標的言語はまた、ユーザの選好にしたがって設定されることができる。例えば、ユーザは、ユーザの母国語がフランス語であっても、標識が英語に翻訳されることを好み得る。

随意のブロック１９５０では、ウェアラブルシステムは、テキストと関連付けられた表示特性を修正することができる。例えば、ウェアラブルシステムは、焦点インジケータをテキスト（またはテキストと関連付けられた背景）に追加し、かつテキストのフォントサイズまたは色を変化させることができる。表示特性の例示的修正は、図１６Ａ－１７を参照してさらに説明される。

随意のブロック１９６０では、ウェアラブルシステムは、複合現実デバイスによって、テキストを標的言語においてレンダリングさせることができる。ＭＲデバイスは、本明細書に説明されるＨＭＤであってもよい。表示特性が、修正される場合、ウェアラブルシステムはまた、修正された表示特性をレンダリングさせることができる。テキストの一部のみが、標的言語に翻訳される状況では、ウェアラブルシステムは、翻訳されたテキストの一部のみを表示するか、または翻訳された部分と翻訳されていないオリジナルテキストの部分の両方を表示するかのいずれかであることができる。修正されたテキストは、オリジナルテキストがユーザのビューからオクルードされ得るように、物理的表記上のオリジナルテキストにわたってレンダリングされてもよい。

図１８および１９における実施例は、表記上のテキストを翻訳することを参照して説明されるが、類似技法はまた、他のタイプの媒体（書籍、テレビ、コンピュータモニタ等）に具現化されるテキストにも適用されることができる。
（手話に関連する付加的側面）

手話における感覚式アイウェアの用途の付加的側面が、以下にさらに提供される。

第１の側面では、拡張現実システムを通して、手話から変換されたテキストを提供するための方法であって、結像システムを備える、拡張現実（ＡＲ）システムの制御下、結像システムを介して、画像情報を捕捉するステップと、画像情報内のジェスチャを検出するステップであって、ジェスチャは、手話認識のための候補である、ステップと、検出されたジェスチャ内の手話を認識するステップと、認識された手話をテキストに変換するステップと、変換されたテキストを表示するステップとを含む、方法。

第２の側面では、変換されたテキストに関する補助情報の要求を受信するステップと、要求される変換されたテキストと関連付けられた補助情報を読み出すステップと、ＡＲシステムを使用して、補助情報を表示するステップと、変換されたテキストまたは補助情報の表示を放逐するための条件を検出するステップと、変換されたテキストまたは補助情報の表示を放逐するステップとをさらに含む、側面１に記載の方法。

第３の側面では、変換されたテキストまたは補助情報の表示を放逐するための条件は、ユーザインターフェース相互作用に基づく、側面２に記載の方法。

第４の側面では、ユーザインターフェース相互作用は、少なくとも部分的に、ＡＲシステムのユーザの眼移動に基づく、側面３に記載の方法。

第５の側面では、変換されたテキストまたは補助情報の表示を放逐するための条件は、少なくとも部分的に、持続時間に基づく、側面２－４のいずれか１項に記載の方法。

第６の側面では、変換されたテキストまたは補助情報の表示を放逐するための条件は、少なくとも部分的に、付加的手話ジェスチャの変換または付加的補助情報の受信に基づく、側面２－５のいずれか１項に記載の方法。

第７の側面では、変換されたテキストまたは補助情報の放逐された表示を再表示するための条件を検出するステップと、変換されたテキストまたは補助情報の放逐された表示を再表示するステップとをさらに含む、側面２－６のいずれか１項に記載の方法。

第８の側面では、認識された手話をテキストに変換するステップは、深層学習技法を適用するステップを含む、側面１－７のいずれか１項に記載の方法。

第９の側面では、深層学習技法は、ニューラルネットワークを含む、側面８に記載の方法。

第１０の側面では、ＡＲシステムは、手話認識およびテキスト変換において、手話辞書を使用する、側面１－９のいずれか１項に記載の方法。

第１１の側面では、ＡＲシステムは、ＡＲシステムのユーザにとって外国語である、手話を認識する、側面１－１０のいずれか１項に記載の方法。

第１２の側面では、ＡＲシステムは、候補手話のリストを吟味することによって、手話を認識し、リストは、少なくとも部分的に、ＡＲシステムの場所に基づいて、優先順位が付けられる、側面１１に記載の方法。

第１３の側面では、ＡＲシステムは、候補手話のリストを吟味することによって、手話を認識し、リストは、少なくとも部分的に、ＡＲシステムの環境内で検出された発話された言語に基づいて、優先順位が付けられる、側面１１－１２のいずれか１項に記載の方法。

第１４の側面では、手話を翻訳するための拡張現実（ＡＲ）装置であって、ＡＲディスプレイと、結像システムと、コンピュータ実行可能命令およびデータを記憶するように構成される、データ記憶装置と、データ記憶装置と通信するプロセッサとを備え、コンピュータ実行可能命令は、実行されると、プロセッサに、結像システムによって捕捉された画像情報を受信させ、受信された画像またはビデオ情報内のジェスチャを検出させ、検出されたジェスチャ内の手話を認識させ、認識された手話をＡＲ装置のユーザによって理解される言語に翻訳させ、ＡＲディスプレイを使用して、翻訳された手話と関連付けられた情報を表示させる、装置。

第１５の側面では、コンピュータ実行可能命令は、実行されると、さらにプロセッサに、翻訳された手話に関する補助情報の要求を受信させ、要求される手話に関連する補助情報を読み出させ、ＡＲディスプレイを使用して、読み出された補助情報を表示させる、側面１４に記載の装置。

第１６の側面では、プロセッサは、ジェスチャを検出し、遠隔プロセッサが、ジェスチャを検出し、手話を認識するために、受信された画像情報を通信ネットワークを通して遠隔プロセッサに伝送することによって、手話を認識する、側面１４－１５のいずれか１項に記載の装置。

第１７の側面では、結像システムは、複数のカメラまたは広角カメラを備える、側面１４－１６のいずれか１項に記載の装置。

第１８の側面では、プロセッサはさらに、検出されたジェスチャ源を決定し、検出されたジェスチャ源がＡＲ装置のユーザであることの決定に応じて、表示のために、翻訳された手話を別のデバイスに伝送するように構成される、側面１４－１７のいずれか１項に記載の装置。

第１９の側面では、オーディオ増幅器をさらに備え、プロセッサはさらに、オーディオ増幅器を通して、翻訳された手話をオーディオとして提示するようにプログラムされる、側面１４－１８のいずれか１項に記載の装置。

第２０の側面では、プロセッサはさらに、オーディオ増幅器を通して、補助情報をオーディオとして提示するように構成される、側面１９に記載の装置。

第２１の側面では、ＡＲ装置のユーザによって理解される言語は、認識された手話と異なる手話を含む、側面１４－２０のいずれか１項に記載の装置。

第２２の側面では、１つ以上の手話を伴う遠隔通信を促進するための拡張現実（ＡＲ）システムであって、それぞれ、ＡＲディスプレイと、結像システムと、通信ネットワークを経由して通信するための通信システムとを備える、複数のウェアラブルＡＲデバイスと、コンピュータ実行可能命令およびデータを記憶するように構成される、１つ以上のデータ記憶装置と、データ記憶装置と通信する、１つ以上のプロセッサとを備え、コンピュータ実行可能命令は、実行されると、複数のウェアラブルＡＲデバイス内の第１のウェアラブルＡＲデバイスの結像システムによって捕捉された画像情報を受信し、受信された画像情報内の手話を検出し、検出された手話をテキストに変換し、通信ネットワークを通して、変換されたテキストを複数のウェアラブルＡＲデバイス内の第２のウェアラブルＡＲデバイスに伝送し、第２のウェアラブルＡＲデバイスのＡＲディスプレイ上に、変換されたテキストを表示するように１つ以上のプロセッサを構成する、システム。

第２３の側面では、第２のウェアラブルＡＲデバイスはさらに、第１のユーザの世界マップを表示する、側面２２に記載のシステム。

第２４の側面では、第１のユーザの世界マップは、第１のユーザのアバタを備える、側面２３に記載のシステム。

第２５の側面では、複数のウェアラブルＡＲデバイスはそれぞれ、１つ以上のデータ記憶装置と、１つ以上のプロセッサとを含み、プロセッサ機能性は、ローカルプロセッサによって実施される、側面２２－２４のいずれか１項に記載のシステム。

第２６の側面では、手話認識のためのウェアラブルシステムであって、仮想コンテンツをユーザに提示するように構成される、頭部搭載型ディスプレイと、ユーザの環境を結像するように構成される、結像システムと、頭部搭載型ディスプレイおよび結像システムと通信し、結像システムによって捕捉された画像を受信し、オブジェクト認識装置を用いて、画像内のジェスチャを検出し、手話におけるジェスチャの意味を認識し、ユーザと関連付けられたコンテキスト情報に基づいて、標的言語を識別し、認識された意味に基づいて、ジェスチャを標的言語に翻訳し、少なくとも部分的に、標的言語へのジェスチャの翻訳に基づいて、仮想コンテンツを生成し、頭部搭載型ディスプレイに、仮想コンテンツをユーザにレンダリングさせるようにプログラムされる、ハードウェアプロセッサとを備える、ウェアラブルシステム。

第２７の側面では、結像システムは、ユーザの周囲を結像するように構成される広角カメラのうちの１つ以上のものを備える、側面２６に記載のウェアラブルシステム。

第２８の側面では、ハードウェアプロセッサはさらに、ジェスチャと関連付けられた補助情報にアクセスするようにプログラムされ、頭部搭載型ディスプレイによってレンダリングされた仮想コンテンツは、補助情報を備える、側面２６－２７のいずれか１項に記載のウェアラブルシステム。

第２９の側面では、ユーザと関連付けられたコンテキスト情報に基づいて、標的言語を識別するために、ハードウェアプロセッサは、ウェアラブルシステムによって捕捉されるようなユーザの発話、ユーザの場所、またはある言語を標的言語として選択するユーザからの入力のうちの少なくとも１つに基づいて、標的言語をユーザによって理解される言語として設定するようにプログラムされる、側面２６－２８のいずれか１項に記載のウェアラブルシステム。

第３０の側面では、ハードウェアプロセッサは、標的言語が発話された言語であるかどうかを決定し、標的言語が発話された言語であることの決定に応答して、標的言語において、翻訳されたジェスチャと関連付けられた発話のオーディオストリームを再生するようにプログラムされる、側面２６－２９のいずれか１項に記載のウェアラブルシステム。

第３１の側面では、ハードウェアプロセッサは、標的言語が別の手話であるかどうかを決定し、標的言語が別の手話であることの決定に応答して、他の手話における別のジェスチャのグラフィックをジェスチャの翻訳として提示するようにプログラムされる、側面２６－２９のいずれか１項に記載のウェアラブルシステム。

第３２の側面では、手話におけるジェスチャの意味を認識するために、ハードウェアプロセッサは、深層ニューラルネットワーク技法を結像システムによって捕捉された画像の一部に適用するようにプログラムされる、側面２６－３１のいずれか１項に記載のウェアラブルシステム。

第３３の側面では、ハードウェアプロセッサはさらに、少なくとも部分的に、ユーザの場所に基づいて、手話を候補手話のリストから識別するようにプログラムされる、側面２６－３２のいずれか１項に記載のウェアラブルシステム。

第３４の側面では、認識された意味に基づいて、ジェスチャを標的言語に翻訳するために、ハードウェアプロセッサは、ジェスチャを標的言語におけるテキスト表現に変換するようにプログラムされる、側面２６－３３のいずれか１項に記載のウェアラブルシステム。

第３５の側面では、ハードウェアプロセッサは、検出されたジェスチャ源を決定し、検出されたジェスチャ源がウェアラブルシステムのユーザであることの決定に応じて、標的言語におけるジェスチャの翻訳を別のユーザのウェアラブルシステムに通信するようにプログラムされる、側面２６－３４のいずれか１項に記載のウェアラブルシステム。

第３６の側面では、ハードウェアプロセッサは、仮想コンテンツを頭部搭載型ディスプレイによる表示から放逐することからの条件を検出し、条件の検出に応答して、仮想コンテンツを頭部搭載型ディスプレイによる表示から除去するようにプログラムされる、側面２６－３５のいずれか１項に記載のウェアラブルシステム。

第３７の側面では、条件は、持続時間、ユーザの手のジェスチャ、またはユーザ入力デバイスからの入力のうちの少なくとも１つを含む、側面３６に記載のウェアラブルシステム。

第３８の側面では、画像は、ビデオの１つ以上のフレームを含む、側面２６－３７のいずれか１項に記載のウェアラブルシステム。

第３９の側面では、手話認識のための方法であって、結像システムによって捕捉された画像を受信するステップと、画像を分析し、ユーザのジェスチャを検出するステップと、少なくとも部分的に、検出されたジェスチャに基づいて、手話における通信の存在を検出するステップと、手話におけるジェスチャの意味を認識するステップと、ジェスチャが翻訳されるであろう標的言語を識別するステップと、認識された意味に基づいて、ジェスチャを標的言語に翻訳するステップと、少なくとも部分的に、標的言語へのジェスチャの翻訳に基づいて、仮想コンテンツを生成し、頭部搭載型ディスプレイに、仮想コンテンツをユーザにレンダリングさせるステップとを含む、方法。

第４０の側面では、画像は、複合現実コンテンツを提示するように構成される、第１のウェアラブルシステムから受信される一方、仮想コンテンツは、レンダリングのために、第２のウェアラブルシステムに通信され、第１のウェアラブルシステムおよび第２のウェアラブルシステムは、複合現実コンテンツをユーザに提示するように構成される、側面３９に記載の方法。

第４１の側面では、認識された意味に基づいて、ジェスチャを標的言語に翻訳するステップは、ジェスチャを標的言語におけるテキスト表現に変換するステップを含む、側面３９に記載の方法。

第４２の側面では、仮想コンテンツは、標的言語におけるテキスト表現または標的言語における別のものを図示するグラフィックを備える、側面３９－４１のいずれか１項に記載の方法。

第４３の側面では、手話におけるジェスチャの意味を認識するステップは、深層ニューラルネットワーク技法を結像システムによって捕捉された画像の一部に適用するステップを含む、側面３９－４２のいずれか１項に記載の方法。

第４４の側面では、手話における通信の存在を検出するステップは、手話を候補手話のリストから識別するステップと、検出されたジェスチャが手話における表現に対応することを決定するステップとを含む、側面３９－４３のいずれか１項に記載の方法。

第４５の側面では、検出されたジェスチャが手話における表現に対応することを決定するステップは、ジェスチャをジェスチャを行っている人物の唇の移動およびユーザがジェスチャを行っている間に捕捉されたオーディオデータと関連させて分析するステップを含む、側面４４に記載の方法。
（テキスト修正に関連する付加的側面）

感覚式アイウェアによるテキストの特性を修正する、付加的側面が、以下にさらに説明される。

第１の側面では、拡張現実画像コンテンツを投影するように構成される、頭部搭載型ディスプレイデバイスであって、ユーザの頭部上に装着可能であるように構成され、ディスプレイをユーザの眼の正面に支持するように構成される、フレームと、光学信号を受信するように構成される、１つ以上のカメラと、信号を１つ以上のカメラから受信し、画像を信号から識別し、画像がテキスト（例えば、１つ以上の表音文字または表意文字）を備えるかどうかを決定し、テキストを修正されるテキストに変換し、ディスプレイに、修正されたテキストをレンダリングするように命令するように構成される、処理電子機器とを備える、ディスプレイデバイス。

第２の側面では、ディスプレイは、１つ以上の光源と、光をユーザの眼の中に指向し、画像を眼内に形成するように構成される、１つ以上の導波管スタックとを備える、側面１に記載の頭部搭載型ディスプレイデバイス。

第３の側面では、１つ以上の光源は、光を導波管スタックの中に指向するように構成される、側面２に記載の頭部搭載型ディスプレイデバイス。

第４の側面では、１つ以上の光源は、ファイバ走査プロジェクタを備える、側面２－３のいずれか１項に記載の頭部搭載型ディスプレイデバイス。

第５の側面では、１つ以上のカメラは、１つ以上のビデオカメラを備える、側面１－４のいずれか１項に記載の頭部搭載型ディスプレイデバイス。

第６の側面では、処理電子機器は、光学文字認識アルゴリズムを使用して、画像内の１つ以上の表音文字または表意文字をテキストに変換するように構成される、側面１－５のいずれか１項に記載の頭部搭載型ディスプレイデバイス。

第７の側面では、処理電子機器は、データベースにアクセスし、１つ以上の表音文字または表意文字のテキストまたは言語の可能性が高い候補を識別するように構成される、側面６に記載の頭部搭載型ディスプレイデバイス。

第８の側面では、処理電子機器は、ユーザが従事しているアクティビティ、ユーザの地理的場所、ユーザの進行速度、ユーザの高度、ディスプレイによって検出される周囲雑音の音量またはタイプ、ディスプレイによって受信されたエリア内の可視または他の光のレベルまたはタイプ、ディスプレイによって検出された温度または気候、ユーザからのテキストの知覚された距離、もしくはディスプレイによって検出された単語のカテゴリのうちの１つ以上のものと関連付けられた入力を受信するように構成される、側面６－７のいずれか１項に記載の頭部搭載型ディスプレイデバイス。

第９の側面では、ＧＰＳシステムをさらに備える、側面１－８のいずれか１項に記載の頭部搭載型ディスプレイデバイス。

第１０の側面では、修正されたテキストは、第１のフォントテキストのサイズと異なる第２のフォントサイズであって、第２のフォントサイズは、第１のフォントサイズより大きくあり得る、側面１－９のいずれか１項に記載の頭部搭載型ディスプレイデバイス。

第１１の側面では、修正されたテキストは、テキストよりユーザに読みやすい、側面１－１０のいずれか１項に記載の頭部搭載型ディスプレイデバイス。

第１２の側面では、処理電子機器は、グラフィカル要素をテキストに追加し、部分的に、修正されたテキストを形成するように構成される、側面１－１１のいずれか１項に記載の頭部搭載型ディスプレイデバイス。

第１３の側面では、処理電子機器は、テキストの１つ以上の表音文字または表意文字を１つ以上の表音文字または表意文字の第１のフォントと異なる第２のフォントにおいて表示するように構成される、側面１－１２のいずれか１項に記載の頭部搭載型ディスプレイデバイス。

第１４の側面では、処理電子機器は、ユーザに頭部搭載型ディスプレイを伴わずに見えるであろうものに対して、テキストの１つ以上の表音文字または表意文字を拡大するように構成される、側面１－１３のいずれか１項に記載の頭部搭載型ディスプレイデバイス。

第１５の側面では、処理電子機器は、境界領域を表示するように構成され、境界領域は、内側領域を境界する、側面１－１４のいずれか１項に記載の頭部搭載型ディスプレイデバイス。

第１６の側面では、処理電子機器は、１つ以上の表音文字または表意文字を内側領域内に表示するように構成される、側面１５に記載の頭部搭載型ディスプレイデバイス。

第１７の側面では、処理電子機器は、ユーザが頭部搭載型ディスプレイを伴わずに１つ以上の表音文字または表意文字を読み取るであろう、第１の背景と異なる第２の背景に対して、テキストの１つ以上の表音文字または表意文字を表示するように構成される、側面１－１６のいずれか１項に記載の頭部搭載型ディスプレイデバイス。

第１８の側面では、第２の背景は、モノクロ背景を含む、側面１７に記載の頭部搭載型ディスプレイデバイス。

第１９の側面では、モノクロ背景は、白色を含む、側面１８に記載の頭部搭載型ディスプレイデバイス。

第２０の側面では、第１の背景は、ユーザに頭部搭載型ディスプレイを伴わずに見えるであろうものを含む、側面１７－１９のいずれか１項に記載の頭部搭載型ディスプレイデバイス。

第２１の側面では、テキストは、テキストエディタによって編集可能であるように適合される、側面１－２０のいずれか１項に記載の頭部搭載型ディスプレイデバイス。

側面１－２１は、頭部搭載型ディスプレイを参照して説明されるが、これらの側面に説明される類似機能はまた、図２Ａを参照して説明される頭部搭載型デバイスまたはウェアラブルシステムを用いて実装されることができる。さらに、ディスプレイは、複数の深度平面を備えることができ、頭部搭載型デバイスは、少なくとも部分的に、ユーザの眼の能力に基づいて、修正されたテキストをレンダリングするための深度平面を識別するように構成される。

第２２の側面では、頭部搭載型ディスプレイを使用して、拡張現実画像コンテンツを投影させるための方法であって、ハードウェアプロセッサの制御下で、光学信号を１つ以上のカメラから受信するステップと、光学文字認識モジュールを使用して、画像を信号から識別するステップと、画像が１つ以上の表音文字または表意文字を含むかどうかを決定するステップと、１つ以上の表音文字または表意文字をテキストに変換するステップと、テキストを頭部搭載型ディスプレイ上に表示するステップとを含み、テキストを表示するステップは、光学的に透過性の接眼レンズを通して、光をユーザに画像として伝送するステップを含む、方法。

第２３の側面では、光をユーザの眼の中に指向し、画像を眼内に形成するステップをさらに含む、側面２２に記載の方法。

第２４の側面では、ファイバ走査プロジェクタを使用して、光を接眼レンズの中に指向するステップをさらに含む、側面２２－２３のいずれか１項に記載の方法。

第２５の側面では、光学文字認識モジュールを使用するステップは、１つ以上の表音文字または表意文字のテキストまたは言語の可能性が高い候補を識別するステップを含む、側面２２－２４のいずれか１項に記載の方法。

第２６の側面では、光学文字認識モジュールを使用するステップは、ユーザが従事しているアクティビティ、ユーザの地理的場所、ユーザの進行速度、ユーザの高度、ディスプレイによって受信される周囲雑音の音量またはタイプ、ディスプレイによって検出されたエリア内の可視または他の光のレベルまたはタイプ、ディスプレイによって検出された温度または気候、ユーザからの１つ以上の表音文字または表意文字の知覚された距離、もしくはディスプレイによって検出された単語のカテゴリのうちの１つ以上のものと関連付けられた情報を含む、入力を受信するステップを含む、側面２２－２５のいずれか１項に記載の方法。

第２７の側面では、１つ以上の表音文字または表意文字をテキストに変換するステップは、テキストを１つ以上の表音文字または表意文字と関連付けられた第１の言語と異なる第２の言語において表示するステップを含む、側面２２－２６のいずれか１項に記載の方法。第２７の側面のいくつかの実装では、本方法は、テキストを第２の言語に翻訳するステップを含む。

第２８の側面では、場所データをＧＰＳシステムから受信するステップをさらに含む、側面２２－２７のいずれか１項に記載の方法。

第２９の側面では、１つ以上の表音文字または表意文字を頭部搭載型ディスプレイ上に表示するステップは、１つ以上の表音文字または表意文字を１つ以上の表音文字または表意文字の第１のフォントサイズと異なる第２のフォントサイズにおいて表示するステップを含む、側面２２－２８のいずれか１項に記載の方法。

第３０の側面では、１つ以上の表音文字または表意文字を頭部搭載型ディスプレイ上に表示するステップは、１つ以上の表音文字または表意文字を頭部搭載型ディスプレイを伴わない場合よりユーザに読みやすく表示するステップを含む、側面２２－２９のいずれか１項に記載の方法。

第３１の側面では、１つ以上の表音文字または表意文字を頭部搭載型ディスプレイ上に表示するステップは、１つ以上の表音文字または表意文字を頭部搭載型ディスプレイを伴わずにユーザに現れるであろう場合より大きいフォントサイズにおいて表示するステップを含む、側面２２－３０のいずれか１項に記載の方法。

第３２の側面では、１つ以上の表音文字または表意文字を頭部搭載型ディスプレイ上に表示するステップは、１つ以上の表音文字または表意文字を１つ以上の表音文字または表意文字の第１のフォントと異なる第２のフォントにおいて表示するステップを含む、側面２２－３１のいずれか１項に記載の方法。

第３３の側面では、１つ以上の表音文字または表意文字を頭部搭載型ディスプレイ上に表示するステップは、ユーザに頭部搭載型ディスプレイを伴わずに見えるであろうものに対して１つ以上の表音文字または表意文字を拡大するステップを含む、側面２２－３２のいずれか１項に記載の方法。

第３４の側面では、１つ以上の表音文字または表意文字を頭部搭載型ディスプレイ上に表示するステップは、境界領域を表示するステップを含み、境界領域は、内側領域を境界する、側面２２－３３のいずれか１項に記載の方法。

第３５の側面では、１つ以上の表音文字または表意文字を頭部搭載型ディスプレイ上に表示するステップは、１つ以上の表音文字または表意文字を内側領域内に表示するステップを含む、側面３４に記載の方法。

第３６の側面では、１つ以上の表音文字または表意文字を頭部搭載型ディスプレイ上に表示するステップは、ユーザが頭部搭載型ディスプレイを伴わずに１つ以上の表音文字または表意文字を読み取るであろう第１の背景と異なる第２の背景に対して、１つ以上の表音文字または表意文字を表示するステップを含む、側面２２－３５のいずれか１項に記載の方法。

第３７の側面では、第２の背景は、モノクロ背景を含む、側面３６に記載の方法。

第３８の側面では、モノクロ背景は、白色を含む、側面３７に記載の方法。

第３９の側面では、第１の背景は、ユーザに頭部搭載型ディスプレイを伴わずに見えるであろうものを含む、側面３６－３８のいずれか１項に記載の方法。

第４０の側面では、テキストは、テキストエディタによって編集可能であるように適合される、側面２２－３９のいずれか１項に記載の方法。

第４１の側面では、１つ以上の表音文字または表意文字をテキストに変換するステップは、入力をユーザから受信するステップを含む、側面２２－４０のいずれか１項に記載の方法。

第４２の側面では、入力をユーザから受信するステップは、口頭コマンド、手のジェスチャ、頭部の運動、またはユーザの眼の一方もしくは両方の移動のうちの１つ以上のものを受信するステップを含む、側面４１に記載の方法。

第４３の側面では、テキストは、１つ以上の表音文字または表意文字が第１の距離閾値より近くに現れる場合、第２の深度より近くに現れる、第１の深度に表示される、側面２２－４２のいずれか１項に記載の方法。

第４４の側面では、テキストは、１つ以上の表音文字または表意文字が第２の距離閾値からより遠く離れて現れる場合、第１の深度より遠く離れて現れる、第２の深度に表示される、側面２２－４３のいずれか１項に記載の方法。

第４５の側面では、テキストは、１つ以上の表音文字または表意文字が、第１の距離閾値より遠く離れて、かつ第２の距離閾値より近くに現れる場合、第１の深度より遠く離れているが、第２の深度より近くに現れる、第３の深度に表示される、側面４３－４４のいずれか１項に記載の方法。

第４６の側面では、第１の距離閾値は、８０ｃｍである、側面４３－４５のいずれか１項に記載の方法。

第４７の側面では、第２の距離閾値は、６００ｃｍである、側面４３－４６のいずれか１項に記載の方法。

第４８の側面では、第２の距離閾値と第１の距離閾値との間の差異は、１００ｍ未満である、側面４３－４７のいずれか１項に記載の方法。
（表記修正に関連する付加的側面）

第１の側面では、拡張現実システムであって、外向きに面した結像システムと、外向きに面した結像システムによって取得される画像を記憶するように構成される、非一過性メモリと、外向きに面した結像システムによって取得される拡張現実システムのユーザの環境の画像を受信し、画像を分析し、ユーザの環境内の表記を識別し、表記上のテキストを認識し、テキストの少なくとも一部を標的言語に変換し、ディスプレイに、変換されたテキストをユーザにレンダリングするように命令するようにプログラムされる、ハードウェアプロセッサとを備える、拡張現実システム。

第２の側面では、ハードウェアプロセッサは、テキストと関連付けられた表示特性を修正するようにプログラムされる、側面１に記載の拡張現実システム。

第３の側面では、テキストの少なくとも一部を標的言語に変換するために、ハードウェアプロセッサは、表記上のテキストの言語を識別し、言語を標的言語に変換するようにプログラムされる、側面１または２に記載の拡張現実システム。

第４の側面では、ハードウェアプロセッサは、少なくとも部分的に、ユーザの場所に基づいて、標的言語を決定するようにプログラムされる、側面１－３のいずれか１項に記載の拡張現実システム。

第５の側面では、表記上のテキストを認識するために、ハードウェアプロセッサは、標的言語におけるテキストを認識するようにプログラムされる、側面１－４のいずれか１項に記載の拡張現実システム。

第６の側面では、ハードウェアプロセッサは、標的言語におけるテキストを変換しないようにプログラムされる、側面５に記載の拡張現実システム。
（他の考慮点）

本明細書に説明される、ならびに／または添付される図に描写されるプロセス、方法、およびアルゴリズムはそれぞれ、具体的かつ特定のコンピュータ命令を実行するように構成される、１つ以上の物理的コンピューティングシステム、ハードウェアコンピュータプロセッサ、特定用途向け回路、もしくは電子ハードウェアによって実行される、コードモジュールにおいて具現化され、それによって完全もしくは部分的に自動化され得る。例えば、コンピューティングシステムは、具体的コンピュータ命令とともにプログラムされた汎用コンピュータ（例えば、サーバ）または専用コンピュータ、専用回路等を含むことができる。コードモジュールは、実行可能プログラムにコンパイルおよびリンクされ得る、動的リンクライブラリ内にインストールされ得る、または解釈されるプログラミング言語において書き込まれ得る。いくつかの実装では、特定の動作および方法が、所与の機能に特有の回路によって実施され得る。

さらに、本開示の機能性のある実装は、十分に数学的、コンピュータ的、または技術的に複雑であるため、（適切な特殊化された実行可能命令を利用する）特定用途向けハードウェアまたは１つ以上の物理的コンピューティングデバイスは、例えば、関与する計算の量もしくは複雑性に起因して、または結果を実質的にリアルタイムで提供するために、機能性を実施する必要があり得る。例えば、動画またはビデオは、多くのフレームを含み、各フレームは、数百万のピクセルを有し得、具体的にプログラムされたコンピュータハードウェアは、商業的に妥当な時間量において所望の画像処理タスクまたは用途を提供するようにビデオデータを処理する必要がある。

コードモジュールまたは任意のタイプのデータは、ハードドライブ、ソリッドステートメモリ、ランダムアクセスメモリ（ＲＡＭ）、読取専用メモリ（ＲＯＭ）、光学ディスク、揮発性もしくは不揮発性記憶装置、同一物の組み合わせ、または同等物を含む、物理的コンピュータ記憶装置等の任意のタイプの非一過性コンピュータ可読媒体上に記憶され得る。本方法およびモジュール（またはデータ）はまた、無線ベースおよび有線／ケーブルベースの媒体を含む、種々のコンピュータ可読伝送媒体上で生成されたデータ信号として（例えば、搬送波または他のアナログもしくはデジタル伝搬信号の一部として）伝送され得、種々の形態（例えば、単一もしくは多重化アナログ信号の一部として、または複数の離散デジタルパケットもしくはフレームとして）をとり得る。開示されるプロセスまたはプロセスステップの結果は、任意のタイプの非一過性有形コンピュータ記憶装置内に持続的もしくは別様に記憶され得る、またはコンピュータ可読伝送媒体を介して通信され得る。

本明細書に説明される、および／または添付される図に描写されるフロー図における任意のプロセス、ブロック、状態、ステップ、もしくは機能性は、プロセスにおいて具体的機能（例えば、論理もしくは算術）またはステップを実装するための１つ以上の実行可能命令を含む、コードモジュール、セグメント、またはコードの一部を潜在的に表すものとして理解されたい。種々のプロセス、ブロック、状態、ステップ、または機能性は、組み合わせられる、再配列される、追加される、削除される、修正される、または別様に本明細書に提供される例証的実施例から変更されることができる。いくつかの実施形態では、付加的または異なるコンピューティングシステムもしくはコードモジュールが、本明細書に説明される機能性のいくつかまたは全てを実施し得る。本明細書に説明される方法およびプロセスはまた、任意の特定のシーケンスに限定されず、それに関連するブロック、ステップ、または状態は、適切な他のシーケンスで、例えば、連続して、並行して、またはある他の様式で実施されることができる。タスクまたはイベントが、開示される例示的実施形態に追加される、またはそれから除去され得る。さらに、本明細書に説明される実装における種々のシステムコンポーネントの分離は、例証を目的とし、全ての実装においてそのような分離を要求するものとして理解されるべきではない。説明されるプログラムコンポーネント、方法、およびシステムは、概して、単一のコンピュータ製品においてともに統合される、または複数のコンピュータ製品にパッケージ化され得ることを理解されたい。多くの実装変形例が、可能である。

本プロセス、方法、およびシステムは、ネットワーク（または分散）コンピューティング環境において実装され得る。ネットワーク環境は、企業全体コンピュータネットワーク、イントラネット、ローカルエリアネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）、パーソナルエリアネットワーク（ＰＡＮ）、クラウドコンピューティングネットワーク、クラウドソースコンピューティングネットワーク、インターネット、およびワールドワイドウェブを含む。ネットワークは、有線もしくは無線ネットワークまたは任意の他のタイプの通信ネットワークであり得る。

本開示のシステムおよび方法は、それぞれ、いくつかの革新的側面を有し、そのうちのいかなるものも、本明細書に開示される望ましい属性に単独で関与しない、またはそのために要求されない。上記に説明される種々の特徴およびプロセスは、相互に独立して使用され得る、または種々の方法で組み合わせられ得る。全ての可能な組み合わせおよび副次的組み合わせが、本開示の範囲内に該当することが意図される。本開示に説明される実装の種々の修正が、当業者に容易に明白であり得、本明細書に定義される一般原理は、本開示の精神または範囲から逸脱することなく、他の実装に適用され得る。したがって、請求項は、本明細書に示される実装または実施形態に限定されることを意図されず、本明細書に開示される本開示、原理、および新規の特徴と一貫する最も広い範囲を与えられるべきである。

別個の実装または実施形態の文脈において本明細書に説明されるある特徴はまた、単一の実装または実施形態における組み合わせにおいて実装されることができる。逆に、単一の実装または実施形態の文脈において説明される種々の特徴もまた、複数の実装または実施形態において別個に、もしくは任意の好適な副次的組み合わせにおいて実装されることができる。さらに、特徴がある組み合わせにおいて作用するものとして上記に説明され、さらに、そのようなものとして最初に請求され得るが、請求される組み合わせからの１つ以上の特徴は、いくつかの場合では、組み合わせから削除されることができ、請求される組み合わせは、副次的組み合わせまたは副次的組み合わせの変形例を対象とし得る。いかなる単一の特徴または特徴のグループも、あらゆる実施形態に必要もしくは必須ではない。

とりわけ、「～できる（ｃａｎ）」、「～し得る（ｃｏｕｌｄ）」、「～し得る（ｍｉｇｈｔ）」、「～し得る（ｍａｙ）」、「例えば（ｅ．ｇ．）」、および同等物等、本明細書で使用される条件文は、別様に具体的に記載されない限り、または使用されるような文脈内で別様に理解されない限り、概して、ある実施形態がある特徴、要素、またはステップを含む一方、他の実施形態がそれらを含まないことを伝えることが意図される。したがって、そのような条件文は、概して、特徴、要素、もしくはステップが、１つ以上の実施形態に対していかようにも要求されること、または１つ以上の実施形態が、著者の入力または促しの有無を問わず、これらの特徴、要素、もしくはステップが任意の特定の実施形態において含まれる、もしくは実施されるべきかどうかを決定するための論理を必然的に含むことを示唆することを意図されない。用語「～を備える」、「～を含む」、「～を有する」、および同等物は、同義語であり、非限定的方式で包括的に使用され、付加的要素、特徴、行為、動作等を除外しない。また、用語「または」は、その包括的意味において使用され（およびその排他的意味において使用されず）、したがって、例えば、要素のリストを接続するために使用されると、用語「または」は、リスト内の要素のうちの１つ、いくつか、または全てを意味する。加えて、本願および添付される請求項で使用されるような冠詞「ａ」、「ａｎ」、および「ｔｈｅ」は、別様に規定されない限り、「１つ以上の」もしくは「少なくとも１つ」を意味するように解釈されるべきである。

本明細書で使用されるように、項目のリスト「～のうちの少なくとも１つ」を指す語句は、単一の要素を含む、それらの項目の任意の組み合わせを指す。ある実施例として、「Ａ、Ｂ、またはＣのうちの少なくとも１つ」は、Ａ、Ｂ、Ｃ、ＡおよびＢ、ＡおよびＣ、ＢおよびＣ、ならびにＡ、Ｂ、およびＣを網羅することが意図される。語句「Ｘ、Ｙ、およびＺのうちの少なくとも１つ」等の接続文は、別様に具体的に記載されない限り、概して、項目、用語等がＸ、Ｙ、またはＺのうちの少なくとも１つであり得ることを伝えるために使用されるような文脈で別様に理解される。したがって、そのような接続文は、概して、ある実施形態が、Ｘのうちの少なくとも１つ、Ｙのうちの少なくとも１つ、およびＺのうちの少なくとも１つがそれぞれ存在するように要求することを示唆することを意図されない。

同様に、動作は、特定の順序で図面に描写され得るが、これは、望ましい結果を達成するために、そのような動作が示される特定の順序で、もしくは連続的順序で実施される、または全ての図示される動作が実施される必要はないと認識されるべきである。さらに、図面は、フローチャートの形態で１つ以上の例示的プロセスを図式的に描写し得る。しかしながら、描写されない他の動作も、図式的に図示される例示的方法およびプロセス内に組み込まれることができる。例えば、１つ以上の付加的動作が、図示される動作のいずれかの前に、その後に、それと同時に、またはその間に実施されることができる。加えて、動作は、他の実装において再配列される、または再順序付けられ得る。ある状況では、マルチタスクおよび並列処理が、有利であり得る。さらに、上記に説明される実装における種々のシステムコンポーネントの分離は、全ての実装におけるそのような分離を要求するものとして理解されるべきではなく、説明されるプログラムコンポーネントおよびシステムは、概して、単一のソフトウェア製品においてともに統合される、または複数のソフトウェア製品にパッケージ化され得ることを理解されたい。加えて、他の実装も、以下の請求項の範囲内である。いくつかの場合では、請求項に列挙されるアクションは、異なる順序で実施され、依然として、望ましい結果を達成することができる。

Claims

拡張現実画像コンテンツを投影するように構成される頭部搭載型ディスプレイデバイスであって、前記頭部搭載型ディスプレイデバイスは、
ユーザの頭部上に装着可能であるように構成され、前記ユーザの眼の正面にディスプレイを支持するように構成されるフレームと、
前記ディスプレイであって、前記ディスプレイは、前記拡張現実画像コンテンツを複数の異なる深度平面上に投影するように種々のレベルの波面曲率を用いて画像情報を前記ユーザの前記眼に送信するように構成される複数の導波管を備える、ディスプレイと、
光学信号を生成するように構成される１つ以上のカメラと、
処理電子機器であって、前記処理電子機器は、
前記１つ以上のカメラから前記光学信号を受信することと、
前記光学信号から、前記ユーザの環境内の少なくとも１つの物理的オブジェクトを識別することと、
前記少なくとも１つの物理的オブジェクトが１つ以上の表音文字または表意文字を含むテキストを含むかどうかを決定することと、
前記少なくとも１つの物理的オブジェクトがテキストを含むことの決定に応答して、前記テキストに適用されるべき修正を決定することと、
前記決定された修正および前記テキストに少なくとも基づいて、修正されたテキストを生成することと、
前記ユーザからの前記少なくとも１つの物理的オブジェクトの距離よりも前記ユーザの近くに仮想表現が現れるように、前記複数の異なる深度平面のうちの選択された深度平面において前記修正されたテキストを含む前記少なくとも１つの物理的オブジェクトの仮想表現を生成することであって、前記仮想表現が生成される前記選択された深度平面は、前記ユーザからの前記少なくとも１つの物理的オブジェクトの距離に基づいて、前記複数の異なる深度平面から選択される、ことと、
前記ユーザの前記環境内の前記少なくとも１つの物理的オブジェクトの前記仮想表現をレンダリングして、前記少なくとも１つの物理的オブジェクトの前記テキストが前記ユーザによって見られるのを前記修正されたテキストの前記レンダリングされた仮想表現が防止するように、前記ディスプレイに命令することと
を行うように構成される、処理電子機器と
を備える、頭部搭載型ディスプレイデバイス。
前記ディスプレイは、１つ以上の光源を備え、前記複数の導波管は、前記１つ以上の光源からの光を前記ユーザの前記眼の中に指向し、画像を前記眼内に形成するように構成される、請求項１に記載の頭部搭載型ディスプレイデバイス。
前記１つ以上の光源は、光を前記複数の導波管の中に指向するように構成される、請求項２に記載の頭部搭載型ディスプレイデバイス。
前記１つ以上の光源は、ファイバ走査プロジェクタを備える、請求項２に記載の頭部搭載型ディスプレイデバイス。
前記１つ以上のカメラは、１つ以上のビデオカメラを備える、請求項１に記載の頭部搭載型ディスプレイデバイス。
前記処理電子機器は、光学文字認識アルゴリズムを使用して、前記光学信号内の１つ以上の表音文字または表意文字をテキストに変換するように構成される、請求項１に記載の頭部搭載型ディスプレイデバイス。
前記処理電子機器は、データベースにアクセスし、前記１つ以上の表音文字または表意文字のテキストまたは言語の可能性が高い候補を識別するように構成される、請求項６に記載の頭部搭載型ディスプレイデバイス。
前記処理電子機器は、前記ユーザが従事しているアクティビティ、前記ユーザの地理的場所、前記ユーザの進行速度、前記ユーザの高度、前記ディスプレイによって検出される周囲雑音の音量またはタイプ、前記ディスプレイによって検出されたエリア内の可視光または他の光のレベルまたはタイプ、前記ディスプレイによって検出された温度または気候、前記ユーザからの前記テキストの知覚された距離、もしくは前記ディスプレイによって検出された単語のカテゴリのうちの１つ以上のものと関連付けられた入力を受信するように構成される、請求項６に記載の頭部搭載型ディスプレイデバイス。
ＧＰＳシステムをさらに備える、請求項１に記載の頭部搭載型ディスプレイデバイス。
前記修正されたテキストは、前記テキストの第１のフォントサイズと異なる第２のフォントサイズである、請求項１に記載の頭部搭載型ディスプレイデバイス。
前記修正されたテキストは、前記テキストより前記ユーザに読みやすい、請求項１に記載の頭部搭載型ディスプレイデバイス。
前記修正されたテキストは、前記テキストに追加されたグラフィカル要素を含む、請求項１に記載の頭部搭載型ディスプレイデバイス。
前記修正されたテキストは、第２のフォントにおける前記テキストの１つ以上の表音文字または表意文字を有するテキストを含み、前記第２のフォントは、前記テキストの前記１つ以上の表音文字または表意文字の第１のフォントと異なる、請求項１に記載の頭部搭載型ディスプレイデバイス。
前記処理電子機器は、前記頭部搭載型ディスプレイデバイスを伴わずに前記ユーザに見えるものに対して、前記テキストの１つ以上の表音文字または表意文字を拡大するように構成される、請求項１に記載の頭部搭載型ディスプレイデバイス。
前記仮想表現は、内側領域の境界を画定する境界領域を含む、請求項１に記載の頭部搭載型ディスプレイデバイス。
前記処理電子機器は、前記修正されたテキストの１つ以上の表音文字または表意文字を前記内側領域内に表示するように構成される、請求項１５に記載の頭部搭載型ディスプレイデバイス。
前記処理電子機器は、前記ユーザが前記頭部搭載型ディスプレイデバイスを伴わずに前記１つ以上の表音文字または表意文字を読み取る第１の背景と異なる第２の背景に対して、前記テキストの前記１つ以上の表音文字または表意文字を表示するように構成される、請求項１６に記載の頭部搭載型ディスプレイデバイス。
前記第２の背景は、モノクロ背景を含む、請求項１７に記載の頭部搭載型ディスプレイデバイス。
前記モノクロ背景は、白色を含む、請求項１８に記載の頭部搭載型ディスプレイデバイス。
前記第１の背景は、前記頭部搭載型ディスプレイデバイスを伴わずに前記ユーザに見えるものを含む、請求項１７に記載の頭部搭載型ディスプレイデバイス。
前記修正されたテキストは、テキストエディタによって編集可能であるように適合される、請求項１に記載の頭部搭載型ディスプレイデバイス。
前記テキストの前記１つ以上の表音文字または表意文字が、第１の距離閾値より近くに現れる場合、前記仮想表現は、第２の深度平面より前記ユーザの近くに現れる第１の深度平面において、表示される、請求項１に記載の頭部搭載型ディスプレイデバイス。
前記１つ以上の表音文字または表意文字が、第２の距離閾値より遠く離れて現れる場合、前記仮想表現は、第１の深度平面より前記ユーザから遠く離れて現れる第２の深度平面において、表示される、請求項１に記載の頭部搭載型ディスプレイデバイス。
前記１つ以上の表音文字または表意文字が、第１の距離閾値より遠く離れてかつ前記第２の距離閾値より近くに現れる場合、前記仮想表現は、前記第１の深度平面より前記ユーザから遠く離れて現れるが前記第２の深度平面より前記ユーザの近くに現れる第３の深度平面において、表示される、請求項２２に記載の頭部搭載型ディスプレイデバイス。