JP2019531538A - ワードフロー注釈 - Google Patents

ワードフロー注釈 Download PDF

Info

Publication number
JP2019531538A
JP2019531538A JP2019506525A JP2019506525A JP2019531538A JP 2019531538 A JP2019531538 A JP 2019531538A JP 2019506525 A JP2019506525 A JP 2019506525A JP 2019506525 A JP2019506525 A JP 2019506525A JP 2019531538 A JP2019531538 A JP 2019531538A
Authority
JP
Japan
Prior art keywords
user
display
auxiliary information
information
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019506525A
Other languages
English (en)
Other versions
JP2019531538A5 (ja
JP6814279B2 (ja
Inventor
ジェフリー ソマーズ,
ジェフリー ソマーズ,
ジェニファー エム.アール. ディバイン,
ジェニファー エム.アール. ディバイン,
ジョセフ ウェイン スーク,
ジョセフ ウェイン スーク,
エイドリアン ケーラー,
エイドリアン ケーラー,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Magic Leap Inc
Original Assignee
Magic Leap Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Magic Leap Inc filed Critical Magic Leap Inc
Publication of JP2019531538A publication Critical patent/JP2019531538A/ja
Publication of JP2019531538A5 publication Critical patent/JP2019531538A5/ja
Application granted granted Critical
Publication of JP6814279B2 publication Critical patent/JP6814279B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/157Conference systems defining a virtual conference space and using avatars or agents
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/142Constructional details of the terminal equipment, e.g. arrangements of the camera and the display

Abstract

拡張現実(AR)デバイスは、周囲オーディオデータを監視するように構成されることができる。ARデバイスは、周囲オーディオデータ内の発話を検出すること、検出された発話をテキストに変換すること、または発話中の稀な単語等のキーワードを検出することができる。稀な単語が検出されると、ARデバイスは、稀な単語に関連する補助情報(例えば、定義)をパブリックまたはプライベート源から読み出すことができる。ARデバイスは、ユーザのために、ユーザが発話をより良好に理解することに役立つ補助情報を表示することができる。ARデバイスは、外国語発話の翻訳を実施し得、話者の発話のテキスト(または翻訳)をユーザに表示し得るか、または発話に関連付けられた統計的もしくは他の情報を表示し得る。

Description

(関連出願の引用)
本願は、米国仮出願第62/374,183号(2016年8月12日出願、名称「WORD FLOW ANNOTATION」)の米国特許法§119(e)に基づく優先権の利益を主張し、上記出願の開示は、その全体が参照により本明細書に引用される。
本開示は、仮想現実および拡張現実結像ならびに可視化システムに関し、より具体的には、発話の視覚的注釈を生成し、システムのユーザによる発話の理解を向上させることに関する。
現代のコンピューティングおよびディスプレイ技術は、いわゆる「仮想現実」、「拡張現実」、または「複合現実」体験のためのシステムの開発を促進しており、デジタル的に再現された画像またはその一部が、現実であるように見える様式、またはそのように知覚され得る様式でユーザに提示される。仮想現実または「VR」シナリオは、典型的には、他の実際の実世界の視覚的入力に対する透明性を伴わずに、デジタルまたは仮想画像情報の提示を伴う。拡張現実または「AR」シナリオは、典型的には、ユーザの周囲の実際の世界の可視化に対する拡張としてのデジタルまたは仮想画像情報の提示を伴う。複合現実または「MR」は、物理的および仮想オブジェクトが、共存し、リアルタイムで相互作用する新しい環境を生成するための実世界と仮想世界の融合に関連する。結論から述べると、ヒトの視知覚系は、非常に複雑であって、他の仮想または実世界画像要素間における仮想画像要素の快適で、自然のような感覚で、かつ豊かな提示を促進するVR、AR、またはMR技術の生成は、困難である。本明細書に開示されるシステムおよび方法は、VR、AR、ならびにMR技術に関連する種々の課題に対処する。
聴取者に対して最小限のレベルの注意を逸らすものおよび聴取者による取るに足りないレベルの努力を伴って、着目オブジェクト(例えば、聴取者に新しいまたは未知の単語)に関する説明または情報を(近)リアルタイムで提供するための複合現実システムの種々の実施形態が、開示される。
いくつかの実施形態では、拡張現実(AR)システムは、仮想コンテンツをARシステムのユーザに提示するように構成されたARディスプレイと、周囲音を捕捉するように構成されたオーディオセンサと、ARディスプレイおよびオーディオセンサと通信するハードウェアプロセッサとを備えていることができる。ハードウェアプロセッサは、オーディオセンサによって捕捉された周囲音を受信し、周囲音内の発話の存在を検出し、検出された発話をテキストに変換し、発話中の稀な単語を検出し、稀な単語に関連付けられた補助情報を読み出し、ARディスプレイに読み出された補助情報をレンダリングさせるようにプログラムされることができる。
いくつかの実施形態では、方法が、仮想コンテンツをユーザの環境内に提示するように構成されたハードウェアプロセッサおよびARディスプレイを備えている拡張現実(AR)デバイスの制御下で実施されることができる。方法は、ARデバイスのユーザの環境を監視することと、ユーザまたは環境のうちの少なくとも1つに関連付けられたコンテキスト情報に基づいて、環境内の着目オブジェクトの存在を検出することと、着目オブジェクトのための補助情報を読み出すことと、ユーザの視野内の補助情報の表示位置を決定することであって、視野は、ユーザが所与の時間に知覚可能な環境の一部を含む、ことと、ARディスプレイに補助情報を表示位置にレンダリングさせることとを含む。
本明細書に説明される主題の1つ以上の実装の詳細が、付随の図面および以下の説明に記載される。他の特徴、側面、および利点は、説明、図面、および請求項から明白となるであろう。本概要または以下の発明を実施するための形態のいずれも、本発明の主題の範囲を定義または限定することを主張するものではない。
図1は、人物によって視認されるある仮想現実オブジェクトおよびある物理的オブジェクトを伴う複合現実シナリオの例証を描写する。 図2は、ワードフロー注釈システムの実施形態を実装し得るウェアラブルシステムの例を図式的に図示する。 図3は、複数の深度平面を使用して3次元画像をシミュレートするためのアプローチの側面を図式的に図示する。 図4は、画像情報をユーザに出力するための導波管スタックの例を図式的に図示する。 図5は、導波管によって出力され得る例示的出射ビームを示す。 図6は、導波管装置と、光を導波管装置へまたはそこから光学的に結合するための光学結合器サブシステムと、多焦点立体ディスプレイ、画像、または明視野の生成において使用される制御サブシステムとを含む光学システムを示す概略図である。 図7は、ウェアラブルシステムの例のブロック図である。 図8は、認識されるオブジェクトに関連して仮想コンテンツをレンダリングする方法の例のプロセスフロー図である。 図9は、ワードフロー注釈システムの実施形態含むウェアラブルシステムの別の例のブロック図である。 図10は、ウェアラブルシステムへのユーザ入力を決定する方法の例のプロセスフロー図である。 図11は、仮想ユーザインターフェースと相互作用する方法の例のプロセスフロー図である。 図12は、互いに相互作用する複数のユーザデバイスを描写する全体的システム図を図式的に図示する。 図13A−13Gは、着目オブジェクトとの相互作用および着目オブジェクトの補助情報の例を図示する。 図13A−13Gは、着目オブジェクトとの相互作用および着目オブジェクトの補助情報の例を図示する。 図13A−13Gは、着目オブジェクトとの相互作用および着目オブジェクトの補助情報の例を図示する。 図13A−13Gは、着目オブジェクトとの相互作用および着目オブジェクトの補助情報の例を図示する。 図13A−13Gは、着目オブジェクトとの相互作用および着目オブジェクトの補助情報の例を図示する。 図13A−13Gは、着目オブジェクトとの相互作用および着目オブジェクトの補助情報の例を図示する。 図13A−13Gは、着目オブジェクトとの相互作用および着目オブジェクトの補助情報の例を図示する。 図14Aおよび14Bは、発話に注釈を付ける例示的プロセスを示す。 図14Aおよび14Bは、発話に注釈を付ける例示的プロセスを示す。 図15は、着目オブジェクトとの相互作用および着目オブジェクトの補助情報の例示的プロセスを図示する。 図16Aおよび16Bは、キーワードに基づくスレッド識別の例を図示する。 図16Aおよび16Bは、キーワードに基づくスレッド識別の例を図示する。 図17は、スレッド識別の例示的プロセスを図示する。
図面全体を通して、参照番号は、参照される要素間の対応を示すために再使用され得る。図面は、本明細書に説明される例示的実施形態を図示するために提供され、本開示の範囲を限定することを意図されない。
(概要)
現代の世界における日々の発話では、それらが一般的ではない考えまたは概念、特定の問題分野からの考えまたは概念に言及するので、または聴取者に未知の人物または物事に対する適切な言及であるので、聴取者に新しい名前または言及に遭遇することが一般的である。聴取者は、単に、熟知していないこと、または知識がないことに起因して、ある単語を把握していない場合がある。必然的に、それは、会話を妨害し、当惑、混乱、または誤解につながり得る。
聴取者への最小限のレベルの注意を逸らすものおよび聴取者による取るに足りないレベルの努力を伴って、新しいまたは未知の単語のための説明もしくは情報を(近)リアルタイムで提供することができる拡張現実システムを有することが望ましくあり得る。
本開示は、拡張現実デバイス(ARD)のコンテキストにおいて、そのような望ましいシステムの例を開示する。そのようなデバイスは、ユーザが、情報が通常の視認可能実世界とともに(またはその上部に)同時に視認可能であるような様式において、コンピューティングデバイスによって提供される情報を視覚的に受信することを可能にすることができる。そのようなシステムは、文字、画像効果、テキスト、グラフィック、または任意の種類のビデオ等、従来のコンピュータ画面上に表示され得る任意の形態の情報を表示するために使用されることができる。ARDは、ARディスプレイを含むことができ、それは、片眼もしくは両眼またはVRディスプレイの正面に装着されるシースルーディスプレイであることができる。ARDは、オーディオセンサも含むことができ、それは、ユーザまたはユーザの環境内の他の人物による発話を含むオーディオ情報を捕捉することができる。
ARDは、ワードフロー注釈システムを実装することができる。ワードフロー注釈システムは、ARDの発話認識、稀な単語の検出、および表示能力を組み合わせ、ユーザに、単語またはユーザに適切な補助情報を提供することができる。例として、第1のユーザのためのARDは、第1のユーザが第2のユーザと通信するテレプレゼンスセッション中、ネットワークを介して、オーディオ情報を受信することができる。ワードフロー注釈システムは、第2のユーザからのオーディオ情報内の発話を検出することができ、検出された発話をテキストに変換し、変換されたテキスト内の稀な単語を検索し、検出された稀な単語に関連付けられた補助情報を読み出すことができる。ARDは、補助情報をARDのARディスプレイ上に表示することができる。システムは、閾値期間が経過した後、またはシステムが別の稀な単語を検出すると、補助情報の表示を閉じることができ、それは、有利には、依然として、稀な単語についての有用な補助情報を提供しながら、第1のユーザへの注意を逸らすもののレベルを低減させ得る。稀な辞書単語に対して、単語の意味(例えば、定義)が、表示されることができる。稀な適切な名詞(例えば、地理的領域、人物の名前等)に対して、適切な源(例えば、百科事典)からの関連情報が、表示されることができる。システムが提供し得る注釈の種類は、例えば、インターネット上の膨大な利用可能な情報リソースと同様に無限であり得る。いくつかの実装では、システムは、変換されたテキスト(稀な単語についての情報に加えて、またはその代替として)を、ディスプレイの装着者に、例えば、キャプションまたは発話の吹き出し(時として、コールアウトボックスとも称される)の形態で、テキストの話者の近傍に表示する。いくつかの実装では、補助情報の表示は、視覚的(例えば、前述のキャプションまたは発話の吹き出し)である。しかしながら、他の実装では、視覚的ディスプレイに加えて、またはその代替として、補助情報は、ユーザに聴覚的に提示されることができる(視覚障害ユーザのために有利であり得る)。
稀な単語に加えて、またはその代替として、類似技法が、他のキーワードにも、これらのキーワードのいくつかが稀ではない場合でも、適用されることができる。ARDは、ユーザの環境内の着目オブジェクト(例えば、ユーザが典型的には遭遇しない、オブジェクト)を検出し、着目オブジェクトに関連する補助情報を表示することができる。本明細書に説明されるキーワードおよび稀な単語は、単一単語、語句、または文を含むことができる。
さらに、会話は、多くの場合、複数の話題を伴う。ARDは、会話中のキーワードを識別し、キーワードに基づいて、会話中の話題を識別することができる。ARDは、会話に関連付けられたテキストを異なるコンテキストスレッドに分離することができ、各スレッドは、1つ以上の話題に対応する。有利には、それは、ARDが、異なるコンテキストスレッドを異なるように提示するユーザインターフェース(UI)を提供することができる(例えば、ARディスプレイの両側で)ので、会話に関わる考えおよび要点のユーザの理解を促進することができる。
(ウェアラブルシステムの3Dディスプレイの例)
ウェアラブルシステム(本明細書では、拡張現実(AR)システムとも称される)は、2Dまたは3D仮想画像をユーザに提示するために構成されることができる。画像は、組み合わせにおける静止画像、ビデオのフレーム、またはビデオ等であり得る。ウェアラブルシステムの少なくとも一部は、ユーザ相互作用のために、単独で、または組み合わせて、VR、AR、またはMR環境を提示し得るウェアラブルデバイス上に実装されることができる。ウェアラブルデバイスは、頭部搭載型デバイス(HMD)であることができ、それは、ARデバイス(ARD)と同義的に使用される。さらに、本開示の目的のために、用語「AR」は、用語「MR」と同義的に使用される。
図1は、人物によって視認される、ある仮想現実オブジェクトおよびある物理的オブジェクトを伴う複合現実シナリオの例証を描写する。図1では、MR場面100が、描写され、MR技術のユーザは、人々、木々、背景における建物、およびコンクリートプラットフォーム120を特徴とする実世界公園状設定110を見る。これらのアイテムに加え、MR技術のユーザは、実世界プラットフォーム120上に立っているロボット像130と、マルハナバチの擬人化のように見える、飛んでいる漫画のようなアバタキャラクタ140も「見える」と知覚するが、これらの要素は、実世界には存在しない。
3Dディスプレイが、真の深度感覚を生成するために、より具体的には、表面深度のシミュレートされた感覚を生成するために、ディスプレイの視野内の各点のために、その仮想深度に対応する遠近調節応答を生成することが望ましくあり得る。ディスプレイ点に対する遠近調節応答が、収束および立体視の両眼深度キューによって決定されるようなその点の仮想深度に対応しない場合、ヒトの眼は、遠近調節衝突を体験し、それは、不安定な結像、有害な眼精疲労、頭痛をもたらし、遠近調節情報の不在下では、表面深度のほぼ完全な欠如をもたらし得る。
VR、AR、およびMR体験は、複数の深度平面に対応する画像が視認者に提供されるディスプレイを有するディスプレイシステムによって提供されることができる。画像は、各深度平面に対して異なり得(例えば、場面またはオブジェクトの若干異なる提示を提供する)、画像は、視認者の眼によって別個に集中させられ、それによって、異なる深度平面上に位置する場面のための異なる画像特徴を焦点に集めるために要求される眼の遠近調節に基づいて、または、焦点はずれである異なる深度平面上の異なる画像特徴を観察することに基づいて、ユーザに深度キューを提供することに役立ち得る。本明細書のいずれかに議論されるように、そのような深度キューは、信用できる深度の知覚を提供する。
図2は、ウェアラブルシステム200の例を図示し、それは、AR/VR/MR場面を提供するように構成されることができ、本明細書に説明されるワードフロー注釈システムの実施形態を含むことができる。ウェアラブルシステム200は、ARシステム200とも称され得る。ウェアラブルシステム200は、ディスプレイ220と、ディスプレイ220の機能をサポートするための種々の機械的、電子的モジュールおよびシステムとを含む。ディスプレイ220は、ユーザ、装着者、または視認者210によって装着可能であるフレーム230に結合され得る。ディスプレイ220は、ユーザ210の眼の正面に位置付けられることができる。ディスプレイ220は、AR/VR/MRコンテンツをユーザに提示するができる。ディスプレイ220は、ユーザの頭部上に装着される頭部搭載型ディスプレイを備えていることができる。いくつかの実施形態では、スピーカ240が、フレーム230に結合され、ユーザの外耳道に隣接して位置付けられる(いくつかの実施形態では、示されない別のスピーカが、ユーザの他方の外耳道に隣接して位置付けられ、ステレオ/成形可能音響制御を提供する)。ディスプレイ220は、環境からオーディオストリームを検出し、周囲音を捕捉するためのオーディオセンサ(例えば、マイクロホン)232を含むことができる。いくつかの実施形態では、示されない1つ以上の他のオーディオセンサが、ステレオ音受信を提供するために位置付けられる。ステレオ音受信は、音源の場所を決定するために使用されることができる。ウェアラブルシステム200は、音声または発話認識をオーディオストリームに実施することができる。
ウェアラブルシステム200は、ユーザの周囲の環境内の世界を観察する外向きに面した結像システム464(図4に示される)を含むことができる。ウェアラブルシステム200は、ユーザの眼移動を追跡することができる内向きに面した結像システム462(図4に示される)も含むことができる。内向きに面した結像システムは、一方の眼の移動または両方の眼の移動のいずれかを追跡し得る。内向きに面した結像システム462は、フレーム230に取り付けられ得、結像システム462は、処理モジュール260または270と電気通信し得、処理モジュールは、内向きに面した結像システムによって入手された画像情報を処理し、例えば、ユーザ210の眼の瞳孔の直径もしくは向き、眼の移動、または眼姿勢を決定し得る。
例として、ウェアラブルシステム200は、外向きに面した結像システム464または内向きに面した結像システム462を使用して、ユーザの姿勢の画像を入手することができる。画像は、静止画像、ビデオのフレーム、またはビデオであり得る。
ディスプレイ220は、有線導線または無線接続等によって、ローカルデータ処理モジュール260に動作可能に結合されることができ(250)、ローカルデータ処理モジュール260は、フレーム230に固定して取り付けられるユーザによって装着されること、ヘルメットもしくは帽子に固定して取り付けられること、ヘッドホンに内蔵されること、または別様にユーザ210に除去可能に取り付けられること(例えば、リュック式構成において、ベルト結合式構成において)等、種々の構成において搭載され得る。
ローカル処理およびデータモジュール260は、ハードウェアプロセッサおよび不揮発性メモリ(例えば、フラッシュメモリ)等のデジタルメモリを備え得、その両方は、データの処理、キャッシング、および記憶を補助するために利用され得る。データは、画像捕捉デバイス(例えば、内向きに面した結像システムおよび/または外向きに面した結像システム内のカメラ)、オーディオセンサ(例えば、マイクロホン)、慣性測定ユニット(IMU)、加速度計、コンパス、全地球測位システム(GPS)ユニット、無線デバイス、もしくはジャイロスコープ等の(例えば、フレーム230に動作可能に結合されるか、または別様にユーザ210に取り付けられ得る)センサから捕捉されるデータ(a)、または場合によっては処理もしくは読み出し後にディスプレイ220に渡すために、遠隔処理モジュール270もしくは遠隔データリポジトリ280を使用して入手もしくは処理されるデータ(b)を含み得る。ローカル処理およびデータモジュール260は、これらの遠隔モジュールがローカル処理およびデータモジュール260へのリソースとして利用可能であるように、有線または無線通信リンク等を介して、通信リンク262または264を遠隔処理モジュール270または遠隔データリポジトリ280に動作可能に結合され得る。加えて、遠隔処理モジュール280および遠隔データリポジトリ280は、互いに動作可能に結合され得る。
いくつかの実施形態では、遠隔処理モジュール270は、データまたは画像情報を分析および処理するように構成される1つ以上のプロセッサを備え得る。いくつかの実施形態では、遠隔データリポジトリ280は、デジタルデータ記憶設備を備え得、それは、インターネットまたは「クラウド」リソース構成における他のネットワーキング構成を通して利用可能であり得る。いくつかの実施形態では、全てのデータが、記憶され、全ての算出が、ローカル処理およびデータモジュールにおいて実施され、遠隔モジュールからの完全に自律的な使用を可能にする。
ヒト視覚系は、複雑であり、深度の現実的知覚を提供することは、困難である。理論によって限定されるわけではないが、オブジェクトの視認者は、両眼離反運動と遠近調節との組み合わせにより、オブジェクトを3次元として知覚し得ると考えられる。互いに対する2つの眼の両眼離反運動移動(すなわち、眼の視線を集中させ、オブジェクトに固定するための互いに向かい、またはそこから離れる瞳孔の回転)は、眼の水晶体の焦点合わせ(または「遠近調節」)と緊密に関連付けられる。通常条件下、焦点を1つのオブジェクトから異なる距離における別のオブジェクトに変化させるための眼のレンズの焦点の変化または眼の遠近調節は、「遠近調節−両眼離反運動反射」として知られる関係下、同一距離にたいする両眼離反運動の調和した変化を自動的に生じさせるであろう。同様に、両眼離反運動の変化は、通常条件下、遠近調節の調和した変化を誘起するであろう。遠近調節と両眼離反運動との間のより良好な調和を提供するディスプレイシステムは、3次元画像のより現実的かつ快適なシミュレーションを形成し得る。
図3は、複数の深度平面を使用して3次元画像をシミュレートするためのアプローチの側面を図示する。図3を参照すると、眼302および304からのz−軸上の種々の距離におけるオブジェクトは、それらのオブジェクトが焦点が合っているように、眼302および304によって遠近調節される。眼302および304は、特定の遠近調節された状態をとり、オブジェクトをz−軸に沿った異なる距離を焦点に集める。その結果、特定の遠近調節された状態は、深度平面306のうちの特定の1つに関連付けられていると言え、それは、関連付けられた焦点距離を有し、それによって、特定の深度平面におけるオブジェクトまたはオブジェクトの一部は、眼がその深度平面に対して遠近調節された状態にあるとき、焦点が合っている。いくつかの実施形態では、3次元画像は、眼302および304の各々に画像の異なる提示を提供することによって、および、深度平面の各々に対応する画像の異なる提示を提供することによっても、シミュレートされ得る。例証を明確にするために、別個であるように示されるが、眼302および304の視野は、例えば、z−軸に沿った距離が増加するにつれて、重複し得ることを理解されたい。加えて、例証を容易にするために、平坦であるように示されるが、深度平面の等高線は、深度平面内の全ての特徴が特定の遠近調節された状態における眼で焦点が合っているように物理的空間内で湾曲され得ることを理解されたい。理論によって限定されるわけではないが、ヒトの眼は、典型的には、有限数の深度平面を解釈し、深度知覚を提供することができると考えられる。その結果、知覚された深度の高度に真実味のあるシミュレーションが、眼にこれらの限定数の深度平面の各々に対応する画像の異なる提示を提供することによって達成され得る。
(導波管スタックアセンブリ)
図4は、画像情報をユーザに出力するための導波管スタックの例を図示する。ウェアラブルシステム400は、複数の導波管432b、434b、436b、438b、4400bを使用して、3次元知覚を眼/脳に提供するために利用され得る導波管のスタックまたはスタックされた導波管アセンブリ480を含む。いくつかの実施形態では、ウェアラブルシステム400は、図2のウェアラブルシステム200に対応し得、図4は、そのウェアラブルシステム200のいくつかの部分をより詳細に概略的に示す。例えば、いくつかの実施形態では、導波管アセンブリ480は、図2のディスプレイ220の中に統合され得る。
図4を継続して参照すると、導波管アセンブリ480は、複数の特徴458、456、454、452を導波管間に含み得る。いくつかの実施形態では、特徴458、456、454、452は、レンズであり得る。他の実施形態では、特徴458、456、454、452は、レンズではないこともある。むしろ、それらは、単に、スペーサであり得る(例えば、空気間隙を形成するためのクラッディング層または構造)。
導波管432b、434b、436b、438b、440bまたは複数のレンズ458、456、454、452は、種々のレベルの波面曲率または光線発散を用いて、画像情報を眼に送信するように構成され得る。各導波管レベルは、特定の深度平面に関連付けられ得、それは、その深度平面に対応する画像情報を出力するように構成され得る。画像投入デバイス420、422、424、426、428は、導波管440b、438b、436b、434b、432bの中に画像情報を投入するために利用され得、それらの各々は、眼410に向かって出力するために、各それぞれの導波管に入射光を分配するように構成され得る。光は、画像投入デバイス420、422、424、426、428の出力表面から出射し、導波管440b、438b、436b、434b、432bの対応する入力縁の中に投入される。いくつかの実施形態では、光の単一ビーム(例えば、コリメートされたビーム)が、各導波管の中に投入され、各導波管は、特定の導波管に関連付けられた深度平面に対応する特定の角度(および発散量)において眼410に向かわせられるクローン化されたコリメートビームの場全体を出力し得る。
いくつかの実施形態では、画像投入デバイス420、422、424、426、428の各々は、それぞれの対応する導波管440b、438b、436b、434b、432bの中への投入のための画像情報を生成する個別的なディスプレイである。いくつかの他の実施形態では、画像投入デバイス420、422、424、426、428は、例えば、画像情報を1つ以上の光学導管(光ファイバケーブル等)を介して、画像投入デバイス420、422、424、426、428の各々に送り得る単一の多重化されたディスプレイの出力端である。
コントローラ460が、スタックされた導波管アセンブリ480および画像投入デバイス420、422、424、426、428の動作を制御する。コントローラ460は、導波管440b、438b、436b、434b、432bへの画像情報のタイミングおよび提供を調整するプログラミング(例えば、非一過性コンピュータ読み取り可能な媒体内の命令)を含む。いくつかの実施形態では、コントローラ460は、単一一体型デバイスまたは有線もしくは無線通信チャネルによって接続される分散型システムであり得る。コントローラ460は、いくつかの実施形態では、処理モジュール260または270(図2に図示される)の一部であり得る。
導波管440b、438b、436b、434b、432bは、全内部反射(TIR)によって各それぞれの導波管内で光を伝搬するように構成され得る。導波管440b、438b、436b、434b、432bの各々は、主要な上部および底部表面と、それらの主要上部表面と底部表面との間に延びている縁とを伴う平面である、または別の形状(例えば、湾曲)を有し得る。図示される構成では、導波管440b、438b、436b、434b、432bの各々は、光を向け直し、各それぞれの導波管内で伝搬させ、導波管から外に画像情報を眼410に出力することによって、光を導波管から外に抽出するように構成される光抽出光学要素440a、438a、436a、434a、432aを含み得る。抽出された光は、外部結合光とも称され得、光抽出光学要素は、外部結合光学要素とも称され得る。抽出される光のビームは、導波管内を伝搬する光が光向け直し要素に衝打する場所において導波管によって出力される。光抽出光学要素(440a、438a、436a、434a、432a)は、例えば、反射または回折光学特徴であり得る。説明の容易性および図面の明確性のために、導波管440b、438b、436b、434b、432bの底部主要表面に配置されて図示されるが、いくつかの実施形態では、光抽出光学要素440a、438a、436a、434a、432aは、上部もしくは底部主要表面に配置され得るか、または導波管440b、438b、436b、434b、432bの体積内に直接配置され得る。いくつかの実施形態では、光抽出光学要素440a、438a、436a、434a、432aは、透明基板に取り付けられ、導波管440b、438b、436b、434b、432bを形成する材料の層内に形成され得る。いくつかの他の実施形態では、導波管440b、438b、436b、434b、432bは、材料のモノリシック部品であり得、光抽出光学要素440a、438a、436a、434a、432aは、材料のその部品の表面上および/またはその内部に形成され得る。
図4を継続して参照すると、本明細書に議論されるように、各導波管440b、438b、436b、434b、432bは、光を出力し、特定の深度平面に対応する画像を形成するように構成される。例えば、眼に最も近い導波管432bは、そのような導波管432bの中に投入されると、コリメートされた光を眼410に送達するように構成され得る。コリメートされた光は、光学無限遠焦点面を表し得る。次の導波管434bは、眼410に到達し得る前、第1のレンズ452(例えば、負のレンズ)を通過するコリメートされた光を送出するように構成され得る。第1のレンズ452は、眼/脳が、その次の上方の導波管434bから生じる光を光学無限遠から眼410に向かって内向きにより近い第1の焦点面から生じるように解釈するように、若干の凸面波面曲率を生成するように構成され得る。同様に、第3の上方の導波管436bは、眼410に到達する前、その出力光を第1のレンズ452および第2のレンズ454の両方を通過させる。第1および第2のレンズ452、454の組み合わせられた屈折力は、眼/脳が、第3の導波管436bから生じる光が次の上方の導波管434bからの光であった光学無限遠から人物に向かって内向きにさらにより近い第2の焦点面から生じるように解釈するように、波面曲率の別の漸増量を生成するように構成され得る。
他の導波管層(例えば、導波管438b、440b)およびレンズ(例えば、レンズ456、458)も同様に構成され、スタック内の最も高い導波管440bを用いて、人物に最も近い焦点面を表す集約焦点力のために、その出力をそれと眼との間のレンズの全てを通して送出する。スタックされた導波管アセンブリ480の他側の世界470から生じる光を視認/解釈するとき、レンズ458、456、454、452のスタックを補償するために、補償レンズ層430が、スタックの上部に配置され、下方のレンズスタック458、456、454、452の集約力を補償し得る。そのような構成は、利用可能な導波管/レンズ対と同じ数の知覚される焦点面を提供する。導波管の光抽出光学要素およびレンズの焦点合わせ側面の両方は、静的であり得る(例えば、動的または電気活性ではない)。いくつかの代替実施形態では、一方または両方は、電気活性特徴を使用して動的であり得る。
図4を継続して参照すると、光抽出光学要素440a、438a、436a、434a、432aは、光をそのそれぞれの導波管から外に向け直すことと、導波管に関連付けられた特定の深度平面のための適切な発散またはコリメーション量を伴うこの光を出力することとの両方のために構成され得る。その結果、異なる関連付けられた深度平面を有する導波管は、関連付けられた深度平面に応じて、異なる量の発散を伴う光を出力する異なる構成の光抽出光学要素を有し得る。いくつかの実施形態では、本明細書に議論されるように、光抽出光学要素440a、438a、436a、434a、432aは、特定の角度において光を出力するように構成され得る立体または表面特徴であり得る。例えば、光抽出光学要素440a、438a、436a、434a、432aは、体積ホログラム、表面ホログラム、および/または回折格子であり得る。回折格子等の光抽出光学要素は、2015年6月25日に公開された米国特許公開第2015/0178939号(参照することによってその全体として本明細書に組み込まれる)に説明される。
いくつかの実施形態では、光抽出光学要素440a、438a、436a、434a、432aは、回折パターンを形成する回折特徴、すなわち、「回折光学要素」(本明細書では、「DOE」とも称される)である。好ましくは、DOEは、比較的に低回折効率を有し、それによって、ビームの光の一部のみが、DOEの各交差によって眼410に向かって偏向される一方、残りが、全内部反射を介して、導波管を通って移動し続ける。画像情報を搬送する光は、したがって、複数の場所において導波管から出射するいくつかの関連出射ビームに分割され、その結果は、導波管内で跳ね返るこの特定のコリメートされたビームに対して、眼304に向う非常に均一なパターンの出射放出である。
いくつかの実施形態では、1つ以上のDOEは、それらが能動的に回折する「オン」状態と、有意に回折しない「オフ」状態との間で切り替え可能であり得る。例えば、切り替え可能なDOEは、ポリマー分散液晶の層を備え得、その中で、微小液滴は、ホスト媒体中の回折パターンを備え、微小液滴の屈折率は、ホスト材料の屈折率に実質的に合致するように切り替えられることができ(その場合、パターンは、入射光を感知できるほどに回折しない)、微小液滴は、ホスト媒体のそれに合致しない屈折率に切り替えられることもできる(その場合、パターンは、入射光を能動的に回折する)。
いくつかの実施形態では、深度平面または被写界深度の数および分布は、視認者の眼の瞳孔サイズまたは向きに基づいて、動的に変動させられ得る。被写界深度は、視認者の瞳孔サイズと反比例して変化し得る。その結果、視認者の眼の瞳孔のサイズが減少するにつれて、被写界深度は、増加し、それによって、その平面の場所が眼の焦点深度を越えるので判別不能である1つの平面が、判別可能となり、瞳孔サイズの低減および被写界深度の相当する増加に伴って、より焦点が合って見え得る。同様に、異なる画像を視認者に提示するために使用される間隔を置かれた深度平面の数は、減少させられた瞳孔サイズに伴って減少させられ得る。例えば、視認者は、一方の深度平面から他方の深度平面への眼の遠近調節を調節せずに第1の深度平面および第2の深度平面の両方の詳細を1つの瞳孔サイズにおいて明確に知覚することが可能ではないこともある。しかしながら、これらの2つの深度平面は、別の瞳孔サイズにおけるユーザに対して、遠近調節を変化させることなく同時に十分に焦点が合っていることもある。
いくつかの実施形態では、ディスプレイシステムは、瞳孔サイズまたは向きの決定に基づいて、または、特定の瞳孔サイズまたは向きを示す電気信号の受信に応じて、画像情報を受信する導波管の数を変動させ得る。例えば、ユーザの眼が、2つの導波管に関連付けられた2つの深度平面間を区別不能である場合、コントローラ460(ローカル処理およびデータモジュール260であり得る)は、これらの導波管のうちの1つへの画像情報の提供を停止するように構成またはプログラムされることができる。有利には、それは、システムへの処理負担を低減させ、それによって、システムの応答性を増加させ得る。導波管のためのDOEがオンおよびオフ状態間で切り替え可能である実施形態では、DOEは、導波管が画像情報を受信すると、オフ状態に切り替えられ得る。
いくつかの実施形態では、出射ビームに視認者の眼の直径未満の直径を有するという条件を満たさせることが望ましくあり得る。しかしながら、この条件を満たすことは、視認者の瞳孔のサイズの変動性に照らして、困難であり得る。いくつかの実施形態では、この条件は、視認者の瞳孔のサイズの決定に応答して出射ビームのサイズを変動させることによって、広範囲の瞳孔サイズにわたって満たされる。例えば、瞳孔サイズが減少するにつれて、出射ビームのサイズも、減少し得る。いくつかの実施形態では、出射ビームサイズは、可変開口を使用して変動させられ得る。
ウェアラブルシステム400は、世界470の一部を結像する外向きに面した結像システム464(例えば、デジタルカメラ)を含むことができる。世界470のこの部分は、世界カメラの視野(FOV)と称され得、結像システム464は、時として、FOVカメラとも称される。世界カメラのFOVは、視認者210のFOVと同一であることも、そうでないこともあり、それは、視認者210が所与の時間に知覚する世界470の一部を包含する。例えば、いくつかの状況では、世界カメラのFOVは、ウェアラブルシステム400の視認者210の視野より大きくあり得る。視認者による視認または結像のために利用可能な領域全体は、動眼視野(FOR)と称され得る。FORは、装着者が、その身体、頭部、または眼を移動させ、空間内の実質的に任意の方向を知覚することができるので、ウェアラブルシステム400を包囲する4πステラジアンの立体角を含み得る。他のコンテキストでは、装着者の移動は、より抑制され得、それに応じて、装着者のFORは、より小さい立体角に対し得る。外向きに面した結像システム464から得られた画像は、ユーザによって行われるジェスチャ(例えば、手または指のジェスチャ)を追跡し、ユーザの正面における世界470内のオブジェクトを検出する等のために、使用されることができる。
ウェアラブルシステム400は、オーディオセンサ232、例えば、マイクロホンを含み、周囲音を捕捉することができる。上で説明されるように、いくつかの実施形態では、1つ以上の他のオーディオセンサが、発話源の場所の決定に有用なステレオ音受信を提供するために位置付けられることができる。オーディオセンサ232は、別の例として、指向性マイクロホンを備えていることができ、それは、オーディオ源が位置する場所に関するそのような有用な指向性情報も提供することができる。ウェアラブルシステム400は、発話源を位置特定することにおいて、または特定の瞬間におけるアクティブ話者を決定するため等に、外向きに面した結像システム464およびオーディオセンサ230の両方からの情報を使用することができる。例えば、ウェアラブルシステム400は、単独で、または話者の反射された画像(例えば、鏡に見られるように)と組み合わせて、音声認識を使用し、話者の識別を決定することができる。別の例として、ウェアラブルシステム400は、指向性マイクロホンから入手された音に基づいて、環境内の話者の位置を決定することができる。ウェアラブルシステム400は、発話認識アルゴリズムを用いて、話者の位置から生じる音を解析し、発話のコンテンツを決定し、音声認識技法を使用して、話者の識別(例えば、名前または他の人口統計情報)を決定することができる。
ウェアラブルシステム400は、眼移動および顔移動等のユーザの移動を観察する内向きに面した結像システム466(例えば、デジタルカメラ)も含むことができる。内向きに面した結像システム466は、眼410の画像を捕捉し、眼304の瞳孔のサイズおよび/または向きを決定するために使用され得る。内向きに面した結像システム466は、ユーザが見ている方向(例えば、眼姿勢)を決定することにおける使用のために、またはユーザのバイオメトリック識別のために(例えば、虹彩識別を介して)、画像を得るために使用されることができる。いくつかの実施形態では、少なくとも1つのカメラが、各眼のために、独立して、各眼の瞳孔サイズまたは眼姿勢を別個に決定し、それによって、各眼への画像情報の提示がその眼に対して動的に調整されることを可能にするために利用され得る。いくつかの他の実施形態では、単一の眼410のみの瞳孔直径または向きが、決定され(例えば、対の眼あたり単一カメラのみを使用して)、ユーザの両眼に対して同様であると仮定される。内向きに面した結像システム466によって得られる画像は、ユーザに提示されるべきオーディオまたは視覚的コンテンツを決定するためにウェアラブルシステム400によって使用され得るユーザの眼姿勢または気分を決定するために分析され得る。ウェアラブルシステム400は、IMU、加速度計、ジャイロスコープ等のセンサを使用して、頭部姿勢(例えば、頭部位置または頭部向き)も決定し得る。
ウェアラブルシステム400は、ユーザが、コマンドをコントローラ460に入力し、ウェアラブルシステム400と相互作用し得るユーザ入力デバイス466を含むことができる。例えば、ユーザ入力デバイス466は、トラックパッド、タッチスクリーン、ジョイスティック、多自由度(DOF)コントローラ、容量感知デバイス、ゲームコントローラ、キーボード、マウス、指向性パッド(Dパッド)、ワンド、触知デバイス、トーテム(例えば、仮想ユーザ入力デバイスとして機能する)等を含むことができる。マルチDOFコントローラは、コントローラの一部または全部の可能な平行移動(例えば、左/右、前方/後方、もしくは上/下)または回転(例えば、ヨー、ピッチ、もしくはロール)におけるユーザ入力を感知することができる。平行移動をサポートするマルチDOFコントローラは、3DOFと称され得る一方、平行移動および回転をサポートするマルチDOFコントローラは、6DOFと称され得る。ある場合、ユーザは、指(例えば、親指)を使用して、タッチセンサ式入力デバイスを押し、またはその上でスワイプし、入力をウェアラブルシステム400に提供し得る(例えば、ユーザ入力をウェアラブルシステム400によって提供されるユーザインターフェースに提供するために)。ユーザ入力デバイス466は、ウェアラブルシステム400の使用中、ユーザの手によって保持され得る。ユーザ入力デバイス466は、ウェアラブルシステム400と有線または無線通信することができる。
図5は、導波管によって出力された出射ビームの例を示す。1つの導波管が、図示されるが、導波管アセンブリ480内の他の導波管も、同様に機能し得、導波管アセンブリ480は、複数の導波管を含むことを理解されたい。光520が、導波管432bの入力縁432cにおいて導波管432bの中に投入され、TIRによって導波管432b内を伝搬する。光520がDOE432aに衝突する点において、光の一部が、出射ビーム510として導波管から出射する。出射ビーム510は、実質的に平行として図示されるが、それらは、導波管432bに関連付けられた深度平面に応じて、ある角度で眼410に伝搬するようにも向け直され得る(例えば、発散出射ビーム形成)。実質的に平行出射ビームは、光を外部結合し、眼410から遠距離(例えば、光学無限遠)における深度平面に設定されるように見える画像を形成する光抽出光学要素を伴う導波管を示し得ることを理解されたい。他の導波管または他の光抽出光学要素の組は、より発散する出射ビームパターンを出力し得、それは、眼410がより近い距離に遠近調節し、それを網膜上に焦点に集めることを要求し、光学無限遠より眼410に近い距離からの光として脳によって解釈されるであろう。
図6は、導波管装置を含む光学システムと、光を導波管装置へまたはそこから光学的に結合するための光学結合器サブシステムと、制御サブシステムとを示す概略図であり、それらは、多焦点立体ディスプレイ、画像、または明視野の生成において使用される。光学システムは、導波管装置と、光を導波管装置にまたはそこから光学的に結合するための光学結合器サブシステムと、制御サブシステムとを含むことができる。光学システムは、多焦点立体、画像、または明視野を生成するために使用されることができる。光学システムは、1つ以上の一次平面導波管632a(1つのみのが図6に示される)と、一次導波管632aの少なくともいくつかの各々に関連付けられた1つ以上のDOE632bとを含むことができる。平面導波管632bは、図4を参照して議論される導波管432b、434b、436b、438b、440bに類似することができる。光学システムは、分配導波管装置を採用し、光を第1の軸(図6の図では、垂直またはY−軸)に沿って中継し、第1の軸(例えば、Y−軸)に沿って光の有効射出瞳を拡張させ得る。分配導波管装置は、例えば、分配平面導波管622bと、分配平面導波管622bに関連付けられた少なくとも1つのDOE622a(二重破線によって図示される)とを含み得る。分配平面導波管622bは、少なくともいくつかの点において、それと異なる向きを有する一次平面導波管632bと類似または同じであり得る。同様に、少なくとも1つのDOE622aは、少なくともいくつかの点において、DOE632aと類似または同じであり得る。例えば、分配平面導波管622bまたはDOE622aは、それぞれ、一次平面導波管632bまたはDOE632aと同一材料から成り得る。図6に示される光学ディスプレイシステム600の実施形態は、図2に示されるウェアラブルシステム200の中に統合されることができる。
中継され、射出瞳が拡張された光は、分配導波管装置から1つ以上の一次平面導波管632bの中に光学的に結合され得る。一次平面導波管632bは、好ましくは、第1の軸に直交する第2の軸(例えば、図6の図では、水平またはX−軸)に沿って、光を中継することができる。着目すべきこととして、第2の軸は、第1の軸に対して非直交軸であることができる。一次平面導波管632bは、その第2の軸(例えば、X−軸)に沿って、光の有効射出瞳を拡張させる。例えば、分配平面導波管622bは、光を垂直またはY−軸に沿って中継および拡張させ、光を水平またはX−軸に沿って中継および拡張させ得る一次平面導波管632bにその光を通すことができる。
光学システムは、単一モード光ファイバ640の近位端の中に光学的に結合され得る1つ以上の着色光源(例えば、赤色、緑色、および青色レーザ光)610を含み得る。光ファイバ640の遠位端は、圧電材料の中空管642に通され、または受け取られ得る。遠位端は、固定されない可撓性カンチレバー644として、管642から突出する。圧電管642は、4つの象限電極(図示せず)に関連付けられることができる。電極は、例えば、管642の外側、外側表面もしくは外側周縁、または直径にメッキされ得る。コア電極(図示せず)も、管642のコア、中心、内側周縁、または内径に位置し得る。
例えば、ワイヤ660を介して電気的に結合される駆動電子機器650は、対向する対の電極を駆動し、圧電管642を独立して2つの軸において曲げる。光ファイバ644の突出する遠位先端は、機械的共鳴モードを有する。共鳴の周波数は、光ファイバ644の直径、長さ、および材料性質に依存し得る。圧電管642をファイバカンチレバー644の第1の機械的共鳴モードの近傍で振動させることによって、ファイバカンチレバー644は、振動させられ、大きな撓みを通して掃引することができる。
2つの軸において共振振動を刺激することによって、ファイバカンチレバー644の先端は、2次元(2−D)走査を占めるエリア内において2軸方向に走査される。光源610の強度をファイバカンチレバー644の走査と同期して変調することによって、ファイバカンチレバー644から発せられる光は、画像を形成することができる。そのような設定の説明は、米国特許公開第2014/0003762号(参照することによってその全体として本明細書に組み込まれる)に提供されている。
光学結合器サブシステムのコンポーネントは、走査ファイバカンチレバー644から発せられる光をコリメートすることができる。コリメートされた光は、鏡面表面648によって、少なくとも1つの回折光学要素(DOE)622aを含む狭い分配平面導波管622bの中に反射されることができる。コリメートされた光は、TIRによって分配平面導波管622bに沿って(図6の図に対して)垂直に伝搬し、そうすることによって、DOE622aと繰り返し交差することができる。DOE622aは、好ましくは、低回折効率を有する。これは、光の一部(例えば、10%)がDOE622aとの交差の各点においてより大きい一次平面導波管632bの縁に向かって回折されるようにし、光の一部がTIRを介して分配平面導波管622bの長さに沿ってそのオリジナル軌道上で継続するようにする。
DOE622aとの交差の各点において、追加の光が、一次導波管632bの入口に向かって回折されることができる。入射光を複数の外部結合組に分割することによって、光の射出瞳は、分配平面導波管622b内のDOE622aによって垂直に拡張されることができる。分配平面導波管622bから外部結合されたこの垂直に拡張された光は、一次平面導波管632bの縁に進入することができる。
一次導波管632bに進入する光は、TIRを介して、一次導波管632bに沿って(図6の図に対して)水平に伝搬することができる。光は、TIRを介して一次導波管632bの長さの少なくとも一部に沿って水平に伝搬するにつれて、複数の点においてDOE632aと交差する。DOE632aは、有利には、線形回折パターンおよび放射対称回折パターンの総和である位相プロファイルを有し、光の偏向および集中の両方を生成するように設計または構成され得る。DOE632aは、有利には、ビームの光の一部のみが、DOE632aの各交差において視認者の眼に向かって偏向される一方、光の残りが、TIRを介して、一次導波管632bを通して伝搬し続けるように、低回折効率(例えば、10%)を有し得る。
伝搬する光とDOE632aとの間の交差の各点において、光の一部は、一次導波管632bの隣接面に向かって回折され、光がTIRから逃れ、一次導波管632bの面から出て来ることを可能にする。いくつかの実施形態では、DOE632aの放射対称回折パターンは、加えて、ある焦点レベルを回折された光に与え、個々のビームの光波面を成形(例えば、曲率を与える)することと、ビームを設計された焦点レベルに合致する角度に操向することとの両方を行う。
故に、これらの異なる経路は、異なる角度におけるDOE632aの多重度、焦点レベル、または射出瞳において異なる充填パターンをもたらすことによって、光が一次平面導波管632bの外で結合されることができるようにする。射出瞳における異なる充填パターンは、有利には、複数の深度平面を伴う明視野ディスプレイを生成するために使用されることができる。導波管アセンブリ内の各層またはスタック内の層の組(例えば、3層)が、それぞれの色(例えば、赤色、青色、緑色)を生成するために採用され得る。したがって、例えば、第1の3つの隣接する層の組が、それぞれ、赤色、青色、および緑色光を第1の焦点深度において生成するために採用され得る。第2の3つの隣接する層の組が、それぞれ、赤色、青色、および緑色光を第2の焦点深度において生成するために採用され得る。複数の組が、種々の焦点深度を伴うフル3Dまたは4Dカラー画像明視野を生成するために採用され得る。
(ウェアラブルシステムの他のコンポーネント)
多くの実装では、ウェアラブルシステムは、上で説明されるウェアラブルシステムのコンポーネントに加えて、またはその代替として、他のコンポーネントを含み得る。ウェアラブルシステムは、例えば、1つ以上の触知デバイスまたはコンポーネントを含み得る。触知デバイスまたはコンポーネントは、触覚をユーザに提供するように動作可能であり得る。例えば、触知デバイスまたはコンポーネントは、仮想コンテンツ(例えば、仮想オブジェクト、仮想ツール、他の仮想構造)に触れると、圧力またはテクスチャの感覚を提供し得る。触覚は、仮想オブジェクトが表す物理的オブジェクトの感覚を再現し得るか、または、仮想コンテンツが表す想像上のオブジェクトもしくはキャラクタ(例えば、ドラゴン)の感覚を再現し得る。いくつかの実装では、触知デバイスまたはコンポーネントは、ユーザによって装着され得る(例えば、ユーザウェアラブルグローブ)。いくつかの実装では、触知デバイスまたはコンポーネントは、ユーザによって保持され得る。
ウェアラブルシステムは、例えば、ユーザによって操作可能であって、ウェアラブルシステムへの入力またはそれとの相互作用を可能にする1つ以上の物理的オブジェクトを含み得る。これらの物理的オブジェクトは、本明細書では、トーテムと称され得る。いくつかのトーテムは、例えば、金属またはプラスチック片、壁、テーブルの表面等、無生物オブジェクトの形態をとり得る。ある実装では、トーテムは、実際には、任意の物理的入力構造(例えば、キー、トリガ、ジョイスティック、トラックボール、ロッカスイッチ)を有していないこともある。代わりに、トーテムは、単に、物理的表面を提供し得、ウェアラブルシステムは、ユーザにトーテムの1つ以上の表面上にあるように見えるように、ユーザインターフェースをレンダリングし得る。例えば、ウェアラブルシステムは、トーテムの1つ以上の表面上に常駐するように見えるように、コンピュータキーボードおよびトラックパッドの画像をレンダリングし得る。例えば、ウェアラブルシステムは、トーテムとしての役割を果たすアルミニウムの薄い長方形プレートの表面上に見えるように、仮想コンピュータキーボードおよび仮想トラックパッドをレンダリングし得る。長方形プレート自体は、任意の物理的キーまたはトラックパッドもしくはセンサを有していない。しかしながら、ウェアラブルシステムは、仮想キーボードまたは仮想トラックパッドを介して行われた選択または入力として、長方形プレートを用いたユーザ操作または相互作用もしくはタッチを検出し得る。ユーザ入力デバイス466(図4に示される)は、トラックパッド、タッチパッド、トリガ、ジョイスティック、トラックボール、ロッカもしくは仮想スイッチ、マウス、キーボード、多自由度コントローラ、または別の物理的入力デバイスを含み得るトーテムの実施形態であり得る。ユーザは、単独で、または姿勢と組み合わせて、トーテムを使用し、ウェアラブルシステムまたは他のユーザと相互作用し得る。
本開示のウェアラブルデバイス、HMD、およびディスプレイシステムと使用可能な触知デバイスおよびトーテムの例は、米国特許公開第2015/0016777号(参照することによってその全体として本明細書に組み込まれる)に説明されている。
(例示的ウェアラブルシステム、環境、およびインターフェース)
ウェアラブルシステムは、高被写界深度をレンダリングされた明視野内で達成するために、種々のマッピング関連技法を採用し得る。仮想世界をマッピングすることにおいて、実世界内の全ての特徴および点を把握し、仮想オブジェクトを実世界に関連して正確に描くことが有利である。この目的を達成するために、ウェアラブルシステムのユーザから捕捉されたFOV画像が、実世界の種々の点および特徴についての情報を伝達する新しい写真を含むことによって、世界モデルに追加されることができる。例えば、ウェアラブルシステムは、マップ点(2D点または3D点等)の組を収集し、新しいマップ点を見出し、世界モデルのより正確なバージョンをレンダリングすることができる。第1のユーザの世界モデルは、第2のユーザが第1のユーザを包囲する世界を体験し得るように、(例えば、クラウドネットワーク等のネットワークを経由して)第2のユーザに通信されることができる。
図7は、MR環境700の例のブロック図である。MR環境700は、入力(例えば、ユーザのウェアラブルシステムからの視覚的入力702、室内カメラ等の静止入力704、種々のセンサからの感覚入力706、ユーザ入力デバイス466からのジェスチャ、トーテム、眼追跡、ユーザ入力等)を1つ以上のユーザウェアラブルシステム(例えば、ウェアラブルシステム200もしくはディスプレイシステム220)または静止室内システム(例えば、室内カメラ等)から受信するように構成され得る。ウェアラブルシステムは、種々のセンサ(例えば、加速度計、ジャイロスコープ、温度センサ、移動センサ、深度センサ、GPSセンサ、内向きに面した結像システム、外向きに面した結像システム等)を使用して、ユーザの環境の場所および種々の他の属性を決定することができる。この情報は、異なる視点からの画像または種々のキューを提供し得る部屋内の静止カメラからの情報でさらに補完され得る。カメラ(室内カメラまたは外向きに面した結像システムのカメラ等)によって入手された画像データは、マッピング点の組にまとめられ得る。
1つ以上のオブジェクト認識装置708が、受信されたデータ(例えば、点の集合)を通してクローリングし、点を認識またはマッピングし、画像をタグ付けし、マップデータベース710の助けを借りて意味情報をオブジェクトに添付することができる。マップデータベース710は、経時的に収集された種々の点およびその対応するオブジェクトを備え得る。種々のデバイスおよびマップデータベースは、ネットワーク(例えば、LAN、WAN等)を通して互いに接続され、クラウドにアクセスすることができる。
この情報およびマップデータベース内の点集合に基づいて、オブジェクト認識装置708a−708nは、環境内のオブジェクトを認識し得る。例えば、オブジェクト認識装置は、顔、人物、窓、壁、ユーザ入力デバイス、テレビ、ドキュメント(例えば、本明細書におけるセキュリティ例において説明されるような旅券、運転免許証、パスポート)、ユーザの環境内の他のオブジェクト等を認識することができる。1つ以上のオブジェクト認識装置が、ある特性を伴うオブジェクト専用にされ得る。例えば、オブジェクト認識装置708aは、顔を認識するために使用され得る一方、別のオブジェクト認識装置は、ドキュメントを認識するために使用され得る。
オブジェクト認識は、種々のコンピュータビジョン技法を使用して実施され得る。例えば、ウェアラブルシステムは、外向きに面した結像システム464(図4に示される)によって入手された画像を分析し、場面再構成、イベント検出、ビデオ追跡、オブジェクト認識(例えば、人物またはドキュメント)、オブジェクト姿勢推定、顔認識(例えば、環境内の人物またはドキュメント上の画像から)、学習、インデックス化、運動推定、または画像分析(例えば、写真、署名、識別情報、旅行情報等のドキュメント内のしるしを識別する)等を実施することができる。1つ以上のコンピュータビジョンアルゴリズムが、これらのタスクを実施するために使用され得る。コンピュータビジョンアルゴリズムの非限定的例は、スケール不変特徴変換(SIFT)、スピードアップロバスト特徴(SURF)、方向付きFASTおよび回転BRIEF(ORB)、バイナリロバスト不変スケーラブルキーポイント(BRISK)、高速網膜キーポイント(FREAK)、Viola−Jonesアルゴリズム、Eigenfacesアプローチ、Lucas−Kanadeアルゴリズム、Horn−Schunkアルゴリズム、Mean−shiftアルゴリズム、視覚的同時位置推定およびマッピング(vSLAM)技法、シーケンシャルベイズ推定器(例えば、カルマンフィルタ、拡張カルマンフィルタ等)、バンドル調節、適応閾値化(および他の閾値化技法)、反復最近傍点(ICP)、セミグローバルマッチング(SGM)、セミグローバルブロックマッチング(SGBM)、特徴点ヒストグラム、種々の機械学習アルゴリズム(例えば、サポートベクトルマシン、k最近傍アルゴリズム、単純ベイズ、ニューラルネットワーク(畳み込みまたは深層ニューラルネットワークを含む)、または他の教師あり/教師なしモデル等)等を含む。
オブジェクト認識は、加えて、または代替として、種々の機械学習アルゴリズムによって実施されることができる。訓練されると、機械学習アルゴリズムは、HMDによって記憶されることができる。機械学習アルゴリズムのいくつかの例は、教師ありまたは教師なし機械学習アルゴリズムを含むことができ、回帰アルゴリズム(例えば、通常の最小2乗回帰等)、インスタンスベースのアルゴリズム(例えば、学習ベクトル量子化等)、決定ツリーアルゴリズム(例えば、分類および回帰ツリー等)、ベイズアルゴリズム(例えば、単純ベイズ等)、クラスタリングアルゴリズム(例えば、k−平均クラスタリング等)、関連付けルール学習アルゴリズム(例えば、アプリオリアルゴリズム等)、人工ニューラルネットワークアルゴリズム(例えば、Perceptron等)、深層学習アルゴリズム(例えば、Deep Boltzmann Machine、すなわち、深層ニューラルネットワーク等)、次元削減アルゴリズム(例えば、主成分分析等)、アンサンブルアルゴリズム(例えば、Stacked Gneralization等)、および/または他の機械学習アルゴリズムを含む。いくつかの実施形態では、個々のモデルは、個々のデータ組のためにカスタマイズされることができる。例えば、ウェアラブルデバイスは、ベースモデルを生成または記憶することができる。ベースモデルは、開始点として使用され、データタイプ(例えば、テレプレゼンスセッション内の特定のユーザ)、データ組(例えば、テレプレゼンスセッション内のユーザの取得される追加の画像の組)、条件付き状況、または他の変形例に特定の追加のモデルを生成し得る。いくつかの実施形態では、ウェアラブルHMDは、複数の技法を利用して、集約されたデータの分析のためのモデルを生成するように構成されることができる。他の技法は、事前に定義された閾値またはデータ値を使用することを含み得る。
マップデータベース内のこの情報および点の集合に基づいて、オブジェクト認識装置708a−708nは、オブジェクトを認識し、オブジェクトを意味情報で補完し、生命をオブジェクトに与え得る。例えば、オブジェクト認識装置が、点の組がドアであることを認識する場合、システムは、いくつかの意味情報を添付し得る(例えば、ドアは、ヒンジを有し、ヒンジを中心として90度移動を有する)。オブジェクト認識装置が、点の組が鏡であることを認識する場合、システムは、鏡が、部屋内のオブジェクトの画像を反射させ得る反射表面を有するという意味情報を添付し得る。意味情報は、本明細書に説明されるように、オブジェクトのアフォーダンスを含むことができる。例えば、意味情報は、オブジェクトの法線を含み得る。システムは、ベクトルを割り当てることができ、その方向は、オブジェクトの法線を示す。経時的に、マップデータベースは、システム(ローカルに常駐し得るか、または無線ネットワークを通してアクセス可能であり得る)がより多くのデータを世界から蓄積するにつれて成長する。オブジェクトが認識されると、情報は、1つ以上のウェアラブルシステムに伝送され得る。例えば、MR環境700は、Californiaで起こっている場面についての情報を含み得る。環境700は、New Yorkにおける1人以上のユーザに伝送され得る。FOVカメラおよび他の入力から受信されたデータに基づいて、オブジェクト認識装置および他のソフトウェアコンポーネントは、場面が世界の異なる部分に存在し得る第2のユーザに正確に「引き渡され」得るように、種々の画像から収集された点をマッピングし、オブジェクトを認識すること等ができる。環境700は、場所特定目的のために、トポロジマップも使用し得る。
図8は、認識されたオブジェクトに関連して仮想コンテンツをレンダリングする方法800の例のプロセスフロー図である。方法800は、仮想場面がウェアラブルシステムのユーザに提示され得る方法を説明する。ユーザは、その場面から地理的に遠隔に存在し得る。例えば、ユーザは、New Yorkに存在し得るが、Californiaで現在起こっている場面を視認することを欲し得るか、またはCaliforniaに存在する友人と散歩に行くことを欲し得る。
ブロック810では、ウェアラブルシステムは、ユーザの環境に関する入力をユーザおよび他のユーザから受信し得る。これは、種々の入力デバイス、およびマップデータベース内にすでに保有されている知識を通して達成され得る。ユーザのFOVカメラ、センサ、GPS、眼追跡等が、ブロック810において、情報をシステムに伝達する。システムは、ブロック820において、この情報に基づいて、まばらな点を決定し得る。まばらな点は、ユーザの周囲における種々のオブジェクトの向きおよび位置を表示およびに理解することにおいて使用され得る姿勢データ(例えば、頭部姿勢、眼姿勢、身体姿勢、または手のジェスチャ)を決定することにおいて使用され得る。オブジェクト認識装置708a−708nは、ブロック830において、これらの収集された点を通してクローリングし、マップデータベースを使用して、1つ以上のオブジェクトを認識し得る。この情報は、次いで、ブロック840において、ユーザの個々のウェアラブルシステムに伝達され得、所望の仮想場面が、ブロック850において、適宜、ユーザに表示され得る。例えば、所望の仮想場面(例えば、CAにおけるユーザ)が、New Yorkにおけるユーザの種々のオブジェクトおよび他の周囲に関連して、適切な向き、位置等において表示され得る。
図9は、ウェアラブルシステムの別の例のブロック図である。この例では、ウェアラブルシステム900は、マップ920を備え、それは、世界のためのマップデータを含むマップデータベース710を含み得る。マップは、ウェアラブルシステム上にローカルに部分的に常駐し得、有線または無線ネットワークによってアクセス可能なネットワーク化された記憶場所(例えば、クラウドシステム内)に部分的に常駐し得る。姿勢プロセス910が、ウェアラブルコンピューティングアーキテクチャ(例えば、処理モジュール260またはコントローラ460)上で実行され、ウェアラブルコンピューティングハードウェアまたはユーザの位置および向きを決定するために、マップ920からのデータを利用し得る。姿勢データは、ユーザがシステムを体験し、その世界内で動作するように、オンザフライで収集されたデータから算出され得る。データは、実または仮想環境内のオブジェクトに関する画像、センサ(概して、加速度計およびジャイロスコープコンポーネントを備えている慣性測定ユニット等)からのデータ、および表面情報を備え得る。
まばらな点の表現は、同時位置特定およびマッピング(例えば、入力が画像/視覚のみである構成を指すSLAMまたはvSLAM)プロセスの出力であり得る。システムは、世界内の種々のコンポーネントの場所のみではなく、世界が構成される内容も見出すように構成されることができる。姿勢は、マップにデータ投入すること、およびマップからのデータを使用することを含む多くの目標を達成する構築ブロックであり得る。
一実施形態では、まばらな点の位置は、それ自体では完全に適正でないこともあり、さらなる情報が、多焦点AR、VR、またはMR体験を生成するために必要とされ得る。概して、深度マップ情報を指す高密度表現が、少なくとも部分的にこの間隙を充填するために利用され得る。そのような情報は、立体視940と称されるプロセスから算出され得、深度情報が、三角測量または飛行時間感知等の技法を使用して決定される。画像情報およびアクティブパターン(アクティブプロジェクタを使用して生成される赤外線パターン等)、画像カメラから入手された画像、または手ジェスチャ/トーテム950が、立体視プロセス940への入力としての役割を果たし得る。有意な量の深度マップ情報が、一緒に融合され得、このうちのいくつかは、表面表現を用いて要約され得る。例えば、数学的に定義可能な表面は、ゲームエンジンのような他の処理デバイスへの効率的(例えば、大点群に対して)かつ要約しやすい入力であり得る。したがって、立体視プロセス(例えば、深度マップ)940の出力は、融合プロセス930において組み合わせられ得る。姿勢910は、同様に、この融合プロセス930への入力であり得、融合930の出力は、マッププロセス920にデータ投入するための入力となる。サブ表面が、トポグラフィマッピング等において、互いに接続し、より大きい表面を形成し得、マップは、点および表面の大規模ハイブリッドとなる。
複合現実プロセス960における種々の側面を解決するために、種々の入力が、利用され得る。例えば、図9に描写される実施形態では、ゲームパラメータは、システムのユーザが1匹以上のモンスタと種々の場所においてモンスタバトルゲームをプレーしていること、モンスタが死んでいること、または種々の条件下で逃げていること(ユーザがモンスタを撃つ場合等)、種々の場所における壁または他のオブジェクト等を決定するための入力であり得る。世界マップは、オブジェクトの場所に関する情報またはオブジェクトの意味情報を含み得、世界マップは、複合現実に対する別の有用な入力であることができる。世界に対する姿勢は、同様に、入力となり、ほぼあらゆる双方向システムに対して重要な役割を果たす。
ユーザからの制御または入力は、ウェアラブルシステム900への別の入力である。本明細書に説明されるように、ユーザ入力は、視覚的入力、ジェスチャ、トーテム、オーディオ入力、感覚入力等を含むことができる。動き回るために、またはゲームをプレーするために、例えば、ユーザは、ウェアラブルシステム900に、ユーザが行うことを欲することに関して命令する必要があり得る。空間内で自ら移動するだけではなく、利用され得る種々の形態のユーザ制御が、存在する。一実施形態では、トーテム(例えば、ユーザ入力デバイス)、または玩具銃等のオブジェクトが、ユーザによって保持され、システムによって追跡され得る。システムは、好ましくは、ユーザがアイテムを保持していることを把握し、ユーザがアイテムと行っている相互作用の種類を理解するように構成されるであろう(例えば、トーテムまたはオブジェクトが、銃である場合、システムは、場所および向きだけではなく、ユーザが、IMU等のセンサを装備し得るトリガまたは他の感知ボタンもしくは要素をクリックしているかどうかも理解するように構成され得、それは、そのようなアクティビティがどのカメラの視野内にないときでも、生じている状況を決定することを補助し得る。)
手のジェスチャ追跡または認識も、入力情報を提供し得る。ウェアラブルシステム900は、ボタン押し下げに対して、左または右、停止、握持、保持等をジェスチャすることに対して、手のジェスチャを追跡および解釈するように構成され得る。例えば、1つの構成では、ユーザは、非ゲーム環境において電子メールまたはカレンダをめくること、または別の人物もしくはプレーヤと「フィストバンプ」を行うことを欲し得る。ウェアラブルシステム900は、動的であることも、そうでないこともある最小量の手のジェスチャを活用するように構成され得る。例えば、ジェスチャは、停止を示すために手を広げること、OKを示すために親指を上げること、OKではないことを示すために親指を下げること、または方向性コマンドを示すために左右もしくは上下に手をフリップすること等、単純な静的ジェスチャであり得る。
眼追跡は、別の入力である(例えば、ユーザが見ている場所を追跡し、ディスプレイ技術を制御し、特定の深度または範囲にレンダリングする)。一実施形態では、眼の両眼離反運動が、三角測量を使用して決定され得、次いで、その特定の人物のために開発された両眼離反運動/遠近調節モデルを使用して、遠近調節が、決定され得る。眼追跡は、眼カメラによって実施され、眼視線(例えば、片眼または両眼の方向もしくは向き)を決定することができる。例えば、眼の近傍に設置された電極による電位の測定(例えば、電気眼球図記録)等、他の技法も、眼追跡のために使用されることができる。
発話追跡は、単独で、または他の入力(例えば、トーテム追跡、眼追跡、ジェスチャ追跡等)と組み合わせて使用され得る別の入力であり得る。発話追跡は、単独で、または組み合わせて、発話認識、音声認識を含み得る。システム900は、オーディオストリームを環境から受信するオーディオセンサ(例えば、マイクロホン)を含むことができる。システム900は、発話している人物(例えば、発話がARDの装着者または別の人物もしくは音声(例えば、環境内のラウドスピーカによって伝送される記録された音声)からのものであるかどうか)を決定するための音声認識技術と、言われていることを決定するための発話認識技術とを組み込むことができる。ローカルデータおよび処理モジュール260または遠隔処理モジュール270は、マイクロホンからのオーディオデータ(または、例えば、ユーザによって鑑賞されているビデオストリーム等の別のストリーム内のオーディオデータ)を処理し、例えば、隠れマルコフモデル、動的時間伸縮法(DTW)ベースの発話認識、ニューラルネットワーク、ディープフィードフォワードおよび再帰ニューラルネットワーク等の深層学習アルゴリズム、エンドツーエンド自動発話認識、機械学習アルゴリズム(図7を参照して説明される)、もしくは音響モデル化または言語モデル化等を使用する他のアルゴリズム等の種々の発話認識アルゴリズムを適用することによって、発話のコンテンツを認識することができる。ある場合、発話は、複数の源から、例えば、ユーザの近傍の別の人物から、人物の近傍で放送されているテレビ上のアナウンサーから、およびスピーカ240を介してARDのユーザに再生されている発話コンテンツから生じるであろう。以下にさらに説明されるように、これらの異なる発話源(例えば、この例では、人物、テレビのアナウンサー、およびオーディオストリーム)は、コンテンツ分析され得、異なる話題が、ARDのユーザインターフェースによって、ユーザに異なるように提示され得る(例えば、異なるスレッドの中に編成される異なる話題、異なるスレッドの中に編成される異なる話者による発話、またはこれらの組み合わせ)。
ローカルデータおよび処理モジュール260または遠隔処理モジュール270も、音声認識アルゴリズムを適用することができ、それは、話者がウェアラブルシステム900のユーザ210であるか、ユーザが会話している別の人物であるか等の話者の識別を識別することができる。いくつかの例示的音声認識アルゴリズムは、頻度推定、隠れマルコフモデル、ガウス混合モデル、パターンマッチングアルゴリズム、ニューラルネットワーク、マトリクス表現、ベクトル量子化、話者ダイアライゼーション、決定ツリー、および動的時間伸縮(DTW)技法を含むことができる。音声認識技法は、コホートモデルおよび世界モデル等のアンチ話者技法も含むことができる。スペクトル特徴は、話者特性を表すことにおいて使用され得る。ローカルデータおよび処理モジュールまたは遠隔データ処理モジュール270は、図7を参照して説明される種々の機械学習アルゴリズムを使用して、音声認識を実施することができる。
ワードフロー注釈システム970の実装は、ユーザインターフェース(UI)を介して、これらのユーザ制御または入力を使用することができる。UI要素(例えば、制御、ポップアップウィンドウ、吹き出し、データエントリフィールド等)が、使用され、例えば、補助情報の表示を閉じること、または単語を一般的単語辞書に追加することができる。そのような実装およびこれらの使用の例は、以下にさらに説明される。
カメラシステムに関して、図9に示される例示的ウェアラブルシステム900は、3つの対のカメラを含むことができる:ユーザの顔の両側に配列される相対的広FOVまたは受動SLAM対のカメラ;ユーザの正面に向けられ、立体視結像プロセス940をハンドリングし、ユーザの顔の正面の手のジェスチャおよびトーテム/オブジェクトの軌道を捕捉することも行うための異なる対のカメラ。ステレオプロセス940に対するFOVカメラおよび対のカメラは、外向きに面した結像システム464(図4に示される)の一部であり得る。ウェアラブルシステム900は、眼ベクトルおよび他の情報を三角測量するために、ユーザの眼に向かって向けられる眼追跡カメラ(図4に示される内向きに面した結像システム462の一部であり得る)を含むことができる。ウェアラブルシステム900は、1つ以上のテクスチャ光プロジェクタ(赤外線(IR)プロジェクタ等)を備え、テクスチャを場面の中に投入し得る。
図10は、ウェアラブルシステムへのユーザ入力を決定する方法1000の例のプロセスフロー図である。この例では、ユーザは、トーテムと相互作用し得る。ユーザは、複数のトーテムを有し得る。例えば、ユーザは、ソーシャルメディアアプリケーションのための指定される1つのトーテム、ゲームをプレーするための別のトーテム等を有し得る。ブロック1010では、ウェアラブルシステムは、トーテムの運動を検出し得る。トーテムの移動は、外向きに面した結像システムを通して認識され得るか、またはセンサ(例えば、触知グローブ、画像センサ、手追跡デバイス、眼追跡カメラ、頭部姿勢センサ等)を通して検出され得る。
少なくとも部分的に、検出されたジェスチャ、眼姿勢、頭部姿勢、またはトーテムを通した入力に基づいて、ウェアラブルシステムは、ブロック1020において、基準フレームに対するトーテム(またはユーザの眼もしくは頭部もしくはジェスチャ)の位置、向き、または移動を検出する。基準フレームは、マップ点の組であり得、それに基づいて、ウェアラブルシステムは、トーテム(またはユーザ)の移動をアクションまたはコマンドに変換する。ブロック1030では、トーテムとのユーザの相互作用が、マッピングされる。基準フレーム1020に対するユーザ相互作用のマッピングに基づいて、システムは、ブロック1040において、ユーザ入力を決定する。
例えば、ユーザは、トーテムまたは物理的オブジェクトを前後に移動させ、仮想ページをめくり、次のページに移動すること、または1つのユーザインターフェース(UI)ディスプレイ画面から別のUI画面に移動することを示し得る。別の例として、ユーザは、ユーザのFOR内の異なる実または仮想オブジェクトを見るために、その頭部または眼を移動させ得る。特定の実または仮想オブジェクトにおけるユーザの注視が閾値時間より長い場合、その実または仮想オブジェクトは、ユーザ入力として選択され得る。いくつかの実装では、ユーザの眼の両眼離反運動が、追跡されることができ、遠近調節/両眼離反運動モデルが、ユーザの眼の遠近調節状態を決定するために使用されることができ、ユーザの眼は、ユーザが集中している深度平面上に情報を提供する。いくつかの実装では、ウェアラブルシステムは、レイキャスティング技法を使用して、ユーザの頭部姿勢または眼姿勢の方向に沿っている実または仮想オブジェクトを決定することができる。種々の実装では、レイキャスティング技法は、実質的に殆ど横幅を伴わない細い光線束を投じること、または、実質的横幅を伴う光線(例えば、円錐または円錐台)を投じることを含むことができる。
ユーザインターフェースは、本明細書に説明されるようなディスプレイシステム(図2におけるディスプレイ220等)によって投影され得る。それは、1つ以上のプロジェクタ等の種々の他の技法を使用して表示され得る。プロジェクタは、画像をキャンバスまたは球体等の物理的オブジェクト上に投影し得る。ユーザインターフェースとの相互作用は、システムの外部またはシステムの一部の1つ以上のカメラを使用して(例えば、内向きに面した結像システム462または外向きに面した結像システム464を使用して)追跡され得る。
図11は、仮想ユーザインターフェースと相互作用する方法1100の例のプロセスフロー図である。方法1100は、本明細書に説明されるウェアラブルシステムによって行われ得る。方法1100の実施形態は、ウェアラブルシステムのFOV内の人物またはドキュメントを検出するためにウェアラブルシステムによって使用されることができる。
ブロック1110では、ウェアラブルシステムは、特定のUIを識別し得る。UIのタイプは、ユーザによって事前に決定され得る。ウェアラブルシステムは、特定のUIがユーザ入力(例えば、ジェスチャ、視覚的データ、オーディオデータ、感覚データ、直接コマンド等)に基づいてデータ投入される必要があることを識別し得る。UIは、セキュリティシナリオに特定であることができ、システムの装着者は、ドキュメントを装着者に提示するユーザを観察する(例えば、旅客検問所において)。ブロック1120では、ウェアラブルシステムは、仮想UIのためのデータを生成し得る。例えば、UIの境界、一般的構造、形状等に関連付けられたデータが、生成され得る。加えて、ウェアラブルシステムは、ウェアラブルシステムがユーザの物理的場所に関連してUIを表示し得るように、ユーザの物理的場所のマップ座標を決定し得る。例えば、UIが、身体中心である場合、ウェアラブルシステムは、リングUIがユーザの周囲に表示され得るか、または平面UIが壁上もしくはユーザの正面に表示され得るように、ユーザの物理的立ち位置、頭部姿勢、または眼姿勢の座標を決定し得る。本明細書に説明されるセキュリティコンテキストでは、UIは、装着者が、旅行者および旅行者のドキュメントを見ている間、UIを容易に視認し得るように、UIがドキュメントをシステムの装着者に提示する旅行者を包囲しているかのように表示され得る。UIが、手中心の場合、ユーザの手のマップ座標が、決定され得る。これらのマップ点は、FOVカメラ、感覚入力を通して受信されたデータ、または任意の他のタイプの収集されたデータを通して導出され得る。
ブロック1130では、ウェアラブルシステムは、データをクラウドからディスプレイに送信し得るか、またはデータは、ローカルデータベースからディスプレイコンポーネントに送信され得る。ブロック1140では、UIは、送信されたデータに基づいて、ユーザに表示される。例えば、明視野ディスプレイは、仮想UIをユーザの眼の一方または両方の中に投影することができる。仮想UIが生成されると、ウェアラブルシステムは、ブロック1150において、単に、より多くの仮想コンテンツを仮想UI上に生成するユーザからのコマンドを待ち得る。例えば、UIは、ユーザの身体またはユーザの環境内の人物(例えば、旅行者)の身体の周囲の身体中心リングであり得る。ウェアラブルシステムは、次いで、コマンド(ジェスチャ、頭部または眼移動、音声コマンド、ユーザ入力デバイスからの入力等)を待ち得、認識される場合(ブロック1160)、コマンドに関連付けられた仮想コンテンツが、ユーザに表示され得る(ブロック1170)。
ウェアラブルシステム、UI、およびユーザ体験(UX)の追加の例は、米国特許公開第2015/0016777号(参照することによってその全体として本明細書に組み込まれる)に説明されている。
(複数のウェアラブルシステム間の例示的通信)
図12は、互いに相互作用する複数のユーザデバイスを描写する全体的システム図を図式的に図示する。コンピューティング環境1200は、ユーザデバイス1230a、1230b、1230cを含む。ユーザデバイス1230a、1230b、および1230cは、ネットワーク1290を通して、互いに通信することができる。ユーザデバイス1230a−1230cの各々は、ネットワークインターフェースを含み、ネットワーク1290を介して、遠隔コンピューティングシステム1220(ネットワークインターフェース1271も含み得る)と通信することができる。ネットワーク1290は、LAN、WAN、ピアツーピアネットワーク、無線、Bluetooth(登録商標)、または任意の他のネットワークであり得る。コンピューティング環境1200は、1つ以上の遠隔コンピューティングシステム1220も含むことができる。遠隔コンピューティングシステム1220は、クラスタ化され、異なる地理的場所に位置するサーバコンピュータシステムを含み得る。ユーザデバイス1230a、1230b、および1230cは、ネットワーク1290を介して、遠隔コンピューティングシステム1220と通信し得る。
遠隔コンピューティングシステム1220は、遠隔データリポジトリ1280を含み得、それは、特定のユーザの物理的および/または仮想世界についての情報を維持することができる。データ記憶装置1280は、一般的単語辞書、補助情報源等のワードフロー注釈に有用な情報を含むことができる。遠隔データリポジトリは、図2に示される遠隔データリポジトリ280の実施形態であり得る。遠隔コンピューティングシステム1220は、遠隔処理モジュール1270も含み得る。遠隔処理モジュール1270は、図2に示される遠隔処理モジュール270の実施形態であり得る。遠隔処理モジュール1270は、1つ以上のプロセッサを含み得、それは、ユーザデバイス(1230a、1230b、1230c)および遠隔データリポジトリ1280と通信することができる。プロセッサは、ユーザデバイスおよび他の源から取得される情報を処理することができる。いくつかの実装では、処理または記憶の少なくとも一部は、ローカル処理およびデータモジュール260(図2に示されるような)によって提供されることができる。遠隔コンピューティングシステム1220は、所与のユーザが、特定のユーザ自身の物理的および/または仮想世界についての情報を別のユーザと共有することを可能にし得る。
ユーザデバイスは、単独で、または組み合わせて、ウェアラブルデバイス(HMDもしくはARD等)、コンピュータ、モバイルデバイス、または任意の他のデバイスであり得る。例えば、ユーザデバイス1230bおよび1230cは、図2に示されるウェアラブルシステム200(または図4に示されるウェアラブルシステム400)の実施形態であり得、それは、AR/VR/MRコンテンツを提示するように構成されることができる。
ユーザデバイスのうちの1つ以上のものは、図4に示されるユーザ入力デバイス466と共に使用されることができる。ユーザデバイスは、ユーザおよびユーザの環境についての情報を取得することができる(例えば、図4に示される外向きに面した結像システム464を使用して)。ユーザデバイスおよび/または遠隔コンピューティングシステム1220は、ユーザからデバイスから取得される情報を使用して、画像、点、および他の情報の集合を構築、更新、および建造することができる。例えば、ユーザデバイスは、入手された未加工情報を処理し、さらなる処理のために、処理された情報を遠隔コンピューティングシステム1220に送信し得る。ユーザデバイスは、処理のために、未加工情報を遠隔コンピューティングシステム1220に送信し得る。ユーザデバイスは、処理された情報を遠隔コンピューティングシステム1220から受信し、ユーザに投影する前、最終処理を提供し得る。ユーザデバイスは、取得された情報を処理し、処理された情報を他のユーザデバイスに渡し得る。ユーザデバイスは、入手された情報を処理する一方、遠隔データリポジトリ1280と通信し得る。複数のユーザデバイスおよび/または複数のサーバコンピュータシステムが、入手された画像の構築および/または処理に関与し得る。
物理的世界に関する情報は、経時的に展開され得、異なるユーザデバイスによって収集される情報に基づき得る。仮想世界のモデルも、経時的に展開され、異なるユーザの入力に基づき得る。そのような情報およびモデルは、時として、本明細書では、世界マップまたは世界モデルと称され得る。図7および9を参照して説明されるように、ユーザデバイスによって入手された情報は、世界マップ1210を構築するために使用され得る。世界マップ1210は、図9に説明されるマップ920の少なくとも一部を含み得る。種々のオブジェクト認識装置(例えば、708a、708b、708c…708n)が、オブジェクトおよびタグ画像を認識するために、および、意味情報をオブジェクトに添付するために使用され得る。これらのオブジェクト認識装置は、図7にも説明される。
遠隔データリポジトリ1280は、データを記憶し、世界マップ1210の構築を促進するために使用されることができる。ユーザデバイスは、ユーザの環境についての情報を常に更新し、世界マップ1210についての情報を受信することができる。世界マップ1210は、ユーザまたは別の人物によって作成され得る。本明細書に議論されるように、ユーザデバイス(例えば、1230a、1230b、1230c)および遠隔コンピューティングシステム1220は、単独で、または組み合わせて、世界マップ1210を構築および/または更新し得る。例えば、ユーザデバイスは、遠隔処理モジュール1270および遠隔データリポジトリ1280と通信し得る。ユーザデバイスは、ユーザおよびユーザの環境についての情報を入手および/または処理し得る。遠隔処理モジュール1270は、遠隔データリポジトリ1280およびユーザデバイス(例えば、1230a、1230b、1230c)と通信し、ユーザおよびユーザの環境についての情報を処理し得る。遠隔コンピューティングシステム1220は、例えば、ユーザの画像を選択的にクロッピングすること、ユーザの背景を修正すること、仮想オブジェクトをユーザの環境に追加すること、ユーザの発話に補助情報で注釈を付けること等、ユーザデバイス(例えば、1230a、1230b、1230c)によって入手された情報を修正することができる。遠隔コンピューティングシステム1220は、処理された情報を同一および/または異なるユーザデバイスに送信することができる。
ワードフロー注釈システムの実施形態の種々の機能性が、ここで説明されるであろう。
(例示的発話捕捉)
開示されるワードフロー注釈システムの例示的実装は、対面通信のコンテキストにおいて生じる。そのようなコンテキストでは、検出された発話の源は、ワードフロー注釈システムの物理的近傍にある。システムのオーディオセンサは、周囲オーディオ情報を検出することができる。コンピューティングモジュール(例えば、ワードフロー注釈システム970)は、発話を周囲オーディオ情報から検出することができる。このモジュールは、本明細書に説明されるスキームを含む自動発話認識のアルゴリズム(図9を参照して説明されるように)を実装することができる。コンピューティングモジュールは、ユーザの発話(例えば、発話をテキストに変換することによって)を解析し、ユーザの発話中のキーワードを識別することができる。キーワードは、稀な単語またはコンテキストキーワードを含むことができる。キーワードは、単独で、または組み合わせて、キーワードデータベースにアクセスすることによって、またはコンテキスト情報を決定することによって、識別され得る。コンテキスト情報は、ユーザもしくは会話の他の参加者に関連付けられた情報(例えば、人口統計情報、過去のアクティビティ/体験、発話挙動等)、または環境に関連付けられた情報(例えば、会話の場所、環境内のオブジェクトもしくは人々等)を含み得る。キーワードは、ウェアラブルシステム200のユーザへの提示のための仮想コンテンツを決定するために使用され得る。例えば、ウェアラブルシステムは、キーワードに関連付けられた補助情報(例えば、説明テキストまたは画像等)を提示することができる。
開示されるワードフロー注釈システムの別の例示的実装は、遠隔通信のコンテキストにおいて生じる。そのような例示的シナリオでは、話者は、ワードフロー注釈システム(およびそのユーザ)から物理的に遠隔に存在する。話者に関連付けられたオーディオ情報は、多くのチャネルのうちの1つを通して、聴取者に到着し得る。例えば、話者および聴取者は、電話を介して、またはインターネットオーディオもしくはオーディオ−ビデオチャットセッションを通して、会話していることもある。話者および聴取者は、図12に図示されるように、ネットワークを通して通信するARシステムを使用して、会話していることもある(例えば、テレプレゼンスセッション等)。別の例として、話者は、無線、テレビ、またはインターネットプログラミング等上に示される者等、オーディオまたはA/Vプログラム内の人物であり得る。話者の音声が、聴取者の場所において周囲音の中で聞こえる場合、ワードフロー注釈システムは、対面通信コンテキストと同一方法で音を捕捉することができる。話者の音声が、聴取者の場所において周囲音の中で聞こえない(例えば、ワードフロー注釈システム970のオーディオ増幅器232を通して、聴取者に話者の声が聞こえる)場合、システムは、異なる方法で音を捕捉するか、または音を捕捉するステップをスキップすることができる(例えば、システムは、直接、発話に関連付けられた情報が内蔵される電気信号から、発話を検出することができる)。遠隔通信使用のさらなる説明は、以下のテレプレゼンスと題された小節にある。
(話者音声否認および源位置特定)
ARシステムは、音をその源またはその源の場所に関連付ける能力を通して、追加の有用用途を実施することができる。いくつかのそのような用途は、以下に説明される。
例示的実装は、検出された発話がユーザ自身の発話であるかどうかを決定する。これは、複数のオーディオセンサ、例えば、2つ以上のマイクロホンの使用を通して、または指向性オーディオセンサ、例えば、指向性マイクロホンの使用を通して、達成されることができる。そのようなオーディオセンサを用いて、システムは、音源の場所を識別することができる。したがって、システムは、ユーザ自身の発話を他者のものと区別することができる。システムは、稀な単語検出のために、ユーザ自身の発話を処理しないように構成されることができる。
ARシステムの実装は、例えば、カメラ464および466、または静止カメラ(例えば、静止入力704)を通して供給される情報を用いて、音源の場所とユーザのFORに対する源の位置とを識別することができる。システムは、稀な単語検出のために、ユーザのFOV外の人物からの発話を処理しないように構成されることができる。
発話をその源に関連付けるための実装の能力は、コンテキスト依存補助情報を提供することにおいても有用であり得る。ある話者は、特定の分野またはコンテキストにおける単語を発する可能性がより高い。例えば、カメラ店の従業員が「SD」と言っているとき、それは、San Diegoの都市よりもセキュア化されたデジタルメモリカードについて話している可能性がより高い。したがって、話者をカメラ店従業員として識別可能な実装は、コンテキスト上正しい補助情報をユーザに提供する可能性がより高くあり得る。話者を識別する能力は、いくつかの方法において実装され得る。例えば、発話(例えば、対話または独り言)中の参加者の名前は、多くの場合、発話の開始時の導入で述べられる。または、ユーザは、話者の名前をUI相互作用を通してシステムに入力し得る。外向きに面したカメラを装備するシステムは、話者の画像を捕捉し、画像認識を通して、話者を識別することができる。システムは、音声認識を実施し、図9に説明される種々の音声認識アルゴリズムを使用して、話者の識別を識別することもできる。
(発話からテキストへの例示的変換)
キーワードを識別するために、ウェアラブルシステム200は、オーディオストリームをテキストに変換することができる(例えば、ワードフロー注釈システム970によって)。発話からテキストへの変換は、深層学習(深層ニューラルネットワークを利用し得る)または図9を参照して説明される他の発話認識アルゴリズム等のアルゴリズムを使用して実施されることができる。ウェアラブルシステム200は、発話/テキスト機能性を含むことができるか(例えば、ローカル処理モジュール260内に)、または発話/テキスト機能性に遠隔でアクセスすることができる(例えば、遠隔処理モジュール270を介して)。ウェアラブルシステム200は、商業用発話/テキストサービスへの無線接続を利用し得る(例えば、アプリケーションプログラミングインターフェース(API)を介して)。ワードフロー注釈技術は、任意のそのような発話/テキストアルゴリズムを利用し得るが、非慣習的な方法で利用し、発話/テキスト変換をユーザから生じていないオーディオに適用する。
ワードフロー注釈実装は、ローカルまたは遠隔で、例えば、ローカル処理およびデータモジュール260を使用するウェアラブルデバイス上で、または遠隔サーバ(例えば、遠隔コンピューティングシステム1220を含む)上で、発話からテキストへの変換を実施し得る。変換がローカルで実施されるか、遠隔で実施されるかにかかわらず、キーワード検出および補助情報読み出し等の他の処理ステップも、変換が行われる場所から独立して、ローカルまたは遠隔で行われ得る。例えば、発話/テキスト変換が、遠隔で行われ、キーワード検出がローカルで行われる場合、捕捉されたオーディオストリームは、ネットワークを介して、遠隔処理モジュール270または遠隔サーバに送信され、そこで変換が行われる。変換されたテキスト文字列は、システムのローカルコンポーネント(例えば、ローカル処理およびデータモジュール260)に返される。別の例として、発話/テキスト変換、キーワード検出、および補助情報読み出しが、遠隔で行われる場合、捕捉されたオーディオストリームは、ネットワークを介して、遠隔処理モジュール270または遠隔サーバに送信されることができ、読み出された補助情報が、システムのローカルコンポーネントに返されることができる。ローカル/遠隔処理の他の組み合わせも、実行可能である。
本明細書に説明される例では、ARシステム200は、発話/テキスト変換を使用して、キーワードを検出することができるが、いくつかの実装では、ARシステム200は、オーディオデータを使用して、直接、キーワードを検出することができる。例えば、ARシステム200は、発話をテキストに変換する必要なく、キーワードの人物/ユーザの発音に基づいて、キーワードをルックアップすることができる。
(稀な単語の例示的検出)
ARシステムは、稀な単語等のキーワードに対して、変換されたテキストを検索することができる。例示的な稀な単語は、ARシステムのユーザに対して低頻度であるか、または一般的ではない単語を含むことができる。稀な単語は、限定ではないが、一般的に使用されない単語、別の言語からの単語(例えば、英語の文中で使用される中国語の単語「guanxi」)、技術用語、ARシステムのユーザが通常取り組むコンテキスト外の特殊分野からの単語等を含むことができる。例えば、ARシステムは、単語がARシステムによって検出された発話中で低頻度に使用される場合、単語を稀であると識別し得る。そのような稀な単語のための定義、翻訳、またはコンテキスト情報を提供することによって、ARシステムは、有利には、ユーザがユーザに聞こえる発話をより良好に理解することを補助することができる。
稀な単語は、一般的単語の既知のリストとの比較によって検出され得る。例えば、単語は、それが一般的単語辞書またはデータベース内に見出されない場合、稀であると見なされ得る。一般的単語辞書またはデータベースは、ローカルで記憶されるか(例えば、図2におけるデータモジュール71内に)、または遠隔で記憶され得る(例えば、遠隔データリポジトリ74内に)。一般的単語辞書またはデータベースは、第三者源から利用可能であり、例えば、インターネット上で利用可能であり得る。
稀な単語は、言語におけるその発声頻度または単語頻度リスト内の関連付けられたランクを通して検出され得る。Zipfの法則は、発声頻度を単語頻度リスト内のランクと関連させる例であり、すなわち、単語の発声頻度は、単語頻度リスト内のそのランクに反比例する。稀な単語は、発話中の閾値頻度未満のその発生に基づいて、ARシステムによって識別され得る。ワードフローシステムは、ユーザが、ユーザの言語知識に基づいて、単語を検出するようにシステムを構成することを可能にすることができる。例えば、ユーザは、5,000または7,000個(または別の値)の最も一般的な単語のリストにない単語を検出するようにシステムを構成し得る。別の例として、ユーザは、その発生の見込みが言語中で0.01%、0.003%、0.001%、または別の値等の閾値未満である単語を検出するようにシステムを構成し得る。ARシステムは、デフォルト閾値(例えば、0.005%)を搭載し得、それは、ユーザ構成可能である。典型的には、閾値が高いほど、より多くの単語が稀であるとフラグ付けされ、閾値が低いほど、より少ない単語がフラグ付けされるであろう。ユーザは、閾値を、稀な単語に関して提示される補助情報が、ユーザに有用であると考えられ、過度に注意を逸らすものではない値に設定することができる。ARシステムは、ユーザが、一時的に、閾値をゼロに設定する(例えば、稀な単語へのフラグ付けを停止する)ことを可能にし得、それは、ある状況では有用であり得る(例えば、ユーザが、慣れていない環境内で車両を運転している、ユーザが、注意を逸らされたくない宗教的もしくは文化的イベントに出席している、または、ユーザが、大部分の単語がユーザに対して稀な単語であり得るイベントに出席している(例えば、専門家ではないユーザが、話者が日常的に特殊医療用語および語句を話す、医療業界の講演に出席する)等)。
いくつかの実装では、稀な単語は、使用統計を使用閾値と比較することによって、単語の低頻度使用によって決定され、単語が、一般に使用される単語の使用閾値より低頻度で生じる場合、単語は、稀な単語としてフラグ付けされることができる。稀な単語および/または一般に使用される単語は、システムによって記憶されることができ、稀なおよび/または一般的単語のリストは、使用に基づいて、更新されることができる。
稀な単語は、ユーザの既知の言語における低頻度で使用される単語であり得る。例えば、単語「ossify」は、多くの英語話者に対して稀な単語であり得る。稀な単語は、ユーザに既知の言語と異なる言語における単語であり得る。例えば、図13Aに示される中国語語句「guanxi」は、多くの英語話者に対して稀な単語であり得る。稀な単語は、特殊分野における用語、例えば、薬物の名前、クロケット等の一般的ではないスポーツにおいて使用される用語等であり得る。稀な単語は、頭字語、企業または非営利組織の名前、株式表示記号であり得る。稀な単語は、単一単語である必要はなく、単語のグループ(例えば、「free electron laser」)、語句(例えば、「bring your own device」またはその頭字語形態「BYOD」)等であり得る。実際、ワードフロー注釈システムは、ユーザが、あるカテゴリの単語(上記の例のうちのいくつか等)を注釈のための候補として選定することを可能にするように構成されることができる。
稀な単語に加えて、またはその代替として、キーワードも、コンテキストキーワードであることができる。コンテキストキーワードは、会話の話題に関連する単語または会話中に頻繁に使用される単語を含み得る。例として、ARシステム200のユーザは、アフリカ(Africa)旅行についてその友人と話している場合がある。単語「Africa」は、英語言語では、稀な単語ではないこともあるが、ARシステム200は、会話がAfricaに関連するので、それをコンテキストキーワードとしてフラグ付けすることができる。別の例として、ユーザが、自分のアフリカ旅行について話している間、ユーザは、アフリカでの自分のサーフィン体験について述べる。故に、ユーザは、単語「surf」をその発話中で繰り返し使用し得る。ARシステム200は、文中で頻繁に使用されるので、単語「surf」をコンテキストキーワードとしてフラグ付けすることができる。
いくつかの単語は、コンテキストキーワードおよび稀な単語の両方であり得る。例えば、ある人物が、法理に関する講義をしているとき、語句「res judicata」が、複数回、現れ得る。語句「res judicata」は、ラテン語語句であり、日々の発話において一般に使用されないので、稀な単語と見なされ得るが、この語句は、法的専門家の発話中におけるその頻繁な発生に起因して、コンテキストキーワードとも見なされ得る。
ARシステムは、単語および語句間の関係を決定し、関係に基づいて、キーワードを検出することができる。例えば、ユーザの友人が、「I surfed in Africa」と言い得る。ARシステムは、単語「surf」および単語「Africa」の両方がキーワードである可能性が高いことを決定することができる。しかし、ユーザは、自分のアフリカ旅行について話していたので、ARシステムは、単語「surf」ではなく、単語「Africa」をキーワードとして識別し得る。しかしながら、ユーザが、サーフィンについてあまり把握していない場合、ARシステムは、単語「Africa」ではなく、単語「surf」をキーワードとして識別し得る。
キーワードは、事前に指定され得る。ARシステムは、ユーザまたは別の当事者(例えば、アプリケーション開発者、買物ウェブサイト等)によって指定されるコンテキストキーワードのデータベースを含むことができる。キーワードのデータベースは、ユーザによって編集可能であり、例えば、キーワード(もしくは稀な単語)を追加または除去し得る。例として、ARシステム200のユーザは、最近、Lindaと名付けられた赤ちゃんを出産していることもある。ユーザは、語句「my daughter Linda」をコンテキストキーワードとして設定することができる。したがって、ARシステムが、ユーザが「my daughter Linda」と言うことを検出すると、ARシステムは、例えば、赤ちゃんが睡眠中であるか、空腹であるか等、ユーザの赤ちゃんに関する補助情報を自動的に提示することができる。別の例として、ARシステムは、語句「utility bill」をキーワードとしてタグ付けし得る。故に、ARシステムは、発話中の語句「utility bill」の検出時、期限および額を含むユーザの公共料金の請求書(utility bill)を自動的に提示することができる。
キーワードは、ユーザ、環境、または会話の参加者に関連付けられたコンテキスト情報に基づいて、決定されることができる。例示的ワードフロー注釈システムは、少なくとも部分的に、キーワードの検出において、ユーザ挙動を利用することができる。例えば、ユーザは、ユーザが理解していない単語を聞くと、一時的に、ある方向を凝視し得る。そのような例示的システムは、例えば、凝視に先立って生じる発話中の稀な可能性が高い単語に対する検索において、内向きに面したカメラ466を使用して、この特定の凝視を検出することができる。別の例として、ユーザは、別の人物によって話された単語を単独で繰り返し、システムに単語をキーワードとして処理するように促し得る。システムは、キーワードのその検出を補助するために、他のユーザ挙動を使用することができる。実際、実装は、ユーザが、キーワード検出における実装によって組み込まれる挙動をカスタマイズすることを可能にすることができる。例えば、ARシステムは、ユーザインターフェースを提供することができ、それによって、ユーザは、単語を一般的単語または稀な単語のリストに追加すること、もしくはそれから除去することができる。ARシステムは、稀な単語分類のために、ユーザ自身の発話を監視することができる。例えば、暗号使用者の発話は、頭字語AES(Advanced Encrption Standard)を含み得る。複数回(例えば、3もしくは5回)または構成可能持続時間内で複数回(例えば、5分以内に3回、1時間以内に7回等)、暗号使用者/ユーザの頭字語AESを検出すると、ARシステムは、頭字語AESをこのユーザのために一般的単語として再分類することができる。ARシステムは、それが一般的または稀な単語のリストを検出および更新する単語の頻度を監視することができる。例えば、単語「simvastatin」(コレステロール治療薬用)は、多くのユーザに対して稀な単語であり得るが、保健医療専門家であるユーザに対して、そうではない。保健医療専門家であるユーザのために、ARシステムは、この単語が、保健医療専門家のARシステムによって検出された発話中で低頻度に使用されないわけではないことを検出し、この単語をこのユーザのために一般的単語として再分類し得る。再分類は、例えば、単語をユーザのための一般的単語辞書に追加することによって達成され得る。ユーザのための一般的単語辞書は、図2に図示されるシステム200内のローカルデータモジュール260または遠隔データリポジトリ280に記憶され得る。
この例は、単語が稀な単語であるか、一般的単語であるかを分類することを参照して説明されたが、いくつかの実施形態では、分類/再分類は、一般に、キーワードのためである。ARシステムが、単語が複数回使用されたことを検出すると、または稀な単語が会話中に現れると、ARシステムは、単語をキーワードとしてフラグ付けし得る。例えば、ARシステムが、単語「petrify」がユーザの会話中に複数回使用されたことを検出し得るとき、ARシステムは、単語「petrify」をキーワードとして分類することができる。しかしながら、ARシステムは、後に、ユーザが化石に関連する会話に関わっていることを決定し得る。ARシステムは、ARシステムが、ユーザが単語「petrify」の意味を学習(または別様に把握)したことを決定することができるので、単語「petrify」をもはやキーワードではなくなるように再分類し得る。
いくつかの実装では、稀な単語は、補助情報がユーザに頻繁に提示された場合、ユーザが稀な単語の意味を学習中であるという仮定の下、稀な単語に関連付けられた補助情報の提示が減少またはさらに停止する傾向であるように(少なくとも部分的に、減少係数に基づいて)、減少係数に関連付けられ得る。減少係数は、稀な単語が、その期間中に閾値回数を上回って述べられた場合、補助情報の表示が減少または停止するように、期間を含み得る。減少係数は、稀な単語が述べられた回数が数値カウントを超える場合、補助情報の表示が減少または停止するように、数値カウントを含み得る。減少係数、期間、または数値カウント(もしくは関連付けられた閾値)は、ユーザ構成可能であり得る。
キーワードに加えて、またはその代替として、ARシステムは、ユーザの環境内の着目オブジェクト(例えば、オブジェクトまたは人物等)を検出することもできる。ARシステムは、図7に説明される1つ以上のオブジェクト認識装置708を使用して、着目オブジェクトを検出することができる。例として、ARシステム200のユーザは、Floridaに住んでいる。ユーザは、休暇でCaliforniaに出掛け得る。ユーザは、例えば、ARディスプレイ220を通して、Californiaで浜辺に横たわっているアシカを見ることもある。ARシステム200は、外向きに面した結像システム464を使用して、アシカを検出し、オブジェクト認識装置708を使用して、アシカを識別することができる。ARシステム200は、ユーザが、典型的には、Floridaでアシカに遭遇しないので、またはアシカを見ないので、アシカを着目オブジェクトとしてフラグ付けすることができる。
(補助情報の例示的読み出し)
ワードフロー注釈システムは、システムが検出する着目オブジェクトに関連付けられた補助情報を読み出すことができる。補助情報は、テキスト、画像、または他の聴覚的もしくは視覚的情報を含み得る。システムは、視覚的に(例えば、ディスプレイ220を介して)、オーディオ(例えば、オーディオ増幅器232またはスピーカ240を介して)で、触覚的(例えば、触知)フィードバックを介して等、補助情報を提示することができる。
ワードフロー注釈システムは、着目オブジェクトおよびその関連付けられた補助情報を含む情報のデータリポジトリ(例えば、データベース)を備え得る。例えば、データリポジトリは、一般的単語、稀な単語、他のコンテキストキーワード、ユーザの環境内の一般的オブジェクト(ユーザが、多くの場合、相互作用する)等を記憶し得る。補助情報は、意味情報(図7を参照して説明されるように)、意味または説明、オブジェクトに関連付けられた購入情報、ステータスまたは統計、ユーザが明白に知覚していないこともある着目オブジェクトの追加の詳細、もしくは他の情報を含むことができ、それは、着目オブジェクトの理解およびそれとの相互作用を促進する。補助情報の例は、図13A−13E、15A、および15Bにさらに説明される。
情報のそのようなデータベースは、ローカルで、例えば、図2におけるデータモジュール260内に記憶されるか、または遠隔で、例えば、遠隔データリポジトリ280内に記憶され得る。ワードフロー注釈システムは、公にアクセス可能な情報、例えば、インターネット上の情報を利用して、稀な単語に関連付けられた補助情報を読み出すことができる。この状況では、システムは、ネットワークにアクセスし、稀な単語のためのクエリを、辞書、百科事典、または他の類似リソース等のインターネット上のリソースに送信することができる。そのようなリソースは、一般的(例えば、Wikipedia等の汎用百科事典)、または、例えば、rxlist.comもしくは鉱物学データベース(例えば、webmineral.com)上のもの等の薬物のインデックス等の特殊なものであり得る。
データリポジトリ内の着目オブジェクトは、ARシステム200によって更新されることができる。例として、ARシステム200のワードフロー注釈システム970は、単語をシステムが稀な単語として識別する単語の組から除去するように構成されることができる。これは、例えば、ユーザが特殊知識を有する状況(例えば、薬剤師は、多くの薬物の名前を把握している可能性が高い)、ユーザが関連付けまたは使用を通して単語に慣れ親しんでいる状況(例えば、Acme Corporationの従業員は、Acme Corporationに関する補助情報を必要としない可能性が高い)において有用であり得る。例示的ワードフロー注釈システムは、単語を稀な単語の組から除去することができる。これは、単語を一般的単語辞書に追加することによって実装され得る。これは、システムが稀な単語を検出した後の追加のチェックとして実装され得る。検出された稀な単語が、除去されるべき単語の組内に見出される場合、システムは、単語に関連付けられた補助情報を読み出さないか、または表示しない。
ユーザは、UI相互作用を通して、特定の単語を稀な単語の組から除去し得る。ユーザの入力は、例えば、稀な単語およびその関連付けられた補助情報が表示されるとき、ユーザ入力デバイス504を通して入力され得る。例示的システムは、ある回数、例えば、3または5回、もしくはユーザによって構成されるある回数にわたって、単語およびその関連付けられた補助情報を表示した後、特定の単語をその一般的単語辞書に追加するように構成されることができる。
UI相互作用は、例えば、稀な単語を除去または追加するために使用され得る。例えば、ユーザは、「単語「phoropter」を一般的単語として追加する」と言い得、ARシステムは、ユーザの発話を検出することができ、単語を一般的単語リストに追加し、および/または、それを稀な単語リストから除去することができる。
データリポジトリを更新するこれらの例は、稀な単語を参照して説明されたが、類似技法は、データリポジトリ内の他の着目オブジェクトを更新するためにも使用されることができる。
(補助情報との例示的相互作用)
ARシステム200は、補助情報との種々のユーザ相互作用をサポートするように構成されることができる。例えば、ARシステムは、補助情報を表示すること、閉じること、または呼び戻すことができる。ユーザは、補助情報の一部にマークすること、または補助情報に注釈を付けることができる。
ARシステムは、着目オブジェクトの異なる発生に対して特定の着目オブジェクトに関連付けられた補助情報の異なる部分を表示するように構成されることができる。これは、すぐに表示され得るものより多くの補助情報が利用可能であるとき、有用であり得る。例えば、実装は、稀な単語の第1の発生時、補助情報をウェブサイト#1から読み出し、その第2の発生時、ウェブサイト#2から読み出す等を行うように構成されることができる。別の例として、実装は、その第1の発生時、薬物の使用を表示し、その第2の発生時、薬物の副作用を表示する等を行うように構成されることができる。表示する補助情報の部分を決定することにおいて有用なデータは、ローカルデータモジュール260または遠隔データリポジトリ280内に記憶され得る。補助情報の異なる部分をユーザに連続して提供することによって、ARシステム200は、表示される補助情報がユーザの注意を逸らす(例えば、ディスプレイのFOVのあまりに多くを覆うことによって)、または難しすぎてユーザによって理解されない(例えば、時間が短すぎてユーザが情報の全てを読むことができない補助情報を表示することによって)であろう見込みを低減させることができる。
ARシステムは、ユーザの構成に基づいて(例えば、ユーザの知識レベルに従って)、特定の稀な単語に関連付けられた異なる補助情報を表示するように構成されることができる。例えば、システムは、ユーザ(例えば、薬剤師)が、特殊薬物情報のためのシステムを構成している場合、薬物に関する特殊情報を読み出し、表示することができる。そうでなければ、システムは、薬物に関する一般的情報を読み出し、表示することができ、それは、特殊薬物情報のためのシステムを構成していないユーザのために適切である可能性が高い。システムは、異なる情報源を特殊または一般的情報に関連付け、適切な情報を提供することができる。例えば、辞書は、一般的情報源であり得、薬物ウェブサイトは、特殊情報源であり得る。
ワードフロー注釈システムは、発話のコンテキストに基づいて、稀な単語に関連付けられた補助情報を表示するように構成されることができる。稀な単語の近くのコンテキストからの追加の単語が、最も可能性が高い意味または最も有用であり得る補助情報の種類を決定するために使用されることができる。これは、ユーザに発話に関連する情報を提供するために、または稀な単語に関連付けられた曖昧性を解決することにおいて、有用であり得る。例えば、名前Acme Corporationが、図13Dに図示されるように、会社役員のコンテキストを伴う発話中に現れる場合、実装は、ボックス1340に示されるように、Acme Corporationの役員の名前および肩書を返すことができる。名前Acme Corporationが、図13Eに図示されるように、株価のコンテキストを伴う発話中に現れる場合、実装は、ボックス1354に示されるように、Acme Corporationの株式情報を返すことができる。別の例として、頭字語「IMDB」は、例えば、「internet movie database」、「immigrant database」、「in−memory database」等の種々の異なる意味を有し得る。ワードフロー注釈システムは、コンテキスト情報を決定し、正しい意味を決定することができる。一例では、ワードフロー注釈システムは、話者の識別を決定し、話者の識別と関係する意味を識別することができる。別の例では、ワードフロー注釈システムは、稀な単語を包囲する弁別的単語を使用して、それらの単語とその単語の特定の解釈に関連付けられた補助情報との間の相関を算出することができる。ワードフロー注釈システムは、最も一般的なN個の単語の中にない単語を識別および解釈し、発話のコンテキストを決定することができる。上記のIMDB例では、単語「IMDB」には、話者の発話中に「visa」、「legislation」、および「deportation」等の単語が付随する。全てのこれらの付随の単語は、「IMDB」の「internet movie database」解釈ではなく、「immigrant database」解釈に関連付けられる可能性が高い。したがって、ARシステムは、「immigrant database」としての「IMDB」の補助情報を表示することを自動的に選定することができる。
ワードフロー注釈システムは、稀な単語のコンテキストと、ユーザのために読み出される、または表示されるべき候補である補助情報との間の相関を算出することができる。コンテキスト分析に関連付けられた処理が、ローカルまたは遠隔で、例えば、ローカル処理モジュール71または遠隔処理モジュール72によって、実施され得る。コンテキスト分析は、稀な単語を包囲する弁別的単語の使用に基づいて、それらの単語とその単語の特定の解釈に関連付けられた補助情報との間の相関を算出することができる。弁別的単語は、最も一般的なN個の単語の中にはない単語であり得、あるNの値は、一般的単語辞書内のエントリの数または発声頻度ランクの閾値より小さくあり得る。高相関は、関連補助情報を示し得る。低相関は、非関連補助情報を示し得る。例えば、稀な単語が、「IMDB」であり、他の付随の単語が、「visa」、「legislation」、および「deportation」を含む場合、単語は、「Internet Movie Database」、「in−memory database」、またはある他の解釈の中ではなく、「Immigrant Database」解釈に対する補助情報の中で見出される可能性が高く、システムは、より高い相関に基づいて、「Immigrant Database」のための補助情報を表示するように構成されることができる。これは、コンテキスト依存補助情報のタイプである頭字語曖昧性解消の例である。
補助情報の表示は、種々の方法で提示され得る。例えば、システムは、図13Aにおけるボックス1308に図示されるように、稀な単語および関連付けられた補助情報のみを表示することができる。システムは、発話のローリングトランスクリプトを表示するように構成されることができる。この構成では、例えば、ユーザの注意が一時的に逸らされた場合、見逃された単語またはさらに文は、迅速に再読されることができる。本開示では、用語「補助情報」は、トランスクリプトを含む。
会話相手の一連の発話は、映画内のエンドクレジットの提示に類似するローリングテキストとして表示され得る。利用可能である場合、話者の名前も同様に、表示され得る。システムが話者の名前を取得し得る方法の例は、上で説明されている。実装は、情報(例えば、発話のトランスクリプトまたは補助情報)を発話の吹き出し、例えば、図13に図示されるボックス1308等の話者の近傍に幾何学的に局所化されたテキスト内に設置することができる。
発話のトランスクリプトを表示するシステムは、いくつかの方法において、例えば、下線が引かれた、着色された、太字にされたテキスト等、稀な単語をハイライトすることができる。システムは、ユーザが、UI相互作用を通して、現在または過去の稀な単語を選択し、関連付けられた補助情報を読み出すこと、または呼び戻すことを可能にすることができる。
実装は、UI相互作用を介して情報にアクセスするために、ユーザの眼移動を最小化するために、補助情報を設置し得る(例えば、発話の吹き出し内に、またはローリングトランスクリプトとして)。このように、UIは、単純化され、ユーザは、その注意を話者から遠くに引き離す必要がない。補助情報は、読み取りアクションを会話相手に最小限に見えるようにするように設置され、そうすることによって、補助情報へのユーザのアクセスをあらわにすることなく、あまり注意を逸らさず、より良好な通信を提供し得る。例えば、話者の場所を決定可能な実装は、補助情報を話者の隣に設置し得る。ARシステムの外向きに面したカメラからの画像は、例えば、話者の顔、ジェスチャ等を、例えば、曖昧にしない適切な場所の決定を助けることができる。ARシステムは、図8に図示されるプロセスフロー800を使用して、補助情報表示の場所を決定することができる。例えば、ブロック2310において認識されたオブジェクトは、その発話が、注釈のために処理されるべき話者であり得る。
補助情報がオーディオで提示される場合、ユーザまたは会話相手によって被られる注意を逸らすものを低減させる別の例として、ARシステムは、ユーザに聞こえるために十分であるが、会話相手には聞こえない大きさの音量で情報を提示すること、および/または、ユーザもしくは会話相手のいずれも話していないときに情報を提示することができる。
読み出された補助情報は、ARシステム200のディスプレイによって、ユーザに表示されることができる。表示される補助情報は、条件が満たされるまで、見えたままであり得る。例えば、表示される情報は、固定時間量にわたって、次の稀な単語(または別の着目オブジェクト)が表示されるまで、またはユーザアクションによって閉じられるまで、見えたままであり得る。ユーザアクションは、受動的、例えば、眼移動であり得る。内向きに面したカメラ(例えば、図4におけるカメラ462)が、ユーザの眼移動を検出または追跡するために使用されることができる。表示は、ユーザが、システムによって、補助情報の表示エリア全体を追跡したことが観察された後、眼追跡を介して、閉じられ得る。例えば、補助情報が、テキストである場合、システムは、テキストを通したユーザの眼移動(例えば、左右および上下)を追跡することができる。表示は、ユーザが、システムによって、補助情報の表示エリアから眼を離した(またはそれを見ていない)ことが観察された後、眼追跡を介して、閉じられ得る。ユーザアクションは、能動的、例えば、図4におけるユーザ入力デバイス504を通した入力アクションであり得る。ワードフロー注釈システムは、特定のユーザのために、カスタマイズされたユーザインターフェース(UI)相互作用の組をサポートするように構成されることができる。UI相互作用は、指、ポインタ、またはある種類のスタイラスを用いて、眼によるボタン上への注視および後続の固視によって、もしくはその他のいずれかで作動されるボタンに類似するUI要素の形態をとり得る。ボタンは、実際の物理的ボタンまたはAR内に表示されるものであることができる。UI相互作用は、例えば、図4に関連して上で説明されるように、頭部姿勢の形態をとり得る。UI相互作用検出の例は、図10に関連して上で説明される。
ワードフロー注釈システムは、ユーザに、補助情報表示を閉じることを遅らせるように促すことができる。例えば、システムは、表示される補助情報の明度を低減させ、または配色を変化させ、ディスプレイが、間もなく、例えば、数秒以内に閉じられるであろうことをユーザに通知し得る。上で説明されるもの等のUI相互作用は、表示を閉じることを延期するために使用され得る。例えば、ARシステムが、眼追跡を通して、ユーザが補助情報を積極的に視認中であることを検出する場合、ARシステムは、表示を閉じることを延期することができる。
上で説明されるもの等のUI相互作用は、閉じられた補助情報を呼び戻すために使用され得る。例えば、ユーザ入力デバイスを通した入力アクションが、直近で表示された補助情報を呼び戻すために使用されるか、または呼び戻すために、前に表示されていた補助情報の特定のアイテムを選択するために使用されることができる。
補助情報を表示している間、ARシステムは、ユーザが、補助情報に注釈を付けることを可能にすることができる。例として、ARシステムは、ユーザが、後に視認するために、補助情報の一部をマークすることを可能にすることができる。例えば、ユーザは、より詳細に読み込むために、稀な単語の説明の一部をハイライトすることができる。別の例として、ユーザが、プロバスケットボールの試合を鑑賞しており、コメンテータが特定の選手について話している間、ARシステムは、その選手によって公認された製品を補助情報として提示することができる。ユーザは、ARシステムによって提示された製品を保存またはブックマークし、製品を購入するかどうかを後に決定することができる。
ユーザは、補助情報に関連付けられた仮想コンテンツを追加または描写することによって、着目オブジェクトに注釈を付けることもできる。例えば、ユーザは、ユーザ入力デバイス466または手ジェスチャを使用して、メモもしくは図を補助情報に追加すること、または補助情報の一部を除去することができる(例えば、その部分を消去または×を付けることによって)。ARシステムは、ユーザの注釈を保存し、着目オブジェクトが後の時間に検出されると、ユーザの注釈を補助情報とともにレンダリングすることができる。
(着目オブジェクトとの相互作用のための例示的ユーザ体験)
図13A−13Gは、着目オブジェクトとの相互作用および着目オブジェクトの補助情報の例を図示する。
(キーワードの存在に基づいて仮想コンテンツを提示する例)
図13Aは、キーワードを検出し、キーワードのための補助情報を提示する例を図示する。図13Aでは、ユーザのARシステムのワードフロー注釈システム970は、キーワードを検出し、キーワードの補助情報を提供するように構成されることができる。ARシステムのユーザに表示される情報を乱雑にすることを回避するために、ARシステムは、稀な単語の検出時、補助情報のみを提供することができる。
図13Aでは、ARDを装着しているユーザ(図示せず)が、女性1302を自分の環境内で知覚し得る。女性は、コールアウトボックス1304に示される文を話す。文内に、単語「guanxi」が存在し、それは、稀な単語であり得る。ARDは、女性によって話された文を捕捉し(例えば、オーディオセンサ232を介して)、文をテキストに変換し、「guanxi」を稀な単語として検出し、「guanxi」に関連付けられた補助情報(例えば、定義)を読み出し、補助情報をディスプレイ(例えば、ディスプレイ220)上に表示することができる。例証では、補助情報は、ボックス1308内に表示される。ユーザは、このボックス1308がARディスプレイ220によって提示される仮想コンテンツの一部として見る。ボックス1308内の補助情報は、ユーザが、単語「Guanxi」を使用することによって、女性が意味する内容を理解することに役立ち得る。
(テレプレゼンスセッションにおける例示的ユーザ体験)
複数のARシステムの複数のユーザが、システムの補助を通して、遠隔で会話を実践し得る。例えば、図12に図示されるように、(人工デバイスの補助なしでは、互いに直接見えない、または聞こえないような)2つの物理的場所における(デバイス100aおよび100bの)2人のユーザの両者が、ARデバイスを装備することができ、それは、ワードフロー注釈システム970を装備し得る。各ユーザの発話は、ユーザのそれぞれのデバイスのオーディオセンサによって捕捉され、ネットワーク1290を通して伝送され得る。ユーザCの発話は、例えば、トランスクリプトとして、または稀な単語+補助情報として、ユーザBのデバイス上に、その逆も同様に、表示され得る。
ワードフロー注釈デバイスは、発話をテキストにローカルで変換し、変換されたテキストのみをネットワーク1290を通して伝送することができる。他方のユーザのデバイスは、テキストを表示するか、またはテキストを発話に逆変換するかのいずれかを行うことができる。これは、対応する発話を伝送するためよりも少量のデータが、テキストを伝送するために要求されるので、ネットワーク1290の帯域幅が制約される場合に有利であり得る。ワードフロー注釈システムは、ユーザ、すなわち、話者の音声情報を含み、その音声情報を使用して、テキストを発話に逆変換し得る。このように、再構成された発話は、話者自身の音声のように聞こえ得る。
ワードフロー注釈システムは、ARディスプレイ220上に提示される画像を通して、テレプレゼンス会話を向上させることもできる。例えば、ARディスプレイは、遠隔話者のアバタを補助情報とともに提示し、参加者の視覚的ならびに聴覚的感覚に関与することができる。上の図4に関連して説明されるように、内向きに面した結像システム462を装備するARDは、HMDによって塞がれた装着者の顔の領域を置換するための画像を捕捉することができ、それは、テレプレゼンスセッション中、第1の発呼者に、第2の発呼者の塞がれていない顔が見えるように、およびその逆も同様であるように使用されることができる。第1のユーザに関連付けられた世界マップ情報が、ワードフロー注釈システムを伴うテレプレゼンスセッションの第2のユーザに通信され得る。これは、ARD装着者によって見られる遠隔ユーザの画像の作成を通して、ユーザ体験を向上させることができる。
テレプレゼンス用途では、周囲音の捕捉は、対面シナリオにおけるユーザ、すなわち、聴取者に関連付けられたデバイスではなく、ユーザ、すなわち、話者に関連付けられたデバイスによって実施される。発話の存在の検出およびテキストへの発話の変換は、いずれかのユーザに関連付けられたデバイスによって実施されることができる。発話源は、音を捕捉するデバイスに基づいて決定されることができ、例えば、ユーザAのデバイスが音を捕捉するとき、ユーザAが話している。
図13Bは、テレプレゼンスセッションにおけるワードフロー注釈システムの別の例示的用途を示す。この例では、女性1326は、ユーザ1328および1320と会議を行なっているマーケティンググループ内に存在する。ユーザ1328および1320は、そのそれぞれのARD1322bおよび1322cを装着している。ARD1322bおよび1322cは、図2に示されるARシステムの200の少なくとも一部を含むことができる。
女性1326が、(時として、発話の吹き出しとも称されるコールアウトボックス1312に示されるように)「Brugesにおいてphoroptersを販売するための広告キャンペーンを議論しましょう」と述べている。ARD1322bおよび1322cは、このオーディオを捕捉し、オーディオ内のキーワードを識別することができる(例えば、ワードフロー注釈システム970を介して)。いくつかの実施形態では、女性は、単独で、または組み合わせて、女性のオーディオデバイスまたはARDが、オーディオを捕捉し、オーディオストリームを処理し得る(例えば、それをテキストに変換する、またはキーワードを識別する)ように、オーディオデバイス(例えば、マイクロホン)を自分の近傍に有するか、またはARDを装着し得る。いくつかの実施形態では、オーディオファイルをテキストに変換すること、またはキーワードを識別すること等のオーディオ処理の少なくとも一部は、遠隔コンピューティングシステム1220によって実施されることができ、それは、各ユーザのARDによる同一オーディオストリームの重複処理を回避することができる。
ARD1322bおよび1322cは、女性の発話に関連付けられた補助情報を表示することができる。この例では、単語「phoropter」(眼科専門家によって眼鏡の処方箋を決定するために使用される医療デバイス)が、ユーザ1320に対して稀な単語であると決定され、ARD1322cは、単語「phoropter」の定義をボックス1316内に表示する。単語「phoropter」が、ARDのユーザに対して稀な単語ではない場合、ARDは、ユーザのために、ボックス1316を表示しないこともある。この例では、単語「phoropter」は、ユーザが眼科部署におけるエンジニアであるので、ユーザ1328に対して稀な単語ではない。その結果、ARD1322bは、補助情報(ボックス1316に示される)を装着者1328に提示しないであろう。この例を継続すると、ARD1322bは、単語「Bruges」(ベルギー内の都市)がユーザ1328に対して稀な単語であることを決定することができ、都市についての情報および都市の場所の小地図提供するグラフィック1324を表示することができる。
(言語翻訳)
ワードフロー注釈システムは、言語翻訳のために使用されることができる。図13Cは、ワードフロー注釈システムの別の例示的用途を示し、ここでは、ワードフロー注釈システムは、第1の言語(例えば、スペイン語)における語句を第2の言語(例えば、英語を話すユーザのための英語)に翻訳することができる。この例では、ARシステム200の英語を話すユーザ(図示せず)は、外国を訪問中であり、話者1390が、破線ボックス1332に示されるような「El supermercado esta al otro lado de la calle」と言うことを聞いている。ARシステム200は、必要ではないが、話者の発話をユーザに表示し得る(例えば、ボックス1332は、典型的には、ARシステムのユーザに表示されないが、いくつかの実装では、表示されることができる)。ARシステム200は、話者1390の発話がスペイン語であることを決定し、発話を英語(「雑貨屋は、通りの向こう側にあります」)に翻訳し、キャプション1336(または発話の吹き出し)を翻訳されたテキストとともに表示する。
ARシステムは、単独で、または組み合わせて、ローカル処理およびデータモジュール260、遠隔処理モジュール270、または遠隔データリポジトリ280を使用して、1つの言語から別の言語への翻訳をサポートすることができる。例えば、ARシステムは、ワードフロー注釈システム970を実装し得、それは、ユーザの主要言語以外の言語をユーザの主要言語に翻訳することができる。ユーザの主要言語は、ユーザの母国語または会話中のユーザの好ましい言語であり得る。ユーザの主要言語以外の言語は、外国語と見なされ得る。この構成では、ユーザは、図13Cに図示されるように、コンテキスト補助情報ではなく、入力単語の翻訳を見ることを選択することができる。ユーザは、ユーザの主要言語、話者の言語、両言語(例えば、行間注釈フォーマットで)における検出された発話のトランスクリプト、言語を混合したトランスクリプト(例えば、話者の言語における一般的単語、話者の言語における一般的ではない単語、または両言語)等を見ることを選択することができる。システムは、一般的外国語単語辞書のカスタマイズをサポートすることができ、例えば、ユーザの母国語の一般的単語辞書より小さいサイズを可能にする。例えば、ユーザは、特定の言語で最も使用される1,000または2,500個(もしくはある他の数)ほど一般的ではない任意の単語の翻訳を見ることを選択し得る。同一ユーザは、ユーザ自身の言語の一般的単語辞書が7,000または8,000個(もしくはある他の数)の単語のサイズを有することを選択し得る。
ワードフロー注釈システムは、ユーザが外国語における発話を理解することに役立ち得るだけではなく、ユーザが外国語を話すことにも役立ち得る。例えば、システムは、ユーザ自身の発話を外国語に翻訳するように構成されることができる。この翻訳は、ユーザの発話全体(例えば、全文)またはユーザの発話中の選択された単語に適用されることができる。例えば、ユーザは、「What is the word for ‘patent’?」と言うことによって(または別のUI相互作用を通して)、翻訳を提供するようにシステムに促し得る。システムは、着目外国語における「patent」の単語を、例えば、ディスプレイ220上に提供することによって応答することができる。ユーザは、外国語における単語を見、単語を自身で話すことができる。ワードフロー注釈システムは、オーディオ増幅器(例えば、スピーカ240)を含み、翻訳された単語をオーディオで提供することができる。一実装では、ユーザのみが、例えば、イヤホンの形態におけるオーディオ増幅器を通して、このオーディオを聞き得る。別の実装では、ユーザなおよび会話相手が、ラウドスピーカを通して、このオーディオを聞き得る。
(コンテキスト情報に基づく補助情報の提示の例)
図13Dおよび13Eは、コンテキスト情報に基づく補助情報の提示の例を図示する。図13Aに説明されるように、ARDを装着しているユーザ(図示せず)は、女性1302を知覚し得る。女性1302は、ユーザの物理的環境内に存在し得る。ユーザは、女性1302と企業関連の会話中であり得る。図13Dにおけるテキストボックス1342に示されるように、女性1302は、「Acme Corp.の幹部に何が起こるだろう」と言う。ユーザのARDは、女性1302によって話されたこの文を捕捉することができる。ワードフロー注釈システム970は、女性1302の発話を分析し、女性1302によって話される文中のキーワードを検出することができる。この例では、ユーザが企業関連の会話中であるので、ARDは、それが企業関連であるので、「Acme Corp.’s executives」をキーワードとして識別することができる。ARDが、キーワードを決定すると、ARDは、キーワードに関連付けられた補助情報にアクセスし、それを読み出すことができる。例えば、ARDは、データリポジトリ(例えば、遠隔データリポジトリ280)内で検索を実施すること、または公共のデータベース検索を実施することができる。テキストボックス1340に示されるように、ARDは、Acme Corpの重役の名前を読み出している。ARDは、ボックス1340に描写されるように、名前を補助情報として表示することができる。
図13Eでは、女性1302は、「Acme Corpの株価の動きが激しい!」と言う。ユーザが企業関連の会話中であるので、ARDは、女性1302の発話中に述べられた企業上の情報をキーワードとして識別することができる。この例では、ARDは、語句「Acme Corp.’s stock」が、単語「tremendously」ではなく、この語句が企業関連であるので、キーワードであることを識別する。故に、ARDは、キーワードに関連付けられた補助情報を検索すること、またはそれにアクセスすることができる。テキストボックス1354に示されるように、ARDは、現在の株価、増加のパーセンテージ、変動範囲、および前日の終値をユーザに仮想コンテンツとして提示することができる。
図13Fは、コンテキスト情報に基づいて、着目オブジェクトに関連付けられた補助情報を提示する例を図示する。ユーザ(図示せず)は、ARDを装着しながら、野球の試合を観戦することができる。ARDは、シースルーディスプレイを含むことができるので、ユーザは、野球の試合をライブで観戦すること、またはARDの外部のディスプレイ(例えば、コンピュータ画面もしくはテレビ等)上で再生することができる。野球の試合も、いくつかの状況では、ARDによってレンダリングされ得る。ユーザが、野球の試合を観戦している間、ユーザは、選手Paul 1362が、打席に向かっており、コメンテータが、選手Paulについて話していることを知覚し得る。故に、ARDは、選手Paul 1362が着目オブジェクトであることを決定することができる。この例では、ARDは、単独で、または組み合わせて、種々の技法を使用して、着目オブジェクトを決定することができる。例えば、ARDは、コメンテータの発話中で選手Paul 1362について頻繁に述べられていることを検出し、選手Paulが着目オブジェクトであることの一因であることを決定することができる。別の例として、ARDは、ゲーム進行を監視することによって、打席に向かっている選手を追跡し、打席に向かっている選手を着目オブジェクトとして識別することができる。さらに別の例として、ユーザが、野球の試合をテレビで観戦している間、ARDは、外向きに面した結像システム464を使用して、テレビ上に表示されるような野球の試合の画像を入手することができる。ARDは、1つ以上のオブジェクト認識装置708を使用して、画像を解析し、入手された画像から、打席に向かっている選手を識別することができる。
ARDが、選手Paul 1362が着目オブジェクトであることを決定すると、ARDは、選手Paul 1362に関連する情報を読み出し、ユーザに提示することができる。図13Fのボックス1364に示されるように、ARDは、ゲーム統計(例えば、出場試合数および平均打率)、守備位置、および選手Paul 1362が属するチーム等の選手Paulの野球関連情報を提示することができる。
補助情報は、例えば、統計、ステータス、説明、製品情報、着目オブジェクトに関連付けられた追加の詳細/事実等、種々の情報を含むことができる。図13Gは、補助情報が製品情報を含む例を図示する。図13Fに説明されるように、ARDは、選手Paul 1362が着目オブジェクトであることを決定することができる。選手Paul 1362の統計を表示する(図13Gに示されるように)ことに加え、またはその代替として、ARDは、選手Paul 1362(またはそのチーム)が公認している製品(例えば、Tシャツ1340)を決定し、製品情報(Tシャツ1340の画像、Tシャツ1340の価格1342、およびTシャツ1340が購入され得るウェブサイト1344等)を注釈ボックス1368内に表示することができる。レンダリングすべき製品を決定し、製品情報にアクセスするために、ARDは、公共データベースまたはARDに関連付けられたデータリポジトリの検索を実施し、選手Paul 1362が現れる広告を見出すことができる。ARDは、故に、広告内で識別された製品を選手Paul 1362が公認している製品として決定することができる。いくつかの状況では、選手Paul 1362は、2つ以上の製品を公認し得る。ARDは、製品のサブセットを取り上げ、補助情報として提示し得る。例えば、ARDは、選手Paul 1362が過去1年に公認した製品を取り上げ得る。ARDは、コンテキスト情報に基づいて、製品を取り上げることもできる。例えば、ユーザは、スポーツイベントを観戦しているので、ARDは、選手Paul 1362によって公認されているスポーツ商品を決定し、これらのスポーツ商品の情報をユーザに提示し得る。ARDは、購入決定をユーザから受け取るように構成され得る。例えば、ユーザが、Tシャツ1340の購入を望む場合、ユーザは、例えば、「Tシャツを購入する」と言うか、またはユーザ入力デバイスを作動させ、ウェブサイト1344へのリンクを選択し得、ARDは、ユーザの購入選択を受け取り、トランザクションを完了するステップを行うであろう(例えば、ウェブサイト1344にアクセスし、自動的に、Tシャツ1340の購入を注文することによって)。
(発話に注釈を付けるための例示的プロセス)
図14Aおよび14Bは、発話に注釈を付ける例示的プロセスを示す。処理フロー1400は、図2に示されるようなARシステム200によって実施されることができる。
ブロック1404では、システムのオーディオセンサは、周囲音を捕捉することができる。周囲音は、ユーザの環境内の1人以上の人物の発話を含むことができる。発話は、ユーザの発話、人物(ユーザ以外)の発話、または視聴覚コンテンツ(例えば、映画、音楽等)からの発話であり得る。周囲音は、雑音等の背景音も含み得る。
ブロック1408では、システムは、周囲音を監視し、発話の存在を検出する。この検出処理は、ローカル(例えば、ローカル処理モジュール260によって)または遠隔で(例えば、遠隔処理モジュール270によって)、行われ得る。システムは、捕捉された周囲音内の単語のストリームを識別することによって、発話の存在を検出することができる。システムは、ユーザの姿勢または発話の存在を示すユーザ入力デバイス466からの入力等のユーザ入力に応答して、検出を開始または実施することもできる。
ブロック1412では、システムは、発話が検出されたかどうかを決定する。発話が検出される場合、フローは、ブロック1416に継続する。発話が検出されない場合、フローは、ブロック1408(図示されるように)またはブロック1404に戻る。
ボックス1404から1412内の動作は、システムおよびオーディオセンサがオンにされると、例えば、ワードフロー注釈機能が有効にされると、持続的または周期的に(例えば、あるサンプリング頻度で)、実施され得る。これらの動作は、フローチャート1400および1440内の他のブロックと並行して(例えば、定時割り込みによって駆動されるバックグラウンドタスクとして)実施されることができる。それらは、例証目的のために、処理フローシーケンス内で個別的なボックスとして示される。しかし、それらは、図示されるシーケンスによって限定されない。上で説明される例以外の多くの処理フローも、システム設計者の裁量で可能である。
ブロック1416では、ARシステムは、検出された発話の源を決定することができる。発話源は、例えば、システムが、ユーザ自身の発話を処理しないように構成されるかどうか、またはシステムが、ARシステムのFOV内の人物からの発話のみを処理するように構成されるかどうか(FOV外の人物から生じる発話が、破棄され、さらに処理され得ない)に関連し得る。例えば、ARシステムは、ユーザの正面の人々からの発話を処理し、ユーザの背後の人々からの発話を無視し得る。発話源は、発話の補助情報またはテキストの表示場所を決定するために使用されることもできる。例えば、ARシステムは、発話に関連付けられた補助情報または発話のトランスクリプトを話している人物の近傍に表示し得る。
ブロック1420では、システムは、発話源の変化が生じたかどうかを決定する。例えば、2人のユーザが、会話中であるとき、システムは、文が前の話者から生じているか、別の話者から生じているかを決定することができる。変化が生じた場合、フローは、ブロック1424からブロック1444に継続する。発話源の変化が生じていない場合、フローは、ブロック1428に進み、ワードフロー注釈処理を継続し、それは、周囲音を捕捉するステップ(ブロック1404)、発話の存在を検出するステップ(ブロック1408)、および図14Bに示される処理ステップを含むことができる。例えば、システムが、同一話者が話し続けていることを決定する場合、システムは、音の捕捉および発話の検出の継続に加え、ブロック1456から開始する機能を継続して実施することができる。
ブロック1448では、例示的システムは、検出された発話がユーザ自身の発話であるかどうかを決定することができる。該当する場合、かつ、システムがユーザ自身の発話を処理しないように構成される場合、処理は、ブロック1484を通ってブロック1404に戻り得る。検出された発話が、ユーザ自身の発話ではない場合、フローは、ブロック1452に継続する。ブロック1452では、システムは、発話がユーザの環境内の源から生じているかどうかを決定する。ユーザの環境は、例えば、内向きに面した結像システム462、外向きに面した結像システム464、または静止カメラによって捕捉された情報を通して決定されるようなユーザが見ているまたは会話している人物を含み得る。外向きに面した結像システム464は、ユーザに対する話者の位置を含む情報を提供することができる。内向きに面した結像システムは、ユーザが見ている方向を含む情報を提供することができる。両方のカメラからの情報を使用することによって、ワードフロー注釈システムは、ユーザが見ている人物を決定することができる。
ユーザの環境は、別の例として、音圧閾値を上回る発話を含み得る。ワードフロー注釈システムは、構成可能音圧閾値、例えば、通常の会話に対して60〜70dBA、囁きに対して30〜40dBAをサポートすることができ、dBAは、異なる音周波数に対するヒトの耳の変動する感度を考慮するようにスケーリングされたA加重デシベル測定値である。音圧閾値またはそれを上回る発話が、ユーザの環境内に存在し得、以下に説明されるように、ワードフロー注釈システムよって処理されることができる。音圧閾値を下回る発話は、ユーザの直近環境内に存在しないこともあり(例えば、背景会話または遠距離源からの発話)、処理されないこともある。
ユーザの環境は、第3の例として、特定の源からの発話を含み得る。例えば、ユーザは、オフィス内のスピーカーホンを通して、遠隔人物と会話を実行し得る。ユーザは、ユーザが、スピーカーホンを通して会話を実行している間、ドキュメントまたはコンピュータ画面を見ているとき等、スピーカーホンを見ていないこともある。ARシステムは、ユーザが、ユーザのFOVがスピーカーホンを含まない場合でも、オーディオが処理されるであろうように、スピーカーホンをユーザの環境として指定することを可能にすることができる。別の例として、ワークフロー注釈システムの旅行者ユーザは、例えば、ツアーガイドを見ずに(または時折しか見ずに)、旅行者ユーザが観光地の景観を楽しんでいる間、ツアーガイドの発話に注釈を付けることを欲し得る。ワードフロー注釈システムは、旅行者ユーザが、ツアーガイドをユーザの環境として指定することを可能にすることができる。ツアーガイドの発話は、旅行者ユーザにとって外国語であり得る。そのような指定は、言語ベース、例えば、外国語であることもできる。
ワードフロー注釈システムの実装は、ユーザの環境変化を促進することができる。スピーカーホン例では、システムは、会話の持続時間にわたって、スピーカーホンをユーザの環境として指定するように構成され、会話が終了した後、音圧閾値に基づいて、ユーザの環境を決定するように再構成されることができる。
別の例として、ユーザの環境が、音圧閾値に基づいて決定され、ユーザのFOV内の発話源に限定される場合、実装は、ユーザのFOV外からの閾値を上回る捕捉された発話の一部をバッファリングすることができる。このバッファリングされた情報は、例えば、ユーザが方向転換し、ユーザのFOV外にあった捕捉された発話源を見た場合、読み出され、処理されることができる。
ユーザの環境内の発話に対して、ブロック1456では、システムは、上で説明されるように、発話をテキストに変換することができる。
ブロック1460では、システムは、稀な単語検出を変換されたテキストに実施することができる。ブロック1464では、システムは、稀な単語が検出されたかどうかを決定する。これらのボックス1460および1464内で実施される機能は、前節に詳細に説明されている。
稀な単語が検出されない場合、フローは、ブロック1488に進み、上記のブロック1428の説明に類似する様式において、ワードフロー注釈処理を継続する。
稀な単語が、ブロック1468において検出される場合、システムは、稀な単語に関連付けられた補助情報を読み出すことができる。ブロック1472では、システムは、読み出された補助情報をシステムのARディスプレイ上に表示することができる。ブロック1476では、システムは、補助情報を閉じるための条件を検出することができる。そのような条件が検出されると、ブロック1480では、システムは、補助情報の表示を閉じ、ブロック1488に継続することができる。これらのボックス内で実施される機能は、上記および図13A−13Gを参照して説明される。
ボックス1404から1412に関して上で記載されるものと同様に、フローチャート1440内の動作は、他のボックスフローチャート1400および1440と並行して実施され得る。それらは、例証目的のために、処理フローシーケンス内で個別的なボックスとして示されるが、それらは、図示されるシーケンスによって限定されない。例えば、システムは、稀な単語のための補助情報を表示し得る(ブロック1472において)一方、システムは、追加の発話をテキストに変換する(ブロック1456において)か、稀な単語検出を追加の発話に対して実施する(ブロック1460において)か、または別の稀な単語のための補助情報を読み出す(ブロック1468において)。別の例として、システムは、発話をテキストに変換することができる(ブロック1456において)一方、以前に検出された稀な単語のための補助情報を読み出す(ブロック1468において)。多くの他の処理フローも、可システム設計者の裁量に応じて可能である。
(着目オブジェクトに注釈を付ける例示的プロセス)
図15は、着目オブジェクトおよび着目オブジェクトの補助情報との相互作用の例示的プロセスを図示する。例示的プロセス1500は、本明細書に説明されるARシステムによって実施されることができる。
ブロック1510では、ARシステムは、ユーザの環境内の着目オブジェクトを識別することができる。着目オブジェクトは、人物、オブジェクト(物理的もしくは仮想)、または周囲音等を含むことができる。ARシステムは、外向きに面した結像システム464、内向きに面した結像システム462、または静止カメラから入手された画像を使用して、着目オブジェクトを識別することができる。ARシステムは、マイクロホン232から入手されたオーディオ情報、または別のデバイス(例えば、別のユーザのARD、環境内のマイクロホン)等から受信されたオーディオ情報を分析することによって、着目オブジェクトを識別することができる。図13Fを参照して説明されるように、オーディオ情報は、画像と組み合わせて使用され、着目オブジェクトを決定することができる。いくつかの実装では、ARシステムは、コンテキスト情報に基づいて、着目オブジェクトを識別することができる。本明細書に説明されるように、コンテキスト情報は、ユーザ、着目オブジェクト、ユーザの環境、ユーザの環境内のオブジェクトまたは人物等に関連付けられた情報を含み得る。別の例として、ユーザの環境内のオブジェクトは、ユーザの経験により、ユーザに対して稀であり得る(したがって、着目オブジェクトであり得る)が、別のユーザに対して稀ではないこともある。組織用鉗子は、あるユーザに対して、多くの場合、それらが日常の生活において見られないので、ユーザに対して稀なものであり得るが、それらは、外科医に対して稀なではないこともある。
ブロック1520では、ARシステムは、コンテキスト情報に基づいて、着目オブジェクトに関連付けられた補助情報を決定することができる。ARシステムは、例えば、遠隔データリポジトリ280、ARデバイスにローカルのデータリポジトリ、または別のコンピューティングデバイスによって管理されるデータ記憶装置等の1つ以上のデータリポジトリからの補助情報にアクセスすることができる。ARシステムは、検索エンジンを用いた検索を実施することによって、補助情報を決定することもできる。ARシステムは、コンテキスト情報に基づいて、補助情報の一部のみを提示することができる。例えば、ユーザがスポーツイベントを観戦しているとき、選手の補助情報は、他のタイプの情報(例えば、選手の家族に関する情報)ではなく、選手のスポーツ関連情報(例えば、試合統計)を含み得る。ARシステムは、コンテキスト情報に基づいて、補助情報にアクセスすること、またはそれを検索することもできる。例えば、ユーザが、株式取引に関連する会話中である場合、ユーザに語句「Shop Corp.」が聞こえるとき、ARシステムは、「Shop Corp.」の株式情報にアクセスすることができる。しかし、ユーザが、買物について会話中である場合、ARが語句「Shop Corp.」を検出するとき、ARシステムは、Shop Corp.によって販売されている製品にアクセスすることができる。
ブロック1530では、ARシステムは、補助情報をユーザに提示することができる。補助情報は、ユーザの物理的環境上にオーバーレイされた仮想コンテンツとして提示されることができる。例えば、ユーザが、ユーザの環境内に物理的に存在する別のユーザと会話中である間、ARシステムが他のユーザによって話される稀な単語を検出すると、ARシステムは、発話の吹き出しを他のユーザのすぐ隣に示すことができる。会話がテレプレゼンスセッションにおいて生じる場合、ARシステムは、補助情報を他のユーザの仮想アバタの近傍に提示することができる。
ブロック1540では、ARシステムは、随意に、補助情報とのユーザ相互作用を検出することができる。例えば、ユーザは、メモ/図を補助情報に追加することができる。ユーザは、補助情報を閉じること、追加の補助情報を要求すること(例えば、手ジェスチャを使用して、補助情報を示すユーザインターフェース要素を拡張させる)、または補助情報をマーク/編集することができる。
ブロック1550では、ARシステムは、随意に、補助情報とのユーザの相互作用に基づいて、ユーザインターフェース動作を実施することができる。例えば、ARシステムは、補助情報を閉じるためのユーザ入力に応答して、補助情報を隠すことができる。ARシステムは、ブロック1540において、ユーザ相互作用に従って、ユーザのメモを表示すること、または補助情報の一部をハイライトすることもできる。
(スレッド識別の例)
補助情報を決定することに加え、またはその代替として、ARシステムは、キーワードを使用して、会話中のスレッドを識別することもできる。図16Aおよび16Bは、キーワードに基づくスレッド識別の例を図示する。これらの図では、2人のユーザ1328および1320は、彼らのそれぞれのARD1322bおよび1322cを装着することができる。2人のユーザ1328および1320は、対面会話中であり得るか、またはテレプレゼンスセッション中であり得る。2人のユーザ1328および1320はまた、テキストメッセージングを使用して(例えば、テキストメッセージングアプリケーションを介して等)、互いに通信することもできる。
発話の吹き出し1612、1614、1616、1618は、ユーザ1328および1320によって話された一連の文を図示する。これらの発話の吹き出しは、ユーザ1328と1320との間の会話のコンテンツを図示する。ARシステムは、これらの発話の吹き出しを視覚的コンテンツとしてユーザ1328および1320に提示しないこともある。発話吹き出し1612および1616内のコンテンツは、ユーザ1328によって話され、発話吹き出し1614および1618内のコンテンツは、ユーザ1320によって話される。発話の吹き出し1612、1614、1616、および1618に示されるように、2人のユーザ間の会話は、2つの話題を伴い:1つは、ニューラルネットワークプログラミングに関連し、もう1つは、ユーザ1328の今後のアフリカ旅行に関連する。しかしながら、2つの話題は、両者の発話内にひとまとめにされている。
前節に説明されるように、ARシステム200は、キーワードに基づいて、2つの別個の話題が会話中に存在することを識別することができる。この例では、ARシステムは、1つのキーワードを「ニューラルネットワーク」として、別のキーワードを「アフリカ」として識別することができる。キーワード「ニューラルネットワーク」は、アルゴリズムおよびコンピュータプログラミングに関連する一方、キーワード「アフリカ」は、地理的領域を説明するので、ARシステム200は、これらの2つのキーワードが互いに関連せず、したがって、各キーワードが別個の話題に関連付けられ得ることを決定し得る。いくつかの状況では、ARシステムが、複数のキーワードを識別している場合でも、キーワードのうちのいくつかは、同じ話題に関連付けられ得る。例えば、ARシステムは、1つのキーワード「vacation」および別のキーワード「beach」を検出し得る。ARシステムは、それにもかかわらず、ユーザが浜辺での休暇について話していることもあるので、1つの話題を識別し得る。
複数の話題が、会話中で検出される場合、ARシステムは、話題を分離し、異なる会話スレッドを作成する。図16Bに示されるように、図16Aにおけるユーザ1328と1320との間の会話は、2つのスレッド1630および1640に分離され、スレッド1630は、ニューラルネットワーク会話に対応し、スレッド1640は、今後のアフリカ旅行に対応する。発話の吹き出し1632および1642は、発話の吹き出し1612に対応し、発話の吹き出し1634および1644は、発話の吹き出し1614に対応し、発話の吹き出し1636および1646は、発話の吹き出し1616に対応し、発話の吹き出し1638および1648は、発話の吹き出し1618に対応する。
ARシステムは、会話を2つの別個のスレッドとしてユーザ(例えば、ユーザ1320)に提示することができる。例えば、スレッド1630は、ユーザのFOVの左側に表示されることができる一方、スレッド1640は、ユーザのFOVの右側に表示されることができる。テキスト、発話の吹き出し等のための異なる色またはグラフィックが、異なるスレッドを区別するために使用され得る。有利には、いくつかの実施形態では、会話を異なるスレッドに分離することによって、ユーザは、ユーザがARDを装着している間、各話題のための会話のフローを知覚し、他のユーザとのユーザの相互作用中の混乱を低減させることが可能である。2つのスレッドが、図16Bに示されるが、それは、例証のためであって、スレッドの数は、3つ以上であることができる。いくつかの実装では、ARシステムが、例えば、ユーザの眼の視線方向を分析することを介して、ユーザ1320が一方のスレッド(例えば、スレッド1630)を見ていることを決定する場合、ARシステムは、例えば、スレッドの明度またはコントラストを低減させるか、もしくは他のスレッドを全く表示しないことによって、他方のスレッド(例えば、スレッド1640)の外観を強調解除し得る。
いくつかの状況では、1つ(または複数)のスレッドは、複数のサブスレッドを有し得、各サブスレッドは、スレッドから派生する話題を含み得る。例えば、ユーザ1328が、自分の今後のアフリカ旅行について話している間、ユーザ1328は、アフリカでサーフィンをすることを計画していると言い得る。ユーザ1320は、サーフィンの話題を継続し、サーフィンの道具および場所について議論し得る。ARシステムは、ユーザがサーフィンについて議論していることを検出すると、サーフィンのための完全に新しいスレッドを有するのではなく、アフリカにおけるサーフィンのためのサブスレッドを提供することができる。
図13A−13Gおよび図16A−16Bを参照して説明される例は、発話の吹き出しおよびテキストボックスを使用するが、これらの発話の吹き出しおよびテキストボックスは、1つの可能なユーザインターフェース例である。ARシステムは、種々の視覚的グラフィックを使用して、補助情報およびテキストスレッド、例えば、字幕、バナー等の提示を提供することができる。
(スレッド識別の例示的プロセス)
図17は、スレッド識別の例示的プロセスを図示する。プロセス1700は、本明細書に説明されるARシステム200の実施形態によって実施され得る。
ブロック1710では、ARシステムは、第1のオーディオストリーム(例えば、第1の人物に関連付けられた)および第2のオーディオストリーム(例えば、第2の人物に関連付けられた)を受信することができる。この例では、第1の人物および第2の人物は、互いに会話することができ、ARシステムは、各人物によって話されるオーディオストリームを捕捉することができる。テレプレゼンスの別の例では、第1の人物は、遠隔場所に存在する第2の人物に話し掛けている。第1の人物のARシステム上のオーディオセンサは、第1の人物の発話を検出し、第1のオーディオストリームを生成することができ、第2の人物のARシステム(または電話)上のオーディオセンサは、第2の人物の発話を検出し、第2のオーディオストリームを(例えば、ネットワーク1290を介して)第1の人物のARシステムに通信することができる。いくつかの実施形態では、第1の人物または第2の人物の両者は、ARシステムのユーザであることができる。他の実施形態では、ユーザは、第1の人物と第2の人物との間の会話を観察し得る(例えば、第1の人物と第2の人物との間の討論を見ている)。ARシステムは、オーディオセンサ232を使用して、またはネットワーク1290を介してオーディオストリーム(もしくは書き起こされたオーディオストリーム)を受信することによって、第1のオーディオストリームまたは第2のオーディオストリームを入手することができる。
ブロック1720では、ARシステムは、第1のオーディオストリームおよび第2のオーディオストリームを解析することができる。第1の人物と第2の人物との間の会話は、複数の話題を伴い得るので、ARシステムは、第1の話題に関連付けられた第1のキーワードと、第2の話題に関連付けられた第2のキーワードとを識別することができる。キーワードは、前節に説明される種々の技法を使用して識別されることができる。いくつかの実施形態では、話題は、2つ以上のキーワードを含み得る。
ブロック1730では、ARシステムは、第1の話題に関連付けられた第1のスレッドと、第2の話題に関連付けられた第2のスレッドとを生成することができる。ARシステムは、第1の話題に関連する会話の部分を第1のスレッドにまとめ、第2の話題に関連する会話の部分を第2のスレッドにまとめることができる。
ブロック1740では、ARシステムは、第1のスレッドまたは第2のスレッドのうちの少なくとも1つをARDによってレンダリングさせることができる。図16Bに図示されるように、ARDは、第1のスレッドおよび第2のスレッドをユーザのFOV内の異なる表示場所にレンダリングすることができる。いくつかの実施形態では、ARシステムは、2つのスレッドのうちの1つのみを提示し得る。例えば、ARシステムは、その関連付けられた話題が第1の人物および第2の人物によって現在議論されているスレッドを提示し得る。
(追加の側面)
第1の側面では、拡張現実システムを通して、稀な単語のための情報を提供する方法であって、方法は、オーディオセンサを備えている拡張現実(AR)システムの制御下、オーディオセンサを介して、周囲音を捕捉することと、周囲音内の発話の存在を検出することと、検出された発話をテキストに変換することと、変換されたテキスト内の稀な単語を検出することと、稀な単語に関連付けられた補助情報を読み出すことと、ARシステムを使用して、補助情報を表示することと、補助情報の表示を閉じるための条件を検出することと、補助情報の表示を閉じることとを含む、方法。
第2の側面では、検出された発話がARシステムのユーザのユーザ環境内である場合、変換するステップからのステップが、実施される、側面1に記載の方法。
第3の側面では、稀な単語は、一般的単語辞書から除外された単語である、側面1−3のいずれか1項に記載の方法。
第4の側面では、一般的単語辞書は、稀な単語を含むように更新される、側面3に記載の方法。
第5の側面では、稀な単語は、ARシステムのユーザの着目言語における構成可能閾値より低頻度で生じる単語である、側面1−4のいずれか1項に記載の方法。
第6の側面では、稀な単語は、ARシステムのユーザに対して外国の言語における単語であり、補助情報は、ユーザの主要言語における稀な単語の翻訳を含む、側面1−5のいずれか1項に記載の方法。
第7の側面では、検出された発話中の稀な単語のコンテキストを決定し、コンテキストに基づいて、稀な単語に関連付けられた補助情報を読み出すことをさらに含む、側面1−6のいずれか1項に記載の方法。
第8の側面では、コンテキストを決定することは、少なくとも部分的に、検出された発話中の稀な単語に時間的に近接して現れる単語に基づく、側面7に記載の方法。
第9の側面では、補助情報の表示を閉じるための条件は、ユーザインターフェース相互作用に基づく、側面1−8のいずれか1項に記載の方法。
第10の側面では、ユーザインターフェース相互作用は、ARシステムのユーザの眼移動に基づく、側面9に記載の方法。
第11の側面では、補助情報の表示を閉じるための条件は、持続時間に基づく、側面1−10のいずれか1項に記載の方法。
第12の側面では、補助情報の表示を閉じるための条件は、少なくとも部分的に、別の稀な単語の検出に基づく、側面1−11のいずれか1項に記載の方法。
第13の側面では、補助情報の閉じられた表示を再表示するための条件を検出することと、補助情報の閉じられた表示を再表示することとをさらに含む、側面1−12のいずれか1項に記載の方法。
第14の側面では、ARディスプレイと、オーディオセンサと、コンピュータ実行可能命令およびデータを記憶するように構成された非一過性データ記憶装置と、データ記憶装置と通信するハードウェアプロセッサとを備えている稀な単語のための情報を提供するための拡張現実(AR)装置であって、コンピュータ実行可能命令は、実行されると、オーディオセンサによって検出されたオーディオ情報を受信することと、受信されたオーディオ情報内の発話を検出することと、検出された発話中の稀な単語を検出することと、稀な単語に基づいて、補助情報を読み出すことと、ARディスプレイを使用して、読み出された補助情報を表示することとをプロセッサに行わせる、装置。
第15の側面では、通信ネットワークを経由して通信するための通信コンポーネントをさらに備え、補助情報は、通信コンポーネントを介して、通信ネットワークを通して読み出される、側面14に記載の装置。
第16の側面では、プロセッサは、遠隔プロセッサが稀な単語を検出するために、検出された発話を通信ネットワークを通して遠隔プロセッサに伝送することによって、稀な単語を検出する、側面15に記載の装置。
第17の側面では、オーディオセンサは、複数のマイクロホンまたは指向性マイクロホンを備えている、側面14−16のいずれか1項に記載の装置。
第18の側面では、プロセッサは、検出された発話の源を決定することと、稀な単語を検出することと、検出された発話の源がAR装置のユーザ以外であることを決定すると、補助情報を読み出し、表示することとを行うようにさらに構成されている、側面14−17のいずれか1項に記載の装置。
第19の側面では、ユーザインターフェース相互作用を受信するためのユーザ入力デバイスをさらに備えている、側面14−18のいずれか1項に記載の装置。
第20の側面では、稀な単語に関する情報を提供するための拡張現実(AR)システムであって、システムは、第1のウェアラブルARデバイスを備え、第1のウェアラブルARデバイスは、ARディスプレイと、オーディオセンサと、コンピュータ実行可能命令およびデータを記憶するように構成されたデータ記憶装置と、プロセッサとを備え、コンピュータ実行可能命令は、実行されると、オーディオセンサによって検出されたオーディオ情報を受信することと、受信されたオーディオ情報内の発話を検出することと、検出された発話中の稀な単語を検出することと、稀な単語に基づいて、補助情報を読み出すことと、ARディスプレイ上に読み出された補助情報を表示することとをプロセッサに行わせる、システム。
第21の側面では、内向きに面した結像システムをさらに備えている、側面20に記載のシステム。
第22の側面では、外向きに面した結像システムをさらに備えている、側面20−21のいずれか1項に記載のシステム。
第23の側面では、プロセッサは、外向きに面した結像システムからの画像情報を使用して、第1のウェアラブルARデバイスに関連付けられたユーザの環境に対する発話源の場所を決定する、側面22に記載のシステム。
第24の側面では、プロセッサは、外向きに面した結像システムからの画像情報を使用して、発話源の場所と、ARディスプレイを通して、源のビューを曖昧にせず、ARディスプレイ上の発話源に空間内で近接した補助情報の表示位置とを決定するようにさらに構成されている、側面22に記載のシステム。
第25の側面では、ARディスプレイと、オーディオセンサと、通信ネットワークを経由して通信するように構成された通信コンポーネントとを備えている第2のウェアラブルARデバイスをさらに備え、第1のウェアラブルARデバイスは、通信ネットワークを経由して通信するように構成された通信コンポーネントをさらに備え、第1のウェアラブルARデバイスのオーディオセンサは、オーディオ情報を検出し、読み出された補助情報は、第2のウェアラブルARデバイスのARディスプレイ上に表示される、側面20−24のいずれか1項に記載のシステム。
第26の側面では、オーディオストリーム内のスレッドを識別する方法であって、方法は、第1のオーディオストリームおよび第2のオーディオストリームを受信することと、第1のオーディオストリームおよび第2のオーディオストリームを解析し、第1の話題に関連付けられた第1のキーワードおよび第2の話題に関連付けられた第2のオーディオストリームを識別することと、第1の話題に関連付けられた第1のスレッドおよび第2の話題に関連付けられた第2のスレッドを生成することと、第1のスレッドまたは第2のスレッドのうちの少なくとも1つが拡張現実デバイスによってレンダリングされるようにすることとを含む、方法。
第27の側面では、第1のオーディオストリームまたは第2のオーディオストリームは、人物または視聴覚コンテンツのうちの少なくとも1つから生じる、側面26に記載の方法。
第28の側面では、第1のオーディオストリームは、第1の人物から生じ、第2のオーディオストリームは、第2の人物から生じる、側面26−27のいずれか1項に記載の方法。
第29の側面では、第1の話題は、複数のサブ話題をさらに含む、側面26−28のいずれか1項に記載の方法。
第30の側面では、ハードウェアプロセッサと、拡張現実ディスプレイとを備えている拡張現実システムであって、ハードウェアプロセッサは、側面26−29に記載のいずれか1項を実施するようにプログラムされている、拡張現実システム。
第31の側面では、拡張現実(AR)システムであって、システムは、仮想コンテンツをARシステムのユーザに提示するように構成されたARディスプレイと、周囲音を捕捉するように構成されたオーディオセンサと、ARディスプレイおよびオーディオセンサと通信するハードウェアプロセッサとを備え、ハードウェアプロセッサは、オーディオセンサによって捕捉された周囲音を受信することと、周囲音内の発話の存在を検出することと、検出された発話をテキストに変換することと、発話中の稀な単語を検出することと、稀な単語に関連付けられた補助情報を読み出すことと、ARディスプレイに読み出された補助情報をレンダリングさせることとを行うようにプログラムされている、ARシステム。
第32の側面では、稀な単語は、一般的単語辞書から除外された単語である、側面31に記載のARシステム。
第33の側面では、ハードウェアプロセッサは、補助情報の表示を閉じるための条件を検出することと、検出された条件に応答して、ARディスプレイに補助情報の表示を閉じさせることとを行うようにさらにプログラムされている、側面31−32のいずれか1項に記載のARシステム。
第34の側面では、表示を閉じるための条件を検出するために、ハードウェアプロセッサは、閾値期間が経過したことを決定すること、別の稀な単語を検出すること、ユーザの姿勢を検出すること、またはユーザ入力デバイスからの入力を受信することのうちの少なくとも1つを実施するようにプログラムされている、側面33に記載のARシステム。
第35の側面では、ハードウェアプロセッサは、検出された発話の源を決定することと、稀な単語を検出することと、検出された発話の源がARディスプレイのユーザ以外の話者に関連付けられていることを決定すると、補助情報を読み出し、表示することとを行うようにさらにプログラムされている、側面31−34のいずれか1項に記載のARシステム。
第36の側面では、検出された発話の源は、1つ以上の指向性マイクロホンを備えているオーディオセンサから収集されたオーディオ情報またはARシステムの外向きに面した結像システムによって入手された画像のうちの少なくとも1つに基づいて決定される、側面35に記載のARシステム。
第37の側面では、検出された発話の源を決定するために、ハードウェアプロセッサは、音声認識を検出された発話に対して実施し、話者の識別を決定するようにプログラムされている、側面35−36のいずれか1項に記載のARシステム。
第38の側面では、検出された発話の源は、ユーザの環境内の別のコンピュータ、話者に関連付けられた別のARデバイス、またはユーザの環境内の人物のうちの少なくとも1つを含む、側面35−37のいずれか1項に記載のARシステム。
第39の側面では、ユーザが話者とテレプレゼンスセッション中であり、検出された発話の源が話者に関連付けられた他のユーザデバイスである場合、ハードウェアプロセッサは、ARディスプレイに、話者の仮想アバタをレンダリングさせ、補助情報を他のユーザの仮想アバタの近傍にレンダリングさせるようにさらにプログラムされている、側面38に記載のARシステム。
第40の側面では、ARディスプレイに読み出された補助情報をレンダリングするために、ハードウェアプロセッサは、源の場所を決定することと、ARディスプレイを通して、源のビューを曖昧にすることなく、補助情報を源に近接した3D空間内の位置にレンダリングすることとを行うようにプログラムされている、側面35−39のいずれか1項に記載のARシステム。
第41の側面では、補助情報は、稀な単語の説明を含む、側面31−40のいずれか1項に記載のARシステム。
第42の側面では、ハードウェアプロセッサは、ユーザから、補助情報に注釈を付けるための指示を受信することと、補助情報の注釈の記憶を開始することと、別の稀な単語の存在を検出することに応答して、ARディスプレイに注釈および補助情報をレンダリングさせることとを行うようにさらにプログラムされている、側面31−41のいずれか1項に記載のARシステム。
第43の側面では、方法であって、仮想コンテンツをユーザの環境内に提示するように構成されたハードウェアプロセッサおよびARディスプレイを備えている拡張現実(AR)デバイスの制御下で、ARデバイスのユーザの環境を監視することと、ユーザまたは環境のうちの少なくとも1つに関連付けられたコンテキスト情報に基づいて、環境内の着目オブジェクトの存在を検出することと、着目オブジェクトのための補助情報を読み出すことと、ユーザの視野内の補助情報の表示位置を決定することであって、視野は、ユーザが所与の時間に知覚可能な環境の一部を含む、ことと、ARディスプレイに補助情報を表示位置にレンダリングさせることとを含む、方法。
第44の側面では、着目オブジェクトは、キーワード、物理的オブジェクト、または人物を含む、側面43に記載の方法。
第45の側面では、着目オブジェクトは、キーワードを含み、着目オブジェクトの存在を検出することは、環境内の周囲音から発話を検出することと、発話を解析し、稀な単語を識別することとを含む、側面44に記載の方法。
第46の側面では、環境を監視することは、環境の周囲音を捕捉し、分析すること、または環境の画像を入手することのうちの少なくとも1つを含む、側面43−45のいずれか1項に記載の方法。
第47の側面では、コンテキスト情報は、ユーザの過去の体験に関連付けられ、着目オブジェクトは、ユーザが稀にしか遭遇しないオブジェクトを含む、側面43−46のいずれか1項に記載の方法。
第48の側面では、補助情報は、着目オブジェクトに関連付けられた製品情報、または着目オブジェクトの説明テキストのうちの少なくとも1つを含む、側面43−47のいずれか1項に記載の方法。
第49の側面では、ユーザから、補助情報に注釈を付けるための指示を受信することと、補助情報の注釈の記憶を開始することと、着目オブジェクトの別の存在を検出することに応答して、ARディスプレイに注釈および補助情報をレンダリングさせることとさらに含む、側面43−48のいずれか1項に記載の方法。
第50の側面では、補助情報の表示位置を決定することは、着目オブジェクトの場所を決定することと、ARディスプレイを通して、着目オブジェクトのビューを曖昧にすることなく、着目オブジェクトに近接する環境内の位置として表示位置を識別することとを含む、側面43−49のいずれか1項に記載の方法。
(他の考慮点)
本明細書に説明される、および/または添付される図に描写されるプロセス、方法、およびアルゴリズムの各々は、具体的かつ特定のコンピュータ命令を実行するように構成される1つ以上の物理的コンピューティングシステム、ハードウェアコンピュータプロセッサ、特定用途向け回路、および/もしくは電子ハードウェアによって実行されるコードモジュールにおいて具現化され、それによって完全もしくは部分的に自動化され得る。例えば、コンピューティングシステムは、具体的コンピュータ命令とともにプログラムされた汎用コンピュータ(例えば、サーバ)または専用コンピュータ、専用回路等を含むことができる。コードモジュールは、実行可能プログラムにコンパイルおよびリンクされ得る動的リンクライブラリ内にインストールされ得るか、または解釈されるプログラミング言語において書き込まれ得る。いくつかの実装では、特定の動作および方法が、所与の機能に特定の回路によって実施され得る。
さらに、本開示の機能性のある実装は、十分に数学的、コンピュータ的、または技術的に複雑であるので、(適切な特殊化された実行可能命令を利用する)特定用途向けハードウェアまたは1つ以上の物理的コンピューティングデバイスは、例えば、関与する計算の量もしくは複雑性に起因して、または結果を実質的にリアルタイムで提供するために、機能性を実施する必要があり得る。例えば、動画またはビデオは、多くのフレームを含み、各フレームは、数百万のピクセルを有し得、具体的にプログラムされたコンピュータハードウェアは、商業的に妥当な時間量において所望の画像処理タスクまたは用途を提供するようにビデオデータを処理する必要がある。
コードモジュールまたは任意のタイプのデータは、ハードドライブ、ソリッドステートメモリ、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、光学ディスク、揮発性もしくは不揮発性記憶装置、同一物の組み合わせ等を含む物理的コンピュータ記憶装置等の任意のタイプの非一過性コンピュータ読み取り可能な媒体上に記憶され得る。方法およびモジュール(またはデータ)はまた、無線ベースおよび有線/ケーブルベースの媒体を含む種々のコンピュータ読み取り可能な伝送媒体上で生成されたデータ信号として(例えば、搬送波または他のアナログもしくはデジタル伝搬信号の一部として)伝送され得、種々の形態(例えば、単一もしくは多重化アナログ信号の一部として、または複数の個別的なデジタルパケットもしくはフレームとして)をとり得る。開示されるプロセスまたはプロセスステップの結果は、任意のタイプの非一過性有形コンピュータ記憶装置内に持続的もしくは別様に記憶され得るか、またはコンピュータ読み取り可能な伝送媒体を介して通信され得る。
本明細書に説明される、および/または添付される図に描写されるフロー図における任意のプロセス、ブロック、状態、ステップ、もしくは機能性は、プロセスにおいて具体的機能(例えば、論理もしくは算術)またはステップを実装するための1つ以上の実行可能命令を含むコードモジュール、セグメント、またはコードの一部を潜在的に表すものとして理解されたい。種々のプロセス、ブロック、状態、ステップ、または機能性は、組み合わせられる、再配列される、追加される、削除される、修正される、または別様に本明細書に提供される例証的例から変更されることができる。いくつかの実施形態では、追加のまたは異なるコンピューティングシステムもしくはコードモジュールが、本明細書に説明される機能性のいくつかまたは全てを実施し得る。本明細書に説明される方法およびプロセスは、任意の特定のシーケンスに限定されず、それに関連するブロック、ステップ、または状態は、適切な他のシーケンスで、例えば、連続して、並行して、またはある他の様式で実施されることもできる。タスクまたはイベントが、開示される例示的実施形態に追加されるか、またはそれから除去され得る。さらに、本明細書に説明される実装における種々のシステムコンポーネントの分離は、例証を目的とし、全ての実装においてそのような分離を要求するものとして理解されるべきではない。説明されるプログラムコンポーネント、方法、およびシステムは、概して、単一のコンピュータ製品においてともに統合される、または複数のコンピュータ製品にパッケージ化され得ることを理解されたい。多くの実装変形例が、可能である。
プロセス、方法、およびシステムは、ネットワーク(または分散)コンピューティング環境において実装され得る。ネットワーク環境は、企業全体コンピュータネットワーク、イントラネット、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、パーソナルエリアネットワーク(PAN)、クラウドコンピューティングネットワーク、クラウドソースコンピューティングネットワーク、インターネット、およびワールドワイドウェブを含む。ネットワークは、有線もしくは無線ネットワークまたは任意の他のタイプの通信ネットワークであり得る。
本開示のシステムおよび方法の各々は、いくつかの革新的側面を有し、そのうちのいかなるものも、本明細書に開示される望ましい属性に単独で関与しない、またはそのために要求されない。上で説明される種々の特徴およびプロセスは、互いに独立して使用され得るか、または種々の方法で組み合わせられ得る。全ての可能な組み合わせおよび副次的組み合わせが、本開示の範囲内に該当することが意図される。本開示に説明される実装の種々の修正が、当業者に容易に明白であり得、本明細書に定義される一般原理は、本開示の精神または範囲から逸脱することなく、他の実装に適用され得る。したがって、請求項は、本明細書に示される実装または実施形態に限定されることを意図されず、本明細書に開示される本開示、原理、および新規の特徴と一貫する最も広い範囲を与えられるべきである。
別個の実装または実施形態の文脈において本明細書に説明されるある特徴は、単一の実装または実施形態における組み合わせにおいて実装されることもできる。逆に、単一の実装または実施形態の文脈において説明される種々の特徴も、複数の実装または実施形態において別個に、もしくは任意の好適な副次的組み合わせにおいて実装されることができる。さらに、特徴がある組み合わせにおいて作用するものとして上で説明され、さらに、そのようなものとして最初に請求され得るが、請求される組み合わせからの1つ以上の特徴は、いくつかの場合では、組み合わせから削除されることができ、請求される組み合わせは、副次的組み合わせまたは副次的組み合わせの変形例を対象とし得る。いかなる単一の特徴または特徴のグループも、あらゆる実施形態に必要もしくは必須ではない。
とりわけ、「〜できる(can)」、「〜し得る(could)」、「〜し得る(might)」、「〜し得る(may)」、「例えば(e.g.)」等等、本明細書で使用される条件文は、別様に具体的に記載されない限り、または使用されるような文脈内で別様に理解されない限り、概して、ある実施形態がある特徴、要素、および/またはステップを含む一方、他の実施形態がそれらを含まないことを伝えることが意図される。したがって、そのような条件文は、概して、特徴、要素、および/もしくはステップが、1つ以上の実施形態に対していかようにも要求されること、または1つ以上の実施形態が、著者の入力または促しの有無を問わず、これらの特徴、要素、および/もしくはステップが任意の特定の実施形態において含まれる、もしくは実施されるべきかどうかを決定するための論理を必然的に含むことを示唆することを意図されない。用語「〜を備えている」、「〜を含む」、「〜を有する」等は、同義語であり、非限定的方式で包括的に使用され、追加の要素、特徴、行為、動作等を除外しない。また、用語「または」は、その包括的意味において使用され(およびその排他的意味において使用されず)、したがって、例えば、要素のリストを接続するために使用されると、用語「または」は、リスト内の要素のうちの1つ、いくつか、または全てを意味する。加えて、本願および添付される請求項で使用されるような冠詞「a」、「an」、および「the」は、別様に規定されない限り、「1つ以上の」もしくは「少なくとも1つ」を意味するように解釈されるべきである。
本明細書で使用されるように、項目のリスト「のうちの少なくとも1つ」を指す語句は、単一の要素を含む、それらの項目の任意の組み合わせを指す。ある例として、「A、B、またはCのうちの少なくとも1つ」は、A、B、C、AおよびB、AおよびC、BおよびC、ならびにA、B、およびCを対象とすることが意図される。語句「X、Y、およびZのうちの少なくとも1つ」等の接続文は、別様に具体的に記載されない限り、概して、項目、用語等がX、Y、またはZのうちの少なくとも1つであり得ることを伝えるために使用されるような文脈で別様に理解される。したがって、そのような接続文は、概して、ある実施形態が、Xのうちの少なくとも1つ、Yのうちの少なくとも1つ、およびZのうちの少なくとも1つがそれぞれ存在するように要求することを示唆することを意図されない。
同様に、動作は、特定の順序で図面に描写され得るが、それは、望ましい結果を達成するために、そのような動作が示される特定の順序で、もしくは連続的順序で実施される、または全ての図示される動作が実施される必要はないと認識されるべきである。さらに、図面は、フローチャートの形態で1つ以上の例示的プロセスを図式的に描写し得る。しかしながら、描写されない他の動作も、図式的に図示される例示的方法およびプロセス内に組み込まれることができる。例えば、1つ以上の追加の動作が、図示される動作のいずれかの前、その後に、それと同時に、またはその間に実施されることができる。加えて、動作は、他の実装において再配列される、または再順序付けられ得る。ある状況では、マルチタスクおよび並列処理が、有利であり得る。さらに、上で説明される実装における種々のシステムコンポーネントの分離は、全ての実装におけるそのような分離を要求するものとして理解されるべきではなく、説明されるプログラムコンポーネントおよびシステムは、概して、単一のソフトウェア製品においてともに統合される、または複数のソフトウェア製品にパッケージ化され得ることを理解されたい。加えて、他の実装も、以下の請求項の範囲内である。いくつかの場合では、請求項に列挙されるアクションは、異なる順序で実施され、依然として、望ましい結果を達成することができる。

Claims (20)

  1. 拡張現実(AR)システムであって、前記ARシステムは、
    仮想コンテンツをARシステムのユーザに提示するように構成されたARディスプレイと、
    周囲音を捕捉するように構成されたオーディオセンサと、
    前記ARディスプレイおよび前記オーディオセンサと通信するハードウェアプロセッサと
    を備え、
    前記ハードウェアプロセッサは、
    前記オーディオセンサによって捕捉された前記周囲音を受信することと、
    前記周囲音内の発話の存在を検出することと、
    前記検出された発話をテキストに変換することと、
    前記発話中の稀な単語を検出することと、
    前記稀な単語に関連付けられた補助情報を読み出すことと、
    前記ARディスプレイに前記読み出された補助情報をレンダリングさせることと
    を行うようにプログラムされている、ARシステム。
  2. 前記稀な単語は、一般的単語辞書から除外された単語である、請求項1に記載のARシステム。
  3. 前記ハードウェアプロセッサは、
    前記補助情報の表示を閉じるための条件を検出することと、
    前記検出された条件に応答して、前記ARディスプレイに前記補助情報の表示を閉じさせることと
    を行うようにさらにプログラムされている、請求項1に記載のARシステム。
  4. 前記表示を閉じるための前記条件を検出するために、前記ハードウェアプロセッサは、閾値期間が経過したことを決定すること、別の稀な単語を検出すること、ユーザの姿勢を検出すること、または、ユーザ入力デバイスからの入力を受信することのうちの少なくとも1つを実施するようにプログラムされている、請求項3に記載のARシステム。
  5. 前記ハードウェアプロセッサは、
    前記検出された発話の源を決定することと、
    前記稀な単語を検出し、前記検出された発話の源が前記ARディスプレイのユーザ以外の話者に関連付けられていることを決定すると、前記補助情報を読み出し、表示することと
    を行うようにさらにプログラムされている、請求項1に記載のARシステム。
  6. 前記検出された発話の源は、1つ以上の指向性マイクロホンを備えているオーディオセンサから収集されたオーディオ情報、または前記ARシステムの外向きに面した結像システムによって入手された画像のうちの少なくとも1つに基づいて決定される、請求項5に記載のARシステム。
  7. 前記検出された発話の源を決定するために、前記ハードウェアプロセッサは、音声認識を前記検出された発話に対して実施し、前記話者の識別を決定するようにプログラムされている、請求項5に記載のARシステム。
  8. 前記検出された発話の源は、前記ユーザの環境内の別のコンピュータ、前記話者に関連付けられた別のARデバイス、または前記ユーザの環境内の人物のうちの少なくとも1つを含む、請求項5に記載のARシステム。
  9. 前記ユーザが前記話者とテレプレゼンスセッション中であり、前記検出された発話の源が前記話者に関連付けられた他のユーザデバイスである場合、前記ハードウェアプロセッサは、前記話者の仮想アバタをレンダリングすることと、前記補助情報を前記他のユーザの前記仮想アバタの近傍にレンダリングすることとを前記ARディスプレイに行わせるようにさらにプログラムされている、請求項8に記載のARシステム。
  10. 前記ARディスプレイに前記読み出された補助情報をレンダリングさせるために、前記ハードウェアプロセッサは、前記源の場所を決定することと、前記ARディスプレイを通して、前記源のビューを曖昧にすることなく、前記補助情報を前記源に近接した3D空間内の位置にレンダリングすることとを行うようにプログラムされている、請求項5に記載のARシステム。
  11. 補助情報は、前記稀な単語の説明を含む、請求項1に記載のARシステム。
  12. 前記ハードウェアプロセッサは、
    ユーザから、前記補助情報に注釈を付けるための指示を受信することと、
    前記補助情報の注釈の記憶を開始することと、
    前記稀な単語の別の存在を検出することに応答して、前記ARディスプレイに前記注釈および前記補助情報をレンダリングさせることと
    を行うようにさらにプログラムされている、請求項1に記載のARシステム。
  13. 方法であって、前記方法は、
    仮想コンテンツをユーザの環境内に提示するように構成されたハードウェアプロセッサおよびARディスプレイを備えている拡張現実(AR)デバイスの制御下で、
    前記ARデバイスの前記ユーザの環境を監視することと、
    前記ユーザまたは前記環境のうちの少なくとも1つに関連付けられたコンテキスト情報に基づいて、前記環境内の着目オブジェクトの存在を検出することと、
    前記着目オブジェクトのための補助情報を読み出すことと、
    前記ユーザの視野内の前記補助情報の表示位置を決定することであって、前記視野は、ユーザが所与の時間に知覚可能な前記環境の一部を含む、ことと、
    前記ARディスプレイに前記補助情報を前記表示位置にレンダリングさせることと
    を含む、方法。
  14. 前記着目オブジェクトは、キーワード、物理的オブジェクト、または人物を含む、請求項13に記載の方法。
  15. 前記着目オブジェクトは、キーワードを含み、前記着目オブジェクトの存在を検出することは、
    前記環境内の周囲音から発話を検出することと、
    前記発話を解析し、稀な単語を識別することと
    を含む、請求項14に記載の方法。
  16. 前記環境を監視することは、
    前記環境の周囲音を捕捉し、分析すること、または
    前記環境の画像を入手すること
    のうちの少なくとも1つを含む、請求項13に記載の方法。
  17. 前記コンテキスト情報は、前記ユーザの過去の体験に関連付けられ、前記着目オブジェクトは、前記ユーザが稀にしか遭遇しないオブジェクトを含む、請求項13に記載の方法。
  18. 前記補助情報は、前記着目オブジェクトに関連付けられた製品情報、または前記着目オブジェクトの説明テキストのうちの少なくとも1つを含む、請求項13に記載の方法。
  19. 前記ユーザから、前記補助情報に注釈を付けるための指示を受信することと、
    前記補助情報の注釈の記憶を開始することと、
    前記着目オブジェクトの別の存在を検出することに応答して、前記ARディスプレイに前記注釈および前記補助情報をレンダリングさせることと
    をさらに含む、請求項13に記載の方法。
  20. 前記補助情報の表示位置を決定することは、
    前記着目オブジェクトの場所を決定することと、
    前記ARディスプレイを通して、前記着目オブジェクトのビューを曖昧にすることなく、前記着目オブジェクトに近接した前記環境内の位置として前記表示位置を識別することと
    を含む、請求項13に記載の方法。
JP2019506525A 2016-08-12 2017-08-10 ワードフロー注釈 Active JP6814279B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662374183P 2016-08-12 2016-08-12
US62/374,183 2016-08-12
PCT/US2017/046251 WO2018031745A1 (en) 2016-08-12 2017-08-10 Word flow annotation

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2020134422A Division JP7100092B2 (ja) 2016-08-12 2020-08-07 ワードフロー注釈

Publications (3)

Publication Number Publication Date
JP2019531538A true JP2019531538A (ja) 2019-10-31
JP2019531538A5 JP2019531538A5 (ja) 2020-09-17
JP6814279B2 JP6814279B2 (ja) 2021-01-13

Family

ID=61159274

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2019506525A Active JP6814279B2 (ja) 2016-08-12 2017-08-10 ワードフロー注釈
JP2020134422A Active JP7100092B2 (ja) 2016-08-12 2020-08-07 ワードフロー注釈
JP2022105856A Pending JP2022160406A (ja) 2016-08-12 2022-06-30 ワードフロー注釈

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2020134422A Active JP7100092B2 (ja) 2016-08-12 2020-08-07 ワードフロー注釈
JP2022105856A Pending JP2022160406A (ja) 2016-08-12 2022-06-30 ワードフロー注釈

Country Status (9)

Country Link
US (3) US10607609B2 (ja)
EP (1) EP3497695A4 (ja)
JP (3) JP6814279B2 (ja)
KR (3) KR102227392B1 (ja)
CN (2) CN109844854B (ja)
AU (2) AU2017308914B2 (ja)
CA (1) CA3033109A1 (ja)
IL (3) IL292025B2 (ja)
WO (1) WO2018031745A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023248677A1 (ja) * 2022-06-22 2023-12-28 株式会社Jvcケンウッド 情報表示制御装置および情報表示方法

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102016114265A1 (de) * 2016-08-02 2018-02-08 Claas Selbstfahrende Erntemaschinen Gmbh Verfahren zum zumindest teilweise maschinellen Transferieren einer in einer Quellsprache abgefassten Wortfolge in eine Wortfolge einer Zielsprache
CN109844854B (zh) 2016-08-12 2023-09-01 奇跃公司 单词流注释
US20180197438A1 (en) * 2017-01-10 2018-07-12 International Business Machines Corporation System for enhancing speech performance via pattern detection and learning
WO2018164699A1 (en) * 2017-03-10 2018-09-13 James Jordan Rosenberg System and method for relative enhancement of vocal utterances in an acoustically cluttered environment
US10453459B2 (en) * 2017-06-21 2019-10-22 Saida Ashley Florexil Interpreting assistant system
WO2018235313A1 (ja) * 2017-06-23 2018-12-27 富士フイルム株式会社 撮像装置及び文字表示方法
JP7056055B2 (ja) * 2017-09-27 2022-04-19 富士フイルムビジネスイノベーション株式会社 情報処理装置、情報処理システム及びプログラム
US10930278B2 (en) * 2018-04-09 2021-02-23 Google Llc Trigger sound detection in ambient audio to provide related functionality on a user interface
US10861238B2 (en) * 2018-05-14 2020-12-08 Microsoft Technology Licensing, Llc Experiential representation of data in mixed reality
US11416532B2 (en) * 2018-05-31 2022-08-16 Wipro Limited Method and device for identifying relevant keywords from documents
CN108984788A (zh) * 2018-07-30 2018-12-11 珠海格力电器股份有限公司 一种录音文件整理、归类系统及其控制方法与录音设备
CN109215679A (zh) * 2018-08-06 2019-01-15 百度在线网络技术(北京)有限公司 基于用户情绪的对话方法和装置
US10977872B2 (en) 2018-10-31 2021-04-13 Sony Interactive Entertainment Inc. Graphical style modification for video games using machine learning
US11375293B2 (en) 2018-10-31 2022-06-28 Sony Interactive Entertainment Inc. Textual annotation of acoustic effects
US11636673B2 (en) 2018-10-31 2023-04-25 Sony Interactive Entertainment Inc. Scene annotation using machine learning
US10854109B2 (en) 2018-10-31 2020-12-01 Sony Interactive Entertainment Inc. Color accommodation for on-demand accessibility
US20200129860A1 (en) * 2018-10-31 2020-04-30 Sony Interactive Entertainment Inc. Action description for on-demand accessibility
WO2020198065A1 (en) 2019-03-22 2020-10-01 Cognoa, Inc. Personalized digital therapy methods and devices
US11093720B2 (en) * 2019-03-28 2021-08-17 Lenovo (Singapore) Pte. Ltd. Apparatus, method, and program product for converting multiple language variations
EP3759709A1 (en) * 2019-05-06 2021-01-06 Google LLC Selectively activating on-device speech recognition, and using recognized text in selectively activating on-device nlu and/or on-device fulfillment
WO2021056347A1 (en) * 2019-09-26 2021-04-01 Orange Method for retrieving information about pronunciation associated with logogram
US11227602B2 (en) * 2019-11-20 2022-01-18 Facebook Technologies, Llc Speech transcription using multiple data sources
CN111161737A (zh) * 2019-12-23 2020-05-15 北京欧珀通信有限公司 数据处理方法、装置、电子设备和存储介质
US11687778B2 (en) 2020-01-06 2023-06-27 The Research Foundation For The State University Of New York Fakecatcher: detection of synthetic portrait videos using biological signals
KR102334091B1 (ko) * 2020-03-20 2021-12-02 주식회사 코클리어닷에이아이 오디오 인식을 수행하는 증강현실 디바이스 및 그의 제어방법
US11138802B1 (en) * 2020-04-06 2021-10-05 Saudi Arabian Oil Company Geo-augmented field excursion for geological sites
KR20210131892A (ko) * 2020-04-24 2021-11-03 삼성전자주식회사 대화형 청중 시뮬레이션을 제공하는 장치 및 방법
US11436828B1 (en) 2020-06-02 2022-09-06 State Farm Mutual Automobile Insurance Company Insurance inventory and claim generation
US11393198B1 (en) 2020-06-02 2022-07-19 State Farm Mutual Automobile Insurance Company Interactive insurance inventory and claim generation
GB2598333B (en) * 2020-08-26 2023-09-20 Advanced Risc Mach Ltd A method and head-mounted unit for assisting a user
US11861137B2 (en) 2020-09-09 2024-01-02 State Farm Mutual Automobile Insurance Company Vehicular incident reenactment using three-dimensional (3D) representations
AU2021204758A1 (en) * 2020-11-20 2022-06-16 Soul Machines Autonomous animation in embodied agents
US11715470B2 (en) * 2021-03-25 2023-08-01 TRANSFR Inc. Method and system for tracking in extended reality
US11880663B2 (en) * 2021-06-30 2024-01-23 Microsoft Technology Licensing, Llc Assistant for providing information on unknown topics
CN115809672A (zh) * 2021-09-14 2023-03-17 北京小米移动软件有限公司 翻译方法、装置、ar眼镜、存储介质及计算机程序产品
CN115438212B (zh) * 2022-08-22 2023-03-31 蒋耘晨 一种影像投射系统、方法及设备
WO2024043925A1 (en) * 2022-08-22 2024-02-29 Google Llc System, method, and devices for providing text interpretation to multiple co-watching devices

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005115289A (ja) * 2003-10-10 2005-04-28 Olympus Corp 画像表示処理装置
US20100023476A1 (en) * 2008-07-22 2010-01-28 International Business Machines Corporation Location/event based dictionaries to facilitate communication in a virtual world location
JP2010108099A (ja) * 2008-10-28 2010-05-13 Hoya Corp 携帯機器のガイド表示システムおよびガイド表示プログラム
JP2011118531A (ja) * 2009-12-01 2011-06-16 Brother Industries Ltd ヘッドマウントディスプレイ
JP2011248860A (ja) * 2010-04-28 2011-12-08 Ns Solutions Corp 情報処理システム、情報処理方法及びプログラム
US20140223279A1 (en) * 2013-02-07 2014-08-07 Cherif Atia Algreatly Data augmentation with real-time annotations
JP2015118710A (ja) * 2015-01-09 2015-06-25 株式会社東芝 対話装置、方法及びプログラム

Family Cites Families (79)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6222525B1 (en) 1992-03-05 2001-04-24 Brad A. Armstrong Image controllers with sheet connected sensors
US5670988A (en) 1995-09-05 1997-09-23 Interlink Electronics, Inc. Trigger operated electronic device
US7356830B1 (en) * 1999-07-09 2008-04-08 Koninklijke Philips Electronics N.V. Method and apparatus for linking a video segment to another segment or information source
US6510417B1 (en) * 2000-03-21 2003-01-21 America Online, Inc. System and method for voice access to internet-based information
US7363308B2 (en) * 2000-12-28 2008-04-22 Fair Isaac Corporation System and method for obtaining keyword descriptions of records from a large database
JP2003345372A (ja) * 2002-05-23 2003-12-03 Mitsubishi Electric Corp 音声合成装置及び音声合成方法
US20050234724A1 (en) * 2004-04-15 2005-10-20 Andrew Aaron System and method for improving text-to-speech software intelligibility through the detection of uncommon words and phrases
WO2005104433A1 (en) * 2004-04-21 2005-11-03 Koninklijke Philips Electronics, N.V. System and method for managing threads in a network chat environment
US9042921B2 (en) * 2005-09-21 2015-05-26 Buckyball Mobile Inc. Association of context data with a voice-message component
US8696113B2 (en) 2005-10-07 2014-04-15 Percept Technologies Inc. Enhanced optical and perceptual digital eyewear
US20070081123A1 (en) 2005-10-07 2007-04-12 Lewis Scott W Digital eyewear
US11428937B2 (en) 2005-10-07 2022-08-30 Percept Technologies Enhanced optical and perceptual digital eyewear
US7761293B2 (en) * 2006-03-06 2010-07-20 Tran Bao Q Spoken mobile engine
US8340957B2 (en) * 2006-08-31 2012-12-25 Waggener Edstrom Worldwide, Inc. Media content assessment and control systems
WO2008032329A2 (en) * 2006-09-13 2008-03-20 Alon Atsmon Providing content responsive to multimedia signals
JP5294612B2 (ja) 2007-11-15 2013-09-18 インターナショナル・ビジネス・マシーンズ・コーポレーション 仮想共有空間における参照マークの自動生成方法、装置及びプログラム
JP5299240B2 (ja) * 2009-11-26 2013-09-25 沖電気工業株式会社 情報表示装置および情報表示システム
US20160182971A1 (en) * 2009-12-31 2016-06-23 Flickintel, Llc Method, system and computer program product for obtaining and displaying supplemental data about a displayed movie, show, event or video game
US8214344B2 (en) * 2010-03-16 2012-07-03 Empire Technology Development Llc Search engine inference based virtual assistance
TW201207643A (en) * 2010-08-09 2012-02-16 Hon Hai Prec Ind Co Ltd System and method for searching information of images
EP2439676A1 (en) * 2010-10-08 2012-04-11 Research in Motion Limited System and method for displaying text in augmented reality
US9304319B2 (en) 2010-11-18 2016-04-05 Microsoft Technology Licensing, Llc Automatic focus improvement for augmented reality displays
KR101890328B1 (ko) 2010-12-24 2018-08-21 매직 립, 인코포레이티드 인체공학적 머리 장착식 디스플레이 장치 및 광학 시스템
US10156722B2 (en) 2010-12-24 2018-12-18 Magic Leap, Inc. Methods and systems for displaying stereoscopy with a freeform optical system with addressable focus for virtual and augmented reality
JP2012164113A (ja) 2011-02-07 2012-08-30 Fujitsu Marketing Ltd コンテンツ表示システムおよびコンテンツ用注釈生成装置
EP2705435B8 (en) 2011-05-06 2017-08-23 Magic Leap, Inc. Massive simultaneous remote digital presence world
US9330499B2 (en) 2011-05-20 2016-05-03 Microsoft Technology Licensing, Llc Event augmentation with real-time information
US8953889B1 (en) * 2011-09-14 2015-02-10 Rawles Llc Object datastore in an augmented reality environment
US10795448B2 (en) 2011-09-29 2020-10-06 Magic Leap, Inc. Tactile glove for human-computer interaction
KR101917630B1 (ko) 2011-10-28 2018-11-13 매직 립, 인코포레이티드 증강 및 가상 현실을 위한 시스템 및 방법
CA2858208C (en) 2011-11-23 2019-01-15 Magic Leap, Inc. Three dimensional virtual and augmented reality display system
US9214157B2 (en) 2011-12-06 2015-12-15 At&T Intellectual Property I, L.P. System and method for machine-mediated human-human conversation
KR20140136471A (ko) * 2012-02-29 2014-11-28 퀄컴 인코포레이티드 필기된 컨텐츠에 대해 공간적으로 관련된 주석의 디스플레이
CN108391033B (zh) 2012-04-05 2020-10-30 奇跃公司 具有主动中央凹能力的宽视场(fov)成像设备
JP6056178B2 (ja) 2012-04-11 2017-01-11 ソニー株式会社 情報処理装置、表示制御方法及びプログラム
US9671566B2 (en) 2012-06-11 2017-06-06 Magic Leap, Inc. Planar waveguide apparatus with diffraction element(s) and system employing same
KR102217788B1 (ko) 2012-06-11 2021-02-18 매직 립, 인코포레이티드 도파관 리플렉터 어레이 프로젝터를 이용한 다중 깊이면 3차원 디스플레이
US9740006B2 (en) 2012-09-11 2017-08-22 Magic Leap, Inc. Ergonomic head mounted display device and optical system
US9966075B2 (en) * 2012-09-18 2018-05-08 Qualcomm Incorporated Leveraging head mounted displays to enable person-to-person interactions
US9275637B1 (en) * 2012-11-06 2016-03-01 Amazon Technologies, Inc. Wake word evaluation
IL293789B2 (en) 2013-01-15 2023-08-01 Magic Leap Inc A system for scanning electromagnetic imaging radiation
EP2967322A4 (en) 2013-03-11 2017-02-08 Magic Leap, Inc. System and method for augmented and virtual reality
CN108427504B (zh) 2013-03-15 2021-06-11 奇跃公司 显示系统和方法
JP6107276B2 (ja) 2013-03-22 2017-04-05 セイコーエプソン株式会社 頭部装着型表示装置および頭部装着型表示装置の制御方法
CN105051668B (zh) * 2013-03-29 2018-12-11 日本电气株式会社 显示控制设备、显示控制方法以及程序
US9658994B2 (en) * 2013-05-20 2017-05-23 Google Inc. Rendering supplemental information concerning a scheduled event based on an identified entity in media content
US10262462B2 (en) 2014-04-18 2019-04-16 Magic Leap, Inc. Systems and methods for augmented and virtual reality
US9874749B2 (en) 2013-11-27 2018-01-23 Magic Leap, Inc. Virtual and augmented reality systems and methods
US10372815B2 (en) * 2013-07-12 2019-08-06 Microsoft Technology Licensing, Llc Interactive concept editing in computer-human interactive learning
IL302408A (en) 2013-10-16 2023-06-01 Magic Leap Inc An augmented or virtual reality head device with intrapupillary distance adjustment
US9990034B2 (en) * 2013-11-15 2018-06-05 Lg Electronics Inc. Transparent display device and control method therefor
CN107203045B (zh) 2013-11-27 2023-10-20 奇跃公司 虚拟和增强现实系统与方法
US9857591B2 (en) 2014-05-30 2018-01-02 Magic Leap, Inc. Methods and system for creating focal planes in virtual and augmented reality
EP3100099B1 (en) 2014-01-31 2020-07-01 Magic Leap, Inc. Multi-focal display system and method
CN106233189B (zh) 2014-01-31 2020-06-26 奇跃公司 多焦点显示系统和方法
US9934212B2 (en) 2014-02-26 2018-04-03 Xerox Corporation Methods and systems for capturing, sharing, and printing annotations
US10203762B2 (en) 2014-03-11 2019-02-12 Magic Leap, Inc. Methods and systems for creating virtual and augmented reality
US9286287B1 (en) * 2014-03-14 2016-03-15 Audible, Inc. Reference content determination from audio content
KR20150127472A (ko) 2014-05-07 2015-11-17 삼성전자주식회사 증강 현실 제공 장치 및 방법
KR102230172B1 (ko) 2014-05-09 2021-03-19 아이플루언스, 인크. 실제 및 가상의 객체와 인터페이싱하기 위한 생체기계학-기반의 안구 신호를 위한 시스템 및 방법
NZ727350A (en) 2014-05-30 2020-08-28 Magic Leap Inc Methods and systems for generating virtual content display with a virtual or augmented reality apparatus
US9633004B2 (en) * 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
KR102266195B1 (ko) * 2014-06-20 2021-06-17 삼성전자주식회사 객체와 관련된 정보를 제공하는 방법 및 장치
JP2016024208A (ja) * 2014-07-16 2016-02-08 セイコーエプソン株式会社 表示装置、表示装置の制御方法、および、プログラム
JP2016045723A (ja) 2014-08-22 2016-04-04 株式会社ニコン 電子機器
US9705832B2 (en) * 2014-08-27 2017-07-11 Lenovo (Singapore) Pte. Ltd. Context-aware aggregation of text-based messages
US9811594B2 (en) * 2014-09-09 2017-11-07 Cisco Technology, Inc. Automatic explanation of presented abbreviations
US9646609B2 (en) * 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
EP3201859A1 (en) * 2014-09-30 2017-08-09 PCMS Holdings, Inc. Reputation sharing system using augmented reality systems
US9897806B2 (en) * 2015-02-10 2018-02-20 Dreamworks Animation L.L.C. Generation of three-dimensional imagery to supplement existing content
KR20160113903A (ko) * 2015-03-23 2016-10-04 엘지전자 주식회사 이동 단말기 및 그것의 제어방법
US10055888B2 (en) * 2015-04-28 2018-08-21 Microsoft Technology Licensing, Llc Producing and consuming metadata within multi-dimensional data
USD758367S1 (en) 2015-05-14 2016-06-07 Magic Leap, Inc. Virtual reality headset
US10606946B2 (en) * 2015-07-06 2020-03-31 Microsoft Technology Licensing, Llc Learning word embedding using morphological knowledge
US10042038B1 (en) * 2015-09-01 2018-08-07 Digimarc Corporation Mobile devices and methods employing acoustic vector sensors
US20170075877A1 (en) * 2015-09-16 2017-03-16 Marie-Therese LEPELTIER Methods and systems of handling patent claims
KR102423588B1 (ko) * 2015-12-28 2022-07-22 삼성전자주식회사 정보 제공 방법 및 장치
CN109844854B (zh) 2016-08-12 2023-09-01 奇跃公司 单词流注释
JP7231556B2 (ja) 2017-04-27 2023-03-01 マジック リープ, インコーポレイテッド 発光ユーザ入力デバイス

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005115289A (ja) * 2003-10-10 2005-04-28 Olympus Corp 画像表示処理装置
US20100023476A1 (en) * 2008-07-22 2010-01-28 International Business Machines Corporation Location/event based dictionaries to facilitate communication in a virtual world location
JP2010108099A (ja) * 2008-10-28 2010-05-13 Hoya Corp 携帯機器のガイド表示システムおよびガイド表示プログラム
JP2011118531A (ja) * 2009-12-01 2011-06-16 Brother Industries Ltd ヘッドマウントディスプレイ
JP2011248860A (ja) * 2010-04-28 2011-12-08 Ns Solutions Corp 情報処理システム、情報処理方法及びプログラム
US20140223279A1 (en) * 2013-02-07 2014-08-07 Cherif Atia Algreatly Data augmentation with real-time annotations
JP2015118710A (ja) * 2015-01-09 2015-06-25 株式会社東芝 対話装置、方法及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023248677A1 (ja) * 2022-06-22 2023-12-28 株式会社Jvcケンウッド 情報表示制御装置および情報表示方法

Also Published As

Publication number Publication date
KR20210038673A (ko) 2021-04-07
EP3497695A1 (en) 2019-06-19
KR20230167452A (ko) 2023-12-08
IL264611A (en) 2019-02-28
KR102227392B1 (ko) 2021-03-11
EP3497695A4 (en) 2019-12-25
JP7100092B2 (ja) 2022-07-12
AU2017308914A1 (en) 2019-02-28
IL292025B2 (en) 2023-12-01
US20180047395A1 (en) 2018-02-15
US20200184975A1 (en) 2020-06-11
CN109844854A (zh) 2019-06-04
IL264611B (en) 2022-06-01
AU2017308914B2 (en) 2021-12-09
IL304179A (en) 2023-09-01
KR102610021B1 (ko) 2023-12-04
JP6814279B2 (ja) 2021-01-13
KR20190038900A (ko) 2019-04-09
US20220327281A1 (en) 2022-10-13
IL292025B1 (en) 2023-08-01
AU2022201650A1 (en) 2022-03-31
CN117198277A (zh) 2023-12-08
US11423909B2 (en) 2022-08-23
US10607609B2 (en) 2020-03-31
JP2021007003A (ja) 2021-01-21
CN109844854B (zh) 2023-09-01
WO2018031745A1 (en) 2018-02-15
CA3033109A1 (en) 2018-02-15
IL292025A (en) 2022-06-01
JP2022160406A (ja) 2022-10-19

Similar Documents

Publication Publication Date Title
JP7100092B2 (ja) ワードフロー注釈
US11747618B2 (en) Systems and methods for sign language recognition
NZ792193A (en) Sensory eyewear

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200807

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200807

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200807

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20200812

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201218

R150 Certificate of patent or registration of utility model

Ref document number: 6814279

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250