JP2022009208A - ウェアラブルデバイスによる顔モデル捕捉 - Google Patents

ウェアラブルデバイスによる顔モデル捕捉 Download PDF

Info

Publication number
JP2022009208A
JP2022009208A JP2021170260A JP2021170260A JP2022009208A JP 2022009208 A JP2022009208 A JP 2022009208A JP 2021170260 A JP2021170260 A JP 2021170260A JP 2021170260 A JP2021170260 A JP 2021170260A JP 2022009208 A JP2022009208 A JP 2022009208A
Authority
JP
Japan
Prior art keywords
user
image
face
eye camera
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021170260A
Other languages
English (en)
Other versions
JP7186844B2 (ja
Inventor
アマイェー ゴラムレザ
Amayeh Gholamreza
ケーラー エイドリアン
Adrian Kaehler
リー ダグラス
Lee Douglas
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Magic Leap Inc
Original Assignee
Magic Leap Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Magic Leap Inc filed Critical Magic Leap Inc
Publication of JP2022009208A publication Critical patent/JP2022009208A/ja
Application granted granted Critical
Publication of JP7186844B2 publication Critical patent/JP7186844B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • G02B27/0172Head mounted characterised by optical features
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/0093Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00 with means for monitoring data relating to the user, e.g. head-tracking, eye-tracking
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0101Head-up displays characterised by optical features
    • G02B27/0103Head-up displays characterised by optical features comprising holographic elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/169Holistic features and representations, i.e. based on the facial image taken as a whole
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/19Sensors therefor
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0101Head-up displays characterised by optical features
    • G02B27/0103Head-up displays characterised by optical features comprising holographic elements
    • G02B2027/0105Holograms with particular structures
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0101Head-up displays characterised by optical features
    • G02B2027/0138Head-up displays characterised by optical features comprising image capture systems, e.g. camera
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • G02B27/0172Head mounted characterised by optical features
    • G02B2027/0174Head mounted characterised by optical features holographic
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • G02B2027/0178Eyeglass type
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0179Display position adjusting means not related to the information to be displayed
    • G02B2027/0187Display position adjusting means not related to the information to be displayed slaved to motion of at least a part of the body of the user, e.g. head, eye
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/12Acquisition of 3D measurements of objects

Abstract

Figure 2022009208000001
【課題】ウェアラブルデバイスによる顔モデル捕捉を実現するをシステム及び方法を提供する。
【解決手段】頭部搭載型デバイス1150は、ユーザがデバイスを着けつつある間又はデバイスを外しつつある間、ユーザの顔を結像する1つ以上の眼カメラを含む。眼カメラによって取得される画像は、立体視技法、単眼視技法又は組み合わせを使用して分析され、ユーザのための顔モデルを生成する。少なくとも1つの眼カメラは、第1の眼カメラ1160a及び第2の眼カメラ1160bを備える。第1の眼カメラおよび第2の眼カメラは、重複している視野を有する。
【選択図】図11

Description

(関連出願の引用)
本願は、米国仮出願第62/400,907号(2016年9月28日出願、名称「FACE MODEL CAPTURE BY AN AUGMENTED REALITY DEVICE」)に対する米国特許法§119(e)に基づく優先権およびその利益を主張し、上記出願の開示は、その全体が参照により本明細書に引用される。
(分野)
本開示は、仮想現実および拡張現実結像ならびに可視化システムに関し、より具体的には、そのようなシステムのユーザの顔モデルを生成することに関する。
現代のコンピューティングおよびディスプレイ技術は、いわゆる「仮想現実」、「拡張現実」、または「複合現実」体験のためのシステムの開発を促進しており、デジタル的に再現された画像またはその一部が、現実であるように見える様式、またはそのように知覚され得る様式でユーザに提示される。仮想現実、または「VR」シナリオは、典型的には、他の実際の実世界の視覚的入力に対する透過性を伴わずに、デジタルまたは仮想画像情報の提示を伴う。拡張現実または「AR」シナリオは、典型的には、ユーザの周囲の実際の世界の可視化に対する拡張としてのデジタルまたは仮想画像情報の提示を伴う。複合現実または「MR」は、新しい環境を生成するための実世界と仮想世界の融合に関連し、物理的オブジェクトと仮想オブジェクトとが、共存し、リアルタイムで相互作用する。結論から述べると、ヒトの視知覚系は、非常に複雑であり、他の仮想または実世界画像要素間における仮想画像要素の快適かつ自然のような感覚で、かつ豊かな提示を促進する、VR、AR、またはMR技術の生成は、困難である。本明細書に開示されるシステムおよび方法は、VR、AR、およびMR技術に関連する種々の課題に対処する。
顔画像を捕捉し、顔モデルを決定するための複合現実システムの種々の実施形態が、開示される。
頭部搭載型デバイスのユーザのための顔モデルを生成するためのシステムおよび方法が、開示される。頭部搭載型デバイスは、ユーザがデバイスを着けつつある間、またはデバイスを外しつつある間、ユーザの顔を結像するように構成される1つ以上の眼カメラを含むことができる。眼カメラによって取得される画像は、立体視技法、単眼視技法、または組み合わせを使用して分析され、ユーザのための顔モデルを生成し得る。
本明細書に説明される主題の1つ以上の実装の詳細が、付随の図面および以下の説明に記載される。他の特徴、側面、および利点は、説明、図面、ならびに請求項から明白となるであろう。本概要または以下の発明を実施するための形態のいずれも、本発明の主題の範囲を定義または限定することを主張するものではない。
本発明は、例えば以下を提供する。
(項目1)
ユーザの顔の3次元(3D)モデルを生成するためのシステムであって、前記システムは、
仮想コンテンツをユーザに提示するように構成された頭部搭載型ディスプレイ(HMD)と、
少なくとも1つの眼カメラを備えている内向きに面した結像システムであって、前記結像システムは、前記ユーザが前記HMDを装着しつつある間、前記ユーザの顔の少なくとも一部を結像するように構成されている、内向きに面した結像システムと、
前記HMDに関連付けられ、前記HMDの移動を検出するように構成された慣性測定ユニット(IMU)と、
ハードウェアプロセッサと
を備え、
前記ハードウェアプロセッサは、
前記ユーザの顔の結像を開始するためのトリガを検出することであって、前記トリガは、前記IMUによって検出される移動を含み、前記移動は、前記HMDを前記ユーザの頭部上に着けつつあること、または前記HMDを前記ユーザの頭部から外しつつあることを含む、ことと、
前記トリガの検出に応答して、前記少なくとも1つの眼カメラをアクティブにし、画像を入手することと、
前記IMUまたは前記内向きに面した結像システムのうちの少なくとも1つから入手されたデータに基づいて、前記結像を停止するための停止条件を検出することと、
立体視アルゴリズムを用いて、前記少なくとも1つの眼カメラによって入手された前記
画像を分析することと、
少なくとも部分的に前記立体視アルゴリズムの出力に基づいて、前記画像を融合させ、前記ユーザの顔の顔モデルを生成することと
を行うようにプログラムされている、システム。
(項目2)
前記トリガを検出するために、前記ハードウェアプロセッサは、
前記HMDの加速を決定することと、
前記HMDの加速を閾値加速と比較することと、
前記加速が前記閾値加速を超えているという比較に応答して、前記トリガを検出することと
を行うようにプログラムされている、項目1に記載のシステム。
(項目3)
前記停止条件は、前記HMDと前記ユーザの頭部との間の距離が閾値距離に達すると、検出される、項目1に記載のシステム。
(項目4)
前記立体視アルゴリズムは、ブロックマッチングアルゴリズム、セミグローバルマッチングアルゴリズム、セミグローバルブロックマッチングアルゴリズム、視差マップ、深度マップ、またはニューラルネットワークアルゴリズムのうちの少なくとも1つを含む、項目1に記載のシステム。
(項目5)
前記少なくとも1つの眼カメラは、第1の眼カメラおよび第2の眼カメラを備え、前記
第1の眼カメラおよび前記第2の眼カメラは、重複している視野を有する、項目1に記載のシステム。
(項目6)
前記画像は、複数の対の画像を備え、各対の画像は、前記第1の眼カメラによって入手された第1の画像と、前記第2の眼カメラによって入手された第2の画像とを備えている、項目5に記載のシステム。(項目7)
一対の画像は、前記立体視アルゴリズムを用いて、一緒に分析される、項目6に記載のシステム。
(項目8)
前記立体視アルゴリズムの出力は、前記複数の対の画像内のピクセルへの深度割り当てを含む、項目6に記載のシステム。
(項目9)
前記ユーザの顔は、前記第1の眼カメラおよび前記第2の眼カメラによって入手された前記画像の分析に基づいて、複数の点群によって表され、前記画像を融合させ、顔モデルを生成するために、前記ハードウェアプロセッサは、
前記複数の群を互いに適合させることと、
前記複数の群における外れ値を除外することと、
クラスタ化することまたは平均することのうちの少なくとも1つによって、前記顔モデルの表面を平滑化することと
を行うようにプログラムされている、項目6に記載のシステム。
(項目10)
前記複数の群を適合させるために、前記ハードウェアプロセッサは、反復最近傍点アルゴリズムを前記複数の群に適用するようにプログラムされている、項目9に記載のシステム。
(項目11)
前記ハードウェアプロセッサは、
前記画像に基づいて、テクスチャマップを決定することと、
前記テクスチャマップを前記顔モデルに適用することと
を行うようにさらにプログラムされている、項目1に記載のシステム。
(項目12)
前記ハードウェアプロセッサは、前記顔モデルをウェアラブルデバイスに渡すようにさらにプログラムされている、項目1に記載のシステム。
(項目13)
前記画像を分析するために、前記ハードウェアプロセッサは、少なくとも、
キーポイント検出器および記述子アルゴリズムを使用して、前記画像内のキーポイントを識別すること、または、
顔特徴を前記画像から識別し、3D空間内の点を用いて前記識別された顔特徴を記述すること
を行うようにプログラムされている、項目1に記載のシステム。
(項目14)
前記画像を融合させるために、前記ハードウェアプロセッサは、バンドル調整アルゴリズムを使用して前記キーポイントまたは顔特徴を組み合わせるようにプログラムされている、項目13に記載のシステム。
(項目15)
ユーザの顔の3次元(3D)モデルを生成する方法であって、前記方法は、
ユーザの顔モデルを生成することに対する要求を受信することと、
ウェアラブルデバイスの内向きに面した結像システムによって入手された前記ユーザの頭部の画像にアクセスすることであって、前記内向きに面した結像システムは、少なくとも1つの眼カメラを備えている、ことと、
複数の対の画像を前記アクセスされた画像から識別することと、
立体視アルゴリズムを前記複数の対の画像に適用することによって、前記画像を分析することと、
前記分析するステップから取得される出力を融合させ、顔モデルを作成することと
を含む、方法。
(項目16)
前記出力は、前記ユーザの顔に関連付けられた深度マップを含み、前記深度マップは、前記顔と前記ウェアラブルデバイスとの間の距離に関連する情報を含む、項目15に記載の方法。
(項目17)
前記画像は、前記ウェアラブルが、前記ユーザに着けられつつあるとき、または前記ユーザから外されつつあるときに入手される、項目15に記載の方法。
(項目18)
前記少なくとも1つの眼カメラは、第1の眼カメラおよび第2の眼カメラを備え、一対
の画像は、それぞれ、前記第1の眼カメラおよび前記第2の眼カメラによって実質的に同時に入手される第1の画像および第2の画像を備えている、項目15に記載の方法。
(項目19)
前記画像を分析することは、前記複数の対の画像を点群に変換することを含む、項目15に記載の方法。
(項目20)
前記出力を融合させることは、反復最近傍点アルゴリズムを使用して前記点群を組み合わせることを含む、請求項19に記載の方法。
図1は、人物によって視認されるある仮想現実オブジェクトおよびある物理的オブジェクトを伴う、複合現実シナリオの例証を描写する。 図2は、ウェアラブルシステムの例を図式的に図示する。 図3は、複数の深度平面を使用して3次元画像をシミュレートするためのアプローチの側面を図式的に図示する。 図4は、画像情報をユーザに出力するための導波管スタックの例を図式的に図示する。 図5は、導波管によって出力され得る例示的出射ビームを示す。 図6は、導波管装置と、光を導波管装置へまたはそこから光学的に結合するための光学結合器サブシステムと、多焦点立体ディスプレイ、画像、または明視野の生成において使用される制御サブシステムとを含む、光学システムを示す、概略図である。 図7は、ウェアラブルシステムの例のブロック図である。 図8は、認識されるオブジェクトに関連して仮想コンテンツをレンダリングする方法の例のプロセスフロー図である。 図9は、ウェアラブルシステムの別の例のブロック図である 図10は、仮想ユーザインターフェースと相互作用する方法の例のプロセスフロー図である。 図11は、ユーザが、ウェアラブルデバイスを着けつつある(または外しつつある)間、ユーザの顔の画像を入手することができる例示的ウェアラブルデバイスを図示する。 図12は、顔モデルを生成するための例示的プロセスを図示する。 図13Aは、立体視技法を使用して顔モデルを生成する例示的プロセスを説明する。 図13Bは、単眼視技法を使用して顔モデルを生成する例示的プロセスを説明する。
図面全体を通して、参照番号は、参照される要素間の対応を示すために再使用され得る。図面は、本明細書に説明される例示的実施形態を図示するために提供され、本開示の範囲を限定することを意図されない。
(概要)
拡張または仮想現実システムのユーザは、頭部搭載型ディスプレイ(HMD)等のウェアラブルデバイスを使用して、仮想オブジェクトを伴う代替世界に没入することができる。時として、ウェアラブルデバイスは、他のユーザとの相互作用のために、ユーザのアバタ(例えば、仮想画像を含む)をその代替世界内に提示し得る。アバタのための現実的画像および移動を提供するために、ウェアラブルデバイスは、ユーザの顔の外観および表情に基づいて、アバタ画像を提供することができる。アバタ画像は、ウェアラブルデバイスの1つ以上の結像システムによって入手された画像に基づいて、構築され得る。結像システムは、ユーザの眼の移動を追跡するための眼カメラを備え得る内向きに面した結像システムと、ユーザの環境を結像するためのカメラを備え得る外向きに面した結像システムとを含むことができる。しかしながら、ウェアラブルデバイスの結像システムは、ユーザの頭部上に設置されると、ユーザの顔を容易に結像することができない。例えば、内向きに面した結像システムは、ユーザによって装着されるウェアラブルデバイスおよび眼カメラが、ユーザの顔全体を結像するために十分に広い視野を有していないとき、ユーザの眼球周囲領域を結像するように構成され得る。別の例として、外向きに面した結像システムのカメラは、ユーザがウェアラブルデバイスを装着しているとき、ユーザから離れて向くように構成され、したがって、ユーザの顔画像を容易に取得することができない。これは、仮想アバタをレンダリングするための容認可能画像を生成するために、種々の難点をもたらす。
本明細書に説明されるウェアラブルデバイスは、ユーザが、ウェアラブルデバイスを着けつつある間、または外しつつある間、ユーザの顔の画像を取得するように構成される結像システムを提供することによって、これらの難点を低減させることを対象とする。有利には、ウェアラブルデバイスは、内向きに面した結像システムを使用して、ユーザが、デバイスを着けつつある間、または外しつつある間、ユーザの顔の画像を取得することができ、それは、顔画像を入手するための内向きに面した結像システム(その目的は、眼追跡である)の非従来的用途を提供する。さらに、ウェアラブルデバイスは、開始または停止トリガ(例えば、それは、ウェアラブルデバイスによって入手された画像、またはウェアラブルデバイスの移動に基づき得る)を検出することによって、ユーザの顔の結像を自動的に開始および停止することができる。有利には、ユーザが、デバイスを着けつつある間、または外しつつある間、画像を自動的に入手することによって、ユーザは、ウェアラブルデバイスが顔モデルを生成するために、追加のアクションを実施する(例えば、ユーザの頭部の周囲でウェアラブルデバイスを回転または移動させる)必要がなくなり得る。さらに、ウェアラブルデバイスがユーザの顔の上に据え付けられると結像を停止することによって、内向きに面した結像システムは、ユーザの眼を追跡するというその(典型的には)一次機能を自動的に開始することができる。
画像は、静止画像、写真、動画、ビデオからの個々のフレーム、またはビデオを含むことができる。ウェアラブルデバイスは、結像システムによって入手された画像に基づいて、ユーザの顔の3次元(3D)モデルを構築し得る。例えば、ウェアラブルデバイスは、各々がユーザの顔の領域を録画するように構成された2つの眼カメラを有することができる。ビデオの各フレームに対して、ウェアラブルデバイスは、2つの眼カメラによって入手された画像を合成し、3D顔モデルを生成することができる。加えて、または代替として、ウェアラブルデバイスは、各眼カメラによって入手された画像を別個に合成し、各眼カメラに対する合成された画像を組み合わせ、3D顔モデルを生成することができる。
結果として生じるモデルは、仮想アバタを生成すること、ウェアラブルデバイスの適合を決定すること、ユーザ識別を実施すること、画像位置合わせを実施すること、または、ウェアラブルデバイスの動作パラメータを調整すること(例えば、ユーザの眼の眼球間分離(例えば、瞳孔間距離)またはユーザの顔の他のメトリックに基づいて、仮想画像のレンダリング場所、光プロジェクタの相対的位置または向き等を調節する等)等の目的のために使用され得る。
(ウェアラブルシステムの3Dディスプレイの例)
ウェアラブルシステム(本明細書では、拡張現実(AR)システムとも称される)は、2Dまたは3D仮想画像をユーザに提示するために構成されることができる。画像は、組み合わせ等において、静止画像、ビデオのフレーム、またはビデオであり得る。ウェアラブルシステムの少なくとも一部は、ウェアラブルデバイス上に実装されることができ、ウェアラブルデバイスは、ユーザ相互作用のために、単独で、または組み合わせて、VR、AR、またはMR環境を提示できる。ウェアラブルデバイスは、頭部搭載型デバイス(HMD)であることができ、それは、ARデバイス(ARD)と同義的に使用される。さらに、本開示の目的のために、用語「AR」は、用語「MR」と同義的に使用される。
図1は、人物によって視認されるある仮想現実オブジェクトおよびある物理的オブジェクトを伴う複合現実シナリオの例証を描写する。図1では、MR場面100が、描写され、MR技術のユーザは、人々、木々、背景における建物、およびコンクリートプラットフォーム120を特徴とする実世界公園状設定110を見ている。これらのアイテムに加え、MR技術のユーザは、実世界プラットフォーム120上に立っているロボット像130と、マルハナバチの擬人化のように見える飛んでいる漫画のようなアバタキャラクタ140とも「見ている」と知覚するが、これらの要素は、実世界には存在しない。
3Dディスプレイが、真の深度感覚、より具体的には、表面深度のシミュレートされた感覚を生成するために、ディスプレイの視野内の各点に対して、その仮想深度に対応する遠近調節応答を生成することが望ましくあり得る。ディスプレイ点に対する遠近調節応答が、収束および立体視の両眼深度キューによって決定されるようなその点の仮想深度に対応しない場合、ヒトの眼は、遠近調節衝突を体験し、それは、不安定な結像、有害な眼精疲労、頭痛、および遠近調節情報の不在下では、表面深度のほぼ完全な欠落をもたらし得る。
VR、AR、およびMR体験は、複数の深度平面に対応する画像が視認者に提供されるディスプレイを有するディスプレイシステムによって提供されることができる。画像は、各深度平面に対して異なり得(例えば、場面またはオブジェクトの若干異なる提示を提供する)、視認者の眼によって別個に焦点を合わせられ、それによって、異なる深度平面上に位置する場面に対する異なる画像特徴に焦点を合わせるために要求される眼の遠近調節に基づいて、または焦点からずれている異なる深度平面上の異なる画像特徴を観察することに基づいて、ユーザに深度キューを提供することに貢献し得る。本明細書のいずれかに議論されるように、そのような深度キューは、確かな深度の知覚を提供する。
図2は、ウェアラブルシステム200の例を図示し、それは、AR/VR/MR場面を提供するように構成されることができる。ウェアラブルシステム200は、ARシステム200とも称され得る。ウェアラブルシステム200は、ディスプレイ220と、ディスプレイ220の機能をサポートするための種々の機械的、電子的モジュールおよびシステムとを含む。ディスプレイ220は、ユーザ、装着者、または視認者210によって装着可能であるフレーム230に結合され得る。ディスプレイ220は、ユーザ210の眼の正面に位置付けられることができる。ディスプレイ220は、AR/VR/MRコンテンツをユーザに提示するができる。ディスプレイ220は、ユーザの頭部上に装着される頭部搭載型ディスプレイを備えていることができる。
いくつかの実施形態では、スピーカ240が、フレーム230に結合され、ユーザの外耳道に隣接して位置付けられる(いくつかの実施形態では、示されない別のスピーカが、ユーザの他方の外耳道に隣接して位置付けられ、ステレオ/成形可能音響制御を提供する)。ディスプレイ220は、環境からオーディオストリームを検出し、周囲音を捕捉するためのオーディオセンサ(例えば、マイクロホン)232を含むことができる。いくつかの実施形態では、示されない1つ以上の他のオーディオセンサが、ステレオ音受信を提供するために位置付けられる。ステレオ音受信は、音源の場所を決定するために使用されることができる。ウェアラブルシステム200は、音声または発話認識をオーディオストリームに対して実施することができる。
ウェアラブルシステム200は、ユーザの周囲の環境内の世界を観察する外向きに面した結像システム464(図4に示される)を含むことができる。ウェアラブルシステム200は、ユーザの眼移動を追跡することができる内向きに面した結像システム462(図4に示される)も含むことができる。内向きに面した結像システムは、一方の眼の移動または両方の眼の移動のいずれかを追跡することができる。内向きに面した結像システム462は、フレーム230に取り付けられ得、処理モジュール260または270と電気通信し得、処理モジュールは、内向きに面した結像システムによって入手された画像情報を処理し、例えば、ユーザ210の瞳孔直径、眼の向き、眼の移動、または眼姿勢を決定し得る。内向きに面した結像システム462は、1つ以上のカメラを含み得る。例えば、少なくとも1つのカメラは、各眼を結像するために使用され得る。カメラによって入手された画像は、各眼に対する瞳孔サイズまたは眼姿勢を別個に決定し、それによって、各眼への画像情報の提示がその眼に対して動的に調整されることを可能にするために使用され得る。別の例として、1つのみの眼の瞳孔直径または向きが、決定され(例えば、その眼の画像を入手するように構成されるカメラのために入手された画像に基づいて)、この眼のために決定された眼特徴は、ユーザ210の他の眼に対しても同様であると仮定される。
例として、ウェアラブルシステム200は、外向きに面した結像システム464または内向きに面した結像システム462を使用して、ユーザの姿勢の画像を入手することができる。画像は、静止画像、ビデオのフレーム、またはビデオであり得る。
ディスプレイ220は、有線導線または無線接続等によって、ローカルデータ処理モジュール260に動作可能に結合されることができ(250)、ローカルデータ処理モジュール260は、フレーム230に固定して取り付けられる構成、ユーザによって装着されるヘルメットもしくは帽子に固定して取り付けられる構成、ヘッドホンに内蔵される構成、または、別様にユーザ210に除去可能に取り付けられる構成、(例えば、リュック式構成において、ベルト結合式構成において)等、種々の構成において搭載され得る。
ローカル処理およびデータモジュール260は、ハードウェアプロセッサおよび不揮発性メモリ(例えば、フラッシュメモリ)等のデジタルメモリを備え得、その両方は、データの処理、キャッシュ、および記憶を補助するために利用され得る。データは、画像捕捉デバイス(例えば、内向きに面した結像システムおよび/または外向きに面した結像システム内のカメラ)、オーディオセンサ(例えば、マイクロホン)、慣性測定ユニット(IMU)、加速度計、コンパス、全地球測位システム(GPS)ユニット、無線デバイス、もしくはジャイロスコープ等の(例えば、フレーム230に動作可能に結合される、または別様にユーザ210に取り付けられ得る)センサから捕捉されるデータ(a)、または場合によっては処理もしくは読み出し後にディスプレイ220にわたすために、遠隔処理モジュール270または遠隔データリポジトリ280を使用して入手または処理されるデータ(b)を含み得る。ローカル処理およびデータモジュール260は、これらの遠隔モジュールがローカル処理およびデータモジュール260へのリソースとして利用可能であるように、有線または無線通信リンク等を介して、通信リンク262または264を遠隔処理モジュール270または遠隔データリポジトリ280に動作可能に結合され得る。加えて、遠隔処理モジュール280および遠隔データリポジトリ280は、互いに動作可能に結合され得る。
いくつかの実施形態では、遠隔処理モジュール270は、データまたは画像情報を分析および処理するように構成される1つ以上のプロセッサを備え得る。いくつかの実施形態では、遠隔データリポジトリ280は、デジタルデータ記憶設備を備え得、それは、インターネットまたは「クラウド」リソース構成における他のネットワーキング構成を通して利用可能であり得る。いくつかの実施形態では、全てのデータは、記憶され、全ての算出は、ローカル処理およびデータモジュールにおいて実施され、遠隔モジュールからの完全に自律的な使用を可能にする。
ヒト視覚系は、複雑であり、深度の現実的知覚を提供することは、困難である。理論によって限定されるわけではないが、オブジェクトの視認者は、両眼離反運動と遠近調節の組み合わせに起因して、オブジェクトを3次元として知覚し得ると考えられる。互いに対する2つの眼の両眼離反運動(すなわち、瞳孔が、互いに向かって、またはそこから離れるように移動し、眼の視線を収束させ、オブジェクトを固視するような瞳孔の回転)は、眼の水晶体の焦点合わせ(または「遠近調節」)に緊密に関連付けられる。通常条件下、焦点を1つのオブジェクトから異なる距離における別のオブジェクトに変化させるための眼のレンズの焦点の変化または眼の遠近調節は、「遠近調節-両眼離反運動反射」として知られる関係下、両眼離反運動の整合変化を自動的に同一距離に生じさせるであろう。同様に、両眼離反運動の変化は、通常条件下、遠近調節の整合変化を誘起するであろう。遠近調節と両眼離反運動との間のより良好な整合を提供するディスプレイシステムは、3次元画像のより現実的かつ快適なシミュレーションを形成し得る。
図3は、複数の深度平面を使用して3次元画像をシミュレートするためのアプローチの側面を図示する。図3を参照すると、z-軸上の眼302および304からの種々の距離におけるオブジェクトは、それらのオブジェクトが、焦点が合っているように、眼302および304によって遠近調節される。眼302および304は、オブジェクトをz-軸に沿った異なる距離に焦点を合わせるように特定の遠近調節された状態をとる。その結果、特定の遠近調節された状態は、深度平面306のうちの特定の1つに関連付けられていると言われ得、特定の1つは、特定の深度平面におけるオブジェクトまたはオブジェクトの一部が、眼がその深度平面に対して遠近調節された状態にあるとき、焦点が合っているように、関連付けられた焦点距離を有する。いくつかの実施形態では、3次元画像は、眼302および304の各々に対して、異なる画像の提示を提供することによってシミュレートされ得、深度平面の各々に対応する異なる画像の提示を提供することによってもシミュレートされ得る。例証を明確にするために、別個であるように示されるが、眼302および304の視野は、例えば、z-軸に沿った距離が増加するにつれて、重複し得ることを理解されたい。加えて、例証を容易にするために、平坦であるように示されるが、深度平面の輪郭は、深度平面内の全ての特徴が特定の遠近調節された状態における眼で焦点が合っているように、物理的空間内で湾曲し得ることを理解されたい。理論によって限定されるわけではないが、ヒトの眼は、典型的には、有限数の深度平面を解釈し、深度知覚を提供することができると考えられる。その結果、知覚された深度の高度に真実味のあるシミュレーションが、眼にこれらの限定数の深度平面の各々に対応する異なる画像の提示を提供することによって達成され得る。
(導波管スタックアセンブリ)
図4は、画像情報をユーザに出力するための導波管スタックの例を図示する。ウェアラブルシステム400は、複数の導波管432b、434b、436b、438b、4400bを使用して、3次元知覚を眼/脳に提供するために利用され得る導波管のスタックまたはスタックされた導波管アセンブリ480を含む。いくつかの実施形態では、ウェアラブルシステム400は、図2のウェアラブルシステム200に対応し得、図4は、そのウェアラブルシステム200のいくつかの部分をより詳細に図式的に示す。例えば、いくつかの実施形態では、導波管アセンブリ480は、図2のディスプレイ220の中に統合され得る。
図4を継続して参照すると、導波管アセンブリ480は、複数の特徴458、456、454、452を導波管の間にさらに含み得る。いくつかの実施形態では、特徴458、456、454、452は、レンズであり得る。他の実施形態では、特徴458、456、454、452は、レンズではないこともある。むしろ、それらは、単に、スペーサであり得る(例えば、クラッディング層または空気間隙を形成するための構造)。
導波管432b、434b、436b、438b、440bまたは複数のレンズ458、456、454、452は、種々のレベルの波面曲率または光線発散を用いて、画像情報を眼に送信するように構成され得る。各導波管レベルは、特定の深度平面に関連付けられ得、その深度平面に対応する画像情報を出力するように構成され得る。画像投入デバイス420、422、424、426、428は、導波管440b、438b、436b、434b、432bの中に画像情報を投入するために利用され得、投入デバイスの各々は、眼410(図3における眼304に対応し得る)に向かって出力するために、各それぞれの導波管にわたり入射光を分配するように構成され得る。光は、画像投入デバイス420、422、424、426、428の出力表面から出射し、導波管440b、438b、436b、434b、432bの対応する入力縁の中に投入される。いくつかの実施形態では、光の単一ビーム(例えば、コリメートされたビーム)が、各導波管の中に投入されることにより、特定の導波管に関連付けられた深度平面に対応する特定の角度(および発散量)において眼410に向かわせられるクローン化されたコリメートビームの場全体を出力し得る。
いくつかの実施形態では、画像投入デバイス420、422、424、426、428は、各々がそれぞれの対応する導波管440b、438b、436b、434b、432bの中への投入のための画像情報を生成する個別的なディスプレイである。いくつかの他の実施形態では、画像投入デバイス420、422、424、426、428は、例えば、1つ以上の光学導管(光ファイバケーブル等)を介して、画像情報を画像投入デバイス420、422、424、426、428の各々に送り得る単一の多重化されたディスプレイの出力端である。
コントローラ460が、スタックされた導波管アセンブリ480および画像投入デバイス420、422、424、426、428の動作を制御する。コントローラ460は、導波管440b、438b、436b、434b、432bへの画像情報のタイミングおよび提供を調整するプログラミング(例えば、非一過性コンピュータ読み取り可能な媒体内の命令)を含む。いくつかの実施形態では、コントローラ460は、単一の一体型デバイス、または、有線または無線通信チャネルによって接続される分散型システムであり得る。コントローラ460は、いくつかの実施形態では、処理モジュール260または270(図2に図示される)の一部であり得る。
導波管440b、438b、436b、434b、432bは、全内部反射(TIR)によって各それぞれの導波管内で光を伝搬するように構成され得る。導波管440b、438b、436b、434b、432bの各々は、主要な上部および底部表面と、それらの主要上部表面と底部表面との間に延びている縁とを伴う平面であるか、または別の形状(例えば、湾曲)を有し得る。図示される構成では、導波管440b、438b、436b、434b、432bの各々は、光抽出光学要素440a、438a、436a、434a、432aを含み得、それらは、光を向け直し、各それぞれの導波管内で伝搬し、導波管から画像情報を眼410に出力することによって、光を導波管から抽出するように構成される。抽出された光は、外部結合光とも称され得、光抽出光学要素は、外部結合光学要素とも称され得る。抽出される光のビームは、導波管によって、導波管内で伝搬する光が光向け直し要素に衝突する場所において出力される。光抽出光学要素(440a、438a、436a、434a、432a)は、例えば、反射または回折光学特徴であり得る。説明を容易にし、図面を明確にするために、導波管440b、438b、436b、434b、432bの底部主要表面に配置されて図示されるが、いくつかの実施形態では、光抽出光学要素440a、438a、436a、434a、432aは、上部もしくは底部主要表面に配置され得るか、または、導波管440b、438b、436b、434b、432bの容積内に直接配置され得る。いくつかの実施形態では、光抽出光学要素440a、438a、436a、434a、432aは、透明基板に取り付けられ、導波管440b、438b、436b、434b、432bを形成する材料の層内に形成され得る。いくつかの他の実施形態では、導波管440b、438b、436b、434b、432bは、材料のモノリシック部品であり得、光抽出光学要素440a、438a、436a、434a、432aは、その材料部品の表面上および/または内部に形成され得る。
図4を継続して参照すると、本明細書に議論されるように、各導波管440b、438b、436b、434b、432bは、特定の深度平面に対応する画像を形成するための光を出力するように構成される。例えば、眼の最近傍の導波管432bは、そのような導波管432bの中に投入されると、コリメートされた光を眼410に送達するように構成され得る。コリメートされた光は、光学無限遠焦点面を表し得る。次の上方の導波管434bは、眼410に到達し得る前、第1のレンズ452(例えば、負のレンズ)を通過するコリメートされた光を送出するように構成され得る。第1のレンズ452は、眼/脳が、その次の上方の導波管434bから生じる光を光学無限遠から眼410に向かって内向きにより近い第1の焦点面から生じるように解釈するように、若干の凸面波面曲率を生成するように構成され得る。同様に、第3の上方の導波管436bは、眼410に到達する前、その出力光を第1のレンズ452および第2のレンズ454の両方に通す。第1および第2のレンズ452、454の組み合わせられた屈折力は、眼/脳が、第3の上方の導波管436bから生じる光が次の上方の導波管434bからの光であった光学無限遠から人物に向かって内向きにさらに近い第2の焦点面から生じるように解釈するように、別の漸増量の波面曲率を生成するように構成され得る。
他の導波管層(例えば、導波管438b、440b)およびレンズ(例えば、レンズ456、458)も同様に構成され、スタック内の最も高い導波管440bを用いて、人物に最も近い焦点面を表す集約焦点力のために、その出力をそれと眼との間のレンズの全てを通して送出する。スタックされた導波管アセンブリ480の他側の世界470から生じる光を視認/解釈するとき、レンズ458、456、454、452のスタックを補償するために、補償レンズ層430が、スタックの上部に配置され、下方のレンズスタック458、456、454、452の集約力を補償し得る。そのような構成は、利用可能な導波管/レンズ対と同じ数の知覚される焦点面を提供する。導波管の光抽出光学要素およびレンズの集束側面の両方は、静的であり得る(例えば、動的または電気活性ではない)。いくつかの代替実施形態では、一方または両方は、電気活性特徴を使用して動的であり得る。
図4を継続して参照すると、光抽出光学要素440a、438a、436a、434a、432aは、導波管に関連付けられた特定の深度平面のために、光をそれらのそれぞれの導波管から外に向け直すことと、この光を適切な発散またはコリメーション量を伴って出力することとの両方を行うように構成され得る。その結果、異なる関連付けられた深度平面を有する導波管は、関連付けられた深度平面に応じて、異なる量の発散を伴う光を出力する異なる構成の光抽出光学要素を有し得る。いくつかの実施形態では、本明細書に議論されるように、光抽出光学要素440a、438a、436a、434a、432aは、特定の角度において光を出力するように構成され得る立体または表面特徴であり得る。例えば、光抽出光学要素440a、438a、436a、434a、432aは、体積ホログラム、表面ホログラム、および/または回折格子であり得る。回折格子等の光抽出光学要素は、2015年6月25日に公開された米国特許公開第2015/0178939号(参照することによってその全体として本明細書に組み込まれる)に説明される。
いくつかの実施形態では、光抽出光学要素440a、438a、436a、434a、432aは、回折パターンまたは「回折光学要素」(また、本明細書では、「DOE」とも称される)を形成する回折特徴である。好ましくは、DOEは、ビームの光の一部のみがDOEの各交差とともに眼410に向かって偏向される一方、残りが、全内部反射を介して、導波管を通して移動し続けるように、比較的に低回折効率を有する。画像情報を搬送する光は、したがって、複数の場所において導波管から出射するいくつかの関連出射ビームに分割され、その結果は、導波管内でバウンドするこの特定のコリメートされたビームに対して、眼304に向かって非常に均一なパターンの出射放出である。
いくつかの実施形態では、1つ以上のDOEは、能動的に回折する「オン」状態と、それらが有意に回折しない「オフ」状態との間で切り替え可能であり得る。例えば、切り替え可能なDOEは、ポリマー分散液晶の層を備え得、その中で、微小液滴は、ホスト媒体中における回折パターンを備え、微小液滴の屈折率は、ホスト材料の屈折率に実質的に整合するように切り替えられることができる(その場合、パターンは、入射光を著しく回折しない)か、または、微小液滴は、ホスト媒体のものに整合しない屈折率に切り替えられることができる(その場合、パターンは、入射光を能動的に回折する)。
いくつかの実施形態では、深度平面または被写界深度の数および分布は、視認者の眼の瞳孔サイズまたは向きに基づいて、動的に変動させられ得る。被写界深度は、視認者の瞳孔サイズと反比例して変化し得る。その結果、視認者の眼の瞳孔のサイズが減少すると、被写界深度は、増加し、それによって、その平面の場所が眼の焦点深度を越えるため判別不能である1つの平面が、判別可能となり、瞳孔サイズの低減および被写界深度の相当する増加に伴って、より焦点が合って現れ得る。同様に、異なる画像を視認者に提示するために使用される間隔を置かれる深度平面の数は、減少した瞳孔サイズに伴って減少し得る。例えば、視認者は、一方の深度平面から他方の深度平面への眼の遠近調節を調節せずに、第1の深度平面および第2の深度平面の両方の詳細を1つの瞳孔サイズにおいて明確に知覚することが可能ではないこともある。しかしながら、これらの2つの深度平面は、別の瞳孔サイズにおいて、遠近調節を変化させずに、同時に、ユーザに対して十分に焦点があっていることもある。
いくつかの実施形態では、ディスプレイシステムは、瞳孔サイズまたは向きの決定に基づいて、または、特定の瞳孔サイズまたは向きを示す電気信号を受信することに基づいて、画像情報を受信する導波管の数を変動させ得る。例えば、ユーザの眼が、2つの導波管に関連付けられた2つの深度平面間を区別不能である場合、コントローラ460(ローカル処理およびデータモジュール260の実施形態であり得る)は、これらの導波管のうちの1つへの画像情報の提供を停止するように構成またはプログラムされることができる。有利には、それは、システムへの処理負担を低減させ、それによって、システムの応答性を増加させ得る。導波管のためのDOEがオンおよびオフ状態間で切り替え可能である実施形態では、DOEは、導波管が画像情報を受信するとき、オフ状態に切り替えられ得る。
いくつかの実施形態では、出射ビームに視認者の眼の直径未満の直径を有するという条件を満たさせることが望ましくあり得る。しかしながら、この条件を満たすことは、視認者の瞳孔のサイズの変動性に照らして、困難であり得る。いくつかの実施形態では、この条件は、視認者の瞳孔のサイズの決定に応答して出射ビームのサイズを変動させることによって、広範囲の瞳孔サイズにわたって満たされる。例えば、瞳孔サイズが減少するにつれて、出射ビームのサイズも、減少し得る。いくつかの実施形態では、出射ビームサイズは、可変開口を使用して変動させられ得る。
ウェアラブルシステム400は、世界470の一部を結像する外向きに面した結像システム464(例えば、デジタルカメラ)を含むことができる。世界470のこの部分は、世界カメラの視野(FOV)と称され得、結像システム464は、時として、FOVカメラとも称される。世界カメラのFOVは、視認者210のFOVと同一である場合とそうではない場合があり、視認者210のFOVは、視認者210が所与の時間に知覚する世界470の一部を包含する。例えば、いくつかの状況では、世界カメラのFOVは、ウェアラブルシステム400の視認者210の視野より大きくあり得る。視認者による視認または結像のために利用可能な領域全体は、動眼視野(FOR)と称され得る。FORは、装着者が、その身体、頭部、または眼を移動させ、空間内の実質的に任意の方向を知覚することができるので、ウェアラブルシステム400を包囲する4πステラジアンの立体角を含み得る。他のコンテキストでは、装着者の移動は、より抑制され得、それに応じて、装着者のFORは、より小さい立体角に対し得る。外向きに面した結像システム464から得られた画像は、ユーザによって行われるジェスチャ(例えば、手または指のジェスチャ)を追跡すること、ユーザの正面における世界470内のオブジェクトを検出すること等を行うために使用されることができる。
ウェアラブルシステム400は、周囲音を捕捉するためのオーディオセンサ232、例えば、マイクロホンを含むことができる。上で説明されるように、いくつかの実施形態では、1つ以上の他のオーディオセンサが、発話源の場所の決定に有用なステレオ音受信を提供するために位置付けられることができる。オーディオセンサ232は、別の例として、指向性マイクロホンを備えていることができ、それは、オーディオ源が位置する場所に関するそのような有用な指向性情報も提供することができる。ウェアラブルシステム400は、発話源を位置特定することにおいて、または特定の瞬間におけるアクティブ話者を決定するために等、外向きに面した結像システム464およびオーディオセンサ230の両方からの情報を使用することができる。例えば、ウェアラブルシステム400は、単独で、または話者の反射された画像(例えば、鏡に見られるように)と組み合わせて、音声認識を使用し、話者の識別を決定することができる。別の例として、ウェアラブルシステム400は、指向性マイクロホンから入手された音に基づいて、環境内の話者の位置を決定することができる。ウェアラブルシステム400は、発話認識アルゴリズムを用いて、話者の位置から生じる音を解析し、発話のコンテンツを決定し、音声認識技法を使用して、話者の識別(例えば、名前または他の人口統計情報)を決定することができる。
ウェアラブルシステム400は、眼移動および顔移動等のユーザの移動を観察する内向きに面した結像システム466(例えば、デジタルカメラ)も含むことができる。内向きに面した結像システム466は、眼410の画像を捕捉し、眼304の瞳孔のサイズおよび/または向きを決定するために使用され得る。内向きに面した結像システム466は、ユーザが見ている方向(例えば、眼姿勢)を決定することにおける使用のために、またはユーザのバイオメトリック識別のために(例えば、虹彩識別を介して)画像を得るために使用されることができる。いくつかの実施形態では、少なくとも1つのカメラが、各眼に対して、独立して、各眼の瞳孔サイズまたは眼姿勢を別個に決定し、それによって、各眼への画像情報の提示がその眼に対して動的に調整されることを可能にするために利用され得る。いくつかの他の実施形態では、片眼410のみの瞳孔直径または向き(例えば、対の眼あたり単一カメラのみを使用して)が、決定され、ユーザの両眼に対して同様であると仮定される。内向きに面した結像システム466によって得られる画像は、ユーザに提示されるべきオーディオまたは視覚的コンテンツを決定するためにウェアラブルシステム400によって使用され得るユーザの眼姿勢または気分を決定するために分析され得る。ウェアラブルシステム400は、IMU、加速度計、ジャイロスコープ等のセンサを使用して、頭部姿勢(例えば、頭部位置または頭部向き)も決定し得る。
ウェアラブルシステム400は、ユーザが、コマンドをコントローラ460に入力し、ウェアラブルシステム400と相互作用し得るユーザ入力デバイス466を含むことができる。例えば、ユーザ入力デバイス466は、トラックパッド、タッチスクリーン、ジョイスティック、多自由度(DOF)コントローラ、容量感知デバイス、ゲームコントローラ、キーボード、マウス、指向性パッド(Dパッド)、ワンド、触知デバイス、トーテム(例えば、仮想ユーザ入力デバイスとして機能する)等を含むことができる。マルチDOFコントローラは、コントローラの一部または全部の可能な平行移動(例えば、左/右、前方/後方、もしくは上/下)または回転(例えば、ヨー、ピッチ、もしくはロール)におけるユーザ入力を感知することができる。平行移動をサポートするマルチDOFコントローラは、3DOFと称され得る一方、平行移動および回転をサポートするマルチDOFコントローラは、6DOFと称され得る。ある場合、ユーザは、指(例えば、親指)を使用して、タッチセンサ式入力デバイスを押し、またはその上でスワイプし、入力をウェアラブルシステム400に提供し得る(例えば、ユーザ入力をウェアラブルシステム400によって提供されるユーザインターフェースに提供するために)。ユーザ入力デバイス466は、ウェアラブルシステム400の使用中、ユーザの手によって保持され得る。ユーザ入力デバイス466は、ウェアラブルシステム400と有線または無線通信することができる。
図5は、導波管によって出力された出射ビームの例を示す。1つの導波管が図示されるが、導波管アセンブリ480内の他の導波管も同様に機能し得、導波管アセンブリ480は、複数の導波管を含むことを理解されたい。光520が、導波管432bの入力縁432cにおいて導波管432bの中に投入され、TIRによって導波管432b内を伝搬する。光520がDOE432aに衝突する点において、光の一部が、出射ビーム510として導波管から出射する。出射ビーム510は、実質的に平行として図示されるが、それらは、導波管432bに関連付けられた深度平面に応じて、ある角度で眼410に伝搬するように向け直され得る(例えば、発散出射ビーム形成)。実質的に平行出射ビームが、光を外部結合し、眼410から遠距離(例えば、光学無限遠)における深度平面に設定されているように見える画像を形成する光抽出光学要素を伴う導波管を示し得ることを理解されたい。他の導波管または他の光抽出光学要素の組は、より発散する出射ビームパターンを出力し得、それは、眼410がより近い距離に遠近調節し、網膜に焦点を合わせることを要求し、光学無限遠より眼410に近い距離からの光として脳によって解釈されるであろう。
図6は、多焦点立体ディスプレイ、画像、または明視野の生成において使用される光学システムを示す概略図であり、光学システムは、導波管装置と、光を導波管装置へまたはそこから光学的に結合するための光学結合器サブシステムと、制御サブシステムとを含む。光学システムは、導波管装置と、光を導波管装置にまたはそこから光学的に結合するための光学結合器サブシステムと、制御サブシステムとを含むことができる。光学システムは、多焦点立体、画像、または明視野を生成するために使用されることができる。光学システムは、1つ以上の一次平面導波管632a(1つのみのが図6に示される)と、一次導波管632aの少なくともいくつかの各々に関連付けられた1つ以上のDOE632bとを含むことができる。平面導波管632bは、図4を参照して議論される導波管432b、434b、436b、438b、440bに類似することができる。光学システムは、分配導波管装置を採用し、光を第1の軸(図6の図では、垂直またはY-軸)に沿って中継し、第1の軸(例えば、Y-軸)に沿って光の有効射出瞳を拡張させ得る。分配導波管装置は、例えば、分配平面導波管622bと、分配平面導波管622bに関連付けられた少なくとも1つのDOE622a(二重破線によって図示される)とを含み得る。分配平面導波管622bは、少なくともいくつかの点において、それと異なる向きを有する一次平面導波管632bと同様または同じであり得る。同様に、少なくとも1つのDOE622aは、少なくともいくつかの点において、DOE632aと同様または同じであり得る。例えば、分配平面導波管622bまたはDOE622aは、それぞれ、一次平面導波管632bまたはDOE632aと同一材料から成り得る。図6に示される光学ディスプレイシステム600の実施形態は、図2に示されるウェアラブルシステム200の中に統合されることができる。
中継され、射出瞳が拡張された光は、分配導波管装置から1つ以上の一次平面導波管632bの中に光学的に結合され得る。一次平面導波管632bは、好ましくは、第1の軸に直交する第2の軸(例えば、図6の図では、水平またはX-軸)に沿って、光を中継することができる。着目すべきこととして、第2の軸は、第1の軸に対して非直交軸であることができる。一次平面導波管632bは、その第2の軸(例えば、X-軸)に沿って、光の有効射出瞳を拡張させる。例えば、分配平面導波管622bは、光を垂直またはY-軸に沿って中継および拡張させ、光を水平またはX-軸に沿って中継および拡張させ得る一次平面導波管632bにその光を通すことができる。
光学システムは、単一モード光ファイバ640の近位端の中に光学的に結合され得る1つ以上の着色光源(例えば、赤色、緑色、および青色レーザ光)610を含み得る。光ファイバ640の遠位端は、圧電材料の中空管642に通されるか、またはそれを通して受け取られ得る。遠位端は、固定されない可撓なカンチレバー644として、管642から突出する。圧電管642は、4つの象限電極(図示せず)に関連付けられることができる。電極は、例えば、管642の外側、外側表面もしくは外側周縁、または直径にメッキされ得る。コア電極(図示せず)も、管642のコア、中心、内側周縁、または内径に位置し得る。
例えば、ワイヤ660を介して電気的に結合される駆動電子機器650は、対向する対の電極を駆動し、圧電管642を独立して2つの軸において曲げる。光ファイバ644の突出する遠位先端は、機械的共鳴モードを有する。共鳴の周波数は、光ファイバ644の直径、長さ、および材料性質に依存し得る。圧電管642をファイバカンチレバー644の第1の機械的共鳴モードの近くで振動させることによって、ファイバカンチレバー644は、振動させられ、ファイバカンチレバー644は、大きなふれを通して掃引し得る。
2つの軸において共振振動を刺激することによって、ファイバカンチレバー644の先端は、2次元(2-D)走査を満たすエリアにおいて2軸方向に走査される。光源610の強度をファイバカンチレバー644の走査と同期して変調することによって、ファイバカンチレバー644から発せられる光は、画像を形成することができる。そのような設定の説明は、米国特許公開第2014/0003762号(参照することによってその全体として本明細書に組み込まれる)に提供されている。
光学結合器サブシステムのコンポーネントは、走査ファイバカンチレバー644から発せられる光をコリメートすることができる。コリメートされた光は、鏡面表面648によって、少なくとも1つの回折光学要素(DOE)622aを含む狭い分配平面導波管622bの中に反射されることができる。コリメートされた光は、TIRによって分配平面導波管622bに沿って(図6の図に対して)垂直に伝搬し、そうすることによって、DOE622aと繰り返し交差することができる。DOE622aは、好ましくは、低回折効率を有する。これは、光の一部(例えば、10%)をDOE622aとの交差の各点においてより大きい一次平面導波管632bの縁に向かって回折し、光の一部をTIRを介して分配平面導波管622bの長さに沿ってそのもとの軌道上で継続させることができる。
DOE622aとの交差点の各点において、追加の光が、一次導波管632bの入口に向かって回折されることができる。入射光を複数の外部結合組に分割することによって、光の射出瞳は、分配平面導波管622b内のDOE622aによって垂直に拡張されることができる。分配平面導波管622bから外部結合されたこの垂直に拡張された光は、一次平面導波管632bの縁に進入することができる。
一次導波管632bに進入する光は、TIRを介して、一次導波管632bに沿って(図6の図に対して)水平に伝搬することができる。光は、複数の点においてDOE632aと交差するにつれて、TIRを介して、一次導波管632bの長さの少なくとも一部に沿って水平に伝搬する。DOE632aは、有利には、線形回折パターンおよび放射対称回折パターンの総和である位相プロファイルを有し、光の偏向および集束の両方を生成するように設計または構成され得る。DOE632aは、有利には、ビームの光の一部のみが、DOE632aの各交差において視認者の眼に向かって偏向される一方、光の残りが、TIRを介して、一次導波管632bを通して伝搬し続けるように、低回折効率(例えば、10%)を有し得る。
伝搬する光とDOE632aとの間の交差の各点において、光の一部は、一次導波管632bの隣接面に向かって回折され、光がTIRから逃散し、一次導波管632bの面から発することを可能にする。いくつかの実施形態では、DOE632aの放射対称回折パターンは、加えて、ある焦点レベルを回折された光に与え、個々のビームの光波面を成形する(例えば、曲率を与える)ことと、ビームを設計される焦点レベルに合致する角度に操向することとの両方を行う。
故に、これらの異なる経路は、異なる角度、焦点レベルで、または、射出瞳において異なる充填パターンをもたらす多様なDOE632aによって、光が一次平面導波管632bの外部で結合されるようにすることができる。射出瞳における異なる充填パターンは、有利には、複数の深度平面を伴う明視野ディスプレイを生成するために使用されることができる。導波管アセンブリ内の各層またはスタック内の層の組(例えば、3層)が、それぞれの色(例えば、赤色、青色、緑色)を生成するために採用され得る。したがって、例えば、第1の3つの隣接する層の組が、それぞれ、赤色、青色、および緑色光を第1の焦点深度において生成するために採用され得る。第2の3つの隣接する層の組が、それぞれ、赤色、青色、および緑色光を第2の焦点深度において生成するために採用され得る。複数の組が、種々の焦点深度を伴うフル3Dまたは4Dカラー画像明視野を生成するために採用され得る。
(ウェアラブルシステムの他のコンポーネント)
多くの実装では、ウェアラブルシステムは、上で説明されるウェアラブルシステムのコンポーネントに加えて、またはその代替として、他のコンポーネントを含み得る。ウェアラブルシステムは、例えば、1つ以上の触知デバイスまたはコンポーネントを含み得る。触知デバイスまたはコンポーネントは、触覚をユーザに提供するように動作可能であり得る。例えば、触知デバイスまたはコンポーネントは、仮想コンテンツ(例えば、仮想オブジェクト、仮想ツール、他の仮想構造)に触れると、圧力またはテクスチャの感覚を提供し得る。触覚は、仮想オブジェクトが表す物理的オブジェクトの感覚を再現し得るか、または仮想コンテンツが表す想像上のオブジェクトもしくはキャラクタ(例えば、ドラゴン)の感覚を再現し得る。いくつかの実装では、触知デバイスまたはコンポーネントは、ユーザによって装着され得る(例えば、ユーザウェアラブルグローブ)。いくつかの実装では、触知デバイスまたはコンポーネントは、ユーザによって保持され得る。
ウェアラブルシステムは、例えば、ユーザによって操作可能であり、ウェアラブルシステムへの入力またはそれとの相互作用を可能にする1つ以上の物理的オブジェクトを含み得る。これらの物理的オブジェクトは、本明細書では、トーテムと称され得る。いくつかのトーテムは、例えば、金属またはプラスチック片、壁、テーブルの表面等、無生物オブジェクトの形態をとり得る。ある実装では、トーテムは、実際には、任意の物理的入力構造(例えば、キー、トリガ、ジョイスティック、トラックボール、ロッカスイッチ)を有していないこともある。代わりに、トーテムは、単に、物理的表面を提供し得、ウェアラブルシステムは、ユーザにトーテムの1つ以上の表面上にあるように見えるように、ユーザインターフェースをレンダリングし得る。例えば、ウェアラブルシステムは、トーテムの1つ以上の表面上に常駐するように見えるように、コンピュータキーボードおよびトラックパッドの画像をレンダリングし得る。例えば、ウェアラブルシステムは、トーテムとしての役割を果たすアルミニウムの薄い長方形プレートの表面上に見えるように、仮想コンピュータキーボードおよび仮想トラックパッドをレンダリングし得る。長方形プレート自体は、任意の物理的キーまたはトラックパッドもしくはセンサを有していない。しかしながら、ウェアラブルシステムは、仮想キーボードまたは仮想トラックパッドを介して行われた選択または入力として、長方形プレートを用いたユーザ操作または相互作用もしくはタッチを検出し得る。ユーザ入力デバイス466(図4に示される)は、トラックパッド、タッチパッド、トリガ、ジョイスティック、トラックボール、ロッカもしくは仮想スイッチ、マウス、キーボード、多自由度コントローラ、または別の物理的入力デバイスを含み得るトーテムの実施形態であり得る。ユーザは、単独で、または姿勢と組み合わせて、トーテムを使用し、ウェアラブルシステムまたは他のユーザと相互作用し得る。
(例示的ウェアラブルシステム、環境、およびインターフェース)
ウェアラブルシステムは、高被写界深度をレンダリングされた明視野において達成するために、種々のマッピング関連技法を採用し得る。仮想世界をマッピングすることにおいて、実世界内の全ての特徴および点を把握し、仮想オブジェクトを実世界に関連して正確に描くことが有利である。この目的を達成するために、ウェアラブルシステムのユーザから捕捉されたFOV画像が、実世界の種々の点および特徴についての情報を伝達する新しい写真を含むことによって、世界モデルに追加されることができる。例えば、ウェアラブルシステムは、マップ点(2D点または3D点等)の組を収集し、新しいマップ点を見出し、世界モデルのより正確なバージョンをレンダリングすることができる。第1のユーザの世界モデルは、第2のユーザが第1のユーザを包囲する世界を体験し得るように、(例えば、クラウドネットワーク等のネットワークを経由して)第2のユーザに通信されることができる。
図7は、MR環境700の例のブロック図である。MR環境700は、入力(例えば、ユーザのウェアラブルシステムからの視覚的入力702、室内カメラ等の静止入力704、種々のセンサからの感覚入力706、ユーザ入力デバイス466からのジェスチャ、トーテム、眼追跡、ユーザ入力等)を1つ以上のユーザウェアラブルシステム(例えば、ウェアラブルシステム200もしくはディスプレイシステム220)または静止室内システム(例えば、室内カメラ等)から受信するように構成され得る。ウェアラブルシステムは、種々のセンサ(例えば、加速度計、ジャイロスコープ、温度センサ、移動センサ、深度センサ、GPSセンサ、内向きに面した結像システム、外向きに面した結像システム等)を使用して、ユーザの環境の場所および種々の他の属性を決定することができる。この情報は、異なる視点からの画像または種々のキューを提供し得る部屋内の静止カメラからの情報でさらに補完され得る。カメラ(室内カメラまたは外向きに面した結像システムのカメラ等)によって入手された画像データは、マッピング点の組にまとめられ得る。
1つ以上のオブジェクト認識装置708が、受信されたデータ(例えば、点の集合)を通してクローリングし、点を認識またはマッピングし、画像をタグ付けし、マップデータベース710を用いて、意味情報をオブジェクトに付属させることができる。マップデータベース710は、経時的に収集された種々の点およびその対応するオブジェクトを備え得る。種々のデバイスおよびマップデータベースは、ネットワーク(例えば、LAN、WAN等)を通して互いに接続され、クラウドにアクセスすることができる。
この情報およびマップデータベース内の点集合に基づいて、オブジェクト認識装置708a-708nは、環境内のオブジェクトを認識し得る。例えば、オブジェクト認識装置は、顔、人物、窓、壁、ユーザ入力デバイス、テレビ、ドキュメント(例えば、本明細書におけるセキュリティ例において説明されるような旅券、運転免許証、パスポート)、ユーザの環境内の他のオブジェクト等を認識することができる。1つ以上のオブジェクト認識装置が、ある特性を伴うオブジェクトのために専門化され得る。例えば、オブジェクト認識装置708aは、顔を認識するために使用され得る一方、別のオブジェクト認識装置は、ドキュメントを認識するために使用され得る。
オブジェクト認識は、種々のコンピュータビジョン技法を使用して実施され得る。例えば、ウェアラブルシステムは、外向きに面した結像システム464(図4に示される)によって入手された画像を分析し、場面再構成、イベント検出、ビデオ追跡、オブジェクト認識(例えば、人物またはドキュメント)、オブジェクト姿勢推定、顔認識(例えば、環境内の人物またはドキュメント上の画像から)、学習、インデックス化、運動推定、または画像分析(例えば、写真、署名、識別情報、旅行情報等のドキュメント内の印を識別する)等を実施することができる。1つ以上のコンピュータビジョンアルゴリズムが、これらのタスクを実施するために使用され得る。コンピュータビジョンアルゴリズムの非限定的例は、スケール不変特徴変換(SIFT)、スピードアップロバスト特徴(SURF)、方向付きFASTおよび回転BRIEF(ORB)、バイナリロバスト不変スケーラブルキーポイント(BRISK)、高速網膜キーポイント(FREAK)、Viola-Jonesアルゴリズム、Eigenfacesアプローチ、Lucas-Kanadeアルゴリズム、Horn-Schunkアルゴリズム、Mean-shiftアルゴリズム、視覚的同時位置推定およびマッピング(vSLAM)技法、シーケンシャルベイズ推定器(例えば、カルマンフィルタ、拡張カルマンフィルタ等)、バンドル調節、適応閾値化(および他の閾値化技法)、反復最近傍点(ICP)、セミグローバルマッチング(SGM)、セミグローバルブロックマッチング(SGBM)、キーポイントヒストグラム、種々の機械学習アルゴリズム(例えば、サポートベクトルマシン、k最近傍アルゴリズム、単純ベイズ、ニューラルネットワーク(畳み込みまたは深層ニューラルネットワークを含む)、または他の教師あり/教師なしモデル等)等を含む。
オブジェクト認識は、加えて、または代替として、種々の機械学習アルゴリズムによって実施されることができる。訓練されると、機械学習アルゴリズムは、HMDによって記憶されることができる。機械学習アルゴリズムのいくつかの例は、教師ありまたは教師なし機械学習アルゴリズムを含むことができ、回帰アルゴリズム(例えば、通常の最小2乗回帰等)、インスタンスベースのアルゴリズム(例えば、学習ベクトル量子化等)、決定ツリーアルゴリズム(例えば、分類および回帰ツリー等)、ベイズアルゴリズム(例えば、単純ベイズ等)、クラスタリングアルゴリズム(例えば、k-平均クラスタリング等)、関連付けルール学習アルゴリズム(例えば、アプリオリアルゴリズム等)、人工ニューラルネットワークアルゴリズム(例えば、Perceptron等)、深層学習アルゴリズム(例えば、Deep Boltzmann Machine、すなわち、深層ニューラルネットワーク等)、次元削減アルゴリズム(例えば、主成分分析等)、アンサンブルアルゴリズム(例えば、Stacked Gneralization等)、および/または他の機械学習アルゴリズムを含む。いくつかの実施形態では、個々のモデルは、個々のデータ組のためにカスタマイズされることができる。例えば、ウェアラブルデバイスは、ベースモデルを生成または記憶することができる。ベースモデルは、データタイプ(例えば、テレプレゼンスセッション内の特定のユーザ)、データ組(例えば、テレプレゼンスセッション内のユーザの取得される追加の画像の組)、条件付き状況、または他の変形例に特定の追加のモデルを生成するために、開始点として使用され得る。いくつかの実施形態では、ウェアラブルHMDは、複数の技法を利用して、集約されたデータの分析のためのモデルを生成するように構成されることができる。他の技法は、事前に定義された閾値またはデータ値を使用することを含み得る。
マップデータベース内のこの情報および点の集合に基づいて、オブジェクト認識装置708a-708nは、オブジェクトを認識し、オブジェクトを意味情報で補完し、生命をオブジェクトに与え得る。例えば、オブジェクト認識装置が、点の組がドアであることを認識する場合、システムは、いくつかの意味情報を付属させ得る(例えば、ドアは、ヒンジを有し、ヒンジの周りに90度移動を有する)。オブジェクト認識装置が、点の組が鏡であることを認識する場合、システムは、鏡が、部屋内のオブジェクトの画像を反射し得る反射表面を有するという意味情報を付属させ得る。意味情報は、本明細書に説明されるように、オブジェクトのアフォーダンスを含むことができる。例えば、意味情報は、オブジェクトの法線を含み得る。システムは、ベクトルを割り当てることができ、ベクトルの方向は、オブジェクトの法線を示す。時間と共に、マップデータベースは、システム(ローカルに常駐し得るか、または無線ネットワークを通してアクセス可能であり得る)がより多くのデータを世界から蓄積するにつれて成長する。オブジェクトが認識されると、情報は、1つ以上のウェアラブルシステムに伝送され得る。例えば、MR環境700は、Californiaで生成している場面についての情報を含み得る。環境700は、New Yorkにおける1人以上のユーザに伝送され得る。FOVカメラおよび他の入力から受信されたデータに基づいて、オブジェクト認識装置および他のソフトウェアコンポーネントは、場面が世界の異なる部分に存在し得る第2のユーザに正確に「パス」され得るように、種々の画像から収集された点をマッピングし、オブジェクトを認識すること等ができる。環境700は、位置特定目的のために、トポロジマップも使用し得る。
図8は、認識されたオブジェクトに関連して仮想コンテンツをレンダリングする方法800の例のプロセスフロー図である。方法800は、仮想場面がウェアラブルシステムのユーザに提示され得る方法を説明する。ユーザは、その場面から地理的に遠隔に存在し得る。例えば、ユーザは、New Yorkに存在し得るが、Californiaで現在起こっている場面を視認することを欲し得るか、またはCaliforniaに存在する友人と散歩に行くことを欲し得る。
ブロック810では、ウェアラブルシステムは、ユーザの環境に関する入力をユーザおよび他のユーザから受信し得る。これは、種々の入力デバイスおよびマップデータベース内にすでに保有されている知識を通して達成され得る。ユーザのFOVカメラ、センサ、GPS、眼追跡等が、ブロック810において、情報をシステムに伝達する。システムは、ブロック820において、この情報に基づいて、疎点を決定し得る。疎点は、ユーザの周囲における種々のオブジェクトの向きおよび位置を表示および理解することにおいて使用され得る姿勢データ(例えば、頭部姿勢、眼姿勢、身体姿勢、または手のジェスチャ)を決定することにおいて使用されることができる。オブジェクト認識装置708a-708nは、ブロック830において、これらの収集された点を通してクローリングし、マップデータベースを使用して、1つ以上のオブジェクトを認識し得る。この情報は、次いで、ブロック840において、ユーザの個々のウェアラブルシステムに伝達され得、所望の仮想場面が、ブロック850において、適宜、ユーザに表示され得る。例えば、所望の仮想場面(例えば、CAにおけるユーザ)が、New Yorkにおけるユーザの種々のオブジェクトおよび他の周囲に関連して、適切な向き、位置等において表示され得る。
図9は、ウェアラブルシステムの別の例のブロック図である。この例では、ウェアラブルシステム900は、マップ920を備え、それは、世界のためのマップデータを含むマップデータベース710を含み得る。マップは、ウェアラブルシステム上にローカルに部分的に常駐し得、有線または無線ネットワークによってアクセス可能なネットワーク化された記憶場所(例えば、クラウドシステム内)に部分的に常駐し得る。姿勢プロセス910が、ウェアラブルコンピューティングアーキテクチャ(例えば、処理モジュール260またはコントローラ460)上で実行され、ウェアラブルコンピューティングハードウェアまたはユーザの位置および向きを決定するために、マップ920からのデータを利用し得る。姿勢データは、ユーザが、システムを体験し、その世界内で動作するにつれて、オンザフライで収集されたデータから算出され得る。データは、実または仮想環境内のオブジェクトに関する画像、センサ(概して、加速度計およびジャイロスコープコンポーネントを備えている慣性測定ユニット等)からのデータ、および表面情報を備え得る。
疎点表現は、同時位置特定およびマッピング(例えば、SLAMまたはvSLAM、入力が画像/視覚のみである構成を指す)プロセスの出力であり得る。システムは、種々のコンポーネントの世界内の場所のみならず、世界が構成される内容も見出すように構成されることができる。姿勢は、多くの目標を達成する構築ブロックであり得、それは、マップにデータ投入すること、およびマップからのデータを使用することを含む。
一実施形態では、疎点位置は、それ自体で完全に適正ではないこともあり、さらなる情報が、多焦点AR、VR、またはMR体験を生成するために必要とされ得る。概して、深度マップ情報を指す稠密表現が、少なくとも部分的に、この間隙を充填するために利用され得る。そのような情報は、立体視940と称されるプロセスから算出され得、深度情報は、三角測量または飛行時間感知等の技法を使用して決定される。画像情報およびアクティブパターン(アクティブプロジェクタを使用して生成される赤外線パターン等)、画像カメラから入手された画像、または手ジェスチャ/トーテム950が、立体視プロセス940への入力としての役割を果たし得る。有意な量の深度マップ情報が、一緒に融合され得、このうちのいくつかは、表面表現を用いて要約され得る。例えば、数学的に定義可能な表面は、ゲームエンジンのような他の処理デバイスへの効率的(例えば、大規模点群に対して)かつ要約しやすい入力であり得る。したがって、立体視プロセス(例えば、深度マップ)940の出力は、融合プロセス930において組み合わせられ得る。姿勢910は、同様に、この融合プロセス930への入力であり得、融合930の出力は、マッププロセス920にデータ投入することへの入力となる。サブ表面が、トポグラフィマッピング等において、互いに接続し、より大きい表面を形成し得、マップは、点および表面の大規模ハイブリッドとなる。
複合現実プロセス960における種々の側面を解決するために、種々の入力が、利用され得る。例えば、図9に描写される実施形態では、ゲームパラメータは、システムのユーザが1匹以上のモンスタと種々の場所においてモンスタバトルゲームをプレーしていること、モンスタが死んでいることまたは種々の条件下で逃げていること(ユーザがモンスタを撃つ場合等)、種々の場所における壁または他のオブジェクト等を決定するための入力であり得る。世界マップは、オブジェクトの場所に関する情報またはオブジェクトの意味情報を含み得、世界マップは、複合現実に対する別の有用な入力であることができる。世界に対する姿勢は、同様に、入力となり、ほぼあらゆる双方向システムに対して重要な役割を果たす。
ユーザからの制御または入力は、ウェアラブルシステム900への別の入力である。本明細書に説明されるように、ユーザ入力は、視覚的入力、ジェスチャ、トーテム、オーディオ入力、感覚入力等を含むことができる。動き回るために、またはゲームをプレーするために、例えば、ユーザは、ユーザがしたいことに関してウェアラブルシステム900に命令する必要があり得る。空間内で自ら移動することのみならず、利用され得る種々の形態のユーザ制御が、存在する。一実施形態では、トーテム(例えば、ユーザ入力デバイス)、または玩具銃等のオブジェクトが、ユーザによって保持され、システムによって追跡され得る。システムは、好ましくは、ユーザがアイテムを保持していることを把握し、ユーザがアイテムと行っている相互作用の種類を理解するように構成されるであろう(例えば、トーテムまたはオブジェクトが、銃である場合、システムは、場所および向きだけではなく、ユーザが、そのようなアクティビティがカメラのいずれかの視野内にないときでも、生じている状況を決定することを補助し得るIMU等のセンサを装備し得るトリガまたは他の感知ボタンもしくは要素をクリックしているかどうかも理解するように構成され得る。)
手のジェスチャ追跡または認識も、入力情報を提供し得る。ウェアラブルシステム900は、ボタン押下のため、左または右、停止、握持、保持等をジェスチャするための手のジェスチャを追跡および解釈するように構成され得る。例えば、1つの構成では、ユーザは、非ゲーム環境において電子メールまたはカレンダを通フリップすること、または、別の人物またはプレーヤと「フィストバンプ」を行うことを欲し得る。ウェアラブルシステム900は、最小量の手のジェスチャを活用するように構成され得、ジェスチャは、動的であることも、動的でないこともある。例えば、ジェスチャは、停止を示すために手を広げること、OKを示すために親指を上げること、OKではないことを示すために親指を下げること、または方向性コマンドを示すために左右もしくは上下に手をフリップすること等、単純な静的ジェスチャであり得る。
眼追跡は、別の入力である(例えば、ユーザが見ている場所を追跡し、ディスプレイ技術を制御し、具体的深度または範囲においてレンダリングする)。一実施形態では、眼の両眼離反運動が、三角測量を使用して決定され得、次いで、その特定の人物のために開発された両眼離反運動/遠近調節モデルを使用して、遠近調節が、決定され得る。眼追跡は、眼カメラによって実施され、眼視線(例えば、片眼または両眼の方向または向き)を決定することができる。他の技法も、例えば、眼の近傍に設置された電極による電位の測定(例えば、電気眼球図記録)等、眼追跡のために使用されることができる。
発話追跡は、単独で、または他の入力(例えば、トーテム追跡、眼追跡、ジェスチャ追跡等)と組み合わせて使用され得る別の入力であり得る。発話追跡は、単独で、または組み合わせて、発話認識、音声認識を含み得る。システム900は、オーディオストリームを環境から受信するオーディオセンサ(例えば、マイクロホン)を含むことができる。システム900は、発話している人物(例えば、発話がARDの装着者からか、別の人物からか、音声(例えば、環境内のラウドスピーカによって伝送される記録された音声)からか)を決定するための音声認識技術と、言われていることを決定するための発話認識技術とを組み込むことができる。ローカルデータおよび処理モジュール260または遠隔処理モジュール270は、マイクロホンからのオーディオデータ(または、例えば、ユーザによって鑑賞されているビデオストリーム等の別のストリーム内のオーディオデータ)を処理し、例えば、隠れマルコフモデル、動的時間伸縮法(DTW)ベースの発話認識、ニューラルネットワーク、ディープフィードフォワードおよび再帰ニューラルネットワーク等の深層学習アルゴリズム、エンドツーエンド自動発話認識、機械学習アルゴリズム(図7を参照して説明される)、または、音響モデル化または言語モデル化等を使用する他のアルゴリズム等の種々の発話認識アルゴリズムを適用することによって、発話のコンテンツを認識することができる。
ローカルデータおよび処理モジュール260または遠隔処理モジュール270は、音声認識アルゴリズムも適用することができ、それは、話者がウェアラブルシステム900のユーザ210か、ユーザが会話している別の人物であるか等の話者の識別を識別することができる。いくつかの例示的音声認識アルゴリズムは、頻度推定、隠れマルコフモデル、ガウス混合モデル、パターンマッチングアルゴリズム、ニューラルネットワーク、マトリクス表現、ベクトル量子化、話者ダイアライゼーション、決定ツリー、および動的時間伸縮(DTW)技法を含むことができる。音声認識技法は、コホートモデルおよび世界モデル等のアンチ話者技法も含むことができる。スペクトル特徴は、話者特性を表すことにおいて使用され得る。ローカルデータおよび処理モジュールまたは遠隔データ処理モジュール270は、図7を参照して説明される種々の機械学習アルゴリズムを使用して、音声認識を実施することができる。
カメラシステムに関して、図9に示される例示的ウェアラブルシステム900は、3つの対のカメラを含むことができる:ユーザの顔の両側に配列された相対的広FOVまたは受動SLAMの対のカメラ、ユーザの正面に向けられ、立体視結像プロセス940をハンドリングすることおよびユーザの顔の正面の手のジェスチャおよびトーテム/オブジェクトの軌道を捕捉することも行うための異なる対のカメラ。ステレオプロセス940に対するFOVカメラおよび対のカメラは、外向きに面した結像システム464(図4に示される)の一部であり得る。ウェアラブルシステム900は、眼ベクトルおよび他の情報を三角測量するために、ユーザの眼の方に向けられた眼追跡カメラ(図4に示される内向きに面した結像システム462の一部であり得る)を含むことができる。ウェアラブルシステム900は、テクスチャを場面の中に投入するための1つ以上のテクスチャ光プロジェクタ(赤外線(IR)プロジェクタ等)も備え得る。
図10は、仮想ユーザインターフェースと相互作用する方法1000の例のプロセスフロー図である。方法1000は、本明細書に説明されるウェアラブルシステムによって行われ得る。方法1000は、テレプレゼンスセッションにおいて方法1000を実施し得る。
ブロック1010では、ウェアラブルシステムは、特定のUIを識別し得る。UIのタイプは、ユーザによって事前に決定され得る。ウェアラブルシステムは、特定のUIがユーザ入力(例えば、ジェスチャ、視覚的データ、オーディオデータ、感覚データ、直接コマンド等)に基づいて投入される必要があることを識別し得る。UIは、テレプレゼンスセッションに特定であり得る。ブロック1020では、ウェアラブルシステムは、仮想UIのためのデータを生成し得る。例えば、UIの境界、一般的構造、形状等に関連付けられたデータが、生成され得る。加えて、ウェアラブルシステムは、ウェアラブルシステムがユーザの物理的場所に関連してUIを表示し得るように、ユーザの物理的場所のマップ座標を決定し得る。例えば、UIが、身体中心である場合、ウェアラブルシステムは、ユーザの物理的立ち位置、頭部姿勢、または眼姿勢の座標を決定し得、それによって、リングUIが、ユーザの周囲に表示され得るか、または、平面UIが、壁上もしくはユーザの正面に表示され得る。テレプレゼンスコンテキストでは、環境内の別のユーザの存在の実在感覚を作るために、UIは、UIがユーザを包囲しているかのように表示され得る(例えば、UIは、ユーザの周囲に参加者の仮想アバタを表示することができる)。UIが、手中心の場合、ユーザの手のマップ座標が、決定され得る。これらのマップ点は、FOVカメラ、感覚入力を通して受信されたデータ、または任意の他のタイプの収集されたデータを通して導出され得る。
ブロック1030では、ウェアラブルシステムは、データをクラウドからディスプレイに送信し得るか、またはデータは、ローカルデータベースからディスプレイコンポーネントに送信され得る。ブロック1040では、UIは、送信されたデータに基づいて、ユーザに表示される。例えば、明視野ディスプレイは、仮想UIをユーザの眼の一方または両方の中に投影することができる。仮想UIが生成されると、ウェアラブルシステムは、ブロック1050において、単に、より多くの仮想コンテンツを仮想UI上に生成するためのユーザからのコマンドを待ち得る。例えば、UIは、ユーザの身体またはユーザの環境内の人物(例えば、旅行者)の身体の周囲の身体中心リングであり得る。ウェアラブルシステムは、次いで、コマンド(ジェスチャ、頭部または眼移動、音声コマンド、ユーザ入力デバイスからの入力等)を待ち得、認識される場合(ブロック1060)、コマンドに関連付けられた仮想コンテンツが、ユーザに表示され得る(ブロック1070)。
(顔モデルを生成するためのウェアラブルデバイスの例)
図11は、例示的ウェアラブルデバイスを図示し、それは、ユーザが、ウェアラブルデバイスを着けつつある間、ユーザの顔の画像を入手することができる。ユーザがウェアラブルデバイスを着けつつある(または外しつつある)間に入手された画像は、ユーザの顔モデルを生成するために使用され得る。ウェアラブルデバイス1150は、図2を参照して説明される例示的頭部搭載型デバイス(HMD)であることができる。ウェアラブルデバイス1150は、結像システム1160を含むことができ、それは、ユーザ210の顔を結像するように構成される。例えば、結像システム1160は、ユーザ210が、ウェアラブルデバイスを装着しつつある間、ユーザの眼1110の眼球周囲領域を結像するように構成される眼カメラ(例えば、眼カメラ1160aおよび眼カメラ1160b)等のセンサを含み得る。この例では、眼1110bは、図3に示される眼302に対応し得、眼1110aは、眼304に対応し得る。いくつかの実装では、結像システム1160は、図4に示される内向きに面した結像システム462の実施形態であり得る。
図11に示されるように、結像システム1160は、ユーザ210の頭部の方に向いている。眼カメラ1160aは、眼1160aを結像するように構成され得る一方、眼カメラ1160bは、眼1110bを結像するように構成され得る。この図では、眼カメラ1160aの光学軸1140aは、眼カメラ1160bの光学軸1140bと平行である。いくつかの実装では、眼カメラの一方または両方は、2つの眼カメラの光学軸がもはや平行ではないように回転され得る。例えば、2つの眼カメラは、若干、互いの方に向き得る(例えば、特に、眼カメラが、デバイス1150のフレームの外側縁の近傍に配置される場合)。この実装は、交差眼構成を作成し得、それが、2つのカメラ間の視野(FOV)の重複を増加させることができ、2つの眼カメラがより近い距離における顔を結像することを可能にするので、有利であり得る。
各眼カメラは、FOVを有し得る。例えば、眼カメラ1160aのためのFOVは、領域1120aと領域1130とを含むことができる。眼カメラ1160bのためのFOVは、領域1120bと領域1130とを含むことができる。眼カメラ1160aのFOVと眼カメラ1160bのFOVとは、領域1130において重複し得る。この重複FOV1130により、いくつかの実施形態では、2つの眼カメラは、単一の立体視結像システムとして扱われ得る。2つの眼カメラは、ユーザの顔の3D画像を提供するために、顔が重複FOV内にあるとき、顔の画像を撮影し得る。
いくつかの状況では、ウェアラブルデバイス1150が、ユーザ210に近すぎるとき、眼カメラは、焦点ずれし得る。例えば、ユーザに関する眼球周囲分離が、46mm(成人男性に典型的)であり、2つの眼カメラの各々が、66度(眼追跡のために適切)の水平FOVを有すると仮定すると、ウェアラブルデバイスは、顔とウェアラブルデバイスとの間の距離が、少なくとも約175mmであるとき、写真を撮影し得る。多くの眼カメラのレンズのための最小焦点距離は、約14mmである。レンズが、固定焦点距離を有する場合、その焦点深度は、約65ジオプタである必要がある。
不十分な焦点深度が存在するときに画像が取得される場合、ウェアラブルデバイス1150は、画像を低分解能画像として扱い得る。その結果、ウェアラブルデバイスによって生成された顔モデルは、低忠実性を有するか、または顔全体の特徴の疎表現を有し得る。そのような顔モデルは、依然として、ユーザのための眼球間分離を推測するために使用され得、それは、ウェアラブルデバイスがユーザの顔に適合しているかどうかを決定するために有用である。
(ユーザの顔を結像するための例示的トリガ)
ウェアラブルデバイス1150は、種々の技法を使用して、ユーザ210の結像を開始および停止するためのトリガを決定することができる。例えば、ウェアラブルデバイス1150は、ユーザが、ウェアラブルデバイス1150を着けつつある(または外しつつある)ことを検出すると、ユーザの顔の結像を開始するように構成され得る。有利には、画像入手を開始または停止するためのトリガは、ウェアラブルデバイス1150の移動に関連するデータ(例えば、そのような移動は、デバイス内のIMUを使用して測定され得る)またはウェアラブルデバイス1150の1つ以上のカメラ(例えば、例えば、デバイスが、ユーザの顔により近くなるにつれて、またはそこからより遠く離れるにつれて、ユーザの顔の領域がより大きくなること、またはより小さくなることを検出する内向きに面した結像システム462または外向きに面した結像システム464内のカメラ)によって入手された画像に基づくことができる。したがって、ウェアラブルデバイスは、ユーザ介入なく、画像入手を自動的に開始または停止することができる。
ウェアラブルデバイス1150は、デバイス1150の移動の検出のために、図2および7を参照して説明される種々のセンサを使用することができる。例示的センサ1170a、1170b(図11に示される)は、デバイス1150のフレーム(例えば、耳掛け部)上に配置される。センサ1170a、1170bは、慣性測定ユニット、圧力センサ、近接度センサ等を備えていることができる。他の実装では、センサは、デバイス1150の片側(例えば、一方の耳掛け部)上のみに配置される。センサによって入手されたデータは、対応する閾値レベル(例えば、閾値加速、閾値圧力、閾値近接度)に対して分析され得る。データが閾値レベルに達する場合、ウェアラブルデバイス1150は、結像プロセスを開始または停止し得る。
例として、ユーザが、ウェアラブルデバイス1150を持ち上げると、ウェアラブルデバイス1150の慣性測定ユニットは、ウェアラブルデバイス1150の加速に関するデータを入手し得る。ウェアラブルデバイス1150が、加速がある閾値加速を超えることを決定する場合、ウェアラブルデバイス1150は、ユーザの顔の結像を開始し得る。ユーザが、ウェアラブルデバイスを、例えば、頭部上に着けると、加速は、典型的には、減少するであろう。ウェアラブルデバイス1150が、加速がある閾値まで低減したことを決定する場合、ウェアラブルデバイス1150は、ユーザの顔の画像の撮影を停止し得る。デバイス1150は、ユーザが、デバイスをその顔から外すときにも、ユーザの顔を結像し得る。デバイスは、加速がデバイス除去に対する典型的値に達すると、結像を開始し得、ある期間にわたって、またはデバイス1150がユーザの顔からある距離になるか、またはそれを超えるまで、結像を継続し得る。
別の例として、ウェアラブルデバイス1150は、圧力センサを有し得る。圧力センサは、眼鏡のつる(イヤホン等)またはウェアラブルデバイスの鼻パッドに位置し得る。ウェアラブルデバイス1150が、ユーザの顔に着けられると、圧力センサは、ウェアラブルデバイス1150がユーザ上にあることを示す信号を送信し得る。その結果、ウェアラブルデバイス1150は、ユーザの顔の画像の入手を停止し得る。
トリガは、ウェアラブルデバイス1150の1つ以上の結像システムによって入手されたデータに基づくこともできる。例えば、ウェアラブルデバイス1150は、内向きに面した結像システム462によって取得された画像を使用して、ユーザの顔の結像を停止すべきかどうかを決定することができる。例えば、ユーザが、デバイスを着けるにつれて、内向きに面した結像システム462によって入手された画像内のコンテンツは、変化し得る。しかしながら、デバイスが、ユーザの頭部上に据えられているとき、画像のコンテンツは、ユーザが、デバイスを着けつつある(または外しつつある)ときと比較して、それほど変化しないであろう。したがって、ウェアラブルデバイスは、連続画像フレームのある閾値数(例えば、3、5、10等)またはある閾値持続時間内の画像が、実質的に同一コンテンツを有することを観察すると、記録を停止することができる(例えば、ウェアラブルデバイスが、ユーザの眼が5秒にわたって入手された画像内に連続して現れることを検出すると、ウェアラブルデバイスは、結像を停止することができる)。別の例として、ユーザが、ウェアラブルデバイスを外すにつれて、内向きに面した結像システムは、最初に、眼、次いで、眼球周囲領域、次いで、上側の顔、次いで、下側の顔、次いで、ユーザの首を観察し得る。画像のこの順序は、ユーザがデバイスを着けつつある場合、逆転されるであろう。画像のこの順序を検出することによって、デバイスは、ユーザの顔に付けられつつある(外されつつある)ことを推測することができる。ある場合、ユーザの画像は、閾値より小さくなり得る(例えば、デバイスがユーザから腕の長さにあるとき)、または完全に消失し得る(例えば、デバイスが、テーブル上に置かれ、結像システムが、もはやユーザの方に向いていないので)。ウェアラブルデバイスが、デバイスがもはやユーザ上にないことを検出すると(例えば、上で説明される結像シーケンスを検出することによって、またはユーザの顔が、閾値内で現れないか、またはそれより小さいので)、ウェアラブルデバイスは、画像の入手を停止することができる。
いくつかの状況では、ウェアラブルデバイスは、開始トリガの検出前または停止トリガの検出後、画像を持続的に入手することができる。しかし、ウェアラブルデバイスは、画像が開始トリガと停止トリガの合間に入手される場合、画像と顔モデルの生成を関連付けるように構成されることができる。一例として、ウェアラブルデバイスは、IMUから入手されたデータに基づいて、開始トリガを検出することができる(例えば、加速の増加が検出される場合)。したがって、この開始トリガ後に入手された画像は、顔モデルの生成に関連付けられるように記憶またはタグ付けされ得る。しかしながら、ウェアラブルデバイスが、停止トリガを検出すると(例えば、もはや加速が存在しない、または画像が、主に、眼球周囲領域を含むとき)、ウェアラブルデバイスは、入手された画像と顔モデルの生成の関連付けを停止するであろう。
ウェアラブルデバイス1150は、ウェアラブルデバイス1150とユーザ210との間の距離を測定するためのセンサを含むこともできる。例えば、センサは、音響または光学信号等の信号を放出し、受信し、信号または信号のフィードバックを使用して、距離を測定し得る。ウェアラブルデバイス1150は、結像システム1160によって入手された画像を分析することによっても、距離を決定し得る。例えば、ウェアラブルデバイス1150は、画像内の顔のサイズに基づいて、距離を決定し得、大サイズは、短距離を示し得る一方、小サイズは、長距離を示し得る。ウェアラブルデバイス1150は、距離が閾値に達するか、またはある範囲内にあるとき、ユーザの顔を結像し得る。例えば、図11に示されるように、ウェアラブルデバイス1130の2つの眼カメラは、ユーザの顔が領域1130の内側にあるとき、ユーザの顔を立体視的に結像し得る。ユーザの顔が領域1130外にあるように、ユーザの顔とウェアラブルデバイス1150との間の距離が、十分に小さくなると、ウェアラブルデバイス1150は、ユーザの顔の結像を停止し得る。別の例として、ウェアラブルデバイス1150は、ユーザ210とウェアラブルデバイス1150との間の距離が、画像に焦点ずれを生じさせるために十分に小さくなると、ユーザの顔の結像を停止し得る。
いくつかの実装では、デバイス1150は、フレームに沿って配置され得る1つ以上の近接度センサ(例えば、容量近接度センサ)を備えている。ユーザの頭部が、近接度センサに接近する(または一対の近接度センサ間で移動を開始する)と、顔結像が、開始されることができ、デバイス1150が、ユーザの顔上にあるとき、結像は、停止することができる。
デバイス1150は、領域1130内のユーザの顔に向かって照明するように構成される光エミッタ1175を含むことができる。デバイス1150が、結像を開始すると、光は、オンにされ、顔照明を提供することができ、デバイス1150が、結像を停止すると、光は、オフにされることができる。いくつかの実装では、光1175は、内向きに面した結像システム1160の一部であり得る。例えば、一方または両方の眼カメラ1160aおよび1160bは、光を照明することが可能であり得る。
(顔の画像を入手するための追加の例)
結像システム1160を使用して、顔を結像することに加え、またはその代替として、ウェアラブルデバイス1150は、他の技法を使用して、顔の画像を取得することができる。例えば、ウェアラブルデバイス1150は、ユーザが、ウェアラブルデバイスを装着しつつある間、ユーザの環境を結像するように構成される外向きに面した結像システム(例えば、図4に説明される外向きに面した結像システム464参照)を含み得る。ユーザは、外向きに面した結像システムのカメラをユーザの頭部の方に向け、外向きに面した結像システムを使用して、顔の画像を取得することができる。
外向きに面した結像システムは、ユーザが、鏡の近傍にいるときにも、顔の画像を入手することができる。例えば、外向きに面した結像システムは、ユーザが、鏡の正面に立っているとき、ユーザの反射された画像を入手することができる。ウェアラブルシステムは、図12を参照して説明される顔認識アルゴリズムを使用して、鏡の存在およびユーザの頭部の反射された画像を検出することができる。顔認識アルゴリズムは、単独で、または連動試験と組み合わせて、使用され得る。連動試験では、ウェアラブルシステムは、IMUによって入手されたデータ、または外向きに面した結像システムを介して観察されたデータに基づいて、ユーザの移動を分析し、そのような移動と外向きに面した結像システムによって観察されるような反射された画像の移動とを比較する。これらの2つの測定された移動が、互いに実質的に追跡する場合、デバイスは、それらが、連動しており、ユーザを表す反射された画像であると仮定することができる。ウェアラブルシステムは、反射された画像の顔認識がユーザの顔に合致する場合、または反射された画像に関連付けられた連動がウェアラブルデバイスによって観察されるようなユーザの運動と互いに関係がある場合、ユーザに属する反射された画像を見出すことができる。鏡の存在の検出およびユーザの顔の反射された画像の分析の追加の例は、「Augmented Reality Systems and Methods Utilizing Reflections」と題された米国特許公開第2017/0206691号(その開示は、参照することによってその全体として本明細書に組み込まれる)にさらに説明される。
さらに、本明細書に説明される例は、ユーザが、ウェアラブルデバイスを着けつつある間のユーザの顔の画像を参照するが、結像は、ユーザがウェアラブルデバイスを外しつつあるときにも生じることができる。例えば、ウェアラブルシステムは、ユーザがウェアラブルデバイスを着ける前、またはユーザがウェアラブルデバイスと相互作用しつつあるとき、ユーザの識別を決定し得る。ウェアラブルシステムは、ユーザによって入力される証明情報に基づいて、または、例えば、虹彩認識または顔認識等のユーザのバイオメトリック情報に基づいて、ユーザの識別を認識することによって、ユーザの識別を決定することができる。ウェアラブルシステムは、ウェアラブルデバイスが除去される前、ウェアラブルデバイスが外されるときに入手された画像とユーザの識別を関連付けることができる。ウェアラブルシステムは、ユーザがウェアラブルデバイスを着けつつある間に入手された画像と、ユーザがウェアラブルデバイスを外しつつある間に入手された画像を組み合わせ、ユーザのための顔モデルを生成することができる。
(立体視技法を使用して顔モデルを生成する例)
図11に示されるように、眼カメラ1160aおよび眼カメラ1160bは、重複FOV1130を有することができる。この重複FOVにより、2つの眼カメラは、ユーザの顔が領域1130内にあるとき、ユーザの顔を結像するための単一立体視システムとして扱われ得る。
ユーザの顔が、領域1130内にある間、眼カメラ1160aおよび1160bは、ウェアラブルデバイス1150がユーザ210に接近するにつれて、ユーザの対の画像を捕捉することができる。例えば、一対の画像は、眼カメラ1160aによって撮影された画像と、カメラ1160bによって同時に撮影された画像とを含み得る。一対の画像に対して、ウェアラブルデバイス1150は、ブロックマッチングアルゴリズム、セミグローバルマッチングアルゴリズム、セミグローバルブロックマッチングアルゴリズム、視差マップ、三角測量、深度マップ、ニューラルネットワークアルゴリズム、同時位置特定およびマッピングアルゴリズム(例えば、SLAMまたはv-SLAM)等の立体視アルゴリズムを使用して、顔の情報を分析することができる。例えば、ウェアラブルデバイスは、カメラ1160aによって入手された画像とカメラ1160bによって入手された画像との間の比較に基づいて、深度を画像内のピクセルの多くまたは全てに関連付け得る。
ウェアラブルデバイス1150は、同一技法を複数の対の画像に適用し、顔の情報を抽出することができる。ウェアラブルデバイス1150は、複数の対の画像からの情報を融合させ、顔モデルを生成することができる。ウェアラブルデバイス1150は、種々の技法を使用して、情報を統合することができる。例として、ウェアラブルデバイス1150は、点群を使用して、顔を表し得る。複数の対の画像に関連付けられた群は、反復最近傍点(ICP)アルゴリズム等の種々のアルゴリズムを使用して、一緒に適合され得る。ウェアラブルデバイス1150は、クラスタ化、平均、または他の類似技法等の技法を使用して、群データ内の外れ値を除外し、顔モデルの表面を平滑化することができる。
別の例として、ウェアラブルデバイスは、キーポイントを使用して、顔を表すことができる。キーポイントは、キーポイント検出器と、スケール不変特徴変換(SIFT)、スピードアップロバスト特徴(SURF)、方向付きFASTおよび回転BRIEF(ORB)等の記述子アルゴリズムとによって生成された値等の抽象的キーポイントであり得る。キーポイントは、眼角、口角、眉毛等の顔に特有の特徴でもあり得る。各対の画像に対して、ウェアラブルデバイス1150は、眼カメラ1160aによって撮影された画像内のキーポイントと、眼カメラ1160bによって撮影された画像内のキーポイントとを合致させることができる。
ウェアラブルデバイス1150は、例えば、キーポイントの位置変化を分析することによって、複数の対の画像をにわたる姿勢(顔の位置および向き等)の変化をさらに推測することができる。
ウェアラブルデバイス1150は、キーポイントを顔に関連付けられた座標フレームに変換することができる。対の画像からのデータは、座標フレームを使用して、一緒に融合され得る。座標フレームは、外れ値データを平均、集約、および除外するために使用され得る。加えて、または代替として、ウェアラブルデバイス1150は、バンドル調整技法を使用して、顔モデルを生成し得る。例えば、ウェアラブルデバイス1150は、対の画像からの全てのデータおよび対の画像をにわたる姿勢の変化に対処する単一最小化フレームワークを使用して、顔モデルを再構築することができる。
(単眼視技法を使用して顔モデルを生成する例)
立体視技法を使用して顔モデルを構築することに加え、またはその代替として、ウェアラブルデバイス1150は、片眼ベースで顔の画像を融合させることによって、顔モデルを構築することもできる。単眼視技法は、2つのカメラが、重複FOV領域1130を有していないとき、または重複が小さいとき、有利であり得る。
例えば、カメラ1160aは、ユーザが、ウェアラブルデバイス1150を着けつつあるとき、複数の片眼画像を撮影することができる。ウェアラブルデバイス1150は、v-SLAMまたは類似アルゴリズムを使用して、これらの画像に基づいて、顔モデルの一部を生成することができる。ウェアラブルデバイス1150は、これらの画像内のキーポイントに基づいて、カメラ1160aの移動に関連付けられた軌道を計算することができる。同様に、ウェアラブルデバイス1150は、眼カメラ1160によって撮影された画像に基づいて、同一技法を使用して、顔モデルの別の部分を生成し、カメラ1160bの移動に関連付けられた軌道を計算することができる。
2つのカメラが、ウェアラブルデバイス1150に堅く結合され得るので、2つのカメラの相対的位置は、結像プロセスの間、変化しない。ウェアラブルデバイスは、2つのカメラおよび/または軌道の相対的位置および角度を使用して、顔モデルの2つの部分を単一モデルに組み合わせることができる。いくつかの実装では、軌道は、眼球間距離を計算するためにも使用され得る。
いくつかの実施形態では、ウェアラブルデバイス1150は、そのカメラが限定された視野を有し得る場合でも、1つのカメラの画像を使用して、顔モデルを生成することができる。例えば、ウェアラブルデバイスは、眼カメラ1160aによって入手された画像を使用して、顔の一部に対する顔モデルを生成することができる。ユーザの顔210は、対称であるので、ウェアラブルデバイスは、顔の一部を軸方向に変換し、顔の他の部分を取得することができる。顔のこれらの2つの部分は、一緒に組み合わせられ、顔モデルを生成し得る。
(他の例示的実施形態)
ウェアラブルデバイスおよび他のコンピューティングシステムによって撮影された画像は、顔のためのテクスチャマップを生成するために使用され得る。顔のテクスチャマップは、皮膚色、眼色、そばかすまたはしわ等の顔特徴を含み得る。ウェアラブルデバイスは、2つの眼カメラによって撮影された画像を融合させ、顔全体の画像を生成することができる。融合された画像は、品質を向上させるために処理され得る。ウェアラブルデバイスは、品質を増加させるために、超解像技術、ラッキー結像法、または他の画像処理技法等の技法を使用することができる。加えて、または代替として、ウェアラブルデバイスは、2つの眼カメラによって撮影された画像のうちの1つを識別し、その画像を処理し、テクスチャマップを作成し得る。例えば、ウェアラブルデバイスは、眼カメラ1160a(図11に示される)によって撮影された画像がユーザの顔全体を含むことを識別し得る。ウェアラブルデバイスは、その画像を処理し、その画像を使用して、テクスチャマップを抽出し得る。
顔モデルおよびテクスチャマップは、ウェアラブルデバイスまたは遠隔記憶場所内に記憶され得る。それらは、他のウェアラブルデバイスまたはコンピューティングシステムと共有され得る。例えば、テレプレゼンスセッション中、第1のユーザの顔モデルおよびテクスチャマップは、第2のユーザと共有され、第2のユーザの環境内の第1のユーザの存在の実在感をもたらし得る。
いくつかの実装では、顔モデルは、複数の結像セッション中にウェアラブルデバイスによって撮影された画像に基づいて、および/または他のコンピューティングシステムによって入手された画像に基づいて、生成され得る。例えば、ウェアラブルデバイスは、ユーザが、ウェアラブルデバイスを着けつつある間およびウェアラブルデバイスを外しつつある間、ユーザの顔の画像を入手し得る。ウェアラブルデバイスは、ユーザがウェアラブルデバイスを着けつつある間に入手された画像と、ユーザがウェアラブルデバイスを外しつつある間に入手された画像とに基づいて、顔モデルを生成し得る。
ウェアラブルデバイスは、入手された画像を使用して、既存の顔モデルを更新することもできる。例えば、ウェアラブルデバイスは、ユーザがウェアラブルデバイスを着けつつある間、新しいユーザの顔の画像を収集し、新しい画像に基づいて、同一ユーザのために以前に生成された顔モデルを更新することができる。
ウェアラブルデバイスは、新しい画像を使用して、ユーザのグループに一般的な顔モデルを更新することもできる。いくつかの実施形態では、異なる人口統計学的情報(年齢、性別、人種等)を伴う人々は、異なる一般的な顔モデルを有し得る。例えば、十代の女性が、ある一般的な顔モデルに関連付けられ得る一方、成人男性は、別の一般的な顔モデルに関連付けられ得る。ウェアラブルデバイスは、ユーザの人口統計情報に基づいて、ユーザのための一般的な顔モデルを選択し、ユーザがウェアラブルデバイスを着けつつある間に入手されたユーザ特定の情報で一般的な顔モデルを更新することができる。
ユーザは、例えば、異なる顔特徴およびテクスチャマップを選択することによって、顔モデルをカスタマイズすることもできる。例として、ユーザは、テレプレゼンスセッション中、空想科学小説のエイリアン等の空想上の創造物の外観を選択することができる。
これらの例は、ウェアラブルデバイスを使用して顔モデルを構築するステップを参照するが、顔モデルを生成または更新する全てのプロセスが、ウェアラブルデバイス上で実施されるために要求されるわけではない。ウェアラブルデバイスは、遠隔コンピューティングデバイスと通信し、顔モデルを生成することができる。例えば、ウェアラブルデバイスは、ユーザの顔の画像を入手し、画像(単独で、または、例えば、ユーザの人口統計情報等のユーザの他の情報と組み合わせて)を遠隔コンピューティングデバイス(例えば、サーバ等)に渡すことができる。遠隔コンピューティングデバイスは、画像を分析し、顔モデルを作成することができる。遠隔コンピューティングデバイスは、顔モデルをユーザのウェアラブルデバイスに戻すこと、または顔モデルを別のユーザのウェアラブルデバイスに渡すことができる(例えば、テレプレゼンスセッション中)。
(顔モデルを生成するための例示的プロセス)
図12は、顔モデルを生成するための例示的プロセスを図示する。プロセス1200は、図11に説明されるウェアラブルデバイス1150によって実施され得る。ウェアラブルデバイス1150は、1つ以上の眼カメラおよびIMU(図2および7に説明される)等の種々のセンサを含むことができる。
ブロック1210では、ウェアラブルデバイスは、ウェアラブルデバイスの移動を検出することができる。移動は、ディスプレイデバイスをユーザの頭部に隣接して配置することを伴い得る(デバイスを着けるためにユーザに向かってか、またはデバイスを外すためにユーザから離れるかのいずれか)。例えば、ウェアラブルデバイスは、IMUによって入手された加速データを使用して、加速が閾値加速を超えるかどうかを決定することができる。加速が、閾値加速を超える場合、ウェアラブルデバイスは、ユーザがデバイスを着けつつある(または外しつつある)ことを決定し得る。
ブロック1220では、ウェアラブルデバイスは、ユーザの顔の画像を捕捉することができる。例えば、1つ以上の眼カメラの各々は、ユーザが、ウェアラブルデバイスを着けつつある間、または外しつつある間、ユーザの顔を結像し得る。眼カメラは、ビデオまたは複数の写真を通して、ユーザの顔を結像し得る。
ブロック1230では、ウェアラブルデバイスは、1つ以上の眼カメラによって撮影された画像を分析することができる。2つの眼カメラを使用するいくつかの実装では、2つの眼カメラが、ユーザから十分に遠く離れているとき、2つの眼カメラは、重複FOVを有し得る。故に、2つの眼カメラは、立体視結像システムとして扱われ得る。ウェアラブルデバイスは、図11を参照して説明される立体視アルゴリズムを使用して、異なる深度における画像を分析することができる。分析の結果は、点群によって表され得る。ウェアラブルデバイスは、キーポイント検出器および記述子アルゴリズムを使用して、顔の識別可能特徴を抽出することによって、画像を分析することもできる。故に、顔は、識別可能特徴のキーポイントによって表され得る。
ブロック1240では、ウェアラブルデバイスは、異なる深度において撮影された画像を組み合わせ、顔モデルを生成することができる。ウェアラブルデバイスはまた、図11を参照して説明されるように、座標フレームを使用して識別可能特徴を位置合わせすることによって、顔モデルを生成することもできる。
しかしながら、1つ以上の眼カメラは、重複FOVを有するように要求されない。故に、ブロック1230および1240では、ウェアラブルデバイスは、片眼カメラを使用して、図11を参照して説明される単眼視技法を使用して、顔モデルを生成し得る。例えば、ウェアラブルデバイスは、各眼カメラによって別個に入手された画像を分析し、各眼カメラに対する分析の結果を組み合わせ、顔モデルを生成し得るか、またはデバイスは、片眼カメラ(例えば、ユーザの眼のうちの一方を追跡し、他方の眼の移動は、測定された眼の移動から推測される)を有し、単眼視技法を使用して、顔モデルを生成し得る。
随意のブロック1250では、ウェアラブルデバイスの動作パラメータが、調節され得る。動作パラメータは、デバイスによってレンダリングされる仮想画像の場所、仮想画像を生成するために使用される光プロジェクタ(例えば、画像投入デバイス420、422、424、426、428のうちの1つ以上のもの)の相対的位置または向き等を含み得る。動作パラメータは、画像または顔モデルの分析に基づいて調節され得る。例えば、ウェアラブルデバイスは、ユーザの顔モデルに基づいて、眼球間分離を測定することができる。ウェアラブルデバイスは、故に、各眼に対応する光プロジェクタの向きを調節し、仮想画像がユーザの眼のための好適な場所にレンダリングされるようにすることができる。
動作パラメータを調節することに加えて、またはその代替として、ウェアラブルデバイスは、例えば、ユーザの頭部上のウェアラブルデバイスの適合感を決定すること、ユーザ識別または認証を実施すること、または、画像位置合わせまたは較正を実施することを行う等の他の目的のために、画像を分析することができる。ウェアラブルデバイスの適合感を決定する例として、ウェアラブルデバイスは、ユーザの眼球周囲領域の外観を分析し、ウェアラブルデバイスが、傾けられているかどうかを決定することができる。ウェアラブルデバイスの適合感を決定するさらなる説明は、「Periocular Test for Glasses Fit」と題された米国特許出願第62/404,493号(本開示は、参照することによってその全体として本明細書に組み込まれる)に提供される。
画像に基づいてユーザの識別を決定する例として、ウェアラブルデバイスは、種々の顔認識アルゴリズムを入手された画像に適用することによって、ユーザの顔特徴(例えば、顔形状、肌質、鼻、眼、頬の特性等)を分析することができる。いくつかの例顔認識アルゴリズムは、固有顔を使用した主成分分析、線形判別分析、Fisherfaceアルゴリズムを使用したエラスティックバンチグラフィックマッチング、隠れマルコフモデル、テンソル表現を使用した多重線形部分空間学習、およびニューロン動機ダイナミックリンクマッチング、または3D顔認識アルゴリズムを含む。デバイスはまた、画像を分析し、虹彩を識別し、各個人に特有のバイオメトリックシグネチャ(例えば、虹彩コード)を決定し得る。
ウェアラブルデバイスはまた、デバイスがユーザの顔に着けられつつある間、または外されつつある間にウェアラブルデバイスによって入手された画像に基づいて、画像位置合わせを実施することができる。画像位置合わせから取得される結果として生じる画像は、ユーザの顔に加え、またはその代替として、ユーザの環境の一部(例えば、ユーザの部屋またはユーザの近傍の別の人物)を含むことができる。
図13Aは、立体視技法を使用して顔モデルを生成する例示的プロセスを説明する。例示的プロセス1300は、単独で、または組み合わせて、ウェアラブルデバイスまたは遠隔コンピューティングデバイス(例えば、コンピュータまたはサーバ等)によって実施されることができる。
ブロック1310では、ウェアラブルデバイスによって入手された顔画像が、アクセスされ得る。顔画像は、デバイスを着けつつあるとき、または外しつつあるときに同時に入手されていることもある(例えば、プロセス1200のブロック1210および1220参照)。顔画像は、内向きに面した結像システム462によって異なる深度において撮影された対の画像を含む。図11を参照すると、一対の画像は、眼カメラ1160aによって撮影された第1の画像と、眼カメラ1160bによって撮影された第2の画像とを含むことができる。第1の画像および第2の画像は、ウェアラブルデバイス1150が実質的に同一深度にあるとき、それらのそれぞれのカメラによって撮影され得る。第1の画像および第2の画像は、実質的に同時に、それらのそれぞれのカメラによって撮影され得る。アクセスされる顔画像は、複数のセッション中に撮影された画像を含むこともできる。例えば、いくつかの顔画像は、ユーザがウェアラブルデバイスを着けつつある間、現時点の1週間前に撮影されていることもある一方、他の顔画像は、ユーザがウェアラブルデバイスを着けつつある間、現時点の1日前に撮影されていることもある。顔画像は、ウェアラブルデバイス1150上または遠隔データリポジトリ280内に記憶され得る。ウェアラブルデバイス1150は、顔画像が入手されるにつれて、顔画像を遠隔データリポジトリ280に通信することができるか、または、顔画像が入手された後、顔画像を遠隔データリポジトリ280にアップロードすることができる。
ブロック1312では、立体視アルゴリズムが、アクセスされた顔画像に適用され、深度画像を計算し得る。立体視アルゴリズムの例は、ブロックマッチングアルゴリズム、セミグローバルマッチングアルゴリズム、セミグローバルブロックマッチングアルゴリズム、視差マップ、三角測量、深度マップ、ニューラルネットワークアルゴリズム、同時位置特定およびマッピングアルゴリズム(例えば、SLAMまたはv-SLAM)等を含む。深度画像は、3Dモデルであり得、それは、顔とウェアラブルデバイスとの間の距離に関連する情報を含む。例えば、立体視アルゴリズムは、1つ以上の対の画像に適用され得、結果として生じる出力は、もとの1つ以上の対の画像内の多くまたは全てのピクセルへの深度割り当てを含むことができる。
ブロック1314では、顔画像は、顔モデルを生成するために一緒に融合されることができる。多くの技法が、そのような融合のために使用され得る。一例として、顔は、点群(ブロック1312における立体算出から必然的に生じるであろう)として扱われ得る。複数のそのような群(立体視アルゴリズムの複数回の適用から生じる)は、ICP等のアルゴリズムを使用して、互いに適合され得る。続いて、外れ値が、除外され、表面は、クラスタ化、平均によって、または別の類似技法を使用して、平滑化され得る。点群計算から生じる顔モデルは、稠密モデルであり得る。
顔は、キーポイント(例えば、疎な、異なる、および視覚的に顕著な特徴の組等)の集合としてモデル化され得るか、または、顔に特有の特定の特徴(例えば、眼角、口角、眉毛等)の識別および位置特定によってモデル化され得る。いずれの場合も、これらの特徴は、数学的組み合わせを用いて「融合」され、特徴の場所における不確実性を最小化し得る。一例として、キーポイントは、画像フレーム毎に合致させられ得、それは、姿勢変化(例えば、ユーザの頭部の位置および向きの変化)を推測することもできる。この場合、特徴またはキーポイントは、顔に固定された共通座標フレームに変換され得る。その後、同様のキーポイントは、平均または同様に集約されることができ、おそらく、ある程度の外れ値除外を含む。顔モデルは、キーポイント技法が使用される場合、疎モデルであり得る。
随意のブロック1316では、テクスチャマップが、顔モデルに適用され得る。テクスチャマップは、ユーザの顔画像に基づいて決定され得る。例えば、テクスチャマップは、顔画像内に現れるような肌質を含み得る。
随意のブロック1318では、顔モデルは、別のウェアラブルデバイスに通信され得る。例えば、ユーザが、別のユーザとのテレプレゼンスセッションの間、顔モデルは、ユーザのアバタを作成するために使用され得、顔モデルは、他のユーザのウェアラブルデバイスに渡され得る。顔モデルは、いくつかの状況では、ユーザにも通信され得る。ユーザは、例えば、髪型を適用すること、または皮膚色もしくは外観を変化させること等によって、顔モデルをさらに操作することができる。
図13Bは、単眼視技法を使用して顔モデルを生成する例示的プロセスを説明する。例示的プロセス1350は、単独で、または組み合わせて、ウェアラブルデバイスまたは遠隔コンピューティングデバイス(例えば、コンピュータまたはサーバ等)によって実施されることができる。
ブロック1352では、第1の顔画像および第2の顔画像が、アクセスされることができる。顔画像は、デバイスを着けつつあるとき、または外しつつあるとき、同時に入手されていることもある(例えば、プロセス1200のブロック1210および1220参照)。第1の顔画像は、第1の眼カメラによって入手され得、第2の顔画像は、第2の眼カメラによって入手され得る。第1の眼カメラおよび第2の眼カメラの各々は、ユーザの顔の一部を結像するように構成され得る。ユーザが、ウェアラブルデバイスを着けつつあるとき、第1の眼カメラおよび第2の眼カメラの各々は、一連の画像を撮影するように構成され得る。
ブロック1354では、第1の顔画像は、分析され、顔モデルの第1の部分を作成するために一緒に融合されることができる一方、ブロック1356では、第2の顔画像は、分析され、顔モデルの第2の部分を作成するために一緒に融合されることができる。顔モデルの第1の部分および第2の部分は、SLAM、v-SLAM、またはオブジェクト認識装置708を参照して説明される他のマッピング技法等の種々のマッピング技法を使用して、それぞれ、第1の顔画像および第2の顔画像に基づいて、作成されることができる。
ブロック1358では、顔モデルの第1の部分および第2の部分は、全顔モデルを作成するために組み合わせられることができる。ウェアラブルデバイスは、単独で、またはウェアラブルデバイスの移動軌道(第1の画像および第2の画像から推測されるように)と組み合わせて、第1および第2のカメラの相対的位置および角度を使用して、顔モデルの2つの部分を単一モデルに組み合わせることができる。
例は、顔モデルを参照して説明されたが、類似技法も、身体の他の部分の仮想画像を生成するために適用されることができる(単独で、または顔と組み合わせて)。例えば、ユーザが、ウェアラブルデバイスを着けつつある間、内向きに面した結像システムによって入手された画像のうちのいくつかは、ユーザの胴体の一部、例えば、ユーザの首または上半身(例えば、肩)を含むことができる。ウェアラブルシステムは、図11-13Bに説明されるような類似アルゴリズムを使用して、ユーザの首または上半身のモデルと組み合わせて、顔モデルを生成することができる。別の例として、ユーザは、外向きに面した結像システムをユーザの顔に向け、ユーザの身体を走査することができる。そのような走査から入手された画像も、ユーザの身体のモデルを生成するために使用されることができる。ユーザの身体のモデルは、仮想アバタにおいて使用されることもできる(例えば、テレプレゼンスセッション中)。
(ウェアラブルデバイスを用いた顔モデル捕捉の追加の側面)
第1の側面では、ユーザの顔の3次元(3D)モデルを生成するための拡張現実(AR)システムであって、システムは、3D環境をユーザに表示するように構成された拡張現実デバイス(ARD)と、第1の眼カメラおよび第2の眼カメラを備えている内向きに面した結像システムであって、結像システムは、ユーザの顔の一部を結像するように構成されている、内向きに面した結像システムと、ARDに関連付けられ、ユーザの移動を検出するように構成された慣性測定ユニット(IMU)と、ARDに関連付けられたコンピュータプロセッサとを備え、コンピュータプロセッサは、移動の指示をIMUから受信することであって、移動は、ARDをユーザの頭部上に着けることを含む、ことと、ARDがユーザの頭部に着けられている間、第1の顔の画像を第1の眼カメラから受信すること、および第2の顔の画像を第2の眼カメラから受信することと、第1の画像および第2の画像を分析することと、少なくとも部分的に第1の画像および第2の画像の分析に基づいて、顔の顔モデルを生成することとを行うようにプログラムされている、システム。
第2の側面では、IMUは、加速度計、コンパス、またはジャイロスコープのうちの1つ以上のものを備えている、側面1に記載のシステム。
第3の側面では、移動の指示は、ARDの加速の増加または閾値加速に達するARDの加速の測定を含む、側面1-2のいずれか1項に記載のシステム。
第4の側面では、第1の画像および第2の画像を分析するために、コンピュータプロセッサは、立体視アルゴリズムを使用して、第1の画像および第2の画像を3D空間内の点群に変換するようにプログラムされている、側面1-3のいずれか1項に記載のシステム。
第5の側面では、立体視アルゴリズムは、ブロックマッチングアルゴリズム、セミグローバルマッチングアルゴリズム、セミグローバルブロックマッチングアルゴリズム、またはニューラルネットワークアルゴリズムのうちの少なくとも1つを含む、側面4に記載のシステム。
第6の側面では、顔モデルを生成するために、コンピュータプロセッサは、反復最近傍点アルゴリズムを使用して、点群を組み合わせるようにさらにプログラムされている、側面5に記載のシステム。
第7の側面では、第1の画像および第2の画像を分析するために、コンピュータプロセッサは、キーポイント検出器および記述子アルゴリズムを使用して第1の画像および第2の画像内のキーポイントを識別するようにさらにプログラムされている、側面1-6のいずれか1項に記載のシステム。
第8の側面では、第1の画像および第2の画像を分析するために、コンピュータプロセッサは、少なくとも部分的に第1の画像および第2の画像に基づいて、顔の顔特徴を識別し、3D空間内の点を用いて、識別された顔特徴を記述するようにさらにプログラムされている、側面1-7のいずれか1項に記載のシステム。
第9の側面では、顔モデルを生成するために、コンピュータプロセッサは、バンドル調整アルゴリズムを使用して顔特徴またはキーポイントを組み合わせるように構成されている、側面7-8のいずれか1項に記載のシステム。
第10の側面では、第1の画像および第2の画像を分析し、顔モデルを生成するために、コンピュータプロセッサは、少なくとも部分的に第1の画像に基づいて、顔モデルの第1の部分を生成することと、少なくとも部分的に第2の画像に基づいて、顔モデルの第2の部分を生成することと、顔モデルの第1の部分および顔モデルの第2の部分を組み合わせ、顔モデルを取得することとを行うようにプログラムされている、側面1-9のいずれか1項に記載のシステム。
第11の側面では、第1の画像および第2の画像の分析は、視覚的同時位置特定およびマッピングアルゴリズムによって実施される、側面10に記載のシステム。
第12の側面では、第1の画像は、第1の眼カメラによって撮影された第1のビデオの第1のフレームを備え、第2の画像は、第2の眼カメラによって撮影されたビデオの第2のフレームを備えている、側面1-11のいずれか1項に記載のシステム。
第13の側面では、顔モデルを生成するために、コンピュータプロセッサは、ビデオの第1のフレームをビデオの第2のフレームと組み合わせるようにプログラムされている、側面12に記載のシステム。
第14の側面では、コンピュータプロセッサは、少なくとも部分的に第1の画像または第2の画像内の1つ以上の画像に基づいて、顔の顔モデルに関連付けられたテクスチャマップを生成するようにさらに構成されている、側面1-13のいずれか1項に記載のシステム。
第15の側面では、コンピュータプロセッサは、顔の顔モデルを別のユーザと共有するようにさらに構成されている、側面1-14のいずれか1項に記載のシステム。
第16の側面では、第1の眼カメラは、ユーザの左眼を結像するように構成され、第2の眼カメラは、ユーザの右眼を結像するように構成されている、側面1-15のいずれか1項に記載のシステム。
第17の側面では、第1の眼カメラおよび第2の眼カメラは、重複している視野を有する、側面1-16のいずれか1項に記載のシステム。
第18の側面では、ユーザの顔の3次元(3D)モデルを生成する方法であって、方法は、コンピュータハードウェアと、3D環境をユーザに表示するように構成されたディスプレイデバイスと、ユーザの顔の一部を結像するように構成された結像システムと、ディスプレイデバイスの移動を検出するように構成された慣性測定ユニット(IMU)とを備えているウェアラブルデバイスの制御下で、IMUによって、ユーザの顔を結像するためのトリガを検出することであって、トリガは、ディスプレイデバイスをユーザの頭部に隣接して配置しつつあることを含む移動を含む、ことと、結像システムによって、ユーザの顔の少なくとも一部の画像を捕捉することと、結像システムによって捕捉された画像を分析することと、少なくとも部分的に画像の分析に基づいて、顔モデルを生成することとを含む、方法。
第19の側面では、トリガを検出することは、IMUによって、ディスプレイデバイスの加速を決定することと、ディスプレイデバイスの加速を閾値加速と比較することと、加速が閾値加速を超えているという比較に応答して、トリガを検出することとを含む、請求項18に記載の方法。
第20の側面では、画像のうちの1つ以上のものは、顔以外のユーザの身体の一部を含む、側面18-19のいずれか1項に記載の方法。
第21の側面では、画像は、結像システムの第1の眼カメラによって捕捉された第1の画像と、結像システムの第2の眼カメラによって捕捉された第2の画像とを含む、側面18-20のいずれか1項に記載の方法。
第22の側面では、画像を分析することは、立体視アルゴリズムを使用して、第1の画像および第2の画像を点群に変換することを含む、側面21に記載の方法。
第23の側面では、立体視アルゴリズムは、ブロックマッチングアルゴリズム、セミグローバルマッチングアルゴリズム、セミグローバルブロックマッチングアルゴリズム、またはニューラルネットワークアルゴリズムのうちの少なくとも1つを含む、側面22に記載の方法。
第24の側面では、顔の顔モデルを生成することは、反復最近傍点アルゴリズムを使用して、点群を組み合わせることを含む、側面23に記載の方法。
第25の側面では、画像を分析することは、画像内のユーザの顔に関連付けられたキーポイントを識別することを含み、顔の顔モデルを生成することは、バンドル調整アルゴリズムを使用して、キーポイントを伴う顔モデルを生成することを含む、側面22-24のいずれか1項に記載の方法。
第26の側面では、画像を分析することは、視覚的同時位置特定およびマッピングアルゴリズムを使用して、第1の画像を分析し、顔モデルの第1の部分を生成することと、視覚的同時位置特定およびマッピングアルゴリズムを使用して、第2の画像を分析し、顔モデルの第2の部分を生成することとを含む、側面22-25のいずれか1項に記載の方法。
第27の側面では、顔の顔モデルを生成することは、顔モデルの第1の部分と顔モデルの第2の部分とを組み合わせ、顔モデルを生成することを含む、側面26に記載の方法。
第28の側面では、画像は、結像システムによって撮影されたビデオのフレームを含む、側面18-27のいずれか1項に記載の方法。
第29の側面では、少なくとも部分的に画像に基づいて、顔モデルに関連付けられたテクスチャマップを生成することをさらに含む、側面18-28のいずれか1項に記載の方法。
第30の側面では、顔モデルを生成することは、既存の顔モデルにアクセスすることと、少なくとも部分的に画像の分析に基づいて、既存の顔モデルを更新することとを含む、側面18-29のいずれか1項に記載の方法。
第31の側面では、既存の顔モデルは、一般的な顔モデルまたはユーザの顔の以前に生成された顔モデルのうちの少なくとも1つを含む、側面30に記載の方法。
第32の側面では、顔モデルを生成することは、ウェアラブルデバイスまたは別のコンピューティングデバイスによって以前に入手された顔の画像にアクセスすることと、少なくとも部分的に結像システムによって捕捉された画像およびアクセスされた画像の分析に基づいて、顔モデルを生成することとを含む、側面18-31のいずれか1項に記載の方法。
第33の側面では、顔モデルを別のディスプレイデバイスに通信することと、他のディスプレイデバイスによって、少なくとも部分的に顔モデルに基づいて、ユーザの顔に関連付けられた画像を表示することとをさらに含む、側面18-32のいずれか1項に記載の方法。
第34の側面では、ユーザの顔の3次元(3D)モデルを生成するためのシステムであって、システムは、仮想コンテンツをユーザに提示するように構成された頭部搭載型ディスプレイ(HMD)と、少なくとも1つの眼カメラを備えている内向きに面した結像シス
テムであって、内向きに面した結像システムは、ユーザがHMDを装着しつつある間、ユーザの顔の少なくとも一部を結像するように構成されている、内向きに面した結像システムと、HMDに関連付けられ、HMDの移動を検出するように構成された慣性測定ユニット(IMU)と、ハードウェアプロセッサとを備え、ハードウェアプロセッサは、ユーザの顔の結像を開始するためのトリガを検出することであって、トリガは、HMDをユーザの頭部上に着けつつあること、またはHMDをユーザの頭部から外しつつあることを含むIMUによって検出される移動を含む、ことと、トリガの検出に応答して、少なくとも1つの眼カメラをアクティブにし、画像を入手することと、IMUまたは内向きに面した結像システムのうちの少なくとも1つから入手されたデータに基づいて、結像を停止するための停止条件を検出することと、立体視アルゴリズムを用いて、少なくとも1つの眼カメ
ラによって入手された画像を分析することと、少なくとも部分的に立体視アルゴリズムの出力に基づいて、画像を融合させ、ユーザの顔の顔モデルを生成することとを行うようにプログラムされている、システム。
第35の側面では、トリガを検出するために、ハードウェアプロセッサは、HMDの加速を決定することと、HMDの加速を閾値加速と比較することと、加速が閾値加速を超えているという比較に応答して、トリガを検出することとを行うようにプログラムされている、側面34に記載のシステム。
第36の側面では、停止条件は、HMDとユーザの頭部との間の距離が閾値距離に達すると、検出される、側面34-35のいずれか1項に記載のシステム。
第37の側面では、立体視アルゴリズムは、ブロックマッチングアルゴリズム、セミグローバルマッチングアルゴリズム、セミグローバルブロックマッチングアルゴリズム、視差マップ、深度マップ、またはニューラルネットワークアルゴリズムのうちの少なくとも1つを含む、側面34-36のいずれか1項に記載のシステム。
第38の側面では、少なくとも1つの眼カメラは、第1の眼カメラおよび第2の眼カメ
ラを備え、第1の眼カメラおよび第2の眼カメラは、重複している視野を有する、側面34-37のいずれか1項に記載のシステム。
第39の側面では、画像は、複数の対の画像を備え、各対の画像は、第1の眼カメラによって入手された第1の画像と、第2の眼カメラによって入手された第2の画像とを含む、側面38に記載のシステム。
第40の側面では、一対の画像は、立体視アルゴリズムを用いて、一緒に分析される、側面39に記載のシステム。
第41の側面では、立体視アルゴリズムの出力は、複数の対の画像内のピクセルへの深度割り当てを含む、側面39-40のいずれか1項に記載のシステム。
第42の側面では、ユーザの顔は、第1の眼カメラおよび第2の眼カメラによって入手された画像の分析に基づいて、複数の点群によって表され、画像を融合させ、顔モデルを生成するために、ハードウェアプロセッサは、複数の群を互いに適合させることと、複数の群における外れ値を除外することと、クラスタ化または平均のうちの少なくとも1つによって、顔モデルの表面を平滑化することとを行うようにプログラムされている、側面39-41のいずれか1項に記載のシステム。
第43の側面では、複数の群を適合させるために、ハードウェアプロセッサは、反復最近傍点アルゴリズムを複数の群に適用するようにプログラムされている、側面42に記載のシステム。
第44の側面では、ハードウェアプロセッサは、画像に基づいて、テクスチャマップを決定することと、テクスチャマップを顔モデルに適用することとを行うようにさらにプログラムされている、側面34-43のいずれか1項に記載のシステム。
第45の側面では、ハードウェアプロセッサは、顔モデルをウェアラブルデバイスに渡すようにさらにプログラムされている、側面34-44のいずれか1項に記載のシステム。
第46の側面では、画像を分析するために、ハードウェアプロセッサは、少なくとも、キーポイント検出器および記述子アルゴリズムを使用して、画像内のキーポイントを識別すること、または顔特徴を画像から識別し、3D空間内の点を用いて、識別された顔特徴を記述することを行うようにプログラムされている、側面34-45のいずれか1項に記載のシステム。
第47の側面では、画像を融合させるために、ハードウェアプロセッサは、バンドル調整アルゴリズムを使用して、キーポイントまたは顔特徴を組み合わせるようにプログラムされている、側面46に記載のシステム。
第48の側面では、ユーザの顔の3次元(3D)モデルを生成する方法であって、方法は、ユーザの顔モデルを生成することに対する要求を受信することと、ウェアラブルデバイスの内向きに面した結像システムによって入手されたユーザの頭部の画像にアクセスすることであって、内向きに面した結像システムは、少なくとも1つの眼カメラを備えてい
る、ことと、複数の対の画像をアクセスされた画像から識別することと、立体視アルゴリズムを複数の対の画像に適用することによって、画像を分析することと、該分析するステップから取得される出力を融合させ、顔モデルを作成することとを含む、方法。
第49の側面では、出力は、ユーザの顔に関連付けられた深度マップを含み、深度マップは、顔とウェアラブルデバイスとの間の距離に関連する情報を含む、側面48に記載の方法。
第50の側面では、画像は、ウェアラブルがユーザに着けられつつあるとき、またはユーザから外されつつあるときに入手される、側面48-49のいずれか1項に記載の方法。
第51の側面では、少なくとも1つの眼カメラは、第1の眼カメラおよび第2の眼カメ
ラを備え、一対の画像は、それぞれ、第1の眼カメラおよび第2の眼カメラによって実質的に同時に入手される第1の画像および第2の画像を含む、側面48-50のいずれか1項に記載の方法。
第52の側面では、画像を分析することは、複数の対の画像を点群に変換することを含む、側面48-51のいずれか1項に記載の方法。
第53の側面では、出力を融合させることは、反復最近傍点アルゴリズムを使用して、点群を組み合わせることを含む、側面52に記載の方法。
(他の考慮点)
本明細書に説明される、および/または添付される図に描写されるプロセス、方法、およびアルゴリズムの各々は、具体的かつ特定のコンピュータ命令を実行するように構成される1つ以上の物理的コンピューティングシステム、ハードウェアコンピュータプロセッサ、特定用途向け回路、および/または電子ハードウェアによって実行されるコードモジュールにおいて具現化され、それによって完全もしくは部分的に自動化され得る。例えば、コンピューティングシステムは、具体的コンピュータ命令とともにプログラムされた汎用コンピュータ(例えば、サーバ)または専用コンピュータ、専用回路等を含むことができる。コードモジュールは、実行可能プログラムにコンパイルおよびリンクされ得るか、動的リンクライブラリ内にインストールされ得るか、または、解釈されるプログラミング言語において書き込まれ得る。いくつかの実装では、特定の動作および方法が、所与の機能に特有の回路によって実施され得る。
さらに、本開示の機能性のある実装は、十分に数学的、コンピュータ的、または技術的に複雑であるので、(適切な専門化された実行可能命令を利用する)特定用途向けハードウェアまたは1つ以上の物理的コンピューティングデバイスは、例えば、関与する計算の量もしくは複雑性に起因して、または結果を実質的にリアルタイムで提供するために、機能性を実施する必要があり得る。例えば、動画またはビデオは、多くのフレームを含み、各フレームは、数百万のピクセルを有し得、具体的にプログラムされたコンピュータハードウェアは、商業的に妥当な時間量において所望の画像処理タスクまたは用途を提供するようにビデオデータを処理する必要がある。
コードモジュールまたは任意のタイプのデータは、ハードドライブ、ソリッドステートメモリ、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、光学ディスク、揮発性もしくは不揮発性記憶装置、同一物の組み合わせ、および/等を含む物理的コンピュータ記憶装置等の任意のタイプの非一過性コンピュータ読み取り可能な媒体上に記憶され得る。方法およびモジュール(またはデータ)は、無線ベースおよび有線/ケーブルベースの媒体を含む種々のコンピュータ読み取り可能な伝送媒体上で生成されたデータ信号として(例えば、搬送波または他のアナログもしくはデジタル伝搬信号の一部として)伝送され得、種々の形態(例えば、単一もしくは多重化アナログ信号の一部として、または複数の個別的なデジタルパケットもしくはフレームとして)をとり得る。開示されるプロセスまたはプロセスステップの結果は、任意のタイプの非一過性有形コンピュータ記憶装置内に持続的もしくは別様に記憶され得るか、またはコンピュータ読み取り可能な伝送媒体を介して通信され得る。
本明細書に説明される、および/または添付される図に描写されるフロー図における任意のプロセス、ブロック、状態、ステップ、もしくは機能性は、プロセスにおいて具体的機能(例えば、論理もしくは算術)またはステップを実装するための1つ以上の実行可能命令を含むコードモジュール、セグメント、またはコードの一部を潜在的に表すものとして理解されたい。種々のプロセス、ブロック、状態、ステップ、または機能性は、組み合わせられる、再配列される、追加される、削除される、修正される、または別様に本明細書に提供される例証的例から変更されることができる。いくつかの実施形態では、追加のまたは異なるコンピューティングシステムもしくはコードモジュールが、本明細書に説明される機能性のいくつかまたは全てを実施し得る。本明細書に説明される方法およびプロセスは、任意の特定のシーケンスに限定されず、それに関連するブロック、ステップ、または状態は、適切な他のシーケンスで、例えば、連続して、並行して、またはある他の様式で実施されることもできる。タスクまたはイベントが、開示される例示的実施形態に追加され、またはそれから除去され得る。さらに、本明細書に説明される実装における種々のシステムコンポーネントの分離は、例証を目的とし、全ての実装においてそのような分離を要求するものとして理解されるべきではない。説明されるプログラムコンポーネント、方法、およびシステムは、概して、単一のコンピュータ製品においてともに統合される、または複数のコンピュータ製品にパッケージ化され得ることを理解されたい。多くの実装変形例が、可能である。
プロセス、方法、およびシステムは、ネットワーク(または分散)コンピューティング環境において実装され得る。ネットワーク環境は、企業全体コンピュータネットワーク、イントラネット、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、パーソナルエリアネットワーク(PAN)、クラウドコンピューティングネットワーク、クラウドソースコンピューティングネットワーク、インターネット、およびワールドワイドウェブを含む。ネットワークは、有線もしくは無線ネットワーク、または任意の他のタイプの通信ネットワークであり得る。
本開示のシステムおよび方法は、それぞれ、いくつかの革新的側面を有し、そのうちのいかなるものも、本明細書に開示される望ましい属性に単独で関与しないか、またはそのために要求されない。上で説明される種々の特徴およびプロセスは、互いに独立して使用され得るか、または種々の方法で組み合わせられ得る。全ての可能な組み合わせおよび副次的組み合わせが、本開示の範囲内に該当することが意図される。本開示に説明される実装の種々の修正が、当業者に容易に明白であり得、本明細書に定義される一般原理は、本開示の精神または範囲から逸脱することなく、他の実装に適用され得る。したがって、請求項は、本明細書に示される実装または実施形態に限定されることを意図されず、本明細書に開示される本開示、原理、および新規の特徴と一貫する最も広い範囲を与えられるべきである。
別個の実装の文脈において本明細書に説明されるある特徴は、単一の実装における組み合わせにおいて実装されることもできる。逆に、単一の実装の文脈において説明される種々の特徴も、複数の実装において別個に、または任意の好適な副次的組み合わせにおいて実装されることができる。さらに、特徴がある組み合わせにおいて作用するものとして上で説明され、さらに、そのようなものとして最初に請求され得るが、請求される組み合わせからの1つ以上の特徴は、いくつかの場合では、組み合わせから削除されることができ、請求される組み合わせは、副次的組み合わせまたは副次的組み合わせの変形例を対象とし得る。いかなる単一の特徴または特徴のグループも、あらゆる実施形態に必要もしくは必須ではない。
とりわけ、「~できる(can)」、「~し得る(could)」、「~し得る(might)」、「~し得る(may)」、「例えば(e.g.)」等、本明細書で使用される条件文は、別様に具体的に記載されない限り、または使用されるような文脈内で別様に理解されない限り、概して、ある実施形態がある特徴、要素、および/またはステップを含む一方、他の実施形態がそれらを含まないことを伝えることが意図される。したがって、そのような条件文は、概して、特徴、要素、および/またはステップが、1つ以上の実施形態に対していかようにも要求されること、または1つ以上の実施形態が、著者の入力または促しの有無を問わず、これらの特徴、要素、および/またはステップが任意の特定の実施形態において含まれる、もしくは実施されるべきかどうかを決定するための論理を必然的に含むことを示唆することを意図されない。用語「~を備えている」、「~を含む」、「~を有する」等は、同義語であり、非限定的方式で包括的に使用され、追加の要素、特徴、行為、動作等を除外しない。また、用語「または」は、その包括的意味において使用され(およびその排他的意味において使用されず)、したがって、例えば、要素のリストを接続するために使用されると、用語「または」は、リスト内の要素のうちの1つ、いくつか、または全てを意味する。加えて、本願および添付される請求項で使用されるような冠詞「a」、「an」、および「the」は、別様に規定されない限り、「1つ以上の」もしくは「少なくとも1つ」を意味するように解釈されるべきである。
本明細書で使用されるように、項目のリスト「~のうちの少なくとも1つ」を指す語句は、単一の要素を含む、それらの項目の任意の組み合わせを指す。ある例として、「A、B、またはCのうちの少なくとも1つ」は、A、B、C、AおよびB、AおよびC、BおよびC、ならびにA、B、およびCを網羅することが意図される。語句「X、Y、およびZのうちの少なくとも1つ」等の接続文は、別様に具体的に記載されない限り、概して、項目、用語等がX、Y、またはZのうちの少なくとも1つであり得ることを伝えるために使用されるような文脈で別様に理解される。したがって、そのような接続文は、概して、ある実施形態が、Xのうちの少なくとも1つ、Yのうちの少なくとも1つ、およびZのうちの少なくとも1つがそれぞれ存在するように要求することを示唆することを意図されない。
同様に、動作は、特定の順序で図面に描写され得るが、それは、望ましい結果を達成するために、そのような動作が示される特定の順序で、もしくは連続的順序で実施される、または全ての図示される動作が実施される必要はないと認識されるべきである。さらに、図面は、フローチャートの形態で1つ以上の例示的プロセスを図式的に描写し得る。しかしながら、描写されない他の動作も、図式的に図示される例示的方法およびプロセス内に組み込まれることができる。例えば、1つ以上の追加の動作が、図示される動作のいずれかの前、その後に、それと同時に、またはその間に実施されることができる。加えて、動作は、他の実装において再配列される、または再順序付けられ得る。ある状況では、マルチタスクおよび並列処理が、有利であり得る。さらに、上で説明される実装における種々のシステムコンポーネントの分離は、全ての実装におけるそのような分離を要求するものとして理解されるべきではなく、説明されるプログラムコンポーネントおよびシステムは、概して、単一のソフトウェア製品において一緒に統合される、または複数のソフトウェア製品にパッケージ化され得ることを理解されたい。加えて、他の実装も、以下の請求項の範囲内である。いくつかの場合では、請求項に列挙されるアクションは、異なる順序で実施され、依然として、望ましい結果を達成することができる。

Claims (26)

  1. ユーザの顔の3次元(3D)モデルを生成するためのシステムであって、前記システムは、
    仮想コンテンツをユーザに提示するように構成された頭部搭載型ディスプレイ(HMD)と、
    第1の眼カメラと第2の眼カメラとを備えている内向きに面した結像システムであって、前記第1の眼カメラ、前記第2の眼カメラはそれぞれ、前記ユーザが前記HMDを装着している間に、前記ユーザの左眼、右眼を結像するように構成されている、結像システムと、
    ハードウェアプロセッサと
    を備えており、
    前記ハードウェアプロセッサは、
    前記第1の眼カメラおよび前記第2の眼カメラを使用して前記ユーザの前記顔の画像を入手することと、
    前記HMDの1つ以上の慣性センサからのセンサデータに少なくとも基づいて、前記ユーザの頭部に向かった移動を示す前記HMDの移動を検出することと、
    前記検出された移動に応答して、各々が前記第1の眼カメラからの第1の画像と前記第2の眼カメラからの第2の眼画像とを含む入手された画像の対に対して、
    前記入手された画像のうちの1つ以上に基づいて、前記ユーザの前記頭部と前記HMDとの間の距離を決定することと、
    前記距離が距離範囲内にあることを決定したことに応答して、前記ユーザの前記顔の3Dモデルを生成する際に使用可能であるとして前記入手された画像の対にタグ付けすることと、
    入手された画像の1つ以上のタグ付けされた対を識別することと、
    前記入手された画像の1つ以上のタグ付けされた対の各々に対して、立体視アルゴリズムを用いて前記入手された画像を分析することと、
    前記立体視アルゴリズムの出力に少なくとも基づいて、前記入手された画像の1つ以上のタグ付けされた対を融合させることにより、前記ユーザの前記顔の3Dモデルを生成することと
    を行うようにプログラムされている、システム。
  2. 第1の眼カメラおよび前記第2の眼カメラは、重複している視野を有する、請求項1に記載のシステム。
  3. ユーザの顔の3次元(3D)モデルを生成する方法であって、前記方法は、
    ユーザの3D顔モデルを生成することに対する要求を受信することと、
    頭部搭載型ディスプレイ(HMD)の1つ以上の慣性センサからのセンサデータに少なくとも基づいて、前記ユーザの頭部に向かった移動を示す前記HMDの移動を検出することと、
    前記検出された移動に応答して、
    ウェアラブルデバイスの内向きに面した結像システムによって入手された画像にアクセスすることであって、前記内向きに面した結像システムは、第1の眼カメラおよび第2の眼カメラを備えている、ことと、
    前記ユーザの頭部位置が特定の距離範囲内にあることを決定したことに応答して、前記アクセスされた画像のうちの少なくとも1つの画像にタグ付けすることであって、前記ユーザの頭部位置は、前記アクセスされた画像のうちの前記少なくとも1つの画像内の前記ユーザの前記顔のサイズに基づいている、ことと、
    複数の対の画像を前記タグ付けされた画像から識別することと、
    立体視アルゴリズムを前記複数の対の画像に適用することによって、前記タグ付けされた画像を分析することと、
    前記分析することから取得された出力を融合させることにより、前記ユーザの前記顔の前記3Dモデルを作成することと
    を含む、方法。
  4. 前記出力は、前記ユーザの前記顔に関連付けられた深度マップを含み、前記深度マップは、前記顔と前記ウェアラブルデバイスとの間の距離に関連する情報を含む、請求項3に記載の方法。
  5. 一対の画像は、前記第1の眼カメラ、前記第2の眼カメラによってそれぞれ実質的に同時に入手される第1の画像、第2の画像を含む、請求項3に記載の方法。
  6. 前記画像を分析することは、前記複数の対の画像を点群に変換することを含む、請求項3に記載の方法。
  7. 前記出力を融合させることは、反復最近傍点アルゴリズムを使用して前記点群を組み合わせることを含む、請求項6に記載の方法。
  8. 前記ハードウェアプロセッサは、前記HMDに関連付けられた少なくとも1つのセンサから、前記ユーザ上の前記HMDの装着位置を検出するようにプログラムされている、請求項1に記載のシステム。
  9. 前記少なくとも1つのセンサは、近接度センサを含む、請求項8に記載のシステム。
  10. 前記近接度センサは、容量近接度センサを含む、請求項9に記載のシステム。
  11. 前記近接度センサからのデータは、前記ユーザの頭部と前記近接度センサとの間の距離を含む、請求項9に記載のシステム。
  12. 前記少なくとも1つのセンサは、圧力センサを含む、請求項8に記載のシステム。
  13. 前記圧力センサからのデータは、圧力測定値を含む、請求項12に記載のシステム。
  14. 前記圧力センサは、前記HMDのつるに配置されている、請求項12に記載のシステム。
  15. 前記圧力センサは、前記HMDの鼻パッドに配置されている、請求項12に記載のシステム。
  16. 前記少なくとも1つのセンサは、慣性測定ユニット(IMU)を含む、請求項8に記載のシステム。
  17. 前記IMUからのデータは、前記HMDの加速度測定値を含む、請求項16に記載のシステム。
  18. 前記少なくとも1つのセンサは、前記第1の眼カメラまたは前記第2の眼カメラを含む、請求項8に記載のシステム。
  19. 前記第1の眼カメラまたは前記第2の眼カメラからのデータは、前記ユーザの顔の画像を含む、請求項18に記載のシステム。
  20. 前記第1の眼カメラおよび前記第2の眼カメラの前記重複している視野は、結像領域を画定し、前記距離範囲は、前記結像領域内の距離を含む、請求項2に記載のシステム。
  21. 前記距離範囲は、175mmより大きい距離を含む、請求項1に記載のシステム。
  22. 前記距離範囲は、前記第1の眼カメラまたは前記第2の眼カメラからの画像が焦点ずれする距離より大きい距離を含む、請求項1に記載のシステム。
  23. 前記第1の眼カメラの視野および前記第2の眼カメラの視野は、重複することにより、結像領域を画定し、前記特定の距離範囲は、前記結像領域内の距離を含む、請求項3に記載の方法。
  24. 前記特定の距離範囲は、175mmより大きい距離を含む、請求項23に記載の方法。
  25. 前記特定の距離範囲は、前記第1の眼カメラまたは前記第2の眼カメラからの画像が焦点ずれする距離より大きい距離を含む、請求項24に記載の方法。
  26. 前記ユーザの前記頭部と前記HMDとの間の前記距離を決定するために、前記ハードウェアプロセッサは、
    前記入手された画像の対に関連付けられた結像平面内の前記ユーザの前記顔のサイズを推定するように、前記入手された画像の対を分析することと、
    前記ユーザの前記顔の前記サイズが閾値サイズより小さいかどうかを決定することであって、前記閾値サイズは、前記距離範囲外にある距離に関連付けられている、ことと
    を行うようにプログラムされている、請求項1に記載のシステム。
JP2021170260A 2016-09-28 2021-10-18 ウェアラブルデバイスによる顔モデル捕捉 Active JP7186844B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201662400907P 2016-09-28 2016-09-28
US62/400,907 2016-09-28
JP2019515206A JP6964132B2 (ja) 2016-09-28 2017-09-27 ウェアラブルデバイスによる顔モデル捕捉
PCT/US2017/053729 WO2018064169A1 (en) 2016-09-28 2017-09-27 Face model capture by a wearable device

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2019515206A Division JP6964132B2 (ja) 2016-09-28 2017-09-27 ウェアラブルデバイスによる顔モデル捕捉

Publications (2)

Publication Number Publication Date
JP2022009208A true JP2022009208A (ja) 2022-01-14
JP7186844B2 JP7186844B2 (ja) 2022-12-09

Family

ID=61687208

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2019515206A Active JP6964132B2 (ja) 2016-09-28 2017-09-27 ウェアラブルデバイスによる顔モデル捕捉
JP2021170260A Active JP7186844B2 (ja) 2016-09-28 2021-10-18 ウェアラブルデバイスによる顔モデル捕捉

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2019515206A Active JP6964132B2 (ja) 2016-09-28 2017-09-27 ウェアラブルデバイスによる顔モデル捕捉

Country Status (9)

Country Link
US (4) US10976549B2 (ja)
EP (2) EP3519878B1 (ja)
JP (2) JP6964132B2 (ja)
KR (1) KR102491438B1 (ja)
CN (2) CN114356098A (ja)
AU (2) AU2017335736B2 (ja)
CA (1) CA3037047A1 (ja)
IL (1) IL265520B2 (ja)
WO (1) WO2018064169A1 (ja)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10359806B2 (en) * 2016-03-28 2019-07-23 Sony Interactive Entertainment Inc. Pressure sensing to identify fitness and comfort of virtual reality headset
IL265520B2 (en) 2016-09-28 2023-09-01 Magic Leap Inc Capturing a facial model using a wearable device
US11944481B1 (en) * 2018-02-23 2024-04-02 Robert Edwin Douglas Method and apparatus for predicting an image analysis tool based on user behavior
JP2021081757A (ja) * 2018-03-12 2021-05-27 ソニーグループ株式会社 情報処理装置、情報処理方法、および、プログラム
US10728518B2 (en) * 2018-03-22 2020-07-28 Microsoft Technology Licensing, Llc Movement detection in low light environments
US10475196B2 (en) * 2018-03-22 2019-11-12 Microsoft Technology Licensing, Llc Hybrid depth detection and movement detection
US10565720B2 (en) 2018-03-27 2020-02-18 Microsoft Technology Licensing, Llc External IR illuminator enabling improved head tracking and surface reconstruction for virtual reality
WO2019246044A1 (en) 2018-06-18 2019-12-26 Magic Leap, Inc. Head-mounted display systems with power saving functionality
US10549186B2 (en) * 2018-06-26 2020-02-04 Sony Interactive Entertainment Inc. Multipoint SLAM capture
US11796833B2 (en) * 2018-12-12 2023-10-24 Solos Technology Limited Modularized eyewear systems, apparatuses, and methods
US11871174B1 (en) 2018-12-12 2024-01-09 Solos Technology Limited Personalized directional audio for head-worn audio projection systems, apparatuses, and methods
US11835798B2 (en) 2018-12-12 2023-12-05 Solos Technology Limited Eyewear systems, apparatuses, and methods for providing assistance to a user
JP7293814B2 (ja) * 2019-04-01 2023-06-20 株式会社リコー 生体情報計測装置、生体情報計測方法およびプログラム
CN110287764B (zh) * 2019-05-06 2022-01-11 深圳大学 姿势预测方法、装置、计算机设备和存储介质
US11039651B1 (en) * 2019-06-19 2021-06-22 Facebook Technologies, Llc Artificial reality hat
WO2020264101A1 (en) * 2019-06-25 2020-12-30 The Regents Of The University Of California Systems and methods for characterizing joint attention during real world interaction
CN110310373B (zh) * 2019-06-28 2023-12-12 京东方科技集团股份有限公司 一种增强现实设备的图像处理方法和增强现实设备
WO2021011420A1 (en) * 2019-07-12 2021-01-21 Magic Leap, Inc. Eyeball camera system and methods for display system calibration
US11687778B2 (en) 2020-01-06 2023-06-27 The Research Foundation For The State University Of New York Fakecatcher: detection of synthetic portrait videos using biological signals
US20210327121A1 (en) * 2020-04-15 2021-10-21 Sirisilp Kongsilp Display based mixed-reality device
CN111523480B (zh) * 2020-04-24 2021-06-18 北京嘀嘀无限科技发展有限公司 一种面部遮挡物的检测方法、装置、电子设备及存储介质
CN111709302B (zh) * 2020-05-21 2023-08-25 青岛小鸟看看科技有限公司 人脸表情检测方法、装置、头戴显示设备及存储介质
CN112911356B (zh) * 2020-05-29 2022-04-05 腾讯科技(深圳)有限公司 一种虚拟现实vr视频的播放方法及相关设备
US11803237B2 (en) 2020-11-14 2023-10-31 Facense Ltd. Controlling an eye tracking camera according to eye movement velocity
US11740322B2 (en) * 2021-09-10 2023-08-29 Htc Corporation Head mounted display device and position device thereof
US11887234B2 (en) * 2021-12-23 2024-01-30 Softbank Corp. Avatar display device, avatar generating device, and program
CN116433432B (zh) * 2023-04-18 2023-11-21 北京漂洋过海科技有限责任公司 一种大数据的智慧校园管理系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013077076A1 (ja) * 2011-11-24 2013-05-30 株式会社エヌ・ティ・ティ・ドコモ 表情出力装置及び表情出力方法
US20130278631A1 (en) * 2010-02-28 2013-10-24 Osterhout Group, Inc. 3d positioning of augmented reality information
US20140104143A1 (en) * 2012-10-11 2014-04-17 Sony Computer Entertainment Europe Limited Head mountable display
JP2015092646A (ja) * 2013-11-08 2015-05-14 ソニー株式会社 情報処理装置、制御方法、およびプログラム
US20160025971A1 (en) * 2014-07-25 2016-01-28 William M. Crow Eyelid movement as user input
JP2019511067A (ja) * 2016-01-19 2019-04-18 マジック リープ, インコーポレイテッドMagic Leap,Inc. 反射を利用する拡張現実システムおよび方法

Family Cites Families (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6222525B1 (en) 1992-03-05 2001-04-24 Brad A. Armstrong Image controllers with sheet connected sensors
US5670988A (en) 1995-09-05 1997-09-23 Interlink Electronics, Inc. Trigger operated electronic device
EP1039417B1 (en) * 1999-03-19 2006-12-20 Max-Planck-Gesellschaft zur Förderung der Wissenschaften e.V. Method and device for the processing of images based on morphable models
US7255437B2 (en) 2003-10-09 2007-08-14 Howell Thomas A Eyeglasses with activity monitoring
USD514570S1 (en) 2004-06-24 2006-02-07 Microsoft Corporation Region of a fingerprint scanning device with an illuminated ring
EP1784988A1 (en) 2004-08-06 2007-05-16 University of Washington Variable fixation viewing distance scanned light displays
US20070081123A1 (en) 2005-10-07 2007-04-12 Lewis Scott W Digital eyewear
US11428937B2 (en) 2005-10-07 2022-08-30 Percept Technologies Enhanced optical and perceptual digital eyewear
US8696113B2 (en) 2005-10-07 2014-04-15 Percept Technologies Inc. Enhanced optical and perceptual digital eyewear
JP5434569B2 (ja) * 2009-12-22 2014-03-05 ソニー株式会社 情報処理装置および方法、並びにプログラム
US9304319B2 (en) 2010-11-18 2016-04-05 Microsoft Technology Licensing, Llc Automatic focus improvement for augmented reality displays
KR20120064557A (ko) 2010-12-09 2012-06-19 한국전자통신연구원 증강형 3차원 입체 영상 제시를 위한 혼합현실 디스플레이 플랫폼 및 운영 방법
AU2011348122A1 (en) 2010-12-24 2013-07-11 Magic Leap Inc. An ergonomic head mounted display device and optical system
US10156722B2 (en) 2010-12-24 2018-12-18 Magic Leap, Inc. Methods and systems for displaying stereoscopy with a freeform optical system with addressable focus for virtual and augmented reality
RU2621644C2 (ru) 2011-05-06 2017-06-06 Мэджик Лип, Инк. Мир массового одновременного удаленного цифрового присутствия
JP5414946B2 (ja) 2011-06-16 2014-02-12 パナソニック株式会社 ヘッドマウントディスプレイおよびその位置ずれ調整方法
US8184067B1 (en) * 2011-07-20 2012-05-22 Google Inc. Nose bridge sensor
CN103033936A (zh) 2011-08-30 2013-04-10 微软公司 具有虹膜扫描剖析的头戴式显示器
US10795448B2 (en) 2011-09-29 2020-10-06 Magic Leap, Inc. Tactile glove for human-computer interaction
US20130083003A1 (en) 2011-09-30 2013-04-04 Kathryn Stone Perez Personal audio/visual system
WO2013085639A1 (en) 2011-10-28 2013-06-13 Magic Leap, Inc. System and method for augmented and virtual reality
CA2858208C (en) 2011-11-23 2019-01-15 Magic Leap, Inc. Three dimensional virtual and augmented reality display system
KR102028732B1 (ko) 2012-04-05 2019-10-04 매직 립, 인코포레이티드 능동 포비에이션 능력을 갖는 와이드-fov(field of view) 이미지 디바이스들
US9671566B2 (en) 2012-06-11 2017-06-06 Magic Leap, Inc. Planar waveguide apparatus with diffraction element(s) and system employing same
WO2013188464A1 (en) 2012-06-11 2013-12-19 Magic Leap, Inc. Multiple depth plane three-dimensional display using a wave guide reflector array projector
US20130339433A1 (en) 2012-06-15 2013-12-19 Duke University Method and apparatus for content rating using reaction sensing
KR102099262B1 (ko) 2012-07-11 2020-04-09 가부시키가이샤 한도오따이 에네루기 켄큐쇼 액정 표시 장치, 및 액정 표시 장치의 구동 방법
US20140071163A1 (en) 2012-09-11 2014-03-13 Peter Tobias Kinnebrew Augmented reality information detail
WO2014043196A1 (en) 2012-09-11 2014-03-20 Magic Leap, Inc Ergonomic head mounted display device and optical system
JP2014064248A (ja) 2012-09-24 2014-04-10 Ntt Docomo Inc 画像投影装置及び画像投影方法
US9996150B2 (en) * 2012-12-19 2018-06-12 Qualcomm Incorporated Enabling augmented reality using eye gaze tracking
KR102507206B1 (ko) 2013-01-15 2023-03-06 매직 립, 인코포레이티드 초고해상도 스캐닝 섬유 디스플레이
US10163049B2 (en) * 2013-03-08 2018-12-25 Microsoft Technology Licensing, Llc Inconspicuous tag for generating augmented reality experiences
KR102516124B1 (ko) 2013-03-11 2023-03-29 매직 립, 인코포레이티드 증강 및 가상 현실을 위한 시스템 및 방법
NZ751593A (en) 2013-03-15 2020-01-31 Magic Leap Inc Display system and method
US9264803B1 (en) 2013-06-05 2016-02-16 Google Inc. Using sounds for determining a worn state of a wearable computing device
US10019057B2 (en) 2013-06-07 2018-07-10 Sony Interactive Entertainment Inc. Switching mode of operation in a head mounted display
US9874749B2 (en) 2013-11-27 2018-01-23 Magic Leap, Inc. Virtual and augmented reality systems and methods
US10262462B2 (en) 2014-04-18 2019-04-16 Magic Leap, Inc. Systems and methods for augmented and virtual reality
US9256987B2 (en) * 2013-06-24 2016-02-09 Microsoft Technology Licensing, Llc Tracking head movement when wearing mobile device
US20140375542A1 (en) 2013-06-25 2014-12-25 Steve Robbins Adjusting a near-eye display device
KR102270674B1 (ko) * 2013-09-30 2021-07-01 삼성전자주식회사 생체인식 카메라
KR102547756B1 (ko) 2013-10-16 2023-06-23 매직 립, 인코포레이티드 조절가능한 동공간 거리를 가지는 가상 또는 증강 현실 헤드셋들
US9857591B2 (en) 2014-05-30 2018-01-02 Magic Leap, Inc. Methods and system for creating focal planes in virtual and augmented reality
KR102493498B1 (ko) 2013-11-27 2023-01-27 매직 립, 인코포레이티드 가상 및 증강 현실 시스템들 및 방법들
EP2887639A1 (en) * 2013-12-18 2015-06-24 Microsoft Technology Licensing, LLC Augmented reality information detail
EP4099274B1 (en) 2014-01-31 2024-03-06 Magic Leap, Inc. Multi-focal display system and method
KR102177133B1 (ko) 2014-01-31 2020-11-10 매직 립, 인코포레이티드 멀티-포컬 디스플레이 시스템 및 방법
US10203762B2 (en) 2014-03-11 2019-02-12 Magic Leap, Inc. Methods and systems for creating virtual and augmented reality
US10430985B2 (en) 2014-03-14 2019-10-01 Magic Leap, Inc. Augmented reality systems and methods utilizing reflections
US9672416B2 (en) * 2014-04-29 2017-06-06 Microsoft Technology Licensing, Llc Facial expression tracking
AU2015297035B2 (en) 2014-05-09 2018-06-28 Google Llc Systems and methods for biomechanically-based eye signals for interacting with real and virtual objects
USD759657S1 (en) 2014-05-19 2016-06-21 Microsoft Corporation Connector with illumination region
AU2015266586B2 (en) 2014-05-30 2020-07-23 Magic Leap, Inc. Methods and systems for generating virtual content display with a virtual or augmented reality apparatus
USD752529S1 (en) 2014-06-09 2016-03-29 Comcast Cable Communications, Llc Electronic housing with illuminated region
CN106937531B (zh) * 2014-06-14 2020-11-06 奇跃公司 用于产生虚拟和增强现实的方法和系统
US9719871B2 (en) 2014-08-09 2017-08-01 Google Inc. Detecting a state of a wearable device
US9922236B2 (en) 2014-09-17 2018-03-20 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable eyeglasses for providing social and environmental awareness
US9808185B2 (en) 2014-09-23 2017-11-07 Fitbit, Inc. Movement measure generation in a wearable electronic device
US9728010B2 (en) * 2014-12-30 2017-08-08 Microsoft Technology Licensing, Llc Virtual representations of real-world objects
GB2534580B (en) 2015-01-28 2020-06-17 Sony Interactive Entertainment Europe Ltd Image processing
JP2016149660A (ja) 2015-02-13 2016-08-18 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
USD758367S1 (en) 2015-05-14 2016-06-07 Magic Leap, Inc. Virtual reality headset
US9652896B1 (en) 2015-10-30 2017-05-16 Snap Inc. Image based tracking in augmented reality systems
US10359806B2 (en) * 2016-03-28 2019-07-23 Sony Interactive Entertainment Inc. Pressure sensing to identify fitness and comfort of virtual reality headset
IL265520B2 (en) 2016-09-28 2023-09-01 Magic Leap Inc Capturing a facial model using a wearable device
JP6212667B1 (ja) * 2016-12-26 2017-10-11 株式会社コロプラ 仮想空間を介して通信するためにコンピュータで実行される方法、当該方法をコンピュータに実行させるプログラム、および、情報処理装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130278631A1 (en) * 2010-02-28 2013-10-24 Osterhout Group, Inc. 3d positioning of augmented reality information
WO2013077076A1 (ja) * 2011-11-24 2013-05-30 株式会社エヌ・ティ・ティ・ドコモ 表情出力装置及び表情出力方法
US20140104143A1 (en) * 2012-10-11 2014-04-17 Sony Computer Entertainment Europe Limited Head mountable display
JP2015092646A (ja) * 2013-11-08 2015-05-14 ソニー株式会社 情報処理装置、制御方法、およびプログラム
US20160025971A1 (en) * 2014-07-25 2016-01-28 William M. Crow Eyelid movement as user input
JP2019511067A (ja) * 2016-01-19 2019-04-18 マジック リープ, インコーポレイテッドMagic Leap,Inc. 反射を利用する拡張現実システムおよび方法

Also Published As

Publication number Publication date
EP3519878A1 (en) 2019-08-07
IL265520B1 (en) 2023-05-01
CN110023814A (zh) 2019-07-16
IL265520A (en) 2019-05-30
JP6964132B2 (ja) 2021-11-10
EP3519878B1 (en) 2023-04-19
EP4220280A1 (en) 2023-08-02
WO2018064169A1 (en) 2018-04-05
CA3037047A1 (en) 2018-04-05
US20230359044A1 (en) 2023-11-09
US11740474B2 (en) 2023-08-29
JP2019531014A (ja) 2019-10-24
KR20190054119A (ko) 2019-05-21
US20210223552A1 (en) 2021-07-22
US11428941B2 (en) 2022-08-30
US10976549B2 (en) 2021-04-13
US20220357582A1 (en) 2022-11-10
CN110023814B (zh) 2022-01-11
KR102491438B1 (ko) 2023-01-25
AU2022268332A1 (en) 2022-12-15
JP7186844B2 (ja) 2022-12-09
CN114356098A (zh) 2022-04-15
EP3519878A4 (en) 2020-06-10
US20180088340A1 (en) 2018-03-29
IL265520B2 (en) 2023-09-01
AU2017335736A1 (en) 2019-04-11
AU2017335736B2 (en) 2022-08-11

Similar Documents

Publication Publication Date Title
JP6964132B2 (ja) ウェアラブルデバイスによる顔モデル捕捉
US11636652B2 (en) Periocular and audio synthesis of a full face image
JP7378431B2 (ja) フレーム変調機能性を伴う拡張現実ディスプレイ
JP7090601B2 (ja) 複合現実較正のための眼球周囲試験
JP2023100853A (ja) アバタ移動のためのマルチモードの手の場所および配向
US20230281988A1 (en) Systems and methods for temporarily disabling user control interfaces during attachment of an electronic device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211018

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221028

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221129

R150 Certificate of patent or registration of utility model

Ref document number: 7186844

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150