JP7389116B2 - 深層ニューラルネットワーク姿勢推定システム - Google Patents

深層ニューラルネットワーク姿勢推定システム Download PDF

Info

Publication number
JP7389116B2
JP7389116B2 JP2021525097A JP2021525097A JP7389116B2 JP 7389116 B2 JP7389116 B2 JP 7389116B2 JP 2021525097 A JP2021525097 A JP 2021525097A JP 2021525097 A JP2021525097 A JP 2021525097A JP 7389116 B2 JP7389116 B2 JP 7389116B2
Authority
JP
Japan
Prior art keywords
image
pose
marker
sub
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021525097A
Other languages
English (en)
Other versions
JP2022508072A (ja
Inventor
ダンイン フー,
ダニエル デトン,
トマシュ ジャン マリシーウィッツ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Magic Leap Inc
Original Assignee
Magic Leap Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Magic Leap Inc filed Critical Magic Leap Inc
Publication of JP2022508072A publication Critical patent/JP2022508072A/ja
Application granted granted Critical
Publication of JP7389116B2 publication Critical patent/JP7389116B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • G02B27/0172Head mounted characterised by optical features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4046Scaling the whole image or part thereof using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/17Image acquisition using hand-held instruments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/225Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30204Marker
    • G06T2207/30208Marker matrix
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose

Description

(関連出願)
本願は、参照することによってその全体として本明細書に組み込まれる、2018年11月15日に出願され、「MARK DETECTION IN VARIABLE LIGHTING」と題された、米国特許出願第62/767,902号の優先権の利益を主張する。
本開示は、複合現実、結像、および可視化システムを含む、仮想現実および拡張現実に関し、より具体的には、仮想コンテンツを表示し、それと相互作用するためのシステムおよび方法に関する。
現代のコンピューティングおよびディスプレイ技術は、いわゆる「仮想現実」、「拡張現実」、および「複合現実」体験のためのシステムの開発を促進しており、デジタル的に再現された画像が、現実であるように見える、またはそのように知覚され得る様式で、ユーザに提示される。仮想現実(VR)シナリオは、典型的には、他の実際の実世界視覚的入力に対する透過性を伴わずに、コンピュータ生成仮想画像情報の提示を伴う。拡張現実(AR)シナリオは、典型的には、ユーザの周囲の実際の世界の可視化に対する拡張としての仮想画像情報の提示を伴う。複合現実(MR)は、物理的および仮想オブジェクトが、共存し、リアルタイムで相互作用し得る、拡張現実のタイプである。本明細書に開示されるシステムおよび方法は、VR、AR、およびMR技術に関連する種々の課題に対処する。
本明細書は、例えば、以下の項目も提供する。
(項目1)
システムであって、
ウェアラブルヘッドセットおよびハンドヘルドコントローラを含む複合現実デバイスと、
ハードウェアコンピュータプロセッサと、
非一過性コンピュータ可読媒体であって、前記非一過性コンピュータ可読媒体は、その上に記憶されたソフトウェア命令を有しており、前記ソフトウェア命令は、前記システムに動作を実施させるように、前記ハードウェアコンピュータプロセッサによって実行可能であり、前記動作は、
結像デバイスから、基板上に複数の基準マーカを含む画像にアクセスすることと、
多段階のエンコーディングを前記画像に適用し、低減された次元を伴うエンコーディングされた画像を生成することと、
第1のニューラルネットワークを前記エンコーディングされた画像に適用し、前記エンコーディングされた画像内の基準マーカの2次元場所を決定することと、
第2のニューラルネットワークを前記エンコーディングされた画像に適用し、前記エンコーディングされた画像内で検出された個別の基準マーカと関連付けられる識別子を決定することと、
少なくとも、前記基準マーカの決定された2次元場所および前記基準マーカの決定された識別子に基づいて、前記結像デバイスの姿勢を決定することと
を含む、非一過性コンピュータ可読媒体と
を備える、システム。
(項目2)
前記結像デバイスの姿勢は、n点透視アルゴリズムの適用に基づいて決定される、項目1に記載のシステム。
(項目3)
前記姿勢はさらに、前記結像デバイスの1つ以上の固有のパラメータに基づいて決定される、項目1に記載のシステム。
(項目4)
前記動作はさらに、
前記第1のニューラルネットワークから、前記エンコーディングされた画像の第1の複数の画像パッチを出力することと、
前記第1の複数の画像の各々に対し、サブピクセル位置特定アルゴリズムの適用に基づいて、対応する複数のサブピクセルコーナーを決定することと
を含む、項目1に記載のシステム。
(項目5)
前記サブピクセルコーナーは、前記エンコーディングされた画像の分解能の倍数における場所を示す、項目4に記載のシステム。
(項目6)
前記結像デバイスの姿勢を決定することはさらに、前記決定されたサブピクセルコーナーに基づく、項目4に記載のシステム。
(項目7)
前記基準マーカは、ChArUcoマーカである、項目1に記載のシステム。
(項目8)
前記多段階のエンコーディングは、1つ以上の最大プーリング層を含む、項目1に記載のシステム。
(項目9)
前記画像の空間次元は、前記エンコーディングされた画像内で8分の1に低減される、項目8に記載のシステム。
(項目10)
画像パッチの量は、前記画像内の基準マーカの最大量に基づく、項目1に記載のシステム。
(項目11)
前記結像デバイスは、ウェアラブル拡張現実ヘッドセットのカメラを備える、項目1に記載のシステム。
(項目12)
前記ウェアラブル拡張現実ヘッドセットによって表示される仮想コンテンツは、少なくとも部分的に、前記結像デバイスの決定された姿勢に基づいて決定される、項目11に記載のシステム。
(項目13)
前記エンコーディングされた画像内の基準マーカの2次元場所は、前記基板上の複数の基準マーカ場所の各々に対し、複数の基準マーカの各々が前記基準マーカ場所にある確率を含む、項目1に記載のシステム。
(項目14)
前記複数の基準マーカ場所の各々は、各々が前記基板と関連付けられるエンコーディングされた画像の異なる部分である、項目13に記載のシステム。
(項目15)
前記エンコーディングされた画像内の基準マーカと関連付けられる決定された識別子は、前記基板上の複数の基準マーカ場所の各々に対し、複数の識別子の各々が前記基準マーカ場所においてエンコーディングされる確率を含む、項目1に記載のシステム。
(項目16)
カメラの決定された姿勢のためのシステムであって、前記システムは、
エンコーダであって、前記エンコーダは、拡張現実ヘッドセットから入手された画像の空間ダウンサンプリングを実施するように構成される、エンコーダと、
2ヘッド畳み込みニューラルネットワークであって、
第1のヘッドであって、前記第1のヘッドは、前記ダウンサンプリングされた画像内の基準ボードの2次元場所を検出するように構成される、第1のヘッドと、
第2のヘッドであって、前記第2のヘッドは、前記ダウンサンプリングされた画像内の基準ボードの検出された2次元場所においてエンコーディングされた識別子を決定するように構成される、第2のヘッドと
を含む、2ヘッド畳み込みニューラルネットワークと、
サブピクセル精緻化コンポーネントであって、前記サブピクセル精緻化コンポーネントは、入力として、前記ダウンサンプリングされた画像の画像パッチをとり、各画像パッチに対し、サブピクセルコーナー場所を出力するように構成される、サブピクセル精緻化コンポーネントと、
姿勢推定コンポーネントであって、前記姿勢推定コンポーネントは、少なくとも前記検出された2次元場所および前記サブピクセルコーナー場所に基づいて、拡張現実ヘッドセットの姿勢を決定するように構成される、姿勢推定コンポーネントと
を備える、システム。
(項目17)
前記空間ダウンサンプリングは、1つ以上のプーリング層を含む、項目16に記載のシステム。
(項目18)
複数のビデオシーケンスに基づいて、前記2ヘッド畳み込みニューラルネットワークを訓練するように構成される訓練コンポーネントをさらに備え、前記ビデオシーケンスの各フレームは、合成歪曲を受ける、項目16に記載のシステム。
(項目19)
前記合成歪曲は、ランダムに選択され、複数の合成歪曲の各々の所望の割合を達成する、項目18に記載のシステム。
(項目20)
前記合成歪曲は、
追加ガウス雑音、
モーションブラー、
ガウスぼかし、
スペックル雑音、
明度再スケーリング、
陰影またはスポットライト効果、または
ホモグラフィ変換
のうちの1つ以上のものを含む、項目19に記載のシステム。
(項目21)
前記訓練コンポーネントはさらに、各々が中心部分内に1つのグラウンドトゥルースコーナーを伴う複数の画像に基づいて、前記姿勢推定コンポーネントを訓練するように構成される、項目18に記載のシステム。
(項目22)
前記画像の中心部分は、前記画像のピクセルの50パーセント未満である、項目21に記載のシステム。
(項目23)
コンピュータ化された方法であって、前記コンピュータ化された方法は、コンピューティングシステムによって実施され、前記コンピューティングシステムは、1つ以上のハードウェアコンピュータプロセッサと、1つ以上の非一過性コンピュータ可読記憶デバイスとを有し、前記1つ以上の非一過性コンピュータ可読記憶デバイスは、前記コンピュータ化された方法を実施するためにコンピューティングシステムによって実行可能なソフトウェア命令を記憶しており、前記コンピュータ化された方法は、
結像デバイスから、基板上に複数の基準マーカを含む画像にアクセスすることと、
多段階のエンコーディングを前記画像に適用し、低減された次元を伴うエンコーディングされた画像を生成することと、
第1のニューラルネットワークを前記エンコーディングされた画像に適用し、前記エンコーディングされた画像内の基準マーカの2次元場所を決定することと、
第2のニューラルネットワークを前記エンコーディングされた画像に適用し、前記エンコーディングされた画像内で検出された個別の基準マーカと関連付けられる識別子を決定することと、
少なくとも、前記基準マーカの決定された2次元場所および前記基準マーカの決定された識別子に基づいて、前記結像デバイスの姿勢を決定することと
を含む、方法。
(項目24)
前記結像デバイスの姿勢は、n点透視アルゴリズムの適用に基づいて決定される、項目23に記載の方法。
(項目25)
前記姿勢はさらに、前記結像デバイスの1つ以上の固有のパラメータに基づいて決定される、項目23に記載の方法。
(項目26)
前記第1のニューラルネットワークから、前記エンコーディングされた画像の第1の複数の画像パッチを出力することと、
前記第1の複数の画像の各々に対し、サブピクセル位置特定アルゴリズムの適用に基づいて、対応する複数のサブピクセルコーナーを決定することと
をさらに含む、項目23に記載の方法。
(項目27)
前記サブピクセルコーナーは、前記エンコーディングされた画像の分解能の倍数における場所を示す、項目26に記載の方法。
(項目28)
前記結像デバイスの姿勢を決定することはさらに、前記決定されたサブピクセルコーナーに基づく、項目23に記載の方法。
(項目29)
前記基準マーカは、ChArUcoマーカである、項目23に記載の方法。
(項目30)
前記多段階のエンコーディングは、1つ以上の最大プーリング層を含む、項目23に記載の方法。
(項目31)
前記画像の空間次元は、前記エンコーディングされた画像内で8分の1に低減される、項目30に記載の方法。
(項目32)
画像パッチの量は、前記画像内の基準マーカの最大量に基づく、項目23に記載の方法。
(項目33)
前記結像デバイスは、ウェアラブル拡張現実ヘッドセットのカメラを備える、項目23に記載の方法。
(項目34)
前記ウェアラブル拡張現実ヘッドセットによって表示される仮想コンテンツは、少なくとも部分的に、前記結像デバイスの決定された姿勢に基づいて決定される、項目33に記載の方法。
(項目35)
前記エンコーディングされた画像内の基準マーカの2次元場所は、前記基板上の複数の基準マーカ場所の各々に対し、複数の基準マーカの各々が前記基準マーカ場所にある確率を含む、項目23に記載の方法。
(項目36)
前記複数の基準マーカ場所の各々は、各々が前記基板と関連付けられるエンコーディングされた画像の異なる部分である、項目35に記載の方法。
(項目37)
前記エンコーディングされた画像内の基準マーカと関連付けられる決定された識別子は、前記基板上の複数の基準マーカ場所の各々に対し、複数の識別子の各々が前記基準マーカ場所においてエンコーディングされる確率を含む、項目23に記載の方法。
(項目38)
コンピュータ化された方法であって、前記コンピュータ化された方法は、コンピューティングシステムによって実施され、前記コンピューティングシステムは、1つ以上のハードウェアコンピュータプロセッサと、1つ以上の非一過性コンピュータ可読記憶デバイスとを有し、前記1つ以上の非一過性コンピュータ可読記憶デバイスは、前記コンピュータ化された方法を実施するためにコンピューティングシステムによって実行可能なソフトウェア命令を記憶しており、前記コンピュータ化された方法は、
拡張現実ヘッドセットから入手された画像の空間ダウンサンプリングを実施することと、
前記ダウンサンプリングされた画像内の基準ボードの2次元場所を検出することと、
前記ダウンサンプリングされた画像内の基準ボードの検出された2次元場所においてエンコーディングされた識別子を決定することと、
入力として、前記ダウンサンプリングされた画像の画像パッチをとり、各画像パッチに対し、サブピクセルコーナー場所を出力することと、
少なくとも、前記検出された2次元場所および前記サブピクセルコーナー場所に基づいて、前記拡張現実ヘッドセットの姿勢を決定することと
を含む、方法。
(項目39)
前記空間ダウンサンプリングは、1つ以上のプーリング層を含む、項目38に記載の方法。
(項目40)
複数のビデオシーケンスに基づいて、2ヘッド畳み込みニューラルネットワークを訓練することをさらに含み、前記ビデオシーケンスの各フレームは、合成歪曲を受ける、項目38に記載の方法。
(項目41)
前記合成歪曲は、ランダムに選択され、複数の合成歪曲の各々の所望の割合を達成する、項目40に記載の方法。
(項目42)
前記合成歪曲は、
追加ガウス雑音、
モーションブラー、
ガウスぼかし、
スペックル雑音、
明度再スケーリング、
陰影またはスポットライト効果、または
ホモグラフィ変換
のうちの1つ以上のものを含む、項目41に記載の方法。
(項目43)
各々が中心部分内に1つのグラウンドトゥルースコーナーを伴う複数の画像に基づいて、前記姿勢推定コンポーネントを訓練することをさらに含む、項目40に記載の方法。
(項目44)
前記画像の中心部分は、前記画像のピクセルの50パーセント未満である、項目43に記載の方法。
本明細書に説明される主題の1つ以上の実装の詳細が、付随の図面および以下の説明に記載される。他の特徴、側面、および利点は、説明、図面、および請求項から明白となるであろう。本概要または以下の詳細な説明のいずれも、本発明の主題の範囲を定義または限定することを主張するものではない。
図面全体を通して、参照番号は、参照される要素間の対応を示すために再使用される。以下の図面および関連付けられる説明は、本開示の実施形態を図示するために提供され、請求項の範囲を限定するものではない。
図面は、本開示の種々の実施形態の設計および有用性を図示する。図は、正確な縮尺で描かれておらず、類似構造または機能の要素は、図全体を通して同様の参照番号によって表されることに留意されたい。上記に列挙されたものおよび本開示の種々の実施形態の他の利点および目的を取得する方法をより深く理解するために、上記に簡単に説明される本開示のさらなる詳細な説明が、付随の図面に図示される、その具体的実施形態を参照することによって与えられるであろう。これらの図面は、本開示の典型的実施形態のみを描写し、したがって、その範囲の限定と見なされないことを理解した上で、本開示は、付随の図面の使用を通して、付加的特異性および詳細とともに、説明および解説されるであろう。
図1は、姿勢推定深層ニューラルネットワーク(本明細書では、「深層ChArUco」または「DNN」とも称される)の概要を図示する、ブロック図である。
図2は、複数のArUcoマーカをチェッカーボード正方形間に含む、例示的ChArUcoボードを図示する。
図3A-3Cは、単一ChArUcoボードを定義するために使用され得る、パターン内の例示的潜在的構造を図示する。
図4は、例示的DNNのさらなる詳細を図示する、ブロック図である。
図5は、例示的ChArUco訓練セットからの画像を図示する。
図6は、40枚の例示的訓練画像パッチを図示する。
図7は、試験評価データセットからの3つの例示的フレームを図示する。
図8は、合成モーションブラー試験の結果を図示する、グラフである。特に、モーションブラーの量を増加させながらの、上記の試験セットからの20枚のランダム画像上のDNNとOpenCVとの間の平均検出正確度を図示する。
図9は、合成照明試験の結果を図示する、グラフであって、合成的に作成された異なる照明条件下での両検出器を比較したものである。
図10は、正しい姿勢対姿勢正確性閾値の割合(再投影誤差によって測定される)を図示する、プロットである。
図11は、VR、AR、またはMR体験をディスプレイシステム装着者または視認者に提示するために使用され得る、ウェアラブルディスプレイシステムの実施例を図示する。
(緒言)
ChArUcoボード等の光学基準は、コンピュータビジョンおよび拡張現実におけるカメラ較正、姿勢推定、および照合のために使用される。本明細書に説明されるものは、画像内の光学基準の姿勢推定を提供する、n点透視(PnP)アルゴリズムと組み合わせられる、2ヘッド深層ニューラルネットワークを含む、リアルタイム姿勢推定システムである。第1のニューラルネットワークは、畳み込みエンコーダと、ID特有の分類子および2D点場所を出力する、2ヘッドマーカ特有畳み込みニューラルネットワーク(CNN)とを含む。サブピクセル精緻化が、次いで、2D点場所をサブピクセル座標に精緻化する。最後に、姿勢推定システムアルゴリズムが、入力画像内のマーカ姿勢を決定する。有利なこととして、深層ニューラルネットワークは、低光量、高運動、および/または高ぼけシナリオにおいて良好に機能する。
(用語)
本明細書で議論されるシステムおよび方法の理解を促進するために、いくつかの用語が、下記に説明される。下記に説明される用語および本明細書で使用される他の用語は、提供される説明、用語の通常および慣習的意味、および/またはそのような構造が用語の文脈と一致する、個別の用語のための任意の他の含意される意味を含むと解釈されるべきである。したがって、下記の説明は、これらの用語の意味を限定するものではなく、例示的説明のみを提供する。
基準(またはマーカ):ユニークであって、6DoF姿勢推定のための十分な点を有する、コンピュータビジョンに有用な2Dパターン。マーカの実施例は、ArUcoマーカおよびChArUcoマーカを含む。
OpenCV(オープンソースコンピュータビジョンライブラリ):オープンソースコンピュータビジョンおよび機械学習ソフトウェアライブラリ(例えば、https://opencv.org/about参照)。
ArUcoマーカ:コンピュータビジョンシステムによって検出され得、カメラ姿勢推定のために使用可能である、正方形基準マーカ。例えば、ArUcoマーカは、黒色境界線と、マーカの識別子(id)をエンコーディングする、内側バイナリ行列とを伴う、正方形であり得る。
マーカ検出:マーカ候補検出段階に続いて、各マーカ候補のコンテンツをデコーディングし、それが実際にマーカであるかどうかを決定するステップを含み得る。
姿勢推定:画像内の1つ以上のマーカを検出後、カメラ姿勢が、推定され得る。いくつかの実装では、カメラの較正パラメータ(例えば、カメラ行列および歪曲係数)が、姿勢推定において使用されてもよい。
基準(またはマーカ)ボード:それがカメラに関する単一姿勢を提供するという意味において、単一マーカとして作用する、マーカのセット。マーカを参照したカメラ姿勢は、マーカ座標系からカメラ座標系への3D変換である。姿勢は、回転および平行移動ベクトルを用いて規定されてもよい。マーカボードの使用を通して、姿勢推定は、いくつかのみのマーカが姿勢推定を実施するために必要であるため、より多用途となる。したがって、姿勢は、オクルージョンまたは部分的ビューの存在下でも計算されることができる。故に、取得される姿勢は、通常、より大量の点対応(マーカコーナー)が採用されるため、より正確である。
ChArUcoボード:エンコーディングされた識別子を伴う、複数の基準を含む、基板(例えば、紙)。ChArUcoボードは、ArUcoボードの多用途性とチェスボードパターンを用いて達成される高コーナー精緻化正確度を組み合わせ、あまり制限的ではないカメラ較正プロシージャを提供する。ArUcoマーカおよびボードは、サブピクセル精緻化を適用後でも、そのコーナー位置の限定された正確度を有する。しかしながら、チェスボードパターンのコーナーは、各コーナーが2つの黒色正方形によって囲繞されるため、より正確に精緻化されることができるが、チェスボードパターンを識別することは、それが、完全に可視である必要があり、オクルージョンが許容されないため、ArUcoボードを見出すことほど多用途ではない。ChArUcoボードは、ArUcoおよびチェスボードパターンの利点を組み合わせる。
姿勢推定:画像内の3D点およびその対応する2D投影のセットからオブジェクト姿勢を決定する、アルゴリズム。例えば、n点透視アルゴリズム等の姿勢推定アルゴリズムは、オブジェクト座標フレーム内で表される3D点をカメラ座標フレームに変換する、回転および平行移動ベクトルを決定し得る。
(例示的ニューラルネットワーク)
深層ニューラルネットワーク(DNN)等のニューラルネットワーク(NN)の層は、線形または非線形変換をその入力に適用し、その出力を生成することができる。深層ニューラルネットワーク層は、正規化層、畳み込み層、ソフトサイン層、正規化線形層、連結層、プーリング層、再帰層、インセプション様層、または任意のそれらの組み合わせであることができる。正規化層は、その入力の明度を正規化し、例えば、L2正規化を用いて、その出力を生成することができる。正規化層は、例えば、複数の画像の明度を相互に対して一度に正規化し、複数の正規化された画像をその出力として生成することができる。明度を正規化するための方法の非限定的実施例は、ローカルコントラスト正規化(LCN)またはローカル応答正規化(LRN)を含む。ローカルコントラスト正規化は、ピクセルベースで画像のローカル領域を正規化し、ゼロの平均値および1の発散値(または平均値および発散値の他の値)を有することによって、画像のコントラストを非線形に正規化することができる。ローカル応答正規化は、ローカル入力領域にわたって画像を正規化し、ゼロの平均値および1の発散値(または平均値および発散値の他の値)を有することができる。正規化層は、訓練プロセスを加速させ得る。
畳み込み層は、その入力を畳み込み、その出力を生成する、カーネルのセットを適用することができる。ソフトサイン層は、ソフトサイン関数をその入力に適用することができる。ソフトサイン関数(softsign(x))は、例えば、(x/(1+|x|))であることができる。ソフトサイン層は、要素毎誤対応の影響を無視してもよい。正規化線形層は、正規化線形層ユニット(ReLU)またはパラメータ化された正規化線形層ユニット(PReLU)であることができる。ReLU層は、ReLU関数をその入力に適用し、その出力を生成することができる。ReLU関数ReLU(x)は、例えば、max(0,x)であることができる。PReLU層は、PReLU関数をその入力に適用し、その出力を生成することができる。PReLU関数PReLU(x)は、例えば、x≧0である場合、xであって、x<0である場合、axであることができ、aは、正の数であることができる。連結層は、その入力を連結し、その出力を生成することができる。例えば、連結層は、4つの5×5画像を連結し、1つの20×20画像を生成することができる。プーリング層は、プーリング関数を適用することができ、これは、その入力をダウンサンプリングし、その出力を生成する。例えば、プーリング層は、20×20画像を10×10画像にダウンサンプリングすることができる。プーリング関数の非限定的実施例は、最大プーリング、平均プーリング、または最小プーリングを含む。
時間点tでは、再帰層は、隠蔽状態s(t)を計算することができ、再帰接続は、時間点tにおける隠蔽状態s(t)を再帰層に後続時間点t+1における入力として提供することができる。再帰層は、時間点tにおける隠蔽状態s(t)に基づいて、時間点t+1においてその出力を計算することができる。例えば、再帰層は、ソフトサイン関数を時間点tにおける隠蔽状態s(t)に適用し、時間点t+1におけるその出力を計算することができる。時間点t+1における再帰層の隠蔽状態は、その入力として、時間点tにおける再帰層の隠蔽状態s(t)を有する。再帰層は、例えば、ReLU関数をその入力に適用することによって、隠蔽状態s(t+1)を計算することができる。インセプション様層は、正規化層、畳み込み層、ソフトサイン層、ReLU層およびPReLU層等の正規化線形層、連結層、プーリング層、または任意のそれらの組み合わせのうちの1つ以上のものを含むことができる。
NN内の層の数は、異なる実装では、異なり得る。例えば、下位層または中間層内の層の数は、50、100、200、またはそれを上回ることができる。深層ニューラルネットワーク層の入力タイプは、異なる実装では、異なり得る。例えば、層は、いくつかの層の出力をその入力として受信することができる。層の入力は、5つの層の出力を含むことができる。別の実施例として、層の入力は、NNの層の1%を含むことができる。層の出力は、いくつかの層の入力であることができる。例えば、層の出力は、5つの層の入力として使用されることができる。別の実施例として、層の出力は、NNの層の1%の入力として使用されることができる。
層の入力サイズまたは出力サイズは、非常に大きくなることができる。層の入力サイズまたは出力サイズは、n×mであることができ、nは、入力または出力の幅を示し、mは、高さを示す。例えば、nまたはmは、11、21、31、またはそれを上回ることができる。層の入力または出力のチャネルサイズは、異なる実装では、異なり得る。例えば、層の入力または出力のチャネルサイズは、4、16、32、64、128、またはそれを上回ることができる。層のカーネルサイズは、異なる実装では、異なり得る。例えば、カーネルサイズは、n×mであることができ、nは、カーネルの幅を示し、mは、高さを示す。例えば、nまたはmは、5、7、9、またはそれを上回ることができる。層のストライドサイズは、異なる実装では、異なり得る。例えば、深層ニューラルネットワーク層のストライドサイズは、3、5、7、またはそれを上回ることができる。
いくつかの実施形態では、NNは、NNの出力をともに計算する、複数のNNを指し得る。複数のNNの異なるNNは、異なるタスクのために訓練されることができる。プロセッサ(例えば、図11を参照して説明されるローカルデータ処理モジュール1124のプロセッサ)は、複数のNNのNNの出力を計算し、NNの出力を決定することができる。例えば、複数のNNのNNの出力は、尤度スコアを含むことができる。プロセッサは、複数のNNの異なるNNの出力の尤度スコアに基づいて、複数のNNを含む、NNの出力を決定することができる。
(例示的実施形態の概要)
関数、アルゴリズム、システム、および同等物等のデータ関係およびパターンを表す、モデルは、1つ以上の入力を受け取り、何らかの方法において、1つ以上の入力に対応する1つ以上の出力を生産し得る。例えば、モデルは、畳み込みニューラルネットワーク(CNN)または深層ニューラルネットワーク(DNN)等の機械学習方法として実装されてもよい。深層学習は、タスク特有アルゴリズムとは対照的に、学習データ表現の概念に基づく、機械学習方法のより広義の系統の一部であって、拡張現実、複合現実、仮想現実、および機械知能に有用な視聴覚計算問題を解く際、著しい有望性を示す。機械学習では、畳み込みニューラルネットワーク(CNNまたはConvNet)は、深層フィードフォワード人工ニューラルネットワークのクラスを含むことができ、CNNは、視覚的画像の分析の適用に成功を収めている。機械学習方法は、眼画像セグメント化および眼追跡を含む、様々な問題に対するロバストかつ正確なソリューションを有効にし得る、方法の系統を含む。
疎点表現が、最初に、少数の固定され、かつユニークなパターンを世界内に設置することによって、世界を再構築するために使用され得る、同時位置特定およびマッピング(例えば、入力が画像/視覚のみである、構成を参照する、SLAMまたはvSLAM)の出力であり得る。較正されたカメラの姿勢は、いったん少なくとも1つのマーカが検出されると、推定されることができる。しかしながら、標準的ChArUcoマーカ検出システムは、脆弱であり得る。したがって、本明細書に説明されるものは、深層ニューラルネットワークに基づく、最先端の深層ChArUcoマーカ検出器のためのシステムおよび方法である。
図1は、未加工画像を分析し、多段階分析を通して、カメラ(例えば、図11に図示されるような複合現実システム内のウェアラブルヘッドセットの一部である、カメラ)の推定姿勢を計算するように構成される、姿勢推定深層ニューラルネットワーク(本明細書では、「深層ChArUco」または「DNN」とも称される)の概要を図示する、ブロック図である。
図1の実施形態では、DNN105は、単一画像(および/または一連の画像)からのChArUcoマーカ姿勢推定のためのエンドツーエンドシステムである。本例示的実装では、DNN105は、2ヘッド畳み込みニューラルネットワーク(または「2HCNN」)102(例えば、点検出のため)、サブピクセル精緻化コンポーネント103(例えば、サブピクセル精緻化のため)、および姿勢推定コンポーネント104(例えば、姿勢推定のため)を含む。例えば、2HCNN102は、ChArUcoマーカを識別し、2D場所分類子およびマーカIDを出力するように構成される、ニューラルネットワークを含んでもよく、サブピクセル精緻化コンポーネント103は、RefineNetアルゴリズムを含んでもよく、姿勢推定コンポーネント104は、PnPアルゴリズムを含んでもよい。いくつかの実施形態では、他のニューラルネットワークおよびアルゴリズムが、本明細書で議論されるニューラルネットワークおよびアルゴリズムの代わりに、またはそれに加え、使用されてもよい。
本明細書で議論されるものは、従来的コンピュータビジョン技法がChArUcoマーカを検出することに失敗し得る、いくつかのシナリオと、DNN105(または「深層ChArUco」)を深層畳み込みニューラルネットワークシステムとして利用し得る、ChArUcoマーカ検出および姿勢推定のために正確かつロバストであるように訓練され得る、新しい技法である。
本明細書で議論されるある実施形態によって実現され得る、革新および利点のうちのいくつかは、以下を含む。
・例えば、極限照明および運動条件下でのChArUcoパターン検出のロバスト性および正確度を改良する、リアルタイムマーカ検出器。
・例えば、点ID分類(例えば、2HCNN102)およびサブピクセル精緻化(例えば、サブピクセル精緻化103)のための2つのニューラルネットワークアーキテクチャ。
・例えば、自動標識化画像および合成データ生成を伴う、訓練データセット収集レシピ。
上記に述べられたように、ChArUcoボードは、ArUcoマーカが白色正方形の内側に内蔵される、チェスボードである。図2は、ArUcoマーカ201(マーカ201a-201nを含む)をチェッカーボード正方形202(正方形202a-202nを含む)間に含む、例示的ChArUcoボードを図示する。いくつかの実施形態では、マーカ201は、ARTaGまたはAprilTag等の他のタイプのマーカであってもよい。
ChArUco検出器は、最初に、個々のArUcoマーカを検出するであろう。検出されたArUcoマーカは、所定のボードレイアウトに基づいて、チェスボードコーナーの位置を補間および精緻化するために使用される。ChArUcoボードは、概して、10個以上の点(図2の実施例は、12個のマーカ201を含む)を有するであろうため、ChArUco検出器は、姿勢推定のために使用されるとき、オクルージョンまたは部分的ビューを可能にする。OpenCV方法を使用することで、所与のChArUcoボードの検出は、ユニークな識別子と関連付けられる、各チェスボードの内側コーナーを検出することと同等である。
本明細書で議論される実施例では、5×5ChArUcoボードが、DICT_5x5_50ArUco辞書の最初の12個の要素を含有する。いくつかの実施形態では、各4×4チェスボードの内側コーナーは、DNNの1つの目標が、これらのユニークな16個のコーナーおよびIDを検出する(またはそれらのうちの可能な限り多くのものを検出する)ことであるように、0~15に及ぶ、ユニークなIDを割り当てられてもよい。
図3A-3Cは、単一ChArUcoボードを定義するために使用され得る、パターン内の例示的潜在的構造を図示する。例えば、図3Aは、チェッカーボードの各コーナーにおけるID(合計6×6=36個のIDのため)を図示し、図3Bは、それぞれ、IDと関連付けられる、マーカの内部(合計12個のIDのため)を図示し、図3Cは、チェッカーボード正方形およびマーカの内側3×3グリッドの各コーナーと関連付けられる、ID(合計4×4=16個のIDのため)を図示する。IDは、図3Cの実施例における左下コーナーのid0から右上コーナーのid15等、インデックスと関連付けられてもよい。
(オブジェクト検出のための深層ネットワーク)
深層CNNの実施例は、例えば、YOLO、SSD、FasterRCNN、および同等物を含む。これらのシステムは、適正なマルチカテゴリオブジェクト検出結果を取得し得るが、結果として生じる境界ボックスは、典型的には、姿勢推定、特に、拡張現実、仮想現実、複合現実、および同等物のために必要な高品質6DoF姿勢推定の種類のためには好適ではない。
(特徴点推定のための深層ネットワーク)
特徴点ベースのニューラルネットワークは、通常、完全畳み込みであって、検出されたオブジェクトの骨組状の点のセットを返す。特徴点推定のための深層ネットワークは、例えば、人間の姿勢推定において使用されてもよい。2D画像内のより小さいが十分な数の3D点が、繰り返し検出され得る限り、姿勢推定が、実施され(PnPアルゴリズムを使用すること等によって)、カメラ姿勢を復元することができる。間接的にもかかわらず、特徴点ベースの方法は、ハイブリッド深層(点検出のため)および古典的(姿勢推定のため)システムを使用して、姿勢を復元する能力を可能にする。大部分の特徴点推定深層ネットワークの1つの主要な限界は、砂時計型ネットワークにおける高価なアップサンプリング動作のため、それらが低速すぎることである。技法の別の関連クラスは、顔、身体骨格、および手等の人間の特徴点検出のために設定されるものである。
(特徴点検出のための例示的深層ネットワーク)
本議論に関連する深層学習ベースの技法の最後のクラスは、深層特徴点検出システム、すなわち、SIFTおよびORBのような古典的システムのための深層置換である、方法である。SuperPointシステムのような深層CNNが、共同特徴点および記述子算出のために使用されてもよい。SuperPointは、学習不変特徴変換(LIST)のような着目点システムのための以前の深層学習の内部で複数の深層モジュールの役割を実施する、単一リアルタイム統合CNNである。SuperPointネットワークは、リアルタイム用途のために設計されるため、それらは、DNN検出器のある実施形態のための1つの可能性として考えられる開始点である。
(例示的深層ニューラルネットワーク(「深層ChArUco」):ChArUco検出および姿勢推定のためのシステム)
下記に説明されるものは、ChArUcoマーカ検出のために使用され得る、完全CNNの実装である。いくつかの実施形態では、DNN(例えば、図1のDNN105)は、ChArUcoマーカ点識別に特有のカスタムヘッドを含むように修正される、SuperPointの拡張であり得る。したがって、DNNは、ChArUcoマーカ検出のためのマルチヘッドSuperPoint変形を含む。
いくつかの実施形態では、SuperPoint用途において行われ得るような記述子ヘッドを使用する代わりに、直接、コーナー特有の点IDに回帰する、IDヘッドが、使用されてもよい。SuperPointと同一点位置特定ヘッドが、オリジナル画像内の各8×8ピクセル領域に対し、ピクセル場所にわたる分布を出力するために使用されてもよい。これは、明示的デコーダを使用せずに、完全画像分解能における点場所の検出を可能にする。
一般に、点IDを定義するための複数の方略が存在する(図3参照)。便宜上、本明細書における実施例は、点位置特定のための内部チェスボードコーナーの4×4グリッドを使用し、図3Cに図示されるような合計16個の異なる点IDが検出されることを前提とする。
図4は、例示的DNNのさらなる詳細を図示する、ブロック図である。本実施例では、未加工画像が、最初に、2ヘッドCNN102によって、次いで、サブピクセル精緻化103によって処理される。いくつかの実施形態では、2ヘッドCNNは、具体的ChArUcoボードを検出するためのSuperPoint状ネットワークである。しかしながら、記述子ヘッドの代わりに、点ID分類子ヘッドが、使用される。したがって、ネットワークヘッドのうちの1つは、X内のChArUcoボードの2D場所を検出し、第2のヘッドは、C内のものを分類する。両ヘッドは、セルあたり分布を出力し、各セルは、例えば、ピクセルの8×8領域である。本実施例では、16個のユニークな点IDが、5×5ChArUcoボードのために使用されてもよい。2HCNN102の出力はさらに、サブピクセル精緻化103を介して精緻化され、サブピクセル場所を取得する。
いくつかの実施形態では、ID分類ヘッドは、17個の可能性にわたる分布を出力してもよい。例えば、セルは、16個のコーナーIDまたは付加的「ダストビン」または「上記以外の」クラスのうちの1つに属し得る。これは、OpenCVおよび深層ニューラルネットワーク技法の両方とも、同一の16個のChArUcoボード特有の点を位置特定するように試みるため、他の方法、例えば、OpenCV方法との直接比較を可能にする。
(例示的2ヘッドニューラルネットワークアーキテクチャ)
いくつかの実施形態、例えば、図4の実装では、2HCNN102アーキテクチャは、SuperPointネットワークにおける記述子ヘッドがChArUco ID分類ヘッドCと置換されるという重要な例外を伴って、SuperPointアーキテクチャのものに類似する。
2HCNN102は、VGG式エンコーダを使用して、画像の次元を低減させてもよい。エンコーダは、3×3畳み込み層、プーリングを介した空間ダウンサンプリング、および/または非線形活性化関数を含んでもよい。本実施例では、3つの最大プーリング層が存在し、それぞれ、入力の空間次元を2分の1に低減させ、合計8分の1の空間低減をもたらす。共有エンコーダは、空間寸法H×Wを伴う特徴を出力する。画像サイズH×Wに関して、H=H/8およびW=W/8と定義する。
本例示的実装では、特徴点検出器ヘッドは、テンソル
を出力する。Nは、検出されることになるChArUco点の数とする(例えば、4×4ChArUcoグリッドに関して、N=16)。ChArUco ID分類ヘッドは、N個のクラスおよびダストビンクラスにわたって、分類テンソル
を出力し、合計N+1個のクラスをもたらす。いくつかの実施形態では、2HCNN102加重は、4:8メガバイトをとり、2HCNN102は、NVIDIA(登録商標)GeForce GTX1080GPUを使用して、約100fpsまたはそれを上回って、320×240サイズの画像を処理することが可能である。
(例示的サブピクセル精緻化ネットワークアーキテクチャ)
サブピクセル位置特定が、検出された整数コーナー場所をサブピクセルコーナー場所に精緻化することによって、姿勢推定品質を改良するために実施されてもよい。いくつかの実施形態では、これは、サブピクセル座標を生産するように訓練される、RefineNetおよび/または他の深層ネットワークを使用して実施されてもよい。例えば、RefineNetは、入力として、24×24画像パッチをとり、中心8×8領域の分解能の8倍において、単一サブピクセルコーナー場所を出力し得る。サブピクセル精緻化は、8倍の拡大された中心領域にわたって、ソフトマックス分類を実施し、64×64サブピクセル領域の内側のピークを見出し得る(例えば、4,096通りの分類問題)。いくつかの実施形態では、加重は、最終4,096Dマッピングの前に、128D活性化を8Dに変換する、ボトルネック層に起因して、4.1メガバイトのみを占有する。いくつかの実施形態では、2ヘッド2HCNN102の両ヘッドは、SuperPointと同一または類似VGGベースのバックボーンを使用してもよい。本実施形態では、単一の結像されたChArUcoパターンに関して、最大で16個のコーナーが検出され、したがって、サブピクセル精緻化103を使用することは、24×24入力を伴うネットワーク上の16回の付加的順方向通過と同程度に高価である。
(例示的姿勢推定)
2D点場所および既知の物理的マーカサイズのセットを前提として、PnPアルゴリズム等の姿勢推定アルゴリズムが、カメラを参照してChArUco姿勢を算出するために使用されてもよい。例えば、PnPアルゴリズムは、カメラがデータを収集する前に較正され得るように、カメラ固有性質である、Kの知識を要求する。試験では、カメラは、再投影誤差が0.15ピクセルを下回るまで較正されてもよい。OpenCVのsolvePnPRansacが、次いで、最終姿勢を推定するために、およびOpenCVベースラインにおいて使用されてもよい。
(例示的訓練データセット)
下記に提供されるものは、開示されるDNNシステムを用いて実装された、例示的結果、比較、および訓練実施例である。これらの実施例は、訓練が実施され得る方法の例証として、従来のシステムに優る開示されるDNNシステムの有利な用途を例示するために提供される。
本明細書に提供される実施例では、2つのChArUcoデータセットが、DNNシステムを訓練および評価するために使用される。第1のデータセットは、多様性に焦点を当て、ChArUco検出器を訓練するために使用される(例えば、図5参照)。第2のデータセットは、短ビデオシーケンスを含有し、これは、照明の関数として、システム性能を評価するように設計される(例えば、図7参照)。
(例示的訓練データ)
各ビデオ内のランダムであるが静的姿勢におけるChArUcoパターンを伴う、22個の短ビデオシーケンスが、カメラから収集された。ビデオのうちのいくつかは背景変化を伴うモニタにテープ留めされた、ChArUcoボードを含み、他のシーケンスは、照明変化を伴う(良好な照明から開始する)。本実施例では、ビデオフレームは、320×240の分解能を伴う正のデータセットの中に抽出され、合計7,955個のグレースケールフレームをもたらした。本実施例では、各ビデオシーケンスは、良好な照明の少なくとも30フレームから開始する。各ビデオのグラウンドトゥルースが、OpenCV検出器が運動および良好な照明を伴わずに適正に機能するため、古典的OpenCV方法を使用して、最初の30フレームの平均から自動標識される。
本実施例では、負のデータセットは、MS-COCOデータセットからの82,783枚の汎用画像と、研究室内で収集された8,623個のビデオフレームとを含む、合計91,406枚の画像を含む。研究室内データは、標準的チェスボードの画像を含み、これは、全体的モデルロバスト性を改良するために負の対応物に追加された。
「他の」ChArUcoマーカ(例えば、図2に描写される標的マーカと異なる)を描写するビデオからのフレームもまた、収集された。これらのビデオに関して、分類子IDは、負の対応物として取り扱われたが、コーナー場所は、「無視」として取り扱われた。
図5は、例示的ChArUco訓練セットからの画像を図示する。これらの画像は、データ拡張(本明細書で議論される)前後の両方のChArUcoデータセット訓練実施例の表現である。
(例示的データ拡張)
いくつかの実施形態では、データ拡張は、入力データセットの多様性を増加させる、訓練段階の間、表1(下記)に示されるようなある確率下で、各フレームおよび/または合成歪曲のランダム組み合わせのセットへのランダムホモグラフィ変換を含んでもよい。適用される歪曲効果の順序および範囲は、各フレームに対し、ランダムに選択されてもよい。例えば、図5は、訓練シーケンスからのフレーム(上行)と、歪曲のセットを伴う拡張(下行)とを示す。
(サブピクセル精緻化のための例示的訓練データ(例えば、RefineNet))
例示的試験では、RefineNetが、合成的に生成されたコーナー画像の大規模データベースを使用して訓練された。各合成訓練画像は、24×24ピクセルであって、正確に1つのグラウンドトゥルースコーナーを中心8×8ピクセル領域内に含んだ。図6は、40個の例示的訓練画像パッチを図示する。
(例示的評価データ)
本例示的試験では、30Hzにおいて1,000フレームの26個のビデオが、Logitech(登録商標)ウェブカメラから捕捉された。図7は、試験評価データセットからの3つの例示的フレームを図示する。図7は、左から右に、照明(10ルクス)、陰影、およびモーションブラーに焦点を当てたフレームを図示する。試験実装では、セット内の各ビデオは、以下の効果のうちの1つに焦点を当てた。
・照明明度(10個の異なる照明構成を伴う20個のビデオ)
・陰影/スポットライト(3つのビデオ)
・モーションブラー(3つのビデオ)
(例示的評価および結果)
DNN検出器は、フレーム毎様式において、従来的OpenCVベースのChArUcoマーカ検出器と比較される。増加するぼけおよび照明変化(合成効果)下での画像の固定セットに関する16個のChArUcoマーカを検出する両システムの能力が、最初に、評価される。次いで、実際のシーケンス上で、ChArUcoボードの姿勢が、PnPアルゴリズムに基づいて推定され、姿勢の再投影誤差が閾値(典型的には、3ピクセル)を下回るかどうかを決定する。評価において使用されるメトリックは、本明細書に概略される。
(例示的コーナー検出正確度(場所およびID分類子の組み合わせられた正確度))
本評価の目的のために、コーナーは、場所がグラウンドトゥルースの3ピクセル半径内にあって、点IDがマーカID(例えば、ChArUco ID)に基づいて正しく識別されたとき、正しく検出されたと見なされる。コーナー検出正確度は、正確に検出されたコーナーの数と、マーカコーナーの総数、本実施例では、16との間の比である。平均正確度は、異なる静的姿勢を伴う20枚の画像を横断した検出正確度の平均として計算される。各画像フレーム内の姿勢推定正確度を定量的に測定するために、平均再投影誤差(re)が、下記に定義されるように使用される。
式中、Pは、ChArUco姿勢から算出された検出されたコーナーの3D場所を表す、固有のパラメータCを含有する、カメラ射影行列であり、ciは、画像内の対応するコーナーの2Dピクセル場所を示し、n(16)は、検出されたChArUcoコーナーの総数である。
本節では、合成効果下(その場合、効果の大きさが線形に変動される)のDNN検出器およびOpenCV検出器の全体的正確度が、比較される。最初の2つの実験は、サブピクセル精緻化(例えば、RefineNetを使用する)に依拠しない、2ヘッドCNN(例えば、ChArUcoNet)出力の正確度を評価することに照準が当てられる。20個の合成試験シナリオのそれぞれにおいて、開始点は、理想的環境、すなわち、良好な照明およびランダムな静的姿勢(例えば、最小モーションブラー)において撮影された画像であって、合成モーションブラーおよび暗化を徐々に追加する。
図8は、合成モーションブラー試験の結果を図示する、グラフである。特に、モーションブラーの量を増加させながらの上記の試験セットからの20枚のランダム画像上でのDNNとOpenCVとの間の平均検出正確度を図示する。特に、水平方向に沿ったモーションブラーフィルタが、可変カーネルサイズ(0~10)を用いて、オリジナル画像に適用され、異なるモーションブラー度をシミュレートした。図9に示されるように、平均検出正確度対モーションブラー度(例えば、カーネルサイズ)が、プロットされる。示されるように、DNNは、OpenCVアプローチと比較して、モーションブラー効果に対してはるかに強い。これらの試験では、図9に図示されるように、OpenCV方法は、カーネルサイズ2を上回ると失敗し始め、カーネルサイズ7およびより大きいものに関して、完全に失敗する(0%検出正確度)一方、DNNは、極限ぼけ(カーネルサイズ10)下でも、非常にわずかのみ劣化する(約94%検出正確度まで)。
図9は、合成照明試験の結果を図示する、グラフであって、合成的に作成された異なる照明条件下での両検出器が、比較される。特に、平均検出正確度が、DNNおよびOpenCVの各々に対し、0~10のkを伴う明度再スケーリング係数0.6を用いて、上記の試験セットからの20枚のランダム画像上で測定された。特に、オリジナル画像は、0.6の再スケーリング係数を用いて乗算され、増加する暗度をシミュレートする。増加された明度再スケーリングを伴う、11枚の画像のセットに関して(11番目の画像は、本質的に、黒色である)、OpenCV検出器は、11枚の画像の最初の4枚を正確に検出した一方、DNN方法は、11枚の画像の最初の10枚を正確に検出した。
図9は、平均検出正確度対暗度kをプロットする。示されるように、DNNは、明度が0.6~0.01倍に再スケーリングされるときでも、コーナーの50%を上回るものを含む、画像が「知覚的に黒色」である、多くの場合において、マーカを検出することが可能である一方、OpenCV検出器は、0.6~0.13の再スケーリング係数では、失敗する。
(実際のシーケンス上での例示的評価)
下記に説明されるものは、上記に議論されるそれらの評価データセット等の異なるシナリオにおいて捕捉された実際のビデオクリップにおける、両検出器の定質的測定正確度から取得される試験データである。極限照明および運動を有する画像上でのこれらの試験では、DNNは、OpenCV検出器より有意に優れている。全体として、DNNは、より多くの正しい特徴点を検出する(最小でも4つの対応が姿勢推定のために必要である)。
1つの実験では、評価が、合成効果を追加せずに、26個のビデオのデータセット内の全ての26,000フレームを横断して実施された。正しい姿勢対姿勢正確性閾値の割合(再投影誤差によって測定される)が、図10にプロットされる。全体として、DNNは、従来的OpenCV検出器と比較して、より高い検出レート(3ピクセル再投影誤差閾値を下回るOpenCVに関する68.8%に対して97.4%)およびより低い姿勢誤差を呈する。本実験における各シーケンスに対し、表2は、ChArUcoマーカ検出レート
および平均
を列挙する。
上記の表2に示されるように、RefineNetを伴い、OpenCVサブピクセル精緻化ステップを伴い、精緻化を伴わずに、320×240画像上で起動されたときの検出器の種々の構成に関するタイミング結果が、提供される。加えて、OpenCV検出器および精緻化のタイミング性能も、列挙される。
表2は、示される構成のそれぞれを使用した、320×240サイズの画像の平均処理速度を図示する。報告されるフレームレートは、上記に説明される評価ビデオを横断した平均である。実験は、NVIDIA(登録商標)GeForce GTX1080GPUを使用して実施される。2HCNNは、完全畳み込みであるため、算出またはメモリ要件に応じて、ネットワークを異なる画像分解能に適用することが可能である。より大きい分解能画像を伴って最良性能を達成するために、低分解能画像が、2HCNNを通して通過され、パターンを大まかに位置特定し、次いで、オリジナル高分解能画像内でサブピクセル精緻化を介して、サブピクセル位置特定を実施することができる。
1および0.3ルクスにおけるシーケンスに関して、画像は、暗すぎて、OpenCVは、姿勢を返すことができない。陰影を伴うシーケンスに関して、DNNは、OpenCVに関する36%と比較して、時間の100%において良好な姿勢を検出する。モーションブラーを伴うビデオに関して、DNNは、OpenCVに関する27%と比較して、時間の78%において機能する。3ルクス~700ルクスに及ぶ広範囲の「十分に明るい」シナリオに関して、DNNおよびOpenCVは両方とも、時間の100%において姿勢を正常に検出するが、DNNは、大部分のシーケンス上で若干低い再投影誤差
を有する。
(例示的DNNタイミング実験)
本時点で、DNNが極限照明条件下で良好に機能することが明白である。下記は、異なる要件を伴う用途シナリオのために有利であり得る、例示的構成オプションである。
・2HCNN+サブピクセル精緻化(例えば、RefineNet):本構成は、モーションブラー、低光量、および大結像雑音のような困難な条件下、改良された正確度を提供し得るが、最長後処理時間を伴う。
・2HCNN+cornerSubPix(例えば、コーナーのサブピクセル単位の正確な場所を微細化する、OpenCV関数):殆ど結像雑音を伴わない良好な照明環境における同等の正確度のために、本構成は、中程度の後処理時間を伴って推奨される。
・2HCNN+精緻化なし:本構成は、ChArUcoパターンの大まかな姿勢のみが、要求されるとき、特に、cornerSubPixが失敗するであろう、非常に雑音の多い環境において好ましい。処理時間は、したがって、画像が1つの2HCNNのみを通して通過するため、最短である。
図10は、評価データセット全体を横断したDNN対OpenCVを図示する、チャートである。図10は、我々の評価セットの26個のビデオにおける全ての26,000フレームを横断して算出された姿勢正確度対再投影誤差
閾値を図示する。DNNは、3ピクセル再投影誤差閾値を下回るより高い姿勢推定正確度(OpenCVに関する68.8%に対して97.4%)を呈する。
上記に議論されるように、深層CNNは、OpenCVの内部のもの等の従来的ChArUcoマーカ検出ツールが、多くの場合、失敗する、低光量の高運動シナリオにおいて、ChArUcoマーカに関する検出レートを劇的に改良することができる。2HCNNおよびサブピクセル精緻化の組み合わせを含む、DNNシステムは、OpenCV検出器の姿勢推定正確度に相当する、またはそれに優り得る。本明細書で議論される合成および実データ実験は、DNNアプローチに好ましい性能ギャップを示し、ニューラルネットワークアーキテクチャの有効性を実証する。DNNに重要な要因のうちのいくつかは、パターン特有の特徴点検出のための2HCNN(例えば、ChArUcoNet)、サブピクセル位置特定ネットワーク(例えば、RefineNet)、および/または極限データ拡張および負の対応物としての視覚的に類似するパターンの適切な選択を含む、カスタムChArUcoパターン特有のデータセットを含み得る。いくつかの実施形態では、これらのコンポーネントのうちの1つ以上のものは、含まれなくてもよい。例えば、いくつかの実施形態では、サブピクセル位置特定は、実施されない。DNNシステムは、仮想および複合現実用途等におけるマーカベースの姿勢推定を要求する、リアルタイム用途で使用されてもよい。
本明細書の実施例では、特定のChArUcoマーカが、使用された。ChArUcoマーカと別のパターンを置換し、新しいデータセットを収集することによって(自動標識化が、あまりに困難であって、達成することができない場合、手動標識化を用いて)、同一訓練プロシージャが、繰り返され、多数のパターン特有のネットワークを生産し得る。したがって、本明細書で議論されるシステムおよび方法は、マルチパターン検出、エンドツーエンド学習、および非平面マーカの姿勢推定の種々の用途に適用されてもよい。
表3は、個々のビデオ上でのDNNおよびOpenCVの比較結果を図示する。特に、表3は、我々の26個の試験シーケンスの各々に対する姿勢検出正確度(3ピクセル未満の再投影誤差を伴うフレームのパーセンテージ)および平均再投影誤差
を示す。
OpenCVは、1ルクスまたはより暗い(nanによって示される)際、画像に関するマーカ姿勢を返すことが不可能であることに留意されたい。深層再投影誤差列はまた、括弧内のサブピクセル位置特定(例えば、RefineNet)を伴わない誤差も列挙する。これらの実施例では、サブピクセル位置特定は、モーションブラーシナリオ(それらの場合、「真のコーナー」が中心8×8精緻化領域外にあるため)を除き、全ての場合において、再投影誤差を低減させる。
(例示的AR実装)
図11は、VR、AR、またはMR体験をディスプレイシステム装着者または視認者1104に提示するために使用され得る、ウェアラブルディスプレイシステム1100の実施例を図示する。ウェアラブルディスプレイシステム1100は、2HCNN102、サブピクセル精緻化103、および/または姿勢推定104のうちの1つまたはそれを上回るものを含む、DNN105を使用して、マーカの姿勢を推定する等、本明細書に説明される用途または実施形態のいずれかを実施するようにプログラムされてもよい。例えば、システム1100は、ユーザの環境(例えば、ユーザが位置する、部屋またはエリア)の画像を取得し、画像を処理し、画像内の1つ以上のマーカ(例えば、画像内のChArUcoボード)を識別してもよい。マーカの姿勢は、次いで、本明細書で議論されるシステムおよび方法を使用して推定され、ウェアラブルシステム1100の姿勢を推定するために使用されてもよい。
図11の実施例では、ディスプレイシステム1100は、ディスプレイ1108と、そのディスプレイ1108の機能をサポートするための種々の機械的および電子的モジュールおよびシステムとを含む。ディスプレイ1108は、フレーム1112に結合されてもよく、これは、ディスプレイシステム装着者または視認者1104によって装着可能であって、ディスプレイ1108を装着者1104の眼の正面に位置するように構成される。ディスプレイ1108は、ライトフィールドディスプレイであってもよい。いくつかの実施形態では、スピーカ1116が、フレーム1112に結合され、ユーザの外耳道に隣接して位置付けられ、いくつかの実施形態では、示されない別のスピーカが、ユーザの他の外耳道に隣接して位置付けられ、ステレオ/成形可能音制御を提供する。ディスプレイシステム1100は、装着者1104の周囲の環境の画像(例えば、静止画像またはビデオ)を取得し得る、外向きに向いた結像システム1144(例えば、1つ以上のカメラ)を含むことができる。外向きに向いた結像システム1144によって取得される画像は、DNNの実施形態によって分析され、装着者1104によって装着されるARヘッドセットの姿勢を決定することができる。
ディスプレイ1108は、有線導線または無線コネクティビティ等によって、ローカルデータ処理モジュール1124に動作可能に結合され1120、これは、フレーム1112に固定して取り付けられる、ユーザによって装着されるヘルメットまたは帽子に固定して取り付けられる、ヘッドホンに内蔵される、または別様にユーザ1104に除去可能に取り付けられる(例えば、リュック式構成において、ベルト結合式構成において)等、種々の構成において搭載されてもよい。
ローカル処理およびデータモジュール1124は、ハードウェアプロセッサと、不揮発性メモリ、例えば、フラッシュメモリ等の非一過性デジタルメモリとを備えてもよく、その両方とも、データの処理、キャッシュ、および記憶を補助するために利用され得る。データは、(a)画像捕捉デバイス(カメラ等)、マイクロホン、慣性測定ユニット、加速度計、コンパス、GPSユニット、無線デバイス、および/またはジャイロスコープ等の(例えば、フレーム1112に動作可能に結合される、または別様に、装着者1104に取り付けられ得る)センサから捕捉されるデータ、および/または(b)可能性として、処理または読出後にディスプレイ1108への通過のために、遠隔処理モジュール1128および/または遠隔データリポジトリ1132を使用して入手および/または処理されるデータを含む。ローカル処理およびデータモジュール1124は、これらの遠隔モジュール1128、1132が、相互に動作可能に結合され、ローカル処理およびデータモジュール1124へのリソースとして利用可能であるように、有線または無線通信リンク等を介して、通信リンク1136、1140によって、遠隔処理モジュール1128および遠隔データリポジトリ1132に動作可能に結合されてもよい。画像捕捉デバイスは、眼画像セグメント化または眼追跡プロシージャにおいて使用される眼画像を捕捉するために使用されることができる。
いくつかの実施形態では、遠隔処理モジュール1128は、データおよび/または画像捕捉デバイスによって捕捉されたビデオ情報等の画像情報を分析および処理するように構成される、1つ以上のプロセッサを備えてもよい。ビデオデータは、ローカル処理およびデータモジュール1124内にローカルでおよび/または遠隔データリポジトリ1132内に記憶されてもよい。いくつかの実施形態では、遠隔データリポジトリ1132は、デジタルデータ記憶設備を備えてもよく、これは、インターネットまたは「クラウド」リソース構成における他のネットワーキング構成を通して利用可能であってもよい。いくつかの実施形態では、全てのデータが、記憶され、全ての算出が、ローカル処理およびデータモジュール1124において実施され、遠隔モジュールからの完全に自律的な使用を可能にする。
いくつかの実装では、ローカル処理およびデータモジュール1124および/または遠隔処理モジュール1128は、上記に議論される、および/または下記に添付の請求項内に含まれるものを含む、姿勢推定深層ニューラルネットワーク(「DNN」)の実施形態を実施するようにプログラムされる。画像捕捉デバイスは、特定の用途(例えば、拡張現実(AR)または複合現実(MR)、人間-コンピュータ相互作用(HCI)、自律車両、ドローン、またはロボット全般)のためのビデオを捕捉することができる。ビデオ(またはビデオからの1つ以上のフレーム)は、処理モジュール1124、1128の一方または両方によって、DNNアーキテクチャの実施形態を使用して分析されることができる。ある場合には、DNNの分析の少なくとも一部を遠隔処理モジュール(例えば、「クラウド」)にオフロードすることは、計算の効率または速度を改良し得る。DNNのパラメータ(例えば、加重、バイアス項、プーリング層のためのサブサンプリング係数、異なる層内のカーネルの数およびサイズ、特徴マップの数等)は、データモジュール1124および/または1132内に記憶されることができる。
DNN分析の結果は、付加的動作または処理のために、処理モジュール1124、1128の一方または両方によって使用されることができる。例えば、ウェアラブルディスプレイシステム1100の処理モジュール1124、1128は、方法1100の出力に基づいて、拡張または複合現実、屋内ナビゲーション、または場面再構築またはレンダリング等の付加的用途を実施するようにプログラムされることができる。
DNNは、ユーザの環境内のオブジェクトに関する画像を分析する、他のオブジェクト認識装置または深層学習システムと併用されることができる。例えば、2017年11月14日に出願され、「Deep Learning System for Cuboid Detection」と題された米国特許出願第15/811,928号(それが含有する全てに関して、参照することによってその全体として本明細書に組み込まれる)は、画像内の3Dの直方体形状のオブジェクトを検出するための機械学習技法を説明する。
(例示的実装)
本明細書に説明されるシステム、方法、およびデバイスはそれぞれ、いくつかの側面を有し、そのうちの単一の1つのみが、その望ましい属性に関与するわけではない。本開示の範囲を限定することなく、いくつかの非限定的特徴が、ここで簡単に議論されるであろう。以下の段落は、本明細書に説明されるデバイス、システム、および方法の種々の例示的実装を説明する。1つ以上のコンピュータのシステムが、動作時、システムにアクションを実施させる、ソフトウェア、ファームウェア、ハードウェア、またはそれらの組み合わせをシステム上にインストールさせることによって、特定の動作またはアクションを実施するように構成されることができる。1つ以上のコンピュータプログラムは、データ処理装置によって実行されると、装置にアクションを実施させる、命令を含むことによって、特定の動作またはアクションを実施するように構成されることができる。
実施例1:システムであって、ウェアラブルヘッドセットおよびハンドヘルドコントローラを含む、複合現実デバイスと、ハードウェアコンピュータプロセッサと、その上に記憶されたソフトウェア命令を有する、非一過性コンピュータ可読媒体であって、ソフトウェア命令は、ハードウェアコンピュータプロセッサによって実行可能であって、システムに、結像デバイスから、基板上に複数の基準マーカを含む画像にアクセスするステップと、多段階のエンコーディングを画像に適用し、低減された次元を伴うエンコーディングされた画像を生成するステップと、第1のニューラルネットワークをエンコーディングされた画像に適用し、エンコーディングされた画像内の基準マーカの2次元場所を決定するステップと、第2のニューラルネットワークをエンコーディングされた画像に適用し、エンコーディングされた画像内で検出された個別の基準マーカと関連付けられる識別子を決定するステップと、少なくとも、基準マーカの決定された2次元場所および基準マーカの決定された識別子に基づいて、結像デバイスの姿勢を決定するステップとを含む、動作を実施させる、非一過性コンピュータ可読媒体とを備える、システム。
実施例2:結像デバイスの姿勢は、n点透視アルゴリズムの適用に基づいて決定される、実施例1に記載のシステム。
実施例3:姿勢はさらに、結像デバイスの1つ以上の固有のパラメータに基づいて決定される、実施例1または2に記載のシステム。
実施例4:動作はさらに、第1のニューラルネットワークから、エンコーディングされた画像の第1の複数の画像パッチを出力するステップと、第1の複数の画像の各々に対し、サブピクセル位置特定アルゴリズムの適用に基づいて、対応する複数のサブピクセルコーナーを決定するステップとを含む、実施例1-3のいずれかに記載のシステム。
実施例5:サブピクセルコーナーは、エンコーディングされた画像の分解能の倍数における場所を示す、実施例4に記載のシステム。
実施例6:結像デバイスの姿勢を決定するステップはさらに、決定されたサブピクセルコーナーに基づく、実施例3-5のいずれかに記載のシステム。
実施例7:基準マーカは、ChArUcoマーカである、実施例1-6のいずれかに記載のシステム。
実施例8:多段階のエンコーディングは、1つ以上の最大プーリング層を含む、実施例1-7のいずれかに記載のシステム。
実施例9:画像の空間次元は、エンコーディングされた画像内で8分の1に低減される、実施例1-8のいずれかに記載のシステム。
実施例10:画像パッチの量は、画像内の基準マーカの最大量に基づく、実施例1-9のいずれかに記載のシステム。
実施例11:結像デバイスは、ウェアラブル拡張現実ヘッドセットのカメラを備える、実施例1-10のいずれかに記載のシステム。
実施例12:ウェアラブル拡張現実ヘッドセットによって表示される仮想コンテンツは、少なくとも部分的に、結像デバイスの決定された姿勢に基づいて決定される、実施例11に記載のシステム。
実施例13:エンコーディングされた画像内の基準マーカの2次元場所は、基板上の複数の基準マーカ場所の各々に対し、複数の基準マーカの各々が基準マーカ場所にある確率を含む、実施例1-12のいずれかに記載のシステム。
実施例14:複数の基準マーカ場所の各々は、各々が基板と関連付けられるエンコーディングされた画像の異なる部分である、実施例13に記載のシステム。
実施例15:エンコーディングされた画像内の基準マーカと関連付けられる決定された識別子は、基板上の複数の基準マーカ場所の各々に対し、複数の識別子の各々が基準マーカ場所においてエンコーディングされる確率を含む、実施例1-14のいずれかに記載のシステム。
実施例16:カメラの決定された姿勢のためのシステムであって、拡張現実ヘッドセットから入手された画像の空間ダウンサンプリングを実施するように構成される、エンコーダと、ダウンサンプリングされた画像内の基準ボードの2次元場所を検出するように構成される、第1のヘッドと、ダウンサンプリングされた画像内の基準ボードの検出された2次元場所においてエンコーディングされた識別子を決定するように構成される、第2のヘッドとを含む、2ヘッド畳み込みニューラルネットワークと、入力として、ダウンサンプリングされた画像の画像パッチをとり、各画像パッチに対し、サブピクセルコーナー場所を出力するように構成される、サブピクセル精緻化コンポーネントと、少なくとも、検出された2次元場所およびサブピクセルコーナー場所に基づいて、拡張現実ヘッドセットの姿勢を決定するように構成される、姿勢推定コンポーネントとを備える、システム。
実施例17:空間ダウンサンプリングは、1つ以上のプーリング層を含む、実施例16に記載のシステム。
実施例18:複数のビデオシーケンスに基づいて、2ヘッド畳み込みニューラルネットワークを訓練するように構成される、訓練コンポーネントをさらに備え、ビデオシーケンスの各フレームは、合成歪曲を受ける、実施例16または17のいずれかに記載のシステム。
実施例19:合成歪曲は、ランダムに選択され、複数の合成歪曲の各々の所望の割合を達成する、実施例18に記載のシステム。
実施例20:合成歪曲は、追加ガウス雑音、モーションブラー、ガウスぼかし、スペックル雑音、明度再スケーリング、陰影またはスポットライト効果、またはホモグラフィ変換のうちの1つ以上のものを含む、実施例19に記載のシステム。
実施例21:訓練コンポーネントはさらに、各々が中心部分内に1つのグラウンドトゥルースコーナーを伴う、複数の画像に基づいて、姿勢推定コンポーネントを訓練するように構成される、実施例18-20のいずれかに記載のシステム。
実施例22:画像の中心部分は、画像のピクセルの50パーセント未満である、実施例21に記載のシステム。
実施例23:実施例1-22のうちの任意の1つのステップを含む、方法。
(付加的考慮点)
本明細書に説明される、および/または添付される図に描写されるプロセス、方法、およびアルゴリズムはそれぞれ、具体的かつ特定のコンピュータ命令を実行するように構成される、1つ以上の物理的コンピューティングシステム、ハードウェアコンピュータプロセッサ、特定用途向け回路、および/または電子ハードウェアによって実行される、コードモジュールにおいて具現化され、それによって完全または部分的に自動化され得る。例えば、コンピューティングシステムは、具体的コンピュータ命令とともにプログラムされた汎用コンピュータ(例えば、サーバ)または専用コンピュータ、専用回路等を含むことができる。コードモジュールは、実行可能プログラムにコンパイルおよびリンクされ得る、動的リンクライブラリ内にインストールされ得る、またはインタープリタ型プログラミング言語において書き込まれ得る。いくつかの実装では、特定の動作および方法が、所与の機能に特有の回路によって実施され得る。
さらに、本開示の機能性のある実装は、十分に数学的、コンピュータ的、または技術的に複雑であるため、(適切な特殊化された実行可能命令を利用する)特定用途向けハードウェアまたは1つ以上の実施形態物理的コンピューティングデバイスは、例えば、関与する計算の量または複雑性に起因して、または結果を実質的にリアルタイムで提供するために、機能性を実施する必要があり得る。例えば、ビデオは、多くのフレームを含み、各フレームは、数百万のピクセルを有し得、具体的にプログラムされたコンピュータハードウェアは、商業的に妥当な時間量において所望の画像処理タスクまたは用途を提供するようにビデオデータを処理する必要がある。
コードモジュールまたは任意のタイプのデータは、ハードドライブ、ソリッドステートメモリ、ランダムアクセスメモリ(RAM)、読取専用メモリ(ROM)、光学ディスク、揮発性または不揮発性記憶装置、同一物の組み合わせ、および/または同等物を含む、物理的コンピュータ記憶装置等の任意のタイプの非一過性コンピュータ可読媒体上に記憶され得る。本方法およびモジュール(またはデータ)はまた、無線ベースおよび有線/ケーブルベースの媒体を含む、種々のコンピュータ可読伝送媒体上で生成されたデータ信号として(例えば、搬送波または他のアナログまたはデジタル伝搬信号の一部として)伝送され得、種々の形態(例えば、単一または多重化アナログ信号の一部として、または複数の離散デジタルパケットまたはフレームとして)をとり得る。開示されるプロセスまたはプロセスステップの結果は、任意のタイプの非一過性有形コンピュータ記憶装置内に持続的または別様に記憶され得る、またはコンピュータ可読伝送媒体を介して通信され得る。
本明細書に説明される、および/または添付される図に描写されるフロー図における任意のプロセス、ブロック、状態、ステップ、または機能性は、プロセスにおいて具体的機能(例えば、論理または算術)またはステップを実装するための1つ以上の実行可能命令を含む、コードモジュール、セグメント、またはコードの一部を潜在的に表すものとして理解されたい。種々のプロセス、ブロック、状態、ステップ、または機能性は、組み合わせられる、再配列される、本明細書に提供される例証的実施例に追加される、そこから削除される、修正される、または別様にそこから変更されることができる。いくつかの実施形態では、付加的または異なるコンピューティングシステムまたはコードモジュールが、本明細書に説明される機能性のいくつかまたは全てを実施し得る。本明細書に説明される方法およびプロセスはまた、いずれの特定のシーケンスにも限定されず、それに関連するブロック、ステップ、または状態は、適切な他のシーケンスで、例えば、連続して、並行して、またはある他の様式で実施されることができる。タスクまたはイベントが、開示される例示的実施形態に追加される、またはそこから除去され得る。さらに、本明細書に説明される実装における種々のシステムコンポーネントの分離は、例証目的のためであり、全ての実装においてそのような分離を要求するものとして理解されるべきではない。説明されるプログラムコンポーネント、方法、およびシステムは、概して、単一のコンピュータ製品においてともに統合される、または複数のコンピュータ製品にパッケージ化され得ることを理解されたい。多くの実装変形例が、可能である。
本プロセス、方法、およびシステムは、ネットワーク(または分散)コンピューティング環境において実装され得る。ネットワーク環境は、企業全体コンピュータネットワーク、イントラネット、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、パーソナルエリアネットワーク(PAN)、クラウドコンピューティングネットワーク、クラウドソースコンピューティングネットワーク、インターネット、およびワールドワイドウェブを含む。ネットワークは、有線または無線ネットワークまたは任意の他のタイプの通信ネットワークであり得る。
本開示のシステムおよび方法は、それぞれ、いくつかの革新的側面を有し、そのうちのいかなるものも、本明細書に開示される望ましい属性に単独で関与しない、またはそのために要求されない。本明細書で説明される種々の特徴およびプロセスは、相互に独立して使用され得る、または種々の方法で組み合わせられ得る。全ての可能な組み合わせおよび副次的組み合わせが、本開示の範囲内に該当することが意図される。本開示に説明される実装の種々の修正が、当業者に容易に明白であり得、本明細書に定義される一般原理は、本開示の精神または範囲から逸脱することなく、他の実装に適用され得る。したがって、請求項は、本明細書に示される実装に限定されることを意図されず、本明細書に開示される本開示、原理、および新規の特徴と一貫する最も広い範囲を与えられるべきである。
別個の実装の文脈において本明細書に説明されるある特徴はまた、単一の実装における組み合わせにおいて実装されることができる。逆に、単一の実装の文脈において説明される種々の特徴もまた、複数の実装において別個に、または任意の好適な副次的組み合わせにおいて実装されることができる。さらに、特徴がある組み合わせにおいて作用するものとして上記に説明され、さらに、そのようなものとして最初に請求され得るが、請求される組み合わせからの1つ以上の特徴は、いくつかの場合では、組み合わせから削除されることができ、請求される組み合わせは、副次的組み合わせまたは副次的組み合わせの変形例を対象とし得る。いかなる単一の特徴または特徴のグループも、あらゆる実施形態に必要または必須ではない。
とりわけ、「~できる(can)」、「~し得る(could)」、「~し得る(might)」、「~し得る(may)」、「例えば(e.g.)」、および同等物等、本明細書で使用される条件文は、別様に具体的に記載されない限り、または使用されるような文脈内で別様に理解されない限り、概して、ある実施形態がある特徴、要素、および/またはステップを含む一方、他の実施形態がそれらを含まないことを伝えることが意図される。したがって、そのような条件文は、概して、特徴、要素、および/またはステップが、1つ以上の実施形態に対していかようにも要求されること、または1つ以上の実施形態が、著者の入力または促しの有無を問わず、これらの特徴、要素、および/またはステップが任意の特定の実施形態において含まれる、または実施されるべきかどうかを決定するための論理を必然的に含むことを合意することを意図されない。用語「~を備える(comprising)」、「~を含む(including)」、「~を有する(having)」、および同等物は、同義語であり、非限定的方式で包括的に使用され、付加的要素、特徴、行為、動作等を除外しない。また、用語「または」は、その包括的意味において使用され(およびその排他的意味において使用されず)、したがって、例えば、要素のリストを接続するために使用されると、用語「または」は、リスト内の要素のうちの1つ、いくつか、または全てを意味する。加えて、本願および添付される請求項で使用されるような冠詞「a」、「an」、および「the」は、別様に規定されない限り、「1つ以上の」または「少なくとも1つ」を意味するように解釈されるべきである。
本明細書で使用されるように、項目のリスト「~のうちの少なくとも1つ」を指す語句は、単一の要素を含む、それらの項目の任意の組み合わせを指す。ある実施例として、「A、B、またはCのうちの少なくとも1つ」は、A、B、C、AおよびB、AおよびC、BおよびC、およびA、B、およびCを網羅することが意図される。語句「X、Y、およびZのうちの少なくとも1つ」等の接続文は、別様に具体的に記載されない限り、概して、項目、用語等がX、Y、またはZのうちの少なくとも1つであり得ることを伝えるために使用されるような文脈で別様に理解される。したがって、そのような接続文は、概して、ある実施形態が、Xのうちの少なくとも1つ、Yのうちの少なくとも1つ、およびZのうちの少なくとも1つがそれぞれ存在するように要求することを示唆することを意図されない。
同様に、動作は、特定の順序で図面に描写され得るが、これは、望ましい結果を達成するために、そのような動作が示される特定の順序で、または連続的順序で実施される、または全ての図示される動作が実施される必要はないと認識されるべきである。さらに、図面は、フローチャートの形態で1つ以上の例示的プロセスを図式的に描写し得る。しかしながら、描写されない他の動作も、図式的に図示される例示的方法およびプロセス内に組み込まれることができる。例えば、1つ以上の付加的動作が、図示される動作のいずれかの前に、その後に、それと同時に、またはその間に実施されることができる。加えて、動作は、他の実装において再配列される、または再順序付けられ得る。ある状況では、マルチタスクおよび並列処理が、有利であり得る。さらに、上記に説明される実装における種々のシステムコンポーネントの分離は、全ての実装におけるそのような分離を要求するものとして理解されるべきではなく、説明されるプログラムコンポーネントおよびシステムは、概して、単一のソフトウェア製品においてともに統合される、または複数のソフトウェア製品にパッケージ化され得ることを理解されたい。加えて、他の実装も、以下の請求項の範囲内である。いくつかの場合では、請求項に列挙されるアクションは、異なる順序で実施され、依然として、望ましい結果を達成することができる。

Claims (44)

  1. システムであって、
    ウェアラブルヘッドセットおよびハンドヘルドコントローラを含む複合現実デバイスと、
    ハードウェアコンピュータプロセッサと、
    非一過性コンピュータ可読媒体であって、前記非一過性コンピュータ可読媒体は、その上に記憶されたソフトウェア命令を有しており、前記ソフトウェア命令は、前記システムに動作を実施させるように、前記ハードウェアコンピュータプロセッサによって実行可能であり、前記動作は、
    結像デバイスから、基板上に複数の基準マーカを含む画像にアクセスすることと、
    多段階のエンコーディングを前記画像に適用し、低減された次元を伴うエンコーディングされた画像を生成することと、
    第1のニューラルネットワークを前記エンコーディングされた画像に適用し、前記エンコーディングされた画像内の基準マーカの2次元場所を決定することと、
    第2のニューラルネットワークを前記エンコーディングされた画像に適用し、前記エンコーディングされた画像内で検出された個別の基準マーカと関連付けられる識別子を決定することと、
    少なくとも、前記基準マーカの決定された2次元場所および前記基準マーカの決定された識別子に基づいて、前記結像デバイスの姿勢を決定することと
    を含む、非一過性コンピュータ可読媒体と
    を備える、システム。
  2. 前記結像デバイスの姿勢は、n点透視アルゴリズムの適用に基づいて決定される、請求項1に記載のシステム。
  3. 前記姿勢はさらに、前記結像デバイスの1つ以上の固有のパラメータに基づいて決定される、請求項1に記載のシステム。
  4. 前記動作はさらに、
    前記第1のニューラルネットワークから、前記エンコーディングされた画像の第1の複数の画像パッチを出力することと、
    前記第1の複数の画像パッチの各々に対し、サブピクセル位置特定アルゴリズムの適用に基づいて、対応する複数のサブピクセルコーナーを決定することと
    を含む、請求項1に記載のシステム。
  5. 前記サブピクセルコーナーは、前記エンコーディングされた画像の分解能の倍数における場所を示す、請求項4に記載のシステム。
  6. 前記結像デバイスの姿勢を決定することはさらに、前記決定されたサブピクセルコーナーに基づく、請求項4に記載のシステム。
  7. 前記基準マーカは、ChArUcoマーカである、請求項1に記載のシステム。
  8. 前記多段階のエンコーディングは、1つ以上の最大プーリング層を含む、請求項1に記載のシステム。
  9. 前記画像の空間次元は、前記エンコーディングされた画像内で8分の1に低減される、請求項8に記載のシステム。
  10. 画像パッチの量は、前記画像内の基準マーカの最大量に基づく、請求項1に記載のシステム。
  11. 前記結像デバイスは、ウェアラブル拡張現実ヘッドセットのカメラを備える、請求項1に記載のシステム。
  12. 前記ウェアラブル拡張現実ヘッドセットによって表示される仮想コンテンツは、少なくとも部分的に、前記結像デバイスの決定された姿勢に基づいて決定される、請求項11に記載のシステム。
  13. 前記エンコーディングされた画像内の基準マーカの2次元場所は、前記基板上の複数の基準マーカ場所の各々に対し、複数の基準マーカの各々が前記基準マーカ場所にある確率を含む、請求項1に記載のシステム。
  14. 前記複数の基準マーカ場所の各々は、各々が前記基板と関連付けられるエンコーディングされた画像の異なる部分である、請求項13に記載のシステム。
  15. 前記エンコーディングされた画像内の基準マーカと関連付けられる決定された識別子は、前記基板上の複数の基準マーカ場所の各々に対し、複数の識別子の各々が前記基準マーカ場所においてエンコーディングされる確率を含む、請求項1に記載のシステム。
  16. カメラの決定された姿勢のためのシステムであって、前記システムは、
    エンコーダであって、前記エンコーダは、拡張現実ヘッドセットから入手された画像の空間ダウンサンプリングを実施するように構成される、エンコーダと、
    2ヘッド畳み込みニューラルネットワークであって、
    第1のヘッドであって、前記第1のヘッドは、前記ダウンサンプリングされた画像内の基準ボードの2次元場所を検出するように構成される、第1のヘッドと、
    第2のヘッドであって、前記第2のヘッドは、前記ダウンサンプリングされた画像内の基準ボードの検出された2次元場所においてエンコーディングされた識別子を決定するように構成される、第2のヘッドと
    を含む、2ヘッド畳み込みニューラルネットワークと、
    サブピクセル精緻化コンポーネントであって、前記サブピクセル精緻化コンポーネントは、入力として、前記ダウンサンプリングされた画像の画像パッチをとり、各画像パッチに対し、サブピクセルコーナー場所を出力するように構成される、サブピクセル精緻化コンポーネントと、
    姿勢推定コンポーネントであって、前記姿勢推定コンポーネントは、少なくとも前記検出された2次元場所および前記サブピクセルコーナー場所に基づいて、前記拡張現実ヘッドセットの姿勢を決定するように構成される、姿勢推定コンポーネントと
    を備える、システム。
  17. 前記空間ダウンサンプリングは、1つ以上のプーリング層を含む、請求項16に記載のシステム。
  18. 複数のビデオシーケンスに基づいて、前記2ヘッド畳み込みニューラルネットワークを訓練するように構成される訓練コンポーネントをさらに備え、前記ビデオシーケンスの各フレームは、合成歪曲を受ける、請求項16に記載のシステム。
  19. 前記合成歪曲は、ランダムに選択され、複数の合成歪曲の各々の所望の割合を達成する、請求項18に記載のシステム。
  20. 前記合成歪曲は、
    追加ガウス雑音、
    モーションブラー、
    ガウスぼかし、
    スペックル雑音、
    明度再スケーリング、
    陰影またはスポットライト効果、または
    ホモグラフィ変換
    のうちの1つ以上のものを含む、請求項19に記載のシステム。
  21. 前記訓練コンポーネントはさらに、各々が中心部分内に1つのグラウンドトゥルースコーナーを伴う複数の画像に基づいて、前記姿勢推定コンポーネントを訓練するように構成される、請求項18に記載のシステム。
  22. 前記画像の中心部分は、前記画像のピクセルの50パーセント未満である、請求項21に記載のシステム。
  23. コンピュータ化された方法であって、前記コンピュータ化された方法は、コンピューティングシステムによって実施され、前記コンピューティングシステムは、1つ以上のハードウェアコンピュータプロセッサと、1つ以上の非一過性コンピュータ可読記憶デバイスとを有し、前記1つ以上の非一過性コンピュータ可読記憶デバイスは、前記コンピュータ化された方法を実施するために前記コンピューティングシステムによって実行可能なソフトウェア命令を記憶しており、前記コンピュータ化された方法は、
    結像デバイスから、基板上に複数の基準マーカを含む画像にアクセスすることと、
    多段階のエンコーディングを前記画像に適用し、低減された次元を伴うエンコーディングされた画像を生成することと、
    第1のニューラルネットワークを前記エンコーディングされた画像に適用し、前記エンコーディングされた画像内の基準マーカの2次元場所を決定することと、
    第2のニューラルネットワークを前記エンコーディングされた画像に適用し、前記エンコーディングされた画像内で検出された個別の基準マーカと関連付けられる識別子を決定することと、
    少なくとも、前記基準マーカの決定された2次元場所および前記基準マーカの決定された識別子に基づいて、前記結像デバイスの姿勢を決定することと
    を含む、方法。
  24. 前記結像デバイスの姿勢は、n点透視アルゴリズムの適用に基づいて決定される、請求項23に記載の方法。
  25. 前記姿勢はさらに、前記結像デバイスの1つ以上の固有のパラメータに基づいて決定される、請求項23に記載の方法。
  26. 前記第1のニューラルネットワークから、前記エンコーディングされた画像の第1の複数の画像パッチを出力することと、
    前記第1の複数の画像パッチの各々に対し、サブピクセル位置特定アルゴリズムの適用に基づいて、対応する複数のサブピクセルコーナーを決定することと
    をさらに含む、請求項23に記載の方法。
  27. 前記サブピクセルコーナーは、前記エンコーディングされた画像の分解能の倍数における場所を示す、請求項26に記載の方法。
  28. 前記結像デバイスの姿勢を決定することはさらに、前記決定されたサブピクセルコーナーに基づく、請求項26に記載の方法。
  29. 前記基準マーカは、ChArUcoマーカである、請求項23に記載の方法。
  30. 前記多段階のエンコーディングは、1つ以上の最大プーリング層を含む、請求項23に記載の方法。
  31. 前記画像の空間次元は、前記エンコーディングされた画像内で8分の1に低減される、請求項30に記載の方法。
  32. 画像パッチの量は、前記画像内の基準マーカの最大量に基づく、請求項23に記載の方法。
  33. 前記結像デバイスは、ウェアラブル拡張現実ヘッドセットのカメラを備える、請求項23に記載の方法。
  34. 前記ウェアラブル拡張現実ヘッドセットによって表示される仮想コンテンツは、少なくとも部分的に、前記結像デバイスの決定された姿勢に基づいて決定される、請求項33に記載の方法。
  35. 前記エンコーディングされた画像内の基準マーカの2次元場所は、前記基板上の複数の基準マーカ場所の各々に対し、複数の基準マーカの各々が前記基準マーカ場所にある確率を含む、請求項23に記載の方法。
  36. 前記複数の基準マーカ場所の各々は、各々が前記基板と関連付けられるエンコーディングされた画像の異なる部分である、請求項35に記載の方法。
  37. 前記エンコーディングされた画像内の基準マーカと関連付けられる決定された識別子は、前記基板上の複数の基準マーカ場所の各々に対し、複数の識別子の各々が前記基準マーカ場所においてエンコーディングされる確率を含む、請求項23に記載の方法。
  38. コンピュータ化された方法であって、前記コンピュータ化された方法は、コンピューティングシステムによって実施され、前記コンピューティングシステムは、1つ以上のハードウェアコンピュータプロセッサと、1つ以上の非一過性コンピュータ可読記憶デバイスとを有し、前記1つ以上の非一過性コンピュータ可読記憶デバイスは、前記コンピュータ化された方法を実施するために前記コンピューティングシステムによって実行可能なソフトウェア命令を記憶しており、前記コンピュータ化された方法は、
    拡張現実ヘッドセットから入手された画像の空間ダウンサンプリングを実施することと、
    前記ダウンサンプリングされた画像内の基準ボードの2次元場所を検出することと、
    前記ダウンサンプリングされた画像内の基準ボードの検出された2次元場所においてエンコーディングされた識別子を決定することと、
    入力として、前記ダウンサンプリングされた画像の画像パッチをとり、各画像パッチに対し、サブピクセルコーナー場所を出力することと、
    少なくとも、前記検出された2次元場所および前記サブピクセルコーナー場所に基づいて、前記拡張現実ヘッドセットの姿勢を決定することと
    を含む、方法。
  39. 前記空間ダウンサンプリングは、1つ以上のプーリング層を含む、請求項38に記載の方法。
  40. 複数のビデオシーケンスに基づいて、2ヘッド畳み込みニューラルネットワークを訓練することをさらに含み、前記ビデオシーケンスの各フレームは、合成歪曲を受ける、請求項38に記載の方法。
  41. 前記合成歪曲は、ランダムに選択され、複数の合成歪曲の各々の所望の割合を達成する、請求項40に記載の方法。
  42. 前記合成歪曲は、
    追加ガウス雑音、
    モーションブラー、
    ガウスぼかし、
    スペックル雑音、
    明度再スケーリング、
    陰影またはスポットライト効果、または
    ホモグラフィ変換
    のうちの1つ以上のものを含む、請求項41に記載の方法。
  43. 前記拡張現実ヘッドセットの姿勢を決定することは、姿勢推定コンポーネントによって実施され、前記方法は、
    各々が中心部分内に1つのグラウンドトゥルースコーナーを伴う複数の画像に基づいて、前記姿勢推定コンポーネントを訓練することをさらに含む、請求項40に記載の方法。
  44. 前記画像の中心部分は、前記画像のピクセルの50パーセント未満である、請求項43に記載の方法。
JP2021525097A 2018-11-15 2019-11-14 深層ニューラルネットワーク姿勢推定システム Active JP7389116B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862767902P 2018-11-15 2018-11-15
US62/767,902 2018-11-15
PCT/US2019/061502 WO2020102554A1 (en) 2018-11-15 2019-11-14 Deep neural network pose estimation system

Publications (2)

Publication Number Publication Date
JP2022508072A JP2022508072A (ja) 2022-01-19
JP7389116B2 true JP7389116B2 (ja) 2023-11-29

Family

ID=70730654

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021525097A Active JP7389116B2 (ja) 2018-11-15 2019-11-14 深層ニューラルネットワーク姿勢推定システム

Country Status (5)

Country Link
US (1) US11893789B2 (ja)
EP (1) EP3881232A4 (ja)
JP (1) JP7389116B2 (ja)
CN (1) CN113272821A (ja)
WO (1) WO2020102554A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020102554A1 (en) 2018-11-15 2020-05-22 Magic Leap, Inc. Deep neural network pose estimation system
US20210398314A1 (en) * 2020-06-17 2021-12-23 Qualcomm Incorporated Low power visual tracking systems
CN111714080B (zh) * 2020-06-30 2021-03-23 重庆大学 一种基于眼动信息的疾病分类系统
CN111970535B (zh) * 2020-09-25 2021-08-31 魔珐(上海)信息科技有限公司 虚拟直播方法、装置、系统及存储介质
US11600015B2 (en) * 2021-01-29 2023-03-07 Microsoft Technology Licensing, Llc Fiducial web for computer vision
CN113343355B (zh) * 2021-06-08 2022-10-18 四川大学 基于深度学习的飞机蒙皮型面检测路径规划方法
CN117036663A (zh) * 2022-04-18 2023-11-10 荣耀终端有限公司 视觉定位方法、设备和存储介质
CN115661247A (zh) * 2022-10-28 2023-01-31 南方电网电力科技股份有限公司 一种实时6DoF算法精度测量方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005293141A (ja) 2004-03-31 2005-10-20 Canon Inc マーカ検出方法及び装置並びに位置姿勢推定方法

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6222525B1 (en) 1992-03-05 2001-04-24 Brad A. Armstrong Image controllers with sheet connected sensors
US5670988A (en) 1995-09-05 1997-09-23 Interlink Electronics, Inc. Trigger operated electronic device
US11428937B2 (en) 2005-10-07 2022-08-30 Percept Technologies Enhanced optical and perceptual digital eyewear
US8696113B2 (en) 2005-10-07 2014-04-15 Percept Technologies Inc. Enhanced optical and perceptual digital eyewear
US20070081123A1 (en) 2005-10-07 2007-04-12 Lewis Scott W Digital eyewear
US9304319B2 (en) 2010-11-18 2016-04-05 Microsoft Technology Licensing, Llc Automatic focus improvement for augmented reality displays
JP6185844B2 (ja) 2010-12-24 2017-08-30 マジック リープ, インコーポレイテッド 人間工学的ヘッドマウントディスプレイデバイスおよび光学システム
US10156722B2 (en) 2010-12-24 2018-12-18 Magic Leap, Inc. Methods and systems for displaying stereoscopy with a freeform optical system with addressable focus for virtual and augmented reality
CN103635891B (zh) 2011-05-06 2017-10-27 奇跃公司 大量同时远程数字呈现世界
EP2760363A4 (en) 2011-09-29 2015-06-24 Magic Leap Inc TACTILE GLOVE FOR HUMAN COMPUTER INTERACTION
BR112014010230A8 (pt) 2011-10-28 2017-06-20 Magic Leap Inc sistema e método para realidade virtual e aumentada
WO2013152205A1 (en) 2012-04-05 2013-10-10 Augmented Vision Inc. Wide-field of view (fov) imaging devices with active foveation capability
US9671566B2 (en) 2012-06-11 2017-06-06 Magic Leap, Inc. Planar waveguide apparatus with diffraction element(s) and system employing same
EP2895910A4 (en) 2012-09-11 2016-04-20 Magic Leap Inc ERGONOMIC HEAD-MOUNTED DISPLAY DEVICE AND OPTICAL SYSTEM
NZ751602A (en) 2013-03-15 2020-01-31 Magic Leap Inc Display system and method
US9874749B2 (en) 2013-11-27 2018-01-23 Magic Leap, Inc. Virtual and augmented reality systems and methods
US10533850B2 (en) 2013-07-12 2020-01-14 Magic Leap, Inc. Method and system for inserting recognized object data into a virtual world
EP3058418B1 (en) 2013-10-16 2023-10-04 Magic Leap, Inc. Virtual or augmented reality headsets having adjustable interpupillary distance
US9857591B2 (en) 2014-05-30 2018-01-02 Magic Leap, Inc. Methods and system for creating focal planes in virtual and augmented reality
KR102268462B1 (ko) 2013-11-27 2021-06-22 매직 립, 인코포레이티드 가상 및 증강 현실 시스템들 및 방법들
US10203762B2 (en) 2014-03-11 2019-02-12 Magic Leap, Inc. Methods and systems for creating virtual and augmented reality
US20150324568A1 (en) 2014-05-09 2015-11-12 Eyefluence, Inc. Systems and methods for using eye signals with secure mobile communications
US20210186355A1 (en) * 2014-11-30 2021-06-24 Elbit Systems Ltd. Model registration system and method
US10504230B1 (en) * 2014-12-19 2019-12-10 Amazon Technologies, Inc. Machine vision calibration system with marker
US10303977B2 (en) 2016-06-28 2019-05-28 Conduent Business Services, Llc System and method for expanding and training convolutional neural networks for large size input images
CN109416744B (zh) 2016-06-28 2023-12-15 奇跃公司 改进的相机校准系统、目标和过程
JP6854344B2 (ja) 2016-11-15 2021-04-07 マジック リープ, インコーポレイテッドMagic Leap,Inc. 直方体検出のための深層機械学習システム
CN112088070A (zh) * 2017-07-25 2020-12-15 M·奥利尼克 用于操作机器人系统并执行机器人交互的系统及方法
US10521927B2 (en) * 2017-08-15 2019-12-31 Siemens Healthcare Gmbh Internal body marker prediction from surface data in medical imaging
US10593101B1 (en) * 2017-11-01 2020-03-17 Facebook Technologies, Llc Marker based tracking
EP3509013A1 (en) * 2018-01-04 2019-07-10 Holo Surgical Inc. Identification of a predefined object in a set of images from a medical image scanner during a surgical procedure
US11707955B2 (en) * 2018-02-21 2023-07-25 Outrider Technologies, Inc. Systems and methods for automated operation and handling of autonomous trucks and trailers hauled thereby
JP2021514695A (ja) * 2018-02-27 2021-06-17 バタフライ ネットワーク,インコーポレイテッド 遠隔医療のための方法及び装置
WO2019169455A1 (en) * 2018-03-08 2019-09-12 Nguyen Doan Trang Method and system for guided radiation therapy
US10719953B1 (en) * 2018-03-27 2020-07-21 Facebook Technologies, Llc Passive object tracking using camera
US11136022B2 (en) * 2018-05-29 2021-10-05 Hitachi Automotive Systems, Ltd. Road marker detection method
WO2020102554A1 (en) 2018-11-15 2020-05-22 Magic Leap, Inc. Deep neural network pose estimation system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005293141A (ja) 2004-03-31 2005-10-20 Canon Inc マーカ検出方法及び装置並びに位置姿勢推定方法

Also Published As

Publication number Publication date
EP3881232A1 (en) 2021-09-22
US11893789B2 (en) 2024-02-06
JP2022508072A (ja) 2022-01-19
EP3881232A4 (en) 2022-08-10
WO2020102554A1 (en) 2020-05-22
US20210350566A1 (en) 2021-11-11
CN113272821A (zh) 2021-08-17

Similar Documents

Publication Publication Date Title
JP7389116B2 (ja) 深層ニューラルネットワーク姿勢推定システム
Jung et al. Unsupervised deep image fusion with structure tensor representations
US20210350168A1 (en) Image segmentation method and image processing apparatus
Hu et al. Deep charuco: Dark charuco marker pose estimation
CN110998659B (zh) 图像处理系统、图像处理方法、及程序
JP2023082038A (ja) 畳み込み画像変換を使用して同時位置特定およびマッピングを実施する方法およびシステム
Lee et al. Simultaneous localization, mapping and deblurring
KR20210139450A (ko) 이미지 디스플레이 방법 및 디바이스
CN108960045A (zh) 眼球追踪方法、电子装置及非暂态电脑可读取记录媒体
CN107851193B (zh) 混合机器学习系统
KR20210015695A (ko) 포즈 추정 방법, 포즈 추정 장치, 및 포즈 추정을 위한 트레이닝 방법
Shajkofci et al. Semi-blind spatially-variant deconvolution in optical microscopy with local point spread function estimation by use of convolutional neural networks
Kang et al. Crowd counting by adapting convolutional neural networks with side information
Fan et al. Multiscale cross-connected dehazing network with scene depth fusion
Chang et al. A single image deblurring algorithm for nonuniform motion blur using uniform defocus map estimation
Gultekin et al. Feature detection performance based benchmarking of motion deblurring methods: applications to vision for legged robots
Bonetto et al. Image processing issues in a social assistive system for the blind
Fiore et al. Towards achieving robust video selfavatars under flexible environment conditions
Yoon et al. GAN-based shadow removal using context information
Jian et al. Realistic face animation generation from videos
Mai et al. Pose Estimation for Event Camera Using Charuco Board Based on Image Reconstruction
Pan et al. Self-Supervised Motion Magnification by Backpropagating Through Optical Flow
Ardö et al. Height Normalizing Image Transform for Efficient Scene Specific Pedestrian Detection
Bellamine et al. Motion detection using color structure-texture image decomposition
Niu et al. Compass rose: A rotational robust signature for optical flow computation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220905

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230710

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230713

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231013

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231027

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231116

R150 Certificate of patent or registration of utility model

Ref document number: 7389116

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150