JP7250709B2 - 畳み込み画像変換を使用して同時位置特定およびマッピングを実施する方法およびシステム - Google Patents

畳み込み画像変換を使用して同時位置特定およびマッピングを実施する方法およびシステム Download PDF

Info

Publication number
JP7250709B2
JP7250709B2 JP2019571451A JP2019571451A JP7250709B2 JP 7250709 B2 JP7250709 B2 JP 7250709B2 JP 2019571451 A JP2019571451 A JP 2019571451A JP 2019571451 A JP2019571451 A JP 2019571451A JP 7250709 B2 JP7250709 B2 JP 7250709B2
Authority
JP
Japan
Prior art keywords
point cloud
neural network
camera
image
homography
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019571451A
Other languages
English (en)
Other versions
JP2020526818A (ja
Inventor
ダニエル エル. デトン,
トマシュ ジャン マリシーウィッツ,
アンドリュー ラビノビッチ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Magic Leap Inc
Original Assignee
Magic Leap Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Magic Leap Inc filed Critical Magic Leap Inc
Publication of JP2020526818A publication Critical patent/JP2020526818A/ja
Priority to JP2023045383A priority Critical patent/JP7495546B2/ja
Application granted granted Critical
Publication of JP7250709B2 publication Critical patent/JP7250709B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • G06T7/337Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/35Determination of transform parameters for the alignment of images, i.e. image registration using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/579Depth or shape recovery from multiple images from motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

(関連出願の相互参照)
本願は、その内容が参照することによってその全体として本明細書に組み込まれる、2017年6月28日に出願され、「METHOD AND SYSTEM FOR PERFORMING SIMULTANEOUS LOCALIZATION AND MAPPING USING CONVOLUTIONAL IMAGE TRANSFORMATION」と題された、米国仮特許出願第62/526,203号の非仮出願であり、その優先権の利益を主張する。
現代のコンピューティングおよびディスプレイ技術は、いわゆる「仮想現実」または「拡張現実」体験のためのシステムの開発を促進しており、デジタル的に再現された画像またはその一部が、現実であるように見える、もしくはそのように知覚され得る様式でユーザに提示される。仮想現実または「VR」シナリオは、典型的に、他の実際の実世界の視覚的入力に対する透過性を伴わずに、デジタルまたは仮想画像情報の提示を伴い、拡張現実または「AR」シナリオは、典型的に、ユーザの周囲の実際の世界の可視化への拡張として、デジタルまたは仮想画像情報の提示を伴う。
これらのディスプレイ技術において行われる進歩にもかかわらず、当技術分野において、拡張現実システム、特に、ディスプレイシステムに関連する改良された方法、システム、およびデバイスの必要がある。
本開示は、概して、同時位置特定およびマッピング(SLAM)を実施するためのシステムおよび方法に関する。より具体的に、本開示の実施形態は、頭部搭載型仮想現実(VR)、複合現実(MR)、および/または拡張現実(AR)デバイスにおいて、畳み込み画像変換を使用して、SLAMを実施するためのシステムおよび方法を提供する。本発明の実施形態は、ユーザによって装着されるデバイスによって捕捉された画像を分析し、それによって、表示される仮想コンテンツの正確度を改良することによって、ユーザ/デバイス移動の正確な検出を可能にする。本発明は、ARデバイスを参照して説明され得るが、本開示は、コンピュータビジョンおよび画像ディスプレイシステムにおける種々の用途にも適用可能である。
本発明の第1の側面では、2つの画像に基づいてホモグラフィを算出する方法が、提供される。方法は、第1のカメラ姿勢に基づく第1の画像と、第2のカメラ姿勢に基づく第2の画像とを受信することを含み得る。方法は、第1の画像に基づく第1の点群と、第2の画像に基づく第2の点群とを生成することも含み得る。方法は、第1の点群および第2の点群をニューラルネットワークに提供することをさらに含み得る。方法は、ニューラルネットワークによって、第1の点群および第2の点群に基づいて、ホモグラフィを生成することをさらに含み得る。いくつかの実施形態では、第1の点群および第2の点群は、2次元(2D)点群である。いくつかの実施形態では、第1の画像は、第1の瞬間において第1のカメラによって捕捉されている。いくつかの実施形態では、第2の画像は、第1の瞬間後の第2の瞬間において第1のカメラによって捕捉されている。いくつかの実施形態では、第1の点群および第2の点群は、第1のニューラルネットワークを使用して生成され、ニューラルネットワークは、第2のニューラルネットワークである。
いくつかの実施形態では、ニューラルネットワークは、複数の点を含む1つ以上の3D点群のうちの各3次元(3D)点群のために、複数の点の閾値距離内の3D軌道を決定することと、3D軌道をサンプリングし、特定の第1のカメラ姿勢および特定の第2のカメラ姿勢を取得することであって、複数の点は、少なくとも部分的に特定の第1のカメラ姿勢および特定の第2のカメラ姿勢から視認可能である、ことと、特定の第1のカメラ姿勢に基づいて、複数の点を第1の2D平面上に投影することと、第1の2D点群を生成し、特定の第2のカメラ姿勢に基づいて、複数の点を第2の2D平面上に投影することと、第2の2D点群を生成し、特定の第1のカメラ姿勢および特定の第2のカメラ姿勢に基づいて、第1の2D点群と第2の2D点群との間のグラウンドトゥルースホモグラフィを決定することと、ニューラルネットワークによって、第1の2D点群および第2の2D点群に基づいて、特定のホモグラフィを生成することと、特定のホモグラフィをグラウンドトゥルースホモグラフィと比較することと、比較に基づいて、ニューラルネットワークを修正することとによって事前に訓練されている。いくつかの実施形態では、複数の3D点群は、1つ以上の幾何学形状をサンプリングすることによって生成される。いくつかの実施形態では、特定の第1のカメラ姿勢および特定の第2のカメラ姿勢は、少なくとも30%重複を有する。
本発明の第2の側面では、ARデバイスが、提供される。ARデバイスは、カメラを含み得る。ARデバイスは、カメラに通信可能に結合されたプロセッサも含み、プロセッサは、カメラから、第1のカメラ姿勢に基づく第1の画像と、第2のカメラ姿勢に基づく第2の画像とを受信することと、第1の画像に基づく第1の点群と、第2の画像に基づく第2の点群とを生成することと、第1の点群および第2の点群をニューラルネットワークに提供することと、ニューラルネットワークによって、第1の点群および第2の点群に基づいて、ホモグラフィを生成することとを含む動作を実施するように構成され得る。いくつかの実施形態では、第1の点群および第2の点群は、2D点群である。いくつかの実施形態では、第1の点群および第2の点群は、第1のニューラルネットワークを使用して生成され、ニューラルネットワークは、第2のニューラルネットワークである。
本発明の第3の側面では、非一過性コンピュータ読み取り可能な媒体が、提供される。非一過性コンピュータ読み取り可能な媒体は、命令を含み得、命令は、プロセッサによって実行されると、第1のカメラ姿勢に基づく第1の画像と、第2のカメラ姿勢に基づく第2の画像とを受信することと、第1の画像に基づく第1の点群と、第2の画像に基づく第2の点群とを生成することと、第1の点群および第2の点群をニューラルネットワークに提供することと、ニューラルネットワークによって、第1の点群および第2の点群に基づいて、ホモグラフィを生成することとを含む動作をプロセッサに実施させる。いくつかの実施形態では、第1の点群および第2の点群は、2D点群である。いくつかの実施形態では、第1の画像は、第1の瞬間において第1のカメラによって捕捉され、第2の画像は、第1の瞬間後の第2の瞬間において第1のカメラによって捕捉されている。いくつかの実施形態では、第1の点群および第2の点群は、第1のニューラルネットワークを使用して生成され、ニューラルネットワークは、第2のニューラルネットワークである。
本明細書は、例えば、以下の項目も提供する。
(項目1)
2つの画像に基づいてホモグラフィを算出する方法であって、前記方法は、
第1のカメラ姿勢に基づく第1の画像と、第2のカメラ姿勢に基づく第2の画像とを受信することと、
前記第1の画像に基づく第1の点群と、前記第2の画像に基づく第2の点群とを生成することと、
前記第1の点群および前記第2の点群をニューラルネットワークに提供することと、
前記ニューラルネットワークによって、前記第1の点群および前記第2の点群に基づいて、前記ホモグラフィを生成することと
を含む、方法。
(項目2)
前記第1の点群および前記第2の点群は、2次元(2D)点群である、項目1に記載の方法。
(項目3)
前記第1の画像は、第1の瞬間において第1のカメラによって捕捉され、前記第2の画像は、前記第1の瞬間後の第2の瞬間において前記第1のカメラによって捕捉されている、項目2に記載の方法。
(項目4)
前記第1の点群および前記第2の点群は、第1のニューラルネットワークを使用して生成され、前記ニューラルネットワークは、第2のニューラルネットワークである、項目2に記載の方法。
(項目5)
前記ニューラルネットワークは、
複数の点を含む1つ以上の3D点群のうちの各3次元(3D)点群のために、
前記複数の点の閾値距離内の3D軌道を決定することと、
前記3D軌道をサンプリングし、特定の第1のカメラ姿勢および特定の第2のカメラ姿勢を取得することであって、前記複数の点は、少なくとも部分的に前記特定の第1のカメラ姿勢および前記特定の第2のカメラ姿勢から視認可能である、ことと、
前記特定の第1のカメラ姿勢に基づいて、前記複数の点を第1の2D平面上に投影し、第1の2D点群を生成することと、
前記特定の第2のカメラ姿勢に基づいて、前記複数の点を第2の2D平面上に投影し、第2の2D点群を生成することと、
前記特定の第1のカメラ姿勢および前記特定の第2のカメラ姿勢に基づいて、前記第1の2D点群と前記第2の2D点群との間のグラウンドトゥルースホモグラフィを決定することと、
前記ニューラルネットワークによって、前記第1の2D点群および前記第2の2D点群に基づいて、特定のホモグラフィを生成することと、
前記特定のホモグラフィを前記グラウンドトゥルースホモグラフィと比較することと、
前記比較に基づいて、前記ニューラルネットワークを修正することと
によって以前に訓練されている、項目2に記載の方法。
(項目6)
前記複数の3D点群は、1つ以上の幾何学形状をサンプリングすることによって生成される、項目5に記載の方法。
(項目7)
前記特定の第1のカメラ姿勢および前記特定の第2のカメラ姿勢は、少なくとも30%重複を有する、項目5に記載の方法。
(項目8)
拡張現実(AR)デバイスであって、前記ARデバイスは、
カメラと、
前記カメラに通信可能に結合されたプロセッサと
を備え、
前記プロセッサは、
前記カメラから、第1のカメラ姿勢に基づく第1の画像と、第2のカメラ姿勢に基づく第2の画像とを受信することと、
前記第1の画像に基づく第1の点群と、前記第2の画像に基づく第2の点群とを生成することと、
前記第1の点群および前記第2の点群をニューラルネットワークに提供することと、
前記ニューラルネットワークによって、前記第1の点群および前記第2の点群に基づいて、ホモグラフィを生成することと
を含む動作を実施するように構成されている、ARデバイス。
(項目9)
前記第1の点群および前記第2の点群は、2次元(2D)点群である、項目8に記載のARデバイス。
(項目10)
前記第1の点群および前記第2の点群は、第1のニューラルネットワークを使用して生成され、前記ニューラルネットワークは、第2のニューラルネットワークである、項目9に記載のARデバイス。
(項目11)
前記ニューラルネットワークは、
複数の点を含む1つ以上の3D点群のうちの各3次元(3D)点群のために、
前記複数の点の閾値距離内の3D軌道を決定することと、
前記3D軌道をサンプリングし、特定の第1のカメラ姿勢および特定の第2のカメラ姿勢を取得することであって、前記複数の点は、少なくとも部分的に前記特定の第1のカメラ姿勢および前記特定の第2のカメラ姿勢から視認可能である、ことと、
前記特定の第1のカメラ姿勢に基づいて、前記複数の点を第1の2D平面上に投影し、第1の2D点群を生成することと、
前記特定の第2のカメラ姿勢に基づいて、前記複数の点を第2の2D平面上に投影し、第2の2D点群を生成することと、
前記特定の第1のカメラ姿勢および前記特定の第2のカメラ姿勢に基づいて、前記第1の2D点群と前記第2の2D点群との間のグラウンドトゥルースホモグラフィを決定することと、
前記ニューラルネットワークによって、前記第1の2D点群および前記第2の2D点群に基づいて、特定のホモグラフィを生成することと、
前記特定のホモグラフィを前記グラウンドトゥルースホモグラフィと比較することと、
前記比較に基づいて、前記ニューラルネットワークを修正することと
によって以前に訓練されている、項目9に記載のARデバイス。
(項目12)
前記複数の3D点群は、1つ以上の幾何学形状をサンプリングすることによって生成される、項目11に記載のARデバイス。
(項目13)
前記特定の第1のカメラ姿勢および前記特定の第2のカメラ姿勢は、少なくとも30%重複を有する、項目11に記載のARデバイス。
(項目14)
命令を備えている非一過性コンピュータ読み取り可能な媒体であって、前記命令は、プロセッサによって実行されると、
第1のカメラ姿勢に基づく第1の画像と、第2のカメラ姿勢に基づく第2の画像とを受信することと、
前記第1の画像に基づく第1の点群と、前記第2の画像に基づく第2の点群とを生成することと、
前記第1の点群および前記第2の点群をニューラルネットワークに提供することと、
前記ニューラルネットワークによって、前記第1の点群および前記第2の点群に基づいて、ホモグラフィを生成することと
を含む動作を前記プロセッサに実施させる、非一過性コンピュータ読み取り可能な媒体。
(項目15)
前記第1の点群および前記第2の点群は、2次元(2D)点群である、項目14に記載の非一過性コンピュータ読み取り可能な媒体。
(項目16)
前記第1の画像は、第1の瞬間において第1のカメラによって捕捉され、前記第2の画像は、前記第1の瞬間後の第2の瞬間において前記第1のカメラによって捕捉されている、項目15に記載の非一過性コンピュータ読み取り可能な媒体。
(項目17)
前記第1の点群および前記第2の点群は、第1のニューラルネットワークを使用して生成され、前記ニューラルネットワークは、第2のニューラルネットワークである、項目15に記載の非一過性コンピュータ読み取り可能な媒体。
(項目18)
前記ニューラルネットワークは、
複数の点を含む1つ以上の3D点群のうちの各3次元(3D)点群のために、
前記複数の点の閾値距離内の3D軌道を決定することと、
前記3D軌道をサンプリングし、特定の第1のカメラ姿勢および特定の第2のカメラ姿勢を取得することであって、前記複数の点は、少なくとも部分的に前記特定の第1のカメラ姿勢および前記特定の第2のカメラ姿勢から視認可能である、ことと、
前記特定の第1のカメラ姿勢に基づいて、前記複数の点を第1の2D平面上に投影し、第1の2D点群を生成することと、
前記特定の第2のカメラ姿勢に基づいて、前記複数の点を第2の2D平面上に投影し、第2の2D点群を生成することと、
前記特定の第1のカメラ姿勢および前記特定の第2のカメラ姿勢に基づいて、前記第1の2D点群と前記第2の2D点群との間のグラウンドトゥルースホモグラフィを決定することと、
前記ニューラルネットワークによって、前記第1の2D点群および前記第2の2D点群に基づいて、特定のホモグラフィを生成することと、
前記特定のホモグラフィを前記グラウンドトゥルースホモグラフィと比較することと、
前記比較に基づいて、前記ニューラルネットワークを修正することと
によって以前に訓練されている、項目15に記載の非一過性コンピュータ読み取り可能な媒体。
(項目19)
前記複数の3D点群は、1つ以上の幾何学形状をサンプリングすることによって生成される、項目18に記載の非一過性コンピュータ読み取り可能な媒体。
(項目20)
前記特定の第1のカメラ姿勢および前記特定の第2のカメラ姿勢は、少なくとも30%重複を有する、項目18に記載の非一過性コンピュータ読み取り可能な媒体。
種々の実施形態の性質および利点のさらなる理解は、以下の図を参照することによって実現され得る。添付の図では、類似コンポーネントまたは特徴は、同一参照標識を有し得る。さらに、同一タイプの種々のコンポーネントは、参照標識の後、ダッシュと、類似コンポーネント間で区別する第2の標識とが続くことによって区別され得る。第1の参照標識のみが、本明細書で使用される場合、説明は、第2の参照標識に関係なく、同一の第1の参照標識を有する類似コンポーネントのうちの任意の1つに適用可能である。
図1は、本発明のいくつかの実施形態による同時位置特定およびマッピング(SLAM)アプローチの3つのサブタスクの視覚的概要を図示する。
図2は、本発明のいくつかの実施形態によるDH-SLAM追跡システムを図示する。
図3は、本発明のいくつかの実施形態によるMagicPointNetアーキテクチャを図示する。
図4は、本発明のいくつかの実施形態によるMagicPointNet合成訓練データを図示する。
図5は、本発明のいくつかの実施形態による点ベースのHomographyNetアーキテクチャを図示する。
図6は、本発明のいくつかの実施形態による点ベースのHomographyNetデータ生成を図示する。
図7は、本発明のいくつかの実施形態によるスマートアンカSLAMシステムを図示する。
図8は、本発明のいくつかの実施形態による2つの画像に基づいてホモグラフィを算出する方法を図示する。
図9は、本発明のいくつかの実施形態によるニューラルネットワークを訓練する方法を図示する。
図10は、本発明のいくつかの実施形態によるウェアラブル拡張現実(AR)デバイスの概略図を図示する。
画像カテゴリ化およびオブジェクト検出等のコンピュータビジョンタスクにおける深層学習成功の多くは、ImageNetおよびMS-COCOのような大規模な注釈が付けられたデータベースの利用可能性から生じる。しかしながら、同時位置特定およびマッピング(SLAM)のような姿勢追跡および再構成問題に対して、代わりに、MicrosoftKinectに基づくFreiburg-TUMRGBDデータセット、立体視カメラおよびIMUに基づくEuRoCドローン/MAVデータセット、ならびに4つのカメラ、GPSデータ、およびVelodyneレーザスキャナを装備する車両のKITTI運転データセット等のより小規模なデバイス特有のデータセットのフラグメント化されたエコシステムが存在する。
SLAMのためのImageNetは、現在、存在しない。実際、多数の環境およびシナリオのための正確なグラウンドトゥルース(ground-truth)姿勢測定を取得することは、困難である。グラウンドトゥルースセンサと視覚的SLAMシステムとの間の正確な整列を得ることは、かなりの努力を要求し、異なるカメラにおける変動にわたってスケーリングすることは容易ではない。フォトリアリスティックレンダリングは、SLAMタスクのための全ての関連幾何学的変数が100%正確度で記録され得るので、有用であり得る。フォトリアリスティックシーケンス上のベンチマーキングSLAMは、利点を有し得るが、そのようなレンダリングされた画像に基づく訓練は、多くの場合、ドメイン適合問題に悩まされ、多くの深層ネットは、過剰適合すると考えられる。
実際は、SLAMモデルが、ロボットおよび複合現実におけるそれら等の内蔵プラットフォーム上で大規模に起動するように効率的である場合、好ましい。本発明の実施形態は、そのようなシステムが内蔵プラットフォーム上で展開され得るように、完全フレーム予測とは対照的に、幾何学的一貫性に焦点を当てる。深層学習システムによって行われる完全フレーム予測は、ある利点を有するが、多くの場合では、点を予測すること/整列させることは、メトリックレベル姿勢復元のために十分である。深層ネットの展開は、通常、ネッを可能な限り小規模にするためのカスタムオフライン最適化プロシージャを伴い、したがって、本発明のいくつかの場合では、完全視覚的フレーム予測問題は、完全に省略される。
本発明の実施形態は、未知の環境における6自由度単眼カメラ位置特定のために、DH-SLAMと称されるシステムを含み得、それは、主に、高センサ雑音、低照明、および主要なオクルージョンの存在下でホモグラフィをロバストに推定するように訓練される畳み込みニューラルネットワークを装備している。システムは、3つの深層ConvNetsを含み得る。第1のネットワークであるMagicPointNetは、単一画像に動作し、画像内の顕著な点を抽出し(顕著な点は、設計によって、画像内で分離され、十分に分散させられている)、非最大抑制等の任意の追加の後処理を利用しないこともある。第2のネットワークであるPointHomographyNetは、MagicPointNetからの対の点応答マップに動作し、2つの点画像を関連させるホモグラフィを推定し得る。そして、ホモグラフィ推定は、標準的MVG技法を使用して再推定されるか、または、場面が高度に非平面である場合、基本行列にアップグレードされ得る。第3のネットワークであるRelocalizationNetは、単一画像を信頼性があり、かつ高速な再位置特定のために使用される高速画像比較を可能にする低次元埋め込みベクトルに変換し得る。ネットワークは、単純合成データで訓練され、単純合成データは、それらが高価な外部カメラグラウンドトゥルース機器または高度なグラフィックレンダリングパイプラインに依拠しないので、ネットワークを訓練しやすくする。システムは、高速かつ効率的であり、CPU上で30+FPSで起動することが可能である。
本発明の種々の実施形態では、3つのカスタムSLAM畳み込みニューラルネットワークが、3つの別個の訓練ドメインとともに提示される。しかしながら、この特定の実装は、要求されず、ニューラルネットワークのうちの1つ以上のものは、いくつかの実施形態では、組み合わせられ得る。ホモグラフィが各システムの重要なコンポーネントであり得るので、ホモグラフィ的に導かれる単眼SLAMシステムが、提示される。本発明の実施形態は、どんな種類のローカル特徴点記述子も使用しないこともあり、手動データ注釈または高価なオフライングラフィックレンダリングパイプラインを要求しないこともある。
図1は、本発明のいくつかの実施形態によるSLAMアプローチの3つのサブタスクの視覚的概要を図示する。サブタスク102では、幾何学的点プリミティブが、結像効果(センサ雑音、照明、テクスチャ、およびモーションぼけ等)を除去するために、画像から抽出される。サブタスク104では、対の点画像が、比較され、画像を関連させる、グローバル姿勢情報を抽出する。サブタスク106では、画像は、高速画像マッチングのために、低次元ベクトルに圧縮される。
サブタスク102は、画像を点のような幾何学的エンティティの組にマッピングすることに関する。サブタスク102の1つの目標は、照明、陰影、および全体的グローバル照明変動のような迷惑変数の損傷を元に戻すことである。角検出に類似した技法を使用して、入力画像内の信頼性がある場所を抽出することも望ましくあり得る。しかしながら、画像の角を分析的に定義する代わりに、カスタム2D形状レンダラが、角検出器を訓練するために使用される。結果として生じる2D画像場所が、場面点の準稠密被覆がロバストな変換推定のために重要であり得るので、システムから準稠密的に出力される。
サブタスク104は、一対の画像間の相対的姿勢を見出すことに関する。いくつかの場合では、ホモグラフィは、ワーピングされた自然画像の大規模データセットからサンプリングされた複数対のグレースケール画像に基づいて訓練されたCNNから算出され得る。本発明のいくつかの実施形態では、CNNは、点画像、すなわち、MagicPointNetによって出力された画像の種類の空間を使用して訓練される。準稠密点画像の空間は、完全RGB画像の空間よりかなり小さくあり得るので、かなりより高い性能が、完全RGB画像を取り扱うために必要であるものより少ない数のニューロンを使用して取得され得る。本明細書に提示される姿勢推定ネットワークは、点応答画像に動作し得、ホモグラフィモードおよび基本モードの両方において起動し得る。2つの異なる方法において3D世界を取り扱う能力は、複数視点幾何学形状の状況では、場面平面性の仮定が適用できることも、できないこともあるので、重要であり得る。平面性仮定が適用できる場合、ホモグラフィが、推定され、後に、個々の点深度を配慮せずに、(R,t)推定値にアップグレードされることができる。代わりに、ソルバが、基本行列推定に基づく場合、場面平面性は、退化E推定値を提供し、全ての他の推定は、失敗し得る。故に、視認可能場面幾何学形状が高度に非平面であるとき、E、R、t、および点深度は、直接、対処され得る。
サブタスク106は、画像の視覚的埋め込みを作成することに関する。他のタスクのために、姿勢に敏感であることは、重要であり得るが、埋め込みのために、姿勢に敏感でないことが、望ましくあり得る。実世界画像を使用することは、2D形状または点応答画像のようなエンジニアリングされた表現の上に、埋め込みを学習することが補助となる可能性が低くあり得るので、このタスクのために重要であり得る。代わりに、画像の大規模な自由に利用可能なデータセット(すなわち、ImageNet)が、使用され、ホモグラフィが、画像をワーピングさせるために使用される。学習中、2つの画像は、それらがホモグラフィ的に関連する場合、類似埋め込みベクトルを有するように強制され得る。
図2は、本発明のいくつかの実施形態によるDH-SLAM追跡システム200の一般的アーキテクチャを図示する。いくつかの場合では、対の画像(例えば、画像202および画像204)が、MagicPointNetによって処理され、MagicPointNetは、画像内の顕著な点を検出し、一対の点画像(例えば、点画像206および点画像208)を生成するように訓練される。点画像は、次いで、PointHomographyNetによって、一緒に処理され、時間Tにおける点画像と時間T+1における点画像を関連させるホモグラフィHを算出する。ネットワークからのH推定値は、ほぼ平面の場面に対して、多くの場合、点を互いの数ピクセル以内に投影し得、したがって、単純最近傍対応が、より精密なH’を再推定するために十分であるか、または、Hは、複数視点幾何学形状技法を使用して非平面場面をより詳細に説明する基本行列Fにアップグレードされ得る。そして、H’およびFの両方は、カメラ行列Kを使用して、カメラの相対的姿勢に分解されることができる。
いくつかの場合では、SLAMシステムは、3つのサブシステムに分解される:画像を2D点場所の規準的サブ空間の中にもたらすMagicPoint検出器、グローバル変換推定点ベースのHomographyNet、RelocNetと呼ばれる視覚的画像埋め込みエンジン。いくつかの実施形態では、各サブシステムは、別個の畳み込みニューラルネットワークである。MagicPointNetおよびRelocNetの両方が、単一画像に動作する一方、PointHomographyNetは、一対の画像に動作する。いくつかの実施形態では、ネットワークは、以下の問題を解決することが可能である:雑音の多い画像においてロバストな2D場所を検出すること、2つの画像間の相対的姿勢を算出すること、および、再位置特定。エンジニアリングされた特徴記述子(ORBまたはSIFT)の両方に大きく依拠する従来のアプローチと異なり、本発明の実施形態は、記述子を画像内の個々の点に関連付けないこともある。これらの従来の特徴ベースのSLAMシステムと異なり、相対的姿勢推定は、無記述子方式で実施され得る。グローバル画像全体記述子に類似し得る埋め込みも、使用され得る。埋め込みは、擬似ホモグラフィ不変量であるようにエンジニアリングされ得る。設計によって、ホモグラフィによって関連付けられる2つの画像は、所与の多様体上で近接し得る。
いくつかの場合では、第1のステップは、画像内で顕著かつ位置特定可能な2D場所を検出することを含み得る。このステップは、HarrisまたはFAST等の角様応答マップを算出し、極大値を検出し、非最大抑制(non-maximal suppression)を採用することによって実施され得る。追加のステップが、これらの極大値を画像全体を通して分散させるために実施され得る。このプロセスは、高度な専門領域の知識および手動エンジニアリングを伴い得、それは、一般化およびロバスト性を限定し得る。SLAM設定における有用性を増加させるために、点検出器によって検出された点は、フレームにわたる対応が容易であるように、画像全体を通して広く分散させられ、互いから分離され得る。システムが高センサ雑音シナリオおよび低光量において点を検出することも望ましくあり得る。いくつかの場合では、信頼度スコアが、検出された各点のために取得され得、それは、スプリアス点を排除することに役立つように使用され得る。これらの像点が画像内のローカル高勾配縁に対応する必要はないが、代わりに、ブロブの中心等の他の低レベルキューに対応し得、それが、従来の角検出器より大きい受け入れ可能野を利用し得ることに留意されたい。
図3は、本発明のいくつかの実施形態によるMagicPointNetアーキテクチャ300を図示する。いくつかの実施形態では、MagicPointNetは、グレースケール画像に動作し、入力の各ピクセルのための「点性(point-ness)」確率を出力する。これは、明示的デコーダと組み合わせられたVGG式エンコーダを用いて、行われ得る。最終15×20×65テンソルにおける各空間場所は、ローカル8×8領域に関する確率分布+単一ダストビンチャネルを表し得、それは、点が検出されないことを表し得る(8×8+1=65)。ネットワークは、2D形状レンダラからの点監視を使用した標準クロスエントロピ損失を使用して訓練される。
いくつかの場合では、MagicPointNetは、カスタムConvNetアーキテクチャおよび訓練データパイプラインを使用して実装される。いくつかの場合では、画像Iを等価分解能を伴う点応答画像Pにマッピングすることが重要であり得、出力の各ピクセルは、入力におけるそのピクセルのための「点性」の確率に対応する。稠密予測のためのネットワーク設計は、エンコーダ-デコーダペアを伴い得、空間分解能は、プーリングまたはストライド畳み込みを介して減らされ、そして、上方畳み込み演算を介して、完全分解能に戻るようにアップサンプリングされる。アップサンプリング層は、より高い算出負担を追加し得るので、MagicPointNetは、明示的デコーダを用いて実装され、モデルの算出を低減させ得る。畳み込みニューラルネットワークは、VGG式エンコーダを使用して、画像の寸法を120×160から15×20セルグリッドに低減させ、各空間位置のための65チャネルを伴い得る。いくつかの実施形態では、QQVGA分解能は、算出負担を減少させるために、120×160であり得る。65チャネルは、ピクセルのローカル非重複8×8グリッド領域+余剰ダストビンチャネルに対応し得、それは、その8×8領域内で点が検出されないことに対応する。ネットワークは、3×3畳み込み後、BatchNorm正規化およびReLU非線形性を使用して、完全に畳み込まれ得る。最終畳み込み層(convlayer)は、1×1畳み込みであり得る。
図4は、本発明のいくつかの実施形態によるMagicPointNet合成訓練データを図示する。いくつかの実施形態では、画像の着目点は、種々の視点、照明、および画像雑音変動にわたって安定している画像内の一意に識別可能な場所であり得る。スパースSLAMシステムのための事前処理ステップとして使用されるとき、所与のSLAMシステムのために良好に機能する点が、検出され得る。点検出アルゴリズムのハイパーパラメータを設計および選定することは、専門家および専門領域に特有の知識を利用し得る。
今日、着目点が標識された画像の大規模データベースは、存在しない。高価なデータ収集労力を回避するために、レンダラが、コンピュータビジョンライブラリを使用して実装され得る。いくつかの場合では、それらの各々のための角のグラウンドトゥルース場所が既知である三角形、四辺形、市松模様、3D立方体、および楕円形等の単純幾何学的形状が、レンダリングされる。各オブジェクトの2D面の重心も、既知であり、それらは、追加の着目点としての役割を果たす。2D面の中心を見出す単純かつロバストな検出器を設計することが困難であろうことに留意されたい。形状がレンダリングされた後、ホモグラフィワーピングが、各画像に適用され、訓練例の数を増大させ得る。随意に、雑音、例えば、照明変化、テクスチャエンジニアリングされる雑音、ガウス雑音、ごま塩雑音、それらの組み合わせ等の形態における大量の雑音が、画像のうちの1つ以上のもの(例えば、各画像)に適用され得る。データは、オンザフライで生成され得、それは、どんな例もネットワークによって2回経験されないことを意味する。ネットワークは、15×20グリッドにおける各セルのためのロジットがソフトマックス関数を通して送られた後、標準クロスエントロピ損失を使用して訓練され得る。
いくつかの場合では、PointHomographyNetは、MagicPointによって生産されるような一対の点画像を所与として、ホモグラフィを生産する。全ての画像の空間および相対的姿勢の空間(全ての画像の空間×相対的姿勢の空間)の代わりに、点画像の空間および相対的姿勢の空間(点画像の空間×相対的姿勢の空間)に動作するようにネットワークを設計することによって、照明、陰影、およびテクスチャ等のいくつかの考慮点は、重要性が低減させられるか、または無視され得る。さらに、適用できるために、測光一貫性仮定が、当てにされる必要はない。
図5は、本発明のいくつかの実施形態による点ベースのHomographyNetアーキテクチャ500を図示する。いくつかの場合では、対のバイナリ点画像が、連結され、そして、VGG式エンコーダを通してフィードされる。3×3ホモグラフィHが、完全結合層によって出力される。そして、ホモグラフィHは、その右下要素が1であるように、正規化され得る。損失が、第2の画像内に対応を有することが既知の1つの画像内の点を第2の画像に変換し、その位置を比較することによって算出される。PointHomographyNetを訓練するための損失関数は、式(1)に示される。
Figure 0007250709000001
いくつかの場合では、PointHomographyNetは、直接、MagicPointNetによって出力された点検出に動作するように設計される(但し、任意の従来の点検出器に動作することができる)。モデルは、対の準稠密15×20×65画像上で良好に機能し得る。この小空間分解能では、ネットワークは、非常にわずかな算出を使用する。入力のチャネル毎連結後、3×3畳み込み、最大プーリング、BatchNorm、およびReLUアクティブ化後、2つの完全結合層から成るVGG式エンコーダは、実装され得、それは、3×3ホモグラフィHの9つの値を出力する。
図6は、本発明のいくつかの実施形態による点ベースのHomographyNetデータ生成を図示する。いくつかの実施形態では、PointHomographyNetを訓練するために、2つの仮想カメラの中にレンダリングされた点群の数百万の例が、生成され得る。点群は、平面、球体、および立方体を含む単純3D幾何学形状から生成され得る。2つの仮想カメラの位置は、図6に示されるように、区分線形平行移動およびランダム軸の周囲の回転から成るランダム軌道からサンプリングされる。いくつかの実施形態では、少なくとも30%視覚的重複を有するカメラ対が、ランダムにサンプリングされる。点が、2つのカメラフレームの中に投影されると、点入力ドロップアウトが、適用され、スプリアスおよび欠測点検出に対するネットワークのロバスト性を改良する。いくつかの場合では、性能は、独立して、合致の50%をランダムにドロップし、点の25%をランダムにドロップすることによって改良される。
いくつかの考慮点が、典型的に、直接、3×3行列を出力するようにネットワークを訓練するために考慮される。いくつかの場合では、訓練は、最終FC層バイアスが、単位行列を出力するように初期化されるとき、ホモグラフィHの座標が、範囲[-1,1]に正規化されるとき、および、ホモグラフィHが8自由度を有し、かつ9つの要素を有するので、右下要素が1であるようにH数が正規化されるとき、最良に機能する。
いくつかの実施形態では、埋め込みネットワークの1つの目標は、グローバル128次元記述子を入力画像に関連付けることであり得る。いくつかの実施形態では、埋め込みが、ホモグラフィ不変であることが望ましい。例えば、ホモグラフィによって関連する2つの画像は、同一埋め込みベクトルを有するべきであり、同一場面コンテンツを描写しない(したがって、同一平面ではない)2つの画像は、異なる埋め込みベクトルを有するべきである。
埋め込みネットワークは、128 L2-正規化記述子を生産し得る。これは、VGGのようなエンコーダネットワークに加え、完全結合層によって行われ得る。いくつかの場合では、埋め込みネットワークは、ImageNetデータセットからの対のホモグラフィ的に関連する画像を使用して訓練され得る。全て同一画像からの画像パッチのトリプレット(A,A’,B)が、サンプリングされ得、(A,A’)は、少なくとも30%重複を有し、ホモグラフィによって関連付けられ、(A,B)は、重複を有していない。ネットワークを訓練するために使用される、(A,A’)正対および(A,B)負対が、生成され得る。いくつかの実施形態では、当業者に明白であり得るように、シャムネットワークが、使用されることができる一方、他の実施形態では、2タワーアプローチまたはトリプレットネットワークが、使用され得る。
MagicPointNetが、FAST角検出器およびHarris角検出器のような従来の角検出ベースラインに対して評価された。PointHomographyNetは、実センサからの合成データおよび画像シーケンスの両方に関して、古典的ORB+RANSACベースのホモグラフィ推定エンジンに対して評価された。合成ドット世界における評価の1つの利点は、点の組間のグラウンドトゥルース対応が既知であることである。雑音の量を変動させることが、2つのアルゴリズムが低下した程度を決定するために追加され得る。埋め込みネットワークを評価するために、最近傍のグリッドが、埋め込みメトリックを使用して算出される。これは、ベースResNetアクティブ化を使用して、アクティブ化空間内の最近傍を求めることと比較された。
ホモグラフィSLAMシステム全体を評価するために、評価が、合致によって生産された最終(R,t)推定値に関して実施された。追跡(最後のフレームに対する姿勢のみの推定)および埋め込み拡張追跡(最も近い埋め込みを伴うK枚の画像に対する姿勢の推定)の両方に関する数が、観察された。本発明の実施形態は、PTAM、ORB-SLAM、およびLSD-SLAMのようないくつかのオープンソースSLAMシステムと定質的に比較された。上で説明される評価の結果は、本発明の種々の実施形態が、従来のアプローチと比較して、より優れた性能を示すことを示した。
本発明の実施形態は、PointHomographyNetおよびRelocNetとともに、少数の画像とともに、それらの関連付けられた点画像を使用する平面の周囲に設計される、小型拡張現実システムを含み得る。いくつかの場合では、データセット収集は、カメラ中心に向かって真っ直ぐに向いている法線[0,0,1]を伴う基準平面の頭部搭載構成から開始する短シーケンスを作成することを伴う。基準平面のそのような頭部搭載初期ビューを提供することは、ホモグラフィ分解からの2つの解の曖昧性解消ならびに各2D目印のための初期スケールを可能にする。
図7は、本発明のいくつかの実施形態によるスマートアンカSLAMシステム700を図示する。いくつかの実施形態では、ユーザは、最初に、屋内環境内のほとんど平面の表面の写真を撮影することによって、「スマートアンカ」の組を構築する。これは、対の点画像のユーザのキーフレームインデックスおよび埋め込み(E,E,E,・・・)を取り込む。インデックスが構築されると、システムは、追跡モードで起動されることができる。MagicPointNetおよびRelocNetは、時間Tにおける入力画像を処理し、点画像Pおよび埋め込みベクトルEを生産し得る。いくつかの実施形態では、Eのドット積が、次いで、他の(例えば、1つおきの)埋め込み(E,E,E,・・・)のうちの1つ以上のもので算出され、埋め込み多様体上の最近傍を見出す。図7に示される特定の実施形態では、Eが、選択される。Eに対応する点画像Pが、次いで、PとともにPointHomographyNetの中にフィードされ、ホモグラフィHを算出し得、それは、Pにおける点をPに変換する。ホモグラフィHは、最後に、回転R、平行移動t、および主平面nに分解され得る。最後に、(P,E)アンカに対応するコンテンツが、ワーピングされ、ARオーバーレイとして入力画像内に表示され得る。
図8は、2つの画像に基づいてホモグラフィを算出する方法800を図示する。方法800のステップは、示されるものと異なる順序で実施され得、方法800の1つ以上のステップは、方法800の実施中、省略され得る。方法800の1つ以上のステップは、非一過性コンピュータ読み取り可能な媒体内に含まれる命令を実行するように構成されるプロセッサによって、実施および/または開始され得る。
ステップ802では、第1の画像および第2の画像が、受信される。第1の画像は、第1のカメラ姿勢に基づき得、第2の画像は、第2のカメラ姿勢に基づき得、第2のカメラ姿勢は、第1のカメラ姿勢と異なる。いくつかの実施形態では、第1の画像および第2の画像は、同一カメラによって捕捉され得(それぞれ、第1の瞬間および第2の瞬間において、第2の瞬間は、第1の瞬間後に生じる)、および他の実施形態では、同時または2つの瞬間に、第1の画像が、第1のカメラによって捕捉され得、第2の画像が、第2のカメラによって捕捉され得る。
ステップ804では、第1の点群が、第1の画像に基づいて生成され、第2の点群が、第2の画像に基づいて生成される。いくつかの実施形態では、第1のニューラルネットワークが、点群を生成するために使用され、すなわち、第1の画像は、第1のニューラルネットワークへの入力として提供され、第1の点群は、第1の画像に基づいて、第1のニューラルネットワークによって生成され、第2の画像は、第1のニューラルネットワークへの入力として提供され、第2の点群は、第2の画像に基づいて、第1のニューラルネットワークによって生成される。第1のニューラルネットワークは、本明細書に説明されるMagicPointNetであり得、それは、画像に基づいて、2D点群を生成し得る。
ステップ806では、第1の点群および第2の点群は、第2のニューラルネットワークへの入力として提供される。第2のニューラルネットワークは、本明細書に説明されるPointHomographyNetであり得、それは、点群に基づいて、ホモグラフィを生成し得る。いくつかの実施形態では、第1のニューラルネットワークは、2つのネットワークの機能性が単一システム内で組み合わせられ得るように、第2のニューラルネットワークと組み合わせられ得る。
ステップ808では、ホモグラフィは、第2のニューラルネットワークを使用して、第1の点群および第2の点群に基づいて生成される。いくつかの実施形態では、生成されたホモグラフィは、行列(例えば、3×3)を含み、それから、第1のカメラ姿勢と第2のカメラ姿勢との間の相対的回転および相対的平行移動(すなわち、相対的姿勢)が、抽出され得る。
図9は、ニューラルネットワークを訓練する方法900を図示する。方法900のステップは、示されるものと異なる順序で実施され得、方法900の1つ以上のステップは、方法900の実施中、省略され得る。方法900を参照して説明されるニューラルネットワークは、方法800を参照して説明される第2のニューラルネットワークであり得、それは、本明細書に説明されるPointHomographyNetであり得る。方法900の1つ以上のステップは、非一過性コンピュータ読み取り可能な媒体内に含まれる命令を実行するように構成されるプロセッサによって、実施および/または開始され得る。
ステップ902では、1つ以上の3D点群が、生成される。3D点群の各々は、複数の3D点を含み得る。いくつかの実施形態では、1つ以上の3D点群は、他の可能性の中でもとりわけ、平面、球体、立方体等の1つ以上の幾何学形状をランダムにサンプリングすることによって生成される。例えば、特定の幾何学形状(例えば、球体または立方体)の表面が、ランダムにサンプリングされ、複数の3D点を生産し得る。代替として、特定の幾何学形状の縁が、ランダムにサンプリングされ得るか、または、表面および縁の両方が、ランダムにサンプリングされ得る。いくつかの実施形態では、特定の幾何学形状の体積全体が、ランダムにサンプリングされ得る。
いくつかの実施形態では、ステップ904-916の各々は、1つ以上の3D点群の各3D点群のために実施され得る。ステップ904では、3D軌道が、複数の点の近傍で決定され得る。例えば、3D軌道の全ては、複数の点の閾値距離内にあり得る。いくつかの実施形態では、3D軌道は、ランダム開始場所およびランダム終了場所を決定することによって形成される線形軌道である。他の実施形態では、または、同一実施形態では、3D軌道は、非線形軌道(例えば、湾曲)であるか、または、3D軌道は、ランダム開始場所、ランダム終了場所、および1つ以上の中間場所を決定することによって形成される一連の線形軌道である。
ステップ906では、3D軌道が、サンプリングされ、特定の第1のカメラ姿勢および特定の第2のカメラ姿勢を取得し得る。いくつかの実施形態では、複数の点は、少なくとも部分的に特定の第1のカメラ姿勢および特定の第2のカメラ姿勢から視認可能である。例えば、取得されるカメラ姿勢は、複数の点の少なくとも25%、50%、75%、または100%を視認するそれらのカメラ姿勢に制限され得る。カメラ姿勢が、所定の閾値(例えば、複数の点の少なくとも50%が視認可能である)を満たさない場合、カメラ姿勢は、破棄され、3D軌道は、再サンプリングされ、別のカメラ姿勢を取得する。いくつかの実施形態では、取得されるカメラ姿勢は、互いに視覚的重複の少なくともある閾値(例えば、30%)を有するように制限される。いくつかの実施形態では、視覚的重複は、特定の第1のカメラ姿勢および特定の第2のカメラ姿勢の両方によって視認可能な、複数の点のうちの点のパーセンテージに対応し得る。他の実施形態では、視覚的重複が、取得される姿勢間の共有視野に基づいて計算され得る。
ステップ908では、複数の点は、特定の第1のカメラ姿勢に基づいて、第1の2D平面上に投影され、第1の2D点群を生成し、同様に、複数の点は、特定の第2のカメラ姿勢に基づいて、第2の2D平面上に投影され、第2の2D点群を生成する。いくつかの実施形態では、第1の2D平面は、特定の第1のカメラ姿勢の向きベクトルに直交し得、第2の2D平面は、特定の第2のカメラ姿勢の向きベクトルに直交し得る。
ステップ910では、第1の2D点群と第2の2D点群との間のグラウンドトゥルースホモグラフィが、特定の第1のカメラ姿勢および特定の第2のカメラ姿勢に基づいて決定される。いくつかの実施形態では、グラウンドトゥルースホモグラフィは、最初に、特定の第1のカメラ姿勢と特定の第2のカメラ姿勢との間の相対的回転および相対的平行移動を決定し、そして、ニューラルネットワークによって生成されたホモグラフィと構造が一貫するホモグラフィ(行列)を形成することによって決定される。
ステップ912では、第1の2D点群および第2の2D点群は、入力としてニューラルネットワークに提供され得、特定のホモグラフィが、第1の2D点群および第2の2D点群に基づいて、ニューラルネットワークによって生成され得る。
ステップ914では、特定のホモグラフィは、グラウンドトゥルースホモグラフィと比較され、例えば、誤差信号を生成し得る。いくつかの実施形態では、誤差信号の大きさは、特定のホモグラフィとグラウンドトゥルースホモグラフィとの間の差異の大きさに比例し得る。1つの特定の実施形態では、誤差信号は、行列の対応する要素が互いから減算される標準行列減算方法を使用して計算される。他の実施形態では、または、同一実施形態では、誤差信号は、相対的回転における差異に対応する第1の成分と、相対的平行移動における差異に対応する第2の成分とを含む。いくつかの実施形態では、誤差信号は、相対的姿勢における差異に対応する単一成分を含む。
ステップ916では、ニューラルネットワークは、ステップ914において実施される特定のホモグラフィとグラウンドトゥルースホモグラフィとの間の比較に基づいて、例えば、ニューラルネットワークの1つ以上の重みまたは係数を調節することによって、修正される。いくつかの実施形態では、ニューラルネットワークは、より大きい誤差信号がより大きい修正をニューラルネットワークに生じさせるように、ホモグラフィ間の計算された差異(すなわち、誤差信号)に基づいて、修正され得る。一般に、ニューラルネットワークを修正することは、ニューラルネットワークがより正確になるようにし、それによって、特定のホモグラフィとグラウンドトゥルースホモグラフィとの間の差異を減少させる。
図10は、本明細書に説明される実施形態のうちの1つ以上のものを採用し得るウェアラブルARデバイス1000の概略図を図示する。ARデバイス1000は、左接眼レンズ1002Aと、右接眼レンズ1002Bと、直接、左接眼レンズ1002A上またはその近傍に取り付けられる左正面に面した世界カメラ1006Aと、直接、右接眼レンズ1002B上またはその近傍に取り付けられる右正面に面した世界カメラ1006Bと、左側に面した世界カメラ1006Cと、右側に面した世界カメラ1006Dと、処理モジュール1050とを含み得る。ARデバイス1000のコンポーネントの一部または全部は、投影された画像がユーザによって視認され得るように、頭部搭載型であり得る。1つの特定の実装では、図10に示されるARデバイス1000のコンポーネントの全ては、ユーザによって装着可能な単一デバイス(例えば、単一ヘッドセット)ウェアラブル上に搭載される。別の実装では、処理モジュール1050は、ARデバイス1000の他のコンポーネントと物理的に別個であり、有線または無線接続性によって、それに通信可能に結合される。例えば、処理モジュール1050は、フレームに固定して取り付けられる構成、ユーザによって装着されるヘルメットまたは帽子に固定して取り付けられる構成、ヘッドホンに内蔵される構成、または別様に、ユーザに除去可能に取り付けられる構成(例えばリュック式構成、ベルト結合式構成等において)等、種々の構成において搭載され得る。
処理モジュール1050は、プロセッサ1052と、不揮発性メモリ(例えば、フラッシュメモリ)等のデジタルメモリとを備え得、両方は、データの処理、キャッシュ、および記憶を補助するために利用され得る。データは、画像捕捉デバイス(例えば、カメラ1006)、マイクロホン、慣性測定ユニット、加速度計、コンパス、GPSユニット、無線デバイス、および/またはジャイロスコープから捕捉されたデータを含み得る。例えば、処理モジュール1050は、カメラ1006からの画像1020、より具体的に、左正面に面した世界カメラ1006Aからの左正面画像1020A、右正面に面した世界カメラ1006Bからの右正面画像1020B、左側に面した世界カメラ1006Cからの左側画像1020C、および右側に面した世界カメラ1006Dからの右側画像1020Dを受信し得る。いくつかの実施形態では、画像1020は、単一画像、一対の画像、画像のストリームを備えているビデオ、ペアリングされた画像のストリームを備えているビデオ等を含み得る。画像1020は、ARデバイス1000が電源オンである間、周期的に、生成され、処理モジュール1050に送信され得るか、または、処理モジュール1050によってカメラのうちの1つ以上のものに送信される命令に応答して生成され得る。
接眼レンズ1002Aおよび1002Bは、プロジェクタ1014Aおよび1014Bからの光を向けるように構成される透明または半透明導波管を備え得る。具体的に、処理モジュール1050は、左プロジェクタ1014Aに、左投影画像1022Aを左接眼レンズ1002Aの中に出力させ得、右プロジェクタ1014Bに、右投影画像1022Bを右接眼レンズ1002Bの中に出力させ得る。いくつかの実施形態では、接眼レンズ1002の各々は、各々が異なる色および/または異なる深度平面に対応する複数の導波管を備え得る。
カメラ1006Aおよび1006Bは、それぞれ、ユーザの左および右眼の視野と実質的に重複する画像を捕捉するように位置付けられ得る。故に、カメラ1006Aおよび1006Bの場所は、ユーザの眼の近傍であり得るが、ユーザの視野を曖昧にするほど近傍ではない。代替として、または加えて、カメラ1006Aおよび1006Bは、それぞれ、投影された画像1022Aおよび1022Bの内部結合場所と整合するように位置付けられ得る。カメラ1006Cおよび1006Dは、ユーザの側面、例えば、ユーザの周辺視覚内またはユーザの周辺視覚外の画像を捕捉するように位置付けられ得る。カメラ1006Cおよび1006Dを使用して捕捉された画像1020Cおよび1020Dは、必ずしも、カメラ1006Aおよび1006Bを使用して捕捉された画像1020Aおよび1020Bと重複する必要はない。
ARデバイス1000の動作中、処理モジュール1050は、訓練されたネットワーク1056を使用して、カメラ1006の任意のものによる2つの捕捉された画像に基づいて、ホモグラフィを算出し得る。推定されたホモグラフィは、プロセッサ1052によって使用され、ユーザの移動に起因するユーザの視野の変化をより正確に反映する仮想コンテンツをレンダリングし得る。ネットワーク1056は、人工ニューラルネットワーク、畳み込みニューラルネットワーク、深層ネットワーク、または例を処理することによって徐々に「学習」し得る任意のタイプのネットワークもしくはシステムであり得る。いくつかの実施形態では、ネットワーク1056は、信号を1つのものから別のものに伝送することが可能である接続されたノードの集合を備えている。プロセッサ1052は、単一ネットワーク1056と通信し得るか、またはいくつかの実施形態では、プロセッサ1052は、第1のネットワーク(例えば、MagicPointNetに対応する)、第2のネットワーク(例えば、PointHomographyNetに対応する)、および第3のネットワーク(例えば、RelocNetに対応する)等の複数のニューラルネットワークと通信し得る。
いくつかの例示的構成が説明されたが、種々の修正、代替構造、および均等物が、本開示の精神から逸脱することなく、使用され得る。例えば、前述の要素は、より大きいシステムのコンポーネントであり得、他のルールが、本技術の用途に優先するか、または別様にそれを修正し得る。いくつかのステップは、前述の要素が検討される前、間、または後にも行われ得る。故に、前述の説明は、請求項の範囲を束縛するものではない。
本明細書および添付の請求項で使用されるように、単数形「a」、「an」、および「the」は、文脈によって明確に別様に示されない限り、複数参照を含む。したがって、例えば、「ユーザ」の言及は、複数のそのようなユーザを含み、「プロセッサ」の言及は、1つ以上のプロセッサおよび当業者に公知のその均等物等の言及を含む。
単語「comprise(~を備えている)」、「comprising(~を備えている)」、「contains(~を含む)」、「containing(~を含む)」、「include(~を含む)」、「including(~を含む)」、および「includes(~を含む)」も、本明細書および以下の請求項で使用されるとき、述べられた特徴、整数、コンポーネント、またはステップの存在を規定するために意図されるが、それらは、1つ以上の他の特徴、整数、コンポーネント、ステップ、行為、またはグループの存在または追加を除外するものではない。
本明細書に説明される例および実施形態が、例証目的のためだけのものであり、それに照らして、種々の修正または変更が、当業者に示唆され、本願の精神および権限ならびに添付される請求項の範囲内に含まれるものであることも理解されたい。

Claims (14)

  1. 2つの画像に基づいてホモグラフィを算出する方法であって、前記方法は、
    第1のカメラ姿勢に基づく第1の画像と、第2のカメラ姿勢に基づく第2の画像とを受信することと、
    前記第1の画像に基づく第1の2D点群と、前記第2の画像に基づく第2の2D点群とを生成することと、
    前記第1の2D点群および前記第2の2D点群をニューラルネットワークに提供することと、
    前記ニューラルネットワークによって、前記ニューラルネットワークへの入力として前記第1の2D点群および前記第2の2D点群を提供したことに応答して、前記ホモグラフィを生成することと
    を含み、
    前記ニューラルネットワークは、
    複数の点を含む3D点群を生成することと、
    2つのカメラ姿勢を取得することであって、前記2つのカメラ姿勢から前記複数の点が少なくとも部分的に視認可能であり、前記2つのカメラ姿勢は、前記第1のカメラ姿勢および前記第2のカメラ姿勢とは異なる、ことと、
    前記2つのカメラ姿勢を使用して前記複数の点を2つの2D平面上に投影することにより、2つの2D点群を生成することと、
    前記ニューラルネットワークによって、前記ニューラルネットワークへの入力として前記2つの2D点群を提供したことに応答して、特定のホモグラフィを生成することと、
    前記2つのカメラ姿勢に基づいて、グラウンドトゥルースホモグラフィを決定することと、
    前記特定のホモグラフィおよび前記グラウンドトゥルースホモグラフィを使用して前記ニューラルネットワークを修正することと
    によって以前に訓練されたものである、方法。
  2. 前記第1の画像は、第1の瞬間において第1のカメラによって捕捉され、前記第2の画像は、前記第1の瞬間後の第2の瞬間において前記第1のカメラによって捕捉されている、請求項に記載の方法。
  3. 前記第1の2D点群および前記第2の2D点群は、第1のニューラルネットワークを使用して生成され、前記ニューラルネットワークは、第2のニューラルネットワークである、請求項に記載の方法。
  4. 記3D点群は、1つ以上の幾何学形状をサンプリングすることによって生成される、請求項に記載の方法。
  5. 前記2つのカメラ姿勢は、少なくとも30%の視覚的重複を有する、請求項に記載の方法。
  6. 拡張現実(AR)デバイスであって、前記ARデバイスは、
    カメラと、
    前記カメラに通信可能に結合されたプロセッサと
    を備え、
    前記プロセッサは、
    前記カメラから、第1のカメラ姿勢に基づく第1の画像と、第2のカメラ姿勢に基づく第2の画像とを受信することと、
    前記第1の画像に基づく第1の2D点群と、前記第2の画像に基づく第2の2D点群とを生成することと、
    前記第1の2D点群および前記第2の2D点群をニューラルネットワークに提供することと、
    前記ニューラルネットワークによって、前記ニューラルネットワークへの入力として前記第1の2D点群および前記第2の2D点群を提供したことに応答して、ホモグラフィを生成することと
    を含む動作を実施するように構成されており、
    前記ニューラルネットワークは、
    複数の点を含む3D点群を生成することと、
    2つのカメラ姿勢を取得することであって、前記2つのカメラ姿勢から前記複数の点が少なくとも部分的に視認可能であり、前記2つのカメラ姿勢は、前記第1のカメラ姿勢および前記第2のカメラ姿勢とは異なる、ことと、
    前記2つのカメラ姿勢を使用して前記複数の点を2つの2D平面上に投影することにより、2つの2D点群を生成することと、
    前記ニューラルネットワークによって、前記ニューラルネットワークへの入力として前記2つの2D点群を提供したことに応答して、特定のホモグラフィを生成することと、
    前記2つのカメラ姿勢に基づいて、グラウンドトゥルースホモグラフィを決定することと、
    前記特定のホモグラフィおよび前記グラウンドトゥルースホモグラフィを使用して前記ニューラルネットワークを修正することと
    によって以前に訓練されたものである、ARデバイス。
  7. 前記第1の2D点群および前記第2の2D点群は、第1のニューラルネットワークを使用して生成され、前記ニューラルネットワークは、第2のニューラルネットワークである、請求項に記載のARデバイス。
  8. 記3D点群は、1つ以上の幾何学形状をサンプリングすることによって生成される、請求項に記載のARデバイス。
  9. 前記2つのカメラ姿勢は、少なくとも30%の視覚的重複を有する、請求項に記載のARデバイス。
  10. 命令を備えている非一過性コンピュータ読み取り可能な媒体であって、前記命令は、プロセッサによって実行されると、
    第1のカメラ姿勢に基づく第1の画像と、第2のカメラ姿勢に基づく第2の画像とを受信することと、
    前記第1の画像に基づく第1の2D点群と、前記第2の画像に基づく第2の2D点群とを生成することと、
    前記第1の2D点群および前記第2の2D点群をニューラルネットワークに提供することと、
    前記ニューラルネットワークによって、前記ニューラルネットワークへの入力として前記第1の2D点群および前記第2の2D点群を提供したことに応答して、ホモグラフィを生成することと
    を含む動作を前記プロセッサに実施させ
    前記ニューラルネットワークは、
    複数の点を含む3D点群を生成することと、
    2つのカメラ姿勢を取得することであって、前記2つのカメラ姿勢から前記複数の点が少なくとも部分的に視認可能であり、前記2つのカメラ姿勢は、前記第1のカメラ姿勢および前記第2のカメラ姿勢とは異なる、ことと、
    前記2つのカメラ姿勢を使用して前記複数の点を2つの2D平面上に投影することにより、2つの2D点群を生成することと、
    前記ニューラルネットワークによって、前記ニューラルネットワークへの入力として前記2つの2D点群を提供したことに応答して、特定のホモグラフィを生成することと、
    前記2つのカメラ姿勢に基づいて、グラウンドトゥルースホモグラフィを決定することと、
    前記特定のホモグラフィおよび前記グラウンドトゥルースホモグラフィを使用して前記ニューラルネットワークを修正することと
    によって以前に訓練されたものである、非一過性コンピュータ読み取り可能な媒体。
  11. 前記第1の画像は、第1の瞬間において第1のカメラによって捕捉され、前記第2の画像は、前記第1の瞬間後の第2の瞬間において前記第1のカメラによって捕捉されている、請求項10に記載の非一過性コンピュータ読み取り可能な媒体。
  12. 前記第1の2D点群および前記第2の2D点群は、第1のニューラルネットワークを使用して生成され、前記ニューラルネットワークは、第2のニューラルネットワークである、請求項10に記載の非一過性コンピュータ読み取り可能な媒体。
  13. 記3D点群は、1つ以上の幾何学形状をサンプリングすることによって生成される、請求項10に記載の非一過性コンピュータ読み取り可能な媒体。
  14. 前記2つのカメラ姿勢は、少なくとも30%の視覚的重複を有する、請求項10に記載の非一過性コンピュータ読み取り可能な媒体。
JP2019571451A 2017-06-28 2018-06-27 畳み込み画像変換を使用して同時位置特定およびマッピングを実施する方法およびシステム Active JP7250709B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023045383A JP7495546B2 (ja) 2017-06-28 2023-03-22 畳み込み画像変換を使用して同時位置特定およびマッピングを実施する方法およびシステム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762526203P 2017-06-28 2017-06-28
US62/526,203 2017-06-28
PCT/US2018/039804 WO2019005999A1 (en) 2017-06-28 2018-06-27 METHOD AND SYSTEM FOR PERFORMING SIMULTANEOUS MAPPING AND LOCALIZATION USING CONVOLUTIONAL IMAGE TRANSFORMATION

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023045383A Division JP7495546B2 (ja) 2017-06-28 2023-03-22 畳み込み画像変換を使用して同時位置特定およびマッピングを実施する方法およびシステム

Publications (2)

Publication Number Publication Date
JP2020526818A JP2020526818A (ja) 2020-08-31
JP7250709B2 true JP7250709B2 (ja) 2023-04-03

Family

ID=64738202

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2019571451A Active JP7250709B2 (ja) 2017-06-28 2018-06-27 畳み込み画像変換を使用して同時位置特定およびマッピングを実施する方法およびシステム
JP2023045383A Active JP7495546B2 (ja) 2017-06-28 2023-03-22 畳み込み画像変換を使用して同時位置特定およびマッピングを実施する方法およびシステム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023045383A Active JP7495546B2 (ja) 2017-06-28 2023-03-22 畳み込み画像変換を使用して同時位置特定およびマッピングを実施する方法およびシステム

Country Status (9)

Country Link
US (2) US10726570B2 (ja)
EP (1) EP3646244A4 (ja)
JP (2) JP7250709B2 (ja)
KR (1) KR102662201B1 (ja)
CN (1) CN110799991B (ja)
AU (1) AU2018292610B2 (ja)
CA (1) CA3066228A1 (ja)
IL (1) IL271519B2 (ja)
WO (1) WO2019005999A1 (ja)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10726570B2 (en) 2017-06-28 2020-07-28 Magic Leap, Inc. Method and system for performing simultaneous localization and mapping using convolutional image transformation
US11080890B2 (en) * 2017-07-28 2021-08-03 Qualcomm Incorporated Image sensor initialization in a robotic vehicle
KR20200087757A (ko) * 2017-11-14 2020-07-21 매직 립, 인코포레이티드 호모그래픽 적응을 통한 완전 콘볼루셔널 관심 포인트 검출 및 디스크립션
US12008465B1 (en) 2017-12-29 2024-06-11 Perceive Corporation Dynamic generation of data sets for training machine-trained network
GB201804400D0 (en) * 2018-03-20 2018-05-02 Univ Of Essex Enterprise Limited Localisation, mapping and network training
US11017548B2 (en) * 2018-06-21 2021-05-25 Hand Held Products, Inc. Methods, systems, and apparatuses for computing dimensions of an object using range images
US11164067B2 (en) * 2018-08-29 2021-11-02 Arizona Board Of Regents On Behalf Of Arizona State University Systems, methods, and apparatuses for implementing a multi-resolution neural network for use with imaging intensive applications including medical imaging
EP3903226A1 (en) * 2019-02-01 2021-11-03 Siemens Aktiengesellschaft Dense 6-dof pose object detector
US11003909B2 (en) * 2019-03-20 2021-05-11 Raytheon Company Neural network trained by homographic augmentation
CN110135474A (zh) * 2019-04-26 2019-08-16 武汉市土地利用和城市空间规划研究中心 一种基于深度学习的倾斜航空影像匹配方法和系统
WO2020227651A1 (en) * 2019-05-09 2020-11-12 Automobilia Ii, Llc Methods, systems and computer program products for media processing and display
US11003956B2 (en) * 2019-05-16 2021-05-11 Naver Corporation System and method for training a neural network for visual localization based upon learning objects-of-interest dense match regression
CN110472668B (zh) * 2019-07-22 2021-02-19 华北电力大学(保定) 一种图像分类方法
CN110426035B (zh) * 2019-08-13 2023-01-24 哈尔滨理工大学 一种基于单目视觉和惯导信息融合的定位及建图方法
US11468585B2 (en) * 2019-08-27 2022-10-11 Nec Corporation Pseudo RGB-D for self-improving monocular slam and depth prediction
CN110610486B (zh) * 2019-08-28 2022-07-19 清华大学 单目图像深度估计方法及装置
US10699715B1 (en) * 2019-12-27 2020-06-30 Alphonso Inc. Text independent speaker-verification on a media operating system using deep learning on raw waveforms
CN115104135A (zh) * 2020-02-14 2022-09-23 Oppo广东移动通信有限公司 用于增强现实的物体检测系统和方法
KR20210128269A (ko) 2020-04-16 2021-10-26 삼성전자주식회사 증강 현실(ar) 디바이스 및 증강 현실 디바이스에서 포즈를 예측하는 방법
WO2021222325A1 (en) 2020-05-01 2021-11-04 Magic Leap, Inc. Image descriptor network with imposed hierarchical normalization
CN111612066B (zh) * 2020-05-21 2022-03-08 成都理工大学 基于深度融合的卷积神经网络的遥感图像分类方法
US11934959B2 (en) * 2020-06-01 2024-03-19 Nvidia Corporation Video synthesis using one or more neural networks
US20210407302A1 (en) * 2020-06-30 2021-12-30 Sony Group Corporation System of multi-drone visual content capturing
CN112001431B (zh) * 2020-08-11 2022-06-28 天津大学 一种基于梳状卷积的高效图像分类方法
US11836965B2 (en) * 2020-08-12 2023-12-05 Niantic, Inc. Determining visual overlap of images by using box embeddings
CN112417752B (zh) * 2020-10-29 2022-11-08 济南大学 基于卷积lstm神经网络的云层轨迹预测方法及系统
WO2022099180A1 (en) * 2020-11-09 2022-05-12 Automobilia Ii, Llc Methods, systems and computer program products for media processing and display
US11263796B1 (en) * 2020-11-11 2022-03-01 Sony Interactive Entertainment Inc. Binocular pose prediction
CN112861690B (zh) * 2021-02-01 2024-02-02 武汉汉达瑞科技有限公司 多方法融合的遥感影像变化检测方法及系统
US11822620B2 (en) 2021-02-18 2023-11-21 Microsoft Technology Licensing, Llc Personalized local image features using bilevel optimization
KR20220122287A (ko) 2021-02-26 2022-09-02 삼성전자주식회사 증강 현실 제공 장치의 포즈 결정 방법 및 장치
US12047550B2 (en) * 2021-03-24 2024-07-23 Faro Technologies, Inc. Three-dimiensional point cloud generation using machine learning
CN113393524B (zh) * 2021-06-18 2023-09-26 常州大学 一种结合深度学习和轮廓点云重建的目标位姿估计方法
CN113592756B (zh) * 2021-07-29 2023-05-23 华中科技大学鄂州工业技术研究院 一种消化道共聚焦图像拼接方法
US12045950B2 (en) 2021-09-27 2024-07-23 Ford Global Technologies, Llc Object pose estimation
KR20230049969A (ko) * 2021-10-07 2023-04-14 삼성전자주식회사 글로벌 측위 장치 및 방법
US11941827B2 (en) * 2021-10-19 2024-03-26 Datalogic Ip Tech S.R.L. System and method of 3D point cloud registration with multiple 2D images
US20230260249A1 (en) * 2022-02-16 2023-08-17 Donde Fashion, Inc. Systems and methods for training and using a machine learning model for matching objects

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7187809B2 (en) * 2004-06-10 2007-03-06 Sarnoff Corporation Method and apparatus for aligning video to three-dimensional point clouds
KR101188588B1 (ko) * 2008-03-27 2012-10-08 주식회사 만도 모노큘러 모션 스테레오 기반의 주차 공간 검출 장치 및방법
US8339467B2 (en) * 2010-03-25 2012-12-25 Dacuda Ag Synchronization of navigation and image information for handheld scanner
GB201208088D0 (en) * 2012-05-09 2012-06-20 Ncam Sollutions Ltd Ncam
US8818133B2 (en) * 2012-07-11 2014-08-26 Raytheon Company Point cloud construction with unposed camera
AU2014204252B2 (en) * 2013-01-03 2017-12-14 Meta View, Inc. Extramissive spatial imaging digital eye glass for virtual or augmediated vision
US9154773B2 (en) * 2013-03-15 2015-10-06 Seiko Epson Corporation 2D/3D localization and pose estimation of harness cables using a configurable structure representation for robot operations
KR102170689B1 (ko) * 2014-01-14 2020-10-27 한화테크윈 주식회사 영상 정합을 위한 특징점 샘플링 방법
CN105205858B (zh) * 2015-09-18 2018-04-13 天津理工大学 一种基于单个深度视觉传感器的室内场景三维重建方法
US10430961B2 (en) * 2015-12-16 2019-10-01 Objectvideo Labs, Llc Using satellite imagery to enhance a 3D surface model of a real world cityscape
US10306254B2 (en) * 2017-01-17 2019-05-28 Seiko Epson Corporation Encoding free view point data in movie data container
CN106846416A (zh) * 2017-02-06 2017-06-13 遂昌县睿鼎科技服务有限公司 单机分束双目被动立体视觉精确重构与细分拟合方法
CN106897697A (zh) * 2017-02-24 2017-06-27 深圳市唯特视科技有限公司 一种基于可视化编译器的人物和姿势检测方法
US10726570B2 (en) 2017-06-28 2020-07-28 Magic Leap, Inc. Method and system for performing simultaneous localization and mapping using convolutional image transformation

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Daniel DeTone, et al.,Deep Image Homography Estimation,arxiv.org,米国,CORNELL UNIVERSIT,2016年06月13日,https://arxiv.org/pdf/1606.03798.pdf
Hani Altwaijry, et al.,Learning to Detect and Match Keypoints with Deep Architectures,vision.cornell.edu,米国,2016年08月01日,https://vision.cornell.edu/se3/wp-content/uploads/2016/08/learning-detect-match.pdf

Also Published As

Publication number Publication date
WO2019005999A1 (en) 2019-01-03
KR102662201B1 (ko) 2024-04-30
JP2023082038A (ja) 2023-06-13
CN110799991B (zh) 2023-09-05
US11238606B2 (en) 2022-02-01
JP2020526818A (ja) 2020-08-31
AU2018292610B2 (en) 2022-11-17
US20200302628A1 (en) 2020-09-24
CN110799991A (zh) 2020-02-14
JP7495546B2 (ja) 2024-06-04
US20190005670A1 (en) 2019-01-03
AU2018292610A1 (en) 2019-12-19
IL271519B2 (en) 2023-06-01
IL271519A (en) 2020-02-27
KR20200024848A (ko) 2020-03-09
EP3646244A4 (en) 2020-09-30
EP3646244A1 (en) 2020-05-06
CA3066228A1 (en) 2019-01-03
US10726570B2 (en) 2020-07-28

Similar Documents

Publication Publication Date Title
JP7250709B2 (ja) 畳み込み画像変換を使用して同時位置特定およびマッピングを実施する方法およびシステム
JP7403700B2 (ja) ホモグラフィ適合を介した完全畳み込み着目点検出および記述
CN111243093B (zh) 三维人脸网格的生成方法、装置、设备及存储介质
KR102647351B1 (ko) 3차원의 포인트 클라우드를 이용한 모델링 방법 및 모델링 장치
US10977818B2 (en) Machine learning based model localization system
US9525862B2 (en) Method for estimating a camera motion and for determining a three-dimensional model of a real environment
EP2992508B1 (en) Diminished and mediated reality effects from reconstruction
US20180012411A1 (en) Augmented Reality Methods and Devices
CN113272713B (zh) 用于执行自改进的视觉测程法的系统和方法
WO2023071790A1 (zh) 目标对象的姿态检测方法、装置、设备及存储介质
JP2023065296A (ja) 平面検出装置及び方法
Jian et al. Realistic face animation generation from videos
WO2023132261A1 (ja) 情報処理システム、情報処理方法および情報処理プログラム
US20240362802A1 (en) Systems and methods for determining motion models for aligning scene content captured by different image sensors
US20240362891A1 (en) Systems and methods for selecting motion models for aligning scene content captured by different image sensors
Dou Enhanced 3D capture for room-sized dynamic scenes with commodity depth cameras
Herath et al. Unconstrained Segue Navigation for an Immersive Virtual Reality Experience
Bingham An Interest Point Based Illumination Condition Matching Approach to Photometric Registration Within Augmented Reality Worlds

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210616

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221025

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230322

R150 Certificate of patent or registration of utility model

Ref document number: 7250709

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150