JP7250709B2 - 畳み込み画像変換を使用して同時位置特定およびマッピングを実施する方法およびシステム - Google Patents
畳み込み画像変換を使用して同時位置特定およびマッピングを実施する方法およびシステム Download PDFInfo
- Publication number
- JP7250709B2 JP7250709B2 JP2019571451A JP2019571451A JP7250709B2 JP 7250709 B2 JP7250709 B2 JP 7250709B2 JP 2019571451 A JP2019571451 A JP 2019571451A JP 2019571451 A JP2019571451 A JP 2019571451A JP 7250709 B2 JP7250709 B2 JP 7250709B2
- Authority
- JP
- Japan
- Prior art keywords
- point cloud
- neural network
- camera
- image
- homography
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 47
- 230000004807 localization Effects 0.000 title description 6
- 238000013507 mapping Methods 0.000 title description 6
- 230000009466 transformation Effects 0.000 title description 4
- 238000013528 artificial neural network Methods 0.000 claims description 95
- 230000000007 visual effect Effects 0.000 claims description 14
- 230000004044 response Effects 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 12
- 230000003190 augmentative effect Effects 0.000 claims description 8
- 230000001052 transient effect Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 11
- 238000013527 convolutional neural network Methods 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 9
- 239000013598 vector Substances 0.000 description 8
- 238000001514 detection method Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 238000013519 translation Methods 0.000 description 5
- 230000014616 translation Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000001994 activation Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000004438 eyesight Effects 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000005043 peripheral vision Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 235000002566 Capsicum Nutrition 0.000 description 1
- 239000006002 Pepper Substances 0.000 description 1
- 235000016761 Piper aduncum Nutrition 0.000 description 1
- 235000017804 Piper guineense Nutrition 0.000 description 1
- 244000203593 Piper nigrum Species 0.000 description 1
- 235000008184 Piper nigrum Nutrition 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000002513 implantation Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/33—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
- G06T7/337—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/35—Determination of transform parameters for the alignment of images, i.e. image registration using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/579—Depth or shape recovery from multiple images from motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/593—Depth or shape recovery from multiple images from stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/757—Matching configurations of points or features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30244—Camera pose
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Description
本願は、その内容が参照することによってその全体として本明細書に組み込まれる、2017年6月28日に出願され、「METHOD AND SYSTEM FOR PERFORMING SIMULTANEOUS LOCALIZATION AND MAPPING USING CONVOLUTIONAL IMAGE TRANSFORMATION」と題された、米国仮特許出願第62/526,203号の非仮出願であり、その優先権の利益を主張する。
本明細書は、例えば、以下の項目も提供する。
(項目1)
2つの画像に基づいてホモグラフィを算出する方法であって、前記方法は、
第1のカメラ姿勢に基づく第1の画像と、第2のカメラ姿勢に基づく第2の画像とを受信することと、
前記第1の画像に基づく第1の点群と、前記第2の画像に基づく第2の点群とを生成することと、
前記第1の点群および前記第2の点群をニューラルネットワークに提供することと、
前記ニューラルネットワークによって、前記第1の点群および前記第2の点群に基づいて、前記ホモグラフィを生成することと
を含む、方法。
(項目2)
前記第1の点群および前記第2の点群は、2次元(2D)点群である、項目1に記載の方法。
(項目3)
前記第1の画像は、第1の瞬間において第1のカメラによって捕捉され、前記第2の画像は、前記第1の瞬間後の第2の瞬間において前記第1のカメラによって捕捉されている、項目2に記載の方法。
(項目4)
前記第1の点群および前記第2の点群は、第1のニューラルネットワークを使用して生成され、前記ニューラルネットワークは、第2のニューラルネットワークである、項目2に記載の方法。
(項目5)
前記ニューラルネットワークは、
複数の点を含む1つ以上の3D点群のうちの各3次元(3D)点群のために、
前記複数の点の閾値距離内の3D軌道を決定することと、
前記3D軌道をサンプリングし、特定の第1のカメラ姿勢および特定の第2のカメラ姿勢を取得することであって、前記複数の点は、少なくとも部分的に前記特定の第1のカメラ姿勢および前記特定の第2のカメラ姿勢から視認可能である、ことと、
前記特定の第1のカメラ姿勢に基づいて、前記複数の点を第1の2D平面上に投影し、第1の2D点群を生成することと、
前記特定の第2のカメラ姿勢に基づいて、前記複数の点を第2の2D平面上に投影し、第2の2D点群を生成することと、
前記特定の第1のカメラ姿勢および前記特定の第2のカメラ姿勢に基づいて、前記第1の2D点群と前記第2の2D点群との間のグラウンドトゥルースホモグラフィを決定することと、
前記ニューラルネットワークによって、前記第1の2D点群および前記第2の2D点群に基づいて、特定のホモグラフィを生成することと、
前記特定のホモグラフィを前記グラウンドトゥルースホモグラフィと比較することと、
前記比較に基づいて、前記ニューラルネットワークを修正することと
によって以前に訓練されている、項目2に記載の方法。
(項目6)
前記複数の3D点群は、1つ以上の幾何学形状をサンプリングすることによって生成される、項目5に記載の方法。
(項目7)
前記特定の第1のカメラ姿勢および前記特定の第2のカメラ姿勢は、少なくとも30%重複を有する、項目5に記載の方法。
(項目8)
拡張現実(AR)デバイスであって、前記ARデバイスは、
カメラと、
前記カメラに通信可能に結合されたプロセッサと
を備え、
前記プロセッサは、
前記カメラから、第1のカメラ姿勢に基づく第1の画像と、第2のカメラ姿勢に基づく第2の画像とを受信することと、
前記第1の画像に基づく第1の点群と、前記第2の画像に基づく第2の点群とを生成することと、
前記第1の点群および前記第2の点群をニューラルネットワークに提供することと、
前記ニューラルネットワークによって、前記第1の点群および前記第2の点群に基づいて、ホモグラフィを生成することと
を含む動作を実施するように構成されている、ARデバイス。
(項目9)
前記第1の点群および前記第2の点群は、2次元(2D)点群である、項目8に記載のARデバイス。
(項目10)
前記第1の点群および前記第2の点群は、第1のニューラルネットワークを使用して生成され、前記ニューラルネットワークは、第2のニューラルネットワークである、項目9に記載のARデバイス。
(項目11)
前記ニューラルネットワークは、
複数の点を含む1つ以上の3D点群のうちの各3次元(3D)点群のために、
前記複数の点の閾値距離内の3D軌道を決定することと、
前記3D軌道をサンプリングし、特定の第1のカメラ姿勢および特定の第2のカメラ姿勢を取得することであって、前記複数の点は、少なくとも部分的に前記特定の第1のカメラ姿勢および前記特定の第2のカメラ姿勢から視認可能である、ことと、
前記特定の第1のカメラ姿勢に基づいて、前記複数の点を第1の2D平面上に投影し、第1の2D点群を生成することと、
前記特定の第2のカメラ姿勢に基づいて、前記複数の点を第2の2D平面上に投影し、第2の2D点群を生成することと、
前記特定の第1のカメラ姿勢および前記特定の第2のカメラ姿勢に基づいて、前記第1の2D点群と前記第2の2D点群との間のグラウンドトゥルースホモグラフィを決定することと、
前記ニューラルネットワークによって、前記第1の2D点群および前記第2の2D点群に基づいて、特定のホモグラフィを生成することと、
前記特定のホモグラフィを前記グラウンドトゥルースホモグラフィと比較することと、
前記比較に基づいて、前記ニューラルネットワークを修正することと
によって以前に訓練されている、項目9に記載のARデバイス。
(項目12)
前記複数の3D点群は、1つ以上の幾何学形状をサンプリングすることによって生成される、項目11に記載のARデバイス。
(項目13)
前記特定の第1のカメラ姿勢および前記特定の第2のカメラ姿勢は、少なくとも30%重複を有する、項目11に記載のARデバイス。
(項目14)
命令を備えている非一過性コンピュータ読み取り可能な媒体であって、前記命令は、プロセッサによって実行されると、
第1のカメラ姿勢に基づく第1の画像と、第2のカメラ姿勢に基づく第2の画像とを受信することと、
前記第1の画像に基づく第1の点群と、前記第2の画像に基づく第2の点群とを生成することと、
前記第1の点群および前記第2の点群をニューラルネットワークに提供することと、
前記ニューラルネットワークによって、前記第1の点群および前記第2の点群に基づいて、ホモグラフィを生成することと
を含む動作を前記プロセッサに実施させる、非一過性コンピュータ読み取り可能な媒体。
(項目15)
前記第1の点群および前記第2の点群は、2次元(2D)点群である、項目14に記載の非一過性コンピュータ読み取り可能な媒体。
(項目16)
前記第1の画像は、第1の瞬間において第1のカメラによって捕捉され、前記第2の画像は、前記第1の瞬間後の第2の瞬間において前記第1のカメラによって捕捉されている、項目15に記載の非一過性コンピュータ読み取り可能な媒体。
(項目17)
前記第1の点群および前記第2の点群は、第1のニューラルネットワークを使用して生成され、前記ニューラルネットワークは、第2のニューラルネットワークである、項目15に記載の非一過性コンピュータ読み取り可能な媒体。
(項目18)
前記ニューラルネットワークは、
複数の点を含む1つ以上の3D点群のうちの各3次元(3D)点群のために、
前記複数の点の閾値距離内の3D軌道を決定することと、
前記3D軌道をサンプリングし、特定の第1のカメラ姿勢および特定の第2のカメラ姿勢を取得することであって、前記複数の点は、少なくとも部分的に前記特定の第1のカメラ姿勢および前記特定の第2のカメラ姿勢から視認可能である、ことと、
前記特定の第1のカメラ姿勢に基づいて、前記複数の点を第1の2D平面上に投影し、第1の2D点群を生成することと、
前記特定の第2のカメラ姿勢に基づいて、前記複数の点を第2の2D平面上に投影し、第2の2D点群を生成することと、
前記特定の第1のカメラ姿勢および前記特定の第2のカメラ姿勢に基づいて、前記第1の2D点群と前記第2の2D点群との間のグラウンドトゥルースホモグラフィを決定することと、
前記ニューラルネットワークによって、前記第1の2D点群および前記第2の2D点群に基づいて、特定のホモグラフィを生成することと、
前記特定のホモグラフィを前記グラウンドトゥルースホモグラフィと比較することと、
前記比較に基づいて、前記ニューラルネットワークを修正することと
によって以前に訓練されている、項目15に記載の非一過性コンピュータ読み取り可能な媒体。
(項目19)
前記複数の3D点群は、1つ以上の幾何学形状をサンプリングすることによって生成される、項目18に記載の非一過性コンピュータ読み取り可能な媒体。
(項目20)
前記特定の第1のカメラ姿勢および前記特定の第2のカメラ姿勢は、少なくとも30%重複を有する、項目18に記載の非一過性コンピュータ読み取り可能な媒体。
Claims (14)
- 2つの画像に基づいてホモグラフィを算出する方法であって、前記方法は、
第1のカメラ姿勢に基づく第1の画像と、第2のカメラ姿勢に基づく第2の画像とを受信することと、
前記第1の画像に基づく第1の2D点群と、前記第2の画像に基づく第2の2D点群とを生成することと、
前記第1の2D点群および前記第2の2D点群をニューラルネットワークに提供することと、
前記ニューラルネットワークによって、前記ニューラルネットワークへの入力として前記第1の2D点群および前記第2の2D点群を提供したことに応答して、前記ホモグラフィを生成することと
を含み、
前記ニューラルネットワークは、
複数の点を含む3D点群を生成することと、
2つのカメラ姿勢を取得することであって、前記2つのカメラ姿勢から前記複数の点が少なくとも部分的に視認可能であり、前記2つのカメラ姿勢は、前記第1のカメラ姿勢および前記第2のカメラ姿勢とは異なる、ことと、
前記2つのカメラ姿勢を使用して前記複数の点を2つの2D平面上に投影することにより、2つの2D点群を生成することと、
前記ニューラルネットワークによって、前記ニューラルネットワークへの入力として前記2つの2D点群を提供したことに応答して、特定のホモグラフィを生成することと、
前記2つのカメラ姿勢に基づいて、グラウンドトゥルースホモグラフィを決定することと、
前記特定のホモグラフィおよび前記グラウンドトゥルースホモグラフィを使用して前記ニューラルネットワークを修正することと
によって以前に訓練されたものである、方法。 - 前記第1の画像は、第1の瞬間において第1のカメラによって捕捉され、前記第2の画像は、前記第1の瞬間後の第2の瞬間において前記第1のカメラによって捕捉されている、請求項1に記載の方法。
- 前記第1の2D点群および前記第2の2D点群は、第1のニューラルネットワークを使用して生成され、前記ニューラルネットワークは、第2のニューラルネットワークである、請求項1に記載の方法。
- 前記3D点群は、1つ以上の幾何学形状をサンプリングすることによって生成される、請求項1に記載の方法。
- 前記2つのカメラ姿勢は、少なくとも30%の視覚的重複を有する、請求項1に記載の方法。
- 拡張現実(AR)デバイスであって、前記ARデバイスは、
カメラと、
前記カメラに通信可能に結合されたプロセッサと
を備え、
前記プロセッサは、
前記カメラから、第1のカメラ姿勢に基づく第1の画像と、第2のカメラ姿勢に基づく第2の画像とを受信することと、
前記第1の画像に基づく第1の2D点群と、前記第2の画像に基づく第2の2D点群とを生成することと、
前記第1の2D点群および前記第2の2D点群をニューラルネットワークに提供することと、
前記ニューラルネットワークによって、前記ニューラルネットワークへの入力として前記第1の2D点群および前記第2の2D点群を提供したことに応答して、ホモグラフィを生成することと
を含む動作を実施するように構成されており、
前記ニューラルネットワークは、
複数の点を含む3D点群を生成することと、
2つのカメラ姿勢を取得することであって、前記2つのカメラ姿勢から前記複数の点が少なくとも部分的に視認可能であり、前記2つのカメラ姿勢は、前記第1のカメラ姿勢および前記第2のカメラ姿勢とは異なる、ことと、
前記2つのカメラ姿勢を使用して前記複数の点を2つの2D平面上に投影することにより、2つの2D点群を生成することと、
前記ニューラルネットワークによって、前記ニューラルネットワークへの入力として前記2つの2D点群を提供したことに応答して、特定のホモグラフィを生成することと、
前記2つのカメラ姿勢に基づいて、グラウンドトゥルースホモグラフィを決定することと、
前記特定のホモグラフィおよび前記グラウンドトゥルースホモグラフィを使用して前記ニューラルネットワークを修正することと
によって以前に訓練されたものである、ARデバイス。 - 前記第1の2D点群および前記第2の2D点群は、第1のニューラルネットワークを使用して生成され、前記ニューラルネットワークは、第2のニューラルネットワークである、請求項6に記載のARデバイス。
- 前記3D点群は、1つ以上の幾何学形状をサンプリングすることによって生成される、請求項6に記載のARデバイス。
- 前記2つのカメラ姿勢は、少なくとも30%の視覚的重複を有する、請求項6に記載のARデバイス。
- 命令を備えている非一過性コンピュータ読み取り可能な媒体であって、前記命令は、プロセッサによって実行されると、
第1のカメラ姿勢に基づく第1の画像と、第2のカメラ姿勢に基づく第2の画像とを受信することと、
前記第1の画像に基づく第1の2D点群と、前記第2の画像に基づく第2の2D点群とを生成することと、
前記第1の2D点群および前記第2の2D点群をニューラルネットワークに提供することと、
前記ニューラルネットワークによって、前記ニューラルネットワークへの入力として前記第1の2D点群および前記第2の2D点群を提供したことに応答して、ホモグラフィを生成することと
を含む動作を前記プロセッサに実施させ、
前記ニューラルネットワークは、
複数の点を含む3D点群を生成することと、
2つのカメラ姿勢を取得することであって、前記2つのカメラ姿勢から前記複数の点が少なくとも部分的に視認可能であり、前記2つのカメラ姿勢は、前記第1のカメラ姿勢および前記第2のカメラ姿勢とは異なる、ことと、
前記2つのカメラ姿勢を使用して前記複数の点を2つの2D平面上に投影することにより、2つの2D点群を生成することと、
前記ニューラルネットワークによって、前記ニューラルネットワークへの入力として前記2つの2D点群を提供したことに応答して、特定のホモグラフィを生成することと、
前記2つのカメラ姿勢に基づいて、グラウンドトゥルースホモグラフィを決定することと、
前記特定のホモグラフィおよび前記グラウンドトゥルースホモグラフィを使用して前記ニューラルネットワークを修正することと
によって以前に訓練されたものである、非一過性コンピュータ読み取り可能な媒体。 - 前記第1の画像は、第1の瞬間において第1のカメラによって捕捉され、前記第2の画像は、前記第1の瞬間後の第2の瞬間において前記第1のカメラによって捕捉されている、請求項10に記載の非一過性コンピュータ読み取り可能な媒体。
- 前記第1の2D点群および前記第2の2D点群は、第1のニューラルネットワークを使用して生成され、前記ニューラルネットワークは、第2のニューラルネットワークである、請求項10に記載の非一過性コンピュータ読み取り可能な媒体。
- 前記3D点群は、1つ以上の幾何学形状をサンプリングすることによって生成される、請求項10に記載の非一過性コンピュータ読み取り可能な媒体。
- 前記2つのカメラ姿勢は、少なくとも30%の視覚的重複を有する、請求項10に記載の非一過性コンピュータ読み取り可能な媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023045383A JP7495546B2 (ja) | 2017-06-28 | 2023-03-22 | 畳み込み画像変換を使用して同時位置特定およびマッピングを実施する方法およびシステム |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762526203P | 2017-06-28 | 2017-06-28 | |
US62/526,203 | 2017-06-28 | ||
PCT/US2018/039804 WO2019005999A1 (en) | 2017-06-28 | 2018-06-27 | METHOD AND SYSTEM FOR PERFORMING SIMULTANEOUS MAPPING AND LOCALIZATION USING CONVOLUTIONAL IMAGE TRANSFORMATION |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023045383A Division JP7495546B2 (ja) | 2017-06-28 | 2023-03-22 | 畳み込み画像変換を使用して同時位置特定およびマッピングを実施する方法およびシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020526818A JP2020526818A (ja) | 2020-08-31 |
JP7250709B2 true JP7250709B2 (ja) | 2023-04-03 |
Family
ID=64738202
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019571451A Active JP7250709B2 (ja) | 2017-06-28 | 2018-06-27 | 畳み込み画像変換を使用して同時位置特定およびマッピングを実施する方法およびシステム |
JP2023045383A Active JP7495546B2 (ja) | 2017-06-28 | 2023-03-22 | 畳み込み画像変換を使用して同時位置特定およびマッピングを実施する方法およびシステム |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023045383A Active JP7495546B2 (ja) | 2017-06-28 | 2023-03-22 | 畳み込み画像変換を使用して同時位置特定およびマッピングを実施する方法およびシステム |
Country Status (9)
Country | Link |
---|---|
US (2) | US10726570B2 (ja) |
EP (1) | EP3646244A4 (ja) |
JP (2) | JP7250709B2 (ja) |
KR (1) | KR102662201B1 (ja) |
CN (1) | CN110799991B (ja) |
AU (1) | AU2018292610B2 (ja) |
CA (1) | CA3066228A1 (ja) |
IL (1) | IL271519B2 (ja) |
WO (1) | WO2019005999A1 (ja) |
Families Citing this family (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10726570B2 (en) | 2017-06-28 | 2020-07-28 | Magic Leap, Inc. | Method and system for performing simultaneous localization and mapping using convolutional image transformation |
US11080890B2 (en) * | 2017-07-28 | 2021-08-03 | Qualcomm Incorporated | Image sensor initialization in a robotic vehicle |
KR20200087757A (ko) * | 2017-11-14 | 2020-07-21 | 매직 립, 인코포레이티드 | 호모그래픽 적응을 통한 완전 콘볼루셔널 관심 포인트 검출 및 디스크립션 |
US12008465B1 (en) | 2017-12-29 | 2024-06-11 | Perceive Corporation | Dynamic generation of data sets for training machine-trained network |
GB201804400D0 (en) * | 2018-03-20 | 2018-05-02 | Univ Of Essex Enterprise Limited | Localisation, mapping and network training |
US11017548B2 (en) * | 2018-06-21 | 2021-05-25 | Hand Held Products, Inc. | Methods, systems, and apparatuses for computing dimensions of an object using range images |
US11164067B2 (en) * | 2018-08-29 | 2021-11-02 | Arizona Board Of Regents On Behalf Of Arizona State University | Systems, methods, and apparatuses for implementing a multi-resolution neural network for use with imaging intensive applications including medical imaging |
EP3903226A1 (en) * | 2019-02-01 | 2021-11-03 | Siemens Aktiengesellschaft | Dense 6-dof pose object detector |
US11003909B2 (en) * | 2019-03-20 | 2021-05-11 | Raytheon Company | Neural network trained by homographic augmentation |
CN110135474A (zh) * | 2019-04-26 | 2019-08-16 | 武汉市土地利用和城市空间规划研究中心 | 一种基于深度学习的倾斜航空影像匹配方法和系统 |
WO2020227651A1 (en) * | 2019-05-09 | 2020-11-12 | Automobilia Ii, Llc | Methods, systems and computer program products for media processing and display |
US11003956B2 (en) * | 2019-05-16 | 2021-05-11 | Naver Corporation | System and method for training a neural network for visual localization based upon learning objects-of-interest dense match regression |
CN110472668B (zh) * | 2019-07-22 | 2021-02-19 | 华北电力大学(保定) | 一种图像分类方法 |
CN110426035B (zh) * | 2019-08-13 | 2023-01-24 | 哈尔滨理工大学 | 一种基于单目视觉和惯导信息融合的定位及建图方法 |
US11468585B2 (en) * | 2019-08-27 | 2022-10-11 | Nec Corporation | Pseudo RGB-D for self-improving monocular slam and depth prediction |
CN110610486B (zh) * | 2019-08-28 | 2022-07-19 | 清华大学 | 单目图像深度估计方法及装置 |
US10699715B1 (en) * | 2019-12-27 | 2020-06-30 | Alphonso Inc. | Text independent speaker-verification on a media operating system using deep learning on raw waveforms |
CN115104135A (zh) * | 2020-02-14 | 2022-09-23 | Oppo广东移动通信有限公司 | 用于增强现实的物体检测系统和方法 |
KR20210128269A (ko) | 2020-04-16 | 2021-10-26 | 삼성전자주식회사 | 증강 현실(ar) 디바이스 및 증강 현실 디바이스에서 포즈를 예측하는 방법 |
WO2021222325A1 (en) | 2020-05-01 | 2021-11-04 | Magic Leap, Inc. | Image descriptor network with imposed hierarchical normalization |
CN111612066B (zh) * | 2020-05-21 | 2022-03-08 | 成都理工大学 | 基于深度融合的卷积神经网络的遥感图像分类方法 |
US11934959B2 (en) * | 2020-06-01 | 2024-03-19 | Nvidia Corporation | Video synthesis using one or more neural networks |
US20210407302A1 (en) * | 2020-06-30 | 2021-12-30 | Sony Group Corporation | System of multi-drone visual content capturing |
CN112001431B (zh) * | 2020-08-11 | 2022-06-28 | 天津大学 | 一种基于梳状卷积的高效图像分类方法 |
US11836965B2 (en) * | 2020-08-12 | 2023-12-05 | Niantic, Inc. | Determining visual overlap of images by using box embeddings |
CN112417752B (zh) * | 2020-10-29 | 2022-11-08 | 济南大学 | 基于卷积lstm神经网络的云层轨迹预测方法及系统 |
WO2022099180A1 (en) * | 2020-11-09 | 2022-05-12 | Automobilia Ii, Llc | Methods, systems and computer program products for media processing and display |
US11263796B1 (en) * | 2020-11-11 | 2022-03-01 | Sony Interactive Entertainment Inc. | Binocular pose prediction |
CN112861690B (zh) * | 2021-02-01 | 2024-02-02 | 武汉汉达瑞科技有限公司 | 多方法融合的遥感影像变化检测方法及系统 |
US11822620B2 (en) | 2021-02-18 | 2023-11-21 | Microsoft Technology Licensing, Llc | Personalized local image features using bilevel optimization |
KR20220122287A (ko) | 2021-02-26 | 2022-09-02 | 삼성전자주식회사 | 증강 현실 제공 장치의 포즈 결정 방법 및 장치 |
US12047550B2 (en) * | 2021-03-24 | 2024-07-23 | Faro Technologies, Inc. | Three-dimiensional point cloud generation using machine learning |
CN113393524B (zh) * | 2021-06-18 | 2023-09-26 | 常州大学 | 一种结合深度学习和轮廓点云重建的目标位姿估计方法 |
CN113592756B (zh) * | 2021-07-29 | 2023-05-23 | 华中科技大学鄂州工业技术研究院 | 一种消化道共聚焦图像拼接方法 |
US12045950B2 (en) | 2021-09-27 | 2024-07-23 | Ford Global Technologies, Llc | Object pose estimation |
KR20230049969A (ko) * | 2021-10-07 | 2023-04-14 | 삼성전자주식회사 | 글로벌 측위 장치 및 방법 |
US11941827B2 (en) * | 2021-10-19 | 2024-03-26 | Datalogic Ip Tech S.R.L. | System and method of 3D point cloud registration with multiple 2D images |
US20230260249A1 (en) * | 2022-02-16 | 2023-08-17 | Donde Fashion, Inc. | Systems and methods for training and using a machine learning model for matching objects |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7187809B2 (en) * | 2004-06-10 | 2007-03-06 | Sarnoff Corporation | Method and apparatus for aligning video to three-dimensional point clouds |
KR101188588B1 (ko) * | 2008-03-27 | 2012-10-08 | 주식회사 만도 | 모노큘러 모션 스테레오 기반의 주차 공간 검출 장치 및방법 |
US8339467B2 (en) * | 2010-03-25 | 2012-12-25 | Dacuda Ag | Synchronization of navigation and image information for handheld scanner |
GB201208088D0 (en) * | 2012-05-09 | 2012-06-20 | Ncam Sollutions Ltd | Ncam |
US8818133B2 (en) * | 2012-07-11 | 2014-08-26 | Raytheon Company | Point cloud construction with unposed camera |
AU2014204252B2 (en) * | 2013-01-03 | 2017-12-14 | Meta View, Inc. | Extramissive spatial imaging digital eye glass for virtual or augmediated vision |
US9154773B2 (en) * | 2013-03-15 | 2015-10-06 | Seiko Epson Corporation | 2D/3D localization and pose estimation of harness cables using a configurable structure representation for robot operations |
KR102170689B1 (ko) * | 2014-01-14 | 2020-10-27 | 한화테크윈 주식회사 | 영상 정합을 위한 특징점 샘플링 방법 |
CN105205858B (zh) * | 2015-09-18 | 2018-04-13 | 天津理工大学 | 一种基于单个深度视觉传感器的室内场景三维重建方法 |
US10430961B2 (en) * | 2015-12-16 | 2019-10-01 | Objectvideo Labs, Llc | Using satellite imagery to enhance a 3D surface model of a real world cityscape |
US10306254B2 (en) * | 2017-01-17 | 2019-05-28 | Seiko Epson Corporation | Encoding free view point data in movie data container |
CN106846416A (zh) * | 2017-02-06 | 2017-06-13 | 遂昌县睿鼎科技服务有限公司 | 单机分束双目被动立体视觉精确重构与细分拟合方法 |
CN106897697A (zh) * | 2017-02-24 | 2017-06-27 | 深圳市唯特视科技有限公司 | 一种基于可视化编译器的人物和姿势检测方法 |
US10726570B2 (en) | 2017-06-28 | 2020-07-28 | Magic Leap, Inc. | Method and system for performing simultaneous localization and mapping using convolutional image transformation |
-
2018
- 2018-06-27 US US16/020,541 patent/US10726570B2/en active Active
- 2018-06-27 AU AU2018292610A patent/AU2018292610B2/en not_active Expired - Fee Related
- 2018-06-27 WO PCT/US2018/039804 patent/WO2019005999A1/en unknown
- 2018-06-27 JP JP2019571451A patent/JP7250709B2/ja active Active
- 2018-06-27 CA CA3066228A patent/CA3066228A1/en active Pending
- 2018-06-27 KR KR1020207001799A patent/KR102662201B1/ko active IP Right Grant
- 2018-06-27 CN CN201880043635.6A patent/CN110799991B/zh active Active
- 2018-06-27 EP EP18824287.9A patent/EP3646244A4/en active Pending
-
2019
- 2019-12-18 IL IL271519A patent/IL271519B2/en unknown
-
2020
- 2020-06-08 US US16/895,878 patent/US11238606B2/en active Active
-
2023
- 2023-03-22 JP JP2023045383A patent/JP7495546B2/ja active Active
Non-Patent Citations (2)
Title |
---|
Daniel DeTone, et al.,Deep Image Homography Estimation,arxiv.org,米国,CORNELL UNIVERSIT,2016年06月13日,https://arxiv.org/pdf/1606.03798.pdf |
Hani Altwaijry, et al.,Learning to Detect and Match Keypoints with Deep Architectures,vision.cornell.edu,米国,2016年08月01日,https://vision.cornell.edu/se3/wp-content/uploads/2016/08/learning-detect-match.pdf |
Also Published As
Publication number | Publication date |
---|---|
WO2019005999A1 (en) | 2019-01-03 |
KR102662201B1 (ko) | 2024-04-30 |
JP2023082038A (ja) | 2023-06-13 |
CN110799991B (zh) | 2023-09-05 |
US11238606B2 (en) | 2022-02-01 |
JP2020526818A (ja) | 2020-08-31 |
AU2018292610B2 (en) | 2022-11-17 |
US20200302628A1 (en) | 2020-09-24 |
CN110799991A (zh) | 2020-02-14 |
JP7495546B2 (ja) | 2024-06-04 |
US20190005670A1 (en) | 2019-01-03 |
AU2018292610A1 (en) | 2019-12-19 |
IL271519B2 (en) | 2023-06-01 |
IL271519A (en) | 2020-02-27 |
KR20200024848A (ko) | 2020-03-09 |
EP3646244A4 (en) | 2020-09-30 |
EP3646244A1 (en) | 2020-05-06 |
CA3066228A1 (en) | 2019-01-03 |
US10726570B2 (en) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7250709B2 (ja) | 畳み込み画像変換を使用して同時位置特定およびマッピングを実施する方法およびシステム | |
JP7403700B2 (ja) | ホモグラフィ適合を介した完全畳み込み着目点検出および記述 | |
CN111243093B (zh) | 三维人脸网格的生成方法、装置、设备及存储介质 | |
KR102647351B1 (ko) | 3차원의 포인트 클라우드를 이용한 모델링 방법 및 모델링 장치 | |
US10977818B2 (en) | Machine learning based model localization system | |
US9525862B2 (en) | Method for estimating a camera motion and for determining a three-dimensional model of a real environment | |
EP2992508B1 (en) | Diminished and mediated reality effects from reconstruction | |
US20180012411A1 (en) | Augmented Reality Methods and Devices | |
CN113272713B (zh) | 用于执行自改进的视觉测程法的系统和方法 | |
WO2023071790A1 (zh) | 目标对象的姿态检测方法、装置、设备及存储介质 | |
JP2023065296A (ja) | 平面検出装置及び方法 | |
Jian et al. | Realistic face animation generation from videos | |
WO2023132261A1 (ja) | 情報処理システム、情報処理方法および情報処理プログラム | |
US20240362802A1 (en) | Systems and methods for determining motion models for aligning scene content captured by different image sensors | |
US20240362891A1 (en) | Systems and methods for selecting motion models for aligning scene content captured by different image sensors | |
Dou | Enhanced 3D capture for room-sized dynamic scenes with commodity depth cameras | |
Herath et al. | Unconstrained Segue Navigation for an Immersive Virtual Reality Experience | |
Bingham | An Interest Point Based Illumination Condition Matching Approach to Photometric Registration Within Augmented Reality Worlds |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210616 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220802 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221025 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230222 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230322 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7250709 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |