JP7403700B2 - ホモグラフィ適合を介した完全畳み込み着目点検出および記述 - Google Patents

ホモグラフィ適合を介した完全畳み込み着目点検出および記述 Download PDF

Info

Publication number
JP7403700B2
JP7403700B2 JP2023071522A JP2023071522A JP7403700B2 JP 7403700 B2 JP7403700 B2 JP 7403700B2 JP 2023071522 A JP2023071522 A JP 2023071522A JP 2023071522 A JP2023071522 A JP 2023071522A JP 7403700 B2 JP7403700 B2 JP 7403700B2
Authority
JP
Japan
Prior art keywords
interest
descriptor
calculated
image
points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023071522A
Other languages
English (en)
Other versions
JP2023083561A (ja
Inventor
ラビノビッチ アンドリュー
デトン ダニエル
ジャン マリシーウィッツ トマシュ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Magic Leap Inc
Original Assignee
Magic Leap Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Magic Leap Inc filed Critical Magic Leap Inc
Publication of JP2023083561A publication Critical patent/JP2023083561A/ja
Application granted granted Critical
Publication of JP7403700B2 publication Critical patent/JP7403700B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/97Determining parameters from multiple pictures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/242Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Investigating Or Analysing Materials By The Use Of Chemical Reactions (AREA)
  • Investigating Or Analyzing Materials By The Use Of Fluid Adsorption Or Reactions (AREA)

Description

(関連出願の相互参照)
本願は、その全開示が、本明細書に完全に記載されるかのように、あらゆる目的のために、参照することによって本明細書に組み込まれる、2017年11月14日に出願され、「FULLY CONVOLUTIONAL INTEREST POINT DETECTION AND DESCRIPTION VIA HOMOGRAPHIC ADAPTATION」と題された、米国仮特許出願第62/586,149号、および2017年12月20日に出願され、「FULLY CONVOLUTIONAL INTEREST POINT DETECTION AND DESCRIPTION VIA HOMOGRAPHIC ADAPTATION」と題された、米国仮特許出願第62/608,248号の優先権を主張する。
着目点検出は、コンピュータビジョンにおける重要な概念である。姿勢推定、同時位置特定およびマッピング(SLAM)、モーションからの構造解析、疎3次元(3D)マッピング、カメラ較正、および画像マッチング等の多くの幾何学的コンピュータビジョンタスクにおける最初のステップは、着目点を画像から抽出することである。着目点は、安定し、異なる照明条件および視点から再現可能である、画像内の2次元(2D)場所である。複数視点幾何学形状として知られる、数学およびコンピュータビジョンのサブフィールド全体は、点が、画像を横断して、確実に抽出およびマッチングされ得るという仮定の上に成り立つ、定理およびアルゴリズムから成る。しかしながら、大部分の実世界コンピュータビジョンへの入力は、理想化された点場所ではなく、代わりに、未加工の未標識画像である。いくつかのアプローチが、そのような画像内の着目点を検出するために開発されているが、限定された成功のみを収めている。
これらの分野において成された進歩にもかかわらず、当該分野では、画像着目点検出に関連する、改良された方法、システム、およびデバイスの必要がある。
本開示は、概して、着目点検出およびマッチングのコンピュータビジョンタスクに関する。より具体的には、本開示の実施形態は、ニューラルネットワークを使用して、画像着目点および記述のためのシステム、デバイス、および方法を提供する。本開示の一部は、拡張現実(AR)デバイスを参照して説明されるが、本開示は、コンピュータビジョンおよび画像ディスプレイシステムにおける種々の用途に適用可能である。
本発明の第1の側面によると、画像着目点検出および記述のためのニューラルネットワークを訓練する方法が、提供される。本方法は、複数の基準セットを備える、基準データセットを生成するステップであって、複数の基準セットはそれぞれ、画像および画像に対応する、基準着目点のセットとを含む、ステップを含んでもよい。本方法はまた、複数の基準セットの基準セット毎に、ホモグラフィを画像に適用することによって、ワーピングされた画像を生成するステップと、ホモグラフィを基準着目点のセットに適用することによって、基準着目点のワーピングされたセットを生成するステップと、画像を入力として受信する、ニューラルネットワークによって、計算された着目点のセットおよび計算された記述子を計算するステップと、ワーピングされた画像を入力として受信する、ニューラルネットワークによって、計算されたワーピングされた着目点のセットおよび計算されたワーピングされた記述子を計算するステップと、計算された着目点のセット、計算された記述子、計算されたワーピングされた着目点のセット、計算されたワーピングされた記述子、基準着目点のセット、基準着目点のワーピングされたセット、およびホモグラフィに基づいて、損失を計算するステップと、損失に基づいて、ニューラルネットワークを修正するステップとを含んでもよい。
いくつかの実施形態では、ニューラルネットワークは、着目点検出器サブネットワークと、記述子サブネットワークとを含む。いくつかの実施形態では、着目点検出器サブネットワークは、画像を入力として受信し、画像に基づいて、計算された着目点のセットを計算するように構成される。いくつかの実施形態では、記述子サブネットワークは、画像を入力として受信し、画像に基づいて、計算された記述子を計算するように構成される。いくつかの実施形態では、損失に基づいて、ニューラルネットワークを修正するステップは、損失に基づいて、着目点検出器サブネットワークおよび記述子サブネットワークの一方または両方を修正するステップを含む。いくつかの実施形態では、本方法は、基準データセットを生成するステップに先立って、複数の合成画像および合成着目点の複数のセットを含む、合成データセットを使用して、着目点検出器サブネットワークを訓練するステップを含む。いくつかの実施形態では、基準データセットを生成するステップは、着目点検出器サブネットワークを使用して、基準データセットを生成するステップを含む。
いくつかの実施形態では、基準データセットを生成するステップは、複数の基準セットの基準セット毎に、画像を、複数の未標識画像を備える、未標識データセットから取得するステップと、複数のホモグラフィを画像に適用することによって、複数のワーピングされた画像を生成するステップと、複数のワーピングされた画像を入力として受信する、ニューラルネットワークによって、計算されたワーピングされた着目点の複数のセットを計算するステップと、複数の逆数ホモグラフィを計算されたワーピングされた着目点の複数のセットに適用することによって、複数の計算された着目点のセットを生成するステップと、複数の計算された着目点のセットを集約し、基準着目点のセットを取得するステップとを含む。いくつかの実施形態では、複数の基準セットはそれぞれさらに、画像に対応する、基準記述子を含む。いくつかの実施形態では、基準データセットを生成するステップは、複数の基準セットの基準セット毎に、画像を、複数の未標識画像を備える、未標識データセットから取得するステップと、複数のホモグラフィを画像に適用することによって、複数のワーピングされた画像を生成するステップと、複数のワーピングされた画像を入力として受信する、ニューラルネットワークによって、複数の計算されたワーピングされた記述子を計算するステップと、複数の逆数ホモグラフィを複数の計算されたワーピングされた記述子に適用することによって、複数の計算された記述子を生成するステップと、複数の計算された記述子を集約し、基準記述子を取得するステップとを含む。いくつかの実施形態では、基準着目点のセットは、画像の特定のピクセルが特定のピクセルに位置する着目点を有する確率に対応する、値を有する、2次元マップである。いくつかの実施形態では、
本発明の第2の側面によると、ニューラルネットワークを使用して、画像着目点検出および記述を実施する方法が、提供される。本方法は、第1の画像を捕捉するステップを含んでもよい。本方法はまた、第2の画像を捕捉するステップを含んでもよい。本方法はさらに、第1の画像を入力として受信する、ニューラルネットワークによって、第1の計算された着目点のセットおよび第1の計算された記述子を計算するステップを含んでもよい。本方法はさらに、第2の画像を入力として受信する、ニューラルネットワークによって、第2の計算された着目点のセットおよび第2の計算された記述子を計算するステップを含んでもよい。本方法はさらに、第1および第2の計算された着目点のセットと、第1および第2の計算された記述子とに基づいて、第1の画像と第2の画像との間のホモグラフィを決定するステップを含んでもよい。いくつかの実施形態では、ニューラルネットワークは、第1の計算された着目点のセットおよび第2の計算された着目点のセットを計算するように構成される、着目点検出器サブネットワークと、第1の計算された記述子および第2の計算された記述子を計算するように構成される、記述子サブネットワークとを含む。
いくつかの実施形態では、着目点検出器サブネットワークは、記述子サブネットワークが第1の計算された記述子を計算するステップと並行して、第1の計算された着目点のセットを計算するように構成される。いくつかの実施形態では、着目点検出器サブネットワークは、記述子サブネットワークが第2の計算された記述子を計算するステップと並行して、第2の計算された着目点のセットを計算するように構成される。いくつかの実施形態では、本方法はさらに、複数の基準セットを備える、基準データセットを生成することによって、ニューラルネットワークを訓練するステップを含む。いくつかの実施形態では、複数の基準セットはそれぞれ、画像と、画像に対応する、基準着目点のセットとを含む。ニューラルネットワークを訓練するステップはさらに、複数の基準セットの基準セット毎に、ホモグラフィを画像に適用することによって、ワーピングされた画像を生成するステップと、ホモグラフィを基準着目点のセットに適用することによって、基準着目点のワーピングされたセットを生成するステップと、画像を入力として受信する、ニューラルネットワークによって、計算された着目点のセットおよび計算された記述子を計算するステップと、ワーピングされた画像を入力として受信する、ニューラルネットワークによって、計算されたワーピングされた着目点のセットおよび計算されたワーピングされた記述子を計算するステップと、計算された着目点のセット、計算された記述子、計算されたワーピングされた着目点のセット、計算されたワーピングされた記述子、基準着目点のセット、基準着目点のワーピングされたセット、およびホモグラフィに基づいて、損失を計算するステップと、損失に基づいて、ニューラルネットワークを修正するステップとを含んでもよい。
いくつかの実施形態では、損失に基づいて、ニューラルネットワークを修正するステップは、損失に基づいて、着目点検出器サブネットワークおよび記述子サブネットワークの一方または両方を修正するステップを含む。いくつかの実施形態では、本方法はさらに、基準データセットを生成するステップに先立って、複数の合成画像および合成着目点の複数のセットを含む、合成データセットを使用して、着目点検出器サブネットワークを訓練するステップを含む。いくつかの実施形態では、基準データセットを生成するステップは、着目点検出器サブネットワークを使用して、基準データセットを生成するステップを含む。いくつかの実施形態では、基準データセットを生成するステップは、複数の基準セットの基準セット毎に、画像を、複数の未標識画像を備える、未標識データセットから取得するステップと、複数のホモグラフィを画像に適用することによって、複数のワーピングされた画像を生成するステップと、複数のワーピングされた画像を入力として受信する、ニューラルネットワークによって、計算されたワーピングされた着目点の複数のセットを計算するステップと、複数の逆数ホモグラフィを計算されたワーピングされた着目点の複数のセットに適用することによって、複数の計算された着目点のセットを生成するステップと、複数の計算された着目点のセットを集約し、基準着目点のセットを取得するステップとを含む。いくつかの実施形態では、複数の基準セットはそれぞれさらに、画像に対応する、基準記述子を含む。いくつかの実施形態では、基準データセットを生成するステップは、複数の基準セットの基準セット毎に、画像を、複数の未標識画像を備える、未標識データセットから取得するステップと、複数のホモグラフィを画像に適用することによって、複数のワーピングされた画像を生成するステップと、複数のワーピングされた画像を入力として受信する、ニューラルネットワークによって、複数の計算されたワーピングされた記述子を計算するステップと、複数の逆数ホモグラフィを複数の計算されたワーピングされた記述子に適用することによって、複数の計算された記述子を生成するステップと、複数の計算された記述子を集約し、基準記述子を取得するステップとを含む。
本発明の第3の側面によると、光学デバイス(すなわち、光学システム)が、提供される。光学デバイスは、第1の画像および第2の画像を捕捉するように構成される、少なくとも1つのカメラを含んでもよい。光学デバイスはまた、カメラに結合され、動作を実施するように構成される、1つ以上のプロセッサを含んでもよい。動作は、第1の画像および第2の画像を少なくとも1つのカメラから受信するステップを含んでもよい。動作はまた、ニューラルネットワークによって、第1の画像を入力として使用して、第1の計算された着目点のセットおよび第1の計算された記述子を計算するステップを含んでもよい。動作はさらに、ニューラルネットワークによって、第2の画像を入力として使用して、第2の計算された着目点のセットおよび第2の計算された記述子を計算するステップを含んでもよい。動作はさらに、第1および第2の計算された着目点のセットと、第1および第2の計算された記述子とに基づいて、第1の画像と第2の画像との間のホモグラフィを決定するステップを含んでもよい。いくつかの実施形態では、ニューラルネットワークは、第1の計算された着目点のセットおよび第2の計算された着目点のセットを計算するように構成される、着目点検出器サブネットワークと、第1の計算された記述子および第2の計算された記述子を計算するように構成される、記述子サブネットワークとを含む。
いくつかの実施形態では、着目点検出器サブネットワークは、記述子サブネットワークが第1の計算された記述子を計算するステップと並行して、第1の計算された着目点のセットを計算するように構成される。いくつかの実施形態では、着目点検出器サブネットワークは、記述子サブネットワークが第2の計算された記述子を計算するステップと並行して、第2の計算された着目点のセットを計算するように構成される。いくつかの実施形態では、ニューラルネットワークは、複数の基準セットを備える、基準データセットを生成することによって、事前に訓練されており、複数の基準セットはそれぞれ、画像と、画像に対応する、基準着目点のセットとを含む。いくつかの実施形態では、ニューラルネットワークは、複数の基準セットの基準セット毎に、ホモグラフィを画像に適用することによって、ワーピングされた画像を生成するステップと、ホモグラフィを基準着目点のセットに適用することによって、基準着目点のワーピングされたセットを生成するステップと、画像を入力として受信する、ニューラルネットワークによって、計算された着目点のセットおよび計算された記述子を計算するステップと、ワーピングされた画像を入力として受信する、ニューラルネットワークによって、計算されたワーピングされた着目点のセットおよび計算されたワーピングされた記述子を計算するステップと、計算された着目点のセット、計算された記述子、計算されたワーピングされた着目点のセット、計算されたワーピングされた記述子、基準着目点のセット、基準着目点のワーピングされたセット、およびホモグラフィに基づいて、損失を計算するステップと、損失に基づいて、ニューラルネットワークを修正するステップとによって、事前に訓練された。
いくつかの実施形態では、損失に基づいて、ニューラルネットワークを修正するステップは、損失に基づいて、着目点検出器サブネットワークおよび記述子サブネットワークの一方または両方を修正するステップを含む。いくつかの実施形態では、基準データセットを生成するステップは、複数の基準セットの基準セット毎に、画像を、複数の未標識画像を備える、未標識データセットから取得するステップと、複数のホモグラフィを画像に適用することによって、複数のワーピングされた画像を生成するステップと、複数のワーピングされた画像を入力として受信する、ニューラルネットワークによって、計算されたワーピングされた着目点の複数のセットを計算するステップと、複数の逆数ホモグラフィを計算されたワーピングされた着目点の複数のセットに適用することによって、複数の計算された着目点のセットを生成するステップと、複数の計算された着目点のセットを集約し、基準着目点のセットを取得するステップとを含む。いくつかの実施形態では、複数の基準セットはそれぞれさらに、画像に対応する、基準記述子を含む。いくつかの実施形態では、基準データセットを生成するステップは、複数の基準セットの基準セット毎に、画像を、複数の未標識画像を備える、未標識データセットから取得するステップと、複数のホモグラフィを画像に適用することによって、複数のワーピングされた画像を生成するステップと、複数のワーピングされた画像を入力として受信する、ニューラルネットワークによって、複数の計算されたワーピングされた記述子を計算するステップと、複数の逆数ホモグラフィを複数の計算されたワーピングされた記述子に適用することによって、複数の計算された記述子を生成するステップと、複数の計算された記述子を集約し、基準記述子を取得するステップとを含む。
従来の技法に優る多数の利点が、本発明を用いて達成される。例えば、本発明のいくつかの実施形態は、単一またはマルチチャネル2次元(2D)画像の任意のセット(例えば、インターネットRGB写真、小型ロボットグレースケールカメラ、水中画像、航空画像、望遠鏡画像、深度センサ画像、赤外線カメラ画像等)に作用する、着目点検出器および記述子を訓練するための自己教師ありフレームワークを提供する。そのような実施形態は、多数の複数視点幾何学形状問題のために好適である。実施形態は、ともに、1つの順方向通過において、ピクセルレベル着目点場所および関連付けられた記述子を算出する、完全サイズの画像に作用する、完全畳み込みモデルを提供する。いくつかの実施形態は、ホモグラフィ適合、すなわち、着目点検出正確度を上昇させ、クロスドメイン適合(例えば、合成から実際のものへの)を実施するためのマルチスケールマルチホモグラフィアプローチとして説明され得る。本発明の実施形態は、MS-COCO汎用画像データセット上の訓練実行を用いて証明されるように、従来の角検出器または事前に適合された深層モデルより豊富な着目点を検出する。そのような実施形態は、HPatchesデータセット上における着目点再現性を可能にし、点マッチング正確度およびホモグラフィ推定のタスクにおいて、ORBおよびSIFT等の他の従来の記述子よりも優れている。さらに、本発明の実施形態は、明示的幾何学的対応情報を要求しない。本発明の他の利点は、容易に当業者に明白となるであろう。
例えば、本願は以下の項目を提供する。
(項目1)
画像着目点検出および記述のためのニューラルネットワークを訓練する方法であって、前記方法は、
複数の基準セットを備える基準データセットを生成することであって、前記複数の基準セットはそれぞれ、
画像と、
前記画像に対応する基準着目点のセットと
を含む、ことと、
前記複数の基準セットの基準セット毎に、
ホモグラフィを前記画像に適用することによって、ワーピングされた画像を生成することと、
前記ホモグラフィを前記基準着目点のセットに適用することによって、基準着目点のワーピングされたセットを生成することと、
前記画像を入力として受信する前記ニューラルネットワークによって、計算された着目点のセットおよび計算された記述子を計算することと、
前記ワーピングされた画像を入力として受信する前記ニューラルネットワークによって、計算されたワーピングされた着目点のセットおよび計算されたワーピングされた記述子を計算することと、
前記計算された着目点のセット、前記計算された記述子、前記計算されたワーピングされた着目点のセット、前記計算されたワーピングされた記述子、前記基準着目点のセット、前記基準着目点のワーピングされたセット、および前記ホモグラフィに基づいて、損失を計算することと、
前記損失に基づいて、前記ニューラルネットワークを修正することと
を含む、方法。
(項目2)
前記ニューラルネットワークは、着目点検出器サブネットワークと、記述子サブネットワークとを含み、
前記着目点検出器サブネットワークは、前記画像を入力として受信し、前記画像に基づいて、前記計算された着目点のセットを計算するように構成され、
前記記述子サブネットワークは、前記画像を入力として受信し、前記画像に基づいて、前記計算された記述子を計算するように構成される、
項目1に記載の方法。
(項目3)
前記損失に基づいて、前記ニューラルネットワークを修正することは、前記損失に基づいて、前記着目点検出器サブネットワークおよび前記記述子サブネットワークの一方または両方を修正することを含む、項目2に記載の方法。
(項目4)
前記基準データセットを生成することに先立って、複数の合成画像および合成着目点の複数のセットを含む合成データセットを使用して、前記着目点検出器サブネットワークを訓練することをさらに含み、前記基準データセットを生成することは、前記着目点検出器サブネットワークを使用して、前記基準データセットを生成することを含む、項目2に記載の方法。
(項目5)
前記基準データセットを生成することは、
前記複数の基準セットの基準セット毎に、
前記画像を、複数の未標識画像を備える未標識データセットから取得することと、
複数のホモグラフィを前記画像に適用することによって、複数のワーピングされた画像を生成することと、
前記複数のワーピングされた画像を入力として受信する前記ニューラルネットワークによって、計算されたワーピングされた着目点の複数のセットを計算することと、
複数の逆数ホモグラフィを前記計算されたワーピングされた着目点の複数のセットに適用することによって、複数の計算された着目点のセットを生成することと、
前記複数の計算された着目点のセットを集約し、前記基準着目点のセットを取得することと
を含む、項目1に記載の方法。
(項目6)
前記複数の基準セットはそれぞれさらに、前記画像に対応する基準記述子を含み、前記基準データセットを生成することは、
前記複数の基準セットの基準セット毎に、
前記画像を、複数の未標識画像を備える未標識データセットから取得することと、
複数のホモグラフィを前記画像に適用することによって、複数のワーピングされた画像を生成することと、
前記複数のワーピングされた画像を入力として受信する前記ニューラルネットワークによって、複数の計算されたワーピングされた記述子を計算することと、
複数の逆数ホモグラフィを前記複数の計算されたワーピングされた記述子に適用することによって、複数の計算された記述子を生成することと、
前記複数の計算された記述子を集約し、前記基準記述子を取得することと
を含む、項目1に記載の方法。
(項目7)
前記基準着目点のセットは、前記画像の特定のピクセルが前記特定のピクセルに位置する着目点を有する確率に対応する値を有する2次元マップである、項目1に記載の方法。(項目8)
ニューラルネットワークを使用して、画像着目点検出および記述を実施する方法であって、前記方法は、
第1の画像を捕捉することと、
第2の画像を捕捉することと、
前記第1の画像を入力として受信する前記ニューラルネットワークによって、第1の計算された着目点のセットおよび第1の計算された記述子を計算することと、
前記第2の画像を入力として受信する前記ニューラルネットワークによって、第2の計算された着目点のセットおよび第2の計算された記述子を計算することと、
前記第1および第2の計算された着目点のセットと、前記第1および第2の計算された記述子とに基づいて、前記第1の画像と前記第2の画像との間のホモグラフィを決定することと
を含み、前記ニューラルネットワークは、
前記第1の計算された着目点のセットおよび前記第2の計算された着目点のセットを計算するように構成される着目点検出器サブネットワークと、
前記第1の計算された記述子および前記第2の計算された記述子を計算するように構成される記述子サブネットワークと
を含む、方法。
(項目9)
前記着目点検出器サブネットワークは、前記記述子サブネットワークが前記第1の計算された記述子を計算することと並行して、前記第1の計算された着目点のセットを計算するように構成され、
前記着目点検出器サブネットワークは、前記記述子サブネットワークが前記第2の計算された記述子を計算することと並行して、前記第2の計算された着目点のセットを計算するように構成される、
項目8に記載の方法。
(項目10)
前記ニューラルネットワークを訓練することをさらに含み、前記ニューラルネットワークを訓練することは、
複数の基準セットを備える基準データセットを生成することであって、前記複数の基準セットはそれぞれ、
画像と、
前記画像に対応する基準着目点のセットと
を含む、ことと、
前記複数の基準セットの基準セット毎に、
ホモグラフィを前記画像に適用することによって、ワーピングされた画像を生成することと、
前記ホモグラフィを前記基準着目点のセットに適用することによって、基準着目点のワーピングされたセットを生成することと、
前記画像を入力として受信する前記ニューラルネットワークによって、計算された着目点のセットおよび計算された記述子を計算することと、
前記ワーピングされた画像を入力として受信する前記ニューラルネットワークによって、計算されたワーピングされた着目点のセットおよび計算されたワーピングされた記述子を計算することと、
前記計算された着目点のセット、前記計算された記述子、前記計算されたワーピングされた着目点のセット、前記計算されたワーピングされた記述子、前記基準着目点のセット、前記基準着目点のワーピングされたセット、および前記ホモグラフィに基づいて、損失を計算することと、
前記損失に基づいて、前記ニューラルネットワークを修正することと
によって行われる、項目8に記載の方法。
(項目11)
前記損失に基づいて、前記ニューラルネットワークを修正することは、前記損失に基づいて、前記着目点検出器サブネットワークおよび前記記述子サブネットワークの一方または両方を修正することを含む、項目10に記載の方法。
(項目12)
前記基準データセットを生成することに先立って、複数の合成画像および合成着目点の複数のセットを含む合成データセットを使用して、前記着目点検出器サブネットワークを訓練することをさらに含み、前記基準データセットを生成することは、前記着目点検出器サブネットワークを使用して、前記基準データセットを生成することを含む、項目10に記載の方法。
(項目13)
前記基準データセットを生成することは、
前記複数の基準セットの基準セット毎に、
前記画像を、複数の未標識画像を備える未標識データセットから取得することと、
複数のホモグラフィを前記画像に適用することによって、複数のワーピングされた画像を生成することと、
前記複数のワーピングされた画像を入力として受信する前記ニューラルネットワークによって、計算されたワーピングされた着目点の複数のセットを計算することと、
複数の逆数ホモグラフィを前記計算されたワーピングされた着目点の複数のセットに適用することによって、複数の計算された着目点のセットを生成することと、
前記複数の計算された着目点のセットを集約し、前記基準着目点のセットを取得することと
を含む、項目10に記載の方法。
(項目14)
前記複数の基準セットはそれぞれさらに、前記画像に対応する基準記述子を含み、前記基準データセットを生成することは、
前記複数の基準セットの基準セット毎に、
前記画像を、複数の未標識画像を備える未標識データセットから取得することと、
複数のホモグラフィを前記画像に適用することによって、複数のワーピングされた画像を生成することと、
前記複数のワーピングされた画像を入力として受信する前記ニューラルネットワークによって、複数の計算されたワーピングされた記述子を計算することと、
複数の逆数ホモグラフィを前記複数の計算されたワーピングされた記述子に適用することによって、複数の計算された記述子を生成することと、
前記複数の計算された記述子を集約し、前記基準記述子を取得することと
を含む、項目10に記載の方法。
(項目15)
光学デバイスであって、
第1の画像および第2の画像を捕捉するように構成される少なくとも1つのカメラと、
前記カメラに結合された1つ以上のプロセッサであって、前記1つ以上のプロセッサは、
前記第1の画像および前記第2の画像を前記少なくとも1つのカメラから受信することと、
ニューラルネットワークによって、前記第1の画像を入力として使用して、第1の計算された着目点のセットおよび第1の計算された記述子を計算することと、
前記ニューラルネットワークによって、前記第2の画像を入力として使用して、第2の計算された着目点のセットおよび第2の計算された記述子を計算することと、
前記第1および第2の計算された着目点のセットと、前記第1および第2の計算された記述子とに基づいて、前記第1の画像と前記第2の画像との間のホモグラフィを決定することと、
を含む動作を実施するように構成される、1つ以上のプロセッサと
を備え、
前記ニューラルネットワークは、
前記第1の計算された着目点のセットおよび前記第2の計算された着目点のセットを計算するように構成される着目点検出器サブネットワークと、
前記第1の計算された記述子および前記第2の計算された記述子を計算するように構成される記述子サブネットワークと
を含む、光学デバイス。
(項目16)
前記着目点検出器サブネットワークは、前記記述子サブネットワークが前記第1の計算された記述子を計算することと並行して、前記第1の計算された着目点のセットを計算するように構成され、
前記着目点検出器サブネットワークは、前記記述子サブネットワークが前記第2の計算された記述子を計算することと並行して、前記第2の計算された着目点のセットを計算するように構成される、
項目15に記載の光学デバイス。
(項目17)
前記ニューラルネットワークは、事前に訓練され、前記事前の訓練は、
複数の基準セットを備える基準データセットを生成することであって、前記複数の基準セットはそれぞれ、
画像と、
前記画像に対応する基準着目点のセットと
を含む、ことと、
前記複数の基準セットの基準セット毎に、
ホモグラフィを前記画像に適用することによって、ワーピングされた画像を生成することと、
前記ホモグラフィを前記基準着目点のセットに適用することによって、基準着目点のワーピングされたセットを生成することと、
前記画像を入力として受信する前記ニューラルネットワークによって、計算された着目点のセットおよび計算された記述子を計算することと、
前記ワーピングされた画像を入力として受信する前記ニューラルネットワークによって、計算されたワーピングされた着目点のセットおよび計算されたワーピングされた記述子を計算することと、
前記計算された着目点のセット、前記計算された記述子、前記計算されたワーピングされた着目点のセット、前記計算されたワーピングされた記述子、前記基準着目点のセット、前記基準着目点のワーピングされたセット、および前記ホモグラフィに基づいて、損失を計算することと、
前記損失に基づいて、前記ニューラルネットワークを修正することと
によって行われる、項目15に記載の光学デバイス。
(項目18)
前記損失に基づいて、前記ニューラルネットワークを修正することは、前記損失に基づいて、前記着目点検出器サブネットワークおよび前記記述子サブネットワークの一方または両方を修正することを含む、項目17に記載の光学デバイス。
(項目19)
前記基準データセットを生成することは、
前記複数の基準セットの基準セット毎に、
前記画像を、複数の未標識画像を備える未標識データセットから取得することと、
複数のホモグラフィを前記画像に適用することによって、複数のワーピングされた画像を生成することと、
前記複数のワーピングされた画像を入力として受信する前記ニューラルネットワークによって、計算されたワーピングされた着目点の複数のセットを計算することと、
複数の逆数ホモグラフィを前記計算されたワーピングされた着目点の複数のセットに適用することによって、複数の計算された着目点のセットを生成することと、
前記複数の計算された着目点のセットを集約し、前記基準着目点のセットを取得することと
を含む、項目17に記載の光学デバイス。
(項目20)
前記複数の基準セットはそれぞれさらに、前記画像に対応する基準記述子を含み、前記基準データセットを生成することは、
前記複数の基準セットの基準セット毎に、
前記画像を、複数の未標識画像を備える未標識データセットから取得することと、
複数のホモグラフィを前記画像に適用することによって、複数のワーピングされた画像を生成することと、
前記複数のワーピングされた画像を入力として受信する前記ニューラルネットワークによって、複数の計算されたワーピングされた記述子を計算することと、
複数の逆数ホモグラフィを前記複数の計算されたワーピングされた記述子に適用することによって、複数の計算された記述子を生成することと、
前記複数の計算された記述子を集約し、前記基準記述子を取得することと
を含む、項目17に記載の光学デバイス。
図1は、本発明のいくつかの実施形態による、ニューラルネットワークを使用した、一対の入力画像の着目点間の点対応の決定を図示する。
図2は、本発明のいくつかの実施形態による、ニューラルネットワークの一般的アーキテクチャを図示する。
図3は、着目点検出器サブネットワークが、複数の合成画像を備える、合成データセットを使用して訓練される、本発明による、第1の訓練ステップを図示する。
図4は、基準データセットが、ホモグラフィ適合を使用してコンパイルされる、本発明による、第2の訓練ステップを図示する。
図5は、ニューラルネットワークが、基準データセットを使用して訓練される、本発明による、第3の訓練ステップを図示する。
図6は、本発明のいくつかの実施形態による、ニューラルネットワークを使用した、2つの捕捉された画像間のホモグラフィの計算を図示する。
図7は、本発明のいくつかの実施形態による、合成データセットの実施例を図示する。
図8は、本発明のいくつかの実施形態による、未標識データセットの実施例を図示する。
図9は、本発明のいくつかの実施形態による、ニューラルネットワークの例示的アーキテクチャを図示する。
図10は、本発明のいくつかの実施形態による、第2の訓練ステップの間に採用される、ホモグラフィ適合の種々のステップを図示する。
図11は、本発明のいくつかの実施形態による、ランダムホモグラフィ生成のある側面を図示する。
図12は、本明細書に説明される実施形態を利用し得る、ARデバイスの概略図を図示する。
図13は、本発明のいくつかの実施形態による、ニューラルネットワークを訓練し、ニューラルネットワークを使用して、画像着目点検出および記述を実施する方法を図示する。
図14は、本発明のいくつかの実施形態による、画像着目点検出および記述のためのニューラルネットワークを訓練する方法を図示する。
図15は、本明細書に説明されるいくつかの実施形態による、簡略化されたコンピュータシステムを図示する。
畳み込みニューラルネットワークは、画像を入力として要求するほぼ全てのタスクにおいて、手動で作り出された表現より優れていることが示されている。特に、2次元(2D)「特徴点」または「目印」を予測する、完全畳み込みニューラルネットワークは、人間の姿勢推定、オブジェクト検出、および部屋レイアウト推定等の種々のタスクに関して、広く研究されている。これらの技法のうちのいくつかは、人間の注釈を伴って標識される、2Dグラウンドトゥルース場所の大量データセットを利用する。着目点検出を大規模教師あり機械学習問題と同様に公式化し、それらを検出するように最新畳み込みニューラルネットワークアーキテクチャを訓練することは、自然であると考えられる。残念ながら、ネットワークが、口角または左足首等の意味論的身体部分を検出するように訓練される、人間の身体特徴点推定等のより多くの意味論タスクと比較して、着目点検出の概念は、意味論的に明確に定義されていない。本難点は、畳み込みニューラルネットワークを着目点の強教師あり学習を用いて訓練することを簡単でないものにする。
人間の教師あり学習を使用して、実画像内の着目点を定義する代わりに、本発明の実施形態は、自己訓練を使用した自己教師ありソリューションをもたらす。本明細書に説明される実施形態のアプローチでは、実画像内の擬似グラウンドトゥルース着目点場所の大量データセットが、作成され、人間の知識ではなく、着目点検出器自体によって教師あり学習される。擬似グラウンドトゥルース着目点を生成するために、完全畳み込みニューラルネットワークは、最初に、合成画像データセットからの数百万例のユニークな実施例において訓練される。特徴抽出は、画像シーケンスにおける画像マッチングおよび追跡のための基本ステップであるため、明確に異なる点の検出および精密な位置特定が重要であり得ることが、認められた。これらの明確に異なる点は、角、縁(多面体の分析のための基本要素)、および孔、ディスク、またはリング等の円形特徴の中心として特性評価された。合流点(Y、X、T、L)もまた、そのような明確に異なる点を検出するために重要と見なされた。例えば、T-合流点は、一般的に、介在、故に、深度途絶を示す。
これらの洞察を取り入れると、着目点検出器の大規模訓練のための合成形状の大量データセットは、着目点場所に曖昧性が存在しない、単純幾何学的形状から成るように作成され得る。本明細書に説明されるような着目点検出器は、合成形状のデータセットにおいて、従来の着目点検出器より有意に優れていることが示された。実画像に適用されると、着目点検出器は、ドメイン適合が合成画像において訓練するときの既知の問題であることを考慮して、優れた性能を発揮する。しかしながら、古典的着目点検出器と比較して、画像テクスチャおよびパターンの多様なセットでは、着目点検出器の性能は、それほど一貫しない。着目点検出器と古典的検出器との間の実世界画像における性能における溝を埋めるために、本発明の実施形態(代替として、本明細書では、ホモグラフィ適合と称される)は、マルチスケールマルチ変換を可能にする。
ホモグラフィ適合は、着目点検出器の自己教師あり訓練を可能にする。いくつかの実施形態では、着目点検出器が、多くの異なる視点およびスケールからの場面を確認することに役立てるために、複数回、入力画像をワーピングさせる。擬似グラウンドトゥルース着目点を生成し、検出器の性能を上昇させるために、着目点検出器と併用されると、結果として生じる検出は、より再現可能である。ロバストかつ再現可能着目点を検出した後の1つのステップは、固定された次元記述子ベクトルを各点(または全ての画像ピクセル)に結び付けることであって、これは、画像を横断して着目点をマッチングさせるために使用され得る。したがって、本発明のいくつかの実施形態では、着目点検出器サブネットワークは、記述子サブネットワークと組み合わせられてもよい。結果として生じるネットワークは、図1に示されるように、点を一対の画像から抽出し、点対応を確立するために使用されることができる。
自己教師ありアプローチを含む、本発明の実施形態によると、初期着目点検出器およびホモグラフィ適合プロシージャは、標的未標識ドメインからの画像を自動的に標識する。生成された標識は、ひいては、ともに、点および記述子を画像から抽出する、完全畳み込みネットワークを訓練するために使用される。完全畳み込みネットワークは、広範囲の用途、特に、2つの画像間のホモグラフィを算出する等の画像/画像幾何学形状タスクを伴うものにおいて使用されることができる。ホモグラフィは、カメラ中心の周囲の回転のみを伴うカメラ運動、オブジェクトまでの大距離を伴う場面、および平面場面に関する正確またはほぼ正確な画像間変換を与える。世界の大部分は、合理的に平面であるため、ホモグラフィは、同一3次元(3D)点が異なる視点から見られるときに発生するものに関する良好なモデルである。ホモグラフィは、3D情報を要求しないため、それらは、ランダムにサンプリングされ、双線形補間と大差なく、任意の2D画像に容易に適用されることができる。これらの理由から、ホモグラフィは、本発明のいくつかの実施形態において利用される。
図1は、本発明のいくつかの実施形態による、ニューラルネットワーク100を使用した、一対の入力画像102の着目点間の点対応106の決定を図示する。具体的には、図1は、点対応を利用する単一順方向通過において、スケール不変量特徴量変換(SIFT)様2D着目点場所および記述子を算出する、完全畳み込みニューラルネットワークである、ニューラルネットワーク100の2つのインスタンス化(すなわち、ニューラルネットワーク100-1、100-2)を示す。入力画像102-1、102-2を入力として受信すると、ニューラルネットワーク100-1、100-2は、それぞれ、入力画像102-1、102-2に基づいて、計算された着目点のセット108-1、108-2および計算された記述子110-1、110-2を計算する。点対応106は、次いで、着目点のそれぞれと関連付けられた記述子によって情報を与えられる、計算された着目点108-1、108-2間の比較によって決定される。例えば、異なる着目点と関連付けられた記述子が、マッチングされてもよい。最も類似する記述子を有する異なる画像に対応する、着目点が、いくつかの可能性として考えられる類似性スコア化プロシージャのうちの1つに従って、相互に対応すると決定されてもよい。
一実施例によると、入力画像102-1に対応する第1の着目点は、第1の着目点に対する5つの最も近い着目点(ピクセル間ピクセル距離に従って)の中から、5つの最も近い着目点と関連付けられた記述子と比較して、第2の着目点と関連付けられた記述子が、第1の着目点と関連付けられた記述子に最も類似する(例えば、L2距離を使用することによって決定される)ことを決定することによって、入力画像102-2に対応する第2の着目点に対応すると決定されてもよい。別の実施例によると、入力画像102-1に対応する第1の着目点は、入力画像102-2に対応する全ての着目点の中から、第2の着目点と関連付けられた記述子が、入力画像102-2に対応する全ての着目点と関連付けられた記述子と比較して、第1の着目点と関連付けられた記述子に最も類似することを決定することによって、入力画像102-2に対応する第2の着目点に対応すると決定されてもよい。
図2は、本発明のいくつかの実施形態による、ニューラルネットワーク100の一般的アーキテクチャを図示する。ニューラルネットワーク100は、着目点検出器サブネットワーク112と、記述子サブネットワーク114とを含んでもよく、2つのサブネットワークはそれぞれ、単一サブネットワーク入力120-1、120-2(それぞれ)と、単一サブネットワーク出力122-1、122-2(それぞれ)とを有する。2つのサブネットワークは、別個に図示されるが、それらは、図9を参照して説明されるように、1つ以上の畳み込み層および/またはニューロンを共有してもよい。いくつかの実施形態では、ニューラルネットワーク100は、入力画像102を入力として受信するように構成される、ネットワーク入力116を含んでもよい。入力画像102は、次いで、サブネットワーク入力120-1、120-2にフィードされてもよい。サブネットワーク入力120-1における入力画像102の受信に応じて、着目点検出器サブネットワーク112は、着目点108を計算し、計算された着目点108をサブネットワーク出力122-1において出力してもよく、これは、次いで、ネットワーク出力118-1の中にフィードされる。サブネットワーク入力120-2における入力画像102の受信に応じて、記述子サブネットワーク114は、記述子110を計算し、計算された記述子110をサブネットワーク出力122-2において出力してもよく、これは、次いで、ネットワーク出力118-2の中にフィードされる。故に、サブネットワーク112、114は、同一入力に基づいて、異なる出力を提供し、ニューラルネットワーク100の異なる分岐を表すことができる。
ニューラルネットワーク100は、完全サイズの画像に作用してもよく、単一順方向通過において、固定長記述子を伴う着目点検出を生産してもよい。いくつかの実施形態では、入力画像102は、H×Wの寸法を有してもよく、Hは、ピクセル単位における入力画像102の高さであって、Wは、ピクセル単位における入力画像102の幅である。同一実施形態では、計算された着目点108は、着目点ピクセル場所のリスト(例えば、座標対のリスト)であってもよい、または加えて、または代替として、計算された着目点108は、H×Wの寸法を有する、2Dマップであってもよく、各ピクセルは、入力(すなわち、入力画像102)内のそのピクセルに関する確率「点」に対応する。同一実施形態では、計算された記述子110は、それぞれ、識別された着目点に対応する、固定長記述子のセットであってもよい、または加えて、または代替として、計算された記述子110は、H×W×Dの寸法を有してもよく、Dは、H×W画像の各ピクセルにおいて計算された記述子の長さである。故に、着目点を含有する低確率を有する、ピクセルさえ、長さDの記述子を有する。
ニューラルネットワーク100の訓練は、ネットワークモディファイア126および/またはサブネットワークモディファイア124-1、124-2によって可能にされてもよく、これは、訓練フェーズの間、誤差信号、損失信号、および/または補正信号を受信し、ネットワークの層および/またはニューロンを修正させてもよい。ニューラルネットワーク100は、ネットワーク出力(計算された着目点108および計算された記述子110)とグラウンドトゥルースデータとの間の誤差が、同一入力画像102または異なる画像を用いた後続実行の間、低減され得るように、修正されてもよい。例えば、ニューラルネットワーク100は、出力とグラウンドトゥルースとの間の差異を示す、誤差信号/値に基づいて、最小限にされるべきある数量を示す、損失信号/値に基づいて、および/またはニューラルネットワーク100に対して行われるべき具体的修正を示す、補正信号に基づいて、修正されてもよい。ニューラルネットワーク100を修正するステップは、着目点検出器サブネットワーク112のみを修正するステップ、記述子サブネットワーク114のみを修正するステップ、および/またはサブネットワーク112、114の両方を修正するステップを含んでもよい。
図3は、着目点検出器サブネットワーク112が、複数の合成画像を備える、合成データセット128を使用して訓練される、本発明による、第1の訓練ステップを図示する。図3に図示される訓練ステップは、着目点検出器サブネットワーク112のみを含んでもよく、記述子サブネットワーク114を無視してもよい。着目点が標識された画像の既存の大量のデータベースが存在しないため、深層着目点検出器は、四辺形、三角形、線、および楕円形の合成データレンダリングを介した、簡略化された2D幾何学形状から成る、大規模合成データセットの作成から利点を享受する。これらの形状の実施例は、図7を参照して示される。本データセットでは、標識曖昧性は、単純Y-合流点、L-合流点、T-合流点および小楕円形の中心および線分の終点を用いて、着目点をモデル化することによって除去されることができる。
いったん合成画像が、レンダリングされると、ホモグラフィワーピングが、各画像に適用され、訓練実施例の数を増大させる。データは、リアルタイムで生成されてもよく、実施例は、2回、ネットワークによって確認されなくてもよい。単一訓練反復の間、合成画像130が、着目点検出器サブネットワーク112に提供され、これは、計算された着目点108のセットを計算する。合成画像130に対応する合成着目点132のセットは、計算された着目点108と比較され、損失134が、比較に基づいて計算される。着目点検出器サブネットワーク112は、次いで、損失134に基づいて、修正される。複数の訓練反復が、損失134が所定の閾値を下回る、および/または合成データセット128が包括的に使用される等の1つ以上の条件が満たされるまで、実施される。
FAST、Harris角、およびShi-Tomasiの「Good Features To Track」等の他の従来の角検出アプローチと比較して、着目点検出器サブネットワーク112は、合成データセット128において、より優れた結果を生産する。着目点検出器サブネットワークのさらなる評価は、人間がグラウンドトゥルース角場所を用いて容易に標識し得る、単純合成幾何学形状の使用から構成された。1つの性能評価では、着目点検出器サブネットワーク112の2つの異なるモデルが、使用された。両モデルは、同一エンコーダアーキテクチャを共有するが、層あたりニューロンの数が異なり、第1のモデルは、層あたり64-64-64-64-128-128-128-128-128個のニューロンを有し、第2のモデルは、層あたり9-9-16-16-32-32-32-32-32個のニューロンを有した。各検出器は、合成データセット128を伴う、評価データセットを与えられ、それらが単純角を位置特定した正確度を決定した。評価は、着目点検出器サブネットワーク112が、全てのカテゴリにおいて、古典的検出器より優れており、古典的検出器が、特に、ランダム入力に関して難点を有することを実証した。
図4は、基準データセット144が、ホモグラフィ適合を使用してコンパイルされる、本発明による、第2の訓練ステップを図示する。基準データセット144は、例えば、実世界画像を備える、未標識データセット136から得られた画像、および基準着目点および基準記述子を含む、擬似グラウンドトゥルースデータセットを表す。入力画像102は、未標識データセット136から得られ、ニューラルネットワーク100に提供され、これは、入力画像102に基づいて、計算された着目点108のセットと、計算された記述子110とを計算する。データは、基準データセット144内に、基準セット142として記憶されてもよく、各基準セット142は、入力画像102と、入力画像102に対応する計算された着目点108と、入力画像102に対応する計算された記述子110とを含む。
単一訓練反復の間、ホモグラフィ適合が、入力画像102の多数のホモグラフィワーピングを横断して平均応答を使用するために採用されてもよい。ホモグラフィ生成器138は、画像をニューラルネットワーク100を通して通過させることに先立って、複数のランダムまたは擬似ランダムホモグラフィを入力画像102に適用するために使用されてもよい。ニューラルネットワーク100の他側では、逆数ホモグラフィ生成器140が、複数の逆数ホモグラフィを計算された着目点108に適用するために使用されてもよく、複数の逆数ホモグラフィは、計算された着目点108をワーピング解除するような複数のホモグラフィの逆数である。プロセスは、同一入力画像102に関して繰り返され、複数のワーピング解除された計算された着目点を取得してもよい。複数のワーピング解除された計算された着目点は、集約され/組み合わせられ、基準データセット144内に、入力画像102および基準記述子とともに、基準セット142の一部として記憶される、基準着目点のセットを取得してもよい。
加えて、または代替として、ホモグラフィ適合は、ニューラルネットワーク100によって出力された記述子を改良するために採用されてもよい。例えば、単一訓練反復の間、ホモグラフィ生成器138は、画像をニューラルネットワーク100を通して通過させることに先立って、複数のランダムまたは擬似ランダムホモグラフィを入力画像102に適用するために使用されてもよい。ニューラルネットワーク100の他側では、逆数ホモグラフィ生成器140が、複数の逆数ホモグラフィを計算された記述子110に適用するために使用されてもよく、複数の逆数ホモグラフィは、計算された記述子110をワーピング解除するような複数のホモグラフィの逆数である。プロセスは、同一入力画像102に関して繰り返され、複数のワーピング解除された計算された記述子を取得してもよい。複数のワーピング解除された計算された記述子は、集約され/組み合わせられ、基準データセット144内に、入力画像102および基準着目点のセットとともに、基準セット142の一部として記憶される、基準記述子を取得してもよい。
ホモグラフィワーピングNの数は、本アプローチのハイパーパラメータである。いくつかの実施形態では、第1のホモグラフィは、N=1(無適合を意味する)であるように、恒等関数と等しくなるように設定される。試験では、Nの範囲は、好ましい値を試し、決定するように変動され、Nは、いくつかの実施形態では、小値(N=10)から、中値(N=100)、高値(N=1000)まで実行された。結果は、100を上回るホモグラフィを実施するとき、収穫逓減が存在することを示唆する。MS-COCOからの画像のホールドアウトされたセットにおいて、0.67の再現性スコアが、任意のホモグラフィ適合を伴わずに、満たされ、N=100の変換を実施するときの21%の再現性上昇およびN=1,000のときの22%の再現性上昇は、100を上回るホモグラフィを使用することの最小限の利点を十分に実証した。
着目点応答マップまたは記述子マップを組み合わせるとき、スケール内集約とスケール横断集約との間で区別することが有益であり得る。実世界画像は、典型的には、異なるスケールにおける特徴を含有し、高分解能画像に関係すると見なされるであろう、いくつかの点は、多くの場合、より粗くより低い分解能画像内では可視でさえない。しかしながら、単一スケール内では、回転および平行移動等の画像の変換は、着目点を出現/消失させないはずである。画像の本下層マルチスケール性質は、スケール内およびスケール横断集約方略に関する異なる含意を有する。スケール内集約は、セットの交差の算出に類似するはずであって、スケール横断集約は、セットの和に類似するはずである。スケールを横断した平均応答はまた、着目点信頼度のマルチスケール測定値として使用されることができる。スケールを横断した平均応答は、着目点が全てのスケールを横断して可視であるとき、最大限にされ、これらは、追跡用途のための最もロバストな着目点である可能性が高い。
スケールを横断して集約するとき、検討されるスケールの数Nは、アプローチのハイパーパラメータである。N=1の設定は、無マルチスケール集約(または単に、大きな可能性として考えられる画像サイズのみを横断した集約)に対応する。いくつかの実施形態では、N>1に関して、処理されている画像のマルチスケールセットは、「マルチスケール画像ピラミッド」と称される。ピラミッドのレベルに異なるように加重する、加重スキームは、より高い分解能画像に、より大きい加重を与え得る。これは、より低い分解能において検出された着目点が、不良位置特定能力を有し、最終的集約された点が、同様に位置特定されるはずであるため、重要であり得る。実験結果は、スケール内集約が、再現性に最大効果を及ぼすことを実証した。いくつかの実施形態では、ホモグラフィ適合技法は、実画像上におけるサブネットワーク112、114およびネットワーク100の一般化能力を改良するために、訓練時間に適用される。
ホモグラフィ適合アプローチのための理論的裏付けが、以下の段落に説明される。いくつかの実施形態では、初期着目点関数は、以下のように、fθ(・)によって表され、Iは、入力画像であって、xは、結果として生じる点であって、Hは、ランダムホモグラフィである。

理想的着目点演算子は、ホモグラフィに対して共変するはずである。関数fθ(・)は、出力が入力に伴って変換される場合、Hに伴って共変する。言い換えると、共変検出器は、あらゆる場合において、以下を満たすであろう。

明確にするために、表記Hxは、結果として生じる着目点に適用される、ホモグラフィ行列Hを示し、H(I)は、ホモグラフィ行列Hによってワーピングされる、画像I全体を示す。ホモグラフィ関連項を右に移動させることは、以下を生産する。
実際は、着目点検出器は、完璧に共変ではなく、前の方程式における異なるホモグラフィは、異なる着目点xをもたらすであろう。いくつかの実施形態では、これは、ランダムHの十分に大量のサンプルにわたる経験的総和を実施することによって、対処される。サンプルにわたる結果として生じる集約は、以下のように定義される、より優れた着目点検出器F(・)をもたらす。

いくつかの実施形態では、全ての行列が、良好な結果を生産するわけではなく、技術的能力の欠如のためではなく、全ての可能性として考えられるランダムホモグラフィが妥当と思われるカメラ変換を表すわけではないためである。いくつかの実施形態では、潜在的ホモグラフィは、切断正規分布を使用して、平行移動、スケール、面内回転、および対称射影歪みに関して、所定の範囲内でサンプリングすることによって、より単純であまり表現的ではない変換クラスに分解される。これらの変換は、初期基底中心クロッピングとともに構成され、境界アーチファクトを回避することに役立つ。
図5は、ニューラルネットワーク100が、基準データセット144を使用して訓練される、本発明による、第3の訓練ステップを図示する。単一訓練反復の間、基準データセット144内に含有される単一基準セット142が、読み出される。各基準セット142は、入力画像102と、入力画像102に対応する基準着目点のセット148と、(随意に)入力画像102に対応する基準記述子150とを含んでもよい。1つ以上のホモグラフィ生成器138を使用して、ワーピングされた入力画像103が、ホモグラフィを入力画像102に適用することによって生成され、基準着目点のワーピングされたセット149が、同一ホモグラフィを基準着目点148に適用することによって生成される。順次または並行して、ニューラルネットワーク100-1は、入力画像102を受信し、入力画像102に基づいて、計算された着目点のセット108および計算された記述子110を計算し、ニューラルネットワーク100-2は、ワーピングされた入力画像103を受信し、ワーピングされた入力画像103に基づいて、計算されたワーピングされた着目点のセット109および計算されたワーピングされた記述子111を計算する。
損失Lが、下記に説明されるように、計算された着目点108、計算された記述子110、計算されたワーピングされた着目点109、計算されたワーピングされた記述子111、基準着目点148、ワーピングされた基準着目点149、および/またはホモグラフィHに基づいて、計算されてもよい。ニューラルネットワーク100は、次いで、損失Lに基づいて、修正されてもよい。損失Lに基づいて、ニューラルネットワーク100を修正するステップは、着目点検出器サブネットワーク112のみを修正するステップ、記述子サブネットワーク114のみを修正するステップ、および/またはサブネットワーク112、114の両方を修正するステップを含んでもよい。いくつかの実施形態では、ニューラルネットワーク100は、損失Lが、同一基準セット142を使用して、後続実行に関して低減されるように修正される。複数の訓練反復が、損失Lが所定の閾値を下回る、および/または基準データセット144が包括的に使用される等の1つ以上の条件が満たされるまで、実施される。
いくつかの実施形態では、損失Lは、2つの中間損失の和である、すなわち、1つは、着目点検出器に関するものLであって、1つは、記述子に関するものLである。同時損失最適化は、(a)擬似グラウンドトゥルース着目点場所と、(b)2つの画像を関連させる、ランダムに生成されたホモグラフィHからのグラウンドトゥルース対応の両方を有する、対の合成ワーピングされた画像の可用性に起因して、可能にされる。損失Lは、以下によって、λにおける関数として平衡される。

式中、Xは、計算された着目点108であって(またはそれに関連し)、X’は、計算されたワーピングされた着目点109であって(またはそれに関連し)、Yは、基準着目点148であって(またはそれに関連し)、Y’は、ワーピングされた基準着目点149であって(またはそれに関連し)、Dは、計算された記述子110であって(またはそれに関連し)、D’は、計算されたワーピングされた記述子111である(またはそれに関連する)。Sは、類似性スコア行列であって、全体的に、ランダムに生成されたホモグラフィHに基づいて決定され得る。図5に図示されるように、ホモグラフィHまたは類似性スコア行列Sのいずれかが、損失計算機の中にフィードされてもよい。
着目点検出器損失関数Lは、セルxhw∈Xにわたる完全畳み込みクロスエントロピ損失である。対応するグラウンドトゥルース着目点標識Yおよび個々のエントリは、yhwである。損失は、したがって、以下となる。

式中、

記述子損失は、入力画像102からのdhw∈Dとワーピングされた入力画像103からのd’h’w’∈D’の記述子セルの全ての対に適用される。(h,w)セルと(h’,w’)セルとの間のホモグラフィ誘発対応は、以下のように記述され得る。

式中、phwは、(h、w)セル内の中心ピクセルの場所を示し、

は、セル場所phwとホモグラフィHの乗算を示す。一対の画像に関する対応のセット全体は、Sである。
いくつかの実施形態では、加重項λは、負のものより正の対応の存在を平衡することに役立つ。記述子損失は、以下によって与えられる。

式中、
図6は、本発明のいくつかの実施形態による、ニューラルネットワーク100を使用した、2つの捕捉された画像154-1、154-2間のホモグラフィHの計算を図示する。図示される実施形態は、光学デバイス、例えば、他の可能性の中でもとりわけ、ARまたは複合現実(MR)デバイス、自動運転車両、無人航空機、有人車両、ロボット等、ニューラルネットワーク100を利用する、いくつかのシステムまたはデバイスに対応してもよい。
本明細書に説明される技法を使用して訓練後、ニューラルネットワーク100は、捕捉された画像154-1、154-2が、単一カメラ152から、または複数のカメラから、受信される、ランタイムモードで動作してもよい。例えば、捕捉された画像154-1は、第1のカメラから受信されてもよく、捕捉された画像154-2は、第2のカメラから受信されてもよい。捕捉された画像154-1、154-2は、異なるカメラによって、同時に、または異なるカメラによって、または単一カメラによって、異なる時間に、捕捉されてもよい。ニューラルネットワーク100は、捕捉された画像154-1、154-2を、ネットワーク入力116を介して受信してもよく、捕捉された画像154-1に基づいて、計算された着目点のセット108-1および計算された記述子110-1と、捕捉された画像154-2に基づいて、計算された着目点のセット108-2および計算された記述子110-2とを計算してもよい。
いくつかの実施形態では、ホモグラフィHを決定するステップに先立って、点対応106が、着目点のそれぞれと関連付けられた記述子によって情報を与えられる、計算された着目点108-1と108-2との間の比較によって決定される。例えば、異なる着目点と関連付けられた記述子が、マッチングされてもよい。最も類似する記述子を有する、異なる画像に対応する着目点は、いくつかの可能性として考えられる類似性スコア化プロシージャのうちの1つに従って、相互に対応すると決定されてもよい。ホモグラフィHは、点対応106から計算されてもよい。例えば、捕捉された画像154-1、154-2間の相対的姿勢は、点対応106に基づいて、計算されてもよく、ホモグラフィHは、相対的姿勢のカメラ回転および平行移動を表す、行列として計算されてもよい。加えて、または代替として、相対的姿勢は、ホモグラフィHと等しくてもよい。
図7は、本発明のいくつかの実施形態による、合成データセット128の実施例を図示する。いくつかの実施形態では、合成データセット128は、円形、三角形、四辺形(例えば、正方形、長方形、菱形、平行四辺形等)、五角形、六角形、星形、立方体、球体、楕円体、円筒形、錐体、角柱、角錐、線等の比較的に明確に定義された着目点を有する、多数の形状タイプを表す複数の形状を含有してもよい。
図8は、本発明のいくつかの実施形態による、未標識データセット136の実施例を図示する。未標識データセット136は、可変照明、雑音、カメラ効果等を有する、実世界の画像を含有してもよい。実画像は、合成画像よりはるかに雑然とし、雑音が多く、合成世界内で容易にモデル化されることができない、多様な視覚的効果を含有する。
図9は、本発明のいくつかの実施形態による、ニューラルネットワーク100の例示的アーキテクチャを図示する。図示される実施形態では、ニューラルネットワーク100は、入力画像寸法を処理および低減させる、単一共有エンコーダを含む。いったんエンコーダによって処理されると、いくつかの実施形態では、アーキテクチャは、2つのデコーダ「ヘッド」に分割され、これは、タスク特有加重を学習し、一方は、着目点検出のためのものであって、他方は、着目点記述のためのものである。
いくつかの実施形態では、ニューラルネットワーク100は、VGG式エンコーダを使用して、画像の寸法を低減させる。エンコーダは、畳み込み層、プーリング演算を介した空間ダウンサンプリング、および非線形活性化関数から成る。いくつかの実施形態では、エンコーダは、3つの最大プーリング層であって、寸法H×Wの画像Iに関するH=H/8およびW=W/8を定義する。より低い寸法の出力におけるピクセルは、セルと称され、エンコーダ内の3つの2×2非重複最大プーリング演算は、8×8ピクセルセルをもたらす。エンコーダは、入力画像I∈RHc×Wc×Fとより小さい空間寸法およびより大きいチャネル深度(すなわち、H<H、W<W、およびF>1)をマッピングする。
いくつかのインスタンスでは、稠密予測のためのネットワーク設計は、エンコーダ-デコーダペアを伴ってもよく、空間分解能は、プーリングまたはストライド畳み込みを介して減少され、次いで、上方畳み込み演算を介して、完全に分解能に戻るようにアップサンプリングされる。残念ながら、アップサンプリング層は、多量の算出を追加する傾向にあり、望ましくない市松模様アーチファクトを導入し得、したがって、本明細書に開示される実施形態のうちのいくつかに関して、着目点検出ヘッドは、明示的デコーダを利用して、モデルの算出を低減させる。いくつかの実施形態では、着目点検出器ヘッドは、値X∈RHc×Wc×65を算出し、テンソルサイズX∈RH×Wを出力する。65チャネルは、ピクセルの局所非重複8×8グリッド領域+余剰「無着目点」ダストビンに対応する。チャネル毎ソフトマックス関数後、ダストビン寸法は、除去され、RHc×Wc×64からRH×Wへの再変換関数が、実施される。
記述子ヘッドは、D∈RHc×Wc×Dを算出し、テンソルサイズRH×W×Dを出力する。L2正規化固定長記述子の稠密マップを出力するために、UCNに類似するモデルが、最初に、記述子の準稠密グリッド(例えば、8ピクセル毎に1つ)を出力するために使用されてもよい。稠密的にではなく、準稠密的に記述子を学習することは、訓練メモリを低減させ、ランタイムをトレース可能に保つ。デコーダは、次いで、記述子の双三次補間を実施し、次いで、活性化を単位長にL2正規化する。図9に描写されるように、両デコーダは、入力の共有され、空間的に低減された表現に作用する。モデルを訓練が高速かつ容易であるように保つために、いくつかの実施形態では、両デコーダは、学習されていないアップサンプリングを使用して、表現をRH×Wに戻す。
いくつかの実施形態では、エンコーダは、8つの3×3畳み込み層サイズの64-64-64-64-128-128-128-128を伴う、VGG状アーキテクチャである。2つの層毎に、2×2最大プーリング層が存在する。各デコーダヘッドは、256単位の単一3×3畳み込み層に続いて、それぞれ、着目点検出器および記述子のための65単位および256単位を伴う、1×1畳み込み層を有する。ネットワーク内の全ての畳み込み層後に、ReLU非線形活性化およびBatchNorm正規化が続いてもよい。
図10は、本発明のいくつかの実施形態による、第2の訓練ステップ(図4を参照して説明される)の間に採用される、ホモグラフィ適合の種々のステップを図示する。ステップ1002では、未標識画像(例えば、入力画像102)が、未標識データセット136から得られる。ステップ1004では、いくつかのランダムホモグラフィが、ホモグラフィ生成器138においてサンプリングされる。ステップ1006では、ランダムホモグラフィが、未標識画像に適用され、いくつかのワーピングされた画像を生成する。ステップ1008では、ワーピングされた画像は、着目点検出器サブネットワーク112を通して通過される。ステップ1010では、いくつかの点応答(例えば、計算された着目点のセット108)が、着目点検出器サブネットワーク112によって計算される。ステップ1012では、点応答(すなわち、ヒートマップ)が、いくつかの逆数ホモグラフィ(逆数ホモグラフィ生成器140によって生成された)を点応答に適用し、いくつかのワーピング解除されたヒートマップを生成することによって、ワーピング解除される。ステップ1014では、ワーピング解除されたヒートマップは、例えば、種々の利用可能な技法のうちの1つを通して、平均する、総和する、または組み合わせることによって、集約される。
図11は、本発明のいくつかの実施形態による、ランダムホモグラフィ生成のある側面を図示する。ランダムな現実的ホモグラフィ変換を生成するために、ホモグラフィは、平行移動、スケーリング、回転、および対称射影歪み等のより単純な変換に分解されることができる。サンプル領域が、オリジナル画像の外側のピクセルを含有するときに発生する、境界アーチファクトを回避することに役立てるために、ランダムホモグラフィは、図11に図示されるように、中心クロッピングから開始する。単純変換の変換大きさは、ランダムガウスおよび一様分布である。最終ホモグラフィ変換を生成するために、ランダムにサンプリングされた単純変換が、連続的に適用され、最終ホモグラフィを取得する。
図12は、本明細書に説明される実施形態を利用し得る、ARデバイス1200の概略図を図示する。ARデバイス1200は、左接眼レンズ1202Aと、右接眼レンズ1202Bとを含んでもよい。いくつかの実施形態では、ARデバイス1200は、限定ではないが、他の可能性の中でもとりわけ、左接眼レンズ1202Aまたはその近傍に直接取り付けられる、左正面に向いた世界カメラ1206Aと、右接眼レンズ1202Bまたはその近傍に直接取り付けられる、右正面に向いた世界カメラ1206Bと、左接眼レンズ1202Aまたはその近傍に直接取り付けられる、左側に向いた世界カメラ1206Cと、右接眼レンズ1202Bまたはその近傍に直接取り付けられる、右側に向いた世界カメラ1206Dと、ユーザの左眼を観察するように位置付けられる、左眼トラッカと、ユーザの右眼を観察するように位置付けられる、右眼トラッカと、周囲光センサとを含む、1つ以上のセンサを含む。いくつかの実施形態では、ARデバイス1200は、左接眼レンズ1202Aに光学的に連結される、左プロジェクタ1214Aおよび右接眼レンズ1202Bに光学的に連結される、右プロジェクタ1214B等の1つ以上の画像投影デバイスを含む。
ARデバイス1200のコンポーネントの一部または全部は、投影された画像がユーザによって視認され得るように、頭部搭載型であってもよい。1つの特定の実装では、図12に示されるARデバイス1200のコンポーネントは全て、ユーザによって装着可能な単一デバイス(例えば、単一ヘッドセット)上に搭載される。別の実装では、処理モジュール1250の1つ以上のコンポーネントは、物理的に別個であって、1つ以上の有線および/または無線接続によって、ARデバイス1200の他のコンポーネントに通信可能に結合される。例えば、処理モジュール1250は、ARデバイス1200の頭部搭載部分上のローカルモジュール1252と、ローカルモジュール1252と物理的に別個であって、それに通信可能に連結される、遠隔モジュール1256とを含んでもよい。遠隔モジュール1256は、フレームに固定して取り付けられる、ユーザによって装着されるヘルメットまたは帽子に固定して取り付けられる、ヘッドホンに内蔵される、または別様に、ユーザに除去可能に取り付けられる(例えば、リュック式構成において、ベルト結合式構成において等)等、種々の構成において搭載されてもよい。
処理モジュール1250は、プロセッサと、不揮発性メモリ(例えば、フラッシュメモリ)等の関連付けられたデジタルメモリとを含んでもよく、両方とも、データの処理、キャッシュ、および記憶を補助するために利用されてもよい。データは、カメラ1206、周囲光センサ、眼トラッカ、マイクロホン、慣性測定ユニット、加速度計、コンパス、GPSユニット、無線デバイス、および/またはジャイロスコープ等、(例えば、ARデバイス1200に動作可能に結合される、または別様にユーザに取り付けられ得る)センサから捕捉されたデータを含んでもよい。例えば、処理モジュール1250は、画像1220をカメラ1206から受信してもよい。具体的には、処理モジュール1250は、左正面画像1220Aを左正面に向いた世界カメラ1206Aから、右正面画像1220Bを右正面に向いた世界カメラ1206Bから、左側画像1220Cを左側に向いた世界カメラ1206Cから、および右側画像1220Dを右側に向いた世界カメラ1206Dから受信してもよい。いくつかの実施形態では、画像1220は、単一画像、一対の画像、画像のストリームを備えるビデオ、ペアリングされた画像のストリームを備えるビデオ、および同等物を含んでもよい。画像1220は、ARデバイス1200が電源オンである間、周期的に、生成され、処理モジュール1250に送信されてもよい、または処理モジュール1250によってカメラのうちの1つ以上のものに送信される命令に応答して、生成されてもよい。別の実施例として、処理モジュール1250は、周囲光情報を周囲光センサから受信してもよい。別の実施例として、処理モジュール1250は、視線情報を眼トラッカから受信してもよい。別の実施例として、処理モジュール1250は、画像情報(例えば、画像明度値)をプロジェクタ1214の一方または両方から受信してもよい。
接眼レンズ1202A、1202Bは、それぞれ、プロジェクタ1214A、1214Bからの光を指向および外部結合するように構成される、透明または半透明導波管を備えてもよい。具体的には、処理モジュール1250は、左プロジェクタ1214Aに、左仮想画像光1222Aを左接眼レンズ1202A上に出力させてもよく、右プロジェクタ1214Bに、右仮想画像光1222Bを右接眼レンズ1202B上に出力させてもよい。いくつかの実施形態では、接眼レンズ1202はそれぞれ、異なる色および/または異なる深度平面に対応する、複数の導波管を備えてもよい。カメラ1206A、1206Bは、それぞれ、ユーザの左および右眼の視野と実質的に重複する、画像を捕捉するように位置付けられてもよい。故に、カメラ1206の設置は、ユーザの眼の近傍であるが、ユーザの視野を曖昧にしないようにあまり近傍ではなくてもよい。代替として、または加えて、カメラ1206A、1206Bは、それぞれ、仮想画像光1222A、1222Bの内部結合場所と整合するように位置付けられてもよい。カメラ1206C、1206Dは、例えば、ユーザの周辺視覚内またはユーザの周辺視覚外のユーザの側面に対する画像を捕捉するように位置付けられてもよい。カメラ1206C、1206Dを使用して捕捉された画像1220C、1220Dは、必ずしも、カメラ1206A、1206Bを使用して捕捉された画像1220A、1220Bと重複する必要はない。
図13は、本発明のいくつかの実施形態による、ニューラルネットワーク100を訓練し、ニューラルネットワーク100を使用して、画像着目点検出および記述を実施する方法1300を図示する。方法1300の1つ以上のステップは、図示される実施形態に示されるものと異なる順序で実施されてもよく、方法1300の1つ以上のステップは、方法1300の実施の間、省略されてもよい。
ステップ1302では、ニューラルネットワーク100が、訓練される。ステップ1302-1では、ニューラルネットワーク100の着目点検出器サブネットワーク112が、合成データセット128を使用して訓練される。合成データセット128は、複数の合成画像と、複数の合成画像に対応する、合成着目点の複数のセットとを含んでもよい。ステップ1302-1はさらに、図3を参照して説明される。
ステップ1302-2では、基準データセット144が、着目点検出器サブネットワーク112および/または記述子サブネットワーク114を使用して生成される。いくつかの実施形態では、基準データセット144は、複数のワーピングされた画像が、複数のホモグラフィを入力画像102に適用することによって生成される、ホモグラフィ適合を使用して生成され、複数の計算された着目点のセット108は、複数のワーピングされた画像を着目点検出器サブネットワーク112を通して通過させることによって計算される。複数の計算された着目点のセット108は、次いで、ワーピング解除および集約され、基準データセット144内に記憶される、基準着目点のセットを取得する。加えて、または代替として、複数の計算された記述子110は、複数のワーピングされた画像を記述子サブネットワーク114を通して通過させることによって計算される。複数の計算された記述子110は、次いで、ワーピング解除および集約され、基準データセット144内に記憶される、基準記述子を取得する。ステップ1302-2はさらに、図4を参照して説明される。
ステップ1302-3では、着目点検出器サブネットワーク112および記述子サブネットワーク114が、基準データセット144を使用して、並行して訓練される。単一訓練反復の間、入力画像102と、基準着目点148と、(随意に)基準記述子150とを備える、基準セット142が、基準データセット144から読み出され、損失Lを計算するために使用される。着目点検出器サブネットワーク112および記述子サブネットワーク114の一方または両方は、計算された損失Lに基づいて修正されてもよい。ステップ1302-3はさらに、図5を参照して説明される。
ステップ1304では、画像着目点検出および記述が、ニューラルネットワーク100を使用して実施される。いくつかの実施形態では、第1の捕捉された画像154-1および第2の捕捉された画像154-2は、カメラ152または2つの異なるカメラを使用して捕捉される。捕捉された画像154-1、154-2は、次いで、ニューラルネットワーク100を通して通過されてもよい。計算された着目点108-1、108-2および計算された記述子110-1、110-2は、ホモグラフィHを計算するために使用されてもよい。いくつかの実施形態では、ARデバイス1200は、ホモグラフィHに基づいて、仮想画像光1222A、1222Bの一方または両方を調節してもよい。例えば、ARデバイス1200のユーザが、プロジェクタ1214A、1214Bによって接眼レンズ1202A、1202B上に投影された仮想画像光1222A、1222Bを視認する、ユーザによって知覚される仮想コンテンツを視認しながら、その頭部を方向転換させると、仮想光は、新しい視認角度と関連付けられたホモグラフィHに基づいて、調節される必要があるであろう。ステップ1304はさらに、図6を参照して説明される。
図14は、本発明のいくつかの実施形態による、画像着目点検出および記述のためのニューラルネットワーク100を訓練する方法1400を図示する。方法1400の1つ以上のステップは、図示される実施形態に示されるものと異なる順序で実施されてもよく、方法1400の1つ以上のステップは、方法1400の実施の間、省略されてもよい。
ステップ1402では、ワーピングされた入力画像103が、ホモグラフィを入力画像102に適用することによって生成される。ステップ1404では、ワーピングされた基準着目点149が、ホモグラフィを基準着目点148に適用することによって生成される。ステップ1406では、計算された着目点108および計算された記述子110が、入力画像102を入力として受信する、ニューラルネットワーク100によって、計算される。ステップ1408では、計算されたワーピングされた着目点109および計算されたワーピングされた記述子111が、ワーピングされた入力画像103を入力として受信する、ニューラルネットワーク100によって、計算される。
ステップ1410では、損失Lが、計算された着目点108、計算された記述子110、計算されたワーピングされた着目点109、計算されたワーピングされた記述子111、基準着目点148、ワーピングされた基準着目点149、およびホモグラフィのうちの1つ以上のものに基づいて、計算される。いくつかの実施形態では、損失Lはさらに、ホモグラフィに基づいて計算される。ステップ1412では、ニューラルネットワーク100は、損失Lに基づいて修正される。
図15は、本明細書中に記載されたある実施形態による、簡略化されたコンピュータシステム1500を図示する。図15は、種々の実施形態によって提供された方法のステップのいくつかまたは全てを実行し得るコンピューティングシステム1500の一実施例の概略図である。図15は、種々のコンポーネントの一般化された例証を提供するためだけに意図され、そのいずれかまたは全てが、必要に応じて利用されてもよいことに留意されたい。図15は、したがって、広義には、個々のシステム要素が比較的に分離された様式または比較的により統合された様式において実装され得る状況を図示する。
コンピュータシステム1500は、バス1505を介して電気的に結合されることができる、または必要に応じて別様に通信し得る、ハードウェア要素を備えるように示される。ハードウェア要素は、限定ではないが、デジタル信号処理チップ、グラフィック加速プロセッサ、および/または同等物等の、1つ以上の汎用プロセッサおよび/または1つ以上の特殊目的プロセッサを含む、1つ以上のプロセッサ1510と、限定ではないが、マウス、キーボード、カメラ、および/または同等物を含むことができる、1つ以上の入力デバイス1515と、限定ではないが、ディスプレイデバイス、プリンタ、および/または同等物を含むことができる、1つ以上の出力デバイス1520とを含んでもよい。
コンピュータシステム1500はさらに、限定ではないが、ローカルおよび/またはネットワークアクセス可能記憶装置を備えることができ、および/または、限定ではないが、プログラム可能である、フラッシュ更新可能である、および/または同等物であることができる、ディスクドライブ、ドライブアレイ、光学記憶デバイス、ランダムアクセスメモリ(「RAM」)等のソリッドステート記憶デバイス、および/または読取専用メモリ(「ROM」)を含むことができる、1つ以上の非一過性記憶デバイス1525を含む、および/またはそれと通信してもよい。そのような記憶デバイスは、限定ではないが、種々のファイルシステム、データベース構造、および/または同等物を含む、任意の適切なデータ記憶を実装するように構成されてもよい。
コンピュータシステム1500はまた、限定ではないが、Bluetooth(登録商標)デバイス、802.11デバイス、WiFiデバイス、WiMaxデバイス、セルラー通信設備等、および/または同等物等のモデム、ネットワークカード(無線または有線)、赤外線通信デバイス、無線通信デバイス、および/またはチップセットを含むことができる、通信サブシステム1519を含み得る。通信サブシステム1519は、1つ以上の入力および/または出力通信インターフェースを含み、データが、一実施例として挙げるために以下に説明されるネットワーク、すなわち、他のコンピュータシステム、テレビ、および/または本明細書に説明される任意の他のデバイス等のネットワークと交換されることを可能にしてもよい。所望の機能性および/または他の実装懸念に応じて、ポータブル電子デバイスまたは類似デバイスは、通信サブシステム1519を介して、画像および/または他の情報を通信してもよい。他の実施形態では、ポータブル電子デバイス、例えば、第1の電子デバイスは、コンピュータシステム1500、例えば、電子デバイスの中に入力デバイス1515として組み込まれてもよい。いくつかの実施形態では、コンピュータシステム1500はさらに、作業メモリ1535を備え、これは、上記に説明されるようなRAMまたはROMデバイスを含むことができる。
コンピュータシステム1500はまた、種々の実施形態によって提供されるコンピュータプログラムを備え得る、および/または本明細書に説明されるような他の実施形態によって提供される方法を実装し、および/またはシステムを構成するように設計され得る、オペレーティングシステム1540、デバイスドライバ、実行可能ライブラリ、および/または他のコード、例えば1つ以上のアプリケーションプログラム1545等を含む、作業メモリ1535内に現在位置するものとして示される、ソフトウェア要素を含むことができる。単に、一例として、上記に議論される方法に関して説明される1つ以上のプロシージャは、コンピュータまたはコンピュータ内のプロセッサによって実行可能なコードおよび/または命令として実装され得、ある側面では、次いで、そのようなコードおよび/または命令は、説明される方法に従って1つ以上の動作を実施するように汎用コンピュータまたは他のデバイスを構成および/または適合するために使用されることができる。
これらの命令および/またはコードのセットは、上記に説明される記憶デバイス1525等の非一過性コンピュータ可読記憶媒体上に記憶されてもよい。ある場合には、記憶媒体は、コンピュータシステム1500等のコンピュータシステム内に組み込まれ得る。他の実施形態では、記憶媒体は、コンピュータシステムと別個である、例えば、コンパクトディスク等の可撤性媒体である、および/または記憶媒体が、汎用コンピュータをその上に記憶される命令/コードを用いてプログラム、構成、および/または適合するために使用され得るように、インストールパッケージ内に提供され得る。これらの命令は、コンピュータシステム1500によって実行可能である、実行可能コードの形態をとり得る、および/または、例えば、種々の概して利用可能なコンパイラ、インストールプログラム、圧縮/解凍ユーティリティ等のいずれかを使用したコンピュータシステム1500上へのコンパイルおよび/またはインストールに応じて、次いで、実行可能コードの形態をとる、ソースおよび/またはインストール可能コードの形態をとり得る。
実質的な変形例が、具体的要件に従って構成されてもよいことが、当業者に明白となるであろう。例えば、カスタマイズされたハードウェアもまた、使用され得る、および/または特定の要素が、ハードウェア、アプレット等のポータブルソフトウェアを含む、ソフトウェア、または両方内に実装され得る。さらに、ネットワーク入力/出力デバイス等の他のコンピューティングデバイスへの接続も、採用されてもよい。
上記に述べられたように、一側面では、いくつかの実施形態は、コンピュータシステム1500等のコンピュータシステムを採用し、本技術の種々の実施形態による方法を実施してもよい。一式の実施形態によると、そのような方法のプロシージャの一部または全部は、プロセッサ1510が、オペレーティングシステム1540の中に組み込まれ得る、1つ以上の命令の1つ以上のシーケンス、および/または作業メモリ1535内に含有される、アプリケーションプログラム1545等の他のコードを実行することに応答して、コンピュータシステム1500によって実施される。そのような命令は、記憶デバイス1525のうちの1つ以上のもの等の別のコンピュータ可読媒体から作業メモリ1535の中に読み取られてもよい。単に、一例として、作業メモリ1535内に含有される命令のシーケンスの実行は、プロセッサ1510に、本明細書に説明される方法の1つ以上のプロシージャを実施させ得る。加えて、または代替として、本明細書に説明される方法の一部は、特殊ハードウェアを通して実行されてもよい。
用語「機械可読媒体」および「コンピュータ可読媒体」は、本明細書で使用されるとき、機械を具体的方式で動作させるデータを提供することに関わる、任意の媒体を指す。コンピュータシステム1500を使用して実装される、ある実施形態では、種々のコンピュータ可読媒体は、実行のための命令/コードをプロセッサ1510に提供する際に関わり得る、および/またはそのような命令/コードを記憶および/または搬送するために使用され得る。多くの実装では、コンピュータ可読媒体は、物理的および/または有形記憶媒体である。そのような媒体は、不揮発性媒体または揮発性媒体の形態をとってもよい。不揮発性媒体は、例えば、記憶デバイス1525等の光学および/または磁気ディスクを含む。揮発性媒体は、限定ではないが、作業メモリ1535等の動的メモリを含む。
一般的形態の物理的および/または有形コンピュータ可読媒体は、例えば、フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、または任意の他の磁気媒体、CD-ROM、任意の他の光学媒体、パンチカード、紙テープ、孔のパターンを伴う任意の他の物理的媒体、RAM、PROM、EPROM、FLASH(登録商標)-EPROM、任意の他のメモリチップまたはカートリッジ、またはコンピュータが命令および/またはコードを読み取ることができる、任意の他の媒体を含む。
種々の形態のコンピュータ可読媒体が、実行のための1つ以上の命令の1つ以上のシーケンスをプロセッサ1510に搬送する際に関わってもよい。単に、一例として、命令は、最初に、遠隔コンピュータの磁気ディスクおよび/または光学ディスク上で搬送されてもよい。遠隔コンピュータは、命令をその動的メモリの中にロードし、コンピュータシステム1500によって受信および/または実行される伝送媒体を経由して、命令を信号として送信し得る。
通信サブシステム1519および/またはそのコンポーネントは、概して、信号を受信し、バス1505が、次いで、信号および/または信号によって搬送されるデータ、命令等を作業メモリ1535に搬送し得、そこから、プロセッサ1510が、命令を読み出し、実行する。作業メモリ1535によって受信された命令は、随意に、プロセッサ1510による実行前または後のいずれかにおいて、非一過性記憶デバイス1525上に記憶されてもよい。
上記に議論される方法、システム、およびデバイスは、実施例である。種々の構成は、必要に応じて、種々のプロシージャまたはコンポーネントを省略、代用、または追加してもよい。例えば、代替構成では、本方法は、説明されるものと異なる順序で実施されてもよく、および/または種々の段階は、追加される、省略される、および/または組み合わせられてもよい。また、ある構成に関して説明される特徴は、種々の他の構成において組み合わせられてもよい。構成の異なる側面および要素は、類似様式で組み合わせられてもよい。また、技術は、進歩するものであって、したがって、要素の多くは、実施例であって、本開示の範囲または請求項を限定するものではない。
具体的詳細が、実装を含む、例示的構成の完全な理解を提供するために説明に与えられる。しかしながら、構成は、これらの具体的詳細を伴わずに実践されてもよい。例えば、周知の回路、プロセス、アルゴリズム、構造、および技法は、構成を曖昧にすることを回避するために、不必要な詳細を伴わずに示されている。本説明は、例示的構成のみを提供し、請求項の範囲、可用性、または構成を限定するものではない。むしろ、構成の前述の説明は、当業者に説明される技法を実装するための有効な説明を提供するであろう。種々の変更が、本開示の精神または範囲から逸脱することなく、要素の機能および配列に行われてもよい。
また、構成は、概略フローチャートまたはブロック図として描写される、プロセスとして説明され得る。それぞれ、シーケンシャルプロセスとして動作を説明し得るが、動作の多くは、並行して、または同時に実施されてもよい。加えて、動作の順序は、再配列されてもよい。プロセスは、図内に含まれない付加的ステップを有してもよい。さらに、本方法の実施例は、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、または任意のそれらの組み合わせによって実装されてもよい。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコード内に実装されるとき、必要タスクを実施するためのプログラムコードまたはコードセグメントは、記憶媒体等の非一過性コンピュータ可読媒体内に記憶されてもよい。プロセッサは、説明されるタスクを実施してもよい。
いくつかの例示的構成が説明されたが、種々の修正、代替構造、および均等物が、本開示の精神から逸脱することなく、使用されてもよい。例えば、前述の要素は、より大きいシステムのコンポーネントであってもよく、他のルールが、本技術の用途に優先する、または別様にそれを修正してもよい。また、いくつかのステップは、前述の要素が検討される前、間、または後に行われてもよい。故に、前述の説明は、請求項の範囲を束縛するものではない。
本明細書および添付の請求項で使用されるように、単数形「a」、「an」、および「the」は、文脈によって明確に別様に示されない限り、複数参照を含む。したがって、例えば、「ユーザ」の言及は、複数のそのようなユーザを含み、「プロセッサ」の言及は、1つ以上のプロセッサおよび当業者に公知のその均等物等の言及を含む。
また、単語「comprise(~を備える)」、「comprising(~を備える)」、「contains(~を含有する)」、「containing(~を含有する)」、「include(~を含む)」、「including(~を含む)」、および「includes(~を含む)」は、本明細書および以下の請求項で使用されるとき、述べられた特徴、整数、コンポーネント、またはステップの存在を規定するために意図されるが、それらは、1つ以上の他の特徴、整数、コンポーネント、ステップ、行為、またはグループの存在または追加を除外するものではない。
また、本明細書に説明される実施例および実施形態は、例証目的のみのためのものであって、それに照らして、種々の修正または変更が、当業者に示唆され、本願の精神および権限および添付の請求項の範囲内に含まれることを理解されたい。

Claims (20)

  1. コンピュータ実装方法であって、前記コンピュータ実装方法は、
    第1の画像を取得することと、
    第2の画像を取得することと、
    前記第1の画像を入力として受信したニューラルネットワークが、第1のセットの計算された着目点および第1の計算された記述子を計算することと、
    前記第2の画像を入力として受信した前記ニューラルネットワークが、第2のセットの計算された着目点および第2の計算された記述子を計算することと、
    前記第1のセットの計算された着目点および前記第2のセットの計算された着目点と、前記第1の計算された記述子および前記第2の計算された記述子とに基づいて、前記第1の画像と前記第2の画像との間のホモグラフィを決定することであって、前記ホモグラフィは、前記第1の画像と前記第2の画像との間の回転および/または平行移動を表す、ことと
    を含み、
    前記ニューラルネットワークは、
    前記第1のセットの計算された着目点および前記第2セットの計算された着目点を計算するように構成されている着目点検出器サブネットワークと、
    前記第1の計算された記述子および前記第2の計算された記述子を計算するように構成されている記述子サブネットワークであって、前記記述子サブネットワークは、1つ以上の層を前記着目点検出器サブネットワークと共有する、記述子サブネットワークと
    を含む、コンピュータ実装方法。
  2. 前記コンピュータ実装方法は、前記第1のセットの計算された着目点と前記第2のセットの計算された着目点との間の点対応を決定することをさらに含み、前記ホモグラフィは、前記点対応に基づいて決定される、請求項1に記載のコンピュータ実装方法。
  3. 前記第1の画像は、H×Wの寸法を有し、前記第2の画像は、H×Wの寸法を有する、請求項1に記載のコンピュータ実装方法。
  4. 前記第1のセットの計算された着目点は、H×Wの寸法を有する第1の2次元(2D)マップによって表され、前記第2のセットの計算された着目点は、H×Wの寸法を有する第2の2Dマップによって表される、請求項3に記載のコンピュータ実装方法。
  5. 前記第1の計算された記述子は、H×W×Dの寸法を有し、前記第2の計算された記述子は、H×W×Dの寸法を有する、請求項4に記載のコンピュータ実装方法。
  6. 前記着目点検出器サブネットワークは、前記記述子サブネットワークが前記第1の計算された記述子を計算することに並行して、前記第1のセットの計算された着目点を計算するように構成されている、請求項1に記載のコンピュータ実装方法。
  7. 前記着目点検出器サブネットワークは、前記記述子サブネットワークが前記第2の計算された記述子を計算することに並行して、前記第2のセットの計算された着目点を計算するように構成されている、請求項6に記載のコンピュータ実装方法。
  8. 命令を含む非一過性のコンピュータ読み取り可能な媒体であって、前記命令は、1つ以上のプロセッサによって実行されると、
    第1の画像を取得することと、
    第2の画像を取得することと、
    前記第1の画像を入力として受信したニューラルネットワークが、第1のセットの計算された着目点および第1の計算された記述子を計算することと、
    前記第2の画像を入力として受信した前記ニューラルネットワークが、第2のセットの計算された着目点および第2の計算された記述子を計算することと、
    前記第1のセットの計算された着目点および前記第2のセットの計算された着目点と、前記第1の計算された記述子および前記第2の計算された記述子とに基づいて、前記第1の画像と前記第2の画像との間のホモグラフィを決定することであって、前記ホモグラフィは、前記第1の画像と前記第2の画像との間の回転および/または平行移動を表す、ことと
    を含む動作を実行することを前記1つ以上のプロセッサに行わせ、
    前記ニューラルネットワークは、
    前記第1のセットの計算された着目点および前記第2のセットの計算された着目点を計算するように構成されている着目点検出器サブネットワークと、
    前記第1の計算された記述子および前記第2の計算された記述子を計算するように構成されている記述子サブネットワークであって、前記記述子サブネットワークは、1つ以上の層を前記着目点検出器サブネットワークと共有する、記述子サブネットワークと
    を含む、非一過性のコンピュータ読み取り可能な媒体。
  9. 前記動作は、前記第1のセットの計算された着目点と前記第2のセットの計算された着目点との間の点対応を決定することをさらに含み、前記ホモグラフィは、前記点対応に基づいて決定される、請求項8に記載の非一過性のコンピュータ読み取り可能な媒体。
  10. 前記第1の画像は、H×Wの寸法を有し、前記第2の画像は、H×Wの寸法を有する、請求項8に記載の非一過性のコンピュータ読み取り可能な媒体。
  11. 前記第1のセットの計算された着目点は、H×Wの寸法を有する第1の2次元(2D)マップによって表され、前記第2のセットの計算された着目点は、H×Wの寸法を有する第2の2Dマップによって表される、請求項10に記載の非一過性のコンピュータ読み取り可能な媒体。
  12. 前記第1の計算された記述子は、H×W×Dの寸法を有し、前記第2の計算された記述子は、H×W×Dの寸法を有する、請求項11に記載の非一過性のコンピュータ読み取り可能な媒体。
  13. 前記着目点検出器サブネットワークは、前記記述子サブネットワークが前記第1の計算された記述子を計算することに並行して、前記第1のセットの計算された着目点を計算するように構成されている、請求項8に記載の非一過性のコンピュータ読み取り可能な媒体。
  14. 前記着目点検出器サブネットワークは、前記記述子サブネットワークが前記第2の計算された記述子を計算することに並行して、前記第2のセットの計算された着目点を計算するように構成されている、請求項13に記載の非一過性のコンピュータ読み取り可能な媒体。
  15. システムであって、前記システムは、
    1つ以上のプロセッサと、
    命令を含む非一過性のコンピュータ読み取り可能な媒体と
    を備え、
    前記命令は、1つ以上のプロセッサによって実行されると、
    第1の画像を取得することと、
    第2の画像を取得することと、
    前記第1の画像を入力として受信したニューラルネットワークが、第1のセットの計算された着目点および第1の計算された記述子を計算することと、
    前記第2の画像を入力として受信した前記ニューラルネットワークが、第2のセットの計算された着目点および第2の計算された記述子を計算することと、
    前記第1のセットの計算された着目点および前記第2のセットの計算された着目点と、前記第1の計算された記述子および前記第2の計算された記述子とに基づいて、前記第1の画像と前記第2の画像との間のホモグラフィを決定することであって、前記ホモグラフィは、前記第1の画像と前記第2の画像との間の回転および/または平行移動を表す、ことと
    を含む動作を実行することを前記1つ以上のプロセッサに行わせ、
    前記ニューラルネットワークは、
    前記第1のセットの計算された着目点および前記第2のセットの計算された着目点を計算するように構成されている着目点検出器サブネットワークと、
    前記第1の計算された記述子および前記第2の計算された記述子を計算するように構成されている記述子サブネットワークであって、前記記述子サブネットワークは、1つ以上の層を前記着目点検出器サブネットワークと共有する、記述子サブネットワークと
    を含む、システム。
  16. 前記動作は、前記第1のセットの計算された着目点と前記第2のセットの計算された着目点との間の点対応を決定することをさらに含み、前記ホモグラフィは、前記点対応に基づいて決定される、請求項15に記載のシステム。
  17. 前記第1の画像は、H×Wの寸法を有し、前記第2の画像は、H×Wの寸法を有する、請求項15に記載のシステム。
  18. 前記第1のセットの計算された着目点は、H×Wの寸法を有する第1の2次元(2D)マップによって表され、前記第2のセットの計算された着目点は、H×Wの寸法を有する第2の2Dマップによって表される、請求項17に記載のシステム。
  19. 前記第1の計算された記述子は、H×W×Dの寸法を有し、前記第2の計算された記述子は、H×W×Dの寸法を有する、請求項18に記載のシステム。
  20. 前記着目点検出器サブネットワークは、前記記述子サブネットワークが前記第1の計算された記述子を計算することに並行して、前記第1のセットの計算された着目点を計算するように構成されている、請求項15に記載のシステム。
JP2023071522A 2017-11-14 2023-04-25 ホモグラフィ適合を介した完全畳み込み着目点検出および記述 Active JP7403700B2 (ja)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US201762586149P 2017-11-14 2017-11-14
US62/586,149 2017-11-14
US201762608248P 2017-12-20 2017-12-20
US62/608,248 2017-12-20
JP2020526192A JP7270623B2 (ja) 2017-11-14 2018-11-14 ホモグラフィ適合を介した完全畳み込み着目点検出および記述
PCT/US2018/061048 WO2019099515A1 (en) 2017-11-14 2018-11-14 Fully convolutional interest point detection and description via homographic adaptation

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2020526192A Division JP7270623B2 (ja) 2017-11-14 2018-11-14 ホモグラフィ適合を介した完全畳み込み着目点検出および記述

Publications (2)

Publication Number Publication Date
JP2023083561A JP2023083561A (ja) 2023-06-15
JP7403700B2 true JP7403700B2 (ja) 2023-12-22

Family

ID=66431332

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2020526192A Active JP7270623B2 (ja) 2017-11-14 2018-11-14 ホモグラフィ適合を介した完全畳み込み着目点検出および記述
JP2023071522A Active JP7403700B2 (ja) 2017-11-14 2023-04-25 ホモグラフィ適合を介した完全畳み込み着目点検出および記述

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2020526192A Active JP7270623B2 (ja) 2017-11-14 2018-11-14 ホモグラフィ適合を介した完全畳み込み着目点検出および記述

Country Status (9)

Country Link
US (2) US10977554B2 (ja)
EP (1) EP3710981A4 (ja)
JP (2) JP7270623B2 (ja)
KR (1) KR20200087757A (ja)
CN (1) CN111344716B (ja)
AU (1) AU2018369757B2 (ja)
CA (1) CA3078977A1 (ja)
IL (2) IL274426B2 (ja)
WO (1) WO2019099515A1 (ja)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111344716B (zh) 2017-11-14 2024-07-19 奇跃公司 经由单应性变换适应的全卷积兴趣点检测和描述
US11080562B1 (en) * 2018-06-15 2021-08-03 Apple Inc. Key point recognition with uncertainty measurement
US11227435B2 (en) 2018-08-13 2022-01-18 Magic Leap, Inc. Cross reality system
EP3837674A4 (en) 2018-08-13 2022-05-18 Magic Leap, Inc. CROSS REALITY SYSTEM
US10832437B2 (en) * 2018-09-05 2020-11-10 Rakuten, Inc. Method and apparatus for assigning image location and direction to a floorplan diagram based on artificial intelligence
JP7503542B2 (ja) 2018-10-05 2024-06-20 マジック リープ, インコーポレイテッド 任意の場所における場所特有の仮想コンテンツのレンダリング
EP3654247A1 (en) * 2018-11-15 2020-05-20 IMEC vzw Convolution engine for neural networks
US11594011B2 (en) * 2019-01-30 2023-02-28 Baidu Usa Llc Deep learning-based feature extraction for LiDAR localization of autonomous driving vehicles
US11210547B2 (en) * 2019-03-20 2021-12-28 NavInfo Europe B.V. Real-time scene understanding system
IT201900007815A1 (it) * 2019-06-03 2020-12-03 The Edge Company S R L Metodo per il rilevamento di oggetti in movimento
CN110766024B (zh) * 2019-10-08 2023-05-23 湖北工业大学 基于深度学习的视觉里程计特征点提取方法及视觉里程计
JP2022551735A (ja) 2019-10-15 2022-12-13 マジック リープ, インコーポレイテッド 無線フィンガプリントを用いたクロスリアリティシステム
WO2021076754A1 (en) 2019-10-15 2021-04-22 Magic Leap, Inc. Cross reality system with localization service
JP2022551734A (ja) 2019-10-15 2022-12-13 マジック リープ, インコーポレイテッド 複数のデバイスタイプをサポートするクロスリアリティシステム
EP4052086A4 (en) 2019-10-31 2023-11-15 Magic Leap, Inc. EXTENDED REALITY SYSTEM PROVIDING QUALITY INFORMATION ABOUT PERSISTENT COORDINATE FRAMES
WO2021096931A1 (en) 2019-11-12 2021-05-20 Magic Leap, Inc. Cross reality system with localization service and shared location-based content
JP2023504570A (ja) 2019-12-09 2023-02-03 マジック リープ, インコーポレイテッド 仮想コンテンツの簡略化されたプログラミングを伴うクロスリアリティシステム
US11900626B2 (en) 2020-01-31 2024-02-13 Toyota Research Institute, Inc. Self-supervised 3D keypoint learning for ego-motion estimation
CN115427758A (zh) 2020-02-13 2022-12-02 奇跃公司 具有精确共享地图的交叉现实系统
CN115398484A (zh) 2020-02-13 2022-11-25 奇跃公司 具有用于定位的地理定位信息优先级的交叉现实系统
WO2021163300A1 (en) 2020-02-13 2021-08-19 Magic Leap, Inc. Cross reality system with map processing using multi-resolution frame descriptors
CN115461787A (zh) 2020-02-26 2022-12-09 奇跃公司 具有快速定位的交叉现实系统
US11741728B2 (en) * 2020-04-15 2023-08-29 Toyota Research Institute, Inc. Keypoint matching using graph convolutions
US11900547B2 (en) 2020-04-29 2024-02-13 Magic Leap, Inc. Cross reality system for large scale environments
US11797603B2 (en) 2020-05-01 2023-10-24 Magic Leap, Inc. Image descriptor network with imposed hierarchical normalization
US11830160B2 (en) * 2020-05-05 2023-11-28 Nvidia Corporation Object detection using planar homography and self-supervised scene structure understanding
EP3958167B1 (en) * 2020-08-21 2024-03-20 Toyota Jidosha Kabushiki Kaisha A method for training a neural network to deliver the viewpoints of objects using unlabeled pairs of images, and the corresponding system
US20220230410A1 (en) * 2021-01-19 2022-07-21 Objectvideo Labs, Llc Object localization in video
US11822620B2 (en) * 2021-02-18 2023-11-21 Microsoft Technology Licensing, Llc Personalized local image features using bilevel optimization
CN113361542B (zh) * 2021-06-02 2022-08-30 合肥工业大学 一种基于深度学习的局部特征提取方法
JPWO2023021755A1 (ja) * 2021-08-20 2023-02-23
US20230120604A1 (en) * 2021-10-14 2023-04-20 Ubotica Technologies Limited System and Method for Maximizing Inference Accuracy using Recaptured Datasets
CN114663594A (zh) * 2022-03-25 2022-06-24 中国电信股份有限公司 图像特征点检测方法、装置、介质及设备
CN114863134B (zh) * 2022-04-01 2024-06-14 浙大宁波理工学院 基于交替优化深度学习模型的三维模型兴趣点提取方法
KR102600939B1 (ko) 2022-07-15 2023-11-10 주식회사 브이알크루 비주얼 로컬라이제이션을 위한 데이터를 생성하기 위한 방법 및 장치
JP2024077816A (ja) * 2022-11-29 2024-06-10 ソニーグループ株式会社 情報処理方法、情報処理装置およびプログラム
KR102615412B1 (ko) 2023-01-19 2023-12-19 주식회사 브이알크루 비주얼 로컬라이제이션을 수행하기 위한 방법 및 장치
KR102600915B1 (ko) 2023-06-19 2023-11-10 주식회사 브이알크루 비주얼 로컬라이제이션을 위한 데이터를 생성하기 위한 방법 및 장치

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014002554A1 (ja) 2012-06-29 2014-01-03 日本電気株式会社 画像処理装置、画像処理方法、及びプログラム
JP2017041113A (ja) 2015-08-20 2017-02-23 日本電気株式会社 画像処理装置、画像処理システム、画像処理方法及びプログラム
WO2017091833A1 (en) 2015-11-29 2017-06-01 Arterys Inc. Automated cardiac volume segmentation
WO2017168899A1 (ja) 2016-03-30 2017-10-05 ソニー株式会社 情報処理方法および情報処理装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8401276B1 (en) * 2008-05-20 2013-03-19 University Of Southern California 3-D reconstruction and registration
US9076257B2 (en) * 2013-01-03 2015-07-07 Qualcomm Incorporated Rendering augmented reality based on foreground object
US9177224B1 (en) * 2013-03-14 2015-11-03 Amazon Technologies, Inc. Object recognition and tracking
US8879813B1 (en) * 2013-10-22 2014-11-04 Eyenuk, Inc. Systems and methods for automated interest region detection in retinal images
IL231862A (en) * 2014-04-01 2015-04-30 Superfish Ltd Image representation using a neural network
US9576221B2 (en) 2014-07-09 2017-02-21 Ditto Labs, Inc. Systems, methods, and devices for image matching and object recognition in images using template image classifiers
KR102380862B1 (ko) * 2015-09-01 2022-03-31 삼성전자주식회사 영상 처리 방법 및 장치
KR102529137B1 (ko) * 2016-08-22 2023-05-03 매직 립, 인코포레이티드 딥 러닝 센서들을 갖는 증강 현실 디스플레이 디바이스
US11379688B2 (en) * 2017-03-16 2022-07-05 Packsize Llc Systems and methods for keypoint detection with convolutional neural networks
EP3616120B1 (en) * 2017-04-27 2024-09-04 Retinascan Limited System and method for automated funduscopic image analysis
EP3646244A4 (en) * 2017-06-28 2020-09-30 Magic Leap, Inc. METHOD AND SYSTEM FOR SIMULTANEOUS LOCALIZATION AND MAPPING USING CONVOLUTIONAL IMAGE TRANSFORM
CN111344716B (zh) * 2017-11-14 2024-07-19 奇跃公司 经由单应性变换适应的全卷积兴趣点检测和描述

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014002554A1 (ja) 2012-06-29 2014-01-03 日本電気株式会社 画像処理装置、画像処理方法、及びプログラム
US20150161468A1 (en) 2012-06-29 2015-06-11 Nec Corporation Image processing apparatus, image processing method, and program
JP2017041113A (ja) 2015-08-20 2017-02-23 日本電気株式会社 画像処理装置、画像処理システム、画像処理方法及びプログラム
WO2017091833A1 (en) 2015-11-29 2017-06-01 Arterys Inc. Automated cardiac volume segmentation
WO2017168899A1 (ja) 2016-03-30 2017-10-05 ソニー株式会社 情報処理方法および情報処理装置

Also Published As

Publication number Publication date
US20190147341A1 (en) 2019-05-16
AU2018369757A1 (en) 2020-05-14
AU2018369757B2 (en) 2023-10-12
IL274426B1 (en) 2023-09-01
CN111344716A (zh) 2020-06-26
JP7270623B2 (ja) 2023-05-10
IL274426B2 (en) 2024-01-01
KR20200087757A (ko) 2020-07-21
EP3710981A4 (en) 2020-12-23
EP3710981A1 (en) 2020-09-23
IL304881B1 (en) 2024-03-01
IL304881A (en) 2023-10-01
JP2023083561A (ja) 2023-06-15
IL274426A (en) 2020-06-30
US11537894B2 (en) 2022-12-27
US20210241114A1 (en) 2021-08-05
JP2021503131A (ja) 2021-02-04
WO2019099515A1 (en) 2019-05-23
CN111344716B (zh) 2024-07-19
IL304881B2 (en) 2024-07-01
US10977554B2 (en) 2021-04-13
CA3078977A1 (en) 2019-05-23

Similar Documents

Publication Publication Date Title
JP7403700B2 (ja) ホモグラフィ適合を介した完全畳み込み着目点検出および記述
JP7422785B2 (ja) ニューラルネットワークおよび角検出器を使用した角検出のための方法および装置
JP7357676B2 (ja) 自己改良ビジュアルオドメトリを実施するためのシステムおよび方法
JP7250709B2 (ja) 畳み込み画像変換を使用して同時位置特定およびマッピングを実施する方法およびシステム
US11880927B2 (en) Three-dimensional object reconstruction from a video
US11270161B2 (en) Deep-learning method for separating reflection and transmission images visible at a semi-reflective surface in a computer image of a real-world scene
Jung et al. Model Reconstruction of Real-World 3D Objects: An Application with Microsoft HoloLens
US11783532B1 (en) View synthesis using attribute correspondences and geometric relationship constraints
US20240233146A1 (en) Image processing using neural networks, with image registration
Bingham An Interest Point Based Illumination Condition Matching Approach to Photometric Registration Within Augmented Reality Worlds

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230425

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231212

R150 Certificate of patent or registration of utility model

Ref document number: 7403700

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150