JP2023501574A - 仮想および拡張現実のためのシステムおよび方法 - Google Patents
仮想および拡張現実のためのシステムおよび方法 Download PDFInfo
- Publication number
- JP2023501574A JP2023501574A JP2022527710A JP2022527710A JP2023501574A JP 2023501574 A JP2023501574 A JP 2023501574A JP 2022527710 A JP2022527710 A JP 2022527710A JP 2022527710 A JP2022527710 A JP 2022527710A JP 2023501574 A JP2023501574 A JP 2023501574A
- Authority
- JP
- Japan
- Prior art keywords
- attention
- computer system
- cross
- neural network
- self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000003190 augmentative effect Effects 0.000 title abstract description 9
- 238000013528 artificial neural network Methods 0.000 claims abstract description 39
- 230000000007 visual effect Effects 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 18
- 230000002776 aggregation Effects 0.000 claims description 14
- 238000004220 aggregation Methods 0.000 claims description 14
- 230000007246 mechanism Effects 0.000 claims description 7
- 230000004931 aggregating effect Effects 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 5
- 230000001902 propagating effect Effects 0.000 claims 1
- 230000036961 partial effect Effects 0.000 abstract description 9
- 238000005457 optimization Methods 0.000 abstract description 7
- 238000013459 approach Methods 0.000 abstract description 4
- 238000012360 testing method Methods 0.000 description 9
- 230000009466 transformation Effects 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 6
- 238000010606 normalization Methods 0.000 description 5
- 238000000844 transformation Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000004807 localization Effects 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000000428 dust Substances 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 230000004438 eyesight Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012916 structural analysis Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000004308 accommodation Effects 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 238000013103 analytical ultracentrifugation Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000003475 lamination Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000000135 prohibitive effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000001931 thermography Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/196—Recognition using electronic means using sequential comparisons of the image signals with a plurality of references
- G06V30/1983—Syntactic or structural pattern recognition, e.g. symbolic string recognition
- G06V30/1988—Graph matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/757—Matching configurations of points or features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/35—Categorising the entire scene, e.g. birthday party or wedding scene
- G06V20/36—Indoor scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Abstract
本発明は、接続されたモバイルコンピューティングシステム、方法、および構成に関し、より具体的には、仮想現実動作および/または拡張現実動作のために利用され得る、少なくとも1つのウェアラブルコンポーネントを特徴とする、モバイルコンピューティングシステム、方法、および構成に関する。本説明は、特徴マッチングに関する。我々のアプローチは、難しい画像対間の点毎対応を確立する。これは、オフザシェルフ局所的特徴を入力としてとり、アテンショングラフニューラルネットワークを使用して、割当最適化問題を解決する。深層ミドルエンドマッチャが、ミドルエンドとして作用し、部分的点可視性およびオクルージョンを的確にハンドリングし、部分的割当行列を生産する。
Description
(関連出願の相互参照)
本願は、その全てが、参照することによってその全体として本明細書に組み込まれる、2019年11月14日に出願された、米国仮特許出願第62/935,597号の優先権を主張する。
本願は、その全てが、参照することによってその全体として本明細書に組み込まれる、2019年11月14日に出願された、米国仮特許出願第62/935,597号の優先権を主張する。
本発明は、接続されたモバイルコンピューティングシステム、方法、および構成に関し、より具体的には、仮想現実動作および/または拡張現実動作のために利用され得る、少なくとも1つのウェアラブルコンポーネントを特徴とする、モバイルコンピューティングシステム、方法、および構成に関する。
複合現実または拡張現実接眼ディスプレイが、軽量、低コストであり、小形状因子を有し、広仮想画像視野を有し、可能な限り透過性であることが望ましい。加えて、輻輳・開散運動と遠近調節との不整合に関する容認可能な許容差を超過することなく、多種多様なユースケースのために実践的であるために、(例えば、2つまたはそれを上回る)複数の焦点面内に仮想画像情報を提示する構成を有することが、望ましい。図8を参照すると、頭部装着型視認コンポーネント(2)、ハンドヘルド式のコントローラコンポーネント(4)、およびユーザ上にベルトパックまたは同等物として装着されるように構成され得る、相互接続された補助コンピューティングまたはコントローラコンポーネント(6)を特徴とする、拡張現実システムが、図示される。これらのコンポーネントはそれぞれ、IEEE802.11、Bluetoorh(RTM)、および他のコネクティビティ規格および構成によって規定されるもの等、有線または無線通信構成を介して、相互に、かつクラウドコンピューティングまたはクラウドストレージリソース等の他の接続されたリソース(8)に動作可能に結合(10、12、14、16、17、18)され得る。例えば、米国特許出願第14/555,585号、第14/690,401号、第14/331,218号、第15/481,255号、第62/627,155号、第62/518,539号、第16/229,532号、第16/155,564号、第15/413,284号、第16/020,541号、第62,702,322号、第62/206,765号、第15,597,694号、第16/221,065号、第15/968,673号、第62/682,788号、および第62/899,678号(それぞれ、参照することによってその全体として本明細書に組み込まれる)に説明されるように、拡張現実体験のために、それを通してユーザに、関連付けられるシステムコンポーネントによって生産され得る視覚コンポーネントとともに、その周辺の世界が見え得る、2つの描写される光学要素(20)の種々の実施形態等、そのようなコンポーネントの種々の側面が、説明される。図8に図示されるように、そのようなシステムはまた、限定ではないが、(モノクロ、カラー/RGB、および/または熱結像コンポーネント等)種々のカメラタイプセンサ(22、24、26)、深度カメラセンサ(28)、および/またはマイクロホン等の音センサ(30)を含む、ユーザの周囲の環境に関する情報を提供するように構成される、種々のセンサを備えてもよい。ユーザに、豊かな拡張現実体験の知覚を提供するために利用され得る、本明細書に説明されるもの等の小型かつ持続的に接続されたウェアラブルコンピューティングシステムおよびアセンブリの必要性が、存在する。
本書は、ともに、対応を見出し、マッチング不能点を排除することによって、2つの局所的特徴のセットをマッチングさせるように構成される、ニューラルネットワークである、「深層ミドルエンドマッチャ」と称され得るもののある側面を説明する。そのようなニューラルネットワーク構成は、限定ではないが、そのような空間コンピューティングシステムを構成する、カメラおよび処理リソースを含む、図8に図示されるもの等の空間コンピューティングリソースと関連付けて利用され得る。深層ミドルエンドマッチャタイプの構成内では、割当が、最適輸送問題を解決することによって推定され得、そのコストは、グラフニューラルネットワークによって予測される。我々は、アテンションに基づく、フレキシブルなコンテキスト集約機構を説明し、これは、深層ミドルエンドマッチャ構成が、下層3D場面および特徴割当についてともに推測することを有効にする。従来的手動で設計されるヒューリスティックと比較して、我々の技法は、画像から対応へのエンドツーエンド訓練を通して、3D世界の幾何学的変換および規則性にわたる初期値を学習する。深層ミドルエンドマッチャは、他の学習されるアプローチより優れており、新しい最先端技術を難しい実世界屋内および屋外環境内の姿勢推定のタスクにもたらす。これらの方法および構成は、リアルタイムで、現代のグラフィカル処理ユニット(「GPU」)に合わせられ、現代のモーションからの構造解析(「SfM」)または同時位置特定およびマッピング(「SLAM」)システムの中に容易に統合されることができ、その全ては、図8に図示されるもの等のシステムの中に組み込まれてもよい。
本発明は、コンピュータ可読媒体と、コンピュータ可読媒体に接続される、プロセッサと、コンピュータ可読媒体上の命令のセットとを含む、コンピュータシステムを提供する。命令のセットは、特徴点位置pおよびその視覚的記述子dを単一ベクトルの中にマッピングするための特徴点エンコーダと、ベクトルに基づいて、L回、繰り返され、表現fを作成する、交互セルフおよびクロスアテンション層とを有する、アテンショングラフニューラルネットワークと、M×Nスコア行列を表現fから作成し、M×Nスコア行列に基づいて、最適部分的割当を見出す、最適マッチング層とを含み得る、深層ミドルエンドマッチャアーキテクチャを含んでもよい。
コンピュータシステムはさらに、特徴点エンコーダにおいて、特徴点i毎の初期表現
が、以下のように、視覚的外観と場所とを組み合わせ、個別の特徴点位置が高次元ベクトルの中に多層パーセプトロン(MLP)とともに埋め込まれることを含んでもよい。
コンピュータシステムはさらに、特徴点エンコーダが、アテンショングラフニューラルネットワークが、外観および位置についてともに推測することを可能にすることを含んでもよい。
コンピュータシステムはさらに、特徴点エンコーダが、2つの画像の特徴点である、ノードを伴う、単一完全グラフを有する、多重グラフニューラルネットワークを含むことを含んでもよい。
コンピュータシステムはさらに、グラフが、2つのタイプの非指向性エッジ、すなわち、特徴点iを同一画像内の全ての他の特徴点に接続する、画像内エッジ(セルフエッジ;Eself)と、特徴点iを他の画像内の全ての特徴点に接続する、画像間エッジ(クロスエッジ、Ecross)とを有し、結果として生じる多重グラフニューラルネットワークが、ノード毎に、高次元状態から開始し、各層において、全てのノードに関する全ての所与のエッジを横断してメッセージを同時に集約することによって、更新された表現を算出するように、メッセージパッシング公式を使用して、両方のタイプのエッジに沿って、情報を伝搬する多重グラフであることを含んでもよい。
コンピュータシステムはさらに、
が、層lにおける画像A内の要素iに関する中間表現である場合、メッセージmE→iが、全ての特徴点{j:(i,j)∈E}からの集約の結果であって、E∈{Eself,Ecross}であって、A内の全てのiに関する残りのメッセージパッシング更新は、以下であって、
式中、[・||・]は、連結を示すことを含んでもよい。
コンピュータシステムはさらに、異なるパラメータを伴う、固定された数の層Lが、連鎖され、l=1から開始して、lが奇数である場合、E=Eselfであって、lが偶数である場合、E=Ecrossであるように、セルフおよびクロスエッジに沿って、交互に集約されることを含んでもよい。
コンピュータシステムはさらに、交互セルフおよびクロスアテンション層が、メッセージmE→iを算出し、集約を実施する、アテンション機構を用いて算出され、セルフエッジが、セルフアテンションに基づき、クロスエッジが、クロスアテンションに基づき、iの表現に関して、クエリqiが、その属性である、キーkjに基づいて、いくつかの要素の値vjを読み出し、メッセージが、以下のように、値の加重平均として算出されることを含んでもよい。
コンピュータシステムはさらに、個別のキー、クエリ、および値が、グラフニューラルネットワークの深層特徴の線形投影として算出され、クエリ特徴点iが、画像Q内にあって、全てのソース特徴点が、画像S内にあって、以下の方程式では、(Q,S)∈{A,B}2であることを含んでもよい。
コンピュータシステムはさらに、最適マッチング層が、以下のように、セットに関する対毎スコアをマッチング記述子の類似性として表し、
式中、<・,・>は、内積であって、学習された視覚的記述子とは対照的に、マッチング記述子が、正規化されず、その大きさが、特徴あたりで変化し、訓練の間、予測信頼度を反映し得ることを含んでもよい。
コンピュータシステムはさらに、最適マッチング層が、オクルージョンおよび可視性のために、オクルードされる特徴点を抑制し、マッチングされない特徴点がダストビンスコアに明示的に割り当てられるように、特徴点の各セットをダストビンスコアで拡張することを含んでもよい。
コンピュータシステムはさらに、スコアSが、以下のように、新しい行および列に、単一学習可能パラメータで充填される、点/ビンおよびビン/ビンスコアを付加することによって、S-に拡張されることを含んでもよい。
コンピュータシステムはさらに、最適マッチング層が、T回の反復にわたって、シンクホーンアルゴリズムを使用して、M×Nスコア行列に基づいて、最適部分的割当を見出すことを含んでもよい。
コンピュータシステムはさらに、T回の反復後、最適マッチング層がダストビンスコアをドロップし、P=P-
1:M,1:Nを復元し、
が、オリジナル割当であって、
が、ダストビンスコア化される拡張を伴う割当であることを含んでもよい。
本発明はまた、深層ミドルエンドマッチャアーキテクチャのアテンショングラフニューラルネットワークの特徴点エンコーダを用いて、特徴点位置pおよびその視覚的記述子dを単一ベクトルの中にマッピングするステップと、深層ミドルエンドマッチャアーキテクチャのアテンショングラフニューラルネットワークの交互セルフおよびクロスアテンション層を用いて、ベクトルに基づいて、L回の繰り返される回数にわたって実行し、表現fを作成するステップと、深層ミドルエンドマッチャアーキテクチャのアテンショングラフニューラルネットワークの最適マッチング層を実行し、M×Nスコア行列を表現fから作成し、M×Nスコア行列に基づいて、最適部分的割当を見出すステップとを含み得る、コンピュータ実装方法を提供する。
本発明はさらに、付随の図面を参照して、一例として説明される。
詳細な説明
画像内の点間の対応を見出すことは、コンピュータビジョンタスクが、同時位置特定およびマッピング(SLAM)およびモーションからの構造解析(SfM)等の3D再構築または視覚的位置特定に取り組むための不可欠なステップである。これらは、データ関連付けとして知られるプロセスである、局所的特徴をマッチングさせた後、3D構造およびカメラ姿勢をそのような対応から推定する。大視点変化、オクルージョン、ぼけ、およびテクスチャの欠如等の要因は、2D/2Dデータ関連付けを特に難しいものにする。
画像内の点間の対応を見出すことは、コンピュータビジョンタスクが、同時位置特定およびマッピング(SLAM)およびモーションからの構造解析(SfM)等の3D再構築または視覚的位置特定に取り組むための不可欠なステップである。これらは、データ関連付けとして知られるプロセスである、局所的特徴をマッチングさせた後、3D構造およびカメラ姿勢をそのような対応から推定する。大視点変化、オクルージョン、ぼけ、およびテクスチャの欠如等の要因は、2D/2Dデータ関連付けを特に難しいものにする。
本説明では、我々は、特徴マッチング問題を考慮する新しい方法を提示する。より良好なタスク非依存型局所的特徴を学習後、単純マッチングヒューリスティックおよびトリックが続く代わりに、我々は、深層ミドルエンドマッチャ(DMEM)と呼ばれる新規ニューラルアーキテクチャを使用して、既存の局所的特徴からマッチングプロセスを学習することを提案する。典型的には、問題を視覚的特徴検出フロントエンドと、バンドル調整または姿勢推定バックエンドとに分けられる、SLAMのコンテキストにおいて、我々のネットワークは、直接、中央にある、すなわち、深層ミドルエンドマッチャは、学習可能ミドルエンドである。図1は、深層ミドルエンドマッチャを用いた特徴マッチングを図示する。我々のアプローチは、難しい画像対間の点毎対応を確立する。これは、オフザシェルフ局所的特徴を入力としてとり、アテンショングラフニューラルネットワークを使用して、割当最適化問題を解決する。深層ミドルエンドマッチャは、ミドルエンドとして作用し、部分的点可視性およびオクルージョンを的確にハンドリングし、部分的割当行列を生産する。
本研究では、学習特徴マッチングは、2つの局所的特徴のセット間の部分的割当を見出すことと見なされる。我々は、最適輸送問題まで減じられると、弁別可能に解決され得る、線形割当問題を解決することによって、マッチングの古典的グラフベースの方略を再考する[下記の参考文献50、9、31参照]。本最適化のコスト関数は、グラフニューラルネットワーク(GNN)によって予測される。トランスフォーマ[下記の参考文献48参照]の成功に触発され、セルフ(画像内)およびクロス(画像間)アテンションを使用して、特徴点の空間関係およびその視覚的外観の両方が、活用される。本公式は、コストが、複雑な初期値を学習し、オクルージョンおよび再現不能特徴点を的確にハンドリングすることを有効にしながら、予測の割当構造を施行する。我々の方法は、画像から対応までエンドツーエンドで訓練される、すなわち、大規模な注釈が付けられたデータセットから姿勢推定のための初期値を学習し、深層ミドルエンドマッチャが、3D場面および割当について推測することを有効にする。我々の研究は、高品質特徴対応を要求する、種々の多視点幾何学形状問題に適用されることができる。
手作業マッチャおよび学習された正対応分類子の両方と比較して、深層ミドルエンドマッチャの優位性が、示される。図2は、2つの難しい屋内画像対に関する深層ミドルエンドマッチャによって推定される、対応を示す。深層ミドルエンドマッチャは、正確な姿勢を正常に推定する一方、他の学習または手作業方法は、失敗する(正しい対応は、緑色)。提案される方法は、深層フロントエンドである、SuperPoint[下記の参考文献14参照]と組み合わせられるとき、最も実質的改良をもたらし、それによって、ホモグラフィ推定および屋内および屋外姿勢推定のタスクを最先端に進歩させ、深層SLAMのための下準備をする。
2.関連研究
局所的特徴マッチングは、概して、i)関心点を検出し、ii)視覚的記述子を算出し、iii)これらと最近傍(NN)検索をマッチングさせ、iv)正しくないマッチングをフィルタリングし、最後に、v)幾何学的変換を推定することによって実施される。2000年代に開発された古典的パイプラインは、多くの場合、SIFT[下記の参考文献25参照]に基づき、Loweの割合試験[下記の参考文献25参照]、クロスチェック、および近傍コンセンサスのようなヒューリスティック[下記の参考文献46、8、5、40参照]を用いてマッチングをフィルタリングし、RANSAC[下記の参考文献17、35参照]のようなロバストなソルバを用いて変換を見出す。
マッチングのための深層学習に関する最近の研究は、多くの場合、畳み込みニューラルネットワーク(CNN)を使用して、より良好な疎検出器および局所的記述子[下記の参考文献14、15、29、37、54参照]をデータから学習することに焦点を当てる。その弁別性を改良するために、いくつかの研究は、明示的に、領域特徴[下記の参考文献26参照]またはログポーラパッチ[下記の参考文献16参照]を使用して、より広いコンテキストに目を向けている。他のアプローチは、マッチングを正対応および誤対応に分類することによって、それらをフィルタリングすることを学習する[下記の参考文献27、36、6、56参照]。これらは、依然として、NN検索によって推定される、マッチングのセットに作用し、したがって、割当構造を無視し、視覚的情報を破棄する。実際にマッチングするように学習する、研究は、これまで、稠密マッチング[下記の参考文献38参照]または3D点群[下記の参考文献52参照]に焦点を当てており、依然として、そのような限界を呈する。対照的に、我々の学習可能ミドルエンドは、同時に、コンテキスト集約、マッチング、およびフィルタリングを単一エンドツーエンドアーキテクチャ内で実施する。
グラフマッチング問題は、通常、二次割当問題として公式化され、これは、NP困難であって、高価で、複雑で、したがって、非実践的ソルバを要求する[下記の参考文献24参照]。局所的特徴に関して、2000年代のコンピュータビジョン文献[下記の参考文献4、21、45参照]は、多くのヒューリスティックを伴う、手作業コストを使用し、それを複雑かつ脆弱にする。Caetano et al.[下記の参考文献7参照]は、より単純な線形割当のための最適化のコストを学習するが、浅層モデルを使用する一方、我々の深層ミドルエンドマッチャは、ニューラルネットワークを使用して、フレキシブルなコストを学習する。グラフマッチングに関連するものは、効率的であるが、単純近似解を伴う、一般化された線形割当である、最適輸送の問題[下記の参考文献50参照]、すなわち、シンクホーンアルゴリズム[下記の参考文献43、9、31参照]である。
点群等のセットのための深層学習は、要素を横断して情報を集約することによって、順列同変または不変関数を設計することを目的とする。いくつかの研究は、大域的プーリング[下記の参考文献55、32、11参照]またはインスタンス正規化[下記の参考文献47、27、26参照]を通して、それらの全てを等しく取り扱う一方、その他は、座標または特徴空間内の局所的近傍に焦点を当てる[下記の参考文献33、53参照]。アテンション[下記の参考文献48、51、49、20参照]は、具体的要素および属性に焦点を当てることによって、大域的およびデータ依存局所的集約の両方を実施することができ、したがって、よりフレキシブルである。我々の研究は、完全グラフ上でメッセージパッシンググラフニューラルネットワーク[下記の参考文献18、3参照]の特定のインスタンスが認められ得るという事実を使用する。[下記の参考文献22、57参照]と同様に、アテンションをマルチエッジ、すなわち、多重グラフに適用することによって、深層ミドルエンドマッチャは、2つの局所的特徴のセットについての複雑な推測を学習することができる。
3.深層ミドルエンドマッチャアーキテクチャ
動機:画像マッチング問題では、世界のいくつかの規則性が、活用され得る。すなわち、3D世界は、主として、平滑であって、時として、平面であって、所与の画像対に関する全ての対応は、場面が静的である場合、単一エピポーラ変換から導出され、いくつかの姿勢は、その他より可能性が高い。加えて、2D特徴点は、通常、角またはブロブのような顕著な3D点の投影であって、したがって、画像を横断した対応は、ある物理的制約に準拠しなければならない。すなわち、i)特徴点は、最大で単一対応を他の画像内に有することができ、ii)いくつかの特徴点は、オクルージョンおよび検出器の失敗に起因して、マッチングされないであろう。特徴マッチングのための効果的モデルは、同一3D点の再投影間の全ての対応を見出し、マッチングを有しない、特徴点を識別することを目的とすべきである。図3は、深層ミドルエンドマッチャを最適化問題を解決するステップとして公式化する方法を示し、そのコストは、深層ニューラルネットワークによって予測される。深層ミドルエンドマッチャは、2つの主要なコンポーネント、すなわち、アテンショングラフニューラルネットワーク(セクション3a)と、最適マッチング層(セクション3b)とを含む。第1のコンポーネントは、特徴点位置pおよびその視覚的記述子dを単一ベクトルの中にマッピングするための特徴点エンコーダを使用し、次いで、交互セルフおよびクロスアテンション層(L回繰り返される)を使用して、より有効な表現fを作成する。最適マッチング層は、M×Nスコア行列を作成し、それをダストビンで拡張し、次いで、シンクホーンアルゴリズムを使用して(T回の反復にわたって)、最適部分的割当を見出す。これは、特定分野の専門知識およびヒューリスティックの必要性を軽減する、すなわち、関連初期値を直接データから学習する。
公式:それぞれ、特徴点位置pと関連付けられる視覚的記述子dのセットを伴う、2つの画像AおよびBを検討する。我々は、それら(p,d)をともに局所的特徴と称する。特徴点は、xおよびy画像座標および検出信頼度c、すなわち、pi:=(x,y,c)iから成る。視覚的記述子di∈RDは、SuperPointのようなCNNまたはSIFTのような従来的記述子によって抽出されたものであることができる。画像AおよびBは、MおよびN個の局所的特徴を有し、その特徴点インデックスのセットは、それぞれ、A:={1,...,M}およびB:={1,...,N}である。
部分的割当:制約i)およびii)は、対応が2つの特徴点のセット間の部分的割当から導出されることを意味する。下流タスクの中への統合およびより良好な解釈可能性のために、各可能性として考えられる対応は、ある信頼度値を有するべきである。その結果、以下のように、部分的ソフト割当行列P∈[0,1]M×Nを定義する。
我々の目標は、以下、すなわち、割当Pを2つの局所的特徴のセットから予測する、ニューラルネットワークを設計することである。
3.1.アテンショングラフニューラルネットワーク
深層ミドルエンドマッチャの第1の主要なブロック(セクション3a参照)は、アテンショングラフニューラルネットワークであって、その仕事は、以下、すなわち、所与の初期局所的特徴が、特徴を相互に連絡させることによって、マッチング記述子である、fi∈RDを算出することである。長距離特徴連絡は、ロバストなマッチングのために不可欠であって、画像内から、および画像対を横断した、情報の集約を要求する。
直感的に、所与の特徴点についての明確に異なる情報は、その視覚的外観およびその場所だけではなく、また、他の同時に可視特徴点、例えば、近傍のまたは顕著なものに対するその空間および視覚的関係にも依存する。他方では、第2の画像内の特徴点の知識は、候補マッチングを比較する、または相対的測光または幾何学的変換を大域的および曖昧性のない手掛かりから推定することによって、曖昧性を解決することに役立ち得る。
所与の曖昧な特徴点をマッチングさせるように求められると、ヒトは、両方の画像を何度も見比べる。すなわち、暫定マッチング特徴点を選別し、それらのそれぞれを吟味し、真のマッチングを他の自己相似から明確にすることに役立つ、コンテキスト手掛かりを探す。これは、そのアテンションを具体的場所に当て得る、反復プロセスを示唆する。
エンコーダは、ネットワークが、外観および位置の両方についてともに推測することを可能にし(アテンション機構を用いることで、特に、効果を発揮する)、トランスフォーマ[下記の参考文献48参照]に導入される、「位置エンコーダ」のインスタンスである。
多重グラフニューラルネットワーク:そのノードが両方の画像の特徴点である、単一完全グラフを検討する。グラフは、2つのタイプの非指向性エッジを有する、すなわち、多重グラフである。画像内エッジ、すなわち、セルフエッジEselfは、特徴点iを同一画像内の全ての他の特徴点に接続する。画像間エッジ、すなわち、クロスエッジEcrossは、特徴点iを他の画像内の全ての特徴点に接続する。メッセージパッシング公式[下記の参考文献18、3参照]を使用して、両方のタイプのエッジに沿って、情報を伝搬する。結果として生じる多重グラフニューラルネットワークは、ノード毎に、高次元状態から開始し、全てのノードのために全ての所与のエッジを横断してメッセージを同時に集約することによって、各層において、更新された表現を算出する。
アテンション集約:アテンション機構が、メッセージmE→iを算出し、集約を実施する。セルフエッジは、セルフアテンション[下記の参考文献48参照]に基づき、クロスエッジは、クロスアテンションに基づく。データベース読出と同様に、iの表現に関して、クエリqiは、その属性である、キーkjに基づいて、いくつかの要素の値vjを読み出す。以下のように、メッセージを値の加重平均として算出する。
式中、アテンションマスクαijは、以下のように、キー・クエリ類似性にわたるソフトマックスである。
キー、クエリ、および値は、グラフニューラルネットワークの深層特徴の線形投影として算出される。クエリ特徴点iが、画像Q内にあって、全てのソース特徴点が、画像S内にあって、(Q,S)∈{A、B}2とすると、以下のように記述され得る。
各層lは、その独自の投影パラメータを有し、それらは、両方の画像の全ての特徴点に関して共有される。実践では、マルチヘッドアテンションを用いて、表現性を改良する[下記の参考文献48参照]。
我々の公式は、ネットワークが具体的属性に基づいて、特徴点のサブセットに焦点を当てるように学習し得るため、最大フレキシビリティを提供する。図4では、マスクαijが、光線として示される。アテンション集約が、特徴点間の動的グラフを構築する。セルフアテンション(上)は、同一画像内の任意の場所、例えば、明確に異なる場所に注意を向けることができ、したがって、近隣の場所に制限されない。クロスアテンション(下)は、類似局所的外観を有する、潜在的マッチング等の他の画像内の場所に注意を向ける。深層ミドルエンドマッチャは、外観および特徴点場所の両方が表現xi内にエンコーディングされるため、それらに基づいて、読み出す、または注意を向けることができる。これは、近隣の特徴点に注意を向け、類似または顕著な特徴点の相対的位置を読み出すステップを含む。これは、幾何学的変換および割当の表現を有効にする。最終マッチング記述子は、以下のような線形投影であって、
B内の特徴点に関しても同様である。
3.2.最適マッチング層
深層ミドルエンドマッチャの第2の主要なブロック(セクション3b参照)は、最適マッチング層であって、これは、部分的割当行列を生産する。標準的グラフマッチング公式におけるように、割当Pは、あらゆる可能性として考えられるマッチングに関するスコア行列S∈RM×Nを算出し、方程式1における制約下で、総スコア
を最大限にすることによって取得されることができる。これは、線形割当問題を解決することに匹敵する。
スコア予測:全ての(M+1)×(N+1)潜在的マッチングのための別個の表現を構築することは、法外となるであろう。代わりに、以下のように、対毎スコアをマッチング記述子の類似性として表す。
式中、<・,・>は、内積である。学習された視覚的記述子とは対照的に、マッチング記述子は、正規化されず、その大きさは、特徴あたりで変化し、訓練の間、予測信頼度を反映し得る。
オクルージョンおよび可視性:ネットワークにオクルードされる特徴点を抑制させるために、各セットを、ダストビンで、マッチングされない特徴点がそれに明示的に割り当てられるように拡張する。本技法は、グラフマッチングにおいて一般的であって、ダストビンはまた、検出され得ない画像セルを考慮するために、SuperPoint[下記の参考文献14参照]によっても使用されている。以下のように、新しい行および列に、単一学習可能パラメータで充填される点/ビンおよびビン/ビンスコアを付加することによって、スコアSをS-に拡張する。
A内の特徴点は、B内の単一特徴点またはダストビンに割り当てられるであろうが、各ダストビンは、それぞれ、他のセット内に存在する特徴点、すなわち、A、B内のダストビンに関するN、Mと同程度のマッチングを有する。
として、AおよびB内の特徴点およびダストビン毎に予期されるマッチングの数を示す。拡張割当P-は、ここでは、以下の制約を有する。
シンクホーンアルゴリズム:上記の最適化問題の解は、スコアS-を伴う、離散分布aとbとの間の最適輸送[下記の参考文献31参照]に対応する。これは、二部マッチングのために古典的に使用される、ハンガリアンアルゴリズム[下記の参考文献28参照]の弁別可能バージョンである、シンクホーンアルゴリズム[下記の参考文献43、9参照]を用いて近似的に解決されることができる。これは、正則化された輸送問題を解決し、必然的に、ソフト割当をもたらす。本正規化は、行および列に沿って、交互ソフトマックスを反復的に実施することに相当し、したがって、GPU上で容易に並列化される。T回の反復後、ダストビンをドロップし、P=P-
1:M,1:Nを復元する。
3.3.損失
設計上、グラフニューラルネットワークおよび最適マッチング層は両方とも、弁別可能である、すなわち、これは、マッチングから視覚的記述子への逆伝搬を有効にする。深層ミドルエンドマッチャは、教師あり様式において、グラウンドトゥルースマッチング
から訓練される。これらは、グラウンドトゥルース相対的変換から、すなわち、姿勢および深度マップまたはホモグラフィを使用して、推定される。これはまた、いくつかの特徴点
を、それらがその近傍内に任意の再投影を有していない場合、マッチングされないものとして標識させる。標識を前提として、割当P-の負の対数尤度を最小限にする。
本教師は、同時に、マッチングの精度および再現率を最大限にすることを目的とする。
3.4.関連研究との比較
深層ミドルエンドマッチャ対正対応分類子[下記の参考文献27、56参照]:深層ミドルエンドマッチャは、画像および局所的特徴の両方に対して全体的に順列同変であることによって、強誘導バイアスから利点を享受する。これは、加えて、一般に使用される相互チェック制約を直接訓練の中に埋め込む。すなわち、0.5を上回る確率Pi,jを伴う任意のマッチングは、必然的に、相互に一貫する。
深層ミドルエンドマッチャ対インスタンス正規化[下記の参考文献47参照]:深層ミドルエンドマッチャによって使用されるようなアテンションは、全ての特徴点を等しく取り扱い、特徴マッチングに関する以前の研究によって使用される、インスタンス正規化[下記の参考文献27、56、26参照]よりフレキシブルかつ有効なコンテキスト集約機構である。
深層ミドルエンドマッチャ対ContextDesc[下記の参考文献26参照]:深層ミドルエンドマッチャは、外観および位置についてともに推測することができる一方、ContextDescは、それら別個に処理する。加えて、ContextDescは、加えて、より大きい領域抽出器および特徴点スコア化のための損失を要求する、フロントエンドである。深層ミドルエンドマッチャは、学習または手作業される局所的特徴のみを必要とし、したがって、既存のマッチャの単純ドロップイン置換となることができる。
深層ミドルエンドマッチャ対トランスフォーマ[下記の参考文献48参照]:深層ミドルエンドマッチャは、トランスフォーマからのセルフアテンションを借用するが、それをグラフニューラルネットワークの中に埋め込み、加えて、クロスアテンションを導入し、これは、対称である。これは、アーキテクチャを簡略化し、層を横断してより良好な特徴再使用もたらす。
4.実装詳細
深層ミドルエンドマッチャは、任意の局所的特徴検出器および記述子と組み合わせられることができるが、特に、再現可能かつ疎特徴点を生産する、SuperPoint[下記の参考文献14参照]と良好に作用し、すなわち、非常に効率的マッチングを有効にする。視覚的記述子は、準稠密特徴マップから双線形にサンプリングされ、これは、弁別可能である。局所的特徴抽出および後続「貼合」は両方とも、直接、GPU上で実施される。試験時、マッチングをソフト割当から抽出するために、信頼度閾値を使用して、一部を留保する、または単に、加重された姿勢推定等の後続ステップにおいて、それらの全ておよびその信頼度を使用することができる。
アーキテクチャ詳細:全ての中間表現(キー、クエリ値、記述子)は、SuperPoint記述子と同一寸法D=256を有する。それぞれ、4つのヘッドを伴う、L=9層の交互マルチヘッドセルフおよびクロスアテンションを使用して、数値安定性のために、対数空間において、T=100回のシンクホーン反復を実施する。モデルは、PyTorch[下記の参考文献30参照]内に実装され、リアルタイムでGPU上で起動される。フォワードパスは、平均して、150ms(7FPS)かかる。
訓練詳細:データ拡張を可能にするために、SuperPoint検出および記述ステップが、訓練の間、バッチとして、オンザフライで実施される。いくつかのランダム特徴点がさらに、効率的バッチ化および増加されたロバスト性のために追加される。さらなる詳細は、付属A内に提供される。
5.実験
5.1.ホモグラフィ推定
ロバスト(RANSAC)および非ロバスト(DLT)な推定器の両方を用いて、実画像および合成ホモグラフィを使用して、大規模ホモグラフィ推定実験を実施する。
データセット:[下記の参考文献12、14、37、36参照]に類似するレシピに従って、ランダムホモグラフィをサンプリングし、ランダム測光歪曲を実画像に適用することによって、画像対を生成する。基礎画像は、Oxford and Parisデータセット[下記の参考文献34参照]内の100万枚の妨害画像のセットに由来し、訓練、検証、および試験セットに分割される。
ベースライン:深層ミドルエンドマッチャを、SuperPoint局所的特徴に適用される、いくつかのマッチャ、すなわち、最近傍(NN)マッチャおよび種々の誤対応リジェクタ、すなわち、相互チェック(またはクロスチェック)、PointCN[下記の参考文献27参照]、および順序を意識したネットワーク(OANet)[下記の参考文献56参照]に対して比較する。深層ミドルエンドマッチャを含む、全ての学習される方法は、特徴点を1つの画像から他の画像に投影することによって見出される、グラウンドトゥルース対応上で訓練される。ホモグラフィおよび測光歪曲をオンザフライで生成する、すなわち、画像対は、訓練の間、2回見られることはない。
メトリック:マッチング精度(P)および再現率(R)が、グラウンドトゥルース対応から算出される。ホモグラフィ推定が、RANSACと、直接最小二乗解を有する、直接線形変換[下記の参考文献19参照](DLT)の両方を用いて実施される。画像の4つの角の平均再投影誤差を算出し、最大10ピクセルの値の累積誤差曲線下面積(AUC)を報告する。
結果:深層ミドルエンドマッチャは、ホモグラフィをマスタするために十分に表現的であって、98%再現率および高精度を達成する。表1は、深層ミドルエンドマッチャ、DLT、およびRANSACに関するホモグラフィ推定を示す。深層ミドルエンドマッチャは、大部分の誤対応を抑制しながら、ほぼ全ての可能性として考えられるマッチングを復元する。深層ミドルエンドマッチャ対応は、高品質であるため、ロバスト性機構を伴わない、最小二乗ベースの解である、直接線形変換(DLT)は、RANSACより優れている。推定される対応は、ロバストな推定器が要求されないほど良好である、すなわち、深層ミドルエンドマッチャは、RANSACよりDLTとさらにより良好に作用する。PointCNおよびOANetのような誤対応排除方法は、NNマッチャ自体より正しいマッチングを予測することができず、初期記述子に過度に依拠する。
5.2.屋内姿勢推定
屋内画像マッチングは、テクスチャの欠如、多数の自己相似、複雑な3Dの幾何学形状場面、および大視点変化に起因して、非常に難しい。以下に示されるように、深層ミドルエンドマッチャは、初期値を効果的に学習し、これらの課題を克服することができる。
データセット:グラウンドトゥルース姿勢および深度画像を伴う、単眼シーケンスから成る、大規模屋内データセットである、ScanNet[下記の参考文献10参照]、および異なる場面に対応する、明確に定義された訓練、検証、および試験分割を使用する。過去の研究は、通常、SIFTを使用して算出される、時間差[下記の参考文献29、13参照]またはSfM同時可視性[下記の参考文献27、56、6参照]に基づいて、訓練および評価対を選択する。我々は、これが対の難度を限定すると異議を唱え、代わりに、グラウンドトゥルース姿勢および深度のみを使用して、所与のシーケンス内であらゆる可能性として考えられる画像対に関して算出された重複スコアに基づいて、これらを選択する。これは、より有意に広範なベースライン対をもたらし、これは、実世界屋内画像マッチングに関する現在の最先端領域に対応する。小さすぎるまたは大きすぎる重複を伴う対を破棄することで、2億3千万枚の訓練対を取得し、1,500試験対をサンプリングする。さらなる詳細は、付属A内に提供される。
メトリック:以前の研究[下記の参考文献27、56、6参照]におけるように、閾値(5・,10・,20・)における姿勢誤差のAUCを報告し、姿勢誤差は、回転および平行移動における角度誤差の最大値である。相対的姿勢は、RANSACを用いて、基本行列推定から取得される。また、マッチング精度およびマッチングスコア[下記の参考文献14、54参照]も報告し、マッチングは、そのエピポーラ距離に基づいて、正しいと見なされる。
ベースライン:平方根正規化SIFT[下記の参考文献25、2参照]およびSuperPoint[下記の参考文献14参照]特徴の両方を使用して、深層ミドルエンドマッチャおよび種々のベースラインマッチャを評価する。深層ミドルエンドマッチャは、グラウンドトゥルース姿勢および深度から導出される、対応およびマッチングされない特徴点で訓練される。全てのベースラインは、最近傍(NN)マッチャおよび潜在的誤対応排除方法に基づく。「手作業」カテゴリでは、単純クロスチェック(相互)、比検定[下記の参考文献25参照]、記述子距離閾値、およびより複雑なGMS[下記の参考文献5参照]を検討する。「学習」カテゴリにおける方法は、PointCN[下記の参考文献27参照]およびそのフォローアップOANet[下記の参考文献56参照]およびNG-RANSAC[下記の参考文献6参照]である。上記に定義された正確性基準およびその個別の回帰損失を使用して、SuperPointおよびSIFTの両方のために、PointCNおよびOANetをScanNet上で分類損失を用いて再訓練する。NG-RANSACに関しては、オリジナルの訓練されたモデルを使用する。それらが、検討する特徴点の数にとって数桁も減速させるような任意のグラフマッチング方法は、含まない。参考として、公的に入手可能な訓練されたモデルを使用する、他の局所的特徴、すなわち、GMSを伴うORB[下記の参考文献39参照]、D2-Net[下記の参考文献15参照]、およびContextDesc[下記の参考文献26参照]も報告される。
結果:深層ミドルエンドマッチャは、手作業および学習されたマッチャの両方と比較して、より有意に高い姿勢正確度を有効にする。表2は、ScanNet上での広ベースライン屋内姿勢推定を示す。姿勢誤差のAUC、マッチングスコア(MS)、および精度(P)が全て、姿勢推定AUCパーセントにおいて報告される。深層ミドルエンドマッチャは、SIFTおよびSuperPointの両方に適用されるとき、全ての手作業および学習されたマッチャより優れている。これらの利点は、SIFTおよびSuperPointの両方に適用されるとき、実質的である。図5は、屋内および屋外姿勢推定を示す。深層ミドルエンドマッチャは、最先端誤対応排除ニューラルネットワークである、OANetより姿勢正確度を有意に改良する。これは、他の学習されたマッチャより有意に高い精度を有し、そのより高い表現力を実証する。これはまた、最近傍の限定されたセットではなく、可能性として考えられるマッチングの完全セットに作用するため、SIFTに適用されるとき、比検定の最大10倍のより多数の正しいマッチングを生産する。SuperPointおよび深層ミドルエンドマッチャはともに、最先端の結果を屋内姿勢推定において達成する。それらは、再現可能特徴点が、非常に難しい状況(図2参照)においてさえ、より多数の正しいマッチングを推定することを可能にするため、相互に良好に補完する。
図6は、定質的画像マッチングを示す。深層ミドルエンドマッチャと、3つの環境において手作業および学習された2つの誤対応リジェクタを伴う、最近傍(NN)マッチャを比較する。深層ミドルエンドマッチャは、一貫して、より正しいマッチング(緑色線)およびより少ない誤マッチング(赤色線)を推定し、繰り返されるテクスチャ、大視点、および照明変化に対抗する。
5.3.屋外姿勢推定
屋外画像シーケンスは、その独自の課題のセット(例えば、照明変化およびオクルージョン)を提示するため、屋外設定における姿勢推定のために深層ミドルエンドマッチャを訓練および評価する。屋内姿勢推定タスクにおけるものと同一評価メトリックおよびベースライン方法を使用する。
データセット:CVPR’19画像マッチング課題[下記の参考文献1参照]の一部である、PhotoTourismデータセット上で評価する。これは、YFCC100Mデータセット[下記の参考文献44参照]のサブセットであって、オフザシェルフSfMツール[下記の参考文献29、41、42参照]から取得されるグラウンドトゥルース姿勢および疎3Dモデルを有する。訓練のために、マルチビューステレオを用いて算出されたクリーン深度マップもまた有する、MegaDepthデータセット[下記の参考文献23参照]を使用する。PhotoTourism試験セット内にある、場面は、訓練セットから除去される。
結果:表3は、PhotoTourismデータセット上での屋外姿勢推定を示す。深層ミドルエンドマッチャを用いて、SuperPointおよびSIFT特徴をマッチングさせることは、手作業または他の学習された方法より有意に高い姿勢正確度(AUC)、精度(P)、およびマッチングスコア(MS)をもたらす。深層ミドルエンドマッチャは、SuperPointおよびSIFTの両方に適用されるとき、全ての相対的姿勢閾値において、全てのベースラインより優れている。最も着目すべきこととして、結果として生じるマッチングの精度は、非常に高く(84.9%)、深層ミドルエンドマッチャが局所的特徴をともに「貼合」せることになる、類似点を強化する。
5.4.深層ミドルエンドマッチャの理解
アブレーション研究:我々の設計決定を評価するために、屋内ScanNet実験を繰り返すが、今度は、異なる深層ミドルエンドマッチャバリアントに焦点を当てる。表4は、SuperPoint局所的特徴を用いた、ScanNet上の深層ミドルエンドマッチャのアブレーションを示す。全ての深層ミドルエンドマッチャブロックは、有用であって、かつ実質的性能利得をもたらす。完全モデルに対する差異が、示される。最適マッチング層のみでも、ベースライン最近傍マッチャに優って改良されているが、GNNは、深層ミドルエンドマッチャによってもたらされる利得の大部分を説明する。クロスアテンションおよび位置エンコーディングは両方とも、有効な貼合のために重要であって、およびより深いネットワークは、精度をさらに改良する。
アテンションの可視化:提案される技法の理解は、マッチング全体を通した深層ミドルエンドマッチャのアテンションパターンを可視化することを試みることなく完全とはならないであろう。セルフおよびクロスアテンションパターンの広範な多様性は、図7に示され、学習された挙動の複雑性を反映させる。図7は、アテンション、すなわち、種々の層およびヘッドにおけるセルフおよびクロスアテンションマスクαijの可視化を示す。深層ミドルエンドマッチャは、パターンの多様性を学習し、大域的または局所的コンテキスト、自己相似、明確に異なる特徴、およびマッチング候補に焦点を当てることができる。
6.結論
本開示では、局所的特徴マッチングのための、NLPにおけるトランスフォーマの成功によって触発されたアテンショングラフニューラルネットワークである、「深層ミドルエンドマッチャ」と称されるものを説明した。我々は、3D再構築パイプラインのデータ関連付けコンポーネントが、適正な注目を研究コミュニティから受けておらず、有効な学習ベースのミドルエンドが、我々のソリューションであると考える。深層ミドルエンドマッチャは、局所的特徴の受信フィールドを高め、その対応が欠測している特徴を重要視せず、ContextDescおよび正対応分類の両方の役割を効果的に実施する。重要なこととして、深層ミドルエンドマッチャの内部構造は、実世界データから全体的に学習される。2D/2D特徴マッチングにおける我々の結果は、既存の最先端に優る有意な改良を示す。
本明細書における我々の説明は、手動で設計されるヒューリスティックの代替としての現代の深層学習ベースとしての特徴マッチングパイプライン内の学習可能ミドルエンドの使用の十分な論証である。我々の将来的研究の一部は、完全3D再構築パイプラインの内側の深層ミドルエンドマッチャを評価することに焦点を当てるであろう。
本発明の種々の例示的実施形態が、本明細書に説明される。これらの実施例は、非限定的な意味で参照される。それらは、本発明のさらに広く適用可能な側面を例証するために提供される。種々の変更が、説明される本発明に成され得、均等物が、本発明の真の精神および範囲から逸脱することなく代用され得る。加えて、多くの修正が、特定の状況、材料、物質の組成、プロセス、プロセス行為、またはステップを、本発明の目的、精神、または範囲に適合させるように成され得る。さらに、当業者によって理解されるであろうように、本明細書に説明および図示される個々の変形例はそれぞれ、本発明の範囲または精神から逸脱することなく、他のいくつかの実施形態のいずれかの特徴から容易に分離される、またはそれと組み合わせられ得る、離散コンポーネントおよび特徴を有する。そのような修正は全て、本開示と関連付けられる請求項の範囲内であることが意図される。
本発明は、主題デバイスを使用して実施され得る方法を含む。本方法は、そのような好適なデバイスを提供する行為を含み得る。そのような提供は、エンドユーザによって実施され得る。換言すると、「提供する」行為は、単に、エンドユーザに、主題方法において必要なデバイスを提供するために取得する、アクセスする、アプローチする、位置付ける、設定する、アクティブ化する、起動する、または別様に行動することを要求する。本明細書に列挙される方法は、論理的に可能性として考えられる、列挙された事象の任意の順序で、かつ事象の列挙された順序で行われ得る。
本発明の例示的側面が、材料の選択および製造に関する詳細とともに、上記に述べられている。本発明の他の詳細に関して、これらは、上記に言及される特許および公開文書に関連して理解され、および、概して、当業者によって把握される、または理解され得る。同じことが、一般的または理論的に採用されるものとしての付加的な行為の観点から、本発明の方法ベースの側面に関して当てはまり得る。
加えて、本発明は、随意に種々の特徴を組み込むいくつかの実施例を参照して説明されているが、本発明は、本発明の各変形例に対して考えられるものとして説明される、または示されるものに限定されるべきではない。説明される、本発明に成され得る種々の変更および均等物は(本明細書に列挙されている、またはある簡潔性のために含まれていないかどうかにかかわらず)、本発明の真の精神および範囲から逸脱することなく代用され得る。加えて、ある範囲の値が、提供される場合、その範囲の上限および下限と、その記載される範囲における、任意の他の記載される、または介在する値との間の各介在値が、本発明の範囲内に包含されることを理解されたい。
また、説明される本発明の変形例の任意の随意の特徴が、独立して、または本明細書に説明される特徴のうちの任意の1つまたはそれを上回るものと組み合わせられて記載される、または請求され得ることを想定されたい。単一の物体の言及は、複数の存在する同一の物品がある可能性を含む。より具体的には、本明細書および本明細書に関連付けられる請求項において使用されるように、単数形「a」、「an」、「said」、および「the」は、別様に具体的に記載されない限り、複数の支持物を含む。換言すると、冠詞の使用は、上記の説明および本開示と関連付けられる請求項において、主題物品の「少なくとも1つ」のものを可能にする。さらに、そのような請求項が、任意の随意の要素を除外するために起草され得ることに留意されたい。したがって、本叙述は、請求項要素の列挙に関連して、「単独で」、「のみ」、および同等物のようなそのような排他的用語の使用、または「否定的な」制限の使用のための前項としての役割を果たすことを意図する。
そのような排他的用語の使用を伴わず、本開示と関連付けられる、請求項における用語「comprising(~を備える)」は、所与の数の要素がそのような請求項内で枚挙されているかどうかに関係なく、任意の付加的要素の含有を可能にするものとする、または特徴の追加は、そのような請求項に記載される要素の性質を変換するものとして見なされ得る。本明細書に具体的に定義されている場合を除いて、本明細書に使用される技術的および科学的用語は全て、請求項の正当性を維持しながら、可能な限り広義の、一般的に理解される意味を与えられるべきである。
本発明の範疇は、提供される実施例および/または主題明細書に限定されるべきではなく、むしろ、本開示と関連付けられる請求項文言の範囲のみによって限定されるべきである。
7.付属A-さらなる実験詳細
ホモグラフィ推定:
試験セットは、1,024対の640×480画像を含有する。ホモグラフィが、境界線アーチファクトを回避するために、ランダム視点、スケーリング、回転、および平行移動をオリジナル完全サイズ画像に適用することによって生成される。4ピクセルの非最大値抑制(NMS)半径を伴うSuperPointによって検出された512枚の上位スコア化特徴点を評価する。対応は、それらが3ピクセルより低い再投影誤差を有する場合、正しいと見なされる。ホモグラフィをRANSACを用いて推定するとき、3,000回の反復および3ピクセルの正対応閾値とともに、opencv関数findHomographyを使用する。
屋内姿勢推定:
2つの画像AとBとの間の重複スコアは、(相対的誤差を使用して、深度内の一貫性をチェックすることによって)欠測深度値およびオクルージョンを考慮後のB内で可視のA内のピクセルの平均比(その逆も同様である)である。0.4~0.8の重複範囲を用いて、訓練および評価する。訓練のために、[15]におけるものと同様に、各基準時点において、場面あたり200対をサンプリングする。試験セットは、シーケンスを15ずつサブサンプリングし、続いて、300シーケンス毎に、15対をサンプリングすることによって生成される。全てのScanNet画像および深度マップをVGA640×480にサイズ変更する。最大1,024個のSuperPoint特徴点(4のNMS半径を伴う、公的に入手可能な訓練されたモデルを使用して)および2,048個のSIFT特徴点(OpenCvの実装を使用して)を検出する。精度およびマッチングスコアを算出するとき、5.10e-4のエピポーラ閾値を使用する。姿勢は、最初に、平均焦点距離によって除算される1ピクセルの正対応閾値を伴う、OpenCvのfindEssentialMatおよびRANSAC、続いて、recoverPoseを用いて、基本行列を推定することによって算出される分割される。以前の研究[28、59、6]とは対照的に、大まかなヒストグラムではなく、明示的積分を使用して、より正確なAUCを算出する。
屋外姿勢推定:
Megadepth上での訓練に関して、重複スコアは、[15]におけるように、2つの画像内で可視の三角測量された特徴点の比率である。各基準時点において、[0.1,0.7]内に重複スコアを伴う対をサンプリングする。PhotoTourismデータセット上での評価に関して、[0.1,0.4]の選択範囲を伴って、全11場面およびOno[30]によって算出された重複スコアを使用する。画像は、その最長エッジが1,600ピクセルより小さくなるようにサイズ変更される。SIFTおよびSuperPointの両方に関して、2,048個の特徴点を検出する(3のNMS半径を伴う)。他の評価パラメータは、屋内評価で使用されるものと同じである。
深層ミドルエンドマッチャの訓練:
ホモグラフィ/屋内/屋外データ上で訓練するために、最初の20万/10万/5万回の反復回数にわたって、10e-4の初期一定学習レートを伴い、その後、90万回の反復回数まで、0.999998/0.999992/0.999992の指数関数的減衰が続く、Adamオプティマイザを使用する。SuperPoint特徴を使用するとき、32/64/16枚の画像対および画像あたり512/400/1,024個の固定された数の特徴点を伴う、バッチを採用する。SIFT特徴を使用するとき、1,024個の特徴点および24対を使用する。限定された数の訓練場面のため、屋外モデルは、ホモグラフィモデルで初期化される。特徴点エンコーディングに先立って、特徴点は、画像の最大エッジによって正規化される。
グラウンドトゥルース対応MおよびマッチングされないセットIおよびJが、最初に、グラウンドトゥルースホモグラフィまたは姿勢および深度マップを使用して、全ての検出された特徴点間のM×N再投影行列を算出することによって生成される。対応は、行および列の両方に沿って、最小であって、それぞれ、ホモグラフィ、屋内、および屋外マッチングに関して、所与の閾値、すなわち、3、5、および3ピクセルより低い、再投影誤差を有する、セルである。ホモグラフィに関して、マッチングされない特徴点は、単に、M内に現れないものである。屋内および屋外マッチングに関して、深度および姿勢内の誤差のため、マッチングされない特徴点は、加えて、それぞれ、15および5ピクセルより大きい、最小再投影誤差を有しなければならない。これは、依然として、シンクホーン正規化を通して、ある程度の教師を提供しながら、その対応が曖昧な特徴点に関す標識を無視することを可能にする。
8.参考文献
Claims (17)
- コンピュータシステムであって、
コンピュータ可読媒体と、
前記コンピュータ可読媒体に接続されるプロセッサと、
コンピュータ可読媒体上の命令のセットと
を備え、
前記コンピュータ可読媒体上の命令のセットは、
深層ミドルエンドマッチャアーキテクチャであって、
アテンショングラフニューラルネットワークであって、前記アテンショングラフニューラルネットワークは、
特徴点位置pおよびその視覚的記述子dを単一ベクトルの中にマッピングするための特徴点エンコーダと、
前記ベクトルに基づいて、L回繰り返され、表現fを作成する交互セルフおよびクロスアテンション層と
を有する、アテンショングラフニューラルネットワークと、
最適マッチング層であって、前記最適マッチング層は、M×Nスコア行列を前記表現fから作成し、前記M×Nスコア行列に基づいて、最適部分的割当を見出す、最適マッチング層と
を含む、深層ミドルエンドマッチャアーキテクチャ
を含む、コンピュータシステム。 - 前記特徴点エンコーダは、前記アテンショングラフニューラルネットワークが、外観および位置についてともに推測することを可能にする、請求項2に記載のコンピュータシステム。
- 前記特徴点エンコーダは、前記2つの画像の特徴点であるノードを伴う単一完全グラフを有する多重グラフニューラルネットワークを含む、請求項1に記載のコンピュータシステム。
- 前記グラフは、多重グラフであり、前記多重グラフは、2つのタイプの非指向性エッジ、すなわち、特徴点iを同一画像内の全ての他の特徴点に接続する画像内エッジ(セルフエッジ、Eself)と、特徴点iを他の画像内の全ての特徴点に接続する画像間エッジ(クロスエッジ、Ecross)とを有し、結果として生じる多重グラフニューラルネットワークが、ノード毎に、高次元状態から開始し、各層において、全てのノードに関する全ての所与のエッジを横断してメッセージを同時に集約することによって、更新された表現を算出するように、メッセージパッシング公式を使用して、両方のタイプのエッジに沿って情報を伝搬する、請求項4に記載のコンピュータシステム。
- 異なるパラメータを伴う固定された数の層Lが、連鎖され、l=1から開始して、lが奇数である場合、E=Eselfであり、lが偶数である場合、E=Ecrossであるように、前記セルフおよびクロスエッジに沿って、交互に集約される、請求項6に記載のコンピュータシステム。
- 前記最適マッチング層は、オクルージョンおよび可視性のために、オクルードされる特徴点を抑制し、マッチングされない特徴点がダストビンスコアに明示的に割り当てられるように、特徴点の各セットをダストビンスコアで拡張する、請求項12に記載のコンピュータシステム。
- 前記最適マッチング層は、T回の反復にわたって、シンクホーンアルゴリズムを使用して、前記M×Nスコア行列に基づいて、前記最適部分的割当を見出す、請求項13に記載のコンピュータシステム。
- コンピュータ実装方法であって、
深層ミドルエンドマッチャアーキテクチャのアテンショングラフニューラルネットワークの特徴点エンコーダを用いて、特徴点位置pおよびその視覚的記述子dを単一ベクトルの中にマッピングすることと、
前記深層ミドルエンドマッチャアーキテクチャのアテンショングラフニューラルネットワークの交互セルフおよびクロスアテンション層を用いて、前記ベクトルに基づいて、L回の繰り返される回数にわたって実行し、表現fを作成することと、
前記深層ミドルエンドマッチャアーキテクチャのアテンショングラフニューラルネットワークの最適マッチング層を実行し、M×Nスコア行列を前記表現fから作成し、前記M×Nスコア行列に基づいて、最適部分的割当を見出すことと
を含む、方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962935597P | 2019-11-14 | 2019-11-14 | |
US62/935,597 | 2019-11-14 | ||
PCT/US2020/060550 WO2021097318A1 (en) | 2019-11-14 | 2020-11-13 | Systems and methods for virtual and augmented reality |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023501574A true JP2023501574A (ja) | 2023-01-18 |
Family
ID=75908774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022527710A Pending JP2023501574A (ja) | 2019-11-14 | 2020-11-13 | 仮想および拡張現実のためのシステムおよび方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20210150252A1 (ja) |
EP (1) | EP4058936A4 (ja) |
JP (1) | JP2023501574A (ja) |
CN (1) | CN114730490A (ja) |
WO (1) | WO2021097318A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11531892B2 (en) * | 2019-09-24 | 2022-12-20 | Toyota Research Institute, Inc. | Systems and methods for detecting and matching keypoints between different views of a scene |
US20220245387A1 (en) * | 2021-02-04 | 2022-08-04 | Toyota Research Institute, Inc. | End-to-end monocular 2d semantic keypoint detector and tracker learning |
CN113255780B (zh) * | 2021-05-28 | 2024-05-03 | 润联智能科技股份有限公司 | 一种减速箱故障预测方法、装置、计算机设备及存储介质 |
CN113435578B (zh) * | 2021-06-25 | 2022-04-05 | 重庆邮电大学 | 基于互注意力的特征图编码方法、装置及电子设备 |
CN113822228B (zh) * | 2021-10-27 | 2024-03-22 | 南京大学 | 一种基于持续学习的用户表情识别方法和系统 |
CN114170304B (zh) * | 2021-11-04 | 2023-01-03 | 西安理工大学 | 一种基于多头自注意力和置换注意力的相机定位方法 |
US20230298307A1 (en) * | 2022-03-17 | 2023-09-21 | Guangzhou Xiaopeng Autopilot Technology Co., Ltd. | System for three-dimensional geometric guided student-teacher feature matching (3dg-stfm) |
CN114707611B (zh) * | 2022-04-21 | 2022-10-11 | 安徽工程大学 | 基于图神经网络特征提取与匹配的移动机器人地图构建方法、存储介质及设备 |
CN115063459B (zh) * | 2022-08-09 | 2022-11-04 | 苏州立创致恒电子科技有限公司 | 点云配准方法及装置、全景点云融合方法及系统 |
CN115861822B (zh) * | 2023-02-07 | 2023-05-12 | 海豚乐智科技(成都)有限责任公司 | 一种目标局部点与全局结构化匹配方法及装置 |
CN116030285A (zh) * | 2023-03-28 | 2023-04-28 | 武汉大学 | 基于关系感知注意力机制的两视图对应估计方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8170283B2 (en) * | 2009-09-17 | 2012-05-01 | Behavioral Recognition Systems Inc. | Video surveillance system configured to analyze complex behaviors using alternating layers of clustering and sequencing |
US9087267B2 (en) * | 2011-06-10 | 2015-07-21 | Image Vision Labs, Inc. | Image scene recognition |
JP6917701B2 (ja) * | 2016-11-30 | 2021-08-11 | キヤノン株式会社 | 情報処理装置、情報処理装置の制御方法及びプログラム |
WO2018125812A1 (en) * | 2017-01-02 | 2018-07-05 | Gauss Surgical, Inc. | Tracking surgical items with prediction of duplicate imaging of items |
US10402448B2 (en) * | 2017-06-28 | 2019-09-03 | Google Llc | Image retrieval with deep local feature descriptors and attention-based keypoint descriptors |
US10636198B2 (en) * | 2017-12-28 | 2020-04-28 | Beijing Jingdong Shangke Information Technology Co., Ltd. | System and method for monocular simultaneous localization and mapping |
US10997746B2 (en) * | 2018-04-12 | 2021-05-04 | Honda Motor Co., Ltd. | Feature descriptor matching |
WO2019213459A1 (en) * | 2018-05-04 | 2019-11-07 | Northeastern University | System and method for generating image landmarks |
US11182612B2 (en) * | 2019-10-28 | 2021-11-23 | The Chinese University Of Hong Kong | Systems and methods for place recognition based on 3D point cloud |
-
2020
- 2020-11-13 WO PCT/US2020/060550 patent/WO2021097318A1/en unknown
- 2020-11-13 US US17/098,043 patent/US20210150252A1/en active Pending
- 2020-11-13 EP EP20888716.6A patent/EP4058936A4/en active Pending
- 2020-11-13 CN CN202080079114.3A patent/CN114730490A/zh active Pending
- 2020-11-13 JP JP2022527710A patent/JP2023501574A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
CN114730490A (zh) | 2022-07-08 |
US20210150252A1 (en) | 2021-05-20 |
WO2021097318A1 (en) | 2021-05-20 |
EP4058936A4 (en) | 2023-05-03 |
EP4058936A1 (en) | 2022-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2023501574A (ja) | 仮想および拡張現実のためのシステムおよび方法 | |
Qi et al. | Review of multi-view 3D object recognition methods based on deep learning | |
JP7128022B2 (ja) | 完全教師あり学習用のデータセットの形成 | |
Schneider et al. | RegNet: Multimodal sensor registration using deep neural networks | |
Guerry et al. | Snapnet-r: Consistent 3d multi-view semantic labeling for robotics | |
Zhou et al. | Moving indoor: Unsupervised video depth learning in challenging environments | |
CN105844669B (zh) | 一种基于局部哈希特征的视频目标实时跟踪方法 | |
Stylianou et al. | Visualizing deep similarity networks | |
CN100407798C (zh) | 三维几何建模系统和方法 | |
CN110084304B (zh) | 一种基于合成数据集的目标检测方法 | |
Zhang et al. | Deep hierarchical guidance and regularization learning for end-to-end depth estimation | |
WO2022252274A1 (zh) | 基于PointNet网络点云分割及虚拟环境生成方法和装置 | |
CN104637090B (zh) | 一种基于单张图片的室内场景建模方法 | |
WO2017132636A1 (en) | Systems and methods for extracting information about objects from scene information | |
JP2014096152A (ja) | ポイントクラウド内の埋め戻しポイント | |
Casaca et al. | Laplacian coordinates: Theory and methods for seeded image segmentation | |
CN115330940B (zh) | 一种三维重建方法、装置、设备和介质 | |
WO2018219227A1 (zh) | 结构光解码的方法和设备 | |
Huang et al. | Tracking-by-detection of 3d human shapes: from surfaces to volumes | |
Ramirez et al. | Shooting labels: 3d semantic labeling by virtual reality | |
CN114663880A (zh) | 基于多层级跨模态自注意力机制的三维目标检测方法 | |
Owens et al. | Shape anchors for data-driven multi-view reconstruction | |
CN111402429B (zh) | 一种尺度还原、三维重建方法、系统、存储介质及设备 | |
KR102572415B1 (ko) | 레퍼런스 이미지의 검증을 통해 자연스러운 3차원 디지털 트윈을 생성하기 위한 방법 및 장치 | |
Nanwani et al. | Instance-Level Semantic Maps for Vision Language Navigation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231108 |