JP2023501574A

JP2023501574A - 仮想および拡張現実のためのシステムおよび方法

Info

Publication number: JP2023501574A
Application number: JP2022527710A
Authority: JP
Inventors: ポール－エドゥアールサルラン，; ダニエルデトン，; トマシュジャンマリシーウィッツ，; アンドリューラビノビッチ，
Original assignee: Magic Leap Inc
Current assignee: Magic Leap Inc
Priority date: 2019-11-14
Filing date: 2020-11-13
Publication date: 2023-01-18
Also published as: CN114730490A; US20210150252A1; WO2021097318A1; EP4058936A4; EP4058936A1

Abstract

本発明は、接続されたモバイルコンピューティングシステム、方法、および構成に関し、より具体的には、仮想現実動作および／または拡張現実動作のために利用され得る、少なくとも１つのウェアラブルコンポーネントを特徴とする、モバイルコンピューティングシステム、方法、および構成に関する。本説明は、特徴マッチングに関する。我々のアプローチは、難しい画像対間の点毎対応を確立する。これは、オフザシェルフ局所的特徴を入力としてとり、アテンショングラフニューラルネットワークを使用して、割当最適化問題を解決する。深層ミドルエンドマッチャが、ミドルエンドとして作用し、部分的点可視性およびオクルージョンを的確にハンドリングし、部分的割当行列を生産する。

Description

（関連出願の相互参照）
本願は、その全てが、参照することによってその全体として本明細書に組み込まれる、２０１９年１１月１４日に出願された、米国仮特許出願第６２／９３５，５９７号の優先権を主張する。

本発明は、接続されたモバイルコンピューティングシステム、方法、および構成に関し、より具体的には、仮想現実動作および／または拡張現実動作のために利用され得る、少なくとも１つのウェアラブルコンポーネントを特徴とする、モバイルコンピューティングシステム、方法、および構成に関する。

複合現実または拡張現実接眼ディスプレイが、軽量、低コストであり、小形状因子を有し、広仮想画像視野を有し、可能な限り透過性であることが望ましい。加えて、輻輳・開散運動と遠近調節との不整合に関する容認可能な許容差を超過することなく、多種多様なユースケースのために実践的であるために、（例えば、２つまたはそれを上回る）複数の焦点面内に仮想画像情報を提示する構成を有することが、望ましい。図８を参照すると、頭部装着型視認コンポーネント（２）、ハンドヘルド式のコントローラコンポーネント（４）、およびユーザ上にベルトパックまたは同等物として装着されるように構成され得る、相互接続された補助コンピューティングまたはコントローラコンポーネント（６）を特徴とする、拡張現実システムが、図示される。これらのコンポーネントはそれぞれ、ＩＥＥＥ８０２．１１、Ｂｌｕｅｔｏｏｒｈ（ＲＴＭ）、および他のコネクティビティ規格および構成によって規定されるもの等、有線または無線通信構成を介して、相互に、かつクラウドコンピューティングまたはクラウドストレージリソース等の他の接続されたリソース（８）に動作可能に結合（１０、１２、１４、１６、１７、１８）され得る。例えば、米国特許出願第１４／５５５，５８５号、第１４／６９０，４０１号、第１４／３３１，２１８号、第１５／４８１，２５５号、第６２／６２７，１５５号、第６２／５１８，５３９号、第１６／２２９，５３２号、第１６／１５５，５６４号、第１５／４１３，２８４号、第１６／０２０，５４１号、第６２，７０２，３２２号、第６２／２０６，７６５号、第１５，５９７，６９４号、第１６／２２１，０６５号、第１５／９６８，６７３号、第６２／６８２，７８８号、および第６２／８９９，６７８号（それぞれ、参照することによってその全体として本明細書に組み込まれる）に説明されるように、拡張現実体験のために、それを通してユーザに、関連付けられるシステムコンポーネントによって生産され得る視覚コンポーネントとともに、その周辺の世界が見え得る、２つの描写される光学要素（２０）の種々の実施形態等、そのようなコンポーネントの種々の側面が、説明される。図８に図示されるように、そのようなシステムはまた、限定ではないが、（モノクロ、カラー／ＲＧＢ、および／または熱結像コンポーネント等）種々のカメラタイプセンサ（２２、２４、２６）、深度カメラセンサ（２８）、および／またはマイクロホン等の音センサ（３０）を含む、ユーザの周囲の環境に関する情報を提供するように構成される、種々のセンサを備えてもよい。ユーザに、豊かな拡張現実体験の知覚を提供するために利用され得る、本明細書に説明されるもの等の小型かつ持続的に接続されたウェアラブルコンピューティングシステムおよびアセンブリの必要性が、存在する。

本書は、ともに、対応を見出し、マッチング不能点を排除することによって、２つの局所的特徴のセットをマッチングさせるように構成される、ニューラルネットワークである、「深層ミドルエンドマッチャ」と称され得るもののある側面を説明する。そのようなニューラルネットワーク構成は、限定ではないが、そのような空間コンピューティングシステムを構成する、カメラおよび処理リソースを含む、図８に図示されるもの等の空間コンピューティングリソースと関連付けて利用され得る。深層ミドルエンドマッチャタイプの構成内では、割当が、最適輸送問題を解決することによって推定され得、そのコストは、グラフニューラルネットワークによって予測される。我々は、アテンションに基づく、フレキシブルなコンテキスト集約機構を説明し、これは、深層ミドルエンドマッチャ構成が、下層３Ｄ場面および特徴割当についてともに推測することを有効にする。従来的手動で設計されるヒューリスティックと比較して、我々の技法は、画像から対応へのエンドツーエンド訓練を通して、３Ｄ世界の幾何学的変換および規則性にわたる初期値を学習する。深層ミドルエンドマッチャは、他の学習されるアプローチより優れており、新しい最先端技術を難しい実世界屋内および屋外環境内の姿勢推定のタスクにもたらす。これらの方法および構成は、リアルタイムで、現代のグラフィカル処理ユニット（「ＧＰＵ」）に合わせられ、現代のモーションからの構造解析（「ＳｆＭ」）または同時位置特定およびマッピング（「ＳＬＡＭ」）システムの中に容易に統合されることができ、その全ては、図８に図示されるもの等のシステムの中に組み込まれてもよい。

本発明は、コンピュータ可読媒体と、コンピュータ可読媒体に接続される、プロセッサと、コンピュータ可読媒体上の命令のセットとを含む、コンピュータシステムを提供する。命令のセットは、特徴点位置ｐおよびその視覚的記述子ｄを単一ベクトルの中にマッピングするための特徴点エンコーダと、ベクトルに基づいて、Ｌ回、繰り返され、表現ｆを作成する、交互セルフおよびクロスアテンション層とを有する、アテンショングラフニューラルネットワークと、Ｍ×Ｎスコア行列を表現ｆから作成し、Ｍ×Ｎスコア行列に基づいて、最適部分的割当を見出す、最適マッチング層とを含み得る、深層ミドルエンドマッチャアーキテクチャを含んでもよい。

コンピュータシステムはさらに、特徴点エンコーダにおいて、特徴点ｉ毎の初期表現

が、以下のように、視覚的外観と場所とを組み合わせ、個別の特徴点位置が高次元ベクトルの中に多層パーセプトロン（ＭＬＰ）とともに埋め込まれることを含んでもよい。

コンピュータシステムはさらに、特徴点エンコーダが、アテンショングラフニューラルネットワークが、外観および位置についてともに推測することを可能にすることを含んでもよい。

コンピュータシステムはさらに、特徴点エンコーダが、２つの画像の特徴点である、ノードを伴う、単一完全グラフを有する、多重グラフニューラルネットワークを含むことを含んでもよい。

コンピュータシステムはさらに、グラフが、２つのタイプの非指向性エッジ、すなわち、特徴点ｉを同一画像内の全ての他の特徴点に接続する、画像内エッジ（セルフエッジ；Ｅ_ｓｅｌｆ）と、特徴点ｉを他の画像内の全ての特徴点に接続する、画像間エッジ（クロスエッジ、Ｅ_{ｃｒｏｓｓ}）とを有し、結果として生じる多重グラフニューラルネットワークが、ノード毎に、高次元状態から開始し、各層において、全てのノードに関する全ての所与のエッジを横断してメッセージを同時に集約することによって、更新された表現を算出するように、メッセージパッシング公式を使用して、両方のタイプのエッジに沿って、情報を伝搬する多重グラフであることを含んでもよい。

コンピュータシステムはさらに、

が、層ｌにおける画像Ａ内の要素ｉに関する中間表現である場合、メッセージｍ_Ｅ→ｉが、全ての特徴点｛ｊ：（ｉ，ｊ）∈Ｅ｝からの集約の結果であって、Ｅ∈｛Ｅ_ｓｅｌｆ，Ｅ_{ｃｒｏｓｓ}｝であって、Ａ内の全てのｉに関する残りのメッセージパッシング更新は、以下であって、

式中、［・｜｜・］は、連結を示すことを含んでもよい。

コンピュータシステムはさらに、異なるパラメータを伴う、固定された数の層Ｌが、連鎖され、ｌ＝１から開始して、ｌが奇数である場合、Ｅ＝Ｅ_ｓｅｌｆであって、ｌが偶数である場合、Ｅ＝Ｅ_{ｃｒｏｓｓ}であるように、セルフおよびクロスエッジに沿って、交互に集約されることを含んでもよい。

コンピュータシステムはさらに、交互セルフおよびクロスアテンション層が、メッセージｍ_Ｅ→ｉを算出し、集約を実施する、アテンション機構を用いて算出され、セルフエッジが、セルフアテンションに基づき、クロスエッジが、クロスアテンションに基づき、ｉの表現に関して、クエリｑ_ｉが、その属性である、キーｋ_ｊに基づいて、いくつかの要素の値ｖ_ｊを読み出し、メッセージが、以下のように、値の加重平均として算出されることを含んでもよい。

コンピュータシステムはさらに、アテンションマスクα_ｉｊが、以下のように、キー・クエリ類似性にわたるソフトマックスであることを含んでもよい。

コンピュータシステムはさらに、個別のキー、クエリ、および値が、グラフニューラルネットワークの深層特徴の線形投影として算出され、クエリ特徴点ｉが、画像Ｑ内にあって、全てのソース特徴点が、画像Ｓ内にあって、以下の方程式では、（Ｑ，Ｓ）∈｛Ａ，Ｂ｝^２であることを含んでもよい。

コンピュータシステムはさらに、交互セルフおよびクロスアテンション層の最終マッチング記述子は、以下の線形投影であることを含んでもよい。

コンピュータシステムはさらに、最適マッチング層が、以下のように、セットに関する対毎スコアをマッチング記述子の類似性として表し、

式中、＜・，・＞は、内積であって、学習された視覚的記述子とは対照的に、マッチング記述子が、正規化されず、その大きさが、特徴あたりで変化し、訓練の間、予測信頼度を反映し得ることを含んでもよい。

コンピュータシステムはさらに、最適マッチング層が、オクルージョンおよび可視性のために、オクルードされる特徴点を抑制し、マッチングされない特徴点がダストビンスコアに明示的に割り当てられるように、特徴点の各セットをダストビンスコアで拡張することを含んでもよい。

コンピュータシステムはさらに、スコアＳが、以下のように、新しい行および列に、単一学習可能パラメータで充填される、点／ビンおよびビン／ビンスコアを付加することによって、Ｓ^－に拡張されることを含んでもよい。

コンピュータシステムはさらに、最適マッチング層が、Ｔ回の反復にわたって、シンクホーンアルゴリズムを使用して、Ｍ×Ｎスコア行列に基づいて、最適部分的割当を見出すことを含んでもよい。

コンピュータシステムはさらに、Ｔ回の反復後、最適マッチング層がダストビンスコアをドロップし、Ｐ＝Ｐ^－ _{１：Ｍ，１：Ｎ}を復元し、

が、オリジナル割当であって、

が、ダストビンスコア化される拡張を伴う割当であることを含んでもよい。

本発明はまた、深層ミドルエンドマッチャアーキテクチャのアテンショングラフニューラルネットワークの特徴点エンコーダを用いて、特徴点位置ｐおよびその視覚的記述子ｄを単一ベクトルの中にマッピングするステップと、深層ミドルエンドマッチャアーキテクチャのアテンショングラフニューラルネットワークの交互セルフおよびクロスアテンション層を用いて、ベクトルに基づいて、Ｌ回の繰り返される回数にわたって実行し、表現ｆを作成するステップと、深層ミドルエンドマッチャアーキテクチャのアテンショングラフニューラルネットワークの最適マッチング層を実行し、Ｍ×Ｎスコア行列を表現ｆから作成し、Ｍ×Ｎスコア行列に基づいて、最適部分的割当を見出すステップとを含み得る、コンピュータ実装方法を提供する。

本発明はさらに、付随の図面を参照して、一例として説明される。

図１は、深層ミドルエンドマッチャを用いた特徴マッチングを図示する、代表的スケッチである。

図２は、２つの難しい屋内画像対に関して深層ミドルエンドマッチャによって推定される、対応を示す。

図３は、深層ミドルエンドマッチャを公式化し、最適化問題を解決する方法を示す、代表的スケッチである。

図４は、マスクを光線として示す、画像である。

図５は、屋内および屋外姿勢推定を示す、グラフである。

図６は、定質的画像マッチングを示す。

図７は、種々の層およびヘッドにおけるセルフおよびクロスアテンションマスク内のアテンションを可視化するステップを示す。

図８は、拡張現実システムを示す。

詳細な説明
画像内の点間の対応を見出すことは、コンピュータビジョンタスクが、同時位置特定およびマッピング（ＳＬＡＭ）およびモーションからの構造解析（ＳｆＭ）等の３Ｄ再構築または視覚的位置特定に取り組むための不可欠なステップである。これらは、データ関連付けとして知られるプロセスである、局所的特徴をマッチングさせた後、３Ｄ構造およびカメラ姿勢をそのような対応から推定する。大視点変化、オクルージョン、ぼけ、およびテクスチャの欠如等の要因は、２Ｄ／２Ｄデータ関連付けを特に難しいものにする。

本説明では、我々は、特徴マッチング問題を考慮する新しい方法を提示する。より良好なタスク非依存型局所的特徴を学習後、単純マッチングヒューリスティックおよびトリックが続く代わりに、我々は、深層ミドルエンドマッチャ（ＤＭＥＭ）と呼ばれる新規ニューラルアーキテクチャを使用して、既存の局所的特徴からマッチングプロセスを学習することを提案する。典型的には、問題を視覚的特徴検出フロントエンドと、バンドル調整または姿勢推定バックエンドとに分けられる、ＳＬＡＭのコンテキストにおいて、我々のネットワークは、直接、中央にある、すなわち、深層ミドルエンドマッチャは、学習可能ミドルエンドである。図１は、深層ミドルエンドマッチャを用いた特徴マッチングを図示する。我々のアプローチは、難しい画像対間の点毎対応を確立する。これは、オフザシェルフ局所的特徴を入力としてとり、アテンショングラフニューラルネットワークを使用して、割当最適化問題を解決する。深層ミドルエンドマッチャは、ミドルエンドとして作用し、部分的点可視性およびオクルージョンを的確にハンドリングし、部分的割当行列を生産する。

本研究では、学習特徴マッチングは、２つの局所的特徴のセット間の部分的割当を見出すことと見なされる。我々は、最適輸送問題まで減じられると、弁別可能に解決され得る、線形割当問題を解決することによって、マッチングの古典的グラフベースの方略を再考する［下記の参考文献５０、９、３１参照］。本最適化のコスト関数は、グラフニューラルネットワーク（ＧＮＮ）によって予測される。トランスフォーマ［下記の参考文献４８参照］の成功に触発され、セルフ（画像内）およびクロス（画像間）アテンションを使用して、特徴点の空間関係およびその視覚的外観の両方が、活用される。本公式は、コストが、複雑な初期値を学習し、オクルージョンおよび再現不能特徴点を的確にハンドリングすることを有効にしながら、予測の割当構造を施行する。我々の方法は、画像から対応までエンドツーエンドで訓練される、すなわち、大規模な注釈が付けられたデータセットから姿勢推定のための初期値を学習し、深層ミドルエンドマッチャが、３Ｄ場面および割当について推測することを有効にする。我々の研究は、高品質特徴対応を要求する、種々の多視点幾何学形状問題に適用されることができる。

手作業マッチャおよび学習された正対応分類子の両方と比較して、深層ミドルエンドマッチャの優位性が、示される。図２は、２つの難しい屋内画像対に関する深層ミドルエンドマッチャによって推定される、対応を示す。深層ミドルエンドマッチャは、正確な姿勢を正常に推定する一方、他の学習または手作業方法は、失敗する（正しい対応は、緑色）。提案される方法は、深層フロントエンドである、ＳｕｐｅｒＰｏｉｎｔ［下記の参考文献１４参照］と組み合わせられるとき、最も実質的改良をもたらし、それによって、ホモグラフィ推定および屋内および屋外姿勢推定のタスクを最先端に進歩させ、深層ＳＬＡＭのための下準備をする。

２．関連研究

局所的特徴マッチングは、概して、ｉ）関心点を検出し、ｉｉ）視覚的記述子を算出し、ｉｉｉ）これらと最近傍（ＮＮ）検索をマッチングさせ、ｉｖ）正しくないマッチングをフィルタリングし、最後に、ｖ）幾何学的変換を推定することによって実施される。２０００年代に開発された古典的パイプラインは、多くの場合、ＳＩＦＴ［下記の参考文献２５参照］に基づき、Ｌｏｗｅの割合試験［下記の参考文献２５参照］、クロスチェック、および近傍コンセンサスのようなヒューリスティック［下記の参考文献４６、８、５、４０参照］を用いてマッチングをフィルタリングし、ＲＡＮＳＡＣ［下記の参考文献１７、３５参照］のようなロバストなソルバを用いて変換を見出す。

マッチングのための深層学習に関する最近の研究は、多くの場合、畳み込みニューラルネットワーク（ＣＮＮ）を使用して、より良好な疎検出器および局所的記述子［下記の参考文献１４、１５、２９、３７、５４参照］をデータから学習することに焦点を当てる。その弁別性を改良するために、いくつかの研究は、明示的に、領域特徴［下記の参考文献２６参照］またはログポーラパッチ［下記の参考文献１６参照］を使用して、より広いコンテキストに目を向けている。他のアプローチは、マッチングを正対応および誤対応に分類することによって、それらをフィルタリングすることを学習する［下記の参考文献２７、３６、６、５６参照］。これらは、依然として、ＮＮ検索によって推定される、マッチングのセットに作用し、したがって、割当構造を無視し、視覚的情報を破棄する。実際にマッチングするように学習する、研究は、これまで、稠密マッチング［下記の参考文献３８参照］または３Ｄ点群［下記の参考文献５２参照］に焦点を当てており、依然として、そのような限界を呈する。対照的に、我々の学習可能ミドルエンドは、同時に、コンテキスト集約、マッチング、およびフィルタリングを単一エンドツーエンドアーキテクチャ内で実施する。

グラフマッチング問題は、通常、二次割当問題として公式化され、これは、ＮＰ困難であって、高価で、複雑で、したがって、非実践的ソルバを要求する［下記の参考文献２４参照］。局所的特徴に関して、２０００年代のコンピュータビジョン文献［下記の参考文献４、２１、４５参照］は、多くのヒューリスティックを伴う、手作業コストを使用し、それを複雑かつ脆弱にする。Ｃａｅｔａｎｏｅｔａｌ．［下記の参考文献７参照］は、より単純な線形割当のための最適化のコストを学習するが、浅層モデルを使用する一方、我々の深層ミドルエンドマッチャは、ニューラルネットワークを使用して、フレキシブルなコストを学習する。グラフマッチングに関連するものは、効率的であるが、単純近似解を伴う、一般化された線形割当である、最適輸送の問題［下記の参考文献５０参照］、すなわち、シンクホーンアルゴリズム［下記の参考文献４３、９、３１参照］である。

点群等のセットのための深層学習は、要素を横断して情報を集約することによって、順列同変または不変関数を設計することを目的とする。いくつかの研究は、大域的プーリング［下記の参考文献５５、３２、１１参照］またはインスタンス正規化［下記の参考文献４７、２７、２６参照］を通して、それらの全てを等しく取り扱う一方、その他は、座標または特徴空間内の局所的近傍に焦点を当てる［下記の参考文献３３、５３参照］。アテンション［下記の参考文献４８、５１、４９、２０参照］は、具体的要素および属性に焦点を当てることによって、大域的およびデータ依存局所的集約の両方を実施することができ、したがって、よりフレキシブルである。我々の研究は、完全グラフ上でメッセージパッシンググラフニューラルネットワーク［下記の参考文献１８、３参照］の特定のインスタンスが認められ得るという事実を使用する。［下記の参考文献２２、５７参照］と同様に、アテンションをマルチエッジ、すなわち、多重グラフに適用することによって、深層ミドルエンドマッチャは、２つの局所的特徴のセットについての複雑な推測を学習することができる。

３．深層ミドルエンドマッチャアーキテクチャ

動機：画像マッチング問題では、世界のいくつかの規則性が、活用され得る。すなわち、３Ｄ世界は、主として、平滑であって、時として、平面であって、所与の画像対に関する全ての対応は、場面が静的である場合、単一エピポーラ変換から導出され、いくつかの姿勢は、その他より可能性が高い。加えて、２Ｄ特徴点は、通常、角またはブロブのような顕著な３Ｄ点の投影であって、したがって、画像を横断した対応は、ある物理的制約に準拠しなければならない。すなわち、ｉ）特徴点は、最大で単一対応を他の画像内に有することができ、ｉｉ）いくつかの特徴点は、オクルージョンおよび検出器の失敗に起因して、マッチングされないであろう。特徴マッチングのための効果的モデルは、同一３Ｄ点の再投影間の全ての対応を見出し、マッチングを有しない、特徴点を識別することを目的とすべきである。図３は、深層ミドルエンドマッチャを最適化問題を解決するステップとして公式化する方法を示し、そのコストは、深層ニューラルネットワークによって予測される。深層ミドルエンドマッチャは、２つの主要なコンポーネント、すなわち、アテンショングラフニューラルネットワーク（セクション３ａ）と、最適マッチング層（セクション３ｂ）とを含む。第１のコンポーネントは、特徴点位置ｐおよびその視覚的記述子ｄを単一ベクトルの中にマッピングするための特徴点エンコーダを使用し、次いで、交互セルフおよびクロスアテンション層（Ｌ回繰り返される）を使用して、より有効な表現ｆを作成する。最適マッチング層は、Ｍ×Ｎスコア行列を作成し、それをダストビンで拡張し、次いで、シンクホーンアルゴリズムを使用して（Ｔ回の反復にわたって）、最適部分的割当を見出す。これは、特定分野の専門知識およびヒューリスティックの必要性を軽減する、すなわち、関連初期値を直接データから学習する。

公式：それぞれ、特徴点位置ｐと関連付けられる視覚的記述子ｄのセットを伴う、２つの画像ＡおよびＢを検討する。我々は、それら（ｐ，ｄ）をともに局所的特徴と称する。特徴点は、ｘおよびｙ画像座標および検出信頼度ｃ、すなわち、ｐ_ｉ：＝（ｘ，ｙ，ｃ）_ｉから成る。視覚的記述子ｄ_ｉ∈Ｒ^Ｄは、ＳｕｐｅｒＰｏｉｎｔのようなＣＮＮまたはＳＩＦＴのような従来的記述子によって抽出されたものであることができる。画像ＡおよびＢは、ＭおよびＮ個の局所的特徴を有し、その特徴点インデックスのセットは、それぞれ、Ａ：＝｛１，．．．，Ｍ｝およびＢ：＝｛１，．．．，Ｎ｝である。

部分的割当：制約ｉ）およびｉｉ）は、対応が２つの特徴点のセット間の部分的割当から導出されることを意味する。下流タスクの中への統合およびより良好な解釈可能性のために、各可能性として考えられる対応は、ある信頼度値を有するべきである。その結果、以下のように、部分的ソフト割当行列Ｐ∈［０，１］^Ｍ×Ｎを定義する。

我々の目標は、以下、すなわち、割当Ｐを２つの局所的特徴のセットから予測する、ニューラルネットワークを設計することである。

３．１．アテンショングラフニューラルネットワーク

深層ミドルエンドマッチャの第１の主要なブロック（セクション３ａ参照）は、アテンショングラフニューラルネットワークであって、その仕事は、以下、すなわち、所与の初期局所的特徴が、特徴を相互に連絡させることによって、マッチング記述子である、ｆ_ｉ∈Ｒ^Ｄを算出することである。長距離特徴連絡は、ロバストなマッチングのために不可欠であって、画像内から、および画像対を横断した、情報の集約を要求する。

直感的に、所与の特徴点についての明確に異なる情報は、その視覚的外観およびその場所だけではなく、また、他の同時に可視特徴点、例えば、近傍のまたは顕著なものに対するその空間および視覚的関係にも依存する。他方では、第２の画像内の特徴点の知識は、候補マッチングを比較する、または相対的測光または幾何学的変換を大域的および曖昧性のない手掛かりから推定することによって、曖昧性を解決することに役立ち得る。

所与の曖昧な特徴点をマッチングさせるように求められると、ヒトは、両方の画像を何度も見比べる。すなわち、暫定マッチング特徴点を選別し、それらのそれぞれを吟味し、真のマッチングを他の自己相似から明確にすることに役立つ、コンテキスト手掛かりを探す。これは、そのアテンションを具体的場所に当て得る、反復プロセスを示唆する。

特徴点エンコーダ：特徴点ｉ毎の初期表現

は、視覚的外観と場所を組み合わせる。以下のように、特徴点位置を高次元ベクトルの中に多層パーセプトロン（ＭＬＰ）とともに埋め込む。

エンコーダは、ネットワークが、外観および位置の両方についてともに推測することを可能にし（アテンション機構を用いることで、特に、効果を発揮する）、トランスフォーマ［下記の参考文献４８参照］に導入される、「位置エンコーダ」のインスタンスである。

多重グラフニューラルネットワーク：そのノードが両方の画像の特徴点である、単一完全グラフを検討する。グラフは、２つのタイプの非指向性エッジを有する、すなわち、多重グラフである。画像内エッジ、すなわち、セルフエッジＥ_ｓｅｌｆは、特徴点ｉを同一画像内の全ての他の特徴点に接続する。画像間エッジ、すなわち、クロスエッジＥ_{ｃｒｏｓｓ}は、特徴点ｉを他の画像内の全ての特徴点に接続する。メッセージパッシング公式［下記の参考文献１８、３参照］を使用して、両方のタイプのエッジに沿って、情報を伝搬する。結果として生じる多重グラフニューラルネットワークは、ノード毎に、高次元状態から開始し、全てのノードのために全ての所与のエッジを横断してメッセージを同時に集約することによって、各層において、更新された表現を算出する。

を層ｌにおける画像Ａ内の要素ｉに関する中間表現とする。メッセージｍ_Ｅ→ｉは、全ての特徴点｛ｊ：（ｉ，ｊ）∈Ｅ｝からの集約の結果であって、Ｅ∈｛Ｅ_ｓｅｌｆ，Ｅ_{ｃｒｏｓｓ}｝である。Ａ内の全てのｉに関する残りのメッセージパッシング更新は、以下であって、

式中、［・｜｜・］は、連結を示す。同様の更新が、同時に、画像Ｂ内の全ての特徴点のために実施されることができる。異なるパラメータを伴う、固定された数の層Ｌが、連鎖され、セルフおよびクロスエッジに沿って、交互に集約される。したがって、ｌ＝１から開始して、ｌが奇数である場合、Ｅ＝Ｅ_ｓｅｌｆであって、ｌが偶数である場合、Ｅ＝Ｅ_{ｃｒｏｓｓ}である。

アテンション集約：アテンション機構が、メッセージｍ_Ｅ→ｉを算出し、集約を実施する。セルフエッジは、セルフアテンション［下記の参考文献４８参照］に基づき、クロスエッジは、クロスアテンションに基づく。データベース読出と同様に、ｉの表現に関して、クエリｑ_ｉは、その属性である、キーｋ_ｊに基づいて、いくつかの要素の値ｖ_ｊを読み出す。以下のように、メッセージを値の加重平均として算出する。

式中、アテンションマスクα_ｉｊは、以下のように、キー・クエリ類似性にわたるソフトマックスである。

キー、クエリ、および値は、グラフニューラルネットワークの深層特徴の線形投影として算出される。クエリ特徴点ｉが、画像Ｑ内にあって、全てのソース特徴点が、画像Ｓ内にあって、（Ｑ，Ｓ）∈｛Ａ、Ｂ｝^２とすると、以下のように記述され得る。

各層ｌは、その独自の投影パラメータを有し、それらは、両方の画像の全ての特徴点に関して共有される。実践では、マルチヘッドアテンションを用いて、表現性を改良する［下記の参考文献４８参照］。

我々の公式は、ネットワークが具体的属性に基づいて、特徴点のサブセットに焦点を当てるように学習し得るため、最大フレキシビリティを提供する。図４では、マスクαｉｊが、光線として示される。アテンション集約が、特徴点間の動的グラフを構築する。セルフアテンション（上）は、同一画像内の任意の場所、例えば、明確に異なる場所に注意を向けることができ、したがって、近隣の場所に制限されない。クロスアテンション（下）は、類似局所的外観を有する、潜在的マッチング等の他の画像内の場所に注意を向ける。深層ミドルエンドマッチャは、外観および特徴点場所の両方が表現ｘ_ｉ内にエンコーディングされるため、それらに基づいて、読み出す、または注意を向けることができる。これは、近隣の特徴点に注意を向け、類似または顕著な特徴点の相対的位置を読み出すステップを含む。これは、幾何学的変換および割当の表現を有効にする。最終マッチング記述子は、以下のような線形投影であって、

Ｂ内の特徴点に関しても同様である。

３．２．最適マッチング層

深層ミドルエンドマッチャの第２の主要なブロック（セクション３ｂ参照）は、最適マッチング層であって、これは、部分的割当行列を生産する。標準的グラフマッチング公式におけるように、割当Ｐは、あらゆる可能性として考えられるマッチングに関するスコア行列Ｓ∈Ｒ^Ｍ×Ｎを算出し、方程式１における制約下で、総スコア

を最大限にすることによって取得されることができる。これは、線形割当問題を解決することに匹敵する。

スコア予測：全ての（Ｍ＋１）×（Ｎ＋１）潜在的マッチングのための別個の表現を構築することは、法外となるであろう。代わりに、以下のように、対毎スコアをマッチング記述子の類似性として表す。

式中、＜・，・＞は、内積である。学習された視覚的記述子とは対照的に、マッチング記述子は、正規化されず、その大きさは、特徴あたりで変化し、訓練の間、予測信頼度を反映し得る。

オクルージョンおよび可視性：ネットワークにオクルードされる特徴点を抑制させるために、各セットを、ダストビンで、マッチングされない特徴点がそれに明示的に割り当てられるように拡張する。本技法は、グラフマッチングにおいて一般的であって、ダストビンはまた、検出され得ない画像セルを考慮するために、ＳｕｐｅｒＰｏｉｎｔ［下記の参考文献１４参照］によっても使用されている。以下のように、新しい行および列に、単一学習可能パラメータで充填される点／ビンおよびビン／ビンスコアを付加することによって、スコアＳをＳ^－に拡張する。

Ａ内の特徴点は、Ｂ内の単一特徴点またはダストビンに割り当てられるであろうが、各ダストビンは、それぞれ、他のセット内に存在する特徴点、すなわち、Ａ、Ｂ内のダストビンに関するＮ、Ｍと同程度のマッチングを有する。

として、ＡおよびＢ内の特徴点およびダストビン毎に予期されるマッチングの数を示す。拡張割当Ｐ^－は、ここでは、以下の制約を有する。

シンクホーンアルゴリズム：上記の最適化問題の解は、スコアＳ^－を伴う、離散分布ａとｂとの間の最適輸送［下記の参考文献３１参照］に対応する。これは、二部マッチングのために古典的に使用される、ハンガリアンアルゴリズム［下記の参考文献２８参照］の弁別可能バージョンである、シンクホーンアルゴリズム［下記の参考文献４３、９参照］を用いて近似的に解決されることができる。これは、正則化された輸送問題を解決し、必然的に、ソフト割当をもたらす。本正規化は、行および列に沿って、交互ソフトマックスを反復的に実施することに相当し、したがって、ＧＰＵ上で容易に並列化される。Ｔ回の反復後、ダストビンをドロップし、Ｐ＝Ｐ^－ _{１：Ｍ，１：Ｎ}を復元する。

３．３．損失

設計上、グラフニューラルネットワークおよび最適マッチング層は両方とも、弁別可能である、すなわち、これは、マッチングから視覚的記述子への逆伝搬を有効にする。深層ミドルエンドマッチャは、教師あり様式において、グラウンドトゥルースマッチング

から訓練される。これらは、グラウンドトゥルース相対的変換から、すなわち、姿勢および深度マップまたはホモグラフィを使用して、推定される。これはまた、いくつかの特徴点

を、それらがその近傍内に任意の再投影を有していない場合、マッチングされないものとして標識させる。標識を前提として、割当Ｐ^－の負の対数尤度を最小限にする。

本教師は、同時に、マッチングの精度および再現率を最大限にすることを目的とする。

３．４．関連研究との比較

深層ミドルエンドマッチャ対正対応分類子［下記の参考文献２７、５６参照］：深層ミドルエンドマッチャは、画像および局所的特徴の両方に対して全体的に順列同変であることによって、強誘導バイアスから利点を享受する。これは、加えて、一般に使用される相互チェック制約を直接訓練の中に埋め込む。すなわち、０．５を上回る確率Ｐ_ｉ，ｊを伴う任意のマッチングは、必然的に、相互に一貫する。

深層ミドルエンドマッチャ対インスタンス正規化［下記の参考文献４７参照］：深層ミドルエンドマッチャによって使用されるようなアテンションは、全ての特徴点を等しく取り扱い、特徴マッチングに関する以前の研究によって使用される、インスタンス正規化［下記の参考文献２７、５６、２６参照］よりフレキシブルかつ有効なコンテキスト集約機構である。

深層ミドルエンドマッチャ対ＣｏｎｔｅｘｔＤｅｓｃ［下記の参考文献２６参照］：深層ミドルエンドマッチャは、外観および位置についてともに推測することができる一方、ＣｏｎｔｅｘｔＤｅｓｃは、それら別個に処理する。加えて、ＣｏｎｔｅｘｔＤｅｓｃは、加えて、より大きい領域抽出器および特徴点スコア化のための損失を要求する、フロントエンドである。深層ミドルエンドマッチャは、学習または手作業される局所的特徴のみを必要とし、したがって、既存のマッチャの単純ドロップイン置換となることができる。

深層ミドルエンドマッチャ対トランスフォーマ［下記の参考文献４８参照］：深層ミドルエンドマッチャは、トランスフォーマからのセルフアテンションを借用するが、それをグラフニューラルネットワークの中に埋め込み、加えて、クロスアテンションを導入し、これは、対称である。これは、アーキテクチャを簡略化し、層を横断してより良好な特徴再使用もたらす。

４．実装詳細

深層ミドルエンドマッチャは、任意の局所的特徴検出器および記述子と組み合わせられることができるが、特に、再現可能かつ疎特徴点を生産する、ＳｕｐｅｒＰｏｉｎｔ［下記の参考文献１４参照］と良好に作用し、すなわち、非常に効率的マッチングを有効にする。視覚的記述子は、準稠密特徴マップから双線形にサンプリングされ、これは、弁別可能である。局所的特徴抽出および後続「貼合」は両方とも、直接、ＧＰＵ上で実施される。試験時、マッチングをソフト割当から抽出するために、信頼度閾値を使用して、一部を留保する、または単に、加重された姿勢推定等の後続ステップにおいて、それらの全ておよびその信頼度を使用することができる。

アーキテクチャ詳細：全ての中間表現（キー、クエリ値、記述子）は、ＳｕｐｅｒＰｏｉｎｔ記述子と同一寸法Ｄ＝２５６を有する。それぞれ、４つのヘッドを伴う、Ｌ＝９層の交互マルチヘッドセルフおよびクロスアテンションを使用して、数値安定性のために、対数空間において、Ｔ＝１００回のシンクホーン反復を実施する。モデルは、ＰｙＴｏｒｃｈ［下記の参考文献３０参照］内に実装され、リアルタイムでＧＰＵ上で起動される。フォワードパスは、平均して、１５０ｍｓ（７ＦＰＳ）かかる。

訓練詳細：データ拡張を可能にするために、ＳｕｐｅｒＰｏｉｎｔ検出および記述ステップが、訓練の間、バッチとして、オンザフライで実施される。いくつかのランダム特徴点がさらに、効率的バッチ化および増加されたロバスト性のために追加される。さらなる詳細は、付属Ａ内に提供される。

５．実験

５．１．ホモグラフィ推定

ロバスト（ＲＡＮＳＡＣ）および非ロバスト（ＤＬＴ）な推定器の両方を用いて、実画像および合成ホモグラフィを使用して、大規模ホモグラフィ推定実験を実施する。

データセット：［下記の参考文献１２、１４、３７、３６参照］に類似するレシピに従って、ランダムホモグラフィをサンプリングし、ランダム測光歪曲を実画像に適用することによって、画像対を生成する。基礎画像は、ＯｘｆｏｒｄａｎｄＰａｒｉｓデータセット［下記の参考文献３４参照］内の１００万枚の妨害画像のセットに由来し、訓練、検証、および試験セットに分割される。

ベースライン：深層ミドルエンドマッチャを、ＳｕｐｅｒＰｏｉｎｔ局所的特徴に適用される、いくつかのマッチャ、すなわち、最近傍（ＮＮ）マッチャおよび種々の誤対応リジェクタ、すなわち、相互チェック（またはクロスチェック）、ＰｏｉｎｔＣＮ［下記の参考文献２７参照］、および順序を意識したネットワーク（ＯＡＮｅｔ）［下記の参考文献５６参照］に対して比較する。深層ミドルエンドマッチャを含む、全ての学習される方法は、特徴点を１つの画像から他の画像に投影することによって見出される、グラウンドトゥルース対応上で訓練される。ホモグラフィおよび測光歪曲をオンザフライで生成する、すなわち、画像対は、訓練の間、２回見られることはない。

メトリック：マッチング精度（Ｐ）および再現率（Ｒ）が、グラウンドトゥルース対応から算出される。ホモグラフィ推定が、ＲＡＮＳＡＣと、直接最小二乗解を有する、直接線形変換［下記の参考文献１９参照］（ＤＬＴ）の両方を用いて実施される。画像の４つの角の平均再投影誤差を算出し、最大１０ピクセルの値の累積誤差曲線下面積（ＡＵＣ）を報告する。

結果：深層ミドルエンドマッチャは、ホモグラフィをマスタするために十分に表現的であって、９８％再現率および高精度を達成する。表１は、深層ミドルエンドマッチャ、ＤＬＴ、およびＲＡＮＳＡＣに関するホモグラフィ推定を示す。深層ミドルエンドマッチャは、大部分の誤対応を抑制しながら、ほぼ全ての可能性として考えられるマッチングを復元する。深層ミドルエンドマッチャ対応は、高品質であるため、ロバスト性機構を伴わない、最小二乗ベースの解である、直接線形変換（ＤＬＴ）は、ＲＡＮＳＡＣより優れている。推定される対応は、ロバストな推定器が要求されないほど良好である、すなわち、深層ミドルエンドマッチャは、ＲＡＮＳＡＣよりＤＬＴとさらにより良好に作用する。ＰｏｉｎｔＣＮおよびＯＡＮｅｔのような誤対応排除方法は、ＮＮマッチャ自体より正しいマッチングを予測することができず、初期記述子に過度に依拠する。

５．２．屋内姿勢推定

屋内画像マッチングは、テクスチャの欠如、多数の自己相似、複雑な３Ｄの幾何学形状場面、および大視点変化に起因して、非常に難しい。以下に示されるように、深層ミドルエンドマッチャは、初期値を効果的に学習し、これらの課題を克服することができる。

データセット：グラウンドトゥルース姿勢および深度画像を伴う、単眼シーケンスから成る、大規模屋内データセットである、ＳｃａｎＮｅｔ［下記の参考文献１０参照］、および異なる場面に対応する、明確に定義された訓練、検証、および試験分割を使用する。過去の研究は、通常、ＳＩＦＴを使用して算出される、時間差［下記の参考文献２９、１３参照］またはＳｆＭ同時可視性［下記の参考文献２７、５６、６参照］に基づいて、訓練および評価対を選択する。我々は、これが対の難度を限定すると異議を唱え、代わりに、グラウンドトゥルース姿勢および深度のみを使用して、所与のシーケンス内であらゆる可能性として考えられる画像対に関して算出された重複スコアに基づいて、これらを選択する。これは、より有意に広範なベースライン対をもたらし、これは、実世界屋内画像マッチングに関する現在の最先端領域に対応する。小さすぎるまたは大きすぎる重複を伴う対を破棄することで、２億３千万枚の訓練対を取得し、１，５００試験対をサンプリングする。さらなる詳細は、付属Ａ内に提供される。

メトリック：以前の研究［下記の参考文献２７、５６、６参照］におけるように、閾値（５・，１０・，２０・）における姿勢誤差のＡＵＣを報告し、姿勢誤差は、回転および平行移動における角度誤差の最大値である。相対的姿勢は、ＲＡＮＳＡＣを用いて、基本行列推定から取得される。また、マッチング精度およびマッチングスコア［下記の参考文献１４、５４参照］も報告し、マッチングは、そのエピポーラ距離に基づいて、正しいと見なされる。

ベースライン：平方根正規化ＳＩＦＴ［下記の参考文献２５、２参照］およびＳｕｐｅｒＰｏｉｎｔ［下記の参考文献１４参照］特徴の両方を使用して、深層ミドルエンドマッチャおよび種々のベースラインマッチャを評価する。深層ミドルエンドマッチャは、グラウンドトゥルース姿勢および深度から導出される、対応およびマッチングされない特徴点で訓練される。全てのベースラインは、最近傍（ＮＮ）マッチャおよび潜在的誤対応排除方法に基づく。「手作業」カテゴリでは、単純クロスチェック（相互）、比検定［下記の参考文献２５参照］、記述子距離閾値、およびより複雑なＧＭＳ［下記の参考文献５参照］を検討する。「学習」カテゴリにおける方法は、ＰｏｉｎｔＣＮ［下記の参考文献２７参照］およびそのフォローアップＯＡＮｅｔ［下記の参考文献５６参照］およびＮＧ－ＲＡＮＳＡＣ［下記の参考文献６参照］である。上記に定義された正確性基準およびその個別の回帰損失を使用して、ＳｕｐｅｒＰｏｉｎｔおよびＳＩＦＴの両方のために、ＰｏｉｎｔＣＮおよびＯＡＮｅｔをＳｃａｎＮｅｔ上で分類損失を用いて再訓練する。ＮＧ－ＲＡＮＳＡＣに関しては、オリジナルの訓練されたモデルを使用する。それらが、検討する特徴点の数にとって数桁も減速させるような任意のグラフマッチング方法は、含まない。参考として、公的に入手可能な訓練されたモデルを使用する、他の局所的特徴、すなわち、ＧＭＳを伴うＯＲＢ［下記の参考文献３９参照］、Ｄ２－Ｎｅｔ［下記の参考文献１５参照］、およびＣｏｎｔｅｘｔＤｅｓｃ［下記の参考文献２６参照］も報告される。

結果：深層ミドルエンドマッチャは、手作業および学習されたマッチャの両方と比較して、より有意に高い姿勢正確度を有効にする。表２は、ＳｃａｎＮｅｔ上での広ベースライン屋内姿勢推定を示す。姿勢誤差のＡＵＣ、マッチングスコア（ＭＳ）、および精度（Ｐ）が全て、姿勢推定ＡＵＣパーセントにおいて報告される。深層ミドルエンドマッチャは、ＳＩＦＴおよびＳｕｐｅｒＰｏｉｎｔの両方に適用されるとき、全ての手作業および学習されたマッチャより優れている。これらの利点は、ＳＩＦＴおよびＳｕｐｅｒＰｏｉｎｔの両方に適用されるとき、実質的である。図５は、屋内および屋外姿勢推定を示す。深層ミドルエンドマッチャは、最先端誤対応排除ニューラルネットワークである、ＯＡＮｅｔより姿勢正確度を有意に改良する。これは、他の学習されたマッチャより有意に高い精度を有し、そのより高い表現力を実証する。これはまた、最近傍の限定されたセットではなく、可能性として考えられるマッチングの完全セットに作用するため、ＳＩＦＴに適用されるとき、比検定の最大１０倍のより多数の正しいマッチングを生産する。ＳｕｐｅｒＰｏｉｎｔおよび深層ミドルエンドマッチャはともに、最先端の結果を屋内姿勢推定において達成する。それらは、再現可能特徴点が、非常に難しい状況（図２参照）においてさえ、より多数の正しいマッチングを推定することを可能にするため、相互に良好に補完する。

図６は、定質的画像マッチングを示す。深層ミドルエンドマッチャと、３つの環境において手作業および学習された２つの誤対応リジェクタを伴う、最近傍（ＮＮ）マッチャを比較する。深層ミドルエンドマッチャは、一貫して、より正しいマッチング（緑色線）およびより少ない誤マッチング（赤色線）を推定し、繰り返されるテクスチャ、大視点、および照明変化に対抗する。

５．３．屋外姿勢推定

屋外画像シーケンスは、その独自の課題のセット（例えば、照明変化およびオクルージョン）を提示するため、屋外設定における姿勢推定のために深層ミドルエンドマッチャを訓練および評価する。屋内姿勢推定タスクにおけるものと同一評価メトリックおよびベースライン方法を使用する。

データセット：ＣＶＰＲ’１９画像マッチング課題［下記の参考文献１参照］の一部である、ＰｈｏｔｏＴｏｕｒｉｓｍデータセット上で評価する。これは、ＹＦＣＣ１００Ｍデータセット［下記の参考文献４４参照］のサブセットであって、オフザシェルフＳｆＭツール［下記の参考文献２９、４１、４２参照］から取得されるグラウンドトゥルース姿勢および疎３Ｄモデルを有する。訓練のために、マルチビューステレオを用いて算出されたクリーン深度マップもまた有する、ＭｅｇａＤｅｐｔｈデータセット［下記の参考文献２３参照］を使用する。ＰｈｏｔｏＴｏｕｒｉｓｍ試験セット内にある、場面は、訓練セットから除去される。

結果：表３は、ＰｈｏｔｏＴｏｕｒｉｓｍデータセット上での屋外姿勢推定を示す。深層ミドルエンドマッチャを用いて、ＳｕｐｅｒＰｏｉｎｔおよびＳＩＦＴ特徴をマッチングさせることは、手作業または他の学習された方法より有意に高い姿勢正確度（ＡＵＣ）、精度（Ｐ）、およびマッチングスコア（ＭＳ）をもたらす。深層ミドルエンドマッチャは、ＳｕｐｅｒＰｏｉｎｔおよびＳＩＦＴの両方に適用されるとき、全ての相対的姿勢閾値において、全てのベースラインより優れている。最も着目すべきこととして、結果として生じるマッチングの精度は、非常に高く（８４．９％）、深層ミドルエンドマッチャが局所的特徴をともに「貼合」せることになる、類似点を強化する。

５．４．深層ミドルエンドマッチャの理解

アブレーション研究：我々の設計決定を評価するために、屋内ＳｃａｎＮｅｔ実験を繰り返すが、今度は、異なる深層ミドルエンドマッチャバリアントに焦点を当てる。表４は、ＳｕｐｅｒＰｏｉｎｔ局所的特徴を用いた、ＳｃａｎＮｅｔ上の深層ミドルエンドマッチャのアブレーションを示す。全ての深層ミドルエンドマッチャブロックは、有用であって、かつ実質的性能利得をもたらす。完全モデルに対する差異が、示される。最適マッチング層のみでも、ベースライン最近傍マッチャに優って改良されているが、ＧＮＮは、深層ミドルエンドマッチャによってもたらされる利得の大部分を説明する。クロスアテンションおよび位置エンコーディングは両方とも、有効な貼合のために重要であって、およびより深いネットワークは、精度をさらに改良する。

アテンションの可視化：提案される技法の理解は、マッチング全体を通した深層ミドルエンドマッチャのアテンションパターンを可視化することを試みることなく完全とはならないであろう。セルフおよびクロスアテンションパターンの広範な多様性は、図７に示され、学習された挙動の複雑性を反映させる。図７は、アテンション、すなわち、種々の層およびヘッドにおけるセルフおよびクロスアテンションマスクαｉｊの可視化を示す。深層ミドルエンドマッチャは、パターンの多様性を学習し、大域的または局所的コンテキスト、自己相似、明確に異なる特徴、およびマッチング候補に焦点を当てることができる。

６．結論

本開示では、局所的特徴マッチングのための、ＮＬＰにおけるトランスフォーマの成功によって触発されたアテンショングラフニューラルネットワークである、「深層ミドルエンドマッチャ」と称されるものを説明した。我々は、３Ｄ再構築パイプラインのデータ関連付けコンポーネントが、適正な注目を研究コミュニティから受けておらず、有効な学習ベースのミドルエンドが、我々のソリューションであると考える。深層ミドルエンドマッチャは、局所的特徴の受信フィールドを高め、その対応が欠測している特徴を重要視せず、ＣｏｎｔｅｘｔＤｅｓｃおよび正対応分類の両方の役割を効果的に実施する。重要なこととして、深層ミドルエンドマッチャの内部構造は、実世界データから全体的に学習される。２Ｄ／２Ｄ特徴マッチングにおける我々の結果は、既存の最先端に優る有意な改良を示す。

本明細書における我々の説明は、手動で設計されるヒューリスティックの代替としての現代の深層学習ベースとしての特徴マッチングパイプライン内の学習可能ミドルエンドの使用の十分な論証である。我々の将来的研究の一部は、完全３Ｄ再構築パイプラインの内側の深層ミドルエンドマッチャを評価することに焦点を当てるであろう。

本発明の種々の例示的実施形態が、本明細書に説明される。これらの実施例は、非限定的な意味で参照される。それらは、本発明のさらに広く適用可能な側面を例証するために提供される。種々の変更が、説明される本発明に成され得、均等物が、本発明の真の精神および範囲から逸脱することなく代用され得る。加えて、多くの修正が、特定の状況、材料、物質の組成、プロセス、プロセス行為、またはステップを、本発明の目的、精神、または範囲に適合させるように成され得る。さらに、当業者によって理解されるであろうように、本明細書に説明および図示される個々の変形例はそれぞれ、本発明の範囲または精神から逸脱することなく、他のいくつかの実施形態のいずれかの特徴から容易に分離される、またはそれと組み合わせられ得る、離散コンポーネントおよび特徴を有する。そのような修正は全て、本開示と関連付けられる請求項の範囲内であることが意図される。

本発明は、主題デバイスを使用して実施され得る方法を含む。本方法は、そのような好適なデバイスを提供する行為を含み得る。そのような提供は、エンドユーザによって実施され得る。換言すると、「提供する」行為は、単に、エンドユーザに、主題方法において必要なデバイスを提供するために取得する、アクセスする、アプローチする、位置付ける、設定する、アクティブ化する、起動する、または別様に行動することを要求する。本明細書に列挙される方法は、論理的に可能性として考えられる、列挙された事象の任意の順序で、かつ事象の列挙された順序で行われ得る。

本発明の例示的側面が、材料の選択および製造に関する詳細とともに、上記に述べられている。本発明の他の詳細に関して、これらは、上記に言及される特許および公開文書に関連して理解され、および、概して、当業者によって把握される、または理解され得る。同じことが、一般的または理論的に採用されるものとしての付加的な行為の観点から、本発明の方法ベースの側面に関して当てはまり得る。

加えて、本発明は、随意に種々の特徴を組み込むいくつかの実施例を参照して説明されているが、本発明は、本発明の各変形例に対して考えられるものとして説明される、または示されるものに限定されるべきではない。説明される、本発明に成され得る種々の変更および均等物は（本明細書に列挙されている、またはある簡潔性のために含まれていないかどうかにかかわらず）、本発明の真の精神および範囲から逸脱することなく代用され得る。加えて、ある範囲の値が、提供される場合、その範囲の上限および下限と、その記載される範囲における、任意の他の記載される、または介在する値との間の各介在値が、本発明の範囲内に包含されることを理解されたい。

また、説明される本発明の変形例の任意の随意の特徴が、独立して、または本明細書に説明される特徴のうちの任意の１つまたはそれを上回るものと組み合わせられて記載される、または請求され得ることを想定されたい。単一の物体の言及は、複数の存在する同一の物品がある可能性を含む。より具体的には、本明細書および本明細書に関連付けられる請求項において使用されるように、単数形「ａ」、「ａｎ」、「ｓａｉｄ」、および「ｔｈｅ」は、別様に具体的に記載されない限り、複数の支持物を含む。換言すると、冠詞の使用は、上記の説明および本開示と関連付けられる請求項において、主題物品の「少なくとも１つ」のものを可能にする。さらに、そのような請求項が、任意の随意の要素を除外するために起草され得ることに留意されたい。したがって、本叙述は、請求項要素の列挙に関連して、「単独で」、「のみ」、および同等物のようなそのような排他的用語の使用、または「否定的な」制限の使用のための前項としての役割を果たすことを意図する。

そのような排他的用語の使用を伴わず、本開示と関連付けられる、請求項における用語「ｃｏｍｐｒｉｓｉｎｇ（～を備える）」は、所与の数の要素がそのような請求項内で枚挙されているかどうかに関係なく、任意の付加的要素の含有を可能にするものとする、または特徴の追加は、そのような請求項に記載される要素の性質を変換するものとして見なされ得る。本明細書に具体的に定義されている場合を除いて、本明細書に使用される技術的および科学的用語は全て、請求項の正当性を維持しながら、可能な限り広義の、一般的に理解される意味を与えられるべきである。

本発明の範疇は、提供される実施例および／または主題明細書に限定されるべきではなく、むしろ、本開示と関連付けられる請求項文言の範囲のみによって限定されるべきである。

７．付属Ａ－さらなる実験詳細

ホモグラフィ推定：

試験セットは、１，０２４対の６４０×４８０画像を含有する。ホモグラフィが、境界線アーチファクトを回避するために、ランダム視点、スケーリング、回転、および平行移動をオリジナル完全サイズ画像に適用することによって生成される。４ピクセルの非最大値抑制（ＮＭＳ）半径を伴うＳｕｐｅｒＰｏｉｎｔによって検出された５１２枚の上位スコア化特徴点を評価する。対応は、それらが３ピクセルより低い再投影誤差を有する場合、正しいと見なされる。ホモグラフィをＲＡＮＳＡＣを用いて推定するとき、３，０００回の反復および３ピクセルの正対応閾値とともに、ｏｐｅｎｃｖ関数ｆｉｎｄＨｏｍｏｇｒａｐｈｙを使用する。

屋内姿勢推定：

２つの画像ＡとＢとの間の重複スコアは、（相対的誤差を使用して、深度内の一貫性をチェックすることによって）欠測深度値およびオクルージョンを考慮後のＢ内で可視のＡ内のピクセルの平均比（その逆も同様である）である。０．４～０．８の重複範囲を用いて、訓練および評価する。訓練のために、［１５］におけるものと同様に、各基準時点において、場面あたり２００対をサンプリングする。試験セットは、シーケンスを１５ずつサブサンプリングし、続いて、３００シーケンス毎に、１５対をサンプリングすることによって生成される。全てのＳｃａｎＮｅｔ画像および深度マップをＶＧＡ６４０×４８０にサイズ変更する。最大１，０２４個のＳｕｐｅｒＰｏｉｎｔ特徴点（４のＮＭＳ半径を伴う、公的に入手可能な訓練されたモデルを使用して）および２，０４８個のＳＩＦＴ特徴点（ＯｐｅｎＣｖの実装を使用して）を検出する。精度およびマッチングスコアを算出するとき、５．１０ｅ－４のエピポーラ閾値を使用する。姿勢は、最初に、平均焦点距離によって除算される１ピクセルの正対応閾値を伴う、ＯｐｅｎＣｖのｆｉｎｄＥｓｓｅｎｔｉａｌＭａｔおよびＲＡＮＳＡＣ、続いて、ｒｅｃｏｖｅｒＰｏｓｅを用いて、基本行列を推定することによって算出される分割される。以前の研究［２８、５９、６］とは対照的に、大まかなヒストグラムではなく、明示的積分を使用して、より正確なＡＵＣを算出する。

屋外姿勢推定：

Ｍｅｇａｄｅｐｔｈ上での訓練に関して、重複スコアは、［１５］におけるように、２つの画像内で可視の三角測量された特徴点の比率である。各基準時点において、［０．１，０．７］内に重複スコアを伴う対をサンプリングする。ＰｈｏｔｏＴｏｕｒｉｓｍデータセット上での評価に関して、［０．１，０．４］の選択範囲を伴って、全１１場面およびＯｎｏ［３０］によって算出された重複スコアを使用する。画像は、その最長エッジが１，６００ピクセルより小さくなるようにサイズ変更される。ＳＩＦＴおよびＳｕｐｅｒＰｏｉｎｔの両方に関して、２，０４８個の特徴点を検出する（３のＮＭＳ半径を伴う）。他の評価パラメータは、屋内評価で使用されるものと同じである。

深層ミドルエンドマッチャの訓練：

ホモグラフィ／屋内／屋外データ上で訓練するために、最初の２0万／10万／５万回の反復回数にわたって、１０ｅ－４の初期一定学習レートを伴い、その後、９0万回の反復回数まで、０．９９９９９８／０．９９９９９２／０．９９９９９２の指数関数的減衰が続く、Ａｄａｍオプティマイザを使用する。ＳｕｐｅｒＰｏｉｎｔ特徴を使用するとき、３２／６４／１６枚の画像対および画像あたり５１２／４００／１，０２４個の固定された数の特徴点を伴う、バッチを採用する。ＳＩＦＴ特徴を使用するとき、１，０２４個の特徴点および２４対を使用する。限定された数の訓練場面のため、屋外モデルは、ホモグラフィモデルで初期化される。特徴点エンコーディングに先立って、特徴点は、画像の最大エッジによって正規化される。

グラウンドトゥルース対応ＭおよびマッチングされないセットＩおよびＪが、最初に、グラウンドトゥルースホモグラフィまたは姿勢および深度マップを使用して、全ての検出された特徴点間のＭ×Ｎ再投影行列を算出することによって生成される。対応は、行および列の両方に沿って、最小であって、それぞれ、ホモグラフィ、屋内、および屋外マッチングに関して、所与の閾値、すなわち、３、５、および３ピクセルより低い、再投影誤差を有する、セルである。ホモグラフィに関して、マッチングされない特徴点は、単に、Ｍ内に現れないものである。屋内および屋外マッチングに関して、深度および姿勢内の誤差のため、マッチングされない特徴点は、加えて、それぞれ、１５および５ピクセルより大きい、最小再投影誤差を有しなければならない。これは、依然として、シンクホーン正規化を通して、ある程度の教師を提供しながら、その対応が曖昧な特徴点に関す標識を無視することを可能にする。

８．参考文献

以下の参考文献はそれぞれ、参照することによってその全体として本明細書に組み込まれ、上記の説明において参照される。

Claims

コンピュータシステムであって、
コンピュータ可読媒体と、
前記コンピュータ可読媒体に接続されるプロセッサと、
コンピュータ可読媒体上の命令のセットと
を備え、
前記コンピュータ可読媒体上の命令のセットは、
深層ミドルエンドマッチャアーキテクチャであって、
アテンショングラフニューラルネットワークであって、前記アテンショングラフニューラルネットワークは、
特徴点位置ｐおよびその視覚的記述子ｄを単一ベクトルの中にマッピングするための特徴点エンコーダと、
前記ベクトルに基づいて、Ｌ回繰り返され、表現ｆを作成する交互セルフおよびクロスアテンション層と
を有する、アテンショングラフニューラルネットワークと、
最適マッチング層であって、前記最適マッチング層は、Ｍ×Ｎスコア行列を前記表現ｆから作成し、前記Ｍ×Ｎスコア行列に基づいて、最適部分的割当を見出す、最適マッチング層と
を含む、深層ミドルエンドマッチャアーキテクチャ
を含む、コンピュータシステム。
前記特徴点エンコーダにおいて、特徴点ｉ毎の初期表現

が、視覚的外観と場所とを組み合わせ、

のように、個別の特徴点位置が、多層パーセプトロン（ＭＬＰ）とともに高次元ベクトルの中に埋め込まれる、請求項１に記載のコンピュータシステム。
前記特徴点エンコーダは、前記アテンショングラフニューラルネットワークが、外観および位置についてともに推測することを可能にする、請求項２に記載のコンピュータシステム。
前記特徴点エンコーダは、前記２つの画像の特徴点であるノードを伴う単一完全グラフを有する多重グラフニューラルネットワークを含む、請求項１に記載のコンピュータシステム。
前記グラフは、多重グラフであり、前記多重グラフは、２つのタイプの非指向性エッジ、すなわち、特徴点ｉを同一画像内の全ての他の特徴点に接続する画像内エッジ（セルフエッジ、Ｅ_ｓｅｌｆ）と、特徴点ｉを他の画像内の全ての特徴点に接続する画像間エッジ（クロスエッジ、Ｅ_{ｃｒｏｓｓ}）とを有し、結果として生じる多重グラフニューラルネットワークが、ノード毎に、高次元状態から開始し、各層において、全てのノードに関する全ての所与のエッジを横断してメッセージを同時に集約することによって、更新された表現を算出するように、メッセージパッシング公式を使用して、両方のタイプのエッジに沿って情報を伝搬する、請求項４に記載のコンピュータシステム。
が、層ｌにおける画像Ａ内の要素ｉに関する中間表現である場合、メッセージｍ_Ｅ→ｉは、全ての特徴点｛ｊ：（ｉ，ｊ）∈Ｅ｝からの集約の結果であり、Ｅ∈｛Ｅ_ｓｅｌｆ，Ｅ_{ｃｒｏｓｓ}｝であり、Ａ内の全てのｉに関する残りのメッセージパッシング更新は、

であり、式中、［・｜｜・］は、連結を示す、請求項５に記載のコンピュータシステム。
異なるパラメータを伴う固定された数の層Ｌが、連鎖され、ｌ＝１から開始して、ｌが奇数である場合、Ｅ＝Ｅ_ｓｅｌｆであり、ｌが偶数である場合、Ｅ＝Ｅ_{ｃｒｏｓｓ}であるように、前記セルフおよびクロスエッジに沿って、交互に集約される、請求項６に記載のコンピュータシステム。
前記交互セルフおよびクロスアテンション層は、前記メッセージｍ_Ｅ→ｉを算出し、前記集約を実施するアテンション機構を用いて算出され、前記セルフエッジは、セルフアテンションに基づき、前記クロスエッジは、クロスアテンションに基づき、ｉの表現に関して、クエリｑ_ｉが、その属性であるキーｋ_ｊに基づいて、いくつかの要素の値ｖ_ｊを読み出し、前記メッセージは、

のように、前記値の加重平均として算出される、請求項６に記載のコンピュータシステム。
アテンションマスクα_ｉｊは、

のように、前記キー・クエリ類似性にわたるソフトマックスである、請求項８に記載のコンピュータシステム。
前記個別のキー、クエリ、および値は、前記グラフニューラルネットワークの深層特徴の線形投影として算出され、クエリ特徴点ｉは、画像Ｑ内にあり、全てのソース特徴点は、画像Ｓ内にあり、方程式

において、（Ｑ，Ｓ）∈｛Ａ，Ｂ｝^２である、請求項８に記載のコンピュータシステム。
前記交互セルフおよびクロスアテンション層の最終マッチング記述子は、

の線形投影である、請求項１に記載のコンピュータシステム。
前記最適マッチング層は、

のように、セットに関する対毎スコアをマッチング記述子の類似性として表し、式中、＜・，・＞は、内積であり、学習された視覚的記述子とは対照的に、前記マッチング記述子は、正規化されず、その大きさは、特徴あたりで変化し、訓練の間、予測信頼度を反映し得る、請求項１に記載のコンピュータシステム。
前記最適マッチング層は、オクルージョンおよび可視性のために、オクルードされる特徴点を抑制し、マッチングされない特徴点がダストビンスコアに明示的に割り当てられるように、特徴点の各セットをダストビンスコアで拡張する、請求項１２に記載のコンピュータシステム。
前記スコアＳは、

のように、新しい行および列に、単一学習可能パラメータで充填される点／ビンおよびビン／ビンスコアを付加することによって、Ｓ^－に拡張される、請求項１３に記載のコンピュータシステム。
前記最適マッチング層は、Ｔ回の反復にわたって、シンクホーンアルゴリズムを使用して、前記Ｍ×Ｎスコア行列に基づいて、前記最適部分的割当を見出す、請求項１３に記載のコンピュータシステム。
Ｔ回の反復後、前記最適マッチング層は、前記ダストビンスコアをドロップし、Ｐ＝Ｐ^－ _{１：Ｍ，１：Ｎ}を復元し、

は、オリジナル割当であり、

は、前記ダストビンスコア拡張を伴う割当である、請求項１５に記載のコンピュータシステム。
コンピュータ実装方法であって、
深層ミドルエンドマッチャアーキテクチャのアテンショングラフニューラルネットワークの特徴点エンコーダを用いて、特徴点位置ｐおよびその視覚的記述子ｄを単一ベクトルの中にマッピングすることと、
前記深層ミドルエンドマッチャアーキテクチャのアテンショングラフニューラルネットワークの交互セルフおよびクロスアテンション層を用いて、前記ベクトルに基づいて、Ｌ回の繰り返される回数にわたって実行し、表現ｆを作成することと、
前記深層ミドルエンドマッチャアーキテクチャのアテンショングラフニューラルネットワークの最適マッチング層を実行し、Ｍ×Ｎスコア行列を前記表現ｆから作成し、前記Ｍ×Ｎスコア行列に基づいて、最適部分的割当を見出すことと
を含む、方法。