JP2021093117A

JP2021093117A - 連帯的な検出と記述システムおよび方法

Info

Publication number: JP2021093117A
Application number: JP2020101352A
Authority: JP
Inventors: ルボージェロム; Revaud Jerome; ドゥスーザセザール; De Souza Cesar; ユーマンベルゼマルテン; Humenberger Martin; バインザエペルフィリップ; Weinzaepfel Philippe
Original assignee: Naver Corp; Naver Labs Corp
Current assignee: Naver Corp; Naver Labs Corp
Priority date: 2019-12-11
Filing date: 2020-06-11
Publication date: 2021-06-17
Also published as: US20210182626A1; US11176425B2; KR20210074163A

Abstract

【課題】イメージ内の特徴点を検出し、記述するためのシステムが記述される。【解決手段】カメラは、複数のピクセルを含むイメージをキャプチャするように構成される。全層畳み込みネットワークは、連帯的で同時にそれぞれのピクセルの記述子を生成し、それぞれのピクセルの信頼性スコアを生成し、それぞれのピクセルの反復性スコアを生成するように構成される。スコアリングモジュールは、それぞれのピクセルの信頼性スコアおよび反復性スコアに基づいて、それぞれのピクセルのスコアを生成するように構成される。特徴点リストモジュールは、上位Ｘ個のスコアを有するＸ個のピクセルを選択し、Ｘは、１より大きい整数であり、選択されたＸ個のピクセルの位置および選択されたＸ個のピクセルの記述子を含む特徴点リストを生成するように構成される。【選択図】図１

Description

本発明は、イメージングシステムおよび方法に関し、より詳細には、連帯的にイメージから特徴点を検出して特徴点の記述子を生成するためのシステムおよび方法に関するものである。

ここに設けられた背景技術の記載は本開示の背景を概略的に示すためのものである。現在記載されている発明者の研究は、出願時に先行技術としての資格を有しない明細書の態様と同様に、背景技術に記載される範囲で、明示または黙示を問わず、本開示に対する先行技術として認めるものではない。

関心点（ｐｏｉｎｔｏｆｉｎｔｅｒｅｓｔ）の検出および特徴の記述（ｄｅｓｃｒｉｐｔｉｏｎ）は、コンピュータビジョンで使用される。検出後記述のアプローチは、イメージから関心点を検出し、一旦検出されると、関心点を記述するために使用されることができる。このような方式で、関心点が検出され、関心点が記述される。

韓国登録特許第１０−１８１４５５３号

一特徴において、イメージで特徴点を検出し、記述するためのシステムが説明される。カメラは、複数のピクセルを含むイメージをキャプチャするように構成される。全層畳み込みネットワーク（ｆｕｌｌｙｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋ）は、連帯的で同時に、それぞれのピクセルの記述子を生成し、それぞれのピクセルの信頼性スコアを生成し、それぞれのピクセルの反復性スコアを生成するように構成される。スコアリングモジュールは、それぞれのピクセルの信頼性スコアおよび反復性スコアに基づいて、ピクセルのスコアを生成するように構成される。特徴点リストモジュールは、上位Ｘ個のスコアを有するＸ個のピクセルを選択し、ここでＸは、１より大きい整数であり、選択されたＸ個のピクセルの位置および選択されたＸ個のピクセルの記述子を含む特徴点リストを生成するように構成される。

他の特徴において、スコアリングモジュールは、ピクセルのうち１つのピクセルの反復性スコアとピクセルのうち１つのピクセルの信頼性スコアを乗じたものと同一なピクセルのうち１つのピクセルのスコアを設定する。

他の特徴において、全層畳み込みネットワークは、信頼性スコアおよび反復性スコアを０〜１に制限するように構成される。

他の特徴において、Ｘは、１,０００以上の整数である。

他の特徴において、全層畳み込みネットワークは、イメージを受信し、イメージに基づいて第１の出力を生成するように構成された第１の畳み込み層と、第１の出力を受信し、第１の出力に基づいて第２の出力を生成するように構成された第２の畳み込み層と、第２の出力を受信し、第２の出力に基づいて第３の出力を生成するように構成された第３の畳み込み層と、第３の出力を受信し、第３の出力に基づいて第４の出力を生成するように構成された第４の畳み込み層と、第４の出力を受信し、第４の出力に基づいて第５の出力を生成するように構成された第５の畳み込み層と、第５の出力を受信し、第５の出力に基づいて第６の出力を生成するように構成された第６の畳み込み層と、第６の出力を受信し、第６の出力に基づいて第７の出力および第８の出力を生成するように構成された第７の畳み込み層とを含み、全層畳み込みネットワークは、第７の出力に基づいてそれぞれのピクセルの記述子を生成し、第８の出力に基づいてそれぞれのピクセルの信頼性スコアを生成し、第８の出力に基づいてそれぞれのピクセルの反復性スコアを生成するように構成される。

他の特徴において、第１の畳み込み層は、３ｘ３畳み込み層を含む。

他の特徴において、第２の畳み込み層は、少なくとも１つの拡張層を有する３ｘ３畳み込み層を含む。

他の特徴において、第３の畳み込み層は、３ｘ３畳み込み層を含む。

他の特徴において、第４の畳み込み層は、１つ以上の拡張層を有する３ｘ３畳み込み層を含む。

他の特徴において、第５の畳み込み層は、２ｘ２畳み込み層を含む。

他の特徴において、第６の畳み込み層は、２ｘ２畳み込み層を含む。

他の特徴において、第７の畳み込み層は、２ｘ２畳み込み層を含む。

他の特徴において、正規化モジュールは、第７の出力を受信し、第７の出力を正規化して第９の出力を生成するように構成される。

他の特徴において、正規化モジュールは、Ｌ２正規化（Ｌ２−Ｎｏｒｍ）を使用して第７の出力を正規化するように構成される。

他の特徴において、記述子モジュールは、第９の出力に基づいてそれぞれのピクセルの記述子を生成するように構成され、それぞれのピクセルの記述子は、該当のピクセル内の特徴点の数学的表現を含む。

他の特徴において、２乗モジュールは、第８の出力を要素別に２乗し、第１０の出力を生成するように構成され、第１０の出力を受信し、第１０の出力に基づいて第１１の出力および第１２の出力を生成するように構成された第８の畳み込み層と、第１１の出力を受信し、第１１の出力に基づいて第１３の出力を生成するように構成された第９の畳み込み層と、第１３の出力に基づいて信頼性スコアを生成するように構成された第１０の畳み込み層と、第１２の出力を受信し、第１２の出力に基づいて第１４の出力を生成するように構成された第１１の畳み込み層および第１４の出力に基づいて反復性スコアを生成するように構成された第１２の畳み込み層とを含む。

他の特徴において、第８の畳み込み層は、３ｘ３畳み込み層を含む。

他の特徴において、第８の畳み込み層は、少なくとも１つの拡張層をさらに含む。

他の特徴において、第９の畳み込み層は、１ｘ１畳み込み層および３ｘ３畳み込み層のうち１つの層または他の適切なタイプの層を含む。

他の特徴において、第１０の畳み込み層は、１ｘ１畳み込み層および３ｘ３畳み込み層のうち１つを含む。

他の特徴において、第１１の畳み込み層は、１ｘ１畳み込み層および３ｘ３畳み込み層のうち１つを含む。

他の特徴において、第１２の畳み込み層は、１ｘ１畳み込み層および３ｘ３畳み込み層のうち１つを含む。

他の特徴において、学習モジュールは、学習データセットを使用して平均精度（ＡＰ）を最大化することによって、全層畳み込みネットワークを学習するように構成される。

他の特徴において、イメージ内の特徴点を検出および記述する方法は、複数のピクセルを含むイメージを受信するステップと、連帯的で同時に、それぞれのピクセルの記述子を生成するステップと、それぞれのピクセルの信頼性スコアを生成するステップと、それぞれのピクセルの反復性スコアを生成するステップと、それぞれのピクセルの信頼性スコアおよび反復性スコアに基づいて、それぞれのピクセルのスコアを生成するステップと、上位Ｘ個のスコアを有するＸ個のピクセルを選択するステップであって、Ｘは、１より大きい整数であるステップと、選択したＸ個のピクセルの位置および選択されたＸ個のピクセルの記述子を含む特徴点リストを生成するステップとを含む。

他の特徴において、本方法は、位置および記述子に基づいてイメージ内のオブジェクトを識別するステップをさらに含む。

他の特徴において、イメージ内の特徴点を検出および記述するためのシステムは、複数のピクセルを含むイメージを受信し、連帯的で同時に、それぞれのピクセルの記述子を生成し、それぞれのピクセルの信頼性スコアを生成し、それぞれのピクセルの反復性スコアを生成する手段と、それぞれのピクセルの信頼性スコアおよび反復性スコアに基づいて、それぞれのピクセルのスコアを生成する手段と、上位Ｘ個のスコアを有するＸ個のピクセルを選択し、ここでＸは、１より大きい整数であり、選択されたＸ個のピクセルの位置および選択されたＸ個のピクセルの記述子を含む特徴点リストを生成する手段とを含む。

本開示内容の追加的な適用分野は、詳細な説明、請求の範囲及び図面から明らかになるものである。詳細な説明および特定の例は、単に例示のためのものであり、本開示の範囲を制限しようとするものではない。

特許または出願ファイルは、カラーで仕上げられた少なくとも１つの図面を含む。カラーの図面を含む本特許または特許出願の公開公報の写しは、請求および必要な料金の支払いで庁（Ｏｆｆｉｃｅ）より提供される。

本開示は、詳細な説明および添付図面からより完全に理解されるであろう。
ナビゲートロボットの例示的な具現の機能的なブロック図である。記述および検出モジュールの例示的な具現の機能的なブロック図である。記述および検出モジュールの例示的な具現の機能的なブロック図である。例示的な学習および評価システムの機能的なブロック図である。例示的な入力イメージおよび異なるパッチサイズを使用した入力イメージに基づいて生成された多様な反復性マッピング（Ｓ）を含む。イメージ別に保有した特徴点の数の関数として異なるパッチサイズの例示的な点数グラフを含む。例示的な入力イメージおよび入力イメージに基づいて生成された反復性マッピングおよび信頼性マッピングを含む。イメージの特徴点リストを生成する例示的な方法を示すフローチャートを含む。

図面において、参照番号は、類似で/類似または同一の要素を識別するために再使用されることができる。

検出後記述のアプローチは、イメージの特徴を検出し、検出された特徴を記述するために使用されることができる。まず、イメージは、ピクセル単位にスキャンされ、各ピクセルが特徴点を示すか否かを決定する。ピクセルが特徴点を示す場合、ピクセル周囲の予め決定された次元の近傍が定義される（例えば、近傍の中心にピクセルがある）。その後、近傍の記述子が生成される。このような方式で、イメージの特徴点が先に検出され、その次にイメージの特徴点が記述される。特徴点は、該当の特徴点に対する記述と一緒に特徴として称される。イメージの特徴点の組み合わせは、イメージ内に存在するオブジェクトを検出するのに使用されることができる。

本出願は、イメージの特徴を連帯的に（そして同時に）検出と記述することを含む。記述および検出モジュールは、連帯的にそして同時に、各ピクセルの記述子、各ピクセルの信頼性スコアおよび各ピクセルの反復性スコアを生成する。信頼性スコアおよび反復性スコアは、それぞれ信頼性マッピングおよび反復性マッピングを示す。

信頼性スコアと反復性スコアは、各ピクセルの全体スコアを生成するために一緒に使用される。上位Ｙ個の全体スコアを有するＹ個のピクセルは、イメージ内の最も信頼可能で、反復可能なＹ個の特徴点の位置および記述子を示す特徴点リストに含まれ、維持される。

図１は、ナビゲートロボットの例示的な具現の機能的なブロック図である。ナビゲートロボット（１００）は、ナビゲートロボット（１００）前の所定の視野角（ＦＯＶ：ｆｉｅｌｄｏｆｖｉｅｗ）内のイメージをキャプチャするカメラ（１０４）を含む。所定のＦＯＶは、ナビゲートロボット（１００）を中心に３６０度と同一、またはもっと小さいことができる。したがって、ナビゲートロボット（１００）は、ナビゲートロボット（１００）周囲の３６０度と同一、またはもっと小さいＦＯＶを有することができる。多様な具現において、１つ以上のカメラが単一のカメラよりもっと大きいＦＯＶまたは完全な３６０ＦＯＶをキャプチャするために使用されることができる。ナビゲートロボット（１００）の動作環境は、室内空間、すなわち建物、駐車場、洞窟または他のエンクロージャ（ｅｎｃｌｏｓｕｒｅ）、屋外空間または屋内および屋外空間の組み合わせであることができる。

例えば、カメラ（１０４）は、グレースケール（ｇｒａｙｓｃａｌｅ）カメラ、ｇｒａｙｓｃａｌｅ−Ｄカメラ、ＲＧＢ（Ｒｅｄ、Ｇｒｅｅｎ、Ｂｌｕｅ）カメラ、ＲＧＢ−Ｄカメラまたは他の適切なタイプのカメラであることができる。ｇｒａｙｓｃａｌｅ−Ｄカメラは、深度（Ｄ）要素を含む。また、ＲＧＢ−Ｄカメラは、深度（Ｄ）要素を含む。多様な具現において、ナビゲートロボット（１００）は、（１つの）カメラ（１０４）のみを含むことができ、任意の他のビジュアル画像処理カメラおよび／またはセンサを含まないことができる。

ナビゲートロボット（１００）は、ナビゲートロボット（１００）を前方、右、左、上および／または下に進むようにする１つ以上の推進装置（１０８）、例えば、１つ以上のホイール、１つ以上のトレッド（ｔｒｅａｄ）、１つ以上の移動レッグ（ｌｅｇ）および／または１つ以上の他のタイプの装置を含む。推進装置（１０８）のうち２以上の組み合わせが、ナビゲートロボット（１００）を前に推進させ、ナビゲートロボット（１００）を右に回転させ、ナビゲートロボット（１００）を左に回転させ、および／またはナビゲートロボット（１００）を垂直に上げたり下ろしたりするのに使用され得る。

ナビゲートロボット（１００）は、カメラ（１０４）からの入力に基づいて、任意の物体と衝突することなく動作環境を走行するために、推進装置（１０８）を制御するように構成された制御モジュール（１１２）を含む。制御モジュール（１１２）は、記述および検出モジュール（１１６）によって生成された特徴点および位置のリストに基づいて、推進装置（１０８）を通じてナビゲートロボット（１００）が進むようにする方法を決定する。例えば、制御モジュール（１１２）は、特徴点に基づいて１つ以上のオブジェクトを識別して、ナビゲートロボット（１００）がオブジェクトに向かったり、オブジェクトから遠ざかったりするように推進装置（１０８）を制御することができる。例えば、制御モジュール（１１２）は、オブジェクト検出アルゴリズムを使用することにより、特徴点に基づいてオブジェクトを識別することができる。他の例において、制御モジュール（１１２）は、特徴点に基づいた動作環境でナビゲートロボット（１００）の位置を決定し、ナビゲートロボット（１００）が目標位置などに移動するように推進装置（１０８）を制御することができる。

記述および検出モジュール（１１６）は、カメラ（１０４）によってキャプチャされたイメージから特徴点を連帯的に（および同時に）検出および記述することによって特徴点リストを生成する。特徴点の連帯的な検出および記述は、以下でさらに説明される。ビジュアルナビゲーションでの特徴点リストの使用例が提供されるが、本出願は、関心点の検出などのような他の用途にも特徴点リストを適用することができる。

カメラ（１０４）は、６０Ｈｚ、１２０Ｈｚまたは他の適切な周波数のような予め決定された周波数でイメージをキャプチャすることができる。記述および検出モジュール（１１６）は、カメラ（１０４）がイメージを出力するたびに、またはｎ番目のイメージを出力するたびに、特徴点および位置のリストを生成することができ、ここでｎは、１より大きい整数である。

制御モジュール（１１２）は、所与の時間に、第１の状態（１歩または１/３メートルのような予め決定された距離だけ前方に移動することに対応する）、第２の状態（４５度または９０度などの予め決定された角度だけ右に回転することに対応する）、第３の状態（４５度または９０度などの予め決定された角度だけ左に回転することに対応する）、第４の状態（移動しないことに対応する）、第５の状態（第１の所定量だけ垂直に上昇することに対応する）または第６の状態（第２の所定量だけ垂直に下降することに対応する）で構成されるグループのうち１つに該当する状態を設定するように構成される。

制御モジュール（１１２）は、状態に基づいて推進装置（１０８）を制御するように構成される。例えば、制御モジュール（１１２）は、第１の状態にある状態に対応して、推進装置（１０８）を作動させてナビゲートロボット（１００）を予め決定された距離だけ前方に移動させることができる。制御モジュール（１１２）は、第２の状態にある状態に対応して、推進装置（１０８）を作動させてナビゲートロボット（１００）を予め決定された角度だけ右に回転させることができる。制御モジュール（１１２）は、第３の状態にある状態に対応して、推進装置（１０８）を作動させてナビゲートロボット（１００）を予め決定された角度だけ左に回転させることができる。制御モジュール（１１２）は、第４の状態にある状態に対応して、ナビゲートロボット（１００）が動かないように推進装置（１０８）を作動させないことができる。制御モジュール（１１２）は、第５の状態にある状態に対応して、推進装置（１０８）を作動させてナビゲートロボット（１００）を第１の所定量だけ垂直に上昇させることができる。制御モジュール（１１２）は、第６の状態にある状態に対応して、推進装置（１０８）を作動させてナビゲートロボット（１００）を第２の所定量だけ垂直に下降させることができる。

図２および図３は共に、記述および検出モジュール（１１６）の例示的な具現の機能的なブロック図である。ニューラルネットワーク（２０４）は、カメラからイメージを受信する。ニューラルネットワーク（２０４）は、全層畳み込みネットワーク（ＦＣＮ）を含む。ニューラルネットワーク（２０４）は、イメージを処理し、イメージに基づいてイメージから特徴点の記述子を生成するための第１の出力を生成する。また、ニューラルネットワーク（２０４）は、イメージに基づいてイメージの特徴点の信頼性マッピングおよびイメージの特徴点の反復性マッピングを生成するための第２の出力を生成する。例えば、ニューラルネットワーク（２０４）は、畳み込みニューラルネットワーク（ＣＮＮ）または他の適切なタイプのニューラルネットワークを含むことができる。例えば、ニューラルネットワーク（２０４）は、Ｌ２−Ｎｅｔニューラルネットワークを含んだり、これをベースにしたりすることができる。

図２におけるニューラルネットワーク（２０４）の例示的な構造が図１に提供される。第１の層（２０６）は、３ｘ３畳み込み層または他の適切なタイプの層を含むことができる。イメージは、第１の層（２０６）に入力される。第２の層（２０８）は、第１の層（２０６）の出力を受信し、１つ以上の拡張層（例えば、２つの拡張層）または他の適切なタイプの層を有する３ｘ３畳み込み層を含むことができる。

第３の層（２１２）は、第２の層（２０８）の出力を受信し、３ｘ３畳み込み層または他の適切なタイプの層を含むことができる。第４の層（２１６）は、第３の層（２１２）の出力を受信し、１つ以上の拡張層（例えば、１つの拡張層）または他の適切なタイプの層を有する３ｘ３畳み込み層を含むことができる。第５の層（２２０）は、第４の層（２１６）の出力を受信し、２ｘ２畳み込み層または他の適切なタイプの層を含むことができる。第６の層（２２４）は、第５の層（２２０）の出力を受信し、２ｘ２畳み込み層または他の適切なタイプの層を含むことができる。第７の層（２２８）は、第６の層（２２４）の出力を受信し、２ｘ２畳み込み層または他の適切なタイプの層を含むことができる。

第７の層（２２８）は、第１の出力および第２の出力を生成する。第１の出力は記述子を生成するのに使用され、第２の出力は信頼性マッピングおよび反復性マッピングを生成するのに使用される。正規化モジュール（２３２）は、第１の出力を受信して第１の出力を正規化する。例えば、正規化は、Ｌ２正規化（Ｌ２−Ｎｏｒｍ）または他の適切なタイプの正規化であることができる。

記述子モジュール（２３６）は、正規化モジュール（２３２）の出力に基づいてイメージの各ピクセルの記述子を生成する。それぞれの記述子は、ピクセル内の１つの特徴点を表すベクトルを含む。このように、ピクセルの記述子は、該当のピクセル内の特徴点の数学的表現を含む。

第２の出力は、２乗モジュール（２４０）に提供される。２乗モジュール（２４０）は、第２の出力を２乗する。例えば、２乗モジュール（２４０）は、要素別に２乗を行うことができる。

第８の層（２４４）は、２乗モジュール（２４０）の出力に基づいて信頼性の出力および反復性の出力を生成する。第８の層（２４４）は、３ｘ３畳み込み層または他の適切なタイプの層を含むことができる。また、第８の層（２４４）は、２つの拡張層のような１つ以上の拡張層を含むことができる。

第９の層（２４８）は、信頼性の出力を受信し、１ｘ１畳み込み層、３ｘ３畳み込み層または他の適切なタイプの層を含むことができる。多様な具現においてソフトマックス（ｓｏｆｔｍａｘ）モジュールは、出力が第１０の層（２５２）に提供される前に第９の層（２４８）の出力にソフトマックスを適用することができる。第１０の層（２５２）は、第９の層（２４８）の出力を受信して（ソフトマックスは適用されたり、適用されなかったりすることができる）、１ｘ１畳み込み層、３ｘ３畳み込み層または他の適切なタイプの層を含むことができる。第１０の層（２５２）は、信頼性マッピングを出力する。信頼性マッピングは、それぞれのピクセルの信頼性スコアのピクセル別マップを含む。信頼性スコアは、ピクセル内で検出される任意の特徴が正確であるとの信頼度を表す。例えば、信頼性スコアは、０と１の間の値であることができる。ピクセルの信頼度は、ピクセルの信頼性スコアが増加するにつれて増加することができ、その逆も同様である。

第１１の層（２５６）は、信頼性の出力を受信し、１ｘ１畳み込み層、３ｘ３畳み込み層または他の適切なタイプの層を含むことができる。多様な具現においてソフトマックスモジュールは、出力が第１２の層（２６０）に提供される前に第１１の層（２５６）の出力にソフトマックスを適用することができる。第１２の層（２６０）は、（ソフトマックスは適用されたり、適用されなかったりすることができる）第１１の層（２５６）の出力を受信し、１ｘ１畳み込み層、３ｘ３畳み込み層または他の適切なタイプの層を含むことができる。第１２の層（２６０）は、反復性マッピングを出力する。反復性マッピングは、それぞれのピクセルの反復性スコアのピクセル別マップを含む。反復性スコアは、特徴がピクセルに含まれるたびに検出され得るピクセル内の任意の特徴が検出される可能性を表す。反復性スコアは、例えば、０と１の間の値であることができる。ピクセルの反復性スコアが増加するにつれて可能性が増加することができ、その逆も同様である。

上述した内容においては、ＨｘＷサイズのイメージＩに対して３つの出力を生成する全層畳み込みネットワーク（ＦＣＮ）について説明した。第１の出力（記述子）は、密なＤ−次元アイテムセットに対応する３次元（３Ｄ）テンソル

である。
第２の出力（反復性マッピング／スコア、Ｓ）は、疎で反復可能な特徴点の位置を提供する、次のような式で説明されることができる。

記述および検出モジュール（１１６）は、ピクセル当たり１つの反復性スコアおよびピクセル当たり１つの記述子を生成する。第３の出力（信頼性マッピング/スコア、Ｒ）は、次のように説明されることができる。

これは、各ピクセルの記述子Ｘｉｊの信頼度（区別性）を表す（ｉ、ｊ、ｉ=１...Ｗおよびｊ=１、...、Ｈ）。記述および検出モジュール（１１６）は、ピクセル当たり１つの信頼性スコアを生成する。Ｌ２−Ｎｅｔに比べて、上述した方法は、使用された加重値の数を減らし（例えば、５の倍数によって）、類似またはより優れた正確性を生成する。

図３に図示されるように、スコアリングモジュール（２８０）は、ピクセルのスコアを決定する。スコアリングモジュール（２８０）は、ピクセルの信頼性スコアおよびピクセルの反復性スコアのそれぞれに基づいて、ピクセルのスコアを決定する。例えば、スコアリングモジュール（２８０）は、該当のピクセルの信頼性スコアおよび該当のピクセルの反復性スコアに基づいて、ピクセルのスコアを決定する。スコアリングモジュール（２８０）は、信頼性スコアおよび反復性スコアを関連付ける式およびルックアップテーブルのうち１つを使用してスコアを決定することができる。例えば、スコアリングモジュール（２８０）は、ピクセルの反復性スコアを乗じたピクセルの信頼性スコアに基づいてピクセルのスコアを設定したり、ピクセルの反復性スコアを乗じたピクセルの信頼性スコアと同一にしたりして、ピクセルのスコアを設定することができる。

特徴点リストモジュール（２８４）は、各ピクセルのスコアに基づいてイメージに対する特徴点リストを生成する。例えば、特徴点リストモジュール（２８４）は、上位Ｙ個のスコアを有するＹ個のピクセルを選択し、ここで、Ｙは１よりも大きい整数である。例えば、Ｙは、１,０００、５,０００、１０,０００または他の適切な数であることができる。特徴点リストモジュール（２８４）は、選択されたピクセルのピクセル位置（例えば、ｉ、ｊ）およびイメージに対する特徴点リストから選択されたピクセルの記述子を含む。

学習および評価（テスト）
図４は、例示的な学習および評価システムの機能的なブロック図である。学習モジュール（４０４）は、学習データセット（４０８）に格納されたデータを使用して記述および検出モジュール（１１６）を学習させる。反復性は、自己−教師ありタスク（ｓｅｌｆ−ｓｕｐｅｒｖｉｓｅｄｔａｓｋ）として扱われ、学習モジュール（４０４）は、記述および検出モジュール（１１６）を学習させてＳにおける局部最大値（反復性マッピング）の位置が、視点または照明の変化のような自然イメージ変換に共変されるようにする。

ＩイメージとＩ’イメージは、同じ場面の２つのイメージであるとし、

は、２つのイメージ間のグランドトゥルース（ｇｒｏｕｎｄ−ｔｒｕｔｈ）対応であるとする。すなわち、第１のイメージＩのピクセル（ｉ、ｊ）が第２のイメージＩ’のピクセル（ｉ'、ｊ'）と対応する場合、Ｕ_ｉｊ=（ｉ'、ｊ'）である。学習モジュール（４０４）は、ＩおよびＩ’が自然的なイメージである場合、オプティカルフローアルゴリズムまたはステレオマッチングアルゴリズムを使用してＵを推定することができたり、第２のイメージＩ’がホモグラフィ（ｈｏｍｏｇｒａｐｈｙ）のような公知の変換で合成的に生成されたりした場合に取得されることができる。

ＳおよびＳ'をそれぞれ第１のイメージＩおよび第２のイメージＩ’の反復性マッピングであるとする。Ｓ'_ＵをイメージＩからのＵに応じて歪んだイメージＩ’に対する反復性マッピングであるとする。学習モジュール（４０４）は、記述および検出モジュール（１１６）を学習させて、Ｓにおけるすべての局部最大値がＳ'_Ｕにおける局部最大値（ｌｏｃａｌｍａｘｉｍａ）に対応するという事実を強制する。

学習モジュール（４０４）は、ＳとＳ'_Ｕ間のコサイン類似度を最大化する。コサイン類似度は、以下においてｃｏｓｉｍと表示される。ｃｏｓｉｍ（Ｓ、Ｓ'_Ｕ）が最大化される場合、両信頼性マッピングが同一であり、最大値が正確に一致する。しかし、このプロセスは、性能に影響を与えることができるオクルージョン、変形アーティファクトまたは境界効果はないと仮定する。

学習モジュール（４０４）は、全体イメージよりも小さいパッチ（ｐａｔｃｈ）のコサイン類似度を平均化することによってこれを解決する。重なるパッチのセットは、[１、...Ｗ]ｘ[１、...Ｈ]でＮｘＮパッチを含むＰ={ｐ}に定義されることができる。学習モジュール（４０４）は、第１の損失を次のように定義する：

ここで、

は、Ｓから抽出されてベクトル化された（平坦化された）ＮｘＮパッチｐであり、同様にＳ'_Ｕ[ｐ]である。ＳおよびＳ'_Ｕを一定に維持することによって、Ｌ_{ｃｏｓｉｍ}が最小化されることができる。

これを防止するために、学習モジュール（４０４）は、反復性マッピングの局部最高点（ｌｏｃａｌｐｅａｋｉｎｅｓｓ）を最大化するために第２の損失を使用する。第２の損失は、次のように説明されることができる。

第２の機能は、パッチのサイズＮを変化させることによって、局部最大値の周波数が選択され得るようにする。例えば、図５は、Ｎの異なる値に基づいて生成された入力イメージおよび多様な反復性マッピング（Ｓ）を含む。図５において、赤色は低い値を示し、緑色は高い値を表す。図５の例示は、他のパッチサイズＮを有する反復性の損失Ｌ_{ｐｅａｋｙ}およびＬ_ｒｅｐを学習させる場合に取得される。

学習モジュール（４０４）は、第１の損失および第２の損失に基づいて反復性の損失を決定する。学習モジュール（４０４）は、第１の損失および第２の損失を反復性の損失と関連付ける式およびルックアップテーブルのうち１つを使用して、反復性の損失を決定することができる。例えば、学習モジュール（４０４）は、第１の損失および第２の損失の加重された合に基づいて、または第１の損失および第２の損失の加重された合と同一の反復性の損失を設定することができる。反復性の損失（Ｌ_ｒｅｐ）を決定するための例示的な式は次の通りである。

信頼性を強化するために、学習モジュール（４０４）は、反復性マッピング（Ｓ）を計算するだけでなく、連帯的に稠密な局部記述子（Ｘ）を抽出し、それぞれの記述子

に対して、それぞれの記述子の信頼性（区別性）を推定する信頼値、Ｒ_ｉｊ∈［０，１］を推定する。学習モジュール（４０４）は、十分に区別され得ない領域に対するもののように損失が記述子に及ぼす影響が少ない、低い信頼度を有する記述子を生成すること、または可能な限り区別される高い信頼度を有する記述子を生成することを選択することを学習する。

次のように学習モジュール（４０４）は、ランキング最適化問題として記述子マッチングを扱う。２つのイメージＩとＩ’が与えられる場合、学習モジュール（４０４）は、Ｉ’内のＩから各記述子をクエリとして検索し、距離を増加させることによって、Ｉ’からのすべての記述子のランクを付ける。学習モジュール（４０４）は、三重項損失またはペアワイズランキング損失のようなランキング損失を使用することができる。このような損失は、平均精度（ＡＰ）のようなグローバルメトリックと関連があったり、なかったりすることができる学習サンプルのペア、三重項または四重項をベースに局部最適化（ｌｏｃａｌｏｐｔｉｍｉｚａｔｉｏｎ）を遂行する。パッチ記述子マッチングのためにＡＰを直接最適化すると、性能が向上されることができる。リストワイズ損失の使用は、学習モジュール（４０４）が学習する間に、直接最適化できるランキングメトリックであるＡＰの差別化可能な近似を定義することができる。一連のイメージパッチのグランドトゥルースのバッチが与えられると、学習モジュール（４０４）は、畳み込みニューラルネットワークを使用して記述子を計算することができる。学習モジュール（４０４）は、バッチからすべてのパッチ記述子間のユークリッド距離の行列を計算することができる。行列の各行は、データベース文書の役割をする第１のイメージのクエリのパッチおよび第２のイメージのすべてのパッチ間の距離が含まれる。学習モジュール（４０４）による学習は、バッチ（ｂａｔｃｈ）Ｂでそれぞれのクエリｑに対して計算され、全体のバッチに対して平均化されたＡＰを最大化することを含む。

ここで、Ｌ_ＡＰはＡＰ損失である。

第１のイメージのそれぞれのピクセル（ｉ、ｊ）は、学習モジュール（４０４）が第２のイメージ内の他のすべてのパッチと比較するサイズＭのパッチを定義する。グランドトゥルース対応Ｕに基づいて、学習モジュール（４０４）は、Ｌ_ＡＰと類似したＡＰを計算する。学習モジュール（４０４）は、すべてのところで局部記述子を抽出することができるが、すべての位置が同一に興味深いものではない。均一な領域および延長された１次元（１Ｄ）のパターンは、良好な特徴マッチングのための区別性が不足することがある。よく構成された領域であっても、葉や波のような意味論的性質（ｓｅｍａｎｔｉｃｎａｔｕｒｅ）から信頼できない可能性がある。イメージの無意味な領域でもパッチ記述子を強制的に最適化すると、学習およびランタイム性能が低下され得る。

したがって、本開示は、次のように不明な領域での努力を無駄にするネットワークを節約するために、学習モジュール（４０４）による新たな損失の使用を含む：

ここで、ｋ∈［０，１］は、パッチ当たり予想される最小ＡＰを表すハイパーパラメータである。Ｌ_ＡＰｋ（ｉ，ｊ）を最小化するために、学習モジュール（４０４）は、ＡＰ（ｉ、ｊ）＜ｋおよびＲ_ｉｊ＝１である場合、逆にＲ_ｉｊ＝０を予測する（ＡＰ（ｉ、ｊ）がｋより大きいか、または同一である場合）。学習モジュール（４０４）は、Ｒ_ｉｊを０と１の間に設定し、パッチｉ、ｊの信頼性に対する学習モジュール（４０４）の信頼度を反映する。ｋは、予め決定された値である。例えば、ｋは、０.５または他の適切な値であることができる。ｋ＝０.５は、実際に好ましい結果を示す。

（学習の）評価のために、評価モジュール（４１２）は、入力イメージに対して、初期スケールからスタートしてイメージが１２８ピクセルより小さくなるまでに毎回２^１/４ずつダウンサンプリングして、他のスケールで複数回実行することができる。評価モジュール（４１２）は、評価データセット（４１６）に格納されたイメージを使用して、（学習された）記述および検出モジュール（１１６）を評価することができる。多様な実施例において、評価データセット（４１６）は、評価のために予約されて学習データセット（４０８）の一部であることができる。

それぞれのスケールに対して、学習モジュール（４０４）は、Ｓから局部最大値を探し、対応する位置にあるＸからの記述子を収集することができる。上述したように、学習モジュール（４０４）は、記述子の（全体）スコアが積Ｓ_ｉｊＲ_ｉｊとして計算されるすべてのスケールにわたって、最高のＫ個の記述子リストを保管することができる。

学習のために、学習モジュール（４０４）は、関心領域が事前に知られていないときに、すべてのイメージの位置（ピクセル）での損失を決定することができる。密なグランドトゥルースマッチングを生成するために、学習モジュール（４０４）は、（ａ）第１のイメージに予め決定された変換（例えば、ホモグラフィック変換（ｈｏｍｏｇｒａｐｈｉｃｔｒａｎｓｆｏｒｍ）、カラージッタリング（ｃｏｌｏｒｊｉｔｔｅｒｉｎｇ）または他の適切な変換）を適用することによって、第２のイメージが取得されるペアのイメージを使用したり、（ｂ）イメージシーケンスまたは一連の整列されていないイメージのセットからのペアを使用したりして実行することができる。ペアのイメージを使用する例において、学習モジュール（４０４）は、１つのイメージのペアおよび少数のスパースＳｆＭ（ｓｔｒｕｃｔｕｒｅｆｒｏｍｍｏｔｉｏｎ）検証された対応に対して与えられた密な対応を信頼性高く抽出可能な、オプティカルフローツールに基づいたパイプラインを使用することができる。

まず、学習モジュール（４０４）は、それぞれのイメージに対応する３次元（３Ｄ）ポイントおよび６次元（６Ｄ）カメラポーズのリストを出力するＳｆＭパイプラインを実行することができる。十分な重畳（例えば、少なくとも予め決定された数の共通する３Ｄポイント）を有するそれぞれのイメージのペアに対して、学習モジュール（４０４）は、基礎行列を決定する。直接２ＤＳｆＭ対応からの基礎行列を決定することは、直接６Ｄカメラポーズを使用するよりもさらに信頼できる。次に、学習モジュール（４０４）は、対応のエッジ保存補間（ＥｐｉｃＦｌｏｗ）アルゴリズムを使用して対応（例えば、高品質および稠密）を決定する。また、学習モジュール（４０４）は、ＤｅｅｐＭａｔｃｈｉｎｇアルゴリズムにエピポーラ制約（ｅｐｉｐｏｌａｒｃｏｎｓｔｒａｉｎｔ）を追加することができる。ＥｐｉｃＦｌｏｗアルゴリズムの第１のステップは、半スパースマッチ（ｓｅｍｉ−ｓｐａｒｓｅｍａｔｃｈ）を生成する。また、学習モジュール（４０４）は、フローが信頼できるマスクを予測することができる。定義により、オプティカルフローは、隠蔽領域を含むすべてのところで定義される。しかし、学習は、隠蔽領域に対しては有用でないことができる。学習モジュール（４０４）は、次のようにＤｅｅｐＭａｔｃｈｉｎｇアルゴリズムの出力を後処理することができる：連結された一貫性のある近傍のグラフを計算し、大きな連結されたコンポーネントに属するマッチ（例えば、少なくとも５０個のマッチ）だけを維持する。マスクは、検証されたマッチにおいてしきい値カーネル密度推定器を使用して定義される。学習モジュール（４０４）は、インターネットからのイメージを含むオックスフォード（Ｏｘｆｏｒｄ）およびパリ（Ｐａｒｉｓ）の検索データセットに最近追加されたディストラクタからランダムに変換されたイメージのペアを使用することができる。学習モジュール（４０４）は、ドイツのアーヘン（Ａａｃｈｅｎ）市からのイメージを含むアーヘンデイ−ナイト（ＡａｃｈｅｎＤａｙ−Ｎｉｇｈｔ）のデータセットから抽出された（例えば、ＳｆＭを使用して）ペアを使用する。

例えば、学習モジュール（４０４）は、１９２ｘ１９２ピクセル解像度のクロップされたイメージから、８ｘ８ピクセルのグリッド（ｇｒｉｄ）上の第１のイメージのクエリピクセルを、サブサンプリングすることができる。第２のイメージにおいて、学習モジュール（４０４）は、クエリに対応するピクセルおよび８つのピクセルの段階で規則的なグリッド上でサンプリングされたピクセルを考慮することができる。フローおよびマッチの不完全性を処理するために、学習モジュール（４０４）は、オプティカルフロー精度から予め決定された距離（例えば、４ピクセル）の半径内にあるピクセルとしてポジティブを定義することができ、位置から第２の予め決定された距離（例えば、８ピクセル）よりも遠いところにあるすべてのピクセルとしてネガティブを定義することができる。最適化（Ｏｐｔｉｍｉｚａｔｉｏｎ）は、８のバッチサイズ、０.００１の学習率、０.０００５の重み減衰で実行されることができる。

学習後の評価結果を測定するために、以下の測定方法（ｍｅｔｒｉｃｓ）が使用されることができる。

ペアのイメージに対する反復性スコアは、２つのイメージ間のポイント対応の数を１対の最小特徴点検出数で割った値であることができる。すべてのイメージペアに対する平均スコアが使用されることができる。

マッチングスコア（Ｍ−Ｓｃｏｒｅ）は、第１のイメージから第２のイメージへのポイントマッチングのときおよび第２のイメージから第１のイメージへのポイントマッチングのときに、全体のパイプラインによって回復され得るグランドトゥルース対応および共有された視点領域内の推定された特徴の総数との間の平均比率であることができる。

平均マッチング精度（ＭｅａｎＭａｔｃｈｉｎｇＡｃｃｕｒａｃｙ、ＭＭＡ）は、多数のピクセルエラーしきい値を考慮したイメージペアでの正確なマッチの平均百分率であることができる。すべてのイメージペアに対する各しきい値の平均が使用されることができる。

反復性の損失Ｌ_ｒｅｐのパッチサイズＮは、反復性の損失がサイズＮｘＮのウィンドウ（ｗｉｎｄｏｗ）別に単一の局部最大値を出力するように推奨することによって、特徴点の数を表す。Ｎが大きい場合、反復性の高い数個の特徴点が検出されることができる。Ｎが小さい場合、特徴点の数が増加する反面、反復性は減少する。Ｎが小さい場合には、空の領域（ｅｍｐｔｙｒｅｇｉｏｎ）（例えば、空）が感知されることができるが、Ｎが大きい場合には、空の領域を避けることができる。

図６は、イメージ別に保有された特徴点（Ｋ）の数の関数として、Ｎの異なるパッチサイズに対するＭＭＡ（３ｐｘエラーしきい値）とＭ−Ｓｃｏｒｅの例示的なグラフを含む。特徴点の品質が高くて保有した特徴点の数が低い場合、大きなＮ値で学習された記述および検出モジュールは、小さいＮ値で学習された記述および検出モジュールを凌駕した。保有した特徴点の数が多い場合、不良局部最大値が選択され始め、マッチング性能が低下される。特徴点の数およびマッチング性能の間にはトレードオフ（ｔｒａｄｅ−ｏｆｆ）がある。Ｎ＝１６および５０００保有した特徴点は、トレードオフを考慮すると、より好ましい結果を提供することができる。

以下は、記述および検出モジュールが反復性マッピングを決定せず、信頼性マッピングを決定する例示において、上段の行にＭ−ｓｃｏｒｅおよびＭＭＡを含む例示的なテーブルである。中間の行は、記述および検出モジュールが信頼性マッピングを決定せず、反復性マッピングを決定する例示において、Ｍ−ｓｃｏｒｅおよびＭＭＡを含む。下段の行は、記述および検出モジュールが、信頼性マッピングおよび反復性マッピングの両方を決定する例示において、Ｍ−ｓｃｏｒｅおよびＭＭＡを含む。

上述の観点から、反復性および信頼性は、検出および記述を連帯的に決定するのを助けるために個別に予測されることができる。上の表は、反復性がないとＭＭＡおよびＭ−ｓｃｏｒｅの両側面で性能が低下することを表している。これは、反復性が記述子の信頼性と関連がないことを示している。記述子の信頼性なしに学習する場合、Ｍ−ｓｃｏｒｅは約３％減少し、ＭＭＡは約０.６％減少する。

図７は、入力イメージおよび入力イメージに基づいて生成された反復性マッピングの例を含む。上段のイメージは、オーバーレイされた緑色の十字形を含む入力イメージである。中間イメージは、記述および検出モジュール（１１６）によって入力イメージに基づいて生成された反復性マッピングを含む。下段のイメージは、入力イメージに基づいて記述および検出モジュール（１１６）によって生成された信頼性マッピングを含む。（最も高いスコアを有する）特徴点リストの保有した特徴点は、図７の上段のイメージにおいて十字形で識別される。図示されたように、記述および検出モジュール（１１６）は、空の領域はほとんどマッチングされずに、特徴点リストで識別されてはならないと正確に決定した。また、記述および検出モジュール（１１６）は、１Ｄパターン（例えば、ブリッジの下）およびグリッドパターン（例えば、建物の窓）のような複雑なパターンを拒否した。該当の地域のスコアは低かったため、特徴点リストに含まれなかった。

記述および検出モジュール（１１６）の使用例がナビゲートロボット（１００）と関連して上述されたが、記述および検出モジュール（１１６）は、他の状況で使用されることができる。例えば、記述および検出モジュール（１１６）は、イメージを使用して与えられた環境内のカメラの位置（ｃａｍｅｒａｐｏｓｉｔｉｏｎ）が推定される視覚的ローカリゼーションに使用されることができる。ロバスト局部特徴マッチングは、学習、評価および実際の環境との間の昼間−夜間の切り替えおよび重要な視点差異のような問題がある実際の環境で視覚的ローカリゼーションを行うことができるように助けることができる。しかし、特徴点リストに使用されたＮのサイズおよび特徴点の数は多様であることができる。例えば、視覚的ローカリゼーションのために、イメージ当たりより多くの特徴点が使用されることができる。より多くの特徴点は、オクルージョン、視点の変更、照明の変化などにもかかわらず、少なくとも数個の特徴点が正確にマッチングされ得る可能性を増加させることができ、結果的に測位精度を向上させる。例えば、視覚的ローカリゼーションで１０,０００個の特徴点が含まれることができるのに対し、Ｎ＝８（８ｘ８ピクセル）のパッチサイズが使用されることができる。視覚的ローカリゼーションのために、記述および検出モジュール（１１６）も多様であることができる。例えば、記述および検出モジュール（１１６）は、畳み込み層の加重値の２倍を含むことができる。これは視覚的ローカリゼーションにおいてより優れた性能を提供することができる。

図８は、入力イメージの記述子、信頼性マッピングおよび反復性マッピングを連帯的に（同時に）生成する例示的な方法を示すフローチャートである。制御は、８０４において記述および検出モジュール（１１６）が、イメージが受信されたかを決定することにより開始される。８０４が真（ｔｒｕｅ）であれば、８０８に制御が継続される。８０４が偽（ｆａｌｓｅ）であれば、制御は８０４に維持される。

８０８において、記述および検出モジュール（１１６）は、受信されたイメージにおいて各ピクセルの記述子を生成する。また８０８において、記述および検出モジュール（１１６）は、ピクセルの信頼性スコアおよびピクセルの反復性スコアを生成する。ピクセルの信頼性スコアおよびピクセルの反復性スコアは、それぞれ信頼性マッピングおよび反復性マッピングを構成する。

８１２において、記述および検出モジュール（１１６）は、それぞれのピクセルのスコアを決定する。記述および検出モジュール（１１６）は、ピクセルの信頼性スコアおよびピクセルの反復性スコアそれぞれに基づいて、ピクセルのスコアを決定する。例えば、記述および検出モジュール（１１６）は、該当のピクセルの信頼性スコアおよび該当のピクセルの反復性スコアに基づいて、ピクセルのスコアを決定する。記述および検出モジュール（１１６）は、信頼性スコアおよび反復性スコアをスコアに関連付ける式およびルックアップテーブルのうち１つを使用してスコアを決定することができる。例えば、記述および検出モジュール（１１６）は、ピクセルの反復性スコアおよびピクセルの信頼性スコアを乗じたものに基づいて、またはピクセルの反復性スコアおよびピクセルの信頼性スコアを乗じたものと同一に、ピクセルのスコアを設定することができる。

８１６において、記述および検出モジュール（１１６）は、それぞれ上位Ｙ個のスコアを有するイメージのＹ個のピクセルを選択する。Ｙは、１より大きい整数であり、例えば、１,０００、５,０００、１０,０００または他の適切な数であることができる。８２０において、記述および検出モジュール（８２０）は、Ｙ個のピクセルに基づいてイメージに対する特徴点リストを生成する。これは、選択されたＹ個のピクセルのピクセル位置（例えば、ｉ、ｊ）および選択されたＹ個のピクセルの記述子をそれぞれ含む。特徴点リストに基づいて、１つ以上の動作が遂行されることができる。視覚的ローカリゼーションの例において、（例えば、ナビゲートロボット（１００）の）視覚的ローカリゼーションモジュールは、特徴点リストの情報に基づいて環境でのカメラの位置を決定することができる。視覚的ナビゲーションの例において、制御モジュール（１１２）は、特徴点リストの情報に基づいて、１つ以上の推進装置（１０８）を動作させることができる。

上述した説明は、本質的に単なる例示的なものであって、本開示、その応用、または使用を制限するものではない。本開示の広範な教示は、多様な形態で具現されることができる。したがって、本開示は、特定の例示を含むが、本開示の範囲は、図面、明細書及び請求の範囲内で変形が可能であるため、特定の例示に限定されてはならない。本方法の１つ以上のステップは、本開示の原理を変更せずに異なる順序で（または同時に）実行され得ることを理解しなければならない。また、それぞれの実施例は、特定の特徴を有するものとして説明されたが、本開示の任意の実施例に関連して説明されたこれらの特徴のうち、任意の１つ以上は、その組み合わせが明示的に記述されていなくても、他の実施例の特徴で具現および/または結合されることができる。言い換えると、説明された実施例は、相互に排他的ではなく、１つ以上の実施例を他の実施例と置換することは、本開示の範囲内にある。

構成要素（例えば、モジュール、回路要素、半導体層など）間の空間的および機能的関係は、「連結された」、「連携された」、「結合された」、「隣接した」、「次に」、「上に」、「下に」、「最初」を含む多様な用語を使用して説明される。「直接的な」ものとして明示的に言及されない限り、第１および第２の要素の間の関係が上述された開始で説明されるとき、その関係は、第１および第２の要素の間に他の中間要素が存在しない直接的な関係であることができ、また、１つの以上の中間要素が第１および第２の要素の間に（空間的にまたは機能的に）存在する間接的な関係であることができる。本明細書で使用されたように、「Ａ、ＢおよびＣのうち少なくとも１つ」の表現は、非排他的な論理ＯＲを使用してＡまたはＢまたはＣを意味するものとして解釈されるべきであり、「Ａのうち少なくとも１つ、Ｂのうち少なくとも１つおよびＣのうち少なくとも１つ」を意味するものとして解釈されてはならない。

図面において、矢印で表示される矢印の方向は、一般的に例示の対象である情報（例えば、データまたは命令語）の流れを示す。例えば、要素Ａおよび要素Ｂが多様な情報を交換するが、要素Ａから要素Ｂに送信される情報が例示と関連がある場合、矢印は、要素Ａから要素Ｂを指すことができる。単方向の矢印は、要素Ｂから要素Ａに送信される他の情報がないことを意味するのではない。また、要素Ａから要素Ｂに送信された情報に対して、要素Ｂは、情報の要請または受信確認を要素Ａに送信することができる。

次の定義を含め、本出願において「モジュール」または「コントローラ」という用語は、「回路」という用語に置換されることができる。「モジュール」という用語は、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、デジタル、アナログ、または混合アナログ／デジタル離散回路、デジタル、アナログまたは混合アナログ／デジタル集積回路、組み合わせ論理回路、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、コードを実行するプロセッサ回路（共有、専用、またはグループ）、プロセッサ回路によって実行されるコードを格納するメモリ回路（共有、専用、またはグループ）、説明された機能を提供する他の適切なハードウェア構成要素、またはシステム−オン−チップ（ｓｙｓｔｅｍ−ｏｎ−ｃｈｉｐ）のように前記一部または全部の組み合わせを含んだり、またはその一部であったりすることができる。

モジュールは、１つ以上のインターフェース回路を含むことができる。一部の例示において、インターフェース回路は、ローカルエリアネットワーク（ＬＡＮ）、インターネット、ワイドエリアネットワーク（ＷＡＮ）またはこれらの組み合わせに接続された有線または無線インターフェースを含むことができる。本開示の任意のモジュールの機能は、インターフェース回路を介して接続された多数のモジュールに分散されることができる。例えば、複数のモジュールによって負荷の調節が可能であることができる。他の例示において、サーバー（リモートまたはクラウドともいう）モジュールは、クライアントモジュールの代わりに一部の機能を遂行することができる。

使用されるコードは、ソフトウェア、ファームウェアおよび／またはマイクロコードを含むことができ、プログラム、ルーチン、機能、クラス、データ構造および／またはオブジェクトを称することができる。共有プロセッサ回路は、複数のモジュールで一部またはすべてのコードを実行する単一プロセッサ回路を含む。グループプロセッサ回路は、追加的なプロセッサ回路と結合して１つ以上のモジュールから一部またはすべてのコードを実行するプロセッサ回路を含む。多重プロセッサ回路という表現は、離散したダイ（ｄｉｓｃｒｅｔｅｄｉｅ）上の多重プロセッサ回路、単一のダイ（ｓｉｎｇｌｅｄｉｅ）上の多重プロセッサ回路、単一プロセッサ回路の多重コア、単一プロセッサ回路の多重スレッド、またはこれらの組み合わせを含む。共有メモリ回路という用語は、複数のモジュールの一部またはすべてのコードを格納する単一メモリ回路を含む。グループメモリ回路という用語は、追加のメモリと結合して１つ以上のモジュールからの一部またはすべてのコードを格納するメモリ回路を含む。

メモリ回路という用語は、コンピュータ読み取り可能な媒体のサブセットである。本明細書において使用されるコンピュータ読み取り可能な媒体という用語は、媒体を介して（例えば、搬送波上で）伝播される一時的な電気または電磁気信号を含まず、したがってコンピュータで読み取り可能な媒体という用語は、有形（ｔａｎｇｉｂｌｅ）および非一時的な（ｎｏｎ−ｔｒａｎｓｉｔｏｒｙ）ものとして見なされることができる。非一時的で有形のコンピュータ読み取り可能な媒体の非制限的例は、不揮発性メモリ回路（例えば、フラッシュメモリ回路、消去可能プログラム可能読み取り専用メモリ回路またはマスク読み取り専用メモリ回路）、揮発性メモリ回路（例えば、スタティックランダムアクセスメモリ回路またはダイナミックランダムアクセスメモリ回路）、磁気記憶媒体（例えば、アナログまたはデジタル磁気テープやハードディスクドライブ）および光学記憶媒体（例えば、ＣＤ、ＤＶＤまたはＢｌｕ−ｒａｙ（登録商標）ディスク）に該当する。

本出願において説明されたデバイスおよび方法は、コンピュータプログラムで具現された１つ以上の特定の機能を実行するように汎用コンピュータを構成することで生成された特殊目的のコンピュータによって、部分的にまたは完全に具現されることができる。上述した機能ブロック、フローチャートの構成要素およびその他の要素は、熟練した技術者やプログラマーのルーチン作業によって、コンピュータプログラムに変換され得るソフトウェア仕様として機能する。

コンピュータプログラムは、少なくとも１つの非一時的で有形のコンピュータ読み取り可能な媒体に格納されたプロセッサ実行可能命令語を含む。また、コンピュータプログラムは、格納されたデータを含んだり、依存したりすることができる。コンピュータプログラムは、特殊目的コンピュータのハードウェアと相互作用する基本入/出力システム（ＢＩＯＳ）、特殊目的コンピュータの特定のデバイスと相互作用するデバイスドライバ、１つ以上のオペレーティングシステム、ユーザーアプリケーション、バックグラウンドサービス、バックグラウンドアプリケーションなどを含むことができる。

コンピュータプログラムは、以下を含むことができる：（ｉ）ＨＴＭＬ（ｈｙｐｅｒｔｅｘｔｍａｒｋｕｐｌａｎｇｕａｇｅ）、ＸＭＬ（ｅｘｔｅｎｓｉｂｌｅｍａｒｋｕｐｌａｎｇｕａｇｅ）またはＪＳＯＮ（ＪａｖａＳｃｒｉｐｔＯｂｊｅｃｔＮｏｔａｔｉｏｎ）のような構文解析される述語、（ｉｉ）アセンブリコード、（ｉｉｉ）コンパイラによってソースコードから生成されたオブジェクトコード、（ｉｖ）インタプリタによって実行されるソースコード、（ｖ）ＪＩＴ（ｊｕｓｔ−ｉｎ−ｔｉｍｅ）コンパイラによるコンパイルおよび実行のためのソースコードなど。例えば、ソースコードは、Ｃ、Ｃ++、Ｃ＃、ＯｂｊｅｃｔｉｖｅＣ、Ｓｗｉｆｔ、Ｈａｓｋｅｌｌ、Ｇｏ、ＳＱＬ、Ｒ、Ｌｉｓｐ、Ｊａｖａ（登録商標）、Ｆｏｒｔｒａｎ、Ｐｅｒｌ、Ｐａｓｃａｌ、Ｃｕｒｌ、ＯＣａｍｌ、Ｊａｖａｓｃｒｉｐｔ（登録商標）、ＨＴＭＬ５（ハイパーテキストマークアップランゲージ５）、Ａｄａ、ＡＳＰ（ＡｃｔｉｖｅＳｅｒｖｅｒＰａｇｅｓ）、ＰＨＰ（ＰＨＰ：ハイパーテキストプリプロセッサ）、Ｓｃａｌａ、Ｅｉｆｆｅｌ、Ｓｍａｌｌｔａｌｋ、Ｅｒｌａｎｇ、Ｒｕｂｙ、Ｆｌａｓｈ（登録商標）、ＶｉｓｕａｌＢａｓｉｃ（登録商標）、Ｌｕａ、ＭＡＴＬＡＢ、ＳＩＭＵＬＩＮＫおよびＰｙｔｈｏｎ（登録商標）を含む言語の構文（ｓｙｎｔａｘ）を使用して作成されることができる。

１００：ナビゲートロボット
１０４：カメラ
１０８：推進装置
１１２：制御モジュール
１１６：記述および検出モジュール

Claims

イメージ内の特徴点を検出し、記述するためのシステムであって、
複数のピクセルを含むイメージをキャプチャするように構成されたカメラと、
連帯的で同時にそれぞれのピクセルの記述子を生成し、前記それぞれのピクセルの信頼性スコアを生成し、前記それぞれのピクセルの反復性スコアを生成するように構成された全層畳み込みネットワークと、
前記ピクセルの前記信頼性スコアおよび前記反復性スコアに基づいて、前記それぞれのピクセルのスコアを生成するように構成されたスコアリングモジュールと、
上位Ｘ個のスコアを有する前記ピクセルのうちＸ個を選択し、ここで、前記Ｘは、１より大きい整数であり、前記選択されたＸ個のピクセルの位置および前記選択されたＸ個のピクセルの記述子を含む特徴点リストを生成するように構成された特徴点リストモジュールとを含む、システム。
前記スコアリングモジュールは、前記ピクセルのうち１つのピクセルのスコアを、前記ピクセルのうち前記１つのピクセルの反復性スコアと前記ピクセルのうち前記１つのピクセルの信頼性スコアを乗じたものと同一に設定する、請求項１に記載のシステム。
前記全層畳み込みネットワークは、前記信頼性スコアおよび前記反復性スコアを０と１の間に制限するように構成された、請求項２に記載のシステム。
前記Ｘは、１,０００以上の整数である、請求項１に記載のシステム。
前記全層畳み込みネットワークは、
前記イメージを受信し、前記イメージに基づいて第１の出力を生成するように構成された第１の畳み込み層と、
前記第１の出力を受信し、前記第１の出力に基づいて第２の出力を生成するように構成された第２の畳み込み層と、
前記第２の出力を受信し、前記第２の出力に基づいて第３の出力を生成するように構成された第３の畳み込み層と、
前記第３の出力を受信し、前記第３の出力に基づいて第４の出力を生成するように構成された第４の畳み込み層と、
前記第４の出力を受信し、前記第４の出力に基づいて第５の出力を生成するように構成された第５の畳み込み層と、
前記第５の出力を受信し、前記第５の出力に基づいて第６の出力を生成するように構成された第６の畳み込み層と、
前記第６の出力を受信し、前記第６の出力に基づいて第７の出力および第８の出力を生成するように構成された第７の畳み込み層とを含み、
前記全層畳み込みネットワークは、
前記第７の出力に基づいて前記それぞれのピクセルの記述子を生成し、
前記第８の出力に基づいて前記それぞれのピクセルの信頼性スコアを生成し、
前記第８の出力に基づいて前記それぞれのピクセルの反復性スコアを生成するように構成された、請求項１に記載のシステム。
前記第１の畳み込み層は、３ｘ３畳み込み層を含む、請求項５に記載のシステム。
前記第２の畳み込み層は、少なくとも１つの拡張層を有する３ｘ３畳み込み層を含む、請求項５に記載のシステム。
前記第３の畳み込み層は、３ｘ３畳み込み層を含む、請求項５に記載のシステム。
前記第４の畳み込み層は、少なくとも１つの拡張層を有する３ｘ３畳み込み層を含む、請求項５に記載のシステム。
前記第５の畳み込み層は、２ｘ２畳み込み層を含む、請求項５に記載のシステム。
前記第６の畳み込み層は、２ｘ２畳み込み層を含む、請求項５に記載のシステム。
前記第７の畳み込み層は、２ｘ２畳み込み層を含む、請求項５に記載のシステム。
前記第７の出力を受信し、前記第７の出力を正規化して、第９の出力を生成するように構成された正規化モジュールをさらに含む、請求項５に記載のシステム。
前記正規化モジュールは、Ｌ２正規化を使用して前記第７の出力を正規化するように構成された、請求項１３に記載のシステム。
前記第９の出力に基づいて前記それぞれのピクセルの記述子を生成するように構成された記述子モジュールをさらに含み、
前記それぞれのピクセルの記述子は、該当のピクセル内の特徴点の数学的表現を含む、請求項１３に記載のシステム。
前記第８の出力を要素別に２乗し、第１０の出力を生成するように構成された２乗モジュールと、
前記第１０の出力を受信し、前記第１０の出力に基づいて第１１の出力および第１２の出力を生成するように構成された第８の畳み込み層と、
前記第１１の出力を受信し、前記第１１の出力に基づいて第１３の出力を生成するように構成された第９の畳み込み層と、
前記第１３の出力に基づいて信頼性スコアを生成するように構成された第１０の畳み込み層と、
前記第１２の出力を受信し、前記第１２の出力に基づいて第１４の出力を生成するように構成された第１１の畳み込み層と、
前記第１４の出力に基づいて反復性スコアを生成するように構成された第１２の畳み込み層とをさらに含む、請求項５に記載のシステム。
前記第８の畳み込み層は、３ｘ３畳み込み層を含む、請求項１６に記載のシステム。
前記第８の畳み込み層は、少なくとも１つの拡張層をさらに含む、請求項１７に記載のシステム。
前記第９の畳み込み層は、１ｘ１畳み込み層および３ｘ３畳み込み層のうち１つの層または他の適切なタイプの層を含む、請求項１６に記載のシステム。
前記第１０の畳み込み層は、１ｘ１畳み込み層および３ｘ３畳み込み層のうち１つを含む、請求項１６に記載のシステム。
前記第１１の畳み込み層は、１ｘ１畳み込み層および３ｘ３畳み込み層のうち１つを含む、請求項１６に記載のシステム。
前記第１２の畳み込み層は、１ｘ１畳み込み層および３ｘ３畳み込み層のうち１つを含む、請求項１６に記載のシステム。
学習データセットを使用して平均精度（ＡＰ）を最大化することによって、前記全層畳み込みネットワークを学習させるように構成された学習モジュールをさらに含む、請求項１に記載のシステム。
イメージから特徴点を検出し、記述する方法であって、
複数のピクセルを含むイメージを受信するステップと、
連帯的で同時に、それぞれのピクセルの記述子を生成し、前記それぞれのピクセルの信頼性スコアを生成し、前記それぞれのピクセルの反復性スコアを生成するステップと、
前記ピクセルの前記信頼性スコアおよび前記反復性スコアに基づいて、前記それぞれのピクセルのスコアを生成するステップと、
上位Ｘ個のスコアを有する前記ピクセルのうちＸ個を選択するステップ−前記Ｘは、１より大きい整数である−と、
前記選択されたＸ個のピクセルの位置および前記選択されたＸ個のピクセルの記述子を含む特徴点リストを生成するステップとを含む、方法。
前記位置および前記記述子に基づいて前記イメージ内のオブジェクトを識別するステップをさらに含む、請求項２４に記載の方法。
イメージ内の特徴点を検出し、記述するためのシステムであって、
複数のピクセルを含むイメージを受信し、連帯的で同時に、それぞれのピクセルの記述子を生成し、前記それぞれのピクセルの信頼性スコアを生成し、前記それぞれのピクセルの反復性スコアを生成する手段と、
前記ピクセルの前記信頼性スコアおよび前記反復性スコアに基づいて、前記それぞれのピクセルのスコアを生成する手段と、
上位Ｘ個のスコアを有する前記ピクセルのうちＸ個を選択し、ここで、前記Ｘは、１より大きい整数であり、前記選択されたＸ個のピクセルの位置および前記選択されたＸ個のピクセルの記述子を含む特徴点リストを生成する手段とを含む、システム。