JP2022525264A

JP2022525264A - 特徴点検出

Info

Publication number: JP2022525264A
Application number: JP2022502320A
Authority: JP
Inventors: ソランジュガランストロン，プルーン; ザネット，サンドロイヴォセバスチァーノデ; アパストロプーロス，ステファノス
Original assignee: レチンエイアイメディカルアーゲー
Priority date: 2019-03-15
Filing date: 2020-03-12
Publication date: 2022-05-11
Also published as: US20220157047A1; CN113826143A; WO2020187705A1; EP3939006A1

Abstract

特徴点検出のためのモデルを訓練する方法は、第１の画像および第２の画像を取得することを含む。方法は、そのモデルを用いて、第１の画像に対する第１のスコアマップと、第２の画像に対する第２のスコアマップとを生成することを含む。方法は、第１のスコアマップに基づいて、第１の画像内の第１の複数の関心点を選択することを含む。方法は、第２のスコアマップに基づいて、第２の画像内の第２の複数の関心点を選択することを含む。第１の複数の関心点のうちの第１の関心点と、第２の複数の関心点のうちの第２の関心点とのペアワイズマッチングが実行される。グラウンドトゥルースに基づいて、ペアワイズマッチングの正しさがチェックされ、リワードマップが生成される。スコアマップとリワードマップが比較され、モデルの更新に使用される。

Description

本発明は、特徴検出に関するものである。本発明は、より詳細には、画像レジストレーションのための特徴検出に関するものである。本発明はさらに、検出された特徴点を用いた画像レジストレーションに関するものである。

２つ以上の画像を同じ大域的空間参照に整列させるプロセスである画像レジストレーションは、コンピュータビジョン、パターン認識、および医用画像解析の分野において重要な要素である。医療分野でのイメージングは困難な作業である。そのため、通常の写真撮影などに比べて、画質が悪くなることがある。ノイズやブラーなどの画像アーティファクトの存在や、画像化された組織の性質と相まって、自然画像に最適化された古典的な先行技術の特徴検出器では対応しきれない。さらに、新しい特徴検出器をドメインごとに手動で作成することは、時間のかかる作業であり、成功の保証はない。

既存のレジストレーションアルゴリズムは、領域ベースのアプローチと特徴ベースのアプローチに分類され得る。領域ベースのアプローチでは、一般的に、相互相関［１５］、相互情報量［３３、４］、位相相関［２４］などの類似性指標を用いて、画像ペアの強度パターンを比較し、変換を推定する。しかし、照明が変化した場合やオーバーラップする領域が小さい場合には、領域ベースのアプローチは困難または不可能になる。逆に、特徴ベースのアプローチでは、画像ペアの対応点を抽出し、検出された特徴点間の距離を最小化する変換を探索する。特徴ベースの手法は、領域ベースのレジストレーション手法に比べて、強度、スケール、回転などの変化に強く、そのため、医用画像のレジストレーションなどの問題に適していると考えられる。一般的に、２つの画像の特徴抽出とマッチングは、注目点の検出、各特徴の記述、対応する特徴のマッチング、マッチングを用いた画像間の変換の推定という４つのステップを含む。理解されるように、検出ステップはそれ以降のすべてのステップに影響を与えるため、レジストレーションを成功させるためには非常に重要である。高い画像のカバレッジと、コントラストの低い画像での安定したキーポイントが必要となる。

文献では、局所的な関心点検出器が徹底的に評価されている。ＳＩＦＴ［２９］は、コンピュータビジョンにおいて、おそらく最もよく知られた検出器／記述子である。ＳＩＦＴは、異なるスケールでコーナーやブロブを計算してスケール不変性を付加し、局所勾配を用いて記述子を抽出する。ＲｏｏｔＳＩＦＴ［９］は、ＳＩＦＴと比較して結果が向上することが示された。高速堅牢特徴量（Ｓｐｅｅｄｅｄ‐ＵｐＲｏｂｕｓｔＦｅａｔｕｒｅｓ、ＳＵＲＦ）［１２］は、Ｈａａｒフィルタと積分画像を用いたより高速の代替手法であり、それに対し、ＫＡＺＥ［７］は、非線形スケール空間を利用して、より正確なキーポイント検出を実現している。

眼底画像の分野では、血管樹と分岐点解析に頼る手法が広く用いられている［２８、２１］。しかし、血管樹を正確にセグメンテーションすることは難しく、また、血管が少ない画像ではレジストレーションに失敗することが多い。代替的レジストレーション技術は、再現可能な局所的特徴のマッチングに基づいている。Ｃｈｅｎらは、低品質のマルチモーダル網膜画像からＨａｒｒｉｓコーナーを検出し［２２］、部分的強度不変特徴（Ｈａｒｒｉｓ‐ＰＩＩＦＤ）記述子を割り当てた［１４］。重複領域が３０％を超えるような低品質の画像に対しても良好な結果を達成したが、再現性が低いという特徴がある。Ｗａｎｇら［４１］は、ＳＵＲＦ特徴量を用いて再現性を高め、大量の外れ値を排除するポイントマッチングの新手法を導入したが、重複領域が５０％未満になると成功率が大きく低下する。

また、Ｃａｔｔｉｎら［１３］は、ＳＵＲＦ法を用いて、血管がはっきりしない場合でも、網膜画像のモザイクを効率的に作成できることを示した。しかし、この手法は、自己相似性の高い画像の場合にしか成功しないようである。Ｄ－サドル検出器／記述子［３４］は、眼底画像レジストレーション（ＦＩＲＥ）データセットにおいて、レジストレーション成功率の点で従来の手法を上回ることが示されており［２３］、低品質な領域でも関心点を検出することができる。

最近では、深層学習の登場により、ＣＮＮアーキテクチャに基づく学習済み検出器が、最先端のコンピュータビジョン検出器を凌駕することが示された［１９、１７、４４、３２、１０］。学習不変特徴変換（ＬＩＦＴ）［３２］は、パッチを用いて完全に微分可能な深層ＣＮＮを学習し、古典的な運動からの構造復元（ＳｔｒｕｃｔｕｒｅｆｒｏｍＭｏｔｉｏｎ、ＳｆＭ）システムからの監視に基づいて、関心点の検出、方向推定、記述子の計算を行う。ＳｕｐｅｒＰｏｉｎｔ［１７］は、関心点検出器と記述子を訓練するための自己教師付きフレームワークを導入した。これは、ＬＩＦＴ、ＳＩＦＴ、有向Ｆａｓｔと回転Ｂｒｉｅｆ（ＯｒｉｅｎｔｅｄＦａｓｔａｎｄＲｏｔａｔｅｄＢｒｉｅｆ、ＯＲＢ）と比較して、ＨＰａｔｃｈｅｓ［１１］上でのホモグラフィ推定結果は最先端のものとなっている。しかし、訓練手順は複雑であり、自己教師型であるため、ネットワークはコーナー上の点しか見つけることができないという問題がある。局所特徴ネットワーク（ＬＦ‐ＮＥＴ）［３２］は、我々の手法に最も近い。Ｏｎｏらは、キーポイント検出器および記述子を、一方の枝が微分可能であって他方の非微分可能な枝の出力にフィードする２枝の設定で、エンド・ツー・エンドで訓練した。彼らは、検出器を、画像ペア間の再現性向けに最適化した。

Ｔｒｕｏｎｇら［３９］は、Ｒｏｏｔ‐ＳＩＦＴ、ＳＵＲＦ、ＫＡＺＥ、ＯＲＢ［３６］、二元ロバスト不変スケーラブルなキーポイント（ＢｉｎａｒｙＲｏｂｕｓｔＩｎｖａｒｉａｎｔＳｃａｌａｂｌｅＫｅｙｐｏｉｎｔｓ、ＢＲＩＳＫ）［２７］、高速網膜キーポイント（ＦＲＥＡＫ）［６］、ＬＩＦＴ、ＳｕｐｅｒＰｏｉｎｔ［１７］、ＬＦ‐ＮＥＴ［３２］を用いて、網膜眼底画像の画像マッチングとレジストレーション品質の両面から評価を行った。その結果、マッチング性能ではＳｕｐｅｒＰｏｉｎｔが他の製品よりも優れているが、レジストレーション品質ではＬＩＦＴが最も高い結果を示し、ＫＡＺＥとＳＩＦＴが僅差で続くことがわかった。彼らは、これらの検出器の問題点として、互いに密集した位置にある特徴点を検出し、同様の記述子で特徴付けられる可能性があることを強調した。これは、偽のマッチにつながる可能性があり、したがって、不正確なまたは失敗したレジストレーションにつながる。

本発明の一態様は、上記で概説した問題の少なくとも１つを解決すること、または本明細書で説明した利点の少なくとも１つを提供することである。

本発明の第１の態様によれば、特徴点検出のためのモデルを訓練する方法は、
第１の画像および第２の画像を取得するステップと、
前記モデルを用いて、前記第１の画像に対する第１のスコアマップおよび前記第２の画像に対する第２のスコアマップを生成するステップと、
前記第１のスコアマップに基づいて、前記第１の画像内の第１の複数の関心点を選択するステップと、
前記第２のスコアマップに基づいて、前記第２の画像内の第２の複数の関心点を選択するステップと、
前記第１の複数の関心点のうちの１つの第１の関心点と、前記第２の複数の関心点のうちの１つの第２の関心点とのペアワイズマッチングを行うステップと、
前記第１の画像と前記第２の画像との間のグランドトゥルース変換に基づいて、前記ペアワイズマッチの正しさをチェックして、リワードマップを生成するステップと、
前記スコアマップと前記リワードマップを結合または比較するステップと、
前記結合または比較の結果に基づいて前記モデルを更新するステップとを含む。

第１の画像と第２の画像との間のグランドトゥルース変換に基づくスコアマップとリワードマップの結合または比較の結果に基づいてモデルを更新することにより、２つの画像をレジストレーションするという目的にさらに的を絞った、高度に直接的なリワードが得られる。したがって、モデルの訓練が改善される。本明細書に開示される任意の実施形態において、モデルは、例えば、学習された関数、人工ニューラルネットワーク、または分類器であってもよい。

前記複数の関心点を選択するステップは、前記画像内の任意の点から最近傍関心点までの距離に最大制限を課すことを含み得る。これにより、ほとんどの関心点が画像の小さい領域に集まってしまう状況を回避できる。この機能は、全体的に優れた画像レジストレーションをもたらすマッチングポイントを得ることを助長する。

前記ペアワイズマッチングは、前記第１の関心点において前記第１の画像で検出された特徴と、前記第２の関心点において前記第２の画像で検出された特徴との間の類似性に基づいて実行されてもよい。これにより、他方の画像において類似した特徴記述子を有する関心点に、関心点をマッチングさせることができる。

前記マッチングはさらに、前記第１の関心点を、複数の第２の関心点のうちの１つの第２の関心点にマッチングすることによって第１の方向に実行されてもよく、前記第２の関心点は、前記第１の関心点における特徴に最も類似した特徴を有する。これにより、マッチする関心点の適切な選択をもたらす。

前記マッチングはさらに、前記第２の関心点を複数の第１の関心点のうちの１つの第１の関心点にマッチングすることによって第２の方向に実行されてもよく、前記第１の関心点は、前記第２の関心点における特徴に最も類似した特徴を有する。これは、マッチングする関心点の選択を改善するのに役立つ。

前記リワードマップは、グランドトゥルースデータに従って、マッチングに成功した関心点に対するリワードを示してもよく、前記グランドトゥルースデータに従って、マッチングに失敗した関心点に対するリワードがないことを示してもよい。これは、より的を絞ったリワードマップを提供することで、訓練手順を改善するのに役立つ。

前記結合または比較は、前記スコアマップおよびリワードマップを前記関心点についてのみ結合または比較することを含む。関心点ではない他の点は、数が多く、訓練手順を助けるための十分な情報を追加しない可能性がある。

前記結合または比較が、偽陽性マッチを（おそらくランダムに）選択し、真陽性マッチおよび前記偽陽性マッチの選択分についてのみ前記スコアマップおよびリワードマップを結合または比較することによって前記真陽性マッチの数と前記偽陽性マッチの数とを均衡させることを含んでもよく、前記真陽性マッチとは、正しさのチェックに合格した関心点であり、前記偽陽性マッチとは、正しさのチェックに合格しなかった関心点である。これは、「マッチしない」に対する訓練へのバイアスをさらに減らすのに役立つ。

前記結合または比較は、前記スコアマップと前記リワードマップの間の二乗差の合計を計算することを含んでもよい。これは、訓練手順の適切な成分を構成してもよい。

本発明の別の態様によれば、特徴点検出のためのモデルを訓練する装置は、制御ユニットと、メモリを備え、前記メモリは、前記制御ユニットに、第１の画像と第２の画像を取得するステップと、前記モデルを用いて、前記第１の画像に対する第１のスコアマップおよび前記第２の画像に対する第２のスコアマップを生成するステップと、前記第１のスコアマップに基づいて、前記第１の画像内の第１の複数の関心点を選択するステップと、前記第２のスコアマップに基づいて、前記第２の画像内の第２の複数の関心点を選択するステップと、前記第１の複数の関心点のうちの１つの第１の関心点と、前記第２の複数の関心点のうちの１つの第２の関心点とのペアワイズマッチングを行うステップと、前記第１の画像と前記第２の画像との間のグランドトゥルース変換に基づいて、前記ペアワイズマッチの正しさをチェックして、リワードマップを生成するステップと、前記スコアマップと前記リワードマップを結合または比較するステップと、前記結合または比較の結果に基づいて、前記モデルを更新するステップと、を実行させる命令を含む。

本発明の別の態様によれば、第１の画像を第２の画像にレジストレーションする方法が提供され、前記方法は、第１の画像と第２の画像を取得するステップと、請求項１から１０のいずれかに記載の方法または装置によって生成されたモデルを用いて、前記第１の画像に対する第１のスコアマップおよび前記第２の画像に対する第２のスコアマップを生成するステップと、前記第１のスコアマップに基づいて、前記第１の画像内の第１の複数の関心点を選択するステップと、前記第２のスコアマップに基づいて、前記第２の画像内の第２の複数の関心点を選択するステップと、前記第１の複数の関心点のうちの１つの第１の関心点と、前記第２の複数の関心点のうちの１つの第２の関心点とのペアワイズマッチングを行うステップと、を含む。

前記複数の関心点を選択するステップは、前記画像内の任意の点から最近傍関心点までの距離に最大制限を課すことを含んでもよい。

前記ペアワイズマッチングは、前記第１の関心点において前記第１の画像で検出された特徴と、前記第２の関心点において前記第２の画像で検出された特徴との間の類似性に基づいて実行されてもよい。

前記マッチングは、前記第１の関心点を、複数の第２の関心点のうちの１つの第２の関心点にマッチングすることによって第１の方向に実行されてもよく、前記第２の関心点は、前記第１の関心点における特徴に最も類似した特徴を有する。

前記マッチングはさらに、前記第２の関心点を、複数の第１の関心点のうちの１つの第１の関心点にマッチングすることによって第２の方向に実行されてもよく、前記第１の関心点は、前記第２の関心点における特徴に最も類似した特徴を有する。

本発明の別の態様によれば、第１の画像を第２の画像にレジストレーションする装置が提供され、装置は、制御ユニット、例えば、少なくとも１つのコンピュータプロセッサと、メモリを備え、前記メモリは、前記制御ユニットに、第１の画像と第２の画像を取得するステップと、記載された方法または装置によって生成されたモデルを用いて、前記第１の画像に対する第１のスコアマップおよび前記第２の画像に対する第２のスコアマップを生成するステップと、前記第１のスコアマップに基づいて、前記第１の画像内の第１の複数の関心点を選択するステップと、前記第２のスコアマップに基づいて、前記第２の画像内の第２の複数の関心点を選択するステップと、前記第１の複数の関心点のうちの１つの第１の関心点と、前記第２の複数の関心点のうちの１つの第２の関心点とのペアワイズマッチングを行うステップと、を実行させる命令を含む。

本発明の別の態様によれば、記載された方法または装置によって生成されたモデルが提供される。

本発明の一態様は、キーポイント検出のための半教師付き学習方法である。検出器は、多くの場合、再現性（ＬＦ‐ＮＥＴなど）に対して最適化されており、画像ペア間の関連するマッチの品質に対しては最適化されていない。本発明の一態様は、強化学習を使用して、再現性のある安定した関心点を密にカバーして抽出し、特定のドメイン上で正しいマッチングを最大化するように特別に設計された訓練手順である。このような特定のドメインの例は、困難な網膜細隙灯画像である。

当業者であれば、上述の特徴は、有用と思われる任意の方法で組み合わせ得ることを理解できるだろう。さらに、システムおよび装置に関して記載された修正および変形は、同様に、方法およびコンピュータプログラム製品に適用されてもよく、また、方法に関して記載された修正および変形は、同様に、システムおよび装置に適用されてもよい。

以下、本発明の態様を、図面を参照しながら、例を用いて解明する。図面は図式化されており、縮尺通りに描かれていない場合がある。

実用例でポイントがどのようにマッチングされ得るかを示す図である。画像ペアの訓練のステップの一例を示す図である。損失計算の一例を示す図である。Ｕｎｅｔ‐４の一例の模式図である。細隙灯データセットの画像の例を示す図である。非前処理済みデータを用いて、２０６ペアの細隙灯データセットについて評価された検出器／記述子の性能指標の概要を示す図である。前処理されたデータを用いて、２０６ペアの細隙灯データセットについて評価された検出器／記述子の性能指標の概要を示す図である。別の実用例でポイントがどのようにマッチングされ得るかを示す図である。連続した画像をレジストレーションして作成したモザイク図である。特徴点検出のためのモデルを訓練するシステムのブロック図である。特徴点検出用モデルを学習する方法のフローチャートである。第１の画像を第２の画像にレジストレーションするシステムのブロック図である。第１の画像を第２の画像にレジストレーションする方法のフローチャートである。

特定の例示的な実施形態について、添付の図面および紙面を参照しながら、より詳細に説明する。

詳細な構造や要素など、本明細書に開示される事項は、例示的な実施形態の包括的な理解を助けるために提供される。したがって、例示的な実施形態は、これらの具体的に定義された事項がなくても実行され得る。また、よく知られている操作や構造は、不必要な詳細によって説明が不明瞭になり得るため、詳細には記載されていない。

本明細書で開示された技術は、任意のアプリケーション領域の画像レジストレーションに適用され得る。

この問題に対する、既知の完全教師付き機械学習ソリューションは、２つの異なる視点からの画像の位置を関連付ける人手による注釈付きのグラウンドトゥルースを必要とする。自然画像では、グラウンドトゥルースは静的な設定で作成できるが、医療データは非常に動的であり、患者が関与している。このため、グラウンドトゥルースの取得は非常に困難であり、実現不可能となっている。

多くの特徴検出器やキーポイント検出器で検出された特徴の分布は、エッジやコーナーに集中している。医療分野では通常、広い領域には特徴がないため、特徴点が凝集し、その結果、不正確な変換につながるマッチングが発生する。

例として以下のような側面が挙げられる。
１．従来技術では、再現性などの間接的な指標を用いていたが、本技術ではターゲット領域での最終的なマッチング成功率を用いて訓練を行う。
２．アルゴリズムは、合成増強のみで訓練され、グラウンドトゥルースデータの問題を解決する。これにより、ターゲットデータのみで検出器を訓練できる。
３．特徴点が画像全体に均等に分布している。

次のような利点が、部分的または完全に実現され得る。
１．本発明の特定の実施形態を使用することにより、特徴点検出器を学習し、特定の、他の方法では実行不可能なイメージングドメイン向けに最適化できる。さらに、優れた特徴記述子が再利用され得る。
２．グラウンドトゥルースが必要なく、ターゲットドメインからのサンプルのみが必要である。
３．より良いマッチング率を得るために前処理や特徴の手動による加工は必要ない。
４．特徴点（およびマッチング）が均等に分布しているため、２つの画像間の推定変換の精度が大幅に向上する。

次のようなさらなる利点も部分的または完全に実現され得る。
１．対象領域からより多くのデータが得られた場合、それを使用して検出器をさらに改善できる。
２．検出器を記述子アルゴリズムに最適に適合させ得る。より優れた記述子が見つかった場合、実装コストやデータを追加することなく、新しい検出器が訓練され得る。

本発明の一態様は、画像中の特徴点を検出するモデルを訓練するための訓練手順である。この訓練手順は、あらゆる種類の画像に適用され得る。これは、例えば、医療分野、衛星画像や屋外の画像に対しても可能である。また、画像は、携帯電話や携帯型カメラ、超音波診断装置、眼科用細隙灯撮像装置などによって作成されてもよい。

例えば、画像は２Ｄ画像であっても３Ｄ画像であってもよい。２Ｄ画像の場合、２Ｄ（または１Ｄ）の特徴が検出されてもよく、点の座標は２次元であってもよい。３Ｄ画像の場合、１Ｄ、２Ｄまたは３Ｄの特徴が検出されてもよく、点の座標は３次元であってもよい。

例えば、画像は１Ｄ画像であってもよい。１Ｄ画像の場合、１Ｄの特徴が検出され、点の座標は１次元であってもよい。一般に、画像は、任意の正の整数Ｎに対してＮ次元であり得る。

例えば、画像は、写真やＸ線画像などである。

例えば、モデルによって検出された特徴点は、画像のレジストレーションに使用されてもよい。

本発明の一態様は、特定の特徴点記述子に対する最適な特徴点検出を求める方法または装置である。その意味で、このアルゴリズムは、ターゲット記述子アルゴリズムのマッチング能力を最適化する画像内の特徴点を見つける。このターゲット記述子アルゴリズムは、例えば、添付論文に記載されているように、ｒｏｏｔＳＩＦＴであり得るが、ＯＲＢ、ＢＲＩＳＫ、ＢＲＩＥＦなどの他の記述子であってもよい。

以下の説明では、関心点という用語とキーポイントという用語は互換的に使用される。

モデルの訓練には、次のようなステップが使用され得る。

１．グラウンドトゥルースホモグラフィＨ＝Ｈ_Ｉ，Ｉ’に関連する一対の画像Ｉ∈Ｒ^Ｈ×Ｗ，Ｉ’∈Ｒ^Ｈ×Ｗが与えられた場合、モデルは各画像に対する以下のスコアマップを提供してもよい。
Ｓ＝ｆ_θ（Ｉ），Ｓ’＝ｆ_θ（Ｉ^０）。
このステップでは、２つのホモグラフィ変換Ｈ_ＩおよびＨ_Ｉ’をそれぞれ使用して、原画像から２つの画像ＩおよびＩ’を生成してもよい。すると、それら２つの画像間のホモグラフィは、Ｈ＝Ｈ_Ｉ ^＊Ｈ_Ｉ’となる。例えば、ホモグラフィ変換Ｈ_ＩおよびＨ_Ｉ’は、ランダムジェネレータを用いてランダムに生成されてもよい。２つのキーポイント確率マップＳとＳ’は、モデルを使用して以下のように生成される。
Ｓ’＝ｆ_θ（Ｉ），Ｓ’＝ｆ_θ（Ｉ’）

２．ウィンドウサイズｗの標準的な微分不可能ノンマキシマムサプレッション（ＮＭＳ）を用いて、両方のスコアマップ上で関心点の位置を抽出してもよい。このステップでは、関心点の位置を、ウィンドウサイズｗのノンマキシマムサプレッションを用いて両スコアマップＳ、Ｓ’上で抽出してもよい。これは、すべてのマス目ｗ×ｗにおいて、最大値のみを局所的に保持し、他のすべての値を０に設定することを意味する。これにより、画像全体ではっきりとした疎な点が得られる。つまり、キーポイント確率マップＳ、Ｓ’の各マス目ｗ×ｗに最大値のキーポイントのみが保持されるため、キーポイントの数が減ることになる。

ウィンドウサイズｗは試行錯誤により選択してもよい。この幅ｗは、予め与えられていても（固定のアルゴリズムパラメータ）、入手した画像Ｉに基づいて動的に決定されてもよい。

これは、この手順における任意のステップであることを理解されたい。さらに、標準的な微分不可能ＮＭＳの代わりに、代替アルゴリズムを使用してもよい。

３．検出された各キーポイントに対して、１２８のｒｏｏｔ‐ＳＩＦＴ特徴記述子が計算されてもよい。このステップでは、例えば、ｒｏｏｔＳＩＦＴ記述子アルゴリズムを使用して、ステップ２で見つかった各キーポイントに特徴記述子ベクトルを割り当てる。特徴記述子ベクトルは、例えば、１２８の長さを有していてもよい。他の長さを代わりに使用してもよい。本明細書の他の箇所で述べたように、別のタイプの特徴記述子を代替的に使用してもよい。

例えば、特徴記述子は、画像ＩまたはＩ’に存在する画像情報に基づいて計算される。例えば、ＳＩＦＴ特徴記述子は、キーポイント周辺の画像ＩまたはＩ’における画像勾配を記述する。

４．画像Ｉからのキーポイントは、例えば［１］のようなブルートフォースマッチャーを用いて、画像Ｉ’のキーポイントとマッチさせてもよいし、逆に、画像Ｉ’のキーポイントを画像Ｉからのキーポイントとマッチさせてもよい。例えば、両方向で発見されたマッチのみが保持される。このステップでは、画像Ｉからのキーポイントが、他方の画像Ｉ’の、ステップ３）で計算された最も近い記述子を用いて、画像Ｉ’のキーポイントとマッチングされてもよい。このため、画像Ｉのキーポイントに対して計算された記述子出力を、画像Ｉ’のキーポイントに対して計算された記述子出力と比較してもよい。ここで、「最も近い記述子」とは、事前に定義された類似性尺度に従って最も類似した記述子出力を意味する。特定の実装では、２番目に近いポイントが非常に類似した記述子を有する場合、マッチングは破棄される。

マッチングは，両方向（画像Ｉから画像Ｉ’へ，および画像Ｉ’から画像Ｉへ）に行い得る。両方向で発見されたマッチのみが保持される。代替的実装では、一方の方向のみで見つかったマッチの一部またはすべてが、マッチのセットに保持されてもよい。

任意の適切な種類のマッチャーが使用され得る。このステップは、ブルートフォースマッチャーに限定されない。

特定の実装では、ステップ４のマッチングは、グラウンドトゥルースホモグラフィＨ（またはＨ_ＩまたはＨ_Ｉ’）を考慮することなく、画像ＩおよびＩ’の両方における記述子の出力に基づいて実行される。

５．マッチは、グラウンドトゥルースホモグラフィＨに従ってチェックされる。画像Ｉの対応するキーポイントｘが、Ｈを適用した後のＩ^０のポイントｘ^０の近傍に入る場合、マッチは真陽性と定義される。これは次のように定式化され得る。

式中、εは、例えば、３画素として選択され得る。Ｔを真のマッチングの集合とする。

このステップでは、ステップ４）で見つかったすべてのマッチングポイントについて、画像ＩのマッチングポイントがホモグラフィＨを用いて画像Ｉ’の点に変換される。例えば、画像Ｉのマッチングポイントの座標は、ホモグラフィＨを用いて画像Ｉ’の点の対応する座標に変換される。特定の実施形態では、ステップ４）で見つかったマッチングポイントのサブセットのみが変換される。

画像Ｉ’内のグラウンドトゥルース対応点を得るためにホモグラフィＨを使用して変換した後の画像Ｉ内のキーポイントｘが、ステップ４で見つかったマッチングポイントｘ’に十分に近い場合、マッチングは真陽性と定義されてよい。

例えば、「十分に近い」とは、キーポイントｘのグラウンドトゥルース対応点が、マッチングポイントｘ’から特定の閾値イプシロンよりも小さい距離を有することを意味すると定義され得る。この距離は、例えば、ユークリッド距離であってもよい。特定の実装では、イプシロンは３画素であってもよい。しかし、これは限定ではない。

モデルｆ_θは、ニューラルネットワーク、例えば、畳み込みニューラルネットワークであってもよい。しかしながら、これは限定ではない。代替的な実施形態では、統計モデルなど、他のタイプのモデルが使用され得る。

本発明の一態様によれば、ステップ２、３、４、および／または５は、モデルを訓練するために使用されてもよい。この訓練は、モデルまたはニューラルネットワークのバックプロパゲーションを含んでもよい。

例えば、訓練手順によって最適化される関数（すなわち、コスト関数または損失）は、ステップ５で見つかったマッチに基づいてもよい。

したがって、キーポイントのマッチング能力が最適化され得る。

損失関数は、以下のように提供されてもよい。

ここで、リワード行列Ｒは、以下のように定義され得る。

しかし、上記文献のＬ_{ｓｉｍｐｌｅ}の定式化の欠点は、場合によっては、陽性リワードを与えられたポイントと陰性リワードを与えられたポイントとの間に比較的大きなクラスの不均衡が生じ、特に訓練の最初の段階では、後者が圧倒的に優勢になることであると考えられる。ほとんどがゼロの値であるリワードＲが与えられた場合、モデルｆ_θは、レジストレーションのための画像特徴に対応するキーポイントの望ましい表示ではなく、ゼロの出力に収束する可能性がある。

好ましくは、この不均衡を解消するために、サンプルマイニングを使用する。つまり、すべてのｎ個の真陽性点を選択し、すべての偽陽性ではなく、偽陽性のセットから追加のｎ個の点をランダムにサンプリングする。２ｎ個の真陽性特徴点と、マイニングされた偽陽性キーポイントを通してのみ、バックプロパゲートを行い得る。

代替的に、バックプロパゲーションに用いる真陽性点と偽陽性点の数は同一でなくてもよい。真陽性点の数に対して、偽陽性点の数がある程度減っていれば十分である。

このようにして、真陽性キーポイントと偽陽性キーポイントの数が（ほぼ）同じになる。これで、真陽性サンプル数と偽陽性サンプル数における不均衡の回避を助長できる。

偽陽性よりも真陽性の方が多い場合には、見つかったすべてのマッチに対して勾配をバックプロパゲーションしてもよい。

このマイニングは、数学的には、真陽性キーポイントの位置と、マイニングされた（偽陽性）特徴点の（ランダムな）サブセットの位置で１に等しく、それ以外では０に等しいマスクＭとして定式化され得る。

したがって、損失は例えば以下のように定式化され得る。

好ましくは、損失は、マスクＭによる関与する特徴点のそれぞれの損失の平均値として定式化され得る。

式中、ドットは要素ごとの乗算を意味し、上付きの２は要素ごとの二乗を意味し、マイナスは要素ごとの減算を意味し、総和は行列のすべての要素に対して行われる。モデルｆ_θの出力は、その点がキーポイントである確率または可能性を示し得る。

好ましくは、損失関数は、特徴記述子に従ってマッチすると判断された点のみに基づいて計算される。特定のアプリケーションでは、真陰性に対して訓練を行わないことで、より良い結果および／またはより安定した結果が達成され得る。

ステップ２は、画像上にキーポイントをより規則的に分散させるのに役立ち得る。例えば、キーポイント確率マップ上に幅ｗ、高さｈの固定された非最大サプレッションウィンドウを設けることで、２つのキーポイント間の最大距離がｘ方向に２^＊ｗ、ｙ方向に２^＊ｈとなることを確実にする。例えば、ウィンドウの幅ｗは、ウィンドウの高さｈと等しくてもよい。または、ウィンドウの大きさを画像に依存させ、例えば画像の情報量に依存させることも可能である。

ステップ３で生成された記述子は、それぞれの画像のキーポイントに存在する特徴の記述子の間の類似性に基づいて、画像Ｉのキーポイントを画像Ｉ’のキーポイントにマッチングするために使用されてもよい。

異なるタイプの記述子を使用してもよい。例えば、ＳＩＦＴは（検出器と記述子の両方のコンポーネントを有する）適切な記述子であってよい。

一般的に、マッチングは３つのステップで行われてもよい。
１）２つの画像から関心のある特徴点を検出する。
２）検出された各特徴点について、一意の記述（特徴ベクトル）を生成する。
３）特徴ベクトル間の類似性または距離尺度（ユークリッド距離など）を用いて、一方の画像の特徴点を他方の画像の特徴点にマッチングする。

本方法の利点は、キーポイント確率マップを生成する前に、画像の前処理を行う必要がないことであると考えられる。モデルまたはニューラルネットワークを使用してステップ１でキーポイント確率マップを生成する場合、モデルまたはニューラルネットワークは、より良いキーポイントのための最適化プロセスにおいて、暗黙的に前処理を行うことを学習してもよい。

説明した例では、画像を合成的に変換して（ランダムホモグラフィを使用して）訓練セットを作成している。しかし、この手法は，実際のデータペアを訓練するためにも使用され得る。その場合例えば、グラウンドトゥルースホモグラフィＨは、人間の観察者または別の方法で決定され得る。

本明細書で開示の技術を用いて訓練されたネットワークは、フルサイズのグレースケール画像上のＧＬＡＭｐｏｉｎｔｓと呼ばれる安定した関心点の位置を予測できる。以下では、使用する訓練セットの生成と訓練手順の例を開示する。標準的な畳み込みネットワークアーキテクチャが採用される可能性があるため、これらのアーキテクチャについては最後に簡単に説明するのみである。

本発明者らは、糖尿病性網膜症（ＤＲ）、緑内障、加齢黄斑変性症（ＡＭＤ）などの様々な眼疾患の診断に広く用いられているヒトの網膜のデジタル眼底画像に着目した研究を行っている［３７、４７］。同じセッションで取得された、オーバーラップが小さい網膜画像の場合、レジストレーションを使用して、網膜のより広い領域を描写するモザイクを作成できる。画像のモザイク処理により、眼科医は網膜を１枚の大きな画像で表示することができ、診断や治療計画を立てる際に役立つ。また、異なる時間に撮影された網膜画像のモザイク処理は、眼疾患の進行を監視したり、識別したりするのに重要であることが示されている。さらに重要なことに、ＤＲの眼科レーザー治療において、レジストレーションの応用が模索されている。レジストレーションは、手術中に血管をリアルタイムで追跡し、網膜へのレーザー照射を正確に行い、健康な組織へのダメージを最小限に抑えることを確実にする。

モザイク処理は、通常、画像から再現性のある関心点を抽出し、それらを関連付ける変換を探索することに依存する。その結果、キーポイントの検出は、このパイプラインの中で最も重要な段階であり、それ以降のすべての段階、つまりレジストレーションの成功を左右する条件となる。

同時に、従来の特徴検出器は汎用的なものであり、屋外で、合焦し、エッジやコーナーがシャープでノイズの少ない画像に対して手動で最適化されている。しかし、拡大され、歪んでおり、ノイズが多く、合焦の保証がなく、エッジがシャープでない軟部組織が描かれている可能性がある医用画像では、通常、機能しない（図３参照）。

図３は、細隙灯データセットからの画像の例で、レジストレーションにとって困難な条件を示している。Ａ）血管が少なく、露出オーバーのため、コントラストやコーナーが弱く、Ｂ）モーションブラー、Ｃ）フォーカスブラー、Ｄ）撮影時のアーティファクトと反射。

このような画像では、従来の手法では最適な結果が得られず、レジストレーションの後の段階で、ランダムサンプリングコンセンサス（ＲａｎＳａＣ）［２０］、バンドル調整［３８］、同時定位とマッピング（ＳＬＡＭ）［１８］など、より高度な最適化が必要となる。これらのケースでは、特徴点のグラウンドトゥルースが欠落しているため、教師付き学習法は失敗するか、適用できない。

本開示では、半教師付きの方法で特徴点を学習する方法が開示されている。学習済み特徴検出器は、ヒューリスティックに基づく手法よりも優れた性能を呈することが示されたが、それらは通常、再現性向けに最適化されており、その結果、最終的なマッチングの際に性能が低下する可能性がある。一方、本開示によれば、ＧＬＡＭｐｏｉｎｔｓと呼ばれるキーポイントは、最終的なマッチング能力のために訓練されてもよく、例えば、スケール不変特徴変換（ＳＩＦＴ）記述子と関連付けられた場合、マッチング性能とレジストレーション品質において、先行技術を凌駕する。

図１は、一対の細隙灯画像の間で検出されたキーポイントとそのマッチングの例を示す。第１列は原画像であり、第２列は前処理済みデータを示す。検出されたキーポイントは白で示されている。白線は真陽性マッチを、黒線は偽陽性マッチを示す。

図１に示すように、ＧＬＡＭｐｏｉｎｔｓ（Ａ行で示す）は、ＳＩＦＴ（Ｂ行で示す）よりも多くの正しいマッチを生み出している。特徴点に基づいたレジストレーションは、ポイントマッチングと変換の推定により、本質的に微分不可能である。強化学習（ＲＬ）を用いると、検出されたポイントを古典的なＲＬの意味での決定と仮定することで、この問題を回避できる。これにより、特定の画像モダリティに特化した畳み込みニューラルネットワーク（ＣＮＮ）の学習に、重要な性能指標であるマッチング能力を直接使用することが可能になる。

訓練されたネットワークは、フルサイズのグレースケール画像上の安定した関心点の位置を予測できる。これらの関心点を、本明細書では「ＧＬＡＭｐｏｉｎｔｓ」と呼ぶ。以下では、訓練セットの生成方法および訓練手順を開示する。標準的な畳み込みネットワークアーキテクチャを使用することが可能であるため、このアーキテクチャについては最後に簡単に説明するにとどめる。

一例として、眼科分野の訓練セット、すなわち、レーザー治療に使用される細隙灯眼底映像を選択した。このアプリケーションでは、網膜組織を正確に切除するためにライブレジストレーションが行われる。例となる訓練データセットは、３００～７００画素×１５０～４００画素の範囲の異なる解像度を有する１３３６画像のベースセットからの画像で構成されている。これらの画像は、複数のカメラやデバイスで撮影されており、画像モダリティの多様性をカバーしている。これらの画像は、健康な人や糖尿病性網膜症の人など、１０人の異なる患者の眼の検査から得られたものである。フル解像度のサンプルは、大きな画像にゼロでパディング、またはランダムに切り抜く等で２５６×２５６画素に縮小した。このサイズ縮小は、学習プロセスを高速化し、画像の数を増やすために行われた。しかし、上述の寸法と訓練セットの内容は、単に非限定的な例として本明細書に提供されていることに留意されたい。

ＢをサイズＨ×Ｗのベース画像のセットとする。ステップｉごとに、２つの別々の、ランダムにサンプリングされたホモグラフィ変換ｇ_ｉ，ｇ’_ｉを適用することで、原画像Ｂ_ｉから画像ペアＩ_ｉ，Ｉ’_ｉが生成される。したがって画像Ｉ_ｉと画像Ｉ’_ｉは，ホモグラフィ

に基づいて関連づけられている。ホモグラフィの生成方法については、本明細書の別の箇所で詳しく説明している。幾何学的変換に加えて、ガウスノイズ、コントラストの変化、照明、ガンマ、モーションブラー、画像の逆数など、標準的なデータ拡張を使用してもよい。これらの外観変換のサブセットは、各画像ＩおよびＩ’に対してランダムに選択されてもよい。ある実施形態では、ネットワークが同じ画像ペアを２度見ることがないように、各ステップでベース画像に異なる幾何学的変換と外観変換が適用される。

特徴点検出器を訓練するには、古典的な強化学習（ＲＬ）の機能を利用してもよい。ＲＬは、ある環境下での行動の確率を推定し、いくつかのステップでリワードを最大化することを目的としている。特徴点検出は、画像のすべての位置で１つの行動をとること、すなわち、特徴点として選択するか、背景として選択することとみなすことができる。学習した関数は次のように定義され得る。
ｆ_θ（Ｉ）→－Ｓ
ここでＳは、画素単位の特徴点確率のマップを表す。キーポイントの位置の直接的なグラウンドトゥルースがない場合、代わりにリワードを計算できる。このリワードは、マッチングの成功に基づくものであり得る。このマッチングの成功は、コンピュータビジョンの古典的なマッチングステップの後に計算されてもよい。

訓練は以下のように行われてもよい。
１．グラウンドトゥルースホモグラフィＨ＝Ｈ_Ｉ，Ｉ’に関連する一対の画像Ｉ∈Ｒ^Ｈ×Ｗ，Ｉ’∈Ｒ^Ｈ×Ｗが与えられた場合，モデルは，各画像に対する以下のスコアマップを提供してもよい。
Ｓ＝ｆ_θ（Ｉ）およびＳ’＝ｆ_θ（Ｉ^０）。
２．関心点の位置は、標準的な微分不可能ノンマキシマムサプレッション（ＮＭＳ）を用いて、ウィンドウサイズｗで両方のスコアマップ上に抽出されてもよい。
３．検出された各キーポイントに対して、１２８個のｒｏｏｔＳＩＦＴ特徴記述子が計算される。
４．例えば［１］のようなブルートフォースマッチャーを用いて、画像Ｉからのキーポイントが画像Ｉ’のキーポイントとマッチングされ得る、または、画像Ｉ’のキーポイントが画像Ｉからのキーポイントとマッチングされ得る。例えば、両方向で発見されたマッチのみが保持される。
５．マッチは、グラウンドトゥルースホモグラフィＨに従ってチェックされる。画像Ｉの対応するキーポイントｘが、Ｈを適用した後のＩ^０のポイントｘ^０の近傍に入る場合、マッチは真陽性と定義される。これは次のように定式化される。

ここで、εは，例えば、３画素として選択され得る。Ｔは真のマッチのセットを表す。

古典的なＲＬの枠組みでは、ある行動が取られ、つまり特徴点が選択され、真陽性点の集合に入った場合、陽性リワードが得られる。すべてのその他の点／画素には０のリワードが与えられる。そして、リワード行列Ｒは、例えば以下のように定義され得る。

これにより、次のような損失関数が得られる。

しかし、この方式の大きな欠点は、陽性リワードを与えられた点と陰性リワードを与えられた点との間のクラスの不均衡が大きく、特に訓練の最初の段階では、後者が圧倒的に優勢になる可能性があることである。ほとんどがゼロの値であるリワードＲが与えられた場合、ゼロの出力に収束する可能性がある。ハードマイニングは記述子の訓練を促進することが示されている［３７］。偽陽性マッチに対してネガティブハードマイニングを行うことで、本手法のパフォーマンスも向上する可能性があるが、本研究では検討していない。代わりに、不均衡を解消するために、サンプルマイニングを使用してもよく、すべてのｎ個の真陽性点と追加のｎ個を、偽陽性のセットからランダムにサンプリングすることができる。バックプロパゲーションは、２ｎ個の真陽性特徴点とマイニングされた偽陽性キーポイントを介して実行されてもよい。特定の実施形態では、バックプロパゲーションは、２ｎ個の真陽性特徴点とマイニングされた偽陽性キーポイントを通じてのみ実行される。偽陽性よりも真陽性の方が多い場合は、見つかったすべてのマッチに対して勾配をバックプロパゲーションしてもよい。このマイニングは、マスクＭとして数学的に定式化することができ、真陽性キーポイントの位置とマイニングされた特徴点のサブセットの位置では１に等しく、それ以外では０に等しくなる。したがって損失は次のように定式化され得る。

ここで、記号・は要素ごとの乗算を表す。

図２Ａは、ある基本画像Ｂのエポックｉにおける画像ペアＩとＩ’の訓練手順を示す。図２Ｂは、損失計算の例を示す。図２Ｃは、Ｕｎｅｔ‐４の模式図である。

訓練ステップの概要を図２に示す。重要なことに、ステップ１のみが損失に関して微分可能であることが観察されよう。学習は、微分不可能なアクションの結果であるリワードに対して、監督なしで直接行われる。また、使用されている記述子は、回転不変性のないＳＩＦＴバージョンであることにも注目されたい。その理由は，細隙灯画像では、回転不変性ＳＩＦＴ検出器／記述子よりも、回転依存性ＳＩＦＴ検出器／記述子の方が性能が良いためである。評価の目的は、検出器のみを調査することであり、そのため、一貫性を保つために回転依存型ＳＩＦＴ記述子を使用した。

ｆ_θの学習には、最終的にシグモイド活性化を行う標準的な４レベルの深層Ｕｎｅｔ［３４］を用いた。これは、バッチ正規化と正規化線形ユニット（ＲｅＬＵ）アクティベーションを用いた３×３の畳み込みブロックを含む（図２Ｃ参照）。キーポイント検出のタスクは、画素単位のバイナリセグメンテーション（クラス関心点か否か）に類似しているため、バイナリセグメンテーションやセマンティックセグメンテーションのタスクで過去に成功を収めているＵｎｅｔモデルが有望であると考えられた。

以下では、テストデータセットと評価プロトコルについて説明する。既存の検出器を、ＧＬＡＭｐｏｉｎｔｓのような本明細書で開示する技術と定量的・定性的に比較する。

この研究では、訓練済みモデルを、いくつかの眼底画像データセットと自然画像でテストした。医療画像については、２つのデータセットを使用した。

まず、「細隙灯」データセット。３人の患者の網膜動画から、サイズが３３８画素（ｐｘ）～６６０ｐｘ×１９０～３５０ｐｘの２０６フレームペアをランダムに選択し、テストサンプルとした。図３に例を示すが、見ての通り、これらのフレームには複数のアーティファクトがあり、特に難しいデータセットとなっている。ペアは、２０～１００％の範囲でオーバーラップするように選択されている。これらのペアは、アフィン変換と１５度までの回転によって関連付けられている。専用のソフトウェアツール（Ｏｍｎｉｖｉｅｗｅｒ１）を用いて、すべてのペアの画像に、少なくとも５つの対応点に関して手動で注釈を付けた。これらのランドマークを用いて、ペア間のグラウンドトゥルースホモグラフィを推定した。正しいマッチングを確認するために、推定されたホモグラフィを専門家がすべて検証し、誤ったマッチングを修正した。

次に、ＦＩＲＥデータセット［２２］。ＦＩＲＥデータセットは、一般に公開されている網膜画像レジストレーションデータセットであり、グラウンドトゥルース注釈付きである。１２９枚の網膜画像から構成されており、１３４組の画像ペアを形成している。２９１２×２９１２画素の原画像は、学習セットと同様の解像度になるように、元のサイズの１５％に縮小されている。このような画像の例を図５に示す。

眼底画像のテストでは、前処理として、緑チャンネルを分離し、適応型ヒストグラムイコライゼーションとバイラテラルフィルタを適用してノイズを低減し、エッジの外観を向上させた。前処理の効果は図１で確認できる。このプロセスは、ＤｅＺａｎｅｔら［４６］によると、検出と描写の間に改善された結果をもたらす。しかし、ＧＬＡＭｐｏｉｎｔｓは、原画像と前処理済み画像の両方でうまく動作する。そこで、性能を比較するために、両方のケースでの評価結果を提示する。

さらに、キーポイントの検出とマッチングを自然画像に対しても行った。これには、Ｏｘｆｏｒｄデータセット［３０］、ＥＦデータセット［４８］、Ｗｅｂｃａｍデータセット［４０、２４］、ＶｉｅｗＰｏｉｎｔデータセット［４５］を用い、合計で１９５組のペアを作成した。これらのデータセットで合計１９５組になる可能性がある。より詳細な情報は、この説明の他の部分で述べられている。

評価基準としては、再現性、キーポイントの平均検出数、成功率などを考慮した。これらについては、以下で詳しく説明する。

１．再現性は、両方の画像に現れる対応点の割合を表す。

検出された点のセットは，対応するキーポイントｘとｘ’を伴う画像ＩとＩ’に対して、それぞれＰ，Ｐ’と表される。Ｈ_Ｉ，Ｉ’は、基準画像と変換後の画像とを関連付けるグラウンドトゥルースホモグラフィである。εは，２つの点間の距離カットオフ（３画素に設定）である。

２．画像ごとに検出されたキーポイントの平均数。マッチングは、［２８］で提案されている最近傍距離比（ＮＮＤＲ）戦略を用いて検出された。第１の最近傍と第２の最近傍の間の記述子距離比が、ある閾値ｔ未満であれば、２つのキーポイントはマッチングする。マッチング性能に関しては、以下の指標が評価された。
（Ａ）ＡＵＣ、これは、（ｔの値を変化させて作成した）ＲＯＣ（受信動作特性）曲線の下の面積である。これにより、［１５、４３、４２］と同様に、各手法の識別力を評価できる。
（ｂ）マッチングスコア、これは、共有視点領域において検出器が抽出した特徴量の総数に対する正しいマッチングの比率として定義される［２９］。この指標により、総特徴量パイプラインの性能を評価できる。
（ｃ）カバレッジ率、これは、正しくマッチしたキーポイントによる画像のカバレッジを測定する。この計算のため、［７］で提案された手法を採用して、正しくマッチしたキーポイントからカバレッジマスクを生成し、それぞれのキーポイントに一定の半径（２５ｐｘ）の円盤を追加した。

ＲａｎＳａＣアルゴリズムを適用して、基準画像と変換画像を関連付けるホモグラフィ

を計算することで、検出済みマッチから外れ値を取り除いた。上記の指標はすべて、マッチング性能を示すものである。

３．成功率：［１３、４１］と同様に、各検出器が達成したレジストレーション品質と精度を評価した。これを行うために、以下に示すように、基準画像の６つの固定点の再投影誤差を互いに比較した。

ホモグラフィが見つかった各画像ペアについて、対応関係の中央値誤差ＭＥＥ、最大値誤差ＭＡＥ、およびルート平均二乗誤差ＲＭＳＥを用いてレジストレーションの品質を評価した。これらの指標を用いて、ＭＥＥとＭＡＥの異なる閾値を定義し、「許容できる」レジストレーションと「不正確な」レジストレーションを定義した。細隙灯データセットでは、（ＭＥＥ＜１０，ＭＡＥ＜３０）の場合には、画像ペアを「許容できる」レジストレーションとし、それ以外の場合には「不正確な」レジストレーションとした。一方、ＦＩＲＥデータセット［２２］の網膜全体の画像では、（ＭＥＥ＜１：５０，ＭＡＥ＜１０）が「許容できる」レジストレーションとなる。閾値の値は、結果を後から見て経験的に求めたものである。

最後に、各クラスの成功率を算出し、レジストレーションが各カテゴリに該当する画像ペアの割合とした。これらの指標を、実世界での全体的な性能の最も重要な定量的評価基準と考えてもよい。

ｒｏｏｔ‐ＳＩＦＴ記述子に関連付けられた検出器の性能を評価するために、マッチング能力とレジストレーション品質を、よく知られた検出器および記述子と比較した。その中でも、ＳＩＦＴ［２］、ｒｏｏｔ‐ＳＩＦＴ［２８、８］、ＫＡＺＥ［６］、ＬＩＦＴ［４４］は、Ｔｒｕｏｎｇら［３９］によって、眼底画像に対して良好な性能を示すことが示された。さらに、この手法は、他のＣＮＮベースの検出器・記述子と比較され、ＬＦ‐ＮＥＴ［３１］やＳｕｐｅｒＰｏｉｎｔ［１６］と比較された。本発明者らは、ＬＩＦＴ（Ｐｉｃａｄｉｌｌｙで事前訓練済み）、ＳｕｐｅｒＰｏｉｎｔ、ＬＦ‐ＮＥＴ（屋内データで事前訓練済み、屋外データで事前訓練したものよりも眼底画像ではかなり良い結果が得られる可能性がある）の実装と、ＳＩＦＴとＫＡＺＥのＯｐｅｎＣＶの実装を使用した。Ｒｏｏｔ‐ＳＩＦＴの回転依存型バージョンは、回転不変型バージョンに比べてテストセットでのパフォーマンスが高いため、使用されてもよい。

ＧＬＡＭｐｏｉｎｔｓの訓練は、Ｔｅｎｓｏｒｆｌｏｗ［４］を用いて、ミニバッチサイズを５に設定し、Ａｄａｍオプティマイザ［２５］を用いて、デフォルトのパラメータである学習率＝０：００１およびβ＝（０．９，０．９９９）で行った。このモデルを４回のクロスバリデーションで検証したところ、成功率の標準偏差が１％という類似した結果が得られた。その後、８９３６枚のベース画像からなる全データセットを対象に、３５回のエポックで再訓練を行った。ＧＬＡＭｐｏｉｎｔｓ（ＮＭＳ１０）は、１０ｐｘのＮＭＳウィンドウを用いて訓練・テストされた。他のＮＭＳウィンドウも適用可能であり、同様の性能が得られることに留意されたい。

表１：細隙灯データセットの２０６枚の画像に対する各検出器のレジストレーションクラスごとの成功率（％）。許容できるレジストレーションは、（ＭＥＥ＜１０，ＭＡＥ＜３０）を有すると定義されている。最良の結果を太字で示す。

表１は、細隙灯データセットで評価したレジストレーションの成功率を示している。前処理を行わない場合、比較に用いたほとんどの検出器は、前処理を行った画像に比べて低い性能を示した。それに比べて、提示するモデルは、前処理なしの画像で良好な性能を示した。表１に示すように、ＳＩＦＴ、ＫＡＺＥ、ＳｕｐｅｒＰｏｉｎｔの許容できるレジストレーション成功率（Ａ）は、前処理を行った画像と行っていない画像の間で２０～３０％低下しているのに対し、ＧＬＡＭｐｏｉｎｔｓ、ＬＩＦＴ、ＬＦ‐ＮＥＴの許容できるレジストレーション成功率（Ａ）は、３～６％の低下のみを提示している。また、ＬＦ‐ＮＥＴ、ＬＩＦＴ、ＧＬＡＭｐｏｉｎｔｓは、前処理によらず、安定した平均キーポイント数（ＬＦ‐ＮＥＴが約４８５、ＩＦＴ、ＧＬＡＭｐｏｉｎｔｓが約３５０）を検出しているが、他の検出器では２倍の減少となっている。

テストした実施形態では、ＧＬＡＭｐｏｉｎｔｓは、ＫＡＺＥ、ＳＩＦＴ、ＳｕｐｅｒＰｏｉｎｔよりも、許容できるレジストレーションの成功率において、少なくとも１８％上回り得る。同じカテゴリにおいて、ＬＦ‐ＮＥＴとＬＩＦＴは、元データと前処理済みデータにおいて、それぞれ３％と５％、７％と８％上回っている。また、ＬＦ‐ＮＥＴは眼底画像で訓練した場合、この特定の指標とデータセットで同様の結果が得られる可能性があるが、ＬＦ‐ＮＥＴの学習手順では、相対ポーズと対応する深度マップを伴う画像ペアを使用することに注目することも重要であり、深度マップは、眼底画像に関して得るには、不可能ではないにせよ非常に困難であり得る。

さらに、前処理とは無関係に、ＧＬＡＭｐｏｉｎｔｓモデルは、不正確なレジストレーション（Ｉ）においても、成功したレジストレーションにおいても全体的にＭＥＥとＲＭＳＥが最小となった。すべての検出器において、許容できるレジストレーションのＭＥＥとＲＭＳＥは１画素以内で類似している。クラスごとに対応するＭＥＥとＲＭＳＥの詳細は、本明細書の別箇所にある。ＧＬＡＭｐｏｉｎｔｓの前処理に依存しない安定した結果は、この検出器が高品質の画像でＳＩＦＴ以上とは言わないまでも同程度の性能を発揮する一方で、低品質でコントラストの弱い画像でも性能が低下しないことを示している。

ＳＩＦＴは多数のキーポイントを抽出するが（未処理画像では平均２０５．６９個、前処理済みでは４３１．０３個）、それらのキーポイントはクラスターで現れる。その結果、再現性が比較的高くても（多くのおそらく有効なマッチ）、関心点の位置が近いため、最近傍距離比（ＮＮＤＲ）故に多くのマッチが拒否され、真陽性マッチは少なくなり、これは図４から明らかなようにカバレッジが低いことからもわかる。その結果、Ｍ：ｓｃｏｒｅとＡＵＣが小さくなる。再現性の値が同様の場合、我々のアプローチは、広く拡散しそのマッチング能力が訓練された（カバレッジ率が最も高い）関心点を抽出し、その結果、図４に見られるように、より多くの真陽性マッチング（２番目に高いＭ：ｓｃｏｒｅとＡＵＣ）が得られる。

図４は、２０６ペアの細隙灯データセットで評価した検出器／記述子の性能指標の概要を示したものである。図４Ａは、非前処理済みのデータの結果を示しており、図４Ｂは前処理済みデータの結果を示している。

また、ＳｕｐｅｒＰｏｉｎｔは、カバレッジが比較的小さいにもかかわらず、最も高いＭ：ｓｃｏｒｅとＡＵＣを獲得したことにも注目されよう（図４参照）。しかし、この場合、Ｍ：ｓｃｏｒｅとＡＵＣは人為的に高くなっており、これは、ＳｕｐｅｒＰｏｉｎｔが検出するキーポイントの数が非常に少なく（非前処理画像と前処理画像の平均でそれぞれ３５，８８と５９，２１）、再現性が最も低いため、正しいマッチングの可能性が少ないためである。そのため、真陽性マッチ率が低いにもかかわらず、高いマッチング性能を示している。このことは、不正確なレジストレーションや失敗したレジストレーションが多いことからもわかる（未処理データでは４８．５４％と１７．４８％、前処理済み画像では５１．４６％と７．７７％、表１）。

最後に、ＬＦ‐ＮＥＴは非常に高い再現性（元データで最高、前処理済み画像で２番目に大きい）を示したが、そのＭ：ｓｃｏｒｅとＡＵＣはランキングの下位に位置していることが注目される（図４）。これは、ＬＦ‐ＮＥＴ検出器の訓練が、マッチングの目的よりも再現性を優先していたためと考えられる。

表２：ＦＩＲＥデータセットの非前処理画像に対する各検出器の成功率（％）。許容できるレジストレーションを、（ＭＥＥ＜１：５，ＭＡＥ＜１０）を有するものとして定義している。最良の結果を太字で示す。

ＧＬＡＭｐｏｉｎｔｓはＦＩＲＥデータセットでも評価した。すべての画像は血管のコントラストが高い良質なものであるため、前処理を施す必要はない。表２は、レジストレーションの成功率を示している。クラスごとのＭＥＥとＲＭＳＥの平均値と標準偏差は、この説明の別箇所にある。提示する手法は、成功率と、失敗していないレジストレーションの全体的な精度の両方で、優れた結果を示した。興味深いことに、ＧＬＡＭｐｏｉｎｔｓとＳＩＦＴの間で、許容できるレジストレーションの成功率に４１．０４％の差があることに気付く。ＧＬＡＭｐｏｉｎｔｓとＳＩＦＴは同じ記述子（ＳＩＦＴ）を使用しているため、この差は検出器によってのみ説明される。実際、図５に見られるように、ＳＩＦＴでは、血管樹や画像の境界にのみ高密度に配置された限られた数のキーポイントが検出されるのに対し、ＧＬＡＭｐｏｉｎｔｓ（ＮＭＳ１０）では、焦点や血管外帯などの困難な領域を含む網膜全体の関心点が抽出され、正しいマッチングの数が大幅に増加している。

図５は、ＦＩＲＥデータセットの一対の画像について、前処理を行わずに検出された関心点とそれに対応するマッチング結果を示したものである。黒い点は、検出された関心点を示している。白線は真陽性マッチを、黒線は偽陽性マッチを示す。行Ａ）は、ＧＬＡＭｐｏｉｎｔｓを用いて得られた関心点とマッチを示し、行Ｂ）は、ＳＩＦＴを用いて得られた関心点とマッチを示している。

ＧＬＡＭｐｏｉｎｔｓ（ＮＭＳ１０）が他のすべての検出器よりも優れているとはいえ、ＬＩＦＴとＳｕｐｅｒＰｏｉｎｔもＦＩＲＥデータセットで非常によく動作している。実際に、このデータセットでは、はっきりとしたコントラストの血管樹上の明確なコーナーを示している。ＬＩＦＴは、画像全体に渡ってキーポイントを抽出することができ、ＳｕｐｅｒＰｏｉｎｔは、合成されたプリミティブな形状のコーナーを検出するように訓練されている。しかし、細隙灯データセットで明らかになったように、ＳｕｐｅｒＰｏｉｎｔの性能は、特徴がはっきりしていない画像では強く悪化する。

図５は、提示されたＧＬＡＭｐｏｉｎｔｓ（ＮＭＳ１０）とＳＩＦＴの方法に関して、ＦＩＲＥデータセットの画像ペア間のマッチを示している。すべての検出器のマッチのさらなる例は、この説明の他箇所にある。

特定の実施形態において、本明細書に開示された特徴検出器は、眼底細隙灯ビデオからモザイクを作成できるシステムまたは方法において使用され得る。これを行うために、各フレーム上でキーポイントおよび記述子が抽出され、ＲａｎＳａＣを用いて連続する画像間のホモグラフィが推定される。次に、計算されたホモグラフィに基づいて、画像をワープする。２５枚から５５８枚の画像を含む１０本のビデオを用いて、連続するフレームをレジストレーションすることにより、モザイクを生成した。レジストレーションが失敗するまでの平均フレーム数（キーポイントが抽出されなかったり、一対の画像間でマッチしなかったりするため）を計算した。これら１０本のビデオにわたり、失敗までのレジスター済み平均フレーム数は、ＧＬＡＭｐｏｉｎｔｓ（ＮＭＳ１５）では９．９８、ＳＩＦＴでは１．０４であった。このようなモザイクの例を図６に示す。

図６は、失敗するまで連続した画像をレジストレーションして作成したモザイクを示す。Ａ）ＧＬＡＭｐｏｉｎｔｓ、非前処理済みデータ、５３フレーム、Ｂ）ＳＩＦＴ、前処理済みデータ、３４フレーム、Ｃ）ＳＩＦＴ、非前処理済み画像、１１フレーム。

同じビデオから、ＳＩＦＴは前処理済みデータでは３４フレーム後に失敗し、元データでは１１フレーム後にのみ失敗したが、ＧＬＡＭｐｏｉｎｔｓは５３枚の連続した画像のレジストレーションに成功し、視覚的なエラーもなかった。このモザイクは、フレーム間のマッチングで作成され、バンドル調整は行われていないことに留意されたい。［４６］に記載のものと同じブレンド方法が使用された。

検出の実行時間は、６６０×３５０ｐｘの解像度の８４ペアの画像に対して計算された。ＧＬＡＭｐｏｉｎｔｓアーキテクチャはＧｅＦｏｒｃｅＧＴＸＧＰＵで実行され、ＮＭＳとＳＩＦＴはＣＰＵを使用した。ＧＬＡＭｐｏｉｎｔｓ（ＮＭＳ１０）とＳＩＦＴの実行時間の平均値と標準偏差を表３に示す。

表３：本検出器とＳＩＦＴ検出器の画像検出平均実行時間［ｍｓ］

細隙灯画像で訓練したＧＬＡＭｐｏｉｎｔｓを用いて、自然画像での結果を算出した。自然画像では大域的に、ＧＬＡＭｐｏｉｎｔｓは、許容できるレジストレーションに関して７５．３８％の成功率に達し、これに対し、最も性能の高かった回転不変型ＳＩＦＴ検出器は８５．１３％、ＳｕｐｅｒＰｏｉｎｔは８３．５９％であった。また、ＡＵＣ、Ｍ：ｓｃｏｒｅ、カバレッジ率においても先行技術の結果まで上がり、それぞれ第２位、第２位、第１位のスコアであった。また、再現性において、ＧＬＡＭｐｏｉｎｔｓは、ＳＩＦＴ、ＫＡＺＥ、ＬＦ‐ＮＥＴよりも多くの画像のレジストレーションに成功したにもかかわらず、ＳＩＦＴ、ＫＡＺＥ、ＬＦ‐ＮＥＴに次いで最下位から二番目となっており、再現性は検出器の性能を測るための最適な指標ではないことが改めて示された。この評価基準の詳細については、本明細書の別の箇所で説明する。最後に、このデータセットの屋外画像は、ＧＬＡＭｐｏｉｎｔｓが訓練された医療用眼底画像とは全く異なるものであり、これは実質的な汎化特性を示していることに留意する必要があり得る。

提示した手法は、この説明ではＧＬＡＭｐｏｉｎｔｓと呼ぶ深層ＲＬを用いて、学習可能な検出器を訓練する。この検出器は、例えば、医療用眼底画像の画像マッチングやレジストレーションにおいて、先行技術を凌駕する可能性がある。実験の結果、以下のことが実証された。（１）検出器は、特定の記述子に関連するマッチング能力を直接訓練したものであり、パイプラインの一部のみが微分可能である。他の多くの検出器は再現性を重視して設計されているが、キーポイントは再現性があってもマッチングには適していないため、ミスリードする恐れがある。（２）学習は合成データのみで行い得る。これにより、手動で注釈を付ける手間が省け、学習データの使用量における融通性を提供する。（３）訓練方法は領域に関して柔軟に対応しており、医療用眼底画像で成功するように最適化されているが、他の種類の画像にも適用可能である。（４）訓練済みＣＮＮは、他の最先端の検出器と比較して、コーナー／特徴が少ないテクスチャの低い画像において、正しいマッチングにつながる良好なキーポイントを有意に多く検出する。その結果、画像の明示的な前処理は必要ないことがわかった。（５）既に存在するあらゆる特徴記述子は、対応する優れた検出器を学習することで改善できる可能性がある。

別の実施形態では、キーポイントの位置とともに、回転不変の記述子を計算することが可能である。検出と記述の両方は、同様の方法でエンドツーエンドで訓練され得る。さらに、本実験はＵ－ＮｅｔＣＮＮアーキテクチャを用いて行われたが、場合によってはＵ‐Ｎｅｔ（ＵＮｅｔ）よりも優れた性能をもたらす可能性のある他のＣＮＮアーキテクチャも適用可能である。

以下では、訓練方法に関する補足的な詳細を開示する。これらの詳細は、非限定的な例とみなされることが理解されるであろう。

回転不変性のあるＳＩＦＴ記述子と回転不変性のないＳＩＦＴ記述子の性能比較を行った。良く学習された正確なマッチポイント（ＧＬＡＭｐｏｉｎｔｓ）検出器は、眼底画像において、回転不変性のないＳＩＦＴ記述子の方が回転不変性のあるバージョンよりも性能が良いため、回転依存性のあるＳＩＦＴ（スケール不変特徴変換）記述子に関連付けて学習・テストされた。両バージョンのＳＩＦＴ記述子について、前処理済みの細隙灯データセットで評価した指標の詳細を表４に示す。

表４：２０６ペアの細隙灯データセットの前処理済みペアに関して計算されたメトリクス。各カテゴリの最良の結果を太字で示す。

以下に、ホモグラフィ生成の例示的な方法を概説する。このホモグラフィ生成は、単一の画像を含むデータから、画像のペアを含む訓練データを生成するために行われてもよい。学習に用いるサイズＨ×Ｗのベース画像の集合をＢとする。ステップｉごとに、ランダムにサンプリングされた２つの別個のホモグラフィ変換ｇ_ｉ，ｇ’_ｉを適用して、原画像Ｂ_ｉから画像ペアＩ_ｉ，Ｉ’_ｉを生成する。これらのホモグラフィ変換はそれぞれ、回転、剪断、透視、スケーリング、並進から構成されている。他の変換タイプの組み合わせも代替的に使用できる。パラメータの例示的な最小値と最大値を表５に示す。

表５：訓練中のランダムなホモグラフィ生成のための例示的なパラメータ

図７は、特徴点検出用モデルを訓練するシステム７０１を示す。システム７０１は、制御ユニット７０５と、通信ユニット７０４と、メモリ７０６とを含んでもよい。制御ユニット７０５は、任意のプロセッサまたは複数の協働するプロセッサを含んでもよい。制御ユニット７０５は、代替的に、専用の電子回路によって実装されてもよい。通信ユニット７０４は、カメラ７０２やディスプレイ７０３などの周辺機器を接続するための任意の種類のインターフェースを含んでもよく、また、データの交換および／または外部機器の制御のために、例えば、ネットワーク接続を含んでもよい。代替実施形態では、カメラ７０２および／またはディスプレイは、単一の装置として、システム７０１に組み込まれてもよい。代替実施形態では、カメラ７０２によって撮影された画像は、外部データベース（図示せず）に保存され、その後、通信ユニット７０４に送信されてもよい。同様に、システム７０１によって生成されたデータは、ディスプレイに表示される前に、外部データベースに保存されてもよい。そのために、通信ユニット７０４は、例えばネットワークを介して、データサーバに接続されていてもよい。

制御ユニット７０５は、システム７０１の動作を制御する。例えば、制御ユニット７０５は、メモリ７０６に格納されたコードを実行する。メモリ７０６は、ＲＡＭ、ＲＯＭ、フラッシュ、磁気ディスク、またはその他の揮発性もしくは不揮発性のコンピュータ可読媒体などの任意の記憶手段、またはそれらの組み合わせを含んでもよい。例えば、コンピュータ命令は、不揮発性のコンピュータ可読媒体に格納されてもよい。メモリ７０６は、画像７０９、モデル７０８および任意の他のデータなどのデータ７０７をさらに含んでいてもよい。プログラムコードは、機能単位またはモジュールに分割されていてもよい。ただし、これは限定されるものではない。

動作時、制御ユニット７０５は、カメラ７０２から複数の画像を取得する、または、カメラ７０２で撮影された画像を外部記憶媒体から取得して、画像７０９をメモリ７０６に保存するように構成されていてもよい。

システムは、モデル７０８を訓練する訓練モジュール７１１を含んでいてもよい。モデルは、ニューラルネットワーク、例えば、畳み込みニューラルネットワーク、または、統計モデルなどの他のモデルを含んでもよく、そのモデルパラメータは、訓練モジュール７１１によって実行される訓練プロセスによって調整されてもよい。

訓練モジュール７１１は、入力値をモデル７０８に供給すること、入力値に応答してモデル７０８が出力する出力値を評価すること、および評価の結果に基づいてモデル７０８のモデルパラメータを調整することを含む訓練手順を実行するように構成されてもよい。

通信ユニット７０４は、制御ユニット７０５の制御下で、複数の画像を受信するように構成されていてもよい。これらの画像７０９は、メモリ７０７に保存されてもよい。

任意で、制御ユニット７０５は、カメラ７０２（内部カメラまたは外部カメラ）を制御して、画像を生成し、それらを通信ユニット７０４に送信し、メモリ７０７に保存する。

システム７０１は、単一の画像の画像ペアを生成する前処理モジュール７１７を含んでいてもよい。例えば、前処理モジュール７１７は、ランダムな変換を生成し、その変換を第１の画像に適用して第２の画像を生成するように構成されている。あるいは、前処理モジュール７１７は、２つのランダムな変換を生成し、第１のランダムな変換を適用して特定の画像から第１の画像を生成し、第２のランダムな変換を特定の画像に適用して同じ特定の画像から第２の画像を生成するように構成されてもよい。生成するランダム変換の種類は、特定のアプリケーション領域で発生する典型的な動きに対応するように慎重に構成され得る。代替的な実施形態では、カメラによって生成された２つの画像が手動でレジストレーションされ、２つの画像間の変換が利用可能になるようにする。

プロセッサは、第１の画像および第２の画像を含むそのような一対の画像を、メモリ７０９から取得してもよい。

システム７０１は、モデルを用いて、第１の画像に対する第１のスコアマップおよび第２の画像に対する第２のスコアマップを生成するように構成されたスコアマップ生成器７１３を含んでもよい。すなわち、スコアマップ生成器７１３は、任意の前処理動作（正規化など、または他の種類の前処理）を行うように構成されていてもよい。しかし、前処理なしでも良好な結果が得られることが確認されている。結果として得られた画像は、モデル７０８への入力として提供されてもよい。入力に応答してモデル７０８によって生成された対応する出力は、別の画像（スコアマップ）を含んでもよく、その各画素は、画像を別の画像にレジストレーションする目的で、その点が適切な関心点であるという可能性に関連している。スコアマップ生成器７１３は、第１の画像および第２の画像に対する処理を、一方が他方から独立して別々に、すなわち、他方の画像の内容に関する知識を用いずに実行するように構成されていてもよいことが観察される。

システム７０１は、さらに関心点セレクタ７０２を備えていてもよい。関心点セレクタ７１２は、第１のスコアマップに基づいて第１の画像内の第１の複数の関心点を選択し、第２のスコアマップに基づいて第２の画像内の第２の複数の関心点を選択するように構成されてもよい。この場合も、両画像の処理は、別々の独立した処理であってもよい。例えば、スコアマップ上で最大のスコアを有する点を関心点として選択してもよい。特定の実施形態では、隣り合う関心点間の最大および／または最小の距離が、アルゴリズム手段によって課されてもよい。例えば、画素の各Ｎ×Ｍブロックにおいて、最高スコアの画素のみが選択される。隣接する点の間の最大および／または最小の距離に影響を与えるための他のアルゴリズムが想定されてもよい。

システムは、マッチングモジュール７１６を含んでいてもよい。マッチングモジュール７１６は、画像をペアで処理するように構成されていてもよい。具体的には、マッチングモジュール７１６は、第１の複数の関心点のうちの第１の関心点と、第２の複数の関心点のうちの第２の関心点とのペアワイズマッチングを行う。言い換えると、第１の画像内の関心点と第２の画像内の関心点とのマッチングを行う。例えば、両画像の関心点について特徴記述子を算出し、第１の画像の関心点の特徴記述子と第２の画像の関心点の特徴記述子との間で類似度を算出する。最も高い類似度を有するペアが、マッチングペアとして選択されてもよい。他のマッチングの方法が想定されてもよい。

システムは、マッチングモジュール７１４によって生成されたペアワイズマッチの正しさをチェックするように構成された検証モジュール７１５を含んでもよい。このため、検証モジュール７１５は、グラウンドトゥルース情報にアクセスしてもよい。例えば、画像ペアが、同じ画像の差分（アフィン）変換を用いて人工的に生成された場合、この変換には、この画像ペアの点のグラウンドトゥルースマッチングが含まれる。したがって、第１の画像の点に変換を適用すると、第２の画像の対応するマッチングポイントが得られるはずである。第２の画像内のマッチングポイントと第１の画像内のポイントのグラウンドトゥルース変換との間の距離（例えばユークリッド距離）は、マッチングポイントの誤差とみなすことができる。リワードは、このような誤差の指標に基づいていてもよく、誤差が小さいほどリワードが高くなり、逆に誤差が大きいほどリワードが低くなる。このようにして、各マッチングポイントについて、リワードを計算することができる。これにより、リワードマップ、またはリワードマトリクスを得ることができる。このようにして、第１の画像内の関心点のリワードは、マッチングモジュール７１４によって見つけられた、第２の画像内のマッチングポイントとのマッチングの成功に相関している。

システムは、スコアマップとリワードマップを結合または比較するための結合モジュール７１６を含んでいてもよい。すなわち、スコアマップ生成器７１３によって生成されたポイントに対するスコアが高く、検証モジュール７１５によって生成されたそのポイントに対するリワードも高かった場合（「真陽性」）、結合モジュール７１６は、将来的に類似の関心点を識別するために、モデル７０８を強化するための値を決定してもよい。一方、スコアマップ生成器７１３によって生成された点のスコアは高かったが、検証モジュール７１５によって生成されたその点のリワードが低かった場合（「偽陽性」）、結合モジュール７１６は、将来的に類似の関心点を識別することを控えるようにモデル７０８を強化する値を決定してもよい。特定の実施形態では、結合モジュール７１６は、偽陽性のサブセットに対してのみリワードを決定するように構成される。例えば、画像内の真陽性の数がＭ個であった場合、最大でＭ個の偽陽性が考慮される。すべての値を合計して、例えば、総リワード関数を計算してもよい。

訓練モジュール７１１は、結合または比較の結果に基づいて、モデルを更新するように構成されてもよい。これは、それ自体が当技術分野で知られているモデルの訓練ステップである。更新する正確なパラメータは、使用されるモデルのタイプ、例えば、最近傍、ニューラルネットワーク、畳み込みニューラルネットワーク、Ｕ‐ｎｅｔ、または他のタイプのモデルに依存する。

関心点セレクタ７１２は、画像内の任意の点から関心点のうちの最も近い１つまでの距離に最大制限を課すように構成されてもよい。

マッチングモジュール７１４は、第１の関心点において第１の画像で検出された特徴と、第２の関心点において第２の画像で検出された特徴との間の類似性に基づいて、ペアワイズマッチングを実行するように構成されてもよい。

マッチングモジュール７１４は、第１の関心点を、複数の第２の関心点のうちの１つの第２の関心点にマッチングすることによって、第１の方向のマッチングを実行するように構成されてもよく、第２の関心点は、第１の関心点における特徴に最も類似する特徴を有する。マッチングモジュール７１４は、第２の関心点を、複数の第１の関心点のうちの１つの第１の関心点にマッチングすることによって、さらなるマッチングを第２の方向に実行するように構成されてもよく、第１の関心点は、第２の関心点における特徴に最も類似した特徴を有している。マッチングモジュール７１４は、両方向でマッチしないあらゆる全てのマッチを破棄するように構成されてもよい。

検証モジュール７１５は、リワードマップによって、グラウンドトゥルースデータに従ってマッチに成功した関心点に対するリワードを示し、グラウンドトゥルースデータに従ってマッチに失敗した関心点に対するリワードがないことを示すように構成されてもよい。

結合モジュール７１６は、関心点に対するスコアマップおよびリワードマップのみを結合または比較するように構成されてもよい。

結合モジュール７１６は、偽陽性マッチの（おそらくランダムな）選択を行い、真陽性マッチおよび偽陽性マッチの選択分についてのみスコアマップおよびリワードマップを結合または比較することによって、真陽性マッチの数と偽陽性マッチの数とを均衡させるように構成されてもよく、真陽性マッチは、正しさのチェックに合格した関心点であり、偽陽性マッチは、正しさのチェックに合格しなかった関心点である。ランダムな選択を行う代わりに、結合モジュール７１６は、例えば、最も低いリワードマップ値を有する偽陽性マッチを選択するように構成されてもよい。

結合モジュール７１６は、スコアマップとリワードマップとの間の二乗差の合計を計算するように構成されてもよい。

通信ユニット７０４は、ディスプレイ７０３によって、進捗情報や結合モジュールの最新出力の値などの関心情報を出力するように構成されてもよい。

図８は、特徴点検出のモデルを学習する方法を示す図である。ステップ８０１で、前処理ステップは、例えばランダム変換を用いて原画像から画像のペアを生成することと、こうして生成された画像のペアのグラウンドトゥルース情報としてランダム変換を保存することを含んでもよい。

ステップ８０２は、画像のペアの第１の画像および第２の画像を取得することを含んでもよい。ステップ８０３は、モデルを使用して、第１の画像に対する第１のスコアマップおよび第２の画像に対する第２のスコアマップを生成することを含んでもよい。ステップ８０４は、第１のスコアマップに基づいて、第１の画像における第１の複数の関心点を選択し、第２のスコアマップに基づいて、第２の画像における第２の複数の関心点を選択することを含んでもよい。

ステップ８０５は、第１の複数の関心点のうちの第１の関心点と、第２の複数の関心点のうちの第２の関心点とのペアワイズマッチングを行うことを含んでもよい。ステップ８０６は、第１の画像と第２の画像との間のグラウンドトゥルース変換に基づいて、ペアワイズマッチの正しさをチェックして、リワードマップを生成することを含んでもよい。ステップ８０７は、スコアマップとリワードマップを結合または比較することを含んでもよい。ステップ８０８は、結合または比較の結果に基づいて、モデルを更新することを含んでもよい。ステップ８０９で、プロセスは、より多くの訓練が望まれるかどうかをチェックしてもよい。より多くの訓練が望まれる場合、プロセスは、次の画像ペアを取得することによって、ステップ８０２から進んでもよい。

図９は、第１の画像を第２の画像にレジストレーションするためのシステム９０１を示す。この装置は、制御ユニット９０５と、通信ユニット９０４と、データ９０７およびプログラムコード９１０を格納するためのメモリ９０６とを備える。特徴点検出のためのモデルを訓練するためのシステム７０１に関して本明細書で説明したハードウェアおよび代替的な実装オプションに関連する考慮事項は、第１の画像を第２の画像にレジストレーションするためのシステム９０１にも適用される。例えば、プログラムコード９１０は、代替的に、専用の電子回路によって実装されてもよい。さらに、カメラ９０２およびディスプレイ９０３は、任意の外部装置であってもよいし、システム９０１に組み込まれて一体型の装置を形成してもよい。システム９０１は、制御ユニット９０５、例えば、少なくとも１つのコンピュータプロセッサと、例えば、カメラ９０２および／またはディスプレイ９０３と通信するための通信ユニット９０４と、プログラムコード９１０または制御ユニットに特定のステップを実行させるための命令を含むメモリ９０６（任意の種類の記憶媒体）とを備える。メモリ９０６は、学習済みモデル９０８および画像９０９を格納できるように構成されている。例えば、カメラ９０２から受信した画像を、メモリ９０９に格納してもよい。

システムは、例えば、格納された画像９０９の中から、例えば、カメラ９０２によって撮影され、カメラ９０２から受信された２つの画像である第１の画像および第２の画像を取得するように構成された取得モジュール９１７を含んでもよい。システムは、学習済みモデル９０８を使用して、第１の画像に対する第１のスコアマップおよび第２の画像に対する第２のスコアマップを生成するように構成されたスコアマップ生成器９１３をさらに含んでもよい。例えば、正規化などの任意の前処理を行った後の両方の画像をモデル９０８に入力してもよく、各画像に応答して生成された出力はスコアマップである。

システムは、第１のスコアマップに基づいて第１の画像内の第１の複数の関心点を選択し、第２のスコアマップに基づいて第２の画像内の第２の複数の関心点を選択するように構成された関心点セレクタを含んでもよい。この選択は、特徴記述子と、両画像における関心点の特徴記述間の類似性とを用いて、関心点セレクタ７１２によって実行される選択と同様に行われてもよい。システムは、第１の複数の関心点のうちの第１の関心点を、第２の複数の関心点のうちの第２の関心点とペアワイズマッチングするように構成されたマッチングモジュール９１４を含んでもよい。

システムはさらに、レジストレーションモジュール９１８を含んでもよい。レジストレーションモジュール９１８は、マッチした関心点に基づいて形態学的変換を決定するように構成されてもよい。レジストレーションモジュール９１８は、マッチした関心点に基づいて、第１の画像内の各点を第２の画像内の対応する点にマッピングするように構成されてもよい。例えば、マッチした点に基づいて、アフィン変換または非アフィン変換が決定されてもよい。これは、別のパラメータフィッティング手順を含んでいてもよい。しかし、マッチングポイントのセットからそのような変換を生成する方式は、それ自体が当技術分野で知られており、本明細書ではさらに詳細には説明しない。例えば、変換は、第１の画像に適用されてもよいし、第２の画像に適用されてもよい。通信ユニット９０４は、変換された画像をディスプレイ９０３によって出力するように構成されてもよい。

関心点セレクタ９１２は、画像内の任意の点から関心点のうちの最も近い１つまでの距離に最大制限を課すように構成されてもよい。

マッチングモジュール９１４は、第１の関心点において第１の画像で検出された特徴と、第２の関心点において第２の画像で検出された特徴との間の類似性に基づいて、ペアワイズマッチングを実行するように構成されてもよい。

マッチングモジュール９１４は、第１の関心点を複数の第２の関心点のうちの１つの第２の関心点にマッチングすることによって、第１の方向のマッチングを実行するように構成されてもよく、第２の関心点は、第１の関心点における特徴に最も類似した特徴を有する。マッチングモジュール９１４はさらに、第２の関心点を複数の第１の関心点のうちの１つの第１の関心点にマッチングすることによって第２の方向のマッチングを実行するように構成されてもよく、第１の関心点は、第２の関心点における特徴に最も類似した特徴を有している。例えば、マッチングモジュール９１４は、両方向ではマッチしないマッチを破棄するように構成されてもよい。

図１０は、第１の画像を第２の画像にレジストレーションする例示的な方法を示す。ステップ１００２は、第１の画像および第２の画像、例えば、カメラからの２つの撮像画像を取得することを含んでもよい。ステップ１００３は、適切に訓練されたモデル、例えば、本明細書に開示されたシステムまたは方法によって訓練されたモデルを使用して、第１の画像に対する第１のスコアマップおよび第２の画像に対する第２のスコアマップを生成することを含んでもよい。ステップ１００４は、第１のスコアマップに基づいて、第１の画像における第１の複数の関心点を選択することと、第２のスコアマップに基づいて、第２の画像における第２の複数の関心点を選択することとを含んでもよい。ステップ１００５は、例えば、関心点に関連する特徴記述子に基づいて、第１の複数の関心点のうちの第１の関心点と、第２の複数の関心点のうちの第２の関心点とのペアワイズマッチングを行うことを含んでもよい。任意で、ステップ１００６は、マッチした関心点に応じて形態学的変換を生成することにより、その画像ペアをレジストレーションすることを含んでもよい。任意で、ステップ１００６は、変換を画像に適用し、変換された画像をディスプレイを用いて出力すること、または変換された画像を保存することを含む。あるいは、ステップ１００６は、マッチした関心点を使用するためにその画像ペアを継ぎ合わせ、継ぎ合わせた画像を保存または表示することを含む。

本発明の一部またはすべての態様は、ソフトウェア、特にコンピュータプログラム製品の形で実施されるのに適し得る。コンピュータプログラム製品は、非一時的コンピュータ可読媒体に格納されたコンピュータプログラムを含んでもよい。また、コンピュータプログラムは、光ファイバケーブルや空気などの伝送媒体によって伝播される光信号や電気磁気信号などの信号によって表されてもよい。コンピュータプログラムは、その一部または全部が、コンピュータシステムで実行するのに適したソースコード、オブジェクトコード、または疑似コードの形態を有していてもよい。例えば、コードは、１つ以上のプロセッサによって実行可能であってもよい。

本明細書に記載されている例および実施形態は、本発明を限定するのではなく、説明する働きをする。当業者であれば、添付の特許請求の範囲およびその均等物によって定義される本開示の趣旨および範囲から逸脱することなく、代替の実施形態を設計することができるであろう。特許請求の範囲で括弧に入れた参照符号は、特許請求の範囲を限定するものと解釈しないものとする。特許請求の範囲または本明細書において別個の実体として記載されているアイテムは、記載されているアイテムの特徴を組み合わせた単一のハードウェアまたはソフトウェアアイテムとして実施され得る。

以下の主題は、条項の形で開示されている。

１．特徴点検出のための分類器を訓練する方法であって、
第１の画像および第２の画像を取得するステップと、
前記分類器を用いて、前記第１の画像に対する第１のスコアマップおよび前記第２の画像に対する第２のスコアマップを生成するステップと、
前記第１のスコアマップに基づいて、前記第１の画像内の第１の複数の関心点を選択するステップと、
前記第２のスコアマップに基づいて、前記第２の画像内の第２の複数の関心点を選択するステップと、
前記第１の複数の関心点のうちの１つの第１の関心点と、前記第２の複数の関心点のうちの１つの第２の関心点とのペアワイズマッチングを行うステップと、
前記第１の画像と前記第２の画像との間のグラウンドトゥルース変換に基づいて、前記ペアワイズマッチの正しさをチェックして、リワードマップを生成するステップと、
前記スコアマップと前記リワードマップを結合または比較するステップと、
前記結合または比較の結果に基づいて前記分類器を更新するステップとを含む方法。

２．前記複数の関心点を選択するステップは、前記画像内の任意の点から最近傍関心点までの距離に最大制限を課すことを含む、条項１に記載の方法。

３．前記ペアワイズマッチングは、前記第１の関心点において前記第１の画像で検出された特徴と、前記第２の関心点において前記第２の画像で検出された特徴との間の類似性に基づいて実行される、条項１または２に記載の方法。

４．前記マッチングは、前記第１の関心点を、複数の第２の関心点のうちの１つの第２の関心点にマッチングすることによって第１の方向に実行され、前記第２の関心点は、前記第１の関心点における特徴に最も類似した特徴を有する、条項１から３のいずれかに記載の方法。

５．前記マッチングはさらに、前記第２の関心点を、複数の第１の関心点のうちの１つの第１の関心点にマッチングすることによって第２の方向に実行され、前記第１の関心点は、前記第２の関心点における特徴に最も類似した特徴を有する、条項４に記載の方法。

６．前記リワードマップが、マッチングに成功した関心点に対するリワードを示し、マッチングに失敗した関心点に対するリワードがないことを示す、条項１から５のいずれかに記載の方法。

７．前記結合または比較が、前記スコアマップおよびリワードマップを前記関心点についてのみ結合または比較することを含む、条項１から６のいずれかに記載の方法。

８．前記結合または比較が、偽陽性マッチを（おそらくランダムに）選択し、真陽性マッチおよび前記偽陽性マッチの選択分についてのみ前記スコアマップおよびリワードマップを結合または比較することによって、前記真陽性マッチの数と前記偽陽性マッチの数とを均衡させることを含み、
前記真陽性マッチとは、正しさのチェックに合格した関心点であり、前記偽陽性マッチとは、正しさのチェックに合格しなかった関心点である、条項１から７のいずれかに記載の方法。

８．前記結合または比較が、前記スコアマップと前記リワードマップの間の二乗差の合計を計算することを含む、条項１から７のいずれかに記載の方法。

９．特徴点検出のための分類器を訓練する装置であって、
制御ユニット、例えば、少なくとも１つのコンピュータプロセッサと、
メモリを備え、前記メモリは、前記制御ユニットに、
第１の画像と第２の画像を取得するステップと、
前記分類器を用いて、前記第１の画像に対する第１のスコアマップおよび前記第２の画像に対する第２のスコアマップを生成するステップと、
前記第１のスコアマップに基づいて、前記第１の画像内の第１の複数の関心点を選択するステップと、
前記第２のスコアマップに基づいて、前記第２の画像内の第２の複数の関心点を選択するステップと、
前記第１の複数の関心点のうちの１つの第１の関心点と、前記第２の複数の関心点のうちの１つの第２の関心点とのペアワイズマッチングを行うステップと、
前記第１の画像と前記第２の画像との間のグラウンドトゥルース変換に基づいて、前記ペアワイズマッチの正しさをチェックして、リワードマップを生成するステップと、
前記スコアマップと前記リワードマップを結合または比較するステップと、
前記結合または比較の結果に基づいて、前記分類器を更新するステップと、
を実行させる命令を含む、装置。

１０．第１の画像を第２の画像にレジストレーションする方法であって、
第１の画像と第２の画像を取得するステップと、
条項１から９のいずれかに記載の方法または装置によって生成された分類器を用いて、前記第１の画像に対する第１のスコアマップおよび前記第２の画像に対する第２のスコアマップを生成するステップと、
前記第１のスコアマップに基づいて、前記第１の画像内の第１の複数の関心点を選択するステップと、
前記第２のスコアマップに基づいて、前記第２の画像内の第２の複数の関心点を選択するステップと、
前記第１の複数の関心点のうちの１つの第１の関心点と、前記第２の複数の関心点のうちの１つの第２の関心点とのペアワイズマッチングを行うステップと、を含む方法。

１１．複数の関心点を選択するステップは、前記画像内の任意の点から最近傍関心点までの距離に最大制限を課すことを含む、条項１０に記載の方法。

１２．前記ペアワイズマッチングは、前記第１の関心点において前記第１の画像で検出された特徴と、前記第２の関心点において前記第２の画像で検出された特徴との間の類似性に基づいて実行される、条項１０または１１に記載の方法。

１３．前記マッチングは、前記第１の関心点を、複数の第２の関心点のうちの１つの第２の関心点にマッチングすることによって第１の方向に実行され、前記第２の関心点は、前記第１の関心点における特徴に最も類似した特徴を有する、条項１０から１２のいずれかに記載の方法。

１４．前記マッチングはさらに、前記第２の関心点を、複数の第１の関心点のうちの１つの第１の関心点にマッチングすることによって第２の方向に実行され、前記第１の関心点は、前記第２の関心点における特徴に最も類似した特徴を有する、条項１３に記載の方法。

１５．第１の画像を第２の画像にレジストレーションする装置であって、
制御ユニット、例えば、少なくとも１つのコンピュータプロセッサと、
メモリを備え、前記メモリは、前記制御ユニットに、
第１の画像と第２の画像を取得するステップと、
条項１から１０のいずれかに記載の方法または装置によって生成された分類器を用いて、前記第１の画像に対する第１のスコアマップおよび前記第２の画像に対する第２のスコアマップを生成するステップと、
前記第１のスコアマップに基づいて、前記第１の画像内の第１の複数の関心点を選択するステップと、
前記第２のスコアマップに基づいて、前記第２の画像内の第２の複数の関心点を選択するステップと、
前記第１の複数の関心点のうちの１つの第１の関心点と、前記第２の複数の関心点のうちの１つの第２の関心点とのペアワイズマッチングを行うステップと、を実行させる命令を含む、装置。

参照
［１］ＯｐｅｎＣＶ：ｃｖ：：ＢＦＭａｔｃｈｅｒＣｌａｓｓＲｅｆｅｒｅｎｃｅ
［２］ＯｐｅｎＣＶ：ｃｖ：：ｘｆｅａｔｕｒｅｓ２ｄ：：ＳＩＦＴＣｌａｓｓＲｅｆｅｒｅｎｃｅ
［３］「ＩｍｐｒｏｖｉｎｇＡｃｃｕｒａｃｙａｎｄＥｆｆｉｃｉｅｎｃｙｏｆＭｕｔｕａｌＩｎｆｏｒｍａｔｉｏｎｆｏｒＭｕｌｔｉ‐ｍｏｄａｌＲｅｔｉｎａｌＩｍａｇｅＲｅｇｉｓｔｒａｔｉｏｎｕｓｉｎｇＡｄａｐｔｉｖｅＰｒｏｂａｂｉｌｉｔｙＤｅｎｓｉｔｙＥｓｔｉｍａｔｉｏｎ」ＣｏｍｐｕｔｅｒｉｚｅｄＭｅｄｉｃａｌＩｍａｇｉｎｇａｎｄＧｒａｐｈｉｃｓ，３７（７‐８）：５９７‐６０６、２０１３年
［４］Ｍ．Ａｂａｄｉ、Ａ．Ａｇａｒｗａｌ、Ｐ．Ｂａｒｈａｍ、Ｅ．Ｂｒｅｖｄｏ、Ｚ．Ｃｈｅｎ、Ｃ．Ｃｉｔｒｏ、Ｇ．Ｓ．Ｃｏｒｒａｄｏ、Ａ．Ｄａｖｉｓ、Ｊ．Ｄｅａｎ、Ｍ．Ｄｅｖｉｎ、Ｓ．Ｇｈｅｍａｗａｔ、Ｉ．Ｇｏｏｄｆｅｌｌｏｗ、Ａ．Ｈａｒｐ、Ｇ．Ｉｒｖｉｎｇ、Ｍ．Ｉｓａｒｄ、Ｙ．Ｊｉａ、Ｒ．Ｊｏｚｅｆｏｗｉｃｚ、Ｌ．Ｋａｉｓｅｒ、Ｍ．Ｋｕｄｌｕｒ、Ｊ．Ｌｅｖｅｎｂｅｒｇ、Ｄ．Ｍａｎ’ｅ、Ｒ．Ｍｏｎｇａ、Ｓ．Ｍｏｏｒｅ、Ｄ．Ｍｕｒｒａｙ、Ｃ．Ｏｌａｈ、Ｍ．Ｓｃｈｕｓｔｅｒ、Ｊ．Ｓｈｌｅｎｓ、Ｂ．Ｓｔｅｉｎｅｒ、Ｉ．Ｓｕｔｓｋｅｖｅｒ、Ｋ．Ｔａｌｗａｒ、Ｐ．Ｔｕｃｋｅｒ、Ｖ．Ｖａｎｈｏｕｃｋｅ、Ｖ．Ｖａｓｕｄｅｖａｎ、Ｆ．Ｖｉ’ｅｇａｓ、Ｏ．Ｖｉｎｙａｌｓ、Ｐ．Ｗａｒｄｅｎ、Ｍ．Ｗａｔｔｅｎｂｅｒｇ、Ｍ．Ｗｉｃｋｅ、Ｙ．ＹｕおよびＸ．Ｚｈｅｎｇ著「Ｔｅｎｓｏｒ‐Ｆｌｏｗ：Ｌａｒｇｅ‐ｓｃａｌｅｍａｃｈｉｎｅｌｅａｒｎｉｎｇｏｎｈｅｔｅｒｏｇｅｎｅｏｕｓｓｙｓｔｅｍｓ、２０１５年ｔｅｎｓｏｒｆｌｏｗ．ｏｒｇから入手可能なソフトウェア
［５］Ａ．Ａｌａｈｉ、Ｒ．ＯｒｔｉｚおよびＰ．Ｖａｎｄｅｒｇｈｅｙｎｓｔ著「ＦＲＥＡＫ：ＦａｓｔＲｅｔｉｎａＫｅｙｐｏｉｎｔ」ＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ予稿集５１０‐５１７ページ、２０１２年
［６］Ｐ．Ｆ．Ａｌｃａｎｔａｒｉｌｌａ、Ａ．ＢａｒｔｏｌｉおよびＡ．Ｊ．Ｄａｖｉｓｏｎ著「ＫＡＺＥｆｅａｔｕｒｅｓ」ＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ講義資料、７５７７ＬＮＣＳ（６）：２１４‐２２７ページ、２０１２年
［７］Ｊ．Ａｌｄａｎａ‐Ｉｕｉｔ、Ｄ．Ｍｉｓｈｋｉｎ、Ｏ．ＣｈｕｍおよびＪ．Ｍａｔａｓ著「Ｉｎｔｈｅｓａｄｄｌｅ：Ｃｈａｓｉｎｇｆａｓｔａｎｄｒｅｐｅａｔａｂｌｅｆｅａｔｕｒｅｓ」２３ｒｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ、６７５‐６８０ページ、２０１６年
［８］Ｒ．ＡｒａｎｄｊｅｌｏｖｉおよびＡ．Ｚｉｓｓｅｒｍａｎ著「Ｔｈｒｅｅｔｈｉｎｇｓｅｖｅｒｙｏｎｅｓｈｏｕｌｄｋｎｏｗｔｏｉｍｐｒｏｖｅｏｂｊｅｃｔｒｅｔｒｉｅｖａｌｃ」
［９］Ｖ．Ｂａｌｎｔａｓ、Ｅ．Ｊｏｈｎｓ、Ｌ．ＴａｎｇおよびＫ．Ｍｉｋｏｌａｊｃｚｙｋ著ＰＮ‐Ｎｅｔ：ＣｏｎｊｏｉｎｅｄＴｒｉｐｌｅＤｅｅｐＮｅｔｗｏｒｋｆｏｒＬｅａｒｎｉｎｇＬｏｃａｌＩｍａｇｅＤｅｓｃｒｉｐｔｏｒｓ」ＣｏＲＲ、ａｂｓ／１６０１．０５０３０、２０１６年
［１０］Ｖ．Ｂａｌｎｔａｓ、Ｋ．Ｌｅｎｃ、Ａ．ＶｅｄａｌｄｉおよびＫ．Ｍｉｋｏｌａｊｃｚｙｋ著「ＨＰａｔｃｈｅｓ：ＡＢｅｎｃｈｍａｒｋａｎｄＥｖａｌｕａｔｉｏｎｏｆＨａｎｄｃｒａｆｔｅｄａｎｄＬｅａｒｎｅｄＬｏｃａｌＤｅｓｃｒｉｐｔｏｒｓ」ＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ、３８５２‐３８６１ページ、２０１７年
［１１］Ｈ．Ｂａｙ、Ｔ．ＴｕｙｔｅｌａａｒｓおよびＬ．ＶａｎＧｏｏｌ著「ＳＵＲＦ：ＳｐｅｅｄｅｄｕｐＲｏｂｕｓｔＦｅａｔｕｒｅｓ」ＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ講義資料、３９５１ＬＮＣＳ：４０４‐４１７ページ、２００６年
［１２］Ｐ．Ｃ．Ｃａｔｔｉｎ、Ｈ．Ｂａｙ、Ｌ．Ｊ．Ｖ．ＧｏｏｌおよびＧ．Ｓｚ’ｅｋｅｌｙ著「ＲｅｔｉｎａＭｏｓａｉｃｉｎｇＵｓｉｎｇＬｏｃａｌＦｅａｔｕｒｅｓ」ＭｅｄｉｃａｌＩｍａｇｅＣｏｍｐｕｔｉｎｇａｎｄＣｏｍｐｕｔｅｒ‐ＡｓｓｉｓｔｅｄＩｎｔｅｒｖｅｎｔｉｏｎ、１８５‐１９２ページ、２００６年
［１３］Ｊ．Ｃｈｅｎ、Ｊ．Ｔｉａｎ、Ｎ．Ｌｅｅ、Ｊ．Ｚｈｅｎｇ、Ｔ．Ｒ．ＳｍｉｔｈおよびＡ．Ｆ．Ｌａｉｎｅ著「ＡＰａｒｔｉａｌＩｎｔｅｎｓｉｔｙＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＤｅｓｃｒｉｐｔｏｒｆｏｒＭｕｌｔｉｍｏｄａｌＲｅｔｉｎａｌＩｍａｇｅＲｅｇｉｓｔｒａｔｉｏｎ」ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＢｉｏｍｅｄｉｃａｌＥｎｇｉｎｅｅｒｉｎｇ、５７（７）：１７０７‐１７１８ぺージ、２０１０年
［１４］Ａ．Ｖ．Ｃｉｄｅｃｉｙａｎ著「ＲｅｇｉｓｔｒａｔｉｏｎｏｆＯｃｕｌａｒＦｕｎｄｕｓＩｍａｇｅｓ」ＩＥＥＥＥｎｇｉｎｅｅｒｉｎｇｉｎＭｅｄｉｃｉｎｅａｎｄＢｉｏｌｏｇｙＭａｇａｚｉｎｅ、１４（１）：５２‐５８、１９９５年
［１５］Ａ．Ｌ．Ｄａｈｌ、Ｈ．ＡａｎａｅｓおよびＫ．Ｓ．Ｐｅｄｅｒｓｅｎ著「ＦｉｎｄｉｎｇｔｈｅＢｅｓｔＦｅａｔｕｒｅＤｅｔｅｃｔｏｒ－ＤｅｓｃｒｉｐｔｏｒＣｏｍｂｉｎａｔｉｏｎ」ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎ３ＤＩｍａｇｉｎｇ，Ｍｏｄｅｌｉｎｇ，Ｐｒｏｃｅｓｓｉｎｇ，ＶｉｓｕａｌｉｚａｔｉｏｎａｎｄＴｒａｎｓｍｉｓｓｉｏｎ、３１８‐３２５ページ、２０１１年
［１６］Ｄ．ＤｅＴｏｎｅ、Ｔ．ＭａｌｉｓｉｅｗｉｃｚおよびＡ．Ｒａｂｉｎｏｖｉｃｈ著「ＳｕｐｅｒＰｏｉｎｔ：Ｓｅｌｆ‐ＳｕｐｅｒｖｉｓｅｄＩｎｔｅｒｅｓｔＰｏｉｎｔＤｅｔｅｃｔｉｏｎａｎｄＤｅｓｃｒｉｐｔｉｏｎ」ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎＷｏｒｋｓｈｏｐｓ、２２４‐２３６ページ、２０１８年
［１７］Ｈ．Ｄｕｒｒａｎｔ‐ＷｈｙｔｅおよびＴ．Ｂａｉｌｅｙ著「ＳｉｍｕｌｔａｎｅｏｕｓＬｏｃａｌｉｓａｔｉｏｎａｎｄＭａｐｐｉｎｇ（ＳＬＡＭ）：ＰａｒｔＩＴｈｅＥｓｓｅｎｔｉａｌＡｌｇｏｒｉｔｈｍｓＴｅｃｈｎｉｃａｌｒｅｐｏｒｔ
［１８］Ｐ．ＦｉｓｃｈｅｒおよびＴ．Ｂｒｏｘ著「ＤｅｓｃｒｉｐｔｏｒＭａｔｃｈｉｎｇｗｉｔｈＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｔｒａｌＮｅｔｗｏｒｋｓ：ａＣｏｍｐａｒｉｓｏｎｔｏＳＩＦＴ」１‐１０ページ
［１９］Ｍ．Ａ．ＦｉｓｃｈｌｅｒおよびＲ．Ｃ．Ｂｏｌｌｅｓ著「Ｒａｎｄｏｍｓａｍｐｌｅｃｏｎｓｅｎｓｕｓ：ａｐａｒａｄｉｇｍｆｏｒｍｏｄｅｌｆｉｔｔｉｎｇｗｉｔｈａｐｐｌｉｃａｔｉｏｎｓｔｏｉｍａｇｅａｎａｌｙｓｉｓａｎｄａｕｔｏｍａｔｅｄｃａｒｔｏｇｒａｐｈｙ」ＣｏｍｍｕｎｉｃａｔｉｏｎｓｏｆｔｈｅＡＣＭ、２４（６）：３８１‐３９５、１９８１年６月
［２０］Ｙ．Ｈａｎｇ、Ｘ．Ｚｈａｎｇ、Ｙ．Ｓｈａｏ、Ｈ．ＷｕおよびＷ．Ｓｕｎ著「ＲｅｔｉｎａｌＩｍａｇｅＲｅｇｉｓｔｒａｔｉｏｎＢａｓｅｄｏｎｔｈｅＦｅａｔｕｒｅｏｆＢｉｆｕｒｃａｔｉｏｎＰｏｉｎｔ」第１０回ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｇｒｅｓｓｏｎＩｍａｇｅａｎｄＳｉｇｎａｌＰＲＯＣｅｓｓｉｎｇ、ＢｉｏＭｅｄｉｃａｌＥｎｇｉｎｅｅｒｉｎｇａｎｄＩｎｆｏｒｍａｔｉｃｓ、ＣＩＳＰＢＭＥＩ、１‐６ページ、２０１７年
［２１］Ｃ．Ｇ．ＨａｒｒｉｓおよびＭ．Ｓｔｅｐｈｅｎｓ著「ＡＣｏｍｂｉｎｅｄＣｏｒｎｅｒａｎｄＥｄｇｅＤｅｔｅｃｔｏｒ」ｔｈｅＡｌｖｅｙＶｉｓｉｏｎＣｏｓｎｆｅｒｅｎｃｅ予稿集、１‐６ページ、１９８８年
［２２］Ｃ．Ｈｅｒｎａｎｄｅｚ‐Ｍａｔａｓ、Ｘ．Ｚａｂｕｌｉｓ、Ａ．ＴｒｉａｎｔａｆｙｌｌｏｕおよびＰ．Ａｎｙｆａｎｔｉ著「ＦＩＲＥ：ＦｕｎｄｕｓＩｍａｇｅＲｅｇｉｓｔｒａｔｉｏｎｄａｔａｓｅｔ」ＪｏｕｒｎａｌｆｏｒＭｏｄｅｌｉｎｇｉｎＯｐｈｔｈａｌｍｏｌｏｇｙ、４：１６‐２８、２０１７年
［２３］Ｊ．Ｚ．Ｈｕａｎｇ、Ｔ．Ｎ．Ｔａｎ、Ｌ．ＭａおよびＹ．Ｈ．Ｗａｎｇ著
「ＰｈａｓｅＣｏｒｒｅｌａｔｉｏｎ‐ｂａｓｅｄＩｒｉｓＩｍａｇｅＲｅｇｉｓｔｒａｔｉｏｎＫｏｄｅｌ」ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ、２０（３）：４１９‐４２５ページ、２００５年
［２４］Ｎ．Ｊａｃｏｂｓ、Ｎ．ＲｏｍａｎおよびＲ．Ｐｌｅｓｓ著「ＣｏｎｓｉｓｔｅｎｔＴｅｍｐｏｒａｌＶａｒｉａｔｉｏｎｓｉｎＭａｎｙＯｕｔｄｏｏｒＳｃｅｎｅｓ」ｔｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ予稿集、２００７年
［２５］Ｄ．Ｐ．Ｋｉｎｇｍａ及びＪ．Ｂａ著「Ａｄａｍ：ＡＭｅｔｈｏｄｆｏｒＳｔｏｃｈａｓｔｉｃＯｐｔｉｍｉｚａｔｉｏｎ」ＣｏＲＲ、ａｂｓ／１４１２．６９８０、２０１４年
［２６］Ｓ．Ｌｅｕｔｅｎｅｇｇｅｒ、Ｍ．ＣｈｌｉおよびＲ．Ｙ．Ｓｉｅｇｗａｒｔ著ＢＲＩＳＫ：ＢｉｎａｒｙＲｏｂｕｓｔＩｎｖａｒｉａｎｔＳｃａｌａｂｌｅＫｅｙｐｏｉｎｔｓ」ｔｈｅＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ予稿集、２５４８‐２５５５ページ、２０１１年
［２７］Ｐ．Ｌｉ、Ｑ．Ｃｈｅｎ、Ｗ．ＦａｎおよびＳ．Ｙｕａｎ著「ＲｅｇｉｓｔｒａｔｉｏｎｏｆＯＣＴＦｕｎｄｕｓＩｍａｇｅｓｗｉｔｈＣｏｌｏｒＦｕｎｄｕｓＩｍａｇｅｓＢａｓｅｄｏｎＩｎｖａｒｉａｎｔＦｅａｔｕｒｅｓ」ＩｎＣｌｏｕｄＣｏｍｐｕｔｉｎｇａｎｄＳｅｃｕｒｉｔｙ‐ＴｈｉｒｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ，４７１‐４８２ページ、２０１７年
［２８］Ｄ．Ｇ．Ｌｏｗｅ著「ＤｉｓｔｉｎｃｔｉｖｅＩｍａｇｅＦｅａｔｕｒｅｓｆｒｏｍＳｃａｌｅＩｎｖａｒｉａｎｔｋｅｙｐｏｉｎｔｓ」ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ、６０ページ２００４年
［２９］Ｋ．ＭｉｋｏｌａｊｃｚｙｋおよびＣ．Ｓｃｈｍｉｄ著「ＡＰｅｒｆｏｒｍａｎｃｅＥｖａｌｕａｔｉｏｎｏｆＬｏｃａｌＤｅｓｃｒｉｐｔｏｒｓ」ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ、２７（１０）：１６１５‐１６３０ページ、２００５年
［３０］Ｋ．Ｍｉｋｏｌａｊｃｚｙｋ、Ｔ．Ｔｕｙｔｅｌａａｒｓ、Ｃ．Ｓｃｈｍｉｄ、Ａ．Ｚｉｓｓｅｒｍａｎ、Ｊ．Ｍａｔａｓ、Ｆ．Ｓｃｈａｆｆａｌｉｔｚｋｙ、Ｔ．ＫａｄｉｒおよびＬ．ＶａｎＧｏｏｌ著「ＡＣｏｍｐａｒｉｓｏｎｏｆＡｆｆｉｎｅＲｅｇｉｏｎＤｅｔｅｃｔｏｒｓ」ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ
［３１］Ｙ．Ｏｎｏ、Ｅ．Ｔｒｕｌｌｓ、Ｐ．ＦｕａおよびＫ．Ｍ．Ｙｉ著「ＬＦ‐ＮＥＴ：ＬｅａｒｎｉｎｇＬｏｃａｌＦｅａｔｕｒｅｓｆｒｏｍＩｍａｇｅｓ」ＩｎＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ、６２３７‐６２４７ページ、２０１８年
［３２］Ｊ．Ｐ．Ｗ．Ｐｌｕｉｍ、Ｊ．Ｂ．Ａ．ＭａｉｎｔｚおよびＭ．Ａ．Ｖｉｅｒｇｅｖｅｒ著「ＭｕｔｕａｌＩｎｆｏｒｍａｔｉｏｎＢａｓｅｄＲｅｇｉｓｔｒａｔｉｏｎｏｆＭｅｄｉｃａｌＩｍａｇｅｓ：ＡＳｕｒｖｅｙ」ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＭｅｄｉｃａｌＩｍａｇｉｎｇ、２２（８）：９８６‐１００４ページ、２００３年
［３３］Ｒ．Ｒａｍｌｉ、Ｍ．Ｙａｍａｎｉ、Ｉ．Ｉｄｒｉｓ、Ｋ．Ｈａｓｉｋｉｎ、Ｎ．Ｋ．Ａ．Ｋａｒｉｍ、Ａ．Ｗａｈｉｄ、Ａ．Ｗａｈａｂ、Ｉ．Ａｈｍｅｄｙ、Ｆ．Ａｈｍｅｄｙ、Ｎ．Ａ．ＫａｄｒｉおよびＨ．Ａｒｏｆ著「Ｆｅａｔｕｒｅ‐ＢａｓｅｄＲｅｔｉｎａｌＩｍａｇｅＲｅｇｉｓｔｒａｔｉｏｎＵｓｉｎｇＤ‐ＳａｄｄｌｅＦｅａｔｕｒｅ」２０１７年
［３４］Ｏ．Ｒｏｎｎｅｂｅｒｇｅｒ、Ｐ．ＦｉｓｃｈｅｒおよびＴ．Ｂｒｏｘ著「Ｕ－Ｎｅｔ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｒｏｋｓｆｏｒＢｉｏｍｅｄｉｃａｌＩｍａｇｅＳｅｇｍｅｎｔａｔｉｏｎ」ＭｅｄｉｃａｌＩｍａｇｅＣｏｍｐｕｔｉｎｇａｎｄＣｏｍｐｕｔｅｒ‐ＡｓｓｉｓｔｅｄＩｎｔｅｒｖｅｎｔｉｏｎ掲載、２３４‐２４１ページ、２０１５年
［３５］Ｅ．Ｒｕｂｌｅｅ、Ｖ．Ｒａｂａｕｄ、Ｋ．ＫｏｎｏｌｉｇｅおよびＧ．Ｂｒａｄｓｋｉ著「ＯＲＢ：ＡｎＥｆｆｉｃｉｅｎｔＡｌｔｅｒｎａｔｉｖｅｔｏＳＩＦＴｏｒＳＵＲＦ」ｔｈｅＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ予稿集、２５６４‐２５７１ページ、２０１１年
［３６］Ｃ．Ｓａｎｃｈｅｚ‐ｇａｌｅａｎａ、Ｃ．Ｂｏｗｄ、Ｅ．Ｚ．Ｂｌｕｍｅｎｔｈａｌ、Ｐ．Ａ．Ｇｏｋｈａｌｅ、Ｌ．Ｍ．ＺａｎｇｗｉｌｌおよびＲ．Ｎ．Ｗｅｉｎｒｅｂ著「ＵｓｉｎｇＯｐｔｉｃａｌＩｍａｇｉｎｇＳｕｍｍａｒｙＤａｔａｔｏＤｅｔｅｃｔＧｌａｕｃｏｍａ」。Ｏｐｔｈａｍｏｌｏｇｙ、１８１２‐１８１８ページ、２００１年
［３７］Ｅ．Ｓｉｍｏ‐Ｓｅｒｒａ、Ｅ．Ｔｒｕｌｌｓ、Ｌ．Ｆｅｒｒａｚ、Ｉ．Ｋｏｋｋｉｎｏｓ、Ｐ．ＦｕａおよびＦ．Ｍｏｒｅｎｏ‐Ｎｏｇｕｅｒ著「ＤｉｓｃｒｉｍｉｎａｔｉｖｅＬｅａｒｎｉｎｇｏｆＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎａｌＦｅａｔｕｒｅＰｏｉｎｔＤｅｓｃｒｉｐｔｏｒｓ」ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ、１１８‐１２６ページ、２０１５．４
［３８］Ｂ．Ｔｒｉｇｇｓ、Ｐ．Ｆ．Ｍｃｌａｕｃｈｌａｎ、Ｒ．Ｉ．ＨａｒｔｌｅｙおよびＡ．Ｗ．Ｆｉｔｚｇｉｂｂｏｎ著「ＢｕｎｄｌｅＡｄｊｕｓｔｍｅｎｔ‐ＡＭｏｄｅｒｎＳｙｎｔｈｅｓｉｓ」Ｔｅｃｈｎｉｃａｌｒｅｐｏｒｔ
［３９］Ｐ．Ｔｒｕｏｎｇ、Ｓ．ＤｅＺａｎｅｔおよびＳ．Ａｐｏｓｔｏｌｏｐｏｕｌｏｓ著「ＣｏｍｐａｒｉｓｏｎｏｆＦｅａｔｕｒｅＤｅｔｅｃｔｏｒｓｆｏｒＲｅｔｉｎａｌＩｍａｇｅＡｌｉｇｎｍｅｎｔ」ＡＲＶＯ、２０１９年
［４０］Ｙ．Ｖｅｒｄｉｅ、Ｋ．Ｍ．Ｙｉ、Ｐ．ＦｕａおよびＶ．Ｌｅｐｅｔｉｔ著「ＴＩＬＤＥ：ＡＴｅｍｐｏｒａｌｌｙＩｎｖａｒｉａｎｔＬｅａｒｎｅｄＤＥｔｅｃｔｏｒ」ｔｈｅＩＥＥＥＣｏｍｐｕｔｅｒＳｏｃｉｅｔｙＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ予稿集５２７９‐５２８８ページ、２０１５年
［４１］Ｇ．Ｗａｎｇ、Ｚ．Ｗａｎｇ、Ｙ．ＣｈｅｎおよびＷ．Ｚｈａｏ著「ＢｉｏｍｅｄｉｃａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇａｎｄＣｏｎｔｒｏｌＲｏｂｕｓｔＰｏｉｎｔＭａｔｃｈｉｎｇＭｅｔｈｏｄｆｏｒＭｕｌｔｉｍｏｄａｌＲｅｔｉｎａｌＩｍａｇｅＲｅｇｉｓｔｒａｔｉｏｎ」ＢｉｏｍｅｄｉｃａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇａｎｄＣｏｎｔｒｏｌ、１９：６８‐７６ページ、２０１５年
［４２］Ｓ．Ａ．Ｊ．ＷｉｎｄｅｒおよびＭ．Ａ．Ｂｒｏｗｎ著「ＬｅａｒｎｉｎｇＬｏｃａｌＩｍａｇｅＤｅｓｃｒｉｐｔｏｒｓ」ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ、２００７年
［４３］Ｓ．Ａ．Ｊ．Ｗｉｎｄｅｒ、Ｇ．ＨｕａおよびＭ．Ａ．Ｂｒｏｗｎ著「ＰｉｃｋｉｎｇｔｈｅＢｅｓｔＤＡＩＳＹ」ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ、１７８‐１８５ページ、２００９年
［４４］Ｋ．Ｍ．Ｙｉ、Ｅ．Ｔｒｕｌｌｓ、Ｖ．ＬｅｐｅｔｉｔおよびＰ．Ｆｕａ著「ＬＩＦＴ：ＬｅａｒｎｅｄＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍ」於ＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ‐ ＥＣＣＶ、４６７‐４８３ページ、２０１６年
［４５］Ｋ．Ｍ．Ｙｉ、Ｙ．Ｖｅｒｄｉｅ、Ｐ．ＦｕａおよびＶ．Ｌｅｐｅｔｉｔ著「ＬｅａｒｎｉｎｇｔｏＡｓｓｉｇｎＯｒｉｅｎｔａｔｉｏｎｓｔｏＦｅａｔｕｒｅＰｏｉｎｔｓ」於ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ、１０７‐１１６ページ、２０１６年
［４６］Ｓ．Ｄ．Ｚａｎｅｔ、Ｔ．Ｒｕｄｏｌｐｈ、Ｒ．Ｒｉｃｈａ、Ｃ．ＴａｐｐｅｉｎｅｒおよびＲ．Ｓｚｎｉｔｍａｎ著「Ｒｅｔｉｎａｌｓｌｉｔｌａｍｐｖｉｄｅｏｍｏｓａｉｃｋｉｎｇ」ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＡｓｓｉｓｔｅｄＲａｄｉｏｌｏｇｙａｎｄＳｕｒｇｅｒｙ、１１（６）：１０３５‐１０４１ページ、２０１６年
［４７］Ｌ．Ｚｈｏｕ、Ｍ．Ｓ．Ｒｚｅｓｚｏｔａｒｓｋｉ、Ｌ．Ｊ．ＳｉｎｇｅｒｍａｎおよびＪ．Ｍ．Ｃｈｏｋｒｅｆｆ著「ＴｈｅＤｅｔｅｃｔｉｏｎａｎｄＱｕａｎｔｉｆｉｃａｔｉｏｎｏｆＲｅｔｉｎｏｐａｔｈｙＵｓｉｎｇＤｉｇｉｔａｌＡｎｇｉｏｇｒａｍｓ」ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＭｅｄｉｃａｌＩｍａｇｉｎｇ、１３（４）：６１９‐６２６ページ、１９９４年
［４８］Ｃ．Ｌ．ＺｉｔｎｉｃｋおよびＫ．Ｒａｍｎａｔｈ著「ＥｄｇｅＦｏｃｉＩｎｔｅｒｅｓｔＰｏｉｎｔｓ」於ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ、３５９‐３６６ページ、２０１１年

７０１、９０１システム
７０２、９０２カメラ
７０３、９０３ディスプレイ
７０４、９０４通信ユニット
７０５、９０５制御ユニット
７０６、９０６メモリ
７０７、９０７データ
７０８、９０８モデル
７０９、９０９画像
７１１訓練モジュール
７１２、９１２関心点セレクタ
７１３、９１３スコアマップ生成器
７１４、９１４マッチングモジュール
７１５検証モジュール
７１６結合モジュール
７１７前処理モジュール
９１０プログラムコード
９１７取得モジュール
９１８レジストレーションモジュール

Claims

特徴点検出のためのモデルを訓練する方法であって、
第１の画像および第２の画像を取得するステップと、
前記モデルを用いて、前記第１の画像に対する第１のスコアマップおよび前記第２の画像に対する第２のスコアマップを生成するステップと、
前記第１のスコアマップに基づいて、前記第１の画像内の第１の複数の関心点を選択するステップと、
前記第２のスコアマップに基づいて、前記第２の画像内の第２の複数の関心点を選択するステップと、
前記第１の複数の関心点のうちの１つの第１の関心点と、前記第２の複数の関心点のうちの１つの第２の関心点とのペアワイズマッチングを行うステップと、
前記第１の画像と前記第２の画像との間のグラウンドトゥルース変換に基づいて、前記ペアワイズマッチの正しさをチェックして、リワードマップを生成するステップと、
前記スコアマップと前記リワードマップを結合または比較するステップと、
前記結合または比較の結果に基づいて前記モデルを更新するステップとを含む方法。
前記複数の関心点を選択するステップは、前記画像内の任意の点から最近傍関心点までの距離に最大制限を課すことを含む、請求項１に記載の方法。
前記ペアワイズマッチングは、前記第１の関心点において前記第１の画像で検出された特徴と、前記第２の関心点において前記第２の画像で検出された特徴との間の類似性に基づいて実行される、請求項１または請求項２に記載の方法。
前記マッチングは、前記第１の関心点を、複数の第２の関心点のうちの１つの第２の関心点にマッチングすることによって第１の方向に実行され、前記第２の関心点は、前記第１の関心点における特徴に最も類似した特徴を有する、請求項１から請求項３のいずれか一項に記載の方法。
前記マッチングはさらに、前記第２の関心点を複数の第１の関心点のうちの１つの第１の関心点にマッチングすることによって第２の方向に実行され、前記第１の関心点は、前記第２の関心点における特徴に最も類似した特徴を有する、請求項４に記載の方法。
前記リワードマップが、グラウンドトゥルースデータに従って、マッチングに成功した関心点に対するリワードを示し、前記グラウンドトゥルースデータに従って、マッチングに失敗した関心点に対するリワードがないことを示す、請求項１から請求項５のいずれか一項に記載の方法。
前記結合または比較が、前記スコアマップおよびリワードマップを前記関心点についてのみ結合または比較することを含む、請求項１から請求項６のいずれか一項に記載の方法。
前記結合または比較が、偽陽性マッチをおそらくランダムに選択し、真陽性マッチおよび前記偽陽性マッチの選択分についてのみ前記スコアマップおよびリワードマップを結合または比較することによって前記真陽性マッチの数と前記偽陽性マッチの数とを均衡させることを含み、
前記真陽性マッチとは、正しさのチェックに合格した関心点であり、前記偽陽性マッチとは、正しさのチェックに合格しなかった関心点である、請求項１から請求項７のいずれか一項に記載の方法。
前記結合または比較が、前記スコアマップと前記リワードマップの間の二乗差の合計を計算することを含む、請求項１から請求項８のいずれか一項に記載の方法。
特徴点検出のためのモデルを訓練する装置であって、
制御ユニットと、
メモリを備え、前記メモリは、前記制御ユニットに、
第１の画像と第２の画像を取得するステップと、
前記モデルを用いて、前記第１の画像に対する第１のスコアマップおよび前記第２の画像に対する第２のスコアマップを生成するステップと、
前記第１のスコアマップに基づいて、前記第１の画像内の第１の複数の関心点を選択するステップと、
前記第２のスコアマップに基づいて、前記第２の画像内の第２の複数の関心点を選択するステップと、
前記第１の複数の関心点のうちの１つの第１の関心点と、前記第２の複数の関心点のうちの１つの第２の関心点とのペアワイズマッチングを行うステップと、
前記第１の画像と前記第２の画像との間のグラウンドトゥルース変換に基づいて、前記ペアワイズマッチの正しさをチェックして、リワードマップを生成するステップと、
前記スコアマップと前記リワードマップを結合または比較するステップと、
前記結合または比較の結果に基づいて、前記モデルを更新するステップと、
を実行させる命令を含む、装置。
第１の画像を第２の画像にレジストレーションする方法であって、
第１の画像と第２の画像を取得するステップと、
請求項１から１０のいずれかに記載の方法または装置によって訓練されたモデルを用いて、前記第１の画像に対する第１のスコアマップおよび前記第２の画像に対する第２のスコアマップを生成するステップと、
前記第１のスコアマップに基づいて、前記第１の画像内の第１の複数の関心点を選択するステップと、
前記第２のスコアマップに基づいて、前記第２の画像内の第２の複数の関心点を選択するステップと、
前記第１の複数の関心点のうちの１つの第１の関心点と、前記第２の複数の関心点のうちの１つの第２の関心点とのペアワイズマッチングを行うステップと、を含む方法。
前記複数の関心点を選択するステップは、前記画像内の任意の点から最近傍関心点までの距離に最大制限を課すことを含む、請求項１１に記載の方法。
前記ペアワイズマッチングは、前記第１の関心点において前記第１の画像で検出された特徴と、前記第２の関心点において前記第２の画像で検出された特徴との間の類似性に基づいて実行される、請求項１１または請求項１２に記載の方法。
前記マッチングは、前記第１の関心点を、複数の第２の関心点のうちの１つの第２の関心点にマッチングすることによって第１の方向に実行され、前記第２の関心点は、前記第１の関心点における特徴に最も類似した特徴を有する、請求項１１から請求項１３のいずれか一項に記載の方法。
前記マッチングはさらに、前記第２の関心点を、複数の第１の関心点のうちの１つの第１の関心点にマッチングすることによって第２の方向に実行され、前記第１の関心点は、前記第２の関心点における特徴に最も類似した特徴を有する、請求項１４に記載の方法。
第１の画像を第２の画像にレジストレーションする装置であって、
制御ユニット、例えば、少なくとも１つのコンピュータプロセッサと、
メモリを備え、前記メモリは、前記制御ユニットに、
第１の画像と第２の画像を取得するステップと、
請求項１から請求項１０のいずれか一項に記載の方法または装置によって訓練されたモデルを用いて、前記第１の画像に対する第１のスコアマップおよび前記第２の画像に対する第２のスコアマップを生成するステップと、
前記第１のスコアマップに基づいて、前記第１の画像内の第１の複数の関心点を選択するステップと、
前記第２のスコアマップに基づいて、前記第２の画像内の第２の複数の関心点を選択するステップと、
前記第１の複数の関心点のうちの１つの第１の関心点と、前記第２の複数の関心点のうちの１つの第２の関心点とのペアワイズマッチングを行うステップと、
を実行させる命令を含む、装置。
請求項１から請求項１０のいずれか一項に記載の方法または装置によって生成される分類器。