JP2022525264A - 特徴点検出 - Google Patents

特徴点検出 Download PDF

Info

Publication number
JP2022525264A
JP2022525264A JP2022502320A JP2022502320A JP2022525264A JP 2022525264 A JP2022525264 A JP 2022525264A JP 2022502320 A JP2022502320 A JP 2022502320A JP 2022502320 A JP2022502320 A JP 2022502320A JP 2022525264 A JP2022525264 A JP 2022525264A
Authority
JP
Japan
Prior art keywords
interest
image
point
points
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022502320A
Other languages
English (en)
Inventor
ソランジュ ガランス トロン,プルーン
ザネット,サンドロ イヴォ セバスチァーノ デ
アパストロプーロス,ステファノス
Original Assignee
レチンエイアイ メディカル アーゲー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by レチンエイアイ メディカル アーゲー filed Critical レチンエイアイ メディカル アーゲー
Publication of JP2022525264A publication Critical patent/JP2022525264A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

特徴点検出のためのモデルを訓練する方法は、第1の画像および第2の画像を取得することを含む。方法は、そのモデルを用いて、第1の画像に対する第1のスコアマップと、第2の画像に対する第2のスコアマップとを生成することを含む。方法は、第1のスコアマップに基づいて、第1の画像内の第1の複数の関心点を選択することを含む。方法は、第2のスコアマップに基づいて、第2の画像内の第2の複数の関心点を選択することを含む。第1の複数の関心点のうちの第1の関心点と、第2の複数の関心点のうちの第2の関心点とのペアワイズマッチングが実行される。グラウンドトゥルースに基づいて、ペアワイズマッチングの正しさがチェックされ、リワードマップが生成される。スコアマップとリワードマップが比較され、モデルの更新に使用される。

Description

本発明は、特徴検出に関するものである。本発明は、より詳細には、画像レジストレーションのための特徴検出に関するものである。本発明はさらに、検出された特徴点を用いた画像レジストレーションに関するものである。
2つ以上の画像を同じ大域的空間参照に整列させるプロセスである画像レジストレーションは、コンピュータビジョン、パターン認識、および医用画像解析の分野において重要な要素である。医療分野でのイメージングは困難な作業である。そのため、通常の写真撮影などに比べて、画質が悪くなることがある。ノイズやブラーなどの画像アーティファクトの存在や、画像化された組織の性質と相まって、自然画像に最適化された古典的な先行技術の特徴検出器では対応しきれない。さらに、新しい特徴検出器をドメインごとに手動で作成することは、時間のかかる作業であり、成功の保証はない。
既存のレジストレーションアルゴリズムは、領域ベースのアプローチと特徴ベースのアプローチに分類され得る。領域ベースのアプローチでは、一般的に、相互相関[15]、相互情報量[33、4]、位相相関[24]などの類似性指標を用いて、画像ペアの強度パターンを比較し、変換を推定する。しかし、照明が変化した場合やオーバーラップする領域が小さい場合には、領域ベースのアプローチは困難または不可能になる。逆に、特徴ベースのアプローチでは、画像ペアの対応点を抽出し、検出された特徴点間の距離を最小化する変換を探索する。特徴ベースの手法は、領域ベースのレジストレーション手法に比べて、強度、スケール、回転などの変化に強く、そのため、医用画像のレジストレーションなどの問題に適していると考えられる。一般的に、2つの画像の特徴抽出とマッチングは、注目点の検出、各特徴の記述、対応する特徴のマッチング、マッチングを用いた画像間の変換の推定という4つのステップを含む。理解されるように、検出ステップはそれ以降のすべてのステップに影響を与えるため、レジストレーションを成功させるためには非常に重要である。高い画像のカバレッジと、コントラストの低い画像での安定したキーポイントが必要となる。
文献では、局所的な関心点検出器が徹底的に評価されている。SIFT[29]は、コンピュータビジョンにおいて、おそらく最もよく知られた検出器/記述子である。SIFT は、異なるスケールでコーナーやブロブを計算してスケール不変性を付加し、局所勾配を用いて記述子を抽出する。Root SIFT[9]は、SIFTと比較して結果が向上することが示された。高速堅牢特徴量(Speeded‐Up Robust Features 、SURF)[12]は、Haarフィルタと積分画像を用いたより高速の代替手法であり、それに対し、KAZE[7]は、非線形スケール空間を利用して、より正確なキーポイント検出を実現している。
眼底画像の分野では、血管樹と分岐点解析に頼る手法が広く用いられている[28、21]。しかし、血管樹を正確にセグメンテーションすることは難しく、また、血管が少ない画像ではレジストレーションに失敗することが多い。代替的レジストレーション技術は、再現可能な局所的特徴のマッチングに基づいている。Chenらは、低品質のマルチモーダル網膜画像からHarrisコーナーを検出し[22]、部分的強度不変特徴(Harris‐PIIFD)記述子を割り当てた[14]。重複領域が30%を超えるような低品質の画像に対しても良好な結果を達成したが、再現性が低いという特徴がある。Wangら[41]は、SURF特徴量を用いて再現性を高め、大量の外れ値を排除するポイントマッチングの新手法を導入したが、重複領域が50%未満になると成功率が大きく低下する。
また、Cattinら[13]は、SURF法を用いて、血管がはっきりしない場合でも、網膜画像のモザイクを効率的に作成できることを示した。しかし、この手法は、自己相似性の高い画像の場合にしか成功しないようである。D-サドル検出器/記述子 [34]は、眼底画像レジストレーション(FIRE) データセット において、レジストレーション成功率の点で従来の手法を上回ることが示されており[23]、低品質な領域でも関心点を検出することができる。
最近では、深層学習の登場により、CNNアーキテクチャに基づく学習済み検出器が、最先端のコンピュータビジョン検出器を凌駕することが示された[19、17、44、32、 10]。学習不変特徴変換(LIFT)[32]は、パッチを用いて完全に微分可能な深層CNNを学習し、古典的な運動からの構造復元(Structure from Motion、SfM)システムからの監視に基づいて、関心点の検出、方向推定、記述子の計算を行う。SuperPoint [17]は、関心点検出器と記述子を訓練するための自己教師付きフレームワークを導入した。これは、LIFT、SIFT、有向Fastと回転Brief(Oriented Fast and Rotated Brief、ORB)と比較して、HPatches[11]上でのホモグラフィ推定結果は最先端のものとなっている。しかし、訓練手順は複雑であり、自己教師型であるため、ネットワークはコーナー上の点しか見つけることができないという問題がある。局所特徴ネットワーク(LF‐NET)[32]は、我々の手法に最も近い。Onoらは、キーポイント検出器および記述子を、一方の枝が微分可能であって他方の非微分可能な枝の出力にフィードする2枝の設定で、エンド・ツー・エンドで訓練した。彼らは、検出器を、画像ペア間の再現性向けに最適化した。
Truongら[39]は、Root‐SIFT、SURF、KAZE、ORB[36]、二元ロバスト不変スケーラブルなキーポイント(Binary Robust Invariant Scalable Keypoints、BRISK)[27]、高速網膜キーポイント(FREAK)[6]、LIFT、SuperPoint[17]、LF‐NET[32]を用いて、網膜眼底画像の画像マッチングとレジストレーション品質の両面から評価を行った。その結果、マッチング性能ではSuperPointが他の製品よりも優れているが、レジストレーション品質ではLIFTが最も高い結果を示し、KAZEとSIFTが僅差で続くことがわかった。彼らは、これらの検出器の問題点として、互いに密集した位置にある特徴点を検出し、同様の記述子で特徴付けられる可能性があることを強調した。これは、偽のマッチにつながる可能性があり、したがって、不正確なまたは失敗したレジストレーションにつながる。
本発明の一態様は、上記で概説した問題の少なくとも1つを解決すること、または本明細書で説明した利点の少なくとも1つを提供することである。
本発明の第1の態様によれば、特徴点検出のためのモデルを訓練する方法は、
第1の画像および第2の画像を取得するステップと、
前記モデルを用いて、前記第1の画像に対する第1のスコアマップおよび前記第2の画像に対する第2のスコアマップを生成するステップと、
前記第1のスコアマップに基づいて、前記第1の画像内の第1の複数の関心点を選択するステップと、
前記第2のスコアマップに基づいて、前記第2の画像内の第2の複数の関心点を選択するステップと、
前記第1の複数の関心点のうちの1つの第1の関心点と、前記第2の複数の関心点のうちの1つの第2の関心点とのペアワイズマッチングを行うステップと、
前記第1の画像と前記第2の画像との間のグランドトゥルース変換に基づいて、前記ペアワイズマッチの正しさをチェックして、リワードマップを生成するステップと、
前記スコアマップと前記リワードマップを結合または比較するステップと、
前記結合または比較の結果に基づいて前記モデルを更新するステップとを含む。
第1の画像と第2の画像との間のグランドトゥルース変換に基づくスコアマップとリワードマップの結合または比較の結果に基づいてモデルを更新することにより、2つの画像をレジストレーションするという目的にさらに的を絞った、高度に直接的なリワードが得られる。したがって、モデルの訓練が改善される。本明細書に開示される任意の実施形態において、モデルは、例えば、学習された関数、人工ニューラルネットワーク、または分類器であってもよい。
前記複数の関心点を選択するステップは、前記画像内の任意の点から最近傍関心点までの距離に最大制限を課すことを含み得る。これにより、ほとんどの関心点が画像の小さい領域に集まってしまう状況を回避できる。この機能は、全体的に優れた画像レジストレーションをもたらすマッチングポイントを得ることを助長する。
前記ペアワイズマッチングは、前記第1の関心点において前記第1の画像で検出された特徴と、前記第2の関心点において前記第2の画像で検出された特徴との間の類似性に基づいて実行されてもよい。これにより、他方の画像において類似した特徴記述子を有する関心点に、関心点をマッチングさせることができる。
前記マッチングはさらに、前記第1の関心点を、複数の第2の関心点のうちの1つの第2の関心点にマッチングすることによって第1の方向に実行されてもよく、前記第2の関心点は、前記第1の関心点における特徴に最も類似した特徴を有する。これにより、マッチする関心点の適切な選択をもたらす。
前記マッチングはさらに、前記第2の関心点を複数の第1の関心点のうちの1つの第1の関心点にマッチングすることによって第2の方向に実行されてもよく、前記第1の関心点は、前記第2の関心点における特徴に最も類似した特徴を有する。これは、マッチングする関心点の選択を改善するのに役立つ。
前記リワードマップは、グランドトゥルースデータに従って、マッチングに成功した関心点に対するリワードを示してもよく、前記グランドトゥルースデータに従って、マッチングに失敗した関心点に対するリワードがないことを示してもよい。これは、より的を絞ったリワードマップを提供することで、訓練手順を改善するのに役立つ。
前記結合または比較は、前記スコアマップおよびリワードマップを前記関心点についてのみ結合または比較することを含む。関心点ではない他の点は、数が多く、訓練手順を助けるための十分な情報を追加しない可能性がある。
前記結合または比較が、偽陽性マッチを(おそらくランダムに)選択し、真陽性マッチおよび前記偽陽性マッチの選択分についてのみ前記スコアマップおよびリワードマップを結合または比較することによって前記真陽性マッチの数と前記偽陽性マッチの数とを均衡させることを含んでもよく、前記真陽性マッチとは、正しさのチェックに合格した関心点であり、前記偽陽性マッチとは、正しさのチェックに合格しなかった関心点である。これは、「マッチしない」に対する訓練へのバイアスをさらに減らすのに役立つ。
前記結合または比較は、前記スコアマップと前記リワードマップの間の二乗差の合計を計算することを含んでもよい。これは、訓練手順の適切な成分を構成してもよい。
本発明の別の態様によれば、特徴点検出のためのモデルを訓練する装置は、制御ユニットと、メモリを備え、前記メモリは、前記制御ユニットに、第1の画像と第2の画像を取得するステップと、前記モデルを用いて、前記第1の画像に対する第1のスコアマップおよび前記第2の画像に対する第2のスコアマップを生成するステップと、前記第1のスコアマップに基づいて、前記第1の画像内の第1の複数の関心点を選択するステップと、前記第2のスコアマップに基づいて、前記第2の画像内の第2の複数の関心点を選択するステップと、前記第1の複数の関心点のうちの1つの第1の関心点と、前記第2の複数の関心点のうちの1つの第2の関心点とのペアワイズマッチングを行うステップと、前記第1の画像と前記第2の画像との間のグランドトゥルース変換に基づいて、前記ペアワイズマッチの正しさをチェックして、リワードマップを生成するステップと、前記スコアマップと前記リワードマップを結合または比較するステップと、前記結合または比較の結果に基づいて、前記モデルを更新するステップと、を実行させる命令を含む。
本発明の別の態様によれば、第1の画像を第2の画像にレジストレーションする方法が提供され、前記方法は、第1の画像と第2の画像を取得するステップと、請求項1から10のいずれかに記載の方法または装置によって生成されたモデルを用いて、前記第1の画像に対する第1のスコアマップおよび前記第2の画像に対する第2のスコアマップを生成するステップと、前記第1のスコアマップに基づいて、前記第1の画像内の第1の複数の関心点を選択するステップと、前記第2のスコアマップに基づいて、前記第2の画像内の第2の複数の関心点を選択するステップと、前記第1の複数の関心点のうちの1つの第1の関心点と、前記第2の複数の関心点のうちの1つの第2の関心点とのペアワイズマッチングを行うステップと、を含む。
前記複数の関心点を選択するステップは、前記画像内の任意の点から最近傍関心点までの距離に最大制限を課すことを含んでもよい。
前記ペアワイズマッチングは、前記第1の関心点において前記第1の画像で検出された特徴と、前記第2の関心点において前記第2の画像で検出された特徴との間の類似性に基づいて実行されてもよい。
前記マッチングは、前記第1の関心点を、複数の第2の関心点のうちの1つの第2の関心点にマッチングすることによって第1の方向に実行されてもよく、前記第2の関心点は、前記第1の関心点における特徴に最も類似した特徴を有する。
前記マッチングはさらに、前記第2の関心点を、複数の第1の関心点のうちの1つの第1の関心点にマッチングすることによって第2の方向に実行されてもよく、前記第1の関心点は、前記第2の関心点における特徴に最も類似した特徴を有する。
前記複数の関心点を選択するステップは、前記画像内の任意の点から最近傍関心点までの距離に最大制限を課すことを含んでもよい。
前記ペアワイズマッチングは、前記第1の関心点において前記第1の画像で検出された特徴と、前記第2の関心点において前記第2の画像で検出された特徴との間の類似性に基づいて実行されてもよい。
前記マッチングは、前記第1の関心点を、複数の第2の関心点のうちの1つの第2の関心点にマッチングすることによって第1の方向に実行されてもよく、前記第2の関心点は、前記第1の関心点における特徴に最も類似した特徴を有する。
前記マッチングはさらに、前記第2の関心点を、複数の第1の関心点のうちの1つの第1の関心点にマッチングすることによって第2の方向に実行されてもよく、前記第1の関心点は、前記第2の関心点における特徴に最も類似した特徴を有する。
本発明の別の態様によれば、第1の画像を第2の画像にレジストレーションする装置が提供され、装置は、制御ユニット、例えば、少なくとも1つのコンピュータプロセッサと、メモリを備え、前記メモリは、前記制御ユニットに、第1の画像と第2の画像を取得するステップと、記載された方法または装置によって生成されたモデルを用いて、前記第1の画像に対する第1のスコアマップおよび前記第2の画像に対する第2のスコアマップを生成するステップと、前記第1のスコアマップに基づいて、前記第1の画像内の第1の複数の関心点を選択するステップと、前記第2のスコアマップに基づいて、前記第2の画像内の第2の複数の関心点を選択するステップと、前記第1の複数の関心点のうちの1つの第1の関心点と、前記第2の複数の関心点のうちの1つの第2の関心点とのペアワイズマッチングを行うステップと、を実行させる命令を含む。
本発明の別の態様によれば、記載された方法または装置によって生成されたモデルが提供される。
本発明の一態様は、キーポイント検出のための半教師付き学習方法である。検出器は、多くの場合、再現性(LF‐NETなど)に対して最適化されており、画像ペア間の関連するマッチの品質に対しては最適化されていない。本発明の一態様は、強化学習を使用して、再現性のある安定した関心点を密にカバーして抽出し、特定のドメイン上で正しいマッチングを最大化するように特別に設計された訓練手順である。このような特定のドメインの例は、困難な網膜細隙灯画像である。
当業者であれば、上述の特徴は、有用と思われる任意の方法で組み合わせ得ることを理解できるだろう。さらに、システムおよび装置に関して記載された修正および変形は、同様に、方法およびコンピュータプログラム製品に適用されてもよく、また、方法に関して記載された修正および変形は、同様に、システムおよび装置に適用されてもよい。
以下、本発明の態様を、図面を参照しながら、例を用いて解明する。図面は図式化されており、縮尺通りに描かれていない場合がある。
実用例でポイントがどのようにマッチングされ得るかを示す図である。 画像ペアの訓練のステップの一例を示す図である。 損失計算の一例を示す図である。 Unet‐4の一例の模式図である。 細隙灯データセットの画像の例を示す図である。 非前処理済みデータを用いて、206ペアの細隙灯データセットについて評価された検出器/記述子の性能指標の概要を示す図である。 前処理されたデータを用いて、206ペアの細隙灯データセットについて評価された検出器/記述子の性能指標の概要を示す図である。 別の実用例でポイントがどのようにマッチングされ得るかを示す図である。 連続した画像をレジストレーションして作成したモザイク図である。 特徴点検出のためのモデルを訓練するシステムのブロック図である。 特徴点検出用モデルを学習する方法のフローチャートである。 第1の画像を第2の画像にレジストレーションするシステムのブロック図である。 第1の画像を第2の画像にレジストレーションする方法のフローチャートである。
特定の例示的な実施形態について、添付の図面および紙面を参照しながら、より詳細に説明する。
詳細な構造や要素など、本明細書に開示される事項は、例示的な実施形態の包括的な理解を助けるために提供される。したがって、例示的な実施形態は、これらの具体的に定義された事項がなくても実行され得る。また、よく知られている操作や構造は、不必要な詳細によって説明が不明瞭になり得るため、詳細には記載されていない。
本明細書で開示された技術は、任意のアプリケーション領域の画像レジストレーションに適用され得る。
この問題に対する、既知の完全教師付き機械学習ソリューションは、2つの異なる視点からの画像の位置を関連付ける人手による注釈付きのグラウンドトゥルースを必要とする。自然画像では、グラウンドトゥルースは静的な設定で作成できるが、医療データは非常に動的であり、患者が関与している。このため、グラウンドトゥルースの取得は非常に困難であり、実現不可能となっている。
多くの特徴検出器やキーポイント検出器で検出された特徴の分布は、エッジやコーナーに集中している。医療分野では通常、広い領域には特徴がないため、特徴点が凝集し、その結果、不正確な変換につながるマッチングが発生する。
例として以下のような側面が挙げられる。
1.従来技術では、再現性などの間接的な指標を用いていたが、本技術ではターゲット領域での最終的なマッチング成功率を用いて訓練を行う。
2.アルゴリズムは、合成増強のみで訓練され、グラウンドトゥルースデータの問題を解決する。これにより、ターゲットデータのみで検出器を訓練できる。
3.特徴点が画像全体に均等に分布している。
次のような利点が、部分的または完全に実現され得る。
1.本発明の特定の実施形態を使用することにより、特徴点検出器を学習し、特定の、他の方法では実行不可能なイメージングドメイン向けに最適化できる。さらに、優れた特徴記述子が再利用され得る。
2.グラウンドトゥルースが必要なく、ターゲットドメインからのサンプルのみが必要である。
3.より良いマッチング率を得るために前処理や特徴の手動による加工は必要ない。
4.特徴点(およびマッチング)が均等に分布しているため、2つの画像間の推定変換の精度が大幅に向上する。
次のようなさらなる利点も部分的または完全に実現され得る。
1.対象領域からより多くのデータが得られた場合、それを使用して検出器をさらに改善できる。
2.検出器を記述子アルゴリズムに最適に適合させ得る。より優れた記述子が見つかった場合、実装コストやデータを追加することなく、新しい検出器が訓練され得る。
本発明の一態様は、画像中の特徴点を検出するモデルを訓練するための訓練手順である。この訓練手順は、あらゆる種類の画像に適用され得る。これは、例えば、医療分野、衛星画像や屋外の画像に対しても可能である。また、画像は、携帯電話や携帯型カメラ、超音波診断装置、眼科用細隙灯撮像装置などによって作成されてもよい。
例えば、画像は2D画像であっても3D画像であってもよい。2D画像の場合、2D(または1D)の特徴が検出されてもよく、点の座標は2次元であってもよい。3D画像の場合、1D、2Dまたは3Dの特徴が検出されてもよく、点の座標は3次元であってもよい。
例えば、画像は1D画像であってもよい。1D画像の場合、1Dの特徴が検出され、点の座標は1次元であってもよい。一般に、画像は、任意の正の整数Nに対してN次元であり得る。
例えば、画像は、写真やX線画像などである。
例えば、モデルによって検出された特徴点は、画像のレジストレーションに使用されてもよい。
本発明の一態様は、特定の特徴点記述子に対する最適な特徴点検出を求める方法または装置である。その意味で、このアルゴリズムは、ターゲット記述子アルゴリズムのマッチング能力を最適化する画像内の特徴点を見つける。このターゲット記述子アルゴリズムは、例えば、添付論文に記載されているように、rootSIFTであり得るが、ORB、BRISK、BRIEFなどの他の記述子であってもよい。
以下の説明では、関心点という用語とキーポイントという用語は互換的に使用される。
モデルの訓練には、次のようなステップが使用され得る。
1.グラウンドトゥルースホモグラフィH=HI,I’に関連する一対の画像I∈RH×W,I’∈RH×Wが与えられた場合、モデルは各画像に対する以下のスコアマップを提供してもよい。
S=fθ(I),S’=fθ(I)。
このステップでは、2つのホモグラフィ変換HおよびHI’をそれぞれ使用して、原画像から2つの画像IおよびI’を生成してもよい。すると、それら2つの画像間のホモグラフィは、H=H I’となる。例えば、ホモグラフィ変換HおよびHI’は、ランダムジェネレータを用いてランダムに生成されてもよい。2つのキーポイント確率マップSとS’は、モデルを使用して以下のように生成される。
S’=fθ(I),S’=fθ(I’)
2.ウィンドウサイズwの標準的な微分不可能ノンマキシマムサプレッション(NMS)を用いて、両方のスコアマップ上で関心点の位置を抽出してもよい。このステップでは、関心点の位置を、ウィンドウサイズwのノンマキシマムサプレッションを用いて両スコアマップS、S’上で抽出してもよい。これは、すべてのマス目w×wにおいて、最大値のみを局所的に保持し、他のすべての値を0に設定することを意味する。これにより、画像全体ではっきりとした疎な点が得られる。つまり、キーポイント確率マップS、S’の各マス目w×wに最大値のキーポイントのみが保持されるため、キーポイントの数が減ることになる。
ウィンドウサイズwは試行錯誤により選択してもよい。この幅wは、予め与えられていても(固定のアルゴリズムパラメータ)、入手した画像Iに基づいて動的に決定されてもよい。
これは、この手順における任意のステップであることを理解されたい。さらに、標準的な微分不可能NMSの代わりに、代替アルゴリズムを使用してもよい。
3.検出された各キーポイントに対して、128のroot‐SIFT特徴記述子が計算されてもよい。このステップでは、例えば、rootSIFT記述子アルゴリズムを使用して、ステップ2で見つかった各キーポイントに特徴記述子ベクトルを割り当てる。特徴記述子ベクトルは、例えば、128の長さを有していてもよい。他の長さを代わりに使用してもよい。本明細書の他の箇所で述べたように、別のタイプの特徴記述子を代替的に使用してもよい。
例えば、特徴記述子は、画像IまたはI’に存在する画像情報に基づいて計算される。例えば、SIFT特徴記述子は、キーポイント周辺の画像IまたはI’における画像勾配を記述する。
4.画像Iからのキーポイントは、例えば[1]のようなブルートフォースマッチャーを用いて、画像I’のキーポイントとマッチさせてもよいし、逆に、画像I’のキーポイントを画像Iからのキーポイントとマッチさせてもよい。例えば、両方向で発見されたマッチのみが保持される。このステップでは、画像Iからのキーポイントが、他方の画像I’の、ステップ3)で計算された最も近い記述子を用いて、画像I’のキーポイントとマッチングされてもよい。このため、画像Iのキーポイントに対して計算された記述子出力を、画像I’のキーポイントに対して計算された記述子出力と比較してもよい。ここで、「最も近い記述子」とは、事前に定義された類似性尺度に従って最も類似した記述子出力を意味する。特定の実装では、2番目に近いポイントが非常に類似した記述子を有する場合、マッチングは破棄される。
マッチングは,両方向(画像Iから画像I’へ,および画像I’から画像Iへ)に行い得る。両方向で発見されたマッチのみが保持される。代替的実装では、一方の方向のみで見つかったマッチの一部またはすべてが、マッチのセットに保持されてもよい。
任意の適切な種類のマッチャーが使用され得る。このステップは、ブルートフォースマッチャーに限定されない。
特定の実装では、ステップ4のマッチングは、グラウンドトゥルースホモグラフィH(またはHまたはHI’)を考慮することなく、画像IおよびI’の両方における記述子の出力に基づいて実行される。
5.マッチは、 グラウンドトゥルースホモグラフィHに従ってチェックされる。画像Iの対応するキーポイントxが、Hを適用した後のIのポイントxの近傍に入る場合、マッチは真陽性と定義される。これは次のように定式化され得る。
Figure 2022525264000002
式中、εは、例えば、3画素として選択され得る。Tを真のマッチングの集合とする。
このステップでは、ステップ4)で見つかったすべてのマッチングポイントについて、画像IのマッチングポイントがホモグラフィHを用いて画像I’の点に変換される。例えば、画像Iのマッチングポイントの座標は、ホモグラフィHを用いて画像I’の点の対応する座標に変換される。特定の実施形態では、ステップ4)で見つかったマッチングポイントのサブセットのみが変換される。
画像I’内のグラウンドトゥルース対応点を得るためにホモグラフィHを使用して変換した後の画像I内のキーポイントxが、ステップ4で見つかったマッチングポイントx’に十分に近い場合、マッチングは真陽性と定義されてよい。
例えば、「十分に近い」とは、キーポイントxのグラウンドトゥルース対応点が、マッチングポイントx’から特定の閾値イプシロンよりも小さい距離を有することを意味すると定義され得る。この距離は、例えば、ユークリッド距離であってもよい。特定の実装では、イプシロンは3画素であってもよい。しかし、これは限定ではない。
モデルfθは、ニューラルネットワーク、例えば、畳み込みニューラルネットワークであってもよい。しかしながら、これは限定ではない。代替的な実施形態では、統計モデルなど、他のタイプのモデルが使用され得る。
本発明の一態様によれば、ステップ2、3、4、および/または5は、モデルを訓練するために使用されてもよい。この訓練は、モデルまたはニューラルネットワークのバックプロパゲーションを含んでもよい。
例えば、訓練手順によって最適化される関数(すなわち、コスト関数または損失)は、ステップ5で見つかったマッチに基づいてもよい。
したがって、キーポイントのマッチング能力が最適化され得る。
損失関数は、以下のように提供されてもよい。
Figure 2022525264000003

ここで、リワード行列Rは、以下のように定義され得る。
Figure 2022525264000004
しかし、上記文献のLsimpleの定式化の欠点は、場合によっては、陽性リワードを与えられたポイントと陰性リワードを与えられたポイントとの間に比較的大きなクラスの不均衡が生じ、特に訓練の最初の段階では、後者が圧倒的に優勢になることであると考えられる。ほとんどがゼロの値であるリワードRが与えられた場合、モデルfθは、レジストレーションのための画像特徴に対応するキーポイントの望ましい表示ではなく、ゼロの出力に収束する可能性がある。
好ましくは、この不均衡を解消するために、サンプルマイニングを使用する。つまり、すべてのn個の真陽性点を選択し、すべての偽陽性ではなく、偽陽性のセットから追加のn個の点をランダムにサンプリングする。2n個の真陽性特徴点と、マイニングされた偽陽性キーポイントを通してのみ、バックプロパゲートを行い得る。
代替的に、バックプロパゲーションに用いる真陽性点と偽陽性点の数は同一でなくてもよい。真陽性点の数に対して、偽陽性点の数がある程度減っていれば十分である。
このようにして、真陽性キーポイントと偽陽性キーポイントの数が(ほぼ)同じになる。これで、真陽性サンプル数と偽陽性サンプル数における不均衡の回避を助長できる。
偽陽性よりも真陽性の方が多い場合には、見つかったすべてのマッチに対して勾配をバックプロパゲーションしてもよい。
このマイニングは、数学的には、真陽性キーポイントの位置と、マイニングされた(偽陽性)特徴点の(ランダムな)サブセットの位置で1に等しく、それ以外では0に等しいマスクMとして定式化され得る。
したがって、損失は例えば以下のように定式化され得る。
Figure 2022525264000005
好ましくは、損失は、マスクMによる関与する特徴点のそれぞれの損失の平均値として定式化され得る。
Figure 2022525264000006

式中、ドットは要素ごとの乗算を意味し、上付きの2は要素ごとの二乗を意味し、マイナスは要素ごとの減算を意味し、総和は行列のすべての要素に対して行われる。モデルfθの出力は、その点がキーポイントである確率または可能性を示し得る。
好ましくは、損失関数は、特徴記述子に従ってマッチすると判断された点のみに基づいて計算される。特定のアプリケーションでは、真陰性に対して訓練を行わないことで、より良い結果および/またはより安定した結果が達成され得る。
ステップ2は、画像上にキーポイントをより規則的に分散させるのに役立ち得る。例えば、キーポイント確率マップ上に幅w、高さhの固定された非最大サプレッションウィンドウを設けることで、2つのキーポイント間の最大距離がx方向に2w、y方向に2hとなることを確実にする。例えば、ウィンドウの幅wは、ウィンドウの高さhと等しくてもよい。または、ウィンドウの大きさを画像に依存させ、例えば画像の情報量に依存させることも可能である。
ステップ3で生成された記述子は、それぞれの画像のキーポイントに存在する特徴の記述子の間の類似性に基づいて、画像Iのキーポイントを画像I’のキーポイントにマッチングするために使用されてもよい。
異なるタイプの記述子を使用してもよい。例えば、SIFTは(検出器と記述子の両方のコンポーネントを有する)適切な記述子であってよい。
一般的に、マッチングは3つのステップで行われてもよい。
1)2つの画像から関心のある特徴点を検出する。
2)検出された各特徴点について、一意の記述(特徴ベクトル)を生成する。
3) 特徴ベクトル間の類似性または距離尺度(ユークリッド距離など)を用いて、一方の画像の特徴点を他方の画像の特徴点にマッチングする。
本方法の利点は、キーポイント確率マップを生成する前に、画像の前処理を行う必要がないことであると考えられる。モデルまたはニューラルネットワークを使用してステップ1でキーポイント確率マップを生成する場合、モデルまたはニューラルネットワークは、より良いキーポイントのための最適化プロセスにおいて、暗黙的に前処理を行うことを学習してもよい。
説明した例では、画像を合成的に変換して(ランダムホモグラフィを使用して)訓練セットを作成している。しかし、この手法は,実際のデータペアを訓練するためにも使用され得る。その場合例えば、グラウンドトゥルースホモグラフィHは、人間の観察者または別の方法で決定され得る。
本明細書で開示の技術を用いて訓練されたネットワークは、フルサイズのグレースケール画像上のGLAMpointsと呼ばれる安定した関心点の位置を予測できる。以下では、使用する訓練セットの生成と訓練手順の例を開示する。標準的な畳み込みネットワークアーキテクチャが採用される可能性があるため、これらのアーキテクチャについては最後に簡単に説明するのみである。
本発明者らは、糖尿病性網膜症(DR)、緑内障、加齢黄斑変性症(AMD)などの様々な眼疾患の診断に広く用いられているヒトの網膜のデジタル眼底画像に着目した研究を行っている[37、47]。同じセッションで取得された、オーバーラップが小さい網膜画像の場合、レジストレーションを使用して、網膜のより広い領域を描写するモザイクを作成できる。画像のモザイク処理により、眼科医は網膜を1枚の大きな画像で表示することができ、診断や治療計画を立てる際に役立つ。また、異なる時間に撮影された網膜画像のモザイク処理は、眼疾患の進行を監視したり、識別したりするのに重要であることが示されている。さらに重要なことに、DRの眼科レーザー治療において、レジストレーションの応用が模索されている。レジストレーションは、手術中に血管をリアルタイムで追跡し、網膜へのレーザー照射を正確に行い、健康な組織へのダメージを最小限に抑えることを確実にする。
モザイク処理は、通常、画像から再現性のある関心点を抽出し、それらを関連付ける変換を探索することに依存する。その結果、キーポイントの検出は、このパイプラインの中で最も重要な段階であり、それ以降のすべての段階、つまりレジストレーションの成功を左右する条件となる。
同時に、従来の特徴検出器は汎用的なものであり、屋外で、合焦し、エッジやコーナーがシャープでノイズの少ない画像に対して手動で最適化されている。しかし、拡大され、歪んでおり、ノイズが多く、合焦の保証がなく、エッジがシャープでない軟部組織が描かれている可能性がある医用画像では、通常、機能しない(図3参照)。
図3は、細隙灯データセットからの画像の例で、レジストレーションにとって困難な条件を示している。A)血管が少なく、露出オーバーのため、コントラストやコーナーが弱く、B)モーションブラー、C)フォーカスブラー、D)撮影時のアーティファクトと反射。
このような画像では、従来の手法では最適な結果が得られず、レジストレーションの後の段階で、ランダムサンプリングコンセンサス(RanSaC)[20]、バンドル調整[38]、同時定位とマッピング(SLAM)[18]など、より高度な最適化が必要となる。これらのケースでは、特徴点のグラウンドトゥルースが欠落しているため、教師付き学習法は失敗するか、適用できない。
本開示では、半教師付きの方法で特徴点を学習する方法が開示されている。学習済み特徴検出器は、ヒューリスティックに基づく手法よりも優れた性能を呈することが示されたが、それらは通常、再現性向けに最適化されており、その結果、最終的なマッチングの際に性能が低下する可能性がある。一方、本開示によれば、GLAMpointsと呼ばれるキーポイントは、最終的なマッチング能力のために訓練されてもよく、例えば、スケール不変特徴変換(SIFT)記述子と関連付けられた場合、マッチング性能とレジストレーション品質において、先行技術を凌駕する。
図1は、一対の細隙灯画像の間で検出されたキーポイントとそのマッチングの例を示す。第1列は原画像であり、第2列は前処理済みデータを示す。検出されたキーポイントは白で示されている。白線は真陽性マッチを、黒線は偽陽性マッチを示す。
図1に示すように、GLAMpoints(A行で示す)は、SIFT(B行で示す)よりも多くの正しいマッチを生み出している。特徴点に基づいたレジストレーションは、ポイントマッチングと変換の推定により、本質的に微分不可能である。強化学習(RL)を用いると、検出されたポイントを古典的なRLの意味での決定と仮定することで、この問題を回避できる。これにより、特定の画像モダリティに特化した畳み込みニューラルネットワーク(CNN)の学習に、重要な性能指標であるマッチング能力を直接使用することが可能になる。
訓練されたネットワークは、フルサイズのグレースケール画像上の安定した関心点の位置を予測できる。これらの関心点を、本明細書では「GLAMpoints」と呼ぶ。以下では、訓練セットの生成方法および訓練手順を開示する。標準的な畳み込みネットワークアーキテクチャを使用することが可能であるため、このアーキテクチャについては最後に簡単に説明するにとどめる。
一例として、眼科分野の訓練セット、すなわち、レーザー治療に使用される細隙灯眼底映像を選択した。このアプリケーションでは、網膜組織を正確に切除するためにライブレジストレーションが行われる。例となる訓練データセットは、300~700画素×150~400画素の範囲の異なる解像度を有する1336画像のベースセットからの画像で構成されている。これらの画像は、複数のカメラやデバイスで撮影されており、画像モダリティの多様性をカバーしている。これらの画像は、健康な人や糖尿病性網膜症の人など、10人の異なる患者の眼の検査から得られたものである。フル解像度のサンプルは、大きな画像にゼロでパディング、またはランダムに切り抜く等で256×256画素に縮小した。このサイズ縮小は、学習プロセスを高速化し、画像の数を増やすために行われた。しかし、上述の寸法と訓練セットの内容は、単に非限定的な例として本明細書に提供されていることに留意されたい。
BをサイズH×Wのベース画像のセットとする。ステップiごとに、2つの別々の、ランダムにサンプリングされたホモグラフィ変換g,g’を適用することで、原画像Bから画像ペアI,I’が生成される。したがって画像Iと画像I’は,ホモグラフィ
Figure 2022525264000007

に基づいて関連づけられている。ホモグラフィの生成方法については、本明細書の別の箇所で詳しく説明している。幾何学的変換に加えて、ガウスノイズ、コントラストの変化、照明、ガンマ、モーションブラー、画像の逆数など、標準的なデータ拡張を使用してもよい。これらの外観変換のサブセットは、各画像IおよびI’に対してランダムに選択されてもよい。ある実施形態では、ネットワークが同じ画像ペアを2度見ることがないように、各ステップでベース画像に異なる幾何学的変換と外観変換が適用される。
特徴点検出器を訓練するには、古典的な強化学習(RL)の機能を利用してもよい。RLは、ある環境下での行動の確率を推定し、いくつかのステップでリワードを最大化することを目的としている。特徴点検出は、画像のすべての位置で1つの行動をとること、すなわち、特徴点として選択するか、背景として選択することとみなすことができる。学習した関数は次のように定義され得る。
θ(I)→-S
ここでSは、画素単位の特徴点確率のマップを表す。キーポイントの位置の直接的なグラウンドトゥルースがない場合、代わりにリワードを計算できる。このリワードは、マッチングの成功に基づくものであり得る。このマッチングの成功は、コンピュータビジョンの古典的なマッチングステップの後に計算されてもよい。
訓練は以下のように行われてもよい。
1.グラウンドトゥルースホモグラフィH=HI,I’に関連する一対の画像I∈RH×W,I’∈RH×Wが与えられた場合,モデルは,各画像に対する以下のスコアマップを提供してもよい。
S=fθ(I)およびS’=fθ(I)。
2.関心点の位置は、標準的な微分不可能ノンマキシマムサプレッション(NMS)を用いて、ウィンドウサイズwで両方のスコアマップ上に抽出されてもよい。
3.検出された各キーポイントに対して、128個のrootSIFT特徴記述子が計算される。
4.例えば[1]のようなブルートフォースマッチャーを用いて、画像Iからのキーポイントが画像I’のキーポイントとマッチングされ得る、または、画像I’のキーポイントが画像Iからのキーポイントとマッチングされ得る。例えば、両方向で発見されたマッチのみが保持される。
5.マッチは、 グラウンドトゥルースホモグラフィHに従ってチェックされる。画像Iの対応するキーポイントxが、Hを適用した後のIのポイントxの近傍に入る場合、マッチは真陽性と定義される。これは次のように定式化される。
Figure 2022525264000008

ここで、εは,例えば、3画素として選択され得る。Tは真のマッチのセットを表す。
古典的なRLの枠組みでは、ある行動が取られ、つまり特徴点が選択され、真陽性点の集合に入った場合、陽性リワードが得られる。すべてのその他の点/画素には0のリワードが与えられる。そして、リワード行列Rは、例えば以下のように定義され得る。
Figure 2022525264000009

これにより、次のような損失関数が得られる。
Figure 2022525264000010
しかし、この方式の大きな欠点は、陽性リワードを与えられた点と陰性リワードを与えられた点との間のクラスの不均衡が大きく、特に訓練の最初の段階では、後者が圧倒的に優勢になる可能性があることである。ほとんどがゼロの値であるリワードRが与えられた場合、ゼロの出力に収束する可能性がある。ハードマイニングは記述子の訓練を促進することが示されている[37]。偽陽性マッチに対してネガティブハードマイニングを行うことで、本手法のパフォーマンスも向上する可能性があるが、本研究では検討していない。代わりに、不均衡を解消するために、サンプルマイニングを使用してもよく、すべてのn個の真陽性点と追加のn個を、偽陽性のセットからランダムにサンプリングすることができる。バックプロパゲーションは、2n個の真陽性特徴点とマイニングされた偽陽性キーポイントを介して実行されてもよい。特定の実施形態では、バックプロパゲーションは、2n個の真陽性特徴点とマイニングされた偽陽性キーポイントを通じてのみ実行される。偽陽性よりも真陽性の方が多い場合は、見つかったすべてのマッチに対して勾配をバックプロパゲーションしてもよい。このマイニングは、マスクMとして数学的に定式化することができ、真陽性キーポイントの位置とマイニングされた特徴点のサブセットの位置では1に等しく、それ以外では0に等しくなる。したがって損失は次のように定式化され得る。
Figure 2022525264000011

ここで、記号・は要素ごとの乗算を表す。
図2Aは、ある基本画像Bのエポックiにおける画像ペアIとI’の訓練手順を示す。図2Bは、損失計算の例を示す。図2Cは、Unet‐4の模式図である。
訓練ステップの概要を図2に示す。重要なことに、ステップ1のみが損失に関して微分可能であることが観察されよう。学習は、微分不可能なアクションの結果であるリワードに対して、監督なしで直接行われる。また、使用されている記述子は、回転不変性のないSIFTバージョンであることにも注目されたい。その理由は,細隙灯画像では、回転不変性SIFT検出器/記述子よりも、回転依存性SIFT検出器/記述子の方が性能が良いためである。評価の目的は、検出器のみを調査することであり、そのため、一貫性を保つために回転依存型SIFT記述子を使用した。
θの学習には、最終的にシグモイド活性化を行う標準的な4レベルの深層Unet[34]を用いた。これは、バッチ正規化と正規化線形ユニット(ReLU)アクティベーションを用いた3×3の畳み込みブロックを含む(図2C参照)。キーポイント検出のタスクは、画素単位のバイナリセグメンテーション(クラス関心点か否か)に類似しているため、バイナリセグメンテーションやセマンティックセグメンテーションのタスクで過去に成功を収めているUnetモデルが有望であると考えられた。
以下では、テストデータセットと評価プロトコルについて説明する。既存の検出器を、GLAMpointsのような本明細書で開示する技術と定量的・定性的に比較する。
この研究では、訓練済みモデルを、いくつかの眼底画像データセットと自然画像でテストした。医療画像については、2つのデータセットを使用した。
まず、「細隙灯」データセット。3人の患者の網膜動画から、サイズが338画素(px)~660px×190~350pxの206フレームペアをランダムに選択し、テストサンプルとした。図3に例を示すが、見ての通り、これらのフレームには複数のアーティファクトがあり、特に難しいデータセットとなっている。ペアは、20~100%の範囲でオーバーラップするように選択されている。これらのペアは、アフィン変換と15度までの回転によって関連付けられている。専用のソフトウェアツール(Omniviewer1)を用いて、すべてのペアの画像に、少なくとも5つの対応点に関して手動で注釈を付けた。これらのランドマークを用いて、ペア間のグラウンドトゥルースホモグラフィを推定した。正しいマッチングを確認するために、推定されたホモグラフィを専門家がすべて検証し、誤ったマッチングを修正した。
次に、FIREデータセット[22]。FIREデータセットは、一般に公開されている網膜画像レジストレーションデータセットであり、グラウンドトゥルース注釈付きである。129枚の網膜画像から構成されており、134組の画像ペアを形成している。2912×2912画素の原画像は、学習セットと同様の解像度になるように、元のサイズの15%に縮小されている。このような画像の例を図5に示す。
眼底画像のテストでは、前処理として、緑チャンネルを分離し、適応型ヒストグラムイコライゼーションとバイラテラルフィルタを適用してノイズを低減し、エッジの外観を向上させた。前処理の効果は図1で確認できる。このプロセスは、De Zanetら[46]によると、検出と描写の間に改善された結果をもたらす。しかし、GLAMpointsは、原画像と前処理済み画像の両方でうまく動作する。そこで、性能を比較するために、両方のケースでの評価結果を提示する。
さらに、キーポイントの検出とマッチングを自然画像に対しても行った。これには、Oxfordデータセット[30]、EFデータセット[48]、Webcamデータセット[40、24]、ViewPointデータセット[45]を用い、合計で195組のペアを作成した。これらのデータセットで合計195組になる可能性がある。より詳細な情報は、この説明の他の部分で述べられている。
評価基準としては、再現性、キーポイントの平均検出数、成功率などを考慮した。これらについては、以下で詳しく説明する。
1.再現性は、両方の画像に現れる対応点の割合を表す。
Figure 2022525264000012
検出された点のセットは,対応するキーポイントxとx’を伴う画像IとI’に対して、それぞれP,P’と表される。HI,I’は、基準画像と変換後の画像とを関連付けるグラウンドトゥルースホモグラフィである。εは,2つの点間の距離カットオフ(3画素に設定)である。
2.画像ごとに検出されたキーポイントの平均数。マッチングは、[28]で提案されている最近傍距離比 (NNDR)戦略を用いて検出された。第1の最近傍と第2の最近傍の間の記述子距離比が、ある閾値t未満であれば、2つのキーポイントはマッチングする。マッチング性能に関しては、以下の指標が評価された。
(A)AUC、これは、(tの値を変化させて作成した)ROC(受信動作特性)曲線の下の面積である。これにより、[15、43、42]と同様に、各手法の識別力を評価できる。
(b)マッチングスコア、これは、共有視点領域において検出器が抽出した特徴量の総数に対する正しいマッチングの比率として定義される[29]。この指標により、総特徴量パイプラインの性能を評価できる。
(c)カバレッジ率、これは、正しくマッチしたキーポイントによる画像のカバレッジを測定する。この計算のため、[7]で提案された手法を採用して、正しくマッチしたキーポイントからカバレッジマスクを生成し、それぞれのキーポイントに一定の半径(25px)の円盤を追加した。
RanSaCアルゴリズムを適用して、基準画像と変換画像を関連付けるホモグラフィ
Figure 2022525264000013
を計算することで、検出済みマッチから外れ値を取り除いた。上記の指標はすべて、マッチング性能を示すものである。
3.成功率:[13、41]と同様に、各検出器が達成したレジストレーション品質と精度を評価した。これを行うために、以下に示すように、基準画像の6つの固定点の再投影誤差を互いに比較した。
Figure 2022525264000014

ホモグラフィが見つかった各画像ペアについて、対応関係の中央値誤差MEE、最大値誤差MAE、およびルート平均二乗誤差RMSEを用いてレジストレーションの品質を評価した。これらの指標を用いて、MEEとMAEの異なる閾値を定義し、「許容できる」レジストレーションと「不正確な」レジストレーションを定義した。細隙灯データセットでは、(MEE<10,MAE<30)の場合には、画像ペアを「許容できる」レジストレーションとし、それ以外の場合には「不正確な」レジストレーションとした。一方、FIREデータセット[22]の網膜全体の画像では、(MEE<1:50,MAE<10)が「許容できる」レジストレーションとなる。閾値の値は、結果を後から見て経験的に求めたものである。
最後に、各クラスの成功率を算出し、レジストレーションが各カテゴリに該当する画像ペアの割合とした。これらの指標を、実世界での全体的な性能の最も重要な定量的評価基準と考えてもよい。
root‐SIFT記述子に関連付けられた検出器の性能を評価するために、マッチング能力とレジストレーション品質を、よく知られた検出器および記述子と比較した。その中でも、SIFT[2]、root‐SIFT[28、8]、KAZE[6]、LIFT[44]は、Truongら[39]によって、眼底画像に対して良好な性能を示すことが示された。さらに、この手法は、他のCNNベースの検出器・記述子と比較され、LF‐NET[31]やSuperPoint[16]と比較された。本発明者らは、LIFT(Picadillyで事前訓練済み)、SuperPoint、LF‐NET(屋内データで事前訓練済み、屋外データで事前訓練したものよりも眼底画像ではかなり良い結果が得られる可能性がある)の実装と、SIFTとKAZEのOpenCVの実装を使用した。Root‐SIFTの回転依存型バージョンは、回転不変型バージョンに比べてテストセットでのパフォーマンスが高いため、使用されてもよい。
GLAMpointsの訓練は、Tensorflow[4]を用いて、ミニバッチサイズを5に設定し、Adamオプティマイザ[25]を用いて、デフォルトのパラメータである学習率=0:001およびβ=(0.9, 0.999)で行った。このモデルを4回のクロスバリデーションで検証したところ、成功率の標準偏差が1%という類似した結果が得られた。その後、8936枚のベース画像からなる全データセットを対象に、35回のエポックで再訓練を行った。GLAMpoints(NMS10)は、10pxのNMSウィンドウを用いて訓練・テストされた。他のNMSウィンドウも適用可能であり、同様の性能が得られることに留意されたい。
表1:細隙灯データセットの206枚の画像に対する各検出器のレジストレーションクラスごとの成功率(%)。許容できるレジストレーションは、(MEE<10,MAE<30)を有すると定義されている。最良の結果を太字で示す。
Figure 2022525264000015
表1は、細隙灯データセットで評価したレジストレーションの成功率を示している。前処理を行わない場合、比較に用いたほとんどの検出器は、前処理を行った画像に比べて低い性能を示した。それに比べて、提示するモデルは、前処理なしの画像で良好な性能を示した。表1に示すように、SIFT、KAZE、SuperPointの許容できるレジストレーション成功率(A)は、前処理を行った画像と行っていない画像の間で20~30%低下しているのに対し、GLAMpoints、LIFT、LF‐NETの許容できるレジストレーション成功率(A)は、3~6%の低下のみを提示している。また、LF‐NET、LIFT、GLAMpointsは、前処理によらず、安定した平均キーポイント数(LF‐NET が約485、IFT、GLAMpointsが約350)を検出しているが、他の検出器では2倍の減少となっている。
テストした実施形態では、GLAMpointsは、KAZE、SIFT、SuperPointよりも、許容できるレジストレーションの成功率において、少なくとも18%上回り得る。同じカテゴリにおいて、LF‐NETとLIFTは、元データと前処理済みデータにおいて、それぞれ3%と5%、7%と8%上回っている。また、LF‐NETは眼底画像で訓練した場合、この特定の指標とデータセットで同様の結果が得られる可能性があるが、LF‐NETの学習手順では、相対ポーズと対応する深度マップを伴う画像ペアを使用することに注目することも重要であり、深度マップは、眼底画像に関して得るには、不可能ではないにせよ非常に困難であり得る。
さらに、前処理とは無関係に、GLAMpointsモデルは、不正確なレジストレーション(I)においても、成功したレジストレーションにおいても全体的にMEEとRMSEが最小となった。すべての検出器において、許容できるレジストレーションのMEEとRMSEは1画素以内で類似している。クラスごとに対応するMEEとRMSEの詳細は、本明細書の別箇所にある。GLAMpointsの前処理に依存しない安定した結果は、この検出器が高品質の画像でSIFT以上とは言わないまでも同程度の性能を発揮する一方で、低品質でコントラストの弱い画像でも性能が低下しないことを示している。
SIFTは多数のキーポイントを抽出するが(未処理画像では平均205.69個、前処理済みでは431.03個)、それらのキーポイントはクラスターで現れる。その結果、再現性が比較的高くても(多くのおそらく有効なマッチ)、関心点の位置が近いため、最近傍距離比(NNDR)故に多くのマッチが拒否され、真陽性マッチは少なくなり、これは図4から明らかなようにカバレッジが低いことからもわかる。その結果、M:scoreとAUCが小さくなる。再現性の値が同様の場合、我々のアプローチは、広く拡散しそのマッチング能力が訓練された(カバレッジ率が最も高い)関心点を抽出し、その結果、図4に見られるように、より多くの真陽性マッチング(2番目に高いM:scoreとAUC)が得られる。
図4は、206ペアの細隙灯データセットで評価した検出器/記述子の性能指標の概要を示したものである。図4Aは、非前処理済みのデータの結果を示しており、図4Bは前処理済みデータの結果を示している。
また、SuperPoint は、カバレッジが比較的小さいにもかかわらず、最も高い M:scoreとAUCを獲得したことにも注目されよう(図4参照)。しかし、この場合、M:score とAUCは人為的に高くなっており、これは、SuperPointが検出するキーポイントの数が非常に少なく(非前処理画像と前処理画像の平均でそれぞれ 35,88と59,21)、再現性が最も低いため、正しいマッチングの可能性が少ないためである。そのため、真陽性マッチ率が低いにもかかわらず、高いマッチング性能を示している。このことは、不正確なレジストレーションや失敗したレジストレーションが多いことからもわかる(未処理データでは48.54%と17.48%、前処理済み画像では51.46%と7.77%、表1)。
最後に、LF‐NETは非常に高い再現性(元データで最高、前処理済み画像で2番目に大きい)を示したが、そのM:scoreとAUCはランキングの下位に位置していることが注目される(図4)。これは、LF‐NET検出器の訓練が、マッチングの目的よりも再現性を優先していたためと考えられる。
表2:FIREデータセットの非前処理画像に対する各検出器の成功率(%)。許容できるレジストレーションを、(MEE<1:5,MAE<10)を有するものとして定義している。最良の結果を太字で示す。
Figure 2022525264000016
GLAMpointsはFIREデータセットでも評価した。すべての画像は血管のコントラストが高い良質なものであるため、前処理を施す必要はない。表2は、レジストレーションの成功率を示している。クラスごとのMEEとRMSEの平均値と標準偏差は、この説明の別箇所にある。提示する手法は、成功率と、失敗していないレジストレーションの全体的な精度の両方で、優れた結果を示した。興味深いことに、GLAMpointsとSIFTの間で、許容できるレジストレーションの成功率に41.04%の差があることに気付く。GLAMpointsとSIFTは同じ記述子(SIFT)を使用しているため、この差は検出器によってのみ説明される。実際、図5に見られるように、SIFTでは、血管樹や画像の境界にのみ高密度に配置された限られた数のキーポイントが検出されるのに対し、GLAMpoints(NMS10)では、焦点や血管外帯などの困難な領域を含む網膜全体の関心点が抽出され、正しいマッチングの数が大幅に増加している。
図5は、FIREデータセットの一対の画像について、前処理を行わずに検出された関心点とそれに対応するマッチング結果を示したものである。黒い点は、検出された関心点を示している。白線は真陽性マッチを、黒線は偽陽性マッチを示す。行A)は、GLAMpointsを用いて得られた関心点とマッチを示し、行B)は、SIFTを用いて得られた関心点とマッチを示している。
GLAMpoints(NMS10)が他のすべての検出器よりも優れているとはいえ、LIFTとSuperPointもFIREデータセットで非常によく動作している。実際に、このデータセットでは、はっきりとしたコントラストの血管樹上の明確なコーナーを示している。LIFTは、画像全体に渡ってキーポイントを抽出することができ、SuperPointは、合成されたプリミティブな形状のコーナーを検出するように訓練されている。しかし、細隙灯データセットで明らかになったように、SuperPointの性能は、特徴がはっきりしていない画像では強く悪化する。
図5は、提示されたGLAMpoints(NMS10)とSIFTの方法に関して、FIREデータセットの画像ペア間のマッチを示している。すべての検出器のマッチのさらなる例は、この説明の他箇所にある。
特定の実施形態において、本明細書に開示された特徴検出器は、眼底細隙灯ビデオからモザイクを作成できるシステムまたは方法において使用され得る。これを行うために、各フレーム上でキーポイントおよび記述子が抽出され、RanSaCを用いて連続する画像間のホモグラフィが推定される。次に、計算されたホモグラフィに基づいて、画像をワープする。25枚から558枚の画像を含む10本のビデオを用いて、連続するフレームをレジストレーションすることにより、モザイクを生成した。レジストレーションが失敗するまでの平均フレーム数(キーポイントが抽出されなかったり、一対の画像間でマッチしなかったりするため)を計算した。これら10本のビデオにわたり、失敗までのレジスター済み平均フレーム数は、GLAMpoints(NMS15)では9.98、SIFTでは1.04であった。このようなモザイクの例を図6に示す。
図6は、失敗するまで連続した画像をレジストレーションして作成したモザイクを示す。A)GLAMpoints、非前処理済みデータ、53フレーム、B)SIFT、前処理済みデータ、34フレーム、C)SIFT、非前処理済み画像、11フレーム。
同じビデオから、SIFTは前処理済みデータでは34フレーム後に失敗し、元データでは11フレーム後にのみ失敗したが、GLAMpointsは53枚の連続した画像のレジストレーションに成功し、視覚的なエラーもなかった。このモザイクは、フレーム間のマッチングで作成され、バンドル調整は行われていないことに留意されたい。[46]に記載のものと同じブレンド方法が使用された。
検出の実行時間は、660×350pxの解像度の84ペアの画像に対して計算された。GLAMpointsアーキテクチャはGeForce GTX GPUで実行され、NMSとSIFTはCPUを使用した。GLAMpoints(NMS10)とSIFTの実行時間の平均値と標準偏差を表3に示す。
表3:本検出器とSIFT検出器の画像検出平均実行時間[ms]
Figure 2022525264000017
細隙灯画像で訓練したGLAMpointsを用いて、自然画像での結果を算出した。自然画像では大域的に、GLAMpointsは、許容できるレジストレーションに関して 75.38%の成功率に達し、これに対し、最も性能の高かった回転不変型SIFT検出器は85.13%、SuperPointは83.59%であった。また、AUC、M:score、カバレッジ率においても先行技術の結果まで上がり、それぞれ第2位、第2位、第1位のスコアであった。また、再現性において、GLAMpointsは、SIFT、KAZE、LF‐NETよりも多くの画像のレジストレーションに成功したにもかかわらず、SIFT、KAZE、LF‐NETに次いで最下位から二番目となっており、再現性は検出器の性能を測るための最適な指標ではないことが改めて示された。この評価基準の詳細については、本明細書の別の箇所で説明する。最後に、このデータセットの屋外画像は、GLAMpointsが訓練された医療用眼底画像とは全く異なるものであり、これは実質的な汎化特性を示していることに留意する必要があり得る。
提示した手法は、この説明ではGLAMpointsと呼ぶ深層RLを用いて、学習可能な検出器を訓練する。この検出器は、例えば、医療用眼底画像の画像マッチングやレジストレーションにおいて、先行技術を凌駕する可能性がある。実験の結果、以下のことが実証された。(1)検出器は、特定の記述子に関連するマッチング能力を直接訓練したものであり、パイプラインの一部のみが微分可能である。他の多くの検出器は再現性を重視して設計されているが、キーポイントは再現性があってもマッチングには適していないため、ミスリードする恐れがある。(2)学習は合成データのみで行い得る。これにより、手動で注釈を付ける手間が省け、学習データの使用量における融通性を提供する。(3)訓練方法は領域に関して柔軟に対応しており、医療用眼底画像で成功するように最適化されているが、他の種類の画像にも適用可能である。(4)訓練済みCNNは、他の最先端の検出器と比較して、コーナー/特徴が少ないテクスチャの低い画像において、正しいマッチングにつながる良好なキーポイントを有意に多く検出する。その結果、画像の明示的な前処理は必要ないことがわかった。(5)既に存在するあらゆる特徴記述子は、対応する優れた検出器を学習することで改善できる可能性がある。
別の実施形態では、キーポイントの位置とともに、回転不変の記述子を計算することが可能である。検出と記述の両方は、同様の方法でエンドツーエンドで訓練され得る。さらに、本実験はU-NetCNNアーキテクチャを用いて行われたが、場合によってはU‐Net(UNet)よりも優れた性能をもたらす可能性のある他のCNNアーキテクチャも適用可能である。
以下では、訓練方法に関する補足的な詳細を開示する。これらの詳細は、非限定的な例とみなされることが理解されるであろう。
回転不変性のあるSIFT記述子と回転不変性のないSIFT記述子の性能比較を行った。良く学習された正確なマッチポイント(GLAMpoints)検出器は、眼底画像において、回転不変性のないSIFT記述子の方が回転不変性のあるバージョンよりも性能が良いため、回転依存性のあるSIFT(スケール不変特徴変換)記述子に関連付けて学習・テストされた。両バージョンのSIFT記述子について、前処理済みの細隙灯データセットで評価した指標の詳細を表4に示す。
表4:206ペアの細隙灯データセットの前処理済みペアに関して計算されたメトリクス。各カテゴリの最良の結果を太字で示す。
Figure 2022525264000018
以下に、ホモグラフィ生成の例示的な方法を概説する。このホモグラフィ生成は、単一の画像を含むデータから、画像のペアを含む訓練データを生成するために行われてもよい。学習に用いるサイズH×Wのベース画像の集合をBとする。ステップiごとに、ランダムにサンプリングされた2つの別個のホモグラフィ変換g,g’を適用して、原画像Bから画像ペアI,I’を生成する。これらのホモグラフィ変換はそれぞれ、回転、剪断、透視、スケーリング、並進から構成されている。他の変換タイプの組み合わせも代替的に使用できる。パラメータの例示的な最小値と最大値を表5に示す。
表5:訓練中のランダムなホモグラフィ生成のための例示的なパラメータ
Figure 2022525264000019
図7は、特徴点検出用モデルを訓練するシステム701を示す。システム701は、制御ユニット705と、通信ユニット704と、メモリ706とを含んでもよい。制御ユニット705は、任意のプロセッサまたは複数の協働するプロセッサを含んでもよい。制御ユニット705は、代替的に、専用の電子回路によって実装されてもよい。通信ユニット704は、カメラ702やディスプレイ703などの周辺機器を接続するための任意の種類のインターフェースを含んでもよく、また、データの交換および/または外部機器の制御のために、例えば、ネットワーク接続を含んでもよい。代替実施形態では、カメラ702および/またはディスプレイは、単一の装置として、システム701に組み込まれてもよい。代替実施形態では、カメラ702によって撮影された画像は、外部データベース(図示せず)に保存され、その後、通信ユニット704に送信されてもよい。同様に、システム701によって生成されたデータは、ディスプレイに表示される前に、外部データベースに保存されてもよい。そのために、通信ユニット704は、例えばネットワークを介して、データサーバに接続されていてもよい。
制御ユニット705は、システム701の動作を制御する。例えば、制御ユニット705は、メモリ706に格納されたコードを実行する。メモリ706は、RAM、ROM、フラッシュ、磁気ディスク、またはその他の揮発性もしくは不揮発性のコンピュータ可読媒体などの任意の記憶手段、またはそれらの組み合わせを含んでもよい。例えば、コンピュータ命令は、不揮発性のコンピュータ可読媒体に格納されてもよい。メモリ706は、画像709、モデル708および任意の他のデータなどのデータ707をさらに含んでいてもよい。プログラムコードは、機能単位またはモジュールに分割されていてもよい。ただし、これは限定されるものではない。
動作時、制御ユニット705は、カメラ702から複数の画像を取得する、または、カメラ702で撮影された画像を外部記憶媒体から取得して、画像709をメモリ706に保存するように構成されていてもよい。
システムは、モデル708を訓練する訓練モジュール711を含んでいてもよい。モデルは、ニューラルネットワーク、例えば、畳み込みニューラルネットワーク、または、統計モデルなどの他のモデルを含んでもよく、そのモデルパラメータは、訓練モジュール711によって実行される訓練プロセスによって調整されてもよい。
訓練モジュール711は、入力値をモデル708に供給すること、入力値に応答してモデル708が出力する出力値を評価すること、および評価の結果に基づいてモデル708のモデルパラメータを調整することを含む訓練手順を実行するように構成されてもよい。
通信ユニット704は、制御ユニット705の制御下で、複数の画像を受信するように構成されていてもよい。これらの画像709は、メモリ707に保存されてもよい。
任意で、制御ユニット705は、カメラ702(内部カメラまたは外部カメラ)を制御して、画像を生成し、それらを通信ユニット704に送信し、メモリ707に保存する。
システム701は、単一の画像の画像ペアを生成する前処理モジュール717を含んでいてもよい。例えば、前処理モジュール717は、ランダムな変換を生成し、その変換を第1の画像に適用して第2の画像を生成するように構成されている。あるいは、前処理モジュール717は、2つのランダムな変換を生成し、第1のランダムな変換を適用して特定の画像から第1の画像を生成し、第2のランダムな変換を特定の画像に適用して同じ特定の画像から第2の画像を生成するように構成されてもよい。生成するランダム変換の種類は、特定のアプリケーション領域で発生する典型的な動きに対応するように慎重に構成され得る。代替的な実施形態では、カメラによって生成された2つの画像が手動でレジストレーションされ、2つの画像間の変換が利用可能になるようにする。
プロセッサは、第1の画像および第2の画像を含むそのような一対の画像を、メモリ709から取得してもよい。
システム701は、モデルを用いて、第1の画像に対する第1のスコアマップおよび第2の画像に対する第2のスコアマップを生成するように構成されたスコアマップ生成器713を含んでもよい。すなわち、スコアマップ生成器713は、任意の前処理動作(正規化など、または他の種類の前処理)を行うように構成されていてもよい。しかし、前処理なしでも良好な結果が得られることが確認されている。結果として得られた画像は、モデル708への入力として提供されてもよい。入力に応答してモデル708によって生成された対応する出力は、別の画像(スコアマップ)を含んでもよく、その各画素は、画像を別の画像にレジストレーションする目的で、その点が適切な関心点であるという可能性に関連している。スコアマップ生成器713は、第1の画像および第2の画像に対する処理を、一方が他方から独立して別々に、すなわち、他方の画像の内容に関する知識を用いずに実行するように構成されていてもよいことが観察される。
システム701は、さらに関心点セレクタ702を備えていてもよい。関心点セレクタ712は、第1のスコアマップに基づいて第1の画像内の第1の複数の関心点を選択し、第2のスコアマップに基づいて第2の画像内の第2の複数の関心点を選択するように構成されてもよい。この場合も、両画像の処理は、別々の独立した処理であってもよい。例えば、スコアマップ上で最大のスコアを有する点を関心点として選択してもよい。特定の実施形態では、隣り合う関心点間の最大および/または最小の距離が、アルゴリズム手段によって課されてもよい。例えば、画素の各N×Mブロックにおいて、最高スコアの画素のみが選択される。隣接する点の間の最大および/または最小の距離に影響を与えるための他のアルゴリズムが想定されてもよい。
システムは、マッチングモジュール716を含んでいてもよい。マッチングモジュール716は、画像をペアで処理するように構成されていてもよい。具体的には、マッチングモジュール716は、第1の複数の関心点のうちの第1の関心点と、第2の複数の関心点のうちの第2の関心点とのペアワイズマッチングを行う。言い換えると、第1の画像内の関心点と第2の画像内の関心点とのマッチングを行う。例えば、両画像の関心点について特徴記述子を算出し、第1の画像の関心点の特徴記述子と第2の画像の関心点の特徴記述子との間で類似度を算出する。最も高い類似度を有するペアが、マッチングペアとして選択されてもよい。他のマッチングの方法が想定されてもよい。
システムは、マッチングモジュール714によって生成されたペアワイズマッチの正しさをチェックするように構成された検証モジュール715を含んでもよい。このため、検証モジュール715は、グラウンドトゥルース情報にアクセスしてもよい。例えば、画像ペアが、同じ画像の差分(アフィン)変換を用いて人工的に生成された場合、この変換には、この画像ペアの点のグラウンドトゥルースマッチングが含まれる。したがって、第1の画像の点に変換を適用すると、第2の画像の対応するマッチングポイントが得られるはずである。第2の画像内のマッチングポイントと第1の画像内のポイントのグラウンドトゥルース変換との間の距離(例えばユークリッド距離)は、マッチングポイントの誤差とみなすことができる。リワードは、このような誤差の指標に基づいていてもよく、誤差が小さいほどリワードが高くなり、逆に誤差が大きいほどリワードが低くなる。このようにして、各マッチングポイントについて、リワードを計算することができる。これにより、リワードマップ、またはリワードマトリクスを得ることができる。このようにして、第1の画像内の関心点のリワードは、マッチングモジュール714によって見つけられた、第2の画像内のマッチングポイントとのマッチングの成功に相関している。
システムは、スコアマップとリワードマップを結合または比較するための結合モジュール716を含んでいてもよい。すなわち、スコアマップ生成器713によって生成されたポイントに対するスコアが高く、検証モジュール715によって生成されたそのポイントに対するリワードも高かった場合(「真陽性」)、結合モジュール716は、将来的に類似の関心点を識別するために、モデル708を強化するための値を決定してもよい。一方、スコアマップ生成器713によって生成された点のスコアは高かったが、検証モジュール715によって生成されたその点のリワードが低かった場合(「偽陽性」)、結合モジュール716は、将来的に類似の関心点を識別することを控えるようにモデル708を強化する値を決定してもよい。特定の実施形態では、結合モジュール716は、偽陽性のサブセットに対してのみリワードを決定するように構成される。例えば、画像内の真陽性の数がM個であった場合、最大でM個の偽陽性が考慮される。すべての値を合計して、例えば、総リワード関数を計算してもよい。
訓練モジュール711は、結合または比較の結果に基づいて、モデルを更新するように構成されてもよい。これは、それ自体が当技術分野で知られているモデルの訓練ステップである。更新する正確なパラメータは、使用されるモデルのタイプ、例えば、最近傍、ニューラルネットワーク、畳み込みニューラルネットワーク、U‐net、または他のタイプのモデルに依存する。
関心点セレクタ712は、画像内の任意の点から関心点のうちの最も近い1つまでの距離に最大制限を課すように構成されてもよい。
マッチングモジュール714は、第1の関心点において第1の画像で検出された特徴と、第2の関心点において第2の画像で検出された特徴との間の類似性に基づいて、ペアワイズマッチングを実行するように構成されてもよい。
マッチングモジュール714は、第1の関心点を、複数の第2の関心点のうちの1つの第2の関心点にマッチングすることによって、第1の方向のマッチングを実行するように構成されてもよく、第2の関心点は、第1の関心点における特徴に最も類似する特徴を有する。マッチングモジュール714は、第2の関心点を、複数の第1の関心点のうちの1つの第1の関心点にマッチングすることによって、さらなるマッチングを第2の方向に実行するように構成されてもよく、第1の関心点は、第2の関心点における特徴に最も類似した特徴を有している。マッチングモジュール714は、両方向でマッチしないあらゆる全てのマッチを破棄するように構成されてもよい。
検証モジュール715は、リワードマップによって、グラウンドトゥルースデータに従ってマッチに成功した関心点に対するリワードを示し、グラウンドトゥルースデータに従ってマッチに失敗した関心点に対するリワードがないことを示すように構成されてもよい。
結合モジュール716は、関心点に対するスコアマップおよびリワードマップのみを結合または比較するように構成されてもよい。
結合モジュール716は、偽陽性マッチの(おそらくランダムな)選択を行い、真陽性マッチおよび偽陽性マッチの選択分についてのみスコアマップおよびリワードマップを結合または比較することによって、真陽性マッチの数と偽陽性マッチの数とを均衡させるように構成されてもよく、真陽性マッチは、正しさのチェックに合格した関心点であり、偽陽性マッチは、正しさのチェックに合格しなかった関心点である。ランダムな選択を行う代わりに、結合モジュール716は、例えば、最も低いリワードマップ値を有する偽陽性マッチを選択するように構成されてもよい。
結合モジュール716は、スコアマップとリワードマップとの間の二乗差の合計を計算するように構成されてもよい。
通信ユニット704は、ディスプレイ703によって、進捗情報や結合モジュールの最新出力の値などの関心情報を出力するように構成されてもよい。
図8は、特徴点検出のモデルを学習する方法を示す図である。ステップ801で、前処理ステップは、例えばランダム変換を用いて原画像から画像のペアを生成することと、こうして生成された画像のペアのグラウンドトゥルース情報としてランダム変換を保存することを含んでもよい。
ステップ802は、画像のペアの第1の画像および第2の画像を取得することを含んでもよい。ステップ803は、モデルを使用して、第1の画像に対する第1のスコアマップおよび第2の画像に対する第2のスコアマップを生成することを含んでもよい。ステップ804は、第1のスコアマップに基づいて、第1の画像における第1の複数の関心点を選択し、第2のスコアマップに基づいて、第2の画像における第2の複数の関心点を選択することを含んでもよい。
ステップ805は、第1の複数の関心点のうちの第1の関心点と、第2の複数の関心点のうちの第2の関心点とのペアワイズマッチングを行うことを含んでもよい。ステップ806は、第1の画像と第2の画像との間のグラウンドトゥルース変換に基づいて、ペアワイズマッチの正しさをチェックして、リワードマップを生成することを含んでもよい。ステップ807は、スコアマップとリワードマップを結合または比較することを含んでもよい。ステップ808は、結合または比較の結果に基づいて、モデルを更新することを含んでもよい。ステップ809で、プロセスは、より多くの訓練が望まれるかどうかをチェックしてもよい。より多くの訓練が望まれる場合、プロセスは、次の画像ペアを取得することによって、ステップ802から進んでもよい。
図9は、第1の画像を第2の画像にレジストレーションするためのシステム901を示す。この装置は、制御ユニット905と、通信ユニット904と、データ907およびプログラムコード910を格納するためのメモリ906とを備える。特徴点検出のためのモデルを訓練するためのシステム701に関して本明細書で説明したハードウェアおよび代替的な実装オプションに関連する考慮事項は、第1の画像を第2の画像にレジストレーションするためのシステム901にも適用される。例えば、プログラムコード910は、代替的に、専用の電子回路によって実装されてもよい。さらに、カメラ902およびディスプレイ903は、任意の外部装置であってもよいし、システム901に組み込まれて一体型の装置を形成してもよい。システム901は、制御ユニット905、例えば、少なくとも1つのコンピュータプロセッサと、例えば、カメラ902および/またはディスプレイ903と通信するための通信ユニット904と、プログラムコード910または制御ユニットに特定のステップを実行させるための命令を含むメモリ906(任意の種類の記憶媒体)とを備える。メモリ906は、学習済みモデル908および画像909を格納できるように構成されている。例えば、カメラ902から受信した画像を、メモリ909に格納してもよい。
システムは、例えば、格納された画像909の中から、例えば、カメラ902によって撮影され、カメラ902から受信された2つの画像である第1の画像および第2の画像を取得するように構成された取得モジュール917を含んでもよい。システムは、学習済みモデル908を使用して、第1の画像に対する第1のスコアマップおよび第2の画像に対する第2のスコアマップを生成するように構成されたスコアマップ生成器913をさらに含んでもよい。例えば、正規化などの任意の前処理を行った後の両方の画像をモデル908に入力してもよく、各画像に応答して生成された出力はスコアマップである。
システムは、第1のスコアマップに基づいて第1の画像内の第1の複数の関心点を選択し、第2のスコアマップに基づいて第2の画像内の第2の複数の関心点を選択するように構成された関心点セレクタを含んでもよい。この選択は、特徴記述子と、両画像における関心点の特徴記述間の類似性とを用いて、関心点セレクタ712によって実行される選択と同様に行われてもよい。システムは、第1の複数の関心点のうちの第1の関心点を、第2の複数の関心点のうちの第2の関心点とペアワイズマッチングするように構成されたマッチングモジュール914を含んでもよい。
システムはさらに、レジストレーションモジュール918を含んでもよい。レジストレーションモジュール918は、マッチした関心点に基づいて形態学的変換を決定するように構成されてもよい。レジストレーションモジュール918は、マッチした関心点に基づいて、第1の画像内の各点を第2の画像内の対応する点にマッピングするように構成されてもよい。例えば、マッチした点に基づいて、アフィン変換または非アフィン変換が決定されてもよい。これは、別のパラメータフィッティング手順を含んでいてもよい。しかし、マッチングポイントのセットからそのような変換を生成する方式は、それ自体が当技術分野で知られており、本明細書ではさらに詳細には説明しない。例えば、変換は、第1の画像に適用されてもよいし、第2の画像に適用されてもよい。通信ユニット904は、変換された画像をディスプレイ903によって出力するように構成されてもよい。
関心点セレクタ912は、画像内の任意の点から関心点のうちの最も近い1つまでの距離に最大制限を課すように構成されてもよい。
マッチングモジュール914は、第1の関心点において第1の画像で検出された特徴と、第2の関心点において第2の画像で検出された特徴との間の類似性に基づいて、ペアワイズマッチングを実行するように構成されてもよい。
マッチングモジュール914は、第1の関心点を複数の第2の関心点のうちの1つの第2の関心点にマッチングすることによって、第1の方向のマッチングを実行するように構成されてもよく、第2の関心点は、第1の関心点における特徴に最も類似した特徴を有する。マッチングモジュール914はさらに、第2の関心点を複数の第1の関心点のうちの1つの第1の関心点にマッチングすることによって第2の方向のマッチングを実行するように構成されてもよく、第1の関心点は、第2の関心点における特徴に最も類似した特徴を有している。例えば、マッチングモジュール914は、両方向ではマッチしないマッチを破棄するように構成されてもよい。
図10は、第1の画像を第2の画像にレジストレーションする例示的な方法を示す。ステップ1002は、第1の画像および第2の画像、例えば、カメラからの2つの撮像画像を取得することを含んでもよい。ステップ1003は、適切に訓練されたモデル、例えば、本明細書に開示されたシステムまたは方法によって訓練されたモデルを使用して、第1の画像に対する第1のスコアマップおよび第2の画像に対する第2のスコアマップを生成することを含んでもよい。ステップ1004は、第1のスコアマップに基づいて、第1の画像における第1の複数の関心点を選択することと、第2のスコアマップに基づいて、第2の画像における第2の複数の関心点を選択することとを含んでもよい。ステップ1005は、例えば、関心点に関連する特徴記述子に基づいて、第1の複数の関心点のうちの第1の関心点と、第2の複数の関心点のうちの第2の関心点とのペアワイズマッチングを行うことを含んでもよい。任意で、ステップ1006は、マッチした関心点に応じて形態学的変換を生成することにより、その画像ペアをレジストレーションすることを含んでもよい。任意で、ステップ1006は、変換を画像に適用し、変換された画像をディスプレイを用いて出力すること、または変換された画像を保存することを含む。あるいは、ステップ1006は、マッチした関心点を使用するためにその画像ペアを継ぎ合わせ、継ぎ合わせた画像を保存または表示することを含む。
本発明の一部またはすべての態様は、ソフトウェア、特にコンピュータプログラム製品の形で実施されるのに適し得る。コンピュータプログラム製品は、非一時的コンピュータ可読媒体に格納されたコンピュータプログラムを含んでもよい。また、コンピュータプログラムは、光ファイバケーブルや空気などの伝送媒体によって伝播される光信号や電気磁気信号などの信号によって表されてもよい。コンピュータプログラムは、その一部または全部が、コンピュータシステムで実行するのに適したソースコード、オブジェクトコード、または疑似コードの形態を有していてもよい。例えば、コードは、1つ以上のプロセッサによって実行可能であってもよい。
本明細書に記載されている例および実施形態は、本発明を限定するのではなく、説明する働きをする。当業者であれば、添付の特許請求の範囲およびその均等物によって定義される本開示の趣旨および範囲から逸脱することなく、代替の実施形態を設計することができるであろう。特許請求の範囲で括弧に入れた参照符号は、特許請求の範囲を限定するものと解釈しないものとする。特許請求の範囲または本明細書において別個の実体として記載されているアイテムは、記載されているアイテムの特徴を組み合わせた単一のハードウェアまたはソフトウェアアイテムとして実施され得る。
以下の主題は、条項の形で開示されている。
1.特徴点検出のための分類器を訓練する方法であって、
第1の画像および第2の画像を取得するステップと、
前記分類器を用いて、前記第1の画像に対する第1のスコアマップおよび前記第2の画像に対する第2のスコアマップを生成するステップと、
前記第1のスコアマップに基づいて、前記第1の画像内の第1の複数の関心点を選択するステップと、
前記第2のスコアマップに基づいて、前記第2の画像内の第2の複数の関心点を選択するステップと、
前記第1の複数の関心点のうちの1つの第1の関心点と、前記第2の複数の関心点のうちの1つの第2の関心点とのペアワイズマッチングを行うステップと、
前記第1の画像と前記第2の画像との間のグラウンドトゥルース変換に基づいて、前記ペアワイズマッチの正しさをチェックして、リワードマップを生成するステップと、
前記スコアマップと前記リワードマップを結合または比較するステップと、
前記結合または比較の結果に基づいて前記分類器を更新するステップとを含む方法。
2.前記複数の関心点を選択するステップは、前記画像内の任意の点から最近傍関心点までの距離に最大制限を課すことを含む、条項1に記載の方法。
3.前記ペアワイズマッチングは、前記第1の関心点において前記第1の画像で検出された特徴と、前記第2の関心点において前記第2の画像で検出された特徴との間の類似性に基づいて実行される、条項1または2に記載の方法。
4.前記マッチングは、前記第1の関心点を、複数の第2の関心点のうちの1つの第2の関心点にマッチングすることによって第1の方向に実行され、前記第2の関心点は、前記第1の関心点における特徴に最も類似した特徴を有する、条項1から3のいずれかに記載の方法。
5.前記マッチングはさらに、前記第2の関心点を、複数の第1の関心点のうちの1つの第1の関心点にマッチングすることによって第2の方向に実行され、前記第1の関心点は、前記第2の関心点における特徴に最も類似した特徴を有する、条項4に記載の方法。
6.前記リワードマップが、マッチングに成功した関心点に対するリワードを示し、マッチングに失敗した関心点に対するリワードがないことを示す、条項1から5のいずれかに記載の方法。
7.前記結合または比較が、前記スコアマップおよびリワードマップを前記関心点についてのみ結合または比較することを含む、条項1から6のいずれかに記載の方法。
8.前記結合または比較が、偽陽性マッチを(おそらくランダムに)選択し、真陽性マッチおよび前記偽陽性マッチの選択分についてのみ前記スコアマップおよびリワードマップを結合または比較することによって、前記真陽性マッチの数と前記偽陽性マッチの数とを均衡させることを含み、
前記真陽性マッチとは、正しさのチェックに合格した関心点であり、前記偽陽性マッチとは、正しさのチェックに合格しなかった関心点である、条項1から7のいずれかに記載の方法。
8.前記結合または比較が、前記スコアマップと前記リワードマップの間の二乗差の合計を計算することを含む、条項1から7のいずれかに記載の方法。
9.特徴点検出のための分類器を訓練する装置であって、
制御ユニット、例えば、少なくとも1つのコンピュータプロセッサと、
メモリを備え、前記メモリは、前記制御ユニットに、
第1の画像と第2の画像を取得するステップと、
前記分類器を用いて、前記第1の画像に対する第1のスコアマップおよび前記第2の画像に対する第2のスコアマップを生成するステップと、
前記第1のスコアマップに基づいて、前記第1の画像内の第1の複数の関心点を選択するステップと、
前記第2のスコアマップに基づいて、前記第2の画像内の第2の複数の関心点を選択するステップと、
前記第1の複数の関心点のうちの1つの第1の関心点と、前記第2の複数の関心点のうちの1つの第2の関心点とのペアワイズマッチングを行うステップと、
前記第1の画像と前記第2の画像との間のグラウンドトゥルース変換に基づいて、前記ペアワイズマッチの正しさをチェックして、リワードマップを生成するステップと、
前記スコアマップと前記リワードマップを結合または比較するステップと、
前記結合または比較の結果に基づいて、前記分類器を更新するステップと、
を実行させる命令を含む、装置。
10.第1の画像を第2の画像にレジストレーションする方法であって、
第1の画像と第2の画像を取得するステップと、
条項1から9のいずれかに記載の方法または装置によって生成された分類器を用いて、前記第1の画像に対する第1のスコアマップおよび前記第2の画像に対する第2のスコアマップを生成するステップと、
前記第1のスコアマップに基づいて、前記第1の画像内の第1の複数の関心点を選択するステップと、
前記第2のスコアマップに基づいて、前記第2の画像内の第2の複数の関心点を選択するステップと、
前記第1の複数の関心点のうちの1つの第1の関心点と、前記第2の複数の関心点のうちの1つの第2の関心点とのペアワイズマッチングを行うステップと、を含む方法。
11.複数の関心点を選択するステップは、前記画像内の任意の点から最近傍関心点までの距離に最大制限を課すことを含む、条項10に記載の方法。
12.前記ペアワイズマッチングは、前記第1の関心点において前記第1の画像で検出された特徴と、前記第2の関心点において前記第2の画像で検出された特徴との間の類似性に基づいて実行される、条項10または11に記載の方法。
13.前記マッチングは、前記第1の関心点を、複数の第2の関心点のうちの1つの第2の関心点にマッチングすることによって第1の方向に実行され、前記第2の関心点は、前記第1の関心点における特徴に最も類似した特徴を有する、条項10から12のいずれかに記載の方法。
14.前記マッチングはさらに、前記第2の関心点を、複数の第1の関心点のうちの1つの第1の関心点にマッチングすることによって第2の方向に実行され、前記第1の関心点は、前記第2の関心点における特徴に最も類似した特徴を有する、条項13に記載の方法。
15.第1の画像を第2の画像にレジストレーションする装置であって、
制御ユニット、例えば、少なくとも1つのコンピュータプロセッサと、
メモリを備え、前記メモリは、前記制御ユニットに、
第1の画像と第2の画像を取得するステップと、
条項1から10のいずれかに記載の方法または装置によって生成された分類器を用いて、前記第1の画像に対する第1のスコアマップおよび前記第2の画像に対する第2のスコアマップを生成するステップと、
前記第1のスコアマップに基づいて、前記第1の画像内の第1の複数の関心点を選択するステップと、
前記第2のスコアマップに基づいて、前記第2の画像内の第2の複数の関心点を選択するステップと、
前記第1の複数の関心点のうちの1つの第1の関心点と、前記第2の複数の関心点のうちの1つの第2の関心点とのペアワイズマッチングを行うステップと、を実行させる命令を含む、装置。
参照
[1]OpenCV:cv::BFMatcher Class Reference
[2]OpenCV: cv::xfeatures2d::SIFT Class Reference
[3]「Improving Accuracy and Efficiency of Mutual Information for Multi‐modal Retinal Image Registration using Adaptive Probability Density Estimation」 Computerized Medical Imaging and Graphics, 37(7‐8):597‐606、2013年
[4] M.Abadi、A.Agarwal、P.Barham、E.Brevdo、 Z.Chen、C.Citro、G.S.Corrado、A.Davis、J.Dean、M.Devin、S.Ghemawat、I.Goodfellow、A.Harp、G. Irving、M.Isard、Y.Jia、R.Jozefowicz、L.Kaiser、M.Kudlur、J.Levenberg、D.Man’e、R.Monga、S. Moore、D.Murray、C.Olah、M.Schuster、J.Shlens、B.Steiner、I.Sutskever、K.Talwar、P.Tucker、V.Vanhoucke、V.Vasudevan、F.Vi’egas、O.Vinyals、P.Warden、M.Wattenberg、M.Wicke、Y.YuおよびX. Zheng著 「Tensor‐Flow: Large‐scale machine learning on heterogeneous systems、2015年 tensorflow.orgから入手可能なソフトウェア
[5]A.Alahi、R.OrtizおよびP.Vandergheynst著 「FREAK: Fast Retina Keypoint」 Conference on Computer Vision and Pattern Recognition予稿集 510‐517ページ、2012年
[6]P.F.Alcantarilla、A.BartoliおよびA.J. Davison著 「KAZE features」 Computer Science講義資料、7577 LNCS(6):214‐227ページ、2012年
[7]J.Aldana‐Iuit、D.Mishkin、O.ChumおよびJ. Matas著 「In the saddle: Chasing fast and repeatable features」 23rd International Conference on Pattern Recognition、675‐680ページ、 2016年
[8]R.ArandjeloviおよびA.Zisserman著 「Three things everyone should know to improve object retrieval c」
[9]V.Balntas、E.Johns、L.TangおよびK.Mikolajczyk著 PN‐Net:Conjoined Triple Deep Network for Learning Local Image Descriptors」 CoRR、abs/1601.05030、2016年
[10]V.Balntas、K.Lenc、A.VedaldiおよびK. Mikolajczyk著 「HPatches:A Benchmark and Evaluation of Handcrafted and Learned Local Descriptors」 Conference on Computer Vision and Pattern Recognition、3852‐3861ページ、2017年
[11]H.Bay、T.TuytelaarsおよびL.Van Gool著 「SURF: Speeded up Robust Features」Computer Science講義資料、3951 LNCS:404‐417ページ、2006年
[12]P.C.Cattin、H.Bay、L.J.V.GoolおよびG.Sz’ekely著 「Retina Mosaicing Using Local Features」 Medical Image Computing and Computer‐Assisted Intervention、185‐192ページ、2006年
[13]J.Chen、J.Tian、N.Lee、J.Zheng、T.R.SmithおよびA.F.Laine著 「A Partial Intensity Invariant Feature Descriptor for Multimodal Retinal Image Registration」IEEE Transactions on Biomedical Engineering、57(7):1707‐1718ぺージ、2010年
[14]A.V.Cideciyan著 「Registration of Ocular Fundus Images」 IEEE Engineering in Medicine and Biology Magazine、14(1):52‐58、1995年
[15]A.L.Dahl、H.AanaesおよびK.S.Pedersen著 「 Finding the Best Feature Detector-Descriptor Combination」 International Conference on 3D Imaging,Modeling,Processing,Visualization and Transmission、318‐325ページ、2011年
[16]D.DeTone、T.MalisiewiczおよびA.Rabinovich著 「SuperPoint:Self‐Supervised Interest Point Detection and Description」 IEEE Conference on Computer Vision and Pattern Recognition Workshops、224‐236ページ、2018年
[17]H.Durrant‐WhyteおよびT.Bailey著 「Simultaneous Localisation and Mapping(SLAM): Part I The Essential Algorithms Technical report
[18]P.FischerおよびT.Brox著 「Descriptor Matching with Convolutional Neutral Networks:a Comparison to SIFT」1‐10ページ
[19]M.A.FischlerおよびR.C.Bolles著 「Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography」 Communications of the ACM、24(6):381‐395、1981年6月
[20]Y.Hang、X.Zhang、Y.Shao、H.WuおよびW.Sun著 「Retinal Image Registration Based on the Feature of Bifurcation Point」 第10回International Congress on Image and Signal PROCessing、BioMedical Engineering and Informatics、CISPBMEI、1‐6ページ、2017年
[21]C.G.HarrisおよびM.Stephens著 「A Combined Corner and Edge Detector」 the Alvey Vision Cosnference予稿集、1‐6ページ、1988年
[22]C.Hernandez‐Matas、X.Zabulis、A.TriantafyllouおよびP.Anyfanti著 「FIRE: Fundus Image Registration dataset」 Journal for Modeling in Ophthalmology、4:16‐28、2017年
[23]J.Z.Huang、T.N.Tan、L.MaおよびY.H.Wang著
「Phase Correlation‐based Iris Image Registration Kodel」 Journal of Computer Science and Technology、20(3):419‐425ページ、2005年
[24]N.Jacobs、N.RomanおよびR.Pless著 「Consistent Temporal Variations in Many Outdoor Scenes」 the IEEE Conference on Computer Vision and Pattern Recognition予稿集、2007年
[25]D.P.Kingma及びJ.Ba著 「Adam:A Method for Stochastic Optimization」 CoRR、abs/1412.6980、2014年
[26]S.Leutenegger、M.ChliおよびR.Y.Siegwart著 BRISK:Binary Robust Invariant Scalable Keypoints」the IEEE International Conference on Computer Vision予稿集、2548‐2555ページ、2011年
[27]P.Li、Q.Chen、W.FanおよびS.Yuan著 「Registration of OCT Fundus Images with Color Fundus Images Based on Invariant Features」 In Cloud Computing and Security‐Third International Conference,471‐482ページ、2017年
[28]D.G.Lowe著 「Distinctive Image Features from Scale Invariant keypoints」 International Journal of Computer Vision、60ページ 2004年
[29]K.MikolajczykおよびC.Schmid著 「A Performance Evaluation of Local Descriptors」 IEEE Transactions on Pattern Analysis and Machine Intelligence、27(10):1615‐1630ページ、2005年
[30]K.Mikolajczyk、T.Tuytelaars、C.Schmid、 A.Zisserman、J.Matas、F.Schaffalitzky、T. KadirおよびL.Van Gool著 「A Comparison of Affine Region Detectors」 International Journal of Computer Vision
[31]Y.Ono、E.Trulls、P.FuaおよびK.M.Yi著 「LF‐NET : Learning Local Features from Images」In Advances in Neural Information Processing Systems、6237‐6247ページ、2018年
[32]J.P.W.Pluim、J.B.A.MaintzおよびM.A.Viergever著 「Mutual Information Based Registration of Medical Images: A Survey」 IEEE Transactions on Medical Imaging、22(8):986‐1004ページ、2003年
[33]R.Ramli、M.Yamani、I.Idris、K.Hasikin、 N. K.A.Karim、A.Wahid、A.Wahab、I.Ahmedy、F.Ahmedy、N.A.KadriおよびH.Arof著 「Feature‐Based Retinal Image Registration Using D‐SaddleFeature」2017年
[34]O.Ronneberger、P.FischerおよびT.Brox著 「 U-Net: Convolutional Netwroks for Biomedical Image Segmentation」 Medical Image Computing and Computer‐Assisted Intervention掲載、234‐241ページ、2015年
[35]E.Rublee、V.Rabaud、K.KonoligeおよびG.Bradski著 「ORB:An Efficient Alternative to SIFT or SURF」 the IEEE International Conference on Computer Vision予稿集、2564‐2571ページ、2011年
[36]C.Sanchez‐galeana、C.Bowd、E.Z.Blumenthal、P.A.Gokhale、L.M.ZangwillおよびR.N.Weinreb著 「Using Optical Imaging Summary Data to Detect Glaucoma」。 Opthamology、1812‐1818ページ、2001年
[37]E.Simo‐Serra、E.Trulls、L.Ferraz、I. Kokkinos、P.FuaおよびF.Moreno‐Noguer著 「Discriminative Learning of Deep Convolutional Feature Point Descriptors」 IEEE International Conference on Computer Vision、118‐126ページ、2015.4
[38]B.Triggs、P.F.Mclauchlan、R.I.HartleyおよびA.W.Fitzgibbon著 「Bundle Adjustment‐A Modern Synthesis」 Technical report
[39]P.Truong、S.De ZanetおよびS.Apostolopoulos著 「Comparison of Feature Detectors for Retinal Image Alignment」 ARVO、2019年
[40]Y.Verdie、K.M.Yi、P.FuaおよびV.Lepetit著 「TILDE:A Temporally Invariant Learned DEtector」 the IEEE Computer Society Conference on Computer Vision and Pattern Recognition予稿集 5279‐5288ページ、2015年
[41]G.Wang、Z.Wang、Y.ChenおよびW.Zhao著 「 Biomedical Signal Processing and Control Robust Point Matching Method for Multimodal Retinal Image Registration」 Biomedical Signal Processing and Control、19:68‐76ページ、2015年
[42]S.A.J.WinderおよびM.A.Brown著 「Learning Local Image Descriptors」IEEE Conference on Computer Vision and Pattern Recognition、2007年
[43]S.A.J.Winder、G.HuaおよびM.A.Brown著 「Picking the Best DAISY」 IEEE Conference on Computer Vision and Pattern Recognition、178‐185ページ、2009年
[44]K.M.Yi、E.Trulls、V.LepetitおよびP.Fua著 「 LIFT:Learned Invariant Feature Transform」 於European Conference on Computer Vision‐ ECCV、467‐483ページ、2016年
[45]K.M.Yi、Y.Verdie、P.FuaおよびV.Lepetit著 「 Learning to Assign Orientations to Feature Points」 於IEEE Conference on Computer Vision and Pattern Recognition、107‐116ページ、2016年
[46]S.D.Zanet、T.Rudolph、R.Richa、C.TappeinerおよびR.Sznitman著 「Retinal slit lamp video mosaicking」 International Journal of Computer Assisted Radiology and Surgery、11(6):1035‐1041ページ、2016年
[47]L.Zhou、M.S.Rzeszotarski、L.J.SingermanおよびJ.M.Chokreff著 「The Detection and Quantification of Retinopathy Using DigitalAngiograms」IEEE Transactions on Medical Imaging、13(4):619‐626ページ、1994年
[48]C.L.ZitnickおよびK.Ramnath著 「Edge Foci Interest Points」 於International Conference on Computer Vision、359‐366ページ、2011年
701、901 システム
702、902 カメラ
703、903 ディスプレイ
704、904 通信ユニット
705、905 制御ユニット
706、906 メモリ
707、907 データ
708、908 モデル
709、909 画像
711 訓練モジュール
712、912 関心点セレクタ
713、913 スコアマップ生成器
714、914 マッチングモジュール
715 検証モジュール
716 結合モジュール
717 前処理モジュール
910 プログラムコード
917 取得モジュール
918 レジストレーションモジュール

Claims (17)

  1. 特徴点検出のためのモデルを訓練する方法であって、
    第1の画像および第2の画像を取得するステップと、
    前記モデルを用いて、前記第1の画像に対する第1のスコアマップおよび前記第2の画像に対する第2のスコアマップを生成するステップと、
    前記第1のスコアマップに基づいて、前記第1の画像内の第1の複数の関心点を選択するステップと、
    前記第2のスコアマップに基づいて、前記第2の画像内の第2の複数の関心点を選択するステップと、
    前記第1の複数の関心点のうちの1つの第1の関心点と、前記第2の複数の関心点のうちの1つの第2の関心点とのペアワイズマッチングを行うステップと、
    前記第1の画像と前記第2の画像との間のグラウンドトゥルース変換に基づいて、前記ペアワイズマッチの正しさをチェックして、リワードマップを生成するステップと、
    前記スコアマップと前記リワードマップを結合または比較するステップと、
    前記結合または比較の結果に基づいて前記モデルを更新するステップとを含む方法。
  2. 前記複数の関心点を選択するステップは、前記画像内の任意の点から最近傍関心点までの距離に最大制限を課すことを含む、請求項1に記載の方法。
  3. 前記ペアワイズマッチングは、前記第1の関心点において前記第1の画像で検出された特徴と、前記第2の関心点において前記第2の画像で検出された特徴との間の類似性に基づいて実行される、請求項1または請求項2に記載の方法。
  4. 前記マッチングは、前記第1の関心点を、複数の第2の関心点のうちの1つの第2の関心点にマッチングすることによって第1の方向に実行され、前記第2の関心点は、前記第1の関心点における特徴に最も類似した特徴を有する、請求項1から請求項3のいずれか一項に記載の方法。
  5. 前記マッチングはさらに、前記第2の関心点を複数の第1の関心点のうちの1つの第1の関心点にマッチングすることによって第2の方向に実行され、前記第1の関心点は、前記第2の関心点における特徴に最も類似した特徴を有する、請求項4に記載の方法。
  6. 前記リワードマップが、グラウンドトゥルースデータに従って、マッチングに成功した関心点に対するリワードを示し、前記グラウンドトゥルースデータに従って、マッチングに失敗した関心点に対するリワードがないことを示す、請求項1から請求項5のいずれか一項に記載の方法。
  7. 前記結合または比較が、前記スコアマップおよびリワードマップを前記関心点についてのみ結合または比較することを含む、請求項1から請求項6のいずれか一項に記載の方法。
  8. 前記結合または比較が、偽陽性マッチをおそらくランダムに選択し、真陽性マッチおよび前記偽陽性マッチの選択分についてのみ前記スコアマップおよびリワードマップを結合または比較することによって前記真陽性マッチの数と前記偽陽性マッチの数とを均衡させることを含み、
    前記真陽性マッチとは、正しさのチェックに合格した関心点であり、前記偽陽性マッチとは、正しさのチェックに合格しなかった関心点である、請求項1から請求項7のいずれか一項に記載の方法。
  9. 前記結合または比較が、前記スコアマップと前記リワードマップの間の二乗差の合計を計算することを含む、請求項1から請求項8のいずれか一項に記載の方法。
  10. 特徴点検出のためのモデルを訓練する装置であって、
    制御ユニットと、
    メモリを備え、前記メモリは、前記制御ユニットに、
    第1の画像と第2の画像を取得するステップと、
    前記モデルを用いて、前記第1の画像に対する第1のスコアマップおよび前記第2の画像に対する第2のスコアマップを生成するステップと、
    前記第1のスコアマップに基づいて、前記第1の画像内の第1の複数の関心点を選択するステップと、
    前記第2のスコアマップに基づいて、前記第2の画像内の第2の複数の関心点を選択するステップと、
    前記第1の複数の関心点のうちの1つの第1の関心点と、前記第2の複数の関心点のうちの1つの第2の関心点とのペアワイズマッチングを行うステップと、
    前記第1の画像と前記第2の画像との間のグラウンドトゥルース変換に基づいて、前記ペアワイズマッチの正しさをチェックして、リワードマップを生成するステップと、
    前記スコアマップと前記リワードマップを結合または比較するステップと、
    前記結合または比較の結果に基づいて、前記モデルを更新するステップと、
    を実行させる命令を含む、装置。
  11. 第1の画像を第2の画像にレジストレーションする方法であって、
    第1の画像と第2の画像を取得するステップと、
    請求項1から10のいずれかに記載の方法または装置によって訓練されたモデルを用いて、前記第1の画像に対する第1のスコアマップおよび前記第2の画像に対する第2のスコアマップを生成するステップと、
    前記第1のスコアマップに基づいて、前記第1の画像内の第1の複数の関心点を選択するステップと、
    前記第2のスコアマップに基づいて、前記第2の画像内の第2の複数の関心点を選択するステップと、
    前記第1の複数の関心点のうちの1つの第1の関心点と、前記第2の複数の関心点のうちの1つの第2の関心点とのペアワイズマッチングを行うステップと、を含む方法。
  12. 前記複数の関心点を選択するステップは、前記画像内の任意の点から最近傍関心点までの距離に最大制限を課すことを含む、請求項11に記載の方法。
  13. 前記ペアワイズマッチングは、前記第1の関心点において前記第1の画像で検出された特徴と、前記第2の関心点において前記第2の画像で検出された特徴との間の類似性に基づいて実行される、請求項11または請求項12に記載の方法。
  14. 前記マッチングは、前記第1の関心点を、複数の第2の関心点のうちの1つの第2の関心点にマッチングすることによって第1の方向に実行され、前記第2の関心点は、前記第1の関心点における特徴に最も類似した特徴を有する、請求項11から請求項13のいずれか一項に記載の方法。
  15. 前記マッチングはさらに、前記第2の関心点を、複数の第1の関心点のうちの1つの第1の関心点にマッチングすることによって第2の方向に実行され、前記第1の関心点は、前記第2の関心点における特徴に最も類似した特徴を有する、請求項14に記載の方法。
  16. 第1の画像を第2の画像にレジストレーションする装置であって、
    制御ユニット、例えば、少なくとも1つのコンピュータプロセッサと、
    メモリを備え、前記メモリは、前記制御ユニットに、
    第1の画像と第2の画像を取得するステップと、
    請求項1から請求項10のいずれか一項に記載の方法または装置によって訓練されたモデルを用いて、前記第1の画像に対する第1のスコアマップおよび前記第2の画像に対する第2のスコアマップを生成するステップと、
    前記第1のスコアマップに基づいて、前記第1の画像内の第1の複数の関心点を選択するステップと、
    前記第2のスコアマップに基づいて、前記第2の画像内の第2の複数の関心点を選択するステップと、
    前記第1の複数の関心点のうちの1つの第1の関心点と、前記第2の複数の関心点のうちの1つの第2の関心点とのペアワイズマッチングを行うステップと、
    を実行させる命令を含む、装置。
  17. 請求項1から請求項10のいずれか一項に記載の方法または装置によって生成される分類器。
JP2022502320A 2019-03-15 2020-03-12 特徴点検出 Pending JP2022525264A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP19163191.0 2019-03-15
EP19163191 2019-03-15
EP19206339 2019-10-30
EP19206339.4 2019-10-30
PCT/EP2020/056710 WO2020187705A1 (en) 2019-03-15 2020-03-12 Feature point detection

Publications (1)

Publication Number Publication Date
JP2022525264A true JP2022525264A (ja) 2022-05-11

Family

ID=69740375

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022502320A Pending JP2022525264A (ja) 2019-03-15 2020-03-12 特徴点検出

Country Status (5)

Country Link
US (1) US20220157047A1 (ja)
EP (1) EP3939006A1 (ja)
JP (1) JP2022525264A (ja)
CN (1) CN113826143A (ja)
WO (1) WO2020187705A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112148742A (zh) * 2019-06-28 2020-12-29 Oppo广东移动通信有限公司 地图更新方法及装置、终端、存储介质
CN111144483B (zh) * 2019-12-26 2023-10-17 歌尔股份有限公司 一种图像特征点过滤方法以及终端
CN111709428B (zh) * 2020-05-29 2023-09-15 北京百度网讯科技有限公司 图像中关键点位置的识别方法、装置、电子设备及介质
US11620829B2 (en) * 2020-09-30 2023-04-04 Snap Inc. Visual matching with a messaging application
WO2022145738A1 (en) * 2020-12-28 2022-07-07 Samsung Electronics Co., Ltd. Intelligent object tracing system utilizing 3d map reconstruction for virtual assistance
CN113361542B (zh) * 2021-06-02 2022-08-30 合肥工业大学 一种基于深度学习的局部特征提取方法
CN113591815B (zh) * 2021-09-29 2021-12-21 北京万里红科技有限公司 生成眼角识别模型的方法及识别眼部图像中眼角的方法
CN114399731B (zh) * 2021-12-31 2022-12-20 中国科学院大学 一种单粗点监督下的目标定位方法
WO2024010360A1 (ko) * 2022-07-08 2024-01-11 주식회사 에스지헬스케어 3차원 영상 생성 방법 및 상기 방법을 수행하는 전자 장치
CN117516708B (zh) * 2024-01-08 2024-04-09 西安博康电子有限公司 火焰探测方法及火焰探测器
CN117975546A (zh) * 2024-03-29 2024-05-03 南京邮电大学 基于改进特征描述符和knn搜索的眼底图像特征点匹配方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102216941B (zh) * 2008-08-19 2015-08-12 数字标记公司 用于内容处理的方法和系统
CN101667293A (zh) * 2009-09-24 2010-03-10 哈尔滨工业大学 对多种传感器遥感图像进行高精度稳健配准的方法
CN101807259B (zh) * 2010-03-25 2012-08-22 复旦大学 一种基于视觉词汇本集体的不变性识别方法
WO2012126135A1 (en) * 2011-03-21 2012-09-27 Intel Corporation Method of augmented makeover with 3d face modeling and landmark alignment
US11074495B2 (en) * 2013-02-28 2021-07-27 Z Advanced Computing, Inc. (Zac) System and method for extremely efficient image and pattern recognition and artificial intelligence platform
US9037396B2 (en) * 2013-05-23 2015-05-19 Irobot Corporation Simultaneous localization and mapping for a mobile robot
US20150127660A1 (en) * 2013-11-04 2015-05-07 Here Global B.V. Method and apparatus for calculating ranks and trust levels for data sources
IL239191A0 (en) * 2015-06-03 2015-11-30 Amir B Geva Image sorting system
KR101882370B1 (ko) * 2016-09-05 2018-07-26 네이버랩스 주식회사 지역 분할과 파노라마 분할 기법을 이용한 위치기반 관심지점 정보 검색 시스템 및 방법
CN109146912B (zh) * 2018-07-26 2020-08-04 湖南人文科技学院 一种基于目标性分析的视觉目标跟踪方法

Also Published As

Publication number Publication date
US20220157047A1 (en) 2022-05-19
CN113826143A (zh) 2021-12-21
WO2020187705A1 (en) 2020-09-24
EP3939006A1 (en) 2022-01-19

Similar Documents

Publication Publication Date Title
JP2022525264A (ja) 特徴点検出
Truong et al. Glampoints: Greedily learned accurate match points
Ma et al. Structure and illumination constrained GAN for medical image enhancement
WO2021213508A1 (zh) 胶囊内窥镜图像拼接方法、电子设备及可读存储介质
Wang et al. Robust point matching method for multimodal retinal image registration
Motta et al. Vessel optimal transport for automated alignment of retinal fundus images
Funke et al. Generative adversarial networks for specular highlight removal in endoscopic images
CN110570426B (zh) 使用深度学习的图像联合配准和分割
US9280821B1 (en) 3-D reconstruction and registration
WO2019037676A1 (zh) 图像处理方法及装置
Wu et al. Dynamic filtering with large sampling field for convnets
Legg et al. Feature neighbourhood mutual information for multi-modal image registration: an application to eye fundus imaging
US8554016B2 (en) Image registration system and method for registering images for deformable surfaces
CN107644411A (zh) 超声宽景成像方法及装置
Wang et al. A segmentation based robust deep learning framework for multimodal retinal image registration
Choe et al. Optimal global mosaic generation from retinal images
CN112164043A (zh) 一种用于多眼底图像拼接的方法及系统
Ramli et al. Feature-based retinal image registration using D-Saddle feature
CA3085303A1 (en) Method and system for automatically generating and analyzing fully quantitative pixel-wise myocardial blood flow and myocardial perfusion reserve maps to detect ischemic heart disease using cardiac perfusion magnetic resonance imaging
Liu et al. Retinal image registration via feature-guided Gaussian mixture model
Zhang et al. Deepgi: An automated approach for gastrointestinal tract segmentation in mri scans
Jenifa et al. Classification of cotton leaf disease using multi-support vector machine
Hernandez et al. Multimodal registration of multiple retinal images based on line structures
Rivas-Villar et al. Joint keypoint detection and description network for color fundus image registration
Liu et al. Feature matching for texture-less endoscopy images via superpixel vector field consistency

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230308

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240130

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20240426