JP6858650B2 - 画像レジストレーションの方法及びシステム - Google Patents

画像レジストレーションの方法及びシステム Download PDF

Info

Publication number
JP6858650B2
JP6858650B2 JP2017111652A JP2017111652A JP6858650B2 JP 6858650 B2 JP6858650 B2 JP 6858650B2 JP 2017111652 A JP2017111652 A JP 2017111652A JP 2017111652 A JP2017111652 A JP 2017111652A JP 6858650 B2 JP6858650 B2 JP 6858650B2
Authority
JP
Japan
Prior art keywords
image
binary descriptor
weighted
binary
descriptor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017111652A
Other languages
English (en)
Other versions
JP2018028899A5 (ja
JP2018028899A (ja
Inventor
スリクマール・ラマリンガム
田口 裕一
裕一 田口
バラス、サンカラン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2018028899A publication Critical patent/JP2018028899A/ja
Publication of JP2018028899A5 publication Critical patent/JP2018028899A5/ja
Application granted granted Critical
Publication of JP6858650B2 publication Critical patent/JP6858650B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • G06T7/337Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/758Involving statistics of pixels or of feature values, e.g. histogram matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Description

本発明は、包括的には、コンピュータービジョンに関し、より詳細には、異なる画像のレジストレーション(registration:位置合わせ)に関する。
画像レジストレーションは、異なる画像の異なるデータのセットを1つの座標系に変換するプロセスである。データは、異なるセンサー、時刻、奥行き、又は視点からの複数の写真、データである場合がある。画像レジストレーションは、コンピュータービジョン、医用撮像、生体撮像及び脳機能マッピング、並びに衛星からの画像及びデータの編集及び解析において用いられる。レジストレーションは、これらの異なる測定から取得されたデータを比較又は統合し、様々なコンピュータービジョン動作を実行することができるようにするために必要である。
画像レジストレーションアルゴリズム又は画像アライメント(image alignment:画像整列)アルゴリズムは、強度ベースのものと特徴ベースのものとに分類することができる。画像のうちの1つは、基準画像又はソース画像と呼ばれ、それ以外のものは、それぞれターゲット画像、検知画像又は被写体画像と呼ばれる。画像レジストレーションは、ターゲット画像(複数の場合もある)を空間的にレジスタリングして、基準画像とアラインすることを伴う。強度ベースの方法は、相関メトリックを介して画像内の強度パターンを比較する一方、特徴ベースの方法は、点、線、及び輪郭等の画像の特徴間の対応関係を見つける。強度ベースの方法は、画像全体又は部分画像をレジスタリングする。部分画像がレジスタリングされる場合、対応する部分画像の中心が、対応する特徴点として扱われる。特徴ベースの方法は、画像内の複数の特に明瞭な点の間の対応関係を確立する。画像内の複数の点の間の対応関係が判明すると、次に、ターゲット画像を基準画像にマッピングする幾何学的変換が求められ、それによって、基準画像とターゲット画像との間の点ごとの対応関係が確立される。
特徴ベースの画像レジストレーション方法の特徴記述子は、物体認識アプリケーション、3D再構成アプリケーション、画像検索アプリケーション、カメラローカライゼーションアプリケーション等を含む様々な画像アプリケーションにおいて用いられる。そのような特徴記述子は、画像情報の抽象化したものを計算するのに用いることができる。特徴記述子の広範な使用は、ガウス導関数、モーメント不変量、複雑な特徴、位相ベースの局所的特徴等の様々な概念に基づく多数の代替の記述子の開発を推進してきた。しかしながら、効率的な記述子は、低い計算複雑度、容易なマッチング特性、及び高いメモリ効率を有することが期待されている。現在の記述子は、一般に、これらの性質の全てを備えているとは限らない。
加えて、情報処理装置、例えばカメラにおいて捕捉された画像は、それらのサイズ、照明、障害物、回転等の様々な環境因子による影響を受ける場合があるので、画像内の物体をロバストに認識するには、非常に多くの困難が存在し得る。このため、物体の認識及び画像のレジスタリングには、スケール不変特徴変換(SIFT)、高速化ロバスト特徴(SURF)、及びオリエンテッドFAST/ローテーティッドBRIEF(ORB:Oriented FAST and Rotated BRIEF)等の従来の特徴点抽出方法が用いられてきた。
SIFTは、監視カメラ又は自律的ナビゲーションシステム等の画像処理システムに適用することができる特徴点を抽出する方法である。SIFTは、画像内の物体の特徴点から高次の記述子を導出する。また、SURFも、物体追跡システム又はパノラマ画像生成システム等の画像処理システムに適用することができる特徴点を抽出する方法である。SURFでは、物体は、入力画像からのピクセル値が合計される積分画像を生成し、この積分画像の各スケールに従って特徴点及び高次の記述子を導出することによって認識することができる。
SIFT及びSURFの技法は、画像(又は物体)サイズ、照明、及び回転に起因した画像の変化に対してロバストであるという利点を有するが、それらのアルゴリズムを実施するには複雑な計算が必要とされ、特徴点の数が増加するにつれて計算速度が大幅に低下するという不利点を有する。また、計算能力が低いモバイル通信端末又は電力供給が限られているモバイル環境におけるリアルタイム処理にこれらの技法を用いることは困難である。
例えば、SIFT記述子は、非常に弁別的であるが、128ベクトルであるので、記述子の計算及びマッチングが比較的低速である。SURF記述子は、記述子の計算及びマッチングがより高速である。しかしながら、SURF記述子は、浮動小数点値の64ベクトルであるので、256バイトによって表される。このサイズは、記憶される記述子の数が増加するにつれて、多くのコストを要することになる場合がある。次元削減技法、量子化ベースの技法、記述子2値化技法等を含むSIFTの幾つかの他の拡張も提案されている。しかしながら、これらの技法は、依然として多くの時間及び計算を必要とする。
したがって、バイナリー記述子が提案されている。例えば、ORBでは、物体を認識するために、特徴点がFAST方法又はBRIEF方法によって抽出され、バイナリー記述子が生成される。ORB技法は、高次の記述子を用いるSIFT及びSURFと比較して、入力画像内の物体を認識する速度を高める。ピクセル比較を判断することは、一般的な勾配ベースの記述子において用いられる勾配演算よりも高速である。例えば、ORBは、キーポイントマッチングに関して性能について多くを失うことなく、SIFTよりも2桁高速である。これについては、非特許文献1及び非特許文献2を参照されたい。しかしながら、ORB等のバイナリー記述子を用いた画像レジストレーションの精度は、SIFT及びSURF等の他の方法の精度よりも低い。したがって、バイナリー記述子の計算効率を維持しつつ、バイナリー記述子を用いた画像レジストレーションの精度を改善する必要がある。加えて、異なる画像捕捉設定(異なるカメラ、視点、時刻等)であっても正確な性能を可能にするカスタマイズされた記述子パラメーターを開発する必要がある。
E. Rublee、V. Rabaud、K. Konolige、及びG. Bradski「ORB: An efficient alternative to sift or surf」(International Conference on Computer Vision (ICCV), 2011) D. G. Lowe「Distinctive image features from scale-invariant keypoints」(International Journal of Computer Vision (IJCV), vol. 60, no. 2, pp. 91-110, Nov. 2004)
コンピュータービジョンにバイナリー記述子が登場したことによって、異なる画像内のキーポイントをレジスタリングするより高速な解決策がもたらされた。バイナリー記述子は、従来の勾配ベースの記述子よりもほぼ2桁高速に求めることができるが、困難な状況では、マッチング精度が不十分であるという難点を有する。
本発明の幾つかの実施の形態は、バイナリー記述子をそれらの計算及びマッチングにおいて改良し、計算の速度を損なうことなくそれらの性能を高める方法及びシステムを提供する。全てのバイナリー記述子は、ペアワイズのピクセルが所与の画像パッチからサンプリングされる方法によってのみ変化するので、異なる実施の形態は、異なるバイナリー記述子を用いる。例えば、1つの実施の形態は、ORB記述子に適用される。この実施の形態は、記述子計算を低速にすることなく、少数のパラメーターを学習することによってORB記述子の性能を改善する幾つかの拡張を提供する。
本発明の幾つかの実施の形態は、バイナリー記述子の計算が、同じシーンの画像の様々な歪みを引き起こす、画像を捕捉する方法及び/又はタイミングの影響を受けやすいであろうという認識に基づいている。例えば、異なる時刻に捕捉された異なる画像におけるピクセルの強度は、それらのピクセルがシーン内の同じ点に対応する場合であっても、それらの時刻における光の変動に起因して変化する可能性がある。そのために、幾つかの実施の形態は、そのような変動を学習することができ、バイナリー記述子の計算中に考慮することができることを実現している。
例えば、1つの実施の形態は、画像の少なくとも2つのピクセルの強度の差と非ゼロの閾値との比較を用いて、画像内のキーポイントのバイナリー記述子を求める。そのような非ゼロの閾値によって、シーンの異なる画像内の異なる歪みを補償することが可能になる。
幾つかの実施の形態は、画像の歪みが、シーンのキーポイントが異なれば異なる影響をピクセルに及ぼす可能性があるという別の認識に基づいている。例えば、マンハッタンワールド仮説(直交壁を有する建物)を満たすシーンでは、水平方向に沿ったピクセル差は、垂直方向に沿ったピクセル差よりも有用である。そのために、幾つかの実施の形態は、そのような差を学習することができ、バイナリー記述子の比較中に考慮することができることを実現している。
例えば、1つの実施の形態は、重み付き距離、例えば重み付きハミング距離を用いてバイナリー記述子を比較する。そのような比較は、バイナリーベクトルの異なる要素を比較する異なる重みを求めることを可能にする。これらの重みの差は、異なるピクセルの重要度の差を符号化することができる。
個別に又は組み合わせて、そのような閾値処理された重み付き差は、画像レジストレーションの効率を維持しつつ、バイナリー記述子を用いて画像レジストレーションの精度を改善する。例えば、1つの実施の形態は、マージン最大化ネットワーク学習を用いてトレーニングデータから重み付きハミング距離の重みを学習する。その学習中に、この実施の形態は、異なる閾値を用いてレジストレーションを改善することができる。加えて又は代替的に、幾つかの実施の形態は、1年の異なる季節における異なる日時に、異なる照明条件で、異なるタイプのシーンについて捕捉された画像の閾値及び/又は重み付き距離の重みの異なる値を求め、異なる値を用いて異なる画像をレジスタリングする。
したがって、本発明の1つの実施の形態は、画像レジストレーションの方法を開示する。該方法は、第1の画像内の第1のキーポイントの第1のバイナリー記述子を求めることであって、該第1のバイナリー記述子における少なくとも1つの要素は、前記第1の画像の少なくとも2つのピクセルの強度の差と閾値との比較の結果であり、前記閾値は0以上であることと、第2の画像内の第2のキーポイントの第2のバイナリー記述子を求めることであって、該第2のバイナリー記述子における少なくとも1つの要素は、前記第2の画像の少なくとも2つのピクセルの強度の差と前記閾値との比較の結果であることと、前記第1のバイナリー記述子と前記第2のバイナリー記述子との間の重み付き距離を求めることであって、前記第1のバイナリー記述子及び前記第2のバイナリー記述子の少なくとも2つの要素を比較する前記重み付き距離の少なくとも2つの重みは異なることと、前記重み付き距離が雑音閾値よりも小さいとき、前記第1のキーポイントを前記第2のキーポイントとレジスタリングすることとを含む。該方法の少なくとも幾つかのステップは、プロセッサを用いて実行される。
別の実施の形態は、画像レジストレーションのシステムを開示する。該システムは、第1の画像及び第2の画像を取得する入力インターフェースと、第1の画像内の第1のキーポイントの第1のバイナリー記述子を求め、第2の画像内の第2のキーポイントの第2のバイナリー記述子を求め、該第1のバイナリー記述子と該第2のバイナリー記述子との間の重み付きハミング距離を求め、該重み付きハミング距離が雑音閾値よりも小さいとき、前記第1のキーポイントを前記第2のキーポイントとレジスタリングするプロセッサであって、前記第1のバイナリー記述子又は前記第2のバイナリー記述子における少なくとも1つの要素は、前記第1の画像又は前記第2の画像の少なくとも2つのピクセルの強度の差と非ゼロの閾値との比較の結果であり、前記第1のバイナリー記述子又は前記第2のバイナリー記述子の少なくとも2つの要素を比較する前記重み付きハミング距離の少なくとも2つの重みは異なる、プロセッサと、前記画像レジストレーションに基づいてコンピュータービジョン動作を実行する出力インターフェースとを備える。
更に別の実施の形態は、方法を実行するプロセッサによって実行可能なプログラムを具現化する非一時的コンピューター可読記憶媒体であって、前記方法は、第1の画像内の第1のキーポイントの第1のバイナリー記述子を求めることであって、該第1のバイナリー記述子における少なくとも1つの要素は、前記第1の画像の少なくとも2つのピクセルの強度の差と閾値との比較の結果であり、前記閾値は0以上であることと、第2の画像内の第2のキーポイントの第2のバイナリー記述子を求めることであって、該第2のバイナリー記述子における少なくとも1つの要素は、前記第2の画像の少なくとも2つのピクセルの強度の差と前記閾値との比較の結果であることと、前記第1のバイナリー記述子と前記第2のバイナリー記述子との間の重み付きハミング距離を求めることであって、前記第1のバイナリー記述子及び前記第2のバイナリー記述子の少なくとも2つの要素を比較する前記重み付きハミング距離の少なくとも2つの重みは異なることと、前記重み付きハミング距離が雑音閾値よりも小さいとき、前記第1のキーポイントを前記第2のキーポイントとレジスタリングすることとを含む、非一時的コンピューター可読記憶媒体を開示する。
本発明の幾つかの実施形態による画像レジストレーションのコンピューターシステムのブロック図である。 図1のシステムによって実行される画像レジストレーション方法のブロック図である。 本発明の幾つかの実施形態による、画像パッチを表すバイナリー記述子を生成するように適合されたシステムのブロック図である。 本発明の幾つかの実施形態による画像パッチの分解の概略図である。 本発明の1つの実施形態による、バイナリー記述子を作成する重み付き距離の重みと閾値とを求める方法のブロック図である。 LIDARと強度画像センサーとの融合についての本発明の1つの実施形態によるシステムの概略図である。 日中画像及び夜間画像のレジストレーションの本発明の1つの実施形態によるシステムの概略図である。 本発明の幾つかの実施形態による、画像をレジスタリングし、レジストレーションの結果に基づいてコンピュータービジョン動作を実行するように構成された一例示的なシステムのブロック図である。
図1は、本発明の幾つかの実施形態による画像レジストレーションのコンピューターシステム100のブロック図を示している。異なる実施形態では、システム100は、以下で説明する幾つかの構成要素の異なる組み合わせを有することができ、及び/又はシステム100の補助サービスを実行する他のシステムに作動的に接続することができる。
コンピューターシステム100は、記憶された命令を実行するように構成されたプロセッサ102と、このプロセッサによって実行可能な命令を記憶するメモリ104とを備える。プロセッサ102は、シングルコアプロセッサ、マルチコアプロセッサ、コンピューティングクラスター、又は任意の数の他の構成体とすることができる。メモリ104は、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、フラッシュメモリ、又は他の任意の適したメモリシステムを含むことができる。プロセッサ102は、バス106を通じて1つ又は複数の入力デバイス及び出力デバイスに接続されている。メモリに記憶された命令は、プロセッサが幾つかの実施形態による画像レジストレーションの方法を実施するのに用いることができる。
コンピューターシステム100は、原画像110を記憶するように適合された記憶デバイス108と、この原画像をフィルタリングして、アップサンプリングに適した画像を生成するフィルター112とを備えることもできる。例えば、フィルターは、原画像をサイズ変更し、トレーニングデータの画像とアラインすることができる。記憶デバイス108は、レジストレーションの構造及びパラメーター114を記憶することもできる。様々な実施形態では、レジストレーションは、メモリ及び/又は記憶デバイスに記憶することができる種々の閾値及び/又は重みを用いる。
記憶デバイス108は、ハードドライブ、光学ドライブ、サムドライブ、ドライブのアレイ、又はそれらの任意の組み合わせを含むことができる。コンピューターシステム100内のヒューマンマシンインターフェース116は、このシステムをキーボード118及びポインティングデバイス120に接続することができる。ポインティングデバイス120は、とりわけ、マウス、トラックボール、タッチパッド、ジョイスティック、ポインティングスティック、スタイラス、又はタッチスクリーンを含むことができる。コンピューターシステム100は、システム100をディスプレイデバイス124に接続するように適合されたディスプレイインターフェース122にバス106を通じてリンクすることができる。ディスプレイデバイス124は、とりわけ、コンピューターモニター、カメラ、テレビ、プロジェクター、又はモバイルデバイスを含むことができる。
コンピューターシステム100は、システムを撮像デバイス128に接続するように適合された撮像インターフェース126にも接続することができる。1つの実施形態では、アップサンプリング用の画像は、撮像デバイスから受信される。撮像デバイス128は、カメラ、コンピューター、スキャナー、モバイルデバイス、ウェブカム、又はそれらの任意の組み合わせを含むことができる。1つの実施形態では、システム100は、カメラの一部分である。プリンターインターフェース130も、バス106を通じてコンピューターシステム100に接続することができ、コンピューターシステム100を印刷デバイス132に接続するように適合させることができる。印刷デバイス132は、とりわけ、液体インクジェットプリンター、固体インクプリンター、大規模商用プリンター、サーマルプリンター、UVプリンター、又は昇華型プリンターを含むことができる。ネットワークインターフェースコントローラー134は、コンピューターシステム100をバス106を通じてネットワーク136に接続するように適合されている。ネットワーク136を通じて、電子テキスト及び撮像入力文書のうちの一方又は組み合わせを含む画像138を、記憶及び/又は更なる処理のためにダウンロードし、コンピューターの記憶システム108内に記憶することができる。
図2は、図1のシステム100によって実行される画像レジストレーション114の方法のブロック図を示している。本方法は、第1の画像205における第1のキーポイントの第1のバイナリー記述子215を求め(210)、第2の画像209における第2のキーポイントの第2のバイナリー記述子225を求める(220)。様々な実施形態では、第1のバイナリー記述子又は第2のバイナリー記述子における少なくとも1つの要素は、第1の画像又は第2の画像の少なくとも2つのピクセルの強度間の差と非ゼロの閾値207との比較の結果である。すなわち、閾値207は0以上である。そのために、本方法は、第1のバイナリー記述子における少なくとも1つの要素が、第1の画像の少なくとも2つのピクセルの強度間の差と上記非ゼロの閾値との比較の結果であり、かつ、第2のバイナリー記述子における少なくとも1つの要素が、第2の画像の少なくとも2つのピクセルの強度間の差と上記閾値との比較の結果であるように、第1のバイナリー記述子及び第2のバイナリー記述子を求める。
本発明の幾つかの実施形態は、バイナリー記述子の計算が、同じシーンの画像の様々な歪みを引き起こす、画像を捕捉する方法及び/又はタイミングの影響を受けやすいであろうという認識に基づいている。例えば、異なる時刻に捕捉された異なる画像におけるピクセルの強度は、それらのピクセルがシーン内の同じ点に対応する場合であっても、それらの時刻における光の変動に起因して変化する可能性がある。そのために、幾つかの実施形態は、そのような変動を学習することができ、バイナリー記述子の計算中に考慮することができることを実現している。
例えば、1つの実施形態は、以下の式に従って第1のバイナリー記述子又は第2のバイナリー記述子の第i要素bを求める。
Figure 0006858650
ここで、I(p)及びI(q)は、第1の画像又は第2の画像における2つのピクセルの強度であり、Tは閾値である。
図2の方法は、第1のバイナリー記述子215と第2のバイナリー記述子225との間の重み付き距離235を求める(230)。第1のバイナリー記述子及び第2のバイナリー記述子の少なくとも2つの要素を比較するこの重み付き距離の少なくとも2つの重み255は、画像の歪みが、シーンのキーポイントが異なれば異なる影響をピクセルに及ぼす可能性があるという別の認識に起因して異なる。例えば、マンハッタン仮説(Manhattan assumption)を満たすシーン(直交壁を有する建物からなる)では、水平方向に沿ったピクセル差は、垂直方向に沿ったピクセルよりも多くの情報を提供する。重み付き距離によって、バイナリーベクトルの異なる要素を比較する異なる重みを求めることが可能になる。重みの差は、異なるピクセル差の重要度の差を符号化することができる。
例えば、1つの実施形態は、重み付きハミング距離を用いてバイナリー記述子を比較する。本実施形態は、以下の式に従って重み付きハミング距離Hを求める。
Figure 0006858650
ここで、Nは、第1のバイナリー記述子及び第2のバイナリー記述子のサイズ、例えば256であり、wは、重みベクトルであり、この重みベクトルの各要素iは、第1のバイナリー記述子f(i)の第i要素と第2のバイナリー記述子f(i)の第i要素との間の重み付きハミング距離の重みを記憶する。
次に、本方法は、重み付き距離235が雑音閾値250よりも小さいとき、第1のキーポイントを第2のキーポイントとレジスタリングする(240)。この雑音閾値は、事前に求めておくことができる。個別に又は組み合わせて、そのような閾値処理された重み付き差は、画像レジストレーションの効率を維持しつつ、バイナリー記述子を用いて画像レジストレーションの精度を改善する。
本発明の幾つかの実施形態は、FAST、SURF、又はHARRIS等のキーポイント検出法のうちの少なくとも1つ又は組み合わせを用いて、第1の画像内の第1のキーポイントのセットと、第2の画像内の第2のキーポイントのセットとを選択し、これらの第1のセット及び第2のセットからのキーポイントのペアの様々な組み合わせを用いて画像レジストレーションを実行する。
例えば、第1のキーポイントを含む第1の画像の第1のパッチと、第2のキーポイントを含む第2の画像の第2のパッチとを選択する1つの実施形態は、第1のパッチ又は第2のパッチからの少なくとも幾つかのピクセルの強度を比較することによって第1のバイナリー記述子又は第2のバイナリー記述子を求める。
図3は、本発明の実施形態による、キーポイントに対応する画像パッチを表すバイナリー記述子を生成するように適合されたシステム300のブロック図を示している。システム300は、システム100の一部分とすることもできるし、システム100に作動的に接続することもできる。システム300は、コンピューティングシステム304と通信する撮像デバイス302を備えることができる。コンピューティングシステム304は、ラップトップコンピューター、デスクトップコンピューター、タブレットコンピューター、モバイルデバイス等の、本明細書において説明する実施形態を実施することが可能な任意のタイプのコンピューティングデバイスとすることができる。撮像デバイス302は、画像308を捕捉し、そのような画像308をコンピューティングシステム304に送信することが可能な任意のタイプの撮像デバイスとすることができる。
図3に示す実施形態では、撮像デバイス302は、ネットワーク306を介してコンピューティングシステム304と通信する。一方、代替の実施形態では、撮像デバイス302は、撮像デバイスインターフェース(図示せず)を介してコンピューティングシステム304と通信することもできるし、コンピューティングシステム304内に直接存在することもできる。
コンピューティングシステム304は、中央処理ユニット(CPU)310及びメモリ312を備えることができる。メモリ312は、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、ハードディスクドライブ、リムーバブルディスク、固体メモリ等の任意のタイプのアドレス指定可能電子記憶装置とすることができる。
メモリ312は、画像パッチジェネレーター314と、バイナリー記述子ジェネレーター316と、撮像デバイス302から受信された画像308とを含むことができる。画像パッチジェネレーター314は、画像308の複数の画像パッチを生成するように適合することができる。各画像パッチは、画像308内で識別される特定のキーポイントを中心とすることができる。バイナリー記述子ジェネレーター316は、各画像パッチを表すバイナリー記述子を生成するように適合することができる。バイナリー記述子は、画像パッチ内の特定のピクセル群について作成されたバイナリー列又はビット列を用いて生成することができる。
図4は、本発明の実施形態による画像400内の画像パッチ401の分解の概略図を示している。各パッチの中心は、検出されたキーポイント402に対応する。キーポイントの近くのピクセル403及び404の多くのペアが検討される。ピクセル403と404との間の差を見つけ、この差を学習された閾値と比較することによって、バイナリー特徴ベクトルが取得される。この特徴ベクトルは、任意の数のピクセル比較、例えば、256個のそのようなペアの比較を有することができる。
個別に又は組み合わせて、そのような閾値処理された重み付き差は、画像レジストレーションの効率を維持しつつ、バイナリー記述子を用いて画像レジストレーションの精度を改善する。例えば、1つの実施形態は、マージン最大化ネットワーク学習を用いてトレーニングデータから重み付きハミング距離の重みを学習する。その学習中に、本実施形態は、異なる閾値を用いてレジストレーションを改善することができる。
図5は、本発明の1つの実施形態による重みを求める方法のブロック図を示している。重みを学習するために、1つの実施形態は、トレーニングデータを生成する。画像取得システムは、或る変動を受けた同じシーンの画像を取得する(501)。本方法は、第1の画像502からキーポイント及びバイナリー記述子を抽出し(504)、第2の画像503からキーポイント及び記述子を抽出する(505)。第1の画像内のキーポイントと第2の画像内のキーポイントとの間の対応関係が、手動入力を用いて又は或る正確なマッチングアルゴリズムを通じて求められる(506)。これは、計算効率が良好である必要はない。トレーニングデータ507は、幾つかの良好なキーポイントマッチ及び良好でないキーポイントマッチを用いて生成される。
1つの実施形態は、マージン最大化ネットワーク学習アルゴリズム508を用いて重み及び閾値の双方を次のように計算する。すなわち、トレーニングデータD={x,y},i={1,...,n}507が与えられると、幾つかの実施形態は、正しいマッチの重み付きハミング距離が、正しくないマッチの距離よりも小さくなるように、重み509を学習する(508)。ここで、x及びyは、n個の正しいキーポイントマッチの256×1個のバイナリーベクトルである。
1つの実施形態は、以下のように、マージン最大化ネットワーク学習を用いて重みを学習する問題を定式化する。
Figure 0006858650
ここで、εは、スラック変数であり、Cは、マージン最大化ネットワーク学習におけるソフトマージンパラメーターであり、wは、学習された重みの集合であり、bは、バイアス項である。
例えば、重みを学習するために、1つの実施形態は、H(x,y)の2つの負の場合をH(x,y)のあらゆる正の場合に用いる。H(x,y)の正の場合は、ソース記述子xとターゲット記述子yとの間の正しいマッチである。これは、グラウンドトゥルースデータから与えられる。学習に用いられる2つの負の場合は、ソース記述子まで最小のハミング距離を有するターゲット記述子、及びソース記述子まで2番目に最小のハミング距離を有するターゲット記述子である。ここで、j≠iである。1つの実施形態は、同じマージン最大化ネットワーク学習を用いて閾値510を学習する(508)。
閾値学習の最適化問題は、次のように定式化することができる。幾つかのトレーニングデータD={di1,di2},i={1,...,n}が与えられると、閾値T∈Rを学習する。ここで、di1及びdi2は、2つの異なるマッチングキーポイントにおけるバイナリー記述子を求めるのに用いられる256個のピクセルペアの強度値を記憶する256×2行列を指す。この学習問題は、以下のように定式化することができる。
Figure 0006858650
閾値Tは整数値しか取らない。なぜならば、誤差は、中間にあるいずれの実数値に対しても変化しないからである。1つの実施形態は、種々の閾値について力まかせ探索を実行する。
重み及び閾値の組み合わせ学習(Combined Weight and Threshold Learning)
マージン最大化ネットワーク学習アルゴリズム508は、重み509及び閾値510の双方を同時に推定するのに用いることもできる。重み及び閾値の学習の双方を組み合わせるために、幾つかの実施形態は、最適化を次のように定式化する。トレーニングデータD={di1,di2},i={1,...,n}が与えられると、重みベクトルw∈R256及び閾値T∈Rを学習する。ここで、di1及びdi2は、2つの異なるマッチングキーポイントにおけるバイナリー記述子を作成するのに用いられる256個のピクセルペアの強度値を記憶する256×2行列を指す。
例えば、この学習問題は、以下のものとすることができる。
Figure 0006858650
上記問題は非凸であり、これは、大域的最適解を取得することを困難にする。そのために、1つの実施形態は、マージン最大化ネットワーク学習中に異なる整数値を列挙することによって閾値を学習する。例えば、この実施形態が、閾値Tを異なる整数値に固定すると、この最適化問題は、上記で説明した重み学習方法と同様に凸になる。閾値が整数であるという性質を利用すると、この問題は、力まかせ探索を介して学習することができる。
本発明の幾つかの実施形態は、画像レジストレーションを用いて、コンピュータービジョン動作を実行する。例えば、コンピュータービジョン動作は、ビジュアルオドメトリー、3D再構成、物体検出、物体認識、センサー融合、及び画像ベースのローカライゼーションのうちの1つ又は組み合わせを含む。
例示の実施形態
図6は、本発明の1つの実施形態によるシステムの概略図を示している。本システムは、シーンを測定してシーンの第1の測定値のセット603を生成する第1のセンサー601と、シーンを測定してシーンの第2の測定値のセット604を生成する第2のセンサー602とを備える。例えば、第1のセンサー601はLIDARであり、第2のセンサー602はカメラである。本システムは、LIDAR画像からキーポイント及び記述子を抽出する(605)。同様に、本システムは、強度画像からキーポイント及び記述子を抽出する(606)。本システムは、重み付きハミング距離を用いて、LIDAR画像と強度画像とをマッチングする(607)。これらのマッチを用いて、本システムは、センサー融合608を取得することができる。
図6Bは、本発明の別の実施形態によるシステムの概略図を示している。本システムは、日中の画像621及び夜間の画像622を取得する。本システムは、日中の画像からキーポイント及び記述子を抽出し(623)、夜間の画像からキーポイント及び記述子を抽出する(624)。本システムは、重み付きハミング距離を用いて、キーポイント間のマッチを計算し(625)、日中と夜間とのレジストレーション626を取得する。
そのために、様々な実施形態は、日中の画像及び夜間の画像のレジストレーション、LIDAR画像及び強度画像のレジストレーション等の異なるシナリオの異なる重み及び閾値を学習することもできる。例えば、1つの実施形態は、異なる時点においてカメラを用いて捕捉された第1の画像及び第2の画像を取得し、プロセッサと作動的に接続されたメモリから、それらの時点の関数に基づいて、閾値、雑音閾値、及び重み付きハミング距離の重みのうちの少なくとも1つを選択する。例えば、メモリは、1年の異なる季節における異なる日時に、異なる照明条件で、異なるタイプのシーンについて捕捉された画像の閾値、雑音閾値、及び重み付きハミング距離の重みのうちの少なくとも1つの異なる値を記憶する。
図7は、本発明の幾つかの実施形態による、画像をレジスタリングし、レジストレーションの結果に基づいてコンピュータービジョン動作を実行するように構成された一例示的なシステム700のブロック図を示している。システム700は、システム100の内部に実装することができる。加えて又は代替的に、システム700は、システム100のインターフェースに通信接続することができる。
システム700は、カメラ710、慣性測定ユニット(IMU)730、プロセッサ750、メモリ760、送受信機770、及びディスプレイ/スクリーン780のうちの1つ又は組み合わせを備えることができる。これらは、接続720を通じて他の構成要素に作動的に結合することができる。接続720は、バス、ライン、ファイバー、リンク又はそれらの組み合わせを含むことができる。
送受信機770は、例えば、1つ又は複数のタイプの無線通信ネットワークを通じて1つ又は複数の信号を送信することを可能にする送信機と、1つ又は複数のタイプの無線通信ネットワークを通じて送信された1つ又は複数の信号を受信する受信機とを備えることができる。送受信機770は、様々な技術に基づいて無線ネットワークとの通信を可能にすることができる。これらの技術は、標準規格のIEEE802.11ファミリーに基づくことができるフェムトセル、Wi−Fiネットワーク又は無線ローカルエリアネットワーク(WLAN)、標準規格のIEEE802.15xファミリーに基づくBluetooth(登録商標)、近距離場通信(NFC)、ネットワーク等の無線パーソナルエリアネットワーク(WPAN)、及び/又はLTE、WiMAX等の無線ワイドエリアネットワーク(WWAN)等であるが、これらに限定されるものではない。システム400は、有線ネットワークを通じて通信する1つ又は複数のポートを備えることもできる。
幾つかの実施形態では、システム700は、CCDセンサー若しくはCMOSセンサー、レーザー及び/又はカメラ等の画像センサー710を備えることができる。この画像センサーは、以下では「センサー710」と呼ばれる。例えば、センサー710は、光画像を電子画像又はデジタル画像に変換することができ、取得された画像をプロセッサ750に送信することができる。加えて又は代替的に、センサー710は、シーン内のターゲット物体から反射された光を検知し、捕捉された光の強度をプロセッサ750にサブミットすることができる。
例えば、センサー710は、「カラー情報」を提供するカラーカメラ又はグレースケールカメラを含むことができる。「カラー情報」という用語は、本明細書において用いられるとき、カラー情報及び/又はグレースケール情報を指す。一般に、カラー画像又はカラー情報は、本明細書において用いられるとき、1〜N個のチャネルを含むものとみなすことができる。ここで、Nは、画像を記憶するのに用いられている色空間に依存する或る整数である。例えば、RGB画像は、3つのチャネルを含み、赤情報、青情報及び緑情報についてそれぞれ1つのチャネルを有する。
例えば、センサー710は、「奥行き情報」を提供する奥行きセンサーを含むことができる。奥行き情報は、奥行きセンサーを用いて様々な方法で取得することができる。「奥行きセンサー」という用語は、奥行き情報を単独で及び/又は他の幾つかのカメラと併せて取得するのに用いることができる機能ユニットを指すのに用いられる。例えば、幾つかの実施形態では、奥行きセンサー及び光学カメラは、センサー710の一部分とすることができる。例えば、幾つかの実施形態では、センサー710はRGBDカメラを備える。このRGBDカメラは、カラー(RGB)画像に加えて、奥行きセンサーが有効にされているときはピクセルごとの奥行き(D)情報を捕捉することができる。
別の例として、幾つかの実施形態では、センサー710は、3D飛行時間(3DTOF)カメラを備えることができる。3DTOFカメラを用いた実施形態では、奥行きセンサーは、3DTOFカメラに結合されたストロボライトの形態を取ることができる。このストロボライトは、シーン内の物体を照明することができ、反射された光は、センサー710内のCCD/CMOSセンサーが捕捉することができる。奥行き情報は、光パルスが物体に進んでセンサーに戻って来るまでに要する時間を測定することによって取得することができる。
更なる例として、奥行きセンサーは、センサー710に結合された光源の形態を取ることができる。1つの実施形態では、この光源は、1つ又は複数の狭い光の帯を含むことができる構造化された光パターン又はテクスチャー付けされた光パターンをシーン内の物体に投射する。奥行き情報は、物体の表面形状によって引き起こされる投射パターンの幾何学的歪みを利用することによって取得される。1つの実施形態は、赤外線構造化光プロジェクターと、RGBカメラにレジスタリングされた赤外線カメラとの組み合わせ等のステレオセンサーから奥行き情報を求める。
幾つかの実施形態では、センサー710は立体カメラを備える。例えば、奥行きセンサーは、2つ以上のカメラを用いてシーンの奥行き情報を取得することができる受動ステレオビジョンセンサーの一部分を成すことができる。捕捉されたシーンにおける双方のカメラに共通の点のピクセル座標を、カメラ姿勢情報及び/又は三角測量技法とともに用いて、ピクセルごとの奥行き情報を取得することができる。
幾つかの実施形態では、システム700は、デュアルフロントカメラ及び/又は前面カメラ及び背面カメラ等の複数のセンサー710に作動的に接続することができ、これらの複数のセンサーは、様々なセンサーを組み込むこともできる。幾つかの実施形態では、センサー710は、静止画像及びビデオ画像の双方を捕捉することができる。幾つかの実施形態では、センサー710は、例えば、30フレーム毎秒(fps)で画像を捕捉することが可能なRGBD又は立体ビデオカメラを備えることができる。1つの実施形態では、センサー710によって捕捉された画像は、生の未圧縮フォーマットとすることができ、処理及び/又はメモリ760への記憶の前に圧縮することができる。幾つかの実施形態では、画像圧縮は、プロセッサ750によって可逆圧縮技法又は非可逆圧縮技法を用いて実行することができる。
幾つかの実施形態では、プロセッサ750は、IMU730から入力を受信することもできる。他の実施形態では、IMU730は、3軸加速度計(複数の場合もある)、3軸ジャイロスコープ(複数の場合もある)、及び/又は磁気計(複数の場合もある)を備えることができる。IMU730は、速度、方位、及び/又は他の位置関連情報をプロセッサ750に提供することができる。幾つかの実施形態では、IMU730は、測定された情報を、センサー710による各画像フレームの捕捉と同期して出力することができる。幾つかの実施形態では、IMU730の出力は、プロセッサ750がセンサー測定値を融合し及び/又は融合された測定値を更に処理するのに部分的に用いられる。
また、システム700は、カラー画像及び/又は奥行き画像等の画像をレンダリングするスクリーン又はディスプレイ780を備えることができる。幾つかの実施形態では、ディスプレイ780は、センサー710によって捕捉されたライブ画像、融合画像、拡張現実(AR)画像、グラフィカルユーザーインターフェース(GUI)、及び他の番組(program:プログラム)出力を表示するのに用いることができる。幾つかの実施形態では、ディスプレイ780は、ユーザーが、仮想キーボード、アイコン、メニュー、又は他のGUI、ユーザージェスチャー及び/又はスタイラス及び他の筆記用具等の入力デバイスの或る組み合わせを介してデータを入力することを可能にするタッチスクリーンを備えることができ及び/又はこのようなタッチスクリーンとともに収容することができる。幾つかの実施形態では、ディスプレイ780は、液晶ディスプレイ(LCD)ディスプレイ又は有機LED(OLED)ディスプレイ等の発光ダイオード(LED)ディスプレイを用いて実施することができる。他の実施形態では、ディスプレイ780は、ウェアラブルディスプレイとすることができる。
幾つかの実施形態では、融合の結果をディスプレイ780にレンダリングすることもできるし、システム700の内部又は外部に存在することができる異なるアプリケーションにサブミットすることもできる。例えば、プロセッサ750上で動作するコンピュータービジョン(CV)アプリケーション755は、コンピュータービジョンベースの追跡方法、モデルベースの追跡方法、及び/又は同時ローカライゼーション/マッピング(SLAM)方法を実施及び実行することができる。
例示的なシステム700は、図示した機能ブロックのうちの1つ又は複数の追加、組み合わせ、又は省略等によって、本開示と整合性を有するように様々な方法で変更することもできる。例えば、幾つかの構成では、システム700は、IMU730又は送受信機770を備えていない。さらに、幾つかの特定の例示の実施態様では、システム700は、周辺光センサー、マイクロフォン、音響センサー、超音波センサー、レーザーレンジファインダー等の様々な他のセンサー(図示せず)を備える。幾つかの実施形態では、システム700の幾つかの部分は、1つ又は複数のチップセット等の形態を取る。
プロセッサ750は、ハードウェア、ファームウェア、及びソフトウェアの組み合わせを用いて実施することができる。メモリ760は、プロセッサ750内及び/又はプロセッサ750の外部に実装することができる。幾つかの実施形態では、メモリ760は、センサー融合及び/又は1つ若しくは複数の画像処理を容易にし、プロセッサ750上のCV755によって実行されるSLAM、追跡、3D再構成、及び他のタスクを実行するプログラムコードを保持する。
幾つかの実施形態では、CV755は、様々なコンピュータービジョン方法を実施し及び/又はセンサー710によって捕捉された画像を処理することができる。例えば、CV755は、センサー710によって捕捉された1つ又は複数の画像を処理して、これらの捕捉された画像に関連付けられた奥行き情報を用いてモデル化されている環境の再構成を実行するように構成することができる。
奥行きデータに基づいて、再構成中、各ピクセルに3D座標を割り当てることができる。1つの実施形態では、プロセッサ750上のCV755は、単眼(単一カメラ)視覚SLAMシステムを用いて、カメラ710の正確でロバストな6DOF追跡のためのMS周辺の環境の粗いマップを作成することによってカメラ710の位置を追跡する。単眼という用語は、単一の非立体カメラを用いて画像を捕捉すること又は奥行き情報を伴わずに捕捉された画像を指す。その場合、他の再構成方法は、カメラ姿勢及びピクセルごとの奥行き情報を用いて、捕捉された画像(複数の場合もある)を視認方向に沿って押し出すことができる。例えば、1つの実施形態では、プロセッサ750は、融合された測定値のセットを用いてシーン内の物体を追跡するように構成されている。
本発明の上記で説明した実施形態は、多数の方法のうちの任意のもので実施することができる。例えば、実施形態は、ハードウェア、ソフトウェア又はそれらの組合せを用いて実施することができる。ソフトウェアで実施される場合、ソフトウェアコードは、単一のコンピューターに設けられるのか又は複数のコンピューター間に分散されるのかにかかわらず、任意の適したプロセッサ又はプロセッサの集合体において実行することができる。そのようなプロセッサは、1つ又は複数のプロセッサを集積回路部品に有する集積回路として実装することができる。ただし、プロセッサは、任意の適したフォーマットの回路類を用いて実装することができる。
また、本発明の実施形態は、例が提供された方法として実施することができる。この方法の一部として実行される動作は、任意の適切な方法で順序付けすることができる。したがって、動作が示したものと異なる順序で実行される実施形態を構築することができ、これには、例示の実施形態では一連の動作として示されたにもかかわらず、幾つかの動作を同時に実行することを含めることもできる。
請求項の要素を修飾する、特許請求の範囲における「第1」、「第2」等の序数の使用は、それ自体で、1つの請求項の要素の別の請求項の要素に対する優先順位も、優位性も、順序も暗示するものでもなければ、方法の動作が実行される時間的な順序も暗示するものでもなく、請求項の要素を区別するために、単に、或る特定の名称を有する1つの請求項の要素を、同じ(序数の用語の使用を除く)名称を有する別の要素と区別するラベルとして用いられているにすぎない。

Claims (18)

  1. 画像レジストレーションの方法であって、
    第1の画像内の第1のキーポイントの第1のバイナリー記述子を求めることであって、前記第1のバイナリー記述子における少なくとも1つの要素は、前記第1の画像の少なくとも2つのピクセルの強度の差と閾値との比較の結果であることと、
    第2の画像内の第2のキーポイントの第2のバイナリー記述子を求めることであって、前記第2のバイナリー記述子における少なくとも1つの要素は、前記第2の画像の少なくとも2つのピクセルの強度の差と前記閾値との比較の結果であることと、
    前記第1のバイナリー記述子と前記第2のバイナリー記述子との間の重み付き距離を求めることであって、前記第1のバイナリー記述子及び前記第2のバイナリー記述子の少なくとも2つの要素を比較する前記重み付き距離の少なくとも2つの重みはメモリに記憶された異なる値であることと、
    前記重み付き距離が雑音閾値よりも小さいとき、前記第1のキーポイントを前記第2のキーポイントとレジスタリングすることと、
    前記画像レジストレーションに基づいてコンピュータービジョン動作を実行すること、
    を含み、
    前記コンピュータービジョン動作は、ビジュアルオドメトリー、3D再構成、物体検出、物体認識、センサー融合、及び画像ベースのローカライゼーションのうちの1つ又は組み合わせを含み、
    前記方法の少なくとも幾つかのステップは、プロセッサを用いて実行され、
    方法。
  2. HARRISキーポイント検出法、FASTキーポイント検出法、又はSURFキーポイント検出法のうちの少なくとも1つ又は組み合わせを用いて、前記第1の画像内の第1のキーポイントのセットと、前記第2の画像内の第2のキーポイントのセットとを選択することと、
    前記第1のセット及び前記第2のセットからのキーポイントのペアの各組み合わせについて前記求めるステップを繰り返して、前記雑音閾値よりも小さな前記重み付き距離を有する前記キーポイントのペアをレジスタリングすることと、
    を更に含む、請求項1に記載の方法。
  3. 前記第1のキーポイントを含む前記第1の画像の第1のパッチを選択することと、
    前記第2のキーポイントを含む前記第2の画像の第2のパッチを選択することと、
    前記第1のパッチからの少なくとも幾つかのピクセルの強度を比較することによって前記第1のバイナリー記述子を求めることと、
    前記第2のパッチからの少なくとも幾つかのピクセルの強度を比較することによって前記第2のバイナリー記述子を求めることと、
    を更に含む、請求項2に記載の方法。
  4. 前記重み付き距離は、以下の式に従って求められる重み付きハミング距離Hであり、
    Figure 0006858650
    ここで、Nは、前記第1のバイナリー記述子及び前記第2のバイナリー記述子のサイズであり、wは、重みベクトルであり、前記重みベクトルの各要素iは、前記第1のバイナリー記述子f(i)の第i要素と前記第2のバイナリー記述子f(i)の第i要素との間の前記重み付きハミング距離の重みを記憶する、
    請求項1に記載の方法。
  5. Nは256に等しく、前記閾値は0よりも大きい、
    請求項4に記載の方法。
  6. 前記第1のバイナリー記述子又は前記第2のバイナリー記述子の第i要素bは、以下の式に従って求められ、
    Figure 0006858650
    ここで、I(p)及びI(q)は、前記第1の画像又は前記第2の画像における前記2つのピクセルの前記強度であり、Tは前記閾値である、
    請求項1に記載の方法。
  7. 異なる時点においてカメラを用いて捕捉された前記第1の画像及び前記第2の画像を取得することと、
    前記プロセッサと作動的に接続されたメモリから、前記時点の関数に基づいて、前記閾値、前記雑音閾値、及び重み付きハミング距離の重みのうちの少なくとも1つを選択することと、
    を更に含む、請求項1に記載の方法。
  8. 前記メモリは、1年の異なる季節における異なる日時に、異なる照明条件で、異なるタイプのシーンについて捕捉された画像の前記閾値、前記雑音閾値、及び前記重み付きハミング距離の前記重みのうちの少なくとも1つの異なる値を記憶する、
    請求項7に記載の方法。
  9. 重み付きハミング距離の重みは、マージン最大化ネットワーク学習を用いてトレーニングデータから学習される、
    請求項1に記載の方法。
  10. 前記閾値は、前記マージン最大化ネットワーク学習中に異なる整数値を列挙することによって学習される、
    請求項9に記載の方法。
  11. 画像レジストレーションのシステムであって、
    第1の画像及び第2の画像を取得する入力インターフェースと、
    第1の画像内の第1のキーポイントの第1のバイナリー記述子を求め、第2の画像内の第2のキーポイントの第2のバイナリー記述子を求め、前記第1のバイナリー記述子と前記第2のバイナリー記述子との間の重み付きハミング距離を求め、前記重み付きハミング距離が雑音閾値よりも小さいとき、前記第1のキーポイントを前記第2のキーポイントとレジスタリングするプロセッサであって、前記第1のバイナリー記述子又は前記第2のバイナリー記述子における少なくとも1つの要素は、前記第1の画像又は前記第2の画像の少なくとも2つのピクセルの強度の差と非ゼロの閾値との比較の結果であり、前記第1のバイナリー記述子又は前記第2のバイナリー記述子の少なくとも2つの要素を比較する前記重み付きハミング距離の少なくとも2つの重みはメモリに記憶された異なる値である、プロセッサと、
    前記画像レジストレーションに基づいてコンピュータービジョン動作を実行する出力インターフェースと、
    を備え、
    前記コンピュータービジョン動作は、ビジュアルオドメトリー、3D再構成、物体検出、物体認識、センサー融合、及び画像ベースのローカライゼーションのうちの1つ又は組み合わせを含む
    システム。
  12. 請求項11に記載のシステムを備えるカメラ。
  13. 1年の異なる季節における異なる日時に、異なる照明条件で、異なるタイプのシーンについて捕捉された画像の前記閾値、前記雑音閾値、及び前記重み付きハミング距離の前記重みのうちの少なくとも1つの異なる値を記憶するメモリ、
    を更に含む、請求項11に記載のシステム。
  14. 前記プロセッサは、
    前記第1の画像及び前記第2の画像を捕捉する時点を決定し、
    前記メモリから、前記時点の関数に基づいて、前記閾値、前記雑音閾値、及び前記重み付きハミング距離の前記重みのうちの少なくとも1つを選択する、
    ように構成されている、請求項13に記載のシステム。
  15. 前記重み付きハミング距離Hは、以下の式に従って求められ、
    Figure 0006858650
    ここで、Nは、前記第1のバイナリー記述子及び前記第2のバイナリー記述子のサイズであり、wは、重みベクトルであり、前記重みベクトルの各要素iは、前記第1のバイナリー記述子f(i)の第i要素と前記第2のバイナリー記述子f(i)の第i要素との間の前記重み付きハミング距離の重みを記憶する、
    請求項11に記載のシステム。
  16. Nは256に等しい、
    請求項15に記載のシステム。
  17. 前記第1のバイナリー記述子又は前記第2のバイナリー記述子の第i要素bは、以下の式に従って求められ、
    Figure 0006858650
    ここで、I(p)及びI(q)は、前記第1の画像又は前記第2の画像における前記2つのピクセルの前記強度であり、Tは前記閾値である、
    請求項11に記載のシステム。
  18. 方法を実行するプロセッサによって実行可能なプログラムを具現化する非一時的コンピューター可読記憶媒体であって、
    前記方法は、
    第1の画像内の第1のキーポイントの第1のバイナリー記述子を求めることであって、前記第1のバイナリー記述子における少なくとも1つの要素は、前記第1の画像の少なくとも2つのピクセルの強度の差と閾値との比較の結果であることと、
    第2の画像内の第2のキーポイントの第2のバイナリー記述子を求めることであって、前記第2のバイナリー記述子における少なくとも1つの要素は、前記第2の画像の少なくとも2つのピクセルの強度の差と前記閾値との比較の結果であることと、
    前記第1のバイナリー記述子と前記第2のバイナリー記述子との間の重み付きハミング距離を求めることであって、前記第1のバイナリー記述子及び前記第2のバイナリー記述子の少なくとも2つの要素を比較する前記重み付きハミング距離の少なくとも2つの重みはメモリに記憶された異なる値であることと、
    前記重み付きハミング距離が雑音閾値よりも小さいとき、前記第1のキーポイントを前記第2のキーポイントとレジスタリングすることと、
    前記画像レジストレーションに基づいてコンピュータービジョン動作を実行すること、
    を含み、
    前記コンピュータービジョン動作は、ビジュアルオドメトリー、3D再構成、物体検出、物体認識、センサー融合、及び画像ベースのローカライゼーションのうちの1つ又は組み合わせを含む
    非一時的コンピューター可読記憶媒体。
JP2017111652A 2016-08-19 2017-06-06 画像レジストレーションの方法及びシステム Active JP6858650B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/241,118 2016-08-19
US15/241,118 US10013765B2 (en) 2016-08-19 2016-08-19 Method and system for image registrations

Publications (3)

Publication Number Publication Date
JP2018028899A JP2018028899A (ja) 2018-02-22
JP2018028899A5 JP2018028899A5 (ja) 2020-05-28
JP6858650B2 true JP6858650B2 (ja) 2021-04-14

Family

ID=61191998

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017111652A Active JP6858650B2 (ja) 2016-08-19 2017-06-06 画像レジストレーションの方法及びシステム

Country Status (2)

Country Link
US (1) US10013765B2 (ja)
JP (1) JP6858650B2 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9972121B2 (en) * 2014-04-22 2018-05-15 Google Llc Selecting time-distributed panoramic images for display
US9934222B2 (en) 2014-04-22 2018-04-03 Google Llc Providing a thumbnail image that follows a main image
USD781317S1 (en) 2014-04-22 2017-03-14 Google Inc. Display screen with graphical user interface or portion thereof
USD780777S1 (en) 2014-04-22 2017-03-07 Google Inc. Display screen with graphical user interface or portion thereof
US9754182B2 (en) * 2015-09-02 2017-09-05 Apple Inc. Detecting keypoints in image data
US10839226B2 (en) * 2016-11-10 2020-11-17 International Business Machines Corporation Neural network training
US10547871B2 (en) * 2017-05-05 2020-01-28 Disney Enterprises, Inc. Edge-aware spatio-temporal filtering and optical flow estimation in real time
US10554957B2 (en) * 2017-06-04 2020-02-04 Google Llc Learning-based matching for active stereo systems
CN109008909B (zh) * 2018-07-13 2024-01-26 宜宾学院 一种低功耗胶囊内窥镜图像采集及三维重建系统
CN109272537B (zh) * 2018-08-16 2021-08-13 清华大学 一种基于结构光的全景点云配准方法
CN110009549B (zh) * 2019-03-14 2020-08-21 北京航空航天大学 一种旋转对称描述子的计算方法及硬件加速器
CN110134803B (zh) * 2019-05-17 2020-12-11 哈尔滨工程大学 基于哈希学习的图像数据快速检索方法
CN112307243B (zh) * 2019-07-23 2023-11-03 北京京东振世信息技术有限公司 用于检索图像的方法和装置
US11354883B2 (en) * 2019-12-30 2022-06-07 Sensetime International Pte. Ltd. Image processing method and apparatus, and electronic device
SG10201913798WA (en) * 2019-12-30 2021-07-29 Sensetime Int Pte Ltd Image processing method and apparatus, and electronic device
CN111223133B (zh) * 2020-01-07 2022-10-11 上海交通大学 一种异源图像的配准方法
JP7446903B2 (ja) * 2020-04-23 2024-03-11 株式会社日立製作所 画像処理装置、画像処理方法及び画像処理システム
JP7093935B2 (ja) * 2020-09-02 2022-07-01 株式会社サイバーエージェント 推定システム、推定装置、推定方法及びコンピュータプログラム
CN112560858B (zh) * 2020-10-13 2023-04-07 国家计算机网络与信息安全管理中心 一种联合轻量化网络和个性化特征提取的字符图片检测及快速匹配方法
CN112926593A (zh) * 2021-02-20 2021-06-08 温州大学 一种用于动态图像增强呈现中的图像特征处理方法及装置
CN113679327B (zh) * 2021-10-26 2022-02-18 青岛美迪康数字工程有限公司 内镜检查图像采集方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6711293B1 (en) 1999-03-08 2004-03-23 The University Of British Columbia Method and apparatus for identifying scale invariant features in an image and use of same for locating an object in an image
EP1850270B1 (en) 2006-04-28 2010-06-09 Toyota Motor Europe NV Robust interest point detector and descriptor
US8687892B2 (en) 2012-06-21 2014-04-01 Thomson Licensing Generating a binary descriptor representing an image patch
KR101677559B1 (ko) * 2013-03-22 2016-11-18 한국전자통신연구원 영상 정합 장치 및 그것의 동작 방법
KR101491461B1 (ko) 2013-08-02 2015-02-23 포항공과대학교 산학협력단 공분산 기술자를 이용하는 물체 인식 방법 및 장치
US20160092727A1 (en) * 2014-09-30 2016-03-31 Alcatel-Lucent Usa Inc. Tracking humans in video images

Also Published As

Publication number Publication date
US20180053293A1 (en) 2018-02-22
JP2018028899A (ja) 2018-02-22
US10013765B2 (en) 2018-07-03

Similar Documents

Publication Publication Date Title
JP6858650B2 (ja) 画像レジストレーションの方法及びシステム
KR102662201B1 (ko) 콘볼루셔널 이미지 변환을 사용하여 동시 로컬화 및 맵핑을 수행하기 위한 방법 및 시스템
US11145083B2 (en) Image-based localization
US10659768B2 (en) System and method for virtually-augmented visual simultaneous localization and mapping
JP6862584B2 (ja) 画像処理システム及び画像処理方法
US9406137B2 (en) Robust tracking using point and line features
EP2941736B1 (en) Mobile device based text detection and tracking
US9747516B2 (en) Keypoint detection with trackability measurements
CN111382613B (zh) 图像处理方法、装置、设备和介质
US10554957B2 (en) Learning-based matching for active stereo systems
US11842504B2 (en) Systems and methods for image processing based on optimal transport and epipolar geometry
CN108335329B (zh) 应用于飞行器中的位置检测方法和装置、飞行器
CN116704111A (zh) 图像处理方法和设备
CN112750157B (zh) 一种深度图像生成方法及装置
Piasco et al. Geometric camera pose refinement with learned depth maps
US20240177329A1 (en) Scaling for depth estimation
US20240161337A1 (en) Matching between 2d and 3d for direct localization
JP7495546B2 (ja) 畳み込み画像変換を使用して同時位置特定およびマッピングを実施する方法およびシステム
EP4250231A1 (en) Cloud-based training and camera correction
WO2024112458A1 (en) Scaling for depth estimation
Based Swift PRN-SORB-SLAM
Nongmeikapam et al. Prn-Sorb-Slam: A Parallelized Region Proposal Network-Based Swift ORB SLAM System for Stereo Vision-Based Local Path Planning
Kusram et al. Two-Phase Multimodal Image Fusion Using Convolutional Neural Networks

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200420

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200420

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200420

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200909

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20201002

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201013

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210224

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210324

R150 Certificate of patent or registration of utility model

Ref document number: 6858650

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250