JP6858650B2

JP6858650B2 - 画像レジストレーションの方法及びシステム

Info

Publication number: JP6858650B2
Application number: JP2017111652A
Authority: JP
Inventors: スリクマール・ラマリンガム; 田口　裕一; 裕一田口; バラス、サンカラン
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2016-08-19
Filing date: 2017-06-06
Publication date: 2021-04-14
Anticipated expiration: 2037-06-06
Also published as: US20180053293A1; JP2018028899A; US10013765B2

Description

本発明は、包括的には、コンピュータービジョンに関し、より詳細には、異なる画像のレジストレーション（registration：位置合わせ）に関する。

画像レジストレーションは、異なる画像の異なるデータのセットを１つの座標系に変換するプロセスである。データは、異なるセンサー、時刻、奥行き、又は視点からの複数の写真、データである場合がある。画像レジストレーションは、コンピュータービジョン、医用撮像、生体撮像及び脳機能マッピング、並びに衛星からの画像及びデータの編集及び解析において用いられる。レジストレーションは、これらの異なる測定から取得されたデータを比較又は統合し、様々なコンピュータービジョン動作を実行することができるようにするために必要である。

画像レジストレーションアルゴリズム又は画像アライメント（image alignment：画像整列）アルゴリズムは、強度ベースのものと特徴ベースのものとに分類することができる。画像のうちの１つは、基準画像又はソース画像と呼ばれ、それ以外のものは、それぞれターゲット画像、検知画像又は被写体画像と呼ばれる。画像レジストレーションは、ターゲット画像（複数の場合もある）を空間的にレジスタリングして、基準画像とアラインすることを伴う。強度ベースの方法は、相関メトリックを介して画像内の強度パターンを比較する一方、特徴ベースの方法は、点、線、及び輪郭等の画像の特徴間の対応関係を見つける。強度ベースの方法は、画像全体又は部分画像をレジスタリングする。部分画像がレジスタリングされる場合、対応する部分画像の中心が、対応する特徴点として扱われる。特徴ベースの方法は、画像内の複数の特に明瞭な点の間の対応関係を確立する。画像内の複数の点の間の対応関係が判明すると、次に、ターゲット画像を基準画像にマッピングする幾何学的変換が求められ、それによって、基準画像とターゲット画像との間の点ごとの対応関係が確立される。

特徴ベースの画像レジストレーション方法の特徴記述子は、物体認識アプリケーション、３Ｄ再構成アプリケーション、画像検索アプリケーション、カメラローカライゼーションアプリケーション等を含む様々な画像アプリケーションにおいて用いられる。そのような特徴記述子は、画像情報の抽象化したものを計算するのに用いることができる。特徴記述子の広範な使用は、ガウス導関数、モーメント不変量、複雑な特徴、位相ベースの局所的特徴等の様々な概念に基づく多数の代替の記述子の開発を推進してきた。しかしながら、効率的な記述子は、低い計算複雑度、容易なマッチング特性、及び高いメモリ効率を有することが期待されている。現在の記述子は、一般に、これらの性質の全てを備えているとは限らない。

加えて、情報処理装置、例えばカメラにおいて捕捉された画像は、それらのサイズ、照明、障害物、回転等の様々な環境因子による影響を受ける場合があるので、画像内の物体をロバストに認識するには、非常に多くの困難が存在し得る。このため、物体の認識及び画像のレジスタリングには、スケール不変特徴変換（ＳＩＦＴ）、高速化ロバスト特徴（ＳＵＲＦ）、及びオリエンテッドＦＡＳＴ／ローテーティッドＢＲＩＥＦ（ＯＲＢ：Oriented FAST and Rotated BRIEF）等の従来の特徴点抽出方法が用いられてきた。

ＳＩＦＴは、監視カメラ又は自律的ナビゲーションシステム等の画像処理システムに適用することができる特徴点を抽出する方法である。ＳＩＦＴは、画像内の物体の特徴点から高次の記述子を導出する。また、ＳＵＲＦも、物体追跡システム又はパノラマ画像生成システム等の画像処理システムに適用することができる特徴点を抽出する方法である。ＳＵＲＦでは、物体は、入力画像からのピクセル値が合計される積分画像を生成し、この積分画像の各スケールに従って特徴点及び高次の記述子を導出することによって認識することができる。

ＳＩＦＴ及びＳＵＲＦの技法は、画像（又は物体）サイズ、照明、及び回転に起因した画像の変化に対してロバストであるという利点を有するが、それらのアルゴリズムを実施するには複雑な計算が必要とされ、特徴点の数が増加するにつれて計算速度が大幅に低下するという不利点を有する。また、計算能力が低いモバイル通信端末又は電力供給が限られているモバイル環境におけるリアルタイム処理にこれらの技法を用いることは困難である。

例えば、ＳＩＦＴ記述子は、非常に弁別的であるが、１２８ベクトルであるので、記述子の計算及びマッチングが比較的低速である。ＳＵＲＦ記述子は、記述子の計算及びマッチングがより高速である。しかしながら、ＳＵＲＦ記述子は、浮動小数点値の６４ベクトルであるので、２５６バイトによって表される。このサイズは、記憶される記述子の数が増加するにつれて、多くのコストを要することになる場合がある。次元削減技法、量子化ベースの技法、記述子２値化技法等を含むＳＩＦＴの幾つかの他の拡張も提案されている。しかしながら、これらの技法は、依然として多くの時間及び計算を必要とする。

したがって、バイナリー記述子が提案されている。例えば、ＯＲＢでは、物体を認識するために、特徴点がＦＡＳＴ方法又はＢＲＩＥＦ方法によって抽出され、バイナリー記述子が生成される。ＯＲＢ技法は、高次の記述子を用いるＳＩＦＴ及びＳＵＲＦと比較して、入力画像内の物体を認識する速度を高める。ピクセル比較を判断することは、一般的な勾配ベースの記述子において用いられる勾配演算よりも高速である。例えば、ＯＲＢは、キーポイントマッチングに関して性能について多くを失うことなく、ＳＩＦＴよりも２桁高速である。これについては、非特許文献１及び非特許文献２を参照されたい。しかしながら、ＯＲＢ等のバイナリー記述子を用いた画像レジストレーションの精度は、ＳＩＦＴ及びＳＵＲＦ等の他の方法の精度よりも低い。したがって、バイナリー記述子の計算効率を維持しつつ、バイナリー記述子を用いた画像レジストレーションの精度を改善する必要がある。加えて、異なる画像捕捉設定（異なるカメラ、視点、時刻等）であっても正確な性能を可能にするカスタマイズされた記述子パラメーターを開発する必要がある。

E. Rublee、V. Rabaud、K. Konolige、及びG. Bradski「ORB: An efficient alternative to sift or surf」（International Conference on Computer Vision (ICCV), 2011） D. G. Lowe「Distinctive image features from scale-invariant keypoints」（International Journal of Computer Vision (IJCV), vol. 60, no. 2, pp. 91-110, Nov. 2004）

コンピュータービジョンにバイナリー記述子が登場したことによって、異なる画像内のキーポイントをレジスタリングするより高速な解決策がもたらされた。バイナリー記述子は、従来の勾配ベースの記述子よりもほぼ２桁高速に求めることができるが、困難な状況では、マッチング精度が不十分であるという難点を有する。

本発明の幾つかの実施の形態は、バイナリー記述子をそれらの計算及びマッチングにおいて改良し、計算の速度を損なうことなくそれらの性能を高める方法及びシステムを提供する。全てのバイナリー記述子は、ペアワイズのピクセルが所与の画像パッチからサンプリングされる方法によってのみ変化するので、異なる実施の形態は、異なるバイナリー記述子を用いる。例えば、１つの実施の形態は、ＯＲＢ記述子に適用される。この実施の形態は、記述子計算を低速にすることなく、少数のパラメーターを学習することによってＯＲＢ記述子の性能を改善する幾つかの拡張を提供する。

本発明の幾つかの実施の形態は、バイナリー記述子の計算が、同じシーンの画像の様々な歪みを引き起こす、画像を捕捉する方法及び／又はタイミングの影響を受けやすいであろうという認識に基づいている。例えば、異なる時刻に捕捉された異なる画像におけるピクセルの強度は、それらのピクセルがシーン内の同じ点に対応する場合であっても、それらの時刻における光の変動に起因して変化する可能性がある。そのために、幾つかの実施の形態は、そのような変動を学習することができ、バイナリー記述子の計算中に考慮することができることを実現している。

例えば、１つの実施の形態は、画像の少なくとも２つのピクセルの強度の差と非ゼロの閾値との比較を用いて、画像内のキーポイントのバイナリー記述子を求める。そのような非ゼロの閾値によって、シーンの異なる画像内の異なる歪みを補償することが可能になる。

幾つかの実施の形態は、画像の歪みが、シーンのキーポイントが異なれば異なる影響をピクセルに及ぼす可能性があるという別の認識に基づいている。例えば、マンハッタンワールド仮説（直交壁を有する建物）を満たすシーンでは、水平方向に沿ったピクセル差は、垂直方向に沿ったピクセル差よりも有用である。そのために、幾つかの実施の形態は、そのような差を学習することができ、バイナリー記述子の比較中に考慮することができることを実現している。

例えば、１つの実施の形態は、重み付き距離、例えば重み付きハミング距離を用いてバイナリー記述子を比較する。そのような比較は、バイナリーベクトルの異なる要素を比較する異なる重みを求めることを可能にする。これらの重みの差は、異なるピクセルの重要度の差を符号化することができる。

個別に又は組み合わせて、そのような閾値処理された重み付き差は、画像レジストレーションの効率を維持しつつ、バイナリー記述子を用いて画像レジストレーションの精度を改善する。例えば、１つの実施の形態は、マージン最大化ネットワーク学習を用いてトレーニングデータから重み付きハミング距離の重みを学習する。その学習中に、この実施の形態は、異なる閾値を用いてレジストレーションを改善することができる。加えて又は代替的に、幾つかの実施の形態は、１年の異なる季節における異なる日時に、異なる照明条件で、異なるタイプのシーンについて捕捉された画像の閾値及び／又は重み付き距離の重みの異なる値を求め、異なる値を用いて異なる画像をレジスタリングする。

したがって、本発明の１つの実施の形態は、画像レジストレーションの方法を開示する。該方法は、第１の画像内の第１のキーポイントの第１のバイナリー記述子を求めることであって、該第１のバイナリー記述子における少なくとも１つの要素は、前記第１の画像の少なくとも２つのピクセルの強度の差と閾値との比較の結果であり、前記閾値は０以上であることと、第２の画像内の第２のキーポイントの第２のバイナリー記述子を求めることであって、該第２のバイナリー記述子における少なくとも１つの要素は、前記第２の画像の少なくとも２つのピクセルの強度の差と前記閾値との比較の結果であることと、前記第１のバイナリー記述子と前記第２のバイナリー記述子との間の重み付き距離を求めることであって、前記第１のバイナリー記述子及び前記第２のバイナリー記述子の少なくとも２つの要素を比較する前記重み付き距離の少なくとも２つの重みは異なることと、前記重み付き距離が雑音閾値よりも小さいとき、前記第１のキーポイントを前記第２のキーポイントとレジスタリングすることとを含む。該方法の少なくとも幾つかのステップは、プロセッサを用いて実行される。

別の実施の形態は、画像レジストレーションのシステムを開示する。該システムは、第１の画像及び第２の画像を取得する入力インターフェースと、第１の画像内の第１のキーポイントの第１のバイナリー記述子を求め、第２の画像内の第２のキーポイントの第２のバイナリー記述子を求め、該第１のバイナリー記述子と該第２のバイナリー記述子との間の重み付きハミング距離を求め、該重み付きハミング距離が雑音閾値よりも小さいとき、前記第１のキーポイントを前記第２のキーポイントとレジスタリングするプロセッサであって、前記第１のバイナリー記述子又は前記第２のバイナリー記述子における少なくとも１つの要素は、前記第１の画像又は前記第２の画像の少なくとも２つのピクセルの強度の差と非ゼロの閾値との比較の結果であり、前記第１のバイナリー記述子又は前記第２のバイナリー記述子の少なくとも２つの要素を比較する前記重み付きハミング距離の少なくとも２つの重みは異なる、プロセッサと、前記画像レジストレーションに基づいてコンピュータービジョン動作を実行する出力インターフェースとを備える。

更に別の実施の形態は、方法を実行するプロセッサによって実行可能なプログラムを具現化する非一時的コンピューター可読記憶媒体であって、前記方法は、第１の画像内の第１のキーポイントの第１のバイナリー記述子を求めることであって、該第１のバイナリー記述子における少なくとも１つの要素は、前記第１の画像の少なくとも２つのピクセルの強度の差と閾値との比較の結果であり、前記閾値は０以上であることと、第２の画像内の第２のキーポイントの第２のバイナリー記述子を求めることであって、該第２のバイナリー記述子における少なくとも１つの要素は、前記第２の画像の少なくとも２つのピクセルの強度の差と前記閾値との比較の結果であることと、前記第１のバイナリー記述子と前記第２のバイナリー記述子との間の重み付きハミング距離を求めることであって、前記第１のバイナリー記述子及び前記第２のバイナリー記述子の少なくとも２つの要素を比較する前記重み付きハミング距離の少なくとも２つの重みは異なることと、前記重み付きハミング距離が雑音閾値よりも小さいとき、前記第１のキーポイントを前記第２のキーポイントとレジスタリングすることとを含む、非一時的コンピューター可読記憶媒体を開示する。

本発明の幾つかの実施形態による画像レジストレーションのコンピューターシステムのブロック図である。図１のシステムによって実行される画像レジストレーション方法のブロック図である。本発明の幾つかの実施形態による、画像パッチを表すバイナリー記述子を生成するように適合されたシステムのブロック図である。本発明の幾つかの実施形態による画像パッチの分解の概略図である。本発明の１つの実施形態による、バイナリー記述子を作成する重み付き距離の重みと閾値とを求める方法のブロック図である。ＬＩＤＡＲと強度画像センサーとの融合についての本発明の１つの実施形態によるシステムの概略図である。日中画像及び夜間画像のレジストレーションの本発明の１つの実施形態によるシステムの概略図である。本発明の幾つかの実施形態による、画像をレジスタリングし、レジストレーションの結果に基づいてコンピュータービジョン動作を実行するように構成された一例示的なシステムのブロック図である。

図１は、本発明の幾つかの実施形態による画像レジストレーションのコンピューターシステム１００のブロック図を示している。異なる実施形態では、システム１００は、以下で説明する幾つかの構成要素の異なる組み合わせを有することができ、及び／又はシステム１００の補助サービスを実行する他のシステムに作動的に接続することができる。

コンピューターシステム１００は、記憶された命令を実行するように構成されたプロセッサ１０２と、このプロセッサによって実行可能な命令を記憶するメモリ１０４とを備える。プロセッサ１０２は、シングルコアプロセッサ、マルチコアプロセッサ、コンピューティングクラスター、又は任意の数の他の構成体とすることができる。メモリ１０４は、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、フラッシュメモリ、又は他の任意の適したメモリシステムを含むことができる。プロセッサ１０２は、バス１０６を通じて１つ又は複数の入力デバイス及び出力デバイスに接続されている。メモリに記憶された命令は、プロセッサが幾つかの実施形態による画像レジストレーションの方法を実施するのに用いることができる。

コンピューターシステム１００は、原画像１１０を記憶するように適合された記憶デバイス１０８と、この原画像をフィルタリングして、アップサンプリングに適した画像を生成するフィルター１１２とを備えることもできる。例えば、フィルターは、原画像をサイズ変更し、トレーニングデータの画像とアラインすることができる。記憶デバイス１０８は、レジストレーションの構造及びパラメーター１１４を記憶することもできる。様々な実施形態では、レジストレーションは、メモリ及び／又は記憶デバイスに記憶することができる種々の閾値及び／又は重みを用いる。

記憶デバイス１０８は、ハードドライブ、光学ドライブ、サムドライブ、ドライブのアレイ、又はそれらの任意の組み合わせを含むことができる。コンピューターシステム１００内のヒューマンマシンインターフェース１１６は、このシステムをキーボード１１８及びポインティングデバイス１２０に接続することができる。ポインティングデバイス１２０は、とりわけ、マウス、トラックボール、タッチパッド、ジョイスティック、ポインティングスティック、スタイラス、又はタッチスクリーンを含むことができる。コンピューターシステム１００は、システム１００をディスプレイデバイス１２４に接続するように適合されたディスプレイインターフェース１２２にバス１０６を通じてリンクすることができる。ディスプレイデバイス１２４は、とりわけ、コンピューターモニター、カメラ、テレビ、プロジェクター、又はモバイルデバイスを含むことができる。

コンピューターシステム１００は、システムを撮像デバイス１２８に接続するように適合された撮像インターフェース１２６にも接続することができる。１つの実施形態では、アップサンプリング用の画像は、撮像デバイスから受信される。撮像デバイス１２８は、カメラ、コンピューター、スキャナー、モバイルデバイス、ウェブカム、又はそれらの任意の組み合わせを含むことができる。１つの実施形態では、システム１００は、カメラの一部分である。プリンターインターフェース１３０も、バス１０６を通じてコンピューターシステム１００に接続することができ、コンピューターシステム１００を印刷デバイス１３２に接続するように適合させることができる。印刷デバイス１３２は、とりわけ、液体インクジェットプリンター、固体インクプリンター、大規模商用プリンター、サーマルプリンター、ＵＶプリンター、又は昇華型プリンターを含むことができる。ネットワークインターフェースコントローラー１３４は、コンピューターシステム１００をバス１０６を通じてネットワーク１３６に接続するように適合されている。ネットワーク１３６を通じて、電子テキスト及び撮像入力文書のうちの一方又は組み合わせを含む画像１３８を、記憶及び／又は更なる処理のためにダウンロードし、コンピューターの記憶システム１０８内に記憶することができる。

図２は、図１のシステム１００によって実行される画像レジストレーション１１４の方法のブロック図を示している。本方法は、第１の画像２０５における第１のキーポイントの第１のバイナリー記述子２１５を求め（２１０）、第２の画像２０９における第２のキーポイントの第２のバイナリー記述子２２５を求める（２２０）。様々な実施形態では、第１のバイナリー記述子又は第２のバイナリー記述子における少なくとも１つの要素は、第１の画像又は第２の画像の少なくとも２つのピクセルの強度間の差と非ゼロの閾値２０７との比較の結果である。すなわち、閾値２０７は０以上である。そのために、本方法は、第１のバイナリー記述子における少なくとも１つの要素が、第１の画像の少なくとも２つのピクセルの強度間の差と上記非ゼロの閾値との比較の結果であり、かつ、第２のバイナリー記述子における少なくとも１つの要素が、第２の画像の少なくとも２つのピクセルの強度間の差と上記閾値との比較の結果であるように、第１のバイナリー記述子及び第２のバイナリー記述子を求める。

本発明の幾つかの実施形態は、バイナリー記述子の計算が、同じシーンの画像の様々な歪みを引き起こす、画像を捕捉する方法及び／又はタイミングの影響を受けやすいであろうという認識に基づいている。例えば、異なる時刻に捕捉された異なる画像におけるピクセルの強度は、それらのピクセルがシーン内の同じ点に対応する場合であっても、それらの時刻における光の変動に起因して変化する可能性がある。そのために、幾つかの実施形態は、そのような変動を学習することができ、バイナリー記述子の計算中に考慮することができることを実現している。

例えば、１つの実施形態は、以下の式に従って第１のバイナリー記述子又は第２のバイナリー記述子の第ｉ要素ｂ_ｉを求める。

ここで、Ｉ（ｐ_ｉ）及びＩ（ｑ_ｉ）は、第１の画像又は第２の画像における２つのピクセルの強度であり、Ｔは閾値である。

図２の方法は、第１のバイナリー記述子２１５と第２のバイナリー記述子２２５との間の重み付き距離２３５を求める（２３０）。第１のバイナリー記述子及び第２のバイナリー記述子の少なくとも２つの要素を比較するこの重み付き距離の少なくとも２つの重み２５５は、画像の歪みが、シーンのキーポイントが異なれば異なる影響をピクセルに及ぼす可能性があるという別の認識に起因して異なる。例えば、マンハッタン仮説（Manhattan assumption）を満たすシーン（直交壁を有する建物からなる）では、水平方向に沿ったピクセル差は、垂直方向に沿ったピクセルよりも多くの情報を提供する。重み付き距離によって、バイナリーベクトルの異なる要素を比較する異なる重みを求めることが可能になる。重みの差は、異なるピクセル差の重要度の差を符号化することができる。

例えば、１つの実施形態は、重み付きハミング距離を用いてバイナリー記述子を比較する。本実施形態は、以下の式に従って重み付きハミング距離Ｈ_ｗを求める。

ここで、Ｎは、第１のバイナリー記述子及び第２のバイナリー記述子のサイズ、例えば２５６であり、ｗは、重みベクトルであり、この重みベクトルの各要素ｉは、第１のバイナリー記述子ｆ_１（ｉ）の第ｉ要素と第２のバイナリー記述子ｆ_２（ｉ）の第ｉ要素との間の重み付きハミング距離の重みを記憶する。

次に、本方法は、重み付き距離２３５が雑音閾値２５０よりも小さいとき、第１のキーポイントを第２のキーポイントとレジスタリングする（２４０）。この雑音閾値は、事前に求めておくことができる。個別に又は組み合わせて、そのような閾値処理された重み付き差は、画像レジストレーションの効率を維持しつつ、バイナリー記述子を用いて画像レジストレーションの精度を改善する。

本発明の幾つかの実施形態は、ＦＡＳＴ、ＳＵＲＦ、又はＨＡＲＲＩＳ等のキーポイント検出法のうちの少なくとも１つ又は組み合わせを用いて、第１の画像内の第１のキーポイントのセットと、第２の画像内の第２のキーポイントのセットとを選択し、これらの第１のセット及び第２のセットからのキーポイントのペアの様々な組み合わせを用いて画像レジストレーションを実行する。

例えば、第１のキーポイントを含む第１の画像の第１のパッチと、第２のキーポイントを含む第２の画像の第２のパッチとを選択する１つの実施形態は、第１のパッチ又は第２のパッチからの少なくとも幾つかのピクセルの強度を比較することによって第１のバイナリー記述子又は第２のバイナリー記述子を求める。

図３は、本発明の実施形態による、キーポイントに対応する画像パッチを表すバイナリー記述子を生成するように適合されたシステム３００のブロック図を示している。システム３００は、システム１００の一部分とすることもできるし、システム１００に作動的に接続することもできる。システム３００は、コンピューティングシステム３０４と通信する撮像デバイス３０２を備えることができる。コンピューティングシステム３０４は、ラップトップコンピューター、デスクトップコンピューター、タブレットコンピューター、モバイルデバイス等の、本明細書において説明する実施形態を実施することが可能な任意のタイプのコンピューティングデバイスとすることができる。撮像デバイス３０２は、画像３０８を捕捉し、そのような画像３０８をコンピューティングシステム３０４に送信することが可能な任意のタイプの撮像デバイスとすることができる。

図３に示す実施形態では、撮像デバイス３０２は、ネットワーク３０６を介してコンピューティングシステム３０４と通信する。一方、代替の実施形態では、撮像デバイス３０２は、撮像デバイスインターフェース（図示せず）を介してコンピューティングシステム３０４と通信することもできるし、コンピューティングシステム３０４内に直接存在することもできる。

コンピューティングシステム３０４は、中央処理ユニット（ＣＰＵ）３１０及びメモリ３１２を備えることができる。メモリ３１２は、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、ハードディスクドライブ、リムーバブルディスク、固体メモリ等の任意のタイプのアドレス指定可能電子記憶装置とすることができる。

メモリ３１２は、画像パッチジェネレーター３１４と、バイナリー記述子ジェネレーター３１６と、撮像デバイス３０２から受信された画像３０８とを含むことができる。画像パッチジェネレーター３１４は、画像３０８の複数の画像パッチを生成するように適合することができる。各画像パッチは、画像３０８内で識別される特定のキーポイントを中心とすることができる。バイナリー記述子ジェネレーター３１６は、各画像パッチを表すバイナリー記述子を生成するように適合することができる。バイナリー記述子は、画像パッチ内の特定のピクセル群について作成されたバイナリー列又はビット列を用いて生成することができる。

図４は、本発明の実施形態による画像４００内の画像パッチ４０１の分解の概略図を示している。各パッチの中心は、検出されたキーポイント４０２に対応する。キーポイントの近くのピクセル４０３及び４０４の多くのペアが検討される。ピクセル４０３と４０４との間の差を見つけ、この差を学習された閾値と比較することによって、バイナリー特徴ベクトルが取得される。この特徴ベクトルは、任意の数のピクセル比較、例えば、２５６個のそのようなペアの比較を有することができる。

個別に又は組み合わせて、そのような閾値処理された重み付き差は、画像レジストレーションの効率を維持しつつ、バイナリー記述子を用いて画像レジストレーションの精度を改善する。例えば、１つの実施形態は、マージン最大化ネットワーク学習を用いてトレーニングデータから重み付きハミング距離の重みを学習する。その学習中に、本実施形態は、異なる閾値を用いてレジストレーションを改善することができる。

図５は、本発明の１つの実施形態による重みを求める方法のブロック図を示している。重みを学習するために、１つの実施形態は、トレーニングデータを生成する。画像取得システムは、或る変動を受けた同じシーンの画像を取得する（５０１）。本方法は、第１の画像５０２からキーポイント及びバイナリー記述子を抽出し（５０４）、第２の画像５０３からキーポイント及び記述子を抽出する（５０５）。第１の画像内のキーポイントと第２の画像内のキーポイントとの間の対応関係が、手動入力を用いて又は或る正確なマッチングアルゴリズムを通じて求められる（５０６）。これは、計算効率が良好である必要はない。トレーニングデータ５０７は、幾つかの良好なキーポイントマッチ及び良好でないキーポイントマッチを用いて生成される。

１つの実施形態は、マージン最大化ネットワーク学習アルゴリズム５０８を用いて重み及び閾値の双方を次のように計算する。すなわち、トレーニングデータＤ＝｛ｘ_ｉ，ｙ_ｉ｝，ｉ＝｛１，．．．，ｎ｝５０７が与えられると、幾つかの実施形態は、正しいマッチの重み付きハミング距離が、正しくないマッチの距離よりも小さくなるように、重み５０９を学習する（５０８）。ここで、ｘ_ｉ及びｙ_ｉは、ｎ個の正しいキーポイントマッチの２５６×１個のバイナリーベクトルである。

１つの実施形態は、以下のように、マージン最大化ネットワーク学習を用いて重みを学習する問題を定式化する。

ここで、ε_ｉは、スラック変数であり、Ｃは、マージン最大化ネットワーク学習におけるソフトマージンパラメーターであり、ｗは、学習された重みの集合であり、ｂは、バイアス項である。

例えば、重みを学習するために、１つの実施形態は、Ｈ_ｗ（ｘ_ｉ，ｙ_ｉ）の２つの負の場合をＨ_ｗ（ｘ_ｉ，ｙ_ｉ）のあらゆる正の場合に用いる。Ｈ_ｗ（ｘ_ｉ，ｙ_ｉ）の正の場合は、ソース記述子ｘ_ｉとターゲット記述子ｙ_ｉとの間の正しいマッチである。これは、グラウンドトゥルースデータから与えられる。学習に用いられる２つの負の場合は、ソース記述子まで最小のハミング距離を有するターゲット記述子、及びソース記述子まで２番目に最小のハミング距離を有するターゲット記述子である。ここで、ｊ≠ｉである。１つの実施形態は、同じマージン最大化ネットワーク学習を用いて閾値５１０を学習する（５０８）。

閾値学習の最適化問題は、次のように定式化することができる。幾つかのトレーニングデータＤ＝｛ｄ_ｉ１，ｄ_ｉ２｝，ｉ＝｛１，．．．，ｎ｝が与えられると、閾値Ｔ∈Ｒを学習する。ここで、ｄ_ｉ１及びｄ_ｉ２は、２つの異なるマッチングキーポイントにおけるバイナリー記述子を求めるのに用いられる２５６個のピクセルペアの強度値を記憶する２５６×２行列を指す。この学習問題は、以下のように定式化することができる。

閾値Ｔは整数値しか取らない。なぜならば、誤差は、中間にあるいずれの実数値に対しても変化しないからである。１つの実施形態は、種々の閾値について力まかせ探索を実行する。

重み及び閾値の組み合わせ学習（Combined Weight and Threshold Learning）
マージン最大化ネットワーク学習アルゴリズム５０８は、重み５０９及び閾値５１０の双方を同時に推定するのに用いることもできる。重み及び閾値の学習の双方を組み合わせるために、幾つかの実施形態は、最適化を次のように定式化する。トレーニングデータＤ＝｛ｄ_ｉ１，ｄ_ｉ２｝，ｉ＝｛１，．．．，ｎ｝が与えられると、重みベクトルｗ∈Ｒ^２５６及び閾値Ｔ∈Ｒを学習する。ここで、ｄ_ｉ１及びｄ_ｉ２は、２つの異なるマッチングキーポイントにおけるバイナリー記述子を作成するのに用いられる２５６個のピクセルペアの強度値を記憶する２５６×２行列を指す。

例えば、この学習問題は、以下のものとすることができる。

上記問題は非凸であり、これは、大域的最適解を取得することを困難にする。そのために、１つの実施形態は、マージン最大化ネットワーク学習中に異なる整数値を列挙することによって閾値を学習する。例えば、この実施形態が、閾値Ｔを異なる整数値に固定すると、この最適化問題は、上記で説明した重み学習方法と同様に凸になる。閾値が整数であるという性質を利用すると、この問題は、力まかせ探索を介して学習することができる。

本発明の幾つかの実施形態は、画像レジストレーションを用いて、コンピュータービジョン動作を実行する。例えば、コンピュータービジョン動作は、ビジュアルオドメトリー、３Ｄ再構成、物体検出、物体認識、センサー融合、及び画像ベースのローカライゼーションのうちの１つ又は組み合わせを含む。

例示の実施形態
図６は、本発明の１つの実施形態によるシステムの概略図を示している。本システムは、シーンを測定してシーンの第１の測定値のセット６０３を生成する第１のセンサー６０１と、シーンを測定してシーンの第２の測定値のセット６０４を生成する第２のセンサー６０２とを備える。例えば、第１のセンサー６０１はＬＩＤＡＲであり、第２のセンサー６０２はカメラである。本システムは、ＬＩＤＡＲ画像からキーポイント及び記述子を抽出する（６０５）。同様に、本システムは、強度画像からキーポイント及び記述子を抽出する（６０６）。本システムは、重み付きハミング距離を用いて、ＬＩＤＡＲ画像と強度画像とをマッチングする（６０７）。これらのマッチを用いて、本システムは、センサー融合６０８を取得することができる。

図６Ｂは、本発明の別の実施形態によるシステムの概略図を示している。本システムは、日中の画像６２１及び夜間の画像６２２を取得する。本システムは、日中の画像からキーポイント及び記述子を抽出し（６２３）、夜間の画像からキーポイント及び記述子を抽出する（６２４）。本システムは、重み付きハミング距離を用いて、キーポイント間のマッチを計算し（６２５）、日中と夜間とのレジストレーション６２６を取得する。

そのために、様々な実施形態は、日中の画像及び夜間の画像のレジストレーション、ＬＩＤＡＲ画像及び強度画像のレジストレーション等の異なるシナリオの異なる重み及び閾値を学習することもできる。例えば、１つの実施形態は、異なる時点においてカメラを用いて捕捉された第１の画像及び第２の画像を取得し、プロセッサと作動的に接続されたメモリから、それらの時点の関数に基づいて、閾値、雑音閾値、及び重み付きハミング距離の重みのうちの少なくとも１つを選択する。例えば、メモリは、１年の異なる季節における異なる日時に、異なる照明条件で、異なるタイプのシーンについて捕捉された画像の閾値、雑音閾値、及び重み付きハミング距離の重みのうちの少なくとも１つの異なる値を記憶する。

図７は、本発明の幾つかの実施形態による、画像をレジスタリングし、レジストレーションの結果に基づいてコンピュータービジョン動作を実行するように構成された一例示的なシステム７００のブロック図を示している。システム７００は、システム１００の内部に実装することができる。加えて又は代替的に、システム７００は、システム１００のインターフェースに通信接続することができる。

システム７００は、カメラ７１０、慣性測定ユニット（ＩＭＵ）７３０、プロセッサ７５０、メモリ７６０、送受信機７７０、及びディスプレイ／スクリーン７８０のうちの１つ又は組み合わせを備えることができる。これらは、接続７２０を通じて他の構成要素に作動的に結合することができる。接続７２０は、バス、ライン、ファイバー、リンク又はそれらの組み合わせを含むことができる。

送受信機７７０は、例えば、１つ又は複数のタイプの無線通信ネットワークを通じて１つ又は複数の信号を送信することを可能にする送信機と、１つ又は複数のタイプの無線通信ネットワークを通じて送信された１つ又は複数の信号を受信する受信機とを備えることができる。送受信機７７０は、様々な技術に基づいて無線ネットワークとの通信を可能にすることができる。これらの技術は、標準規格のＩＥＥＥ８０２．１１ファミリーに基づくことができるフェムトセル、Ｗｉ−Ｆｉネットワーク又は無線ローカルエリアネットワーク（ＷＬＡＮ）、標準規格のＩＥＥＥ８０２．１５ｘファミリーに基づくＢｌｕｅｔｏｏｔｈ（登録商標）、近距離場通信（ＮＦＣ）、ネットワーク等の無線パーソナルエリアネットワーク（ＷＰＡＮ）、及び／又はＬＴＥ、ＷｉＭＡＸ等の無線ワイドエリアネットワーク（ＷＷＡＮ）等であるが、これらに限定されるものではない。システム４００は、有線ネットワークを通じて通信する１つ又は複数のポートを備えることもできる。

幾つかの実施形態では、システム７００は、ＣＣＤセンサー若しくはＣＭＯＳセンサー、レーザー及び／又はカメラ等の画像センサー７１０を備えることができる。この画像センサーは、以下では「センサー７１０」と呼ばれる。例えば、センサー７１０は、光画像を電子画像又はデジタル画像に変換することができ、取得された画像をプロセッサ７５０に送信することができる。加えて又は代替的に、センサー７１０は、シーン内のターゲット物体から反射された光を検知し、捕捉された光の強度をプロセッサ７５０にサブミットすることができる。

例えば、センサー７１０は、「カラー情報」を提供するカラーカメラ又はグレースケールカメラを含むことができる。「カラー情報」という用語は、本明細書において用いられるとき、カラー情報及び／又はグレースケール情報を指す。一般に、カラー画像又はカラー情報は、本明細書において用いられるとき、１〜Ｎ個のチャネルを含むものとみなすことができる。ここで、Ｎは、画像を記憶するのに用いられている色空間に依存する或る整数である。例えば、ＲＧＢ画像は、３つのチャネルを含み、赤情報、青情報及び緑情報についてそれぞれ１つのチャネルを有する。

例えば、センサー７１０は、「奥行き情報」を提供する奥行きセンサーを含むことができる。奥行き情報は、奥行きセンサーを用いて様々な方法で取得することができる。「奥行きセンサー」という用語は、奥行き情報を単独で及び／又は他の幾つかのカメラと併せて取得するのに用いることができる機能ユニットを指すのに用いられる。例えば、幾つかの実施形態では、奥行きセンサー及び光学カメラは、センサー７１０の一部分とすることができる。例えば、幾つかの実施形態では、センサー７１０はＲＧＢＤカメラを備える。このＲＧＢＤカメラは、カラー（ＲＧＢ）画像に加えて、奥行きセンサーが有効にされているときはピクセルごとの奥行き（Ｄ）情報を捕捉することができる。

別の例として、幾つかの実施形態では、センサー７１０は、３Ｄ飛行時間（３ＤＴＯＦ）カメラを備えることができる。３ＤＴＯＦカメラを用いた実施形態では、奥行きセンサーは、３ＤＴＯＦカメラに結合されたストロボライトの形態を取ることができる。このストロボライトは、シーン内の物体を照明することができ、反射された光は、センサー７１０内のＣＣＤ／ＣＭＯＳセンサーが捕捉することができる。奥行き情報は、光パルスが物体に進んでセンサーに戻って来るまでに要する時間を測定することによって取得することができる。

更なる例として、奥行きセンサーは、センサー７１０に結合された光源の形態を取ることができる。１つの実施形態では、この光源は、１つ又は複数の狭い光の帯を含むことができる構造化された光パターン又はテクスチャー付けされた光パターンをシーン内の物体に投射する。奥行き情報は、物体の表面形状によって引き起こされる投射パターンの幾何学的歪みを利用することによって取得される。１つの実施形態は、赤外線構造化光プロジェクターと、ＲＧＢカメラにレジスタリングされた赤外線カメラとの組み合わせ等のステレオセンサーから奥行き情報を求める。

幾つかの実施形態では、センサー７１０は立体カメラを備える。例えば、奥行きセンサーは、２つ以上のカメラを用いてシーンの奥行き情報を取得することができる受動ステレオビジョンセンサーの一部分を成すことができる。捕捉されたシーンにおける双方のカメラに共通の点のピクセル座標を、カメラ姿勢情報及び／又は三角測量技法とともに用いて、ピクセルごとの奥行き情報を取得することができる。

幾つかの実施形態では、システム７００は、デュアルフロントカメラ及び／又は前面カメラ及び背面カメラ等の複数のセンサー７１０に作動的に接続することができ、これらの複数のセンサーは、様々なセンサーを組み込むこともできる。幾つかの実施形態では、センサー７１０は、静止画像及びビデオ画像の双方を捕捉することができる。幾つかの実施形態では、センサー７１０は、例えば、３０フレーム毎秒（ｆｐｓ）で画像を捕捉することが可能なＲＧＢＤ又は立体ビデオカメラを備えることができる。１つの実施形態では、センサー７１０によって捕捉された画像は、生の未圧縮フォーマットとすることができ、処理及び／又はメモリ７６０への記憶の前に圧縮することができる。幾つかの実施形態では、画像圧縮は、プロセッサ７５０によって可逆圧縮技法又は非可逆圧縮技法を用いて実行することができる。

幾つかの実施形態では、プロセッサ７５０は、ＩＭＵ７３０から入力を受信することもできる。他の実施形態では、ＩＭＵ７３０は、３軸加速度計（複数の場合もある）、３軸ジャイロスコープ（複数の場合もある）、及び／又は磁気計（複数の場合もある）を備えることができる。ＩＭＵ７３０は、速度、方位、及び／又は他の位置関連情報をプロセッサ７５０に提供することができる。幾つかの実施形態では、ＩＭＵ７３０は、測定された情報を、センサー７１０による各画像フレームの捕捉と同期して出力することができる。幾つかの実施形態では、ＩＭＵ７３０の出力は、プロセッサ７５０がセンサー測定値を融合し及び／又は融合された測定値を更に処理するのに部分的に用いられる。

また、システム７００は、カラー画像及び／又は奥行き画像等の画像をレンダリングするスクリーン又はディスプレイ７８０を備えることができる。幾つかの実施形態では、ディスプレイ７８０は、センサー７１０によって捕捉されたライブ画像、融合画像、拡張現実（ＡＲ）画像、グラフィカルユーザーインターフェース（ＧＵＩ）、及び他の番組（program：プログラム）出力を表示するのに用いることができる。幾つかの実施形態では、ディスプレイ７８０は、ユーザーが、仮想キーボード、アイコン、メニュー、又は他のＧＵＩ、ユーザージェスチャー及び／又はスタイラス及び他の筆記用具等の入力デバイスの或る組み合わせを介してデータを入力することを可能にするタッチスクリーンを備えることができ及び／又はこのようなタッチスクリーンとともに収容することができる。幾つかの実施形態では、ディスプレイ７８０は、液晶ディスプレイ（ＬＣＤ）ディスプレイ又は有機ＬＥＤ（ＯＬＥＤ）ディスプレイ等の発光ダイオード（ＬＥＤ）ディスプレイを用いて実施することができる。他の実施形態では、ディスプレイ７８０は、ウェアラブルディスプレイとすることができる。

幾つかの実施形態では、融合の結果をディスプレイ７８０にレンダリングすることもできるし、システム７００の内部又は外部に存在することができる異なるアプリケーションにサブミットすることもできる。例えば、プロセッサ７５０上で動作するコンピュータービジョン（ＣＶ）アプリケーション７５５は、コンピュータービジョンベースの追跡方法、モデルベースの追跡方法、及び／又は同時ローカライゼーション／マッピング（ＳＬＡＭ）方法を実施及び実行することができる。

例示的なシステム７００は、図示した機能ブロックのうちの１つ又は複数の追加、組み合わせ、又は省略等によって、本開示と整合性を有するように様々な方法で変更することもできる。例えば、幾つかの構成では、システム７００は、ＩＭＵ７３０又は送受信機７７０を備えていない。さらに、幾つかの特定の例示の実施態様では、システム７００は、周辺光センサー、マイクロフォン、音響センサー、超音波センサー、レーザーレンジファインダー等の様々な他のセンサー（図示せず）を備える。幾つかの実施形態では、システム７００の幾つかの部分は、１つ又は複数のチップセット等の形態を取る。

プロセッサ７５０は、ハードウェア、ファームウェア、及びソフトウェアの組み合わせを用いて実施することができる。メモリ７６０は、プロセッサ７５０内及び／又はプロセッサ７５０の外部に実装することができる。幾つかの実施形態では、メモリ７６０は、センサー融合及び／又は１つ若しくは複数の画像処理を容易にし、プロセッサ７５０上のＣＶ７５５によって実行されるＳＬＡＭ、追跡、３Ｄ再構成、及び他のタスクを実行するプログラムコードを保持する。

幾つかの実施形態では、ＣＶ７５５は、様々なコンピュータービジョン方法を実施し及び／又はセンサー７１０によって捕捉された画像を処理することができる。例えば、ＣＶ７５５は、センサー７１０によって捕捉された１つ又は複数の画像を処理して、これらの捕捉された画像に関連付けられた奥行き情報を用いてモデル化されている環境の再構成を実行するように構成することができる。

奥行きデータに基づいて、再構成中、各ピクセルに３Ｄ座標を割り当てることができる。１つの実施形態では、プロセッサ７５０上のＣＶ７５５は、単眼（単一カメラ）視覚ＳＬＡＭシステムを用いて、カメラ７１０の正確でロバストな６ＤＯＦ追跡のためのＭＳ周辺の環境の粗いマップを作成することによってカメラ７１０の位置を追跡する。単眼という用語は、単一の非立体カメラを用いて画像を捕捉すること又は奥行き情報を伴わずに捕捉された画像を指す。その場合、他の再構成方法は、カメラ姿勢及びピクセルごとの奥行き情報を用いて、捕捉された画像（複数の場合もある）を視認方向に沿って押し出すことができる。例えば、１つの実施形態では、プロセッサ７５０は、融合された測定値のセットを用いてシーン内の物体を追跡するように構成されている。

本発明の上記で説明した実施形態は、多数の方法のうちの任意のもので実施することができる。例えば、実施形態は、ハードウェア、ソフトウェア又はそれらの組合せを用いて実施することができる。ソフトウェアで実施される場合、ソフトウェアコードは、単一のコンピューターに設けられるのか又は複数のコンピューター間に分散されるのかにかかわらず、任意の適したプロセッサ又はプロセッサの集合体において実行することができる。そのようなプロセッサは、１つ又は複数のプロセッサを集積回路部品に有する集積回路として実装することができる。ただし、プロセッサは、任意の適したフォーマットの回路類を用いて実装することができる。

また、本発明の実施形態は、例が提供された方法として実施することができる。この方法の一部として実行される動作は、任意の適切な方法で順序付けすることができる。したがって、動作が示したものと異なる順序で実行される実施形態を構築することができ、これには、例示の実施形態では一連の動作として示されたにもかかわらず、幾つかの動作を同時に実行することを含めることもできる。

請求項の要素を修飾する、特許請求の範囲における「第１」、「第２」等の序数の使用は、それ自体で、１つの請求項の要素の別の請求項の要素に対する優先順位も、優位性も、順序も暗示するものでもなければ、方法の動作が実行される時間的な順序も暗示するものでもなく、請求項の要素を区別するために、単に、或る特定の名称を有する１つの請求項の要素を、同じ（序数の用語の使用を除く）名称を有する別の要素と区別するラベルとして用いられているにすぎない。

Claims

画像レジストレーションの方法であって、
第１の画像内の第１のキーポイントの第１のバイナリー記述子を求めることであって、前記第１のバイナリー記述子における少なくとも１つの要素は、前記第１の画像の少なくとも２つのピクセルの強度の差と閾値との比較の結果であることと、
第２の画像内の第２のキーポイントの第２のバイナリー記述子を求めることであって、前記第２のバイナリー記述子における少なくとも１つの要素は、前記第２の画像の少なくとも２つのピクセルの強度の差と前記閾値との比較の結果であることと、
前記第１のバイナリー記述子と前記第２のバイナリー記述子との間の重み付き距離を求めることであって、前記第１のバイナリー記述子及び前記第２のバイナリー記述子の少なくとも２つの要素を比較する前記重み付き距離の少なくとも２つの重みはメモリに記憶された異なる値であることと、
前記重み付き距離が雑音閾値よりも小さいとき、前記第１のキーポイントを前記第２のキーポイントとレジスタリングすることと、
前記画像レジストレーションに基づいてコンピュータービジョン動作を実行すること、
を含み、
前記コンピュータービジョン動作は、ビジュアルオドメトリー、３Ｄ再構成、物体検出、物体認識、センサー融合、及び画像ベースのローカライゼーションのうちの１つ又は組み合わせを含み、
前記方法の少なくとも幾つかのステップは、プロセッサを用いて実行され、
方法。
ＨＡＲＲＩＳキーポイント検出法、ＦＡＳＴキーポイント検出法、又はＳＵＲＦキーポイント検出法のうちの少なくとも１つ又は組み合わせを用いて、前記第１の画像内の第１のキーポイントのセットと、前記第２の画像内の第２のキーポイントのセットとを選択することと、
前記第１のセット及び前記第２のセットからのキーポイントのペアの各組み合わせについて前記求めるステップを繰り返して、前記雑音閾値よりも小さな前記重み付き距離を有する前記キーポイントのペアをレジスタリングすることと、
を更に含む、請求項１に記載の方法。
前記第１のキーポイントを含む前記第１の画像の第１のパッチを選択することと、
前記第２のキーポイントを含む前記第２の画像の第２のパッチを選択することと、
前記第１のパッチからの少なくとも幾つかのピクセルの強度を比較することによって前記第１のバイナリー記述子を求めることと、
前記第２のパッチからの少なくとも幾つかのピクセルの強度を比較することによって前記第２のバイナリー記述子を求めることと、
を更に含む、請求項２に記載の方法。
前記重み付き距離は、以下の式に従って求められる重み付きハミング距離Ｈ_ｗであり、

ここで、Ｎは、前記第１のバイナリー記述子及び前記第２のバイナリー記述子のサイズであり、ｗは、重みベクトルであり、前記重みベクトルの各要素ｉは、前記第１のバイナリー記述子ｆ_１（ｉ）の第ｉ要素と前記第２のバイナリー記述子ｆ_２（ｉ）の第ｉ要素との間の前記重み付きハミング距離の重みを記憶する、
請求項１に記載の方法。
Ｎは２５６に等しく、前記閾値は０よりも大きい、
請求項４に記載の方法。
前記第１のバイナリー記述子又は前記第２のバイナリー記述子の第ｉ要素ｂ_ｉは、以下の式に従って求められ、

ここで、Ｉ（ｐ_ｉ）及びＩ（ｑ_ｉ）は、前記第１の画像又は前記第２の画像における前記２つのピクセルの前記強度であり、Ｔは前記閾値である、
請求項１に記載の方法。
異なる時点においてカメラを用いて捕捉された前記第１の画像及び前記第２の画像を取得することと、
前記プロセッサと作動的に接続されたメモリから、前記時点の関数に基づいて、前記閾値、前記雑音閾値、及び重み付きハミング距離の重みのうちの少なくとも１つを選択することと、
を更に含む、請求項１に記載の方法。
前記メモリは、１年の異なる季節における異なる日時に、異なる照明条件で、異なるタイプのシーンについて捕捉された画像の前記閾値、前記雑音閾値、及び前記重み付きハミング距離の前記重みのうちの少なくとも１つの異なる値を記憶する、
請求項７に記載の方法。
重み付きハミング距離の重みは、マージン最大化ネットワーク学習を用いてトレーニングデータから学習される、
請求項１に記載の方法。
前記閾値は、前記マージン最大化ネットワーク学習中に異なる整数値を列挙することによって学習される、
請求項９に記載の方法。
画像レジストレーションのシステムであって、
第１の画像及び第２の画像を取得する入力インターフェースと、
第１の画像内の第１のキーポイントの第１のバイナリー記述子を求め、第２の画像内の第２のキーポイントの第２のバイナリー記述子を求め、前記第１のバイナリー記述子と前記第２のバイナリー記述子との間の重み付きハミング距離を求め、前記重み付きハミング距離が雑音閾値よりも小さいとき、前記第１のキーポイントを前記第２のキーポイントとレジスタリングするプロセッサであって、前記第１のバイナリー記述子又は前記第２のバイナリー記述子における少なくとも１つの要素は、前記第１の画像又は前記第２の画像の少なくとも２つのピクセルの強度の差と非ゼロの閾値との比較の結果であり、前記第１のバイナリー記述子又は前記第２のバイナリー記述子の少なくとも２つの要素を比較する前記重み付きハミング距離の少なくとも２つの重みはメモリに記憶された異なる値である、プロセッサと、
前記画像レジストレーションに基づいてコンピュータービジョン動作を実行する出力インターフェースと、
を備え、
前記コンピュータービジョン動作は、ビジュアルオドメトリー、３Ｄ再構成、物体検出、物体認識、センサー融合、及び画像ベースのローカライゼーションのうちの１つ又は組み合わせを含む
システム。
請求項１１に記載のシステムを備えるカメラ。
１年の異なる季節における異なる日時に、異なる照明条件で、異なるタイプのシーンについて捕捉された画像の前記閾値、前記雑音閾値、及び前記重み付きハミング距離の前記重みのうちの少なくとも１つの異なる値を記憶するメモリ、
を更に含む、請求項１１に記載のシステム。
前記プロセッサは、
前記第１の画像及び前記第２の画像を捕捉する時点を決定し、
前記メモリから、前記時点の関数に基づいて、前記閾値、前記雑音閾値、及び前記重み付きハミング距離の前記重みのうちの少なくとも１つを選択する、
ように構成されている、請求項１３に記載のシステム。
前記重み付きハミング距離Ｈ_ｗは、以下の式に従って求められ、

ここで、Ｎは、前記第１のバイナリー記述子及び前記第２のバイナリー記述子のサイズであり、ｗは、重みベクトルであり、前記重みベクトルの各要素ｉは、前記第１のバイナリー記述子ｆ_１（ｉ）の第ｉ要素と前記第２のバイナリー記述子ｆ_２（ｉ）の第ｉ要素との間の前記重み付きハミング距離の重みを記憶する、
請求項１１に記載のシステム。
Ｎは２５６に等しい、
請求項１５に記載のシステム。
前記第１のバイナリー記述子又は前記第２のバイナリー記述子の第ｉ要素ｂ_ｉは、以下の式に従って求められ、

ここで、Ｉ（ｐ_ｉ）及びＩ（ｑ_ｉ）は、前記第１の画像又は前記第２の画像における前記２つのピクセルの前記強度であり、Ｔは前記閾値である、
請求項１１に記載のシステム。
方法を実行するプロセッサによって実行可能なプログラムを具現化する非一時的コンピューター可読記憶媒体であって、
前記方法は、
第１の画像内の第１のキーポイントの第１のバイナリー記述子を求めることであって、前記第１のバイナリー記述子における少なくとも１つの要素は、前記第１の画像の少なくとも２つのピクセルの強度の差と閾値との比較の結果であることと、
第２の画像内の第２のキーポイントの第２のバイナリー記述子を求めることであって、前記第２のバイナリー記述子における少なくとも１つの要素は、前記第２の画像の少なくとも２つのピクセルの強度の差と前記閾値との比較の結果であることと、
前記第１のバイナリー記述子と前記第２のバイナリー記述子との間の重み付きハミング距離を求めることであって、前記第１のバイナリー記述子及び前記第２のバイナリー記述子の少なくとも２つの要素を比較する前記重み付きハミング距離の少なくとも２つの重みはメモリに記憶された異なる値であることと、
前記重み付きハミング距離が雑音閾値よりも小さいとき、前記第１のキーポイントを前記第２のキーポイントとレジスタリングすることと、
前記画像レジストレーションに基づいてコンピュータービジョン動作を実行すること、
を含み、
前記コンピュータービジョン動作は、ビジュアルオドメトリー、３Ｄ再構成、物体検出、物体認識、センサー融合、及び画像ベースのローカライゼーションのうちの１つ又は組み合わせを含む
非一時的コンピューター可読記憶媒体。