JP2023520625A

JP2023520625A - 画像特徴マッチング方法及び関連装置、機器並びに記憶媒体

Info

Publication number: JP2023520625A
Application number: JP2022550968A
Authority: JP
Inventors: シアオウェイジョウ; フージュンバオ; ジアミンスン; ゾーホンシェン; ユーアンワン
Original assignee: チョーチアンセンスタイムテクノロジーデベロップメントカンパニー，リミテッド
Priority date: 2021-03-05
Filing date: 2021-06-24
Publication date: 2023-05-18
Also published as: CN112990228A; US20220392201A1; CN112990228B; WO2022183638A1

Abstract

本願は、画像特徴マッチング方法及び関連装置、機器並びに記憶媒体を提供する。該画像特徴マッチング方法は、少なくとも２つのマッチング待ち画像を取得することと、各マッチング待ち画像に対してそれぞれ特徴抽出を行い、各マッチング待ち画像の特徴表現を得ることであって、ここで、特徴表現は、若干の第１ローカル特徴を含む、ことと、第１ローカル特徴を、マッチング待ち画像のグローバル受容野を有する第１変換特徴に変換することと、少なくとも２つのマッチング待ち画像における第１変換特徴に対してマッチングを行い、少なくとも２つのマッチング待ち画像の第１マッチング結果を得ることと、を含む。上記方案では、特徴マッチングプロセスにおいて、マッチング待ち画像のグローバル情報を考慮することができ、それによりマッチングの正確度を向上させる。

Description

（関連出願の相互参照）
本願は、２０２１年０３月０５日に中国特許局で提出された、出願番号が２０２１１０２４７１８１．８であり、発明名称が「画像特徴マッチング方法及び関連装置、機器並びに記憶媒体」である中国特許出願に基づく優先権を主張し、該出願が参照として本願に組み込まれる。

本願は、画像処理技術分野に関し、特に画像特徴マッチング方法及び関連装置、機器並びに記憶媒体に関する。

画像マッチングは、コンピュータビジョンにおける基本的な課題であり、画像マッチングの正確度は、画像マッチング後の操作に影響を及ぼす。一般的な画像マッチング方式は、主に、以下の３つのステップを含む。ステップ１において、特徴検出を行い、即ち、画像にキーポイント（特徴点とも呼ばれる）が含まれるかどうかを判断する。ステップ２において、検出されたキーポイント及びキーポイントの記述子を抽出する。ステップ３において、抽出された特徴に基づいて特徴マッチングを行う。このような方式において、キーポイントの記述子をのみ利用して特徴マッチングを行う。該キーポイントの記述子がキーポイントの周囲のいくつかの画素点間の関係を表すためのものだけであり、即ち、キーポイントポイント周辺の局所情報を表すためのものであるため、画像のテクスチャなどに欠ける場合、記述子は、キーポイントの情報を好適に表すことができなく、最終的な特徴マッチングの失敗を引き起こす。

本願の実施例は少なくとも、画像特徴マッチング方法及び関連装置、機器並びに記憶媒体を提供する。

本願の実施例の第１態様によれば、画像特徴マッチング方法を提供する。前記方法は、少なくとも２つのマッチング待ち画像を取得することと、各マッチング待ち画像に対してそれぞれ特徴抽出を行い、各マッチング待ち画像の特徴表現を得ることであって、特徴表現は、若干の第１ローカル特徴を含む、ことと、第１ローカル特徴を、マッチング待ち画像のグローバル受容野を有する第１変換特徴に変換することと、少なくとも２つのマッチング待ち画像における第１変換特徴に対してマッチングを行い、少なくとも２つのマッチング待ち画像の第１マッチング結果を得ることと、を含む。

従って、マッチング待ち画像における、グローバル受容野を有する特徴を取得し、続いて、グローバル受容野を有する特徴を利用して、特徴マッチングを行うことで、特徴マッチングプロセスにおいて、マッチング待ち画像のグローバル情報を考慮することができ、それによりマッチングの正確度を向上させる。

ここで、特徴表現は、第１特徴マップと、第２特徴マップと、を含み、第１特徴マップの解像度は、第２特徴マップの解像度よりも小さく、第１特徴マップにおける特徴は、第１ローカル特徴であり、第２特徴マップにおける特徴は、第２ローカル特徴であり、少なくとも２つのマッチング待ち画像における第１変換特徴に対してマッチングを行い、少なくとも２つのマッチング待ち画像の第１マッチング結果を得た後、方法は、第１マッチング結果に基づいて、少なくとも２つのマッチング待ち画像の第２特徴マップから、マッチングブロックグループを抽出することであって、マッチングブロックグループは、少なくとも２つの特徴ブロックを含み、各特徴ブロックは、１つのマッチング待ち画像の第２特徴マップから抽出された複数の第２ローカル特徴を含む、ことと、マッチングブロックグループに対応する第２変換特徴に対してマッチングを行い、少なくとも２つのマッチング待ち画像の第２マッチング結果を得ることであって、第２変換特徴は、マッチングブロックグループにおける第２ローカル特徴であるか又はマッチングブロックグループにおける第２ローカル特徴に対して変換を行うことで得られたものである、ことと、を更に含む。

従って、まず、解像度が低い特徴マップにおける特徴マッチングを行い、更に、解像度が低い特徴マップのマッチング結果を利用して、解像度が高い特徴マップの特徴マッチングを行うことで、マッチングの正確度を更に向上させる。

ここで、マッチングブロックグループに対応する第２変換特徴に対してマッチングを行い、少なくとも２つのマッチング待ち画像の第２マッチング結果を得る前に、方法は、特徴ブロックにおける第２ローカル特徴を、特徴ブロックのグローバル受容野を有する第２変換特徴に変換することを更に含む。

従って、解像度が高い特徴マップの特徴を抽出し、特徴ブロックのグローバル受容野を有する特徴に変換し、更に、該特徴を利用して特徴マッチングを行うことで、解像度が高い特徴マッチングプロセスにおいて、特徴ブロックのグローバル情報を考慮することもでき、特徴マッチング結果をより正確にする。

ここで、第１ローカル特徴を、マッチング待ち画像のグローバル受容野を有する第１変換特徴に変換するか又は特徴ブロックにおける第２ローカル特徴を、特徴ブロックのグローバル受容野を有する第２変換特徴に変換することは、第１ローカル特徴を第１ターゲット特徴とし、第１変換特徴を第２ターゲット特徴とし、各マッチング待ち画像をターゲット範囲とするか又は第２ローカル特徴を第１ターゲット特徴とし、第２変換特徴を第２ターゲット特徴とし、各特徴ブロックをターゲット範囲とすることと、第１ターゲット特徴に対する集約処理を行い、第２ターゲット特徴を得ることと、を含み、第１ターゲット特徴に対する集約処理は、同一のターゲット範囲における第１ターゲット特徴に対する集約処理と、異なるターゲット範囲における第１ターゲット特徴に対する集約処理と、のうちの少なくとも１つを含む。

従って、同一のターゲット範囲におけるターゲット特徴に対して集約処理を行うことで、第２ターゲット特徴に、該ターゲット範囲のグローバル受容野を持たせることができ、及び／又は、異なるターゲット範囲における第１ターゲット特徴に対して集約処理を行うことで、得られた第２ターゲット特徴に、他のターゲット範囲のグローバル受容野を持たせることができる。

ここで、第１ターゲット特徴に対する集約処理を行い、第２ターゲット特徴を得ることは、それぞれ各ターゲット範囲を現在ターゲット範囲とし、現在ターゲット範囲に対して、現在ターゲット範囲における各第１ターゲット特徴を現在ターゲット特徴とすることと、現在ターゲット範囲における現在ターゲット特徴と他の第１ターゲット特徴に対して集約を行い、現在ターゲット特徴に対応する第３ターゲット特徴を得ることと、現在ターゲット範囲の第３ターゲット特徴と他のターゲット範囲の第３ターゲット特徴に対して集約を行い、現在ターゲット特徴に対応する第４ターゲット特徴を得ることと、のうちの少なくとも１つの特徴変換を実行することを含み、ここで、今回の特徴変換が最終回の特徴変換ではない場合、第４ターゲット特徴を次回の特徴変換における第１ターゲット特徴とし、今回の特徴変換が最終回の特徴変換である場合、第４ターゲット特徴を第２ターゲット特徴とする。

従って、現在ターゲット範囲の第１ターゲット特徴に対して集約を行い、第３ターゲット特徴を得、異なるターゲット範囲の第３ターゲット特徴を利用して集約を行うことで、最終的に得られた第２ターゲット特徴に、現在ターゲット範囲のグローバル情報を持たせることができるだけでなく、他のターゲット範囲のグローバル情報を持たせることもでき、且つ、少なくとも１回のこのような特徴変換により、最終的な第２ターゲット特徴をより精確にし、それにより第２ターゲット特徴を利用して特徴マッチングを行う時、より正確な特徴マッチング結果を得ることができる。

ここで、現在ターゲット範囲における現在ターゲット特徴と他の第１ターゲット特徴に対して集約を行うステップは、変換モデルにおけるセルフアテンション層により実行され、現在ターゲット範囲の第３ターゲット特徴と他のターゲット範囲の第３ターゲット特徴に対して集約を行うステップは、変換モデルにおけるクロスアテンション層により実行される。

従って、変換モデルにおけるセルフアテンション層及びクロスアテンション層により特徴変換を行うことで、現在ターゲット範囲と他のターゲット範囲のグローバル受容野を有するターゲット特徴を取得することを実現させることができる。

ここで、セルフアテンション層と、クロスアテンション層と、のうちの少なくとも１ついに用いられるメカニズムは、線形アテンションメカニズムである。

従って、線形アテンションメカニズムを用いることで、特徴変換プロセスにおける複雑さを線形にすることができ、非線形アテンションメカニズムに比べて、特徴変換に必要な時間がより少なく、且つ複雑さがより低い。

ここで、少なくとも２つのマッチング待ち画像におけるマッチングした第１変換特徴は、マッチング特徴グループであり、マッチング特徴グループの、少なくとも２つのマッチング待ち画像のそれぞれにおける位置は、第１位置であり、第１マッチング結果は、第１位置の位置情報を表し、特徴ブロックの、マッチング待ち画像における対応する領域は、第１位置を含む。

従って、第１マッチング結果によって得られた特徴ブロックに、マッチング特徴グループの、マッチング待ち画像における位置が含まれ、即ち、第１マッチング結果の位置に基づいて、２回目のマッチングの範囲を決定することで、２回目のマッチングの範囲選択を正確にし、更に、該範囲内の特徴に対して再び１回のマッチングを行うことで、マッチングの正確度を更に向上させる。

ここで、マッチングブロックグループに対応する第２変換特徴に対してマッチングを行い、少なくとも２つのマッチング待ち画像の第２マッチング結果を得ることは、マッチングブロックグループにおける１つの特徴ブロックをターゲットブロックとし、ターゲットブロックにおける所定の位置の第２変換特徴をリファレンス特徴とすることと、マッチングブロックグループの他の特徴ブロックから、リファレンス特徴とマッチングした第２変換特徴を探し出すことと、リファレンス特徴及びそれにマッチングした第２変換特徴に基づいて、第２マッチング結果を得ることと、を含む。

従って、ターゲットブロックにおける各第２変換特徴のマッチング特徴を探す必要がなく、ターゲットブロックにおける所定の位置の第２変換特徴のマッチング特徴を探すことで、マッチング特徴の探しの複雑さを低減させ、特徴マッチングプロセスにおいて消費される処理リソースを減少させることができる。

ここで、第１マッチング結果に基づいて、少なくとも２つのマッチング待ち画像の第２特徴マップから、マッチングブロックグループを抽出することは、第１位置の、第２特徴マップにおける対応する第２位置を決定することと、第２特徴マップから、第２位置を中心とした所定のサイズの特徴ブロックを抽出し、マッチングブロックグループを得ることと、を含む。

従って、第１位置により第２位置を決定し、第２位置を中心とした所定のサイズの特徴ブロックを抽出することで、誤った特徴ブロックの抽出確率を減少させる。

ここで、所定の位置は、ターゲットブロックの中心である。

従って、特徴ブロックの中心がマッチング特徴グループにおける１つの特徴であるため、該特徴をリファレンス特徴とすることで、算出された、他の特徴ブロックにおける各第２変換特徴とのマッチング関係をより正確にする。

ここで、マッチングブロックグループの他の特徴ブロックから、リファレンス特徴とマッチングした第２変換特徴を探し出すことは、リファレンス特徴と他の特徴ブロックにおける各第２変換特徴のそれぞれとのマッチング関係を取得することと、マッチング関係に基づいて、他の特徴ブロックから、リファレンス特徴とマッチングした第２変換特徴を探し出すことと、を含む。

従って、リファレンス特徴と他の特徴ブロックにおける各第２変換特徴とのマッチング関係を取得することで、リファレンス特徴の特徴マッチングを実現させることができる。

ここで、リファレンス特徴と他の特徴ブロックにおける各第２変換特徴とのマッチング関係を取得することは、リファレンス特徴と他の特徴ブロックにおける第２変換特徴に対して相関操作を行い、ヒートマップを得ることであって、ここで、ヒートマップにおける異なる位置のヒート値は、リファレンス特徴と異なる第２変換特徴とのマッチング度合いを表す、ことを含み、マッチング関係に基づいて、他の特徴ブロックから、リファレンス特徴とマッチングした第２変換特徴を探し出すことは、所定の演算子を利用して、ヒートマップに対して処理を行い、リファレンス特徴とマッチングした第２変換特徴を得ることを含む。

従って、ヒートマップを取得することで、リファレンス特徴と他の特徴ブロックにおける各第２変換特徴とのマッチング度合いを明確に表すことができる。

ここで、第１ローカル特徴を、マッチング待ち画像のグローバル受容野を有する第１変換特徴に変換する前に、方法は、第１ローカル特徴の、マッチング待ち画像における対応する位置情報を第１ローカル特徴に追加するステップと、若干の第１ローカル特徴を多次元配列から一次元配列に変換するステップと、のうちの少なくとも１つを更に含む。

従って、第１ローカル特徴の、マッチング待ち画像における対応する位置情報を第１ローカル特徴に追加することで、特徴変換後の第１変換特徴に、マッチング待ち画像におけるその位置情報を持たせることができる。なお、若干の第１ローカル特徴が多次元配列から一次元配列に変換されることで、変換モデルによる第１ローカル特徴の特徴変換を容易にする。

ここで、少なくとも２つのマッチング待ち画像における第１変換特徴に対してマッチングを行い、少なくとも２つのマッチング待ち画像の第１マッチング結果を得ることは、少なくとも２つのマッチング待ち画像における異なる第１変換特徴間のマッチング信頼度を取得することと、マッチング信頼度に基づいて、少なくとも２つのマッチング待ち画像におけるマッチング特徴グループを決定することであって、ここで、マッチング特徴グループは、各マッチング待ち画像における１つの第１変換特徴を含む、ことと、マッチング特徴グループに基づいて、第１マッチング結果を得ることと、を含む。

従って、異なる第１変換特徴間のマッチング信頼度を取得し、マッチング信頼度に基づいて、マッチング特徴グループを取得することで、最終的に得られたマッチング特徴グループの信頼度に需要を満たさせることができる。

ここで、少なくとも２つのマッチング待ち画像における異なる第１変換特徴間のマッチング信頼度を取得することは、少なくとも２つのマッチング待ち画像における異なる第１変換特徴間の類似度を取得することと、最適運搬モードを利用して、類似度に対して処理を行い、少なくとも２つのマッチング待ち画像における異なる第１変換特徴間のマッチング信頼度を得ることと、を含む。

なお、マッチング信頼度に基づいて、少なくとも２つのマッチング待ち画像におけるマッチング特徴グループを決定することは、少なくとも２つのマッチング待ち画像から、マッチング信頼度がマッチング条件に合致する第１変換特徴を選択してマッチング特徴グループを構成することを含む。

従って、最適運搬モードで、異なる第１変換特徴間のマッチング信頼度を取得し、続いて、マッチング信頼度から、マッチング条件に合致する第１変換特徴を選択することで、最終的なマッチング特徴グループのマッチング度合いに需要を満たさせることができる。

本願の実施例の第２態様によれば、画像特徴マッチング装置を提供する。前記装置は、少なくとも２つのマッチング待ち画像を取得するように構成される画像取得部と、各マッチング待ち画像に対してそれぞれ特徴抽出を行い、各マッチング待ち画像の特徴表現を得るように構成される特徴抽出部であって、特徴表現は、若干の第１ローカル特徴を含む、特徴抽出部と、第１ローカル特徴を、マッチング待ち画像のグローバル受容野を有する第１変換特徴に変換するように構成される特徴変換部と、少なくとも２つのマッチング待ち画像における第１変換特徴に対してマッチングを行い、少なくとも２つのマッチング待ち画像の第１マッチング結果を得るように構成される特徴マッチング部と、を備える。

本願の実施例の第３態様によれば、電子機器を提供する。前記電子機器は、メモリと、プロセッサと、を備え、プロセッサは、メモリに記憶されているプログラム命令を実行し、上記第１態様における画像特徴マッチング方法を実施する。

本願の実施例の第４態様によれば、コンピュータ可読記憶媒体を提供する。前記コンピュータ可読記憶媒体にプログラム命令が記憶されており、プログラム命令がプロセッサにより実行される時、プロセッサに上記第１態様における画像特徴マッチング方法を実現させる。

本願の実施例の第５態様によれば、コンピュータプログラムを提供する。前記コンピュータプログラムは、コンピュータ可読コードを含み、コンピュータ可読コードが電子機器で実行されるとき、電子機器におけるプロセッサに、第１態様における画像特徴マッチング方法を実行させる。

上記方案において、マッチング待ち画像における、グローバル受容野を有する特徴を取得し、続いて、グローバル受容野を有する特徴を利用して、特徴マッチングを行うことで、特徴マッチングプロセスにおいてマッチング待ち画像のグローバル情報を考慮することができ、それによりマッチングの正確度を向上させる。

上記の一般的な説明及び後述する細部に関する説明は、例示及び説明のためのものに過ぎず、本願を限定するものではないことが理解されるべきである。

本願の実施例による端末機器の応用シーンの概略図のその一である。本願の実施例による端末機器の方法応用シーンの概略図のその二である。本願の画像特徴マッチング方法の一実施例のフローチャートのその一である。本願の画像特徴マッチング方法の一実施例による第２マッチング結果の概略図である。本願の画像特徴マッチング方法の一実施例のフローチャートのその二である。本願の画像特徴マッチング方法の一実施例のフローチャートのその三である。本願の実施例による例示的な室内画像特徴マッチング結果の概略図である。本願の実施例による例示的な室外画像特徴マッチング結果の概略図である。本願の画像特徴マッチング装置の一実施例の構造の概略図である。本願の電子機器の一実施例の構造の概略図である。本願のコンピュータ可読記憶媒体の一実施例の構造の概略図である。

ここで、図面は明細書に引き入れて本明細書の一部を構成し、本願に適合する実施例を示し、かつ、明細書とともに本願の技術的解決手段を解釈することに用いられる。

以下、明細書の図面を参照しながら、本願の実施例の解決手段を詳しく説明する。

下記説明において、本願の実施例を深く理解するために、特定システム構造、インタフェース、技術等の具体的な細部を提出し、これは、本願を解釈するためのものに過ぎず、本願を限定するためのものではない。

本明細書において、用語「及び／又は」は、関連対象の関連関係を説明するためのものであり、３通りの関係が存在することを表す。例えば、Ａ及び／又はＢは、Ａのみが存在すること、ＡとＢが同時に存在すること、Ｂのみが存在するという３つの場合を表す。なお、本明細書において、文字「／」は一般的には、前後関連対象が「又は」という関係であることを示す。また、本明細書における「複数」は、２つ又は２つより多いことを表す。また、本明細書において、用語「少なくとも１つ」は、複数のうちのいずれか１つ又は複数のうちの少なくとも２つの任意の組み合わせを表す。例えば、Ａ、Ｂ、Ｃのうちの少なくとも１つを含むことは、Ａ、Ｂ及びＣからなる集合から選ばれるいずれか１つ又は複数の要素を含むことを表す。

本願の実施例による画像特徴マッチング方法の実行主体は、画像特徴マッチング装置であってもよい。例えば、画像特徴マッチング方法は、端末機器、サーバ又は他の処理機器により実行されてもよい。ここで、端末機器は、視覚的測位、三次元再構築、画像レジストレーションなどの需要を有するユーザ機器（ＵｓｅｒＥｑｕｉｐｍｅｎｔ：ＵＥ）、携帯機器、ユーザ端末、端末、セルラ電話、コードレス電話、パーソナルデジタルアシスタント（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ：ＰＤＡ）、ハンドヘルドデバイス、コンピューティングデバイス、車載機器、ウェアブル機器及び自動運転自動車、測位及びマッピング需要を有するロボット、レジストレーション需要を有する医療イメージングシステム、拡張実現又は仮想現実用のメガネ、ヘルメットなどの製品などであってもよい。いくつかの可能な実現形態において、該画像特徴マッチング方法は、プロセッサによりメモリに記憶されているコンピュータ可読命令を呼び出すことで実現してもよい。

以下、画像特徴マッチング方法の実行主体が端末機器として実施される例示的な応用を説明する。

可能な実現形態において、図１Ａに示す端末機器の応用シーンの概略図のその一を参照すると、端末機器１０は、カメラ１１と、撮影ユニット１２と、を含んでもよく、このように、端末機器１０は、撮影ユニット１２によって、少なくとも２つのマッチング待ち画像を収集し、プロセッサ１２によって、少なくとも２つのマッチング待ち画像に対してマッチング分析処理を行い、少なくとも２つのマッチング待ち画像間のマッチング結果を得ることができる。例えば、端末機器は、スマートフォンとして実施されてもよい。

別の可能な実現形態において、図１Ｂに示す端末機器の応用シーンの概略図のその二を参照すると、端末機器１０は、他の機器２０から、ネットワーク３０によって伝送された少なくとも２つのマッチング待ち画像を受信することができる。このように、端末機器１０は、受信された少なくとも２つのマッチング待ち画像に対してマッチング分析処理を行い、少なくとも２つのマッチング待ち画像間のマッチング結果を得ることができる。例えば、端末機器は、コンピュータとして実施されてもよい。コンピュータは、ネットワークによって、他の機器から伝送された少なくとも２つのマッチング待ち画像を受信することができる。

図２を参照すると、図２は、本願の画像特徴マッチング方法の一実施例のフローチャートのその一である。具体的には、画像特徴マッチング方法は、以下のステップを含んでもよい。

ステップＳ１１において、少なくとも２つのマッチング待ち画像を取得する。

ここで、マッチング待ち画像の取得方式は、例えば、図１Ａに示す応用シーンのように、画像特徴マッチング方法を実行する機器上でのカメラユニットによって取得することであってもよい。マッチング待ち画像の取得方式は、図１Ｂに示す応用シーンのように、他の機器によって、種々の通信方式で、画像特徴マッチング方法を実行する機器に伝送することであってもよい。本願の実施例は、マッチング待ち画像の取得方式を限定しない。

ここのマッチング待ち画像は、種々の画像処理後の画像であってもよく、画像処理されていない画像であってもよい。そして、マッチング待ち画像のパターンは、同じであっても異なってもよい。例えば、そのうちの１枚の画像は、可視光画像であり、別の１枚の画像は、赤外光画像である。少なくとも２つのマッチング待ち画像のサイズ、解像度などの情報は、同じであっても異なってもよい。即ち、任意の２枚の画像は、いずれもマッチング待ち画像としてもよい。本願の実施例において、２枚のマッチング待ち画像を例とする。無論、他の実施例において、マッチング待ち画像は、３枚以上であってもよく、マッチング待ち画像の数について、ここで具体的に限定しない。

ステップＳ１２において、各マッチング待ち画像に対してそれぞれ特徴抽出を行い、各マッチング待ち画像の特徴表現を得、ここで、特徴表現は、若干の第１ローカル特徴を含む。

ここで、特徴抽出方法は、複数であってもよい。例えば、種々のニューラルネットワークを利用して特徴抽出を行ってもよい。特徴表現は、若干の第１ローカル特徴を含み、ここの特徴表現は、特徴マップの形式で表現してもよい。ローカル特徴は、マッチング待ち画像のグローバル受容野を含まない特徴、即ち、マッチング待ち画像のローカル領域をのみ含む特徴である。

ステップＳ１３において、第１ローカル特徴を、マッチング待ち画像のグローバル受容野を有する第１変換特徴に変換する。

第１ローカル特徴に対して変換を行うことで、変換後の第１変換特徴に、マッチング待ち画像のグローバル受容野を持たせることができる。即ち、第１変換特徴は、マッチング待ち画像のグローバル情報を有する。

ステップＳ１４において、少なくとも２つのマッチング待ち画像における第１変換特徴に対してマッチングを行い、少なくとも２つのマッチング待ち画像の第１マッチング結果を得る。

特徴マッチングの方式は、複数であってもよく、例えば、最適運搬モードを利用して、特徴マッチングを行う。無論、これは、例だけであり、他の実施例において、他の特徴マッチング方式を用いてもよい。

上記方案において、マッチング待ち画像における、グローバル受容野を有する特徴を取得し、続いて、グローバル受容野を有する特徴を利用して、特徴マッチングを行うことで、特徴マッチングプロセスにおいて、マッチング待ち画像のグローバル情報を考慮することができ、それによりマッチングの正確度を向上させる。

ここで、特徴表現は、第１特徴マップと、第２特徴マップと、を含み、第１特徴マップの解像度は、第２特徴マップの解像度よりも小さく、第１特徴マップにおける特徴は、第１ローカル特徴であり、第２特徴マップにおける特徴は、第２ローカル特徴である。ここで、各マッチング待ち画像に対して特徴抽出を行い、各マッチング待ち画像の特徴表現を得る方式は、ピラミッド畳み込みニューラルネットワークを利用して取得を行うことであってもよい。ここで、ピラミッド畳み込みニューラルネットワークを利用して、マッチング待ち画像のマルチスケール特徴マップをそれぞれ取得することができる。例えば、解像度がマッチング待ち画像の解像度の１／８及び１／２である特徴マップを抽出するか又は解像度がマッチング待ち画像の解像度の１／１６及び１／４である特徴マップを抽出する。いくつかの実施例において、第１特徴マップ解像度は、第２特徴マップの１／４である。第１特徴マップと第２特徴マップの解像度について、特徴抽出速度の需要と精度の需要とのうちの少なくとも１つによって決定されてもよい。例えば、解像度がマッチング待ち画像の解像度の１／８と１／２である特徴マップの抽出と解像度がマッチング待ち画像の解像度の１／１６と１／４である特徴マップの抽出について、前者の速度が遅いが、精度が高く、後者の速度が速いが、精度が低い。本願の実施例において、ピラミッド畳み込みニューラルネットワークによって取得された第１特徴マップに含まれる第１ローカル特徴と第２特徴マップに含まれる第２ローカル特徴は、マッチング待ち画像のグローバル受容野を有しない。

ここで、第１ローカル特徴を、マッチング待ち画像のグローバル受容野を有する第１変換特徴に変換する前に、以下の少なくとも１つのステップを更に含む。ステップ１において、第１ローカル特徴の、マッチング待ち画像における対応する位置情報を第１ローカル特徴に追加する。具体的には、位置符号化を用いることで、各第１ローカル特徴に一意的な位置情報識別子を持たせる。ここで、位置符号化された

は、以下で表されてもよい。

ここで、

であり、

は、ｉ番目の第１ローカル特徴の画素座標を表し、ｋは、ｉ番目の第１ローカル特徴の、全ての第１ローカル特徴におけるグルーピングを表し、例えば、第１所定の数の第１ローカル特徴をグルーピングする時、第２所定の数の第１ローカル特徴を１グループとし、ｉ番目の第１ローカル特徴の次元が知られていると、ｉ番目の第１ローカル特徴のグルーピング位置を知ることができる。例えば、計２５６個の第１ローカル特徴があり、ｉ＝８であり、即ち、８番目の第１ローカル特徴が全ての第１ローカル特徴の２グループ目（ｋ＝２）に位置する。ｄは、位置符号化前の第１ローカル特徴の特徴次元を表す。

ステップ２において、若干の第１ローカル特徴多次元配列から一次元配列に変換する。具体的には、多次元配列は、二次元であってもよく、即ち、各第１ローカル特徴は、二次元行列の形式で、第１特徴マップを構成する。一次元配列は、一定の順番に応じて二次元行列を一次元シーケンスに変換することであってもよい。第１ローカル特徴の、マッチング待ち画像における対応する位置情報を第１ローカル特徴に追加することで、特徴変換後の第１変換特徴に、マッチング待ち画像におけるその位置情報を持たせることができる。なお、若干の第１ローカル特徴は、多次元配列から一次元配列に変換されることで、変換モデルによる第１ローカル特徴の特徴変換を容易にする。

まず、ピラミッド畳み込みニューラルネットワークを利用して、マッチング待ち画像の第１特徴マップを抽出し、第１特徴マップを変換モデルに入力する。マッチング待ち画像を直接的に変換モデルに入力することに比べて、前者は、変換モデルに入力された特徴長さを短縮し、計算コストを低減することができる。

いくつかの実施例において、ステップＳ１３は、具体的には、以下のステップを含んでもよい。第１ローカル特徴を第１ターゲット特徴とし、第１変換特徴を第２ターゲット特徴とし、各マッチング待ち画像をターゲット範囲とする。同一のターゲット範囲における第１ターゲット特徴に対する集約処理及び／又は異なるターゲット範囲における第１ターゲット特徴に対する集約処理に基づいて、第２ターゲット特徴を得る。具体的には、それぞれ各ターゲット範囲を現在ターゲット範囲とし、現在ターゲット範囲に対して、現在ターゲット範囲における各第１ターゲット特徴を現在ターゲット特徴とすることと、現在ターゲット範囲における現在ターゲット特徴と他の第１ターゲット特徴に対して集約を行い、現在ターゲット特徴に対応する第３ターゲット特徴を得ることと、のうちの少なくとも１つの特徴変換を実行する。ここで、現在ターゲット範囲における現在ターゲット特徴と他の第１ターゲット特徴に対して集約を行うステップは、変換モデルにおけるセルフアテンション層により実行され、ここで、セルフアテンション層とクロスアテンション層による特徴集約の方式は、一般的な技術を参照してもよい。ここで説明を省略する。

いくつかの実施例において、１つのセルフアテンション層に、複数並列して設けられるセルフアテンションサブ層が含まれ、各ターゲット範囲の全ての第１ターゲット特徴をセルフアテンションサブ層に入力し、ターゲット範囲内の第１ターゲット特徴の集約を行い、即ち、各セルフアテンションサブ層に１つのターゲット範囲の第１ターゲット特徴をのみ入力する。複数のターゲット範囲の第１ターゲット特徴を同時に同一のセルフアテンションサブ層に入力してはいけない。更に、一次元配列形式のターゲット特徴をセルフアテンションサブ層に入力する。セルフアテンション層によって、第１ターゲット特徴に対して集約処理を行うことで、得られた第３ターゲット特徴に、マッチング待ち画像グローバル受容野を持たせる。次に、現在ターゲット範囲の第３ターゲット特徴と他のターゲット範囲の第３ターゲット特徴に対して集約を行い、現在ターゲット特徴に対応する第４ターゲット特徴を得る。ここで、現在ターゲット範囲の第３ターゲット特徴と他のターゲット範囲の第３ターゲット特徴に対して集約を行うステップは、変換モデルにおけるクロスアテンション層によって実行される。クロスアテンション層が非対称性を有し、即ち、クロスアテンション層の出力結果に、そのうちの１つ入力に対応する出力がのみ含まれるため、クロスアテンション層は、並列して設けられる少なくとも２つのクロスアテンションサブ層を含む。現在ターゲット範囲における第３ターゲット特徴と他のターゲット範囲の第３ターゲット特徴を同時に並列したクロスアテンションサブ層に入力する。無論、このプロセスにおいて、現在ターゲット範囲と他のターゲット範囲の第３ターゲット特徴がクロスアテンションサブ層に入力される順番を変換する必要がある。例えば、１番目のクロスアテンションサブ層において、現在ターゲット範囲の第３ターゲット特徴を左入力とし、他のターゲット範囲の第３ターゲット特徴を右入力とするが、２番目のクロスアテンションサブ層において、現在ターゲット範囲の第３ターゲット特徴を右入力とし、他のターゲット範囲の第３ターゲット特徴を左入力とする。２つの並列したクロスアテンションサブ層によって、第４ターゲット特徴を取得することで、各ターゲット範囲に対応する第３ターゲット特徴に対して、いずれも、対応する第４ターゲット特徴がある。選択的に、１層のセルフアテンション層と１層のクロスアテンション層を一回の基本的変換とする。変換モデルに複数の基本的変換が含まれ、且つ各基本変換に含まれる学習可能なネットワーク重みは共有しない。且つ、基本的変換の数は、特徴変換の精度と特徴変換の速度によって決定されてもよい。例えば、高い特徴変換精度が求められると、基本的変換の数は相対的に増加してもよい。高い特徴変換速度が求められると、基本的変換の数は、減少してもよい。従って、基本的変換の数について、ここで具体的に限定しない。ここで、今回の特徴変換が最終回の特徴変換ではない場合、第４ターゲット特徴を次回の特徴変換における第１ターゲット特徴とする。無論、今回の特徴変換が最終回の特徴変換である場合、第４ターゲット特徴を第２ターゲット特徴とする。即ち、１つ前の基本的変換の出力結果は、その後の基本的変換の入力とする。最後の基本変換の結果を第２ターゲット特徴とする。

抽出された解像度が高い特徴マップの特徴を、特徴ブロックのグローバル受容野を有する特徴に変換し、更に、該特徴を利用して特徴マッチングを行うことで、マッチングプロセスにおいて、グローバル情報を総合的に考慮することができ、特徴マッチング結果をより正確にする。

いくつかの実施例において、現在ターゲット範囲の第１ターゲット特徴に対して集約を行うことで、第３ターゲット特徴に、現在ターゲット範囲のグローバル情報を持たせることができ、異なるターゲット範囲の第３ターゲット特徴を利用して集約を行うことで、第４ターゲット特徴に、他のターゲット範囲のグローバル情報を持たせることができる。そして、少なくとも１回のこのような特徴変換により、最終的な第２ターゲット特徴をより精確にし、それにより第２ターゲット特徴を利用して特徴マッチングを行う時、より正確な特徴マッチング結果を得ることができる。

いくつかの実施例において、セルフアテンション層とクロスアテンション層とのうちの少なくとも１つに用いられるメカニズムは、線形アテンションメカニズムである。具体的には、セルフアテンション層とクロスアテンション層に用いられるカーネル関数は、任意のカーネル関数であってもよい。カーネルトリックを逆に利用してカーネル関数を２つのマッピング関数の積に書き直し、更に、行列乗算の結合率を利用して、アテンション層の計算順番を変え、複雑さを従来の平方複雑さから線形複雑さに低減させる。ここで、マッピング関数φ（ｘ）は、ｅｌｕ（ｘ）＋１であってもよい。具体的には、従来のアテンション層の計算は、Ａｔｔｅｎｔｉｏｎ（Ｑ，Ｋ，Ｖ）＝Ｓｏｆｔｍａｘ（ＱＫＴ）Ｖである。ここで、Ｑは、一般的には、クエリと命名され、Ｋは、一般的には、キーと命名され、Ｖは、一般的には、値と命名され、Ｔは、転置を表す。本願の実施例による線形アテンションメカニズムは、カーネル関数Ｓｏｆｔｍａｘ（ｘ１ｘ２）の代わりに、カーネル関数ｓｉｍ（ｘ１，ｘ２）を用い、カーネル関数ｓｉｍ（ｘ１，ｘ２）をｘ１とｘ２の２つのマッピング関数φ（ｘ１）とφ（ｘ２）の積に変換し、更に、線形アテンション層ＬｉｎｅａｒＡｔｔｅｎｔｉｏｎ（Ｑ，Ｋ，Ｖ）＝ φ（Ｑ）（φ（ＫＴ）Ｖ）を得る。その具体的なプロセスは以下のとおりである。

ＬｉｎｅａｒＡｔｔｅｎｔｉｏｎ（Ｑ，Ｋ，Ｖ）＝ｓｉｍ（Ｑ，ＫＴ）Ｖ（１）
Ｓｉｍ（Ｑ，Ｋ）＝ φ（Ｑ）φ（ＫＴ）（２）
φ（・）＝ｅｌｕ（・）＋１（３）
ＬｉｎｅａｒＡｔｔｅｎｔｉｏｎ（Ｑ，Ｋ，Ｖ）＝ φ（Ｑ）（φ（ＫＴ）Ｖ）（４）
上記方式で、線形アテンションメカニズムを用いて、特徴変換プロセスにおける複雑さを線形に変えることができ、非線形メカニズムに比べて、特徴変換に必要な時間がより少なく、且つ複雑さがより低い。

ここで、少なくとも２つのマッチング待ち画像における第１変換特徴に対してマッチングを行い、少なくとも２つのマッチング待ち画像の第１マッチング結果を得る方式は、以下のステップを含む。ステップ１において、少なくとも２つのマッチング待ち画像における異なる第１変換特徴のマッチング信頼度を取得する。

選択的に、少なくとも２つのマッチング待ち画像における異なる第１変換特徴のマッチング信頼度を得る方式は、以下のステップを含む。まず、少なくとも２つのマッチング待ち画像における異なる第１変換特徴間の類似度を取得する。具体的には、該類似度を取得する方式は、２つのマッチング待ち画像における全ての第１変換特徴のうちの２つずつの第１変換特徴の間の類似性を計算し、類似性行列を構成することであってもよい。ここで、類似性の計算方式は、スケール変換を持つドッド積類似性、コサイン類似性又は他の類似性計算方法であってもよい。次に、最適運搬モードを用いて、類似度を処理し、少なくとも２つのマッチング待ち画像における異なる第１変換特徴間のマッチング信頼度を得る。具体的に、類似度行列を反転してコスト行列とし、コスト行列に対して、Ｓｉｎｋｈｏｒｎアルゴリズムによって、所定の回数の反復を行い、マッチング信頼度を得る。即ち、このような方式で、マッチング待ち画像における異なる第１変換特徴間のマッチング信頼度を求めることを、エントロピー正則化を含む離散最適運搬課題に変換する。ここで、所定の数の選択は、マッチング信頼度の収束程度を決定する。具体的な必要に応じて、所定の数を選択してもよい。それにより、精度と速度とのバランスを実現させる。ここで、得られたマッチング信頼度で構成される行列の行と列の和は、いずれもそれぞれ１である。本願の実施例において、マッチング待ち画像をそれぞれ第１マッチング待ち画像と第２マッチング待ち画像と称する。ここで、マッチング信頼度行列における１行列のマッチング信頼度は、第１マッチング待ち画像における１つの第１変換特徴と第２マッチング待ち画像における全ての第１変換特徴のそれぞれとのマッチング信頼度を表す。マッチング信頼度行列における１列のマッチング信頼度は、第２マッチング待ち画像における１つの第１変換特徴と第１マッチング待ち画像における全ての第１変換特徴のそれぞれとのマッチング信頼度を表す。

ステップ２において、マッチング信頼度に基づいて、少なくとも２つのマッチング待ち画像におけるマッチング特徴グループを決定する。

ここで、少なくとも２つのマッチング待ち画像におけるマッチングした第１変換特徴は、マッチング特徴グループである。マッチング特徴グループは、各マッチング待ち画像における１つの第１変換特徴を含む。即ち、マッチング特徴グループは、複数のマッチング待ち画像における１つの第１変換特徴で構成される。ここで、マッチング信頼度に基づいて、少なくとも２つのマッチング待ち画像におけるマッチング特徴グループを決定する方式は、少なくとも２つのマッチング待ち画像から、マッチング信頼度がマッチング条件に合致する第１変換特徴を選択してマッチング特徴グループを構成することであってもよい。選択的に、マッチング条件は、マッチング信頼度行列において最大行と最大列に同時に位置するものを選択することであってもよい。例えば、マッチング信頼度行列における１行目２列目の信頼度が最大行と最大列に同時に位置するものであれば、第２マッチング待ち画像における、第１マッチング待ち画像における１番目の第１変換特徴マッチングとの信頼度が最も大きいものが２番目のローカル特徴であり、且つ第１マッチング待ち画像における、第２マッチング待ち画像における２番目の第１変換特徴とのマッチング信頼度が最も大きいものが１番目のローカル特徴であることを表す。最適運搬モードで、異なる第１変換特徴間のマッチング信頼度を取得し、続いて、マッチング信頼度から、マッチング条件に合致する第１変換特徴を選択し、最終的なマッチング特徴グループのマッチング度合いに、需要を満たさせる。ステップ３において、マッチング特徴グループに基づいて、第１マッチング結果を得る。具体的には、マッチング特徴グループのそれぞれ、少なくとも２つのマッチング待ち画像における位置に基づいて、第１マッチング結果を得る。ここで、マッチング特徴グループのそれぞれの、少なくとも２つのマッチング待ち画像における位置は、第１位置であり、第１マッチング結果に、第１位置を表す位置情報が含まれる。ここで、ここの位置情報は、マッチング特徴グループにおける特徴の、マッチング待ち画像における座標であってもよい。無論、該特徴の、第１特徴マップにおける位置座標であってもよく、且つ該位置座標は、第１位置をマッピングすることができる。異なる第１変換特徴間のマッチング信頼度を取得し、マッチング信頼度に基づいて、マッチング特徴グループを取得することで、最終的に得られたマッチング特徴グループの信頼度に、需要を満たさせることができる。

ここで、少なくとも２つのマッチング待ち画像における第１変換特徴に対してマッチングを行い、少なくとも２つのマッチング待ち画像の第１マッチング結果を得た後、第１マッチング結果に基づいて、少なくとも２つのマッチング待ち画像の第２特徴マップから、マッチングブロックグループを抽出する。ここで、マッチングブロックは、少なくとも２つの特徴ブロックを含み、各特徴ブロックは、１つのマッチング待ち画像の第２特徴マップから抽出された複数の第２ローカル特徴を含む。具体的には、第１マッチング結果に基づいて、少なくとも２つのマッチング待ち画像の第２特徴マップから、マッチングブロックグループを抽出する方式は、第１位置の、第２特徴マップにおける対応する第２位置を決定することであってもよい。第２特徴マップから、第２位置を中心とした所定のサイズの特徴ブロックを抽出し、マッチングブロックグループを得る。ここで、マッチング特徴グループに含まれる特徴ブロックの数は、マッチング待ち画像の数によって決まる。選択的に、ここの所定のサイズは、得られたマッチングブロックグループに１対のマッチング特徴グループにおける特徴がのみ含まれ、他のマッチング特徴グループにおける特徴が含まないことを満たす必要がある。第１マッチング結果によって取得された特徴ブロックに、マッチング特徴グループの、マッチング待ち画像における位置を含ませることで、特徴ブロックに対して特徴マッチングを行うことで得られた第２マッチング結果にも第１位置情報を持たせる。第１位置によって第２位置を決定し、第２位置を中心とした所定のサイズの特徴ブロックを抽出することで、誤った特徴ブロックの抽出確率を減少させる。

いくつかの実施例において、マッチングブロックグループに対応する第２変換特徴に対してマッチングを行い、少なくとも２つのマッチング待ち画像の第２マッチング結果を得る前に、特徴ブロックにおける第２ローカル特徴を、特徴ブロックのグローバル受容野を有する第２変換特徴に変換する。ここで、特徴ブロックにおける第２ローカル特徴を、特徴ブロックのグローバル受容野を有する第２変換特徴に変換する方式は、第２ローカル特徴を第１ターゲット特徴とし、第２変換特徴を第２ターゲット特徴とし、各特徴ブロックを１つのターゲット範囲とすることであってもよい。同一のターゲット範囲における第１ターゲット特徴に対する集約処理及び／又は異なるターゲット範囲における第１ターゲット特徴に対する集約処理に基づいて、第２ターゲット特徴を得る。ここで、集約処理を行う具体的な方式は、第１ローカル特徴を、マッチング待ち画像のグローバル受容野を有する第１変換特徴に変換するプロセスを参照する。ここで、２つのプロセスにおいて用いられる変換モデルは、同じであっても異なってもよい。２つの変換モデルが異なる時、相違点は、このプロセスにおける基本的変換の数が、第１ローカル特徴を、マッチング待ち画像のグローバル受容野を有する第１変換特徴に変換するプロセスにおいて用いられる基本的変換の数以下であることである。

解像度が高い特徴マップの特徴を抽出し、特徴ブロックのグローバル受容野を有する特徴に変換し、更に、該特徴を利用して特徴マッチングを行うことで、解像度が高い特徴マッチングプロセスにおいて、特徴ブロックのグローバル情報を考慮することもき、特徴マッチング結果をより正確する。

マッチングブロックグループに対応する第２変換特徴に対してマッチングを行い、少なくとも２つのマッチング待ち画像の第２マッチング結果を得る。ここで、第２変換特徴は、マッチングブロックグループにおける第２ローカル特徴であるか又はマッチングブロックグループにおける第２ローカルに対して特徴変換を行うことで得られたものである。即ち、第２変換特徴は、変換モジュールよる特徴変換が行われていないものであってもよく、変換モジュールによって特徴変換されたものであってもよい。ここで、第２変換特徴を具体的に規定しない。マッチングブロックグループに対応する第２変換特徴に対してマッチングを行い、少なくとも２つのマッチング待ち画像の第２マッチング結果を得る方式は、マッチングブロックグループにおける１つの特徴ブロックをターゲットブロックとし、ターゲットブロックにおける所定の位置の第２変換特徴をリファレンス特徴とすることであってもよい。ここの所定の位置は、ターゲットブロックの中心であってもよい。特徴ブロックの中心がマッチング特徴グループにおける１つの特徴であるため、該特徴をリファレンス特徴とすることで、算出された、他の特徴ブロックにおける各第２変換特徴とのマッチング関係をより正確にする。マッチングブロックグループの他の特徴ブロックから、リファレンス特徴とマッチングした第２変換特徴を探し出す。具体的には、リファレンス特徴とマッチングした第２変換特徴を探し出す方式は、リファレンス特徴と他の特徴ブロックにおける各第２変換特徴とのマッチング関係を取得することであってもよい。例えば、リファレンス特徴と他の特徴ブロックにおける第２変換特徴に対して相関操作を行い、ヒートマップを得る。ここで、ヒートマップにおける異なる位置のヒート値は、リファレンス特徴と異なる第２変換特徴とのマッチング度合いを表す。ヒートマップを取得することで、リファレンス特徴と他の特徴ブロックにおける各第２変換特徴とのマッチング度合いを明確に表すことができる。

該マッチング関係に基づいて、他の特徴ブロックから、リファレンス特徴とマッチングした第２変換特徴を探し出す。具体的には、所定の演算子を利用して、ヒートマップに対して処理を行い、リファレンス特徴とマッチングした第２変換特徴を得る。ここの所定の演算子は、Ｓｏｆｔ－Ａｒｇｍａｘ演算子であってもよい。リファレンス特徴及びそれとマッチングした前記第２第２変換特徴に基づいて、前記第２マッチング結果を得る。具体的には、リファレンス特徴と探し出された、リファレンス特徴とマッチングした第２変換特徴の、少なくとも２枚のマッチング待ち画像における第３位置を決定する。ここで、第２マッチング結果に、リファレンス特徴と探し出された、リファレンス特徴とマッチングした第２変換特徴の、少なくとも２枚のマッチング待ち画像における第３位置及び両者間のマッチング度合いを含む。無論、この第３位置は、マッチング待ち画像の画素点に位置するものではない可能性があり、２つの画素点の間に位置する可能性があり、それによりサブ画素精度の特徴マッチングを実現させることができる。具体的には、第２マッチング結果の表現形式は、特徴点対の形式で表されてもよく、画像の形式で表されてもよい。図３を参照すると、図３は、本願の画像特徴マッチング方法の一実施例による第２マッチング結果の概略図である。図３に示すように、左図３０１は、第１マッチング待ち画像であり、右図３０２は、第２マッチング待ち画像である。左図３０１と右図３０２との間の結線は、２枚の画像のマッチング結果を表すためのものである。信頼度について、結線の色で表してもよい。例えば、グラデーション色で信頼度を表し、又は、信頼度を各結線の付近に直接的に表す。第２マッチング結果の具体的な表現形式について、ここで具体的に限定しない。

まず、解像度が低い特徴マップにおける特徴マッチングを行い、更に、解像度が低い特徴マップのマッチング結果を利用して、解像度が高い特徴マップの特徴マッチングを行うことで、マッチングの正確度を更に向上させる。

本願の実施例による技術的解決手段をより明確に説明するために、以下の２つ例を挙げる。例１：図４を参照すると、図４は、本願の画像特徴マッチング方法の一実施例のフローチャートのその二である。図４に示すように、本願の実施例による画像特徴マッチング方法は、以下のステップを更に含む。

ステップＳ２１において、第１マッチング待ち画像及び第２マッチング待ち画像を取得する。

ここで、第１マッチング待ち画像及び第２マッチング待ち画像の取得方式は、ステップＳ１１を参照してもよい。ここで説明を省略する。

ステップＳ２２において、２つのマッチング待ち画像の第１特徴マップと第２特徴マップをそれぞれ抽出し、第１特徴マップは、第１ローカル特徴を含み、第２特徴マップは、第２ローカル特徴を含み、第１特徴マップの解像度は、第２特徴マップの解像度よりも小さい。

ここで、マッチング待ち画像の第１特徴マップと第２特徴マップの抽出方式は、ピラミッド畳み込みニューラルネットワークを用いてもよい。具体的には、獣王記ステップＳ１２を参照してもよい。ここで説明を省略する。

ステップＳ２３において、２組の第１ローカル特徴を変換モデルに入力し、マッチング待ち画像のグローバル受容野を有する第１変換特徴を得る。

無論、ステップＳ２３を実行する前に、第１特徴マップにおける第１ローカル特徴に対して位置符号化を行い、二次元行列の形式から一次元シーケンスの形式に変換し、一次元シーケンスの形式の第１ローカル特徴グループを変換モデルに入力する。具体的には、２組の第１ローカル特徴を変換モデルに入力し、マッチング待ち画像のグローバル受容野を有する第１変換特徴を得るプロセスは、上記ステップＳ１３を参照してもよい。ここで説明を省略する。

ステップＳ２４において、第１変換特徴に対して特徴マッチングを行い、第１マッチング結果を得る。

具体的には、第１変換特徴に対して特徴マッチングを行う方式は、上記ステップＳ１４を参照してもよい。ここで説明を省略する。

ステップＳ２５において、第１マッチング結果に基づいて、少なくとも２つのマッチング待ち画像の第２特徴マップから、マッチングブロックグループを抽出する。

ここで、少なくとも２つのマッチング待ち画像の第２特徴マップから、マッチングブロックグループを抽出するプロセスは、上記を参照する。ここで説明を省略する。

ステップＳ２６において、マッチングブロックグループに対応する第２変換特徴に対してマッチングを行い、少なくとも２つのマッチング待ち画像の第２マッチング結果を得る。

具体的には、マッチングブロックグループに対応する第２変換特徴に対してマッチングを行い、少なくとも２つのマッチング待ち画像の第２マッチング結果を得る方式は、上記を参照する。ここで説明を省略する。

例２：図５を参照すると、図５は、本願の画像特徴マッチング方法の一実施例のフローチャートのその三である。図５に示すように、本願の実施例による画像特徴マッチング方法は、以下のステップを含んでもよい。

１．ローカル特徴の抽出
第１マッチング待ち画像Ｉ^Ａと第２マッチング待ち画像Ｉ^Ｂを取得する。ここで、第１マッチング待ち画像Ｉ^Ａと第２マッチング待ち画像Ｉ^Ｂの解像度は、同じであっても異なってもよい。第１マッチング待ち画像Ｉ^Ａと第２マッチング待ち画像Ｉ^Ｂをピラミッド畳み込みニューラルネットワークに入力し、マルチスケール特徴マップを抽出し、例えば、解像度が第１マッチング待ち画像Ｉ^Ａと第２マッチング待ち画像Ｉ^Ｂの解像度の１／８である第１特徴マップＦ^Ａ１とＦ^Ｂ１を抽出し、且つ解像度が第１マッチング待ち画像Ｉ^Ａと第２マッチング待ち画像Ｉ^Ｂの解像度の１／２である第２特徴マップＦ^Ａ２とＦ^Ｂ２を抽出する。これから分かるように、第１特徴マップＦ^Ａ１の解像度は、第２特徴マップＦ^Ａ２の解像度よりも小さく、第１特徴マップＦ^Ｂ１の解像度は、第２特徴マップＦ^Ｂ２の解像度よりも小さい。

２．ローカル特徴の変換
本願の実施例において、ローカル特徴画像（即ち、第１特徴マップ）に対して変換を行い、それに、グローバル受容野を持たせ、後続のグローバル特徴マッチングを容易にする。

第１特徴マップＦ^Ａ１とＦ^Ｂ１における特徴に対して位置符号化を行い、第１特徴マップＦ^Ａ１とＦ^Ｂ１を二次元から一次元配列、即ち一次元特徴シーケンスに展開する。位置コードを有する一次元特徴シーケンスを変換モデルに入力する。変換モデルにおいて、まず、セルフアテンション層を利用して、一次元特徴シーケンスをそれぞれ抽出し、特徴集約を行い、更に、集約された特徴シーケンスをクロスアテンション層に入力し、２組の一次元特徴シーケンスの特徴集約を行い、１層のセルフアテンション層と１層のクロスアテンション層を１つの基本的変換する。このような基本的変換は、Ｎ個であり、１つ前の基本的変換の出力は、その後の基本的変換の入力とし、最後の基本的変換の出力結果は、変換モデルの出力結果とし、出力結果は、それぞれ一次元特徴シーケンス

、

を含む。具体的には、セルフアテンション層とクロスアテンション層は、特徴の位置及び特徴コンテキストの依存するローカル特徴を抽出することで、特徴集約を行う。

３．粗マッチング
最適運搬モードで、一次元シーケンス

及び

間のマッチング信頼度行列を得る。ここで、マッチング信頼度行列の長さは、（１／８）^２に第２マッチング待ち画像Ｉ^Ｂの長さと幅を乗算した積（即ち（１／８）^２Ｈ^ＢＷ^Ｂ）であり、マッチング信頼度の行列の幅は、（１／８）^２に第１マッチング待ち画像Ｉ^Ａの長さと幅を乗算した積（即ち（１／８）^２Ｈ^ＡＷ^Ａ）である。マッチング信頼度から、信頼度が条件を満たす特徴マッチンググループ（

,

）を選択し、ここで、特徴マッチンググループは、１グループに限らず、複数グループであってもよい。

４．精マッチング
第２特徴マップＦ^Ａ２とＦ^Ｂ２から、特徴マッチンググループ（

,

）に対応する特徴（

,

）を探し出し、特徴

又は特徴

を含む特徴ブロックグループを抽出し、ここで、特徴ブロックグループにおける特徴ブロックの長さと幅はいずれもｗである。特徴ブロックグループを別の変換モデルに入力し、集約した特徴マップを得る。ここで、ここの変換モデルとローカル特徴変換における変換モデルは、同じであっても異なってもよい。例えば、ここの変換モデルにおける基本的変換の数は、ローカル特徴変換における特徴変換モデルの基本的変換の数よりも小さくてもよい。そのうちの１つの特徴ブロックの中心位置の特徴

をリファレンス特徴とし、別の特徴ブロックにおける全ての特徴との相関操作を行い、ヒートマップを得、ヒートマップを二次元Ｓｏｆｔ－Ａｒｇｍａｘ演算子に入力し、特徴ブロック中における望ましいマッチング位置

を計算する。

とそれとマッチングした

を第１マッチング待ち画像Ｉ^Ａと第２マッチング待ち画像Ｉ^Ｂに投影し、最終的な第１マッチング待ち画像の特徴マッチング結果を得る。

例示的に、本願の実施例による画像特徴マッチング方法は、室内画像に対してマッチングを行うことができ、且つ室外画像に対してマッチングを行うことができる。図６Ａは、例示的な室内画像の特徴マッチング結果の概略図を示し、図６Ｂは、例示的な室外画像の特徴マッチング結果の概略図を示す。図６Ａと図６Ｂから分かるように、本願の実施例による画像特徴マッチング方法は、画像における同じコンテンツに対して正確にマッチングを行うことができる。

いくつかの実施例において、本願の実施例による技術的解決手段は、特徴検出を行う必要がなく、特徴検出の正確度による特徴マッチングへの影響を低減させ、本方案の汎用性をより高くする。

ここで、本願の実施例による技術的解決手段は、２枚のマッチング待ち画像のデンス特徴マッチングを実現させることができ、該方案は、ビジョンベースの位置推定とマッピングの同時実行（Ｖ－ＳＬＡＭ）に集積されてもよい。本方案は、正確なデンスマッチングを提供し、視覚的測位とマッピングに有利である。本方案の高効率性及び精度－速度のバランスを取りやすいという特徴は、位置推定とマッピングの同時実行の各モジュール間の協調に有利である。本方案が高いロバスト性を有するため、Ｖ－ＳＬＡＭは、様々な気候条件下ではいずれも安定的に運転可能である。例えば、室内ナビゲーション、無人運転などの分野に用いられる。そして、本方案は、三次元再構築に用いてもよい。本方案による正確なデンスマッチングは、精細な物体とシーンモデルの再構築に有利である。例えば、ユーザに対して、ビジョンベースの人体、物体三次元再構築を提供する。無論、本方案は、画像レジストレーションに用いられてもよい。本方案による正確なデンスマッチングは、ソース画像とターゲット画像との変換モデルを求めることに有利である。例えば、本方案を携帯電話に用い、画像ステッチングに用いられ、パノラマ撮影を実現させる。又は、本方案を医療イメージングシステムに埋め込み、イメージングのレジストレーションに用い、それにより医者がレジストレーション結果に基づいて分析又は手術を行う。

具体的な実施形態の上記方法において、各ステップの記述順番は、厳しい実行順番を意味して実施プロセスを何ら限定するものではなく、各ステップの実際の実行順番はその機能及び可能な内在的論理により決まることは、当業者であれば理解すべきである。

図７を参照すると、図７は、本願の画像特徴マッチング装置の一実施例の構造の概略図である。画像特徴マッチング装置４０は、画像取得部４１と、特徴抽出部４２と、特徴変換部４３と、特徴マッチング部４４と、を備える。画像取得部４１は、少なくとも２つのマッチング待ち画像を取得するように構成され、特徴抽出部４２は、各マッチング待ち画像に対してそれぞれ特徴抽出を行い、各マッチング待ち画像の特徴表現を得るように構成され、ここで、特徴表現は、若干の第１ローカル特徴を含み、特徴変換部４３は、第１ローカル特徴を、マッチング待ち画像のグローバル受容野を有する第１変換特徴に変換するように構成され、特徴マッチング部４４は、少なくとも２つのマッチング待ち画像における第１変換特徴に対してマッチングを行い、少なくとも２つのマッチング待ち画像の第１マッチング結果を得るように構成される。

いくつかの実施例において、特徴表現は、第１特徴マップと、第２特徴マップと、を含み、第１特徴マップの解像度は、第２特徴マップの解像度よりも小さく、第１特徴マップにおける特徴は、第１ローカル特徴であり、第２特徴マップにおける特徴は、第２ローカル特徴であり、少なくとも２つのマッチング待ち画像における第１変換特徴に対してマッチングを行い、少なくとも２つのマッチング待ち画像の第１マッチング結果を得た後、特徴マッチング部４１は更に、第１マッチング結果に基づいて、少なくとも２つのマッチング待ち画像の第２特徴マップから、マッチングブロックグループを抽出し、ここで、マッチングブロックグループは、少なくとも２つの特徴ブロックを含み、各特徴ブロックは、１つのマッチング待ち画像の第２特徴マップから抽出された複数の第２ローカル特徴を含み、マッチングブロックグループに対応する第２変換特徴に対してマッチングを行い、少なくとも２つのマッチング待ち画像の第２マッチング結果を得、ここで、第２変換特徴は、マッチングブロックグループにおける第２ローカル特徴であるか又はマッチングブロックグループにおける第２ローカル特徴に対して変換を行うことで得られたものであるように構成される。

上記方案において、まず、解像度が低い特徴マップにおける特徴マッチングを行い、更に、解像度が低い特徴マップのマッチング結果を利用して、解像度が高い特徴マップの特徴マッチングを行うことで、マッチングの正確度を更に向上させる。

いくつかの実施例において、マッチングブロックグループに対応する第２変換特徴に対してマッチングを行い、少なくとも２つのマッチング待ち画像の第２マッチング結果を得る前に、特徴変換部４３は更に、特徴ブロックにおける第２ローカル特徴を、特徴ブロックのグローバル受容野を有する第２変換特徴に変換するように構成される。

上記方案において、解像度が高い特徴マップの特徴を抽出し、特徴ブロックのグローバル受容野を有する特徴に変換し、更に、該特徴を利用して特徴マッチングを行うことで、解像度が高い特徴マッチングプロセスにおいて、特徴ブロックのグローバル情報を考慮することもでき、特徴マッチング結果をより正確にする。

いくつかの実施例において、特徴変換部４３は具体的には、第１ローカル特徴を第１ターゲット特徴とし、第１変換特徴を第２ターゲット特徴とし、各マッチング待ち画像をターゲット範囲とするか又は第２ローカル特徴を第１ターゲット特徴とし、第２変換特徴を第２ターゲット特徴とし、各特徴ブロックをターゲット範囲とし、第１ターゲット特徴に対する集約処理を行い、第２ターゲット特徴を得るように構成され、ここで、前記第１ターゲット特徴に対する集約処理は、同一の前記ターゲット範囲における前記第１ターゲット特徴に対する集約処理と、異なる前記ターゲット範囲における前記第１ターゲット特徴に対する集約処理と、のうちの少なくとも１つを含む。

上記方案において、同一のターゲット範囲におけるターゲット特徴に対して集約処理を行うことで、第２ターゲット特徴に、該ターゲット範囲のグローバル受容野を持たせることができ、及び／又は、異なるターゲット範囲における第１ターゲット特徴に対して集約処理を行うことで、得られた第２ターゲット特徴に、他のターゲット範囲のグローバル受容野を持たせることができる。

いくつかの実施例において、特徴変換部４３は具体的には、それぞれ各ターゲット範囲を現在ターゲット範囲とし、現在ターゲット範囲に対して、現在ターゲット範囲における各第１ターゲット特徴を現在ターゲット特徴とすることと、現在ターゲット範囲における現在ターゲット特徴と他の第１ターゲット特徴に対して集約を行い、現在ターゲット特徴に対応する第３ターゲット特徴を得ることと、現在ターゲット範囲の第３ターゲット特徴と他のターゲット範囲の第３ターゲット特徴に対して集約を行い、現在ターゲット特徴に対応する第４ターゲット特徴を得ることと、のうちの少なくとも１つの特徴変換を実行するように構成され、ここで、今回の特徴変換が最終回の特徴変換ではない場合、第４ターゲット特徴を次回の特徴変換における第１ターゲット特徴とし、今回の特徴変換が最終回の特徴変換である場合、第４ターゲット特徴を第２ターゲット特徴とする。

上記方案において、現在ターゲット範囲の第１ターゲット特徴に対して集約を行い、第３ターゲット特徴を得、異なるターゲット範囲の第３ターゲット特徴を利用して集約を行うことで、最終的に得られた第２ターゲット特徴に、現在ターゲット範囲のグローバル情報を持たせることができるだけでなく、他のターゲット範囲のグローバル情報を持たせることもでき、且つ、少なくとも１回のこのような特徴変換により、最終的な第２ターゲット特徴をより精確にし、それにより第２ターゲット特徴を利用して特徴マッチングを行う時、より正確な特徴マッチング結果を得ることができる。

いくつかの実施例において、現在ターゲット範囲における現在ターゲット特徴と他の第１ターゲット特徴に対して集約を行うステップは、変換モデルにおけるセルフアテンション層により実行され、現在ターゲット範囲の第３ターゲット特徴と他のターゲット範囲の第３ターゲット特徴に対して集約を行うステップは、変換モデルにおけるクロスアテンション層により実行される。

上記方案において、変換モデルにおけるセルフアテンション層及びクロスアテンション層により特徴変換を行うことで、現在ターゲット範囲と他のターゲット範囲のグローバル受容野を有するターゲット特徴を取得することを実現させることができる。

いくつかの実施例において、セルフアテンション層と、クロスアテンション層と、のうちの少なくとも１ついに用いられるメカニズムは、線形アテンションメカニズムである。

上記方案において、線形アテンションメカニズムを用いることで、特徴変換プロセスにおける複雑さを線形にすることができ、非線形アテンションメカニズムに比べて、特徴変換に必要な時間がより少なく、且つ複雑さがより低い。

いくつかの実施例において、少なくとも２つのマッチング待ち画像におけるマッチングした第１変換特徴は、マッチング特徴グループであり、マッチング特徴グループの、少なくとも２つのマッチング待ち画像のそれぞれにおける位置は、第１位置であり、第１マッチング結果は、第１位置の位置情報を表し、特徴ブロックの、マッチング待ち画像における対応する領域は、第１位置を含む。

上記方案において、第１マッチング結果によって得られた特徴ブロックに、マッチング特徴グループの、マッチング待ち画像における位置が含まれ、即ち、第１マッチング結果の位置に基づいて、２回目のマッチングの範囲を決定することで、２回目のマッチングの範囲選択を正確にし、更に、該範囲内の特徴に対して再び１回のマッチングを行うことで、マッチングの正確度を更に向上させる。

いくつかの実施例において、特徴マッチング部４４は具体的には、マッチングブロックグループにおける１つの特徴ブロックをターゲットブロックとし、ターゲットブロックにおける所定の位置の第２変換特徴をリファレンス特徴とし、マッチングブロックグループの他の特徴ブロックから、リファレンス特徴とマッチングした第２変換特徴を探し出し、リファレンス特徴及びそれにマッチングした第２変換特徴に基づいて、第２マッチング結果を得るように構成される。

上記方案において、ターゲットブロックにおける各第２変換特徴のマッチング特徴を探す必要がなく、ターゲットブロックにおける所定の位置の第２変換特徴のマッチング特徴を探すことで、マッチング特徴の探しの複雑さを低減させ、特徴マッチングプロセスにおいて消費される処理リソースを減少させることができる。

いくつかの実施例において、特徴マッチング部４４は具体的には、第１位置の、第２特徴マップにおける対応する第２位置を決定し、第２特徴マップから、第２位置を中心とした所定のサイズの特徴ブロックを抽出し、マッチングブロックグループを得るように構成される。

上記方案において、第１位置により第２位置を決定し、第２位置を中心とした所定のサイズの特徴ブロックを抽出することで、誤った特徴ブロックの抽出確率を減少させる。

いくつかの実施例において、所定の位置は、ターゲットブロックの中心である。

上記方案において、特徴ブロックの中心がマッチング特徴グループにおける１つの特徴であるため、該特徴をリファレンス特徴とすることで、算出された、他の特徴ブロックにおける各第２変換特徴とのマッチング関係をより正確にする。

いくつかの実施例において、特徴マッチング部４４は具体的には、リファレンス特徴と他の特徴ブロックにおける各第２変換特徴のそれぞれとのマッチング関係を取得し、マッチング関係に基づいて、他の特徴ブロックから、リファレンス特徴とマッチングした第２変換特徴を探し出すように構成される。

上記方案において、リファレンス特徴と他の特徴ブロックにおける各第２変換特徴とのマッチング関係を取得することで、リファレンス特徴の特徴マッチングを実現させることができる。

いくつかの実施例において、特徴マッチング部４４は具体的には、リファレンス特徴と他の特徴ブロックにおける第２変換特徴に対して相関操作を行い、ヒートマップを得るように構成され、ここで、ヒートマップにおける異なる位置のヒート値は、リファレンス特徴と異なる第２変換特徴とのマッチング度合いを表し、マッチング関係に基づいて、他の特徴ブロックから、リファレンス特徴とマッチングした第２変換特徴を探し出すことは、所定の演算子を利用して、ヒートマップに対して処理を行い、リファレンス特徴とマッチングした第２変換特徴を得る。

上記方案において、ヒートマップを取得することで、リファレンス特徴と他の特徴ブロックにおける各第２変換特徴とのマッチング度合いを明確に表すことができる。

いくつかの実施例において、特徴抽出部４２は更に、第１ローカル特徴の、マッチング待ち画像における対応する位置情報を第１ローカル特徴に追加するステップと、若干の第１ローカル特徴を多次元配列から一次元配列に変換するステップと、のうちの少なくとも１つを実行するように構成される。

上記方案において、第１ローカル特徴の、マッチング待ち画像における対応する位置情報を第１ローカル特徴に追加することで、特徴変換後の第１変換特徴に、マッチング待ち画像におけるその位置情報を持たせることができる。なお、若干の第１ローカル特徴が多次元配列から一次元配列に変換されることで、変換モデルによる第１ローカル特徴の特徴変換を容易にする。

いくつかの実施例において、特徴マッチング部４４は具体的には、少なくとも２つのマッチング待ち画像における異なる第１変換特徴間のマッチング信頼度を取得し、マッチング信頼度に基づいて、少なくとも２つのマッチング待ち画像におけるマッチング特徴グループを決定し、ここで、マッチング特徴グループは、各マッチング待ち画像における１つの第１変換特徴を含み、マッチング特徴グループに基づいて、第１マッチング結果を得るように構成される。

上記方案において、異なる第１変換特徴間のマッチング信頼度を取得し、マッチング信頼度に基づいて、マッチング特徴グループを取得することで、最終的に得られたマッチング特徴グループの信頼度に需要を満たさせることができる。

いくつかの実施例において、特徴マッチング部４４は具体的には、少なくとも２つのマッチング待ち画像における異なる第１変換特徴間の類似度を取得し、最適運搬モードを利用して、類似度に対して処理を行い、少なくとも２つのマッチング待ち画像における異なる第１変換特徴間のマッチング信頼度を得るように構成される。

特徴マッチング部４４は更に、マッチング信頼度に基づいて、少なくとも２つのマッチング待ち画像におけるマッチング特徴グループを決定するように構成され、これは、少なくとも２つのマッチング待ち画像から、マッチング信頼度がマッチング条件に合致する第１変換特徴を選択してマッチング特徴グループを構成することを含む。

上記方案において、最適運搬モードで、異なる第１変換特徴間のマッチング信頼度を取得し、続いて、マッチング信頼度から、マッチング条件に合致する第１変換特徴を選択することで、最終的なマッチング特徴グループのマッチング度合いに需要を満たさせることができる。

図８を参照すると、図８は、本願の電子機器の一実施例の構造の概略図である。電子機器５０は、メモリ５１と、プロセッサ５２と、を備え、プロセッサ５２は、メモリ５１に記憶されているプログラム命令を実行し、上記画像特徴マッチング方法の実施例におけるステップを実現させる。１つの具体的な実施シーンにおいて、電子機器５０は、マイクロコンピュータ、サーバを含んでもよいが、それらに限らない。なお、電子機器５０は、ノートパソコン、タブレットあんどの携帯機器を更に含んでもよい。ここで限定しない。

具体的には、プロセッサ５２は、その自体及びメモリ５１を制御して、上記画像特徴マッチング方法の実施例におけるステップを実施する。プロセッサ５２は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：中央演算装置）と呼ばれてもよい。プロセッサ５２は、信号処理能力を持つ集積回路チップであってもよい。プロセッサ５２は、汎用プロセッサ、デジタル信号プロセッサ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ：ＤＳＰ）、特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ：ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ：ＦＰＧＡ）又は他のプログラマブルゲートアレイ、ディスクリートゲート又はトランジスタ論理デバイス、ディスクリートハードウェアコンポーネントであってもよい。汎用プロセッサは、マイクロプロセッサであってもよく、該プロセッサは、如何なる従来のプロセッサなどであってもよい。なお、プロセッサ８２は、集積回路チップにより共同で実現してもよい。

図９を参照すると、図９は、本願のコンピュータ可読記憶媒体の一実施例の構造の概略図である。コンピュータ可読記憶媒体６０に、プロセッサにより実行可能なプログラム命令６０１が記憶されており、プログラム命令６０１は、上記画像特徴マッチング方法の実施例におけるステップを実現させるように構成される。

本願の実施例は、コンピュータプログラムを更に提供する。前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行されるとき、前記電子機器におけるプロセッサに、上記画像特徴マッチング方法の実施例におけるステップを実行させる。

幾つかの実施例において、本願の実施例により提供される装置が有する機能又は含んでいるモジュールは、上記方法の実施例に記載の方法を実行するように構成されてもよく、その具体的な実現は、上記方法の実施例の記述を参照することができ、簡潔のために、ここで説明を省略する。

上記各実施例に対する説明は、各実施例間の相違を強調し、その同じまたは類似な所は相互に参照されることができ、簡潔のために、ここで説明を省略する。

本願で提供する幾つかの実施例で開示したシステム、装置及び方法は、他の方式によって実現できることを理解すべきである。以上に記載した装置の実施例はただ例示的なものであり、例えば、前記ユニットの分割はただロジック機能の分割で、実際に実現する時は他の分割方式によってもよい。また例えば、複数のユニット又はコンポーネントを組み合わせてもよく、別のシステムに組み込んでもよい。又は若干の特徴を無視してもよく、実行しなくてもよい。また、示したか或いは検討した相互間の結合又は直接的な結合又は通信接続は、幾つかの通信インタフェース、装置又はユニットによる間接的な結合又は通信接続であってもよく、電気的、機械的または他の形態であってもよい。

また、本願の各実施例における各機能ユニットは１つの処理ユニットに集積されてもよく、各ユニットが物理的に別個のものとして存在してもよく、２つ又は２つ以上のユニットが１つのユニットに集積されてもよい。上記集積したユニットは、ハードウェアの形式で実現してもよく、ソフトウェア機能ユニットの形式で実現してもよい。

集積したユニットは、ソフトウェア機能ユニットの形で実現され、かつ独立した製品として販売または使用されるとき、コンピュータにより読み取り可能な記憶媒体内に記憶されてもよいことに留意されたい。このような理解のもと、本願の実施例の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形式で具現することができ、このようなコンピュータソフトウェア製品は、記憶媒体に記憶しても良く、また、１台のコンピュータ機器（パソコン、サーバ、又はネットワーク装置など）又はプロセッサ（ｐｒｏｃｅｓｓｏｒ）に、本願の各実施例に記載の方法の全部又は一部のステップを実行させるための若干の命令を含む。前記の記憶媒体は、ＵＳＢメモリ、リムーバブルハードディスク、読み出し専用メモリ（ＲＯＭ：Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、磁気ディスク又は光ディスクなどの、プログラムコードを記憶できる種々の媒体を含む。

Claims

画像特徴マッチング方法であって、
少なくとも２つのマッチング待ち画像を取得することと、
各前記マッチング待ち画像に対してそれぞれ特徴抽出を行い、各前記マッチング待ち画像の特徴表現を得ることであって、前記特徴表現は、若干の第１ローカル特徴を含む、ことと、
前記第１ローカル特徴を、前記マッチング待ち画像のグローバル受容野を有する第１変換特徴に変換することと、
前記少なくとも２つのマッチング待ち画像における前記第１変換特徴に対してマッチングを行い、前記少なくとも２つのマッチング待ち画像の第１マッチング結果を得ることと、を含む、方法。
前記特徴表現は、第１特徴マップと、第２特徴マップと、を含み、前記第１特徴マップの解像度は、前記第２特徴マップの解像度よりも小さく、前記第１特徴マップにおける特徴は、前記第１ローカル特徴であり、前記第２特徴マップにおける特徴は、前記第２ローカル特徴であり、
前記少なくとも２つのマッチング待ち画像における前記第１変換特徴に対してマッチングを行い、前記少なくとも２つのマッチング待ち画像の第１マッチング結果を得た後、前記方法は、
前記第１マッチング結果に基づいて、前記少なくとも２つのマッチング待ち画像の第２特徴マップから、マッチングブロックグループを抽出することであって、前記マッチングブロックグループは、少なくとも２つの特徴ブロックを含み、各前記特徴ブロックは、１つの前記マッチング待ち画像の第２特徴マップから抽出された複数の第２ローカル特徴を含む、ことと、
前記マッチングブロックグループに対応する第２変換特徴に対してマッチングを行い、前記少なくとも２つのマッチング待ち画像の第２マッチング結果を得ることであって、前記第２変換特徴は、前記マッチングブロックグループにおける第２ローカル特徴であるか又は前記マッチングブロックグループにおける前記第２ローカル特徴に対して変換を行うことで得られたものである、ことと、を更に含むことを特徴とする
請求項１に記載の方法。
前記マッチングブロックグループに対応する第２変換特徴に対してマッチングを行い、前記少なくとも２つのマッチング待ち画像の第２マッチング結果を得る前に、前記方法は、
前記特徴ブロックにおける前記第２ローカル特徴を、前記特徴ブロックのグローバル受容野を有する第２変換特徴に変換することを更に含むことを特徴とする
請求項２に記載の方法。
前記第１ローカル特徴を、前記マッチング待ち画像のグローバル受容野を有する第１変換特徴に変換するか、又は前記特徴ブロックにおける前記第２ローカル特徴を、前記特徴ブロックのグローバル受容野を有する第２変換特徴に変換することは、
前記第１ローカル特徴を第１ターゲット特徴とし、第１変換特徴を第２ターゲット特徴とし、各前記マッチング待ち画像をターゲット範囲とするか、又は前記第２ローカル特徴を第１ターゲット特徴とし、前記第２変換特徴を第２ターゲット特徴とし、各前記特徴ブロックをターゲット範囲とすることと、
前記第１ターゲット特徴に対する集約処理を行い、前記第２ターゲット特徴を得ることと、を含み、前記第１ターゲット特徴に対する集約処理は、
同一の前記ターゲット範囲における前記第１ターゲット特徴に対する集約処理と、
異なる前記ターゲット範囲における前記第１ターゲット特徴に対する集約処理と、のうちの少なくとも１つを含むことを特徴とする
請求項１から３のうちいずれか一項に記載の方法。
前記第１ターゲット特徴に対する集約処理を行い、前記第２ターゲット特徴を得ることは、
それぞれ各前記ターゲット範囲を現在ターゲット範囲とし、前記現在ターゲット範囲に対して、
前記現在ターゲット範囲における各第１ターゲット特徴を現在ターゲット特徴とすることと、
前記現在ターゲット範囲における現在ターゲット特徴と他の前記第１ターゲット特徴に対して集約を行い、前記現在ターゲット特徴に対応する第３ターゲット特徴を得ることと、
前記現在ターゲット範囲の第３ターゲット特徴と他の前記ターゲット範囲の第３ターゲット特徴に対して集約を行い、前記現在ターゲット特徴に対応する第４ターゲット特徴を得ることと、のうちの少なくとも１つを実行することを含み、
今回の特徴変換が最終回の特徴変換ではない場合、前記第４ターゲット特徴を次回の特徴変換における第１ターゲット特徴とし、今回の特徴変換が最終回の特徴変換である場合、前記第４ターゲット特徴を前記第２ターゲット特徴とすることを特徴とする
請求項４に記載の方法。
前記現在ターゲット範囲における現在ターゲット特徴と他の前記第１ターゲット特徴に対して集約を行うステップは、変換モデルにおけるセルフアテンション層により実行され、
前記現在ターゲット範囲の第３ターゲット特徴と他の前記ターゲット範囲の第３ターゲット特徴に対して集約を行うことは、前記変換モデルにおけるクロスアテンション層により実行されることを特徴とする
請求項５に記載の方法。
前記セルフアテンション層と、前記クロスアテンション層と、のうちの少なくとも１ついに用いられるメカニズムは、線形アテンションメカニズムであることを特徴とする
請求項６に記載の方法。
前記少なくとも２つのマッチング待ち画像におけるマッチングした前記第１変換特徴は、マッチング特徴グループであり、前記マッチング特徴グループの、前記少なくとも２つのマッチング待ち画像のそれぞれにおける位置は、第１位置であり、前記第１マッチング結果は、前記第１位置の位置情報を表し、前記特徴ブロックの、前記マッチング待ち画像における対応する領域は、前記第１位置を含むことを特徴とする
請求項２から７のうちいずれか一項に記載の方法。
前記マッチングブロックグループに対応する第２変換特徴に対してマッチングを行い、前記少なくとも２つのマッチング待ち画像の第２マッチング結果を得ることは、
前記マッチングブロックグループにおける１つの特徴ブロックをターゲットブロックとし、前記ターゲットブロックにおける所定の位置の前記第２変換特徴をリファレンス特徴とすることであって、前記所定の位置は、前記ターゲットブロックの中心である、ことと、
前記マッチングブロックグループの他の前記特徴ブロックから、前記リファレンス特徴とマッチングした前記第２変換特徴を探し出すことと、
前記リファレンス特徴及びそれにマッチングした前記第２変換特徴に基づいて、前記第２マッチング結果を得ることと、を含むことを特徴とする
請求項２から８のうちいずれか一項に記載の方法。
前記第１マッチング結果に基づいて、前記少なくとも２つのマッチング待ち画像の第２特徴マップから、マッチングブロックグループを抽出することは、
前記第１位置の、前記第２特徴マップにおける対応する第２位置を決定することと、
前記第２特徴マップから、前記第２位置を中心とした所定のサイズの前記特徴ブロックを抽出し、前記マッチングブロックグループを得ることと、を含むことを特徴とする
請求項８又は９に記載の方法。
前記マッチングブロックグループの他の前記特徴ブロックから、前記リファレンス特徴とマッチングした前記第２変換特徴を探し出すことは、
前記リファレンス特徴と前記他の特徴ブロックにおける各前記第２変換特徴のそれぞれとのマッチング関係を取得することと、
前記マッチング関係に基づいて、前記他の特徴ブロックから、前記リファレンス特徴とマッチングした前記第２変換特徴を探し出すことと、を含むことを特徴とする
請求項９又は１０に記載の方法。
前記リファレンス特徴と前記他の特徴ブロックにおける各前記第２変換特徴とのマッチング関係を取得することは、
前記リファレンス特徴と前記他の特徴ブロックにおける前記第２変換特徴に対して相関操作を行い、ヒートマップを得ることであって、前記ヒートマップにおける異なる位置のヒート値は、前記リファレンス特徴と異なる前記第２変換特徴とのマッチング度合いを表す、ことを含み、
前記マッチング関係に基づいて、前記他の特徴ブロックから、前記リファレンス特徴とマッチングした前記第２変換特徴を探し出すことは、
所定の演算子を利用して、前記ヒートマップに対して処理を行い、前記リファレンス特徴とマッチングした前記第２変換特徴を得ることを含むことを特徴とする
請求項１１に記載の方法。
前記第１ローカル特徴を、前記マッチング待ち画像のグローバル受容野を有する第１変換特徴に変換する前に、前記方法は、
前記第１ローカル特徴の、前記マッチング待ち画像における対応する位置情報を前記第１ローカル特徴に追加することと、
前記若干の第１ローカル特徴を多次元配列から一次元配列に変換することと、のうちの少なくとも１つを更に含むことを特徴とする
請求項１から１２のうちいずれか一項に記載の方法。
前記少なくとも２つのマッチング待ち画像における前記第１変換特徴に対してマッチングを行い、前記少なくとも２つのマッチング待ち画像の第１マッチング結果を得ることは、
前記少なくとも２つのマッチング待ち画像における異なる前記第１変換特徴間のマッチング信頼度を取得することと、
前記マッチング信頼度に基づいて、前記少なくとも２つのマッチング待ち画像におけるマッチング特徴グループを決定することであって、前記マッチング特徴グループは、各前記マッチング待ち画像における１つの前記第１変換特徴を含む、ことと、
前記マッチング特徴グループに基づいて、前記第１マッチング結果を得ることと、を含むことを特徴とする
請求項１から１３のうちいずれか一項に記載の方法。
前記少なくとも２つのマッチング待ち画像における異なる前記第１変換特徴間のマッチング信頼度を取得することは、
前記少なくとも２つのマッチング待ち画像における異なる第１変換特徴間の類似度を取得することと、
最適運搬モードを利用して、前記類似度に対して処理を行い、前記少なくとも２つのマッチング待ち画像における異なる前記第１変換特徴間のマッチング信頼度を得ることと、を含むことを特徴とする
請求項１４に記載の方法。
前記マッチング信頼度に基づいて、前記少なくとも２つのマッチング待ち画像におけるマッチング特徴グループを決定することは、
前記少なくとも２つのマッチング待ち画像から、前記マッチング信頼度がマッチング条件に合致する前記第１変換特徴を選択してマッチング特徴グループを構成することを含むことを特徴とする
請求項１４又は１５に記載の方法。
画像特徴マッチング装置であって、
少なくとも２つのマッチング待ち画像を取得するように構成される画像取得部と、
各前記マッチング待ち画像に対してそれぞれ特徴抽出を行い、各前記マッチング待ち画像の特徴表現を得るように構成される特徴抽出部であって、ここで、前記特徴表現は、若干の第１ローカル特徴を含む、特徴抽出部と、
前記第１ローカル特徴を、前記マッチング待ち画像のグローバル受容野を有する第１変換特徴に変換するように構成される特徴変換部と、
前記少なくとも２つのマッチング待ち画像における前記第１変換特徴に対してマッチングを行い、前記少なくとも２つのマッチング待ち画像の第１マッチング結果を得るように構成される特徴マッチング部と、を備える、画像特徴マッチング装置。
メモリと、プロセッサと、を備える電子機器であって、前記プロセッサは、前記メモリに記憶されているプログラム命令を実行し、請求項１から１６のうちいずれか一項に記載の画像特徴マッチング方法を実施する、電子機器。
プロセッサにより実行されるとき、前記プロセッサに請求項１から１６のうちいずれか一項に記載の画像特徴マッチング方法を実行させるためのプログラム命令を記憶した、コンピュータ可読記憶媒体。
電子機器で実行されるとき、前記電子機器におけるプロセッサに、請求項１から１６のうちいずれか一項に記載の画像特徴マッチング方法を実行させるためのコンピュータ可読コードを含む、コンピュータプログラム。