JP2022531938A - ピクチャ検索方法及び装置 - Google Patents

ピクチャ検索方法及び装置 Download PDF

Info

Publication number
JP2022531938A
JP2022531938A JP2021566478A JP2021566478A JP2022531938A JP 2022531938 A JP2022531938 A JP 2022531938A JP 2021566478 A JP2021566478 A JP 2021566478A JP 2021566478 A JP2021566478 A JP 2021566478A JP 2022531938 A JP2022531938 A JP 2022531938A
Authority
JP
Japan
Prior art keywords
picture
scale
feature
target
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021566478A
Other languages
English (en)
Inventor
▲曠▼章▲輝▼
▲張▼▲偉▼
宋泓臻
▲陳▼益民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sensetime Technology Co Ltd
Original Assignee
Shenzhen Sensetime Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sensetime Technology Co Ltd filed Critical Shenzhen Sensetime Technology Co Ltd
Publication of JP2022531938A publication Critical patent/JP2022531938A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/86Arrangements for image or video recognition or understanding using pattern recognition or machine learning using syntactic or structural representations of the image or video pattern, e.g. symbolic string recognition; using graph matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Library & Information Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本願は、ピクチャ検索方法及び装置を提供する。該方法は、所定の複数のスケールのうちの各スケールに応じて、第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記第1ピクチャに対応する第1特徴マップ及び前記第2ピクチャに対応する第2特徴マップを得ることと、前記所定の複数のスケールのいずれか1つのターゲットスケール組み合わせに対して、任意の2つの空間位置に位置する前記第1特徴マップと前記第2特徴マップとの間の類似度値を算出することと、各前記ターゲットスケール組み合わせに対応する前記類似度値に基づいて、無向グラフを作成することと、前記無向グラフを事前構築されたグラフニューラルネットワークに入力し、前記グラフニューラルネットワークの出力結果に基づいて、前記第2ピクチャが前記第1ピクチャとマッチングするかどうかを決定することと、を含む。

Description

本願は、画像処理分野に関し、特にピクチャ検索方法及び装置に関する。
既存のピクチャとピクチャライブラリにおけるピクチャに対してマッチングサーチを行う場合、ニューラルネットワークを利用して2枚のピクチャのグローバルな類似度を算出し、既存のピクチャとマッチングするピクチャをピクチャライブラリから見付けることができる。
しかしながら、2枚のピクチャのグローバルな類似度を算出する場合、ピクチャにおける背景干渉情報は、算出結果に大きな影響を与えてしまう。例えば、ピクチャの角度の相違、、ピクチャのコンテンツ情報の相違又は遮蔽などの要因により、最終的なサーチ結果が正確でないことを引き起こしてしまう。
本願は、ピクチャ検索方法及び装置を提供する。
本願の実施例の第1態様によれば、ピクチャ検索方法を提供する。前記方法は、所定の複数のスケールのうちの各スケールに応じて、第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記第1ピクチャに対応する第1特徴マップ及び前記第2ピクチャに対応する第2特徴マップを得ることであって、前記第2ピクチャは、ピクチャライブラリにおけるいずれか1つのピクチャである、ことと、前記所定の複数のスケールのいずれか1つのターゲットスケール組み合わせに対して、任意の2つの空間位置に位置する前記第1特徴マップと前記第2特徴マップとの間の類似度値を算出することであって、前記ターゲットスケール組み合わせは、前記第1特徴マップに対応する第1スケール及び前記第2特徴マップに対応する第2スケールを含み、前記第1スケール及び前記第2スケールはそれぞれ、前記所定の複数のスケールのうちの任意のスケールである、ことと、各前記ターゲットスケール組み合わせに対応する前記類似度値に基づいて、無向グラフを作成することと、前記無向グラフを事前構築されたグラフニューラルネットワークに入力し、前記グラフニューラルネットワークの出力結果に基づいて、前記第2ピクチャが前記第1ピクチャとマッチングするかどうかを決定することと、を含む。上記実施例において、所定の複数のスケールに応じて、第1ピクチャ及びピクチャライブラリにおける第2ピクチャに対して特徴抽出を行い、第1ピクチャに対応する第1特徴マップ及び第2ピクチャに対応する第2特徴マップを得て、任意の2つの空間位置に位置する第1特徴マップと第2特徴マップとの間の類似度値を算出し、ターゲットスケール組み合わせに対応する類似度値を得ることができる。各ターゲットスケール組み合わせに対応する類似度値に基づいて、無向グラフを作成する。無向グラフを事前構築されたグラフニューラルネットワークに入力することで、第2ピクチャが第1ピクチャとマッチングするターゲットピクチャに属するかどうかを決定することができる。上記プロセスにより、2枚のピクチャの全体スケールによりグローバルな類似度の分析することに限定されず、所定の複数のスケールにより、類似度の分析を行い、任意の2つの空間位置に位置する、第1スケールの第1ピクチャに対応する第1特徴マップと第2スケールの第2ピクチャに対応する第2特徴マップとの局所的類似度値に基づいて、2枚のピクチャがマッチングするかどうかを決定する。従って、マッチング精度がより高く、ロバスト性がより高い。
幾つかの任意選択的な実施例において、前記所定の複数のスケールは、第3スケール及び少なくとも1つの第4スケールを含み、前記第3スケールは、前記第1ピクチャにおける全ての画素点を含むスケールであり、前記第4スケールは、前記第3スケールより小さい。上記実施例において、所定の複数のスケールは、第3スケール及び少なくとも1つの第4スケールを含み、第3スケールは、第1ピクチャの全体スケールであり、第4スケールは、第3スケールより小さくてもよい。従って、第1ピクチャと第2ピクチャとの類似度を算出する場合、2枚のピクチャの全体類似度に限定されず、異なるスケールでのピクチャの間の類似度を考慮する。従って、マッチング結果の精度を向上させることができ、ロバスト性がより高い。
幾つかの任意選択的な実施例において、所定の複数のスケールに応じて、第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記第1ピクチャに対応する第1特徴マップ及び前記第2ピクチャに対応する第2特徴マップを得ることは、前記所定の複数のスケールのうちの各スケールに応じて、前記第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記各スケールで前記第1ピクチャに対応する複数の第1特徴点及び前記第2ピクチャに対応する複数の第2特徴点を得ることと、前記各スケールで前記第1ピクチャに対応する前記複数の第1特徴点のうち、各所定のプーリングウィンドウ内に位置する全ての第1特徴点のうちの特徴値が最も大きい前記第1特徴点を第1ターゲット特徴点とすることと、前記各スケールで前記第2ピクチャに対応する前記複数の第2特徴点のうち、前記各所定のプーリングウィンドウ内に位置する全ての第2特徴点のうちの特徴値が最も大きい前記第2特徴点を第2ターゲット特徴点とすることと、前記各スケールに対応する、前記第1ターゲット特徴点からなる第1特徴マップ及び前記第2ターゲット特徴点からなる第2特徴マップをそれぞれ得ることと、を含む。上記実施例において、最大プーリング化の方式で、各スケールでの第1ピクチャの複数の第1特徴点及び第2ピクチャの複数の第2特徴点に対して処理を行い、第1ピクチャ及び第2ピクチャにおける重要な要素情報に更に注目する。これにより、後続で第1特徴マップと第2特徴マップとの間の類似度値の算出の正確性を向上させると共に、演算量を低減させる。
幾つかの任意選択的な実施例において、任意の2つの空間位置に位置する前記第1特徴マップと前記第2特徴マップとの間の類似度値を算出し、ターゲットスケール組み合わせに対応する前記類似度値を得ることは、第1空間位置での、前記第1スケールに対応する前記第1特徴マップの特徴値と、第2空間位置での、前記第2スケールに対応する前記第2特徴マップの特徴値との差の平方和を算出することであって、前記第1空間位置は、前記第1特徴マップの任意のプーリングウィンドウ位置を表し、前記第2空間位置は、前記第2特徴マップの任意のプーリングウィンドウ位置を表す、ことと、前記平方和と所定の投影行列との積を算出することであって、前記所定の投影行列は、特徴差分ベクトル次元を低減させるための投影行列である、ことと、前記積のユークリッドノルムを算出することと、前記積と前記ユークリッドノルムとの商をターゲットスケール組み合わせに対応する前記類似度値とすることと、を含む。上記実施例において、任意の2つの空間位置での、第1スケールに対応する第1特徴マップと第2スケールに対応する第2特徴マップとの間の類似度値を算出することができる。ここで、第1スケールと第2スケールは同じであっても異なってもよく、利用可能性が高い。
幾つかの任意選択的な実施例において、各前記ターゲットスケール組み合わせに対応する前記類似度値に基づいて、無向グラフを作成することは、各前記ターゲットスケール組み合わせに対応する前記類似度値のうちの任意の2つの前記類似度値の間の重み値を決定し、前記重み値を正規化処理した後、正規化重み値を得ることと、各前記ターゲットスケール組み合わせに対応する前記類似度値をそれぞれ前記無向グラフのノードとし、前記正規化重み値を前記無向グラフの辺とし、前記無向グラフを作成することと、を含む。上記実施例において、無向グラフを作成する場合、各ターゲットスケール組み合わせに対応する前記類似度値を無向グラフのノードとし、任意の2つのノードの間の重み値を正規化処理した後に得られた正規化重み値を無向グラフの辺とし、無向グラフにより、複数のスケールでの2枚のピクチャの類似度を融合することで、マッチング結果の精度を向上させ、ロバスト性がより高い。
幾つかの任意選択的な実施例において、前記グラフニューラルネットワークの前記出力結果は、前記無向グラフの前記ノードの間の類似度の確率値を含み、前記グラフニューラルネットワークの出力結果に基づいて、前記第2ピクチャが前記第1ピクチャとマッチングするかどうかを決定することは、前記類似度の確率値が所定の閾値より大きい場合、前記第2ピクチャが前記第1ピクチャとマッチングすると決定することを含む。上記実施例において、無向グラフをグラフニューラルネットワークに入力し、グラフニューラルネットワークから出力された無向グラフのノードの間の類似度の確率値が所定の閾値より大きいかどうかに基づいて、第2ピクチャが第1ピクチャとマッチングするかどうかを決定することができる。ノードの間の類似度の確率値が大きい場合、第2ピクチャを第1ピクチャとマッチングするターゲットピクチャとする。上記プロセスにより、ピクチャライブラリから、第1ピクチャとマッチングするターゲットピクチャをより正確に見付けることができ、サーチ結果がより正確である。
本願の実施例の第2態様によれば、ピクチャ検索装置を提供する。前記装置は、所定の複数のスケールのうちの各スケールに応じて、第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記第1ピクチャに対応する第1特徴マップ及び前記第2ピクチャに対応する第2特徴マップを得るように構成される特徴抽出モジュールであって、前記第2ピクチャは、ピクチャライブラリにおけるいずれか1つのピクチャである、特徴抽出モジュールと、前記所定の複数のスケールのいずれか1つのターゲットスケール組み合わせに対して、任意の2つの空間位置に位置する前記第1特徴マップと前記第2特徴マップとの間の類似度値を算出するように構成される算出モジュールであって、前記ターゲットスケール組み合わせは、前記第1特徴マップに対応する第1スケール及び前記第2特徴マップに対応する第2スケールを含み、前記第1スケール及び前記第2スケールはそれぞれ、前記所定の複数のスケールのうちの任意のスケールである、算出モジュールと、各前記ターゲットスケール組み合わせに対応する前記類似度値に基づいて、無向グラフを作成するように構成される無向グラフ作成モジュールと、前記無向グラフを事前構築されたグラフニューラルネットワークに入力し、前記グラフニューラルネットワークの出力結果に基づいて、前記第2ピクチャが前記第1ピクチャとマッチングするかどうかを決定するように構成されるマッチング結果決定モジュールと、を備える。上記実施例において、2枚のピクチャの全体スケールによりグローバルな類似度の分析することに限定されず、所定の複数のスケールにより、類似度の分析を行い、任意の2つの空間位置に位置する、第1スケールの第1ピクチャに対応する第1特徴マップと第2スケールの第2ピクチャに対応する第2特徴マップとの局所的類似度値に基づいて、2枚のピクチャがマッチングするかどうかを決定する。従って、マッチング精度がより高く、ロバスト性がより高い。
本願の実施例の第3態様によれば、機器可読記憶媒体を提供する。前記記憶媒体に機器による実行可能な命令が記憶されており、前記機器による実行可能な命令は、上記第1態様のいずれか一項に記載のピクチャ検索方法を実行するように構成される。
本願の実施例の第4態様によれば、ピクチャ検索装置を提供する。前記装置は、プロセッサと、前記プロセッサによる実行可能な命令を記憶するための記憶媒体と、を備え、前記プロセッサは、前記記憶媒体に記憶される実行可能な命令を呼び出して、第1態様のいずれか一項に記載のピクチャ検索方法を実現させるように構成される。
本願の実施例の第5態様によれば、コンピュータプログラムを提供する。前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行される場合、前記電子機器におけるプロセッサは、第1態様のいずれか一項に記載の方法を実行する。
上記の一般的な説明及び後述する細部に関する説明は、例示及び説明のためのものに過ぎず、本願を限定するものではないことが理解されるべきである。
本願の一例示的な実施例によるピクチャ検索方法を示すフローチャートである。 本願の一例示的な実施例による異なるスケールに対応する第1ピクチャを示す概略図である。 本願の一例示的な実施例による異なるスケールに対応する第1ピクチャを示す概略図である。 本願の一例示的な実施例による異なるスケールに対応する第1ピクチャを示す概略図である。 本願の一例示的な実施例による異なるスケールに対応する第2ピクチャを示す概略図である。 本願の一例示的な実施例による異なるスケールに対応する第2ピクチャを示す概略図である。 本願の一例示的な実施例による異なるスケールに対応する第2ピクチャを示す概略図である。 本願の一例示的な実施例によるピクチャのピラミッド構造を示す概略図である。 本願の一例示的な実施例によるピクチャに対する空間ウィンドウの分割を示す概略図である。 本願の一例示的な実施例によるピクチャに対する空間ウィンドウの分割を示す概略図である。 本願の一例示的な実施例による類似度値のピラミッド構造を示す概略図である。 本願の一例示的な実施例によるターゲット無向グラフの構造を示す概略図である。 本願の一例示的な実施例によるスケールに応じてピクチャを分割することを示す概略図である。 本願の一例示的な実施例によるもう1つのピクチャ検索方法を示すフローチャートである。 本願の一例示的な実施例によるプーリング化処理を示す概略図である。 本願の一例示的な実施例によるプーリング化処理を示す概略図である。 本願の一例示的な実施例によるもう1つのピクチャ検索方法を示すフローチャートである。 本願の一例示的な実施例によるピクチャ検索ネットワークの構造を示す図である。 本願の一例示的な実施例によるピクチャ検索装置を示すブロック図である。 本願の一例示的な実施例によるピクチャ検索装置に用いられる構造を示す概略図である。
ここで添付した図面は、明細書に引き入れて本明細書の一部分を構成し、本願に適合する実施例を示し、かつ、明細書とともに本願の技術的解決手段を解釈することに用いられる。
ここで、例示的な実施例を説明し、その例を図面に示す。下記記述が図面に係る場合、別途明記されない限り、異なる図面における同一の数字は、同一又は類似する要素を表す。下記例示的な実施例に記載の実施形態は、本願と一致した全ての実施形態を表すものではない。逆に、それらは、添付の特許請求の範囲に詳述したような本願のいくつかの態様と一致する装置及び方法の例だけである。
本願において使用される用語は、特定の実施例を説明することだけを目的としており、本願を限定することは意図されていない。本願及び添付の特許請求の範囲で使用されるとき、単数形の「1つの」、「前記」及び「該」は、文脈が明らかに違うように示さない限り、複数形も含む意図である。本明細書において使用される「及び/又は」という用語は、列挙された1つ以上の関連する対象物の任意の又は全ての可能的な組み合わせを参照かつ包含することも理解されるべきである。
本願では、用語である第1、第2、第3などを用いて各種情報を記述する可能性があるが、これらの情報はこれらの用語に限定されないことが理解されるべきである。これらの用語は、同一種類の情報をお互いに区別するためだけに用いられる。例えば、本願の範囲を逸脱しない限り、第1情報は第2情報と称されてもよく、同様に、第2情報は第1情報と称されてもよい。文脈によっては、ここで使用される語句「とすれば」は「…場合」、「…時」又は「と決定されるのに応答して」と解釈される。
本願の実施例は、ピクチャ検索方法を提供する。該方法は、ピクチャ検索を行う機器又は装置に適用可能である。又は、該方法は、プロセッサによりコンピュータによる実行可能なコードを実行することで実行される。一例示的な実施例によるピクチャ検索方法を示す図1を参照すると、前記方法は、下記ステップを含む。
ステップ101において、所定の複数のスケール(scale)のうちの各スケールに応じて、第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記第1ピクチャに対応する第1特徴マップ及び前記第2ピクチャに対応する第2特徴マップを得る。
第1ピクチャは、マッチングサーチを必要とするターゲットピクチャであり、第2ピクチャは、ピクチャライブラリにおけるいずれか1枚のピクチャである。該ピクチャライブラリは、例えば、第1ピクチャのコンテンツに関連するピクチャライブラリである。ここで、第1ピクチャ及び第2ピクチャの大きさは、同じであってもよく、異なってもよい。本願は、これを限定しない。
例えば、第1ピクチャは、衣類に関わるピクチャである場合、ピクチャライブラリは、よく知られているDeepFashion及びStreet2Shopピクチャライブラリ、又は衣類に関連する他のピクチャライブラリであってもよい。第2ピクチャは、該ピクチャライブラリにおけるいずれか一枚のピクチャである。
特徴抽出を行う前に、まず、前記複数のスケールのうちの各スケールに対して、該スケールでの第1ピクチャ及び第2ピクチャに対応するピクチャをそれぞれ得ることができる。
例えば、得られた第1ピクチャの、スケール1(例えば、1 × 1)に対応するピクチャは、図2Aに示すとおりであり、スケール2(例えば、2 × 2)に対応するピクチャは、図2Bに示すとおりであり、スケール3(例えば、3 × 3)に対応するピクチャは、図2Cに示すとおりである。同様に、得られた第2ピクチャの、スケール1に対応するピクチャは、図3Aに示すとおりであり、スケール2に対応するピクチャは、図3Bに示すとおりであり、スケール3に対応するピクチャは、図3Cに示すとおりである。
この場合、例えば、図4に示すように、第1ピクチャ及び第2ピクチャに対してピクチャピラミッドをそれぞれ形成することができる。図2Aのピクチャを第1ピクチャのピクチャピラミッドの第1層とし、図2Bのピクチャを第1ピクチャのピクチャピラミッドの第2層とし、図2Cのピクチャを第1ピクチャのピクチャピラミッドの第3層とする。このように類推すると、第1ピクチャのピクチャピラミッドを得る。同様に、第2ピクチャのピクチャピラミッドを得ることができる。ピクチャピラミッドの各層はいずれも1つのスケールに対応する。
続いて、第1ピクチャのピクチャピラミッド及び第2ピクチャのピクチャピラミッドに対して、各スケールで第1ピクチャに対応する第1特徴マップ及び第2ピクチャに対応する第2特徴マップをそれぞれ取得する。
例えば、スケール集合{1,2,……L}におけるいずれか1つのスケールに対して、SIFT(Scale Invariant Feature Transform:スケール不変特徴変換)の方式又は訓練されたニューラルネットワークを利用して、第1ピクチャのピクチャピラミッドの第
Figure 2022531938000002
層のピクチャ及び第2ピクチャのピクチャピラミッドの第
Figure 2022531938000003
層のピクチャに対してそれぞれ特徴抽出を行い、スケール
Figure 2022531938000004
での第1ピクチャに対応する第1特徴マップ及びスケール
Figure 2022531938000005
での第2ピクチャに対応する第2特徴マップを得る。ここで、
Figure 2022531938000006
は、上記スケール集合におけるいずれか1つのスケールである。任意選択的に、訓練されたニューラルネットワークとしてgooglenetネットワークを用いることができる。本願は、これを限定するものではない。
例えば、図5Aに示すように、スケール集合におけるスケール2を利用して、第1ピクチャに対して、左上隅、左下隅、右上隅及び右下隅という4つの空間ウィンドウにそれぞれ対応する4つの第1特徴マップを抽出することができる。例えば、図5Bに示すように、スケール集合におけるスケール3を利用して、第2ピクチャに対して、9個の空間ウィンドウにそれぞれ対応する9個の第2特徴マップを抽出することができる。
ステップ102において、前記所定の複数のスケールのうちの各スケールに対して、任意の2つの空間位置に位置する前記第1特徴マップと前記第2特徴マップとの間の類似度値を算出する。
本願の実施例において、任意の2つの空間位置は、同じであってもよく、異なってもよい。ターゲットスケール組み合わせは、所定の複数のスケールのうちのいずれか1つの第1スケール及びいずれか1つの第2スケールを含み、第1スケールと第2スケールは、同じであってもよく、異なってもよい。ここで、第1特徴マップは、第1スケールに対応し、第2特徴マップは、第2スケールに対応する。
例えば、第1スケールをスケール2とすれば、第1ピクチャに対して、現在のスケールで、4つの空間ウィンドウにそれぞれ対応する4つの第1特徴マップをそれぞれ抽出することができる。第2スケールをスケール3とすれば、第2ピクチャに対して、9個の空間ウィンドウにそれぞれ対応する9個の第2特徴マップをそれぞれ抽出することができる。
この場合、スケール2及びスケール3からなるターゲットスケール組み合わせで、第1ピクチャの任意の1つの空間位置の第1特徴マップと第2ピクチャの任意の1つの空間位置の第2特徴マップとの間の類似度値を算出する必要がある。計4×9=36個の類似度値を算出する。
勿論、第2スケールと第1スケールが同じであり、いずれもスケール2であると、4×4=16個の類似度値を得る。
本願の実施例において、第1スケールと第2スケールが同じであることを例として、類似度値ピラミッドを得ることができる。例えば、図6に示すように、第1スケールと第2スケールがいずれもスケール1である場合、1つの類似度値を得て、即ち、グローバルな類似度値を得る。該類似度値は、類似度値ピラミッドの第1層とする。第1スケールと第2スケールがいずれもスケール2である場合、16個の局所的類似度値を得る。該16個の類似度値は、類似度値ピラミッドの第2層とする。第1スケールと第2スケールがいずれもスケール3である場合、81個の局所的類似度値を得る。該81個の類似度値は、類似度値ピラミッドの第3層とする。類推すると、類似度値ピラミッドを得ることができる。
ステップ103において、各前記ターゲットスケール組み合わせに対応する前記類似度値に基づいて、無向グラフを作成する。
本願の実施例において、例えば図7に示すように、ターゲット無向グラフの各ノードは、1つの類似度値に対応し、各類似度値は、1つのターゲットスケール組み合わせに対応し、ターゲット無向グラフの辺は、2つノードの間の重み値であらわされてもよく、該重み値は、正規化処理された正規化重み値であってもよい。ターゲット無向グラフにより、2枚のピクチャの間の類似度をより直観的に表すことができる。
ステップ104において、前記ターゲット無向グラフを事前構築されたターゲットグラフニューラルネットワークに入力し、前記ターゲットグラフニューラルネットワークの出力結果に基づいて、前記第2ピクチャが前記第1ピクチャとマッチングするターゲットピクチャに属するかどうかを決定する。
本願の実施例において、ターゲットグラフニューラルネットワークは、事前構築された、複数のグラフ畳み込み層及び非線形活性化関数ReLU層を含むグラフニューラルネットワークであってもよい。該グラフニューラルネットワークの出力結果は、無向グラフのノードの間の類似度の確率値である。
グラフニューラルネットワークを訓練する場合、サンプルピクチャライブラリにおける任意の2枚のタグ付きサンプルピクチャを用いて、まず、所定の複数のスケールのうちの各スケールで2枚のサンプルピクチャにそれぞれ対応するピクチャを得て、続いて、得られたピクチャに対してそれぞれ特徴抽出を行い、2枚のサンプルピクチャの、各スケールに対応する複数のサンプル特徴マップをそれぞれ得て、各ターゲットスケール組み合わせで、2枚のサンプル特徴マップの間の類似度値を算出し、各前記ターゲットスケール組み合わせに対応するサンプル特徴マップの間の前記類似度値に基づいて、サンプル無向グラフを作成する。上記プロセスは、ステップ101から103と同じであり、ここで、詳細な説明を省略する。
該2枚のサンプルピクチャがタグ又は他の情報を持つため、該2枚のサンプルピクチャがマッチングするかどうかを決定することができる。該2枚のサンプルピクチャがマッチングすると仮定すれば、サンプル無向グラフをグラフニューラルネットワークの入力値として、グラフニューラルネットワークを訓練し、マッチングする該2枚のサンプルピクチャにより、グラフニューラルネットワークから出力されたサンプル無向グラフのノードの間の類似度の確率値を所定の閾値より大きくすることで、本願の実施例に必要なターゲットグラフニューラルネットワークを得る。
本願の実施例において、ターゲットグラフニューラルネットワークが事前構築された後、ステップ103で得られたターゲット無向グラフをターゲットグラフニューラルネットワークに直接的に入力し、ターゲットグラフニューラルネットワークから出力されたターゲット無向グラフのノードの間の類似度の確率値に基づいて、第2ピクチャが第1ピクチャとマッチングするターゲットピクチャであるかどうかを決定することができる。
任意選択的に、ターゲット無向グラフのノードの間の類似度の確率値が所定の閾値より大きいと、第2ピクチャは、第1ピクチャとマッチングするターゲットピクチャであり、そうでなければ、第2ピクチャは、第1ピクチャとマッチングするターゲットピクチャではない。
本願の実施例において、ピクチャライブラリにおける各第2ピクチャに対して上記方式でサーチした後、該ピクチャライブラリにおける、第1ピクチャとマッチングするターゲットピクチャを得ることができる。
上記実施例において、所定の複数のスケールのうちの各スケールに応じて、第1ピクチャ及びピクチャライブラリにおける第2ピクチャに対して特徴抽出を行い、第1ピクチャに対応する複数の第1特徴マップ及び第2ピクチャに対応する複数の第2特徴マップを得る。前記所定の複数のスケールのいずれか1つのターゲットスケール組み合わせに対して、任意の2つの空間位置に位置する第1特徴マップと第2特徴マップとの間の類似度値を算出する。これにより、各ターゲットスケール組み合わせに対応する類似度値に基づいて、ターゲット無向グラフを作成する。ターゲット無向グラフを事前構築されたターゲットグラフニューラルネットワークに入力することで、第2ピクチャが第1ピクチャとマッチングするターゲットピクチャに属するかどうかを決定することができる。上記プロセスにより、2枚のピクチャの全体スケールによりグローバルな類似度の分析することに限定されず、所定の複数のスケールにより、類似度の分析を行い、任意の2つの空間位置に位置する、第1スケールの第1ピクチャに対応する第1特徴マップと第2スケールの第2ピクチャに対応する第2特徴マップとの局所的類似度値に基づいて、ピクチャの間がマッチングするかどうかを決定する。従って、マッチング精度がより高く、ロバスト性がより高い。
幾つかの任意選択的な実施例において、所定の複数のスケールは、第3スケール及び少なくとも1つの第4スケールを含む。ここで、第3スケールは、前記第1ピクチャにおける全ての画素点を含むスケールである。例えば、第3スケールは、スケール集合におけるスケール1であり、ピクチャの全体スケールに対応する。
第4スケールは、前記第3スケールより小さく、例えば、第4スケールはスケール2である。例えば、図8に示すように、対応的に、第1ピクチャ又は第2ピクチャを2×2個の小スケールのピクチャに分割する。
本願の実施例において、第1ピクチャと第2ピクチャとの全体類似度に限定されず、異なるスケールでのピクチャの間の類似度を考慮することで、マッチング結果の精度を向上させることができ、ロバスト性がより高い。
幾つかの任意選択的な実施例において、例えば図9に示すように、ステップ101は、下記ステップを含んでもよい。
ステップ101-1において、前記所定の複数のスケールのうちの各スケールに応じて、前記第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記各スケールで前記第1ピクチャに対応する複数の第1特徴点及び前記第2ピクチャに対応する複数の第2特徴点を得る。
本願の実施例において、まず、例えばスケール集合{1,2,…L}における各スケールのような所定の複数のスケールに応じて、第1ピクチャに対応するピクチャ及び第2ピクチャに対応するピクチャをそれぞれ得る。例えば、スケール2で、第1ピクチャは、4つのピクチャに対応し、第2ピクチャも4つのピクチャに対応する。
更に、例えばSIFT又は訓練されたニューラルネットワークを利用して、各スケールで第1ピクチャに対応するピクチャ及び第2ピクチャに対応するピクチャに対してそれぞれ特徴抽出を行い、各スケールで第1ピクチャに対応する複数の第1特徴点及び第2ピクチャに対応する複数の第2特徴点を得る。例えば、スケール2で、第1ピクチャに対応する4つのピクチャに対してそれぞれ特徴抽出を行い、スケール2で、第1ピクチャに対応する複数の第1特徴点を得ることができる。
任意選択的に、訓練されたニューラルネットワークとしてgooglenetネットワークを用いることができる。本願は、これを限定するものではない。
ステップ101-2において、前記各スケールで前記第1ピクチャに対応する前記複数の第1特徴点のうち、各所定のプーリングウィンドウ内に位置する全ての第1特徴点のうちの特徴値が最も大きい前記第1特徴点を第1ターゲット特徴点とする。
所定のプーリングウィンドウは、複数の特徴点を含む事前設定されたプーリングウィンドウである。本願の実施例において、各所定のプーリングウィンドウ内で、各所定のプーリングウィンドウに含まれる全ての特徴点に対して特徴次元低減を行うことができる。例えば、最大プーリング化の方式で、各所定のプーリングウィンドウに含まれる全ての特徴点から特徴値が最も大きい特徴点を選択して該所定のプーリングウィンドウに対応するターゲット特徴点とする。該所定のプーリングウィンドウ内の他の特徴点は捨てられてもよい。
例えば、所定のプーリングウィンドウ内に含まれる特徴点の数は、4であると、各スケールで第1ピクチャに対応する複数の第1特徴点のうち、図10Aに示すように、各所定のプーリングウィンドウ内の全ての第1特徴点のうちの特徴値が最も大きい第1特徴点を第1ターゲット特徴点とすることができる。例えば、図10Aにおいて、第1特徴点3を最初の所定のプーリングウィンドウ内の第1ターゲット特徴点とし、第1特徴点5を2番目の所定のプーリングウィンドウ内の第1ターゲット特徴点とする。
ステップ101-3において、前記各スケールで前記第2ピクチャに対応する前記複数の第2特徴点のうち、前記各所定のプーリングウィンドウ内に位置する全ての第2特徴点のうちの特徴値が最も大きい前記第2特徴点を第2ターゲット特徴点とする。
各スケールでの第1ピクチャに対してステップ101-2と同様な方式で、第2ターゲット特徴点を決定する。
上記ステップ101-2及び101-3は、各スケールでの第1ピクチャに対応する複数の第1特徴点及び第2ピクチャに対応する複数の第2特徴点に対してそれぞれ最大プーリング化処理を行う。本願の実施例において、最大プーリング化処理に限定されず、各スケールでの第1ピクチャに対応する複数の第1特徴点及び第2ピクチャに対応する複数の第2特徴点に対してそれぞれ平均プーリング化処理などを行うこともできる。ここで、平均プーリング化処理は、各所定のプーリングウィンドウ内の全ての特徴点の特徴値の平均値を求め、該平均値を該所定のプーリングウィンドウ内の画像領域に対応する特徴値とすることである。
例えば、図10Bに示すように、ある所定のプーリングウィンドウ内に4つの第1特徴点が含まれ、対応する特徴値は、それぞれ7、8、2、7である。4つの値の平均値は、6である。平均プーリング化処理を行う場合、該所定のプーリングウィンドウ内の画像領域の特徴値を平均値6と決定することができる。
ステップ101-4において、前記各スケールに対応する、前記第1ターゲット特徴点からなる第1特徴マップ及び前記第2ターゲット特徴点からなる第2特徴マップをそれぞれ得る。
各スケールに対して決定された全ての第1ターゲット特徴点は、各スケールに対応する第1特徴マップを構成し、全ての第2ターゲット特徴点は、各スケールに対応する第2特徴マップを構成する。
幾つかの任意選択的な実施例において、ステップ102に対して、下記式1により、ターゲットスケール組み合わせに対応する前記類似度値
Figure 2022531938000007
を算出することができる。
Figure 2022531938000008
ただし、
Figure 2022531938000009
は、第1スケール
Figure 2022531938000010
での第
Figure 2022531938000011
個の前記空間位置での、第1ピクチャの特徴値であり、
Figure 2022531938000012
は、第2スケール
Figure 2022531938000013
での第
Figure 2022531938000014
個の前記空間位置での、第2ピクチャの特徴値である。
Figure 2022531938000015
は、所定の投影行列であり、特徴差分ベクトルをC次元からD次元に低減させることができる。
Figure 2022531938000016
は、実数集合を表す。
Figure 2022531938000017
は、実数からなるD次元×C次元の行列を表す。
Figure 2022531938000018
は、*のL2ノルムであり、つまり、ユークリッドノルムである。i及びjはそれぞれプーリングウィンドウのインデックスを表す。例えば、第1スケールが3×3であると、iは、[1,9]にある任意の自然数であってもよく、第2スケールが2×2であると、jは、[1,4]にある任意の自然数であってもよい。
本願の実施例において、第1スケールと第2スケールが同じであるかどうかに関わらず、上記式1により、ターゲットスケール組み合わせに対応する前記類似度値を算出することもできる。ここで、ターゲットスケール組み合わせは、上記第1スケール及び第2スケールを含む。
幾つかの任意選択的な実施例において、例えば、図11に示すように、上記ステップ103は、下記ステップを含んでもよい。
ステップ103-1において、各前記ターゲットスケール組み合わせに対応する前記類似度値のうちの任意の2つの類似度値の間の重み値を決定する。
本願の実施例において、下記式2により、任意の2つの類似度値の間の重み値
Figure 2022531938000019
を直接的に算出することができる。
Figure 2022531938000020
ただし、
Figure 2022531938000021
である。
Figure 2022531938000022
は、各ノードの出力辺の線形変換行列に対応する。
Figure 2022531938000023
は、各ノードの入力辺の線形変換行列に対応する。
Figure 2022531938000024
は、実数集合を表す。
Figure 2022531938000025
は、実数からなるD次元xD次元の行列を表す。任意選択的に、スケール
Figure 2022531938000026
は、同じであってもよく、異なってもよい。
本願の実施例において、ターゲット無向グラフにおけるノードが同一のスケール
Figure 2022531938000027
の第1特徴マップと第2特徴マップとの間の類似度値であると、該ノードの重み値の算出方式は、式3に示すとおりである。
Figure 2022531938000028
ただし、argmaxは、最大値を求めるための演算である。
ターゲット無向グラフにおけるノードがスケール
Figure 2022531938000029
に対応する第1特徴マップとスケール
Figure 2022531938000030
に対応する第2特徴マップとの間の類似度値であり、
Figure 2022531938000031
が異なる場合、上記式3に対して適応的変換を行うことができる。式3を基礎として変換を行うことで得られた重み値の如何なる演算方式は、いずれも本願の保護範囲内に含まれる。
ステップ103-2において、前記重み値を正規化処理した後、正規化重み値を得る。
例えば、softmax関数のような正規化関数を利用して、2つの類似度値
Figure 2022531938000032
との間の重み値
Figure 2022531938000033
の正規化値を算出することができる。
ステップ103-3において、各前記ターゲットスケール組み合わせに対応する前記類似度値をそれぞれ前記ターゲット無向グラフのノードとし、前記正規化重み値を前記ターゲット無向グラフの辺とし、前記ターゲット無向グラフを作成する。
例えば、
Figure 2022531938000034
をターゲット無向グラフの2つのノードとすると、該2つのノード間の辺は、
Figure 2022531938000035
との間の正規化重み値である。上記方式でターゲット無向グラフを得ることができる。
幾つかの任意選択的な実施例において、上記ステップ104に対して、ステップ103で作成されたターゲット無向グラフを事前構築されたターゲットグラフニューラルネットワークに入力することができる。
本願の実施例において、ターゲットグラフニューラルネットワークを構築する場合、まず、複数のグラフ畳み込み層及び非線形活性化関数ReLU層を含むグラフニューラルネットワークを構築し、サンプルピクチャライブラリにおける任意の2枚のタグ付きサンプルピクチャを利用して、上記ステップ101から103と同様な方式でサンプル無向グラフを構築することができる。ここで、詳細な説明を省略する。
該2枚のサンプルピクチャがタグ又は他の情報を持つため、該2枚のサンプルピクチャがマッチングするかどうかを決定することができる。該2枚のサンプルピクチャがマッチングすると仮定すれば、サンプル無向グラフを該グラフニューラルネットワークの入力値として、グラフニューラルネットワークを訓練し、マッチングする該2枚のサンプルピクチャにより、グラフニューラルネットワークから出力されたサンプル無向グラフのノードの間の類似度の確率値を所定の閾値より大きくすることで、本願の実施例に必要なターゲットグラフニューラルネットワークを得る。
ターゲットグラフニューラルネットワークにおいて、例えばsoftmax関数のような正規化関数により、類似度の確率値を出力することができる。
本願の実施例において、ターゲット無向グラフを上記ターゲットグラフニューラルネットワークに入力することができる。スケール集合にスケールを追加する毎に得られたターゲット無向グラフは、異なる。例えば、スケール集合にスケール1及びスケール2のみが含まれる場合、ターゲット無向グラフ1を得る。スケール集合にスケール1、スケール2及びスケール3が含まれる場合、ターゲット無向グラフ2を得る。ターゲット無向グラフ1とターゲット無向グラフ2は異なる。ターゲットグラフニューラルネットワークは、スケール集合におけるスケールの数に応じてターゲット無向グラフを随時に更新することができる。
更に、上記ステップ104は、
前記類似度の確率値が所定の閾値より大きい場合、前記第2ピクチャが前記第1ピクチャとマッチングする前記ターゲットピクチャに属すると決定することを含んでもよい。
ターゲットグラフニューラルネットワークを利用して、入力されたターゲット無向グラフを分析し、出力されたターゲット無向グラフのノードの間の類似度の確率値に基づいて、類似度の確率値が所定の閾値より大きい第2ピクチャを第1ピクチャとマッチングするターゲットピクチャとする。
上記方式で、ピクチャライブラリにおける全てのピクチャをサーチし、第1ピクチャとマッチングするターゲットピクチャを得ることができる。
上記実施例において、異なるスケールでの第1ピクチャと第2ピクチャの局所的特徴を結合して、ピクチャの間の類似度を評価することができる。マッチング精度がより高く、ロバスト性がより高い。
幾つかの任意選択的な実施例において、例えば、ユーザがあるAppを閲覧する場合、該Appが当季の新しく登場された服装を推奨したことを発見した。ユーザは、もう1つのショッピングウェブサイトから、新しく登場された服装と類似する服装を購入したい。この場合、Appで提供された新しく登場された服装のピクチャを第1ピクチャとし、ショッピングウェブサイトで提供された全ての服装のピクチャを第2ピクチャとすることができる。
本願の実施例の上記ステップ101から104の方法により、ショッピングウェブサイトにおいて、ユーザの購入したい新しく登場された服装と類似する服装のピクチャが直接的に見つかることができる。ユーザは、発注して購入することができる。
また例えば、ユーザは、オフラインの実店舗で一台の家電が気に入った。ユーザは、ウェブサイトから類似する製品をサーチしたい。この場合、ユーザは、携帯電話などの端末により実店舗における家電の写真を撮り、撮られたピクチャを第1ピクチャとして、サーチしたいウェブサイトを開き、該ウェブサイトにおける全てのピクチャをいずれも第2ピクチャとする。
同様に、本願の実施例の上記ステップ101から104の方法により、該ウェブサイトにおいて、類似する家電のピクチャ及び該家電の価格が見つかることができる。ユーザは、価格がより低い家電を選択して購入することができる。
幾つかの任意選択的な実施例において、例えば、図12は、本願で提供されるピクチャ検索ネットワークの構造図である。
該ピクチャ検索ネットワークは、特徴抽出部と、類似度算出部と、マッチング結果決定部と、を備える。
ここで、第1ピクチャ及びピクチャライブラリにおける第2ピクチャに対して特徴抽出部により、特徴抽出を行い、複数のスケールでの第1ピクチャに対応する第1特徴マップ及び前記第2ピクチャに対応する第2特徴マップを得ることができる。任意選択的に、特徴抽出部としてgooglenetネットワークを用いることができる。ここで、第1ピクチャ及び第2ピクチャは、同一の特徴抽出器を共有してもよく、又は2つの特徴抽出器は、同一組のパラメータを共有してもよい。
更に、類似度算出部により、上記式1を用いて、同一の前記スケールで、同一の空間位置に位置する前記第1特徴マップと前記第2特徴マップとの間の類似度値を算出し、複数の類似度値を得ることができる。
更に、マッチング結果決定部により、まず、複数の類似度値に基づいて、ターゲット無向グラフを作成し、ターゲット無向グラフを事前構築されたターゲットグラフニューラルネットワークに入力し、ターゲットグラフニューラルネットワークに基づいて、図形推論を行い、最後に出力されたターゲット無向グラフの前記ノードの間の類似度の確率値に基づいて、第2ピクチャが第1ピクチャとマッチングするターゲットピクチャに属するかどうかを決定する。
上記実施例において、異なるスケールでの第1ピクチャと第2ピクチャの局所的特徴を結合して、ピクチャの間の類似度を評価することができ、マッチング精度がより高く、ロバスト性がより高い。
上記方法実施例に対応するように、本願は、装置の実施例を更に提供する。
図13に示すように、図13は、本願の一例示的な実施例によるピクチャ検索装置を示すブロック図である。装置は、所定の複数のスケールのうちの各スケールに応じて、第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記第1ピクチャに対応する第1特徴マップ及び前記第2ピクチャに対応する第2特徴マップを得るように構成される特徴抽出モジュール210であって、前記第2ピクチャは、ピクチャライブラリにおけるいずれか1つのピクチャである、特徴抽出モジュール210と、前記所定の複数のスケールのいずれか1つのターゲットスケール組み合わせに対して、任意の2つの空間位置に位置する前記第1特徴マップと前記第2特徴マップとの間の類似度値を算出するように構成される算出モジュール220であって、前記ターゲットスケール組み合わせは、前記第1特徴マップに対応する第1スケール及び前記第2特徴マップに対応する第2スケールを含み、前記第1スケール及び前記第2スケールはそれぞれ、前記所定の複数のスケールのうちの任意のスケールである、算出モジュール220と、各前記ターゲットスケール組み合わせに対応する前記類似度値に基づいて、無向グラフを作成するように構成される無向グラフ作成モジュール230と、前記無向グラフを事前構築されたグラフニューラルネットワークに入力し、前記グラフニューラルネットワークの出力結果に基づいて、前記第2ピクチャが前記第1ピクチャとマッチングするかどうかを決定するように構成されるマッチング結果決定モジュール240と、を備える。
上記実施例において、2枚のピクチャの全体スケールによりグローバルな類似度の分析することに限定されず、所定の複数のスケールにより、類似度の分析を行い、任意の2つの空間位置に位置する、第1スケールの第1ピクチャに対応する第1特徴マップと第2スケールの第2ピクチャに対応する第2特徴マップとの局所的類似度値に基づいて、2枚のピクチャがマッチングするかどうかを決定する。従って、マッチング精度がより高く、ロバスト性がより高い。
幾つかの任意選択的な実施例において、前記所定の複数のスケールは、第3スケール及び少なくとも1つの第4スケールを含み、前記第3スケールは、前記第1ピクチャにおける全ての画素点を含むスケールであり、前記第4スケールは、前記第3スケールより小さい。
上記実施例において、所定の複数のスケールは、第3スケール及び少なくとも1つの第4スケールを含み、第3スケールは、第1ピクチャの全体スケールであり、第4スケールは、第3スケールより小さくてもよい。従って、第1ピクチャと第2ピクチャとの類似度を算出する場合、2枚のピクチャの全体類似度に限定されず、異なるスケールでのピクチャの間の類似度を考慮する。従って、マッチング結果の精度を向上させることができ、ロバスト性がより高い。
幾つかの任意選択的な実施例において、前記特徴抽出モジュール210は、前記所定の複数のスケールのうちの各スケールに応じて、前記第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記各スケールで前記第1ピクチャに対応する複数の第1特徴点及び前記第2ピクチャに対応する複数の第2特徴点を得るように構成される特徴抽出サブモジュールと、前記各スケールで前記第1ピクチャに対応する前記複数の第1特徴点のうち、各所定のプーリングウィンドウ内に位置する全ての第1特徴点のうちの特徴値が最も大きい前記第1特徴点を第1ターゲット特徴点とするように構成される第1決定サブモジュールと、前記各スケールで前記第2ピクチャに対応する前記複数の第2特徴点のうち、前記各所定のプーリングウィンドウ内に位置する全ての第2特徴点のうちの特徴値が最も大きい前記第2特徴点を第2ターゲット特徴点とするように構成される第2決定サブモジュールと、前記各スケールに対応する、前記第1ターゲット特徴点からなる第1特徴マップ及び前記第2ターゲット特徴点からなる第2特徴マップをそれぞれ得るように構成される取得サブモジュールと、を備える。
上記実施例において、最大プーリング化の方式で、各スケールでの第1ピクチャの複数の第1特徴点及び第2ピクチャの複数の第2特徴点に対して処理を行い、第1ピクチャ及び第2ピクチャにおける重要な要素情報に更に注目する。これにより、後続で第1特徴マップと第2特徴マップとの間の類似度値の算出の正確性を向上させると共に、演算量を低減させる。
幾つかの任意選択的な実施例において、前記算出モジュール220は、第i個の空間位置での、前記第1スケールに対応する前記第1特徴マップの特徴値と、第j個の空間位置での、前記第2スケールに対応する前記第2特徴マップの特徴値との差の平方和を算出するように構成される第1算出サブモジュールと、前記平方和と所定の投影行列との積を算出するように構成される第2算出サブモジュールであって、前記所定の投影行列は、特徴差分ベクトル次元を低減させるための投影行列である、第2算出サブモジュールと、前記積のユークリッドノルムを算出するように構成される第3算出サブモジュールと、前記積と前記ユークリッドノルムとの商をターゲットスケール組み合わせに対応する前記類似度値とするように構成される第4算出サブモジュールと、を備える。
上記実施例において、任意の2つの空間位置での、第1スケールに対応する第1特徴マップと第2スケールに対応する第2特徴マップとの間の類似度値を算出することができる。ここで、第1スケールと第2スケールは同じであってもよく、異なってもよく、利用可能性が高い。
幾つかの任意選択的な実施例において、前記無向グラフ作成モジュール230は、各前記ターゲットスケール組み合わせに対応する前記類似度値のうちの任意の2つの前記類似度値の間の重み値を決定するように構成される第3決定サブモジュールと、前記重み値を正規化処理した後、正規化重み値を得るように構成される正規化処理サブモジュールと、各前記ターゲットスケール組み合わせに対応する前記類似度値をそれぞれ前記無向グラフのノードとし、前記正規化重み値を前記無向グラフの辺とし、前記無向グラフを作成するように構成される無向グラフ作成サブモジュールと、を備える。
上記実施例において、無向グラフを作成する場合、各ターゲットスケール組み合わせに対応する前記類似度値を無向グラフのノードとし、任意の2つのノードの間の重み値を正規化処理した後に得られた正規化重み値を無向グラフの辺とし、ターゲット無向グラフにより、複数のスケールでの2枚のピクチャの類似度を融合することで、マッチング結果の精度を向上させ、ロバスト性がより高い。
幾つかの任意選択的な実施例において、前記ターゲットグラフニューラルネットワークの前記出力結果は、前記ターゲット無向グラフの前記ノードの間の類似度の確率値を含み、前記マッチング結果決定モジュール240は、前記類似度の確率値が所定の閾値より大きい場合、前記第2ピクチャが前記第1ピクチャとマッチングする前記ターゲットピクチャに属すると決定するように構成される第4決定サブモジュールを備える。
上記実施例において、ターゲット無向グラフをターゲットグラフニューラルネットワークに入力し、ターゲットグラフニューラルネットワークから出力されたターゲット無向グラフのノードの間の類似度の確率値が所定の閾値より大きいかどうかに基づいて、第2ピクチャが第1ピクチャとマッチングするターゲットピクチャであるかどうかを決定することができる。ノードの間の類似度の確率値が大きい場合、第2ピクチャを第1ピクチャとマッチングするターゲットピクチャとする。上記プロセスにより、ピクチャライブラリから、第1ピクチャとマッチングするターゲットピクチャをより正確に見付けることができ、サーチ結果がより正確である。
装置実施例にとって、それは、ほぼ方法実施例に対応する。従って、関連する部分は方法実施例の部分的な説明を参照すればよい。以上に記載した装置の実施例はただ例示的なものである。分離部材として説明したユニットは、物理的に別個のものであってもよいし、そうでなくてもよい。ユニットとして示された部材は、物理的ユニットであってもよいし、そうでなくてもよい。即ち、同一の位置に位置してもよいし、複数のネットワークユニットに分布してもよい。実際の需要に応じてそのうちの一部又は全てのユニットにより本願の方策の目的を実現することができる。当業者は創造的な労働を経ずに、理解し実施することができる。
本願の実施例は、機器可読記憶媒体を更に提供する。前記記憶媒体に、機器による実行可能な命令が記憶されており、前記機器による実行可能な命令は、上記いずれか一項に記載のピクチャ検索方法を実行するように構成される。
本願の実施例は、ピクチャ検索装置を更に提供する。前記装置は、プロセッサと、前記プロセッサによる実行可能な命令を記憶するための記憶媒体と、を備え、前記プロセッサは、前記記憶媒体に記憶される実行可能な命令を呼び出して、上記いずれか一項に記載のピクチャ検索方法を実現させるように構成される。
幾つかの任意選択的な実施例において、本願の実施例は、コンピュータプログラム製品を提供する。コンピュータプログラム製品は、コンピュータ可読コードを含み、コンピュータ可読コードが装置で実行される場合、装置におけるプロセッサは、上記いずれか1つの実施例で提供されるピクチャ検索方法を実現するための命令を実行する。
幾つかの任意選択的な実施例において、本願の実施例は、もう1つのコンピュータプログラム製品を更に提供する。前記コンピュータプログラム製品は、コンピュータ可読命令を記憶するためのものであり、命令が実行される場合、コンピュータに、上記いずれか1つの実施例で提供されるピクチャ検索方法を実行させる。
該コンピュータプログラム製品は、具体的には、ハードウェア、ソフトウェア又はそれらの組み合わせにより実現することができる。任意選択的な実施例において、前記コンピュータプログラム製品は具体的にはコンピュータ記憶媒体として具現化され、もう1つの任意選択的な実施例において、コンピュータプログラム製品は具体的には、例えば、ソフトウェア開発キット(Software Development Kit:SDK)などのようなソフトウェア製品として具現化される。
幾つかの任意選択的な実施例において、幾つかの実施例によるピクチャ検索装置1400の構造を示す概略図である図14に示すように、装置1400は、処理コンポーネント1422とメモリ1432で表されるメモリリソースとを備え、処理コンポーネント1422は、1つ又は複数のプロセッサを更に備える。該メモリリースは、アプリケーションプログラムのような、処理コンポーネント1422により実行される命令を記憶するためのものである。メモリ1432に記憶されているアプリケーションプログラムは、それぞれ一組の命令に対応する1つ又は1つ以上のモジュールを含んでもよい。なお、処理コンポーネント1422は、命令を実行して、上記いずれか1つのピクチャ検索方法を実行するように構成される。
装置1400は、装置1400の電源管理を実行するように構成される電源コンポーネント1426と、装置1400をネットワークに接続するように構成される有線又は無線ネットワークインタフェース1450と、入力出力(I/O)インタフェース1458を更に備えてもよい。装置1400は、Windows(登録商標) ServerTM、Mac OS XTM、Unix(登録商標)、Linux(登録商標)、FreeBSDTM又は類似するものような、メモリ1432に記憶されているオペレーティングシステムを実行することができる。
本願の実施例は、コンピュータプログラムを更に提供する。前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行される場合、前記電子機器におけるプロセッサは、前記方法を実行する。
当業者は明細書を検討し、ここで開示した発明を実践した後、本発明のその他の実施方案を容易に思いつくことができる。本願は、本願の実施例のいかなる変形、用途または適応的変化を含むことを目指し、これらの変化、変形、用途または適応的変化が、本開示の一般的な原理に従いかつ本開示に開示されない本技術分野の周知常識と慣用技術手段を含む。明細書と実施例は、ただ例示的なものであって、本願の本当の範囲と主旨は、以下の特許請求の範囲によって示される。
以上は、本願の好適な実施例に過ぎず、本願を限定するものではない。本発明の主旨及び原則内でのいずれの修正、等同の交換、改進などのすべてが本発明の保護範囲内に含まれる。
上記の一般的な説明及び後述する細部に関する説明は、例示及び説明のためのものに過ぎず、本願を限定するものではないことが理解されるべきである。
例えば、本願は以下の項目を提供する。
(項目1)
ピクチャ検索方法であって、前記方法は、所定の複数のスケールのうちの各スケールに応じて、第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記第1ピクチャに対応する第1特徴マップ及び前記第2ピクチャに対応する第2特徴マップを得ることであって、前記第2ピクチャは、ピクチャライブラリにおけるいずれか1つのピクチャである、ことと、
前記所定の複数のスケールのいずれか1つのターゲットスケール組み合わせに対して、任意の2つの空間位置に位置する前記第1特徴マップと前記第2特徴マップとの間の類似度値を算出することであって、前記ターゲットスケール組み合わせは、前記第1特徴マップに対応する第1スケール及び前記第2特徴マップに対応する第2スケールを含み、前記第1スケール及び前記第2スケールはそれぞれ、前記所定の複数のスケールのうちの任意のスケールである、ことと、
各前記ターゲットスケール組み合わせに対応する前記類似度値に基づいて、無向グラフを作成することと、
前記無向グラフを事前構築されたグラフニューラルネットワークに入力し、前記グラフニューラルネットワークの出力結果に基づいて、前記第2ピクチャが前記第1ピクチャとマッチングするかどうかを決定することと、を含むことを特徴とする、ピクチャ検索方法。
(項目2)
前記所定の複数のスケールは、第1ピクチャにおける全ての画素点を含むスケールであることを特徴とする
項目1に記載の方法。
(項目3)
所定の複数のスケールのうちの各スケールに応じて、第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記第1ピクチャに対応する第1特徴マップ及び前記第2ピクチャに対応する第2特徴マップを得ることは、
前記所定の複数のスケールのうちの各スケールに応じて、前記第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記各スケールで前記第1ピクチャに対応する複数の第1特徴点及び前記第2ピクチャに対応する複数の第2特徴点を得ることと、
前記各スケールで前記第1ピクチャに対応する前記複数の第1特徴点のうち、各所定のプーリングウィンドウ内に位置する全ての第1特徴点のうちの特徴値が最も大きい前記第1特徴点を第1ターゲット特徴点とすることと、
前記各スケールで前記第2ピクチャに対応する前記複数の第2特徴点のうち、前記各所定のプーリングウィンドウ内に位置する全ての第2特徴点のうちの特徴値が最も大きい前記第2特徴点を第2ターゲット特徴点とすることと、
前記各スケールに対応する、前記第1ターゲット特徴点からなる第1特徴マップ及び前記第2ターゲット特徴点からなる第2特徴マップをそれぞれ得ることと、を含むことを特徴とする
項目1又は2に記載の方法。
(項目4)
前記所定の複数のスケールのいずれか1つのターゲットスケール組み合わせに対して、任意の2つの空間位置に位置する前記第1特徴マップと前記第2特徴マップとの間の類似度値を算出することは、
第1空間位置での、前記第1スケールに対応する前記第1特徴マップの特徴値と、第2空間位置での、前記第2スケールに対応する前記第2特徴マップの特徴値との差の平方和を算出することであって、前記第1空間位置は、前記第1特徴マップの任意のプーリングウィンドウ位置を表し、前記第2空間位置は、前記第2特徴マップの任意のプーリングウィンドウ位置を表す、ことと、
前記平方和と所定の投影行列との積を算出することであって、前記所定の投影行列は、特徴差分ベクトル次元を低減させるための投影行列である、ことと、
前記積のユークリッドノルムを算出することと、
前記積と前記ユークリッドノルムとの商をターゲットスケール組み合わせに対応する前記類似度値とすることと、を含むことを特徴とする
項目1-3のうちいずれか一項に記載の方法。
(項目5)
各前記ターゲットスケール組み合わせに対応する前記類似度値に基づいて、無向グラフを作成することは、
各前記ターゲットスケール組み合わせに対応する前記類似度値のうちの任意の2つの前記類似度値の間の重み値を決定することと、
前記重み値を正規化処理した後、正規化重み値を得ることと、
各前記ターゲットスケール組み合わせに対応する前記類似度値をそれぞれ前記無向グラフのノードとし、前記正規化重み値を前記無向グラフの辺とし、前記無向グラフを作成することと、を含むことを特徴とする
項目1-4のうちいずれか一項に記載の方法。
(項目6)
前記グラフニューラルネットワークの前記出力結果は、前記無向グラフの前記ノードの間の類似度の確率値を含み、
前記グラフニューラルネットワークの出力結果に基づいて、前記第2ピクチャが前記第1ピクチャとマッチングするかどうかを決定することは、
前記類似度の確率値が所定の閾値より大きい場合、前記第2ピクチャが前記第1ピクチャとマッチングすると決定することを含むことを特徴とする
項目1-5のうちいずれか一項に記載の方法。
(項目7)
ピクチャ検索装置であって、前記装置は、
所定の複数のスケールのうちの各スケールに応じて、第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記第1ピクチャに対応する第1特徴マップ及び前記第2ピクチャに対応する第2特徴マップを得るように構成される特徴抽出モジュールであって、前記第2ピクチャは、ピクチャライブラリにおけるいずれか1つのピクチャである、特徴抽出モジュールと、
前記所定の複数のスケールのいずれか1つのターゲットスケール組み合わせに対して、任意の2つの空間位置に位置する前記第1特徴マップと前記第2特徴マップとの間の類似度値を算出するように構成される算出モジュールであって、前記ターゲットスケール組み合わせは、前記第1特徴マップに対応する第1スケール及び前記第2特徴マップに対応する第2スケールを含み、前記第1スケール及び前記第2スケールはそれぞれ、前記所定の複数のスケールのうちの任意のスケールである、算出モジュールと、
各前記ターゲットスケール組み合わせに対応する前記類似度値に基づいて、無向グラフを作成するように構成される無向グラフ作成モジュールと、
前記無向グラフを事前構築されたグラフニューラルネットワークに入力し、前記グラフニューラルネットワークの出力結果に基づいて、前記第2ピクチャが前記第1ピクチャとマッチングするかどうかを決定するように構成されるマッチング結果決定モジュールと、を備えることを特徴とする、ピクチャ検索装置。
(項目8)
前記所定の複数のスケールは、第1ピクチャにおける全ての画素点を含むスケールであることを特徴とする
項目7に記載の装置。
(項目9)
前記特徴抽出モジュールは、
前記所定の複数のスケールのうちの各スケールに応じて、前記第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記各スケールで前記第1ピクチャに対応する複数の第1特徴点及び前記第2ピクチャに対応する複数の第2特徴点を得るように構成される特徴抽出サブモジュールと、
前記各スケールで前記第1ピクチャに対応する前記複数の第1特徴点のうち、各所定のプーリングウィンドウ内に位置する全ての第1特徴点のうちの特徴値が最も大きい前記第1特徴点を第1ターゲット特徴点とするように構成される第1決定サブモジュールと、
前記各スケールで前記第2ピクチャに対応する前記複数の第2特徴点のうち、前記各所定のプーリングウィンドウ内に位置する全ての第2特徴点のうちの特徴値が最も大きい前記第2特徴点を第2ターゲット特徴点とするように構成される第2決定サブモジュールと、
前記各スケールに対応する、前記第1ターゲット特徴点からなる第1特徴マップ及び前記第2ターゲット特徴点からなる第2特徴マップをそれぞれ得るように構成される取得サブモジュールと、を備えることを特徴とする
項目7又は8に記載の装置。
(項目10)
前記算出モジュールは、
第1空間位置での、前記第1スケールに対応する前記第1特徴マップの特徴値と、第2空間位置での、前記第2スケールに対応する前記第2特徴マップの特徴値との差の平方和を算出するように構成される第1算出サブモジュールであって、前記第1空間位置は、前記第1特徴マップの任意のプーリングウィンドウ位置を表し、前記第2空間位置は、前記第2特徴マップの任意のプーリングウィンドウ位置を表す、第1算出サブモジュールと、
前記平方和と所定の投影行列との積を算出するように構成される第2算出サブモジュールであって、前記所定の投影行列は、特徴差分ベクトル次元を低減させるための投影行列である、第2算出サブモジュールと、
前記積のユークリッドノルムを算出するように構成される第3算出サブモジュールと、
前記積と前記ユークリッドノルムとの商をターゲットスケール組み合わせに対応する前記類似度値とするように構成される第4算出サブモジュールと、を備えることを特徴とする
項目7-9のうちいずれか一項に記載の装置。
(項目11)
前記無向グラフ作成モジュールは、
各前記ターゲットスケール組み合わせに対応する前記類似度値のうちの任意の2つの前記類似度値の間の重み値を決定するように構成される第3決定サブモジュールと、
前記重み値を正規化処理した後、正規化重み値を得るように構成される正規化処理サブモジュールと、
各前記ターゲットスケール組み合わせに対応する前記類似度値をそれぞれ前記無向グラフのノードとし、前記正規化重み値を前記無向グラフの辺とし、前記無向グラフを作成するように構成される無向グラフ作成サブモジュールと、を備えることを特徴とする
項目7-10のうちいずれか一項に記載の装置。
(項目12)
前記グラフニューラルネットワークの前記出力結果は、前記無向グラフの前記ノードの間の類似度の確率値を含み、
前記マッチング結果決定モジュールは、
前記類似度の確率値が所定の閾値より大きい場合、前記第2ピクチャが前記第1ピクチャとマッチングするかどうかを決定するように構成される第4決定サブモジュールを備えることを特徴とする
項目7-11のうちいずれか一項に記載の装置。
(項目13)
機器可読記憶媒体であって、前記記憶媒体に機器による実行可能な命令が記憶されており、前記機器による実行可能な命令は、項目1-6のうちいずれか一項に記載のピクチャ検索方法を実行するように構成されることを特徴とする、機器可読記憶媒体。
(項目14)
ピクチャ検索装置であって、前記装置は、
プロセッサと、
前記プロセッサによる実行可能な命令を記憶するための記憶媒体と、を備え、
前記プロセッサは、前記記憶媒体に記憶される実行可能な命令を呼び出して、項目1-6のうちいずれか一項に記載のピクチャ検索方法を実現させるように構成されることを特徴とする、ピクチャ検索装置。
(項目15)
コンピュータプログラムであって、前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行される場合、前記電子機器におけるプロセッサは、項目1-6のうちいずれか一項に記載の方法を実行することを特徴とする、コンピュータプログラム。

Claims (15)

  1. ピクチャ検索方法であって、前記方法は、所定の複数のスケールのうちの各スケールに応じて、第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記第1ピクチャに対応する第1特徴マップ及び前記第2ピクチャに対応する第2特徴マップを得ることであって、前記第2ピクチャは、ピクチャライブラリにおけるいずれか1つのピクチャである、ことと、
    前記所定の複数のスケールのいずれか1つのターゲットスケール組み合わせに対して、任意の2つの空間位置に位置する前記第1特徴マップと前記第2特徴マップとの間の類似度値を算出することであって、前記ターゲットスケール組み合わせは、前記第1特徴マップに対応する第1スケール及び前記第2特徴マップに対応する第2スケールを含み、前記第1スケール及び前記第2スケールはそれぞれ、前記所定の複数のスケールのうちの任意のスケールである、ことと、
    各前記ターゲットスケール組み合わせに対応する前記類似度値に基づいて、無向グラフを作成することと、
    前記無向グラフを事前構築されたグラフニューラルネットワークに入力し、前記グラフニューラルネットワークの出力結果に基づいて、前記第2ピクチャが前記第1ピクチャとマッチングするかどうかを決定することと、を含むことを特徴とする、ピクチャ検索方法。
  2. 前記所定の複数のスケールは、第1ピクチャにおける全ての画素点を含むスケールであることを特徴とする
    請求項1に記載の方法。
  3. 所定の複数のスケールのうちの各スケールに応じて、第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記第1ピクチャに対応する第1特徴マップ及び前記第2ピクチャに対応する第2特徴マップを得ることは、
    前記所定の複数のスケールのうちの各スケールに応じて、前記第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記各スケールで前記第1ピクチャに対応する複数の第1特徴点及び前記第2ピクチャに対応する複数の第2特徴点を得ることと、
    前記各スケールで前記第1ピクチャに対応する前記複数の第1特徴点のうち、各所定のプーリングウィンドウ内に位置する全ての第1特徴点のうちの特徴値が最も大きい前記第1特徴点を第1ターゲット特徴点とすることと、
    前記各スケールで前記第2ピクチャに対応する前記複数の第2特徴点のうち、前記各所定のプーリングウィンドウ内に位置する全ての第2特徴点のうちの特徴値が最も大きい前記第2特徴点を第2ターゲット特徴点とすることと、
    前記各スケールに対応する、前記第1ターゲット特徴点からなる第1特徴マップ及び前記第2ターゲット特徴点からなる第2特徴マップをそれぞれ得ることと、を含むことを特徴とする
    請求項1又は2に記載の方法。
  4. 前記所定の複数のスケールのいずれか1つのターゲットスケール組み合わせに対して、任意の2つの空間位置に位置する前記第1特徴マップと前記第2特徴マップとの間の類似度値を算出することは、
    第1空間位置での、前記第1スケールに対応する前記第1特徴マップの特徴値と、第2空間位置での、前記第2スケールに対応する前記第2特徴マップの特徴値との差の平方和を算出することであって、前記第1空間位置は、前記第1特徴マップの任意のプーリングウィンドウ位置を表し、前記第2空間位置は、前記第2特徴マップの任意のプーリングウィンドウ位置を表す、ことと、
    前記平方和と所定の投影行列との積を算出することであって、前記所定の投影行列は、特徴差分ベクトル次元を低減させるための投影行列である、ことと、
    前記積のユークリッドノルムを算出することと、
    前記積と前記ユークリッドノルムとの商をターゲットスケール組み合わせに対応する前記類似度値とすることと、を含むことを特徴とする
    請求項1-3のうちいずれか一項に記載の方法。
  5. 各前記ターゲットスケール組み合わせに対応する前記類似度値に基づいて、無向グラフを作成することは、
    各前記ターゲットスケール組み合わせに対応する前記類似度値のうちの任意の2つの前記類似度値の間の重み値を決定することと、
    前記重み値を正規化処理した後、正規化重み値を得ることと、
    各前記ターゲットスケール組み合わせに対応する前記類似度値をそれぞれ前記無向グラフのノードとし、前記正規化重み値を前記無向グラフの辺とし、前記無向グラフを作成することと、を含むことを特徴とする
    請求項1-4のうちいずれか一項に記載の方法。
  6. 前記グラフニューラルネットワークの前記出力結果は、前記無向グラフの前記ノードの間の類似度の確率値を含み、
    前記グラフニューラルネットワークの出力結果に基づいて、前記第2ピクチャが前記第1ピクチャとマッチングするかどうかを決定することは、
    前記類似度の確率値が所定の閾値より大きい場合、前記第2ピクチャが前記第1ピクチャとマッチングすると決定することを含むことを特徴とする
    請求項1-5のうちいずれか一項に記載の方法。
  7. ピクチャ検索装置であって、前記装置は、
    所定の複数のスケールのうちの各スケールに応じて、第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記第1ピクチャに対応する第1特徴マップ及び前記第2ピクチャに対応する第2特徴マップを得るように構成される特徴抽出モジュールであって、前記第2ピクチャは、ピクチャライブラリにおけるいずれか1つのピクチャである、特徴抽出モジュールと、
    前記所定の複数のスケールのいずれか1つのターゲットスケール組み合わせに対して、任意の2つの空間位置に位置する前記第1特徴マップと前記第2特徴マップとの間の類似度値を算出するように構成される算出モジュールであって、前記ターゲットスケール組み合わせは、前記第1特徴マップに対応する第1スケール及び前記第2特徴マップに対応する第2スケールを含み、前記第1スケール及び前記第2スケールはそれぞれ、前記所定の複数のスケールのうちの任意のスケールである、算出モジュールと、
    各前記ターゲットスケール組み合わせに対応する前記類似度値に基づいて、無向グラフを作成するように構成される無向グラフ作成モジュールと、
    前記無向グラフを事前構築されたグラフニューラルネットワークに入力し、前記グラフニューラルネットワークの出力結果に基づいて、前記第2ピクチャが前記第1ピクチャとマッチングするかどうかを決定するように構成されるマッチング結果決定モジュールと、を備えることを特徴とする、ピクチャ検索装置。
  8. 前記所定の複数のスケールは、第1ピクチャにおける全ての画素点を含むスケールであることを特徴とする
    請求項7に記載の装置。
  9. 前記特徴抽出モジュールは、
    前記所定の複数のスケールのうちの各スケールに応じて、前記第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記各スケールで前記第1ピクチャに対応する複数の第1特徴点及び前記第2ピクチャに対応する複数の第2特徴点を得るように構成される特徴抽出サブモジュールと、
    前記各スケールで前記第1ピクチャに対応する前記複数の第1特徴点のうち、各所定のプーリングウィンドウ内に位置する全ての第1特徴点のうちの特徴値が最も大きい前記第1特徴点を第1ターゲット特徴点とするように構成される第1決定サブモジュールと、
    前記各スケールで前記第2ピクチャに対応する前記複数の第2特徴点のうち、前記各所定のプーリングウィンドウ内に位置する全ての第2特徴点のうちの特徴値が最も大きい前記第2特徴点を第2ターゲット特徴点とするように構成される第2決定サブモジュールと、
    前記各スケールに対応する、前記第1ターゲット特徴点からなる第1特徴マップ及び前記第2ターゲット特徴点からなる第2特徴マップをそれぞれ得るように構成される取得サブモジュールと、を備えることを特徴とする
    請求項7又は8に記載の装置。
  10. 前記算出モジュールは、
    第1空間位置での、前記第1スケールに対応する前記第1特徴マップの特徴値と、第2空間位置での、前記第2スケールに対応する前記第2特徴マップの特徴値との差の平方和を算出するように構成される第1算出サブモジュールであって、前記第1空間位置は、前記第1特徴マップの任意のプーリングウィンドウ位置を表し、前記第2空間位置は、前記第2特徴マップの任意のプーリングウィンドウ位置を表す、第1算出サブモジュールと、
    前記平方和と所定の投影行列との積を算出するように構成される第2算出サブモジュールであって、前記所定の投影行列は、特徴差分ベクトル次元を低減させるための投影行列である、第2算出サブモジュールと、
    前記積のユークリッドノルムを算出するように構成される第3算出サブモジュールと、
    前記積と前記ユークリッドノルムとの商をターゲットスケール組み合わせに対応する前記類似度値とするように構成される第4算出サブモジュールと、を備えることを特徴とする
    請求項7-9のうちいずれか一項に記載の装置。
  11. 前記無向グラフ作成モジュールは、
    各前記ターゲットスケール組み合わせに対応する前記類似度値のうちの任意の2つの前記類似度値の間の重み値を決定するように構成される第3決定サブモジュールと、
    前記重み値を正規化処理した後、正規化重み値を得るように構成される正規化処理サブモジュールと、
    各前記ターゲットスケール組み合わせに対応する前記類似度値をそれぞれ前記無向グラフのノードとし、前記正規化重み値を前記無向グラフの辺とし、前記無向グラフを作成するように構成される無向グラフ作成サブモジュールと、を備えることを特徴とする
    請求項7-10のうちいずれか一項に記載の装置。
  12. 前記グラフニューラルネットワークの前記出力結果は、前記無向グラフの前記ノードの間の類似度の確率値を含み、
    前記マッチング結果決定モジュールは、
    前記類似度の確率値が所定の閾値より大きい場合、前記第2ピクチャが前記第1ピクチャとマッチングするかどうかを決定するように構成される第4決定サブモジュールを備えることを特徴とする
    請求項7-11のうちいずれか一項に記載の装置。
  13. 機器可読記憶媒体であって、前記記憶媒体に機器による実行可能な命令が記憶されており、前記機器による実行可能な命令は、請求項1-6のうちいずれか一項に記載のピクチャ検索方法を実行するように構成されることを特徴とする、機器可読記憶媒体。
  14. ピクチャ検索装置であって、前記装置は、
    プロセッサと、
    前記プロセッサによる実行可能な命令を記憶するための記憶媒体と、を備え、
    前記プロセッサは、前記記憶媒体に記憶される実行可能な命令を呼び出して、請求項1-6のうちいずれか一項に記載のピクチャ検索方法を実現させるように構成されることを特徴とする、ピクチャ検索装置。
  15. コンピュータプログラムであって、前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行される場合、前記電子機器におけるプロセッサは、請求項1-6のうちいずれか一項に記載の方法を実行することを特徴とする、コンピュータプログラム。
JP2021566478A 2019-08-29 2020-04-23 ピクチャ検索方法及び装置 Pending JP2022531938A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910806958.2A CN110532414B (zh) 2019-08-29 2019-08-29 一种图片检索方法及装置
CN201910806958.2 2019-08-29
PCT/CN2020/086455 WO2021036304A1 (zh) 2019-08-29 2020-04-23 图片检索方法及装置

Publications (1)

Publication Number Publication Date
JP2022531938A true JP2022531938A (ja) 2022-07-12

Family

ID=68665101

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021566478A Pending JP2022531938A (ja) 2019-08-29 2020-04-23 ピクチャ検索方法及び装置

Country Status (6)

Country Link
US (1) US20220084308A1 (ja)
JP (1) JP2022531938A (ja)
KR (1) KR20210145821A (ja)
CN (1) CN110532414B (ja)
TW (1) TWI770507B (ja)
WO (1) WO2021036304A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532414B (zh) * 2019-08-29 2022-06-21 深圳市商汤科技有限公司 一种图片检索方法及装置
CN111400591B (zh) * 2020-03-11 2023-04-07 深圳市雅阅科技有限公司 资讯信息推荐方法、装置、电子设备及存储介质
CN111598176B (zh) * 2020-05-19 2023-11-17 北京明略软件系统有限公司 一种图像匹配处理方法及装置
CN111651674B (zh) * 2020-06-03 2023-08-25 北京妙医佳健康科技集团有限公司 双向搜索方法、装置及电子设备
CN112381147B (zh) * 2020-11-16 2024-04-26 虎博网络技术(上海)有限公司 动态图片相似度模型建立、相似度计算方法和装置
CN112772384B (zh) * 2021-01-28 2022-12-20 深圳市协润科技有限公司 一种基于卷积神经网络的农水灌溉系统和方法
CN115035015A (zh) * 2021-02-23 2022-09-09 京东方科技集团股份有限公司 图片处理方法、装置、计算机设备及存储介质
CN113688814B (zh) * 2021-10-27 2022-02-11 武汉邦拓信息科技有限公司 图像识别方法及装置
CN114742171A (zh) * 2022-04-24 2022-07-12 中山大学 一种本征正交分解样本压缩方法、装置及存储介质
CN115455227B (zh) * 2022-09-20 2023-07-18 上海弘玑信息技术有限公司 图形界面的元素搜索方法及电子设备、存储介质
CN116433887B (zh) * 2023-06-12 2023-08-15 山东鼎一建设有限公司 基于人工智能的建筑物快速定位方法
CN117314561A (zh) * 2023-09-21 2023-12-29 苏州大学 一种元宇宙产品推荐方法、装置及计算机可读存储介质
CN117788842B (zh) * 2024-02-23 2024-06-07 腾讯科技(深圳)有限公司 图像检索方法及相关装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001005981A (ja) * 1999-06-04 2001-01-12 Mitsubishi Electric Inf Technol Center America Inc オブジェクト形状を表現する画像空間を順序付ける方法
JP2012048326A (ja) * 2010-08-24 2012-03-08 Toyota Central R&D Labs Inc 画像処理装置及びプログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10282431B1 (en) * 2015-12-18 2019-05-07 A9.Com, Inc. Image similarity-based group browsing
CN105447190B (zh) * 2015-12-18 2019-03-15 小米科技有限责任公司 基于卷积神经网络的图片检索方法、装置和服务器
US20180284735A1 (en) * 2016-05-09 2018-10-04 StrongForce IoT Portfolio 2016, LLC Methods and systems for industrial internet of things data collection in a network sensitive upstream oil and gas environment
CN106407891B (zh) * 2016-08-26 2019-06-28 东方网力科技股份有限公司 基于卷积神经网络的目标匹配方法及装置
US10043109B1 (en) * 2017-01-23 2018-08-07 A9.Com, Inc. Attribute similarity-based search
CN107239535A (zh) * 2017-05-31 2017-10-10 北京小米移动软件有限公司 相似图片检索方法及装置
CN108288067B (zh) * 2017-09-12 2020-07-24 腾讯科技(深圳)有限公司 图像文本匹配模型的训练方法、双向搜索方法及相关装置
CN109597907A (zh) * 2017-12-07 2019-04-09 深圳市商汤科技有限公司 服饰管理方法和装置、电子设备、存储介质
CN108563767B (zh) * 2018-04-19 2020-11-27 深圳市商汤科技有限公司 图像检索方法及装置
CN109857889B (zh) * 2018-12-19 2021-04-09 苏州科达科技股份有限公司 一种图像检索方法、装置、设备及可读存储介质
CN109960742B (zh) * 2019-02-18 2021-11-05 苏州科达科技股份有限公司 局部信息的搜索方法及装置
CN109919141A (zh) * 2019-04-09 2019-06-21 广东省智能制造研究所 一种基于骨架姿态的行人再识别方法
CN110532414B (zh) * 2019-08-29 2022-06-21 深圳市商汤科技有限公司 一种图片检索方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001005981A (ja) * 1999-06-04 2001-01-12 Mitsubishi Electric Inf Technol Center America Inc オブジェクト形状を表現する画像空間を順序付ける方法
JP2012048326A (ja) * 2010-08-24 2012-03-08 Toyota Central R&D Labs Inc 画像処理装置及びプログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BIN YANG ET AL: "Classification of Medical Images with Synergic Graph Convolutional Networks", 2019 IEEE 35TH INTERNATIONAL CONFERENCE ON DATA ENGINEERING WORKSHOP (ICDEW), JPN6022049851, 12 April 2019 (2019-04-12), US, pages 253 - 258, XP033571580, ISSN: 0004928110, DOI: 10.1109/ICDEW.2019.000-4 *
ZHANGHUI KUANG ET AL: "Fashion Retrieval via Graph Reasoning Networks on a Similarity Pyramid", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, JPN6022049855, 18 September 2020 (2020-09-18), US, ISSN: 0004928112 *
鈴木 哲平: "Segmentationのためのスーパーピクセル上でのGraph Convolutional Neu", 電子情報通信学会論文誌D VOLUMEJ101−D NO.8 [ONLINE], JPN6022049853, 1 August 2018 (2018-08-01), JP, pages 1120 - 1129, ISSN: 0004928111 *

Also Published As

Publication number Publication date
KR20210145821A (ko) 2021-12-02
WO2021036304A1 (zh) 2021-03-04
TWI770507B (zh) 2022-07-11
CN110532414A (zh) 2019-12-03
CN110532414B (zh) 2022-06-21
TW202109313A (zh) 2021-03-01
US20220084308A1 (en) 2022-03-17

Similar Documents

Publication Publication Date Title
JP2022531938A (ja) ピクチャ検索方法及び装置
CN106547744B (zh) 一种图像检索方法及系统
US10621185B2 (en) Method and apparatus for recalling search result based on neural network
WO2020140633A1 (zh) 文本主题提取方法、装置、电子设备及存储介质
CN108319633B (zh) 一种图像处理方法、装置及服务器、系统、存储介质
WO2019001481A1 (zh) 车辆外观特征识别及车辆检索方法、装置、存储介质、电子设备
CN111291765A (zh) 用于确定相似图片的方法和装置
EP2668618A1 (en) Method and system for comparing images
CN108288208B (zh) 基于图像内容的展示对象确定方法、装置、介质及设备
CN112000822B (zh) 多媒体资源排序方法、装置、电子设备及存储介质
CN112101360B (zh) 一种目标检测方法、装置以及计算机可读存储介质
CN110765882B (zh) 一种视频标签确定方法、装置、服务器及存储介质
US20210035187A1 (en) Device and method for item recommendation based on visual elements
CN110807110B (zh) 结合局部和全局特征的图片搜索方法、装置及电子设备
WO2022267388A1 (zh) 红树林高光谱图像分类方法、装置、电子设备及存储介质
CN107977948B (zh) 一种面向社群图像的显著图融合方法
CN113657087B (zh) 信息的匹配方法及装置
CN111507285A (zh) 人脸属性识别方法、装置、计算机设备和存储介质
CN108846404A (zh) 一种基于相关约束图排序的图像显著性检测方法及装置
CN111125397A (zh) 一种基于卷积神经网络的布料图像检索方法
CN111507288A (zh) 图像检测方法、装置、计算机设备和存储介质
CN111461196B (zh) 基于结构特征的快速鲁棒图像识别跟踪方法和装置
CN106407281B (zh) 图像检索方法及装置
CN111126457A (zh) 信息的获取方法和装置、存储介质和电子装置
CN111985616B (zh) 一种图像特征提取方法、图像检索方法、装置及设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211109

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211109

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221124

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230616