JP2022531938A - ピクチャ検索方法及び装置 - Google Patents
ピクチャ検索方法及び装置 Download PDFInfo
- Publication number
- JP2022531938A JP2022531938A JP2021566478A JP2021566478A JP2022531938A JP 2022531938 A JP2022531938 A JP 2022531938A JP 2021566478 A JP2021566478 A JP 2021566478A JP 2021566478 A JP2021566478 A JP 2021566478A JP 2022531938 A JP2022531938 A JP 2022531938A
- Authority
- JP
- Japan
- Prior art keywords
- picture
- scale
- feature
- target
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000013528 artificial neural network Methods 0.000 claims abstract description 62
- 238000000605 extraction Methods 0.000 claims abstract description 40
- 238000011176 pooling Methods 0.000 claims description 51
- 238000004364 calculation method Methods 0.000 claims description 35
- 239000011159 matrix material Substances 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/532—Query formulation, e.g. graphical querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/757—Matching configurations of points or features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/86—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using syntactic or structural representations of the image or video pattern, e.g. symbolic string recognition; using graph matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Library & Information Science (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
Abstract
Description
前記類似度の確率値が所定の閾値より大きい場合、前記第2ピクチャが前記第1ピクチャとマッチングする前記ターゲットピクチャに属すると決定することを含んでもよい。
例えば、本願は以下の項目を提供する。
(項目1)
ピクチャ検索方法であって、前記方法は、所定の複数のスケールのうちの各スケールに応じて、第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記第1ピクチャに対応する第1特徴マップ及び前記第2ピクチャに対応する第2特徴マップを得ることであって、前記第2ピクチャは、ピクチャライブラリにおけるいずれか1つのピクチャである、ことと、
前記所定の複数のスケールのいずれか1つのターゲットスケール組み合わせに対して、任意の2つの空間位置に位置する前記第1特徴マップと前記第2特徴マップとの間の類似度値を算出することであって、前記ターゲットスケール組み合わせは、前記第1特徴マップに対応する第1スケール及び前記第2特徴マップに対応する第2スケールを含み、前記第1スケール及び前記第2スケールはそれぞれ、前記所定の複数のスケールのうちの任意のスケールである、ことと、
各前記ターゲットスケール組み合わせに対応する前記類似度値に基づいて、無向グラフを作成することと、
前記無向グラフを事前構築されたグラフニューラルネットワークに入力し、前記グラフニューラルネットワークの出力結果に基づいて、前記第2ピクチャが前記第1ピクチャとマッチングするかどうかを決定することと、を含むことを特徴とする、ピクチャ検索方法。
(項目2)
前記所定の複数のスケールは、第1ピクチャにおける全ての画素点を含むスケールであることを特徴とする
項目1に記載の方法。
(項目3)
所定の複数のスケールのうちの各スケールに応じて、第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記第1ピクチャに対応する第1特徴マップ及び前記第2ピクチャに対応する第2特徴マップを得ることは、
前記所定の複数のスケールのうちの各スケールに応じて、前記第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記各スケールで前記第1ピクチャに対応する複数の第1特徴点及び前記第2ピクチャに対応する複数の第2特徴点を得ることと、
前記各スケールで前記第1ピクチャに対応する前記複数の第1特徴点のうち、各所定のプーリングウィンドウ内に位置する全ての第1特徴点のうちの特徴値が最も大きい前記第1特徴点を第1ターゲット特徴点とすることと、
前記各スケールで前記第2ピクチャに対応する前記複数の第2特徴点のうち、前記各所定のプーリングウィンドウ内に位置する全ての第2特徴点のうちの特徴値が最も大きい前記第2特徴点を第2ターゲット特徴点とすることと、
前記各スケールに対応する、前記第1ターゲット特徴点からなる第1特徴マップ及び前記第2ターゲット特徴点からなる第2特徴マップをそれぞれ得ることと、を含むことを特徴とする
項目1又は2に記載の方法。
(項目4)
前記所定の複数のスケールのいずれか1つのターゲットスケール組み合わせに対して、任意の2つの空間位置に位置する前記第1特徴マップと前記第2特徴マップとの間の類似度値を算出することは、
第1空間位置での、前記第1スケールに対応する前記第1特徴マップの特徴値と、第2空間位置での、前記第2スケールに対応する前記第2特徴マップの特徴値との差の平方和を算出することであって、前記第1空間位置は、前記第1特徴マップの任意のプーリングウィンドウ位置を表し、前記第2空間位置は、前記第2特徴マップの任意のプーリングウィンドウ位置を表す、ことと、
前記平方和と所定の投影行列との積を算出することであって、前記所定の投影行列は、特徴差分ベクトル次元を低減させるための投影行列である、ことと、
前記積のユークリッドノルムを算出することと、
前記積と前記ユークリッドノルムとの商をターゲットスケール組み合わせに対応する前記類似度値とすることと、を含むことを特徴とする
項目1-3のうちいずれか一項に記載の方法。
(項目5)
各前記ターゲットスケール組み合わせに対応する前記類似度値に基づいて、無向グラフを作成することは、
各前記ターゲットスケール組み合わせに対応する前記類似度値のうちの任意の2つの前記類似度値の間の重み値を決定することと、
前記重み値を正規化処理した後、正規化重み値を得ることと、
各前記ターゲットスケール組み合わせに対応する前記類似度値をそれぞれ前記無向グラフのノードとし、前記正規化重み値を前記無向グラフの辺とし、前記無向グラフを作成することと、を含むことを特徴とする
項目1-4のうちいずれか一項に記載の方法。
(項目6)
前記グラフニューラルネットワークの前記出力結果は、前記無向グラフの前記ノードの間の類似度の確率値を含み、
前記グラフニューラルネットワークの出力結果に基づいて、前記第2ピクチャが前記第1ピクチャとマッチングするかどうかを決定することは、
前記類似度の確率値が所定の閾値より大きい場合、前記第2ピクチャが前記第1ピクチャとマッチングすると決定することを含むことを特徴とする
項目1-5のうちいずれか一項に記載の方法。
(項目7)
ピクチャ検索装置であって、前記装置は、
所定の複数のスケールのうちの各スケールに応じて、第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記第1ピクチャに対応する第1特徴マップ及び前記第2ピクチャに対応する第2特徴マップを得るように構成される特徴抽出モジュールであって、前記第2ピクチャは、ピクチャライブラリにおけるいずれか1つのピクチャである、特徴抽出モジュールと、
前記所定の複数のスケールのいずれか1つのターゲットスケール組み合わせに対して、任意の2つの空間位置に位置する前記第1特徴マップと前記第2特徴マップとの間の類似度値を算出するように構成される算出モジュールであって、前記ターゲットスケール組み合わせは、前記第1特徴マップに対応する第1スケール及び前記第2特徴マップに対応する第2スケールを含み、前記第1スケール及び前記第2スケールはそれぞれ、前記所定の複数のスケールのうちの任意のスケールである、算出モジュールと、
各前記ターゲットスケール組み合わせに対応する前記類似度値に基づいて、無向グラフを作成するように構成される無向グラフ作成モジュールと、
前記無向グラフを事前構築されたグラフニューラルネットワークに入力し、前記グラフニューラルネットワークの出力結果に基づいて、前記第2ピクチャが前記第1ピクチャとマッチングするかどうかを決定するように構成されるマッチング結果決定モジュールと、を備えることを特徴とする、ピクチャ検索装置。
(項目8)
前記所定の複数のスケールは、第1ピクチャにおける全ての画素点を含むスケールであることを特徴とする
項目7に記載の装置。
(項目9)
前記特徴抽出モジュールは、
前記所定の複数のスケールのうちの各スケールに応じて、前記第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記各スケールで前記第1ピクチャに対応する複数の第1特徴点及び前記第2ピクチャに対応する複数の第2特徴点を得るように構成される特徴抽出サブモジュールと、
前記各スケールで前記第1ピクチャに対応する前記複数の第1特徴点のうち、各所定のプーリングウィンドウ内に位置する全ての第1特徴点のうちの特徴値が最も大きい前記第1特徴点を第1ターゲット特徴点とするように構成される第1決定サブモジュールと、
前記各スケールで前記第2ピクチャに対応する前記複数の第2特徴点のうち、前記各所定のプーリングウィンドウ内に位置する全ての第2特徴点のうちの特徴値が最も大きい前記第2特徴点を第2ターゲット特徴点とするように構成される第2決定サブモジュールと、
前記各スケールに対応する、前記第1ターゲット特徴点からなる第1特徴マップ及び前記第2ターゲット特徴点からなる第2特徴マップをそれぞれ得るように構成される取得サブモジュールと、を備えることを特徴とする
項目7又は8に記載の装置。
(項目10)
前記算出モジュールは、
第1空間位置での、前記第1スケールに対応する前記第1特徴マップの特徴値と、第2空間位置での、前記第2スケールに対応する前記第2特徴マップの特徴値との差の平方和を算出するように構成される第1算出サブモジュールであって、前記第1空間位置は、前記第1特徴マップの任意のプーリングウィンドウ位置を表し、前記第2空間位置は、前記第2特徴マップの任意のプーリングウィンドウ位置を表す、第1算出サブモジュールと、
前記平方和と所定の投影行列との積を算出するように構成される第2算出サブモジュールであって、前記所定の投影行列は、特徴差分ベクトル次元を低減させるための投影行列である、第2算出サブモジュールと、
前記積のユークリッドノルムを算出するように構成される第3算出サブモジュールと、
前記積と前記ユークリッドノルムとの商をターゲットスケール組み合わせに対応する前記類似度値とするように構成される第4算出サブモジュールと、を備えることを特徴とする
項目7-9のうちいずれか一項に記載の装置。
(項目11)
前記無向グラフ作成モジュールは、
各前記ターゲットスケール組み合わせに対応する前記類似度値のうちの任意の2つの前記類似度値の間の重み値を決定するように構成される第3決定サブモジュールと、
前記重み値を正規化処理した後、正規化重み値を得るように構成される正規化処理サブモジュールと、
各前記ターゲットスケール組み合わせに対応する前記類似度値をそれぞれ前記無向グラフのノードとし、前記正規化重み値を前記無向グラフの辺とし、前記無向グラフを作成するように構成される無向グラフ作成サブモジュールと、を備えることを特徴とする
項目7-10のうちいずれか一項に記載の装置。
(項目12)
前記グラフニューラルネットワークの前記出力結果は、前記無向グラフの前記ノードの間の類似度の確率値を含み、
前記マッチング結果決定モジュールは、
前記類似度の確率値が所定の閾値より大きい場合、前記第2ピクチャが前記第1ピクチャとマッチングするかどうかを決定するように構成される第4決定サブモジュールを備えることを特徴とする
項目7-11のうちいずれか一項に記載の装置。
(項目13)
機器可読記憶媒体であって、前記記憶媒体に機器による実行可能な命令が記憶されており、前記機器による実行可能な命令は、項目1-6のうちいずれか一項に記載のピクチャ検索方法を実行するように構成されることを特徴とする、機器可読記憶媒体。
(項目14)
ピクチャ検索装置であって、前記装置は、
プロセッサと、
前記プロセッサによる実行可能な命令を記憶するための記憶媒体と、を備え、
前記プロセッサは、前記記憶媒体に記憶される実行可能な命令を呼び出して、項目1-6のうちいずれか一項に記載のピクチャ検索方法を実現させるように構成されることを特徴とする、ピクチャ検索装置。
(項目15)
コンピュータプログラムであって、前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行される場合、前記電子機器におけるプロセッサは、項目1-6のうちいずれか一項に記載の方法を実行することを特徴とする、コンピュータプログラム。
Claims (15)
- ピクチャ検索方法であって、前記方法は、所定の複数のスケールのうちの各スケールに応じて、第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記第1ピクチャに対応する第1特徴マップ及び前記第2ピクチャに対応する第2特徴マップを得ることであって、前記第2ピクチャは、ピクチャライブラリにおけるいずれか1つのピクチャである、ことと、
前記所定の複数のスケールのいずれか1つのターゲットスケール組み合わせに対して、任意の2つの空間位置に位置する前記第1特徴マップと前記第2特徴マップとの間の類似度値を算出することであって、前記ターゲットスケール組み合わせは、前記第1特徴マップに対応する第1スケール及び前記第2特徴マップに対応する第2スケールを含み、前記第1スケール及び前記第2スケールはそれぞれ、前記所定の複数のスケールのうちの任意のスケールである、ことと、
各前記ターゲットスケール組み合わせに対応する前記類似度値に基づいて、無向グラフを作成することと、
前記無向グラフを事前構築されたグラフニューラルネットワークに入力し、前記グラフニューラルネットワークの出力結果に基づいて、前記第2ピクチャが前記第1ピクチャとマッチングするかどうかを決定することと、を含むことを特徴とする、ピクチャ検索方法。 - 前記所定の複数のスケールは、第1ピクチャにおける全ての画素点を含むスケールであることを特徴とする
請求項1に記載の方法。 - 所定の複数のスケールのうちの各スケールに応じて、第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記第1ピクチャに対応する第1特徴マップ及び前記第2ピクチャに対応する第2特徴マップを得ることは、
前記所定の複数のスケールのうちの各スケールに応じて、前記第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記各スケールで前記第1ピクチャに対応する複数の第1特徴点及び前記第2ピクチャに対応する複数の第2特徴点を得ることと、
前記各スケールで前記第1ピクチャに対応する前記複数の第1特徴点のうち、各所定のプーリングウィンドウ内に位置する全ての第1特徴点のうちの特徴値が最も大きい前記第1特徴点を第1ターゲット特徴点とすることと、
前記各スケールで前記第2ピクチャに対応する前記複数の第2特徴点のうち、前記各所定のプーリングウィンドウ内に位置する全ての第2特徴点のうちの特徴値が最も大きい前記第2特徴点を第2ターゲット特徴点とすることと、
前記各スケールに対応する、前記第1ターゲット特徴点からなる第1特徴マップ及び前記第2ターゲット特徴点からなる第2特徴マップをそれぞれ得ることと、を含むことを特徴とする
請求項1又は2に記載の方法。 - 前記所定の複数のスケールのいずれか1つのターゲットスケール組み合わせに対して、任意の2つの空間位置に位置する前記第1特徴マップと前記第2特徴マップとの間の類似度値を算出することは、
第1空間位置での、前記第1スケールに対応する前記第1特徴マップの特徴値と、第2空間位置での、前記第2スケールに対応する前記第2特徴マップの特徴値との差の平方和を算出することであって、前記第1空間位置は、前記第1特徴マップの任意のプーリングウィンドウ位置を表し、前記第2空間位置は、前記第2特徴マップの任意のプーリングウィンドウ位置を表す、ことと、
前記平方和と所定の投影行列との積を算出することであって、前記所定の投影行列は、特徴差分ベクトル次元を低減させるための投影行列である、ことと、
前記積のユークリッドノルムを算出することと、
前記積と前記ユークリッドノルムとの商をターゲットスケール組み合わせに対応する前記類似度値とすることと、を含むことを特徴とする
請求項1-3のうちいずれか一項に記載の方法。 - 各前記ターゲットスケール組み合わせに対応する前記類似度値に基づいて、無向グラフを作成することは、
各前記ターゲットスケール組み合わせに対応する前記類似度値のうちの任意の2つの前記類似度値の間の重み値を決定することと、
前記重み値を正規化処理した後、正規化重み値を得ることと、
各前記ターゲットスケール組み合わせに対応する前記類似度値をそれぞれ前記無向グラフのノードとし、前記正規化重み値を前記無向グラフの辺とし、前記無向グラフを作成することと、を含むことを特徴とする
請求項1-4のうちいずれか一項に記載の方法。 - 前記グラフニューラルネットワークの前記出力結果は、前記無向グラフの前記ノードの間の類似度の確率値を含み、
前記グラフニューラルネットワークの出力結果に基づいて、前記第2ピクチャが前記第1ピクチャとマッチングするかどうかを決定することは、
前記類似度の確率値が所定の閾値より大きい場合、前記第2ピクチャが前記第1ピクチャとマッチングすると決定することを含むことを特徴とする
請求項1-5のうちいずれか一項に記載の方法。 - ピクチャ検索装置であって、前記装置は、
所定の複数のスケールのうちの各スケールに応じて、第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記第1ピクチャに対応する第1特徴マップ及び前記第2ピクチャに対応する第2特徴マップを得るように構成される特徴抽出モジュールであって、前記第2ピクチャは、ピクチャライブラリにおけるいずれか1つのピクチャである、特徴抽出モジュールと、
前記所定の複数のスケールのいずれか1つのターゲットスケール組み合わせに対して、任意の2つの空間位置に位置する前記第1特徴マップと前記第2特徴マップとの間の類似度値を算出するように構成される算出モジュールであって、前記ターゲットスケール組み合わせは、前記第1特徴マップに対応する第1スケール及び前記第2特徴マップに対応する第2スケールを含み、前記第1スケール及び前記第2スケールはそれぞれ、前記所定の複数のスケールのうちの任意のスケールである、算出モジュールと、
各前記ターゲットスケール組み合わせに対応する前記類似度値に基づいて、無向グラフを作成するように構成される無向グラフ作成モジュールと、
前記無向グラフを事前構築されたグラフニューラルネットワークに入力し、前記グラフニューラルネットワークの出力結果に基づいて、前記第2ピクチャが前記第1ピクチャとマッチングするかどうかを決定するように構成されるマッチング結果決定モジュールと、を備えることを特徴とする、ピクチャ検索装置。 - 前記所定の複数のスケールは、第1ピクチャにおける全ての画素点を含むスケールであることを特徴とする
請求項7に記載の装置。 - 前記特徴抽出モジュールは、
前記所定の複数のスケールのうちの各スケールに応じて、前記第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記各スケールで前記第1ピクチャに対応する複数の第1特徴点及び前記第2ピクチャに対応する複数の第2特徴点を得るように構成される特徴抽出サブモジュールと、
前記各スケールで前記第1ピクチャに対応する前記複数の第1特徴点のうち、各所定のプーリングウィンドウ内に位置する全ての第1特徴点のうちの特徴値が最も大きい前記第1特徴点を第1ターゲット特徴点とするように構成される第1決定サブモジュールと、
前記各スケールで前記第2ピクチャに対応する前記複数の第2特徴点のうち、前記各所定のプーリングウィンドウ内に位置する全ての第2特徴点のうちの特徴値が最も大きい前記第2特徴点を第2ターゲット特徴点とするように構成される第2決定サブモジュールと、
前記各スケールに対応する、前記第1ターゲット特徴点からなる第1特徴マップ及び前記第2ターゲット特徴点からなる第2特徴マップをそれぞれ得るように構成される取得サブモジュールと、を備えることを特徴とする
請求項7又は8に記載の装置。 - 前記算出モジュールは、
第1空間位置での、前記第1スケールに対応する前記第1特徴マップの特徴値と、第2空間位置での、前記第2スケールに対応する前記第2特徴マップの特徴値との差の平方和を算出するように構成される第1算出サブモジュールであって、前記第1空間位置は、前記第1特徴マップの任意のプーリングウィンドウ位置を表し、前記第2空間位置は、前記第2特徴マップの任意のプーリングウィンドウ位置を表す、第1算出サブモジュールと、
前記平方和と所定の投影行列との積を算出するように構成される第2算出サブモジュールであって、前記所定の投影行列は、特徴差分ベクトル次元を低減させるための投影行列である、第2算出サブモジュールと、
前記積のユークリッドノルムを算出するように構成される第3算出サブモジュールと、
前記積と前記ユークリッドノルムとの商をターゲットスケール組み合わせに対応する前記類似度値とするように構成される第4算出サブモジュールと、を備えることを特徴とする
請求項7-9のうちいずれか一項に記載の装置。 - 前記無向グラフ作成モジュールは、
各前記ターゲットスケール組み合わせに対応する前記類似度値のうちの任意の2つの前記類似度値の間の重み値を決定するように構成される第3決定サブモジュールと、
前記重み値を正規化処理した後、正規化重み値を得るように構成される正規化処理サブモジュールと、
各前記ターゲットスケール組み合わせに対応する前記類似度値をそれぞれ前記無向グラフのノードとし、前記正規化重み値を前記無向グラフの辺とし、前記無向グラフを作成するように構成される無向グラフ作成サブモジュールと、を備えることを特徴とする
請求項7-10のうちいずれか一項に記載の装置。 - 前記グラフニューラルネットワークの前記出力結果は、前記無向グラフの前記ノードの間の類似度の確率値を含み、
前記マッチング結果決定モジュールは、
前記類似度の確率値が所定の閾値より大きい場合、前記第2ピクチャが前記第1ピクチャとマッチングするかどうかを決定するように構成される第4決定サブモジュールを備えることを特徴とする
請求項7-11のうちいずれか一項に記載の装置。 - 機器可読記憶媒体であって、前記記憶媒体に機器による実行可能な命令が記憶されており、前記機器による実行可能な命令は、請求項1-6のうちいずれか一項に記載のピクチャ検索方法を実行するように構成されることを特徴とする、機器可読記憶媒体。
- ピクチャ検索装置であって、前記装置は、
プロセッサと、
前記プロセッサによる実行可能な命令を記憶するための記憶媒体と、を備え、
前記プロセッサは、前記記憶媒体に記憶される実行可能な命令を呼び出して、請求項1-6のうちいずれか一項に記載のピクチャ検索方法を実現させるように構成されることを特徴とする、ピクチャ検索装置。 - コンピュータプログラムであって、前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行される場合、前記電子機器におけるプロセッサは、請求項1-6のうちいずれか一項に記載の方法を実行することを特徴とする、コンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910806958.2A CN110532414B (zh) | 2019-08-29 | 2019-08-29 | 一种图片检索方法及装置 |
CN201910806958.2 | 2019-08-29 | ||
PCT/CN2020/086455 WO2021036304A1 (zh) | 2019-08-29 | 2020-04-23 | 图片检索方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022531938A true JP2022531938A (ja) | 2022-07-12 |
Family
ID=68665101
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021566478A Pending JP2022531938A (ja) | 2019-08-29 | 2020-04-23 | ピクチャ検索方法及び装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20220084308A1 (ja) |
JP (1) | JP2022531938A (ja) |
KR (1) | KR20210145821A (ja) |
CN (1) | CN110532414B (ja) |
TW (1) | TWI770507B (ja) |
WO (1) | WO2021036304A1 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110532414B (zh) * | 2019-08-29 | 2022-06-21 | 深圳市商汤科技有限公司 | 一种图片检索方法及装置 |
CN111400591B (zh) * | 2020-03-11 | 2023-04-07 | 深圳市雅阅科技有限公司 | 资讯信息推荐方法、装置、电子设备及存储介质 |
CN111598176B (zh) * | 2020-05-19 | 2023-11-17 | 北京明略软件系统有限公司 | 一种图像匹配处理方法及装置 |
CN111651674B (zh) * | 2020-06-03 | 2023-08-25 | 北京妙医佳健康科技集团有限公司 | 双向搜索方法、装置及电子设备 |
CN112381147B (zh) * | 2020-11-16 | 2024-04-26 | 虎博网络技术(上海)有限公司 | 动态图片相似度模型建立、相似度计算方法和装置 |
CN112772384B (zh) * | 2021-01-28 | 2022-12-20 | 深圳市协润科技有限公司 | 一种基于卷积神经网络的农水灌溉系统和方法 |
CN115035015A (zh) * | 2021-02-23 | 2022-09-09 | 京东方科技集团股份有限公司 | 图片处理方法、装置、计算机设备及存储介质 |
CN113688814B (zh) * | 2021-10-27 | 2022-02-11 | 武汉邦拓信息科技有限公司 | 图像识别方法及装置 |
CN114742171A (zh) * | 2022-04-24 | 2022-07-12 | 中山大学 | 一种本征正交分解样本压缩方法、装置及存储介质 |
CN115455227B (zh) * | 2022-09-20 | 2023-07-18 | 上海弘玑信息技术有限公司 | 图形界面的元素搜索方法及电子设备、存储介质 |
CN116433887B (zh) * | 2023-06-12 | 2023-08-15 | 山东鼎一建设有限公司 | 基于人工智能的建筑物快速定位方法 |
CN117314561A (zh) * | 2023-09-21 | 2023-12-29 | 苏州大学 | 一种元宇宙产品推荐方法、装置及计算机可读存储介质 |
CN117788842B (zh) * | 2024-02-23 | 2024-06-07 | 腾讯科技(深圳)有限公司 | 图像检索方法及相关装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001005981A (ja) * | 1999-06-04 | 2001-01-12 | Mitsubishi Electric Inf Technol Center America Inc | オブジェクト形状を表現する画像空間を順序付ける方法 |
JP2012048326A (ja) * | 2010-08-24 | 2012-03-08 | Toyota Central R&D Labs Inc | 画像処理装置及びプログラム |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10282431B1 (en) * | 2015-12-18 | 2019-05-07 | A9.Com, Inc. | Image similarity-based group browsing |
CN105447190B (zh) * | 2015-12-18 | 2019-03-15 | 小米科技有限责任公司 | 基于卷积神经网络的图片检索方法、装置和服务器 |
US20180284735A1 (en) * | 2016-05-09 | 2018-10-04 | StrongForce IoT Portfolio 2016, LLC | Methods and systems for industrial internet of things data collection in a network sensitive upstream oil and gas environment |
CN106407891B (zh) * | 2016-08-26 | 2019-06-28 | 东方网力科技股份有限公司 | 基于卷积神经网络的目标匹配方法及装置 |
US10043109B1 (en) * | 2017-01-23 | 2018-08-07 | A9.Com, Inc. | Attribute similarity-based search |
CN107239535A (zh) * | 2017-05-31 | 2017-10-10 | 北京小米移动软件有限公司 | 相似图片检索方法及装置 |
CN108288067B (zh) * | 2017-09-12 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 图像文本匹配模型的训练方法、双向搜索方法及相关装置 |
CN109597907A (zh) * | 2017-12-07 | 2019-04-09 | 深圳市商汤科技有限公司 | 服饰管理方法和装置、电子设备、存储介质 |
CN108563767B (zh) * | 2018-04-19 | 2020-11-27 | 深圳市商汤科技有限公司 | 图像检索方法及装置 |
CN109857889B (zh) * | 2018-12-19 | 2021-04-09 | 苏州科达科技股份有限公司 | 一种图像检索方法、装置、设备及可读存储介质 |
CN109960742B (zh) * | 2019-02-18 | 2021-11-05 | 苏州科达科技股份有限公司 | 局部信息的搜索方法及装置 |
CN109919141A (zh) * | 2019-04-09 | 2019-06-21 | 广东省智能制造研究所 | 一种基于骨架姿态的行人再识别方法 |
CN110532414B (zh) * | 2019-08-29 | 2022-06-21 | 深圳市商汤科技有限公司 | 一种图片检索方法及装置 |
-
2019
- 2019-08-29 CN CN201910806958.2A patent/CN110532414B/zh active Active
-
2020
- 2020-04-23 WO PCT/CN2020/086455 patent/WO2021036304A1/zh active Application Filing
- 2020-04-23 JP JP2021566478A patent/JP2022531938A/ja active Pending
- 2020-04-23 KR KR1020217036554A patent/KR20210145821A/ko unknown
- 2020-05-18 TW TW109116387A patent/TWI770507B/zh active
-
2021
- 2021-11-29 US US17/536,708 patent/US20220084308A1/en not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001005981A (ja) * | 1999-06-04 | 2001-01-12 | Mitsubishi Electric Inf Technol Center America Inc | オブジェクト形状を表現する画像空間を順序付ける方法 |
JP2012048326A (ja) * | 2010-08-24 | 2012-03-08 | Toyota Central R&D Labs Inc | 画像処理装置及びプログラム |
Non-Patent Citations (3)
Title |
---|
BIN YANG ET AL: "Classification of Medical Images with Synergic Graph Convolutional Networks", 2019 IEEE 35TH INTERNATIONAL CONFERENCE ON DATA ENGINEERING WORKSHOP (ICDEW), JPN6022049851, 12 April 2019 (2019-04-12), US, pages 253 - 258, XP033571580, ISSN: 0004928110, DOI: 10.1109/ICDEW.2019.000-4 * |
ZHANGHUI KUANG ET AL: "Fashion Retrieval via Graph Reasoning Networks on a Similarity Pyramid", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, JPN6022049855, 18 September 2020 (2020-09-18), US, ISSN: 0004928112 * |
鈴木 哲平: "Segmentationのためのスーパーピクセル上でのGraph Convolutional Neu", 電子情報通信学会論文誌D VOLUMEJ101−D NO.8 [ONLINE], JPN6022049853, 1 August 2018 (2018-08-01), JP, pages 1120 - 1129, ISSN: 0004928111 * |
Also Published As
Publication number | Publication date |
---|---|
KR20210145821A (ko) | 2021-12-02 |
WO2021036304A1 (zh) | 2021-03-04 |
TWI770507B (zh) | 2022-07-11 |
CN110532414A (zh) | 2019-12-03 |
CN110532414B (zh) | 2022-06-21 |
TW202109313A (zh) | 2021-03-01 |
US20220084308A1 (en) | 2022-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022531938A (ja) | ピクチャ検索方法及び装置 | |
CN106547744B (zh) | 一种图像检索方法及系统 | |
US10621185B2 (en) | Method and apparatus for recalling search result based on neural network | |
WO2020140633A1 (zh) | 文本主题提取方法、装置、电子设备及存储介质 | |
CN108319633B (zh) | 一种图像处理方法、装置及服务器、系统、存储介质 | |
WO2019001481A1 (zh) | 车辆外观特征识别及车辆检索方法、装置、存储介质、电子设备 | |
CN111291765A (zh) | 用于确定相似图片的方法和装置 | |
EP2668618A1 (en) | Method and system for comparing images | |
CN108288208B (zh) | 基于图像内容的展示对象确定方法、装置、介质及设备 | |
CN112000822B (zh) | 多媒体资源排序方法、装置、电子设备及存储介质 | |
CN112101360B (zh) | 一种目标检测方法、装置以及计算机可读存储介质 | |
CN110765882B (zh) | 一种视频标签确定方法、装置、服务器及存储介质 | |
US20210035187A1 (en) | Device and method for item recommendation based on visual elements | |
CN110807110B (zh) | 结合局部和全局特征的图片搜索方法、装置及电子设备 | |
WO2022267388A1 (zh) | 红树林高光谱图像分类方法、装置、电子设备及存储介质 | |
CN107977948B (zh) | 一种面向社群图像的显著图融合方法 | |
CN113657087B (zh) | 信息的匹配方法及装置 | |
CN111507285A (zh) | 人脸属性识别方法、装置、计算机设备和存储介质 | |
CN108846404A (zh) | 一种基于相关约束图排序的图像显著性检测方法及装置 | |
CN111125397A (zh) | 一种基于卷积神经网络的布料图像检索方法 | |
CN111507288A (zh) | 图像检测方法、装置、计算机设备和存储介质 | |
CN111461196B (zh) | 基于结构特征的快速鲁棒图像识别跟踪方法和装置 | |
CN106407281B (zh) | 图像检索方法及装置 | |
CN111126457A (zh) | 信息的获取方法和装置、存储介质和电子装置 | |
CN111985616B (zh) | 一种图像特征提取方法、图像检索方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211109 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211109 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221111 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221124 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230616 |