JP2022541832A - 画像を検索するための方法及び装置 - Google Patents

画像を検索するための方法及び装置 Download PDF

Info

Publication number
JP2022541832A
JP2022541832A JP2022504246A JP2022504246A JP2022541832A JP 2022541832 A JP2022541832 A JP 2022541832A JP 2022504246 A JP2022504246 A JP 2022504246A JP 2022504246 A JP2022504246 A JP 2022504246A JP 2022541832 A JP2022541832 A JP 2022541832A
Authority
JP
Japan
Prior art keywords
matrix
image
determining
matching
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022504246A
Other languages
English (en)
Other versions
JP7504192B2 (ja
Inventor
忠▲強▼ 郭
Original Assignee
ベイジン・ジンドン・ゼンシ・インフォメーション・テクノロジー・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン・ジンドン・ゼンシ・インフォメーション・テクノロジー・カンパニー・リミテッド filed Critical ベイジン・ジンドン・ゼンシ・インフォメーション・テクノロジー・カンパニー・リミテッド
Publication of JP2022541832A publication Critical patent/JP2022541832A/ja
Application granted granted Critical
Publication of JP7504192B2 publication Critical patent/JP7504192B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/535Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/56Information retrieval; Database structures therefor; File system structures therefor of still image data having vectorial format
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7335Graphical querying, e.g. query-by-region, query-by-sketch, query-by-trajectory, GUIs for designating a person/face/object as a query predicate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7753Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本開示の実施例は、画像を検索するための方法を開示する。この方法の一特定の実施形態は、ターゲットアイテムのスケッチを特徴抽出して得られた第1行列を取得するステップと、ターゲットアイテムに対応するキーワードセット内のキーワードの単語ベクトルで構成される第2行列を取得し、ここで、キーワードセット内のキーワードは、ターゲットアイテムを説明するために使用されるステップと、画像セット内の各画像をそれぞれ特徴抽出して得られた第3行列セットを取得するステップと、第3行列セット内の第3行列について、第1行列と第3行列との一致度、及び第2行列と第3行列との一致度に従って、第3行列に対応する画像が提示するアイテムとターゲットアイテムとの一致度を決定するステップと、決定された一致度に基づいて、画像セットから事前設定数の画像を選択し、選択された画像を送信するステップと、を含む。本実施形態は、アイテムのスケッチ及びキーワードに基づく検索を実現する。

Description

本願は、2019年7月23日に中国特許庁に提出された、申請番号201910665039.8で、出願人が北京京東振世信息技術有限公司で、発明の名称が「画像を検索するための方法及び装置」である中国特許申請の優先権利を主張する。本願の全内容は、参照により本願に組み込まれる。
本開示の実施例は、コンピュータ技術分野に関し、特に画像を検索するための方法及び装置に関する。
現在、画像検索には通常、テキストベースの画像検索とコンテンツベースの画像検索が含まれる。ここで、テキストベースの画像検索は通常、テキストで説明する方法を使用して画像の特徴を説明し、画像ライブラリ内の各画像に対応するテキストの説明を照合して検索結果を決定する。コンテンツベースの画像検索は通常、画像の色、テクスチャ、及びレイアウトなど特徴に基づいて、画像ライブラリ内の各画像に対応する色、テクスチャ、及びレイアウトなどの特徴を照合して検索結果を決定する。
画像のテキストによる説明は通常、主観的なものであるため、それにより検索結果の正確さに影響を及ぼす。元の画像のみは、比較的豊富な色やテクスチャなどの特徴を有しているため、一部の既存のコンテンツベースの画像検索では、通常、ユーザが検索するアイテムの元の画像を提供する必要がある。また、画像から抽出された色やテクスチャなどの特徴は通常、画像の客観的な説明情報であり、画像の意味情報を表現することは、困難である。
本開示の実施例は、画像を検索するための方法及び装置を提案する。
第1態様では、本開示の実施例は、画像を検索するための方法を提供し、この方法は、ターゲットアイテムのスケッチを特徴抽出して得られた第1行列を取得するステップと、ターゲットアイテムに対応するキーワードセット内のキーワードの単語ベクトルで構成される第2行列を取得し、ここで、キーワードセット内のキーワードは、ターゲットアイテムを説明するために使用されるステップと、画像セット内の各画像をそれぞれ特徴抽出して得られた第3行列セットを取得するステップと、第3行列セット内の第3行列について、第1行列と第3行列との一致度、及び第2行列と第3行列との一致度に従って、第3行列に対応する画像が提示するアイテムとターゲットアイテムとの一致度を決定するステップと、決定された一致度に基づいて、画像セットから事前設定数の画像を選択し、選択された画像を送信するステップと、を含む。
いくつかの実施例では、第1行列と第3行列との一致度、及び第2行列と第3行列との一致度に従って、第3行列に対応する画像が提示するアイテムとターゲットアイテムとの一致度を決定し、それは、第1行列の第1プリセット重みを取得し、第2行列の第2プリセット重みを取得するステップと、取得された第1プリセット重み及び第2プリセット重みに基づいて、第1行列と第3行列との一致度と、第2行列と第3行列との一致度の加重和に従って、第3行列に対応する画像が提示するアイテムとターゲットアイテムとの一致度を決定するステップと、を含む。
いくつかの実施例では、第1行列と第3行列との一致度、及び第2行列と第3行列との一致度は、第1行列、第2行列、及び第3行列をそれぞれターゲット行列として、ターゲット行列を符号化処理して、第1符号化行列、第2符号化行列、及び第3符号化行列を得、ここで、符号化処理は、ターゲット行列をバイナリ符号化行列にマッピングするために使用されるステップ、及び、第1符号化行列と第3符号化行列との一致度を第1行列と第3行列との一致度として決定し、第2符号化行列と第3符号化行列との一致度を第2行列と第3行列との一致度として決定するステップにより決定される。
いくつかの実施例では、符号化処理は、
ターゲット行列の各行ベクトルの行ベクトルSについて、Sに含まれる各要素をCグループに分割し、ここで、Cは符号化行列の列数を表すステップ、Cグループのグループについて、このグループに含まれる要素の値の統計的特徴を決定するステップ、得られた統計的特徴がターゲット閾値Tより大きいと決定したことに応答して、このグループのコード値が1であると決定するステップ、得られた統計的特徴がTより小さいと決定したことに応答して、このグループのコード値が0であると決定するステップ、及びCグループの各グループにそれぞれ対応するコード値で符号化行列の1行を構成して、符号化行列を取得するステップを実行するということを含む。
いくつかの実施例では、Sに含まれる各要素をCグループに分割し、それは、Sに含まれる要素の数とCの商を決定すること、及び決定された商に従ってCグループの各グループに含まれる要素の数を決定することを含む。
いくつかの実施例では、
Figure 2022541832000002
ここで、DはSに含まれる要素の数を表し、SはSのi番目要素の値を表す。
いくつかの実施例では、符号化処理は、
更新されたターゲット行列を取得するために、ターゲット行列の各行ベクトルについて、行ベクトルを正規化処理し、行ベクトルの正規化結果に従って、行ベクトルに含まれる各要素にそれぞれ対応する更新値を決定し、ここで、行ベクトルに含まれる各要素にそれぞれ対応する更新値は、各要素にそれぞれ対応する正規化結果と正の相関があるという更新処理をそれぞれ実行し、更新されたターゲット行列の各行ベクトルの行ベクトルSについて、Sに含まれる各要素をCグループに分割し、ここで、Cは符号化行列の列数を表すステップ、Cグループのグループについて、このグループに含まれる要素の値の統計的特徴を決定するステップ、得られた統計的特徴がターゲット閾値Tより大きいと決定したことに応答して、このグループのコード値が1であると決定するステップ、得られた統計的特徴がTより小さいと決定したことに応答して、このグループのコード値が0であると決定するステップ、及びCグループの各グループにそれぞれ対応するコード値で符号化行列の1行を構成して、符号化行列を取得するステップを実行するということを含む。
いくつかの実施例では、行ベクトルの正規化結果に従って、行ベクトルに含まれる各要素にそれぞれ対応する更新値を決定し、それは、行ベクトルの正規化結果及び事前設定された調整パラメータλに従って、行ベクトルに含まれる各要素にそれぞれ対応する更新値を決定し、ここで、行ベクトルに含まれる各要素にそれぞれ対応する更新値は、λと正の相関があるということを含む。
いくつかの実施例では、行ベクトルの正規化結果及び事前設定された調整パラメータλに従って、行ベクトルに含まれる各要素にそれぞれ対応する更新値を決定し、それは、行ベクトルに含まれる各要素の要素について、この要素に対応する正規化結果とλの積の平方根を、この要素に対応する更新値として決定するということを含む。
いくつかの実施例では、第1行列は、スケッチを少なくとも2つのサブ画像に分割するステップ、予め訓練された畳み込みニューラルネットワークを使用して少なくとも2つのサブ画像をそれぞれ特徴抽出して、少なくとも2つのサブ画像にそれぞれ対応する特徴ベクトルを得るステップ、及び少なくとも2つのサブ画像にそれぞれ対応する特徴ベクトルで構成される行列を第1行列として決定するステップにより得られる。
いくつかの実施例では、畳み込みニューラルネットワークは、
スケッチセットを取得し、スケッチセット内の各スケッチにそれぞれ対応する一致する画像セットを取得し、ここで、スケッチ及び対応する一致する画像セット内の一致する画像は、同じアイテムを提示するために使用されるステップ、及びスケッチセットからスケッチを選択し、以下の訓練ステップを実行するステップで訓練して得られる。
それらの訓練ステップは、
初期モデルを使用して選択されたスケッチ及びターゲット画像セット内の各画像をそれぞれ特徴抽出することによりスケッチ及びターゲット画像セット内の各画像にそれぞれ対応する出力行列を取得する訓練ステップと、
得られたスケッチに対応する出力行列のそれぞれと、ターゲット画像セット内の各画像にそれぞれ対応する出力行列との一致度を決定し、対応する一致度が事前設定された閾値より大きい画像を選択する訓練ステップと、
選択された画像及び入力されたスケッチに対応する一致する画像セットに従って、選択された画像に対応するリコール率及び/又は精度を決定し、決定されたリコール率及び/又は精度に従って、初期モデルの訓練が完了しているかどうかを決定する訓練ステップと、
初期モデルの訓練が完了していると決定したことに応答して、訓練された初期モデルを畳み込みニューラルネットワークとして決定する訓練ステップと、
初期モデルの訓練が完了していないと決定したことに応答して、決定されたリコール率及び/又は精度に従って、初期モデルのパラメータを調整し、調整された初期モデルを初期モデルとして決定し、スケッチセットからスケッチを再選択し、上記訓練ステップを実行し続ける訓練ステップと、を含む。
第2態様では、本開示の実施例は、画像を検索するための装置を提供し、この装置は、
取得ユニットであって、前記取得ユニットはターゲットアイテムのスケッチを特徴抽出して得られた第1行列を取得するように構成される取得ユニットと、
取得ユニットであって、前記取得ユニットはターゲットアイテムに対応するキーワードセット内のキーワードの単語ベクトルで構成される第2行列を取得し、ここで、キーワードセット内のキーワードは、ターゲットアイテムを説明するために使用されるようにさらに構成される取得ユニットと、
取得ユニットであって、前記取得ユニットは画像セット内の各画像をそれぞれ特徴抽出して得られた第3行列セットを取得するようにさらに構成される取得ユニットと、
決定ユニットであって、前記決定ユニットは第3行列セット内の第3行列について、第1行列と第3行列との一致度、及び第2行列と第3行列との一致度に従って、第3行列に対応する画像が提示するアイテムとターゲットアイテムとの一致度を決定するように構成される決定ユニットと、
送信ユニットであって、前記送信ユニットは決定された一致度に基づいて、画像セットから事前設定数の画像を選択し、選択された画像を送信するように構成される送信ユニットと、を含む。
いくつかの実施例では、決定ユニットは、第1行列の第1プリセット重みを取得し、第2行列の第2プリセット重みを取得し、取得された第1プリセット重み及び第2プリセット重みに基づいて、第1行列と第3行列との一致度と、第2行列と第3行列との一致度の加重和に従って、第3行列に対応する画像が提示するアイテムとターゲットアイテムとの一致度を決定するようにさらに構成される。
いくつかの実施例では、第1行列と第3行列との一致度、及び第2行列と第3行列との一致度は、第1行列、第2行列、及び第3行列をそれぞれターゲット行列として、ターゲット行列を符号化処理して、第1符号化行列、第2符号化行列、及び第3符号化行列を得、ここで、符号化処理は、ターゲット行列をバイナリ符号化行列にマッピングするために使用されるステップ、及び第1符号化行列と第3符号化行列との一致度を第1行列と第3行列との一致度として決定し、第2符号化行列と第3符号化行列との一致度を第2行列と第3行列との一致度として決定するステップにより決定される。
いくつかの実施例では、符号化処理は、
ターゲット行列の各行ベクトルの行ベクトルSについて、
Sに含まれる各要素をCグループに分割し、ここで、Cは符号化行列の列数を表すステップ、
Cグループのグループについて、このグループに含まれる要素の値の統計的特徴を決定するステップ、
得られた統計的特徴がターゲット閾値Tより大きいと決定したことに応答して、このグループのコード値が1であると決定するステップ、
得られた統計的特徴がTより小さいと決定したことに応答して、このグループのコード値が0であると決定するステップ、及び
Cグループの各グループにそれぞれ対応するコード値で符号化行列の1行を構成して、符号化行列を取得するステップを実行するということを含む。
いくつかの実施例では、Sに含まれる各要素をCグループに分割し、それは、Sに含まれる要素の数とCの商を決定すること、及び決定された商に従ってCグループの各グループに含まれる要素の数を決定することを含む。
いくつかの実施例では、
Figure 2022541832000003
ここで、DはSに含まれる要素の数を表し、SはSのi番目の要素の値を表す。
いくつかの実施例では、符号化処理は、
更新されたターゲット行列を取得するために、ターゲット行列の各行ベクトルについて、
行ベクトルを正規化処理し、行ベクトルの正規化結果に従って、行ベクトルに含まれる各要素にそれぞれ対応する更新値を決定し、ここで、行ベクトルに含まれる各要素にそれぞれ対応する更新値は、各要素にそれぞれ対応する正規化結果と正の相関があるという更新処理をそれぞれ実行し、
更新されたターゲット行列の各行ベクトルの行ベクトルSについて、
Sに含まれる各要素をCグループに分割し、ここで、Cは符号化行列の列数を表すステップ、
Cグループのグループについて、このグループに含まれる要素の値の統計的特徴を決定するステップ、
得られた統計的特徴がターゲット閾値Tより大きいと決定したことに応答して、このグループのコード値が1であると決定するステップ、
得られた統計的特徴がTより小さいと決定したことに応答して、このグループのコード値が0であると決定するステップ、
及びCグループの各グループにそれぞれ対応するコード値で符号化行列の1行を構成して、符号化行列を取得するステップを実行するということを含む。
いくつかの実施例では、行ベクトルの正規化結果に従って、行ベクトルに含まれる各要素にそれぞれ対応する更新値を決定し、それは、行ベクトルの正規化結果及び事前設定された調整パラメータλに従って、行ベクトルに含まれる各要素にそれぞれ対応する更新値を決定し、ここで、行ベクトルに含まれる各要素にそれぞれ対応する更新値は、λと正の相関があるということを含む。
いくつかの実施例では、行ベクトルの正規化結果及び事前設定された調整パラメータλに従って、行ベクトルに含まれる各要素にそれぞれ対応する更新値を決定し、それは、行ベクトルに含まれる各要素の要素について、この要素に対応する正規化結果とλの積の平方根を、この要素に対応する更新値として決定するということを含む。
いくつかの実施例では、第1行列は、スケッチを少なくとも2つのサブ画像に分割するステップ、予め訓練された畳み込みニューラルネットワークを使用して少なくとも2つのサブ画像をそれぞれ特徴抽出して、少なくとも2つのサブ画像にそれぞれ対応する特徴ベクトルを得るステップ、及び少なくとも2つのサブ画像にそれぞれ対応する特徴ベクトルで構成される行列を第1行列として決定するステップにより得られる。
いくつかの実施例では、畳み込みニューラルネットワークは、
スケッチセットを取得し、スケッチセット内の各スケッチにそれぞれ対応する一致する画像セットを取得し、ここで、スケッチ及び対応する一致する画像セット内の一致する画像は、同じアイテムを提示するために使用されるステップ、及び
スケッチセットからスケッチを選択し、以下の訓練ステップを実行するステップで訓練して得られる。
それらの訓練ステップは、
初期モデルを使用して選択されたスケッチ及びターゲット画像セット内の各画像をそれぞれ特徴抽出してスケッチ及びターゲット画像セット内の各画像にそれぞれ対応する出力行列を取得する訓練ステップと、
得られたスケッチに対応する出力行列のそれぞれと、ターゲット画像セット内の各画像にそれぞれ対応する出力行列との一致度を決定し、対応する一致度が事前設定された閾値より大きい画像を選択する訓練ステップと、
選択された画像及び入力されたスケッチに対応する一致する画像セットに従って、選択された画像に対応するリコール率及び/又は精度を決定し、決定されたリコール率及び/又は精度に従って、初期モデルの訓練が完了しているかどうかを決定する訓練ステップと、
初期モデルの訓練が完了していると決定したことに応答して、訓練された初期モデルを畳み込みニューラルネットワークとして決定する訓練ステップと、
初期モデルの訓練が完了していないと決定したことに応答して、決定されたリコール率及び/又は精度に従って、初期モデルのパラメータを調整し、調整された初期モデルを初期モデルとして決定し、スケッチセットからスケッチを再選択し、上記訓練ステップを実行し続ける訓練ステップと、を含む。
第3態様では、本開示の実施例は、電子デバイスを提供し、この電子デバイスは、1つ又は複数のプロセッサと、1つ又は複数のプログラムを記憶するための記憶装置と、を含み、1つ又は複数のプログラムは、1つ又は複数のプロセッサにより実行される場合、1つ又は複数のプロセッサが、第1態様の任意の実装方法で説明された方法を実現する。
第4態様では、本開示の実施例は、コンピュータプログラムが記憶されるコンピュータ可読媒体を提供し、このコンピュータプログラムは、プロセッサにより実行される場合、第1態様の任意の実装方法で説明された方法を実現する。
本開示の実施例が提供する画像を検索するための方法及び装置は、アイテムのスケッチと対応するキーワードに従って、それぞれ画像セット内の各画像と照合し、照合結果に従って検索結果を決定し、それによりユーザがアイテムの元の画像を検索用に提供できない場合は、アイテムのスケッチを使用して検索を実現することができ、そしてアイテムのキーワードが同時に検索に使用されるため、画像の意味情報は、検索プロセスに統合され、これは、画像の誤検出率及び検出漏れ率を低減するのに寄与し、それにより検索結果の正確さを向上させる。
以下の図面を参照して、非限定的な実施例の詳細な説を読むことにより、本開示の他の特徴、目的及び利点はより明らかになる。
本開示の一実施例を適用できる例示的なシステムアーキテクチャ図である。 本開示による画像を検索するための方法の一実施例のフローチャートである。 本開示の実施例による画像を検索するための方法の適用シナリオの模式図である。 本開示による画像を検索するための方法のさらに別の実施例のフローチャートである。 本開示による画像を検索するための装置の一実施例の構造模式図である。 本開示の実施例を実施するのに適した電子デバイスの構造模式図である。
以下、図面と実施例を参照して本開示をさらに詳細に説明する。本明細書に記載される特定の実施例は、関連する発明を説明するためにのみ使用され、本発明を限定するものではないことが理解され得る。なお、容易に説明するために、図面には、本発明に関連する部分のみが示されている。
なお、本開示における実施例及び実施例における特徴は、矛盾がない場合、互いに組み合わせることができる。以下、図面を参照して、実施例と併せて本開示を詳細に説明する。
図1は、本開示を適用できる画像を検索するための方法又は画像を検索するための装置の実施例の例示的なアーキテクチャ100を示している。
図1に示すように、システムアーキテクチャ100は、端末装置101、102、103、ネットワーク104及びサーバ105を含み得る。ネットワーク104は、端末装置101、102、103とサーバ105との間に通信リンクのための媒体を提供するために使用される。ネットワーク104は、有線、無線通信リンク又は光ファイバケーブルなどのさまざまな接続タイプを含み得る。
端末装置101、102、103は、ネットワーク104を介してサーバ105と相互作用して、メッセージなどを送受信する。さまざまなクライアントアプリケーションを端末装置101、102、103にインストールすることができる。例えば、ブラウザアプリケーション、検索アプリケーション、画像処理アプリケーションなどである。
端末装置101、102、103は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末装置101、102、103がハードウェアである場合、それらは、スマートフォン、タブレットコンピュータ、電子書籍リーダー、ラップトップコンピュータ、デスクトップコンピュータなどを含むがこれらに限定されないさまざまな電子デバイスであってもよい。端末装置101、102、103がソフトウェアである場合、それらは、上記電子デバイスにインストールすることができる。それらは、複数のソフトウェア又はソフトウェアモジュール(例えば、分散サービスを提供するための複数のソフトウェア又はソフトウェアモジュール)として実装されてもよく、単一のソフトウェア又はソフトウェアモジュールとして実装されてもよい。ここに特別な制限はない。
サーバ105は、さまざまなサービスを提供するサーバ、例えば、端末装置101、102、103にインストールされたクライアントアプリケーションにバックエンドサポートを提供するバックエンドサーバであってもよい。サーバ105は、端末装置101、102、103によって送信されたターゲットアイテムのスケッチ及びキーワードセットを受信し、ターゲットアイテムのスケッチ及びキーワードセットをそれぞれ処理し、さらに処理結果に従って画像セットからターゲットアイテムのスケッチ及びキーワードセットに一致する画像を選択し、選択された画像を端末装置101、102、103に送信することができる。
なお、上記ターゲットアイテムのスケッチ及びキーワードセットは、サーバ105のローカルに直接記憶することもでき、サーバ105は、ローカルに記憶されたターゲットアイテムのスケッチ及びキーワードセットを直接抽出して処理することができ、このとき、端末装置101、102、103及びネットワーク104が存在しなくてもよい)。
なお、本開示の実施例によって提供された画像を検索するための方法は、一般にサーバ105によって実行され、それに対応して、画像を検索するための装置は、一般にサーバ105に設置される。
なお、端末装置101、102、103にも、画像処理アプリケーションがインストールされることができ、端末装置101、102、103は、画像処理アプリケーションに基づいて顔画像を処理することもでき、このとき、画像を検索するための方法は、端末装置101、102、103が実行することもでき、それに対応して、画像を検索するための装置は、端末装置101、102、103に設置されることもできる。このとき、サーバ105及びネットワーク104は、例示的なシステムアーキテクチャ100に存在しなくてもよい。
なお、サーバ105は、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバがハードウェアである場合、複数のサーバで構成される分散サーバクラスターとして実装されてもよく、単一のサーバとして実装されてもよい。サーバ105がソフトウェアである場合、複数のソフトウェア又はソフトウェアモジュール(例えば、分散サービスを提供するための複数のソフトウェア又はソフトウェアモジュール)として実装されてもよく、単一のソフトウェア又はソフトウェアモジュールとして実装されてもよい。ここに特別な制限はない。
図1の端末装置、ネットワーク及びサーバの数は、単なる例示であることが理解されるべきである。実装のニーズに応じて、端末装置、ネットワーク及びサーバは、いくつでも存在することができる。
図2を参照し続けると、それは、本開示による画像を検索するための方法の一実施例のフロー200を示している。画像を検索するための方法は、以下のステップ201、ステップ202、ステップ203、ステップ204、及びステップ205を含む。
ステップ201:ターゲットアイテムのスケッチを特徴抽出することによって得られた第1行列を取得する。
本実施例では、ターゲットアイテムは、ユーザの検索ターゲット、すなわち、ユーザが検索したい画像に示されるアイテムであってもよい。ターゲットアイテムのスケッチを使用して、アイテムのデザイン又は形体概念を初期化して表現することができる。例えば、ターゲットアイテムのスケッチには、アイテムの構造とサイズ、及びアイテムの各部品の相対的な位置関係などが提示され得る。
本実施例では、ユーザは、ターゲットアイテムのスケッチを描くことができるか、又はユーザは、いくつかの既存のスケッチライブラリ(例えば、Sketchy画像ライブラリ)からターゲットアイテムのスケッチを選択することができる。
本実施例では、スケッチを特徴抽出することは、スケッチのいくつかの画像情報を抽出することを指すことができる。一般に、スケッチを分析処理することにより、スケッチの各ピクセルポイントがスケッチの特定の特徴を表現できるかどうかを決定することができる。具体的には、さまざまな既存の画像特徴抽出方法を使用してスケッチを特徴抽出することができる。
例えば、SURF(スケール不変特徴変換)に基づく特徴抽出方法を使用して、ターゲットアイテムのスケッチの特徴を抽出することができる。別の例として、深層学習に基づく特徴抽出方法を使用して、ターゲットアイテムのスケッチの特徴を抽出することができる。
オプションで、スケッチの特徴抽出結果は、特徴ベクトルであってもよい。このとき、抽出された特徴ベクトルは、上記第1行列と見なすことができる。
本実施例のいくつかの任意選択の実装形態では、最初に、スケッチを少なくとも2つのサブ画像に分割することができる。次に予め訓練された畳み込みニューラルネットワークを使用して、少なくとも2つのサブ画像をそれぞれ特徴抽出し、少なくとも2つのサブ画像にそれぞれ対応する特徴ベクトルを得ることができ、さらに、少なくとも2つのサブ画像にそれぞれ対応する特徴ベクトルで構成される行列を上記第1行列と見なすことができる。
ここで、スケッチを分割する方法を柔軟に選択することができる。例えば、スケッチの幾何学的中心を中心点として使用し、水平方向と垂直方向から、スケッチを4つのサブ画像に均等に分割することができる。
ここで、得られた少なくとも2つのサブ画像にそれぞれ対応する特徴ベクトルが行列を構成する方法は、技術者によって事前に設定され得る。例えば、第1行列は、指定された順序で行ごとに並べることにより得られる。
スケッチを分割することにより、その後の一致プロセスでは、ターゲットを絞った方法で対応する位置の画像領域を一致させることができ、すなわち、一致プロセスは、より正確な位置情報を有し、これは、一致結果の精度を高めるのに寄与し、さらに検索結果の精度を高める。
畳み込みニューラルネットワークを使用してターゲットアイテムのスケッチを特徴抽出する場合、畳み込みニューラルネットワークは、画像の特徴を抽出するために使用されるさまざまなタイプの予め訓練済みのニューラルネットワークであってもよい(例えば、深層学習モデルなど)。
一般に、畳み込みニューラルネットワークは、いくつかの畳み込み層、プーリング層、及び完全に接続された層で構成され得る。ここで、畳み込み層は、畳み込み層に入力する画像に対して畳み込み操作を実行して特徴を抽出するために使用され、プーリング層は、畳み込み層の出力結果を圧縮して主要な特徴を抽出するために使用され、完全に接続された層は、抽出された画像の各ローカル特徴を統合して、完全に接続された層の前に各層によって学習された分散特徴表現をサンプルラベルスペースにマッピングすることができる。
オプションで、画像の特徴を抽出するために使用される畳み込みニューラルネットワークは、以下のステップ1とステップ2で訓練して得られ得る。
ステップ1:スケッチセットを取得し、スケッチセット内の各スケッチにそれぞれ対応する一致する画像セットを取得する。
このステップ1では、さまざまな画像処理アプリケーションを使用して大量のスケッチを生成して、スケッチセットを構成することができ、サードパーティのデータプラットホームからスケッチセットを取得することもできる。スケッチセットに対応する一致する画像セット内の一致する画像及びスケッチを使用して、同じアイテムを提示することができる。ここで、任意のスケッチについて、このスケッチに対応する一致する画像セット内の一致する画像は、技術者によって指定され得るか、又はサードパーティのデータプラットホームから取得され得る。
ステップ2:スケッチセットからスケッチを選択し、以下の訓練ステップ1~訓練ステップ3を実行する。
このステップ2では、スケッチセットからスケッチを選択する方法を、さまざまな適用シナリオに応じて柔軟に設定することができる。例えば、スケッチセットから事前設定数のスケッチをランダムに選択することができる。別の例として、スケッチセットから選択されていない事前設定数のスケッチを選択することができる。
訓練ステップ1:初期モデルを使用して、選択されたスケッチ及びターゲット画像セット内の各画像をそれぞれ特徴抽出することにより、スケッチ及びターゲット画像セット内の各画像にそれぞれ対応する出力行列を取得する。
ここで、初期モデルは、さまざまなタイプの訓練されていない人工ニューラルネットワーク、又は訓練が完了していない人工ニューラルネットワークであってもよい。例えば、深層学習モデルである。初期モデルは、さまざまな訓練されていない人工ニューラルネットワーク、又は訓練が完了していない人工ニューラルネットワークを組み合わせて得られたモデルであってもよい。具体的には、技術者は、実際のアプリケーション要件(例えば、畳み込み層の数や畳み込みカーネルのサイズなど)に従って初期モデルを構築することができる。
ここで、ターゲット画像セットは、技術者によって事前に設定され得る。オプションで、ターゲット画像セットは、上記画像セットであってもよい。
訓練ステップ2:得られたスケッチに対応するそれぞれの出力行列と、ターゲット画像セット内の各画像にそれぞれ対応する出力行列との一致度を決定し、対応する一致度が事前設定された閾値より大きい画像を選択する。
ここで、2つの出力行列との一致度の計算方法は、さまざまな既存の行列一致アルゴリズムを採用することができる。例えば、2つの行列をそれぞれ事前設定された方法でベクトルに平坦化してから、得られた2つのベクトル間の類似度を計算し、この類似度を2つの出力行列との一致度として使用する。
ここで、事前設定された閾値は、実際のアプリケーション要件に応じて技術者によって事前に設定され得る。
訓練ステップ3:選択された画像と入力されたスケッチに対応する一致する画像セットに従って、選択された画像に対応するリコール率及び/又は精度を決定し、決定されたリコール率及び/又は精度に従って、初期モデルの訓練が完了しているかどうかを決定する。
ここで、リコール率は、所望の画像の検出度合いを特徴付けるために使用され得る。一般に、リコール率は、ターゲット画像セットに含まれる入力されたスケッチと同じアイテムを提示する画像の総数に対する、選択された画像と一致する画像セットとの積集合に含まれる画像の数の比率で表され得る。
ここで、精度は、検索されたすべての画像に対する検索された所望の画像の割合を特徴付けるために使用され得る。一般に、精度は、一致する画像セットに含まれる画像の総数に対する選択された画像と一致する画像セットとの積集合に含まれる画像の数の比率で表され得る。
オプションで、リコール率及び/又は精度を決定した後、事前設定された損失関数の値を決定することができ、決定された損失関数の値に従って初期モデルの訓練が完了しているかどうかを決定する。ここで、損失関数の計算方法は、技術者によって事前に設定され得る。例えば、事前設定された損失関数は、決定されたリコール率及び/又は精度と、事前設定されたリコール率及び/又は精度との間の差異の程度を特徴付けるために使用され得る。このとき、決定された損失関数の値が事前設定された損失閾値を下回っているかどうか応じて、初期モデルの訓練が完了しているかどうかを決定することができる。
決定されたリコール率及び/又は精度に従って、初期モデルの訓練が完了していると決定した場合、訓練された初期モデルを、画像の特徴を抽出するための上記畳み込みニューラルネットワークとして決定することができる。
決定されたリコール率及び/又は精度に従って、初期モデルの訓練が完了していないと決定した場合、決定されたリコール率及び/又は精度に従って、初期モデルのパラメータを調整し、調整された初期モデルを初期モデルとして決定することができ、スケッチセットからスケッチを再選択し、上記訓練ステップ1~訓練ステップ3を実行し続ける。
具体的には、損失関数の値に従って、勾配降下及びバックプロパゲーションアルゴリズムを使用して初期モデルの各層のパラメータを調整することができ、それにより調整された初期モデルに対応するリコール率及び/又は精度は、できるだけ高くなる。
本実施例では、他の電子デバイスにより、ターゲットアイテムのスケッチを事前に特徴抽出して、第1行列を得ることができる。このとき、画像を検索するための方法の実行主体(図1に示すサーバ105)は、他の電子デバイスから第1行列を取得することができる。上記実行主体により、ターゲットアイテムのスケッチを事前に特徴抽出して、第1行列を得ることもできることが理解され得る。このとき、上記実行主体は、ローカルから第1行列を直接取得することができる。
ステップ202:ターゲットアイテムに対応するキーワードセット内のキーワードの単語ベクトルで構成される第2行列を取得する。
本実施例では、キーワードセット内のキーワードは、ターゲットアイテムを説明するために使用され得る。キーワードセット内のキーワードは、ユーザによって事前に設定され得る。ここで、キーワードセット内のキーワードの単語ベクトルは、単語ベクトルを生成するためのさまざまな既存の方法(例えば、Word2Vec、FastTextなど)を使用して決定することができる。
ここで、キーワードセット内の各キーワードの単語ベクトルが第2行列を構成する方法は、技術者によって事前に設定され得る。例えば、上記第2行列は、各キーワードにそれぞれ対応する単語ベクトルを、事前設定された順序で、行ごとに並べることで得られる。
本実施例では、キーワードセット内の各キーワードの単語ベクトルは、他の電子デバイスによって事前に生成され得、次に第2行列が得られる。このとき、上記実行主体は、他の電子デバイスから第2行列を取得することができる。上記実行主体は、キーワードセット内の各キーワードの単語ベクトルを事前に生成し、次に第2行列を得ることもできることが理解され得る。このとき、上記実行主体は、ローカルから第2行列を直接取得することができる。
オプションで、キーワードの単語ベクトルが事前に生成した後、キーワードと単語ベクトルとの対応する関係を記憶して、次回の再利用の際に、キーワードに対応する単語ベクトルを直接使用できるようにする。これは、画像検索速度の向上に寄与する。このとき、単語ベクトルがニューラルネットワーク(例えば、Word2Vecなど)を介して得られた場合、ニューラルネットワークも更新するために、一定の時間間隔の後、新しいキーワードと対応する単語ベクトルを使用してニューラルネットワークを再訓練することができる。
ステップ203:画像セット内の各画像を特徴抽出して得られた第3行列セットを取得する。
本実施例では、さまざまな既存の画像特徴抽出方法を使用して画像セット内の各画像をそれぞれ特徴抽出することができる。例えば、SURF(スケール不変特徴変換)に基づく特徴抽出方法を使用して画像セット内の各画像の特徴を抽出することができる。別の例として、深層学習に基づく特徴抽出方法を使用して画像セット内の各画像の特徴を抽出することができる。
オプションで、同じ畳み込みニューラルネットワークを使用して、ターゲットアイテムのスケッチ及び画像セット内の各画像をそれぞれ特徴抽出することにより、ターゲットアイテムのスケッチに対応する第1行列及び画像セット内の各画像にそれぞれ対応する第3行列を取得することができる。
オプションで、画像セットに含まれる画像は、一般に大量であり、そして画像セットの更新頻度は、一般に低いため、画像セット内の画像を事前に特徴抽出して、各画像にそれぞれ対応する第3行列を得た後、各画像と対応する第3行列との間の対応する関係を記憶することができ、それにより各画像に対応する第3行列を直接使用することができ、各画像にそれぞれ対応する第3行列を取得するために各画像を再度処理する必要はない。これは、画像検索速度の向上に寄与する。画像セットが更新されると、更新された部分と対応する第3行列との間の対応する関係がさらに記憶され得る。このとき、畳み込みニューラルネットワークを使用して第3行列を得ると、画像セットが更新される場合、畳み込みニューラルネットワークも更新するために、更新された部分を使用して畳み込みニューラルネットワークをさらに訓練することができる。
ステップ204:第3行列セット内の第3行列について、第1行列と第3行列との一致度、及び第2行列と第3行列との一致度に応じて、第3行列に対応する画像が提示するアイテムとターゲットアイテムとの一致度を決定する。
本実施例では、さまざまな既存の行列一致アルゴリズムを使用して、第1行列と第3行列との一致度、及び第2行列と第3行列との一致度を計算することができる。さらに、得られた2つの一致度に基づいて第3行列に対応する画像が提示するアイテムとターゲットアイテムとの一致度を包括的に決定することができる。ここで、具体的には、得られた2つの一致度に基づいて第3行列に対応する画像が提示するアイテムとターゲットアイテムとの一致度を包括的に決定する方法を柔軟に設定することができる。
オプションで、2つのうち最大値又は2つの平均値を、第3行列に対応する画像が提示するアイテムとターゲットアイテムとの一致度として決定することができる。
オプションで、第1行列の第1プリセット重みを取得することができ、第2行列の第2プリセット重みを取得することができる。次に取得された第1プリセット重みと第2プリセット重みに基づいて、第1行列と第3行列との一致度と、第2行列と第3行列との一致度の加重和に従って、第3行列に対応する画像が提示するアイテムとターゲットアイテムとの一致度を決定する。
ここで、第1プリセット重み及び第2プリセット重みは、技術者によって事前設定され得るか、又は第1プリセット重み及び第2プリセット重みは、ユーザによって入力され得る。オプションで、第1プリセット重み及び第2重みの値の範囲は、[0~1]であってもよく、第1プリセット重みと第2プリセット重みの和は、1に等しい。
オプションで、第1行列と第3行列との一致度と、第2行列と第3行列との一致度の加重和を、第3行列に対応する画像が提示するアイテムとターゲットアイテムとの一致度として決定することができ、加重和が決定された後、加重和に対応するプリセット関数の値を、第3行列に対応する画像が提示するアイテムとターゲットアイテムとの一致度として使用することもできる。ここで、プリセット関数は、技術者によって事前設定され得る。
ある場合には、例えば、ユーザが第1プリセット重みを0に設定するか、又は第2プリセット重みを0に設定する場合、ターゲットアイテムのスケッチ又はターゲットアイテムのキーワードセット内のキーワードのみに基づいて画像検索を実現することができることが理解され得る。すなわち、ユーザが実際のニーズに応じてさまざまな検索方法を柔軟に設定して、ターゲットアイテムのスケッチ及びターゲットアイテムのキーワードセット内のキーワードが検索結果に及ぼす影響を制御することができるため、検索結果の正確さの向上に寄与する。
ステップ205:決定された一致度に基づいて、画像セットから事前設定数の画像を選択し、選択された画像を送信する。
本実施例では、事前設定数は、技術者によって事前設定されてもよい。画像セット内の各画像にそれぞれ対応する一致度を得た後、画像セットから画像を選択する方法を柔軟に設定することができる。
例えば、対応する一致度の降順で、画像セットから事前設定数の画像を選択することができる。別の例として、最初に、事前設定された一致度の閾値に従って画像セットから画像サブセットを選択し、次に画像サブセットから事前設定数の画像をランダムに選択することができる。
本実施例では、画像セットから選択された画像を他の電子デバイスに送信することができる。例えば、上記実行主体に接続されたユーザ端末(図1に示す端末装置101、102、103)に送信することができる。
オプションで、ターゲットアイテムのスケッチと画像セットから選択された画像との間の対応する関係も記憶することができる。したがって、ターゲットアイテムのスケッチを再度取得する場合、記憶されている対応する関係に従って、ターゲットアイテムのスケッチに一致する画像セット内の画像を迅速に取得することができる。
図3を参照し続けると、図3は、本実施例による画像を検索するための方法の適用シナリオの模式図300である。図3の適用シナリオでは、上記実行主体は、ユーザが使用する端末装置308を介してユーザによって入力されたスケッチ301を事前に取得し、次にスケッチ301の幾何学的中心を中心点として、水平方向と垂直方向から、スケッチ301をサブ画像3011、サブ画像3012、サブ画像3013及びサブ画像3014に分割することができる。その後、得られた4つのサブ画像を予め訓練された畳み込みニューラルネットワークにそれぞれ入力して、4つのサブ画像にそれぞれ対応する特徴ベクトルを取得することができ、4つのサブ画像にそれぞれ対応する特徴ベクトルが第1行列302を構成する。
上記実行主体は、ユーザが端末装置308を介して入力したキーワードセット303を事前に取得することができる。ここで、キーワードセット303は、「ウォーターカップ」、「小容量」、「蓋なし」及び「ハンドル付き」の4つのキーワードを含む。その後、予め訓練されたWord2Vecモデルを使用して4つのキーワードにそれぞれ対応する単語ベクトルを生成することができ、さらに、4つのキーワードにそれぞれ対応する単語ベクトルで構成される第2行列304を得ることができる。
上記実行主体は、画像セット305内の各画像を事前に処理して、各画像にそれぞれ対応する第3行列を取得し、第3行列セット306を得ることができる。ここで、画像セット305内の画像の処理手順は、上記スケッチ301の処理手順と同様である。説明のための例として、画像セット305内の画像を取り上げる。この画像の幾何学的中心を中心点として、水平方向と垂直方向から、この画像を4つのサブ画像に分割する。その後、得られた4つのサブ画像を予め訓練された畳み込みニューラルネットワークにそれぞれ入力して、4つのサブ画像にそれぞれ対応する特徴ベクトルを取得することができ、4つのサブ画像にそれぞれ対応する特徴ベクトルがこの画像に対応する第3行列を構成する。
その後、第3行列セット306内の各第3行列にそれぞれ対応する包括的な一致度を決定することができる。説明の例として、第3行列セット306内の1つの第3行列を取り上げる。第3行列と第1行列302との一致度を、第1一致度として決定することができると同時に、第3行列と第2行列304との一致度を、第2一致度として決定ことができる。次に、事前設定された第1重み及び第2重みに従って、第1一致度と第2一致度の加重和を、第3行列に対応する包括的な一致度として決定する。
その後、対応する一致度の降順で、ターゲット画像として画像セット305から事前設定数の画像を選択して、ターゲット画像セット307を得、そして、表示のために、ターゲット画像セット307をユーザが使用する端末装置308にプッシュすることができる。
本開示の上記実施例が提供する画像を検索するための方法は、アイテムのスケッチ及びキーワードに基づく検索を実現し、それによりユーザがアイテムの元の画像を提供できない場合に、検索を実行できないこと又は検索結果の精度が低いことを回避することができる。同時に、スケッチが提供するアイテムのサイズや構造などの特徴とキーワードが提供するアイテムの意味的特徴を組み合わせることにより、検索結果の正確さを確保することができる。
図4をさらに参照すると、図4は、画像を検索するための方法のさらに別の実施例のフロー400を示している。画像を検索するための方法のこのフロー400は、ステップ401、ステップ402、ステップ403、ステップ404、ステップ405及びステップ406を含む。
ステップ401:ターゲットアイテムのスケッチを特徴抽出して得られた第1行列を取得する。
ステップ402:ターゲットアイテムに対応するキーワードセット内のキーワードの単語ベクトルで構成される第2行列を取得する。
ステップ403:画像セット内の各画像をそれぞれ特徴抽出して得られた第3行列セットを取得する。
上記ステップ401、402及び403の特定の実行プロセスについては、図2に対応する実施例におけるステップ201、202及び203の関連する説明を参照することができ、ここでは繰り返さない。
ステップ404:第3行列セット内の第3行列について、第1行列、第2行列、及び第3行列をそれぞれターゲット行列として、ターゲット行列を符号化処理することにより、第1符号化行列、第2符号化行列、及び第3符号化行列を得る。
本実施例では、符号化処理を使用して、ターゲット行列をバイナリ符号化行列にマッピングすることができる。ここで、バイナリ符号化行列は、含まれる要素値が「0」及び「1」である行列を指すことができる。
オプションで、符号化処理は、最初にターゲット行列をプリセット次元の行列に変換し、次に行列に含まれる各要素の値の範囲が[0~1]になるように、行列内の各要素を正規化処理するということを含み得る。その後、プリセット標準値より大きい要素のコード値を「1」に設定し、プリセット標準値以下の要素のコード値を「0」に設定することができる。ここで、プリセット次元とプリセット標準値はいずれも、技術者によって事前に設定され得る。
ここで、いくつかの既存のデータ処理アプリケーションを使用して、ターゲット行列をプリセット次元の行列に変換することができ、プリセット次元に従って、プーリングウィンドウを設定し、ターゲットに対してプーリング操作を実行することもでき(例えば、平均プーリングなと)、それによりターゲット行列をプリセット次元の行列に変換する。
第1行列、第2行列、及び第3行列を符号化処理することにより、対応して生成された第1符号化行列、第2符号化行列、及び第3符号化行列の次元を制御することができ、そして第1符号化行列、第2符号化行列、及び第3符号化行列をバイナリ符号化行列にでき、それによりその後の行列一致の難しさを軽減し、行列一致の速度を大幅に向上させることができる。
オプションで、符号化処理は、以下のステップ(1)とステップ(2)を含み得る。
ステップ(1):ターゲット行列の各行ベクトルの行ベクトルSについて、以下のステップ1、ステップ2及びステップ3を実行することができる。
ステップ1:Sに含まれる各要素をCグループに分割する。ここで、Cは、符号化行列の列数を表すことができる。
このステップでは、Cは、技術者によって事前設定され得る。分割によって得られた各グループにそれぞれ含まれる要素の数も、技術者によって事前設定され得る。
オプションで、最初に、Sに含まれる要素の数とCの商を決定することができ、次に、決定された商に従って、Cグループの各グループに含まれる要素の数を決定することができる。
例えば、できるだけ多くのグループに含まれる要素の数は、決定された商を切り上げ又は切り捨てた結果に等しくなることができる。
ステップ2:Cグループのグループについて、このグループに含まれる要素の値の統計的特徴を決定する。
このステップでは、統計的特徴は、総和、期待値、分散、最大値、及び標準偏差のいずれかが含まれるが、これらに限定されない。特定の統計的特徴は、技術者によってさまざまな適用シナリオに従って選択され得る。
ステップ3:得られた統計的特徴がターゲット閾値Tより大きいと決定したことに応答して、このグループのコード値が1であると決定し、得られた統計的特徴がTより小さいと決定したことに応答して、このグループのコード値が0であると決定する。
このステップでは、ターゲット閾値Tは、技術者によって事前に設定され得る。
オプションで、
Figure 2022541832000004
である。ここで、Dは、Sに含まれ得る要素の数を表し、Siは、Sのi番目の要素の値を表すことができる。
ステップ(2):Cグループの各グループにそれぞれ対応するコード値で符号化行列の1行を構成することにより、符号化行列を取得する。
さまざまな適用シナリオに応じて、各行ベクトルによって分割された各グループに含まれる要素の数を制御し、各グループにそれぞれ対応する統計的特徴を統計的特徴として使用して符号化処理を実現することにより、より多くの元の情報を保持するのに寄与し、それによりその後の行列一致と画像検索の精度を向上させることができる。
オプションで、符号化処理は、以下のステップ第1、ステップ第2及びステップ第3を含み得る。
ステップ第1:ターゲット行列の各行ベクトルに対して、以下の更新処理をそれぞれ実行して更新されたターゲット行列を取得する。行ベクトルを正規化処理し、行ベクトルの正規化結果に従って、行ベクトルに含まれる各要素にそれぞれ対応する更新値を決定する。ここで、行ベクトルに含まれる各要素にそれぞれ対応する更新値は、各要素にそれぞれ対応する正規化結果と正の相関がある。
ここで、正規化処理は、具体的には、最初に行ベクトルに含まれる各要素の値の総和を決定することと、次に行ベクトルに含まれる各要素のそれぞれと決定された総和との商を、各要素に対応する正規化結果として決定することとを含み得る。
オプションで、各要素に対応する正規化結果を各要素にそれぞれ対応する更新値として直接使用することができる。
オプションで、行ベクトルの正規化結果及び事前設定された調整パラメータλに従って、行ベクトルに含まれる各要素にそれぞれ対応する更新値を決定することができる。ここで、行ベクトルに含まれる各要素にそれぞれ対応する更新値は、λと正の相関があることができる。
例えば、行ベクトルに含まれる各要素の要素について、この要素に対応する正規化結果とλの積を、この要素に対応する更新値として決定することができる。別の例として、行ベクトルに含まれる各要素の要素について、この要素に対応する正規化結果とλの積の平方根を、この要素に対応する更新値として決定することができる。
ステップ第2:更新されたターゲット行列の各行ベクトルの行ベクトルSに対して、Sに含まれる各要素をCグループに分割し、ここで、Cは符号化行列の列数を表すステップ、Cグループのグループについて、このグループに含まれる要素の値の統計的特徴を決定するステップ、得られた統計的特徴がターゲット閾値Tより大きいと決定したことに応答して、このグループのコード値が1であると決定するステップ、及び得られた統計的特徴がTより小さいと決定したことに応答して、このグループのコード値が0であると決定するステップを実行する。
ステップ第3:Cグループの各グループにそれぞれ対応するコード値で符号化行列の1行を構成して、符号化行列を取得することができる。
ここで、上記ステップ第2及びステップ第3の特定の実行プロセスは、上記ステップ(2)及びステップ(3)の関連する説明を参照することができ、ここでは繰り返さない。
最初に、第1行列、第2行列、及び第3行列の各行ベクトルを正規化処理して、第1行列、第2行列、及び第3行列を更新することにより、第1行列、第2行列、及び第3行列のノイズを減らし、第1行列、第2行列、及び第3行列の普遍性と安定性を向上させることができ、さらに、その後の行列一致プロセスの精度を確保することができる。
ステップ405:第1符号化行列と第3符号化行列との一致度を第1行列と第3行列との一致度として決定し、第2符号化行列と第3符号化行列との一致度を第2行列と第3行列との一致度として決定する。
ステップ406:決定された一致度に基づいて、画像セットから事前設定数の画像を選択し、選択された画像を送信する。
このステップの特定の実行プロセスは、図2に対応する実施例におけるステップ205の関連する説明を参照することができ、ここでは繰り返さない。
なお、本開示におけるターゲット行列(第1行列、第2行列、及び第3行列セット内の第3行列を含む)の特定の構成方法は、柔軟に設定することができる。例えば、ターゲット行列がベクトルである場合、それは、行ベクトルであってもよいし、列ベクトルもであってもよい。ターゲット行列が複数のベクトルで構成されている場合、各ベクトルは、行ごとにターゲット行列を構成することができ、各ベクトルは、列ごとにターゲット行列を構成することもできる。行列の場合、行列の行は、この行列の転置行列の列である。したがって、本開示における「行」は、「列」に置き換えることもでき、対応する「列」は、「行」に置き換えることもできる。
図4から分かるように、図2に対応する実施例と比較して、本実施例における画像を検索するための方法のフロー400は、行列一致プロセス中において、行列を符号化処理して、一致計算に使用される行列の次元及び計算量を制御できることにより、行列一致プロセスの難しさ及び計算量を軽減し、一致速度を向上させることができ、それにより画像検索速度を向上させることができることを強調している。
図5をさらに参照すると、上記各図に示されている方法の実現として、本開示は、画像を検索するための装置の一実施例を提供し、この装置の実施例は、図2に示されている方法の実施例に対応し、この装置は、さまざまな電子デバイスに具体的に適用することができる。
図5に示すように、本実施例が提供する画像を検索するための装置500は、取得ユニット501、決定ユニット502及び送信ユニット503を含む。ここで、取得ユニット501は、ターゲットアイテムのスケッチを特徴抽出して得られた第1行列を取得するように構成され、取得ユニット501は、ターゲットアイテムに対応するキーワードセット内のキーワードの単語ベクトルで構成される第2行列を取得するようにさらに構成され、ここで、キーワードセット内のキーワードは、ターゲットアイテムを説明するために使用され、取得ユニット501は、画像セット内の各画像をそれぞれ特徴抽出して得られた第3行列セットを取得するようにさらに構成され、決定ユニット502は、第3行列セット内の第3行列について、第1行列と第3行列との一致度、及び第2行列と第3行列との一致度に従って、第3行列に対応する画像が提示するアイテムとターゲットアイテムとの一致度を決定するように構成され、送信ユニット503は、決定された一致度に基づいて、画像セットから事前設定数の画像を選択し、選択された画像を送信するように構成される。
本実施例では、画像を検索するための装置500において、取得ユニット501、決定ユニット502及び送信ユニット503の特定の処理及びそれらによってもたらされる技術的効果は、図2に対応する実施例におけるステップ201、ステップ202、ステップ203、ステップ204及びステップ205の関連する説明をそれぞれ参照することができ、ここでは繰り返さない。
本実施例のいくつかの任意選択の実装形態では、決定ユニット502は、第1行列の第1プリセット重みを取得し、第2行列の第2プリセット重みを取得し、取得された第1プリセット重み及び第2プリセット重みに基づいて、第1行列と第3行列との一致度と、第2行列と第3行列との一致度の加重和に従って、第3行列に対応する画像が提示するアイテムとターゲットアイテムとの一致度を決定するようにさらに構成される。
本実施例のいくつかの任意選択の実装形態では、第1行列と第3行列との一致度、及び第2行列と第3行列との一致度は、第1行列、第2行列、及び第3行列をそれぞれターゲット行列として、ターゲット行列を符号化処理して、第1符号化行列、第2符号化行列、及び第3符号化行列を得、ここで、符号化処理は、ターゲット行列をバイナリ符号化行列にマッピングするために使用されるステップ、及び第1符号化行列と第3符号化行列との一致度を、第1行列と第3行列との一致度として決定し、第2符号化行列と第3符号化行列との一致度を、第2行列と第3行列との一致度として決定するステップにより決定される。
本実施例のいくつかの任意選択の実装形態では、符号化処理は、
ターゲット行列の各行ベクトルの行ベクトルSについて、
Sに含まれる各要素をCグループに分割し、ここで、Cは符号化行列の列数を表すステップ、
Cグループのグループについて、このグループに含まれる要素の値の統計的特徴を決定するステップ、
得られた統計的特徴がターゲット閾値Tより大きいと決定したことに応答して、このグループのコード値が1であると決定するステップ、
得られた統計的特徴がTより小さいと決定したことに応答して、このグループのコード値が0であると決定するステップ、及び
Cグループの各グループにそれぞれ対応するコード値で符号化行列の1行を構成して、符号化行列を取得するステップを実行するということを含む。
本実施例のいくつかの任意選択の実装形態では、Sに含まれる各要素をCグループに分割し、それは、Sに含まれる要素の数とCの商を決定することと、決定された商に従ってCグループの各グループに含まれる要素の数を決定することとを含む。
本実施例のいくつかの任意選択の実装形態では、
Figure 2022541832000005
ここで、DはSに含まれる要素の数を表し、SiはSのi番目の要素の値を表す。
本実施例のいくつかの任意選択の実装形態では、符号化処理は、
更新されたターゲット行列を取得するために、ターゲット行列の各行ベクトルに対して、行ベクトルを正規化処理し、行ベクトルの正規化結果に従って、行ベクトルに含まれる各要素にそれぞれ対応する更新値を決定するという更新処理をそれぞれ実行し、ここで、行ベクトルに含まれる各要素にそれぞれ対応する更新値は、各要素にそれぞれ対応する正規化結果と正の相関があり、
更新されたターゲット行列の各行ベクトルの行ベクトルSについて、
Sに含まれる各要素をCグループに分割し、ここで、Cは符号化行列の列数を表すステップ、
Cグループのグループについて、このグループに含まれる要素の値の統計的特徴を決定するステップ、
得られた統計的特徴がターゲット閾値Tより大きいと決定したことに応答して、このグループのコード値が1であると決定するステップ、
得られた統計的特徴がTより小さいと決定したことに応答して、このグループのコード値が0であると決定するステップ、及び
Cグループの各グループにそれぞれ対応するコード値で符号化行列の1行を構成して、符号化行列を取得するステップを実行するということを含む。
本実施例のいくつかの任意選択の実装形態では、行ベクトルの正規化結果に従って、行ベクトルに含まれる各要素にそれぞれ対応する更新値を決定し、それは、行ベクトルの正規化結果及び事前設定された調整パラメータλに従って、行ベクトルに含まれる各要素にそれぞれ対応する更新値を決定し、ここで、行ベクトルに含まれる各要素にそれぞれ対応する更新値は、λと正の相関があるということを含む。
本実施例のいくつかの任意選択の実装形態では、行ベクトルの正規化結果及び事前設定された調整パラメータλに従って、行ベクトルに含まれる各要素にそれぞれ対応する更新値を決定し、それは、行ベクトルに含まれる各要素の要素について、この要素に対応する正規化結果とλの積の平方根を、この要素に対応する更新値として決定するということを含む。
本実施例のいくつかの任意選択の実装形態では、第1行列は、
スケッチを少なくとも2つのサブ画像に分割するステップ、
予め訓練された畳み込みニューラルネットワークを使用してそれぞれ少なくとも2つのサブ画像を特徴抽出して、少なくとも2つのサブ画像にそれぞれ対応する特徴ベクトルを得るステップ、及び
少なくとも2つのサブ画像にそれぞれ対応する特徴ベクトルで構成される行列を第1行列として決定するステップにより得られる。
本実施例のいくつかの任意選択の実装形態では、畳み込みニューラルネットワークは、
スケッチセットを取得し、スケッチセット内の各スケッチにそれぞれ対応する一致する画像セットを取得し、ここで、スケッチ及び対応する一致する画像セット内の一致する画像は、同じアイテムを提示するために使用されるステップ、及び
スケッチセットからスケッチを選択し、以下の訓練ステップを実行するステップにより訓練して得られる。
それらの訓練ステップは、
初期モデルを使用して選択されたスケッチ及びターゲット画像セット内の各画像をそれぞれ特徴抽出して、スケッチ及びターゲット画像セット内の各画像にそれぞれ対応する出力行列を取得する訓練ステップと、
得られたスケッチに対応する出力行列のそれぞれとターゲット画像セット内の各画像にそれぞれ対応する出力行列との一致度を決定し、対応する一致度が事前設定された閾値より大きい画像を選択する訓練ステップと、
選択された画像及び入力されたスケッチに対応する一致する画像セットに従って、選択された画像に対応するリコール率及び/又は精度を決定し、決定されたリコール率及び/又は精度に従って、初期モデルの訓練が完了しているかどうかを決定する訓練ステップと、
初期モデルの訓練が完了していると決定したことに応答して、訓練された初期モデルを畳み込みニューラルネットワークとして決定する訓練ステップと、
初期モデルの訓練が完了していないと決定したことに応答して、決定されたリコール率及び/又は精度に従って、初期モデルのパラメータを調整し、調整された初期モデルを初期モデルとして決定し、スケッチセットからスケッチを再選択し、上記訓練ステップを実行し続ける訓練ステップと、を含む。
本開示の上記実施例が提供する装置は、取得ユニットによりターゲットアイテムのスケッチを特徴抽出して得られた第1行列を取得し、ターゲットアイテムに対応するキーワードセット内のキーワードの単語ベクトルで構成される第2行列を取得し、ここで、キーワードセット内のキーワードは、ターゲットアイテムを説明するために使用され、画像セット内の各画像をそれぞれ特徴抽出して得られた第3行列セットを取得し、第3行列セット内の第3行列について、決定ユニットは、第1行列と第3行列との一致度、及び第2行列と第3行列との一致度に従って、第3行列に対応する画像が提示するアイテムとターゲットアイテムとの一致度を決定し、決定された一致度に基づいて、送信ユニットは、画像セットから事前設定数の画像を選択し、選択された画像を送信し、それによりユーザがアイテムの元の画像を提供できないことによる検索を実行できないか、又は検索結果の精度が低いという状況を回避することができる。同時に、スケッチが提供するアイテムのサイズや構造などの特徴と、キーワードが提供するアイテムの意味的特徴を組み合わせることにより、検索結果の正確さを確保する。
以下、図6を参照すると、図6は、本開示の実施例を実現するのに適した電子デバイス(例えば、図1のサーバ)600の構造模式図を示している。本開示の実施例における端末装置には、携帯電話、ノートブックコンピュータ、デジタル放送受信機、PDA(携帯情報端末)、PAD(タブレットコンピュータ)、PMP(携帯型マルチメディアプレーヤー)、及び車載端末(例えば、車載ナビゲーション端末)などのモバイル端末、及びデジタルテレビ、デスクトップコンピュータなどの固定端末が含まれ得るが、これらに限定されない。図6に示されているサーバは、単なる一例であり、本開示の実施例の機能及び使用範囲に制限をもたらすべきではない。
図6に示すように、電子デバイス600は、読み取り専用メモリ(ROM)602に記憶されたプログラム又は記憶装置608からランダムアクセスメモリ(RAM)603にロードされたプログラムに従って、さまざまな適切な動作及び処理を実行できる 処理装置(例えば、中央処理装置、グラフィックスプロセッサなど)601を含み得る。RAM 603には、電子デバイス600の操作に必要なさまざまなプログラム及びデータも記憶される。処理装置601、ROM602及びRAM603は、バス604を介して互いに接続されている。入出力(I/O)インターフェース605もバス604に接続されている。
一般に、以下の装置をI/Oインターフェース605に接続することができる。タッチスクリーン、タッチパッド、キーボード、マウス、カメラ、マイクロフォン、加速度計、及びジャイロスコープなどを含む入力装置606、液晶ディスプレイ(LCD)、スピーカー、及びバイブレータなどを含む出力装置607、磁気気テープやハードディスクなどを含む記憶装置608、及び通信装置609。通信装置609は、電子デバイス600が他の装置と無線通信又は有線通信を実行してデータを交換することを可能にし得る。図6は、さまざまな装置を有する電子デバイス600を示しているが、示された装置のすべてを実装又は有する必要はないことを理解すべきである。かわりに装置を多かれ少なかれ実施又は備えることができる。図6に示されている各ブロックは、1つの装置を表すことができるか、必要に応じて複数の装置を表すこともできる。
特に、本開示の実施例によれば、フローチャートを参照して上記で説明したプロセスを、コンピュータソフトウェアプログラムとして実現することができる。例えば、本開示の実施例は、コンピュータ可読媒体に搭載されたコンピュータプログラムを含むコンピュータプログラム製品を含み、このコンピュータプログラムは、フローチャートに示される方法を実行するためのプログラムコードを含む。そのような実施例では、このコンピュータプログラムは、通信装置609を介してネットワークからダウンロード及びインストールされ得るか、又は記憶装置608からインストールされ得るか、又はROM602からインストールされ得る。このコンピュータプログラムは、処理装置601によって実行されるとき、本開示の実施例の方法で定義された上記機能が実行される。
なお、本開示の実施例で説明されるコンピュータ可読媒体は、コンピュータ可読信号媒体又はコンピュータ可読記憶媒体、或いは上記2つの任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば、電気、磁気、光学、電磁、赤外線、又は半導体のシステム、装置又はデバイス、或いは上記の任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例には、1つ又は複数のワイヤを有する電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又は上記の任意の適切な組み合わせが含まれ得るが、これらに限定されない。本開示の実施例では、コンピュータ可読記憶媒体は、プログラムを含む又は記憶する任意の有形媒体であってもよく、このプログラムは、命令実行システム、装置又はデバイスによって使用され得るか、又はそれらと組み合わせて使用され得る。本開示の実施例では、コンピュータ可読信号媒体は、ベースバンド内にあるか、又は搬送波の一部として伝搬されるデータ信号を含み得、コンピュータ可読プログラムコードがその中に運ばれる。この伝搬されたデータ信号は、電磁信号、光信号又は上記の任意の適切な組み合わせを含むが、これらに限定されない多くの形態をとることができる。コンピュータ可読信号媒体はまた、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよい。このコンピュータ可読信号媒体は、命令実行システム、装置又はデバイスによって使用されるか、又はそれらと組み合わせて使用されるためのプログラムを送信、伝搬又は伝送することができる。コンピュータ可読媒体に含まれるプログラムコードは、ワイヤ、光ケーブル、RF(無線周波数)など、又は上記の任意の適切な組み合わせを含むがこれらに限定されない、任意の適切な媒体によって伝送され得る。
上記コンピュータ可読媒体は、上記電子デバイスに含まれてもよく、この電子デバイスに組み立てられずに単独で存在していてもよい。上記コンピュータ可読媒体には、1つ又は複数のプログラムが搭載され、上記1つ又は複数のプログラムがこの電子デバイスによって実行されると、この電子デバイスは、ターゲットアイテムのスケッチを特徴抽出して得られた第1行列を取得し、ターゲットアイテムに対応するキーワードセット内のキーワードの単語ベクトルで構成される第2行列を取得し、ここで、キーワードセット内のキーワードは、ターゲットアイテムを説明するために使用され、画像セット内の各画像をそれぞれ特徴抽出して得られた第3行列セットを取得し、第3行列セット内の第3行列について、第1行列と第3行列との一致度、及び第2行列と第3行列との一致度に従って、第3行列に対応する画像が提示するアイテムとターゲットアイテムとの一致度を決定し、決定された一致度に基づいて、画像セットから事前設定数の画像を選択し、選択された画像を送信する。
本開示の実施例の操作を実行するためのコンピュータプログラムコードは、1つ又は複数のプログラミング言語又はそれらの組み合わせで書くことができ、前記プログラミング言語は、Java、Smalltalk、C++などのオブジェクト指向プログラミング言語を含み、「C」言語又は同様のプログラミング言語などの従来の手続き型プログラミング言語をさらに含む。プログラムコードは、ユーザコンピュータで完全に実行するか、その一部をユーザコンピュータで実行するか、独立したソフトウェアパッケージとして実行するか、その一部をユーザコンピュータで実行し、その一部をリモートコンピュータで実行するか、又はリモートコンピュータ又はサーバで完全に実行することができる。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)又はワイドエリアネットワーク(WAN)を含むあらゆる種類のネットワークを介してユーザコンピュータに接続され得るか、又は、外部コンピュータに接続され得る(例えば、ンターネットサービスプロバイダーを使用してインターネット経由で接続する)。
図面におけるフローチャート及びブロック図は、本開示のさまざまな実施例による、システム、方法及びコンピュータプログラム製品の実現可能なアーキテクチャ、機能及び操作を示している。この点に関して、フローチャート又はブロック図の各ブロックは、モジュール、プログラムセグメント、又はコードの一部を表すことができ、このモジュール、プログラムセグメント、又はコードの一部は、指定された論理機能を実現するための1つ又は複数の実行可能な命令を含む。いくつかの代替としての実装では、ブロックにマークされた機能も図面にマークされた順序とは異なる順序で発生する可能性があることにも注意する必要がある。例えば、連続して表された2つのブロックは、実際には実質的に並行して実行されてもよく、それらは、関係する機能によって、逆の順序で実行される場合がある。ブロック図及び/又はフローチャートにおける各ブロック、及びブロック図及び/又はフローチャートにおけるブロックの組み合わせは、指定された機能又は操作を実行する専用のハードウェアベースのシステムで実装されてもよく、又は専用のハードウェアとコンピュータ命令の組み合わせで実装されてもよいことにも注意する必要がある。
本開示で説明される実施例に含まれるユニットは、ソフトウェアの方法により実装されてもよく、ハードウェアの方法により実装されてもよい。説明されたユニットは、プロセッサに設置されてもよい。例えば、それは次のように説明することができる。プロセッサであって、取得ユニット、決定ユニット及び送信ユニットを含む。ここで、これらのユニットの名称は、特定の状況下でこのユニット自体の制限を構成するものではない。例えば、送信ユニットはさらに、「決定された一致度に基づいて、画像セットから事前設定数の画像を選択し、選択された画像を送信するユニット」と説明されてもよい。
上記の説明は、本開示の好ましい実施例、及び適用される技術原理の説明にすぎない。当業者であれば、本開示の実施例に含まれる本発明の範囲は、上記技術的特徴の特定の組み合わせによって形成される技術的解決手段に限定されず、同時に、上記発明概念から逸脱することなく、上記技術的特徴又はそれらの同等の特徴の任意の組み合わせによって形成される他の技術的解決手段もカバーする必要があることは、当然理解される。例えば、上記特徴と、本開示の実施例で開示された(ただし、これらに限定されない)同様の機能を有する技術的特徴とを互いに置き換えることにより形成される技術的解決手段である。

Claims (14)

  1. ターゲットアイテムのスケッチを特徴抽出して得られた第1行列を取得するステップと、
    ターゲットアイテムに対応するキーワードセット内のキーワードの単語ベクトルで構成される第2行列を取得し、ここで、前記キーワードセット内のキーワードは、前記ターゲットアイテムを説明するために使用されるステップと、
    画像セット内の各画像をそれぞれ特徴抽出して得られた第3行列セットを取得するステップと、
    前記第3行列セット内の第3行列について、前記第1行列と前記第3行列との一致度、及び前記第2行列と前記第3行列との一致度に従って、前記第3行列に対応する画像が提示するアイテムと前記ターゲットアイテムの一致度を決定するステップと、
    決定された一致度に基づいて、前記画像セットから事前設定数の画像を選択し、選択された画像を送信するステップと、を含む画像を検索するための方法。
  2. 前記第1行列と前記第3行列との一致度、及び前記第2行列と前記第3行列との一致度に従って、前記第3行列に対応する画像が提示するアイテムと前記ターゲットアイテムとの一致度をし、それは、
    前記第1行列の第1プリセット重みを取得し、前記第2行列の第2プリセット重みを取得するステップと、
    取得された第1プリセット重み及び第2プリセット重みに基づいて、前記第1行列と前記第3行列との一致度と、前記第2行列と前記第3行列との一致度の加重和に従って、前記第3行列に対応する画像が提示するアイテムと前記ターゲットアイテムの一致度を決定するステップと、を含む請求項1に記載の方法。
  3. 前記第1行列と前記第3行列との一致度、及び前記第2行列と前記第3行列との一致度は、
    前記第1行列、前記第2行列、及び前記第3行列をそれぞれターゲット行列として、ターゲット行列を符号化処理して、第1符号化行列、第2符号化行列、及び第3符号化行列を得、ここで、前記符号化処理は、ターゲット行列をバイナリ符号化行列にマッピングするために使用されるステップ、及び
    前記第1符号化行列と前記第3符号化行列との一致度を前記第1行列と前記第3行列との一致度として決定し、前記第2符号化行列と前記第3符号化行列との一致度を前記第2行列と前記第3行列との一致度として決定するステップにより決定される請求項1に記載の方法。
  4. 前記符号化処理は、
    ターゲット行列の各行ベクトルの行ベクトルSについて、
    Sに含まれる各要素をCグループに分割し、ここで、Cは符号化行列の列数を表すステップ、
    Cグループのグループについて、このグループに含まれる要素の値の統計的特徴を決定するステップ、
    得られた統計的特徴がターゲット閾値Tより大きいと決定したことに応答して、このグループのコード値が1であると決定するステップ、
    得られた統計的特徴がTより小さいと決定したことに応答して、このグループのコード値が0であると決定するステップ、及び
    Cグループの各グループにそれぞれ対応するコード値で符号化行列の1行を構成して、符号化行列を取得するステップを実行するということを含む請求項3に記載の方法。
  5. Sに含まれる各要素をCグループに分割し、それは、Sに含まれる要素の数とCの商を決定し、決定された商に従ってCグループの各グループに含まれる要素の数を決定するということを含む請求項4に記載の方法。
  6. Figure 2022541832000006
    であり、ここで、DはSに含まれる要素の数を表し、SiはSのi番目の要素の値を表す請求項4に記載の方法。
  7. 前記符号化処理は、
    更新されたターゲット行列を取得するために、ターゲット行列の各行ベクトルについて、行ベクトルを正規化処理し、行ベクトルの正規化結果に従って、行ベクトルに含まれる各要素にそれぞれ対応する更新値を決定し、ここで、行ベクトルに含まれる各要素にそれぞれ対応する更新値は、各要素にそれぞれ対応する正規化結果と正の相関があるという更新処理をそれぞれ実行するということと、
    更新されたターゲット行列の各行ベクトルの行ベクトルSについて、
    Sに含まれる各要素をCグループに分割し、ここで、Cは符号化行列の列数を表すステップ、
    Cグループのグループについて、このグループに含まれる要素の値の統計的特徴を決定するステップ、
    得られた統計的特徴がターゲット閾値Tより大きいと決定したことに応答して、このグループのコード値が1であると決定するステップ、
    得られた統計的特徴がTより小さいと決定したことに応答して、このグループのコード値が0であると決定するステップ、及び
    Cグループの各グループにそれぞれ対応するコード値で符号化行列の1行を構成して、符号化行列を取得するステップを実行するということと、を含む請求項3に記載の方法。
  8. 行ベクトルの正規化結果に従って、行ベクトルに含まれる各要素にそれぞれ対応する更新値を決定し、それは、行ベクトルの正規化結果及び事前設定された調整パラメータλに従って、行ベクトルに含まれる各要素にそれぞれ対応する更新値を決定し、ここで、行ベクトルに含まれる各要素にそれぞれ対応する更新値は、λと正の相関があるということを含む請求項7に記載の方法。
  9. 行ベクトルの正規化結果及び事前設定された調整パラメータλに従って、行ベクトルに含まれる各要素にそれぞれ対応する更新値を決定し、それは、行ベクトルに含まれる各要素の要素について、この要素に対応する正規化結果とλの積の平方根をこの要素に対応する更新値として決定するということを含む請求項8に記載の方法。
  10. 前記第1行列は、
    前記スケッチを少なくとも2つのサブ画像に分割するステップ、
    予め訓練された畳み込みニューラルネットワークを使用して、前記少なくとも2つのサブ画像をそれぞれ特徴抽出して、前記少なくとも2つのサブ画像にそれぞれ対応する特徴ベクトルを得るステップ、及び
    前記少なくとも2つのサブ画像にそれぞれ対応する特徴ベクトルで構成される行列を第1行列として決定するステップにより得られる請求項1に記載の方法。
  11. 前記畳み込みニューラルネットワークは、
    スケッチセットを取得し、スケッチセット内の各スケッチにそれぞれ対応する一致する画像セットを取得し、ここで、スケッチ及び対応する一致する画像セット内の一致する画像は、同じアイテムを提示するために使用されるステップ、及び
    スケッチセットからスケッチを選択し、以下の訓練ステップを実行するステップにより訓練して得られ、
    それらの訓練ステップは、
    初期モデルを使用して選択されたスケッチ及びターゲット画像セット内の各画像をそれぞれ特徴抽出してスケッチ及びターゲット画像セット内の各画像にそれぞれ対応する出力行列を取得する訓練ステップと、
    得られたスケッチに対応する出力行列のそれぞれと、ターゲット画像セット内の各画像にそれぞれ対応する出力行列との一致度を決定し、対応する一致度が事前設定された閾値より大きい画像を選択する訓練ステップと、
    選択された画像及び入力されたスケッチに対応する一致する画像セットに従って、選択された画像に対応するリコール率及び/又は精度を決定し、決定されたリコール率及び/又は精度に従って、初期モデルの訓練が完了しているかどうかを決定する訓練ステップと、
    初期モデルの訓練が完了していると決定したことに応答して、訓練された初期モデルを前記畳み込みニューラルネットワークとして決定する訓練ステップと、
    初期モデルの訓練が完了していないと決定したことに応答して、決定されたリコール率及び/又は精度に従って、初期モデルのパラメータを調整し、調整された初期モデルを初期モデルとして決定し、スケッチセットからスケッチを再選択し、上記訓練ステップを実行し続ける訓練ステップと、を含む請求項10に記載の方法。
  12. 取得ユニットであって、前記取得ユニットはターゲットアイテムのスケッチを特徴抽出して得られた第1行列を取得するように構成される取得ユニットと、
    前記取得ユニットであって、前記前記取得ユニットはターゲットアイテムに対応するキーワードセット内のキーワードの単語ベクトルで構成される第2行列を取得し、ここで、前記キーワードセット内のキーワードは前記ターゲットアイテムを説明するために使用されるようにさらに構成される前記取得ユニットと、
    前記取得ユニットであって、前記前記取得ユニットは画像セット内の各画像をそれぞれ特徴抽出して得られた第3行列セットを取得するようにさらに構成される前記取得ユニットと、
    決定ユニットであって、前記決定ユニットは前記第3行列セット内の第3行列について、前記第1行列と第3行列との一致度、及び前記第2行列と第3行列との一致度に従って、第3行列に対応する画像が提示するアイテムと前記ターゲットアイテムの一致度を決定するように構成される決定ユニットと、
    送信ユニットであって、前記送信ユニットは決定された一致度に基づいて、前記画像セットから事前設定数の画像を選択し、選択された画像を送信するように構成される送信ユニットと、を含む画像を検索するための装置。
  13. 1つ又は複数のプロセッサと、
    1つ又は複数のプログラムが記憶される記憶装置と、を含み、
    前記1つ又は複数のプログラムが前記1つ又は複数のプロセッサにより実行される場合、前記1つ又は複数のプロセッサは、請求項1~11のいずれか一項に記載の方法を実現する電子デバイス。
  14. コンピュータプログラムが記憶されるコンピュータ可読媒体であって、
    このプログラムがプロセッサにより実行される場合、請求項1~11のいずれか一項に記載の方法を実現するコンピュータ可読媒体。
JP2022504246A 2019-07-23 2020-03-19 画像を検索するための方法及び装置 Active JP7504192B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910665039.8 2019-07-23
CN201910665039.8A CN112307243B (zh) 2019-07-23 2019-07-23 用于检索图像的方法和装置
PCT/CN2020/080263 WO2021012691A1 (zh) 2019-07-23 2020-03-19 用于检索图像的方法和装置

Publications (2)

Publication Number Publication Date
JP2022541832A true JP2022541832A (ja) 2022-09-27
JP7504192B2 JP7504192B2 (ja) 2024-06-21

Family

ID=74192931

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022504246A Active JP7504192B2 (ja) 2019-07-23 2020-03-19 画像を検索するための方法及び装置

Country Status (5)

Country Link
US (1) US20220292132A1 (ja)
JP (1) JP7504192B2 (ja)
KR (1) KR20220018633A (ja)
CN (1) CN112307243B (ja)
WO (1) WO2021012691A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115098721B (zh) * 2022-08-23 2022-11-01 浙江大华技术股份有限公司 一种人脸特征检索方法、装置及电子设备
KR102542220B1 (ko) * 2022-09-19 2023-06-13 아주대학교 산학협력단 자가 지식 증류법 기반 의미론적 영상 분할 방법 및 자가 지식 증류법 기반 의미론적 영상 분할 장치

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5983237A (en) * 1996-03-29 1999-11-09 Virage, Inc. Visual dictionary
JP2002366575A (ja) * 2001-03-26 2002-12-20 Lg Electronics Inc イメージ検索方法及び検索装置
US20120054177A1 (en) * 2010-08-31 2012-03-01 Microsoft Corporation Sketch-based image search
JP2013246739A (ja) * 2012-05-29 2013-12-09 Kddi Corp 高次元の特徴ベクトル集合で表現されるコンテンツを高精度で検索する検索装置及びプログラム
JP2018055730A (ja) * 2018-01-11 2018-04-05 オリンパス株式会社 画像検索装置および画像検索方法
JP2018116572A (ja) * 2017-01-19 2018-07-26 株式会社大林組 画像管理システム、画像管理方法、及び画像管理プログラム
JP2019045984A (ja) * 2017-08-30 2019-03-22 株式会社日立製作所 データ合成装置および方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8559671B2 (en) * 2008-12-18 2013-10-15 The Regents Of The University Of California Training-free generic object detection in 2-D and 3-D using locally adaptive regression kernels
US8447752B2 (en) * 2010-09-16 2013-05-21 Microsoft Corporation Image search by interactive sketching and tagging
US9202178B2 (en) * 2014-03-11 2015-12-01 Sas Institute Inc. Computerized cluster analysis framework for decorrelated cluster identification in datasets
CN104778242B (zh) * 2015-04-09 2018-07-13 复旦大学 基于图像动态分割的手绘草图图像检索方法及系统
CN105718531B (zh) * 2016-01-14 2019-12-17 广州市万联信息科技有限公司 图像数据库的建立方法及图像识别方法
CN106202189A (zh) * 2016-06-27 2016-12-07 乐视控股(北京)有限公司 一种图像搜索方法及装置
US10013765B2 (en) * 2016-08-19 2018-07-03 Mitsubishi Electric Research Laboratories, Inc. Method and system for image registrations
CN107895028B (zh) * 2017-11-17 2019-11-29 天津大学 采用深度学习的草图检索方法
CN108334627B (zh) * 2018-02-12 2022-09-23 北京百度网讯科技有限公司 新媒体内容的搜索方法、装置和计算机设备
CN108595636A (zh) * 2018-04-25 2018-09-28 复旦大学 基于深度跨模态相关性学习的手绘草图的图像检索方法
CN109033308A (zh) * 2018-07-16 2018-12-18 安徽江淮汽车集团股份有限公司 一种图像检索方法及装置
CN109145140A (zh) * 2018-09-08 2019-01-04 中山大学 一种基于手绘轮廓图匹配的图像检索方法及系统
US11093560B2 (en) * 2018-09-21 2021-08-17 Microsoft Technology Licensing, Llc Stacked cross-modal matching
CN109408655A (zh) * 2018-10-19 2019-03-01 中国石油大学(华东) 结合带孔卷积与多尺度感知网络的手绘草图检索方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5983237A (en) * 1996-03-29 1999-11-09 Virage, Inc. Visual dictionary
JP2002366575A (ja) * 2001-03-26 2002-12-20 Lg Electronics Inc イメージ検索方法及び検索装置
US20120054177A1 (en) * 2010-08-31 2012-03-01 Microsoft Corporation Sketch-based image search
JP2013246739A (ja) * 2012-05-29 2013-12-09 Kddi Corp 高次元の特徴ベクトル集合で表現されるコンテンツを高精度で検索する検索装置及びプログラム
JP2018116572A (ja) * 2017-01-19 2018-07-26 株式会社大林組 画像管理システム、画像管理方法、及び画像管理プログラム
JP2019045984A (ja) * 2017-08-30 2019-03-22 株式会社日立製作所 データ合成装置および方法
JP2018055730A (ja) * 2018-01-11 2018-04-05 オリンパス株式会社 画像検索装置および画像検索方法

Also Published As

Publication number Publication date
CN112307243A (zh) 2021-02-02
US20220292132A1 (en) 2022-09-15
CN112307243B (zh) 2023-11-03
KR20220018633A (ko) 2022-02-15
WO2021012691A1 (zh) 2021-01-28
JP7504192B2 (ja) 2024-06-21

Similar Documents

Publication Publication Date Title
EP3940638B1 (en) Image region positioning method, model training method, and related apparatus
US20230024382A1 (en) Video clip positioning method and apparatus, computer device, and storage medium
CN109947919B (zh) 用于生成文本匹配模型的方法和装置
US12008810B2 (en) Video sequence selection method, computer device, and storage medium
CN111062871B (zh) 一种图像处理方法、装置、计算机设备及可读存储介质
KR102576344B1 (ko) 비디오를 처리하기 위한 방법, 장치, 전자기기, 매체 및 컴퓨터 프로그램
CN111666416B (zh) 用于生成语义匹配模型的方法和装置
CN110781413B (zh) 兴趣点确定方法及装置、存储介质、电子设备
CN111738010B (zh) 用于生成语义匹配模型的方法和装置
CN112149699B (zh) 用于生成模型的方法、装置和用于识别图像的方法、装置
CN114298122B (zh) 数据分类方法、装置、设备、存储介质及计算机程序产品
CN113688310B (zh) 一种内容推荐方法、装置、设备及存储介质
CN113407814B (zh) 文本搜索方法、装置、可读介质及电子设备
CN110046571B (zh) 用于识别年龄的方法和装置
CN113033580B (zh) 图像处理方法、装置、存储介质及电子设备
CN113449070A (zh) 多模态数据检索方法、装置、介质及电子设备
US11763204B2 (en) Method and apparatus for training item coding model
JP7504192B2 (ja) 画像を検索するための方法及び装置
CN113553386A (zh) 嵌入表示模型训练方法、基于知识图谱的问答方法及装置
CN116775980B (zh) 一种跨模态搜索方法及相关设备
CN116958852A (zh) 视频与文本的匹配方法、装置、电子设备和存储介质
CN116030375A (zh) 视频特征提取、模型训练方法、装置、设备及存储介质
CN117010480A (zh) 模型训练方法、装置、设备、存储介质及程序产品
CN113283115B (zh) 图像模型生成方法、装置和电子设备
CN111311616B (zh) 用于分割图像的方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220121

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230410

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230710

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20231023

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240216

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20240228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240520

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240611

R150 Certificate of patent or registration of utility model

Ref document number: 7504192

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150