JP7393475B2 - 画像を検索するための方法、装置、システム、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム - Google Patents

画像を検索するための方法、装置、システム、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム Download PDF

Info

Publication number
JP7393475B2
JP7393475B2 JP2022090080A JP2022090080A JP7393475B2 JP 7393475 B2 JP7393475 B2 JP 7393475B2 JP 2022090080 A JP2022090080 A JP 2022090080A JP 2022090080 A JP2022090080 A JP 2022090080A JP 7393475 B2 JP7393475 B2 JP 7393475B2
Authority
JP
Japan
Prior art keywords
threshold
image
score
target
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022090080A
Other languages
English (en)
Other versions
JP2022126678A (ja
Inventor
ルイビン バイ,
シァン ウェイ,
イーポン スン,
クン ヤオ,
ジントゥオ リウ,
ジュンユー ハン,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022126678A publication Critical patent/JP2022126678A/ja
Application granted granted Critical
Publication of JP7393475B2 publication Critical patent/JP7393475B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/535Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

本開示は、人工知能の技術分野に関し、特にコンピュータビジョン及び深層学習の技術分野に関し、グラフィックス処理及び画像識別などのシナリオに適用することができる。
商品画像検索技術とは、ユーザが撮影した画像を商品ライブラリーで検索して、同一又は類似の商品を見つけ、商品の販売又は関連商品の推奨を行い、商品の検索と探しの利便性を向上させ、ユーザの購入体験を最適化するということを指す。商品検索は、eコマースにおけるモバイル向けビジュアル検索の重要なアプリケーションである。商品画像検索の開発は、ユーザのショッピングに便利を提供するだけでなく、モバイル端末へのeコマース開発を促進する。
一般的な商品検索スキームは、商品画像に基づく検索スキームである。ユーザが入力した画像に応じて、検索システムは、同一又は類似の商品を返す。
本開示は、画像を検索するための方法、装置、システム、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラムを提供する。
本開示の第1態様によれば、
ターゲット画像を含むクエリ要求を受信したことに応答して、前記ターゲット画像からターゲット主体を検出するステップと、
検出されたターゲット主体の検出フレームの信頼度が第1閾値よりも大きい場合、前記ターゲット主体から同一特徴、類似特徴及びカテゴリを含む主体特徴を抽出するステップと、
前記ターゲット画像の主体特徴を、データベースに事前に記憶された候補画像の主体特徴と照合して、候補画像の類似スコアと同一スコアを取得するステップと、
検索結果の出力として、類似スコアと同一スコアに従って所定数の候補画像を選択するステップと、を含む方法を提供する。
本開示の第2態様によれば、画像を検索するための装置を提供し、該装置は、
ターゲット画像を含むクエリ要求を受信したことに応答して、前記ターゲット画像からターゲット主体を検出するように構成されている検出ユニットと、
検出されたターゲット主体の検出フレームの信頼度が第1閾値よりも大きい場合、前記ターゲット主体から同一特徴、類似特徴及びカテゴリを含む主体特徴を抽出するように構成されている抽出ユニットと、
前記ターゲット画像の主体特徴を、データベースに事前に記憶された候補画像の主体特徴と照合して、候補画像の類似スコアと同一スコアを取得するように構成されている一致ユニットと、
検索結果の出力として、類似スコアと同一スコアに従って所定数の候補画像を選択するように構成されている出力ユニットと、を含む。
本開示の第3態様によれば、画像を検索するためのシステムを提供し、該システムは、
ターゲット画像を含むクエリ要求を受信し、クエリ要求を高度な検索層に渡して処理し、高度な検索層から返された検索結果を出力するために使用される統一アクセス層と、
ターゲット画像の特徴を抽出し、特徴を基本的な検索層に渡して処理し、基本的な検索層から受信した候補画像をマージして得られた検索結果を前記統一アクセス層に返すために使用される高度な検索層と、
前記高度な検索層が提供する特徴に従って、ローカル磁気ディスクに記憶されたデータベースから一致する候補画像を検索し、最高の類似スコアと同一スコアを有する所定数の候補画像を返すために使用されるシャードの少なくとも1つを含む基本的な検索層と、を含む。
本開示の第4態様によれば、電子デバイスを提供し、該電子デバイスは、少なくとも1つのプロセッサ、及び、前記少なくとも1つのプロセッサに通信可能に接続されるメモリを含み、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサが第1態様による方法を実行できる。
本開示の第5態様によれば、コンピュータに第1態様による方法を実行させるために使用されるコンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体を提供する。
本開示の第6態様によれば、プロセッサによって実行されると、第1態様による方法を実現するコンピュータプログラムを提供する。
本開示の実施例が提供する画像を検索するための方法、装置及びシステムは、同一特徴及び類似特徴を検索及び照合することにより、同一又は類似の商品を正確に返して、ユーザの意図を満たすことができる。
このセクションで説明されることは、本開示の実施例の主要又は重要な特徴を特定することを意図するものではなく、本開示の範囲を限定するためにも使用されないことが理解されるべきである。本開示のその他の特徴は、以下の明細書から容易に理解される。
以下の図面は、本解決策をよりよく理解するために使用されており、本開示を限定するものではない。
本開示の一実施例を適用できる例示的なシステムアーキテクチャを示す図である。 本開示による画像を検索するための方法の一実施例を示すフローチャートである。 本開示による画像を検索するための方法の一適用シナリオを示す概略図である。 本開示による画像を検索するための方法のさらに別の実施例を示すフローチャートである。 本開示による画像を検索するための装置の一実施例を示す構造概略図である。 本開示の実施例の電子デバイスを実装するのに適したコンピュータシステムの構造概略図である。
以下、本開示の例示的な実施例について図面を参照して説明する。理解を容易にするために、それには、本開示の実施例のさまざまな詳細が含まれており、それらは、単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載された実施例のさまざまな変更及び修正を実行できることを理解するべきである。同様に、わかりやすく簡潔に説明をするために、以下の説明では、公知の機能と構造の説明が省略される。
図1は、本開示の画像を検索するための方法又は画像を検索するための装置を適用できる実施例の例示的なシステムアーキテクチャ100を示す。
図1に示すように、システムアーキテクチャ100は、端末装置101、102、103、ネットワーク104及びサーバ105を含み得る。ネットワーク104は、端末装置101、102、103とサーバ105との間の通信リンクの媒体を提供するために使用される。ネットワーク104は、有線、無線通信リンク又は光ファイバケーブルなどのさまざまな接続タイプを含み得る。
ユーザは、端末装置101、102、103を使用して、ネットワーク104を介してサーバ105と対話することにより、メッセージなどを受信又は送信することができる。端末装置101、102、103には、ウェブブラウザアプリケーション、ショッピングアプリケーション、検索アプリケーション、インスタントメッセージングツール、メールボックスクライアント、ソーシャルプラットフォームソフトウェアなどのさまざまな通信クライアントアプリケーションがインストールされてもよい。
端末装置101、102、103は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末装置101、102、103がハードウェアである場合、それらは、スマートフォン、タブレットコンピュータ、電子書籍リーダー、MP3プレーヤー(MovingPictureExpertsGroupAudioLayerIII、ムービングピクチャーエキスパートグループオーディオレイヤー3)、MP4(MovingPictureExpertsGroupAudioLayerIV、ムービングピクチャーエキスパートグループオーディオレイヤー4)プレーヤー、ノートパソコン及びデスクトップコンピュータなどを含むがこれらに限定されない、ディスプレイを有し、且つウェブブラウジングをサポートするさまざまな電子デバイスであってもよい。端末装置101、102、103がソフトウェアである場合、それらは、上記に挙げた電子デバイスにインストールされてもよい。それらは、複数のソフトウェア又はソフトウェアモジュール(たとえば、分散サービスを提供するために使用される)として実装されてもよいし、単一のソフトウェア又はソフトウェアモジュールとして実装されてもよい。ここでは特に限定されない。
サーバ105は、端末装置101、102、103が提示した画像に検索結果を提供するバックグラウンド検索サーバなどのさまざまなサービスを提供するサーバであってもよい。バックグラウンド検索サーバは、受信した検索要求などのデータを分析して処理し、処理結果(検索結果など)を端末装置にフィードバックすることができる。
サーバ105には、画像を検索するためのシステムがインストールされる。当該システムは、統一アクセス層、高度な検索層(AdvancedSearch、ASと略称される)及び基本的な検索層を含む。
1.統一アクセス層は、ターゲット画像を含むクエリ要求を受信し、クエリ要求を高度な検索層に渡して処理し、高度な検索層から返された検索結果を出力するために使用される。それは、PythonとPHPで実装でき、外界への最後のインターフェース層である。さらに、それは、前置処理、バックエンドサービスへのアクセス、及び後置処理も担当することができる。
2.高度な検索層(AdvancedSearch、ASと略称される)は、ターゲット画像の特徴を抽出し、特徴を基本的な検索層に渡して処理し、基本的な検索層から受信した候補画像をマージして得られた検索結果を前記統一アクセス層に返すために使用される。高度な検索層は、最初に主体を検出し、次に特徴を抽出することができる。それは、検索結果をフィルタリングして統一アクセス層に返すこともできる。
3.基本的な検索層は、シャードの少なくとも1つを含み、各シャードは、前記高度な検索層が提供する特徴に従って、ローカル磁気ディスクに記憶されたデータベース内の一致する候補画像を検索し、最高の類似スコアと同一スコアを有する所定数の候補画像を返すために使用される。それは、磁気ディスクからインデックスをロード又は読み取り、ASが提供する特徴に従って、インデックスから検索及びスコアリングし、最終的にスコアが最も高いK個の結果を返すという責任がある。基本的な検索層(BasicSearch、BSと略称される)では、すなわちBS内の各シャードはいずれも、要求を受信し、各シャードがインデックスの一部であるため、要求は、常にすべての異なるシャードのBSに送信される。たとえば、最終的にTOP200の結果が必要な場合、各シャードはいずれも、要求に応じてTOP200の結果を検索して取得し、このようにして、AS層で総インデックスのTOP200を取得することができる。
なお、サーバは、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバはハードウェアである場合、複数のサーバからなる分散サーバクラスターとして実装されてもよいし、単一のサーバとして実装されてもよい。サーバはソフトウェアである場合、複数のソフトウェア又はソフトウェアモジュール(たとえば、分散サービスを提供するための複数のソフトウェア又はソフトウェアモジュール)として実装されてもよいし、単一のソフトウェア又はソフトウェアモジュールとして実装されてもよい。ここでは特に限定されない。サーバは、分散システムのサーバであってもよいし、ブロックチェーンと組み合わせたサーバであってもよい。サーバは、クラウドサーバであってもよいし、人工知能技術を備えたスマートクラウドコンピューティングサーバ又はスマートクラウドホストであってもよい。
なお、本開示の実施例が提供する画像を検索するための方法は、一般にサーバ105により実行され、したがって、画像を検索するための装置は、一般にサーバ105に設けられる。
図1の端末装置、ネットワーク及びサーバの数は、単なる例示であることが理解されるべきである。実装のニーズに応じて、任意の数の端末装置、ネットワーク及びサーバを有することができる。
図2を引き続き参照すると、それは、本開示による画像を検索するための方法の一実施例のフロー200を示す。画像を検索するための当該方法は、以下のステップを含む。
ステップ201:ターゲット画像を含むクエリ要求を受信したことに応答して、ターゲット画像からターゲット主体を検出する。
本実施例では、画像を検索するための方法の実行主体(たとえば、図1に示すサーバ)は、有線接続方法又は無線接続方法により、ユーザがそれを使用して画像を検索する端末から、ターゲット画像を含むクエリ要求を受信することができる。ターゲット主体は、従来技術のさまざまな手段により、ターゲット画像からを検出することができる。たとえば、検出モデルによって検出する。ターゲット主体のタイプに応じて、対応する検出モデルを選択することができる。ターゲット主体が商品である場合、事前に大量の商品画像をサンプルとして商品検出モデルを訓練予測することができる。次に、検出時に、ターゲット画像を商品検出モデルに入力することにより、ターゲット画像から商品主体を検出することができる。
オプションで、検出前に、ユーザが入力した画像の画像サイズ調整などの前処理操作を実行し、デフォルトでは、検出モデルと特徴抽出モデルに渡された画像が大きすぎるのを避けるために、最小辺の長さが1000以下である。次に、検出モデルによって、ターゲット主体を検出し、複数のターゲット主体を検出した場合、サイズや信頼度の小さい検出フレームをフィルタリングし、検出結果を信頼度でソートし、最大TOP2の結果を取得することができる。信頼差が大きい場合は、TOP1の結果しか取得することができない。
ステップ202:検出されたターゲット主体の検出フレームの信頼度が第1閾値よりも大きい場合、ターゲット主体から主体特徴を抽出する。
本実施例では、検出されたターゲット主体の検出フレームの信頼度が第1閾値よりも大きい場合は、検出されたターゲット主体が信頼できることを意味し、ターゲット主体から特徴を抽出することができ、そうでない場合、画像全体から特徴を抽出する必要があり、その特定のプロセスは、フロー400に示すとおりである。主体特徴は、同一特徴、類似特徴及びカテゴリを含む。同一特徴は、ターゲット主体の局所画像一致を実行するために使用される際の特徴であり、注意力メカニズムの畳み込みニューラルネットワークにより抽出することができる。類似特徴は、ターゲット主体の完全画像一致を実行するために使用される際の特徴であり、畳み込みニューラルネットワークにより抽出することができる。カテゴリは、「QRコード(登録商標)、顔、植物、文字、料理、商品」の6種類のカテゴリなどの粗粒度カテゴリであってもよい。カテゴリは、80,000種類のカテゴリなどの細粒度カテゴリであってもよい。
特徴モデルによって、同一特徴、類似特徴及びカテゴリを抽出することができる。特徴モデルは、数千万のデータ訓練に基づいて得られた深層学習モデルであり、従来の機械学習特徴モデルと比較して、より強力な表現能力を有している。
ステップ203:ターゲット画像の主体特徴を、データベースに事前に記憶された候補画像の主体特徴と照合して、候補画像の類似スコアと同一スコアを取得する。
本実施例では、多数の候補画像は、データベースに事前に記憶され、各候補画像の主体特徴も事前に抽出されている。したがって、ターゲット画像と候補画像との間で主体特徴一致を実行することができる。ターゲット画像の類似特徴と候補画像の類似特徴との間の距離を計算して、候補画像の類似スコアを取得し、その距離が遠いほど、スコアが低くなっている。ターゲット画像の同一特徴と候補画像の同一特徴との間の距離を計算して、候補画像の同一スコアを取得し、その距離が遠いほど、スコアが低くなっている。コサイン距離、ユークリッド距離などのさまざまな既存の距離計算方法を使用することができる。
ステップ204:検索結果の出力として、類似スコアと同一スコアに従って所定数の候補画像を選択する。
本実施例では、候補画像の場合、最初に降順で同一スコアをソートし、そして、同一スコアの同じ候補画像を類似スコアの降順でソートすることができる。次に、上位にある所定数の候補画像を検索結果として出力する。類似スコアと同一スコアの加重和でソートすることもできる。データベースには、候補画像が記憶されるだけでなく、候補画像に対応する主体の関連情報が記憶され、それは、リンク付きの候補画像を出力することができる。ユーザが候補画像をクリックすると、候補画像に対応する主体の関連情報にリンクすることができる。
オプションで、類似スコアと同一スコアの低い候補画像を事前にフィルタリングして、ソートに参加させないようにすることができる。
本開示の上記実施例が提供する方法は、同一及び類似の画像を識別する精度を向上させることができ、検出モデル及び特徴抽出モデルの能力に依存しない。
本実施例のいくつかのオプションの実装方法では、ターゲット主体から主体特徴を抽出することは、類似特徴モデルによって、ターゲット主体から類似特徴を抽出することと、同一特徴モデルによって、ターゲット主体から局所画像の同一特徴を抽出することと、分類モデルによって、ターゲット主体からカテゴリを抽出することと、を含む。類似特徴モデル、同一特徴モデル及びターゲット分類モデルによって、類似特徴、同一特徴及びカテゴリをそれぞれ抽出することができる。ここで、類似特徴モデルは、ユーザが入力したターゲット画像とデータベース画像との類似度を計算するために使用される、ディープネットワークに基づくモデルである。同一特徴モデルは、ディープネットワークに基づく局所画像特徴であり、同じ商品間の局所特性をより適切に表すことができる。ターゲット分類モデルは、入力画像を分類するディープネットワークに基づく分類モデルであり、入力画像内の非ターゲットの要求をフィルタリングするために使用される。
類似特徴モデルは、通常の畳み込みニューラルネットワークであってもよい。同一特徴モデルは、注意力メカニズムに基づく畳み込みニューラルネットワークであってもよい。このようにして、同一特徴及び類似特徴を、ターゲットを絞った方法で抽出することができ、それにより同じ画像及び類似画像をより正確に識別することができる。画像の一致速度が向上している。
ターゲット分類モデルは、粗粒度カテゴリモデルと細粒度カテゴリモデルの2つを含むこともできる。粗粒度カテゴリモデルは、6種類のターゲットを識別することができる。細粒度カテゴリモデルは、80,000種類のターゲットを識別することができる。このようにして、非ターゲットの画像を事前に粗粒度モデルによってフィルタリングして、無駄な作業を避けることができる。2つの分類モデルによって、それぞれ2つの分類結果を取得することができる。
本実施例のいくつかのオプションの実装方法では、当該方法は、検出フレームのサイズがサイズ閾値よりも小さいか、又は信頼度が第2閾値よりも小さい検出フレームをフィルタリングすることをさらに含む。ターゲット検出時には、複数のターゲット主体が検出される場合があり、ユーザが検索したいターゲットは確実に意図的にズームインされるため、サイズに応じて信頼できないものをフィルタリングすることができる。また、信頼性の低いターゲット主体をフィルタリングすることもできる。このようにして、後続の一致プロセスの計算量を軽減し、クエリの速度と精度を向上させることができる。
本実施例のいくつかのオプションの実装方法では、当該方法は、検出フレームの数が1よりも大きい場合、各ターゲット主体の検出フレームの位置、面積及び候補画像の類似スコアと同一スコアに従って一意のターゲット主体を決定することをさらに含む。前のフィルタリングの後、1つ以上の信頼できるターゲット主体が存在する可能性があり、検出フレームの位置と面積に従ってフィルタリングすることを選択することができ、画像の中央にあり、且つ面積が所定の面積閾値を超えるターゲット主体を保持する。複数のターゲット主体がさらにある場合、一致プロセスの類似スコアと同一スコアでフィルタリングする。たとえば、ターゲット主体Aの検索結果では、類似スコアと同一スコアが0.5以下であるのに対し、ターゲット主体Bの検索結果では、類似スコアと同一スコアが最大0.9である場合、ターゲット主体Bは、ユーザが検索したい主体と見なされる。
本実施例のいくつかのオプションの実装方法では、類似スコアと同一スコアに従って、検索結果の出力として所定数の候補画像を選択し、それは、候補画像の類似スコアと同一スコアに従って候補画像の一致度を計算することを含む。一致度が最も高い第1候補画像がフィルタリング条件を満たしていない場合、検索結果の出力として、一致度の降順で所定数の候補画像を選択する。候補画像の類似スコアと同一スコアの加重和を一致度として使用することができ、そのうちの同一スコアの重みをより大きく設定することができる。一致度が最も高い候補画像を第1候補画像と名付け、第1候補画像がフィルタリング条件を満たしている場合、ユーザが送信した画像が識別されるタイプではない(たとえば、商品画像ではない)と見なされ、検索結果を返すことを拒否する。第1候補画像の一部のパラメータがフィルタリング条件を満たしていない場合、検索結果を出力することができる。このようにして、識別拒否機能を実現することができ、非ターゲット画像の入力に対して、検索結果が出力されない。
本実施例のいくつかのオプションの実装方法では、フィルタリング条件は、以下のうちの少なくとも1つを含む。
5つのグループのフィルタリング条件を以下に示し、閾値は、「第1」、「第2」...で区別され、昇順で閾値をソートする。つまり、第1同一閾値<第2同一閾値<第3同一閾値<第4同一閾値<第5同一閾値であり、第1類似閾値<第2類似閾値<第3類似閾値<第4類似閾値<第5類似閾値である。
1.第1候補画像は、同一スコアが第1同一閾値よりも小さく、類似スコアが第1類似閾値よりも小さい。返されたTop1結果の同一スコアや類似スコアなどで、異なる閾値を設定し、粗いフィルタリングを実行する。
2.第1候補画像は、同一スコアが第2同一閾値よりも小さく、類似スコアが第2類似閾値よりも小さく、ターゲット主体の粗粒度カテゴリと第1候補画像の粗粒度カテゴリはいずれも、所定の粗粒度カテゴリに属する。分類モデルには、粗粒度モデルが粗粒度を出力するカテゴリ(たとえば、6タイプ)、細粒度モデルが細粒度を出力するカテゴリ(たとえば、80,000種類のタイプ)の2つのタイプがある。それは、主に非ターゲットのカテゴリをフィルタリングするために使用される。たとえば、ターゲットが商品である場合、非商品カテゴリ(QRコード(登録商標)、顔、植物、文字、料理)をフィルタリングすることができる。
3.第1候補画像は、同一スコアが第3同一閾値よりも小さく、類似スコアが第3類似閾値よりも小さく、ターゲット主体の細粒度カテゴリと第1候補画像の細粒度カテゴリとの差異は、所定の差異閾値よりも大きい。たとえば、ターゲット主体の細粒度カテゴリでのトップスの確率が0.9であり、第1候補画像の細粒度カテゴリでのトップスの確率が0.05である場合、差異が大きすぎるため、一致したTOP1の結果が信頼できず、残りの結果の信頼性はさらに低くるため、すべての候補画像は、フィルタリングされる。
4.第1候補画像は、同一スコアが第4同一閾値よりも小さく、類似スコアが第4類似閾値よりも小さく、ターゲット主体の細粒度カテゴリが所定の細粒度カテゴリに属する頻度、及び第1候補画像の細粒度カテゴリが所定の細粒度カテゴリに属する頻度はいずれも、所定の頻度閾値よりも大きい。カテゴリには複数のレベルがあり、前のカテゴリの出現頻度を統計することができる。たとえば、「本の表紙」、「スクリーンショット」、「不自然な画像」、「絵画」、「病理図」、「ボトルドリンク」、「建築」、「金物」などの非商品カテゴリをフィルタリングする。
5.第1候補画像がeコマースからのものである場合、第1候補画像は、同一スコアが第5同一閾値よりも小さく、類似スコアが第5類似閾値よりも小さく、ターゲット主体の細粒度カテゴリが所定のアイテムカテゴリに属する。「本」、「衣類と下着」、「自動車の付属品」、「ギフトバッグ」、「楽器玩具」などのeコマースのシナリオで誤認しやすい商品の種類をフィルタリングすることができる。
上記フィルタリング条件により、非ターゲット画像をフィルタリングし、ユーザの意図に真に合ったリコール結果を返すことができる。
図3を引き続き参照すると、図3は、本実施例による画像を検索するための方法の適用シナリオの概略図である。図3の適用シナリオでは、ユーザは、端末を介して左端の画像を入力する。端末は、画像をサーバにアップロードし、そしてサーバは、最初に主体検出を実行し、2つの主体を検出し、次に主体の面積sに応じて1つの主体をフィルタリングし、人体領域を保持する。続いて、人体の特徴を抽出して分類し、6種類の粗粒度分類結果と80,000種類の分類結果を取得する。人体領域の画像をデータベース内の画像と照合して、各候補画像の同一スコアと類似スコアを取得する(ペアリングスコアは、画像全体の特徴のペアリング特徴に従って計算することもできる)。その後、ソートすると、左から2番目の図は、TOP1の結果である。TOP1の結果に従って、ユーザが入力した画像が商品画像であるかどうかを判断する。TOP1の結果がフィルタリング条件を満たしていない場合、検索結果を出力することができ、そうでない場合、検索結果の出力を拒否する。
図4をさらに参照すると、それは、画像を検索するための方法のさらに別の実施例のフロー400を示す。画像を検索するための当該方法のフロー400は、以下のステップを含む。
ステップ401:ターゲット画像を含むクエリ要求を受信したことに応答して、ターゲット画像からターゲット主体を検出する。
ステップ401は、基本的にステップ201と同じであるため、繰り返されない。
ステップ402:ターゲット主体が検出されない場合、又は検出されたターゲット主体の検出フレームの信頼度が第1閾値以下である場合、ターゲット画像から同一特徴、類似特徴、カテゴリ及びペアリング特徴を含む画像全体の特徴を抽出する。
本実施例では、同一特徴、類似特徴、及びカテゴリを抽出する方法は、基本的にステップ202と同じであるため、繰り返されない。ペアリング特徴は、類似特徴に似ているが、コンテンツが少なくなっており、ペアリング特徴は、2つの画像がペアになっているかどうかを判断するために使用される特徴である。ペアリングモデルによりペアリング特徴を抽出することができる。ペアリングモデルも畳み込みニューラルネットワークの一種であるが、それは、類似特徴モデルの構造よりも小さくなっている。
ステップ403:ターゲット画像の画像全体の特徴をデータベースに事前に記憶された候補画像の画像全体の特徴と照合して、候補画像の類似スコア、同一スコア及びペアリングスコアを取得する。
本実施例では、類似スコアと同一スコアの計算プロセスは、基本的にステップ203と同じであるため、繰り返されない。ペアリングスコアは、ペアリング特徴間の距離に基づいて計算され、距離が遠いほど、ペアリングスコアが低くなっている。コサイン距離、ユークリッド距離などのさまざまな既存の距離計算方法を使用することができる。
ステップ404:検索結果の出力として、類似スコア、同一スコア及びペアリングスコアに従って所定数の候補画像を選択する。
本実施例では、一致度は、類似スコア、同一スコア及びペアリングスコアの加重和により計算することができ、次に、検索結果の出力として、一致度の降順で所定数の候補画像を選択する。フィルタリング条件では、同一スコアと類似スコアを組み合わせてペアリングスコアの閾値を設定することもできる。たとえば、フィルタリング条件の第1セットは、第1候補画像は、同一スコアが第1同一閾値よりも小さく、類似スコアが第1類似閾値よりも小さく、ペアリングスコアは、第1ペアリング閾値よりも小さいように設定されてもよい。
図4から分かるように、図2に対応する実施例と比較して、本実施例における画像を検索するための方法のフロー400は、信頼できるターゲット主体が検出されていない場合に、画像全体の特徴が抽出され、ペアリング特徴が追加されることを具体化する。それにより一致検索の精度を向上させることができる。信頼できるターゲット主体が検出されていない場合のランダム一致も避けられる。
図5をさらに参照すると、上記の各図に示される方法の実現として、本開示は、画像を検索するための装置の一実施例を提供し、当該装置の実施例は、図2に示される方法の実施例に対応し、当該装置は、さまざまな電子デバイスに特に適用することができる。
図5に示すように、本実施例の画像を検索するための装置500は、検出ユニット501、抽出ユニット502、一致ユニット503及び出力ユニット504を含む。ここで、検出ユニット501は、ターゲット画像を含むクエリ要求を受信したことに応答して、ターゲット画像からターゲット主体を検出するように構成されている。抽出ユニット502は、検出されたターゲット主体の検出フレームの信頼度が第1閾値よりも大きい場合、ターゲット主体から同一特徴、類似特徴及びカテゴリを含む主体特徴を抽出するように構成されている。一致ユニット503は、ターゲット画像の主体特徴を、データベースに事前に記憶された候補画像の主体特徴と照合して、候補画像の類似スコアと同一スコアを取得するように構成されている。出力ユニット504は、検索結果の出力として、類似スコアと同一スコアに従って所定数の候補画像を選択するように構成されている。
本実施例では、画像を検索するための装置600の検出ユニット501、抽出ユニット502、一致ユニット503及び出力ユニット504の特定の処理は、図2に対応する実施例におけるステップ201、ステップ202、ステップ203、及びステップ204を参照することができる。
本実施例のいくつかのオプションの実装方法では、抽出ユニット502は、ターゲット主体が検出されない場合、又は検出されたターゲット主体の検出フレームの信頼度が第1閾値以下である場合、ターゲット画像から同一特徴、類似特徴、カテゴリ及びペアリング特徴を含む画像全体の特徴を抽出するようにさらに構成されている。一致ユニット503は、ターゲット画像の画像全体の特徴を、データベースに事前に記憶された候補画像の画像全体の特徴と照合して、候補画像の類似スコア、同一スコア及びペアリングスコアを取得するようにさらに構成されている。出力ユニット504は、検索結果の出力として、類似スコア、同一スコア及びペアリングスコアに従って所定数の候補画像を選択するようにさらに構成されている。
本実施例のいくつかのオプションの実装方法では、抽出ユニット502は、類似特徴モデルによって、ターゲット主体から類似特徴を抽出し、同一特徴モデルによって、ターゲット主体から局所画像の同一特徴を抽出し、分類モデルによって、ターゲット主体からカテゴリを抽出するようにさらに構成されている。
本実施例のいくつかのオプションの実装方法では、装置500は、フィルタリングユニット(図示せず)をさらに含み、検出フレームのサイズがサイズ閾値よりも小さいか、又は信頼度が第2閾値よりも小さい検出フレームをフィルタリングするように構成されている。
本実施例のいくつかのオプションの実装方法では、フィルタリングユニットは、検出フレームの数が1よりも大きい場合、各ターゲット主体の検出フレームの位置、面積及び候補画像の類似スコアと同一スコアに従って一意のターゲット主体を決定するようにさらに構成されている。
本実施例のいくつかのオプションの実装方法では、出力ユニット504は、候補画像の類似スコアと同一スコアに従って候補画像の一致度を計算するようにさらに構成されている。一致度が最も高い第1候補画像がフィルタリング条件を満たしていない場合、検索結果の出力として、一致度の降順で所定数の候補画像を選択する。
本実施例のいくつかのオプションの実装方法では、フィルタリング条件は、
第1候補画像は、同一スコアが第1同一閾値よりも小さく、類似スコアが第1類似閾値よりも小さいこと、
第1候補画像は、同一スコアが第2同一閾値よりも小さく、類似スコアが第2類似閾値よりも小さく、ターゲット主体の粗粒度カテゴリと第1候補画像の粗粒度カテゴリはいずれも、所定の粗粒度カテゴリに属すること、
第1候補画像は、同一スコアが第3同一閾値よりも小さく、類似スコアが第3類似閾値よりも小さく、ターゲット主体の細粒度カテゴリと第1候補画像の細粒度カテゴリとの差異は、所定の差異閾値よりも大きいこと、
第1候補画像は、同一スコアが第4同一閾値よりも小さく、類似スコアが第4類似閾値よりも小さく、ターゲット主体の細粒度カテゴリが所定の細粒度カテゴリに属する頻度、及び第1候補画像の細粒度カテゴリが所定の細粒度カテゴリに属する頻度はいずれも、所定の頻度閾値よりも大きいこと、
第1候補画像がeコマースからのものである場合、第1候補画像は、同一スコアが第5同一閾値よりも小さく、類似スコアが第5類似閾値よりも小さく、ターゲット主体の細粒度カテゴリが所定のアイテムカテゴリに属することのうちの少なくとも1つを含む。
本開示の技術的解決手段では、関係するユーザの個人情報の取得、記憶及び適用などはいずれも、関連法規の規定に準拠し、公序良俗に違反していない。
本開示の実施例によれば、本開示は、電子デバイス、可読記憶媒体及びコンピュータプログラム製品をさらに提供する。
電子デバイスであって、少なくとも1つのプロセッサ、及び前記少なくとも1つのプロセッサに通信可能に接続されるメモリを含み、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサがフロー200又は400に記載された方法を実行できる。
コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、前記コンピュータ命令は、前記コンピュータにフロー200又は400に記載された方法を実行させるために使用される。
コンピュータプログラム製品であって、コンピュータプログラムを含み、前記コンピュータプログラムがプロセッサによって実行されると、フロー200又は400に記載された方法を実現する。
図6は、本開示の実施例を実施するために使用され得る例示的な電子デバイス600の概略ブロック図を示す。電子デバイスは、ラップトップ、デスクトップコンピュータ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、大型コンピュータ、及びその他の適切なコンピュータなどのさまざまな形式のデジタルコンピュータを表すことを目的としている。電子デバイスは、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス及びその他の同様のコンピューティングデバイスなどのさまざまな形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は、単なる例であり、本明細書で説明及び/又は要求される本開示の実現を限定することを意図したものではない。
図6に示すように、デバイス600は、読み取り専用メモリ(ROM)602に記憶されるコンピュータプログラム又は記憶ユニット608からランダムアクセスメモリ(RAM)603にロードされるコンピュータプログラムに応じて、さまざまな適切な操作及び処理を実行できる計算ユニット601を含む。RAM603には、デバイス600の操作に必要なさまざまなプログラムやデータが記憶されてもよい。計算ユニット601、ROM602及びRAM603は、バス604を介して互いに接続されている。入力/出力(I/O)インターフェース605もバス604に接続されている。
デバイス600における複数のコンポーネントは、I/Oインターフェース605に接続されており、キーボード、マウスなどの入力ユニット606と、さまざまなタイプのディスプレイ、スピーカーなどの出力ユニット607と、磁気ディスク、光ディスクなどの記憶ユニット608と、ネットワークカード、モデム、無線通信トランシーバなどの通信ユニット609とを含む。通信ユニット609は、デバイス600がインターネットのコンピュータネットワーク及び/又はさまざまな電気通信ネットワークなどを介して、他のデバイスと情報/データを交換することを可能にする。
計算ユニット601は、処理及び計算能力を有するさまざまな汎用及び/又は専用の処理コンポーネントであってもよい。計算ユニット601のいくつかの例として、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、さまざまな専用の人工知能(AI)計算チップ、各種の機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット601は、画像を検索するための方法などの上記の各方法及び処理を実行する。たとえば、いくつかの実施例では、画像を検索するための方法は、記憶ユニット608などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実装されてもよい。いくつかの実施例では、コンピュータプログラムの一部又は全部は、ROM602及び/又は通信ユニット609を介してデバイス600にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM603にロードされ、計算ユニット601によって実行される場合、上記の画像を検索するための方法の1つ又は複数のステップが実行されてもよい。代替的に、他の実施例では、計算ユニット601は、他の任意の適切な手段(たとえば、ファームウェアによって)によって、画像を検索するための方法を実行するように構成されてもよい。
上記に記載されたシステム及び技術のさまざまな実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、ロードプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実装されてもよい。これらのさまざまな実施形態は、1つ又は複数のコンピュータプログラムに実施され、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈され得、当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、且つデータ及び命令を当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができることを含み得る。
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせを採用してプログラミングすることができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供され得、それによりプログラムコードは、プロセッサ又はコントローラによって実行されると、フローチャート及び/又はブロック図で示される機能/操作が実施される。プログラムコードは、完全に機械で実行され、部分的に機械で実行され、独立したソフトウェアパッケージとして部分的に機械で実行され、部分的にリモートマシンで実行され、又は完全にリモートマシン又はサーバで実行されてもよい。
本開示のコンテキストでは、機械読み取り可能な媒体は、有形的な媒体であってもよく、命令実行システム、装置又はデバイスによって使用されるか、又は命令実行システム、装置又はデバイスと組み合わせて使用されるプログラムを含むか、又は記憶することができる。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁気、赤外線、又は半導体システム、装置又はデバイス、又は上記の任意の適切な組み合わせを含み得るが、これらに限定されない。機械可読記憶媒体のより具体的な例は、1つ又は複数の配線に基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光学的記憶デバイス、磁気的記憶デバイス、又は上記に記載された任意の適切な組み合わせを含む。
ユーザとの対話を提供するために、コンピュータ上で、本明細書で説明されるシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するための表示装置(たとえば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(たとえば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとの対話を提供するために使用され得る。たとえば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(たとえば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形態(音響入力、音声入力又は触覚入力を含む)でユーザからの入力を受信することができる。
本明細書で説明されるシステム及び技術は、バックグラウンドコンポーネントを含む計算システム(たとえば、データサーバとして)、又はミドルウェアコンポーネントを含む計算システム(たとえば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含む計算システム(たとえば、グラフィカルユーザインターフェース又はインターネットブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインターフェース又は当該インターネットブラウザを介して、本明細書で説明されるシステム及び技術の実施形態と対話することができる)、又はこのようなバックグラウンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含む計算システムで実施することができる。任意の形態又は媒体のデジタルデータ通信(たとえば、通信ネットワーク)によって、システムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを含む。
コンピュータシステムは、クライアントとサーバを含み得る。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介して対話する。対応するコンピュータ上で実行され、クライアント-サーバの関係を互いに有するコンピュータプログラムによってクライアントとサーバの関係を生成する。サーバは、クラウドサーバであってもよいし、分散システムのサーバであってもよいし、又はブロックチェーンと組み合わせたサーバであってもよい。
上記に示されるさまざまな形態のフローを使用して、再ソートし、ステップを追加又は削除することができることが理解されるべきである。たとえば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次に実行されてもよいし、異なる順序で実行されてもよく、本開示で開示されている技術的解決手段が所望の結果を実現できる限り、本明細書では限定しない。
上記特定の実施形態は、本開示の保護範囲を限定するものではない。当業者は、設計要件及び他の要因に応じて、さまざまな修正、組み合わせ、サブコンビネーション及び置換を行うことができると理解すべきである。本開示の精神及び原則内で行われる任意の修正、同等の置換及び改善などはいずれも、本開示の保護範囲内に含まれるべきである。

Claims (17)

  1. コンピュータによって実行される画像を検索するための方法であって、
    ターゲット画像を含むクエリ要求を受信したことに応答して、前記ターゲット画像からターゲット主体を検出するステップと、
    検出されたターゲット主体の検出フレームの信頼度が第1閾値よりも大きい場合、前記ターゲット主体から同一特徴、類似特徴及びカテゴリを含む主体特徴を抽出するステップと、
    前記ターゲット画像の主体特徴を、データベースに事前に記憶された候補画像の主体特徴と照合して、候補画像の類似スコアと同一スコアを取得するステップと、
    検索結果の出力として、類似スコアと同一スコアに従って所定数の候補画像を選択するステップと、を含む画像を検索するための方法。
  2. ターゲット主体が検出されない場合、又は検出されたターゲット主体の検出フレームの信頼度が第1閾値以下である場合、前記ターゲット画像から同一特徴、類似特徴、カテゴリ及びペアリング特徴を含む画像全体の特徴を抽出するステップと、
    前記ターゲット画像の画像全体の特徴を、データベースに事前に記憶された候補画像の画像全体の特徴と照合して、候補画像の類似スコア、同一スコア及びペアリングスコアを取得するステップと、
    検索結果の出力として、類似スコア、同一スコア及びペアリングスコアに従って所定数の候補画像を選択するステップと、をさらに含む請求項1に記載の方法。
  3. 前記ターゲット主体から主体特徴を抽出することは、
    類似特徴モデルによって、前記ターゲット主体から類似特徴を抽出するステップと、
    同一特徴モデルによって、前記ターゲット主体から局所画像の同一特徴を抽出するステップと、
    分類モデルによって、前記ターゲット主体からカテゴリを抽出するステップと、を含む請求項1に記載の方法。
  4. 検出フレームのサイズがサイズ閾値よりも小さいか、又は信頼度が第2閾値よりも小さい検出フレームをフィルタリングするステップをさらに含む請求項1に記載の方法。
  5. 検出フレームの数が1よりも大きい場合、各ターゲット主体の検出フレームの位置、面積及び候補画像の類似スコアと同一スコアに従って一意のターゲット主体を決定するステップをさらに含む請求項4に記載の方法。
  6. 前記検索結果の出力として、類似スコアと同一スコアに従って所定数の候補画像を選択することは、
    候補画像の類似スコアと同一スコアに従って候補画像の一致度を計算するステップと、
    一致度が最も高い第1候補画像がフィルタリング条件を満たしていない場合、検索結果の出力として、一致度の降順で所定数の候補画像を選択するステップと、を含む請求項1~5のいずれか一項に記載の方法。
  7. 前記フィルタリング条件は、
    第1候補画像は、同一スコアが第1同一閾値よりも小さく、類似スコアが第1類似閾値よりも小さいこと、
    第1候補画像は、同一スコアが第2同一閾値よりも小さく、類似スコアが第2類似閾値よりも小さく、ターゲット主体の粗粒度カテゴリと第1候補画像の粗粒度カテゴリはいずれも、所定の粗粒度カテゴリに属すること、
    第1候補画像は、同一スコアが第3同一閾値よりも小さく、類似スコアが第3類似閾値よりも小さく、ターゲット主体の細粒度カテゴリと第1候補画像の細粒度カテゴリとの差異は、所定の差異閾値よりも大きいこと、
    第1候補画像は、同一スコアが第4同一閾値よりも小さく、類似スコアが第4類似閾値よりも小さく、ターゲット主体の細粒度カテゴリが所定の細粒度カテゴリに属する頻度、及び第1候補画像の細粒度カテゴリが所定の細粒度カテゴリに属する頻度はいずれも、所定の頻度閾値よりも大きいこと、
    第1候補画像がeコマースからのものである場合、第1候補画像は、同一スコアが第5同一閾値よりも小さく、類似スコアが第5類似閾値よりも小さく、ターゲット主体の細粒度カテゴリが所定のアイテムカテゴリに属すること
    のうちの少なくとも1つを含む請求項6に記載の方法。
  8. ターゲット画像を含むクエリ要求を受信したことに応答して、前記ターゲット画像からターゲット主体を検出するように構成されている検出ユニットと、
    検出されたターゲット主体の検出フレームの信頼度が第1閾値よりも大きい場合、前記ターゲット主体から同一特徴、類似特徴及びカテゴリを含む主体特徴を抽出するように構成されている抽出ユニットと、
    前記ターゲット画像の主体特徴を、データベースに事前に記憶された候補画像の主体特徴と照合して、候補画像の類似スコアと同一スコアを取得するように構成されている一致ユニットと、
    検索結果の出力として、類似スコアと同一スコアに従って所定数の候補画像を選択するように構成されている出力ユニットと、を含む画像を検索するための装置。
  9. 前記抽出ユニットは、ターゲット主体が検出されない場合、又は検出されたターゲット主体の検出フレームの信頼度が第1閾値以下である場合、前記ターゲット画像から同一特徴、類似特徴、カテゴリ及びペアリング特徴を含む画像全体の特徴を抽出するようにさらに構成されており、
    前記一致ユニットは、前記ターゲット画像の画像全体の特徴を、データベースに事前に記憶された候補画像の画像全体の特徴と照合して、候補画像の類似スコア、同一スコア及びペアリングスコアを取得するようにさらに構成されており、
    前記出力ユニットは、検索結果の出力として、類似スコア、同一スコア及びペアリングスコアに従って所定数の候補画像を選択するようにさらに構成されている請求項8に記載の装置。
  10. 前記抽出ユニットは、
    類似特徴モデルによって、前記ターゲット主体から類似特徴を抽出し、
    同一特徴モデルによって、前記ターゲット主体から局所画像の同一特徴を抽出し、
    分類モデルによって、前記ターゲット主体からカテゴリを抽出するようにさらに構成されている請求項8に記載の装置。
  11. 検出フレームのサイズがサイズ閾値よりも小さいか、又は信頼度が第2閾値よりも小さい検出フレームをフィルタリングするように構成されているフィルタリングユニットをさらに含む請求項8に記載の装置。
  12. 前記フィルタリングユニットは、
    検出フレームの数が1よりも大きい場合、各ターゲット主体の検出フレームの位置、面積及び候補画像の類似スコアと同一スコアに従って一意のターゲット主体を決定するようにさらに構成されている請求項11に記載の装置。
  13. 前記出力ユニットは、
    候補画像の類似スコアと同一スコアに従って候補画像の一致度を計算し、
    一致度が最も高い第1候補画像がフィルタリング条件を満たしていない場合、検索結果の出力として、一致度の降順で所定数の候補画像を選択するようにさらに構成されている請求項8~12のいずれか一項に記載の装置。
  14. 前記フィルタリング条件は、
    第1候補画像は、同一スコアが第1同一閾値よりも小さく、類似スコアが第1類似閾値よりも小さいこと、
    第1候補画像は、同一スコアが第2同一閾値よりも小さく、類似スコアが第2類似閾値よりも小さく、ターゲット主体の粗粒度カテゴリと第1候補画像の粗粒度カテゴリはいずれも、所定の粗粒度カテゴリに属すること、
    第1候補画像は、同一スコアが第3同一閾値よりも小さく、類似スコアが第3類似閾値よりも小さく、ターゲット主体の細粒度カテゴリと第1候補画像の細粒度カテゴリとの差異は、所定の差異閾値よりも大きいこと、
    第1候補画像は、同一スコアが第4同一閾値よりも小さく、類似スコアが第4類似閾値よりも小さく、ターゲット主体の細粒度カテゴリが所定の細粒度カテゴリに属する頻度、及び第1候補画像の細粒度カテゴリが所定の細粒度カテゴリに属する頻度はいずれも、所定の頻度閾値よりも大きいこと、
    第1候補画像がeコマースからのものである場合、第1候補画像は、同一スコアが第5同一閾値よりも小さく、類似スコアが第5類似閾値よりも小さく、ターゲット主体の細粒度カテゴリが所定のアイテムカテゴリに属すること
    のうちの少なくとも1つを含む請求項13に記載の装置。
  15. 少なくとも1つのプロセッサ、及び
    前記少なくとも1つのプロセッサに通信可能に接続されるメモリを含む電子デバイスであって、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサが請求項1~5のいずれか一項に記載の方法を実行できる、電子デバイス。
  16. コンピュータに請求項1~5のいずれか一項に記載の方法を実行させるために使用されるコンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体。
  17. プロセッサによって実行されると、請求項1~5のいずれか一項に記載の方法を実現するコンピュータプログラム。
JP2022090080A 2021-08-17 2022-06-02 画像を検索するための方法、装置、システム、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム Active JP7393475B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110943222.7 2021-08-17
CN202110943222.7A CN113656630A (zh) 2021-08-17 2021-08-17 检索图像的方法、装置和系统

Publications (2)

Publication Number Publication Date
JP2022126678A JP2022126678A (ja) 2022-08-30
JP7393475B2 true JP7393475B2 (ja) 2023-12-06

Family

ID=78479986

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022090080A Active JP7393475B2 (ja) 2021-08-17 2022-06-02 画像を検索するための方法、装置、システム、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム

Country Status (4)

Country Link
US (1) US20220292131A1 (ja)
JP (1) JP7393475B2 (ja)
KR (1) KR20220109363A (ja)
CN (1) CN113656630A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114549876A (zh) * 2022-01-10 2022-05-27 上海明胜品智人工智能科技有限公司 图像处理方法、设备以及系统
CN117078976B (zh) * 2023-10-16 2024-01-30 华南师范大学 动作评分方法、装置、计算机设备以及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012221148A (ja) 2011-04-07 2012-11-12 Hitachi Ltd 画像処理方法、及び、画像処理システム
JP2013015902A (ja) 2011-06-30 2013-01-24 Yahoo Japan Corp 画像検索装置、画像検索システム、画像検索方法、及び画像検索プログラム
CN111027622A (zh) 2019-12-09 2020-04-17 Oppo广东移动通信有限公司 图片标签生成方法、装置、计算机设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815323B (zh) * 2016-12-27 2020-02-07 西安电子科技大学 一种基于显著性检测的跨域视觉检索方法
CN111133447B (zh) * 2018-02-18 2024-03-19 辉达公司 适于自主驾驶的对象检测和检测置信度的方法和系统
US10846552B1 (en) * 2018-09-06 2020-11-24 A9.Com, Inc. Universal object recognition
US10949702B2 (en) * 2019-04-16 2021-03-16 Cognizant Technology Solutions India Pvt. Ltd. System and a method for semantic level image retrieval
CN110992297A (zh) * 2019-11-11 2020-04-10 北京百度网讯科技有限公司 多商品图像合成方法、装置、电子设备及存储介质
US11748796B2 (en) * 2020-03-19 2023-09-05 Adobe Inc. Automatic clustering and mapping of user generated content with curated content
CN111522986B (zh) * 2020-04-23 2023-10-10 北京百度网讯科技有限公司 图像检索方法、装置、设备和介质
CN113255694B (zh) * 2021-05-21 2022-11-11 北京百度网讯科技有限公司 训练图像特征提取模型和提取图像特征的方法、装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012221148A (ja) 2011-04-07 2012-11-12 Hitachi Ltd 画像処理方法、及び、画像処理システム
JP2013015902A (ja) 2011-06-30 2013-01-24 Yahoo Japan Corp 画像検索装置、画像検索システム、画像検索方法、及び画像検索プログラム
CN111027622A (zh) 2019-12-09 2020-04-17 Oppo广东移动通信有限公司 图片标签生成方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
KR20220109363A (ko) 2022-08-04
CN113656630A (zh) 2021-11-16
JP2022126678A (ja) 2022-08-30
US20220292131A1 (en) 2022-09-15

Similar Documents

Publication Publication Date Title
WO2020108608A1 (zh) 搜索结果处理方法、装置、终端、电子设备及存储介质
JP7393475B2 (ja) 画像を検索するための方法、装置、システム、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム
CN110622153B (zh) 用于查询分割的方法和系统
US20200110842A1 (en) Techniques to process search queries and perform contextual searches
CN114549874B (zh) 多目标图文匹配模型的训练方法、图文检索方法及装置
CN113159095A (zh) 一种训练模型的方法、图像检索的方法以及装置
CN104537341B (zh) 人脸图片信息获取方法和装置
US11762990B2 (en) Unstructured text classification
CN113656582B (zh) 神经网络模型的训练方法、图像检索方法、设备和介质
CN113722438B (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
EP4322031A1 (en) Recommendation method, recommendation model training method, and related product
CN112084307A (zh) 一种数据处理方法、装置、服务器及计算机可读存储介质
CN114880505A (zh) 图像检索方法、装置及计算机程序产品
CN114116997A (zh) 知识问答方法、装置、电子设备及存储介质
CN113408280A (zh) 负例构造方法、装置、设备和存储介质
CN112818114A (zh) 信息的分类方法、检测方法、计算设备及存储介质
CN114692778B (zh) 用于智能巡检的多模态样本集生成方法、训练方法及装置
CN114419327B (zh) 图像检测方法和图像检测模型的训练方法、装置
CN113988878B (zh) 一种基于图数据库技术的反欺诈方法及系统
CN114444514A (zh) 语义匹配模型训练、语义匹配方法及相关装置
CN113407579A (zh) 群组查询方法、装置、电子设备及可读存储介质
CN116383491B (zh) 信息推荐方法、装置、设备、存储介质和程序产品
CN115795023B (zh) 文档推荐方法、装置、设备以及存储介质
CN113656393B (zh) 数据处理方法、装置、电子设备以及存储介质
CN116824609B (zh) 文档版式检测方法、装置和电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230718

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230929

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231124

R150 Certificate of patent or registration of utility model

Ref document number: 7393475

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150