JP6905603B2 - 画像検索方法、装置、機器および読み取り可能な記憶媒体 - Google Patents

画像検索方法、装置、機器および読み取り可能な記憶媒体 Download PDF

Info

Publication number
JP6905603B2
JP6905603B2 JP2019571060A JP2019571060A JP6905603B2 JP 6905603 B2 JP6905603 B2 JP 6905603B2 JP 2019571060 A JP2019571060 A JP 2019571060A JP 2019571060 A JP2019571060 A JP 2019571060A JP 6905603 B2 JP6905603 B2 JP 6905603B2
Authority
JP
Japan
Prior art keywords
feature
image
features
cluster
searched
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019571060A
Other languages
English (en)
Other versions
JP2020525908A (ja
Inventor
ジャンフイ クアン
ジャンフイ クアン
ウェイ ジャン
ウェイ ジャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sensetime Technology Co Ltd
Original Assignee
Shenzhen Sensetime Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sensetime Technology Co Ltd filed Critical Shenzhen Sensetime Technology Co Ltd
Publication of JP2020525908A publication Critical patent/JP2020525908A/ja
Application granted granted Critical
Publication of JP6905603B2 publication Critical patent/JP6905603B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Description

(関連出願への相互参照)
本願は2017年09月27日に中国特許局へ提出された、出願番号201710891875.9、名称「画像検索方法、装置およびコンピュータ読み取り可能な記憶媒体」の中国特許出願の優先権を主張しており、その全ての内容が引用により本願に組み込まれる。
本願はコンピュータビジョン分野に属し、特に画像検索方法、装置、機器および読み取り可能な記憶媒体に関する。
画像検索とは、検索対象の画像を指定し、データベースにおいて検索し、該検索対象の画像に最も類似する画像を返すタスクをいい、コンピュータビジョンおよび画像解析の重要な課題であり、例えば、商品推奨、セキュリティ監視および医療診断などの多くの分野において重要な適用を果たしている。
画像検索は注力されて研究されていたが、残念なことに、複雑かつ困難な課題であることは変わっていない。複雑な画像背景が関心領域への障害となり、検索の正確度に影響し、一方、大量の画像検索中、画像が百万枚ひいてはそれ以上に達する場合が多いため、画像検索の正確度、効率が多くの要因による影響を受けるが、画像検索はリアルタイム性への要求が非常に高いため、画像検索のアルゴリズムは非常に高効率、かつ高速でなければならない。しかしながら、従来の画像検索アルゴリズムは複雑な背景を有するまたは関心領域(Region Of Interest:ROI)が小さい画像について正確に、高効率に効果的な検索手段を抽出できず、さらに好適な特徴を抽出して検索することができないことが多い。
本願は、正確に、高効率に背景が複雑な画像および/またはROIが小さい画像を検索するために、画像検索方法、装置、機器およびコンピュータ読み取り可能な記憶媒体を提供する。
本願の第一態様は、検索対象の画像の各畳み込み層特徴をそれぞれ次元削減し、前記畳み込み層特徴よりも次元が小さい各次元削減特徴を得ることと、前記各次元削減特徴に基づいてクラスタリングし、複数のクラスタ特徴を得ることと、前記複数のクラスタ特徴を融合し、グローバル特徴を得ることと、前記グローバル特徴に基づき、データベースから前記検索対象の画像を検索することと、を含む画像検索方法を提供する。
本願の第二態様は、検索対象の画像の各畳み込み層特徴をそれぞれ次元削減し、前記畳み込み層特徴よりも次元が小さい各次元削減特徴を得るように構成された次元削減モジュールと、前記各次元削減特徴に基づいてクラスタリングし、複数のクラスタ特徴を得るように構成されたクラスタリングモジュールと、前記複数のクラスタ特徴を融合し、グローバル特徴を得るように構成された融合モジュールと、前記グローバル特徴に基づき、データベースから前記検索対象の画像を検索するように構成された検索モジュールと、を含む画像検索装置を提供する。
本願の第三態様は、メモリ、プロセッサおよびメモリに記憶されかつプロセッサにおいて実行可能なコンピュータプログラムを含む機器を提供し、ここで、プロセッサはコンピュータプログラムを実行する時、以下のステップ、即ち検索対象の画像の各畳み込み層特徴をそれぞれ次元削減し、前記畳み込み層特徴よりも次元が小さい各次元削減特徴を得ることと、前記各次元削減特徴に基づいてクラスタリングし、複数のクラスタ特徴を得ることと、前記複数のクラスタ特徴を融合し、グローバル特徴を得ることと、前記グローバル特徴に基づき、データベースから前記検索対象の画像を検索することと、を実現する。
本願の実施例の第四態様は、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体を提供し、ここで、コンピュータプログラムはプロセッサにより実行される時、以下のステップ、即ち検索対象の画像の各畳み込み層特徴をそれぞれ次元削減し、前記畳み込み層特徴よりも次元が小さい各次元削減特徴を得ることと、前記各次元削減特徴に基づいてクラスタリングし、複数のクラスタ特徴を得ることと、前記複数のクラスタ特徴を融合し、グローバル特徴を得ることと、前記グローバル特徴に基づき、データベースから前記検索対象の画像を検索することと、を実現する。
本願が提供する上記技術的解決手段によれば、検索対象の画像の各畳み込み層特徴をそれぞれ次元削減することで、ROIを任意の形状に変化可能にし、画像検索結果へのノイズによる影響を軽減し、一方、各次元削減特徴に基づいてクラスタリングすることで、複数のクラスタ領域特徴を取得し、画像特徴への照明、角度、障害物などの要因による影響をできる限り軽減する。
本願の実施例における技術的解決手段をより明確に説明するために、以下に実施例または従来技術の記述において必要な図面を用いて簡単に説明を行うが、当然ながら、以下に記載する図面は単に本願の実施例の一例であり、当業者であれば、創造的な労力を要することなく、これらの図面に基づいて他の図面に想到し得る。
本願の実施例が提供する画像検索方法の任意選択的なフローチャートである。 本願の実施例が提供する画像検索方法の任意選択的なフローチャートである。 本願の実施例が提供する画像検索方法の任意選択的なフローチャートである。 本願の実施例が提供する画像検索装置の任意選択的な構成模式図である。 本願の実施例が提供する画像検索装置の任意選択的な構成模式図である。 本願の実施例が提供する画像検索装置の任意選択的な構成模式図である。 本願の実施例が提供する画像検索装置の任意選択的な構成模式図である。 本願の実施例が提供する画像検索装置の任意選択的な構成模式図である。 本願の実施例が提供する画像検索装置の任意選択的な構成模式図である。 本願の実施例が提供する画像検索装置の任意選択的な構成模式図である。 本願の実施例が提供する画像検索装置の任意選択的な構成模式図である。 本願の実施例が提供する画像検索装置の任意選択的な構成模式図である。 本願の実施例が提供する機器の構成模式図である。
以下の記述においては、限定ではなく説明のために、特定のシステム構造、技術のような具体的詳細を提供し、それによって本願の実施例に対する徹底的な理解を助ける。しかし、当業者であれば、これらの具体的詳細がない他の実施例においても本願を実現可能であることは理解できる。他の場合には、不要な詳細が本願の記述への障害にならないように、公知のシステム、装置、回路および方法に対する詳細な説明を省略する。
本願の技術的解決手段を説明するために、以下に具体的な実施例により説明する。
図1Aは本願の実施例が提供する画像検索方法の任意選択的なフローチャートであり、以下のステップSa101からSa104を含む。以下に詳細に説明する。
Sa101において、検索対象の画像の各畳み込み層特徴をそれぞれ次元削減し、畳み込み層特徴よりも次元が小さい各次元削減特徴を得る。
検索対象の画像の各畳み込み層特徴をそれぞれ次元削減することは、以下のような事実をもとにして行われる。即ち、1)、多重共線性と予測変数が互いに関連し、例えば、多重共線性が解空間の不安定を引き起こし、それにより一貫しない結果をもたらし得る。2)、高次元空間そのものが疎性を有し、研究によれば、一次元の正規分布において68%の値が正負標準偏差の間にあるが、十次元空間でそれが0.02%だけである。3)、過多の変数が検索パターンの確立を妨げる。4)、変数レベルのみで解析すると、変数間の潜在的関係が無視される可能性があり、例えば、いくつかの予測変数がデータのある面での特徴のみを反映するグループにある可能性が存在する。5)、最も価値のある情報が高次元ベクトルの前部に集まり、後部にノイズが集まったことが多い。6)、次元削減すると、特徴をより高速に、高効率にクラスタリングし、ノイズによる影響を軽減することができる。従って、次元削減の目的は、予測変数の数を低下させること、これらの予測変数を互いに独立するように確保すること、および結果を解釈するためのフレームワークを提供することなどを含む。
Sa102において、各次元削減特徴に基づいてクラスタリングし、複数のクラスタ特徴を得る。
Sa103において、複数のクラスタ特徴を融合し、グローバル特徴を得る。
Sa104において、グローバル特徴に基づいて、データベースから検索対象の画像を検索する。
上記図1Aが例示した画像検索方法によれば、検索対象の画像の各畳み込み層特徴をそれぞれ次元削減することで、ROIを任意の形状に変化可能にし、画像検索結果へのノイズによる影響を軽減し、一方、各次元削減特徴に基づいてクラスタリングすることで、複数のクラスタ領域特徴を取得し、画像特徴への照明、角度、障害物などの要因による影響をできる限り軽減する。
図1Bは本願の実施例が提供する画像検索方法の任意選択的なフローチャートであり、以下のステップSb101からSb105を含む。以下に詳細に説明する。
Sb101において、検索対象の画像の各畳み込み層特徴をそれぞれ次元削減し、畳み込み層特徴よりも次元が小さい各次元削減特徴を得る。
検索対象の画像の各畳み込み層特徴をそれぞれ次元削減するステップの前に、さらに検索対象の画像を畳み込みニューラルネットワークに入力し、各畳み込み層特徴を得ることを含む。ここで、ニューラルネットワークを学習することで、畳み込みニューラルネットワークを得て、即ち画像分類タスクまたは距離学習タスクによって、予めニューラルネットワーク重みを学習しておき、続いて該ニューラルネットワーク構造の完全接続層を破棄し、畳み込みカーネルの重みおよびオフセットなどを含む畳み込み層のパラメータのみを残し、畳み込みニューラルネットワークを得て、続いて、検索対象の画像を畳み込みニューラルネットワークに入力し、畳み込みニューラルネットワークに検索対象の画像の各畳み込み層特徴を出力させる。ここで、畳み込みニューラルネットワークは畳み込み層およびダウンサンプリング層を含み、ここの各畳み込み層特徴は検索対象の画像における対応する画素領域の特徴をそれぞれ特徴付ける。例えば、画素領域が8*8画素単位であれば、畳み込み層特徴の数は(検索対象の画像の高さに含まれる画素数/8)*(検索対象の画像の幅に含まれる画素数/8)となり、さらに例えば、画素領域が16*16画素単位であれば、畳み込み層特徴の数は(検索対象の画像の高さに含まれる画素数/16)*(検索対象の画像の幅に含まれる画素数/16)となるなどである。
説明すべきは、上記実施例における各次元削減特徴の次元は検索の正確度によって決定してもよいことである。一般的には、次元削減前の各畳み込み層特徴の次元が次元削減特徴の次元よりも大幅に大きく、例えば、次元削減前の各畳み込み層特徴の次元が256または512であるが、次元削減特徴の次元が5であってもよい。
実施例によれば、各畳み込み層特徴を抽出し、畳み込みニューラルネットワークの畳み込み層の強い特徴発現能力により、意味が互いに近接する画像を特徴空間上でも類似するようにすることで、画像特徴への照明、角度、障害物などの要因による影響を軽減し、それにより画像検索の正確度や品質を向上させ、一方、検索対象の画像の畳み込み層特徴を次元削減することで、検索対象の画像のROIを任意の形状に変化可能にし、画像検索結果へのノイズによる影響を軽減する。
本願の実施例では、検索対象の画像の各畳み込み層特徴は検索対象の画像の画像空間におけるH*W箇所でのD次元特徴のセットであり、検索対象の画像の各畳み込み層特徴をそれぞれ次元削減し、各次元削減特徴を得るステップは、検索対象の画像の画像空間におけるH*W箇所でのD次元特徴を検索対象の画像の画像空間におけるH*W箇所でのC次元特徴に次元削減するようにしてもよく、当然ながら、ここのCはDよりも小さく、HとWはそれぞれ検索対象の画像の高さと幅である。
Sb102において、各次元削減特徴間の距離に基づき、次元削減特徴をクラスタリングし、複数の特徴クラスタ中心を得る。
ここで、検索対象の画像の各次元削減特徴のうち特徴間の距離に相当する次元削減特徴を特徴クラスタ中心としてクラスタリングし、複数の特徴クラスタ中心を構成させる。そのうち、二つの特徴間の距離が設定条件を満たす場合、例えば予め設定された距離閾値範囲内にある場合、二つの特徴間の距離が相当すると判定できる。
Sb103において、ステップSb102で得られた複数の特徴クラスタ中心の各々について、対応する畳み込み層特徴の最大値を、各特徴クラスタ中心のクラスタ特徴としてそれぞれサンプリングする。
説明すべきは、上記ステップSb103で、対応する畳み込み層特徴は各特徴クラスタ中心に含まれる各次元削減特徴に対応する畳み込み層特徴をいい、クラスタ特徴の数は32個であってもよく、検索の正確度によって他の数値を取ってもよく、ここでは説明のための例示に過ぎないということである。各次元削減特徴に基づいてクラスタリングすることで、複数のクラスタ領域特徴を取得する上記ステップは、画像特徴への照明、角度、障害物などの要因による影響をできる限り低減する。
Sb104において、複数のクラスタ特徴を融合し、グローバル特徴を得る。
ここで、複数のクラスタ特徴を融合し、グローバル特徴を得るステップは、複数のクラスタ特徴の各々をそれぞれ回帰し、各回帰クラスタ特徴を得て、各回帰クラスタ特徴を加算し、グローバル特徴を得ることを含んでもよい。ここで、複数のクラスタ特徴の各々をそれぞれ回帰し、各回帰クラスタ特徴を得るステップは、複数のクラスタ特徴の各々をそれぞれ順に正規化、ホワイトニング、再正規化し、それにより各回帰クラスタ特徴を得ることを含む。
Sb105において、グローバル特徴に基づき、データベースから検索対象の画像を検索する。
本願の一実施例としては、グローバル特徴に基づき、データベースから前記検索対象の画像を検索するステップは、グローバル特徴に基づき、データベースから検索対象の画像との類似度が最も高いK個の画像を取得することを含んでもよく、ここで、Kは1以上の整数である。
そのうち、グローバル特徴とデータベースにおける画像の特徴との間の距離に基づき、データベースにおける画像と検索対象の画像との類似度をソートし、検索対象の画像との類似度が最も高いK個の画像を取得するようにしてもよい。
データベースにおける画像の特徴とグローバル特徴との間の距離が小さければ小さいほど、該画像と検索対象の画像が類似するかまたは類似度が高いことが示されるため、上記実施例はこの原則に従って、データベースにおける画像と検索対象の画像との類似度をソートし、検索対象の画像との類似度が最も高いK個の画像を取得する。
ここで、グローバル特徴に基づき、データベースから前記検索対象の画像との類似度が最も高いK個の画像を取得するステップは、グローバル特徴とデータベースにおける各画像特徴との間の距離を計算することと、グローバル特徴とデータベースにおける各画像特徴との間の距離に基づき、データベースからグローバル特徴との距離が最も小さいK個の画像を、検索対象の画像との類似度が最も高いK個の画像として取得することと、を含んでもよい。
データベースから検索対象の画像との類似度が最も高いK個の画像を取得するステップの後に、前記方法はさらに、K個の画像および検索対象の画像とのそれぞれの類似度を提示することを含む。
図1Aおよび図1Bに例示した画像検索方法によれば、検索対象の画像の各畳み込み層特徴をそれぞれ次元削減することで、ROIを任意の形状に変化可能にし、画像検索結果へのノイズによる影響を軽減し、一方、各次元削減特徴に基づいてクラスタリングすることで、複数のクラスタ領域特徴を取得し、画像特徴への照明、角度、障害物などの要因による影響をできる限り軽減する。
図1Cは本願の実施例が提供する画像検索方法の任意選択的な実現フローチャートであり、以下のステップSc101からSc107を含む。以下に詳細に説明する。
Sc101において、検索対象の画像を畳み込みニューラルネットワークに入力し、各畳み込み層特徴を得る。
ここで、ニューラルネットワークを学習することで、畳み込みニューラルネットワークを得て、即ち画像分類タスクまたは距離学習タスクによって、予めニューラルネットワーク重みを学習しておき、続いて該ニューラルネットワーク構造の完全接続層を破棄し、畳み込みカーネルの重みおよびオフセットなどを含む畳み込み層のパラメータのみを残し、畳み込みニューラルネットワークを得て、続いて、検索対象の画像を畳み込みニューラルネットワークに入力し、それに検索対象の画像の各畳み込み層特徴を出力させ、ここで、畳み込みニューラルネットワークは畳み込み層およびダウンサンプリング層を含み、ここの各畳み込み層特徴は検索対象の画像における対応する画素領域の特徴をそれぞれ特徴付ける。例えば、画素領域が8*8画素単位であれば、畳み込み層特徴の数は(検索対象の画像の高さに含まれる画素数/8)*(検索対象の画像の幅に含まれる画素数/8)となり、さらに例えば、画素領域が16*16画素単位であれば、畳み込み層特徴の数は(検索対象の画像の高さに含まれる画素数/16)*(検索対象の画像の幅に含まれる画素数/16)となるなどである。
Sc102において、検索対象の画像の各畳み込み層特徴をそれぞれ次元削減し、畳み込み層特徴よりも次元が小さい各次元削減特徴を得る。
本願の一実施例としては、検索対象の画像の各畳み込み層特徴をそれぞれ次元削減し、各次元削減特徴を得るステップは、主成分分析(Principal Component Analysis:PCA)方法を用いて次元削減するようにしてもよい。PCA方法は次元削減前のn個の旧特徴を数がより少ないm個の新特徴で入れ替え、新特徴は旧特徴の線形組み合わせであり、これらの線形組み合わせは標本分散を最大化し、m個の新特徴をできる限り関連しないようにして、旧特徴から新特徴へのマッピングからデータ内の固有変動性を収集する。
説明すべきは、本願の検索対象の画像の各畳み込み層特徴をそれぞれ次元削減するステップは上記PCA方法に限定されず、他の方法、例えば、因子分析またはユーザ定義複合などを用いてもよいため、上記PCA方法は本願を制限するものではないということである。
本願の実施例では、検索対象の画像の各畳み込み層特徴は検索対象の画像の画像空間におけるH*W箇所でのD次元特徴のセットであり、検索対象の画像の各畳み込み層特徴をそれぞれ次元削減し、各次元削減特徴を得るステップは、検索対象の画像の画像空間におけるH*W箇所でのD次元特徴を検索対象の画像の画像空間におけるH*W箇所でのC次元特徴に次元削減するようにしてもよく、当然ながら、ここのCはDよりも小さく、HとWはそれぞれ検索対象の画像の高さと幅である。
Sc103において、各次元削減特徴間の距離に基づき、次元削減特徴をクラスタリングし、複数の特徴クラスタ中心を得る。
ここで、検索対象の画像の各次元削減特徴のうち特徴間の距離が相当する次元削減特徴を特徴クラスタ中心としてクラスタリングし、最終的に複数の特徴クラスタ中心を構成させる。そのうち、二つの特徴間の距離が設定条件を満たす場合、例えば予め設定された距離閾値の範囲内にある場合、二つの特徴間の距離が相当すると判定できる。
Sc104において、ステップSc103で得られた複数の特徴クラスタ中心の各々について、対応する畳み込み層特徴の最大値を、各特徴クラスタ中心のクラスタ特徴としてそれぞれサンプリングする。
説明すべきは、上記ステップSc104で、対応する畳み込み層特徴は各特徴クラスタ中心に含まれる各次元削減特徴に対応する畳み込み層特徴をいい、クラスタ特徴の数は32個であってもよく、検索の正確度によって他の数値を取ってもよく、ここでは説明のための例示に過ぎないということである。
各次元削減特徴に基づいてクラスタリングすることで、複数のクラスタ領域特徴を取得する上記ステップは、画像特徴への照明、角度、障害物などの要因による影響をできる限り軽減する。
Sc105において、複数のクラスタ特徴の各々をそれぞれ回帰し、各回帰クラスタ特徴を得る。
ここで、複数のクラスタ特徴の各々をそれぞれ回帰し、各回帰クラスタ特徴を得るステップは、複数のクラスタ特徴の各々をそれぞれ順に正規化、ホワイトニング、再正規化し、それにより各回帰クラスタ特徴を得ることを含む。
Sc106において、各回帰クラスタ特徴を加算し、グローバル特徴を得る。
Sc107において、グローバル特徴に基づき、データベースから検索対象の画像を検索する。
本願の一実施例としては、グローバル特徴に基づき、データベースから前記検索対象の画像を検索するステップは、グローバル特徴に基づき、データベースから検索対象の画像との類似度が最も高いK個の画像を取得することを含んでもよく、ここで、Kは1以上の整数である。
そのうち、グローバル特徴とデータベースにおける画像の特徴との間の距離に基づき、データベースにおける画像と検索対象の画像との類似度をソートし、検索対象の画像との類似度が最も高いK個の画像を取得するようにしてもよい。
データベースにおける画像の特徴とグローバル特徴との間の距離が小さければ小さいほど、該画像と検索対象の画像が類似するかまたは類似度が高いことが示されるため、上記実施例はこの原則に従って、データベースにおける画像と検索対象の画像との類似度をソートし、検索対象の画像との類似度が最の高いK個の画像を取得する。
ここで、グローバル特徴に基づき、データベースから前記検索対象の画像との類似度が最も高いK個の画像を取得するステップは、グローバル特徴とデータベースにおける各画像特徴との間の距離を計算することと、グローバル特徴とデータベースにおける各画像特徴との間の距離に基づき、データベースからグローバル特徴との距離が最も小さいK個の画像を、検索対象の画像との類似度が最も高いK個の画像として取得することと、を含んでもよい。
データベースから検索対象の画像との類似度が最も高いK個の画像を取得するステップの後に、前記方法はさらに、K個の画像および検索対象の画像とのそれぞれの類似度を提示することを含む。
図2は本願の実施例が提供する画像検索装置の任意選択的な構成模式図であり、次元削減モジュール201、クラスタリングモジュール202、融合モジュール203および検索モジュール204を含み、詳細な説明は以下のとおりである。
次元削減モジュール201は、検索対象の画像の各畳み込み層特徴をそれぞれ次元削減し、畳み込み層特徴よりも次元が小さい各次元削減特徴を得るように構成され、ここで、次元削減特徴の次元は5であってもよい。
クラスタリングモジュール202は、各次元削減特徴に基づいてクラスタリングし、複数のクラスタ特徴を得るように構成され、ここで、クラスタ特徴の数は32であってもよい。
融合モジュール203は、複数のクラスタ特徴を融合し、グローバル特徴を得るように構成される。
検索モジュール204は、グローバル特徴に基づき、データベースから検索対象の画像を検索するように構成される。
説明すべきは、本願の実施例が提供する装置は、本願の方法の実施例と同じ思想をもとにするため、それがもたらす技術的効果も本願の方法の実施例と同じであるということであり、具体的な内容は本願の方法の実施例での記述を参照すればよく、ここでは説明を省略する。
図3に例示した画像検索装置のように、図2に例示した画像検索装置はさらに、検索対象の画像を畳み込みニューラルネットワークに入力し、各畳み込み層特徴を得るように構成された入力モジュール301を含んでもよく、ここで、各畳み込み層特徴は検索対象の画像における対応する画素領域の特徴をそれぞれ特徴付ける。
図4に例示した画像検索装置のように、図2に例示したクラスタリングモジュール201は、各次元削減特徴間の距離に基づき、次元削減特徴をクラスタリングし、複数の特徴クラスタ中心を得るように構成された第一処理ユニット401、および、複数の特徴クラスタ中心の各々について、対応する畳み込み層特徴の最大値を、各特徴クラスタ中心のクラスタ特徴としてそれぞれサンプリングするように構成されたサンプリングユニット402を含んでもよい。
図5に例示した画像検索装置のように、図2に例示した融合モジュール203は、複数のクラスタ特徴の各々をそれぞれ回帰し、各回帰クラスタ特徴を得るように構成された回帰ユニット501、および、各回帰クラスタ特徴を加算し、グローバル特徴を得るように構成された加算ユニット502を含んでもよい。
図6に例示した画像検索装置ように、図5に例示した回帰ユニット501は、複数のクラスタ特徴の各々をそれぞれ順に正規化、ホワイトニング、再正規化し、各回帰クラスタ特徴を得るように構成された第二処理ユニット601を含んでもよい。
図7に例示した画像検索装置のように、図2に例示した検索モジュール204は、グローバル特徴に基づいて、データベースから検索対象の画像との類似度が最も高いK個の画像を取得するように構成された第一取得ユニット701を含んでもよく、ここで、Kは1以上の整数である。
図8に例示した画像検索装置のように、図7に例示した第一取得ユニット701は、グローバル特徴とデータベースにおける各画像特徴との間の距離を計算するように構成された計算ユニット801、および、グローバル特徴とデータベースにおける各画像特徴との間の距離に基づき、データベースからグローバル特徴との距離が最も小さいK個の画像を、検索対象の画像との類似度が最も高いK個の画像として取得するように構成された第二取得ユニット802を含んでもよい。
図9Aまたは図9Bに例示した画像検索装置のように、図7または図8に例示した画像検索装置はさらに、検索対象の画像との類似度が最も高いK個の画像および検索対象の画像とのそれぞれの類似度を提示するように構成された提示モジュール901を含んでもよい。
図10は本願の実施例が提供する機器の任意選択的な構成模式図である。図10に示すように、該実施例の機器10は、プロセッサ100、メモリ101およびメモリ101に記憶されかつプロセッサ100において実行可能なコンピュータプログラム102、例えば画像検索方法のプログラムを含む。プロセッサ100はコンピュータプログラム102を実行する時に上記画像検索方法の実施例におけるステップ、例えば図1Aに示すステップSa101からSa104を実現する。または、プロセッサ100はコンピュータプログラム102を実行する時に上記各装置の実施例における各モジュール/ユニットの機能、例えば図2に示す次元削減モジュール201、クラスタリングモジュール202、融合モジュール203および検索モジュール204の機能を実現する。
例示的に、画像検索方法のコンピュータプログラム102は、検索対象の画像の各畳み込み層特徴をそれぞれ次元削減し、前記畳み込み層特徴よりも次元が小さい各次元削減特徴を得ることと、前記各次元削減特徴に基づいてクラスタリングし、複数のクラスタ特徴を得ることと、前記複数のクラスタ特徴を融合し、グローバル特徴を得ることと、前記グローバル特徴に基づき、データベースから前記検索対象の画像を検索することと、を含む。コンピュータプログラム102は、メモリ101に記憶されて、プロセッサ100によって実行されて、それによって本願を完了する一つ以上のモジュール/ユニットに分割可能である。一つ以上のモジュール/ユニットは、特定の機能を完了可能な、コンピュータプログラム102の計算機器10における実行プロセスを記述するように構成された一連のコンピュータプログラム指令セグメントであってもよい。例えば、コンピュータプログラム102は、検索対象の画像の各畳み込み層特徴をそれぞれ次元削減し、前記畳み込み層特徴よりも次元が小さい各次元削減特徴を得るように構成された次元削減モジュール201、前記各次元削減特徴に基づいてクラスタリングし、複数のクラスタ特徴を得るように構成されたクラスタリングモジュール202、前記複数のクラスタ特徴を融合し、グローバル特徴を得るように構成された融合モジュール203、および前記グローバル特徴に基づき、データベースから前記検索対象の画像を検索するように構成された検索モジュール204の機能(仮想装置におけるモジュール)に分割されてもよい。
機器10はプロセッサ100、メモリ101を含んでもよいが、これらに限定されない。当業者であれば、図10は機器10の例示に過ぎず、機器10を限定するものではなく、図面以上または以下の部材を含んでもよく、または何らかの部材、もしくは異なる部材を組み合わせてもよく、例えば機器はさらに入出力機器、ネットワークアクセス機器、バスなどを含んでもよいことが理解可能である。
前記プロセッサ100は中央処理装置(Central Processing Unit:CPU)であってもよく、他の共通プロセッサ、デジタル信号プロセッサ(Digital Signal Processor:DSP)、特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)、フィールドプログラマブルゲートアレイ(Field−Programmable Gate Array:FPGA)または他のプログラマブル論理デバイス、離散ゲートまたはトランジスタ論理デバイス、離散ハードウェアコンポーネントなどであってもよい。共通プロセッサはマイクロプロセッサまたは任意の一般的なプロセッサなどであってもよい。
メモリ101は機器10の内部記憶ユニット、例えば機器10のハードディスクまたは内部メモリであってもよい。メモリ101は機器10の外部記憶装置、例えば機器10に配置されるプラグインハードディスク、スマートメディアカード(Smart Media Card:SMC)、セキュアデジタル(Secure Digital:SD)カード、フラッシュカード(Flash Card)などであってもよい。さらに、メモリ101は機器10の内部記憶ユニットと外部記憶装置を同時に含んでもよい。メモリ101はコンピュータプログラムおよび機器に必要な他のプログラムおよびデータを記憶するように構成され、また出力されたまたはすぐに出力されるデータを一時的に記憶するように構成されてもよい。
例示的な実施例では、本願の実施例はさらにコンピュータ読み取り可能な記憶媒体、例えば、機器内のプロセッサ100によって実行して、前記画像検索方法の前記ステップを完了することができるコンピュータプログラムを含むメモリ101を提供する。コンピュータ読み取り可能な記憶媒体はFRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁性面記憶装置、光ディスク、またはCD−ROMなどのメモリであってもよく、また上記メモリの一つまたは任意の組み合わせを含む様々な機器、例えば携帯電話、コンピュータ、タブレットデバイス、携帯情報端末などであってもよい。
コンピュータ読み取り可能な記憶媒体は、プロセッサにより実行される時、本願の上記実施例が提供する画像検索方法を実行するコンピュータプログラムが記憶されている。
なお、説明を簡便にするために、上記各機能ユニット、モジュールの分割のみを例にして説明したが、実用において、必要に応じて上記機能を異なる機能ユニット、モジュールによって完了するように割り当ててもよく、即ち装置の内部構造を異なる機能ユニットまたはモジュールに分割し、それによって上述した全てまたは一部の機能を完了するようにしてもよいことは、当業者であれば明確に理解できる。実施例における各機能ユニット、モジュールは一つの処理ユニットに統合されてもよく、それぞれ独立して物理的に存在してもよく、また二つ以上で一つのユニットに統合されてもよく、上記統合されたユニットはハードウェアの形式で実現してもよく、ソフトウェア機能ユニットの形式で実現してもよい。また、各機能ユニット、モジュールの具体的な名称は互いに区別するためのものに過ぎず、本願の保護範囲を限定するものではない。上記システムにおけるユニット、モジュールの具体的な動作プロセスは、前記方法の実施例での対応するプロセスを参照すればよく、ここでは説明を省略する。
上記実施例では、各実施例に対する記述が着目している点が異なり、ある実施例において詳細に記述または記載されていない部分は、他の実施例の関連説明を参照すればよい。
なお、本明細書に開示する実施例と関連付けて記述した各例のユニットおよびアルゴリズムのステップは、電子ハードウェア、またはコンピュータソフトウェアと電子ハードウェアの組み合わせで実現可能であることは、当業者であれば想到できる。これらの機能をハードウェアの形態で実行するか、またはソフトウェアの形態で実行するかは、技術的解決手段の特定の応用および設計制約条件によって決定される。専門技術者は各特定の応用について、記述した機能を異なる方法を用いて実現できるが、このような実現は本願の範囲を超えたものと理解すべきではない。
本願が提供する実施例では、開示する装置/機器および方法は、他の形態で実現できることを理解すべきである。例えば、上述した装置/機器の実施例は例示的なものに過ぎず、例えば、モジュールまたはユニットの分割は、論理機能の分割に過ぎず、実際に実現時に別の分割形態にしてもよく、例えば複数のユニットまたはコンポーネントは組み合わせてもよく、または別のシステムに統合してもよく、またはいくつかの特徴を無視してもよく、もしくは実行しなくてもよい。一方、示したまたは論じた互いのカップリングまたは直接カップリングまたは通信接続はいくつかのインタフェースによるものであってもよく、装置またはユニットの間接カップリングまたは通信接続は、電気的、機械的または他の形式であってもよい。
分離部材として説明したユニットは物理的に分離されたものであってもなくてもよく、ユニット表示の部材としては物理ユニットであってもなくてもよく、即ち一箇所に位置してもよく、または複数のネットワークユニットに分布してもよい。実際の必要に応じてその一部または全てのユニットを選択して本実施例の解決手段の目的を実現できる。
また、本願の各実施例における各機能ユニットは一つの処理ユニットに統合されてもよく、それぞれ独立して物理的に存在してもよく、二つ以上で一つのユニットに統合されてもよい。上記統合されたユニットはハードウェアの形式で実現してもよく、ソフトウェア機能ユニットの形式で実現してもよい。
統合されたモジュール/ユニットがソフトウェア機能ユニットの形式で実現されかつ独立した製品として販売または使用される場合、コンピュータ読み取り可能な記憶媒体に記憶することができる。このような見解をもとに、本願はコンピュータプログラムによって関連するハードウェアに指示を出して、上記実施例の方法における全てまたは一部のプロセスを完了するようにしてもよく、画像検索方法のコンピュータプログラムはコンピュータ読み取り可能な記憶媒体に記憶可能であり、該コンピュータプログラムはプロセッサにより実行される時、上記各方法の実施例のステップ、即ち、検索対象の画像の各畳み込み層特徴をそれぞれ次元削減し、前記畳み込み層特徴よりも次元が小さい各次元削減特徴を得ることと、前記各次元削減特徴に基づいてクラスタリングし、複数のクラスタ特徴を得ることと、前記複数のクラスタ特徴を融合し、グローバル特徴を得ることと、前記グローバル特徴に基づき、データベースから前記検索対象の画像を検索することと、を実現することができる。そのうち、コンピュータプログラムは、ソースコード形式、オブジェクトコード形式、実行可能ファイルまたは何らかの中間形式などであってもよいコンピュータプログラムコードを含む。コンピュータ読み取り可能な媒体は、コンピュータプログラムコードを携帯可能なあらゆる実体または装置、記録媒体、USBフラッシュディスク、モバイルハードディスク、磁気ディスク、光ディスク、コンピュータメモリ、読み取り専用メモリ(ROM:Read−Only Memory)、ランダムアクセスメモリ(RAM:Random Access Memory)、電気キャリア信号、電気通信信号およびソフトウェア配信媒体などを含むことができる。説明すべきは、コンピュータ読み取り可能な媒体が含む内容は裁判管轄区内の立法および特許実践上の要求を応じて適当に増減でき、例えば何らかの裁判管轄区において、立法および特許実践によって、コンピュータ読み取り可能な媒体は電気キャリア信号および電気通信信号を含まない。以上の実施例は本願の技術的解決手段を説明するためのものに過ぎず、それを限定するものではない。前記実施例を参照しながら本願を詳細に説明したが、当業者であれば理解できるように、前記各実施例に記載の技術的解決手段の修正、またはその一部の技術的特徴の置換を行うことができ、これらの修正または置換は、該当する技術的解決手段の本質を本願の各実施例の技術的解決手段の精神および範囲から逸脱させることなく、いずれも本願の保護範囲内に含まれるものとする。

Claims (13)

  1. 検索対象の画像の各畳み込み層特徴をそれぞれ次元削減し、各次元削減特徴を得ることであって、前記次元削減特徴は前記畳み込み層特徴よりも次元が小さいことと、
    前記各次元削減特徴に基づいてクラスタリングし、複数のクラスタ特徴を得ることと、
    前記複数のクラスタ特徴を融合し、グローバル特徴を得ることと、
    前記グローバル特徴に基づき、データベースから前記検索対象の画像を検索することと、を含み、
    前記複数のクラスタ特徴を融合し、グローバル特徴を得ることは、
    前記複数のクラスタ特徴の各々をそれぞれ回帰し、各回帰クラスタ特徴を得ることと、
    前記各回帰クラスタ特徴を加算し、前記グローバル特徴を得ることと、を含む、画像検索方法。
  2. 前記検索対象の画像の各畳み込み層特徴をそれぞれ次元削減する前に、さらに、
    前記検索対象の画像を畳み込みニューラルネットワークに入力し、前記各畳み込み層特徴を得ることを含む、請求項1に記載の画像検索方法。
  3. 各前記畳み込み層特徴は前記検索対象の画像における対応する画素領域の特徴をそれぞれ特徴付ける、請求項2に記載の画像検索方法。
  4. 前記各次元削減特徴に基づいてクラスタリングし、複数のクラスタ特徴を得ることは、
    前記各次元削減特徴間の距離に基づき、前記次元削減特徴をクラスタリングし、複数の特徴クラスタ中心を得ることと、
    前記複数の特徴クラスタ中心の各々について、対応する畳み込み層特徴の最大値を、各特徴クラスタ中心の前記クラスタ特徴としてそれぞれサンプリングすることと、を含む、請求項1に記載の画像検索方法。
  5. 前記複数のクラスタ特徴の各々をそれぞれ回帰し、各回帰クラスタ特徴を得ることは、
    前記複数のクラスタ特徴の各々をそれぞれ順に正規化、ホワイトニング、再正規化し、前記各回帰クラスタ特徴を得ることを含む、請求項に記載の画像検索方法。
  6. 前記グローバル特徴に基づき、データベースから前記検索対象の画像を検索することは、
    前記グローバル特徴に基づき、前記データベースから前記検索対象の画像との類似度が最も高いK個の画像を取得することを含み、前記Kは1以上の整数である、請求項1に記載の画像検索方法。
  7. 前記グローバル特徴に基づき、前記データベースから前記検索対象の画像との類似度が最も高いK個の画像を取得することは、
    前記グローバル特徴と前記データベースにおける各画像特徴との間の距離を計算することと、
    前記グローバル特徴と前記データベースにおける各画像特徴との間の距離に基づき、前記データベースから前記グローバル特徴との距離が最も小さいK個の画像を、検索対象の画像との類似度が最も高い前記K個の画像として取得することと、を含む、請求項に記載の画像検索方法。
  8. 前記K個の画像および前記検索対象の画像とのそれぞれの類似度を提示することをさらに含む、請求項6または7に記載の画像検索方法。
  9. 前記次元削減特徴の次元は5である、請求項1に記載の画像検索方法。
  10. 前記クラスタ特徴の数は32個である、請求項1に記載の画像検索方法。
  11. 検索対象の画像の各畳み込み層特徴をそれぞれ次元削減し、各次元削減特徴を得るように構成された次元削減モジュールであって、前記次元削減特徴は前記畳み込み層特徴よりも次元が小さい次元削減モジュールと、
    前記各次元削減特徴に基づいてクラスタリングし、複数のクラスタ特徴を得るように構成されたクラスタリングモジュールと、
    前記複数のクラスタ特徴を融合し、グローバル特徴を得るように構成された融合モジュールと、
    前記グローバル特徴に基づき、データベースから前記検索対象の画像を検索するように構成された検索モジュールと、を含み、
    前記融合モジュールは、複数のクラスタ特徴の各々をそれぞれ回帰し、各回帰クラスタ特徴を得るように構成された回帰ユニット、および、各回帰クラスタ特徴を加算し、グローバル特徴を得るように構成された加算ユニットを含む、画像検索装置。
  12. メモリ、プロセッサおよび前記メモリに記憶されかつ前記プロセッサにおいて実行可能なコンピュータプログラムを含み、前記プロセッサは前記コンピュータプログラムを実行する時に請求項1から10のいずれか一項に記載の方法のステップを実現する、機器。
  13. プロセッサにより実行される時に請求項1から10のいずれか一項に記載の方法のステップを実現するコンピュータプログラムが記憶されている、コンピュータ読み取り可能な記憶媒体。
JP2019571060A 2017-09-27 2018-09-10 画像検索方法、装置、機器および読み取り可能な記憶媒体 Active JP6905603B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710891875.9A CN108205580B (zh) 2017-09-27 2017-09-27 一种图像检索方法、装置及计算机可读存储介质
CN201710891875.9 2017-09-27
PCT/CN2018/104891 WO2019062534A1 (zh) 2017-09-27 2018-09-10 一种图像检索方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
JP2020525908A JP2020525908A (ja) 2020-08-27
JP6905603B2 true JP6905603B2 (ja) 2021-07-21

Family

ID=62603639

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019571060A Active JP6905603B2 (ja) 2017-09-27 2018-09-10 画像検索方法、装置、機器および読み取り可能な記憶媒体

Country Status (6)

Country Link
US (1) US11256737B2 (ja)
JP (1) JP6905603B2 (ja)
KR (1) KR102363811B1 (ja)
CN (2) CN113536019A (ja)
SG (1) SG11202000081XA (ja)
WO (1) WO2019062534A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113536019A (zh) * 2017-09-27 2021-10-22 深圳市商汤科技有限公司 一种图像检索方法、装置及计算机可读存储介质
CN109086437B (zh) * 2018-08-15 2021-06-01 重庆大学 一种融合Faster-RCNN和Wasserstein自编码器的图像检索方法
CN110502659B (zh) * 2019-08-23 2022-07-15 深圳市商汤科技有限公司 图像特征提取及网络的训练方法、装置和设备
CN112882686B (zh) * 2019-11-29 2024-07-30 中国商用飞机有限责任公司 紧固件孔特征库的建立方法、装置、计算机以及存储介质
KR102475177B1 (ko) * 2020-11-04 2022-12-07 한국전자기술연구원 영상 처리 방법 및 장치
CN112766265B (zh) * 2021-01-27 2023-11-14 厦门树冠科技有限公司 一种任意形状roi截取方法、系统、介质及设备
CN112800258B (zh) * 2021-03-11 2024-05-31 上海依图网络科技有限公司 图像检索方法、装置、电子设备及计算机可读存储介质
CN112669320B (zh) * 2021-03-22 2021-08-13 四川大学 一种基于深度神经网络的spect甲状腺显像智能识别方法
JP2024120121A (ja) * 2021-07-09 2024-09-04 パナソニックIpマネジメント株式会社 評価システム、評価方法、生成システム、生成方法、推論システム、推論方法、学習済みモデル、プログラム、及び、情報処理システム
CN114387619A (zh) * 2021-12-31 2022-04-22 歌尔科技有限公司 行人检测方法、装置、电子设备及计算机可读存储介质

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101211355B (zh) * 2006-12-30 2010-05-19 中国科学院计算技术研究所 一种基于聚类的图像查询方法
CN102004786B (zh) * 2010-12-02 2012-11-28 上海交通大学 图像检索系统中的加速方法
US9075824B2 (en) * 2012-04-27 2015-07-07 Xerox Corporation Retrieval system and method leveraging category-level labels
CN106462940A (zh) * 2014-10-09 2017-02-22 微软技术许可有限责任公司 图像中通用对象检测
US9786036B2 (en) * 2015-04-28 2017-10-10 Qualcomm Incorporated Reducing image resolution in deep convolutional networks
WO2017006648A1 (ja) * 2015-07-03 2017-01-12 Necソリューションイノベータ株式会社 画像判別装置、画像判別方法、及びコンピュータ読み取り可能な記録媒体
US20170039469A1 (en) * 2015-08-04 2017-02-09 Qualcomm Incorporated Detection of unknown classes and initialization of classifiers for unknown classes
JP6364387B2 (ja) * 2015-08-17 2018-07-25 日本電信電話株式会社 特徴量生成装置、方法、及びプログラム
WO2017151759A1 (en) * 2016-03-01 2017-09-08 The United States Of America, As Represented By The Secretary, Department Of Health And Human Services Category discovery and image auto-annotation via looped pseudo-task optimization
CN105574215B (zh) 2016-03-04 2019-11-12 哈尔滨工业大学深圳研究生院 一种基于多层特征表示的实例级图像搜索方法
CN106127725B (zh) * 2016-05-16 2019-01-22 北京工业大学 一种基于多分辨率cnn的毫米波雷达云图分割方法
CN106202338B (zh) * 2016-06-30 2019-04-05 合肥工业大学 基于多特征多关系的图像检索方法
CN106250812B (zh) * 2016-07-15 2019-08-20 汤一平 一种基于快速r-cnn深度神经网络的车型识别方法
CN106228185B (zh) * 2016-07-20 2019-10-15 武汉盈力科技有限公司 一种基于神经网络的通用图像分类识别系统及方法
CN106649665A (zh) * 2016-12-14 2017-05-10 大连理工大学 一种面向图像检索的对象级深度特征聚合方法
CN106886553B (zh) * 2016-12-27 2020-07-28 浙江宇视科技有限公司 一种图像检索方法及服务器
CN106649853A (zh) * 2016-12-30 2017-05-10 儒安科技有限公司 一种基于深度学习的短文本聚类方法
CN106709875B (zh) * 2016-12-30 2020-02-18 北京工业大学 一种基于联合深度网络的压缩低分辨率图像复原方法
CN106886599B (zh) * 2017-02-28 2020-03-03 北京京东尚科信息技术有限公司 图像检索方法以及装置
CN113536019A (zh) * 2017-09-27 2021-10-22 深圳市商汤科技有限公司 一种图像检索方法、装置及计算机可读存储介质
CN107679250B (zh) * 2017-11-01 2020-12-01 浙江工业大学 一种基于深度自编码卷积神经网络的多任务分层图像检索方法

Also Published As

Publication number Publication date
CN108205580A (zh) 2018-06-26
KR20200011988A (ko) 2020-02-04
KR102363811B1 (ko) 2022-02-16
SG11202000081XA (en) 2020-02-27
CN108205580B (zh) 2021-08-31
JP2020525908A (ja) 2020-08-27
US20200133974A1 (en) 2020-04-30
WO2019062534A1 (zh) 2019-04-04
US11256737B2 (en) 2022-02-22
CN113536019A (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
JP6905603B2 (ja) 画像検索方法、装置、機器および読み取り可能な記憶媒体
Zhang et al. Ranking saliency
Quoc Bao et al. Plant species identification from leaf patterns using histogram of oriented gradients feature space and convolution neural networks
JP7266668B2 (ja) ビデオ物体の高速検出方法、装置、サーバ及び記憶媒体
CN106485196B (zh) 视觉搜索方法、对应的系统、设备和计算机程序产品
Tu Probabilistic boosting-tree: Learning discriminative models for classification, recognition, and clustering
CN110019876B (zh) 数据查询方法、电子设备及存储介质
CN103927387A (zh) 图像检索系统及其相关方法和装置
Li et al. Hybrid shape descriptor and meta similarity generation for non-rigid and partial 3D model retrieval
US10943098B2 (en) Automated and unsupervised curation of image datasets
CN111027507A (zh) 基于视频数据识别的训练数据集生成方法及装置
Yao et al. Spatio-temporal information for human action recognition
CN107315984B (zh) 一种行人检索的方法及装置
Etezadifar et al. Scalable video summarization via sparse dictionary learning and selection simultaneously
Lin et al. Adaptive scene category discovery with generative learning and compositional sampling
Trad et al. Large scale visual-based event matching
WO2021136981A1 (en) Image processing method and apparatus, and electronic device
Chamasemani et al. Video abstraction using density-based clustering algorithm
Sultana et al. A study on food value estimation from images: taxonomies, datasets, and techniques
Cuffaro et al. Segmentation free object discovery in video
Saremi et al. Efficient encoding of video descriptor distribution for action recognition
Kim et al. Classification and indexing scheme of large-scale image repository for spatio-temporal landmark recognition
Perina et al. Capturing spatial interdependence in image features: the counting grid, an epitomic representation for bags of features
Gao et al. Video imprint
CN113191401A (zh) 基于视觉显著性共享的用于三维模型识别的方法及装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191220

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210521

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210601

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210625

R150 Certificate of patent or registration of utility model

Ref document number: 6905603

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250