JP6905603B2

JP6905603B2 - 画像検索方法、装置、機器および読み取り可能な記憶媒体

Info

Publication number: JP6905603B2
Application number: JP2019571060A
Authority: JP
Inventors: ジャンフイクアン; ウェイジャン
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2017-09-27
Filing date: 2018-09-10
Publication date: 2021-07-21
Anticipated expiration: 2038-09-10
Also published as: SG11202000081XA; KR20200011988A; US20200133974A1; CN113536019A; CN113536019B; US11256737B2; CN108205580B; CN108205580A; WO2019062534A1; KR102363811B1; JP2020525908A

Description

（関連出願への相互参照）
本願は２０１７年０９月２７日に中国特許局へ提出された、出願番号２０１７１０８９１８７５．９、名称「画像検索方法、装置およびコンピュータ読み取り可能な記憶媒体」の中国特許出願の優先権を主張しており、その全ての内容が引用により本願に組み込まれる。

本願はコンピュータビジョン分野に属し、特に画像検索方法、装置、機器および読み取り可能な記憶媒体に関する。

画像検索とは、検索対象の画像を指定し、データベースにおいて検索し、該検索対象の画像に最も類似する画像を返すタスクをいい、コンピュータビジョンおよび画像解析の重要な課題であり、例えば、商品推奨、セキュリティ監視および医療診断などの多くの分野において重要な適用を果たしている。

画像検索は注力されて研究されていたが、残念なことに、複雑かつ困難な課題であることは変わっていない。複雑な画像背景が関心領域への障害となり、検索の正確度に影響し、一方、大量の画像検索中、画像が百万枚ひいてはそれ以上に達する場合が多いため、画像検索の正確度、効率が多くの要因による影響を受けるが、画像検索はリアルタイム性への要求が非常に高いため、画像検索のアルゴリズムは非常に高効率、かつ高速でなければならない。しかしながら、従来の画像検索アルゴリズムは複雑な背景を有するまたは関心領域（ＲｅｇｉｏｎＯｆＩｎｔｅｒｅｓｔ：ＲＯＩ）が小さい画像について正確に、高効率に効果的な検索手段を抽出できず、さらに好適な特徴を抽出して検索することができないことが多い。

本願は、正確に、高効率に背景が複雑な画像および／またはＲＯＩが小さい画像を検索するために、画像検索方法、装置、機器およびコンピュータ読み取り可能な記憶媒体を提供する。

本願の第一態様は、検索対象の画像の各畳み込み層特徴をそれぞれ次元削減し、前記畳み込み層特徴よりも次元が小さい各次元削減特徴を得ることと、前記各次元削減特徴に基づいてクラスタリングし、複数のクラスタ特徴を得ることと、前記複数のクラスタ特徴を融合し、グローバル特徴を得ることと、前記グローバル特徴に基づき、データベースから前記検索対象の画像を検索することと、を含む画像検索方法を提供する。

本願の第二態様は、検索対象の画像の各畳み込み層特徴をそれぞれ次元削減し、前記畳み込み層特徴よりも次元が小さい各次元削減特徴を得るように構成された次元削減モジュールと、前記各次元削減特徴に基づいてクラスタリングし、複数のクラスタ特徴を得るように構成されたクラスタリングモジュールと、前記複数のクラスタ特徴を融合し、グローバル特徴を得るように構成された融合モジュールと、前記グローバル特徴に基づき、データベースから前記検索対象の画像を検索するように構成された検索モジュールと、を含む画像検索装置を提供する。

本願の第三態様は、メモリ、プロセッサおよびメモリに記憶されかつプロセッサにおいて実行可能なコンピュータプログラムを含む機器を提供し、ここで、プロセッサはコンピュータプログラムを実行する時、以下のステップ、即ち検索対象の画像の各畳み込み層特徴をそれぞれ次元削減し、前記畳み込み層特徴よりも次元が小さい各次元削減特徴を得ることと、前記各次元削減特徴に基づいてクラスタリングし、複数のクラスタ特徴を得ることと、前記複数のクラスタ特徴を融合し、グローバル特徴を得ることと、前記グローバル特徴に基づき、データベースから前記検索対象の画像を検索することと、を実現する。

本願の実施例の第四態様は、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体を提供し、ここで、コンピュータプログラムはプロセッサにより実行される時、以下のステップ、即ち検索対象の画像の各畳み込み層特徴をそれぞれ次元削減し、前記畳み込み層特徴よりも次元が小さい各次元削減特徴を得ることと、前記各次元削減特徴に基づいてクラスタリングし、複数のクラスタ特徴を得ることと、前記複数のクラスタ特徴を融合し、グローバル特徴を得ることと、前記グローバル特徴に基づき、データベースから前記検索対象の画像を検索することと、を実現する。

本願が提供する上記技術的解決手段によれば、検索対象の画像の各畳み込み層特徴をそれぞれ次元削減することで、ＲＯＩを任意の形状に変化可能にし、画像検索結果へのノイズによる影響を軽減し、一方、各次元削減特徴に基づいてクラスタリングすることで、複数のクラスタ領域特徴を取得し、画像特徴への照明、角度、障害物などの要因による影響をできる限り軽減する。

本願の実施例における技術的解決手段をより明確に説明するために、以下に実施例または従来技術の記述において必要な図面を用いて簡単に説明を行うが、当然ながら、以下に記載する図面は単に本願の実施例の一例であり、当業者であれば、創造的な労力を要することなく、これらの図面に基づいて他の図面に想到し得る。
本願の実施例が提供する画像検索方法の任意選択的なフローチャートである。本願の実施例が提供する画像検索方法の任意選択的なフローチャートである。本願の実施例が提供する画像検索方法の任意選択的なフローチャートである。本願の実施例が提供する画像検索装置の任意選択的な構成模式図である。本願の実施例が提供する画像検索装置の任意選択的な構成模式図である。本願の実施例が提供する画像検索装置の任意選択的な構成模式図である。本願の実施例が提供する画像検索装置の任意選択的な構成模式図である。本願の実施例が提供する画像検索装置の任意選択的な構成模式図である。本願の実施例が提供する画像検索装置の任意選択的な構成模式図である。本願の実施例が提供する画像検索装置の任意選択的な構成模式図である。本願の実施例が提供する画像検索装置の任意選択的な構成模式図である。本願の実施例が提供する画像検索装置の任意選択的な構成模式図である。本願の実施例が提供する機器の構成模式図である。

以下の記述においては、限定ではなく説明のために、特定のシステム構造、技術のような具体的詳細を提供し、それによって本願の実施例に対する徹底的な理解を助ける。しかし、当業者であれば、これらの具体的詳細がない他の実施例においても本願を実現可能であることは理解できる。他の場合には、不要な詳細が本願の記述への障害にならないように、公知のシステム、装置、回路および方法に対する詳細な説明を省略する。

本願の技術的解決手段を説明するために、以下に具体的な実施例により説明する。

図１Ａは本願の実施例が提供する画像検索方法の任意選択的なフローチャートであり、以下のステップＳａ１０１からＳａ１０４を含む。以下に詳細に説明する。

Ｓａ１０１において、検索対象の画像の各畳み込み層特徴をそれぞれ次元削減し、畳み込み層特徴よりも次元が小さい各次元削減特徴を得る。

検索対象の画像の各畳み込み層特徴をそれぞれ次元削減することは、以下のような事実をもとにして行われる。即ち、１）、多重共線性と予測変数が互いに関連し、例えば、多重共線性が解空間の不安定を引き起こし、それにより一貫しない結果をもたらし得る。２）、高次元空間そのものが疎性を有し、研究によれば、一次元の正規分布において６８％の値が正負標準偏差の間にあるが、十次元空間でそれが０．０２％だけである。３）、過多の変数が検索パターンの確立を妨げる。４）、変数レベルのみで解析すると、変数間の潜在的関係が無視される可能性があり、例えば、いくつかの予測変数がデータのある面での特徴のみを反映するグループにある可能性が存在する。５）、最も価値のある情報が高次元ベクトルの前部に集まり、後部にノイズが集まったことが多い。６）、次元削減すると、特徴をより高速に、高効率にクラスタリングし、ノイズによる影響を軽減することができる。従って、次元削減の目的は、予測変数の数を低下させること、これらの予測変数を互いに独立するように確保すること、および結果を解釈するためのフレームワークを提供することなどを含む。

Ｓａ１０２において、各次元削減特徴に基づいてクラスタリングし、複数のクラスタ特徴を得る。

Ｓａ１０３において、複数のクラスタ特徴を融合し、グローバル特徴を得る。

Ｓａ１０４において、グローバル特徴に基づいて、データベースから検索対象の画像を検索する。

上記図１Ａが例示した画像検索方法によれば、検索対象の画像の各畳み込み層特徴をそれぞれ次元削減することで、ＲＯＩを任意の形状に変化可能にし、画像検索結果へのノイズによる影響を軽減し、一方、各次元削減特徴に基づいてクラスタリングすることで、複数のクラスタ領域特徴を取得し、画像特徴への照明、角度、障害物などの要因による影響をできる限り軽減する。

図１Ｂは本願の実施例が提供する画像検索方法の任意選択的なフローチャートであり、以下のステップＳｂ１０１からＳｂ１０５を含む。以下に詳細に説明する。

Ｓｂ１０１において、検索対象の画像の各畳み込み層特徴をそれぞれ次元削減し、畳み込み層特徴よりも次元が小さい各次元削減特徴を得る。

検索対象の画像の各畳み込み層特徴をそれぞれ次元削減するステップの前に、さらに検索対象の画像を畳み込みニューラルネットワークに入力し、各畳み込み層特徴を得ることを含む。ここで、ニューラルネットワークを学習することで、畳み込みニューラルネットワークを得て、即ち画像分類タスクまたは距離学習タスクによって、予めニューラルネットワーク重みを学習しておき、続いて該ニューラルネットワーク構造の完全接続層を破棄し、畳み込みカーネルの重みおよびオフセットなどを含む畳み込み層のパラメータのみを残し、畳み込みニューラルネットワークを得て、続いて、検索対象の画像を畳み込みニューラルネットワークに入力し、畳み込みニューラルネットワークに検索対象の画像の各畳み込み層特徴を出力させる。ここで、畳み込みニューラルネットワークは畳み込み層およびダウンサンプリング層を含み、ここの各畳み込み層特徴は検索対象の画像における対応する画素領域の特徴をそれぞれ特徴付ける。例えば、画素領域が８＊８画素単位であれば、畳み込み層特徴の数は（検索対象の画像の高さに含まれる画素数／８）＊（検索対象の画像の幅に含まれる画素数／８）となり、さらに例えば、画素領域が１６＊１６画素単位であれば、畳み込み層特徴の数は（検索対象の画像の高さに含まれる画素数／１６）＊（検索対象の画像の幅に含まれる画素数／１６）となるなどである。

説明すべきは、上記実施例における各次元削減特徴の次元は検索の正確度によって決定してもよいことである。一般的には、次元削減前の各畳み込み層特徴の次元が次元削減特徴の次元よりも大幅に大きく、例えば、次元削減前の各畳み込み層特徴の次元が２５６または５１２であるが、次元削減特徴の次元が５であってもよい。

実施例によれば、各畳み込み層特徴を抽出し、畳み込みニューラルネットワークの畳み込み層の強い特徴発現能力により、意味が互いに近接する画像を特徴空間上でも類似するようにすることで、画像特徴への照明、角度、障害物などの要因による影響を軽減し、それにより画像検索の正確度や品質を向上させ、一方、検索対象の画像の畳み込み層特徴を次元削減することで、検索対象の画像のＲＯＩを任意の形状に変化可能にし、画像検索結果へのノイズによる影響を軽減する。

本願の実施例では、検索対象の画像の各畳み込み層特徴は検索対象の画像の画像空間におけるＨ＊Ｗ箇所でのＤ次元特徴のセットであり、検索対象の画像の各畳み込み層特徴をそれぞれ次元削減し、各次元削減特徴を得るステップは、検索対象の画像の画像空間におけるＨ＊Ｗ箇所でのＤ次元特徴を検索対象の画像の画像空間におけるＨ＊Ｗ箇所でのＣ次元特徴に次元削減するようにしてもよく、当然ながら、ここのＣはＤよりも小さく、ＨとＷはそれぞれ検索対象の画像の高さと幅である。

Ｓｂ１０２において、各次元削減特徴間の距離に基づき、次元削減特徴をクラスタリングし、複数の特徴クラスタ中心を得る。

ここで、検索対象の画像の各次元削減特徴のうち特徴間の距離に相当する次元削減特徴を特徴クラスタ中心としてクラスタリングし、複数の特徴クラスタ中心を構成させる。そのうち、二つの特徴間の距離が設定条件を満たす場合、例えば予め設定された距離閾値範囲内にある場合、二つの特徴間の距離が相当すると判定できる。

Ｓｂ１０３において、ステップＳｂ１０２で得られた複数の特徴クラスタ中心の各々について、対応する畳み込み層特徴の最大値を、各特徴クラスタ中心のクラスタ特徴としてそれぞれサンプリングする。

説明すべきは、上記ステップＳｂ１０３で、対応する畳み込み層特徴は各特徴クラスタ中心に含まれる各次元削減特徴に対応する畳み込み層特徴をいい、クラスタ特徴の数は３２個であってもよく、検索の正確度によって他の数値を取ってもよく、ここでは説明のための例示に過ぎないということである。各次元削減特徴に基づいてクラスタリングすることで、複数のクラスタ領域特徴を取得する上記ステップは、画像特徴への照明、角度、障害物などの要因による影響をできる限り低減する。

Ｓｂ１０４において、複数のクラスタ特徴を融合し、グローバル特徴を得る。

ここで、複数のクラスタ特徴を融合し、グローバル特徴を得るステップは、複数のクラスタ特徴の各々をそれぞれ回帰し、各回帰クラスタ特徴を得て、各回帰クラスタ特徴を加算し、グローバル特徴を得ることを含んでもよい。ここで、複数のクラスタ特徴の各々をそれぞれ回帰し、各回帰クラスタ特徴を得るステップは、複数のクラスタ特徴の各々をそれぞれ順に正規化、ホワイトニング、再正規化し、それにより各回帰クラスタ特徴を得ることを含む。

Ｓｂ１０５において、グローバル特徴に基づき、データベースから検索対象の画像を検索する。

本願の一実施例としては、グローバル特徴に基づき、データベースから前記検索対象の画像を検索するステップは、グローバル特徴に基づき、データベースから検索対象の画像との類似度が最も高いＫ個の画像を取得することを含んでもよく、ここで、Ｋは１以上の整数である。

そのうち、グローバル特徴とデータベースにおける画像の特徴との間の距離に基づき、データベースにおける画像と検索対象の画像との類似度をソートし、検索対象の画像との類似度が最も高いＫ個の画像を取得するようにしてもよい。

データベースにおける画像の特徴とグローバル特徴との間の距離が小さければ小さいほど、該画像と検索対象の画像が類似するかまたは類似度が高いことが示されるため、上記実施例はこの原則に従って、データベースにおける画像と検索対象の画像との類似度をソートし、検索対象の画像との類似度が最も高いＫ個の画像を取得する。

ここで、グローバル特徴に基づき、データベースから前記検索対象の画像との類似度が最も高いＫ個の画像を取得するステップは、グローバル特徴とデータベースにおける各画像特徴との間の距離を計算することと、グローバル特徴とデータベースにおける各画像特徴との間の距離に基づき、データベースからグローバル特徴との距離が最も小さいＫ個の画像を、検索対象の画像との類似度が最も高いＫ個の画像として取得することと、を含んでもよい。

データベースから検索対象の画像との類似度が最も高いＫ個の画像を取得するステップの後に、前記方法はさらに、Ｋ個の画像および検索対象の画像とのそれぞれの類似度を提示することを含む。

図１Ａおよび図１Ｂに例示した画像検索方法によれば、検索対象の画像の各畳み込み層特徴をそれぞれ次元削減することで、ＲＯＩを任意の形状に変化可能にし、画像検索結果へのノイズによる影響を軽減し、一方、各次元削減特徴に基づいてクラスタリングすることで、複数のクラスタ領域特徴を取得し、画像特徴への照明、角度、障害物などの要因による影響をできる限り軽減する。

図１Ｃは本願の実施例が提供する画像検索方法の任意選択的な実現フローチャートであり、以下のステップＳｃ１０１からＳｃ１０７を含む。以下に詳細に説明する。

Ｓｃ１０１において、検索対象の画像を畳み込みニューラルネットワークに入力し、各畳み込み層特徴を得る。

ここで、ニューラルネットワークを学習することで、畳み込みニューラルネットワークを得て、即ち画像分類タスクまたは距離学習タスクによって、予めニューラルネットワーク重みを学習しておき、続いて該ニューラルネットワーク構造の完全接続層を破棄し、畳み込みカーネルの重みおよびオフセットなどを含む畳み込み層のパラメータのみを残し、畳み込みニューラルネットワークを得て、続いて、検索対象の画像を畳み込みニューラルネットワークに入力し、それに検索対象の画像の各畳み込み層特徴を出力させ、ここで、畳み込みニューラルネットワークは畳み込み層およびダウンサンプリング層を含み、ここの各畳み込み層特徴は検索対象の画像における対応する画素領域の特徴をそれぞれ特徴付ける。例えば、画素領域が８＊８画素単位であれば、畳み込み層特徴の数は（検索対象の画像の高さに含まれる画素数／８）＊（検索対象の画像の幅に含まれる画素数／８）となり、さらに例えば、画素領域が１６＊１６画素単位であれば、畳み込み層特徴の数は（検索対象の画像の高さに含まれる画素数／１６）＊（検索対象の画像の幅に含まれる画素数／１６）となるなどである。

Ｓｃ１０２において、検索対象の画像の各畳み込み層特徴をそれぞれ次元削減し、畳み込み層特徴よりも次元が小さい各次元削減特徴を得る。

本願の一実施例としては、検索対象の画像の各畳み込み層特徴をそれぞれ次元削減し、各次元削減特徴を得るステップは、主成分分析（ＰｒｉｎｃｉｐａｌＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ：ＰＣＡ）方法を用いて次元削減するようにしてもよい。ＰＣＡ方法は次元削減前のｎ個の旧特徴を数がより少ないｍ個の新特徴で入れ替え、新特徴は旧特徴の線形組み合わせであり、これらの線形組み合わせは標本分散を最大化し、ｍ個の新特徴をできる限り関連しないようにして、旧特徴から新特徴へのマッピングからデータ内の固有変動性を収集する。

説明すべきは、本願の検索対象の画像の各畳み込み層特徴をそれぞれ次元削減するステップは上記ＰＣＡ方法に限定されず、他の方法、例えば、因子分析またはユーザ定義複合などを用いてもよいため、上記ＰＣＡ方法は本願を制限するものではないということである。

Ｓｃ１０３において、各次元削減特徴間の距離に基づき、次元削減特徴をクラスタリングし、複数の特徴クラスタ中心を得る。

ここで、検索対象の画像の各次元削減特徴のうち特徴間の距離が相当する次元削減特徴を特徴クラスタ中心としてクラスタリングし、最終的に複数の特徴クラスタ中心を構成させる。そのうち、二つの特徴間の距離が設定条件を満たす場合、例えば予め設定された距離閾値の範囲内にある場合、二つの特徴間の距離が相当すると判定できる。

Ｓｃ１０４において、ステップＳｃ１０３で得られた複数の特徴クラスタ中心の各々について、対応する畳み込み層特徴の最大値を、各特徴クラスタ中心のクラスタ特徴としてそれぞれサンプリングする。

説明すべきは、上記ステップＳｃ１０４で、対応する畳み込み層特徴は各特徴クラスタ中心に含まれる各次元削減特徴に対応する畳み込み層特徴をいい、クラスタ特徴の数は３２個であってもよく、検索の正確度によって他の数値を取ってもよく、ここでは説明のための例示に過ぎないということである。

各次元削減特徴に基づいてクラスタリングすることで、複数のクラスタ領域特徴を取得する上記ステップは、画像特徴への照明、角度、障害物などの要因による影響をできる限り軽減する。

Ｓｃ１０５において、複数のクラスタ特徴の各々をそれぞれ回帰し、各回帰クラスタ特徴を得る。

ここで、複数のクラスタ特徴の各々をそれぞれ回帰し、各回帰クラスタ特徴を得るステップは、複数のクラスタ特徴の各々をそれぞれ順に正規化、ホワイトニング、再正規化し、それにより各回帰クラスタ特徴を得ることを含む。

Ｓｃ１０６において、各回帰クラスタ特徴を加算し、グローバル特徴を得る。

Ｓｃ１０７において、グローバル特徴に基づき、データベースから検索対象の画像を検索する。

データベースにおける画像の特徴とグローバル特徴との間の距離が小さければ小さいほど、該画像と検索対象の画像が類似するかまたは類似度が高いことが示されるため、上記実施例はこの原則に従って、データベースにおける画像と検索対象の画像との類似度をソートし、検索対象の画像との類似度が最の高いＫ個の画像を取得する。

図２は本願の実施例が提供する画像検索装置の任意選択的な構成模式図であり、次元削減モジュール２０１、クラスタリングモジュール２０２、融合モジュール２０３および検索モジュール２０４を含み、詳細な説明は以下のとおりである。

次元削減モジュール２０１は、検索対象の画像の各畳み込み層特徴をそれぞれ次元削減し、畳み込み層特徴よりも次元が小さい各次元削減特徴を得るように構成され、ここで、次元削減特徴の次元は５であってもよい。

クラスタリングモジュール２０２は、各次元削減特徴に基づいてクラスタリングし、複数のクラスタ特徴を得るように構成され、ここで、クラスタ特徴の数は３２であってもよい。

融合モジュール２０３は、複数のクラスタ特徴を融合し、グローバル特徴を得るように構成される。

検索モジュール２０４は、グローバル特徴に基づき、データベースから検索対象の画像を検索するように構成される。

説明すべきは、本願の実施例が提供する装置は、本願の方法の実施例と同じ思想をもとにするため、それがもたらす技術的効果も本願の方法の実施例と同じであるということであり、具体的な内容は本願の方法の実施例での記述を参照すればよく、ここでは説明を省略する。

図３に例示した画像検索装置のように、図２に例示した画像検索装置はさらに、検索対象の画像を畳み込みニューラルネットワークに入力し、各畳み込み層特徴を得るように構成された入力モジュール３０１を含んでもよく、ここで、各畳み込み層特徴は検索対象の画像における対応する画素領域の特徴をそれぞれ特徴付ける。

図４に例示した画像検索装置のように、図２に例示したクラスタリングモジュール２０１は、各次元削減特徴間の距離に基づき、次元削減特徴をクラスタリングし、複数の特徴クラスタ中心を得るように構成された第一処理ユニット４０１、および、複数の特徴クラスタ中心の各々について、対応する畳み込み層特徴の最大値を、各特徴クラスタ中心のクラスタ特徴としてそれぞれサンプリングするように構成されたサンプリングユニット４０２を含んでもよい。

図５に例示した画像検索装置のように、図２に例示した融合モジュール２０３は、複数のクラスタ特徴の各々をそれぞれ回帰し、各回帰クラスタ特徴を得るように構成された回帰ユニット５０１、および、各回帰クラスタ特徴を加算し、グローバル特徴を得るように構成された加算ユニット５０２を含んでもよい。

図６に例示した画像検索装置ように、図５に例示した回帰ユニット５０１は、複数のクラスタ特徴の各々をそれぞれ順に正規化、ホワイトニング、再正規化し、各回帰クラスタ特徴を得るように構成された第二処理ユニット６０１を含んでもよい。

図７に例示した画像検索装置のように、図２に例示した検索モジュール２０４は、グローバル特徴に基づいて、データベースから検索対象の画像との類似度が最も高いＫ個の画像を取得するように構成された第一取得ユニット７０１を含んでもよく、ここで、Ｋは１以上の整数である。

図８に例示した画像検索装置のように、図７に例示した第一取得ユニット７０１は、グローバル特徴とデータベースにおける各画像特徴との間の距離を計算するように構成された計算ユニット８０１、および、グローバル特徴とデータベースにおける各画像特徴との間の距離に基づき、データベースからグローバル特徴との距離が最も小さいＫ個の画像を、検索対象の画像との類似度が最も高いＫ個の画像として取得するように構成された第二取得ユニット８０２を含んでもよい。

図９Ａまたは図９Ｂに例示した画像検索装置のように、図７または図８に例示した画像検索装置はさらに、検索対象の画像との類似度が最も高いＫ個の画像および検索対象の画像とのそれぞれの類似度を提示するように構成された提示モジュール９０１を含んでもよい。

図１０は本願の実施例が提供する機器の任意選択的な構成模式図である。図１０に示すように、該実施例の機器１０は、プロセッサ１００、メモリ１０１およびメモリ１０１に記憶されかつプロセッサ１００において実行可能なコンピュータプログラム１０２、例えば画像検索方法のプログラムを含む。プロセッサ１００はコンピュータプログラム１０２を実行する時に上記画像検索方法の実施例におけるステップ、例えば図１Ａに示すステップＳａ１０１からＳａ１０４を実現する。または、プロセッサ１００はコンピュータプログラム１０２を実行する時に上記各装置の実施例における各モジュール／ユニットの機能、例えば図２に示す次元削減モジュール２０１、クラスタリングモジュール２０２、融合モジュール２０３および検索モジュール２０４の機能を実現する。

例示的に、画像検索方法のコンピュータプログラム１０２は、検索対象の画像の各畳み込み層特徴をそれぞれ次元削減し、前記畳み込み層特徴よりも次元が小さい各次元削減特徴を得ることと、前記各次元削減特徴に基づいてクラスタリングし、複数のクラスタ特徴を得ることと、前記複数のクラスタ特徴を融合し、グローバル特徴を得ることと、前記グローバル特徴に基づき、データベースから前記検索対象の画像を検索することと、を含む。コンピュータプログラム１０２は、メモリ１０１に記憶されて、プロセッサ１００によって実行されて、それによって本願を完了する一つ以上のモジュール／ユニットに分割可能である。一つ以上のモジュール／ユニットは、特定の機能を完了可能な、コンピュータプログラム１０２の計算機器１０における実行プロセスを記述するように構成された一連のコンピュータプログラム指令セグメントであってもよい。例えば、コンピュータプログラム１０２は、検索対象の画像の各畳み込み層特徴をそれぞれ次元削減し、前記畳み込み層特徴よりも次元が小さい各次元削減特徴を得るように構成された次元削減モジュール２０１、前記各次元削減特徴に基づいてクラスタリングし、複数のクラスタ特徴を得るように構成されたクラスタリングモジュール２０２、前記複数のクラスタ特徴を融合し、グローバル特徴を得るように構成された融合モジュール２０３、および前記グローバル特徴に基づき、データベースから前記検索対象の画像を検索するように構成された検索モジュール２０４の機能（仮想装置におけるモジュール）に分割されてもよい。

機器１０はプロセッサ１００、メモリ１０１を含んでもよいが、これらに限定されない。当業者であれば、図１０は機器１０の例示に過ぎず、機器１０を限定するものではなく、図面以上または以下の部材を含んでもよく、または何らかの部材、もしくは異なる部材を組み合わせてもよく、例えば機器はさらに入出力機器、ネットワークアクセス機器、バスなどを含んでもよいことが理解可能である。

前記プロセッサ１００は中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ:ＣＰＵ）であってもよく、他の共通プロセッサ、デジタル信号プロセッサ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ：ＤＳＰ）、特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ:ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（Ｆｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ:ＦＰＧＡ）または他のプログラマブル論理デバイス、離散ゲートまたはトランジスタ論理デバイス、離散ハードウェアコンポーネントなどであってもよい。共通プロセッサはマイクロプロセッサまたは任意の一般的なプロセッサなどであってもよい。

メモリ１０１は機器１０の内部記憶ユニット、例えば機器１０のハードディスクまたは内部メモリであってもよい。メモリ１０１は機器１０の外部記憶装置、例えば機器１０に配置されるプラグインハードディスク、スマートメディアカード（ＳｍａｒｔＭｅｄｉａＣａｒｄ:ＳＭＣ）、セキュアデジタル（ＳｅｃｕｒｅＤｉｇｉｔａｌ:ＳＤ）カード、フラッシュカード（ＦｌａｓｈＣａｒｄ）などであってもよい。さらに、メモリ１０１は機器１０の内部記憶ユニットと外部記憶装置を同時に含んでもよい。メモリ１０１はコンピュータプログラムおよび機器に必要な他のプログラムおよびデータを記憶するように構成され、また出力されたまたはすぐに出力されるデータを一時的に記憶するように構成されてもよい。

例示的な実施例では、本願の実施例はさらにコンピュータ読み取り可能な記憶媒体、例えば、機器内のプロセッサ１００によって実行して、前記画像検索方法の前記ステップを完了することができるコンピュータプログラムを含むメモリ１０１を提供する。コンピュータ読み取り可能な記憶媒体はＦＲＡＭ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、ＦｌａｓｈＭｅｍｏｒｙ、磁性面記憶装置、光ディスク、またはＣＤ−ＲＯＭなどのメモリであってもよく、また上記メモリの一つまたは任意の組み合わせを含む様々な機器、例えば携帯電話、コンピュータ、タブレットデバイス、携帯情報端末などであってもよい。

コンピュータ読み取り可能な記憶媒体は、プロセッサにより実行される時、本願の上記実施例が提供する画像検索方法を実行するコンピュータプログラムが記憶されている。

なお、説明を簡便にするために、上記各機能ユニット、モジュールの分割のみを例にして説明したが、実用において、必要に応じて上記機能を異なる機能ユニット、モジュールによって完了するように割り当ててもよく、即ち装置の内部構造を異なる機能ユニットまたはモジュールに分割し、それによって上述した全てまたは一部の機能を完了するようにしてもよいことは、当業者であれば明確に理解できる。実施例における各機能ユニット、モジュールは一つの処理ユニットに統合されてもよく、それぞれ独立して物理的に存在してもよく、また二つ以上で一つのユニットに統合されてもよく、上記統合されたユニットはハードウェアの形式で実現してもよく、ソフトウェア機能ユニットの形式で実現してもよい。また、各機能ユニット、モジュールの具体的な名称は互いに区別するためのものに過ぎず、本願の保護範囲を限定するものではない。上記システムにおけるユニット、モジュールの具体的な動作プロセスは、前記方法の実施例での対応するプロセスを参照すればよく、ここでは説明を省略する。

上記実施例では、各実施例に対する記述が着目している点が異なり、ある実施例において詳細に記述または記載されていない部分は、他の実施例の関連説明を参照すればよい。

なお、本明細書に開示する実施例と関連付けて記述した各例のユニットおよびアルゴリズムのステップは、電子ハードウェア、またはコンピュータソフトウェアと電子ハードウェアの組み合わせで実現可能であることは、当業者であれば想到できる。これらの機能をハードウェアの形態で実行するか、またはソフトウェアの形態で実行するかは、技術的解決手段の特定の応用および設計制約条件によって決定される。専門技術者は各特定の応用について、記述した機能を異なる方法を用いて実現できるが、このような実現は本願の範囲を超えたものと理解すべきではない。

本願が提供する実施例では、開示する装置／機器および方法は、他の形態で実現できることを理解すべきである。例えば、上述した装置／機器の実施例は例示的なものに過ぎず、例えば、モジュールまたはユニットの分割は、論理機能の分割に過ぎず、実際に実現時に別の分割形態にしてもよく、例えば複数のユニットまたはコンポーネントは組み合わせてもよく、または別のシステムに統合してもよく、またはいくつかの特徴を無視してもよく、もしくは実行しなくてもよい。一方、示したまたは論じた互いのカップリングまたは直接カップリングまたは通信接続はいくつかのインタフェースによるものであってもよく、装置またはユニットの間接カップリングまたは通信接続は、電気的、機械的または他の形式であってもよい。

分離部材として説明したユニットは物理的に分離されたものであってもなくてもよく、ユニット表示の部材としては物理ユニットであってもなくてもよく、即ち一箇所に位置してもよく、または複数のネットワークユニットに分布してもよい。実際の必要に応じてその一部または全てのユニットを選択して本実施例の解決手段の目的を実現できる。

また、本願の各実施例における各機能ユニットは一つの処理ユニットに統合されてもよく、それぞれ独立して物理的に存在してもよく、二つ以上で一つのユニットに統合されてもよい。上記統合されたユニットはハードウェアの形式で実現してもよく、ソフトウェア機能ユニットの形式で実現してもよい。

統合されたモジュール／ユニットがソフトウェア機能ユニットの形式で実現されかつ独立した製品として販売または使用される場合、コンピュータ読み取り可能な記憶媒体に記憶することができる。このような見解をもとに、本願はコンピュータプログラムによって関連するハードウェアに指示を出して、上記実施例の方法における全てまたは一部のプロセスを完了するようにしてもよく、画像検索方法のコンピュータプログラムはコンピュータ読み取り可能な記憶媒体に記憶可能であり、該コンピュータプログラムはプロセッサにより実行される時、上記各方法の実施例のステップ、即ち、検索対象の画像の各畳み込み層特徴をそれぞれ次元削減し、前記畳み込み層特徴よりも次元が小さい各次元削減特徴を得ることと、前記各次元削減特徴に基づいてクラスタリングし、複数のクラスタ特徴を得ることと、前記複数のクラスタ特徴を融合し、グローバル特徴を得ることと、前記グローバル特徴に基づき、データベースから前記検索対象の画像を検索することと、を実現することができる。そのうち、コンピュータプログラムは、ソースコード形式、オブジェクトコード形式、実行可能ファイルまたは何らかの中間形式などであってもよいコンピュータプログラムコードを含む。コンピュータ読み取り可能な媒体は、コンピュータプログラムコードを携帯可能なあらゆる実体または装置、記録媒体、ＵＳＢフラッシュディスク、モバイルハードディスク、磁気ディスク、光ディスク、コンピュータメモリ、読み取り専用メモリ（ＲＯＭ：Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、電気キャリア信号、電気通信信号およびソフトウェア配信媒体などを含むことができる。説明すべきは、コンピュータ読み取り可能な媒体が含む内容は裁判管轄区内の立法および特許実践上の要求を応じて適当に増減でき、例えば何らかの裁判管轄区において、立法および特許実践によって、コンピュータ読み取り可能な媒体は電気キャリア信号および電気通信信号を含まない。以上の実施例は本願の技術的解決手段を説明するためのものに過ぎず、それを限定するものではない。前記実施例を参照しながら本願を詳細に説明したが、当業者であれば理解できるように、前記各実施例に記載の技術的解決手段の修正、またはその一部の技術的特徴の置換を行うことができ、これらの修正または置換は、該当する技術的解決手段の本質を本願の各実施例の技術的解決手段の精神および範囲から逸脱させることなく、いずれも本願の保護範囲内に含まれるものとする。

Claims

検索対象の画像の各畳み込み層特徴をそれぞれ次元削減し、各次元削減特徴を得ることであって、前記次元削減特徴は前記畳み込み層特徴よりも次元が小さいことと、
前記各次元削減特徴に基づいてクラスタリングし、複数のクラスタ特徴を得ることと、
前記複数のクラスタ特徴を融合し、グローバル特徴を得ることと、
前記グローバル特徴に基づき、データベースから前記検索対象の画像を検索することと、を含み、
前記複数のクラスタ特徴を融合し、グローバル特徴を得ることは、
前記複数のクラスタ特徴の各々をそれぞれ回帰し、各回帰クラスタ特徴を得ることと、
前記各回帰クラスタ特徴を加算し、前記グローバル特徴を得ることと、を含む、画像検索方法。
前記検索対象の画像の各畳み込み層特徴をそれぞれ次元削減する前に、さらに、
前記検索対象の画像を畳み込みニューラルネットワークに入力し、前記各畳み込み層特徴を得ることを含む、請求項１に記載の画像検索方法。
各前記畳み込み層特徴は前記検索対象の画像における対応する画素領域の特徴をそれぞれ特徴付ける、請求項２に記載の画像検索方法。
前記各次元削減特徴に基づいてクラスタリングし、複数のクラスタ特徴を得ることは、
前記各次元削減特徴間の距離に基づき、前記次元削減特徴をクラスタリングし、複数の特徴クラスタ中心を得ることと、
前記複数の特徴クラスタ中心の各々について、対応する畳み込み層特徴の最大値を、各特徴クラスタ中心の前記クラスタ特徴としてそれぞれサンプリングすることと、を含む、請求項１に記載の画像検索方法。
前記複数のクラスタ特徴の各々をそれぞれ回帰し、各回帰クラスタ特徴を得ることは、
前記複数のクラスタ特徴の各々をそれぞれ順に正規化、ホワイトニング、再正規化し、前記各回帰クラスタ特徴を得ることを含む、請求項１に記載の画像検索方法。
前記グローバル特徴に基づき、データベースから前記検索対象の画像を検索することは、
前記グローバル特徴に基づき、前記データベースから前記検索対象の画像との類似度が最も高いＫ個の画像を取得することを含み、前記Ｋは１以上の整数である、請求項１に記載の画像検索方法。
前記グローバル特徴に基づき、前記データベースから前記検索対象の画像との類似度が最も高いＫ個の画像を取得することは、
前記グローバル特徴と前記データベースにおける各画像特徴との間の距離を計算することと、
前記グローバル特徴と前記データベースにおける各画像特徴との間の距離に基づき、前記データベースから前記グローバル特徴との距離が最も小さいＫ個の画像を、検索対象の画像との類似度が最も高い前記Ｋ個の画像として取得することと、を含む、請求項６に記載の画像検索方法。
前記Ｋ個の画像および前記検索対象の画像とのそれぞれの類似度を提示することをさらに含む、請求項６または７に記載の画像検索方法。
前記次元削減特徴の次元は５である、請求項１に記載の画像検索方法。
前記クラスタ特徴の数は３２個である、請求項１に記載の画像検索方法。
検索対象の画像の各畳み込み層特徴をそれぞれ次元削減し、各次元削減特徴を得るように構成された次元削減モジュールであって、前記次元削減特徴は前記畳み込み層特徴よりも次元が小さい次元削減モジュールと、
前記各次元削減特徴に基づいてクラスタリングし、複数のクラスタ特徴を得るように構成されたクラスタリングモジュールと、
前記複数のクラスタ特徴を融合し、グローバル特徴を得るように構成された融合モジュールと、
前記グローバル特徴に基づき、データベースから前記検索対象の画像を検索するように構成された検索モジュールと、を含み、
前記融合モジュールは、複数のクラスタ特徴の各々をそれぞれ回帰し、各回帰クラスタ特徴を得るように構成された回帰ユニット、および、各回帰クラスタ特徴を加算し、グローバル特徴を得るように構成された加算ユニットを含む、画像検索装置。
メモリ、プロセッサおよび前記メモリに記憶されかつ前記プロセッサにおいて実行可能なコンピュータプログラムを含み、前記プロセッサは前記コンピュータプログラムを実行する時に請求項１から１０のいずれか一項に記載の方法のステップを実現する、機器。
プロセッサにより実行される時に請求項１から１０のいずれか一項に記載の方法のステップを実現するコンピュータプログラムが記憶されている、コンピュータ読み取り可能な記憶媒体。