JP7341381B2 - 画像検索装置及び画像検索方法 - Google Patents

画像検索装置及び画像検索方法 Download PDF

Info

Publication number
JP7341381B2
JP7341381B2 JP2023540860A JP2023540860A JP7341381B2 JP 7341381 B2 JP7341381 B2 JP 7341381B2 JP 2023540860 A JP2023540860 A JP 2023540860A JP 2023540860 A JP2023540860 A JP 2023540860A JP 7341381 B2 JP7341381 B2 JP 7341381B2
Authority
JP
Japan
Prior art keywords
image
reliability
learning
learning model
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023540860A
Other languages
English (en)
Other versions
JPWO2023026420A1 (ja
Inventor
孝之 瀬光
光貴 中村
将太郎 石上
庭育 李
芳美 守屋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2023026420A1 publication Critical patent/JPWO2023026420A1/ja
Application granted granted Critical
Publication of JP7341381B2 publication Critical patent/JP7341381B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/56Information retrieval; Database structures therefor; File system structures therefor of still image data having vectorial format
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本開示は、画像検索装置及び画像検索方法に関するものである。
従来より、複数の被識別対象の画像(以下「ギャラリ画像」という)の中から、識別対象の画像(以下「クエリ画像」という)に含まれている被写体を含んでいるギャラリ画像を検索する画像検索部を備える画像検索装置(以下「従来の画像検索装置」という)がある。
ところで、識別対象の画像と類似している画像を検索する画像検索技術として、画像検索部が、識別対象の画像を分類器に与えて、当該分類器から、識別対象の画像と類似している画像を取得する技術が特許文献1に開示されている。
特開2020-119508号公報
従来の画像検索装置では、画像検索部による検索の信頼度を確認することができないという課題があった。したがって、画像検索部により検索されたギャラリ画像に含まれている被写体が、クエリ画像に含まれている被写体と高い確率で同一であるのか、あるいは、高い確率で同一ではなく、別の被写体の可能性が十分にあるのかが分からない。
特許文献1に開示されている画像検索技術でも、画像検索部による検索の信頼度を確認することができない。したがって、仮に、当該画像検索技術を従来の画像検索装置に適用することが可能であるとしても、上記の課題を解決することができない。
本開示は、上記のような課題を解決するためになされたもので、画像検索部による検索の信頼度を確認することができる画像検索装置及び画像検索方法を得ることを目的とする。
本開示に係る画像検索装置は、識別対象の画像であるクエリ画像を第1の学習モデルに与えて、第1の学習モデルから、クエリ画像の特徴ベクトルを取得し、複数の被識別対象の画像であるギャラリ画像のそれぞれを第1の学習モデルに与えて、第1の学習モデルから、それぞれのギャラリ画像の特徴ベクトルを取得する特徴ベクトル取得部と、クエリ画像を第2の学習モデルに与えて、第2の学習モデルから、複数のギャラリ画像の中で、クエリ画像に含まれている被写体を含んでいる可能性が相対的に高いK(Kは、1以上の整数)個のギャラリ画像が検索された際の検索の信頼度を取得する信頼度取得部と、特徴ベクトル取得部により取得されたクエリ画像の特徴ベクトルとそれぞれのギャラリ画像の特徴ベクトルとに基づいて、複数のギャラリ画像の中から、K個のギャラリ画像を検索する画像検索部と、信頼度取得部により取得された信頼度から、画像検索部による検索の信頼度を特定する信頼度特定部とを備えるものである。
本開示によれば、画像検索部による検索の信頼度を確認することができる。
実施の形態1に係る画像検索装置を示す構成図である。 実施の形態1に係る画像検索装置のハードウェアを示すハードウェア構成図である。 画像検索装置が、ソフトウェア又はファームウェア等によって実現される場合のコンピュータのハードウェア構成図である。 図1に示す画像検索装置により用いられる第1の学習モデル5及び第2の学習モデル6のそれぞれを生成する学習装置を示す構成図である。 図4に示す学習装置のハードウェアを示すハードウェア構成図である。 学習装置が、ソフトウェア又はファームウェア等によって実現される場合のコンピュータのハードウェア構成図である。 図7Aは、M個の学習用画像gg~ggを含む学習用画像群GGの一例を示す説明図、図7Bは、クエリ画像q及びギャラリ画像群Gの一例を示す説明図である。 学習用画像gg(m=1,・・・,M)の画像特徴空間上の位置を示す説明図である。 図1に示す画像検索装置の処理手順である画像検索方法を示すフローチャートである。 クエリ画像qに含まれている被写体を含んでいる可能性が相対的に高いK個のギャラリ画像g’~ g’を示す説明図である。 Triplet Lossと呼ばれる距離学習方法を示す説明図である。 実施の形態2に係る画像検索装置を示す構成図である。 実施の形態2に係る画像検索装置のハードウェアを示すハードウェア構成図である。 図12に示す画像検索装置により用いられる第1の学習モデル5及び第2の学習モデル63のそれぞれを生成する学習装置を示す構成図である。 図14に示す学習装置のハードウェアを示すハードウェア構成図である。 実施の形態3に係る画像検索装置を示す構成図である。 実施の形態3に係る画像検索装置のハードウェアを示すハードウェア構成図である。 図16に示す画像検索装置により用いられる第1の学習モデル5及び第2の学習モデル66のそれぞれを生成する学習装置を示す構成図である。 図18に示す学習装置のハードウェアを示すハードウェア構成図である。 クエリ画像に含まれている被写体を含んでいるギャラリ画像の頻度分布と、クエリ画像に含まれている被写体を含んでいないギャラリ画像の頻度分布とを示す説明図である。
以下、本開示をより詳細に説明するために、本開示を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
図1は、実施の形態1に係る画像検索装置を示す構成図である。
図2は、実施の形態1に係る画像検索装置のハードウェアを示すハードウェア構成図である。
図1に示す画像検索装置は、特徴ベクトル取得部1、信頼度取得部2、画像検索部3及び信頼度特定部4を備えている。
特徴ベクトル取得部1は、例えば、図2に示す特徴ベクトル取得回路11によって実現される。
特徴ベクトル取得部1は、第1の学習モデル5を備えている。第1の学習モデル5は、図4に示す学習装置によって生成されたものである。
特徴ベクトル取得部1は、識別対象の画像であるクエリ画像qを取得し、N個の被識別対象の画像であるギャラリ画像g~gを含むギャラリ画像群Gを取得する。Nは、1以上の整数である。
特徴ベクトル取得部1は、クエリ画像qを第1の学習モデル5に与えて、第1の学習モデル5から、クエリ画像qの特徴ベクトルFvを取得する。
また、特徴ベクトル取得部1は、ギャラリ画像g(n=1,・・・,N)を第1の学習モデル5に与えて、第1の学習モデル5から、ギャラリ画像gの特徴ベクトルFvg,nを取得する。
特徴ベクトルFv及び特徴ベクトルFvg,nのそれぞれは、画像特徴空間の位置を示すものである。画像特徴空間が、2次元の特徴空間であれば、特徴空間の横軸は、例えば、被写体である人間の左目と右目との距離を示し、特徴空間の縦軸は、例えば、目尻から鼻までの距離を示すものが考えられる。
画像特徴空間は、2次元の特徴空間に限るものではなく、例えば、3次元の特徴空間であってもよい。
特徴ベクトル取得部1は、ギャラリ画像群G、クエリ画像qの特徴ベクトルFv及びギャラリ画像gの特徴ベクトルFvg,nのそれぞれを画像検索部3に出力する。
信頼度取得部2は、例えば、図2に示す信頼度取得回路12によって実現される。
信頼度取得部2は、第2の学習モデル6を備えている。第2の学習モデル6は、図4に示す学習装置によって生成されたものである。
信頼度取得部2は、クエリ画像qを取得する。
信頼度取得部2は、クエリ画像qを第2の学習モデル6に与えて、第2の学習モデル6から、N個のギャラリ画像g~gの中で、クエリ画像qに含まれている被写体を含んでいる可能性が相対的に高いK個のギャラリ画像g’~ g’が検索された際の検索の信頼度Dを取得する。Kは、1以上N以下の整数である。
信頼度取得部2は、取得した信頼度Dを信頼度特定部4に出力する。
画像検索部3は、例えば、図2に示す画像検索回路13によって実現される。
画像検索部3は、ギャラリ画像群G、クエリ画像qの特徴ベクトルFv及びギャラリ画像g(n=1,・・・,N)の特徴ベクトルFvg,nのそれぞれを取得する。
画像検索部3は、クエリ画像qの特徴ベクトルFvとギャラリ画像gの特徴ベクトルFvg,nとに基づいて、N個のギャラリ画像g~gの中から、クエリ画像qに含まれている被写体を含んでいる可能性が相対的に高いK個のギャラリ画像g’~ g’を検索する。
画像検索部3は、画像の検索結果として、K個のギャラリ画像g’~ g’を外部に出力することによって、例えば、K個のギャラリ画像g’~ g’をディスプレイ等に表示させる。
信頼度特定部4は、例えば、図2に示す信頼度特定回路14によって実現される。
信頼度特定部4は、信頼度取得部2から信頼度Dを取得する。
信頼度特定部4は、信頼度取得部2により取得された信頼度Dから、画像検索部3による検索の信頼度を特定する。
図1に示す画像検索装置では、信頼度特定部4が、信頼度取得部2により取得された信頼度Dを、画像検索部3による検索の信頼度として、外部に出力する。
信頼度特定部4は、画像検索部3による検索の信頼度Dを外部に出力することによって、例えば、画像検索部3による検索の信頼度Dをディスプレイ等に表示させる。
図1に示す画像検索装置では、特徴ベクトル取得部1が第1の学習モデル5を備え、信頼度取得部2が第2の学習モデル6を備えている。しかし、これは一例に過ぎず、図示せぬ記憶装置が第1の学習モデル5及び第2の学習モデル6のそれぞれを備えるようにしてもよい。記憶装置が第1の学習モデル5を備える場合、特徴ベクトル取得部1が、記憶装置が備える第1の学習モデル5から、クエリ画像qの特徴ベクトルFv及びギャラリ画像gの特徴ベクトルFvg,nのそれぞれを取得すればよい。記憶装置が第2の学習モデル6を備える場合、信頼度取得部2が、記憶装置が備える第2の学習モデル6から、検索の信頼度Dを取得すればよい。
図1では、画像検索装置の構成要素である特徴ベクトル取得部1、信頼度取得部2、画像検索部3及び信頼度特定部4のそれぞれが、図2に示すような専用のハードウェアによって実現されるものを想定している。即ち、画像検索装置が、特徴ベクトル取得回路11、信頼度取得回路12、画像検索回路13及び信頼度特定回路14によって実現されるものを想定している。
特徴ベクトル取得回路11、信頼度取得回路12、画像検索回路13及び信頼度特定回路14のそれぞれは、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、又は、これらを組み合わせたものが該当する。
画像検索装置の構成要素は、専用のハードウェアによって実現されるものに限るものではなく、画像検索装置が、ソフトウェア、ファームウェア、又は、ソフトウェアとファームウェアとの組み合わせによって実現されるものであってもよい。
ソフトウェア又はファームウェアは、プログラムとして、コンピュータのメモリに格納される。コンピュータは、プログラムを実行するハードウェアを意味し、例えば、CPU(Central Processing Unit)、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサ、あるいは、DSP(Digital Signal Processor)が該当する。
図3は、画像検索装置が、ソフトウェア又はファームウェア等によって実現される場合のコンピュータのハードウェア構成図である。
画像検索装置が、ソフトウェア又はファームウェア等によって実現される場合、特徴ベクトル取得部1、信頼度取得部2、画像検索部3及び信頼度特定部4におけるそれぞれの処理手順をコンピュータに実行させるためのプログラムがメモリ21に格納される。そして、コンピュータのプロセッサ22がメモリ21に格納されているプログラムを実行する。
また、図2では、画像検索装置の構成要素のそれぞれが専用のハードウェアによって実現される例を示し、図3では、画像検索装置がソフトウェア又はファームウェア等によって実現される例を示している。しかし、これは一例に過ぎず、画像検索装置における一部の構成要素が専用のハードウェアによって実現され、残りの構成要素がソフトウェア又はファームウェア等によって実現されるものであってもよい。
図4は、図1に示す画像検索装置により用いられる第1の学習モデル5及び第2の学習モデル6のそれぞれを生成する学習装置を示す構成図である。
図5は、図4に示す学習装置のハードウェアを示すハードウェア構成図である。
図4に示す学習装置は、第1の学習モデル生成部31及び第2の学習モデル生成部32を備えている。
第1の学習モデル生成部31は、例えば、図5に示す第1の学習モデル生成回路41によって実現される。
第1の学習モデル生成部31は、M個の学習用の画像である学習用画像gg~ggを含む学習用画像群GGを取得する。Mは、K以上の整数である。学習用画像ggには、学習用画像ggに含まれている被写体を示す識別情報idが付加されている。
第1の学習モデル生成部31は、学習用画像gg(m=1,・・・,M)の特徴ベクトルFvgg,mを抽出する。
第1の学習モデル生成部31は、M個の学習用画像gg~ggとM個の特徴ベクトルFvgg,1~Fvgg,Mとを用いて、第1の学習モデル5を生成する。
即ち、第1の学習モデル生成部31は、学習用画像gg(m=1,・・・,M)を第1の学習モデル5に与え、特徴ベクトルFvgg,m(m=1,・・・,M)を教師データとして第1の学習モデル5に与えることで、学習用画像ggの特徴ベクトルFvgg,mを第1の学習モデル5に学習させる。
第1の学習モデル生成部31は、学習用画像ggの特徴ベクトルFvgg,mを第1の学習モデル5に学習させる際、例えば、図11に示すような、Triplet Lossと呼ばれる距離学習方法を用いて、特徴ベクトルFvgg,mが示す画像特徴空間上の位置を学習させる。即ち、第1の学習モデル生成部31は、M個の学習用画像gg~ggの中で、識別情報idが示す被写体が同じ学習用画像同士の位置については、互いに近づくように学習用画像ggの特徴ベクトルFvgg,mを学習させる。第1の学習モデル生成部31は、M個の学習用画像gg~ggの中で、識別情報idが示す被写体が異なる学習用画像同士の位置については、互いに遠ざかるように学習用画像ggの特徴ベクトルFvgg,mを学習させる。
第1の学習モデル生成部31は、学習済みの第1の学習モデル5を図1に示す画像検索装置の特徴ベクトル取得部1に与える。
図11は、Triplet Lossと呼ばれる距離学習方法を示す説明図である。図11に示す距離学習方法は、含んでいる被写体が同じ学習用画像同士の位置については、互いに近づくように学習用画像ggの特徴ベクトルFvgg,mを学習させ、含んでいる被写体が異なる学習用画像同士の位置については、互いに遠ざかるように学習用画像ggの特徴ベクトルFvgg,mを学習させる方法である。
第2の学習モデル生成部32は、例えば、図5に示す第2の学習モデル生成回路42によって実現される。
第2の学習モデル生成部32は、M個の学習用画像gg~ggを含む学習用画像群GGを取得する。
第2の学習モデル生成部32は、学習用画像gg(m=1,・・・,M)に付加されている識別情報idに基づいて、信頼度Dを算出する。
例えば、第2の学習モデル生成部32が信頼度Dを算出するのであれば、第2の学習モデル生成部32は、学習用画像gg~ggに付加されている識別情報id~idの中で、学習用画像ggに付加されている識別情報idと同じ被写体を示している割合を算出する。
例えば、第2の学習モデル生成部32が信頼度Dを算出するのであれば、第2の学習モデル生成部32は、学習用画像gg~ggに付加されている識別情報id~idの中で、学習用画像ggに付加されている識別情報idと同じ被写体を示している割合を算出する。
第2の学習モデル生成部32は、M個の学習用画像gg~ggとM個の信頼度D~Dとを用いて、第2の学習モデル6を生成する。
即ち、第2の学習モデル生成部32は、学習用画像gg(m=1,・・・,M)を第2の学習モデル6に与え、信頼度Dを教師データとして第2の学習モデル6に与えることで、信頼度Dを第2の学習モデル6に学習させる。
第2の学習モデル生成部32は、学習済みの第2の学習モデル6を図1に示す画像検索装置の信頼度取得部2に与える。
図4では、学習装置の構成要素である第1の学習モデル生成部31及び第2の学習モデル生成部32のそれぞれが、図5に示すような専用のハードウェアによって実現されるものを想定している。即ち、学習装置が、第1の学習モデル生成回路41及び第2の学習モデル生成回路42によって実現されるものを想定している。
第1の学習モデル生成回路41及び第2の学習モデル生成回路42のそれぞれは、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC、FPGA、又は、これらを組み合わせたものが該当する。
学習装置の構成要素は、専用のハードウェアによって実現されるものに限るものではなく、学習装置が、ソフトウェア、ファームウェア、又は、ソフトウェアとファームウェアとの組み合わせによって実現されるものであってもよい。
図6は、学習装置が、ソフトウェア又はファームウェア等によって実現される場合のコンピュータのハードウェア構成図である。
学習装置が、ソフトウェア又はファームウェア等によって実現される場合、第1の学習モデル生成部31及び第2の学習モデル生成部32におけるそれぞれの処理手順をコンピュータに実行させるためのプログラムがメモリ51に格納される。そして、コンピュータのプロセッサ52がメモリ51に格納されているプログラムを実行する。
また、図5では、学習装置の構成要素のそれぞれが専用のハードウェアによって実現される例を示し、図6では、学習装置がソフトウェア又はファームウェア等によって実現される例を示している。しかし、これは一例に過ぎず、学習装置における一部の構成要素が専用のハードウェアによって実現され、残りの構成要素がソフトウェア又はファームウェア等によって実現されるものであってもよい。
最初に、図4に示す学習装置の動作について説明する。
第1の学習モデル生成部31は、図7Aに示すような、M個の学習用画像gg~ggを含む学習用画像群GGを取得する。
図7Aは、M個の学習用画像gg~ggを含む学習用画像群GGの一例を示す説明図である。
図7Aの例では、学習用画像群GGが3つの学習用画像gg~ggを含んでいる。学習用画像ggに付加されている識別情報idは“3”であり、学習用画像ggに付加されている識別情報idは“3”であり、学習用画像ggに付加されている識別情報idは“5”である。
したがって、図7Aの例では、学習用画像ggに含まれている被写体は、学習用画像ggに含まれている被写体と同じであり、学習用画像gg,ggに含まれている被写体は、学習用画像ggに含まれている被写体と異なる。
第1の学習モデル生成部31は、学習用画像gg(m=1,・・・,M)の特徴ベクトルFvgg,mを抽出する。学習用画像ggの特徴ベクトルFvgg,mを抽出する処理自体は、公知の技術であるため詳細な説明を省略する。
第1の学習モデル生成部31は、学習用画像gg(m=1,・・・,M)を第1の学習モデル5に与え、特徴ベクトルFvgg,m(m=1,・・・,M)を教師データとして第1の学習モデル5に与えることで、学習用画像ggの特徴ベクトルFvgg,mを第1の学習モデル5に学習させる。
第1の学習モデル生成部31は、学習用画像ggの特徴ベクトルFvgg,mを第1の学習モデル5に学習させる際、図11に示すように、M個の学習用画像gg~ggの中で、識別情報idが示す被写体が同じ学習用画像同士の位置については、互いに近づくように学習用画像ggの特徴ベクトルFvgg,mを学習させる。第1の学習モデル生成部31は、図11に示すように、M個の学習用画像gg~ggの中で、識別情報idが示す被写体が異なる学習用画像同士の位置については、互いに遠ざかるように学習用画像ggの特徴ベクトルFvgg,mを学習させる。
図4に示す学習装置では、第1の学習モデル生成部31が、Triplet Lossと呼ばれる距離学習方法を用いて、学習用画像ggの特徴ベクトルFvgg,mを学習させている。しかし、これは一例に過ぎず、第1の学習モデル生成部31は、Triplet Loss以外の距離学習方法を用いて、学習用画像ggの特徴ベクトルFvgg,mを学習させるものであってもよい。
図4に示す学習装置では、第1の学習モデル生成部31が、学習用画像ggの特徴ベクトルFvgg,mを第1の学習モデル5に与え、第1の学習モデル5が、学習用画像ggの特徴ベクトルFvgg,mを学習している。しかし、これは一例に過ぎず、第1の学習モデル生成部31が、学習用画像ggを第1の学習モデル5に与え、第1の学習モデル5が、学習用画像ggの特徴ベクトルFvgg,mを抽出して、学習用画像ggの特徴ベクトルFvgg,mを学習するようにしてもよい。
図8は、学習用画像gg(m=1,・・・,M)の画像特徴空間上の位置を示す説明図である。
図8の例では、4つの学習用画像gg~ggの画像特徴空間上の位置を示している。
図8に示す画像特徴空間は、2次元の特徴空間である。特徴空間の横軸は、例えば、被写体である人間の左目と右目との距離を示している。特徴空間の縦軸は、例えば、目尻から鼻までの距離を示している。
第1の学習モデル生成部31は、学習済みの第1の学習モデル5を図1に示す画像検索装置の特徴ベクトル取得部1に与える。
第2の学習モデル生成部32は、M個の学習用画像gg~ggを含む学習用画像群GGを取得する。
第2の学習モデル生成部32は、学習用画像gg(m=1,・・・,M)に付加されている識別情報idに基づいて、信頼度Dを算出する。
即ち、第2の学習モデル生成部32は、学習用画像群GGの中から、それぞれの学習用画像ggを順番に取得して、取得した学習用画像ggを基準画像ggrefに設定する。
第2の学習モデル生成部32は、M個の学習用画像gg~ggに付加されている識別情報id~idの中で、基準画像ggrefに付加されている識別情報idが示す被写体と同じ被写体を示している割合を信頼度Dとして算出する。
例えば、M=10であり、基準画像ggrefに付加されている識別情報idが示す被写体と同じ被写体を含んでいる学習用画像ggの数が6であれば、信頼度Dは、60=(6/10)×100[%]である。
例えば、M=8であり、基準画像ggrefに付加されている識別情報idが示す被写体と同じ被写体を含んでいる学習用画像ggの数が5であれば、信頼度Dは、62.5=(5/8)×100[%]である。
第2の学習モデル生成部32は、学習用画像gg(m=1,・・・,M)を第2の学習モデル6に与え、信頼度D(m=1,・・・,M)を教師データとして第2の学習モデル6に与えることで、信頼度Dを第2の学習モデル6に学習させる。
第2の学習モデル生成部32は、学習済みの第2の学習モデル6を図1に示す画像検索装置の信頼度取得部2に与える。
次に、図1に示す画像検索装置の動作について説明する。
図9は、図1に示す画像検索装置の処理手順である画像検索方法を示すフローチャートである。
特徴ベクトル取得部1は、例えば、図7Bに示すような、クエリ画像qと、N個のギャラリ画像g~gを含むギャラリ画像群Gとを取得する。
図7Bは、クエリ画像q及びギャラリ画像群Gの一例を示す説明図である。
図7Bの例では、ギャラリ画像群Gが3つのギャラリ画像g~gを含んでいる。
特徴ベクトル取得部1は、クエリ画像qを第1の学習モデル5に与えて、第1の学習モデル5から、クエリ画像qの特徴ベクトルFvを取得する(図9のステップST1)。
また、特徴ベクトル取得部1は、ギャラリ画像g(n=1,・・・,N)を第1の学習モデル5に与えて、第1の学習モデル5から、ギャラリ画像gの特徴ベクトルFvg,nを取得する(図9のステップST2)。
特徴ベクトル取得部1は、ギャラリ画像群G、クエリ画像qの特徴ベクトルFv及びギャラリ画像gの特徴ベクトルFvg,nのそれぞれを画像検索部3に出力する。
信頼度取得部2は、クエリ画像qを取得する。
信頼度取得部2は、クエリ画像qを第2の学習モデル6に与えて、第2の学習モデル6から、信頼度Dを取得する(図9のステップST3)。
信頼度取得部2は、信頼度Dを信頼度特定部4に出力する。
画像検索部3は、特徴ベクトル取得部1から、ギャラリ画像群G、クエリ画像qの特徴ベクトルFv及びギャラリ画像g(n=1,・・・,N)の特徴ベクトルFvg,nのそれぞれを取得する。
画像検索部3は、クエリ画像qとギャラリ画像g(n=1,・・・,N)との類似度Sとして、クエリ画像qの特徴ベクトルFvとギャラリ画像gの特徴ベクトルFvg,nとのユークリッド距離Lを算出する。ユークリッド距離Lが短い程、クエリ画像qとギャラリ画像gとの類似度Sが高い。ユークリッド距離Lの算出処理自体は、公知の技術であるため詳細な説明を省略する。
画像検索部3は、N個のギャラリ画像g~gの中から、クエリ画像qに含まれている被写体を含んでいる可能性が相対的に高いK個のギャラリ画像g’~ g’として、クエリ画像qとの類似度Sが高い相対的に高いK個のギャラリ画像g’~ g’を検索する(図9のステップST4)。
図10は、クエリ画像qに含まれている被写体を含んでいる可能性が相対的に高いK個のギャラリ画像g’~ g’を示す説明図である。
図10の例では、K個のギャラリ画像g’~ g’として、5つのギャラリ画像g’~g ’が表されている。
図10において、●は、クエリ画像qであり、○は、クエリ画像qに含まれている被写体を含んでいるギャラリ画像、×は、クエリ画像qに含まれている被写体を含んでいないギャラリ画像である。
クエリ画像qに対するギャラリ画像g’(k=1,・・・,K)の類似度Sは、クエリ画像qの特徴ベクトルFvと、ギャラリ画像g’の特徴ベクトルFvg,kとのユークリッド距離Lで表されている。
図10の例では、L<L<L<L<Lであるため、クエリ画像qに対するギャラリ画像g’の類似度Sは、S>S>S>S>Sである。
ここでは、クエリ画像qに対するギャラリ画像g’の類似度Sが、ユークリッド距離Lで表されている。しかし、これは一例に過ぎず、類似度Sが、例えば、クエリ画像qに対するギャラリ画像g’のコサイン類似度で表されるものであってもよい。
図10の例では、K=2の場合、K個のギャラリ画像g’~ g’の中に、クエリ画像qに含まれている被写体を含んでいるギャラリ画像g’と、クエリ画像qに含まれている被写体を含んでいないギャラリ画像g’とがある。
K=2の場合、画像検索部3は、クエリ画像qに含まれている被写体を含んでいる可能性が相対的に高いK個のギャラリ画像g’~ g’として、ギャラリ画像g’,g’を外部に出力する。
また、K=5の場合、K個のギャラリ画像g’~ g’の中に、クエリ画像qに含まれている被写体を含んでいるギャラリ画像g’,g’,g’と、クエリ画像qに含まれている被写体を含んでいないギャラリ画像g’,g’とがある。
K=5の場合、画像検索部3は、クエリ画像qに含まれている被写体を含んでいる可能性が相対的に高いK個のギャラリ画像g’~ g’として、ギャラリ画像g’,g’,g’,g’,g’を外部に出力する。
画像検索部3は、画像の検索結果として、K個のギャラリ画像g’~ g’を外部に出力することによって、例えば、K個のギャラリ画像g’~ g’をディスプレイ等に表示させる。
信頼度特定部4は、信頼度取得部2から、信頼度Dを取得する。
信頼度特定部4は、信頼度取得部2により取得された信頼度Dから、画像検索部3による検索の信頼度を特定する(図9のステップST5)。
図1に示す画像検索装置では、信頼度特定部4が、信頼度取得部2により取得された信頼度Dをそのまま画像検索部3による検索の信頼度として特定している。
信頼度特定部4は、画像検索部3による検索の信頼度Dを外部に出力することによって、例えば、画像検索部3による検索の信頼度Dをディスプレイ等に表示させる。
図10の例では、K=2の場合、クエリ画像qに含まれている被写体を含んでいるギャラリ画像g’と、クエリ画像qに含まれている被写体を含んでいないギャラリ画像g’とが画像検索部3によって検索されるため、信頼度Dは、50=(1/2)×100[%]であることが想定される。
図10の例では、K=5の場合、クエリ画像qに含まれている被写体を含んでいるギャラリ画像g’,g’,g’と、クエリ画像qに含まれている被写体を含んでいないギャラリ画像g’,g’とが画像検索部3によって検索されるため、信頼度Dは、60=(3/5)×100[%]であることが想定される。
以上の実施の形態1では、識別対象の画像であるクエリ画像を第1の学習モデル5に与えて、第1の学習モデル5から、クエリ画像の特徴ベクトルを取得し、複数の被識別対象の画像であるギャラリ画像のそれぞれを第1の学習モデル5に与えて、第1の学習モデル5から、それぞれのギャラリ画像の特徴ベクトルを取得する特徴ベクトル取得部1と、クエリ画像を第2の学習モデル6に与えて、第2の学習モデル6から、複数のギャラリ画像の中で、クエリ画像に含まれている被写体を含んでいる可能性が相対的に高いK(Kは、1以上の整数)個のギャラリ画像が検索された際の検索の信頼度を取得する信頼度取得部2とを備えるように、画像検索装置を構成した。また、画像検索装置は、特徴ベクトル取得部1により取得されたクエリ画像の特徴ベクトルとそれぞれのギャラリ画像の特徴ベクトルとに基づいて、複数のギャラリ画像の中から、K個のギャラリ画像を検索する画像検索部3と、信頼度取得部2により取得された信頼度から、画像検索部3による検索の信頼度を特定する信頼度特定部4とを備えている。したがって、画像検索装置は、画像検索部3による検索の信頼度を確認することができる。
実施の形態2.
実施の形態2では、信頼度取得部61が、クエリ画像qを第2の学習モデル63に与えて、第2の学習モデル63から、検索の信頼度として、グループについての信頼度を取得する画像検索装置について説明する。
図12は、実施の形態2に係る画像検索装置を示す構成図である。図12において、図1と同一符号は同一又は相当部分を示すので説明を省略する。
図13は、実施の形態2に係る画像検索装置のハードウェアを示すハードウェア構成図である。図13において、図2と同一符号は同一又は相当部分を示すので説明を省略する。
図12に示す画像検索装置は、特徴ベクトル取得部1、信頼度取得部61、画像検索部3及び信頼度特定部62を備えている。
M個の学習用画像gg~ggは、信頼度別にグループ分けされている。M個の学習用画像gg~ggは、例えば、J個のグループGP~GPに分類されている。Jは、1以上M以下の整数である。
仮に、J=3、M=16であれば、例えば、学習用画像gg~ggが、信頼度○○%のグループGPに分類され、学習用画像gg~gg10が、信頼度△△%のグループGPに分類され、学習用画像gg11~gg16が、信頼度□□%のグループGPに分類されることがある。
第2の学習モデル63は、学習用画像gg(m=1,・・・,M)と、学習用画像ggが含まれているグループGPについての信頼度Dとが与えられたときに、グループGPについての信頼度Dの学習が行われた学習モデルである。
信頼度取得部61は、例えば、図13に示す信頼度取得回路15によって実現される。
信頼度取得部61は、第2の学習モデル63を備えている。第2の学習モデル63は、図14に示す学習装置によって生成されたものである。
信頼度取得部61は、クエリ画像qを取得する。
信頼度取得部61は、クエリ画像qを第2の学習モデル63に与えて、第2の学習モデル63から、N個のギャラリ画像g~gの中で、クエリ画像qに含まれている被写体を含んでいる可能性が相対的に高いK個のギャラリ画像g’~ g’が検索された際の検索の信頼度として、グループGP’についての信頼度D’を取得する。
信頼度取得部61は、グループGP’についての信頼度D’を信頼度特定部62に出力する。
信頼度特定部62は、例えば、図13に示す信頼度特定回路16によって実現される。
信頼度特定部62は、信頼度取得部61から、グループGP’についての信頼度D’を取得する。
信頼度特定部62は、信頼度取得部61により取得されたグループGP’についての信頼度D’から、画像検索部3による検索の信頼度を特定する。
図12に示す画像検索装置では、信頼度特定部62が、信頼度取得部61により取得されたグループGP’についての信頼度D’を、画像検索部3による検索の信頼度として、外部に出力する。
信頼度特定部62は、画像検索部3による検索の信頼度D’を外部に出力することによって、例えば、画像検索部3による検索の信頼度D’をディスプレイ等に表示させる。
図12では、画像検索装置の構成要素である特徴ベクトル取得部1、信頼度取得部61、画像検索部3及び信頼度特定部62のそれぞれが、図13に示すような専用のハードウェアによって実現されるものを想定している。即ち、画像検索装置が、特徴ベクトル取得回路11、信頼度取得回路15、画像検索回路13及び信頼度特定回路16によって実現されるものを想定している。
特徴ベクトル取得回路11、信頼度取得回路15、画像検索回路13及び信頼度特定回路16のそれぞれは、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC、FPGA、又は、これらを組み合わせたものが該当する。
画像検索装置の構成要素は、専用のハードウェアによって実現されるものに限るものではなく、画像検索装置が、ソフトウェア、ファームウェア、又は、ソフトウェアとファームウェアとの組み合わせによって実現されるものであってもよい。
画像検索装置が、ソフトウェア又はファームウェア等によって実現される場合、特徴ベクトル取得部1、信頼度取得部61、画像検索部3及び信頼度特定部62におけるそれぞれの処理手順をコンピュータに実行させるためのプログラムが図3に示すメモリ21に格納される。そして、図3に示すプロセッサ22がメモリ21に格納されているプログラムを実行する。
また、図13では、画像検索装置の構成要素のそれぞれが専用のハードウェアによって実現される例を示し、図3では、画像検索装置がソフトウェア又はファームウェア等によって実現される例を示している。しかし、これは一例に過ぎず、画像検索装置における一部の構成要素が専用のハードウェアによって実現され、残りの構成要素がソフトウェア又はファームウェア等によって実現されるものであってもよい。
図14は、図12に示す画像検索装置により用いられる第1の学習モデル5及び第2の学習モデル63のそれぞれを生成する学習装置を示す構成図である。
図15は、図14に示す学習装置のハードウェアを示すハードウェア構成図である。
図14に示す学習装置は、第1の学習モデル生成部31及び第2の学習モデル生成部33を備えている。
第2の学習モデル生成部33は、例えば、図15に示す第2の学習モデル生成回路43によって実現される。
第2の学習モデル生成部33は、M個の学習用画像gg~ggを含む学習用画像群GGを取得する。
第2の学習モデル生成部33は、学習用画像gg(m=1,・・・,M)が含まれているグループGP(j=1,・・・,J)についての信頼度Dを取得する。
第2の学習モデル生成部33は、学習用画像gg(m=1,・・・,M)と、グループGP(j=1,・・・,J)についての信頼度Dとを用いて、第2の学習モデル63を生成する。
即ち、第2の学習モデル生成部33は、学習用画像gg(m=1,・・・,M)を第2の学習モデル63に与え、グループGPについての信頼度Dを教師データとして第2の学習モデル63に与えることで、グループGPについての信頼度Dを第2の学習モデル63に学習させる。
第2の学習モデル生成部33は、学習済みの第2の学習モデル63を図12に示す画像検索装置の信頼度取得部61に与える。
図14では、学習装置の構成要素である第1の学習モデル生成部31及び第2の学習モデル生成部33のそれぞれが、図15に示すような専用のハードウェアによって実現されるものを想定している。即ち、学習装置が、第1の学習モデル生成回路41及び第2の学習モデル生成回路43によって実現されるものを想定している。
第1の学習モデル生成回路41及び第2の学習モデル生成回路43のそれぞれは、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC、FPGA、又は、これらを組み合わせたものが該当する。
学習装置の構成要素は、専用のハードウェアによって実現されるものに限るものではなく、学習装置が、ソフトウェア、ファームウェア、又は、ソフトウェアとファームウェアとの組み合わせによって実現されるものであってもよい。
学習装置が、ソフトウェア又はファームウェア等によって実現される場合、第1の学習モデル生成部31及び第2の学習モデル生成部33におけるそれぞれの処理手順をコンピュータに実行させるためのプログラムが図6に示すメモリ51に格納される。そして、図6に示すプロセッサ52がメモリ51に格納されているプログラムを実行する。
また、図15では、学習装置の構成要素のそれぞれが専用のハードウェアによって実現される例を示し、図6では、学習装置がソフトウェア又はファームウェア等によって実現される例を示している。しかし、これは一例に過ぎず、学習装置における一部の構成要素が専用のハードウェアによって実現され、残りの構成要素がソフトウェア又はファームウェア等によって実現されるものであってもよい。
最初に、図14に示す学習装置の動作について説明する。第2の学習モデル生成部33以外は、図4に示す学習装置と同様であるため、ここでは、第2の学習モデル生成部33の動作のみを説明する。
図14に示す学習装置では、M個の学習用画像gg~ggが、信頼度別にグループ分けされている。即ち、M個の学習用画像gg~ggは、例えば、J個のグループGP~GPに分類されている。
第2の学習モデル生成部33は、M個の学習用画像gg~ggを含む学習用画像群GGを取得する。
また、第2の学習モデル生成部33は、学習用画像gg(m=1,・・・,M)が含まれているグループGP(j=1,・・・,J)についての信頼度Dを取得する。
第2の学習モデル生成部33は、事前に、学習用画像ggが含まれているグループGPを認識しているものとしてもよいし、外部から、学習用画像ggが含まれているグループGPを示す情報を取得するものとしてもよい。
第2の学習モデル生成部33は、学習用画像gg(m=1,・・・,M)を第2の学習モデル63に与え、グループGPについての信頼度Dを教師データとして第2の学習モデル63に与えることで、グループGPについての信頼度Dを第2の学習モデル63に学習させる。
第2の学習モデル生成部33は、学習済みの第2の学習モデル63を図12に示す画像検索装置の信頼度取得部61に与える。
次に、図12に示す画像検索装置の動作について説明する。信頼度取得部61及び信頼度特定部62以外は、図1に示す画像検索装置と同様であるため、ここでは、信頼度取得部61及び信頼度特定部62の動作のみを説明する。
信頼度取得部61は、クエリ画像qを取得する。
信頼度取得部61は、クエリ画像qを第2の学習モデル63に与えて、第2の学習モデル63から、グループGP’についての信頼度D’を取得する。
信頼度取得部61は、グループGP’についての信頼度D’を信頼度特定部62に出力する。
信頼度特定部62は、信頼度取得部61から、グループGP’についての信頼度D’を取得する。
信頼度特定部62は、信頼度取得部61により取得されたグループGP’についての信頼度D’から、画像検索部3による検索の信頼度を特定する。
即ち、信頼度特定部62は、グループGP’についての信頼度D’を、画像検索部3による検索の信頼度であるとする。
信頼度特定部62は、画像検索部3による検索の信頼度D’を外部に出力することによって、例えば、画像検索部3による検索の信頼度D’をディスプレイ等に表示させる。
以上の実施の形態2では、複数の学習用の画像である学習用画像が信頼度別にグループ分けされており、第2の学習モデル63は、それぞれの学習用画像が与えられ、それぞれの学習用画像が含まれているグループについての信頼度が教師データとして与えられたときに、信頼度の学習が行われた学習モデルである。図12に示す画像検索装置の信頼度取得部61は、クエリ画像を第2の学習モデル63に与えて、第2の学習モデル63から、クエリ画像に含まれている被写体を含んでいる可能性が相対的に高いK個のギャラリ画像が検索された際の検索の信頼度として、グループについての信頼度を取得する。図12に示す画像検索装置の信頼度特定部62は、信頼度取得部61により取得されたグループについての信頼度から、画像検索部3による検索の信頼度を特定する。したがって、図12に示す画像検索装置は、図1に示す画像検索装置と同様に、画像検索部3による検索の信頼度を確認することができる。
実施の形態3.
実施の形態3では、信頼度取得部64が、クエリ画像qを第2の学習モデル66に与えて、第2の学習モデル66から、検索の信頼度として、距離クラスについての信頼度を取得する画像検索装置について説明する。
図16は、実施の形態3に係る画像検索装置を示す構成図である。図16において、図1及び図12と同一符号は同一又は相当部分を示すので説明を省略する。
図17は、実施の形態3に係る画像検索装置のハードウェアを示すハードウェア構成図である。図17において、図2及び図13と同一符号は同一又は相当部分を示すので説明を省略する。
図16に示す画像検索装置は、特徴ベクトル取得部1、信頼度取得部64、画像検索部3及び信頼度特定部65を備えている。
学習用画像群GGに含まれているM個の学習用画像gg~ggは、例えば、U個の距離クラスCL(u=1,・・・,U)に分類されている。Uは、1以上M以下の整数である。
即ち、M個の学習用画像gg~ggのそれぞれは、順番に基準画像ggrefに設定される。それぞれの基準画像ggrefと、学習用画像群GGに含まれている、当該基準画像ggref以外のそれぞれの学習用画像ggである学習用画像gg’との類似度が、当該基準画像ggrefの画像空間上の位置とそれぞれの学習用画像gg’の画像空間上の位置との間の距離で表されている。
そして、それぞれの学習用画像gg’は、当該基準画像ggrefとの距離によって、U個の距離クラスCL~CLの中のいずれかの距離クラスに分類されている。
第2の学習モデル66は、基準画像ggrefと、距離クラスCL(u=1,・・・,U)についての信頼度Dとが与えられたときに、距離クラスCLについての信頼度Dの学習が行われた学習モデルである。
距離クラスCLについての信頼度Dは、以下の式(1)に示すように、距離クラスCLに含まれている学習用画像ggの中で、基準画像ggrefに含まれている被写体を含んでいる学習用画像の割合である第1の頻度Pと、基準画像ggrefに含まれている被写体を含んでいない学習用画像の割合である第2の頻度P’とから算出されたものである。
=P/(P+P’) (1)
信頼度取得部64は、例えば、図17に示す信頼度取得回路17によって実現される。
信頼度取得部64は、第2の学習モデル66を備えている。第2の学習モデル66は、図18に示す学習装置によって生成されたものである。
信頼度取得部64は、クエリ画像qを取得する。
信頼度取得部64は、クエリ画像qを第2の学習モデル66に与えて、第2の学習モデル66から、N個のギャラリ画像g~gの中で、クエリ画像qに含まれている被写体を含んでいる可能性が相対的に高いK個のギャラリ画像g’~ g’が検索された際の検索の信頼度として、距離クラスCL’(u=1,・・・,U)についての信頼度D’を取得する。
信頼度取得部64は、距離クラスCL’についての信頼度D’を信頼度特定部65に出力する。
信頼度特定部65は、例えば、図17に示す信頼度特定回路18によって実現される。
信頼度特定部65は、信頼度取得部64から、距離クラスCL’(u=1,・・・,U)についての信頼度D’を取得する。
信頼度特定部65は、画像検索部3による検索の信頼度として、U個の距離クラスCL’~CL’の中から、画像検索部3により検索されたギャラリ画像g’(k=1,・・・,K)が含まれている距離クラスCL’についての信頼度D’を取得する。
信頼度特定部65は、取得した距離クラスCL’についての信頼度D’から、画像検索部3による検索の信頼度を算出する。
信頼度特定部65は、画像検索部3による検索の信頼度を外部に出力することによって、例えば、画像検索部3による検索の信頼度をディスプレイ等に表示させる。
図16では、画像検索装置の構成要素である特徴ベクトル取得部1、信頼度取得部64、画像検索部3及び信頼度特定部65のそれぞれが、図17に示すような専用のハードウェアによって実現されるものを想定している。即ち、画像検索装置が、特徴ベクトル取得回路11、信頼度取得回路17、画像検索回路13及び信頼度特定回路18によって実現されるものを想定している。
特徴ベクトル取得回路11、信頼度取得回路17、画像検索回路13及び信頼度特定回路18のそれぞれは、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC、FPGA、又は、これらを組み合わせたものが該当する。
画像検索装置の構成要素は、専用のハードウェアによって実現されるものに限るものではなく、画像検索装置が、ソフトウェア、ファームウェア、又は、ソフトウェアとファームウェアとの組み合わせによって実現されるものであってもよい。
画像検索装置が、ソフトウェア又はファームウェア等によって実現される場合、特徴ベクトル取得部1、信頼度取得部64、画像検索部3及び信頼度特定部65におけるそれぞれの処理手順をコンピュータに実行させるためのプログラムが図3に示すメモリ21に格納される。そして、図3に示すプロセッサ22がメモリ21に格納されているプログラムを実行する。
また、図17では、画像検索装置の構成要素のそれぞれが専用のハードウェアによって実現される例を示し、図3では、画像検索装置がソフトウェア又はファームウェア等によって実現される例を示している。しかし、これは一例に過ぎず、画像検索装置における一部の構成要素が専用のハードウェアによって実現され、残りの構成要素がソフトウェア又はファームウェア等によって実現されるものであってもよい。
図18は、図16に示す画像検索装置により用いられる第1の学習モデル5及び第2の学習モデル66のそれぞれを生成する学習装置を示す構成図である。
図19は、図18に示す学習装置のハードウェアを示すハードウェア構成図である。
図19に示す学習装置は、第1の学習モデル生成部31及び第2の学習モデル生成部34を備えている。
第2の学習モデル生成部34は、例えば、図19に示す第2の学習モデル生成回路44によって実現される。
第2の学習モデル生成部34は、M個の学習用画像gg~ggを含む学習用画像群GGを取得する。
第2の学習モデル生成部34は、学習用画像gg(m=1,・・・,M)が含まれている距離クラスCL(u=1,・・・,U)についての信頼度Dを取得する。
第2の学習モデル生成部34は、学習用画像gg(m=1,・・・,M)と、距離クラスCL(u=1,・・・,U)についての信頼度Dとを用いて、第2の学習モデル66を生成する。
即ち、第2の学習モデル生成部34は、M個の学習用画像gg~ggのそれぞれを順番に基準画像ggrefに設定する。
そして、第2の学習モデル生成部34は、設定した基準画像ggrefを第2の学習モデル66に与え、教師データを第2の学習モデル66に与えることで、距離クラスCL(u=1,・・・,U)についての信頼度Dを第2の学習モデル66に学習させる。教師データは、学習用画像群GGに含まれている学習用画像gg~ggの中で、設定した基準画像ggref以外のそれぞれの学習用画像ggである学習用画像gg’が含まれている距離クラスCL(u=1,・・・,U)についての信頼度Dである。
第2の学習モデル生成部34は、学習済みの第2の学習モデル66を図16に示す画像検索装置の信頼度取得部64に与える。
図18では、学習装置の構成要素である第1の学習モデル生成部31及び第2の学習モデル生成部34のそれぞれが、図19に示すような専用のハードウェアによって実現されるものを想定している。即ち、学習装置が、第1の学習モデル生成回路41及び第2の学習モデル生成回路44によって実現されるものを想定している。
第1の学習モデル生成回路41及び第2の学習モデル生成回路44のそれぞれは、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC、FPGA、又は、これらを組み合わせたものが該当する。
学習装置の構成要素は、専用のハードウェアによって実現されるものに限るものではなく、学習装置が、ソフトウェア、ファームウェア、又は、ソフトウェアとファームウェアとの組み合わせによって実現されるものであってもよい。
学習装置が、ソフトウェア又はファームウェア等によって実現される場合、第1の学習モデル生成部31及び第2の学習モデル生成部34におけるそれぞれの処理手順をコンピュータに実行させるためのプログラムが図6に示すメモリ51に格納される。そして、図6に示すプロセッサ52がメモリ51に格納されているプログラムを実行する。
また、図19では、学習装置の構成要素のそれぞれが専用のハードウェアによって実現される例を示し、図6では、学習装置がソフトウェア又はファームウェア等によって実現される例を示している。しかし、これは一例に過ぎず、学習装置における一部の構成要素が専用のハードウェアによって実現され、残りの構成要素がソフトウェア又はファームウェア等によって実現されるものであってもよい。
最初に、図18に示す学習装置の動作について説明する。第2の学習モデル生成部34以外は、図4に示す学習装置と同様であるため、ここでは、第2の学習モデル生成部34の動作のみを説明する。
図18に示す学習装置では、M個の学習用画像gg~ggのそれぞれが順番に基準画像ggrefに設定される。そして、それぞれの基準画像ggrefと、学習用画像gg’(m=1,・・・,M-1)との類似度が、基準画像ggrefの画像空間上の位置と学習用画像gg’(m=1,・・・,M-1)の画像空間上の位置との間の距離で表されている。
例えば、M=5であり、基準画像ggrefが学習用画像ggであれば、学習用画像gg’は学習用画像ggであり、学習用画像gg’は学習用画像ggであり、学習用画像gg’は学習用画像ggであり、学習用画像gg’は学習用画像ggである。
また、例えば、M=5であり、基準画像ggrefが学習用画像ggであれば、学習用画像gg’は学習用画像ggであり、学習用画像gg’は学習用画像ggであり、学習用画像gg’は学習用画像ggであり、学習用画像gg’は学習用画像ggである。
学習用画像gg’(m=1,・・・,M-1)は、基準画像ggrefとの距離によって、U個の距離クラスCL~CLの中のいずれかの距離クラスCL(u=1,・・・,U)に分類されている。
第2の学習モデル生成部34は、M個の学習用画像gg~ggを含む学習用画像群GGを取得する。
第2の学習モデル生成部34は、学習用画像gg(m=1,・・・,M)が含まれている距離クラスCL(u=1,・・・,U)についての信頼度Dを取得する。
即ち、第2の学習モデル生成部34は、M個の学習用画像gg~ggのそれぞれを順番に基準画像ggrefに設定し、M個の学習用画像gg~ggの中で、設定した基準画像ggref以外のそれぞれの学習用画像gg である学習用画像gg’が含まれている距離クラスCL(u=1,・・・,U)についての信頼度Dを取得する。
第2の学習モデル生成部34は、設定した基準画像ggrefを第2の学習モデル66に与え、教師データを第2の学習モデル66に与えることで、距離クラスCL(u=1,・・・,U)についての信頼度Dを第2の学習モデル66に学習させる。教師データは、(M-1)個の学習用画像gg’~ggM-1’が含まれている距離クラスCL(u=1,・・・,U)についての信頼度Dである。
第2の学習モデル生成部34は、学習済みの第2の学習モデル66を図16に示す画像検索装置の信頼度取得部64に与える。
次に、図16に示す画像検索装置の動作について説明する。信頼度取得部64及び信頼度特定部65以外は、図1に示す画像検索装置と同様であるため、ここでは、信頼度取得部64及び信頼度特定部65の動作のみを説明する。
信頼度取得部64は、クエリ画像qを取得する。
信頼度取得部64は、クエリ画像qを第2の学習モデル66に与えて、第2の学習モデル66から、距離クラスCL’(u=1,・・・,U)についての信頼度D’を取得する。
信頼度取得部64は、距離クラスCL’についての信頼度D’を信頼度特定部65に出力する。
距離クラスCL’についての信頼度D’は、以下の式(2)に示すように、距離クラスCL’に含まれているギャラリ画像g(n=1,・・・,N)の中で、クエリ画像qに含まれている被写体を含んでいるギャラリ画像の割合である第1の頻度Pと、クエリ画像qに含まれている被写体を含んでいないギャラリ画像の割合である第2の頻度P’とから算出が可能なものである。
’=P/(P+P’) (2)
図20は、クエリ画像に含まれている被写体を含んでいるギャラリ画像の頻度分布と、クエリ画像に含まれている被写体を含んでいないギャラリ画像の頻度分布とを示す説明図である。
図20において、横軸は、距離クラスCL’(u=1,・・・,U)を示している。縦軸は、第1の頻度P及び第2の頻度P’のそれぞれを示している。
図20では、1つのクエリ画像qと5つのギャラリ画像g~gとが例示されている。
信頼度特定部65は、信頼度取得部64から、距離クラスCL’(u=1,・・・,U)についての信頼度D’を取得する。
信頼度特定部65は、画像検索部3から、K個のギャラリ画像g’~ g’を取得し、画像検索部3から、クエリ画像qの特徴ベクトルFvとギャラリ画像g’(k=1,・・・,H)とのユークリッド距離Lを取得する。
信頼度特定部65は、クエリ画像qの特徴ベクトルFvとギャラリ画像g’(k=1,・・・,H)とのユークリッド距離Lに基づいて、U個の距離クラスCL’~CL’の中で、ギャラリ画像g’が含まれている距離クラスCL’を特定する。
そして、信頼度特定部65は、U個の距離クラスCL’~CL’についての信頼度D’の中から、画像検索部3により検索されたギャラリ画像g’(k=1,・・・,K)が含まれている距離クラスCL’についての信頼度D’を特定する。
例えば、K=2であり、画像検索部3により検索されたギャラリ画像g’が、ギャラリ画像g’,g’であれば、信頼度特定部65は、ギャラリ画像g’が含まれている距離クラスCL’についての信頼度D’と、ギャラリ画像g’が含まれている距離クラスCL’についての信頼度D’とを取得する。
例えば、K=5であり、画像検索部3により検索されたギャラリ画像g’が、ギャラリ画像g’,g’,g’,g’,g’であれば、信頼度特定部65は、ギャラリ画像g’が含まれている距離クラスCL’についての信頼度D’と、ギャラリ画像g’が含まれている距離クラスCL’についての信頼度D’とを取得する。また、信頼度特定部65は、ギャラリ画像g’が含まれている距離クラスCL’についての信頼度D’と、ギャラリ画像g’が含まれている距離クラスCL’についての信頼度D’と、ギャラリ画像g’が含まれている距離クラスCL’についての信頼度D’とを取得する。
信頼度特定部65は、画像検索部3により検索されたギャラリ画像g’の数が1つであり、取得した距離クラスCL’についての信頼度D’の数が1つであれば、画像検索部3による検索の信頼度D’として、1つの距離クラスCL’についての信頼度D’を外部に出力する。
信頼度特定部65は、画像検索部3により検索されたギャラリ画像g’の数が複数であり、取得した距離クラスCL’についての信頼度D’の数が複数であれば、画像検索部3による検索の信頼度D’として、複数の距離クラスCL’についての信頼度D’の平均値、あるいは、中央値等を算出する。
信頼度特定部65は、画像検索部3による検索の信頼度D’を外部に出力することによって、例えば、画像検索部3による検索の信頼度D’をディスプレイ等に表示させる。
以上の実施の形態3では、信頼度取得部64が、クエリ画像を第2の学習モデル66に与えて、第2の学習モデル66から、クエリ画像に含まれている被写体を含んでいる可能性が相対的に高いK個のギャラリ画像が検索された際の検索の信頼度として、複数の距離クラスについての信頼度を取得し、信頼度特定部65が、信頼度取得部64により取得された複数の距離クラスについての信頼度の中から、画像検索部3により検索されたK個のギャラリ画像が含まれている距離クラスについての信頼度を取得し、取得した距離クラスについての信頼度から、画像検索部3による検索の信頼度を算出するように、図16に示す画像検索装置を構成した。したがって、図16に示す画像検索装置は、図1に示す画像検索装置と同様に、画像検索部3による検索の信頼度を確認することができる。
なお、本開示は、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
本開示は、画像検索装置及び画像検索方法に適している。
1 特徴ベクトル取得部、2,61,64 信頼度取得部、3 画像検索部、4,62,65 信頼度特定部、5 第1の学習モデル、6,63,66 第2の学習モデル、11 特徴ベクトル取得回路、12,15,17 信頼度取得回路、13 画像検索回路、14,16,18 信頼度特定回路、21 メモリ、22 プロセッサ、31 第1の学習モデル生成部、32,33,34 第2の学習モデル生成部、41 第1の学習モデル生成回路、42,43,44 第2の学習モデル生成回路、51 メモリ、52 プロセッサ。

Claims (5)

  1. 識別対象の画像であるクエリ画像を第1の学習モデルに与えて、前記第1の学習モデルから、前記クエリ画像の特徴ベクトルを取得し、複数の被識別対象の画像であるギャラリ画像のそれぞれを前記第1の学習モデルに与えて、前記第1の学習モデルから、それぞれのギャラリ画像の特徴ベクトルを取得する特徴ベクトル取得部と、
    前記クエリ画像を第2の学習モデルに与えて、前記第2の学習モデルから、前記複数のギャラリ画像の中で、前記クエリ画像に含まれている被写体を含んでいる可能性が相対的に高いK(Kは、1以上の整数)個のギャラリ画像が検索された際の検索の信頼度を取得する信頼度取得部と、
    前記特徴ベクトル取得部により取得されたクエリ画像の特徴ベクトルとそれぞれのギャラリ画像の特徴ベクトルとに基づいて、前記複数のギャラリ画像の中から、前記K個のギャラリ画像を検索する画像検索部と、
    前記信頼度取得部により取得された信頼度から、前記画像検索部による検索の信頼度を特定する信頼度特定部と
    を備えた画像検索装置。
  2. 前記第2の学習モデルは、
    学習用画像群に含まれている複数の学習用の画像である学習用画像のそれぞれが順番に基準画像として与えられ、前記学習用画像群に含まれている、前記基準画像以外の学習用画像の中から、前記基準画像に含まれている被写体を含んでいる可能性が相対的に高いK個の学習用画像が検索された際の検索の信頼度が教師データとして与えられたときに、前記信頼度の学習が行われた学習モデルであることを特徴とする請求項1記載の画像検索装置。
  3. 複数の学習用の画像である学習用画像が信頼度別にグループ分けされており、
    前記第2の学習モデルは、
    それぞれの学習用画像が与えられ、それぞれの学習用画像が含まれているグループについての信頼度が教師データとして与えられたときに、前記信頼度の学習が行われた学習モデルであり、
    前記信頼度取得部は、
    前記クエリ画像を前記第2の学習モデルに与えて、前記第2の学習モデルから、前記クエリ画像に含まれている被写体を含んでいる可能性が相対的に高いK個のギャラリ画像が検索された際の検索の信頼度として、グループについての信頼度を取得し、
    前記信頼度特定部は、
    前記信頼度取得部により取得されたグループについての信頼度から、前記画像検索部による検索の信頼度を特定することを特徴とする請求項1記載の画像検索装置。
  4. 学習用画像群に含まれている複数の学習用の画像である学習用画像のそれぞれが順番に基準画像であるとして、それぞれの基準画像と、前記学習用画像群に含まれている、当該基準画像以外のそれぞれの学習用画像との類似度が、当該基準画像の画像空間上の位置とそれぞれの学習用画像の画像空間上の位置との間の距離で表され、それぞれの学習用画像が、当該基準画像との距離によって、複数の距離クラスの中のいずれかの距離クラスに分類されており、
    前記第2の学習モデルは、
    それぞれの基準画像が与えられ、複数の距離クラスについての信頼度が教師データとして与えられたときに、前記信頼度の学習が行われた学習モデルであり、
    前記信頼度取得部は、
    前記クエリ画像を前記第2の学習モデルに与えて、前記第2の学習モデルから、前記クエリ画像に含まれている被写体を含んでいる可能性が相対的に高いK個のギャラリ画像が検索された際の検索の信頼度として、複数の距離クラスについての信頼度を取得し、
    前記信頼度特定部は、
    前記信頼度取得部により取得された複数の距離クラスについての信頼度の中から、前記画像検索部により検索されたK個のギャラリ画像が含まれている距離クラスについての信頼度を取得し、取得した距離クラスについての信頼度から、前記画像検索部による検索の信頼度を特定することを特徴とする請求項1記載の画像検索装置。
  5. 特徴ベクトル取得部が、識別対象の画像であるクエリ画像を第1の学習モデルに与えて、前記第1の学習モデルから、前記クエリ画像の特徴ベクトルを取得し、複数の被識別対象の画像であるギャラリ画像のそれぞれを前記第1の学習モデルに与えて、前記第1の学習モデルから、それぞれのギャラリ画像の特徴ベクトルを取得し、
    信頼度取得部が、前記クエリ画像を第2の学習モデルに与えて、前記第2の学習モデルから、前記複数のギャラリ画像の中で、前記クエリ画像に含まれている被写体を含んでいる可能性が相対的に高いK(Kは、1以上の整数)個のギャラリ画像が検索された際の検索の信頼度を取得し、
    画像検索部が、前記特徴ベクトル取得部により取得されたクエリ画像の特徴ベクトルとそれぞれのギャラリ画像の特徴ベクトルとに基づいて、前記複数のギャラリ画像の中から、前記K個のギャラリ画像を検索し、
    信頼度特定部が、前記信頼度取得部により取得された信頼度から、前記画像検索部による検索の信頼度を特定する
    画像検索方法。
JP2023540860A 2021-08-26 2021-08-26 画像検索装置及び画像検索方法 Active JP7341381B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/031270 WO2023026420A1 (ja) 2021-08-26 2021-08-26 画像検索装置及び画像検索方法

Publications (2)

Publication Number Publication Date
JPWO2023026420A1 JPWO2023026420A1 (ja) 2023-03-02
JP7341381B2 true JP7341381B2 (ja) 2023-09-08

Family

ID=85322878

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023540860A Active JP7341381B2 (ja) 2021-08-26 2021-08-26 画像検索装置及び画像検索方法

Country Status (4)

Country Link
US (1) US20240160661A1 (ja)
JP (1) JP7341381B2 (ja)
GB (1) GB2624562A (ja)
WO (1) WO2023026420A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009075868A (ja) 2007-09-20 2009-04-09 Toshiba Corp 画像から対象を検出する装置、方法およびプログラム
JP2015201041A (ja) 2014-04-08 2015-11-12 日本電信電話株式会社 ハッシュ関数生成方法、ハッシュ値生成方法、装置、及びプログラム
US10176198B1 (en) 2016-05-09 2019-01-08 A9.Com, Inc. Techniques for identifying visually similar content
CN109685075A (zh) 2018-11-27 2019-04-26 山东鲁能软件技术有限公司 一种基于图像的电力设备识别方法、装置及系统
JP2019200734A (ja) 2018-05-18 2019-11-21 富士通株式会社 情報処理プログラム、情報処理方法、および情報処理装置
JP2021508899A (ja) 2018-04-19 2021-03-11 深▲セン▼市商湯科技有限公司Shenzhen Sensetime Technology Co.,Ltd. 画像検索方法、画像検索装置、電子機器、記憶媒体及びプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009075868A (ja) 2007-09-20 2009-04-09 Toshiba Corp 画像から対象を検出する装置、方法およびプログラム
JP2015201041A (ja) 2014-04-08 2015-11-12 日本電信電話株式会社 ハッシュ関数生成方法、ハッシュ値生成方法、装置、及びプログラム
US10176198B1 (en) 2016-05-09 2019-01-08 A9.Com, Inc. Techniques for identifying visually similar content
JP2021508899A (ja) 2018-04-19 2021-03-11 深▲セン▼市商湯科技有限公司Shenzhen Sensetime Technology Co.,Ltd. 画像検索方法、画像検索装置、電子機器、記憶媒体及びプログラム
JP2019200734A (ja) 2018-05-18 2019-11-21 富士通株式会社 情報処理プログラム、情報処理方法、および情報処理装置
CN109685075A (zh) 2018-11-27 2019-04-26 山东鲁能软件技术有限公司 一种基于图像的电力设备识别方法、装置及系统

Also Published As

Publication number Publication date
JPWO2023026420A1 (ja) 2023-03-02
GB2624562A (en) 2024-05-22
US20240160661A1 (en) 2024-05-16
WO2023026420A1 (ja) 2023-03-02

Similar Documents

Publication Publication Date Title
EP2973402B1 (en) Systems, methods, and computer-readable media for identifying when a subject is likely to be affected by a medical condition
JP4560832B2 (ja) 3次元物体モデルを用いた画像照合システム及び画像照合プログラム
JPWO2017017722A1 (ja) 処理装置、処理方法及びプログラム
WO2020062493A1 (zh) 图像处理方法和装置
US20200202139A1 (en) Crowd state recognition device, learning method, and learning program
US20110216954A1 (en) Hierarchical atlas-based segmentation
Xiang et al. Towards interpretable skin lesion classification with deep learning models
CN111784776B (zh) 视觉定位方法及装置、计算机可读介质和电子设备
JP2010531010A (ja) 画像と形状記述子とのマッチング
CN113408566A (zh) 目标检测方法及相关设备
US20230237777A1 (en) Information processing apparatus, learning apparatus, image recognition apparatus, information processing method, learning method, image recognition method, and non-transitory-computer-readable storage medium
JP2016157166A (ja) 画像処理プログラム、画像処理装置、及び画像処理方法
US20180342071A1 (en) Moving object tracking apparatus, moving object tracking method, and computer program product
WO2014206722A1 (en) Method and apparatus for generating image alignment data
Ann et al. Multi-scale conditional generative adversarial network for small-sized lung nodules using class activation region influence maximization
JP7341381B2 (ja) 画像検索装置及び画像検索方法
JP2015041293A (ja) 画像認識装置および画像認識方法
JPWO2013088807A1 (ja) 症例ごとの代表画像及び読影情報を生成する方法、装置及びコンピュータプログラム
JP6855175B2 (ja) 画像処理装置、画像処理方法およびプログラム
JP6989873B2 (ja) システム、画像認識方法、及び計算機
CN114079801A (zh) 按需将元数据叠加到视频流上以进行智能视频分析
JP7106144B2 (ja) 画像解析装置
CN112598074A (zh) 图像处理方法及装置、计算机可读存储介质和电子设备
CN112634143A (zh) 图像色彩校正模型训练方法、装置及电子设备
JP6919276B2 (ja) 画像表示プログラム、画像表示装置および画像表示方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230704

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20230704

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230801

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230829

R150 Certificate of patent or registration of utility model

Ref document number: 7341381

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150