JP5151394B2 - 情報管理装置、情報管理方法、及びプログラム - Google Patents

情報管理装置、情報管理方法、及びプログラム Download PDF

Info

Publication number
JP5151394B2
JP5151394B2 JP2007277763A JP2007277763A JP5151394B2 JP 5151394 B2 JP5151394 B2 JP 5151394B2 JP 2007277763 A JP2007277763 A JP 2007277763A JP 2007277763 A JP2007277763 A JP 2007277763A JP 5151394 B2 JP5151394 B2 JP 5151394B2
Authority
JP
Japan
Prior art keywords
feature
similar
feature amount
feature quantity
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007277763A
Other languages
English (en)
Other versions
JP2009104533A (ja
Inventor
雅二郎 岩崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2007277763A priority Critical patent/JP5151394B2/ja
Priority to US12/251,729 priority patent/US8422831B2/en
Publication of JP2009104533A publication Critical patent/JP2009104533A/ja
Application granted granted Critical
Publication of JP5151394B2 publication Critical patent/JP5151394B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)

Description

本発明は、情報管理装置、情報管理方法、及びプログラムに関する。
近年、特定の画像を検索条件とし、当該画像に類似する画像を画像データベースから検索する類似画像検索の技術が提案され、製品として実現されている。
一般に、類似画像検索技術では、画像を解析して得られた画像の特徴を示す情報である特徴量を画像登録時に画像と同時に登録する。類似する画像の検索時には、特徴量の類似度を算出し、類似度が所定の閾値より大きい特徴量と対応づけられた画像を類似する画像として検索する。
特徴量の抽出方法として、例えば特許文献1では、人間が受ける類似感覚に適合した類似画像を検索できるようにするため、人間の感覚に即した特徴量を自動的に抽出可能とする特徴量抽出技術が提案されている。
このような特徴量を用いた類似画像検索技術では、特徴量自体は画像登録時に抽出して保管しておき、検索時には画像を参照せずに特徴量のみを用いて検索を行うことができるため、比較的高速に類似画像情報の検索を実行することができる。
但し、上述のような類似画像検索技術では、検索時に登録されている全ての画像の特徴量との類似度を逐一計算することになるため、登録画像数が増加するとともに検索処理速度が低下するという問題があった。
そこで、特許文献2には、画像の登録時に画像データベースから予め当該画像と類似する画像のリストを検索し、保持しておき、検索時には当該リストを用いて類似する画像を検索する技術が提案されている。斯かる技術によれば、検索時における類似度の算出処理が不要となるため、登録画像数が増加した場合であっても類似画像の検索処理を高速化することができる。
特開2000−187731号公報 特開2007−80210号公報
しかしながら、特許文献2に記載された技術では、予め蓄積された画像に類似する画像を高速に検索することは可能であるが、蓄積されていない画像に類似する画像の検索については対象とされていない。
本発明は、上記の点に鑑みてなされたものであって、類似する情報の検索を適切に高速化することのできる情報管理装置、情報管理方法、及びプログラムの提供を目的とする。
そこで上記課題を解決するため、本発明は、情報ごとに特徴量を管理する特徴量管理手段と、前記特徴量管理手段に管理されている特徴量の中で類似する特徴量との関連付けを前記特徴量ごとに保持する特徴量関連付け手段と、前記特徴量管理手段に管理されている特徴量の空間インデックスを管理する空間インデックス管理手段と、第一の特徴量と類似する特徴量の検索要求に応じ、前記空間インデックスにおいて第一の特徴量が属する部分空間を判定する部分空間判定手段と、前記部分空間に属する前記第一の特徴量以外の第二の特徴量と、該第二の特徴量と前記特徴量関連付け手段によって関連付けられている第三の特徴量とについて前記第一の特徴量との類似度を算出し、算出された類似度と所定の閾値との比較に基づいて前記第一の特徴量と類似する特徴量を判定する類似判定手段とを有することを特徴とする。
このような情報管理装置では、類似する情報の検索を適切に高速化することができる。
本発明によれば、類似する情報の検索を適切に高速化することのできる情報管理装置、情報管理方法、及びプログラムを提供することができる。
以下、図面に基づいて本発明の実施の形態を説明する。本実施の形態では情報として画像情報を登録し、画像情報に類似する画像を検索する類似画像検索処理に本発明を適用した例について説明する。なお、扱う情報は画像情報に限られるものではなく、特徴量を比較することにより類似情報を検索するものであればあらゆる情報を対象とすることができる。例えば、文書データ、音声データ、動画データ、情報を解析して出力された解析データなどの管理に本発明を適用するように構成してもよい。
図1は、本発明の実施の形態における情報管理装置の機能構成例を示す図である。同図において、情報管理装置100は、検索条件の入力や検索結果の表示を行うユーザI/F201を備えた複数のクライアントPC(Personal Computer)200a、200b(以下、単にクライアントPCという。)と、インターネット又はLAN(Local Area Network)等のネットワーク(有線又は無線の別は問わない。)を介して接続されている。
情報管理装置100は、主要なハードウェアとして、ハードディスクドライブ(HDD:Hard Disk Drive)120を備えている。また、主要なソフトウェアプログラムとして、入出力制御部101と、特徴量抽出部102と、登録部103と、削除部104と、検索部105と、類似度算出部106と、インデックス生成部107とを備えている。これら各部は、RAM110上にロードされ、非図示のCPUにその機能を実現するための処理を実行させる。
HDD120は、画像データ記憶部121と、メタデータDB(Data Base)122と、特徴量DB123と、類似情報リストDB124と、特徴量インデックス125とを格納する記憶手段である。なお、記憶手段はHDDに限られるものではなく、光ディスク、メモリカードなどの一般的に利用されているあらゆる記憶手段により構成することができる。
画像データ記憶部121は、画像データそのものを格納する記憶部である。格納する方法としては、OS(Operating System)が提供するファイルシステム上に格納する方法、画像データを格納する画像データベース上に格納する方法などの一般的に利用されているあらゆる方法を適用することができる。
メタデータDB122は、画像データの属性を表すメタデータを格納する記憶部である。図2は、メタデータDBのデータ構造の一例を示す図である。同図に示されるように、メタデータDB122は、画像IDと、画像データのメタデータの一例である画像ファイル名とを対応づけて格納している。
なお、メタデータは画像ファイル名に限られるものではなく、画像データの属性を表すものであればあらゆる情報をメタデータとして格納することができる。
画像ファイル名は、画像データ記憶部121のいずれの位置に画像が保存されているかを識別するために利用される。なお、画像データを外部システムに記憶し、画像ファイル名に当該外部システムを識別する情報を含めるように構成してもよい。例えば、画像データをインターネット上の外部サーバに保存し、画像ファイル名をURL(Uniform Resource Locator)で表すことにより、外部システムに保存されている画像情報を管理できるように構成してもよい。
特徴量DB123は、画像データ記憶部121に記憶されている画像の特徴量を格納する記憶部である。図3は、特徴量DBのデータ構造の一例を示す図である。同図に示されるように、特徴量DB123は、画像IDと、画像の特徴量とを対応づけて格納している。
画像の特徴量としては、例えば、画像のカラーヒストグラムなどのベクトルデータが利用できる。同図では、画像ID=1で識別される画像の特徴量のベクトルデータが[a1,a2,…,an]、画像ID=2で識別される画像の特徴量のベクトルデータが[b1,b2,…,bn](nは整数)で表された例が示されている。なお、画像の特徴量としては、色合い、色の分布、構図、模様などの一般的に利用されているあらゆる特徴量を保存することができる。なお、特徴量は必ずしも元となる情報(本実施の形態では画像)と異なる形式でなくてもよい。元となる情報によって類似度の判定が可能であれば、元となる情報そのものを特徴量として扱ってもよい。
類似情報リストDB124は、画像データ記憶部121に記憶されている各画像について、特徴量が類似すると判断された類似情報を格納するものである。図4は、類似情報リストDB124のデータ構造の一例を示す図である。同図に示されるように、類似情報リストDB124は、画像IDと、類似する画像の画像IDである類似画像IDおよび類似度の組を少なくとも1つ含む類似情報リストとを対応づけて格納している。類似度の算出方法については後述する。
図5は、類似情報リストDB124のデータ構造の別の一例を示す図である。同図に示す例では、類似情報リストDB124は、画像IDと、類似画像IDと、類似度とを対応づけて格納している。このように構成しても、1つの画像に対して複数の類似情報を格納することができる。
なお、この場合は、同一の画像IDに対応づけられている類似画像IDと類似度との組を少なくとも1つ含む情報が、本実施の形態における類似情報リストに相当する。例えば、図5に示す例では、画像ID=1に対応づけられた類似情報リストは、類似画像IDおよび類似度がそれぞれ2と0.10との組、および、10と0.11との組を含む情報である。
類似情報リストDB124に事前に類似情報を登録しておくことにより、検索時に特徴量の類似度を算出して類似情報を検索する必要がなくなり、検索処理の高速化を実現することが可能となる。
特徴量インデックス125は、特徴量DB123に含まれる特徴量を分類する空間インデックスである。特徴量の分類は、特徴量のベクトル空間(特徴量空間)を分割することによって行われる。例えば、図6は、VP−treeによる特徴量空間の分割例を示す図である。
図6では、特徴量空間300を2次元で表現している(なお、実際には、多次元となる)。同図において、各点は特徴量を示す。円弧は、特徴量空間300が分割される境界線を示す。特徴量空間300の分割は、特徴量の数が2分されるように行われる。例えば、円弧A1によって、特徴量空間300が二つの部分空間に二分されている。また、円弧A1によって分割された一方の部分空間は、円弧A2によって二分されている。斯かる分割が繰り返されることにより、図6に示されるような部分空間が形成される。なお、特徴量空間300において、二つの特徴量の類似度は、当該二つの特徴量の距離に相当する。
図6に示される各部分空間及び特徴量の関係は、木構造(2分木)によって表現することができる。この木構造を表現する情報が特徴量インデックス125に相当する。
図7は、特徴量インデックスの構成例を示す図である。同図において、ノードNn(nは正の整数)は特徴量空間を示し、ノードEn(nは正の整数)は、特徴量を示す。例えば、ノードN1が図6における特徴量空間300であるとすれば、ノードN2及びN3は、円弧A1によって分割される部分空間を示す。また、ノードN4及びN5は、円弧A2によって分割される部分空間を示す。但し、図7は、図6に完全には対応していない。
斯かる木構造において部分空間に対応するノードの中で、末端のノードは最小単位の部分空間となる。すなわち、最小単位の部分空間とは、一つの部分空間のみを含む部分空間をいう。図示されるように、特徴量を示すノードEnは、最小単位の部分空間のノードに属する。なお、以下において、単に「部分空間」というとき、最小単位の部分空間を意味することとする。
このような情報によって構成される特徴量インデックス125によれば、木構造をたどることにより、或る特徴量が属する部分空間を探索する際の計算量を減少させることができる。これは、一般的な二分木探索と同じ原理である。
入出力制御部101は、クライアントPCを介して利用者により指示された画像の登録・検索の入力処理、および、検索結果などをクライアントPCに出力する処理の制御を行う。
特徴量抽出部102は、画像データよりその特徴量を抽出する。特徴量を抽出する方法としては、色のヒストグラムを特徴量として抽出する特許文献1の方法などの、従来から用いられているあらゆる方法を適用することができる。なお、元となる情報をそのまま特徴量として扱う場合、特徴量抽出部102は不要である。
登録部103は、画像データの登録要求に応じ、画像データ記憶部121、メタデータDB122、特徴量DB123、類似度情報リストDB124、及び特徴量インデックス125に対するデータの登録処理を実行する。
削除部104は、画像データの削除要求に応じ、画像データ記憶部121、メタデータDB122、特徴量DB123、類似情報リストDB124、及び特徴量インデックス125よりデータを削除する処理を実行する。
類似度算出部106は、特徴量抽出部102が抽出した登録する情報の特徴量と、特徴量DBに登録されている既存の情報の特徴量とを比較し、両者の類似する度合いを示す類似度を算出する。
例えば、類似度算出部106は、比較する特徴量のベクトルデータを{a1,a2,…,an}および{b1,b2,…,bn}とすると、以下の(1)式により類似度Sを算出する。
S=Σ|ai−bi| ・・・(1)
上記の類似度Sは、特徴量のベクトルデータの各成分の差の絶対値の和により算出されるため、類似度Sが小さいほど両者は類似していることを意味する。
ベクトルデータの各要素は、一般に浮動小数点の形式で表現されている。また、画像データの特徴量としてのベクトルデータは、一般に100次元〜200次元のデータであり、データサイズとしては、1.5kバイト〜2.0kバイトとなる。したがって、(1)式で表される類似度算出処理は、高負荷のかかる演算処理となる。
インデックス生成部107は、画像データの登録時に、当該画像データの特徴量に基づいて、特徴量インデックス125を更新する。
検索部105は、主に、特徴量インデックス125及び類似情報リストDB124を用いて検索の種(検索条件)とされた画像データの特徴量に類似する特徴量を検索する。また、検索部105は、必要に応じ、検索された特徴量に係る画像データに関するデータを画像データ記憶部121及びメタデータDB122等より検索する。
以下、情報管理装置100の処理手順について説明する。最初に、類似画像の検索処理について説明する。当該検索処理については、まず、図8を用いて概念的に説明する。
図8は、類似画像の検索処理を概念的に説明するための図である。図8において、400によって示される矩形は、特徴量インデックス125における特徴量空間を2次元空間上に表現したものである。なお、図8では、図6と異なり部分空間が直線によって分割されているが、これは、便宜的なものである。図8において、点Sは、検索条件として与えられる(検索の種となる)画像データ(以下、「種画像」という。)の特徴量(以下、「特徴量S」という。)を示す。特徴量S以外の点は、既に、特徴量インデックス125において部分空間に分類されている特徴量を示す。点Sを中心とした実線の円c1は、検索条件として与えられる類似度(以下「類似条件」という。)によって形成される検索円である。すなわち、図8では、検索円c1内に含まれる特徴量を探し出す(検索する)例を説明する。なお、例えば、特徴量空間400の幅を「1.0」、高さを「1.0」とした場合、類似条件として指定されうる値は、0より大きく1.0より小さい値である。例えば、「0.2」が類似条件として与えられた場合、検索円c1は、0.2を半径とする円となる。
検索円c1内に含まれる特徴量を検索する場合、情報管理装置100は、まず、特徴量Sが属する部分空間401を特徴量インデックス125を用いて特定する。続いて、情報管理装置100は、部分空間401に含まれる特徴量401a、401b、及び401c(以下、総称する場合「特徴量401」という。)のそれぞれについて特徴量Sとの類似度(距離)を算出し、検索円c1内に存在するか否かを判定する。つまり、算出された類似度と、検索条件として与えられる類似度とを用いて、特徴量401のそれぞれについて検索円c1内に存在するか否かを判定する。情報管理装置100は、検索円c1内に存在する特徴量(図中では、特徴量401b)に対応する画像ID及び類似度を検索結果として保持する。
ところで、特徴量Sが属する部分空間401は、特徴量インデックス125に基づいて高速に特定されうるが、検索円c1の範囲は、部分空間401以外の部分空間に跨るものである。したがって、部分空間401以外の部分空間にも、検索円c1内に含まれる(すなわち、検索条件に合致する)特徴量は存在しうる。よって、この時点における検索結果には、検索漏れが存在する可能性が高い。そこで、情報管理装置100は、次のような処理を行うことにより、出来るだけ少ない計算量によって、他の部分空間に属する特徴量の中から検索円c1に含まれる特徴量を検索する。
まず、情報管理装置100は、特徴量401のそれぞれについて、類似情報リストDB124の類似情報リストに含まれている特徴量を取得する。この処理は、図中において特徴量401のそれぞれを中心とした破線の円に含まれる特徴量を取得することに相当する。したがって、特徴量402a、402b、402c、402d、及び402e(以下、総称する場合「特徴量402」という。)が取得される。なお、情報管理装置100は、類似情報リストに含まれている全ての特徴量を取得せずに、関連づけられている類似度が、検索条件として与えられた類似度(本実施の形態においては0.2)以下の特徴量のみを取得する構成としても良い。かかる構成を採用することにより、処理速度の高速化を量ることができる。
情報管理装置100は、特徴量402のそれぞれについて特徴量Sとの類似度を算出し、検索円c1内に存在するか否かを判定する。情報管理装置100は、検索円c1内に存在する特徴量(図中では、特徴量402b)に対応する画像ID及び類似度を検索結果として保持する。
続いて、情報管理装置100は、特徴量402のそれぞれについても類似情報リストDB124の類似情報リストに含まれている特徴量を取得する。したがって、図中において、特徴量402のそれぞれを中心とした一点鎖線の円に含まれる特徴量403a、403b、403c、403d、403e、及び403f(以下、総称する場合「特徴量403」という。)が取得される。情報管理装置100は、特徴量403のそれぞれについて特徴量Sとの類似度を算出し、検索円c1内に存在するか否かを判定する。情報管理装置100は、検索円c1内に存在する特徴量(図中では、特徴量403c)に対応する画像ID及び類似度を検索結果として保持する。
続いて、情報管理装置100は、特徴量403のそれぞれについても類似情報リストDB124の類似情報リストに含まれている特徴量を取得する。したがって、図中において、特徴量403のそれぞれを中心とした点線の円に含まれる特徴量404a、404b、404c、及び404d(以下、総称する場合「特徴量404」という。)が取得される。情報管理装置100は、特徴量404のそれぞれについて特徴量Sとの類似度を算出し、検索円c1内に存在するか否かを判定する。ここで、特徴量404の中で、検索円c1内に存在する特徴量は存在しないため、情報管理装置100は、類似画像の検索処理を終了させる。したがって、図8の例では、特徴量401b、特徴量402b、及び特徴量403cに対応する画像ID及び類似度が検索結果として出力される。
このように、類似情報リストを用いて再帰的に取得される特徴量を類似の判定対象とすることにより、部分領域401以外の部分領域であって、部分領域に近接する部分領域に含まれる特徴量についても類似の判定対象とすることができる。したがって、検索処理を高速化させつつ検索漏れの数を低減させることができる。
以下、フローチャートを用いて処理内容について具体的に説明する。図9は、類似画像の検索処理を説明するためのフローチャートである。
ステップS101において、入出力制御部101は、種画像と類似条件とをクライアントPCより受信する。種画像と類似条件とは、例えば、クライアントPCにおいてユーザI/F201を介して利用者によって指定又は入力される。なお、ここで指定される種画像は、情報管理装置100に登録されていないものであってもよい。また、類似条件は、クライアントPCより受信されるのではなく、情報管理装置100のHDD120内に予め設定されていてもよい。
続いて、特徴量抽出部106は、種画像の特徴量を種画像より抽出する(種画像の特徴量を種画像に基づいて生成する)(S102)。続いて、検索部105は、特徴量インデックス125において特徴量Sが分類される(属する)部分空間を特徴量インデックス125を用いて特定する(特徴量Sがいずれの部分空間に属するのかを判定する)(S103)。
続いて、検索部105は、特定された部分空間に関連付けられている画像IDを特徴量インデックス125より取得し、当該画像IDに対応付けられている特徴量を特徴量DB123より取得し、取得された特徴量及びその画像IDによって対象特徴量集合(特徴量Sとの類似の判定対象とされる特徴量及び画像IDの集合)を初期化する(S104)。
続いて、類似度算出部106は、対象特徴量集合に含まれている全ての特徴量について、特徴量Sとの類似度(距離)を算出する(S105)。続いて検索部105は、算出された類似度が、類似条件に指定された類似度以下であるか否かを判定する(S106)。類似条件を満たす特徴量が存在する場合(S106でYes)、検索部105は、類似条件を満たす特徴量に係る画像ID及び類似度を検索結果に追加する(S107)。
続いて、検索部105は、対象特徴量集合を探索済特徴量集合として退避する(S108)。探索済特徴量集合は、特徴量Sとの類似度の判定が既に行われた特徴量及び画像IDの集合である。続いて、検索部105は、探索済特徴量集合に含まれる各特徴量に対応する類似情報リストを各特徴量の画像IDに基づいて類似情報リストDB124より取得し、取得された類似情報リストに含まれている類似画像ID(画像ID)に対応する特徴量を特徴量DB123より取得し、取得された特徴量とその画像IDとによって対象特徴量集合を更新する(S109)。
続いて、検索部105は、対象特徴量集合における重複を除去する(S110)。すなわち、複数の類似情報リストに含まれている特徴量が存在する場合、対象特徴量集合には、同一の特徴量が二つ以上存在するからである。当該重複が除去されることにより、同一の特徴量について、重複して特徴量Sとの類似度の算出が行われるといった無駄の発生が回避される。
続いて、検索部105は、対象特徴量集合から探索済特徴量集合に含まれる特徴量及びその画像IDを除去する(S111)。これによって、既に特徴量Sとの類似度の算出が行われた特徴量について、再度類似度の算出が行われるといった無駄の発生が回避される。
続いて、新たな対象特徴量集合に基づいて、ステップS105以降の処理が実行される。すなわち、類似情報リストに含まれている特徴量について、再帰的に類似度の算出及び、類似条件を満たすか否かの判定等が行われる。
再帰的に処理が行われる過程において、対象特徴量集合内に含まれる特徴量の中で、類似条件を満たす特徴量が存在しない状況が発生した場合(S106でNo)、検索部105は、ループ処理(再帰処理)を抜ける。
但し、ループ処理の終了条件はこれだけに限定されない。例えば、ステップS107〜S111を一回だけ行った後、ループを抜けるようにしてもよい。この場合、特徴量Sと同じ部分空間に属する特徴量と、その特徴量に類似する特徴量とが類似の判定対象となる。また、単純に繰り返し(再帰)の回数が予め設定された値に到達したときにループ処理を抜けるようにしてもよい。この場合、検索結果に漏れが生じる可能性が高くなるが高速に検索することが可能である。また、類似条件(検索円)内の特徴量が存在しない状況が、予め指定された回数に到達したとき、又は所定回数連続したときにループ処理を抜けるようにしてもよい。そうすることにより、検索漏れの可能性を低減させることができるとともに、検索に対して一定の高速性を保つことができる。
続いて、検索部105は、検索結果に含まれている画像IDに対応する画像ファイル名をメタデータDB122より取得する(S112)。続いて、検索部105は、取得した画像ファイル名に対応する画像データを画像データ記憶部121より取得し、取得された画像データを類似度に基づいてソートする(S113)。なお、外部システムに保存されている画像データの場合は、外部システムから画像ファイル名に対応する画像データを取得する。続いて、入出力制御部101は、取得された画像データをクライアントPCのユーザI/F201に送信する(S114)。クライアントPCのユーザI/F201は、受信した画像データを表示装置に表示させる。なお、ステップS114において、画像データの代わりにメタデータ(画像ファイル名)の一覧を送信するようにしてもよい。この場合、メタデータの一覧がクライアントPCにおいて表示される。当該一覧において選択された画像データを入出力制御部101がクライアントPCに送信するように送信するようにしてもよい。
上述したように、本実施の形態における情報管理装置100によれば、空間インデックスにおいて種画像が属する部分空間を特定し、その部分空間に属する特徴量及びその特徴量に類似する特徴量が種画像との類似度の算出対象とされる。したがって、特徴量DB123に登録されている全ての特徴量を類似度の算出対象とする場合に比べて、著しく計算量を減少させることができる。計算量の減少の程度は、蓄積されている特徴量及び特徴量の次元数に応じて異なるが、画像データの特徴量が一般的に100次元から200次元となることに鑑みれば、その程度は著しい。したがって、情報管理装置100によれば、未登録の種画像の類似画像検索処理を高速化させることができる。
また、類似情報リストに基づいて再帰的に取得される特徴量についても、類似度が算出され、類似条件を満たしているか否かが判定される。したがって、類似条件(検索円)が複数の部分領域に跨る場合であっても、検索漏れの数を低減させることができる。
なお、空間インデックス(特徴量インデックス125)の形式は、所定のものに限定されない。上記において示したVP−tree以外に、R−treeに基づくもの、M−treeに基づくもの等、公知における各種の空間インデックスを適用することができる。
すなわち、いずれかの形式の空間インデックスにおいて、種画像の特徴量が分類される部分空間が特定されれば、その後はその部分空間に含まれる特徴量及びその特徴量の類似情報リストに含まれる特徴量について類似度の算出を行い、当該類似度が類似条件を満たすか否かを判定等すればよい。
但し、M−treeによる場合、部分空間に重複が生じるような空間インデックスが形成される。したがって、この場合、種画像の特徴量が分類される部分空間が複数存在しうるが、複数の部分空間について、図9において説明した処理を実行すればよい。なお、特徴量のインデックス方式については、特開2000−112973等に詳しい。
次に、画像情報の登録時の処理手順について説明する。図10は、画像情報の登録処理を説明するためのフローチャートである。
まず、入出力制御部101は、クライアントPCより登録画像ファイルとそのメタデータ(ファイル名等)を受信する(S201)。登録画像ファイルは、例えば、クライアントPCにおいてユーザI/F201を介して利用者によって指定又は選択される。続いて、登録部103は、登録画像ファイルを画像データ記憶部121に保存すると共に、登録画像ファイルの画像IDと画像ファイル名とを対応づけてメタデータDB122に登録する(S202)。
続いて、特徴量抽出部102は、登録画像ファイルより画像データ(登録画像)を読込み(S203)、登録画像の特徴量を抽出(生成)する(S204)。抽出した特徴量は、上述のようにベクトルデータとして出力される。続いて、インデックス生成部107は、登録画像ファイルの画像IDを、登録画像の特徴量に基づいて特徴量インデックス125に登録する(S205)。
続いて、情報管理装置100は、登録画像について類似画像検索処理を実行する(S206)。当該検索処理は、図9において説明した通りである。但し、ここでは、登録画像が種画像とされ、また、予めHDD120内に設定されている類似度(例えば、0.3等)が類似条件とされる。
続いて、登録部103は、類似画像検索処理で出力された画像ID(類似画像ID)と類似度との集合を類似情報リストとして類似情報リストDB124に登録する(S207)。続いて、情報管理装置100は、既に登録されている画像ファイルに対する類似情報リストの更新処理を実行する(S208)。類似情報リストの更新処理の詳細については後述する。
続いて、登録部103は、ステップS204で特徴量抽出部102が抽出した特徴量を特徴量DB123に登録し(S209)、登録処理を終了する。
このように、本実施の形態では、類似情報リストの作成においても全ての特徴量との比較を行わず、図9において説明した類似画像検索処理によって類似画像を検索する。したがって、登録処理における処理負荷を軽減することが出来ると共に、類似情報リストの作成を伴う登録処理を高速化することができる。
なお、上述の例では画像情報の登録と同時に類似画像を検索及び類似情報リストの登録を行っているが、検索処理を実行する前であれば、図10の処理が完了した後に類似画像の検索及び類似情報リスト登録処理を実行してもよい。
次に、図10のステップS208における類似情報リスト更新処理の詳細について説明する。新規に登録した画像情報と、それに対する類似情報(既存の情報)は互いに類似する情報である。従って、既存の情報についての類似情報リストに、新規に登録した画像情報を追加する必要がある。この処理を行うのが類似情報リスト更新処理である。
図11は、類似情報リスト更新処理を説明するためのフローチャートである。
まず、検索部105は、登録画像の類似情報リストから類似画像IDを取得する(S301)。続いて、検索部105は、取得した類似画像IDに対応する類似情報リストを類似情報リストDB124から取得する(S302)。続いて、登録部103は、取得した類似情報リストに、登録する画像の画像IDと、ステップS206において出力された類似度とを対応づけた類似情報を追加する(S303)。
続いて、検索部105は、登録画像の類似情報リスト内の全てのデータを処理したか否かを判断し(S304)、全てのデータを処理していない場合は(S304でNo)、次の類似画像IDを取得して処理を繰り返す(S301)。
全てのデータを処理した場合(S304でYes)、類似情報リスト更新処理を終了する。
次に、情報管理装置100による情報の削除処理について説明する。図12は、削除処理を説明するためのフローチャートである。
まず、入出力制御部101は、削除の前提として、メタデータDB122に登録されている画像ファイル名の一覧をクライアントPCのユーザI/F201に表示させ(S401)、利用者による削除する画像の選択を受付ける(S402)。
続いて、検索部105は、利用者により選択された画像の類似情報リストを類似情報リストDB124から取得する(S403)。
続いて、検索部105は、類似情報リスト削除処理を実行する(S404)。類似情報リスト削除処理の詳細については後述する。
続いて、削除部104は、削除画像の画像ファイルを画像データ記憶部121より削除すると共にメタデータをメタデータDB122から削除し(S405)、削除画像の特徴量を特徴量DB123から削除し(S406)、削除画像の類似情報リストを類似情報リストDB124から削除する(S407)。
続いて、削除部104は、特徴量インデックス125より、削除画像の画像IDを削除し(S408)、削除処理を終了する。
次に、ステップS404における類似情報リスト削除処理の詳細について説明する。図13は、類似情報リスト削除処理を説明するためのフローチャートである。
まず、検索部105は、類似情報リストから類似画像IDを取得する(S501)。続いて、検索部105は、取得した類似画像IDに対応する類似情報リストを類似情報リストDB124から取得する(S502)。続いて、削除部104は、取得した類似情報リストから、削除画像IDと一致する類似情報IDを有する類似情報を削除する(S503)。続いて、検索部105は、削除画像の類似情報リスト内の全てのデータを処理したか否かを判断し(S504)、全てのデータを処理していない場合は(S504でNo)、次の類似画像IDを取得して処理を繰り返す(S501)。
全てのデータを処理した場合(S504でYes)、類似情報リスト削除処理を終了する。
削除処理において、類似情報リスト124及び特徴量インデックス125より削除画像に関する情報が削除されることにより、後の類似画像検索処理において画像データ記憶部121に画像ファイルが存在しない画像データが検索されるといった不整合の発生を防止することができる。
なお、本実施の形態において、類似情報リストDB124は、特徴量関連付け手段の一例であり、特徴量インデックス125は、空間インデックス管理手段の一例であり、検索部105によるステップS103は、部分空間判定手段の一例であり、検索部105によるステップS105〜S111は、類似判定手段の一例である。
以上、本発明の実施例について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
本発明の実施の形態における情報管理装置の機能構成例を示す図である。 メタデータDBのデータ構造の一例を示す図である。 特徴量DBのデータ構造の一例を示す図である。 類似情報リストDBのデータ構造の一例を示す図である。 類似情報リストDBのデータ構造の別の一例を示す図である。 VP−treeによる特徴量空間の分割例を示す図である。 特徴量インデックスの構成例を示す図である 類似画像の検索処理を概念的に説明するための図である。 類似画像の検索処理を説明するためのフローチャートである。 画像情報の登録処理を説明するためのフローチャートである。 類似情報リスト更新処理を説明するためのフローチャートである。 削除処理を説明するためのフローチャートである。 類似情報リスト削除処理を説明するためのフローチャートである。
符号の説明
100 情報管理装置
101 入出力制御部
102 特徴量抽出部
103 登録部
104 削除部
105 検索部
106 類似度算出部
107 インデックス生成部
120 HDD
121 画像データ記憶部
122 メタデータDB
123 特徴量DB
124 類似情報リストDB
125 特徴量インデックス
200a、200b クライアントPC
201 ユーザI/F

Claims (5)

  1. 情報ごとに特徴量を管理する特徴量管理手段と、
    前記特徴量管理手段に管理されている特徴量の中で類似する特徴量との関連付けを前記特徴量ごとに保持する特徴量関連付け手段と、
    前記特徴量管理手段に管理されている特徴量の空間インデックスを管理する空間インデックス管理手段と、
    第一の特徴量と類似する特徴量の検索要求に応じ、前記空間インデックスにおいて第一の特徴量が属する部分空間を判定する部分空間判定手段と、
    前記部分空間に属する前記第一の特徴量以外の第二の特徴量と、該第二の特徴量と前記特徴量関連付け手段によって関連付けられている第三の特徴量とについて前記第一の特徴量との類似度を算出し、算出された類似度と所定の閾値との比較に基づいて前記第一の特徴量と類似する特徴量を判定する類似判定手段とを有する情報管理装置であって、
    前記類似判定手段は、
    前記特徴量関連付け手段による関連付けに基づいて再帰的に特徴量を取得し、前記第一の特徴量と取得された特徴量との類似度を算出し、算出された類似度と所定の閾値との比較に応じて前記第一の特徴量と類似する特徴量を判定し、
    前記特徴量関連付け手段による関連付けに基づく再帰的な処理の過程において、一回に取得される特徴量の中で前記第一の特徴量と類似すると判定される特徴量が無いとき、前記再帰的な処理が所定回数行われたとき、一回に取得される特徴量の中で前記第一の特徴量と類似すると判定される特徴量が無いことが所定回数生じたとき、又は一回に取得される特徴量の中で前記第一の特徴量と類似すると判定される特徴量が無いことが所定回数連続したときは、前記再帰的な処理を終了させることを特徴とする情報管理装置。
  2. 新たな特徴量を前記特徴量管理手段に登録するときに、前記特徴量管理手段において管理されている特徴量の中で前記新たな特徴量と類似する特徴量を前記類似判定手段を用いて判定し、類似すると判定された特徴量と前記新たな特徴量との関連付けを前記特徴量関連付け手段に保持させることを特徴とする請求項記載の情報管理装置。
  3. 情報ごとに特徴量を管理する特徴量管理手段と、前記特徴量管理手段に管理されている特徴量の中で類似する特徴量との関連付けを前記特徴量ごとに保持する特徴量関連付け手段と、前記特徴量管理手段に管理されている特徴量の空間インデックスを管理する空間インデックス管理手段とを有するコンピュータが実行する情報管理方法であって、
    第一の特徴量と類似する特徴量の検索要求に応じ、前記空間インデックスにおいて第一の特徴量が属する部分空間を判定する部分空間判定手順と、
    前記部分空間に属する前記第一の特徴量以外の第二の特徴量と、該第二の特徴量と前記特徴量関連付け手段によって関連付けられている第三の特徴量とについて前記第一の特徴量との類似度を算出し、算出された類似度と所定の閾値との比較に基づいて前記第一の特徴量と類似する特徴量を判定する類似判定手順とを有し、
    前記類似判定手順は、
    前記特徴量関連付け手段による関連付けに基づいて再帰的に特徴量を取得し、前記第一の特徴量と取得された特徴量との類似度を算出し、算出された類似度と所定の閾値との比較に応じて前記第一の特徴量と類似する特徴量を判定し、
    前記特徴量関連付け手段による関連付けに基づく再帰的な処理の過程において、一回に取得される特徴量の中で前記第一の特徴量と類似すると判定される特徴量が無いとき、前記再帰的な処理が所定回数行われたとき、一回に取得される特徴量の中で前記第一の特徴量と類似すると判定される特徴量が無いことが所定回数生じたとき、又は一回に取得される特徴量の中で前記第一の特徴量と類似すると判定される特徴量が無いことが所定回数連続したときは、前記再帰的な処理を終了させることを特徴とする情報管理方法。
  4. 新たな特徴量を前記特徴量管理手段に登録するときに、前記特徴量管理手段において管理されている特徴量の中で前記新たな特徴量と類似する特徴量を前記類似判定手順を用いて判定し、類似すると判定された特徴量と前記新たな特徴量との関連付けを前記特徴量関連付け手段に保持させることを特徴とする請求項記載の情報管理方法。
  5. 請求項3又は4記載の情報管理方法をコンピュータに実行させるためのプログラム。
JP2007277763A 2007-10-25 2007-10-25 情報管理装置、情報管理方法、及びプログラム Expired - Fee Related JP5151394B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007277763A JP5151394B2 (ja) 2007-10-25 2007-10-25 情報管理装置、情報管理方法、及びプログラム
US12/251,729 US8422831B2 (en) 2007-10-25 2008-10-15 Information management apparatus, information management method, and computer readable medium which determine similarities

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007277763A JP5151394B2 (ja) 2007-10-25 2007-10-25 情報管理装置、情報管理方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2009104533A JP2009104533A (ja) 2009-05-14
JP5151394B2 true JP5151394B2 (ja) 2013-02-27

Family

ID=40582923

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007277763A Expired - Fee Related JP5151394B2 (ja) 2007-10-25 2007-10-25 情報管理装置、情報管理方法、及びプログラム

Country Status (2)

Country Link
US (1) US8422831B2 (ja)
JP (1) JP5151394B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8639034B2 (en) * 2010-11-19 2014-01-28 Ricoh Co., Ltd. Multimedia information retrieval system with progressive feature selection and submission
CN103279551B (zh) * 2013-06-06 2016-06-29 浙江大学 一种基于欧氏距离的高维数据准确近邻快速检索方法
JP2019049990A (ja) * 2013-11-15 2019-03-28 コリスタ・エルエルシーCorista Llc 連続画像処理
JP7331924B2 (ja) * 2019-05-27 2023-08-23 日本電気株式会社 検索装置、制御方法、及びプログラム

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69429743T2 (de) * 1993-06-29 2002-10-02 Koninkl Philips Electronics Nv Verfahren und Gerät zur Bestimmung einer Kontur in einem durch eine Dichteverteilung gekennzeichneten Raum
JPH0835818A (ja) * 1994-07-25 1996-02-06 Omron Corp 画像処理装置および方法
JP3598183B2 (ja) * 1996-10-16 2004-12-08 株式会社東芝 多次元データ管理方法、多次元データ管理装置、多次元データ管理プログラムを記録した媒体
JPH10162020A (ja) * 1996-12-03 1998-06-19 Ricoh Co Ltd 画像データベースのブラウジング方法
JPH11126259A (ja) * 1997-06-02 1999-05-11 Matsushita Electric Ind Co Ltd 画像検出方法、画像検出装置、画像処理方法、画像処理装置、及び媒体
JP3938815B2 (ja) 1998-10-02 2007-06-27 株式会社リコー ノード作成方法、画像検索方法及び記録媒体
JP2000187731A (ja) 1998-12-21 2000-07-04 Ricoh Co Ltd 画像特徴抽出方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
US6647139B1 (en) * 1999-02-18 2003-11-11 Matsushita Electric Industrial Co., Ltd. Method of object recognition, apparatus of the same and recording medium therefor
JP2001134593A (ja) * 1999-11-05 2001-05-18 Nippon Telegr & Teleph Corp <Ntt> 近傍データ検索方法及び装置及び近傍データ検索プログラムを格納した記憶媒体
US6446068B1 (en) * 1999-11-15 2002-09-03 Chris Alan Kortge System and method of finding near neighbors in large metric space databases
US7102786B2 (en) * 2000-10-05 2006-09-05 Matsushita Electric Industrial Co., Ltd. Image reading apparatus and processing apparatus
JP3860046B2 (ja) * 2002-02-15 2006-12-20 インターナショナル・ビジネス・マシーンズ・コーポレーション ランダムサンプル階層構造を用いた情報処理のためのプログラム、システムおよび記録媒体
JP4082043B2 (ja) * 2002-02-27 2008-04-30 富士ゼロックス株式会社 画像検索装置
US20050114331A1 (en) * 2003-11-26 2005-05-26 International Business Machines Corporation Near-neighbor search in pattern distance spaces
US8155451B2 (en) * 2004-11-12 2012-04-10 Kitakyushu Foundation For The Advancement Of Industry, Science And Technology Matching apparatus, image search system, and histogram approximate restoring unit, and matching method, image search method, and histogram approximate restoring method
JP4700452B2 (ja) 2005-09-16 2011-06-15 株式会社リコー 情報管理装置、情報管理方法、情報管理プログラムおよび記録媒体
JP4757001B2 (ja) * 2005-11-25 2011-08-24 キヤノン株式会社 画像処理装置、画像処理方法
JP4977452B2 (ja) * 2006-01-24 2012-07-18 株式会社リコー 情報管理装置、情報管理方法、情報管理プログラム、記録媒体及び情報管理システム
JP2007200014A (ja) * 2006-01-26 2007-08-09 Ricoh Co Ltd 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体
CN101231755B (zh) * 2007-01-25 2013-03-06 上海遥薇(集团)有限公司 运动目标跟踪及数量统计方法

Also Published As

Publication number Publication date
JP2009104533A (ja) 2009-05-14
US8422831B2 (en) 2013-04-16
US20090110293A1 (en) 2009-04-30

Similar Documents

Publication Publication Date Title
US7844139B2 (en) Information management apparatus, information management method, and computer program product
JP5798503B2 (ja) ファイルリスト生成方法及びシステム、ファイルリスト生成装置並びにプログラム
JP5503046B2 (ja) 形状に基づく画像検索
US5983246A (en) Distributed document classifying system and machine readable storage medium recording a program for document classifying
US20050234896A1 (en) Image retrieving apparatus, image retrieving method and image retrieving program
JP5759915B2 (ja) ファイルリスト生成方法及びシステム並びにプログラム、ファイルリスト生成装置
JP5711387B2 (ja) 映像を比較する方法および装置
JP2006338313A (ja) 類似画像検索方法,類似画像検索システム,類似画像検索プログラム及び記録媒体
JP5685324B2 (ja) 映像を比較する方法および装置
JP5151394B2 (ja) 情報管理装置、情報管理方法、及びプログラム
CN110795397B (zh) 一种地质资料包目录与文件类型自动识别方法
CN110968802B (zh) 一种用户特征的分析方法、分析装置及可读存储介质
JP5116017B2 (ja) 動画検索方法およびシステム
JP5408241B2 (ja) 情報処理装置、情報処理方法、プログラム
JP2010271903A (ja) 画像処理方法及び装置、並びに、そのためのコンピュータープログラム
US20120310944A1 (en) Dictionary creation device
JP2004192555A (ja) 情報管理方法、情報管理装置及び情報管理プログラム
CN110737794A (zh) 图像查询方法、系统、服务器及存储介质
JP6143462B2 (ja) 画像検索装置、画像検索方法、検索元画像提供装置、検索元画像提供方法、及びプログラム
CN106548118A (zh) 影院放映内容的识别检索方法及系统
JP5061147B2 (ja) 画像検索装置
JP6789253B2 (ja) 検索装置、検索方法、およびプログラム
JP4550398B2 (ja) 一連の画像に現れる物体の動きを表現する方法、一連の画像中の画像における物体の選択を識別する方法、画像に対応する信号を処理することによって一連の画像を探索する方法、及び装置
US20160103864A1 (en) Structured Information Differentiation in Naming
JP6336827B2 (ja) 画像検索装置、画像検索方法および検索システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100823

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120813

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120821

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120928

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121119

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151214

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151214

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees