JP2001052024A - 類似特徴量の検索方法及び装置及び類似特徴量の検索プログラムを格納した記憶媒体 - Google Patents

類似特徴量の検索方法及び装置及び類似特徴量の検索プログラムを格納した記憶媒体

Info

Publication number
JP2001052024A
JP2001052024A JP11229459A JP22945999A JP2001052024A JP 2001052024 A JP2001052024 A JP 2001052024A JP 11229459 A JP11229459 A JP 11229459A JP 22945999 A JP22945999 A JP 22945999A JP 2001052024 A JP2001052024 A JP 2001052024A
Authority
JP
Japan
Prior art keywords
feature
feature amount
similarity
search
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11229459A
Other languages
English (en)
Inventor
Hiroki Akama
浩樹 赤間
Fumikazu Konishi
史和 小西
Tadashiro Yoshida
忠城 吉田
Michiyoshi Sato
路恵 佐藤
Kazuyoshi Mitsui
一能 三井
Kazuhiko Kushima
和彦 串間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP11229459A priority Critical patent/JP2001052024A/ja
Publication of JP2001052024A publication Critical patent/JP2001052024A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 事前類似計算結果情報が例え、ディスク上に
あろうが、部分的にディスク上に存在するような複雑な
構造を持っていようが、DB全体の特徴量データ件数が
多かろうが、非常に高速に検索ができる類似特徴量の検
索方法及び装置及び類似特徴量の検索プログラムを格納
した記憶媒体を提供する。 【解決手段】 本発明は、最近傍検索装置が、必ず、最
近傍を求めるという保証がない場合に、検索キー特徴量
として、データベース内に存在することが分からない特
徴量が与えられた場合、該特徴量に近傍候補の該データ
ベース内の特徴量yを最近傍検索装置により検索し、検
索結果の特徴量に対する事前類似計算結果のID群を求
め、ID群の中で検索キーに最も近い点zを求め、点z
が特徴量yと異なる場合に、該点zに対する事前類似計
算結果のID群を求め、ID群の各IDの特徴量と検索
キーの距離計算を行い、ID群を距離順に並べ替えたも
のを検索結果として返却する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、類似特徴量の検索
方法及び装置及び類似特徴量の検索プログラムを格納し
た記憶媒体に係り、特に、画像、映像、モーション、音
楽、音声などのマルチメディアデータに対する類似検索
システムの実現や、テキストの類似検索システム、また
は、インターネット上の画像のように、大量でその量が
日々増加するような対象に対し、高速な類似検索を実現
するための類似特徴量の検索方法及び装置及び類似特徴
量の検索プログラムを格納した記憶媒体に関する。
【0002】
【従来の技術】画像検索、音楽検索等に代表される検索
は、従来のRDBMSが対象としてきた一致検索や範囲
検索とは異なり、多次元特徴量(次元数は1以上)の類
似検索である。ここで、一致検索とは、DB内の列に対
する検索キー値が与えられた時、それと一致する値を持
つ全行、または、行IDを検索結果とする検索をいう。
【0003】範囲検索とは、DB内の列に対し、検索キ
ーとしての値と共に、検索条件としての大小関係が与え
られ、その関係を満足する値を持つDB内の全行、また
は、行IDを検索結果とする検索をいう。一方、類似検
索とは、1次元以上の多次元特徴量(一般に単に特徴量
と呼ぶ。複数の数値からなるためベクトルと呼ぶことも
ある)をDB格納の対象とし、検索キーとして与えられ
た特徴量キーに対し、その特徴量間の距離等を計算する
ことにより、類似度を求め、最も類似度の高い順に上位
f(x)件の行を求めるような検索を行う。
【0004】特徴量としては、画像や音楽等マルチメデ
ィア情報の内容特徴などのこともあるし、地図座標のこ
ともあるし、テキスト内のキーワード重みのこともあ
る。類似検査は、範囲検索の対象を1次元の値から多次
元ベクトル値に拡張した場合に似ているが、その返却値
の考え方が異なり、範囲検索の場合は、範囲条件が明確
に指定され、その条件を満たす行は全て検索結果となる
ものの、類似検索の場合は、一般には、類似度の高い順
に上位f(x)件を繰り返すという指定が用いられる。
【0005】本明細書においては、上位f(x)件と記
述した場合に、それは抽象化された値を示しており、単
に、利用者が指定した特定の値k、システムが予め持つ
特定の値k、また、最大kや最小kという解釈、DB内
の全データ数、利用者または、システムまたは、DBの
状態から得られる情報等から計算によって求められた値
のように、別の手段で計算される閾値kでもよい。
【0006】また、図等で1つのフローチャート内に複
数のf(x)という表記があってもそれらは独立な値を
持っても構わない。図15は、従来の類似検索を説明す
るための図である。この例の特徴量は2次元で、DB内
には6件の特徴量データが登録されている。利用者から
与えられた検索キー特徴量(0.5,0.6)を入力し
た場合、DB内の各特徴量とのユークリッド距離を計算
し、その距離の近い順に並べ替え、その中の上位何件か
を検索結果として利用者に返却する。
【0007】最も単純な類似検索では、検索キー特徴量
とDB内の全特徴量データとの類似度計算が検索実行時
に行われる。ところで、この特徴量が1次元の場合に
は、従来のRDBMSの範囲検索で利用されていたよう
な手法(B+Tree等)を用いることで高速検索が可
能になる。しかし、類似検索では、一般には特徴量は2
以上の次元数となるため、上記の手法は利用できない。
そこで、その高速化のための索引手法には以下のような
手法がある。
【0008】図16、図17は、R−treeの例を示
しており、構成される木の各ノードは、どの次元で分割
したかという情報と、その範囲の情報を持つ。各分割
は、その中に含まれる特徴量点の個数が同程度になるよ
うに調整されている。図18、図19は、PR−qua
dtreeの例を示しており、空間は常にX−Y平面で
4つに分割され、分割後の領域に指定個数以上の特徴量
点が存在する場合は、さらに4分割が行われていく。
【0009】それぞれに関し、各種の改良バージョン
(参考:Volker Gaedo, Multidimension Access Method
s)が提案されているが、一般には、大量のデータに対
しても、その木を平衡状態を維持するR−tree、及
びその改良系が高速性、汎用性に優れている。本明細書
では、これらの多次元空間を分割し木状にした構造を持
つ索引を、木状索引と呼ぶことにする。
【0010】図20は、木状索引の構築時の流れ及び、
木状索引を使った類似検索時の流れを示している。
【0011】
【発明が解決しようとする課題】しかしながら、上記従
来の木状索引による高速な検索手法は以下のような問題
がある。従来の木状索引手法は、特徴量データ数の増加
に対して、その検索速度の増加を抑えることを主な目的
としている。つまり、特徴量データを木構造で管理する
ことで、特徴量データ間の比較回数をlog のオーダと
し、特徴量データ数の増加に対する検索性能を維持す
る。しかし、これらの従来の木状索引構造は、次元数の
増加に対しては考慮されておらず、例えば、R−tre
e等では、数次元程度で威力を発揮し、20次元を越え
るとその性能はかなり悪くなることが知られている。こ
れは、地理情報等、低次元の応用には充分であるが、マ
ルチメディア情報等の高次元の応用には不十分である。
【0012】また、従来の索引手法は、マンハッタン距
離(市街地距離)やユークリッド距離のように数学的に
距離の公理を満たす単純な類似度基準を想定している。
これらの類似度基準により事前にDB内のデータ間の関
係を各次元軸をもとにクラスタリングした場合には、そ
のクラスタリング結果空間の中で近いデータ同士は、そ
の元となる類似度基準でも近いという性質があり、事前
に木状索引の作成が可能になる。しかし、その類似度基
準が与えられた検索キーデータに依存し、各次元を元に
事前にクラスタリングすることが意味をなさない場合、
例えば、ヒストグラム・インターセクション(参考:Ma
ichael J.Swan, Indexing Via Color Histogram )や非
対象類似度(参考:赤間、「オブジェクトの類似度算出
方法及び類似オブジェクト検索装置、特願平9-060999)
といった、マルチメディア情報の特徴量に合った複雑な
類似度基準には対応できないという問題がある。
【0013】なお、本明細書では、距離をより一般化し
た用語として類似度を用いている。また、従来の木状に
構成された索引では、最近傍データを検出するのは容易
である。しかし、一般的な類似検索においては、最も類
似するものだけを検索するに留まらず、似ている順に上
位f(x)件の結果を求めることが多い。その場合、木
状に管理されたデータにおいては、木の枝や葉を順に辿
り、候補の中のデータに関して、再度、類似度の計算を
行う必要がある。また、これは、特徴量データ数が増加
し、データがメモリ上ではなくディスク上にある場合に
は、かなりの速度低下要因となる。
【0014】また、従来の手法は、平衡状態を維持する
等、アルゴリズムが複雑であり、実装が困難である。本
発明は、上記の点に鑑みなされたもので、事前類似計算
結果情報が例え、ディスク上にあろうが、部分的にディ
スク上に存在するような複雑な構造を持っていようが、
DB全体の特徴量データ件数が多かろうが、非常に高速
に検索ができる類似特徴量の検索方法及び装置及び類似
特徴量の検索プログラムを格納した記憶媒体を提供する
ことを目的とする。
【0015】また、検索実行時に次元数に依存する類似
度計算を行うことがないため、次元数の増加に対しても
性能が劣化することが少なく高速な類似特徴量の検索方
法及び装置及び類似特徴量の検索プログラムを格納した
記憶媒体を提供することを目的とする。さらに、索引の
構造の中で距離に依存した部分がなく、特殊な類似性基
準にも対応できる類似特徴量の検索方法及び装置及び類
似特徴量の検索プログラムを格納した記憶媒体を提供す
ることを目的とする。
【0016】
【課題を解決するための手段】図1は、本発明の原理を
説明するための図である。本発明(請求項1)は、マル
チメディアデータに対する類似検索システムやテキスト
の類似検索システムに用いられる類似特徴量の検索シス
テムにおいて、予め、データベース内のすべての特徴量
をキーとし、該データベース内における類似計算を行
い、他の特徴量との類似度を計算し、類似度の高い順に
上位f(x)件分のID情報を、類似度順付きで、必要
によっては、該類似度の値と共に、事前類似計算結果格
納装置に格納しておき、検索キー特徴量としてデータベ
ース内の特徴量が与えられた場合、該検索キー特徴量に
対する事前類似計算結果の上位f(x)件を検索結果と
して返却する類似特徴量の検索方法において、最近傍検
索装置が、必ず、最近傍を求めるという保証がない場合
に、検索キー特徴量として、データベース内に存在する
ことが分からない特徴量が与えられた場合(ステップ
1)、該特徴量に近傍候補の該データベース内の特徴量
yを最近傍検索装置により検索し(ステップ2)、検索
結果の特徴量に対する事前類似計算結果のID群を求め
(ステップ3)、ID群の中で検索キーに最も近い点z
を求め(ステップ4)、点zが特徴量yと異なる場合
に、該点zに対する事前類似計算結果のID群を求め
(ステップ5)、ID群の各IDの特徴量と検索キーの
距離計算を行い(ステップ6)、ID群を距離順に並べ
替えたものを検索結果として返却する(ステップ7)。
【0017】本発明(請求項2)は、追加する特徴量a
が与えられた場合に、該特徴量aの上位f(k)件の近
傍特徴量のID群を求め、ID群に対し、特徴量aから
の距離順に並べた事前類似計算結果を事前類似計算結果
格納装置に登録し、ID群の各IDをAi (1≦i≦f
(k))としたとき、特徴量aと各Ai の特徴量の距離
に基づいて各Ai の事前類似計算結果に該特徴量aを挿
入し、上位f(k)件に調整したものを各Ai の新たな
事前類似計算結果とし、事前類似計算結果格納装置に登
録する。
【0018】本発明(請求項3)は、事前類似計算結果
格納装置において、特徴量を圧縮して格納する。図2
は、本発明の原理構成図である。本発明(請求項4)
は、マルチメディアデータに対する類似検索システムや
テキストの類似検索システムに用いられる類似特徴量の
検索システムにおいて、特徴量をキーとするデータベー
ス10と、該データベース10内における類似計算を行
い、他の特徴量との類似度を計算する類似計算手段20
と、類似度の高い順に上位f(x)件分のID情報を、
類似度順付きで、必要によっては、該類似度の値と共に
格納する事前類似計算結果格納手段30と、検索キー特
徴量としてデータベース10内の特徴量が与えられた場
合、該検索キー特徴量に対する、特徴量を有する事前類
似計算結果を検索結果として返却する事前類似計算結果
検索手段40とを有する類似特徴量の検索装置であっ
て、必ず、最近傍を求めるという保証がない場合に、検
索キー特徴量として、データベース10内に存在するこ
とが分からない特徴量が与えられた場合、該特徴量に近
傍候補の該データベース10内の特徴量yを検索する手
段と、検索結果の特徴量に対する事前類似計算結果のI
D群を求める手段と、ID群の中で検索キーに最も近い
点zを求める手段と、点zが特徴量yと異なる場合に、
該点zに対する事前類似計算結果のID群を求める手段
と、ID群の各IDの特徴量と検索キーの距離計算を行
う手段と、ID群を距離順に並べ替えたものを検索結果
として返却する手段とを有する最近傍検索手段70を有
する。
【0019】本発明(請求項5)は、追加する特徴量a
が与えられた場合に、該特徴量aの上位f(k)件の近
傍特徴量のID群を求める手段と、ID群に対し、特徴
量aからの距離順に並べた事前類似計算結果を事前類似
計算結果格納手段に登録する手段と、ID群の各IDを
i (1≦i≦f(k))としたとき、特徴量aと各A
i の特徴量の距離に基づいて各Ai の事前類似計算結果
に該特徴量aを挿入し、上位f(k)件に調整したもの
を各Ai の新たな事前類似計算結果とし、事前類似計算
結果格納手段30に登録する手段とを有する。
【0020】本発明(請求項6)は、事前類似計算結果
格納手段30において、圧縮された特徴量を格納する。
本発明(請求項7)は、マルチメディアデータに対する
類似検索システムやテキストの類似検索システムに用い
られる類似特徴量の検索システムにおいて、特徴量をキ
ーとするデータベース内における類似計算を行い、他の
特徴量との類似度を計算する類似計算プロセスと、類似
度の高い順に上位f(x)件分のID情報を、類似度順
付きで、必要によっては、該類似度の値と共に記憶媒体
に格納する事前類似計算結果格納プロセスと、検索キー
特徴量として該データベース内の特徴量が与えられた場
合、該検索キー特徴量に対する、特徴量を有する事前類
似計算結果を検索結果として返却する事前類似計算結果
検索プロセスとを有する類似特徴量の検索プログラムを
格納した記憶媒体であって、必ず、最近傍を求めるとい
う保証がない場合に、検索キー特徴量として、データベ
ース内に存在することが分からない特徴量が与えられた
場合、該特徴量に近傍候補の該データベース内の特徴量
yを検索するプロセスと、検索結果の特徴量に対する事
前類似計算結果のID群を求めるプロセスと、ID群の
中で検索キーに最も近い点zを求めるプロセスと、点z
が特徴量yと異なる場合に、該点zに対する事前類似計
算結果のID群を求めるプロセスと、ID群の各IDの
特徴量と検索キーの距離計算を行うプロセスと、ID群
を距離順に並べ替えたものを検索結果として返却するプ
ロセスとを有する最近傍検索プロセスを有する。
【0021】本発明(請求項8)は、追加する特徴量a
が与えられた場合に、該特徴量aの上位f(k)件の近
傍特徴量のID群を求めるプロセスと、ID群に対し、
特徴量aからの距離順に並べた事前類似計算結果を記憶
媒体に登録するプロセスと、ID群の各IDをAi (1
≦i≦f(k))としたとき、特徴量aと各Ai の特徴
量の距離に基づいて各Ai の事前類似計算結果に該特徴
量aを挿入し、上位f(k)件に調整したものを各Ai
の新たな事前類似計算結果とし、記憶手段に登録するプ
ロセスとを有する。
【0022】本発明(請求項9)は、事前類似計算結果
格納プロセスは、圧縮された特徴量を記憶媒体に格納す
る。上記のように、本発明は、特願平10−20358
3をベースに構築されており、特願平10−20358
3に外部キーの検索機能及びデータ追加を行うことを主
旨するとするものである。
【0023】本発明では、外部キー(データベース外特
徴量)の検索時において、距離を再計算して並べ替える
機能と、外部キーの検索時において、距離を再計算し、
最近傍を見つけて事前計算結果を参照する機能と、追加
データの動的挿入を行う機能を有することにより、近傍
検索と組み合わせた高速な類似検索が可能となる。ま
た、本発明では、追加データのある場合においても事前
類似計算結果を索引として利用することが可能となる。
【0024】また、事前類似計算結果を圧縮して保持す
る機能も含む。事前類似計算結果中に各IDの特徴量を
有することができるが、特徴量データが高次元の場合に
は、記憶域の負担となるため、当該特徴量を圧縮して格
納することにより、少ない記憶域で事前類似計算結果中
に特徴量を保持することが可能となり、事前類似計算結
果中の各IDの特徴量が存在すると、特徴量参照のため
の計算または、入出力コストを削減することが可能とな
るため、距離の再計算が高速になる。
【0025】
【発明の実施の形態】以下の説明において、特徴量デー
タをデータベース内に存在する特徴量(これをデータベ
ース内特徴量と呼ぶ)と、データベース内に存在しない
特徴量(これをデータベース外特徴量と呼ぶ)の2種類
に分けて考える。例えば、類似画像検索システムにおい
て、データベース外特徴量を検索キーとして利用する例
としては、スケッチ入力画像を検索キーとする場合や、
ディジタルカメラ画像を検索キーとする場合がある。
【0026】一方、データベース内部特徴量にIDを検
索キーとして利用する例としては、システムが利用者に
ランダムに提示した画像を検索キーとする場合や、キー
ワード検索等の他の手法で検索した画像を検索キーとす
る場合や、一度検索した結果を利用してナビゲーション
的に繰り返し検索する場合等がある。類似検索の索引の
処理を、検索キー特徴量に最も類似する特徴量を求める
処理の最近傍検索と、最近傍検索で求めた特徴量から順
に近い特徴量を求めていく近傍順検索の2つの処理を分
けて考えると、データベース外特徴量を検索キーとする
類似検索では、最近傍検索と近傍順検索の両方が必要で
あり、データベース内特徴量のIDを検索キーとする類
似検索では、近傍順検索のみ必要である。なお、検索キ
ーとしてデータベース内特徴量そのものが与えられた場
合においても、一致検索によってデータベース内特徴量
IDに変換することが可能であるため、最近傍検索は必
要ない。
【0027】本発明では、主に、近傍順検索の処理部分
の高速化を対象とする。図3は、本発明の類似特徴量検
索装置の構成を示す。同図に示す類似特徴量検索装置
は、データベース10、類似計算部20、事前類似計算
結果格納部30、検索部40、検索キー入力部50、特
徴量種別判定部55、出力部60、最近傍検索部70、
追加特徴量データ管理部80、マージ部90から構成さ
れる。これらの構成は、特願平10−203583の構
成と同様であるが、最近傍検索部70において、検索キ
ー特徴量としてデータベース10内に存在することが分
からない特徴量が与えられた場合、該特徴量に最も類似
するデータベース内の特徴量を最近傍検索装置により検
索する機能と、検索結果の特徴量に対する事前類似計算
結果のID群を求め、該ID群の各IDの特徴量と検索
キーの距離計算を行う機能と、ID群を距離順に並べ替
える機能を有する。
【0028】データベース10は、全ての特徴量をキー
として、ID情報及びデータと共に格納する。類似計算
部20は、データベース10内における類似計算を行
い、他の特徴量との類似度を計算し、類似度の高い順に
上位f(x)件分のID情報に類似度順を付与してデー
タベース10に事前類似計算結果格納部30に格納す
る。必要によっては、当該類似度の値と共に、事前類似
計算結果格納部30に格納する。
【0029】事前類似計算結果格納部30は、類似計算
部20により求められた類似計算結果として、類似度
順、類似度が付与されたID情報に加えて、各IDの特
徴量を圧縮して格納する。これにより、少ない記憶域で
すむ。検索部40は、検索キー入力部50により与えら
れた検索キー特徴量として特徴量が与えられると、事前
類似計算結果格納部30を検索して、上位f(x)件を
検索結果として出力部60より出力する。
【0030】検索キー入力部50は、検索キー特徴量と
して特徴量を入力する。特徴量種別判定部55は、検索
キー入力部50から入力された特徴量がデータベース1
0にあるか、データベース10外にあるかを判定する。
出力部60は、検索部40、最近傍検索部70及びマー
ジ部80で求められた検索結果を出力する。
【0031】最近傍検索部70は、検索キー特徴量とし
て検索キー入力部50からデータベース10内に存在す
るか否かが分からない特徴量が与えられた場合には、そ
れに最も類似するデータベース内の特徴量をR−tre
e等を用いて検索し、その結果の特徴量に対する事前類
似計算結果を事前類似計算結果格納部30から検索し
て、上位f(x)件分のID群を求め、その各IDの特
徴量と検索キーの距離計算を行い、ID群を距離順に並
べ替えたものを検索結果として出力部60より主力す
る。
【0032】また、当該最近傍検索部70は、必ず最近
傍を求めるという保証がない場合で、検索キー特徴量と
してデータベース10内に存在することが分からない特
徴量が与えられた場合、それに近傍候補のデータベース
10内の特徴量yを検索し、その結果の特徴量に対する
事前類似計算結果のID群を求め、そのID群の中で検
索キーに最も近い点zを求め、それが近傍候補yと異な
る場合に、zに対する事前類似計算結果のID群を求
め、その各IDの特徴量と検索キーの距離計算を行い、
ID群を距離順に並べ替えたものを検索結果として出力
部60より出力する。
【0033】また、最近傍検索部70は、特徴量aの上
位f(k)件の近傍特徴量のID群を求め、そのID群
に対し、特徴量aからの距離順に並べた事前類似計算結
果を事前類似計算結果格納部30に登録し、そのID群
の各IDをAi (1≦i≦f(k))としたとき、特徴
量aとAi の特徴量の距離に基づいて各Ai の事前類似
計算結果に特徴量aを挿入し、上位f(k)件に調整し
たものを各Ai の新たな事前類似計算結果とし、事前類
似計算結果格納部30に登録する。
【0034】追加特徴量データ管理部80は、検索キー
入力部50から入力された特徴量データを格納する。ま
た、特徴量のデータがある場合、追加されたデータに関
して管理を行う。マージ部90は、検索部40が事前類
似計算結果格納部30から検索した検索結果と、追加特
徴量データ管理部80から検索した検索結果とをマージ
する。ま、検索キー特徴量が与えられた場合には、事前
類似計算結果格納部30からの結果と、追加特徴量デー
た管理部80からの検索結果を類似度順にマージした結
果の上位f(x)件を検索結果として出力部60より出
力する。
【0035】ここで、本発明の類似特徴量の検索装置の
第1の動作(最近傍検索処理)を説明する。図4は、本
発明の第1の動作を説明するための図である。 ステップ101) 検索キー入力部50より検索キー特
徴量を入力する。 ステップ102) 特徴量種別判定部55は、特徴量種
別の判定を行い、データベース外特徴量である場合に
は、ステップ103に移行し、データベース内特徴量で
ある場合にはステップ104に移行する。
【0036】ステップ103) 最近傍検索部70は、
与えられた特徴量がどの分類に相当するか、分類基準に
従って特徴量の木状索引を辿り、最も近い特徴量のID
を取得し、ステップ104に移行する。 ステップ104) 最近傍検索部70は、その特徴量ま
たは、IDをキーとして確定検索方式により事前類似計
算結果格納部30に対して検索を行い、結果のID群を
取得する。
【0037】ステップ105) さらに、最近傍検索部
70は、検索キーと事前類似計算結果中の各IDの特徴
量との距離計算を行い、ID群を距離順に並べ直す。 ステップ106) 上位(x)件分の結果を出力部60
より返却する。 次に、本発明の第2の動作を説明する。第2の動作は、
最近傍検索部70において、必ず最近傍を求めるという
保証がない場合の処理である。
【0038】図5は、本発明の類似特徴量の検索装置の
第2の動作を説明するための図である。 ステップ201) 検索キー入力部50から検索キー特
徴量を入力する。 ステップ202) 特徴量種別判定部55は、特徴量種
別の判定を行い、データベース外特徴量である場合に
は、ステップ203に移行し、データベース内特徴量で
ある場合にはステップ204に移行する。
【0039】ステップ203) 最近傍検索部70は、
与えられた特徴量がどの分類に相当するか分類基準に従
って、特徴量の木状索引を辿り最も近い特徴量のIDを
取得する。 ステップ204) 最近傍検索部70は、入力されたそ
の特徴量または、検索されたIDをキーとして確定検索
方式により事前類似計算結果格納部30に対して検索を
行い、結果のID群を取得する。
【0040】ステップ205) さらに、最近傍検索部
70は、検索キーと事前類似計算結果中の各IDの特徴
量との距離計算を行い、最も近いIDを求め、それをz
とする。 ステップ206) そのIDz をキーとして確定検索方
式により、事前類似計算結果格納部30に対して検索を
行い、結果のID群を取得する。
【0041】ステップ207) 検索キーと事前類似計
算結果中の各IDの特徴量との類似計算を行い、ID群
を距離順に並べ直す。 ステップ208) 上位f(x)件分の結果を出力部6
0より返却する。 次に、類似特徴量の検索装置の第3の動作として特徴量
データの追加がある場合について説明する。
【0042】図6は、本発明の第3の動作を説明するた
めの図である。 ステップ301) 特徴量データの追加と索引について
再構成する。 ステップ302) 検索キー入力部50から検索キー特
徴量を入力する。 ステップ303) 検索部40は、事前類似計算結果か
ら上位f(x)件の類似検索を行う。
【0043】ステップ304) また、検索部40は、
追加特徴量データ管理部80から上位f(x)件の類似
検索を行う。 ステップ305) マージ部90において、ステップ3
03における類似検索結果と、追加特徴量管理部80か
らの類似検索結果をマージして、距離順に整列させる。
【0044】ステップ306) 上位f(x)件の結果
を追加特徴量管理部80に返却する。 次に、第4の動作として、事前類似計算結果格納部30
を再構成する処理を説明する。図7は、本発明の第4の
動作を説明するための図である。
【0045】ステップ401) 追加する特徴量aを最
近傍検索部70に入力する。 ステップ402) 最近傍検索部70は、事前計算結果
格納部30から特徴量aの事前類似計算結果のID群A
i (1≦i≦k)を取得する。 ステップ403) 特徴量aからの近傍順に並べた事前
類似計算結果を事前類似計算結果格納部30に追加格納
する。
【0046】ステップ404) 最近傍検索部70は、
全てのAi について、事前類似計算結果を求め、aとA
i の特徴量の距離に基づき、事前類似計算結果中にaを
追加し、f(k)件に調整したものを新たな各Ai の事
前類似計算結果として事前類似計算結果格納部30に登
録する。
【0047】
【実施例】以下、図面と共に本発明の実施例を説明す
る。 [第1の実施例]特願平10−203583に示す方法
により、検索構築時には、データベース10内における
類似計算を行い、他の特徴量との類似度を計算し、類似
度の高い順に上位f(x)件分のID情報を、類似度付
き、または、必要によっては、その類似度の値と共に事
前類似計算結果格納部30に格納しておく。
【0048】また、索引を使った検索時には、検索キー
特徴量としてデータベース10内の特徴量が与えられた
場合、その検索キー特徴量に対する事前類似計算結果の
上位f(x)件を検索結果として取得する。ここで、事
前類似計算結果の構成を説明する。図8は、本発明の第
1の実施例の事前類似計算結果の構成を示す。あるID
(自ID)に対する類似するID、そのIDの類似度と
特徴量を、f(k)個有する。自特徴量、類似IDxの
類似度及び類似IDxの特徴量は必須ではない。各ID
の特徴量を有する場合、各IDの実行時ソートが、可能
になるので、事前類似計算結果内のIDは、自IDに対
して類似度順にソートされていなくても構わない。同図
の→は、対応付けがあることを示している。事前類似計
算結果格納部30は、この事前類似計算結果を複数のI
Dに対して構成したものを有し、管理する。
【0049】本実施例では、図8に示す各々の特徴量を
図9に示すように圧縮して格納している。なお、特徴量
の圧縮方式は、既存の圧縮方法を用いるものとする。こ
れにより、特徴量を保持する記憶領域が削減される。 [第2の実施例]本実施例では、外部キー検索について
説明する。
【0050】与えられる検索キーが内部データベース特
徴量と判定できない場合には、その特徴量データによる
最近傍検索だけをR−treeのような他の従来方式を
用いるものとし、その後の近傍順検索として本発明を用
いる。図10は、本発明の第2の実施例のデータ分布の
例を示す。図10に示すようなデータ分布に基づいた場
合について近傍順検索を考える。これは、例えば、図1
5のように、検索キーとして(0.5,0.6)が与え
られた場合、その最近傍特徴量の(0.5,0.5)を
求めるまでは、従来の方式を用い、その後(0.5,
0.5)の近傍順検索では、その“ID4”に登録され
ている事前類似計算結果の ID4,ID3,ID1,ID5,ID2,ID6 を検索結果とする。
【0051】なお、厳密な類似度順の結果を得たい場合
には、再度、類似度計算部20で類似度計算を行い、整
列をし直す。例えば、(0.5,0.5)とID4の事
前類似計算結果内のIDと距離を再計算すると、図11
のように順番に若干の変更が発生する。また、図12に
示すデータ分布に基づいた場合には、図13に示すよう
なイメージとなる。(5.4,3.5)が与えられた場
合、最近傍検索部70により、ID531が求められ、
よって、ID531の事前類似計算結果を、(5.4,
3.5)の類似検索結果として出力部60より出力する
か、または、ID531の事前類似計算結果の各IDと
(5.4,3.5)の距離を再計算し、類似度順に並べ
替えたものを(5.4,3.5)の類似計算結果として
出力部60より出力する。 [第3の実施例]本実施例では、データ追加について説
明する。
【0052】前述の図13のデータ分布であるとき、図
14を用いて、事前類似計算結果の集合にデータを動的
に追加する例を説明する。最初の過程は、外部キーによ
る検索(前述の図13)と同様になる。今、新たな点が
(5.4、3.5)で、この点のIDを2000とし、
最近傍点がID531と決まったとき、最近傍検索部7
0において、ID531の事前類似計算結果の各IDに
対し、ID2000との距離の再計算を行い、整列し直
したものをID2000の事前類似計算結果として事前
類似計算結果格納部30に登録する。
【0053】さらに、ID2000の事前類似計算結果
中の各IDの事前類似計算結果中にID2000を挿入
する。このとき、各事前類似計算結果中の各々のIDと
の関係は、一般には距離順に整列したものとする方が効
率が良いが、それに限定されるものではない。このID
2000の追加によって、各事前類似計算結果中のID
数が1件増加するため、一般には最も遠くなったIDを
事前類似計算結果格納部30より削除する。但し、残す
という方法も存在するのでこの例には限定されない。
【0054】また、上記の実施例は、図3の構成に基づ
いて説明しているが、この例に限定されることなく、図
3に示す構成要素をプログラムとして構築し、本発明を
実施する際にインストールすることにより、容易に本発
明を実現できる。なお、本発明は、上記の実施例に限定
されることなく、特許請求の範囲内で種々変更・応用が
可能である。
【0055】
【発明の効果】上述のように、本発明によれば、事前類
似計算結果情報が、例え、ディスク上にあろうが、部分
的にディスク上に存在するような複雑な構造を持ってい
ようが、データベース全体の特徴量データ件数が多かろ
うが非常に高速に検索を行うことが可能であることに加
えて、検索実行時に次元数に依存する類似度計算を行う
ことがないため、次元数の増加に対しても性能が劣化す
ることが少なく高速化が図れる。
【0056】さらに、索引の構造の中に距離に依存した
部分がないので、特殊な類似性基準にも対応できる。ま
た、近傍検索と組み合わせた高速な類似検索ができる。
また、事前類似計算結果の特徴量を圧縮して格納するこ
とが可能であり、記憶領域を節約できる。
【図面の簡単な説明】
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明の類似特徴量検索装置の構成図である。
【図4】本発明の第1の動作を説明するための図であ
る。
【図5】本発明の第2の動作を説明するための図であ
る。
【図6】本発明の第3の動作を説明するための図であ
る。
【図7】本発明の第4の動作を説明するための図であ
る。
【図8】本発明の第1の実施例の事前類似計算結果の構
成を説明するための図である。
【図9】本発明の第1の実施例の圧縮した特徴量を説明
するための図である。
【図10】本発明の第2の実施例のデータ分布の例(そ
の1)である。
【図11】本発明の第2の実施例の類似順の修正を説明
するための図である。
【図12】本発明の第2の実施例のデータ分布の例(そ
の2)である。
【図13】本発明の第2の実施例の外部キーによる検索
の例を説明するための図である。
【図14】本発明の第3の実施例の事前類似計算結果へ
の動的なデータ追加の例を説明するための図である。
【図15】一般的な類似検索を説明するための図であ
る。
【図16】従来のR−treeの特徴量空間分割を説明
する図である。
【図17】従来のR−treeの木構造を説明する図で
ある。
【図18】従来のPR−quadtreeの特徴量空間
分布を説明する図である。
【図19】従来のPR−quadtreeの木構造を説
明する図である。
【図20】従来の木状索引を使った類似検索のフローチ
ャートである。
【符号の説明】
10 データベース 20 類似計算手段、類似度計算部 30 事前類似計算結果格納手段、事前類似計算結果格
納部 40 事前類似計算結果検索手段、事前類似計算結果検
索部 50 検索キー入力部 55 特徴量種別判定部 60 出力部 70 最近傍検索手段、最近傍検索部 80 追加特徴データ管理部 90 マージ部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 吉田 忠城 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 (72)発明者 佐藤 路恵 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 (72)発明者 三井 一能 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 (72)発明者 串間 和彦 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 Fターム(参考) 5B075 ND03 ND16 NK02 NK06 NK31 NK49 NK54 NR03 NR12 PQ02 PQ15 PQ46 PR06 QM08 UU40

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 マルチメディアデータに対する類似検索
    システムやテキストの類似検索システムに用いられる類
    似特徴量の検索システムにおいて、予め、データベース
    内のすべての特徴量をキーとし、該データベース内にお
    ける類似計算を行い、他の特徴量との類似度を計算し、
    類似度の高い順に上位f(x)件分のID情報を、類似
    度順付きで、必要によっては、該類似度の値と共に、事
    前類似計算結果格納装置に格納しておき、検索キー特徴
    量として前記データベース内の特徴量が与えられた場
    合、該検索キー特徴量に対する事前類似計算結果の上位
    f(x)件を検索結果として返却する類似特徴量の検索
    方法において、 最近傍検索装置が、必ず、最近傍を求めるという保証が
    ない場合に、 前記検索キー特徴量として、前記データベース内に存在
    することが分からない特徴量が与えられた場合、該特徴
    量に近傍候補の該データベース内の特徴量yを前記最近
    傍検索装置により検索し、 検索結果の特徴量に対する事前類似計算結果のID群を
    求め、 前記ID群の中で検索キーに最も近い点zを求め、 前記点zが前記特徴量yと異なる場合に、該点zに対す
    る事前類似計算結果のID群を求め、 前記ID群の各IDの特徴量と前記検索キーの距離計算
    を行い、 前記ID群を距離順に並べ替えたものを検索結果として
    返却することを特徴とする類似特徴量の検索方法。
  2. 【請求項2】 追加する特徴量aが与えられた場合に、
    該特徴量aの上位f(k)件の近傍特徴量のID群を求
    め、 前記ID群に対し、前記特徴量aからの距離順に並べた
    事前類似計算結果を事前類似計算結果格納装置に登録
    し、 前記ID群の各IDをAi (1≦i≦f(k))とした
    とき、前記特徴量aと各Ai の特徴量の距離に基づいて
    各Ai の事前類似計算結果に該特徴量aを挿入し、上位
    f(k)件に調整したものを各Ai の新たな事前類似計
    算結果とし、 事前類似計算結果格納装置に登録する請求項1記載の類
    似特徴量の検索方法。
  3. 【請求項3】 前記事前類似計算結果格納装置におい
    て、前記特徴量を圧縮して格納する請求項1または、2
    記載の類似特徴量の検索方法。
  4. 【請求項4】 マルチメディアデータに対する類似検索
    システムやテキストの類似検索システムに用いられる類
    似特徴量の検索システムにおいて、特徴量をキーとする
    データベースと、該データベース内における類似計算を
    行い、他の特徴量との類似度を計算する類似計算手段
    と、類似度の高い順に上位f(x)件分のID情報を、
    類似度順付きで、必要によっては、該類似度の値と共に
    格納する事前類似計算結果格納手段と、検索キー特徴量
    として前記データベース内の特徴量が与えられた場合、
    該検索キー特徴量に対する、特徴量を有する事前類似計
    算結果を検索結果として返却する事前類似計算結果検索
    手段とを有する類似特徴量の検索装置であって、 必ず、最近傍を求めるという保証がない場合に、前記検
    索キー特徴量として、前記データベース内に存在するこ
    とが分からない特徴量が与えられた場合、該特徴量に近
    傍候補の該データベース内の特徴量yを検索する手段
    と、 検索結果の特徴量に対する事前類似計算結果のID群を
    求める手段と、 前記ID群の中で検索キーに最も近い点zを求める手段
    と、 前記点zが前記特徴量yと異なる場合に、該点zに対す
    る事前類似計算結果のID群を求める手段と、 前記ID群の各IDの特徴量と前記検索キーの距離計算
    を行う手段と、 前記ID群を距離順に並べ替えたものを検索結果として
    返却する手段とを有する最近傍検索手段を有することを
    特徴とする類似特徴量の検索装置。
  5. 【請求項5】 追加する特徴量aが与えられた場合に、
    該特徴量aの上位f(k)件の近傍特徴量のID群を求
    める手段と、 前記ID群に対し、前記特徴量aからの距離順に並べた
    事前類似計算結果を前記事前類似計算結果格納手段に登
    録する手段と、 前記ID群の各IDをAi (1≦i≦f(k))とした
    とき、前記特徴量aと各Ai の特徴量の距離に基づいて
    各Ai の事前類似計算結果に該特徴量aを挿入し、上位
    f(k)件に調整したものを各Ai の新たな事前類似計
    算結果とし、事前類似計算結果格納装置に登録する手段
    とを有する請求項4記載の類似特徴量の検索装置。
  6. 【請求項6】 前記事前類似計算結果格納手段は、 圧縮された特徴量を格納する請求項4、または、5記載
    の類似特徴量の検索装置。
  7. 【請求項7】 マルチメディアデータに対する類似検索
    システムやテキストの類似検索システムに用いられる類
    似特徴量の検索システムにおいて、特徴量をキーとする
    データベース内における類似計算を行い、他の特徴量と
    の類似度を計算する類似計算プロセスと、類似度の高い
    順に上位f(x)件分のID情報を、類似度順付きで、
    必要によっては、該類似度の値と共に記憶媒体に格納す
    る事前類似計算結果格納プロセスと、検索キー特徴量と
    して該データベース内の特徴量が与えられた場合、該検
    索キー特徴量に対する、特徴量を有する事前類似計算結
    果を検索結果として返却する事前類似計算結果検索プロ
    セスとを有する類似特徴量の検索プログラムを格納した
    記憶媒体であって、 必ず、最近傍を求めるという保証がない場合に、前記検
    索キー特徴量として、前記データベース内に存在するこ
    とが分からない特徴量が与えられた場合、該特徴量に近
    傍候補の該データベース内の特徴量yを検索するプロセ
    スと、 検索結果の特徴量に対する事前類似計算結果のID群を
    求めるプロセスと、 前記ID群の中で検索キーに最も近い点zを求めるプロ
    セスと、 前記点zが前記特徴量yと異なる場合に、該点zに対す
    る事前類似計算結果のID群を求めるプロセスと、 前記ID群の各IDの特徴量と前記検索キーの距離計算
    を行うプロセスと、 前記ID群を距離順に並べ替えたものを検索結果として
    返却するプロセスとを有する最近傍検索プロセスを有す
    ることを特徴とする類似特徴量の検索プログラムを格納
    した記憶媒体。
  8. 【請求項8】 追加する特徴量aが与えられた場合に、
    該特徴量aの上位f(k)件の近傍特徴量のID群を求
    めるプロセスと、 前記ID群に対し、前記特徴量aからの距離順に並べた
    事前類似計算結果を前記記憶媒体に登録するプロセス
    と、 前記ID群の各IDをAi (1≦i≦f(k))とした
    とき、前記特徴量aと各Ai の特徴量の距離に基づいて
    各Ai の事前類似計算結果に該特徴量aを挿入し、上位
    f(k)件に調整したものを各Ai の新たな事前類似計
    算結果とし、事前類似計算結果格納装置に登録するプロ
    セスとを有する請求項7記載の類似特徴量の検索プログ
    ラムを格納した記憶媒体。
  9. 【請求項9】 前記事前類似計算結果格納プロセスは、 圧縮された特徴量を前記記憶媒体に格納する請求項7、
    または、8記載の類似特徴量の検索プログラムを格納し
    た記憶媒体。
JP11229459A 1999-08-13 1999-08-13 類似特徴量の検索方法及び装置及び類似特徴量の検索プログラムを格納した記憶媒体 Pending JP2001052024A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11229459A JP2001052024A (ja) 1999-08-13 1999-08-13 類似特徴量の検索方法及び装置及び類似特徴量の検索プログラムを格納した記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11229459A JP2001052024A (ja) 1999-08-13 1999-08-13 類似特徴量の検索方法及び装置及び類似特徴量の検索プログラムを格納した記憶媒体

Publications (1)

Publication Number Publication Date
JP2001052024A true JP2001052024A (ja) 2001-02-23

Family

ID=16892543

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11229459A Pending JP2001052024A (ja) 1999-08-13 1999-08-13 類似特徴量の検索方法及び装置及び類似特徴量の検索プログラムを格納した記憶媒体

Country Status (1)

Country Link
JP (1) JP2001052024A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1489528A3 (en) * 2003-06-20 2005-02-23 NEC Corporation URL retrieval method and system
KR100472949B1 (ko) * 2001-10-18 2005-03-08 한국전자통신연구원 시계열 데이터베이스에서 서브시퀀스 매칭의 인덱스검색방법
JP2011511337A (ja) * 2007-12-20 2011-04-07 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ケースベースの意思決定支援のための方法及び装置
JP2016006561A (ja) * 2014-06-20 2016-01-14 ヤフー株式会社 ビジュアルキーワード探索装置及びビジュアルキーワード探索方法
US11281645B2 (en) 2015-10-28 2022-03-22 Kabushiki Kaisha Toshiba Data management system, data management method, and computer program product

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08305711A (ja) * 1995-05-11 1996-11-22 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法及び装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08305711A (ja) * 1995-05-11 1996-11-22 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法及び装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100472949B1 (ko) * 2001-10-18 2005-03-08 한국전자통신연구원 시계열 데이터베이스에서 서브시퀀스 매칭의 인덱스검색방법
EP1489528A3 (en) * 2003-06-20 2005-02-23 NEC Corporation URL retrieval method and system
JP2011511337A (ja) * 2007-12-20 2011-04-07 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ケースベースの意思決定支援のための方法及び装置
US9792414B2 (en) 2007-12-20 2017-10-17 Koninklijke Philips N.V. Method and device for case-based decision support
JP2016006561A (ja) * 2014-06-20 2016-01-14 ヤフー株式会社 ビジュアルキーワード探索装置及びビジュアルキーワード探索方法
US11281645B2 (en) 2015-10-28 2022-03-22 Kabushiki Kaisha Toshiba Data management system, data management method, and computer program product

Similar Documents

Publication Publication Date Title
KR101015324B1 (ko) 데이터 맵핑 방법과 md 데이터 객체 검색을 위한 컴퓨터로 구현되는 방법, 컴퓨터로 구현되는 시스템 및 컴퓨터 판독가능 기록매체
CN109947904B (zh) 一种基于Spark环境的偏好空间Skyline查询处理方法
US7797265B2 (en) Document clustering that applies a locality sensitive hashing function to a feature vector to obtain a limited set of candidate clusters
CN1552032B (zh) 数据库
Yagoubi et al. Massively distributed time series indexing and querying
US10754887B1 (en) Systems and methods for multimedia image clustering
KR101266358B1 (ko) 다중 길이 시그니처 파일 기반 분산 색인 시스템 및 방법
TWI549005B (zh) 多層搜尋引擎索引
CN109325032B (zh) 一种索引数据存储及检索方法、装置及存储介质
KR100903961B1 (ko) 시그니처 파일을 이용한 고차원 데이터 색인 및 검색방법과 그 시스템
US11106708B2 (en) Layered locality sensitive hashing (LSH) partition indexing for big data applications
US11449484B2 (en) Data indexing and searching using permutation indexes
Lu et al. Hierarchical indexing structure for efficient similarity search in video retrieval
JPWO2010061537A1 (ja) 検索装置、検索方法、及びプログラム
Yang et al. Pase: Postgresql ultra-high-dimensional approximate nearest neighbor search extension
JP2003141159A (ja) 距離インデクスを用いた検索装置および方法
CN114297415A (zh) 面向全媒体数据空间的多源异构数据存储方法及检索方法
CN114817717A (zh) 搜索方法、装置、计算机设备和存储介质
JP2000035965A (ja) 類似特徴量の検索方法及び装置及び類似特徴量の検索プログラムを格納した記憶媒体
JP2001052024A (ja) 類似特徴量の検索方法及び装置及び類似特徴量の検索プログラムを格納した記憶媒体
JP4544047B2 (ja) Web画像検索結果分類提示方法及び装置及びプログラム及びプログラムを格納した記憶媒体
Zhou et al. Adaptive subspace symbolization for content-based video detection
CN111309704B (zh) 数据库操作方法和数据库操作系统
Higuchi et al. Fast filtering for nearest neighbor search by sketch enumeration without using matching
JP2001134593A (ja) 近傍データ検索方法及び装置及び近傍データ検索プログラムを格納した記憶媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041012

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050412