JP2000035965A - 類似特徴量の検索方法及び装置及び類似特徴量の検索プログラムを格納した記憶媒体 - Google Patents
類似特徴量の検索方法及び装置及び類似特徴量の検索プログラムを格納した記憶媒体Info
- Publication number
- JP2000035965A JP2000035965A JP10203583A JP20358398A JP2000035965A JP 2000035965 A JP2000035965 A JP 2000035965A JP 10203583 A JP10203583 A JP 10203583A JP 20358398 A JP20358398 A JP 20358398A JP 2000035965 A JP2000035965 A JP 2000035965A
- Authority
- JP
- Japan
- Prior art keywords
- similarity
- search
- feature
- feature amount
- similarity calculation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
Abstract
(57)【要約】
【課題】 事前類似度計算結果がディスク上または、部
分的にディスク上に存在するような複雑な構造を持って
いても、さらに、データベース全体の特徴量データ件数
が多くとも高速な検索が可能な類似特徴量の検索方法及
び装置及び類似特徴量の検索プログラムを格納した記憶
媒体を提供する。 【解決手段】 本発明は、予めデータベース内の全ての
特徴量をキーとし、データベース内における類似計算を
行い、他の特徴量との類似度を計算し、類似度の高い順
に上位f(x)件分のID情報を、類似度順付で、ある
いは、必要に応じて該類似度の値と共に、事前類似度計
算結果格納装置に格納しておき、検索キー特徴量として
データベース内の特徴量が与えられた場合、該検索キー
特徴量に対する事前類似度計算結果を検索結果として返
却する。
分的にディスク上に存在するような複雑な構造を持って
いても、さらに、データベース全体の特徴量データ件数
が多くとも高速な検索が可能な類似特徴量の検索方法及
び装置及び類似特徴量の検索プログラムを格納した記憶
媒体を提供する。 【解決手段】 本発明は、予めデータベース内の全ての
特徴量をキーとし、データベース内における類似計算を
行い、他の特徴量との類似度を計算し、類似度の高い順
に上位f(x)件分のID情報を、類似度順付で、ある
いは、必要に応じて該類似度の値と共に、事前類似度計
算結果格納装置に格納しておき、検索キー特徴量として
データベース内の特徴量が与えられた場合、該検索キー
特徴量に対する事前類似度計算結果を検索結果として返
却する。
Description
【0001】
【発明の属する技術分野】本発明は、類似特徴量の検索
方法及び装置及び類似特徴量の検索プログラムを格納し
た記憶媒体に係り、特に、画像、映像、モーション、音
楽、音声などのマルチメディアデータに対する類似検索
システムの実現やテキストの類似検索システムに用いら
れる類似特徴量の検索方法及び装置及び類似特徴量の検
索プログラムを格納した記憶媒体に関する。詳しくは、
インターネット上の画像のように、大量で、その量が日
々増加するような対象に対し、高速な類似検索を実現す
ることに用いるための類似特徴量の検索方法及び装置及
び類似特徴量の検索プログラムを格納した記憶媒体に関
する。
方法及び装置及び類似特徴量の検索プログラムを格納し
た記憶媒体に係り、特に、画像、映像、モーション、音
楽、音声などのマルチメディアデータに対する類似検索
システムの実現やテキストの類似検索システムに用いら
れる類似特徴量の検索方法及び装置及び類似特徴量の検
索プログラムを格納した記憶媒体に関する。詳しくは、
インターネット上の画像のように、大量で、その量が日
々増加するような対象に対し、高速な類似検索を実現す
ることに用いるための類似特徴量の検索方法及び装置及
び類似特徴量の検索プログラムを格納した記憶媒体に関
する。
【0002】
【従来の技術】最初に多次元特徴量データについて説明
する。画像検索、音楽検索などに代表される検索は、従
来のRDBMSが対象としてきた一致検索や範囲検索と
は異なり、多次元特徴量(次元数は1以上)の類似検索
である。
する。画像検索、音楽検索などに代表される検索は、従
来のRDBMSが対象としてきた一致検索や範囲検索と
は異なり、多次元特徴量(次元数は1以上)の類似検索
である。
【0003】ここで、一致検索とは、データベース内の
列に対する検索キー値が与えられた時、それと一致する
値を持つ全行、または、行IDを検索結果とする検索を
いう。範囲検索とは、データベース内の列に対し、検索
キーとしての値と共に、検索条件として大小関係が与え
られ、その関係を満足する値を持つデータベース内の全
行、または、行IDを検索結果とする検索をいう。
列に対する検索キー値が与えられた時、それと一致する
値を持つ全行、または、行IDを検索結果とする検索を
いう。範囲検索とは、データベース内の列に対し、検索
キーとしての値と共に、検索条件として大小関係が与え
られ、その関係を満足する値を持つデータベース内の全
行、または、行IDを検索結果とする検索をいう。
【0004】一方、類似検索とは、1次元以上の多次元
特徴量(一般に単に特徴量と呼ぶ。複数の数値からなる
ためベクトルと呼ぶこともある)をデータベース格納の
対象とし、検索キーとして与えられた特徴量キーに対
し、その特徴量間の距離等を計算することにより類似度
を求め、最も類似度の高い順に上位f(x)件の行を求
めるような検索を行う。
特徴量(一般に単に特徴量と呼ぶ。複数の数値からなる
ためベクトルと呼ぶこともある)をデータベース格納の
対象とし、検索キーとして与えられた特徴量キーに対
し、その特徴量間の距離等を計算することにより類似度
を求め、最も類似度の高い順に上位f(x)件の行を求
めるような検索を行う。
【0005】特徴量としては、画像や音楽等マルチメデ
ィア情報の内容特徴などのこともあるし、地図座標のこ
ともあるし、テキスト内のキーワードの重みのこともあ
る。類似検索は、範囲検索の対象を1次元の値から多次
元のベクトル値に拡張した場合に似ているが、その返却
値の考え方が異なり、範囲検索の場合は、範囲条件が明
確に指定され、その条件を満たす行は全て検索結果とな
るものの、類似検索の場合は、一般には、類似の高い順
に上位f(x)件を返すという指定が用いられる。
ィア情報の内容特徴などのこともあるし、地図座標のこ
ともあるし、テキスト内のキーワードの重みのこともあ
る。類似検索は、範囲検索の対象を1次元の値から多次
元のベクトル値に拡張した場合に似ているが、その返却
値の考え方が異なり、範囲検索の場合は、範囲条件が明
確に指定され、その条件を満たす行は全て検索結果とな
るものの、類似検索の場合は、一般には、類似の高い順
に上位f(x)件を返すという指定が用いられる。
【0006】以下の明細書中の説明において、上位f
(x)件と記述した場合に、それは抽象化された値を示
しており、単に、利用者が指定した特定の値k、システ
ムが予め持つ特定の値k、また、最大kや最小k、デー
タベース内の全データ数、利用者、システムまたは、デ
ータベースの状態から得られる情報等から計算によって
求められた利用者または、システムまたは、データベー
スの状態から得られる情報等から計算によって求められ
た値のように、別の手段で計算される閾値kでもよい。
また、図等で1つのフローチャート内に複数のf(x)
という表記があっても、それらは独立な値を持ってもよ
い。
(x)件と記述した場合に、それは抽象化された値を示
しており、単に、利用者が指定した特定の値k、システ
ムが予め持つ特定の値k、また、最大kや最小k、デー
タベース内の全データ数、利用者、システムまたは、デ
ータベースの状態から得られる情報等から計算によって
求められた利用者または、システムまたは、データベー
スの状態から得られる情報等から計算によって求められ
た値のように、別の手段で計算される閾値kでもよい。
また、図等で1つのフローチャート内に複数のf(x)
という表記があっても、それらは独立な値を持ってもよ
い。
【0007】図10は、類似検索の例を説明するための
図である。この例の特徴量は2次元で、データベース内
には6件の特徴量データが登録されている。この利用者
から与えられた検索キー特徴量(0.5、0.6)を入
力した場合、データベース内の各特徴量とのユークリッ
ド距離を計算し、その距離の近い順に並べ替え、その中
の上位何件かを検索結果として利用者に返却する。
図である。この例の特徴量は2次元で、データベース内
には6件の特徴量データが登録されている。この利用者
から与えられた検索キー特徴量(0.5、0.6)を入
力した場合、データベース内の各特徴量とのユークリッ
ド距離を計算し、その距離の近い順に並べ替え、その中
の上位何件かを検索結果として利用者に返却する。
【0008】次に、高速化について説明する。最も単純
な類似検索では、検索キー特徴量とデータベース内の全
特徴量データとの類似度計算が検索実行時に行われる。
ところで、この特徴量が1次元の場合には、従来のRデ
ータベースMSの範囲検索で利用されていたような手法
(B+Tree等)を用いることで高速検索が可能にな
る。
な類似検索では、検索キー特徴量とデータベース内の全
特徴量データとの類似度計算が検索実行時に行われる。
ところで、この特徴量が1次元の場合には、従来のRデ
ータベースMSの範囲検索で利用されていたような手法
(B+Tree等)を用いることで高速検索が可能にな
る。
【0009】しかし、類似検索では、一般には特徴量は
2以上の次元数となるため、上記の手法は利用できな
い。そこで、その高速化のための索引手法には以下のよ
うな手法が用いられる。図11、図12は、R−tre
eの例を示しており、図11は、従来のR−treeの
特徴量空間分割を説明するための図であり、図12は、
従来のT−treeの木構造を説明するための図であ
る。構成される木の各ノードは、どの次元で分割したか
という情報と、その範囲の情報を持つ。各分割は、その
中に含まれる特徴量点の個数が同程度になるように調整
されている。図13、図14は、PR−quadtre
eの例を示しており、図13は、従来のPR−quad
treeの特徴量空間分割を説明するための図であり、
図14は、従来のPR−quadtreeの木構造を説
明するための図である。空間は常にX−Y平面で4つに
分割され、分割後の領域に指定個数以上の特徴量点が存
在する場合は、さらに4分割が行われていく。
2以上の次元数となるため、上記の手法は利用できな
い。そこで、その高速化のための索引手法には以下のよ
うな手法が用いられる。図11、図12は、R−tre
eの例を示しており、図11は、従来のR−treeの
特徴量空間分割を説明するための図であり、図12は、
従来のT−treeの木構造を説明するための図であ
る。構成される木の各ノードは、どの次元で分割したか
という情報と、その範囲の情報を持つ。各分割は、その
中に含まれる特徴量点の個数が同程度になるように調整
されている。図13、図14は、PR−quadtre
eの例を示しており、図13は、従来のPR−quad
treeの特徴量空間分割を説明するための図であり、
図14は、従来のPR−quadtreeの木構造を説
明するための図である。空間は常にX−Y平面で4つに
分割され、分割後の領域に指定個数以上の特徴量点が存
在する場合は、さらに4分割が行われていく。
【0010】それぞれに関し、各種の改良バージョンが
提案されているが(参考:Volker Gaedo, Multidimensi
onal Access Methods )、一般には、大量のデータに対
しても、その木を平衡状態を維持するR−tree、及
びその改良系が高速性、汎用性に優れている。本発明で
は、これらの多次元空間を分割し、木状にした構造をも
つ索引を木状索引と呼ぶことにする。
提案されているが(参考:Volker Gaedo, Multidimensi
onal Access Methods )、一般には、大量のデータに対
しても、その木を平衡状態を維持するR−tree、及
びその改良系が高速性、汎用性に優れている。本発明で
は、これらの多次元空間を分割し、木状にした構造をも
つ索引を木状索引と呼ぶことにする。
【0011】図15は、従来の木状索引を使った類似検
索のフローチャートであり、木状索引の構築時の流れ、
及び木状索引を使った類似検索時の流れを示している。
索引構築時は、特徴量の部分集合をデータベース全体の
特徴量とし(ステップ10)、特徴量数または、リンク
数が(木のノード内数)以上であれば、特徴量の部分集
合に対して以下の処理を行う(ステップ11)、分割基
準を決定し(ステップ12)、分割基準によって特徴量
集合をn個の分割し(ステップ13)、個々の集合に対
し、再帰的に繰り返す(ステップ14)。再帰終了の場
合には階層的分類結果を索引として登録する(ステップ
15)。
索のフローチャートであり、木状索引の構築時の流れ、
及び木状索引を使った類似検索時の流れを示している。
索引構築時は、特徴量の部分集合をデータベース全体の
特徴量とし(ステップ10)、特徴量数または、リンク
数が(木のノード内数)以上であれば、特徴量の部分集
合に対して以下の処理を行う(ステップ11)、分割基
準を決定し(ステップ12)、分割基準によって特徴量
集合をn個の分割し(ステップ13)、個々の集合に対
し、再帰的に繰り返す(ステップ14)。再帰終了の場
合には階層的分類結果を索引として登録する(ステップ
15)。
【0012】検索実行時は、検索キー特徴量を入力し
(ステップ20)、与えられた特徴量がどの分類に相当
するか、分類基準に従って索引を辿る(ステップ2
1)。
(ステップ20)、与えられた特徴量がどの分類に相当
するか、分類基準に従って索引を辿る(ステップ2
1)。
【0013】
【発明が解決しようとする課題】しかしながら、上記従
来の木状索引による高速な検索手法には以下のような問
題がある。最初に高次元数特徴量データでの検索速度に
おける観点から説明する。従来の木状検索手法は、特徴
量データ数の増加に対して、その検索速度の増加を押さ
えることを主な目的としている。つまり、特徴量データ
を木構造で管理することで、特徴量データ間の比較階数
をlogのオーダとし、特徴量データ数の増加に対する
検索性能を維持する。
来の木状索引による高速な検索手法には以下のような問
題がある。最初に高次元数特徴量データでの検索速度に
おける観点から説明する。従来の木状検索手法は、特徴
量データ数の増加に対して、その検索速度の増加を押さ
えることを主な目的としている。つまり、特徴量データ
を木構造で管理することで、特徴量データ間の比較階数
をlogのオーダとし、特徴量データ数の増加に対する
検索性能を維持する。
【0014】しかし、これら従来の木状索引構造は、次
元数の増加に対しては考慮されておらず、例えば、R−
tree等では、数次元程度で最も威力を発揮し、20
次元を越えるとその性能はかなり悪くなることが知られ
ている。これは、地理情報等、低次元の応用には充分だ
が、マルチメディア情報等の高次元の応用には不十分で
ある。
元数の増加に対しては考慮されておらず、例えば、R−
tree等では、数次元程度で最も威力を発揮し、20
次元を越えるとその性能はかなり悪くなることが知られ
ている。これは、地理情報等、低次元の応用には充分だ
が、マルチメディア情報等の高次元の応用には不十分で
ある。
【0015】次に、高度類似基準への対処における観点
から説明する。従来の索引手法は、マンハッタン距離
(市街地距離)やユークリッド距離のように数学的に距
離の公理を満たす単純な類似度基準を想定している。こ
れらの類似度基準により、事前にデータベース内のデー
タ間の関係を各次元軸をもとにクラスタリングした場合
には、そのクラスタリング結果空間の中で近いデータ同
士は、その元となる類似度基準でも近いという性質があ
り、事前に木状索引の作成が可能になる。しかし、その
類似度基準が与えられた検索キーデータに依存し、各次
元を元に事前にクラスタリングすることが意味をなさな
い場合、例えば、ヒストグラム、インターセクション
(参考:Maichael J. Swain, Indexing Via Color Hist
ogram )や、非対象類似度(参考:赤間、オブジェクト
の類似度算出方法及び類似オブジェクト検索装置、特願
平9−060999)といった、マルチメディア情報の
特徴量に合った複雑な類似度基準には対応できない。な
お、本明細書では、距離をより一般化した用語として類
似度を用いている。
から説明する。従来の索引手法は、マンハッタン距離
(市街地距離)やユークリッド距離のように数学的に距
離の公理を満たす単純な類似度基準を想定している。こ
れらの類似度基準により、事前にデータベース内のデー
タ間の関係を各次元軸をもとにクラスタリングした場合
には、そのクラスタリング結果空間の中で近いデータ同
士は、その元となる類似度基準でも近いという性質があ
り、事前に木状索引の作成が可能になる。しかし、その
類似度基準が与えられた検索キーデータに依存し、各次
元を元に事前にクラスタリングすることが意味をなさな
い場合、例えば、ヒストグラム、インターセクション
(参考:Maichael J. Swain, Indexing Via Color Hist
ogram )や、非対象類似度(参考:赤間、オブジェクト
の類似度算出方法及び類似オブジェクト検索装置、特願
平9−060999)といった、マルチメディア情報の
特徴量に合った複雑な類似度基準には対応できない。な
お、本明細書では、距離をより一般化した用語として類
似度を用いている。
【0016】次に、近傍順検索時の検査速度の観点から
説明する。木状に構成された索引では、最近傍データを
検出するのは容易である。しかし、一般的な類似検索に
おいては、最も類似するものだけを検索するに留まら
ず、似ている順に上位f(x)件の結果を求めることが
多い。その場合、木状に管理されたデータにおいては、
木の枝や葉を順に辿り、候補の中のデータに関して、再
度、類似度の計算を行う必要がある。また、これは、特
徴量データ数が増加し、データがメモリ上ではなく、デ
ィスク上にある場合は、かなりの速度低下要因となる。
説明する。木状に構成された索引では、最近傍データを
検出するのは容易である。しかし、一般的な類似検索に
おいては、最も類似するものだけを検索するに留まら
ず、似ている順に上位f(x)件の結果を求めることが
多い。その場合、木状に管理されたデータにおいては、
木の枝や葉を順に辿り、候補の中のデータに関して、再
度、類似度の計算を行う必要がある。また、これは、特
徴量データ数が増加し、データがメモリ上ではなく、デ
ィスク上にある場合は、かなりの速度低下要因となる。
【0017】最後に、実装法の観点から説明する。木の
平衡状態を維持する等、アルゴリズムが複雑で実装が困
難である。本発明は、上記の点に鑑みなされたもので、
事前類似度計算結果がディスク上または、部分的にディ
スク上に存在するような複雑な構造を持っていても、さ
らに、データベース全体の特徴量データ件数が多くとも
高速な検索が可能な類似特徴量の検索方法及び装置及び
類似特徴量の検索プログラムを格納した記憶媒体を提供
することを目的とする。
平衡状態を維持する等、アルゴリズムが複雑で実装が困
難である。本発明は、上記の点に鑑みなされたもので、
事前類似度計算結果がディスク上または、部分的にディ
スク上に存在するような複雑な構造を持っていても、さ
らに、データベース全体の特徴量データ件数が多くとも
高速な検索が可能な類似特徴量の検索方法及び装置及び
類似特徴量の検索プログラムを格納した記憶媒体を提供
することを目的とする。
【0018】
【課題を解決するための手段】図1は、本発明の原理を
説明するための図である。本発明(請求項1)は、マル
チメディアデータに対する類似検索システムやテキスト
の類似検索システムに用いられる類似特徴量の検索方法
において、予めデータベース内の全ての特徴量をキーと
し、データベース内における類似計算を行い、他の特徴
量との類似度を計算し(ステップ1)、類似度の高い順
に上位f(x)件分のID情報を、類似度順付で、ある
いは、必要に応じて該類似度の値と共に、事前類似度計
算結果格納装置に格納しておき(ステップ2)、検索キ
ー特徴量としてデータベース内の特徴量が与えられた場
合(ステップ3)、該検索キー特徴量に基づいて事前類
似度計算結果格納装置を検索して、事前類似度計算結果
を検索結果として返却する(ステップ4)。
説明するための図である。本発明(請求項1)は、マル
チメディアデータに対する類似検索システムやテキスト
の類似検索システムに用いられる類似特徴量の検索方法
において、予めデータベース内の全ての特徴量をキーと
し、データベース内における類似計算を行い、他の特徴
量との類似度を計算し(ステップ1)、類似度の高い順
に上位f(x)件分のID情報を、類似度順付で、ある
いは、必要に応じて該類似度の値と共に、事前類似度計
算結果格納装置に格納しておき(ステップ2)、検索キ
ー特徴量としてデータベース内の特徴量が与えられた場
合(ステップ3)、該検索キー特徴量に基づいて事前類
似度計算結果格納装置を検索して、事前類似度計算結果
を検索結果として返却する(ステップ4)。
【0019】本発明(請求項2)は、検索キー特徴量と
してデータベース内に存在することが分からない特徴量
が与えられた場合に、特徴量に最も類似するデータベー
ス内の特徴量を最近傍検索装置により検索し、検索結果
の特徴量に基づいて事前類似度計算結果格納装置を検索
して、事前類似度計算結果を検索結果として返却する。
してデータベース内に存在することが分からない特徴量
が与えられた場合に、特徴量に最も類似するデータベー
ス内の特徴量を最近傍検索装置により検索し、検索結果
の特徴量に基づいて事前類似度計算結果格納装置を検索
して、事前類似度計算結果を検索結果として返却する。
【0020】本発明(請求項3)は、特徴量データの追
加がある場合に、追加されたデータに関しては、追加特
徴量データ管理装置で管理を行い、検索キー特徴量が与
えられた場合には、事前類似度計算結果格納装置を検索
した結果と、追加特徴量データ管理装置からの検索結果
を類似度順にマージした結果を検索結果として返却す
る。
加がある場合に、追加されたデータに関しては、追加特
徴量データ管理装置で管理を行い、検索キー特徴量が与
えられた場合には、事前類似度計算結果格納装置を検索
した結果と、追加特徴量データ管理装置からの検索結果
を類似度順にマージした結果を検索結果として返却す
る。
【0021】本発明(請求項4)は、特徴量データの追
加がある場合に、追加特徴量データ管理装置内の特徴量
データ数が特定値tを越えた後に、または、特定間隔の
時間経過を含むタイミングにより、追加特徴量データを
含めたデータベース内の全てのデータに関し、事前類似
度計算結果の再計算を検索を行う処理とは、独立にまた
は、並列に行い、計算が完了した時点で、事前類似度計
算結果、及び追加特徴量データ管理装置のデータの更新
を行う。
加がある場合に、追加特徴量データ管理装置内の特徴量
データ数が特定値tを越えた後に、または、特定間隔の
時間経過を含むタイミングにより、追加特徴量データを
含めたデータベース内の全てのデータに関し、事前類似
度計算結果の再計算を検索を行う処理とは、独立にまた
は、並列に行い、計算が完了した時点で、事前類似度計
算結果、及び追加特徴量データ管理装置のデータの更新
を行う。
【0022】図2は、本発明の原理構成図である。本発
明(請求項5)は、マルチメディアデータに対する類似
検索システムやテキストの類似検索システムに用いられ
る類似特徴量の検索装置であって、全ての特徴量をキー
とするデータベース10と、データベース10内におけ
る類似計算を行い、他の特徴量との類似度を計算する類
似度計算手段20と、類似度計算手段20で求められた
類似度の高い順に上位f(x)件分のID情報を、類似
度順付で、あるいは、必要に応じて該類似度の値と共に
格納する、事前類似度計算結果格納手段30と、検索キ
ー特徴量としてデータベース10内の特徴量が与えられ
た場合、該検索キー特徴量に対する事前類似度計算結果
を事前類似度計算結果格納手段30を検索することによ
り取得して、検索結果として返却する事前類似度計算結
果検索手段40とを有する。
明(請求項5)は、マルチメディアデータに対する類似
検索システムやテキストの類似検索システムに用いられ
る類似特徴量の検索装置であって、全ての特徴量をキー
とするデータベース10と、データベース10内におけ
る類似計算を行い、他の特徴量との類似度を計算する類
似度計算手段20と、類似度計算手段20で求められた
類似度の高い順に上位f(x)件分のID情報を、類似
度順付で、あるいは、必要に応じて該類似度の値と共に
格納する、事前類似度計算結果格納手段30と、検索キ
ー特徴量としてデータベース10内の特徴量が与えられ
た場合、該検索キー特徴量に対する事前類似度計算結果
を事前類似度計算結果格納手段30を検索することによ
り取得して、検索結果として返却する事前類似度計算結
果検索手段40とを有する。
【0023】本発明(請求項6)は、検索キー特徴量と
してデータベース10内に存在することが分からない特
徴量が与えられた場合に、特徴量に最も類似するデータ
ベース10内の特徴量を検索する最近傍検索手段を更に
有し、事前類似度計算結果検索手段40は、最近傍検索
手段の検索結果の特徴量に対する事前類似度計算結果を
検索結果として返却する。
してデータベース10内に存在することが分からない特
徴量が与えられた場合に、特徴量に最も類似するデータ
ベース10内の特徴量を検索する最近傍検索手段を更に
有し、事前類似度計算結果検索手段40は、最近傍検索
手段の検索結果の特徴量に対する事前類似度計算結果を
検索結果として返却する。
【0024】本発明(請求項7)は、特徴量データの追
加がある場合に、追加されたデータに関して管理する追
加特徴量データ管理手段と、検索キー特徴量が与えられ
た場合には、事前類似度計算結果格納手段30からの結
果と、追加特徴量データ管理手段からの検索結果を類似
度順にマージした結果を検索結果として返却するマージ
手段を有する。
加がある場合に、追加されたデータに関して管理する追
加特徴量データ管理手段と、検索キー特徴量が与えられ
た場合には、事前類似度計算結果格納手段30からの結
果と、追加特徴量データ管理手段からの検索結果を類似
度順にマージした結果を検索結果として返却するマージ
手段を有する。
【0025】本発明(請求項8)は、特徴量データの追
加がある場合に、追加特徴量データ管理手段内の特徴量
データ数が特定値tを越えた後に、または、特定間隔の
時間経過を含むタイミングにより、追加特徴量データを
含めたデータベース10内の全てのデータに関し、事前
類似度計算結果検索手段40とは独立または、並列に事
前類似度計算を行う再計算手段と、再計算手段の計算が
完了した時点で、事前類似度計算結果格納手段30、及
び追加特徴量データ管理手段のデータの更新を行う更新
手段を有する。
加がある場合に、追加特徴量データ管理手段内の特徴量
データ数が特定値tを越えた後に、または、特定間隔の
時間経過を含むタイミングにより、追加特徴量データを
含めたデータベース10内の全てのデータに関し、事前
類似度計算結果検索手段40とは独立または、並列に事
前類似度計算を行う再計算手段と、再計算手段の計算が
完了した時点で、事前類似度計算結果格納手段30、及
び追加特徴量データ管理手段のデータの更新を行う更新
手段を有する。
【0026】本発明(請求項9)は、マルチメディアデ
ータに対する類似検索システムやテキストの類似検索シ
ステムに用いられる類似特徴量の検索プログラムを格納
した記憶媒体であって、データベース内の全ての特徴量
をキーとするデータベース内における類似計算を行い、
他の特徴量との類似度を計算する類似度計算プロセス
と、類似度計算プロセスで求められた類似度の高い順に
上位f(x)件分のID情報を、類似度順付で、あるい
は、必要に応じて該類似度の値と共に事前類似度計算結
果格納手段に格納する事前類似度計算結果格納制御プロ
セスと、検索キー特徴量としてデータベース内の特徴量
が与えられた場合、該検索キー特徴量に対する事前類似
度計算結果を事前類似度計算結果格納手段を検索するこ
とにより取得して、検索結果として返却する事前類似度
計算結果検索プロセスとを有する。
ータに対する類似検索システムやテキストの類似検索シ
ステムに用いられる類似特徴量の検索プログラムを格納
した記憶媒体であって、データベース内の全ての特徴量
をキーとするデータベース内における類似計算を行い、
他の特徴量との類似度を計算する類似度計算プロセス
と、類似度計算プロセスで求められた類似度の高い順に
上位f(x)件分のID情報を、類似度順付で、あるい
は、必要に応じて該類似度の値と共に事前類似度計算結
果格納手段に格納する事前類似度計算結果格納制御プロ
セスと、検索キー特徴量としてデータベース内の特徴量
が与えられた場合、該検索キー特徴量に対する事前類似
度計算結果を事前類似度計算結果格納手段を検索するこ
とにより取得して、検索結果として返却する事前類似度
計算結果検索プロセスとを有する。
【0027】本発明(請求項10)は、検索キー特徴量
としてデータベース内に存在することが分からない特徴
量が与えられた場合に、特徴量に最も類似するデータベ
ース内の特徴量を検索する最近傍検索プロセスを更に有
し、事前類似度計算結果検索プロセスは、最近傍検索プ
ロセスの検索結果の特徴量に対する事前類似度計算結果
を検索結果として返却する。
としてデータベース内に存在することが分からない特徴
量が与えられた場合に、特徴量に最も類似するデータベ
ース内の特徴量を検索する最近傍検索プロセスを更に有
し、事前類似度計算結果検索プロセスは、最近傍検索プ
ロセスの検索結果の特徴量に対する事前類似度計算結果
を検索結果として返却する。
【0028】本発明(請求項11)は、検索キー特徴量
が与えられた場合には、事前類似度計算結果格納手段か
らの結果と、特徴量データの追加がある場合に、追加さ
れたデータに関して管理する追加特徴量データ管理手段
からの検索結果を類似度順にマージした結果を検索結果
として返却するマージプロセスを有する。本発明(請求
項12)は、特徴量データの追加がある場合に、追加特
徴量データ管理手段内の特徴量データ数が特定値tを越
えた後に、または、特定間隔の時間経過を含むタイミン
グにより、追加特徴量データを含めたデータベース内の
全てのデータに関し、事前類似度計算結果検索プロセス
とは独立または、並列に事前類似度計算を行う再計算プ
ロセスと、再計算プロセスの計算が完了した時点で、事
前類似度計算結果格納手段、及び追加特徴量データ管理
手段のデータの更新を行う更新プロセスを含む。
が与えられた場合には、事前類似度計算結果格納手段か
らの結果と、特徴量データの追加がある場合に、追加さ
れたデータに関して管理する追加特徴量データ管理手段
からの検索結果を類似度順にマージした結果を検索結果
として返却するマージプロセスを有する。本発明(請求
項12)は、特徴量データの追加がある場合に、追加特
徴量データ管理手段内の特徴量データ数が特定値tを越
えた後に、または、特定間隔の時間経過を含むタイミン
グにより、追加特徴量データを含めたデータベース内の
全てのデータに関し、事前類似度計算結果検索プロセス
とは独立または、並列に事前類似度計算を行う再計算プ
ロセスと、再計算プロセスの計算が完了した時点で、事
前類似度計算結果格納手段、及び追加特徴量データ管理
手段のデータの更新を行う更新プロセスを含む。
【0029】上記のように、本発明は、類似度の高い順
に上位f(x)件分のID情報に類似度順が付与された
事前類似度計算結果に対する最近傍検索処理は、既にデ
ータベース内に存在する値に対する一致検索となるた
め、その索引方法としては、従来のB−Tree、B+
Tree、ハッシュ等のごく一般的な(容易な)手法を
利用することで実現できる。また、近傍順検索について
は、事前に計算してある結果をそのまま返却するだけの
処理となるため、その結果が例え、ディスク上にあろう
が、部分的にディスク上に存在するような複雑な構造を
持っていようが、非常に高速に検索が可能になる。
に上位f(x)件分のID情報に類似度順が付与された
事前類似度計算結果に対する最近傍検索処理は、既にデ
ータベース内に存在する値に対する一致検索となるた
め、その索引方法としては、従来のB−Tree、B+
Tree、ハッシュ等のごく一般的な(容易な)手法を
利用することで実現できる。また、近傍順検索について
は、事前に計算してある結果をそのまま返却するだけの
処理となるため、その結果が例え、ディスク上にあろう
が、部分的にディスク上に存在するような複雑な構造を
持っていようが、非常に高速に検索が可能になる。
【0030】また、検索実行時に次元数に依存する類似
度計算を行うことがないため、次元数の増加に対しても
性能が劣化することが少なく、高速である。さらに、索
引の構造の中に距離に依存した部分がないので、特殊な
類似性基準にも対応できる。また、データベース内の特
徴量のみを対象とする場合には、最も類似する特徴量
は、必ず自分自身であるため、一般には出力するか否か
についてシステムに依存するが、データベース外特徴量
を対象とする場合には、通常、最も類似する特徴量を出
力する必要がある。
度計算を行うことがないため、次元数の増加に対しても
性能が劣化することが少なく、高速である。さらに、索
引の構造の中に距離に依存した部分がないので、特殊な
類似性基準にも対応できる。また、データベース内の特
徴量のみを対象とする場合には、最も類似する特徴量
は、必ず自分自身であるため、一般には出力するか否か
についてシステムに依存するが、データベース外特徴量
を対象とする場合には、通常、最も類似する特徴量を出
力する必要がある。
【0031】また、特徴データの追加がある場合でも事
前類似度計算結果格納手段からの結果と追加特徴量デー
タ管理手段に格納されている検索結果を類似度順にマー
ジして、上位f(x)件を検索結果として出力すること
ができる。これにより、追加データのあるシステムの場
合においても事前類似度計算結果を索引として利用する
ことが可能となる。
前類似度計算結果格納手段からの結果と追加特徴量デー
タ管理手段に格納されている検索結果を類似度順にマー
ジして、上位f(x)件を検索結果として出力すること
ができる。これにより、追加データのあるシステムの場
合においても事前類似度計算結果を索引として利用する
ことが可能となる。
【0032】
【発明の実施の形態】以下の説明において、特徴量デー
タをデータベース内に存在する特徴量(これをデータベ
ース内特徴量と呼ぶ)と、データベース内に存在しない
特徴量(これをデータベース外特徴量と呼ぶ)の2種類
に分けて考える。例えば、類似画像検索システムにおい
て、データベース外特徴量を検索キーとして利用する例
としては、スケッチ入力画像を検索キーとする場合や、
ディジタルカメラ画像を検索キーとする場合がある。
タをデータベース内に存在する特徴量(これをデータベ
ース内特徴量と呼ぶ)と、データベース内に存在しない
特徴量(これをデータベース外特徴量と呼ぶ)の2種類
に分けて考える。例えば、類似画像検索システムにおい
て、データベース外特徴量を検索キーとして利用する例
としては、スケッチ入力画像を検索キーとする場合や、
ディジタルカメラ画像を検索キーとする場合がある。
【0033】一方、データベース内部特徴量のIDを検
索キーとして利用する例としては、システムが利用者に
ランダムに提示した画像を検索キーとする場合や、キー
ワード検索等の他の手法で検索した画像を検索キーとす
る場合や、一度検索した結果を利用してナビゲーション
的に繰り返し検索する場合などがある。類似検索の索引
の処理を、検索キー特徴量に最も類似する特徴量を求め
る処理である最近傍検索と、最近傍検索で求めた特徴量
から順に近い特徴量を求めていく近傍順検索の2つの処
理を分けて考えると、データベース外特徴量を検索キー
とする類似検索では、最近傍検索と近傍順検索の両方が
必要であり、データベース内特徴量のIDを検索キーと
する類似検索では、近傍順検索のみ必要である。
索キーとして利用する例としては、システムが利用者に
ランダムに提示した画像を検索キーとする場合や、キー
ワード検索等の他の手法で検索した画像を検索キーとす
る場合や、一度検索した結果を利用してナビゲーション
的に繰り返し検索する場合などがある。類似検索の索引
の処理を、検索キー特徴量に最も類似する特徴量を求め
る処理である最近傍検索と、最近傍検索で求めた特徴量
から順に近い特徴量を求めていく近傍順検索の2つの処
理を分けて考えると、データベース外特徴量を検索キー
とする類似検索では、最近傍検索と近傍順検索の両方が
必要であり、データベース内特徴量のIDを検索キーと
する類似検索では、近傍順検索のみ必要である。
【0034】なお、検索キーとしてデータベース内特徴
量そのものが与えられた場合においても、一致検索によ
ってデータベース内特徴量IDに変換することが可能で
あるため、最近傍検索は必要ない。本発明では、主に近
傍順検索の処理部分の高速化を対象とする。図3は、本
発明の類似特徴量検索装置の構成を示す。
量そのものが与えられた場合においても、一致検索によ
ってデータベース内特徴量IDに変換することが可能で
あるため、最近傍検索は必要ない。本発明では、主に近
傍順検索の処理部分の高速化を対象とする。図3は、本
発明の類似特徴量検索装置の構成を示す。
【0035】同図に示す類似特徴量検索装置は、データ
ベース10、類似度計算部20、事前類似度計算結果格
納部30、検索部40、検索キー入力部50、特徴量種
別判定部55、出力部60、最近傍検索部70、追加特
徴量データ管理部80、マージ部90から構成される。
データベース10は、全ての特徴量をキーとして、ID
情報及びデータと共に格納する。
ベース10、類似度計算部20、事前類似度計算結果格
納部30、検索部40、検索キー入力部50、特徴量種
別判定部55、出力部60、最近傍検索部70、追加特
徴量データ管理部80、マージ部90から構成される。
データベース10は、全ての特徴量をキーとして、ID
情報及びデータと共に格納する。
【0036】類似度計算部20は、データベース10内
における類似計算を行い、他の特徴量との類似度を計算
し、類似度の高い順に上位f(x)件分のID情報に類
似度順を付与してデータベース10に事前類似度計算結
果格納部30に格納する。必要によっては、当該類似度
の値と共に、事前類似度計算結果格納部30に格納す
る。
における類似計算を行い、他の特徴量との類似度を計算
し、類似度の高い順に上位f(x)件分のID情報に類
似度順を付与してデータベース10に事前類似度計算結
果格納部30に格納する。必要によっては、当該類似度
の値と共に、事前類似度計算結果格納部30に格納す
る。
【0037】事前類似度計算結果格納部30は、類似度
計算部20により求められた類似度計算結果(類似度
順、類似度が付与されたID情報)を格納する。検索部
40は、検索キー入力部50により与えられた検索キー
特徴量として特徴量が与えられると、事前類似度計算結
果格納部30を検索して、上位f(x)件を検索結果と
して出力部60より出力する。
計算部20により求められた類似度計算結果(類似度
順、類似度が付与されたID情報)を格納する。検索部
40は、検索キー入力部50により与えられた検索キー
特徴量として特徴量が与えられると、事前類似度計算結
果格納部30を検索して、上位f(x)件を検索結果と
して出力部60より出力する。
【0038】検索キー入力部50は、検索キー特徴量と
して特徴量を入力する。特徴量種別判定部55は、検索
キー入力部50から入力された特徴量がデータベース1
0にあるか、データベース10外にあるかを判定する。
出力部60は、検索部40、最近傍検索部70及びマー
ジ部80で求められた検索結果を出力する。
して特徴量を入力する。特徴量種別判定部55は、検索
キー入力部50から入力された特徴量がデータベース1
0にあるか、データベース10外にあるかを判定する。
出力部60は、検索部40、最近傍検索部70及びマー
ジ部80で求められた検索結果を出力する。
【0039】最近傍検索部70は、検索キー特徴量とし
て検索キー入力部50からデータベース10内に存在す
るか否かが分からない特徴量が与えられた場合には、そ
れに最も類似するデータベース内の特徴量をR−tre
e等を用いて検索し、その結果の特徴量に対する事前類
似度計算結果格納部30から検索して、上位f(x)件
を検索結果として返却する。
て検索キー入力部50からデータベース10内に存在す
るか否かが分からない特徴量が与えられた場合には、そ
れに最も類似するデータベース内の特徴量をR−tre
e等を用いて検索し、その結果の特徴量に対する事前類
似度計算結果格納部30から検索して、上位f(x)件
を検索結果として返却する。
【0040】追加特徴量データ管理部80は、検索キー
入力部50から入力された特徴量データを格納する。マ
ージ部90は、検索部40が事前類似度計算結果格納部
30から検索した検索結果と、追加特徴量データ管理部
80から検索した検索結果とをマージする。次に、上記
の構成における動作を説明する。
入力部50から入力された特徴量データを格納する。マ
ージ部90は、検索部40が事前類似度計算結果格納部
30から検索した検索結果と、追加特徴量データ管理部
80から検索した検索結果とをマージする。次に、上記
の構成における動作を説明する。
【0041】図4は、本発明の検索構築時及び検索実行
時の動作を示すフローチャートである。まず、最初に検
索構築時の動作について説明する。 ステップ101) データベース10内における全特徴
量に対して以下の処理を繰り返す。
時の動作を示すフローチャートである。まず、最初に検
索構築時の動作について説明する。 ステップ101) データベース10内における全特徴
量に対して以下の処理を繰り返す。
【0042】ステップ102) 類似度計算部20は、
データベース10内における類似度計算を行い、他の特
徴量との類似度の計算を行い、類似度の高い順に上位f
(x)件分のID情報を、類似度順、類似度の値を求め
る。 ステップ103) 類似度計算部20により求められた
結果を、特徴量または、そのIDをキーとして事前類似
度計算結果格納部30に格納する。
データベース10内における類似度計算を行い、他の特
徴量との類似度の計算を行い、類似度の高い順に上位f
(x)件分のID情報を、類似度順、類似度の値を求め
る。 ステップ103) 類似度計算部20により求められた
結果を、特徴量または、そのIDをキーとして事前類似
度計算結果格納部30に格納する。
【0043】次に、検索実行時の動作について説明す
る。 ステップ201) データベース10内の特徴量を検索
キー特徴量として検索キー入力部50より入力される。 ステップ202) 検索部40は、入力された特徴量ま
たは、そのIDをキーとして確定検索方式により事前類
似度計算結果格納部30に対して検索を行い、検索結果
を取得する。
る。 ステップ201) データベース10内の特徴量を検索
キー特徴量として検索キー入力部50より入力される。 ステップ202) 検索部40は、入力された特徴量ま
たは、そのIDをキーとして確定検索方式により事前類
似度計算結果格納部30に対して検索を行い、検索結果
を取得する。
【0044】ステップ203) 検索部40は、上位f
(x)件分の結果を出力部60に出力する。このときの
事前類似度計算結果に対する最近傍検索の処理は、すで
にデータベース10内に存在する値に対する一致検索と
なるため、その検索方法としては、既存のB−Tre
e、B+Tree、ハッシュ等の一般的な(容易な)手
法を利用することで実現できる。
(x)件分の結果を出力部60に出力する。このときの
事前類似度計算結果に対する最近傍検索の処理は、すで
にデータベース10内に存在する値に対する一致検索と
なるため、その検索方法としては、既存のB−Tre
e、B+Tree、ハッシュ等の一般的な(容易な)手
法を利用することで実現できる。
【0045】また、近傍順検索については、事前に計算
してある結果をそのまま返却するのみの処理となるた
め、その結果が例え、データベース10上にあろうが、
部分的にデータベース10上に存在するような複雑な構
造を持っていようが、非常に高速に検索が可能となる。
また、検索実行時に次元数に依存する類似度計算を行う
ことがないため、次元数の増加に対しても性能が劣化す
ることが少なく、高速である。
してある結果をそのまま返却するのみの処理となるた
め、その結果が例え、データベース10上にあろうが、
部分的にデータベース10上に存在するような複雑な構
造を持っていようが、非常に高速に検索が可能となる。
また、検索実行時に次元数に依存する類似度計算を行う
ことがないため、次元数の増加に対しても性能が劣化す
ることが少なく、高速である。
【0046】さらに、索引の構造の中に距離に依存した
部分がないので、特殊な類似性基準にも対応できる。次
に、最近傍検索の処理について説明する。データベース
10内特徴量のみを対象とする場合には、最も類似する
特徴量は必ずデータベース10内にあるため、一般には
出力するか否かについてシステムに依存するが、データ
ベース外特徴量を対象とする場合には、通常最も類似す
る特徴量を出力する必要がある。
部分がないので、特殊な類似性基準にも対応できる。次
に、最近傍検索の処理について説明する。データベース
10内特徴量のみを対象とする場合には、最も類似する
特徴量は必ずデータベース10内にあるため、一般には
出力するか否かについてシステムに依存するが、データ
ベース外特徴量を対象とする場合には、通常最も類似す
る特徴量を出力する必要がある。
【0047】図5は、本発明の最近傍検索の処理を示す
フローチャートである。 ステップ301) 検索キー入力部50から検索キー特
徴量として、データベース10内に存在することが分か
らない特徴量が与えられる。 ステップ302) 特徴量種別判定部55において、入
力された特徴量がデータベース10にあるか、データベ
ース10外にあるかを判定し、データベース10内にあ
る場合にはステップ303に移行し、データベース10
外にある場合にはステップ304に移行する。
フローチャートである。 ステップ301) 検索キー入力部50から検索キー特
徴量として、データベース10内に存在することが分か
らない特徴量が与えられる。 ステップ302) 特徴量種別判定部55において、入
力された特徴量がデータベース10にあるか、データベ
ース10外にあるかを判定し、データベース10内にあ
る場合にはステップ303に移行し、データベース10
外にある場合にはステップ304に移行する。
【0048】ステップ303) 入力された特徴量がデ
ータベース10外にある場合には、最近傍検索部70に
おいて、与えられた特徴がどの分類に相当するかを分類
基準にしたがって検索を辿り、最も近い特徴量のIDを
取得し、ステップ304に移行する。 ステップ304) 入力された特徴量がデータベース1
0内にある場合には、検索部40は、入力された特徴量
または、最近傍検索部70により求められた特徴量のI
Dをキーとして確定検索方式により事前類似度計算結果
格納部30に対して検索を行い、結果を出力部60に出
力し、ステップ305に移行する。
ータベース10外にある場合には、最近傍検索部70に
おいて、与えられた特徴がどの分類に相当するかを分類
基準にしたがって検索を辿り、最も近い特徴量のIDを
取得し、ステップ304に移行する。 ステップ304) 入力された特徴量がデータベース1
0内にある場合には、検索部40は、入力された特徴量
または、最近傍検索部70により求められた特徴量のI
Dをキーとして確定検索方式により事前類似度計算結果
格納部30に対して検索を行い、結果を出力部60に出
力し、ステップ305に移行する。
【0049】ステップ305) 出力部60において、
上位f(x)件分の結果を出力する。次に、特徴量デー
タの追加がある場合に対処する処理を説明する。図6
は、本発明の特徴量データの追加がある場合の処理を示
すフローチャートである。
上位f(x)件分の結果を出力する。次に、特徴量デー
タの追加がある場合に対処する処理を説明する。図6
は、本発明の特徴量データの追加がある場合の処理を示
すフローチャートである。
【0050】ステップ401) まず、特徴量データの
追加時の処理として、特徴量のデータの追加がある場合
には、特徴量データの追加と索引の再構成を行い、追加
特徴量データ管理部80に格納する。 ステップ501) 検索実行時の処理として、検索キー
特徴量が検索キー入力部50から入力される。
追加時の処理として、特徴量のデータの追加がある場合
には、特徴量データの追加と索引の再構成を行い、追加
特徴量データ管理部80に格納する。 ステップ501) 検索実行時の処理として、検索キー
特徴量が検索キー入力部50から入力される。
【0051】ステップ502) 検索部40は、検索キ
ー特徴量を用いて、事前類似計算結果格納部30から上
位f(x)件の類似検索を行う。 ステップ503) さらに、検索部40は、追加特徴量
データ管理部80から上位f(x)件以内の類似検索を
行う。 ステップ504) マージ部90は、ステップ502と
ステップ503で求められた検索結果を距離順に整列さ
せる。
ー特徴量を用いて、事前類似計算結果格納部30から上
位f(x)件の類似検索を行う。 ステップ503) さらに、検索部40は、追加特徴量
データ管理部80から上位f(x)件以内の類似検索を
行う。 ステップ504) マージ部90は、ステップ502と
ステップ503で求められた検索結果を距離順に整列さ
せる。
【0052】ステップ505) 出力部60から上位f
(x)件分の結果を返却する。また、特徴量データの追
加がある場合において、追加特徴量データ管理部80内
の特徴量データ数が特定値tを越えた後に、または、特
定間隔の時間経過等のタイミングにより、その追加特徴
量データを含むデータベース10内のデータに関し、検
索部40における事前類似度計算結果格納部30による
検索処理とは独立して、計算が完了した時点で、事前類
似度計算結果格納部30及び追加特徴量データ管理部8
0のデータの更新を行う。
(x)件分の結果を返却する。また、特徴量データの追
加がある場合において、追加特徴量データ管理部80内
の特徴量データ数が特定値tを越えた後に、または、特
定間隔の時間経過等のタイミングにより、その追加特徴
量データを含むデータベース10内のデータに関し、検
索部40における事前類似度計算結果格納部30による
検索処理とは独立して、計算が完了した時点で、事前類
似度計算結果格納部30及び追加特徴量データ管理部8
0のデータの更新を行う。
【0053】これにより、追加データのあるシステムの
場合でも、事前類似度計算結果を索引として利用するこ
とが可能となる。但し、高度な類似度を用いる場合や高
次元特徴量を扱う場合や、データ数が少ない場合には、
R−tree等の木状索引を利用せずに、全件処理を行
う方が望ましい。
場合でも、事前類似度計算結果を索引として利用するこ
とが可能となる。但し、高度な類似度を用いる場合や高
次元特徴量を扱う場合や、データ数が少ない場合には、
R−tree等の木状索引を利用せずに、全件処理を行
う方が望ましい。
【0054】なお、本明細書では、特徴量種が1種類の
場合を想定して記述しているが、2種以上の特徴量が存
在し、それらを独立に検索するような場合にも、複数の
事前類似度計算結果を持つことで同様に適用できる。特
徴量種別としては、画像の場合、色相、彩度、輝度、テ
クスチャ、大きさ等、画像オブジェクトの場合には、さ
らに、形、位置、傾き等多種存在する。
場合を想定して記述しているが、2種以上の特徴量が存
在し、それらを独立に検索するような場合にも、複数の
事前類似度計算結果を持つことで同様に適用できる。特
徴量種別としては、画像の場合、色相、彩度、輝度、テ
クスチャ、大きさ等、画像オブジェクトの場合には、さ
らに、形、位置、傾き等多種存在する。
【0055】また、本明細書では、1種類の特徴量に対
し、1種類の類似度基準を前提として記述しているが、
複数の類似度基準(または、距離基準)を切り替えて検
索を可能にするシステムに対応するため、事前類似度計
算結果を類似度基準の種類数分だけ用意すればよい。
し、1種類の類似度基準を前提として記述しているが、
複数の類似度基準(または、距離基準)を切り替えて検
索を可能にするシステムに対応するため、事前類似度計
算結果を類似度基準の種類数分だけ用意すればよい。
【0056】
【実施例】以下、図面と共に本発明の実施例を説明す
る。 [第1の実施例]図7は、本発明の第1の実施例の事前
類似度計算結果の例を説明するための図であり、図8
は、本発明の第1の実施例の総当たりによる事前類似度
計算の例を説明するための図である。
る。 [第1の実施例]図7は、本発明の第1の実施例の事前
類似度計算結果の例を説明するための図であり、図8
は、本発明の第1の実施例の総当たりによる事前類似度
計算の例を説明するための図である。
【0057】図7、図8を用いて事前類似度計算結果の
作成方法、及びその検索時の利用方法について説明す
る。まず、事前類似度計算結果を作成するため、データ
ベース10内の全特徴量に対して以下の処理を繰り返
す。始めに、キーをID1の(0.3、0.3)とし、
ID2〜ID6までのデータを対象とした類似検索を行
う。その結果が図8に示されている。この例では、最も
簡単な実装の場合を想定し、「f(x)件」として全件
(この場合6件)だったとした場合で、類似検索方法
は、全ての組み合わせで類似度を計算した場合とし、類
似度の高い順に並んだ6つのIDの結果、 ID1,ID2,ID4,ID5,ID3,ID6 を求め、図7のID1の事前類似度計算結果として登録
している。
作成方法、及びその検索時の利用方法について説明す
る。まず、事前類似度計算結果を作成するため、データ
ベース10内の全特徴量に対して以下の処理を繰り返
す。始めに、キーをID1の(0.3、0.3)とし、
ID2〜ID6までのデータを対象とした類似検索を行
う。その結果が図8に示されている。この例では、最も
簡単な実装の場合を想定し、「f(x)件」として全件
(この場合6件)だったとした場合で、類似検索方法
は、全ての組み合わせで類似度を計算した場合とし、類
似度の高い順に並んだ6つのIDの結果、 ID1,ID2,ID4,ID5,ID3,ID6 を求め、図7のID1の事前類似度計算結果として登録
している。
【0058】同様に、キーID2〜キーID6までの処
理を行った場合を図7に示す。なお、類似検索方法は、
R−Treeのような他の既存の類似検索用索引手法を
用いた方法であっても構わない。また、事前類似度計算
結果中には、必要に応じて、類似度等の情報を持つこと
もある。例えば、第3の実施例において後述するよう
に、再度、類似度計算が必要な場合には、事前類似度計
算結果として類似度情報を持つと効率がよい。
理を行った場合を図7に示す。なお、類似検索方法は、
R−Treeのような他の既存の類似検索用索引手法を
用いた方法であっても構わない。また、事前類似度計算
結果中には、必要に応じて、類似度等の情報を持つこと
もある。例えば、第3の実施例において後述するよう
に、再度、類似度計算が必要な場合には、事前類似度計
算結果として類似度情報を持つと効率がよい。
【0059】次に、事前類似度計算結果を使った検索の
例を示す。検索キーとして与えられた特徴量がデータベ
ース10内特徴量と分かる場合、通常、その情報はID
として与えられ、IDを使って、事前類似度計算結果か
ら、IDに割り当てられている事前類似度計算結果を得
ることができる。しかし、もし、この段階で特徴量しか
与えられなかった場合でも、特徴量に対し、普通のB−
tree索引等が付与してあれば、単なる一致検索とし
て、高速にそのIDを求めることができる。
例を示す。検索キーとして与えられた特徴量がデータベ
ース10内特徴量と分かる場合、通常、その情報はID
として与えられ、IDを使って、事前類似度計算結果か
ら、IDに割り当てられている事前類似度計算結果を得
ることができる。しかし、もし、この段階で特徴量しか
与えられなかった場合でも、特徴量に対し、普通のB−
tree索引等が付与してあれば、単なる一致検索とし
て、高速にそのIDを求めることができる。
【0060】なお、事前類似度計算結果に登録してある
IDの件数が、検索として要求され、検索された件数よ
り少ない場合には、本発明では、上位f(x)件までの
部分にしか機能せず、f(x)件の部分については、従
来手法による類似順検索が必要になる。しかし、通常
は、データベース作成時にアプリケーションとして利用
する最大件数が決定できるため、それを越える個数のI
Dを事前類似度計算結果に用意しておけば問題ない。
IDの件数が、検索として要求され、検索された件数よ
り少ない場合には、本発明では、上位f(x)件までの
部分にしか機能せず、f(x)件の部分については、従
来手法による類似順検索が必要になる。しかし、通常
は、データベース作成時にアプリケーションとして利用
する最大件数が決定できるため、それを越える個数のI
Dを事前類似度計算結果に用意しておけば問題ない。
【0061】[第2の実施例]本実施例では、与えられ
る検索キーが内部データベース特徴量と判断できない場
合の例を示す。与えられた検索キーがデータベース内部
にある特徴量と判断できない場合には、その特徴量デー
タによる最近傍検索だけをR−Treeのような他の従
来手法を利用し、その後の近傍順検索については、本発
明を利用する。
る検索キーが内部データベース特徴量と判断できない場
合の例を示す。与えられた検索キーがデータベース内部
にある特徴量と判断できない場合には、その特徴量デー
タによる最近傍検索だけをR−Treeのような他の従
来手法を利用し、その後の近傍順検索については、本発
明を利用する。
【0062】これは、例えば、図10に示す類似検索の
ように、検索キーとして(0.5,0.6)が与えられ
た場合、その最近傍特徴量の(0.5,0.5)を求め
るまでは、従来手法を用い、その後、(0.5,0.
5)の近傍順検索では、そのIDに登録されている事前
類似度計算結果の ID4,ID3,ID1,ID5,ID2,ID6 を検索結果とする。
ように、検索キーとして(0.5,0.6)が与えられ
た場合、その最近傍特徴量の(0.5,0.5)を求め
るまでは、従来手法を用い、その後、(0.5,0.
5)の近傍順検索では、そのIDに登録されている事前
類似度計算結果の ID4,ID3,ID1,ID5,ID2,ID6 を検索結果とする。
【0063】なお、厳密な類似度順の結果を得たい場合
には、再度、類似度計算を行い、整列をし直すものとす
る。 [第3の実施例]本実施例では、特徴量データに追加が
有る場合の処理を図7及び図9を用いて説明する。
には、再度、類似度計算を行い、整列をし直すものとす
る。 [第3の実施例]本実施例では、特徴量データに追加が
有る場合の処理を図7及び図9を用いて説明する。
【0064】図9は、本発明の第3の実施例の追加特徴
量の管理とその類似検索の例を説明するための図であ
る。本実施例において、事前類似度計算結果は図7に示
すものとし、後に追加されたデータは、図9のように追
加特徴量データ管理部80に格納される。この追加特徴
量データ管理部80には、一般には従来の木状索引等が
付与され、高速化される。また、データベース外特徴量
を扱う場合の最近傍検索用索引と統合されることもあ
る。
量の管理とその類似検索の例を説明するための図であ
る。本実施例において、事前類似度計算結果は図7に示
すものとし、後に追加されたデータは、図9のように追
加特徴量データ管理部80に格納される。この追加特徴
量データ管理部80には、一般には従来の木状索引等が
付与され、高速化される。また、データベース外特徴量
を扱う場合の最近傍検索用索引と統合されることもあ
る。
【0065】検索キー特徴量が与えられた場合には、事
前類似度計算結果から上位f(x)件の類似検索結果を
得、同時に、追加特徴量データ管理部80からも最大で
上位f(x)件の類似検索結果を得る。このとき、それ
らの結果に類似度情報も付与しておき、その類似度で上
位f(x)件の類似度データを作成し、それを類似検索
結果とする。
前類似度計算結果から上位f(x)件の類似検索結果を
得、同時に、追加特徴量データ管理部80からも最大で
上位f(x)件の類似検索結果を得る。このとき、それ
らの結果に類似度情報も付与しておき、その類似度で上
位f(x)件の類似度データを作成し、それを類似検索
結果とする。
【0066】なお、この検索キー特徴量がデータベース
ない特徴量の場合には、事前類似度計算結果から得られ
た上位f(x)件に対し、事前に計算された類似度を利
用することができるが、データベース外特徴量の場合に
は、類似度に関し、再計算が必要となる。例えば、検索
キー特徴量が(0.5、0.6)の場合、第2の実施例
で示したように、事前類似度計算結果を使った検索結果
は、 ID4,ID3,ID1,ID5,ID2,ID6 となり、その距離の再計算を行うと、 ID4,ID3,ID1,ID5,ID2,ID6 になる。
ない特徴量の場合には、事前類似度計算結果から得られ
た上位f(x)件に対し、事前に計算された類似度を利
用することができるが、データベース外特徴量の場合に
は、類似度に関し、再計算が必要となる。例えば、検索
キー特徴量が(0.5、0.6)の場合、第2の実施例
で示したように、事前類似度計算結果を使った検索結果
は、 ID4,ID3,ID1,ID5,ID2,ID6 となり、その距離の再計算を行うと、 ID4,ID3,ID1,ID5,ID2,ID6 になる。
【0067】また、図9の追加特徴量データ管理部80
から検索した結果は、 ID1,ID2,ID3 となり、これらを類似度順にマージすると、 内ID4,内ID3,追ID1,内ID1,内ID6,
内ID5,追ID2,追ID3,内ID2 となる。
から検索した結果は、 ID1,ID2,ID3 となり、これらを類似度順にマージすると、 内ID4,内ID3,追ID1,内ID1,内ID6,
内ID5,追ID2,追ID3,内ID2 となる。
【0068】但し、事前類似度計算結果内のIDは、
「内ID」と、追加特徴量データ管理部80内のID
は、「追ID」と記載し、区別した。よって、この内の
上位f(x)件を検索結果とすればよい。また、本発明
は、上記の実施例に限定されることなく、図3に示す構
成要件をプログラムとして構築し、類似特徴量検索装置
として利用されるコンピュータに接続されるディスク装
置や、フロッピーディスク、CD−ROM等の可搬記憶
媒体に格納しておき、本発明を実施する際に、インスト
ールすることにより容易に本発明を実現できる。
「内ID」と、追加特徴量データ管理部80内のID
は、「追ID」と記載し、区別した。よって、この内の
上位f(x)件を検索結果とすればよい。また、本発明
は、上記の実施例に限定されることなく、図3に示す構
成要件をプログラムとして構築し、類似特徴量検索装置
として利用されるコンピュータに接続されるディスク装
置や、フロッピーディスク、CD−ROM等の可搬記憶
媒体に格納しておき、本発明を実施する際に、インスト
ールすることにより容易に本発明を実現できる。
【0069】なお、本発明は、上記の実施例に限定され
ることなく、特許請求の範囲内で種々変更・応用が可能
である。
ることなく、特許請求の範囲内で種々変更・応用が可能
である。
【0070】
【発明の効果】上述のように、本発明によれば、事前類
似度計算結果情報が、たとえ、ディスク上にあろうが、
部分的にディスク上に存在するような複雑な構造を持っ
ていようが、データベース全体の特徴量データ件数が多
かろうが、非常に高速に検索ができる。
似度計算結果情報が、たとえ、ディスク上にあろうが、
部分的にディスク上に存在するような複雑な構造を持っ
ていようが、データベース全体の特徴量データ件数が多
かろうが、非常に高速に検索ができる。
【0071】また、検索実行時に次元数に依存する類似
度計算を行うことがないため、次元数の増加に対しても
性能が劣化することが少なく、高速である。さらに、索
引の構造の中に距離に依存した部分がないので、特殊な
類似性基準にも対応できる。また、本発明は、近傍検索
と組み合わせた、高速な類似検索が可能となる。
度計算を行うことがないため、次元数の増加に対しても
性能が劣化することが少なく、高速である。さらに、索
引の構造の中に距離に依存した部分がないので、特殊な
類似性基準にも対応できる。また、本発明は、近傍検索
と組み合わせた、高速な類似検索が可能となる。
【0072】さらに、本発明は、追加の特徴量データが
存在する場合にも、システムの構成が可能となる。
存在する場合にも、システムの構成が可能となる。
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明の類似特徴量検索装置の構成図である。
【図4】本発明の索引構築時及び検索実行時の動作を示
すフローチャートである。
すフローチャートである。
【図5】本発明の最近傍検索の処理を示すフローチャー
トである。
トである。
【図6】本発明の特徴量データの追加がある場合の処理
を示すフローチャートである。
を示すフローチャートである。
【図7】本発明の第1の実施例の事前類似度計算結果の
例を説明するための図である。
例を説明するための図である。
【図8】本発明の第1の実施例の総当たりによる事前類
似度計算の例を説明するための図である。
似度計算の例を説明するための図である。
【図9】本発明の第3の実施例の追加特徴量の管理とそ
の類似検索の例を説明するための図である。
の類似検索の例を説明するための図である。
【図10】類似検索を説明するための図である。
【図11】従来のR−treeの特徴量空間分割を説明
するための図である。
するための図である。
【図12】従来のR−treeの木構造を説明するため
の図である。
の図である。
【図13】従来のPR−quadtreeの特徴量空間
分割を説明するための図である。
分割を説明するための図である。
【図14】従来のPR−quadtreeの木構造を説
明するための図である。
明するための図である。
【図15】従来の木状索引を使った類似検索のフローチ
ャートである。
ャートである。
10 データベース 20 類似度計算手段、類似度計算部 30 事前類似度計算結果格納手段、事前類似度計算結
果格納部 40 事前類似度計算結果検索手段、検索部 50 検索キー入力部 55 特徴量種別判定部 60 出力部 70 最近傍検索部 80 追加特徴量データ管理部 90 マージ部
果格納部 40 事前類似度計算結果検索手段、検索部 50 検索キー入力部 55 特徴量種別判定部 60 出力部 70 最近傍検索部 80 追加特徴量データ管理部 90 マージ部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 三井 一能 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内 (72)発明者 串間 和彦 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内 Fターム(参考) 5B050 EA24 FA10 GA08 5B075 ND07 ND12 ND14 ND40 PR06 UU13 UU40 5L096 JA04 KA09
Claims (12)
- 【請求項1】 マルチメディアデータに対する類似検索
システムやテキストの類似検索システムに用いられる類
似特徴量の検索方法において、 予めデータベース内の全ての特徴量をキーとし、 前記データベース内における類似計算を行い、他の特徴
量との類似度を計算し、 前記類似度の高い順に上位f(x)件分のID情報を、
類似度順付で、あるいは、必要に応じて該類似度の値と
共に、事前類似度計算結果格納装置に格納しておき、 検索キー特徴量として前記データベース内の特徴量が与
えられた場合、該検索キー特徴量に基づいて前記事前類
似度計算結果格納装置を検索して、事前類似度計算結果
を検索結果として返却することを特徴とする類似特徴量
の検索方法。 - 【請求項2】 前記検索キー特徴量として前記データベ
ース内に存在することが分からない特徴量が与えられた
場合に、 前記特徴量に最も類似する前記データベース内の特徴量
を最近傍検索装置により検索し、 検索結果の特徴量に基づいて前記事前類似度計算結果格
納装置を検索して、事前類似度計算結果を検索結果とし
て返却する請求項1記載の類似特徴量の検索方法。 - 【請求項3】 特徴量データの追加がある場合に、追加
されたデータに関しては、追加特徴量データ管理装置で
管理を行い、 検索キー特徴量が与えられた場合には、 前記事前類似度計算結果格納装置を検索した結果と、前
記追加特徴量データ管理装置からの検索結果を類似度順
にマージした結果を検索結果として返却する請求項1乃
至2記載の類似特徴量の検索方法。 - 【請求項4】 特徴量データの追加がある場合に、前記
追加特徴量データ管理装置内の特徴量データ数が特定値
tを越えた後に、または、特定間隔の時間経過を含むタ
イミングにより、追加特徴量データを含めたデータベー
ス内の全てのデータに関し、前記事前類似度計算結果の
再計算を検索を行う処理とは、独立にまたは、並列に行
い、 計算が完了した時点で、前記事前類似度計算結果、及び
前記追加特徴量データ管理装置のデータの更新を行う請
求項3記載の類似特徴量の検索方法。 - 【請求項5】 マルチメディアデータに対する類似検索
システムやテキストの類似検索システムに用いられる類
似特徴量の検索装置であって、 全ての特徴量をキーとするデータベースと、 前記データベース内における類似計算を行い、他の特徴
量との類似度を計算する類似度計算手段と、 前記類似度計算手段で求められた前記類似度の高い順に
上位f(x)件分のID情報を、類似度順付で、あるい
は、必要に応じて該類似度の値と共に格納する、事前類
似度計算結果格納手段と、 検索キー特徴量として前記データベース内の特徴量が与
えられた場合、該検索キー特徴量に対する事前類似度計
算結果を前記事前類似度計算結果格納手段を検索するこ
とにより取得して、検索結果として返却する事前類似度
計算結果検索手段とを有することを特徴とする類似特徴
量の検索装置。 - 【請求項6】 前記検索キー特徴量として前記データベ
ース内に存在することが分からない特徴量が与えられた
場合に、前記特徴量に最も類似する前記データベース内
の特徴量を検索する最近傍検索手段を更に有し、 前記事前類似度計算結果検索手段は、前記最近傍検索手
段の検索結果の特徴量に対する事前類似度計算結果を検
索結果として返却する請求項5記載の類似特徴量の検索
装置。 - 【請求項7】 特徴量データの追加がある場合に、追加
されたデータに関して管理する追加特徴量データ管理手
段と、 検索キー特徴量が与えられた場合には、前記事前類似度
計算結果格納手段からの結果と、前記追加特徴量データ
管理手段からの検索結果を類似度順にマージした結果を
検索結果として返却するマージ手段を有する請求項5乃
至6記載の類似特徴量の検索装置。 - 【請求項8】 特徴量データの追加がある場合に、前記
追加特徴量データ管理手段内の特徴量データ数が特定値
tを越えた後に、または、特定間隔の時間経過を含むタ
イミングにより、追加特徴量データを含めたデータベー
ス内の全てのデータに関し、前記事前類似度計算結果検
索手段とは独立または、並列に事前類似度計算を行う再
計算手段と、 前記再計算手段の計算が完了した時点で、前記事前類似
度計算結果格納手段、及び前記追加特徴量データ管理手
段のデータの更新を行う更新手段を有する請求項7記載
の類似特徴量の検索装置。 - 【請求項9】 マルチメディアデータに対する類似検索
システムやテキストの類似検索システムに用いられる類
似特徴量の検索プログラムを格納した記憶媒体であっ
て、 データベース内の全ての特徴量をキーとするデータベー
ス内における類似計算を行い、他の特徴量との類似度を
計算する類似度計算プロセスと、 前記類似度計算プロセスで求められた前記類似度の高い
順に上位f(x)件分のID情報を、類似度順付で、あ
るいは、必要に応じて該類似度の値と共に事前類似度計
算結果格納手段に格納する事前類似度計算結果格納制御
プロセスと、検索キー特徴量として前記データベース内
の特徴量が与えられた場合、該検索キー特徴量に対する
事前類似度計算結果を前記事前類似度計算結果格納手段
を検索することにより取得して、検索結果として返却す
る事前類似度計算結果検索プロセスとを有することを特
徴とする類似特徴量の検索プログラムを格納した記憶媒
体。 - 【請求項10】 前記検索キー特徴量として前記データ
ベース内に存在することが分からない特徴量が与えられ
た場合に、前記特徴量に最も類似する前記データベース
内の特徴量を検索する最近傍検索プロセスを更に有し、 前記事前類似度計算結果検索プロセスは、前記最近傍検
索プロセスの検索結果の特徴量に対する事前類似度計算
結果を検索結果として返却する請求項9記載の類似特徴
量の検索プログラムを格納した記憶媒体。 - 【請求項11】 検索キー特徴量が与えられた場合に
は、前記事前類似度計算結果格納手段からの結果と、特
徴量データの追加がある場合に、追加されたデータに関
して管理する追加特徴量データ管理手段からの検索結果
を類似度順にマージした結果を検索結果として返却する
マージプロセスを有する請求項8乃至10記載の類似特
徴量の検索プログラムを格納した記憶媒体。 - 【請求項12】 特徴量データの追加がある場合に、前
記追加特徴量データ管理手段内の特徴量データ数が特定
値tを越えた後に、または、特定間隔の時間経過を含む
タイミングにより、追加特徴量データを含めたデータベ
ース内の全てのデータに関し、前記事前類似度計算結果
検索プロセスとは独立または、並列に事前類似度計算を
行う再計算プロセスと、 前記再計算プロセスの計算が完了した時点で、前記事前
類似度計算結果格納手段、及び前記追加特徴量データ管
理手段のデータの更新を行う更新プロセスを含む請求項
11記載の類似特徴量の検索プログラムを格納した記憶
媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10203583A JP2000035965A (ja) | 1998-07-17 | 1998-07-17 | 類似特徴量の検索方法及び装置及び類似特徴量の検索プログラムを格納した記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10203583A JP2000035965A (ja) | 1998-07-17 | 1998-07-17 | 類似特徴量の検索方法及び装置及び類似特徴量の検索プログラムを格納した記憶媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2000035965A true JP2000035965A (ja) | 2000-02-02 |
Family
ID=16476503
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10203583A Pending JP2000035965A (ja) | 1998-07-17 | 1998-07-17 | 類似特徴量の検索方法及び装置及び類似特徴量の検索プログラムを格納した記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2000035965A (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000200342A (ja) * | 1999-01-06 | 2000-07-18 | Nippon Telegr & Teleph Corp <Ntt> | 多次元空間デ―タ構造および多次元空間デ―タの更新および探索方法と前記多次元空間デ―タ構造を記録した記録媒体および前記方法を実施するプログラムを記録した記録媒体 |
JP2004516553A (ja) * | 2000-12-15 | 2004-06-03 | ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー | エンティテイにインデックス付けする方法 |
JP2007080210A (ja) * | 2005-09-16 | 2007-03-29 | Ricoh Co Ltd | 情報管理装置、情報管理方法、情報管理プログラムおよび記録媒体 |
US7526497B2 (en) | 2002-03-29 | 2009-04-28 | Canon Kabushiki Kaisha | Database retrieval apparatus, retrieval method, storage medium, and program |
JP2014127094A (ja) * | 2012-12-27 | 2014-07-07 | Yahoo Japan Corp | 語彙探索装置、語彙探索方法、及び、語彙探索プログラム |
WO2014109127A1 (ja) | 2013-01-11 | 2014-07-17 | 日本電気株式会社 | インデックス生成装置及び方法並びに検索装置及び検索方法 |
US10437803B2 (en) | 2014-07-10 | 2019-10-08 | Nec Corporation | Index generation apparatus and index generation method |
CN113377997A (zh) * | 2021-06-30 | 2021-09-10 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种歌曲检索方法、电子设备及计算机可读存储介质 |
US11281645B2 (en) | 2015-10-28 | 2022-03-22 | Kabushiki Kaisha Toshiba | Data management system, data management method, and computer program product |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03194655A (ja) * | 1989-12-25 | 1991-08-26 | Nippon Telegr & Teleph Corp <Ntt> | 類似画像の蓄積および検索方法 |
JPH08305711A (ja) * | 1995-05-11 | 1996-11-22 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法及び装置 |
-
1998
- 1998-07-17 JP JP10203583A patent/JP2000035965A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03194655A (ja) * | 1989-12-25 | 1991-08-26 | Nippon Telegr & Teleph Corp <Ntt> | 類似画像の蓄積および検索方法 |
JPH08305711A (ja) * | 1995-05-11 | 1996-11-22 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法及び装置 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000200342A (ja) * | 1999-01-06 | 2000-07-18 | Nippon Telegr & Teleph Corp <Ntt> | 多次元空間デ―タ構造および多次元空間デ―タの更新および探索方法と前記多次元空間デ―タ構造を記録した記録媒体および前記方法を実施するプログラムを記録した記録媒体 |
JP2004516553A (ja) * | 2000-12-15 | 2004-06-03 | ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー | エンティテイにインデックス付けする方法 |
US7526497B2 (en) | 2002-03-29 | 2009-04-28 | Canon Kabushiki Kaisha | Database retrieval apparatus, retrieval method, storage medium, and program |
JP2007080210A (ja) * | 2005-09-16 | 2007-03-29 | Ricoh Co Ltd | 情報管理装置、情報管理方法、情報管理プログラムおよび記録媒体 |
JP4700452B2 (ja) * | 2005-09-16 | 2011-06-15 | 株式会社リコー | 情報管理装置、情報管理方法、情報管理プログラムおよび記録媒体 |
JP2014127094A (ja) * | 2012-12-27 | 2014-07-07 | Yahoo Japan Corp | 語彙探索装置、語彙探索方法、及び、語彙探索プログラム |
WO2014109127A1 (ja) | 2013-01-11 | 2014-07-17 | 日本電気株式会社 | インデックス生成装置及び方法並びに検索装置及び検索方法 |
US10713229B2 (en) | 2013-01-11 | 2020-07-14 | Nec Corporation | Index generating device and method, and search device and search method |
US10437803B2 (en) | 2014-07-10 | 2019-10-08 | Nec Corporation | Index generation apparatus and index generation method |
US11281645B2 (en) | 2015-10-28 | 2022-03-22 | Kabushiki Kaisha Toshiba | Data management system, data management method, and computer program product |
CN113377997A (zh) * | 2021-06-30 | 2021-09-10 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种歌曲检索方法、电子设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Papadias et al. | Group nearest neighbor queries | |
KR101015324B1 (ko) | 데이터 맵핑 방법과 md 데이터 객체 검색을 위한 컴퓨터로 구현되는 방법, 컴퓨터로 구현되는 시스템 및 컴퓨터 판독가능 기록매체 | |
US5978794A (en) | Method and system for performing spatial similarity joins on high-dimensional points | |
US10242109B2 (en) | Facilitating class specific execution of conceptual queries | |
US6446068B1 (en) | System and method of finding near neighbors in large metric space databases | |
KR100385528B1 (ko) | 다차원 데이터 표시 방법 및 기록 매체 | |
US6084595A (en) | Indexing method for image search engine | |
US10754887B1 (en) | Systems and methods for multimedia image clustering | |
Yang et al. | Pase: Postgresql ultra-high-dimensional approximate nearest neighbor search extension | |
CN109992590B (zh) | 交通网络中带数字属性的近似空间关键字查询方法及系统 | |
JP6434162B2 (ja) | データ管理システム、データ管理方法およびプログラム | |
JP2003141159A (ja) | 距離インデクスを用いた検索装置および方法 | |
JP2000035965A (ja) | 類似特徴量の検索方法及び装置及び類似特徴量の検索プログラムを格納した記憶媒体 | |
JP4440246B2 (ja) | 空間インデックス方法 | |
JP3938815B2 (ja) | ノード作成方法、画像検索方法及び記録媒体 | |
JP2001052024A (ja) | 類似特徴量の検索方法及び装置及び類似特徴量の検索プログラムを格納した記憶媒体 | |
Du et al. | A novel knn join algorithms based on hilbert r-tree in mapreduce | |
Jang et al. | Km-dbscan: density-based clustering of massive spatial data with keywords | |
Georgoulas et al. | User-centric similarity search | |
US20030018623A1 (en) | System and method of query processing of time variant objects | |
Li et al. | A locality-aware similar information searching scheme | |
Shyu et al. | A probabilistic-based mechanism for video database management systems | |
Arslan et al. | Content and concept indexing for high-dimensional multimedia data | |
JP2001134593A (ja) | 近傍データ検索方法及び装置及び近傍データ検索プログラムを格納した記憶媒体 | |
JP3578045B2 (ja) | 全文検索方法及び装置及び全文検索プログラムを格納した記憶媒体 |