JP2003281190A - 汎用データ検索方法 - Google Patents

汎用データ検索方法

Info

Publication number
JP2003281190A
JP2003281190A JP2002080844A JP2002080844A JP2003281190A JP 2003281190 A JP2003281190 A JP 2003281190A JP 2002080844 A JP2002080844 A JP 2002080844A JP 2002080844 A JP2002080844 A JP 2002080844A JP 2003281190 A JP2003281190 A JP 2003281190A
Authority
JP
Japan
Prior art keywords
data
searched
search
vector
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002080844A
Other languages
English (en)
Inventor
Fumiyoshi Adachi
史宜 足立
Takashi Washio
隆 鷲尾
Hiroshi Motoda
浩 元田
Eiko Hanabusa
英光 花房
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GENSHIRYOKU ANZEN SYST KENKYUS
GENSHIRYOKU ANZEN SYST KENKYUSHO KK
Original Assignee
GENSHIRYOKU ANZEN SYST KENKYUS
GENSHIRYOKU ANZEN SYST KENKYUSHO KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GENSHIRYOKU ANZEN SYST KENKYUS, GENSHIRYOKU ANZEN SYST KENKYUSHO KK filed Critical GENSHIRYOKU ANZEN SYST KENKYUS
Priority to JP2002080844A priority Critical patent/JP2003281190A/ja
Publication of JP2003281190A publication Critical patent/JP2003281190A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【課題】 テキスト・画像・音声等の多様なデータを統
一的に構成し、所望の被検索データにより近接データを
抽出できる汎用データ検索方法を実現する。 【解決手段】 本発明に係る汎用データ検索方法は、ビ
ットパターン又はバイトパターンで表現された多数のフ
ァイルデータからファイルデータ集合を形成し、各ファ
イルデータから所定長さのベクトルを複数切り出して切
り出しベクトル集合を形成し、他方、被検索データを同
一の手順で加工して同一長の被検索切り出しベクトル集
合を形成するから、テキスト・画像・音声等の多様なデ
ータを統一的に検索できる。また、切り出しベクトルの
数理変換によりデータに巡回・置換・交換等のパターン
変形があっても関連性の深いデータを類似データとして
判定でき、また次元数の圧縮も可能となる。更に、量子
化により僅かな数値上の違いを超えた検索を可能にし同
時にベクトル数を大幅に圧縮し、また逆引情報ファイル
の作成により検索速度の高速化を実現できる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はテキスト情報・画像
情報・音声情報などの広範囲の情報を共通の方法で統一
的に検索できる汎用データ検索方法に関し、更に詳細に
は、これらの情報をビットデータ又はバイトデータで数
値表現した検索用データベースを構築しておき、検索さ
れるファイルを同様のビットデータ又はバイトデータで
数値表現して検索データとし、この検索データを検索用
データベースと数値比較することにより検索ファイルに
近いテキスト情報・画像情報・音声情報などの情報を高
速に検索できる汎用データ検索方法に関する。
【0002】
【従来の技術】一般に、データ検索とは、ある領域の情
報の集合から、特定のパターンを含む情報や、特定の事
柄に関係する情報を取り出す技術である。このような技
術に関する研究は、1970年代にワードプロセッサの
辞書作成から始まり、パーソナルコンピュータの普及に
従って進展してきている。
【0003】特に1990年代からインターネットが普
及し、インターネツト上で大量の情報が発信されるよう
になり、既にホームページは数十億のオーダて存在する
と云われている。情報検索技術は大量の情報の中から必
要なものを的確に取り出すというインターネット時代の
基本的で重要な技術である。このような中で、情報検索
技術に基づくサーチエンジンが各種開発され、より一層
優れた性能を求めるために種々の研究が行われている。
【0004】これらの情報検索において、検索対象とな
るファイルにはテキストファイル、画像ファイル、音声
ファイルがある。テキストファイルには文字の特性を利
用した検索技術が開発されているが、このテキストファ
イル検索技術は画像ファイルと音声ファイルには転用す
ることが難しい。そこで、それらの内容を示すキーワー
ドやIDを画像ファイルや音声ファイルに付し、このキ
ーワードやIDをテキスト検索して画像ファイルや音声
ファイルを間接的に抽出する検索手法が通常採られてい
る。
【0005】他方、画像ファイルや音声ファイルを直接
検索する方法も開発されつつあるが、画像ファイルのフ
ォーマット形式や音声ファイルのフォーマット形式には
種々様々な形式が存在している。そこで、それぞれのフ
ォーマット形式に特化して類似する画像ファイルや音声
ファイルを直接検索する方法が採られているため、フォ
ーマット形式の数だけの検索方法が存在している。つま
り、テキストファイル検索と一様な仕組みで画像ファイ
ルや音声ファイルを統一的に検索する技法は全く提案さ
れていない状態である。
【0006】現在の文書情報検索技術は、情報表現の観
点から、テキストパターン検索、逆インデックスフアイ
ル検索の2方式に分類される。テキストパターン検索
は、テキストファイルの内容を検索者が指定するキーワ
ードや正規表現などで文字列マツチング検索をするもの
である。
【0007】逆インデックスファイル検索は、前処理で
予め文書にIDを付与しておき、各単語が現れるすべて
の文書をIDで記憶したファイルを準備し、検索時には
そのファイルを元に検索を行う方式である。この方式は
主としてID検索を中心とし、その後文字列検索を併用
する等の変形が行なわれている。
【0008】一方、検索マッチング方式の観点からは、
厳密マッチング方式と曖昧マッチング方式に分けられ
る。厳密マッチング方式は、検索者が指定した検索条件
が全て当てはまるものを結果として出すものである。即
ち、検索者が指定した検索条件をR1,R2・・・Rn
すると、検索の出力は、 出力=[X│R1(X)=1∧R2(X)=1∧・・・∧R
n(X)=1] のようになる。ここで、Ri(X)はファイルXが検索
者が指定したi番目の条件を満たすときに真(1)とな
り、満たさないときは偽(0)となるものとする。
【0009】曖昧マッチング方式は、検索者が指定した
検索条件のうち、一定基準以上が当てはまるものを結果
として出力するものである。即ち、上の表現を用いる
と、 出力=[X│R1(X)∨・・・∨Rn(X)≧τ] となり、τは検索者またはシステムが決定する閾値であ
る。
【0010】曖昧マッチングの特徴としては、厳密マッ
チングに比べて出力結果が多くなるというデメリットが
あるが、厳密マツチングでは得られない類義語を含んだ
文書や、内容が似通った文書が得られるなど幅広い検索
が行える利点がある。現在の検索システムでは、これら
を単独で使用したものだけでなく、複数を組み合わせて
使用し、用途や目的によって使い分けている。
【0011】しかし、これらの厳密マッチングや曖昧マ
ッチングでは、検索条件に厳密性と曖昧性が区別されて
いるだけで、基本となる検索方式は文字列検索やID検
索であり、換言すればテキストファイル検索に近いと言
ってよい。
【0012】
【発明が解決しようとする課題】このように、従来から
ある既存の検索技術は、殆んどが単語文字列からなるデ
ータに特化した技法体系になっている。これらの技法は
テキスト文書を検索する場合においては非常に効果が大
きいが、テキスト以外の形式で保存されているデータ、
例えば画像データや音声データに対しては適用が難しい
という面がある。
【0013】例えば、インターネツト上にある検索エン
ジンと呼ばれているもののうちの大部分がテキスト文書
の検索に特化したものである。現段階では画像データや
音声データなどの情報を検索すること困難である。画像
や音声を検索する場合でも、画像ファイルや音声ファイ
ルにキーワードやIDを付しておき、このキーワードや
IDを検索して画像や音声を間接的に抽出するという方
法が採られているに過ぎない。
【0014】インターネット上の検索で、テキストファ
イル・画像ファイル・音声ファイルを一つの検索エンジ
ンで扱うことができれば、得られる情報の幅は格段に広
がる。例えば、「富士山」という単語から富士山に関係
する文書だけでなく、富士山の写真や富士山麓を流れる
せせらぎの音を検索するというように、形態が異なる情
報間での汎用性のある検索が可能になれば、検索したい
情報がより具体的に表示され、検索者にとって非常に有
用なものとなるはずである。しかしながら、現在の検索
方法ではこのような広範囲の情報を一つの検索エンジン
で検索することには誰も成功していない。
【0015】従って、本発明の第1目的は、テキストフ
ァイルや画像ファイルや音声ファイルといった多様な形
態のデータを統一的な形態に変換して、これらの複合フ
ァイル群からなる統一的な検索用データベースを構成で
きる汎用データ検索方法における検索用データベース構
築方法を提供することである。
【0016】また、本発明の第2目的は、統一的な形態
により構成された検索用データベースに対し被検索デー
タを検索できる形態に加工できる汎用データ検索方法に
おける被検索データ加工方法を提供することである。
【0017】更に、本発明の第3目的は、テキストファ
イルや画像ファイルや音声ファイルといった多様なデー
タ群を統一的形態で処理した検索用データベースを構成
し、任意の被検索データを前記と同一の統一的形態に変
換し、この被検索データを前記検索用データベースと比
較して、被検索データに近い構造を有した多様なデータ
を抽出できる汎用データ検索方法を提供することであ
る。
【0018】
【課題を解決するための手段】本発明では、テキストフ
ァイル・画像ファイル・音声ファイルといった各種デー
タはビットパターン又はバイトパターンとして統一的形
態により数値表現され、この統一的形態で表現された数
値データにより検索用データベースが構築される点に特
徴を有する。テキストデータは、例えばアスキーコード
等で変換して数値表現され、画像データは例えば濃度デ
ータとして数値表現され、また音声データでは時系列の
音声強度データを数値表現する等の手段が利用できる。
このような数値表現を採用することにより、テキスト・
画像・音声という異なったデータを同一言語により統一
的に検索処理できるようになる。
【0019】また、本発明では、被検索データも検索用
データベースが使用するビットパターン又はバイトパタ
ーンを用いて統一的形態により数値表現される。この結
果、被検索データと検索用データベースが共通の表現形
式で表され、相互の比較検索が極めて簡単になる。ビッ
トパターン又はバイトパターンというコンピュータ検索
に最適の表現形式を採ることにより、検索速度の一層の
向上が図れる。従って、被検索データとしてテキストデ
ータに限らず、画像データや音声データも採用できる。
【0020】また、本発明では、検索用データベースに
含まれる個々のファイルデータを検索し易い形態に変換
して構成している。即ち、ビットパターン又はバイトパ
ターンで表現された多数のファイルデータからファイル
データ集合を形成し、各ファイルデータから所定長さの
ベクトルを複数切り出して切り出しベクトル集合を形成
する点に特徴を有する。このようにして、データ長の異
なる種々のファイルデータを規格化し比較し易い形式に
変換している。従って、データベースと比較される被検
索データも同じ長さに切り出されて、被検索切り出しベ
クトル集合に変換される。この段階で、検索用データベ
ースと被検索データはデータ長さの同一化が行なわれ、
検索実効性が確保される。
【0021】また、本発明では、検索用データベースに
対し数理変換処理が行なわれる。つまり、切り出しベク
トル集合の各切り出しベクトルを数理変換して変換ベク
トルとし、この変換ベクトル群により変換ベクトル集合
を形成する。切り出しベクトルの中にバイトデータパタ
ーンやビットデータパターンがシフトしたり一部置換す
るといった種々のパターン変形が存在しても、数理変換
の特性によって変換ベクトルの中ではそれらのパターン
変形性が解消され、これらの相互に関連性の深い変形パ
ターンデータが類似データとして効率的に抽出判定され
ることが可能となる。
【0022】更に、特定の数理変換によっては、ベクト
ルの次元数を実質的に低減させ、データベースの大きさ
を圧縮できる利点がある。例えば、フーリエ変換やワル
シュ変換やウェーブレット変換のような数理変換を用い
れば、切り出しベクトルの次元数が縮約され、次元数が
低減された変換ベクトルが形成され、データベースの圧
縮が可能となる。このようなデータ圧縮によって、検索
に要する時間を短縮できるから、高速検索が実現できる
利点がある。被検索切り出しベクトルに対しても同様の
数理変換を行なって被検索変換ベクトルとするから、同
様の利点が発揮できる。
【0023】更に、本発明では、検索用データベースに
おいて、各変換ベクトルの成分を所望段階に量子化して
特徴ベクトルとし、この特徴ベクトル集合において同一
の特徴ベクトルが複数存するときは一つのみを残し他を
除去してベクトル数を低減させた非重複特徴ベクトル集
合を形成する。数理変換を受けた変換ベクトルの成分は
例えば実数や複素数に変換されており、無限次数を有す
ると言っても過言ではない。しかし、変換ベクトルを量
子化することによって数値的な僅かな違いを同一段階に
分類し、変換ベクトルの数値上の僅かな違いに左右され
ない類似したベクトルの比較が可能になり、類似パター
ンを多く含むファイルの検索が可能となる。
【0024】また、この量子化によって、変換ベクトル
の数値無限性が量子化段階数にまで圧縮されるため、異
なる変換ベクトルから同一の特徴ベクトルが多数出現す
る。その重複性を除去する操作によりベクトル数を強力
に圧縮でき、ベクトル数の低減によるデータベースの圧
縮を実現できる。同様に、被検索データにおいても、被
検索変換ベクトルの各成分に対し同一の量子化を行なっ
て、被検索データの検索容易化と圧縮が行なわれ、検索
性能の向上と検索速度の高速化が実現される。
【0025】本発明では、検索用データベースにおい
て、非重複特徴ベクトル集合の各非重複特徴ベクトルが
どのファイルデータに帰属するかを対応させて一覧化し
た逆引情報ファイルを形成する点に特徴を有している。
つまり、被検索データ側の被検索非重複特徴ベクトルに
対し同一の非重複特徴ベクトルがあれば、逆引情報ファ
イルを用いて関連するファイルデータを直ちに検索する
ことができる。検索用データベースにおいて逆引情報フ
ァイルを事前に作成しておく利点は、被検索データに対
し検索用データベースと同一の加工さえ施せば、逆引情
報ファイルとの比較だけで検索を瞬時に達成できること
である。
【0026】本発明の更なる特徴は、検索用データベー
スにおいて、逆引情報ファイルの形成と同時に、非重複
特徴ベクトルの中で多数のファイルデータに帰属する場
合には検索時には利用しない無効ベクトルとし、無効ベ
クトル集合として分離しておくことである。つまり、非
重複特徴ベクトルが多数のファイルデータに連結する場
合には、特定のファイルデータの抽出が困難であること
を意味するから、このようなベクトルを無効ベクトルと
して検索に用いないように事前に調整するのである。従
って、被検索データ側では、被検索非重複特徴ベクトル
集合から無効ベクトルに該当するベクトルを除去して残
ったベクトルだけで有効ベクトル集合を形成することに
なる。このように被検索データ側の有効ベクトル数を圧
縮することにより、検索精度の一層の向上と検索速度の
一層の高速化が実現されることになる。
【0027】
【発明の実施の形態】以下に本発明に係る検索用データ
ベース構築方法、被検索データ加工方法及び汎用データ
検索方法の実施形態を添付する複数の図面及び表を用い
て詳細に説明する。
【0028】図1は本発明に係る汎用データ検索方法に
用いられる検索用データベースの構築手順のフローブロ
ック図である。テキストファイルや画像ファイルや音声
ファイル等の多数のファイルデータを集めてファイルデ
ータ集合S1からなるデータベースを構成する。本発明
では、このファイルデータ集合S1を図示される手順で
順次加工し、最終的に無効ベクトル集合S6と逆引情報
ファイルS7を作成し、前記したファイルデータ集合S
1と無効ベクトル集合S6と逆引情報ファイルS7によ
り検索用データベースを構築する。
【0029】次に加工手順を説明する。第1加工では、
データ抽出部m1によりファイルデータ集合S1から切
り出しベクトル集合S2が形成される。第2加工では、
数理的変換部m2により切り出しベクトル集合S2から
変換ベクトル集合S3が形成される。第3加工では、変
換ベクトル量子化部m3により変換ベクトル集合S3か
ら特徴ベクトル集合S4が形成される。
【0030】第4加工では、ベクトル集計部m4によ
り、特徴ベクトル集合S4から非重複特徴ベクトル集合
S5が形成される。最後に、第5加工では、逆引情報作
成部m5により非重複特徴ベクトル集合S5から無効ベ
クトル集合S6と逆引情報ファイルS7が形成される。
この最終的に得られた無効ベクトル集合S6と逆引情報
ファイルS7が最初のファイルデータ集合S1と組み合
わされて検索用データベースが構成される。
【0031】図2はファイルデータ集合の概念図であ
る。このファイルデータ集合はファイルデータ1〜ファ
イルデータMまでのM個のデータから構成されている。
ファイルデータにはテキストデータ・画像データ・音声
データなど各種のものがあり、これらのデータをビット
パターン又はバイトパターンを用いて表現している。こ
のように多数のファイルデータを集合させて検索対象と
なる一つのデータベースが構成される。
【0032】この実施形態ではバイトパターンを使用し
ており、このファイルデータの1次元は1バイト情報を
示し、1バイトとして−128〜127までの256段
階の整数で表現している。ファイルデータの長さは任意
であるが、例えば30kB(キロバイト)であれば1バ
イトが3万個連続した情報になる。各次元を何バイトで
表現するか、また長さをどうするかは自在に変更でき
る。
【0033】ファイルデータを数値に変換するには各種
の方法があり、テキストファイルであれば、例えばテキ
ストデータをアスキーコード等により数値に変換すれば
よい。画像ファイルであれば、画像の濃淡を濃度データ
に数値変換し、1ドットの濃度を例えば1バイト情報と
して処理すればよい。音声ファイルであれば、音声強度
の時系列データを利用し、最小単位の音声強度を例えば
1バイト情報として処理するなど、種々の数値化方法が
利用できる。
【0034】図3はデータ抽出部の機能説明図である。
前述したように、ファイルデータの長さはデータ毎に異
なるから、これを統一した長さにデータ調整する必要が
ある。この実施形態では8バイトデータを基準とし、全
てのファイルデータから8バイトデータを切り出して切
り出しベクトルとする。従って、この切り出しベクトル
は8次元ベクトルであり、8成分を有すると言ってもよ
い。
【0035】切り出しに際しては重ね移動窓による移動
窓法が採用される。勿論、移動窓法の替わりに、単純な
区切りによる列の切り出しなど、公知の分解法が利用で
きる。重ね移動窓法によれば、1バイトずつ右へ移動し
ながら8バイトずつ切り出してゆくことになり、ファイ
ルデータ1の長さが30kBであれば、このファイルデ
ータ1から29993個の8バイト長の切り出しベクト
ルが切り出され、切り出しベクトル集合1が形成される
ことになる。
【0036】図4は切り出しベクトル集合の概念図であ
る。ファイルデータ1から多数の切り出しベクトルの集
合である切り出しベクトル集合1が作成され、同様に、
ファイルデータ2から切り出しベクトル集合2が作ら
れ、またファイルデータMから切り出しベクトル集合M
が作成される。従って、切り出しベクトル集合は、切り
出しベクトル集合1〜切り出しベクトル集合Mを成分と
するM個の部分集合から構成される。また、各部分集合
が多数の切り出しベクトルから構成されることは前述し
た通りである。
【0037】図5は数理的変換部の機能説明図であり、
本発明の特徴の一つである。切り出しベクトルに関数F
を作用させることにより変換ベクトルへと変換し、切り
出しベクトルに存する巡回や置換や交換といった変形パ
ターンの類似構造化を図る。つまり、多数の切り出しベ
クトルの中には、成分が単に交換されただけのものや、
1成分だけが他の数値に置換されたものや、成分の並び
が単に巡回しただけのものの様に、類似した構造の切り
出しベクトルが存在する。このような相互にパターン変
形した切り出しベクトルを数理変換することによって極
めて接近した類似構造の変換ベクトルへと転換し、検索
時にこれらを類似ベクトル群として同時的に抽出できる
ように検索性能の高度化を図るのである。
【0038】この数理的変換部では種々の数理的変換が
適用でき、例えば、フーリエ変換、コサイン変換、サイ
ン変換、ワルシュ変換、ウェーブレット変換、アフィン
変換、ラプラス変換などが利用される。ここでは、代表
例として離散コサイン変換(DCT:Discrete Cosine T
ransformation)と離散的フーリエ変換(DFT:Discre
te Fourier Transformation)の詳細を説明する。
【0039】離散コサイン変換(以後、DCT変換とい
う)は時間領域又は位置領域のデータ系列を周波数領域
のデータ系列に変換するもので、類似したデータ系列は
周波数の偏りも類似し、多次元のデータ系列にも適用で
きる。また変換後の係数が実数であるため計算機で扱い
やすい性質を有している。
【0040】図5に示すように、DCT変換では、F
(0)〜F(N−1)のN個の組がコサイン関数を基底
として展開したときにc0〜cN-1のN個の実数の組に変
換される。ここではN=8の場合に限定し、切り出しベ
クトル(F0,F1,F2,F3,F4,F5,F6,F7)をDCT
変換して変換ベクトル(c0,c1,c2,c3,c4,c5,c6,
7)が得られ、各DCT係数cjは実数となる。
【0041】このDCT変換を用いて、8次元の切り出
しベクトル、つまり8バイトからなるデータ系列を変換
し、その変換ベクトルがどのようになるかを詳細に調べ
てみた。更に、データパターンの一部を置換したり、順
序を入れ換えたり、反転したデータ系列に対して同様の
DCT変換を行い、変換ベクトルにどのような変化が現
れるかを調べた。
【0042】使用した8バイトのデータ系列は人間にと
って理解しやすい文字列をアスキーコードで数値に変換
して使用した。但し、以下の結果は各バイトのデータ範
囲を0〜255ではなく、−128〜127にするため
に各バイトから一律に128を減じたデータ系列を用い
ている。
【0043】まず、データ系列の文字配列のパターンを
一部置換したときに変換ベクトルの変化、即ちDCT係
数の変化を調べた。例えば、「10月26日」の8バイ
トデータ系列では、一部置換した「10月20日」、
「10月19日」、「(LF)9月26日」、「(L
F)9月22日」、「(LF)9月11日」を調査し
た。ここで、(LF)は改行文字を意味し、結果は表1
に示される。
【0044】表1から分るように、データ系列を一部置
換した場合には、8個のDCT係数c0〜c7は夫々近い
値を取る事が分る。つまり、「10月26日」を被検索
データとすると、一部置換されたこれらのデータを近接
データとして検索できることが分る。ハミング距離とは
「10月26日」のデータ系列に対して上書き変更した
バイトの数である。ハミング距離が大きいほどデータ系
列の相違性が大きくなることを示す。
【0045】次に、8バイトのデータ系列の順序を入れ
換えたデータ系列についてDCT変換を行った。データ
系列は「210.237.」であり、順序入れ換えデー
タ系列は「10.237.2」、「230.12.
7」、「72.13.20」である。結果は表2に示さ
れる。
【0046】表2から分るように、データ系列の順序入
れ換えでは、c0の値が等しくなり、また場合によって
はc4の絶対値が等しくなることが分る。このことは、
0が同一のデータやc4の絶対値が等しいデータは順序
入れ換えデータの可能性があり、データ検索において極
めて有効であることを意味している。
【0047】パターンを反転させたデータ系列について
DCT変換を行って、DCT係数の変化を調べた。基準
データは「Fuminori」と「Osaka-Pr」であり、反転デー
タは「ironimuF」、「rP-akasO」、「saka-Pre」、「er
P-akas」である。結果は表3に示される。
【0048】表3から分るように、データ系列の反転に
関しては、奇数の添字をもつDCT係数の符号が反転す
るが、各DCT係数の絶対値は等しくなる。この事実
は、DCT係数の数字の絶対値が等しかったり、その符
号が反転する場合にはデータ系列が反転していることを
意味し、データ検索において有効な判断基準を与える。
【0049】以上の結果から、データ系列の置換、順序
入れ換え、反転などにより元のデータ系列が変化した場
合でも、DCTを用いて数理変換すれば、DCT係数上
において何らかの距離関数を定義することにより、2つ
のデータ系列が類似しているかどうかを判定することが
でき、DCT変換がデータ検索技術に有効な手段を与え
ることが理解できる。
【0050】次に、離散フーリエ変換(以後、DFT変
換という)について説明する。離散フーリエ変換も時間
領域や位置領域のデータ系列を周波数領域に変換するも
のであり、デジタル信号処理において幅広く利用されて
いる。
【0051】図5に示すように、DFT変換では、F0
〜FN-1のN個の組が複素指数関数を基底として展開し
たときにf0〜fN-1のN個の複素数の組に変換される。
ここではN=8の場合に限定し、切り出しベクトル(F
0,F1,F2,F3,F4,F5,F6,F 7)をDFT変換して変
換ベクトル(f0,f1,f2,f3,f4,f5,f6,f7)が得
られる。ここでfjは複素数であり、大きさと位相に分
解すれば2倍の16個の成分が現れる。しかし、後述す
るように、位相には目立った特徴は現れないため、位相
成分を検索においては考慮する必要は無く、従って大き
さ成分の8個だけが残るから、fjとして8個の成分が
吟味される。
【0052】DFTでは、N個のサンプルから全てのフ
ーリエ係数を求めるには約N×N回のかけ算を行なう必
要があり、計算機の性能とサンプルの数によっては、実
時間で計算することができなくなる。そこで、計算上の
冗長性を省き、高速に計算を行なうことができる高速フ
ーリエ変換(FFT:Fast Fourier Transformation)が
用いられた。
【0053】このFFTを用いて、8バイトのデータ系
列を変換した係数を調べ、また置換・入れ換え・反転な
どの変化に対して、どのような変化が現れるのかを調べ
た。但し、フーリエ係数は複素数となるため、前述した
ように、そのフーリエ係数を絶対値(大きさ)と位相に
分けて検討することにした。
【0054】DCTの場合と同様に、8バイトのデータ
系列をフーリエ変換したときのフーリエ係数を掲載す
る。但し、表中の数字はフーリエ係数の絶対値(大き
さ)を表し、括弧内の数字は位相(単位はdegree)であ
る。また、掲載した結果は、DCTの場合と同様に、デ
ータの範囲を−128〜127にするために各バイトか
ら一律128を減じたデータで計算している。
【0055】表4はデータ系列の一部を置換したときの
フーリエ係数の変化を示している。フーリエ変換では、
各フーリエ係数が絶対値と位相に分割されるから、絶対
値と位相の両者においてフーリエ変換特性が検討される
必要がある。
【0056】絶対値においては、f1=f7、f2=f6
3=f5が成立しているのに対し、位相においてはf1
=−f7、f2=−f6、f3=−f5が成立しており、f4
を中心にして絶対値は正対称、位相は反対称の性質を有
していることが分る。但し、データ系列間で絶対値の変
化が大きいのに対し、位相の変化は小さいことが見出さ
れる。また、位相においてf0=f4が成立するだけでな
く、一部置換の全データ系列においてf0=f4=180
が成立していることが大きな特徴でもある。
【0057】表5はデータ系列の順序を入れ換えたとき
のフーリエ係数の変化を示している。順序入れ換えで
は、DCTの場合と同様に、全てのf0が一致し、場合
によりf4の絶対値が一致する。また、「210.237.」と
「10.237.2」の各係数の絶対値が全て一致している。
【0058】二つの文字列を比較すると、文字列が巡回
の関係にあることが分る。巡回とは、データ系列[x0,
1,x2,・・・,xn-2,xn-1]の先頭のデータx0を取り除
き、残りのデータ系列の順番を変えずに一つずつ順番を
繰り上げ、最後尾にx0を付け加える操作であり、又は
この操作を任意の回数行うことである。
【0059】この順序入れ換えにおいても、絶対値にお
いては、f1=f7、f2=f6、f3=f5が成立している
のに対し、位相においてはf1=−f7、f2=−f6、f
3=−f5が成立しており、f4を中心にして絶対値は正
対称、位相は反対称の性質が成立している。しかし、デ
ータ系列間で絶対値の変化よりも位相の変化の法が大き
くなっている。また、位相においてf0=f4は成立して
いない。
【0060】更に、前述した巡回の性質から、巡回させ
た文字列は各フーリエ係数の絶対値が等しくなるという
仮設を立てた。これを検証するために、文字列「210.23
7.」を巡回させた全ての文字列に対して、フーリエ変換
を行なった結果を表6に示す。但し、位相の情報は省略
されている。
【0061】表6から分るように、巡回させたデータ系
列のフーリエ係数の絶対値は全て等しくなっている。D
CT変換の場合を示す表2には、巡回の関係にある文字
列「210.237.」と「10.237.2」があるが、DCT変換で
はフーリエ変換のように各係数が一致するとは限らな
い。従って、絶対値の等値性はフーリエ変換に特有の性
質であると考えられる。
【0062】表7はデータ系列の反転によるフーリエ係
数の変化を示している。4個のデータ系列「Osaka-U
n」、「nU-akasO」、「Universi」、「isrevinU」につ
いてフーリエ変換を行なった。
【0063】この反転においても、絶対値においては、
1=f7、f2=f6、f3=f5が成立し、位相において
はf1=−f7、f2=−f6、f3=−f5が成立してこと
が分かる。つまり、f4を中心にして絶対値は正対称、
位相は反対称の性質が成立している。
【0064】DCT変換と同様に、離散フーリエ変換を
用いた場合には、巡回や置換や交換のといった異なった
切り出しベクトルから極めて類似性の強い変換ベクトル
が導出された。変換ベクトルの数値上の特徴から、元の
切り出しベクトルの巡回性や置換性や交換性が判断でき
るから、数理変換の必要性が理解できる。
【0065】このフーリエ変換は数理変換のもう一つの
特徴を浮き彫りにしている。即ち、フーリエ変換する
と、変換ベクトル(f0,f1,f2,f3,f4,f5,f6,
7)においてf1=f7、f2=f6、f3=f5の性質が
現れることである。つまり、つまり、検索では(f0,f
1,f2,f3,f4,f5,f6,f7)の8次元ベクトルから
(f0,f1,f2,f3,f4)の5次元ベクトルが用いられ
ることを意味する。これは次元数を8次元から5次元に
縮約できる特徴である。
【0066】DCT変換ではベクトル次元数の縮約は見
られなかったが、フーリエ変換ではベクトル次元数の縮
約が観察され、同様に複素ワルシュ変換や複素ウェーブ
レット変換でも次元数の縮約が観察されている。データ
ベースの構築には膨大な大きさのメモリを必要とするか
ら、特にパーソナルコンピュータにデータベースをイン
ストールしたり、インターネットで情報交換したり、e
−mailでファイルを添付したり、ファイルをダウン
ロードできるようにする場合には、このデータベースの
大きさをできるだけ圧縮することが必要になる。数理変
換による次元数の縮約は圧縮技術の有効な手段として利
用できる。
【0067】この実施形態及び後述する実施例では、数
理的変換としてDFTの中でもFFTが用いられる。そ
の理由は次の通りである。(1)データ系列の長さをN
とすると、変換に要する計算時間が、DCTの場合では
O(N2)となるのに対して、FFTではO(NlogN)
となり、高速計算が行なえる。(2)データ系列の巡回
や反転や置換に関して、変換後の数値関係に顕著な特徴
構造が出現し、この結果データ系列の類似性の判定が容
易となり、この特徴は本発明に係る汎用データ検索方法
の数理変換全体の最大特徴でもある。(3)フーリエ係
数の絶対値を比較すると、f1=f7、f2=f6、f3
5が全ての場合について成立しており、f5,f6,f7
3成分が不要となる。つまり、変換ベクトルとして(f
0,f1,f2,f3,f4,f5,f6,f7)から(f0,f1,f2,
3,f4)へと次元数の縮約ができ、ワルシュ変換やウ
ェーブレット変換と共に次元数の縮約によりデータベー
スの圧縮が行なえる。(4)位相情報は重要な特徴を含
まない。
【0068】このように、DCTやDFTのような数理
的変換を施すことにより、何らかの距離関数の下で、変
換係数に対するクラスタリングを行うことにより、類似
のデータを検索することが有効になる。
【0069】図6はDFTの中でFFTを用いた数理変
換の操作と結果の説明図である。切り出しベクトルは8
次元の(F0,F1,F2,F3,F4,F5,F6,F7)である
が、DFT変換(FFT)により8次元の変換ベクトル
(f0,f1,f2,f3,f4,f5,f 6,f7)となり、特に5
次元の変換ベクトル(f0,f1,f2,f3,f4)に縮約さ
れることが示されている。図中の表には絶対値だけが記
載され、位相情報は数理変換では使用されない。
【0070】図7は変換ベクトル集合の概念図である。
切り出しベクトル集合1を数理変換して変換ベクトル集
合1が生成され、切り出しベクトル集合2を数理変換し
て変換ベクトル集合2が生成され、切り出しベクトル集
合Mを数理変換して変換ベクトル集合Mが形成される。
従って、変換ベクトル集合はこれらのM個の変換ベクト
ル集合j(j=1〜M)を部分ベクトル集合とする集合
である。
【0071】図8は変換ベクトル量子化部の機能説明図
である。FFT変換によって縮約された変換ベクトル
(f0,f1,f2,f3,f4)の各成分fkは実数であるか
ら、その成分は無限の段階に区分されていると言え、こ
のままでは変換ベクトル集合に含まれるベクトル数は無
限個になり、数値上に僅かな違いを有するベクトルが異
なったベクトルとして扱われてしまう。
【0072】そこで、変換ベクトル集合に含まれるベク
トル数を有限化し、この有限化によって数値上の僅かな
相違を同一段階のベクトルとして集約することにより、
成分fkを所望の段階数に量子化することになる。例え
ば、各成分を0、1、2・・E、Fの16段階に量子化
すれば、ベクトルの最大数は16×16×16×16×
16にまで有限化できる。
【0073】この量子化によって、変換ベクトルは特徴
ベクトルへと変換される。従って、特徴ベクトルでは数
値的に僅かな相違を有した別個のベクトルであったもの
が、特徴ベクトルでは同一のベクトルとしてまとめら
れ、ベクトルの全体的な類似的特徴をより顕現化させる
ことによって、検索精度を向上させるものである。
【0074】しかも、この量子化によって、例えば各成
分が256段階の切り出しベクトルが16段階の特徴ベ
クトルへと圧縮できるから、数理変換による縮約効果が
ない場合には、8次元ベクトルでは2568→168へと
ベクトル数が低減化され、大幅な圧縮が可能である。ま
た数理変換による縮約効果がある場合には2568→1
5へと極めて大幅な圧縮が実現される。従って、量子
化はベクトルの類似構造の浮彫化(顕現化)による検索
性能の向上を実現すると同時に、データベースを圧縮し
て高速検索やバイト数・メモリ数の抑制を実現する利点
を有する。
【0075】この量子化によって、変換ベクトル(f0,
1,f2,f3,f4)は特徴ベクトル(q0,q1,q2,q3,
4)へと変換される。量子化は次のように行なわれ
る。変換ベクトル集合に含まれる第1次元数f0の分布
を図8のように画き、このf0の分布曲線を0〜最大値
にまで亘って16段階0〜Fにより面積を等分割する。
小さい方から0、1、2・・・・Fと指数がつけられ
る。
【0076】分布曲線はf0〜f4まで5種類あり、
0、f1、f2、f3、f4の16段階量子化は夫々異な
った刻み幅を有することが分る。つまり、実数fk→1
6段階qkへと区割りされ、変換ベクトルも特徴ベクト
ルへと名称が変更される。
【0077】図9は特徴ベクトル集合の概念図である。
変換ベクトル集合1を量子化して特徴ベクトル集合1が
生成され、変換ベクトル集合2を量子化して特徴ベクト
ル集合2が生成され、変換ベクトル集合Mを量子化して
特徴ベクトル集合Mが形成される。特徴ベクトル集合は
これらのM個の特徴ベクトル集合jを部分ベクトル集合
とする集合である。
【0078】図10はベクトル集計部の機能説明図であ
る。前述したように、量子化によって形成された特徴ベ
クトル集合には、成分が同一の多数の同じ特徴ベクトル
が含まれている。この重複した特徴ベクトルは一本化さ
れる必要がある。そのため、重複した特徴ベクトルは、
一つだけ残して他を除去し、その結果非重複特徴ベクト
ル集合が形成される。
【0079】例えば、特徴ベクトル集合1には(A,1,5,
0,F)という特徴ベクトルが2個重複するため、重複し
た1個を除去し、他の全ての特徴ベクトルについてもこ
の非重複化を実行して非重複特徴ベクトル集合1を形成
する。
【0080】図11は非重複特徴ベクトル集合の概念図
である。特徴ベクトル集合にはM個の特徴ベクトルjが
存在したから、M個の全てについて非重複化を行うこと
によって、非重複特徴ベクトル集合1〜非重複特徴ベク
トル集合Mを部分集合として包含する非重複特徴ベクト
ル集合が形成される。
【0081】この非重複化によって、非重複特徴ベクト
ル集合j(j=1,2・・M)の中には重複した特徴ベ
クトルは存在しないが、例えば非重複特徴ベクトル集合
iと非重複特徴ベクトル集合j(≠i)の間には同一の
特徴ベクトルが含まれていることは一向に差し支えな
い。iとjは異なるファイルデータに属するから、切り
出された8バイトデータが一致することがあるのは当然
である。
【0082】図12は逆引情報作成部の機能説明図であ
る。逆引情報作成部では非重複特徴ベクトル集合1〜非
重複特徴ベクトル集合Mまでに含まれる全ての特徴ベク
トルから逆引情報ファイルを作成する。この逆引情報フ
ァイルをデータベース毎に作成しておくことが本発明の
特徴でもある。
【0083】具体的に逆引情報ファイルの作成手順を説
明する。非重複特徴ベクトル集合の異なる全ての特徴ベ
クトルについて次の検討を行なう。まず、特徴ベクトル
(0,0,0,0,0)は非重複特徴ベクトル集合1、2、5・・
・Mに含まれているから、特徴ベクトル(0,0,0,0,0)と
ファイルデータ番号1、2、5・・・Mとが対応する。
【0084】同様に特徴ベクトル(0,0,0,0,1)について
はファイルデータ番号1、5・・・Mが対応する。これ
を次々と行なって、最後に特徴ベクトル(F,F,F,F,F)に
ついてはファイルデータ番号2、5・・・Mが対応する
ことが分る。従って、図12に示す対応関係表が逆引情
報ファイルとして完成される。
【0085】図13は実際の逆引情報作成部の手順を示
す機能説明図である。ファイルデータ番号を識別子ID
とする中間ファイルが非重複特徴ベクトル集合として計
算機の補助記憶装置に格納される。この中間ファイルか
ら、特徴ベクトルを識別子とする逆引情報ファイルが作
成されることになる。従って、逆引情報ファイルも特徴
ベクトルの数だけのファイル群から構成されているが、
本発明ではこれを統一して逆引情報ファイルと呼んでい
る。
【0086】このような1ベクトル1ファイルのような
形式の逆引情報ファイルは探索が容易且つ高速に行なわ
れるが、ファイルの数が多くなると、補助装置のファイ
ルシステムによっては格納するファイル数に上限がある
ため、全てのファイルを格納できないといった問題が出
現する。
【0087】それを解決するために、使用するファイル
システムはできる限り格納ファイル数の上限が大きいフ
ァイルシステムを用いるようにする。しかし、それでも
全てを格納できない場合には、他のベクトル圧縮などの
対策を講じる。
【0088】図14は他の逆引情報ファイルの構成例で
ある。一番上の階層のフォルダを特徴ベクトルの一つ目
の要素に対応させ、2番目の階層のフォルダを特徴ベク
トルの二つ目の要素に対応させ、3番目の階層のフォル
ダを特徴ベクトルの三つ目の要素に対応させ、その下に
ファイルを配置することで全体が木構造となるようにし
ている。
【0089】例えば、特徴ベクトル(02,03,0a,06,09)に
対応するファイルは、index/02/03/0aというフォルダに
格納される。この図は特徴ベクトルが5次元の場合の例
であり、特徴ベクトルの次元数によってフォルダの階層
数は異なる。
【0090】次に、特徴ベクトルによってはデータベー
スの中の多数のファイルデータから導かれるものがあ
り、そのような特徴ベクトルは検索において十分なファ
イルの絞り込みを行なうためには使用できない。そこ
で、非重複特徴ベクトル集合(中間ファイルとも言う)
から逆引情報ファイルを構築する際に、全ファイルデー
タ数に対する特定の特徴ベクトルを導出するファイルデ
ータ数の割合が指定した閾値を超えるような場合には、
その特徴ベクトルを無効ベクトルとして補助記憶装置内
に格納しておくことにする。
【0091】図15は無効ベクトルの作成手順の説明図
である。逆引情報ファイルが作成されると、全ての特長
ベクトルについて、その特徴ベクトルが帰属するファイ
ルデータの全数が計算される。例えば、(0,0,0,0,0)は
4、(0,0,0,0,1)は3、(2,F,0,A,B)は350、(F,F,F,
F,F)は3である。帰属するファイルデータ数SUMが3
50以上の場合には、このような特徴ベクトルはファイ
ルデータの検索に貢献しないから、無効ベクトルとして
取り出される。
【0092】この実施形態では、閾値を70%として、
70%以上を無効ベクトルとして取り出している。この
実施形態ではファイルデータの全数は500とすると、
SUM=500×0.7=350が閾値となることが分
かる。このようにして、無効ベクトルだけからなる無効
ベクトル集合が形成される。勿論、閾値は自在に設定さ
れる。
【0093】以上のようなステップにより、多数のファ
イルデータから構成されるデータベースに対し、逆引情
報ファイルと無効ベクトル集合が作成され、ファイルデ
ータ集合と逆引情報ファイルと無効ベクトル集合により
検索対象となるデータベースが構築される。このような
データベースが多数構成されることになる。
【0094】本発明のデータベースは、ファイルデータ
をビットパターン又はバイトパターンから構成している
ので、単にテキストデータだけを対象にするのではな
く、画像データや音声データのデータベースも同じ方法
で構築できる。更に、テキストデータや画像データや音
声データの混成したデータベースを構築することができ
る点でも画期的なデータベース構築方法である。データ
ベースとして構築されると、そのレベルではテキストや
画像や音声といった違いは無くなり、同一のデータベー
ス内に構造化されるのである。
【0095】次は、このようにして構成されたデータベ
ースに対して、被検索データの検索を実行する方法が必
要となる。この際、被検索データを加工して検索を実行
する必要がある。従って、検索時における被検索データ
の加工手順を説明する。
【0096】図16は被検索データの加工方法を説明す
るブロックフロー図である。被検索データは当然にデー
タベースと検索されるためにデータベースが構築された
加工工程と同一の工程を経て加工される必要がある。
【0097】図において、データ抽出部m1、数理的変
換部m2、変換ベクトル量子化部m3及びベクトル集計
部m4は図1と全く同様であるから、その説明は省略す
る。従って、この4段階の処理によって、被検索データ
t1は被検索切り出しベクトル集合t2→被検索変換ベ
クトル集合t3→被検索特徴ベクトル集合t4→被検索
非重複特徴ベクトル集合t5まで加工処理が施されたと
する。
【0098】この被検索非重複特徴ベクトル集合t5に
対し無効ベクトル除去部m6により無効ベクトルに該当
するものが除去されて残りのベクトルから有効ベクトル
集合t6が形成される。この有効ベクトル集合t6から
ベクトルマッチング部m7の操作により被検索抽出ファ
イルt7が導出される。
【0099】最後に、この被検索抽出ファイルt7を用
いて検索結果出力部m8の操作により検索結果t8が出
力されて検索が終了する。以下に、前半の工程と、後半
の無効ベクトル除去部m6とベクトルマッチング部m7
と検索結果出力部m8の3工程を説明して、検索方法の
詳細を明らかにする。
【0100】図17は被検索データから有効ベクトル集
合を導出する工程説明図である。被検索データは14バ
イトのデータであるとし、この被検索データから8バイ
トずつ重ね移動窓法により被検索切り出しベクトルを切
り出してゆく。その結果、7個の被検索切り出しベクト
ルから構成される被検索切り出しベクトル集合が形成さ
れる。
【0101】この被検索切り出しベクトル集合に対し、
数理的変換部m2、変換ベクトル量子化部m3及びベク
トル集計部m4の操作を順次行なって、被検索変換ベク
トル集合→被検索特徴ベクトル集合→被検索非重複特徴
ベクトル集合が次々と形成されてゆく。
【0102】次に、この被検索非重複特徴ベクトル集合
に対し無効ベクトル除去部m6が作用し、図15に示さ
れる無効ベクトル集合との対比によって無効ベクトル
(2,F,0,A,B)が除去され、残りの6要素により有効ベク
トル集合が形成される。
【0103】図18は有効ベクトル集合から検索結果を
導出する工程図である。この有効ベクトル集合に対しベ
クトルマッチング部m7が作用し、6個の有効ベクトル
が図12に示す逆引情報ファイルと比較され、各有効ベ
クトルが帰属するファイルデータ番号の一覧表が作成さ
れる。換言すれば、逆引情報ファイルから6個の有効ベ
クトルだけの逆引情報ファイルが分離形成されるのであ
り、この部分逆引情報ファイルを被検索抽出ファイルと
称する。
【0104】この被検索抽出ファイルでは、データベー
スを構成する各ファイルデータが何回出現するかを示す
出現回数が計算されている。図18の例では、ファイル
データ1は3回、ファイルデータ2は1回、ファイルデ
ータ3は4回というように一覧化される。
【0105】最後に、この被検索抽出ファイルに対し検
索結果出力部m8が作用する。この工程では、ファイル
データ番号と出現回数が選択され、出現回数の多い順か
ら並べ替えが行なわれる。出現回数が多いほど、そのフ
ァイルデータが被検索データに近いファイルであると判
断されるからである。
【0106】この並べ替えデータに対し、ユーザー側で
閾値を設定する。この実施形態では有効ベクトル数が6
であるから、出現回数の最大値は当然6となる。この最
大値に対し閾値を30%と設定すると、6×0.3=
1.8≒2となるから、出現回数が2回以上のファイル
データがリストアップされる。最終の検索結果は出現回
数が2回以上のファイルデータとその出現回数の一覧表
であり、出現回数が大きいほど検索のヒット確率が高い
ことを示す。
【0107】被検索データから形成された特徴ベクトル
のうちの大部分が無効ベクトルである場合や、条件とし
て指定した被検索データの長さが小さいために十分な数
の特徴ベクトルが取れない場合には、無効ベクトルを除
去すると検索結果を十分に絞り込むことが難しい。この
ような場合には、無効ベクトルに含まれる特徴ベクトル
も使用して検索を行なうようにする。
【0108】
【実施例】[実施例:同一・巡回・置換・交換]本発明に
係る汎用データ検索方法を人工データに適用する。この
人工データによる本発明の検索を行なって、その結果を
従来型のキーワード検索の結果と比較して、本発明の汎
用データ検索方法の有効性を検証する。
【0109】まず、平均30kB、標準偏差10kBの
正規分布に従うサイズで、中身は乱数により生成された
ランダムなパターンであるファイルを500個作成す
る。また、別に5種類の16バイトのランダムパターン
(パターン番号1〜5)を作成する。
【0110】500個のファイルのうちパターン番号1
のパターンを250個のファイルに上書きする。また、
パターン番号2のパターンを125個のファイルに上書
きする。次に、パターン番号3のパターンを100個の
ファイルに上書きする。更に、パターン番号4のパター
ンを50個のファイルに上書きする。最後に、パターン
番号5のパターンを25個のファイルに上書きする。
【0111】但し、一つのファイルに複数のパターンを
上書きするときは、パターン同士が重ならないように上
書きし、パターンを上書きしないファイルに対してはそ
のパターンと同じパターンが含まれていないことを確認
する。
【0112】次に、この500個のファイルに対し、本
発明の諸工程を施してデータベースを構築した。つま
り、重ね移動窓のサイズを8、ベクトル量子化の分割数
を16、無効ベクトル集合の作成閾値を70%として逆
引情報ファイルを作成した。
【0113】被検索データとして、パターン番号1〜5
の16バイトのパターン5個を用意した。また、夫々の
パターンに対して、任意のバイト数だけ巡回させたも
の、任意の1バイト、2バイト又は3バイトを置換した
もの、任意の二つのバイトの場所交換を1回、2回又は
3回行なったものを作成し、これらのパターンを被検索
データとして検索を実行した。有効ベクトル数に対して
ファイルデータの最低出現回数の比率(検索閾値)を変
化させた検索も同時に実行した。
【0114】検索の評価指標は、検索システムで評価に
良く用いられる精度(precision)と再現率(Recall)
である。精度とは、検索システムが抽出したファイル数
に対する正解のファイル数のことで、どれだけ検索結果
が正確かの度合いを表したものである。また、再現率と
は、真の正解ファイル数に対する検索システムが抽出し
た正解ファイル数の比率であり、正解ファイルの中でど
れだけのファイルが抽出されているかを示したものであ
る。
【0115】但し、パターン番号1〜5に対する真の正
解ファイルとは、該当するファイルのパターンを上書き
したファイルとする。また、それらに対して、巡回、置
換、入れ替えを行なったパターンに対する真の正解ファ
イルとは、それらの操作を行なう前のパターンを上書き
したファイルとする。
【0116】今回の人工データから逆引情報ファイルを
構築するのに要した計算時間は約11時間であった。使
用した計算機の主な構成は以下の通りである。 CPU:AMD Athlon 1400MHz RAM:PC2100 DDRSDRAM 384MB HDD:Seagate ST340824A OS:Laser5 Linux7.1
【0117】図19はキ−パターン及びその巡回パター
ン・置換パターン・交換パターンの典型図である。これ
らのパターンが被検索データとして検索が実行される。
キーパターンに対し、巡回パターンでは第1バイトと第
2バイトが巡回されている。置換パターンでは第9バイ
トだけが置換されている。交換パターンでは第5バイト
と第11バイトが交換されている。
【0118】表8は上書きしたパターン(パターンファ
イル)を被検索データとした場合の検索結果を示す。正
解ファイルは検索に使用したパターンを上書きしたもの
である。従って、このパターンから作られる特徴ベクト
ルは全て正解ファイルに含まれているはずである。つま
り、有効ベクトル数に対するファイルの出現回数の比率
に関する閾値を1.0と設定した検索方式、即ち全ての
特徴ベクトルが一致する方式で検索した場合には全ての
ファイルが抽出できるはずである。
【0119】表8から分るように、全てのパターンにお
いて閾値を1.0としたときに、全ての正解ファイルが
抽出されている。この閾値1.0のときの検索方法は、
後述する完全一致型のキーワード型検索と全く同じ検索
方法であり、閾値を1.0としたときには本発明の汎用
データ検索方法はキーワード型検索システムのように効
果的に機能することが分る。閾値を低下させた検索では
抽出ファイル数は増加しているが、正解ファイルを全て
抽出できているため再現率は1.00であり、多く抽出
している分だけ精度が低下していることが示されてい
る。
【0120】表9は巡回パターンによる検索結果を示
す。各パターンを巡回させた回数は乱数により決定され
た数である。表10は1バイトを別の値で置換したパタ
ーンでの検索結果を示す。表11は2バイトを別の値で
置換したパターンでの検索結果を示す。表12は3バイ
トを別の値で置換したパターンでの検索結果を示す。
【0121】次に、パターン内で任意の二つの値を交換
をしたパターンを用いて検索を行なった。交換を行なっ
た回数は1回、2回、3回である。表13は1回の交換
を行なったパターンでの検索結果を示す。表14は2回
の交換を行なったパターンでの検索結果を示す。表15
は3回の交換を行なったパターンでの検索結果を示して
いる。
【0122】表9〜表15に見られるように、パターン
の巡回、一部置換、交換が行なわれたパターンで検索し
た場合でも、閾値を低下させて判定基準を緩めると、再
現率を増大でき、正解ファイルを高精度で抽出できるこ
とが分った。特に、表15を除いた全ての場合に再現率
を1.00に高めることが可能であり、閾値の調整によ
り本発明の検索効率が極めて高いことが示された。
【0123】但し、閾値を低下させると抽出すべきでな
い余分なファイルも抽出されるため、検索の精度が低下
することも事実である。このことは、本発明に係る検索
方法では、検索の精度と再現率の両者を満足させる検索
を行なうためには、閾値を最適設計して検索することが
必要であることを示している。逆に、検索がうまくいか
ない場合には、閾値を調整するだけでなく、検索の結果
を見ながら被検索データを変化させたりして検索精度を
向上させる等自在な対応も必要である。
【0124】しかし、パターン内の順序入れ換えに(交
換)ついては、パターン番号4のように、1回の入れ換
えしか行なわれていないパターンで検索を行なった場合
に、判定基準を最低にしたとしても、精度及び再現率と
もに低い値となってしまう場合がある。
【0125】この理由は、テストパターンが16バイト
であるため、入れ換える場所によっては、重ね移動窓で
切り出される全てのデータ系列が入れ換えられた部分を
含むことがあり、それらの系列から特徴ベクトルを作成
したときに、元のパターンから得られる特徴ベクトルと
は別のベクトル群が得られたことが考えられる。
【0126】このようなことは、入れ換えた二つの値の
差が小さいときには、入れ換えられたパターンと元のパ
ターンの類似性が大きいために起こりにくく、入れ換え
た二つの値の差が大きいほど起こりやすいと考えられ
る。
【0127】2回以上の入れ換えにおいては、再現率が
1.0となるものが少なくなり、正解ファイルを取りこ
ぼしている。この理由は、2回の入れ換えが4バイトの
置換に相当するため、元のパターンとの類似度が低くな
っていることが考えられる。画像などのデータにおいて
は、一般に相違する部分(画素といってもよい)が多い
ほど、人間の目には違うように映るので、これは妥当な
結果であると言える。
【0128】検索に要する時間は概ね1秒前後であり、
特にストレスを感じない時間内に検索を完了した。ま
た、近年、計算機の高性能化が著しく、検索に要する時
間は今後更に短縮されるはずなので、本発明の汎用デー
タ検索方法は十分実用に耐える方法であると考えられ
る。
【0129】[比較例:キーワード検索]前記実施例で用
いた人工データと同じデータセットを用いて、従来のキ
ーワード検索と同じ方法で検索を行なった。表16はキ
ーワード型検索の手法によるパターンの検索結果を示
し、表17はキーワード型検索の手法による巡回パター
ンの検索結果を示している。
【0130】表16の結果は元のパターンで検索を行な
っているわけであるから、当然に優れた結果を与えてい
る。これは表8の結果で閾値を1.0としたときの結果
と一致しており、閾値を1.0に設定した場合の本発明
方法はキーワード検索に相当することが実証された。
【0131】表17の結果は表9で使用した巡回パター
ンを用いた結果と対応する。キーワード型検索は部分一
致検索であるから、検索条件のパターンの一致でもマッ
チしないと検索結果として抽出されることは無いので、
巡回パターンではこのような結果になる。また、一部置
換パターンや、入れ換えを行なったパターンの結果も表
17にあるような結果となるが、巡回パターンと同じ理
由であると考えられる。しかし、本発明方法はこのよう
な巡回パターンや一部置換パターンや入れ換えパターン
でも効率的に検索が可能であるから、従来型のキーワー
ド検索と比較して本発明方法の優秀性が実証された。
【0132】本発明に係る汎用データ検索方法の内容と
実施例の結果から、本発明方法は巡回・置換・入れ換え
を行っても目的のファイルを効率的に抽出でき、また閾
値条件を厳しくすることによって、従来型のシステムと
ほぼ同様の結果が得られることから、本発明のシステム
は従来のシステムより高精度の検索性能を有し、しかも
従来システムでは不可能であったテキストファイルや画
像ファイルや音声ファイルを統一的に包含したデータベ
ース検索を可能にした画期的な検索システムを提供する
ものである。
【0133】本発明に係る汎用データ検索方法は、上記
実施形態や実施例に限定されるものではなく、本発明の
技術的思想を逸脱しない範囲における種々の変形例や設
計変更をその技術的範囲内に包含するものであることは
云うまでもない。
【0134】
【表1】
【0135】
【表2】
【0136】
【表3】
【0137】
【表4】
【0138】
【表5】
【0139】
【表6】
【0140】
【表7】
【0141】
【表8】
【0142】
【表9】
【0143】
【表10】
【0144】
【表11】
【0145】
【表12】
【0146】
【表13】
【0147】
【表14】
【0148】
【表15】
【0149】
【表16】
【0150】
【表17】
【0151】
【発明の効果】第1の発明によれば、ビットパターン又
はバイトパターンの数値構造でデータベースとしてのフ
ァイルデータ集合を形成したからテキストファイルや画
像ファイルや音声ファイルなどの広範囲のファイルを統
一的に検索でき、各ファイルデータから同一長の切り出
しベクトル集合を形成したから比較検索の効率化を図る
ことができ、この切り出しベクトルを数理変換して変換
ベクトル集合を形成したからデータパターンがシフト・
巡回・置換した様々な変形パターンに対しても高精度で
類似性を判定できる検索用データベースを構成できる。
また、各変換ベクトルを量子化して特徴ベクトル集合を
形成したから僅かな数値的違いを超えて類似したパター
ンを検索できる効果があり、この特徴ベクトル集合から
重複したベクトルを一本化してベクトル数を大きく圧縮
した非重複特徴ベクトル集合を形成し、各非重複特徴ベ
クトルがどのファイルデータに帰属するかを対応させて
一覧化した逆引情報ファイルを形成したから検索速度を
高速化できる検索用データベース構築方法を実現でき
る。
【0152】第2の発明によれば、逆引情報ファイルの
形成と同時に、無効ベクトル集合を同時に形成するか
ら、検索時に被検索データから無効データを除去して検
索負担の軽量化を図り、検索速度の一層の向上を実現し
た検索用データベースを提供できる。
【0153】第3の発明によれば、検索されるファイル
をビットパターン又はバイトパターンで表現して被検索
データとするからテキスト・画像・音声などの各種のデ
ータを被検索データに使用でき、この被検索データから
所定長さのベクトルを複数切り出して被検索切り出しベ
クトル集合を形成するから検索効率を高度化でき、各被
検索切り出しベクトルを数理変換して被検索変換ベクト
ル集合を形成するから巡回・置換・交換などの変形デー
タも抽出することも可能になり、各被検索変換ベクトル
の成分を量子化して被検索特徴ベクトル集合を形成する
から僅かな数値の違いを超えて類似データの検索を可能
にし、この被検索特徴ベクトル集合においてベクトルが
重複する場合には一本化した被検索非重複特徴ベクトル
集合を形成して被検索データ数の低減により検索速度を
向上できる被検索データの加工方法を実現できる。
【0154】第4の発明によれば、被検索非重複特徴ベ
クトル集合から無効ベクトルを除去することにより検索
される被検索データ数を更に低減させて検索速度の高速
化を可能にする被検索データの加工方法を提供できる。
【0155】第5の発明によれば、データベースを構成
するファイルデータと被検索データの両方をビットパタ
ーン又はバイトパターンで表現するから、テキストデー
タと画像データと音声データを混成状態で検索できる画
期的な検索方法を提供でき、しかもファイルデータと被
検索データを同一長の切り出しベクトルで構成するか
ら、検索における対比を確実に行なえる検索方法を実現
できる。
【0156】第6の発明によれば、データベース側と被
検索データ側の両者に対し数理変換を行なうから、デー
タのパターンの中に巡回・置換・交換等の変形データが
あっても数理変換によりそれらの変形性を極緊密な類似
構造へと解消することにより変形類似パターンを有した
データを一括して抽出できる画期的な検索性能を実現で
き、しかもフーリエ変換やワルシュ変換やウェーブレッ
ト変換などの特定の数理変換を用いれば切り出しベクト
ルの次元数を大幅に縮約してデータベースと検索データ
の両方のサイズを圧縮でき、コンピュータ内の記憶容量
の低減化と検索速度の高速化を実現できる。
【0157】第7の発明によれば、データベース側と被
検索データ側の両方の変換ベクトルを所望段階に量子化
して特徴ベクトル集合を形成するから、変換ベクトルに
数値上の僅かな違いがあっても同一の特徴ベクトルとし
て集約化することが可能となり、データ構造の中の小構
造にとらわれずに大構造に着目したデータ検索を可能に
し、しかも量子化によって多数出現する重複した特徴ベ
クトルを一本化できるから、ベクトル数の大幅な低減に
よる圧縮を実現でき、コンピュータ内の記憶容量の低減
化と検索速度の高速化を実現できる。
【0158】第8の発明によれば、データベース側の非
重複特徴ベクトル集合において、各非重複特徴ベクトル
がどのファイルデータに帰属するかを対応させて一覧化
した逆引情報ファイルを形成し、この逆引情報ファイル
を用いて被検索データ側の各被検索非重複特徴ベクトル
がどのファイルデータに対応するかを瞬時に判断して出
現回数の多いファイルデータを高速に抽出できるから、
検索速度を一層に高速化することが可能となり、インタ
ーネットの検索エンジンやコンピュータソフトにおける
画期的な検索方法を提供するものである。
【0159】第9の発明によれば、データベース側にお
いて逆引情報ファイルと同時に無効ベクトル集合を形成
するから、被検索データ側の非重複特徴ベクトルの中で
無効ベクトルを事前に除去し、残りの有効ベクトルだけ
で逆引情報ファイルと対応させて検索するから、検索速
度の更に一層の高速化を実現できる。
【図面の簡単な説明】
【図1】本発明に係る汎用データ検索方法に用いられる
検索用データベースの構築手順のフローブロック図であ
る。
【図2】ファイルデータ集合の概念図である。
【図3】データ抽出部の機能説明図である。
【図4】切り出しベクトル集合の概念図である。
【図5】数理的変換部の機能説明図である。
【図6】DFTの中でFFTを用いた数理変換の操作と
結果の説明図である。
【図7】変換ベクトル集合の概念図である。
【図8】変換ベクトル量子化部の機能説明図である。
【図9】特徴ベクトル集合の概念図である。
【図10】ベクトル集計部の機能説明図である。
【図11】非重複特徴ベクトル集合の概念図である。
【図12】逆引情報作成部の機能説明図である。
【図13】実際の逆引情報作成部の手順を示す機能説明
図である。
【図14】他の逆引情報ファイルの構成例である。
【図15】無効ベクトルの作成手順の説明図である。
【図16】被検索データの加工方法を説明するブロック
フロー図である。
【図17】被検索データから有効ベクトル集合を導出す
る工程説明図である。
【図18】有効ベクトル集合から検索結果を導出する工
程図である。
【図19】図19はキ−パターンに対する巡回・置換・
交換の典型データ図である。
【符号の説明】
m1はデータ抽出部、m2は数理的変換部、m3は変換
ベクトル量子化部、m4はベクトル集計部、m5は逆引
情報作成部、m6は無効ベクトル除去部、m7はベクト
ルマッチング部、m8は検索結果出力部、s1はファイ
ルデータ集合、s2は切り出しベクトル集合、s3は変
換ベクトル集合、s4は特徴ベクトル集合、s5は非重
複特徴ベクトル集合、s6は無効ベクトル集合、s7は
逆引情報ファイル、t1は被検索データ、t2は被検索
切り出しベクトル集合、t3は被検索変換ベクトル集
合、t4は被検索特徴ベクトル集合、t5は被検索非重
複特徴ベクトル集合、t6は有効ベクトル集合、t7は
被検索抽出ファイル、t8は検索結果。
───────────────────────────────────────────────────── フロントページの続き (71)出願人 595035131 株式会社原子力安全システム研究所 福井県三方郡美浜町佐田第64号毛ノ鼻1番 地の37 (72)発明者 足立 史宜 大阪府和泉市のぞみ野1丁目16番10号 (72)発明者 鷲尾 隆 大阪府豊中市北桜塚2丁目12−8 (72)発明者 元田 浩 大阪府高槻市真上町6丁目9−1−707 (72)発明者 花房 英光 福井県三方郡美浜町佐田64号 株式会社原 子力安全システム研究所内 Fターム(参考) 5B050 EA04 EA18 GA08 5B075 NK49 QM05 5L096 EA35 FA22 FA35 JA11 KA09

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 ビットパターン又はバイトパターンで表
    現された多数のファイルデータからファイルデータ集合
    を形成し、各ファイルデータから所定長さのベクトルを
    複数切り出して切り出しベクトル集合を形成し、各切り
    出しベクトルを数理変換して得られた変換ベクトルから
    変換ベクトル集合を形成し、各変換ベクトルの成分を所
    望段階に量子化して得られた特徴ベクトルから特徴ベク
    トル集合を形成し、この特徴ベクトル集合において同一
    の特徴ベクトルが複数存在するときは一つのみを残し他
    を除去してベクトル数を低減させた非重複特徴ベクトル
    集合を形成し、各非重複特徴ベクトルがどのファイルデ
    ータに帰属するかを対応させて一覧化した逆引情報ファ
    イルを形成することを特徴とする汎用データ検索方法に
    おける検索用データベース構築方法。
  2. 【請求項2】 前記逆引情報ファイルの形成と同時に、
    前記非重複特徴ベクトルの中で多数のファイルデータに
    帰属することを条件にして検索時には利用しない無効ベ
    クトルを選び出して無効ベクトル集合を形成する請求項
    1に記載の汎用データ検索方法における検索用データベ
    ース構築方法。
  3. 【請求項3】 検索されるファイルをビットパターン又
    はバイトパターンで表現して被検索データとし、この被
    検索データから所定長さのベクトルを複数切り出して被
    検索切り出しベクトル集合を形成し、各被検索切り出し
    ベクトルを数理変換して得られた被検索変換ベクトルか
    ら被検索変換ベクトル集合を形成し、各被検索変換ベク
    トルの成分を所望段階に量子化して得られた被検索特徴
    ベクトルから被検索特徴ベクトル集合を形成し、この被
    検索特徴ベクトル集合において同一の被検索特徴ベクト
    ルが複数存するときは一つのみを残し他を除去してベク
    トル数を低減させた被検索非重複特徴ベクトル集合を形
    成することを特徴とする汎用データ検索方法における被
    検索データ加工方法。
  4. 【請求項4】 前記被検索非重複特徴ベクトル集合から
    検索において無効と判断されるベクトルを除去して残っ
    たベクトルから有効ベクトル集合を形成する請求項3に
    記載の汎用データ検索方法における被検索データ加工方
    法。
  5. 【請求項5】 ビットパターン又はバイトパターンで表
    現された多数のファイルデータからファイルデータ集合
    を形成し、各ファイルデータから所定長さのベクトルを
    複数切り出して切り出しベクトル集合を形成し、他方、
    検索されるファイルを前記ファイルデータと同様のビッ
    トパターン又はバイトパターンで表現して被検索データ
    とし、この被検索データから前記所定長さと同一長のベ
    クトルを複数切り出して被検索切り出しベクトル集合を
    形成する工程を具備して、被検索データに近い構造を有
    したファイルデータを抽出することを特徴とする汎用デ
    ータ検索方法。
  6. 【請求項6】 前記切り出しベクトル集合の各切り出し
    ベクトルを数理変換して得られた変換ベクトルから変換
    ベクトル集合を形成し、前記被検索切り出しベクトル集
    合の各被検索切り出しベクトルに前記数理変換を施して
    得られた被検索変換ベクトルから被検索変換ベクトル集
    合を形成する工程を具備する請求項5に記載の汎用デー
    タ検索方法。
  7. 【請求項7】 前記変換ベクトル集合の各変換ベクトル
    の成分を所望段階に量子化して得られた特徴ベクトルか
    ら特徴ベクトル集合を形成し、この特徴ベクトル集合に
    おいて同一の特徴ベクトルが複数存するときは一つのみ
    を残し他を除去してベクトル数を低減させた非重複特徴
    ベクトル集合を形成し、前記被検索変換ベクトル集合の
    各被検索変換ベクトルの成分に前記量子化を施して得ら
    れた被検索特徴ベクトルから被検索特徴ベクトル集合を
    形成し、この被検索特徴ベクトル集合において同一の被
    検索特徴ベクトルが複数存するときは一つのみを残し他
    を除去してベクトル数を低減させた被検索非重複特徴ベ
    クトル集合を形成する工程を具備する請求項6に記載の
    汎用データ検索方法。
  8. 【請求項8】 前記非重複特徴ベクトル集合の各非重複
    特徴ベクトルがどのファイルデータに帰属するかを対応
    させて一覧化した逆引情報ファイルを形成し、この逆引
    情報ファイルを用いて各被検索非重複特徴ベクトルがど
    のファイルデータに対応するかを判断して出現回数の多
    いファイルデータを抽出する請求項7に記載の汎用デー
    タ検索方法。
  9. 【請求項9】 前記非重複特徴ベクトル集合の各非重複
    特徴ベクトルがどのファイルデータに帰属するかを対応
    して一覧化した逆引情報ファイルを形成し、非重複特徴
    ベクトルが多数のファイルデータに帰属することを条件
    にして検索時には利用しない無効ベクトルと判断された
    無効ベクトル集合を形成し、前記被検索非重複特徴ベク
    トル集合から前記無効ベクトル集合に含まれる無効ベク
    トルを除去して有効ベクトル集合を形成し、前記逆引情
    報ファイルを用いて各有効ベクトルがどのファイルデー
    タに対応するかを判断して出現回数の多いファイルデー
    タを抽出する請求項7に記載の汎用データ検索方法。
JP2002080844A 2002-03-22 2002-03-22 汎用データ検索方法 Pending JP2003281190A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002080844A JP2003281190A (ja) 2002-03-22 2002-03-22 汎用データ検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002080844A JP2003281190A (ja) 2002-03-22 2002-03-22 汎用データ検索方法

Publications (1)

Publication Number Publication Date
JP2003281190A true JP2003281190A (ja) 2003-10-03

Family

ID=29229711

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002080844A Pending JP2003281190A (ja) 2002-03-22 2002-03-22 汎用データ検索方法

Country Status (1)

Country Link
JP (1) JP2003281190A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007293430A (ja) * 2006-04-21 2007-11-08 Fujitsu Ltd 遺伝子間相互作用ネットワーク分析支援プログラム、該プログラムを記録した記録媒体、遺伝子間相互作用ネットワーク分析支援方法、および、遺伝子間相互作用ネットワーク分析支援装置
JP2010157212A (ja) * 2008-12-30 2010-07-15 Mitsubishi Electric Research Laboratories Inc 未知の顔の入力画像を既知の顔の基準画像と比較する方法
JP2011524583A (ja) * 2008-06-16 2011-09-01 イー・エヌ・エール・イー・アー−アンスティチュ・ナシオナル・ドゥ・ラ・ルシェルシュ・アン・ナンフォルマティーク・エ・タン・ノトマティーク 改良された画像認識用の支援装置
JP2011257970A (ja) * 2010-06-09 2011-12-22 Kddi Corp 高次元の特徴ベクトルの集合から類似した特徴ベクトルを検索する検索装置及びプログラム
JP2013012076A (ja) * 2011-06-29 2013-01-17 Kddi Corp 高次元の特徴ベクトルを高精度で検索する検索装置及びプログラム
JP2018063596A (ja) * 2016-10-13 2018-04-19 富士通株式会社 文書比較プログラム、文書比較方法、及び文書比較装置
JP2020038570A (ja) * 2018-09-05 2020-03-12 Necソリューションイノベータ株式会社 推定装置、システム、方法及びプログラム、並びに、学習装置及び方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007293430A (ja) * 2006-04-21 2007-11-08 Fujitsu Ltd 遺伝子間相互作用ネットワーク分析支援プログラム、該プログラムを記録した記録媒体、遺伝子間相互作用ネットワーク分析支援方法、および、遺伝子間相互作用ネットワーク分析支援装置
JP2011524583A (ja) * 2008-06-16 2011-09-01 イー・エヌ・エール・イー・アー−アンスティチュ・ナシオナル・ドゥ・ラ・ルシェルシュ・アン・ナンフォルマティーク・エ・タン・ノトマティーク 改良された画像認識用の支援装置
JP2010157212A (ja) * 2008-12-30 2010-07-15 Mitsubishi Electric Research Laboratories Inc 未知の顔の入力画像を既知の顔の基準画像と比較する方法
JP2011257970A (ja) * 2010-06-09 2011-12-22 Kddi Corp 高次元の特徴ベクトルの集合から類似した特徴ベクトルを検索する検索装置及びプログラム
JP2013012076A (ja) * 2011-06-29 2013-01-17 Kddi Corp 高次元の特徴ベクトルを高精度で検索する検索装置及びプログラム
JP2018063596A (ja) * 2016-10-13 2018-04-19 富士通株式会社 文書比較プログラム、文書比較方法、及び文書比較装置
JP2020038570A (ja) * 2018-09-05 2020-03-12 Necソリューションイノベータ株式会社 推定装置、システム、方法及びプログラム、並びに、学習装置及び方法

Similar Documents

Publication Publication Date Title
CN103440313B (zh) 基于音频指纹特征的音乐检索系统
Qin et al. Efficient exact edit similarity query processing with the asymmetric signature scheme
Rafiei et al. Querying time series data based on similarity
Amato et al. MI-File: using inverted files for scalable approximate similarity search
Liu et al. Large scale hamming distance query processing
CN109166615B (zh) 一种随机森林哈希的医学ct图像存储与检索方法
JP6847079B2 (ja) 最適なソートキーの圧縮およびインデックスの再構築
Kärkkäinen et al. Engineering a lightweight external memory suffix array construction algorithm
US9600578B1 (en) Inverted index and inverted list process for storing and retrieving information
Gog et al. Large-scale pattern search using reduced-space on-disk suffix arrays
Sirén Burrows-Wheeler transform for terabases
Xiong A composite boyer-moore algorithm for the string matching problem
JP2003281190A (ja) 汎用データ検索方法
KR100818742B1 (ko) 색인 단어의 문서 내 위치 정보에 대한 관련성을 이용한문서 검색 방법
JP7412935B2 (ja) ソースコードを数値識別子に変換しデータセットに対して比較する方法
Qian et al. A space-partitioning-based indexing method for multidimensional non-ordered discrete data spaces
Starikovskaia Longest common substring with approximately k mismatches
Goel et al. Efficient indexing techniques for record matching and deduplication
WO2022153287A1 (en) Clustering of structured and semi-structured data
CN111400624A (zh) 一种多功能排序系统
RU2417424C1 (ru) Способ компрессии многомерных данных для хранения и поиска информации в системе управления базами данных и устройство для его осуществления
Chauhan et al. Finding similar items using lsh and bloom filter
Petri et al. Efficient indexing algorithms for approximate pattern matching in text
Kukreja et al. Vector Databases and Vector Embeddings-Review
Boytsov Super-linear indices for approximate dictionary searching