JP2003281190A

JP2003281190A - 汎用データ検索方法

Info

Publication number: JP2003281190A
Application number: JP2002080844A
Authority: JP
Inventors: Fumiyoshi Adachi; 史宜足立; Takashi Washio; 隆鷲尾; Hiroshi Motoda; 浩元田; Eiko Hanabusa; 英光花房
Original assignee: GENSHIRYOKU ANZEN SYST KENKYUS; GENSHIRYOKU ANZEN SYST KENKYUSHO KK
Current assignee: GENSHIRYOKU ANZEN SYST KENKYUS; GENSHIRYOKU ANZEN SYST KENKYUSHO KK
Priority date: 2002-03-22
Filing date: 2002-03-22
Publication date: 2003-10-03

Abstract

(57)【要約】【課題】テキスト・画像・音声等の多様なデータを統
一的に構成し、所望の被検索データにより近接データを
抽出できる汎用データ検索方法を実現する。【解決手段】本発明に係る汎用データ検索方法は、ビ
ットパターン又はバイトパターンで表現された多数のフ
ァイルデータからファイルデータ集合を形成し、各ファ
イルデータから所定長さのベクトルを複数切り出して切
り出しベクトル集合を形成し、他方、被検索データを同
一の手順で加工して同一長の被検索切り出しベクトル集
合を形成するから、テキスト・画像・音声等の多様なデ
ータを統一的に検索できる。また、切り出しベクトルの
数理変換によりデータに巡回・置換・交換等のパターン
変形があっても関連性の深いデータを類似データとして
判定でき、また次元数の圧縮も可能となる。更に、量子
化により僅かな数値上の違いを超えた検索を可能にし同
時にベクトル数を大幅に圧縮し、また逆引情報ファイル
の作成により検索速度の高速化を実現できる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はテキスト情報・画像
情報・音声情報などの広範囲の情報を共通の方法で統一
的に検索できる汎用データ検索方法に関し、更に詳細に
は、これらの情報をビットデータ又はバイトデータで数
値表現した検索用データベースを構築しておき、検索さ
れるファイルを同様のビットデータ又はバイトデータで
数値表現して検索データとし、この検索データを検索用
データベースと数値比較することにより検索ファイルに
近いテキスト情報・画像情報・音声情報などの情報を高
速に検索できる汎用データ検索方法に関する。

【０００２】

【従来の技術】一般に、データ検索とは、ある領域の情
報の集合から、特定のパターンを含む情報や、特定の事
柄に関係する情報を取り出す技術である。このような技
術に関する研究は、１９７０年代にワードプロセッサの
辞書作成から始まり、パーソナルコンピュータの普及に
従って進展してきている。

【０００３】特に１９９０年代からインターネットが普
及し、インターネツト上で大量の情報が発信されるよう
になり、既にホームページは数十億のオーダて存在する
と云われている。情報検索技術は大量の情報の中から必
要なものを的確に取り出すというインターネット時代の
基本的で重要な技術である。このような中で、情報検索
技術に基づくサーチエンジンが各種開発され、より一層
優れた性能を求めるために種々の研究が行われている。

【０００４】これらの情報検索において、検索対象とな
るファイルにはテキストファイル、画像ファイル、音声
ファイルがある。テキストファイルには文字の特性を利
用した検索技術が開発されているが、このテキストファ
イル検索技術は画像ファイルと音声ファイルには転用す
ることが難しい。そこで、それらの内容を示すキーワー
ドやＩＤを画像ファイルや音声ファイルに付し、このキ
ーワードやＩＤをテキスト検索して画像ファイルや音声
ファイルを間接的に抽出する検索手法が通常採られてい
る。

【０００５】他方、画像ファイルや音声ファイルを直接
検索する方法も開発されつつあるが、画像ファイルのフ
ォーマット形式や音声ファイルのフォーマット形式には
種々様々な形式が存在している。そこで、それぞれのフ
ォーマット形式に特化して類似する画像ファイルや音声
ファイルを直接検索する方法が採られているため、フォ
ーマット形式の数だけの検索方法が存在している。つま
り、テキストファイル検索と一様な仕組みで画像ファイ
ルや音声ファイルを統一的に検索する技法は全く提案さ
れていない状態である。

【０００６】現在の文書情報検索技術は、情報表現の観
点から、テキストパターン検索、逆インデックスフアイ
ル検索の２方式に分類される。テキストパターン検索
は、テキストファイルの内容を検索者が指定するキーワ
ードや正規表現などで文字列マツチング検索をするもの
である。

【０００７】逆インデックスファイル検索は、前処理で
予め文書にＩＤを付与しておき、各単語が現れるすべて
の文書をＩＤで記憶したファイルを準備し、検索時には
そのファイルを元に検索を行う方式である。この方式は
主としてＩＤ検索を中心とし、その後文字列検索を併用
する等の変形が行なわれている。

【０００８】一方、検索マッチング方式の観点からは、
厳密マッチング方式と曖昧マッチング方式に分けられ
る。厳密マッチング方式は、検索者が指定した検索条件
が全て当てはまるものを結果として出すものである。即
ち、検索者が指定した検索条件をＲ₁，Ｒ₂・・・Ｒ_nと
すると、検索の出力は、出力＝[Ｘ│Ｒ₁(Ｘ)＝１∧Ｒ₂(Ｘ)＝１∧・・・∧Ｒ
_n(Ｘ)＝１] のようになる。ここで、Ｒ_i（Ｘ）はファイルＸが検索
者が指定したｉ番目の条件を満たすときに真（１）とな
り、満たさないときは偽（０）となるものとする。

【０００９】曖昧マッチング方式は、検索者が指定した
検索条件のうち、一定基準以上が当てはまるものを結果
として出力するものである。即ち、上の表現を用いる
と、出力＝[Ｘ│Ｒ₁(Ｘ)∨・・・∨Ｒ_n(Ｘ)≧τ] となり、τは検索者またはシステムが決定する閾値であ
る。

【００１０】曖昧マッチングの特徴としては、厳密マッ
チングに比べて出力結果が多くなるというデメリットが
あるが、厳密マツチングでは得られない類義語を含んだ
文書や、内容が似通った文書が得られるなど幅広い検索
が行える利点がある。現在の検索システムでは、これら
を単独で使用したものだけでなく、複数を組み合わせて
使用し、用途や目的によって使い分けている。

【００１１】しかし、これらの厳密マッチングや曖昧マ
ッチングでは、検索条件に厳密性と曖昧性が区別されて
いるだけで、基本となる検索方式は文字列検索やＩＤ検
索であり、換言すればテキストファイル検索に近いと言
ってよい。

【００１２】

【発明が解決しようとする課題】このように、従来から
ある既存の検索技術は、殆んどが単語文字列からなるデ
ータに特化した技法体系になっている。これらの技法は
テキスト文書を検索する場合においては非常に効果が大
きいが、テキスト以外の形式で保存されているデータ、
例えば画像データや音声データに対しては適用が難しい
という面がある。

【００１３】例えば、インターネツト上にある検索エン
ジンと呼ばれているもののうちの大部分がテキスト文書
の検索に特化したものである。現段階では画像データや
音声データなどの情報を検索すること困難である。画像
や音声を検索する場合でも、画像ファイルや音声ファイ
ルにキーワードやＩＤを付しておき、このキーワードや
ＩＤを検索して画像や音声を間接的に抽出するという方
法が採られているに過ぎない。

【００１４】インターネット上の検索で、テキストファ
イル・画像ファイル・音声ファイルを一つの検索エンジ
ンで扱うことができれば、得られる情報の幅は格段に広
がる。例えば、「富士山」という単語から富士山に関係
する文書だけでなく、富士山の写真や富士山麓を流れる
せせらぎの音を検索するというように、形態が異なる情
報間での汎用性のある検索が可能になれば、検索したい
情報がより具体的に表示され、検索者にとって非常に有
用なものとなるはずである。しかしながら、現在の検索
方法ではこのような広範囲の情報を一つの検索エンジン
で検索することには誰も成功していない。

【００１５】従って、本発明の第１目的は、テキストフ
ァイルや画像ファイルや音声ファイルといった多様な形
態のデータを統一的な形態に変換して、これらの複合フ
ァイル群からなる統一的な検索用データベースを構成で
きる汎用データ検索方法における検索用データベース構
築方法を提供することである。

【００１６】また、本発明の第２目的は、統一的な形態
により構成された検索用データベースに対し被検索デー
タを検索できる形態に加工できる汎用データ検索方法に
おける被検索データ加工方法を提供することである。

【００１７】更に、本発明の第３目的は、テキストファ
イルや画像ファイルや音声ファイルといった多様なデー
タ群を統一的形態で処理した検索用データベースを構成
し、任意の被検索データを前記と同一の統一的形態に変
換し、この被検索データを前記検索用データベースと比
較して、被検索データに近い構造を有した多様なデータ
を抽出できる汎用データ検索方法を提供することであ
る。

【００１８】

【課題を解決するための手段】本発明では、テキストフ
ァイル・画像ファイル・音声ファイルといった各種デー
タはビットパターン又はバイトパターンとして統一的形
態により数値表現され、この統一的形態で表現された数
値データにより検索用データベースが構築される点に特
徴を有する。テキストデータは、例えばアスキーコード
等で変換して数値表現され、画像データは例えば濃度デ
ータとして数値表現され、また音声データでは時系列の
音声強度データを数値表現する等の手段が利用できる。
このような数値表現を採用することにより、テキスト・
画像・音声という異なったデータを同一言語により統一
的に検索処理できるようになる。

【００１９】また、本発明では、被検索データも検索用
データベースが使用するビットパターン又はバイトパタ
ーンを用いて統一的形態により数値表現される。この結
果、被検索データと検索用データベースが共通の表現形
式で表され、相互の比較検索が極めて簡単になる。ビッ
トパターン又はバイトパターンというコンピュータ検索
に最適の表現形式を採ることにより、検索速度の一層の
向上が図れる。従って、被検索データとしてテキストデ
ータに限らず、画像データや音声データも採用できる。

【００２０】また、本発明では、検索用データベースに
含まれる個々のファイルデータを検索し易い形態に変換
して構成している。即ち、ビットパターン又はバイトパ
ターンで表現された多数のファイルデータからファイル
データ集合を形成し、各ファイルデータから所定長さの
ベクトルを複数切り出して切り出しベクトル集合を形成
する点に特徴を有する。このようにして、データ長の異
なる種々のファイルデータを規格化し比較し易い形式に
変換している。従って、データベースと比較される被検
索データも同じ長さに切り出されて、被検索切り出しベ
クトル集合に変換される。この段階で、検索用データベ
ースと被検索データはデータ長さの同一化が行なわれ、
検索実効性が確保される。

【００２１】また、本発明では、検索用データベースに
対し数理変換処理が行なわれる。つまり、切り出しベク
トル集合の各切り出しベクトルを数理変換して変換ベク
トルとし、この変換ベクトル群により変換ベクトル集合
を形成する。切り出しベクトルの中にバイトデータパタ
ーンやビットデータパターンがシフトしたり一部置換す
るといった種々のパターン変形が存在しても、数理変換
の特性によって変換ベクトルの中ではそれらのパターン
変形性が解消され、これらの相互に関連性の深い変形パ
ターンデータが類似データとして効率的に抽出判定され
ることが可能となる。

【００２２】更に、特定の数理変換によっては、ベクト
ルの次元数を実質的に低減させ、データベースの大きさ
を圧縮できる利点がある。例えば、フーリエ変換やワル
シュ変換やウェーブレット変換のような数理変換を用い
れば、切り出しベクトルの次元数が縮約され、次元数が
低減された変換ベクトルが形成され、データベースの圧
縮が可能となる。このようなデータ圧縮によって、検索
に要する時間を短縮できるから、高速検索が実現できる
利点がある。被検索切り出しベクトルに対しても同様の
数理変換を行なって被検索変換ベクトルとするから、同
様の利点が発揮できる。

【００２３】更に、本発明では、検索用データベースに
おいて、各変換ベクトルの成分を所望段階に量子化して
特徴ベクトルとし、この特徴ベクトル集合において同一
の特徴ベクトルが複数存するときは一つのみを残し他を
除去してベクトル数を低減させた非重複特徴ベクトル集
合を形成する。数理変換を受けた変換ベクトルの成分は
例えば実数や複素数に変換されており、無限次数を有す
ると言っても過言ではない。しかし、変換ベクトルを量
子化することによって数値的な僅かな違いを同一段階に
分類し、変換ベクトルの数値上の僅かな違いに左右され
ない類似したベクトルの比較が可能になり、類似パター
ンを多く含むファイルの検索が可能となる。

【００２４】また、この量子化によって、変換ベクトル
の数値無限性が量子化段階数にまで圧縮されるため、異
なる変換ベクトルから同一の特徴ベクトルが多数出現す
る。その重複性を除去する操作によりベクトル数を強力
に圧縮でき、ベクトル数の低減によるデータベースの圧
縮を実現できる。同様に、被検索データにおいても、被
検索変換ベクトルの各成分に対し同一の量子化を行なっ
て、被検索データの検索容易化と圧縮が行なわれ、検索
性能の向上と検索速度の高速化が実現される。

【００２５】本発明では、検索用データベースにおい
て、非重複特徴ベクトル集合の各非重複特徴ベクトルが
どのファイルデータに帰属するかを対応させて一覧化し
た逆引情報ファイルを形成する点に特徴を有している。
つまり、被検索データ側の被検索非重複特徴ベクトルに
対し同一の非重複特徴ベクトルがあれば、逆引情報ファ
イルを用いて関連するファイルデータを直ちに検索する
ことができる。検索用データベースにおいて逆引情報フ
ァイルを事前に作成しておく利点は、被検索データに対
し検索用データベースと同一の加工さえ施せば、逆引情
報ファイルとの比較だけで検索を瞬時に達成できること
である。

【００２６】本発明の更なる特徴は、検索用データベー
スにおいて、逆引情報ファイルの形成と同時に、非重複
特徴ベクトルの中で多数のファイルデータに帰属する場
合には検索時には利用しない無効ベクトルとし、無効ベ
クトル集合として分離しておくことである。つまり、非
重複特徴ベクトルが多数のファイルデータに連結する場
合には、特定のファイルデータの抽出が困難であること
を意味するから、このようなベクトルを無効ベクトルと
して検索に用いないように事前に調整するのである。従
って、被検索データ側では、被検索非重複特徴ベクトル
集合から無効ベクトルに該当するベクトルを除去して残
ったベクトルだけで有効ベクトル集合を形成することに
なる。このように被検索データ側の有効ベクトル数を圧
縮することにより、検索精度の一層の向上と検索速度の
一層の高速化が実現されることになる。

【００２７】

【発明の実施の形態】以下に本発明に係る検索用データ
ベース構築方法、被検索データ加工方法及び汎用データ
検索方法の実施形態を添付する複数の図面及び表を用い
て詳細に説明する。

【００２８】図１は本発明に係る汎用データ検索方法に
用いられる検索用データベースの構築手順のフローブロ
ック図である。テキストファイルや画像ファイルや音声
ファイル等の多数のファイルデータを集めてファイルデ
ータ集合Ｓ１からなるデータベースを構成する。本発明
では、このファイルデータ集合Ｓ１を図示される手順で
順次加工し、最終的に無効ベクトル集合Ｓ６と逆引情報
ファイルＳ７を作成し、前記したファイルデータ集合Ｓ
１と無効ベクトル集合Ｓ６と逆引情報ファイルＳ７によ
り検索用データベースを構築する。

【００２９】次に加工手順を説明する。第１加工では、
データ抽出部ｍ１によりファイルデータ集合Ｓ１から切
り出しベクトル集合Ｓ２が形成される。第２加工では、
数理的変換部ｍ２により切り出しベクトル集合Ｓ２から
変換ベクトル集合Ｓ３が形成される。第３加工では、変
換ベクトル量子化部ｍ３により変換ベクトル集合Ｓ３か
ら特徴ベクトル集合Ｓ４が形成される。

【００３０】第４加工では、ベクトル集計部ｍ４によ
り、特徴ベクトル集合Ｓ４から非重複特徴ベクトル集合
Ｓ５が形成される。最後に、第５加工では、逆引情報作
成部ｍ５により非重複特徴ベクトル集合Ｓ５から無効ベ
クトル集合Ｓ６と逆引情報ファイルＳ７が形成される。
この最終的に得られた無効ベクトル集合Ｓ６と逆引情報
ファイルＳ７が最初のファイルデータ集合Ｓ１と組み合
わされて検索用データベースが構成される。

【００３１】図２はファイルデータ集合の概念図であ
る。このファイルデータ集合はファイルデータ１〜ファ
イルデータＭまでのＭ個のデータから構成されている。
ファイルデータにはテキストデータ・画像データ・音声
データなど各種のものがあり、これらのデータをビット
パターン又はバイトパターンを用いて表現している。こ
のように多数のファイルデータを集合させて検索対象と
なる一つのデータベースが構成される。

【００３２】この実施形態ではバイトパターンを使用し
ており、このファイルデータの１次元は１バイト情報を
示し、１バイトとして−１２８〜１２７までの２５６段
階の整数で表現している。ファイルデータの長さは任意
であるが、例えば３０ｋＢ（キロバイト）であれば１バ
イトが３万個連続した情報になる。各次元を何バイトで
表現するか、また長さをどうするかは自在に変更でき
る。

【００３３】ファイルデータを数値に変換するには各種
の方法があり、テキストファイルであれば、例えばテキ
ストデータをアスキーコード等により数値に変換すれば
よい。画像ファイルであれば、画像の濃淡を濃度データ
に数値変換し、1ドットの濃度を例えば１バイト情報と
して処理すればよい。音声ファイルであれば、音声強度
の時系列データを利用し、最小単位の音声強度を例えば
１バイト情報として処理するなど、種々の数値化方法が
利用できる。

【００３４】図３はデータ抽出部の機能説明図である。
前述したように、ファイルデータの長さはデータ毎に異
なるから、これを統一した長さにデータ調整する必要が
ある。この実施形態では８バイトデータを基準とし、全
てのファイルデータから８バイトデータを切り出して切
り出しベクトルとする。従って、この切り出しベクトル
は８次元ベクトルであり、８成分を有すると言ってもよ
い。

【００３５】切り出しに際しては重ね移動窓による移動
窓法が採用される。勿論、移動窓法の替わりに、単純な
区切りによる列の切り出しなど、公知の分解法が利用で
きる。重ね移動窓法によれば、１バイトずつ右へ移動し
ながら８バイトずつ切り出してゆくことになり、ファイ
ルデータ１の長さが３０ｋＢであれば、このファイルデ
ータ１から２９９９３個の８バイト長の切り出しベクト
ルが切り出され、切り出しベクトル集合１が形成される
ことになる。

【００３６】図４は切り出しベクトル集合の概念図であ
る。ファイルデータ１から多数の切り出しベクトルの集
合である切り出しベクトル集合１が作成され、同様に、
ファイルデータ２から切り出しベクトル集合２が作ら
れ、またファイルデータＭから切り出しベクトル集合Ｍ
が作成される。従って、切り出しベクトル集合は、切り
出しベクトル集合１〜切り出しベクトル集合Ｍを成分と
するＭ個の部分集合から構成される。また、各部分集合
が多数の切り出しベクトルから構成されることは前述し
た通りである。

【００３７】図５は数理的変換部の機能説明図であり、
本発明の特徴の一つである。切り出しベクトルに関数Ｆ
を作用させることにより変換ベクトルへと変換し、切り
出しベクトルに存する巡回や置換や交換といった変形パ
ターンの類似構造化を図る。つまり、多数の切り出しベ
クトルの中には、成分が単に交換されただけのものや、
１成分だけが他の数値に置換されたものや、成分の並び
が単に巡回しただけのものの様に、類似した構造の切り
出しベクトルが存在する。このような相互にパターン変
形した切り出しベクトルを数理変換することによって極
めて接近した類似構造の変換ベクトルへと転換し、検索
時にこれらを類似ベクトル群として同時的に抽出できる
ように検索性能の高度化を図るのである。

【００３８】この数理的変換部では種々の数理的変換が
適用でき、例えば、フーリエ変換、コサイン変換、サイ
ン変換、ワルシュ変換、ウェーブレット変換、アフィン
変換、ラプラス変換などが利用される。ここでは、代表
例として離散コサイン変換（ＤＣＴ:Discrete Cosine T
ransformation）と離散的フーリエ変換（ＤＦＴ:Discre
te Fourier Transformation）の詳細を説明する。

【００３９】離散コサイン変換（以後、ＤＣＴ変換とい
う）は時間領域又は位置領域のデータ系列を周波数領域
のデータ系列に変換するもので、類似したデータ系列は
周波数の偏りも類似し、多次元のデータ系列にも適用で
きる。また変換後の係数が実数であるため計算機で扱い
やすい性質を有している。

【００４０】図５に示すように、ＤＣＴ変換では、Ｆ
（０）〜Ｆ（Ｎ−１）のＮ個の組がコサイン関数を基底
として展開したときにｃ₀〜ｃ_N-1のＮ個の実数の組に変
換される。ここではＮ＝８の場合に限定し、切り出しベ
クトル（Ｆ₀,Ｆ₁,Ｆ₂,Ｆ₃,Ｆ₄,Ｆ₅,Ｆ₆,Ｆ₇）をＤＣＴ
変換して変換ベクトル（ｃ₀,ｃ₁,ｃ₂,ｃ₃,ｃ₄,ｃ₅,ｃ₆,
ｃ₇）が得られ、各ＤＣＴ係数ｃ_jは実数となる。

【００４１】このＤＣＴ変換を用いて、８次元の切り出
しベクトル、つまり８バイトからなるデータ系列を変換
し、その変換ベクトルがどのようになるかを詳細に調べ
てみた。更に、データパターンの一部を置換したり、順
序を入れ換えたり、反転したデータ系列に対して同様の
ＤＣＴ変換を行い、変換ベクトルにどのような変化が現
れるかを調べた。

【００４２】使用した８バイトのデータ系列は人間にと
って理解しやすい文字列をアスキーコードで数値に変換
して使用した。但し、以下の結果は各バイトのデータ範
囲を０〜２５５ではなく、−１２８〜１２７にするため
に各バイトから一律に１２８を減じたデータ系列を用い
ている。

【００４３】まず、データ系列の文字配列のパターンを
一部置換したときに変換ベクトルの変化、即ちＤＣＴ係
数の変化を調べた。例えば、「１０月２６日」の８バイ
トデータ系列では、一部置換した「１０月２０日」、
「１０月１９日」、「（ＬＦ）９月２６日」、「（Ｌ
Ｆ）９月２２日」、「（ＬＦ）９月１１日」を調査し
た。ここで、（ＬＦ）は改行文字を意味し、結果は表１
に示される。

【００４４】表１から分るように、データ系列を一部置
換した場合には、８個のＤＣＴ係数ｃ₀〜ｃ₇は夫々近い
値を取る事が分る。つまり、「１０月２６日」を被検索
データとすると、一部置換されたこれらのデータを近接
データとして検索できることが分る。ハミング距離とは
「１０月２６日」のデータ系列に対して上書き変更した
バイトの数である。ハミング距離が大きいほどデータ系
列の相違性が大きくなることを示す。

【００４５】次に、８バイトのデータ系列の順序を入れ
換えたデータ系列についてＤＣＴ変換を行った。データ
系列は「２１０．２３７．」であり、順序入れ換えデー
タ系列は「１０．２３７．２」、「２３０．１２．
７」、「７２．１３．２０」である。結果は表２に示さ
れる。

【００４６】表２から分るように、データ系列の順序入
れ換えでは、ｃ₀の値が等しくなり、また場合によって
はｃ₄の絶対値が等しくなることが分る。このことは、
ｃ₀が同一のデータやｃ₄の絶対値が等しいデータは順序
入れ換えデータの可能性があり、データ検索において極
めて有効であることを意味している。

【００４７】パターンを反転させたデータ系列について
ＤＣＴ変換を行って、ＤＣＴ係数の変化を調べた。基準
データは「Fuminori」と「Osaka-Pr」であり、反転デー
タは「ironimuF」、「rP-akasO」、「saka-Pre」、「er
P-akas」である。結果は表３に示される。

【００４８】表３から分るように、データ系列の反転に
関しては、奇数の添字をもつＤＣＴ係数の符号が反転す
るが、各ＤＣＴ係数の絶対値は等しくなる。この事実
は、ＤＣＴ係数の数字の絶対値が等しかったり、その符
号が反転する場合にはデータ系列が反転していることを
意味し、データ検索において有効な判断基準を与える。

【００４９】以上の結果から、データ系列の置換、順序
入れ換え、反転などにより元のデータ系列が変化した場
合でも、ＤＣＴを用いて数理変換すれば、ＤＣＴ係数上
において何らかの距離関数を定義することにより、２つ
のデータ系列が類似しているかどうかを判定することが
でき、ＤＣＴ変換がデータ検索技術に有効な手段を与え
ることが理解できる。

【００５０】次に、離散フーリエ変換（以後、ＤＦＴ変
換という）について説明する。離散フーリエ変換も時間
領域や位置領域のデータ系列を周波数領域に変換するも
のであり、デジタル信号処理において幅広く利用されて
いる。

【００５１】図５に示すように、ＤＦＴ変換では、Ｆ₀
〜Ｆ_N-1のＮ個の組が複素指数関数を基底として展開し
たときにｆ₀〜ｆ_N-1のＮ個の複素数の組に変換される。
ここではＮ＝８の場合に限定し、切り出しベクトル（Ｆ
₀,Ｆ₁,Ｆ₂,Ｆ₃,Ｆ₄,Ｆ₅,Ｆ₆,Ｆ ₇）をＤＦＴ変換して変
換ベクトル（ｆ₀,ｆ₁,ｆ₂,ｆ₃,ｆ₄,ｆ₅,ｆ₆,ｆ₇）が得
られる。ここでｆ_jは複素数であり、大きさと位相に分
解すれば２倍の１６個の成分が現れる。しかし、後述す
るように、位相には目立った特徴は現れないため、位相
成分を検索においては考慮する必要は無く、従って大き
さ成分の８個だけが残るから、ｆ_jとして８個の成分が
吟味される。

【００５２】ＤＦＴでは、Ｎ個のサンプルから全てのフ
ーリエ係数を求めるには約Ｎ×Ｎ回のかけ算を行なう必
要があり、計算機の性能とサンプルの数によっては、実
時間で計算することができなくなる。そこで、計算上の
冗長性を省き、高速に計算を行なうことができる高速フ
ーリエ変換（ＦＦＴ:Fast Fourier Transformation）が
用いられた。

【００５３】このＦＦＴを用いて、８バイトのデータ系
列を変換した係数を調べ、また置換・入れ換え・反転な
どの変化に対して、どのような変化が現れるのかを調べ
た。但し、フーリエ係数は複素数となるため、前述した
ように、そのフーリエ係数を絶対値（大きさ）と位相に
分けて検討することにした。

【００５４】ＤＣＴの場合と同様に、８バイトのデータ
系列をフーリエ変換したときのフーリエ係数を掲載す
る。但し、表中の数字はフーリエ係数の絶対値（大き
さ）を表し、括弧内の数字は位相（単位はdegree）であ
る。また、掲載した結果は、ＤＣＴの場合と同様に、デ
ータの範囲を−１２８〜１２７にするために各バイトか
ら一律１２８を減じたデータで計算している。

【００５５】表４はデータ系列の一部を置換したときの
フーリエ係数の変化を示している。フーリエ変換では、
各フーリエ係数が絶対値と位相に分割されるから、絶対
値と位相の両者においてフーリエ変換特性が検討される
必要がある。

【００５６】絶対値においては、ｆ₁＝ｆ₇、ｆ₂＝ｆ₆、
ｆ₃＝ｆ₅が成立しているのに対し、位相においてはｆ₁
＝−ｆ₇、ｆ₂＝−ｆ₆、ｆ₃＝−ｆ₅が成立しており、ｆ₄
を中心にして絶対値は正対称、位相は反対称の性質を有
していることが分る。但し、データ系列間で絶対値の変
化が大きいのに対し、位相の変化は小さいことが見出さ
れる。また、位相においてｆ₀＝ｆ₄が成立するだけでな
く、一部置換の全データ系列においてｆ₀＝ｆ₄＝１８０
が成立していることが大きな特徴でもある。

【００５７】表５はデータ系列の順序を入れ換えたとき
のフーリエ係数の変化を示している。順序入れ換えで
は、ＤＣＴの場合と同様に、全てのｆ₀が一致し、場合
によりｆ₄の絶対値が一致する。また、「210.237.」と
「10.237.2」の各係数の絶対値が全て一致している。

【００５８】二つの文字列を比較すると、文字列が巡回
の関係にあることが分る。巡回とは、データ系列[ｘ₀,
ｘ₁,ｘ₂,・・・,ｘ_n-2,ｘ_n-1]の先頭のデータｘ₀を取り除
き、残りのデータ系列の順番を変えずに一つずつ順番を
繰り上げ、最後尾にｘ₀を付け加える操作であり、又は
この操作を任意の回数行うことである。

【００５９】この順序入れ換えにおいても、絶対値にお
いては、ｆ₁＝ｆ₇、ｆ₂＝ｆ₆、ｆ₃＝ｆ₅が成立している
のに対し、位相においてはｆ₁＝−ｆ₇、ｆ₂＝−ｆ₆、ｆ
₃＝−ｆ₅が成立しており、ｆ₄を中心にして絶対値は正
対称、位相は反対称の性質が成立している。しかし、デ
ータ系列間で絶対値の変化よりも位相の変化の法が大き
くなっている。また、位相においてｆ₀＝ｆ₄は成立して
いない。

【００６０】更に、前述した巡回の性質から、巡回させ
た文字列は各フーリエ係数の絶対値が等しくなるという
仮設を立てた。これを検証するために、文字列「210.23
7.」を巡回させた全ての文字列に対して、フーリエ変換
を行なった結果を表６に示す。但し、位相の情報は省略
されている。

【００６１】表６から分るように、巡回させたデータ系
列のフーリエ係数の絶対値は全て等しくなっている。Ｄ
ＣＴ変換の場合を示す表２には、巡回の関係にある文字
列「210.237.」と「10.237.2」があるが、ＤＣＴ変換で
はフーリエ変換のように各係数が一致するとは限らな
い。従って、絶対値の等値性はフーリエ変換に特有の性
質であると考えられる。

【００６２】表７はデータ系列の反転によるフーリエ係
数の変化を示している。４個のデータ系列「Osaka-U
n」、「nU-akasO」、「Universi」、「isrevinU」につ
いてフーリエ変換を行なった。

【００６３】この反転においても、絶対値においては、
ｆ₁＝ｆ₇、ｆ₂＝ｆ₆、ｆ₃＝ｆ₅が成立し、位相において
はｆ₁＝−ｆ₇、ｆ₂＝−ｆ₆、ｆ₃＝−ｆ₅が成立してこと
が分かる。つまり、ｆ₄を中心にして絶対値は正対称、
位相は反対称の性質が成立している。

【００６４】ＤＣＴ変換と同様に、離散フーリエ変換を
用いた場合には、巡回や置換や交換のといった異なった
切り出しベクトルから極めて類似性の強い変換ベクトル
が導出された。変換ベクトルの数値上の特徴から、元の
切り出しベクトルの巡回性や置換性や交換性が判断でき
るから、数理変換の必要性が理解できる。

【００６５】このフーリエ変換は数理変換のもう一つの
特徴を浮き彫りにしている。即ち、フーリエ変換する
と、変換ベクトル（ｆ₀,ｆ₁,ｆ₂,ｆ₃,ｆ₄,ｆ₅,ｆ₆,
ｆ₇）においてｆ₁＝ｆ₇、ｆ₂＝ｆ₆、ｆ₃＝ｆ₅の性質が
現れることである。つまり、つまり、検索では（ｆ₀,ｆ
₁,ｆ₂,ｆ₃,ｆ₄,ｆ₅,ｆ₆,ｆ₇）の８次元ベクトルから
（ｆ₀,ｆ₁,ｆ₂,ｆ₃,ｆ₄）の５次元ベクトルが用いられ
ることを意味する。これは次元数を８次元から５次元に
縮約できる特徴である。

【００６６】ＤＣＴ変換ではベクトル次元数の縮約は見
られなかったが、フーリエ変換ではベクトル次元数の縮
約が観察され、同様に複素ワルシュ変換や複素ウェーブ
レット変換でも次元数の縮約が観察されている。データ
ベースの構築には膨大な大きさのメモリを必要とするか
ら、特にパーソナルコンピュータにデータベースをイン
ストールしたり、インターネットで情報交換したり、ｅ
−ｍａｉｌでファイルを添付したり、ファイルをダウン
ロードできるようにする場合には、このデータベースの
大きさをできるだけ圧縮することが必要になる。数理変
換による次元数の縮約は圧縮技術の有効な手段として利
用できる。

【００６７】この実施形態及び後述する実施例では、数
理的変換としてＤＦＴの中でもＦＦＴが用いられる。そ
の理由は次の通りである。（１）データ系列の長さをＮ
とすると、変換に要する計算時間が、ＤＣＴの場合では
Ｏ（Ｎ²）となるのに対して、ＦＦＴではＯ（ＮlogＮ）
となり、高速計算が行なえる。（２）データ系列の巡回
や反転や置換に関して、変換後の数値関係に顕著な特徴
構造が出現し、この結果データ系列の類似性の判定が容
易となり、この特徴は本発明に係る汎用データ検索方法
の数理変換全体の最大特徴でもある。（３）フーリエ係
数の絶対値を比較すると、ｆ₁＝ｆ₇、ｆ₂＝ｆ₆、ｆ₃＝
ｆ₅が全ての場合について成立しており、ｆ₅,ｆ₆,ｆ₇の
３成分が不要となる。つまり、変換ベクトルとして（ｆ
₀,ｆ₁,ｆ₂,ｆ₃,ｆ₄,ｆ₅,ｆ₆,ｆ₇）から（ｆ₀,ｆ₁,ｆ₂,
ｆ₃,ｆ₄）へと次元数の縮約ができ、ワルシュ変換やウ
ェーブレット変換と共に次元数の縮約によりデータベー
スの圧縮が行なえる。（４）位相情報は重要な特徴を含
まない。

【００６８】このように、ＤＣＴやＤＦＴのような数理
的変換を施すことにより、何らかの距離関数の下で、変
換係数に対するクラスタリングを行うことにより、類似
のデータを検索することが有効になる。

【００６９】図６はＤＦＴの中でＦＦＴを用いた数理変
換の操作と結果の説明図である。切り出しベクトルは８
次元の（Ｆ₀,Ｆ₁,Ｆ₂,Ｆ₃,Ｆ₄,Ｆ₅,Ｆ₆,Ｆ₇）である
が、ＤＦＴ変換（ＦＦＴ）により８次元の変換ベクトル
（ｆ₀,ｆ₁,ｆ₂,ｆ₃,ｆ₄,ｆ₅,ｆ ₆,ｆ₇）となり、特に５
次元の変換ベクトル（ｆ₀,ｆ₁,ｆ₂,ｆ₃,ｆ₄）に縮約さ
れることが示されている。図中の表には絶対値だけが記
載され、位相情報は数理変換では使用されない。

【００７０】図７は変換ベクトル集合の概念図である。
切り出しベクトル集合１を数理変換して変換ベクトル集
合１が生成され、切り出しベクトル集合２を数理変換し
て変換ベクトル集合２が生成され、切り出しベクトル集
合Ｍを数理変換して変換ベクトル集合Ｍが形成される。
従って、変換ベクトル集合はこれらのＭ個の変換ベクト
ル集合ｊ（ｊ＝１〜Ｍ）を部分ベクトル集合とする集合
である。

【００７１】図８は変換ベクトル量子化部の機能説明図
である。ＦＦＴ変換によって縮約された変換ベクトル
（ｆ₀,ｆ₁,ｆ₂,ｆ₃,ｆ₄）の各成分ｆ_kは実数であるか
ら、その成分は無限の段階に区分されていると言え、こ
のままでは変換ベクトル集合に含まれるベクトル数は無
限個になり、数値上に僅かな違いを有するベクトルが異
なったベクトルとして扱われてしまう。

【００７２】そこで、変換ベクトル集合に含まれるベク
トル数を有限化し、この有限化によって数値上の僅かな
相違を同一段階のベクトルとして集約することにより、
成分ｆ_kを所望の段階数に量子化することになる。例え
ば、各成分を０、１、２・・Ｅ、Ｆの１６段階に量子化
すれば、ベクトルの最大数は１６×１６×１６×１６×
１６にまで有限化できる。

【００７３】この量子化によって、変換ベクトルは特徴
ベクトルへと変換される。従って、特徴ベクトルでは数
値的に僅かな相違を有した別個のベクトルであったもの
が、特徴ベクトルでは同一のベクトルとしてまとめら
れ、ベクトルの全体的な類似的特徴をより顕現化させる
ことによって、検索精度を向上させるものである。

【００７４】しかも、この量子化によって、例えば各成
分が２５６段階の切り出しベクトルが１６段階の特徴ベ
クトルへと圧縮できるから、数理変換による縮約効果が
ない場合には、８次元ベクトルでは２５６⁸→１６⁸へと
ベクトル数が低減化され、大幅な圧縮が可能である。ま
た数理変換による縮約効果がある場合には２５６⁸→１
６⁵へと極めて大幅な圧縮が実現される。従って、量子
化はベクトルの類似構造の浮彫化（顕現化）による検索
性能の向上を実現すると同時に、データベースを圧縮し
て高速検索やバイト数・メモリ数の抑制を実現する利点
を有する。

【００７５】この量子化によって、変換ベクトル（ｆ₀,
ｆ₁,ｆ₂,ｆ₃,ｆ₄）は特徴ベクトル（ｑ₀,ｑ₁,ｑ₂,ｑ₃,
ｑ₄）へと変換される。量子化は次のように行なわれ
る。変換ベクトル集合に含まれる第１次元数ｆ₀の分布
を図８のように画き、このｆ₀の分布曲線を０〜最大値
にまで亘って１６段階０〜Ｆにより面積を等分割する。
小さい方から０、１、２・・・・Ｆと指数がつけられ
る。

【００７６】分布曲線はｆ₀〜ｆ₄まで５種類あり、
ｆ₀、ｆ₁、ｆ₂、ｆ₃、ｆ₄の１６段階量子化は夫々異な
った刻み幅を有することが分る。つまり、実数ｆ_k→１
６段階ｑ_kへと区割りされ、変換ベクトルも特徴ベクト
ルへと名称が変更される。

【００７７】図９は特徴ベクトル集合の概念図である。
変換ベクトル集合１を量子化して特徴ベクトル集合１が
生成され、変換ベクトル集合２を量子化して特徴ベクト
ル集合２が生成され、変換ベクトル集合Ｍを量子化して
特徴ベクトル集合Ｍが形成される。特徴ベクトル集合は
これらのＭ個の特徴ベクトル集合ｊを部分ベクトル集合
とする集合である。

【００７８】図１０はベクトル集計部の機能説明図であ
る。前述したように、量子化によって形成された特徴ベ
クトル集合には、成分が同一の多数の同じ特徴ベクトル
が含まれている。この重複した特徴ベクトルは一本化さ
れる必要がある。そのため、重複した特徴ベクトルは、
一つだけ残して他を除去し、その結果非重複特徴ベクト
ル集合が形成される。

【００７９】例えば、特徴ベクトル集合１には（A,1,5,
0,F）という特徴ベクトルが２個重複するため、重複し
た１個を除去し、他の全ての特徴ベクトルについてもこ
の非重複化を実行して非重複特徴ベクトル集合１を形成
する。

【００８０】図１１は非重複特徴ベクトル集合の概念図
である。特徴ベクトル集合にはＭ個の特徴ベクトルｊが
存在したから、Ｍ個の全てについて非重複化を行うこと
によって、非重複特徴ベクトル集合１〜非重複特徴ベク
トル集合Ｍを部分集合として包含する非重複特徴ベクト
ル集合が形成される。

【００８１】この非重複化によって、非重複特徴ベクト
ル集合ｊ（ｊ＝１，２・・Ｍ）の中には重複した特徴ベ
クトルは存在しないが、例えば非重複特徴ベクトル集合
ｉと非重複特徴ベクトル集合ｊ（≠ｉ）の間には同一の
特徴ベクトルが含まれていることは一向に差し支えな
い。ｉとｊは異なるファイルデータに属するから、切り
出された８バイトデータが一致することがあるのは当然
である。

【００８２】図１２は逆引情報作成部の機能説明図であ
る。逆引情報作成部では非重複特徴ベクトル集合１〜非
重複特徴ベクトル集合Ｍまでに含まれる全ての特徴ベク
トルから逆引情報ファイルを作成する。この逆引情報フ
ァイルをデータベース毎に作成しておくことが本発明の
特徴でもある。

【００８３】具体的に逆引情報ファイルの作成手順を説
明する。非重複特徴ベクトル集合の異なる全ての特徴ベ
クトルについて次の検討を行なう。まず、特徴ベクトル
(0,0,0,0,0)は非重複特徴ベクトル集合１、２、５・・
・Ｍに含まれているから、特徴ベクトル(0,0,0,0,0)と
ファイルデータ番号１、２、５・・・Ｍとが対応する。

【００８４】同様に特徴ベクトル(0,0,0,0,1)について
はファイルデータ番号１、５・・・Ｍが対応する。これ
を次々と行なって、最後に特徴ベクトル(F,F,F,F,F)に
ついてはファイルデータ番号２、５・・・Ｍが対応する
ことが分る。従って、図１２に示す対応関係表が逆引情
報ファイルとして完成される。

【００８５】図１３は実際の逆引情報作成部の手順を示
す機能説明図である。ファイルデータ番号を識別子ＩＤ
とする中間ファイルが非重複特徴ベクトル集合として計
算機の補助記憶装置に格納される。この中間ファイルか
ら、特徴ベクトルを識別子とする逆引情報ファイルが作
成されることになる。従って、逆引情報ファイルも特徴
ベクトルの数だけのファイル群から構成されているが、
本発明ではこれを統一して逆引情報ファイルと呼んでい
る。

【００８６】このような１ベクトル１ファイルのような
形式の逆引情報ファイルは探索が容易且つ高速に行なわ
れるが、ファイルの数が多くなると、補助装置のファイ
ルシステムによっては格納するファイル数に上限がある
ため、全てのファイルを格納できないといった問題が出
現する。

【００８７】それを解決するために、使用するファイル
システムはできる限り格納ファイル数の上限が大きいフ
ァイルシステムを用いるようにする。しかし、それでも
全てを格納できない場合には、他のベクトル圧縮などの
対策を講じる。

【００８８】図１４は他の逆引情報ファイルの構成例で
ある。一番上の階層のフォルダを特徴ベクトルの一つ目
の要素に対応させ、２番目の階層のフォルダを特徴ベク
トルの二つ目の要素に対応させ、３番目の階層のフォル
ダを特徴ベクトルの三つ目の要素に対応させ、その下に
ファイルを配置することで全体が木構造となるようにし
ている。

【００８９】例えば、特徴ベクトル(02,03,0a,06,09)に
対応するファイルは、index/02/03/0aというフォルダに
格納される。この図は特徴ベクトルが５次元の場合の例
であり、特徴ベクトルの次元数によってフォルダの階層
数は異なる。

【００９０】次に、特徴ベクトルによってはデータベー
スの中の多数のファイルデータから導かれるものがあ
り、そのような特徴ベクトルは検索において十分なファ
イルの絞り込みを行なうためには使用できない。そこ
で、非重複特徴ベクトル集合（中間ファイルとも言う）
から逆引情報ファイルを構築する際に、全ファイルデー
タ数に対する特定の特徴ベクトルを導出するファイルデ
ータ数の割合が指定した閾値を超えるような場合には、
その特徴ベクトルを無効ベクトルとして補助記憶装置内
に格納しておくことにする。

【００９１】図１５は無効ベクトルの作成手順の説明図
である。逆引情報ファイルが作成されると、全ての特長
ベクトルについて、その特徴ベクトルが帰属するファイ
ルデータの全数が計算される。例えば、(0,0,0,0,0)は
４、(0,0,0,0,1)は３、(2,F,0,A,B)は３５０、(F,F,F,
F,F)は３である。帰属するファイルデータ数ＳＵＭが３
５０以上の場合には、このような特徴ベクトルはファイ
ルデータの検索に貢献しないから、無効ベクトルとして
取り出される。

【００９２】この実施形態では、閾値を７０％として、
７０％以上を無効ベクトルとして取り出している。この
実施形態ではファイルデータの全数は５００とすると、
ＳＵＭ＝５００×０．７＝３５０が閾値となることが分
かる。このようにして、無効ベクトルだけからなる無効
ベクトル集合が形成される。勿論、閾値は自在に設定さ
れる。

【００９３】以上のようなステップにより、多数のファ
イルデータから構成されるデータベースに対し、逆引情
報ファイルと無効ベクトル集合が作成され、ファイルデ
ータ集合と逆引情報ファイルと無効ベクトル集合により
検索対象となるデータベースが構築される。このような
データベースが多数構成されることになる。

【００９４】本発明のデータベースは、ファイルデータ
をビットパターン又はバイトパターンから構成している
ので、単にテキストデータだけを対象にするのではな
く、画像データや音声データのデータベースも同じ方法
で構築できる。更に、テキストデータや画像データや音
声データの混成したデータベースを構築することができ
る点でも画期的なデータベース構築方法である。データ
ベースとして構築されると、そのレベルではテキストや
画像や音声といった違いは無くなり、同一のデータベー
ス内に構造化されるのである。

【００９５】次は、このようにして構成されたデータベ
ースに対して、被検索データの検索を実行する方法が必
要となる。この際、被検索データを加工して検索を実行
する必要がある。従って、検索時における被検索データ
の加工手順を説明する。

【００９６】図１６は被検索データの加工方法を説明す
るブロックフロー図である。被検索データは当然にデー
タベースと検索されるためにデータベースが構築された
加工工程と同一の工程を経て加工される必要がある。

【００９７】図において、データ抽出部ｍ１、数理的変
換部ｍ２、変換ベクトル量子化部ｍ３及びベクトル集計
部ｍ４は図１と全く同様であるから、その説明は省略す
る。従って、この４段階の処理によって、被検索データ
ｔ１は被検索切り出しベクトル集合ｔ２→被検索変換ベ
クトル集合ｔ３→被検索特徴ベクトル集合ｔ４→被検索
非重複特徴ベクトル集合ｔ５まで加工処理が施されたと
する。

【００９８】この被検索非重複特徴ベクトル集合ｔ５に
対し無効ベクトル除去部ｍ６により無効ベクトルに該当
するものが除去されて残りのベクトルから有効ベクトル
集合ｔ６が形成される。この有効ベクトル集合ｔ６から
ベクトルマッチング部ｍ７の操作により被検索抽出ファ
イルｔ７が導出される。

【００９９】最後に、この被検索抽出ファイルｔ７を用
いて検索結果出力部ｍ８の操作により検索結果ｔ８が出
力されて検索が終了する。以下に、前半の工程と、後半
の無効ベクトル除去部ｍ６とベクトルマッチング部ｍ７
と検索結果出力部ｍ８の３工程を説明して、検索方法の
詳細を明らかにする。

【０１００】図１７は被検索データから有効ベクトル集
合を導出する工程説明図である。被検索データは１４バ
イトのデータであるとし、この被検索データから８バイ
トずつ重ね移動窓法により被検索切り出しベクトルを切
り出してゆく。その結果、７個の被検索切り出しベクト
ルから構成される被検索切り出しベクトル集合が形成さ
れる。

【０１０１】この被検索切り出しベクトル集合に対し、
数理的変換部ｍ２、変換ベクトル量子化部ｍ３及びベク
トル集計部ｍ４の操作を順次行なって、被検索変換ベク
トル集合→被検索特徴ベクトル集合→被検索非重複特徴
ベクトル集合が次々と形成されてゆく。

【０１０２】次に、この被検索非重複特徴ベクトル集合
に対し無効ベクトル除去部ｍ６が作用し、図１５に示さ
れる無効ベクトル集合との対比によって無効ベクトル
(2,F,0,A,B)が除去され、残りの６要素により有効ベク
トル集合が形成される。

【０１０３】図１８は有効ベクトル集合から検索結果を
導出する工程図である。この有効ベクトル集合に対しベ
クトルマッチング部ｍ７が作用し、６個の有効ベクトル
が図１２に示す逆引情報ファイルと比較され、各有効ベ
クトルが帰属するファイルデータ番号の一覧表が作成さ
れる。換言すれば、逆引情報ファイルから６個の有効ベ
クトルだけの逆引情報ファイルが分離形成されるのであ
り、この部分逆引情報ファイルを被検索抽出ファイルと
称する。

【０１０４】この被検索抽出ファイルでは、データベー
スを構成する各ファイルデータが何回出現するかを示す
出現回数が計算されている。図１８の例では、ファイル
データ１は３回、ファイルデータ２は１回、ファイルデ
ータ３は４回というように一覧化される。

【０１０５】最後に、この被検索抽出ファイルに対し検
索結果出力部ｍ８が作用する。この工程では、ファイル
データ番号と出現回数が選択され、出現回数の多い順か
ら並べ替えが行なわれる。出現回数が多いほど、そのフ
ァイルデータが被検索データに近いファイルであると判
断されるからである。

【０１０６】この並べ替えデータに対し、ユーザー側で
閾値を設定する。この実施形態では有効ベクトル数が６
であるから、出現回数の最大値は当然６となる。この最
大値に対し閾値を３０％と設定すると、６×０．３＝
１．８≒２となるから、出現回数が２回以上のファイル
データがリストアップされる。最終の検索結果は出現回
数が２回以上のファイルデータとその出現回数の一覧表
であり、出現回数が大きいほど検索のヒット確率が高い
ことを示す。

【０１０７】被検索データから形成された特徴ベクトル
のうちの大部分が無効ベクトルである場合や、条件とし
て指定した被検索データの長さが小さいために十分な数
の特徴ベクトルが取れない場合には、無効ベクトルを除
去すると検索結果を十分に絞り込むことが難しい。この
ような場合には、無効ベクトルに含まれる特徴ベクトル
も使用して検索を行なうようにする。

【０１０８】

【実施例】[実施例：同一・巡回・置換・交換]本発明に
係る汎用データ検索方法を人工データに適用する。この
人工データによる本発明の検索を行なって、その結果を
従来型のキーワード検索の結果と比較して、本発明の汎
用データ検索方法の有効性を検証する。

【０１０９】まず、平均３０ｋＢ、標準偏差１０ｋＢの
正規分布に従うサイズで、中身は乱数により生成された
ランダムなパターンであるファイルを５００個作成す
る。また、別に５種類の１６バイトのランダムパターン
（パターン番号１〜５）を作成する。

【０１１０】５００個のファイルのうちパターン番号１
のパターンを２５０個のファイルに上書きする。また、
パターン番号２のパターンを１２５個のファイルに上書
きする。次に、パターン番号３のパターンを１００個の
ファイルに上書きする。更に、パターン番号４のパター
ンを５０個のファイルに上書きする。最後に、パターン
番号５のパターンを２５個のファイルに上書きする。

【０１１１】但し、一つのファイルに複数のパターンを
上書きするときは、パターン同士が重ならないように上
書きし、パターンを上書きしないファイルに対してはそ
のパターンと同じパターンが含まれていないことを確認
する。

【０１１２】次に、この５００個のファイルに対し、本
発明の諸工程を施してデータベースを構築した。つま
り、重ね移動窓のサイズを８、ベクトル量子化の分割数
を１６、無効ベクトル集合の作成閾値を７０％として逆
引情報ファイルを作成した。

【０１１３】被検索データとして、パターン番号１〜５
の１６バイトのパターン５個を用意した。また、夫々の
パターンに対して、任意のバイト数だけ巡回させたも
の、任意の１バイト、２バイト又は３バイトを置換した
もの、任意の二つのバイトの場所交換を１回、２回又は
３回行なったものを作成し、これらのパターンを被検索
データとして検索を実行した。有効ベクトル数に対して
ファイルデータの最低出現回数の比率（検索閾値）を変
化させた検索も同時に実行した。

【０１１４】検索の評価指標は、検索システムで評価に
良く用いられる精度（precision）と再現率（Recall）
である。精度とは、検索システムが抽出したファイル数
に対する正解のファイル数のことで、どれだけ検索結果
が正確かの度合いを表したものである。また、再現率と
は、真の正解ファイル数に対する検索システムが抽出し
た正解ファイル数の比率であり、正解ファイルの中でど
れだけのファイルが抽出されているかを示したものであ
る。

【０１１５】但し、パターン番号１〜５に対する真の正
解ファイルとは、該当するファイルのパターンを上書き
したファイルとする。また、それらに対して、巡回、置
換、入れ替えを行なったパターンに対する真の正解ファ
イルとは、それらの操作を行なう前のパターンを上書き
したファイルとする。

【０１１６】今回の人工データから逆引情報ファイルを
構築するのに要した計算時間は約１１時間であった。使
用した計算機の主な構成は以下の通りである。ＣＰＵ：ＡＭＤ Athlon 1400MHz ＲＡＭ：ＰＣ2100 DDRSDRAM 384MB ＨＤＤ：Seagate ST340824A ＯＳ：Laser5 Linux7.1

【０１１７】図１９はキ−パターン及びその巡回パター
ン・置換パターン・交換パターンの典型図である。これ
らのパターンが被検索データとして検索が実行される。
キーパターンに対し、巡回パターンでは第１バイトと第
２バイトが巡回されている。置換パターンでは第９バイ
トだけが置換されている。交換パターンでは第５バイト
と第１１バイトが交換されている。

【０１１８】表８は上書きしたパターン（パターンファ
イル）を被検索データとした場合の検索結果を示す。正
解ファイルは検索に使用したパターンを上書きしたもの
である。従って、このパターンから作られる特徴ベクト
ルは全て正解ファイルに含まれているはずである。つま
り、有効ベクトル数に対するファイルの出現回数の比率
に関する閾値を１．０と設定した検索方式、即ち全ての
特徴ベクトルが一致する方式で検索した場合には全ての
ファイルが抽出できるはずである。

【０１１９】表８から分るように、全てのパターンにお
いて閾値を１．０としたときに、全ての正解ファイルが
抽出されている。この閾値１．０のときの検索方法は、
後述する完全一致型のキーワード型検索と全く同じ検索
方法であり、閾値を１．０としたときには本発明の汎用
データ検索方法はキーワード型検索システムのように効
果的に機能することが分る。閾値を低下させた検索では
抽出ファイル数は増加しているが、正解ファイルを全て
抽出できているため再現率は１．００であり、多く抽出
している分だけ精度が低下していることが示されてい
る。

【０１２０】表９は巡回パターンによる検索結果を示
す。各パターンを巡回させた回数は乱数により決定され
た数である。表１０は１バイトを別の値で置換したパタ
ーンでの検索結果を示す。表１１は２バイトを別の値で
置換したパターンでの検索結果を示す。表１２は３バイ
トを別の値で置換したパターンでの検索結果を示す。

【０１２１】次に、パターン内で任意の二つの値を交換
をしたパターンを用いて検索を行なった。交換を行なっ
た回数は１回、２回、３回である。表１３は１回の交換
を行なったパターンでの検索結果を示す。表１４は２回
の交換を行なったパターンでの検索結果を示す。表１５
は３回の交換を行なったパターンでの検索結果を示して
いる。

【０１２２】表９〜表１５に見られるように、パターン
の巡回、一部置換、交換が行なわれたパターンで検索し
た場合でも、閾値を低下させて判定基準を緩めると、再
現率を増大でき、正解ファイルを高精度で抽出できるこ
とが分った。特に、表１５を除いた全ての場合に再現率
を１．００に高めることが可能であり、閾値の調整によ
り本発明の検索効率が極めて高いことが示された。

【０１２３】但し、閾値を低下させると抽出すべきでな
い余分なファイルも抽出されるため、検索の精度が低下
することも事実である。このことは、本発明に係る検索
方法では、検索の精度と再現率の両者を満足させる検索
を行なうためには、閾値を最適設計して検索することが
必要であることを示している。逆に、検索がうまくいか
ない場合には、閾値を調整するだけでなく、検索の結果
を見ながら被検索データを変化させたりして検索精度を
向上させる等自在な対応も必要である。

【０１２４】しかし、パターン内の順序入れ換えに（交
換）ついては、パターン番号４のように、１回の入れ換
えしか行なわれていないパターンで検索を行なった場合
に、判定基準を最低にしたとしても、精度及び再現率と
もに低い値となってしまう場合がある。

【０１２５】この理由は、テストパターンが１６バイト
であるため、入れ換える場所によっては、重ね移動窓で
切り出される全てのデータ系列が入れ換えられた部分を
含むことがあり、それらの系列から特徴ベクトルを作成
したときに、元のパターンから得られる特徴ベクトルと
は別のベクトル群が得られたことが考えられる。

【０１２６】このようなことは、入れ換えた二つの値の
差が小さいときには、入れ換えられたパターンと元のパ
ターンの類似性が大きいために起こりにくく、入れ換え
た二つの値の差が大きいほど起こりやすいと考えられ
る。

【０１２７】２回以上の入れ換えにおいては、再現率が
１．０となるものが少なくなり、正解ファイルを取りこ
ぼしている。この理由は、２回の入れ換えが４バイトの
置換に相当するため、元のパターンとの類似度が低くな
っていることが考えられる。画像などのデータにおいて
は、一般に相違する部分（画素といってもよい）が多い
ほど、人間の目には違うように映るので、これは妥当な
結果であると言える。

【０１２８】検索に要する時間は概ね１秒前後であり、
特にストレスを感じない時間内に検索を完了した。ま
た、近年、計算機の高性能化が著しく、検索に要する時
間は今後更に短縮されるはずなので、本発明の汎用デー
タ検索方法は十分実用に耐える方法であると考えられ
る。

【０１２９】[比較例：キーワード検索]前記実施例で用
いた人工データと同じデータセットを用いて、従来のキ
ーワード検索と同じ方法で検索を行なった。表１６はキ
ーワード型検索の手法によるパターンの検索結果を示
し、表１７はキーワード型検索の手法による巡回パター
ンの検索結果を示している。

【０１３０】表１６の結果は元のパターンで検索を行な
っているわけであるから、当然に優れた結果を与えてい
る。これは表８の結果で閾値を１．０としたときの結果
と一致しており、閾値を１．０に設定した場合の本発明
方法はキーワード検索に相当することが実証された。

【０１３１】表１７の結果は表９で使用した巡回パター
ンを用いた結果と対応する。キーワード型検索は部分一
致検索であるから、検索条件のパターンの一致でもマッ
チしないと検索結果として抽出されることは無いので、
巡回パターンではこのような結果になる。また、一部置
換パターンや、入れ換えを行なったパターンの結果も表
１７にあるような結果となるが、巡回パターンと同じ理
由であると考えられる。しかし、本発明方法はこのよう
な巡回パターンや一部置換パターンや入れ換えパターン
でも効率的に検索が可能であるから、従来型のキーワー
ド検索と比較して本発明方法の優秀性が実証された。

【０１３２】本発明に係る汎用データ検索方法の内容と
実施例の結果から、本発明方法は巡回・置換・入れ換え
を行っても目的のファイルを効率的に抽出でき、また閾
値条件を厳しくすることによって、従来型のシステムと
ほぼ同様の結果が得られることから、本発明のシステム
は従来のシステムより高精度の検索性能を有し、しかも
従来システムでは不可能であったテキストファイルや画
像ファイルや音声ファイルを統一的に包含したデータベ
ース検索を可能にした画期的な検索システムを提供する
ものである。

【０１３３】本発明に係る汎用データ検索方法は、上記
実施形態や実施例に限定されるものではなく、本発明の
技術的思想を逸脱しない範囲における種々の変形例や設
計変更をその技術的範囲内に包含するものであることは
云うまでもない。

【０１３４】

【表１】

【０１３５】

【表２】

【０１３６】

【表３】

【０１３７】

【表４】

【０１３８】

【表５】

【０１３９】

【表６】

【０１４０】

【表７】

【０１４１】

【表８】

【０１４２】

【表９】

【０１４３】

【表１０】

【０１４４】

【表１１】

【０１４５】

【表１２】

【０１４６】

【表１３】

【０１４７】

【表１４】

【０１４８】

【表１５】

【０１４９】

【表１６】

【０１５０】

【表１７】

【０１５１】

【発明の効果】第１の発明によれば、ビットパターン又
はバイトパターンの数値構造でデータベースとしてのフ
ァイルデータ集合を形成したからテキストファイルや画
像ファイルや音声ファイルなどの広範囲のファイルを統
一的に検索でき、各ファイルデータから同一長の切り出
しベクトル集合を形成したから比較検索の効率化を図る
ことができ、この切り出しベクトルを数理変換して変換
ベクトル集合を形成したからデータパターンがシフト・
巡回・置換した様々な変形パターンに対しても高精度で
類似性を判定できる検索用データベースを構成できる。
また、各変換ベクトルを量子化して特徴ベクトル集合を
形成したから僅かな数値的違いを超えて類似したパター
ンを検索できる効果があり、この特徴ベクトル集合から
重複したベクトルを一本化してベクトル数を大きく圧縮
した非重複特徴ベクトル集合を形成し、各非重複特徴ベ
クトルがどのファイルデータに帰属するかを対応させて
一覧化した逆引情報ファイルを形成したから検索速度を
高速化できる検索用データベース構築方法を実現でき
る。

【０１５２】第２の発明によれば、逆引情報ファイルの
形成と同時に、無効ベクトル集合を同時に形成するか
ら、検索時に被検索データから無効データを除去して検
索負担の軽量化を図り、検索速度の一層の向上を実現し
た検索用データベースを提供できる。

【０１５３】第３の発明によれば、検索されるファイル
をビットパターン又はバイトパターンで表現して被検索
データとするからテキスト・画像・音声などの各種のデ
ータを被検索データに使用でき、この被検索データから
所定長さのベクトルを複数切り出して被検索切り出しベ
クトル集合を形成するから検索効率を高度化でき、各被
検索切り出しベクトルを数理変換して被検索変換ベクト
ル集合を形成するから巡回・置換・交換などの変形デー
タも抽出することも可能になり、各被検索変換ベクトル
の成分を量子化して被検索特徴ベクトル集合を形成する
から僅かな数値の違いを超えて類似データの検索を可能
にし、この被検索特徴ベクトル集合においてベクトルが
重複する場合には一本化した被検索非重複特徴ベクトル
集合を形成して被検索データ数の低減により検索速度を
向上できる被検索データの加工方法を実現できる。

【０１５４】第４の発明によれば、被検索非重複特徴ベ
クトル集合から無効ベクトルを除去することにより検索
される被検索データ数を更に低減させて検索速度の高速
化を可能にする被検索データの加工方法を提供できる。

【０１５５】第５の発明によれば、データベースを構成
するファイルデータと被検索データの両方をビットパタ
ーン又はバイトパターンで表現するから、テキストデー
タと画像データと音声データを混成状態で検索できる画
期的な検索方法を提供でき、しかもファイルデータと被
検索データを同一長の切り出しベクトルで構成するか
ら、検索における対比を確実に行なえる検索方法を実現
できる。

【０１５６】第６の発明によれば、データベース側と被
検索データ側の両者に対し数理変換を行なうから、デー
タのパターンの中に巡回・置換・交換等の変形データが
あっても数理変換によりそれらの変形性を極緊密な類似
構造へと解消することにより変形類似パターンを有した
データを一括して抽出できる画期的な検索性能を実現で
き、しかもフーリエ変換やワルシュ変換やウェーブレッ
ト変換などの特定の数理変換を用いれば切り出しベクト
ルの次元数を大幅に縮約してデータベースと検索データ
の両方のサイズを圧縮でき、コンピュータ内の記憶容量
の低減化と検索速度の高速化を実現できる。

【０１５７】第７の発明によれば、データベース側と被
検索データ側の両方の変換ベクトルを所望段階に量子化
して特徴ベクトル集合を形成するから、変換ベクトルに
数値上の僅かな違いがあっても同一の特徴ベクトルとし
て集約化することが可能となり、データ構造の中の小構
造にとらわれずに大構造に着目したデータ検索を可能に
し、しかも量子化によって多数出現する重複した特徴ベ
クトルを一本化できるから、ベクトル数の大幅な低減に
よる圧縮を実現でき、コンピュータ内の記憶容量の低減
化と検索速度の高速化を実現できる。

【０１５８】第８の発明によれば、データベース側の非
重複特徴ベクトル集合において、各非重複特徴ベクトル
がどのファイルデータに帰属するかを対応させて一覧化
した逆引情報ファイルを形成し、この逆引情報ファイル
を用いて被検索データ側の各被検索非重複特徴ベクトル
がどのファイルデータに対応するかを瞬時に判断して出
現回数の多いファイルデータを高速に抽出できるから、
検索速度を一層に高速化することが可能となり、インタ
ーネットの検索エンジンやコンピュータソフトにおける
画期的な検索方法を提供するものである。

【０１５９】第９の発明によれば、データベース側にお
いて逆引情報ファイルと同時に無効ベクトル集合を形成
するから、被検索データ側の非重複特徴ベクトルの中で
無効ベクトルを事前に除去し、残りの有効ベクトルだけ
で逆引情報ファイルと対応させて検索するから、検索速
度の更に一層の高速化を実現できる。

【図面の簡単な説明】

【図１】本発明に係る汎用データ検索方法に用いられる
検索用データベースの構築手順のフローブロック図であ
る。

【図２】ファイルデータ集合の概念図である。

【図３】データ抽出部の機能説明図である。

【図４】切り出しベクトル集合の概念図である。

【図５】数理的変換部の機能説明図である。

【図６】ＤＦＴの中でＦＦＴを用いた数理変換の操作と
結果の説明図である。

【図７】変換ベクトル集合の概念図である。

【図８】変換ベクトル量子化部の機能説明図である。

【図９】特徴ベクトル集合の概念図である。

【図１０】ベクトル集計部の機能説明図である。

【図１１】非重複特徴ベクトル集合の概念図である。

【図１２】逆引情報作成部の機能説明図である。

【図１３】実際の逆引情報作成部の手順を示す機能説明
図である。

【図１４】他の逆引情報ファイルの構成例である。

【図１５】無効ベクトルの作成手順の説明図である。

【図１６】被検索データの加工方法を説明するブロック
フロー図である。

【図１７】被検索データから有効ベクトル集合を導出す
る工程説明図である。

【図１８】有効ベクトル集合から検索結果を導出する工
程図である。

【図１９】図１９はキ−パターンに対する巡回・置換・
交換の典型データ図である。

【符号の説明】

ｍ１はデータ抽出部、ｍ２は数理的変換部、ｍ３は変換
ベクトル量子化部、ｍ４はベクトル集計部、ｍ５は逆引
情報作成部、ｍ６は無効ベクトル除去部、ｍ７はベクト
ルマッチング部、ｍ８は検索結果出力部、ｓ１はファイ
ルデータ集合、ｓ２は切り出しベクトル集合、ｓ３は変
換ベクトル集合、ｓ４は特徴ベクトル集合、ｓ５は非重
複特徴ベクトル集合、ｓ６は無効ベクトル集合、ｓ７は
逆引情報ファイル、ｔ１は被検索データ、ｔ２は被検索
切り出しベクトル集合、ｔ３は被検索変換ベクトル集
合、ｔ４は被検索特徴ベクトル集合、ｔ５は被検索非重
複特徴ベクトル集合、ｔ６は有効ベクトル集合、ｔ７は
被検索抽出ファイル、ｔ８は検索結果。

───────────────────────────────────────────────────── フロントページの続き (71)出願人 595035131 株式会社原子力安全システム研究所福井県三方郡美浜町佐田第64号毛ノ鼻１番地の37 (72)発明者足立史宜大阪府和泉市のぞみ野１丁目16番10号 (72)発明者鷲尾隆大阪府豊中市北桜塚２丁目12−８ (72)発明者元田浩大阪府高槻市真上町６丁目９−１−707 (72)発明者花房英光福井県三方郡美浜町佐田64号株式会社原子力安全システム研究所内Ｆターム(参考） 5B050 EA04 EA18 GA08 5B075 NK49 QM05 5L096 EA35 FA22 FA35 JA11 KA09

Claims

【特許請求の範囲】

【請求項１】ビットパターン又はバイトパターンで表
現された多数のファイルデータからファイルデータ集合
を形成し、各ファイルデータから所定長さのベクトルを
複数切り出して切り出しベクトル集合を形成し、各切り
出しベクトルを数理変換して得られた変換ベクトルから
変換ベクトル集合を形成し、各変換ベクトルの成分を所
望段階に量子化して得られた特徴ベクトルから特徴ベク
トル集合を形成し、この特徴ベクトル集合において同一
の特徴ベクトルが複数存在するときは一つのみを残し他
を除去してベクトル数を低減させた非重複特徴ベクトル
集合を形成し、各非重複特徴ベクトルがどのファイルデ
ータに帰属するかを対応させて一覧化した逆引情報ファ
イルを形成することを特徴とする汎用データ検索方法に
おける検索用データベース構築方法。
【請求項２】前記逆引情報ファイルの形成と同時に、
前記非重複特徴ベクトルの中で多数のファイルデータに
帰属することを条件にして検索時には利用しない無効ベ
クトルを選び出して無効ベクトル集合を形成する請求項
１に記載の汎用データ検索方法における検索用データベ
ース構築方法。
【請求項３】検索されるファイルをビットパターン又
はバイトパターンで表現して被検索データとし、この被
検索データから所定長さのベクトルを複数切り出して被
検索切り出しベクトル集合を形成し、各被検索切り出し
ベクトルを数理変換して得られた被検索変換ベクトルか
ら被検索変換ベクトル集合を形成し、各被検索変換ベク
トルの成分を所望段階に量子化して得られた被検索特徴
ベクトルから被検索特徴ベクトル集合を形成し、この被
検索特徴ベクトル集合において同一の被検索特徴ベクト
ルが複数存するときは一つのみを残し他を除去してベク
トル数を低減させた被検索非重複特徴ベクトル集合を形
成することを特徴とする汎用データ検索方法における被
検索データ加工方法。
【請求項４】前記被検索非重複特徴ベクトル集合から
検索において無効と判断されるベクトルを除去して残っ
たベクトルから有効ベクトル集合を形成する請求項３に
記載の汎用データ検索方法における被検索データ加工方
法。
【請求項５】ビットパターン又はバイトパターンで表
現された多数のファイルデータからファイルデータ集合
を形成し、各ファイルデータから所定長さのベクトルを
複数切り出して切り出しベクトル集合を形成し、他方、
検索されるファイルを前記ファイルデータと同様のビッ
トパターン又はバイトパターンで表現して被検索データ
とし、この被検索データから前記所定長さと同一長のベ
クトルを複数切り出して被検索切り出しベクトル集合を
形成する工程を具備して、被検索データに近い構造を有
したファイルデータを抽出することを特徴とする汎用デ
ータ検索方法。
【請求項６】前記切り出しベクトル集合の各切り出し
ベクトルを数理変換して得られた変換ベクトルから変換
ベクトル集合を形成し、前記被検索切り出しベクトル集
合の各被検索切り出しベクトルに前記数理変換を施して
得られた被検索変換ベクトルから被検索変換ベクトル集
合を形成する工程を具備する請求項５に記載の汎用デー
タ検索方法。
【請求項７】前記変換ベクトル集合の各変換ベクトル
の成分を所望段階に量子化して得られた特徴ベクトルか
ら特徴ベクトル集合を形成し、この特徴ベクトル集合に
おいて同一の特徴ベクトルが複数存するときは一つのみ
を残し他を除去してベクトル数を低減させた非重複特徴
ベクトル集合を形成し、前記被検索変換ベクトル集合の
各被検索変換ベクトルの成分に前記量子化を施して得ら
れた被検索特徴ベクトルから被検索特徴ベクトル集合を
形成し、この被検索特徴ベクトル集合において同一の被
検索特徴ベクトルが複数存するときは一つのみを残し他
を除去してベクトル数を低減させた被検索非重複特徴ベ
クトル集合を形成する工程を具備する請求項６に記載の
汎用データ検索方法。
【請求項８】前記非重複特徴ベクトル集合の各非重複
特徴ベクトルがどのファイルデータに帰属するかを対応
させて一覧化した逆引情報ファイルを形成し、この逆引
情報ファイルを用いて各被検索非重複特徴ベクトルがど
のファイルデータに対応するかを判断して出現回数の多
いファイルデータを抽出する請求項７に記載の汎用デー
タ検索方法。
【請求項９】前記非重複特徴ベクトル集合の各非重複
特徴ベクトルがどのファイルデータに帰属するかを対応
して一覧化した逆引情報ファイルを形成し、非重複特徴
ベクトルが多数のファイルデータに帰属することを条件
にして検索時には利用しない無効ベクトルと判断された
無効ベクトル集合を形成し、前記被検索非重複特徴ベク
トル集合から前記無効ベクトル集合に含まれる無効ベク
トルを除去して有効ベクトル集合を形成し、前記逆引情
報ファイルを用いて各有効ベクトルがどのファイルデー
タに対応するかを判断して出現回数の多いファイルデー
タを抽出する請求項７に記載の汎用データ検索方法。