JP2000339332A - 検索インデックスを記録した媒体、検索インデックス更新方法、その装置、そのプログラムを記録した媒体 - Google Patents

検索インデックスを記録した媒体、検索インデックス更新方法、その装置、そのプログラムを記録した媒体

Info

Publication number
JP2000339332A
JP2000339332A JP11149235A JP14923599A JP2000339332A JP 2000339332 A JP2000339332 A JP 2000339332A JP 11149235 A JP11149235 A JP 11149235A JP 14923599 A JP14923599 A JP 14923599A JP 2000339332 A JP2000339332 A JP 2000339332A
Authority
JP
Japan
Prior art keywords
reference table
search
entry
character string
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11149235A
Other languages
English (en)
Inventor
Daijiro Mori
大二郎 森
Nobuyuki Omori
信行 大森
Hiroto Inagaki
博人 稲垣
Kazuo Tanaka
一男 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP11149235A priority Critical patent/JP2000339332A/ja
Publication of JP2000339332A publication Critical patent/JP2000339332A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 検索要求を実行しながら更新処理が可能で、
かつ処理量が少なく高速な更新処理が可能な検索インデ
ックスを記録した媒体、検索インデックス更新方法、そ
の装置、そのプログラムを記録した媒体を提供するこ
と。 【解決手段】 従来のパトリシア木構造による検索イン
デックスでは省略されていた節点のうち、文字の境界に
相当する部分に、省略された文字のみを含み、参照表を
含まない小節点(チェックノード)3を挿入することに
より、新たな検索文字列の発生によって参照表の追加が
必要となった場合においても、該小節点3を参照表を伴
う節点に置換するのみによって容易に可能とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書の集合、特に
大規模でかつ頻繁に更新される文書の集合から特定の文
字列を含む文書を検索する際に用いる検索インデックス
を記録した媒体、検索インデックス更新方法、その装
置、そのプログラムを記録した媒体に関するものであ
る。
【0002】
【従来の技術】近年、計算機技術及び電気通信技術の発
展とこれらの融合により、大量の文書情報を計算機上に
蓄積し、流通することが可能となった。これにより極め
て大量の文書情報が電子化文書として広く参照可能とな
り、これらの文書を対象とする文書検索技術(例えば、
インターネット上に存在するホームページのうち、特定
のキーワードや条件式に一致するものを探し出す検索エ
ンジン等)が開発されている。
【0003】文書の集合から特定の文字列を含む文書を
検索する手段としては、各文書を最初から最後まで参照
しながらマッチングを行う方法と、予め各文書を文字や
単語等の要素に分解し、各要素から該文書を参照するイ
ンデックスを構成し、これを用いて検索する方法とに大
別される。インデックスを用いる場合、文字や単語の要
素をキーとし、あるいはこれらの要素の連鎖をキーとす
る方法等が考案されている。
【0004】また、複数の要素から特定の要素を参照す
る手法としては、各要素を順番に並べ、その中間の要素
との比較を再帰的に行う二分木、要素を特定の関数によ
って数値に変換するハッシュ表、要素を構成する文字に
対応する数値によって分岐するトライ、パトリシア木
(ツリー)等の手法が考案されている。
【0005】このうち、2分木やトライについてはデー
タの変更操作(追加/削除)が容易であるが、2分木は
検索速度が遅く、トライは大量の記憶容量を必要とする
という欠点があり、ハッシュ表やパトリシア木について
は記憶容量もあまり必要とせず、検索速度も高速である
が、データの変更操作が容易でないという欠点がある。
【0006】図1はパトリシア木による検索インデック
スのデータ構造を、トライによる検索インデックスのデ
ータ構造とともに示したものである。
【0007】パトリシア木は、トライと同様に、キーと
なる文字列の一部分から、文字列の残り部分を示す木構
造のポインタ(節点)を参照する参照表1によって再帰
的に構成される。但し、パトリシア木においては、節点
の数を少数に保つために、前述の参照表1において、値
を取るエントリが唯一である場合は、この参照表(節
点)を省略し、省略した文字列の長さ(2)のみを記録
することによってインデックスを構成する。パトリシア
木の検索処理においては、終端の節点まで到達した時点
で、省略された部分文字列が実際に符合していたか、再
度チェックする。
【0008】図2はパトリシア木による検索インデック
スにデータの追加を行う時の処理の流れを示すものであ
る。
【0009】まず、木構造の先頭の参照表を比較対象と
して(101)、検索文字列の部分文字列から参照表中
の該当するエントリを取得する(102)。
【0010】この際、該当するエントリの値が空き、即
ち次に参照する参照表や文字列がなければ(103)、
該エントリに新たな参照表を追加する(104)。ま
た、該当するエントリの値が次に参照する参照表であれ
ば(105)、該エントリの参照表を比較対象として
(106)、前記102以降を繰り返す。
【0011】一方、該当するエントリの値が参照表でな
い、即ち終端文字列であれば、該当するエントリの値と
検索文字列が一致するかどうかを調べ(107)、一致
すれば検索文字列は既存の文字列とみなしてそのまま
(追加の必要なし)とする(108)。
【0012】ここで、該当するエントリの値と検索文字
列が一致しない場合は、終端文字列中から検索文字列と
一致する部分文字列を抽出し(109)、比較対象の参
照表を1階層遡り(バックトラック処理)(110)、
この参照表の部分文字列が検索文字列と一致する範囲内
かどうかを調べる(111)。この際、範囲内でなけれ
ば、前記110,111を繰り返し、範囲内であれば、
一致する部分文字列の後続文字列をキーとする参照表を
挿入する(112)。
【0013】
【発明が解決しようとする課題】このように、従来のパ
トリシア木による検索インデックスの更新処理において
は、省略された部分文字列(節点)に該当する部分に参
照表を追加したり、省略可能となった参照表を該当する
部分から削除するという、データ全体の再構成が必要で
あり、検索要求を実行しながら更新処理することができ
ないという問題があり、また、特にデータの追加におい
ては、前述したバックトラック処理のような処理の繰り
返しによる負荷が大きく、時間がかかるという問題があ
った。
【0014】本発明の目的は、検索要求を実行しながら
更新処理が可能で、かつ処理量が少なく高速な更新処理
が可能な検索インデックスを記録した媒体、検索インデ
ックス更新方法、その装置、そのプログラムを記録した
媒体を提供することにある。
【0015】
【課題を解決するための手段】前記目的を達成するた
め、本発明では、インデックスのデータ構造としてパト
リシア・ツリーを基本として、以下詳細に述べるように
改良し、また、同時に、前記データ構造の採用に伴って
インデックス更新の処理手順を以下に述べるように変更
した。
【0016】即ち、本発明では、従来、パトリシア木で
は省略されていた節点において、文字の境界に相当する
部分に、省略された文字のみを含み、参照表を含まない
小節点(チェックノード)を挿入する。
【0017】例えば1文字が16bitで表現されてお
り、参照表の定義域を4bitで表現する場合、冗長な
節点は4階層に渡って省略することを許すが、文字列の
境界に相当する節点においては前述の小節点を挿入す
る。
【0018】このデータ構造により、検索処理において
は、終端の節点に至る過程において文字毎に検索文字列
が実際に符合しているかチェックすることが可能とな
り、また、変更操作、例えば新たに参照表の追加が必要
となった場合、該小節点を参照表を伴う節点に置換する
ことによって容易にこれが実現可能となる。なお、参照
表の削除が必要になった場合も同様に、参照表を伴う節
点を小節点に置換すれば良い。
【0019】文字列をキーとするインデックスの場合、
追加/削除操作が必要になる節点は、必ず文字の境界に
一致するため、小節点を挿入する箇所は文字の境界に相
当する部分だけで十分であり、他の節点に対する変更操
作を想定する必要はない。
【0020】このような構成により、従来のパトリシア
木と同様に、記憶容量をあまり必要とせず、高速な検索
が可能であり、さらに動的な更新操作が容易に行えるイ
ンデックスを構成することができる。
【0021】
【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して説明する。
【0022】図3は本発明の検索インデックスのデータ
構造を示すもので、前述したパトリシア木構造を備えた
検索インデックスにおいて省略された節点のうち、文字
の境界に相当する部分に、省略された文字のみを含み、
参照表を含まない小節点(チェックノード)3を挿入し
てなっている。
【0023】図4は本発明の検索インデックスにデータ
の追加を行う時の処理の流れを示すもので、図中、図2
と同一処理部分は同一番号をもって表している。
【0024】即ち、まず、木構造の先頭の参照表を比較
対象として(101)、新たな検索文字列の部分文字列
から参照表中の該当するエントリを取得する(10
2)。
【0025】この際、該当するエントリの値が空き、即
ち次に参照する参照表や文字列がなければ(103)、
該エントリに新たな参照表を追加する(104)。ま
た、該当するエントリの値が次に参照する参照表であれ
ば(105)、該エントリの参照表を比較対象として
(106)、前記102以降を繰り返す。
【0026】一方、該当するエントリの値が参照表でな
い、即ちチェックノードであれば、該当するチェックノ
ードの文字と検索文字列が一致するかどうかを調べ(2
01)、一致すれば検索文字列は既存の文字列とみなし
てそのまま(追加の必要なし)とする(108)。
【0027】ここで、該当するチェックノードの文字と
検索文字列が一致しない場合は、チェックノードと1階
層上の参照表との間に新たな参照表を追加する(20
2)。
【0028】図5は本発明装置全体を示すもので、図
中、11は検索インデックスデータベース(DB)、1
2はエントリ取得手段、13はエントリ判定手段、14
は第1の参照表追加手段、15は一致判定手段、16は
第2の参照表追加手段である。
【0029】検索インデックスDB11は、図3に示し
たデータ構造を有する検索インデックスを記録してい
る。
【0030】エントリ取得手段12は、新たな検索文字
列が入力された時、まず、検索インデックスDB11中
の先頭の参照表を比較対象として、検索文字列の部分文
字列から参照表中の該当するエントリを取得してエント
リ判定手段13に送る。
【0031】エントリ判定手段13は、取得したエント
リの内容を調べ、エントリが空きか、参照表か、そのい
ずれでもないかを判定し、該エントリが空きであれば、
第1の参照表追加手段14に参照表追加の命令を出し、
参照表であれば、該参照表を比較対象としてエントリ判
定手段13に再度、エントリを取得させ、いずれでもな
ければ、一致判定手段15に小節点の文字と検索文字列
との一致判定を行わせる。
【0032】第1の参照表追加手段14は、検索インデ
ックスDB11中の該当するエントリに新たな参照表を
追加する。
【0033】一致判定手段15は、該当する小節点の文
字と検索文字列が一致するかどうかを調べ、該当する小
節点の文字と検索文字列が一致する場合は何もせず、一
致しない場合は第2の参照表追加手段16に参照表追加
の命令を出す。
【0034】第2の参照表追加手段16は、検索インデ
ックスDB11中の前記小節点と1階層上の参照表との
間に新たな参照表を追加する。
【0035】
【発明の効果】以上説明したように、本発明によれば、
高速かつ比較的小量の記憶容量で動作するパトリシア木
において、データの変更操作を容易に加えることが可能
となり、大規模なデータ集合において高速な検索性能を
発揮することが必要とされる文書検索の分野において動
的なデータ更新、即ち検索要求を実行しながら更新処理
が可能な検索エンジンを構築することができる。また、
更新処理の処理量が削減されることにより、インデック
ス更新の高速化を図ることができる。
【図面の簡単な説明】
【図1】従来のトライ及びパトリシア木による検索イン
デックスのデータ構造を示す図
【図2】パトリシア木による検索インデックスにデータ
の追加を行う時の処理の流れ図
【図3】本発明の検索インデックスのデータ構造を示す
【図4】本発明の検索インデックスにデータの追加を行
う時の処理の流れ図
【図5】本発明装置全体のブロック構成図
【符号の説明】
1:参照表、2:省略文字長、3:小節点、11:検索
インデックスデータベース(DB)、12:エントリ取
得手段、13:エントリ判定手段、14:第1の参照表
追加手段、15:一致判定手段、16:第2の参照表追
加手段。
フロントページの続き (72)発明者 稲垣 博人 東京都新宿区西新宿3丁目19番2号 日本 電信電話株式会社内 (72)発明者 田中 一男 東京都新宿区西新宿3丁目19番2号 日本 電信電話株式会社内 Fターム(参考) 5B075 ND03 NK10 NK43 NR06

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 検索文字列の一部分から、文字列の残り
    部分を示す木構造のポインタ(節点)を参照する参照表
    によって再帰的に構成され、前記参照表のうち、値を取
    るエントリが唯一である参照表を省略し、省略した文字
    列の長さのみを記録するパトリシア木構造を有する検索
    インデックスを記録した媒体において、 省略された参照表のうち、文字の境界に相当する部分
    に、文字のみを含む小節点を挿入したデータ構造を有す
    ることを特徴とする検索インデックスを記録した媒体。
  2. 【請求項2】 請求項1記載の媒体に記録された検索イ
    ンデックスを更新する方法であって、 新たな検索文字列が入力された時、検索インデックスの
    先頭の参照表を比較対象として検索文字列の部分文字列
    から参照表中の該当するエントリを取得する第1の工程
    と、 該当するエントリの値が空きであれば、該エントリに新
    たな参照表を追加する第2の工程と、 該当するエントリの値が次に参照する参照表であれば、
    該エントリの参照表を比較対象として第1、第2の工程
    を繰り返す第3の工程と、 該当するエントリの値が参照表でなければ、該当する小
    節点の文字と検索文字列が一致するかどうかを調べ、一
    致すれば検索文字列は既存の文字列とみなしてそのまま
    とする第4の工程と、 該当する小節点の文字と検索文字列が一致しない場合
    は、小節点と1階層上の参照表との間に新たな参照表を
    追加する第5の工程とからなることを特徴とする検索イ
    ンデックス更新方法。
  3. 【請求項3】 請求項1記載の媒体に記録された検索イ
    ンデックスを更新する装置であって、 新たな検索文字列が入力された時、検索インデックスの
    先頭の参照表を比較対象として検索文字列の部分文字列
    から参照表中の該当するエントリを取得するエントリ取
    得手段と、 取得したエントリの内容を調べ、エントリが空きか、参
    照表か、そのいずれでもないかを判定し、参照表であれ
    ば、該参照表を比較対象として再度、エントリ取得手段
    にエントリを取得させるエントリ判定手段と、 エントリの内容が空きの場合に、該エントリに新たな参
    照表を追加する第1の参照表追加手段と、 エントリの内容が空きでも参照表でもない場合、該当す
    る小節点の文字と検索文字列が一致するかどうかを調べ
    る一致判定手段と、 該当する小節点の文字と検索文字列が一致する場合は何
    もせず、一致しない場合は小節点と1階層上の参照表と
    の間に新たな参照表を追加する第2の参照表追加手段と
    を備えたことを特徴とする検索インデックス更新装置。
  4. 【請求項4】 請求項1記載の媒体に記録された検索イ
    ンデックスを更新するプログラムを記録した媒体におい
    て、 前記プログラムはコンピュータに読み取られた時、該コ
    ンピュータに、 新たな検索文字列が入力された時、検索インデックスの
    先頭の参照表を比較対象として検索文字列の部分文字列
    から参照表中の該当するエントリを取得する第1の工程
    と、 該当するエントリの値が空きであれば、該エントリに新
    たな参照表を追加する第2の工程と、 該当するエントリの値が次に参照する参照表であれば、
    該エントリの参照表を比較対象として第1、第2の工程
    を繰り返す第3の工程と、 該当するエントリの値が参照表でなければ、該当する小
    節点の文字と検索文字列が一致するかどうかを調べ、一
    致すれば検索文字列は既存の文字列とみなしてそのまま
    とする第4の工程と、 該当する小節点の文字と検索文字列が一致しない場合
    は、小節点と1階層上の参照表との間に新たな参照表を
    追加する第5の工程とからなる動作を実行させることを
    特徴とする検索インデックス更新プログラムを記録した
    媒体。
JP11149235A 1999-05-28 1999-05-28 検索インデックスを記録した媒体、検索インデックス更新方法、その装置、そのプログラムを記録した媒体 Pending JP2000339332A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11149235A JP2000339332A (ja) 1999-05-28 1999-05-28 検索インデックスを記録した媒体、検索インデックス更新方法、その装置、そのプログラムを記録した媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11149235A JP2000339332A (ja) 1999-05-28 1999-05-28 検索インデックスを記録した媒体、検索インデックス更新方法、その装置、そのプログラムを記録した媒体

Publications (1)

Publication Number Publication Date
JP2000339332A true JP2000339332A (ja) 2000-12-08

Family

ID=15470841

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11149235A Pending JP2000339332A (ja) 1999-05-28 1999-05-28 検索インデックスを記録した媒体、検索インデックス更新方法、その装置、そのプログラムを記録した媒体

Country Status (1)

Country Link
JP (1) JP2000339332A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010231643A (ja) * 2009-03-27 2010-10-14 Fujitsu Ltd 記憶媒体およびトライ木生成方法
JP2010238195A (ja) * 2009-03-31 2010-10-21 Fujitsu Ltd 記憶媒体、トライ木生成方法およびトライ木生成装置
JP2010277544A (ja) * 2009-06-01 2010-12-09 Fujitsu Ltd トライ木文字列登録プログラムおよびトライ木文字列登録装置
JP2012150751A (ja) * 2011-01-21 2012-08-09 Bank Of Tokyo-Mitsubishi Ufj Ltd 検索装置
CN102770863A (zh) * 2010-02-24 2012-11-07 三菱电机株式会社 检索装置以及检索程序
JP2013149269A (ja) * 2013-03-28 2013-08-01 Bank Of Tokyo-Mitsubishi Ufj Ltd 検索装置
JP2015222524A (ja) * 2014-05-23 2015-12-10 日本電信電話株式会社 辞書生成方法、辞書生成装置、辞書生成プログラム及びソフトウェア関連情報提示システム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010231643A (ja) * 2009-03-27 2010-10-14 Fujitsu Ltd 記憶媒体およびトライ木生成方法
JP2010238195A (ja) * 2009-03-31 2010-10-21 Fujitsu Ltd 記憶媒体、トライ木生成方法およびトライ木生成装置
JP2010277544A (ja) * 2009-06-01 2010-12-09 Fujitsu Ltd トライ木文字列登録プログラムおよびトライ木文字列登録装置
CN102770863A (zh) * 2010-02-24 2012-11-07 三菱电机株式会社 检索装置以及检索程序
JP2012150751A (ja) * 2011-01-21 2012-08-09 Bank Of Tokyo-Mitsubishi Ufj Ltd 検索装置
JP2013149269A (ja) * 2013-03-28 2013-08-01 Bank Of Tokyo-Mitsubishi Ufj Ltd 検索装置
JP2015222524A (ja) * 2014-05-23 2015-12-10 日本電信電話株式会社 辞書生成方法、辞書生成装置、辞書生成プログラム及びソフトウェア関連情報提示システム

Similar Documents

Publication Publication Date Title
US9195738B2 (en) Tokenization platform
JP3554459B2 (ja) テキストデータ登録検索方法
EP0595064A2 (en) Method and means providing static dictionary structures for compressing character data and expanding compressed data
US20170242855A1 (en) Fast, scalable dictionary construction and maintenance
US6735600B1 (en) Editing protocol for flexible search engines
US20090089266A1 (en) Method of finding candidate sub-queries from longer queries
JP4237813B2 (ja) 構造化文書管理システム
CN114416670A (zh) 适用于网盘文档的索引创建方法、装置、网盘及存储介质
US6721753B1 (en) File processing method, data processing apparatus, and storage medium
JP2000339332A (ja) 検索インデックスを記録した媒体、検索インデックス更新方法、その装置、そのプログラムを記録した媒体
US6640225B1 (en) Search method using an index file and an apparatus therefor
CN117763077A (zh) 数据查询方法及装置
CN115809248B (zh) 数据查询方法和装置以及存储介质
CN113190644B (zh) 热更新搜索引擎分词字典的方法及装置
JPH07234879A (ja) 情報処理装置及びデータベース検索方法
JP4091586B2 (ja) 構造化文書管理システム、索引構築方法及びプログラム
JP2675958B2 (ja) 情報検索用計算機システム及びその記憶装置の動作方法
KR100328129B1 (ko) 메모리 계층 구조를 고려한 압축, 탐색 및 새로운 항목삽입 방법
JPH08190571A (ja) 文書検索方法
JP4304226B2 (ja) 構造化文書管理システム、構造化文書管理方法及びプログラム
US11392569B2 (en) Tree partitioning of the succinct trie
JP4160627B2 (ja) 構造化文書管理システム及びプログラム
JPH09212523A (ja) 全文検索方法
JP4014417B2 (ja) 全文検索装置
CN117807113A (zh) 一种数据查询方法、装置、设备及介质

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040817

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050322