JPS59112339A - 文書検索高速化方式 - Google Patents

文書検索高速化方式

Info

Publication number
JPS59112339A
JPS59112339A JP57223169A JP22316982A JPS59112339A JP S59112339 A JPS59112339 A JP S59112339A JP 57223169 A JP57223169 A JP 57223169A JP 22316982 A JP22316982 A JP 22316982A JP S59112339 A JPS59112339 A JP S59112339A
Authority
JP
Japan
Prior art keywords
document
character
character string
file
specific
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP57223169A
Other languages
English (en)
Inventor
Makoto Kamibayashi
上林 信
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP57223169A priority Critical patent/JPS59112339A/ja
Publication of JPS59112339A publication Critical patent/JPS59112339A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9017Indexing; Data structures therefor; Storage structures using directory or table look-up

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (1)発明の技術分野 本発明は主として文書の管理吟を行なう情報処理システ
ムにおいての、媒体中に記録された文書の検索に係るも
のであって、文書検i(1索の条件の内、特にその処理
に長時間を要する、特定の文字列と文書中の文字列との
一致。
による検索を効率的に行なうだめの技術に関。
する。
(2)従来技術と問題点 漢字まじシの多数の文書などを2値化データとして磁気
媒体轡に記録したファイルがら゛特定条件を有する文書
を情報処理装置にょシ゛検索する場合、予めその文書の
属性等につい。
、て区分して付しておいた特定のコードを指標10とし
て検索する方法や、表題等の文字列を指・標として検索
する方法、および特定の文字列・が該文書中に存在する
か否かを調べる方法な・どかある。
これらの内、該文書に付しておいた特定の15コードを
指標としての検索や、表題等の文字。
列を指標としての検索は、文書を記憶する際予見して定
めた特定の属性による検索のみが可能であるに過きない
のに対し、特定の文字。
列が該文書中に存在するか否かによる検索力、。
法は、検索のための多角的な条件の設定が可能であるの
で、利用範囲が広い。
しかし、検索に要する時間について見ると、前2者が比
較的迅速な処理を期待出来るのに反し、特定の文字列が
該文書中に存在するか5否かによる検索方法の場合は、
該文1をファイルから読み出しメモリにロードして、シ
フ。
トし々からの比較によシ特定の文字列を探すので、処理
に長時間を要する欠点があった。
そして、その処理の性格上、未該当の文4F10の場合
であっても、その全文をメモリにロードし、最後着で調
べた後でなければ結果が分ら々いことによる時間損失が
大きいと言う問題点を有していた。
(3)発明の目的              15本
発明は、上記従来の方法の欠点に鑑み、。
特定の文字列が文書中に存在するか否かによ。
り文11ヲ検索する方法に関し、その処理時間を短縮す
る方法を提供することを目的として。
いる。
(4)発明の構成 そしてこの目的は本発明によれば、特許請求の範囲に記
載のとおり、2値化データとして媒体に記録された多数
の文書の中から、与えられた条件にか々う文書を検索す
るシステ゛ムにおいて、文書全記録する際、予め定めた
特定の文字または複数の文字からなる文字群にそのビッ
ト位置が対応する一定の長さのビットの行列よりなる情
報を、該文書と共に記゛録し、文中に特定の文字列を有
する文書を検Ill索する場合に、各文書の前記情報に
より、前記特定の文字列が該文書中に存在する可能性が
あるか否かを判断して、予め文書の選別を行なうこと全
特徴とする文書検索高速化方式により達成される。  
          1へ(5)発明の実施例 第1図は本発明の1実施例について説明するだめの概念
図でiyって、(4)は文書をファイルに記録するとき
の処理(B)はファイルを検索して特定の文字列を有す
る文書を抽出すると21゜・  5 ・ きの処理を示しておシ、1はファイル、21〜24は文
字存在フラグを示している。該文字存在フラグは一定の
長さのビットの行列でおって、各ビットが複数の異なる
漢字からなる文字群に対応しており、該文字群中の漢字
が文゛書中に存在するとき、該蟲ビットを1#とした情
報である。
第1図(4)において、漢字まじりの文書の各文字全コ
ード化し2値化データとしてファイル1に記録する時、
該文書中に存在する漢字Illのコードを加工して文字
存在フラグ21〜24を生成し、各文書毎に付して文書
と共に記録する。文字存在フラグの生成方法については
、その例について別途説明する。
第1図の)において、フ7゛イル中の文書を検1へ索す
るとき、まず検索のキーとなる特定の文字列について、
文書をファイルに記録じたときと同じ方法で文字存在フ
ラグを生成し、一方対象となる文書の文字存在フラグを
ファイルからメモリへロードして、これと、前記検2.
)索のキーとなる特定の文字列から生成した文字存在フ
ラグとを比較する。
この時該文書の文字存在フラグが、検索のキーとなる特
定の文字列から生成した文字存在フラグを包含(後者の
文字存在フラグでの5″′1”であるビットが、前者の
文字存在フラグの同じビット位置で1”であること。た
だし前者の文字存在フラグではそれ以外に′1#が存在
しても良い)していれば、該文書は前記特定の文字列を
有している可能性があるので、1()該文書をメモリに
ロードして、その中に特定の文字列がおるか否かを調べ
る。
該文書の文字存在フラグが、検索のキーとなる特定の文
字列から生成した文字存在フラグを包含していない場合
には、該文書は前記15特定の文字列を有していない事
が明らかなので、検索の条件に合致しない文書と判定す
る。
この時は、該文書をメモリにロードしたシ、文中に特定
の文字列があるか否かについて調べるなどの処理をする
必要はないので、該文211書に関する処理は中止して
、直にファイル1中の次の文書の文字存在フラグについ
ての訓育を開始する。
このような動作を繰り返すことによりフどイル1に存在
する文書を次々と効率的に検索″゛することが出来る。
文字存在フラグr(ついては、1ビツトが単独の文字に
対応する場合、1ビツトが複数の異なる文字に対応する
場合、文書の1ページ毎に文字存在フラグを持つ場合、
生成方法の111異なる複数の文字存在フラグを持つ場
合尋が考えられる。
第2図(4)〜■)は文字存在フラグの生成方法の1例
を説明するための図でるる。
第2図(4)は、文書を示しており、この中の1゜゛富
士通2と言う各文字の文字存在フラグビット生成の過程
を以降に説明する。
第2図(B)において、6富“”±”″通″なる漢字の
JEFコードは、16進表示でそれぞれ°゛C9D9’
、”BBCE”、”C4CC”、であり、これを、(1
2進で衣わせげ図中に表示したとおりの16ビツト(2
バイト)の信号になる。
第2図(C)において、前記各2バイトの信号について
、図中3で示す上位の1バイトの信号の下位2ビツトお
よび3′で示す下位の1バ5イトの信号の下位2ビツト
ヲ消去して12ビツトの信号とする。これ1r:16進
で光示すれば、図で示すように、それぞれCB6”’B
B3””Cys”となる。
第2図(D)は文字存在フラグを衣わしており、1OB
O〜FEは行のアドレスを、0〜Fは列のアドレスを示
している。そして前記″”CH2””BH3”C’75
″をそれぞれCB行の6列、BB行の5タ1層07行の
3列として、文字存在フラグ上の該当アドレス位置のピ
ットを“1“とする。   】5このようにして、文書
中に存在する漢字について次々とそのJEFコードを加
工して、12ピツトのアドレス情報とし第2図の)の当
該アドレス位置のピッ1−1”とすることにより、該文
書の文字存在フラグを生成するこ211とが出来る。
この生成方法では、フラグの1ビツトで16種類の異な
る漢字に対応することになる。
またこのフラグの長さは158バイトとなる。
(6)発明の効果 磁気媒体等に多数の文書を記録したファイルについて、
文中に特定の文字列を有する文書を検索する場合、従来
は当該文書をすべてメモリ上にロードして、キーとなる
特定の文゛字列の存在の有無を調べなければならないの
1+1で非常に長時間を要したが、本発明の方法によれ
ば、予め、文字存在フラグを調べることにより、キーと
なる特定の文字列が該文書中に存在する可能性の有無を
判断して、可能性。
のある場合のみ該文書をメモリ上にロードしl−。
で、特定の文字列の存在を確認すれば良く、。
従ってその処理に多大の時間を要する文書のメモリへの
ロードや、これとキーとなる特定文字列との比較などの
実行回数が減少するがら迅速な処理が期待出来る。
文字存在フラグは、文書その本のに比較して、データ長
が、ごく短いのでメモリ上へのロードは短時間で行なえ
る。また、特定文字列から生成した文字存在フラグとの
比較処理も、文書と特定文字列との比較の場合のよう5
に、データをシフトしながら比較するような複雑な方法
を採る必要がなく、短時間で行なえるから本発明の方法
は文書の検索に要する全体の処理時間を大幅に短縮窟せ
得るものであり効果は犬である。          
 l(”
【図面の簡単な説明】

Claims (1)

  1. 【特許請求の範囲】 2値化データとして媒体に記録された多数の5文書の中
    から、与えられた条件にかなう文書を検索するシステム
    において、文書を記録する際、予め定めた特定の文字ま
    たは複数の文字からなる文字群にそのビット位置が対応
    する一定の長さのビットの行列よシなる情報を、該文書
    と共10に記録し、文中に特定の文字列を有する文書を
    検索する場合に、各文書の前記情報により、前記特定の
    文字列が該文書中に存在する可能性があるか否かを判断
    して、予め文書の選別を行々。 うことを特徴とする文書検索高速化方式。  15
JP57223169A 1982-12-20 1982-12-20 文書検索高速化方式 Pending JPS59112339A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57223169A JPS59112339A (ja) 1982-12-20 1982-12-20 文書検索高速化方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57223169A JPS59112339A (ja) 1982-12-20 1982-12-20 文書検索高速化方式

Publications (1)

Publication Number Publication Date
JPS59112339A true JPS59112339A (ja) 1984-06-28

Family

ID=16793876

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57223169A Pending JPS59112339A (ja) 1982-12-20 1982-12-20 文書検索高速化方式

Country Status (1)

Country Link
JP (1) JPS59112339A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03174652A (ja) * 1989-07-24 1991-07-29 Hitachi Ltd データ検索方法および装置
JPH04274557A (ja) * 1991-02-28 1992-09-30 Hitachi Ltd フルテキストサーチ方法
JPH05135102A (ja) * 1991-11-11 1993-06-01 Ricoh Co Ltd 文書検索方式
JPH09114854A (ja) * 1995-10-20 1997-05-02 D I S:Kk 文書検索システム
JP2001202388A (ja) * 2000-12-11 2001-07-27 Hitachi Ltd フルテキストサーチ方法および装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03174652A (ja) * 1989-07-24 1991-07-29 Hitachi Ltd データ検索方法および装置
JPH04274557A (ja) * 1991-02-28 1992-09-30 Hitachi Ltd フルテキストサーチ方法
JPH05135102A (ja) * 1991-11-11 1993-06-01 Ricoh Co Ltd 文書検索方式
JPH09114854A (ja) * 1995-10-20 1997-05-02 D I S:Kk 文書検索システム
JP2001202388A (ja) * 2000-12-11 2001-07-27 Hitachi Ltd フルテキストサーチ方法および装置

Similar Documents

Publication Publication Date Title
JP4685348B2 (ja) 多数の文字を扱うための効率的な照合要素構造
US5745745A (en) Text search method and apparatus for structured documents
US6470347B1 (en) Method, system, program, and data structure for a dense array storing character strings
US6873986B2 (en) Method and system for mapping strings for comparison
US8838551B2 (en) Multi-level database compression
US4760526A (en) Method for storing data into a file device and for data retrieval
US8095526B2 (en) Efficient retrieval of variable-length character string data
KR100880531B1 (ko) 단일 데이터 검색을 위한 파일 생성 방법 및 단일 데이터파일의 검색방법 그리고 단일 파일 검색을 위한 rat파일이 저장된 기록매체
CN102867049B (zh) 一种基于单词查找树实现的汉语拼音快速分词方法
US4531201A (en) Text comparator
CA2364886C (en) Pattern retrieving method, pattern retrieval apparatus, computer-readable storage medium storing pattern retrieval program, pattern retrieval system, and pattern retrieval program
US7222129B2 (en) Database retrieval apparatus, retrieval method, storage medium, and program
JP3022539B1 (ja) 文書検索装置
JP2693914B2 (ja) 検索システム
JPS59112339A (ja) 文書検索高速化方式
JPS60105039A (ja) 文字列照合方式
US7870138B2 (en) File storage and retrieval method
JPH05101102A (ja) 検索装置
Lambov Trie memtables in cassandra
JPH0746362B2 (ja) 文字列照合方法
JPH1153400A (ja) 構造化文書検索装置及びプログラムを記録した機械読み取り可能な記録媒体
Bays Some techniques for structuring chained hash tables
JPS5850044A (ja) インデクス・レコ−ドの検索処理方式
JPS6361345A (ja) 外部記憶装置の制御装置
JPH01304574A (ja) 目次索引作成装置