JP2550022B2 - 文書情報検索方式 - Google Patents

文書情報検索方式

Info

Publication number
JP2550022B2
JP2550022B2 JP61000527A JP52786A JP2550022B2 JP 2550022 B2 JP2550022 B2 JP 2550022B2 JP 61000527 A JP61000527 A JP 61000527A JP 52786 A JP52786 A JP 52786A JP 2550022 B2 JP2550022 B2 JP 2550022B2
Authority
JP
Japan
Prior art keywords
document information
search
document
information
conditional expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP61000527A
Other languages
English (en)
Other versions
JPS62159223A (ja
Inventor
博之 絹川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP61000527A priority Critical patent/JP2550022B2/ja
Publication of JPS62159223A publication Critical patent/JPS62159223A/ja
Application granted granted Critical
Publication of JP2550022B2 publication Critical patent/JP2550022B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明は、文書情報検索方式に関し、特に情報検索シ
ステムにおいて、大量の各種文書情報を含むデータファ
イルから文書全文を高速に探索するのに好適な文書情報
検索方式。
〔発明の背景〕
従来、電算機の大容量記憶能力と高速なデータ処理能
力とを利用して、大量に記憶された情報(文書情報な
ど)の中から短時間のうちに指定の情報を検索するのに
情報検索システムが用いられる。この情報検索システム
には、情報の蓄積と検索の二つのステップがあるが、こ
れを容易にするため、分類用語またはキーワードを情報
内容のヘッドに付ける方式がとられる。予め定められた
シソーラス(索引用単語辞典)の規定に基づいて選択さ
れたキーワードを蓄積情報に与えて蓄積し、ファイルを
作成する。一方、キーワード検索もシソーラスの規定に
もとづいて行われる。キーワードとして、英字数字など
が用いられる。
このような情報検索システムのファイル構造につい
は、1件毎の情報単位に配列されたシリアルファイル
と、シリアルの探索キーになる部分およびそのキーの付
与されている情報単位の識別子からなるインバーテット
ファイルとの2種があり、検索質問式に対する探索は、
主として、インバーテットファイルから得て、情報単位
識別子を介してキー以外の詳細情報をシリアルファイル
から得るという方式が知られている(中原啓一による文
献「情報検索」(社)電子通信学会 pp.205〜207,1974
−8参照)。この方式は、情報蓄積時に、あらかじめ分
類・検索の仕方が定まっているシステムに対しては、有
効である。しかしながら、情報蓄積時に、概括的な情報
分類以外、分類・検索や利用の仕方が予測できないシス
テムに対しては、検索要求発生時に、所望情報の探索と
その絞り込みができないという問題があった。また、検
索質問式を構成する質問語と、ファイル中の情報構成項
目との照合方法については、前記文献の203ページから2
05ページにおいて、論じられている。ここで、論じられ
ている照合方法には、完全マッチと部分マッチがある。
文書情報そのものの照合は、部分マッチによる必要があ
るが、前記インバーテットファイルと、シリアルファイ
ルの構成では、照合時間が長くかかるという問題があっ
た。
〔発明の目的〕
本発明の目的は、このような従来の問題を解消し、情
報蓄積時に想定していないような質問条件式に対して
も、条件に合致する文書情報を高速に検索できる文書情
報検索方式を提供することにある。
〔発明の概要〕
上記目的を達成するために、本発明の文書情報検索方
式は、質問条件式と記憶装置に蓄積された文書情報群と
を照合して、該質問条件式に合う文書情報を検索する情
報検索システムにおいて、複数の上記文書情報を一度に
検索させるために複数の同一構造の記憶装置を配置し、
各記憶装置に同一機能の文書照合・検索手段を設け、上
記文書情報群を各記憶装置に分割して蓄積し、上記質問
条件式の入力により、各文書照合・検索手段が対応する
記憶装置上の文書情報と比較して、それぞれ独立に、照
合・検索することに特徴がある。
〔発明の実施例〕
以下、本発明の一実施例を、図面により詳細に説明す
る。
本実施例では、スキャン検索を照合対象アイテム構成
文字列の先頭から末尾までの全体について、部分マッチ
することの意味に使用する。また、本実施例では、文書
情報の概括的な分類により作成した索引のインバーテッ
ドファイルにより、質問条件式に合致する文書情報を粗
く絞り、その後、文書構成文章を複数の内容ファイルに
分散して蓄積し、各内容ファイル中の、上記の粗く絞っ
た文書情報のみ、全文スキャン検索することを、並列実
行し、すべてのスキャン検索終了後、結果をまとめると
いう方法を採用した。
第1図は、本発明の一実施例を示す情報検索システム
の概略構成図である。これは、文書情報ファイルを高速
に探索する構成の主要部を示したものである。
第1図において、1は利用者の質問条件式を入力する
入力部、2は文書情報を検索するときのキーワードとし
ての索引を格納している索引ファイル、3は入力部1か
ら入力された質問条件式に対する索引検索を行う索引検
索部、4は質問条件式と索引検索結果を格納する索引検
索結果格納部、51,52,・・・,5nは本発明により設けら
れたスキャン検索部(ここで、n≧1の自然数)、61,6
2,・・・,6nは本発明により設けられたスキャン検索部5
1,・・・,5nの検索対象を格納している検索対象内容フ
ァイル(以下、内容ファイルという)である(ここで、
n≧1の自然数)。7は上記の複数のスキャン検索部5
1,・・・,5nにより質問条件式に合致する内容ファイル6
1,・・・,6nをスキャンした結果を格納するスキャン検
索結果格納部、8はスキャン検索結果格納部7を配列・
編集してその結果を統合出力する出力部である。本実施
例では、スキャン検索部51,・・・,5nは、すべて同等の
機能を有し、内容ファイル61,・・・,6nの構造は、すべ
て同様であるものとする。
以下、第1図の動作を簡単に説明し、後述第2図〜第
4図のフローチャートにより本実施例を詳細に説明す
る。
入力部1より質問条件式が入力されると、索引検索部
3の索引検索機能が起動され、索引ファイル2に格納さ
れた索引ファイルを照合し、質問条件式に合致する文書
情報を得る。次に、その文書情報を質問条件式と共に、
索引検索結果格納部4に格納する。この格納が終了する
と、n個のスキャン検索部51,・・・,5nが同時に起動さ
れ、各スキャン検索部に対応する内容ファイル61,・・
・,6nに格納された内容ファイルが、索引結果に合致す
るか否かを、文書構成全文のスキャン検索照合により判
別する。このスキャン検索照合においては、複数のスキ
ャン検索部を並行して、同時に内容ファイル照合を行う
ので、全体的な検索時間が短くてすむ。上述した各スキ
ャン検索結果はスキャン検索結果格納部7に格納する。
結果統合出力部8では、スキャン検索部51,・・・,5nに
よるスキャン検索照合のすべてが終了し、スキャン検索
結果格納部7に格納されたスキャン検索の条件合致情報
を配列・編集してから統合する。この統合された情報を
検索結果として表示部9に出力する。
第2図は、第1図の索引検索部3の処理手順を示すフ
ローチャートである。以下、第2図のフローチャートに
従って説明する。
索引検索部3の索引検索機能が起動されると、入力部
1より質問条件式を読み込む(テップ201)。次に、質
問条件式を構成する質問キーワードから、索引ファイル
2と照合するための索引検索条件を生成し(ステップ20
2)、索引ファイル2と照合する(ステップ203)。この
照合結果、照合一致するものから、処理ステップ202で
生成した索引検索条件に合致する文書情報単位の識別子
を得て質問条件式とともに、索引検索結果格納部4に格
納し(ステップ204)、索引検索機能の処理を終了す
る。
第3図は、第1図の各スキャン検索部の処理手順を示
すフローチャートである。以下、第3図のフローチャー
トに従って説明する。
各スキャン検索部のスキャン検索機能が起動される
と、索引検索結果格納済か否かを判別し(ステップ30
1)、格納済みの時は、格納されている質問条件式と索
引検索結果を入力する(ステップ302)。格納済みでな
い時は、格納されるのを待つ。ステップ302の処理の
後、対応する内容ファイル61,・・・,6nから、文書情報
を1件入力する(ステップ303)。内容ファイル中の文
書情報をすべて入力したか否かを判別し(ステップ30
4)、すべて入力済みで、ファイル末尾に至った時は、
ステップ309に分岐して内容検索済情報セットをし、そ
うでない時は、ステップ305に分岐して、内容ファイル6
1,・・・,6nから入力した情報が索引検索結果に含まれ
るか否かを判別し、含まれないときには、ステップ303
に戻る。含まれるときには、文書情報内容を構成する全
文をスキャンし、質問条件式との合致検査を行う(ステ
ップ306)。この合致検査において、質問条件式に合致
するものがあるか否かを判別し(ステップ307)、合致
するものがない時は、ステップ303に戻る。合致するも
のがある時は、スキャン検索結果として、スキャン検索
結果格納部7に格納する(ステップ308)。
以上の処理を繰返して、内容ファイル61,・・・,6nの
すべてについて合致情報の格納が終了した時は(ステッ
プ304)、内容検索済情報をセットし(ステップ309)、
スキャン検索機能の処理を終了する。
第4図は、第1図の結果統合出力部8の処理手順を示
すフローチャートである。以下、第4図のフローチャー
トに従って説明する。
結果統合出力部8の結果統合出力機能が起動される
と、複数のスキャン検索部のスキャン検索機能の処理が
すべて終了しているか否かを判別し(ステップ401)、
終了していない時は、終了を待つ。終了している時は、
各スキャン検索の結果をすべて入力し(ステップ40
2)、配列・編集して出力し(ステップ403)、結果統合
出力機能の処理を終了する。
このように、本実施例においては、まず、索引検索部
3で質問条件式に対する索引照合を行い、検索対象を粗
く絞り込み、さらに、検索結果格納部4に独立並列的に
接続された複数のスキャン検索部により文書情報の全文
をスキャン検索できるようになるので、情報蓄積部に想
定してないような質問条件式に対しても、条件に合致す
る文書情報を検索できる。また、各部の機能単位に、専
用ハードウェア化すること、およびスキャン検索対象の
内容ファイル数を増やし、分散化率を高めることによ
り、全体として高速化を図ることができる。特に、スキ
ャン検索部の検索機能の高速化が全体の高速化に対して
有効である。
〔発明の効果〕
以上説明したように、本発明によれば、文書情報内容
を直接、質問条件式と照合できるので、情報蓄積時に想
定していないような質問条件式に対しても、条件に合致
する文書情報を検索できる。また、文書情報内容と質問
条件式との照合プロセスを、文書情報ファイルを分散化
するとともに、同時並行的に照合検索を行うことができ
るので、高速に所望文書情報を検索できる。
【図面の簡単な説明】
第1図は本発明の一実施例を示す情報検索システムの概
略構成図、第2図は第1図の索引検索部の処理手順を示
す処理フローチャート、第3図は第1図のスキャン検索
部の処理手順を示す処理フローチャート、第4図は第1
図の結果統合出力部の処理フローチャートである。 1:入力部、2:索引ファイル、3:索引検索部、4:索引検索
結果格納部、51,52,・・,5n:スキャン検索部、61,62,・
・・,6n:検索対象内容ファイル、7:スキャン検索結果格
納部、8:結果統合出力部、9:表示部。

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】質問条件式と記憶装置に蓄積された文書情
    報群とを照合して、前記質問条件式に合う文書情報を検
    索する情報検索システムにおいて、 複数の前記文書情報を同時に検索するために複数の同一
    構造の記憶装置を配置し、 前記記憶装置のそれぞれに同一機能の文書照合検索手段
    を設け、 前記文書情報群を前記記憶装置のそれぞれに分割して蓄
    積し、 前記質問条件式の入力により、前記文書照合検索手段の
    それぞれが同一の検索条件で対応する前記記憶装置上の
    前記文書情報と比較して、それぞれ独立に、照合及び検
    索を行ない、 前記複数の照合検索手段によって前記質問条件式に合致
    した文書情報を得た後、前記文書情報を配列編集するこ
    とを特徴とする文書情報検索方式。
  2. 【請求項2】質問条件式と記憶装置に蓄積された文書情
    報群とを照合して、前記質問条件式に合う文書情報を検
    索する情報検索システムにおいて、 複数の前記文書情報を同時に検索するために複数の同一
    構造の記憶装置を配置し、 前記記憶装置のそれぞれに同一機能の文書照合検索手段
    を設け、さらに、 前記質問条件式と前記文書情報とを照合検索する前に照
    合検索の対象とする文書情報の範囲を限定する手段を設
    け、 前記文書情報群を前記記憶装置のそれぞれに分割して蓄
    積し、 前記質問条件式の入力後、前記限定手段により前記文書
    情報群から文書情報の範囲を限定し、 前記文書照合検索手段のそれぞれが同一の検索条件で対
    応する前記記憶装置上の前記限定された文書情報と前記
    質問条件式とを比較して、それぞれ独立に、照合及び検
    索を行ない、 前記複数の照合検索手段によって前記質問条件式に合致
    した文書情報を得た後、前記文書情報を配列編集するこ
    とを特徴とする文書情報検索方式。
  3. 【請求項3】前記限定手段は、質問条件式を構成するキ
    ーワードによる索引検索を行なうことを特徴とする第2
    項記載の文書情報検索方式。
JP61000527A 1986-01-08 1986-01-08 文書情報検索方式 Expired - Lifetime JP2550022B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61000527A JP2550022B2 (ja) 1986-01-08 1986-01-08 文書情報検索方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61000527A JP2550022B2 (ja) 1986-01-08 1986-01-08 文書情報検索方式

Publications (2)

Publication Number Publication Date
JPS62159223A JPS62159223A (ja) 1987-07-15
JP2550022B2 true JP2550022B2 (ja) 1996-10-30

Family

ID=11476241

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61000527A Expired - Lifetime JP2550022B2 (ja) 1986-01-08 1986-01-08 文書情報検索方式

Country Status (1)

Country Link
JP (1) JP2550022B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0827803B2 (ja) * 1989-03-28 1996-03-21 日本電信電話株式会社 テキストベース検索方法
JP5402066B2 (ja) * 2009-02-19 2014-01-29 富士通株式会社 情報検索システム、情報検索装置、情報検索プログラム及び情報検索方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59108144A (ja) * 1982-12-14 1984-06-22 Fujitsu Ltd フレ−ム選択方式
JPS60105039A (ja) * 1983-11-12 1985-06-10 Nippon Telegr & Teleph Corp <Ntt> 文字列照合方式

Also Published As

Publication number Publication date
JPS62159223A (ja) 1987-07-15

Similar Documents

Publication Publication Date Title
JP3143079B2 (ja) 辞書索引作成装置と文書検索装置
EP0590858B1 (en) Method for performing a search of a plurality of documents for similarity to a query
JP3636941B2 (ja) 情報検索方法と情報検索装置
US6138114A (en) Sort system for merging database entries
Baeza-Yates Text-Retrieval: Theory and Practice.
US5940624A (en) Text management system
JPH09223161A (ja) コンピュータ・ベースの文書検索システムにおいて問い合わせ応答を生成する方法および装置
WO1997034242A1 (en) Statistical thesaurus, method of forming same, and use thereof in query expansion in automated text searching
Lesk Some applications of inverted indexes on the UNIX system
CN105843960B (zh) 基于语义树的索引方法和系统
JPH0782504B2 (ja) 情報検索処理方式および検索ファイル作成装置
Billerbeck et al. Techniques for efficient query expansion
JP2550022B2 (ja) 文書情報検索方式
JPH06348757A (ja) 文書検索装置および方法
JPH01149127A (ja) 情報検索装置
JP2519129B2 (ja) マルチキ―ワ―ド情報検索処理方式および検索ファイル作成装置
JPH1166078A (ja) 検索要求具体化方法及び装置及び検索要求具体化プログラムを格納した記憶媒体
JP2000322416A (ja) 文書検索装置
Gupta A keyword searching algorithm for search engines
JPH09212523A (ja) 全文検索方法
JPH07296005A (ja) 日本語テキスト登録・検索装置
JPH0934897A (ja) 図書管理システム
JPH02148174A (ja) Ocrによる住所データベース検索装置
JPH06309368A (ja) 文書検索装置
JPH0816617A (ja) 文書検索方法及び装置