JPH07110824A - 文書処理装置 - Google Patents

文書処理装置

Info

Publication number
JPH07110824A
JPH07110824A JP5280072A JP28007293A JPH07110824A JP H07110824 A JPH07110824 A JP H07110824A JP 5280072 A JP5280072 A JP 5280072A JP 28007293 A JP28007293 A JP 28007293A JP H07110824 A JPH07110824 A JP H07110824A
Authority
JP
Japan
Prior art keywords
document
index
unit
documents
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5280072A
Other languages
English (en)
Inventor
Yasuo Okuya
泰夫 奥谷
Shiro Ito
史朗 伊藤
Takanari Ueda
隆也 上田
Minoru Fujita
稔 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP5280072A priority Critical patent/JPH07110824A/ja
Publication of JPH07110824A publication Critical patent/JPH07110824A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 インデクスを用いて効率的に文書を検索でき
る文書処理装置を提供する。 【構成】 ステップS2で、複数の文書が混在するファ
イルが予め設定した単位に分割され、ステップS3で、
複数の文書が束ねられて所定の大きさの集合文書に纏め
られ、ステップS4で、集合文書についてインデクスが
作成され、ステップS11で、該インデクスを用いて検
索対象文書が検索される。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、複数の文書が混在する
ファイルから必要とする文書を容易に検索し得るように
した文書処理装置に関する。
【0002】
【従来の技術】従来、フルテキストサーチにより複数の
文書の中から必要とする文書を検索する文書処理装置の
場合は、その検索時間を短縮するために、ファイルに対
応付けされているインデクスを利用する。この種のフル
テキストサーチによる文書検索時間の大部分は、検索語
と検索対象文書とのマッチング処理に費やされるので、
該マッチング処理を行う前に、インデクスを用いて検索
対象文書の絞り込みを行って、マッチング処理を行う文
書量を減少させることにより、検索時間の短縮を図って
いる。
【0003】
【発明が解決しようとする課題】前述した従来の文書処
理装置では、インデクスがファイルに対応付けされてい
るために、1つのファイルに多数の文書が含まれている
場合は、インデクスによる検索対象文書の絞り込みを効
果的に行うことはできず、特に、全ての文書が1つのフ
ァイルに含まれている場合には、インデクスによる検索
対象文書を絞り込むことは全くできない。また、1つの
ファイルに1つの文書が割り当てられている場合等のよ
うにファイル数が多くなると、インデクスのサイズが大
きくなり過ぎる。即ち、ファイルと文書との関係に依存
して、インデクスの大きさと、該インデクスによる検索
対象文書の絞り込み効果とが大きく影響され、絞り込み
を効果的に行えないという問題点があった。
【0004】本発明は、前述した従来の文書検索の現状
に基づいて行われたものであり、その目的は、インデク
スを用いて効果的に文書の検索が可能な文書処理装置を
提供することにある。
【0005】
【課題を解決するための手段】前記目的を達成するため
に、本発明の第1発明は、複数の文書が混在するファイ
ルを予め設定した単位に分割する分割手段と、複数の文
書を束ねて所定の大きさの集合文書に纏める文書纏め手
段と、該文書纏め手段により纏めた集合文書についてイ
ンデクスを作成するインデクス作成手段と、該インデク
ス作成手段により作成されたインデクスに基づいて文書
を検索する検索手段とを具備したことを特徴とする。
【0006】また、同じ目的を達成するために、本発明
の第2発明は、複数の文書が混在するファイルを予め設
定した単位に分割する分割手段と、複数の文書を束ねて
所定の大きさの集合文書に纏める文書纏め手段と、該文
書纏め手段により纏めた集合文書についてインデクスを
作成するインデクス作成手段と、該インデクス作成手段
により作成されたインデクスに基づいて文書を検索する
検索手段と、前記文書纏め手段により文書を纏めた際の
ファイル中における文書の区切り情報と前記インデクス
作成手段により作成されたインデクスとを用いて検索対
象文書の絞り込みを行う絞り込み手段とを具備したこと
を特徴とする。
【0007】
【作用】第1発明の文書処理装置は、複数の文書が混在
するファイルが分割手段によって予め設定した単位に分
割され、複数の文書が文書纏め手段によって束ねられて
所定の大きさの集合文書に纏められ、該纏められた集合
文書についてインデクス作成手段によってインデクスが
作成され、該作成されたインデクスに基づいて検索手段
によって文書の検索が行われる。
【0008】また、第2発明の文書処理装置は、上述し
た第1発明の文書処理装置の作用に加えて、前記文書纏
め手段により文書を纏めた際のファイル中における文書
の区切り情報と前記インデクス作成手段により作成され
たインデクスとを用いて、絞り込み手段によって検索対
象文書の絞り込みが行われる。
【0009】
【実施例】以下、本発明の一実施例を、図面を参照して
説明する。
【0010】図1は本実施例に係わる文書処理装置のシ
ステム構成を示すブロック図であり、同図中、1はシス
テム全体の動作を制御する中央処理装置で、該中央処理
装置には、バス2を介して第1,第2メモリ3,4及び
ディスク装置5が接続されている。第1メモリ3には、
後述する図4及び図5に示すような制御プログラムが格
納され、該制御プログラムに従って中央処理装置1が判
断及び演算等の処理を実行する。また、第2メモリ3
は、図2に示すインデクス作成部Dのファイル保持部
6,単位文書保持部8,集合文書保持部10及び図3に
示す文書検索部Rの検索語保持部15,インデクスサー
チ結果保持部17,検索文書保持部19,結果保持部2
1をそれぞれ有している。更に、ディスク装置5は、イ
ンデクス作成部Dの集合文書位置情報保持部12,イン
デクス保持部14をそれぞれ有している。
【0011】インデクス作成部Dは、図2に示すように
ファイル保持部6,文書単位分割処理部(分割手段)
7,単位文書保持部8,単位文書調整処理部(文書纏め
手段)9,集合文書保持部10,集合文書位置情報処理
部11,集合文書位置情報保持部12,インデクス作成
処理部13,インデクス保持部14からなる。
【0012】ファイル保持部6は、読み込んだファイル
の内容を保持するものである。文書単位分割処理部7
は、ファイルを1つの文書単位に分割するものである。
単位文書保持部8は、文書単位分割処理部7により分割
されたファイル文書を保持するものである。単位文書調
整処理部9は、複数の文書を束ねて所定の大きさの集合
文書に纏めるための調整を行うものである。集合文書保
持部10は、単位文書調整処理部9により纏められた集
合文書を保持するものである。集合文書位置情報処理部
11は、前記集合文書の位置情報を算出するものであ
る。集合文書位置情報保持部12は、集合文書位置情報
処理部11により算出された集合文書位置情報を保持す
るものである。インデクス作成処理部13は、前記集合
文書位置情報を使って前記集合文書についてインデクス
を作成するものである。インデクス保持部14は、イン
デクス作成処理部13により作成されたインデクスを保
持するものである。
【0013】文書検索部Rは、図3に示すように検索語
保持部15,インデクスサーチ処理部(絞り込み手段)
16,インデクスサーチ結果保持部17,検索文書取り
出し処理部18,検索文書保持部19,テキストサーチ
処理部20,結果保持部21からなる。
【0014】検索語保持部15は、文書を検索するため
の検索語を保持するものである。インデクスサーチ処理
部16は、インデクス作成処理部13により作成された
インデクスを用いて検索対象文書の絞り込みを行うもの
である。インデクスサーチ結果保持部17は、インデク
スサーチ処理部16による検索対象文書の絞り込み結果
情報を保持するものである。検索文書取り出し処理部1
8は、インデクスサーチ処理部16により絞り込まれた
検索対象文書(検索文書)を集合文書保持部10から取
り出すものである。検索文書保持部19は、検索文書取
り出し処理部18により取り出された検索文書を保持す
るものである。テキストサーチ処理部20は、前記検索
文書に対して検索語とのマッチング処理及び適合条件の
判定を行うものである。結果保持部21は、テキストサ
ーチ処理部20の処理結果情報を保持するものである。
【0015】次に、このような構成の文書処理装置の動
作を説明する。
【0016】先ず、ファイル作成部Dの動作を、図4の
フローチャートを参照して説明する。同図のステップS
1では、ファイル保持部6にファイルが存在するか否か
の判定が中央処理装置1により行われ、ファイルが存在
しないと判定されると本処理動作を終了し、ファイルが
存在すると判定された場合にはステップS2に進む。ス
テップS2では、ファイル保持部1に保持されているフ
ァイルが文書単位分割処理部7により文書単位に分割さ
れ、該分割された単位文書が単位文書保持部8に保持さ
れる。次いでステップS3に進んで、単位文書保持部8
から単位文書が単位文書調整処理部9により取り込ま
れ、該取り込まれた単位文書が予め設定した閾値になる
まで集合されてインデクスを用いての絞り込みに適当な
大きさの集合文書に束ねられ、該集合文書が集合文書保
持部10に保持される。次いで、集合文書保持部10に
保持された集合文書の位置情報が集合文書位置情報処理
部11により算出され、該算出された位置情報が集合文
書位置情報保持部12に保持される。
【0017】次にステップS4に進んで、集合文書保持
部10に保持されている集合文書に対して、集合文書位
置情報保持部12から取り込んだ集合文書の位置情報に
基づいてインデクス作成処理部13により検索用のイン
デクスが作成され、該作成されたインデクスがインデク
ス保持部14に保持される。該ステップS4を実行後
は、前記ステップS1に戻り、全てのファイルに対する
集合文書の束ね処理と、集合文書へのインデクスの作成
処理が終了するまで、上記処理と同一の処理が繰り返さ
れる。
【0018】次に文書検索部Rの動作を、図5のフロー
チャートを参照して説明する。
【0019】同図のステップS10では、検索語保持部
15に検索語が保持されたか否かの判定が中央処理装置
1により行われ、検索語が保持されたと判定されると、
ステップS11に進んで、インデクス保持部14から取
り込んだインデクスを用いて、検索語保持部15に保持
された検索語に対応する検索対象文書の絞り込みがイン
デクスサーチ処理部16により行われる。そして、この
検索対象文書の絞り込み結果情報がインデクスサーチ結
果保持部17に保持される。
【0020】次いで、ステップS12に進んで、インデ
クスサーチ結果保持部17に保持されたインデクスサー
チ結果情報と、集合文書位置情報保持部12に保持され
た集合文書位置情報とに基づいて、集合文書保持部10
から検索文書が検索文書取り出し処理部18により取り
出され、該取り出された検索文書が検索文書保持部19
に保持される。
【0021】次に、ステップS13に進んで、検索文書
保持部19に保持された検索文書に対する検索語保持部
15から取り込んだ検索語とのマッチング処理と適合条
件の判定とがテキストサーチ処理部20により行われ、
その処理結果が結果保持部21に保持された後、本処理
動作を終了する。
【0022】なお、本実施例では、1ファイルごとにフ
ァイル中の文書の分割とインデクスの作成を順次行う場
合について説明したが、これに限定されるものでなく、
全てのファイルを分割した後に、インデクスの作成を一
括して行うことも可能である。
【0023】また、本実施例では、1ファイルごとにフ
ァイル中の文書の分割を行う場合について説明したが、
これに限定されるものでなく、インデクスを用いて検索
対象文書の絞り込みを行うのに適切な大きさの文書が揃
うまでファイルを取り込み、集合文書の大きさを調整し
てもよい。即ち、図4におけるファイルの存在を確認す
るステップS1と、ファイルを分割するステップS2
を、集合文書が適切な大きさになるまで繰り返す場合に
相当する。
【0024】また、本実施例では、ファイルを文書単位
で分割した場合について説明したが、これに限定される
ものではなく、文書をさらに細かい単位で分割してもよ
い。
【0025】更に、本実施例では、インデクスを用いた
検索対象文書の絞り込みに適した集合文書の大きさを予
め設定する場合について説明したが、これに限定される
ものでなく、用いるインデクスによって絞り込みに適し
た大きさが異なるので、インデクスの種類と、そのイン
デクスを使った時の最適な集合文書の大きさをテーブル
として保持しておき、該テーブルを参照して集合文書の
大きさを設定してもよい。
【0026】
【発明の効果】本発明の第1発明に係わる文書処理装置
によれば、複数の文書が混在するファイルが分割手段に
よって予め設定した単位に分割され、複数の文書が文書
纏め手段によって束ねられて所定の大きさの集合文書に
纏められ、該纏められた集合文書についてインデクス作
成手段によってインデクスが作成され、該作成されたイ
ンデクスに基づいて検索手段によって文書の検索が行わ
れるので、ファイルと文書との関係に依存することな
く、検索対象文書の検索を短時間で効率的に行える。
【0027】また、本発明の第2発明に係わる文書処理
装置によれば、複数の文書が混在するファイルが分割手
段によって予め設定した単位に分割され、複数の文書が
文書纏め手段によって束ねられて所定の大きさの集合文
書に纏められ、該纏められた集合文書についてインデク
ス作成手段によってインデクスが作成され、該作成され
たインデクスに基づいて検索手段によって文書の検索が
行われ、前記文書纏め手段により文書を纏めた際のファ
イル中における文書の区切り情報と前記インデクス作成
手段により作成されたインデクスとを用いて、絞り込み
手段によって検索対象文書の絞り込みが行われるので、
ファイルと文書との関係に依存することなく、文書の検
索を短時間で効率的に行える。
【図面の簡単な説明】
【図1】本発明の一実施例に係わる文書処理装置のシス
テム構成を示すブロック図である。
【図2】同装置におけるインデクス作成部の構成を示す
ブロック図である。
【図3】同装置における文書検索部の構成を示すブロッ
ク図である。
【図4】同装置におけるインデクス作成動作を示すフロ
ーチャートである。
【図5】同装置における文書検索動作を示すフローチャ
ートである。
【符号の説明】
2 文書単位分割処理部(分割手段) 4 単位文書調整処理部(文書纏め手段) 8 インデクス作成処理部(インデクス作成手段) 11 インデクスサーチ処理部(絞り込み手段)
───────────────────────────────────────────────────── フロントページの続き (72)発明者 藤田 稔 東京都大田区下丸子3丁目30番2号 キヤ ノン株式会社内

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 複数の文書が混在するファイルを予め設
    定した単位に分割する分割手段と、複数の文書を束ねて
    所定の大きさの集合文書に纏める文書纏め手段と、該文
    書纏め手段により纏めた集合文書についてインデクスを
    作成するインデクス作成手段と、該インデクス作成手段
    により作成されたインデクスに基づいて文書を検索する
    検索手段とを具備したことを特徴とする文書処理装置。
  2. 【請求項2】 複数の文書が混在するファイルを予め設
    定した単位に分割する分割手段と、複数の文書を束ねて
    所定の大きさの集合文書に纏める文書纏め手段と、該文
    書纏め手段により纏めた集合文書についてインデクスを
    作成するインデクス作成手段と、該インデクス作成手段
    により作成されたインデクスに基づいて文書を検索する
    検索手段と、前記文書纏め手段により文書を纏めた際の
    ファイル中における文書の区切り情報と前記インデクス
    作成手段により作成されたインデクスとを用いて検索対
    象文書の絞り込みを行う絞り込み手段とを具備したこと
    を特徴とする文書処理装置。
JP5280072A 1993-10-13 1993-10-13 文書処理装置 Pending JPH07110824A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5280072A JPH07110824A (ja) 1993-10-13 1993-10-13 文書処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5280072A JPH07110824A (ja) 1993-10-13 1993-10-13 文書処理装置

Publications (1)

Publication Number Publication Date
JPH07110824A true JPH07110824A (ja) 1995-04-25

Family

ID=17619915

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5280072A Pending JPH07110824A (ja) 1993-10-13 1993-10-13 文書処理装置

Country Status (1)

Country Link
JP (1) JPH07110824A (ja)

Similar Documents

Publication Publication Date Title
US6768997B2 (en) System and method for creating a search query using movable elements in a graphical user interface
US7302377B1 (en) Accelerated event queue for logic simulation
JPH07110824A (ja) 文書処理装置
JPS634334A (ja) 文書イメ−ジ電子フアイル装置
JPH0728836A (ja) データベース検索方法及びこの方法を用いたデータベースシステム
JPH0991305A (ja) 情報処理方法及び装置
JPH02153474A (ja) 不要語辞書作成装置
JPH02116936A (ja) 再編成方式
JP3111498B2 (ja) レコード検索方法及びデータ処理装置
JPH03141426A (ja) データベースシステムにおけるソートレコード受け渡し方式
JPH0642248B2 (ja) 情報検索装置
JPH09330322A (ja) データ検索装置
JP3398672B2 (ja) 中間データ格納装置
JPH02139640A (ja) 調査情報出力方式
JPH086761A (ja) ソート処理装置及びソート処理方法
JPH0370289A (ja) 文字放送番組素材作成システム
JPH01228022A (ja) 二次元データ格納方式
JPH04297956A (ja) マルチメディア検索・処理システム
JPH0431959A (ja) 文書取出し方式
JPH0497451A (ja) データの関連付けによるファイルデータ処理方式
JPS6051937A (ja) 文書印刷制御方式
JPH07175696A (ja) 要素区分処理装置
JPS6391753A (ja) 複数フアイルの管理方式
JPH0728835A (ja) 文書検索装置及びその方法
JPH0784842A (ja) 関連レコード一括読み込み方式