JPH11191107A

JPH11191107A - 文書処理方法とその装置

Info

Publication number: JPH11191107A
Application number: JP9358291A
Authority: JP
Inventors: Kenichi Kazumi; 健一数見
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1997-12-25
Filing date: 1997-12-25
Publication date: 1999-07-13

Abstract

(57)【要約】【課題】文字列に関する文書探索範囲を適切に狭める
ことで、高速かつ効率のよい文書検索ができる文書処理
方法とその装置を提供する。【解決手段】同じ文字種が連続する文字列の先頭から
所定数の文字を所定の文書データから抽出する抽出部
１，２，３，９，６と、抽出された文字列の先頭から所
定数の文字と先頭マークと前記所定数の文字が含まれる
文書データの位置情報とを関連づけて単語データベース
として記憶する記憶部１０，６とを備え、単語データベ
ース６を用いて文書検索を行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、登録した文書ファ
イルから検索文字列を含む文書を自動抽出する文書処理
方法とその装置に関する。

【０００２】

【従来の技術】文書装置で文書を検索する時の手法に、
１文字インデックス，２文字インデックスのデータベー
ス（ＤＢ）を参照して目的とする文書を検索する技術が
有った。１文字インデックスのＤＢでは、文書を登録す
る時に文書に含まれる文字をすべてインデックスとし、
そのインデックスに文書のＩＤ（識別子）を情報として
持たせたものである。単語に関する処理を全く行ってい
ないので、検索文字列を含む文書を検索するのに、以下
の２ステップを実行することが必要である。

【０００３】まず第１ステップとして１文字インデック
スのＤＢ（データベース）から、検索文字列の各文字を
インデックスとして、対応する頁ＩＤ群を取得する。そ
して、検索文字列のすべての文字を含む頁ＩＤを抽出す
る。この段階では、まだ検索文字列を実際に含む頁ファ
イルであるかどうかはわからない。次に第２ステップに
移行する。

【０００４】上記で得た頁ＩＤの指示する頁ファイル内
を、検索文字列でコンペアチェックし、検索文字列を単
語として含んでいるかどうかを知る。

【０００５】

【発明が解決しようとする課題】しかしながら、上述の
従来のＤＢによると、文書を検索する探索量が多く、探
索時間が遅いという問題があった。また、上述の１文字
インデックスと２文字インデックスのＤＢでは、文字の
文字列での位置情報を含まないため、検索候補が多数検
出され、ユーザの意図しない文字列候補まで検索される
という問題があった。

【０００６】本発明は、上記従来例に鑑みてなされたも
ので、文字列に関する文書探索を適切に狭めることで、
高速かつ効率よい文書検索ができる文書処理方法とその
装置を提供することを目的とする。

【０００７】

【課題を解決するための手段】上記目的を達成するた
め、本発明の文書処理方法とその装置は以下の構成を備
える。即ち、同じ文字種が連続する文字列の先頭から所
定数の文字を所定の文書データから抽出する抽出工程
と、前記抽出された文字列の先頭から所定数の文字と先
頭マークと前記所定数の文字が含まれる文書データの位
置情報とを関連づけて単語データベースとして記憶する
記憶工程とを備える。

【０００８】また、別の発明は、所定の文字列を前記文
字列の先頭から所定数の文字に分解する分解工程と、前
記分解工程で生成された前記文字列の先頭から所定数の
文字と一致する文字を、所定の文書データに含まれる同
じ文字種が連続する文字列の先頭から所定数の文字と前
記先頭から所定数の文字に付随する先頭マークと前記先
頭文字が含まれる文書データの位置情報とを関連づけた
情報を有する単語データベースから、前記先頭マークが
付随する文字の中から検索する検索工程とを備える。

【０００９】また、別の発明は、同じ文字種が連続する
文字列の先頭から所定数の文字を所定の文書データから
抽出する抽出工程と、前記抽出された文字列の先頭から
所定数の文字と先頭マークと前記所定数の文字が含まれ
る文書データの位置情報とを関連づけて単語データベー
スとして記憶する記憶工程とを備える。

【００１０】また、別の発明は、所定の文字列を前記文
字列の先頭から所定数の文字に分解する分解手段と、前
記分解手段で生成された前記文字列の先頭から所定数の
文字と一致する文字を、所定の文書データに含まれる同
じ文字種が連続する文字列の先頭から所定数の文字と前
記先頭から所定数の文字に付随する先頭マークと前記先
頭文字が含まれる文書データの位置情報とを関連づけた
情報を有する単語データベースから、前記先頭マークが
付随する文字の中から検索する検索手段とを備える。

【００１１】

【発明の実施の形態】まず、本発明に係る一実施の形態
の文書処理装置のポイントを説明した後、詳細な説明に
入る。本実施の形態の文書処理装置は、上述の処理ステ
ップのうち第１ステップでの文書絞り込み方法に主な焦
点をあてており、文字列検索時間のかかる第２ステップ
での検索文書範囲を狭めることで、高速な検索を実現し
たものである。

【００１２】これを実現する１つのポイントは、特定の
文字列の文字種に着目して、例えば、英文字，カタカナ
を含む文字列に注目すると、英文字ならば英文字だけの
文字列、カタカナならばカタカナだけの文字列の場合が
多い。つまり、ほとんどの検索文字列が同一文字種で設
定されるものと考えられる。一方、漢字，ひらがなは混
合形で単語となる場合が少なくない。

【００１３】本実施の形態の文書処理装置は、このよう
な日本語文の特徴に鑑み、頁ファイルの登録時に、特定
文字種（英文字，カタカナ）の先頭文字情報を１文字イ
ンデックスに付加することにより、第１ステップでの文
書検索範囲を縮小させる。尚、インデックスに上述の付
加情報を増加すると、第１ステップで使用するＤＢのレ
コードがその分増えるので、ディスク容量の圧迫の懸念
がある。しかしながら、実際問題として、英文字が２７
個、カタカナが約８０個で計１０７個であり、全体のイ
ンデックス英文字，ひらがな，カタカナ，漢字８０００
文字に比べ微々たるものであり、ディスク容量の圧迫の
問題はない。

【００１４】以下図面を参照して本発明の一実施の形態
を説明する。図１は、本発明に係る一実施の形態の文字
処理装置の概略構成を示すブロック図である。図１を参
照して、ＣＰＵ１は、マイクロプロセッサであり、電子
ファイリング処理のための演算，論理判断を行い、アド
レスバスＡＢ，コントロールバスＣＢ，データバスＤＢ
を介して、それらのバスに接続された各構成要素を制御
する。

【００１５】アドレスバスＡＢは、マイクロプロセッサ
ＣＰＵ１の制御の対象とする構成要素を指示するアドレ
ス信号を転送する。コントロールバスＣＢは、マイクロ
プロセッサＣＰＵ１の制御対象の構成要素にコントロー
ル信号を送る。データバスＤＢは、各構成機器相互間の
データ転送のためのバスである。次に、ＲＯＭ２は、読
み出し専用のメモリであり、後述するマイクロプロセッ
サＣＰＵ１による処理手順等を記憶させたプログラムを
格納している。

【００１６】また、ＲＡＭ３は、読み出し/書き込み可
能ランダムアクセスメモリであって、各構成要素からの
各種データの一時記憶に用いる。キーボードバッファ７
は、キーボード８から送信されるスキャンコードを一時
的に蓄えるメモリであり、文書バッファ９は、キーボー
ドバッファ７に蓄えられたデータを文字コードの形で蓄
えるメモリである。

【００１７】ビデオバッファ１２は、文書バッファ９の
文字コードをビット展開してＣＲＴ１４の１画面分の画
素を蓄えるメモリである。ＲＡＭＤＡＣ１３は、ビデオ
バッファ１２に蓄えられたデジタル符号である画素をＣ
ＲＴ１４で表示できるアナログ信号に変換するコンバー
タである。単漢字辞書４は、部首入力，画数入力，単漢
字入力などによって、漢字を検索するための辞書であ
る。

【００１８】かな漢字辞書５は、かな漢字変換を行なう
ための辞書である。ディスク６は、ＤＢバッファ１０に
格納されたＤＢ（データベース）情報と登録指定した頁
ファイルの保管を行う。これらの情報は、キーボード８
の指示により、必要なときにアクセスされる。ＣＲＴ１
４に表示するカーソルを格納するカーソルレジスタ１１
は、ＣＰＵ１によりその内容を読み書きされる。この内
容は、ビデオバッファ１２に送られ、ここに蓄えられた
アドレスに対するＣＲＴ１４の位置にカーソルを表示す
る。

【００１９】かかる各要素からなる本実施の形態の文字
処理装置においては、キーボード８からの各種入力に応
じて動作するものであって、キーボード８からの入力が
供給されると、まず、不図示のインタラプト信号がマイ
クロプロセッサＣＰＵ１に送られ、そのマイクロプロセ
ッサＣＰＵ１がＲＯＭ２に記憶している各種の処理プロ
グラムを読み出し、解釈して各種の制御を行う。

【００２０】図２，図３は、本実施の形態の文字処理装
置における処理方法を説明するための説明図である。そ
の処理手順を、図４，図５のフローチャートで示す。以
下、それらの図を参照しながら処理の流れを説明する。
図２は、頁ファイルの文章（頁No.1、頁No.2）が各文字
に分解されて、ディスク６に単語情報として登録されて
いる様子を示している。図２の左の頁No.１，頁No.２
が、実際の文章の内容であり、それらが文字分解され
て、ディスク６中の単語ＤＢに登録される。

【００２１】単語ＤＢのインデックスの右横には、その
インデックスが含まれる全ての頁番号を格納してある。
尚、複数文書のインデックスをこの単語ＤＢが含む場
合、ここでの頁番号は、文書の識別子の情報も含む。例
えば、頁番号の構成として、下４桁が実際の頁番号で、
それより上位の、例えば４桁を特定文書の識別番号とす
ることで、複数の文書に対応する一括した単語ＤＢを構
成することができる。

【００２２】単語ＤＢのインデックスには、文字列の先
頭であることを意味する「＊」マークを持つものがあ
る。例えば、図２の「ア＊」の場合は、対応する頁番号
が"１"であるので、頁No.１の頁の中に「ア」で始まる
文字列があることを意味する。図２の例では、頁No.１
の頁の中に、「ア」で始まる「アルゴリズム」という文
字列が存在する。

【００２３】また、頁No.１、頁No.2の文書内容が格納
されているディスク６での位置は、それぞれそれらのフ
ァイル名が、１０１、１０２の位置に格納されている。
この文章を文字に分解する手順を図４Ａから図４Ｄのフ
ローチャートを参照して説明する。ステップＳ１０１で
は、所定の処理対象の文書に新規頁番号を割り振る。

【００２４】ステップＳ１０２では、ステップＳ１０１
で割り振られた頁番号と対応づけた各頁が格納されてい
る各頁ファイルをディスクに格納する。ステップＳ１０
３からは、ＤＢ（データベース）情報を作成するフロー
となる。まず、ステップＳ１０３の初期化では、文章
分解処理のための文字ポインタ，ＤＢ情報用バッファ，
フラグ等をクリアする。

【００２５】ステップＳ１０４では、各頁に対する文章
分解処理が終了したかどうかをチェックする。まだ、未
処理の頁が残っていれば、ステップＳ１０５へ進む。逆
に、各頁に対する文章分解処理が終了すれば、ステップ
Ｓ１９１へ進み、ＤＢバッファの内容を単語ＤＢとして
ディスクへ格納して、処理を終了する。ステップＳ１０
５では、文字ポインタにポイントされる文字を取り込
む。

【００２６】ステップＳ１０６では、その文字がカタカ
ナであれば、ステップ１０７からの一連の処理に進む。
ステップＳ１０７では、フラグＫ（ｆｌａｇＫ）がオン
かオフかをチェックする。即ち、ステップＳ１０５で取
り込んだ文字が文字列の先頭かどうかを判定する。先頭
であれば、フラグＫがオフ、先頭以外であればフラグＫ
がオンとなっている。そして、フラグＫがオフであれば
文字列の先頭であるので、ステップＳ１０８へ進む。逆
にオンであれば、ステップＳ１１１へ進む。

【００２７】ステップＳ１０８では、取り込んだ文字が
既に登録済みの文字であるかどうかを判定する。登録済
み文字かどうかの判定は、ＤＢバッファに登録されてい
る文字を検索して行う。そして、１頁の文脈中で同一文
字が先頭文字としてまだ登録されてなければ、ステップ
Ｓ１０９の登録処理へ進む。一方、すでに登録されてい
れば、ステップＳ１０９をスキップしてステップＳ１１
０へ進む。つまり、重複登録を避けるためにステップＳ
１０９での登録処理を行わない。つまり、文字インデッ
クスに対して、頁ＩＤ情報はすべてユニークであり、重
複したＩＤがないようにする。

【００２８】ステップＳ１０９では、取り込んだ文字と
その文字を含む頁番号をＤＢバッファに格納する。ま
た、その文字に文字列の先頭文字であることを示すフラ
グ、例えば、”＊”を付属させる。ステップＳ１１０で
は、フラグＫをオンに設定し、ステップＳ１１８に進
む。ステップＳ１１１では、取り込んだ文字が既に登録
済みの文字であるかどうかを判定する。登録済み文字か
どうかの判定は、ＤＢバッファに登録されている文字を
検索して行う。そして、１頁の文脈中で同一文字がまだ
登録されていなければ、ステップＳ１１２の登録処理へ
進む。一方、すでに登録されていれば、ステップＳ１１
８へ進む。つまり、重複登録を避けるためにステップＳ
１１２の登録処理を行わない。つまり、文字インデック
スに対して、頁ＩＤ情報はすべてユニークであり、重複
したＩＤがないようにする。

【００２９】ステップＳ１１２では、取り込んだ文字と
その文字を含む頁番号をＤＢバッファに格納する。ステ
ップＳ１１８では、文字ポインタを１カウントアップす
る。そして、ステップＳ１０４へ戻り、次の文字につい
て同様の処理を繰り返す。次に、ステップＳ１１３の処
理、即ち、ステップＳ１０６で取り込んだ文字がカタカ
ナでない場合の処理を以下説明する。

【００３０】ステップＳ１１３では、フラグＫをオフに
設定する。ステップＳ１１４では、取り込んだ文字が英
字であるかどうかのチェックを行う。そして、英字でな
ければ、ステップＳ１１５へ進み、フラグＡをオフに設
定する。英字であれば、ステップＳ１４１からの英字の
登録処理に進む。ステップＳ１４１では、フラグＡがオ
フであるかチェックする。つまり、取り込んだ英字が文
字列の先頭か否かを判断する。先頭であれば、フラグＡ
がオフ、先頭以外であればフラグＡがオンとなってい
る。そして、フラグＡがオフであれば文字列の先頭であ
るので、ステップＳ１４２へ進む。逆にオンであれば、
ステップＳ１４５へ進む。

【００３１】ステップＳ１４２では、取り込んだ文字が
既に登録済みの文字であるかどうかを判定する。登録済
み文字かどうかの判定は、ＤＢバッファに登録されてい
る文字を検索して行う。そして、１頁の文脈中で同一文
字が先頭文字としてまだ登録されていなければ、ステッ
プＳ１４３の登録処理へ進む。一方、すでに登録されて
いれば、ステップＳ１４３をスキップしてステップＳ１
４４へ進む。つまり、重複登録を避けるためにＳ１４３
の登録処理を行わない。つまり、文字インデックスに対
して、頁ＩＤ情報はすべてユニークであり、重複したＩ
Ｄがないようにする。

【００３２】ステップＳ１４３では、取り込んだ文字と
その文字を含む頁番号をＤＢバッファに格納する。ま
た、その文字に文字列の先頭文字であることを示すフラ
グ、例えば、”＊”を付属させる。ステップＳ１４４で
は、フラグＡをオンに設定し、ステップＳ１１８に進
む。ステップＳ１４５では、取り込んだ文字が既に登録
済みの文字であるかどうかを判定する。登録済み文字か
どうかの判定は、ＤＢバッファに登録されている文字を
検索して行う。そして、１頁の文脈中で同一文字がまだ
登録されていなければ、ステップＳ１４６の登録処理へ
進む。一方、すでに登録されていれば、ステップＳ１１
８へ進む。つまり、重複登録を避けるためにステップＳ
１４６での登録処理を行わない。つまり、文字インデッ
クスに対して、頁ＩＤ情報はすべてユニークであり、重
複したＩＤがないようにする。

【００３３】ステップＳ１４６では、取り込んだ文字と
その文字を含む頁番号をＤＢバッファに格納する。次
に、ステップＳ１１５、即ち、ステップＳ１０６で取り
込んだ文字がカタカナでも英文字でもない場合の処理を
以下説明する。ステップＳ１１５では、フラグＡをオフ
に設定する。

【００３４】ステップＳ１１６では、取り込んだ文字が
既に登録済みの文字であるかどうかを判定する。登録済
み文字かどうかの判定は、ＤＢバッファに登録されてい
る文字を検索して行う。そして、１頁の文脈中で同一文
字がまだ登録されていなければ、ステップＳ１１７の登
録処理へ進む。一方、すでに登録されていれば、ステッ
プＳ１１８へ進む。つまり、重複登録を避けるためにス
テップＳ１１７での登録処理を行わない。つまり、文字
インデックスに対して、頁ＩＤ情報はすべてユニークで
あり、重複したＩＤがないようにする。

【００３５】ステップＳ１１７では、取り込んだ文字と
その文字を含む頁番号をＤＢバッファに格納する。以上
の処理を行うことにより、所定の文章に基づいて、図２
に示したような単語ＤＢを生成することができる。次
に、作成した単語ＤＢ情報を利用して、文字列検索を含
む頁ファイルの検索手順の概念を図３を参照して説明す
る。

【００３６】図３の左上に示すように、例えば、"アル
ゴリズム"という検索キーワードを含む頁ファイルを検
索するには、上記文字列を文字に分解して、「ア＊」を
インデックスとして単語ＤＢから頁No.情報を取得す
る。次に「ル」をインデックスとして、同様に、単語Ｄ
Ｂから頁No.情報を取得する。そして、「ム」まで同様
に処理する。

【００３７】この処理によって、検索された頁No.情報
によって、「ア」から「ム」までを全て含む頁を文字
列"アルゴリズム"が含まれる可能性のある頁ファイルと
して選択できる。そして、候補として上がった頁ファイ
ルの内容と"アルゴリズム"を、文字列コンペアして、一
致したものだけが最終的に検索された頁ファイルとな
る。

【００３８】この検索のフローを図５Ａから図５Ｂを参
照して説明する。ステップＳ２０１では、検索文字列を
取得して、以下説明する１文字インデックスを利用した
検索フローに入る。検索文字列は、キーボード８から入
力されたものである。ステップＳ２０２では、検索文字
列の文字をポイントする文字ポインタとＤＢバッファ１
０を初期化する。

【００３９】ステップＳ２０３では、文字ポインタの示
す文字を取り込む。ステップＳ２０４では、検索文字列
の先頭文字が英文字かまたはカタカナ文字であるかを判
定する。そして、英文字かカタカナ文字であれば、ステ
ップＳ２１０に進む。逆に、英文字かカタカナ文字でな
ければ、ステップＳ２０５へ進む。ステップＳ２１０で
は、文字に先頭文字を示すフラグを付加する。

【００４０】ステップＳ２１１では、その文字と一致す
る先頭文字を示すフラグを持つ単語ＤＢのインデックス
を検索して、一致するインデックスに対応する頁No.情
報の全てをＤＢバッファ１０に展開する。そして、ステ
ップＳ２０７へ進む。一方、ステップＳ２０５では、文
字ポインタのポイントする検索文字列の文字が、以前に
処理された同じ検索文字列の文字に等しいかどうかチェ
ックする。これは、検索文字列中に同じ文字を複数個含
んでいる場合に、頁No.情報を重複して展開するのを避
けるためである。ここで、以前に処理された同じ検索文
字列の文字に等しければ、ステップＳ２０７へ進む。逆
に等しくなければ、ステップＳ２０６へ進む。

【００４１】ステップＳ２０６では、その文字と一致す
る単語ＤＢのインデックスを検索して、一致するインデ
ックスに対応する頁No.情報の全てをＤＢバッファ１０
に展開する。そして、ステップＳ２０７へ進む。ステッ
プＳ２０７では、検索文字ポインタを＋１する。ステッ
プＳ２０８では、文字ポインタにポイントされる文字を
取得する。

【００４２】ステップＳ２０９では、取得された文字
が"ＮＵＬＬ"文字であるかチェックする。ここで、"Ｎ
ＵＬＬ"文字は検索文字列の最終を示す。そして、"ＮＵ
ＬＬ"文字であれば、ステップＳ２１２へ進む。逆に、"
ＮＵＬＬ"文字でなければ、ステップＳ２０５へ戻り、
その文字に関して同様の処理を繰り返す。ステップＳ２
１２では、ＤＢバッファの各文字の頁番号に基づいて、
検索文字列の全ての文字を含む頁番号を選択する。

【００４３】ステップＳ２１３では、ステップＳ２１２
で選択された頁番号に対応する頁ファイルの文章内で、
検索文字列と一致する文字列があるかをチェックして、
存在すれば、その頁ファイルの存在を表示して処理を終
了する。以上説明したように、本実施の形態によれば、
１文字インデックスによる検索アルゴリズムに、特定の
文字種に関して文字列の先頭文字をインデックスとして
採用する事により、採用した文字種に対して検索時の頁
ファイルの絞り込みの効率をあげ、その結果、検索で最
も時間の要するファイル内容と検索文字列のコンペアチ
ェック処理で対象とする頁ファイルの個数を少なくする
ことが出来る。従って、検索全体のスピードアップを図
ることが出来る。

【００４４】尚、本発明は、前記に示すように１文字イ
ンデックスにおける手順を示したが、英文字，カタカナ
は、同一文字種が連続する限り単語であると見なせば、
この文字種に関してキーワードとして単語ＤＢに登録す
ることが出来る。この一例を図６に示す。図６を参照し
て、図左の頁No.1、頁No.2の文章中、"キャン"，"ファ
イリング"のようにカタカナ文字種に関しては、単語を
インデックスとして直接登録している。また、ひらが
な，漢字は１文字インデックスとして登録する。即ち、
単語インデックスと１文字インデックスを混合させて登
録できる。

【００４５】また、本実施の形態では、１文字インデッ
クスの単語ＤＢでの検索方法を記述したが、２文字イン
デックスの場合でも、同様に先頭マークを付加してＤＢ
を構築することで、文字列を高速に検索することができ
る。さらに、英文字，カタカナ文字種の前後でキーワー
ド候補を切り出し、切り出されたキーワード候補に基づ
いて所定のキーワード辞書を検索して、存在すれば、そ
れをキーワードインデックスとして単語データベースに
登録すれば、より高能率の単語ＤＢを構築できる。

【００４６】なお、本発明は、複数の機器（例えばホス
トコンピュータ，インタフェイス機器，リーダ，プリン
タなど）から構成されるシステムに適用しても、一つの
機器からなる装置に適用してもよい。また、本発明の目
的は、前述した実施形態の機能を実現するソフトウェア
のプログラムコードを記録した記憶媒体を、システムあ
るいは装置に供給し、そのシステムあるいは装置のコン
ピュータ（またはＣＰＵやＭＰＵ）が記憶媒体に格納さ
れたプログラムコードを読出し実行することによっても
達成される。この場合、記憶媒体から読出されたプログ
ラムコード自体が前述した実施形態の機能を実現するこ
とになり、そのプログラムコードを記憶した記憶媒体は
本発明を構成することになる。

【００４７】プログラムコードを供給するための記憶媒
体としては、例えば、フロッピディスク，ハードディス
ク，光ディスク，光磁気ディスク，ＣＤ−ＲＯＭ，ＣＤ
−Ｒ，磁気テープ，不揮発性のメモリカード，ＲＯＭな
どを用いることができる。また、コンピュータが読出し
たプログラムコードを実行することにより、前述した実
施形態の機能が実現されるだけでなく、そのプログラム
コードの指示に基づき、コンピュータ上で稼働している
ＯＳ（オペレーティングシステム）などが実際の処理の
一部または全部を行い、その処理によって前述した実施
形態の機能が実現される場合も含まれる。

【００４８】さらに、記憶媒体から読出されたプログラ
ムコードが、コンピュータに挿入された機能拡張ボード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書込まれた後、そのプログラムコードの指示に
基づき、その機能拡張ボードや機能拡張ユニットに備わ
るＣＰＵなどが実際の処理の一部または全部を行い、そ
の処理によって前述した実施形態の機能が実現される場
合も含まれる。

【００４９】本発明を上記記憶媒体に適用する場合、そ
の記憶媒体には、先に説明したフローチャートに対応す
る処理を実行するプログラムコードを格納することにな
る。

【００５０】

【発明の効果】以上説明したように本発明によれば、高
速に文書を検索することができる。また、文字列に関す
る文書探索を適切に狭めることで、効率のよい文書検索
ができる。

【図面の簡単な説明】

【図１】本発明に係る文字処理装置の実施の形態の概略
構成図を示すブロック図である。

【図２】本実施の形態の文字処理装置での単語データベ
ースを生成する処理の概念を説明する図である。

【図３】本実施の形態の文字処理装置での文書検索処理
の概念を説明する図である。

【図４Ａ】本実施の形態の文字処理装置での単語データ
ベースを生成する処理のフローチャートである。

【図４Ｂ】本実施の形態の文字処理装置での単語データ
ベースを生成する処理のフローチャートである。

【図４Ｃ】本実施の形態の文字処理装置での単語データ
ベースを生成する処理のフローチャートである。

【図４Ｄ】本実施の形態の文字処理装置での単語データ
ベースを生成する処理のフローチャートである。

【図５Ａ】本実施の形態の文字処理装置での文書検索処
理のフローチャートである。

【図５Ｂ】本実施の形態の文字処理装置での文書検索処
理のフローチャートである。

【図６】本実施の形態の文字処理装置での単語ＤＢのイ
ンデックスとしてキーワードを含む場合の単語ＤＢ生成
概念と文書検出処理概念を説明するための図である。

Claims

【特許請求の範囲】

【請求項１】同じ文字種が連続する文字列の先頭から
所定数の文字を所定の文書データから抽出する抽出工程
と、前記抽出された文字列の先頭から所定数の文字と先頭マ
ークと前記所定数の文字が含まれる文書データの位置情
報とを関連づけて単語データベースとして記憶する記憶
工程とを備え、前記単語データベースを用いて文書検索を行うことを特
徴とする文書処理方法。
【請求項２】前記文字種はカタカナであることを特徴
とする請求項１に記載の文書処理方法。
【請求項３】前記文字種は英文字であることを特徴と
する請求項１に記載の文書処理方法。
【請求項４】前記文書データの位置情報は、前記文書
データに対応する頁番号であることを特徴とする請求項
１に記載の文書処理方法。
【請求項５】前記文書データの位置情報は、前記文書
データが含まれる文書名情報と前記文書データに対応す
る頁番号であることを特徴とする請求項１に記載の文書
処理方法。
【請求項６】前記記憶工程は、前記抽出された文字列
の先頭から所定数の文字と先頭マークと前記先頭文字が
含まれる文書データの位置情報とを関連づけて単語デー
タベースとして記憶し、前記先頭から所定数の文字が含まれる文書データの位置
情報を複数有することを特徴とする請求項１に記載の文
書処理方法。
【請求項７】前記所定数は１であること特徴とする請
求項１に記載の文書処理方法。
【請求項８】前記所定数は２であることを特徴とする
請求項１に記載の文書処理方法。
【請求項９】所定の文字列を前記文字列の先頭から所
定数の文字に分解する分解工程と、前記分解工程で生成された前記文字列の先頭から所定数
の文字と一致する文字を、所定の文書データに含まれる
同じ文字種が連続する文字列の先頭から所定数の文字と
前記先頭から所定数の文字に付随する先頭マークと前記
先頭文字が含まれる文書データの位置情報とを関連づけ
た情報を有する単語データベースから、前記先頭マーク
が付随する文字の中から検索する検索工程とを備えるこ
とを特徴とする文書処理方法。
【請求項１０】前記所定数は１であることを特徴とす
る請求項９に記載の文書処理方法。
【請求項１１】前記所定数は２であることを特徴とす
る請求項９に記載の文書処理方法。
【請求項１２】前記文字種はカタカナであることを特
徴とする請求項９に記載の文書処理方法。
【請求項１３】前記文字種は英文字であることを特徴
とする請求項９に記載の文書処理方法。
【請求項１４】前記文書データの位置情報は、前記文
書データに対応する頁番号であることを特徴とする請求
項９に記載の文書処理方法。
【請求項１５】前記文書データの位置情報は、前記文
書データが含まれる文書名情報と前記文書データに対応
する頁番号であることを特徴とする請求項９に記載の文
書処理方法。
【請求項１６】前記所定数は、前記同じ文字種が連続
する文字列の最後までの文字数を含み、前記最後までの
文字数以下の数であることを特徴とする請求項１または
９に記載の文書処理方法。
【請求項１７】同じ文字種が連続する文字列の先頭か
ら所定数の文字を所定の文書データから抽出する抽出工
程と、前記抽出された文字列の先頭から所定数の文字と先頭マ
ークと前記所定数の文字が含まれる文書データの位置情
報とを関連づけて単語データベースとして記憶する記憶
工程とを備え、前記単語データベースを用いて文書検索を行うことを特
徴とする文書処理方法。
【請求項１８】前記文字種はカタカナであることを特
徴とする請求項１７に記載の文書処理方法。
【請求項１９】前記文字種は英文字であることを特徴
とする請求項１７に記載の文書処理方法。
【請求項２０】前記文書データの位置情報は、前記文
書データに対応する頁番号であることを特徴とする請求
項１７に記載の文書処理方法。
【請求項２１】前記文書データの位置情報は、前記文
書データが含まれる文書名情報と前記文書データに対応
する頁番号であることを特徴とする請求項１７に記載の
文書処理方法。
【請求項２２】前記記憶工程は、前記抽出された文字列の先頭から所定数の文字と先頭マ
ークと前記先頭文字が含まれる文書データの位置情報と
を関連づけて単語データベースとして記憶し、前記先頭から所定数の文字が含まれる文書データの位置
情報を複数有することを特徴とする請求項１７に記載の
文書処理方法。
【請求項２３】前記所定数は１であること特徴とする
請求項１７に記載の文書処理方法。
【請求項２４】前記所定数は２であることを特徴とす
る請求項１７に記載の文書処理方法。
【請求項２５】所定の文字列を前記文字列の先頭から
所定数の文字に分解する分解手段と、前記分解手段で生成された前記文字列の先頭から所定数
の文字と一致する文字を、所定の文書データに含まれる
同じ文字種が連続する文字列の先頭から所定数の文字と
前記先頭から所定数の文字に付随する先頭マークと前記
先頭文字が含まれる文書データの位置情報とを関連づけ
た情報を有する単語データベースから、前記先頭マーク
が付随する文字の中から検索する検索手段とを備えるこ
とを特徴とする文書処理装置。
【請求項２６】前記所定数は１であることを特徴とす
る請求項２５に記載の文書処理装置。
【請求項２７】前記所定数は２であることを特徴とす
る請求項２５に記載の文書処理装置。
【請求項２８】前記文字種はカタカナであることを特
徴とする請求項２５に記載の文書処理装置。
【請求項２９】前記文字種は英文字であることを特徴
とする請求項２５に記載の文書処理装置。
【請求項３０】前記文書データの位置情報は、前記文
書データに対応する頁番号であることを特徴とする請求
項２５に記載の文書処理装置。
【請求項３１】前記文書データの位置情報は、前記文
書データが含まれる文書名情報と前記文書データに対応
する頁番号であることを特徴とする請求項２５に記載の
文書処理装置。
【請求項３２】前記所定数は、前記同じ文字種が連続
する文字列の最後までの文字数を含み、前記最後までの
文字数以下の数であることを特徴とする請求項２５に記
載の文書処理装置。