JPH11191107A - 文書処理方法とその装置 - Google Patents

文書処理方法とその装置

Info

Publication number
JPH11191107A
JPH11191107A JP9358291A JP35829197A JPH11191107A JP H11191107 A JPH11191107 A JP H11191107A JP 9358291 A JP9358291 A JP 9358291A JP 35829197 A JP35829197 A JP 35829197A JP H11191107 A JPH11191107 A JP H11191107A
Authority
JP
Japan
Prior art keywords
character
document
characters
document data
predetermined number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP9358291A
Other languages
English (en)
Inventor
Kenichi Kazumi
健一 数見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP9358291A priority Critical patent/JPH11191107A/ja
Publication of JPH11191107A publication Critical patent/JPH11191107A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 文字列に関する文書探索範囲を適切に狭める
ことで、高速かつ効率のよい文書検索ができる文書処理
方法とその装置を提供する。 【解決手段】 同じ文字種が連続する文字列の先頭から
所定数の文字を所定の文書データから抽出する抽出部
1,2,3,9,6と、抽出された文字列の先頭から所
定数の文字と先頭マークと前記所定数の文字が含まれる
文書データの位置情報とを関連づけて単語データベース
として記憶する記憶部10,6とを備え、単語データベ
ース6を用いて文書検索を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、登録した文書ファ
イルから検索文字列を含む文書を自動抽出する文書処理
方法とその装置に関する。
【0002】
【従来の技術】文書装置で文書を検索する時の手法に、
1文字インデックス,2文字インデックスのデータベー
ス(DB)を参照して目的とする文書を検索する技術が
有った。1文字インデックスのDBでは、文書を登録す
る時に文書に含まれる文字をすべてインデックスとし、
そのインデックスに文書のID(識別子)を情報として
持たせたものである。単語に関する処理を全く行ってい
ないので、検索文字列を含む文書を検索するのに、以下
の2ステップを実行することが必要である。
【0003】まず第1ステップとして1文字インデック
スのDB(データベース)から、検索文字列の各文字を
インデックスとして、対応する頁ID群を取得する。そ
して、検索文字列のすべての文字を含む頁IDを抽出す
る。この段階では、まだ検索文字列を実際に含む頁ファ
イルであるかどうかはわからない。次に第2ステップに
移行する。
【0004】上記で得た頁IDの指示する頁ファイル内
を、検索文字列でコンペアチェックし、検索文字列を単
語として含んでいるかどうかを知る。
【0005】
【発明が解決しようとする課題】しかしながら、上述の
従来のDBによると、文書を検索する探索量が多く、探
索時間が遅いという問題があった。また、上述の1文字
インデックスと2文字インデックスのDBでは、文字の
文字列での位置情報を含まないため、検索候補が多数検
出され、ユーザの意図しない文字列候補まで検索される
という問題があった。
【0006】本発明は、上記従来例に鑑みてなされたも
ので、文字列に関する文書探索を適切に狭めることで、
高速かつ効率よい文書検索ができる文書処理方法とその
装置を提供することを目的とする。
【0007】
【課題を解決するための手段】上記目的を達成するた
め、本発明の文書処理方法とその装置は以下の構成を備
える。即ち、同じ文字種が連続する文字列の先頭から所
定数の文字を所定の文書データから抽出する抽出工程
と、前記抽出された文字列の先頭から所定数の文字と先
頭マークと前記所定数の文字が含まれる文書データの位
置情報とを関連づけて単語データベースとして記憶する
記憶工程とを備える。
【0008】また、別の発明は、所定の文字列を前記文
字列の先頭から所定数の文字に分解する分解工程と、前
記分解工程で生成された前記文字列の先頭から所定数の
文字と一致する文字を、所定の文書データに含まれる同
じ文字種が連続する文字列の先頭から所定数の文字と前
記先頭から所定数の文字に付随する先頭マークと前記先
頭文字が含まれる文書データの位置情報とを関連づけた
情報を有する単語データベースから、前記先頭マークが
付随する文字の中から検索する検索工程とを備える。
【0009】また、別の発明は、同じ文字種が連続する
文字列の先頭から所定数の文字を所定の文書データから
抽出する抽出工程と、前記抽出された文字列の先頭から
所定数の文字と先頭マークと前記所定数の文字が含まれ
る文書データの位置情報とを関連づけて単語データベー
スとして記憶する記憶工程とを備える。
【0010】また、別の発明は、所定の文字列を前記文
字列の先頭から所定数の文字に分解する分解手段と、前
記分解手段で生成された前記文字列の先頭から所定数の
文字と一致する文字を、所定の文書データに含まれる同
じ文字種が連続する文字列の先頭から所定数の文字と前
記先頭から所定数の文字に付随する先頭マークと前記先
頭文字が含まれる文書データの位置情報とを関連づけた
情報を有する単語データベースから、前記先頭マークが
付随する文字の中から検索する検索手段とを備える。
【0011】
【発明の実施の形態】まず、本発明に係る一実施の形態
の文書処理装置のポイントを説明した後、詳細な説明に
入る。本実施の形態の文書処理装置は、上述の処理ステ
ップのうち第1ステップでの文書絞り込み方法に主な焦
点をあてており、文字列検索時間のかかる第2ステップ
での検索文書範囲を狭めることで、高速な検索を実現し
たものである。
【0012】これを実現する1つのポイントは、特定の
文字列の文字種に着目して、例えば、英文字,カタカナ
を含む文字列に注目すると、英文字ならば英文字だけの
文字列、カタカナならばカタカナだけの文字列の場合が
多い。つまり、ほとんどの検索文字列が同一文字種で設
定されるものと考えられる。一方、漢字,ひらがなは混
合形で単語となる場合が少なくない。
【0013】本実施の形態の文書処理装置は、このよう
な日本語文の特徴に鑑み、頁ファイルの登録時に、特定
文字種(英文字,カタカナ)の先頭文字情報を1文字イ
ンデックスに付加することにより、第1ステップでの文
書検索範囲を縮小させる。尚、インデックスに上述の付
加情報を増加すると、第1ステップで使用するDBのレ
コードがその分増えるので、ディスク容量の圧迫の懸念
がある。しかしながら、実際問題として、英文字が27
個、カタカナが約80個で計107個であり、全体のイ
ンデックス英文字,ひらがな,カタカナ,漢字8000
文字に比べ微々たるものであり、ディスク容量の圧迫の
問題はない。
【0014】以下図面を参照して本発明の一実施の形態
を説明する。図1は、本発明に係る一実施の形態の文字
処理装置の概略構成を示すブロック図である。図1を参
照して、CPU1は、マイクロプロセッサであり、電子
ファイリング処理のための演算,論理判断を行い、アド
レスバスAB,コントロールバスCB,データバスDB
を介して、それらのバスに接続された各構成要素を制御
する。
【0015】アドレスバスABは、マイクロプロセッサ
CPU1の制御の対象とする構成要素を指示するアドレ
ス信号を転送する。コントロールバスCBは、マイクロ
プロセッサCPU1の制御対象の構成要素にコントロー
ル信号を送る。データバスDBは、各構成機器相互間の
データ転送のためのバスである。次に、ROM2は、読
み出し専用のメモリであり、後述するマイクロプロセッ
サCPU1による処理手順等を記憶させたプログラムを
格納している。
【0016】また、RAM3は、読み出し/書き込み可
能ランダムアクセスメモリであって、各構成要素からの
各種データの一時記憶に用いる。キーボードバッファ7
は、キーボード8から送信されるスキャンコードを一時
的に蓄えるメモリであり、文書バッファ9は、キーボー
ドバッファ7に蓄えられたデータを文字コードの形で蓄
えるメモリである。
【0017】ビデオバッファ12は、文書バッファ9の
文字コードをビット展開してCRT14の1画面分の画
素を蓄えるメモリである。RAMDAC13は、ビデオ
バッファ12に蓄えられたデジタル符号である画素をC
RT14で表示できるアナログ信号に変換するコンバー
タである。単漢字辞書4は、部首入力,画数入力,単漢
字入力などによって、漢字を検索するための辞書であ
る。
【0018】かな漢字辞書5は、かな漢字変換を行なう
ための辞書である。ディスク6は、DBバッファ10に
格納されたDB(データベース)情報と登録指定した頁
ファイルの保管を行う。これらの情報は、キーボード8
の指示により、必要なときにアクセスされる。CRT1
4に表示するカーソルを格納するカーソルレジスタ11
は、CPU1によりその内容を読み書きされる。この内
容は、ビデオバッファ12に送られ、ここに蓄えられた
アドレスに対するCRT14の位置にカーソルを表示す
る。
【0019】かかる各要素からなる本実施の形態の文字
処理装置においては、キーボード8からの各種入力に応
じて動作するものであって、キーボード8からの入力が
供給されると、まず、不図示のインタラプト信号がマイ
クロプロセッサCPU1に送られ、そのマイクロプロセ
ッサCPU1がROM2に記憶している各種の処理プロ
グラムを読み出し、解釈して各種の制御を行う。
【0020】図2,図3は、本実施の形態の文字処理装
置における処理方法を説明するための説明図である。そ
の処理手順を、図4,図5のフローチャートで示す。以
下、それらの図を参照しながら処理の流れを説明する。
図2は、頁ファイルの文章(頁No.1、頁No.2)が各文字
に分解されて、ディスク6に単語情報として登録されて
いる様子を示している。図2の左の頁No.1,頁No.2
が、実際の文章の内容であり、それらが文字分解され
て、ディスク6中の単語DBに登録される。
【0021】単語DBのインデックスの右横には、その
インデックスが含まれる全ての頁番号を格納してある。
尚、複数文書のインデックスをこの単語DBが含む場
合、ここでの頁番号は、文書の識別子の情報も含む。例
えば、頁番号の構成として、下4桁が実際の頁番号で、
それより上位の、例えば4桁を特定文書の識別番号とす
ることで、複数の文書に対応する一括した単語DBを構
成することができる。
【0022】単語DBのインデックスには、文字列の先
頭であることを意味する「*」マークを持つものがあ
る。例えば、図2の「ア*」の場合は、対応する頁番号
が"1"であるので、頁No.1の頁の中に「ア」で始まる
文字列があることを意味する。図2の例では、頁No.1
の頁の中に、「ア」で始まる「アルゴリズム」という文
字列が存在する。
【0023】また、頁No.1、頁No.2の文書内容が格納
されているディスク6での位置は、それぞれそれらのフ
ァイル名が、101、102の位置に格納されている。
この文章を文字に分解する手順を図4Aから図4Dのフ
ローチャートを参照して説明する。ステップS101で
は、所定の処理対象の文書に新規頁番号を割り振る。
【0024】ステップS102では、ステップS101
で割り振られた頁番号と対応づけた各頁が格納されてい
る各頁ファイルをディスクに格納する。ステップS10
3からは、DB(データベース)情報を作成するフロー
となる。 まず、ステップS103の初期化では、文章
分解処理のための文字ポインタ,DB情報用バッファ,
フラグ等をクリアする。
【0025】ステップS104では、各頁に対する文章
分解処理が終了したかどうかをチェックする。まだ、未
処理の頁が残っていれば、ステップS105へ進む。逆
に、各頁に対する文章分解処理が終了すれば、ステップ
S191へ進み、DBバッファの内容を単語DBとして
ディスクへ格納して、処理を終了する。ステップS10
5では、文字ポインタにポイントされる文字を取り込
む。
【0026】ステップS106では、その文字がカタカ
ナであれば、ステップ107からの一連の処理に進む。
ステップS107では、フラグK(flagK)がオン
かオフかをチェックする。即ち、ステップS105で取
り込んだ文字が文字列の先頭かどうかを判定する。先頭
であれば、フラグKがオフ、先頭以外であればフラグK
がオンとなっている。そして、フラグKがオフであれば
文字列の先頭であるので、ステップS108へ進む。逆
にオンであれば、ステップS111へ進む。
【0027】ステップS108では、取り込んだ文字が
既に登録済みの文字であるかどうかを判定する。登録済
み文字かどうかの判定は、DBバッファに登録されてい
る文字を検索して行う。そして、1頁の文脈中で同一文
字が先頭文字としてまだ登録されてなければ、ステップ
S109の登録処理へ進む。一方、すでに登録されてい
れば、ステップS109をスキップしてステップS11
0へ進む。つまり、重複登録を避けるためにステップS
109での登録処理を行わない。つまり、文字インデッ
クスに対して、頁ID情報はすべてユニークであり、重
複したIDがないようにする。
【0028】ステップS109では、取り込んだ文字と
その文字を含む頁番号をDBバッファに格納する。ま
た、その文字に文字列の先頭文字であることを示すフラ
グ、例えば、”*”を付属させる。ステップS110で
は、フラグKをオンに設定し、ステップS118に進
む。ステップS111では、取り込んだ文字が既に登録
済みの文字であるかどうかを判定する。登録済み文字か
どうかの判定は、DBバッファに登録されている文字を
検索して行う。そして、1頁の文脈中で同一文字がまだ
登録されていなければ、ステップS112の登録処理へ
進む。一方、すでに登録されていれば、ステップS11
8へ進む。つまり、重複登録を避けるためにステップS
112の登録処理を行わない。つまり、文字インデック
スに対して、頁ID情報はすべてユニークであり、重複
したIDがないようにする。
【0029】ステップS112では、取り込んだ文字と
その文字を含む頁番号をDBバッファに格納する。ステ
ップS118では、文字ポインタを1カウントアップす
る。そして、ステップS104へ戻り、次の文字につい
て同様の処理を繰り返す。次に、ステップS113の処
理、即ち、ステップS106で取り込んだ文字がカタカ
ナでない場合の処理を以下説明する。
【0030】ステップS113では、フラグKをオフに
設定する。ステップS114では、取り込んだ文字が英
字であるかどうかのチェックを行う。そして、英字でな
ければ、ステップS115へ進み、フラグAをオフに設
定する。英字であれば、ステップS141からの英字の
登録処理に進む。ステップS141では、フラグAがオ
フであるかチェックする。つまり、取り込んだ英字が文
字列の先頭か否かを判断する。先頭であれば、フラグA
がオフ、先頭以外であればフラグAがオンとなってい
る。そして、フラグAがオフであれば文字列の先頭であ
るので、ステップS142へ進む。逆にオンであれば、
ステップS145へ進む。
【0031】ステップS142では、取り込んだ文字が
既に登録済みの文字であるかどうかを判定する。登録済
み文字かどうかの判定は、DBバッファに登録されてい
る文字を検索して行う。そして、1頁の文脈中で同一文
字が先頭文字としてまだ登録されていなければ、ステッ
プS143の登録処理へ進む。一方、すでに登録されて
いれば、ステップS143をスキップしてステップS1
44へ進む。つまり、重複登録を避けるためにS143
の登録処理を行わない。つまり、文字インデックスに対
して、頁ID情報はすべてユニークであり、重複したI
Dがないようにする。
【0032】ステップS143では、取り込んだ文字と
その文字を含む頁番号をDBバッファに格納する。ま
た、その文字に文字列の先頭文字であることを示すフラ
グ、例えば、”*”を付属させる。ステップS144で
は、フラグAをオンに設定し、ステップS118に進
む。ステップS145では、取り込んだ文字が既に登録
済みの文字であるかどうかを判定する。登録済み文字か
どうかの判定は、DBバッファに登録されている文字を
検索して行う。そして、1頁の文脈中で同一文字がまだ
登録されていなければ、ステップS146の登録処理へ
進む。一方、すでに登録されていれば、ステップS11
8へ進む。つまり、重複登録を避けるためにステップS
146での登録処理を行わない。つまり、文字インデッ
クスに対して、頁ID情報はすべてユニークであり、重
複したIDがないようにする。
【0033】ステップS146では、取り込んだ文字と
その文字を含む頁番号をDBバッファに格納する。次
に、ステップS115、即ち、ステップS106で取り
込んだ文字がカタカナでも英文字でもない場合の処理を
以下説明する。ステップS115では、フラグAをオフ
に設定する。
【0034】ステップS116では、取り込んだ文字が
既に登録済みの文字であるかどうかを判定する。登録済
み文字かどうかの判定は、DBバッファに登録されてい
る文字を検索して行う。そして、1頁の文脈中で同一文
字がまだ登録されていなければ、ステップS117の登
録処理へ進む。一方、すでに登録されていれば、ステッ
プS118へ進む。つまり、重複登録を避けるためにス
テップS117での登録処理を行わない。つまり、文字
インデックスに対して、頁ID情報はすべてユニークで
あり、重複したIDがないようにする。
【0035】ステップS117では、取り込んだ文字と
その文字を含む頁番号をDBバッファに格納する。以上
の処理を行うことにより、所定の文章に基づいて、図2
に示したような単語DBを生成することができる。次
に、作成した単語DB情報を利用して、文字列検索を含
む頁ファイルの検索手順の概念を図3を参照して説明す
る。
【0036】図3の左上に示すように、例えば、"アル
ゴリズム"という検索キーワードを含む頁ファイルを検
索するには、上記文字列を文字に分解して、「ア*」を
インデックスとして単語DBから頁No.情報を取得す
る。次に「ル」をインデックスとして、同様に、単語D
Bから頁No.情報を取得する。そして、「ム」まで同様
に処理する。
【0037】この処理によって、検索された頁No.情報
によって、「ア」から「ム」までを全て含む頁を文字
列"アルゴリズム"が含まれる可能性のある頁ファイルと
して選択できる。そして、候補として上がった頁ファイ
ルの内容と"アルゴリズム"を、文字列コンペアして、一
致したものだけが最終的に検索された頁ファイルとな
る。
【0038】この検索のフローを図5Aから図5Bを参
照して説明する。ステップS201では、検索文字列を
取得して、以下説明する1文字インデックスを利用した
検索フローに入る。検索文字列は、キーボード8から入
力されたものである。ステップS202では、検索文字
列の文字をポイントする文字ポインタとDBバッファ1
0を初期化する。
【0039】ステップS203では、文字ポインタの示
す文字を取り込む。ステップS204では、検索文字列
の先頭文字が英文字かまたはカタカナ文字であるかを判
定する。そして、英文字かカタカナ文字であれば、ステ
ップS210に進む。逆に、英文字かカタカナ文字でな
ければ、ステップS205へ進む。ステップS210で
は、文字に先頭文字を示すフラグを付加する。
【0040】ステップS211では、その文字と一致す
る先頭文字を示すフラグを持つ単語DBのインデックス
を検索して、一致するインデックスに対応する頁No.情
報の全てをDBバッファ10に展開する。そして、ステ
ップS207へ進む。一方、ステップS205では、文
字ポインタのポイントする検索文字列の文字が、以前に
処理された同じ検索文字列の文字に等しいかどうかチェ
ックする。これは、検索文字列中に同じ文字を複数個含
んでいる場合に、頁No.情報を重複して展開するのを避
けるためである。ここで、以前に処理された同じ検索文
字列の文字に等しければ、ステップS207へ進む。逆
に等しくなければ、ステップS206へ進む。
【0041】ステップS206では、その文字と一致す
る単語DBのインデックスを検索して、一致するインデ
ックスに対応する頁No.情報の全てをDBバッファ10
に展開する。そして、ステップS207へ進む。ステッ
プS207では、検索文字ポインタを+1する。ステッ
プS208では、文字ポインタにポイントされる文字を
取得する。
【0042】ステップS209では、取得された文字
が"NULL"文字であるかチェックする。ここで、"N
ULL"文字は検索文字列の最終を示す。そして、"NU
LL"文字であれば、ステップS212へ進む。逆に、"
NULL"文字でなければ、ステップS205へ戻り、
その文字に関して同様の処理を繰り返す。ステップS2
12では、DBバッファの各文字の頁番号に基づいて、
検索文字列の全ての文字を含む頁番号を選択する。
【0043】ステップS213では、ステップS212
で選択された頁番号に対応する頁ファイルの文章内で、
検索文字列と一致する文字列があるかをチェックして、
存在すれば、その頁ファイルの存在を表示して処理を終
了する。以上説明したように、本実施の形態によれば、
1文字インデックスによる検索アルゴリズムに、特定の
文字種に関して文字列の先頭文字をインデックスとして
採用する事により、採用した文字種に対して検索時の頁
ファイルの絞り込みの効率をあげ、その結果、検索で最
も時間の要するファイル内容と検索文字列のコンペアチ
ェック処理で対象とする頁ファイルの個数を少なくする
ことが出来る。従って、検索全体のスピードアップを図
ることが出来る。
【0044】尚、本発明は、前記に示すように1文字イ
ンデックスにおける手順を示したが、英文字,カタカナ
は、同一文字種が連続する限り単語であると見なせば、
この文字種に関してキーワードとして単語DBに登録す
ることが出来る。この一例を図6に示す。図6を参照し
て、図左の頁No.1、頁No.2の文章中、"キャン","ファ
イリング"のようにカタカナ文字種に関しては、単語を
インデックスとして直接登録している。また、ひらが
な,漢字は1文字インデックスとして登録する。即ち、
単語インデックスと1文字インデックスを混合させて登
録できる。
【0045】また、本実施の形態では、1文字インデッ
クスの単語DBでの検索方法を記述したが、2文字イン
デックスの場合でも、同様に先頭マークを付加してDB
を構築することで、文字列を高速に検索することができ
る。さらに、英文字,カタカナ文字種の前後でキーワー
ド候補を切り出し、切り出されたキーワード候補に基づ
いて所定のキーワード辞書を検索して、存在すれば、そ
れをキーワードインデックスとして単語データベースに
登録すれば、より高能率の単語DBを構築できる。
【0046】なお、本発明は、複数の機器(例えばホス
トコンピュータ,インタフェイス機器,リーダ,プリン
タなど)から構成されるシステムに適用しても、一つの
機器からなる装置に適用してもよい。また、本発明の目
的は、前述した実施形態の機能を実現するソフトウェア
のプログラムコードを記録した記憶媒体を、システムあ
るいは装置に供給し、そのシステムあるいは装置のコン
ピュータ(またはCPUやMPU)が記憶媒体に格納さ
れたプログラムコードを読出し実行することによっても
達成される。この場合、記憶媒体から読出されたプログ
ラムコード自体が前述した実施形態の機能を実現するこ
とになり、そのプログラムコードを記憶した記憶媒体は
本発明を構成することになる。
【0047】プログラムコードを供給するための記憶媒
体としては、例えば、フロッピディスク,ハードディス
ク,光ディスク,光磁気ディスク,CD−ROM,CD
−R,磁気テープ,不揮発性のメモリカード,ROMな
どを用いることができる。また、コンピュータが読出し
たプログラムコードを実行することにより、前述した実
施形態の機能が実現されるだけでなく、そのプログラム
コードの指示に基づき、コンピュータ上で稼働している
OS(オペレーティングシステム)などが実際の処理の
一部または全部を行い、その処理によって前述した実施
形態の機能が実現される場合も含まれる。
【0048】さらに、記憶媒体から読出されたプログラ
ムコードが、コンピュータに挿入された機能拡張ボード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書込まれた後、そのプログラムコードの指示に
基づき、その機能拡張ボードや機能拡張ユニットに備わ
るCPUなどが実際の処理の一部または全部を行い、そ
の処理によって前述した実施形態の機能が実現される場
合も含まれる。
【0049】本発明を上記記憶媒体に適用する場合、そ
の記憶媒体には、先に説明したフローチャートに対応す
る処理を実行するプログラムコードを格納することにな
る。
【0050】
【発明の効果】以上説明したように本発明によれば、高
速に文書を検索することができる。また、文字列に関す
る文書探索を適切に狭めることで、効率のよい文書検索
ができる。
【図面の簡単な説明】
【図1】本発明に係る文字処理装置の実施の形態の概略
構成図を示すブロック図である。
【図2】本実施の形態の文字処理装置での単語データベ
ースを生成する処理の概念を説明する図である。
【図3】本実施の形態の文字処理装置での文書検索処理
の概念を説明する図である。
【図4A】本実施の形態の文字処理装置での単語データ
ベースを生成する処理のフローチャートである。
【図4B】本実施の形態の文字処理装置での単語データ
ベースを生成する処理のフローチャートである。
【図4C】本実施の形態の文字処理装置での単語データ
ベースを生成する処理のフローチャートである。
【図4D】本実施の形態の文字処理装置での単語データ
ベースを生成する処理のフローチャートである。
【図5A】本実施の形態の文字処理装置での文書検索処
理のフローチャートである。
【図5B】本実施の形態の文字処理装置での文書検索処
理のフローチャートである。
【図6】本実施の形態の文字処理装置での単語DBのイ
ンデックスとしてキーワードを含む場合の単語DB生成
概念と文書検出処理概念を説明するための図である。

Claims (32)

    【特許請求の範囲】
  1. 【請求項1】 同じ文字種が連続する文字列の先頭から
    所定数の文字を所定の文書データから抽出する抽出工程
    と、 前記抽出された文字列の先頭から所定数の文字と先頭マ
    ークと前記所定数の文字が含まれる文書データの位置情
    報とを関連づけて単語データベースとして記憶する記憶
    工程とを備え、 前記単語データベースを用いて文書検索を行うことを特
    徴とする文書処理方法。
  2. 【請求項2】 前記文字種はカタカナであることを特徴
    とする請求項1に記載の文書処理方法。
  3. 【請求項3】 前記文字種は英文字であることを特徴と
    する請求項1に記載の文書処理方法。
  4. 【請求項4】 前記文書データの位置情報は、前記文書
    データに対応する頁番号であることを特徴とする請求項
    1に記載の文書処理方法。
  5. 【請求項5】 前記文書データの位置情報は、前記文書
    データが含まれる文書名情報と前記文書データに対応す
    る頁番号であることを特徴とする請求項1に記載の文書
    処理方法。
  6. 【請求項6】 前記記憶工程は、前記抽出された文字列
    の先頭から所定数の文字と先頭マークと前記先頭文字が
    含まれる文書データの位置情報とを関連づけて単語デー
    タベースとして記憶し、 前記先頭から所定数の文字が含まれる文書データの位置
    情報を複数有することを特徴とする請求項1に記載の文
    書処理方法。
  7. 【請求項7】 前記所定数は1であること特徴とする請
    求項1に記載の文書処理方法。
  8. 【請求項8】 前記所定数は2であることを特徴とする
    請求項1に記載の文書処理方法。
  9. 【請求項9】 所定の文字列を前記文字列の先頭から所
    定数の文字に分解する分解工程と、 前記分解工程で生成された前記文字列の先頭から所定数
    の文字と一致する文字を、所定の文書データに含まれる
    同じ文字種が連続する文字列の先頭から所定数の文字と
    前記先頭から所定数の文字に付随する先頭マークと前記
    先頭文字が含まれる文書データの位置情報とを関連づけ
    た情報を有する単語データベースから、前記先頭マーク
    が付随する文字の中から検索する検索工程とを備えるこ
    とを特徴とする文書処理方法。
  10. 【請求項10】 前記所定数は1であることを特徴とす
    る請求項9に記載の文書処理方法。
  11. 【請求項11】 前記所定数は2であることを特徴とす
    る請求項9に記載の文書処理方法。
  12. 【請求項12】 前記文字種はカタカナであることを特
    徴とする請求項9に記載の文書処理方法。
  13. 【請求項13】 前記文字種は英文字であることを特徴
    とする請求項9に記載の文書処理方法。
  14. 【請求項14】 前記文書データの位置情報は、前記文
    書データに対応する頁番号であることを特徴とする請求
    項9に記載の文書処理方法。
  15. 【請求項15】 前記文書データの位置情報は、前記文
    書データが含まれる文書名情報と前記文書データに対応
    する頁番号であることを特徴とする請求項9に記載の文
    書処理方法。
  16. 【請求項16】 前記所定数は、前記同じ文字種が連続
    する文字列の最後までの文字数を含み、前記最後までの
    文字数以下の数であることを特徴とする請求項1または
    9に記載の文書処理方法。
  17. 【請求項17】 同じ文字種が連続する文字列の先頭か
    ら所定数の文字を所定の文書データから抽出する抽出工
    程と、 前記抽出された文字列の先頭から所定数の文字と先頭マ
    ークと前記所定数の文字が含まれる文書データの位置情
    報とを関連づけて単語データベースとして記憶する記憶
    工程とを備え、 前記単語データベースを用いて文書検索を行うことを特
    徴とする文書処理方法。
  18. 【請求項18】 前記文字種はカタカナであることを特
    徴とする請求項17に記載の文書処理方法。
  19. 【請求項19】 前記文字種は英文字であることを特徴
    とする請求項17に記載の文書処理方法。
  20. 【請求項20】 前記文書データの位置情報は、前記文
    書データに対応する頁番号であることを特徴とする請求
    項17に記載の文書処理方法。
  21. 【請求項21】 前記文書データの位置情報は、前記文
    書データが含まれる文書名情報と前記文書データに対応
    する頁番号であることを特徴とする請求項17に記載の
    文書処理方法。
  22. 【請求項22】 前記記憶工程は、 前記抽出された文字列の先頭から所定数の文字と先頭マ
    ークと前記先頭文字が含まれる文書データの位置情報と
    を関連づけて単語データベースとして記憶し、 前記先頭から所定数の文字が含まれる文書データの位置
    情報を複数有することを特徴とする請求項17に記載の
    文書処理方法。
  23. 【請求項23】 前記所定数は1であること特徴とする
    請求項17に記載の文書処理方法。
  24. 【請求項24】 前記所定数は2であることを特徴とす
    る請求項17に記載の文書処理方法。
  25. 【請求項25】 所定の文字列を前記文字列の先頭から
    所定数の文字に分解する分解手段と、 前記分解手段で生成された前記文字列の先頭から所定数
    の文字と一致する文字を、所定の文書データに含まれる
    同じ文字種が連続する文字列の先頭から所定数の文字と
    前記先頭から所定数の文字に付随する先頭マークと前記
    先頭文字が含まれる文書データの位置情報とを関連づけ
    た情報を有する単語データベースから、前記先頭マーク
    が付随する文字の中から検索する検索手段とを備えるこ
    とを特徴とする文書処理装置。
  26. 【請求項26】 前記所定数は1であることを特徴とす
    る請求項25に記載の文書処理装置。
  27. 【請求項27】 前記所定数は2であることを特徴とす
    る請求項25に記載の文書処理装置。
  28. 【請求項28】 前記文字種はカタカナであることを特
    徴とする請求項25に記載の文書処理装置。
  29. 【請求項29】 前記文字種は英文字であることを特徴
    とする請求項25に記載の文書処理装置。
  30. 【請求項30】 前記文書データの位置情報は、前記文
    書データに対応する頁番号であることを特徴とする請求
    項25に記載の文書処理装置。
  31. 【請求項31】 前記文書データの位置情報は、前記文
    書データが含まれる文書名情報と前記文書データに対応
    する頁番号であることを特徴とする請求項25に記載の
    文書処理装置。
  32. 【請求項32】 前記所定数は、前記同じ文字種が連続
    する文字列の最後までの文字数を含み、前記最後までの
    文字数以下の数であることを特徴とする請求項25に記
    載の文書処理装置。
JP9358291A 1997-12-25 1997-12-25 文書処理方法とその装置 Withdrawn JPH11191107A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9358291A JPH11191107A (ja) 1997-12-25 1997-12-25 文書処理方法とその装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9358291A JPH11191107A (ja) 1997-12-25 1997-12-25 文書処理方法とその装置

Publications (1)

Publication Number Publication Date
JPH11191107A true JPH11191107A (ja) 1999-07-13

Family

ID=18458538

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9358291A Withdrawn JPH11191107A (ja) 1997-12-25 1997-12-25 文書処理方法とその装置

Country Status (1)

Country Link
JP (1) JPH11191107A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006209399A (ja) * 2005-01-27 2006-08-10 Fuji Xerox Co Ltd 文書検索装置および方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006209399A (ja) * 2005-01-27 2006-08-10 Fuji Xerox Co Ltd 文書検索装置および方法
JP4682627B2 (ja) * 2005-01-27 2011-05-11 富士ゼロックス株式会社 文書検索装置および方法

Similar Documents

Publication Publication Date Title
US5469354A (en) Document data processing method and apparatus for document retrieval
JP2726568B2 (ja) 文字認識方法及び装置
JP3696745B2 (ja) 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
US5745745A (en) Text search method and apparatus for structured documents
US5748953A (en) Document search method wherein stored documents and search queries comprise segmented text data of spaced, nonconsecutive text elements and words segmented by predetermined symbols
JPS6244878A (ja) 文書フアイリングシステム
JP3220865B2 (ja) フルテキストサーチ方法
JPH07152774A (ja) 文書検索方法および装置
JP3784060B2 (ja) データベース検索システム、その検索方法及びプログラム
JP3303881B2 (ja) 文書検索方法および装置
JPH05225238A (ja) データベース検索システム
JPH08147311A (ja) 構造化文書検索方法及び装置
JP3727995B2 (ja) 文書処理方法及び装置
JP2943791B2 (ja) 言語識別装置,言語識別方法および言語識別のプログラムを記録した記録媒体
JPH11191107A (ja) 文書処理方法とその装置
JP2002132789A (ja) 文書検索方法
JP2000231560A (ja) 文書自動分類方式
JPH07287716A (ja) 辞書検索装置
JP3325677B2 (ja) 文書検索装置
JP2560656B2 (ja) 文書ファイリングシステム
JP3693734B2 (ja) 情報検索装置およびその情報検索方法
JPH0991305A (ja) 情報処理方法及び装置
JPH10283368A (ja) 情報処理装置及びその方法
EP0501416A2 (en) Document data processing method and apparatus for document retrieval
JPH07296005A (ja) 日本語テキスト登録・検索装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050301