JPH08101848A - 文書処理装置及び検索方法 - Google Patents

文書処理装置及び検索方法

Info

Publication number
JPH08101848A
JPH08101848A JP6237799A JP23779994A JPH08101848A JP H08101848 A JPH08101848 A JP H08101848A JP 6237799 A JP6237799 A JP 6237799A JP 23779994 A JP23779994 A JP 23779994A JP H08101848 A JPH08101848 A JP H08101848A
Authority
JP
Japan
Prior art keywords
character
index
document
difference value
search word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6237799A
Other languages
English (en)
Inventor
Shiro Ito
史朗 伊藤
Makoto Hirota
誠 廣田
Shogo Shibata
昇吾 柴田
Takanari Ueda
隆也 上田
Yuji Ikeda
裕治 池田
Minoru Fujita
稔 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP6237799A priority Critical patent/JPH08101848A/ja
Publication of JPH08101848A publication Critical patent/JPH08101848A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】インデックス方式による文書検索を小容量のメ
モリで実現することが可能な文書処理装置及びその検索
方法を提供することを目的とする。 【構成】対象文書保持部101は検索の対象となる文書
ファイルを保持する。文字位置差分インデックス作成部
102は、対象文書中の各文字をキーとして、各キー毎
の出現位置を差分値で表す文字位置差分インデックスを
作成し、文字位置差分インデックス保持部103に保持
する。ここで、各差分値は、差分値の大きさに応じてそ
のバイト数を変化させている。文字位置差分インデック
ス検索部105は、検索語保持部104に保持された検
索語と同じ位置関係を有する位置を文字位置差分インデ
ックスを用いて検索する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書の全文を用いて検
索を行なう全文検索機能を備えた文書処理装置及びその
検索方法に関し、特に全文検索の高速化を図る文書イン
デックス方式を用いた文書処理装置及びその検索方法に
関するものである。
【0002】
【従来の技術】従来、テキストの全文検索を高速化する
インデックス方式がいくつか考案されている。この種の
インデックス方式に一つに、文書中に出現する文字およ
び文字列の文字位置情報を保持した文字位置インデック
ス方式がある(菊池:「日本語文書用高速全文検索の一
手法」、電子情報学会論文誌D−IVol.J75-D-INo.9 p
p.836-846、特開平4−205560参照)。
【0003】このインデックス方式では、文書中に出現
する文字および文字列の位置を文字ごとに1ずつ増加す
る整数で表わす。その上で、各文字および文字列ごと
に、当該文字および文字列をキー(見出し)として、当
該文字および文字列が現れる全ての位置を列挙したイン
デックスを用いる。このインデックス方式において、あ
る文字列(検索文字列と称する)を含む文書を検索する
場合には、まずこの検索文字列をインデックスのキーと
なっている文字および文字列に分解する。そして、分解
した文字および文字列の位置関係が、インデックス中に
おける該当文字及び文字列の位置関係と一致する組合せ
を探すことにより検索が可能になる。尚、一般に文字列
をキーとする場合は、予め連続する複数文字で構成され
る文字列をキーとして登録しておく。
【0004】例えば、図6に示す文書に対して、図13
に示されるようなインデックスを作成する。図13の各
行は、それぞれの文字をキーとして、当該文字が現れる
位置を列挙したものである。例えば、文字「高」は、位
置0,…,0x02074c5f,0x02a74c6
5,…に現れている。ここで、検索語「高速」を検索す
る場合は、「高」の位置と「速」の位置が1異なる組合
せを探せばよい。図13のインデックスでは、0x02
074c5fと0x02074c60,0x02a74
c65と0x02a74c66の組が検索される。
【0005】
【発明が解決しようとする課題】しかしながら、上記従
来の方式では、文書中における文字および文字列の位置
を例えば4バイトの整数による絶対位置で表わしたイン
デックスを用いるため、大きな文書に対するインデック
スでは、そのインデックスのサイズが元の文書の2倍程
度になってしまい、検索処理において大きな記憶容量が
必要となるという問題があった。
【0006】本発明は上記の問題点に鑑みてなされたも
のであり、インデックス方式による文書検索を小さい記
憶容量で実現することが可能な文書処理装置及びその検
索方法を提供することを目的とする。
【0007】
【課題を解決するための手段】及び
【作用】上記の目的を達成するための本発明による文書
処理装置は以下の構成を備えている。即ち、文書データ
の検索を行なう文書処理装置であって、検索の対象とな
る文書中の各文字について、各文字の出現位置より各文
字毎の相対位置を表す差分値を獲得する獲得手段と、前
記獲得手段で獲得された差分値を、各文字に対応づけ
て、各差分値の大きさに基づいたデータ長で登録したイ
ンデックスを形成する形成手段と、検索語を構成する文
字で前記インデックスを検索し、該検索語の各文字の位
置関係と同じ位置関係を有して文字が存在する位置を抽
出する抽出手段とを備える。
【0008】上記の構成によれば、検索の対象である文
書中の各文字の出現位置を示すインデックスとして、各
文字毎にその相対位置を表す差分値が登録されたインデ
ックスが形成される。文字検索に際しては、各検索語を
構成する文字の位置をこのインデックスより獲得する。
そして、検索語における文字位置と同じ位置関係を有す
る文字の存する位置が検索該当箇所として抽出される。
ここで、インデックスに登録される差分値のデータ長は
可変長であり、各差分値の大きさに基づいて決定され
る。一般に、「文書データにおいて出現頻度の高い文字
はその相対位置を示す差分値が小さくなる」こと、又、
「ある文字が出現すると、その近辺に連続して同一文字
が出現する率が高い」ことが統計的に得られている。従
って、可変長のデータ長で位置情報である差分値を登録
することにより、検索に用いられるインデックスに必要
な記憶容量を低減することが可能となる。
【0009】又、上記の目的を達成する本発明の他の構
成の文書処理装置は、文書データの検索を行なうための
文字位置に基づく情報を登録したインデックスを生成す
る文書処理装置であって、検索の対象となる文書中の各
文字について、各文字の出現位置より各文字毎の相対位
置を表す差分値を獲得する獲得手段と、前記獲得手段で
獲得された差分値を、各文字に対応づけ、各差分値の大
きさに基づいたデータ長で登録したインデックスを形成
する形成手段と、前記形成手段で形成したインデックス
を記憶媒体に保持する保持手段とを備える。
【0010】上記の構成によれば、例えばフロッピーデ
ィスク等の可搬記憶媒体に、各文字の相対位置を示す差
分値を、可変長データで登録したインデックスを格納す
ることが可能となる。
【0011】又、上記の目的を達成するための本発明の
他の構成の文書処理装置は、文書データの検索を行う文
書処理装置であって、検索の対象となる文書において各
文字の出現位置を各文字毎の相対位置を示す差分値で表
わし、各文字と差分値を対応づけ、各差分値の大きさに
基づいたデータ長で登録したインデックスを保持する保
持手段と、検索語を構成する文字で前記インデックスを
検索し、該検索語の各文字の位置関係と同じ位置関係を
有して文字が存在する位置を抽出する抽出手段とを備え
る。
【0012】上記の構成によれば、各文字の相対位置を
表す差分値が各文字に対応づけて可変長データで登録さ
れたインデックスを参照して、検索語を構成する各文字
の位置を獲得する。そして検索語を構成する文字の位置
と同じ位置関係を有して文字が存在する位置を検索該当
箇所として抽出する。
【0013】
【実施例】以下、添付の図面を参照して本発明の実施例
を説明する。
【0014】図1は本実施例の文書処理装置の概略の構
成を表すブロック図である。同図において、1はCPU
であり、ROM2に格納された制御プログラムを実行す
ることにより、本装置における各種の制御を実現する。
2はROMであり、CPU1により実行される制御プロ
グラムを格納する。尚、ROM2には、後述のフローチ
ャートで示される制御を実現するための制御プログラム
も格納されている。
【0015】3はRAMであり、CPU1が各種制御プ
ログラムを実行するに際して、データ等を一時的に格納
する作業領域を提供する。4はCRTであり、CPU1
の制御により各種の表示を行う。5はキーボードであ
り、オペレータにより検索語等の各種の情報入力が行わ
れる。6は外部記憶装置であり、検索の対象となる文書
ファイルや、この文書ファイルより得られる文字位置差
分インデックス(後述する)を格納する。尚、外部記憶
装置6としては、例えばハードディスク装置や、フロッ
ピーディスク装置が挙げられる。7はバスであり、上記
の各構成を接続し、相互にデータの授受を可能とする。
【0016】図2は、本実施例の文書処理装置の機能構
成を示すブロック図である。同図において、101は対
象文書保持部であり、検索の対象となる文書ファイルを
外部記憶装置6に対象文書として保持する。102は文
字位置差分インデックス作成部であり、対象文書保持部
101によって保持されている文書中の文字をキーとし
て、各キー毎の出現位置を差分値で表す文字位置差分イ
ンデックスを作成する。ここで、各差分値は、差分値の
大きさに応じてそのバイト数を変化させている。即ち、
差分値の大きさにより、そのバイト長を1バイト長、2
バイト長、3バイト長と変化させるもので、詳細につい
ては後述する。
【0017】103は文字位置差分インデックス保持部
であり、文字位置差分インデックス作成部102により
作成された文字位置差分インデックスを外部記憶装置6
に保持する。104は検索語保持部であり、キーボード
5より入力された検索語をRAM3に保持する。105
は文字位置差分インデックス検索部であり、文字位置差
分インデックス保持部103によって保持された文字位
置差分インデックスを用いて、対象文書保持部101に
て保持された文書中に検索語保持部104にて保持され
た検索語が現れる位置を検索する。106は文字位置差
分インデックス検索部105により検索された検索結果
を保持する検索結果保持部である。
【0018】以上のような構成を備えた本実施例の文書
処理装置における検索処理動作についてフローチャート
を参照して説明する。
【0019】まず、図3を参照して文字位置差分インデ
ックス作成部102による文字位置差分インデックスの
作成処理を説明する。図3は、文字位置差分インデック
スの作成処理を表すフローチャートである。尚、以下の
説明では、既に対象文書保持部101によって図6に示
される如き文書ファイルが記憶装置6に格納されてお
り、対象文書として指定されているものとする。
【0020】ステップS201では、文字位置テーブル
の初期化を行なう。文字位置テーブルは、各文字につい
て、それまでの処理の中で最後に現れた位置を保持する
テーブルであり、出現し得る全ての文字(JISで規定
された全てのコード)について予め領域が確保されてい
る。本例では、各文字について4バイトの領域が確保さ
れ、RAM3に保持される。
【0021】ステップS201では、この文字位置テー
ブルの値が全て0に初期化される。この状態の文字位置
テーブルを図7に示す。ステップS202では、カウン
タの初期化を行なう。カウンタは、処理の対象となって
いる文字の現在位置を示すもので、これを0に初期化す
る。そしてステップS203に移る。
【0022】ステップS203では、検索対象の文書に
おいてカウンタが示す位置に文字が存在するか否かを判
定して、存在する場合はステップS204に移る。一
方、文字が残っていない場合は、文字位置差分インデッ
クス作成処理を終了する。
【0023】ステップS204では、カウンタが示す位
置にある文字を文書より取り出す。そしてステップS2
05に移る。ステップS205では、ステップS204
で取り出した文字の文字位置の差分を計算する。差分
は、現在のカウンタの値から、文字位置テーブルに格納
された当該文字の最終出現位置の値を減算することで求
める。例えば、カウンタの値が0x02a74c65の
とき、対象となっている文字が「高」であり、文字位置
テーブルの状態が図8であるとする。このとき、差分は
0x06になる。
【0024】続いて、ステップS206では、ステップ
S205で求めた差分をインデックスに書き出す。ま
ず、4バイトの整数で表わした差分を最下位より7ビッ
トずつに区切り、それぞれ最上位に0を1ビット付加し
て5バイトデータとする。ここで、1であるビットが少
なくとも1個以上あるバイトで最上位のバイトから下の
バイトだけをインデックスに書き出す。書き出すとき
に、最下位のバイト以外は、最上位ビットを1にして書
き出す。
【0025】例えば、差分が0x06のときは、データ
は0x06となり、最下位1バイトが書き出される。
【0026】又、例えば、差分が0x331のときは、
データは0x8631となり、2バイトが書き出され
る。即ち、0x331は、「……0000001100
110001」であり、これを下位ビットより7ビット
ずつに区切って、夫々のバイトの最上位に「0」を付加
すると、「……{0}0000110{0}01100
01」となる。ここで、{}で挟まれたビットが付加さ
れたビットである。そして、最下位バイト以外の最上位
ビットを1として格納するので、「……{1}0000
110{0}0110001」となり、0x8631が
格納されることになる。
【0027】次に、ステップS207では、文字位置テ
ーブル中のステップS204で取り出した文字に対応す
る値を現在のカウンタの値に更新する。そしてステップ
S208に移る。ステップS208では、カウンタの値
を1増やす。そしてステップS203に戻り、次の文字
に対する処理を行う。
【0028】以上の文字位置差分インデックステーブル
の作成の様子を図9に示す。図9は本実施例における文
字位置差分インデックスの生成手順を表す図である。同
図において、文書ファイル200中の現在対象となって
いる文字210について、その文字コードから文字位置
テーブル201を検索し、文字210の最終出現位置を
獲得する。そして、文字210の絶対位置と、文字20
1の最終出現位置との差分を演算して、その結果を文字
位置差分インデックステーブル202に格納する。その
後、文字位置テーブル201の文字210に該当する部
分の最終出現位置が、文字210の絶対位置で更新され
る。尚、文字テーブル201は、処理の始めに全て0に
初期化されている。
【0029】次に、図4を参照して文字位置差分インデ
ックス検索処理を説明する。図4は、文字位置差分イン
デックス検索部105による検索処理の手順を表すフロ
ーチャートである。まず、ステップS301では、検索
語保持部104に保持されている検索語を文字ごとに分
解する。そしてステップS302に移る。例えば、検索
語が「高速検索」である場合は、検索語を「高」,
「速」,「検」,「索」に分ける。次に、ステップS3
02では、ステップS301で分解した文字の先頭の文
字について、文字位置差分インデックスより文字位置の
読み込みを行なう。ここでは、文字位置差分インデック
スに格納されたデータより、当該文字の各文字位置全て
を第1の配列に読み込む。ここで、文字位置差分インデ
ックスには、相対的な位置を表すデータが可変バイト長
で格納されているので、これに対応した読み込みを行う
とともに、相対位置を絶対位置に変換する必要である。
この読み込み及び絶対位置への変換の手順は、図5のフ
ローチャートを用いて後述する。
【0030】ステップS303では、ステップS301
で分解した文字で、まだ処理を行っていない文字が残っ
ているか否かを調べる。残っている場合は、ステップS
304に移る。残っていない場合は、ステップS306
に移る。
【0031】ステップS304では、残っている文字の
うちの1文字について、インデックスの読み込みを行な
う。上述のステップS302と同様の手順で当該文字の
文字位置(絶対位置)全てを第2の配列に読み込む。
【0032】次に、ステップS305では、第1の配列
と第2の配列から検索語に該当する可能性のある位置を
抽出する。即ち、検索語の先頭文字とステップS304
で対象にした文字との文字位置の差分だけ異なる値の組
合せを探し、その組合せに該当する第1の配列の値を全
て新たな第1の配列の値とする。例えば、「高速検索」
という検索語において、ステップS304で対象とした
文字が「速」であれば、先頭の文字「高」との文字位置
の差は1である。従って、第1の配列と第2の配列にお
いて、文字位置の差が1である組み合わせが抽出され
る。この時点で「高速」という文字列の位置が検索され
たことになる。同様に「検」という文字が対象であれ
ば、先頭文字との位置の差は2であり、第1の配列と第
2の配列において、文字位置の差が2である組み合わせ
が抽出され、この時点で、「高速検」という文字列が抽
出されたこととなる。
【0033】以上のようにして、全検索語の文字につい
て処理を行うことにより、対象文書中における検索語文
字列の存在位置が第1の配列に格納されることになる。
全検索語について上述の処理を終了すると、ステップS
306へ進む。ステップS306では、第1の配列の値
を対象文書中の検索語の先頭文字の位置として、検索結
果保持部106に保持する。そして文字位置差分インデ
ックス検索処理を終了する。
【0034】次に、文字位置差分インデックスより、あ
る文字の絶対位置を獲得してこれを配列データとして加
えていく手順(上述のステップS302,S304にお
ける処理)を説明する。図5は、文字位置差分インデッ
クスより文字の絶対位置を獲得して第1もしくは第2の
配列を生成する手順を説明するフローチャートである。
【0035】まずステップS401において、Zに0を
代入する。Zには、以後の処理で、各文字の絶対位置が
格納されることになる。ステップS402では、対象文
字について未処理のデータが残っているか否かを判断す
る。ここで、未処理のデータがあれば以降のステップS
403〜ステップS409が実行される。一方、ステッ
プS402で処理すべきデータが残っていなければ本処
理を終了する。
【0036】ステップS403では、Xに0を代入す
る。そして、ステップS404で文字位置差分インデッ
クスより1バイトを読み込み、これをYに代入する。
【0037】ステップS405では、Yに代入された1
バイトデータの最上位ビットが1か否かを判定する。こ
こで、最上位ビットが0であれば、当該バイトで一つの
相対位置データが終了することを意味するので、ステッ
プS408へ進む。一方、最上位ビットが1であれば、
当該相対位置データに次の1バイトデータが含まれるこ
とを示しているので、ステップS406へ進む。
【0038】ステップS406では、Yに格納された1
バイトデータの最上位ビットを0にする。そして、ステ
ップS407で、(X+Y)×128を算出し、その結
果をXに代入する。その後ステップS404へ戻る。
【0039】例えば、0x8631の場合(上述したよ
うに、このデータは0x331という差分値を示す)
は、まず、Yに0x86が格納される。ここで、Yの最
上位ビットが1であるので、これを0とする。ここで、
Yの値は0x06となり、この時点でXの値は0であ
る。この状態で、X+Yの値を128倍すると、(X+
Y)×128=0x06×128=0x300となり、
Xに0x300が代入される(ステップS405〜ステ
ップS407)。次に、Yへ取り込まれる値は0x31
であり、Yの最上位ビットは0であるのでステップS4
08へ進む。この時点で、X+Yは0x300+0x3
1=0x331であり、相対位置を表すデータに変換さ
れていることがわかる。
【0040】ステップS408では、X+Y+Zの計算
結果をZに代入する。ここで、X+Yは相対位置を表わ
し、Zはその時点での最終の絶対位置を表すので、X+
YにZを加算することで、新たな絶対位置が得られるこ
ととなる。
【0041】図13に示した従来の絶対値を用いたイン
デックステーブルに対応する本実施例によるインデック
ステーブルの部分を図10に示す。従来例では、4バイ
トを使用していた部分に対応する部分が、1バイトや2
バイトになっていることがわかる。
【0042】以上説明したような処理手順を実現するこ
とにより、各文字位置を差分で表すとともに、その差分
の値を各差分値の大小に応じたバイト長で格納すること
が可能となる。
【0043】文書では、一般に、文字および文字列によ
りその出現頻度が異なる。この中で、出現頻度が高い文
字および文字列は、出現頻度が低い文字および文字列に
比べて、インデックス中においてその文字位置情報がよ
り多く保持されることになる。ところで、出現頻度の高
い文字及び文字列は、同じ文字および文字列間での文字
位置の差分が小さい。従って、従来の絶対位置を登録す
るインデックステーブルに比して次のような利点を得る
ことができる。即ち、インデックステーブルとして差分
値を登録することと、差分の値が小さい場合に少ない記
憶容量で差分を記憶するようにすることで(実施例では
バイト長を可変とすることで達成している)、インデッ
クスの多くの部分を占める出現頻度の高い文字位置情報
について必要とする記憶容量を削減することができる。
【0044】また、文書では、一般にある語が出現した
場合、同じ語がそれに近い位置で続いて出現することが
多いことが統計上わかっている。その結果、語の構成す
る文字および文字列の差分は、小さい値が連続し、大き
い値が1回現れるという場合が多くなる。このため、上
述同様に差分の値が小さい場合に少ない記憶容量で差分
を記憶するようにすることで、必要とする記憶容量を低
減することができる。
【0045】以上のような理由により、インデックステ
ーブルに書き出されるデータの平均的な大きさは、全て
の位置データを4バイトの整数で書き出す場合に比べて
小さくなる。
【0046】以上の様に、本実施例によれば、文書に現
れる文字および文字列の分布の特徴を生かしてインデッ
クステーブルの容量を削減しているので、検索に用いる
インデックステーブルの大きさを低減できるという効果
がある。
【0047】尚、上述の検索時において作成される文字
位置テーブルの行数は数千であるので、1行に4バイト
を消費しても合計数10KB程度であり、メモリの消費
に与える影響は本実施例のインデックステーブルで節約
される消費量に比して極めて微量なものである。
【0048】又、上記実施例の検索においては、絶対位
置によるインデックステーブルを用いた場合と比べて、
差分の計算や、差分値より絶対値への復元等の処理が加
わることとなる。しかしながら、これらの処理に必要と
される時間は、検索処理全体からみれば無視し得る程度
である。従って、本実施例は、処理速度を保ちつつイン
デックステーブルによって消費される記憶容量が低減さ
れるものである。
【0049】尚、上記実施例では、文字位置差分インデ
ックスの作成と文字位置差分インデックスを用いた検索
を同一装置で行なう場合について説明したが、これに限
定されるものではない。例えば、文字インデックスの作
成だけを行なう装置であってもよい。図11は、この場
合の基本的な機能構成を示すブロック図である。文字位
置差分インデックス保持部1003に保持された文字位
置差分インデックスは、通信回線を通したり、可搬記録
媒体によって他の装置に移されて検索が行われる。
【0050】又、上述のようにして提供された文字位置
差分インデックスを用いて検索を行なう装置であっても
よい。図12は、この場合の基本的な機能構成を示すブ
ロック図である。文字位置差分インデックス保持部11
01には、上記実施例の手順で作成された文字位置差分
インデックスが、通信回線或は可搬記録媒体等を介して
提供され、保持される。
【0051】又、上記実施例では、差分値の大きさに応
じて差分値を保持するための記憶容量を変化させる方法
として、各バイトのうち最上位ビットを継続を示すビッ
ト、残り7ビットを差分値を示すビットとして用いる方
法について説明したが、これに限定されるものではな
く、他の方法でもよい。例えば、一つの差分値を表わす
ブロックの先頭2ビットで、ブロックのバイト数を示
し、残りの部分で差分値を示す方法などがある。
【0052】又、上記実施例では、インデックスのキー
として文字を用いる場合について説明したが、これに限
定されるものではなく、任意の文字列を用いてもよい。
【0053】又、上記実施例では、インデックスの読み
込みを、各文字毎に一括して行なう場合を説明したが、
これに限定されるものでなく、図4のステップS305
において示される位置計算を行いながら順次読み込むよ
うにしてもよい。
【0054】又、上記実施例では、インデックスの読み
込みを1文字ごとに行なって位置計算を行う(ステップ
S304、ステップS305)場合について説明した
が、これに限定されるものでなく、位置計算の前に、検
索語を構成する全ての文字に対してインデックスを読み
込むようにしてもよい。
【0055】又、上記実施例では、インデックステーブ
ルを用いた検索において、検索語の先頭文字から順次処
理を行なう場合について説明したが、これに限定される
ものではなく、検索語の任意の文字から検索を行なって
もよい。
【0056】又、上記実施例では、対象文書が一つであ
る場合について説明したが、これに限定されるものでな
く、複数あってもよい。この場合、複数の文書にまたが
って一意に定まる文書位置を付与すればよい。ここで、
複数の文書間で一意に定まる文字位置とは、例えば文書
Aの文字数が1000未満である場合、文書Aの各文字
に対しては文字位置を1から順に付与し、文書Bの各文
字に対しては文字位置を1001から順に付与していく
ことで実現できる。
【0057】更に、上記実施例では文字をキーとしたイ
ンデックステーブルを用いた場合を説明したが、文字列
をキーとしたインデックステーブルを用いた検索処理に
も適用できることは明らかである。
【0058】尚、本発明は、複数の機器から構成される
システムに適用しても1つの機器からなる装置に適用し
ても良い。また、本発明はシステム或いは装置に本発明
により規定される処理を実行させるプログラムを供給す
ることによって達成される場合にも適用できることはい
うまでもない。
【0059】
【発明の効果】以上説明したように、本発明によれば、
インデックス方式による文書検索を小さい記憶容量で実
現することが可能となる。
【0060】
【図面の簡単な説明】
【図1】本実施例の文書処理装置の概略の構成を表すブ
ロック図である。
【図2】本実施例の文書処理装置の機能構成を示すブロ
ック図である。
【図3】文字位置差分インデックスの作成処理を表すフ
ローチャートである。
【図4】文字位置差分インデックス検索部105による
検索処理の手順を表すフローチャートである。
【図5】文字位置差分インデックスより文字の絶対位置
を獲得して配列を生成する手順を説明するフローチャー
トである。
【図6】文書ファイルの一例を示す図である。
【図7】初期化された文字位置テーブルを表す図であ
る。
【図8】文字位置差分インデックステーブルを作成中の
文字位置テーブルの状態の一例を表す図である。
【図9】本実施例における文字位置差分インデックスの
生成手順を表す図である。
【図10】本実施例による文字位置差分インデックステ
ーブルの一例を説明する図である。
【図11】本実施例の変形例の基本的な機能構成を示す
ブロック図である。
【図12】本実施例の他の変形例の基本的な機能構成を
示すブロック図である。
【図13】絶対値を用いたインデックステーブルの一例
を説明する図である。
【符号の説明】
1 CPU 2 ROM 3 RAM 4 CRT 5 キーボード 6 外部記憶装置 7 バス 101 対象文書保持部 102 文字位置差分インデックス作成部 103 文字位置差分インデックス保持部 104 検索語保持部 105 文字位置差分インデックス検索部 106 検索結果保持部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 上田 隆也 東京都大田区下丸子3丁目30番2号キヤノ ン株式会社内 (72)発明者 池田 裕治 東京都大田区下丸子3丁目30番2号キヤノ ン株式会社内 (72)発明者 藤田 稔 東京都大田区下丸子3丁目30番2号キヤノ ン株式会社内

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 文書データの検索を行なう文書処理装置
    であって、 検索の対象となる文書中の各文字について、各文字の出
    現位置より各文字毎の相対位置を表す差分値を獲得する
    獲得手段と、 前記獲得手段で獲得された差分値を、各文字に対応づけ
    て、各差分値の大きさに基づいたデータ長で登録したイ
    ンデックスを形成する形成手段と、 検索語を構成する文字で前記インデックスを検索し、該
    検索語の各文字の位置関係と同じ位置関係を有して文字
    が存在する位置を抽出する抽出手段とを備えることを特
    徴とする文書処理装置。
  2. 【請求項2】 前記形成手段は、前記獲得手段で獲得さ
    れた差分値を、各文字に対応づけて、各差分値の大きさ
    に基づいたバイト長で登録するインデックスを形成する
    ことを特徴とする請求項1に記載の文書処理装置。
  3. 【請求項3】 前記インデックスにおいて、バイト中の
    所定のビットを用いてバイトの継続を表すことを特徴と
    する請求項2に記載の文書処理装置。
  4. 【請求項4】 前記抽出手段は、 前記インデックスより検索語を構成する文字に対する差
    分値を獲得してこれを対象文書中の絶対位置に変換する
    変換手段を有し、 前記変換手段で得られた検索語を構成する文字の絶対位
    置より、文字の位置関係が前記検索語と同じ位置関係を
    有している絶対位置を抽出することを特徴とする請求項
    1に記載の文書処理装置。
  5. 【請求項5】 文書データの検索を行なうための文字位
    置に基づく情報を登録したインデックスを生成する文書
    処理装置であって、 検索の対象となる文書中の各文字について、各文字の出
    現位置より各文字毎の相対位置を表す差分値を獲得する
    獲得手段と、 前記獲得手段で獲得された差分値を、各文字に対応づ
    け、各差分値の大きさに基づいたデータ長で登録したイ
    ンデックスを形成する形成手段と、 前記形成手段で形成したインデックスを記憶媒体に保持
    する保持手段とを備えることを特徴とする文書処理装
    置。
  6. 【請求項6】 文書データの検索を行う文書処理装置で
    あって、 検索の対象となる文書において各文字の出現位置を各文
    字毎の相対位置を示す差分値で表わし、各文字と差分値
    を対応づけ、各差分値の大きさに基づいたデータ長で登
    録したインデックスを保持する保持手段と、 検索語を構成する文字で前記インデックスを検索し、該
    検索語の各文字の位置関係と同じ位置関係を有して文字
    が存在する位置を抽出する抽出手段とを備えることを特
    徴とする文書処理装置。
  7. 【請求項7】 文書データの検索を行なう検索方法であ
    って、 検索の対象となる文書中の各文字について、各文字の出
    現位置より各文字毎の相対位置を表す差分値を獲得する
    獲得工程と、 前記獲得工程で獲得された差分値を、各文字に対応づけ
    て、各差分値の大きさに基づいたデータ長で登録したイ
    ンデックスを形成する形成工程と、 検索語を構成する文字で前記インデックスを検索し、該
    検索語の各文字の位置関係と同じ位置関係を有する文字
    の存する位置を抽出する抽出工程とを備えることを特徴
    とする検索方法。
JP6237799A 1994-09-30 1994-09-30 文書処理装置及び検索方法 Pending JPH08101848A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6237799A JPH08101848A (ja) 1994-09-30 1994-09-30 文書処理装置及び検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6237799A JPH08101848A (ja) 1994-09-30 1994-09-30 文書処理装置及び検索方法

Publications (1)

Publication Number Publication Date
JPH08101848A true JPH08101848A (ja) 1996-04-16

Family

ID=17020597

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6237799A Pending JPH08101848A (ja) 1994-09-30 1994-09-30 文書処理装置及び検索方法

Country Status (1)

Country Link
JP (1) JPH08101848A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6714927B1 (en) 1999-08-17 2004-03-30 Ricoh Company, Ltd. Apparatus for retrieving documents

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04205560A (ja) * 1990-11-30 1992-07-27 Teremateiiku Kokusai Kenkyusho:Kk 情報検索処理方式および検索ファイル作成装置
JPH06180754A (ja) * 1992-12-14 1994-06-28 Tokyo Gas Co Ltd 座標データの圧縮・復元装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04205560A (ja) * 1990-11-30 1992-07-27 Teremateiiku Kokusai Kenkyusho:Kk 情報検索処理方式および検索ファイル作成装置
JPH06180754A (ja) * 1992-12-14 1994-06-28 Tokyo Gas Co Ltd 座標データの圧縮・復元装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6714927B1 (en) 1999-08-17 2004-03-30 Ricoh Company, Ltd. Apparatus for retrieving documents
US7188104B2 (en) 1999-08-17 2007-03-06 Ricoh Company, Ltd. Apparatus for retrieving documents

Similar Documents

Publication Publication Date Title
US9858282B2 (en) Information searching apparatus, information managing apparatus, information searching method, information managing method, and computer product
US8190613B2 (en) System, method and program for creating index for database
US8095526B2 (en) Efficient retrieval of variable-length character string data
US20020169763A1 (en) Method and system for expanding document retrieval information
JP3003915B2 (ja) 単語辞書検索装置
US8572062B2 (en) Indexing documents using internal index sets
JP2008083769A (ja) 文書検索装置および文書検索方法
JPH08101848A (ja) 文書処理装置及び検索方法
JPH07146880A (ja) 文書検索装置及び方法
US6357002B1 (en) Automated extraction of BIOS identification information for a computer system from any of a plurality of vendors
JP5184987B2 (ja) 索引情報作成装置、索引情報作成方法及びプログラム
JP3825829B2 (ja) 登録情報検索装置及びその方法
JP3288063B2 (ja) 可変長データの格納および参照システム
US7840583B2 (en) Search device and recording medium
JP2990312B2 (ja) データアクセス方法および装置
JP3896683B2 (ja) 使用者定義文字管理装置および記憶媒体
JPH0991305A (ja) 情報処理方法及び装置
JPH11161666A (ja) ドキュメントデータ検索方法および装置、並びにドキュメント編集装置
JP3847836B2 (ja) 文字列検索方法とその装置
JP3809238B2 (ja) 文書処理方法及びその装置
JP3972309B2 (ja) 情報変換装置及びプログラム
JPH1166076A (ja) データ派生装置及び方法、並びに、データ派生プログラムを格納した記憶媒体
JPH09212524A (ja) 全文検索方法および電子化辞書装置
JPH10307842A (ja) 情報処理装置及びその方法
JPH056397A (ja) 階層図面管理装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20030825