JPH08180066A - インデックス作成方法、文書検索方法及び文書検索装置 - Google Patents

インデックス作成方法、文書検索方法及び文書検索装置

Info

Publication number
JPH08180066A
JPH08180066A JP6322068A JP32206894A JPH08180066A JP H08180066 A JPH08180066 A JP H08180066A JP 6322068 A JP6322068 A JP 6322068A JP 32206894 A JP32206894 A JP 32206894A JP H08180066 A JPH08180066 A JP H08180066A
Authority
JP
Japan
Prior art keywords
document
word
words
searched
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6322068A
Other languages
English (en)
Inventor
Toshihiro Ozaki
敏宏 尾崎
Yukio Nakamoto
幸夫 中本
Isamu Iwai
勇 岩井
Kenichi Nogami
謙一 野上
Yasuo Tanosaki
康雄 田野崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Computer Engineering Corp
Original Assignee
Toshiba Corp
Toshiba Computer Engineering Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Computer Engineering Corp filed Critical Toshiba Corp
Priority to JP6322068A priority Critical patent/JPH08180066A/ja
Publication of JPH08180066A publication Critical patent/JPH08180066A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 検索対象文書が多くなっても効率良く該当の
文書を検索すること。 【構成】 検索インデックス作成部21は外部記憶装置
4内の被検索文書で使用されている全ての単語をID化
し、このIDを用いて前記各被検索対象文書内の単語の
出現範囲とその出現数を一覧としたAPTインデックス
224と、前記単語の各被検索対象文書中の出現位置情
報を一覧としたAPT225を作成する。処理部24の
APT検索部245はキーワード入力部242から入力
される検索キーを単語単位に分割し、これら単語の出現
回数が少ない順番に前記被検索対象文書中の前記分割し
て得た各単語だけの出現位置を一覧としたAPTを仮想
的に作成し、このAPTの最も出現回数が少ない単語を
基点にして、他の単語が前記検索キーを構成する各単語
が連続した位置にあった場合の所定の位置にあるかどう
かを順番に検索して、前記検索キーが前記文書内に存在
するか否かを検索する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、データベース等に登録
された文書をキーワードに基づいて目的の文書を検索す
るためのインデックスの作成方法,このインデックス作
成方法により作成されたインデックスを用いた文書検索
方法及びこの検索方法を用いた文書検索装置に関する。
【0002】
【従来の技術】従来からデータベース等に登録された大
量の文書から必要な文書を検索する文書検索装置では、
入力された検索キーワード(検索キー)を含む文書を前
記データベースに登録された文書(テキストデータ)の
全てから検索することにより、該当する文書を特定する
フルテキスト検索方法を採っているものがある。
【0003】この方法で用いられる前記検索キーを含む
文書を検索する方法としては、文書の先頭から前記検索
キーと合致する文字列の有無を調査しながら検索を行う
第1の検索方法と、辞書の利用、若しくは規則に従って
検索対象の文書から単語を抽出し、これら抽出した単語
の有無を検索対象文書に対してインデックス化し、この
インデックスを用いて前記検索キーを含む文書を検索す
る第2の検索方法がある。更に、この第2の検索方法に
加え、前記抽出した単語を識別記号(ID)に置換し、
検索対象文書をこれら単語IDの並びに置き換えてイン
デックス化し、このインデックスを用いて前記検索キー
を含む文書を検索する第3の検索方法がある。
【0004】しかし、上記第1の検索方法では、検索対
象の文書に検索キーが含まれていないことを確認するた
めには文書の最後まで検査キーと合致する文字列の有無
を調査しなければならず、検索対象文書が多くなればな
るほど、検索効率が悪化するという欠点があった。
【0005】第2の検索方法では、上記欠点が回避さ
れ、特に入力された検索キーが1つの単語である場合に
は該当文書の特定を効率良く行うことが可能であるが、
複数の単語から成る検索キーの場合には、各単語の文書
内の存在の有無は分かるが、単語の並びまでは調査する
手段がないため、前記各単語が連続して並んで構成され
る検索キーを含んだ文書だけを検索することができず、
検索結果として複数の単語から成る検索キーと完全に一
致する文字列を含んでいない文書を該当文書として出力
してしまう場合があるという欠点があった。
【0006】第3の検索方法では、検索対象文書から抽
出された単語がID化されているため、単語同志の隣接
情報を隣接した単語ID同志を連続化したIDで示すこ
とができるため、複数の単語から成る検索キーの単語同
志の隣接情報もインデックス化されていることになり、
前記第2の検索方法が有する欠点を回避して、検索キー
と完全に一致する文字列を含む文書だけを該当文書とし
て出力することが可能となる。
【0007】しかし、この方法では、単語同志の隣接関
係を調査すべき被検索文書が第2の検索方法で絞り込ま
れているとはいえ、第1の検索方法と同様に、複数の単
語からなる検索キーが含まれていないことを確認するた
めには、文書の最後まで、単語同志の隣接関係の調査を
行わなければならず、検索対象文書が多くなると、第1
の検索方法ほどではないが検索効率が悪化するという欠
点があった。
【0008】
【発明が解決しようとする課題】このように、従来のフ
ルテキスト検索の文書検索装置では、検索キーと被検索
文書全体を文字列マッチングによって検索する検索方法
を採る場合や、或いは検索対象文書を構成する各単語を
単語IDで置き換えてインデックス化し、このインデッ
クスを用いて前記検索キーを含む文書を検索する方法を
採る場合でも、複数の単語から成る検索キーの文字列が
文書に存在しないことを確認するためには、文書の最後
まで調査を行う必要があり、検索対象文書が多くなる
と、検索に時間を要して検索効率が悪化するという欠点
があった。
【0009】そこで本発明は上記の欠点に鑑み、単語I
Dを用いて作成されたインデックスを用いて検索キーを
含む文書を検索する際に、被検索文書が多くなっても常
に効率良く該当の文書を検索することができる前記イン
デックスのインデックス作成方法,この方法で作成され
たインデックスを用いる文書検索方法及びこの検索方法
を用いた文書検索装置を提供することを目的としてい
る。
【0010】
【課題を解決するための手段】請求項1の発明は、被検
索文書内の全ての単語を識別記号化し、この識別記号を
用いて作成したインデックスを参照して任意の文字列か
ら成る検索キーが前記被検索文書内にあるかないかを調
べて、前記検索キーを含む文書を探し出す文書検索装置
における前記インデックスを作成するインデックス作成
方法にあって、被検索文書に含まれる単語のこの被検索
文書内の出現位置情報を被検索文書毎に一覧とした出現
位置インデックスを前記識別記号を用いて作成する方法
を採用している。
【0011】請求項2の発明は、前記検索キーを単語単
位に分割した後、これら単語だけの前記被検索文書内の
出現位置情報を被検索文書毎に一覧とした出現位置イン
デックスを前記識別記号を用いて作成する方法を採用し
ている。
【0012】請求項3の発明は、被検索文書内の全ての
単語を識別記号化し、この識別記号を用いて作成したイ
ンデックスを用いて任意の文字列から成る検索キーが前
記被検索文書内にあるかないかを調べて前記検索キーを
含む文書を探し出す文書検索装置における文書検索方法
にあって、入力された検索キーを単語単位に分割し、こ
れら各単語の被検索文書内の出現位置を前記被検索文書
の各々について請求項1記載の出現位置インデックスを
参照して求め、各単語の出現位置が所定の位置にあるか
どうかを判定し、所定の位置にある場合に前記被検索文
書を該当の文書として出力する方法を採用している。
【0013】請求項4の発明は、前記検索キーを分割し
て得た複数の単語の出現位置を請求項2記載の出現位置
インデックスを参照して求める方法を採用している。請
求項5の発明は、前記被検索文書の全てから抽出された
各単語を含む文書を一覧としたビットマップインデック
スを作成しておき、前記検索キーを分割して得た各単語
を全て含む文書を前記ビットマップインデックスを参照
して求めた後、求まった文書を被検索文書とし、これら
被検索文書の各々について前記検索キーを分割して得た
各単語の出現位置を求める方法を採用している。
【0014】請求項6の発明は、前記検索キーを分割し
て得た複数の単語の並びをこれら単語の被検索文書内の
出現数を考慮して並び換え、この並び換えた順番で、こ
れら各単語の被検索文書内の出現位置を前記被検索文書
の各々について請求項1記載の出現位置インデックスを
参照して求めた後、各単語の出現位置が所定の位置にあ
るかどうかを判定する方法を採用している。
【0015】請求項7の発明は、前記並び換えた各単語
の被検索文書内の出現位置を前記並び代えた順番で請求
項2記載の出現位置インデックスを参照して求め、各単
語の出現位置が所定の位置にあるかどうかを判定する方
法を採用している。
【0016】請求項8の発明は、前記検索キーを分割し
て得た複数の単語の出現位置が所定の順序で連続した位
置にあるかどうかを判定する際に、前記複数の単語を並
び換えた際にその相対位置のずれを是正するオフセット
数を前記各単語について算出しておいた後、これら各単
語の被検索文書内の出現位置が前記並び代えた順番で求
まった段階で、各単語の出現位置に前記各単語のオフセ
ットを加算し、これら加算値を使用して各単語の出現位
置が所定の位置にあるかどうかを判定する方法を採用し
ている。
【0017】請求項9の発明は、前記検索キーを分割し
て得た複数の単語の出現位置を求める際に、一度出現位
置を求めた単語に対して再度その出現位置を求める処理
を行わない方法を採用している。
【0018】請求項10の発明は、被検索文書内の全て
の単語を識別記号化し、この識別記号を用いて作成した
インデックスを用いて任意の文字列から成る検索キーが
前記被検索文書内にあるかないかを調べて前記検索キー
を含む文書を探し出す文書検索装置において、入力され
た検索キーを単語単位に分割する分割手段と、前記被検
索文書に含まれる単語のこの被検索文書内の出現位置情
報を被検索文書毎に一覧とした出現位置インデックスを
前記識別記号を用いて作成するインデックス作成手段
と、前記分割手段により分割して得られた各単語の被検
索文書内の出現位置を前記被検索文書の各々について前
記インデックス作成手段により作成された出現位置イン
デックスを参照して求める出現位置取得手段と、この出
現位置取得手段により取得された各単語の出現位置が所
定の位置にあるかどうかを判定する判定手段と、この判
定手段により前記各単語の出現位置が所定の位置にある
と判定された場合に前記被検索文書を該当の文書として
出力する出力手段とを具備した構成を有する。
【0019】請求項11の発明は、前記インデックス作
成手段は前記分割手段により分割して得た単語だけの前
記被検索文書内の出現位置情報を被検索文書毎に一覧と
した出現位置インデックスを前記識別記号を用いて作成
する構成を有する。
【0020】請求項12の発明は、前記被検索文書の全
てから抽出された各単語を含む文書を一覧としたビット
マップインデックスを作成するビットマップインデック
ス作成手段を設け、前記出現位置取得手段は前記分割手
段により分割して得られた各単語の被検索文書内の出現
位置を求める際に、前記各単語を全て含む文書を前記ビ
ットマップ作成手段により作成されたビットマップイン
デックスを参照して求めておき、この求まった文書を前
記被検索文書として、これら被検索文書の各々について
前記各単語の出現位置を求める構成を有する。
【0021】請求項13の発明は、前記分割手段により
前記検索キーを分割して得た複数の単語の被検索文書内
の出現数を計数する計数手段と、前記複数の単語の並び
を前記計数手段により計数された各単語の被検索文書内
の出現数を考慮して並び換える並び換え手段とを設け、
前記出現位置取得手段は前記各単語の被検索文書内の出
現位置を前記インデックス作成手段により作成された出
現位置インデックスを参照して前記並び換え手段により
前記複数の文字列を並び換えた順番で求める構成を有す
る。
【0022】請求項14の発明は、前記並び換え手段が
前記複数の単語を並びを換えた際にその相対位置のずれ
を是正するオフセット数を前記各単語について算出する
算出手段を設け、前記出現位置取得手段により前記各単
語の被検索文書内の出現位置が前記並び代えた順番で求
まった後、前記判定手段は前記各単語の出現位置に前記
各単語のオフセットを加算して得られた加算値に基づい
て、前記複数の単語の出現位置が所定の位置にあるかど
うかを判定する構成を有する。
【0023】請求項15の発明は、前記出現位置取得手
段は前記分割手段により前記検索キーを分割して得た複
数の単語の出現位置を求める際に、一度出現位置を求め
た単語に対して再度その出現位置を求める処理を行わな
い構成を有する。
【0024】
【作用】請求項1の発明のインデックス作成方法にあっ
て、被検索文書に含まれる単語のこの被検索文書内の出
現位置情報を被検索文書毎に一覧とした出現位置インデ
ックスを前記識別記号を用いて作成する。
【0025】請求項2の発明のインデックス作成方法に
あって、前記検索キーを単語単位に分割した後、これら
単語だけの前記被検索文書内の出現位置情報を被検索文
書毎に一覧とした出現位置インデックスを前記識別記号
を用いて作成する。
【0026】請求項3の発明の文書検索方法にあって、
入力された検索キーを単語単位に分割し、これら各単語
の被検索文書内の出現位置を前記被検索文書の各々につ
いて請求項1記載の出現位置インデックスを参照して求
め、各単語の出現位置が所定の位置にあるかどうかを判
定し、所定の位置にある場合に前記被検索文書を該当の
文書として出力する。
【0027】請求項4の発明の文書検索方法にあって、
前記検索キーを分割して得た複数の単語の出現位置を請
求項2記載の出現位置インデックスを参照して求める。
請求項5の発明の文書検索方法にあって、前記被検索文
書の全てから抽出された各単語を含む文書を一覧とした
ビットマップインデックスを作成しておき、前記検索キ
ーを分割して得た各単語を全て含む文書を前記ビットマ
ップインデックスを参照して求めた後、求まった文書を
被検索文書とし、これら被検索文書の各々について前記
検索キーを分割して得た各単語の出現位置を求める。
【0028】請求項6の発明の文書検索方法にあって、
前記検索キーを分割して得た複数の単語の並びをこれら
単語の被検索文書内の出現数を考慮して並び換え、この
並び換えた順番で、これら各単語の被検索文書内の出現
位置を前記被検索文書の各々について請求項1記載の出
現位置インデックスを参照して求めた後、各単語の出現
位置が所定の位置にあるかどうかを判定する。
【0029】請求項7の発明の文書検索方法にあって、
前記並び換えた各単語の被検索文書内の出現位置を前記
並び代えた順番で請求項2記載の出現位置インデックス
を参照して求め、各単語の出現位置が所定の位置にある
かどうかを判定する。
【0030】請求項8の発明の文書検索方法にあって、
前記検索キーを分割して得た複数の単語の出現位置が所
定の順序で連続した位置にあるかどうかを判定する際
に、前記複数の単語を並び換えた際にその相対位置のず
れを是正するオフセット数を前記各単語について算出し
ておいた後、これら各単語の被検索文書内の出現位置が
前記並び代えた順番で求まった段階で、各単語の出現位
置に前記各単語のオフセットを加算し、これら加算値を
使用して各単語の出現位置が所定の位置にあるかどうか
を判定する。
【0031】請求項9の発明の文書検索方法にあって、
前記検索キーを分割して得た複数の単語の出現位置を求
める際に、一度出現位置を求めた単語に対して再度その
出現位置を求める処理を行わない。
【0032】請求項10の発明の文書検索装置におい
て、分割手段は入力された検索キーを単語単位に分割す
る。インデックス作成手段は前記被検索文書に含まれる
単語のこの被検索文書内の出現位置情報を被検索文書毎
に一覧とした出現位置インデックスを前記識別記号を用
いて作成する。出現位置取得手段は前記分割手段により
分割して得られた各単語の被検索文書内の出現位置を前
記被検索文書の各々について前記インデックス作成手段
により作成された出現位置インデックスを参照して求め
る。判定手段はこの出現位置取得手段により取得された
各単語の出現位置が所定の位置にあるかどうかを判定す
る。出力手段は前記判定手段により前記各単語の出現位
置が所定の位置にあると判定された場合に前記被検索文
書を該当の文書として出力する。
【0033】請求項11の発明の文書検索装置におい
て、前記インデックス作成手段は前記分割手段により分
割して得た単語だけの前記被検索文書内の出現位置情報
を被検索文書毎に一覧とした出現位置インデックスを前
記識別記号を用いて作成する。
【0034】請求項12の発明の文書検索装置におい
て、前記被検索文書の全てから抽出された各単語を含む
文書を一覧としたビットマップインデックスを作成する
ビットマップインデックス作成手段を設け、前記出現位
置取得手段は前記分割手段により分割して得られた各単
語の被検索文書内の出現位置を求める際に、前記各単語
を全て含む文書を前記ビットマップ作成手段により作成
されたビットマップインデックスを参照して求めてお
き、この求まった文書を前記被検索文書として、これら
被検索文書の各々について前記各単語の出現位置を求め
る。
【0035】請求項13の発明の文書検索装置におい
て、計数手段は前記分割手段により前記検索キーを分割
して得た複数の単語の被検索文書内の出現数を計数す
る。並び換え手段は前記複数の単語の並びを前記計数手
段により計数された各単語の被検索文書内の出現数を考
慮して並び換える。前記出現位置取得手段は前記各単語
の被検索文書内の出現位置を前記インデックス作成手段
により作成された出現位置インデックスを参照して前記
並び換え手段により前記複数の文字列を並び換えた順番
で求める。
【0036】請求項14の発明の文書検索装置におい
て、算出手段は前記並び換え手段が前記複数の単語を並
びを換えた際にその相対位置のずれを是正するオフセッ
ト数を前記各単語について算出する。判定手段は出現位
置取得手段により前記各単語の被検索文書内の出現位置
が前記並び代えた順番で求まった後、前記各単語の出現
位置に前記各単語のオフセットを加算して得られた加算
値に基づいて、前記複数の単語の出現位置が所定の位置
にあるかどうかを判定する。
【0037】請求項15の発明の文書検索装置におい
て、前記出現位置取得手段は前記分割手段により前記検
索キーを分割して得た複数の単語の出現位置を求める際
に、一度出現位置を求めた単語に対して再度その出現位
置を求める処理を行わない。
【0038】
【実施例】以下、本発明の一実施例を図面を参照して説
明する。図1は本発明のインデックス作成方法,文書検
索方法及びこれら方法を用いた文書検索装置の一実施例
を示した概略構成ブロック図である。文書検索装置は、
各種インデックスの作成、作成されたインデックスを用
いた文書検索処理や文書検索装置全体の制御を司るCP
U及びメモリ等から構成される制御装置1、ユーザによ
る検索キーワード(検索キー)を入力したり、ユーザの
検索操作指示を入力するキーボードやマウス等の入力装
置2、検索結果及び検索された文書の内容等を表示する
LCDやCRT等で構成される表示装置3及び検索のた
めに用いる各種のインデックスや検索対象となる文書デ
ータを格納するHDD等で構成される外部記憶装置4等
によって構成されている。
【0039】図2は図1に示した制御装置1の詳細構成
例を示したブロック図である。制御装置1は検索インデ
ックス作成部21、インデックス部22、バッファ部2
3及び処理部24の4機能ブロックによって構成されて
いる。
【0040】ここで、検索インデックス作成部21は検
索の前処理を行うために存在し、実際の検索時には機能
しないものであって、制御部211、APT関連インデ
ックス作成部213、ビットマップインデックス作成部
214及びインデックス書き込み部215によって構成
されている。検索インデックス作成部21は外部記憶装
置4内の検索対象の全文書から検索に必要なビットマッ
プインデックス221、単語種IDテーブル222、A
PT(Appering PositionTabl
e)インデックステーブル223、APTインデックス
224、APT225をインデックス部22上で作成す
る。但し、Appering Position Ta
bleとは、出現位置テーブルのことである。
【0041】制御部211は制御装置1全体の制御を司
るものであり、検索インデックス作成部21での各処理
機能の動作制御や、各処理機能間でのデータ転送等を行
う。システム初期化部212は検索用の各種インデック
スの作成の実行に際して、必要なシステムの初期化を行
う。APT関連インデックス作成部213はインデック
ス部22上にAPTインデックステーブル223、AP
Tインデックス224、APT225の作成を行う。ビ
ットマップインデックス作成部214はインデックス部
22上にビットマップインデックス221、単語種ID
テーブル222の作成を行う。インデックス書き込み部
215は作成された各種インデックスをインデス部22
から外部記憶装置4に転送して保存する。
【0042】検索インデックス作成部21で作成された
各種検索用インデックスは一旦、外部記憶装置4に以下
の各図示すように格納される。図3はビットマップイン
デックス221の一例を示しており、検索対象の全文書
から取り出した単語をマトリックスの行(列)方向に並
べ、また検索対象文書をマトリックスの列(行)方向に
並べておき、行、列が交差する位置に、行番号で示され
る単語が列番号で示される文書に存在するか否かを示し
ている。
【0043】図4は単語種IDテーブル222の一例を
示しており、検索対象の全文書から取り出した単語と、
そのID番号を対応付けている。図5はAPTインデッ
クステーブル223の一例を示しており、検索対象文書
のAPTインデックスの情報(APTインデックスの先
頭からのstart address(先頭番地)とe
nd adress(終点番地)間の文書に含まれる単
語種数)を格納している。
【0044】図6はAPTインデックス224の一例を
示しており、APTの情報(単語ID、APTの先頭か
らのstart addressとend adres
s間での出現回数)を格納している。
【0045】図7はAPT225の一例を示しており、
検索対象文書に含まれる全ての単語種IDの検索対象文
書内の位置を出現順に格納している。バッファ部23
は、処理部24で必要な種々のデータを一時的に格納す
る作業バッファ231、検索キーを構成する各単語のA
PTのチェック済ポインタを格納するAPTポインタバ
ッファ232から構成されている。
【0046】処理部24は、文書の検索を実行するため
の制御系を構成するものであり、システム初期化部24
1、キーワード入力部242、制御部243、ビットマ
ップ検索部244、APT検索部245及び表示部24
6から構成されている。
【0047】システム初期化部241は外部記憶装置4
に格納された各種インデックスをメモリ等に移したり、
システムの動作に必要な初期化を行う。キーワード入力
部242は外部記憶装置4に格納されたデータベース中
の大量の文書から目的の文書を検索するための検索用キ
ーワードとなる文字列を入力装置2から入力する。制御
部243は制御装置1の全体の制御を司るものであり、
処理部24中に設けられた各処理機能の動作制御やこれ
ら各処理機能間でのデータの転送等を行う。
【0048】ビットマップ検索部244はキーワード入
力部242によってユーザから入力された検索キーを単
語単位に分割し、その単語が含まれる文書の存在をビッ
トマップインデックス221を用いて全文書に対して検
索する。APT検索部245はビットマップ検索部24
4によって絞り込まれた検索該当文書に対して、単語単
位に分割された検索キーの単語の並びに合致する文字列
を含む文書を、APTインデックステーブル223、A
PTインデックス224、APT225及びAPTポイ
ンタバッファ232を用いて検索する。表示部246は
検索用キーワード入力用の画面、ユーザによって入力さ
れた検索キーワード及びビットマップ検索部244、A
PT検索部245による検索結果等を表示装置3に表示
する。
【0049】次に本実施例の動作について説明するが、
まず、検索インデックス作成部21のAPT関連インデ
ックス作成部213の動作について図8に示すフローチ
ャートを参照して説明する。前記動作に入る前提とし
て、ビットマップインデックス221及び単語種IDテ
ーブル222は、既にビットマップインデックス作成部
214によって作成済であるものとする。
【0050】APT関連インデックス作成部213はス
テップ801にて、検索対象文書の全てについてAPT
インデックス及びAPTを作成したか否かを判断し、全
て作成した場合には、ステップ811に進んで、各文書
に対応する図6のAPTインデックス224の単語種
数、同APTインデックス224の先頭からのスタート
アドレス、エンドアドレスを図5のAPTインデックス
テーブル223に登録して、処理を終了する。
【0051】一方、ステップ801にて、全て作成して
いないと判断した場合、APT関連インデックス作成部
213はステップ802に進み、インデックス作成対象
の1文書を外部記憶装置4から読みだし、その先頭の単
語にポインタを進めた後、ステップ803に進む。AP
T関連インデックス作成部213はステップ803に
て、文書中の全ての単語についてAPTを作成したか否
かを判断し、全て作成した場合はステップ810に進
み、全て作成しない場合はステップ804に進む。ステ
ップ810に進んだ場合、APT関連インデックス作成
部213はインデックス作成対象の1文書に出現した単
語の種類の数、APTの先頭からのスタートアドレス、
エンドアドレスを図6のAPTインデックス224に格
納した後、ステップ801の処理に戻る。
【0052】一方、ステップ804に進んだ場合、AP
T関連インデックス作成部213は、前記文書中のポイ
ンタが指し示す単語を取り出し、この単語が初めて文書
内に出現した単語であるか否かをステップ805にて判
断し、初めてでない場合はステップ808に跳び、初め
てである場合はステップ806の処理に進む。APT関
連インデックス作成部213はステップ806にて、上
記文書から取り出した単語に対して単語種IDテーブル
222を参照することにより、単語種IDを取得し、更
にステップ808にて、取り出した単語のためのAPT
の領域とAPTインデックスの領域をそれぞれ図7のA
PT225と図6のAPTインデック224内に確保し
た後、APTインデックス224の前記確保した領域に
単語種IDを格納する。
【0053】APT関連インデックス作成部213はス
テップ808にて、前記取り出した単語の単語種IDに
対応して確保されたAPT225の領域に、取り出した
前記単語の文書の先頭からの位置情報を追加した後、ス
テップ809にて、ポインタを1つ進めてから、ステッ
プ803の処理に戻る。
【0054】こうして、検索対象文書から抽出された全
ての単語について、図5に示すようなAPTインデック
ステーブル223、図6に示すようなAPTインデック
ス224、図7に示すようなAPT225が作成され
る。
【0055】次に処理部24のAPT検索部245の動
作について図9、図10に示すフローチャートを参照し
て説明する。この動作の前提として、ビットマップ検索
部244はキーワード入力部242よりユーザから入力
された検索キーを単語単位に分割し、その単語が含まれ
る文書をビットマップインデックス221を用いて検索
し、検索して得た文書IDをAPT検索部245に渡
す。この時点で、APT検索部245による検索対象文
書はビットマップ検索部244により検索された前記文
書に絞り込まれることになる。
【0056】尚、ビットマップインデックス221に
は、キーワード入力部242から入力された検索キーに
含まれる全ての単語と、これら単語を含む文書が含まれ
ているものとする。
【0057】APT検索部245はステップ901に
て、前記渡された文書ID(被検索対象文書)のAPT
インデックステーブル223の領域を読んでAPTイン
デックス情報を取り出す。次にAPT検索部245はス
テップ902にて、上記キーワード入力部242から入
力された検索キーに含まれる全ての単語に対応する単語
IDを単語種IDテーブル222を参照して取得し、ス
テップ903にて前記検索キーの単語数をリカーシブレ
ベル(再帰レベル)に設定する。ここで、検索キーが
「発明考案」だとすると、単語数は4であるため、前記
リカーシブレベルは4に設定される。
【0058】APT検索部245はステップ904に
て、APT225から前記取得した単語IDに対応する
前記渡された文書内の文字位置情報を取り出して、これ
ら文字位置情報を単語の出現頻度の低い順に並べ替えた
後、並び替えた検索キー対応のAPT225の単語ID
の出現頻度の低いものを基点とし、検索キーでの前記基
点の単語IDに対するオフセットを算出する。
【0059】ここで、前記検索キーが「発明考案」だと
し、ステップ904にて、この検索キーを並べ換えた順
番が「案明考発」であった場合、基点の単語は「案」と
なり、「案」のオフセットは0、「明」のオフセットは
−2、「考」のオフセットは−1、「発」のオフセット
は−3となる。
【0060】APT検索部245はステップ905に
て、各単語毎のリカーシブレベルに対応する単語のAP
Tポインタバッファ232内のチェック済ポインタを0
に初期化した後、ステップ906にて出現回数の一番少
ない単語のリカーシブレベルに対応するチェック済ポイ
ンタが示す内容(単語の出現位置)をAPT225から
取り出すと、ステップ907にて図10に示す出現位置
情報のチェック用サブルーチンを呼び出して、実行す
る。
【0061】次にAPT検索部245はステップ908
にて、上記したチェック用サブルーチンの実行結果に基
づいて、検索キーが検索対象文書中に存在するか否かを
判断し、存在する場合、ステップ909にて、検索キー
が存在した検索対象文書番号を制御部243に設定して
処理を終了する。一方、ステップ908にて、検索キー
が検索対象文書中に存在しないと判断された場合、AP
T検索部245はステップ910にて、リカーシブレベ
ルに対応するAPTポインタバッファ232内のチェッ
ク済ポインタを+1した後、ステップ911に進む。A
PT検索部245はステップ911にて、単語の出現回
数の少ないAPT225が示す出現位置全てについて、
チェックを終了したか否かを判断し、終了していない場
合はステップ906の処理に戻り、終了している場合
は、ステップ912にて、検索キーを含む文書が存在し
なかったことを制御部243に設定して、処理を終了す
る。
【0062】尚、制御部243はAPT検索部245の
処理結果を受け取ると、その結果を表示部246により
表示装置3に表示する。従って、APT検索部245が
ステップ909にて、検索キーが存在した検索対象文書
番号を制御部243に設定すると、検索キーが存在した
検索対象文書番号が表示装置3に表示される。又、AP
T検索部245がステップ912にて、検索キーを含む
文書が存在しなかったことを制御部243に設定する
と、検索キーを含む文書が存在しなかったことが表示装
置3に表示される。
【0063】又、上記したステップ907にて実行する
チェック用サブルーチンは、前記検索キーが「発明考
案」だとすると、この順番で、この検索キーを構成する
各単語が連続して検索対象文書内にあるかどうかをチェ
ックするもので、前記各単語が連続してある場合に、前
記検索対象文書に検索キーと同一の文字列が存在すると
いう検索結果が導出される。
【0064】図10は上記したステップ907で実行さ
れる出現位置情報チェック用サブルーチンの処理の詳細
を示したフローチャートである。このサブルーチンの入
力として、検索キーを構成する単語の中で最も出現回数
が少ない単語のAPT225が示す出現位置情報、この
時のリカーシブレベル及びこのリカーシブレベルに対応
する単語のチェック済ポインタがAPT検索部245に
与えられるものとする。
【0065】APT検索部245はステップ101に
て、前記与えられたリカーシブレベルから1を減じる。
ここで、前記検索キーが出現回数の小さい順に並べ換え
られた「案明考発」だとすると、リカーシブレベル4か
ら1が減じられ、リカーシブレベルが3になる。次にA
PT検索部245はステップ102にてリカーシブレベ
ルが0になったか否かを判断し、0になった場合は検索
キーに含まれる単語全てが連続して存在することになる
ため、ステップ112に進み、検索対象文書に検索キー
有りを設定して処理を終了し、0でない場合はステップ
103へ進む。
【0066】APT検索部245はステップ103に
て、この時のリカーシブレベルに対応する単語のチェッ
ク済みポインタが示す単語位置情報を前記APT225
から取得して、ステップ104に進む。ここで、前記検
索キーが「案明考発」だとすると、前記リカーシブレベ
ルは3になり、対応する単語は「明」になる。
【0067】APT検索部245はステップ104に進
んだ場合、取得したリカーシブレベルに対応する単語の
出現位置情報と図9の処理にて算出したオフセットとを
加算した値と、本サブルーチンの入力である前記最も出
現回数の少ない単語のAPT225が示す出現位置とが
一致するか否かを判断し、一致しない場合にはステップ
105に進み、一致する場合にはステップ108に進
む。
【0068】ここで、前記検索キーが「案明考発」であ
った場合、前記取得したリカーシブレベル3に対応する
単語は「明」であるため、この位置情報は図11に示す
ように8であることが分かり、この8とこの「明」のオ
フセット−2を加算すると、6が得られ、前記最も出現
回数の少ない「案」のAPT225が示す出現位置は図
11に示すように5であるため、この例では、前記両値
が一致しないことになる。尚、図11は前記検索キーが
「発明考案」だった場合の各単語の被検索文書内の出現
位置を出現数の少ない単語順にまとめた仮想的なAPT
例を示している。
【0069】APT検索部245はステップ105に進
んだ場合、前記リカーシブレベルの単語の位置が、前述
の最も出現回数の少ない単語の位置に比べて後にあるか
どうかを判断し、後にある場合はステップ106に進
み、後にない場合はステップ110に進む。上記具体例
では「明」の位置は図11から分かるように後にあるた
め、ステップ106に進むことになる。
【0070】APT検索部245はステップ106に
て、リカーシブレベルに対応する単語のチェック済ポイ
ンタの値から0を下回らない範囲で1を減じた後、ステ
ップ107にて、チェック結果として検索対象文書が検
索キーを含まないことを設定して、処理を終了する。こ
こで、上記した検索キーが「発明考案」だった場合のA
PTポインタバッファ232に設定されるチェック済み
ポインタバッファとリカーシブレベルの対応関係は図1
2に示すようになる。
【0071】一方、上記ステップ104にて前記両値が
一致すると判定された場合、APT検索部245はステ
ップ108に進んで、再帰的に本サブルーチンを呼び出
して実行した後、ステップ109にてこの実行の結果が
検索キーの該当文書中への存在を示しているかどうかを
判断し、存在を示している場合にはステップ112経由
で処理を終了し、存在を示していない場合にはステップ
110に進む。
【0072】ここで、上記した検索キーの具体例で説明
すると、ステップ104にて両値が一致したということ
は、「案」に対して「明」が所定の位置にあり、この検
索キーを並び換える前の「発明考案」が当該文書中に存
在する可能性があることを意味していることになり、ス
テップ108に進んで再帰的に本サブルーチンを実行す
ることになる。
【0073】この実行時には、リカーシブレベルが2に
なって「考」が「案」に対して所定の位置にあるかどう
かを判断し、所定の位置にある場合は更に上記した検索
キーが該当文書中に存在する可能性があり、前記所定の
位置にない場合はこの時点で前記検索キーが存在する可
能性がなくなるため、ステップ110へ抜けることにな
る。
【0074】前記具体例で、「考」も所定の位置にある
ことが分かった場合、次にリカーシブレベル1の「発」
に対する本サブルーチンが実行され、この「発」が前記
「案」に対して所定の位置にあれば、結局前記検索キー
が該当文書中にあることが分かり、所定の位置に無い場
合は前記検索キーが存在する可能性がなくなるため、上
記と同様にステップ110に抜ける。
【0075】APT検索部245はステップ110に
て、現在のリカーシブレベルに対応するチェック済ポイ
ンタを+1して、APTポインタバッファ232に格納
した後、ステップ111に進んで、リカーシブレベルに
対応する単語のチェック済ポインタが示す単語の位置を
全てチェックしたか否かを判断し、全てチェックした場
合はステップ106に進み、そうでない場合はステップ
103の処理に戻る。
【0076】結局、図10のサブルーチンでは、上記し
た検索キーの具体例で説明すると、リカーシブレベル4
の「案」の出現位置が図11に示すように5であった場
合に、リカーシブレベル3の「明」が所定の位置にある
かどうかを調べ、ここで「明」が所定の位置にないた
め、次にリカーシブレベル4の「案」が14の位置にあ
る場合に、リカーシブレベル3の「明」の出現位置8が
所定の位置にあるかどうかを調べ、この場合はないた
め、次に「明」の出現位置12が所定の位置にあるかど
うかを調べ、この場合は所定の位置にあるため、次にリ
カーシブレベル2の「考」の出現位置13が所定の位置
にあるかどうかを調べ、その結果所定の位置にあるた
め、更にリカーシブレベル1の「発」の出現位置1が所
定の位置にあるかどうかを調べ、その結果所定の位置に
ないため、次に「発」の出現位置11が所定に位置にあ
るかどうかを調べ、これは所定の位置にあるため、結
局、検索キー「発明考案」が該当文章中に存在すること
になり、図13はこのような文書の例である。
【0077】図14は検索キー「発明考案」を含まない
文書の例で、この場合はリカーシブレベル4の「案」の
出現位置に対して次にリカーシブレベル「明」の出現位
置を調べた時点で、前記検索キーがこの文章内に存在し
ていないことが分かるため、本例ではAPT223等を
最後まで検索しなくとも、検索キーが該当文章中に存在
するか否かを判断することができる。
【0078】本実施例によれば、被検索対象文章から抽
出した全ての単語をID化した後、このIDを用いて前
記各被検索対象文書内の単語の出現範囲とその出現数を
一覧とした図6に示したようなAPTインデックス22
4と、前記単語の各被検索対象文書中の出現位置情報を
一覧とした図7に示したAPT225を作成しておき、
検索文章中での出現回数を上記APTインデックスによ
り調べた後、これら単語の出現回数が少ない順番に前記
文書中の各単語の出現位置を一覧とした図11に示すよ
うなAPTを仮想的に作成し、このAPTの最も出現回
数が少ない単語を基点にして、他の単語が前記検索キー
を構成する各単語が連続した位置にあった場合にあるべ
き所定の位置にあるかどうかを順番に検索することによ
り、前記被検索文書内に検索キーと同一の文字列を持っ
た文字列が存在するか否かを調べる構成のため、APT
を最後まで検索しなくても前記検索キーが被検索文書内
に存在するかどうかを検出することができる。従って、
被検索文書が多数であっても、検索にそれ程時間を取ら
れずに効率よく該当の文書を検索することができる。
【0079】又、図11に示したように検索キーを構成
する単語を、被検索文書内での出現回数が少ない順番に
並び換えて図11のようなAPTを作り、且つこの出現
回数が最も少ない単語を基点として他の単語の位置を検
索するため、最悪の場合でも最も出現回数が少ない単語
の出現回数だけ前記検索を行えばよく、更に検索効率を
向上させることができる。しかも、本例では既にチェッ
クを終えた単語の位置を再度チェックする必要がなく、
その続きから残りの単語の出現位置をチェックする方法
を用いているため、無駄が省かれ、更に検索効率を向上
させることができる。
【0080】
【発明の効果】以上記述した如く請求項1の発明によれ
ば、検索キーを構成する各単語の被検索文書内の出現位
置を直ちに求めることができるインデックスを作成で
き、このインデックスを用いて文書検索効率を高めるこ
とができる。
【0081】請求項2の発明によれば、検索キーを構成
する単語だけの被検索文書内の出現位置情報のみを一覧
とした出現位置インデックスを作成しているため、この
分、前記検索キーを用いた検索時の処理を更に短時間に
することができる。
【0082】請求項3又は10の発明によれば、検索対
象文章が多くなっても、検索対象文章を単語IDを用い
て作成された出現位置インデックスを用いて常に効率よ
く該当の文書を検索することができる。
【0083】請求項4又は11の発明によれば、検索キ
ーを分割して得た単語だけの出現位置を一覧とした出現
位置インデックスを用いているため、このインデックス
の参照範囲を絞り込むことができる。
【0084】請求項5又は12の発明によれば、検索キ
ーを分割して得た各単語を含む文書を被検索文書として
絞り込んでおくことができるため、この分、出現位置イ
ンデックスを用いた検索処理を短時間に行うことができ
る。
【0085】請求項6又は13の発明によれば、検索キ
ーを構成する単語を例えば出現数が少ない順番に並び換
えて、この順番で出現位置インデックスを用いた検索を
行うことができるため、前記単語の並びを調べるための
検索回数を最小とすることができる。
【0086】請求項7の発明によれば、検索キーを構成
する単語の前記並び換えを行って検索回数を少なくする
ことができ、更に出現位置インデックスとして前記検索
キーを構成する単語だけの出現位置を一覧としたものを
用いてインデックスの参照範囲を絞り込むことができ
る。
【0087】請求項8又は14の発明によれば、前記検
索キーを構成する単語を並び換えた場合に、これら単語
の被検索文書内の出現順序を確実に知ることができる。
請求項9又は15の発明によれば、重複した処理を行わ
ない分、検索効率を向上させることができる。
【図面の簡単な説明】
【図1】本発明の文書検索装置の一実施例を示した概略
構成ブロック図。
【図2】図1に示した制御装置の詳細構成例を示すブロ
ック図。
【図3】図2に示したビットマップインデックスの一例
を示した図。
【図4】図2に示した単語種IDテーブルの一例を示し
た図。
【図5】図2に示したAPTインデックステーブルの一
例を示した図。
【図6】図2に示したAPTインデックスの一例を示し
た図。
【図7】図1に示したAPTの一例を示した図。
【図8】図2に示した検索インデックス作成部によるA
PT関連インデックスの作成処理の流れを示したフロー
チャート。
【図9】図2に示したAPT検索部による前記APT関
連インデックスを用いた文書検索処理の流れを示したフ
ローチャート。
【図10】図9に示したステップ907の処理で用いる
サブルーチンの詳細例を示したフローチャート。
【図11】検索キーを単語単位に分割して得た単語の被
検索文書内の出現位置を一覧とした仮想APT例を示し
た図。
【図12】図2に示したAPTポインタバッファ内のポ
インタバッファとリカーシブレベルの関係例を示した
図。
【図13】図2に示したAPT検索部により検索される
被検索文書の一例を示した図。
【図14】図2に示したAPT検索部により検索される
被検索文書の他の例を示した図。
【符号の説明】
1…制御装置 2…入力装置 3…出力装置 4…外部記憶装置 21…検索インデックス作成部 22…インデック
ス部 23…バッファ部 24…処理部 211…制御部 212…システム
初期化部 213…APT関連インデックス作成部 214…ビットマップインデックス作成部 215…インデックス書込部 221…ビットマ
ップインデックス 222…単語種IDテーブル 223…APTイ
ンデックステーブル 224…APTインデックス 225…APT 231…作業バッファ 232…APTポ
インタバッファ 241…システム初期化部 242…キーワー
ド入力部 243…制御部 244…ビットマ
ップ検索部 245…APT検索部
フロントページの続き (72)発明者 中本 幸夫 東京都青梅市新町1381番地1 東芝コンピ ュータエンジニアリング株式会社内 (72)発明者 岩井 勇 東京都青梅市末広町2丁目9番地 株式会 社東芝青梅工場内 (72)発明者 野上 謙一 東京都青梅市新町1381番地1 東芝コンピ ュータエンジニアリング株式会社内 (72)発明者 田野崎 康雄 東京都青梅市末広町2丁目9番地 株式会 社東芝青梅工場内

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 被検索文書内の全ての単語を識別記号化
    し、この識別記号を用いて作成したインデックスを参照
    して任意の文字列から成る検索キーが前記被検索文書内
    にあるかないかを調べて、前記検索キーを含む文書を探
    し出す文書検索装置における前記インデックスを作成す
    るインデックス作成方法にあって、被検索文書に含まれ
    る単語のこの被検索文書内の出現位置情報を被検索文書
    毎に一覧とした出現位置インデックスを前記識別記号を
    用いて作成することを特徴とするインデックス作成方
    法。
  2. 【請求項2】 前記検索キーを単語単位に分割した後、
    これら単語だけの前記被検索文書内の出現位置情報を被
    検索文書毎に一覧とした出現位置インデックスを前記識
    別記号を用いて作成することを特徴とする請求項1記載
    のインデックス作成方法。
  3. 【請求項3】 被検索文書内の全ての単語を識別記号化
    し、この識別記号を用いて作成したインデックスを用い
    て任意の文字列から成る検索キーが前記被検索文書内に
    あるかないかを調べて前記検索キーを含む文書を探し出
    す文書検索装置における文書検索方法にあって、入力さ
    れた検索キーを単語単位に分割し、これら各単語の被検
    索文書内の出現位置を前記被検索文書の各々について請
    求項1記載の出現位置インデックスを参照して求め、各
    単語の出現位置が所定の位置にあるかどうかを判定し、
    所定の位置にある場合に前記被検索文書を該当の文書と
    して出力する文書検索方法。
  4. 【請求項4】 前記検索キーを分割して得た複数の単語
    の出現位置を請求項2記載の出現位置インデックスを参
    照して求めることを特徴とする請求項3記載の文書検索
    方法。
  5. 【請求項5】 前記被検索文書の全てから抽出された各
    単語を含む文書を一覧としたビットマップインデックス
    を作成しておき、前記検索キーを分割して得た各単語を
    全て含む文書を前記ビットマップインデックスを参照し
    て求めた後、求まった文書を被検索文書とし、これら被
    検索文書の各々について前記検索キーを分割して得た各
    単語の出現位置を求めることを特徴とする請求項3又は
    4記載の文書検索方法。
  6. 【請求項6】 前記検索キーを分割して得た複数の単語
    の並びをこれら単語の被検索文書内の出現数を考慮して
    並び換え、この並び換えた順番で、これら各単語の被検
    索文書内の出現位置を前記被検索文書の各々について請
    求項1記載の出現位置インデックスを参照して求めた
    後、各単語の出現位置が所定の位置にあるかどうかを判
    定することを特徴とする請求項3又は5記載の文書検索
    方法。
  7. 【請求項7】 前記並び換えた各単語の被検索文書内の
    出現位置を前記並び代えた順番で請求項2記載の出現位
    置インデックスを参照して求め、各単語の出現位置が所
    定の位置にあるかどうかを判定することを特徴とする請
    求項4又は5記載の文書検索方法。
  8. 【請求項8】前記検索キーを分割して得た複数の単語の
    出現位置が所定の順序で連続した位置にあるかどうかを
    判定する際に、前記複数の単語を並び換えた際にその相
    対位置のずれを是正するオフセット数を前記各単語につ
    いて算出しておいた後、これら各単語の被検索文書内の
    出現位置が前記並び代えた順番で求まった段階で、各単
    語の出現位置に前記各単語のオフセットを加算し、これ
    ら加算値を使用して各単語の出現位置が所定の位置にあ
    るかどうかを判定することを特徴とする請求項7記載の
    文書検索方法。
  9. 【請求項9】 前記検索キーを分割して得た複数の単語
    の出現位置を求める際に、一度出現位置を求めた単語に
    対して再度その出現位置を求める処理を行わないことを
    特徴とする請求項3乃至8いずれか記載の文書検索方
    法。
  10. 【請求項10】 被検索文書内の全ての単語を識別記号
    化し、この識別記号を用いて作成したインデックスを用
    いて任意の文字列から成る検索キーが前記被検索文書内
    にあるかないかを調べて前記検索キーを含む文書を探し
    出す文書検索装置において、入力された検索キーを単語
    単位に分割する分割手段と、前記被検索文書に含まれる
    単語のこの被検索文書内の出現位置情報を被検索文書毎
    に一覧とした出現位置インデックスを前記識別記号を用
    いて作成するインデックス作成手段と、前記分割手段に
    より分割して得られた各単語の被検索文書内の出現位置
    を前記被検索文書の各々について前記インデックス作成
    手段により作成された出現位置インデックスを参照して
    求める出現位置取得手段と、この出現位置取得手段によ
    り取得された各単語の出現位置が所定の位置にあるかど
    うかを判定する判定手段と、この判定手段により前記各
    単語の出現位置が所定の位置にあると判定された場合に
    前記被検索文書を該当の文書として出力する出力手段と
    を具備したことを特徴とする文書検索装置。
  11. 【請求項11】 前記インデックス作成手段は前記分割
    手段により分割して得た単語だけの前記被検索文書内の
    出現位置情報を被検索文書毎に一覧とした出現位置イン
    デックスを前記識別記号を用いて作成することを特徴と
    する請求項10記載の文書検索装置。
  12. 【請求項12】 前記被検索文書の全てから抽出された
    各単語を含む文書を一覧としたビットマップインデック
    スを作成するビットマップインデックス作成手段を設
    け、前記出現位置取得手段は前記分割手段により分割し
    て得られた各単語の被検索文書内の出現位置を求める際
    に、前記各単語を全て含む文書を前記ビットマップ作成
    手段により作成されたビットマップインデックスを参照
    して求めておき、この求まった文書を前記被検索文書と
    して、これら被検索文書の各々について前記各単語の出
    現位置を求めることを特徴とする請求項10又は11記
    載の文書検索装置。
  13. 【請求項13】 前記分割手段により前記検索キーを分
    割して得た複数の単語の被検索文書内の出現数を計数す
    る計数手段と、前記複数の単語の並びを前記計数手段に
    より計数された各単語の被検索文書内の出現数を考慮し
    て並び換える並び換え手段とを設け、前記出現位置取得
    手段は前記各単語の被検索文書内の出現位置を前記イン
    デックス作成手段により作成された出現位置インデック
    スを参照して前記並び換え手段により前記複数の文字列
    を並び換えた順番で求めることを特徴とする請求項10
    乃至12いずれか記載の文書検索装置。
  14. 【請求項14】 前記並び換え手段が前記複数の単語を
    並びを換えた際にその相対位置のずれを是正するオフセ
    ット数を前記各単語について算出する算出手段を設け、
    前記出現位置取得手段により前記各単語の被検索文書内
    の出現位置が前記並び代えた順番で求まった後、前記判
    定手段は前記各単語の出現位置に前記各単語のオフセッ
    トを加算して得られた加算値に基づいて、前記複数の単
    語の出現位置が所定の位置にあるかどうかを判定するこ
    とを特徴とする請求項12記載の文書検索装置。
  15. 【請求項15】 前記出現位置取得手段は前記分割手段
    により前記検索キーを分割して得た複数の単語の出現位
    置を求める際に、一度出現位置を求めた単語に対して再
    度その出現位置を求める処理を行わないことを特徴とす
    る請求項10乃至14いずれか記載の文書検索装置。
JP6322068A 1994-12-26 1994-12-26 インデックス作成方法、文書検索方法及び文書検索装置 Pending JPH08180066A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6322068A JPH08180066A (ja) 1994-12-26 1994-12-26 インデックス作成方法、文書検索方法及び文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6322068A JPH08180066A (ja) 1994-12-26 1994-12-26 インデックス作成方法、文書検索方法及び文書検索装置

Publications (1)

Publication Number Publication Date
JPH08180066A true JPH08180066A (ja) 1996-07-12

Family

ID=18139564

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6322068A Pending JPH08180066A (ja) 1994-12-26 1994-12-26 インデックス作成方法、文書検索方法及び文書検索装置

Country Status (1)

Country Link
JP (1) JPH08180066A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004206476A (ja) * 2002-12-25 2004-07-22 Internatl Business Mach Corp <Ibm> データベースシステム、端末装置、検索データベースサーバ、検索キー入力支援方法及びプログラム
JP2008242749A (ja) * 2007-03-27 2008-10-09 Seiko Epson Corp 検索装置およびプログラム
JP2010055608A (ja) * 2008-08-06 2010-03-11 Fujitsu Ltd インターネット検索結果のキャッシングのための方法、記憶媒体及びシステム
JP2011100320A (ja) * 2009-11-06 2011-05-19 Fujitsu Ltd 情報処理プログラム、情報検索プログラム、情報処理装置、および情報検索装置
JP2017194762A (ja) * 2016-04-18 2017-10-26 富士通株式会社 インデックス生成プログラム、インデックス生成装置、インデックス生成方法、検索プログラム、検索装置および検索方法
JP2019083477A (ja) * 2017-10-31 2019-05-30 富士通株式会社 データ生成プログラム、データ生成方法および情報処理装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57166668A (en) * 1981-04-08 1982-10-14 Agency Of Ind Science & Technol Information retrieving device
JPH03229367A (ja) * 1990-02-05 1991-10-11 Nippon Telegr & Teleph Corp <Ntt> テキストベース検索方式
JPH06162092A (ja) * 1992-11-18 1994-06-10 Fujitsu Ltd 情報検索装置
JPH06290217A (ja) * 1993-03-31 1994-10-18 Ricoh Co Ltd 文書検索方式

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57166668A (en) * 1981-04-08 1982-10-14 Agency Of Ind Science & Technol Information retrieving device
JPH03229367A (ja) * 1990-02-05 1991-10-11 Nippon Telegr & Teleph Corp <Ntt> テキストベース検索方式
JPH06162092A (ja) * 1992-11-18 1994-06-10 Fujitsu Ltd 情報検索装置
JPH06290217A (ja) * 1993-03-31 1994-10-18 Ricoh Co Ltd 文書検索方式

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004206476A (ja) * 2002-12-25 2004-07-22 Internatl Business Mach Corp <Ibm> データベースシステム、端末装置、検索データベースサーバ、検索キー入力支援方法及びプログラム
JP2008242749A (ja) * 2007-03-27 2008-10-09 Seiko Epson Corp 検索装置およびプログラム
JP2010055608A (ja) * 2008-08-06 2010-03-11 Fujitsu Ltd インターネット検索結果のキャッシングのための方法、記憶媒体及びシステム
JP2011100320A (ja) * 2009-11-06 2011-05-19 Fujitsu Ltd 情報処理プログラム、情報検索プログラム、情報処理装置、および情報検索装置
JP2017194762A (ja) * 2016-04-18 2017-10-26 富士通株式会社 インデックス生成プログラム、インデックス生成装置、インデックス生成方法、検索プログラム、検索装置および検索方法
US11080234B2 (en) 2016-04-18 2021-08-03 Fujitsu Limited Computer readable recording medium for index generation
JP2019083477A (ja) * 2017-10-31 2019-05-30 富士通株式会社 データ生成プログラム、データ生成方法および情報処理装置

Similar Documents

Publication Publication Date Title
EP0277356B1 (en) Spelling error correcting system
JPH02299068A (ja) 入力文字列からワードを分離する方法
US4677585A (en) Method for obtaining common mode information and common field attribute information for a plurality of card images
US4787059A (en) System for effective spell check in word processing with relocated starting location
US5357430A (en) System for text translation
US9317189B1 (en) Method to input content in a structured manner with real-time assistance and validation
JPH08180066A (ja) インデックス作成方法、文書検索方法及び文書検索装置
JP4302918B2 (ja) ハングル文字の生成方法及び辞書引方法
EP1076305A1 (en) A phonetic method of retrieving and presenting electronic information from large information sources, an apparatus for performing the method, a computer-readable medium, and a computer program element
JPH02126361A (ja) 中国語入力装置
JPH0612451A (ja) 例文検索システム
JPH0728810A (ja) 文字処理方法およびその装置
JP3241854B2 (ja) 単語スペル自動補正装置
JP3387421B2 (ja) 単語入力支援装置及び単語入力支援方法
WO2017126057A1 (ja) 情報検索方法
JPH11316792A (ja) 情報処理装置及び帳表作成方法
JPH0546607A (ja) 文書読み上げ装置
JPH08221443A (ja) 漢字を含むテキストの検索方法及び装置
JPH0623973B2 (ja) 文字処理装置の頻度変更方式
JPH06290298A (ja) 誤字の修正方法
JP2008234099A (ja) 文字列検索装置及び文字列検索方法
JP2002123815A (ja) ファイリング装置
JPH08180060A (ja) 電子辞書表示装置
JPS6029823A (ja) 適応型記号列変換方式
JPH0785040A (ja) 表記不統一検出方法およびかな漢字変換方法

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040706