JPH0916616A - 索引データ生成検索装置 - Google Patents

索引データ生成検索装置

Info

Publication number
JPH0916616A
JPH0916616A JP7165087A JP16508795A JPH0916616A JP H0916616 A JPH0916616 A JP H0916616A JP 7165087 A JP7165087 A JP 7165087A JP 16508795 A JP16508795 A JP 16508795A JP H0916616 A JPH0916616 A JP H0916616A
Authority
JP
Japan
Prior art keywords
character
type
search
index
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7165087A
Other languages
English (en)
Inventor
Yasuo Goto
康雄 後藤
Hiroyuki Hayashi
博之 林
Hidehiko Matsuo
秀彦 松尾
Makoto Takahashi
誠 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TOYO JOHO SYST KK
Original Assignee
TOYO JOHO SYST KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TOYO JOHO SYST KK filed Critical TOYO JOHO SYST KK
Priority to JP7165087A priority Critical patent/JPH0916616A/ja
Publication of JPH0916616A publication Critical patent/JPH0916616A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 記憶容量を低減することができ、高速検索可
能な日本語全文検索システムを提供する。 【構成】 混在データ記憶手段3は、異なる文字種で構
成された文書を複数記憶している。索引データ決定手段
5は、カタカナについては、同じ種類の文字が連続した
部分を一ブロックとして決定し各ブロックごとに、前記
混在データにおける位置を表す位置情報が付加されたカ
タカナ索引データを出力し、索引データ記憶手段7に記
憶される。検索手段9は、カタカナで構成された検索文
字列が与えられると、索引データ記憶手段7に記憶され
た索引データを参照して、前記位置情報を得て、混在デ
ータ記憶手段3に記憶された文書から与えられた検索文
字列を検索する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、データベースシステ
ムに関し、特に、文字種による索引データのデータ形式
変更に関する。
【0002】
【従来技術およびその課題】今日、日本語テキストに対
する検索システムの一つとして全文検索システムが知ら
れている。全文検索システムとは、記憶されているファ
イルに用いられている文字列で検索を行なうシステムで
ある。具体的には、ファイル中の各文字について、ファ
イル番号および当該ファイルにおける文字位置カウンタ
値を一文字づつ記憶させたインデックス部を生成してお
く。そして検索文字列が与えられると、その検索対象の
文字列を1文字づつに分割し、分割した1文字が存在す
るファイルおよびその位置を求め、検索対象の文字列が
連続して存在する文字列のみを抽出する。
【0003】このように、全文検索システムにおいて
は、あらかじめ人間がキーワードを付する必要がないの
で、キーワード設定作業が不要となり、また、キーワー
ドの選定による検索もれを防止することができる。
【0004】しかしながら、従来の全文検索システムに
おいては、以下のような問題点があった。1文字づつフ
ァイル名および文字位置カウンタ値を記憶するようにし
ているので、膨大な記憶容量が必要となる。また検索文
字列の文字数が増えると、検索速度も極端に低下する。
これは上記検索において、複数の文字が連続して存在す
る部分を見つける必要があるからである。
【0005】この発明は、上記の問題点を解決して、記
憶容量の節約および検索速度を向上させることができる
索引データ生成装置または検索装置を提供することを目
的とする。
【0006】また、この発明は、上記の問題点を解決し
て、記憶容量の節約および検索速度を向上させることが
できる日本語文書管理装置、日本語文書管理方法を提供
することを目的とする。
【0007】
【課題を解決するための手段】請求項1の索引データ生
成装置においては、第1種類の文字および第2種類の文
字が混在する混在データが与えられると、第1種類の文
字については一文字を一ブロックとして決定し各ブロッ
クごとに、前記混在データにおける位置を表す位置情報
が付加された第1文字種索引データを出力するととも
に、第2種類の文字については、同じ種類の文字が連続
した部分を一ブロックとして決定し各ブロックごとに、
前記混在データにおける位置を表す位置情報が付加され
た第2文字種索引データを文字種別索引データとして出
力する索引データ決定手段、前記文字種別索引データを
記憶する索引データ記憶手段、を備えたことを特徴とす
る。
【0008】請求項2の索引データ生成装置において
は、前記混在データは、さらに第3種類の文字を含み、
前記索引データ決定手段は、この第3種類の文字につい
ても、同じ種類の文字が連続した部分を一ブロックとし
て決定し各ブロックごとに、前記混在データにおける位
置を表す位置情報が付加された第3文字種索引データを
含む文字種別索引データを出力し、前記索引データ記憶
手段は、この第3文字種索引データを含む文字種別索引
データを記憶すること、を特徴とする。
【0009】請求項3の索引データ生成装置において
は、前記混在データは、複数のファイルから構成されて
おり、前記文字種別索引データは、各々以下の1)第1イ
ンデックスおよび2)第2インデックスを有すること、1)
各ブロックを構成する文字で構成された第1インデック
ス、2)前記第1インデックスに関連づけられた第2イン
デックスであって、前記第1インデックスを有するファ
イル名、前記第1インデックスが当該ファイルに存在す
る個数、および前記第1インデックスが当該ファイルに
存在する位置を有する第2インデックス、を特徴とす
る。
【0010】請求項4の検索装置においては、第1種類
の文字および第2種類の文字が混在する混在データを記
憶する混在データ記憶手段、前記第1種類の文字につい
ては、一文字で一ブロックとし、前記第2種類の文字に
ついては、同じ種類の文字が連続した部分を一ブロック
として、各ブロックごとに、前記混在データにおける位
置を表す位置情報が付加された文字種別索引データを記
憶する索引データ記憶手段、前記第2種類の文字で構成
された文字列が、検索文字列として与えられると、前記
索引データ記憶手段に記憶された文字種別索引データを
参照して、前記位置情報を得て、前記混在データから前
記検索文字列を検索する検索手段、を備えたことを特徴
とする。
【0011】請求項5の検索装置においては、前記検索
手段は、1)前記第1種類の文字および前記第2種類の文
字が混在する混在検索文字列が与えられると、前記第1
種類の文字については、一文字で一検索ブロックとし、
前記第2種類の文字については、同じ種類の文字が連続
した部分を一検索ブロックとして決定する検索ブロック
決定手段、2)前記検索ブロック決定手段が決定した一検
索ブロックに基づいて、前記混在検索文字列が存在する
か検索する混在検索文字列検索手段、3)前記各検索ブロ
ックが、前記混在データ記憶手段に前記混在検索文字列
の順序で存在するか否か判断する判断手段、を有してい
ることを特徴とする。
【0012】請求項6の日本語文書管理装置において
は、ひらがな、漢字、およびカタカナが混在する文書を
記憶する文書記憶手段、前記文書記憶手段に記憶された
文書についての索引データを生成する索引データ生成手
段であって、注目する文字がひらがな又は漢字である場
合には、一文字ごとに前記文書における位置を表す位置
情報が付加された索引データを生成し、注目する文字が
カタカナである場合には、カタカナが連続する部分が1
のブロックであると判断して、このブロックの前記文書
における位置を表す位置情報が付加された索引データを
生成する索引生成手段、前記索引データを文字種別に記
憶する文字種別索引データ記憶手段、カタカナで構成さ
れた検索文字列が与えられた場合には、前記文字種別索
引データ記憶手段に記憶された文字種別索引データを参
照して、前記検索文字列の位置情報を得て、前記文書か
ら前記検索文字列を検索する検索手段、を備えたことを
特徴とする。
【0013】請求項7の索引データ生成方法において
は、第1種類の文字および第2種類の文字が混在する混
在データが与えられると、第1種類の文字については、
一文字で一ブロックとし、第2種類の文字については、
同じ種類の文字が連続した部分を一ブロックとして決定
するとともに、各ブロックごとに、前記混在データにお
ける位置を表す位置情報が付加された文字種別索引デー
タを生成することを特徴とする。
【0014】請求項8の検索方法においては、第1種類
の文字および第2種類の文字が混在する混在データ中の
第1種類の文字については一文字で一ブロックとし、第
2種類の文字については、同じ種類の文字が連続した部
分を一ブロックとして、前記各ブロックごとに、前記混
在データにおける位置を表す位置情報が付加された索引
データを記憶しておき、前記第2種類の文字で構成され
た文字列が、検索文字列として与えられると、前記索引
データを参照して前記位置情報を得て、前記混在データ
から前記検索文字列を検索することを特徴とする。
【0015】請求項9の日本語文書管理方法において
は、ひらがな、漢字、およびカタカナが混在する文書を
記憶しておき、前記文書について、注目する文字がひら
がな又は漢字である場合には、一文字ごとに前記文書に
おける位置を表す位置情報が付加された索引データを生
成し、注目する文字がカタカナである場合には、カタカ
ナが連続する部分が1のブロックであると判断して、こ
のブロックの前記文書における位置を表す位置情報が付
加された索引データを生成して、記憶しておき、カタカ
ナで構成された検索文字列が与えられた場合には、前記
索引データを参照して当該検索文字列の位置情報を得
て、前記文書から前記検索文字列を検索すること、を特
徴とする。
【0016】請求項10のコンピュータを稼働させるプ
ログラムを記憶した記憶媒体は、第1種類の文字および
第2種類の文字が混在する混在データが与えられると、
第1種類の文字については、一文字で一ブロックとし、
第2種類の文字については、同じ種類の文字が連続した
部分を一ブロックとして決定するとともに、各ブロック
ごとに、前記混在データにおける位置を表す位置情報が
付加された索引データを生成させることを特徴とする。
【0017】請求項11のコンピュータを稼働させるプ
ログラムを記憶した記憶媒体においては、第2文字種で
構成された検索文字列が与えられると、この検索文字列
が、同じ種類の文字が連続した部分を一ブロックとした
索引データとして記憶されているか否かを判断し、前記
索引データとして記憶されている場合には、この索引デ
ータに基づいて、前記第1種類の文字および前記第2種
類の文字が混在する混在データから前記検索文字列を検
索させることを特徴とする。
【0018】
【作用】請求項1、請求項7の索引データ生成装置また
は索引データ生成方法においては、第1種類の文字およ
び第2種類の文字が混在する混在データが与えられる
と、第1種類の文字については、一文字で一ブロックと
し、第2種類の文字については、同じ種類の文字が連続
した部分を一ブロックとして決定するとともに、各ブロ
ックごとに、前記混在データにおける位置を表す位置情
報が付加された索引データを生成する。したがって、第
2種類の文字については、複数文字から構成された1ブ
ロックの索引データを得ることができる。このように、
第2種類の文字だけでも、1ブロックの索引データで索
引情報を構成することにより、記憶容量の削減および検
索速度を向上させることができる。
【0019】また、その際、文字の種類を判断するだけ
でよい。これにより、第2種類の文字については、辞書
等と照合することなく、複数の文字列から構成された索
引データを作成することができる。
【0020】請求項2の索引データ生成装置において
は、前記混在データは、さらに第3種類の文字を含み、
この第3種類の文字についても、同じ種類の文字が連続
した部分を一ブロックとして決定するとともに、各ブロ
ックごとに、前記混在データにおける位置を表す位置情
報が付加された索引データを生成する。したがって、こ
の第3種類の文字についても、1ブロックの索引データ
で索引情報を構成することにより、記憶容量をより削減
でき、さらに検索速度を向上させることができる。
【0021】請求項3の索引データ生成装置において
は、前記索引データは、各ブロックを構成する文字で構
成された第1インデックスを有している。したがって、
検索の際に、この第1インデックスを検索するだけで、
当該文字列が存在するか否かを判断することができる。
さらに、前記第2インデックスは、各ファイルに存在す
る個数および存在する位置を有する。このように第2イ
ンデックスは、ファイルと存在する位置というペア情報
ではないので、同一ファイル中に、前記第1インデック
スが複数存在する場合であっても、記憶容量がそれほど
増えることがない。
【0022】請求項4、請求項8の検索装置または検索
方法においては、第1種類の文字および第2種類の文字
が混在する混在データ中の第1種類の文字については一
文字で一ブロックとし、第2種類の文字については、同
じ種類の文字が連続した部分を一ブロックとして、前記
各ブロックごとに、前記混在データにおける位置を表す
位置情報が付加された索引データを記憶しておき、前記
第2種類の文字について記憶されている索引データが、
検索文字列として与えられると、前記索引データを参照
して前記位置情報を得て、前記混在データから前記検索
文字列を検索する。したがって、検索の際に、前記第2
種類の文字については、複数のブロックを組合わせるこ
となく、検索が可能となる。これにより、高速検索がで
きる。
【0023】請求項5の検索装置においては、前記第1
種類の文字および前記第2種類の文字が混在する混在検
索文字列が与えられると、前記第1種類の文字について
は、一文字で一検索ブロックとし、前記第2種類の文字
については、同じ種類の文字が連続した部分を一検索ブ
ロックとして決定する。決定した一検索ブロックに基づ
いて、前記混在検索文字列が存在するか検索する。そし
て、前記各検索ブロックが、前記混在データに前記混在
検索文字列の順序で存在するか否か判断する。前記第2
種類の文字については一検索ブロックが複数の文字から
構成されているので、組合わせ数が全体として減少する
ので、高速検索ができる。
【0024】請求項6、請求項9の日本語文書管理装置
または日本語文書管理方法においては、ひらがな、漢
字、およびカタカナが混在する文書について、注目する
文字がひらがな又は漢字である場合には、一文字ごとに
前記文書における位置を表す位置情報が付加された索引
データを生成し、注目する文字がカタカナである場合に
は、カタカナが連続する部分が1のブロックであると判
断して、このブロックの前記文書における位置を表す位
置情報が付加された索引データを生成して、記憶する。
したがって、この索引データは、カタカナについては連
続する部分が1のブロックであると認識される。したが
って、記憶容量を低減することができる。
【0025】また、カタカナで構成された検索文字列が
与えられた場合には、前記索引データを参照して当該検
索文字列の位置情報を得て、前記文書から前記検索文字
列を検索する。したがって、検索の際に、カタカナにつ
いては、複数のブロックを組合わせることなく、検索が
可能となる。したがって、高速検索ができる。
【0026】請求項10のプログラムを記憶した記憶媒
体においては、第1種類の文字および第2種類の文字が
混在する混在データが与えられると、第1種類の文字に
ついては、一文字で一ブロックとし、第2種類の文字に
ついては、同じ種類の文字が連続した部分を一ブロック
として決定するとともに、各ブロックごとに、前記混在
データにおける位置を表す位置情報が付加された索引デ
ータを生成させるように、コンピュータを稼働させる。
したがって、コンピュータは、第2種類の文字について
は、複数文字から構成された1ブロックの索引データを
得ることができる。このように、第2種類の文字だけで
も、1ブロックの索引データで索引情報を構成すること
により、記憶容量の削減および検索速度を向上させるこ
とができる。
【0027】請求項11のプログラムを記憶した記憶媒
体においては、第2文字種で構成された検索文字列が与
えられると、この検索文字列が、同じ種類の文字が連続
した部分を一ブロックとした索引データとして記憶され
ているか否かを判断し、前記索引データとして記憶され
ている場合には、この索引データに基づいて、前記第1
種類の文字および前記第2種類の文字が混在する混在デ
ータから前記検索文字列を検索させるようにコンピュー
タを稼働させる。したがって、検索の際に、第2種類の
文字については、複数のブロックを組合わせることな
く、検索が可能となる。したがって、高速検索ができ
る。
【0028】
【実施例】
1.機能ブロック図の説明 本発明の一実施例を図面に基づいて説明する。図1に示
す索引データ生成検索装置1においては、索引データ決
定手段5、索引データ記憶手段7、混在データ記憶手段
3および検索手段9を備えている。
【0029】混在データ記憶手段3は、複数のファイル
を記憶しており、各ファイルは第1種類、第2種類およ
び第3種類の文字が混在する混在データから構成されて
いる。索引データ決定手段5は、第1種類、第2種類お
よび第3種類の文字が混在する混在データが与えられる
と、第1種類の文字については一文字を一ブロックとし
て決定し各ブロックごとに、前記混在データにおける位
置を表す位置情報が付加された第1文字種索引データを
出力する。また、第2種類の文字については、同じ種類
の文字が連続した部分を一ブロックとして決定し各ブロ
ックごとに、前記混在データにおける位置を表す位置情
報が付加された第2文字種索引データを出力する。ま
た、第3種類の文字については、同じ種類の文字が連続
した部分を一ブロックとして決定し各ブロックごとに、
前記混在データにおける位置を表す位置情報が付加され
た第3文字種索引データを出力する。索引データ記憶手
段7は、この第1文字種索引データ、第2文字種索引デ
ータ、および第3文字種索引データを記憶する。
【0030】第1文字種索引データは、各々、以下に説
明する第1文字種第1インデックスおよび第1文字種第
2インデックスを有する。第1文字種第1インデックス
は、各ブロックを構成する文字列で構成されている。第
1文字種第2インデックスは、第1文字種第1インデッ
クスに関連づけられており、第1文字種第1インデック
スを有するファイル名、第1文字種第1インデックスが
当該ファイルに存在する個数、および第1文字種第1イ
ンデックスが当該ファイルに存在する位置を有する。第
2文字種索引データについても、同様に、第2文字種第
1インデックスおよび第2文字種第2インデックスを有
する。第3文字種索引データについても、同様に、第3
文字種第1インデックスおよび第3文字種第2インデッ
クスを有する。
【0031】検索手段9は、第2種類の文字で構成され
た文字列が、検索文字列として与えられると、索引デー
タ記憶手段7に記憶された文字種別索引データ(第1文
字種索引データ、第2文字種索引データ、および第3文
字種索引データ)を参照して、前記位置情報を得て、混
在データ記憶手段3に記憶された混在データから与えら
れた検索文字列を検索する。
【0032】検索手段9の詳細について説明する。検索
手段9は、検索ブロック決定手段11、混在検索文字列
検索手段12、および判断手段13を有している。検索
ブロック決定手段11は、第1種類の文字および前記第
2種類の文字が混在する混在検索文字列が与えられる
と、第1種類の文字については、一文字で一検索ブロッ
クとし、第2種類の文字については、同じ種類の文字が
連続した部分を一検索ブロックとして決定する。混在検
索文字列検索手段12は、検索ブロック決定手段11が
決定した一検索ブロックに基づいて、混在検索文字列が
存在するか検索する。判断手段13は、各検索ブロック
が、混在データ記憶手段3に混在検索文字列の順序で存
在するか否か判断する。
【0033】本実施例においては、カタカナが第2種類
の文字に該当し、アルファベットが第3種類の文字に該
当し、上記以外の漢字およびひらがなが第1種類の文字
に該当する。
【0034】2.ハードウェア構成の説明 図2は、図1に示す全文検索システム1をCPUを用い
て実現したハードウェア構成の一例を示す。
【0035】全文検索システム1は、CPU23、FD
D25、メモリ27、ハードディスク26、キーボード
28、マウス33、バスライン29、プリンタ31およ
びCRT30を備えている。キーボード28およびマウ
ス33は、各種の命令を入力する命令入力手段である。
【0036】CPU23は、ハードディスク26に記憶
された制御プログラムにしたがいバスライン29を介し
て、各部を制御する。
【0037】この制御プログラムは、FDD33を介し
て、プログラムが記憶されたフレキシブルディスクから
読み出されてハードディスク26に記憶された(インス
トールされた)ものである。メモリ27は、カタカナ文
字列バッファ、アルファベット文字列バッファ、その他
文字列バッファ、索引バッファ、トークンバッファ、ワ
ークエリアを有している。
【0038】ハードディスク26は、文書データ記憶
部、カタカナ第1インデックス記憶部、カタカナ第2イ
ンデックス記憶部、アルファベット第1インデックス記
憶部、アルファベット第2インデックス記憶部、その他
第1インデックス記憶部、その他第2インデックス記憶
部を有している。
【0039】CRT30には、CPU23が処理した処
理結果等が表示される。
【0040】3.フローチャートの説明 3-1.索引生成のフローチャートについて つぎに、図5を用いて、ハードディスク26に記憶され
ているプログラムについて説明する。
【0041】まず、索引生成のフローチャートを説明す
る。ここでは、図3に示す文書0、および図4に示す文
書1が与えられたとして説明する。なお、図3、図4に
おいては、漢字の後は空白となっているが、これは、漢
字は2バイト、それ以外は1バイトがデータが構成され
ている為、先頭からの位置(バイト数)を理解しやすく
するものであり、現実のデータはデータが連続してい
る。
【0042】CPU23は、図3および図4に示す文書
0、文書1のテキストデータを読み込む(図5ステップ
ST1)。ハードディスク26の文書データ記憶部か
ら、メモリ27のワークエリアに読み込まれることによ
り、これらのテキストの読み込みが行われる。
【0043】つぎに、CPU23は、索引作成処理を行
なう(図5ステップST3)。索引作成処理について図
6、図7を用いて説明する。
【0044】CPU23は、処理対象文字数iおよびカ
レント状態sを初期化する(図6ステップST11)。
つぎに、CPU23は、前状態rとしてカレント状態s
の状態を記憶する(ステップST13)。つぎに、CP
U23は、図8に示す状態遷移図を用いて、カレント状
態sおよびi番目の文字種に基づき、カレント状態sが
どのように変化するか(変化しない場合も含む)を求め
る(図6ステップST15)。
【0045】状態遷移図について図8を用いて説明す
る。カレント状態が状態0でi番目の文字種がカタカナ
である場合は、カレント状態は状態1となる。この状態
1からカタカナ以外の文字種が与えられると(EOFを
含む)、カレント状態は状態4に移る。状態1にて、文
字種としてカタカナが与えられている間は、カレント状
態は、状態1のまま保持される。
【0046】また、状態0でi番目の文字種がアルファ
ベットである場合には、カレント状態は状態2となる。
そして、この場合も状態1の場合と同様に、この状態か
らアルファベット以外(EOFを含む)が与えられる
と、カレント状態は状態4となる。
【0047】また、状態0からその他の文字が与えられ
ると、カレント状態は状態3に移る。この実施例では、
その他の文字として、ひらがな、漢字およびその他の記
号を採用した。状態3では、つぎに、いずれの種類の文
字が与えられた場合でも、カレント状態は状態4に移
る。状態4からは、状態0に移る。
【0048】具体的に、図3に示す文書0が与えられた
場合の処理について説明する。まずこの場合、処理対象
文字数i=0に設定されているので、CPU23は、文
書0(図3参照)の0バイト目の文字「Q」を読み込
む。文字「Q」はアルファベットであるので、図6ステ
ップST15において、図8に示す状態遷移図にしたが
って、カレント状態は、状態0から状態2となる。
【0049】つぎに、CPU23は、カレント状態が状
態4か(s=4)否か判断する(図6ステップST1
6)。この場合、カレント状態は状態2であるので、ス
テップST17に進み、i番目(0番目)の文字種類に
ついて判断する。この場合、0番目の文字種類はアルフ
ァベットであるので、メモリ27のアルファベット文字
列バッファに、文字「Q」を記憶する(ステップST1
9)。つぎに、CPU23は、処理対象文字数iをイン
クリメントし(ステップST21)、カレント状態sを
前状態rとして記憶する(図6ステップST13)。カ
レント状態は状態2であるので、前状態rには状態2が
記憶される。
【0050】つぎにCPU23は、ステップST15の
処理を行なう。この場合、処理対象文字数i=1なの
で、1バイト目の文字「u」の文字種を判断する。文字
「u」はアルファベットであるので、図8に示す状態遷
移図に示すように、状態2のままで保持される。したが
って、カレント状態sは状態2のまま変化しない。
【0051】CPU23は、カレント状態sが状態4か
否か判断する(図6ステップST16)。この場合、カ
レント状態sは状態2であるので、ステップST17に
進み、i番目(1番目)の文字種類を判断する。この場
合、文字種類はアルファベットであるので、CPU23
は、メモリ27のアルファベット文字列バッファに1番
目の文字「u」を追加記憶する(ステップST19)。
すなわち、アルファベット文字列バッファには、「Q
u」と記憶される。
【0052】このような処理を、処理対象文字数i=7
まで繰返して、アルファベット文字列バッファに、「Q
uantify」と記憶される。
【0053】つぎに、CPU23は、ステップST21
にて処理対象文字数iをインクリメントし(i=8)、
カレント状態sを前状態rとして記憶する(図6ステッ
プST13)。この場合、カレント状態は状態2である
ので、前状態rは状態2が記憶される。
【0054】ここでi番目(8番目)の文字種は、ひら
がな「は」であるので、図8に示す状態遷移図に基づい
て、カレント状態sは状態4となる(図6ステップST
15)。CPU23は、カレント状態sが状態4である
ので、ステップST16からステップST22に進む。
ステップST22では、前状態rが状態1、状態2、ま
たは状態3であるかを判断する。この場合、前状態rが
状態2であるので、CPU23はステップST25に進
み、アルファベット文字列バッファの内容「Quant
ify」をトークンとしてメモリ27のワークエリアに
記憶する。
【0055】そして、ステップST26に進み、アルフ
ァベット文字列バッファをクリアする。つぎに、CPU
23は、ステップST30に進み、カレント状態を状態
0とする。
【0056】CPU23は、メモリ27のワークエリア
に記憶したトークン「Quantify」が、既に登録
されているか否か判断する(図7ステップST33)。
この場合、はじめてのトークンであるので、当該トーク
ン、および索引データを、メモリ27の索引バッファに
記憶する(ステップST34)。本実施例においては、
索引データとして、ファイル番号および文字位置カウン
タ値を採用した。すなわち、この場合、索引バッファに
は、トークン「Quantify」、ファイル番号
「0」、および文字位置カウンタ「0」が記憶される。
このように、して、i−1番目(7番目)までの文字に
ついての処理が終了する。
【0057】つぎに、CPU23は、ファイルの最終ま
で処理したか否か判断する(ステップST37)。この
場合、ファイルの最終まで処理が終了していないので、
i番目(8番目)の文字の処理を行う。
【0058】ステップST30にて、カレント状態sを
状態0としたので、i番目(8番目)の文字について、
再度ステップST13、ステップST15の処理を行
う。これにより、前状態r=0、カレント状態s=3と
なる。ステップST16にて、カレント状態は状態3で
あるので、ステップST17に進み、i番目(8番目)
の文字種類について判断する。この場合、i番目(8番
目)の文字種類は、ひらがなである。したがって、メモ
リ27のその他文字列バッファに、文書0の8番目の文
字「は」を記憶する(図6ステップST20)。そし
て、CPU23は、iをインクリメントして、処理対象
文字数i=9とする。
【0059】つぎに、CPU23は、前状態rとして、
カレント状態sの状態(この場合状態3)を記憶する
(図6ステップST13)。そして、ステップST15
の処理を行なう。
【0060】ここで9番目の文字種は句点「、」である
ので、図8に示す状態遷移図に基づいて、カレント状態
sは、状態3から状態4となる。CPU23は、ステッ
プST16にて、カレント状態sが状態4であるので、
ステップST22に進み、前状態rの値を判断する。こ
の場合、前状態rは状態3であるので、ステップST2
8に進み、その他文字列バッファの内容を、トークンと
してメモリ27に記憶する。すなわち、ひらがな「は」
が記憶される。CPU23は、その他文字列バッファの
内容をクリアし(ステップST29)、カレント状態s
を状態0とする(ステップST30)。
【0061】CPU23は、トークン「は」が既に登録
されているトークンか否か判断する(図7ステップST
33)。この場合、ひらがな「は」は、登録されている
トークンではないので、当該トークン「は」、ファイル
番号「0」、文字位置カウンタ「8」が、索引バッファ
に記憶される。この状態の索引バッファのデータ構造
を、図9Bに示す。図に示すように、トークン「Qua
ntify」とトークン「は」について、夫々、索引デ
ータ「0、0」と「0、8」が記憶されている。
【0062】つぎに、CPU23は、ステップST37
に進み、ファイルエンドか否か判断する。この場合、フ
ァイルエンドではないので、i番目(9番目)の文字に
ついて、再度図6ステップST13、ステップST15
の処理を行う。これにより、前状態r=0、カレント状
態s=3となる。ステップST16にて、カレント状態
は状態3であるので、ステップST17に進み、i番目
(9番目)の文字種類について判断する。この場合、i
番目(9番目)の文字種類は、記号である。したがっ
て、その他文字列バッファに、文書0の9番目の文
字「、」を記憶する(図6ステップST20)。そし
て、iをインクリメントして、処理対象文字数i=10
とする。
【0063】つぎに、CPU23は、前状態rとして、
カレント状態sの状態(この場合状態3)を記憶する
(図6ステップST13)。そして、ステップST15
の処理を行なう。
【0064】ここで10番目の文字種は、カタカナ
「ア」であるので、図8に示す状態遷移図に基づいて、
カレント状態sは、状態3から状態4となる。CPU2
3は、ステップST16にて、カレント状態sが状態4
であるので、ステップST22に進み、前状態rの値を
判断する。この場合、前状態rは状態3であるので、ス
テップST28に進み、その他文字列バッファの内容
を、トークンとしてメモリ27に記憶する。すなわち、
記号「、」が記憶される。CPU23は、その他文字列
バッファの内容をクリアし(ステップST29)、カレ
ント状態sを状態0とする(ステップST30)。
【0065】CPU23は、トークン「、」が既に登録
されているトークンか否か判断する(図7ステップST
33)。この場合、トークン「、」は、既に登録されて
いるトークンではないので、当該トークン「、」、ファ
イル番号「0」、文字位置カウンタ「9」が、索引バッ
ファに記憶される(図示せず)。
【0066】つぎに、CPU23は、ステップST37
に進み、ファイルエンドか否か判断する。この場合、フ
ァイルエンドではないので、i番目(10番目)の文字
について、再度図6ステップST13、ステップST1
5の処理を行う。これにより、前状態r=0、カレント
状態s=1となる。ステップST16にて、カレント状
態は状態1であるので、ステップST17に進み、i番
目(10番目)の文字種類について判断する。この場
合、i番目(10番目)の文字種類は、カタカナであ
る。したがって、メモリ27のカタカナ文字列バッファ
に、文書0の10番目の文字「ア」を記憶する(図6ス
テップST18)。そして、iをインクリメントして、
処理対象文字数i=11とする。
【0067】つぎにCPU23は、iをインクリメント
し(ステップST21)、ステップST13にてカレン
ト状態s(状態1)を前状態rとして記憶する。つぎに
CPU23は、ステップST15の処理を行なう。この
場合、i番目(11番目)の文字種はカタカナ「プ」で
あるので、カレント状態sは状態1のまま変化しない。
【0068】つぎに、CPU23は、ステップST16
にて、カレント状態sが状態4でないと判断し、ステッ
プST17にてi番目(11番目)の文字種類を判断す
る。この場合、11番目の文字種類はカタカナであるの
で、カタカナ文字列バッファに「プ」が記憶される。す
なわち、カタカナ文字列バッファには、「アプ」が記憶
される。
【0069】このような処理を、処理対象文字数i=1
7まで繰返して、カタカナ文字列バッファに、「アプリ
ケーション」と記憶される。
【0070】CPU23は、ステップST21にて処理
対象文字数iをインクリメントし、処理対象文字数i=
18となった場合、図6ステップST13にてカレント
状態s(状態1)が前状態rとして記憶される。
【0071】ステップST15にて、18番目の文字
種、この場合18番目の文字種はひらがな「の」である
ので、カレント状態sは状態4となる。したがってCP
U23は、ステップST16からステップST22に進
み、前状態rについて判断する。この場合、前状態r=
1であるので、ステップST23に進み、カタカナ文字
列バッファの内容をトークンとして記憶する。すなわ
ち、この場合、「アプリケーション」がトークンとして
記憶される。
【0072】つぎにCPU23は、カタカナ文字列バッ
ファの内容をクリアする(ステップST24)。そして
ステップST30にてカレント状態sを状態0とする。
【0073】つぎに、CPU23は、ステップST33
に進み、トークン「アプリケーション」が登録されてい
るトークンか否か判断する。この場合、「アプリケーシ
ョン」は登録されていないので、当該トークン「アプリ
ケーション」、ファイル番号「0」、文字位置カウンタ
「10」が、索引バッファに記憶される(図7ステップ
ST34)。
【0074】つぎに、CPU23は、ファイルエンドか
否か判断する(ステップST37)。この場合、ファイ
ルエンドではないので、i番目(18番目)の文字につ
いて、再度図6ステップST13、ステップST15の
処理を行う。これにより、前状態r=0、カレント状態
s=3となる。ステップST16にて、カレント状態は
状態3であるので、ステップST17に進み、i番目
(18番目)の文字種類について判断する。この場合、
i番目(18番目)の文字種類は、ひらがなである。し
たがって、その他文字列バッファに、文書0の18番目
の文字「の」を記憶する(図6ステップST20)。そ
して、iをインクリメントして、処理対象文字数i=1
9とする。このようにして、ファイル「0」の文字列
が、文字種毎に索引バッファに記憶される。
【0075】本実施例においては、以上説明したよう
に、カタカナおよびアルファベットについては、それが
連続している限り1つのトークンとして記憶される。
【0076】なお、図7ステップST33において、既
に登録されているトークンであると判断した場合は、C
PU23は登録されているトークンの後に、当該トーク
ンのファイル番号と文字位置カウンタを追加記憶する
(ステップST35)。具体的には、図9Cに示すよう
に、トークン「Quantify」索引データ「0,
0」とある後に「0,92」が記憶される。このような
処理を、ファイルエンドまで繰り返す。ステップST3
7にてファイルエンドとなった場合には、索引生成処理
が終了する。
【0077】つぎに、CPU23は、図5ステップST
7にて、全てのテキストについて索引生成処理が終了し
たか否か判断し、終了していない場合には図5ステップ
ST1およびステップST3の処理を繰り返す。このよ
うにして、図9Dに示すように、メモリ27の索引バッ
ファにトークンおよび索引データが記憶される。
【0078】CPU23は、図5ステップST7にて全
てのテキスト処理が終了したと判断した場合には、索引
整理処理(図5ステップST9)を行なう。索引整理処
理について、図10および図11を用いて説明する。
【0079】CPU23は、索引バッファの処理対象番
号pを初期化する(図10ステップST51)。つぎ
に、ファイル番号qを初期化する(ステップST5
3)。つぎに、p番目のトークンを索引バッファから読
み出す(ステップST55)。この場合、図9Dに示す
ように、p番目(0番目)のトークンは、トークン「Q
uantify」であるので、当該トークン「Quan
tify」が読み出される。
【0080】つぎに、CPU23は、読み出されたトー
クンの文字種類について判断する(図10ステップST
57)。この場合、文字種としては、アルファベットで
あるので、ステップST71に進み、ファイル番号q
(この場合、ファイル0)の文字位置カウンタがあるか
どうか判断する。この場合、ファイル0のデータが2つ
存在するので、この個数2と文字位置カウンタ「0,9
2」をハードディスク26のアルファベット第2インデ
ックス記憶部に記憶する(ステップST73)。
【0081】つぎに、ファイル番号が最終か否か判断
し、最終でなければ、ステップST77でファイル番号
qをインクリメントし、ステップST71以下の処理を
繰り返す。この場合、図9Dに示すように、ファイル1
のデータが存在しないので、ステップST75に進み、
ファイル番号が最終であるので、ステップST79に進
み、当該トークン、アルファベット第2インデックス上
の位置、およびそのサイズを、ハードディスク26のア
ルファベット第1インデックス記憶部に記憶する(ステ
ップST79)。この場合、トークン「Quantif
y」、アルファベット第2インデックス上の位置
「0」、サイズ「16」が、図12Bに示すように記憶
される。
【0082】なお、この場合、サイズが16となってい
るのは、図12Aに示すように、「0,2,0,92」
と4つのデータがあり、各データについて、4バイトで
表した為、4×4=16となったものである。
【0083】つぎに、CPU23は、図11ステップS
T91に進み、索引バッファに記憶されているデータ
が、全て処理したか否か判断する。終了していない場合
には、ステップST93に進み、処理対象ファイルpを
インクリメントし、ステップST53以下の処理を繰り
返す。この場合、図9Dに示す索引バッファには、つぎ
に「は」が記憶されているので、この1番目のトークン
が読み出される(図10ステップST55)。つぎに、
読み出されたトークンの文字種類について判断する(ス
テップST57)。この場合、読み出されたトークン
は、ひらがなであるので、図11ステップST80に進
み、ひらがな「は」のファイル番号qのデータを抽出す
る。この場合、図9Dに示すようにファイル番号q(こ
の場合、ファイル0)のデータとしては、文字位置カウ
ンタ8および文字位置カウンタ100が存在するので、
ステップST81にてデータが存在すると判断し、その
個数「2」と文字位置カウンタ「8,100」が、図1
3Aに示すように、ハードディスク26の、その他第2
インデックス記憶部に「2,8,100」と記憶される
(ステップST83)。
【0084】CPU23は、ファイル番号が最終か否か
判断する(ステップST85)。この場合、最終でない
ので、ファイル番号qをインクリメントし(ステップS
T87)、ステップST80にて、ファイル1のデータ
を抽出する。この場合ファイル1には、文字位置カウン
タ「33,122」のデータが存在するので、ステップ
ST81にてデータがあると判断し、その個数「2」と
文字位置カウンタ「33,122」が、その他第2イン
デックス記憶部に追加記憶される。この状態を、図13
Bに示す。
【0085】つぎに、CPU23は、図11ステップS
T85にて、ファイル番号qが最終か否か判断する。こ
の場合、最終であるので、ステップST89に進み、当
該トークン「は」、その他第2インデックス上の位置
「0」、およびそのサイズ「32」が、図13Cに示す
ように、アルファベット第1インデックス記憶部に記憶
される。
【0086】なお、この場合、サイズが32となってい
るのは、図13Bに示すように、「0,2,8,10
0,1,2,33,122」と8つのデータがあり、各
データについて、4バイトで表す為である。
【0087】つぎに、CPU23は、図11ステップS
T91にて、索引バッファに記憶されているデータが最
終かどうか判断する。この場合、最終でないので、ステ
ップST93に進み、ファイル番号pをインクリメント
し、図10ステップST53、ステップST55の処理
を行なう。
【0088】ここで、図9Dに示すトークン「アプリケ
ーション」が、p番目の索引データとしてステップST
55にて読み出された場合の処理について説明する。
【0089】トークン「アプリケーション」の文字種類
はカタカナであるので、ステップST57からステップ
ST61に進む。ステップST61では、トークン「ア
プリケーション」について、ファイル番号p(この場合
ファイル0)のデータがあるかどうか判断する。この場
合、ファイル0については、文字位置カウンタ「10,
70」にデータが存在するので、その個数「2」および
文字位置カウンタ「10,70」が、ハードディスク2
6のカタカナ第2インデックス記憶部に記憶される(図
10ステップST63)。
【0090】つぎに、CPU23は、ファイル番号が最
終か否か判断する(ステップST65)。この場合、最
終ではないので、ステップST67に進み、qをインク
リメントし、ステップST61に進む。つぎに、CPU
23は、ファイル番号q(この場合ファイル1)のデー
タが存在するので、ステップST63に進み、その個数
「1」および文字位置カウンタ「139」を、カタカナ
第2インデックス記憶部に記憶する。
【0091】つぎに、ステップST65にて、ファイル
番号が最終か否か判断する。この場合最終であるので、
ステップST69に進み、当該トークン「アプリケーシ
ョン」、カタカナ第2インデックス上の位置「0」およ
びそのサイズ「28」が、ハードディスク26のカタカ
ナ第1インデックス記憶部に記憶される。図14Aにカ
タカナ第2インデックス記憶部の内容を、図14Bにカ
タカナ第1インデックス記憶部の内容を各々示す。
【0092】つぎに、CPU23は、図11ステップS
T91に進み、索引バッファに記憶されているデータが
最終か否か判断する。この場合、最終ではないのでファ
イル番号pをインクリメントする(ステップST9
3)。そして、図10ステップST53以下の処理を繰
り返す。
【0093】このようにして、カタカナ、アルファベッ
ト、その他の文字種別の索引データが種類を区分して、
それぞれハードディスク26のカタカナ第1インデック
ス記憶部、カタカナ第2インデックス記憶部、アルファ
ベット第1インデックス記憶部、アルファベット第2イ
ンデックス記憶部、その他第1インデックス記憶部、そ
の他第2インデックス記憶部に記憶される。
【0094】つぎに、図9Dに示すトークン「パフォー
マンス」が、p番目の索引データとして読み出された場
合の処理について説明する。この場合、CPU23は、
文字種類としてはカタカナであるので、ステップST6
1に進み、ファイル番号q(この場合ファイル0)のデ
ータが有るか否か判断する(ステップST61)。この
場合、ファイル0のデータは2つ存在するので、その個
数「2」および文字位置カウンタ「102,153」
を、カタカナ第2インデックス記憶部に追加記憶する
(ステップST63)。この状態のカタカナ第2インデ
ックス記憶部を図14Cに示す。このように、カタカナ
第2インデックス記憶部には、別のトークンのデータが
連続して記憶される。
【0095】つぎに、ファイル番号が最終か否か判断す
る。この場合、最終ではないので、ステップST67に
進み、ファイル番号qをインクリメントし、ステップS
T61に戻りファイル1のデータが存在するか否か判断
する。この場合、ファイル1のデータが1つ存在するの
で、その個数「1」および文字位置カウンタ「9」が、
カタカナ第2インデックス記憶部にさらに追加記憶され
る。この状態のカタカナ第2インデックス記憶部のデー
タ構造を図14Dに示す。
【0096】つぎに、CPU23は、ファイル番号が最
終か否か判断する(ステップST65)。この場合最終
であるので、図14Eに示すように、当該トークン「パ
フォーマンス」、カタカナ第2インデックス記憶部上の
位置「32」および、そのサイズ「28」がカタカナ第
1インデックス記憶部に記憶される。CPU23は、索
引バッファが最終か否か判断し、最終でない場合には、
ステップST93に進み、図10ステップST53以下
の処理を繰り返す。
【0097】これに対して、図11ステップST91に
て、索引バッファのデータが最終である場合には、索引
整理処理を終了する。このようにして、図3、4に示す
文書0および文書1が与えられた場合には、図12、図
13、図14に示すそれぞれのデータが、インデックス
情報として生成される。
【0098】3-2.検索処理のフローチャートについて つぎに、生成したインデックス情報に基づいた検索処理
について説明する。CPU23は、図15に示す検索フ
ローチャートにて検索処理を行なう。まず、カタカナ第
1インデックス記憶部、アルファベット第1インデック
ス記憶部、その他第1インデックス記憶部に記憶されて
いるデータを、メモリ27のワークエリアに読み込む
(ステップST101)。
【0099】つぎに、検索文字列をメモリ27に読み込
む(ステップST103)。ここでは、索引生成処理
(図5ステップST3)にて図16に示すインデックス
情報が作成されており、検索文字列として「パフォーマ
ンス最適化」が与えられたものとして説明する。
【0100】CPU23は、当該検索文字列を各トーク
ンに分割して、メモリ27のトークンバッファにトーク
ン毎に記憶する(ステップST105)。この状態を図
17に示す。このように、検索文字列「パフォーマンス
最適化」は、トークン「パフォーマンス」、トークン
「最」、トークン「適」、トークン「化」に分割されて
記憶される。なお、各トークンに分割する手法として
は、既に説明した索引生成処理における分割手法と同様
であるので説明は省略する。
【0101】つぎに、CPU23は、処理対象トークン
番号iを初期化し(ステップST107)、ステップS
T109にて、トークンバッファ記憶数Nが処理対象ト
ークン番号iよりも大きいか否か判断する。この場合、
トークンバッファ記憶数Nは0、1、2、3の4つであ
り、処理対象トークン番号iが0であるので、N>iと
してステップST111に進む。
【0102】CPU23は、i番目(0番目)のトーク
ンを検索キーとし、該当する文字種の第1インデックス
記憶部を検索する(ステップST111)。この場合、
i番目(0番目)のトークンは、文字種がカタカナであ
るので、カタカナ第1インデックス記憶部にトークン
「パフォーマンス」が存在するか否か判断する(ステッ
プST113)。この場合、図16Aに示すように、ト
ークン「パフォーマンス」が存在するので、CPU23
は、図16Bに示すカタカナ第2インデックス記憶部か
ら必要なデータを読み出して、メモリ27のワークエリ
アに記憶する(ステップST115)。この場合のワー
クエリアのデータ構造を図18Aに示す。図に示す様
に、アドレス0には「〈0,102,153〉〈1,
9〉」と記憶されている。なお、この場合、カタカナ第
2インデックス記憶部のデータのうち、ファイル番号の
後の個数は省略されて記憶される。すなわち、ファイル
0の文字位置カウンタ「102,153」および、ファ
イル1の文字位置カウンタ「1,9」に当該トークンが
存在することを示している。
【0103】つぎに、CPU23は、処理対象トークン
番号iをインクリメントし(図15ステップST11
7)、ステップST109に戻る。ここでは、トークン
バッファ記憶数Nが処理対象トークン番号iよりも大き
いので(N=4、i=1)、1番目のトークン「最」を
キーとして、該当する文字種類の第1インデックスを検
索する(ステップST111)。この場合、1番目のト
ークンの文字種類は漢字であるので、その他第1インデ
ックス記憶部に当該トークン「最」が存在するか否か判
断する(ステップST113)。
【0104】ここで、トークン「最」が、図16Cに示
すその他第1インデックス記憶部に存在するので、図1
6Dに示すその他第2インデックス記憶部からデータを
読み出して(先頭位置1024バイト目から24バイト
分)、前記ワークエリアに記憶する(ステップST11
5)。この場合のワークエリアのデータ構造を図18B
に示す。図に示す様に、アドレス1に「〈0,160〉
〈1,16〉」と記憶されている。
【0105】つぎに、CPU23は、処理対象トークン
番号iをインクリメントし、ステップST109に戻
る。ここでは、トークンバッファ記憶数Nが処理対象ト
ークン番号iよりも大きいので、2番目のトークンをキ
ーとして該当する文字種類の第1インデックスを検索す
る(ステップST111)。この場合、2番目のトーク
ンは「適」であるので、その他第1インデックス記憶部
に当該トークン「適」が存在するか否か判断する(ステ
ップST113)。この場合、トークン「適」が存在す
るのでステップST115に進み、図16Dに示すその
他第2インデックス記憶部からデータを読み出し(先頭
位置1048バイト目から24バイト分)、前記ワーク
エリアに記憶する(ステップST115)。この場合の
ワークエリアのデータ構造を図18Cに示す。図に示す
様に、アドレス2に「〈0,162〉〈1,18〉」と
記憶されている。
【0106】つぎに、CPU23は、処理対象トークン
番号iをインクリメントし、ステップST109に戻
る。ここで、処理対象トークン番号i=3であるので、
ステップST111に進み、3番目のトークンをキーと
して該当する文字種の第1インデックスが検索される。
この場合、3番目のトークンは「化」であるので、図1
6Cに示すその他第1インデックス記憶部に、当該トー
クン「化」が存在するか否か判断する(ステップST1
13)。この場合存在するので、図16Dに示すその他
第2インデックス記憶部からデータを読み出して(先頭
位置1072バイト目から28バイト分)、前記ワーク
エリアに記憶する。この場合のワークエリアのデータ構
造を図18Cに示す。図に示す様に、アドレス3に
「〈0,164,175〉〈1,20〉」と記憶されて
いる。
【0107】つぎに、CPU23は、処理対象トークン
番号iをインクリメントし(ステップST117)、ス
テップST109に戻る。ここで、処理対象トークン番
号i=4であるので、ステップST109ではN>iで
ないと判断し、ステップST121に進む。ステップS
T121では個数Nが1か否か判断する。この場合、個
数Nは1ではないので、ステップST123に進み、各
トークンが連続しており与えられた検索文字列を構成す
るデータ以外のデータを、前記ワークエリアから削除す
る。この削除について図17、図18Dを用いて説明す
る。
【0108】まず、CPU23は、図18Dに示す各ア
ドレスのデータについて、存在するファイル番号を調べ
て、全てのアドレスに共通するデータのみ取り出す。他
は排除する。例えば、アドレス0には、ファイルn,n
+1に当該トークンが存在し、アドレス1には、ファイ
ルn,n+1、n+2に当該トークンが存在し、アドレ
ス3には、ファイルn,n+1、n+3に当該トークン
が存在し、アドレス4には、ファイルn,n+1、n+
2、n+3に当該トークンが存在する場合、全てのアド
レスに共通するファイルは、ファイルn,n+1であ
る。したがって、各アドレスのうち、これ以外のファイ
ル(ファイルn+2、n+3)のデータについては排除
する。
【0109】このような排除処理を行うことにより、後
述する減算処理をする対象を減らすことができ、より高
速処理が可能である。
【0110】この場合は、アドレス0からアドレス3に
ついて、ファイル0、ファイル1が、この共通のファイ
ルとなるので(ファイル0、1については全てのアドレ
スに共通に存在する)、かかる排除処理は行わない。
【0111】つぎに、連続する位置に存在するデータか
否か判断するために、図17に示す各トークンの文字数
を文字列カウンタ位置から減算する。例えば、前記ワー
クエリアのアドレス0については、文字位置カウンタに
は、ファイル0に「102,153」、ファイル1に
「1,9」が存在する。ここで、0番目のトークン「パ
フォーマンス」の開始位置が0であるので、「102,
153,1,9」からそれぞれ0を引く。これにより
「102,153,1,9」が得られる。
【0112】つぎに、図18Dに示す前記ワークエリア
のアドレス1についても同様の処理を行なう。この場
合、ファイル0には、文字位置カウンタ「1,160」
が存在し、ファイル1には、「1,16」が存在する。
このトークン「最」は、検索文字列の先頭開始位置を0
バイト目とすると、7バイト目となる。したがって、そ
れぞれの文字位置カウンタから「7」を引く。これによ
り「−6、153、−6、9」が得られる。
【0113】同様に、図17に示すアドレス2のトーク
ン「適」についても先頭から9バイト目にあるので、各
々の文字位置カウンタ数から9を減算する。同様に、図
18Dに示す前記ワークエリアのアドレス3についても
処理を行なう。
【0114】CPU23は、前記ワークエリアのうちそ
の前に存在する文字のバイト数だけ減算した値が等しく
なるものについては連続して存在することになるので、
それ以外のデータを削除する。これにより、図19に示
すように、アドレス0には、「〈0,153〉〈1,
9〉」、アドレス1には、「〈0,160〉〈1,1
6〉」、アドレス2には、「〈0,162〉〈1,1
8〉」、アドレス3には、「〈0,164〉〈1,2
0〉」が得られる。このようにして、図15ステップS
T123の処理が終了する。
【0115】CPU23は、削除後の前記ワークエリア
に、データが存在するか否か判断し(ステップST12
5)、存在しない場合には、ステップST127に進
み、メッセージ「検索文字列は存在しません」をCRT
30に表示する(図2参照)。なお、ステップST11
3にて、該当する文字種の第1インデックスにデータが
存在しない場合も、ステップST127に進み、同様に
表示して、検索処理は終了する。
【0116】なお、ステップST121にてN=1の場
合は、連続するか否かの判断が不要となるので、ステッ
プST123、ステップST125の処理は行わない。
【0117】一方、ステップST125にてデータが存
在する場合には、検索結果を表示する(ステップST1
29)。検索結果の表示については、ステップST12
3の処理終了後のワークエリアに記憶されているデータ
のファイル名をCRT30に表示し、その表示するファ
イルが特定された場合は、図20Aに示すように、検索
文字列「パフォーマンス最適化」の部分が、他の部分よ
りも目立つように表示される。
【0118】図20Aは、ファイル0についての検索文
字列「パフォーマンス最適化」が表示された例であり、
図20Bは、ファイル1について検索文字列「パフォー
マンス最適化」が表示された例である。このように、本
実施例では、検索結果の表示としてファイル名を表示し
た後、内容を表示するコマンドが与えられると、当該フ
ァイルのうち検索文字列が存在する部分を他の部分より
も目立つようにして表示するようにしている。
【0119】なお、このようにファイル名表示させる際
に、そのファイルにキーワードが付されている場合に
は、ファイル名とともに、そのキーワードの内容を表示
するようにしてもよい。これによって、そのファイルの
内容について判断が容易となり、不要なファイルを開く
必要がなくなる。
【0120】また、ファイル名を表示することなく、フ
ァイル毎に検索文字列が存在する部分が判るようにその
前後とともに、CRT30上に表示するようにしてもよ
い。
【0121】このように、本実施例においては、各トー
クンについて、インデックス情報として、ファイル名と
その文字位置カウンタというペア情報を整理して、各フ
ァイル別に個数および文字位置カウンタ値というように
して記憶している。したがって、同じファイルに同じト
ークンが多数ある場合に、必要な記憶容量を小さくする
ことができる。
【0122】さらに、カタカナおよびアルファベットに
ついては、連続する部分を1トークンとして記憶するよ
うにしている。したがって、記憶容量を削減できると共
に、その検索速度も向上する。
【0123】なお、上記実施例においては、検索文字列
がトークンとして記憶されている文字列を含む場合を例
として説明した。すなわち、4つのトークン「パフォー
マンス」、「最」、「適」および「化」から構成された
検索文字列「パフォーマンス最適化」が与えられた場合
である。
【0124】しかしこれに限定されず、1トークンの一
部の文字列を検索文字列として、前方一致または後方一
致で検索することもできる。例えば、トークン「データ
ビット」、トークン「データベース」、トークン「デジ
タル」がカタカナ第1インデックス記憶部に記憶されお
り、前方一致検索の対象文字列として「データ」が与え
られた場合、以下のようにして、高速検索が可能とな
る。
【0125】まず、カタカナ第1インデックス記憶部に
記憶されているトークンについて、先頭のトークンのう
ち、図21に示すような先頭文字「デ」で始まるトライ
構造データを作成する。そして、検索文字列「データ」
を検索するのである。すなわち、図21に示すトライ構
造データでは、検索文字列「データ」を含むトークン
は、トークン「データビット」、「データベース」であ
り、トークン「デジタル」、「デバイスドライバ」は検
索文字列を含まないことがわかる。
【0126】また、後方一致検索する場合は、各トーク
ンについて、後方から同様のトライ構造データを作成す
ればよい。例えば、トークン「ユーザインタフェイ
ス」、「マンマシンインタフェイス」、および「パフォ
ーマンス」が存在する場合に、検索文字列「インタフェ
イス」で後方一致検索する場合は、図22に示すような
トライ構造データを作成すればよい。
【0127】このように、一般に、カタカナおよびアル
ファベットについては、トークンとして記憶されている
文字列の一部が検索文字列として与えられるとして、前
方一致または後方一致で検索する場合が殆どであり、中
間一致で検索すること(例えば、上記例で、検索文字列
「インタ」で中間一致検索する場合をいう)は殆ど考え
られない。したがって、このような中間一致検索をする
ことが殆どないような文字種については、上記実施例の
様に、連続する部分を1トークンとして記憶するように
しても、検索処理が問題となることはない。
【0128】なお、漢字の場合は、中間一致で検索する
ことも考えられる。例えば、「転送処理速度向上に伴う
・・・・一方、書込処理速度低下・・・」という文書が
ある場合に、もし、漢字についても、連続する部分を1
トークンとして記憶すると、トークン「転送処理速度向
上」、「書込処理速度低下」が記憶される。この場合、
検索文字列として「処理速度」が与えられることも考え
られる。このような中間一致検索については、第1イン
デックス記憶部に当該検索文字列を含むトークンが存在
するか否かを1つ1つ判断する必要がある。したがっ
て、検索速度が低下するおそれがある。したがって、本
実施例においては、漢字については、カタカナおよびア
ルファベットとは異なり、1文字を1トークンとして記
憶するようにした。
【0129】なお、このような中間一致での高速検索処
理が問題とならないのであれば、漢字もカタカナおよび
アルファベットと同様に連続する部分を1トークンとし
て記憶するようにしてもよい。これにより、記憶容量を
削減することができる。
【0130】4.その他なお、本実施例においては、前
記各機能を実現する為に、CPU23を用い、ソフトウ
ェアによってこれを実現している。しかし、その一部も
しくは全てを、ロジック回路等のハードウェアによって
実現してもよい。
【0131】また、上記実施例においては、プログラム
をフレキシブルディスクに記憶させて、これをハードデ
ィスク26にインストールするようにしたが、他の記憶
媒体、例えば、ROM、ICカード、光ディスク、CD
−ROM等からインストールしてもよく、さらにこれら
記憶媒体から直接プログラムを読み出して実行するよう
にしてもよい。
【0132】また、本実施例においては、日本語文書の
全文検索システムに適用した場合について説明したが、
これに限定されず、第1種類の文字および第2種類の文
字が混在し、かつ文字列の切れ目が明瞭でない言語につ
いても同様にして適用することができる。
【0133】
【発明の効果】請求項1、請求項2、請求項7の索引デ
ータ生成装置または索引データ生成方法においては、第
1種類の文字および第2種類の文字が混在する混在デー
タが与えられると、第1種類の文字については、一文字
で一ブロックとし、第2種類の文字については、同じ種
類の文字が連続した部分を一ブロックとして決定すると
ともに、各ブロックごとに、前記混在データにおける位
置を表す位置情報が付加された索引データを生成する。
したがって、第2種類の文字については、複数文字から
構成された1ブロックの索引データを得ることができ
る。このように、第2種類の文字だけでも、1ブロック
の索引データで索引情報を構成することにより、記憶容
量の節約および検索速度を向上させることができる索引
データ生成装置、索引データ生成方法を提供することが
できる。
【0134】請求項3の索引データ生成装置において
は、前記索引データは、各ブロックを構成する文字で構
成された第1インデックスを有している。したがって、
検索の際に、この第1インデックスを検索するだけで、
当該文字列が存在するか否かを判断することができる。
さらに、前記第2インデックスは、各ファイルに存在す
る個数および存在する位置を有する。このように第2イ
ンデックスは、ファイルと存在する位置というペア情報
ではないので、同一ファイル中に、前記第1インデック
スが複数存在する場合であっても、記憶容量がそれほど
増えることがない。
【0135】したがって、より記憶容量を少なくし、検
索速度をより向上させることができる索引データ生成装
置を提供することができる。
【0136】請求項4、請求項8の検索装置または検索
方法においては、第1種類の文字および第2種類の文字
が混在する混在データ中の第1種類の文字については一
文字で一ブロックとし、第2種類の文字については、同
じ種類の文字が連続した部分を一ブロックとして、前記
各ブロックごとに、前記混在データにおける位置を表す
位置情報が付加された索引データを記憶しておき、前記
第2種類の文字について記憶されている索引データが、
検索文字列として与えられると、前記索引データを参照
して前記位置情報を得て、前記混在データから前記検索
文字列を検索する。したがって、記憶容量を少なくし、
検索速度をより向上させることができる検索装置、検索
方法を提供することができる。
【0137】請求項5の検索装置においては、前記第1
種類の文字および前記第2種類の文字が混在する混在検
索文字列が与えられると、前記第1種類の文字について
は、一文字で一検索ブロックとし、前記第2種類の文字
については、同じ種類の文字が連続した部分を一検索ブ
ロックとして決定する。決定した一検索ブロックに基づ
いて、前記混在検索文字列が存在するか検索する。そし
て、前記各検索ブロックが、前記混在データに前記混在
検索文字列の順序で存在するか否か判断する。したがっ
て、より記憶容量を少なくし、検索速度をより向上させ
ることができる検索装置、検索方法を提供することがで
きる。
【0138】請求項6、請求項9の日本語文書管理装置
または日本語文書管理方法においては、ひらがな、漢
字、およびカタカナが混在する文書について、注目する
文字がひらがな又は漢字である場合には、一文字ごとに
前記文書における位置を表す位置情報が付加された索引
データを生成し、注目する文字がカタカナである場合に
は、カタカナが連続する部分が1のブロックであると判
断して、このブロックの前記文書における位置を表す位
置情報が付加された索引データを生成して、記憶する。
したがって、記憶容量を低減することができ、高速検索
可能な日本語文書管理装置または管理方法を提供するこ
とができる。
【図面の簡単な説明】
【図1】本発明にかかる索引データ生成検索装置1の機
能ブロック図である。
【図2】図1に示す索引データ生成検索装置1をCPU
で実現したハードウェア構成を示す図である。
【図3】索引生成の対象となる文書0を示す図である。
【図4】索引生成の対象となる文書1を示す図である。
【図5】索引生成の全体処理フローチャートである。
【図6】索引生成における作成処理のフローチャートで
ある。
【図7】索引生成における作成処理のフローチャートで
ある。
【図8】状態遷移を説明する為の図である。
【図9】索引バッファのデータ構造を示す図である。
【図10】索引生成における整理処理のフローチャート
である。
【図11】索引生成における整理処理のフローチャート
である。
【図12】アルファベット第1インデックス記憶部およ
びアルファベット第2インデックス記憶部のデータ構造
を示す図である。
【図13】その他第1インデックス記憶部およびその他
第2インデックス記憶部のデータ構造を示す図である。
【図14】カタカナ第1インデックス記憶部およびカタ
カナ第2インデックス記憶部のデータ構造を示す図であ
る。
【図15】検索処理のフローチャートである。
【図16】索引生成処理にて作成されたカタカナ第1イ
ンデックス記憶部、カタカナ第2インデックス記憶部、
その他第1インデックス記憶部およびその他第2インデ
ックス記憶部のデータ構造を示す図である。
【図17】検索文字列を分割して記憶したワークエリア
のデータ構造を示す図である。
【図18】検索文字列のトークンが存在する場合のワー
クエリアのデータ構造を示す図である。
【図19】不要な索引データ削除後のワークエリアのデ
ータ構造を示す図である。
【図20】検索文字列の部分を他の部分よりも目立つよ
うに表示した状態を示す図である。
【図21】前方検索のための作成するトライ構造のデー
タ例を示す図である。
【図22】後方検索のための作成するトライ構造のデー
タ例を示す図である。
【符号の説明】
3・・・・混在データ記憶手段 5・・・・索引データ決定手段 7・・・・索引データ記憶手段 9・・・・検索手段
───────────────────────────────────────────────────── フロントページの続き (72)発明者 高橋 誠 大阪府吹田市江の木町11番30号 株式会社 東洋情報システム内

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】第1種類の文字および第2種類の文字が混
    在する混在データが与えられると、第1種類の文字につ
    いては一文字を一ブロックとして決定し各ブロックごと
    に、前記混在データにおける位置を表す位置情報が付加
    された第1文字種索引データを出力するとともに、第2
    種類の文字については、同じ種類の文字が連続した部分
    を一ブロックとして決定し各ブロックごとに、前記混在
    データにおける位置を表す位置情報が付加された第2文
    字種索引データを文字種別索引データとして出力する索
    引データ決定手段、 前記文字種別索引データを記憶する索引データ記憶手
    段、 を備えたことを特徴とする索引データ生成装置。
  2. 【請求項2】請求項1の索引データ生成装置において、 前記混在データは、さらに第3種類の文字を含み、 前記索引データ決定手段は、この第3種類の文字につい
    ても、同じ種類の文字が連続した部分を一ブロックとし
    て決定し各ブロックごとに、前記混在データにおける位
    置を表す位置情報が付加された第3文字種索引データを
    含む文字種別索引データを出力し、 前記索引データ記憶手段は、この第3文字種索引データ
    を含む文字種別索引データを記憶すること、 を特徴とする索引データ生成装置。
  3. 【請求項3】請求項1または請求項2の索引データ生成
    装置において、 前記混在データは、複数のファイルから構成されてお
    り、 前記文字種別索引データは、各々以下の1)第1インデッ
    クスおよび2)第2インデックスを有すること、 1)各ブロックを構成する文字で構成された第1インデッ
    クス、 2)前記第1インデックスに関連づけられた第2インデッ
    クスであって、前記第1インデックスを有するファイル
    名、前記第1インデックスが当該ファイルに存在する個
    数、および前記第1インデックスが当該ファイルに存在
    する位置を有する第2インデックス、 を特徴とする索引データ生成装置。
  4. 【請求項4】第1種類の文字および第2種類の文字が混
    在する混在データを記憶する混在データ記憶手段、 前記第1種類の文字については、一文字で一ブロックと
    し、前記第2種類の文字については、同じ種類の文字が
    連続した部分を一ブロックとして、各ブロックごとに、
    前記混在データにおける位置を表す位置情報が付加され
    た文字種別索引データを記憶する索引データ記憶手段、 前記第2種類の文字で構成された文字列が、検索文字列
    として与えられると、前記索引データ記憶手段に記憶さ
    れた文字種別索引データを参照して、前記位置情報を得
    て、前記混在データから前記検索文字列を検索する検索
    手段、 を備えたことを特徴とする検索装置。
  5. 【請求項5】請求項4の検索装置において、 前記検索手段は、 1)前記第1種類の文字および前記第2種類の文字が混在
    する混在検索文字列が与えられると、前記第1種類の文
    字については、一文字で一検索ブロックとし、前記第2
    種類の文字については、同じ種類の文字が連続した部分
    を一検索ブロックとして決定する検索ブロック決定手
    段、 2)前記検索ブロック決定手段が決定した一検索ブロック
    に基づいて、前記混在検索文字列が存在するか検索する
    混在検索文字列検索手段、 3)前記各検索ブロックが、前記混在データ記憶手段に前
    記混在検索文字列の順序で存在するか否か判断する判断
    手段、 を有していることを特徴とする検索装置。
  6. 【請求項6】ひらがな、漢字、およびカタカナが混在す
    る文書を記憶する文書記憶手段、 前記文書記憶手段に記憶された文書についての索引デー
    タを生成する索引データ生成手段であって、注目する文
    字がひらがな又は漢字である場合には、一文字ごとに前
    記文書における位置を表す位置情報が付加された索引デ
    ータを生成し、注目する文字がカタカナである場合に
    は、カタカナが連続する部分が1のブロックであると判
    断して、このブロックの前記文書における位置を表す位
    置情報が付加された索引データを生成する索引生成手
    段、 前記索引データを文字種別に記憶する文字種別索引デー
    タ記憶手段、 カタカナで構成された検索文字列が与えられた場合に
    は、前記文字種別索引データ記憶手段に記憶された文字
    種別索引データを参照して、前記検索文字列の位置情報
    を得て、前記文書から前記検索文字列を検索する検索手
    段、 を備えたことを特徴とする日本語文書管理装置。
  7. 【請求項7】第1種類の文字および第2種類の文字が混
    在する混在データが与えられると、第1種類の文字につ
    いては、一文字で一ブロックとし、第2種類の文字につ
    いては、同じ種類の文字が連続した部分を一ブロックと
    して決定するとともに、各ブロックごとに、前記混在デ
    ータにおける位置を表す位置情報が付加された文字種別
    索引データを生成すること、 を特徴とする索引データ生成方法。
  8. 【請求項8】第1種類の文字および第2種類の文字が混
    在する混在データ中の第1種類の文字については一文字
    で一ブロックとし、第2種類の文字については、同じ種
    類の文字が連続した部分を一ブロックとして、前記各ブ
    ロックごとに、前記混在データにおける位置を表す位置
    情報が付加された索引データを記憶しておき、 前記第2種類の文字で構成された文字列が、検索文字列
    として与えられると、前記索引データを参照して前記位
    置情報を得て、 前記混在データから前記検索文字列を検索すること、 を特徴とする検索方法。
  9. 【請求項9】ひらがな、漢字、およびカタカナが混在す
    る文書を記憶しておき、 前記文書について、注目する文字がひらがな又は漢字で
    ある場合には、一文字ごとに前記文書における位置を表
    す位置情報が付加された索引データを生成し、注目する
    文字がカタカナである場合には、カタカナが連続する部
    分が1のブロックであると判断して、このブロックの前
    記文書における位置を表す位置情報が付加された索引デ
    ータを生成して、記憶しておき、 カタカナで構成された検索文字列が与えられた場合に
    は、前記索引データを参照して当該検索文字列の位置情
    報を得て、前記文書から前記検索文字列を検索するこ
    と、 を特徴とする日本語文書管理方法。
  10. 【請求項10】第1種類の文字および第2種類の文字が
    混在する混在データが与えられると、第1種類の文字に
    ついては、一文字で一ブロックとし、第2種類の文字に
    ついては、同じ種類の文字が連続した部分を一ブロック
    として決定するとともに、各ブロックごとに、前記混在
    データにおける位置を表す位置情報が付加された索引デ
    ータを生成させるようにコンピュータを稼働させるプロ
    グラムを記憶した記憶媒体。
  11. 【請求項11】第2文字種で構成された検索文字列が与
    えられると、この検索文字列が、同じ種類の文字が連続
    した部分を一ブロックとした索引データとして記憶され
    ているか否かを判断し、前記索引データとして記憶され
    ている場合には、この索引データに基づいて、前記第1
    種類の文字および前記第2種類の文字が混在する混在デ
    ータから前記検索文字列を検索するようにコンピュータ
    を稼働させるプログラムを記憶した記憶媒体。
JP7165087A 1995-06-30 1995-06-30 索引データ生成検索装置 Pending JPH0916616A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7165087A JPH0916616A (ja) 1995-06-30 1995-06-30 索引データ生成検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7165087A JPH0916616A (ja) 1995-06-30 1995-06-30 索引データ生成検索装置

Publications (1)

Publication Number Publication Date
JPH0916616A true JPH0916616A (ja) 1997-01-17

Family

ID=15805641

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7165087A Pending JPH0916616A (ja) 1995-06-30 1995-06-30 索引データ生成検索装置

Country Status (1)

Country Link
JP (1) JPH0916616A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10269231A (ja) * 1997-03-25 1998-10-09 Hitachi Ltd 日英混在文書における文書検索方法
JP2001067368A (ja) * 1999-08-26 2001-03-16 Matsushita Electric Ind Co Ltd 多言語文書処理装置、多言語文書処理方法及び記録媒体
JP2006163645A (ja) * 2004-12-03 2006-06-22 Kenji Kita 情報検索方法、情報検索装置、情報検索プログラム及びコンピュータで読み取り可能な記録媒体並びに記録した機器
JP2006209399A (ja) * 2005-01-27 2006-08-10 Fuji Xerox Co Ltd 文書検索装置および方法
JP2007102489A (ja) * 2005-10-04 2007-04-19 Sharp Corp 番組データ処理装置、番組データ処理方法、制御プログラム、記録媒体、ならびに、番組データ処理装置を備えた録画装置、再生装置、および、情報表示装置
JP2010501927A (ja) * 2006-08-23 2010-01-21 ハイエル リーダース トゥモロウ コーポレイション コンテンツ検索システムを搭載した情報端末機
JP2012128604A (ja) * 2010-12-14 2012-07-05 Canon Marketing Japan Inc 情報処理装置、情報処理方法、及びコンピュータプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04205560A (ja) * 1990-11-30 1992-07-27 Teremateiiku Kokusai Kenkyusho:Kk 情報検索処理方式および検索ファイル作成装置
JPH04340165A (ja) * 1991-01-10 1992-11-26 Teremateiiku Kokusai Kenkyusho:Kk マルチキーワード情報検索処理方式および検索ファイル作成装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04205560A (ja) * 1990-11-30 1992-07-27 Teremateiiku Kokusai Kenkyusho:Kk 情報検索処理方式および検索ファイル作成装置
JPH04340165A (ja) * 1991-01-10 1992-11-26 Teremateiiku Kokusai Kenkyusho:Kk マルチキーワード情報検索処理方式および検索ファイル作成装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10269231A (ja) * 1997-03-25 1998-10-09 Hitachi Ltd 日英混在文書における文書検索方法
JP2001067368A (ja) * 1999-08-26 2001-03-16 Matsushita Electric Ind Co Ltd 多言語文書処理装置、多言語文書処理方法及び記録媒体
JP2006163645A (ja) * 2004-12-03 2006-06-22 Kenji Kita 情報検索方法、情報検索装置、情報検索プログラム及びコンピュータで読み取り可能な記録媒体並びに記録した機器
JP2006209399A (ja) * 2005-01-27 2006-08-10 Fuji Xerox Co Ltd 文書検索装置および方法
JP4682627B2 (ja) * 2005-01-27 2011-05-11 富士ゼロックス株式会社 文書検索装置および方法
JP2007102489A (ja) * 2005-10-04 2007-04-19 Sharp Corp 番組データ処理装置、番組データ処理方法、制御プログラム、記録媒体、ならびに、番組データ処理装置を備えた録画装置、再生装置、および、情報表示装置
JP4619915B2 (ja) * 2005-10-04 2011-01-26 シャープ株式会社 番組データ処理装置、番組データ処理方法、制御プログラム、記録媒体、ならびに、番組データ処理装置を備えた録画装置、再生装置、および、情報表示装置
JP2010501927A (ja) * 2006-08-23 2010-01-21 ハイエル リーダース トゥモロウ コーポレイション コンテンツ検索システムを搭載した情報端末機
JP2012128604A (ja) * 2010-12-14 2012-07-05 Canon Marketing Japan Inc 情報処理装置、情報処理方法、及びコンピュータプログラム

Similar Documents

Publication Publication Date Title
JP2741575B2 (ja) 文字認識文字補完方法及びコンピュータ・システム
JPH08305730A (ja) 機械読み取り可能形式の文書からプロセッサに対してキーフレーズを選択する自動的方法
US20070179932A1 (en) Method for finding data, research engine and microprocessor therefor
JP2986865B2 (ja) データ検索方法および装置
JP3022539B1 (ja) 文書検索装置
JP2937519B2 (ja) 文書検索装置
JPH0916616A (ja) 索引データ生成検索装置
JP2001109754A (ja) 索引ファイルを使用した検索方法及びそれに用いる装置
JPH08147311A (ja) 構造化文書検索方法及び装置
JPH08314966A (ja) 文書検索装置のインデックス作成方法及び文書検索装置
JP2000331012A (ja) 電子化文書検索方法
JPH1173415A (ja) 類似文書検索装置及び類似文書検索方法
JPH1027183A (ja) データ登録方法および装置
JP4682627B2 (ja) 文書検索装置および方法
JP2002132789A (ja) 文書検索方法
JP2001005830A (ja) 情報処理装置及びその方法、コンピュータ可読メモリ
JP3166629B2 (ja) 辞書作成装置と語切り出し装置
JP3187671B2 (ja) 電子辞書表示装置
JP2831837B2 (ja) 文書検索装置
JPH08249346A (ja) 文書検索装置及び文書生成方法
JPH09212523A (ja) 全文検索方法
JP2563645B2 (ja) 文書検索装置
JPH11259487A (ja) 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体
US20080177729A1 (en) Apparatus, method and computer program product for searching document
JPH06309360A (ja) 否定論理条件の処理に適したフルテキストサーチ方法