JPH07182370A - テキスト検索装置 - Google Patents

テキスト検索装置

Info

Publication number
JPH07182370A
JPH07182370A JP5346643A JP34664393A JPH07182370A JP H07182370 A JPH07182370 A JP H07182370A JP 5346643 A JP5346643 A JP 5346643A JP 34664393 A JP34664393 A JP 34664393A JP H07182370 A JPH07182370 A JP H07182370A
Authority
JP
Japan
Prior art keywords
text
keyword
list
variable
storage means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5346643A
Other languages
English (en)
Inventor
Koichi Sakugi
孝一 柵木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP5346643A priority Critical patent/JPH07182370A/ja
Publication of JPH07182370A publication Critical patent/JPH07182370A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】 簡単な指定で迅速に所望のテキストを検索し
得るテキスト検索装置を提供する。 【構成】 テキスト記憶手段1には複数のテキストが記
憶されており、キーワード・インデックス作成手段2
は、テキスト記憶手段1に記憶された各テキストから予
めキーワードを抽出して当該キーワードが存在するテキ
ストを示したキーワード・インデックスを作成して、キ
ーワード・インデックス記憶手段6に格納しておく。そ
して、キーワード抽出手段4は、テキスト検索文入力手
段3から検索対象を指定すべく文章(テキスト検索文)
が入力されると、その文章からキーワードを抽出する。
すると、比較手段5は、抽出されたキーワードとキーワ
ード・インデックス中のキーワードとを比較して検索対
象のテキストを特定し、テキスト出力手段7は、特定さ
れたテキストを記憶手段から読出して出力する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、ワードプロセッサ等に
より作成されたテキストデータを検索するテキスト検索
装置に関する。
【0002】
【従来技術】従来、ワードプロセッサ等により作成され
た膨大なテキストデータを検索するテキスト検索方式と
して、キーワード検索方式と全文検索方式とが知られて
いる。
【0003】キーワード検索方式は、テキストデータを
メモリに蓄積する際にユーザがそのテキストデータにキ
ーワードを付与して蓄積し、検索する際に付与に係るキ
ーワードを指定すると、装置は、指定に係るキーワード
と同一のキーワードが付与されたテキストデータを探索
することにより、所望のテキストデータを検索する方式
である。
【0004】一方、全文検索方式は、テキストデータを
そのままメモリに蓄積しておき、検索する際にそのテキ
ストデータに含まれる単語を指定すると、装置は、各テ
キストデータを文字単位で検索して指定に係る単語と一
致する単語を含むテキストデータを探索することによ
り、所望のテキストデータを検索する方式である。
【0005】
【発明が解決しようとする課題】しかし、キーワード検
索方式では、検索対象のテキストデータごとにユーザが
キーワードを指定する必要があるため、特に、数多くの
テキストデータを検索するような場合に、キーワードを
指定するのに手間がかかるという問題があった。
【0006】また、全文検索方式では、キーワードを指
定する必要はないのでユーザの手間はかからないが、数
多くのテキストデータを検索する場合には、装置におい
て各テキストデータ中から指定に係る単語を探索するの
に長時間を要し、所望のテキストデータを迅速に検索で
きないという問題があった。なお、この所望のテキスト
データを迅速に検索できないという問題は、キーワード
検索方式でも同様に発生していた。
【0007】本発明は、このような背景の下になされた
もので、その目的は、簡単な指定で迅速に所望のテキス
トを検索し得るテキスト検索装置を提供することにあ
る。
【0008】
【課題を解決するための手段】上記目的を達成するた
め、本発明によるテキスト検索装置は、複数のテキスト
を記憶する記憶手段と、該記憶手段に記憶された各テキ
ストから予めキーワードを抽出して当該キーワードが存
在するテキストを示したキーワード・インデックスを作
成する作成手段と、検索対象を指定すべく入力された文
章からキーワードを抽出する抽出手段と、該抽出手段に
より抽出されたキーワードと前記作成手段により作成さ
れたキーワード・インデックス中のキーワードとを比較
して検索対象のテキストを特定する特定手段と、該特定
手段により特定されたテキストを前記記憶手段から読出
して出力する出力手段とを備えている。
【0009】
【作用】記憶手段には複数のテキストが記憶されてお
り、作成手段は、この記憶手段に記憶された各テキスト
から予めキーワードを抽出して当該キーワードが存在す
るテキストを示したキーワード・インデックスを作成し
ておく。
【0010】そして、抽出手段は、キーワード・インデ
ックスが既に作成されている状態で、検索対象を指定す
べく文章が入力されると、その文章からキーワードを抽
出する。すると、特定手段は、抽出手段により抽出され
たキーワードと作成手段により作成されたキーワード・
インデックス中のキーワードとを比較して検索対象のテ
キストを特定し、出力手段は、特定手段により特定され
たテキストを記憶手段から読出して出力する。
【0011】
【実施例】以下、本発明の一実施例を図面に基づいて説
明する。
【0012】図1は、本発明の一実施例によるテキスト
検索装置の概略構成を示すブロック図であり、本テキス
ト検索装置は、テキスト記憶手段1、キーワード・イン
デックス作成手段2、テキスト検索文入力手段3、キー
ワード抽出手段4、比較手段5、キーワード・インデッ
クス記憶手段6、およびテキスト出力手段7を有してい
る。
【0013】テキスト記憶手段1とキーワード・インデ
ックス記憶手段6は、例えばフロッピーディスク等によ
り構成されている。また、テキスト検索文入力手段3
は、例えばキーボード等により構成され、テキスト出力
手段7は、例えばプリンタ、液晶ディスプレイ等により
構成されている。また、キーワード・インデックス作成
手段2と、キーワード抽出手段4と、比較手段5とは、
例えばCPU、ROM、RAMにより構成され、ROM
にプリセットされたプログラムに従ってCPUの制御の
下に、RAMをワークエリアとして利用しつつキーワー
ド・インデックス作成処理、キーワード抽出処理、比較
処理等が実行される。
【0014】テキスト記憶手段1には、例えば、本テキ
スト検索装置を搭載したワードプロセッサにより作成さ
れた複数のテキストデータが記憶されており、これら各
テキストデータには、図2に示したように、「AA
A」、「BBB」のようなファイル名が付けられ、テキ
ストデータはファイル単位で管理・記憶されている。
【0015】キーワード・インデックス作成手段2は、
テキスト記憶手段1に記憶された各テキストデータにつ
いて、キーワード抽出手段4を利用して名詞を抽出して
キーワードとし、そのキーワードのインデックスを作成
して、キーワード・インデックス記憶手段6に格納す
る。なお、キーワード・インデックス作成手段2は、キ
ーワード・インデックスを作成するときは、上記キーワ
ード抽出手段4の他、図示省略したファイル識別手段、
行数カウント手段を利用することにより、次に説明する
ファイル名、行番号を認識する。
【0016】すなわち、キーワード・インデックス記憶
手段6に記憶されたキーワード・インデックスは、例え
ば図3に示したように、各キーワードごとに、キーワー
ド番号、スペル(キーワード)、ファイル名、行番号を
記憶する構成となっている。例えば、図3において、キ
ーワード「○×社」については、キーワード番号は
「1」であり、ファイル名「AAA」のテキストの第1
0行目と、ファイル名「BBB」のテキストの第3行目
に存在することを示している。
【0017】なお、キーワード・インデックスにおいて
は、キーワード番号順に、対応するスペル(キーワー
ド)、ファイル名、行番号が記録されている。また、キ
ーワード・インデックス作成手段2は、このキーワード
・インデックス作成・格納処理を、テキスト検索文入力
手段3からテキスト検索用の文章が入力された時点で、
すなわち検索モード時に行うことなく、例えばテキスト
データが作成され、そのテキストデータをテキスト記憶
手段1に格納した直後に、自動的に或いはオペレータの
指示に基づいて行う。
【0018】テキスト検索文入力手段3は、検索対象の
テキストデータを指定するために、従来のようにオペレ
ータが覚えておいたキーワードを入力することなく、例
えば「○×社で発売した複写機を知りたい」といったよ
うに、その検索対象のテキストデータの内容を表す文章
を入力するために使用される。
【0019】テキスト検索文入力手段3から上記のよう
な検索対象のテキストデータの内容を表す文章が入力さ
れると、キーワード抽出手段4は、その文章から名詞を
キーワードとして抽出し、キーワード番号を付ける。こ
の際、キーワード・インデックス中に存在する同一のキ
ーワードについては、そのキーワード・インデックスに
おいて付けられているキーワード番号と同一のキーワー
ド番号を付け、キーワード番号順にソートする。
【0020】そして、比較手段5は、キーワード抽出手
段4により抽出されたキーワードと、キーワード・イン
デックス記憶手段6に記憶されたキーワード・インデッ
クス中のキーワードとを比較することにより、検索対象
のテキストデータを特定してテキスト記憶手段1から読
出し、テキスト出力手段7に供給して出力させる。な
お、比較手段5は、キーワードを比較するときは、キー
ワードそれ自体を比較することなく、キーワード番号を
比較することによって、比較処理の迅速化を図ってい
る。
【0021】次に、図4、および図5に基づいてテキス
ト検索動作を説明する。
【0022】今、例えば、図3に示したような内容のキ
ーワード・インデックスがキーワード・インデックス記
憶手段6に記憶されている状態で、図4(a)に示した
「「○×社で発売した複写機を知りたい」というテキス
ト検索用の文章データがテキスト検索文入力手段3から
入力されたとする。
【0023】すると、キーワード抽出手段4は、入力さ
れた図4(a)の文章データの中からキーワードとし
て、名詞「○×社」、「発売」、「複写機」を抽出し、
キーワード番号を付け、キーワード番号順にソートする
(図4(b)参照)。なお、キーワード番号を付ける場
合、キーワード・インデックス中に同一のキーワードが
存在するときは、その同一のキーワードに既に付与され
ているキーワード番号を付ける(図3と図4(b)を比
較参照)。
【0024】そして、比較手段5は、キーワード抽出手
段4により抽出されたキーワードと、キーワード・イン
デックス中のキーワード(図4(c)参照)とを比較し
て、例えばキーワード「○×社」は、ファイルAAAの
10行目とファイルBBBの3行目に存在するという情
報を得る。他のキーワード「発売」、「複写機」につい
ても同様にその存在箇所情報を得る。
【0025】そして、ファイルAAAには3つのキーワ
ード「○×社」、「発売」、「複写機」が含まれている
のに対し、ファイルBBBには2つのキーワード「○×
社」、「発売」しか含まれていないので、ユーザの所望
するテキストは、ファイルAAAであると判断して、図
4(d)に示したように、そのファイルAAAの内容を
テキスト記憶手段1から読出して、テキスト出力手段7
により出力する。
【0026】なお、比較手段5は、上記のように、実際
にはキーワードそのものを比較検討することなく、図5
に示したような手順に従って、キーワード番号により比
較検討する。
【0027】すなわち、比較手段5は、まず、キーワー
ド抽出手段4により抽出されたキーワードに基づいて、
キーワード番号の多重を回避した形で、抽出に係るキー
ワードに関するキーワード番号のリスト(1,20,3
00)を作成してリストAとすると共に、キーワード・
インデックス中に存在するキーワードに関して、キーワ
ード番号の多重を回避した形で予め作成されたキーワー
ド番号のリスト(1,20,300,400,…)をリ
ストBとし、結果を返すリストをリストC=()とする
(図5のステップS1)。
【0028】次に、変数aにリストAの先頭の数値(キ
ーワード番号)“1”を代入し、変数bにリストBの先
頭の数値“1”を代入して(ステップS2)、変数aと
変数bを比較する(ステップS3)。
【0029】その結果、変数a=変数b=1なので、リ
ストCの先頭に変数a=1を追加しリストC=(1)と
する(ステップS4)。そして、リストA,Bから先頭
の数値“1”を削除し(ステップS5)、リストAまた
はリストBが空になったか否かを判別する(ステップS
6)。この場合、リストAは(20,300)、リスト
Bは(20,300,400,…)であり、リストA、
リストBの双方とも空になっておらず、数値が存在する
なので、ステップS2に戻り、変数a=20、変数b=
20とする。
【0030】この場合は、ステップS3での比較の結
果、変数a=変数b=20なので、ステップS4にて、
リストCの先頭に変数a=20を追加しリストC=(2
0,1)とする。そして、ステップS5にて、リスト
A,Bから先頭の数値“20”を削除する。現時点で
は、リストAは(300)、リストBは(300,40
0,…)であり、リストA、リストBの双方とも空にな
っておらず、数値が存在するなので、ステップS6を経
由してステップS2に戻り、変数a=300、変数b=
300とする。
【0031】現時点では、変数a=変数b=300なの
で、ステップS4にて、リストCの先頭に変数a=30
0を追加し、リストC=(300,20,1)とする。
そして、ステップS5にて、リストA,Bから先頭の数
値“300”を削除する。そして、ステップS6にて、
リストAまたはリストBが空になったか否かを判別する
が、現時点では、リストAは空になっているので、ステ
ップS13に進む。
【0032】ステップS13では、リストCにリストア
ップされた数値、すなわちキーワード番号に対応するキ
ーワードを含むファイルを図3に示したキーワード・イ
ンデックスに基づいて検索する。この例では、キーワー
ド番号“1”,“300”に対応するキーワード「○×
社」,「発売」は、ファイルAAA,BBBに含まれ、
キーワード番号“20”に対応するキーワード「複写
機」は、ファイルAAAに含まれている。このように、
リストCにリストアップされたキーワード番号に対応す
るキーワードが複数のファイルに含まれているときは、
そのリストアップされたキーワード番号に対応するキー
ワードを最も多く含むファイルが検索に係るテキストで
あると判定し、テキスト出力手段7に通知する。する
と、テキスト出力手段7は、そのテキストをテキスト記
憶手段1から読出して出力する。
【0033】このように、オペレータは、キーワードを
意識することなく、検索の目的や検索対象のテキストの
特徴などを文章で入力するだけで所望のテキストを検索
することができ、検索対象の指定作業を簡単化すること
ができる。
【0034】しかも、各テキストに含まれる名詞等がキ
ーワードとしてキーワード・インデックス記憶手段6に
予め記憶されており、入力された文章から抽出した名詞
(キーワード)に基づいて検索するときに、各テキスト
データを全文に亘って文字単位で検索して入力指定(抽
出)に係る名詞と一致するものを探索する必要がないば
かりでなく、キーワードの比較はキーワード番号により
行われ、さらに上記の変数の削除により、(リトスAの
数値の個数)×(リトスBの数値の個数)の総当たり比
較を行う必要がないので、迅速に検索を行うことが可能
となる。
【0035】上記例は、変数a=変数bしか生じない例
であったが、変数a>変数b,変数a<変数bが生じる
例を以下に説明する。
【0036】例えば、入力された文章から抽出されたキ
ーワード対応のキーワード番号のリストAが(2,3,
4)であり、キーワード・テンデックス中のキーワード
番号のリストBが(1,4,5)であるとする。
【0037】この場合は、最初は変数a=2、変数b=
1となり変数a>変数bなので、ステップS7に進み、
リストBから先頭の数値“1”を削除し、リストB
(4,5)とする。そして、リストBは空となったか否
かを判別する(ステップS8)。その結果、空であれば
ステップS13に進むが、この場合は空ではないので、
ステップS9に進んで、変数bにリストBの先頭の数値
“4”を代入して変数b=4とした後に、ステップS3
に戻り、変数aと変数bとを比較する。
【0038】今回は、変数a(2)<変数b(4)なの
で、ステップS10に進み、リストAから先頭の数値
“2”を削除し、リストA(3,4)とする。そして、
リストAは空となったか否かを判別する(ステップS1
1)。その結果、空であればステップS13に進むが、
この場合は空ではないので、ステップS12に進んで、
変数aにリストAの先頭の数値“3”を代入して変数a
=3とした後に、ステップS3に戻り、変数aと変数b
とを比較する。
【0039】今回も、変数a(3)<変数b(4)なの
で、ステップS10に進み、リストAから先頭の数値
“3”を削除し、リストA(4)とする。そして、リス
トAは空となったか否かを判別する(ステップS1
1)。その結果、空ではないので、ステップS12に進
んで、変数aにリストAの先頭の数値“4”を代入して
変数a=4とした後に、ステップS3に戻り、変数aと
変数bとを比較する。
【0040】今回は、変数a(4)=変数b(4)なの
で、ステップS4に進み、リストCの先頭に“4”をリ
ストアップする。そして、リストA,Bから先頭の数値
を削除しリストA( )、リストB(5)とする(ステ
ップS5)。そして、ステップS6に進み、リストA、
またはリストBが空になったか否を判別するが、この場
合はリストAが空になっているので、ステップS13に
進み、リストCにリストアップされた数値(キーワード
番号)に対応するキーワードを含むファイル(テキス
ト)をキーワード・インデックス記憶手段6内のキーワ
ード・インデックスに基づいて検出する。
【0041】なお、上記のように、テキスト出力手段7
は、比較手段5により検出されたテキストを出力する
が、キーワード・インデックスには対応するキーワード
が存在する位置(行)が登録されているので、テキスト
全体を出力することなく、前記行情報に基づいて、例え
ば、その行の前後の数行だけを出力することも可能であ
る。
【0042】
【発明の効果】以上説明したように、本発明のテキスト
検索装置によれば、記憶された各テキストから予めキー
ワードを抽出して当該キーワードが存在するテキストを
示したキーワード・インデックスを作成しておき、検索
対象を指定すべく文章が入力された際に、この文章から
キーワードを抽出し、この抽出されたキーワードと既に
作成されているキーワード・インデックス中のキーワー
ドとを比較して検索対象のテキストを特定して出力する
ようにしたので、簡単な指定で迅速に所望のテキストを
検索することが可能となる。
【図面の簡単な説明】
【図1】本発明の一実施例によるテキスト検索装置の概
略構成を示すブロック図である。
【図2】テキスト記憶手段の内容例を示す図である。
【図3】キーワード・インデックス記憶手段の内容例を
示す図である
【図4】テキスト検索の全体動作を示す図である。
【図5】テキスト検索時の比較処理を示すフローチャー
トである。
【符号の説明】
1…テキスト記憶手段 2…キーワード・インデックス作成手段 3…テキスト検索文入力手段 4…キーワード抽出手段 5…比較手段 6…キーワード・インデックス記憶手段 7…テキスト出力手段

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 複数のテキストを記憶する記憶手段と、 該記憶手段に記憶された各テキストから予めキーワード
    を抽出して当該キーワードが存在するテキストを示した
    キーワード・インデックスを作成する作成手段と、 検索対象を指定すべく入力された文章からキーワードを
    抽出する抽出手段と、 該抽出手段により抽出されたキーワードと前記作成手段
    により作成されたキーワード・インデックス中のキーワ
    ードとを比較して検索対象のテキストを特定する特定手
    段と、 該特定手段により特定されたテキストを前記記憶手段か
    ら読出して出力する出力手段と、 を備えたことを特徴とするテキスト検索装置。
JP5346643A 1993-12-22 1993-12-22 テキスト検索装置 Pending JPH07182370A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5346643A JPH07182370A (ja) 1993-12-22 1993-12-22 テキスト検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5346643A JPH07182370A (ja) 1993-12-22 1993-12-22 テキスト検索装置

Publications (1)

Publication Number Publication Date
JPH07182370A true JPH07182370A (ja) 1995-07-21

Family

ID=18384839

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5346643A Pending JPH07182370A (ja) 1993-12-22 1993-12-22 テキスト検索装置

Country Status (1)

Country Link
JP (1) JPH07182370A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0883846A1 (en) * 1996-01-22 1998-12-16 Lexis-Nexis, A Division of Reed Elsevier Inc. Phrase recognition method and apparatus
JPH1185766A (ja) * 1997-09-10 1999-03-30 Nippon Telegr & Teleph Corp <Ntt> キーワード抽出方法及び装置及びキーワード抽出プログラムを格納した記憶媒体
JPH11161682A (ja) * 1997-09-29 1999-06-18 Toshiba Corp 情報検索装置、情報検索方法及び記録媒体
JP2002024241A (ja) * 2000-07-07 2002-01-25 Sekisui House Ltd 住宅プランの検索システム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0883846A1 (en) * 1996-01-22 1998-12-16 Lexis-Nexis, A Division of Reed Elsevier Inc. Phrase recognition method and apparatus
EP0883846A4 (en) * 1996-01-22 1999-04-14 Lexis Nexis A Division Of Reed BLOCK DETECTION METHOD AND DEVICE
JPH1185766A (ja) * 1997-09-10 1999-03-30 Nippon Telegr & Teleph Corp <Ntt> キーワード抽出方法及び装置及びキーワード抽出プログラムを格納した記憶媒体
JPH11161682A (ja) * 1997-09-29 1999-06-18 Toshiba Corp 情報検索装置、情報検索方法及び記録媒体
JP2002024241A (ja) * 2000-07-07 2002-01-25 Sekisui House Ltd 住宅プランの検索システム

Similar Documents

Publication Publication Date Title
JP2783558B2 (ja) 要約生成方法および要約生成装置
JPH0418673A (ja) テキスト情報抽出方法および装置
Merkel et al. Knowledge-lite extraction of multi-word units with language filters and entropy thresholds.
JPH0628403A (ja) 文書検索装置
JPH0484271A (ja) 文書内情報検索装置
JPH08255163A (ja) 文書検索装置
JP2957875B2 (ja) 文書情報検索装置及び文書検索結果表示方法
JP2000132560A (ja) 中国語テレテキスト処理方法及び装置
JPH07182370A (ja) テキスト検索装置
JPH0561910A (ja) 全文インデツクス検索方法
JPH08263521A (ja) 文書登録検索システム
JPH07134720A (ja) 文章作成システムにおける関連情報提示方法及び装置
JPH08314950A (ja) テキストの検索方法及び装置
JPH08314974A (ja) キーワード自動抽出装置および文書検索装置
JPH06195386A (ja) データ検索装置
JPH02253474A (ja) テキストベース検索方法
JPH05257980A (ja) 文書検索装置
JPH09259132A (ja) 情報登録検索装置及びその方法
JP3187671B2 (ja) 電子辞書表示装置
JPH09212523A (ja) 全文検索方法
JPH0991305A (ja) 情報処理方法及び装置
JPH08153112A (ja) 文書作成装置及び文書作成方法
JPH05165889A (ja) 文書検索装置
JPH01126767A (ja) 辞書参照装置
JPH05257978A (ja) データ検索装置