JPH05266087A - 全文検索装置 - Google Patents

全文検索装置

Info

Publication number
JPH05266087A
JPH05266087A JP4064733A JP6473392A JPH05266087A JP H05266087 A JPH05266087 A JP H05266087A JP 4064733 A JP4064733 A JP 4064733A JP 6473392 A JP6473392 A JP 6473392A JP H05266087 A JPH05266087 A JP H05266087A
Authority
JP
Japan
Prior art keywords
text
paragraph
evaluation
search
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP4064733A
Other languages
English (en)
Inventor
Ikuo Karashi
育雄 芥子
Hiroyuki Kanza
浩幸 勘座
Naotoshi Maruyama
直利 丸山
Takao Inui
隆夫 乾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP4064733A priority Critical patent/JPH05266087A/ja
Publication of JPH05266087A publication Critical patent/JPH05266087A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 全文検索装置の、検索精度のコントロールを
容易にする。 【構成】 検索要求入力手段1によって検索単語列を入
力し、オートマトン蓄積手段4、データ制御手段5によ
って、テキストを段落単位に、さらにパラグラフ単位に
分割する。各パラグラフにつき、検索単語列が何割含ま
れるかをアイテム評価手段7によって評価し、1段落に
含まれるすべてのパラグラフの評価値をレコード評価手
段9によって合計することにより、表示手段10が所定
の基準値とその評価値とを比較してその抽出単位を抽出
するか否かを決定する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、自然文または単語列で
表現されたテキスト全文を検索対象とし、テキスト中
の、所望の主題と関連する部分を抽出するための全文検
索装置(フルテキストデータベース)に関する。
【0002】
【従来の技術】この種の技術の基礎的文献として下の2
つの文献が知られている。
【0003】(1)Aho, A. V., Corasick, M. J. : Ef
ficient String Matching : An Aidto Bibliographic S
earch, Comm. ACM, VOL.18, NO.6 (1975), pp.333-340 (2)Arikawa, S., Shinohara, T. : A Run-Time Effi
cient Realization ofAho-Corasick Pattern Matching
Machines, New Ganeration Computing, Vol.2, No.2, p
p.171-186 (1984) 上述の2つの文献のうち、文献(1)は、オートマトン
によるこの種の全文検索の基本アイディアを開示したも
のであり、文献(2)は、文献(1)に示される基本ア
イディアを効率的に実現するための方法を開示してい
る。
【0004】このような技術に基づく従来の全文検索装
置として、以下のようなものが知られている。
【0005】(a) 検索者が、検索したい主題に関連
する複数のキーワードと、それら複数のキーワードの間
に定める論理演算とを入力し、これらキーワードとその
論理演算とによって規定される条件を満足するテキスト
を抽出することによって、所望の主題に関連するテキス
トを検索する装置。
【0006】(b) 検索者が、キーワードを入力し、
入力されたキーワードの出現頻度が高いテキストを、所
望の主題と関連するテキストとして検索する装置。
【0007】検索のための条件を入力する方法として、
自然文を採用する全文検索装置もある。この種の全文検
索装置においては、入力された自然文からキーワードを
抽出し、さらに、上述した(a)、(b)のいずれかの
方式に従って所望の主題に関連するテキストを検索して
いる。
【0008】
【発明が解決しようとする課題】従来の全文検索装置の
うち、前者の全文検索装置では、入力されたキーワード
の論理演算式を満足しないテキストは検索されない。そ
のためたとえば、複数のキーワードを論理演算“AN
D”で結んで検索すれば検索漏れが多くなり、“OR”
のみで結んで検索すると、主題とはあまり関連のないテ
キストが多くなってしまう。すなわち、この方式に従え
ば、検索漏れを少なくし、かつ検索精度を上げるために
は、検索者が入力すべき論理演算式を設定することが難
しく、検索者の負担となっているという問題がある。
【0009】後者の全文検索装置では、検索者がキーワ
ード間の論理演算式を考える必要はない。しかし、検索
者が入力したキーワードの出現頻度によってテキストを
検索するために、キーワードの出現頻度によって、抽出
されたテキストに主題との関連付けについてのランクを
つけることは可能であるが、指定されたキーワードに偏
りがあったり、検索された文章中にキーワードの分布の
偏りがあったりした場合には、精度の高い検索結果を提
示することはできず、仮にランク付けした場合にもその
ランクが、検索されたテキストの、主題との関連の度合
いを正確に表わしているものとは言えないという問題点
があった。
【0010】それゆえにこの発明の目的は、検索のため
に、煩雑な検索論理式を考える必要なく、かつ検索精度
を容易にコントロールすることができる全文検索装置を
提供することである。
【0011】
【課題を解決するための手段】この発明に係る全文検索
装置は、自然文または単語列で表現される電子化テキス
ト全文を検索し、所望の主題と関連する部分を抽出する
ためのものであって、主題に関連する所望の1または複
数種類の検索単語列を入力するための検索単語列入力手
段と、テキストを、所定の基準に従って抽出単位に分割
するとともに、各抽出単位をさらに所定の基準に従って
評価単位に分割するためのテキスト分割手段と、各評価
単位に検索単語列が何種類含まれるかに従って異なる重
み付けで、各評価単位を評価するための第1の評価手段
と、各抽出単位に含まれる評価単位の評価の合計によっ
て各抽出単位の主題該当性を評価するための第2の評価
手段と、第2の評価手段の出力に応答して、主題該当性
が所定の基準を上回る抽出単位を抽出するための抽出手
段とを含む。
【0012】
【作用】本発明に係る全文検索装置においては、検索対
象となるテキストがまず抽出単位に分割され、各抽出単
位はさらに評価単位に分割される。そして、各評価単位
に、検索単語列が何種類含まれるかに従って異なる重み
付けで、第1の評価手段によって各評価単位が評価され
る。抽出単位の評価は、その抽出単位に含まれる評価単
位の評価の合計に基づき、第2の評価手段によって行な
われ、その結果に従って主題該当性が所定の基準を上回
る抽出単位のみが抽出される。したがって、検索単語列
を含む評価単位が多いほど抽出単位の評価値も増加する
とともに、それだけではなく、1つの評価単位中に含ま
れる検索単語列の種類が多くなればなるほどその評価単
位の評価が高く、したがってその評価単位を含む抽出単
位の評価も高くなる。したがって、抽出単位を抽出する
ための評価が、検索単語の出現頻度のみではなく、その
出現密度によっても測られることになる。
【0013】
【実施例】以下、図を参照して本発明に係る全文検索装
置の一実施例を詳細に説明する。なお、以下の説明にお
いて「レコード」は抽出単位を、「アイテム」は評価単
位をそれぞれ示し、たとえばレコードが段落に、アイテ
ムがパラグラフにそれぞれ対応する。
【0014】図1を参照して、本発明に係る全文検索装
置は、検索要求入力手段1と、有限状態オートマトン生
成手段2と、データ制御手段5と、アイテム評価手段7
と、レコード評価手段9と、表示手段10と、データ蓄
積手段3と、オートマトン蓄積手段4と、キーワードバ
ッファ6と、アイテムバッファ8とを含む。各ブロック
2、7、9、10、3、4、6、8は、データ制御手段
5によって制御されるバス11によって互いに接続され
ている。
【0015】検索要求入力手段1は、レコードデリミ
タ、アイテムデリミタ、検索のための条件を指定する質
問および各レコードの評価の結果そのレコードを抽出す
るか否かを決定する際の基準となる基準得点とを、利用
者によって入力させる。入力される質問としては、複数
の単語列でも自然文でもどちらでもよい。自然文が質問
として入力される場合には、形態素解析技術を適用し
て、複数の自立語からなる単語列を抽出することによっ
て、単語列が入力された場合と同様の扱いをする。
【0016】レコードデリミタとは、レコード(本実施
例の場合には段落)を分離するための記号である。段落
を抽出単位とする場合には、デリミタは「連続する改行
マーク」となるので、利用者はこの場合「CR(改行)
CR(改行)」と入力することになる。アイテムデリミ
タとは、アイテム(本実施例の場合にはパラグラフ)を
分離する記号であって、アイテムデリミタは「CR(改
行)」と入力する。
【0017】有限状態オートマトン生成手段2は、検索
要求入力手段1を用いて利用者が入力したレコードデリ
ミタ、アイテムデリミタ、質問中の単語列をそれぞれ検
出するためのオートマトンを生成する。生成されたオー
トマトンはオートマトン蓄積手段4に格納される。効率
的なオートマトン生成手段については、前述した文献
(b)などに記載がある。なお、ここで生成されるオー
トマトンについては図3を参照して後述する。
【0018】データ蓄積手段3は、検索対象となってい
る文章を蓄積する。キーワードバッファ6は、オートマ
トン蓄積手段4に蓄積されているオートマトンの検出対
象となる各単語列につき、文章中の各単語列の出現数を
計数するためのカウンタである。キーワードバッファ6
は、検索処理前にすべて0に初期化されている。
【0019】アイテムバッファ8は、検索対象となって
いる文章中の1パラグラフにおいて計数されたキーワー
ドバッファ6の内容を、後述する評価手法に従って評価
した得点を格納するためのものである。アイテムバッフ
ァ8の内容は、1レコードの評価終了後、次のレコード
の評価開始前に0に初期化される。
【0020】データ制御手段5は、データ蓄積手段3に
格納されている文章を、そのデータがなくなるまで順番
にオートマトン蓄積手段4に流す。データ制御手段5は
さらに、オートマトン蓄積手段4によって所定の単語列
(キーワード)が検出された場合、キーワードバッファ
6内の対応するカウンタを計上する。
【0021】アイテム評価手段7は、オートマトン蓄積
手段4によってアイテムデリミタまたはレコードデリミ
タが検出されることによって制御をデータ制御手段5か
ら受取り、以下のように動作する。まずアイテム評価手
段7は、キーワードバッファ6内の各カウンタに基づ
き、後述する手法に従って処理中のアイテムの得点を評
価し、アイテムバッファ8に格納する。アイテム評価手
段7は、続いてキーワードバッファ6内の各カウンタを
0に初期化する。検出されたデリミタがアイテムデリミ
タの場合には、アイテム評価手段7はデータ制御手段5
に再び制御を戻す。デリミタがレコードデリミタの場合
には、アイテム評価手段7は制御をレコード評価手段9
に渡す。
【0022】レコードデリミタが検出された場合、レコ
ード評価手段9は、アイテムバッファ8に格納されてい
る各アイテムの得点を合計することにより、処理対象の
レコードの評価得点を算出する。レコード評価手段9
は、評価結果と共に制御を表示手段10に渡す。
【0023】表示手段10は、レコード評価手段9から
与えられた処理対象のレコードの得点が、検索要求入力
手段1によって利用者が予め入力した基準得点よりも高
い場合には、処理対象のレコードの内容を表示し、制御
をデータ制御手段5に戻す。この場合処理対象のレコー
ドが長く、その全体を一度に表示できない場合には、表
示手段10は最も得点が高いパラグラフの先頭から数行
だけ、そのパラグラフが格納されているファイル名と共
に表示する。利用者はこの表示を見ることにより、抽出
されたパラグラフの、主題と最も関連すると思われる部
分を確認することができるとともに、このパラグラフの
所在を知ることができる。レコードの得点が予め入力さ
れた基準得点よりも低い場合には、表示手段10はこの
レコードの抽出をせず、直ちにデータ制御手段5に対し
て制御を戻す。
【0024】データ制御手段5は、以上のような処理を
繰返しながらデータ蓄積手段3に格納されている文章の
終わりに達するまでこれら各ブロックの動作を制御す
る。
【0025】アイテム評価手段7によるパラグラフの評
価は、たとえば以下のように行なわれる。1つのパラグ
ラフにつき、キーワードとして指定された1または複数
種類の単語列のうち、何割の単語列がそのパラグラフに
含まれるかによって異なる重み付けで、各アイテムに得
点を与える。段落の評価は、その段落を構成する各パラ
グラフに与えられた得点の和によって求める。入力され
たキーワードとしての単語列の数が予め知られているわ
けであるから、単語列の何割を含むかを計算するために
は、何種類の単語列が検出されたかを評価するだけでよ
い。そして、キーワードとして指定された単語列の何割
がパラグラフ中に含まれるかによって各パラグラフに与
えられる得点を変えることにより、キーワードの出現頻
度だけでなく、その密度についての評価も加えて、段落
の抽出を行なうことができる。
【0026】各パラグラフの得点付けの方法として、以
下の表1に示されるような得点付け方法がある。
【0027】
【表1】 表1のような得点付け手法によれば、以下のような得点
付けが行なわれる。たとえば、利用者がキーワードとし
て「シャープ ワープロ 文章 検索 新発売」という
5つの単語列を入力した場合を考える。1つのアイテム
に上述の5つの単語すべてが含まれる場合には、出現率
としては100%となるから、そのアイテムに与えられ
る得点は10点となる。一方、5つのパラグラフにキー
ワードが1つずつしか含まれていない場合には、5つの
キーワードのうちの1つしか発見されないわけであるか
ら各パラグラフにおけるキーワードの出現率は20%と
なり、各パラグラフに与えられる得点は1点ずつとな
る。そのため、5つのパラグラフを合計しても5点にし
かならない。
【0028】したがって、仮に10点が与えられたアイ
テム以外に1段落中に得点0のパラグラフが4つ含まれ
ている場合であっても、その段落の得点の方が、各パラ
グラフに一語ずつ含む段落よりも得点が高くなる。段落
単位でみた場合にはキーワードの出現頻度は同じである
から、上述のような得点付け手法を行なうことにより、
段落中のキーワードの出現頻度が高いほど、かつ各単語
の、段落中の出現の密度が高いほど、その段落の得点は
高くなる。上述の「密度」とは、段落中の一部(たとえ
ば1パラグラフ)に含まれる異なるキーワードの数を指
すものとする。
【0029】すなわち、上述のような本発明による全文
検索装置を用いることによって、抽出単位(レコード)
と、評価単位(アイテム)とが指定でき、検索要求とし
て利用者が入力した、キーワードとしての複数の異なる
単語列の、抽出単位中における出現頻度のみならずその
密度をも考慮して各レコードの得点付けを行なうことが
できる。そして得点付けの結果、予め利用者が指定した
得点よりも高い得点を持つレコードのみが出力されるた
めに、所望の文章中の、利用者が調査しようとする主題
に関連した情報を容易に検索できる。
【0030】なお、上述の説明ではレコードデリミタと
アイテムデリミタとを共に利用者によって入力するよう
にしたが、本発明はこれには限定されず、これらデリミ
タについて、予めデフォルト(暗黙)値として与えられ
たデリミタを利用することもできる。また基準得点とし
ても利用者が入力するようにしたが、この得点もデフォ
ルト値として与えることも可能である。ただし、検索の
精度を容易に制御するためには、この基準得点は容易に
変更できることが必要である。
【0031】図2は、本発明に係る全文検索装置の処理
フロー図である。具体例と共に各ステップについて説明
する。
【0032】ステップS01では、レコードデリミタを
利用者に入力させる。前述のように段落を抽出単位とす
る場合には、レコードデリミタとして「CR(改行)C
R(改行)」と入力する。
【0033】ステップS02では、アイテムデリミタを
入力させる。レコードが段落である場合には、アイテム
はパラグラフとなり、そのデリミタは前述のように「C
R(改行)」である。なお、このステップS01、S0
2の処理は、デリミタをデフォルト値として予め提供す
るならば省略することもできる。
【0034】続いてステップS03では、利用者に質問
文を入力させる。この質問文としてはたとえば「文章構
成 文体統一 書院 シャープ ワープロ」のように、
キーワードとしての各単語列を互いにスペースで区切っ
て入力させる。なお、この質問文の入力では、前述のよ
うに自然文を入力させ、形態素解析技術を用いて自立語
を抽出し、それら自立語をキーワードとしての単語列と
することもできる。
【0035】続いてステップS04では、段落抽出の際
の、各段落の基準得点を利用者によって入力させる。こ
こで、望ましくは、システムは、S01で入力されたレ
コードデリミタと、ステップS03で入力されたキーワ
ードの単語数とから、基準得点(RK1)として最適な
得点と思われる値をデフォルト値として表示する。たと
えばレコードが段落で、ステップS03で入力された質
問文の単語数が5個である場合には、デフォルト値は2
0点とする。利用者は、検索精度を上げたければ、表示
されたデフォルト値よりも高い基準得点を、検索漏れを
防いで抽出段落を多くしようと思えば低い得点を入力す
る。検索を何度か繰返すことにより、利用者は最適な基
準得点の設定を学習することができ、利用者の目的に合
った検索ができるようになることが期待される。
【0036】ステップS05では、ステップS01〜S
03で入力された各デリミタ、キーワードとしての単語
列を認識するためのオートマトンが生成される。オート
マトンの一部を図3に示す。
【0037】図3を参照して、実線で表わされたアーク
はgoto関数を表わし、破線で表わされたアークはf
ailure関数を示す。図3中、○印はそれぞれ状態
1〜12を表わし、下線が付された文字列は、各状態に
おける出力を表わす。さらに、「¬{ … }」は、
{ }内に記載された文字以外のすべての文字を表わ
す。
【0038】また図3に示されるオートマトンにおいて
は、デリミタ、単語列の認識は以下のようにして行なわ
れる。まず状態1において、入力される文字列のうちの
1文字が検査され、その文字が「文」「書」「CR」…
である場合にはそれぞれ状態2、状態9、状態11等に
遷移する。各状態では、後続する1文字についての検査
を行ない、各実線のアークに示される文字と一致した場
合にはそのアークに従って次の状態に遷移する。その状
態から出るすべてのアークに割当てられた文字との一致
が見出せない場合には破線のアークに従って状態遷移を
行なう。なお、図3においては状態6、12以外のすべ
ての状態からは、状態1への破線のアークが想定されて
いるが、図3においてはその図示を省略している。この
破線のアークに従った遷移では、次の文字を読まず、単
に状態のみを変える。そして、各下線が引かれた文字列
が付された状態にまで遷移したときにその文字列がオー
トマトンの出力として出力される。
【0039】再び図2を参照して、ステップS06で
は、ステップS05で生成されたオートマトンに対し
て、検索対象となる文章を順に与える。
【0040】ステップS07では、オートマトンの出力
がキーワードの単語列であるかどうかについての判断を
行なう。キーワードのヒットがあった場合には制御はス
テップS08に進み、キーワードバッファ中の、検出さ
れたキーワードに対応するカウンタを1加算し、ステッ
プS09に進む。キーワードでない場合には処理は直接
ステップS09に進む。
【0041】ステップS09では、オートマトンの出力
がアイテムデリミタ(ID)であるかどうかについての
判断を行なう。アイテムデリミタである場合には処理は
ステップS10に進み、これまでに行なわれた処理によ
り、キーワードバッファ中のカウンタがいかなる状態で
あるかを調べ、その状態に従って処理対象のアイテム
(パラグラフ)の評価を行なう。この評価は、表1を参
照して既に説明した得点付け手法によって行なう。得ら
れたアイテム(パラグラフ)の得点は、図1に示される
アイテムバッファ8に格納される。たとえば現在の設例
では、質問文中の単語数が5個である。表1に従えば、
5個ともパラグラフ中に含まれる場合にはそのパラグラ
フの得点は10点、4個のみが含まれる場合であれば7
点、3個のみが含まれる場合であれば5点、2個のみ含
まれる場合には3点、1個のみであれば1点、1つも含
まれなければ0点となる。
【0042】続いてステップS11では、オートマトン
の出力がレコードデリミタ(RD)であるか否かについ
ての判断を行なう。出力がレコードデリミタである場合
には処理はステップS12に進み、処理対象となってい
るレコード(段落)の得点(RK2)を、アイテムバッ
ファ中の各アイテムの得点を合計することにより算出す
る。
【0043】ステップS12の後処理はステップS13
に進む。ステップS13では、ステップS12で算出さ
れたそのレコードの得点(RK2)と、ステップS04
で入力された基準得点(RK1)との比較を行なう。R
K2がRK1よりも大きいか等しい場合には処理はステ
ップS14に進むが、それ以外の場合には処理は直接ス
テップS15に進む。
【0044】ステップS14では、処理対象の段落に与
えられた得点が、基準得点以上であることから、このレ
コードを抽出することとし、図1に示される表示手段1
0によって表示する。ステップS14の後処理はステッ
プS15に進む。
【0045】ステップS15では、データ蓄積手段3
(図1参照)に文章がまだ残っているかどうかについて
の判断を行なう。文章がまだ残っている場合には処理は
ステップS06に戻ってステップS06以下の処理を繰
返し行なう。一方文章が残っていない場合にはステップ
S15からステップS16に処理が進み、処理を終了す
る。
【0046】なお、上述の実施例では、1パラグラフに
何種類のキーワードが含まれるかによって異なる重み付
けで評価を行なったが、さらに、各キーワードの出現数
によって重み付けを変化させても良い。
【0047】
【発明の効果】以上のようにこの発明によれば、キーワ
ードとしての単語列の出現頻度のみならず出現密度によ
っても、各抽出単位の、検索の主題との関連性を評価す
ることができる。そして、その評価値と所定の基準値と
を比較することにより抽出単位を抽出するか否かが決定
される。そのために、所定の基準値を高くすれば検索精
度を上げることができ、基準値を下げれば検索漏れを少
なくすることができる。検索精度のコントロールにおい
て、従来のように煩雑な検索論理式を考える必要がな
く、検索精度を容易にコントロールすることができる全
文検索装置を提供できる。
【図面の簡単な説明】
【図1】本発明の一実施例に係る全文検索装置のブロッ
ク図である。
【図2】本発明の一実施例に係る全文検索装置の処理フ
ロー図である。
【図3】オートマトンの一例を示す状態遷移図である。
【符号の説明】
1 検索要求入力手段 2 有限状態オートマトン生成手段 3 データ蓄積手段 4 オートマトン蓄積手段 5 データ制御手段 6 キーワードバッファ 7 アイテム評価手段 8 アイテムバッファ 9 レコード評価手段 10 表示手段
───────────────────────────────────────────────────── フロントページの続き (72)発明者 乾 隆夫 大阪府大阪市阿倍野区長池町22番22号 シ ャープ株式会社内

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 自然文または単語列で表現された電子化
    テキスト全文を検索し、所望の主題と関連する部分を抽
    出するための全文検索装置であって、 主題に関連する所望の1または複数種類の検索単語列を
    入力するための検索単語列入力手段と、 テキストを、所定の基準に従って抽出単位に分割すると
    ともに、各前記抽出単位をさらに所定の基準に従って評
    価単位に分割するためのテキスト分割手段と、 各前記評価単位に前記検索単語列が何種類含まれるかに
    従って異なる重み付けで、各前記評価単位を評価するた
    めの第1の評価手段と、 各前記抽出単位に含まれる評価単位の評価の合計によっ
    て、各前記抽出単位の主題該当性を評価するための第2
    の評価手段と、 前記第2の評価手段の出力に応答して、主題該当性が所
    定の基準を上回る抽出単位を抽出するための抽出手段と
    を含む、全文検索装置。
JP4064733A 1992-03-23 1992-03-23 全文検索装置 Withdrawn JPH05266087A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4064733A JPH05266087A (ja) 1992-03-23 1992-03-23 全文検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4064733A JPH05266087A (ja) 1992-03-23 1992-03-23 全文検索装置

Publications (1)

Publication Number Publication Date
JPH05266087A true JPH05266087A (ja) 1993-10-15

Family

ID=13266648

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4064733A Withdrawn JPH05266087A (ja) 1992-03-23 1992-03-23 全文検索装置

Country Status (1)

Country Link
JP (1) JPH05266087A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08272782A (ja) * 1995-03-29 1996-10-18 Fuji Xerox Co Ltd 文書検索装置
JP2006163723A (ja) * 2004-12-06 2006-06-22 Hitachi Software Eng Co Ltd ドキュメント検索方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08272782A (ja) * 1995-03-29 1996-10-18 Fuji Xerox Co Ltd 文書検索装置
JP2006163723A (ja) * 2004-12-06 2006-06-22 Hitachi Software Eng Co Ltd ドキュメント検索方法

Similar Documents

Publication Publication Date Title
US9613166B2 (en) Search suggestions of related entities based on co-occurrence and/or fuzzy-score matching
US5940624A (en) Text management system
US5802515A (en) Randomized query generation and document relevance ranking for robust information retrieval from a database
US8983977B2 (en) Question answering device, question answering method, and question answering program
US6442540B2 (en) Information retrieval apparatus and information retrieval method
JP2810650B2 (ja) 自然言語ドキュメントのセンテンスからセンテンスの部分集合を自動的に抽出する方法及び装置
US20150074112A1 (en) Multimedia Question Answering System and Method
JPH10207911A (ja) 文書検索装置
US6807544B1 (en) Method and system for information retrieval based on parts of speech conditions
US20040015485A1 (en) Method and apparatus for improved internet searching
US20040158558A1 (en) Information processor and program for implementing information processor
JP4631795B2 (ja) 情報検索支援システム、情報検索支援方法および情報検索支援プログラム
US7346614B2 (en) Information searching method, information searching program, and computer-readable recording medium on which information searching program is recorded
JP5737079B2 (ja) テキスト検索装置、テキスト検索プログラム、及びテキスト検索方法
JP2003150624A (ja) 情報抽出装置および情報抽出方法
JP3930168B2 (ja) 文書検索方法、装置および文書検索プログラムを記録した記録媒体
JP7256357B2 (ja) 情報処理装置、制御方法、プログラム
JPH05266087A (ja) 全文検索装置
JP2002032394A (ja) 関連語情報作成装置、関連語提示装置、文書検索装置、関連語情報作成方法、関連語提示方法、文書検索方法および記憶媒体
RU2409849C2 (ru) Способ поиска информации в политематических массивах неструктурированных текстов
JP2005234772A (ja) 文書管理装置および方法
JP3943005B2 (ja) 情報検索プログラム
JPH08305726A (ja) 情報検索装置
EP0592402B1 (en) A text management system
JPH08314950A (ja) テキストの検索方法及び装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 19990608