JPH04135278A - 文書検索装置 - Google Patents

文書検索装置

Info

Publication number
JPH04135278A
JPH04135278A JP2257944A JP25794490A JPH04135278A JP H04135278 A JPH04135278 A JP H04135278A JP 2257944 A JP2257944 A JP 2257944A JP 25794490 A JP25794490 A JP 25794490A JP H04135278 A JPH04135278 A JP H04135278A
Authority
JP
Japan
Prior art keywords
document
keyword
search
keywords
accuracy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2257944A
Other languages
English (en)
Inventor
Mitsuhisa Kaneya
光久 金矢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2257944A priority Critical patent/JPH04135278A/ja
Publication of JPH04135278A publication Critical patent/JPH04135278A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、利用者が指定した検索条件によって文書デー
タベースより文書を検索する際、検索結果を適切さ(文
書確度)に基づいて出力することにより適量・適量検索
を可能とした文書検索装置に関する。
従来の技術 従来、文書検索方式としては、文書をある約束毎に基づ
いて分類して登録し、その分類基準をコード化したちの
く分類コード)等を検索条件として文書検索を行う方式
や、検索時にキーワード等の文書の属性を検索条件とし
て検索を行う方式や、或いは、これらを組合せた方式が
知られている。
ここに、検索条件にキーワードを用いる方法(以下、「
キーワード検索」という)としては、文書登録時に文書
にキーワードを付与し、書誌的事項と一緒に登録してお
き、検索時には既登録のキーワードをシソーラス(キー
ワード集)の中から選び検索を行う方法(以下、「シソ
ーラス型キーワード検索」という)と、文書登録時にお
けるキーワードの登録は行わず検索時には使用者が自由
にキーワードを入力し、要求されたキーワードを登録し
である全文書中より検索し、キーワードを含んでいる文
書を検索結果として出力する方法(以下、「フリーキー
ワード型キーワード検索J=「全文検索」という)等が
知られている。
シソーラス型キーワード検索方式は、例えば情報処理学
会研究報告89−FI−1414−6(文献])中のr
大規模文書情報システム用テキストサーチマシンの研究
」において言及されているもので、利用者がその文書を
的確に表現している語を文書登録時にキーワードとして
文書に付与することにより、少ない検索条件でより適切
な検索結果を得ることができるという利点を有するが、
文書に付与されているキーワードの適切さ(妥当性)に
よって検索性能が左右されるため、キーワードの付与に
は細心の注意を要する。また、キーワードを確実に覚え
ていないと検索漏れ等の問題を引き起こすことにもなる
このようなシソーラス型キーワード検索方式の問題点を
解決したものとして、特開平1−1057号公報(既提
案方式)に示される文書検索装置がある。これは、文書
登録時にキーワードを付与する、といった点では上述し
たシソーラス型キーワード検索方式と同様であるが、検
索時に、キーワード関速度表を用いて文書確度を計算し
、その結果に基づいて文書を検索するようにしたもので
あり、あいまいなキーワードからでも適量・適量な検索
結果が得られるようにしたものである。しかし、この提
案方式によっても、登録されているキーワード以外での
検索は行えず、そのため、文書登録時には使用者がある
程度検索時を想定してキーワードの付与を行わなければ
ならない、といった煩わしさは解消されていない。また
、キーワードの付与を計算機等を用いた自動キーワード
抽出機に行わせることも考えられているが、検索時のた
めに使用者がどのようなキーワードが付与されているか
を確かめる必要があることも面倒である。また、インバ
ーテツドファイルを用いているため、従来から問題であ
った文書登録時のインバーテツドファイルの作り直しの
ためのロスタイムの問題も解消されていない。これらの
点も」−記文献1中で言及されている。
一方、全文検索方式は、登録時のキーワード付与が不要
であり、また、検索時には使用者の思いつくままに検索
条件を入力するたけて検索を実行できるので、シソーラ
ス型キーワード検索方式の問題点を解決し、使用者自身
による多様な要求に応え得るものとして、多くの情報検
索システムの中に加えられるようになってきた(上記文
献1参照)。しかし、情報処理学会研究報告89−Fl
−1414−1(文献2)中の「フルテキスト・データ
ベースの実用化における諸問題」で言及されているよう
に、現状のシステムを見る限り、使用者が高度な検索技
法を駆使しないと不要な結果のみが検索されることにな
りがちである。この大きな理由の一つとしては、全文検
索方式では基本的にキーワードが含まれている文書は、
キーワードが文書中で重要な意味を持つか否かに関わら
ず全て検索され、検索結果が概して非常に膨大になって
しまうにも拘らず、文字列上のみの検索であるため、意
味が同じ若しくは似通っていても、表記が異なれば検索
漏れを引き起こす可能性が高く、あいまい検索では検索
結果を絞り込むことが非常に困難だからである。
発明が解決しようとする課題 即ち、既提案方式のようなキーワード関速度を利用した
あいまい検索において、登録されていないキーワードに
よる検索を可能とすることにより、文書登録時に使用者
によるキーワード付与及びその確認の必要性をなくして
、文書登録時の労力を軽減し得ることが課題となる。
課題を解決するための手段 キーワード等の検索条件を入力とし、キーワード間の関
係の強さを示すキーワード関連度等の情報を用いた所定
の計算式から、入力された前記検索条件に対する各文書
の評価値を文書確度として求め、その文書と求められた
文書確度とを検索結果とする検索を行うようにした文書
検索装置において、請求項1記載の発明では、あるキー
ワードと文書との関係を調べる際に全文検索を行う全文
検索手段を設けた。
請求項2記載の発明では、あるキーワードと文書との関
係を調べる際に全文検索を行う全文検索手段とともに、
文書に対するキーワードの重要度を評価する重要度評価
手段とを有してキーワード・文書間関連度を算出するキ
ーワード・文書間関連度計算手段を設け、算出されたキ
ーワード・文書間関連度に基づき文書確度を算出するよ
うにした。
さらに、請求項3記載の発明では、あるキーワードと文
書との関係を調べる手段として、インバーテツドファイ
ルを用いる手段と、全文検索を行う全文検索手段とを選
択自在に設けた。
作用 あるキーワードと文書との関係を調べる際に全文検索手
段により全文検索が行われるので、登録されていないキ
ーワードによる場合であっても検索が可能となり、キー
ワードの登録ミスや登録忘れによる検索漏れを防止し得
る。この際、キーワード関速度を利用したあいまい検索
をベースとしているので、あいまいな検索条件に対して
も検索漏れを生ぜず、かつ、適切な順に検索結果が得ら
れるので単に全文検索を行うものに比し、使用者が高度
な検索技法を用いなくても検索結果の絞り込みが可能で
、より適量・適量な検索結果を得ることができる。この
ために、文書登録時には使用者がキーワードを付与する
とか、確認するといった作業が不要となり、文書登録時
の労力を大幅に軽減し得るものともなる。
特に、請求項2記載の発明によれば、全文検索とともに
、文書に対するキーワードの重要度を評価するキーワー
ド・文書間関連度という新しい概念を導入し、文書確度
を計算するようにしたので、例えば文書に対するキーワ
ードの重要度順にランク付けを行うことができる等、使
用者の感覚により近づいたあいまい検索が可能となる。
また、請求項3記載の発明によれば、インバーテツドフ
ァイルの利用も可能とされているので、既提案方式の特
徴をそのまま活がしつつ、その欠点を全文検索併用によ
りカバーし得るものとなる。
実施例 請求項1記載の発明の一実施例を第1図に基づいて説明
する。基本的には、前述した既提案方式と同様であるが
、まず、文書登録時にキーワードの登録は行わないので
キーワード抽出部がない点で異なり、登録文書1は書誌
情報2とともに文書情報管理部3を通じてファイル4に
登録し、検索時に利用可能な形にデータベース化するよ
うに構成されている。また、インバーテツドファイル及
びインバーテツドファイル作成部を有しない点でも異な
る。キーワードコネクション表処理部5は必要なキーワ
ードとともに関連性のあるキーワード同士のつながり及
びその関速度を記述したキーワードコネクション(キー
ワード関速度)表を作成しファイル6に格納するもので
ある。ここに、キーワードコネクション表は例えばリス
ト構造とされ、関速度の大きい順にソートされる。
ついで、文書選出部7が設けられている。この文書選出
部7は検索利用者の要求主題・要求概念により近い文書
ファイルをキーワード群によって抽出することを目的と
したもので、キーボード8からアクセスする利用者に対
してキーワード−覧表をデイスプレィ9に出力する。そ
の中から利用者は要求主題に必要なキーワードを選択す
るか、自由キーワードを選択して、再びキーボード8か
ら表示検索要求を入力するものである。このような文書
選出部7は要求処理部10とソート部11と表示管理部
12とキーワード間関速度計算部13とファイル確度(
文書確度)計算部】4とよりなる。要求処理部1oはキ
ーボード8から受理したキーワードをキーワード間関速
度計算部13に転送する。キーワード間関速度計算部1
3では転送されたキーワードに関する関連キーワードと
その関連情報をキーワードコネクション表から抽出する
。抽出されたキーワード群は関連の強い順にソート部1
1でソートされて表示管理部12へ出力される。表示管
理部12はこの関連キーワード群をデイスプレィ9に出
力し、利用者に対して表示する。この表示に従い、利用
者がさらに必要なキーワードを選択することにより、最
終的なキーワード群が文書選択要求とともに要求処理部
10へ送られる。
要求処理部10では文書選択要求を受けると、ファイル
確度計算部14にキーワード群を転送させる。同時に、
最終的なキーワード群に関する関連情報の重み変更を行
うようにキーワードコネクション表処理部5に指示する
。ファイル確度計算部14では受理したキーワード群と
キーワードコネクション表を用いて、登録文書lのファ
イル4についてファイル確度(文書確度)を計算し、結
果をソートfa11に転送する。必要なファイル確度の
計算が終了すると、ソート部11によるソートを経てデ
イスプレィ9に表示され、検索結果とされる。
二二に、本実施例ではインバーテツドファイル関係に代
えて、全文検索部(全文検索手段)15が文書情報管理
部3と文書選出部7との間に接続して設けられている。
このような構成において、文書登録時にはキーワードの
登録は行われないのでキーード抽出も行われず、登録文
書1は書誌情報2とともに直接文書情報管理部3に送ら
れ、ファイル4に登録される。当然ながら、ファイル4
にはキーワード情報は登録されない。また、既提案方式
では文書登録時にキーワードがキーワードコネクション
表処理部5にも入力されていたが、本実施例ではこの処
理は行わない。つまり、文書登録時にはキーワードコネ
クション表に登録されている関連情報の変更は行われず
、また、新しいキーワード及びコネクションの追加も行
われないので、キーワードコネクション表には利用者が
キーワードとして入力する可能性のある語は予め登録さ
れているものとする。
一方、文書検索時には、最終的なキーワード群(検索条
件)を得るまでは、既提案方式と同様に動作する。最終
的なキーワード群は、文書選択要求とともに要求処理部
10へ送られる。そこで、前述したようにファイル確度
計算部14によるファイル確度の計算に供される。ここ
に、キーワードと文書との関係(即ち、どのキーワード
がどの文書に付与されているかの関係)を調べる手段と
して、既提案方式ではインバーテツドファイルを用いた
が、本実施例では検索時毎に全文検索部15により全文
検索を行ってキーワードが文書中に存在するか否か調べ
、その全文検索結果をキーワードと文書との関係として
用い、インバーテツドファイルを用いた場合と同様にし
て、ファイル確度の計算に供する。つまり、全文検索部
15はファイル確度計算部14よりキーワードを受取り
、文書情報管理部3を通じてファイル4中にある全ての
文書中から要求されたキーワードを検索する。
その結果、キーワードを含んでいた文書をキーワードと
関連のある文書とみなし、結果をファイル確度計算部1
4に送る。なお、全文検索を行う際は、同義語及び表記
のゆれ等を正規化する処理も同時に行われる。また、こ
の検索は単純な文字列マツチングではなく、単語の単位
をDHしたマツチングによる。
計算されたファイル確度は、ソート部11に送られ、上
述したように既提案方式と同様にして利用者に検索結果
が示される。
このように、本実施例によれば、文書登録時の労力が軽
減されるとともに、検索効率が向上するものとなる。即
ち、文書登録時に使用者がキーワードの付与を行う必要
がないため、利用者は文書登録時にどのようなキーワー
ドを付与したらよいか悩む必要がなく、文書登録時の作
業量を大幅に減することができる。また、従来において
、キーワード付与作業の軽減のために自動的にキーワー
ド抽出を行う手段を搭載したものもあるが、この場合、
結局、検索時のために使用者がどのようなキーワードが
付与されたかを確かめる必要があり煩雑であるが、本実
施例によれば登録されたキーワードの確認作業も要しな
い。また、従来法であれば、登録されていないキーワー
ドが入力されると、たとえそのキーワードが文書中に含
まれていたとしても検索不可であったが、本実施例によ
れば全文検索を行ってキーワードを含む文書を調べるた
め、検索可能となる。この結果、キーワードの登録ミス
や登録忘れによる検索漏れをも軽減し得るものとなる。
また、基本的には既提案方式のあいまい検索を用いてい
るので、あいまいな検索条件からの検索も漏れなく可能
となる。特に、この場合、ファイル確度なる適切な順に
検索結果が得られるので、単に全文検索を行うものに比
し、使用者が高度な検索技法を駆使することなく、検索
結果の絞り込みが可能となり、より適量・過賞な検索結
果を得ることができる。
つづいて、請求項2記載の発明の一実施例を第2図ない
し第4図により説明する。前記実施例で示した部分と同
一部分は同一符号を用いて示す。
本実施例は、キーワードらしさ、或いは、キーワードの
文書に対する適切さを意味する概念として、キーワード
・文書間関連度なる新しい概念を導入して、前記実施例
をさらに改良したものである。
一般に、全文検索では、キーワーにが文書中で重要な意
味を持つ語であるか、又は、全く意味を持たない語であ
るかに拘らず、単に文書中に「存在する」という概念で
しか扱っていないため、前述したように、あいまい検索
では検索結果が膨大になってしまう等の可能性がある。
また、既提案方式を始めとするシソーラス型キーワード
検索においても、各キーワードと各文書との関係には、
あるキーワードがある文書に「付与されている」又は「
付与されていない」の2通りしか存在しないため、文書
に対するキーワードの重要さの度合いは検索結果に反映
されない。このため、例えば文書内容を非常に的確に表
現しているキーワードを検索条件として入力した場合と
、文書の内容を直接的には表現していないようなキーワ
ードを入力した場合とで、仮に、両方ともキーワードと
してその文書に付与されているならば検索結果に差のな
いものとなる。また、あるキーワードを検索条件として
入力した場合、そのキーワードが非常に重要である文書
と大して重要でないが散散えずそのキーワードが付けら
れているような文書とでも全く区別されない検索結果と
なってしまう。このような不都合を生じ得る最大の原因
は、文書とキーワードとの関係が「付与されている」又
は「付与されていない」の2値でしか表現されていない
点にあると考えられる。
そこで、本実施例では全文検索部15とともにキーワー
ドの重要度を評価するキーワード重要度評価部16を備
えたキーワード・文書間関速度計算部17を設けたもの
である。これにより、文書検索に際して、キーワードが
入力された時、キーワードと文書との関係を、キーワー
ドが文書とどの位関係深いか(キーワードが文書中でど
れだけ重要な意味を持つか)を表す尺度として多値(例
えば、「0」から「1」までの間の値をとる実数値)で
表されるキーワード・文書間関連度を求めて、ファイル
確度計算部14に送りファイル確度の計算に供するよう
にしたものである。
この点について、さらに説明する。まず、キーワード・
文書間関連庫を求めるのに、インバーテツドファイルを
用いず、前記実施例と同様に、検索時毎に全文検索部1
5により全文検索を行って、キーワードが文書中に存在
するか否かを調べる。
このように全文検索で検索された文書(即ち、キーワー
ドを含んでいた文書)の各々について、そのキーワード
が文書中でどの位重要であるかをキーワード重要度評価
部16で計算し判断する。このようなキーワードの評価
には、従来のキーワード自動抽出手段として知られてい
る技術(ある語の文書中での重要度の評価技術)をその
まま応用することができる。キーワード・文書間関速度
計算部17ではこのキーワード重要度評価部16での計
算結果をキーワード・文書間関連度としてファイル確度
計算部14に送る。
ファイル確度計算部14ではこのキーワード・文書間関
連度情報を例えば以下のようにファイル確度の計算に利
用する。まず、従来法においてキーワードiからキーワ
ードJへのキーワード関速度を、ファイル確度のWl、
を計算に用いている部分でWljの代りにキーワード・
文書間関連度C1(ただし、C□はキーワードjと文書
dとの関連度)を乗じた値を用いるものとする。即ち、
W、。
の代りに、C□×WIJを用いる。
例えば、k+EDaはキーワード1が文書dに含まれて
いる、k、EQ はキーワードjが検索条件に含まれて
いることを表すものとし、文書dのファイル確度r6を なる式で求める従来方式があったとする。これは、検索
要求キーワードについて、そのキーワードとそのキーワ
ードに関連のあるキーワードの各々のうちで、文書に含
まれているキーワードの検索要求キーワードとのキーワ
ード関速度の総和を各検索キーワードについて求め、そ
の総和を文書確度として求めることに他ならない。例え
ば、検索要求としてキーワードAが入力され、このキー
ワードAは第3図に示すようなキーワード関速度をキー
ワードB−Fとの間で持っていたとする。また、文書D
1及びD2中にはキーワードA−Fの内、第4図(a)
(b)に示すようなキーワードを含んでいたとする。図
中の数字は各キーワードと文書との関連度を表している
よって、従来方式により文書D1のファイル確度rDl
を求めると、 r o+ =WAA+WAB+WAC+WAF=1.0
+0.25+0.08+0.5=1.83となる。また
、文書D2のファイル確度rpzは、rf、、=WAB
+WAE==0.25+0.75=1.0となる。
これに対して本実施例方式により、文書DIのファイル
確度rDlを求めると、 r DI = CAD IXWAA+ CBDI XW
AB+ Cco+ XWAC+ CFDI XWAF=
0,25xl、O+0.3x0.25+0.65x0,
08+〇、5x0.5=0.63となる。また、文書D
2のファイル確度rD2は、r D2= CAD2 X
WAB十CED2 XWAE=0.95XO,25+〇
、7X0.75=0.76となる。
このように計算されたファイル確度は、ソート部11に
送られ、既提案方式と同様の方法で利用者に検索結果が
示される。
よって、本実施例によれば、前記実施例と同様に文書登
録時の労力の軽減化、検索効率の向上化を図れるととも
に、使用者の感覚により近づいたあいまい検索が可能と
なる。即ち、多値で表現されるキーワード・文書間関連
度という新しい概念を用いてあいまい検索を行うことに
より、全文検索の問題を解決し得るとともに、既提案方
式のあいまい検索に比しても、さらに、より適量・適量
な検索結果が得られるものとなる。例えば、あるキーワ
ードを検索条件とした場合、そのキーワードを重要とす
る文書のほうが、そのキーワードをそれほど重要としな
い文書よりも大きな文書確度の値を持って出力されるこ
とになる。さらには、複数のキーワードによるOR検索
のように、検索条件を満たす文書が多数存在した場合で
あっても、文書に対するキーワードの重要度順にランク
付けを行うことができるので、より効率的な文書検索が
可能となる。
さらに、請求項3記載の発明の一実施例を第5図により
説明する。本実施例は、既提案方式の構成に全文検索実
行部15を付加したものである。
即ち、既提案方式と同じくキーワード抽出部18、イン
バーテツドファイル作成部19及びインバーテツドファ
イル2oをも有するものである。
このような構成において、文書登録時及び関連キーワー
ド群表示時の動作は、既提案方式と同じく行われる。も
っとも、文書登録時に必ずしもキーワード付与作業を必
要としない(この場合には、キーワード抽出部18を素
通りすることになる)。
また、後で使用者の時間の許す時に、キーワードの付与
/変更/削除等の作業を行い得る。さらに、検索条件と
して入力するキーワードも必ずしも既登録のものでなく
てもよいので、キーワードの表示を使用者の判断によっ
て省略させてもよい。
一方、文書検索時には、まず、処理要求部10が要求さ
れたキーワード群を文書選択要求とともにファイル確度
計算部14に転送する。ファイル確度計算部14ではイ
ンバーテツドファイル作成部19を通じてファイル装置
内にあるインバーテツドファイル20よりキーワードの
付与されている文書を調べる。ここに、インバーテツド
ファイル20内にキーワードが見つからなかった場合に
は、インバーテツドファイル作成部19より全文検索実
行部15に全文検索要求を出す。そこで、全文検索実行
部15では前述した実施例のようにファイル4より全文
書を読出し、キーワードを検索する。この検索結果は、
インバーテツドファイル作成部19を通じてファイル確
度計算部14に転送され、ファイル確度の計算に供され
る。
発明の効果 本発明は、上述したようにキーワード関速度を利用した
あいまい検索方式に全文検索手段を用いて、あるキーワ
ードと文書との関係を調べる際に全文検索を行うように
したので、登録されていないキーワードの場合であって
も検索が可能となり、キーワードの登録ミスや登録忘れ
による検索漏れを防止し得るとともに、キーワード関速
度を利用したあいまい検索をベースとしているので、あ
いまいな検索条件に対しても検索漏れを生ぜず、かつ、
適切な順に検索結果が得られるので単に全文検索を行う
ものに比し、使用者が高度な検索技法を用いなくても検
索結果の絞り込みが可能で、より適量・適量な検索結果
を得ることができ、このためにも、文書登録時には使用
者がキーワードを付与するとか、確認するといった作業
が不要となり、文書登録時の労力を大幅に軽減し得るも
のとなり、特に、請求項2記載の発明によれば、全文検
索とともに、文書に対するキーワードの重要度を評価す
るキーワード・文書間関連度という新しい概念を導入し
て、文書確度を計算するようにしたので、全文検索方式
の欠点を解消しつつ、例えば文書に対するキーワードの
重要度順にランク付けを行うことができる等、使用者の
感覚により近づいたあいまい検索を可能とすることがで
きる。
【図面の簡単な説明】
第1図は請求項1記載の発明の一実施例を示すブロック
構成図、第2図は請求項2記載の発明の一実施例を示す
ブロック構成図、第3図はキーワードコネクションの一
例を示す説明図、第4図は文書とキーワードとの関係の
一例を示す説明図、第5図は請求項3記載の発明の一実
施例を示すブロック構成図である。 15・・・全文検索手段、16・・・重要度評価手段、
17・・・キーワード・文書間関連度計算手段、19・
・・インバーテツドファイル手段 、%Z図 −毛 U 図 図

Claims (1)

  1. 【特許請求の範囲】 1、キーワード等の検索条件を入力とし、キーワード間
    の関係の強さを示すキーワード関連度等の情報を用いた
    所定の計算式から、入力された前記検索条件に対する各
    文書の評価値を文書確度として求め、その文書と求めら
    れた文書確度とを検索結果とする検索を行うようにした
    文書検索装置において、あるキーワードと文書との関係
    を調べる際に全文検索を行う全文検索手段を設けたこと
    を特徴とする文書検索装置。 2、キーワード等の検索条件を入力とし、キーワード間
    の関係の強さを示すキーワード関連度等の情報を用いた
    所定の計算式から、入力された前記検索条件に対する各
    文書の評価値を文書確度として求め、その文書と求めら
    れた文書確度とを検索結果とする検索を行うようにした
    文書検索装置において、あるキーワードと文書との関係
    を調べる際に全文検索を行う全文検索手段と、文書に対
    するキーワードの重要度を評価する重要度評価手段とを
    有してキーワード・文書間関連度を算出するキーワード
    ・文書間関連度計算手段を設け、算出されたキーワード
    ・文書間関連度に基づき文書確度を算出するようにした
    ことを特徴とする文書検索装置。 3、キーワード等の検索条件を入力とし、キーワード間
    の関係の強さを示すキーワード関連度等の情報を用いた
    所定の計算式から、入力された前記検索条件に対する各
    文書の評価値を文書確度として求め、その文書と求めら
    れた文書確度とを検索結果とする検索を行うようにした
    文書検索装置において、あるキーワードと文書との関係
    を調べる手段として、インバーテッドファイルを用いる
    手段と、全文検索を行う全文検索手段とを選択自在に設
    けたことを特徴とする文書検索装置。
JP2257944A 1990-09-27 1990-09-27 文書検索装置 Pending JPH04135278A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2257944A JPH04135278A (ja) 1990-09-27 1990-09-27 文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2257944A JPH04135278A (ja) 1990-09-27 1990-09-27 文書検索装置

Publications (1)

Publication Number Publication Date
JPH04135278A true JPH04135278A (ja) 1992-05-08

Family

ID=17313382

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2257944A Pending JPH04135278A (ja) 1990-09-27 1990-09-27 文書検索装置

Country Status (1)

Country Link
JP (1) JPH04135278A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06251076A (ja) * 1993-02-27 1994-09-09 Omron Corp データ・ベース検索装置および方法
JPH06259482A (ja) * 1993-03-04 1994-09-16 Omron Corp データ・ベース検索装置および方法
JPH07239861A (ja) * 1994-02-25 1995-09-12 Ricoh Co Ltd 文書検索装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06251076A (ja) * 1993-02-27 1994-09-09 Omron Corp データ・ベース検索装置および方法
JPH06259482A (ja) * 1993-03-04 1994-09-16 Omron Corp データ・ベース検索装置および方法
JPH07239861A (ja) * 1994-02-25 1995-09-12 Ricoh Co Ltd 文書検索装置

Similar Documents

Publication Publication Date Title
US7039631B1 (en) System and method for providing search results with configurable scoring formula
US6826576B2 (en) Very-large-scale automatic categorizer for web content
JP4944405B2 (ja) 情報検索システムにおけるフレーズに基づくインデックス化方法
US6289342B1 (en) Autonomous citation indexing and literature browsing using citation context
US5893094A (en) Method and apparatus using run length encoding to evaluate a database
WO2005083597A1 (en) Intelligent search and retrieval system and method
WO2002027532A1 (en) System and method for use in text analysis of documents and records
US10747759B2 (en) System and method for conducting a textual data search
US20040015485A1 (en) Method and apparatus for improved internet searching
JP3577972B2 (ja) 類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体
JPH08147320A (ja) 情報検索方法及びシステム
Tkach Text Mining Technology
JPH04135278A (ja) 文書検索装置
JPH04152468A (ja) 文書検索装置
JPH0241564A (ja) 文書検索装置
JPH0227478A (ja) 文書管理装置
JP2732661B2 (ja) テキスト型データベース装置
JPH03294964A (ja) 文書検索方法
KR100434718B1 (ko) 문서 색인 시스템 및 그 방법
JPH08305726A (ja) 情報検索装置
JP3578045B2 (ja) 全文検索方法及び装置及び全文検索プログラムを格納した記憶媒体
JP4213931B2 (ja) 特定情報検索方法および情報検索装置
JP2003288366A (ja) 類似テキスト検索装置
JP3088805B2 (ja) 文書管理装置
JPH0793345A (ja) 文書検索装置