JPH07129602A - 文書検索装置および方法 - Google Patents

文書検索装置および方法

Info

Publication number
JPH07129602A
JPH07129602A JP5292407A JP29240793A JPH07129602A JP H07129602 A JPH07129602 A JP H07129602A JP 5292407 A JP5292407 A JP 5292407A JP 29240793 A JP29240793 A JP 29240793A JP H07129602 A JPH07129602 A JP H07129602A
Authority
JP
Japan
Prior art keywords
document
search
identifier
distance
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5292407A
Other languages
English (en)
Inventor
Takahiro Nakamura
隆宏 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
C EE C KK
Original Assignee
C EE C KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by C EE C KK filed Critical C EE C KK
Priority to JP5292407A priority Critical patent/JPH07129602A/ja
Publication of JPH07129602A publication Critical patent/JPH07129602A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 シソーラス辞書または同義語辞書を用いるこ
となく、文書検索における検索洩れを少なくする。 【構成】 複数の文書およびそれらの文書を識別するた
めの識別子が格納されているメモリについて文書の検索
が行われる。入力された、1つのキー・ワードからなる
検索式、または1もしくは2以上のキー・ワードおよび
1もしくは2以上の論理演算子からなる検索式に適合す
る文書を見つける論理型検索が行れる。続いて、論理型
検索によって検索された1または2以上の文書の中から
指定された文書の識別子を基準識別子として、基準識別
子に対応する文書とメモリに格納されている他の文書と
の間の論理的な距離を表す文書間距離に関する条件に適
合する文書をメモリから見つけだす成分比較型検索が行
われる。

Description

【発明の詳細な説明】
【0001】
【技術分野】この発明は、文書データ・ベースに格納さ
れている文書を検索する装置および方法に関する。特
に、この発明は、文書データ・ベースに格納されている
文書について、まず論理型検索を行い、これによって得
られた文書に基づいて成分比較型検索を行う文書検索装
置および方法に関する。
【0002】
【背景技術】複数の文書が格納された文書データ・ベー
スから文書を検索するための方法を大別すると、論理型
検索と成分比較型検索とに分けることができる。従来の
文書検索装置においては、これらの検索の一方が二者択
一的に用いられていた。
【0003】論理型検索では、利用者によって作成され
た検索式に適合する文書が文書データ・ベースから検索
される。検索式は、1つのキー・ワード(索引語)また
は1もしくは複数のキー・ワードおよび1もしくは複数
の論理演算子(AND,OR,NOT等)からなる。
【0004】論理型検索においては、検索式に含まれる
キー・ワードが文書に存在するか否かによって検索が行
われるため、文書の内容(テーマ、話題等)からすると
検索されるべき文書が、検索式にあるキー・ワードを含
まないために検索されないといった検索洩れの問題が生
じていた。このため、シソーラス辞書(語と語の上位も
しくは下位概念の関係を定義した辞書)または同義語辞
書等が事前に用意されたり利用者によって作成される等
して、検索時に検索装置がこれらの辞書を参照し、キー
・ワードだけでなくキー・ワードの上位もしくは下位概
念の語または同義語を含む文書をも検索し、検索洩れを
少なくする措置がとられていた。
【0005】しかし、汎用的なまたは時代の変化に対応
したシソーラス辞書または同義語辞書を作成することは
困難であり、検索洩れの問題は依然残っていた。また、
進歩の著しい分野では、新しい概念を表す語が次々と生
み出されるので、このような語を辞書に追加していくこ
とが必要であり、システム保守者または利用者に負担を
強いることとなっていた。
【0006】成分比較型検索では、キー・ワードもしく
はそのリストまたは自然言語文が利用者によって入力さ
れる。自然言語文が入力された場合には、その文からキ
ー・ワードが抽出され、抽出されたキー・ワードで検索
を行ってよいかどうかの確認が利用者によって行われ
る。また、文書についても形態素解析または意味解析等
が行われ、文書に含まれる単語(主として名詞)に重み
(重要度)が付けられる。そして、入力キー・ワードが
文書に含まれる個数ならびに入力キー・ワードと同一の
単語の重みおよび入力キー・ワードと同一でないの単語
の重み等に基づいて、入力キー・ワードと文書との距離
(類似度または近似度)が数値として、検索時に算出さ
れる。この数値に基づいて、検索結果がランク付け(ソ
ート)されて利用者に提供される。したがって、入力キ
ー・ワードと同一でない単語を含む文書であっても内容
的に近い文書が検索されることもあり、論理型検索にお
けるシソーラス辞書または同義語辞書を必ずしも用いな
くてよい。
【0007】しかし、成分比較型検索ではキー・ワード
または自然言語文の入力が利用者に委ねられている。し
たがって、入力されたキー・ワードが一般に不十分であ
り、また適切でない場合も多い。このような場合には、
十分に精度の高い検索が行えないので検索結果が利用者
の要求に合致せず、検索される文書の数も多くなるとい
った問題が生じていた。また、検索のときに入力キー・
ワードと文書との距離が算出されるので、この算出に時
間を要し、検索結果が得られるまで長時間を要するとい
う問題もあった。
【0008】
【発明の開示】この発明は、シソーラス辞書または同義
語辞書を用いることなく、論理型検索における検索洩れ
を少なくする文書検索装置および方法を提供することを
目的とする。
【0009】この発明は、利用者がキー・ワードまたは
自然言語文等を入力することなく、成分比較型検索にお
いて適切なキー・ワード等によって検索が実行できる文
書検索装置および方法を提供することを目的とする。
【0010】また、この発明は、成分比較型検索を高速
に行うことを目的とする。
【0011】さらに、この発明は、利用者が検索結果を
直感的に把握しやすいユーザ・インタフェースを提供す
ることを目的とする。
【0012】この発明による文書検索装置は、複数の文
書およびそれらの文書を識別するための識別子が格納さ
れているメモリ、1つのキー・ワードからなる検索式、
または1もしくは2以上のキー・ワードおよび1もしく
は2以上の論理演算子からなる検索式を入力するための
検索式入力手段、上記検索式入力手段によって入力され
た検索式に適合する文書を、上記メモリから見つけだす
論理型検索を行う論理型検索手段、上記論理型検索手段
によって検索された1または2以上の文書の中から選択
された文書の識別子を、基準識別子として入力するため
の識別子入力手段、ならびに上記識別子入力手段によっ
て入力された基準識別子に対応する文書と上記メモリに
格納されている他の文書との間の論理的な距離を表す文
書間距離に関する条件に適合する文書を、上記メモリか
ら見つけだす成分比較型検索を行う成分比較型検索手段
を備えている。
【0013】この発明による文書検索方法は、複数の文
書およびそれらの文書を識別するための識別子が格納さ
れているメモリについて文書の検索を行う方法であり、
入力された、1つのキー・ワードからなる検索式、また
は1もしくは2以上のキー・ワードおよび1もしくは2
以上の論理演算子からなる検索式に適合する文書を見つ
ける論理型検索を行い、上記論理型検索によって検索し
た1または2以上の文書の中から指定された文書の識別
子を基準識別子とし、上記基準識別子に対応する文書と
上記メモリに格納されている他の文書との間の論理的な
距離を表す文書間距離に関する条件に適合する文書を、
上記メモリから見つけだす成分比較型検索を行うもので
ある。
【0014】メモリには、半導体記憶装置、磁気記憶装
置(磁気ディスク記憶装置、磁気ドラム記憶装置、磁気
テープ記憶装置等)、光記憶装置(光ディスク記憶装
置)、データ・ベース管理装置を持ったデータ・ベース
・システム等が含まれる。
【0015】用語「文書」は、通常の意味での文書のみ
ならず、特にコンピュータ内部での処理の対象として用
いられているときに、文書を構成する文字のコードの集
まりを指す。
【0016】検索式は、1つのキー・ワード、または1
もしくは2以上のキー・ワードおよび1もしくは2以上
の論理演算子(AND,OR,NOT等のブール演算
子、または=,<,>,≠,≦,≧等の範囲を指定する
演算子等)からなる。キー・ワード(索引語)とは、文
書に含まれる自立語であり、主として名詞である。文書
の話題やテーマを表す名詞が、キー・ワードとして選ば
れる。
【0017】文書間距離とは、文書間の類似度または近
似度を表す距離であり、文書どうしが内容的に類似また
は近似しているほどこの距離の値は小さくなる。文書間
距離に関する条件とは、この距離の値がどの範囲にある
文書を検索するかを示す条件である。この条件として、
例えば距離0から0.5 にある文書を検索するといった条
件がある。
【0018】この発明によれば、利用者から入力された
検索式に基づいて論理型検索が行われる。論理型検索に
よって検索された文書の中から指定された文書の識別子
(基準識別子)に基づいて成分比較型の検索が行われ
る。したがって、この発明によれば、論理型検索で検索
されなかった文書(検索洩れの文書)を成分比較型検索
によって補完して検索することができる。また、成分比
較型検索において、文書間の類似度または近似度を表す
文書間距離によって検索が行われるので、論理型検索の
検索結果の中から指定された文書と内容的ないしは意味
的に近い文書の検索を行うことが可能となり、シソーラ
ス辞書または同義語辞書を用いる必要はなくなる。
【0019】この発明の好ましい実施態様においては、
上記論理型検索が、あらかじめ作成された、上記キー・
ワードとそのキー・ワードが含まれる文書の識別子とを
関連づけた索引に基づいて行われる。上記索引中に上記
検索式に適合する文書の識別子があれば、これらの文書
の識別子が検索結果とされる。
【0020】索引とは、キー・ワードとそのキー・ワー
ドが含まれる文書の識別子とを関連づけたものである。
例えば、1つのキー・ワードに対して、そのキー・ワー
ドが含まれる1または2以上の文書の識別子を対応させ
た表もしくはリスト、または1つの文書の識別子に対し
て、その文書に含まれる1または2以上のキー・ワード
を対応させた表またはリスト等がある。
【0021】文書の識別子(ID)とは、ある文書を他
の文書から区別するために付けられた文書の名称または
番号等である。
【0022】索引をあらかじめ作成しておき、この索引
に基づいて論理型検索を行うことにより、文書自体の内
容を調べ、入力されたキー・ワードが含まれるかどうか
を判定する必要がなくなるので、論理型検索を高速に実
行することができる。
【0023】また、上記成分比較型検索が、あらかじめ
作成された、2つの文書の識別子とその文書間の上記文
書間距離とを関連づけた文書間距離データに基づいて行
われる。そして、上記基準識別子に対応する文書との文
書間距離が上記文書間距離に関する条件に適合する文書
の識別子があれば、これらの文書の識別子が検索結果と
される。このような文書間距離データをあらかじめ作成
しておくことにより、検索時に文書間距離を求める必要
がなくなるので、成分比較型検索を高速に行うことがで
きる。
【0024】上記文書間距離は、2つの文書のそれぞれ
から抽出された1または2以上の単語の中で、上記2つ
の文書に共通して存在しない単語について、それぞれの
重要度の値を2乗した値の総和の値を、上記2つの文書
から抽出された単語の和集合の要素の個数の値で割り、
その結果の値の正の平方根を求めることにより得られる
値である。
【0025】文書から抽出される単語には、その文書の
話題またはテーマを表す名詞および重要用語等が含まれ
る。この単語には、論理型検索に用いられるキー・ワー
ド(索引語)の全部または一部が含まれる。
【0026】単語の重要度は、その単語の文書中での出
現頻度、出現する間隔(その単語を含む文と文との間
に、その単語を含まない文がいくつ存在するかの文の個
数等)、その単語が文書において話題とされている語か
どうか(助詞「は」または「について」等の直前にその
単語があるかどうか)等のその単語の属性(または特
徴)の値が定量化され、これらの定量化された値から求
められる。
【0027】このように、この発明では、成分比較型検
索が文書間距離に基づいて行われ、この文書間距離は2
つの文書のうちの一方から抽出された単語の重要度と他
方から抽出された単語の重要度とから求められる。した
がって、この発明における成分比較型検索では、従来の
ように利用者がキー・ワードもしくはそのリストまたは
自然言語文を入力するのではなく、基準識別子に対応す
る文書(着目文書)から抽出された単語の全てがキー・
ワードとなって成分比較型検索が行われることとなる。
したがって、より精度の高い成分比較型検索が可能とな
り、着目文書と内容的ないしは意味的に近い文書(群)
を検索することが可能となる。
【0028】この発明の一実施態様においては、上記論
理型検索によって検索された文書の識別子が表示装置に
表示される。これにより、利用者は検索結果を視覚的に
確認することができる。
【0029】また、上記表示された文書の識別子の中か
ら、利用者が文書の内容を確認したい文書の識別子を指
定することにより、指定された識別子に対応する文書の
内容が表示装置に表示される。これにより、利用者は、
その文書の内容を確認することができる。
【0030】この発明の他の実施態様においては、上記
成分比較型検索によって検索された文書の識別子が表示
装置に表示される。これによって、利用者は成分比較型
検索によって得られた検索結果を視覚的に確認すること
ができる。
【0031】好ましくは、上記成分比較型検索によって
検索された文書の識別子の表示は、半径が上記文書間距
離を表す複数の同心円図形上に、上記基準識別子を上記
同心円の中心に定め、上記成分比較型検索によって検索
された1または2以上の文書の識別子を、この中心から
の距離が上記基準識別子の文書と上記検索した文書との
間の文書間距離に等しい位置に表示することによって行
われる。このように円形の表示にすることにより、文書
の識別子を文書間距離の小さいものから順番にランク付
け(ソート)したリストとして表示するよりも、利用者
は文書間の距離を直観的に把握することができ、自らが
所望する文書の検索を容易に行うことができる。
【0032】さらに好ましくは、上記成分比較型検索に
よって検索された文書の識別子が、あらかじめ定められ
た基準に基づいて複数のグループに分類される。そし
て、これらの識別子の表示が、半径が上記文書間距離を
表す複数の同心円図形からなり、かつ上記分類されたグ
ループ数に等しい数の領域に円周方向に分割され、各領
域が上記複数のグループのそれぞれに対応するものであ
る図形上に、上記基準識別子を上記同心円の中心に定
め、上記成分比較型検索によって検索された1または2
以上の文書の識別子を、この中心からの距離が上記基準
識別子の文書と上記検索した文書との間の文書間距離に
等しい位置であり、かつ上記分類されたグループに対応
する上記領域内に表示することによって行われる。これ
によって、利用者は文書間距離を直観的に把握できるだ
けでなく、各文書がどのグループ(分野、ジャンル等)
に属するかをも知ることができる。
【0033】また、この発明の他の実施態様において
は、上記成分比較型検索の検索結果である文書の識別子
の中から指定された文書の識別子に対応する文書の内容
が、表示装置に表示される。これにより、利用者は成分
比較型検索によって得られた文書の内容を確認すること
ができる。
【0034】
【実施例の説明】
(1) 文書検索装置の構成
【0035】図1は、文書検索装置の構成を示すブロッ
ク図である。この文書検索装置は、コンピュータ・シス
テム1、外部記憶装置2および3(半導体記憶装置、磁
気ディスク記憶装置、光ディスク記憶装置等)、ポイン
ティング・デバイス4(マウス、入力ペン等)、キーボ
ード5、および表示装置6(CRT表示装置等)から構
成されている。
【0036】外部記憶装置2には、検索対象である文書
群(文書データ・ベース)および各文書を他の文書と識
別するための識別子である文書名または文書IDが格納
されている。検索対象である文書は、新聞(またはその
一部の記事)、随筆、小説、技術論文等の自然言語(日
本語、英語、仏語等)で書かれた文書であり、一つの文
書には、1または複数の文(句点で終わる一文)が含ま
れている。文書は、外部記憶装置2およびコンピュータ
・システム1等の内部では、文書を構成する文字のコー
ドの集まりとして表現されている。
【0037】一般のデータ・ベース・システムと同様
に、文書名(文書ID)とその文書の内容が格納されて
いる外部記憶装置2内のアドレスとは、対応づけられた
表またはリスト(単にアドレス表という)として、外部
記憶装置2またはコンピュータ・システム1の内部メモ
リ(RAM等)に記憶されている。文書の内容を参照す
るとき、文書名(文書ID)を指定することにより、指
定された文書名(文書ID)に対応する文書内容の格納
アドレスがこのアドレス表を参照することにより得ら
れ、文書の内容が読み出される。
【0038】外部記憶装置3には、索引(インデック
ス)、文書と文書との論理的な距離を表にした文書間距
離表および不要語辞書が格納されている。外部記憶装置
2と3とを一つの外部記憶装置によって構成することも
できる。
【0039】索引(インデックス)とは、論理型検索に
用いられるキー・ワード(索引語)(後述する「成分」
の全部または一部を含む)とそのキー・ワードが含まれ
る文書の文書名(文書ID)とを対応させた一覧表であ
る。図13(A) は文書名(文書ID)とその文書に含まれ
る1または2以上のキー・ワードとを対応させた索引の
一例を、同図(B) はキー・ワードとそのキー・ワードが
含まれる1または2以上の文書名(文書ID)とを対応
させた索引の一例をそれぞれ示している。後述する文書
間距離表を作成するときに抽出される文書の成分(名
詞)をキー・ワードとして索引に追加していき、索引を
充実させることもできる。
【0040】不要語辞書は、不要語群を一つのファイル
にしたものである。不要語とは、文書と文書との距離
(文書間距離という)を求めるときに用いられる「成
分」(名詞)を文書から抽出するために文書から取り除
かれる語をいう。したがって、「成分」としてどのよう
な語を抽出するかによって、何を不要語とするかも変化
する。
【0041】成分とは、名詞であって、その文書の話題
やテーマを表すキー・ワードに相当する語をいう。例え
ば、技術文献では一般に技術用語が成分となるし、法律
関係の文書では一般に法律用語が成分となるであろう。
したがって、不要語には、助詞や助動詞のような付属語
のほかに、接続詞、形容詞、副詞、動詞等の自立語、な
らびに名詞であっても成分の対象とされないような語
(例えば「私」や「当社」等のように常用的に用いられ
る常用語および特に文書の話題やテーマを直接表す名詞
でないもの等)も含まれる。
【0042】利用者またはオペレータが、不要語辞書に
不要語を登録することができる。これによって、文書デ
ータ・ベースに格納される文書がどのような分野の文書
であるかによって、どのような語を不要語とするかを調
整することができる。例えば、技術文献のみを扱う文書
検索装置では、一般に法律用語等は重要な用語ではない
ので、このような用語を不要語として不要語辞書に登録
しておくことができる。
【0043】文書間距離表とは、2つの文書間の論理的
な距離(文書間距離)を表にしたものである。この文書
間距離とは、2つの文書がどの程度似ているかの類似度
ないしは2つの文書が同じ話題を対象にしているかの近
似度を定量的に計算し、数値によって表したものであ
る。文書の検索処理の説明に先立ち、この文書間距離を
求める方法について説明する。
【0044】(2) 文書間距離を求める処理
【0045】文書間距離を求める処理は、コンピュータ
・システム1によって実行することもできるし、他のコ
ンピュータ・システムによって実行し、作成された文書
間距離表(ファイル)を外部記憶装置3に格納すること
もできる。以下では、コンピュータ・システム1が文書
間距離を求める処理を実行する場合について説明する。
【0046】図2および図3は、文書間距離を求める処
理の流れを示すフローチャートである。
【0047】外部記憶装置2(文書データ・ベース)に
格納された文書の一つが、コンピュータ・システム1に
入力される(ステップ101 )。入力された文書について
形態素解析が行われ、参照された不要語辞書に基づいて
文書中の不要語が取り除かれ、上述した成分が文書から
抽出される(ステップ102 )。そして、抽出された成分
から成分表が作成される(ステップ102 )。図4(A) は
外部記憶装置2に格納されている文書の一例を、同図
(B) はこの文書から抽出された成分である「設計書」や
「調査報告書」等から作成された成分表の一部をそれぞ
れ示している。
【0048】続いて、抽出された成分のそれぞれについ
て、構文上の特徴、分散度、分布および頻度(これらを
成分の属性という)の4つの属性の値が求められる(ス
テップ103 〜106 )。
【0049】構文上の特徴とは、成分がその成分が含ま
れる文(句点で終わる一文)においてトピックになって
いる語かどうかを表す属性である。成分がその成分が含
まれる文においてトピックになっているかどうかは、成
分の後にある助詞(「て」「に」「を」「は」等)また
は助詞相当語句(「について」「とは」等)によって判
断される。例えば、成分Aが「Aは・・・」または「A
について・・・」とある文では、成分Aはその文におい
てトピックにされていると判断される。また、成分Aと
Bとが「AのBは・・・」、「AのBについて・・・」
または「Aの〔用言もしくは連体修飾〕Bは・・・」等
のような関係にある文においては、成分Bがトピックに
されていると判断されるだけでなく、成分Aもトピック
にされていると判断される。トピックにされていると判
断された成分については、構文上の特徴の値は1とされ
る。トピックにされていないと判断された成分について
は、構文上の特徴の値は0とされる。この構文上の特徴
の値0または1は、詳細については後述するが、重要度
を求める際にどのファジィ・ルールを適用するかを決定
するためのパラメータとして用いられる。
【0050】分散度は、次のようにして求められた値ま
たはこの値を千分率によって表したものである。まず、
文書に含まれる文について、文書の始めから終わりに向
けて1から順番に連続した番号が付けれる。次に、重要
度を求める対象となっている成分が含まれた文の番号が
調べられる。例えば、成分Aが第3番目、5番目、7番
目、9番目に含まれているならば、番号3、5、7およ
び9が取り出される。そして、隣合った番号間(番号3
と5、番号5と7等)の間隔(番号3と5との間隔は
2、番号5と7との間隔は2)が求められる。求められ
た間隔についての標準偏差が求められる。求められた標
準偏差の値が、間隔の平均値(平均距離という)によっ
て割られる。この割られた値が分散度とされる。上記の
例では、全ての間隔が2となるので、平均距離は2、標
準偏差の値は0となり、分散度の値も0となる。成分が
含まれている文の個数が2個以下の場合には、その成分
の分散度の値は0とされる。
【0051】この分散度を重要度を求めるためのパラメ
ータとして使用するのは、重要な成分(語)ほど、文書
中に分散して出現するという経験則によるものである。
分散度の値が大きな成分ほど、その文書において重要な
成分であると考えられる。
【0052】分布は、文書全体について、重要度を求め
る対象となっている成分が最初に現れた文の番号aと、
その成分が最後に現れた文の番号bとの差を、文書全体
の文の個数nで割った割合またはこの割合を千分率によ
って表したものである。千分率によって表す場合には、
分布の値は次の式によって計算される。
【0053】(分布)=1000・(b−a)/n
【0054】上記の例では、成分Aが最初に現れた文の
番号が3であり、最後の現れた文の番号が9であるの
で、文書全体に含まれる文の数を100 とすると、分布の
値は、(9−3)÷100 ×1000=60となる。
【0055】この分布を重要度を求めるためのパラメー
タとして使用するのは、重要な成分ほど、文書中に広範
囲にわたって出現するであろうという経験則によるもの
である。分布の値が大きな成分は重要度が高く、分布の
値が小さな成分は重要度が低いと考えられる。
【0056】頻度は、重要度を求める対象となっている
成分が文書中に出現した回数である。上記の例では、成
分Aが第3番目、第5番目、第7番目および第9番目に
出現しているので、頻度の値は4となる。
【0057】これらの4つの属性以外に、成分の重要度
を適切に表す他の属性(成分が文書のタイトルやサブ・
タイトルとして用いられているかどうか等)を、重要度
を算出するために用いることもできる。
【0058】このようにして求められた4つの属性の値
から、図5に示すような成分属性表が作成される。そし
て、求められた属性の値から、重要度が算出される(ス
テップ107 )。重要度を求める方法の一つとして、ファ
ジィ推論を用いるものがある。図7および図8は、重要
度を求める処理の流れを示すフローチャートであり、図
2のステップ107 の詳細な処理の流れを示すものある。
【0059】成分属性表から、1つの成分に対応する4
つの属性の値が参照される(ステップ201 )。
【0060】そして、属性「構文上の特徴」の値が1か
どうかが判定される(ステップ202)。属性「構文上の
特徴」の値が1の場合には(ステップ202 でYES )、属
性「頻度」の値が3以上かどうかが判定される(ステッ
プ203 )。同様にして、属性「構文上の特徴」の値が0
の場合にも(ステップ202 でNO)、属性「頻度」の値が
3以上かどうかが判定される(ステップ206 )。ステッ
プ202 、ステップ203およびステップ206 で場合分けす
ることにより、ファジィ推論1(ステップ204)、ファ
ジィ推論2(ステップ205 )、ファジィ推論3(ステッ
プ207 )およびファジィ推論4(ステップ208 )におい
て用いられるファジィ・ルールの全部または一部を変え
ることが可能となる。ファジィ推論1から4で用いられ
るファジィ・ルールは、その全部または一部が異なるも
のであってもよいし、同一のものであってもよい。
【0061】ファジィ推論1(ステップ204 )、ファジ
ィ推論2(ステップ205 )、ファジィ推論3(ステップ
207 )、またはファジィ推論4(ステップ208 )によっ
て重要度が算出される。例えば、構文上の特徴の値が1
ならば(ステップ202 でYES)、その成分はトピックと
されている語であるので、重要度の値を大きくするよう
なファジィ・ルールによってファジィ推論が行われる
(ステップ204 、205 )。
【0062】ファジィ推論1において用いられるファジ
ィ・ルールの一例として、次のようなルール1およびル
ール2がある。
【0063】〔ルール1〕「分布の値が大きく、かつ分
散度の値が大きいならば(前件部)、重要度は高い(後
件部)。」
【0064】〔ルール2〕「分布の値が中くらいで、か
つ分散度の値がやや大きいならば(前件部)、重要度は
やや高い(後件部)。」
【0065】図9(A) および(B) はルール1の前件部の
2つの条件のメンバーシップ関数を、(C) はルール1の
後件部のメンバーシップ関数を、(D) および(E) はルー
ル2の前件部の2つの条件のメンバーシップ関数を、
(F) はルール2の後件部のメンバーシップ関数の一例を
それぞれ示している。重要度の最大値は1とされる。
【0066】この場合に、成分属性表(図5)における
成分「ワードプロセッサ」についての重要度は次のよう
にして求められる。
【0067】成分「ワードプロセッサ」の分布の値は60
0 であるので、図9(A) のメンバーシップ関数において
分布の値600 についての適合度の値(=0.33)が求めら
れる。同様にして、図9(B) のメンバーシップ関数にお
いて分散度の値800 についての適合度の値(=0.5 )が
求められる。そして、これらの適合度の値についてMIN
演算が行われ、MIN 演算によって得られた値(=0.33)
によって、図9(C) のメンバーシップ関数が弱α−カッ
トされる。同様にして、図9(D) および(E) のメンバー
シップ関数についても適合度の値をMIN 演算して得られ
た値(=0.67)によって、図9(F) のメンバーシップ関
数が弱α−カットされる。
【0068】次に、このようにα−カットして得られた
メンバーシップ関数どうしがMAX 演算される。この演算
結果のメンバーシップ関数が図10に示されている。最後
に、MAX 演算によって得られたメンバーシップ関数の面
積重心が求められ(デファジィ化)、この重心の値(=
0.75)がその成分の重要度とされる(ステップ204 、20
5 、207 、208 )。
【0069】このような成分の属性の値を求める処理お
よび重要度を求める処理(図2のステップ103 〜107 )
が、全ての成分について行われる(ステップ108 )。求
められた重要度から、図6に示すように、成分とその成
分の重要度とを対応させた重要度表が作成される。
【0070】そして、全ての文書について、その文書に
含まれる各成分の重要度が求められると(ステップ109
でNO)、各文書について作成された重要度表に基づいて
文書間距離が求められる(ステップ110 )。文書間距離
は、次のようにして求められる。
【0071】文書1にはN個の成分が含まれ、文書2に
はM個の成分が含まれているとする。また、文書1と文
書2には、共通する成分(同一の成分)がp個含まれ、
共通しない成分(同一でない成分)がq(=N+M−2
・p)個含まれているとする。共通しない成分のそれぞ
れの重要度をsj (j=1〜q)とする。文書1と文書
2との距離dは、以下の式によって求められる。
【0072】
【数1】
【0073】すなわち、まず、文書間距離を求める対象
となっている2つの文書に含まれる成分と成分との距離
が求められる。2つの文書に共通する成分(p個)につ
いては、その成分間の距離は0とされる。共通する成分
がある場合には、2つの文書間の距離は近いと考えられ
るからである。共通しない成分(q個)については、そ
れぞれの重要度の値sj を2乗した値が成分間の距離と
される。共通しない成分の重要度の値が、文書間の距離
に反映するようにするためである。つまり、重要な成分
(重要度の値の大きな成分)が、2つの文書に共通して
存在しないということは、これらの2つの文書間の距離
は近いとは考えられないので、その重要度の値を文書間
の距離に反映させている。
【0074】そして、これらの0および重要度の2乗の
値の総和(平方根の中の分子)が求められ、この総和の
値が、2つの文書にある成分の和集合の要素の個数(N
+M−p)によって割られる。つまり、成分間の距離の
2乗の平均値が求められる。そして、この値の正の平方
根の値が、文書1と文書2との距離dとされる。
【0075】例えば、文書1には成分A,B,Cおよび
Dが含まれ、文書2には成分A,B,EおよびFが含ま
れている場合に、両文書に共通する成分AおよびBにつ
いては成分間の距離は0とされ、両文書に共通していな
い成分C,D,EおよびFについて、これらの成分の重
要度の2乗の値が求められる。そして、これらの総和が
数値6(成分A〜Fの個数)によって割られ、正の平方
根が求められる。この正の平方根の値が文書間距離dと
される。
【0076】文書間距離dは、次のようにして求めるこ
ともできる。上記と同様に、文書1にはN個の成分が、
文書2にはM個の成分がそれぞれ含まれ、文書1と文書
2には共通する成分がp個含まれ、共通しない成分がq
(=N+M−2・p)個含まれているとする。両文書に
共通するp個の成分について、文書1に含まれる成分の
それぞれの重要度をs1i(i=1〜p)、文書2に含ま
れる成分のそれぞれの重要度をs2i(i=1〜p)とす
る。また両文書に共通しないq個の成分のそれぞれの重
要度をsj (j=1〜q)とする。文書間距離dは以下
の式により求められる。
【0077】
【数2】
【0078】求められた文書間距離から、文書間距離表
が作成される(ステップ110 )。図14は、文書間距離表
の一例を示している。「文書1」や「文書2」等で表さ
れるものは、文書名(文書ID)である。この文書間距
離表では、例えば、文書1と文書2との文書間距離は0.
3 、文書5と文書3との文書間距離は0.9 であることが
示されている。
【0079】このように、文書間距離表をあらかじめ作
成しておくことにより、成分比較型検索を行う際に文書
間距離を求める必要がなくなるので、成分比較型検索の
処理時間を短縮することができる。また、文書間距離
は、2つの文書に含まれる成分全体に基づいて求められ
るものなので、文書間の類似度ないしは近似度を精度高
く表現できる。したがって、後述する成分比較型検索を
この文書間距離に基づいて行うことにより、内容的また
は意味的に近い文書を検索することができる。
【0080】(3) 文書検索処理
【0081】図11および図12は、文書検索装置によって
実行される文書検索処理の流れを示すフローチャートで
ある。
【0082】利用者は、まず論理型検索を行うために、
検索式をキーボード5によってコンピュータ・システム
1に入力する(ステップ301 )。または、利用者は、表
示装置7にキー・ワード(索引語)(上述の成分の全部
または一部を含む)もしくは既に入力された検索式の一
覧が表示されている場合には、それらの一つまたは複数
をポインティング・デバイス4を用いて指定入力するこ
ともできる。さらに、コンピュータ・システム1が通信
回線(図示略)によって外部の端末(図示略)に接続さ
れている場合には、この外部の端末から通信回線を通し
て、検索式をコンピュータ・システム1に入力すること
もできる。
【0083】検索式は、1つのキー・ワード(索引
語)、または1もしくは複数のキー・ワードおよび1も
しくは複数の論理演算子(AND(*),OR(+),
NOT(#)等のブール演算子、または=,<,>,
≠,≦,≧等の範囲を指定する演算子等)からなる。例
えば、論理演算子ANDはこの論理演算子で結ばれたキ
ー・ワードの全てを含む文書を検索することを意味し、
論理演算子ORはこの論理演算子で結ばれたキー・ワー
ドの少なくとも一つを含む文書を検索することを意味
し、論理演算子NOTはこの論理演算子が付されたキー
・ワードを含まない文書を検索することを意味する。
【0084】図15は、表示装置6の表示画面の一部に表
示された、論理型検索を行うための画面(ユーザ・イン
タフェース)の一例を示している。
【0085】入力検索式表示窓11(入力ウィンドウ)に
は、入力された検索式が表示されている。入力された検
索式は、キー・ワード「ワードプロセッサ」、「コンピ
ュータ」および「プログラム」を論理演算子「*」(A
ND)で結んだものである。この検索式によって、外部
記憶装置2(文書データ・ベース)に格納されている文
書の中で、キー・ワード「ワードプロセッサ」、「コン
ピュータ」および「プログラム」の全てを含む文書が検
索される。
【0086】過去に入力された検索式の全てまたは一部
は、コンピュータ・システム1の内部メモリ(RAM
等)に記憶される。クエリー集ボタン14(アイコン)を
ポインティング・デバイス4で指示しクリックすること
により、この内部メモリに記憶されている、過去に入力
された検索式の一覧表を表示画面上に表示することもで
きる。例えば、新たなウィンドウが開き、このウィンド
ウ内に過去に入力された検索式の一覧表が表示される。
そして、利用者は、表示された検索式の一覧表から検索
式の一つをポインティング・デバイス4で指定し、また
はカーソルによって指示し、入力することもできる。
【0087】検索式が決定されると、確認ボタン12(ア
イコン)をポインティング・デバイス4で指示しクリッ
クすることにより、入力された検索式に基づいて論理型
検索が、コンピュータ・システム1によって実行される
(ステップ302 )。論理型検索は、あらかじめ作成さ
れ、外部記憶装置3に格納されている索引に基づいて行
われる。上述したように、図13は索引の一例を示してい
る。
【0088】入力された検索式にしたがって索引が調べ
られ、検索式に適合する文書名(文書ID)が抽出され
る。抽出された文書名(文書ID)は表示装置6の表示
画面に表示される(ステップ303 )。図15の検索結果表
示窓15には、検索結果の文書名(文書ID)の一覧が表
示されている。横方向に一列に並んだ文字列(例えば
「ABC MAGAZINE/91/9102181.text.euc」)が一つの文書
の文書名(文書ID)である。この例では、検索式を満
たす文書として16件の文書が検索されたことを示してい
る。
【0089】利用者は、この検索結果に満足できない場
合には、改めて検索式を立て直し、または既に入力され
た検索式の修正もしくはキー・ワードの追加等を行い
(ステップ301 )、コンピュータ・システム1に再度論
理型検索(ステップ302 )を実行させることもできる。
【0090】外部記憶装置3に、シソーラス辞書や同義
語辞書を格納しておき、これらの辞書を援用して論理型
検索を行うことも可能である。
【0091】利用者が検索された文書の内容を確認する
場合には、利用者は検索結果表示窓15に表示されている
文書名(文書ID)から一つの文書を選択する(ステッ
プ304 )。文書の選択は、検索結果表示窓15に表示され
た文書名(文書ID)の一つを、ポインティング・デバ
イス4で指示することにより行うことができる。選択さ
れた文書名(文書ID)の部分は、検索結果表示窓15に
おいて白黒反転表示または四角形のラインで囲まれるな
どして、選択されたことを利用者が視覚的に確認できる
ように表示される。また、選択された文書名(文書I
D)は、選択文書表示窓16にも表示される。図15では、
文書名「DEF JOURNAL/92/9202011.text.euc 」が着目文
書として選択されている。
【0092】そして、利用者が全体ボタン17(アイコ
ン)または部分ボタン18(アイコン)をポインティング
・デバイス4で指示しクリックする(ポインティング・
デバイス4に設けられたキー・スイッチの一つを押す)
と、クリック信号がコンピュータ・システム1に与えら
れる。コンピュータ・システム1は、上述したアドレス
表を参照して、選択された文書名に対応するアドレスを
取り出し、外部記憶装置2内のこのアドレスにアクセス
する。そして、選択された文書名(文書ID)に対応す
る文書の内容が外部記憶装置2(文書データ・ベース)
から読み出され、表示装置6の表示画面の一部に表示さ
れる(ステップ305 )。全体ボタン17は、文書全体(例
えば1頁から最終頁まで)を外部記憶装置2から読み出
すためのボタンであり、部分ボタンは文書の一部(例え
ば20頁から50頁等の利用者によって指定された範囲)を
外部記憶装置2から読み出すためのボタンである。外部
記憶装置2から読み出された文書の内容は、表示装置6
の表示画面において、図15の表示が行われている部分と
は異なる他の部分に開かれた別の窓の中に表示される。
【0093】利用者が検索結果表示窓15に表示された他
の文書名(文書ID)の内容につても確認したい場合に
は、上記と同様に、その文書名(文書ID)をポインテ
ィング・デバイス4で指示しクリックすることにより、
その文書の内容を表示装置6の表示画面に表示すること
ができる。
【0094】次に、利用者が論理型検索によって検索さ
れた文書に基づいて成分比較型検索の実行を望むなら
ば、論理型検索の検索結果から一つの文書(着目文書と
いう)が指定される(ステップ306 でYES )。もちろ
ん、利用者が、論理型検索によって検索された文書に満
足すれば、そのまま文書検索処理を終了することもでき
る。また、ステップ305 の文書の内容表示を行うことな
く成分比較型検索の実行(ステップ307 )に移ることも
できる。
【0095】成分比較型検索は、表示装置6の表示画面
において、成分比較型検索の実行を開始する機能が割り
付けられたボタン(アイコン)をポインティング・デバ
イス4によってクリックすることにより実行される。例
えば、図15のボタン19または20(アイコン)にその機能
が割り付けられているならば、このボタン19または20が
ポインティング・デバイス4により指示されクリックさ
れる。これにより、クリック信号がコンピュータ・シス
テム1に入力され、コンピュータ・システム1は成分比
較型検索を実行する。または、キーボード5に成分比較
型検索の実行を指令するコマンドを入力することにより
実行することもできる。
【0096】成分比較型検索は、指定された着目文書お
よび文書間距離表(図14)に基づいて実行される(ステ
ップ307 )。文書間距離表において、着目文書からの距
離が近い文書から順番に文書名(文書ID)が抽出され
る。このときに、検索される距離の範囲をコンピュータ
・システム1にあらかじめ設定しておくこともできる。
例えば、文書間距離0から0.5 までの範囲が設定されて
いるならば、この範囲にある文書のみが検索され、文書
間距離が0.7 や0.8 等の文書は検索対象から除外され
る。また、利用者が成分比較型検索を行う際に、文書間
距離の範囲を指定することもできる。
【0097】文書間距離についての範囲の指定がない場
合には、外部記憶装置2(文書データ・ベース)に格納
されている文書の中で、着目文書を除く全ての文書が、
着目文書から距離の近いもの(または遠いもの)から順
番にランク付け(ソート)されて検索されることとな
る。
【0098】いずれにしても成分比較型検索により検索
された文書名(文書ID)は、表示装置6の表示画面に
表示される(ステップ308 )。図16は、表示装置6の表
示画面に表示された成分比較型検索の検索結果を示して
いる。
【0099】円の中心に置かれるのは、着目文書の文書
名(文書ID)「9202011 」(DEFJOURNAL/92/9202011.
text.euc )および着目文書の内容表示機能を持ったボ
タン21(アイコン)である。このボタン21をポインティ
ング・デバイス4によって指示しクリックすると、文書
名(文書ID)9202011 の文書の内容が上記と同様に外
部記憶装置2(文書データ・ベース)から読み出され
て、表示装置6の表示画面に表示される(ステップ310
)。文書の内容表示用の新たな窓が開かれ、その窓の
中に文書の内容が表示される。
【0100】円の中心からの半径方向の長さは、検索さ
れた文書と着目文書との文書間距離を示している。すな
わち、円の中心に近い位置に表示された文書ほど着目文
書との文書間距離が小さく、円の中心から遠い位置に表
示された文書ほど着目文書との文書間距離が大きいこと
を示している。同心円は、利用者が文書間距離を目測で
知ることができるように表示された円である。最も内側
の同心円が文書間距離0.1 の円を表し、外側に向かって
0.1 間隔で0.6 まで表示されている。
【0101】円周上には、文書間距離表に基づいて検索
された文書名(文書ID)およびその文書の内容表示機
能を持ったボタン(アイコン)が表示されている。表示
されている位置は、その文書と着目文書との文書間距離
に相当する半径の円周上である。例えば、文書名910214
2 は、着目文書との文書間距離が0.38であるので、文書
間距離0.4 の同心円近くに表示されている。
【0102】成分比較型検索によって検索された文書名
において、論理型検索によって検索された文書名と重複
する文書名と、論理型検索によっては検索されず成分比
較型検索によって新たに検索された文書名(論理型検索
における検索漏れの文書名)とは、異なった表示がなさ
れる。例えば、文書名およびボタン(アイコン)が、前
者と後者とでは異なった色彩で表示されたり、ボタン
(アイコン)の形が異なって表示されたりする。これに
より、利用者は、論理型検索により検索されたなかった
文書が成分比較型検索によって検索されたことを直観的
に把握でき、容易に検索漏れを発見することができる。
【0103】円周方向に意味を持たせることもできる。
例えば、円周方向を120 度ずつに3等分して3つの領域
に分け、第1の領域(角度0度から120 度)にコンピュ
ータ関連の文書名を、第2の領域(角度120 度から240
度)に自動車関連の文書名を、第3の領域(角度240 度
から360 度)に石油関連の文書名を、それぞれ分類して
表示することもできる。各領域には、その領域に属する
文書名が円周方向に等間隔(等角度)またはランダムに
表示(配置)される。分割された領域の境界には、円の
中心から外側に向けて直線が描かれ、領域の境界がどこ
であるかが示される。
【0104】この分類は、分類用辞書によって行うこと
ができる。分類用辞書は分野ごとにそれぞれ用意され、
外部記憶装置3等にあらかじめ格納される。例えば、コ
ンピュータ分野、自動車分野、石油分野等の各分野の辞
書がそれぞれ用意される。各分野の辞書には、その分野
で用いられる用語(専門用語等であり、上述した成分の
一部または全部を含む)が登録されている。各文書の成
分と各辞書の用語とが比較され、それぞれの文書が各辞
書の用語をいくつ含むかが求められる。そして、それぞ
れの文書は、最も多くの用語を含む辞書の分野に割り当
てられる。例えば、文書名9102142 の文書の成分が、コ
ンピュータ分野の辞書の用語を最も多く含むならば、こ
の文書はコンピュータ分野に割り当てられる。このよう
に各分野に応じて文書名を分類表示することにより、利
用者は各文書(文書名)の属する分野を直観的に把握す
ることができる。
【0105】分野の個数に応じて円を等分割せずに、各
分野に属する文書名の個数に応じて円を分割することも
できる。例えば、コンピュータ分野に10個の文書名が、
自動車分野に20個の文書名が、石油分野に30個の文書名
がそれぞれあるならば、コンピュータ分野に60度、自動
車分野に120 度、石油分野に180 度ずつ円を割り当てる
こともできる。各分野の領域内では、円周方向に等間隔
(等角度)またはランダムに文書名が配置される。
【0106】また、統計学におけるクラスタ分析を用い
て分類することもできる。クラスタの作成方法の一つと
して、文書間距離表(図14)に基づいて、文書間距離の
小さいものどうしを一つのクラスタとする方法がある
(最小距離法)。この方法では、文書間距離の最小のも
のから順にクラスタが作成されていく。
【0107】図18は、文書名aからgの間の文書間距離
を2次元の平面に表したものである。横軸(x軸)と縦
軸(y軸)に特に意味はない。文書名aとbとの文書間
距離は0.15、文書名dとeとの文書間距離は0.2 、文書
名fとgとの文書間距離は0.1 、文書名bとcとの文書
間距離は0.25であること等が示されている。
【0108】まず2つの文書の文書間距離が比較され、
文書間距離の最小のものどうしが1つのクラスタとされ
る。これにより、文書名fとg(クラスタC1)、aとb
(クラスタC2)、dとe(クラスタC3)がそれぞれ一つ
のクラスタとされ、文書名cは単独で一つのクラスタと
される。次に、各クラスタの要素(文書名)どうしの文
書間距離が比較され、最小の文書間距離を持つ要素が存
在するならば、それらのクラスタどうしがさらに一つの
大きなクラスタとされる。例えば、クラスタC2の要素a
およびbと文書名cとの文書間距離が比較され、最小の
もの(この場合は要素b)の文書間距離が0.25であるの
でクラスタC2と文書名cとがさらに大きな一つのクラス
タC4とされる。さらに、クラスタC4とクラスタC3とが一
つのクラスタC5とされる。そして最終的に、クラスタC5
とクラスタC1とが一つのクラスタC6とされる。
【0109】図19は、図18のクラスタの構成をデンドロ
グラム(樹状図)により示している。横軸は文書名(文
書ID)を示し、文書名aからgが等間隔に並べられて
いる。縦軸は文書間距離の和を示している。
【0110】このクラスタによる分類では、縦軸の文書
間距離の和(しきい値)の設定によってクラスタの個
数、すなわち分類の個数が異なる。例えば、しきい値を
0.2 とするとクラスタC1からC3および文書名cの4つの
分類となり、しきい値を0.4 とするとクラスタC1,C3お
よびC4の3つの分類となる。このように、しきい値によ
ってクラスタの個数が異なるので、どのしきい値で分類
を行うかはコンピュータ・システム1にあらかじめ設定
されるか、利用者によって表示を行う際に設定される。
コンピュータ・システム1は、設定されたしきい値にし
たがって分類の個数を求め、この個数によって円周方向
を等間隔に分割する。例えば、分類の個数が3つなら
ば、円周方向に3等分され、それぞれの領域に各クラス
タに属する文書名が円周方向に等間隔(等角度)または
ランダムに表示(配置)される。
【0111】クラスタによる分類では、分割された領域
を特定する名称(例えば、「コンピュータ分野」等の名
称)を決めることができないが、上記の分類用辞書等を
用いる必要がないという利点がある。また、上述した分
類用辞書による場合と同様に、クラスタの個数に応じて
円を等分割せずに、各クラスタに属する文書名の個数に
応じて円を分割することもできる。
【0112】図16では、円周方向にこのような意味を持
たせていない。検索された複数の文書名(文書ID)を
見やすくするために、これらの文書名(文書ID)が円
周方向に等間隔(等角度)またはランダムに配置されて
いる。このように円形の図形によって表示にすることに
より、検索結果を図15の検索結果表示窓15のようにリス
トに並べて表示するよりも、利用者は文書間の距離を直
観的に把握することができ、自らが所望する文書の検索
を容易に行うことができる。
【0113】円形の図形内に表示された任意の文書名に
対応するボタン(アイコン)をポインティング・デバイ
ス4で指示しクリックする(ポインティング・デバイス
4のキー・スイッチの一つを押す)ことにより、指示さ
れた文書名に対応する文書の内容が表示される(ステッ
プ309 でYES 、ステップ310 )。文書の内容表示用の新
たな窓が開かれ、その窓の中に文書の内容が表示され
る。例えば、ボタン22をクリックすると、文書名(文書
ID)9102142 の文書の内容が窓の中に表示される。複
数の文書をそれぞれ異なる窓(マルチ・ウィンドウ)に
別個に表示し、複数の文書の内容を1つの表示画面上に
同時に表示させることもできる。複数の文書の内容を表
示したときは、それらの文書がどのような順番で表示さ
れたか、換言すると利用者の視点がどのように移動した
かを、利用者が視覚的に確認できるように、図17に示す
ように内容の表示された文書のボタンとボタンとの間が
破線で結ばれて表示される。図17では、文書名「920201
1 」から「9102142 」、さらに「9103012 」へ視点が移
動したことが示されている。
【0114】また、現在の着目文書(中心点にある文
書)以外の文書(円周上に表示されている文書)を着目
文書として、成分比較型検索を行うことができる(ステ
ップ309 でNO、ステップ311 でYES )。利用者が、新た
に着目文書とした文書(円周上に表示されている文書)
の文書名またはボタン(アイコン)を、ポインティング
・デバイス4で指示しクリックする(ポインティング・
デバイス4の複数のキー・スイッチのうち、上述した文
書内容表示のときに押すキー・スイッチとは異なる別の
キー・スイッチを押す)と、クリック信号がコンピュー
タ・システム1に与えられ、コンピュータ・システム1
は指定された文書を着目文書とした成分比較型検索の再
実行を行う。新たな着目文書の指定には、指定する文書
名またはボタン(アイコン)を円の中心に移動させる操
作方法もある。円の中心への移動は、例えば文書名(文
書ID)またはボタン(アイコン)をポインティング・
デバイス4により指示し、円の中心に移動させること
(ドラッグ)により行うことができる。
【0115】また、成分比較型検索の検索結果が表示さ
れた状態から、論理型検索の検索結果の表示された状態
に戻ることもできる。そして、論理型検索によって得ら
れた文書名から着目文書を指定して、再度成分比較型検
索を行うこともできる。検索式を入力して、論理型検索
を再度行うこともできる。
【図面の簡単な説明】
【図1】文書検索処理を実行するコンピュータ・システ
ムの全体構成を示すブロック図である。
【図2】文書間距離を求める処理の流れを示すフローチ
ャートである。
【図3】文書間距離を求める処理の流れを示すフローチ
ャートである。
【図4】(A) は文書データ・ベースに格納されている文
書の一例を、(B) は文書から抽出された成分によって構
成される成分表の一例をそれぞれ示す。
【図5】成分属性表の一例を示す。
【図6】重要度表の一例を示す。
【図7】重要度を求める処理の流れを示すフローチャー
トである。
【図8】重要度を求める処理の流れを示すフローチャー
トである。
【図9】重要度を求めるためのファジィ・ルールをメン
バーシップ関数によって示したものである。
【図10】メンバーシップ関数によって表されたファジ
ィ・ルールから重要度の値が求められる様子を示す。
【図11】文書検索処理の流れを示すフローチャートで
ある。
【図12】文書検索処理の流れを示すフローチャートで
ある。
【図13】索引の一例を示す。
【図14】文書間距離表の一例を示す。
【図15】論理型検索における表示装置の表示画面の一
例を示す。
【図16】成分比較型検索の検索結果を表示装置の表示
画面に表示した一例である。
【図17】成分比較型検索の検索結果を表示装置の表示
画面に表示した一例である。
【図18】各文書の文書間距離を2次元の平面によって
示す。
【図19】クラスタの構成を示すデンドログラムであ
る。
【符号の説明】
1 コンピュータ・システム 2,3 外部記憶装置 4 ポインティング・デバイス 5 キーボード 6 表示装置 11 入力検索式表示窓 12 確認ボタン 13 詳細ボタン 14 クエリー集ボタン 15 検索結果表示窓 16 選択文書表示窓 17 全体ボタン 18 部分ボタン 21,22 文書内容表示ボタン

Claims (20)

    【特許請求の範囲】
  1. 【請求項1】 複数の文書およびそれらの文書を識別す
    るための識別子が格納されているメモリ、 1つのキー・ワードからなる検索式、または1もしくは
    2以上のキー・ワードおよび1もしくは2以上の論理演
    算子からなる検索式を入力するための検索式入力手段、 上記検索式入力手段によって入力された検索式に適合す
    る文書を、上記メモリから見つけだす論理型検索を行う
    論理型検索手段、 上記論理型検索手段によって検索された1または2以上
    の文書の中から選択された文書の識別子を、基準識別子
    として入力するための識別子入力手段、ならびに上記識
    別子入力手段によって入力された基準識別子に対応する
    文書と上記メモリに格納されている他の文書との間の論
    理的な距離を表す文書間距離に関する条件に適合する文
    書を、上記メモリから見つけだす成分比較型検索を行う
    成分比較型検索手段を備えている、 文書検索装置。
  2. 【請求項2】 上記論理型検索手段は、あらかじめ作成
    された、上記キー・ワードとそのキー・ワードが含まれ
    る文書の識別子とを関連づけた索引に基づいて文書検索
    を行うものであり、 上記索引中に上記検索式に適合する文書の識別子があれ
    ば、これらの文書の識別子を検索結果とするものであ
    る、 請求項1に記載の文書検索装置。
  3. 【請求項3】 上記成分比較型検索手段は、あらかじめ
    作成された、2つの文書の識別子とその文書間の上記文
    書間距離とを関連づけた文書間距離データに基づいて文
    書検索を行うものであり、 上記基準識別子に対応する文書との文書間距離が上記文
    書間距離に関する条件に適合する文書の識別子があれ
    ば、これらの文書の識別子を検索結果とするものであ
    る、 請求項1または請求項2に記載の文書検索装置。
  4. 【請求項4】 上記文書間距離は、2つの文書のそれぞ
    れから抽出された1または2以上の単語の中で、上記2
    つの文書に共通して存在しない単語について、それぞれ
    の重要度の値を2乗した値の総和の値を、上記2つの文
    書から抽出された単語の和集合の要素の個数の値で割
    り、その結果の値の正の平方根を求めることにより得ら
    れる値である、 請求項1から請求項3のいずれか1項に記載の文書検索
    装置。
  5. 【請求項5】 上記論理型検索手段によって検索された
    文書の識別子を表示するための第1の表示手段を備えて
    いる、 請求項1から請求項4のいずれか1項に記載の文書検索
    装置。
  6. 【請求項6】 上記第1の表示手段によって表示された
    文書の識別子から指定された識別子を入力するための上
    記識別子入力手段、および上記識別子入力手段によって
    入力された識別子に対応する文書の内容を表示する第2
    の表示手段を備えている、 請求項5に記載の文書検索装置。
  7. 【請求項7】 上記成分比較型検索手段によって検索さ
    れた文書の識別子を表示する第3の表示手段を備えてい
    る、 請求項1から請求項6のいずれか1項に記載の文書検索
    装置。
  8. 【請求項8】 上記第3の表示手段は、半径が上記文書
    間距離を表す複数の同心円図形上に、上記基準識別子を
    上記同心円の中心に定め、上記成分比較型検索手段によ
    って検索された1または2以上の文書の識別子を、この
    中心からの距離が上記基準識別子の文書と上記検索され
    た文書との間の文書間距離に等しい位置に表示するもの
    である、 請求項7に記載の文書検索装置。
  9. 【請求項9】 上記成分比較型検索手段によって検索さ
    れた文書の識別子を、あらかじめ定められた基準に基づ
    いて複数のグループに分類する分類手段、および半径が
    上記文書間距離を表す複数の同心円図形からなり、かつ
    上記分類手段により分類されたグループ数に等しい数の
    領域に円周方向に分割され、各領域が上記複数のグルー
    プのそれぞれに対応するものである図形上に、上記基準
    識別子を上記同心円の中心に定め、上記成分比較型検索
    手段によって検索された1または2以上の文書の識別子
    を、この中心からの距離が上記基準識別子の文書と上記
    検索された文書との間の文書間距離に等しい位置であ
    り、かつ上記分類手段によって分類されたグループに対
    応する上記領域内に表示する第3の表示手段を備えてい
    る、 請求項1から請求項6のいずれか1項に記載の文書検索
    装置。
  10. 【請求項10】 上記第3の表示手段によって表示され
    た文書の識別子を入力するための上記識別子入力手段、
    および上記識別子入力手段によって入力された識別子に
    対応する文書の内容を表示する第4の表示手段を備えて
    いる、 請求項7から請求項9のいずれか1項に記載の文書検索
    装置。
  11. 【請求項11】 複数の文書およびそれらの文書を識別
    するための識別子が格納されているメモリについて文書
    の検索を行う方法であり、 入力された、1つのキー・ワードからなる検索式、また
    は1もしくは2以上のキー・ワードおよび1もしくは2
    以上の論理演算子からなる検索式に適合する文書を見つ
    ける論理型検索を行い、 上記論理型検索によって検索した1または2以上の文書
    の中から指定された文書の識別子を基準識別子とし、 上記基準識別子に対応する文書と上記メモリに格納され
    ている他の文書との間の論理的な距離を表す文書間距離
    に関する条件に適合する文書を、上記メモリから見つけ
    だす成分比較型検索を行う、 文書検索方法。
  12. 【請求項12】 上記論理型検索を、あらかじめ作成さ
    れた、上記キー・ワードとそのキー・ワードが含まれる
    文書の識別子とを関連づけた索引に基づいて行い、 上記索引中に上記検索式に適合する文書の識別子があれ
    ば、これらの文書の識別子を検索結果とする、 請求項11に記載の文書検索方法。
  13. 【請求項13】 上記成分比較型検索を、あらかじめ作
    成された、2つの文書の識別子とその文書間の上記文書
    間距離とを関連づけた文書間距離データに基づいて行
    い、 上記基準識別子に対応する文書との文書間距離が上記文
    書間距離に関する条件に適合する文書の識別子があれ
    ば、これらの文書の識別子を検索結果とする、 請求項11または請求項12に記載の文書検索方法。
  14. 【請求項14】 上記文書間距離は、2つの文書のそれ
    ぞれから抽出された1または2以上の単語の中で、上記
    2つの文書に共通して存在しない単語について、それぞ
    れの重要度の値を2乗した値の総和の値を、上記2つの
    文書から抽出された単語の和集合の要素の個数の値で割
    り、その結果の値の正の平方根を求めることにより得ら
    れる値である、 請求項11から請求項13のいずれか1項に記載の文書検索
    方法。
  15. 【請求項15】 上記論理型検索によって検索した文書
    の識別子を表示装置に表示する、 請求項11から請求項14のいずれか1項に記載の文書検索
    方法。
  16. 【請求項16】 上記表示した文書の識別子の中から指
    定された識別子に対応する文書の内容を表示装置に表示
    する、 請求項15に記載の文書検索方法。
  17. 【請求項17】 上記成分比較型検索によって検索した
    文書の識別子を表示装置に表示する、 請求項11から請求項16のいずれか1項に記載の文書検索
    方法。
  18. 【請求項18】 半径が上記文書間距離を表す複数の同
    心円図形上に、上記基準識別子を上記同心円の中心に定
    め、上記成分比較型検索によって検索した1または2以
    上の文書の識別子を、この中心からの距離が上記基準識
    別子の文書と上記検索した文書との間の文書間距離に等
    しい位置に表示する、 請求項17に記載の文書検索方法。
  19. 【請求項19】 上記成分比較型検索によって検索した
    文書の識別子を、あらかじめ定められた基準に基づいて
    複数のグループに分類し、 半径が上記文書間距離を表す複数の同心円図形からな
    り、かつ上記分類したグループ数に等しい数の領域に円
    周方向に分割され、各領域が上記複数のグループのそれ
    ぞれに対応するものである図形上に、上記基準識別子を
    上記同心円の中心に定め、上記成分比較型検索によって
    検索した1または2以上の文書の識別子を、この中心か
    らの距離が上記基準識別子の文書と上記検索した文書と
    の間の文書間距離に等しい位置であり、かつ上記分類し
    たグループに対応する上記領域内に表示する、 請求項11から請求項16のいずれか1項に記載の文書検索
    方法。
  20. 【請求項20】 上記表示した、成分比較型検索の検索
    結果である文書の識別子の中から指定された文書の識別
    子に対応する文書の内容を表示装置に表示する、 請求項17から請求項19のいずれか1項に記載の文書検索
    方法。
JP5292407A 1993-10-29 1993-10-29 文書検索装置および方法 Pending JPH07129602A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5292407A JPH07129602A (ja) 1993-10-29 1993-10-29 文書検索装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5292407A JPH07129602A (ja) 1993-10-29 1993-10-29 文書検索装置および方法

Publications (1)

Publication Number Publication Date
JPH07129602A true JPH07129602A (ja) 1995-05-19

Family

ID=17781390

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5292407A Pending JPH07129602A (ja) 1993-10-29 1993-10-29 文書検索装置および方法

Country Status (1)

Country Link
JP (1) JPH07129602A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0962690A (ja) * 1995-08-22 1997-03-07 Fujitsu Ltd 文書管理装置
JPH10134087A (ja) * 1996-09-06 1998-05-22 Toshiba Corp 文書要求装置および関連文書の先取り方法
JP2000305945A (ja) * 1999-04-26 2000-11-02 Canon Inc 情報検索方法及び装置並びに記憶媒体
JP3561267B2 (ja) * 2000-06-27 2004-09-02 株式会社ケイビーエムジェイ 情報提供システム、情報提供方法および記憶媒体
JP2008140168A (ja) * 2006-12-01 2008-06-19 Nippon Telegr & Teleph Corp <Ntt> シンボル列集合類似度算出方法及びメタデータ生成装置及びメタデータ付与装置及びプログラム
US7676496B2 (en) 2004-10-04 2010-03-09 Sony Corporation Content management system, content management method and computer program
US9026564B2 (en) 2008-10-01 2015-05-05 Canon Kabsuhiki Kaisha Document processing system and control method thereof, program, and storage medium

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03172966A (ja) * 1989-12-01 1991-07-26 Nippon Telegr & Teleph Corp <Ntt> 類似文書検索装置
JPH0415869A (ja) * 1990-05-10 1992-01-21 Toshiba Corp 文書検索装置および文書検索方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03172966A (ja) * 1989-12-01 1991-07-26 Nippon Telegr & Teleph Corp <Ntt> 類似文書検索装置
JPH0415869A (ja) * 1990-05-10 1992-01-21 Toshiba Corp 文書検索装置および文書検索方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0962690A (ja) * 1995-08-22 1997-03-07 Fujitsu Ltd 文書管理装置
JPH10134087A (ja) * 1996-09-06 1998-05-22 Toshiba Corp 文書要求装置および関連文書の先取り方法
JP2000305945A (ja) * 1999-04-26 2000-11-02 Canon Inc 情報検索方法及び装置並びに記憶媒体
JP3561267B2 (ja) * 2000-06-27 2004-09-02 株式会社ケイビーエムジェイ 情報提供システム、情報提供方法および記憶媒体
US7676496B2 (en) 2004-10-04 2010-03-09 Sony Corporation Content management system, content management method and computer program
JP2008140168A (ja) * 2006-12-01 2008-06-19 Nippon Telegr & Teleph Corp <Ntt> シンボル列集合類似度算出方法及びメタデータ生成装置及びメタデータ付与装置及びプログラム
US9026564B2 (en) 2008-10-01 2015-05-05 Canon Kabsuhiki Kaisha Document processing system and control method thereof, program, and storage medium

Similar Documents

Publication Publication Date Title
US6826576B2 (en) Very-large-scale automatic categorizer for web content
US5625767A (en) Method and system for two-dimensional visualization of an information taxonomy and of text documents based on topical content of the documents
US6499030B1 (en) Apparatus and method for information retrieval, and storage medium storing program therefor
US5717913A (en) Method for detecting and extracting text data using database schemas
US8380714B2 (en) Method, computer system, and computer program for searching document data using search keyword
CN109690528B (zh) 用于提供可视化结果列表的系统以及方法
US8661031B2 (en) Method and apparatus for determining the significance and relevance of a web page, or a portion thereof
JP3614618B2 (ja) 文献検索支援方法及び装置およびこれを用いた文献検索サービス
JP3497172B2 (ja) 自動文書分類システム
US5987460A (en) Document retrieval-assisting method and system for the same and document retrieval service using the same with document frequency and term frequency
US7788261B2 (en) Interactive web information retrieval using graphical word indicators
US6725217B2 (en) Method and system for knowledge repository exploration and visualization
Hamborg et al. Bias-aware news analysis using matrix-based news aggregation
US20110295857A1 (en) System and method for aligning and indexing multilingual documents
EP1203315A1 (en) System and method for document management based on a plurality of knowledge taxonomies
JPH0991314A (ja) 情報探索装置
US7440938B2 (en) Method and apparatus for calculating similarity among documents
US8380731B2 (en) Methods and apparatus using sets of semantically similar words for text classification
JP4967133B2 (ja) 情報取得装置、そのプログラム及び方法
JPH07129602A (ja) 文書検索装置および方法
Eisenstein et al. Topicviz: Semantic navigation of document collections
Brook Wu et al. Finding nuggets in documents: A machine learning approach
CN110688559A (zh) 一种检索方法及装置
Souza et al. Using summarization techniques on patent database through computational intelligence
US9886488B2 (en) Conceptual document analysis and characterization