JPH10260991A - 情報検索方法および情報検索装置 - Google Patents

情報検索方法および情報検索装置

Info

Publication number
JPH10260991A
JPH10260991A JP9270251A JP27025197A JPH10260991A JP H10260991 A JPH10260991 A JP H10260991A JP 9270251 A JP9270251 A JP 9270251A JP 27025197 A JP27025197 A JP 27025197A JP H10260991 A JPH10260991 A JP H10260991A
Authority
JP
Japan
Prior art keywords
document
cluster
display
feature
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9270251A
Other languages
English (en)
Inventor
Shinji Miwa
真司 三輪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP9270251A priority Critical patent/JPH10260991A/ja
Publication of JPH10260991A publication Critical patent/JPH10260991A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 適当なキーワードの指定が難しい場合でも的
確な情報検索を可能とする。 【解決手段】 それぞれの文書から特徴要素を抽出し、
その特徴要素とその特徴要素を含む文書との関係を表す
特徴テーブルを作成して、その特徴テーブルを用いて文
書群を複数のクラスタに分類して表示する(ステップs
1,s2)。このクラスタは、各クラスタごとにそのク
ラスタを代表する特徴要素とその特徴要素を一定以上含
む文書数とをデータとして有する。そして、ユーザから
のクラスタ選択指示を受けたとき、選択されたクラスタ
に属する文書内容の表示指示または再分類指示を受け付
けて、内容表示指示の場合は、当該クラスタに属する文
書内容の表示を行う(ステップs3〜s6)。一方、再
分類指示の場合は、当該クラスタに属する文書のみで特
徴テーブルを再構成して(ステップs3〜s5)、その
再構成された特徴テーブルに基づいてクラスタに分類し
て表示する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書データを蓄積
したデータベースやネットワークで公開されている文書
群から、ユーザの要求に合致する文書を検索し、提示し
得る情報検索方法および情報検索装置に関する。
【0002】
【従来の技術】文書データを蓄積したデータベースなど
からユーザの要求する文書を効率よく検索して取り出す
方法としては、ユーザの入力したキーワードをもとに文
書データを取り出すというような検索方法が一般的であ
る。
【0003】この検索方法は、検索しようとする文書に
対してユーザ自身が何らかのキーワードを考えて、その
キーワードを入力することにより、システム側で、その
キーワードに合致する文書を取り出して出力するという
ものである。
【0004】
【発明が解決しようとする課題】しかしながら、上述し
たような情報検索方法は、検索対象のデータベースの規
模や格納されている文書の種類にかかわらず、入力され
たキーワードのみによる検索であるため、状況によって
は、検索されて出力される文書量が膨大な量となった
り、逆に、検索結果が全く出ないということもある。こ
れは、キーワードの設定仕方によっても大きく左右され
るため、入力するキーワードを適切に選ぶことが必要と
なってくる。
【0005】一般に、この種の検索方法においては、ど
のようなキーワードを入力したらよいかをユーザ自身で
考える必要がある。たとえば、あるキーワードを入力し
たとき、所望とする文書が得られないような場合には、
次に、違うキーワードを入力して検索してみるといった
試行錯誤的な検索を行う必要がある。このように試行錯
誤的にキーワードを入力して検索を行っても、ユーザが
本当に必要としている情報が得られるとは限らない。
【0006】また、情報をある程度絞り込む方法とし
て、複数のキーワードを入力するという方法もあるが、
ユーザ自身が何を取り出したらよいのかが明確にわかっ
ていないような場合には、複数のキーワードを設定する
ことは難しいし、また、複数のキーワードによって取り
出される情報は、内容が絞り込まれ過ぎることもあり、
かえって、所望とする情報を得にくくしてしまう場合も
ある。。
【0007】ユーザはデータベースに保存されている内
容全体を見ることは通常では不可能であるため、いわゆ
る情報検索という処理を行うわけである。しかし、現在
の情報検索は、データベース内にどのような情報が入っ
ているかが殆どわからない状態で検索を行うために、何
をキーワードとしたら最も適切な情報が取り出されるの
かがわからないのが実情である。さらに、ユーザ自身、
検索すべき情報に対して詳しい知識が無い状態で、どの
ような情報を得たらよいのか判断できないまま情報検索
を行う場合もある。
【0008】このような状況での情報検索を行う場合、
従来のように、ユーザの入力したキーワードに基づいて
検索を行う方式では、ユーザの所望とする情報を短時間
で的確に得ることはできなかった。
【0009】そこで本発明は、データベースの内容を段
階的にアウトラインを示しながら表示し、ユーザはその
表示を見て選択操作を行うことで、ユーザの必要とする
情報を段階的に具体化していくことができるようにし、
ユーザ自身がキーワードを考える必要がなく、また、ユ
ーザ自身、検索すべき情報に対して詳しい知識が無い状
態で、どのような情報を得たらよいのか判断できないま
ま情報検索を行う場合でも最終的にユーザの要求する情
報を効率よく得ることができる情報検索方法および情報
検索装置を提供することを目的としている。
【0010】
【課題を解決するための手段】本発明の情報検索方法に
おいて、請求項1の発明では、文書群に属するそれぞれ
の文書を解析し、それぞれの文書から特徴要素を抽出
し、その特徴要素とその特徴要素を含む文書との関係を
表す特徴テーブルを作成して、その特徴テーブルに基づ
いて文書群を複数のクラスタに分類して表示し、ユーザ
からのクラスタ選択指示を受けたとき、その選択された
クラスタに属する文書に関する内容の表示指示または再
分類指示を受け付けて、内容表示指示の場合は、当該ク
ラスタに属する文書に関する表示を行い、再分類指示の
場合は、当該クラスタに属する文書のみで前記特徴テー
ブルを再構成してその再構成された特徴テーブルに基づ
いてクラスタに分類して表示することを特徴としてい
る。
【0011】また、請求項2の発明は、請求項1の発明
において、前記特徴テーブルに基づいて文書群を複数の
クラスタに分類する処理は、それぞれの文書内に存在す
るそれぞれの特徴要素の出現頻度などの統計的な情報に
基づいて複数のクラスタに分類するようにしている。
【0012】さらに、請求項3の発明は、請求項2の発
明において、前記分類された複数のクラスタは、少なく
とも、それぞれのクラスタごとにそのクラスタを代表す
る特徴要素と、その特徴要素を一定以上含む文書数とを
データとして有している。
【0013】また、本発明の情報検索装置において、請
求項4の発明では、文書群を記憶する文書群記憶部と、
この文書群記憶部に記憶されているそれぞれの文書を解
析する文解析部と、この文解析部による解析結果からそ
れぞれの文書に対する特徴要素を抽出し、その特徴要素
とその特徴要素を含む文書との関係を表す特徴テーブル
を作成する特徴テーブル作成部と、前記特徴テーブルの
内容に基づいて文書群を複数のクラスタに分類する文書
分類部と、この文書分類部により分類された内容を記憶
する分類結果記憶部と、この分類結果記憶部の内容を読
み出して複数のクラスタを表示させる制御を行うととも
に、ユーザからのクラスタ選択指示を受けたとき、その
選択されたクラスタに属する文書に関する内容の表示指
示または再分類指示を受け付けて、内容表示指示の場合
は、当該クラスタに属する文書を表示させる制御を行
い、再分類指示の場合は、当該クラスタに属する文書の
みで前記特徴テーブルを再構成させる制御を行う表示制
御部とを有することを特徴としている。
【0014】また、請求項5の発明は、請求項4の発明
において、前記文書分類部が行う特徴テーブルに基づい
てそれぞれの文書を複数のクラスタに分類する処理は、
それぞれの文書内に存在するそれぞれの特徴要素の出現
頻度などの統計的な情報に基づいて複数のクラスタに分
類するようにいている。
【0015】さらに、請求項6の発明は、請求項5の発
明において、前記分類された複数のクラスタは、少なく
とも、それぞれのクラスタごとにそのクラスタを代表す
る特徴要素と、その特徴要素を一定以上含む文書数とを
データとして有している。本発明は、それぞれの文書内
に存在するそれぞれの特徴要素の出現頻度などの統計的
な情報に基づいて複数のクラスタに分類し、分類された
複数のクラスタは、少なくとも、それぞれのクラスタご
とにそのクラスタを代表する特徴要素と、その特徴要素
を一定以上含む文書数とをデータとして有するように
し、これをユーザに表示するようにしている。
【0016】これにより、ユーザは、表示された複数の
クラスタのそれぞれの特徴要素をキーワードとして捉え
ることができ、それぞれのクラスタごとの特徴要素か
ら、データベース内の概要を知ることができる。したが
って、データベース内にどのような情報があるかが全く
わからない状態で情報検索を行う場合でも、表示された
複数のクラスタについて、ユーザが所望とするクラスタ
を選択し、かつ、選択されたクラスタ内の文書数が多す
ぎる場合には、再分類を要求するという処理を段階的か
つ対話的に行うことによって、文書数の絞り込みが行
え、絞り込まれた状態から最終的にユーザがクラスタを
選択し、結果表示要求を行うことで、ユーザの所望とす
る情報を得ることができる。
【0017】このように、本発明では、情報検索を行う
に際して、表示されるクラスタごとの特徴要素を見てク
ラスタを選択する操作と、再分類か結果表示かを状況に
応じて選択する操作を行えばよく、その操作過程でユー
ザの必要とする情報がどれであるかを段々と具体化して
行くことができ、最終的にユーザの要求する情報を的確
に取り出すことができる。また、このような情報検索処
理を行う過程において、入力すべきキーワードをユーザ
自身が考える必要がなく、また、入力操作が選択操作で
すむので、検索操作がきわめて容易なものとなる。
【0018】
【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。
【0019】図1は本発明を実現するための装置構成を
示す図であり、文書群記憶部11、文解析部12、特徴
テーブル作成部13、文書分類部14、分類結果記憶部
15、表示制御部16、表示部17などから構成されて
いる。
【0020】文書群記憶部11は、ある文書群に含まれ
る多数の文書をデータベースとして記憶するものであ
る。
【0021】たとえば、図2に示されるように、ある文
書群として、「人工知能に関する論文群」があるとする
と、その「人工知能に関する論文群」に属する論文とし
て、たとえば、「エキスパートシステムに関する論
文」、「自然言語処理に関する論文」、「ニューラルネ
ットワークに関する論文」、・・・などがあり、さら
に、たとえば、「エキスパートシステムに関する論文」
の中には、「工場制御に関する論文」、「市場に関する
論文」というように、ある1つの文書群には、多数の文
書が存在している。
【0022】文解析部12は、文書群記憶部11に記憶
されているある文書群のそれぞれの文書データを基に、
それぞれの文書の形態素解析を行い特徴要素としての単
語を抽出する。
【0023】特徴テーブル作成部13は、特徴要素抽出
部131、特徴抽出部132、特徴テーブル133から
構成される。特徴要素抽出部131は、文解析部12で
形態素解析されて抽出された特徴要素(単語)を基に、
それぞれの文書の中に存在する特徴的な単語を抽出す
る。特徴抽出部132は特徴要素抽出部131から抽出
された特徴要素に基づいて、たとえば、それぞれの文書
において、どの特徴要素が何回出現したかをカウントす
る。そして、特徴要素抽出部131から抽出された特徴
要素と、特徴抽出部132でカウントされた数とによ
り、図3のような特徴テーブル133が作成される。
【0024】図3に示される特徴テーブル133の例
は、特徴要素としては、「エキスパート」、「システ
ム」、「エキスパート・システム」、「自然」、「言
語」、「自然・言語」が示されている。そして、「エキ
スパート」という特徴要素は、文書Aには4回、文書B
には0回、文書Cには6回、文書Dには3回出現してお
り、また、「システム」という特徴要素は、文書Aには
4回、文書Bには0回、文書Cには8回、文書Dには5
回出現しているとういうように、それぞれの特徴要素が
それぞれの文書にどのくらい出現しているかが示されて
いる。
【0025】この特徴テーブル133の内容によれば、
文書Aは、「エキスパート」や「システム」と言った特
徴要素が多く出現し、文書Bは「自然」、「言語」、
「自然・言語」といった特徴要素が多く出現し、文書C
は「エキスパート」、「システム」、「エキスパート・
システム」といった特徴要素が多く出現し、また、文書
Dは「エキスパート」、「システム」、「エキスパート
・システム」、「自然」、「言語」、「自然・言語」な
どの特徴要素がどれも多く出現していることがわかる。
【0026】文書分類部14は、このような内容の特徴
テーブル133を参照し、それぞれの文書内に存在する
それぞれの特徴要素の出現頻度などの統計的な情報に基
づいて複数のクラスタに分類する。
【0027】たとえば、1番目のクラスタとしては、そ
のクラスタを代表する特徴要素が「エキスパート・シス
テム」であり、その「エキスパート・システム」という
特徴要素を一定以上含む文書数は「2」であり、2番目
のクラスタとしては、特徴要素が「自然・言語」であ
り、その「自然・言語」という特徴要素を一定以上含む
文書数は「3」であるというように分類される。また、
文書分類部14は、このような特徴要素とその特徴要素
を一定以上含む文書数の分類を行うとともに、それがど
の文書であるかについての対応付けも行う。たとえば、
文書数「2」に対応する文書は文書Aと文書Cであると
いうような文書数と文書名の対応付けも行う。このよう
な分類結果は分類結果記憶部15に格納される。
【0028】表示制御部16は、分類結果記憶部15の
内容を分類結果として表示部17に表示する制御を行う
とともに、ユーザから検索結果表示の指示があったとき
は、分類結果記憶部15の内容と前記文書群記憶部11
の内容に基づいて検索結果内容としての表示データを構
成し、その表示データを表示部17に表示する制御を行
う。
【0029】図4は表示部17に表示された分類結果の
一例を示すもので、この例では1つの画面上には、クラ
スタとしてたとえば分類1から分類10まで、10個の
クラスタを表示する。なお、ここでは、1画面に10個
単位としたが、これは適当な数を設定できるものであ
り、また、クラスタ数が多い場合は、10個ずつに分け
てページ切替えで表示するようにすることも可能であ
る。
【0030】この図4の例では、分類1の特徴要素は
「エキスパート・システム」であり、その文書数は
「2」、分類2としては、特徴要素が「自然・言語」で
あり、その文書数は「3」であるというように表示され
ている。このように、各クラスタ毎にそのクラスタを代
表する特徴要素とその特徴要素が一定以上存在する文書
数が表示される。また、その表示部17には「結果表
示」と「再分類」といったユーザの指示を入力するため
のユーザ指示部21、22が表示される。
【0031】ユーザはこのような表示内容を見て、ユー
ザ自身の要求している情報が、たとえば、分類1の内容
(「エキスパート・システム」)に関係するものではな
いかと判断した場合は、その分類1の行部分R1をマウ
スなどでクリックしたのち、「結果表示」のユーザ指示
部21をクリックする。
【0032】これにより、表示制御部16は、選択され
たクラスタ(分類1)に属する文書を文書群記憶部11
から読み出して、その文書内容を表示部17に表示す
る。この例では、選択されたクラスタ(分類1)に属す
る文書数は「2」であり、その文書名が文書Aと文書C
であることがわかるから、表示制御部16は、ユーザか
らの結果表示要求を受けると、ユーザの選択したクラス
タに属する文書(文書Aと文書C)を文書群記憶部11
から読み出して、その内容を表示する。
【0033】なお、この文書内容の表示の仕方として
は、分類1に属するすべての文書(この場合文書Aと文
書C)の内容をそのまますべてを表示させるようにして
もよいが、たとえば、文書が論文である場合には概要を
表す部分のみを表示するようにしてもよく、あるいは、
文書名と文書サイズなどのみを表示するようにしてもよ
く、その表示の仕方については種々考えられる。
【0034】一方、ユーザが図4に示すような表示内容
を見て、ユーザ自身の要求している情報が、たとえば、
分類1の内容(「エキスパート・システム」)に関する
ものではないかと判断したものの、「エキスパート・シ
ステム」という表示内容だけでは、ユーザ自身の要求す
る情報として具体化されていないと判断した場合、つま
り、もう少し細分類化された内容が必要であると考えた
ときは、分類1の行部分R1をマウスなどでクリックし
たのち、「再分類」のユーザ指示部22をクリックす
る。
【0035】このように、分類1の行部分R1がクリッ
クされたのち、「再分類」のユーザ指示部22がクリッ
クされると、分類1に属する文書のみで再分類処理され
る。この図4に示す例では、分類1に属する文書数は
「2」である。したがって、この2つの文書のみを用い
て、それらの文書に存在する特徴要素に基づいて特徴テ
ーブルを再構成する。つまり、この例で考えると、分類
1に属する文書は文書Aと文書Cであるから、これらの
文書Aと文書Cとで新たな特徴テーブル133が作成さ
れることになる。そして、新たに作成された特徴テーブ
ルを参照して、文書分類部14が文書群の分類を行い、
この文書Aと文書Cのみについて分類されされた内容が
表示部17に表示される。
【0036】このようにして、分類対象の文書が絞られ
た状態で、再分類された結果は、再分類前の特徴要素が
ある程度はそのまま出てくるが、新たな分類対象の文書
間で見た場合、ある文書に特有の特徴要素が、分類結果
として出てくる場合もある。たとえば、分類対象の文書
を文書Aと文書Bとしたとき、文書Cでは「工場制御」
という特徴要素の出現頻度が高いが、この「工場制御」
という特徴要素は文書Aでは殆ど出現しないという場合
は、1つのクラスタとして、特徴要素が「工場制御」で
その「工場要素」を含む文書数が「1」というような分
類結果が表示されることになる。この表示例を図5に示
す。図5では、分類3のクラスタにおいて、特徴要素が
「工場制御」でその「工場制御」を一定以上含む文書数
が「1」というように表示されている。
【0037】そして、ユーザがその再分類された表示結
果を見て、ユーザの要求する情報が「工場制御」に関す
る内容に近いと判断した場合には、図5における分類3
の行部分R2をクリックし、かつ、「結果表示」のユー
ザ指示部21をクリックすると、文書Cの内容が表示さ
れる。なお、この表示についても前記したように、対象
となる文書の内容をそのまま表示させるようにしてもよ
いが、たとえば、文書が論文である場合には概要を表す
部分のみを表示するようにしてもよく、あるいは、文書
名と文書サイズなどのみを表示するようにしてもよく、
その表示内容については種々考えられる。
【0038】なお、以上の例は、説明を容易なものとす
るために、図4の段階で分類される文書数を「2」とい
うようなきわめて少ない数で説明したが、実際には、図
4の段階では、それぞれの分類における文書数は数百と
いうような数となることもある。したがって、ユーザが
たとえば、分類1のクラスタを選択し、かつ、再分類を
指示すると、その分類1に属する数百の文書での再分類
がなされ、その再分類された内容として、分類1におけ
る特徴要素とその文書数、分類2における特徴要素とそ
の文書数、分類3における特徴要素とその文書数という
ように、それぞれの分類番号ごとにその特徴要素とその
特徴要素を含む文書数が表示部17に表示される。
【0039】そして、ユーザが、その再分類されたそれ
ぞれの分類番号に対する特徴要素を見て、ある分類番号
のクラスタを選択し、かつ、再分類を要求すると、今度
は、その選択した分類番号に属する文書だけでの再分類
がなされる。たとえば、ユーザが、分類3のクラスタを
選択し、かつ再分類を指示すると、その分類3に属する
文書数での再分類がなされ、前記同様に、分類1におけ
る特徴要素とその文書数、分類2における特徴要素とそ
の文書数、分類3における特徴要素とその文書数という
ように、それぞれの分類番号ごとにその特徴要素とその
特徴要素を含む文書数が表示される。
【0040】このような処理が繰り返し行われることに
より、対象文書数が段階的に絞り込まれて行く。そし
て、文書数が絞り込まれた状態で、ユーザは表示された
特徴要素を見て、最も適当と思われる特徴要素が表示さ
れているクラスタ部分をクリックしたのち、「結果表
示」のユーザ指示部21をクリックする。
【0041】これにより、たとえば、最終的な段階でユ
ーザの選択した特徴要素を含む文書数が「2」であれ
ば、その特徴要素を含む2つの文書の内容が表示される
ことになる。なお、この結果表示処理は、分類結果記憶
部15に記憶されている最新の分類結果内容と、文書群
記憶部11の内容を基に、対応する文書名が読み出さ
れ、検索結果となる表示データを構成して、その表示デ
ータを表示部17に表示することにより行う。
【0042】このように、本発明では、表示部17に表
示される分類結果(図4参照)における分類番号に対応
する特徴要素がいわばキーワードとなるものである。
【0043】したがって、ユーザは自分の要求する情報
について、何をキーワードとしてよいかわからないよう
な場合であっても、システム側で、ユーザの要求を具体
化するための指標となる特徴要素を画面上に分類番号対
応に表示し、さらに、その特徴要素を一定以上含む文書
の数を表示するので、ユーザはデータベースの概要を知
ることができ、また、ユーザ自身がキーワードを考える
必要がなく、その表示内容を見て、選択するという対話
的な操作が可能となる。
【0044】そして、必要に応じて何段階かの再分類操
作を経て文書数が絞り込まれたところで、最も適当と思
われる特徴要素を選択してその結果表示を行うというよ
うな検索処理を行うことで、必要とする文書を的確に取
り出すことができる。
【0045】図6は以上説明したこの実施の形態の処理
手順をフローチャートである。図6において、文書分類
部14が特徴テーブル133を参照して文書群の分類を
行い(ステップs1)、その分類結果を表示する(ステ
ップs2)。この分類結果の一例としては、たとえば、
図4で示すような内容である。そして、ユーザがその表
示を見て、「結果表示」か「再分類」かの入力を行う
と、そのユーザ指示入力を受け付け(ステップs3)、
ユーザの指示が結果表示か再分類かを判断する(ステッ
プs4)。ユーザ指示が結果表示である場合には、文書
群記憶部11と分類結果記憶部15のそれぞれの内容か
ら表示データを構成して(ステップs5)、その表示デ
ータを表示部17に表示する(ステップs6)。
【0046】一方、ステップs4において、ユーザの指
示が再分類である場合には、選択されたクラスタ内の文
書のみで特徴テーブル133を再構成する(ステップs
7)。そして、ステップs1に処理が戻り、再構成され
た特徴テーブルを用いて文書群を分類し、以下前記ステ
ップs2〜s7の処理を行う。なお、指示されたクラス
タ内の文書のみで特徴テーブル133を再構成する処理
は、指示されたクラスタの文書が前述したように、たと
えば、文書Aと文書Cであるとすれば、この文書Aと文
書Cのみを用いて、それぞれの文書から抽出された特徴
要素に基づいて特徴テーブル133を再構成する処理で
ある。
【0047】以上説明したように、この実施の形態によ
れば、特徴要素としての単語の出現頻度などの統計的情
報によって、文書群を自動的に、所定の数のクラスタに
分類するとともに、それぞれのクラスタを代表する特徴
要素とその特徴要素を一定以上含む文書の数を抽出し、
それらをユーザに見せることによって、ユーザは、デー
タベースの概略を知ることができる。そして、このよう
にして分類されたクラスタについて、ユーザはそれぞれ
のクラスタごとの特徴要素をキーワードとして捉えて、
最も適当と思われる特徴要素の存在するクラスタを選択
する。
【0048】このとき、選択したクラスタ内の文書数が
多すぎる場合には、選択されたクラスタ内の文書のみで
再分類して表示することが可能で、この再分類された表
示を見て、その中で、最も適当と思われる特徴要素の存
在するクラスタを選択するという操作を段階的かつ対話
的に行う。これにより、文書数の絞り込みが行え、絞り
込まれた状態から最終的にユーザがクラスタを選択し、
結果表示要求を行うことで、ユーザの所望とする情報を
得ることができる。
【0049】なお、以上説明した実施の形態は、本発明
の好適な実施の形態の一例であるが、本発明はこれに限
定されるものではなく、本発明の用紙を逸脱しない範囲
で種々変形実施可能となるものである。また、本発明の
処理を行う処理プログラムは、フロッピィディスク、光
ディスク、ハードディスクなどの記憶媒体に記憶させて
おくことができ、本発明は、それらの記憶媒体をも含む
ものであり、また、ネットワークからデータを得る形式
でもよい。
【0050】
【発明の効果】本発明によれば、それぞれの文書から特
徴要素を抽出し、その特徴要素とその特徴要素を含む文
書との関係を表す特徴テーブルを作成して、その特徴テ
ーブルに基づいて文書群を複数のクラスタに分類して表
示し、ユーザからのクラスタ選択指示を受けたとき、そ
の選択されたクラスタに属する文書に関する内容の表示
指示または再分類指示を受け付けて、内容表示指示の場
合は、当該クラスタに属する文書に関する表示を行い、
再分類指示の場合は、当該クラスタに属する文書のみで
前記特徴テーブルを再構成してその再構成された特徴テ
ーブルに基づいてクラスタに分類して表示するようにし
ている。これにより、ユーザは、表示された複数のクラ
スタのそれぞれの特徴要素をキーワードとして捉えるこ
とができ、それぞれのクラスタごとの特徴要素から、デ
ータベース内の概要を知ることができる。したがって、
データベース内にどのような情報があるかが全くわから
ない状態で情報検索を行う場合でも、クラスタごとの特
徴要素からデータベース内の概要を知ることができる。
そして、分類された複数のクラスタは、少なくとも、そ
れぞれのクラスタごとにそのクラスタを代表する特徴要
素と、その特徴要素を一定以上含む文書数とをデータと
して有するので、表示された複数のクラスタについて、
ユーザが所望とするクラスタを選択したとき、選択した
クラスタ内の文書数が多すぎる場合には、再分類が可能
で、この処理を段階的かつ対話的に行うことによって、
文書数の絞り込みが行え、絞り込まれた状態からユーザ
が所望とする情報を得ることができる。
【0051】このように、本発明では、情報検索を行う
に際して、表示されるクラスタごとの特徴要素を見てク
ラスタを選択する操作と、再分類か結果表示かを選択す
るという対話的でかつ段階的に検索対象を絞って行く操
作を行えばよく、その操作過程でユーザの欲する情報が
どれであるかを段々と具体化して行くことができ、最終
的にユーザの必要とする情報を的確に取り出すことがで
きる。また、このような情報検索処理を行う過程におい
て、入力すべきキーワードをユーザ自身が考える必要が
なく、また、入力操作がマウスなどによる選択操作です
むので、検索操作がきわめて容易なものとなる。
【図面の簡単な説明】
【図1】本発明の実施の形態における情報検索装置の構
成を示すブロック図。
【図2】本発明の実施の形態に用いられる文書群の例を
示す図。
【図3】本発明の実施の形態における特徴テーブルの一
例を示す図。
【図4】本発明の実施の形態における複数のクラスタ表
示例を示す図。
【図5】本発明の実施の形態における再分類指示により
再構成された特徴テーブルに基づいてクラスタに分類さ
れた表示例を示す図。
【図6】本発明の実施の形態における検索処理手順を説
明するフローチャート。
【符号の説明】
11 文書群記憶部 12 文解析部 13 特徴テーブル作成部 14 文書分類部 15 分類結果記憶部 16 表示制御部 17 表示部 21 「結果表示」のユーザ指示部 22 「再分類」のユーザ指示部 131 特徴要素抽出部 132 特徴抽出部 133 特徴テーブル

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 文書群に属するそれぞれの文書を解析
    し、それぞれの文書から特徴要素を抽出し、その特徴要
    素とその特徴要素を含む文書との関係を表す特徴テーブ
    ルを作成して、その特徴テーブルに基づいて文書群を複
    数のクラスタに分類して表示し、ユーザからのクラスタ
    選択指示を受けたとき、その選択されたクラスタに属す
    る文書に関する内容の表示指示または再分類指示を受け
    付けて、内容表示指示の場合は、当該クラスタに属する
    文書に関する表示を行い、再分類指示の場合は、当該ク
    ラスタに属する文書のみで前記特徴テーブルを再構成し
    てその再構成された特徴テーブルに基づいてクラスタに
    分類して表示することを特徴とする情報検索方法。
  2. 【請求項2】 前記特徴テーブルに基づいて文書群を複
    数のクラスタに分類する処理は、それぞれの文書内に存
    在するそれぞれの特徴要素の出現頻度などの統計的な情
    報に基づいて複数のクラスタに分類することを特徴とす
    る請求項1記載の情報検索方法。
  3. 【請求項3】 前記分類された複数のクラスタは、少な
    くとも、それぞれのクラスタごとにそのクラスタを代表
    する特徴要素と、その特徴要素を一定以上含む文書数と
    をデータとして有することを特徴とする請求項2記載の
    情報検索方法。
  4. 【請求項4】 文書群を記憶する文書群記憶部と、 この文書群記憶部に記憶されているそれぞれの文書を解
    析する文解析部と、 この文解析部による解析結果からそれぞれの文書に対す
    る特徴要素を抽出し、その特徴要素とその特徴要素を含
    む文書との関係を表す特徴テーブルを作成する特徴テー
    ブル作成部と、 前記特徴テーブルの内容に基づいて文書群を複数のクラ
    スタに分類する文書分類部と、 この文書分類部により分類された内容を記憶する分類結
    果記憶部と、 この分類結果記憶部の内容を読み出して複数のクラスタ
    を表示させる制御を行うとともに、ユーザからのクラス
    タ選択指示を受けたとき、その選択されたクラスタに属
    する文書に関する内容の表示指示または再分類指示を受
    け付けて、内容表示指示の場合は、当該クラスタに属す
    る文書を表示させる制御を行い、再分類指示の場合は、
    当該クラスタに属する文書のみで前記特徴テーブルを再
    構成させる制御を行う表示制御部と、 を有することを特徴とする情報検索装置。
  5. 【請求項5】 前記情報分類部が行う特徴テーブルに基
    づいてそれぞれの文書を複数のクラスタに分類する処理
    は、それぞれの文書内に存在するそれぞれの特徴要素の
    出現頻度などの統計的な情報に基づいて複数のクラスタ
    に分類することを特徴とする請求項4記載の情報検索装
    置。
  6. 【請求項6】 前記分類された複数のクラスタは、少な
    くとも、それぞれのクラスタごとにそのクラスタを代表
    する特徴要素と、その特徴要素を一定以上含む文書数と
    をデータとして有することを特徴とする請求項5記載の
    情報検索装置。
JP9270251A 1997-01-14 1997-10-02 情報検索方法および情報検索装置 Pending JPH10260991A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9270251A JPH10260991A (ja) 1997-01-14 1997-10-02 情報検索方法および情報検索装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP501097 1997-01-14
JP9-5010 1997-01-14
JP9270251A JPH10260991A (ja) 1997-01-14 1997-10-02 情報検索方法および情報検索装置

Publications (1)

Publication Number Publication Date
JPH10260991A true JPH10260991A (ja) 1998-09-29

Family

ID=26338887

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9270251A Pending JPH10260991A (ja) 1997-01-14 1997-10-02 情報検索方法および情報検索装置

Country Status (1)

Country Link
JP (1) JPH10260991A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002288220A (ja) * 2001-03-26 2002-10-04 Just Syst Corp 文書分類装置、文書分類方法ならびに、プログラム
US6826724B1 (en) 1998-12-24 2004-11-30 Ricoh Company, Ltd. Document processor, document classification device, document processing method, document classification method, and computer-readable recording medium for recording programs for executing the methods on a computer
JP2008234670A (ja) * 1998-12-24 2008-10-02 Ricoh Co Ltd 文書分類装置、文書分類方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
KR20220146209A (ko) * 2021-04-23 2022-11-01 주식회사 티맥스에이아이 이미지 기반 테이블 경계선 생성 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0581327A (ja) * 1991-09-19 1993-04-02 Fujitsu Ltd 情報検索支援処理装置
JPH05314182A (ja) * 1992-05-13 1993-11-26 Fujitsu Ltd 情報検索装置
JPH07114572A (ja) * 1993-10-18 1995-05-02 Sharp Corp 文書分類装置
JPH07160728A (ja) * 1993-12-06 1995-06-23 Sanyo Electric Co Ltd マルチ画面形成装置
JPH09101990A (ja) * 1995-07-31 1997-04-15 Toshiba Corp 情報フィルタリング装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0581327A (ja) * 1991-09-19 1993-04-02 Fujitsu Ltd 情報検索支援処理装置
JPH05314182A (ja) * 1992-05-13 1993-11-26 Fujitsu Ltd 情報検索装置
JPH07114572A (ja) * 1993-10-18 1995-05-02 Sharp Corp 文書分類装置
JPH07160728A (ja) * 1993-12-06 1995-06-23 Sanyo Electric Co Ltd マルチ画面形成装置
JPH09101990A (ja) * 1995-07-31 1997-04-15 Toshiba Corp 情報フィルタリング装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6826724B1 (en) 1998-12-24 2004-11-30 Ricoh Company, Ltd. Document processor, document classification device, document processing method, document classification method, and computer-readable recording medium for recording programs for executing the methods on a computer
JP2008234670A (ja) * 1998-12-24 2008-10-02 Ricoh Co Ltd 文書分類装置、文書分類方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002288220A (ja) * 2001-03-26 2002-10-04 Just Syst Corp 文書分類装置、文書分類方法ならびに、プログラム
KR20220146209A (ko) * 2021-04-23 2022-11-01 주식회사 티맥스에이아이 이미지 기반 테이블 경계선 생성 방법

Similar Documents

Publication Publication Date Title
JP3001460B2 (ja) 文書分類装置
US7236972B2 (en) Identifier vocabulary data access method and system
US5737591A (en) Database view generation system
US5021992A (en) Method of translating data from knowledge base to data base
Trippe Patinformatics: Tasks to tools
US6938025B1 (en) Method and apparatus for automatically determining salient features for object classification
EP0704075B1 (en) Method and apparatus for indexing searching and displaying data
US6915308B1 (en) Method and apparatus for information mining and filtering
US7231375B2 (en) Computer aided query to task mapping
US6654742B1 (en) Method and system for document collection final search result by arithmetical operations between search results sorted by multiple ranking metrics
US5625767A (en) Method and system for two-dimensional visualization of an information taxonomy and of text documents based on topical content of the documents
US6654744B2 (en) Method and apparatus for categorizing information, and a computer product
US6895397B2 (en) Knowledge analysis system, knowledge analysis method, and knowledge analysis program product
JP4382526B2 (ja) 文章分類装置および方法
JPH0877010A (ja) データ分析方法および装置
EP1360604A2 (en) Method and system for gathering, organizing, and displaying information from data searches
GB2403558A (en) Document searching and method for presenting the results
JP2003345810A (ja) 文書検索方法、文書検索システム及び文書検索結果示方システム
CN106951554B (zh) 一种层次化新闻热点及其演化的挖掘与可视化方法
KR20010104873A (ko) 메타 검색엔진을 이용한 인터넷 사이트 검색 서비스 시스템
US6442561B1 (en) Method of constructing binary decision trees with reduced memory access
JPH10260991A (ja) 情報検索方法および情報検索装置
KR20210074734A (ko) 영상 내 자막 키워드 추출 및 순위 산정 시스템 및 방법
KR20050074058A (ko) 인터넷상에서 기사를 자동분류하여 타 웹사이트에자동송출하는 시스템 및 그 제어방법
JP2004046870A (ja) 情報単位群操作装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041026

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050105

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050301

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050412