JP3385297B2 - 文書の自動分類方法、および情報空間の可視化方法、ならびに情報検索システム - Google Patents

文書の自動分類方法、および情報空間の可視化方法、ならびに情報検索システム

Info

Publication number
JP3385297B2
JP3385297B2 JP06816095A JP6816095A JP3385297B2 JP 3385297 B2 JP3385297 B2 JP 3385297B2 JP 06816095 A JP06816095 A JP 06816095A JP 6816095 A JP6816095 A JP 6816095A JP 3385297 B2 JP3385297 B2 JP 3385297B2
Authority
JP
Japan
Prior art keywords
document
cell
word
documents
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP06816095A
Other languages
English (en)
Other versions
JPH08263514A (ja
Inventor
英一 有田
照昌 安井
新一郎 津高
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP06816095A priority Critical patent/JP3385297B2/ja
Publication of JPH08263514A publication Critical patent/JPH08263514A/ja
Application granted granted Critical
Publication of JP3385297B2 publication Critical patent/JP3385297B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、文書情報を自動的に
分類する文書の自動分類方法、および分類された情報空
間を可視化する情報空間の可視化方法、ならびに可視化
された情報空間を参照して情報の検索を行う情報検索シ
ステムに関し、特に、内容の似た文書が近くに配置され
るように2次元のセルに配置し、そのセルを代表する語
句を表示して、文書情報の情報空間を一覧表示するとと
もに、文書データを簡単に検索できるようにして、ボト
ムアップ型の発想支援システムとして機能する情報検索
システムに関するものである。
【0002】
【従来の技術】図13は従来の情報検索システムの機能
構成を示す構成図である。図において、1は多量の文書
情報が格納されている文書データベースであり、2はこ
の文書データベース1より検索条件に該当した文書デー
タを検索抽出する情報検索部である。また、3はこの情
報検索部2にキーワードの論理和や論理積などによる検
索条件を入力する検索条件入力部であり、4は情報検索
部2より出力される、検索条件に該当した文書の数や、
必要に応じて該当する文書の見出しなどの検索結果を出
力表示する検索結果表示部である。
【0003】次に動作について説明する。現在実用化さ
れている特許や科学技術文献などの文書情報を検索する
場合、まず、あらかじめ規定されているシソーラスに記
載された統制キーワードや、主として文書内に含まれて
いる語句である自由キーワードの論理積や論理和等によ
る検索式を作成し、それを検索条件として検索条件入力
部3より情報検索部2に入力する。情報検索部2は文書
データベース1を検索して、入力された検索条件に該当
する文書を抽出し、当該検索条件に合致した文書の数
や、必要に応じて検索された文書のタイトルや概要など
の検索結果を検索結果表示部4に出力表示する。
【0004】なお、このようなこの発明に関連する従来
のベクトルの自動分類方法について記載された文献とし
ては、例えば「プロシーディングス オブ ザ アイ・
トリプル・イー(Proceedings of Th
e IEEE)」の第78巻第9号(1990年9月)
の1464〜1480ページに掲載された論文「ザ、セ
ルフ・オーガナイジング マップ(The Self−
Organizing Map)」などがある。
【0005】
【発明が解決しようとする課題】従来の情報検索システ
ムは以上のように構成されているので、検索条件に該当
する文書が文書データベース全体の中でどのような位置
を占めるのか明らかでないため、検索された文書が適切
なものであるか否かの判断が困難であり、情報検索結果
が文書単位でリストとしてしか得られず、内容について
は順番に本文を参照していく必要があって、内容の似た
ものを一括して見るのが困難であるばかりか、文書デー
タベースの全体概要がわからず、文書があらかじめ定め
られた分類形態を基準に分類されていたとしても、分類
のクラスタの相互関係が不明であり、さらに文書データ
ベースにどのような自由キーワードがあるのかわからな
いなどの問題点があった。
【0006】この発明は上記のような問題点を解消する
ためになされたもので、文書を自動分類して内容の近さ
を反映した2次元のセルとして配置し、各セルには分類
を代表するキーワードを表示することによって文書デー
タベースの全体構成を把握できるようにし、それを利用
して検索キーワードが容易に得られる情報検索システム
や、ボトムアップ型の発想支援システムとして機能する
情報検索システム、さらには、それに用いられる文書の
自動分類方法および情報空間の可視化方法を得ることを
目的とする。
【0007】
【課題を解決するための手段】請求項1に記載の発明に
係る文書の自動分類方法は、文書の語句ベクトルとセル
の語句ベクトルの距離を計算して、それが最小となるも
のをその文書の仮の所属セルとし、その所属セルの語句
ベクトルの値をその文書の語句ベクトルの値に近付ける
とともに、そのセル近傍のセルの語句ベクトルの値を、
語句の文書集合での出現割合に依存して近付ける割合を
変化させ、文書のクラスタの階層性と文書クラスタの所
属するセルの領域の包含関係を対応させながら、その文
書の語句ベクトルへの近さの度合いに応じて減じて近付
ける処理を、所定回数もしくは収束するまで繰り返し、
その後、各セルの語句ベクトルと文書の語句ベクトルの
距離が最小のセルをその文書の所属セルとして、同じセ
ルに所属する文書を内容が類似した文書のクラスタと判
断するものである。
【0008】また、請求項2に記載の発明に係る情報空
間の可視化方法は、セルに対応する語句ベクトルの値が
大きなものから一定数、もしくは所定の閾値以上の語句
を、そのセルを代表する語句とし、当該語句の文字列を
表示して、上記文書の自動分類方法によって分類された
文書集合の情報空間を可視化するものである。
【0009】また、請求項3に記載の発明に係る情報空
間の可視化方法は、上記文書の自動分類方法によって分
類された文書集合の情報空間を可視化する情報空間の可
視化方法において、セルに対応する語句ベクトルのうち
の、値の大きなものから一定数、もしくは所定の閾値以
上の値を持つものを、そのセルを代表する語句として、
その文字列の表示を行うにあたり、隣り合ったセルの境
界線の属性を、セルに対応する語句ベクトルの距離に応
じて変化させて表示するものである。
【0010】また、請求項4に記載の発明に係る情報空
間の可視化方法は、文書の語句ベクトルとセルの語句ベ
クトルの距離を計算して、それが最小となるものをその
文書の仮の所属セルとし、その所属セルの語句ベクトル
の値をその文書の語句ベクトルの値に近付けるととも
に、そのセル近傍のセルの語句ベクトルの値も、その文
書の語句ベクトルへの近さの度合いに応じて減じて近付
ける処理を、所定回数もしくは収束するまで繰り返し、
その後、各セルの語句ベクトルと文書の語句ベクトルの
距離が最小のセルをその文書の所属セルとして、同じセ
ルに所属する文書を内容が類似した文書のクラスタと判
断する文書の自動分類方法によって分類された文書集合
の情報空間を可視化する情報空間の可視化方法におい
て、セルに対応する語句ベクトルのうちの、値の大きな
ものから一定数、もしくは所定の閾値以上の値を持つも
のを、そのセルを代表する語句として、その文字列の表
示を行うにあたり、隣り合ったセルの境界線の属性を、
セルに対応する語句ベクトルの距離に応じて変化させて
表示するものである。
【0011】また、請求項5に記載の発明に係る情報検
索システムは、情報検索部にて検索された文書集合を格
納する検索結果格納部、その文書集合を対象に、上記
書の自動分類方法によって文書の自動分類を行う自動分
類部、分類された文書集合の情報空間を、上記情報空間
の可視化方法によって視覚化する情報空間可視化部、視
覚化された2次元の位置を指定することによって特定の
文書を選択する文書選択部、および、選択された文書の
内容を検索結果格納部より取り出して表示する文書内容
表示部を設けたものである。
【0012】
【0013】
【作用】請求項1に記載の発明における文書の自動分類
方法は、文書の語句ベクトルとセルの語句ベクトルの距
離が最小のセルをその文書の仮の所属セルとし、その所
属セルの語句ベクトルの値をその文書の語句ベクトルの
値に近付け、またそのセル近傍のセルの語句ベクトルの
を、語句の文書集合での出現割合に依存して近付ける
割合を変化させ、文書のクラスタの階層性と文書クラス
タの所属するセルの領域の包含関係を対応させながら、
その文書の語句ベクトルへの近さの度合いに応じて近付
ける学習を行い、学習終了後、各セルの語句ベクトルと
文書の語句ベクトルの距離が最小のセルをその文書の所
属セルとして、同じセルに所属する文書を内容が類似し
た文書のクラスタと判断することにより、内容が類似し
た文書を一括して参照可能とする。また、文書のクラス
タの階層性と文書クラスタの所属するセルの領域の包含
関係が対応した文書のクラスタが作成される。
【0014】また、請求項2に記載の発明における情報
空間の可視化方法は、セルに対応する語句ベクトルの値
が大きなものから一定数、もしくは所定の閾値以上の語
句をそのセルを代表する語句としてその語句の文字列を
表示することにより、文書集合全体の概要が分かりやす
い情報空間の可視化を可能とする。
【0015】また、請求項3に記載の発明における情報
空間の可視化方法は、上記文書の自動分類方法によって
分類された文書集合の情報空間を可視化する情報空間の
可視化方法において、セルに対応する語句ベクトルのう
ちの、値の大きなものから一定数、もしくは所定の閾値
以上の値を持つものを、そのセルを代表する語句とし
て、その文字列の表示を行うにあたり、隣り合ったセル
の境界線の属性を、セルに対応する語句ベクトルの距離
に応じて変化させて表示することにより、文書集合全体
の概要が分かりやすい情報空間の可視化を可能とする。
【0016】また、請求項4に記載の発明における情報
空間の可視化方法は、文書の語句ベクトルとセルの語句
ベクトルの距離を計算して、それが最小となるものをそ
の文書の仮の所属セルとし、その所属セルの語句ベクト
ルの値をその文書の語句ベクトルの値に近付けるととも
に、そのセル近傍のセルの語句ベクトルの値も、その文
書の語句ベクトルへの近さの度合いに応じて減じて近付
ける処理を、所定回数もしくは収束するまで繰り返し、
その後、各セルの語句ベクトルと文書の語句ベクトルの
距離が最小のセルをその文書の所属セルとして、同じセ
ルに所属する文書を内容が類似した文書のクラスタと判
断する文書の自動分類方法によって分類された文書集合
の情報空間を可視化する情報空間の可視化方法におい
て、セルに対応する語句ベクトルのうちの、値の大きな
ものから一定数、もしくは所定の閾値以上の値を持つも
のを、そのセルを代表する語句として、その文字列の表
示を行うにあたり、隣り合ったセルの境界線の属性を、
セルに対応する語句ベクトルの距離に応じて変化させて
表示するので、内容の似たクラスタの領域が分かりやす
い情報空間の可視化を可能とする。
【0017】また、請求項5に記載の発明における情報
検索システムは、情報検索によって得られた検索結果格
納部内の文書集合を対象に、上記文書の自動分類方法を
用いて文書の自動分類を行い、その自動分類された文書
集合の情報空間を、上記情報空間の可視化方法によって
視覚化し、視覚化された2次元の位置を指定することに
よって選択した文書の内容を、検索結果格納部より取り
出して文書内容表示部に表示することにより、検索され
た文書集合の全体概要を見ながら個々の文書の内容を確
かめることを可能にする。
【0018】
【0019】
【実施例】
実施例1.以下、この発明の一実施例を図について説明
する。図1はこの発明による文書の自動分類方法の一実
施例における学習フェーズの処理の流れを示すフローチ
ャートであり、図2は同じく分類フェーズの処理の流れ
を示すフローチャートである。このように、この実施例
1による文書の自動分類方法は学習フェーズと分類フェ
ーズとから成っており、以下、まず学習フェーズの動作
について説明し、次に分類フェーズの動作について説明
する。なお、この明細書中における「語句」という表現
は、名詞、動詞などの通常の単語、および句や節など、
テキストに含まれる意味のある文字列を表すものであ
る。
【0020】学習フェーズが開始されると、まずステッ
プST100において、文書DOC−1,DOC−2,
・・・・,DOC−i,・・・・,DOC−Nによって
構成される文書集合DOCUMENTSに含まれている
異なった語句のリストを求めて、それを語句リストWO
RD−LISTとする。次にステップST110におい
て、ノイズを削減するために、前記語句リストWORD
−LISTの語句中より重要なもののみを選んで、それ
を語句リストWORD−LIST2とする。例えば、出
現頻度の高いものは一般的な語句であるため、分類とい
う観点からは重要ではなく、また、出現頻度の低いもの
は特殊な語句であることが多く、これも分類という観点
からは重要ではない。そこで、このステップST110
では、語句リストWORD−LISTの各語句が文書集
合DOCUMENTS中に含まれる頻度を数え、頻度が
第1の閾値FRQUENCY−LOW以下の語句と頻度
が第2の閾値FRQUENCY−HIGH以上の語句を
語句リストWORD−LISTの語句中より除き、それ
を語句リストWORD−LIST2とする。なお、この
ようにして作成された語句リストWORD−LIST2
は、語句word−1,word−2,・・・・,wo
rd−i,・・・・,word−nから構成されている
ものとする。
【0021】次にステップST120において、2次元
に配置されたセルの位置をCELL(x,y)とし、語
句リストWORD−LIST2を要素とする語句ベクト
ルCELL−Vector(x,y)を位置CELL
(x,y)のセルに対応するベクトルとする。なお、各
語句word−iの初期値は乱数などを使って任意の値
にする。ただし、語句ベクトルは単位長に正規化する。
次にステップST130に進み、文書集合DOCUME
NTSの各文書DOC−iについて、語句リストWOR
D−LIST2を要素とする語句ベクトルDOC−Ve
ctor−iを作成する。語句ベクトルDOC−Vec
tor−iの各語句word−jの値Vijは、文書に
出現する回数が多いほど 重要と考えられ、またその語
句が出現する文書の数が少ないほど分類という観点から
は重要であるので、そのような語句ほど値が大きくなる
ように、例えば次に示す(1)式によってその値を設定
する。
【0022】 Vij=Fij×log(N/Nj) ・・・・・ (1)
【0023】ただし、上記(1)式において、Fijは
語句word−jが文書DOC−iに出現する頻度、N
は文書集合DOCUMENTSの文書数、Njは語句w
ord−jを含む文書の数である。従って、語句wor
d−jが文書集合DOCUMENTSのすべての文書に
出現する場合は、Nj=Nとなってlog(N/Nj)
=0となるため、Vijも0となる。これは分類という
観点では、すべての文書に出現する語句は、その語句の
有無によって文書を分けることができないため、その語
句の重要度は0であることを表現している。
【0024】次にステップST140に進んで、後述す
るステップST141とステップST142の処理を、
i=1からNまで順にT回繰り返して実行する。なお、
その場合、iはi=Nの次はi=1となるものとする。
ステップST141では、各文書DOC−iについて、
その語句ベクトルDOC−Vector−iと各位置C
ELL(x,y)のセルの語句ベクトルCELL−Ve
ctor(x,y)との距離を計算し、その距離が最小
のものをCELL(p,q)として、その位置のセルを
その文書DOC−iが所属する仮のセルとする。次にス
テップST142において、語句ベクトルDOC−Ve
ctor−iをV、語句ベクトルCELL−Vecto
r(x,y)をW(x,y)として、時刻tにおけるそ
のW(x,y)の値をW(x,y)(t)とした時、そ
のW(x,y)の値を次の(2)式に従って更新する。
【0025】
【数1】
【0026】ここで、上記(2)式において、Norm
alize()はベクトルの長さを正規化する関数であ
り、HおよびΔは定数、α(t)はW(x,y)をVに
近づける程度を表す学習係数である。この学習係数α
(t)は、時刻tが進むに従ってその大きさh(t)と
範囲δ(t)が減少し、t=Tの時刻に0となる。
【0027】ステップST140にて、このステップS
T141、ステップST142の処理がi=1からNま
で順にT回繰り返されるとステップST150に進み、
学習フェーズの一連の処理が終了する。
【0028】このステップST150にて学習フェーズ
が終了すると、次に分類フェーズが開始される。この分
類フェーズが開始されると、ステップST160におい
てまず、位置CELL(x,y)のセルに属する文書の
識別子ID−iを保存するためのリストをCELL−D
oc(x,y)として、そのリストCELL−Doc
(x,y)をnilに初期化する。次にステップST1
70に進んで、後述するステップST171の処理をi
=1からNまで繰り返して実行する。このステップST
171では、各文書DOC−iについて、その語句ベク
トルDOC−Vector−iと各位置CELL(x,
y)のセルの語句ベクトルCELL−Vector
(x,y)との距離を計算し、それが最小であるセルの
位置がCELL(p,q)であった場合に、リストCE
LL−Doc(p,q)にその文書DOC−iの識別子
ID−iを追加する。
【0029】ステップST170にて、このステップS
T171の処理がi=1からNまで繰り返されるとステ
ップST180に進み、この分類フェーズの一連の処理
が終了する。なお、このようにして得られたリストCE
LL−Doc(x,y)に属する文書が自動分類された
文書クラスタである。
【0030】なお、上記実施例1では、最初に与えられ
た文書集合に属する文書DOC−iを自動的に分類する
ものについて説明したが、学習フェーズが終了した後、
未知の文書についてもステップST130と同様の方法
でその文書の語句ベクトルを作成し、ステップST17
1と同様の方法でその文書の属するセルを定めて分類に
追加することにより、未知の文書を与えられた文書集合
の自動分類と同一の基準で分類することが可能となる。
【0031】さらに、この実施例1では、文書は1つの
クラスタに分類されるものとして説明したが、図2のス
テップST171において、各位置CELL(x,y)
のセルの語句ベクトルCELL−Vector(x,
y)と各文書DOC−iの語句ベクトルDOC−Vec
tor−iとの距離が一定の値以下の位置CELL
(x,y)のセルにすべての文書DOC−iが所属する
ものとして、リストCELL−Doc(x,y)にそれ
らの文書の識別子ID−iを追加することにより、文書
が複数のクラスタに分類されるようにすることも可能で
ある。
【0032】また、図2のステップST171で、各位
置CELL(x,y)のセルの語句ベクトルCELL−
Vector(x,y)と各文書DOC−iの語句ベク
トルDOC−Vector−iとの距離が小さいものか
ら一定数の位置CELL(x,y)のセルにすべての文
書DOC−iが所属するものとして、リストCELL−
Doc(x,y)にそれらの文書の識別子ID−iを追
加することによっても、文書が複数のクラスタに分類さ
れるようにすることが可能である。
【0033】また、図2のステップST171で、各位
置CELL(x,y)のセルの語句ベクトルCELL−
Vector(x,y)と各文書DOC−iの語句ベク
トルDOC−Vector−iとの距離の分布を計算し
て、ローカルミニマムとなる位置CELL(x,y)の
セルに全ての文書DOC−iが所属するものとして、リ
ストCELL−Doc(x,y)にそれらの文書の識別
子ID−iを追加することによっても、文書が複数のク
ラスタに分類されるようにすることが可能である。
【0034】実施例2.実施例2はこの発明の文書の自
動分類方法に関する他の実施例であり、上記実施例1で
は学習係数が語句の文書集合内での出現の仕方に関係な
く一定であったのに対して、語句の文書集合内での出現
の仕方に依存して学習係数を変化させている。なお、そ
の学習係数の変化のさせ方については、例えば、ある語
句word−iが出現する文書の数をNiとするとき、
学習フェーズの初期の段階ではNiが大きな語句の学習
係数を、Niが小さな語句のそれよりも大きくしてお
き、学習が進むにつれてNiの小さな語句の方がNiの
大きな語句よりも学習係数が大きくなるようにする。こ
のように学習させることによって、Niの大きな一般的
な語句の要因を早く学習させることができるようにな
り、文書のクラスタの階層性と文書クラスタの属するセ
ルの領域の包含関係が対応したものとなる。
【0035】ここで、この実施例2の文書の自動分類方
法における学習フェーズおよび分類フェーズでの処理の
流れは、図1および図2のフローチャートに示した実施
例1の場合と同様である
【0036】
【0037】
【0038】
【0039】実施例3.図3はこの発明による情報空間
の可視化方法の一実施例における処理の流れを示すフロ
ーチャートであり、図4は2次元に配置されたセルの配
置例を示す説明図、図5は可視化された情報空間の表示
例を示す説明図である。この図4および図5において、
5は2次元に配置されたセルであり、図4においてはそ
の各々が配置されている位置がCELL(0,0),C
ELL(0,1),・・・・,CELL(3,3)で表
されている。また、図5において、6はセル5を代表す
る語句としてそのセル5内に表示された意味のある文字
列であり、隣り合ったセル5の間で代表する語句が同一
である場合にはその境界線を消去し、それに1つの文字
列6を表示している。なお、図4では各セル5が6角形
であるものを示したが、4角形など他の形状であっても
さしつかえない。
【0040】次にその動作を図3のフローチャートに従
って説明する。まず、図1に示した実施例1あるいは実
施例2の学習フェーズが終了した後、各位置CELL
(x,y)のセル5の語句ベクトルCELL−Vect
or(x,y)の語句をその値の順にソートする。次に
ステップST210に進み、その値の大きい順に、あら
かじめ定められた数の語句を選択して、それをその位置
CELL(x,y)のセル5を代表する語句とする。次
にステップST220において、その選択された語句の
文字列6をそれぞれの位置CELL(x,y)のセル5
に表示する。
【0041】以下、この文字列6の表示を図5に従って
具体的に説明する。図5は国際特許分類のサブクラスG
06Fに分類されている特許文書に関して、同一出願人
の特許文書41件について自動分類し、その情報空間を
可視化した場合の表示例を示したものであり、各位置C
ELL(x,y)のセル5の語句ベクトルCELL−V
ector(x,y)の値が最大の語句を1つだけ選択
し、その語句の文字列6を各セル5に表示したものであ
る。なお、この図5においては、表示を見やすくするた
め、隣接するセル5の相互で代表する語句が同一である
場合には、その境界線を消すとともに、その中に文字列
6を1つだけ表示するようにしている。例えば、図5の
右下のセル5とその左隣のセル5とは代表する語句が同
一であるため、両者の間の境界線が消去され、その一方
(右下隅のセル5)にのみ共通の文字列6として「処理
装置」が表示されている。
【0042】また、この図5では、その右上の部分に
「CPU」、「プロセッサ」、「プログラム」などの関
係の深い語句の文字列6が表示されたセル5が配置され
ており、左上の部分には「ディスク装置」、「記憶装
置」という関係の深い語句の文字列6が表示されたセル
5が配置されている。さらに、その下側には「電力系
統」と「知識ベース」の文字列6が表示されたセル5が
隣接して配置されているが、これは電力系統の監視に知
識ベースを持つエキスパートシステムが利用されている
ことが推測できる。このように、この実施例3の情報空
間の可視化方法によれば、それぞれの代表的な語句の関
連が深いセル5が互いに近くになるように配置されて可
視化されることとなる。
【0043】なお、この実施例3では、それぞれの位置
CELL(x,y)の語句ベクトルCELL−Vect
or(x,y)の値が最大の語句を1つ選んで、その文
字列6を該当するセル5に表示する場合について説明し
たが、語句ベクトルCELL−Vector(x,y)
の値の大きいものから順に一定個数の語句を選択して、
その文字列6を表示するようにしても、また、語句ベク
トルCELL−Vector(x,y)の値が一定値以
上のものをすべて表示するようにしてもよい。なお、そ
の場合、語句ベクトルCELL−Vector(x,
y)の値に応じて語句の重要度が区別できるように、文
字列6の大きさや書体、さらには表示色などの文字属性
を変えるようにしてもよい。
【0044】さらに、各語句word−jの各位置CE
LL(x,y)のセルでの語句ベクトルCELL−Ve
ctor(x,y)の値をグラフとして表示するように
してもよく、また語句word−jの各位置CELL
(x,y)のセルでの値の分布を計算して、ローカルマ
キシマムとなるセル5の位置CELL(x,y)にその
語句word−jを表示するようにしてもよい。
【0045】実施例4.図6はこの発明による情報空間
の可視化方法の他の実施例における処理の流れを示すフ
ローチャートであり、図7は可視化された情報空間の表
示例を示す説明図である。図7において、5はセルであ
り、7はそのセル5を代表する語句である。また、8は
隣接するセル5間の境界線で、セル5を代表する語句ベ
クトルCELL−Vector(x,y)の距離によ
り、その属性が変えられて表示されるものである。
【0046】次にその動作を図6のフローチャートに従
って説明する。まずステップST300において、互い
に隣接したセル5をそれぞれセルa、セルbとしたと
き、それらの境界をEDGE(a,b)とする。次にス
テップST310で、すべての境界EDGE(a,b)
について、セルaの語句ベクトルCELL−Vecto
r(ax,ay)とセルbの語句ベクトルCELL−V
ector(bx,by)の距離を計算する。次にステ
ップST320に進んで、ステップST310で算出さ
れた各境界EDGE(a,b)における距離の値を、そ
の最大値のものが1となるように正規化する。次にステ
ップST330で、各境界EDGE(a,b)を示す境
界線8の属性値を、その境界EDGE(a,b)の距離
の値に従って、あらかじめ定めておいた種類や太さなど
を表すものに割り当てる。次にステップST340にお
いて、セルaとセルbの境界EDGE(a,b)の境界
線8を、その割り当てられた属性によって表示し、ステ
ップST350にて一連の処理を終了する。
【0047】以下、この境界線8の表示を図7を用いて
具体的に説明する。ここでは説明を簡単化するため、境
界線8の属性の種類は太線と破線の2種類とし、太線は
隣り合うセルaの語句ベクトルCELL−Vector
(ax,ay)とセルbの語句ベクトルCELL−Ve
ctor(bx,by)の距離が大きく、破線はその距
離が小さいことを表すものとする。ここで、位置CEL
L(x,y)のセル5における代表的な語句7をWOR
Dxyとすると、図7は次のことを表していると解釈で
きる。まず、可視化された情報空間が大きく分けて3つ
の領域に別れている。すなわち、第1の領域は位置CE
LL(0,2)、CELL(1,2)、CELL(0,
3)およびCELL(1,3)の4つのセル5による領
域である。第2の領域は位置CELL(0,0)、CE
LL(1,0)、CELL(2,0)、CELL(3,
0)、CELL(0,1)、CELL(1,1)、CE
LL(2,1)、CELL(2,2)、CELL(3,
2)、CELL(2,3)およびCELL(3,3)の
11個のセル5による領域である。第3の領域は位置C
ELL(3,1)の1つのセル5による領域である。
【0048】また、第1の領域の各セル5を代表する語
句7であるWORD02、WORD12、WORD03
およびWORD13は互いに連想関係にあり、それぞれ
のセル5に対応する文書も内容が近い。一方、WORD
02とWORD01で代表されるセル5、WORD12
とWORD01で代表されるセル5、WORD12とW
ORD11で代表されるセル5、WORD12とWOR
D22で代表されるセル5、WORD13とWORD2
2で代表されるセル5、WORD13とWORD23で
代表されるセル5は互いに隣接していても、対応する文
書は近い関係にはない。さらに第2の領域内において
も、WORD01とWORD10で代表されるセル5、
およびWORD11とWORD10で代表されるセル5
は近い関係にあるが、WORD01とWORD11で代
表されるセル5は隣接していても近い関係にはない。
【0049】実施例5.図8はこの発明による情報検索
システムの一実施例の機能構成を示す構成図である。図
において、1は文書データベース、2は情報検索部、3
は検索条件入力部、4は検索結果表示部であり、これら
は図13に同一符号を付した従来のそれらと同一、もし
くは相当部分であるためその説明を省略する。
【0050】また、9は情報検索部2によって検索され
た文書集合を格納するための検索結果格納部であり、1
0はこの検索結果格納部9に格納された文書集合を対象
にして、請求項1または2に記載された文書の自動分類
方法に従って文書の自動分類を行う自動分類部、11は
請求項3または4に記載された情報空間の可視化方法に
従って、この自動分類部10で自動分類された文書クラ
スタの代表する語句を2次元に視覚化する情報空間可視
化部である。12はこの情報空間可視化部11によって
視覚化された2次元の位置を指定することによって、自
動分類された文書の中から特定の文書の選択を行う文書
選択部であり、13はこの文書選択部12によって選択
された文書の内容を検索結果格納部9より取り出して表
示する文書内容表示部である。
【0051】次に動作について説明する。ここで、図9
はこの実施例5による情報検索システムの処理の流れを
示すフローチャートである。まず、ステップST400
において、検索条件入力部3より検索条件を入力する。
この検索条件はキーワードの論理積や論理和によるもの
である。次にステップST410において、情報検索部
2が文書データベース1を検索してその検索条件に合う
文書を抽出し、ステップST420でその検索結果を検
索結果表示部4に表示する。なお、この検索結果は通常
は検索条件に該当する文書の数であり、必要に応じて文
書のタイトルや概要なども表示することがある。次にス
テップST430に進み、情報検索部2で検索された文
書が、内容および数の観点から見て、検索の初期の目的
を満たしているか否かを利用者が判断する。その結果、
初期の目的を満たしていなければステップST400に
戻り、新たな検索条件で再検索を行う。
【0052】一方、初期の目的を満たしている場合に
は、ステップST440にて検索結果の文書集合を検索
結果格納部9に格納する。次にステップST450に進
み、検索結果格納部9に格納されている文書集合を対象
に、自動分類部10で文書の自動分類を行う。なお、こ
の文書の自動分類は実施例1もしくは実施例2で説明し
た文書の自動分類方法によって実現される。次にステッ
プST460で情報空間可視化部11によって、自動分
類部10が前述のようにして自動分類した情報空間を、
代表的な語句で関連の深いものが近くにくるように配置
されたキーワードマップの形に可視化表示する。なお、
この情報空間の可視化も実施例3もしくは実施例4で説
明した情報空間の可視化方法によって実現される。
【0053】次にステップST470において、利用者
がこの情報空間可視化部11によって可視化されたキー
ワードマップを参照して、文書選択部12にて関心のあ
るセルを選択する。セルが選択されると処理はステップ
ST480に進み、選択されたセルに対応する文書集合
がタイトルリストの形で表示される。次にステップST
490において、利用者がこのタイトルリストの形で表
示された文書集合を参照し、文書選択部12にて関心の
ある文書を1つ選択する。文書が選択されると処理はス
テップST500に進み、文書内容表示部13は文書結
果格納部9より選択された文書の内容を取り出して表示
する。次にステップST510において、利用者が文書
内容表示部13に表示された文書の内容を参照し、満足
するものであるか否かを判断する。その結果、満足でき
るものであった場合にはステップST520に進み、一
連の処理を終了する。
【0054】一方、満足できるものではなかった場合に
は、ステップST490に戻って表示されているタイト
ルリストの中から別の文書を指定してその内容を参照し
たり、ステップST470に戻ってキーワードマップの
別のセルを選択する。このようにして、利用者はキーワ
ードマップで可視化された情報空間を見ながら、満足す
るまで検索を繰り返す。なお、文書データベース1の大
きさが小さい場合には、検索結果格納部9は文書データ
ベース1で代用することも可能である。また、ステップ
ST520での終了は、選択された検索結果の文書集合
を対象とした自動分類、情報空間可視化に対するもので
あり、満足するものがなかった場合にはステップST4
00に戻り、新たな検索条件を検索条件入力部3に入力
する。
【0055】次に、ステップST460からST500
までの処理を図について詳細に説明する。図10はこの
実施例5による情報検索システムの実行時のスナップシ
ョットを示す説明図であり、図中、14は情報空間可視
化部11で可視化されたキーワードマップがステップS
T460において表示されるウィンドウ、15は選択さ
れたセルに対応する文書のタイトルリストがステップS
T480において表示されるウィンドウ、16は選択さ
れた文書の内容がステップST500において表示され
るウィンドウである。
【0056】ウィンドウ14に表示されたキーワードマ
ップの中の「レジスタ」と表示されているセルを、利用
者がマウスなどでポインティングすることによって選択
すると、そのセルに対応する自動分類された文書クラス
タの文書のタイトルリストがウィンドウ15に表示され
る。この例では、「マイクロコンピュータ」というタイ
トルの文書と、「データ処理回路」というタイトルの文
書がクラスタになっていたことがわかる。次に、このウ
ィンドウ15上で利用者が「マイクロコンピュータ」の
文書を、マウスなどでポインティングすることによって
選択すると、その文書の内容がウィンドウ16に表示さ
れる。利用者はこのウィンドウ16の表示を参照して、
それが満足するものであるか否かを判断する。
【0057】なお、この実施例5では、図9のステップ
ST470で利用者が関心のあるセルを選択して、ステ
ップST480で選択されたセルに対応する文書集合を
タイトルリストの形で表示した後、ステップST490
で利用者がそのタイトルリストを見て関心のある文書を
1つ選択し、ステップST500でその内容を表示する
ものについて説明したが、ステップST470で利用者
が選択したセルに対応する文書集合に含まれている文書
の数が1個、または表示画面の制約から決まる所定の個
数よりも小さい場合には、ステップST480およびS
T490を省略して文書の内容を表示するようにしても
よい。
【0058】また、上記実施例5では、文書データベー
ス1の規模が大きく、前処理として検索条件入力部3よ
り入力したキーワードによる検索条件により情報検索を
行って、自動分類や情報空間の可視化の対象となる文書
の数を絞り込んだ場合について示したが、文書データベ
ース1の規模が小さい場合には、文書データベース1の
内容をすべて検索結果格納部9に入れておき、ステップ
ST440からスタートするようにしてもよい。これは
ステップST400で文書データベース1のすべての文
書が該当する検索条件を入力し、ステップST430で
「YES」と判断したことに対応する。
【0059】さらに、検索条件入力部3に入力するキー
ワードの候補となるものを、文書内容表示部13に表示
されたテキストの文字列からあらかじめ抽出しておい
て、それを選択することにより簡易に入力できるように
してもよい。
【0060】また、ステップST470で利用者が関心
のあるセルを1つまたは複数個選択して、それらのセル
に対応する文書集合を検索結果格納部9に格納して、ス
テップST450に移れるようにしてもよい。
【0061】また、ステップST500で文書の内容を
表示するとき、情報空間可視化部11で可視化されたキ
ーワードマップのセルを代表する語句の文字列を、表示
色などの属性を変えて分かりやすく表示するようにして
もよい。
【0062】また、検索結果格納部9に格納された文書
集合のデータを文書データベース1のデータとして切り
替えられるようにしてもよい。
【0063】実施例6.図11はこの発明による情報検
索システムの他の実施例の機能構成を示す構成図で、相
当部分には図8と同一符号を付してその説明を省略す
る。図において、17は情報検索部2にて検索され、検
索結果格納部9に格納された文書集合の各文書の特定部
分を切り出して格納する文書分類選択格納部である。な
お、自動分類部10はこの文書分類選択格納部17に格
納されている文書の特定部分を入力テキストとして文書
の自動分類を行うものであり、情報空間可視化部11は
当該文書の特定部分を入力テキストとして自動分類され
た情報空間の可視化を行うものである。
【0064】次に動作について説明する。ここで、図1
2はこの実施例6による情報検索システムの処理の流れ
を示すフローチャートである。まず、ステップST40
0からステップST440において、図9に同一のステ
ップ番号を付した実施例5で説明したのと同様の処理が
実行される。その後ステップST441に進み、検索結
果格納部9に格納されている文書から、あらかじめ定め
られた特定部分を選択して切り出し、それを文書分類選
択格納部17に格納する。
【0065】この特定部分の選択の方法としては、文書
の種類に応じて、例えば文書の概要や前書きの第1段落
などを選択する。また文書記述のためのISO(Int
ernational Organization f
or Standardization:国際標準化機
構)標準である、SGML(Standard Gen
eralized Markup Language)
などの規格に準拠して作成されたタグ付きの文書では、
文書の連続した部分だけではなく、文書の連続していな
い複数の場所から選択することを自動的に行うこともで
きる。
【0066】次にステップST451において、自動分
類部10がこの文書分類選択格納部17に格納されてい
る文書集合を対象に、実施例1もしくは実施例2で説明
した文書の自動分類方法による文書の分類が行われる。
以下、ステップST460からステップST520にお
いて、図9に同一のステップ番号を付した実施例5で説
明したのと同様の処理が実行される。このように、この
実施例6では、検索結果格納部9の内容よりデータ量が
はるかに少ない文書分類選択格納部17の内容を用い
て、文書の自動分類および情報空間の可視化が行われる
ことになる。
【0067】なお、上記各実施例では、独立した文書を
対象とするものを示したが、文書が互いにリンクで結ば
れたハイパーテキストを対象としてもよく、上記実施例
と同様の効果を奏する。
【0068】また、上記各実施例では、1箇所のコンピ
ュータにデータベースとして蓄えられている文書を対象
としたものについて説明したが、コンピュータネットワ
ークによって接続された複数のコンピュータに分散して
蓄えられた文書を対象にしてもよく、上記実施例と同様
の効果を奏する。
【0069】
【発明の効果】以上のように、請求項1に記載の発明に
よれば、文書の語句ベクトルとセルの語句ベクトルの距
離が最小のセルをその文書の仮の所属セルとして、その
所属セルの語句ベクトルの値をその文書の語句ベクトル
の値に近付けるとともに、そのセル近傍のセルの語句ベ
クトルの値を、語句の文書集合での出現割合に依存して
近付ける割合を変化させ、文書のクラスタの階層性と文
書クラスタの所属するセルの領域の包含関係を対応させ
ながら、その文書の語句ベクトルへの近さの度合いに応
じて近付ける学習を行って、その学習の終了後に、各セ
ルの語句ベクトルと文書の語句ベクトルの距離が最小の
セルをその文書の所属セルとして、同じセルに所属する
文書を内容が類似した文書のクラスタと判断するように
構成したので、文書を語句のベクトルとして表現し、そ
のベクトル表現された文書を自動分類することが可能と
なり、内容の類似した文書を一括して見ることができる
文書の自動分類方法が得られる効果がある。また、語句
の文書集合での出現の分布に依存した学習を行わせるこ
とが可能となり、文書のクラスタの階層性と文書クラス
タの属するセルの領域の包含関係が対応した文書のクラ
スタを作成できる効果がある。
【0070】また、請求項2に記載の発明によれば、自
動分類された情報空間について、セルに対応する語句ベ
クトルの値が大きなものから一定数、もしくは所定の閾
値以上の語句をそのセルを代表する語句としてその文字
列を表示するように構成したので、自動分類された文書
集合を代表する語句を関連の深いセルが近くに配置され
るように表示して、文書集合の情報空間を可視化するこ
とが可能となって、文書集合全体の概要が分かりやすい
情報空間の可視化方法を得ることができ、さらに、どの
ようなキーワードがあるかを容易に知ることが可能とな
るばかりか、分類されたクラスタの相互関係が把握しや
すくなる効果がある。
【0071】また、請求項3に記載の発明によれば、
記文書の自動分類方法によって分類された文書集合の情
報空間を可視化する情報空間の可視化方法において、セ
ルに対応する語句ベクトルのうちの、値の大きなものか
ら一定数、もしくは所定の閾値以上の値を持つものを、
そのセルを代表する語句として、その文字列の表示を行
うにあたり、隣り合ったセルの境界線の属性を、セルに
対応する語句ベクトルの距離に応じて変化させて表示す
るように構成したので、自動分類された文書集合を代表
する語句を関連の深いセルが近くに配置されるように表
示して、文書集合の情報空間を可視化することが可能と
なって、文書集合全体の概要が分かりやすい情報空間の
可視化方法を得ることができ、さらに、どのようなキー
ワードがあるかを容易に知ることが可能となるばかり
か、分類されたクラスタの相互関係が把握しやすくなる
効果がある。
【0072】また、請求項4に記載の発明によれば、
書の語句ベクトルとセルの語句ベクトルの距離を計算し
て、それが最小となるものをその文書の仮の所属セルと
し、その所属セルの語句ベクトルの値をその文書の語句
ベクトルの値に近付けるとともに、そのセル近傍のセル
の語句ベクトルの値も、その文書の語句ベクトルへの近
さの度合いに応じて減じて近付ける処理を、所定回数も
しくは収束するまで繰り返し、その後、各セルの語句ベ
クトルと文書の語句ベクトルの距離が最小のセルをその
文書の所属セルとして、同じセルに所属する文書を内容
が類似した文書のクラスタと判断する文書の自動分類方
法によって分類された文書集合の情報空間を可視化する
情報空間の可視化方法において、セルに対応する語句ベ
クトルのうちの、値の大きなものから一定数、もしくは
所定の閾値以上の値を持つものを、そのセルを代表する
語句として、その文字列の表示を行うにあたり、隣り合
ったセルの境界線の属性を、セルに対応する語句ベクト
ルの距離に応じて変化させて表示するので、自動分類さ
れた文書集合を代表する語句を関連の深いセルが近くに
配置されるように表示して、文書集合の情報空間を可視
化することが可能となって、文書集合全体の概要が分か
りやすい情報空間の可視化方法を得ることができ、さら
に、どのようなキーワードがあるかを容易に知ることが
可能となるばかりか、分類されたクラスタの相互関係が
把握しやすくなる効果がある。また、隣り合ったセルの
類似度を判断することが容易となって、文書集合全体の
概要がより分かりやすいものとなり、また内容の似たク
ラスタの領域が分かりやすくなる効果がある。
【0073】また、請求項5に記載の発明によれば、情
報検索によって検索結果格納部に格納された文書集合を
対象に、請求項1に記載した文書の自動分類方法による
文書の自動分類を行い、自動分類された文書集合の情報
空間を、請求項2乃至請求項4のいずれか1項に記載し
た情報空間の可視化方法で視覚化し、視覚化された2次
元の位置指定によって選択した文書の内容を検索結果格
納部より取り出して表示するように構成したので、可視
化された情報空間のセルを指定してそのセルに属する文
書のリストを表示し、さらに表示されたリストの文書を
指定することによって所望の文書の内容を表示すること
が可能となり、検索された文書集合の全体概要を見なが
ら個々の文書の内容を確かめることができる情報検索シ
ステムが得られる効果がある。
【0074】また、請求項6に記載の発明によれば、検
索結果格納部内の文書の特定部分を切り出して文書分類
選択格納部に格納しておき、文書の自動分類および情報
空間の可視化をその文書の特定部分を入力テキストとし
て行うように構成したので、検索結果格納部よりはるか
にデータ量の少ない文書部分選択格納部の内容を用い
て、文書の自動分類および情報空間の可視化を行うこと
が可能となり、処理するデータ量が減ることによって処
理が高速化される効果がある。
【図面の簡単な説明】
【図1】 この発明の実施例1による文書の自動分類方
法の学習フェーズの処理の流れを示すフローチャートで
ある。
【図2】 上記実施例における分類フェーズの処理の流
れを示すフローチャートである。
【図3】 この発明の実施例3による情報空間の可視化
方法の処理の流れを示すフローチャートである。
【図4】 上記実施例におけるセルの配置例を示す説明
図である。
【図5】 上記実施例における可視化された情報空間の
表示例を示す説明図である。
【図6】 この発明の実施例4による情報空間の可視化
方法の処理の流れを示すフローチャートである。
【図7】 上記実施例における可視化された情報空間の
表示例を示す説明図である。
【図8】 この発明の実施例5による情報検索システム
の機能構成を示す構成図である。
【図9】 上記実施例の処理の流れを示すフローチャー
トである。
【図10】 上記実施例における実行時のスナップショ
ットを示す説明図である。
【図11】 この発明の実施例6による情報検索システ
ムの機能構成を示す構成図である。
【図12】 上記実施例の処理の流れを示すフローチャ
ートである。
【図13】 従来の情報検索システムの機能構成を示す
構成図である。
【符号の説明】
1 文書データベース、2 情報検索部、3 検索条件
入力部、4 検索結果表示部、5 セル、6 文字列、
8 境界線、9 検索結果格納部、10 自動分類部、
11 情報空間可視化部、12 文書選択部、13 文
書内容表示部、17 文書分類選択格納部。
フロントページの続き (56)参考文献 津高新一郎,自己組織化マップを用い たテキスト自動分類の試み,情報処理学 会全国大会講演論文集,日本,社団法人 情報処理学会,1993年3月26日,第46 回(4),4−187頁乃至4−188頁 銭晴 他,自己組織化マップと語彙索 引を用いたデータベースの抽象化機構, 情報処理学会研究報告 DBS,日本, 社団法人 情報処理学会,1994年7月22 日,VOL94.No.2,第163頁乃至 170頁 (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 G06N 3/00 JICSTファイル(JOIS)

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】 文書集合が与えられた時、その文書集合
    中の各文書を、その内容に応じて自動的に分類する文書
    の自動分類方法において、前記文書集合に含まれる、単
    語や句、節などの意味のある文字列による語句の中か
    ら、一定の条件で選んだ語句を構成要素として、文書集
    合中のある文書を、それが含む語句に対応する値をその
    語句の出現頻度をもとに定めた語句ベクトルとして表現
    し、前記文書の語句ベクトルと2次元に配置されたセル
    に対応する語句ベクトルの距離を計算して、その距離が
    最小のものをその文書が所属する仮のセルとし、当該セ
    ルの語句ベクトルの要素の値をその文書の語句ベクトル
    の要素の値に近付けるとともに、そのセルの近傍のセル
    の語句ベクトルの要素の値を、前記文書集合での語句の
    出現の割合に依存して、前記近傍のセルの語句ベクトル
    を文書の語句ベクトルに近付ける割合を変化させること
    により、文書のクラスタの階層性と文書クラスタの所属
    するセルの領域の包含関係を対応させながら、その文書
    の語句ベクトルに対する近傍の度合いに応じて減じて近
    付けることを、前記文書集合に含まれる文書について一
    定回数、もしくは収束するまで実行し、その後、各セル
    の語句ベクトルと文書の語句ベクトルとの距離を計算し
    て、その距離が最小のセルをその文書が所属する本来の
    セルとして、同じセルに所属する文書を内容が類似した
    文書のクラスタと判断することを特徴とする文書の自動
    分類方法。
  2. 【請求項2】 請求項1に記載の文書の自動分類方法に
    よって分類された文書集合の情報空間を可視化する情報
    空間の可視化方法において、セルに対応する語句ベクト
    ルのうちの、値の大きなものから一定数、もしくは所定
    の閾値以上の値を持つものを、そのセルを代表する語句
    として、その文字列の表示を行うことを特徴とする情報
    空間の可視化方法。
  3. 【請求項3】 請求項1に記載の文書の自動分類方法に
    よって分類された文書集合の情報空間を可視化する情報
    空間の可視化方法において、セルに対応する語句ベクト
    ルのうちの、値の大きなものから一定数、もしくは所定
    の閾値以上の値を持つものを、そのセルを代表する語句
    として、その文字列の表示を行うにあたり、隣り合った
    セルの境界線の属性を、セルに対応する語句ベクトルの
    距離に応じて変化させて表示することを特徴とする情報
    空間の可視化方法。
  4. 【請求項4】 文書集合が与えられた時、その文書集合
    中の各文書を、その内容に応じて自動的に分類する文書
    の自動分類方法において、前記文書集合に含まれる、単
    語や句、節などの意味のある文字列による語句の中か
    ら、一定の条件で選んだ語句を構成要素として、文書集
    合中のある文書を、それが含む語句に対応する値をその
    語句の出現頻度をもとに定めた語句ベクトルとして表現
    し、前記文書の語句ベクトルと2次元に配置されたセル
    に対応する語句ベクトルの距離を計算して、その距離が
    最小のものをその文書が所属する仮のセルとし、当該セ
    ルの語句ベクトルの要素の値をその文書の語句ベクトル
    の要素の値に近付けるとともに、そのセルの近傍のセル
    の語句ベクトルの要素の値も、その文書の語句ベクトル
    に対する近傍の度合いに応じて減じて近付けることを、
    前記文書集合に含まれる文書について一定回数、もしく
    は収束するまで実行し、その後、各セルの語句ベクトル
    と文書の語句ベクトルとの距離を計算して、その距離が
    最小のセルをその文書が所属する本来のセルとして、同
    じセルに所属する文書を内容が類似した文書のクラスタ
    と判断する文書の自動分類方法によって分類された文書
    集合の情報空間を可視化する情報空間の可視化方法にお
    いて、セルに対応する語句ベクトルのうちの、値の大き
    なものから一定数、もしくは所定の閾値以上の値を持つ
    ものを、そのセルを代表する語句として、その文字列の
    表示を行うにあたり、隣り合ったセルの境界線の属性
    を、セルに対応する語句ベクトルの距離に応じて変化さ
    せて表示することを特徴とする情報空間の可視化方法。
  5. 【請求項5】 複数の文書が格納された文書データベー
    スと、前記文書データベースより検索条件に該当する文
    書を検索抽出する情報検索部と、前記情報検索部に検索
    条件を入力する検索条件入力部と、前記情報検索部によ
    る検索結果を出力表示する検索結果表示部とを有する情
    報検索システムにおいて、前記情報検索部にて検索され
    た文書集合を格納する検索結果格納部と、前記検索結果
    格納部に格納された文書集合を対象に、請求項1に記載
    した文書の自動分類方法によって文書の自動分類を行う
    自動分類部と、前記自動分類部にて分類された文書集合
    の情報空間を、請求項2乃至請求項4のいずれか1項
    記載した情報空間の可視化方法によって視覚化する情報
    空間可視化部と、前記情報空間可視化部にて視覚化され
    た2次元の位置を指定することによって前記自動分類さ
    れた文書の選択を行い、それが複数ある場合にはその中
    の所定数の文書を選択する文書選択部と、前記文書選択
    部にて選択された文書の内容を前記検索結果格納部より
    取り出して表示する文書内容表示部を備えたことを特徴
    とする情報検索システム。
  6. 【請求項6】 前記検索結果格納部に格納された文書集
    合の各文書の特定部分を切り出して格納する文書分類選
    択格納部を設け、前記自動分類部が、前記文書の特定部
    分を入力テキストとして文書の自動分類を行うものであ
    り、前記情報空間可視化部が、前記文書の特定部分を入
    力テキストとして自動分類された情報空間の可視化を行
    うものであることを特徴とする請求項5に記載の情報検
    索システム。
JP06816095A 1995-03-27 1995-03-27 文書の自動分類方法、および情報空間の可視化方法、ならびに情報検索システム Expired - Lifetime JP3385297B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP06816095A JP3385297B2 (ja) 1995-03-27 1995-03-27 文書の自動分類方法、および情報空間の可視化方法、ならびに情報検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP06816095A JP3385297B2 (ja) 1995-03-27 1995-03-27 文書の自動分類方法、および情報空間の可視化方法、ならびに情報検索システム

Publications (2)

Publication Number Publication Date
JPH08263514A JPH08263514A (ja) 1996-10-11
JP3385297B2 true JP3385297B2 (ja) 2003-03-10

Family

ID=13365735

Family Applications (1)

Application Number Title Priority Date Filing Date
JP06816095A Expired - Lifetime JP3385297B2 (ja) 1995-03-27 1995-03-27 文書の自動分類方法、および情報空間の可視化方法、ならびに情報検索システム

Country Status (1)

Country Link
JP (1) JP3385297B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006028154A1 (ja) * 2004-09-09 2006-03-16 Kyoto University 情報管理システム、情報管理方法、情報管理プログラムおよびその記録媒体
CN107122444A (zh) * 2017-04-24 2017-09-01 北京科技大学 一种法律知识图谱自动构建方法

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3001460B2 (ja) 1997-05-21 2000-01-24 株式会社エヌイーシー情報システムズ 文書分類装置
JP3471199B2 (ja) * 1997-08-22 2003-11-25 株式会社東芝 索引生成装置及び方法並びに索引生成プログラムを記録した記録媒体
US7194471B1 (en) 1998-04-10 2007-03-20 Ricoh Company, Ltd. Document classification system and method for classifying a document according to contents of the document
JP3771047B2 (ja) * 1998-04-10 2006-04-26 株式会社リコー 文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3690266B2 (ja) * 2000-11-13 2005-08-31 日本電信電話株式会社 文書データベース作成方法及び装置及び文書データベース作成プログラムを格納した記憶媒体
JP2008204190A (ja) * 2007-02-20 2008-09-04 Oki Electric Ind Co Ltd 分類評価装置
KR100835291B1 (ko) * 2007-03-14 2008-06-10 엔에이치엔(주) 쿼리 타게팅 방법 및 시스템
JP4979528B2 (ja) * 2007-09-28 2012-07-18 日本電信電話株式会社 コンテンツ表示装置、コンテンツ表示方法、プログラムおよび記録媒体
JP5196569B2 (ja) * 2008-12-11 2013-05-15 日本電信電話株式会社 コンテンツ検索装置、コンテンツ検索方法及びプログラム
JP5250000B2 (ja) * 2010-08-31 2013-07-31 ヤフー株式会社 データ表示装置、データ表示制御方法及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
津高新一郎,自己組織化マップを用いたテキスト自動分類の試み,情報処理学会全国大会講演論文集,日本,社団法人 情報処理学会,1993年3月26日,第46回(4),4−187頁乃至4−188頁
銭晴 他,自己組織化マップと語彙索引を用いたデータベースの抽象化機構,情報処理学会研究報告 DBS,日本,社団法人 情報処理学会,1994年7月22日,VOL94.No.2,第163頁乃至170頁

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006028154A1 (ja) * 2004-09-09 2006-03-16 Kyoto University 情報管理システム、情報管理方法、情報管理プログラムおよびその記録媒体
CN107122444A (zh) * 2017-04-24 2017-09-01 北京科技大学 一种法律知识图谱自动构建方法

Also Published As

Publication number Publication date
JPH08263514A (ja) 1996-10-11

Similar Documents

Publication Publication Date Title
EP1678635B1 (en) Method and apparatus for automatic file clustering into a data-driven, user-specific taxonomy
US7840524B2 (en) Method and apparatus for indexing, searching and displaying data
US6772148B2 (en) Classification of information sources using graphic structures
US7185001B1 (en) Systems and methods for document searching and organizing
JP3577819B2 (ja) 情報探索装置及び情報探索方法
US6496820B1 (en) Method and search method for structured documents
US20020065845A1 (en) Information retrieval system
US8983965B2 (en) Document rating calculation system, document rating calculation method and program
JP4992243B2 (ja) 情報要素処理プログラム、情報要素処理方法及び情報要素処理装置
EP0615201A2 (en) Document detection system using detection result presentation for facilitating user's comprehension
US20050081146A1 (en) Relation chart-creating program, relation chart-creating method, and relation chart-creating apparatus
US20110295857A1 (en) System and method for aligning and indexing multilingual documents
US20030004932A1 (en) Method and system for knowledge repository exploration and visualization
CN109376352B (zh) 一种基于word2vec和语义相似度的专利文本建模方法
US5761666A (en) Document retrieval system
Nocaj et al. Organizing search results with a reference map
US20070288442A1 (en) System and a program for searching documents
JP2005526317A (ja) ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム
JP3385297B2 (ja) 文書の自動分類方法、および情報空間の可視化方法、ならびに情報検索システム
KR100396826B1 (ko) 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법
CN112148886A (zh) 一种内容知识图谱的构建方法及系统
KR100512275B1 (ko) 멀티미디어 객체의 특징 기술정보 생성방법
Eisenstein et al. Topicviz: Semantic navigation of document collections
JPH0844771A (ja) 情報検索装置
CN106934007B (zh) 关联信息的推送方法及装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071227

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081227

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091227

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091227

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101227

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111227

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111227

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121227

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121227

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131227

Year of fee payment: 11

EXPY Cancellation because of completion of term