JP3385297B2

JP3385297B2 - 文書の自動分類方法、および情報空間の可視化方法、ならびに情報検索システム

Info

Publication number: JP3385297B2
Application number: JP06816095A
Authority: JP
Inventors: 英一有田; 照昌安井; 新一郎津高
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1995-03-27
Filing date: 1995-03-27
Publication date: 2003-03-10
Anticipated expiration: 2018-03-10
Also published as: JPH08263514A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、文書情報を自動的に
分類する文書の自動分類方法、および分類された情報空
間を可視化する情報空間の可視化方法、ならびに可視化
された情報空間を参照して情報の検索を行う情報検索シ
ステムに関し、特に、内容の似た文書が近くに配置され
るように２次元のセルに配置し、そのセルを代表する語
句を表示して、文書情報の情報空間を一覧表示するとと
もに、文書データを簡単に検索できるようにして、ボト
ムアップ型の発想支援システムとして機能する情報検索
システムに関するものである。

【０００２】

【従来の技術】図１３は従来の情報検索システムの機能
構成を示す構成図である。図において、１は多量の文書
情報が格納されている文書データベースであり、２はこ
の文書データベース１より検索条件に該当した文書デー
タを検索抽出する情報検索部である。また、３はこの情
報検索部２にキーワードの論理和や論理積などによる検
索条件を入力する検索条件入力部であり、４は情報検索
部２より出力される、検索条件に該当した文書の数や、
必要に応じて該当する文書の見出しなどの検索結果を出
力表示する検索結果表示部である。

【０００３】次に動作について説明する。現在実用化さ
れている特許や科学技術文献などの文書情報を検索する
場合、まず、あらかじめ規定されているシソーラスに記
載された統制キーワードや、主として文書内に含まれて
いる語句である自由キーワードの論理積や論理和等によ
る検索式を作成し、それを検索条件として検索条件入力
部３より情報検索部２に入力する。情報検索部２は文書
データベース１を検索して、入力された検索条件に該当
する文書を抽出し、当該検索条件に合致した文書の数
や、必要に応じて検索された文書のタイトルや概要など
の検索結果を検索結果表示部４に出力表示する。

【０００４】なお、このようなこの発明に関連する従来
のベクトルの自動分類方法について記載された文献とし
ては、例えば「プロシーディングスオブザアイ・
トリプル・イー（ＰｒｏｃｅｅｄｉｎｇｓｏｆＴｈ
ｅＩＥＥＥ）」の第７８巻第９号（１９９０年９月）
の１４６４〜１４８０ページに掲載された論文「ザ、セ
ルフ・オーガナイジングマップ（ＴｈｅＳｅｌｆ−
ＯｒｇａｎｉｚｉｎｇＭａｐ）」などがある。

【０００５】

【発明が解決しようとする課題】従来の情報検索システ
ムは以上のように構成されているので、検索条件に該当
する文書が文書データベース全体の中でどのような位置
を占めるのか明らかでないため、検索された文書が適切
なものであるか否かの判断が困難であり、情報検索結果
が文書単位でリストとしてしか得られず、内容について
は順番に本文を参照していく必要があって、内容の似た
ものを一括して見るのが困難であるばかりか、文書デー
タベースの全体概要がわからず、文書があらかじめ定め
られた分類形態を基準に分類されていたとしても、分類
のクラスタの相互関係が不明であり、さらに文書データ
ベースにどのような自由キーワードがあるのかわからな
いなどの問題点があった。

【０００６】この発明は上記のような問題点を解消する
ためになされたもので、文書を自動分類して内容の近さ
を反映した２次元のセルとして配置し、各セルには分類
を代表するキーワードを表示することによって文書デー
タベースの全体構成を把握できるようにし、それを利用
して検索キーワードが容易に得られる情報検索システム
や、ボトムアップ型の発想支援システムとして機能する
情報検索システム、さらには、それに用いられる文書の
自動分類方法および情報空間の可視化方法を得ることを
目的とする。

【０００７】

【課題を解決するための手段】請求項１に記載の発明に
係る文書の自動分類方法は、文書の語句ベクトルとセル
の語句ベクトルの距離を計算して、それが最小となるも
のをその文書の仮の所属セルとし、その所属セルの語句
ベクトルの値をその文書の語句ベクトルの値に近付ける
とともに、そのセル近傍のセルの語句ベクトルの値を、
語句の文書集合での出現割合に依存して近付ける割合を
変化させ、文書のクラスタの階層性と文書クラスタの所
属するセルの領域の包含関係を対応させながら、その文
書の語句ベクトルへの近さの度合いに応じて減じて近付
ける処理を、所定回数もしくは収束するまで繰り返し、
その後、各セルの語句ベクトルと文書の語句ベクトルの
距離が最小のセルをその文書の所属セルとして、同じセ
ルに所属する文書を内容が類似した文書のクラスタと判
断するものである。

【０００８】また、請求項２に記載の発明に係る情報空
間の可視化方法は、セルに対応する語句ベクトルの値が
大きなものから一定数、もしくは所定の閾値以上の語句
を、そのセルを代表する語句とし、当該語句の文字列を
表示して、上記文書の自動分類方法によって分類された
文書集合の情報空間を可視化するものである。

【０００９】また、請求項３に記載の発明に係る情報空
間の可視化方法は、上記文書の自動分類方法によって分
類された文書集合の情報空間を可視化する情報空間の可
視化方法において、セルに対応する語句ベクトルのうち
の、値の大きなものから一定数、もしくは所定の閾値以
上の値を持つものを、そのセルを代表する語句として、
その文字列の表示を行うにあたり、隣り合ったセルの境
界線の属性を、セルに対応する語句ベクトルの距離に応
じて変化させて表示するものである。

【００１０】また、請求項４に記載の発明に係る情報空
間の可視化方法は、文書の語句ベクトルとセルの語句ベ
クトルの距離を計算して、それが最小となるものをその
文書の仮の所属セルとし、その所属セルの語句ベクトル
の値をその文書の語句ベクトルの値に近付けるととも
に、そのセル近傍のセルの語句ベクトルの値も、その文
書の語句ベクトルへの近さの度合いに応じて減じて近付
ける処理を、所定回数もしくは収束するまで繰り返し、
その後、各セルの語句ベクトルと文書の語句ベクトルの
距離が最小のセルをその文書の所属セルとして、同じセ
ルに所属する文書を内容が類似した文書のクラスタと判
断する文書の自動分類方法によって分類された文書集合
の情報空間を可視化する情報空間の可視化方法におい
て、セルに対応する語句ベクトルのうちの、値の大きな
ものから一定数、もしくは所定の閾値以上の値を持つも
のを、そのセルを代表する語句として、その文字列の表
示を行うにあたり、隣り合ったセルの境界線の属性を、
セルに対応する語句ベクトルの距離に応じて変化させて
表示するものである。

【００１１】また、請求項５に記載の発明に係る情報検
索システムは、情報検索部にて検索された文書集合を格
納する検索結果格納部、その文書集合を対象に、上記文
書の自動分類方法によって文書の自動分類を行う自動分
類部、分類された文書集合の情報空間を、上記情報空間
の可視化方法によって視覚化する情報空間可視化部、視
覚化された２次元の位置を指定することによって特定の
文書を選択する文書選択部、および、選択された文書の
内容を検索結果格納部より取り出して表示する文書内容
表示部を設けたものである。

【００１２】

【００１３】

【作用】請求項１に記載の発明における文書の自動分類
方法は、文書の語句ベクトルとセルの語句ベクトルの距
離が最小のセルをその文書の仮の所属セルとし、その所
属セルの語句ベクトルの値をその文書の語句ベクトルの
値に近付け、またそのセル近傍のセルの語句ベクトルの
値を、語句の文書集合での出現割合に依存して近付ける
割合を変化させ、文書のクラスタの階層性と文書クラス
タの所属するセルの領域の包含関係を対応させながら、
その文書の語句ベクトルへの近さの度合いに応じて近付
ける学習を行い、学習終了後、各セルの語句ベクトルと
文書の語句ベクトルの距離が最小のセルをその文書の所
属セルとして、同じセルに所属する文書を内容が類似し
た文書のクラスタと判断することにより、内容が類似し
た文書を一括して参照可能とする。また、文書のクラス
タの階層性と文書クラスタの所属するセルの領域の包含
関係が対応した文書のクラスタが作成される。

【００１４】また、請求項２に記載の発明における情報
空間の可視化方法は、セルに対応する語句ベクトルの値
が大きなものから一定数、もしくは所定の閾値以上の語
句をそのセルを代表する語句としてその語句の文字列を
表示することにより、文書集合全体の概要が分かりやす
い情報空間の可視化を可能とする。

【００１５】また、請求項３に記載の発明における情報
空間の可視化方法は、上記文書の自動分類方法によって
分類された文書集合の情報空間を可視化する情報空間の
可視化方法において、セルに対応する語句ベクトルのう
ちの、値の大きなものから一定数、もしくは所定の閾値
以上の値を持つものを、そのセルを代表する語句とし
て、その文字列の表示を行うにあたり、隣り合ったセル
の境界線の属性を、セルに対応する語句ベクトルの距離
に応じて変化させて表示することにより、文書集合全体
の概要が分かりやすい情報空間の可視化を可能とする。

【００１６】また、請求項４に記載の発明における情報
空間の可視化方法は、文書の語句ベクトルとセルの語句
ベクトルの距離を計算して、それが最小となるものをそ
の文書の仮の所属セルとし、その所属セルの語句ベクト
ルの値をその文書の語句ベクトルの値に近付けるととも
に、そのセル近傍のセルの語句ベクトルの値も、その文
書の語句ベクトルへの近さの度合いに応じて減じて近付
ける処理を、所定回数もしくは収束するまで繰り返し、
その後、各セルの語句ベクトルと文書の語句ベクトルの
距離が最小のセルをその文書の所属セルとして、同じセ
ルに所属する文書を内容が類似した文書のクラスタと判
断する文書の自動分類方法によって分類された文書集合
の情報空間を可視化する情報空間の可視化方法におい
て、セルに対応する語句ベクトルのうちの、値の大きな
ものから一定数、もしくは所定の閾値以上の値を持つも
のを、そのセルを代表する語句として、その文字列の表
示を行うにあたり、隣り合ったセルの境界線の属性を、
セルに対応する語句ベクトルの距離に応じて変化させて
表示するので、内容の似たクラスタの領域が分かりやす
い情報空間の可視化を可能とする。

【００１７】また、請求項５に記載の発明における情報
検索システムは、情報検索によって得られた検索結果格
納部内の文書集合を対象に、上記文書の自動分類方法を
用いて文書の自動分類を行い、その自動分類された文書
集合の情報空間を、上記情報空間の可視化方法によって
視覚化し、視覚化された２次元の位置を指定することに
よって選択した文書の内容を、検索結果格納部より取り
出して文書内容表示部に表示することにより、検索され
た文書集合の全体概要を見ながら個々の文書の内容を確
かめることを可能にする。

【００１８】

【００１９】

【実施例】

実施例１．以下、この発明の一実施例を図について説明
する。図１はこの発明による文書の自動分類方法の一実
施例における学習フェーズの処理の流れを示すフローチ
ャートであり、図２は同じく分類フェーズの処理の流れ
を示すフローチャートである。このように、この実施例
１による文書の自動分類方法は学習フェーズと分類フェ
ーズとから成っており、以下、まず学習フェーズの動作
について説明し、次に分類フェーズの動作について説明
する。なお、この明細書中における「語句」という表現
は、名詞、動詞などの通常の単語、および句や節など、
テキストに含まれる意味のある文字列を表すものであ
る。

【００２０】学習フェーズが開始されると、まずステッ
プＳＴ１００において、文書ＤＯＣ−１，ＤＯＣ−２，
・・・・，ＤＯＣ−ｉ，・・・・，ＤＯＣ−Ｎによって
構成される文書集合ＤＯＣＵＭＥＮＴＳに含まれている
異なった語句のリストを求めて、それを語句リストＷＯ
ＲＤ−ＬＩＳＴとする。次にステップＳＴ１１０におい
て、ノイズを削減するために、前記語句リストＷＯＲＤ
−ＬＩＳＴの語句中より重要なもののみを選んで、それ
を語句リストＷＯＲＤ−ＬＩＳＴ２とする。例えば、出
現頻度の高いものは一般的な語句であるため、分類とい
う観点からは重要ではなく、また、出現頻度の低いもの
は特殊な語句であることが多く、これも分類という観点
からは重要ではない。そこで、このステップＳＴ１１０
では、語句リストＷＯＲＤ−ＬＩＳＴの各語句が文書集
合ＤＯＣＵＭＥＮＴＳ中に含まれる頻度を数え、頻度が
第１の閾値ＦＲＱＵＥＮＣＹ−ＬＯＷ以下の語句と頻度
が第２の閾値ＦＲＱＵＥＮＣＹ−ＨＩＧＨ以上の語句を
語句リストＷＯＲＤ−ＬＩＳＴの語句中より除き、それ
を語句リストＷＯＲＤ−ＬＩＳＴ２とする。なお、この
ようにして作成された語句リストＷＯＲＤ−ＬＩＳＴ２
は、語句ｗｏｒｄ−１，ｗｏｒｄ−２，・・・・，ｗｏ
ｒｄ−ｉ，・・・・，ｗｏｒｄ−ｎから構成されている
ものとする。

【００２１】次にステップＳＴ１２０において、２次元
に配置されたセルの位置をＣＥＬＬ（ｘ，ｙ）とし、語
句リストＷＯＲＤ−ＬＩＳＴ２を要素とする語句ベクト
ルＣＥＬＬ−Ｖｅｃｔｏｒ（ｘ，ｙ）を位置ＣＥＬＬ
（ｘ，ｙ）のセルに対応するベクトルとする。なお、各
語句ｗｏｒｄ−ｉの初期値は乱数などを使って任意の値
にする。ただし、語句ベクトルは単位長に正規化する。
次にステップＳＴ１３０に進み、文書集合ＤＯＣＵＭＥ
ＮＴＳの各文書ＤＯＣ−ｉについて、語句リストＷＯＲ
Ｄ−ＬＩＳＴ２を要素とする語句ベクトルＤＯＣ−Ｖｅ
ｃｔｏｒ−ｉを作成する。語句ベクトルＤＯＣ−Ｖｅｃ
ｔｏｒ−ｉの各語句ｗｏｒｄ−ｊの値Ｖｉｊは、文書に
出現する回数が多いほど重要と考えられ、またその語
句が出現する文書の数が少ないほど分類という観点から
は重要であるので、そのような語句ほど値が大きくなる
ように、例えば次に示す（１）式によってその値を設定
する。

【００２２】Ｖｉｊ＝Ｆｉｊ×ｌｏｇ（Ｎ／Ｎｊ）・・・・・（１）

【００２３】ただし、上記（１）式において、Ｆｉｊは
語句ｗｏｒｄ−ｊが文書ＤＯＣ−ｉに出現する頻度、Ｎ
は文書集合ＤＯＣＵＭＥＮＴＳの文書数、Ｎｊは語句ｗ
ｏｒｄ−ｊを含む文書の数である。従って、語句ｗｏｒ
ｄ−ｊが文書集合ＤＯＣＵＭＥＮＴＳのすべての文書に
出現する場合は、Ｎｊ＝Ｎとなってｌｏｇ（Ｎ／Ｎｊ）
＝０となるため、Ｖｉｊも０となる。これは分類という
観点では、すべての文書に出現する語句は、その語句の
有無によって文書を分けることができないため、その語
句の重要度は０であることを表現している。

【００２４】次にステップＳＴ１４０に進んで、後述す
るステップＳＴ１４１とステップＳＴ１４２の処理を、
ｉ＝１からＮまで順にＴ回繰り返して実行する。なお、
その場合、ｉはｉ＝Ｎの次はｉ＝１となるものとする。
ステップＳＴ１４１では、各文書ＤＯＣ−ｉについて、
その語句ベクトルＤＯＣ−Ｖｅｃｔｏｒ−ｉと各位置Ｃ
ＥＬＬ（ｘ，ｙ）のセルの語句ベクトルＣＥＬＬ−Ｖｅ
ｃｔｏｒ（ｘ，ｙ）との距離を計算し、その距離が最小
のものをＣＥＬＬ（ｐ，ｑ）として、その位置のセルを
その文書ＤＯＣ−ｉが所属する仮のセルとする。次にス
テップＳＴ１４２において、語句ベクトルＤＯＣ−Ｖｅ
ｃｔｏｒ−ｉをＶ、語句ベクトルＣＥＬＬ−Ｖｅｃｔｏ
ｒ（ｘ，ｙ）をＷ（ｘ，ｙ）として、時刻ｔにおけるそ
のＷ（ｘ，ｙ）の値をＷ（ｘ，ｙ）（ｔ）とした時、そ
のＷ（ｘ，ｙ）の値を次の（２）式に従って更新する。

【００２５】

【数１】

【００２６】ここで、上記（２）式において、Ｎｏｒｍ
ａｌｉｚｅ（）はベクトルの長さを正規化する関数であ
り、ＨおよびΔは定数、α（ｔ）はＷ（ｘ，ｙ）をＶに
近づける程度を表す学習係数である。この学習係数α
（ｔ）は、時刻ｔが進むに従ってその大きさｈ（ｔ）と
範囲δ（ｔ）が減少し、ｔ＝Ｔの時刻に０となる。

【００２７】ステップＳＴ１４０にて、このステップＳ
Ｔ１４１、ステップＳＴ１４２の処理がｉ＝１からＮま
で順にＴ回繰り返されるとステップＳＴ１５０に進み、
学習フェーズの一連の処理が終了する。

【００２８】このステップＳＴ１５０にて学習フェーズ
が終了すると、次に分類フェーズが開始される。この分
類フェーズが開始されると、ステップＳＴ１６０におい
てまず、位置ＣＥＬＬ（ｘ，ｙ）のセルに属する文書の
識別子ＩＤ−ｉを保存するためのリストをＣＥＬＬ−Ｄ
ｏｃ（ｘ，ｙ）として、そのリストＣＥＬＬ−Ｄｏｃ
（ｘ，ｙ）をｎｉｌに初期化する。次にステップＳＴ１
７０に進んで、後述するステップＳＴ１７１の処理をｉ
＝１からＮまで繰り返して実行する。このステップＳＴ
１７１では、各文書ＤＯＣ−ｉについて、その語句ベク
トルＤＯＣ−Ｖｅｃｔｏｒ−ｉと各位置ＣＥＬＬ（ｘ，
ｙ）のセルの語句ベクトルＣＥＬＬ−Ｖｅｃｔｏｒ
（ｘ，ｙ）との距離を計算し、それが最小であるセルの
位置がＣＥＬＬ（ｐ，ｑ）であった場合に、リストＣＥ
ＬＬ−Ｄｏｃ（ｐ，ｑ）にその文書ＤＯＣ−ｉの識別子
ＩＤ−ｉを追加する。

【００２９】ステップＳＴ１７０にて、このステップＳ
Ｔ１７１の処理がｉ＝１からＮまで繰り返されるとステ
ップＳＴ１８０に進み、この分類フェーズの一連の処理
が終了する。なお、このようにして得られたリストＣＥ
ＬＬ−Ｄｏｃ（ｘ，ｙ）に属する文書が自動分類された
文書クラスタである。

【００３０】なお、上記実施例１では、最初に与えられ
た文書集合に属する文書ＤＯＣ−ｉを自動的に分類する
ものについて説明したが、学習フェーズが終了した後、
未知の文書についてもステップＳＴ１３０と同様の方法
でその文書の語句ベクトルを作成し、ステップＳＴ１７
１と同様の方法でその文書の属するセルを定めて分類に
追加することにより、未知の文書を与えられた文書集合
の自動分類と同一の基準で分類することが可能となる。

【００３１】さらに、この実施例１では、文書は１つの
クラスタに分類されるものとして説明したが、図２のス
テップＳＴ１７１において、各位置ＣＥＬＬ（ｘ，ｙ）
のセルの語句ベクトルＣＥＬＬ−Ｖｅｃｔｏｒ（ｘ，
ｙ）と各文書ＤＯＣ−ｉの語句ベクトルＤＯＣ−Ｖｅｃ
ｔｏｒ−ｉとの距離が一定の値以下の位置ＣＥＬＬ
（ｘ，ｙ）のセルにすべての文書ＤＯＣ−ｉが所属する
ものとして、リストＣＥＬＬ−Ｄｏｃ（ｘ，ｙ）にそれ
らの文書の識別子ＩＤ−ｉを追加することにより、文書
が複数のクラスタに分類されるようにすることも可能で
ある。

【００３２】また、図２のステップＳＴ１７１で、各位
置ＣＥＬＬ（ｘ，ｙ）のセルの語句ベクトルＣＥＬＬ−
Ｖｅｃｔｏｒ（ｘ，ｙ）と各文書ＤＯＣ−ｉの語句ベク
トルＤＯＣ−Ｖｅｃｔｏｒ−ｉとの距離が小さいものか
ら一定数の位置ＣＥＬＬ（ｘ，ｙ）のセルにすべての文
書ＤＯＣ−ｉが所属するものとして、リストＣＥＬＬ−
Ｄｏｃ（ｘ，ｙ）にそれらの文書の識別子ＩＤ−ｉを追
加することによっても、文書が複数のクラスタに分類さ
れるようにすることが可能である。

【００３３】また、図２のステップＳＴ１７１で、各位
置ＣＥＬＬ（ｘ，ｙ）のセルの語句ベクトルＣＥＬＬ−
Ｖｅｃｔｏｒ（ｘ，ｙ）と各文書ＤＯＣ−ｉの語句ベク
トルＤＯＣ−Ｖｅｃｔｏｒ−ｉとの距離の分布を計算し
て、ローカルミニマムとなる位置ＣＥＬＬ（ｘ，ｙ）の
セルに全ての文書ＤＯＣ−ｉが所属するものとして、リ
ストＣＥＬＬ−Ｄｏｃ（ｘ，ｙ）にそれらの文書の識別
子ＩＤ−ｉを追加することによっても、文書が複数のク
ラスタに分類されるようにすることが可能である。

【００３４】実施例２．実施例２はこの発明の文書の自
動分類方法に関する他の実施例であり、上記実施例１で
は学習係数が語句の文書集合内での出現の仕方に関係な
く一定であったのに対して、語句の文書集合内での出現
の仕方に依存して学習係数を変化させている。なお、そ
の学習係数の変化のさせ方については、例えば、ある語
句ｗｏｒｄ−ｉが出現する文書の数をＮｉとするとき、
学習フェーズの初期の段階ではＮｉが大きな語句の学習
係数を、Ｎｉが小さな語句のそれよりも大きくしてお
き、学習が進むにつれてＮｉの小さな語句の方がＮｉの
大きな語句よりも学習係数が大きくなるようにする。こ
のように学習させることによって、Ｎｉの大きな一般的
な語句の要因を早く学習させることができるようにな
り、文書のクラスタの階層性と文書クラスタの属するセ
ルの領域の包含関係が対応したものとなる。

【００３５】ここで、この実施例２の文書の自動分類方
法における学習フェーズおよび分類フェーズでの処理の
流れは、図１および図２のフローチャートに示した実施
例１の場合と同様である。

【００３６】

【００３７】

【００３８】

【００３９】実施例３．図３はこの発明による情報空間
の可視化方法の一実施例における処理の流れを示すフロ
ーチャートであり、図４は２次元に配置されたセルの配
置例を示す説明図、図５は可視化された情報空間の表示
例を示す説明図である。この図４および図５において、
５は２次元に配置されたセルであり、図４においてはそ
の各々が配置されている位置がＣＥＬＬ（０，０），Ｃ
ＥＬＬ（０，１），・・・・，ＣＥＬＬ（３，３）で表
されている。また、図５において、６はセル５を代表す
る語句としてそのセル５内に表示された意味のある文字
列であり、隣り合ったセル５の間で代表する語句が同一
である場合にはその境界線を消去し、それに１つの文字
列６を表示している。なお、図４では各セル５が６角形
であるものを示したが、４角形など他の形状であっても
さしつかえない。

【００４０】次にその動作を図３のフローチャートに従
って説明する。まず、図１に示した実施例１あるいは実
施例２の学習フェーズが終了した後、各位置ＣＥＬＬ
（ｘ，ｙ）のセル５の語句ベクトルＣＥＬＬ−Ｖｅｃｔ
ｏｒ（ｘ，ｙ）の語句をその値の順にソートする。次に
ステップＳＴ２１０に進み、その値の大きい順に、あら
かじめ定められた数の語句を選択して、それをその位置
ＣＥＬＬ（ｘ，ｙ）のセル５を代表する語句とする。次
にステップＳＴ２２０において、その選択された語句の
文字列６をそれぞれの位置ＣＥＬＬ（ｘ，ｙ）のセル５
に表示する。

【００４１】以下、この文字列６の表示を図５に従って
具体的に説明する。図５は国際特許分類のサブクラスＧ
０６Ｆに分類されている特許文書に関して、同一出願人
の特許文書４１件について自動分類し、その情報空間を
可視化した場合の表示例を示したものであり、各位置Ｃ
ＥＬＬ（ｘ，ｙ）のセル５の語句ベクトルＣＥＬＬ−Ｖ
ｅｃｔｏｒ（ｘ，ｙ）の値が最大の語句を１つだけ選択
し、その語句の文字列６を各セル５に表示したものであ
る。なお、この図５においては、表示を見やすくするた
め、隣接するセル５の相互で代表する語句が同一である
場合には、その境界線を消すとともに、その中に文字列
６を１つだけ表示するようにしている。例えば、図５の
右下のセル５とその左隣のセル５とは代表する語句が同
一であるため、両者の間の境界線が消去され、その一方
（右下隅のセル５）にのみ共通の文字列６として「処理
装置」が表示されている。

【００４２】また、この図５では、その右上の部分に
「ＣＰＵ」、「プロセッサ」、「プログラム」などの関
係の深い語句の文字列６が表示されたセル５が配置され
ており、左上の部分には「ディスク装置」、「記憶装
置」という関係の深い語句の文字列６が表示されたセル
５が配置されている。さらに、その下側には「電力系
統」と「知識ベース」の文字列６が表示されたセル５が
隣接して配置されているが、これは電力系統の監視に知
識ベースを持つエキスパートシステムが利用されている
ことが推測できる。このように、この実施例３の情報空
間の可視化方法によれば、それぞれの代表的な語句の関
連が深いセル５が互いに近くになるように配置されて可
視化されることとなる。

【００４３】なお、この実施例３では、それぞれの位置
ＣＥＬＬ（ｘ，ｙ）の語句ベクトルＣＥＬＬ−Ｖｅｃｔ
ｏｒ（ｘ，ｙ）の値が最大の語句を１つ選んで、その文
字列６を該当するセル５に表示する場合について説明し
たが、語句ベクトルＣＥＬＬ−Ｖｅｃｔｏｒ（ｘ，ｙ）
の値の大きいものから順に一定個数の語句を選択して、
その文字列６を表示するようにしても、また、語句ベク
トルＣＥＬＬ−Ｖｅｃｔｏｒ（ｘ，ｙ）の値が一定値以
上のものをすべて表示するようにしてもよい。なお、そ
の場合、語句ベクトルＣＥＬＬ−Ｖｅｃｔｏｒ（ｘ，
ｙ）の値に応じて語句の重要度が区別できるように、文
字列６の大きさや書体、さらには表示色などの文字属性
を変えるようにしてもよい。

【００４４】さらに、各語句ｗｏｒｄ−ｊの各位置ＣＥ
ＬＬ（ｘ，ｙ）のセルでの語句ベクトルＣＥＬＬ−Ｖｅ
ｃｔｏｒ（ｘ，ｙ）の値をグラフとして表示するように
してもよく、また語句ｗｏｒｄ−ｊの各位置ＣＥＬＬ
（ｘ，ｙ）のセルでの値の分布を計算して、ローカルマ
キシマムとなるセル５の位置ＣＥＬＬ（ｘ，ｙ）にその
語句ｗｏｒｄ−ｊを表示するようにしてもよい。

【００４５】実施例４．図６はこの発明による情報空間
の可視化方法の他の実施例における処理の流れを示すフ
ローチャートであり、図７は可視化された情報空間の表
示例を示す説明図である。図７において、５はセルであ
り、７はそのセル５を代表する語句である。また、８は
隣接するセル５間の境界線で、セル５を代表する語句ベ
クトルＣＥＬＬ−Ｖｅｃｔｏｒ（ｘ，ｙ）の距離によ
り、その属性が変えられて表示されるものである。

【００４６】次にその動作を図６のフローチャートに従
って説明する。まずステップＳＴ３００において、互い
に隣接したセル５をそれぞれセルａ、セルｂとしたと
き、それらの境界をＥＤＧＥ（ａ，ｂ）とする。次にス
テップＳＴ３１０で、すべての境界ＥＤＧＥ（ａ，ｂ）
について、セルａの語句ベクトルＣＥＬＬ−Ｖｅｃｔｏ
ｒ（ａｘ，ａｙ）とセルｂの語句ベクトルＣＥＬＬ−Ｖ
ｅｃｔｏｒ（ｂｘ，ｂｙ）の距離を計算する。次にステ
ップＳＴ３２０に進んで、ステップＳＴ３１０で算出さ
れた各境界ＥＤＧＥ（ａ，ｂ）における距離の値を、そ
の最大値のものが１となるように正規化する。次にステ
ップＳＴ３３０で、各境界ＥＤＧＥ（ａ，ｂ）を示す境
界線８の属性値を、その境界ＥＤＧＥ（ａ，ｂ）の距離
の値に従って、あらかじめ定めておいた種類や太さなど
を表すものに割り当てる。次にステップＳＴ３４０にお
いて、セルａとセルｂの境界ＥＤＧＥ（ａ，ｂ）の境界
線８を、その割り当てられた属性によって表示し、ステ
ップＳＴ３５０にて一連の処理を終了する。

【００４７】以下、この境界線８の表示を図７を用いて
具体的に説明する。ここでは説明を簡単化するため、境
界線８の属性の種類は太線と破線の２種類とし、太線は
隣り合うセルａの語句ベクトルＣＥＬＬ−Ｖｅｃｔｏｒ
（ａｘ，ａｙ）とセルｂの語句ベクトルＣＥＬＬ−Ｖｅ
ｃｔｏｒ（ｂｘ，ｂｙ）の距離が大きく、破線はその距
離が小さいことを表すものとする。ここで、位置ＣＥＬ
Ｌ（ｘ，ｙ）のセル５における代表的な語句７をＷＯＲ
Ｄｘｙとすると、図７は次のことを表していると解釈で
きる。まず、可視化された情報空間が大きく分けて３つ
の領域に別れている。すなわち、第１の領域は位置ＣＥ
ＬＬ（０，２）、ＣＥＬＬ（１，２）、ＣＥＬＬ（０，
３）およびＣＥＬＬ（１，３）の４つのセル５による領
域である。第２の領域は位置ＣＥＬＬ（０，０）、ＣＥ
ＬＬ（１，０）、ＣＥＬＬ（２，０）、ＣＥＬＬ（３，
０）、ＣＥＬＬ（０，１）、ＣＥＬＬ（１，１）、ＣＥ
ＬＬ（２，１）、ＣＥＬＬ（２，２）、ＣＥＬＬ（３，
２）、ＣＥＬＬ（２，３）およびＣＥＬＬ（３，３）の
１１個のセル５による領域である。第３の領域は位置Ｃ
ＥＬＬ（３，１）の１つのセル５による領域である。

【００４８】また、第１の領域の各セル５を代表する語
句７であるＷＯＲＤ０２、ＷＯＲＤ１２、ＷＯＲＤ０３
およびＷＯＲＤ１３は互いに連想関係にあり、それぞれ
のセル５に対応する文書も内容が近い。一方、ＷＯＲＤ
０２とＷＯＲＤ０１で代表されるセル５、ＷＯＲＤ１２
とＷＯＲＤ０１で代表されるセル５、ＷＯＲＤ１２とＷ
ＯＲＤ１１で代表されるセル５、ＷＯＲＤ１２とＷＯＲ
Ｄ２２で代表されるセル５、ＷＯＲＤ１３とＷＯＲＤ２
２で代表されるセル５、ＷＯＲＤ１３とＷＯＲＤ２３で
代表されるセル５は互いに隣接していても、対応する文
書は近い関係にはない。さらに第２の領域内において
も、ＷＯＲＤ０１とＷＯＲＤ１０で代表されるセル５、
およびＷＯＲＤ１１とＷＯＲＤ１０で代表されるセル５
は近い関係にあるが、ＷＯＲＤ０１とＷＯＲＤ１１で代
表されるセル５は隣接していても近い関係にはない。

【００４９】実施例５．図８はこの発明による情報検索
システムの一実施例の機能構成を示す構成図である。図
において、１は文書データベース、２は情報検索部、３
は検索条件入力部、４は検索結果表示部であり、これら
は図１３に同一符号を付した従来のそれらと同一、もし
くは相当部分であるためその説明を省略する。

【００５０】また、９は情報検索部２によって検索され
た文書集合を格納するための検索結果格納部であり、１
０はこの検索結果格納部９に格納された文書集合を対象
にして、請求項１または２に記載された文書の自動分類
方法に従って文書の自動分類を行う自動分類部、１１は
請求項３または４に記載された情報空間の可視化方法に
従って、この自動分類部１０で自動分類された文書クラ
スタの代表する語句を２次元に視覚化する情報空間可視
化部である。１２はこの情報空間可視化部１１によって
視覚化された２次元の位置を指定することによって、自
動分類された文書の中から特定の文書の選択を行う文書
選択部であり、１３はこの文書選択部１２によって選択
された文書の内容を検索結果格納部９より取り出して表
示する文書内容表示部である。

【００５１】次に動作について説明する。ここで、図９
はこの実施例５による情報検索システムの処理の流れを
示すフローチャートである。まず、ステップＳＴ４００
において、検索条件入力部３より検索条件を入力する。
この検索条件はキーワードの論理積や論理和によるもの
である。次にステップＳＴ４１０において、情報検索部
２が文書データベース１を検索してその検索条件に合う
文書を抽出し、ステップＳＴ４２０でその検索結果を検
索結果表示部４に表示する。なお、この検索結果は通常
は検索条件に該当する文書の数であり、必要に応じて文
書のタイトルや概要なども表示することがある。次にス
テップＳＴ４３０に進み、情報検索部２で検索された文
書が、内容および数の観点から見て、検索の初期の目的
を満たしているか否かを利用者が判断する。その結果、
初期の目的を満たしていなければステップＳＴ４００に
戻り、新たな検索条件で再検索を行う。

【００５２】一方、初期の目的を満たしている場合に
は、ステップＳＴ４４０にて検索結果の文書集合を検索
結果格納部９に格納する。次にステップＳＴ４５０に進
み、検索結果格納部９に格納されている文書集合を対象
に、自動分類部１０で文書の自動分類を行う。なお、こ
の文書の自動分類は実施例１もしくは実施例２で説明し
た文書の自動分類方法によって実現される。次にステッ
プＳＴ４６０で情報空間可視化部１１によって、自動分
類部１０が前述のようにして自動分類した情報空間を、
代表的な語句で関連の深いものが近くにくるように配置
されたキーワードマップの形に可視化表示する。なお、
この情報空間の可視化も実施例３もしくは実施例４で説
明した情報空間の可視化方法によって実現される。

【００５３】次にステップＳＴ４７０において、利用者
がこの情報空間可視化部１１によって可視化されたキー
ワードマップを参照して、文書選択部１２にて関心のあ
るセルを選択する。セルが選択されると処理はステップ
ＳＴ４８０に進み、選択されたセルに対応する文書集合
がタイトルリストの形で表示される。次にステップＳＴ
４９０において、利用者がこのタイトルリストの形で表
示された文書集合を参照し、文書選択部１２にて関心の
ある文書を１つ選択する。文書が選択されると処理はス
テップＳＴ５００に進み、文書内容表示部１３は文書結
果格納部９より選択された文書の内容を取り出して表示
する。次にステップＳＴ５１０において、利用者が文書
内容表示部１３に表示された文書の内容を参照し、満足
するものであるか否かを判断する。その結果、満足でき
るものであった場合にはステップＳＴ５２０に進み、一
連の処理を終了する。

【００５４】一方、満足できるものではなかった場合に
は、ステップＳＴ４９０に戻って表示されているタイト
ルリストの中から別の文書を指定してその内容を参照し
たり、ステップＳＴ４７０に戻ってキーワードマップの
別のセルを選択する。このようにして、利用者はキーワ
ードマップで可視化された情報空間を見ながら、満足す
るまで検索を繰り返す。なお、文書データベース１の大
きさが小さい場合には、検索結果格納部９は文書データ
ベース１で代用することも可能である。また、ステップ
ＳＴ５２０での終了は、選択された検索結果の文書集合
を対象とした自動分類、情報空間可視化に対するもので
あり、満足するものがなかった場合にはステップＳＴ４
００に戻り、新たな検索条件を検索条件入力部３に入力
する。

【００５５】次に、ステップＳＴ４６０からＳＴ５００
までの処理を図について詳細に説明する。図１０はこの
実施例５による情報検索システムの実行時のスナップシ
ョットを示す説明図であり、図中、１４は情報空間可視
化部１１で可視化されたキーワードマップがステップＳ
Ｔ４６０において表示されるウィンドウ、１５は選択さ
れたセルに対応する文書のタイトルリストがステップＳ
Ｔ４８０において表示されるウィンドウ、１６は選択さ
れた文書の内容がステップＳＴ５００において表示され
るウィンドウである。

【００５６】ウィンドウ１４に表示されたキーワードマ
ップの中の「レジスタ」と表示されているセルを、利用
者がマウスなどでポインティングすることによって選択
すると、そのセルに対応する自動分類された文書クラス
タの文書のタイトルリストがウィンドウ１５に表示され
る。この例では、「マイクロコンピュータ」というタイ
トルの文書と、「データ処理回路」というタイトルの文
書がクラスタになっていたことがわかる。次に、このウ
ィンドウ１５上で利用者が「マイクロコンピュータ」の
文書を、マウスなどでポインティングすることによって
選択すると、その文書の内容がウィンドウ１６に表示さ
れる。利用者はこのウィンドウ１６の表示を参照して、
それが満足するものであるか否かを判断する。

【００５７】なお、この実施例５では、図９のステップ
ＳＴ４７０で利用者が関心のあるセルを選択して、ステ
ップＳＴ４８０で選択されたセルに対応する文書集合を
タイトルリストの形で表示した後、ステップＳＴ４９０
で利用者がそのタイトルリストを見て関心のある文書を
１つ選択し、ステップＳＴ５００でその内容を表示する
ものについて説明したが、ステップＳＴ４７０で利用者
が選択したセルに対応する文書集合に含まれている文書
の数が１個、または表示画面の制約から決まる所定の個
数よりも小さい場合には、ステップＳＴ４８０およびＳ
Ｔ４９０を省略して文書の内容を表示するようにしても
よい。

【００５８】また、上記実施例５では、文書データベー
ス１の規模が大きく、前処理として検索条件入力部３よ
り入力したキーワードによる検索条件により情報検索を
行って、自動分類や情報空間の可視化の対象となる文書
の数を絞り込んだ場合について示したが、文書データベ
ース１の規模が小さい場合には、文書データベース１の
内容をすべて検索結果格納部９に入れておき、ステップ
ＳＴ４４０からスタートするようにしてもよい。これは
ステップＳＴ４００で文書データベース１のすべての文
書が該当する検索条件を入力し、ステップＳＴ４３０で
「ＹＥＳ」と判断したことに対応する。

【００５９】さらに、検索条件入力部３に入力するキー
ワードの候補となるものを、文書内容表示部１３に表示
されたテキストの文字列からあらかじめ抽出しておい
て、それを選択することにより簡易に入力できるように
してもよい。

【００６０】また、ステップＳＴ４７０で利用者が関心
のあるセルを１つまたは複数個選択して、それらのセル
に対応する文書集合を検索結果格納部９に格納して、ス
テップＳＴ４５０に移れるようにしてもよい。

【００６１】また、ステップＳＴ５００で文書の内容を
表示するとき、情報空間可視化部１１で可視化されたキ
ーワードマップのセルを代表する語句の文字列を、表示
色などの属性を変えて分かりやすく表示するようにして
もよい。

【００６２】また、検索結果格納部９に格納された文書
集合のデータを文書データベース１のデータとして切り
替えられるようにしてもよい。

【００６３】実施例６．図１１はこの発明による情報検
索システムの他の実施例の機能構成を示す構成図で、相
当部分には図８と同一符号を付してその説明を省略す
る。図において、１７は情報検索部２にて検索され、検
索結果格納部９に格納された文書集合の各文書の特定部
分を切り出して格納する文書分類選択格納部である。な
お、自動分類部１０はこの文書分類選択格納部１７に格
納されている文書の特定部分を入力テキストとして文書
の自動分類を行うものであり、情報空間可視化部１１は
当該文書の特定部分を入力テキストとして自動分類され
た情報空間の可視化を行うものである。

【００６４】次に動作について説明する。ここで、図１
２はこの実施例６による情報検索システムの処理の流れ
を示すフローチャートである。まず、ステップＳＴ４０
０からステップＳＴ４４０において、図９に同一のステ
ップ番号を付した実施例５で説明したのと同様の処理が
実行される。その後ステップＳＴ４４１に進み、検索結
果格納部９に格納されている文書から、あらかじめ定め
られた特定部分を選択して切り出し、それを文書分類選
択格納部１７に格納する。

【００６５】この特定部分の選択の方法としては、文書
の種類に応じて、例えば文書の概要や前書きの第１段落
などを選択する。また文書記述のためのＩＳＯ（Ｉｎｔ
ｅｒｎａｔｉｏｎａｌＯｒｇａｎｉｚａｔｉｏｎｆ
ｏｒＳｔａｎｄａｒｄｉｚａｔｉｏｎ：国際標準化機
構）標準である、ＳＧＭＬ（ＳｔａｎｄａｒｄＧｅｎ
ｅｒａｌｉｚｅｄＭａｒｋｕｐＬａｎｇｕａｇｅ）
などの規格に準拠して作成されたタグ付きの文書では、
文書の連続した部分だけではなく、文書の連続していな
い複数の場所から選択することを自動的に行うこともで
きる。

【００６６】次にステップＳＴ４５１において、自動分
類部１０がこの文書分類選択格納部１７に格納されてい
る文書集合を対象に、実施例１もしくは実施例２で説明
した文書の自動分類方法による文書の分類が行われる。
以下、ステップＳＴ４６０からステップＳＴ５２０にお
いて、図９に同一のステップ番号を付した実施例５で説
明したのと同様の処理が実行される。このように、この
実施例６では、検索結果格納部９の内容よりデータ量が
はるかに少ない文書分類選択格納部１７の内容を用い
て、文書の自動分類および情報空間の可視化が行われる
ことになる。

【００６７】なお、上記各実施例では、独立した文書を
対象とするものを示したが、文書が互いにリンクで結ば
れたハイパーテキストを対象としてもよく、上記実施例
と同様の効果を奏する。

【００６８】また、上記各実施例では、１箇所のコンピ
ュータにデータベースとして蓄えられている文書を対象
としたものについて説明したが、コンピュータネットワ
ークによって接続された複数のコンピュータに分散して
蓄えられた文書を対象にしてもよく、上記実施例と同様
の効果を奏する。

【００６９】

【発明の効果】以上のように、請求項１に記載の発明に
よれば、文書の語句ベクトルとセルの語句ベクトルの距
離が最小のセルをその文書の仮の所属セルとして、その
所属セルの語句ベクトルの値をその文書の語句ベクトル
の値に近付けるとともに、そのセル近傍のセルの語句ベ
クトルの値を、語句の文書集合での出現割合に依存して
近付ける割合を変化させ、文書のクラスタの階層性と文
書クラスタの所属するセルの領域の包含関係を対応させ
ながら、その文書の語句ベクトルへの近さの度合いに応
じて近付ける学習を行って、その学習の終了後に、各セ
ルの語句ベクトルと文書の語句ベクトルの距離が最小の
セルをその文書の所属セルとして、同じセルに所属する
文書を内容が類似した文書のクラスタと判断するように
構成したので、文書を語句のベクトルとして表現し、そ
のベクトル表現された文書を自動分類することが可能と
なり、内容の類似した文書を一括して見ることができる
文書の自動分類方法が得られる効果がある。また、語句
の文書集合での出現の分布に依存した学習を行わせるこ
とが可能となり、文書のクラスタの階層性と文書クラス
タの属するセルの領域の包含関係が対応した文書のクラ
スタを作成できる効果がある。

【００７０】また、請求項２に記載の発明によれば、自
動分類された情報空間について、セルに対応する語句ベ
クトルの値が大きなものから一定数、もしくは所定の閾
値以上の語句をそのセルを代表する語句としてその文字
列を表示するように構成したので、自動分類された文書
集合を代表する語句を関連の深いセルが近くに配置され
るように表示して、文書集合の情報空間を可視化するこ
とが可能となって、文書集合全体の概要が分かりやすい
情報空間の可視化方法を得ることができ、さらに、どの
ようなキーワードがあるかを容易に知ることが可能とな
るばかりか、分類されたクラスタの相互関係が把握しや
すくなる効果がある。

【００７１】また、請求項３に記載の発明によれば、上
記文書の自動分類方法によって分類された文書集合の情
報空間を可視化する情報空間の可視化方法において、セ
ルに対応する語句ベクトルのうちの、値の大きなものか
ら一定数、もしくは所定の閾値以上の値を持つものを、
そのセルを代表する語句として、その文字列の表示を行
うにあたり、隣り合ったセルの境界線の属性を、セルに
対応する語句ベクトルの距離に応じて変化させて表示す
るように構成したので、自動分類された文書集合を代表
する語句を関連の深いセルが近くに配置されるように表
示して、文書集合の情報空間を可視化することが可能と
なって、文書集合全体の概要が分かりやすい情報空間の
可視化方法を得ることができ、さらに、どのようなキー
ワードがあるかを容易に知ることが可能となるばかり
か、分類されたクラスタの相互関係が把握しやすくなる
効果がある。

【００７２】また、請求項４に記載の発明によれば、文
書の語句ベクトルとセルの語句ベクトルの距離を計算し
て、それが最小となるものをその文書の仮の所属セルと
し、その所属セルの語句ベクトルの値をその文書の語句
ベクトルの値に近付けるとともに、そのセル近傍のセル
の語句ベクトルの値も、その文書の語句ベクトルへの近
さの度合いに応じて減じて近付ける処理を、所定回数も
しくは収束するまで繰り返し、その後、各セルの語句ベ
クトルと文書の語句ベクトルの距離が最小のセルをその
文書の所属セルとして、同じセルに所属する文書を内容
が類似した文書のクラスタと判断する文書の自動分類方
法によって分類された文書集合の情報空間を可視化する
情報空間の可視化方法において、セルに対応する語句ベ
クトルのうちの、値の大きなものから一定数、もしくは
所定の閾値以上の値を持つものを、そのセルを代表する
語句として、その文字列の表示を行うにあたり、隣り合
ったセルの境界線の属性を、セルに対応する語句ベクト
ルの距離に応じて変化させて表示するので、自動分類さ
れた文書集合を代表する語句を関連の深いセルが近くに
配置されるように表示して、文書集合の情報空間を可視
化することが可能となって、文書集合全体の概要が分か
りやすい情報空間の可視化方法を得ることができ、さら
に、どのようなキーワードがあるかを容易に知ることが
可能となるばかりか、分類されたクラスタの相互関係が
把握しやすくなる効果がある。また、隣り合ったセルの
類似度を判断することが容易となって、文書集合全体の
概要がより分かりやすいものとなり、また内容の似たク
ラスタの領域が分かりやすくなる効果がある。

【００７３】また、請求項５に記載の発明によれば、情
報検索によって検索結果格納部に格納された文書集合を
対象に、請求項１に記載した文書の自動分類方法による
文書の自動分類を行い、自動分類された文書集合の情報
空間を、請求項２乃至請求項４のいずれか１項に記載し
た情報空間の可視化方法で視覚化し、視覚化された２次
元の位置指定によって選択した文書の内容を検索結果格
納部より取り出して表示するように構成したので、可視
化された情報空間のセルを指定してそのセルに属する文
書のリストを表示し、さらに表示されたリストの文書を
指定することによって所望の文書の内容を表示すること
が可能となり、検索された文書集合の全体概要を見なが
ら個々の文書の内容を確かめることができる情報検索シ
ステムが得られる効果がある。

【００７４】また、請求項６に記載の発明によれば、検
索結果格納部内の文書の特定部分を切り出して文書分類
選択格納部に格納しておき、文書の自動分類および情報
空間の可視化をその文書の特定部分を入力テキストとし
て行うように構成したので、検索結果格納部よりはるか
にデータ量の少ない文書部分選択格納部の内容を用い
て、文書の自動分類および情報空間の可視化を行うこと
が可能となり、処理するデータ量が減ることによって処
理が高速化される効果がある。

【図面の簡単な説明】

【図１】この発明の実施例１による文書の自動分類方
法の学習フェーズの処理の流れを示すフローチャートで
ある。

【図２】上記実施例における分類フェーズの処理の流
れを示すフローチャートである。

【図３】この発明の実施例３による情報空間の可視化
方法の処理の流れを示すフローチャートである。

【図４】上記実施例におけるセルの配置例を示す説明
図である。

【図５】上記実施例における可視化された情報空間の
表示例を示す説明図である。

【図６】この発明の実施例４による情報空間の可視化
方法の処理の流れを示すフローチャートである。

【図７】上記実施例における可視化された情報空間の
表示例を示す説明図である。

【図８】この発明の実施例５による情報検索システム
の機能構成を示す構成図である。

【図９】上記実施例の処理の流れを示すフローチャー
トである。

【図１０】上記実施例における実行時のスナップショ
ットを示す説明図である。

【図１１】この発明の実施例６による情報検索システ
ムの機能構成を示す構成図である。

【図１２】上記実施例の処理の流れを示すフローチャ
ートである。

【図１３】従来の情報検索システムの機能構成を示す
構成図である。

【符号の説明】

１文書データベース、２情報検索部、３検索条件
入力部、４検索結果表示部、５セル、６文字列、
８境界線、９検索結果格納部、１０自動分類部、
１１情報空間可視化部、１２文書選択部、１３文
書内容表示部、１７文書分類選択格納部。

フロントページの続き (56)参考文献津高新一郎，自己組織化マップを用いたテキスト自動分類の試み，情報処理学会全国大会講演論文集，日本，社団法人情報処理学会，1993年３月26日，第46 回（４），４−187頁乃至４−188頁銭晴他，自己組織化マップと語彙索引を用いたデータベースの抽象化機構, 情報処理学会研究報告ＤＢＳ，日本, 社団法人情報処理学会，1994年７月22 日，ＶＯＬ94．Ｎｏ．２，第163頁乃至 170頁 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/30 G06N 3/00 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】文書集合が与えられた時、その文書集合
中の各文書を、その内容に応じて自動的に分類する文書
の自動分類方法において、前記文書集合に含まれる、単
語や句、節などの意味のある文字列による語句の中か
ら、一定の条件で選んだ語句を構成要素として、文書集
合中のある文書を、それが含む語句に対応する値をその
語句の出現頻度をもとに定めた語句ベクトルとして表現
し、前記文書の語句ベクトルと２次元に配置されたセル
に対応する語句ベクトルの距離を計算して、その距離が
最小のものをその文書が所属する仮のセルとし、当該セ
ルの語句ベクトルの要素の値をその文書の語句ベクトル
の要素の値に近付けるとともに、そのセルの近傍のセル
の語句ベクトルの要素の値を、前記文書集合での語句の
出現の割合に依存して、前記近傍のセルの語句ベクトル
を文書の語句ベクトルに近付ける割合を変化させること
により、文書のクラスタの階層性と文書クラスタの所属
するセルの領域の包含関係を対応させながら、その文書
の語句ベクトルに対する近傍の度合いに応じて減じて近
付けることを、前記文書集合に含まれる文書について一
定回数、もしくは収束するまで実行し、その後、各セル
の語句ベクトルと文書の語句ベクトルとの距離を計算し
て、その距離が最小のセルをその文書が所属する本来の
セルとして、同じセルに所属する文書を内容が類似した
文書のクラスタと判断することを特徴とする文書の自動
分類方法。
【請求項２】請求項１に記載の文書の自動分類方法に
よって分類された文書集合の情報空間を可視化する情報
空間の可視化方法において、セルに対応する語句ベクト
ルのうちの、値の大きなものから一定数、もしくは所定
の閾値以上の値を持つものを、そのセルを代表する語句
として、その文字列の表示を行うことを特徴とする情報
空間の可視化方法。
【請求項３】請求項１に記載の文書の自動分類方法に
よって分類された文書集合の情報空間を可視化する情報
空間の可視化方法において、セルに対応する語句ベクト
ルのうちの、値の大きなものから一定数、もしくは所定
の閾値以上の値を持つものを、そのセルを代表する語句
として、その文字列の表示を行うにあたり、隣り合った
セルの境界線の属性を、セルに対応する語句ベクトルの
距離に応じて変化させて表示することを特徴とする情報
空間の可視化方法。
【請求項４】文書集合が与えられた時、その文書集合
中の各文書を、その内容に応じて自動的に分類する文書
の自動分類方法において、前記文書集合に含まれる、単
語や句、節などの意味のある文字列による語句の中か
ら、一定の条件で選んだ語句を構成要素として、文書集
合中のある文書を、それが含む語句に対応する値をその
語句の出現頻度をもとに定めた語句ベクトルとして表現
し、前記文書の語句ベクトルと２次元に配置されたセル
に対応する語句ベクトルの距離を計算して、その距離が
最小のものをその文書が所属する仮のセルとし、当該セ
ルの語句ベクトルの要素の値をその文書の語句ベクトル
の要素の値に近付けるとともに、そのセルの近傍のセル
の語句ベクトルの要素の値も、その文書の語句ベクトル
に対する近傍の度合いに応じて減じて近付けることを、
前記文書集合に含まれる文書について一定回数、もしく
は収束するまで実行し、その後、各セルの語句ベクトル
と文書の語句ベクトルとの距離を計算して、その距離が
最小のセルをその文書が所属する本来のセルとして、同
じセルに所属する文書を内容が類似した文書のクラスタ
と判断する文書の自動分類方法によって分類された文書
集合の情報空間を可視化する情報空間の可視化方法にお
いて、セルに対応する語句ベクトルのうちの、値の大き
なものから一定数、もしくは所定の閾値以上の値を持つ
ものを、そのセルを代表する語句として、その文字列の
表示を行うにあたり、隣り合ったセルの境界線の属性
を、セルに対応する語句ベクトルの距離に応じて変化さ
せて表示することを特徴とする情報空間の可視化方法。
【請求項５】複数の文書が格納された文書データベー
スと、前記文書データベースより検索条件に該当する文
書を検索抽出する情報検索部と、前記情報検索部に検索
条件を入力する検索条件入力部と、前記情報検索部によ
る検索結果を出力表示する検索結果表示部とを有する情
報検索システムにおいて、前記情報検索部にて検索され
た文書集合を格納する検索結果格納部と、前記検索結果
格納部に格納された文書集合を対象に、請求項１に記載
した文書の自動分類方法によって文書の自動分類を行う
自動分類部と、前記自動分類部にて分類された文書集合
の情報空間を、請求項２乃至請求項４のいずれか１項に
記載した情報空間の可視化方法によって視覚化する情報
空間可視化部と、前記情報空間可視化部にて視覚化され
た２次元の位置を指定することによって前記自動分類さ
れた文書の選択を行い、それが複数ある場合にはその中
の所定数の文書を選択する文書選択部と、前記文書選択
部にて選択された文書の内容を前記検索結果格納部より
取り出して表示する文書内容表示部を備えたことを特徴
とする情報検索システム。
【請求項６】前記検索結果格納部に格納された文書集
合の各文書の特定部分を切り出して格納する文書分類選
択格納部を設け、前記自動分類部が、前記文書の特定部
分を入力テキストとして文書の自動分類を行うものであ
り、前記情報空間可視化部が、前記文書の特定部分を入
力テキストとして自動分類された情報空間の可視化を行
うものであることを特徴とする請求項５に記載の情報検
索システム。