JPH10111869A

JPH10111869A - 情報分類装置とその方法

Info

Publication number: JPH10111869A
Application number: JP8265994A
Authority: JP
Inventors: Tadashi Hoshiai; 忠星合
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1996-10-07
Filing date: 1996-10-07
Publication date: 1998-04-28

Abstract

(57)【要約】【課題】文書情報の再利用を図り分類精度を向上させ
るため多観点に基づいて自動分類する情報分類装置とそ
の方法を提供する。【解決手段】文書情報読取手段１、新規な文書情報毎
に各文書情報に共通なデータ構造をもつ情報エンティテ
ィを生成する情報エンティティ生成手段２、観点毎に分
類される各分類クラスに対し典型的な文書情報を元に複
数次元の分類空間上で表現される教師情報特徴量を抽出
する教師情報特徴量抽出手段３、新規な文書情報を元に
教師情報特徴量と同一分類空間上で表現される新文書情
報特徴量を抽出する新文書情報特徴量抽出手段４、教師
情報特徴量と新文書情報特徴量とを記憶する記憶手段
５、各観点毎に教師情報特徴量と新文書情報特徴量とを
比較し分類空間上の新文書情報特徴量に最も近い特徴量
を有する分類クラスを導出して新規な文書情報の分類先
を定める新文書情報分類手段６、を備えて構成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ローカルの計算機
上、ネットワーク上、あるいは分離媒体上に格納される
テキスト（文書）情報あるいはマルチメディア情報等の
情報を自動分類する情報分類装置とその方法に関する。

【０００２】

【従来の技術】今日の情報化社会において、個人情報あ
るいはグループ情報として、テキスト情報を分類し、ロ
ーカルの計算機上、ネットワーク上、あるいは分離媒体
上に格納し、後日、格納した文書情報を検索してＣＲＴ
画面上に表示したりプリントアウトして再利用すること
がよく行われている。今日知られている文書情報の自動
分類技術は、１つの観点から分類された複数のカテゴリ
（分類クラス）への仕分けによるものである。このよう
な１つの観点に基づく情報分類装置とその方法は、同一
の文書情報が別の観点からも利用可能な内容を含んでい
る場合、その文書情報をその別の観点から分類された分
類クラスへ仕分けする必要があり、かつその文書情報を
再利用したいときには、分類の基礎とした観点毎にその
文書情報を検索する必要がある。また、上記従来技術に
よる情報分類装置とその方法において、文書情報が所望
の分類クラスへどの程度正確に仕分けられたかを示す分
類精度は、一般的に利用者が一つの観点に基づいて予め
どの程度正確にその文書情報の分類先である分類クラス
を分類できたかに依存する。

【０００３】

【発明が解決しようとする課題】しかしながら、上記従
来技術による情報分類装置とその方法は、観点毎に分類
や検索を行わねばならず、その操作が煩雑であり、別の
観点への分類をし忘れたとき、または検索時に全ての観
点についての検索を行わなかったときには、所望の文書
情報の再利用ができなくなるという問題がある。また、
分類クラスに分類される文書情報の分類精度が悪いとき
には、文書情報は正確に分類クラスに分類されず、それ
ゆえ分類終了後、その文書情報が分類されるべき分類ク
ラスに分類されず、所望の文書情報の再利用できる期待
値が低くなってしまうという問題がある。したがって、
本発明は上記問題を解決し、より確かな文書情報の再利
用を図り、新規な文書情報の分類クラスへの分類精度を
向上させるため、複数の観点から観点毎に分類される複
数の分類クラスの何れかに新規な文書情報を自動分類す
る情報分類装置とその方法を提供することを目的とす
る。

【０００４】

【課題を解決するための手段】図１は本発明による情報
分類装置の基本構成図である。前記問題を解決する本発
明による情報分類装置は、文書情報を個別に複数の分類
クラスの何れかに分類する情報分類装置において、複数
の文書情報を個々の文書情報毎に読取る文書情報読取手
段１と、読取られた個々の文書情報の特徴量を抽出する
ため、読取った新規な文書情報毎に各文書情報に共通な
データ構造を有する情報エンティティを生成する情報エ
ンティティ生成手段２と、複数の観点から観点毎に分類
される複数の分類クラスの各々に対し、複数の典型的な
文書情報を元にして、該分類クラス間を弁別する各分類
クラスの特徴量として、複数次元の分類空間上で表現さ
れる教師情報特徴量を抽出する教師情報特徴量抽出手段
３と、新規な文書情報を元にして、前記教師情報特徴量
と同一分類空間上で表現される新文書情報特徴量を抽出
する新文書情報特徴量抽出手段４と、前記教師情報特徴
量と前記新文書情報特徴量とを記憶する記憶手段５と、
各観点毎に、記憶手段５に記憶した前記教師情報特徴量
と前記新文書情報特徴量とを比較し、前記分類空間上の
該新文書情報特徴量に最も近い特徴量を有する分類クラ
スを導出し、該導出した分類クラスを該新規な文書情報
の分類先と定める新文書情報分類手段６と、を備えたこ
とを特徴とする。上記構成により、新規な文書情報が複
数観点に基づいて複数の分類クラスへ観点毎に自動的に
分類されるので、文書情報の分類クラスへの分類精度が
向上し、文書情報の再利用が促進される。複数観点で文
書情報を分類すると分類精度が向上する理由は、１つの
観点だけで分類する場合はその観点の分類精度を７０％
とすると、その観点下で分類されない確率は３０％とな
る。一方、２つの観点下で分類し、各観点の分類精度を
７０％とすると、２つの観点の何れにも分類されない確
率は９％となり、さらに３つの観点下で分類し、各観点
の分類精度を７０％とすると、３つの観点の何れにも分
類されない確率は２．７％となる。したがって、多観点
程分類精度が向上すると言える。

【０００５】また、本発明の情報分類装置において、教
師情報特徴量抽出手段３は、各分類クラスに対応する教
師情報特徴量を表現する分類空間上の次元数を、予め複
数の典型的な文書情報としてその分類クラスに分類した
文書情報を元にして抽出した次元数より少なくして該教
師情報特徴量を抽出する。この構成により、分類クラス
間の弁別度が増し、文書情報の分類クラスへの分類精度
が向上するとともに分類速度が速くなる。

【０００６】また、本発明の情報分類装置は、新規文書
情報特徴量が複数個抽出され記憶手段５に記憶された
後、これらの文書情報を元にして、新たな教師情報特徴
量を抽出し、記憶手段５に先に記憶された教師情報特徴
量を更新する教師情報特徴量更新手段７を備える。この
構成により、教師情報特徴量の精度が向上し、文書情報
の分類クラスへの分類精度が向上する。

【０００７】また、本発明の情報分類装置において、情
報エンティティ生成手段２は、同一の文書情報を複数の
観点から分類し、新規な文書情報に対応する前記情報エ
ンティティにより、新文書情報の格納場所、観点毎の分
類先、特徴量等を、文書情報毎に一元管理する。この構
成により、１つの情報エンティティが観点の異なる分類
クラスに分類され、その結果、１つの観点に基づいて階
層構造状（木構造）に枝分かれする分類木の深さが浅く
ても複数の観点に基づいて分類することにより、文書情
報の分類クラスへの分類精度が向上するとともに、文書
情報が一元管理される。一般的に、単観点に基づいて階
層構造状に枝分かれする分類木の深さは深く、多観点に
基づいて階層構造状に枝分かれする分類木の深さは浅
い。その結果、単観点で分類される場合は、分類木の奥
深くまで調べないと所望の文書情報が分類されているか
否かが判らないが、多観点で分類されれば、分類木は浅
いので検索時間が短くなる。

【０００８】また、本発明の情報分類装置において、複
数の観点から分類される複数の分類クラスにそれぞれ分
類される文書情報を一画面上に表示する表示手段８を備
える。この構成により、ユーザによる文書情報の検索が
容易になる。

【０００９】また、本発明の情報分類装置において、表
示手段８は、優先度の高い観点順にその観点下で分類さ
れる複数の分類クラスにそれぞれ分類される文書情報を
一画面上に表示する。この構成により、ユーザによる文
書情報の検索効率が向上する。

【００１０】また、本発明の情報分類装置において、音
声情報または画像情報に文書情報を付加して、その文書
情報を、複数の観点から分類することにより、音声情報
または画像情報を分類するよう構成する。これにより、
分類される情報源を音声情報または画像情報まで拡大で
きる。

【００１１】図２は本発明による情報分類方法の基本処
理のフローチャートである。前記問題を解決する本発明
による情報分類方法は、文書情報を個別に複数の分類ク
ラスの何れかに分類する情報分類方法において、複数の
観点から観点毎に分類される複数の分類クラスの各々に
対し、複数の典型的な文書情報を元にして、該分類クラ
ス間を弁別する各分類クラスの特徴量として、複数次元
の分類空間上で表現される教師情報特徴量を抽出する第
１ステップＳ１と、分類の対象となる新規な文書情報を
読み取り、前記教師情報特徴量と同一分類空間上で表現
される新文書情報特徴量を抽出する第２ステップＳ２
と、第１ステップＳ１で抽出された前記教師情報特徴量
と前記第２ステップＳ２で抽出された前記新文書情報特
徴量とを比較し、前記分類空間上の前記新文書情報特徴
量に最も近い特徴量を有する分類クラスを導出する第３
ステップＳ３と、を備えたことを特徴とする。上記構成
により、新規な文書情報が複数観点に基づいて複数の分
類クラスへ観点毎に分類されるので、文書情報の分類ク
ラスへの分類精度が向上し、文書情報の再利用が促進さ
れる。

【００１２】また、本発明の情報分類方法において、第
１ステップＳ１は、各分類クラスに対応する教師情報特
徴量を表現する分類空間上の次元数を、予め複数の典型
的な文書情報としてその分類クラスに分類した文書情報
を元にして抽出した次元数より少なくして該教師情報特
徴量を抽出する。この構成により、分類クラス間の弁別
度が増し、文書情報の分類クラスへの分類精度が向上す
るとともに分類速度が速くなる。

【００１３】また、本発明の情報分類方法において、第
２ステップＳ２により抽出された新文書情報特徴量か
ら、第３ステップＳ３により導出された分類クラスに対
し、新文書情報特徴量に対応する複数の文書情報を元に
して、第１ステップＳ１により、その分類クラスに対応
する新たな教師情報特徴量を抽出し、更新する。この構
成により、教師情報特徴量の精度が向上し、文書情報の
分類クラスへの分類精度が向上する。

【００１４】また、本発明の情報分類方法において、同
一の文書情報を複数の観点から分類し、その文書情報に
対応する情報エンティティにより、その文書情報の格納
場所、観点毎の分類先、特徴量等を、文書情報毎に一元
管理する。この構成により、１つの情報エンティティが
観点の異なる分類クラスに分類され、その結果、１つの
観点に基づいて階層構造状に枝分かれする分類木の深さ
が浅くても複数の観点に基づいて分類することにより、
文書情報の分類クラスへの分類精度が向上するととも
に、文書情報が一元管理される。

【００１５】また、本発明の情報分類方法において、第
１ステップＳ１、第２ステップＳ２および第３ステップ
Ｓ３の処理は、ユーザとの対話中の空き時間に実行され
る。この構成により、ユーザが対話により他のタスクを
実行している間に、文書情報の自動分類が実行され、ユ
ーザの操作待ち時間が無くなりユーザの作業効率を向上
させる。

【００１６】

【発明の実施の形態】以下、添付図面を参照しつつ本発
明の実施の形態を詳細に説明する。図３は本発明による
一実施例の情報分類装置の構成図である。本図に全体に
示す情報分類装置は、例えばネットワークに接続された
ローカルの電子計算機から構成される。その電子計算機
は、表示装置１１、入出力部１２、新規情報アクセス部
１３、多観点管理部１４、教師付分類部１５、情報エン
ティティ管理部１６、情報媒体管理部１７、多観点分類
クラスオブジェクト部１８ａ、情報エンティティオブジ
ェクト部１８ｂ、情報媒体オブジェクト部１８ｃおよび
キーボード１９を備える。表示装置１１は、例えばＣＲ
Ｔからなり、情報内容、分類内容、多観点からの外観、
等を表示する。入出力部１２は、入出力処理一般を行
い、ユーザによりキーボード１９または図示しないマウ
ス等からの入力を受け、表示装置１１を見ながら対話形
式で新規情報アクセス部１３、多観点管理部１４および
教師付分類部１５にアクセスするとともに、多観点管理
部１４が管理する多観点分類クラスオブジェクト部１８
ａに格納された情報を表示装置１１に表示させる手段で
ある。新規情報アクセス部１３は、新規な文書、マルチ
メディア、ＰＩＭ（Personal Information Manager）等
の入力情報、特に、情報媒体オブジェクト部１８ｃに格
納された新規な文書情報を情報媒体管理部１７を介して
受け、情報エンティティ管理部１６へ送る手段である。
情報エンティティ管理部１６は情報エンティティオブジ
ェクト部１８ｂに格納される後述する情報エンティティ
インスタンス（以下、単に情報エンティティと記す）を
生成し、自動分類を起動させる手段である。

【００１７】多観点管理部１４は、文書情報の自動分類
を行うに際し、入出力部１２を介して表示装置１１に、
複数の観点から観点毎に分類される複数の分類クラスの
それぞれに分類される文書情報を一画面上に表示する。
教師付分類部１５は、各観点の分類クラス毎に当該分類
クラスの典型例としての複数の文書情報から教師情報特
徴量を抽出し、その教師情報特徴量を多観点分類クラス
オブジェクト部１８ａに格納する。情報エンティティ管
理部１６は、同一の文書情報を複数の観点から分類した
り、情報源としての物理的な格納媒体の違いに応じて処
理を切り換えるなど、情報分類装置が扱う様々な情報単
位を一元管理するため、情報の実体を一元的に表す情報
エンティティオブジェクト（情報エンティティ）として
文書情報を管理する。情報媒体管理部１７は、例えばデ
ィスクによる情報媒体オブジェクト部１８ｃや後述する
図４に示す他の物理的な媒体、例えばＣＤ−ＲＯＭ、Ｆ
Ｄ、ＭＯ（Magneto Optical-disc）等やネットワークを
介して接続される他の電算機の記憶部に格納された文書
情報を管理する。多観点分類クラスオブジェクト部１８
ａは、複数の観点、観点毎に分類される複数の分類クラ
ス、各分類クラスに分類される分類済の情報インスタン
ス、教師情報特徴量および新文書情報特徴量等を格納す
る。また、多観点分類クラスオブジェクト部１８ａ、情
報エンティティオブジェクト部１８ｂおよび情報媒体オ
ブジェクト部１８ｃは、分離して示されているが、１つ
の磁気ディスクの異なる記憶領域を示すものである。こ
れらは、複数の記憶媒体にそれぞれ個別に格納してもよ
い。

【００１８】図３に示す本発明による一実施例の情報分
類装置において、本発明の文書情報読取手段１、情報エ
ンティティ生成手段２、教師情報特徴量抽出手段３、新
文書情報特徴量抽出手段４、記憶手段５、新文書情報分
類手段６、教師情報特徴量更新手段７および表示手段８
は次のように置き換えられる。先ず、文書情報読取手段
１は、ユーザによるキーボード１９の操作入力を入出力
部１２が受け、新規情報アクセス部１３が情報媒体オブ
ジェクト部１８ｃに格納された新規な文書情報を読取る
処理に置き換えられる。情報エンティティ生成手段２
は、情報エンティティ管理部１６に置き換えられる。教
師情報特徴量抽出手段３、新文書情報特徴量抽出手段
４、新文書情報分類手段６および教師情報特徴量更新手
段７は教師付分類部１５に置き換えられる。記憶手段５
は多観点分類クラスオブジェクト部１８ａ、情報エンテ
ィティオブジェクト部１８ｂおよび情報媒体オブジェク
ト部１８ｃに置き換えられる。表示手段８は表示装置１
１、入出力部１２および多観点管理部１４に置き換えら
れる。

【００１９】図４は情報エンティティに対応する複数観
点における分類クラスを示す図である。情報媒体オブジ
ェクト部１８ｃには、×印で示す文書情報Ｍ１、Ｍ４、
…が格納され、これらは情報エンティティオブジェクト
部１８ｂに格納される△で示す情報エンティティインス
タンスＥ１、Ｅ４、…に対応する。また、前述したよう
に、一点鎖線で囲まれる部分にはネットワークを介して
接続される他の計算機における外部記憶装置４１〜４３
が示され、これら外部記憶装置４１〜４３には文書情報
Ｍ２、Ｍ３、…が格納され、これら文書情報Ｍ２、Ｍ３
は情報エンティティオブジェクト部１８ｂに格納される
情報エンティティＥ２、Ｅ３、…に対応する。これらの
情報エンティティは、第１の観点ＶＰ１の分類クラスＣ
11，Ｃ12，Ｃ13，…および第２の観点ＶＰ２の分類クラ
スＣ21，Ｃ22，Ｃ23，…に図示の如く分類される。すな
わち、Ｅ１はＶＰ１のＣ11とＶＰ２のＣ21に、Ｅ２はＶ
Ｐ１のＣ11とＶＰ２のＣ22に、Ｅ３はＶＰ１のＣ11とＶ
Ｐ２のＣ23に、Ｅ４はＶＰ１のＣ12とＶＰ２のＣ21に、
それぞれ分類される。また、このように分類された分類
済の情報エンティティは、図示の如く、例えば第１観点
ＶＰ１の分類クラスＣ11に分類された情報エンティティ
Ｅ１はＩ113 、ＶＰ２のＣ21に分類された情報エンティ
ティＥ１は１212 の識別番号をもつ。

【００２０】図５は実施例の自動分類装置による文書情
報の分類体系を示す図である。本図は２つの観点ＶＰ
１、ＶＰ２から分類される文書情報Ｅ１、Ｅ２、…、Ｅ
new の分類体系を示し、本図において、Ｓは分類クラス
対象（文書情報）の情報エンティティのルートクラス、
ＶＰは観点のルートクラスを示す。ここで、ルートクラ
スは全体集合を意味する。また、Ｓ（ＶＰ１）、Ｓ（Ｖ
Ｐ２）はそれぞれＶＰ１、ＶＰ２における分類クラス対
象の情報エンティティのルートクラスを示す。また、本
図に示す矢は先端がスーパークラスを示し、後端がサブ
クラスを示し、例えば第１の観点ＶＰ１における分類ク
ラス対象の情報エンティティのルートクラスＳ（ＶＰ
１）に向かう矢で接続される分類クラスＣ11，Ｃ12，Ｃ
13，…において、Ｓ（ＶＰ１）がスーパークラスであ
り、Ｃ11，Ｃ12，Ｃ13，…がサブクラスである。分類ク
ラスＣ11，Ｃ12，Ｃ13，…，Ｃ1jには、点線で接続され
る分類済みの情報エンティティＩ111 〜Ｉ113,Ｉ121,Ｉ
122,…が、同様に、分類クラスＣ21，Ｃ22，Ｃ23，…，
Ｃ2jには、点線で接続される分類済みの情報エンティテ
ィＩ211,Ｉ212,Ｉ221,Ｉ222,Ｉ231,…が、それぞれ分類
されている。

【００２１】オブジェクト指向の手法において、１つの
情報エンティティは１つの分類クラスにしかリンクでき
ないので、中間となる中間情報エンティティを設け、こ
れらの中間情報エンティティ間でリンクすることによ
り、情報エンティティＥ１、Ｅ２、…を、上記の様に複
数の分類クラスとリンクさせている。本図では、例えば
Ｅ１はＩ113 とＩ212 に実線で示すようにリンクされ
る。情報エンティティ管理部１６は新文書情報（newinf
o ）毎に共通のデータ構造を有する情報エンティティＥ
new を生成し、同一の文書情報を複数の観点から分類可
能にし、新文書情報の格納場所、観点毎の分類先、特徴
量等を、文書情報毎に一元管理する。Ｅnewおよび分類
デーモンについては後で説明する。本図の分類体系を具
体例で説明すると、上位の観点ＶＰとしての「電算機」
は、第１の観点ＶＰ１として「電算機種別」、第２の観
点ＶＰ２として「プログラム言語」に分類され、「電算
機種別」は「ＰＤＡ」、「デスクトップ」、「ワークス
テーション」、…の分類クラスに分類され、「プログラ
ム言語」は、「Ｊａｖａ」、「Ｃ／Ｃ＋＋」、「Ｌｉｓ
ｐ」、「Ｂａｓｉｃ」、…の分類クラスに分類される。
Ｅ１の文書情報がＣ11の「ＰＤＡ」の分類クラスにＩ11
3 の分類済情報エンティティとして、Ｃ21の「Ｊａｖ
ａ」の分類クラスにＩ212 の分類済情報エンティティと
してそれぞれ分類される。

【００２２】図６は多観点による情報整理・分類を示す
図である。本図は×で示す複数の文書情報が、２つの観
点ＶＰ１とＶＰ２で分類されている様子を示す。図示す
るように、第１の観点ＶＰ１として「電算機種別」、第
２の観点ＶＰ２として「プログラム言語」が選択され、
ＶＰ１の「電算機種別」は、分類クラスとしてＣ11の
「ＰＤＡ」、Ｃ12の「デスクトップ」、Ｃ13の「ワーク
ステーション」、…があり、ＶＰ２の「プログラム言
語」は、分類クラスとしてＣ21の「Ｊａｖａ」、Ｃ22の
「Ｃ／Ｃ＋＋」、Ｃ23の「Ｌｉｓｐ」、Ｃ24の「Ｂａｓ
ｉｃ」、…がある。情報源としては、各種の記憶媒体、
ＣＤＲＯＭ、ＦＤ、ＭＯ、情報装置自身の有するＨＤＤ
（ハードディスク）、ネットワーク上のｆｔｐサーバま
たはＷＷＷ（World Wide Web）サーバに格納された文書
情報が、図示の如く分類されている。

【００２３】次に、教師情報を構築する段階について以
下に説明する。先ず、教師情報について説明する。教師
情報は、自動分類の対象とする分類クラス（カテゴリ）
に属する文書情報の典型例を複数個集めて、これらの特
徴量を抽出し、後に分類対象（新文書情報）の特徴量を
抽出してこれと比較し、この分類対象の特徴量（新文書
情報特徴量）に最も近い分類クラスを決定するための基
準データとして利用するための情報である。簡単に言え
ば、教師情報とは分類クラスの特徴を示すデータであ
る。以下、図７のフローチャートを用いて詳細に説明す
るように、教師情報は評価軸決定および教師情報特徴量
の抽出により構築される。

【００２４】図７は実施例による教師付分類処理のフロ
ーチャートである。先ず、ステップＳ１では分類クラス
を指定する。具体的には、分類対象の分類クラスおよび
各分類クラスの典型例としての複数の文書情報を表示装
置１に順次表示し、drag-and-drop などの手法により、
各文書情報に対応し情報エンティティ管理部１６で生成
され情報エンティティオブジェクト部１８ｂに格納され
た各情報エンティティを、これらの文書情報が第１の観
点から見て分類されるべき分類クラスへ移動する。これ
により、図５に示すように、各典型例の情報を表す情報
エンティティＥ１、Ｅ２、Ｅ３、Ｅ４に対応する第１の
観点ＶＰ１における分類クラスＣ1j（ｊ＝1,2,3,…）の
インスタンスＩ113,Ｉ112,Ｉ111,Ｉ121 が生成され、そ
れぞれＥ１、Ｅ２、Ｅ３、Ｅ４と対応付けが行われる。
分類の基準として他の観点が必要なときは、第２の観点
ＶＰ２における分類クラスＣ2j（ｊ＝1,2,3,…）のイン
スタンスＩ212,Ｉ221,Ｉ231,Ｉ211 が生成され、それぞ
れＥ１、Ｅ２、Ｅ３、Ｅ４と対応付けが行われる。

【００２５】次に、教師情報を求めるために与えられた
分類クラスを効率良く弁別するために、各情報エンティ
ティ中に含まれる単語の分類クラス弁別度を求め、分類
クラス弁別度の高い単語を当該観点におけるそれぞれの
分類クラスを弁別するための評価軸として採用する。１
つの観点、例えば「プログラミング」から見て、１つの
文書情報を分類クラス「Ｊａｖａ」、「Ｃ／Ｃ＋＋」、
「Ｌｉｓｐ」、「Ｂａｓｉｃ」、…に分類するとき、分
類クラス「Ｊａｖａ」を弁別するために、「Ｊａｖａ」
の文書情報に出現頻度が高く、かつ他の分類クラス「Ｃ
／Ｃ＋＋」、「Ｌｉｓｐ」、「Ｂａｓｉｃ」、…と識別
できる単語Ｗ１が文書情報を当該観点下の分類クラスに
分類するのに最も役に立つと考えられるとき、評価軸と
して単語Ｗ１を採用できる。しかしながら、後述する統
計的手法により他の単語の方がその分類に適していると
すれば、その単語を座標軸に選択する方がよい。

【００２６】分類クラスの弁別は次のように行う。すな
わち、ステップＳ２では、分類クラスＣij中の全ての情
報エンティティに関する単語ｗｋの相対出現確率ｐｋ
（ｗｋ）を全単語ｗｌに対してそれぞれ計算する。ステ
ップＳ３では、教師情報を求めるために用いた全ての情
報エンティティの集合Ｗに関する単語ｗｋの相対出現確
率ｑｋ（ｗｋ）を全単語ｗｌに対してそれぞれ計算す
る。ステップＳ４では、分類クラスＣijに関する単語ｗ
ｋの弁別度ｄijk を計算する。

【００２７】分類クラスＣijに関する単語ｗｋの弁別度
ｄijk は次式で定義する。ｄijk ＝ｐｋ × log （ｐｋ／ｑｋ）上式は、情報理論における Kulback-Leiblerの情報量の
計算式の要素となる式であり、特に当該分類クラスにお
いて全体集合Ｗにおける平均出現確率よりも十分に高い
出現確率を有し、しかも弁別に有効利用できるほどの高
い出現頻度を有する単語を選別するのに役立つものであ
る。

【００２８】上式のｐｋ、ｑｋについて、教師情報を求
めるために用いた全ての情報エンティティの集合をＷと
すると、Ｗに関する単語ｗｋの相対出現確率ｑｋは、ｑｋ＝ｆｋ／ｆｗ（但し、ｆｗはＷの全単語数、ｆｋはＷにおける単語ｗ
ｋの出現頻度）で表され、また、分類クラスＣij中の全
ての情報エンティティに関する単語ｗｋの相対出現確率
ｐｋは次式で表される。ｐｋ＝ｆijk ／ｆcij （但し、ｆcij はＣijの全単語数、ｆijk はＣijにおけ
る単語ｗｋの出現頻度）なお、当然ながら、次式が成立
する。

【数１】

【００２９】次に、ステップＳ５では、単語の座標軸を
選択する。すなわち、各分類クラス毎に、ｄijk の大き
い順にランキングを行い、上位ｒ個までの単語ｗij1,ｗ
ij2,…, ｗijr を選ぶ。この際に、上位の単語の中に、
機能語（助詞、助動詞、接続詞、等の品詞）が含まれて
いるときは、ランキングからこれら機能語を取り除いて
内容語（名詞、形容詞、動詞、等の品詞）だけをｒ個選
択する。これは、一般の言語使用において、情報内容を
伝えるためには単語によって表現したいもの（こと）を
表す内容語が使用され、文の構造を指定するためには単
語の中身を表さないが機能を表す機能語が使用されるか
らである。具体的に説明すると、「Ｊａｖａ」に分類さ
れた単語ｗ１、ｗ２、ｗ３、…があり、「Ｃ／Ｃ＋＋」
に分類された単語ｗ１、ｗ５、ｗ７、…があったとき、
「Ｊａｖａ」では単語ｗ２、ｗ３の弁別度ｄijk が、
「Ｃ／Ｃ＋＋」では単語ｗ５、ｗ７の弁別度ｄijk が、
他の単語と比して大きかったとき、弁別度ｄijk の大き
い順にｒ個の単語を選択する。

【００３０】同様にして、観点ＶＰｉにおける全ての分
類クラスＣij（ｊ＝1,2,3,…,Ji ）からｒ個づつの単語
を選び、その和集合Ｄｉ（要素数：Ｎ）を、Ｄｉ＝｛ｗｎ｜ｎ＝１，２，…，Ｎ｝（但し、Ｎ≦ｒ×
Ji）とする。（ここで、Jiは観点ＶＰｉに分類される分類ク
ラスの数を示す。）このＤｉ中の全単語を特徴抽出にお
ける評価軸として決定する。

【００３１】次に、ステップＳ６では、主成分分析によ
り、座標軸の数を絞り込んで減らし、ステップＳ７で
は、ステップＳ６の結果から新しい座標軸を決定する。
すなわち、上述のようにステップＳ５で決定した評価軸
に関して、教師情報の統計的特徴量を抽出する。この処
理、すなわち文書情報の分類における統計的特徴量の抽
出の方法は、従来から種々の手法が提案されており、こ
れらのどれを用いてもよい。例えば、キーワードの相対
出現確率等を基にした判別分析（多変量解析の１手法）
やベクトル空間モデル等の統計的手法の何れを用いても
よいが、本実施例では、計算量を減らすため、多変量解
析における主成分分析を採用する。

【００３２】図８は主成分分析の具体例の説明図であ
る。本図において、「Ｊａｖａ」における単語ｗ２、ｗ
３、ｗ８に対する３軸直交座標の各軸をｘ１、ｘ２、ｘ
３とする。ｘ３軸は紙面に直交するので図示されない。
また×印は個々の文書情報の座標上の分布を示す。分類
クラスＣ１、Ｃ２を弁別するには座標軸ｙ１、ｙ２で切
断した方が弁別度がよい。何故ならば、本図に示すＣ
１、Ｃ２の重心座標ｇ１、ｇ２は座標軸ｘ１、ｘ２、ｘ
３では（３．１，５．０，０．０）、（４．１，０．
２，０．０）で表されるが、座標軸ｙ１、ｙ２では
（４．２，２．１）、（３．６，−２．２）で表され、
ｙ２の座標値が正か負で示され、識別が容易であるから
である。したがって、座標軸ｙ１、ｙ２を新たな座標軸
とする方が分類クラスの分類精度が向上することが判
る。これは次式、

【数２】（但し、ｙはｍ次元、ｘはｎ次元（ｍ＜ｎ）とする）で
表される。これにより、ｎ次元からｍ次元に評価軸を減
らす特徴抽出を行うことができる。

【００３３】上述の主成分分析により、例えば寄与率が
９０％に達する座標軸の数をｍ本とすると、分類クラス
Ｃijに属する情報エンティティの重心座標ｇijは、（ｘij1,ｘij2,…, ｘijm ）、（ｊ＝1,2,3,…,Ji ）で表される。次に、分類空間におけるこれらの特徴量
を、教師情報特徴量として観点別、分類クラス別に、多
観点クラスオブジェクト部１８ａに格納する。

【００３４】以上のように教師情報が構築された後、文
書情報の分類が可能となるが、この文書情報の分類が複
数回行われる度に、その時点での観点別分類クラスにお
ける分類済み情報エンティティの分類状態を基にして特
徴量を求めて、これを新たな教師情報とすることが可能
である。このように教師情報を学習しつつ更新すること
により、より精度の高い教師情報を構築することができ
る。

【００３５】次に、自動分類の処理について以下に説明
する。自動分類の処理において、情報エンティティ管理
部１６の情報エンティティクラスＥのメソドである分類
デーモンの自動起動条件として、図５に示す情報エンテ
ィティクラスＥの新たなインスタンスＥnew を生成する
ために、メソドｎｅｗが実行された直後に分類デーモン
を起動するよう設定しておく。以降、ユーザが新規な文
書情報を読み書きして、本分類装置に登録または格納す
るときには、先ず、情報エンティティクラスＥの新規な
インスタンスＥnew が生成され、その新規な文書情報は
情報エンティティインスタンスＥnew により、関連情報
（格納場所、リンク先、観点毎の分類先、特徴量、等）
が一元管理される。

【００３６】図９は実施例による自動分類処理のフロー
チャートである。先ず、ステップＳ１では、情報エンテ
ィティ管理部１６が、図５に示した情報エンティティイ
ンスタンスＥnew を、メソドｎｅｗの実行により生成す
る。次いで、ステップＳ２では、情報エンティティクラ
スＥの分類デーモンが起動され、当該分類装置の自動分
類の処理の実行が開始される。

【００３７】図１０は情報エンティティの内部構造を示
す図であり、（Ａ）はインスタンスの内部構造を示す図
であり、（Ｂ）はクラスの内部構造を示す図である。図
１０の（Ａ）に示すように、情報エンティティインスタ
ンスは、属性データを有し、本実施例では、対応する文
書情報に出現する特徴を示す単語ｗ１、ｗ２、…の出現
頻度のデータ等、およびｎｅｗｉｎｆｏ、すなわち新文
書情報に対して分類処理を実行させる命令プログラムが
格納される。一方、図１０の（Ｂ）に示すように、情報
エンティティクラスは、２つの格納領域を有し、上記属
性データの他に、メソド、すなわちプログラムを格納で
き、本実施例では上記命令プログラムｎｅｗｉｎｆｏが
格納される。

【００３８】図１１は分類デーモン起動により実行開始
される処理のフローチャートである。先ず、ステップＳ
１では、新文書情報内の全ての単語の出現確率を座標軸
ｘ１、ｘ２、…、ｘｎに基づき計算する。ステップＳ２
では、次式により座標変換を実行する。

【数３】（但し、ｙはｍ次元、ｘはｎ次元（ｍ＜ｎ）とする）

【００３９】次に、ステップＳ３では、設定された全て
の観点に対して分類処理が完了したか否かを判別し（ｉ
＜ｉ_s 但し、ｉ_sは設定された観点の数) 、その判別
結果がＹＥＳのときは、ステップＳ４へ進み、ステップ
Ｓ４ではｉ＝ｉ＋１を計算し、ステップＳ５へ進み、そ
の判別結果がＮＯのときは、ステップＳ９へ進みｉ＝０
にリセットして本処理ルーチンを終了する。ステップＳ
５では、各観点における全ての分類クラスＣ11、Ｃ12、
Ｃ13、…、Ｃijの重心座標ｇijと新文書情報の特徴量を
示す分類空間上の座標ｙ_new（ｙij1,ｙij2,…, ｙijm
）との間の距離ｒ11、ｒ12、ｒ13、…、ｒ1mを計算す
る。ステップＳ６では、ステップＳ４で計算した観点番
号ｉ（ｉ＝1,2,3,…,n）に対し、最小となる距離ｒ1zを
次式から計算する。

【数４】ここで、分類クラス番号j はｊ＝1,2,3,…,Ji とする。

【００４０】次に、ステップＳ７では、ステップＳ６で
計算された最小の距離とする分類クラスＣizを当該文書
情報の分類先に設定する。次いで、ステップＳ８では、
分類クラスＣizに分類される新文書情報に対応する新し
い情報エンティティＥizを生成し、ステップＳ３へ戻
り、他の観点に基づきステップＳ４〜Ｓ８の処理を観点
毎に繰り返し実行する。

【００４１】以上、図９、図１１のフローチャートを用
いて説明したように、実施例による自動分類は、複数の
観点のうち、適切な１つの観点ＶＰｉを選択し、選択し
た観点に基づいて、新規な文書情報を上述の手法により
分類し、全ての観点に対しこれを繰り返し実行する。観
点選択における優先度は、ユーザ自身が指定するか、ラ
ンダムに選択するか、分類エントロピーが最小の観点
か、最近の閲覧頻度の高いものか等の何れに基づいて選
択してもよい。例えば、あいまい度を示す分類エントロ
ピーの計算は次式で行い、分類エントロピーが最も小さ
い順に観点を選択することができる。

【数５】ここで、ｐ_iは優先順位とする文書情報に頻度多く出現
する単語の出現確率を示す。

【００４２】多観点管理部１４は、情報エンティティ管
理部１６から送られた文書情報を基に、前述した統計処
理により、文書情報の特徴量を求め、教師付分類部１５
が管理する多観点分類クラスオブジェクト部１８ａに格
納された各分類クラスの統計的特徴量と比較し、最も近
い分類クラスを求めてその分類クラスに分類する。例え
ば、前述した統計処理による同一手法により、情報エン
ティティＥnew の特徴量を抽出して、分類空間上の座標
（ｙi1, ｙi2, …, ｙim）を求める。この新規情報Ｅne
w の分類空間上の位置に重心座標が最も近い分類クラス
Ｃizが、観点ＶＰｉにおける分類先の分類クラスであ
る。すなわち、整数ｚについて、次式

【数６】を満たす分類クラスＣizが求める分類先である。このよ
うに分類した結果は、入出力部１２を介して表示装置１
１に表示される。

【００４３】図１２は表示装置１１における画面表示例
を示す図である。四角で囲まれた画面上には２つの観点
ＶＰ１、ＶＰ２が示され、観点ＶＰ１に分類される分類
クラス「ＰＤＡ」、「desktop 」、「workstation 」の
順に５、２、４個の文書情報が表示され、観点ＶＰ２に
分類される分類クラス「Ｊａｗａ」、「Ｃ／Ｃ＋＋」、
「Ｌｉｓｐ」、「Ｂａｓｉｃ」に順に３、４、２、１個
の文書情報が表示される。本実施例では、画面上に斜線
で示す文書情報ｔｅｘｔをマウスでクリックすることに
より、第２の観点ＶＰ２における分類クラス「Ｊａｖ
ａ」の文書情報ｔｅｘｔが次の画面に表示される。

【００４４】図１３は表示装置１における他の画面表示
例を示す図である。第１画面上には複数の観点が表示さ
れ、例えば第１画面上で第１の観点ＶＰ１をマウスでク
リックしてウィンドウを開くと、第２画面上にはＶＰ１
における分類クラスＣ11, Ｃ12, …が表示され、第１画
面上で第２の観点ＶＰ２をマウスでクリックしてウィン
ドウを開くと、第３画面上にはＶＰ２における分類クラ
スＣ21, Ｃ22, …が表示される。さらに、第２画面上で
例えば分類クラスＣ11をマウスでクリックしてウィンド
ウを開くと分類クラスＣ11内のエンティティＥ1,Ｅ2,…
が第４画面上に表示される。また、分類結果からエント
ロピーの低い観点からの優先順に、例えばＶＰ２のエン
トロピーが最も低いときは、ＶＰ２の画面が第１番目に
表示される。ここで、分類エントロピーの計算は前述し
たように次式で行い、分類エントロピーが最も小さい観
点順に表示するよう設定する。

【数７】ここで、ｐ_iは優先順位とする文書情報に頻度多く出現
する単語の出現確率を示す。

【００４５】以上説明した実施例において、文書情報の
みを自動分類の対象としてきたが、マルチメディア情報
としての音声情報または画像情報に文書情報を付加し
て、その文書情報を、複数の観点から分類することによ
り、音声情報または画像情報を自動分類することも可能
である。

【００４６】また、本発明の情報分類方法において、図
１１に示す第１ステップＳ１〜第２ステップＳ９の処理
は、マルチプログラミング方式を採用し、ユーザとの対
話中の空き時間に実行するようにしている。それゆえ、
ユーザが他の対話によるタスクを実行している間に、文
書情報の自動分類を実行し、ユーザの作業効率を向上さ
せることができる。

【００４７】

【発明の効果】以上説明したように、本発明によれば、
文書情報の再利用を図り、新規な文書情報の分類クラス
への分類精度を向上させ、複数の観点に基づいて自動分
類する情報分類装置とその方法を提供できる。

【図面の簡単な説明】

【図１】本発明による情報分類装置の基本構成図であ
る。

【図２】本発明による情報分類方法の基本処理のフロー
チャートである。

【図３】本発明による一実施例の情報分類装置の構成図
である。

【図４】情報エンティティに対応する複数観点における
分類クラスを示す図である。

【図５】実施例の自動分類装置による文書情報の分類体
系を示す図である。

【図６】多観点による情報整理・分類を示す図である。

【図７】実施例による教師付分類処理のフローチャート
である。

【図８】主成分分析の具体例の説明図である。

【図９】実施例による自動分類処理のフローチャートで
ある。

【図１０】情報エンティティの内部構造を示す図であ
り、（Ａ）はインスタンスの内部構造を示す図であり、
（Ｂ）はクラスの内部構造を示す図である。

【図１１】分類デーモン起動により実行開始される処理
のフローチャートである。

【図１２】表示装置における表示画面例を示す図であ
る。

【図１３】表示装置における他の表示画面例を示す図で
ある。

【符号の説明】

１…文書情報読取手段２…情報エンティティ生成手段３…教師情報特徴量抽出手段４…新文書情報特徴量抽出手段５…記憶手段６…新文書情報分類手段７…教師情報特徴量更新手段８…表示手段１１…表示装置１２…入出力部１３…新規情報アクセス部１４…多観点管理部１５…教師付分類部１６…情報エンティティ管理部１７…情報媒体管理部１８ａ…多観点分類クラスオブジェクト部１８ｂ…情報エンティティオブジェクト部１８ｃ…情報媒体オブジェクト部１９…キーボード

Claims

【特許請求の範囲】

【請求項１】文書情報を個別に複数の分類クラスの何
れかに分類する情報分類装置において、複数の文書情報を個々の文書情報毎に読取る文書情報読
取手段と、読取られた個々の文書情報の特徴量を抽出するため、読
取った新規な文書情報毎に各文書情報に共通なデータ構
造を有する情報エンティティを生成する情報エンティテ
ィ生成手段と、複数の観点から観点毎に分類される複数の分類クラスの
各々に対し、複数の典型的な文書情報を元にして、該分
類クラス間を弁別する各分類クラスの特徴量として、複
数次元の分類空間上で表現される教師情報特徴量を抽出
する教師情報特徴量抽出手段と、新規な文書情報を元にして、前記教師情報特徴量と同一
分類空間上で表現される新文書情報特徴量を抽出する新
文書情報特徴量抽出手段と、前記教師情報特徴量と前記新文書情報特徴量とを記憶す
る記憶手段と、各観点毎に、前記記憶手段に記憶した前記教師情報特徴
量と前記新文書情報特徴量とを比較し、前記分類空間上
の該新文書情報特徴量に最も近い特徴量を有する分類ク
ラスを導出し、該導出した分類クラスを該新規な文書情
報の分類先と定める新文書情報分類手段と、を備えたこ
とを特徴とする情報分類装置。
【請求項２】前記教師情報特徴量抽出手段は、各分類クラスに対応する教師情報特徴量を表現する分類
空間上の次元数を、予め複数の典型的な文書情報として
その分類クラスに分類した文書情報を元にして抽出した
次元数より少なくして該教師情報特徴量を抽出する請求
項１に記載の情報分類装置。
【請求項３】前記新規文書情報特徴量が複数個抽出さ
れ前記記憶手段に記憶された後、これらの文書情報を元
にして、新たな教師情報特徴量を抽出し、前記記憶手段
に先に記憶された教師情報特徴量を更新する教師情報特
徴量更新手段を備える請求項１に記載の情報分類装置。
【請求項４】前記情報エンティティ生成手段は、同一の文書情報を複数の観点から分類し、新規な文書情
報に対応する前記情報エンティティにより、該新文書情
報の格納場所、観点毎の分類先、特徴量等を、文書情報
毎に一元管理する請求項１に記載の情報分類装置。
【請求項５】複数の観点から分類される複数の分類ク
ラスにそれぞれ分類される文書情報を一画面上に表示す
る表示手段を備える請求項１に記載の情報分類装置。
【請求項６】前記表示手段は、優先度の高い観点順に
その観点下で分類される複数の分類クラスにそれぞれ分
類される文書情報を一画面上に表示する請求項５に記載
の情報分類装置。
【請求項７】音声情報または画像情報に文書情報を付
加して、その文書情報を、複数の観点から分類すること
により、前記音声情報または画像情報を自動分類する請
求項１に記載の情報分類装置。
【請求項８】文書情報を個別に複数の分類クラスの何
れかに分類する情報分類方法において、複数の観点から観点毎に分類される複数の分類クラスの
各々に対し、複数の典型的な文書情報を元にして、該分
類クラス間を弁別する各分類クラスの特徴量として、複
数次元の分類空間上で表現される教師情報特徴量を抽出
する第１ステップと、分類の対象となる新規な文書情報を読み取り、前記教師
情報特徴量と同一分類空間上で表現される新文書情報特
徴量を抽出する第２ステップと、第１ステップで抽出された前記教師情報特徴量と前記第
２ステップで抽出された前記新文書情報特徴量とを比較
し、前記分類空間上の前記新文書情報特徴量に最も近い
特徴量を有する分類クラスを導出する第３ステップと、
を備えたことを特徴とする情報分類方法。
【請求項９】前記第１ステップは、各分類クラスに対
応する教師情報特徴量を表現する分類空間上の次元数
を、予め複数の典型的な文書情報としてその分類クラス
に分類した文書情報を元にして抽出した次元数より少な
くして該教師情報特徴量を抽出する請求項８に記載の情
報分類方法。
【請求項１０】前記第２ステップにより抽出された新
文書情報特徴量から、前記第３ステップにより導出され
た分類クラスに対し、該新文書情報特徴量に対応する複
数の文書情報を元にして、前記第１ステップにより、該
分類クラスに対応する新たな教師情報特徴量を抽出し、
更新する請求項８に記載の情報分類方法。
【請求項１１】同一の文書情報を複数の観点から分類
し、該文書情報に対応する前記情報エンティティによ
り、該文書情報の格納場所、観点毎の分類先、特徴量等
を、文書情報毎に一元管理する請求項８に記載の情報分
類方法。
【請求項１２】前記第１ステップ、第２ステップおよ
び第３ステップの処理は、ユーザとの対話中の空き時間
に実行される請求項８に記載の情報分類方法。