JPH10111869A - 情報分類装置とその方法 - Google Patents
情報分類装置とその方法Info
- Publication number
- JPH10111869A JPH10111869A JP8265994A JP26599496A JPH10111869A JP H10111869 A JPH10111869 A JP H10111869A JP 8265994 A JP8265994 A JP 8265994A JP 26599496 A JP26599496 A JP 26599496A JP H10111869 A JPH10111869 A JP H10111869A
- Authority
- JP
- Japan
- Prior art keywords
- information
- classification
- document information
- teacher
- new
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【課題】 文書情報の再利用を図り分類精度を向上させ
るため多観点に基づいて自動分類する情報分類装置とそ
の方法を提供する。 【解決手段】 文書情報読取手段1、新規な文書情報毎
に各文書情報に共通なデータ構造をもつ情報エンティテ
ィを生成する情報エンティティ生成手段2、観点毎に分
類される各分類クラスに対し典型的な文書情報を元に複
数次元の分類空間上で表現される教師情報特徴量を抽出
する教師情報特徴量抽出手段3、新規な文書情報を元に
教師情報特徴量と同一分類空間上で表現される新文書情
報特徴量を抽出する新文書情報特徴量抽出手段4、教師
情報特徴量と新文書情報特徴量とを記憶する記憶手段
5、各観点毎に教師情報特徴量と新文書情報特徴量とを
比較し分類空間上の新文書情報特徴量に最も近い特徴量
を有する分類クラスを導出して新規な文書情報の分類先
を定める新文書情報分類手段6、を備えて構成する。
るため多観点に基づいて自動分類する情報分類装置とそ
の方法を提供する。 【解決手段】 文書情報読取手段1、新規な文書情報毎
に各文書情報に共通なデータ構造をもつ情報エンティテ
ィを生成する情報エンティティ生成手段2、観点毎に分
類される各分類クラスに対し典型的な文書情報を元に複
数次元の分類空間上で表現される教師情報特徴量を抽出
する教師情報特徴量抽出手段3、新規な文書情報を元に
教師情報特徴量と同一分類空間上で表現される新文書情
報特徴量を抽出する新文書情報特徴量抽出手段4、教師
情報特徴量と新文書情報特徴量とを記憶する記憶手段
5、各観点毎に教師情報特徴量と新文書情報特徴量とを
比較し分類空間上の新文書情報特徴量に最も近い特徴量
を有する分類クラスを導出して新規な文書情報の分類先
を定める新文書情報分類手段6、を備えて構成する。
Description
【0001】
【発明の属する技術分野】本発明は、ローカルの計算機
上、ネットワーク上、あるいは分離媒体上に格納される
テキスト(文書)情報あるいはマルチメディア情報等の
情報を自動分類する情報分類装置とその方法に関する。
上、ネットワーク上、あるいは分離媒体上に格納される
テキスト(文書)情報あるいはマルチメディア情報等の
情報を自動分類する情報分類装置とその方法に関する。
【0002】
【従来の技術】今日の情報化社会において、個人情報あ
るいはグループ情報として、テキスト情報を分類し、ロ
ーカルの計算機上、ネットワーク上、あるいは分離媒体
上に格納し、後日、格納した文書情報を検索してCRT
画面上に表示したりプリントアウトして再利用すること
がよく行われている。今日知られている文書情報の自動
分類技術は、1つの観点から分類された複数のカテゴリ
(分類クラス)への仕分けによるものである。このよう
な1つの観点に基づく情報分類装置とその方法は、同一
の文書情報が別の観点からも利用可能な内容を含んでい
る場合、その文書情報をその別の観点から分類された分
類クラスへ仕分けする必要があり、かつその文書情報を
再利用したいときには、分類の基礎とした観点毎にその
文書情報を検索する必要がある。また、上記従来技術に
よる情報分類装置とその方法において、文書情報が所望
の分類クラスへどの程度正確に仕分けられたかを示す分
類精度は、一般的に利用者が一つの観点に基づいて予め
どの程度正確にその文書情報の分類先である分類クラス
を分類できたかに依存する。
るいはグループ情報として、テキスト情報を分類し、ロ
ーカルの計算機上、ネットワーク上、あるいは分離媒体
上に格納し、後日、格納した文書情報を検索してCRT
画面上に表示したりプリントアウトして再利用すること
がよく行われている。今日知られている文書情報の自動
分類技術は、1つの観点から分類された複数のカテゴリ
(分類クラス)への仕分けによるものである。このよう
な1つの観点に基づく情報分類装置とその方法は、同一
の文書情報が別の観点からも利用可能な内容を含んでい
る場合、その文書情報をその別の観点から分類された分
類クラスへ仕分けする必要があり、かつその文書情報を
再利用したいときには、分類の基礎とした観点毎にその
文書情報を検索する必要がある。また、上記従来技術に
よる情報分類装置とその方法において、文書情報が所望
の分類クラスへどの程度正確に仕分けられたかを示す分
類精度は、一般的に利用者が一つの観点に基づいて予め
どの程度正確にその文書情報の分類先である分類クラス
を分類できたかに依存する。
【0003】
【発明が解決しようとする課題】しかしながら、上記従
来技術による情報分類装置とその方法は、観点毎に分類
や検索を行わねばならず、その操作が煩雑であり、別の
観点への分類をし忘れたとき、または検索時に全ての観
点についての検索を行わなかったときには、所望の文書
情報の再利用ができなくなるという問題がある。また、
分類クラスに分類される文書情報の分類精度が悪いとき
には、文書情報は正確に分類クラスに分類されず、それ
ゆえ分類終了後、その文書情報が分類されるべき分類ク
ラスに分類されず、所望の文書情報の再利用できる期待
値が低くなってしまうという問題がある。したがって、
本発明は上記問題を解決し、より確かな文書情報の再利
用を図り、新規な文書情報の分類クラスへの分類精度を
向上させるため、複数の観点から観点毎に分類される複
数の分類クラスの何れかに新規な文書情報を自動分類す
る情報分類装置とその方法を提供することを目的とす
る。
来技術による情報分類装置とその方法は、観点毎に分類
や検索を行わねばならず、その操作が煩雑であり、別の
観点への分類をし忘れたとき、または検索時に全ての観
点についての検索を行わなかったときには、所望の文書
情報の再利用ができなくなるという問題がある。また、
分類クラスに分類される文書情報の分類精度が悪いとき
には、文書情報は正確に分類クラスに分類されず、それ
ゆえ分類終了後、その文書情報が分類されるべき分類ク
ラスに分類されず、所望の文書情報の再利用できる期待
値が低くなってしまうという問題がある。したがって、
本発明は上記問題を解決し、より確かな文書情報の再利
用を図り、新規な文書情報の分類クラスへの分類精度を
向上させるため、複数の観点から観点毎に分類される複
数の分類クラスの何れかに新規な文書情報を自動分類す
る情報分類装置とその方法を提供することを目的とす
る。
【0004】
【課題を解決するための手段】図1は本発明による情報
分類装置の基本構成図である。前記問題を解決する本発
明による情報分類装置は、文書情報を個別に複数の分類
クラスの何れかに分類する情報分類装置において、複数
の文書情報を個々の文書情報毎に読取る文書情報読取手
段1と、読取られた個々の文書情報の特徴量を抽出する
ため、読取った新規な文書情報毎に各文書情報に共通な
データ構造を有する情報エンティティを生成する情報エ
ンティティ生成手段2と、複数の観点から観点毎に分類
される複数の分類クラスの各々に対し、複数の典型的な
文書情報を元にして、該分類クラス間を弁別する各分類
クラスの特徴量として、複数次元の分類空間上で表現さ
れる教師情報特徴量を抽出する教師情報特徴量抽出手段
3と、新規な文書情報を元にして、前記教師情報特徴量
と同一分類空間上で表現される新文書情報特徴量を抽出
する新文書情報特徴量抽出手段4と、前記教師情報特徴
量と前記新文書情報特徴量とを記憶する記憶手段5と、
各観点毎に、記憶手段5に記憶した前記教師情報特徴量
と前記新文書情報特徴量とを比較し、前記分類空間上の
該新文書情報特徴量に最も近い特徴量を有する分類クラ
スを導出し、該導出した分類クラスを該新規な文書情報
の分類先と定める新文書情報分類手段6と、を備えたこ
とを特徴とする。上記構成により、新規な文書情報が複
数観点に基づいて複数の分類クラスへ観点毎に自動的に
分類されるので、文書情報の分類クラスへの分類精度が
向上し、文書情報の再利用が促進される。複数観点で文
書情報を分類すると分類精度が向上する理由は、1つの
観点だけで分類する場合はその観点の分類精度を70%
とすると、その観点下で分類されない確率は30%とな
る。一方、2つの観点下で分類し、各観点の分類精度を
70%とすると、2つの観点の何れにも分類されない確
率は9%となり、さらに3つの観点下で分類し、各観点
の分類精度を70%とすると、3つの観点の何れにも分
類されない確率は2.7%となる。したがって、多観点
程分類精度が向上すると言える。
分類装置の基本構成図である。前記問題を解決する本発
明による情報分類装置は、文書情報を個別に複数の分類
クラスの何れかに分類する情報分類装置において、複数
の文書情報を個々の文書情報毎に読取る文書情報読取手
段1と、読取られた個々の文書情報の特徴量を抽出する
ため、読取った新規な文書情報毎に各文書情報に共通な
データ構造を有する情報エンティティを生成する情報エ
ンティティ生成手段2と、複数の観点から観点毎に分類
される複数の分類クラスの各々に対し、複数の典型的な
文書情報を元にして、該分類クラス間を弁別する各分類
クラスの特徴量として、複数次元の分類空間上で表現さ
れる教師情報特徴量を抽出する教師情報特徴量抽出手段
3と、新規な文書情報を元にして、前記教師情報特徴量
と同一分類空間上で表現される新文書情報特徴量を抽出
する新文書情報特徴量抽出手段4と、前記教師情報特徴
量と前記新文書情報特徴量とを記憶する記憶手段5と、
各観点毎に、記憶手段5に記憶した前記教師情報特徴量
と前記新文書情報特徴量とを比較し、前記分類空間上の
該新文書情報特徴量に最も近い特徴量を有する分類クラ
スを導出し、該導出した分類クラスを該新規な文書情報
の分類先と定める新文書情報分類手段6と、を備えたこ
とを特徴とする。上記構成により、新規な文書情報が複
数観点に基づいて複数の分類クラスへ観点毎に自動的に
分類されるので、文書情報の分類クラスへの分類精度が
向上し、文書情報の再利用が促進される。複数観点で文
書情報を分類すると分類精度が向上する理由は、1つの
観点だけで分類する場合はその観点の分類精度を70%
とすると、その観点下で分類されない確率は30%とな
る。一方、2つの観点下で分類し、各観点の分類精度を
70%とすると、2つの観点の何れにも分類されない確
率は9%となり、さらに3つの観点下で分類し、各観点
の分類精度を70%とすると、3つの観点の何れにも分
類されない確率は2.7%となる。したがって、多観点
程分類精度が向上すると言える。
【0005】また、本発明の情報分類装置において、教
師情報特徴量抽出手段3は、各分類クラスに対応する教
師情報特徴量を表現する分類空間上の次元数を、予め複
数の典型的な文書情報としてその分類クラスに分類した
文書情報を元にして抽出した次元数より少なくして該教
師情報特徴量を抽出する。この構成により、分類クラス
間の弁別度が増し、文書情報の分類クラスへの分類精度
が向上するとともに分類速度が速くなる。
師情報特徴量抽出手段3は、各分類クラスに対応する教
師情報特徴量を表現する分類空間上の次元数を、予め複
数の典型的な文書情報としてその分類クラスに分類した
文書情報を元にして抽出した次元数より少なくして該教
師情報特徴量を抽出する。この構成により、分類クラス
間の弁別度が増し、文書情報の分類クラスへの分類精度
が向上するとともに分類速度が速くなる。
【0006】また、本発明の情報分類装置は、新規文書
情報特徴量が複数個抽出され記憶手段5に記憶された
後、これらの文書情報を元にして、新たな教師情報特徴
量を抽出し、記憶手段5に先に記憶された教師情報特徴
量を更新する教師情報特徴量更新手段7を備える。この
構成により、教師情報特徴量の精度が向上し、文書情報
の分類クラスへの分類精度が向上する。
情報特徴量が複数個抽出され記憶手段5に記憶された
後、これらの文書情報を元にして、新たな教師情報特徴
量を抽出し、記憶手段5に先に記憶された教師情報特徴
量を更新する教師情報特徴量更新手段7を備える。この
構成により、教師情報特徴量の精度が向上し、文書情報
の分類クラスへの分類精度が向上する。
【0007】また、本発明の情報分類装置において、情
報エンティティ生成手段2は、同一の文書情報を複数の
観点から分類し、新規な文書情報に対応する前記情報エ
ンティティにより、新文書情報の格納場所、観点毎の分
類先、特徴量等を、文書情報毎に一元管理する。この構
成により、1つの情報エンティティが観点の異なる分類
クラスに分類され、その結果、1つの観点に基づいて階
層構造状(木構造)に枝分かれする分類木の深さが浅く
ても複数の観点に基づいて分類することにより、文書情
報の分類クラスへの分類精度が向上するとともに、文書
情報が一元管理される。一般的に、単観点に基づいて階
層構造状に枝分かれする分類木の深さは深く、多観点に
基づいて階層構造状に枝分かれする分類木の深さは浅
い。その結果、単観点で分類される場合は、分類木の奥
深くまで調べないと所望の文書情報が分類されているか
否かが判らないが、多観点で分類されれば、分類木は浅
いので検索時間が短くなる。
報エンティティ生成手段2は、同一の文書情報を複数の
観点から分類し、新規な文書情報に対応する前記情報エ
ンティティにより、新文書情報の格納場所、観点毎の分
類先、特徴量等を、文書情報毎に一元管理する。この構
成により、1つの情報エンティティが観点の異なる分類
クラスに分類され、その結果、1つの観点に基づいて階
層構造状(木構造)に枝分かれする分類木の深さが浅く
ても複数の観点に基づいて分類することにより、文書情
報の分類クラスへの分類精度が向上するとともに、文書
情報が一元管理される。一般的に、単観点に基づいて階
層構造状に枝分かれする分類木の深さは深く、多観点に
基づいて階層構造状に枝分かれする分類木の深さは浅
い。その結果、単観点で分類される場合は、分類木の奥
深くまで調べないと所望の文書情報が分類されているか
否かが判らないが、多観点で分類されれば、分類木は浅
いので検索時間が短くなる。
【0008】また、本発明の情報分類装置において、複
数の観点から分類される複数の分類クラスにそれぞれ分
類される文書情報を一画面上に表示する表示手段8を備
える。この構成により、ユーザによる文書情報の検索が
容易になる。
数の観点から分類される複数の分類クラスにそれぞれ分
類される文書情報を一画面上に表示する表示手段8を備
える。この構成により、ユーザによる文書情報の検索が
容易になる。
【0009】また、本発明の情報分類装置において、表
示手段8は、優先度の高い観点順にその観点下で分類さ
れる複数の分類クラスにそれぞれ分類される文書情報を
一画面上に表示する。この構成により、ユーザによる文
書情報の検索効率が向上する。
示手段8は、優先度の高い観点順にその観点下で分類さ
れる複数の分類クラスにそれぞれ分類される文書情報を
一画面上に表示する。この構成により、ユーザによる文
書情報の検索効率が向上する。
【0010】また、本発明の情報分類装置において、音
声情報または画像情報に文書情報を付加して、その文書
情報を、複数の観点から分類することにより、音声情報
または画像情報を分類するよう構成する。これにより、
分類される情報源を音声情報または画像情報まで拡大で
きる。
声情報または画像情報に文書情報を付加して、その文書
情報を、複数の観点から分類することにより、音声情報
または画像情報を分類するよう構成する。これにより、
分類される情報源を音声情報または画像情報まで拡大で
きる。
【0011】図2は本発明による情報分類方法の基本処
理のフローチャートである。前記問題を解決する本発明
による情報分類方法は、文書情報を個別に複数の分類ク
ラスの何れかに分類する情報分類方法において、複数の
観点から観点毎に分類される複数の分類クラスの各々に
対し、複数の典型的な文書情報を元にして、該分類クラ
ス間を弁別する各分類クラスの特徴量として、複数次元
の分類空間上で表現される教師情報特徴量を抽出する第
1ステップS1と、分類の対象となる新規な文書情報を
読み取り、前記教師情報特徴量と同一分類空間上で表現
される新文書情報特徴量を抽出する第2ステップS2
と、第1ステップS1で抽出された前記教師情報特徴量
と前記第2ステップS2で抽出された前記新文書情報特
徴量とを比較し、前記分類空間上の前記新文書情報特徴
量に最も近い特徴量を有する分類クラスを導出する第3
ステップS3と、を備えたことを特徴とする。上記構成
により、新規な文書情報が複数観点に基づいて複数の分
類クラスへ観点毎に分類されるので、文書情報の分類ク
ラスへの分類精度が向上し、文書情報の再利用が促進さ
れる。
理のフローチャートである。前記問題を解決する本発明
による情報分類方法は、文書情報を個別に複数の分類ク
ラスの何れかに分類する情報分類方法において、複数の
観点から観点毎に分類される複数の分類クラスの各々に
対し、複数の典型的な文書情報を元にして、該分類クラ
ス間を弁別する各分類クラスの特徴量として、複数次元
の分類空間上で表現される教師情報特徴量を抽出する第
1ステップS1と、分類の対象となる新規な文書情報を
読み取り、前記教師情報特徴量と同一分類空間上で表現
される新文書情報特徴量を抽出する第2ステップS2
と、第1ステップS1で抽出された前記教師情報特徴量
と前記第2ステップS2で抽出された前記新文書情報特
徴量とを比較し、前記分類空間上の前記新文書情報特徴
量に最も近い特徴量を有する分類クラスを導出する第3
ステップS3と、を備えたことを特徴とする。上記構成
により、新規な文書情報が複数観点に基づいて複数の分
類クラスへ観点毎に分類されるので、文書情報の分類ク
ラスへの分類精度が向上し、文書情報の再利用が促進さ
れる。
【0012】また、本発明の情報分類方法において、第
1ステップS1は、各分類クラスに対応する教師情報特
徴量を表現する分類空間上の次元数を、予め複数の典型
的な文書情報としてその分類クラスに分類した文書情報
を元にして抽出した次元数より少なくして該教師情報特
徴量を抽出する。この構成により、分類クラス間の弁別
度が増し、文書情報の分類クラスへの分類精度が向上す
るとともに分類速度が速くなる。
1ステップS1は、各分類クラスに対応する教師情報特
徴量を表現する分類空間上の次元数を、予め複数の典型
的な文書情報としてその分類クラスに分類した文書情報
を元にして抽出した次元数より少なくして該教師情報特
徴量を抽出する。この構成により、分類クラス間の弁別
度が増し、文書情報の分類クラスへの分類精度が向上す
るとともに分類速度が速くなる。
【0013】また、本発明の情報分類方法において、第
2ステップS2により抽出された新文書情報特徴量か
ら、第3ステップS3により導出された分類クラスに対
し、新文書情報特徴量に対応する複数の文書情報を元に
して、第1ステップS1により、その分類クラスに対応
する新たな教師情報特徴量を抽出し、更新する。この構
成により、教師情報特徴量の精度が向上し、文書情報の
分類クラスへの分類精度が向上する。
2ステップS2により抽出された新文書情報特徴量か
ら、第3ステップS3により導出された分類クラスに対
し、新文書情報特徴量に対応する複数の文書情報を元に
して、第1ステップS1により、その分類クラスに対応
する新たな教師情報特徴量を抽出し、更新する。この構
成により、教師情報特徴量の精度が向上し、文書情報の
分類クラスへの分類精度が向上する。
【0014】また、本発明の情報分類方法において、同
一の文書情報を複数の観点から分類し、その文書情報に
対応する情報エンティティにより、その文書情報の格納
場所、観点毎の分類先、特徴量等を、文書情報毎に一元
管理する。この構成により、1つの情報エンティティが
観点の異なる分類クラスに分類され、その結果、1つの
観点に基づいて階層構造状に枝分かれする分類木の深さ
が浅くても複数の観点に基づいて分類することにより、
文書情報の分類クラスへの分類精度が向上するととも
に、文書情報が一元管理される。
一の文書情報を複数の観点から分類し、その文書情報に
対応する情報エンティティにより、その文書情報の格納
場所、観点毎の分類先、特徴量等を、文書情報毎に一元
管理する。この構成により、1つの情報エンティティが
観点の異なる分類クラスに分類され、その結果、1つの
観点に基づいて階層構造状に枝分かれする分類木の深さ
が浅くても複数の観点に基づいて分類することにより、
文書情報の分類クラスへの分類精度が向上するととも
に、文書情報が一元管理される。
【0015】また、本発明の情報分類方法において、第
1ステップS1、第2ステップS2および第3ステップ
S3の処理は、ユーザとの対話中の空き時間に実行され
る。この構成により、ユーザが対話により他のタスクを
実行している間に、文書情報の自動分類が実行され、ユ
ーザの操作待ち時間が無くなりユーザの作業効率を向上
させる。
1ステップS1、第2ステップS2および第3ステップ
S3の処理は、ユーザとの対話中の空き時間に実行され
る。この構成により、ユーザが対話により他のタスクを
実行している間に、文書情報の自動分類が実行され、ユ
ーザの操作待ち時間が無くなりユーザの作業効率を向上
させる。
【0016】
【発明の実施の形態】以下、添付図面を参照しつつ本発
明の実施の形態を詳細に説明する。図3は本発明による
一実施例の情報分類装置の構成図である。本図に全体に
示す情報分類装置は、例えばネットワークに接続された
ローカルの電子計算機から構成される。その電子計算機
は、表示装置11、入出力部12、新規情報アクセス部
13、多観点管理部14、教師付分類部15、情報エン
ティティ管理部16、情報媒体管理部17、多観点分類
クラスオブジェクト部18a、情報エンティティオブジ
ェクト部18b、情報媒体オブジェクト部18cおよび
キーボード19を備える。表示装置11は、例えばCR
Tからなり、情報内容、分類内容、多観点からの外観、
等を表示する。入出力部12は、入出力処理一般を行
い、ユーザによりキーボード19または図示しないマウ
ス等からの入力を受け、表示装置11を見ながら対話形
式で新規情報アクセス部13、多観点管理部14および
教師付分類部15にアクセスするとともに、多観点管理
部14が管理する多観点分類クラスオブジェクト部18
aに格納された情報を表示装置11に表示させる手段で
ある。新規情報アクセス部13は、新規な文書、マルチ
メディア、PIM(Personal Information Manager)等
の入力情報、特に、情報媒体オブジェクト部18cに格
納された新規な文書情報を情報媒体管理部17を介して
受け、情報エンティティ管理部16へ送る手段である。
情報エンティティ管理部16は情報エンティティオブジ
ェクト部18bに格納される後述する情報エンティティ
インスタンス(以下、単に情報エンティティと記す)を
生成し、自動分類を起動させる手段である。
明の実施の形態を詳細に説明する。図3は本発明による
一実施例の情報分類装置の構成図である。本図に全体に
示す情報分類装置は、例えばネットワークに接続された
ローカルの電子計算機から構成される。その電子計算機
は、表示装置11、入出力部12、新規情報アクセス部
13、多観点管理部14、教師付分類部15、情報エン
ティティ管理部16、情報媒体管理部17、多観点分類
クラスオブジェクト部18a、情報エンティティオブジ
ェクト部18b、情報媒体オブジェクト部18cおよび
キーボード19を備える。表示装置11は、例えばCR
Tからなり、情報内容、分類内容、多観点からの外観、
等を表示する。入出力部12は、入出力処理一般を行
い、ユーザによりキーボード19または図示しないマウ
ス等からの入力を受け、表示装置11を見ながら対話形
式で新規情報アクセス部13、多観点管理部14および
教師付分類部15にアクセスするとともに、多観点管理
部14が管理する多観点分類クラスオブジェクト部18
aに格納された情報を表示装置11に表示させる手段で
ある。新規情報アクセス部13は、新規な文書、マルチ
メディア、PIM(Personal Information Manager)等
の入力情報、特に、情報媒体オブジェクト部18cに格
納された新規な文書情報を情報媒体管理部17を介して
受け、情報エンティティ管理部16へ送る手段である。
情報エンティティ管理部16は情報エンティティオブジ
ェクト部18bに格納される後述する情報エンティティ
インスタンス(以下、単に情報エンティティと記す)を
生成し、自動分類を起動させる手段である。
【0017】多観点管理部14は、文書情報の自動分類
を行うに際し、入出力部12を介して表示装置11に、
複数の観点から観点毎に分類される複数の分類クラスの
それぞれに分類される文書情報を一画面上に表示する。
教師付分類部15は、各観点の分類クラス毎に当該分類
クラスの典型例としての複数の文書情報から教師情報特
徴量を抽出し、その教師情報特徴量を多観点分類クラス
オブジェクト部18aに格納する。情報エンティティ管
理部16は、同一の文書情報を複数の観点から分類した
り、情報源としての物理的な格納媒体の違いに応じて処
理を切り換えるなど、情報分類装置が扱う様々な情報単
位を一元管理するため、情報の実体を一元的に表す情報
エンティティオブジェクト(情報エンティティ)として
文書情報を管理する。情報媒体管理部17は、例えばデ
ィスクによる情報媒体オブジェクト部18cや後述する
図4に示す他の物理的な媒体、例えばCD−ROM、F
D、MO(Magneto Optical-disc)等やネットワークを
介して接続される他の電算機の記憶部に格納された文書
情報を管理する。多観点分類クラスオブジェクト部18
aは、複数の観点、観点毎に分類される複数の分類クラ
ス、各分類クラスに分類される分類済の情報インスタン
ス、教師情報特徴量および新文書情報特徴量等を格納す
る。また、多観点分類クラスオブジェクト部18a、情
報エンティティオブジェクト部18bおよび情報媒体オ
ブジェクト部18cは、分離して示されているが、1つ
の磁気ディスクの異なる記憶領域を示すものである。こ
れらは、複数の記憶媒体にそれぞれ個別に格納してもよ
い。
を行うに際し、入出力部12を介して表示装置11に、
複数の観点から観点毎に分類される複数の分類クラスの
それぞれに分類される文書情報を一画面上に表示する。
教師付分類部15は、各観点の分類クラス毎に当該分類
クラスの典型例としての複数の文書情報から教師情報特
徴量を抽出し、その教師情報特徴量を多観点分類クラス
オブジェクト部18aに格納する。情報エンティティ管
理部16は、同一の文書情報を複数の観点から分類した
り、情報源としての物理的な格納媒体の違いに応じて処
理を切り換えるなど、情報分類装置が扱う様々な情報単
位を一元管理するため、情報の実体を一元的に表す情報
エンティティオブジェクト(情報エンティティ)として
文書情報を管理する。情報媒体管理部17は、例えばデ
ィスクによる情報媒体オブジェクト部18cや後述する
図4に示す他の物理的な媒体、例えばCD−ROM、F
D、MO(Magneto Optical-disc)等やネットワークを
介して接続される他の電算機の記憶部に格納された文書
情報を管理する。多観点分類クラスオブジェクト部18
aは、複数の観点、観点毎に分類される複数の分類クラ
ス、各分類クラスに分類される分類済の情報インスタン
ス、教師情報特徴量および新文書情報特徴量等を格納す
る。また、多観点分類クラスオブジェクト部18a、情
報エンティティオブジェクト部18bおよび情報媒体オ
ブジェクト部18cは、分離して示されているが、1つ
の磁気ディスクの異なる記憶領域を示すものである。こ
れらは、複数の記憶媒体にそれぞれ個別に格納してもよ
い。
【0018】図3に示す本発明による一実施例の情報分
類装置において、本発明の文書情報読取手段1、情報エ
ンティティ生成手段2、教師情報特徴量抽出手段3、新
文書情報特徴量抽出手段4、記憶手段5、新文書情報分
類手段6、教師情報特徴量更新手段7および表示手段8
は次のように置き換えられる。先ず、文書情報読取手段
1は、ユーザによるキーボード19の操作入力を入出力
部12が受け、新規情報アクセス部13が情報媒体オブ
ジェクト部18cに格納された新規な文書情報を読取る
処理に置き換えられる。情報エンティティ生成手段2
は、情報エンティティ管理部16に置き換えられる。教
師情報特徴量抽出手段3、新文書情報特徴量抽出手段
4、新文書情報分類手段6および教師情報特徴量更新手
段7は教師付分類部15に置き換えられる。記憶手段5
は多観点分類クラスオブジェクト部18a、情報エンテ
ィティオブジェクト部18bおよび情報媒体オブジェク
ト部18cに置き換えられる。表示手段8は表示装置1
1、入出力部12および多観点管理部14に置き換えら
れる。
類装置において、本発明の文書情報読取手段1、情報エ
ンティティ生成手段2、教師情報特徴量抽出手段3、新
文書情報特徴量抽出手段4、記憶手段5、新文書情報分
類手段6、教師情報特徴量更新手段7および表示手段8
は次のように置き換えられる。先ず、文書情報読取手段
1は、ユーザによるキーボード19の操作入力を入出力
部12が受け、新規情報アクセス部13が情報媒体オブ
ジェクト部18cに格納された新規な文書情報を読取る
処理に置き換えられる。情報エンティティ生成手段2
は、情報エンティティ管理部16に置き換えられる。教
師情報特徴量抽出手段3、新文書情報特徴量抽出手段
4、新文書情報分類手段6および教師情報特徴量更新手
段7は教師付分類部15に置き換えられる。記憶手段5
は多観点分類クラスオブジェクト部18a、情報エンテ
ィティオブジェクト部18bおよび情報媒体オブジェク
ト部18cに置き換えられる。表示手段8は表示装置1
1、入出力部12および多観点管理部14に置き換えら
れる。
【0019】図4は情報エンティティに対応する複数観
点における分類クラスを示す図である。情報媒体オブジ
ェクト部18cには、×印で示す文書情報M1、M4、
…が格納され、これらは情報エンティティオブジェクト
部18bに格納される△で示す情報エンティティインス
タンスE1、E4、…に対応する。また、前述したよう
に、一点鎖線で囲まれる部分にはネットワークを介して
接続される他の計算機における外部記憶装置41〜43
が示され、これら外部記憶装置41〜43には文書情報
M2、M3、…が格納され、これら文書情報M2、M3
は情報エンティティオブジェクト部18bに格納される
情報エンティティE2、E3、…に対応する。これらの
情報エンティティは、第1の観点VP1の分類クラスC
11,C12,C13,…および第2の観点VP2の分類クラ
スC21,C22,C23,…に図示の如く分類される。すな
わち、E1はVP1のC11とVP2のC21に、E2はV
P1のC11とVP2のC22に、E3はVP1のC11とV
P2のC23に、E4はVP1のC12とVP2のC21に、
それぞれ分類される。また、このように分類された分類
済の情報エンティティは、図示の如く、例えば第1観点
VP1の分類クラスC11に分類された情報エンティティ
E1はI113 、VP2のC21に分類された情報エンティ
ティE1は1212 の識別番号をもつ。
点における分類クラスを示す図である。情報媒体オブジ
ェクト部18cには、×印で示す文書情報M1、M4、
…が格納され、これらは情報エンティティオブジェクト
部18bに格納される△で示す情報エンティティインス
タンスE1、E4、…に対応する。また、前述したよう
に、一点鎖線で囲まれる部分にはネットワークを介して
接続される他の計算機における外部記憶装置41〜43
が示され、これら外部記憶装置41〜43には文書情報
M2、M3、…が格納され、これら文書情報M2、M3
は情報エンティティオブジェクト部18bに格納される
情報エンティティE2、E3、…に対応する。これらの
情報エンティティは、第1の観点VP1の分類クラスC
11,C12,C13,…および第2の観点VP2の分類クラ
スC21,C22,C23,…に図示の如く分類される。すな
わち、E1はVP1のC11とVP2のC21に、E2はV
P1のC11とVP2のC22に、E3はVP1のC11とV
P2のC23に、E4はVP1のC12とVP2のC21に、
それぞれ分類される。また、このように分類された分類
済の情報エンティティは、図示の如く、例えば第1観点
VP1の分類クラスC11に分類された情報エンティティ
E1はI113 、VP2のC21に分類された情報エンティ
ティE1は1212 の識別番号をもつ。
【0020】図5は実施例の自動分類装置による文書情
報の分類体系を示す図である。本図は2つの観点VP
1、VP2から分類される文書情報E1、E2、…、E
new の分類体系を示し、本図において、Sは分類クラス
対象(文書情報)の情報エンティティのルートクラス、
VPは観点のルートクラスを示す。ここで、ルートクラ
スは全体集合を意味する。また、S(VP1)、S(V
P2)はそれぞれVP1、VP2における分類クラス対
象の情報エンティティのルートクラスを示す。また、本
図に示す矢は先端がスーパークラスを示し、後端がサブ
クラスを示し、例えば第1の観点VP1における分類ク
ラス対象の情報エンティティのルートクラスS(VP
1)に向かう矢で接続される分類クラスC11,C12,C
13,…において、S(VP1)がスーパークラスであ
り、C11,C12,C13,…がサブクラスである。分類ク
ラスC11,C12,C13,…,C1jには、点線で接続され
る分類済みの情報エンティティI111 〜I113,I121,I
122,…が、同様に、分類クラスC21,C22,C23,…,
C2jには、点線で接続される分類済みの情報エンティテ
ィI211,I212,I221,I222,I231,…が、それぞれ分類
されている。
報の分類体系を示す図である。本図は2つの観点VP
1、VP2から分類される文書情報E1、E2、…、E
new の分類体系を示し、本図において、Sは分類クラス
対象(文書情報)の情報エンティティのルートクラス、
VPは観点のルートクラスを示す。ここで、ルートクラ
スは全体集合を意味する。また、S(VP1)、S(V
P2)はそれぞれVP1、VP2における分類クラス対
象の情報エンティティのルートクラスを示す。また、本
図に示す矢は先端がスーパークラスを示し、後端がサブ
クラスを示し、例えば第1の観点VP1における分類ク
ラス対象の情報エンティティのルートクラスS(VP
1)に向かう矢で接続される分類クラスC11,C12,C
13,…において、S(VP1)がスーパークラスであ
り、C11,C12,C13,…がサブクラスである。分類ク
ラスC11,C12,C13,…,C1jには、点線で接続され
る分類済みの情報エンティティI111 〜I113,I121,I
122,…が、同様に、分類クラスC21,C22,C23,…,
C2jには、点線で接続される分類済みの情報エンティテ
ィI211,I212,I221,I222,I231,…が、それぞれ分類
されている。
【0021】オブジェクト指向の手法において、1つの
情報エンティティは1つの分類クラスにしかリンクでき
ないので、中間となる中間情報エンティティを設け、こ
れらの中間情報エンティティ間でリンクすることによ
り、情報エンティティE1、E2、…を、上記の様に複
数の分類クラスとリンクさせている。本図では、例えば
E1はI113 とI212 に実線で示すようにリンクされ
る。情報エンティティ管理部16は新文書情報(newinf
o )毎に共通のデータ構造を有する情報エンティティE
new を生成し、同一の文書情報を複数の観点から分類可
能にし、新文書情報の格納場所、観点毎の分類先、特徴
量等を、文書情報毎に一元管理する。Enewおよび分類
デーモンについては後で説明する。本図の分類体系を具
体例で説明すると、上位の観点VPとしての「電算機」
は、第1の観点VP1として「電算機種別」、第2の観
点VP2として「プログラム言語」に分類され、「電算
機種別」は「PDA」、「デスクトップ」、「ワークス
テーション」、…の分類クラスに分類され、「プログラ
ム言語」は、「Java」、「C/C++」、「Lis
p」、「Basic」、…の分類クラスに分類される。
E1の文書情報がC11の「PDA」の分類クラスにI11
3 の分類済情報エンティティとして、C21の「Jav
a」の分類クラスにI212 の分類済情報エンティティと
してそれぞれ分類される。
情報エンティティは1つの分類クラスにしかリンクでき
ないので、中間となる中間情報エンティティを設け、こ
れらの中間情報エンティティ間でリンクすることによ
り、情報エンティティE1、E2、…を、上記の様に複
数の分類クラスとリンクさせている。本図では、例えば
E1はI113 とI212 に実線で示すようにリンクされ
る。情報エンティティ管理部16は新文書情報(newinf
o )毎に共通のデータ構造を有する情報エンティティE
new を生成し、同一の文書情報を複数の観点から分類可
能にし、新文書情報の格納場所、観点毎の分類先、特徴
量等を、文書情報毎に一元管理する。Enewおよび分類
デーモンについては後で説明する。本図の分類体系を具
体例で説明すると、上位の観点VPとしての「電算機」
は、第1の観点VP1として「電算機種別」、第2の観
点VP2として「プログラム言語」に分類され、「電算
機種別」は「PDA」、「デスクトップ」、「ワークス
テーション」、…の分類クラスに分類され、「プログラ
ム言語」は、「Java」、「C/C++」、「Lis
p」、「Basic」、…の分類クラスに分類される。
E1の文書情報がC11の「PDA」の分類クラスにI11
3 の分類済情報エンティティとして、C21の「Jav
a」の分類クラスにI212 の分類済情報エンティティと
してそれぞれ分類される。
【0022】図6は多観点による情報整理・分類を示す
図である。本図は×で示す複数の文書情報が、2つの観
点VP1とVP2で分類されている様子を示す。図示す
るように、第1の観点VP1として「電算機種別」、第
2の観点VP2として「プログラム言語」が選択され、
VP1の「電算機種別」は、分類クラスとしてC11の
「PDA」、C12の「デスクトップ」、C13の「ワーク
ステーション」、…があり、VP2の「プログラム言
語」は、分類クラスとしてC21の「Java」、C22の
「C/C++」、C23の「Lisp」、C24の「Bas
ic」、…がある。情報源としては、各種の記憶媒体、
CDROM、FD、MO、情報装置自身の有するHDD
(ハードディスク)、ネットワーク上のftpサーバま
たはWWW(World Wide Web)サーバに格納された文書
情報が、図示の如く分類されている。
図である。本図は×で示す複数の文書情報が、2つの観
点VP1とVP2で分類されている様子を示す。図示す
るように、第1の観点VP1として「電算機種別」、第
2の観点VP2として「プログラム言語」が選択され、
VP1の「電算機種別」は、分類クラスとしてC11の
「PDA」、C12の「デスクトップ」、C13の「ワーク
ステーション」、…があり、VP2の「プログラム言
語」は、分類クラスとしてC21の「Java」、C22の
「C/C++」、C23の「Lisp」、C24の「Bas
ic」、…がある。情報源としては、各種の記憶媒体、
CDROM、FD、MO、情報装置自身の有するHDD
(ハードディスク)、ネットワーク上のftpサーバま
たはWWW(World Wide Web)サーバに格納された文書
情報が、図示の如く分類されている。
【0023】次に、教師情報を構築する段階について以
下に説明する。先ず、教師情報について説明する。教師
情報は、自動分類の対象とする分類クラス(カテゴリ)
に属する文書情報の典型例を複数個集めて、これらの特
徴量を抽出し、後に分類対象(新文書情報)の特徴量を
抽出してこれと比較し、この分類対象の特徴量(新文書
情報特徴量)に最も近い分類クラスを決定するための基
準データとして利用するための情報である。簡単に言え
ば、教師情報とは分類クラスの特徴を示すデータであ
る。以下、図7のフローチャートを用いて詳細に説明す
るように、教師情報は評価軸決定および教師情報特徴量
の抽出により構築される。
下に説明する。先ず、教師情報について説明する。教師
情報は、自動分類の対象とする分類クラス(カテゴリ)
に属する文書情報の典型例を複数個集めて、これらの特
徴量を抽出し、後に分類対象(新文書情報)の特徴量を
抽出してこれと比較し、この分類対象の特徴量(新文書
情報特徴量)に最も近い分類クラスを決定するための基
準データとして利用するための情報である。簡単に言え
ば、教師情報とは分類クラスの特徴を示すデータであ
る。以下、図7のフローチャートを用いて詳細に説明す
るように、教師情報は評価軸決定および教師情報特徴量
の抽出により構築される。
【0024】図7は実施例による教師付分類処理のフロ
ーチャートである。先ず、ステップS1では分類クラス
を指定する。具体的には、分類対象の分類クラスおよび
各分類クラスの典型例としての複数の文書情報を表示装
置1に順次表示し、drag-and-drop などの手法により、
各文書情報に対応し情報エンティティ管理部16で生成
され情報エンティティオブジェクト部18bに格納され
た各情報エンティティを、これらの文書情報が第1の観
点から見て分類されるべき分類クラスへ移動する。これ
により、図5に示すように、各典型例の情報を表す情報
エンティティE1、E2、E3、E4に対応する第1の
観点VP1における分類クラスC1j(j=1,2,3,…)の
インスタンスI113,I112,I111,I121 が生成され、そ
れぞれE1、E2、E3、E4と対応付けが行われる。
分類の基準として他の観点が必要なときは、第2の観点
VP2における分類クラスC2j(j=1,2,3,…)のイン
スタンスI212,I221,I231,I211 が生成され、それぞ
れE1、E2、E3、E4と対応付けが行われる。
ーチャートである。先ず、ステップS1では分類クラス
を指定する。具体的には、分類対象の分類クラスおよび
各分類クラスの典型例としての複数の文書情報を表示装
置1に順次表示し、drag-and-drop などの手法により、
各文書情報に対応し情報エンティティ管理部16で生成
され情報エンティティオブジェクト部18bに格納され
た各情報エンティティを、これらの文書情報が第1の観
点から見て分類されるべき分類クラスへ移動する。これ
により、図5に示すように、各典型例の情報を表す情報
エンティティE1、E2、E3、E4に対応する第1の
観点VP1における分類クラスC1j(j=1,2,3,…)の
インスタンスI113,I112,I111,I121 が生成され、そ
れぞれE1、E2、E3、E4と対応付けが行われる。
分類の基準として他の観点が必要なときは、第2の観点
VP2における分類クラスC2j(j=1,2,3,…)のイン
スタンスI212,I221,I231,I211 が生成され、それぞ
れE1、E2、E3、E4と対応付けが行われる。
【0025】次に、教師情報を求めるために与えられた
分類クラスを効率良く弁別するために、各情報エンティ
ティ中に含まれる単語の分類クラス弁別度を求め、分類
クラス弁別度の高い単語を当該観点におけるそれぞれの
分類クラスを弁別するための評価軸として採用する。1
つの観点、例えば「プログラミング」から見て、1つの
文書情報を分類クラス「Java」、「C/C++」、
「Lisp」、「Basic」、…に分類するとき、分
類クラス「Java」を弁別するために、「Java」
の文書情報に出現頻度が高く、かつ他の分類クラス「C
/C++」、「Lisp」、「Basic」、…と識別
できる単語W1が文書情報を当該観点下の分類クラスに
分類するのに最も役に立つと考えられるとき、評価軸と
して単語W1を採用できる。しかしながら、後述する統
計的手法により他の単語の方がその分類に適していると
すれば、その単語を座標軸に選択する方がよい。
分類クラスを効率良く弁別するために、各情報エンティ
ティ中に含まれる単語の分類クラス弁別度を求め、分類
クラス弁別度の高い単語を当該観点におけるそれぞれの
分類クラスを弁別するための評価軸として採用する。1
つの観点、例えば「プログラミング」から見て、1つの
文書情報を分類クラス「Java」、「C/C++」、
「Lisp」、「Basic」、…に分類するとき、分
類クラス「Java」を弁別するために、「Java」
の文書情報に出現頻度が高く、かつ他の分類クラス「C
/C++」、「Lisp」、「Basic」、…と識別
できる単語W1が文書情報を当該観点下の分類クラスに
分類するのに最も役に立つと考えられるとき、評価軸と
して単語W1を採用できる。しかしながら、後述する統
計的手法により他の単語の方がその分類に適していると
すれば、その単語を座標軸に選択する方がよい。
【0026】分類クラスの弁別は次のように行う。すな
わち、ステップS2では、分類クラスCij中の全ての情
報エンティティに関する単語wkの相対出現確率pk
(wk)を全単語wlに対してそれぞれ計算する。ステ
ップS3では、教師情報を求めるために用いた全ての情
報エンティティの集合Wに関する単語wkの相対出現確
率qk(wk)を全単語wlに対してそれぞれ計算す
る。ステップS4では、分類クラスCijに関する単語w
kの弁別度dijk を計算する。
わち、ステップS2では、分類クラスCij中の全ての情
報エンティティに関する単語wkの相対出現確率pk
(wk)を全単語wlに対してそれぞれ計算する。ステ
ップS3では、教師情報を求めるために用いた全ての情
報エンティティの集合Wに関する単語wkの相対出現確
率qk(wk)を全単語wlに対してそれぞれ計算す
る。ステップS4では、分類クラスCijに関する単語w
kの弁別度dijk を計算する。
【0027】分類クラスCijに関する単語wkの弁別度
dijk は次式で定義する。 dijk = pk × log (pk/qk) 上式は、情報理論における Kulback-Leiblerの情報量の
計算式の要素となる式であり、特に当該分類クラスにお
いて全体集合Wにおける平均出現確率よりも十分に高い
出現確率を有し、しかも弁別に有効利用できるほどの高
い出現頻度を有する単語を選別するのに役立つものであ
る。
dijk は次式で定義する。 dijk = pk × log (pk/qk) 上式は、情報理論における Kulback-Leiblerの情報量の
計算式の要素となる式であり、特に当該分類クラスにお
いて全体集合Wにおける平均出現確率よりも十分に高い
出現確率を有し、しかも弁別に有効利用できるほどの高
い出現頻度を有する単語を選別するのに役立つものであ
る。
【0028】上式のpk、qkについて、教師情報を求
めるために用いた全ての情報エンティティの集合をWと
すると、Wに関する単語wkの相対出現確率qkは、 qk = fk/fw (但し、fwはWの全単語数、fkはWにおける単語w
kの出現頻度)で表され、また、分類クラスCij中の全
ての情報エンティティに関する単語wkの相対出現確率
pkは次式で表される。 pk = fijk /fcij (但し、fcij はCijの全単語数、fijk はCijにおけ
る単語wkの出現頻度)なお、当然ながら、次式が成立
する。
めるために用いた全ての情報エンティティの集合をWと
すると、Wに関する単語wkの相対出現確率qkは、 qk = fk/fw (但し、fwはWの全単語数、fkはWにおける単語w
kの出現頻度)で表され、また、分類クラスCij中の全
ての情報エンティティに関する単語wkの相対出現確率
pkは次式で表される。 pk = fijk /fcij (但し、fcij はCijの全単語数、fijk はCijにおけ
る単語wkの出現頻度)なお、当然ながら、次式が成立
する。
【数1】
【0029】次に、ステップS5では、単語の座標軸を
選択する。すなわち、各分類クラス毎に、dijk の大き
い順にランキングを行い、上位r個までの単語wij1,w
ij2,…, wijr を選ぶ。この際に、上位の単語の中に、
機能語(助詞、助動詞、接続詞、等の品詞)が含まれて
いるときは、ランキングからこれら機能語を取り除いて
内容語(名詞、形容詞、動詞、等の品詞)だけをr個選
択する。これは、一般の言語使用において、情報内容を
伝えるためには単語によって表現したいもの(こと)を
表す内容語が使用され、文の構造を指定するためには単
語の中身を表さないが機能を表す機能語が使用されるか
らである。具体的に説明すると、「Java」に分類さ
れた単語w1、w2、w3、…があり、「C/C++」
に分類された単語w1、w5、w7、…があったとき、
「Java」では単語w2、w3の弁別度dijk が、
「C/C++」では単語w5、w7の弁別度dijk が、
他の単語と比して大きかったとき、弁別度dijk の大き
い順にr個の単語を選択する。
選択する。すなわち、各分類クラス毎に、dijk の大き
い順にランキングを行い、上位r個までの単語wij1,w
ij2,…, wijr を選ぶ。この際に、上位の単語の中に、
機能語(助詞、助動詞、接続詞、等の品詞)が含まれて
いるときは、ランキングからこれら機能語を取り除いて
内容語(名詞、形容詞、動詞、等の品詞)だけをr個選
択する。これは、一般の言語使用において、情報内容を
伝えるためには単語によって表現したいもの(こと)を
表す内容語が使用され、文の構造を指定するためには単
語の中身を表さないが機能を表す機能語が使用されるか
らである。具体的に説明すると、「Java」に分類さ
れた単語w1、w2、w3、…があり、「C/C++」
に分類された単語w1、w5、w7、…があったとき、
「Java」では単語w2、w3の弁別度dijk が、
「C/C++」では単語w5、w7の弁別度dijk が、
他の単語と比して大きかったとき、弁別度dijk の大き
い順にr個の単語を選択する。
【0030】同様にして、観点VPiにおける全ての分
類クラスCij(j=1,2,3,…,Ji )からr個づつの単語
を選び、その和集合Di(要素数:N)を、 Di={wn|n=1,2,…,N}(但し、N≦r×
Ji) とする。(ここで、Jiは観点VPiに分類される分類ク
ラスの数を示す。)このDi中の全単語を特徴抽出にお
ける評価軸として決定する。
類クラスCij(j=1,2,3,…,Ji )からr個づつの単語
を選び、その和集合Di(要素数:N)を、 Di={wn|n=1,2,…,N}(但し、N≦r×
Ji) とする。(ここで、Jiは観点VPiに分類される分類ク
ラスの数を示す。)このDi中の全単語を特徴抽出にお
ける評価軸として決定する。
【0031】次に、ステップS6では、主成分分析によ
り、座標軸の数を絞り込んで減らし、ステップS7で
は、ステップS6の結果から新しい座標軸を決定する。
すなわち、上述のようにステップS5で決定した評価軸
に関して、教師情報の統計的特徴量を抽出する。この処
理、すなわち文書情報の分類における統計的特徴量の抽
出の方法は、従来から種々の手法が提案されており、こ
れらのどれを用いてもよい。例えば、キーワードの相対
出現確率等を基にした判別分析(多変量解析の1手法)
やベクトル空間モデル等の統計的手法の何れを用いても
よいが、本実施例では、計算量を減らすため、多変量解
析における主成分分析を採用する。
り、座標軸の数を絞り込んで減らし、ステップS7で
は、ステップS6の結果から新しい座標軸を決定する。
すなわち、上述のようにステップS5で決定した評価軸
に関して、教師情報の統計的特徴量を抽出する。この処
理、すなわち文書情報の分類における統計的特徴量の抽
出の方法は、従来から種々の手法が提案されており、こ
れらのどれを用いてもよい。例えば、キーワードの相対
出現確率等を基にした判別分析(多変量解析の1手法)
やベクトル空間モデル等の統計的手法の何れを用いても
よいが、本実施例では、計算量を減らすため、多変量解
析における主成分分析を採用する。
【0032】図8は主成分分析の具体例の説明図であ
る。本図において、「Java」における単語w2、w
3、w8に対する3軸直交座標の各軸をx1、x2、x
3とする。x3軸は紙面に直交するので図示されない。
また×印は個々の文書情報の座標上の分布を示す。分類
クラスC1、C2を弁別するには座標軸y1、y2で切
断した方が弁別度がよい。何故ならば、本図に示すC
1、C2の重心座標g1、g2は座標軸x1、x2、x
3では(3.1,5.0,0.0)、(4.1,0.
2,0.0)で表されるが、座標軸y1、y2では
(4.2,2.1)、(3.6,−2.2)で表され、
y2の座標値が正か負で示され、識別が容易であるから
である。したがって、座標軸y1、y2を新たな座標軸
とする方が分類クラスの分類精度が向上することが判
る。これは次式、
る。本図において、「Java」における単語w2、w
3、w8に対する3軸直交座標の各軸をx1、x2、x
3とする。x3軸は紙面に直交するので図示されない。
また×印は個々の文書情報の座標上の分布を示す。分類
クラスC1、C2を弁別するには座標軸y1、y2で切
断した方が弁別度がよい。何故ならば、本図に示すC
1、C2の重心座標g1、g2は座標軸x1、x2、x
3では(3.1,5.0,0.0)、(4.1,0.
2,0.0)で表されるが、座標軸y1、y2では
(4.2,2.1)、(3.6,−2.2)で表され、
y2の座標値が正か負で示され、識別が容易であるから
である。したがって、座標軸y1、y2を新たな座標軸
とする方が分類クラスの分類精度が向上することが判
る。これは次式、
【数2】 (但し、yはm次元、xはn次元(m<n)とする)で
表される。これにより、n次元からm次元に評価軸を減
らす特徴抽出を行うことができる。
表される。これにより、n次元からm次元に評価軸を減
らす特徴抽出を行うことができる。
【0033】上述の主成分分析により、例えば寄与率が
90%に達する座標軸の数をm本とすると、分類クラス
Cijに属する情報エンティティの重心座標gijは、 (xij1,xij2,…, xijm )、(j=1,2,3,…,Ji ) で表される。次に、分類空間におけるこれらの特徴量
を、教師情報特徴量として観点別、分類クラス別に、多
観点クラスオブジェクト部18aに格納する。
90%に達する座標軸の数をm本とすると、分類クラス
Cijに属する情報エンティティの重心座標gijは、 (xij1,xij2,…, xijm )、(j=1,2,3,…,Ji ) で表される。次に、分類空間におけるこれらの特徴量
を、教師情報特徴量として観点別、分類クラス別に、多
観点クラスオブジェクト部18aに格納する。
【0034】以上のように教師情報が構築された後、文
書情報の分類が可能となるが、この文書情報の分類が複
数回行われる度に、その時点での観点別分類クラスにお
ける分類済み情報エンティティの分類状態を基にして特
徴量を求めて、これを新たな教師情報とすることが可能
である。このように教師情報を学習しつつ更新すること
により、より精度の高い教師情報を構築することができ
る。
書情報の分類が可能となるが、この文書情報の分類が複
数回行われる度に、その時点での観点別分類クラスにお
ける分類済み情報エンティティの分類状態を基にして特
徴量を求めて、これを新たな教師情報とすることが可能
である。このように教師情報を学習しつつ更新すること
により、より精度の高い教師情報を構築することができ
る。
【0035】次に、自動分類の処理について以下に説明
する。自動分類の処理において、情報エンティティ管理
部16の情報エンティティクラスEのメソドである分類
デーモンの自動起動条件として、図5に示す情報エンテ
ィティクラスEの新たなインスタンスEnew を生成する
ために、メソドnewが実行された直後に分類デーモン
を起動するよう設定しておく。以降、ユーザが新規な文
書情報を読み書きして、本分類装置に登録または格納す
るときには、先ず、情報エンティティクラスEの新規な
インスタンスEnew が生成され、その新規な文書情報は
情報エンティティインスタンスEnew により、関連情報
(格納場所、リンク先、観点毎の分類先、特徴量、等)
が一元管理される。
する。自動分類の処理において、情報エンティティ管理
部16の情報エンティティクラスEのメソドである分類
デーモンの自動起動条件として、図5に示す情報エンテ
ィティクラスEの新たなインスタンスEnew を生成する
ために、メソドnewが実行された直後に分類デーモン
を起動するよう設定しておく。以降、ユーザが新規な文
書情報を読み書きして、本分類装置に登録または格納す
るときには、先ず、情報エンティティクラスEの新規な
インスタンスEnew が生成され、その新規な文書情報は
情報エンティティインスタンスEnew により、関連情報
(格納場所、リンク先、観点毎の分類先、特徴量、等)
が一元管理される。
【0036】図9は実施例による自動分類処理のフロー
チャートである。先ず、ステップS1では、情報エンテ
ィティ管理部16が、図5に示した情報エンティティイ
ンスタンスEnew を、メソドnewの実行により生成す
る。次いで、ステップS2では、情報エンティティクラ
スEの分類デーモンが起動され、当該分類装置の自動分
類の処理の実行が開始される。
チャートである。先ず、ステップS1では、情報エンテ
ィティ管理部16が、図5に示した情報エンティティイ
ンスタンスEnew を、メソドnewの実行により生成す
る。次いで、ステップS2では、情報エンティティクラ
スEの分類デーモンが起動され、当該分類装置の自動分
類の処理の実行が開始される。
【0037】図10は情報エンティティの内部構造を示
す図であり、(A)はインスタンスの内部構造を示す図
であり、(B)はクラスの内部構造を示す図である。図
10の(A)に示すように、情報エンティティインスタ
ンスは、属性データを有し、本実施例では、対応する文
書情報に出現する特徴を示す単語w1、w2、…の出現
頻度のデータ等、およびnewinfo、すなわち新文
書情報に対して分類処理を実行させる命令プログラムが
格納される。一方、図10の(B)に示すように、情報
エンティティクラスは、2つの格納領域を有し、上記属
性データの他に、メソド、すなわちプログラムを格納で
き、本実施例では上記命令プログラムnewinfoが
格納される。
す図であり、(A)はインスタンスの内部構造を示す図
であり、(B)はクラスの内部構造を示す図である。図
10の(A)に示すように、情報エンティティインスタ
ンスは、属性データを有し、本実施例では、対応する文
書情報に出現する特徴を示す単語w1、w2、…の出現
頻度のデータ等、およびnewinfo、すなわち新文
書情報に対して分類処理を実行させる命令プログラムが
格納される。一方、図10の(B)に示すように、情報
エンティティクラスは、2つの格納領域を有し、上記属
性データの他に、メソド、すなわちプログラムを格納で
き、本実施例では上記命令プログラムnewinfoが
格納される。
【0038】図11は分類デーモン起動により実行開始
される処理のフローチャートである。先ず、ステップS
1では、新文書情報内の全ての単語の出現確率を座標軸
x1、x2、…、xnに基づき計算する。ステップS2
では、次式により座標変換を実行する。
される処理のフローチャートである。先ず、ステップS
1では、新文書情報内の全ての単語の出現確率を座標軸
x1、x2、…、xnに基づき計算する。ステップS2
では、次式により座標変換を実行する。
【数3】 (但し、yはm次元、xはn次元(m<n)とする)
【0039】次に、ステップS3では、設定された全て
の観点に対して分類処理が完了したか否かを判別し(i
<is 但し、is は設定された観点の数) 、その判別
結果がYESのときは、ステップS4へ進み、ステップ
S4ではi=i+1を計算し、ステップS5へ進み、そ
の判別結果がNOのときは、ステップS9へ進みi=0
にリセットして本処理ルーチンを終了する。ステップS
5では、各観点における全ての分類クラスC11、C12、
C13、…、Cijの重心座標gijと新文書情報の特徴量を
示す分類空間上の座標ynew (yij1,yij2,…, yijm
)との間の距離r11、r12、r13、…、r1mを計算す
る。ステップS6では、ステップS4で計算した観点番
号i(i=1,2,3,…,n)に対し、最小となる距離r1zを
次式から計算する。
の観点に対して分類処理が完了したか否かを判別し(i
<is 但し、is は設定された観点の数) 、その判別
結果がYESのときは、ステップS4へ進み、ステップ
S4ではi=i+1を計算し、ステップS5へ進み、そ
の判別結果がNOのときは、ステップS9へ進みi=0
にリセットして本処理ルーチンを終了する。ステップS
5では、各観点における全ての分類クラスC11、C12、
C13、…、Cijの重心座標gijと新文書情報の特徴量を
示す分類空間上の座標ynew (yij1,yij2,…, yijm
)との間の距離r11、r12、r13、…、r1mを計算す
る。ステップS6では、ステップS4で計算した観点番
号i(i=1,2,3,…,n)に対し、最小となる距離r1zを
次式から計算する。
【数4】 ここで、分類クラス番号j はj=1,2,3,…,Ji とする。
【0040】次に、ステップS7では、ステップS6で
計算された最小の距離とする分類クラスCizを当該文書
情報の分類先に設定する。次いで、ステップS8では、
分類クラスCizに分類される新文書情報に対応する新し
い情報エンティティEizを生成し、ステップS3へ戻
り、他の観点に基づきステップS4〜S8の処理を観点
毎に繰り返し実行する。
計算された最小の距離とする分類クラスCizを当該文書
情報の分類先に設定する。次いで、ステップS8では、
分類クラスCizに分類される新文書情報に対応する新し
い情報エンティティEizを生成し、ステップS3へ戻
り、他の観点に基づきステップS4〜S8の処理を観点
毎に繰り返し実行する。
【0041】以上、図9、図11のフローチャートを用
いて説明したように、実施例による自動分類は、複数の
観点のうち、適切な1つの観点VPiを選択し、選択し
た観点に基づいて、新規な文書情報を上述の手法により
分類し、全ての観点に対しこれを繰り返し実行する。観
点選択における優先度は、ユーザ自身が指定するか、ラ
ンダムに選択するか、分類エントロピーが最小の観点
か、最近の閲覧頻度の高いものか等の何れに基づいて選
択してもよい。例えば、あいまい度を示す分類エントロ
ピーの計算は次式で行い、分類エントロピーが最も小さ
い順に観点を選択することができる。
いて説明したように、実施例による自動分類は、複数の
観点のうち、適切な1つの観点VPiを選択し、選択し
た観点に基づいて、新規な文書情報を上述の手法により
分類し、全ての観点に対しこれを繰り返し実行する。観
点選択における優先度は、ユーザ自身が指定するか、ラ
ンダムに選択するか、分類エントロピーが最小の観点
か、最近の閲覧頻度の高いものか等の何れに基づいて選
択してもよい。例えば、あいまい度を示す分類エントロ
ピーの計算は次式で行い、分類エントロピーが最も小さ
い順に観点を選択することができる。
【数5】 ここで、pi は優先順位とする文書情報に頻度多く出現
する単語の出現確率を示す。
する単語の出現確率を示す。
【0042】多観点管理部14は、情報エンティティ管
理部16から送られた文書情報を基に、前述した統計処
理により、文書情報の特徴量を求め、教師付分類部15
が管理する多観点分類クラスオブジェクト部18aに格
納された各分類クラスの統計的特徴量と比較し、最も近
い分類クラスを求めてその分類クラスに分類する。例え
ば、前述した統計処理による同一手法により、情報エン
ティティEnew の特徴量を抽出して、分類空間上の座標
(yi1, yi2, …, yim)を求める。この新規情報Ene
w の分類空間上の位置に重心座標が最も近い分類クラス
Cizが、観点VPiにおける分類先の分類クラスであ
る。すなわち、整数zについて、次式
理部16から送られた文書情報を基に、前述した統計処
理により、文書情報の特徴量を求め、教師付分類部15
が管理する多観点分類クラスオブジェクト部18aに格
納された各分類クラスの統計的特徴量と比較し、最も近
い分類クラスを求めてその分類クラスに分類する。例え
ば、前述した統計処理による同一手法により、情報エン
ティティEnew の特徴量を抽出して、分類空間上の座標
(yi1, yi2, …, yim)を求める。この新規情報Ene
w の分類空間上の位置に重心座標が最も近い分類クラス
Cizが、観点VPiにおける分類先の分類クラスであ
る。すなわち、整数zについて、次式
【数6】 を満たす分類クラスCizが求める分類先である。このよ
うに分類した結果は、入出力部12を介して表示装置1
1に表示される。
うに分類した結果は、入出力部12を介して表示装置1
1に表示される。
【0043】図12は表示装置11における画面表示例
を示す図である。四角で囲まれた画面上には2つの観点
VP1、VP2が示され、観点VP1に分類される分類
クラス「PDA」、「desktop 」、「workstation 」の
順に5、2、4個の文書情報が表示され、観点VP2に
分類される分類クラス「Jawa」、「C/C++」、
「Lisp」、「Basic」に順に3、4、2、1個
の文書情報が表示される。本実施例では、画面上に斜線
で示す文書情報textをマウスでクリックすることに
より、第2の観点VP2における分類クラス「Jav
a」の文書情報textが次の画面に表示される。
を示す図である。四角で囲まれた画面上には2つの観点
VP1、VP2が示され、観点VP1に分類される分類
クラス「PDA」、「desktop 」、「workstation 」の
順に5、2、4個の文書情報が表示され、観点VP2に
分類される分類クラス「Jawa」、「C/C++」、
「Lisp」、「Basic」に順に3、4、2、1個
の文書情報が表示される。本実施例では、画面上に斜線
で示す文書情報textをマウスでクリックすることに
より、第2の観点VP2における分類クラス「Jav
a」の文書情報textが次の画面に表示される。
【0044】図13は表示装置1における他の画面表示
例を示す図である。第1画面上には複数の観点が表示さ
れ、例えば第1画面上で第1の観点VP1をマウスでク
リックしてウィンドウを開くと、第2画面上にはVP1
における分類クラスC11, C12, …が表示され、第1画
面上で第2の観点VP2をマウスでクリックしてウィン
ドウを開くと、第3画面上にはVP2における分類クラ
スC21, C22, …が表示される。さらに、第2画面上で
例えば分類クラスC11をマウスでクリックしてウィンド
ウを開くと分類クラスC11内のエンティティE1,E2,…
が第4画面上に表示される。また、分類結果からエント
ロピーの低い観点からの優先順に、例えばVP2のエン
トロピーが最も低いときは、VP2の画面が第1番目に
表示される。ここで、分類エントロピーの計算は前述し
たように次式で行い、分類エントロピーが最も小さい観
点順に表示するよう設定する。
例を示す図である。第1画面上には複数の観点が表示さ
れ、例えば第1画面上で第1の観点VP1をマウスでク
リックしてウィンドウを開くと、第2画面上にはVP1
における分類クラスC11, C12, …が表示され、第1画
面上で第2の観点VP2をマウスでクリックしてウィン
ドウを開くと、第3画面上にはVP2における分類クラ
スC21, C22, …が表示される。さらに、第2画面上で
例えば分類クラスC11をマウスでクリックしてウィンド
ウを開くと分類クラスC11内のエンティティE1,E2,…
が第4画面上に表示される。また、分類結果からエント
ロピーの低い観点からの優先順に、例えばVP2のエン
トロピーが最も低いときは、VP2の画面が第1番目に
表示される。ここで、分類エントロピーの計算は前述し
たように次式で行い、分類エントロピーが最も小さい観
点順に表示するよう設定する。
【数7】 ここで、pi は優先順位とする文書情報に頻度多く出現
する単語の出現確率を示す。
する単語の出現確率を示す。
【0045】以上説明した実施例において、文書情報の
みを自動分類の対象としてきたが、マルチメディア情報
としての音声情報または画像情報に文書情報を付加し
て、その文書情報を、複数の観点から分類することによ
り、音声情報または画像情報を自動分類することも可能
である。
みを自動分類の対象としてきたが、マルチメディア情報
としての音声情報または画像情報に文書情報を付加し
て、その文書情報を、複数の観点から分類することによ
り、音声情報または画像情報を自動分類することも可能
である。
【0046】また、本発明の情報分類方法において、図
11に示す第1ステップS1〜第2ステップS9の処理
は、マルチプログラミング方式を採用し、ユーザとの対
話中の空き時間に実行するようにしている。それゆえ、
ユーザが他の対話によるタスクを実行している間に、文
書情報の自動分類を実行し、ユーザの作業効率を向上さ
せることができる。
11に示す第1ステップS1〜第2ステップS9の処理
は、マルチプログラミング方式を採用し、ユーザとの対
話中の空き時間に実行するようにしている。それゆえ、
ユーザが他の対話によるタスクを実行している間に、文
書情報の自動分類を実行し、ユーザの作業効率を向上さ
せることができる。
【0047】
【発明の効果】以上説明したように、本発明によれば、
文書情報の再利用を図り、新規な文書情報の分類クラス
への分類精度を向上させ、複数の観点に基づいて自動分
類する情報分類装置とその方法を提供できる。
文書情報の再利用を図り、新規な文書情報の分類クラス
への分類精度を向上させ、複数の観点に基づいて自動分
類する情報分類装置とその方法を提供できる。
【図1】本発明による情報分類装置の基本構成図であ
る。
る。
【図2】本発明による情報分類方法の基本処理のフロー
チャートである。
チャートである。
【図3】本発明による一実施例の情報分類装置の構成図
である。
である。
【図4】情報エンティティに対応する複数観点における
分類クラスを示す図である。
分類クラスを示す図である。
【図5】実施例の自動分類装置による文書情報の分類体
系を示す図である。
系を示す図である。
【図6】多観点による情報整理・分類を示す図である。
【図7】実施例による教師付分類処理のフローチャート
である。
である。
【図8】主成分分析の具体例の説明図である。
【図9】実施例による自動分類処理のフローチャートで
ある。
ある。
【図10】情報エンティティの内部構造を示す図であ
り、(A)はインスタンスの内部構造を示す図であり、
(B)はクラスの内部構造を示す図である。
り、(A)はインスタンスの内部構造を示す図であり、
(B)はクラスの内部構造を示す図である。
【図11】分類デーモン起動により実行開始される処理
のフローチャートである。
のフローチャートである。
【図12】表示装置における表示画面例を示す図であ
る。
る。
【図13】表示装置における他の表示画面例を示す図で
ある。
ある。
1…文書情報読取手段 2…情報エンティティ生成手段 3…教師情報特徴量抽出手段 4…新文書情報特徴量抽出手段 5…記憶手段 6…新文書情報分類手段 7…教師情報特徴量更新手段 8…表示手段 11…表示装置 12…入出力部 13…新規情報アクセス部 14…多観点管理部 15…教師付分類部 16…情報エンティティ管理部 17…情報媒体管理部 18a…多観点分類クラスオブジェクト部 18b…情報エンティティオブジェクト部 18c…情報媒体オブジェクト部 19…キーボード
Claims (12)
- 【請求項1】 文書情報を個別に複数の分類クラスの何
れかに分類する情報分類装置において、 複数の文書情報を個々の文書情報毎に読取る文書情報読
取手段と、 読取られた個々の文書情報の特徴量を抽出するため、読
取った新規な文書情報毎に各文書情報に共通なデータ構
造を有する情報エンティティを生成する情報エンティテ
ィ生成手段と、 複数の観点から観点毎に分類される複数の分類クラスの
各々に対し、複数の典型的な文書情報を元にして、該分
類クラス間を弁別する各分類クラスの特徴量として、複
数次元の分類空間上で表現される教師情報特徴量を抽出
する教師情報特徴量抽出手段と、 新規な文書情報を元にして、前記教師情報特徴量と同一
分類空間上で表現される新文書情報特徴量を抽出する新
文書情報特徴量抽出手段と、 前記教師情報特徴量と前記新文書情報特徴量とを記憶す
る記憶手段と、 各観点毎に、前記記憶手段に記憶した前記教師情報特徴
量と前記新文書情報特徴量とを比較し、前記分類空間上
の該新文書情報特徴量に最も近い特徴量を有する分類ク
ラスを導出し、該導出した分類クラスを該新規な文書情
報の分類先と定める新文書情報分類手段と、を備えたこ
とを特徴とする情報分類装置。 - 【請求項2】 前記教師情報特徴量抽出手段は、 各分類クラスに対応する教師情報特徴量を表現する分類
空間上の次元数を、予め複数の典型的な文書情報として
その分類クラスに分類した文書情報を元にして抽出した
次元数より少なくして該教師情報特徴量を抽出する請求
項1に記載の情報分類装置。 - 【請求項3】 前記新規文書情報特徴量が複数個抽出さ
れ前記記憶手段に記憶された後、これらの文書情報を元
にして、新たな教師情報特徴量を抽出し、前記記憶手段
に先に記憶された教師情報特徴量を更新する教師情報特
徴量更新手段を備える請求項1に記載の情報分類装置。 - 【請求項4】 前記情報エンティティ生成手段は、 同一の文書情報を複数の観点から分類し、新規な文書情
報に対応する前記情報エンティティにより、該新文書情
報の格納場所、観点毎の分類先、特徴量等を、文書情報
毎に一元管理する請求項1に記載の情報分類装置。 - 【請求項5】 複数の観点から分類される複数の分類ク
ラスにそれぞれ分類される文書情報を一画面上に表示す
る表示手段を備える請求項1に記載の情報分類装置。 - 【請求項6】 前記表示手段は、優先度の高い観点順に
その観点下で分類される複数の分類クラスにそれぞれ分
類される文書情報を一画面上に表示する請求項5に記載
の情報分類装置。 - 【請求項7】 音声情報または画像情報に文書情報を付
加して、その文書情報を、複数の観点から分類すること
により、前記音声情報または画像情報を自動分類する請
求項1に記載の情報分類装置。 - 【請求項8】 文書情報を個別に複数の分類クラスの何
れかに分類する情報分類方法において、 複数の観点から観点毎に分類される複数の分類クラスの
各々に対し、複数の典型的な文書情報を元にして、該分
類クラス間を弁別する各分類クラスの特徴量として、複
数次元の分類空間上で表現される教師情報特徴量を抽出
する第1ステップと、 分類の対象となる新規な文書情報を読み取り、前記教師
情報特徴量と同一分類空間上で表現される新文書情報特
徴量を抽出する第2ステップと、 第1ステップで抽出された前記教師情報特徴量と前記第
2ステップで抽出された前記新文書情報特徴量とを比較
し、前記分類空間上の前記新文書情報特徴量に最も近い
特徴量を有する分類クラスを導出する第3ステップと、
を備えたことを特徴とする情報分類方法。 - 【請求項9】 前記第1ステップは、各分類クラスに対
応する教師情報特徴量を表現する分類空間上の次元数
を、予め複数の典型的な文書情報としてその分類クラス
に分類した文書情報を元にして抽出した次元数より少な
くして該教師情報特徴量を抽出する請求項8に記載の情
報分類方法。 - 【請求項10】 前記第2ステップにより抽出された新
文書情報特徴量から、前記第3ステップにより導出され
た分類クラスに対し、該新文書情報特徴量に対応する複
数の文書情報を元にして、前記第1ステップにより、該
分類クラスに対応する新たな教師情報特徴量を抽出し、
更新する請求項8に記載の情報分類方法。 - 【請求項11】 同一の文書情報を複数の観点から分類
し、該文書情報に対応する前記情報エンティティによ
り、該文書情報の格納場所、観点毎の分類先、特徴量等
を、文書情報毎に一元管理する請求項8に記載の情報分
類方法。 - 【請求項12】 前記第1ステップ、第2ステップおよ
び第3ステップの処理は、ユーザとの対話中の空き時間
に実行される請求項8に記載の情報分類方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8265994A JPH10111869A (ja) | 1996-10-07 | 1996-10-07 | 情報分類装置とその方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8265994A JPH10111869A (ja) | 1996-10-07 | 1996-10-07 | 情報分類装置とその方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH10111869A true JPH10111869A (ja) | 1998-04-28 |
Family
ID=17424897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP8265994A Pending JPH10111869A (ja) | 1996-10-07 | 1996-10-07 | 情報分類装置とその方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH10111869A (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000067068A (ja) * | 1998-08-21 | 2000-03-03 | Nec Corp | ドキュメント自動分類システム及び方法 |
JP2001160057A (ja) * | 1999-12-03 | 2001-06-12 | Nippon Telegr & Teleph Corp <Ntt> | 画像の階層的分類方法、および画像の分類・検索装置、およびこの方法を実行するプログラムを記録した記録媒体 |
JP2004302803A (ja) * | 2003-03-31 | 2004-10-28 | Hitachi Systems & Services Ltd | 自動仕訳処理方法及びその実施装置並びにその処理プログラムと記録媒体 |
JP2007272917A (ja) * | 2007-05-14 | 2007-10-18 | Fujitsu Ltd | 文書データ提供装置、文書データ提供システム、文書データ提供方法及び文書データを提供するプログラムを記録した記録媒体 |
JP2007323275A (ja) * | 2006-05-31 | 2007-12-13 | Yokogawa Electric Corp | データ処理装置およびデータ処理方法 |
JP2008176665A (ja) * | 2007-01-19 | 2008-07-31 | Ricoh Co Ltd | ファイル保管場所監視装置、ファイル保管場所監視プログラム、記録媒体 |
JP2009099147A (ja) * | 2007-10-12 | 2009-05-07 | Palo Alto Research Center Inc | ディジタル情報への適応を提供する方法 |
JP2009129279A (ja) * | 2007-11-26 | 2009-06-11 | Yahoo Japan Corp | 機械学習装置及び機械学習方法 |
JP2022040026A (ja) * | 2020-08-28 | 2022-03-10 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | エンティティリンキング方法、装置、電子デバイス及び記憶媒体 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0554037A (ja) * | 1991-08-28 | 1993-03-05 | Fujitsu Ltd | 文書分類方式 |
JPH05342272A (ja) * | 1992-06-05 | 1993-12-24 | Fujitsu Ltd | テキスト自動分類方式 |
JPH06282587A (ja) * | 1993-03-24 | 1994-10-07 | Tokyo Electric Power Co Inc:The | 文書の自動分類方法及び装置並びに分類用の辞書作成方法及び装置 |
JPH0784858A (ja) * | 1993-09-20 | 1995-03-31 | Hitachi Ltd | 文書管理方法 |
JPH07114572A (ja) * | 1993-10-18 | 1995-05-02 | Sharp Corp | 文書分類装置 |
-
1996
- 1996-10-07 JP JP8265994A patent/JPH10111869A/ja active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0554037A (ja) * | 1991-08-28 | 1993-03-05 | Fujitsu Ltd | 文書分類方式 |
JPH05342272A (ja) * | 1992-06-05 | 1993-12-24 | Fujitsu Ltd | テキスト自動分類方式 |
JPH06282587A (ja) * | 1993-03-24 | 1994-10-07 | Tokyo Electric Power Co Inc:The | 文書の自動分類方法及び装置並びに分類用の辞書作成方法及び装置 |
JPH0784858A (ja) * | 1993-09-20 | 1995-03-31 | Hitachi Ltd | 文書管理方法 |
JPH07114572A (ja) * | 1993-10-18 | 1995-05-02 | Sharp Corp | 文書分類装置 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000067068A (ja) * | 1998-08-21 | 2000-03-03 | Nec Corp | ドキュメント自動分類システム及び方法 |
JP2001160057A (ja) * | 1999-12-03 | 2001-06-12 | Nippon Telegr & Teleph Corp <Ntt> | 画像の階層的分類方法、および画像の分類・検索装置、およびこの方法を実行するプログラムを記録した記録媒体 |
JP2004302803A (ja) * | 2003-03-31 | 2004-10-28 | Hitachi Systems & Services Ltd | 自動仕訳処理方法及びその実施装置並びにその処理プログラムと記録媒体 |
JP2007323275A (ja) * | 2006-05-31 | 2007-12-13 | Yokogawa Electric Corp | データ処理装置およびデータ処理方法 |
JP4730211B2 (ja) * | 2006-05-31 | 2011-07-20 | 横河電機株式会社 | データ処理装置およびデータ処理方法 |
JP2008176665A (ja) * | 2007-01-19 | 2008-07-31 | Ricoh Co Ltd | ファイル保管場所監視装置、ファイル保管場所監視プログラム、記録媒体 |
JP2007272917A (ja) * | 2007-05-14 | 2007-10-18 | Fujitsu Ltd | 文書データ提供装置、文書データ提供システム、文書データ提供方法及び文書データを提供するプログラムを記録した記録媒体 |
JP2009099147A (ja) * | 2007-10-12 | 2009-05-07 | Palo Alto Research Center Inc | ディジタル情報への適応を提供する方法 |
JP2009129279A (ja) * | 2007-11-26 | 2009-06-11 | Yahoo Japan Corp | 機械学習装置及び機械学習方法 |
JP2022040026A (ja) * | 2020-08-28 | 2022-03-10 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | エンティティリンキング方法、装置、電子デバイス及び記憶媒体 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022116537A1 (zh) | 一种资讯推荐方法、装置、电子设备和存储介质 | |
EP1304627B1 (en) | Methods, systems, and articles of manufacture for soft hierarchical clustering of co-occurring objects | |
JP4540970B2 (ja) | 情報検索装置及びその方法 | |
EP1678635B1 (en) | Method and apparatus for automatic file clustering into a data-driven, user-specific taxonomy | |
US6925433B2 (en) | System and method for context-dependent probabilistic modeling of words and documents | |
EP2060982A1 (en) | Information storage and retrieval | |
JP2003167914A (ja) | マルチメディア情報検索方法、プログラム、記録媒体及びシステム | |
JP4238220B2 (ja) | テキスト及び画像の意味解釈のためのグラフィカル・フィードバック | |
JP2004178604A (ja) | 情報検索装置及びその方法 | |
JP2002230021A (ja) | 情報検索装置及び情報検索方法並びに記憶媒体 | |
US20070038937A1 (en) | Method, Program, and Device for Analyzing Document Structure | |
MXPA04006932A (es) | Segmentacion de documentos con base en la vision. | |
US11928418B2 (en) | Text style and emphasis suggestions | |
JP2009294939A (ja) | 文書分類装置 | |
JP2004213626A (ja) | 情報の格納及び検索 | |
JPH10111869A (ja) | 情報分類装置とその方法 | |
JP3903613B2 (ja) | 検索装置及び検索プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2008305268A (ja) | 文書分類装置及び分類方法 | |
JP7256357B2 (ja) | 情報処理装置、制御方法、プログラム | |
JP2004110834A (ja) | 情報記憶検索システム及び方法 | |
JP4453440B2 (ja) | 視覚的情報分類方法及び装置及びプログラム及び視覚的情報分類プログラムを記録した記憶媒体 | |
JP2004086262A (ja) | 視覚的情報分類方法、視覚的情報分類装置、視覚的情報分類プログラムおよびそのプログラムを記録した記録媒体 | |
CN110688559A (zh) | 一种检索方法及装置 | |
JPH11272709A (ja) | ファイル検索方式 | |
JP4177997B2 (ja) | データベース検索装置、データベース検索方法、コンピュータプログラムおよびコンピュータ読取可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050614 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20051108 |