JP2001101226A - 文書群分類装置および文書群分類方法 - Google Patents

文書群分類装置および文書群分類方法

Info

Publication number
JP2001101226A
JP2001101226A JP28201399A JP28201399A JP2001101226A JP 2001101226 A JP2001101226 A JP 2001101226A JP 28201399 A JP28201399 A JP 28201399A JP 28201399 A JP28201399 A JP 28201399A JP 2001101226 A JP2001101226 A JP 2001101226A
Authority
JP
Japan
Prior art keywords
classification
viewpoint
document
information
unused
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP28201399A
Other languages
English (en)
Inventor
Makoto Yamazaki
真湖人 山崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP28201399A priority Critical patent/JP2001101226A/ja
Publication of JP2001101226A publication Critical patent/JP2001101226A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 これまでに用いられた文書分類視点やまだ用
いられていない文書分類視点の確認を可能にして所望の
文書部分集合を得られるようにした文書群分類装置など
を提供する。 【解決手段】 文書の内容に従って文書集合を分類する
文書群分類装置において、分類対象の文書集合のそれぞ
れの文書データを解析して分類処理に必要な情報を抽出
する文書解析部2、分類処理に際して分類視点などを指
定させる分類処理指定部7、文書解析部2により抽出さ
れた情報および分類処理指定部7により指定された分類
視点に従って文書集合を複数の文書部分集合に分類する
分類処理部4、分類処理結果の履歴情報を保持する分類
処理履歴保持部5、前記履歴情報に基づいて前記文書集
合に内在するがまだ用いていない分類視点を検出する未
使用視点検出部8、検出された前記分類視点を分類視点
指定時に表示させる未使用視点表示部10を備えた。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書群を文書の内
容に従って複数の文書部分集合に分類する文書群分類装
置などに係わり、特に、これまでに用いられた文書分類
視点やまだ用いられていない文書分類視点の確認を可能
にして所望の文書部分集合を得られるようにした文書群
分類装置などに関する。
【0002】
【従来の技術】近年、インターネットなどの普及によ
り、大量の文書群へのアクセスが可能になり、その結
果、そのような文書群を様々な利用者の意図に基づい
て、且つ効率的に利用できるようにする必要性が高まっ
ている。そのため、大量の文書群を意味のある文書部分
集合(クラスタ)に分類するというような作業が行われ
始めている。しかし、このような分類作業を人的に行お
うとすると、その人的/時間的コストが膨大なものにな
るとか、また、分類のための知識を分類者のみが有する
ことになるため、分類担当者が代わると分類基準も変わ
ってしまうというような問題がある。そのため、文書群
を人間が分類するような分類基準を用いて自動的に分類
しうる文書分類装置が望まれるようになり、特開平7-11
4572号公報に示されているように、文書に含まれるそれ
ぞれの単語の出現頻度から特徴ベクトルを抽出して、文
書群を複数の文書部分集合(クラスタ)に分類する技術
などが提供されるに至っている。しかし、それぞれの文
書には多元的な情報が含まれているので、前記のような
自動分類では利用者の意図した文書部分集合が得られな
いというような場合がある。そのため、分類の際に、利
用者が分類視点を指定するというような方法も提供され
るに至った。例えば分類視点として一つまたは複数の特
定の単語を指定して指定した単語を含む文書(あるいは
指定した単語を多く含む文書)を文書部分集合として分
類(抽出)するのである。なお、特開平11-15835号公報
に示された分類情報提示装置では、刻々と変化していく
情報群に対して行われた分類の履歴を保持して表示する
ことにより、情報群の分布がどのように変化しているか
という推移情報を把握できるようにしている。
【0003】
【発明が解決しようとする課題】しかしながら、文書分
類視点を指定できるようにした前記の従来技術や、特開
平11-15835号公報に示された従来技術においては、その
ときまでの分類処理において用いられた文書分類視点
や、文書集合に内在するがまだ用いていない文書分類視
点を利用者が確認することができないので、文書分類視
点の指定が一面的になってしまい、必ずしも所望の文書
部分集合を得られないという問題がある。本発明の課題
は、このような従来技術の問題を解決し、これまでに用
いられた文書分類視点やまだ用いられていない文書分類
視点の確認を可能にして所望の文書部分集合を得られる
ようにした文書群分類装置を提供することにある。
【0004】
【課題を解決するための手段】前記の課題を解決するた
めに、請求項1記載の発明では、文書の内容に従って文
書集合を分類する文書群分類装置において、複数の文書
から成る文書集合のそれぞれの文書データを保持する文
書保持手段と、前記文書保持手段に保持されたそれぞれ
の文書データを解析して分類処理に必要な情報を抽出す
る文書解析手段と、分類処理に際して分類視点を指定す
る分類視点指定手段と、前記文書解析手段により抽出さ
れた情報および前記分類視点指定手段により指定された
分類視点に従って文書集合を複数の文書部分集合に分類
する分類処理手段と、前記分類処理手段による分類処理
結果の履歴情報を保持する分類処理履歴保持手段と、前
記分類処理履歴保持手段に保持された分類処理結果の履
歴情報に基づいて前記文書集合に内在するがまだ用いて
いない分類視点を検出する未使用視点検出手段と、前記
分類視点指定手段による分類視点指定時に前記未使用視
点検出手段により検出された用いられていない分類視点
を表示させる未使用視点表示手段とを備えた。また、請
求項2記載の発明では、請求項1記載の発明において、
指定された分類視点情報およびその分類視点に従った分
類結果である文書部分集合情報を保持するように分類処
理履歴保持手段を構成した。また、請求項3記載の発明
では、請求項1または請求項2記載の発明において、未
使用視点表示手段により表示された分類視点情報を用い
て分類視点を指定させるように分類視点指定手段を構成
した。また、請求項4記載の発明では、請求項3記載の
発明において、さらに、分類視点情報を含んだ分類処理
結果履歴情報を表示させ、表示された履歴情報中の分類
視点を用いて分類視点を指定させるように分類視点指定
手段を構成した。また、請求項5記載の発明では、請求
項1乃至請求項4記載の発明において、未使用視点情報
を表示させる際、それぞれの未使用視点を示す一つ以上
の単語および/または前記未使用視点の文書部分集合を
代表する文書を示す情報を表示させるように未使用視点
表示手段を構成した。また、請求項6記載の発明では、
請求項1乃至請求項5記載の発明において、記憶してお
いた分類視点情報を含む情報を表示させ、表示された分
類視点情報を編集する分類視点編集手段を備え、編集さ
れた分類視点に従って分類処理を行うように分類処理手
段を構成した。また、請求項7記載の発明では、請求項
6記載の発明において、編集する分類視点情報を含む情
報を未使用視点情報または分類処理結果履歴情報とする
構成にした。
【0005】また、請求項8記載の発明では、文書の内
容に従って文書集合を分類する文書群分類方法におい
て、複数の文書から成る文書集合のそれぞれの文書デー
タを保持し、前記それぞれの文書データを解析して分類
処理に必要な内在情報を抽出しておき、分類処理に際し
て分類視点を指定し、前記内在情報および指定された前
記分類視点に従って文書集合を複数の文書部分集合に分
類し、分類処理結果の履歴情報を保持しておき、保持さ
れた前記履歴情報に基づいて前記文書集合に内在するが
まだ用いていない分類視点を検出するようにして、前記
分類視点指定時に、前記検出された用いられていない分
類視点を表示させる方法にした。また、請求項9記載の
発明では、請求項8記載の発明において、分類処理結果
の履歴情報として、指定された分類視点情報およびその
分類視点に従った分類結果である文書部分集合情報を保
持する方法にした。また、請求項10記載の発明では、請
求項8または請求項9記載の発明において、表示された
用いられていない分類視点情報を用いて分類視点を指定
させる方法にした。また、請求項11記載の発明では、請
求項10記載の発明において、さらに、分類視点情報を含
んだ分類処理結果履歴情報を表示させ、表示された履歴
情報中の分類視点を用いて分類視点を指定させる方法に
した。また、請求項12記載の発明では、請求項8乃至請
求項11記載の発明において、未使用視点情報を表示させ
る際、それぞれの未使用視点を示す一つ以上の単語およ
び/または前記未使用視点の文書部分集合を代表する文
書を示す情報を表示させる方法にした。また、請求項13
記載の発明では、請求項8乃至請求項12記載の発明にお
いて、記憶しておいた分類視点情報を含む情報を表示さ
せ、表示された分類視点情報を編集させ、編集された分
類視点に従って分類処理を行う方法にした。また、請求
項14記載の発明では、請求項13記載の発明において、編
集する分類視点情報を含む情報を未使用視点情報または
分類処理結果履歴情報とした。また、請求項15記載の発
明では、請求項8乃至請求項14記載の発明において、分
類視点を引き出した文書集合と前記分類視点に従って文
書分類を行う文書集合とが、異なる文書集合である方法
にした。また、請求項16記載の発明では、プログラムを
記憶した記憶媒体において、請求項8乃至請求項15記載
の文書群分類方法に従ってプログラミングしたプログラ
ムを記憶する構成にした。
【0006】前記のような手段にしたので、請求項1お
よび請求項8記載の発明では、文書集合のそれぞれの文
書データが解析されて分類処理に必要な内在情報が抽出
しておかれ、分類処理に際して分類視点を指定すると、
前記内在情報および指定された前記分類視点に従って文
書集合が複数の文書部分集合に分類され、分類処理結果
の履歴情報が保持され、保持された前記履歴情報に基づ
いて前記文書集合に内在するがまだ用いていない分類視
点が検出され、その結果、前記分類視点指定時に、検出
された用いられていない分類視点を表示させるようにす
ることができる。請求項2および請求項9記載の発明で
は、請求項1または請求項8記載の発明において、分類
処理結果の履歴情報として、指定された分類視点情報お
よびその分類視点に従った分類結果である文書部分集合
情報が保持される。請求項3および請求項10記載の発明
では、請求項1または請求項2、または請求項8または
請求項9記載の発明において、表示された用いられてい
ない分類視点情報を用いて分類視点が指定される。請求
項4および請求項11記載の発明では、請求項3または請
求項10記載の発明において、さらに、分類視点情報を含
んだ分類処理結果履歴情報が表示され、表示された履歴
情報中の分類視点を用いて分類視点が指定される。請求
項5および請求項12記載の発明では、請求項1乃至請求
項4または請求項8乃至請求項11記載の発明において、
未使用視点情報が表示される際、それぞれの未使用視点
を示す一つ以上の単語および/または前記未使用視点の
文書部分集合を代表する文書を示す情報が表示される。
請求項6および請求項13記載の発明では、請求項1乃至
請求項5または請求項8乃至請求項12記載の発明におい
て、記憶しておいた分類視点情報を含む情報が表示さ
れ、表示された分類視点情報が編集され、編集された分
類視点に従って分類処理が行われる。請求項7および請
求項14記載の発明では、請求項6または請求項13記載の
発明において、未使用視点情報または分類処理結果履歴
情報が表示され、編集される。請求項15記載の発明で
は、請求項8乃至請求項14記載の発明において、分類視
点を引き出した文書集合とは異なった文書集合に対して
前記分類視点に従った文書分類が行われる。請求項16記
載の発明では、請求項8乃至請求項15記載の文書群分類
方法に従ってプログラミングしたプログラムが例えば着
脱可能な記憶媒体に記憶される。
【0007】
【発明の実施の形態】以下、図面により本発明の実施の
形態を詳細に説明する。図1は本発明の一実施形態を示
す文書分類装置の構成ブロック図である。図示したよう
に、この実施形態の文書分類装置は、複数の文書から成
る文書集合(文書群)のそれぞれの文書データを保持す
る文書保持手段である文書保持部1、前記文書保持部1
に保持されたそれぞれの文書データを解析して分類処理
に必要な内在情報を抽出する文書解析手段である文書解
析部2、前記文書解析部2による解析結果情報(内在情
報)を保持する文書解析結果保持部3、前記文書解析部
2により抽出された情報に従って文書集合を複数の文書
部分集合に分類する分類処理手段である分類処理部4、
前記分類処理部4による分類処理結果の履歴情報を保持
する分類処理履歴保持手段である分類処理履歴保持部
5、キーボードやマウスなどから成る入力装置6、前記
入力装置6と共に前記分類処理に際して分類視点を指定
する分類視点指定手段などを構成する分類処理指定部
7、前記分類履歴保持部5に保持された分類処理結果の
履歴情報に基づいて前記文書集合に内在するがまだ用い
ていない分類視点を検出する未使用視点検出手段である
未使用視点検出部8、表示装置9、前記分類視点指定手
段による分類視点指定時に前記未使用視点検出部8によ
り検出された、まだ用いられていない分類視点などを表
示装置8に表示させる未使用視点表示手段である未使用
視点表示部10などを備えている。なお、前記文書解析部
2、分類処理部4、分類処理指定部7、未使用視点検出
部8、未使用視点表示部10はプログラムを記憶したメモ
リおよびそのプログラムに従って動作するCPUを共有
する。また、前記文書保持部1、文書解析結果保持部
3、分類処理履歴保持部5は例えばハードディスク装置
およびRAMの部分領域として実現される。以下、前記
各部についてさらに説明する。まず、分類対象となる複
数の文書(文書集合)の文書データが保持される文書保
持部1であるが、この保持方式としては、文書データベ
ース方式やリレーショナルデータベース方式などを用い
る。なお、文書データベース方式とは、例えば各文書の
インデックス情報として、文書番号、文書名、登録日、
登録者名、キーワードなどを登録し、そのインデックス
情報に対応付けて文書コンテンツを保管するようにした
方式である。
【0008】文書解析部2は、それぞれの文書データ中
から単語(例えば名詞)を抽出し、例えば個々の単語を
軸とした特徴空間に表現されるそれぞれの文書に対応し
た特徴ベクトルを求める。つまり、文書解析部2が個々
の文書データに対して言語処理を行って文書データを単
語に分け、それぞれの単語の出現頻度を計数し、それに
基づいてそれぞれの文書の特徴を計量的に表す特徴ベク
トルを求めるのである。図2に、12個の文書データを分
類対象とした分類事例における各文書データの特徴ベク
トル算出例を示す。ベクトルの成分数は分類対象文書デ
ータ群に生起するすべての単語の種類数になるが、ここ
では、単語の共生起関係を利用して3次元ベクトルに縮
退させている。なお、特徴ベクトルを求めずに、単に、
個々の文書毎に単語出現頻度だけを求め、文書識別符号
(文書ID)に対応付けて図3に示すように記憶する構
成も可能である(図3では出現頻度の記載を省略してい
る)。分類処理部4は求められた特徴ベクトルに対して
カイ自乗法、判別分析手法、またはクラスタ分析手法な
どを適用することにより文書分類を行う。図4に、12個
の文書データをそれらの有する計量的特徴ベクトルを用
いて3つの文書部分集合(クラスタ)に分類した場合の
分類結果例などを示す。文書データの有する計量的な3
次元ベクトルに対して例えばクラスタ分析手法の一つで
あるWard法などを適用することで特徴ベクトル値の近い
もの同士をまとめ、3つの文書部分集合に分類すること
ができる。つまり、各文書データは(b)図に示したよ
うに3つの文書部分集合(クラスタ)のうちのいずれか
一つに属する。なお、(a)図に示した代表値とは、所
属文書データの特徴ベクトルの平均値(所属文書データ
の重心)である。さらに、各文書部分集合に属する文書
データの各文書部分集合における順位(類似順)関係を
示す特徴値として、文書データの特徴ベクトルとその文
書データの属する文書部分集合の代表値との距離を求め
る。クラスタ(文書部分集合)12に所属している文書デ
ータ13の距離を求める例を次に示す。((3.00−2.66)
2+(2.00−2.00)2+(4.00−3.66)2)1/2=0.48図4
(b)に示した距離はこのようにして求めたものである。
所属している文書部分集合の代表値との距離が小さいほ
ど、その文書部分集合に属する平均的文書との類似度が
高いということになる。
【0009】また、この実施形態の分類処理部4は複数
の代表値を予め決めておき、それらの代表値との距離が
小さい文書データを集めて複数の文書部分集合を求める
こともできる。そのような方法では、分類処理部4は、
分類対象の文書集合を構成している複数の文書の各特徴
ベクトルが求まったならば、それらの特徴ベクトルの分
布領域をカバーするような複数の代表値を決め、それぞ
れの代表値との距離が小さい文書データを集めて複数の
文書部分集合を求める。また、特徴ベクトルがそのよう
な代表値に極めて近い値になるような単語の組み合わせ
を求め、それぞれの組み合わせ情報を分類対象の文書集
合に内在する複数の分類視点情報(内在分類視点情報)
として文書解析結果保持部3に記憶しておく。あるい
は、出現頻度で重みを付けられた単語の組み合わせを求
め、それぞれの組み合わせ情報を内在分類視点情報と
し、文書解析結果保持部3に記憶する(図5参照)。あ
るいは、代表値に最も近い(類似度が高い)文書中に高
い頻度で出現する単語を分類視点としてもよい。また、
特徴ベクトルを求めない構成では、一つの特定の単語ま
たは複数の特定の単語の組み合わせを分類視点とし、そ
れぞれの分類視点に対応付けて文書部分集合とする(図
6参照)。また、分類処理履歴保持部5には、実行した
分類処理の分類視点や分類結果が保持される。利用者の
分類視点指定によった分類処理を行う度毎に分類処理部
4がその分類処理に識別符号(ID)を付与し、その識
別符号に対応付けて指定された分類視点や分類結果情報
(文書部分集合情報)を分類処理履歴保持部5に保持す
るのである(図7参照)。なお、図7には、分類結果情
報(文書部分集合情報)として、一つの文書部分集合に
分類された文書の識別符号(メンバー文書ID)を示し
ている。また、図示の例の分類視点としては、重み付け
をしていない単語を示している。未使用視点検出部8は
図7に示したような分類処理履歴情報を参照することに
より、これまでに用いられなかった分類視点を図5およ
び図6に示したような内在分類視点情報中から検出す
る。
【0010】図8に、分類視点を指定した文書分類時の
動作フローを示す。以下、図8などに従って、この実施
形態の動作を説明する。なお、分類対象の文書集合は既
に文書保持部1に格納され、その文書解析が行われ、内
在分類視点情報などが文書解析結果保持部3に記憶され
ているものとする。このような状態で、この実施形態で
はまず、利用者が入力装置6および分類処理指定部7に
より分類視点指定の文書分類を指示する(ステップS
1)。そうすると、分類処理部4が未使用視点検出部8
を起動して未使用視点情報を検出させる(ステップS
2)。未使用視点検出部8は分類処理履歴保持部5に記
憶されている図7に示したような分類処理履歴情報を参
照することにより、これまでに用いられなかった分類視
点を図5および図6に示したような内在分類視点情報中
から検出(抽出)するのである。図9に、検出された未
使用視点情報の一例を示す。図示していないが、代表値
に最も近い文書中に高い頻度で出現する単語を分類視点
とする場合には、その文書名も未使用視点情報と共に取
得する。なお、対象の文書集合が文書保持部1に格納さ
れてから初めての分類視点指定の文書分類であれば分類
処理履歴情報は皆無であるので、すべての内在分類視点
が未使用分類視点になる。続いて、未使用視点表示部10
が、検出された未使用視点情報を表示する(ステップS
3)。代表値に最も近い文書(代表文書)中に高い頻度
で出現する単語を分類視点とする場合の表示例を図10に
示す。図示したように、分類視点だけでなく、代表文書
を示す情報として例えば文書名を表示させる。なお、代
表文書を示す情報は文書内容の一部とかその文書のイン
デックス情報などであってもよい。また、分類視点を示
す複数の単語は出現頻度の多い順に並べている。図10に
示された各行は予め分類されたそれぞれの文書部分集合
に対応しているので、利用者は、表示された複数の分類
視点情報および文書名を見て、例えば所望の文書が属し
ていると思われる文書部分集合をそのなかから探すので
ある。また、この実施形態では、図7に示したような分
類処理履歴情報も表示させることができるので(但し、
メンバー文書IDは表示させない)、同様に、そのなか
からも探す。その結果、未使用視点情報や分類処理結果
履歴情報中に利用者の意図に合致する分類視点があれば
マウスなどによりそれを選択し、合致する分類視点がな
いと判断した場合には、CPUなどにより構成した分類
視点編集手段(図示していない)が、例えば入力装置6
を用いて、分類視点を構成している複数の単語の一部を
削除させたり、逆に、未使用視点情報や分類処理結果履
歴情報の中の他の分類視点中の単語をコピーさせて追加
させたりする(ステップS4)。なお、そして、分類視
点に修正があった場合は(ステップS5でYes)、分類
処理部4が修正された分類視点を用いて対象の文書集合
を分類し直す(ステップS6)。例えば、図10に示した
例で、分類視点欄の「言語」と「文化」との間に「情
報」という単語が追加されたならば、この文書における
「情報」という単語の出現頻度を「言語」の出現頻度と
「文化」の出現頻度の平均値にしてその文書の特徴ベク
トルを算出し直し(つまり、修正された代表値を求め
る)、算出された値を既に求めてある各文書の特徴ベク
トルの値と比較し、近い値の文書群を新たな文書部分集
合とするのである。
【0011】続いて、分類処理部4は、文書登録時に作
成されているインデックス情報中から新たな文書部分集
合に属する文書の文書名を取得し、その文書名を修正さ
れた代表値に近い特徴ベクトル値順にリストアップし、
表示装置9に表示させる(ステップS7)。それに対し
て、分類視点の修正がなかった場合は(ステップS5で
No)、既に分類されている指定された分類視点の文書部
分集合に属する文書IDの文書名を取得し、その文書名
をリストアップし、表示装置9に表示させる(ステップ
S7)。なお、このとき行った分類処理結果もまた分類
処理履歴情報として分類処理履歴保持部5に記憶される
が、この際、分類視点に変更があった場合だけ記憶する
ようにすることも可能である。こうして、この実施形態
によれば、広い視野から分類視点を指定することがで
き、したがって、分類視点の指定が一面的でなくなるの
で、利用者の求めている文書が表示された文書リスト中
にある確率が高まり、したがって、求めている文書を容
易に取得することが可能になる。なお、以上の説明にお
いて、分類視点を引き出した文書集合と前記分類視点に
従って文書分類を行う文書集合とが、異なる文書集合で
あってもよい。例えば、先月までに文書保持部1に保持
された文書集合から「問い合わせ」という単語の分類視
点が未使用視点情報または分類処理結果履歴情報として
引き出されたとして、今月、「新製品Xの機能に関する
問い合わせ」という文書名の文書が前記文書集合に加わ
った後に、前記分類視点を用いて文書分類を行わせる
と、分類された文書部分集合中に「新製品Xの機能に関
する問い合わせ」という文書も含まれるのである。以
上、図1に示した文書群分類装置の場合で説明したが、
本発明の文書群分類方法に従ってプログラミングしたプ
ログラムを、例えば、着脱可能な記憶媒体に記憶させ、
その記憶媒体をこれまで本発明の文書群分類を行えなか
ったパーソナルコンピュータなどの情報処理装置に装填
することにより、その情報処理装置においても本発明の
文書群分類を行うことができる。
【0012】
【発明の効果】以上説明したように、請求項1および請
求項8記載の本発明では、文書集合のそれぞれの文書デ
ータが解析されて分類処理に必要な内在情報が抽出して
おかれ、分類処理に際して分類視点を指定すると、前記
内在情報および指定された前記分類視点に従って文書集
合が複数の文書部分集合に分類され、分類処理結果の履
歴情報が保持され、保持された前記履歴情報に基づいて
前記文書集合に内在するがまだ用いていない分類視点が
検出されて、前記分類視点指定時に、用いられていない
分類視点を表示させるようにすることができるので、表
示された分類視点を参考にして分類視点の指定を行うこ
とができ、したがって、分類視点の指定が一面的でなく
なり、その結果、所望の文書部分集合を得ることができ
る。また、請求項2および請求項9記載の本発明では、
請求項1または請求項8記載の発明において、分類処理
結果の履歴情報として、指定された分類視点情報および
その分類視点に従った分類結果である文書部分集合情報
が保持されるので、前記分類視点中のいずれかを分類視
点として再び指定する場合、指定された分類視点の文書
部分集合情報をすばやく取り出すことができる。また、
請求項3および請求項10記載の本発明では、請求項1ま
たは請求項2、または請求項8または請求項9記載の発
明において、表示された用いられていない分類視点情報
を用いて分類視点を指定できるので、分類視点指定作業
が簡単になる。また、請求項4および請求項11記載の本
発明では、請求項3または請求項10記載の発明におい
て、さらに、分類視点情報を含んだ分類処理結果履歴情
報が表示され、表示された履歴情報中の分類視点を用い
て分類視点を指定できるので、さらに広い視野から分類
指定を行うことができるし、所望の分類視点と同一の分
類視点が表示されたなかにある確率が高くなるので、簡
単に分類視点指定作業を行うことができる確率が高くな
る。
【0013】また、請求項5および請求項12記載の本発
明では、請求項1乃至請求項4または請求項8乃至請求
項11記載の発明において、未使用視点情報が表示される
際、それぞれの未使用視点を示す一つ以上の単語および
/または前記未使用視点の文書部分集合を代表する文書
を示す情報が表示されるので、例えば特徴ベクトル空間
を用いて文書分類を行う場合であっても、利用者は文書
部分集合を示す分類視点が容易に分かる。また、請求項
6および請求項13記載の本発明では、請求項1乃至請求
項5または請求項8乃至請求項12記載の発明において、
記憶しておいた分類視点情報を含む情報が表示され、表
示された分類視点情報が編集され、編集された分類視点
に従って分類処理が行われるので、表示されたなかに所
望の分類視点がなくても、容易に分類視点を指定でき
る。また、請求項7および請求項14記載の本発明では、
請求項6または請求項13記載の発明において、未使用視
点情報または分類処理結果履歴情報を用いて編集し、編
集された分類視点に従って分類処理が行われるので、請
求項6または請求項13記載の発明の効果を実現できるだ
けでなく、編集のためだけに分類視点情報を含んだ特別
の情報(未使用視点情報または分類処理結果履歴情報以
外の情報)を表示させる必要がなくなる。また、請求項
15記載の本発明では、請求項8乃至請求項14記載の発明
において、分類視点を引き出した文書集合とは異なった
文書集合に対して前記分類視点に従った文書分類を行う
ことができるので、例えば分類視点を引き出した文書集
合に新たな文書が加わったりしても請求項8乃至請求項
14記載の発明の効果を得ることができる。また、請求項
16記載の本発明では、請求項8乃至請求項15記載の文書
群分類方法に従ってプログラミングしたプログラムが例
えば着脱可能な記憶媒体に記憶されるので、その記憶媒
体をこれまで請求項8乃至請求項15記載の発明の文書群
分類を行えなかったパーソナルコンピュータなど情報処
理装置に装填することにより、その情報処理装置におい
ても請求項8乃至請求項15記載の発明の効果を得ること
ができる。
【図面の簡単な説明】
【図1】本発明の一実施形態を示す文書群分類装置の構
成ブロック図である。
【図2】本発明の一実施形態を示す文書群分類方法の説
明図である。
【図3】本発明の一実施形態を示す文書群分類方法のデ
ータ構成図である。
【図4】本発明の一実施形態を示す文書群分類方法の他
の説明図である。
【図5】本発明の一実施形態を示す文書群分類方法の他
のデータ構成図である。
【図6】本発明の一実施形態を示す文書群分類方法の他
のデータ構成図である。
【図7】本発明の一実施形態を示す文書群分類方法の他
のデータ構成図である。
【図8】本発明の一実施形態を示す文書群分類方法の動
作フロー図である。
【図9】本発明の一実施形態を示す文書群分類方法の他
の説明図である。
【図10】本発明の一実施形態を示す文書群分類方法の
画面図である。
【符号の説明】
1 文書保持部 2 文書解析部 3 文書解析結果保持部 4 分類処理部 5 分類処理履歴保持部 6 入力装置 7 分類処理指定部 8 未使用視点検出部 9 表示装置 10 未使用視点表示部

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】 文書の内容に従って文書集合を分類する
    文書群分類装置において、複数の文書から成る文書集合
    のそれぞれの文書データを保持する文書保持手段と、前
    記文書保持手段に保持されたそれぞれの文書データを解
    析して分類処理に必要な情報を抽出する文書解析手段
    と、分類処理に際して分類視点を指定する分類視点指定
    手段と、前記文書解析手段により抽出された情報および
    前記分類視点指定手段により指定された分類視点に従っ
    て文書集合を複数の文書部分集合に分類する分類処理手
    段と、前記分類処理手段による分類処理結果の履歴情報
    を保持する分類処理履歴保持手段と、前記分類処理履歴
    保持手段に保持された分類処理結果の履歴情報に基づい
    て前記文書集合に内在するがまだ用いていない分類視点
    を検出する未使用視点検出手段と、前記分類視点指定手
    段による分類視点指定時に前記未使用視点検出手段によ
    り検出された用いられていない分類視点を表示させる未
    使用視点表示手段とを備えたことを特徴とする文書群分
    類装置。
  2. 【請求項2】 請求項1記載の文書群分類装置におい
    て、指定された分類視点情報およびその分類視点に従っ
    た分類結果である文書部分集合情報を保持するように分
    類処理履歴保持手段を構成したことを特徴とする文書群
    分類装置。
  3. 【請求項3】 請求項1または請求項2記載の文書群分
    類装置において、未使用視点表示手段により表示された
    分類視点情報を用いて分類視点を指定させるように分類
    視点指定手段を構成したことを特徴とする文書群分類装
    置。
  4. 【請求項4】 請求項3記載の文書群分類装置におい
    て、さらに、分類視点情報を含んだ分類処理結果履歴情
    報を表示させ、表示された履歴情報中の分類視点を用い
    て分類視点を指定させるように分類視点指定手段を構成
    したことを特徴とする文書群分類装置。
  5. 【請求項5】 請求項1乃至請求項4記載の文書群分類
    装置において、未使用視点情報を表示させる際、それぞ
    れの未使用視点を示す一つ以上の単語および/または前
    記未使用視点の文書部分集合を代表する文書を示す情報
    を表示させるように未使用視点表示手段を構成したこと
    を特徴とする文書群分類装置。
  6. 【請求項6】 請求項1乃至請求項5記載の文書群分類
    装置において、記憶しておいた分類視点情報を含む情報
    を表示させ、表示された分類視点情報を編集する分類視
    点編集手段を備え、編集された分類視点に従って分類処
    理を行うように分類処理手段を構成したことを特徴とす
    る文書群分類装置。
  7. 【請求項7】 請求項6記載の文書群分類装置におい
    て、編集する分類視点情報を含む情報を未使用視点情報
    または分類処理結果履歴情報とする構成にしたことを特
    徴とする文書群分類装置。
  8. 【請求項8】 文書の内容に従って文書集合を分類する
    文書群分類方法において、複数の文書から成る文書集合
    のそれぞれの文書データを保持し、前記それぞれの文書
    データを解析して分類処理に必要な内在情報を抽出して
    おき、分類処理に際して分類視点を指定し、前記内在情
    報および指定された前記分類視点に従って文書集合を複
    数の文書部分集合に分類し、分類処理結果の履歴情報を
    保持しておき、保持された前記履歴情報に基づいて前記
    文書集合に内在するがまだ用いていない分類視点を検出
    するようにして、前記分類視点指定時に、前記検出され
    た用いられていない分類視点を表示させることを特徴と
    する文書群分類方法。
  9. 【請求項9】 請求項8記載の文書群分類方法におい
    て、分類処理結果の履歴情報として、指定された分類視
    点情報およびその分類視点に従った分類結果である文書
    部分集合情報を保持することを特徴とする文書群分類方
    法。
  10. 【請求項10】 請求項8または請求項9記載の文書群
    分類方法において、表示された用いられていない分類視
    点情報を用いて分類視点を指定させることを特徴とする
    文書群分類方法。
  11. 【請求項11】 請求項10記載の文書群分類方法におい
    て、さらに、分類視点情報を含んだ分類処理結果履歴情
    報を表示させ、表示された履歴情報中の分類視点を用い
    て分類視点を指定させることを特徴とする文書群分類方
    法。
  12. 【請求項12】 請求項8乃至請求項11記載の文書群分
    類方法において、未使用視点情報を表示させる際、それ
    ぞれの未使用視点を示す一つ以上の単語および/または
    前記未使用視点の文書部分集合を代表する文書を示す情
    報を表示させることを特徴とする文書群分類方法。
  13. 【請求項13】 請求項8乃至請求項12記載の文書群分
    類方法において、記憶しておいた分類視点情報を含む情
    報を表示させ、表示された分類視点情報を編集させ、編
    集された分類視点に従って分類処理を行うことを特徴と
    する文書群分類方法。
  14. 【請求項14】 請求項13記載の文書群分類方法におい
    て、編集する分類視点情報を含む情報を未使用視点情報
    または分類処理結果履歴情報としたことを特徴とする文
    書群分類方法。
  15. 【請求項15】 請求項8乃至請求項14記載の文書群分
    類方法において、分類視点を引き出した文書集合と前記
    分類視点に従って文書分類を行う文書集合とが、異なる
    文書集合であることを特徴とする文書群分類方法。
  16. 【請求項16】 プログラムを記憶した記憶媒体におい
    て、請求項8乃至請求項15記載の文書群分類方法に従っ
    てプログラミングしたプログラムを記憶する構成にした
    ことを特徴とする記憶媒体。
JP28201399A 1999-10-01 1999-10-01 文書群分類装置および文書群分類方法 Pending JP2001101226A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP28201399A JP2001101226A (ja) 1999-10-01 1999-10-01 文書群分類装置および文書群分類方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP28201399A JP2001101226A (ja) 1999-10-01 1999-10-01 文書群分類装置および文書群分類方法

Publications (1)

Publication Number Publication Date
JP2001101226A true JP2001101226A (ja) 2001-04-13

Family

ID=17647026

Family Applications (1)

Application Number Title Priority Date Filing Date
JP28201399A Pending JP2001101226A (ja) 1999-10-01 1999-10-01 文書群分類装置および文書群分類方法

Country Status (1)

Country Link
JP (1) JP2001101226A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004145626A (ja) * 2002-10-24 2004-05-20 Telecommunication Advancement Organization Of Japan 文書分類支援装置およびコンピュータプログラム
JP2004178123A (ja) * 2002-11-26 2004-06-24 Hitachi Ltd 情報処理装置、該情報処理装置を実現するためのプログラム
JP2010134586A (ja) * 2008-12-03 2010-06-17 Fuji Xerox Co Ltd 情報処理装置及びプログラム
JP2011133996A (ja) * 2009-12-22 2011-07-07 Toshiba Corp 文書分類装置及び文書分類プログラム
WO2012066760A1 (ja) * 2010-11-17 2012-05-24 日本電気株式会社 順序判定装置、順序判定方法および順序判定プログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004145626A (ja) * 2002-10-24 2004-05-20 Telecommunication Advancement Organization Of Japan 文書分類支援装置およびコンピュータプログラム
JP2004178123A (ja) * 2002-11-26 2004-06-24 Hitachi Ltd 情報処理装置、該情報処理装置を実現するためのプログラム
JP2010134586A (ja) * 2008-12-03 2010-06-17 Fuji Xerox Co Ltd 情報処理装置及びプログラム
JP4666065B2 (ja) * 2008-12-03 2011-04-06 富士ゼロックス株式会社 情報処理装置及びプログラム
JP2011133996A (ja) * 2009-12-22 2011-07-07 Toshiba Corp 文書分類装置及び文書分類プログラム
WO2012066760A1 (ja) * 2010-11-17 2012-05-24 日本電気株式会社 順序判定装置、順序判定方法および順序判定プログラム
JPWO2012066760A1 (ja) * 2010-11-17 2014-05-12 日本電気株式会社 順序判定装置、順序判定方法および順序判定プログラム

Similar Documents

Publication Publication Date Title
US6654744B2 (en) Method and apparatus for categorizing information, and a computer product
US20190012753A1 (en) Systems and methods for image searching of patent-related documents
JP4627656B2 (ja) 動的コンテンツクラスタリング
US20060179051A1 (en) Methods and apparatus for steering the analyses of collections of documents
JP2009517750A (ja) 情報検索
JP2000172701A (ja) 文書データ提供装置、文書データ提供システム、文書データ提供方法及び文書データを提供するプログラムを記録した記録媒体
JP2005038386A (ja) 文章分類装置および方法
JP4361526B2 (ja) 評判情報処理装置、評判情報処理方法、評判情報処理プログラム、及び記録媒体
US7836059B2 (en) System and method for minimally predictive feature identification
JP2002007433A (ja) 情報分類装置、情報分類方法および情報分類プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに情報分類プログラム
Verma et al. A fuzzy-neural approach for interpretation and fusion of colour and texture features for CBIR systems
WO2008062822A1 (fr) Dispositif d'exploration de texte, procédé d'exploration de texte et programme d'exploration de texte
CN112860850B (zh) 人机交互方法、装置、设备及存储介质
JPH08263514A (ja) 文書の自動分類方法、および情報空間の可視化方法、ならびに情報検索システム
JP2001101227A (ja) 文書分類装置および文書分類方法
JP2001101226A (ja) 文書群分類装置および文書群分類方法
JPH11110409A (ja) 情報分類方法及び装置
JP2000172691A (ja) 情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001337971A (ja) 文書分類装置、文書分類方法及び文書分類方法のプログラムを記録した記憶媒体
JP3693514B2 (ja) 文書検索・分類方法および装置
JPH08287086A (ja) 適合度順画像強調表示方法及び装置
JP2001117930A (ja) 文書分類装置、文書分類方法および記録媒体
JP2000305950A (ja) 文書分類装置および文書分類方法
JPH1185794A (ja) 検索語入力装置および検索語入力プログラムを記録した記録媒体
JP2004206571A (ja) 文書情報提示方法及び装置並びにプログラム及び記録媒体