JP2000305950A - 文書分類装置および文書分類方法 - Google Patents

文書分類装置および文書分類方法

Info

Publication number
JP2000305950A
JP2000305950A JP11118798A JP11879899A JP2000305950A JP 2000305950 A JP2000305950 A JP 2000305950A JP 11118798 A JP11118798 A JP 11118798A JP 11879899 A JP11879899 A JP 11879899A JP 2000305950 A JP2000305950 A JP 2000305950A
Authority
JP
Japan
Prior art keywords
document data
document
cluster
threshold value
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11118798A
Other languages
English (en)
Inventor
Tetsuo Nagatsuka
哲郎 長束
Tatsuo Miyaji
達生 宮地
Atsuo Shimada
敦夫 嶋田
Eiji Kenmochi
栄治 剣持
Makoto Yamazaki
真湖人 山崎
Kazuhisa Takeya
一寿 武谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP11118798A priority Critical patent/JP2000305950A/ja
Publication of JP2000305950A publication Critical patent/JP2000305950A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 利用者がクラスタの特徴を容易に把握するこ
とができる文書分類装置などを提供する。 【解説手段】 文書の内容に従って文書群を分類する文
書分類装置において、分類対象の文書データ群の各文書
データを文書の内容に従って自動的に分類する文書分類
部2と、文書分類部2により分類された文書データの部
分集合である各クラスタに属する文書データの各クラス
タにおける順位関係を示す特徴値を求める特徴値算出部
3と、一つのクラスタに属する文書データ群を分割する
ためのしきい値を指定させるしきい値指定部5と、しき
い値指定部5により指定されたしきい値および特徴値算
出部3により求められた各文書データの特徴値に従って
一つのクラスタに属する前記文書データ群を分割するク
ラスタ分割部6とを備えた。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力された文書群
を文書の内容に従って分類する文書分類装置などに係わ
り、特に、分類された文書データの部分集合である各ク
ラスタに属する文書データ群を指定したしきい値に従っ
て分割させることができる文書分類装置などに関する。
【0002】
【従来の技術】近年、インターネットなどの普及によ
り、大量の文書群へのアクセスが可能になり、その結
果、そのような文書群を様々な利用者の意図に基づい
て、且つ効率的に利用できるようにする必要性が高まっ
ている。そのため、大量の文書群を意味のあるカテゴリ
(クラスタ)に分類するというような作業が行われ始め
ている。しかし、このような分類作業を人的に行おうと
すると、その人的/時間的コストが膨大なものになると
か、また、分類のための知識を分類者のみが有すること
になるため、分類担当者が代わると分類基準も変わって
しまうとかいうような問題がある。そのため、文書群を
人間が分類するような分類基準で自動的に分類しうる文
書分類装置が望まれており、特開平7-114572号公報に示
されているように、文書に含まれる単語から特徴ベクト
ルを抽出して、文書群を複数のクラスタ(部分集合)に
分類する技術などが提供されるに至っている。しかし、
分類された一つのクラスタに多数の文書データ(文書)
が属していたり、一つのクラスタ内にそのクラスタと関
連のない文書データが含まれたりするため、利用者がク
ラスタの特徴を容易に理解できないというような問題が
ある。また、分類対象である文書データが必ずいずれか
のクラスタに属するように分類する文書分類装置では、
クラスタとの関連度(類似度)の低い文書データが一つ
のクラスタに分類されてしまい、クラスタ内のまとまり
が低くなるというような問題もある。
【0003】
【発明が解決しようとする課題】本発明の課題は、前記
のような従来技術の問題を解決し、分類された文書デー
タの部分集合である各クラスタに属する文書データ群を
属するクラスタとの類似度などに従って分割させたりす
ることにより、利用者がクラスタの特徴を容易に把握す
ることができたり、クラスタとの関連度の低い文書デー
タを複数のクラスタから集めて新たなクラスタを作成す
ることでより適切な分類結果を得ることもできたりする
文書分類装置などを提供することにある。
【0004】
【課題を解決するための手段】前記の課題を解決するた
めに、請求項1記載の発明では、文書の内容に従って文
書群を分類する文書分類装置において、分類対象の文書
データ群の各文書データを文書の内容に従って自動的に
分類する文書分類手段と、前記文書分類手段により分類
された文書データの部分集合である各クラスタに属する
文書データの各クラスタにおける順位関係を示す特徴値
を求める特徴値算出手段と、一つのクラスタに属する文
書データ群を分割するためのしきい値を指定させるしき
い値指定手段と、前記しきい値指定手段により指定され
たしきい値および前記特徴値算出手段により求められた
各文書データの特徴値に従って一つのクラスタに属する
前記文書データ群を分割する分割手段とを備えた。ま
た、請求項2記載の発明では、請求項1記載の発明にお
いて、各クラスタに属する文書データの各クラスタにお
ける順位関係を示す特徴値として、前記文書データとそ
の文書データの属するクラスタとの類似度を求めるよう
に特徴値算出手段を構成し、しきい値として類似度を指
定させるようにしきい値指定手段を構成した。また、請
求項3記載の発明では、請求項1記載の発明において、
各クラスタに属する文書データの各クラスタにおける順
位関係を示す特徴値として、前記文書データとその文書
データの属するクラスタとの類似度を求めるように特徴
値算出手段を構成し、しきい値として文書データ数を指
定させるようにしきい値指定手段を構成し、最大または
最小の類似度の文書データから類似度順に前記文書デー
タ数の文書データまでを分割された一つの部分文書デー
タ群として分割するように分割手段を構成した。また、
請求項4記載の発明では、請求項1記載の発明におい
て、各クラスタに属する文書データの各クラスタにおけ
る順位関係を示す特徴値として、前記文書データとその
文書データの属するクラスタとの類似度の偏差値を求め
るように特徴値算出手段を構成し、しきい値として類似
度の偏差値を指定させるようにしきい値指定手段を構成
した。また、請求項5記載の発明では、請求項1〜4の
いずれかに記載の発明において、特徴値を含む分類結果
情報が特徴値の値順に表示されている画面上の所望の位
置を指示させることによりしきい値を指定させるように
しきい値指定手段を構成した。また、請求項6記載の発
明では、請求項1〜5のいずれかに記載の発明におい
て、クラスタ毎にしきい値を指定できるようにしきい値
指定手段を構成した。また、請求項7記載の発明では、
請求項1〜6のいずれかに記載の文書分類装置におい
て、分割手段により分割された各文書データを示す情報
の表示形式を前記文書データの属する部分文書データ群
に対応付けて異ならせた構成にした。また、請求項8記
載の発明では、請求項1〜7のいずれかに記載の発明に
おいて、分割手段により複数のクラスタを分割して作成
した複数の部分文書データ群を異なったクラスタから抽
出し合成して新たなクラスタを作成する構成にした。
【0005】また、請求項9記載の発明では、文書の内
容に従って文書群を分類する文書分類方法において、分
類対象の文書データ群の各文書データを文書の内容に従
って自動的に分類し、分類された文書データの部分集合
である各クラスタに属する文書データの各クラスタにお
ける順位関係を示す特徴値を求め、一つのクラスタに属
する文書データ群を分割するためのしきい値を指定さ
せ、指定されたしきい値および各文書データの前記特徴
値に従って一つのクラスタに属する前記文書データ群を
分割する方法にした。また、請求項10記載の発明で
は、請求項9記載の発明において、各クラスタに属する
文書データの各クラスタにおける順位関係を示す特徴値
として、前記文書データとその文書データの属するクラ
スタとの類似度を求め、しきい値として類似度を指定さ
せるようにした。また、請求項11記載の発明では、請
求項9記載の発明において、各クラスタに属する文書デ
ータの各クラスタにおける順位関係を示す特徴値とし
て、前記文書データとその文書データの属するクラスタ
との類似度を求め、しきい値として文書データ数を指定
させ、最大または最小の類似度の文書データから類似度
順に前記文書データ数の文書データまでを分割された一
つの部分文書データ群として分割するようにした。ま
た、請求項12記載の発明では、請求項9記載の発明に
おいて、各クラスタに属する文書データの各クラスタに
おける順位関係を示す特徴値として、前記文書データと
その文書データの属するクラスタとの類似度の偏差値を
求め、しきい値として類似度の偏差値を指定させるよう
にした。また、請求項13記載の発明では、請求項9〜
12記載の発明において、特徴値を含む分類結果情報が
特徴値の値順に表示されている画面上の所望の位置を指
示させることによりしきい値を指定させるようにした。
また、請求項14記載の発明では、請求項9〜13記載
の発明において、クラスタ毎にしきい値を指定できるよ
うにした。また、請求項15記載の発明では、請求項9
〜14記載の発明において、分割された各文書データを
示す情報の表示形式を前記文書データの属する部分文書
データ群に対応付けて異ならせた。また、請求項16記
載の発明では、請求項9〜15記載の発明において、複
数のクラスタを分割して作成した複数の部分文書データ
群を異なったクラスタから抽出し合成して、新たなクラ
スタを作成する方法にした。
【0006】
【作用】前記のような手段にしたので、請求項1および
請求項9記載の発明では、分類対象の文書データ群の各
文書データが文書の内容に従って自動的に分類され、分
類された文書データの部分集合である各クラスタに属す
る文書データの各クラスタにおける順位関係を示す特徴
値が求められ、一つのクラスタに属する文書データ群を
分割するためのしきい値が指定され、指定されたしきい
値および各文書データの前記特徴値に従って一つのクラ
スタに属する前記文書データ群が分割される。請求項2
および請求項10記載の発明では、請求項1または請求
項9記載の発明において、各クラスタに属する文書デー
タの各クラスタにおける順位関係を示す特徴値として、
前記文書データとその文書データの属するクラスタとの
類似度が求められ、しきい値として類似度が指定され
る。請求項3および請求項11記載の発明では、請求項
1または請求項9記載の発明において、各クラスタに属
する文書データの各クラスタにおける順位関係を示す特
徴値として、前記文書データとその文書データの属する
クラスタとの類似度が求められ、しきい値として文書デ
ータ数が指定され、最大または最小の類似度の文書デー
タから類似度順に前記文書データ数の文書データまでが
分割された一つの部分文書データ群として分割される。
請求項4および請求項12記載の発明では、請求項1ま
たは請求項9記載の発明において、各クラスタに属する
文書データの各クラスタにおける順位関係を示す特徴値
として、前記文書データとその文書データの属するクラ
スタとの類似度の偏差値が求められ、しきい値として類
似度の偏差値が指定される。請求項5および請求項13
記載の発明では、請求項1〜4または請求項9〜12記
載の発明において、特徴値を含む分類結果情報が特徴値
の値順に表示されている画面上の所望の位置を指示する
ことによりしきい値が指定される。請求項6および請求
項14記載の発明では、請求項1〜5または請求項9〜
13記載の発明において、クラスタ毎にしきい値を指定
できる。請求項7〜15記載の発明では、請求項1〜6
または請求項9〜14記載の発明において、分割された
各文書データを示す情報の表示形式が前記文書データの
属する部分文書データ群に対応付けられて異なる。請求
項8および請求項16記載の発明では、請求項1〜7ま
たは請求項9〜15記載の発明において、複数のクラス
タが分割されて作成された複数の部分文書データ群が異
なったクラスタから抽出され合成されて新たなクラスタ
が作成される。
【0007】
【発明の実施の形態】以下、図面により本発明の実施の
形態を詳細に説明する。図1は本発明の各実施の形態の
文書分類装置の構成ブロック図である。図示したよう
に、この実施の形態の文書分類装置は、文書データ群を
入力する文書群入力部1、入力された文書群をその内容
に従って自動的に複数のクラスタ(分類された文書部分
集合)に分類する文書分類部(文書分類手段)2、各ク
ラスタに属する文書データのクラスタ内での順位関係を
示す特徴値を求める特徴値算出部(特徴値算出手段)
3、文書分類部2による分類結果および特徴値算出部2
の求めた特徴値などを記憶しておく分類結果記憶部4、
キーボードなど入力手段を有して利用者にしきい値を指
定させるしきい値指定部5、指定されたしきい値に従っ
てクラスタに属する文書データ群を分割する分割手段で
あるクラスタ分割部6、クラスタ分割部6による分割結
果を記憶しておく分割結果記憶部7、前記分割結果など
を表示する表示部8などを備えている。なお、前記文書
分類部2、特徴値算出部3、しきい値指定部5、クラス
タ分割部6は共有または独自のプログラム記憶用メモリ
およびプログラムに従って動作するCPUを有してい
る。また、しきい値指定部5および表示部8はしきい値
指定手段を構成する。以下、図1などに従って、第1の
実施の形態の文書分類装置、文書分類方法を詳細に説明
する。まず、文書入力部1により、文書群が入力され
る。この文書入力部1はキーボード(しきい値指定部5
と共有)、OCR装置、着脱型記録媒体、またはネット
ワーク通信手段を備え、それらのいずれかを介して文書
データ群を入力するのである。そして、文書分類部2が
入力された文書データ群を取得し、それぞれの文書デー
タを複数のクラスタに分類する。例えば、個々の文書デ
ータに対して言語処理を行って文書データを単語に分
け、それぞれの単語の出現頻度を計数し、それに基づい
てそれぞれの文書の特徴を計量的に表す特徴ベクトルを
求め、それらの特徴ベクトルに対してカイ自乗法、判別
分析手法、またはクラスタ分析手法などを適用すること
により文書分類を行うのである。図2に、12個の文書デ
ータを分類対象とした分類事例における各文書データの
特徴ベクトル算出例を示す。ベクトルの成分数は分類対
象文書データ群に生起するすべての単語の種類数になる
が、ここでは、いくつかの単語が縮退した3次元ベクト
ルに線形変換している。
【0008】また、図3に、12個の文書データをそれら
の有する計量的特徴ベクトルを用いて3つのクラスタに
分類した場合の分類結果例などを示す。文書データの有
する計量的な3次元ベクトルに対して例えばクラスタ分
析手法の一つであるWard法などを適用することで特徴ベ
クトル値の近いもの同士をまとめ、3つのクラスタに分
類することができる。つまり、各文書データは(b)図
に示したように3つのクラスタのうちのいずれか一つに
属する。なお、(a)図に示した代表値とは、所属文書
データの特徴ベクトルの平均値(所属文書データの重
心)である。さらに、特徴値算出部3が各クラスタに属
する文書データの各クラスタにおける順位関係を示す特
徴値として、文書データの特徴ベクトルとその文書デー
タの属するクラスタの代表値との距離を求める。クラス
タ12に所属している文書データ13の距離を求める例を次
に示す。 ((3.00−2.66)2+(2.00−2.00)2+(4.00−3.66)
21/2=0.48 図3(b)に示した距離はこのようにして求めたもので
ある。所属クラスタの代表値との距離が小さいほど、そ
のクラスタに属する平均的文書との類似度が高いという
ことになり、この距離からクラスタにおける順位関係を
示す特徴値として類似度を求めることができる。なお、
文書分類部2による分類結果および特徴値算出部2の求
めた特徴値(例えば類似度)は分類結果情報として分類
結果記憶部4に記憶される。続いて、しきい値指定部5
が当該クラスタに属する文書データ群を分割させるため
のしきい値を利用者に指定させる。例えば、しきい値指
定部5が当該クラスタに属する各文書データの属性情報
(例えば文書名)を類似度順に並べた表を作成し、表示
部8によりその表を表示させ(図4参照)、表示した表
を利用者に参照させて、このクラスタを分割するための
しきい値(基準値)として例えば類似度をキーボードか
ら数値で入力させるのである。あるいは、複数の類似度
をしきい値候補として表示し、その中から選択させても
よい。図4は、類似度0.3をしきい値として指定した場
合で示している。
【0009】また、前記のようにしきい値として類似度
を指定させる代わりに、しきい値指定部5がしきい値と
して文書データ数を指定させるようにし、前記のように
クラスタに属する各文書データの属性情報を類似度順に
ソートし(並べ)、最大または最小の類似度の文書デー
タから類似度順に前記文書データ数の文書データまで
を、分割された一つの部分文書データ群として分割する
ようにしてもよい(図5参照)。なお、図5の例では、
文書データ数として類似度の高い方から5を指定してい
る。類似度を直接表示する代わりに、類似度の偏差値を
求めて、その偏差値を同様に表示させ、文書データの属
性情報を偏差値順に並べて、しきい値として偏差値を入
力させるか、文書データ数を入力させるかしてもよい。
このような方法では、各文書データとそれが属するクラ
スタとの類似性がより明確になるので、各文書データを
当該クラスタに含めるか外すかを決定するしきい値を決
めやすくなる。また、図5のように表示させてしきい値
を指定する際、文書データ数などを指定する代わりに、
マウスなどを用いて分割ラインを指示することにより容
易にしきい値を指定することができる。例えば図5の例
と同じしきい値を指定する場合は、文書データ19と文書
データ39との境界のラインを指示するのである。境界の
ラインが指示されると、しきい値指定部5はその位置座
標を取得し、それにより分割される位置がわかるのであ
る。また、単に境界を指示するだけでなく、スライドバ
ーなどにより分割範囲を指定することもできる。なお、
しきい値の指定はクラスタ毎に一つ一つ行うこともでき
るし、しきい値をすべてのクラスタに共通にすることに
より、すべてのクラスタのしきい値を一括して指定する
ことも可能である。前者の指定法では個々のクラスタに
より整合したしきい値を指示することができ、後者の指
定法では作業効率を増大させることができる。
【0010】こうして、しきい値指定部5はしきい値を
取得するとそれをクラスタ分割部6に与え、しきい値を
受け取ったクラスタ分割部6はそのしきい値に従って、
図4または図5に太線で示したように当該クラスタを分
割する。つまり、図4に示した例では、類似度が0.3よ
り大である分割番号1で示した部分文書データ群(分割
部分)と類似度が0.3より小である分割番号2で示した
部分文書データ群とに分割する。また、図5に示した例
では、類似度の大きい順に5個の文書データを抽出した
分割番号1で示した部分文書データ群と分割番号2で示
した残りの部分文書データ群とに分割する。また、クラ
スタ分割部6は図4および図5に示したように前記分割
番号をそれぞれの文書データ(文書データの属性情報)
に付加して分割結果記憶部7に記憶する。これにより、
その後、指定した分割番号に属する文書データの取り出
しや処理が可能になる。また、分割されたそれぞれの部
分文書データ群(それぞれの分割部分)を新たなクラス
タとして登録(記憶)することもできる。また、前記に
おいて、しきい値が再指定されると、クラスタ分割が再
度行われ、それに応じて分割結果を示す表示内容も更新
される。分割時および分割結果を記憶した後、利用者
は、表示部8により分割結果に基づいてクラスタ内容を
図4などに示したように表示させることができるが、こ
の表示の際、部分文書データ群(それぞれの分割部分)
毎に表示形式を異ならせて表示することが可能である。
例えば、部分文書データ群毎に表示色、表示濃度、文字
の大きさなどを変えたり、特定の部分文書データ群のみ
を表示したりすることができ、また、表示されているボ
タンをマウスなどで指示することにより利用者が前記表
示形式を選択することもできる。図6に、類似度の高い
部分文書データ群(分割部分)のみを表示した場合のク
ラスタの表示例を示す。図示したように、この実施の形
態の分割結果表示では、各文書データを単にその文書デ
ータの属性情報だけ表示するのでなく、文書データの内
容(例えば冒頭部分)も表示することができる。こうし
て、この実施の形態によれば、分類された文書データの
部分集合である各クラスタに属する文書データ群を属す
るクラスタとの類似度などに従って分割させたりするこ
とにより、類似度(関連度)の低い文書データを各クラ
スタから分離することができるので、類似度の高い文書
データのみから構成されたクラスタ(前記部分文書デー
タ群)が生成され、したがって、そのクラスタの特徴を
利用者が容易に把握することができ、所望の文書を見つ
けるのが容易になる。また、部分文書データ群毎に表示
形式を異ならせる方法では、クラスタの特徴の把握がよ
り容易になる。
【0011】本発明の第2の実施の形態では、クラスタ
分割部6により分割された結果として作成された複数の
部分文書データ群をそれぞれ異なったクラスタから抽出
し、それらを合成して新たなクラスタを作成することが
できる。図7は、本発明の第2の実施の形態を示す説明
図である。図示の例では、クラスタ番号1およびクラス
タ番号2のクラスタをそれぞれ類似度0.3なるしきい値
で分割し、それぞれ分割番号2として示した類似度の低
い部分文書データ群を合成してクラスタ番号3なる新た
なクラスタを作成している。この実施の形態では、この
ようにして作成(生成)した新たなクラスタを文書分類
部2により再度分類することにより前よりもわかりやす
い分類を行うことができる。以上、本発明の文書管理装
置および文書管理方法について説明したが、この文書管
理方法をプログラミングしたプログラムを例えば着脱可
能な記憶媒体に記憶し、その記憶媒体を、それまで本発
明によった文書管理機能を備えていなかったパーソナル
コンピュータなど情報処理装置に装填することにより、
その情報処理装置においても本発明によった文書管理を
行うことができる。
【0012】
【発明の効果】以上説明したように、本発明によれば、
請求項1および請求項9記載の発明では、分類された文
書データの部分集合である各クラスタに属する文書デー
タの各クラスタにおける順位関係を示す特徴値が求めら
れ、一つのクラスタに属する文書データ群を分割するた
めのしきい値が指定され、指定されたしきい値および各
文書データの前記特徴値に従って一つのクラスタに属す
る前記文書データ群が分割されるので、各クラスタに属
する文書データ群を属するクラスタとの類似度などに従
って分割させることができる。また、請求項2および請
求項10記載の発明では、請求項1または請求項9記載
の発明において、各クラスタに属する文書データの各ク
ラスタにおける順位関係を示す特徴値として、前記文書
データとその文書データの属するクラスタとの類似度が
求められ、しきい値として類似度が指定されるので、各
クラスタに属する文書データ群を属するクラスタとの類
似度に従って分割させることができ、したがって、クラ
スタと関連性の低い文書データを分離することにより、
関連性の高い文書データのみから構成されたクラスタが
生成され、その結果、そのクラスタの特徴を利用者が容
易に把握することができ、所望の文書を見つけるのが容
易になる。また、請求項3および請求項11記載の発明
では、請求項1または請求項9記載の発明において、各
クラスタに属する文書データの各クラスタにおける順位
関係を示す特徴値として、前記文書データとその文書デ
ータの属するクラスタとの類似度が求められ、しきい値
として文書データ数が指定され、最大または最小の類似
度の文書データから類似度順に前記文書データ数の文書
データまでが一つの部分文書データ群として分割される
ので、請求項2または請求項10記載の発明と同様の効果
を実現することができる。
【0013】また、請求項4および請求項12記載の発
明では、請求項1または請求項9記載の発明において、
各クラスタに属する文書データの各クラスタにおける順
位関係を示す特徴値として、前記文書データとその文書
データの属するクラスタとの類似度の偏差値が求めら
れ、しきい値として類似度の偏差値が指定されるので、
どの文書データまでがクラスタに類似した文書データで
あるかを指定することになるしきい値の指定が容易にな
る。また、請求項5および請求項13記載の発明では、
請求項1〜4または請求項9〜12記載の発明におい
て、特徴値を含む分類結果情報が特徴値の値順に表示さ
れている画面上の所望の位置を指示することによりしき
い値が指定されるので、しきい値指定操作が簡単にな
る。また、請求項6および請求項14記載の発明では、
請求項1〜5または請求項9〜13記載の発明におい
て、クラスタ毎にしきい値を指定できるので、個々のク
ラスタに、より整合したしきい値を指定することができ
る。また、請求項7および請求項15記載の発明では、
請求項1〜6または請求項9〜14記載の発明におい
て、分割された各文書データを示す情報の表示形式が前
記文書データの属する部分文書データ群に対応付けられ
て異なるので、クラスタの特徴の把握がより容易にな
る。また、請求項8および請求項16記載の発明では、
請求項1〜7または請求項9〜15記載の発明におい
て、複数のクラスタを分割して作成された複数の部分文
書データ群が異なったクラスタから抽出され合成されて
新たなクラスタが作成されるので、その新たなクラスタ
を再度分類することにより前よりもわかりやすい分類を
行うことができる。
【図面の簡単な説明】
【図1】本発明の各実施の形態の文書分類装置の構成ブ
ロック図である。
【図2】本発明の第1の実施の形態を示す文書分類装置
および文書分類方法のデータ構成図である。
【図3】(a)(b)は本発明の第1の実施の形態を示す文書
分類装置および文書分類方法の他のデータ構成図であ
る。
【図4】本発明の第1の実施の形態を示す文書分類装置
および文書分類方法の説明図である。
【図5】本発明の第1の実施の形態を示す文書分類装置
および文書分類方法の他の説明図である。
【図6】本発明の第1の実施の形態を示す文書分類装置
および文書分類方法の画面図である。
【図7】本発明の第2の実施の形態を示す文書分類装置
および文書分類方法の説明図である。
【符号の説明】
1:文書群入力部 2:文書分類部 3:特徴値算出部 4:分類結果記憶部 5:しきい値指定部 6:クラスタ分割部 7:分割結果記憶部 8:表示部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 剣持 栄治 東京都大田区中馬込1丁目3番6号 株式 会社リコー内 (72)発明者 山崎 真湖人 東京都大田区中馬込1丁目3番6号 株式 会社リコー内 (72)発明者 武谷 一寿 東京都大田区中馬込1丁目3番6号 株式 会社リコー内 Fターム(参考) 5B075 ND02 NR02 NR12 PP02 PP03 PP04 PP12 PQ02 PQ36 PQ46 PQ74 PR04 PR06 QM08

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】 文書の内容に従って文書群を分類する文
    書分類装置において、分類対象の文書データ群の各文書
    データを文書の内容に従って自動的に分類する文書分類
    手段と、前記文書分類手段により分類された文書データ
    の部分集合である各クラスタに属する文書データの各ク
    ラスタにおける順位関係を示す特徴値を求める特徴値算
    出手段と、一つのクラスタに属する文書データ群を分割
    するためのしきい値を指定させるしきい値指定手段と、
    前記しきい値指定手段により指定されたしきい値および
    前記特徴値算出手段により求められた各文書データの特
    徴値に従って一つのクラスタに属する前記文書データ群
    を分割する分割手段とを備えたことを特徴とする文書分
    類装置。
  2. 【請求項2】 請求項1記載の文書分類装置において、
    各クラスタに属する文書データの各クラスタにおける順
    位関係を示す特徴値として、前記文書データとその文書
    データの属するクラスタとの類似度を求めるように特徴
    値算出手段を構成し、しきい値として類似度を指定させ
    るようにしきい値指定手段を構成したことを特徴とする
    文書分類装置。
  3. 【請求項3】 請求項1記載の文書分類装置において、
    各クラスタに属する文書データの各クラスタにおける順
    位関係を示す特徴値として、前記文書データとその文書
    データの属するクラスタとの類似度を求めるように特徴
    値算出手段を構成し、しきい値として文書データ数を指
    定させるようにしきい値指定手段を構成し、最大または
    最小の類似度の文書データから類似度順に前記文書デー
    タ数の文書データまでを分割された一つの部分文書デー
    タ群として分割するように分割手段を構成したことを特
    徴とする文書分類装置。
  4. 【請求項4】 請求項1記載の文書分類装置において、
    各クラスタに属する文書データの各クラスタにおける順
    位関係を示す特徴値として、前記文書データとその文書
    データの属するクラスタとの類似度の偏差値を求めるよ
    うに特徴値算出手段を構成し、しきい値として類似度の
    偏差値を指定させるようにしきい値指定手段を構成した
    ことを特徴とする文書分類装置。
  5. 【請求項5】 請求項1〜4のいずれかに記載の文書分
    類装置において、特徴値を含む分類結果情報が特徴値の
    値順に表示されている画面上の所望の位置を指示させる
    ことによりしきい値を指定させるようにしきい値指定手
    段を構成したことを特徴とする文書分類装置。
  6. 【請求項6】 請求項1〜5のいずれかに記載の文書分
    類装置において、クラスタ毎にしきい値を指定できるよ
    うにしきい値指定手段を構成したことを特徴とする文書
    分類装置。
  7. 【請求項7】 請求項1〜6のいずれかに記載の文書分
    類装置において、分割手段により分割された各文書デー
    タを示す情報の表示形式を前記文書データの属する部分
    文書データ群に対応付けて異ならせた構成にしたことを
    特徴とする文書分類装置。
  8. 【請求項8】 請求項1〜7のいずれかに記載の文書分
    類装置において、分割手段により複数のクラスタを分割
    して作成した複数の部分文書データ群を異なったクラス
    タから抽出し合成して新たなクラスタを作成する構成に
    したことを特徴とする文書分類装置。
  9. 【請求項9】 文書の内容に従って文書群を分類する文
    書分類方法において、分類対象の文書データ群の各文書
    データを文書の内容に従って自動的に分類し、分類され
    た文書データの部分集合である各クラスタに属する文書
    データの各クラスタにおける順位関係を示す特徴値を求
    め、一つのクラスタに属する文書データ群を分割するた
    めのしきい値を指定させ、指定されたしきい値および各
    文書データの前記特徴値に従って一つのクラスタに属す
    る前記文書データ群を分割することを特徴とする文書分
    類方法。
  10. 【請求項10】 請求項9記載の文書分類方法におい
    て、各クラスタに属する文書データの各クラスタにおけ
    る順位関係を示す特徴値として、前記文書データとその
    文書データの属するクラスタとの類似度を求め、しきい
    値として類似度を指定させるようにしたことを特徴とす
    る文書分類方法。
  11. 【請求項11】 請求項9記載の文書分類方法におい
    て、各クラスタに属する文書データの各クラスタにおけ
    る順位関係を示す特徴値として、前記文書データとその
    文書データの属するクラスタとの類似度を求め、しきい
    値として文書データ数を指定させ、最大または最小の類
    似度の文書データから類似度順に前記文書データ数の文
    書データまでを分割された一つの部分文書データ群とし
    て分割するようにしたことを特徴とする文書分類方法。
  12. 【請求項12】 請求項9記載の文書分類方法におい
    て、各クラスタに属する文書データの各クラスタにおけ
    る順位関係を示す特徴値として、前記文書データとその
    文書データの属するクラスタとの類似度の偏差値を求
    め、しきい値として類似度の偏差値を指定させるように
    したことを特徴とする文書分類方法。
  13. 【請求項13】 請求項9〜12のいずれかに記載の文
    書分類方法において、特徴値を含む分類結果情報が特徴
    値の値順に表示されている画面上の所望の位置を指示さ
    せることによりしきい値を指定させるようにしたことを
    特徴とする文書分類方法。
  14. 【請求項14】 請求項9〜13のいずれかに記載の文
    書分類方法において、クラスタ毎にしきい値を指定でき
    るようにしたことを特徴とする文書分類方法。
  15. 【請求項15】 請求項9〜14のいずれかに記載の文
    書分類方法において、分割された各文書データを示す情
    報の表示形式を前記文書データの属する部分文書データ
    群に対応付けて異ならせたことを特徴とする文書分類方
    法。
  16. 【請求項16】 請求項9〜15のいずれかに記載の文
    書分類方法において、複数のクラスタを分割して作成し
    た複数の部分文書データ群を異なったクラスタから抽出
    し合成して新たなクラスタを作成することを特徴とする
    文書分類方法。
JP11118798A 1999-04-26 1999-04-26 文書分類装置および文書分類方法 Pending JP2000305950A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11118798A JP2000305950A (ja) 1999-04-26 1999-04-26 文書分類装置および文書分類方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11118798A JP2000305950A (ja) 1999-04-26 1999-04-26 文書分類装置および文書分類方法

Publications (1)

Publication Number Publication Date
JP2000305950A true JP2000305950A (ja) 2000-11-02

Family

ID=14745388

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11118798A Pending JP2000305950A (ja) 1999-04-26 1999-04-26 文書分類装置および文書分類方法

Country Status (1)

Country Link
JP (1) JP2000305950A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002230012A (ja) * 2000-12-01 2002-08-16 Sumitomo Electric Ind Ltd ドキュメントクラスタリング装置
JP2004318408A (ja) * 2003-04-15 2004-11-11 Tokyo Electric Power Co Inc:The テキスト主旨分析装置およびテキスト主旨分析プログラム
JP2006301959A (ja) * 2005-04-20 2006-11-02 Just Syst Corp 文書処理装置、文書処理方法、文書処理プログラムおよびコンピュータに読み取り可能な記録媒体
JP2010140209A (ja) * 2008-12-11 2010-06-24 Nec Corp 検索システム、検索方法、およびプログラム
WO2011004524A1 (ja) * 2009-07-07 2011-01-13 日本電気株式会社 テキストマイニング装置
JP2013511084A (ja) * 2009-11-10 2013-03-28 アリババ グループ ホールディング リミテッド クラスタ化方法およびシステム
WO2016129124A1 (ja) * 2015-02-13 2016-08-18 株式会社Ubic データ分析システム、データ分析方法、およびデータ分析プログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002230012A (ja) * 2000-12-01 2002-08-16 Sumitomo Electric Ind Ltd ドキュメントクラスタリング装置
JP2004318408A (ja) * 2003-04-15 2004-11-11 Tokyo Electric Power Co Inc:The テキスト主旨分析装置およびテキスト主旨分析プログラム
JP2006301959A (ja) * 2005-04-20 2006-11-02 Just Syst Corp 文書処理装置、文書処理方法、文書処理プログラムおよびコンピュータに読み取り可能な記録媒体
JP2010140209A (ja) * 2008-12-11 2010-06-24 Nec Corp 検索システム、検索方法、およびプログラム
WO2011004524A1 (ja) * 2009-07-07 2011-01-13 日本電気株式会社 テキストマイニング装置
JPWO2011004524A1 (ja) * 2009-07-07 2012-12-13 日本電気株式会社 テキストマイニング装置
JP2013511084A (ja) * 2009-11-10 2013-03-28 アリババ グループ ホールディング リミテッド クラスタ化方法およびシステム
WO2016129124A1 (ja) * 2015-02-13 2016-08-18 株式会社Ubic データ分析システム、データ分析方法、およびデータ分析プログラム

Similar Documents

Publication Publication Date Title
US6912550B2 (en) File classification management system and method used in operating systems
Van Leuken et al. Visual diversification of image search results
US7194471B1 (en) Document classification system and method for classifying a document according to contents of the document
JP6782858B2 (ja) 文献分類装置
Rodden Evaluating similarity-based visualisations as interfaces for image browsing
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
JP2001202523A (ja) 画像処理方法及びその装置
JP2001160057A (ja) 画像の階層的分類方法、および画像の分類・検索装置、およびこの方法を実行するプログラムを記録した記録媒体
JP5346756B2 (ja) 画像分類装置
JP4374902B2 (ja) 類似画像検索装置、類似画像検索方法、および類似画像検索プログラム
Jenni et al. Pre-processing image database for efficient Content Based Image Retrieval
US7239746B1 (en) Method of and apparatus for classifying an image
JP2002259410A (ja) オブジェクト分類管理方法、オブジェクト分類管理システム、オブジェクト分類管理プログラム及び記録媒体
CN111797267A (zh) 一种医学图像检索方法及系统、电子设备、存储介质
JP2002007433A (ja) 情報分類装置、情報分類方法および情報分類プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに情報分類プログラム
JP2000305950A (ja) 文書分類装置および文書分類方法
JP4407272B2 (ja) 文書分類方法、文書分類装置及び文書分類プログラム
JP2001101227A (ja) 文書分類装置および文書分類方法
US6424963B1 (en) Document retrieval having retrieval conditions that shuffles documents in a sequence of occurrence
JP3693514B2 (ja) 文書検索・分類方法および装置
JP2006251975A (ja) テキスト分類方法ならびにその方法によるプログラム、およびテキスト分類装置
JPH08287086A (ja) 適合度順画像強調表示方法及び装置
KR100809751B1 (ko) 문서분석 시스템 및 그 방법
JP2001117930A (ja) 文書分類装置、文書分類方法および記録媒体
Coelho et al. Evaluation of global descriptors for multimedia retrieval in medical applications