JP5240777B2 - 文書分類装置及び文書分類方法 - Google Patents

文書分類装置及び文書分類方法 Download PDF

Info

Publication number
JP5240777B2
JP5240777B2 JP2009027551A JP2009027551A JP5240777B2 JP 5240777 B2 JP5240777 B2 JP 5240777B2 JP 2009027551 A JP2009027551 A JP 2009027551A JP 2009027551 A JP2009027551 A JP 2009027551A JP 5240777 B2 JP5240777 B2 JP 5240777B2
Authority
JP
Japan
Prior art keywords
classification
document
divergence
documents
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009027551A
Other languages
English (en)
Other versions
JP2010182253A (ja
Inventor
祐介 佐藤
真 岩山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2009027551A priority Critical patent/JP5240777B2/ja
Publication of JP2010182253A publication Critical patent/JP2010182253A/ja
Application granted granted Critical
Publication of JP5240777B2 publication Critical patent/JP5240777B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書分類装置に関し、特に制約付きクラスタリングを用いた文書分類装置に関する。
従来、文書検索システムなどによって収集された大量の文書を、各々の文書の内容に従って、いくつかのカテゴリに分類する場合、クラスタリング(集団化)などの機械的な方法を用いて、大量の文書を自動的に分類する方法が一般的に用いられる。機械的な方法による文書の分類とは、文書の中に存在する単語の出現頻度に基づいた特徴量を、その文書のベクトルの要素とし、その文書が持つベクトルと、他の文書が持つベクトルの類似度等に基づいて、文書を分類する方法である。
クラスタリングの代表的な方法には、K−Means法がある。K−Means法は、予め設定したクラスタ(集団)の数をk個とした場合、以下の操作によってデータ集合を分類する方法である(例えば、非特許文献1参照)。なお、クラスタリングとは、文書の集団化、又は文書の分類の意である。
1.文書の集合の中から、k個の個体(文書)をランダムに決定し、各クラスタの重心とする。
2.集合の中の各個体と、重心との距離(もしくは、類似度)を、各々の個体のベクトルに基づいて算出し、最も近い重心のクラスタに分類する。
3.上記2.において作成したクラスタの、各々のクラスタにおける新たな重心をランダムに決定し、各個体と新たな重心との距離(もしくは、類似度)を算出する。
4.上記2.において用いた重心と、3.において決定した新たな重心との移動距離(例えば、(旧重心−新重心)2の総和)がある閾値以下でなければ2.へ戻る。
5.K−Means法の終了。
K−Means法によるクラスタリングは、一度に大量の文書を分類できるが、重心をランダムに決定することによって、分類する精度が十分ではない場合が多く、ユーザの意図どおりに分類された結果にならない場合が多い。
これに対して、ユーザが意図する分類を、制約として、クラスタリングに組み込むことで、分類する精度を向上させる方法がある。つまり、任意の文書の正解、すなわち任意の文書が所属するべき分類先を、ユーザがその文書に付与し、それらの正解が付与された文書を教師データとすることによって、クラスタリングの精度を向上させる方法がある。この方法は、制約付きクラスタリング(もしくは、半教師有りクラスタリング)と呼ばれている(例えば、非特許文献2参照)。
この制約付きクラスタリングの利用は、クラスタリングの精度を効率的に向上させる。例えば、制約付きクラスタリングを利用したクラスタリング方法、すなわち分類方法に、学習型分類方法がある。
学習型分類方法は、非特許文書1に記載されているK−Means法に基づいて、文書の集合に対して、ユーザによる正解の付与を含む制約付きクラスタリングを繰り返すことによって、クラスタリングの結果をユーザが意図する分類へ近付けていく方法である。
また、学習型分類方法には、K−Means法の他に、ファジイクラスタリングに基づく学習型分類方法(例えば、特許文献1参照)、又はサポートベクトルマシンに基づく学習型分類方法(例えば、特許文献2参照)などがある。
ファジイクラスタリングを用いた学習型分類方法は、K−Means法によるクラスタリングと同様に、あらかじめ与えられた数のクラスタにおいて、各々の代表となる個体を定め、全体の集合の中の各個体と、代表となる個体との関係において、所属率を算出する。ファジイクラスタリングを用いた場合、各個体は、各クラスタに対して所属率、すなわち、どれくらい所属するかの数値を各々持つ。しかし、ファジイクラスタリングを用いた場合、ユーザにとって各個体がどのクラスタに所属するのかが曖昧になり、ユーザが意図した分類とならない場合が多い。
サポートベクトルマシンを用いた学習型分類方法は、二つのクラスのいずれかに属する事例を正解の事例とし、未知の事例がいずれのクラスに属する事例かを、正解の事例に基づいて判定する分類方法である。サポートベクトルマシンに基づく学習型分類方法は、正解の事例を作成する作業を必要とし、この作業に大きなコストを必要とする。また、基本的には二つのクラスを識別する方法であるため、複数のクラスに識別することができない。
特開平9−305566公報 特開2004−021590公報
Trevor Hastie、外2名、"The Elements of Statistical Learning:Data Mining, Inference, and Prediction"、USA、Springer−Verlag、2003年 Sugato Basu、外2名、"Semi−supervised Clustering by Seeding"、Proceedings of the 19th International Conference on Machine Learning、2002年、pp.19−26 Christopher D. Manning、& Hinrich Schutze、"Foundations of Statistical Natural Language Processing"、USA、MIT Press、1999年
従来の学習型分類方法を用いた場合、クラスタリングの精度を向上するための、ユーザが正解を付与すべき文書の適切な量を、ユーザは予測することができない。このため、ユーザは、文書に正解を付与する操作を無駄に続けてしまう場合がある。
例えば、ユーザが任意の文書に正解を付与し、それら正解を付与された文書に基づいた制約付きクラスタリングを繰り返すような学習型分類方法(つまり、正解付与→制約付きクラスタリング→正解付与→制約付きクラスタリング→...の繰り返しにより、文書を正しい分類先に仕分けていく操作)は、以下のように、無駄な正解の付与が続けられる。
繰り返し行われる制約付きクラスタリングの,最初の段階においては、ユーザが文書に正解を付与するほど、正解が付与された文書数以上にクラスタリングの精度が向上していく。例えば、ある文書の集合に5件の正解を付与した(正解が付与された文書の量:5)場合、制約付きクラスタリングにより(5+A)件の文書が正解に分類される。この(正解が付与された文書の量+A)は、一度の制約付きクラスタリングにより、正しい分類先にクラスタリングされた文書数を示し、Aは制約付きクラスタリングの学習効果と呼ばれる。
制約付きクラスタリングの学習効果の値Aは、正解の付与を始める最初の段階においては大きな値である。しかし、正解の付与とクラスタリングとを繰り返し、ある一定の正解が付与された文書の量に達すると、制約付きクラスタリングの精度は、与えた正解が付与された文書の量以上に上がらなくなる。つまり、一定の正解が付与された文書の量に達すると、学習効果Aは0に近い値になってしまう。
ユーザは、制約付きクラスタリングの精度が上がらなくなる量がどの程度であるかを知る手掛かりを持たない。このため、制約付きクラスタリングによる学習効果Aが0であることにユーザは気付かず、無駄な正解の付与とクラスタリングとの操作を繰り返し続けてしまう。
上記のように、学習効果Aが0であることに気付かなかい場合、ユーザは文書の全件に正解を付与してしまう事態も考えられる。本来、クラスタリングに代表される自動分類手法は、文書全件の中身を精査して仕分ける作業を軽減することが目的であるため、これでは意味がない。
本発明は、最も制約付きクラスタリングの精度が上がる正解を付与する文書の量を、ユーザに認知させることを目的とする。
本発明の代表的な一例を示せば以下の通りである。すなわち、プロセッサと、前記プロセッサに接続されるメモリと、を備え、与えられた正しい分類先に基づいて、複数の文書を分類する文書分類装置は、入力部と、分類制御部と、発散度計算部と、進捗度計算部と、を備え、前記入力部は、ユーザから入力された文書の前記正しい分類先を受け付け、前記分類制御部は、前記文書の正しい分類先に基づいて、前記複数の文書を複数のグループに分類し、前記発散度計算部は、前記分類によって前記グループが変化した文書数によって示される発散度を算出し、前記進捗度計算部は、前記分類の進捗度を算出し、前記分類制御部によって文書を分類した結果と、前記発散度計算部によって算出された発散度と、文書分類装置は、前記進捗度計算部によって算出された進捗度とを表示するためのデータを生成する。
本発明の一実施形態によると、ユーザは、文書の分類の際に無駄な正解の付与とクラスタリングとを繰り返さない。
本発明の実施形態の文書分類支援装置を示したブロック図である。 本発明の実施形態の情報端末における文書分類の処理を示したフローチャートである。 本発明の実施形態の文書分類支援装置のクラスタリング結果表示画面を示した説明図である。 本発明の実施形態の文書データDBに含まれるテーブルを示した説明図である。 本発明の実施形態の文書インデックスDBに含まれるテーブルを示した説明図である。 本発明の実施形態のクラスタリングの処理を示したフローチャートである。 本発明の実施形態のクラスタリング前後での、各文書のクラスタラベルの変化を示した説明図である。 本発明の実施形態の分類作業進捗度を表示する画面を示した説明図である。 本発明の実施形態のクラスタリングの繰り返しによる、クラスタ発散度の履歴を表示する画面を示した図である。 本発明の実施形態のクラスタリングによる各分類の文書のクラスタラベルの変化を示した説明図である。
本発明の実施形態において、ユーザによって正解を付与された文書による制約付きクラスタリングの学習効果と、クラスタリングにおける各文書の所属するクラスタの変化、すなわち、クラスタラベルの変化とは、高い相関がある。本実施形態において、制約付きクラスタリングによる学習効果が0になる場合の指標を、制約付きクラスタリングが収束するまでにクラスタラベルが変化した文書数の総和値によって示す。
なお、クラスタラベルとは、分類された文書群の個々を識別する識別子である。文書には、分類された先の文書群を示すクラスタラベルが付与される。
また、本発明の実施形態において用いる制約付きクラスタリング方法は、K−Means法である。
図1は、本発明の実施形態の文書分類支援装置を示すブロック図である。
本発明の実施形態の文書分類支援装置は、情報端末10と、文書データDB110及び文書インデックスDB111の2つのデータベースと、ネットワーク112とを備える。情報端末10及び2つのデータベースは、ネットワーク112によって接続されているが、情報端末10が2つのデータベースを備えてもよい。
情報端末10は、CPU101と、メモリ102と、キーボード及びマウス103と、ディスプレイ104と、データ通信部109とを備える計算機である。また、情報端末10は、機械分類制御部105、クラスタ発散度計算部106、進捗度計算部107、及び文書表示部108の機能を提供するプログラムを含む。
CPU101は、機械分類制御部105、クラスタ発散度計算部106、進捗度計算部107及び文書表示部108の機能を持つプログラムを実行することによって、文書分類の処理を実行する。メモリ102は、CPU101によって実行されるプログラム及びプログラムを実行するために必要なデータを一時的に記憶する。
キーボード及びマウス103は、ユーザが情報を入力する装置である。ディスプレイ104には、クラスタリング結果、後述するクラスタ発散度、及び後述する分類作業進捗度等が表示される。
機械分類制御部105は、情報端末10に入力された文書を、クラスタリングする。クラスタ発散度計算部106は、クラスタリングの処理において、後述するクラスタ発散度を算出する。進捗度計算部107は、クラスタリングの処理において、後述する分類作業進捗度を算出する。文書表示部108は、クラスタリングの結果、後述するクラスタ発散度、及び後述する分類作業進捗度等を、ディスプレイ104に表示させる。
データ通信部109は、情報端末10がネットワーク112を介してデータ通信をするインターフェースであり、例えば、TCP/IPプロトコルによって通信可能なLANカードである。情報端末10は、データ通信部109を介してネットワーク112に接続された二つのデータベースと通信する。
文書データDB110には、文書に関する情報が含まれる。文書データDB110は、著者、又は書名などの書誌情報の検索に加え、文書全文の検索も可能にする。
文書インデックスDB111には、文書とキーワードと出現頻度との対応関係が含まれる。文書インデックスDB111は、ある文書が含むキーワードリストを提供する。
図2は、本発明の実施形態の情報端末における文書分類の処理を示したフローチャートである。
図2において、機械分類制御部105、クラスタ発散度計算部106、進捗度計算部107及び文書表示部108によって実行される文書分類の処理の概要を説明する。
まず、ユーザは、キーボード及びマウス103によって、予め文書検索システム等で収集した文書の集合を文書分類支援装置に入力する。この際、ユーザは、文書の集合に加えて、クラスタの数などのクラスタリングの条件を入力してもよい。クラスタリングの条件には、クラスタの数の他に、例えば、各クラスタを説明する代表的なキーワードなどがある。なお、入力されたキーワードに基づいて、重心を定めてもよい。入力された文書の集合は、文書データDB110及び文書インデックスDB111に格納される。
機械分類制御部105は、文書インデックスDB111から、文書の集合内の各文書のキーワードと出現頻度とを取得する(S201)。
次に、機械分類制御部105は、S201において取得された各文書のキーワードの出現頻度に従ってクラスタリングをする。続いて、クラスタ発散度計算部106は、クラスタ発散度を算出する(S202)。クラスタ発散度の算出方法は、図6及び図7を用いて後述する。
次に、S202において得られたクラスタ発散度と文書への正解が付与された数とから、進捗度計算部107は、分類作業進捗度を算出する。分類作業進捗度の算出方法は、図8を用いて後述する。続いて、文書表示部108は、S202におけるクラスタリングの結果、S202において算出されたクラスタ発散度、及び分類作業進捗度をディスプレイ104に表示する(S203)。
ディスプレイ104に表示される画面の具体例は、図3にて後述する。なお、S203における分類作業の進捗度は、文書の集合を最初に入力した直後においては、まだ正解が付与されていないため、正解が付与された数を0として算出される。
ユーザは、S203においてディスプレイ104に表示されたクラスタリングの結果であるクラスタ発散度、及び分類作業進捗度に基づいて、文書分類の作業の終了可否を判定する(S204)。なお、ユーザは、クラスタ発散度が十分低い値になったか否か、又は、分類作業進捗度が、十分高い値になったか否かによって、終了の可否を判定する。
S204において判定されたクラスタリングの結果が、ユーザにとって所望の結果ではなく、ユーザによって情報端末10に、分類の作業は終了不可であると入力された場合(S204において、Noと判定された場合)、ユーザは、各クラスタ内の文書に正解を付与する(S205)。S205の後、文書分類の処理は、S202に戻る。
なお、文書に正解を付与する操作には、正しく分類された文書に正しく分類された文書であることを明示する「固定」操作と、誤って分類された文書に正しいクラスタを指定する「移動」操作がある。
S204において判定されたクラスタリングの結果が、ユーザにとって所望の結果であり、ユーザによって情報端末10に、分類の作業は終了可能であると入力された場合(S204において、Yesと判定された場合)、本発明の文書分類支援装置を用いた文書分類作業を終了する。
以下において、S203におけるクラスタリングの結果の表示画面、文書データDB110及び文書インデックスDB111の詳細、並びに図2のS202及びS203に伴う算出の詳細を説明する。
図3は、本発明の実施形態の文書分類支援装置のクラスタリング結果表示画面301を示した説明図である。
クラスタリング結果表示画面301は、クラスタリング結果を表示する領域と、分類作業進捗度及びクラスタ発散度を表示する領域とを含む。また、クラスタリングする(図2のS202)ためのクラスタリングボタン302、正しく分類された文書に正しく分類された文書であることを明示するための固定ボタン303、及び誤って分類された文書に正しいクラスタを指定するための移動ボタン304が、クラスタリング結果表示画面301に含まれる。
クラスタリング結果を表示する領域は、クラスタリング結果表305を含む。クラスタリング結果表305は、縦軸と横軸との2つの軸によって文書の分類結果を表示する。縦軸と横軸とは、それぞれ異なる観点によって文書の集合を分類した結果である。例えば、横軸は、クラスタリングによって分類した結果であり、縦軸は文書データDB110に格納した文書の書誌情報によって分類した結果であってもよい。また、縦軸及び横軸の両方が、クラスタリングによって分類した結果であってもよい。ユーザは、クラスタリング結果表305によって、クラスタリングの結果、各々の文書がどの分類に所属したのかを認識する。
縦分類306と横分類307とは、縦軸及び横軸のそれぞれにおける分類の名前を示す。文書リスト308には、縦分類306及び横分類307に所属する文書の名前がリスト表示される。
固定チェックボックス309は、固定チェックボックス309に対応する文書の所属分類が正しい場合、ユーザが「固定」したい文書を選択する。そして、ユーザが固定ボタン303を操作することによって、選択された文書の固定チェックボックス309にチェックが入力される。
また、固定チェックボックス309に対応する文書の所属分類が誤っている場合、ユーザは「移動」したい文書を選択し、移動ボタン304を操作することによって「移動」操作をする。ユーザは、移動ボタン304を操作することによって正しい分類先を指定し、選択された文書は指定した分類先に移動され、選択された文書の固定チェックボックス309に自動的にチェックが入力される。
なお、「移動」操作は、ユーザが移動ボタン304を操作した後、選択された文書の新たな分類先を指定する画面が表示され、ユーザが表示された画面に分類先を入力することによって、選択された文書は新たな分類先に移動し、固定チェックボックス309にチェックが自動的に入力されてもよい。また、ユーザがドラッグアンドドロップによって、選択された文書の表示を視覚的に新たな分類先に移動させ、移動ボタン304を操作した後に、選択された文書の固定チェックボックス309にチェックが入力されてもよい。
図2に示すS205の処理は、ユーザが固定ボタン303及び移動ボタン304によって、各文書に固定及び移動の操作をすることによって実行される。
進捗度・クラスタ発散度表示領域は、進捗度表示部310とクラスタ発散度履歴表示部311とを含む。
進捗度表示部310は、進捗度計算部107によって算出された分類作業進捗度を表示する。ユーザは、進捗度表示部310の表示によって、文書に対するクラスタリングの進捗を認識することができる。
クラスタ発散度履歴表示部311は、クラスタ発散度計算部106によって算出された、表示した時点における各クラスタリング処理で得たクラスタ発散度、すなわち、クラスタラベルが変化した文書数の総和値を表示する。ユーザは、クラスタ発散度履歴表示部311の表示によって、各々のクラスタリングにおいて、クラスタラベルが変化した文書の数を認識することができる。
分類作業進捗度の算出方法は図8を用いて後述し、クラスタ発散度の算出方法は図6及び図7を用いて後述する。
次に、図2に示す処理において使用されるデータベースのデータを説明する。
図4は、本発明の実施形態の文書データDB110に含まれるテーブルを示した説明図である。
文書データDB110における文書データを格納するテーブルは、文書番号401、著者402、発行年403、分類404及び全文405を含む。
文書番号401は、格納される文書の識別子である。著者402は、文書の著者名である。発行年403は、文書が発行された年である。分類404は、文書に付与された分類である。全文405は、文書の全文の内容である。なお、図4に示すテーブルの列要素は、対象文書の種類よって、追加または、変更されてもよい。
図5は、本発明の実施形態の文書インデックスDB111に含まれるテーブルを示した説明図である。
文書インデックスDB111には、文書中のキーワードによって文書をクラスタリングするためのインデックス501が含まれる。
インデックス501は、文書とクラスタとの類似度を算出するために使用される。
インデックス501は、文書番号502と、リスト503を含む。文書番号502は、格納される文書の識別子である。文書データDB110における文書番号401と同じ値を示す。
リスト503は、(キーワード番号、頻度)の対を含む。キーワード番号は、対応する文書が含むキーワードの識別子である。頻度は、キーワードが文書中に出現する回数(出現頻度)である。
キーワードと出現頻度とに基づいて、類似度を算出することができる(例えば、「情報検索アルゴリズム」北研二他著、共立出版、2002年発行 を参照)。例えば、あるキーワードの出現頻度が同程度の文書間には、高い類似度が算出される。
以下、図2に示すS202におけるクラスタ発散度の算出方法と、S203における分類作業進捗度の算出方法との詳細について説明する。
まず、図2に示すS202におけるクラスタリングには、K−Means法に基づく制約付きクラスタリングが用いられる。クラスタ発散度は、この制約付きクラスタリングと同時にクラスタ発散度計算部106によって算出される。S202における処理の詳細を図6に示す。
図6は、本発明の実施形態のクラスタリングの処理を示したフローチャートである。
文書の集合が情報端末10に入力された(S201)、又は、図3に示す固定ボタン302及び移動ボタン304を用いて文書に正解を付与された(S205)後に、ユーザがクラスタリング結果表示画面301におけるクラスタリングボタン302を操作すると、S202が開始される。機械分類制御部105は、S202の処理の中で、文書の集合と文書インデックスDB111に含まれるデータとによって、制約付きクラスタリングを実行する。
クラスタ発散度計算部106は、S202における制約付きクラスタリングが実行される前に、クラスタ発散度の値を0にする(S601)。クラスタ発散度計算部106は、各文書のクラスタラベルを保存する(S602)。本実施形態のクラスタラベルは、クラスタリング結果表305の縦分類306及び横分類307の分類名に対応する。
S602の処理の後、機械分類制御部105がクラスタリングを実行する(S603)。クラスタリングにはK−Means法に基づく制約付きクラスタリングを用いる。制約付きクラスタリングのアルゴリズムを、以下に示す。
1.図3に示す固定チェックボックス309に、チェックが入力された文書があるクラスタは、そのクラスタの中で、チェックが入力された文書全てを用いて重心を算出する。チェックが入力された文書が無いクラスタは、そのクラスタに所属する全ての文書を用いて重心を算出する。
2.各文書と重心との類似度を算出し、類似度が最も高い、すなわち最も近いことを示した重心のクラスタに、各文書を分類する。ただし、固定チェックボックス309にチェックが入力された文書は、類似度によって分類せず、クラスタラベルをそのまま維持する。
3.2.において分類されたクラスタに所属する文書の中で、新たな重心を算出する。
上記1.〜3.の制約付きクラスタリングが終了すると、クラスタ発散度計算部106は、S602において保存した各文書のクラスタラベルと、S603において得た各文書の新たなクラスタラベルとを比較し、クラスタラベルが変化した文書数を算出し、算出された文書数をクラスタ発散度に加算する。さらに、クラスタ発散度計算部106は、クラスタごとのクラスタラベルが変わった文書数も算出し、クラスタごとに算出された文書数をクラスタごとのクラスタ発散度に加算する(S604)。
図7は、本実施形態のクラスタリング前後における、各文書のクラスタラベルの変化を示した説明図である。
図7は、20件の文書を、クラスタ数を3としてクラスタリングした場合の結果である。
左表701は、クラスタリング前の各文書のクラスタラベルの一覧であり(すなわち、S602において保存されたクラスタラベルに相当)、右表702は、クラスタリング結果後のクラスタラベルの一覧である(すなわち、S604において得られたクラスタラベルに相当)。
左表701と右表702とを比較すると、文書番号4、5、6、9、10、11、12、13、19、20を示す10個の文書のクラスタラベルが変化したため、クラスタ発散度計算部106は、クラスタ発散度に10を加算する。また、クラスタ1において2個(文書番号19、20)、クラスタ3において3個(文書番号4、5、6)、クラスタ3において5個(文書番号9、10、11、12、13)の文書のクラスタラベルが変化したため、クラスタ発散度計算部106は、各々のクラスタの各々のクラスタ発散度に加算する。
S604の後、機械分類制御部105は、クラスタリングが収束しているか否かを判定する(S605)。本実施形態の収束判定の方法には、例えば、非特許文献1に開示されるK−Means法における収束判定方法を用いる。すなわち、本実施形態の収束判定方法は、各々のクラスタリングによって得られる重心の変化量の閾値を管理者が予め定め、各々のクラスタリングによって得られる重心の変化量と、定められた閾値とに基づいて、収束しているか否かを判定する方法である。
S605において、クラスタリングは収束していないと判定された場合(S605においてNoを判定された場合)、S602からの同じ処理が繰り返される。S605において、クラスタリングは収束したと判定された場合は(S605においてYesと判定された場合)、図6に示すクラスタリングの処理を終了する。
S202におけるクラスタリングは、S605において収束されたと判定されるまで繰り返される(この繰り返しをループと呼ぶ)。例えば、ループが5回発生し、各々のループにおけるクラスタ発散度が、10、9、6、4、0であった場合、最終的なクラスタ発散度は、(10+9+6+4+0)=29となる。クラスタごとのクラスタ発散度の算出方法も、同じ算出方法である。
S202におけるクラスタリング処理が終了した後、文書表示部108は、クラスタ発散度と、後述する方法によって算出された分類作業進捗度とを表示する(S203)。
図2及び図6に示す処理によって、ユーザは、クラスタリングごとのクラスタ発散度と、分類作業進捗度を認識することができる。
分類作業進捗度は、進捗度計算部107によって数1を用いて算出される。
数1に示すクラスタ発散度は、S202において得られたクラスタ発散度である。数1に示すループ数は、図6に示すS602からS605の繰り返し数である。数1に示す固定文書数は、クラスタリング結果表305に表示された文書のうち、固定チェックボックス309にチェックが入力されている文書の数である。数1に示す全文書数は、文書全体に含まれる文書の数である。
数1に示すαは、クラスタリングとユーザの正解を付与する操作との、どちらを重視するかを示す重み係数であり、本発明の実施形態における文書分類支援装置の管理者が、予め設定してもよいし、ユーザが指定してもよい。αは、設定される値の範囲を、0≦α≦1.0とされるのが望ましい。
分類作業進捗度は、二つの指標に基づいて定められる。一つの指標は、分類対象となる文書の集合の何割に正解を付与したのか(正解付与進捗度)、であり、もう一つの指標は、クラスタリングによってどの程度ユーザが意図する分類になっているのか(クラスタリング安定度)、という点である。数1の分類作業進捗度の計算式において、分子の左側の項が、「文書の集合の何割に正解を付与したのか」に相当し、右側の項がどの程度ユーザが意図する分類になっているのか」に相当する。
αの値は、管理者が正解付与進捗度と、クラスタリング安定度との、二つの指標のどちらを重要とするかによって定められる。正解付与進捗度を重要としたい場合、管理者は、αの値を大きくし、クラスタリング安定度を重要としたい場合は、管理者は、αの値を小さくする。
数1に示す計算式によって求められる分類作業進捗度が、大きい値である場合、ユーザは、分類作業は進んでいると判定し、小さい場合は、分類作業は進んでいないと判定する。
なお、分類作業進捗度の表示方法は、図3に示す分類作業進捗度表示部310に示すように、数1に示す計算式に従って1つの結果を表示するが、数1の計算式の分子の2つの項を分けて、表示してもよい。つまり、分類作業進捗度表示部310を、図8に示す画面によって別々に表示してもよい。
図8は、本発明の実施形態の分類作業進捗度を表示する画面を示した説明図である。
図8に示す画面は、正解付与進捗度と、クラスタリング安定度とを表示する。図8に示す画面を用いる場合、正解付与進捗度の数値が大きいほど、分類作業が進んでいることを示し、クラスタリング安定度の数値が小さいほど、分類作業が進んでいることを示す。
図9は、本発明の実施形態のクラスタリングの繰り返しによる、クラスタ発散度の履歴を表示する画面を示した説明図である。
本実施形態においては、クラスタ発散度の履歴を棒グラフによって表す。
図9に示す説明図の横軸は、一回のクラスタリング処理(S202の処理を一回分に相当)によって得たクラスタ発散度の値を示す。1回目、2回目、...、n回目の表示は、文書への正解を付与し、クラスタリング(S202からS205)の繰り返し作業のうちの何回目に得た結果であるかを示す。
図9に示す説明図の縦軸は、対応するクラスタリングにおいて得られたクラスタ発散度の値である。図9に示す説明図は、文書の集合を3つのクラスタに分類した場合であり、棒グラフは、各分類(クラスタリングにおけるそれぞれのクラスタに対応)に対応したクラスタ発散度の内訳を色によって識別できるように表示する。
図9に示す表示によって、ユーザは、クラスタリング処理を繰り返すほど(横軸の左から右へ進むほど)棒グラフが低くなる、すなわちクラスタ発散度が0に近づくことを確認し、文書の集合の分類が、ユーザが意図する分類に近づいていることを、認識することが可能となる。
さらに、ユーザは、各分類のクラスタ発散度から、どの分類がクラスタリングが収束していないか、すなわち、文書に正解を付与することが不十分であるか否かを確認できるため、どの分類に重点的に正解を付与すべきか方針を立てることができる。なお、正解の付与が不十分である分類は、クラスタリングを繰り返してもクラスタ発散度が減少しにくい。
図10は、本発明の実施形態のクラスタリングによる各分類の文書のクラスタラベルの変化を示した説明図である。
図10は、図3に示すクラスタリング結果表305とは別の、クラスタリング結果表305の表示である。図10に示すクラスタリング結果表305によって、ユーザは、クラスタリングによって縦分類及び横分類に所属する文書に変化があった分類を認識する。
図10に示すクラスタリング結果表305の値の表示は、値1001及び背景1002で示される。
値1001は、クラスタリング結果表305における縦分類及び横分類に所属する文書の件数を示す
背景1002は、クラスタリングの前後で文書件数に変化のあった分類の背景色を変化させることによって、変化のあった分類を強調する。強調される分類は、その分類に、クラスタリング前には無かった文書が新たに加わった分類である。従って、クラスタリングによって他分類へ文書が移動したことによって、所属する文書の件数が減少したのみの分類は、強調されない。また、クラスタリング前と比較して、所属する文書件数が減少し、新たな文書が追加された分類は、強調される。
なお、文書が所属する分類の変化は、図6に示すS602の処理において保存されたクラスタリング前の分類と、S604の処理においてクラスタリング後の分類とを比較することによって、判定される。
なお、図10に示すクラスタリング結果表305は、所属する文書の件数を表示し、背景1002を強調しているが、図3に示すクラスタリング結果表305の文書のリストを表示し、背景を強調してもよい。
前述したように、本発明の実施形態によると、分類作業進捗度を表示することによって、ユーザは、文書へ正解を付与した数とクラスタ発散度に基づいたクラスタリング安定度との両方を加味した分類作業の進捗の程度を認識でき、クラスタリングに効果のない正解の付与の操作とクラスタリング操作とを繰り返す無駄を省くことが可能となる。
また、クラスタリングによる分類の変化を、分類ごとに表示することによって、どの分類に正解を付与していくべきか方針を立てやすくなり、効果的なクラスタリングが可能となる。
10 情報端末
101 CPU
102 メモリ
103 キーボード・マウス
104 ディスプレイ
105 機械分類制御部
106 クラスタ発散度計算部
107 進捗度計算部
108 文書表示部
109 データ通信部
110 文書データDB
111 文書インデックスDB
112 ネットワーク

Claims (10)

  1. プロセッサと、前記プロセッサに接続されるメモリと、を備え、与えられた正しい分類先に基づいて、複数の文書を分類する文書分類装置であって、
    入力部と、分類制御部と、発散度計算部と、進捗度計算部と、を備え、
    前記入力部は、ユーザから入力された文書の前記正しい分類先を受け付け、
    前記分類制御部は、前記文書の正しい分類先に基づいて、前記複数の文書を複数のグループに分類し、
    前記発散度計算部は、前記分類によって前記グループが変化した文書数によって示される発散度を算出し、
    前記進捗度計算部は、前記分類の進捗度を算出し、
    前記分類制御部によって文書を分類した結果と、前記発散度計算部によって算出された発散度と、前記進捗度計算部によって算出された進捗度とを表示するためのデータを生成することを特徴とする文書分類装置。
  2. 前記発散度計算部は、1回の分類ごとの前記発散度を前記グループごとに算出し、
    複数回の前記分類において算出された前記発散度を一つの画面に表示するためのデータを生成することを特徴とする請求項1に記載の文書分類装置。
  3. 前記進捗度計算部は、前記算出された発散度と、前記分類の回数と、前記正しい分類先が入力された文書数とに基づいて前記進捗度を算出することを特徴とする請求項1に記載の文書分類装置。
  4. 前記分類した結果と、前記算出された発散度と、前記算出された進捗度とを1回の分類ごとに表示するためのデータを生成することを特徴とする請求項1に記載の文書分類装置。
  5. 前記分類によって所属する文書の数が変化したグループと、所属する文書の数が変化しなかったグループとを識別可能に表示するためのデータを生成することを特徴とする請求項1に記載の文書分類装置。
  6. プロセッサと、前記プロセッサに接続されるメモリと、を備え、与えられた正しい分類先に基づいて、複数の文書を分類する文書分類装置における文書分類方法であって、
    前記文書分類方法は、
    前記プロセッサが、ユーザから入力された文書の前記正しい分類先を受け付け、
    前記プロセッサが、前記文書の正しい分類先に基づいて、前記複数の文書を複数のグループに分類し、
    前記分類結果を前記メモリに格納し、
    前記プロセッサが、前記分類によって前記グループが変化した文書数によって示される発散度を算出し、
    前記プロセッサが、前記分類の進捗度を算出し、
    前記プロセッサが、前記メモリに、前記分類した結果と、前記算出された発散度と、前記算出された進捗度とを格納し、
    前記プロセッサが、前記分類した結果と、前記算出された発散度と、前記算出された進捗度とを表示するためのデータを生成することを特徴とする文書分類方法。
  7. 前記プロセッサが、1回の分類ごとの前記発散度を前記グループごとに算出し、
    前記プロセッサが、複数回の前記分類において算出された前記発散度を一つの画面に表示するためのデータを生成することを特徴とする請求項6に記載の文書分類方法。
  8. 前記プロセッサが、前記算出された発散度と、前記分類の回数と、前記正しい分類先が入力された文書数とに基づいて前記進捗度を算出することを特徴とする請求項6に記載の文書分類方法。
  9. 前記プロセッサが、前記分類した結果と、前記算出された発散度と、前記算出された進捗度とを1回の分類ごとに表示するためのデータを生成することを特徴とする請求項6に記載の文書分類方法。
  10. 前記プロセッサが、前記分類によって所属する文書の数が変化したグループと、所属する文書の数が変化しなかったグループとを識別可能に表示するためのデータを生成することを特徴とする請求項6に記載の文書分類方法。
JP2009027551A 2009-02-09 2009-02-09 文書分類装置及び文書分類方法 Active JP5240777B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009027551A JP5240777B2 (ja) 2009-02-09 2009-02-09 文書分類装置及び文書分類方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009027551A JP5240777B2 (ja) 2009-02-09 2009-02-09 文書分類装置及び文書分類方法

Publications (2)

Publication Number Publication Date
JP2010182253A JP2010182253A (ja) 2010-08-19
JP5240777B2 true JP5240777B2 (ja) 2013-07-17

Family

ID=42763795

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009027551A Active JP5240777B2 (ja) 2009-02-09 2009-02-09 文書分類装置及び文書分類方法

Country Status (1)

Country Link
JP (1) JP5240777B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6974751B2 (ja) * 2017-03-28 2021-12-01 日本電信電話株式会社 可視化装置、可視化方法、及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007264985A (ja) * 2006-03-28 2007-10-11 Oki Electric Ind Co Ltd 情報分類方法、情報分類装置及び情報分類プログラム
JP4967705B2 (ja) * 2007-02-22 2012-07-04 富士ゼロックス株式会社 クラスタ生成装置およびクラスタ生成プログラム
JP4309933B2 (ja) * 2007-06-08 2009-08-05 株式会社日立製作所 文書分類装置及び分類方法
JP5155025B2 (ja) * 2008-06-04 2013-02-27 株式会社日立製作所 類似データ検索システム

Also Published As

Publication number Publication date
JP2010182253A (ja) 2010-08-19

Similar Documents

Publication Publication Date Title
CA2772082C (en) Generating a reference set for use during document review
US9886669B2 (en) Interactive visualization of machine-learning performance
CN108073568A (zh) 关键词提取方法和装置
CN111373392B (zh) 文献分类装置
US20090327259A1 (en) Automatic concept clustering
US10353925B2 (en) Document classification device, document classification method, and computer readable medium
WO2014057963A1 (ja) フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
US20120239596A1 (en) Classification of stream-based data using machine learning
MX2012011923A (es) Asignacion de atributis aplicables para datos que describen la identidad personal.
CN115688760B (zh) 一种智能化导诊方法、装置、设备及存储介质
CN116455861B (zh) 一种基于大数据的计算机网络安全监测系统及方法
CN111221968A (zh) 基于学科树聚类的作者消歧方法及装置
US20170154294A1 (en) Performance evaluation device, control method for performance evaluation device, and control program for performance evaluation device
WO2014057965A1 (ja) フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
JP5240777B2 (ja) 文書分類装置及び文書分類方法
CN113516189B (zh) 基于两阶段随机森林算法的网站恶意用户预测方法
US20220108071A1 (en) Information processing device, information processing system, and non-transitory computer readable medium
CN110413782B (zh) 一种表自动主题分类方法、装置、计算机设备及存储介质
JP6081609B2 (ja) データ分析システム及びその方法
CN113988149A (zh) 一种基于粒子群模糊聚类的服务聚类方法
US20200226528A1 (en) Information processing apparatus and non-transitory computer readable medium storing program
CN111108516A (zh) 使用深度学习算法来评价输入数据
JPWO2020201875A5 (ja)
JP6404294B2 (ja) フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
KR20230128949A (ko) 검색 엔진 성능 평가 장치 및 방법과 대시보드

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110613

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120309

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130305

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130327

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160412

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5240777

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150