JP2009070321A

JP2009070321A - 文書分類装置、及び文書分類プログラム

Info

Publication number: JP2009070321A
Application number: JP2007240700A
Authority: JP
Inventors: Motofumi Fukui; 基文福井; Hitoshi Ikeda; 仁池田; Junichi Takeda; 隼一武田
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2007-09-18
Filing date: 2007-09-18
Publication date: 2009-04-02

Abstract

【課題】学習サンプルの文書には出現しなかったキーワードの影響を反映させて分類性能を向上させる。
【解決手段】文書分類装置１０は、学習用文書群の各文書について、学習用文書群から抽出された学習キーワード群に基づく特徴量データを算出し、文書毎の所与の分類を教師信号として、Ｋ個の分類を分類器２６に学習する。次に、文書分類装置１０は、新規文書群の各文書について、学習キーワード群に基づく特徴量データを分類器２６に入力して新規文書群の各文書を分類すると共に、新規文書群から抽出される学習キーワード群の要素でないキーワードを含む新規キーワード群に基づく特徴量データに基づいて新規文書群をＫ個のグループにクラスタリングし、分類器２６による分類結果を、クラスタリング結果に基づいて補正する。
【選択図】図１

Description

本発明は、文書分類装置、及び文書分類プログラムに関する。

一般に文書を分類する場合には、まず学習サンプルの文書から抽出されたキーワードに基づいて各文書をベクトル表現し、そのベクトルを学習データとして文書の分類を学習した分類器を用いる。学習データとして得られるベクトルは、例えばキーワードＫｉ（ｉ＝１，２，．．．．，ｎ）が文書Ｄｊ（ｊ＝１，２，３，．．．．，Ｎ）に含まれている場合「１」と、含まれていない場合「０」とすることにより、文書Ｄｊに対する特徴ベクトルＰｊはｎ次元のベクトル（０，１，１．．．．．，０）^ｔとして表現される。なお、ｎは学習サンプルに含まれるキーワードの数であり、Ｎは文書数である。

そして未だ分類が付与されていない新たな文書に対しては、上記の学習サンプルから抽出されたキーワードを用いて文書をベクトル表現し、そのベクトルに付与される分類を上記学習された分類器により決定する。なお、上記の学習及び分類の手法としてはＫ−ＮＮ法、ＳＶＭ（サポートベクタマシン）、ブースティング等の公知の手法を用いることができる。

しかしながら、従来の技術では、学習サンプルの文書にはなく未分類の新たな文書で初めて出現した新規のキーワードについては、意味のある情報であるにもかかわらず分類結果には反映されなかった。これに対して、あらかじめ新規のキーワードの存在を考慮に入れてベクトルの次元を増やしておく（その次元に対応する要素は「０」とする）手法も考えられるが、ベクトルの次元を揃えたとしても、新規のキーワードを分類結果に反映させることはできなかった。また、テストデータにラベルを付けた後に、再学習して分類基準を逐次的に変更させたとしても、テストデータに間違ったラベルが付けられた場合には、再学習するたびに精度が劣化してしまっていた。

本発明の目的の１つは、学習サンプルの文書には出現しなかったキーワードの影響を反映させて分類性能を向上させることができる文書分類装置及び文書分類プログラムを提供することにある。

上記目的を達成するために、請求項１に係る文書分類装置の発明は、複数の学習用の文書を含む学習用文書群から抽出されたキーワードを要素とする学習キーワード群を生成する手段と、前記学習用文書群に含まれる各文書について、前記学習キーワード群に基づく特徴量データを算出する手段と、前記学習用文書群に含まれる文書毎の所与の分類を教師信号として、前記算出された特徴量データに基づいてＫ（Ｋは自然数）個の分類を分類器に学習する手段と、複数の新たな文書を含む新規文書群の各文書について、前記学習キーワード群に基づく特徴量データを算出するとともに、当該算出した特徴量データを前記分類器に入力して前記新規文書群に含まれる各文書を前記Ｋ個の分類のいずれかに分類する第１分類手段と、前記新規文書群から抽出されるキーワードのうち、前記学習キーワード群の要素でないキーワードを少なくとも要素として含む新規キーワード群を生成する手段と、前記新規文書群に含まれる各文書について、前記新規キーワード群に基づく特徴量データを算出するとともに、当該算出した特徴量データに基づいて前記新規文書群に含まれる各文書をＫ個のグループに分類する第２分類手段と、前記第１分類手段による分類結果を、前記第２分類手段による分類結果に基づいて補正する補正手段と、を含むことを特徴とする。

請求項２の発明は、請求項１に記載の文書分類装置において、前記学習キーワード群に基づく特徴量データは、前記学習キーワード群の要素の各キーワードが文書に含まれるか否かに基づいて生成される前記学習キーワード群の要素数を次元とするベクトルデータであり、前記新規キーワード群に基づく特徴量データは、前記新規キーワード群の要素の各キーワードが文書に含まれるか否かに基づいて生成される前記新規キーワード群の要素数を次元とするベクトルデータである、ことを特徴とする。

請求項３の発明は、請求項１又は２に記載の文書分類装置において、前記第１分類手段及び前記第２分類手段による分類結果に基づいて、前記第１分類手段による分類結果の評価値を算出する評価値算出手段を更に含み、前記補正手段は、前記評価値算出手段による算出された評価値に基づいて前記第１分類手段による分類結果を補正する、ことを特徴とする。

請求項４の発明は、請求項３に記載の文書分類装置において、前記評価値算出手段は、前記第１分類手段により同一の分類が付与された第１文書群の第１評価値と、当該第１文書群に前記第１分類手段により他の分類が付与された文書の少なくとも１つを加えた第２文書群の第２評価値とをそれぞれ算出し、前記補正手段は、前記第１評価値と前記第２評価値との比較結果に応じて、前記第２文書群に含まれる文書が同一の分類となるように前記第１分類手段による分類結果を補正する、ことを特徴とする。

請求項５の発明は、請求項４に記載の文書分類装置において、前記評価値算出手段は、前記第１文書群から少なくとも１つの文書を除いた第３文書群の第３評価値をさらに算出し、前記補正手段は、前記第１評価値、前記第２評価値、及び前記第３評価値の比較結果に応じて、前記第１文書群、第２文書群、又は第３文書群のいずれかが同一の分類となるように前記第１分類手段による分類結果を補正する、ことを特徴とする。

請求項６の発明は、請求項１乃至５のいずれかに記載の文書分類装置において、前記補正手段は、前記補正手段により補正された分類結果を、前記第１分類手段及び前記第２分類手段による分類結果に基づいて繰り返し補正する、ことを特徴とする。

請求項７に記載の発明は、請求項３乃至６のいずれかに記載の文書分類装置において、前記新規文書群の一部の注目文書群について、当該注目文書群に含まれる文書数をＮ１、当該注目文書群のうち前記第１分類手段により所与の分類が付与された文書数をＮ２、前記新規文書群のうち前記第１分類手段により前記所与の分類が付与された文書の総数をＮ３とした場合に、再現率Ｒｅ＝Ｎ２／Ｎ１、精度Ｐｅ＝Ｎ２／Ｎ３とし、前記新規文書群について前記第２分類手段により同一のグループに分類された文書間にリンクを設定した場合に、前記新規文書群のリンクの総数をＬ_ＡＬＬ、前記注目文書群のリンクの数をＬ_Ａ、前記新規文書群から前記注目文書群を除いた文書群のリンクの数をＬ_Ｂとし、所与の重みαとして前記注目文書群の評価値ｇを、ｇ＝Ｆ_{ｓｃｏｒｅ}・Ｌ_{ｓｃｏｒｅ} ^α、ただし、Ｆ_{ｓｃｏｒｅ}＝２・Ｒｅ・Ｐｅ／（Ｒｅ＋Ｐｅ），Ｌ_{ｓｃｏｒｅ}＝（Ｌ_Ａ＋Ｌ_Ｂ）／Ｌ_ＡＬＬとする、ことを特徴とする。

請求項８に記載の文書分類プログラムの発明は、複数の学習用の文書を含む学習用文書群から抽出されたキーワードを要素とする学習キーワード群を生成する手段、前記学習用文書群に含まれる各文書について、前記学習キーワード群に基づく特徴量データを算出する手段、前記学習用文書群に含まれる文書毎の所与の分類を教師信号として、前記算出された特徴量データに基づいてＫ（Ｋは自然数）個の分類を分類器に学習する手段、複数の新たな文書を含む新規文書群の各文書について、前記学習キーワード群に基づく特徴量データを算出するとともに、当該算出した特徴量データを前記分類器に入力して前記新規文書群に含まれる各文書を前記Ｋ個の分類のいずれかに分類する第１分類手段、前記新規文書群から抽出されるキーワードのうち、前記学習キーワード群の要素でないキーワードを少なくとも要素として含む新規キーワード群を生成する手段、前記新規文書群に含まれる各文書について、前記新規キーワード群に基づく特徴量データを算出するとともに、当該算出した特徴量データに基づいて前記新規文書群に含まれる各文書をＫ個のグループに分類する第２分類手段、及び、前記第１分類手段による分類結果を、前記第２分類手段による分類結果に基づいて補正する補正手段、としてコンピュータを機能させることを特徴とする。

請求項１に記載の発明によれば、学習サンプルの文書には出現しなかったキーワードの影響を分類結果に反映させることで、分類性能を向上できる。

請求項２に記載の発明によれば、学習用文書群から抽出されたキーワードにより生成されるベクトルデータの次元と、未分類の新規文書から抽出されたキーワードにより生成されるベクトルデータの次元が異なることに起因する分類性能の劣化を防止することができる。

請求項３に記載の発明によれば、学習用文書群により予め学習された分類器による分類結果について、新規キーワード群に基づく教師信号を用いない分類処理（クラスタリング）の結果に基づく評価値を用いて補正することで、分類性能を向上できる。

請求項４に記載の発明によれば、分類器により同一の分類が付与された文書群について、その文書群の評価値と、その文書群に他の分類が付与された文書を追加した場合の評価値をそれぞれ算出し、評価値の比較結果に基づいて分類結果を補正することで、分類性能を向上できる。

請求項５に記載の発明によれば、分類器による同一の分類が付与された文書群から少なくとも１つの文書を除いた場合の評価値をさらに算出し、算出した評価値の比較結果に基づいて分類器による分類結果を補正することで、分類性能を向上できる。

請求項６に記載の発明によれば、補正した分類結果を新規キーワード群に基づく教師信号を用いない分類処理（クラスタリング）の結果に基づく評価値を用いて繰り返し補正することで、分類性能を向上できる。

請求項７に記載の発明によれば、学習用文書群により予め学習された分類器による分類結果について、新規キーワード群に基づく教師信号を用いない分類処理（クラスタリング）の結果に基づく適切な評価値を算出することで、分類性能を向上させることができる。

請求項８に記載の発明によれば、学習サンプルの文書には出現しなかったキーワードの影響を反映させて分類性能を向上させるようにコンピュータを機能させることができる。

以下、本発明を実施するための好適な実施の形態（以下、実施形態という）を、図面に従って説明する。

図１には、本実施形態に係る文書分類装置１０の機能ブロック図を示す。図１に示されるように、文書分類装置１０は、電子文書取得部２０、キーワード抽出部２２、特徴ベクトル算出部２４、分類器２６、新規キーワード抽出部２８、クラスタリング部３０、及び分類結果補正部３２を具備する。上記の各機能は、コンピュータシステムたる文書分類装置１０がコンピュータプログラムに従って動作することにより実現されるものとしてよい。また、コンピュータプログラムは、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、フラッシュメモリ等のコンピュータが読み取り可能なあらゆる形態の情報記録媒体に格納され、文書分類装置１０に接続された図示しない媒体読み取り装置により文書分類装置１０に読み込まれることとしてもよい。また、コンピュータプログラムは、ネットワークを介して文書分類装置１０にダウンロードされることとしても構わない。

電子文書取得部２０は、電子文書データが格納されたハードディスク等の記憶装置から電子文書群を取得する。電子文書取得部２０は、学習処理時には学習サンプルの文書群（以下、学習用文書群）を取得し、分類処理時には新規分類対象の文書群（以下、新規文書群）を取得する。また、電子文書取得部２０は、ネットワークを介して電子文書をダウンロードして取得してもよいし、スキャナにより得られた文書画像をＯＣＲ処理して電子文書を取得することとしても構わない。

キーワード抽出部２２は、電子文書取得部２０により取得された電子文書群からキーワードを抽出する。キーワード抽出部２２は、取得した電子文書群において出現回数の多い語をキーワードとして抽出してもよいし、文書構造や構文上の重要度をさらに加味してキーワードを抽出することとしてもよい。キーワード抽出部２２は、学習処理時には電子文書取得部２０により取得された学習用文書群から抽出されたキーワードからなる学習キーワード群を特徴ベクトル算出部２４に出力する。また、キーワード抽出部２２は、抽出した学習キーワード群をメモリに格納して記憶しておく。

特徴ベクトル算出部２４は、キーワード抽出部２２により抽出されたキーワード群に基づいて電子文書群に含まれる各文書の特徴量ベクトルを算出する。例えば、キーワード抽出部２２により文書数Ｎの学習用文書群から要素数ｎからなるキーワードＫｉ（ｉ＝１，２，．．．．，ｎ）が抽出されたとすると、学習用文書群の各文書Ｄｊ（ｊ＝１，２，３，．．．．，Ｎ）について、Ｋｉが含まれている場合「１」と、含まれていない場合「０」とすることにより、文書Ｄｊの特徴ベクトルＰｊは、ｎ次元のベクトル（０，１，１．．．．．，０）^ｔとして表現される。

分類器２６は、特徴ベクトル算出部２４により算出された文書の特徴ベクトルに基づいて、各文書を学習された分類数（Ｋ）のいずれかに分類（ラベリング）する。分類器２６は、学習用文書群の各文書について算出された特徴ベクトルと、学習用文書群の各文書について予め付与された分類（ラベル）に基づいて、Ｋ個の分類（ラベル）を学習する。分類器２６の学習アルゴリズムには、Ｋ−ＮＮ法、ＳＶＭ（サポートベクタマシン）、ブースティング等の公知の教師信号ありの学習アルゴリズムを用いることとしてよい。

分類器２６は、例えばＳＶＭやアダブースト等の２値分類器を複数並べた多値分類器により構成することとしてよい。この時、特徴ベクトルＰｊは（０，１，１，１，．．．．，１）^ｔのようにｎ次元のベクトルデータとして表される。特徴ベクトルＰｊに対してラベルＬｋが与えられているとし（ｋ＝１，２，．．．．，Ｋ）、ラベルがＬｋである特徴ベクトルＰの集合をＣｋとする。この時、分類器２６により評価関数ｆ（Ｐ）が作成され、ｆ（Ｐｊ）＝Ｌｋを満たす。なお、Ｋ−ＮＮ法等の距離計算が必要となるアルゴリズムを使う場合には、算出された特徴ベクトルＰｊは正規化しておくこととする。

以上が文書分類装置１０において行われる学習用文書群を用いた分類学習処理に関する機能ブロックである。次に、未分類の文書（新規文書）について分類を付与する処理に関する機能ブロックについて説明する。新規文書群については、電子文書取得部２０により取得された後に、キーワード抽出部２２により新規文書群のキーワード群を抽出する。上記処理については、学習用文書群に対する処理と同様である。

新規キーワード生成部２８は、キーワード抽出部２２により新規文書群から抽出されたキーワード群について、メモリに格納された学習キーワード群に含まれないキーワードを少なくとも含む新規キーワード群を生成する。

学習キーワード群Ｋの要素をＫｉ（ｉ＝１，２，．．．．，ｎ）、そして新規文書群で新たに出現したキーワード群Ｋ’の要素をＫｉ’（ｉ’＝ｎ＋１，ｎ＋２，．．．．，ｎ＋ｒ）とする。なお、ｒは、キーワード抽出部２２により新たに抽出されたキーワードの数である。ここで、新規キーワード群は、Ｋｉ’を少なくとも含むキーワード群として生成される。例えば、新規キーワード生成部２８は、Ｋｉ’のみを要素として新規キーワード群を構成してもよいし、Ｋｉ＋Ｋｉ’を要素として新規キーワード群を構成してもよい。

特徴ベクトル算出部２４は、新規文書群に含まれる各文書に関して、分類器２６に入力するための特徴ベクトル（以下、分類器用特徴ベクトル）と、クラスタリング部３０に入力するための特徴ベクトル（以下、クラスタリング用特徴ベクトル）とをそれぞれ算出する。

分類器用特徴ベクトルは、メモリに格納された学習用キーワード群の各要素キーワードＫｉ（ｉ＝１，２，．．．．，ｎ）を用いて、文書数Ｍからなる新規文書群の各文書Ｄ_ｎｅｗｊ（ｊ＝１，２，３，．．．．，Ｍ）について、Ｋｉが含まれている場合「１」と、含まれていない場合「０」とすることにより、文書Ｄ_ｎｅｗｊの分類器用特徴ベクトルＰ_１ｊは、ｎ次元のベクトル（０，１，１．．．．．，０）^ｔとして表現される。

また、クラスタリング用特徴ベクトルは、新規キーワード群に対する特徴ベクトルとして算出され、例えば、新規キーワード群がＫｉ＋Ｋｉ’を要素として構成される場合にはｎ＋ｒ次元のベクトルとして算出され、Ｋｉ’のみを要素として構成される場合にはｒ次元のベクトルとして算出される。ここで、新規キーワード群がｒのキーワードを要素として構成される場合には、新規キーワード群の各キーワードＫ_ｎｅｗｉ（ｉ＝１，２，．．．．，ｒ）を用いて、新規文書群の各文書Ｄ_ｎｅｗｊ（ｊ＝１，２，３，．．．．，Ｍ）について、Ｋ_ｎｅｗｉが含まれている場合「１」と、含まれていない場合「０」とすることにより、新規文書Ｄ_ｎｅｗｊのクラスタリング用特徴ベクトルＰ_２ｊは、ｒ次元のベクトル（０，１，１．．．．．，０）^ｔとして表現される。

分類器２６は、分類器用特徴ベクトルＰ_１ｊの入力を受けて、新規文書群の各文書に分類（ラベル）を付与する。分類器２６は、上記学習された評価関数ｆに分類器用特徴ベクトルＰ_１ｊを入力することにより、すなわちｆ（Ｐ_１ｊ）を計算することにより、新規文書群の各文書Ｄ_ｎｅｗｊ（ｊ＝１，２，３，．．．．，Ｍ）について仮のラベルを付与する。

クラスタリング部３０は、クラスタリング用特徴ベクトルの入力を受けて、新規文書群の各文書をクラスタリング（教師無しラベル付け）する。クラスタリングのアルゴリズムには、Ｋ−Ｍｅａｎｓ法や各種階層クラスタリング法など既存のアルゴリズムを用いることとしてよいが、そのクラスタ数（分類数）は分類器２６において学習されたラベルの数に等しくＫである。クラスタリング部３０では、新規文書群のそれぞれのクラスタリング用特徴ベクトルの値に基づいて、新規文書群の文書をＫ個のグループに振り分ける。

分類結果補正部３２は、分類器２６による分類結果を、クラスタリングによるクラスタリング結果（分類結果）を用いて補正する。具体的には、分類結果補正部３２は、分類器２６による分類結果について、分類器２６による分類結果及びクラスタリング結果に基づいた評価値を算出し、その評価値の大小に応じて分類結果を補正する。

分類結果の評価値は、以下のようにして算出される。まず、新規文書群のうち現在同一のグループとして分類している文書群に注目し、この文書群を注目文書群とする。注目文書群は、分類器２６による分類結果そのものとしてもよいし、その分類結果を補正したものであることとしてもよい。ここで、注目文書群に含まれる文書数をＮ１、注目文書群のうち分類器２６により所与の分類（例えばラベルが「１」）が付与された文書数をＮ２、新規文書群のうち分類器２６により所与の分類が付与された文書の総数をＮ３とした場合に、再現率Ｒｅを以下の式（１）、精度Ｐｅを以下の式（２）により算出する。そして、再現率Ｒｅと精度Ｐｅとの調和平均であるＦ_{ｓｃｏｒｅ}は、以下の式（３）により算出する。
Ｒｅ＝Ｎ２／Ｎ１・・・（１）
Ｐｅ＝Ｎ２／Ｎ３・・・（２）
Ｆ_{ｓｃｏｒｅ}＝２・Ｒｅ・Ｐｅ／（Ｒｅ＋Ｐｅ）・・・（３）

また、新規文書群についてクラスタリング部３０により同一のグループに分類された文書間にリンクを設定した場合に、新規文書群のリンクの総数をＬ_ＡＬＬ、注目文書群のリンクの数をＬ_Ａ、新規文書群から注目文書群を除いた文書群のリンクの数をＬ_Ｂとし、Ｌ_{ｓｃｏｒｅ}（リンクスコア）を以下の式（４）により算出する。
Ｌ_{ｓｃｏｒｅ}＝（Ｌ_Ａ＋Ｌ_Ｂ）／Ｌ_ＡＬＬ・・・（４）

分類結果補正部３２は、以上算出されたＦ_{ｓｃｏｒｅ}及びＬ_{ｓｃｏｒｅ}を用いて、注目文書群の評価値ｇを、以下の式（５）により算出する。
ｇ＝Ｆ_{ｓｃｏｒｅ}・Ｌ_{ｓｃｏｒｅ} ^α ・・・（５）
なお、αは所与の重みであり、利用者により適宜設定されることとしてよい。

分類結果補正部３２は、文書群について算出された評価値を用いて、新規文書群の分類結果を補正する。ここで、分類結果補正部３２による分類結果の補正処理について、図２及び図３を参照しつつ具体的に説明する。図２には、分類器２６及びクラスタリング部３０による分類結果を示す。各ノードは、新規文書群の各文書を表しており、各ノードに付与された数字は分類器２６による分類結果である。図２に示された例では、分類器２６による分類数、及びクラスタリング部３０によるクラスタ数（分類数）は共に３である。そして、リンクで接続されたノード群がそれぞれクラスタリング部３０による分類結果（クラスタリング結果）である。

図３（Ａ）に示されるように、分類結果補正部３２はまず、分類器２６により分類「１」が付与された文書群を初期グループ分けの文書群（以下、注目文書群）として選択し、この注目文書群から開始して分類状態を適切な状態に変化させる。分類結果補正部３２は、注目文書群の評価値ｇ_０を算出する。算出した評価値ｇ_０はメモリに格納しておく。

ここで、図３（Ａ）の注目文書群について、Ｎ１＝６，Ｎ２＝６，Ｎ３＝６であるから、上記式（１）〜（３）により、Ｒｅ＝６／６，Ｐｅ＝６／６，Ｆ_{ｓｃｏｒｅ}＝１と算出される。さらに、Ｌ_Ａ＝４，Ｌ_Ｂ＝３，Ｌ_ＡＬＬ＝１９であるから、上記式（４）によりＬ_{ｓｃｏｒｅ}＝７／１９と算出される。例えばα＝０．５とすると、上記式（５）により、図３（Ａ）の注目文書群の評価値ｇ_０＝０．６０７と算出される。

次に、図３（Ｂ）に示されるように、注目文書群に「１」以外の分類が付与された文書を追加した場合の評価値を算出する。ここで、図３（Ｂ）の注目文書群について、Ｎ１＝７，Ｎ２＝６，Ｎ３＝６であるから、上記式（１）〜（３）により、Ｒｅ＝６／７，Ｐｅ＝６／６，Ｆ_{ｓｃｏｒｅ}＝１２／１３と算出される。さらに、Ｌ_Ａ＝７，Ｌ_Ｂ＝２，Ｌ_ＡＬＬ＝１９であるから、上記式（４）によりＬ_{ｓｃｏｒｅ}＝９／１９と算出される。例えばα＝０．５とすると、上記式（５）により、図３（Ｂ）の注目文書群の評価値ｇ＝０．６３５と算出される。また、図３（Ｂ）に示される例以外の他の文書を追加した場合の評価値もそれぞれ算出する。

さらに、図３（Ｃ）に示されるように、注目文書群から文書を除いた場合の評価値を算出する。ここで、図３（Ｃ）の注目文書群について、Ｎ１＝５，Ｎ２＝５，Ｎ３＝６であるから、上記式（１）〜（３）により、Ｒｅ＝５／５，Ｐｅ＝５／６，Ｆ_{ｓｃｏｒｅ}＝１０／１１と算出される。さらに、Ｌ_Ａ＝４，Ｌ_Ｂ＝５，Ｌ_ＡＬＬ＝１９であるから、上記式（４）によりＬ_{ｓｃｏｒｅ}＝９／１９と算出される。例えばα＝０．５とすると、上記式（５）により、図３（Ｃ）の注目文書群の評価値ｇ＝０．６２６と算出される。また、この場合も上記と同様に、図３（Ｃ）に示される例以外の他の文書を除いた場合の評価値もそれぞれ算出する。

そして、分類結果補正部３２は、現在のグループに対して、追加（６通り）＋削除（６通り）の合計１２通りの評価値ｇを算出し、その算出された評価値のうち最大のものを新たなグループに設定し分類を更新する。ここで、現在のグループの評価値ｇ_０の値を超えるものがない場合、そのラベルについての更新処理を終了する。そして、上記の更新処理を各ラベルについて逐次的に実施すれば（Ｋ＝３ならば２回）、分類結果をクラスタリング結果により補正した最終的な分類結果を得ることができる。

図３（Ｄ）には、α＝０．５における上記補正処理を繰り返し実行した後のラベル「１」に関する分類結果の一例を示す。この点線で囲まれた文書群を新たなラベル「１」の文書群として更新する。

次に、図４乃至図６に示されたフロー図を参照しつつ、文書分類装置１０による分類学習処理、及び文書分類処理の一連の流れを説明する。

［分類学習処理］
文書分類装置１０は、記憶装置に格納された学習用文書群を読み込み（Ｓ１０１）、学習用文書群から複数のキーワードからなる学習キーワード群を抽出する（Ｓ１０２）。文書分類装置１０は、抽出した学習キーワード群を用いて、学習用文書群に含まれるそれぞれの文書について特徴ベクトルを算出する（Ｓ１０３）。文書分類装置１０は、算出した特徴ベクトルを入力とし、予め定められた学習用文書群の各文書の分類（ラベル）を教師信号として分類器２６に所定数（Ｋ）の分類を学習させる（Ｓ１０４）。

［文書分類処理］
文書分類装置１０は、記憶装置に格納された未分類の新規文書群を読み込む（Ｓ２０１）。文書分類装置１０は、学習処理時に抽出した学習キーワード群を用いて、新規文書群の各文書の特徴ベクトル（分類器用特徴ベクトル）を算出する（Ｓ２０２）。文書分類装置１０は、上記の学習処理においてＫ個の分類が学習された分類器２６に、上記算出した分類器用特徴ベクトルを入力して新規文書群の各文書に分類（ラベル）を付与する（Ｓ２０３）。

文書分類装置１０はさらに、新規文書群から複数のキーワードを抽出するとともに、抽出したキーワードのうち学習キーワード群の要素に含まれないキーワードを少なくとも含む新規キーワード群を生成する。文書分類装置１０は、生成した新規キーワード群に基づいて、各文書の特徴ベクトル（クラスタリング用特徴ベクトル）を算出する（Ｓ２０４）。文書分類装置１０は、算出した各文書のクラスタリング用特徴ベクトルを用いて、各文書をＫ個のグループにクラスタリングする（Ｓ２０５）。

文書分類装置１０は、新規文書群に対して、分類器２６によるラベリング処理、及びクラスタリング部３０によるクラスタリング処理を終えると、分類器２６による分類（ラベリング）結果をクラスタリング部３０による分類（クラスタリング）結果に基づいて補正する（Ｓ２０６）。この分類結果の補正処理については、図６に示されるフロー図を参照しつつ説明する。

［分類結果の補正処理］
文書分類装置１０は、クラスタリング処理により同一のグループに分類された文書間にリンクを設定し（Ｓ３０１）、各文書には分類器２６による分類結果に基づいてラベルを付与する（Ｓ３０２）。

ここで文書分類装置１０は、ラベルがｉ（初期値１）の文書群を注目文書群として選択し、ネットワークに基づいて注目文書群の評価値を算出する（Ｓ３０３）。そして、文書分類装置１０は、注目文書群から要素である文書を削除した場合の評価値と、注目文書群に他のラベルの文書を追加した場合の評価値をそれぞれ算出する（Ｓ３０４）。

文書分類装置１０は、Ｓ３０４で算出された評価値が、Ｓ３０３で算出された現在の評価値よりも大きいか否かを判断する（Ｓ３０５）。Ｓ３０４で算出された評価値のうち、現在の評価値よりも大きいものがあれば、その最大値を選択してグループを更新する（Ｓ３０６）。そして、文書分類装置１０は、Ｓ３０３に戻りグループの更新処理を繰り返す。

また、Ｓ３０４で算出された評価値のうち、現在の評価値よりも大きいものがなければ（Ｓ３０５：Ｎ）、ラベルが分類数（Ｋ）未満であるか否かを判断し（Ｓ３０７）、ラベルが分類数未満である場合には、ラベルｉに１を加えて（Ｓ３０８）、Ｓ３０３に戻り処理を繰り返す。文書分類装置１０は、Ｓ３０７でラベルが分類数に達したと判断する場合には、処理を終了する。

以上説明した文書分類装置１０によれば、学習サンプルの文書には出現しなかったキーワードの影響を反映させて分類性能を向上させることができる。

なお、本発明は上記の実施形態に限定されるものではない。

例えば、文書分類装置１０は、分類結果の補正が終了した後に、分類結果をディスプレイに表示することとしてよい。この時、分類結果には、最終的な分類結果の他に、分類器２６による分類結果、又は／及び、クラスタリング結果を含めることとしてもよい。

文書分類装置の機能ブロック図である。分類結果の一例を示す図である。分類結果の補正処理のシーケンスを説明する図である。分類学習処理のフロー図である。文書分類処理のフロー図である。分類結果の補正処理のフロー図である。

符号の説明

１０文書分類装置、２０電子文書取得部、２２キーワード抽出部、２４特徴ベクトル算出部、２６分類器、２８新規キーワード生成部、３０クラスタリング部、３２分類結果補正部。

Claims

複数の学習用の文書を含む学習用文書群から抽出されたキーワードを要素とする学習キーワード群を生成する手段と、
前記学習用文書群に含まれる各文書について、前記学習キーワード群に基づく特徴量データを算出する手段と、
前記学習用文書群に含まれる文書毎の所与の分類を教師信号として、前記算出された特徴量データに基づいてＫ（Ｋは自然数）個の分類を分類器に学習する手段と、
複数の新たな文書を含む新規文書群の各文書について、前記学習キーワード群に基づく特徴量データを算出するとともに、当該算出した特徴量データを前記分類器に入力して前記新規文書群に含まれる各文書を前記Ｋ個の分類のいずれかに分類する第１分類手段と、
前記新規文書群から抽出されるキーワードのうち、前記学習キーワード群の要素でないキーワードを少なくとも要素として含む新規キーワード群を生成する手段と、
前記新規文書群に含まれる各文書について、前記新規キーワード群に基づく特徴量データを算出するとともに、当該算出した特徴量データに基づいて前記新規文書群に含まれる各文書をＫ個のグループに分類する第２分類手段と、
前記第１分類手段による分類結果を、前記第２分類手段による分類結果に基づいて補正する補正手段と、
を含むことを特徴とする文書分類装置。
前記学習キーワード群に基づく特徴量データは、前記学習キーワード群の要素の各キーワードが文書に含まれるか否かに基づいて生成される前記学習キーワード群の要素数を次元とするベクトルデータであり、
前記新規キーワード群に基づく特徴量データは、前記新規キーワード群の要素の各キーワードが文書に含まれるか否かに基づいて生成される前記新規キーワード群の要素数を次元とするベクトルデータである、
ことを特徴とする請求項１に記載の文書分類装置。
前記第１分類手段及び前記第２分類手段による分類結果に基づいて、前記第１分類手段による分類結果の評価値を算出する評価値算出手段を更に含み、
前記補正手段は、前記評価値算出手段による算出された評価値に基づいて前記第１分類手段による分類結果を補正する、
ことを特徴とする請求項１又は２に記載の文書分類装置。
前記評価値算出手段は、前記第１分類手段により同一の分類が付与された第１文書群の第１評価値と、当該第１文書群に前記第１分類手段により他の分類が付与された文書の少なくとも１つを加えた第２文書群の第２評価値とをそれぞれ算出し、
前記補正手段は、前記第１評価値と前記第２評価値との比較結果に応じて、前記第２文書群に含まれる文書が同一の分類となるように前記第１分類手段による分類結果を補正する、
ことを特徴とする請求項３に記載の文書分類装置。
前記評価値算出手段は、前記第１文書群から少なくとも１つの文書を除いた第３文書群の第３評価値をさらに算出し、
前記補正手段は、前記第１評価値、前記第２評価値、及び前記第３評価値の比較結果に応じて、前記第１文書群、第２文書群、又は第３文書群のいずれかが同一の分類となるように前記第１分類手段による分類結果を補正する、
ことを特徴とする請求項４に記載の文書分類装置。
前記補正手段は、前記補正手段により補正された分類結果を、前記第１分類手段及び前記第２分類手段による分類結果に基づいて繰り返し補正する、
ことを特徴とする請求項１乃至５のいずれかに記載の文書分類装置。
前記新規文書群の一部の注目文書群について、当該注目文書群に含まれる文書数をＮ１、当該注目文書群のうち前記第１分類手段により所与の分類が付与された文書数をＮ２、前記新規文書群のうち前記第１分類手段により前記所与の分類が付与された文書の総数をＮ３とした場合に、再現率Ｒｅ＝Ｎ２／Ｎ１、精度Ｐｅ＝Ｎ２／Ｎ３とし、
前記新規文書群について前記第２分類手段により同一のグループに分類された文書間にリンクを設定した場合に、前記新規文書群のリンクの総数をＬ_ＡＬＬ、前記注目文書群のリンクの数をＬ_Ａ、前記新規文書群から前記注目文書群を除いた文書群のリンクの数をＬ_Ｂとし、
所与の重みαとして前記注目文書群の評価値ｇを、
ｇ＝Ｆ_{ｓｃｏｒｅ}・Ｌ_{ｓｃｏｒｅ} ^α
ただし、Ｆ_{ｓｃｏｒｅ}＝２・Ｒｅ・Ｐｅ／（Ｒｅ＋Ｐｅ），Ｌ_{ｓｃｏｒｅ}＝（Ｌ_Ａ＋Ｌ_Ｂ）／Ｌ_ＡＬＬとする、
ことを特徴とする請求項３乃至６のいずれかに記載の文書分類装置。
複数の学習用の文書を含む学習用文書群から抽出されたキーワードを要素とする学習キーワード群を生成する手段、
前記学習用文書群に含まれる各文書について、前記学習キーワード群に基づく特徴量データを算出する手段、
前記学習用文書群に含まれる文書毎の所与の分類を教師信号として、前記算出された特徴量データに基づいてＫ（Ｋは自然数）個の分類を分類器に学習する手段、
複数の新たな文書を含む新規文書群の各文書について、前記学習キーワード群に基づく特徴量データを算出するとともに、当該算出した特徴量データを前記分類器に入力して前記新規文書群に含まれる各文書を前記Ｋ個の分類のいずれかに分類する第１分類手段、
前記新規文書群から抽出されるキーワードのうち、前記学習キーワード群の要素でないキーワードを少なくとも要素として含む新規キーワード群を生成する手段、
前記新規文書群に含まれる各文書について、前記新規キーワード群に基づく特徴量データを算出するとともに、当該算出した特徴量データに基づいて前記新規文書群に含まれる各文書をＫ個のグループに分類する第２分類手段、及び、
前記第１分類手段による分類結果を、前記第２分類手段による分類結果に基づいて補正する補正手段、
としてコンピュータを機能させることを特徴とする文書分類プログラム。