JP2009070321A - 文書分類装置、及び文書分類プログラム - Google Patents

文書分類装置、及び文書分類プログラム Download PDF

Info

Publication number
JP2009070321A
JP2009070321A JP2007240700A JP2007240700A JP2009070321A JP 2009070321 A JP2009070321 A JP 2009070321A JP 2007240700 A JP2007240700 A JP 2007240700A JP 2007240700 A JP2007240700 A JP 2007240700A JP 2009070321 A JP2009070321 A JP 2009070321A
Authority
JP
Japan
Prior art keywords
document
classification
group
new
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007240700A
Other languages
English (en)
Inventor
Motofumi Fukui
基文 福井
Hitoshi Ikeda
仁 池田
Junichi Takeda
隼一 武田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2007240700A priority Critical patent/JP2009070321A/ja
Publication of JP2009070321A publication Critical patent/JP2009070321A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】学習サンプルの文書には出現しなかったキーワードの影響を反映させて分類性能を向上させる。
【解決手段】文書分類装置10は、学習用文書群の各文書について、学習用文書群から抽出された学習キーワード群に基づく特徴量データを算出し、文書毎の所与の分類を教師信号として、K個の分類を分類器26に学習する。次に、文書分類装置10は、新規文書群の各文書について、学習キーワード群に基づく特徴量データを分類器26に入力して新規文書群の各文書を分類すると共に、新規文書群から抽出される学習キーワード群の要素でないキーワードを含む新規キーワード群に基づく特徴量データに基づいて新規文書群をK個のグループにクラスタリングし、分類器26による分類結果を、クラスタリング結果に基づいて補正する。
【選択図】図1

Description

本発明は、文書分類装置、及び文書分類プログラムに関する。
一般に文書を分類する場合には、まず学習サンプルの文書から抽出されたキーワードに基づいて各文書をベクトル表現し、そのベクトルを学習データとして文書の分類を学習した分類器を用いる。学習データとして得られるベクトルは、例えばキーワードKi(i=1,2,....,n)が文書Dj(j=1,2,3,....,N)に含まれている場合「1」と、含まれていない場合「0」とすることにより、文書Djに対する特徴ベクトルPjはn次元のベクトル(0,1,1.....,0)として表現される。なお、nは学習サンプルに含まれるキーワードの数であり、Nは文書数である。
そして未だ分類が付与されていない新たな文書に対しては、上記の学習サンプルから抽出されたキーワードを用いて文書をベクトル表現し、そのベクトルに付与される分類を上記学習された分類器により決定する。なお、上記の学習及び分類の手法としてはK−NN法、SVM(サポートベクタマシン)、ブースティング等の公知の手法を用いることができる。
しかしながら、従来の技術では、学習サンプルの文書にはなく未分類の新たな文書で初めて出現した新規のキーワードについては、意味のある情報であるにもかかわらず分類結果には反映されなかった。これに対して、あらかじめ新規のキーワードの存在を考慮に入れてベクトルの次元を増やしておく(その次元に対応する要素は「0」とする)手法も考えられるが、ベクトルの次元を揃えたとしても、新規のキーワードを分類結果に反映させることはできなかった。また、テストデータにラベルを付けた後に、再学習して分類基準を逐次的に変更させたとしても、テストデータに間違ったラベルが付けられた場合には、再学習するたびに精度が劣化してしまっていた。
本発明の目的の1つは、学習サンプルの文書には出現しなかったキーワードの影響を反映させて分類性能を向上させることができる文書分類装置及び文書分類プログラムを提供することにある。
上記目的を達成するために、請求項1に係る文書分類装置の発明は、複数の学習用の文書を含む学習用文書群から抽出されたキーワードを要素とする学習キーワード群を生成する手段と、前記学習用文書群に含まれる各文書について、前記学習キーワード群に基づく特徴量データを算出する手段と、前記学習用文書群に含まれる文書毎の所与の分類を教師信号として、前記算出された特徴量データに基づいてK(Kは自然数)個の分類を分類器に学習する手段と、複数の新たな文書を含む新規文書群の各文書について、前記学習キーワード群に基づく特徴量データを算出するとともに、当該算出した特徴量データを前記分類器に入力して前記新規文書群に含まれる各文書を前記K個の分類のいずれかに分類する第1分類手段と、前記新規文書群から抽出されるキーワードのうち、前記学習キーワード群の要素でないキーワードを少なくとも要素として含む新規キーワード群を生成する手段と、前記新規文書群に含まれる各文書について、前記新規キーワード群に基づく特徴量データを算出するとともに、当該算出した特徴量データに基づいて前記新規文書群に含まれる各文書をK個のグループに分類する第2分類手段と、前記第1分類手段による分類結果を、前記第2分類手段による分類結果に基づいて補正する補正手段と、を含むことを特徴とする。
請求項2の発明は、請求項1に記載の文書分類装置において、前記学習キーワード群に基づく特徴量データは、前記学習キーワード群の要素の各キーワードが文書に含まれるか否かに基づいて生成される前記学習キーワード群の要素数を次元とするベクトルデータであり、前記新規キーワード群に基づく特徴量データは、前記新規キーワード群の要素の各キーワードが文書に含まれるか否かに基づいて生成される前記新規キーワード群の要素数を次元とするベクトルデータである、ことを特徴とする。
請求項3の発明は、請求項1又は2に記載の文書分類装置において、前記第1分類手段及び前記第2分類手段による分類結果に基づいて、前記第1分類手段による分類結果の評価値を算出する評価値算出手段を更に含み、前記補正手段は、前記評価値算出手段による算出された評価値に基づいて前記第1分類手段による分類結果を補正する、ことを特徴とする。
請求項4の発明は、請求項3に記載の文書分類装置において、前記評価値算出手段は、前記第1分類手段により同一の分類が付与された第1文書群の第1評価値と、当該第1文書群に前記第1分類手段により他の分類が付与された文書の少なくとも1つを加えた第2文書群の第2評価値とをそれぞれ算出し、前記補正手段は、前記第1評価値と前記第2評価値との比較結果に応じて、前記第2文書群に含まれる文書が同一の分類となるように前記第1分類手段による分類結果を補正する、ことを特徴とする。
請求項5の発明は、請求項4に記載の文書分類装置において、前記評価値算出手段は、前記第1文書群から少なくとも1つの文書を除いた第3文書群の第3評価値をさらに算出し、前記補正手段は、前記第1評価値、前記第2評価値、及び前記第3評価値の比較結果に応じて、前記第1文書群、第2文書群、又は第3文書群のいずれかが同一の分類となるように前記第1分類手段による分類結果を補正する、ことを特徴とする。
請求項6の発明は、請求項1乃至5のいずれかに記載の文書分類装置において、前記補正手段は、前記補正手段により補正された分類結果を、前記第1分類手段及び前記第2分類手段による分類結果に基づいて繰り返し補正する、ことを特徴とする。
請求項7に記載の発明は、請求項3乃至6のいずれかに記載の文書分類装置において、前記新規文書群の一部の注目文書群について、当該注目文書群に含まれる文書数をN1、当該注目文書群のうち前記第1分類手段により所与の分類が付与された文書数をN2、前記新規文書群のうち前記第1分類手段により前記所与の分類が付与された文書の総数をN3とした場合に、再現率Re=N2/N1、精度Pe=N2/N3とし、前記新規文書群について前記第2分類手段により同一のグループに分類された文書間にリンクを設定した場合に、前記新規文書群のリンクの総数をLALL、前記注目文書群のリンクの数をL、前記新規文書群から前記注目文書群を除いた文書群のリンクの数をLとし、所与の重みαとして前記注目文書群の評価値gを、g=Fscore・Lscore α、ただし、Fscore=2・Re・Pe/(Re+Pe),Lscore=(L+L)/LALLとする、ことを特徴とする。
請求項8に記載の文書分類プログラムの発明は、複数の学習用の文書を含む学習用文書群から抽出されたキーワードを要素とする学習キーワード群を生成する手段、前記学習用文書群に含まれる各文書について、前記学習キーワード群に基づく特徴量データを算出する手段、前記学習用文書群に含まれる文書毎の所与の分類を教師信号として、前記算出された特徴量データに基づいてK(Kは自然数)個の分類を分類器に学習する手段、複数の新たな文書を含む新規文書群の各文書について、前記学習キーワード群に基づく特徴量データを算出するとともに、当該算出した特徴量データを前記分類器に入力して前記新規文書群に含まれる各文書を前記K個の分類のいずれかに分類する第1分類手段、前記新規文書群から抽出されるキーワードのうち、前記学習キーワード群の要素でないキーワードを少なくとも要素として含む新規キーワード群を生成する手段、前記新規文書群に含まれる各文書について、前記新規キーワード群に基づく特徴量データを算出するとともに、当該算出した特徴量データに基づいて前記新規文書群に含まれる各文書をK個のグループに分類する第2分類手段、及び、前記第1分類手段による分類結果を、前記第2分類手段による分類結果に基づいて補正する補正手段、としてコンピュータを機能させることを特徴とする。
請求項1に記載の発明によれば、学習サンプルの文書には出現しなかったキーワードの影響を分類結果に反映させることで、分類性能を向上できる。
請求項2に記載の発明によれば、学習用文書群から抽出されたキーワードにより生成されるベクトルデータの次元と、未分類の新規文書から抽出されたキーワードにより生成されるベクトルデータの次元が異なることに起因する分類性能の劣化を防止することができる。
請求項3に記載の発明によれば、学習用文書群により予め学習された分類器による分類結果について、新規キーワード群に基づく教師信号を用いない分類処理(クラスタリング)の結果に基づく評価値を用いて補正することで、分類性能を向上できる。
請求項4に記載の発明によれば、分類器により同一の分類が付与された文書群について、その文書群の評価値と、その文書群に他の分類が付与された文書を追加した場合の評価値をそれぞれ算出し、評価値の比較結果に基づいて分類結果を補正することで、分類性能を向上できる。
請求項5に記載の発明によれば、分類器による同一の分類が付与された文書群から少なくとも1つの文書を除いた場合の評価値をさらに算出し、算出した評価値の比較結果に基づいて分類器による分類結果を補正することで、分類性能を向上できる。
請求項6に記載の発明によれば、補正した分類結果を新規キーワード群に基づく教師信号を用いない分類処理(クラスタリング)の結果に基づく評価値を用いて繰り返し補正することで、分類性能を向上できる。
請求項7に記載の発明によれば、学習用文書群により予め学習された分類器による分類結果について、新規キーワード群に基づく教師信号を用いない分類処理(クラスタリング)の結果に基づく適切な評価値を算出することで、分類性能を向上させることができる。
請求項8に記載の発明によれば、学習サンプルの文書には出現しなかったキーワードの影響を反映させて分類性能を向上させるようにコンピュータを機能させることができる。
以下、本発明を実施するための好適な実施の形態(以下、実施形態という)を、図面に従って説明する。
図1には、本実施形態に係る文書分類装置10の機能ブロック図を示す。図1に示されるように、文書分類装置10は、電子文書取得部20、キーワード抽出部22、特徴ベクトル算出部24、分類器26、新規キーワード抽出部28、クラスタリング部30、及び分類結果補正部32を具備する。上記の各機能は、コンピュータシステムたる文書分類装置10がコンピュータプログラムに従って動作することにより実現されるものとしてよい。また、コンピュータプログラムは、CD−ROM、DVD−ROM、フラッシュメモリ等のコンピュータが読み取り可能なあらゆる形態の情報記録媒体に格納され、文書分類装置10に接続された図示しない媒体読み取り装置により文書分類装置10に読み込まれることとしてもよい。また、コンピュータプログラムは、ネットワークを介して文書分類装置10にダウンロードされることとしても構わない。
電子文書取得部20は、電子文書データが格納されたハードディスク等の記憶装置から電子文書群を取得する。電子文書取得部20は、学習処理時には学習サンプルの文書群(以下、学習用文書群)を取得し、分類処理時には新規分類対象の文書群(以下、新規文書群)を取得する。また、電子文書取得部20は、ネットワークを介して電子文書をダウンロードして取得してもよいし、スキャナにより得られた文書画像をOCR処理して電子文書を取得することとしても構わない。
キーワード抽出部22は、電子文書取得部20により取得された電子文書群からキーワードを抽出する。キーワード抽出部22は、取得した電子文書群において出現回数の多い語をキーワードとして抽出してもよいし、文書構造や構文上の重要度をさらに加味してキーワードを抽出することとしてもよい。キーワード抽出部22は、学習処理時には電子文書取得部20により取得された学習用文書群から抽出されたキーワードからなる学習キーワード群を特徴ベクトル算出部24に出力する。また、キーワード抽出部22は、抽出した学習キーワード群をメモリに格納して記憶しておく。
特徴ベクトル算出部24は、キーワード抽出部22により抽出されたキーワード群に基づいて電子文書群に含まれる各文書の特徴量ベクトルを算出する。例えば、キーワード抽出部22により文書数Nの学習用文書群から要素数nからなるキーワードKi(i=1,2,....,n)が抽出されたとすると、学習用文書群の各文書Dj(j=1,2,3,....,N)について、Kiが含まれている場合「1」と、含まれていない場合「0」とすることにより、文書Djの特徴ベクトルPjは、n次元のベクトル(0,1,1.....,0)として表現される。
分類器26は、特徴ベクトル算出部24により算出された文書の特徴ベクトルに基づいて、各文書を学習された分類数(K)のいずれかに分類(ラベリング)する。分類器26は、学習用文書群の各文書について算出された特徴ベクトルと、学習用文書群の各文書について予め付与された分類(ラベル)に基づいて、K個の分類(ラベル)を学習する。分類器26の学習アルゴリズムには、K−NN法、SVM(サポートベクタマシン)、ブースティング等の公知の教師信号ありの学習アルゴリズムを用いることとしてよい。
分類器26は、例えばSVMやアダブースト等の2値分類器を複数並べた多値分類器により構成することとしてよい。この時、特徴ベクトルPjは(0,1,1,1,....,1)のようにn次元のベクトルデータとして表される。特徴ベクトルPjに対してラベルLkが与えられているとし(k=1,2,....,K)、ラベルがLkである特徴ベクトルPの集合をCkとする。この時、分類器26により評価関数f(P)が作成され、f(Pj)=Lkを満たす。なお、K−NN法等の距離計算が必要となるアルゴリズムを使う場合には、算出された特徴ベクトルPjは正規化しておくこととする。
以上が文書分類装置10において行われる学習用文書群を用いた分類学習処理に関する機能ブロックである。次に、未分類の文書(新規文書)について分類を付与する処理に関する機能ブロックについて説明する。新規文書群については、電子文書取得部20により取得された後に、キーワード抽出部22により新規文書群のキーワード群を抽出する。上記処理については、学習用文書群に対する処理と同様である。
新規キーワード生成部28は、キーワード抽出部22により新規文書群から抽出されたキーワード群について、メモリに格納された学習キーワード群に含まれないキーワードを少なくとも含む新規キーワード群を生成する。
学習キーワード群Kの要素をKi(i=1,2,....,n)、そして新規文書群で新たに出現したキーワード群K’の要素をKi’(i’=n+1,n+2,....,n+r)とする。なお、rは、キーワード抽出部22により新たに抽出されたキーワードの数である。ここで、新規キーワード群は、Ki’を少なくとも含むキーワード群として生成される。例えば、新規キーワード生成部28は、Ki’のみを要素として新規キーワード群を構成してもよいし、Ki+Ki’を要素として新規キーワード群を構成してもよい。
特徴ベクトル算出部24は、新規文書群に含まれる各文書に関して、分類器26に入力するための特徴ベクトル(以下、分類器用特徴ベクトル)と、クラスタリング部30に入力するための特徴ベクトル(以下、クラスタリング用特徴ベクトル)とをそれぞれ算出する。
分類器用特徴ベクトルは、メモリに格納された学習用キーワード群の各要素キーワードKi(i=1,2,....,n)を用いて、文書数Mからなる新規文書群の各文書Dnewj(j=1,2,3,....,M)について、Kiが含まれている場合「1」と、含まれていない場合「0」とすることにより、文書Dnewjの分類器用特徴ベクトルPjは、n次元のベクトル(0,1,1.....,0)として表現される。
また、クラスタリング用特徴ベクトルは、新規キーワード群に対する特徴ベクトルとして算出され、例えば、新規キーワード群がKi+Ki’を要素として構成される場合にはn+r次元のベクトルとして算出され、Ki’のみを要素として構成される場合にはr次元のベクトルとして算出される。ここで、新規キーワード群がrのキーワードを要素として構成される場合には、新規キーワード群の各キーワードKnewi(i=1,2,....,r)を用いて、新規文書群の各文書Dnewj(j=1,2,3,....,M)について、Knewiが含まれている場合「1」と、含まれていない場合「0」とすることにより、新規文書Dnewjのクラスタリング用特徴ベクトルPjは、r次元のベクトル(0,1,1.....,0)として表現される。
分類器26は、分類器用特徴ベクトルPjの入力を受けて、新規文書群の各文書に分類(ラベル)を付与する。分類器26は、上記学習された評価関数fに分類器用特徴ベクトルPjを入力することにより、すなわちf(Pj)を計算することにより、新規文書群の各文書Dnewj(j=1,2,3,....,M)について仮のラベルを付与する。
クラスタリング部30は、クラスタリング用特徴ベクトルの入力を受けて、新規文書群の各文書をクラスタリング(教師無しラベル付け)する。クラスタリングのアルゴリズムには、K−Means法や各種階層クラスタリング法など既存のアルゴリズムを用いることとしてよいが、そのクラスタ数(分類数)は分類器26において学習されたラベルの数に等しくKである。クラスタリング部30では、新規文書群のそれぞれのクラスタリング用特徴ベクトルの値に基づいて、新規文書群の文書をK個のグループに振り分ける。
分類結果補正部32は、分類器26による分類結果を、クラスタリングによるクラスタリング結果(分類結果)を用いて補正する。具体的には、分類結果補正部32は、分類器26による分類結果について、分類器26による分類結果及びクラスタリング結果に基づいた評価値を算出し、その評価値の大小に応じて分類結果を補正する。
分類結果の評価値は、以下のようにして算出される。まず、新規文書群のうち現在同一のグループとして分類している文書群に注目し、この文書群を注目文書群とする。注目文書群は、分類器26による分類結果そのものとしてもよいし、その分類結果を補正したものであることとしてもよい。ここで、注目文書群に含まれる文書数をN1、注目文書群のうち分類器26により所与の分類(例えばラベルが「1」)が付与された文書数をN2、新規文書群のうち分類器26により所与の分類が付与された文書の総数をN3とした場合に、再現率Reを以下の式(1)、精度Peを以下の式(2)により算出する。そして、再現率Reと精度Peとの調和平均であるFscoreは、以下の式(3)により算出する。
Re=N2/N1 ・・・(1)
Pe=N2/N3 ・・・(2)
score=2・Re・Pe/(Re+Pe) ・・・(3)
また、新規文書群についてクラスタリング部30により同一のグループに分類された文書間にリンクを設定した場合に、新規文書群のリンクの総数をLALL、注目文書群のリンクの数をL、新規文書群から注目文書群を除いた文書群のリンクの数をLとし、Lscore(リンクスコア)を以下の式(4)により算出する。
score=(L+L)/LALL ・・・(4)
分類結果補正部32は、以上算出されたFscore及びLscoreを用いて、注目文書群の評価値gを、以下の式(5)により算出する。
g=Fscore・Lscore α ・・・(5)
なお、αは所与の重みであり、利用者により適宜設定されることとしてよい。
分類結果補正部32は、文書群について算出された評価値を用いて、新規文書群の分類結果を補正する。ここで、分類結果補正部32による分類結果の補正処理について、図2及び図3を参照しつつ具体的に説明する。図2には、分類器26及びクラスタリング部30による分類結果を示す。各ノードは、新規文書群の各文書を表しており、各ノードに付与された数字は分類器26による分類結果である。図2に示された例では、分類器26による分類数、及びクラスタリング部30によるクラスタ数(分類数)は共に3である。そして、リンクで接続されたノード群がそれぞれクラスタリング部30による分類結果(クラスタリング結果)である。
図3(A)に示されるように、分類結果補正部32はまず、分類器26により分類「1」が付与された文書群を初期グループ分けの文書群(以下、注目文書群)として選択し、この注目文書群から開始して分類状態を適切な状態に変化させる。分類結果補正部32は、注目文書群の評価値gを算出する。算出した評価値gはメモリに格納しておく。
ここで、図3(A)の注目文書群について、N1=6,N2=6,N3=6であるから、上記式(1)〜(3)により、Re=6/6,Pe=6/6,Fscore=1と算出される。さらに、L=4,L=3,LALL=19であるから、上記式(4)によりLscore=7/19と算出される。例えばα=0.5とすると、上記式(5)により、図3(A)の注目文書群の評価値g=0.607と算出される。
次に、図3(B)に示されるように、注目文書群に「1」以外の分類が付与された文書を追加した場合の評価値を算出する。ここで、図3(B)の注目文書群について、N1=7,N2=6,N3=6であるから、上記式(1)〜(3)により、Re=6/7,Pe=6/6,Fscore=12/13と算出される。さらに、L=7,L=2,LALL=19であるから、上記式(4)によりLscore=9/19と算出される。例えばα=0.5とすると、上記式(5)により、図3(B)の注目文書群の評価値g=0.635と算出される。また、図3(B)に示される例以外の他の文書を追加した場合の評価値もそれぞれ算出する。
さらに、図3(C)に示されるように、注目文書群から文書を除いた場合の評価値を算出する。ここで、図3(C)の注目文書群について、N1=5,N2=5,N3=6であるから、上記式(1)〜(3)により、Re=5/5,Pe=5/6,Fscore=10/11と算出される。さらに、L=4,L=5,LALL=19であるから、上記式(4)によりLscore=9/19と算出される。例えばα=0.5とすると、上記式(5)により、図3(C)の注目文書群の評価値g=0.626と算出される。また、この場合も上記と同様に、図3(C)に示される例以外の他の文書を除いた場合の評価値もそれぞれ算出する。
そして、分類結果補正部32は、現在のグループに対して、追加(6通り)+削除(6通り)の合計12通りの評価値gを算出し、その算出された評価値のうち最大のものを新たなグループに設定し分類を更新する。ここで、現在のグループの評価値gの値を超えるものがない場合、そのラベルについての更新処理を終了する。そして、上記の更新処理を各ラベルについて逐次的に実施すれば(K=3ならば2回)、分類結果をクラスタリング結果により補正した最終的な分類結果を得ることができる。
図3(D)には、α=0.5における上記補正処理を繰り返し実行した後のラベル「1」に関する分類結果の一例を示す。この点線で囲まれた文書群を新たなラベル「1」の文書群として更新する。
次に、図4乃至図6に示されたフロー図を参照しつつ、文書分類装置10による分類学習処理、及び文書分類処理の一連の流れを説明する。
[分類学習処理]
文書分類装置10は、記憶装置に格納された学習用文書群を読み込み(S101)、学習用文書群から複数のキーワードからなる学習キーワード群を抽出する(S102)。文書分類装置10は、抽出した学習キーワード群を用いて、学習用文書群に含まれるそれぞれの文書について特徴ベクトルを算出する(S103)。文書分類装置10は、算出した特徴ベクトルを入力とし、予め定められた学習用文書群の各文書の分類(ラベル)を教師信号として分類器26に所定数(K)の分類を学習させる(S104)。
[文書分類処理]
文書分類装置10は、記憶装置に格納された未分類の新規文書群を読み込む(S201)。文書分類装置10は、学習処理時に抽出した学習キーワード群を用いて、新規文書群の各文書の特徴ベクトル(分類器用特徴ベクトル)を算出する(S202)。文書分類装置10は、上記の学習処理においてK個の分類が学習された分類器26に、上記算出した分類器用特徴ベクトルを入力して新規文書群の各文書に分類(ラベル)を付与する(S203)。
文書分類装置10はさらに、新規文書群から複数のキーワードを抽出するとともに、抽出したキーワードのうち学習キーワード群の要素に含まれないキーワードを少なくとも含む新規キーワード群を生成する。文書分類装置10は、生成した新規キーワード群に基づいて、各文書の特徴ベクトル(クラスタリング用特徴ベクトル)を算出する(S204)。文書分類装置10は、算出した各文書のクラスタリング用特徴ベクトルを用いて、各文書をK個のグループにクラスタリングする(S205)。
文書分類装置10は、新規文書群に対して、分類器26によるラベリング処理、及びクラスタリング部30によるクラスタリング処理を終えると、分類器26による分類(ラベリング)結果をクラスタリング部30による分類(クラスタリング)結果に基づいて補正する(S206)。この分類結果の補正処理については、図6に示されるフロー図を参照しつつ説明する。
[分類結果の補正処理]
文書分類装置10は、クラスタリング処理により同一のグループに分類された文書間にリンクを設定し(S301)、各文書には分類器26による分類結果に基づいてラベルを付与する(S302)。
ここで文書分類装置10は、ラベルがi(初期値1)の文書群を注目文書群として選択し、ネットワークに基づいて注目文書群の評価値を算出する(S303)。そして、文書分類装置10は、注目文書群から要素である文書を削除した場合の評価値と、注目文書群に他のラベルの文書を追加した場合の評価値をそれぞれ算出する(S304)。
文書分類装置10は、S304で算出された評価値が、S303で算出された現在の評価値よりも大きいか否かを判断する(S305)。S304で算出された評価値のうち、現在の評価値よりも大きいものがあれば、その最大値を選択してグループを更新する(S306)。そして、文書分類装置10は、S303に戻りグループの更新処理を繰り返す。
また、S304で算出された評価値のうち、現在の評価値よりも大きいものがなければ(S305:N)、ラベルが分類数(K)未満であるか否かを判断し(S307)、ラベルが分類数未満である場合には、ラベルiに1を加えて(S308)、S303に戻り処理を繰り返す。文書分類装置10は、S307でラベルが分類数に達したと判断する場合には、処理を終了する。
以上説明した文書分類装置10によれば、学習サンプルの文書には出現しなかったキーワードの影響を反映させて分類性能を向上させることができる。
なお、本発明は上記の実施形態に限定されるものではない。
例えば、文書分類装置10は、分類結果の補正が終了した後に、分類結果をディスプレイに表示することとしてよい。この時、分類結果には、最終的な分類結果の他に、分類器26による分類結果、又は/及び、クラスタリング結果を含めることとしてもよい。
文書分類装置の機能ブロック図である。 分類結果の一例を示す図である。 分類結果の補正処理のシーケンスを説明する図である。 分類学習処理のフロー図である。 文書分類処理のフロー図である。 分類結果の補正処理のフロー図である。
符号の説明
10 文書分類装置、20 電子文書取得部、22 キーワード抽出部、24 特徴ベクトル算出部、26 分類器、28 新規キーワード生成部、30 クラスタリング部、32 分類結果補正部。

Claims (8)

  1. 複数の学習用の文書を含む学習用文書群から抽出されたキーワードを要素とする学習キーワード群を生成する手段と、
    前記学習用文書群に含まれる各文書について、前記学習キーワード群に基づく特徴量データを算出する手段と、
    前記学習用文書群に含まれる文書毎の所与の分類を教師信号として、前記算出された特徴量データに基づいてK(Kは自然数)個の分類を分類器に学習する手段と、
    複数の新たな文書を含む新規文書群の各文書について、前記学習キーワード群に基づく特徴量データを算出するとともに、当該算出した特徴量データを前記分類器に入力して前記新規文書群に含まれる各文書を前記K個の分類のいずれかに分類する第1分類手段と、
    前記新規文書群から抽出されるキーワードのうち、前記学習キーワード群の要素でないキーワードを少なくとも要素として含む新規キーワード群を生成する手段と、
    前記新規文書群に含まれる各文書について、前記新規キーワード群に基づく特徴量データを算出するとともに、当該算出した特徴量データに基づいて前記新規文書群に含まれる各文書をK個のグループに分類する第2分類手段と、
    前記第1分類手段による分類結果を、前記第2分類手段による分類結果に基づいて補正する補正手段と、
    を含むことを特徴とする文書分類装置。
  2. 前記学習キーワード群に基づく特徴量データは、前記学習キーワード群の要素の各キーワードが文書に含まれるか否かに基づいて生成される前記学習キーワード群の要素数を次元とするベクトルデータであり、
    前記新規キーワード群に基づく特徴量データは、前記新規キーワード群の要素の各キーワードが文書に含まれるか否かに基づいて生成される前記新規キーワード群の要素数を次元とするベクトルデータである、
    ことを特徴とする請求項1に記載の文書分類装置。
  3. 前記第1分類手段及び前記第2分類手段による分類結果に基づいて、前記第1分類手段による分類結果の評価値を算出する評価値算出手段を更に含み、
    前記補正手段は、前記評価値算出手段による算出された評価値に基づいて前記第1分類手段による分類結果を補正する、
    ことを特徴とする請求項1又は2に記載の文書分類装置。
  4. 前記評価値算出手段は、前記第1分類手段により同一の分類が付与された第1文書群の第1評価値と、当該第1文書群に前記第1分類手段により他の分類が付与された文書の少なくとも1つを加えた第2文書群の第2評価値とをそれぞれ算出し、
    前記補正手段は、前記第1評価値と前記第2評価値との比較結果に応じて、前記第2文書群に含まれる文書が同一の分類となるように前記第1分類手段による分類結果を補正する、
    ことを特徴とする請求項3に記載の文書分類装置。
  5. 前記評価値算出手段は、前記第1文書群から少なくとも1つの文書を除いた第3文書群の第3評価値をさらに算出し、
    前記補正手段は、前記第1評価値、前記第2評価値、及び前記第3評価値の比較結果に応じて、前記第1文書群、第2文書群、又は第3文書群のいずれかが同一の分類となるように前記第1分類手段による分類結果を補正する、
    ことを特徴とする請求項4に記載の文書分類装置。
  6. 前記補正手段は、前記補正手段により補正された分類結果を、前記第1分類手段及び前記第2分類手段による分類結果に基づいて繰り返し補正する、
    ことを特徴とする請求項1乃至5のいずれかに記載の文書分類装置。
  7. 前記新規文書群の一部の注目文書群について、当該注目文書群に含まれる文書数をN1、当該注目文書群のうち前記第1分類手段により所与の分類が付与された文書数をN2、前記新規文書群のうち前記第1分類手段により前記所与の分類が付与された文書の総数をN3とした場合に、再現率Re=N2/N1、精度Pe=N2/N3とし、
    前記新規文書群について前記第2分類手段により同一のグループに分類された文書間にリンクを設定した場合に、前記新規文書群のリンクの総数をLALL、前記注目文書群のリンクの数をL、前記新規文書群から前記注目文書群を除いた文書群のリンクの数をLとし、
    所与の重みαとして前記注目文書群の評価値gを、
    g=Fscore・Lscore α
    ただし、Fscore=2・Re・Pe/(Re+Pe),Lscore=(L+L)/LALLとする、
    ことを特徴とする請求項3乃至6のいずれかに記載の文書分類装置。
  8. 複数の学習用の文書を含む学習用文書群から抽出されたキーワードを要素とする学習キーワード群を生成する手段、
    前記学習用文書群に含まれる各文書について、前記学習キーワード群に基づく特徴量データを算出する手段、
    前記学習用文書群に含まれる文書毎の所与の分類を教師信号として、前記算出された特徴量データに基づいてK(Kは自然数)個の分類を分類器に学習する手段、
    複数の新たな文書を含む新規文書群の各文書について、前記学習キーワード群に基づく特徴量データを算出するとともに、当該算出した特徴量データを前記分類器に入力して前記新規文書群に含まれる各文書を前記K個の分類のいずれかに分類する第1分類手段、
    前記新規文書群から抽出されるキーワードのうち、前記学習キーワード群の要素でないキーワードを少なくとも要素として含む新規キーワード群を生成する手段、
    前記新規文書群に含まれる各文書について、前記新規キーワード群に基づく特徴量データを算出するとともに、当該算出した特徴量データに基づいて前記新規文書群に含まれる各文書をK個のグループに分類する第2分類手段、及び、
    前記第1分類手段による分類結果を、前記第2分類手段による分類結果に基づいて補正する補正手段、
    としてコンピュータを機能させることを特徴とする文書分類プログラム。
JP2007240700A 2007-09-18 2007-09-18 文書分類装置、及び文書分類プログラム Pending JP2009070321A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007240700A JP2009070321A (ja) 2007-09-18 2007-09-18 文書分類装置、及び文書分類プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007240700A JP2009070321A (ja) 2007-09-18 2007-09-18 文書分類装置、及び文書分類プログラム

Publications (1)

Publication Number Publication Date
JP2009070321A true JP2009070321A (ja) 2009-04-02

Family

ID=40606468

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007240700A Pending JP2009070321A (ja) 2007-09-18 2007-09-18 文書分類装置、及び文書分類プログラム

Country Status (1)

Country Link
JP (1) JP2009070321A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011141603A (ja) * 2010-01-05 2011-07-21 Kddi R & D Laboratories Inc 文書情報の外形的特徴に基づく文書分類プログラム、サーバ及び方法
JP2013196680A (ja) * 2012-03-22 2013-09-30 Nec (China) Co Ltd 共学習に基づく概念認識方法および概念認識装置
WO2014097670A1 (ja) * 2012-12-21 2014-06-26 富士ゼロックス株式会社 文書分類装置及びプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011141603A (ja) * 2010-01-05 2011-07-21 Kddi R & D Laboratories Inc 文書情報の外形的特徴に基づく文書分類プログラム、サーバ及び方法
JP2013196680A (ja) * 2012-03-22 2013-09-30 Nec (China) Co Ltd 共学習に基づく概念認識方法および概念認識装置
WO2014097670A1 (ja) * 2012-12-21 2014-06-26 富士ゼロックス株式会社 文書分類装置及びプログラム
JP2014123286A (ja) * 2012-12-21 2014-07-03 Fuji Xerox Co Ltd 文書分類装置及びプログラム
US10353925B2 (en) 2012-12-21 2019-07-16 Fuji Xerox Co., Ltd. Document classification device, document classification method, and computer readable medium

Similar Documents

Publication Publication Date Title
Bi et al. Multi-label classification on tree-and dag-structured hierarchies
JP6646234B2 (ja) プログラム生成装置、プログラム生成方法および生成プログラム
US11886990B2 (en) Classification device, classification method, and computer program product
JP6004015B2 (ja) 学習方法、情報処理装置および学習プログラム
EP3822872A1 (en) Information processing device, information processing method, and information processing program
JP2007121457A (ja) 情報処理装置、情報処理方法、およびプログラム
JP2020009301A (ja) 情報処理装置および情報処理方法
CN111950528A (zh) 图表识别模型训练方法以及装置
WO2018116921A1 (ja) 辞書学習装置、辞書学習方法、データ認識方法およびプログラム記憶媒体
Guo et al. Dual-view ranking with hardness assessment for zero-shot learning
JP2009070321A (ja) 文書分類装置、及び文書分類プログラム
CN111488400B (zh) 数据分类方法、装置和计算机可读存储介质
Tran et al. Cross-modal classification by completing unimodal representations
JP4997524B2 (ja) 多変数決定木構築システム、多変数決定木構築方法および多変数決定木を構築するためのプログラム
CN113297385B (zh) 基于改进GraphRNN的多标签文本分类系统及分类方法
WO2014118976A1 (ja) 学習方法、情報変換装置および学習プログラム
US20190325261A1 (en) Generation of a classifier from existing classifiers
CN112784015A (zh) 信息识别方法和装置、设备、介质和程序
JP2006107354A (ja) 自動分類方法、自動分類プログラム、記録媒体、および、自動分類装置
US20240013057A1 (en) Information processing method, information processing apparatus, and non-transitory computer-readable storage medium
JP6877666B1 (ja) 分類装置、分類方法およびプログラム
US20240013058A1 (en) Information processing method, information processing apparatus, and non-transitory computer-readable storage medium
US20240012881A1 (en) Information processing method, information processing apparatus, and non-transitory computer-readable storage medium
US11797893B2 (en) Machine learning for generating an integrated format data record
US20220374707A1 (en) Information processing method, information processing apparatus, and non-transitory computer-readable storage medium