JP2008299616A

JP2008299616A - 文書分類装置、文書分類方法、プログラム及び記録媒体

Info

Publication number: JP2008299616A
Application number: JP2007145343A
Authority: JP
Inventors: Sachio Hirokawa; 佐千男廣川; Hiroki Wada; 太樹和多; Takahiro Seki; 隆宏関; Yasuhiro Yamada; 康寛山田
Original assignee: Kyushu University NUC
Current assignee: Kyushu University NUC
Priority date: 2007-05-31
Filing date: 2007-05-31
Publication date: 2008-12-11

Abstract

【課題】各クラスタの文書数の偏りを防ぐのに適した文書分類装置等を提案する。
【解決手段】指定された個数に複数の文書データを分類する文書分類装置１は、複数の文書データから単語を抽出する単語抽出部５と、単語抽出部５により抽出された各単語が存在する文書データの数を計算する文書数計算部７と、指定された個数に基づいて、文書数計算部７により計算された文書データの数の多い単語から順に単語を抽出する単語限定部１１と、単語限定部１１により抽出された単語で複数の文書データをベクトル化するベクトル化部１３と、ベクトル化部１３により生成されたベクトルを指定された個数に分類する分類部１５を備える。
【選択図】図１

Description

本発明は文書分類装置、文書分類方法、プログラム及び記録媒体に関し、特に、指定された個数に複数の文書データを分類する文書分類装置等に関する。

一般に、文書はある種の構造を持っている。近年では、テキスト文書やHTMLだけでなく、XMLのように、構造を持っているがその構造が固定ではない文書（半構造化文書）で保存することが多くなっている。

このような文書を検索するときには、部分構造ごとに検索を行ったり、観点を切り替え検索結果を多面的に表示したりすることが有効である。さらに、現在では、検索の目的は求める文書を探し出すだけに留まらず、ある情報に関する調査や分析を行うといったところにまで広がっている。このような場面においても目的に応じて文書を見る観点を切り替えるというアプローチは有効である。

発明者らの所属する研究室では、これまで、同じ構造を持つ半構造化文書の検索結果について、ユーザが縦軸横軸として指定した２つの項目を観点とするクラスタリングを行い、その分布状況を二次元マトリクス表示する多面的分析システムを提案した（非特許文献１など参照）。このシステムの特徴は、クラスタリング、特徴語抽出、二次元マトリクス表示の３点にある。

多面的分析システムでは、クラスタリングの分割数を変更してその結果の変化から各文書間の関係を分析したり、各パラメータを少しずつ変更したりズーミングを行ったりして連続的に検索を繰り返す等、様々な方法で分析を行うことが可能である。

廣川佐千男，外３名著，"教員データに対する多面的検索システム"，夏のデータベースワークショップ（ＤＢＷＳ２００５），電子情報通信学会技術研究報告ＤＥ２００５−１１８，ｐ．６７−７２，２００５

しかしながら、現在の多面的分析システムでは、分割数を変更したときの増加したクラスタの解釈や、一度行った検索の再現といった部分はユーザが手作業で行う必要がある。そのため、ユーザにはかなりの負担が強いられるというのが現状である。

また、現在の多面的分析システムでは、文書数に偏りのあるクラスタリング結果が得られることがある。文書数に偏りのあるクラスタリング結果とは、例えば、文書群を５つにクラスタリングした際、１件もしくは数えるほどしか文書が入っていないクラスタが４つでき、残りの文書を全て含む大きなクラスタが１つできるという結果のような場合である。

検索結果全体を俯瞰したいときには、ある程度大きな視野から段階的に結果を絞り込む。そのため、クラスタリング結果に偏りがあったり、文書数の小さいコミュニティが出てきてたりしたら、検索結果全体の俯瞰としては望ましくない。多面的検索システムのクラスタリング結果は、各クラスタの文書数のバランスがよいものほど望ましいのである。バランスのよいクラスタリングとは、例えば検索結果として得られた１００件の文書を５つのクラスタに分類するとき各クラスタの文書数が２０件ずつとなるように、各クラスタに含まれる文書数がそれぞれ同程度である場合である。

発明者らは、文書のクラスタリングにおいて偏った結果となる原因の一つとして、低頻度語に着目した。通常、クラスタリングを行なう場合の属性の次元はそれほど多くない。しかし、文書を対象としたクラスタリングを行なう場合、単語を属性とみなしクラスタリングを行なう。この際、単語の種類の数が属性の次元となる。その数は文書に依存し、一般的に文書数よりも格段に多い。そのため、文書−単語行列が非常に疎な行列となる。加えて、その大部分は文書頻度が少ない単語である。このような低頻度語が多くクラスタリングに使われると他の文書とは似つかないユニークな文書が多くなってしまい、その結果、クラスタリング結果は１つないしいくつかのユニークな文書で構成されるクラスタが数個と大きなクラスタが１個といったバランスの悪いものになってしまう。

そこで、本発明は、各クラスタの文書数の偏りを防ぐのに適した文書分類装置等を提案することを目的とする。

請求項１に係る発明は、指定された個数に複数の文書データを分類する文書分類装置であって、前記複数の文書データから単語を抽出する単語抽出手段と、前記単語抽出手段により抽出された各単語が存在する文書データの数を計算する文書数計算手段と、前記指定された個数に基づいて、前記文書数計算手段により計算された文書データの数の多い単語から順に単語を抽出する単語限定手段と、前記単語限定手段により抽出された単語で前記複数の文書データをベクトル化するベクトル化手段と、前記ベクトル化手段により生成されたベクトルを前記指定された個数に分類する分類手段と、を備えるものである。

請求項２に係る発明は、請求項１に記載の文書分類装置であって、前記単語限定手段により抽出された単語から、前記分類手段により分類された各ベクトル群の特徴語を抽出する特徴語抽出手段を備えるものである。

請求項３に係る発明は、請求項１又は２に記載の文書分類装置であって、前記指定された個数をＫとし、前記記憶手段に記憶された文書データの数をＲとし、関数ｆ（ｘ）を整数ｎ_１とｎ_２（ｎ_１＜ｎ_２）に対してｆ（Ｒ／ｎ_１）≧ｆ（Ｒ／ｎ_２）を満たす関数とし、前記単語限定手段が、前記文書数計算手段により計算された文書データの数がｆ（Ｒ／Ｋ）以上である単語を抽出するものである。

請求項４に係る発明は、請求項３に記載の文書分類装置であって、前記単語限定手段が、前記文書数計算手段により計算された文書データの数がＲ／Ｋ以上である単語を抽出するものである。

請求項５に係る発明は、請求項１又は２に記載の文書分類装置であって、前記指定された個数をＫとし、関数ｇ（ｘ）を整数ｎ_１とｎ_２（ｎ_１＜ｎ_２）に対してｇ（ｎ_１）≦ｇ（ｎ_２）を満たす関数とし、前記単語限定手段が、前記文書数計算手段により計算された文書データの数が多い順に単語をｇ（Ｋ）個抽出するものである。

請求項６に係る発明は、請求項５に記載の文書分類装置であって、前記単語限定手段が、前記文書数計算手段により計算された文書データの数が多い順に単語をＫ個抽出するものである。

請求項７に係る発明は、請求項１から６のいずれかに記載の文書分類装置であって、前記単語限定手段が、抽出された単語のうち、存在する文書データの数が所定の数以上のものを除くものである。

請求項８に係る発明は、指定された個数に複数の文書データを分類する文書分類方法であって、単語抽出手段が、前記複数の文書データから単語を抽出する単語抽出ステップと、文書数計算手段が、前記単語抽出手段により抽出された各単語が出現する文書データの数を計算する文書数計算ステップと、単語限定手段が、前記指定された個数に基づいて、前記文書数計算手段により計算された文書数の多い単語から順に単語を抽出する単語限定ステップと、ベクトル化手段が、前記単語限定手段により抽出された単語で前記複数の文書データをベクトル化するベクトル化ステップと、分類手段が、前記ベクトル化手段により生成されたベクトルを前記指定された個数に分類する分類ステップと、を含むものである。

請求項９に係る発明は、コンピュータを、請求項１から４のいずれかに記載の文書分類装置として機能させるためのプログラムである。

請求項１０に係る発明は、請求項９記載のプログラムを記録した記録媒体である。

本発明によれば、低頻度語をクラスタリングに利用しないことにより、偏ったクラスタリング結果とならないようにすることができる。

また、請求項４及び５に係る発明によれば、低頻度語とみなす閾値を文書データの数Ｒと分割数（クラスタ数）Ｋにより決定する。例えば請求項５に係る発明において、Ｒ＝１００、Ｋ＝５の場合、文書数計算手段により計算された各単語が存在する文書データの数（以下、「文書頻度」という。）が２０以上の単語を使ってクラスタリングを行う。文書頻度が１〜１９の単語を用いてクラスタリングを行うと、その単語が出現している数少ない文書データが、それ以外の多数の文書とクラスタを形成し難い状況を生む可能性があるからである。

さらに、クラスタリングを行う対象文書群において出現単語がジップの法則に従う場合、文書頻度がＲ／Ｋ以上の単語はＫ個前後となる。請求項６及び７に係る発明においては、低頻度語とみなす閾値を分割数Ｋにより決定する。

さらに、請求項７に係る発明によれば、高頻度語もクラスタリングに利用しないことにより、偏ったクラスタリング結果を防止することが可能となる。

図１は、本発明の実施の形態に係る文書分類装置１の概略ブロック図である。

文書分類装置１は、分類の対象となるＲ個のデータファイルを記憶する文書データ記憶部３と、文書データ記憶部３に記憶されたデータファイルから単語を抽出する単語抽出部５と、単語抽出部５により抽出された各単語が存在するデータファイルの数を計算する文書数計算部７と、分類個数Ｋが指定される分類個数入力部９と、分類に用いる単語を、存在するデータファイルの数が多い単語から順にＫの値に基づいて抽出する単語限定部１１と、単語限定部１１により抽出された単語を用いて文書データ記憶部３に記憶されたデータファイルをベクトル化するベクトル化部１３と、ベクトルをＫ個にクラスタ化する分類部１５と、単語限定部１１により抽出された単語から各クラスタの特徴語を抽出する特徴語抽出部１７とを備える。

続いて、図２を参照して、図１の文書分類装置１の動作の一例について説明する。図２は、図１の文書分類装置１の動作を示すフロー図である。

まず、単語抽出部５は、文書データ記憶部３に記憶されたデータファイルから単語ｗ_ｉを抽出する（図２のステップＳＴ１）。

次に、文書数計算部７は、各単語ｗ_ｉに対し、その単語が存在する文書数（document frequency）ｄｆ（ｗ_ｉ）を計算する（図２のステップＳＴ２）。

次に、分類個数入力部９に、データファイルを分類する個数Ｋが指定される（図２のステップＳＴ３）。ここでは、利用者が分類個数Ｋを入力するとする。分類個数Ｋが入力されると、単語限定部１１は、文書数計算部７により計算されたｄｆ（ｗ_ｉ）がＲ／Ｋ以上の単語を抽出する（図２のステップＳＴ４）。ここで、単語限定部１１により抽出された単語を、Ｗ＝｛ｗ_１，．．．，ｗ_Ｍ｝とする。

次に、ベクトル化部１３は、文書データ記憶部３に記憶されたデータファイル群をＷを用いてベクトル化する（図２のステップＳＴ５）。

次に、分類部１５はベクトルをＫ個にクラスタリングする（図２のステップＳＴ６）。クラスタリング手法は、大きく、階層的手法と非階層的手法（k-means法など）が知られている。階層的手法は、凝縮型と分割型とに分けることができる。

凝縮型はボトムアップなクラスタリング手法である。最初に、各データを唯一の要素とするクラスタとみなし、クラスタ間の距離（ユークリッド距離や都市ブロック距離など）が近いものから順にクラスタを結合させていき、結合する文書もしくはクラスタ間の距離がある閾値を超えた時点または指定したクラスタ数になった時点で終了する。

分割型は、対象データを２つに分割していく作業を繰り返すことでクラスタリングを行う。階層的手法では、クラスタの結合もしくは分割の順序を表すデンドログラムが構成される。

次に、特徴語抽出部１７は各クラスタの特徴語をＷから抽出する（図２のステップＳＴ７）。ここで、特徴語の抽出は、例えば、統計的な手法、文書群から特徴語を抽出する手法、多数決法を利用することにより実現可能である。例えば統計的な手法を利用する場合、クラスタに含まれる文書群のみから単独で特徴語が決まるわけではなく、その比較対象が必要になるが、各クラスタの違いが明確に表現される。

なお、単語限定部１１は、関数ｆ（ｘ）を整数ｎ_１とｎ_２（ｎ_１＜ｎ_２）に対してｆ（Ｒ／ｎ_１）≧ｆ（Ｒ／ｎ_２）を満たす関数とし、ｄｆ（ｗｉ）がｆ（Ｒ／Ｋ）以上である単語を抽出するものであってもよい。

また、単語限定部１１は、ｄｆ（ｗ_ｉ）が大きい順に単語をＫ個抽出するものであってもよい。また、関数ｇ（ｘ）を整数ｎ_１とｎ_２（ｎ_１＜ｎ_２）に対してｇ（ｎ_１）≦ｇ（ｎ_２）を満たす関数とし、ｄｆ（ｗ_ｉ）が大きい順に単語をｇ（Ｋ）個抽出するものであってもよい。

さらに、単語限定部１１は、ｄｆ（ｗ_ｉ）がデータファイル数Ｒと比較して大きいものとなる単語は抽出しないようにしてもよい。このような単語は多くのデータファイルに存在するものであり、均等な分類には適さないものである。そのため、このような単語を用いないようにすることにより、均等な分類を得られやすくなることが期待でき、さらに、計算量を減少することができる。

さらに、単語限定部１１は、ｄｆ（ｗ_ｉ）がＲ／Ｋに近い順に所定の数（例えば、Ｋ個、関数ｈ（ｘ）を整数ｎ_１とｎ_２（ｎ_１＜ｎ_２）に対してｈ（ｎ_１）≦ｈ（ｎ_２）を満たす関数としてｈ（Ｋ）個）の単語を抽出するものであってもよい。

さらに、文書データ記憶部３に記憶されたデータファイルは、半構造化文書に関するものであってもよい。

続いて、本実施例のような単語を限定してのクラスタリング法（以下、「マスク・クラスタリング法」という。）によるクラスタリング結果の検証結果を説明する。

バランスのよさは、データのばらつきの尺度である分散ｖを用いて(1)式のように定式化する。分散ｖの値が小さいほどバランスがよいといえる。

実験には、2001年度の特許明細書567,189件からランダムに選択した10,000件のデータの「発明の効果」の項目部分を用いる。なお、その10,000件において「発明の効果」の項目が存在しないものもあり、正確にはそれらを省いた7,391件のデータを用いた。

図３は、「発明の効果」項目7,391件に出現する単語の順位と頻度の関係を示すグラフである。図３により、出現する単語はベキ分布に従っていることが確認できる。

続いて、実験の流れについて説明する。7,391件の文書群から特定の語を含む部分文書群を決め、マスク値を変化させてマスク処理を施しクラスタリングを行うことでクラスタの要素数の分散がどのように変化するかを観察する。

図４は、「方法」という単語を含む文書群Ｒ＝1,124件をＫ＝５個にクラスタリングした結果を示す図である。ｘ軸はマスク値、ｙ軸はそのときの分散を示す。例えば、(100，1000)という点は、出現頻度100以上の単語を用いてクラスタリングを行った結果、分散は1000であったことを意味する。ｘ＝０は、全くマスク処理を施していない状態である。また、垂直線Ｌ_１はマスク処理の閾値の目安であるＲ／Ｋの位置を示すものである。

分散であるｙ軸の値が小さいほうがバランスがよいクラスタリング結果である。図４を参照して、下に凸のグラフが得られている。そのため、マスク処理がバランスの良いクラスタリングを行うのに有効であることが確認できる。

続いて、クラスタ数Ｋと分散ｖが極小となるマスク値との関係性を見るために、クラスタ数を変化させてその分散の極小点の変化を調べる。

図５は、「制御」を含む文書群912件に対しクラスタリングを行った結果を示すグラフである。ｘ軸はクラスタリングに用いられた単語の文書頻度の最小ランクを示し、ｙ軸はその分散を示す。その極小点が確認しやすいようにベジエ曲線を用いている。

図５を参照して、クラスタ数が増加することで全体的に分散が小さくなる。その極小点のｘ座標は増加している（線Ｌ_２参照）。

また、図６は、ジップの法則に従うことだけをルールとして人工的に作成した文書−単語行列に対してクラスタリングを行った結果を、図５と同様にプロットしたグラフである。ジップの法則に従う場合、単語の順位と頻度の関係は、図７に示すようになる。図６を参照すると、分割数が大きくなるにつれ、極小点のｘ座標は増加している（線Ｌ_３参照）。よって、分散を極小にするためにはクラスタ数が大きいほど文書頻度の上位からより多くの単語を用いるべきこととなる。

続いて、マスク・クラスタリング法の妥当性の検証について説明する。

クラスタリングの正確さの尺度としてEntropy、Purityの二つの尺度を用いる。

Entropyは、同一クラスタ内の文書が正解クラスタ集合においてどれだけ様々な正解クラスタに分散しているかを表すものである。Entropyは、(2)式で定義される。

クラスタリング結果全体のEntropyは、各クラスタのEntropyをクラスタサイズで重み付けした値の合計で求める。全体のEntropyは、(3)式で定義される。

もし、クラスタＣ_ｋ内の文書が様々な正解クラスタに属するならば、Entropyの値は増加する。よって、一般的にEntropyが小さいほどより正確なクラスタリングであり、各クラスタについて、同一クラスタに分類された文書が全て同一正解クラスタ内の文書の場合、Entropyは０となる。

Purityは情報検索で一般的に用いられている適合率に似た指標で、一般的にPurityが大きいほど、より良いクラスタリング結果である。Purityは、(4)式で定義される。

クラスタリング結果全体のPurityは各クラスタのPurityをクラスタサイズで重み付けした値の合計で求める。全体のPurityは、(5)式で定義される。

これらの評価指標を使うためには、正解集合が必要である。そこで、7,391件の特許データの「発明の効果」項目に対して、特定のクエリで検索を行い重複がないような部分集合ＡとＢを決め、それらを正解集合とする。具体的には、「画像」と「装置」の2単語を共に含むような文書群を正解クラスタＡ、「回路」を含み「画像」を含まない文書群を正解クラスタＢとした。文書群Ａのサイズは280件、文書群Ｂのサイズは285件と、各正解クラスタのサイズは同程度である。

文書集合Ｒ＝Ａ∪Ｂに対し、凝縮型の階層的クラスタリングである完全リンク法を用いて、文書間類似度としてユークリッド距離およびcorrelationの２つの場合においてマスク処理を施した場合と施さない場合でクラスタ数５でクラスタリングを行い、Purity、Entropyの二つの尺度を用いて評価値を求める。correlationはピアソン相関係数を利用した距離の計算方法である。文書間の相関係数ｒは−１から１までの実数値を取り、文書間の距離ｄはｄ=１−ｒで定義されている。０≦ｄ≦２である。

マスク値には文書頻度100を設定し、それぞれの方法においてクラスタ数５で統一してクラスタリングを行い、Purity、Entropyの二つの尺度を用いて評価値を求めた。表１は、文書集合Ｒに対して各手法を用いてクラスタリングを行った結果の評価値をまとめたものである。表中のマスク100は文書頻度が100以上の単語のみを用いたクラスタリングの結果である。

表１より、ユークリッド距離もcorrelationも、マスク処理を施した後の方がPurityの値は高く、Entropyの値は低くなっており、共に良くなっている。よって、マスク処理を施すことでクラスタの偏りが解消されるだけでなく、クラスタリングの精度も向上させている。特にユークリッド距離のとき、マスク処理を施すことでEntropyが急激によくなっている。

なお、以上では、マスク処理を施して一般的な凝縮型の階層的手法を用いたが、マスク処理はクラスタリングに使用する単語を厳選するだけであり、クラスタリング手法には依存しない。そのため、例えば、マスク処理を施してk-means法やCLUTOといったクラスタリング手法や他の手法を適用するようにしてもよい。

本発明の実施の形態に係る文書分類装置１の概略ブロック図である。図１の文書分類装置１の動作を示すフロー図である。「発明の効果」項目7,391件に出現する単語の順位と頻度の関係を示すグラフである。「方法」という単語を含む文書群Ｒ＝1,124件をＫ＝５個にクラスタリングした結果を示す図である。「制御」を含む文書群912件に対しクラスタリングを行った結果を示すグラフである。ジップの法則に従うことだけをルールとして人工的に作成した文書−単語行列に対してクラスタリングを行った結果を、図５と同様にプロットしたグラフである。ジップの法則に従う場合の単語の順位と頻度の関係を示す図である。

符号の説明

１文書分類装置、３文書データ記憶部、５単語抽出部、７文書数計算部、９分類個数入力部、１１単語限定部、１３ベクトル化部、１５分類部、１７抽出部

Claims

指定された個数に複数の文書データを分類する文書分類装置であって、
前記複数の文書データから単語を抽出する単語抽出手段と、
前記単語抽出手段により抽出された各単語が存在する文書データの数を計算する文書数計算手段と、
前記指定された個数に基づいて、前記文書数計算手段により計算された文書データの数の多い単語から順に単語を抽出する単語限定手段と、
前記単語限定手段により抽出された単語で前記複数の文書データをベクトル化するベクトル化手段と、
前記ベクトル化手段により生成されたベクトルを前記指定された個数に分類する分類手段と、
を備える文書分類装置。
前記単語限定手段により抽出された単語から、前記分類手段により分類された各ベクトル群の特徴語を抽出する特徴語抽出手段を備える、請求項１に記載の文書分類装置。
前記指定された個数をＫとし、前記記憶手段に記憶された文書データの数をＲとし、関数ｆ（ｘ）を整数ｎ_１とｎ_２（ｎ_１＜ｎ_２）に対してｆ（Ｒ／ｎ_１）≧ｆ（Ｒ／ｎ_２）を満たす関数とし、
前記単語限定手段は、前記文書数計算手段により計算された文書データの数がｆ（Ｒ／Ｋ）以上である単語を抽出する、請求項１又は２に記載の文書分類装置。
前記単語限定手段は、前記文書数計算手段により計算された文書データの数がＲ／Ｋ以上である単語を抽出する、請求項３に記載の文書分類装置。
前記指定された個数をＫとし、関数ｇ（ｘ）を整数ｎ_１とｎ_２（ｎ_１＜ｎ_２）に対してｇ（ｎ_１）≦ｇ（ｎ_２）を満たす関数とし、
前記単語限定手段は、前記文書数計算手段により計算された文書データの数が多い順に単語をｇ（Ｋ）個抽出する、請求項１又は２に記載の文書分類装置。
前記単語限定手段は、前記文書数計算手段により計算された文書データの数が多い順に単語をＫ個抽出する、請求項５に記載の文書分類装置。
前記単語限定手段は、抽出された単語のうち、存在する文書データの数が所定の数以上のものを除く、請求項１から６のいずれかに記載の文書分類装置。
指定された個数に複数の文書データを分類する文書分類方法であって、
単語抽出手段が、前記複数の文書データから単語を抽出する単語抽出ステップと、
文書数計算手段が、前記単語抽出手段により抽出された各単語が出現する文書データの数を計算する文書数計算ステップと、
単語限定手段が、前記指定された個数に基づいて、前記文書数計算手段により計算された文書数の多い単語から順に単語を抽出する単語限定ステップと、
ベクトル化手段が、前記単語限定手段により抽出された単語で前記複数の文書データをベクトル化するベクトル化ステップと、
分類手段が、前記ベクトル化手段により生成されたベクトルを前記指定された個数に分類する分類ステップと、
を含む文書分類方法。
コンピュータを、請求項１から４のいずれかに記載の文書分類装置として機能させるためのプログラム。
請求項９記載のプログラムを記録した記録媒体。