JP2004326465A - 文書分類用の学習装置、及びこれを用いた文書分類方法並びに文書分類装置 - Google Patents

文書分類用の学習装置、及びこれを用いた文書分類方法並びに文書分類装置 Download PDF

Info

Publication number
JP2004326465A
JP2004326465A JP2003120753A JP2003120753A JP2004326465A JP 2004326465 A JP2004326465 A JP 2004326465A JP 2003120753 A JP2003120753 A JP 2003120753A JP 2003120753 A JP2003120753 A JP 2003120753A JP 2004326465 A JP2004326465 A JP 2004326465A
Authority
JP
Japan
Prior art keywords
document
learning
feature vector
classification
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003120753A
Other languages
English (en)
Inventor
Takao Fukushige
貴雄 福重
Yuji Sugano
祐司 菅野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2003120753A priority Critical patent/JP2004326465A/ja
Publication of JP2004326465A publication Critical patent/JP2004326465A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】高次元の文書ベクトルを適切に圧縮、離散化し、ベイジアンネットワークによる分類学習および文書分類を可能にする。
【解決手段】文書の特長をあらわす高次元ベクトルを、主成分分析などの行列演算により低次元近似し、MDL基準などのモデル選択基準にもとづく離散化と素性選択を行い、ベイジアンネットワークの入力とする。

Description

【0001】
【発明の属する技術分野】
本発明は、与えられた文書が、一つ以上のあらかじめ決められた特定のカテゴリに属すかどうかを判定する文書分類方法及び装置に関する。特に、本発明は、文書分類の種々の手法の中の、ベイジアンネットワークを使った確率的文書分類手法に対する改良を行なうものである。
【0002】
【従来の技術】
文書分類は、与えられた文書が、与えられた特定のカテゴリに属すかどうか判定するもので、さまざまな手法が提案されているが、その中の一つに、ベイジアンネットワークを使った確率的文書分類手法がある。
【0003】
文書分類に関しては、この他にも、文書が特定のキーワードを含むかどうかに基づく文書分類方法や、文書内に生起する単語の頻度を元に、文書をあらわす多次元のベクトル表現を生成し、多次元ベクトル空間に文書を配置し、ベクトル間の距離や内積などの比較により判定する文書分類方法などがあるが、これらの文書分類方法の詳細に関しては、たとえば非特許文献1に記載がある。
【0004】
ベイジアンネットワークを使った文書分類において、特定の文書が特定のカテゴリに属すかどうかを判定する際は、分類対象となる文書から、当該カテゴリへの分類において用いる素性値をあらかじめ定められた基準に従って抽出し、それらのベクトル(以下、素性ベクトルと呼ぶ)が得られたときの、当該文書の当該カテゴリへの所属確率をベイズの定理を用いて計算する。ここで用いられる素性値の抽出方法や、所属確率の計算に用いるパラメータは、通常、それぞれの文書がどのカテゴリに属すかの情報が付与された学習用文書集合から機械学習によって計算されて、装置の内部に保持されている。ベイジアンネットワークによる文書分類に関しては、たとえば非特許文献2に記載がある。
【0005】
しかし、ベイジアンネットワークによる分類における一般的な課題として、分類に用いる素性の数が多くなると、ベイジアンネットワークの学習が計算量的に困難になる。また、素性の組み合わせの数に比べてデータの数が少なくなることから生じる「過適応」により、結果の分類精度が悪くなる、という、機械学習一般に当てはまる弊害も出てくる。
【0006】
特に、文書分類においては、各文書に出てくる単語の生起頻度を素性として用いる場合が多いが、一般的に大量の文書に出てくる単語の種類は数十万規模であり、それらを別々の素性とした場合には、上記の素性数が多くなることによる問題が発生する。したがって、通常、文書から抽出した素性の集合から、実際に分類に用いる素性の集合を選択する、素性選択が行われる。
【0007】
素性選択の手法としては、単語の頻度を用いる方法、単語の頻度とカテゴリへの所属・非所属の間の相互情報量を用いる方法、などが提案されている。素性選択の主な手法に関しては、たとえば非特許文献3に記載がある。
【0008】
また、ベクトル空間法によるテキスト検索における次元圧縮の手法の一つであるLSA法については、たとえば非特許文献4に記載がある。
【0009】
また、多変量解析の一手法である対応分析に関しては、たとえば非特許文献5に記載がある。
【0010】
また、MDL基準を用いた連続値の離散化手法については、たとえば非特許文献6に記載がある。
【0011】
【非特許文献1】永田昌明(2003):“確率モデルによる自然言語処理”、甘利俊一他編「言語と心理の統計 ことばと行動の確率モデルによる分析」、岩波書店、 59−128.
【非特許文献2】Koller, D. and Sahami, M. (1997), ”Hierarchically classifying documents using very few words”, Proceedings of ICML−97, 14th International Conference on Machine Learning, 170−−178.
【非特許文献3】Yang, Y. and Pedersen, J.O.,(1997), ”A comparative study on feature selection in text categorization”, Porc.of the Fourteenth International Conference on Machin Learning (ICML−97), 412−420.
【非特許文献4】Deerwester, S.C. et al., (1990) ”Indexing by latent semantic analysis”, Jounal of the American Society for Information Science, 41(6), 391−407
【非特許文献5】大津起夫(2003):“社会調査データからの推論:実践的入・・門”、甘利俊一他編「言語と心理の統計 ことばと行動の確率モデルによる分・・析」、岩波書店、 129−177.
【非特許文献6】Fayyad, U.M, and Irani, K.B, (1993) ”Multi−interval dscretization of continuous−valued attributes for classification learning”,・ In IJCAI ’93 1022−1027.
【0012】
【発明が解決しようとする課題】
ベイジアンネットを使った文書分類における従来の素性選択手法は、いずれも、単語の頻度や相互情報量が一定のしきい値以上のものを素性として残し、しきい値に満たないものを捨てるという方法であるため、まず、しきい値に満たない単語に関する情報がすべて失われてしまうという欠点があった。
【0013】
また、特に、一般的な語よりも出現頻度の少ない語、長い文書よりも簡潔な文書の方が、カテゴリの特徴を表しやすく、重みを重くした方が直感にあうが、どのような規準で重みをつければよいかに関しては、経験的な手法に頼らざるを得なかった。
【0014】
また、素性選択に利用されるしきい値についても、自動的に決定する方法がなく、利用者が、そのつど試行錯誤によりしきい値を決めなくてはならないという問題もあった。
【0015】
本発明は、上記従来の不具合に鑑みてなされたもので、その第1の目的は、一定の基準に満たない単語に関する情報が考慮されつつ文書分類を実行することができる文書分類方法及び装置を提供することである。
【0016】
本発明の第2の目的は、学習データをベイジアンネットワークの学習に適した形にし、その学習データを基に文書分類が行なえる文書分類方法及び装置を提供することである。
【0017】
【課題を解決するための手段】
上記目的を達成するため、本発明は、文書分類方法として、各文書に対して、決められたカテゴリに属すかどうかがラベル付けされている学習用文書集合を用いて、教師あり学習を行ったベイジアンネットワークを用いて、新規に与えられる各文書が各カテゴリに属す確率を計算する文書分類方法において、前記ベイジアンネットワークへの入力として、各文書の持つ特徴を表す高次元ベクトルを、学習データに基づく行列演算による次元圧縮により低次元近似して得られる実数ベクトルに対して、モデル選択基準を用いた学習に基づく区間分割を行って得られる離散値からなる素性ベクトルを用いるようにしたものである。
【0018】
本発明の文書分類方法は、行列演算による次元圧縮法を用いて、各文書に対する文書ベクトルを、より次元数の低いベクトルにより近似し、ベイジアンネットワークを用いた文書分類の入力として用いる。行列演算による次元圧縮の主な手法としては、特異値分解や主成分分析、対応分析などが知られている。特に、文書分類においては、特異値分解を用いたLSA法と呼ばれる次元圧縮方が多く用いられている。ただし、上記行列演算による次元圧縮の結果得られるベクトルの成分は、一般に実数となるが、一般にベイジアンネットワークにおいては、用いられる素性の値は離散値でなくてはならない。したがって、上記本発明の文書分類方法においては、新しい素性ベクトルの各要素に対して、離散化を行う、素性ベクトル離散化処理を行うステップを設ける。行列演算による次元圧縮は、特定の行または列に関する情報が完全に捨て去られることはないので、一定の基準に満たない単語に関する情報がすべて落とされるという問題が解決される。
【0019】
さらに、本発明の別の態様に係る文書分類方法は、上記次元圧縮法として、多変量解析の一手法である対応分析の手法を用いる。対応分析は、2つの離散値変数の間の関係を分析する手法の一つで、心理学や社会学などで広く利用されている手法であるが、LSA法や主成分分析などの行列計算による他の次元圧縮方に比べて、一般的に、頻度の少ない素性値をとるデータの方が、頻度の大きい素性値をとるデータより結果に与える影響が大きくなるという性質を持つ。非特許文献5参照。これは、文書分類の場合に当てはめると、頻度の少ない語や文書長の短い文書を重視する、ということに相当する。これは、普遍的な語の影響は小さくし、簡潔な文書の影響を高くすることであるので、直感的にも妥当である。実際、従来のベクトル空間法では、文書を表すベクトルを作る際に、各単語の生の生起頻度でなく、idfという文書集合中の当該単語のあらわれる文書数の割合の逆数のlogを取ったものをかける、というtf.idfという重み付けが行われているが、これも普遍的な語の影響を小さくすることを目的としたものである。ただし、本発明において用いている対応分析においては、簡潔な文書の影響を高くする効果も得られる。
【0020】
さらに、本発明の別の態様に係る文書分類方法は、上記素性ベクトル離散化部における、モデル選択規準としてMDL規準に基づいて学習された区間分割による離散化を行い、区切り点が得られた素性(軸)のみを分類に用いるようにした。MDL規準は、系と学習データを記述するのに必要となる最小記述長が最小になるモデルを選択する、というもので、系の複雑さによる予測性能の向上と、学習に使ったデータの量とのバランスをとるもので、機械学習において過適応を防ぐ手法として使われている。MDL規準を用いたデータの離散化に関しては、非特許文献6があるが、本発明は、Fayyad & Iraniの手法を、次元圧縮により求めた文書特徴ベクトルの再離散化に用いるものであり、これにより、文書を表すベクトルを、ベイジアンネットワークの入力としてふさわしい離散値を取るベクトルに変換可能になるとともに、分類において有効な素性とそうでない素性を区別する作用も持つので、各カテゴリへの分類にとって効果のない素性の使用を排除でき、素性の数を絞り込むことができるので、分類装置を過適応に陥りにくくすることが可能になるとともに、ベイジアンネットワークの学習における計算量的側面からも好ましい性質を持つ。また、MDL規準においては、有効な素性と有効でない素性は、自動的に計算される基準に従って区別されるので、利用者が閾値を試行錯誤により設定する負担もなくなる。
【0021】
本発明はまた、文書分類用の学習装置を、学習用文書を格納する学習用文書格納部と、単語の文字列を格納した単語辞書と、前記学習用文書格納部に格納された学習用文書に出現する単語の頻度を数えて単語文書行列を作成する単語文書行列作成部と、作成された単語文書行列に対して対応分析を行い、学習用文書特徴ベクトルと単語の特徴を表す単語特徴ベクトルを生成する対応分析実行部と、対応分析により得られた単語特徴ベクトルを格納する単語特徴ベクトル格納部と、対応分析により得られた学習用文書ベクトルを格納する学習用文書ベクトル格納部と、学習用の各文書がどのカテゴリに属すかに関する情報を格納する学習用カテゴリ情報格納部と、前記学習用文書ベクトルの集合と前記学習用カテゴリ情報離散化パラメータを計算する離散化パラメータ計算部と、前記離散化パラメータ計算結果を格納する離散化パラメータ格納部と、前記学習用文書特徴ベクトル格納部に格納されている学習用文書特徴ベクトルから、ベイジアンネットワークの学習に用いる学習用素性ベクトルを作成する学習用素性ベクトル作成部と、前記学習用素性ベクトル作成部および学習用カテゴリ情報格納部からの情報を利用して、各カテゴリごとにベイジアンネットワークを学習するベイジアンネットワーク学習部と、前記ベイジアンネットワーク学習部における学習によって得られたベイジアンネットワークを格納するベイジアンネットワーク格納部とから構成したものである。そして、この文書分類用の学習装置に、分類対象となる文書を入力する分類対象文書入力部と、前記学習装置の単語辞書を用いて、分類対象の文書に対して文書ベクトルを作成する分類対象文書ベクトル作成部と、前記分類対象文書ベクトル作成部および前記学習装置の単語特徴ベクトル格納部に接続された分類対象文書特徴ベクトル作成部と、前記学習装置の離散化パラメータ格納部に接続された分類対象素性ベクトル作成部と、前記分類対象文書素性ベクトル作成部と前記学習装置のベイジアンネットワーク格納部に接続された所属確率計算部と、前記所属確率計算部による計算結果を出力する、分類結果出力部とを備えることにより文書分類装置が構成される。
【0022】
【発明の実施の形態】
以下に、本発明の実施の形態を図面を用いながら説明する。図1は、本発明の一実施の形態に係る文書分類装置の構成を示すブロック図である。この実施の形態に係る文書分類装置は、学習用文書を格納する学習用文書格納部(101)と、単語の文字列を格納した単語辞書(102)と、学習用文書格納部(101)と単語辞書(102)とに接続された単語文書行列作成部(103)と、単語文書行列作成部(103)で作成された単語文書行列に対して、対応分析を行って学習用文書特徴ベクトルと単語の特徴を表す単語特徴ベクトルを生成する対応分析実行部(104)と、対応分析により得られた単語特徴ベクトルを格納する単語特徴ベクトル格納部(105)と、対応分析により得られた学習用文書特徴ベクトルを格納する学習用文書特徴ベクトル格納部(106)と、学習用の各文書がどのカテゴリに属するかに関する情報(学習用カテゴリ情報)を格納する学習用カテゴリ情報格納部(107)と、上記学習用文書特徴ベクトルの集合と上記学習用カテゴリ情報から離散化パラメータを計算する離散化パラメータ計算部(108)と、上記離散化パラメータの計算結果を格納する離散化パラメータ格納部(109)と、上記学習用文書特徴ベクトル格納部(106)に格納されている学習用文書特徴ベクトルから、ベイジアンネットワークの学習に用いる学習用素性ベクトルを作成する学習用素性ベクトル作成部(110)と、上記学習用素性ベクトル作成部(110)と上記学習用カテゴリ情報格納部(107)に接続されたベイジアンネットワーク学習部(111)と、上記ベイジアンネットワーク学習部(111)によって学習されたベイジアンネットワークを格納するベイジアンネットワーク格納部(112)とを備えている。
【0023】
そして、上記学習用文書格納部(101)、単語辞書(102)、単語文書行列作成部(103)、対応分析実行部(104)、単語特徴ベクトル格納部(105)、学習用文書特徴ベクトル格納部(106)、学習用カテゴリ情報格納部(107)、離散化パラメータ計算部(108)、離散化パラメータ格納部(109)、学習用素性ベクトル作成部(110)、ベイジアンネットワーク学習部(111)、およびベイジアンネットワーク格納部(112)により文書分類用の学習装置を構成している。
【0024】
本実施の形態に係る文書分類装置はまた、分類対象となる文書を入力する分類対象文書入力部(113)と、上記単語辞書(102)を用いて、分類対象の文書に対して文書ベクトルを作成する分類対象文書ベクトル作成部(114)と、上記分類対象文書ベクトル作成部(114)および単語特徴ベクトル格納部(105)に接続された分類対象文書特徴ベクトル作成部(115)と、上記離散化パラメータ格納部(109)に接続された分類対象素性ベクトル作成部(116)と、上記分類対象素性ベクトル作成部(116)と上記ベイジアンネットワーク格納部(112)とに接続された所属確率計算部(117)と、上記所属確率計算部による計算結果を出力する、分類結果出力部(118)とを備えている。
【0025】
単語文書行列作成部(103)は、学習用文書格納部(101)・に格納された学習用文書に出現する単語の頻度を数え文書ベクトルを作り、それらを行方向に連結して単語文書行列を作成する。離散化パラメータ計算部(108)は、上記学習用文書特徴ベクトル格納部(106)に格納されている学習用文書の文書ベクトルの集合と上記学習用カテゴリ情報格納部(107)に格納されている学習用カテゴリ情報から、ベイジアンネットワークの学習に用いる学習要素性ベクトルをつくるために、学習用MDL・規準に基づいて、上記文書特徴ベクトルの各軸から、各軸の値を離散化するための区切り情報を計算し、区切り情報が得られた軸を各カテゴリの素性ベクトルにおいて使用する軸(有効軸)として選ぶ。ベイジアンネットワーク学習部(111)は、上記学習用素性ベクトル作成部(110)により作成された学習用素性ベクトルと、上記学習用カテゴリ情報格納部(107)に格納されている学習用カテゴリ情報とを利用して、各カテゴリごとに、文書の当該カテゴリへの所属確率を計算するベイジアンネットワークを学習する。
【0026】
分類対象文書特徴ベクトル作成部(115)は、上記分類対象文書ベクトル作成部(114)により作成された分類対象文書ベクトルと、上記単語特徴ベクトル格納部(105)に格納されている単語特徴ベクトルの集合を用いて、分類対象文書における各単語の出現度数に基づいて分類対象文書特徴ベクトルを計算する。分類対象素性ベクトル作成部(116)は、各カテゴリに対して、上記離散化パラメータ格納部(109)に格納されている離散化パラメータに基づいて、上記分類対象文書特徴ベクトルから当該カテゴリへの分類判定において用いる素性値を抽出して離散化する。所属確率計算部(117)は、上記分類対象素性ベクトル作成部(116)によって作成された、各カテゴリごとに離散化された分類対象文書素性ベクトルと、上記ベイジアンネットワーク格納部(112)に格納されたベイジアンネットワークを用いて、当該文書が各カテゴリに属する確率を計算する。
【0027】
以下、本実施の形態の文書分類装置の動作について、図2から図12を用いて説明する。本実施の形態における文書分類装置の動作は、学習フェーズと分類フェーズに分けられる。
【0028】
まず、学習フェーズの動作について、図2から図11を用いて説明する。
学習フェーズにおいては、
【0029】
ステップ :(図2 201)単語文書行列作成部103が、学習用文書格納部101に格納されている各学習用文書d(d=1, …, M;Mは学習用文書の総数)に対して、上記単語辞書102に含まれる各語wが現れる回数fd,wを調べ、文書ベクトル
【数1】
Figure 2004326465
を作る(図3)。ここで、Nは、上記辞書に含まれる単語の総数である。そして、
【数2】
Figure 2004326465
を第d行とするようなM*N次元の行列Fを作成する。このFを単語文書行列と呼ぶ。
【0030】
ステップ2:(図2 202)単語文書行列Fに対して対応分析を行い、各単語に対するK次元の単語特徴ベクトルと、各文書に対するK次元の文書特徴ベクトルを求める。ここで、Kは、Nにくらべて非常に小さい数で、あらかじめ決めておいてもよいし、累積寄与率に関する閾値を設定してそれを元に実行時に決定されるようにしてもよい。本実施の形態では、あらかじめ200に設定しておく。
【0031】
具体的には、
(i) (図4 401)Fの第d行の成分の和をg(図3)とし、gをd番目の対角要素とする対角行列Gを作る。
(ii) (図4 402)Fの第w列の成分の和をh(図3)とし、hをw番目の対角要素とする対角行列Hを作る。
(iii) (図4 403)行列G−1/2FH−1/2に対して、特異値分解を行い、G−1/2FH−1/2=UDVとする。ここで、Uは、M*K次元の正規直交行列である。DはR次元の対角行列であり、その対角要素は降順に並んでいるとする。また、Vは、N*K次元の正規直交行列であり、Vは、Vの転置行列を表す。
(iv) (図4 404)Wに対して、
【数3】
Figure 2004326465
を単語特徴ベクトルとし、単語特徴ベクトル格納部105に格納する。
(v) (図4 405)文書dに対して、
【数4】
Figure 2004326465
を文書特徴ベクトルとし、学習用文書特徴ベクトル格納部106に格納する。
【0032】
ステップ :(図2 203)ステップ2で求めた各学習用文書の文書特徴ベクトルと、前記学習用カテゴリ情報格納部107に格納された、当該文書がどのカテゴリに属すかに関する情報を元に、離散化パラメータ計算部108が、離散化パラメータを計算し、離散化パラメータ格納部109に格納する。
具体的には、各カテゴリCcに対して、以下のようにしてCに対する離散化パラメータを格納する表TAB(図7)を学習する。
(i) (図5 501)TABを空にする。
(ii) (図5 502)未処理の軸の集合=軸の集合全体とする。ここで、軸とは、文書特徴ベクトルのK個の次元の一つ一つを指すとする。
(iii) (図5 503)未処理の軸がなければ、TABの学習終了。
(iv) (図5 504)未処理の軸kを選ぶ。
(v) (図5 505)全学習用文書の第k成分の集合
【数5】
Figure 2004326465
における最小値a、最大値b を求め、MDL規準にしたがって、区間[a,b]の分割点の集合を得る。このステップについては、後で詳述する。
(vi) (図5 506)分割点が得られた場合は、軸番号kと、得られた各分割点の値をTABに追加する。得られなかった場合は、軸kは、当該カテゴリCcは有効でないとして、TABには追加しない。
(vii) (図5 507)軸kを処理済として、未処理の軸の集合から除く。
(viii) (iii)に戻る。
【0033】
以下に、上の(iv)における、MDL規準に基づいた分割点の集合の求め方を図6を用いながら説明する。以下では、一般的に、m個の学習用文書に対する文書特徴ベクトルのk番目の成分からなる集合
【数6】
Figure 2004326465
(うち、異なる値の集合を下記(数7)とする)
【数7】
Figure 2004326465
を含む区間
【数8】
Figure 2004326465
の分割点の求め方DIV(S,C)として、説明する。
手続きDIV(S, C
(a) (図6 601)学習用文書特徴ベクトルの第k成分で、区間Sに入るものがなければ、Sは分割不能として、空集合φを返す。
(b) (図6 602)分割前の系の最小記述長
【数9】
Figure 2004326465
により求める。
ただし、H(c)(S)は、SのカテゴリCに関するクラスエントロピで、
【数10】
Figure 2004326465
である(対数の底は2。以下同様)。
また、p(c)は、文書特徴ベクトルのk番目の成分が区間Sに入るような文書が、カテゴリCに属す確率の推定値で、ここでは、
【数11】
Figure 2004326465
とする。ただし、
【数12】
Figure 2004326465
は、X’の要素のうち、カテゴリCに属すものの数とする。
(c) (図6 603)X’’の各点
【数13】
Figure 2004326465
に分割したときの系のカテゴリCに関するクラスエントロピ
【数14】
Figure 2004326465
を求める。ただし、
【数15】
Figure 2004326465
は、以下により計算する:
【数16】
Figure 2004326465
ここで、
【数17】
Figure 2004326465
である。
(d) (図6 604)
【数18】
Figure 2004326465
を与えるtを分割点の候補とする。
(e) (d)で求めたtで、Sを
【数19】
Figure 2004326465
に分割したときの、分割後の系の最小記述長MDLを以下により計算する。
【数20】
Figure 2004326465
ただし、
【数21】
Figure 2004326465
は、文書特徴ベクトルの第k成分が区間
【数22】
Figure 2004326465
に属すような学習用文書の集合の中で、カテゴリCに属すものと属さないものがあれば2、どちらかしかなければ1とする。
【数23】
Figure 2004326465
についても同様に、文書特徴ベクトルの第k成分が区間
【数24】
Figure 2004326465
に属すような学習用文書の集合の中で、カテゴリCに属すものと属さないものがあれば2、どちらかしかなければ1とする。
(f) (図6 606)
【数25】
Figure 2004326465
なら、Sは分割不可能として、空集合φを返す。
(g) (図6 607)
【数26】
Figure 2004326465
を分割点とする。
(h) (図6 608)手続き
【数27】
Figure 2004326465
の分割点の集合を求め、T’とする。同様に、手続き
【数28】
Figure 2004326465
の分割点の集合を求め、T’’とする。
(i) (図6 609)
【数29】
Figure 2004326465
を、Sの分割点の集合として返す。
(手続きDIV(S, C)の終わり)
【0034】
ステップ4:(図2 204)離散化パラメータ格納部109に格納された離散化パラメータ表TABに従って、学習用素性ベクトル作成部110が、各学習用文書特徴ベクトル
【数30】
Figure 2004326465
から、各カテゴリCへの分類学習用文書素性ベクトル
【数31】
Figure 2004326465
を作成する。ただし、
【数32】
Figure 2004326465
は、ステップ3で、カテゴリCに対して有効とされた軸の数である。
具体的には、次のようにする。
(i) (図8 801)TABを参照し、カテゴリCに対して有効な軸番号(文書特徴ベクトルのK個の基底の中での番号)列
【数33】
Figure 2004326465
を求める。
(ii) (図8 802)列
【数34】
Figure 2004326465
に対して、当該文書特徴ベクトルの第α成分
【数35】
Figure 2004326465
を得る。
(iii) (図8 803)Bを参照し、
【数36】
Figure 2004326465
番目の軸に対する分割点の列
【数37】
Figure 2004326465
を得る。
(iv) (図8 804)
【数38】
Figure 2004326465
とする。
【0035】
ステップ5:(図2 205)ベイジアンネットワーク学習部111が、各カテゴリCについて、各学習用文書dが属すかどうかを示す値
【数39】
Figure 2004326465
と、dの素性ベクトルの組の集合
【数40】
Figure 2004326465
から、カテゴリCへの分類確率計算用のベイジアンネットワークBN(c)を学習により生成し、ベイジアンネットワーク格納部112に格納する。ベイジアンネットワークの学習には、各種のアルゴリズムが存在するが、本実施の形態では、ベイジアンネットワークの型を、カテゴリCに対応する節点を根とし、各素性に対応する節点を葉とするような、Naive Bayes型(図9)に限定し、以下のように学習を行う。
(i) (図10 1001)節点の集合N(c)および辺の集合E(c)を空にする。
(ii) (図10 1002)カテゴリCに対応する節点
【数41】
Figure 2004326465
に加える。
(iii) (図10 1003)各有効軸番号
【数42】
Figure 2004326465
に対して、対応する節点
【数43】
Figure 2004326465
に加える。
(iv) (図10 1004)
【数44】
Figure 2004326465
に向かう有向辺を
【数45】
Figure 2004326465
に加える。
(v) (図10 1005)各
【数46】
Figure 2004326465
における条件付確率表
【数47】
Figure 2004326465
に付与する。
一般に、ベイジアンネットワークにおいて、各節点に付与される条件付確率表は、当該節点のすべての親節点に対応する変数のすべての値の組に対して、当該節点に対応する変数が、当該変数がとりうる値をどのような確率でとるかを示す条件付確率である。本実施の形態の場合は、節点
【数48】
Figure 2004326465
の要素は、任意の文書がカテゴリCに属す場合と属さない場合のそれぞれにおいて、当該文書のカテゴリCに関するj番目の有効素性
【数49】
Figure 2004326465
となる(図11)。ただし、zは、文書がカテゴリCに属すときに1、属さないときに0とする。
ここでは、
【数50】
Figure 2004326465
により計算する。ここで、Dtrainは、学習用文書集合である。θは、
【数51】
Figure 2004326465
により計算した数であり、θは、設計者によって設定される数であり、本実施の形態では1とする。
(vi) (図10 1006)文書がカテゴリCに属す確率を
【数52】
Figure 2004326465
に対して、付与する。
以上が、学習フェーズに関する説明である。
【0036】
次に、分類フェーズの動作に関する説明を図12を用いながら行う。
分類フェーズにおいては、
ステップ1:(図12 1201)分類対象文書入力部113により入力された分類対象の各文書dに対して、分類対象文書ベクトル作成部114が、分類対象文書特徴ベクトル学習フェーズのステップ1におけると同様にして、文書ベクトル
【数53】
Figure 2004326465
を作成する。
【0037】
ステップ2:(図12 1202)分類ベクトル
【数54】
Figure 2004326465
と学習フェーズのステップ2で求め、単語特徴ベクトル格納部105に格納されている各語wに対する単語特徴ベクトル
【数55】
Figure 2004326465
を用いて、分類対象文書特徴ベクトル作成部115が、文書特徴ベクトル
【数56】
Figure 2004326465
により求める。
【0038】
ステップ3:(図12 1203)学習フェーズのステップ4と同様にして、各カテゴリCに対して、離散化パラメータ格納部109に格納されている離散化パラメータ表TABにしたがって、分類対象素性ベクトル作成部116が、文書特徴ベクトル
【数57】
Figure 2004326465
を作成する。
【0039】
ステップ4:(図12 1204)各分類対象文書dについて、学習フェーズのステップ5で作成し、ベイジアンネットワーク格納部112に格納されている各カテゴリCへの分類用のベイジアンネットワークBNを用いて、所属確率計算部117が、素性ベクトル
【数58】
Figure 2004326465
から、文書dがカテゴリCに属すかどうかに関する確率
【数59】
Figure 2004326465
を求める。これは、一般的には、ベイジアンネットワークにおける周辺確率分布の計算法により計算すればよい。本実施の形態では、特に、BNはnaive Bayes型の構造を持つので、
【数60】
Figure 2004326465
が成り立ち、これから
【数61】
Figure 2004326465
が成り立つが、
【数62】
Figure 2004326465
に付与されている条件付確率表から求めることができるので、これを用いれば、簡単に計算することができる。
【0040】
ステップ :(図12 1205)分類結果出力部118が、各文書dの、各カテゴリCへの所属確率を出力する。
以上が、分類実行時の動作である。
【0041】
【発明の効果】
以上のように、本発明によれば、行列演算による次元圧縮法を用いて、各文書に対する文書ベクトルを、より次元数の低いベクトルにより近似させ、ベイジアンネットワークを用いた文書分類の入力として用いるので、一定の基準に満たない単語に関する情報がすべて落とされるという問題は解決される。また、学習に基づく区間分割を行って得られる離散値からなる素性ベクトルを生成することにより、学習データをベイジアンネットワークの学習に適した形にすることができる。
【0042】
また、本発明の別の態様によれば、上記次元圧縮法として、対応分析を用いることにより、頻度の少ない語や文書長の短い文書を重視した効果を自動的に得ることができる。
【0043】
また、本発明のさらに別の態様によれば、上記素性ベクトル離散化部における、モデル選択規準としてMDL・規準に基づいて学習された区間分割による離散化行うことにより、各カテゴリへの分類にとって効果のない素性の使用を排除でき、素性の数を絞り込むことができるので、分類装置を過適応に陥りにくくすることが可能になるとともに、ベイジアンネットワークの学習における計算量的側面からも好ましい性質を持つ。また、MDL規準においては、有効な素性と有効でない素性は、自動的に計算される基準に従って区別されるので、利用者が閾値を試行錯誤により設定する負担もなくなる。
【0044】
なお、本実施の形態においては、主成分分析により得られた文書特徴ベクトルをそのまま用いていたが、文書特徴ベクトルの長さが1になるように正規化したものを用いても良い。
【0045】
また、本実施の形態においては、モデル選択の規準として、MDL基準を用いたが、その他のモデル選択規準として、拡張確率的コンプレキシティなどの規準を用いても良い。
【図面の簡単な説明】
【図1】本発明の一実施の形態に係る文書分類装置の構成を示すブロック図
【図2】前記実施の形態における学習フェーズの処理動作を説明するフローチャート
【図3】前記実施の形態における単語文書行列の例を説明する図
【図4】前記実施の形態における対応分析の処理動作を説明するフローチャート
【図5】前記実施の形態における離散化パラメータ学習の処理動作を説明するフローチャート
【図6】前記実施の形態におけるMDL・規準による区間の分割の処理動作を説明するフローチャート流れを示す図
【図7】前記実施の形態における離散化パラメータのの例を説明する図
【図8】前記実施の形態における素性ベクトル作成の処理動作を説明するフローチャート
【図9】前記実施の形態における分類用ベイジアンネットワークの説明図
【図10】前記実施の形態におけるベイジアンネットワーク学習の処理動作を説明するフローチャート
【図11】前記実施の形態における条件付確率表の説明図
【図12】前記実施の形態における分類フェーズの動作の処理動作を説明するフローチャート
【符号の説明】
101 学習用文書格納部
102 単語辞書
103 単語文書行列作成部
104 対応分析実行部
105 単語特徴ベクトル格納部
106 学習用文書特徴ベクトル格納部
107 学習用カテゴリ情報格納部
108 離散化パラメータ計算部
109 離散化パラメータ格納部
110 学習用素性ベクトル作成部
111 ベイジアンネットワーク学習部
112 ベイジアンネットワーク格納部
113 分類対象文書入力部
114 分類対象文書ベクトル作成部
115 分類対象文書特徴ベクトル作成部
116 分類対象素性ベクトル作成部
117 所属確率計算部
118 分類結果出力部

Claims (11)

  1. 各文書に対して、決められたカテゴリに属すかどうかがラベル付けされている学習用文書集合を用いて、教師あり学習を行ったベイジアンネットワークを用いて、新規に与えられる各文書が各カテゴリに属す確率を計算する文書分類方法において、前記ベイジアンネットワークへの入力として、各文書の持つ特徴を表す高次元ベクトルを、学習データに基づく行列演算による次元圧縮により低次元近似して得られる実数ベクトルに対して、モデル選択基準を用いた学習に基づく区間分割を行って得られる離散値からなる素性ベクトルを用いることを特徴とする文書分類方法。
  2. 請求項1記載の文書分類方法において、とくに、前記行列演算による次元圧縮の手法として、対応分析を用いることを特徴とする文書分類方法。
  3. 請求項1の文書分類方法において、とくに、前記区間分割のための学習において、モデル選択規準に基づいて使用するモデル選択基準として、MDL(最小記述長)規準を用いることを特徴とする文書分類方法。
  4. 学習用文書を格納する学習用文書格納部と、
    単語の文字列を格納した単語辞書と、
    前記学習用文書格納部に格納された学習用文書に出現する単語の頻度を数えて単語文書行列を作成する単語文書行列作成部と、
    作成された単語文書行列に対して対応分析を行い、学習用文書特徴ベクトルと単語の特徴を表す単語特徴ベクトルを生成する対応分析実行部と、
    対応分析により得られた単語特徴ベクトルを格納する単語特徴ベクトル格納部と、
    対応分析により得られた学習用文書ベクトルを格納する学習用文書ベクトル格納部と、
    学習用の各文書がどのカテゴリに属すかに関する情報を格納する学習用カテゴリ情報格納部と、
    前記学習用文書ベクトルの集合と前記学習用カテゴリ情報離散化パラメータを計算する離散化パラメータ計算部と、
    前記離散化パラメータ計算結果を格納する離散化パラメータ格納部と、
    前記学習用文書特徴ベクトル格納部に格納されている学習用文書特徴ベクトルから、ベイジアンネットワークの学習に用いる学習用素性ベクトルを作成する学習用素性ベクトル作成部と、
    前記学習用素性ベクトル作成部および学習用カテゴリ情報格納部からの情報を利用して、各カテゴリごとにベイジアンネットワークを学習するベイジアンネットワーク学習部と、
    前記ベイジアンネットワーク学習部における学習によって得られたベイジアンネットワークを格納するベイジアンネットワーク格納部とを備えた文書分類用の学習装置。
  5. 単語文書行列作成部は、学習用文書格納部に格納された学習用文書に出現する単語の頻度を数え文書ベクトルを作り、それらを行方向に連結して単語文書行列を作成することを特徴とする請求項4記載の文書分類用の学習装置。
  6. 離散化パラメータ計算部は、前記学習用文書特徴ベクトル格納部に格納されている学習用文書の文書ベクトルの集合と前記学習用カテゴリ情報格納部に格納されている学習用カテゴリ情報から、ベイジアンネットワークの学習に用いる学習要素性ベクトルをつくるために、学習用MDL・規準に基づいて、前記文書特徴ベクトルの各軸から各軸の値を離散化するための区切り情報を計算し、区切り情報が得られた軸を各カテゴリの素性ベクトルにおいて使用する軸(有効軸)として選ぶことを特徴とする請求項5記載の文書分類用の学習装置。
  7. ベイジアンネットワーク学習部は、前記学習用素性ベクトル作成部により作成された学習用素性ベクトルと、前記学習用カテゴリ情報格納部に格納されている学習用カテゴリ情報とを利用して、各カテゴリごとに、文書の当該カテゴリへの所属確率を計算するベイジアンネットワークを学習することを特徴とする請求項6記載の文書分類用の学習装置。
  8. 請求項4記載の文書分類用の学習装置と、
    分類対象となる文書を入力する分類対象文書入力部と、
    前記学習装置の単語辞書を用いて、分類対象の文書に対して文書ベクトルを作成する分類対象文書ベクトル作成部と、
    前記分類対象文書ベクトル作成部および前記学習装置の単語特徴ベクトル格納部に接続された分類対象文書特徴ベクトル作成部と、
    前記学習装置の離散化パラメータ格納部に接続された分類対象素性ベクトル作成部と、
    前記分類対象文書素性ベクトル作成部と前記学習装置のベイジアンネットワーク格納部に接続された所属確率計算部と、
    前記所属確率計算部による計算結果を出力する、分類結果出力部を備えた文書分類装置。
  9. 分類対象文書特徴ベクトル作成部は、前記分類対象文書ベクトル作成部により作成された分類対象文書ベクトルと、前記単語特徴ベクトル格納部に格納されている単語特徴ベクトルの集合を用いて、分類対象文書における各単語の出現度数に基づいて分類対象文書特徴ベクトルを計算することを特徴とする請求項8記載の文書分類装置。
  10. 分類対象素性ベクトル作成部は、各カテゴリに対して、前記離散化パラメータ格納部に格納されている離散化パラメータに基づいて、前記分類対象文書特徴ベクトルから当該カテゴリへの分類判定において用いる素性値を抽出して離散化することを特徴とする請求項9記載の文書分類装置。
  11. 所属確率計算部は、前記分類対象素性ベクトル作成部によって作成された、各カテゴリごとに離散化された分類対象文書素性ベクトルと、前記ベイジアンネットワーク格納部に格納されたベイジアンネットワークを用いて、当該文書が各カテゴリに属する確率を計算することを特徴とする請求項10記載の文書分類装置。
JP2003120753A 2003-04-24 2003-04-24 文書分類用の学習装置、及びこれを用いた文書分類方法並びに文書分類装置 Pending JP2004326465A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003120753A JP2004326465A (ja) 2003-04-24 2003-04-24 文書分類用の学習装置、及びこれを用いた文書分類方法並びに文書分類装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003120753A JP2004326465A (ja) 2003-04-24 2003-04-24 文書分類用の学習装置、及びこれを用いた文書分類方法並びに文書分類装置

Publications (1)

Publication Number Publication Date
JP2004326465A true JP2004326465A (ja) 2004-11-18

Family

ID=33499497

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003120753A Pending JP2004326465A (ja) 2003-04-24 2003-04-24 文書分類用の学習装置、及びこれを用いた文書分類方法並びに文書分類装置

Country Status (1)

Country Link
JP (1) JP2004326465A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006293767A (ja) * 2005-04-12 2006-10-26 Nomura Research Institute Ltd 文章分類装置、文章分類方法および分類辞書作成装置
JP2007080061A (ja) * 2005-09-15 2007-03-29 Univ Of Tsukuba Webページの検索方法及びWebページのクラスタリング方法
JP2007272291A (ja) * 2006-03-30 2007-10-18 Kddi Corp 潜在クラス抽出方法および装置ならびに潜在クラス抽出プログラムおよびその記録媒体
JP2009116680A (ja) * 2007-11-07 2009-05-28 National Institute Of Information & Communication Technology データ種類検出装置及びデータ種類検出方法
JP2015005086A (ja) * 2013-06-20 2015-01-08 日本電気株式会社 データ管理装置及びデータ分析装置
CN109902167A (zh) * 2018-12-04 2019-06-18 阿里巴巴集团控股有限公司 嵌入结果的解释方法和装置
KR20200128584A (ko) * 2018-05-02 2020-11-13 가부시키가이샤 프론테오 사상 예측 장치, 예측 모델 생성 장치 및 사상 예측용 프로그램
US11630853B2 (en) * 2021-01-29 2023-04-18 Snowflake Inc. Metadata classification

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006293767A (ja) * 2005-04-12 2006-10-26 Nomura Research Institute Ltd 文章分類装置、文章分類方法および分類辞書作成装置
JP2007080061A (ja) * 2005-09-15 2007-03-29 Univ Of Tsukuba Webページの検索方法及びWebページのクラスタリング方法
JP2007272291A (ja) * 2006-03-30 2007-10-18 Kddi Corp 潜在クラス抽出方法および装置ならびに潜在クラス抽出プログラムおよびその記録媒体
JP2009116680A (ja) * 2007-11-07 2009-05-28 National Institute Of Information & Communication Technology データ種類検出装置及びデータ種類検出方法
JP2015005086A (ja) * 2013-06-20 2015-01-08 日本電気株式会社 データ管理装置及びデータ分析装置
KR20200128584A (ko) * 2018-05-02 2020-11-13 가부시키가이샤 프론테오 사상 예측 장치, 예측 모델 생성 장치 및 사상 예측용 프로그램
KR102315984B1 (ko) 2018-05-02 2021-10-20 가부시키가이샤 프론테오 사상 예측 장치, 예측 모델 생성 장치 및 사상 예측용 프로그램
CN109902167A (zh) * 2018-12-04 2019-06-18 阿里巴巴集团控股有限公司 嵌入结果的解释方法和装置
WO2020114109A1 (zh) * 2018-12-04 2020-06-11 阿里巴巴集团控股有限公司 嵌入结果的解释方法和装置
CN109902167B (zh) * 2018-12-04 2020-09-01 阿里巴巴集团控股有限公司 嵌入结果的解释方法和装置
US11630853B2 (en) * 2021-01-29 2023-04-18 Snowflake Inc. Metadata classification
US11853329B2 (en) 2021-01-29 2023-12-26 Snowflake Inc. Metadata classification

Similar Documents

Publication Publication Date Title
US11163947B2 (en) Methods and systems for multi-label classification of text data
US20040243548A1 (en) Dependency network based model (or pattern)
CN113051932B (zh) 语义和知识扩展主题模型的网络媒体事件的类别检测方法
Estevez-Velarde et al. AutoML strategy based on grammatical evolution: A case study about knowledge discovery from text
Cui et al. Label error correction and generation through label relationships
Ding et al. Node embedding via word embedding for network community discovery
Ji et al. Empirical studies of a kernel density estimation based naive bayes method for software defect prediction
Seo et al. Information-theoretic bias reduction via causal view of spurious correlation
JP2004326465A (ja) 文書分類用の学習装置、及びこれを用いた文書分類方法並びに文書分類装置
CN113723542A (zh) 一种日志聚类处理方法及系统
Millar et al. Document clustering and visualization with latent dirichlet allocation and self-organizing maps
JP2019086979A (ja) 情報処理装置、情報処理方法及びプログラム
Opolka et al. Bayesian link prediction with deep graph convolutional gaussian processes
Zamzami et al. An accurate evaluation of msd log-likelihood and its application in human action recognition
Vo et al. Deep generative networks coupled with evidential reasoning for dynamic user preferences using short texts
Dzogang et al. An ellipsoidal k-means for document clustering
CN113011163A (zh) 基于深度学习模型的复合文本多分类方法及系统
Armstrong Development and properties of kernel-based methods for the interpretation and presentation of forensic evidence
Rahman et al. Iterative Feature Selection Using Information Gain & Naïve Bayes for Document Classification
CN110633363A (zh) 一种基于nlp和模糊多准则决策的文本实体推荐方法
CN117033775B (zh) 基于知识图谱的工业软件的组件推荐方法及系统
Varghese et al. Efficient Feature Subset Selection Techniques for High Dimensional Data
Nair et al. Study of machine learning techniques for sentiment analysis
JP6230501B2 (ja) 縮約素性生成装置、情報処理装置、方法、及びプログラム
Saari Trend analysis in ai research over time using nlp techniques