JPH0962693A

JPH0962693A - 確率モデルによる文書分類方法

Info

Publication number: JPH0962693A
Application number: JP7215670A
Authority: JP
Inventors: Makoto Iwayama; 真岩山; Hiroshi Motoda; 浩元田
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1995-08-24
Filing date: 1995-08-24
Publication date: 1997-03-07

Abstract

(57)【要約】【目的】分類済みの文書集合（訓練用データ）をもと
に新たな文書を分類する際、訓練用データが不十分な場
合でもデータ補完を行うことなしに文書分類が可能にな
る文書の確率的特徴付けの方法とそれに基づく文書分類
の方法の提供。【構成】特徴付けの対象となる文書集合Ｃは、それが
含む単語の集合Ｗで表現される。ここで、単語集合Ｗか
ら単語を無作為抽出する事象を考え、無作為抽出した単
語がある特定の単語ｗｉと等しいという事象をＴ＝ｗｉ
とおき、確率Ｐ（Ｔ＝ｗｉ｜Ｃ）を推定する。事象Ｔ＝
ｗｉは全てのｗｉに関して背反であるため、Ｗに含まれ
る全ての単語ｗｉに対して確率Ｐ（Ｔ＝ｗｉ｜Ｃ）を推
定し、それらを総和した確率は、文書集合Ｃを単語集合
Ｗで特徴付けたことになる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、大量の文書を確率的に
分類する手法に係わるものであり、従来は人手で行って
いた文書分類を自動的に行う仕組みを与えるものであ
る。

【０００２】

【従来の技術】確率的に文書分類を行うためには、文書
をいかに特徴付けるかが問題になる。従来の手法は、
「文書がある単語（キーワード）でインデックスされる
／されない（文書にある単語が含まれる／含まれな
い）」という基本事象により文書の特徴付けを行ってい
た。例えば、文書の集合Ｃを単語ｗで特徴付けることを
考えると、「文書集合Ｃの中からランダムに抽出した文
書が単語ｗでインデックスされる確率」をＰ（ｗ＝１｜
Ｃ）と書き、この確率により文書集合Ｃの特徴付けを行
っていた。ここで、Ｐ（ｗ＝１｜Ｃ）はＣの中のｋ個の
文書が単語ｗを含んでいる場合、「ｋ／（Ｃに含まれる
文書数）」で推定できる。複数の単語集合Ｗ＝｛ｗ１、
ｗ２、．．．、ｗｍ｝で文書集合Ｃを特徴付けるには、 P(w1=1|C)*P(w2=1|C)*．．．*P(wm=1|C) (1) を計算すればよい。

【０００３】文書分類では、分類に先だって分類済みの
文書があらかじめ訓練用データとして与えられている。
今、文書集合Ｃとして、訓練用データの中で同じカテゴ
リｃに分類されている文書集合を設定すれば、前記(1)
式の確率はカテゴリｃを特徴付けることに相当し、この
特徴付けを用いて新たな文書を分類することが可能にな
る。この際、これから分類しようとする文書ｄも同じく
単語で特徴付けるのだが、これは前記(1)式においてＣ
＝｛ｄ｝とした場合に相当する。

【０００４】

【発明が解決しようとする課題】上記従来技術の問題点
は、もしＣの中の文書どれもがある単語ｗｉを持ってい
なければＰ（ｗｉ＝１｜Ｃ）が０になるため(1)の確率
全体も０になってしまうことである。このような単語は
文書の特徴付けとして使わないのが望ましいが、事前に
単語ｗｉを特定することは難しい。そこで従来技術で
は、データ補完（スムージング）の手法によりＰ（ｗｉ
＝１｜Ｃ）が０にならないような補正を行う。ところ
が、補完の正当性を保証することは一般に困難である。

【０００５】本発明の目的は、上記の状況において、文
書集合Ｃを特徴付ける全体の確率が上記のような単語ｗ
ｉに影響されないような頑強な文書特徴付けの確率的方
法を提供することである。

【０００６】

【課題を解決するための手段】上記目的は、文書を単語
の集合で表現し、単語集合からある単語をランダムに抽
出するという確率事象で文書を特徴付けることで達成さ
れる。

【０００７】

【作用】文書集合Ｃ＝｛ｄ１、ｄ２、．．．、ｄｎ｝を
単語集合Ｗ＝｛ｗ１、ｗ２、．．．ｗｍ｝で特徴付ける
ことを考える。ここで、Ｃの各文書ｄｉは文書ｄｉに含
まれるキーワードの集合で表現されている。例えば、文
書ｄｉが単語ｗ１を１個、ｗ５を３個、ｗ８を２個含ん
でいれば、 di = {w1、 w5、 w5、 w5、 w8、 w8} (2) となる。Ｃの表現形式は、Ｃに含まれる各々の文書表現
形式（つまり上記の各集合ｄｉ）の和集合となる。

【０００８】C = d1 v d2 v ．．． v dn (“v”は和集合の演算子) (3) ここで、単語集合からある単語を無作為抽出する事象を
考え、無作為抽出した単語がｗｉと等しいという事象を
Ｔ＝ｗｉとおく。この事象は全てのｗｉに関して背反で
あるため、各事象に対して総和した確率、 P(T=w1|C)+P(T=w2|C)+．．．+P(T=wm|C) (4) は、文書集合Ｃを単語集合Ｗで特徴付けたことに相当す
る。Ｐ（Ｔ＝ｗｉ｜Ｃ）は、Ｃにｗｉがｋ個含まれてい
る場合、「ｋ／（Ｃに含まれる単語数）］で推定でき
る。(4)式において、全体の確率が各単語に関する確率
の和の形になっていることに注意されたい。

【０００９】従来の確率(1)は積の形になっている。よ
って、Ｃのどの文書も単語ｗｉを持っていない場合を考
えると、Ｐ（Ｔ＝ｗｉ｜Ｃ）は０になるが、和形式とし
たことにより全体の確率(4)も０になってしまうことは
ない。従来の確率(1)では積形のため全体の確率が０に
なってしまうことが問題であった。

【００１０】

【実施例】以下、本発明の実施例である自動文書分類に
ついて説明する。

【００１１】図１に自動文書分類の概要を示す。自動文
書分類では、既に分類済みの文書集合１−１を用いて、
未分類の文書１−２を分類する。ここで、分類済み文書
集合１−１は、Ｃ＝｛Ｃ１、Ｃ２、．．．｝と表現され
る。各ＣｉはカテゴリＣｉと分類されている文書の集合
である。よって、例えば、ある文書がカテゴリＣ１とカ
テゴリＣ３に分類されている場合、その文書は文書集合
Ｃ１、Ｃ３両方に含まれることになる。

【００１２】処理機能１−３においては、「未分類の文
書ｄがカテゴリＣｉに分類される確率Ｐ（Ｃｉ｜ｄ）」
を計算する。言い替えると、「未分類の文書ｄが、既に
“Ｃｉ”として分類されている文書集合に含まれる確率
Ｐ（Ｃｉ｜ｄ）」を計算することになる。

【００１３】この確率Ｐ（Ｃｉ｜ｄ）を計算するため
に、本発明で提案した文書の特徴付けを用いる。具体的
には、「ある単語集合から無作意に抽出したキーワード
がｗｊと等しい」という事象Ｔ＝ｗｊを考える。この事
象は、全ての単語に関し背反であるため、各事象につい
てＰ（Ｃｉ｜ｄ）を条件付けると、 P(Ci|d) = sum_{j} [P(Ci|T=wj)*P(T=wj|d)] (sum_{j}は全てのjに対する総和) (5) となる。ここで、ベイズの定理を用いてＰ（Ｃｉ｜Ｔ＝
ｗｊ）を書きかえると、 P(C|d) = P(C) * sum_{j} [P(T=wj|C)*P(T=wj|d)/P(T=wj)] (6) となる。(6)式の sum_{j} [P(T=wj|C)*P(T=wj|d)] は、文書ｄとカテゴリＣｉを単語集合で同時に特徴付け
たことに相当している。

【００１４】各確率は以下の方法で推定できる。

【００１５】Ｐ（Ｔ＝ｗｊ｜Ｃｉ）＝「Ｃｉに含まれる
単語ｗｊの数／Ｃｉに含まれる単語数」Ｐ（Ｔ＝ｗｊ｜ｄ）＝「ｄに含まれる単語ｗｊの数／ｄ
に含まれる単語数」Ｐ（Ｔ＝ｗｊ）＝「全文書に含まれる単語ｗｉの数／全
文書に含まれる単語数」Ｐ（Ｃｉ）＝「Ｃｉに含まれる文書数／全文書数」上記(6)式を用いると、各候補カテゴリＣｉについてＰ
（Ｃｉ｜ｄ）が計算出来る。処理機能１−４において、
計算したＰ（Ｃｉ｜ｄ）を降順にソートして、例えば、
上位Ｋ個のカテゴリを選択し、文書ｄが持つカテゴリと
する。

【００１６】

【発明の効果】本発明で提案する文書の特徴付けによる
と、訓練用データの中に存在しないキーワードで特徴付
けを行っても、データの補完をすることなしに文書自動
分類が可能になる。

【図面の簡単な説明】

【図１】本発明の実施例の処理手順を示した図。

【符号の説明】

１−１：既に分類済みの文書集合、１−２：未分類の文
書

Claims

【特許請求の範囲】

【請求項１】訓練用データとしての分類済みの文書をも
とに新たな文書を確率的に分類する際、文書を単語の集
合として表現しておき、その集合から単語をランダムに
抽出する確率事象により文書を特徴付ける方法。