JPH0962693A - 確率モデルによる文書分類方法 - Google Patents
確率モデルによる文書分類方法Info
- Publication number
- JPH0962693A JPH0962693A JP7215670A JP21567095A JPH0962693A JP H0962693 A JPH0962693 A JP H0962693A JP 7215670 A JP7215670 A JP 7215670A JP 21567095 A JP21567095 A JP 21567095A JP H0962693 A JPH0962693 A JP H0962693A
- Authority
- JP
- Japan
- Prior art keywords
- document
- classified
- probability
- word
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【目的】 分類済みの文書集合(訓練用データ)をもと
に新たな文書を分類する際、訓練用データが不十分な場
合でもデータ補完を行うことなしに文書分類が可能にな
る文書の確率的特徴付けの方法とそれに基づく文書分類
の方法の提供。 【構成】 特徴付けの対象となる文書集合Cは、それが
含む単語の集合Wで表現される。ここで、単語集合Wか
ら単語を無作為抽出する事象を考え、無作為抽出した単
語がある特定の単語wiと等しいという事象をT=wi
とおき、確率P(T=wi|C)を推定する。事象T=
wiは全てのwiに関して背反であるため、Wに含まれ
る全ての単語wiに対して確率P(T=wi|C)を推
定し、それらを総和した確率は、文書集合Cを単語集合
Wで特徴付けたことになる。
に新たな文書を分類する際、訓練用データが不十分な場
合でもデータ補完を行うことなしに文書分類が可能にな
る文書の確率的特徴付けの方法とそれに基づく文書分類
の方法の提供。 【構成】 特徴付けの対象となる文書集合Cは、それが
含む単語の集合Wで表現される。ここで、単語集合Wか
ら単語を無作為抽出する事象を考え、無作為抽出した単
語がある特定の単語wiと等しいという事象をT=wi
とおき、確率P(T=wi|C)を推定する。事象T=
wiは全てのwiに関して背反であるため、Wに含まれ
る全ての単語wiに対して確率P(T=wi|C)を推
定し、それらを総和した確率は、文書集合Cを単語集合
Wで特徴付けたことになる。
Description
【0001】
【産業上の利用分野】本発明は、大量の文書を確率的に
分類する手法に係わるものであり、従来は人手で行って
いた文書分類を自動的に行う仕組みを与えるものであ
る。
分類する手法に係わるものであり、従来は人手で行って
いた文書分類を自動的に行う仕組みを与えるものであ
る。
【0002】
【従来の技術】確率的に文書分類を行うためには、文書
をいかに特徴付けるかが問題になる。従来の手法は、
「文書がある単語(キーワード)でインデックスされる
/されない(文書にある単語が含まれる/含まれな
い)」という基本事象により文書の特徴付けを行ってい
た。例えば、文書の集合Cを単語wで特徴付けることを
考えると、「文書集合Cの中からランダムに抽出した文
書が単語wでインデックスされる確率」をP(w=1|
C)と書き、この確率により文書集合Cの特徴付けを行
っていた。ここで、P(w=1|C)はCの中のk個の
文書が単語wを含んでいる場合、「k/(Cに含まれる
文書数)」で推定できる。複数の単語集合W={w1、
w2、...、wm}で文書集合Cを特徴付けるには、 P(w1=1|C)*P(w2=1|C)*...*P(wm=1|C) (1) を計算すればよい。
をいかに特徴付けるかが問題になる。従来の手法は、
「文書がある単語(キーワード)でインデックスされる
/されない(文書にある単語が含まれる/含まれな
い)」という基本事象により文書の特徴付けを行ってい
た。例えば、文書の集合Cを単語wで特徴付けることを
考えると、「文書集合Cの中からランダムに抽出した文
書が単語wでインデックスされる確率」をP(w=1|
C)と書き、この確率により文書集合Cの特徴付けを行
っていた。ここで、P(w=1|C)はCの中のk個の
文書が単語wを含んでいる場合、「k/(Cに含まれる
文書数)」で推定できる。複数の単語集合W={w1、
w2、...、wm}で文書集合Cを特徴付けるには、 P(w1=1|C)*P(w2=1|C)*...*P(wm=1|C) (1) を計算すればよい。
【0003】文書分類では、分類に先だって分類済みの
文書があらかじめ訓練用データとして与えられている。
今、文書集合Cとして、訓練用データの中で同じカテゴ
リcに分類されている文書集合を設定すれば、前記(1)
式の確率はカテゴリcを特徴付けることに相当し、この
特徴付けを用いて新たな文書を分類することが可能にな
る。この際、これから分類しようとする文書dも同じく
単語で特徴付けるのだが、これは前記(1)式においてC
={d}とした場合に相当する。
文書があらかじめ訓練用データとして与えられている。
今、文書集合Cとして、訓練用データの中で同じカテゴ
リcに分類されている文書集合を設定すれば、前記(1)
式の確率はカテゴリcを特徴付けることに相当し、この
特徴付けを用いて新たな文書を分類することが可能にな
る。この際、これから分類しようとする文書dも同じく
単語で特徴付けるのだが、これは前記(1)式においてC
={d}とした場合に相当する。
【0004】
【発明が解決しようとする課題】上記従来技術の問題点
は、もしCの中の文書どれもがある単語wiを持ってい
なければP(wi=1|C)が0になるため(1)の確率
全体も0になってしまうことである。このような単語は
文書の特徴付けとして使わないのが望ましいが、事前に
単語wiを特定することは難しい。そこで従来技術で
は、データ補完(スムージング)の手法によりP(wi
=1|C)が0にならないような補正を行う。ところ
が、補完の正当性を保証することは一般に困難である。
は、もしCの中の文書どれもがある単語wiを持ってい
なければP(wi=1|C)が0になるため(1)の確率
全体も0になってしまうことである。このような単語は
文書の特徴付けとして使わないのが望ましいが、事前に
単語wiを特定することは難しい。そこで従来技術で
は、データ補完(スムージング)の手法によりP(wi
=1|C)が0にならないような補正を行う。ところ
が、補完の正当性を保証することは一般に困難である。
【0005】本発明の目的は、上記の状況において、文
書集合Cを特徴付ける全体の確率が上記のような単語w
iに影響されないような頑強な文書特徴付けの確率的方
法を提供することである。
書集合Cを特徴付ける全体の確率が上記のような単語w
iに影響されないような頑強な文書特徴付けの確率的方
法を提供することである。
【0006】
【課題を解決するための手段】上記目的は、文書を単語
の集合で表現し、単語集合からある単語をランダムに抽
出するという確率事象で文書を特徴付けることで達成さ
れる。
の集合で表現し、単語集合からある単語をランダムに抽
出するという確率事象で文書を特徴付けることで達成さ
れる。
【0007】
【作用】文書集合C={d1、d2、...、dn}を
単語集合W={w1、w2、...wm}で特徴付ける
ことを考える。ここで、Cの各文書diは文書diに含
まれるキーワードの集合で表現されている。例えば、文
書diが単語w1を1個、w5を3個、w8を2個含ん
でいれば、 di = {w1、 w5、 w5、 w5、 w8、 w8} (2) となる。Cの表現形式は、Cに含まれる各々の文書表現
形式(つまり上記の各集合di)の和集合となる。
単語集合W={w1、w2、...wm}で特徴付ける
ことを考える。ここで、Cの各文書diは文書diに含
まれるキーワードの集合で表現されている。例えば、文
書diが単語w1を1個、w5を3個、w8を2個含ん
でいれば、 di = {w1、 w5、 w5、 w5、 w8、 w8} (2) となる。Cの表現形式は、Cに含まれる各々の文書表現
形式(つまり上記の各集合di)の和集合となる。
【0008】C = d1 v d2 v ... v dn (“v”は和集合の演算子) (3) ここで、単語集合からある単語を無作為抽出する事象を
考え、無作為抽出した単語がwiと等しいという事象を
T=wiとおく。この事象は全てのwiに関して背反で
あるため、各事象に対して総和した確率、 P(T=w1|C)+P(T=w2|C)+...+P(T=wm|C) (4) は、文書集合Cを単語集合Wで特徴付けたことに相当す
る。P(T=wi|C)は、Cにwiがk個含まれてい
る場合、「k/(Cに含まれる単語数)]で推定でき
る。(4)式において、全体の確率が各単語に関する確率
の和の形になっていることに注意されたい。
考え、無作為抽出した単語がwiと等しいという事象を
T=wiとおく。この事象は全てのwiに関して背反で
あるため、各事象に対して総和した確率、 P(T=w1|C)+P(T=w2|C)+...+P(T=wm|C) (4) は、文書集合Cを単語集合Wで特徴付けたことに相当す
る。P(T=wi|C)は、Cにwiがk個含まれてい
る場合、「k/(Cに含まれる単語数)]で推定でき
る。(4)式において、全体の確率が各単語に関する確率
の和の形になっていることに注意されたい。
【0009】従来の確率(1)は積の形になっている。よ
って、Cのどの文書も単語wiを持っていない場合を考
えると、P(T=wi|C)は0になるが、和形式とし
たことにより全体の確率(4)も0になってしまうことは
ない。従来の確率(1)では積形のため全体の確率が0に
なってしまうことが問題であった。
って、Cのどの文書も単語wiを持っていない場合を考
えると、P(T=wi|C)は0になるが、和形式とし
たことにより全体の確率(4)も0になってしまうことは
ない。従来の確率(1)では積形のため全体の確率が0に
なってしまうことが問題であった。
【0010】
【実施例】以下、本発明の実施例である自動文書分類に
ついて説明する。
ついて説明する。
【0011】図1に自動文書分類の概要を示す。自動文
書分類では、既に分類済みの文書集合1−1を用いて、
未分類の文書1−2を分類する。ここで、分類済み文書
集合1−1は、C={C1、C2、...}と表現され
る。各CiはカテゴリCiと分類されている文書の集合
である。よって、例えば、ある文書がカテゴリC1とカ
テゴリC3に分類されている場合、その文書は文書集合
C1、C3両方に含まれることになる。
書分類では、既に分類済みの文書集合1−1を用いて、
未分類の文書1−2を分類する。ここで、分類済み文書
集合1−1は、C={C1、C2、...}と表現され
る。各CiはカテゴリCiと分類されている文書の集合
である。よって、例えば、ある文書がカテゴリC1とカ
テゴリC3に分類されている場合、その文書は文書集合
C1、C3両方に含まれることになる。
【0012】処理機能1−3においては、「未分類の文
書dがカテゴリCiに分類される確率P(Ci|d)」
を計算する。言い替えると、「未分類の文書dが、既に
“Ci”として分類されている文書集合に含まれる確率
P(Ci|d)」を計算することになる。
書dがカテゴリCiに分類される確率P(Ci|d)」
を計算する。言い替えると、「未分類の文書dが、既に
“Ci”として分類されている文書集合に含まれる確率
P(Ci|d)」を計算することになる。
【0013】この確率P(Ci|d)を計算するため
に、本発明で提案した文書の特徴付けを用いる。具体的
には、「ある単語集合から無作意に抽出したキーワード
がwjと等しい」という事象T=wjを考える。この事
象は、全ての単語に関し背反であるため、各事象につい
てP(Ci|d)を条件付けると、 P(Ci|d) = sum_{j} [P(Ci|T=wj)*P(T=wj|d)] (sum_{j}は全てのjに対する総和) (5) となる。ここで、ベイズの定理を用いてP(Ci|T=
wj)を書きかえると、 P(C|d) = P(C) * sum_{j} [P(T=wj|C)*P(T=wj|d)/P(T=wj)] (6) となる。(6)式の sum_{j} [P(T=wj|C)*P(T=wj|d)] は、文書dとカテゴリCiを単語集合で同時に特徴付け
たことに相当している。
に、本発明で提案した文書の特徴付けを用いる。具体的
には、「ある単語集合から無作意に抽出したキーワード
がwjと等しい」という事象T=wjを考える。この事
象は、全ての単語に関し背反であるため、各事象につい
てP(Ci|d)を条件付けると、 P(Ci|d) = sum_{j} [P(Ci|T=wj)*P(T=wj|d)] (sum_{j}は全てのjに対する総和) (5) となる。ここで、ベイズの定理を用いてP(Ci|T=
wj)を書きかえると、 P(C|d) = P(C) * sum_{j} [P(T=wj|C)*P(T=wj|d)/P(T=wj)] (6) となる。(6)式の sum_{j} [P(T=wj|C)*P(T=wj|d)] は、文書dとカテゴリCiを単語集合で同時に特徴付け
たことに相当している。
【0014】各確率は以下の方法で推定できる。
【0015】P(T=wj|Ci)=「Ciに含まれる
単語wjの数/Ciに含まれる単語数」 P(T=wj|d)=「dに含まれる単語wjの数/d
に含まれる単語数」 P(T=wj)=「全文書に含まれる単語wiの数/全
文書に含まれる単語数」 P(Ci)=「Ciに含まれる文書数/全文書数」 上記(6)式を用いると、各候補カテゴリCiについてP
(Ci|d)が計算出来る。処理機能1−4において、
計算したP(Ci|d)を降順にソートして、例えば、
上位K個のカテゴリを選択し、文書dが持つカテゴリと
する。
単語wjの数/Ciに含まれる単語数」 P(T=wj|d)=「dに含まれる単語wjの数/d
に含まれる単語数」 P(T=wj)=「全文書に含まれる単語wiの数/全
文書に含まれる単語数」 P(Ci)=「Ciに含まれる文書数/全文書数」 上記(6)式を用いると、各候補カテゴリCiについてP
(Ci|d)が計算出来る。処理機能1−4において、
計算したP(Ci|d)を降順にソートして、例えば、
上位K個のカテゴリを選択し、文書dが持つカテゴリと
する。
【0016】
【発明の効果】本発明で提案する文書の特徴付けによる
と、訓練用データの中に存在しないキーワードで特徴付
けを行っても、データの補完をすることなしに文書自動
分類が可能になる。
と、訓練用データの中に存在しないキーワードで特徴付
けを行っても、データの補完をすることなしに文書自動
分類が可能になる。
【図1】本発明の実施例の処理手順を示した図。
1−1:既に分類済みの文書集合、1−2:未分類の文
書
書
Claims (1)
- 【請求項1】訓練用データとしての分類済みの文書をも
とに新たな文書を確率的に分類する際、文書を単語の集
合として表現しておき、その集合から単語をランダムに
抽出する確率事象により文書を特徴付ける方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7215670A JPH0962693A (ja) | 1995-08-24 | 1995-08-24 | 確率モデルによる文書分類方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7215670A JPH0962693A (ja) | 1995-08-24 | 1995-08-24 | 確率モデルによる文書分類方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0962693A true JPH0962693A (ja) | 1997-03-07 |
Family
ID=16676229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP7215670A Pending JPH0962693A (ja) | 1995-08-24 | 1995-08-24 | 確率モデルによる文書分類方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0962693A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6446065B1 (en) | 1996-07-05 | 2002-09-03 | Hitachi, Ltd. | Document retrieval assisting method and system for the same and document retrieval service using the same |
US6584460B1 (en) | 1998-11-19 | 2003-06-24 | Hitachi, Ltd. | Method of searching documents and a service for searching documents |
US7047255B2 (en) | 2002-05-27 | 2006-05-16 | Hitachi, Ltd. | Document information display system and method, and document search method |
US8046368B2 (en) | 2007-04-27 | 2011-10-25 | Hitachi, Ltd. | Document retrieval system and document retrieval method |
JP2013168177A (ja) * | 2013-05-07 | 2013-08-29 | Fujitsu Ltd | 情報提供プログラム、情報提供装置および検索サービスの提供方法 |
-
1995
- 1995-08-24 JP JP7215670A patent/JPH0962693A/ja active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6446065B1 (en) | 1996-07-05 | 2002-09-03 | Hitachi, Ltd. | Document retrieval assisting method and system for the same and document retrieval service using the same |
US6457004B1 (en) | 1997-07-03 | 2002-09-24 | Hitachi, Ltd. | Document retrieval assisting method, system and service using closely displayed areas for titles and topics |
US6654738B2 (en) | 1997-07-03 | 2003-11-25 | Hitachi, Ltd. | Computer program embodied on a computer-readable medium for a document retrieval service that retrieves documents with a retrieval service agent computer |
US6745183B2 (en) | 1997-07-03 | 2004-06-01 | Hitachi, Ltd. | Document retrieval assisting method and system for the same and document retrieval service using the same |
US6584460B1 (en) | 1998-11-19 | 2003-06-24 | Hitachi, Ltd. | Method of searching documents and a service for searching documents |
US7693910B2 (en) | 1998-11-19 | 2010-04-06 | Hitachi, Ltd. | Method of searching documents and a service for searching documents |
US7047255B2 (en) | 2002-05-27 | 2006-05-16 | Hitachi, Ltd. | Document information display system and method, and document search method |
US8046368B2 (en) | 2007-04-27 | 2011-10-25 | Hitachi, Ltd. | Document retrieval system and document retrieval method |
JP2013168177A (ja) * | 2013-05-07 | 2013-08-29 | Fujitsu Ltd | 情報提供プログラム、情報提供装置および検索サービスの提供方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110825876B (zh) | 电影评论观点情感倾向性分析方法 | |
Lewis et al. | Heterogeneous uncertainty sampling for supervised learning | |
CN106407420B (zh) | 一种多媒体资源的推荐方法及系统 | |
CN110232112B (zh) | 文章中关键词提取方法及装置 | |
JP3682529B2 (ja) | 要約自動評価処理装置、要約自動評価処理プログラム、および要約自動評価処理方法 | |
CN108052625B (zh) | 一种实体精细分类方法 | |
CN106294466A (zh) | 分类模型构建方法、分类模型构建设备和分类方法 | |
CN106156163B (zh) | 文本分类方法以及装置 | |
CN107436916B (zh) | 智能提示答案的方法及装置 | |
JP2012221316A (ja) | 文書トピック抽出装置及び方法及びプログラム | |
JP2008123111A (ja) | 文書類似性導出装置及びそれを用いた回答支援システム | |
KR20010113779A (ko) | 유전자 알고리즘들을 사용한 멀티 특징 조합 생성 및 분류유효성 평가 | |
JP5692074B2 (ja) | 情報分類装置、情報分類方法、及びプログラム | |
JP2010061176A (ja) | テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム | |
JPH0962693A (ja) | 確率モデルによる文書分類方法 | |
CN113743079A (zh) | 一种基于共现实体交互图的文本相似度计算方法及装置 | |
JP2016218512A (ja) | 情報処理装置及び情報処理プログラム | |
JP2021009538A (ja) | 自然言語処理装置および自然言語処理プログラム | |
JPH0736897A (ja) | 文書分類装置 | |
JP2001312501A (ja) | 文書自動分類システム、文書自動分類方法、及び文書自動分類プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2004234051A (ja) | 文章分類装置およびその方法 | |
JPH08221429A (ja) | 文書自動分類装置 | |
JP4423385B2 (ja) | 文書分類支援装置およびコンピュータプログラム | |
CN110941638A (zh) | 应用分类规则库构建方法、应用分类方法及装置 | |
US20050060308A1 (en) | System, method, and recording medium for coarse-to-fine descriptor propagation, mapping and/or classification |