JPH0962693A - 確率モデルによる文書分類方法 - Google Patents

確率モデルによる文書分類方法

Info

Publication number
JPH0962693A
JPH0962693A JP7215670A JP21567095A JPH0962693A JP H0962693 A JPH0962693 A JP H0962693A JP 7215670 A JP7215670 A JP 7215670A JP 21567095 A JP21567095 A JP 21567095A JP H0962693 A JPH0962693 A JP H0962693A
Authority
JP
Japan
Prior art keywords
document
classified
probability
word
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7215670A
Other languages
English (en)
Inventor
Makoto Iwayama
真 岩山
Hiroshi Motoda
浩 元田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP7215670A priority Critical patent/JPH0962693A/ja
Publication of JPH0962693A publication Critical patent/JPH0962693A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 分類済みの文書集合(訓練用データ)をもと
に新たな文書を分類する際、訓練用データが不十分な場
合でもデータ補完を行うことなしに文書分類が可能にな
る文書の確率的特徴付けの方法とそれに基づく文書分類
の方法の提供。 【構成】 特徴付けの対象となる文書集合Cは、それが
含む単語の集合Wで表現される。ここで、単語集合Wか
ら単語を無作為抽出する事象を考え、無作為抽出した単
語がある特定の単語wiと等しいという事象をT=wi
とおき、確率P(T=wi|C)を推定する。事象T=
wiは全てのwiに関して背反であるため、Wに含まれ
る全ての単語wiに対して確率P(T=wi|C)を推
定し、それらを総和した確率は、文書集合Cを単語集合
Wで特徴付けたことになる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、大量の文書を確率的に
分類する手法に係わるものであり、従来は人手で行って
いた文書分類を自動的に行う仕組みを与えるものであ
る。
【0002】
【従来の技術】確率的に文書分類を行うためには、文書
をいかに特徴付けるかが問題になる。従来の手法は、
「文書がある単語(キーワード)でインデックスされる
/されない(文書にある単語が含まれる/含まれな
い)」という基本事象により文書の特徴付けを行ってい
た。例えば、文書の集合Cを単語wで特徴付けることを
考えると、「文書集合Cの中からランダムに抽出した文
書が単語wでインデックスされる確率」をP(w=1|
C)と書き、この確率により文書集合Cの特徴付けを行
っていた。ここで、P(w=1|C)はCの中のk個の
文書が単語wを含んでいる場合、「k/(Cに含まれる
文書数)」で推定できる。複数の単語集合W={w1、
w2、...、wm}で文書集合Cを特徴付けるには、 P(w1=1|C)*P(w2=1|C)*...*P(wm=1|C) (1) を計算すればよい。
【0003】文書分類では、分類に先だって分類済みの
文書があらかじめ訓練用データとして与えられている。
今、文書集合Cとして、訓練用データの中で同じカテゴ
リcに分類されている文書集合を設定すれば、前記(1)
式の確率はカテゴリcを特徴付けることに相当し、この
特徴付けを用いて新たな文書を分類することが可能にな
る。この際、これから分類しようとする文書dも同じく
単語で特徴付けるのだが、これは前記(1)式においてC
={d}とした場合に相当する。
【0004】
【発明が解決しようとする課題】上記従来技術の問題点
は、もしCの中の文書どれもがある単語wiを持ってい
なければP(wi=1|C)が0になるため(1)の確率
全体も0になってしまうことである。このような単語は
文書の特徴付けとして使わないのが望ましいが、事前に
単語wiを特定することは難しい。そこで従来技術で
は、データ補完(スムージング)の手法によりP(wi
=1|C)が0にならないような補正を行う。ところ
が、補完の正当性を保証することは一般に困難である。
【0005】本発明の目的は、上記の状況において、文
書集合Cを特徴付ける全体の確率が上記のような単語w
iに影響されないような頑強な文書特徴付けの確率的方
法を提供することである。
【0006】
【課題を解決するための手段】上記目的は、文書を単語
の集合で表現し、単語集合からある単語をランダムに抽
出するという確率事象で文書を特徴付けることで達成さ
れる。
【0007】
【作用】文書集合C={d1、d2、...、dn}を
単語集合W={w1、w2、...wm}で特徴付ける
ことを考える。ここで、Cの各文書diは文書diに含
まれるキーワードの集合で表現されている。例えば、文
書diが単語w1を1個、w5を3個、w8を2個含ん
でいれば、 di = {w1、 w5、 w5、 w5、 w8、 w8} (2) となる。Cの表現形式は、Cに含まれる各々の文書表現
形式(つまり上記の各集合di)の和集合となる。
【0008】C = d1 v d2 v ... v dn (“v”は和集合の演算子) (3) ここで、単語集合からある単語を無作為抽出する事象を
考え、無作為抽出した単語がwiと等しいという事象を
T=wiとおく。この事象は全てのwiに関して背反で
あるため、各事象に対して総和した確率、 P(T=w1|C)+P(T=w2|C)+...+P(T=wm|C) (4) は、文書集合Cを単語集合Wで特徴付けたことに相当す
る。P(T=wi|C)は、Cにwiがk個含まれてい
る場合、「k/(Cに含まれる単語数)]で推定でき
る。(4)式において、全体の確率が各単語に関する確率
の和の形になっていることに注意されたい。
【0009】従来の確率(1)は積の形になっている。よ
って、Cのどの文書も単語wiを持っていない場合を考
えると、P(T=wi|C)は0になるが、和形式とし
たことにより全体の確率(4)も0になってしまうことは
ない。従来の確率(1)では積形のため全体の確率が0に
なってしまうことが問題であった。
【0010】
【実施例】以下、本発明の実施例である自動文書分類に
ついて説明する。
【0011】図1に自動文書分類の概要を示す。自動文
書分類では、既に分類済みの文書集合1−1を用いて、
未分類の文書1−2を分類する。ここで、分類済み文書
集合1−1は、C={C1、C2、...}と表現され
る。各CiはカテゴリCiと分類されている文書の集合
である。よって、例えば、ある文書がカテゴリC1とカ
テゴリC3に分類されている場合、その文書は文書集合
C1、C3両方に含まれることになる。
【0012】処理機能1−3においては、「未分類の文
書dがカテゴリCiに分類される確率P(Ci|d)」
を計算する。言い替えると、「未分類の文書dが、既に
“Ci”として分類されている文書集合に含まれる確率
P(Ci|d)」を計算することになる。
【0013】この確率P(Ci|d)を計算するため
に、本発明で提案した文書の特徴付けを用いる。具体的
には、「ある単語集合から無作意に抽出したキーワード
がwjと等しい」という事象T=wjを考える。この事
象は、全ての単語に関し背反であるため、各事象につい
てP(Ci|d)を条件付けると、 P(Ci|d) = sum_{j} [P(Ci|T=wj)*P(T=wj|d)] (sum_{j}は全てのjに対する総和) (5) となる。ここで、ベイズの定理を用いてP(Ci|T=
wj)を書きかえると、 P(C|d) = P(C) * sum_{j} [P(T=wj|C)*P(T=wj|d)/P(T=wj)] (6) となる。(6)式の sum_{j} [P(T=wj|C)*P(T=wj|d)] は、文書dとカテゴリCiを単語集合で同時に特徴付け
たことに相当している。
【0014】各確率は以下の方法で推定できる。
【0015】P(T=wj|Ci)=「Ciに含まれる
単語wjの数/Ciに含まれる単語数」 P(T=wj|d)=「dに含まれる単語wjの数/d
に含まれる単語数」 P(T=wj)=「全文書に含まれる単語wiの数/全
文書に含まれる単語数」 P(Ci)=「Ciに含まれる文書数/全文書数」 上記(6)式を用いると、各候補カテゴリCiについてP
(Ci|d)が計算出来る。処理機能1−4において、
計算したP(Ci|d)を降順にソートして、例えば、
上位K個のカテゴリを選択し、文書dが持つカテゴリと
する。
【0016】
【発明の効果】本発明で提案する文書の特徴付けによる
と、訓練用データの中に存在しないキーワードで特徴付
けを行っても、データの補完をすることなしに文書自動
分類が可能になる。
【図面の簡単な説明】
【図1】本発明の実施例の処理手順を示した図。
【符号の説明】
1−1:既に分類済みの文書集合、1−2:未分類の文

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】訓練用データとしての分類済みの文書をも
    とに新たな文書を確率的に分類する際、文書を単語の集
    合として表現しておき、その集合から単語をランダムに
    抽出する確率事象により文書を特徴付ける方法。
JP7215670A 1995-08-24 1995-08-24 確率モデルによる文書分類方法 Pending JPH0962693A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7215670A JPH0962693A (ja) 1995-08-24 1995-08-24 確率モデルによる文書分類方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7215670A JPH0962693A (ja) 1995-08-24 1995-08-24 確率モデルによる文書分類方法

Publications (1)

Publication Number Publication Date
JPH0962693A true JPH0962693A (ja) 1997-03-07

Family

ID=16676229

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7215670A Pending JPH0962693A (ja) 1995-08-24 1995-08-24 確率モデルによる文書分類方法

Country Status (1)

Country Link
JP (1) JPH0962693A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6446065B1 (en) 1996-07-05 2002-09-03 Hitachi, Ltd. Document retrieval assisting method and system for the same and document retrieval service using the same
US6584460B1 (en) 1998-11-19 2003-06-24 Hitachi, Ltd. Method of searching documents and a service for searching documents
US7047255B2 (en) 2002-05-27 2006-05-16 Hitachi, Ltd. Document information display system and method, and document search method
US8046368B2 (en) 2007-04-27 2011-10-25 Hitachi, Ltd. Document retrieval system and document retrieval method
JP2013168177A (ja) * 2013-05-07 2013-08-29 Fujitsu Ltd 情報提供プログラム、情報提供装置および検索サービスの提供方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6446065B1 (en) 1996-07-05 2002-09-03 Hitachi, Ltd. Document retrieval assisting method and system for the same and document retrieval service using the same
US6457004B1 (en) 1997-07-03 2002-09-24 Hitachi, Ltd. Document retrieval assisting method, system and service using closely displayed areas for titles and topics
US6654738B2 (en) 1997-07-03 2003-11-25 Hitachi, Ltd. Computer program embodied on a computer-readable medium for a document retrieval service that retrieves documents with a retrieval service agent computer
US6745183B2 (en) 1997-07-03 2004-06-01 Hitachi, Ltd. Document retrieval assisting method and system for the same and document retrieval service using the same
US6584460B1 (en) 1998-11-19 2003-06-24 Hitachi, Ltd. Method of searching documents and a service for searching documents
US7693910B2 (en) 1998-11-19 2010-04-06 Hitachi, Ltd. Method of searching documents and a service for searching documents
US7047255B2 (en) 2002-05-27 2006-05-16 Hitachi, Ltd. Document information display system and method, and document search method
US8046368B2 (en) 2007-04-27 2011-10-25 Hitachi, Ltd. Document retrieval system and document retrieval method
JP2013168177A (ja) * 2013-05-07 2013-08-29 Fujitsu Ltd 情報提供プログラム、情報提供装置および検索サービスの提供方法

Similar Documents

Publication Publication Date Title
CN110825876B (zh) 电影评论观点情感倾向性分析方法
Lewis et al. Heterogeneous uncertainty sampling for supervised learning
CN106407420B (zh) 一种多媒体资源的推荐方法及系统
CN110232112B (zh) 文章中关键词提取方法及装置
JP3682529B2 (ja) 要約自動評価処理装置、要約自動評価処理プログラム、および要約自動評価処理方法
CN108052625B (zh) 一种实体精细分类方法
CN106294466A (zh) 分类模型构建方法、分类模型构建设备和分类方法
CN106156163B (zh) 文本分类方法以及装置
CN107436916B (zh) 智能提示答案的方法及装置
JP2012221316A (ja) 文書トピック抽出装置及び方法及びプログラム
JP2008123111A (ja) 文書類似性導出装置及びそれを用いた回答支援システム
KR20010113779A (ko) 유전자 알고리즘들을 사용한 멀티 특징 조합 생성 및 분류유효성 평가
JP5692074B2 (ja) 情報分類装置、情報分類方法、及びプログラム
JP2010061176A (ja) テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム
JPH0962693A (ja) 確率モデルによる文書分類方法
CN113743079A (zh) 一种基于共现实体交互图的文本相似度计算方法及装置
JP2016218512A (ja) 情報処理装置及び情報処理プログラム
JP2021009538A (ja) 自然言語処理装置および自然言語処理プログラム
JPH0736897A (ja) 文書分類装置
JP2001312501A (ja) 文書自動分類システム、文書自動分類方法、及び文書自動分類プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004234051A (ja) 文章分類装置およびその方法
JPH08221429A (ja) 文書自動分類装置
JP4423385B2 (ja) 文書分類支援装置およびコンピュータプログラム
CN110941638A (zh) 应用分类规则库构建方法、应用分类方法及装置
US20050060308A1 (en) System, method, and recording medium for coarse-to-fine descriptor propagation, mapping and/or classification