JP5398811B2 - 文書分類装置及び方法及びプログラム - Google Patents

文書分類装置及び方法及びプログラム Download PDF

Info

Publication number
JP5398811B2
JP5398811B2 JP2011254230A JP2011254230A JP5398811B2 JP 5398811 B2 JP5398811 B2 JP 5398811B2 JP 2011254230 A JP2011254230 A JP 2011254230A JP 2011254230 A JP2011254230 A JP 2011254230A JP 5398811 B2 JP5398811 B2 JP 5398811B2
Authority
JP
Japan
Prior art keywords
word
probability
class
document
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011254230A
Other languages
English (en)
Other versions
JP2013109584A (ja
Inventor
京介 西田
考 藤村
高秀 星出
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011254230A priority Critical patent/JP5398811B2/ja
Publication of JP2013109584A publication Critical patent/JP2013109584A/ja
Application granted granted Critical
Publication of JP5398811B2 publication Critical patent/JP5398811B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書分類装置及び方法及びプログラムに係り、特に、各クラスの出現分布や、各クラスに出現する単語の傾向が時間と共に強く変化する際に、長期的な単語の出現確率と、短期的な単語の出現確率を適切に使い分けて利用するもので、Twitter(登録商標)などの連続的に与えられる文書や、Q&Aコミュニティなど各クラスの出現分布が時間と共に大きく変化するメディアの文書について、高精度なクラス分類を実現するための文書分類装置及び方法及びプログラムに関する。
文書分類学習アルゴリズムとして、多項モデルナイーブベイズ分類器は、逐次更新の容易さと高い分類性能から、広く利用されている(例えば、非特許文献1参照)。
ここで、学習・分類対象の文書の傾向が時間と共に大きく変化する際には、学習データに対して移動窓を適用し、最近のNサンプルの情報に絞って分類器を構築することが基本である(例えば、非特許文献2参照)。
A. McCallum, K. Nigam, "A Comparison of Event Models for Naive Bayes Text Classification", 1998. G. Widmer and M. Kubat, "Learning in the Presence of Concept Drift and Hidden Contexts, 1996.
しかしながら、上記非特許文献2に代表される技術では、Nサンプルの値を小さくすると変化に素早く対応出来るようになるが、小さくしすぎると十分な学習データが確保できなくなる。また、Nの値を大きくすると、学習対象が安定期においては高い分類性能を実現できるが、変化への適応は遅くなってしまう。
ここで、文書分類においては、単語ごとに時間的依存度は異なると考えられる。つまり、分類する時点によってクラスごとの単語出現確率が全く異なるような単語と、そうでない単語が存在するが、従来の移動窓の考え方では、全ての単語が同様に扱われてしまう問題がある。特にTwitter(登録商標)などのマイクロブログにおいては、数秒の間に出現する単語が大きく変わるような場合も多々存在するので、単語ごとに出現確率の推定が短期傾向に基づくべきか、長期傾向に基づくべきかを判断する技術が求められている。
上記のように、現在は、変化への適応の早さと、安定して高精度な分類を同時に実現する技術は存在しない。
本発明は、上記従来技術の問題点に鑑みて、単語ごとに変化傾向を推定することで、短い移動窓のメリットと、長い移動窓のメリットを単語レベルで同時に実現し、単語の出現傾向の変化に高速に追従可能で、かつ安定して高い分類性能を持つ文書分類装置及び方法及びプログラムを提供することを目的とする。
上記の課題を解決するため、本発明(請求項1)は、連続的に与えられる入力文書を1つ以上のクラスに分類する文書分類装置であって、
前記入力文書を単語の集合に分割する単語分割手段と、
前記入力文書が属するクラスを基に、指数加重移動平均により各クラスの出現確率を示す事前確率を求めるクラス事前確率推定手段と、
前記各クラスの事前確率に基づいて、前記入力文書に含まれる各単語の出現に関する単語出現情報を記憶する単語出現情報記憶手段と、
前記入力文書に含まれる各単語の各クラスにおける長期的な出現確率である単語長期出現確率を求める単語長期出現確率推定手段と、
前記単語出現情報記憶手段の前記単語出現情報を用いて前記入力文書に含まれる各単語の各クラスにおける短期的な出現確率である単語短期出現確率を求める単語短期出現確率推定手段と、
前記入力文書に含まれる各単語について、該単語の前記単語長期出現確率と前記単語短期出現確率を基に、該単語がトレンド単語であるか否かを判定するトレンド単語判定手段と、
前記トレンド単語判定手段の判定結果に基づいて、前記入力文書が各クラスに属する確率である事後確率を計算するクラス事後確率推定手段と、
前記入力文書を1つ以上のクラスに分類する文書分類手段と、を有する。
本発明(請求項2)は、前記単語短期出現確率推定手段において、
前記入力文書に含まれる各単語について、各クラスにおける該単語の出現率に関する指数加重移動平均を前記単語短期出現確率とする。
また、本発明(請求項3)は、前記トレンド単語判定手段において、
前記入力文書に含まれる各単語について、該単語の前記単語短期出現確率が、前記単語長期出現確率よりも統計的有意に大きいときに、該単語をトレンド単語と判定する。
また、本発明(請求項4)は、前記クラス事後確率推定手段において、
前記入力文書に含まれる各単語について、該単語が前記トレンド単語である場合は前記単語短期出現確率を利用し、該単語が前記トレンド単語でない場合は前記単語長期出現確率を利用する。
本発明によれば、入力文書に含まれる各単語が、分類時においてどのクラスと強い関連を示すかについて、単語の短期的な出現確率を推定し、この短期的な出現確率が長期的な出現確率と比較して有意に高い状況であれば、短期的な出現確率に基づいて分類を行うので、単語の出現傾向の変化に高速に追従可能で、かつ安定して高い分類性能が実現できる。
本発明の一実施の形態における文書分類装置の構成図である。 本発明の一実施の形態における学習動作のフローチャートである。 本発明の一実施の形態における単語出現位置の記憶例である。 本発明の一実施の形態における分類動作のフローチャートである。 本発明の一実施の形態におけるトレンド単語判定例である。 本発明の一実施の形態における文書分類例(Q&Aコミュニティにおける新旧OSの2クラス分類)である。
以下図面と共に、本発明の実施の形態を説明する。
図1は、本発明の一実施の形態における文書分類装置の構成を示す。
同図に示す文書分類装置は、単語分割部1とクラス事前確率推定部2と単語出現情報格納部3と単語出現情報記憶部4と単語長期出現確率推定部5と単語短期出現確率推定部6と単語トレンド状態判定部7とクラス事後確率推定部8と文書分類部9から構成され、入力文書の学習と分類を逐次的に行う。
最初に文書分類装置における学習動作(事前処理)について説明する。
図2は、本発明の一実施の形態における文書分類装置の学習動作フローチャートである。
ステップ101)単語分割部1は、入力文書を単語集合に分割する。このとき、形態素解析器を用いて名詞・動詞・形容詞の単語のみを抽出し前記単語集合とする。また、他品詞の単語を前記単語集合に加えてもよい。さらに、形態素解析を実施する代わりに、入力文書に含まれる全ての文字Nグラム(連続するN文字)を前記単語集合としても良い。
ステップ102)クラス事前確率推定部2は、入力文書が属するクラスをc'としたとき、メモリ(図示せず)の各クラスcの文書の出現確率である[0]事前確率p(c)を以下の様に更新する。
Figure 0005398811
ここで、I(c=c')は、c=c'のとき1を、c≠c'の時に0を返す関数である。このとき、p(c)は最近のデータに強い重みを与えた指数加重移動平均による推定となるため、新しく与えられた文書dを分類するとき、最近出現した文書のうち、高頻度で出現するクラスに強い重みを与えた分類が可能となる。この推定手法によって、過去に大量に出現したが、現在ではほとんど出現しないクラス(例えば、Q&Aコミュニティにおける古いコンピュータOSに関する質問クラスなど)が分類に与える悪影響を低減できる。減衰定数λの値には0.01などを用いる。
ステップ103)単語出現情報格納部2は、クラスc'に属する入力文書に含まれる各単語wについて、クラスc'の文書を仮想的に全て連結したときの、単語の出現位置の集合である出現位置集合nc'(w)を単語出現情報記憶部3に記憶する。図3に、各単語の出現位置の記憶例を示す。また、文献1(P. Ferragina and J. Fischer, "Suffix arrays on words", In CPM, pp. 328-339, 2007.)にて公知のSuffix Arrays on Wordsを用いて記憶しても良い。
次に、文書分類装置における分類動作について説明する。
図4は、本発明の一実施の形態における文書分類装置の分類動作フローチャートである。
ステップ201)単語分割部1は、入力文書を単語集合に分割する。このとき、形態素解析器を用いて名詞・動詞・形容詞の単語のみを抽出し前記単語集合とする。また、他品詞の単語を前記単語集合に加えてもよい。さらに、形態素解析を実施する代わりに、入力文書に含まれる全ての文字Nグラム(連続するN文字)を前記単語集合としても良い。
ステップ202)単語長期出現確率推定部5は、入力文書に含まれる各単語wの各クラスcにおける長期出現確率pL(w|c)を以下の通り算出する。
Figure 0005398811
ここで、fc(w)はこれまでに与えられた全てのクラスcの文書中での単語wの出現回数、Ncはこれまでに与えられた全てのクラスcの文書中における総延べ出現単語数、Vは予めメモリに格納されている、これまでに与えられた全ての文書中における出現単語種類数である。αはスムージングパラメータで、値としては0.001などを指定する。上記の様に、過去に与えられた大量のデータからクラスcにおける単語の出現確率の推定し、これを単語長期出現確率とすることで、大量のデータに基づいた確率推定が可能となる。
ステップ203)単語短期出現確率推定部5は、入力文書に含まれる各単語wの各クラスcにおける短期出現確率ps (w|c)を以下の通り算出する。
Figure 0005398811
ここで、減衰定数γの値には0.01などを用いる。nc(w)は単語出現情報記憶部4から取得した出現位置集合である。上記の様に、最近出現した単語(式(3)の単語位置nが、Ncに近い)に大きな重みが与えられる指数移動加重平均を利用することで、短期的な単語の出現確率が推定できる。特に、新しく出現した単語や、急激に出現頻度が増えた単語について、単語長期出現確率は、真の出現確率よりも低い確率を見積もりがちであるが、上記単語短期出現確率推定では真の出現確率により近い確率を推定できる。
ステップ204)トレンド単語判定部6は、入力文書に含まれる各単語wが各クラスcにおいて、以下の条件を満たすときトレンド単語である(t(w)=1)と判定し、条件を満たさないとき、トレンド単語でない(t(w)=0)とする。
Figure 0005398811
ここで、Aの値には3.0などが用いられる。 上記式は、統計的プロセス制御の一つであるEWMAチャート(文献2:Somerville SE, Montgomery DC, Runger GC: Filtering and smoothing methods for mixed particle count distributions. International Journal of Product Research 2002; 40(13):2991-3013.)を各単語の出現に適用したものに相当し、最近の単語の出現が、統計的に過去の単語の出現確率よりも有意に高い場合に上記式を満たす。図5にトレンド単語の検出例を示す。長期的な単語の出現確率であるpL(w|c)は過去の学習量が多いほど推定値に変化が生じにくくなるが、短期的な単語の出現確率であるpS(w|c)は過去の学習量には依存しないので、変化に対して推定値が敏感に変わり、分類時の状況に適合する確率推定が実現できる。
ステップ205)クラス事後確率推定部7は、上記のトレンド単語判定部6において、トレンド単語であれば単語短期出現確率ps(w|c)を、トレンド単語でなければ単語長期出現確率pL(w|c)を利用して入力文書dのクラスcの確率(事後確率p(c|d)を求める。具体的には、入力文書dがクラスcに属する確率である各クラス事後確率p(c|d)を、ベイズの定理に基づき、以下の式により算出する。
Figure 0005398811
なお、p(c)はステップ102で求められメモリ(図示せず)に格納されている事前確率である。
ステップ206)文書分類部8は、各クラス事後確率p(c|d)の値が最大のクラスを出力する。また、p(c|d)の値が上位Nクラスを出力するとしてもよい。また、
Figure 0005398811
の値が、閾値θ以上であるクラスを複数個出力する、としてもよい。
図6に文書分類例として、Q&Aコミュニティにおける古いオペレーティングシステム(OS)を扱う文書クラス0と新しいOSを扱う文書クラス1の文書分類の例を示す。
まず、全学習文書に関してはクラス0の方がクラス1よりも文書数が多く、全学習文書からクラス事前確率を計算すると、最近の入力文書にはほとんど出現しないクラス0に強いバイアスを与えてしまうが、本手法ではクラス事前確率を逐次的に指数加重移動平均により導出するので、最近の入力文書に多く現れるクラス1に強いバイアスを与えることができる。
続いて、図6の例では、「圧縮」という単語が、クラス1において高頻度で出現している。全学習文書においては、この単語はクラス0において出現率が高いが、最近の入力文書に絞って考えれば、この単語は入力文書がクラス1であることを示す重要な指標となる。本手法では、単語が各クラスにおけるトレンド単語であるか否かを判定して、単語の短期的な出現確率と長期的な出現確率を適切に切替えて使用するので、文書傾向の変化と、安定して高い分類精度を同時に実現することができる。
本発明は、どのような文書に対しても適用可能であるが、特に、Twitter(登録商標)などのリアルタイム性の高い文書や、Q&Aコミュニティの様に文書のクラス事前分布に時間的な影響が強い文書の分類に対して特に有効である。
また、本発明は、図1に示す文書分類装置の構成要素の動作をプログラムとして構築し、マイクロブログ文書分類装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
また、構築されたプログラムをハードディスクやフレキシブルディスク、CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
1 単語分割部
2 クラス事前確率推定部
3 単語出現情報記憶部
4 単語長期出現確率推定部
5 単語短期出現確率推定部
6 トレンド単語判定部
7 クラス事後確率推定部
8 文書分類部

Claims (9)

  1. 連続的に与えられる入力文書を1つ以上のクラスに分類する文書分類装置であって、
    前記入力文書を単語の集合に分割する単語分割手段と、
    前記入力文書が属するクラスを基に、指数加重移動平均により各クラスの重要度を示す事前確率を求めるクラス事前確率推定手段と、
    前記各クラスの事前確率に基づいて、前記入力文書に含まれる各単語の出現に関する単語出現情報を記憶する単語出現情報記憶手段と、
    前記入力文書に含まれる各単語の各クラスにおける長期的な出現確率である単語長期出現確率を求める単語長期出現確率推定手段と、
    前記単語出現情報記憶手段の前記単語出現情報を用いて前記入力文書に含まれる各単語の各クラスにおける短期的な出現確率である単語短期出現確率を求める単語短期出現確率推定手段と、
    前記入力文書に含まれる各単語について、該単語の前記単語長期出現確率と前記単語短期出現確率を基に、該単語がトレンド単語であるか否かを判定するトレンド単語判定手段と、
    前記トレンド単語判定手段の判定結果に基づいて、前記入力文書が各クラスに属する確率である事後確率を計算するクラス事後確率推定手段と、
    前記入力文書を1つ以上のクラスに分類する文書分類手段と、
    を有することを特徴とする文書分類装置。
  2. 前記単語短期出現確率推定手段は、
    前記入力文書に含まれる各単語について、各クラスにおける該単語の出現率に関する指数加重移動平均を前記単語短期出現確率とする、
    請求項1記載の文書分類装置。
  3. 前記トレンド単語判定手段は、
    前記入力文書に含まれる各単語について、該単語の前記単語短期出現確率が、前記単語長期出現確率よりも統計的有意に大きいときに、該単語をトレンド単語と判定する、
    請求項1記載の文書分類装置。
  4. 前記クラス事後確率推定手段は、
    前記入力文書に含まれる各単語について、該単語が前記トレンド単語である場合は前記単語短期出現確率を利用し、該単語が前記トレンド単語でない場合は前記単語長期出現確率を利用する、
    請求項1記載の文書分類装置。
  5. 連続的に与えられる入力文書を1つ以上のクラスに分類する文書分類方法であって、
    単語分割手段が、前記入力文書を単語の集合に分割する単語分割ステップと、
    事前確率推定手段が、前記入力文書が属するクラスを基に、指数加重移動平均により各クラスの出現確率を示す事前確率を求めるクラス事前確率推定ステップと、
    単語出現情報格納手段が、前記各クラスの事前確率に基づいて、前記入力文書に含まれる各単語の出現に関する単語出現情報を単語出現情報記憶手段に記憶する単語出現情報格納ステップと、
    単語長期出現確率推定手段が、前記入力文書に含まれる各単語の各クラスにおける長期的な出現確率である単語長期出現確率を求める単語長期出現確率推定ステップと、
    単語短期出現確率推定手段が、前記単語出現情報記憶手段の前記単語出現情報を用いて前記入力文書に含まれる各単語の各クラスにおける短期的な出現確率である単語短期出現確率を求める単語短期出現確率推定ステップと、
    トレンド単語判定手段が、前記入力文書に含まれる各単語について、該単語の前記単語長期出現確率と前記単語短期出現確率を基に、該単語がトレンド単語であるか否かを判定するトレンド単語判定ステップと、
    クラス事後確率推定手段が、前記トレンド単語判定ステップの判定結果に基づいて、前記入力文書が各クラスに属する確率である事後確率を計算するクラス事後確率推定ステップと、
    文書分類手段が、前記入力文書を1つ以上のクラスに分類する文書分類ステップと、
    を有することを特徴とする文書分類方法。
  6. 前記単語短期出現確率推定ステップにおいて、
    前記入力文書に含まれる各単語について、各クラスにおける該単語の出現率に関する指数加重移動平均を前記単語短期出現確率とする、
    請求項5記載の文書分類方法。
  7. 前記トレンド単語判定ステップにおいて、
    前記入力文書に含まれる各単語について、該単語の前記単語短期出現確率が、前記単語長期出現確率よりも統計的有意に大きいときに、該単語をトレンド単語と判定する、
    請求項5記載の文書分類方法。
  8. 前記クラス事後確率推定ステップにおいて、
    前記入力文書に含まれる各単語について、該単語が前記トレンド単語である場合は前記単語短期出現確率を利用し、該単語が前記トレンド単語でない場合は前記単語長期出現確率を利用する、
    請求項5記載の文書分類方法。
  9. コンピュータを、
    請求項1乃至4のいずれか1項に記載の文書分類装置の各手段として機能させるための文書分類プログラム。
JP2011254230A 2011-11-21 2011-11-21 文書分類装置及び方法及びプログラム Active JP5398811B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011254230A JP5398811B2 (ja) 2011-11-21 2011-11-21 文書分類装置及び方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011254230A JP5398811B2 (ja) 2011-11-21 2011-11-21 文書分類装置及び方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2013109584A JP2013109584A (ja) 2013-06-06
JP5398811B2 true JP5398811B2 (ja) 2014-01-29

Family

ID=48706271

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011254230A Active JP5398811B2 (ja) 2011-11-21 2011-11-21 文書分類装置及び方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5398811B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5930229B2 (ja) 2014-03-10 2016-06-08 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 電子文書の内容の把握を支援する装置及び方法
EP3539025A4 (en) * 2016-11-10 2020-05-06 Search Technology, Inc. TECHNOLOGICAL EMERGENCY RATING AND ANALYSIS PLATFORM
CN110597991B (zh) * 2019-09-10 2021-08-17 腾讯科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100522029B1 (ko) * 2005-07-27 2005-10-18 엔에이치엔(주) 실시간 급상승 검색어 검출 방법 및 실시간 급상승 검색어검출 시스템
JP5325131B2 (ja) * 2010-01-26 2013-10-23 日本電信電話株式会社 パターン抽出装置、パターン抽出方法及びプログラム

Also Published As

Publication number Publication date
JP2013109584A (ja) 2013-06-06

Similar Documents

Publication Publication Date Title
JP6594534B2 (ja) テキスト情報処理方法およびデバイス
KR101159340B1 (ko) 지수적 모델의 적응
JP5744228B2 (ja) インターネットにおける有害情報の遮断方法と装置
JP2019535047A (ja) 主題分類器の訓練方法、装置及びコンピュータ読み取り可能な記憶媒体
US8051021B2 (en) System and method for resource adaptive classification of data streams
US10318540B1 (en) Providing an explanation of a missing fact estimate
JP6292322B2 (ja) インスタンス分類方法
JPH10187754A (ja) ドキュメント分類装置及び方法
JP2012058972A (ja) 評価予測装置、評価予測方法、及びプログラム
KR101850993B1 (ko) 클러스터 기반 키워드 산출 방법 및 장치
WO2017075980A1 (zh) 信息推送方法及装置
JP2020525872A (ja) インフルエンザ予測モデルの生成方法、装置及びコンピュータ可読記憶媒体
US10262680B2 (en) Variable sound decomposition masks
JP5398811B2 (ja) 文書分類装置及び方法及びプログラム
CN110968802B (zh) 一种用户特征的分析方法、分析装置及可读存储介质
Cocucci et al. Model error covariance estimation in particle and ensemble Kalman filters using an online expectation–maximization algorithm
JP7276483B2 (ja) 学習装置、分類装置、学習方法及び学習プログラム
JP2008102737A (ja) 蓄積文書分類装置、蓄積文書分類方法、プログラムおよび記録媒体
CN111091001A (zh) 一种词语的词向量的生成方法、装置及设备
KR20150124825A (ko) 화상분류 기반의 나이브 베이즈 분류기
WO2023113946A1 (en) Hyperparameter selection using budget-aware bayesian optimization
US11782918B2 (en) Selecting access flow path in complex queries
JP2019160240A (ja) 情報処理装置および情報処理方法
CN106294490B (zh) 数据样本的特征增强方法和装置及分类器训练方法和装置
Lei et al. Canal-LASSO: A sparse noise-resilient online linear regression model

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130927

TRDD Decision of grant or rejection written
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20131004

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131015

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131022

R150 Certificate of patent or registration of utility model

Ref document number: 5398811

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350