JP5008096B2 - 文書自動分類方法及び文書自動分類システム - Google Patents

文書自動分類方法及び文書自動分類システム Download PDF

Info

Publication number
JP5008096B2
JP5008096B2 JP2009185084A JP2009185084A JP5008096B2 JP 5008096 B2 JP5008096 B2 JP 5008096B2 JP 2009185084 A JP2009185084 A JP 2009185084A JP 2009185084 A JP2009185084 A JP 2009185084A JP 5008096 B2 JP5008096 B2 JP 5008096B2
Authority
JP
Japan
Prior art keywords
class
frequency data
classification
learning
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009185084A
Other languages
English (en)
Other versions
JP2010231755A (ja
Inventor
康成 前田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kitami Institute of Technology NUC
Original Assignee
Kitami Institute of Technology NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kitami Institute of Technology NUC filed Critical Kitami Institute of Technology NUC
Priority to JP2009185084A priority Critical patent/JP5008096B2/ja
Priority to PCT/JP2010/051917 priority patent/WO2010101005A1/ja
Publication of JP2010231755A publication Critical patent/JP2010231755A/ja
Application granted granted Critical
Publication of JP5008096B2 publication Critical patent/JP5008096B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、新規文書を既存文書が分類されているクラスのいずれかに自動的に分類する文書自動分類方法及び文書自動分類システムに関する。
例えばパソコンやワープロ等によって生成された新規文書を既存文書が分類されているクラスのいずれかに自動的に分類する方法として、本願発明者は、確率モデルを利用する文書自動分類のための1つの方法を提案している(特許文献1、非特許文献1)。
この方法では、文書のクラスの生起や文書内でのキーワードの生起に多項分布等の確率分布を仮定している。確率分布を導入すると、文書分類問題を、クラスの生起する確率分布とキーワードの生起する確率分布とを支配する真のパラメータが未知のもとで、既存文書を学習データとして利用し、新規文書をいずれかのクラスに分類する問題として定式化することができる。統計的決定理論に従って、確率分布を支配する未知パラメータについて事前分布を導入してパラメータ空間で期待値をとり、平均的に誤り率を最小化するようなクラスを分類先のクラスとして決定すると、ベイズ基準のもとで誤り率を最小にする分類が可能となる。
特許第3615451号公報
"統計的決定理論に基づく電報分類方法に関する一考察" 前田 康成、小原 永、情報処理学会論文誌、Vol.43、No.10、pp.3119−3126、Oct.2002
しかしながら、上述したごとき従来の文書自動分類技術には次のような問題点があった。まず、計算を実際に行う際には、事前分布にディレクレ分布を仮定し、ディレクレ分布のパラメータを設定しなければならないが、提案した従来技術では、事前分布のパラメータの設定について何ら規定していなかった。このため、事前情報が無いことを表現するために一様分布やジェフリーズの事前分布に従ったパラメータ設定を行うこととなり、その結果、分類の精度が学習データ量に依存してしまうことから、学習データ量が少ない場合にその分類精度が低くなってしまうという問題点があった。さらに、従来技術では、ベイズ基準のもとで最適な計算を行うべく新規文書に含まれるキーワードについて逐次的に事後分布の更新を行っているため、計算量がどうしても多くなってしまうという問題点があった。
従って本発明の目的は、学習データ量が少量の場合にも高い精度で分類が可能な文書自動分類方法及び文書自動分類システムを提供することにある。
本発明の他の目的は、学習データ量が増加時にも高い精度で分類が可能な文書自動分類方法及び文書自動分類システムを提供することにある。
本発明のさらに他の目的は、計算量が少なくて済む文書自動分類方法及び文書自動分類システムを提供することにある。
本発明によれば、事前分布推定用の文書の集合の中でクラスxに分類されている文書
の数、及び事前分布推定用の文書の集合の中のクラスxに分類されている文書の中に含
まれるキーワードkeyiの数を示す事前分布推定用頻度データが格納されている第1の記憶手段と、学習用の文書の集合の中でクラスxに分類されている文書の数、及び学習用の
文書の集合の中のクラスxの文書の中に含まれるキーワードkeyiの数を示す学習用頻度
データが格納されている第2の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えたデータ処理システムが、入力された新規文書のキーワード系列を利用して、新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類方法であって、頻度データ取得手段が、新規文書のキーワード系列が入力された際に、第1の記憶手段及び第2の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するステップと、分類クラス決定手段が、新規文書のキーワード系列と、各クラスの事前分布推定用頻度データ及び学習用頻度データとが入力された際に、新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率についてこの誤り率をベイズ基準のもとで最小にすることが保証された分類クラスを決定するステップと、分類クラス決定手段が、新規文書に対して決定した分類クラスを出力するステップとを実行する。
新規文書や学習データ(既存文書)とは情報源(出典)が異なるが性質が似ているような文書データを、学習データによる学習用データとは別に事前分布の推定用データとして利用し、間違ったクラスに分類する確率である誤り率をベイズ基準のもとで最小にすることが保証されたクラスを分類クラスとして決定することによって、学習データ量が少量の場合にも高い精度で分類が可能となる。
分類クラス決定手段が、新規文書のキーワード系列、事前分布推定用頻度データ及び学習用頻度データとが入力されると、新規文書が各クラスxに含まれると仮定した場合の
尤度λ(x)を
Figure 0005008096
から算出する尤度算出器を備えていることが好ましい。
本発明によれば、さらに、事前分布推定用の文書の集合の中でクラスxに分類されて
いる文書の数、及び事前分布推定用の文書の集合の中のクラスxに分類されている文書
の中に含まれるキーワードkeyiの数を示す事前分布推定用頻度データが格納されている第1の記憶手段と、学習用の文書の集合の中でクラスxに分類されている文書の数、及び
学習用の文書の集合の中のクラスxの文書の中に含まれるキーワードkeyiの数を示す学
習用頻度データが格納されている第2の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えたデータ処理システムが、入力された新規文書のキーワード系列を利用して、新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類方法であって、頻度データ取得手段が、新規文書のキーワード系列が入力された際に、第1の記憶手段及び第2の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するステップと、分類クラス決定手段が、新規文書のキーワード系列と、各クラスの事前分布推定用頻度データ及び学習用頻度データとが入力された際に、新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率についてこの誤り率をベイズ基準のもとで最小にする分類クラスの近似解を決定するステップと、分類クラス決定手段が、新規文書に対して決定した分類クラスを出力するステップとを実行する。
新規文書や学習データ(既存文書)とは情報源(出典)が異なるが性質が似ているような文書データを、学習データによる学習用データとは別に事前分布の推定用データとして利用し、新規文書に含まれるキーワードに関する逐次的な事後分布の更新を行わず、間違ったクラスに分類する確率である誤り率をベイズ基準のもとで最小にする近似解を分類クラスとして決定することによって、学習データ量が少量の場合にも高い精度で分類が可能であり、部分系列に関する計算量も少なくて済む。
分類クラス決定手段が、新規文書のキーワード系列、事前分布推定用頻度データ及び学習用頻度データとが入力されると、新規文書が各クラスxに含まれると仮定した場合の
尤度λ(x)を
Figure 0005008096
から算出する尤度算出器を備えていることが好ましい。
本発明によれば、さらにまた、事前分布推定用の文書の集合の中でクラスxに分類されている文書の数、及び事前分布推定用の文書の集合の中のクラスxに分類されている
文書の中に含まれるキーワードkeyiの数を示す事前分布推定用頻度データが格納されている第1の記憶手段と、学習用の文書の集合の中でクラスxに分類されている文書の数、
及び学習用の文書の集合の中のクラスxの文書の中に含まれるキーワードkeyiの数を示
す学習用頻度データが格納されている第2の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えたデータ処理システムが、入力された新規文書のキーワード系列を利用して、新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類方法であって、頻度データ取得手段が、新規文書のキーワード系列が入力された際に、第1の記憶手段及び第2の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するステップと、分類クラス決定手段が、新規文書のキーワード系列と、各クラスの事前分布推定用頻度データ及び学習用頻度データとが入力された際に、学習データ量が少量の場合は主に事前分布推定用頻度データを使用し、学習データ増加時には主に学習用頻度データ使用することにより、新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率について誤り率をベイズ基準のもとで最小にすることが保証された分類クラスを決定するステップと、分類クラス決定手段が、新規文書に対して決定した分類クラスを出力するステップとを実行する文書自動分類方法が提供される。
新規文書や学習データ(既存文書)とは情報源(出典)が異なるが性質が似ているような文書データを、学習データによる学習用データとは別に事前分布の推定用データとして利用し、間違ったクラスに分類する確率である誤り率をベイズ基準のもとで最小にすることが保証されたクラスを分類クラスとして決定することによって、学習データ量が少量の場合にも高い精度で分類が可能となる。しかも、その際に、学習データが少量の場合には主に事前分布推定用データを使用し、学習データの増加時には学習データを使用しているので、学習データ増加時にも高い精度で分類が可能であり、かつ計算量が少なくて済む。
分類クラス決定手段が、新規文書のキーワード系列、事前分布推定用頻度データ及び学習用頻度データとが入力されると、新規文書が各クラスxに含まれると仮定した場合の
尤度λ(x)を
Figure 0005008096
から算出する尤度算出器を備えていることが好ましい。
本発明によれば、さらに、事前分布推定用の文書の集合の中でクラスxに分類されて
いる文書の数、及び事前分布推定用の文書の集合の中のクラスxに分類されている文書
の中に含まれるキーワードkeyiの数を示す事前分布推定用頻度データが格納されている第1の記憶手段と、学習用の文書の集合の中でクラスxに分類されている文書の数、及び
学習用の文書の集合の中のクラスxの文書の中に含まれるキーワードkeyiの数を示す学
習用頻度データが格納されている第2の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えたデータ処理システムが、入力された新規文書のキーワード系列を利用して、新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類方法であって、頻度データ取得手段が、新規文書のキーワード系列が入力された際に、第1の記憶手段及び第2の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するステップと、分類クラス決定手段が、新規文書のキーワード系列と、各クラスの前記事前分布推定用頻度データ及び学習用頻度データとが入力された際に、学習データ量が少量の場合は主に事前分布推定用頻度データを使用し、学習データ増加時には主に学習用頻度データ使用することにより、新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率について誤り率をベイズ基準のもとで最小にする分類クラスの近似解を決定するステップと、分類クラス決定手段が、新規文書に対して決定した分類クラスを出力するステップとを実行する文書自動分類方法が提供される。
新規文書や学習データ(既存文書)とは情報源(出典)が異なるが性質が似ているような文書データを、学習データによる学習用データとは別に事前分布の推定用データとして利用し、新規文書に含まれるキーワードに関する逐次的な事後分布の更新を行わず、間違ったクラスに分類する確率である誤り率をベイズ基準のもとで最小にする近似解を分類クラスとして決定することによって、学習データ量が少量の場合にも高い精度で分類が可能であり、部分系列に関する計算量も少なくて済む。しかも、その際に、学習データが少量の場合には主に事前分布推定用データを使用し、学習データの増加時には学習データを使用しているので、学習データ増加時にも高い精度で分類が可能であり、かつ計算量が少なくて済む。
分類クラス決定手段が、新規文書のキーワード系列、事前分布推定用頻度データ及び学習用頻度データとが入力されると、新規文書が各クラスxに含まれると仮定した場合の
尤度λ(x)を
Figure 0005008096
から算出する尤度算出器を備えていることが好ましい。
分類クラス決定手段が、尤度算出器が算出した尤度λ(x)を用いて、尤度が最大とな
るクラスxを分類クラスとして決定する分類クラス決定器をさらに備えていることも好ま
しい。
第1の記憶手段に格納されている事前分布推定用頻度データが、頻度データF(x|vG)
と、頻度データ
Figure 0005008096
ことも好ましい。
第2の記憶手段に格納されている学習用頻度データが、頻度データF(x|xL)と、頻度
データ
Figure 0005008096
ことも好ましい。
本発明によれば、さらにまた、事前分布推定用の文書の集合の中でクラスxに分類さ
れている文書の数、及び事前分布推定用の文書の集合の中のクラスxに分類されている
文書の中に含まれるキーワードkeyiの数を示す事前分布推定用頻度データが格納されている第1の記憶手段と、学習用の文書の集合の中でクラスxに分類されている文書の数、
及び学習用の文書の集合の中のクラスxの文書の中に含まれるキーワードkeyiの数を示
す学習用頻度データが格納されている第2の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えており、入力された新規文書のキーワード系列を利用して、新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類システムであって、頻度データ取得手段が、新規文書のキーワード系列が入力された際に、第1の記憶手段及び第2の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するように構成されており、分類クラス決定手段が、新規文書のキーワード系列と、各クラスの事前分布推定用頻度データ及び学習用頻度データとが入力された際に、新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率についてこの誤り率をベイズ基準のもとで最小にすることが保証された分類クラスを決定すると共に、新規文書に対して決定した分類クラスを出力するように構成されている。
新規文書や学習データ(既存文書)とは情報源(出典)が異なるが性質が似ているような文書データを事前分布の推定用データとして利用することによって、学習データ量が少量の場合にも高い精度で分類が可能となる。
分類クラス決定手段が、新規文書のキーワード系列、事前分布推定用頻度データ及び学習用頻度データとが入力されると、新規文書が各クラスxに含まれると仮定した場合の
尤度λ(x)を
Figure 0005008096
から算出する尤度算出器を備えていることが好ましい。
本発明によれば、また、事前分布推定用の文書の集合の中でクラスxに分類されてい
る文書の数、及び事前分布推定用の文書の集合の中のクラスxに分類されている文書の
中に含まれるキーワードkeyiの数を示す事前分布推定用頻度データが格納されている第1の記憶手段と、学習用の文書の集合の中でクラスxに分類されている文書の数、及び学
習用の文書の集合の中のクラスxの文書の中に含まれるキーワードkeyiの数を示す学習
用頻度データが格納されている第2の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えており、入力された新規文書のキーワード系列を利用して、新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類システムであって、頻度データ取得手段が、新規文書のキーワード系列が入力された際に、第1の記憶手段及び第2の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するように構成されており、分類クラス決定手段が、新規文書のキーワード系列と、各クラスの事前分布推定用頻度データ及び学習用頻度データとが入力された際に、新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率についてこの誤り率をベイズ基準のもとで最小にする分類クラスの近似解を決定するように構成されており、分類クラス決定手段が、新規文書に対して決定した分類クラスを出力するように構成されている。
新規文書や学習データ(既存文書)とは情報源(出典)が異なるが性質が似ているような文書データを事前分布の推定用データとして利用し、新規文書に含まれるキーワードに関する逐次的な事後分布の更新を行わないことによって、学習データ量が少量の場合にも高い精度で分類が可能であり、部分系列に関する計算量も少なくて済む。
分類クラス決定手段が、新規文書のキーワード系列、事前分布推定用頻度データ及び学習用頻度データとが入力されると、新規文書が各クラスxに含まれると仮定した場合の
尤度λ(x)を
Figure 0005008096
から算出する尤度算出器を備えていることが好ましい。
本発明によれば、さらに、事前分布推定用の文書の集合の中でクラスxに分類されて
いる文書の数、及び事前分布推定用の文書の集合の中のクラスxに分類されている文書
の中に含まれるキーワードkeyiの数を示す事前分布推定用頻度データが格納されている第1の記憶手段と、学習用の文書の集合の中でクラスxに分類されている文書の数、及び学習用の文書の集合の中のクラスxの文書の中に含まれるキーワードkeyiの数を示す学
習用頻度データが格納されている第2の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えており、入力された新規文書のキーワード系列を利用して、新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類システムであって、頻度データ取得手段が、新規文書のキーワード系列が入力された際に、第1の記憶手段及び第2の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するように構成されており、分類クラス決定手段が、新規文書のキーワード系列と、各クラスの事前分布推定用頻度データ及び学習用頻度データとが入力された際に、学習データ量が少量の場合は主に事前分布推定用頻度データを使用し、学習データ増加時には主に学習用頻度データ使用することにより、新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率について誤り率をベイズ基準のもとで最小にすることが保証された分類クラスを決定すると共に、新規文書に対して決定した分類クラスを出力するように構成されている文書自動分類システムが提供される。
新規文書や学習データ(既存文書)とは情報源(出典)が異なるが性質が似ているような文書データを、学習データによる学習用データとは別に事前分布の推定用データとして利用し、間違ったクラスに分類する確率である誤り率をベイズ基準のもとで最小にすることが保証されたクラスを分類クラスとして決定することによって、学習データ量が少量の場合にも高い精度で分類が可能となる。しかも、その際に、学習データが少量の場合には主に事前分布推定用データを使用し、学習データの増加時には学習データを使用しているので、学習データ増加時にも高い精度で分類が可能であり、かつ計算量が少なくて済む。
分類クラス決定手段が、新規文書のキーワード系列、事前分布推定用頻度データ及び学習用頻度データとが入力されると、新規文書が各クラスxに含まれると仮定した場合の
尤度λ(x)を
Figure 0005008096
から算出する尤度算出器を備えていることが好ましい。
本発明によれば、さらに、事前分布推定用の文書の集合の中でクラスxに分類されて
いる文書の数、及び事前分布推定用の文書の集合の中のクラスxに分類されている文書
の中に含まれるキーワードkeyiの数を示す事前分布推定用頻度データが格納されている第1の記憶手段と、学習用の文書の集合の中でクラスxに分類されている文書の数、及び学習用の文書の集合の中のクラスxの文書の中に含まれるキーワードkeyiの数を示す学
習用頻度データが格納されている第2の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えており、入力された新規文書のキーワード系列を利用して、新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類システムであって、頻度データ取得手段が、新規文書のキーワード系列が入力された際に、第1の記憶手段及び第2の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するように構成されており、分類クラス決定手段が、新規文書のキーワード系列と、各クラスの事前分布推定用頻度データ及び学習用頻度データとが入力された際に、学習データ量が少量の場合は主に事前分布推定用頻度データを使用し、学習データ増加時には主に学習用頻度データ使用することにより、新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率について誤り率をベイズ基準のもとで最小にする分類クラスの近似解を決定するように構成されており、分類クラス決定手段が、新規文書に対して決定した分類クラスを出力するように構成されている文書自動分類システムが提供される。
新規文書や学習データ(既存文書)とは情報源(出典)が異なるが性質が似ているような文書データを、学習データによる学習用データとは別に事前分布の推定用データとして利用し、新規文書に含まれるキーワードに関する逐次的な事後分布の更新を行わず、間違ったクラスに分類する確率である誤り率をベイズ基準のもとで最小にする近似解を分類クラスとして決定することによって、学習データ量が少量の場合にも高い精度で分類が可能であり、部分系列に関する計算量も少なくて済む。しかも、その際に、学習データが少量の場合には主に事前分布推定用データを使用し、学習データの増加時には学習データを使用しているので、学習データ増加時にも高い精度で分類が可能であり、かつ計算量が少なくて済む。
分類クラス決定手段が、新規文書のキーワード系列、事前分布推定用頻度データ及び学習用頻度データとが入力されると、新規文書が各クラスxに含まれると仮定した場合の
尤度λ(x)を
Figure 0005008096
から算出する尤度算出器を備えていることが好ましい。
分類クラス決定手段が、尤度算出器が算出した尤度λ(x)を用いて、尤度が最大とな
るクラスxを分類クラスとして決定する分類クラス決定器をさらに備えていることも好ま
しい。
第1の記憶手段に格納されている事前分布推定用頻度データが、頻度データF(x|vG)
と、頻度データ
Figure 0005008096
ことも好ましい。
第2の記憶手段に格納されている学習用頻度データが、頻度データF(x|xL)と、頻度
データ
Figure 0005008096
ことも好ましい。
本発明によれば、新規文書や学習データ(既存文書)とは情報源(出典)が異なるが性質が似ているような文書データを事前分布の推定用データとして利用することによって、学習データ量が少量の場合にも高い精度で分類が可能となる。
本発明によれば、また、新規文書や学習データ(既存文書)とは情報源(出典)が異なるが性質が似ているような文書データを事前分布の推定用データとして利用し、新規文書に含まれるキーワードに関する逐次的な事後分布の更新を行わないことによって、学習データ量が少量の場合にも高い精度で分類が可能であり、計算量も少なくて済む。
本発明によれば、さらにまた、新規文書や学習データ(既存文書)とは情報源(出典)が異なるが性質が似ているような文書データを、学習データによる学習用データとは別に事前分布の推定用データとして利用し、間違ったクラスに分類する確率である誤り率をベイズ基準のもとで最小にすることが保証されたクラスを分類クラスとして決定することによって、学習データ量が少量の場合にも高い精度で分類が可能となる。しかも、その際に、学習データが少量の場合には主に事前分布推定用データを使用し、学習データの増加時には学習データを使用しているので、学習データ増加時にも高い精度で分類が可能であり、かつ計算量が少なくて済む。
本発明によれば、また、新規文書や学習データ(既存文書)とは情報源(出典)が異なるが性質が似ているような文書データを、学習データによる学習用データとは別に事前分布の推定用データとして利用し、新規文書に含まれるキーワードに関する逐次的な事後分布の更新を行わず、間違ったクラスに分類する確率である誤り率をベイズ基準のもとで最小にする近似解を分類クラスとして決定することによって、学習データ量が少量の場合にも高い精度で分類が可能であり、部分系列に関する計算量も少なくて済む。しかも、その際に、学習データが少量の場合には主に事前分布推定用データを使用し、学習データの増加時には学習データを使用しているので、学習データ増加時にも高い精度で分類が可能であり、かつ計算量が少なくて済む。
本発明における文書自動分類システムの第1の実施形態の構成を概略的に示すブロック図である。 第1の実施形態における頻度データ取得手段の動作を説明するフローチャートである。 第1の実施形態における分類クラス決定手段の動作を説明するフローチャートである。 特許文献1に記載されている本願発明者による従来技術と本発明の第1の実施形態との分類精度に関する実験結果を表すグラフである。 特許文献1に記載されている本願発明者による従来技術と本発明の第3の実施形態との分類精度に関する実験結果を表すグラフである。
本発明の文書自動分類方法を説明する前に、まず、いくつかの定義を行う。ci、ci∈C
は文書のクラスであり、Cは文書のクラスciの集合
C = {c1,c2,...,c|c|} (1)
であり、|・|は集合・の要素数を表している。keyi 、keyi∈KEYはキーワードであり、KEYはキーワードkeyiの集合
KEY = {key1,key2,...,key|KEY|} (2)
を表わしている。
p(ci|θ)は文書クラスciが生起する確率分布でパラメータθ、θ∈Θによって支配され、真のパラメータθ、θ∈Θは未知である。p(keyj|ci,ξ)は文書クラスciの文書内
でキーワードkeyjが生起する確率分布でパラメータξ、ξ∈Ξによって支配され、真のパラメータξ、ξ∈Ξは未知である。
1つの文書は1つのクラスと1以上の長さのキーワード系列の組合わせで構成される。新規に分類したい文書doc
doc=(x,y′n′) (3)
で表わされる。ただし、xは新規文書のクラス(未知)、nは新規文書に含まれるキーワードの数で、y′n′はキーワードの系列y 1y 2・・・y n′(既知)である。学習
に利用される既存文書である学習データdocLは次式で示される。
Figure 0005008096
特許文献1に記載されている本願発明者による従来の文書自動分類方法においては、分類を間違えてしまう確率である誤り率を統計的決定理論に基づいてベイズ基準のもとで最小化する分類方法を次式のように算出している。
Figure 0005008096
そこで、本発明では、新規文書や学習データ(既存文書)とは情報源(出典)が異なるが学習データや新規文書と性質が似ていると思われる文書データを事前分布の推定用データとして利用している。学習データや新規文書と出典の異なる事前分布の推定用データは、次の(10)式で表わされる。
Figure 0005008096
本発明においても、従来の文書自動分類方法と同様に(7)式による文書分類方法を利用する。積分計算についても、(8)式及び(9)式を使用する。ただし、ディレクレ分布のパラメータである。
Figure 0005008096
図1は本発明における文書自動分類システムの第1の実施形態の構成を概略的に示すブロック図である。
この文書自動分類システムは、基本的には、入出力装置、中央演算装置(CPU)、ROM、RAM及びデータ記憶装置(データベース)を含むデジタルコンピュータで構成されており、機能的構成としては、図1に示すように、入力手段10と、頻度データ取得手段20と、分類クラス決定手段30と、出力手段40とを備えている。
入力手段10には、新規文書のキーワード系列が入力データとして入力され、この入力データが頻度データ取得手段20に印加される。
頻度データ取得手段20は、頻度データ取得器20aと、データベースとしての事前分布推定用頻度テーブル20b及び学習用頻度テーブル20cとを備えており、新規文書のキーワード系列が与えられると、事前分布推定用頻度テーブル20b及び学習用頻度テーブル20cから事前分布推定用頻度データ及び学習用頻度データを出力するように構成されている。
分類クラス決定手段30は、尤度算出器30aと、分類クラス決定器30bとを備えており、頻度データ取得手段20から新規文書のキーワード系列、事前分布推定用頻度データ及び学習用頻度データが与えられると、新規文書が各クラスに含まれると仮定した場合の尤度を用いて、分類されるべきでない間違ったクラスに分類する確率である誤り率をベイズ基準のもとで最小にすることが保証されたクラスを分類クラスとして出力するように構成されている。
図2は第1の実施形態における頻度データ取得手段20の動作を説明するフローチャートであり、以下、同図をも合わせ用いて頻度データ取得手段20の動作を説明する。
まず、入力手段10を介して頻度データ取得手段20の頻度データ取得器20aに新規文書のキーワード系列が入力される(ステップS20)。
新規文書のキーワード系列が入力されると、頻度データ取得器20aは、事前分布推定用頻度テーブル20bから、頻度データF(x|vG)(事前分布推定用の文書の集合の中で
クラスxに分類されている文書の数を示す)と、頻度データ
Figure 0005008096
とを取得する(ステップS21)。
ただし、x∈C、v∈C、C = {c1,c2,...,c|c|}、ここで ciは文書のクラスを表わし、Cは文書のクラスの集合、Gは事前分布推定用の文書の数、vGは事前分布推定用文書集合か
ら各文書のクラスだけ抽出したクラスの系列、|・|は集合・の要素数を表している。さらに、keyi∈KEY、KEY = {key1,key2,...,key|KEY|}、ここでkeyiはキーワードを表わし、KEYはキーワードの集合、vjは事前分布推定用の文書集合の中でj番目の文書のクラス、mj
はその文書中のキーワードの数、wはキーワードを表している。
次いで、頻度データ取得器20aは、学習用頻度データテーブル20cから、頻度データF(x|xL)(学習用の文書の集合の中でクラスxに分類されている文書の数を示す)と、頻度データ
Figure 0005008096
とを取得する(ステップS22)。
ただし、xjは学習用の文書集合の中でj番目の文書のクラス、njはその文書中のキーワ
ードの数、yはキーワードを表している。
次いで、頻度データ取得器20aは、新規文書のキーワード系列と、事前分布推定用頻度データと、学習用頻度データとを分類クラス決定手段30に出力する(ステップS23)。
図3は第1の実施形態における分類クラス決定手段30の動作を説明するフローチャートであり、以下、同図をも合わせ用いて分類クラス決定手段30の動作を説明する。
まず、頻度データ取得手段20より、分類クラス決定手段30の尤度算出器30aに新規文書のキーワード系列と、事前分布推定用頻度データと、学習用頻度データとが入力される(ステップS30)。
尤度算出器30aは、これら新規文書のキーワード系列と、事前分布推定用頻度データと、学習用頻度データとが入力されると、新規文書が各クラスxに含まれると仮定した
場合の尤度λ(x)を次の(13)式によって算出する(ステップS31)。
Figure 0005008096
次いで、分類クラス決定器30bは、尤度算出器30aが算出した尤度λ(x)を用い
て、尤度が最大となるクラスxを分類クラスとして決定し(ステップS32)、その後、
分類クラスを出力手段40を介して出力する(ステップS33)。
このように第1の実施形態では、学習データとは別に事前分布の推定用データを用い、逐次的に事後分布を更新すること(新規文書のキーワード系列の部分系列に関する頻度を使用すること)により、間違ったクラスに分類する確率である誤り率をベイズ基準のもとで最小にすることが保証されたクラスを分類クラスと決定しているので、学習データが少量の場合でも高い精度で新規文書を分類することができる。
図4は特許文献1に記載されている本願発明者による従来技術と本発明の第1の実施形態との分類精度に関する実験結果を表すグラフである。
この実験にあたっては、2007年の毎日新聞データを学習データ及び新規文書データとして利用している。本発明の第1の実施形態の実験には、1994年の毎日新聞データ約5万記事を事前分布の推定用データとして利用している。キーワードはデータ集の中で与えられている見出しのキーワードを使用し、正解の分類大系もデータ集の大系を使用している。また、無情報を示す事前分布にはジェフリーズの事前分布を使用している。なお、図4において、横軸は学習データ数、縦軸は新規文書1万記事のうちで正しく分類できた割合である分類精度をそれぞれ示している。
同図から分かるように、本発明の第1の実施形態によれば、事前分布の推定用データを利用しているため、学習データが少量の場合でも高い分類精度が得られている。ただし、学習データ数が増加した際に、本発明の第1の実施形態の方が従来技術よりも精度が若干低い傾向がある。
次に、本発明における文書自動分類システムの第2の実施形態について説明する。この第2の実施形態においては、分類クラス決定手段における尤度算出器30aの機能が第1の実施形態の場合と異なっている。従って、以下の説明では、第1の実施形態の場合と異なる部分についてのみ説明する。
第2の実施形態において、尤度算出器30aは、頻度データ取得器20aから、新規文書のキーワード系列と、事前分布推定用頻度データと、学習用頻度データとが入力されると、新規文書が各クラスxに含まれると仮定した場合の尤度λ(x)を次の(16)式によって算出する。
Figure 0005008096
尤度算出器30aが算出した尤度λ(x)を用いて、尤度が最大となるクラスxを分類クラスとして決定する分類クラス決定器30bの動作は、第1の実施形態の場合と同様である。
即ち、第2の実施形態では、尤度λ(x)を算出する際に、(13)式を用いる代りに
(16)式を用いており、新規文書のキーワード系列の部分系列に関する頻度を使用せず、近似解を求めている。
このように第2の実施形態では、新規文書のキーワード系列の部分系列に関する頻度を使用していない。即ち、学習データとは別に事前分布の推定用データを用い、間違ったクラスに分類する確率である誤り率をベイズ基準のもとで最小にするクラスの近似解を分類クラスと決定しているので、学習データが少量の場合でも高い精度で新規文書を分類することができ、しかも部分系列に関する計算量が削減される分、計算量が少なくて済む。
次に、本発明における文書自動分類システムの第3の実施形態について説明する。前述した第1の実施形態及び第2の実施形態では、新規文書や学習データ(既存文書)とは情報源(出典)が異なるが学習データや新規文書と性質が似ていると思われる文書データを事前分布の推定用データとして用いかつ逐次的に事後分布を更新することにより、及び学習データとは別に事前分布の推定用データを用いかつ事後分布を更新しないことにより、学習データが少量の場合でも高い精度で新規文書を分類することができるが、学習データ増加時には、事前分布の推定用データの影響が残ってしまい、逆に精度が低下する。そこでこの第3の実施形態では、学習データ増加時にも高い精度で分類が可能であり、かつ計算量が少なくて済むように工夫している。
この第3の実施形態においては、分類クラス決定手段における尤度算出器30aの機能が第1の実施形態の場合と異なっている。従って、以下の説明では、第1の実施形態の場合と異なる部分についてのみ説明する。
第3の実施形態において、尤度算出器30aは、頻度データ取得器20aから、新規文書のキーワード系列と、事前分布推定用頻度データと、学習用頻度データとが入力されると、新規文書が各クラスxに含まれると仮定した場合の尤度λ(x)を次の(19)式によって算出する。
Figure 0005008096
尤度算出器30aが算出した尤度λ(x)を用いて、尤度が最大となるクラスxを分類クラスとして決定する分類クラス決定器30bの動作は、第1の実施形態の場合と同様である。
即ち、第3の実施形態では、尤度λ(x)を算出する際に、(13)式を用いる代りに
(19)式を用いており、新規文書のキーワード系列の部分系列に関する頻度を使用することにより、間違ったクラスに分類する確率である誤り率をベイズ基準のもとで最小にすることが保証されたクラスを分類クラスと決定している。
このように第3の実施形態では、学習データとは別に事前分布の推定用データを用い、逐次的に事後分布を更新することにより、間違ったクラスに分類する確率である誤り率をベイズ基準のもとで最小にすることが保証されたクラスを分類クラスと決定しているので、学習データが少量の場合でも高い精度で新規文書を分類することができる。しかも、その際にA、A、Aの働きにより、学習データが少量の場合には主に事前分布推定用データを使用し、学習データの増加時には学習データを使用しているので、学習データ増加時にも高い精度で分類が可能であり、かつ計算量が少なくて済む。
図5は特許文献1に記載されている本願発明者による従来技術と本発明の第3の実施形態との分類精度に関する実験結果を表すグラフである。
この実験にあたっては、2007年の毎日新聞データを学習データ及び新規文書データとして利用している。本発明の第3の実施形態の実験には、1994年の毎日新聞データ約5万記事を事前分布の推定用データとして利用している。キーワードはデータ集の中で与えられている見出しのキーワードを使用し、正解の分類大系もデータ集の大系を使用している。また、無情報を示す事前分布にはジェフリーズの事前分布を使用している。なお、図5において、横軸は学習データ数、縦軸は新規文書1万記事のうちで正しく分類できた割合である分類精度をそれぞれ示している。
同図から分かるように、本発明の第3の実施形態によれば、事前分布の推定用データを利用しているため、学習データが少量の場合には従来技術よりも高い分類精度が得られている。また、学習データの増加に伴い事前分布の推定用データの影響が徐々に小さくなるようにしているため、学習データ数が増加した際にも従来技術と同等の精度が得られている。
次に、本発明における文書自動分類システムの第4の実施形態について説明する。この第4の実施形態においては、分類クラス決定手段における尤度算出器30aの機能が第3の実施形態の場合と異なっている。従って、以下の説明では、第3の実施形態の場合と異なる部分についてのみ説明する。
第4の実施形態において、尤度算出器30aは、頻度データ取得器20aから、新規文書のキーワード系列と、事前分布推定用頻度データと、学習用頻度データとが入力されると、新規文書が各クラスxに含まれると仮定した場合の尤度λ(x)を次の(22)式によって算出する。
Figure 0005008096
尤度算出器30aが算出した尤度λ(x)を用いて、尤度が最大となるクラスxを分類クラスとして決定する分類クラス決定器30bの動作は、第3の実施形態の場合と同様である。
即ち、第4の実施形態では、尤度λ(x)を算出する際に、(19)式を用いる代りに
(22)式を用いており、新規文書のキーワード系列の部分系列に関する頻度を使用せず、近似解を求めている。
このように第4の実施形態では、新規文書のキーワード系列の部分系列に関する頻度を使用していない。即ち、学習データとは別に事前分布の推定用データを用い、間違ったクラスに分類する確率である誤り率をベイズ基準のもとで最小にするクラスの近似解を分類クラスと決定しているので、学習データが少量の場合でも高い精度で新規文書を分類することができ、しかも部分系列に関する計算量が削減される分、計算量が少なくて済む。さらに、その際にA、A、Aの働きにより、学習データが少量の場合には主に事前分布推定用データを使用し、学習データの増加時には学習データを使用しているので、学習データ増加時にも高い精度で分類が可能であり、かつ計算量が少なくて済む。
以上の説明において、文書自動分類方法を説明したが、この文書自動分類方法はプログラムの形で記述されて記録媒体に記録しておくことができる。従って、本発明はこのような記録媒体をも発明の対象とするものである。
以上述べた実施形態は全て本発明を例示的に示すものであって限定的に示すものではなく、本発明は他の種々の変形態様及び変更態様で実施することができる。従って本発明の範囲は特許請求の範囲及びその均等範囲によってのみ規定されるものである。
近年は、種々の情報が存在することから、所望の情報を探し出すことが大変である。分類技術は、効率的な検索のために有用な技術であるが、大量の学習データを準備するにはコストが多大となる。本発明によれば、学習データとしては利用できないが似たような性質を有するデータを利用しているので、学習データの整備に必要なコストを低減させることができ、IT分野において広く貢献することができる。
10 入力手段
20 頻度データ取得手段
20a 頻度データ取得器
20b 事前分布推定用頻度テーブル
20c 学習用頻度テーブル
30 分類クラス決定手段
30a 尤度算出器
30b 分類クラス決定器
40 出力手段

Claims (28)

  1. 事前分布推定用の文書の集合の中でクラスxに分類されている文書の数、及び事前分
    布推定用の文書の集合の中のクラスxに分類されている文書の中に含まれるキーワードkeyiの数を示す事前分布推定用頻度データが格納されている第1の記憶手段と、学習用の
    文書の集合の中でクラスxに分類されている文書の数、及び学習用の文書の集合の中の
    クラスxの文書の中に含まれるキーワードkeyiの数を示す学習用頻度データが格納され
    ている第2の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えたデータ処理システムが、入力された新規文書のキーワード系列を利用して、該新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類方法であって、
    前記頻度データ取得手段が、新規文書のキーワード系列が入力された際に、前記第1の記憶手段及び前記第2の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するステップと、
    前記分類クラス決定手段が、前記新規文書のキーワード系列と、各クラスの前記事前分布推定用頻度データ及び前記学習用頻度データとが入力された際に、該新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率について該誤り率をベイズ基準のもとで最小にすることが保証された分類クラスを決定するステップと、
    前記分類クラス決定手段が、前記新規文書に対して該決定した分類クラスを出力するステップと
    を実行することを特徴とする文書自動分類方法。
  2. 前記分類クラス決定手段が、前記新規文書のキーワード系列、前記事前分布推定用頻度データ及び前記学習用頻度データとが入力されると、新規文書が各クラスxに含まれる
    と仮定した場合の尤度λ(x)を
    Figure 0005008096
    から算出する尤度算出器を備えていることを特徴とする請求項1に記載の文書自動分類方法。
  3. 事前分布推定用の文書の集合の中でクラスxに分類されている文書の数、及び事前分
    布推定用の文書の集合の中のクラスxに分類されている文書の中に含まれるキーワードkeyiの数を示す事前分布推定用頻度データが格納されている第1の記憶手段と、学習用の
    文書の集合の中でクラスxに分類されている文書の数、及び学習用の文書の集合の中の
    クラスxの文書の中に含まれるキーワードkeyiの数を示す学習用頻度データが格納され
    ている第2の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えたデータ処理システムが、入力された新規文書のキーワード系列を利用して、該新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類方法であって、
    前記頻度データ取得手段が、新規文書のキーワード系列が入力された際に、前記第1の記憶手段及び前記第2の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するステップと、
    前記分類クラス決定手段が、前記新規文書のキーワード系列と、各クラスの前記事前分布推定用頻度データ及び前記学習用頻度データとが入力された際に、該新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率について該誤り率をベイズ基準のもとで最小にする分類クラスの近似解を決定するステップと、
    前記分類クラス決定手段が、前記新規文書に対して該決定した分類クラスを出力するステップと
    を実行することを特徴とする文書自動分類方法。
  4. 前記分類クラス決定手段が、前記新規文書のキーワード系列、前記事前分布推定用頻度データ及び前記学習用頻度データとが入力されると、新規文書が各クラスxに含まれる
    と仮定した場合の尤度λ(x)を
    Figure 0005008096
    から算出する尤度算出器を備えていることを特徴とする請求項3に記載の文書自動分類方法。
  5. 前記分類クラス決定手段が、前記尤度算出器が算出した尤度λ(x)を用いて、尤度が
    最大となるクラスxを分類クラスとして決定する分類クラス決定器をさらに備えているこ
    とを特徴とする請求項2又は4に記載の文書自動分類方法。
  6. 前記第1の記憶手段に格納されている前記事前分布推定用頻度データが、頻度データF(x|vG)と、頻度データ
    Figure 0005008096
    ことを特徴とする請求項1から5のいずれか1項に記載の文書自動分類方法。
  7. 前記第2の記憶手段に格納されている前記学習用頻度データが、頻度データF(x|xL)
    と、頻度データ
    Figure 0005008096
    ことを特徴とする請求項1から6のいずれか1項に記載の文書自動分類方法。
  8. 事前分布推定用の文書の集合の中でクラスxに分類されている文書の数、及び事前分
    布推定用の文書の集合の中のクラスxに分類されている文書の中に含まれるキーワードkeyiの数を示す事前分布推定用頻度データが格納されている第1の記憶手段と、学習用の
    文書の集合の中でクラスxに分類されている文書の数、及び学習用の文書の集合の中の
    クラスxの文書の中に含まれるキーワードkeyiの数を示す学習用頻度データが格納され
    ている第2の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えたデータ処理システムが、入力された新規文書のキーワード系列を利用して、該新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類方法であって、
    前記頻度データ取得手段が、新規文書のキーワード系列が入力された際に、前記第1の記憶手段及び前記第2の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するステップと、
    前記分類クラス決定手段が、前記新規文書のキーワード系列と、各クラスの前記事前分布推定用頻度データ及び前記学習用頻度データとが入力された際に、学習データ量が少量の場合は主に前記事前分布推定用頻度データを使用し、学習データ増加時には主に前記学習用頻度データ使用することにより、該新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率について該誤り率をベイズ基準のもとで最小にすることが保証された分類クラスを決定するステップと、
    前記分類クラス決定手段が、前記新規文書に対して該決定した分類クラスを出力するステップと
    を実行することを特徴とする文書自動分類方法。
  9. 前記分類クラス決定手段が、前記新規文書のキーワード系列、前記事前分布推定用頻度データ及び前記学習用頻度データとが入力されると、新規文書が各クラスxに含まれる
    と仮定した場合の尤度λ(x)を
    Figure 0005008096
    から算出する尤度算出器を備えていることを特徴とする請求項8に記載の文書自動分類方法。
  10. 事前分布推定用の文書の集合の中でクラスxに分類されている文書の数、及び事前分
    布推定用の文書の集合の中のクラスxに分類されている文書の中に含まれるキーワードkeyiの数を示す事前分布推定用頻度データが格納されている第1の記憶手段と、学習用の
    文書の集合の中でクラスxに分類されている文書の数、及び学習用の文書の集合の中の
    クラスxの文書の中に含まれるキーワードkeyiの数を示す学習用頻度データが格納され
    ている第2の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えたデータ処理システムが、入力された新規文書のキーワード系列を利用して、該新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類方法であって、
    前記頻度データ取得手段が、新規文書のキーワード系列が入力された際に、前記第1の記憶手段及び前記第2の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するステップと、
    前記分類クラス決定手段が、前記新規文書のキーワード系列と、各クラスの前記事前分布推定用頻度データ及び前記学習用頻度データとが入力された際に、学習データ量が少量の場合は主に前記事前分布推定用頻度データを使用し、学習データ増加時には主に前記学習用頻度データ使用することにより、該新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率について該誤り率をベイズ基準のもとで最小にする分類クラスの近似解を決定するステップと、
    前記分類クラス決定手段が、前記新規文書に対して該決定した分類クラスを出力するステップと
    を実行することを特徴とする文書自動分類方法。
  11. 前記分類クラス決定手段が、前記新規文書のキーワード系列、前記事前分布推定用頻度データ及び前記学習用頻度データとが入力されると、新規文書が各クラスxに含まれる
    と仮定した場合の尤度λ(x)を
    Figure 0005008096
    から算出する尤度算出器を備えていることを特徴とする請求項10に記載の文書自動分類方法。
  12. 前記分類クラス決定手段が、前記尤度算出器が算出した尤度λ(x)を用いて、尤度が
    最大となるクラスxを分類クラスとして決定する分類クラス決定器をさらに備えているこ
    とを特徴とする請求項9又は11に記載の文書自動分類方法。
  13. 前記第1の記憶手段に格納されている前記事前分布推定用頻度データが、頻度データF(x|vG)と、頻度データ
    Figure 0005008096
    ことを特徴とする請求項8から12のいずれか1項に記載の文書自動分類方法。
  14. 前記第2の記憶手段に格納されている前記学習用頻度データが、頻度データF(x|xL)
    と、頻度データ
    Figure 0005008096
    ことを特徴とする請求項8から13のいずれか1項に記載の文書自動分類方法。
  15. 事前分布推定用の文書の集合の中でクラスxに分類されている文書の数、及び事前分
    布推定用の文書の集合の中のクラスxに分類されている文書の中に含まれるキーワードkeyiの数を示す事前分布推定用頻度データが格納されている第1の記憶手段と、学習用の
    文書の集合の中でクラスxに分類されている文書の数、及び学習用の文書の集合の中の
    クラスxの文書の中に含まれるキーワードkeyiの数を示す学習用頻度データが格納され
    ている第2の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えており、入力された新規文書のキーワード系列を利用して、該新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類システムであって、
    前記頻度データ取得手段が、新規文書のキーワード系列が入力された際に、前記第1の記憶手段及び前記第2の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するように構成されており、
    前記分類クラス決定手段が、前記新規文書のキーワード系列と、各クラスの前記事前分布推定用頻度データ及び前記学習用頻度データとが入力された際に、該新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率について該誤り率をベイズ基準のもとで最小にすることが保証された分類クラスを決定すると共に、前記新規文書に対して該決定した分類クラスを出力するように構成されていることを特徴とする文書自動分類システム。
  16. 前記分類クラス決定手段が、前記新規文書のキーワード系列、前記事前分布推定用頻度データ及び前記学習用頻度データとが入力されると、新規文書が各クラスxに含まれる
    と仮定した場合の尤度λ(x)を
    Figure 0005008096
    から算出する尤度算出器を備えていることを特徴とする請求項15に記載の文書自動分類システム。
  17. 事前分布推定用の文書の集合の中でクラスxに分類されている文書の数、及び事前分
    布推定用の文書の集合の中のクラスxに分類されている文書の中に含まれるキーワードkeyiの数を示す事前分布推定用頻度データが格納されている第1の記憶手段と、学習用の
    文書の集合の中でクラスxに分類されている文書の数、及び学習用の文書の集合の中の
    クラスxの文書の中に含まれるキーワードkeyiの数を示す学習用頻度データが格納され
    ている第2の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えており、入力された新規文書のキーワード系列を利用して、該新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類システムであって、
    前記頻度データ取得手段が、新規文書のキーワード系列が入力された際に、前記第1の記憶手段及び前記第2の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するように構成されており、
    前記分類クラス決定手段が、前記新規文書のキーワード系列と、各クラスの前記事前分布推定用頻度データ及び前記学習用頻度データとが入力された際に、該新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率について該誤り率をベイズ基準のもとで最小にする分類クラスの近似解を決定するように構成されており、
    前記分類クラス決定手段が、前記新規文書に対して該決定した分類クラスを出力するように構成されていることを特徴とする文書自動分類システム。
  18. 前記分類クラス決定手段が、前記新規文書のキーワード系列、前記事前分布推定用頻度データ及び前記学習用頻度データとが入力されると、新規文書が各クラスxに含まれる
    と仮定した場合の尤度λ(x)を
    Figure 0005008096
    から算出する尤度算出器を備えていることを特徴とする請求項17に記載の文書自動分類システム。
  19. 前記分類クラス決定手段が、前記尤度算出器が算出した尤度λ(x)を用いて、尤度が
    最大となるクラスxを分類クラスとして決定する分類クラス決定器をさらに備えているこ
    とを特徴とする請求項16又は18に記載の文書自動分類システム。
  20. 前記第1の記憶手段に格納されている前記事前分布推定用頻度データが、頻度データF(x|vG)と、頻度データ
    Figure 0005008096
    ことを特徴とする請求項15から19のいずれか1項に記載の文書自動分類システム。
  21. 前記第2の記憶手段に格納されている前記学習用頻度データが、頻度データF(x|xL)
    と、頻度データ
    Figure 0005008096
    ことを特徴とする請求項15から20のいずれか1項に記載の文書自動分類システム。
  22. 事前分布推定用の文書の集合の中でクラスxに分類されている文書の数、及び事前分
    布推定用の文書の集合の中のクラスxに分類されている文書の中に含まれるキーワードkeyiの数を示す事前分布推定用頻度データが格納されている第1の記憶手段と、学習用の
    文書の集合の中でクラスxに分類されている文書の数、及び学習用の文書の集合の中の
    クラスxの文書の中に含まれるキーワードkeyiの数を示す学習用頻度データが格納され
    ている第2の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えており、入力された新規文書のキーワード系列を利用して、該新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類システムであって、
    前記頻度データ取得手段が、新規文書のキーワード系列が入力された際に、前記第1の記憶手段及び前記第2の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するように構成されており、
    前記分類クラス決定手段が、前記新規文書のキーワード系列と、各クラスの前記事前分布推定用頻度データ及び前記学習用頻度データとが入力された際に、学習データ量が少量の場合は主に前記事前分布推定用頻度データを使用し、学習データ増加時には主に前記学習用頻度データ使用することにより、該新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率について該誤り率をベイズ基準のもとで最小にすることが保証された分類クラスを決定すると共に、前記新規文書に対して該決定した分類クラスを出力するように構成されていることを特徴とする文書自動分類システム。
  23. 前記分類クラス決定手段が、前記新規文書のキーワード系列、前記事前分布推定用頻度データ及び前記学習用頻度データとが入力されると、新規文書が各クラスxに含まれる
    と仮定した場合の尤度λ(x)を
    Figure 0005008096
    から算出する尤度算出器を備えていることを特徴とする請求項22に記載の文書自動分類システム。
  24. 事前分布推定用の文書の集合の中でクラスxに分類されている文書の数、及び事前分
    布推定用の文書の集合の中のクラスxに分類されている文書の中に含まれるキーワードkeyiの数を示す事前分布推定用頻度データが格納されている第1の記憶手段と、学習用の
    文書の集合の中でクラスxに分類されている文書の数、及び学習用の文書の集合の中の
    クラスxの文書の中に含まれるキーワードkeyiの数を示す学習用頻度データが格納され
    ている第2の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えており、入力された新規文書のキーワード系列を利用して、該新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類システムであって、
    前記頻度データ取得手段が、新規文書のキーワード系列が入力された際に、前記第1の記憶手段及び前記第2の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するように構成されており、
    前記分類クラス決定手段が、前記新規文書のキーワード系列と、各クラスの前記事前分布推定用頻度データ及び前記学習用頻度データとが入力された際に、学習データ量が少量の場合は主に前記事前分布推定用頻度データを使用し、学習データ増加時には主に前記学習用頻度データ使用することにより、該新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率について該誤り率をベイズ基準のもとで最小にする分類クラスの近似解を決定するように構成されており、
    前記分類クラス決定手段が、前記新規文書に対して該決定した分類クラスを出力するように構成されていることを特徴とする文書自動分類システム。
  25. 前記分類クラス決定手段が、前記新規文書のキーワード系列、前記事前分布推定用頻度データ及び前記学習用頻度データとが入力されると、新規文書が各クラスxに含まれる
    と仮定した場合の尤度λ(x)を
    Figure 0005008096
    から算出する尤度算出器を備えていることを特徴とする請求項24に記載の文書自動分類システム。
  26. 前記分類クラス決定手段が、前記尤度算出器が算出した尤度λ(x)を用いて、尤度が
    最大となるクラスxを分類クラスとして決定する分類クラス決定器をさらに備えているこ
    とを特徴とする請求項23又は25に記載の文書自動分類システム。
  27. 前記第1の記憶手段に格納されている前記事前分布推定用頻度データが、頻度データF(x|vG)と、頻度データ
    Figure 0005008096
    ことを特徴とする請求項22から26のいずれか1項に記載の文書自動分類システム。
  28. 前記第2の記憶手段に格納されている前記学習用頻度データが、頻度データF(x|xL)
    と、頻度データ
    Figure 0005008096
    ことを特徴とする請求項22から27のいずれか1項に記載の文書自動分類システム。
JP2009185084A 2009-03-05 2009-08-07 文書自動分類方法及び文書自動分類システム Expired - Fee Related JP5008096B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2009185084A JP5008096B2 (ja) 2009-03-05 2009-08-07 文書自動分類方法及び文書自動分類システム
PCT/JP2010/051917 WO2010101005A1 (ja) 2009-03-05 2010-02-10 文書自動分類システム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2009051966 2009-03-05
JP2009051966 2009-03-05
JP2009185084A JP5008096B2 (ja) 2009-03-05 2009-08-07 文書自動分類方法及び文書自動分類システム

Publications (2)

Publication Number Publication Date
JP2010231755A JP2010231755A (ja) 2010-10-14
JP5008096B2 true JP5008096B2 (ja) 2012-08-22

Family

ID=42709567

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009185084A Expired - Fee Related JP5008096B2 (ja) 2009-03-05 2009-08-07 文書自動分類方法及び文書自動分類システム

Country Status (2)

Country Link
JP (1) JP5008096B2 (ja)
WO (1) WO2010101005A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015079592A1 (en) * 2013-11-27 2015-06-04 Nec Corporation Document classification method
CN112100497B (zh) * 2020-09-14 2021-10-19 北京嘀嘀无限科技发展有限公司 一种数据处理方法、装置、电子设备及可读存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3615451B2 (ja) * 2000-03-16 2005-02-02 日本電信電話株式会社 文書分類方法、およびその分類方法を記述したプログラムを記録している記録媒体
JP2002008000A (ja) * 2000-06-16 2002-01-11 Nippon Telegr & Teleph Corp <Ntt> データ分類学習方法、データ分類方法、データ分類学習装置、データ分類装置、データ分類学習プログラムを記録した記録媒体、データ分類プログラムを記録した記録媒体
JP4314853B2 (ja) * 2003-03-20 2009-08-19 富士通株式会社 文書分類装置および文書分類プログラム

Also Published As

Publication number Publication date
WO2010101005A1 (ja) 2010-09-10
JP2010231755A (ja) 2010-10-14

Similar Documents

Publication Publication Date Title
US11341424B2 (en) Method, apparatus and system for estimating causality among observed variables
CN108509474B (zh) 搜索信息的同义词扩展方法及装置
Yildirim Filter based feature selection methods for prediction of risks in hepatitis disease
CN109062763B (zh) 一种从svn日志事件流中动态实时挖掘软件过程活动的方法
Ren et al. Label noise reduction in entity typing by heterogeneous partial-label embedding
CN109189767B (zh) 数据处理方法、装置、电子设备及存储介质
US8527436B2 (en) Automated parsing of e-mail messages
US20150095017A1 (en) System and method for learning word embeddings using neural language models
EP2657884A2 (en) Identifying multimedia objects based on multimedia fingerprint
CN111832289A (zh) 一种基于聚类和高斯lda的服务发现方法
CN107818141A (zh) 融入结构化要素识别的生物医学事件抽取方法
CN104573130A (zh) 基于群体计算的实体解析方法及装置
KR102334236B1 (ko) 음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용
Dien et al. Article classification using natural language processing and machine learning
US20180075324A1 (en) Information processing apparatus, information processing method, and computer readable storage medium
JP2017107386A (ja) 事例選択装置、分類装置、方法、及びプログラム
CN112634992A (zh) 分子性质预测方法及其模型的训练方法及相关装置、设备
CN114093445B (zh) 一种基于偏多标记学习的患者筛选标记方法
Rasiman et al. How effective is automated trace link recovery in model-driven development?
JP2019086979A (ja) 情報処理装置、情報処理方法及びプログラム
US11580101B2 (en) Method and apparatus for generating context category dataset
JP5008096B2 (ja) 文書自動分類方法及び文書自動分類システム
Elgeldawi et al. Hyperparameter Tuning for Machine Learning Algorithms Used for Arabic Sentiment Analysis. Informatics 2021, 8, 79
JP5929532B2 (ja) イベント検出装置、イベント検出方法およびイベント検出プログラム
Riesener et al. Methodology for Automated Master Data Management using Artificial Intelligence

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120424

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120524

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150608

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees