JP5008096B2

JP5008096B2 - 文書自動分類方法及び文書自動分類システム

Info

Publication number: JP5008096B2
Application number: JP2009185084A
Authority: JP
Inventors: 康成前田
Original assignee: Kitami Institute of Technology NUC
Current assignee: Kitami Institute of Technology NUC
Priority date: 2009-03-05
Filing date: 2009-08-07
Publication date: 2012-08-22
Anticipated expiration: 2029-08-07
Also published as: WO2010101005A1; JP2010231755A

Description

本発明は、新規文書を既存文書が分類されているクラスのいずれかに自動的に分類する文書自動分類方法及び文書自動分類システムに関する。

例えばパソコンやワープロ等によって生成された新規文書を既存文書が分類されているクラスのいずれかに自動的に分類する方法として、本願発明者は、確率モデルを利用する文書自動分類のための１つの方法を提案している（特許文献１、非特許文献１）。

この方法では、文書のクラスの生起や文書内でのキーワードの生起に多項分布等の確率分布を仮定している。確率分布を導入すると、文書分類問題を、クラスの生起する確率分布とキーワードの生起する確率分布とを支配する真のパラメータが未知のもとで、既存文書を学習データとして利用し、新規文書をいずれかのクラスに分類する問題として定式化することができる。統計的決定理論に従って、確率分布を支配する未知パラメータについて事前分布を導入してパラメータ空間で期待値をとり、平均的に誤り率を最小化するようなクラスを分類先のクラスとして決定すると、ベイズ基準のもとで誤り率を最小にする分類が可能となる。

特許第３６１５４５１号公報

"統計的決定理論に基づく電報分類方法に関する一考察" 前田康成、小原永、情報処理学会論文誌、Ｖｏｌ．４３、Ｎｏ．１０、ｐｐ．３１１９−３１２６、Ｏｃｔ．２００２

しかしながら、上述したごとき従来の文書自動分類技術には次のような問題点があった。まず、計算を実際に行う際には、事前分布にディレクレ分布を仮定し、ディレクレ分布のパラメータを設定しなければならないが、提案した従来技術では、事前分布のパラメータの設定について何ら規定していなかった。このため、事前情報が無いことを表現するために一様分布やジェフリーズの事前分布に従ったパラメータ設定を行うこととなり、その結果、分類の精度が学習データ量に依存してしまうことから、学習データ量が少ない場合にその分類精度が低くなってしまうという問題点があった。さらに、従来技術では、ベイズ基準のもとで最適な計算を行うべく新規文書に含まれるキーワードについて逐次的に事後分布の更新を行っているため、計算量がどうしても多くなってしまうという問題点があった。

従って本発明の目的は、学習データ量が少量の場合にも高い精度で分類が可能な文書自動分類方法及び文書自動分類システムを提供することにある。

本発明の他の目的は、学習データ量が増加時にも高い精度で分類が可能な文書自動分類方法及び文書自動分類システムを提供することにある。

本発明のさらに他の目的は、計算量が少なくて済む文書自動分類方法及び文書自動分類システムを提供することにある。

本発明によれば、事前分布推定用の文書の集合の中でクラスx^′に分類されている文書
の数、及び事前分布推定用の文書の集合の中のクラスx^′に分類されている文書の中に含
まれるキーワードkey_iの数を示す事前分布推定用頻度データが格納されている第１の記憶手段と、学習用の文書の集合の中でクラスx^′に分類されている文書の数、及び学習用の
文書の集合の中のクラスx^′の文書の中に含まれるキーワードkey_iの数を示す学習用頻度
データが格納されている第２の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えたデータ処理システムが、入力された新規文書のキーワード系列を利用して、新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類方法であって、頻度データ取得手段が、新規文書のキーワード系列が入力された際に、第１の記憶手段及び第２の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するステップと、分類クラス決定手段が、新規文書のキーワード系列と、各クラスの事前分布推定用頻度データ及び学習用頻度データとが入力された際に、新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率についてこの誤り率をベイズ基準のもとで最小にすることが保証された分類クラスを決定するステップと、分類クラス決定手段が、新規文書に対して決定した分類クラスを出力するステップとを実行する。

新規文書や学習データ（既存文書）とは情報源（出典）が異なるが性質が似ているような文書データを、学習データによる学習用データとは別に事前分布の推定用データとして利用し、間違ったクラスに分類する確率である誤り率をベイズ基準のもとで最小にすることが保証されたクラスを分類クラスとして決定することによって、学習データ量が少量の場合にも高い精度で分類が可能となる。

分類クラス決定手段が、新規文書のキーワード系列、事前分布推定用頻度データ及び学習用頻度データとが入力されると、新規文書が各クラスx^′に含まれると仮定した場合の
尤度λ(x^′)を

から算出する尤度算出器を備えていることが好ましい。

本発明によれば、さらに、事前分布推定用の文書の集合の中でクラスx^′に分類されて
いる文書の数、及び事前分布推定用の文書の集合の中のクラスx^′に分類されている文書
の中に含まれるキーワードkey_iの数を示す事前分布推定用頻度データが格納されている第１の記憶手段と、学習用の文書の集合の中でクラスx^′に分類されている文書の数、及び
学習用の文書の集合の中のクラスx^′の文書の中に含まれるキーワードkey_iの数を示す学
習用頻度データが格納されている第２の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えたデータ処理システムが、入力された新規文書のキーワード系列を利用して、新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類方法であって、頻度データ取得手段が、新規文書のキーワード系列が入力された際に、第１の記憶手段及び第２の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するステップと、分類クラス決定手段が、新規文書のキーワード系列と、各クラスの事前分布推定用頻度データ及び学習用頻度データとが入力された際に、新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率についてこの誤り率をベイズ基準のもとで最小にする分類クラスの近似解を決定するステップと、分類クラス決定手段が、新規文書に対して決定した分類クラスを出力するステップとを実行する。

新規文書や学習データ（既存文書）とは情報源（出典）が異なるが性質が似ているような文書データを、学習データによる学習用データとは別に事前分布の推定用データとして利用し、新規文書に含まれるキーワードに関する逐次的な事後分布の更新を行わず、間違ったクラスに分類する確率である誤り率をベイズ基準のもとで最小にする近似解を分類クラスとして決定することによって、学習データ量が少量の場合にも高い精度で分類が可能であり、部分系列に関する計算量も少なくて済む。

から算出する尤度算出器を備えていることが好ましい。

本発明によれば、さらにまた、事前分布推定用の文書の集合の中でクラスx^′に分類されている文書の数、及び事前分布推定用の文書の集合の中のクラスx^′に分類されている
文書の中に含まれるキーワードkey_iの数を示す事前分布推定用頻度データが格納されている第１の記憶手段と、学習用の文書の集合の中でクラスx^′に分類されている文書の数、
及び学習用の文書の集合の中のクラスx^′の文書の中に含まれるキーワードkey_iの数を示
す学習用頻度データが格納されている第２の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えたデータ処理システムが、入力された新規文書のキーワード系列を利用して、新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類方法であって、頻度データ取得手段が、新規文書のキーワード系列が入力された際に、第１の記憶手段及び第２の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するステップと、分類クラス決定手段が、新規文書のキーワード系列と、各クラスの事前分布推定用頻度データ及び学習用頻度データとが入力された際に、学習データ量が少量の場合は主に事前分布推定用頻度データを使用し、学習データ増加時には主に学習用頻度データ使用することにより、新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率について誤り率をベイズ基準のもとで最小にすることが保証された分類クラスを決定するステップと、分類クラス決定手段が、新規文書に対して決定した分類クラスを出力するステップとを実行する文書自動分類方法が提供される。

新規文書や学習データ（既存文書）とは情報源（出典）が異なるが性質が似ているような文書データを、学習データによる学習用データとは別に事前分布の推定用データとして利用し、間違ったクラスに分類する確率である誤り率をベイズ基準のもとで最小にすることが保証されたクラスを分類クラスとして決定することによって、学習データ量が少量の場合にも高い精度で分類が可能となる。しかも、その際に、学習データが少量の場合には主に事前分布推定用データを使用し、学習データの増加時には学習データを使用しているので、学習データ増加時にも高い精度で分類が可能であり、かつ計算量が少なくて済む。

から算出する尤度算出器を備えていることが好ましい。

本発明によれば、さらに、事前分布推定用の文書の集合の中でクラスx^′に分類されて
いる文書の数、及び事前分布推定用の文書の集合の中のクラスx^′に分類されている文書
の中に含まれるキーワードkey_iの数を示す事前分布推定用頻度データが格納されている第１の記憶手段と、学習用の文書の集合の中でクラスx^′に分類されている文書の数、及び
学習用の文書の集合の中のクラスx^′の文書の中に含まれるキーワードkey_iの数を示す学
習用頻度データが格納されている第２の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えたデータ処理システムが、入力された新規文書のキーワード系列を利用して、新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類方法であって、頻度データ取得手段が、新規文書のキーワード系列が入力された際に、第１の記憶手段及び第２の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するステップと、分類クラス決定手段が、新規文書のキーワード系列と、各クラスの前記事前分布推定用頻度データ及び学習用頻度データとが入力された際に、学習データ量が少量の場合は主に事前分布推定用頻度データを使用し、学習データ増加時には主に学習用頻度データ使用することにより、新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率について誤り率をベイズ基準のもとで最小にする分類クラスの近似解を決定するステップと、分類クラス決定手段が、新規文書に対して決定した分類クラスを出力するステップとを実行する文書自動分類方法が提供される。

新規文書や学習データ（既存文書）とは情報源（出典）が異なるが性質が似ているような文書データを、学習データによる学習用データとは別に事前分布の推定用データとして利用し、新規文書に含まれるキーワードに関する逐次的な事後分布の更新を行わず、間違ったクラスに分類する確率である誤り率をベイズ基準のもとで最小にする近似解を分類クラスとして決定することによって、学習データ量が少量の場合にも高い精度で分類が可能であり、部分系列に関する計算量も少なくて済む。しかも、その際に、学習データが少量の場合には主に事前分布推定用データを使用し、学習データの増加時には学習データを使用しているので、学習データ増加時にも高い精度で分類が可能であり、かつ計算量が少なくて済む。

から算出する尤度算出器を備えていることが好ましい。

分類クラス決定手段が、尤度算出器が算出した尤度λ(x^′)を用いて、尤度が最大とな
るクラスxを分類クラスとして決定する分類クラス決定器をさらに備えていることも好ま
しい。

第１の記憶手段に格納されている事前分布推定用頻度データが、頻度データF(x^′|v^G)
と、頻度データ

ことも好ましい。

第２の記憶手段に格納されている学習用頻度データが、頻度データF(x^′|x^L)と、頻度
データ

ことも好ましい。

本発明によれば、さらにまた、事前分布推定用の文書の集合の中でクラスx^′に分類さ
れている文書の数、及び事前分布推定用の文書の集合の中のクラスx^′に分類されている
文書の中に含まれるキーワードkey_iの数を示す事前分布推定用頻度データが格納されている第１の記憶手段と、学習用の文書の集合の中でクラスx^′に分類されている文書の数、
及び学習用の文書の集合の中のクラスx^′の文書の中に含まれるキーワードkey_iの数を示
す学習用頻度データが格納されている第２の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えており、入力された新規文書のキーワード系列を利用して、新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類システムであって、頻度データ取得手段が、新規文書のキーワード系列が入力された際に、第１の記憶手段及び第２の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するように構成されており、分類クラス決定手段が、新規文書のキーワード系列と、各クラスの事前分布推定用頻度データ及び学習用頻度データとが入力された際に、新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率についてこの誤り率をベイズ基準のもとで最小にすることが保証された分類クラスを決定すると共に、新規文書に対して決定した分類クラスを出力するように構成されている。

新規文書や学習データ（既存文書）とは情報源（出典）が異なるが性質が似ているような文書データを事前分布の推定用データとして利用することによって、学習データ量が少量の場合にも高い精度で分類が可能となる。

から算出する尤度算出器を備えていることが好ましい。

本発明によれば、また、事前分布推定用の文書の集合の中でクラスx^′に分類されてい
る文書の数、及び事前分布推定用の文書の集合の中のクラスx^′に分類されている文書の
中に含まれるキーワードkey_iの数を示す事前分布推定用頻度データが格納されている第１の記憶手段と、学習用の文書の集合の中でクラスx^′に分類されている文書の数、及び学
習用の文書の集合の中のクラスx^′の文書の中に含まれるキーワードkey_iの数を示す学習
用頻度データが格納されている第２の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えており、入力された新規文書のキーワード系列を利用して、新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類システムであって、頻度データ取得手段が、新規文書のキーワード系列が入力された際に、第１の記憶手段及び第２の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するように構成されており、分類クラス決定手段が、新規文書のキーワード系列と、各クラスの事前分布推定用頻度データ及び学習用頻度データとが入力された際に、新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率についてこの誤り率をベイズ基準のもとで最小にする分類クラスの近似解を決定するように構成されており、分類クラス決定手段が、新規文書に対して決定した分類クラスを出力するように構成されている。

新規文書や学習データ（既存文書）とは情報源（出典）が異なるが性質が似ているような文書データを事前分布の推定用データとして利用し、新規文書に含まれるキーワードに関する逐次的な事後分布の更新を行わないことによって、学習データ量が少量の場合にも高い精度で分類が可能であり、部分系列に関する計算量も少なくて済む。

から算出する尤度算出器を備えていることが好ましい。

本発明によれば、さらに、事前分布推定用の文書の集合の中でクラスx^′に分類されて
いる文書の数、及び事前分布推定用の文書の集合の中のクラスx^′に分類されている文書
の中に含まれるキーワードkey_iの数を示す事前分布推定用頻度データが格納されている第１の記憶手段と、学習用の文書の集合の中でクラスx^′に分類されている文書の数、及び学習用の文書の集合の中のクラスx^′の文書の中に含まれるキーワードkey_iの数を示す学
習用頻度データが格納されている第２の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えており、入力された新規文書のキーワード系列を利用して、新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類システムであって、頻度データ取得手段が、新規文書のキーワード系列が入力された際に、第１の記憶手段及び第２の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するように構成されており、分類クラス決定手段が、新規文書のキーワード系列と、各クラスの事前分布推定用頻度データ及び学習用頻度データとが入力された際に、学習データ量が少量の場合は主に事前分布推定用頻度データを使用し、学習データ増加時には主に学習用頻度データ使用することにより、新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率について誤り率をベイズ基準のもとで最小にすることが保証された分類クラスを決定すると共に、新規文書に対して決定した分類クラスを出力するように構成されている文書自動分類システムが提供される。

から算出する尤度算出器を備えていることが好ましい。

本発明によれば、さらに、事前分布推定用の文書の集合の中でクラスx^′に分類されて
いる文書の数、及び事前分布推定用の文書の集合の中のクラスx^′に分類されている文書
の中に含まれるキーワードkey_iの数を示す事前分布推定用頻度データが格納されている第１の記憶手段と、学習用の文書の集合の中でクラスx^′に分類されている文書の数、及び学習用の文書の集合の中のクラスx^′の文書の中に含まれるキーワードkey_iの数を示す学
習用頻度データが格納されている第２の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えており、入力された新規文書のキーワード系列を利用して、新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類システムであって、頻度データ取得手段が、新規文書のキーワード系列が入力された際に、第１の記憶手段及び第２の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するように構成されており、分類クラス決定手段が、新規文書のキーワード系列と、各クラスの事前分布推定用頻度データ及び学習用頻度データとが入力された際に、学習データ量が少量の場合は主に事前分布推定用頻度データを使用し、学習データ増加時には主に学習用頻度データ使用することにより、新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率について誤り率をベイズ基準のもとで最小にする分類クラスの近似解を決定するように構成されており、分類クラス決定手段が、新規文書に対して決定した分類クラスを出力するように構成されている文書自動分類システムが提供される。

から算出する尤度算出器を備えていることが好ましい。

ことも好ましい。

ことも好ましい。

本発明によれば、新規文書や学習データ（既存文書）とは情報源（出典）が異なるが性質が似ているような文書データを事前分布の推定用データとして利用することによって、学習データ量が少量の場合にも高い精度で分類が可能となる。

本発明によれば、また、新規文書や学習データ（既存文書）とは情報源（出典）が異なるが性質が似ているような文書データを事前分布の推定用データとして利用し、新規文書に含まれるキーワードに関する逐次的な事後分布の更新を行わないことによって、学習データ量が少量の場合にも高い精度で分類が可能であり、計算量も少なくて済む。

本発明によれば、さらにまた、新規文書や学習データ（既存文書）とは情報源（出典）が異なるが性質が似ているような文書データを、学習データによる学習用データとは別に事前分布の推定用データとして利用し、間違ったクラスに分類する確率である誤り率をベイズ基準のもとで最小にすることが保証されたクラスを分類クラスとして決定することによって、学習データ量が少量の場合にも高い精度で分類が可能となる。しかも、その際に、学習データが少量の場合には主に事前分布推定用データを使用し、学習データの増加時には学習データを使用しているので、学習データ増加時にも高い精度で分類が可能であり、かつ計算量が少なくて済む。

本発明によれば、また、新規文書や学習データ（既存文書）とは情報源（出典）が異なるが性質が似ているような文書データを、学習データによる学習用データとは別に事前分布の推定用データとして利用し、新規文書に含まれるキーワードに関する逐次的な事後分布の更新を行わず、間違ったクラスに分類する確率である誤り率をベイズ基準のもとで最小にする近似解を分類クラスとして決定することによって、学習データ量が少量の場合にも高い精度で分類が可能であり、部分系列に関する計算量も少なくて済む。しかも、その際に、学習データが少量の場合には主に事前分布推定用データを使用し、学習データの増加時には学習データを使用しているので、学習データ増加時にも高い精度で分類が可能であり、かつ計算量が少なくて済む。

本発明における文書自動分類システムの第１の実施形態の構成を概略的に示すブロック図である。第１の実施形態における頻度データ取得手段の動作を説明するフローチャートである。第１の実施形態における分類クラス決定手段の動作を説明するフローチャートである。特許文献１に記載されている本願発明者による従来技術と本発明の第１の実施形態との分類精度に関する実験結果を表すグラフである。特許文献１に記載されている本願発明者による従来技術と本発明の第３の実施形態との分類精度に関する実験結果を表すグラフである。

本発明の文書自動分類方法を説明する前に、まず、いくつかの定義を行う。c_i、c_i∈C
は文書のクラスであり、Cは文書のクラスc_iの集合
C = {c₁,c₂,...,c_|c|} （１）
であり、|・|は集合・の要素数を表している。key_i 、key_i∈KEYはキーワードであり、KEYはキーワードkey_iの集合
KEY = {key₁,key₂,...,key_|KEY|} （２）
を表わしている。

p(c_i|θ)は文書クラスc_iが生起する確率分布でパラメータθ、θ∈Θによって支配され、真のパラメータθ^＊、θ^＊∈Θは未知である。p(key_j|c_i,ξ)は文書クラスc_iの文書内
でキーワードkey_jが生起する確率分布でパラメータξ、ξ∈Ξによって支配され、真のパラメータξ^＊、ξ^＊∈Ξは未知である。

１つの文書は１つのクラスと１以上の長さのキーワード系列の組合わせで構成される。新規に分類したい文書doc^′は
doc^′=(x^′,y^′n′) （３）
で表わされる。ただし、x^′は新規文書のクラス（未知）、n^′は新規文書に含まれるキーワードの数で、y^′n′はキーワードの系列y^′ ₁y^′ ₂・・・y^′ _n′（既知）である。学習
に利用される既存文書である学習データdoc^Lは次式で示される。

特許文献１に記載されている本願発明者による従来の文書自動分類方法においては、分類を間違えてしまう確率である誤り率を統計的決定理論に基づいてベイズ基準のもとで最小化する分類方法を次式のように算出している。

そこで、本発明では、新規文書や学習データ（既存文書）とは情報源（出典）が異なるが学習データや新規文書と性質が似ていると思われる文書データを事前分布の推定用データとして利用している。学習データや新規文書と出典の異なる事前分布の推定用データは、次の（１０）式で表わされる。

本発明においても、従来の文書自動分類方法と同様に（７）式による文書分類方法を利用する。積分計算についても、（８）式及び（９）式を使用する。ただし、ディレクレ分布のパラメータである。

図１は本発明における文書自動分類システムの第１の実施形態の構成を概略的に示すブロック図である。

この文書自動分類システムは、基本的には、入出力装置、中央演算装置（ＣＰＵ）、ＲＯＭ、ＲＡＭ及びデータ記憶装置（データベース）を含むデジタルコンピュータで構成されており、機能的構成としては、図１に示すように、入力手段１０と、頻度データ取得手段２０と、分類クラス決定手段３０と、出力手段４０とを備えている。

入力手段１０には、新規文書のキーワード系列が入力データとして入力され、この入力データが頻度データ取得手段２０に印加される。

頻度データ取得手段２０は、頻度データ取得器２０ａと、データベースとしての事前分布推定用頻度テーブル２０ｂ及び学習用頻度テーブル２０ｃとを備えており、新規文書のキーワード系列が与えられると、事前分布推定用頻度テーブル２０ｂ及び学習用頻度テーブル２０ｃから事前分布推定用頻度データ及び学習用頻度データを出力するように構成されている。

分類クラス決定手段３０は、尤度算出器３０ａと、分類クラス決定器３０ｂとを備えており、頻度データ取得手段２０から新規文書のキーワード系列、事前分布推定用頻度データ及び学習用頻度データが与えられると、新規文書が各クラスに含まれると仮定した場合の尤度を用いて、分類されるべきでない間違ったクラスに分類する確率である誤り率をベイズ基準のもとで最小にすることが保証されたクラスを分類クラスとして出力するように構成されている。

図２は第１の実施形態における頻度データ取得手段２０の動作を説明するフローチャートであり、以下、同図をも合わせ用いて頻度データ取得手段２０の動作を説明する。

まず、入力手段１０を介して頻度データ取得手段２０の頻度データ取得器２０ａに新規文書のキーワード系列が入力される（ステップＳ２０）。

新規文書のキーワード系列が入力されると、頻度データ取得器２０ａは、事前分布推定用頻度テーブル２０ｂから、頻度データF(x^′|v^G)（事前分布推定用の文書の集合の中で
クラスx^′に分類されている文書の数を示す）と、頻度データ

とを取得する（ステップＳ２１）。

ただし、x^′∈C、v∈C、C = {c₁,c₂,...,c_|c|}、ここで c_iは文書のクラスを表わし、Cは文書のクラスの集合、Gは事前分布推定用の文書の数、v^Gは事前分布推定用文書集合か
ら各文書のクラスだけ抽出したクラスの系列、|・|は集合・の要素数を表している。さらに、key_i∈KEY、KEY = {key₁,key₂,...,key_|KEY|}、ここでkey_iはキーワードを表わし、KEYはキーワードの集合、v_jは事前分布推定用の文書集合の中でj番目の文書のクラス、m_j
はその文書中のキーワードの数、wはキーワードを表している。

次いで、頻度データ取得器２０ａは、学習用頻度データテーブル２０ｃから、頻度データF(x^′|x^L)（学習用の文書の集合の中でクラスx^′に分類されている文書の数を示す）と、頻度データ

とを取得する（ステップＳ２２）。
ただし、x_jは学習用の文書集合の中でj番目の文書のクラス、n_jはその文書中のキーワ
ードの数、yはキーワードを表している。

次いで、頻度データ取得器２０ａは、新規文書のキーワード系列と、事前分布推定用頻度データと、学習用頻度データとを分類クラス決定手段３０に出力する（ステップＳ２３）。

図３は第１の実施形態における分類クラス決定手段３０の動作を説明するフローチャートであり、以下、同図をも合わせ用いて分類クラス決定手段３０の動作を説明する。

まず、頻度データ取得手段２０より、分類クラス決定手段３０の尤度算出器３０ａに新規文書のキーワード系列と、事前分布推定用頻度データと、学習用頻度データとが入力される（ステップＳ３０）。

尤度算出器３０ａは、これら新規文書のキーワード系列と、事前分布推定用頻度データと、学習用頻度データとが入力されると、新規文書が各クラスx^′に含まれると仮定した
場合の尤度λ(x^′)を次の（１３）式によって算出する（ステップＳ３１）。

次いで、分類クラス決定器３０ｂは、尤度算出器３０ａが算出した尤度λ(x^′)を用い
て、尤度が最大となるクラスxを分類クラスとして決定し（ステップＳ３２）、その後、
分類クラスを出力手段４０を介して出力する（ステップＳ３３）。

このように第１の実施形態では、学習データとは別に事前分布の推定用データを用い、逐次的に事後分布を更新すること（新規文書のキーワード系列の部分系列に関する頻度を使用すること）により、間違ったクラスに分類する確率である誤り率をベイズ基準のもとで最小にすることが保証されたクラスを分類クラスと決定しているので、学習データが少量の場合でも高い精度で新規文書を分類することができる。

図４は特許文献１に記載されている本願発明者による従来技術と本発明の第１の実施形態との分類精度に関する実験結果を表すグラフである。

この実験にあたっては、２００７年の毎日新聞データを学習データ及び新規文書データとして利用している。本発明の第１の実施形態の実験には、１９９４年の毎日新聞データ約５万記事を事前分布の推定用データとして利用している。キーワードはデータ集の中で与えられている見出しのキーワードを使用し、正解の分類大系もデータ集の大系を使用している。また、無情報を示す事前分布にはジェフリーズの事前分布を使用している。なお、図４において、横軸は学習データ数、縦軸は新規文書１万記事のうちで正しく分類できた割合である分類精度をそれぞれ示している。

同図から分かるように、本発明の第１の実施形態によれば、事前分布の推定用データを利用しているため、学習データが少量の場合でも高い分類精度が得られている。ただし、学習データ数が増加した際に、本発明の第１の実施形態の方が従来技術よりも精度が若干低い傾向がある。

次に、本発明における文書自動分類システムの第２の実施形態について説明する。この第２の実施形態においては、分類クラス決定手段における尤度算出器３０ａの機能が第１の実施形態の場合と異なっている。従って、以下の説明では、第１の実施形態の場合と異なる部分についてのみ説明する。

第２の実施形態において、尤度算出器３０ａは、頻度データ取得器２０ａから、新規文書のキーワード系列と、事前分布推定用頻度データと、学習用頻度データとが入力されると、新規文書が各クラスx^′に含まれると仮定した場合の尤度λ(x^′)を次の（１６）式によって算出する。

尤度算出器３０ａが算出した尤度λ(x^′)を用いて、尤度が最大となるクラスxを分類クラスとして決定する分類クラス決定器３０ｂの動作は、第１の実施形態の場合と同様である。

即ち、第２の実施形態では、尤度λ(x^′)を算出する際に、（１３）式を用いる代りに
（１６）式を用いており、新規文書のキーワード系列の部分系列に関する頻度を使用せず、近似解を求めている。

このように第２の実施形態では、新規文書のキーワード系列の部分系列に関する頻度を使用していない。即ち、学習データとは別に事前分布の推定用データを用い、間違ったクラスに分類する確率である誤り率をベイズ基準のもとで最小にするクラスの近似解を分類クラスと決定しているので、学習データが少量の場合でも高い精度で新規文書を分類することができ、しかも部分系列に関する計算量が削減される分、計算量が少なくて済む。

次に、本発明における文書自動分類システムの第３の実施形態について説明する。前述した第１の実施形態及び第２の実施形態では、新規文書や学習データ（既存文書）とは情報源（出典）が異なるが学習データや新規文書と性質が似ていると思われる文書データを事前分布の推定用データとして用いかつ逐次的に事後分布を更新することにより、及び学習データとは別に事前分布の推定用データを用いかつ事後分布を更新しないことにより、学習データが少量の場合でも高い精度で新規文書を分類することができるが、学習データ増加時には、事前分布の推定用データの影響が残ってしまい、逆に精度が低下する。そこでこの第３の実施形態では、学習データ増加時にも高い精度で分類が可能であり、かつ計算量が少なくて済むように工夫している。

この第３の実施形態においては、分類クラス決定手段における尤度算出器３０ａの機能が第１の実施形態の場合と異なっている。従って、以下の説明では、第１の実施形態の場合と異なる部分についてのみ説明する。

第３の実施形態において、尤度算出器３０ａは、頻度データ取得器２０ａから、新規文書のキーワード系列と、事前分布推定用頻度データと、学習用頻度データとが入力されると、新規文書が各クラスx^′に含まれると仮定した場合の尤度λ(x^′)を次の（１９）式によって算出する。

即ち、第３の実施形態では、尤度λ(x^′)を算出する際に、（１３）式を用いる代りに
（１９）式を用いており、新規文書のキーワード系列の部分系列に関する頻度を使用することにより、間違ったクラスに分類する確率である誤り率をベイズ基準のもとで最小にすることが保証されたクラスを分類クラスと決定している。

このように第３の実施形態では、学習データとは別に事前分布の推定用データを用い、逐次的に事後分布を更新することにより、間違ったクラスに分類する確率である誤り率をベイズ基準のもとで最小にすることが保証されたクラスを分類クラスと決定しているので、学習データが少量の場合でも高い精度で新規文書を分類することができる。しかも、その際にＡ_１、Ａ_２、Ａ_３の働きにより、学習データが少量の場合には主に事前分布推定用データを使用し、学習データの増加時には学習データを使用しているので、学習データ増加時にも高い精度で分類が可能であり、かつ計算量が少なくて済む。

図５は特許文献１に記載されている本願発明者による従来技術と本発明の第３の実施形態との分類精度に関する実験結果を表すグラフである。

この実験にあたっては、２００７年の毎日新聞データを学習データ及び新規文書データとして利用している。本発明の第３の実施形態の実験には、１９９４年の毎日新聞データ約５万記事を事前分布の推定用データとして利用している。キーワードはデータ集の中で与えられている見出しのキーワードを使用し、正解の分類大系もデータ集の大系を使用している。また、無情報を示す事前分布にはジェフリーズの事前分布を使用している。なお、図５において、横軸は学習データ数、縦軸は新規文書１万記事のうちで正しく分類できた割合である分類精度をそれぞれ示している。

同図から分かるように、本発明の第３の実施形態によれば、事前分布の推定用データを利用しているため、学習データが少量の場合には従来技術よりも高い分類精度が得られている。また、学習データの増加に伴い事前分布の推定用データの影響が徐々に小さくなるようにしているため、学習データ数が増加した際にも従来技術と同等の精度が得られている。

次に、本発明における文書自動分類システムの第４の実施形態について説明する。この第４の実施形態においては、分類クラス決定手段における尤度算出器３０ａの機能が第３の実施形態の場合と異なっている。従って、以下の説明では、第３の実施形態の場合と異なる部分についてのみ説明する。

第４の実施形態において、尤度算出器３０ａは、頻度データ取得器２０ａから、新規文書のキーワード系列と、事前分布推定用頻度データと、学習用頻度データとが入力されると、新規文書が各クラスx^′に含まれると仮定した場合の尤度λ(x^′)を次の（２２）式によって算出する。

尤度算出器３０ａが算出した尤度λ(x^′)を用いて、尤度が最大となるクラスxを分類クラスとして決定する分類クラス決定器３０ｂの動作は、第３の実施形態の場合と同様である。

即ち、第４の実施形態では、尤度λ(x^′)を算出する際に、（１９）式を用いる代りに
（２２）式を用いており、新規文書のキーワード系列の部分系列に関する頻度を使用せず、近似解を求めている。

このように第４の実施形態では、新規文書のキーワード系列の部分系列に関する頻度を使用していない。即ち、学習データとは別に事前分布の推定用データを用い、間違ったクラスに分類する確率である誤り率をベイズ基準のもとで最小にするクラスの近似解を分類クラスと決定しているので、学習データが少量の場合でも高い精度で新規文書を分類することができ、しかも部分系列に関する計算量が削減される分、計算量が少なくて済む。さらに、その際にＡ_１、Ａ_２、Ａ_３の働きにより、学習データが少量の場合には主に事前分布推定用データを使用し、学習データの増加時には学習データを使用しているので、学習データ増加時にも高い精度で分類が可能であり、かつ計算量が少なくて済む。

以上の説明において、文書自動分類方法を説明したが、この文書自動分類方法はプログラムの形で記述されて記録媒体に記録しておくことができる。従って、本発明はこのような記録媒体をも発明の対象とするものである。

以上述べた実施形態は全て本発明を例示的に示すものであって限定的に示すものではなく、本発明は他の種々の変形態様及び変更態様で実施することができる。従って本発明の範囲は特許請求の範囲及びその均等範囲によってのみ規定されるものである。

近年は、種々の情報が存在することから、所望の情報を探し出すことが大変である。分類技術は、効率的な検索のために有用な技術であるが、大量の学習データを準備するにはコストが多大となる。本発明によれば、学習データとしては利用できないが似たような性質を有するデータを利用しているので、学習データの整備に必要なコストを低減させることができ、ＩＴ分野において広く貢献することができる。

１０入力手段
２０頻度データ取得手段
２０ａ頻度データ取得器
２０ｂ事前分布推定用頻度テーブル
２０ｃ学習用頻度テーブル
３０分類クラス決定手段
３０ａ尤度算出器
３０ｂ分類クラス決定器
４０出力手段

Claims

事前分布推定用の文書の集合の中でクラスx^′に分類されている文書の数、及び事前分
布推定用の文書の集合の中のクラスx^′に分類されている文書の中に含まれるキーワードkey_iの数を示す事前分布推定用頻度データが格納されている第１の記憶手段と、学習用の
文書の集合の中でクラスx^′に分類されている文書の数、及び学習用の文書の集合の中の
クラスx^′の文書の中に含まれるキーワードkey_iの数を示す学習用頻度データが格納され
ている第２の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えたデータ処理システムが、入力された新規文書のキーワード系列を利用して、該新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類方法であって、
前記頻度データ取得手段が、新規文書のキーワード系列が入力された際に、前記第１の記憶手段及び前記第２の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するステップと、
前記分類クラス決定手段が、前記新規文書のキーワード系列と、各クラスの前記事前分布推定用頻度データ及び前記学習用頻度データとが入力された際に、該新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率について該誤り率をベイズ基準のもとで最小にすることが保証された分類クラスを決定するステップと、
前記分類クラス決定手段が、前記新規文書に対して該決定した分類クラスを出力するステップと
を実行することを特徴とする文書自動分類方法。
前記分類クラス決定手段が、前記新規文書のキーワード系列、前記事前分布推定用頻度データ及び前記学習用頻度データとが入力されると、新規文書が各クラスx^′に含まれる
と仮定した場合の尤度λ(x^′)を

から算出する尤度算出器を備えていることを特徴とする請求項１に記載の文書自動分類方法。
事前分布推定用の文書の集合の中でクラスx^′に分類されている文書の数、及び事前分
布推定用の文書の集合の中のクラスx^′に分類されている文書の中に含まれるキーワードkey_iの数を示す事前分布推定用頻度データが格納されている第１の記憶手段と、学習用の
文書の集合の中でクラスx^′に分類されている文書の数、及び学習用の文書の集合の中の
クラスx^′の文書の中に含まれるキーワードkey_iの数を示す学習用頻度データが格納され
ている第２の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えたデータ処理システムが、入力された新規文書のキーワード系列を利用して、該新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類方法であって、
前記頻度データ取得手段が、新規文書のキーワード系列が入力された際に、前記第１の記憶手段及び前記第２の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するステップと、
前記分類クラス決定手段が、前記新規文書のキーワード系列と、各クラスの前記事前分布推定用頻度データ及び前記学習用頻度データとが入力された際に、該新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率について該誤り率をベイズ基準のもとで最小にする分類クラスの近似解を決定するステップと、
前記分類クラス決定手段が、前記新規文書に対して該決定した分類クラスを出力するステップと
を実行することを特徴とする文書自動分類方法。
前記分類クラス決定手段が、前記新規文書のキーワード系列、前記事前分布推定用頻度データ及び前記学習用頻度データとが入力されると、新規文書が各クラスx^′に含まれる
と仮定した場合の尤度λ(x^′)を

から算出する尤度算出器を備えていることを特徴とする請求項３に記載の文書自動分類方法。
前記分類クラス決定手段が、前記尤度算出器が算出した尤度λ(x^′)を用いて、尤度が
最大となるクラスxを分類クラスとして決定する分類クラス決定器をさらに備えているこ
とを特徴とする請求項２又は４に記載の文書自動分類方法。
前記第１の記憶手段に格納されている前記事前分布推定用頻度データが、頻度データF(x^′|v^G)と、頻度データ

ことを特徴とする請求項１から５のいずれか１項に記載の文書自動分類方法。
前記第２の記憶手段に格納されている前記学習用頻度データが、頻度データF(x^′|x^L)
と、頻度データ

ことを特徴とする請求項１から６のいずれか１項に記載の文書自動分類方法。
事前分布推定用の文書の集合の中でクラスx^′に分類されている文書の数、及び事前分
布推定用の文書の集合の中のクラスx^′に分類されている文書の中に含まれるキーワードkey_iの数を示す事前分布推定用頻度データが格納されている第１の記憶手段と、学習用の
文書の集合の中でクラスx^′に分類されている文書の数、及び学習用の文書の集合の中の
クラスx^′の文書の中に含まれるキーワードkey_iの数を示す学習用頻度データが格納され
ている第２の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えたデータ処理システムが、入力された新規文書のキーワード系列を利用して、該新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類方法であって、
前記頻度データ取得手段が、新規文書のキーワード系列が入力された際に、前記第１の記憶手段及び前記第２の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するステップと、
前記分類クラス決定手段が、前記新規文書のキーワード系列と、各クラスの前記事前分布推定用頻度データ及び前記学習用頻度データとが入力された際に、学習データ量が少量の場合は主に前記事前分布推定用頻度データを使用し、学習データ増加時には主に前記学習用頻度データ使用することにより、該新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率について該誤り率をベイズ基準のもとで最小にすることが保証された分類クラスを決定するステップと、
前記分類クラス決定手段が、前記新規文書に対して該決定した分類クラスを出力するステップと
を実行することを特徴とする文書自動分類方法。
前記分類クラス決定手段が、前記新規文書のキーワード系列、前記事前分布推定用頻度データ及び前記学習用頻度データとが入力されると、新規文書が各クラスx^′に含まれる
と仮定した場合の尤度λ(x^′)を

から算出する尤度算出器を備えていることを特徴とする請求項８に記載の文書自動分類方法。
事前分布推定用の文書の集合の中でクラスx^′に分類されている文書の数、及び事前分
布推定用の文書の集合の中のクラスx^′に分類されている文書の中に含まれるキーワードkey_iの数を示す事前分布推定用頻度データが格納されている第１の記憶手段と、学習用の
文書の集合の中でクラスx^′に分類されている文書の数、及び学習用の文書の集合の中の
クラスx^′の文書の中に含まれるキーワードkey_iの数を示す学習用頻度データが格納され
ている第２の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えたデータ処理システムが、入力された新規文書のキーワード系列を利用して、該新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類方法であって、
前記頻度データ取得手段が、新規文書のキーワード系列が入力された際に、前記第１の記憶手段及び前記第２の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するステップと、
前記分類クラス決定手段が、前記新規文書のキーワード系列と、各クラスの前記事前分布推定用頻度データ及び前記学習用頻度データとが入力された際に、学習データ量が少量の場合は主に前記事前分布推定用頻度データを使用し、学習データ増加時には主に前記学習用頻度データ使用することにより、該新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率について該誤り率をベイズ基準のもとで最小にする分類クラスの近似解を決定するステップと、
前記分類クラス決定手段が、前記新規文書に対して該決定した分類クラスを出力するステップと
を実行することを特徴とする文書自動分類方法。
前記分類クラス決定手段が、前記新規文書のキーワード系列、前記事前分布推定用頻度データ及び前記学習用頻度データとが入力されると、新規文書が各クラスx^′に含まれる
と仮定した場合の尤度λ(x^′)を

から算出する尤度算出器を備えていることを特徴とする請求項１０に記載の文書自動分類方法。
前記分類クラス決定手段が、前記尤度算出器が算出した尤度λ(x^′)を用いて、尤度が
最大となるクラスxを分類クラスとして決定する分類クラス決定器をさらに備えているこ
とを特徴とする請求項９又は１１に記載の文書自動分類方法。
前記第１の記憶手段に格納されている前記事前分布推定用頻度データが、頻度データF(x^′|v^G)と、頻度データ

ことを特徴とする請求項８から１２のいずれか１項に記載の文書自動分類方法。
前記第２の記憶手段に格納されている前記学習用頻度データが、頻度データF(x^′|x^L)
と、頻度データ

ことを特徴とする請求項８から１３のいずれか１項に記載の文書自動分類方法。
事前分布推定用の文書の集合の中でクラスx^′に分類されている文書の数、及び事前分
布推定用の文書の集合の中のクラスx^′に分類されている文書の中に含まれるキーワードkey_iの数を示す事前分布推定用頻度データが格納されている第１の記憶手段と、学習用の
文書の集合の中でクラスx^′に分類されている文書の数、及び学習用の文書の集合の中の
クラスx^′の文書の中に含まれるキーワードkey_iの数を示す学習用頻度データが格納され
ている第２の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えており、入力された新規文書のキーワード系列を利用して、該新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類システムであって、
前記頻度データ取得手段が、新規文書のキーワード系列が入力された際に、前記第１の記憶手段及び前記第２の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するように構成されており、
前記分類クラス決定手段が、前記新規文書のキーワード系列と、各クラスの前記事前分布推定用頻度データ及び前記学習用頻度データとが入力された際に、該新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率について該誤り率をベイズ基準のもとで最小にすることが保証された分類クラスを決定すると共に、前記新規文書に対して該決定した分類クラスを出力するように構成されていることを特徴とする文書自動分類システム。
前記分類クラス決定手段が、前記新規文書のキーワード系列、前記事前分布推定用頻度データ及び前記学習用頻度データとが入力されると、新規文書が各クラスx^′に含まれる
と仮定した場合の尤度λ(x^′)を

から算出する尤度算出器を備えていることを特徴とする請求項１５に記載の文書自動分類システム。
事前分布推定用の文書の集合の中でクラスx^′に分類されている文書の数、及び事前分
布推定用の文書の集合の中のクラスx^′に分類されている文書の中に含まれるキーワードkey_iの数を示す事前分布推定用頻度データが格納されている第１の記憶手段と、学習用の
文書の集合の中でクラスx^′に分類されている文書の数、及び学習用の文書の集合の中の
クラスx^′の文書の中に含まれるキーワードkey_iの数を示す学習用頻度データが格納され
ている第２の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えており、入力された新規文書のキーワード系列を利用して、該新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類システムであって、
前記頻度データ取得手段が、新規文書のキーワード系列が入力された際に、前記第１の記憶手段及び前記第２の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するように構成されており、
前記分類クラス決定手段が、前記新規文書のキーワード系列と、各クラスの前記事前分布推定用頻度データ及び前記学習用頻度データとが入力された際に、該新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率について該誤り率をベイズ基準のもとで最小にする分類クラスの近似解を決定するように構成されており、
前記分類クラス決定手段が、前記新規文書に対して該決定した分類クラスを出力するように構成されていることを特徴とする文書自動分類システム。
前記分類クラス決定手段が、前記新規文書のキーワード系列、前記事前分布推定用頻度データ及び前記学習用頻度データとが入力されると、新規文書が各クラスx^′に含まれる
と仮定した場合の尤度λ(x^′)を

から算出する尤度算出器を備えていることを特徴とする請求項１７に記載の文書自動分類システム。
前記分類クラス決定手段が、前記尤度算出器が算出した尤度λ(x^′)を用いて、尤度が
最大となるクラスxを分類クラスとして決定する分類クラス決定器をさらに備えているこ
とを特徴とする請求項１６又は１８に記載の文書自動分類システム。
前記第１の記憶手段に格納されている前記事前分布推定用頻度データが、頻度データF(x^′|v^G)と、頻度データ

ことを特徴とする請求項１５から１９のいずれか１項に記載の文書自動分類システム。
前記第２の記憶手段に格納されている前記学習用頻度データが、頻度データF(x^′|x^L)
と、頻度データ

ことを特徴とする請求項１５から２０のいずれか１項に記載の文書自動分類システム。
事前分布推定用の文書の集合の中でクラスx^′に分類されている文書の数、及び事前分
布推定用の文書の集合の中のクラスx^′に分類されている文書の中に含まれるキーワードkey_iの数を示す事前分布推定用頻度データが格納されている第１の記憶手段と、学習用の
文書の集合の中でクラスx^′に分類されている文書の数、及び学習用の文書の集合の中の
クラスx^′の文書の中に含まれるキーワードkey_iの数を示す学習用頻度データが格納され
ている第２の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えており、入力された新規文書のキーワード系列を利用して、該新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類システムであって、
前記頻度データ取得手段が、新規文書のキーワード系列が入力された際に、前記第１の記憶手段及び前記第２の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するように構成されており、
前記分類クラス決定手段が、前記新規文書のキーワード系列と、各クラスの前記事前分布推定用頻度データ及び前記学習用頻度データとが入力された際に、学習データ量が少量の場合は主に前記事前分布推定用頻度データを使用し、学習データ増加時には主に前記学習用頻度データ使用することにより、該新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率について該誤り率をベイズ基準のもとで最小にすることが保証された分類クラスを決定すると共に、前記新規文書に対して該決定した分類クラスを出力するように構成されていることを特徴とする文書自動分類システム。
前記分類クラス決定手段が、前記新規文書のキーワード系列、前記事前分布推定用頻度データ及び前記学習用頻度データとが入力されると、新規文書が各クラスx^′に含まれる
と仮定した場合の尤度λ(x^′)を

から算出する尤度算出器を備えていることを特徴とする請求項２２に記載の文書自動分類システム。
事前分布推定用の文書の集合の中でクラスx^′に分類されている文書の数、及び事前分
布推定用の文書の集合の中のクラスx^′に分類されている文書の中に含まれるキーワードkey_iの数を示す事前分布推定用頻度データが格納されている第１の記憶手段と、学習用の
文書の集合の中でクラスx^′に分類されている文書の数、及び学習用の文書の集合の中の
クラスx^′の文書の中に含まれるキーワードkey_iの数を示す学習用頻度データが格納され
ている第２の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えており、入力された新規文書のキーワード系列を利用して、該新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類システムであって、
前記頻度データ取得手段が、新規文書のキーワード系列が入力された際に、前記第１の記憶手段及び前記第２の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するように構成されており、
前記分類クラス決定手段が、前記新規文書のキーワード系列と、各クラスの前記事前分布推定用頻度データ及び前記学習用頻度データとが入力された際に、学習データ量が少量の場合は主に前記事前分布推定用頻度データを使用し、学習データ増加時には主に前記学習用頻度データ使用することにより、該新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率について該誤り率をベイズ基準のもとで最小にする分類クラスの近似解を決定するように構成されており、
前記分類クラス決定手段が、前記新規文書に対して該決定した分類クラスを出力するように構成されていることを特徴とする文書自動分類システム。
前記分類クラス決定手段が、前記新規文書のキーワード系列、前記事前分布推定用頻度データ及び前記学習用頻度データとが入力されると、新規文書が各クラスx^′に含まれる
と仮定した場合の尤度λ(x^′)を

から算出する尤度算出器を備えていることを特徴とする請求項２４に記載の文書自動分類システム。
前記分類クラス決定手段が、前記尤度算出器が算出した尤度λ(x^′)を用いて、尤度が
最大となるクラスxを分類クラスとして決定する分類クラス決定器をさらに備えているこ
とを特徴とする請求項２３又は２５に記載の文書自動分類システム。
前記第１の記憶手段に格納されている前記事前分布推定用頻度データが、頻度データF(x^′|v^G)と、頻度データ

ことを特徴とする請求項２２から２６のいずれか１項に記載の文書自動分類システム。
前記第２の記憶手段に格納されている前記学習用頻度データが、頻度データF(x^′|x^L)
と、頻度データ

ことを特徴とする請求項２２から２７のいずれか１項に記載の文書自動分類システム。