JP3582297B2

JP3582297B2 - 文書分類方法及び装置及び文書分類プログラムを格納した記憶媒体

Info

Publication number: JP3582297B2
Application number: JP11988197A
Authority: JP
Inventors: 俊哲巖寺
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1997-05-09
Filing date: 1997-05-09
Publication date: 2004-10-27
Anticipated expiration: 2017-05-09
Also published as: JPH10307843A

Description

【０００１】
【発明の属する技術分野】
本発明は、文書分類方法及び装置及び文書分類プログラムを格納した記憶媒体に係り、特に、文書情報処理に用いられ、次々と新たに生産される文書あるいは、次々と配信される文書の分類先を自動的に算出する機能を有する文書分類方法及び装置及び文書分類プログラムを格納した記憶媒体に関する。
【０００２】
【従来の技術】
近年、インターネットが急速に普及している。さらに、データ記憶装置は、大容量化、低価格化している。これに伴って大量で多様な情報がネットワークを介して容易に利用可能になっている。また、ＷＷＷの普及と共に多くのユーザが相互に情報を生成し、利用している。しかし、情報洪水といわれるように利用できる情報量が飛躍的に増加するに従って、これらの情報の中から有益な情報を見つけ出して、取捨選択することが困難になってきている。
【０００３】
このような大量の情報をすべて実際に閲覧し、有益な情報を捜し出すことは困難である。従って、適切な情報を効率的に利用するためには、大量の情報を分類整理し、必要十分な情報を選択的に利用できるようにする必要がある。しかし、ネットワークを介して利用する文書は、分量が膨大であり、次々と新たな情報が生成される。また、情報源が情報生産者の手元にあるため、変更も頻繁に容易に行われる。このため、人手では、大量の情報を大規模かつ複数の多様な分類体系に整理することは、困難である。さらに利用可能な情報の内容が変化した場合の分類体系の変更・修正も問題となる。
【０００４】
そこで、情報を分類整理するために、情報内容から適切な分類先を自動的に機械的に決定する自動分類技術が必要となる。この自動分類技術によって、大量かつ最新の情報を短期間で分類整理することが可能となる。また、人手を介在させることが必要ない。このため、作業者の相違や主観の相違によるばらつきが解消し、均質な分類結果が迅速に得られる。
【０００５】
文書自動分類技術は、文書内容を入力として内容が類似する分類先を出力するタスクである。
従来の技術では、文書内容を文書に含まれるキーワード集合で表す。また、分類先の分類性の算出対象として予め分類先毎に分けられたキーワード集合を学習データとして使用する。分類対象の文書と各分類先の類似性は、対象文書を表すキーワード集合と学習データ中の各分類先毎のキーワード集合の類似性で定義する。分類先は、これらのキーワード集合間の類似性から算出される。
【０００６】
従来技術におけるキーワード集合間の類似性の算出手法として次の２つが挙げられる。
１．特徴ベクトルを用いる手法
２．χ^２値を用いる手法
次にこれらの手法の概要について述べる。
【０００７】
１．特徴ベクトルを用いる手法：
この手法では、文書の特徴の指標として特徴ベクトルを用いる。特徴ベクトルは、文書から抽出したキーワード集合から作成される。これは、文書から抽出された各キーワードを成分とする。ベクトルの各成分の値は、各キーワードの重要度で表す。この手法では、文書または、文書集合間の類似性を上記の特徴ベクトル間の内積の値として算出する。
【０００８】
２．χ^２値を用いる手法：
χ^２値を用いる手法は、キーワードの出現頻度分布に対してχ^２検定の考え方を導入した手法である。キーワード分布のχ^２検定におけるχ^２値とは、各分類で一様にキーワードが出現したと仮定した場合の出現頻度（理論頻度）とある特定の分類際での実際のそのキーワードの出現頻度との差異を数値化したものである。キーワードが特定の分類先にのみ多く出現するキーワードのχ^２値は、大きな値となる。また、すべての分類先で一様に出現するキーワードのχ^２値は、０となる。従って、キーワードのχ^２値は、分類先を特徴付ける指標として利用できる。
【０００９】
【発明が解決しようとする課題】
しかしながら、上記従来の技術では、文書内容から文書を分類するために、文書中から抽出されたキーワードとその出現頻度に関する統計情報を利用している。これらの技術は、次のような共通する仕様を有する。
・予め与えられた分類先毎の文書集合から構成される学習データを使用する。
【００１０】
・「同一の分類先に属する文書中から抽出されるキーワードとその出現分布は類似する」という前提を利用している。
上記の従来の技術が持つ仕様では、次のような問題がある。
・新たな分類対象とする文書中のキーワードとその分布が変化し、学習データとして与えた予め想定した分類先毎の文書集合中のキーワードとその分布と差異が生じた場合、適切な分類ができず、誤った分類が成される。
【００１１】
・また、キーワードとその分布の変化に追従するためには、予め変化を許容し得る多量の学習データを与えるため、明示的に適切な学習データに変更する必要がある。しかし、多量の学習データはキーワードの多様な使用状況を含み得るため、誤った分類先が算出される可能性が増大する。さらに、データのための大容量の記憶装置を必要とし、分類先の算出には多くの計算資源を必要とする。また、学習データを変更する場合は、適切な学習データとして変化した後の文書集合を収集し分類先を確認し、明示する必要がある。これは、人手で行う必要があり、文書自動分類装置の利用目的に矛盾する。
【００１２】
上記の問題点を解決するためには、これらの手法に加えて、分類対象とする文書中のキーワードとその分布の変化に自動的に追従する技術が必要となる。
本発明は、上記の点に鑑みなされたもので、分類対象とする文書中のキーワードとその分布の変化に自動的に追従することにより、上記の従来の技術の問題点を解決し、分類対象の文書内容の変化にかかわらず、適切な分類先の出力が可能な文書分類方法及び装置及び文書分類プログラムを格納した記憶媒体を提供することを目的とする。
【００１３】
【課題を解決するための手段】
【００１４】
図１は、本発明の原理を説明するための図である。
本発明は、各文書から文書情報として抽出された表現単位ごとに、分類先への得点を成分とする得点ベクトルを予め蓄積しておき（ステップ１）、
文書が入力されると（ステップ２）、該文書から表現単位と各表現単位毎の出現頻度からなる文書情報を抽出し（ステップ３）、
抽出された前記文書情報のそれぞれの表現単位に対応する前記得点ベクトルの成分を分類先単位に合計した合計値を分類先への類似度とし、該類似度を成分とする類似度ベクトルを算出し（ステップ４）、
算出された類似度ベクトルの成分の中で、類似度の最も高いものに該当する分類先名を出力し（ステップ５）、
蓄積されている得点ベクトルと、文書情報及び、類似度ベクトルを用いて、文書情報中の各表現単位に対応する得点ベクトルの分類先に対応する成分の得点を、類似度ベクトルの各成分の大きさに応じて増減させる（ステップ６）。
【００１５】
また、本発明は、文書情報中の各表現単位に対応する得点ベクトルの分類先に対応する成分の得点の増減は、得点ベクトルと類似度ベクトルのなす角を等分する平均ベクトルを用いて行う。
また、本発明は、得点ベクトルの得点は、表現単位毎の分類先の出現頻度を求め、該出現頻度を用いたχ二乗値とする。
また、本発明は、文書情報中に含まれる各表現単位をキーとして得点ベクトルを検索し、それぞれの成分単位に、その得点の和により該類似度ベクトルを算出する。
図２は、本発明の原理構成図である。
本発明は、各文書から文書情報として抽出された表現単位ごとに、分類先への得点を成分とする得点ベクトルを予め蓄積しておく得点ベクトル記憶手段２１と、
文書を入力する文書入力手段１１と、
文書入力手段１１により文書が入力されると、該文書から表現単位と各表現単位毎の出現頻度からなる文書情報を抽出する文書情報抽出手段１２と、
抽出された文書情報のそれぞれの表現単位に対応する前記得点ベクトルの成分を分類先単位に合計した合計値を分類先への類似度とし、に基づいて、得点ベクトルのベクトル和により分類先への類似度を求め、該類似度を成分とする類似度ベクトルを算出する分類先算出手段１３と、
分類先算出手段１３で求められた類似度ベクトルの成分の中で、類似度の最も高いものに該当する分類先名を出力する出力手段１５と、
文書情報中の各表現単位に対応する得点ベクトルの分類先に対応する成分の得点の増減は、得点ベクトルと類似度ベクトルのなす角を等分する平均ベクトルを用いて行う得点ベクトル再計算手段と、を有する。
【００１６】
また、本発明は、得点ベクトル再計算手段において、文書情報中の各表現単位に対応する得点ベクトルの分類先に対応する成分の得点の増減は、得点ベクトルと類似度ベクトルのなす角を等分する平均ベクトルを用いて行う。
【００１７】
本発明は、文書を入力させる文書入力ステップと、
文書入力ステップで入力された文書から表現単位と各表現単位毎の出現頻度からなる文書情報を抽出する文書情報抽出ステップと、
抽出された前記文書情報のそれぞれの表現単位に対応する前記得点ベクトルの成分を分類先単位に合計した合計値を分類先への類似度とし、該類似度を成分とする類似度ベクトルを算出する分類先算出ステップと、
分類先算出ステップで算出された類似度ベクトルの成分の中で、類似度の最も高いものに該当する分類先名を出力させる出力ステップと、
記憶手段に蓄積されている得点ベクトルと、文書情報及び、類似度ベクトルを用いて、文書情報中の各表現単位に対応する得点ベクトルの分類先に対応する成分の得点を、類似度ベクトルの各成分の大きさに応じて増減させる得点ベクトル再計算ステップと、をコンピュータに実行させるプログラムを格納した文書分類プログラムを格納した記憶媒体である。
また、本発明は、得点ベクトル再計算ステップおいて、
文書情報中の各表現単位に対応する得点ベクトルの分類先に対応する成分の得点の増減は、得点ベクトルと類似度ベクトルのなす角を等分する平均ベクトルを用いて行うステップを実行させるプログラムを格納した文書分類プログラムを格納した記憶媒体である。
【００１８】
このように、本発明では、分類体系と各分類先に文書を分類するために使用する得点ベクトルは、自動的に獲得される。得点ベクトルの獲得は、予め提供される各文書の分類先が明示されている文書例集合から抽出される表現単位とその出現頻度に基づいて行われる。
各分類先に分類される文書の内容が時間の経過や使用状況の変換に追従して文書を適切に分類する。これは、得点ベクトルを再計算し、更新することにより行う。
【００１９】
様々な分類体系に対応して文書を分類する。これは、初期情報を変更することにより行う。
さらに、上記のような構成のプログラムを生成し、可搬記憶媒体に格納して流通させることが可能である。
【００２０】
【発明の実施の形態】
図３は、本発明の文書分類装置の構成を示す。
同図に示す文書分類装置は、例えば、ネットワーク・ニュース・システムの一部を構成し、入力されたニュース文書を適切なニュース・グループへ配信するために入力文書の分類先としてニュースグループ名を提供する装置である。ネットワーク・ニュース・システム本体から出力された文書集合を分類する場合を想定して説明する。ここで、当該文書分類装置は、入力として文書集合を受信し、予め提供されている初期情報を用い、入力された文書集合を処理し、各文書毎の分類先を出力するものである。
【００２１】
この実施形態の文書分類装置は、図３に示すように、監視制御部１０、文書入力部１１、文書情報抽出部１２、文書分類先算出部１３、得点ベクトル再計算部１４、分類先出力部１５、初期得点ベクトル獲得部１６、得点ベクトル参照部１７、得点ベクトル更新部１８から構成される。
ここで、各構成部１１〜１８を総合的に監視制御する監視制御部１０に処理部１１〜１８の各処理部が接続される。また、得点ベクトル参照部１７と得点ベクトル更新部１８には、得点ベクトル記憶部２１が接続される。
【００２２】
ここで、各処理部１０〜１８は、例えば、ディジタル電子計算機で構成され、それぞれＣＰＵと、動作プログラムとそれを実行するためのデータを記憶するＲＯＭと、ワーキングメモリとして用いられるＲＡＭとを備えるものとする。なお、各処理部１０〜１８を１つのディジタル電子計算機で構成するようにしてもよい。さらに、得点ベクトル記憶部２１は、例えば、ハードディスクメモリなどのメモリに記憶される。
【００２３】
まず、得点ベクトル参照部１７及び得点ベクトル更新部１８に接続される得点ベクトル記憶部２１について以下に説明する。
得点ベクトル記憶部２１は、得点ベクトルを記憶・保持する。得点ベクトルは、各文書から文書情報として抽出された表現単位と分類先との対応関係を記述した情報である。この情報は、複数のカラムからなるテーブルであり、各カラムは、各分類先に対応し、得点ベクトルの各成分に対応している。また、このテーブルにおいて、各行は、分類先の算出に使用する各１つの表現単位に対応する得点ベクトルに対応する。表現単位をキーとして対応する行を検索できる構造をとる。従って、対象とする分類体系がｎ個の分類先からなり、分類先の算出に使用される得点ベクトルがｍ個からなる場合、ｍ行にｎカラムのテーブルとなる。上述した構造を持つテーブルにおいて、各カラムには、表現単位と各分類先との関係の強弱を示す得点を記述する。この値の初期値は初期得点ベクトル獲得部１６によって算出される。また、得点ベクトル再計算部１４によって算出された値によって更新される。
【００２４】
次に図３に示す各処理部について説明する。
監視制御部１０は、すべての処理部１１〜１８を制御し、データフローを統制するモジュールである。
図４は、本発明の監視制御部によって実行される監視制御処理を説明するためのフローチャートである。
【００２５】
ステップ１０１）初期情報が入力されているか否かが判断される。入力された場合には、ステップ１０２に移行し、入力されていない場合にはステップ１０１の処理を繰り返す。
ステップ１０２）入力された初期情報を初期得点ベクトル獲得部１６に転送する。この時点で初期得点ベクトル獲得部１６は入力された初期情報に対して初期得点ベクトル獲得処理を実行し、処理結果である得点ベクトルを監視制御部１０に出力する。
【００２６】
ステップ１０３）初期得点ベクトル獲得部１６から出力されたすべての得点ベクトルを得点ベクトル更新部１８に転送する。このとき、得点ベクトル更新部１８は、得点ベクトル更新処理を実行し、得点ベクトル記憶部２１に記憶されている得点ベクトルを更新する。
ステップ１０４）文書が入力されたか否かが判断される。入力された場合は、ステップ１０５に移行し、入力されていない場合にはステップ１０４の処理を繰り返す。
【００２７】
ステップ１０５）入力された文書を文書入力部１１に転送する。文書入力部１１は、入力された文書に対して文書入力処理を実行し、処理結果を監視制御部１０に出力する。
ステップ１０６）文書入力部１１の出力結果を文書情報抽出部１２に転送する。このとき、文書情報抽出部１２は、転送された入力文書に対して文書情報抽出処理を実行し、抽出されたすべての文書情報を監視制御部１０に出力する。
【００２８】
ステップ１０７）文書情報抽出部１２から出力される文書情報抽出結果を文書分類先算出部１３に転送すると共に、得点ベクトル参照部１７から出力される得点ベクトルを文書分類先算出部１３に転送する。このとき、文書分類先算出部１３は、文書情報抽出結果と得点ベクトルに基づいて文書分類先算出処理を実行する。処理結果は、監視制御部１０に出力される。
【００２９】
ステップ１０８）文書分類先算出部１３から出力された文書分類先結果を分類先出力部１５に転送する。分類先出力部１５は、転送されてきた文書分類先結果に対して文書出力処理を実行する。また、同時に文書分類先算出部１３から出力された文書分類先算出結果を、得点ベクトル再計算部１４にも転送すると共に、得点ベクトル参照部１７から出力される得点ベクトルを得点ベクトル再計算部１４に転送する。得点ベクトル再計算部１４は、文書分類先算出結果と既に計算され、得点ベクトル記憶部２１に記憶されている得点ベクトルに基づいて得点ベクトル再計算処理を実行する。処理結果である得点ベクトルは、監視制御部１０へ出力される。
【００３０】
ステップ１０９）文書得点ベクトル再計算部１４から出力された得点ベクトルを得点ベクトル更新部１８へ転送する。得点ベクトル更新部１８は、得点ベクトル更新処理を実行し、得点ベクトル記憶部２１に記憶されている得点ベクトルを更新する。
ステップ１１０）すべての処理が終了か否かを判定し、すべての処理が終了している場合には、当該監視制御処理を終了する。また、終了しない場合には、ステップ１０４に移行し、上述の処理を繰り返す。
【００３１】
文書入力部１１では、入力された文書に対して文書入力処理が実行される。この処理は、以降の処理の前処理であり、入力された文書から文書分類先算出部１３において、分類先の算出に必要ない部分を除去する。また、以降の処理で対応している文字コードへ変換される。処理結果は、監視制御部１０に出力される。文書情報抽出部１２では、入力された文書から文書情報を抽出する。文書情報は、その文書を構成する表現単位と各単位毎の出現頻度である。表現単位は単語とする。表現単位として単語を用いる場合は、入力された文書中の表現に対して形態素解析処理を施すことによって抽出する。抽出結果は、監視制御部１０に出力する。
【００３２】
文書分類先算出部１３では、得点ベクトル記憶部２１に記憶されている得点ベクトルを参照しながら、文書情報抽出部１２で抽出された文書情報に基づいて分類先を算出する。
分類先の算出手順は、次のようになる。まず、文書情報中に含まれる各表現単位をキーとして得点ベクトルを検索し、それぞれの分類先毎の得点を取得する。この得点を用いて類似度ベクトルを算出する。類似度ベクトルは文書情報中に含まれている表現単位に対応するすべての得点ベクトルのベクトル和により算出する。類似度ベクトルの各成分が、各分類先に対応し、算出されたベクトルの各成分の値が各成分に対応する分類先の文書に対する類似度を示す。
【００３３】
算出結果として、類似度ベクトルが出力される。この結果は、監視制御部１０に出力される。
得点ベクトル再計算部１４では、得点ベクトルを再計算する。得点ベクトルの再計算は、得点ベクトル記憶部２１に既に記憶されている得点ベクトルと文書情報と類似度ベクトルを参照して行う。再計算によって、得点ベクトル記憶部２１に記憶されている各表現単位に対応する得点ベクトルの各成分値が変更される。文書情報は、文書情報抽出部１２から提供され、また、類似度ベクトルは、文書分類先算出部１３から提供される。得点ベクトル記憶部２１に既に記録されている得点ベクトルは、得点ベクトル参照部１７を介して取得する。
【００３４】
再計算処理は、文書分類先算出部１３から提供される類似度ベクトルを用いて文書情報中の各表現単位に対応する得点ベクトルの各分類先に対応する成分の得点を、類似度の大きさに応じて増減させることによって行う。再計算済得点ベクトルは、監視制御部１０に出力される。
文書出力部１５では、文書分類先算出部１３から出力された文書分類先算出結果である類似度ベクトルを受け取り、分類先名を出力装置（ディスプレイ）へ出力する。出力する分類先は、類似度ベクトル中の類似度の最も高い分類先である。
【００３５】
初期得点ベクトル獲得部１６では、予め提供される初期情報から初期得点ベクトルを獲得する。初期情報は、分類しようとする分類体系とその分類体系中の各分類先に分類される文書集合から構成される。
初期得点ベクトルは、次にように獲得される。まず、提供された各文書から表現単位を抽出し、与えられた初期情報全体での各表現単位毎分類先毎の出現頻度を求める。この出現頻度を用いて各表現単位毎に得点ベクトルを計算する。各成分の得点値は、前述した従来技術の項で述べたχ^２値を用いた手法によって算出する。処理結果は、各表現単位に対応する得点ベクトルである。この結果は、監視制御部１０に出力される。
【００３６】
得点ベクトル参照部１７は、得点ベクトル記憶部２１を参照し、出力する。出力結果は、指定した表現単位に対応した得点ベクトルである。出力結果は、監視制御部１０に出力される。
得点ベクトル更新部１８は、初期得点ベクトル獲得部１６あるいは、得点ベクトル再計算部１４から出力される得点ベクトルで、得点ベクトル記憶部２１に記憶されている対応する表現単位の行を更新する。
【００３７】
【実施例】
以下、図面と共に、本発明の実施例を説明する。
図５は、本発明の一実施例の初期情報の例であり、図６は、本発明の一実施例の分類対象文書の例を示す。
まず、初期情報が入力されているか否かが判断される。その結果、入力されていないことが判明すると、図５に示す初期情報が初期得点ベクトル獲得部１６に入力される。
【００３８】
初期情報は、分類しようとする分類体系中の分類先が付与されている文書集合として与える。図５において、文書（１）は、分類先「ｆｊ．ｒｅｃ．ａｕｔｏｓ」に、また、文書（２）は、分類先「ｊｆ．ｒｅｃ．ｆｏｏｄ」に分類されることを示す。
初期得点ベクトル獲得部１６では、まず、与えられた初期情報から表現単位として単語を抽出する。また、単語毎分類先毎の出現頻度を求める。その結果の一部を図７に示す。
【００３９】
次に、上記の出現頻度を用いて各単語毎に得点ベクトルを算出する。得点ベクトルの各成分値は、χ^２値を用いた手法により算出する。処理結果は、各単語に対応する得点ベクトルである。この結果の一部を図８に示す。図８は、本発明の一実施例の得点ベクトルの例である。
この結果は、監視制御部１０に出力される。監視制御部１０は、さらにこれを得点ベクトル更新部１８に転送する。
【００４０】
得点ベクトル更新部１８は、転送されてきた得点ベクトル（図８）を得点ベクトル記憶部２１に記憶する。
以上により、初期情報に関する処理が完了する。次に分類対象文書が入力されると、以下のように処理が進行する。
図６に示す分類対象文書が、文書入力部１１に入力される。文書入力部１１は、入力された文書から分類先の算出に必要ない部分を除去する。また、以降の処理に対応する文字コードへ変換する。処理結果は、監視制御部１０へ出力される。
【００４１】
監視制御部１０は、文書入力部１１から出力された分類対象文書を文書情報抽出部１２に転送する。
文書情報抽出部１２では、入力された文書から文書情報を抽出する。文書情報は、入力文書を構成する表現単位と各単位毎の出現頻度である。ここでは、表現単位として単語を用いる。従って、入力文書を形態素解析し、単語を抽出する。抽出結果を図９に示す。図９は、本発明の一実施例の文書情報抽出結果の例を示す。結果は、監視制御部１０に出力される。
【００４２】
監視制御部１０は、文書情報抽出結果を文書分類先算出部１３に転送する。
文書分類先算出部１３では、転送されてきた文書情報に基づいて分類先を算出する。このとき、得点ベクトル記憶部２１に記憶されている得点ベクトルを得点ベクトル参照部１７を介して参照する。
まず、文書情報中に含まれる各単語をキーとして、得点ベクトル記憶部２１を検索し、それぞれの得点ベクトルを取得する。図１０は、本発明の一実施例の得点ベクトル記憶部から取得した得点ベクトルの例である。
【００４３】
次に、得点ベクトル記憶部２１から取得した得点ベクトルを用いて、類似度ベクトルを算出する。類似度ベクトルは、文書情報中に含まれている単語に対応するすべての得点ベクトルのベクトル和により算出する。図１１は、本発明の一実施例の類似度ベクトルの例である。
類似度ベクトルの各成分は、各分類先に対応し、算出されたベクトルの各成分の値が各成分に対応する分類先の文書に対応する入力文書の類似度を示す。
【００４４】
類似度ベクトルは、監視制御部１０に出力される。監視制御部１０は、出力されてきた類似度ベクトルを得点ベクトル再計算部１４と文書出力部１５に転送する。
文書出力部１５では、文書分類先算出部１３から出力された監視制御部１０から転送されてきた類似度ベクトルを受け取り、分類先名を出力装置へ出力する。出力する分類先は、類似度ベクトル中の類似度の最も高いものである。図１２は、本発明の一実施例の分類先出力結果の例を示す。
【００４５】
得点ベクトル再計算部１４では、監視制御部１０から類似度ベクトルが転送されてくると得点ベクトル記憶部２１に記憶されている得点ベクトルを再計算する。
得点ベクトルの再計算は、文書情報として抽出された単語に対応する得点ベクトル記憶部２１に記憶されている得点ベクトルと類似度ベクトルを参照して行う。得点ベクトル記憶部２１に記憶されている得点ベクトルの参照は、得点ベクトル参照部１７を介して行う。
【００４６】
再計算は、文書情報中の各単語に対応する得点ベクトル各分類先に対応する成分の値を類似度ベクトルの各成分の大きさに応じて増減させる。増減は、図１３に示す式に従って行う。
図１４は、本発明の一実施例の再計算結果の例である。再計算済得点ベクトルは、監視制御部１０に出力される。監視制御部１０は、出力された再計算済得点ベクトルを得点ベクトル更新部１８に転送する。
【００４７】
得点ベクトル更新部１８では、転送されてきた再計算済得点ベクトルで得点ベクトル記憶部２１に記憶されている対応する行を更新する。
以上の一連の動作により、入力される分類対象文書を分類する。また、入力される文書内容に追従・適応して文書分類処理に使用する得点ベクトルを更新する。
【００４８】
以上の実施例では、種々の予め定義した値、計算式等を用いているが、これらの値は、設計値であり、下記のように必要に応じて変更してもよい。
・類似度の計算に分類対象文書中に含まれる単語に対応するすべての得点ベクトルのベクトル和により算出したが、この値は、従来技術の項で述べた特徴ベクトルを用いる手法や、χ^２値を用いる手法により算出してもよい。
【００４９】
・表現単位として単語を用いたが、この単位は、各文字、または、一定長の文字列でもよい。
・文書出力部１５の出力結果として、類似度の最も高い分類先を１つだけ出力しているが、予め決めた類似度以上の複数の分類先名を出力する等、使用方法に応じて決めてよい。
【００５０】
・初期得点ベクトルの各成分の得点値は、前述した従来技術の項で述べたχ^２値を用いた手法によって算出しているが、特徴ベクトルを用いた手法等によって算出してもよい。
・得点ベクトルの再計算は、図１３に従って計算しているが、別の計算式に従って計算してもよい。
【００５１】
なお、上記の実施例では、文書分類装置として説明したが、この例に限定されることなく、図３に示す各部の構成における動作をプログラムとして構築して、フロッピーディスク等の可搬記憶媒体に格納し、文書分類を行うコンピュータにインストールすることにより、インターネットにおいて、このような文書分類を行う場合に、個々の利用者のコンピュータにおいてより汎用的に利用することが可能となる。
【００５２】
なお、本発明は、上記の実施例に限定されることなく、特許請求の範囲内で種々変更・応用が可能である。
【００５３】
【発明の効果】
上述のように、本発明によれば、入力される文書内容に追従、適応して、文書分類に使用する文書得点ベクトルを更新することができる。これにより、使用開始時に想定したものと文書内容に差異が生じた場合も適切に分類することが可能となる。
【００５４】
また、本発明によれば、文書分類装置を電子メールの自動振り分け配信システムに適用することによって、自動的に適切な配信先を出力することが可能となる。また、文書検索システムの表示出力装置に適用することにより、効率的に検索結果を閲覧することが可能となる。
また、本発明では、不必要な情報を排除し、適切な情報を取得する情報フィルタリングシステムにも適用可能である。
【００５５】
さらに、文書分類装置の各構成要素を文書入力から分類先の出力に至る一連の動作をプログラムとして構築し、これを可搬記憶媒体に書き込み、インターネットの利用者のコンピュータにインストールすることにより、より汎用的に文書分類が可能となる。
【図面の簡単な説明】
【図１】本発明の原理を説明するための図である。
【図２】本発明の原理構成図である。
【図３】本発明の文書分類装置の構成図である。
【図４】本発明の監視制御部によって実行される監視制御処理を説明するためのフローチャートである。
【図５】本発明の一実施例の初期情報の例である。
【図６】本発明の一実施例の分類対象文書の例である。
【図７】本発明の一実施例の文書情報抽出結果の例である。
【図８】本発明の一実施例の得点ベクトルの例である。
【図９】本発明の一実施例の文書情報抽出結果の例である。
【図１０】本発明の一実施例の得点ベクトル記憶部から取得した得点ベクトルの例でわる。
【図１１】本発明の一実施例の類似度ベクトルの例である。
【図１２】本発明の一実施例の分類先出力結果の例である。
【図１３】本発明の一実施例の得点ベクトル再計算部における再計算式の例を示す。
【図１４】本発明の一実施例の再計算結果の例である。
【符号の説明】
１０監視制御部
１１文書入力部、文書入力手段
１２文書情報抽出部、文書情報抽出手段
１３文書分類先算出部、分類先算出手段
１４得点ベクトル再計算部
１５分類先出力部、出力手段
１６初期得点ベクトル獲得部
１７得点ベクトル参照部
１８得点ベクトル更新部
２１得点ベクトル記憶部、得点ベクトル記憶手段

Claims

各文書から文書情報として抽出された表現単位ごとに、分類先への得点を成分とする得点ベクトルを予め蓄積しておき、
文書が入力されると、該文書から表現単位と各表現単位毎の出現頻度からなる文書情報を抽出し、
抽出された前記文書情報のそれぞれの表現単位に対応する前記得点ベクトルの成分を分類先単位に合計した合計値を分類先への類似度とし、該類似度を成分とする類似度ベクトルを算出し、
算出された前記類似度ベクトルの成分の中で、類似度の最も高いものに該当する分類先名を出力し、
蓄積されている前記得点ベクトルと、前記文書情報及び、前記類似度ベクトルを用いて、前記文書情報中の各表現単位に対応する得点ベクトルの分類先に対応する成分の得点を、類似度ベクトルの各成分の大きさに応じて増減させることを特徴とする文書分類方法。
前記文書情報中の各表現単位に対応する得点ベクトルの分類先に対応する成分の得点の増減は、前記得点ベクトルと前記類似度ベクトルのなす角を等分する平均ベクトルを用いて行う請求項１記載の文書分類方法。
前記得点ベクトルの得点は、表現単位毎の分類先の出現頻度を求め、該出現頻度を用いたχ二乗値とすることを特徴とする請求項１または２記載の文書分類方法。
前記文書情報中に含まれる各表現単位をキーとして前記得点ベクトルを検索し、それぞれの成分単位に、その得点の和により該類似度ベクトルを算出する請求項１または、２記載の文書分類方法。
各文書から文書情報として抽出された表現単位ごとに、分類先への得点を成分とする得点ベクトルを予め蓄積しておく得点ベクトル記憶手段と、
文書を入力する文書入力手段と、
前記文書入力手段により文書が入力されると、該文書から表現単位と各表現単位毎の出現頻度からなる文書情報を抽出する文書情報抽出手段と、
抽出された前記文書情報のそれぞれの表現単位に対応する前記得点ベクトルの成分を分類先単位に合計した合計値を分類先への類似度とし、該類似度を成分とする類似度ベクトルを算出する分類先算出手段と、
前記分類先算出手段で算出された前記類似度ベクトルの成分の中で、類似度の最も高いものに該当する分類先名を出力する出力手段と、
前記得点ベクトル記憶手段に蓄積されている前記得点ベクトルと、前記文書情報及び、前記類似度ベクトルを用いて、前記文書情報中の各表現単位に対応する得点ベクトルの分類先に対応する成分の得点を、類似度ベクトルの各成分の大きさに応じて増減させる得点ベクトル再計算手段と、
を有することを有することを特徴とする文書分類装置。
前記得点ベクトル再計算手段において、
前記文書情報中の各表現単位に対応する得点ベクトルの分類先に対応する成分の得点の増減は、前記得点ベクトルと前記類似度ベクトルのなす角を等分する平均ベクトルを用いて行う請求項５記載の文書分類装置。
文書を入力させる文書入力ステップと、
前記文書入力ステップで入力された前記文書から表現単位と各表現単位毎の出現頻度からなる文書情報を抽出する文書情報抽出ステップと、
抽出された前記文書情報のそれぞれの表現単位に対応する前記得点ベクトルの成分を分類先単位に合計した合計値を分類先への類似度とし、該類似度を成分とする類似度ベクトルを算出する分類先算出ステップと、
前記分類先算出ステップで算出された前記類似度ベクトルの成分の中で、類似度の最も高いものに該当する分類先名を出力させる出力ステップと、
前記記憶手段に蓄積されている前記得点ベクトルと、前記文書情報及び、前記類似度ベクトルを用いて、前記文書情報中の各表現単位に対応する得点ベクトルの分類先に対応する成分の得点を、類似度ベクトルの各成分の大きさに応じて増減させる得点ベクトル再計算ステップと、
をコンピュータに実行させるプログラムを格納したことを特徴とする文書分類プログラムを格納した記憶媒体。
前記得点ベクトル再計算ステップおいて、
前記文書情報中の各表現単位に対応する得点ベクトルの分類先に対応する成分の得点の増減は、前記得点ベクトルと前記類似度ベクトルのなす角を等分する平均ベクトルを用いて行うステップを実行させる請求項７記載の文書分類プログラムを格納した記憶媒体。