JP3582297B2 - 文書分類方法及び装置及び文書分類プログラムを格納した記憶媒体 - Google Patents

文書分類方法及び装置及び文書分類プログラムを格納した記憶媒体 Download PDF

Info

Publication number
JP3582297B2
JP3582297B2 JP11988197A JP11988197A JP3582297B2 JP 3582297 B2 JP3582297 B2 JP 3582297B2 JP 11988197 A JP11988197 A JP 11988197A JP 11988197 A JP11988197 A JP 11988197A JP 3582297 B2 JP3582297 B2 JP 3582297B2
Authority
JP
Japan
Prior art keywords
document
vector
score
similarity
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP11988197A
Other languages
English (en)
Other versions
JPH10307843A (ja
Inventor
俊哲 巖寺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP11988197A priority Critical patent/JP3582297B2/ja
Publication of JPH10307843A publication Critical patent/JPH10307843A/ja
Application granted granted Critical
Publication of JP3582297B2 publication Critical patent/JP3582297B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、文書分類方法及び装置及び文書分類プログラムを格納した記憶媒体に係り、特に、文書情報処理に用いられ、次々と新たに生産される文書あるいは、次々と配信される文書の分類先を自動的に算出する機能を有する文書分類方法及び装置及び文書分類プログラムを格納した記憶媒体に関する。
【0002】
【従来の技術】
近年、インターネットが急速に普及している。さらに、データ記憶装置は、大容量化、低価格化している。これに伴って大量で多様な情報がネットワークを介して容易に利用可能になっている。また、WWWの普及と共に多くのユーザが相互に情報を生成し、利用している。しかし、情報洪水といわれるように利用できる情報量が飛躍的に増加するに従って、これらの情報の中から有益な情報を見つけ出して、取捨選択することが困難になってきている。
【0003】
このような大量の情報をすべて実際に閲覧し、有益な情報を捜し出すことは困難である。従って、適切な情報を効率的に利用するためには、大量の情報を分類整理し、必要十分な情報を選択的に利用できるようにする必要がある。しかし、ネットワークを介して利用する文書は、分量が膨大であり、次々と新たな情報が生成される。また、情報源が情報生産者の手元にあるため、変更も頻繁に容易に行われる。このため、人手では、大量の情報を大規模かつ複数の多様な分類体系に整理することは、困難である。さらに利用可能な情報の内容が変化した場合の分類体系の変更・修正も問題となる。
【0004】
そこで、情報を分類整理するために、情報内容から適切な分類先を自動的に機械的に決定する自動分類技術が必要となる。この自動分類技術によって、大量かつ最新の情報を短期間で分類整理することが可能となる。また、人手を介在させることが必要ない。このため、作業者の相違や主観の相違によるばらつきが解消し、均質な分類結果が迅速に得られる。
【0005】
文書自動分類技術は、文書内容を入力として内容が類似する分類先を出力するタスクである。
従来の技術では、文書内容を文書に含まれるキーワード集合で表す。また、分類先の分類性の算出対象として予め分類先毎に分けられたキーワード集合を学習データとして使用する。分類対象の文書と各分類先の類似性は、対象文書を表すキーワード集合と学習データ中の各分類先毎のキーワード集合の類似性で定義する。分類先は、これらのキーワード集合間の類似性から算出される。
【0006】
従来技術におけるキーワード集合間の類似性の算出手法として次の2つが挙げられる。
1.特徴ベクトルを用いる手法
2.χ値を用いる手法
次にこれらの手法の概要について述べる。
【0007】
1.特徴ベクトルを用いる手法:
この手法では、文書の特徴の指標として特徴ベクトルを用いる。特徴ベクトルは、文書から抽出したキーワード集合から作成される。これは、文書から抽出された各キーワードを成分とする。ベクトルの各成分の値は、各キーワードの重要度で表す。この手法では、文書または、文書集合間の類似性を上記の特徴ベクトル間の内積の値として算出する。
【0008】
2.χ値を用いる手法:
χ値を用いる手法は、キーワードの出現頻度分布に対してχ検定の考え方を導入した手法である。キーワード分布のχ検定におけるχ値とは、各分類で一様にキーワードが出現したと仮定した場合の出現頻度(理論頻度)とある特定の分類際での実際のそのキーワードの出現頻度との差異を数値化したものである。キーワードが特定の分類先にのみ多く出現するキーワードのχ値は、大きな値となる。また、すべての分類先で一様に出現するキーワードのχ値は、0となる。従って、キーワードのχ値は、分類先を特徴付ける指標として利用できる。
【0009】
【発明が解決しようとする課題】
しかしながら、上記従来の技術では、文書内容から文書を分類するために、文書中から抽出されたキーワードとその出現頻度に関する統計情報を利用している。これらの技術は、次のような共通する仕様を有する。
・予め与えられた分類先毎の文書集合から構成される学習データを使用する。
【0010】
・「同一の分類先に属する文書中から抽出されるキーワードとその出現分布は類似する」という前提を利用している。
上記の従来の技術が持つ仕様では、次のような問題がある。
・新たな分類対象とする文書中のキーワードとその分布が変化し、学習データとして与えた予め想定した分類先毎の文書集合中のキーワードとその分布と差異が生じた場合、適切な分類ができず、誤った分類が成される。
【0011】
・また、キーワードとその分布の変化に追従するためには、予め変化を許容し得る多量の学習データを与えるため、明示的に適切な学習データに変更する必要がある。しかし、多量の学習データはキーワードの多様な使用状況を含み得るため、誤った分類先が算出される可能性が増大する。さらに、データのための大容量の記憶装置を必要とし、分類先の算出には多くの計算資源を必要とする。また、学習データを変更する場合は、適切な学習データとして変化した後の文書集合を収集し分類先を確認し、明示する必要がある。これは、人手で行う必要があり、文書自動分類装置の利用目的に矛盾する。
【0012】
上記の問題点を解決するためには、これらの手法に加えて、分類対象とする文書中のキーワードとその分布の変化に自動的に追従する技術が必要となる。
本発明は、上記の点に鑑みなされたもので、分類対象とする文書中のキーワードとその分布の変化に自動的に追従することにより、上記の従来の技術の問題点を解決し、分類対象の文書内容の変化にかかわらず、適切な分類先の出力が可能な文書分類方法及び装置及び文書分類プログラムを格納した記憶媒体を提供することを目的とする。
【0013】
【課題を解決するための手段】
【0014】
図1は、本発明の原理を説明するための図である。
本発明は、各文書から文書情報として抽出された表現単位ごとに、分類先への得点を成分とする得点ベクトルを予め蓄積しておき(ステップ1)、
文書が入力されると(ステップ2)、該文書から表現単位と各表現単位毎の出現頻度からなる文書情報を抽出し(ステップ3)、
抽出された前記文書情報のそれぞれの表現単位に対応する前記得点ベクトルの成分を分類先単位に合計した合計値を分類先への類似度とし、該類似度を成分とする類似度ベクトルを算出し(ステップ4)、
算出された類似度ベクトルの成分の中で、類似度の最も高いものに該当する分類先名を出力し(ステップ5)、
蓄積されている得点ベクトルと、文書情報及び、類似度ベクトルを用いて、文書情報中の各表現単位に対応する得点ベクトルの分類先に対応する成分の得点を、類似度ベクトルの各成分の大きさに応じて増減させる(ステップ6)。
【0015】
また、本発明は、文書情報中の各表現単位に対応する得点ベクトルの分類先に対応する成分の得点の増減は、得点ベクトルと類似度ベクトルのなす角を等分する平均ベクトルを用いて行う。
また、本発明は、得点ベクトルの得点は、表現単位毎の分類先の出現頻度を求め、該出現頻度を用いたχ二乗値とする。
また、本発明は、文書情報中に含まれる各表現単位をキーとして得点ベクトルを検索し、それぞれの成分単位に、その得点の和により該類似度ベクトルを算出する。
図2は、本発明の原理構成図である。
本発明は、各文書から文書情報として抽出された表現単位ごとに、分類先への得点を成分とする得点ベクトルを予め蓄積しておく得点ベクトル記憶手段21と、
文書を入力する文書入力手段11と、
文書入力手段11により文書が入力されると、該文書から表現単位と各表現単位毎の出現頻度からなる文書情報を抽出する文書情報抽出手段12と、
抽出された文書情報のそれぞれの表現単位に対応する前記得点ベクトルの成分を分類先単位に合計した合計値を分類先への類似度とし、に基づいて、得点ベクトルのベクトル和により分類先への類似度を求め、該類似度を成分とする類似度ベクトルを算出する分類先算出手段13と、
分類先算出手段13で求められた類似度ベクトルの成分の中で、類似度の最も高いものに該当する分類先名を出力する出力手段15と、
文書情報中の各表現単位に対応する得点ベクトルの分類先に対応する成分の得点の増減は、得点ベクトルと類似度ベクトルのなす角を等分する平均ベクトルを用いて行う得点ベクトル再計算手段と、を有する。
【0016】
また、本発明は、得点ベクトル再計算手段において、文書情報中の各表現単位に対応する得点ベクトルの分類先に対応する成分の得点の増減は、得点ベクトルと類似度ベクトルのなす角を等分する平均ベクトルを用いて行う。
【0017】
本発明は、文書を入力させる文書入力ステップと、
文書入力ステップで入力された文書から表現単位と各表現単位毎の出現頻度からなる文書情報を抽出する文書情報抽出ステップと、
抽出された前記文書情報のそれぞれの表現単位に対応する前記得点ベクトルの成分を分類先単位に合計した合計値を分類先への類似度とし、該類似度を成分とする類似度ベクトルを算出する分類先算出ステップと、
分類先算出ステップで算出された類似度ベクトルの成分の中で、類似度の最も高いものに該当する分類先名を出力させる出力ステップと、
記憶手段に蓄積されている得点ベクトルと、文書情報及び、類似度ベクトルを用いて、文書情報中の各表現単位に対応する得点ベクトルの分類先に対応する成分の得点を、類似度ベクトルの各成分の大きさに応じて増減させる得点ベクトル再計算ステップと、をコンピュータに実行させるプログラムを格納した文書分類プログラムを格納した記憶媒体である。
また、本発明は、得点ベクトル再計算ステップおいて、
文書情報中の各表現単位に対応する得点ベクトルの分類先に対応する成分の得点の増減は、得点ベクトルと類似度ベクトルのなす角を等分する平均ベクトルを用いて行うステップを実行させるプログラムを格納した文書分類プログラムを格納した記憶媒体である。
【0018】
このように、本発明では、分類体系と各分類先に文書を分類するために使用する得点ベクトルは、自動的に獲得される。得点ベクトルの獲得は、予め提供される各文書の分類先が明示されている文書例集合から抽出される表現単位とその出現頻度に基づいて行われる。
各分類先に分類される文書の内容が時間の経過や使用状況の変換に追従して文書を適切に分類する。これは、得点ベクトルを再計算し、更新することにより行う。
【0019】
様々な分類体系に対応して文書を分類する。これは、初期情報を変更することにより行う。
さらに、上記のような構成のプログラムを生成し、可搬記憶媒体に格納して流通させることが可能である。
【0020】
【発明の実施の形態】
図3は、本発明の文書分類装置の構成を示す。
同図に示す文書分類装置は、例えば、ネットワーク・ニュース・システムの一部を構成し、入力されたニュース文書を適切なニュース・グループへ配信するために入力文書の分類先としてニュースグループ名を提供する装置である。ネットワーク・ニュース・システム本体から出力された文書集合を分類する場合を想定して説明する。ここで、当該文書分類装置は、入力として文書集合を受信し、予め提供されている初期情報を用い、入力された文書集合を処理し、各文書毎の分類先を出力するものである。
【0021】
この実施形態の文書分類装置は、図3に示すように、監視制御部10、文書入力部11、文書情報抽出部12、文書分類先算出部13、得点ベクトル再計算部14、分類先出力部15、初期得点ベクトル獲得部16、得点ベクトル参照部17、得点ベクトル更新部18から構成される。
ここで、各構成部11〜18を総合的に監視制御する監視制御部10に処理部11〜18の各処理部が接続される。また、得点ベクトル参照部17と得点ベクトル更新部18には、得点ベクトル記憶部21が接続される。
【0022】
ここで、各処理部10〜18は、例えば、ディジタル電子計算機で構成され、それぞれCPUと、動作プログラムとそれを実行するためのデータを記憶するROMと、ワーキングメモリとして用いられるRAMとを備えるものとする。なお、各処理部10〜18を1つのディジタル電子計算機で構成するようにしてもよい。さらに、得点ベクトル記憶部21は、例えば、ハードディスクメモリなどのメモリに記憶される。
【0023】
まず、得点ベクトル参照部17及び得点ベクトル更新部18に接続される得点ベクトル記憶部21について以下に説明する。
得点ベクトル記憶部21は、得点ベクトルを記憶・保持する。得点ベクトルは、各文書から文書情報として抽出された表現単位と分類先との対応関係を記述した情報である。この情報は、複数のカラムからなるテーブルであり、各カラムは、各分類先に対応し、得点ベクトルの各成分に対応している。また、このテーブルにおいて、各行は、分類先の算出に使用する各1つの表現単位に対応する得点ベクトルに対応する。表現単位をキーとして対応する行を検索できる構造をとる。従って、対象とする分類体系がn個の分類先からなり、分類先の算出に使用される得点ベクトルがm個からなる場合、m行にnカラムのテーブルとなる。上述した構造を持つテーブルにおいて、各カラムには、表現単位と各分類先との関係の強弱を示す得点を記述する。この値の初期値は初期得点ベクトル獲得部16によって算出される。また、得点ベクトル再計算部14によって算出された値によって更新される。
【0024】
次に図3に示す各処理部について説明する。
監視制御部10は、すべての処理部11〜18を制御し、データフローを統制するモジュールである。
図4は、本発明の監視制御部によって実行される監視制御処理を説明するためのフローチャートである。
【0025】
ステップ101) 初期情報が入力されているか否かが判断される。入力された場合には、ステップ102に移行し、入力されていない場合にはステップ101の処理を繰り返す。
ステップ102) 入力された初期情報を初期得点ベクトル獲得部16に転送する。この時点で初期得点ベクトル獲得部16は入力された初期情報に対して初期得点ベクトル獲得処理を実行し、処理結果である得点ベクトルを監視制御部10に出力する。
【0026】
ステップ103) 初期得点ベクトル獲得部16から出力されたすべての得点ベクトルを得点ベクトル更新部18に転送する。このとき、得点ベクトル更新部18は、得点ベクトル更新処理を実行し、得点ベクトル記憶部21に記憶されている得点ベクトルを更新する。
ステップ104) 文書が入力されたか否かが判断される。入力された場合は、ステップ105に移行し、入力されていない場合にはステップ104の処理を繰り返す。
【0027】
ステップ105) 入力された文書を文書入力部11に転送する。文書入力部11は、入力された文書に対して文書入力処理を実行し、処理結果を監視制御部10に出力する。
ステップ106) 文書入力部11の出力結果を文書情報抽出部12に転送する。このとき、文書情報抽出部12は、転送された入力文書に対して文書情報抽出処理を実行し、抽出されたすべての文書情報を監視制御部10に出力する。
【0028】
ステップ107) 文書情報抽出部12から出力される文書情報抽出結果を文書分類先算出部13に転送すると共に、得点ベクトル参照部17から出力される得点ベクトルを文書分類先算出部13に転送する。このとき、文書分類先算出部13は、文書情報抽出結果と得点ベクトルに基づいて文書分類先算出処理を実行する。処理結果は、監視制御部10に出力される。
【0029】
ステップ108) 文書分類先算出部13から出力された文書分類先結果を分類先出力部15に転送する。分類先出力部15は、転送されてきた文書分類先結果に対して文書出力処理を実行する。また、同時に文書分類先算出部13から出力された文書分類先算出結果を、得点ベクトル再計算部14にも転送すると共に、得点ベクトル参照部17から出力される得点ベクトルを得点ベクトル再計算部14に転送する。得点ベクトル再計算部14は、文書分類先算出結果と既に計算され、得点ベクトル記憶部21に記憶されている得点ベクトルに基づいて得点ベクトル再計算処理を実行する。処理結果である得点ベクトルは、監視制御部10へ出力される。
【0030】
ステップ109) 文書得点ベクトル再計算部14から出力された得点ベクトルを得点ベクトル更新部18へ転送する。得点ベクトル更新部18は、得点ベクトル更新処理を実行し、得点ベクトル記憶部21に記憶されている得点ベクトルを更新する。
ステップ110) すべての処理が終了か否かを判定し、すべての処理が終了している場合には、当該監視制御処理を終了する。また、終了しない場合には、ステップ104に移行し、上述の処理を繰り返す。
【0031】
文書入力部11では、入力された文書に対して文書入力処理が実行される。この処理は、以降の処理の前処理であり、入力された文書から文書分類先算出部13において、分類先の算出に必要ない部分を除去する。また、以降の処理で対応している文字コードへ変換される。処理結果は、監視制御部10に出力される。文書情報抽出部12では、入力された文書から文書情報を抽出する。文書情報は、その文書を構成する表現単位と各単位毎の出現頻度である。表現単位は単語とする。表現単位として単語を用いる場合は、入力された文書中の表現に対して形態素解析処理を施すことによって抽出する。抽出結果は、監視制御部10に出力する。
【0032】
文書分類先算出部13では、得点ベクトル記憶部21に記憶されている得点ベクトルを参照しながら、文書情報抽出部12で抽出された文書情報に基づいて分類先を算出する。
分類先の算出手順は、次のようになる。まず、文書情報中に含まれる各表現単位をキーとして得点ベクトルを検索し、それぞれの分類先毎の得点を取得する。この得点を用いて類似度ベクトルを算出する。類似度ベクトルは文書情報中に含まれている表現単位に対応するすべての得点ベクトルのベクトル和により算出する。類似度ベクトルの各成分が、各分類先に対応し、算出されたベクトルの各成分の値が各成分に対応する分類先の文書に対する類似度を示す。
【0033】
算出結果として、類似度ベクトルが出力される。この結果は、監視制御部10に出力される。
得点ベクトル再計算部14では、得点ベクトルを再計算する。得点ベクトルの再計算は、得点ベクトル記憶部21に既に記憶されている得点ベクトルと文書情報と類似度ベクトルを参照して行う。再計算によって、得点ベクトル記憶部21に記憶されている各表現単位に対応する得点ベクトルの各成分値が変更される。文書情報は、文書情報抽出部12から提供され、また、類似度ベクトルは、文書分類先算出部13から提供される。得点ベクトル記憶部21に既に記録されている得点ベクトルは、得点ベクトル参照部17を介して取得する。
【0034】
再計算処理は、文書分類先算出部13から提供される類似度ベクトルを用いて文書情報中の各表現単位に対応する得点ベクトルの各分類先に対応する成分の得点を、類似度の大きさに応じて増減させることによって行う。再計算済得点ベクトルは、監視制御部10に出力される。
文書出力部15では、文書分類先算出部13から出力された文書分類先算出結果である類似度ベクトルを受け取り、分類先名を出力装置(ディスプレイ)へ出力する。出力する分類先は、類似度ベクトル中の類似度の最も高い分類先である。
【0035】
初期得点ベクトル獲得部16では、予め提供される初期情報から初期得点ベクトルを獲得する。初期情報は、分類しようとする分類体系とその分類体系中の各分類先に分類される文書集合から構成される。
初期得点ベクトルは、次にように獲得される。まず、提供された各文書から表現単位を抽出し、与えられた初期情報全体での各表現単位毎分類先毎の出現頻度を求める。この出現頻度を用いて各表現単位毎に得点ベクトルを計算する。各成分の得点値は、前述した従来技術の項で述べたχ値を用いた手法によって算出する。処理結果は、各表現単位に対応する得点ベクトルである。この結果は、監視制御部10に出力される。
【0036】
得点ベクトル参照部17は、得点ベクトル記憶部21を参照し、出力する。出力結果は、指定した表現単位に対応した得点ベクトルである。出力結果は、監視制御部10に出力される。
得点ベクトル更新部18は、初期得点ベクトル獲得部16あるいは、得点ベクトル再計算部14から出力される得点ベクトルで、得点ベクトル記憶部21に記憶されている対応する表現単位の行を更新する。
【0037】
【実施例】
以下、図面と共に、本発明の実施例を説明する。
図5は、本発明の一実施例の初期情報の例であり、図6は、本発明の一実施例の分類対象文書の例を示す。
まず、初期情報が入力されているか否かが判断される。その結果、入力されていないことが判明すると、図5に示す初期情報が初期得点ベクトル獲得部16に入力される。
【0038】
初期情報は、分類しようとする分類体系中の分類先が付与されている文書集合として与える。図5において、文書(1)は、分類先「fj.rec.autos」に、また、文書(2)は、分類先「jf.rec.food 」に分類されることを示す。
初期得点ベクトル獲得部16では、まず、与えられた初期情報から表現単位として単語を抽出する。また、単語毎分類先毎の出現頻度を求める。その結果の一部を図7に示す。
【0039】
次に、上記の出現頻度を用いて各単語毎に得点ベクトルを算出する。得点ベクトルの各成分値は、χ値を用いた手法により算出する。処理結果は、各単語に対応する得点ベクトルである。この結果の一部を図8に示す。図8は、本発明の一実施例の得点ベクトルの例である。
この結果は、監視制御部10に出力される。監視制御部10は、さらにこれを得点ベクトル更新部18に転送する。
【0040】
得点ベクトル更新部18は、転送されてきた得点ベクトル(図8)を得点ベクトル記憶部21に記憶する。
以上により、初期情報に関する処理が完了する。次に分類対象文書が入力されると、以下のように処理が進行する。
図6に示す分類対象文書が、文書入力部11に入力される。文書入力部11は、入力された文書から分類先の算出に必要ない部分を除去する。また、以降の処理に対応する文字コードへ変換する。処理結果は、監視制御部10へ出力される。
【0041】
監視制御部10は、文書入力部11から出力された分類対象文書を文書情報抽出部12に転送する。
文書情報抽出部12では、入力された文書から文書情報を抽出する。文書情報は、入力文書を構成する表現単位と各単位毎の出現頻度である。ここでは、表現単位として単語を用いる。従って、入力文書を形態素解析し、単語を抽出する。抽出結果を図9に示す。図9は、本発明の一実施例の文書情報抽出結果の例を示す。結果は、監視制御部10に出力される。
【0042】
監視制御部10は、文書情報抽出結果を文書分類先算出部13に転送する。
文書分類先算出部13では、転送されてきた文書情報に基づいて分類先を算出する。このとき、得点ベクトル記憶部21に記憶されている得点ベクトルを得点ベクトル参照部17を介して参照する。
まず、文書情報中に含まれる各単語をキーとして、得点ベクトル記憶部21を検索し、それぞれの得点ベクトルを取得する。図10は、本発明の一実施例の得点ベクトル記憶部から取得した得点ベクトルの例である。
【0043】
次に、得点ベクトル記憶部21から取得した得点ベクトルを用いて、類似度ベクトルを算出する。類似度ベクトルは、文書情報中に含まれている単語に対応するすべての得点ベクトルのベクトル和により算出する。図11は、本発明の一実施例の類似度ベクトルの例である。
類似度ベクトルの各成分は、各分類先に対応し、算出されたベクトルの各成分の値が各成分に対応する分類先の文書に対応する入力文書の類似度を示す。
【0044】
類似度ベクトルは、監視制御部10に出力される。監視制御部10は、出力されてきた類似度ベクトルを得点ベクトル再計算部14と文書出力部15に転送する。
文書出力部15では、文書分類先算出部13から出力された監視制御部10から転送されてきた類似度ベクトルを受け取り、分類先名を出力装置へ出力する。出力する分類先は、類似度ベクトル中の類似度の最も高いものである。図12は、本発明の一実施例の分類先出力結果の例を示す。
【0045】
得点ベクトル再計算部14では、監視制御部10から類似度ベクトルが転送されてくると得点ベクトル記憶部21に記憶されている得点ベクトルを再計算する。
得点ベクトルの再計算は、文書情報として抽出された単語に対応する得点ベクトル記憶部21に記憶されている得点ベクトルと類似度ベクトルを参照して行う。得点ベクトル記憶部21に記憶されている得点ベクトルの参照は、得点ベクトル参照部17を介して行う。
【0046】
再計算は、文書情報中の各単語に対応する得点ベクトル各分類先に対応する成分の値を類似度ベクトルの各成分の大きさに応じて増減させる。増減は、図13に示す式に従って行う。
図14は、本発明の一実施例の再計算結果の例である。再計算済得点ベクトルは、監視制御部10に出力される。監視制御部10は、出力された再計算済得点ベクトルを得点ベクトル更新部18に転送する。
【0047】
得点ベクトル更新部18では、転送されてきた再計算済得点ベクトルで得点ベクトル記憶部21に記憶されている対応する行を更新する。
以上の一連の動作により、入力される分類対象文書を分類する。また、入力される文書内容に追従・適応して文書分類処理に使用する得点ベクトルを更新する。
【0048】
以上の実施例では、種々の予め定義した値、計算式等を用いているが、これらの値は、設計値であり、下記のように必要に応じて変更してもよい。
・類似度の計算に分類対象文書中に含まれる単語に対応するすべての得点ベクトルのベクトル和により算出したが、この値は、従来技術の項で述べた特徴ベクトルを用いる手法や、χ値を用いる手法により算出してもよい。
【0049】
・表現単位として単語を用いたが、この単位は、各文字、または、一定長の文字列でもよい。
・文書出力部15の出力結果として、類似度の最も高い分類先を1つだけ出力しているが、予め決めた類似度以上の複数の分類先名を出力する等、使用方法に応じて決めてよい。
【0050】
・初期得点ベクトルの各成分の得点値は、前述した従来技術の項で述べたχ値を用いた手法によって算出しているが、特徴ベクトルを用いた手法等によって算出してもよい。
・得点ベクトルの再計算は、図13に従って計算しているが、別の計算式に従って計算してもよい。
【0051】
なお、上記の実施例では、文書分類装置として説明したが、この例に限定されることなく、図3に示す各部の構成における動作をプログラムとして構築して、フロッピーディスク等の可搬記憶媒体に格納し、文書分類を行うコンピュータにインストールすることにより、インターネットにおいて、このような文書分類を行う場合に、個々の利用者のコンピュータにおいてより汎用的に利用することが可能となる。
【0052】
なお、本発明は、上記の実施例に限定されることなく、特許請求の範囲内で種々変更・応用が可能である。
【0053】
【発明の効果】
上述のように、本発明によれば、入力される文書内容に追従、適応して、文書分類に使用する文書得点ベクトルを更新することができる。これにより、使用開始時に想定したものと文書内容に差異が生じた場合も適切に分類することが可能となる。
【0054】
また、本発明によれば、文書分類装置を電子メールの自動振り分け配信システムに適用することによって、自動的に適切な配信先を出力することが可能となる。また、文書検索システムの表示出力装置に適用することにより、効率的に検索結果を閲覧することが可能となる。
また、本発明では、不必要な情報を排除し、適切な情報を取得する情報フィルタリングシステムにも適用可能である。
【0055】
さらに、文書分類装置の各構成要素を文書入力から分類先の出力に至る一連の動作をプログラムとして構築し、これを可搬記憶媒体に書き込み、インターネットの利用者のコンピュータにインストールすることにより、より汎用的に文書分類が可能となる。
【図面の簡単な説明】
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明の文書分類装置の構成図である。
【図4】本発明の監視制御部によって実行される監視制御処理を説明するためのフローチャートである。
【図5】本発明の一実施例の初期情報の例である。
【図6】本発明の一実施例の分類対象文書の例である。
【図7】本発明の一実施例の文書情報抽出結果の例である。
【図8】本発明の一実施例の得点ベクトルの例である。
【図9】本発明の一実施例の文書情報抽出結果の例である。
【図10】本発明の一実施例の得点ベクトル記憶部から取得した得点ベクトルの例でわる。
【図11】本発明の一実施例の類似度ベクトルの例である。
【図12】本発明の一実施例の分類先出力結果の例である。
【図13】本発明の一実施例の得点ベクトル再計算部における再計算式の例を示す。
【図14】本発明の一実施例の再計算結果の例である。
【符号の説明】
10 監視制御部
11 文書入力部、文書入力手段
12 文書情報抽出部、文書情報抽出手段
13 文書分類先算出部、分類先算出手段
14 得点ベクトル再計算
15 分類先出力部、出力手段
16 初期得点ベクトル獲得部
17 得点ベクトル参照部
18 得点ベクトル更新部
21 得点ベクトル記憶部、得点ベクトル記憶手段

Claims (8)

  1. 各文書から文書情報として抽出された表現単位ごとに、分類先への得点を成分とする得点ベクトルを予め蓄積しておき、
    文書が入力されると、該文書から表現単位と各表現単位毎の出現頻度からなる文書情報を抽出し、
    抽出された前記文書情報のそれぞれの表現単位に対応する前記得点ベクトルの成分を分類先単位に合計した合計値を分類先への類似度とし、該類似度を成分とする類似度ベクトルを算出し、
    算出された前記類似度ベクトルの成分の中で、類似度の最も高いものに該当する分類先名を出力し、
    蓄積されている前記得点ベクトルと、前記文書情報及び、前記類似度ベクトルを用いて、前記文書情報中の各表現単位に対応する得点ベクトルの分類先に対応する成分の得点を、類似度ベクトルの各成分の大きさに応じて増減させることを特徴とする文書分類方法。
  2. 前記文書情報中の各表現単位に対応する得点ベクトルの分類先に対応する成分の得点の増減は、前記得点ベクトルと前記類似度ベクトルのなす角を等分する平均ベクトルを用いて行う請求項1記載の文書分類方法。
  3. 前記得点ベクトルの得点は、表現単位毎の分類先の出現頻度を求め、該出現頻度を用いたχ二乗値とすることを特徴とする請求項1または2記載の文書分類方法。
  4. 前記文書情報中に含まれる各表現単位をキーとして前記得点ベクトルを検索し、それぞれの成分単位に、その得点の和により該類似度ベクトルを算出する請求項1または、2記載の文書分類方法。
  5. 各文書から文書情報として抽出された表現単位ごとに、分類先への得点を成分とする得点ベクトルを予め蓄積しておく得点ベクトル記憶手段と、
    文書を入力する文書入力手段と、
    前記文書入力手段により文書が入力されると、該文書から表現単位と各表現単位毎の出現頻度からなる文書情報を抽出する文書情報抽出手段と、
    抽出された前記文書情報のそれぞれの表現単位に対応する前記得点ベクトルの成分を分類先単位に合計した合計値を分類先への類似度とし、該類似度を成分とする類似度ベクトルを算出する分類先算出手段と、
    前記分類先算出手段で算出された前記類似度ベクトルの成分の中で、類似度の最も高いものに該当する分類先名を出力する出力手段と、
    前記得点ベクトル記憶手段に蓄積されている前記得点ベクトルと、前記文書情報及び、前記類似度ベクトルを用いて、前記文書情報中の各表現単位に対応する得点ベクトルの分類先に対応する成分の得点を、類似度ベクトルの各成分の大きさに応じて増減させる得点ベクトル再計算手段と、
    を有することを有することを特徴とする文書分類装置。
  6. 前記得点ベクトル再計算手段において、
    前記文書情報中の各表現単位に対応する得点ベクトルの分類先に対応する成分の得点の増減は、前記得点ベクトルと前記類似度ベクトルのなす角を等分する平均ベクトルを用いて行う請求項5記載の文書分類装置。
  7. 文書を入力させる文書入力ステップと、
    前記文書入力ステップで入力された前記文書から表現単位と各表現単位毎の出現頻度からなる文書情報を抽出する文書情報抽出ステップと、
    抽出された前記文書情報のそれぞれの表現単位に対応する前記得点ベクトルの成分を分類先単位に合計した合計値を分類先への類似度とし、該類似度を成分とする類似度ベクトルを算出する分類先算出ステップと、
    前記分類先算出ステップで算出された前記類似度ベクトルの成分の中で、類似度の最も高いものに該当する分類先名を出力させる出力ステップと、
    前記記憶手段に蓄積されている前記得点ベクトルと、前記文書情報及び、前記類似度ベクトルを用いて、前記文書情報中の各表現単位に対応する得点ベクトルの分類先に対応する成分の得点を、類似度ベクトルの各成分の大きさに応じて増減させる得点ベクトル再計算ステップと、
    をコンピュータに実行させるプログラムを格納したことを特徴とする文書分類プログラムを格納した記憶媒体。
  8. 前記得点ベクトル再計算ステップおいて、
    前記文書情報中の各表現単位に対応する得点ベクトルの分類先に対応する成分の得点の増減は、前記得点ベクトルと前記類似度ベクトルのなす角を等分する平均ベクトルを用いて行うステップを実行させる請求項7記載の文書分類プログラムを格納した記憶媒体。
JP11988197A 1997-05-09 1997-05-09 文書分類方法及び装置及び文書分類プログラムを格納した記憶媒体 Expired - Fee Related JP3582297B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11988197A JP3582297B2 (ja) 1997-05-09 1997-05-09 文書分類方法及び装置及び文書分類プログラムを格納した記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11988197A JP3582297B2 (ja) 1997-05-09 1997-05-09 文書分類方法及び装置及び文書分類プログラムを格納した記憶媒体

Publications (2)

Publication Number Publication Date
JPH10307843A JPH10307843A (ja) 1998-11-17
JP3582297B2 true JP3582297B2 (ja) 2004-10-27

Family

ID=14772558

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11988197A Expired - Fee Related JP3582297B2 (ja) 1997-05-09 1997-05-09 文書分類方法及び装置及び文書分類プログラムを格納した記憶媒体

Country Status (1)

Country Link
JP (1) JP3582297B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001256251A (ja) * 2000-03-08 2001-09-21 Nec Software Chugoku Ltd 文書情報自動評価装置及び文書情報自動評価システム
US7283998B2 (en) * 2002-09-03 2007-10-16 Infoglide Software Corporation System and method for classification of documents
US20070124208A1 (en) * 2005-09-20 2007-05-31 Yahoo! Inc. Method and apparatus for tagging data

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3068397B2 (ja) * 1993-12-27 2000-07-24 日本電気株式会社 文書管理装置
JPH096799A (ja) * 1995-06-19 1997-01-10 Sharp Corp 文書分類装置及び文書検索装置

Also Published As

Publication number Publication date
JPH10307843A (ja) 1998-11-17

Similar Documents

Publication Publication Date Title
US6665661B1 (en) System and method for use in text analysis of documents and records
JP4382526B2 (ja) 文章分類装置および方法
JP2009294939A (ja) 文書分類装置
CN111429980A (zh) 一种材料晶体结构特征的自动化获取方法
US20190362187A1 (en) Training data creation method and training data creation apparatus
JP2008234670A (ja) 文書分類装置、文書分類方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH07152771A (ja) 利用者情報管理装置、情報フィルタ、情報分類装置、情報再生装置、情報検索装置及び仮名漢字変換装置
JP3582297B2 (ja) 文書分類方法及び装置及び文書分類プログラムを格納した記憶媒体
JP4407272B2 (ja) 文書分類方法、文書分類装置及び文書分類プログラム
JP2013101679A (ja) テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
JP2009301140A (ja) テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
JP2001101227A (ja) 文書分類装置および文書分類方法
KR101035037B1 (ko) 동적 임계값이 적용된 유사문서 분류화 장치 및 방법
JP3692416B2 (ja) 情報フィルタリング方法および装置
JPH1145257A (ja) Web文書の検索支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
CN100587663C (zh) 数据提示装置以及数据提示方法
JP2008197952A (ja) テキストセグメンテーション方法,その装置,そのプログラムおよびコンピュータ読み取り可能な記録媒体
JP2000020538A (ja) 情報検索方法、情報検索装置および情報検索プログラム記憶媒体
JP2004341948A (ja) 概念抽出システム、概念抽出方法、プログラム及び記憶媒体
CN103577532A (zh) 用于文本处理的方法和系统
CN107577690A (zh) 海量信息数据的推荐方法及推荐装置
JP2001117930A (ja) 文書分類装置、文書分類方法および記録媒体
JP4125951B2 (ja) テキスト自動分類方法及び装置並びにプログラム及び記録媒体
CN109636476A (zh) 一种品牌名称数据标准化处理方法及装置
JP5184987B2 (ja) 索引情報作成装置、索引情報作成方法及びプログラム

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040210

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040409

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040518

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040609

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040706

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040719

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080806

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080806

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090806

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees