JP4757016B2 - 文書分類プログラム、文書分類装置、および文書分類方法 - Google Patents

文書分類プログラム、文書分類装置、および文書分類方法 Download PDF

Info

Publication number
JP4757016B2
JP4757016B2 JP2005368274A JP2005368274A JP4757016B2 JP 4757016 B2 JP4757016 B2 JP 4757016B2 JP 2005368274 A JP2005368274 A JP 2005368274A JP 2005368274 A JP2005368274 A JP 2005368274A JP 4757016 B2 JP4757016 B2 JP 4757016B2
Authority
JP
Japan
Prior art keywords
document
learning
category
classification
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005368274A
Other languages
English (en)
Other versions
JP2007172249A (ja
Inventor
哲朗 ▲高▼橋
寛治 内野
文人 西野
青史 岡本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2005368274A priority Critical patent/JP4757016B2/ja
Publication of JP2007172249A publication Critical patent/JP2007172249A/ja
Application granted granted Critical
Publication of JP4757016B2 publication Critical patent/JP4757016B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は文書を内容に応じて分類するための文書分類プログラム、文書分類装置、および文書分類方法に関し、特に新規の文書を取得する毎に逐次その文書を既存のカテゴリに分類する文書分類プログラム、文書分類装置、および文書分類方法に関する。
インターネットやイントラネットの普及により、膨大な量の文書を目的に応じて分類する技術が必要となっている。例えば、インターネットやイントラネットには、更新頻度の早いニュース記事、掲示板、ブログなどの文書が公開されている。ユーザは、これらの文書の中から、目的に応じた内容の文書を参照する。その際、文書が予め決められたカテゴリで分類されていれば、ユーザは、目的の文書を見つけやすくなる。
文書分類技術においては、高い精度を出す手法として機械学習を用いる手法が知られている。機械学習では、多数の文書を人手によって所定のカテゴリに分類し、ユーザが、分類された文書を正解の学習事例として学習器に入力する。学習器は、カテゴリ毎に、そのカテゴリに属する複数の文書の類似点を判断する。カテゴリ内の文書の類似点(学習結果)は、分類器に設定される。分類器は、分類対象の文書が入力されるとその文書の特徴を判断し、特徴が一致するカテゴリへ入力された文書を分類する。
文書間の類似点の判断方法としては、例えば、比較される各文書に共通して含まれる単語の数によって、類似の度合いを判断することができる。その際、文書が属する分野や作成時期を考慮することもできる。すなわち、文書が属する分野における年代毎の各単語の重要度を予め設定する。そして、比較対象の文書に含まれる単語に対して重要度による重み付けを行い、文書間の類似度を計算する(例えば、特許文献1参照)。
また、文書の特徴を数値化する技術としては、例えば、文字情報で構成されるデータに含まれるキーワードの有無を、キーワード数に応じた次元のベクトルで表す方法がある。ベクトルは、キーワードに対応するアトリビュートで構成されている。アトリビュートは、例えば、データ内に対応するキーワードが存在すれば「1」の値、存在しなければ「0」の値を取る。そして、2つのデータのベクトルの内積によって、それらのデータ間の類似度を判定する。
ベクトルのアトリビュートの1つとして、ドキュメントに含まれる時間パラメータを含めることもできる。これにより、同じキーワードを含むドキュメントであっても、時間パラメータが異なれば、全く同一とは見なされなくなる。例えば、時刻パラメータが最新のドキュメントを優先して選択する場合に有用である(例えば、特許文献2参照)。
このように、あるカテゴリに分類されたコンテンツの類似点をそのカテゴリの特徴として予め学習しておくことで、その他の膨大な量のコンテンツを予め用意されたカテゴリに自動的に分類することができる。
特開2001−155020号公報 特開2001−312505号公報
ところで、日々配信される大量の新着記事を効率的に読み手に提示するためには、現在特に話題となっているトピックに関して適切に分類する必要がある。
しかし、既存の分類手法は静的に与えられた文書集合を分類することが目的であるためカテゴリ内の記事が同等に扱われる。日々動的に配信される新着記事においては、日にちの近い記事がより重要であるなどの特徴があるが、既存の手法では古い記事が障害となり、最新のトピックに関連する文書を適切に分類できない。
本発明はこのような点に鑑みてなされたものであり、新着記事から最新のトピックに関する文書を適切に分類することができる文書分類プログラム、文書分類装置、および文書分類方法を提供することを目的とする。
本発明では上記課題を解決するために、図1に示すような文書分類プログラムが提供される。本発明に係る文書分類プログラムは、文書を内容に応じて分類するために、図1に示す機能をコンピュータに実行させることができる。
学習文書記憶手段1は、時刻情報が付与された学習文書1aa,1ab,・・・,1ba,1bb,・・・を、所定のカテゴリに属す正例とカテゴリに属さない負例とに分けて記憶する。重み設定手段2は、学習文書記憶手段1に格納されている学習文書1aa,1ab,・・・,1ba,1bb,・・・それぞれに関して、学習文書に付与された時刻情報で示される時刻から現在までの経過時間を計算し、経過期間に応じた重みを設定し、学習文書の特徴を示す素性(feature)に対して学習文書の重みを設定する。学習手段3は、カテゴリに対する正例の学習文書1aa,1ab,・・・の素性のうち、重みの値が大きい素性ほどカテゴリの特徴を強く表しているものと評価し、各素性がカテゴリの特徴を示すか否かを示す学習結果を生成する。分類手段4は、分類対象文書7が入力されると、学習手段3により生成された学習結果に基づいて、分類対象文書7がカテゴリに属するか否かを判断する。学習文書格納手段5は、分類対象文書7に対して時刻情報を付与し、分類手段4においてカテゴリに属すると判断された場合には、分類対象文書7を正例の学習文書として学習文書記憶手段1に格納し、分類手段4においてカテゴリに属さないと判断された場合には、分類対象文書7を負例の学習文書として学習文書記憶手段1に格納する。表示手段6は、分類手段4においてカテゴリに属すると判断された分類対象文書7を表示する。
このような文書分類プログラムをコンピュータで実行すれば、重み設定手段2により、学習文書記憶手段1に格納されている学習文書1aa,1ab,・・・,1ba,1bb,・・・それぞれに関して、学習文書に付与された時刻情報で示される時刻から現在までの経過時間が計算され、経過期間に応じた重みが設定され、学習文書の特徴を示す素性に対してその学習文書の重みが設定される。次に、学習手段3により、カテゴリに対する正例の学習文書1aa,1ab,・・・の素性のうち、重みの値が大きい素性ほどカテゴリの特徴を強く表しているものと評価され、各素性がカテゴリの特徴を示すか否かを示す学習結果が生成される。その後、分類対象文書7が入力されると、分類手段4により、学習手段3で生成された学習結果に基づいて、分類対象文書7がカテゴリに属するか否かが判断される。さらに、学習文書格納手段5により、分類対象文書7に対して時刻情報が付与され、分類手段4においてカテゴリに属すると判断された場合には、分類対象文書7が正例の学習文書として学習文書記憶手段1に格納され、分類手段4においてカテゴリに属さないと判断された場合には、分類対象文書7が負例の学習文書として学習文書記憶手段1に格納される。そして、表示手段6により、分類手段4においてカテゴリに属すると判断された分類対象文書7が表示される。
本発明では、学習文書に対して、学習文書に付与された時刻情報で示される時刻から現在までの経過時間に応じた重みを設定し、正例の学習文書の重みの値が大きいほどカテゴリの特徴を強く表しているものと評価するようにした。そのため、最新の文書から抽出された素性を重視した学習結果が得られ、最新のトピックに関する文書を適切に分類可能となる。
以下、本発明の実施の形態を図面を参照して説明する。
図1は、本実施の形態の概略を示す図である。図1に示すように、本実施の形態は、学習文書記憶手段1、重み設定手段2、学習手段3、分類手段4、学習文書格納手段5、および表示手段6で構成される。
学習文書記憶手段1は、時刻情報が付与された学習文書1aa,1ab,・・・,1ba,1bb,・・・を記憶する。時刻情報は、例えば、文書の配信開始日時である。配信開始日時は、例えば、取得した文書に含まれる配信日時を示す情報から抽出できる。また、所定時間毎に文書が収集される場合、その収集日時を文書の時刻情報とすることもできる。
学習文書1aa,1ab,・・・,1ba,1bb,・・・は、所定のカテゴリに属す正例の学習文書1aa,1ab,・・・と、カテゴリに属さない負例の学習文書1ba,1bb,・・・とに分けられている。
重み設定手段2は、学習文書記憶手段1に格納されている学習文書1aa,1ab,・・・,1ba,1bb,・・・それぞれに関して、学習文書に付与された時刻情報で示される時刻から現在までの経過時間を計算し、経過期間に応じた重みを設定する。例えば、最新のものから時系列に並べられた学習文書1aa,1ab,・・・,1ba,1bb,・・・に対して、最新の学習文書に最も大きい重みが設定され、学習文書が古くなるに従い重みの値が小さくなる。その際、重み設定手段2は、経過時間に応じた重みの減少率(経過時間が単位時間だけ長くなったときの重みの減少量)を一定にすることができる。また、重み設定手段2は、経過時間が長いほど重みの減少率を小さくして、経過期間に応じた重みを設定することもできる。あるいは、重み設定手段2は、経過時間に応じて、重みを周期的に減少と増加とを繰り返させることもできる。
学習文書1aa,1ab,・・・,1ba,1bb,・・・に対して重みを設定した後、重み設定手段2は、各学習文書1aa,1ab,・・・,1ba,1bb,・・・の特徴を示す素性に対して、その学習文書の重みを設定する。ここで「素性」とは、学習文書1aa,1ab,・・・,1ba,1bb,・・・に含まれる言語情報を構成する要素を示している。
学習手段3は、カテゴリに対する正例の学習文書1aa,1ab,・・・の素性のうち、重みの値が大きい素性ほどカテゴリの特徴を強く表しているものと評価し、各素性がカテゴリの特徴を示すか否かを示す学習結果を生成する。例えば、学習手段3は、学習結果において、カテゴリの特徴を表す素性に対して正の関連度を設定し、カテゴリの特徴を表さない素性に対して負の関連度を設定する。
分類手段4は、分類対象文書7が入力されると、学習手段3により生成された学習結果に基づいて、分類対象文書7がカテゴリに属するか否かを判断する。例えば、分類手段4は、分類対象文書に含まれる各素性の関連度を合算し、合算結果が正の値であれば分類対象文書7がカテゴリに属すると判断し、合算結果が負の値であれば分類対象文書7がカテゴリに属さないと判断する。
学習文書格納手段5は、分類対象文書7に対して時刻情報を付与し、分類手段4においてカテゴリに属すると判断された場合には、分類対象文書7を正例の学習文書として学習文書記憶手段1に格納し、分類手段4においてカテゴリに属さないと判断された場合には、分類対象文書7を負例の学習文書として学習文書記憶手段1に格納する。
表示手段6は、分類手段4においてカテゴリに属すると判断された分類対象文書7を表示する。
このような構成により、まず、重み設定手段2により、学習文書記憶手段1に格納されている学習文書1aa,1ab,・・・,1ba,1bb,・・・それぞれに関して、学習文書に付与された時刻情報で示される時刻から現在までの経過時間が計算される。そして、重み設定手段2により、経過期間に応じた重みが設定され、学習文書の特徴を示す素性に対してその学習文書の重みが設定される。
次に、学習手段3により、カテゴリに対する正例の学習文書1aa,1ab,・・・の素性のうち、重みの値が大きい素性ほどカテゴリの特徴を強く表しているものと評価され、各素性がカテゴリの特徴を示すか否かを示す学習結果が生成される。
その後、分類対象文書7が入力されると、分類手段4により、学習手段3で生成された学習結果に基づいて、分類対象文書7がカテゴリに属するか否かが判断される。さらに、学習文書格納手段5により、分類対象文書7に対して時刻情報が付与され、分類手段4においてカテゴリに属すると判断された場合には、分類対象文書7が正例の学習文書として学習文書記憶手段1に格納され、分類手段4においてカテゴリに属さないと判断された場合には、分類対象文書7が負例の学習文書として学習文書記憶手段1に格納される。そして、表示手段6により、分類手段4においてカテゴリに属すると判断された分類対象文書7が表示される。
このようにして、最新の文書から抽出された素性を重視した学習結果が得られ、最新のトピックに関する文書を適切に分類可能となる。
次に、本実施の形態の詳細を説明する。以下の実施の形態では、ネットワークに接続されたクライアントにおいて、ニュースなどの記事(ブログなどで公開されるコラムも含むものとする)に関する文書を分類する場合の例を説明する。
図2は、本実施の形態のシステム構成例を示す図である。クライアント100は、ネットワーク10を介してコンテンツサーバ21,22,23,・・・に接続されている。コンテンツサーバ21,22,23,・・・は、ニュースやブログなどの様々なコンテンツを配信するコンピュータである。クライアント100は、コンテンツサーバ21,22,23,・・・からコンテンツを収集し、カテゴリ毎に分類して格納するコンピュータである。ユーザは、クライアント100を利用して、カテゴリ毎に分類されたコンテンツを閲覧することができる。
図3は、本実施の形態に用いるクライアントのハードウェア構成例を示す図である。クライアント100は、CPU(Central Processing Unit)101によって装置全体が制御されている。CPU101には、バス107を介してRAM(Random Access Memory)102、ハードディスクドライブ(HDD:Hard Disk Drive)103、グラフィック処理装置104、入力インタフェース105、および通信インタフェース106が接続されている。
RAM102には、CPU101に実行させるOS(Operating System)のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、RAM102には、CPU101による処理に必要な各種データが格納される。HDD103には、OSやアプリケーションプログラムが格納される。
グラフィック処理装置104には、モニタ11が接続されている。グラフィック処理装置104は、CPU101からの命令に従って、画像をモニタ11の画面に表示させる。入力インタフェース105には、キーボード12とマウス13とが接続されている。入力インタフェース105は、キーボード12やマウス13から送られてくる信号を、バス107を介してCPU101に送信する。
通信インタフェース106は、ネットワーク10に接続されている。通信インタフェース106は、ネットワーク10を介して、他のコンピュータとの間でデータの送受信を行う。
以上のようなハードウェア構成によって、本実施の形態の処理機能を実現することができる。なお、図3には、クライアント100のハードウェア構成を示したが、コンテンツサーバ21,22,23,・・・も同様のハードウェアで実現することができる。
図4は、クライアントの処理機能を示すブロック図である。クライアント100は、トレーニングデータ記憶部110、初期データ入力部120、学習器121、最新記事収集部122、分類器123、記事閲覧ユーザインタフェース125、判定結果変更部126および指定分野記事記憶部130を有している。
トレーニングデータ記憶部110は、カテゴリ毎のトレーニング用の記事(トレーニングデータ)を格納する記憶装置である。例えば、HDD103の記憶領域の一部がトレーニングデータ記憶部110として使用される。トレーニングデータは、正例と負例とに分けられる。正例のトレーニングデータは、対応するカテゴリに属する記事である。負例のトレーニングデータは、対応するカテゴリに属さない記事である。
初期データ入力部120は、トレーニングデータ記憶部110に対して、初期のトレーニングデータを格納する。このトレーニングデータは、予め正例と負例とに分類されている。なお、トレーニングデータの分類には、例えば、クラスタリング手法を用いて似た記事を集約し、トレーニングデータとすることができる。クラスタリング手法は、対象物(データの集まり)をサンプルの類似度(距離)によって、いくつかのグループ(クラスター)に分けるデータ分析/分類手法である。また、初期データ入力部120は、初期のトレーニングデータが所定のカテゴリに属するか否かの入力をユーザから受け付け、その入力に基づいてトレーニングデータを正例と負例とに分けて、トレーニングデータ記憶部110に格納することもできる。
学習器121は、所定のタイミングで、トレーニングデータ記憶部110に格納されているトレーニングデータに基づき、配信時刻が新しいトレーニングデータの特徴をより強く反映させて、各カテゴリに含まれる記事の特徴を判断する。具体的には、学習器121は、各記事に対して、その記事の配信時刻から現在時刻までの経過時間に応じた重みを設定する。重みは、経過時間が長くなるに従って、小さな値が設定される。さらに、学習器121は、各記事から複数の素性を抽出し、記事内に含まれる素性数を示す数値(出現回数)に、重みを乗算する。ここで、重みの乗算結果を影響値とする。
そして、学習器121は、全ての記事から抽出された素性に関して、重みによって修正された影響値を用いて、該当するカテゴリに共通する特徴を表しているか否かを判断する。例えば、正例のトレーニングデータには多く含まれるが、負例のトレーニングデータにはほとんど含まれない素性に関しては、そのカテゴリの特徴を表しているものと判断される。ある素性がカテゴリの特徴を表している場合、その素性に対して正の数値(例えば「+1」)が学習結果として付与される。また、素性がカテゴリの特徴を表していない場合、その素性に対して負の数値(例えば「−1」)が学習結果として付与される。カテゴリに対して計算された学習結果は、分類器123に入力される。
最新記事収集部122は、記事の収集対象となるコンテンツサーバ21,22,23,・・・の識別情報が予め設定されている。そして、最新記事収集部122は、ネットワーク10を介してコンテンツサーバ21,22,23,・・・から最新の記事を収集する。ここで、最新の記事とは、前回収集した時刻以降に公開された記事である。なお、最新記事の収集は、予め決められた周期で実行される。最新記事収集部122は、収集した最新記事を分類器123に渡す。
分類器123は、最新記事収集部122から最新記事を受け取ると、ユーザによって予め指定されたカテゴリに関する学習器121による学習結果に基づいて、最新記事がそのカテゴリに属するか否かを判断する。そして、分類器123は、最新記事に対して判断結果を付与して、判断対象のカテゴリに対するトレーニングデータとして、トレーニングデータ記憶部110に格納する。また、分類器123は、指定されたカテゴリに属すると判断された最新記事を、指定分野記事記憶部130に格納する。
指定分野記事記憶部130は、ユーザに指定されたカテゴリに属する記事を記憶する記憶装置である。例えば、HDD103の記憶領域の一部が用いられる。
記事閲覧ユーザインタフェース125は、ユーザからの操作入力に応答して、指定分野記事記憶部130に格納された記事をモニタ11に表示する。また、記事閲覧ユーザインタフェース125は、表示した記事に関して、カテゴリに属さないことを示す操作入力があると、その内容を判定結果変更部126に通知する。
判定結果変更部126は、あるカテゴリに属している記事に関して、そのカテゴリに属さない記事であることを示す情報を受け取ると、トレーニングデータ記憶部110内の対応する記事を、正例から負例に変更する。
このような構成のクライアント100において、収集した記事がカテゴリに分類される。それには、まず初期のトレーニングデータをトレーニングデータ記憶部110に格納する。次に、初期のトレーニングデータに基づいて、学習器121により初期の学習結果が生成され、分類器123に与えられる。その後、最新記事収集部122が最新の記事を収集する毎に、その記事が分類され、トレーニングデータ記憶部110に格納される。そして、学習器121により、分類された記事に応じて学習が行われ、最新の記事を反映させた学習結果が生成される。
このようにして、常に最新のトピックを反映させた分類を行うことができる。しかも、新しい記事ほど、学習の際の重みが大きくなるため、最近のトピックをより重要視した分類が可能となる。
図5は、収集した記事に基づく学習結果フィードバックの流れを示す図である。まず、最新記事収集部122が収集した最新の記事31が、分類器123に入力されると、分類器123によってその記事があるカテゴリAに入るかどうかの判定が行われる。ここで分類器123は、分類の結果として数値を出力する。その数値が正の数であれば入力された記事はカテゴリAに属すると判定され、負の数であれば属さないと判定される。
カテゴリAに属さないと判定された記事は、トレーニングデータ111の負例111bに追加される。カテゴリAに属すると判定された記事は、指定分野記事記憶部130の最新記事131に追加されると共に、トレーニングデータ111の正例111aに追加される。もしここで、ユーザがカテゴリAにふさわしくない記事を発見した場合、判定結果変更部126によって、その記事が負例111bに変更される。これによりユーザの好みを反映した分類が可能となる。
新規の記事31がトレーニングデータ記憶部110に格納された後、所定のタイミングで、トレーニングデータ111を基に学習器121による学習が行われ、新たな学習結果32が分類器123に渡される。その結果、分類器123の分類の判断基準が再構築され、時系列の話題の推移に追従した分類を続けることができる。
以下、クライアント100で実行される処理の手順をフローチャートを参照して説明する。
図6は、初期学習処理の手順を示すフローチャートである。以下、図6に示す処理をステップ番号に沿って説明する。
[ステップS11]初期データ入力部120は、カテゴリに分類された初期のトレーニングデータをトレーニングデータ記憶部110に格納する。
[ステップS12]学習器121は、トレーニングデータ記憶部110に格納されたトレーニングデータに基づいて、カテゴリ毎の特徴を学習する。
[ステップS13]学習器121は、学習結果を分類器123に設定する。
図7は、記事収集処理の手順を示すフローチャートである。以下、図7に示す処理をステップ番号に沿って説明する。
[ステップS21]最新記事収集部122は、処理終了の操作入力が行われたか否かを判断する。処理終了の操作入力が行われた場合、記事収集処理を終了する。処理終了の操作入力が行われていなければ、処理がステップS22に進められる。
[ステップS22]最新記事収集部122は、記事更新時刻か否かを判断する。例えば、予めスケジューリングされた時刻(毎時00分など)に達したときに記事更新時刻と判断される。記事更新時刻の場合、処理がステップS23に進められる。記事更新時刻ではない場合、ステップS21に進められる。
[ステップS23]最新記事収集部122は、記事更新時刻になると、コンテンツサーバ21,22,23,・・・から最新の記事を収集する。
[ステップS24]最新記事収集部122は、新しい記事が収集できたか否かを判断する。新しい記事が収集できた場合、最新記事収集部122は収集した記事を分類器123に渡し、処理をステップS25に進める。新しい記事が見つからなかった場合、処理がステップS21に進められる。
[ステップS25]分類器123は、最新記事収集部122から渡された全ての記事について、予め用意されているカテゴリに属するか否かを判断する。
[ステップS26]分類器123は、予め用意されたカテゴリに属する記事を、指定分野記事記憶部130に格納する。
[ステップS27]分類器123は、新たに収集された記事を正例と負例とに分けて、トレーニングデータ記憶部110に格納する。すなわち、分類器123は、予め用意されているカテゴリに属する記事を、そのカテゴリの正例のトレーニングデータとして格納し、予め用意されているカテゴリに属さない記事を、そのカテゴリの負例のトレーニングデータとして格納する。その後、処理がステップS21に進められる。
図8は、記事閲覧処理の手順を示すフローチャートである。以下、図8に示す処理をステップ番号に沿って説明する。
[ステップS31]記事閲覧ユーザインタフェース125は、ユーザからの操作入力に応答して、最新記事一覧をモニタ11に表示する。
[ステップS32]記事閲覧ユーザインタフェース125は、ユーザから処理終了の操作入力があったか否かを判断する。処理終了の操作入力があれば、記事閲覧処理が終了する。処理終了の操作入力がなければ、処理がステップS33に進められる。
[ステップS33]記事閲覧ユーザインタフェース125は、ユーザによって記事が選択されたか否かを判断する。記事が選択された場合、処理がステップS34に進められる。記事が選択されなければ、処理がステップS32に進められる。
[ステップS34]記事閲覧ユーザインタフェース125は、選択された記事の内容をモニタ11に表示する。
[ステップS35]記事閲覧ユーザインタフェース125は、ユーザから、表示された記事がカテゴリに含まれるべきでないことを示す操作入力(負例指定入力)が行われたか否かを判断する。負例指定入力があった場合、記事閲覧ユーザインタフェース125はその旨を判定結果変更部126に通知し、処理をステップS36に進める。負例指定入力がなければ、処理がステップS32に進められる。
[ステップS36]判定結果変更部126は、選択された記事を、トレーニングデータ記憶部110内の正例のトレーニングデータから、負例のトレーニングデータに変更する。その後、処理がステップS32に進められる。
図9は、再学習処理の手順を示すフローチャートである。以下、図9に示す処理をステップ番号に沿って説明する。
[ステップS41]学習器121は、ユーザにより再学習処理終了の操作入力が行われたか否かを判断する。再学習処理終了の操作入力が行われた場合、処理が終了する。再学習処理終了の操作入力が行われていなければ、処理がステップS42に進められる。
[ステップS42]学習器121は、再学習時刻になったか否かを判断する。例えば、予めスケジューリングされた時刻(毎日23時など)に達したときに、再学習時刻と判断される。再学習時刻になった場合、処理がステップS43に進められる。再学習時刻でなければ、処理がステップS41に進められる。
[ステップS43]学習器121は、トレーニングデータ記憶部110に格納されたトレーニングデータに基づいて、カテゴリ毎の特徴を学習する。
[ステップS44]学習器121は、学習結果を分類器123に設定する。その後、処理がステップS41に進められる。
以上のような処理によって、初期状態のトレーニングデータによるカテゴリに属する文書の特徴の学習、および最新の記事をトレーニングデータに追加した再学習が行われる。学習器121における学習では、トレーニングデータとして登録された記事の日付が参照される。
次に、学習器121における学習内容を詳細に説明する。オンラインのニュースなどで公開される記事は一般的に日付の情報を持っている。そこで、本実施の形態では、学習器121が、記事に付与された日付の情報を用いて新着記事に重み付けを行う。そして、学習器121は、重み付きの新着記事を用いて分類器の学習を行う。
記事の重みは、現時刻での値を1とし、古い記事になるほど減衰させる。経過時間に応じた減衰の度合いは、関数によって定義することができる。
図10は、記事の古さと重みの関係を示す図である。図10の横軸は、記事の配信時から現在までの経過時間t(tは0以上の正の実数)を示している。図中の左方向が正の軸である。縦軸は、記事の重みW(Wは、0以上1以下の実数)を示している。
この例では、3つの関数のグラフ41,42,43が示されている。グラフ41は、
W=f(t)=1−t/N ・・・(1)
という関数を示している。ここで、Nは過去のどれくらいまで遡って記事を使うかを示す定数である(Nは0以上の実数)。式(1)に示す関数を用いることにより、過去の記事よりも最近の記事に重みをかけた学習が可能となる。
また、グラフ42は指数関数を用いて重みを減衰させた例であり、
W=f(t)=exp(−t) ・・・(2)
という関数を示している。式(2)の関数は話題の変化が大きいカテゴリの文書に適している。
グラフ43は経過時間に応じて重みを減衰させない例であり、
W=f(t)=1 ・・・(3)
という関数を示している。式(3)の関数は、過去の記事を均等に学習に用いることを示しており、一般的な文書分類と等価になる。
また、カテゴリが周期性を持つ場合は、単調に重みを減衰させるだけでなく、その周期を繰り返しのパターンに反映させた減衰関数を用いることもできる。
図11は、周期的に減衰率が変化する減衰関数の例を示す図である。図11の横軸は、記事の配信時から現在までの経過時間t(tは0以上の正の実数)を示している。図中の左方向が正の軸である。縦軸は、記事の重みW(Wは、0以上1以下の実数)を示している。
図11に示すグラフ44は、以下の関数を表している。
W=f(t)=exp(−t)sin{(2π×t)/Y} ・・・(4)
ここで、πは円周率、Yは周期である(Yは0以上の実数)。周期性の発見は、文書中に出現する語の頻度の推移により行うことができる。式(4)に示す関数を用いることで、例えばオリンピックなどの定期的なイベントにおいて、より高い精度での分類が可能となる。
このように、式(1)〜(4)に示したいずれかの関数を用いることで、より新しい記事を優先的に(重要度を重くして)、カテゴリの特徴を学習することができる。すなわち、学習器121は、式(1)〜(4)のいずれかの関数を用いて、記事の重みを決定する。どの関数を使用するのかは、ユーザからの選択に応じて決定される。すなわち、ユーザは、収集する記事の内容に応じて、任意の関数による重み付けを行うことができる。
図12は、学習時の重み付けを示す図である。図12に示す手法では、学習器121が、トレーニングデータに式(2)の重み付け関数を用いて重み付きトレーニングデータを作成する(ST1)。その際、学習器121は、トレーニングデータとして登録された各記事51,52,・・・,5nの内容を解析して、それぞれの素性集合を生成する。
例えば、以下のような文が含まれているものとする。
「春は名のみの風の寒さよ。」
この文から、以下のような素性集合が生成される。
「春,名,風,寒さ,春_は,は_名,名_のみ,のみ_の,の_風,風_の,の_寒さ,寒さ_よ,春―名,春―風,春―寒さ,名―風,名―寒さ,風―寒さ」
学習器121は、生成された素性集合内の各素性に対し、記事内にその素性が存在する数を設定する。例えば、記事内に、「春」という文字が2回出現する場合、素性「春」に「2」という数値が設定される。
さらに、学習器121は、記事から生成される各素性の数値に対して、記事に設定された重みが乗算される。図12の例では、重みW=f(t)=exp(−t)という関数が用いられているため、例えば、経過時間がt1の記事から生成された素性が、その記事内にk回(kは、1以上の整数)出現する場合、k×exp(−t1)によって、その素性の重み付きの値(影響値)が計算される。
このようにして各記事61,62,・・・,6nから生成された各素性の影響値に基づいて、学習器121が、各素性が、カテゴリの特徴を示すか否かについて学習する(ST2)。学習手法としては、様々な手法を用いることができる。例えば、ブースティング手法を用いることができる。ブースティング手法とは、複数の学習手法を組み合わせて、精度の高い学習を行うものである。例えば、「Robert E. Schapire and Yoram Singer,"BoosTexter: A Boosting-based System for Text Categorization",Machine Learning,volume 39,number 2/3,pages 135-168, 2000.」(url="citeseer.ist.psu.edu/schapire00boostexter.html"2005年12月検索)に記載されたブースティングの技術が適用できる。
学習の結果、処理対象のカテゴリに属する全ての記事から生成された各素性について、カテゴリの特徴を示すか否かが、数値(関連度)で示される。例えば、カテゴリの特徴を表す素性の関連度には「+1」が設定され、カテゴリの特徴を表さない素性の関連度には「−1」が設定される。全ての素性に関する素性と関連度との組が、分類対象のカテゴリに関する学習結果として分類器123に渡される。
分類器123では、渡された学習結果に基づいて、その後入力される分類対象の記事が、判断対象のカテゴリに属するか否かを判断する。具体的には、分類器123は、分類対象の記事から素性集合を生成する。そして、分類器123は、学習結果で示される各素性の関連度を参照し、分類対象の記事に含まれる全ての素性の関連度を合算する。この際、分類対象の記事に、同じ素性が複数回出現する場合、出現回数分の関連度が合算される。
合算の際の手順としては、例えば、分類器123は、まず記事に含まれる各素性の出現回数を計数する。次に、分類器123は、判断対象のカテゴリに関する学習結果の中から、分類対象の記事に含まれる素性に対応する関連度を検出する。該当する素性がある場合、分類器123は、検出した関連度を、分類対象の記事から得られた素性の出現回数に乗算する(乗算結果を、その素性の寄与値とする)。同様の処理が、処理対象の記事から生成された全ての素性に関して行われる。
そして、分類器123は、処理対象の記事から生成された全ての素性の寄与値を合算する。合算結果が正の値であれば、その記事は、分類対象のカテゴリに属するものと判断される。また、合算結果が負の値であれば、その記事は、分類対象のカテゴリに属さないものと判断される。
カテゴリに属するか否かが判断された記事は、トレーニングデータ記憶部110に格納される。その際、分類に有用な情報を付加することができる。例えば、インターネットやイントラネット上の記事を対象とした場合、それぞれの記事は配信元やリンク関係の情報を有する。そこで、記事の内容に併せてこれらの関連情報をトレーニングデータ記憶部110に格納する。そして、これらの関連情報を学習時に用いることで、より正確な分類が可能となる。
具体的には、学習器121は、以下の情報を学習結果に加える。
まず、ある記事の配信元が、カテゴリに含まれる全体の記事の配信元のどれくらいの割合を占めるかを示す情報を、学習結果に加える。また、ある記事が、カテゴリに含まれる他の記事とリンク関係を持っているか否かに関する情報を、学習結果に加える。例えば、学習器121は、カテゴリに含まれる割合が所定値以上の配信元(ドメイン名など)を学習結果に加え、そのドメインに対して正の値を設定する。また、学習器121は、カテゴリに含まれる記事内に、互いにリンク関係を有する記事が所定数以上であれば、そのカテゴリ内の記事に対するリンクを有するという条件を学習結果として定義し、その条件に正の値を設定する。
このような学習結果を受け取った分類器123は、例えばカテゴリAにはある特定の配信元から配信される記事が分類されやすいといった情報や、リンク関係を持ち後続する記事は同一のカテゴリに分類されやすいといった情報を考慮した分類を行うことができる。具体的には、分類器123は、分類対象の記事の配信元を参照し、判断対象のカテゴリに関する結果に含まれており、正の値が設定されていた場合、その値を関連度の合算結果に加算する。また、分類器123は、分類対象の記事が、判断対象のカテゴリ内の他の記事へのリンクを有することが学習結果に含まれており、その条件に正の値が設定されている場合、分類対象の記事がその条件を満たしていれば、その条件に設定された正の値を、関連度の合算結果に加算する。
表示方法としては、例えば、一般的なRSS(Rich Site Summary)リーダのように新着順に表示させる機能に加え、Web上での記事のランクを用いた並べ替えを行うことにより有用な情報をより上位に提示することができる。RSSリーダとは、Webページの要約情報であるRSSを自動的に集めることにより、Webページの更新情報をユーザに提示できるツールである。なお、RSSリーダでは、予め指定された配信元の記事を全て取得するが、本実施の形態では、予め用意されたカテゴリに属すると判断された記事のみが取得される。
このツールを使うことにより、ユーザはメールリーダでメールを読むようにWebを閲覧できる。一般的にはメールリーダと同じく新しい記事がより上位に表示される。
図13は、取得記事の表示例を示す図である。取得記事は、記事表示画面70に表示される。
記事表示画面70は、カテゴリリスト表示部71、記事一覧表示部72、および記事表示部73で構成されている。
カテゴリリスト表示部71には、設定されているカテゴリのリストが表示される。カテゴリリスト表示部71に表示されたカテゴリから、ユーザが任意のカテゴリを選択すると、選択されたカテゴリに含まれる記事の最新の記事のリストが記事一覧表示部72に表示される。そして、記事一覧表示部72に表示された記事から、ユーザが任意の記事を選択すると、その記事の内容が記事表示部73に表示される。
なお、記事一覧表示部72における記事の表示順(画面内の上からの表示順)として、分類器123における関連度の合算値の大きい順にすることができる。これにより、グループ内の特徴を多く有している記事ほど、上位に表示される。
さらに、関連度の合算値に対して、その記事と同じ配信元から配信された記事がグループ内に占める割合に応じた値を乗算し、その乗算結果の大きい順に画面表示することもできる。また、同じカテゴリ内の他の記事にリンクがある記事に対して、関連度の合算値に所定の値(1より大きい数)を乗算することで、同じカテゴリ内の他の記事にリンクが張られた記事を上位に表示させることもできる。
ところで、初期のトレーニングデータは、クラスタリングの技術により作成できる。すなわち、クラスタリングにより似た内容を持つ文書からなる文書集合を作成し、その文書集合に含まれる文書と含まれない文書をそれぞれ正例/負例として学習器に与え、初期の分類器を作成することができる。このクラスタリングによって生成された文書集合が初期のカテゴリとなる。
このときにカテゴリ内の文書中に重複して現われる単語を用いることにより、カテゴリ名を自動生成することができる。具体的には、カテゴリ内の単語をそれぞれの記事から抽出し、カテゴリ内での出現頻度がなるべく高く、かつカテゴリ外での出現頻度がなるべく低い語を選択することによりそのカテゴリに特徴的な語を選択する。選択のためには、以下の式(5)を用いることができる。
Score(w)=InCatFreq(w)/OutCatFreq(w) ・・・(5)
ここでInCatFreq(w)はカテゴリ内での単語wの頻度であり、OutCatFreq(w)はカテゴリ外の記事全体における単語wの頻度である。カテゴリ内に含まれる各単語についてこの式で与えられるスコアScore(w)を計算し、スコアの最も高い単語がカテゴリ名として選択される。
以上のように本実施の形態によれば、記事に対して時間情報に基づいた重み付けを行いその記事を学習することによって、分類器123が古い記事によるノイズの影響を受けにくくなり、適切でない記事を排除できる。また、適切と判断された記事の間においても、重みによってより適切なランキング(表示順の並べ替え)が可能となる。
また、本手法の利点として、分類の尺度を動的に変更できるという点も挙げられる。特にそのトピックが時間と共に移り変わるニュース記事において有効である。ニュース記事においては、ある出来事や事件に関して、時間の経過と共に新しいキーワードが出現しトピックの推移が起こる。提案手法はこのトピックの推移に追従しながら分類を行うことができる。
例えば、2005年9月11日に行われた衆議院議員の総選挙においては、以下のようなトピックが推移していた。
郵政民営化→衆議院解散→刺客→自民党大勝→新人議員
もし郵政民営化のトピックに関する記事だけを学習事例として使用していたら、後のトピックの記事の分類を誤り、取りこぼす可能性が高くなる。また、トピックが推移しているにもかかわらず、以前のトピックに関する記事を多く分類してしまうのも適切ではない。以前のトピックに関する記事も重要でありそれらも分類するべきだが、それと同時により最近のトピックの記事を積極的に分類すべきである。本実施の形態で説明した分類手法では、新しい記事ほど重みの値が大きくなるため、最近のトピックを多く含む記事が、カテゴリ内の特徴をより的確に表していると判断できる。
なお、既存の文書分類処理に対しては、主に次の点が異なる。
1)動的に追加される新着記事が分類対象である。そのため、最新の記事を用いてトレーニングデータも逐次更新され、最新のトレーニングデータに基づく学習が繰り返し行われる。
2)文書の学習時の関連度の計算のために日付の情報を用いた重み付けを行い、その重みは時間の経過と共に減衰させる。これにより、最新のトピックを強く反映させた学習が行われる。
3)正例のトレーニングデータに共通する素性に加え、配信元やリンク関係を関連度の計算に用いる。これにより、記事の内容だけでなく付加された他の情報を用いて、カテゴリの判別を適切に行うことができる。
なお、上記の処理機能は、コンピュータによって実現することができる。その場合、クライアントが有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記録装置には、ハードディスク装置(HDD)、フレキシブルディスク(FD)、磁気テープなどがある。光ディスクには、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)などがある。光磁気記録媒体には、MO(Magneto-Optical disk)などがある。
プログラムを流通させる場合には、例えば、そのプログラムが記録されたDVD、CD−ROMなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。
プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送される毎に、逐次、受け取ったプログラムに従った処理を実行することもできる。
なお、本発明は、上述の実施の形態にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変更を加えることができる。
以上説明した実施の形態の主な技術的特徴は、以下の付記の通りである。
(付記1) 文書を内容に応じて分類するための文書分類プログラムにおいて、
コンピュータを、
時刻情報が付与された学習文書を、所定のカテゴリに属す正例と前記カテゴリに属さない負例とに分けて記憶する学習文書記憶手段、
前記学習文書記憶手段に格納されている前記学習文書それぞれに関して、前記学習文書に付与された前記時刻情報で示される時刻から現在までの経過時間を計算し、前記経過期間に応じた重みを設定し、前記学習文書の特徴を示す素性に対して前記学習文書の重みを設定する重み設定手段、
前記カテゴリに対する正例の前記学習文書の素性のうち、重みの値が大きい素性ほど前記カテゴリの特徴を強く表しているものと評価し、各素性が前記カテゴリの特徴を示すか否かを示す学習結果を生成する学習手段、
分類対象文書が入力されると、前記学習手段により生成された前記学習結果に基づいて、前記分類対象文書が前記カテゴリに属するか否かを判断する分類手段、
前記分類対象文書に対して前記時刻情報を付与し、前記分類手段において前記カテゴリに属すると判断された場合には、前記分類対象文書を正例の前記学習文書として前記学習文書記憶手段に格納し、前記分類手段において前記カテゴリに属さないと判断された場合には、前記分類対象文書を負例の前記学習文書として前記学習文書記憶手段に格納する学習文書格納手段、
前記分類手段において前記カテゴリに属すると判断された前記分類対象文書を表示する表示手段、
として機能させることを特徴とする文書分類プログラム。
(付記2) 前記重み設定手段は、前記経過時間が長いほど前記重みを小さくすることを特徴とする付記1記載の文書分類プログラム。
(付記3) 前記重み設定手段は、前記経過時間に応じた前記重みの減少率を一定にして、前記経過期間に応じた重みを設定することを特徴とする付記2記載の文書分類プログラム。
(付記4) 前記重み設定手段は、前記経過時間が長いほど前記重みの減少率を小さくして、前記経過期間に応じた重みを設定することを特徴とする付記2記載の文書分類プログラム。
(付記5) 前記重み設定手段は、前記経過時間に応じて、前記重みを周期的に減少と増加とを繰り返させて、前記経過期間に応じた重みを設定することを特徴とする付記1記載の文書分類プログラム。
(付記6) 前記学習手段は、前記学習結果において、前記カテゴリの特徴を表す素性に対して正の関連度を設定し、前記カテゴリの特徴を表さない素性に対して負の関連度を設定し、
前記分類手段は、前記分類対象文書に含まれる各素性の関連度を合算し、合算結果が正の値であれば前記分類対象文書が前記カテゴリに属すると判断し、合算結果が負の値であれば前記分類対象文書が前記カテゴリに属さないと判断することを特徴とする付記1記載の文書分類プログラム。
(付記7) 前記学習文書記憶手段は、前記学習文書に関連づけて、前記学習文書の配信元を示す配信元情報を記憶しており、
前記学習手段は、前記カテゴリに含まれる正例の前記学習文書の前記配信元情報に基づいて、正例の前記学習文書の所定の割合以上を配信している配信元を検出し、検出した配信元の前記配信元情報を前記学習結果に含め、
前記分類手段は、前記カテゴリに属することに関して、前記学習結果に含まれる前記配信情報で示される配信元から配信された前記分類対象文書を、他の配信元から配信された文書よりも有利に判定することを特徴とする付記1記載の文書分類プログラム。
(付記8) 前記学習手段は、前記カテゴリに含まれる正例の前記学習文書のうち、他の正例の前記学習文書にリンクを張っている前記学習文書の割合が所定値以上の場合、他の正例の前記学習文書に対するリンクを含むというリンク条件を前記学習結果に含め、
前記分類手段は、前記カテゴリに属することに関して、前記学習結果に含まれる前記リンク条件を満たす前記分類対象文書を、他の文書よりも有利に判定することを特徴とする付記1記載の文書分類プログラム。
(付記9) コンピュータを、さらに、
前記表示手段により表示された前記分類対象文書に関して、ユーザからの操作入力によって、前記カテゴリに属すべきでないことが示された場合、前記分類対象文書に対応する前記学習文書を、正例から負例に変更する判定結果変更手段として機能させることを特徴とする付記1記載の文書分類プログラム。
(付記10) 前記時刻情報は、前記文書の配信開始時刻であることを特徴とする付記1記載の文書分類プログラム。
(付記11) 文書を内容に応じて分類するための文書分類装置において、
時刻情報が付与された学習文書を、所定のカテゴリに属す正例と前記カテゴリに属さない負例とに分けて記憶する学習文書記憶手段と、
前記学習文書記憶手段に格納されている前記学習文書それぞれに関して、前記学習文書に付与された前記時刻情報で示される時刻から現在までの経過時間を計算し、前記経過期間に応じた重みを設定し、前記学習文書の特徴を示す素性に対して前記学習文書の重みを設定する重み設定手段と、
前記カテゴリに対する正例の前記学習文書の素性のうち、重みの値が大きい素性ほど前記カテゴリの特徴を強く表しているものと評価し、各素性が前記カテゴリの特徴を示すか否かを示す学習結果を生成する学習手段と、
分類対象文書が入力されると、前記学習手段により生成された前記学習結果に基づいて、前記分類対象文書が前記カテゴリに属するか否かを判断する分類手段と、
前記分類対象文書に対して前記時刻情報を付与し、前記分類手段において前記カテゴリに属すると判断された場合には、前記分類対象文書を正例の前記学習文書として前記学習文書記憶手段に格納し、前記分類手段において前記カテゴリに属さないと判断された場合には、前記分類対象文書を負例の前記学習文書として前記学習文書記憶手段に格納する学習文書格納手段と、
前記分類手段において前記カテゴリに属すると判断された前記分類対象文書を表示する表示手段と、
を有することを特徴とする文書分類装置。
(付記12) コンピュータにより、文書を内容に応じて分類するための文書分類方法において、
前記コンピュータが、
時刻情報が付与された学習文書を、所定のカテゴリに属す正例と前記カテゴリに属さない負例とに分けて記憶する学習文書記憶手段に格納されている前記学習文書それぞれに関して、前記学習文書に付与された前記時刻情報で示される時刻から現在までの経過時間を計算し、前記経過期間に応じた重みを設定し、前記学習文書の特徴を示す素性に対して前記学習文書の重みを設定し、
前記カテゴリに対する正例の前記学習文書の素性のうち、重みの値が大きい素性ほど前記カテゴリの特徴を強く表しているものと評価し、各素性が前記カテゴリの特徴を示すか否かを示す学習結果を生成し、
分類対象文書が入力されると、前記学習手段により生成された前記学習結果に基づいて、前記分類対象文書が前記カテゴリに属するか否かを判断し、
前記分類対象文書に対して前記時刻情報を付与し、前記カテゴリに属すると判断された場合には、前記分類対象文書を正例の前記学習文書として前記学習文書記憶手段に格納し、前記カテゴリに属さないと判断された場合には、前記分類対象文書を負例の前記学習文書として前記学習文書記憶手段に格納し、
前記カテゴリに属すると判断された前記分類対象文書を表示する、
ことを特徴とする文書分類方法。
本実施の形態の概略を示す図である。 本実施の形態のシステム構成例を示す図である。 本実施の形態に用いるクライアントのハードウェア構成例を示す図である。 クライアントの処理機能を示すブロック図である。 収集した記事に基づく学習結果フィードバックの流れを示す図である。 初期学習処理の手順を示すフローチャートである。 記事収集処理の手順を示すフローチャートである。 記事閲覧処理の手順を示すフローチャートである。 再学習処理の手順を示すフローチャートである。 記事の古さと重みの関係を示す図である。 周期的に減衰率が変化する減衰関数の例を示す図である。 学習時の重み付けを示す図である。 取得記事の表示例を示す図である。
符号の説明
1 学習文書記憶手段
1aa,1ab,・・・ 学習文書
1ba,1bb,・・・ 学習文書
2 重み設定手段
3 学習手段
4 分類手段
5 学習文書格納手段
6 表示手段
7 分類対象文書

Claims (11)

  1. 文書を内容に応じて分類するための文書分類プログラムにおいて、
    コンピュータを、
    時刻情報が付与された学習文書を、所定のカテゴリに属す正例と前記カテゴリに属さない負例とに分けて記憶する学習文書記憶手段、
    前記学習文書記憶手段に格納されている学習文書それぞれに関して、学習文書に付与された時刻情報で示される時刻から現在までの経過時間を計算し、経過期間に応じた重みを設定し、学習文書に含まれる言語情報を構成する要素であり該学習文書の特徴を示す素性に対して、該学習文書の重みを設定する重み設定手段、
    前記カテゴリに対する正例の学習文書の素性のうち、重みの値が大きい素性ほど前記カテゴリの特徴を強く表しているものと評価し、各素性が前記カテゴリの特徴を示すか否かを示す学習結果を生成する学習手段、
    分類対象文書が入力されると、前記学習手段により生成された前記学習結果に基づいて、前記分類対象文書が前記カテゴリに属するか否かを判断する分類手段、
    記分類手段において前記分類対象文書が前記カテゴリに属すると判断された場合には、時刻情報付きの前記分類対象文書を正例の学習文書として前記学習文書記憶手段に格納し、前記分類手段において前記分類対象文書が前記カテゴリに属さないと判断された場合には、時刻情報付きの前記分類対象文書を負例の学習文書として前記学習文書記憶手段に格納する学習文書格納手段
    として機能させることを特徴とする文書分類プログラム。
  2. 前記コンピュータを、さらに、
    前記分類手段において前記分類対象文書が前記カテゴリに属すると判断された場合、前記分類対象文書を表示する表示手段、
    として機能させることを特徴とする請求項1記載の文書分類プログラム。
  3. 前記重み設定手段は、経過時間が長いほど重みを小さくすることを特徴とする請求項1記載の文書分類プログラム。
  4. 前記重み設定手段は、経過時間に応じた重みの減少率を一定にして、該経過期間に応じた重みを設定することを特徴とする請求項3記載の文書分類プログラム。
  5. 前記重み設定手段は、経過時間が長いほど重みの減少率を小さくして、該経過期間に応じた重みを設定することを特徴とする請求項3記載の文書分類プログラム。
  6. 前記重み設定手段は、経過時間に応じて、重みを周期的に減少と増加とを繰り返させて、該経過期間に応じた重みを設定することを特徴とする請求項1記載の文書分類プログラム。
  7. 前記学習手段は、前記学習結果において、前記カテゴリの特徴を表す素性に対して正の関連度を設定し、前記カテゴリの特徴を表さない素性に対して負の関連度を設定し、
    前記分類手段は、前記分類対象文書に含まれる各素性の関連度を合算し、合算結果が正の値であれば前記分類対象文書が前記カテゴリに属すると判断し、合算結果が負の値であれば前記分類対象文書が前記カテゴリに属さないと判断することを特徴とする請求項1乃至6のいずれかに記載の文書分類プログラム。
  8. 前記学習文書記憶手段は、学習文書に関連づけて、該学習文書の配信元を示す配信元情報を記憶しており、
    前記学習手段は、前記カテゴリに含まれる正例の学習文書の配信元情報に基づいて、正例の学習文書の所定の割合以上を配信している配信元を検出し、検出した該配信元の配信元情報を前記学習結果に含め、
    前記分類手段は、前記カテゴリに属することに関して、前記学習結果に含まれる配信元情報で示される配信元から配信された前記分類対象文書を、他の配信元から配信された文書よりも有利に判定することを特徴とする請求項1乃至7のいずれかに記載の文書分類プログラム。
  9. 前記学習手段は、前記カテゴリに含まれる正例の学習文書のうち、他の正例の学習文書にリンクを張っている学習文書の割合が所定値以上の場合、他の正例の学習文書に対するリンクを含むというリンク条件を前記学習結果に含め、
    前記分類手段は、前記カテゴリに属することに関して、前記学習結果に含まれる前記リンク条件を満たす前記分類対象文書を、他の文書よりも有利に判定することを特徴とする請求項1乃至8のいずれかに記載の文書分類プログラム。
  10. 文書を内容に応じて分類するための文書分類装置において、
    時刻情報が付与された学習文書を、所定のカテゴリに属する正例と前記カテゴリに属さない負例とに分けて記憶する学習文書記憶手段と、
    前記学習文書記憶手段に格納されている学習文書それぞれに関して、学習文書に付与された時刻情報で示される時刻から現在までの経過時間を計算し、該経過期間に応じた重みを設定し、該学習文書に含まれる言語情報を構成する要素であり該学習文書の特徴を示す素性に対して、該学習文書の重みを設定する重み設定手段と、
    前記カテゴリに対する正例の学習文書の素性のうち、重みの値が大きい素性ほど前記カテゴリの特徴を強く表しているものと評価し、各素性が前記カテゴリの特徴を示すか否かを示す学習結果を生成する学習手段と、
    分類対象文書が入力されると、前記学習手段により生成された前記学習結果に基づいて、前記分類対象文書が前記カテゴリに属するか否かを判断する分類手段と、
    前記分類手段において前記分類対象文書が前記カテゴリに属すると判断された場合には、時刻情報付きの前記分類対象文書を正例の学習文書として前記学習文書記憶手段に格納し、前記分類手段において前記分類対象文書が前記カテゴリに属さないと判断された場合には、時刻情報付きの前記分類対象文書を負例の学習文書として前記学習文書記憶手段に格納する学習文書格納手段と、
    を有することを特徴とする文書分類装置。
  11. コンピュータにより、文書を内容に応じて分類するための文書分類方法において、
    前記コンピュータが、
    時刻情報が付与された学習文書を、所定のカテゴリに属する正例と前記カテゴリに属さない負例とに分けて記憶する学習文書記憶手段に格納されている学習文書それぞれに関して、学習文書に付与された時刻情報で示される時刻から現在までの経過時間を計算し、該経過期間に応じた重みを設定し、該学習文書に含まれる言語情報を構成する要素であり該学習文書の特徴を示す素性に対して、該学習文書の重みを設定し、
    前記カテゴリに対する正例の学習文書の素性のうち、重みの値が大きい素性ほど前記カテゴリの特徴を強く表しているものと評価し、各素性が前記カテゴリの特徴を示すか否かを示す学習結果を生成し、
    分類対象文書が入力されると、前記学習手段により生成された前記学習結果に基づいて、前記分類対象文書が前記カテゴリに属するか否かを判断し、
    前記分類対象文書が前記カテゴリに属すると判断された場合には、前記分類対象文書を正例の学習文書として時刻情報付きで前記学習文書記憶手段に格納し、前記分類対象文書が前記カテゴリに属さないと判断された場合には、前記分類対象文書を負例の学習文書として時刻情報付きで前記学習文書記憶手段に格納する、
    ことを特徴とする文書分類方法。
JP2005368274A 2005-12-21 2005-12-21 文書分類プログラム、文書分類装置、および文書分類方法 Expired - Fee Related JP4757016B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005368274A JP4757016B2 (ja) 2005-12-21 2005-12-21 文書分類プログラム、文書分類装置、および文書分類方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005368274A JP4757016B2 (ja) 2005-12-21 2005-12-21 文書分類プログラム、文書分類装置、および文書分類方法

Publications (2)

Publication Number Publication Date
JP2007172249A JP2007172249A (ja) 2007-07-05
JP4757016B2 true JP4757016B2 (ja) 2011-08-24

Family

ID=38298738

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005368274A Expired - Fee Related JP4757016B2 (ja) 2005-12-21 2005-12-21 文書分類プログラム、文書分類装置、および文書分類方法

Country Status (1)

Country Link
JP (1) JP4757016B2 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5167891B2 (ja) * 2008-03-21 2013-03-21 Jfeスチール株式会社 結果予測装置、及び、これを用いた製品品質予測方法
JP5332918B2 (ja) * 2009-06-04 2013-11-06 富士通株式会社 区分データレコメンド方法、プログラム、及び装置
JP5348786B2 (ja) * 2010-01-05 2013-11-20 株式会社Kddi研究所 検索キーワード辞書に対する非検索キーワード辞書を用いた文章検索プログラム、サーバ及び方法
JP5346841B2 (ja) * 2010-02-22 2013-11-20 株式会社野村総合研究所 文書分類システムおよび文書分類プログラムならびに文書分類方法
JP5192518B2 (ja) * 2010-08-04 2013-05-08 三菱電機インフォメーションシステムズ株式会社 文書検索システム、文書検索方法および文書検索プログラム
CN103299304B (zh) 2011-01-13 2016-09-28 三菱电机株式会社 分类规则生成装置和分类规则生成方法
JP5661588B2 (ja) * 2011-10-06 2015-01-28 ヤフー株式会社 情報表示装置、プログラム、情報表示方法及び情報表示システム
JP5696106B2 (ja) * 2012-09-05 2015-04-08 日本電信電話株式会社 同義タグ抽出装置及び方法及びプログラム
JP5827208B2 (ja) 2012-11-30 2015-12-02 株式会社Ubic 文書管理システムおよび文書管理方法並びに文書管理プログラム
JP5827206B2 (ja) * 2012-11-30 2015-12-02 株式会社Ubic 文書管理システムおよび文書管理方法並びに文書管理プログラム
KR101981075B1 (ko) * 2015-03-31 2019-05-22 가부시키가이샤 프론테오 데이터 분석 시스템, 데이터 분석 방법, 데이터 분석 프로그램, 및 기록매체
CN106951422B (zh) * 2016-01-07 2021-05-28 腾讯科技(深圳)有限公司 网页训练的方法和装置、搜索意图识别的方法和装置
JP6373320B2 (ja) * 2016-09-08 2018-08-15 ヤフー株式会社 生成装置、生成方法、及び生成プログラム
JP6939205B2 (ja) * 2016-11-11 2021-09-22 京セラドキュメントソリューションズ株式会社 画像形成装置
JP6839001B2 (ja) * 2017-03-14 2021-03-03 日本放送協会 モデル学習装置、情報判定装置およびそれらのプログラム
JP7243402B2 (ja) * 2019-04-11 2023-03-22 富士通株式会社 文書処理方法、文書処理プログラムおよび情報処理装置
JP7346110B2 (ja) * 2019-07-08 2023-09-19 キヤノン株式会社 システム、方法、及びプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02260001A (ja) * 1989-03-31 1990-10-22 Matsushita Electric Ind Co Ltd ファジィ同定器
JP2001167124A (ja) * 1999-12-13 2001-06-22 Sharp Corp 文書分類装置及び文書分類プログラムを記録した記録媒体
JP2002202984A (ja) * 2000-11-02 2002-07-19 Fujitsu Ltd ルールベースモデルに基づくテキスト情報自動分類装置
JP2002222083A (ja) * 2001-01-29 2002-08-09 Fujitsu Ltd 事例蓄積装置および方法
JP4225542B2 (ja) * 2003-06-25 2009-02-18 日本電信電話株式会社 キーワードベクトル辞書生成装置とシステムおよびプログラム

Also Published As

Publication number Publication date
JP2007172249A (ja) 2007-07-05

Similar Documents

Publication Publication Date Title
JP4757016B2 (ja) 文書分類プログラム、文書分類装置、および文書分類方法
JP5940647B2 (ja) 文書の電子的調査
US10896214B2 (en) Artificial intelligence based-document processing
US10366119B2 (en) Customized content stream utilizing dwelltime-based machine learning
US20160299923A1 (en) Systems and Methods for Cleansing Automated Robotic Traffic
Agarwal et al. Statistical methods for recommender systems
US8150822B2 (en) On-line iterative multistage search engine with text categorization and supervised learning
US20080319973A1 (en) Recommending content using discriminatively trained document similarity
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
WO2006116516A2 (en) Temporal search results
WO2010081238A1 (en) Method and system for document classification
US8856109B2 (en) Topical affinity badges in information retrieval
CN113139141B (zh) 用户标签扩展标注方法、装置、设备及存储介质
US10289624B2 (en) Topic and term search analytics
CN112307336A (zh) 热点资讯挖掘与预览方法、装置、计算机设备及存储介质
Walsh et al. Analysis of transaction logs from National Museums Liverpool
CN117743848A (zh) 一种用户画像生成方法、装置、电子设备及存储介质
CN116882414A (zh) 基于大规模语言模型的评语自动生成方法及相关装置
JP2005267095A (ja) 情報表示方法及び装置及び情報表示プログラム
KR102126911B1 (ko) KeyplayerRank를 이용한 소셜 미디어상의 주제별 키플레이어 탐지 방법
Hao et al. An Algorithm for Generating a Recommended Rule Set Based on Learner's Browse Interest
Kühl et al. Automatically quantifying customer need tweets: Towards a supervised machine learning approach
Kelly et al. A user-centered approach to evaluating topic models
US20200226159A1 (en) System and method of generating reading lists
Robles et al. Collaborative filtering using interval estimation naive Bayes

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080416

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101026

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110531

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110531

R150 Certificate of patent or registration of utility model

Ref document number: 4757016

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140610

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees