JP4017354B2 - Information classification apparatus and information classification program - Google Patents
Information classification apparatus and information classification program Download PDFInfo
- Publication number
- JP4017354B2 JP4017354B2 JP2001111942A JP2001111942A JP4017354B2 JP 4017354 B2 JP4017354 B2 JP 4017354B2 JP 2001111942 A JP2001111942 A JP 2001111942A JP 2001111942 A JP2001111942 A JP 2001111942A JP 4017354 B2 JP4017354 B2 JP 4017354B2
- Authority
- JP
- Japan
- Prior art keywords
- classification
- information
- unit
- new text
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、大量のテキスト情報等の分類に用いられる情報分類装置および情報分類プログラムに関するものであり、特に、複数の分類方法から最も分類精度が高い分類方法を選択することで、分類精度、効率を高めることができる情報分類装置および情報分類プログラムに関するものである。
【0002】
近時、インターネットを用いることで、莫大な量のテキスト情報を簡単に入手することが可能である。このことから、これらの大量のテキスト情報の内容を把握し、その中から必要なテキスト情報を効率よく抽出する技術が求められている。これは、決められた分類カテゴリに、これらのテキスト情報が分類されていると、後にテキスト情報を活用する際の検索や、関連テキスト情報を見つける場合等に便利だからである。
【0003】
従来では、このような大量のテキスト情報は、分類担当者や、テキスト情報の作成者またはテキスト情報の活用者により、新規のテキスト情報の内容が判断され、複数の分類カテゴリからなる分類体系の中の最適な分類カテゴリにそれぞれ手動で分類されていた。また、別の分類方法としては、計算機システムを利用して新規のテキスト情報の内容が解析され、この解析結果に基づいて分類カテゴリに該当するテキスト情報を自動で分類するものがある。前者の分類方法では、非常に高いコストがかかり、後者の分類方法では、実用的な結果を得るための分類カテゴリの数や分類精度に問題がある。このことから、従来よりこのような問題を効果的に解決するための手段、方法が切望されている。
【0004】
【従来の技術】
電子化された大量のテキスト情報が流通するようになった現在では、テキスト情報の効率的検索/利用の観点から、テキスト情報の意味内容に基づいた分類が重要な課題となっている。従来より、かかる課題を解決するための手段として、テキスト情報の分類作業を自動で実行する情報分類装置が各方面で用いられている。
【0005】
また、従来では、与えられたテキスト情報の分類事例に基づいてテキスト情報の分類方法を導出した後、この分類方法に基づいて新規のテキスト情報を分類する方法として、特開平11−328211号公報、特開平11−296552号公報、特開平11−167581号公報、特開平11−161671号公報等に様々な分類方法が開示されている。ここで、つぎの(1)項〜(3)項に従来の分類方法を列挙する。
(1)確率モデルを基にした統計的な分類方法
(2)学習により自動分類を行う分類方法
(3)それぞれの分類カテゴリにテキスト情報を分類するためのルールを作成
し、このルールを用いて自動分類を行う分類方法
【0006】
(1)項の分類方法は、一般的な分類の傾向を見つけだすことができるが、細かい分類の傾向を見つけだすことができない。(2)項の分類方法は、分類カテゴリ数が数十未満の場合に高い分類精度を得ることができるが、数十以上に増えた場合、分類精度が低くなる。また、(3)項の分類方法は、ルールの作成およびメンテナンスに多大なコストがかかる。このように、(1)項〜(3)項までの分類方法は、それぞれ一長一短がある。
【0007】
図18は、従来の情報分類装置の構成を示すブロック図である。この図において、分類サンプルデータ2は、どの分類カテゴリにどのテキストを分類するのかが予め決められた複数のテキストからなる分類に関する正解データである。特徴素抽出部1は、分類サンプルデータ2から、各分類カテゴリの特徴をそれぞれ表す特徴素(単語)を各テキストから抽出する。
【0008】
ここで、特徴素の抽出においては、各分類カテゴリの弁別能力を高めることができる特徴素を効率的に抽出する必要がある。従って、特徴素抽出部1では、特徴素の出現頻度をベースにして、上記弁別能力を高めるための特徴素抽出方法が用いられる。この特徴素抽出方法としては、従来より複数のものが提案されている。また、特徴素の属性についても品詞を幾つか指定する等の方法が採られる。
【0009】
分類学習情報生成部3は、特徴素抽出部1により抽出された特徴素から各分類カテゴリの特徴をそれぞれ算出し、この算出結果としての分類学習情報4を生成する。この分類学習情報生成部3における分類学習方法としては、従来より複数のものが提案されている。分類学習情報4は、特徴素の状況と分類カテゴリとの対応関係を表す情報である。自動分類部5は、予め固定的に設定された一つの分類方法により、分類対象である、複数のテキストからなる新規テキスト群6を分類学習情報4に基づいて、分類カテゴリに分類し、分類結果データ7を出力する。
【0010】
【発明が解決しようとする課題】
ところで、前述したように、従来の情報分類装置(図18参照)においては、特徴素抽出部1の特徴素抽出方法として複数のものがある旨を述べたが、分類対象となる新規テキスト群6の内容、量に依存して、分類結果データ7における分類精度が変動することから、あらゆる内容、量の新規テキスト群6に対して高い分類精度を維持する万能な抽出方法を一意に規定することが難しい。
【0011】
同様にして、分類学習情報生成部3においても、分類学習方法として複数のものがある旨を述べたが、新規テキスト群6の内容、量に依存して分類結果データ7における分類精度が変動することから、高い分類精度を維持する万能な分類学習方法を一意に規定することが難しい。このことから、従来の情報分類装置では、やむを得ず、複数の分類方法(特徴素抽出方法、分類学習方法)のうち一つの分類方法が固定的に用いられている。
【0012】
従って、従来の情報分類装置では、一つの固定的な分類方法により新規テキスト群6の分類を行っているため、新規テキスト群6の内容、量によって分類精度がバラツキ、結果的に分類精度が低くなってしまうという問題があった。
【0013】
本発明は、上記に鑑みてなされたもので、分類対象の情報の内容、量にかかわらず、分類精度を高めることができる情報分類装置および情報分類プログラムを提供することを目的とする。
【0014】
【課題を解決するための手段】
上記目的を達成するために、請求項1にかかる発明は、複数のサンプルテキストと複数の分類カテゴリとが予め対応付けられた分類サンプル情報に含まれる複数のサンプルテキストのそれぞれから分類カテゴリ毎に特徴素を抽出する特徴素抽出手段と、前記分類サンプル情報に基づいて、複数の分類方法の中から最も分類精度が高い分類方法を決定する分類方法決定手段と、前記分類方法決定手段により決定された分類方法に従って、前記特徴素抽出手段により抽出された特徴素に基づいて、分類カテゴリ毎の特徴を表す分類学習情報を生成する分類学習情報生成手段と、前記分類方法決定手段により決定された分類方法および前記分類学習情報に従って、分類対象である新規テキスト群を分類カテゴリ毎に分類し、分類結果を記憶手段に記憶させる分類手段と、前記分類手段によって第1の分類カテゴリに分類された新規テキストを、前記分類サンプル情報に含めさせて該新規テキストを第2の分類カテゴリと対応付けさせ、該新規テキストを含む前記分類サンプル情報から特徴素を再抽出する処理を前記特徴素抽出手段に行わせ、該新規テキストを含む前記分類サンプル情報に基づく分類方法の再決定を前記分類方法決定手段に行わせ、再決定された分類方法と再抽出された特徴素による分類学習情報の再生成を前記分類学習情報生成手段に行わせ、再決定された分類方法と再生成された分類学習情報による前記新規テキスト群の再分類を前記分類手段に行わせる再学習手段と、前記記憶手段に記憶された前回の分類結果との相違を示すシンボルを新規テキスト毎に付して、前記新規テキスト群に含まれる各新規テキストの再分類の結果を表示部に表示させる表示手段とを備えることを特徴とする。
【0015】
この発明によれば、複数の分類方法を使用可能な状態にしておき、分類方法決定手段により、分類サンプル情報に基づいて複数の分類方法の中から最も分類精度が高い分類方法を決定した後、この分類方法に従って新規テキスト群を分類カテゴリ毎に分類するようにしたので、従来に比して、分類対象の情報の内容、量にかかわらず、分類精度を高めることができる。また、新規テキストを分類し直した分類サンプル情報に基づいて分類学習情報を再生成して分類を再実行し、再生成前後の分類結果の相違を表示するようにしたので、分類学習情報の分類精度をさらに高めることができる。
【0016】
また、請求項2にかかる発明は、請求項1に記載の情報分類装置において、前記特徴素抽出手段は、複数の特徴素抽出方法により特徴素をそれぞれ抽出し、これらの抽出結果に基づいて、複数の特徴素抽出方法の中から分類カテゴリ間の弁別能力が高い特徴素抽出方法を選択し、この選択結果に対応する特徴素を抽出結果とすることを特徴とする。
【0017】
この発明によれば、特徴素抽出手段で複数の特徴素抽出方法を使用可能な状態にしておき、これらの複数の特徴素抽出方法にそれぞれ対応する特徴素を抽出し、特に、分類カテゴリ間の弁別能力が高い特徴素抽出方法に対応する特徴素を抽出結果とするようにしたので、この特徴素に対応する分類結果の分類精度をさらに高めることができる。
【0018】
また、請求項3にかかる発明は、請求項1に記載の情報分類装置において、前記特徴素抽出手段により抽出された特徴素を編集する編集手段を備えることを特徴とする。
【0019】
この発明によれば、編集手段を設けて、抽出された特徴素を編集(削除、追加等)可能としたので、分類カテゴリに対して柔軟な特徴素設定を行うことができる。
【0020】
また、請求項4にかかる発明は、請求項1〜3のいずれか一つに記載の情報分類装置において、前記分類方法決定手段は、クロスバリデーション方式により、複数の分類方法の中から最も分類精度が高い分類方法を決定することを特徴とする。
【0021】
この発明によれば、複数の分類方法を使用可能な状態にしておき、分類方法決定手段により、分類サンプル情報に基づいて複数の分類方法の中から最も分類精度が高い分類方法をクロスバリデーション方式により決定した後、この分類方法に従って新規テキスト群を分類カテゴリ毎に分類するようにしたので、従来に比して、分類対象の情報の内容、量にかかわらず、分類精度を高めることができる。
【0022】
また、請求項5にかかる発明は、請求項1〜4のいずれか一つに記載の情報分類装置において、前記サンプル情報、前記新規テキスト群における分類対象箇所を指定する指定手段を備えることを特徴とする。
【0023】
この発明によれば、指定手段により、分類サンプル情報、新規テキスト群における分類対象箇所を指定するようにしたので、分類に不要な箇所を排除し、本質的に必要な箇所を対象に分類を行うことができるため、分類精度をさらに向上させることができる。
【0024】
また、請求項6にかかる発明は、請求項1〜5のいずれか一つに記載の情報分類装置において、複数のサンプルテキストをクラスタリングすることで、前記複数のサンプルテキストと複数の分類カテゴリとが対応付けられた前記分類サンプル情報を生成するクラスタリング手段を備えることを特徴とする。
【0025】
この発明によれば、クラスタリング手段により分類サンプル情報を生成するようにしたので、複数のサンプルテキストから分類カテゴリを手動で生成する場合に比して、格段に効率を向上させることができるとともに、ユーザの作業負担を軽減させることができる。
【0026】
また、請求項7にかかる発明は、請求項1〜5のいずれか一つに記載の情報分類装置において、前記分類サンプル情報をクラスタリングするクラスタリング手段と、前記クラスタリング手段のクラスタリング結果と所望のクラスタリング結果とを比較する比較手段と、前記比較手段の比較結果に基づいて、必要に応じて前記分類サンプル情報を変更する変更手段とを備えることを特徴とする。
【0027】
この発明によれば、クラスタリング手段のクラスタリング結果と所望のクラスタリング結果とを比較し、この比較結果が例えば不一致である場合に、変更手段により分類サンプル情報を変更可能としたので、より完全な分類サンプル情報に基づいて新規テキスト群の分類を行うことができることから、分類精度を極めて高くすることができる。
【0028】
また、請求項8にかかる発明は、請求項1〜7のいずれか一つに記載の情報分類装置において、前記分類手段の分類結果における新規テキスト群をクラスタリングし、クラスタリング結果を表示するクラスタリング結果表示手段を備えることを特徴とする。
【0029】
この発明によれば、クラスタリング結果表示手段によりクラスタリング結果を表示するようにしたので、分類結果の分布をユーザが容易に把握することができる。
【0030】
また、請求項9にかかる発明は、請求項1〜8のいずれか一つに記載の情報分類装置において、前記分類手段の分類結果を最適化する最適化手段を備え、前記分類学習情報生成手段は、最適化された分類結果に基づいて、分類学習情報を再生成し、前記分類手段は、前記分類方法決定手段により決定された分類方法および再生成された前記分類学習情報に従って、分類対象である新規テキスト群を分類カテゴリ毎に分類することを特徴とする。
【0031】
この発明によれば、最適化手段により最適化された分類結果に基づいて、分類学習情報を再生成し、この分類学習情報に従って、新規テキスト群を再度分類するようにしたので、さらに分類精度を向上させることができる。
【0032】
また、請求項10にかかる発明は、請求項9に記載の情報分類装置において、前記最適化前の分類結果と前記最適化後の分類結果との相違を視覚的に認識可能な相違認識情報として表示する相違認識情報表示手段を備えることを特徴とする。
【0033】
この発明によれば、最適化前後における分類結果の相違を相違認識情報として表示させ、ユーザが一目で相違を認識できるようにしたので、相違に基づくユーザの対応を迅速に行わせることができ、結果的に分類精度を高めることができる。
【0034】
また、請求項11にかかる発明は、コンピュータを、複数のサンプルテキストと複数の分類カテゴリとが予め対応付けられた分類サンプル情報に含まれる複数のサンプルテキストのそれぞれから分類カテゴリ毎に特徴素を抽出する特徴素抽出手段と、前記分類サンプル情報に基づいて、複数の分類方法の中から最も分類精度が高い分類方法を決定する分類方法決定手段と、前記分類方法決定手段により決定された分類方法に従って、前記特徴素抽出手段により抽出された特徴素に基づいて、分類カテゴリ毎の特徴を表す分類学習情報を生成する分類学習情報生成手段と、前記分類方法決定手段により決定された分類方法および前記分類学習情報に従って、分類対象である新規テキスト群を分類カテゴリ毎に分類し、分類結果を記憶手段に記憶させる分類手段と、前記分類手段によって第1の分類カテゴリに分類された新規テキストを、前記分類サンプル情報に含めさせて該新規テキストを第2の分類カテゴリと対応付けさせ、該新規テキストを含む前記分類サンプル情報から特徴素を再抽出する処理を前記特徴素抽出手段に行わせ、該新規テキストを含む前記分類サンプル情報に基づく分類方法の再決定を前記分類方法決定手段に行わせ、再決定された分類方法と再抽出された特徴素による分類学習情報の再生成を前記分類学習情報生成手段に行わせ、再決定された分類方法と再生成された分類学習情報による前記新規テキスト群の再分類を前記分類手段に行わせる再学習手段と、前記記憶手段に記憶された前回の分類結果との相違を示すシンボルを新規テキスト毎に付して、前記新規テキスト群に含まれる各新規テキストの再分類の結果を表示部に表示させる表示手段
として動作させること特徴とする。
【0035】
この発明によれば、複数の分類方法を使用可能な状態にしておき、分類方法決定工程で、分類サンプル情報に基づいて複数の分類方法の中から最も分類精度が高い分類方法を決定した後、この分類方法に従って新規テキスト群を分類カテゴリ毎に分類するようにしたので、従来に比して、分類対象の情報の内容、量にかかわらず、分類精度を高めることができる。また、新規テキストを分類し直した分類サンプル情報に基づいて分類学習情報を再生成して分類を再実行し、再生成前後の分類結果の相違を表示するようにしたので、分類学習情報の分類精度をさらに高めることができる。
【0040】
【発明の実施の形態】
以下、図面を参照して本発明にかかる情報分類装置および情報分類プログラムの一実施の形態について詳細に説明する。
【0041】
図1は、本発明にかかる一実施の形態の構成を示すブロック図である。この図において、サンプルテキスト群10は、未分類の複数のテキストの集合である。クラスタリング部20は、サンプルテキスト群10をクラスタリングし、分類サンプルデータ30を生成する。この分類サンプルデータ30は、どの分類カテゴリにどのテキストを分類するのかが予め決められた複数のテキストからなる分類に関する正解データである。
【0042】
特徴素抽出部40は、特徴素抽出部1(図18参照)と同様にして、分類サンプルデータ30から、各分類カテゴリの特徴をそれぞれ表す特徴素(単語)を各テキストから抽出する。ただし、特徴素抽出部1が一つの特徴素抽出方法に従って特徴素の抽出を行うのに対して、特徴素抽出部40は、複数の特徴素抽出方法のそれぞれに従って特徴素の抽出を行う点で、特徴素抽出部1と異なる。
【0043】
分類学習情報生成部60は、分類学習情報生成部3(図18参照)と同様にして、特徴素抽出部40により抽出された特徴素から各分類カテゴリの特徴をそれぞれ算出し、この算出結果としての分類学習情報70を生成する。ただし、分類学習情報生成部3が一つの分類学習方法に従って特徴を算出するのに対して、分類学習情報生成部60は、複数の分類学習方法のそれぞれに従って特徴を算出する点で、分類学習情報生成部3と異なる。
【0044】
分類方法決定部50は、例えば、周知のクロスバリデーションにより、複数の分類方法の中から最も分類精度が高い分類方法を決定する。この分類方法決定部50の動作の詳細については後述する。新規テキスト群80は、図2に示したように、分類対象の複数の新規テキストTX1(テキスト名text1)〜新規テキストTX10 (テキスト名text10)、・・・からなる。図1に戻り、自動分類部90は、分類方法決定部50により決定された分類方法および分類学習情報70に基づいて、新規テキスト群80を分類カテゴリに分類し、これを分類結果データ100(図3参照)として出力する。
【0045】
クラスタリング部110は、分類結果データ100をクラスタリングし、クラスタリング結果C(図4参照)を得る。表示部120は、クラスタリング部110からのクラスタリング結果Cや、各部からの各種データを表示するディスプレイである。図5〜図7には、表示部120の表示例が図示されている。入力部130は、後述する編集作業や、表示部120におけるウィンドウ操作等を行うためのマウス、キーボード等である。
【0046】
つぎに、上述した一実施の形態の動作について、図8〜図10に示したフローチャートを参照しつつ説明する。図1に示したクラスタリング部20にサンプルテキスト群10が入力されると、図8に示したステップSA1では、クラスタリング部20は、サンプルテキスト群10の複数のテキストをクラスタリングする。ステップSA2では、クラスタリング部20は、各クラスタを分類カテゴリ化する。ステップSA3では、クラスタリング部20は、どの分類カテゴリにどのテキストを分類するのかが予め決められた複数のテキストからなる分類に関する分類サンプルデータ30(正解データ)を特徴素抽出部40へ出力する。
【0047】
これにより、ステップSA4では、特徴素抽出部40は、分類サンプルデータ30における各分類カテゴリの特徴をそれぞれ表す特徴素(単語)を各テキストから抽出する特徴素抽出処理を実行する。すなわち、図9に示したステップSB1では、特徴素抽出部40は、分類サンプルデータ30を形態素解析することにより、分類カテゴリの特徴を表す特徴素(単語)の候補を抽出する。ステップSB2では、特徴素抽出部40は、抽出された特徴素の候補における同義語を統一化するという処理を実行する。
【0048】
ステップSB3では、特徴素抽出部40は、抽出された複数の特徴素の候補に関して、分類カテゴリ毎に、同一語の特徴素をカウントする。ステップSB4では、特徴素抽出部40は、分類カテゴリ毎に複数の特徴素の候補を絞り込むランキング処理を実行する。このランキング処理では、複数の特徴素の候補に対して、出現頻度が高い順に特徴素を分類カテゴリ毎にランキングする方法や、出現確率が高い順に特徴素を分類カテゴリ毎にランキングする方法や、出現頻度の算出に統計的手法(他の分類カテゴリにも出現している特徴素のランキングを下げる手法)を取り入れ、特徴素を分類カテゴリ毎にランキングする方法等が採用される。
【0049】
ステップSB5では、特徴素抽出部40は、上述したランキングが高い特徴素を分類カテゴリ毎に上位から所定数抽出し、これらを特徴素として抽出する。ステップSB6では、特徴素抽出部40は、抽出された特徴素を特徴素抽出結果データとして出力する。図11は、上述した三つのランキングの方法のうち、出現頻度順にランキングされた特徴素出現頻度順リストR1 (特徴素抽出結果データに対応)を示す図である。
【0050】
同図には、分類カテゴリ(「Economic」、「Foreign」、・・・、「Society」および「Sport」)のフィールドと、当該分類カテゴリにおける特徴素(「市場」、「円高」等)出現頻度を表す度数のフィールドとがある。それぞれの分類カテゴリに対応するレコードには、当該分類カテゴリに分類されたテキストの数が記述されている。ここでいうテキストとは、サンプルテキスト群10(図1参照)を構成するものをいう。例えば、「Economic」という分類カテゴリには、27個のテキストが分類されており、「Foreign」という分類カテゴリには、43個のテキストが分類されている。
【0051】
同図左端のフィールドは、出現頻度が高い順を表すランキングである。例えば、「Economic」という分類カテゴリにおいては、27個のテキスト内での出現頻度のランキングが1位の特徴素が「市場」(度数:61.0)、2位の特徴素が「円高」(度数:40.0)、以下同様にして、30位の特徴素が「金融」(度数:12.0)である。
【0052】
図12は、上述した三つのランキングの方法のうち、Kullback−Leibler法と呼ばれる統計的手法を取り入れ、特徴素が分類カテゴリ毎にランキングされた特徴素出現頻度順リストR2 (特徴素抽出結果データに対応)を示す図である。同図に示した特徴素ランキングリストR2 の基本的な構成は、特徴素出現頻度順リストR1(図11参照)の構成と同一である。
【0053】
しかしながら、特徴素ランキングリストR2 では、他の分類カテゴリにも出現している特徴素のランキングを下げ、当該分類カテゴリと他の分類カテゴリとの弁別能力を向上させるための統計的手法が採用されている。例えば、図11に示した「Economic」という分類カテゴリにおけるランキング3位の「ドル」(特徴素)は、図12に示した「Economic」という分類カテゴリで31位以下(図示略)とされている。
【0054】
図8に戻り、ステップSA5では、分類方法決定部50は、新規テキスト群80に適用する分類方法を自動的に決定するか否かを判断する。ユーザからの指示が無ければ、分類方法決定部50は、ステップSA5の判断結果を「Yes」とする。一方、ユーザによりマニュアル操作で分類方法が指示された場合、分類方法決定部50は、ステップSA5の判断結果を「No」とし、ステップSA7でユーザからの指示に基づいて分類方法を決定する。
【0055】
この場合、ステップSA6では、分類方法決定部50は、例えば、クロスバリデーションにより、分類方法を自動的に決定する分類方法決定処理を実行する。すなわち、図10に示したステップSC1では、分類方法決定部50は、分類サンプルデータ30における分類カテゴリ毎に分類サンプル(テキスト)をランダムにN個に分ける。ステップSC2では、分類方法決定部50は、(N−1)個の分類サンプルに対して、複数の学習アルゴリズム(分類方法)をそれぞれ適用し、それぞれの学習アルゴリズムに対応する特徴素や分類学習情報を作成する。
【0056】
ステップSC3では、分類方法決定部50は、ステップSC2で作成された特徴素や分類学習情報を用いて、残り(1/N)の分類サンプルに対して当該学習アルゴリズム方法を適用することにより、分類テストを行い分類精度を算出する。この分類精度は、複数の学習アルゴリズムのそれぞれについて個別的に算出される。ステップSC4では、分類方法決定部50は、上記分類テストをN回実行したか否かを判断し、この場合、判断結果を「No」とする。以後、ステップSC2およびステップSC3では、分類サンプルを一つづつ替えることにより、N個の分類サンプルに関するそれぞれ分類精度が、複数の学習アルゴリズム毎に算出される。
【0057】
そして、ステップSC4の判断結果が「Yes」になると、ステップSC5では、分類方法決定部50は、N個の分類サンプルに関する分類精度の平均値を複数の学習アルゴリズム毎に算出する。ステップSC6では、分類方法決定部50は、複数の学習アルゴリズム(分類方法)にそれぞれ対応する複数の分類精度の平均値うち、最も高いものを選択した後、選択された分類精度に対応する学習アルゴリズム(分類方法)を選択する。また、分類方法決定部50は、分類精度が最も高い学習アルゴリズム(分類方法)を分類学習情報生成部60および自動分類部90に通知する。
【0058】
図8に戻り、ステップSA8では、分類学習情報生成部60は、分類方法決定部50により通知された学習アルゴリズム(分類方法)、および特徴素抽出部40からの特徴素抽出結果データに基づいて、分類学習情報70を生成する。ステップSA9では、分類学習情報生成部60は、分類学習情報70をデータベース(図示略)に登録する。ステップSA10では、自動分類部90は、分類対象である新規テキスト群80が入力されたか否かを判断し、この場合、判断結果を「No」として同判断を繰り返す。
【0059】
そして、新規テキスト群80が自動分類部90に入力されると、自動分類部90は、ステップSA10の判断結果を「Yes」とする。ステップSA11では、自動分類部90は、新規テキスト群80(図2参照)を構成する新規テキストTX1 、新規テキストTX2 、・・・新規テキストTX10 、・・・のすべての自動分類が終了したか否かを判断し、この場合、判断結果を「No」とする。以降、ステップSA15〜ステップSA21では、自動分類部90は、分類方法決定部50により決定された分類方法に基づいて、自動分類処理を実行する。
【0060】
以下では、分類方法の一例として、ベクトル空間法に基づいて新規テキスト群80を分類する場合について説明する。この場合に、分類学習情報70には、各分類カテゴリ毎に30個の特徴素が含まれており、全特徴素のベクトル、各分類カテゴリのベクトルが含まれているものとする。この状態で、ステップSA15では、自動分類部90は、新規テキスト群80における新規テキストTX1 (図2参照)に対して形態素解析を実行し、特徴素(単語)を抽出する。ステップSA16では、自動分類部90は、抽出された特徴素における同義語を統一化するという同義語統一化処理を実行する。
【0061】
ステップSA17では、自動分類部90は、抽出された特徴素をカウントする。ステップSA18では、自動分類部90は、分類学習情報70内の特徴素と同一の特徴素を、新規テキストTX1 に含まれる複数の特徴素から取得する。つぎに、自動分類部90は、取得した特徴素、すなわち、新規テキストTX1 に関する文書ベクトルを生成する。
【0062】
ステップSA19では、新規テキストTX1 に関する文書ベクトルと、分類学習情報70内の各分類カテゴリのベクトルとの類似度(コサイン値)を算出する。この類似度(コサイン値)は、分類カテゴリのベクトルをA、新規テキストTX1 の文書ベクトルをBとするとつぎの式で表される。
類似度(コサイン値)=ベクトルAと文書ベクトルBとの内積/(ベクトルAの大きさ×文書ベクトルBの大きさ)
【0063】
すなわち、ステップSA19では、新規テキストTX1 に関して、分類カテゴリの数分の類似度(コサイン値)が算出される。ステップSA20では、自動分類部90は、算出された複数の類似度(コサイン値)を正規化(0〜100までの値とする)する。ステップSA21では、自動分類部90は、複数の類似度(コサイン値)のうち、しきい値(例えば、70)以上の類似度を選択した後、選択された類似度に対応する分類カテゴリに新規テキストTX1 を分類する。なお、複数の類似度のすべてがしきい値に満たない場合、自動分類部90は、当該新規テキストTX1 を分類できないテキストとする。以後、ステップSA15〜ステップSA21までの処理が繰り返されることにより、新規テキストが分類カテゴリに順次分類される。
【0064】
そして、すべての新規テキストの分類が終了すると、自動分類部90は、ステップSA11の判断結果を「Yes」とする。ステップSA12では、自動分類部90は、図3に示した分類結果データ100を出力する。この図において、テキスト名text1 〜テキスト名text20、・・・は、図2に示したテキスト名text1〜テキスト名text10、・・・に対応しており、「AUTOMOTIVE_INDUSTRY」等は、分類カテゴリを示し、分類カテゴリの右側の数字は、得点(例えば、類似度)を表す。すなわち、図2に示した新規テキストTX1 は、「AUTOMOTIVE_INDUSTRY」という分類カテゴリに分類されており、得点(類似度)が「85」である。
【0065】
図8に戻り、ステップSA13では、クラスタリング部110は、分類結果データ100を用いて、新規テキスト群80をクラスタリングする。図4は、クラスタリング部110におけるクラスタリング結果Cを示す図である。この図には、1000個の新規テキストからなる新規テキスト群80が分類された場合であって、「Economic」という分類カテゴリに26個の新規テキストが分類された場合の26個の新規テキストの内訳(テキストの数、特徴素)が図示されている。
【0066】
ステップSA14では、表示部120には、例えば、図4に示したクラスタリング結果Cが表示される。これにより、ユーザは、分類カテゴリ(この場合、Economic」)にどのような内容が分類されているかの確認を行うことができる。
【0067】
なお、一実施の形態においては、図12に示した特徴素ランキングリストR2 を表示部120に表示させ、ユーザの要求に応じて、特徴素ランキングリストR2 を編集し、図13に示した特徴素ランキングリストR3 を用いて、分類を行うようにしてもよい。この場合、ユーザは、入力部130を用いて、特徴素ランキングリストR2 において不要と判断した特徴素を削除するという編集を行う。これにより、特徴素ランキングリストR3 (図13参照)が作成され、この特徴素ランキングリストR3 に基づいて、上述した処理が実行される。
【0068】
なお、一実施の形態では、分類サンプルデータ30と新規テキスト群80との構造が予め規定されている場合、分類サンプルデータ30、新規テキスト群80における分類対象箇所を入力部130により指定するようにしてもよい。
【0069】
さて、前述では、図1に示したクラスタリング部20によりクラスタリングされた結果(分類サンプルデータ30)をそのまま特徴素抽出部40で用いた例について説明したが、クラスタリングされた結果を検証するようにしてもよい。以下では、この場合を一実施の形態の変形例1として、図14および図15を参照して説明する。
【0070】
図15に示したステップSD1では、図1に示した分類サンプルデータ30(正解データ)に含まれるサンプルテキスト群10に対して、クラスタリング部20によりクラスタリングが実行される。この場合、分類サンプルデータ30における分類カテゴリの割付けが無視される。図14は、クラスタリング部20によりクラスタリングされた結果(クラスタリング結果分布データCB)を示す図である。この図には、7つの分類カテゴリ(「Economic」、「Foreign」、・・・「Sport」)に割り付けられた277のテキストをクラスタリングした結果が図示されている。
【0071】
この図によれば、Aレコードの「Sports」、CおよびEレコードの「Politics」は、きれいに分類カテゴリの割付が行われていることがわかる。これに対して、Dレコードの「Economic」と「Industry」の区別や、Fレコード以降の「Foreign」、「Industry」、「Politics」、「Science」、「Society」の区別が曖昧になっていることがわかる。この場合には、後述するステップSD4の処理が実行される。ステップSD2では、クラスタリングされた結果(分類カテゴリの割付)と、ユーザが当初想定していた分類カテゴリの割付とが比較部(図示略)により比較される。
【0072】
ステップSD3では、比較部は、ステップSD2の比較結果が同一であるか否かを判断し、この判断結果が「No」である場合、比較結果を表示部120に表示させる。これにより、ステップSD4では、ユーザは、入力部130を用いて、クラスタリングされた結果(分類カテゴリの割付)を再検討し、分類カテゴリの編集を行う。一方、ステップSD3の判断結果が「Yes」である場合、すなわち、分類サンプルデータ30における分類カテゴリの割付がユーザが当初想定していたものと同一であるため、ステップSD5では、分類カテゴリおよび分類サンプル(テキスト)が学習情報とされる。ステップSD6では、比較部(図示略)は、分類サンプルデータ30を特徴素抽出部40へ出力する。これにより、前述した処理が実行される。
【0073】
さて、前述では、自動分類部90により分類された分類結果データ100をそのまま出力する例について説明したが、自動分類部90により分類が行われた後に分類結果データ100が所望のものであるか否かを検証し、この検証結果がNGの場合に、この検証結果を分類学習情報70にフィードバックし、再学習することにより分類精度を向上させるようにしてもよい。以下では、この場合を一実施の形態の変形例2として図16を参照しつつ説明する。同図において、図1の各部に対応する部分には同一の符号を付ける。この図においては、再学習処理部140が新たに設けられている。この再学習処理部140は、上述したフィードバックを受けて分類学習情報70Aを作成する。
【0074】
20個の新規テキストからなる新規テキスト群80が情報分類装置200に入力されると、新規テキスト群80は、前述した動作と同様にして、分類学習情報70および所定の分類方法に基づいて、自動分類される。これにより、情報分類装置200からは、分類結果データ100が出力される。この分類結果データ100は、表示部120に表示される。ここで、分類結果データ100において、分類カテゴリBに割り付けられた新規テキスト(5)および(6)が分類カテゴリAに割り付けられるべきであって、かつ分類カテゴリCに割り付けられた新規テキスト(9)が分類カテゴリDに割り付けられるべきであった場合、ユーザは、入力部130を用いて、所望の割付に編集する。
【0075】
これにより、再学習処理部140は、編集された分類結果データ100に基づいて、分類学習情報生成部60(図1参照)と同様の動作により、再学習処理を実行し、分類学習情報70Aを再構築する。この状態で、新規テキスト群80が情報分類装置200に入力されると、新規テキスト群80は、前述した動作と同様にして、再構築された分類学習情報70Aおよび所定の分類方法に基づいて、自動分類される。この場合、情報分類装置200から出力される分類結果データ100の分類精度は、再学習の効果により、極めて高い。
【0076】
なお、一実施の形態では、図1に示した表示部120に図5に示した画面G1 を表示させ、分類処理で発生する各種情報を表示させるようにしてもよい。画面G1 には、「ユーザークレーム分類」という分類カテゴリに対応するフォルダH0 、この分類カテゴリの配下に属する「初期不良」、・・・・「問い合わせ」および「分類されなかった文書」という分類カテゴリにそれぞれ対応するフォルダH1 〜H7 がそれぞれ表示されている。
【0077】
また、画面G1 には、ウィンドウ制御により、画面G2 〜G4 が表示されている。画面G2 には、図6に示したように「問い合わせ」という分類カテゴリに対応するサンプル文書(分類サンプルデータ30に対応)のタイトルK1 およびテキスト内容K2 が表示されている。また、図7に示した画面G3 には、「問い合わせ」という分類カテゴリに対応するキーワード(特徴素)が表示されている。図5に示した画面G4 には、「問い合わせ」という分類カテゴリに分類された新規テキストの一覧画面J1 および当該新規テキストの内容に関する内容表示画面J2 が表示されている。ここで、新規テキストの一覧画面J1 におけるアイコンI1 〜I4 は、上述した変形例2による再学習前の得点(類似度)に対する、再学習後の得点の変化を表すものである。
【0078】
すなわち、アイコンI1 は、前回よりも得点(類似度)が高くなったことを意味しており、アイコンI2 は、前回よりも得点(類似度)が低くなったことを意味している。アイコンI3 は、前回、当該分類カテゴリ(この場合「問い合わせ」)に分類されていた新規テキストが、今回、当該分類カテゴリに分類されなかったことを意味している。また、アイコンI4 は、前回、当該分類カテゴリ(この場合「問い合わせ」)に分類されていなかった新規テキストが、今回、当該分類カテゴリに分類されたことを意味している。
【0079】
以上説明したように、一実施の形態によれば、複数の分類方法を使用可能な状態にしておき、分類方法決定部50により、分類サンプルデータ30に基づいて複数の分類方法の中から最も分類精度が高い分類方法を決定した後、この分類方法に従って新規テキスト群80を分類カテゴリ毎に分類するようにしたので、従来に比して、分類対象の情報の内容、量にかかわらず、分類精度を高めることができる。
【0080】
また、一実施の形態によれば、特徴素抽出部40で複数の特徴素抽出方法を使用可能な状態にしておき、これらの複数の特徴素抽出方法にそれぞれ対応する特徴素を抽出し、特に、分類カテゴリ間の弁別能力が高い特徴素抽出方法に対応する特徴素を抽出結果とするようにしたので、この特徴素に対応する分類結果の分類精度をさらに高めることができる。
【0081】
また、一実施の形態によれば、入力部130および表示部120(編集手段)を設けて、抽出された特徴素を編集(削除、追加等)可能としたので、分類カテゴリに対して柔軟な特徴素設定を行うことができる。
【0082】
また、一実施の形態によれば、入力部130および表示部120(指定手段)により、分類サンプルデータ30、新規テキスト群80における分類対象箇所を指定するようにしたので、分類に不要な箇所を排除し、本質的に必要な箇所を対象に分類を行うことができるため、分類精度をさらに向上させることができる。
【0083】
また、一実施の形態によれば、クラスタリング部20により分類サンプルデータ30を生成するようにしたので、複数のサンプルテキストから分類カテゴリを手動で生成する場合に比して、格段に効率を向上させることができるとともに、ユーザの作業負担を軽減させることができる。
【0084】
また、一実施の形態によれば、クラスタリング部20のクラスタリング結果と所望のクラスタリング結果とを比較し、この比較結果が例えば不一致である場合に、入力部130(変更手段)により分類サンプルデータ30を変更可能としたので、より完全な分類サンプルデータ30に基づいて新規テキスト群80の分類を行うことができることから、分類精度を極めて高くすることができる。
【0085】
また、一実施の形態によれば、表示部120にクラスタリング結果分布データCB(図14参照)を表示するようにしたので、分類結果の分布をユーザが容易に把握することができる。
【0086】
また、一実施の形態によれば、変形例2で説明したように、最適化された分類結果に基づいて、分類学習情報70Aを再生成し、この分類学習情報70Aに従って、新規テキスト群80を再度分類するようにしたので、さらに分類精度を向上させることができる。
【0087】
また、一実施の形態によれば、上記最適化前後における分類結果の相違をアイコンI1〜14(相違認識情報)として表示させ、ユーザが一目で相違を認識できるようにしたので、相違に基づくユーザの対応を迅速に行わせることができ、結果的に分類精度を高めることができる。
【0088】
以上本発明にかかる一実施の形態について図面を参照して詳述してきたが、具体的な構成例はこの一実施の形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等があっても本発明に含まれる。たとえば、前述した一実施の形態においては、情報分類装置の機能を実現するための情報分類プログラムを図17に示したコンピュータ読み取り可能な記録媒体400に記録して、この記録媒体400に記録された情報分類プログラムを同図に示したコンピュータ300に読み込ませ、実行することにより情報分類を行うようにしてもよい。
【0089】
図17に示したコンピュータ300は、上記情報分類プログラムを実行するCPU301と、キーボード、マウス等の入力装置302と、各種データを記憶するROM(Read Only Memory)303と、演算パラメータ等を記憶するRAM(Random Access Memory)304と、記録媒体400から情報分類プログラムを読み取る読取装置305と、ディスプレイ、プリンタ等の出力装置306と、装置各部を接続するバスBUとから構成されている。
【0090】
CPU301は、読取装置305を経由して記録媒体400に記録されている情報分類プログラムを読み込んだ後、情報分類プログラムを実行することにより、前述した情報分類を行う。なお、記録媒体400には、光ディスク、フロッピーディスク、ハードディスク等の可搬型の記録媒体が含まれることはもとより、ネットワークのようにデータを一時的に記録保持するような伝送媒体も含まれる。
【0091】
また、一実施の形態では、図1に示した分類方法決定部50で、分類方法の決定方式の一例としてクロスバリデーション方式を採用した場合について説明したが、この方式に限られるものではなく、再現率(結果の中で正解の含まれている割合)や、適合率(結果の中で間違いの少なさ)といった値をキーとして分類方法を決定するようにしてもよい。要は、複数の分類方法が使用可能であること、これらの分類方法の中から最も分類精度が高いものを選択できること、という要件を具備していれば、いかなる方式を採用しても本発明に含まれる。
【0092】
【発明の効果】
以上説明したように、請求項1にかかる発明によれば、複数の分類方法を使用可能な状態にしておき、分類方法決定手段により、分類サンプル情報に基づいて複数の分類方法の中から最も分類精度が高い分類方法を決定した後、この分類方法に従って新規テキスト群を分類カテゴリ毎に分類するようにしたので、従来に比して、分類対象の情報の内容、量にかかわらず、分類精度を高めることができるという効果を奏する。また、新規テキストを分類し直した分類サンプル情報に基づいて分類学習情報を再生成して分類を再実行し、再生成前後の分類結果の相違を表示するようにしたので、分類学習情報の分類精度をさらに高めることができるという効果を奏する。
【0093】
また、請求項2にかかる発明によれば、特徴素抽出手段で複数の特徴素抽出方法を使用可能な状態にしておき、これらの複数の特徴素抽出方法にそれぞれ対応する特徴素を抽出し、特に、分類カテゴリ間の弁別能力が高い特徴素抽出方法に対応する特徴素を抽出結果とするようにしたので、この特徴素に対応する分類結果の分類精度をさらに高めることができるという効果を奏する。
【0094】
また、請求項3にかかる発明によれば、編集手段を設けて、抽出された特徴素を編集(削除、追加等)可能としたので、分類カテゴリに対して柔軟な特徴素設定を行うことができるという効果を奏する。
【0095】
また、請求項4にかかる発明によれば、複数の分類方法を使用可能な状態にしておき、分類方法決定手段により、分類サンプル情報に基づいて複数の分類方法の中から最も分類精度が高い分類方法をクロスバリデーション方式により決定した後、この分類方法に従って新規テキスト群を分類カテゴリ毎に分類するようにしたので、従来に比して、分類対象の情報の内容、量にかかわらず、分類精度を高めることができるという効果を奏する。
【0096】
また、請求項5にかかる発明によれば、指定手段により、分類サンプル情報、新規テキスト群における分類対象箇所を指定するようにしたので、分類に不要な箇所を排除し、本質的に必要な箇所を対象に分類を行うことができるため、分類精度をさらに向上させることができるという効果を奏する。
【0097】
また、請求項6にかかる発明によれば、クラスタリング手段により分類サンプル情報を生成するようにしたので、複数のサンプルテキストから分類カテゴリを手動で生成する場合に比して、格段に効率を向上させることができるとともに、ユーザの作業負担を軽減させることができるという効果を奏する。
【0098】
また、請求項7にかかる発明によれば、クラスタリング手段のクラスタリング結果と所望のクラスタリング結果とを比較し、この比較結果が例えば不一致である場合に、変更手段により分類サンプル情報を変更可能としたので、より完全な分類サンプル情報に基づいて新規テキスト群の分類を行うことができることから、分類精度を極めて高くすることができるという効果を奏する。
【0099】
また、請求項8にかかる発明によれば、クラスタリング結果表示手段によりクラスタリング結果を表示するようにしたので、分類結果の分布をユーザが容易に把握することができるという効果を奏する。
【0100】
また、請求項9にかかる発明によれば、最適化手段により最適化された分類結果に基づいて、分類学習情報を再生成し、この分類学習情報に従って、新規テキスト群を再度分類するようにしたので、さらに分類精度を向上させることができるという効果を奏する。
【0101】
また、請求項10にかかる発明によれば、最適化前後における分類結果の相違を相違認識情報として表示させ、ユーザが一目で相違を認識できるようにしたので、相違に基づくユーザの対応を迅速に行わせることができ、結果的に分類精度を高めることができるという効果を奏する。
【0102】
また、請求項11にかかる発明によれば、複数の分類方法を使用可能な状態にしておき、分類方法決定工程で、分類サンプル情報に基づいて複数の分類方法の中から最も分類精度が高い分類方法を決定した後、この分類方法に従って新規テキスト群を分類カテゴリ毎に分類するようにしたので、従来に比して、分類対象の情報の内容、量にかかわらず、分類精度を高めることができるという効果を奏する。また、新規テキストを分類し直した分類サンプル情報に基づいて分類学習情報を再生成して分類を再実行し、再生成前後の分類結果の相違を表示するようにしたので、分類学習情報の分類精度をさらに高めることができるという効果を奏する。
【図面の簡単な説明】
【図1】本発明にかかる一実施の形態の構成を示すブロック図である。
【図2】図1に示した新規テキスト群80の一例を示す図である。
【図3】図1に示した分類結果データ100の一例を示す図である。
【図4】図1に示したクラスタリング部110におけるクラスタリング結果Cを示す図である。
【図5】図1に示した表示部120の表示例を示す図である。
【図6】図1に示した表示部120の表示例を示す図である。
【図7】図1に示した表示部120の表示例を示す図である。
【図8】同一実施の形態の動作を説明するフローチャートである。
【図9】図8に示した特徴素抽出処理を説明するフローチャートである。
【図10】図8に示した分類方法決定処理を説明するフローチャートである。
【図11】同一実施の形態における特徴素出現頻度順リストR1 を示す図である。
【図12】同一実施の形態における特徴素ランキングリストR2 を示す図である。
【図13】同一実施の形態における特徴素ランキングリストR3 を示す図である。
【図14】同一実施の形態におけるクラスタリング結果分布データCBを示す図である。
【図15】同一実施の形態の変形例1を説明するフローチャートである。
【図16】同一実施の形態の変形例2を説明する図である。
【図17】同一実施の形態の変形例3を示すブロック図である。
【図18】従来の情報分類装置の構成を示すブロック図である。
【符号の説明】
20 クラスタリング部
40 特徴素抽出部
50 分類方法決定部
60 分類学習情報生成部
90 自動分類部
110 クラスタリング部
120 表示部
130 入力部
300 コンピュータ
301 CPU
400 記録媒体[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an information classification device used for classification of a large amount of text information and the like.andInformation classification apparatus, and in particular, an information classification device that can improve classification accuracy and efficiency by selecting a classification method with the highest classification accuracy from a plurality of classification methodsandIt relates to information classification programs.
[0002]
Recently, a huge amount of text information can be easily obtained by using the Internet. For this reason, there is a need for a technique for grasping the contents of such a large amount of text information and efficiently extracting necessary text information from the contents. This is because if these text information items are classified into a predetermined classification category, it is convenient for searching when using the text information later or finding related text information.
[0003]
Conventionally, such a large amount of text information is determined by the person in charge of classification, the creator of the text information, or the user of the text information. Each was classified manually into the optimal classification category. As another classification method, there is a method in which the content of new text information is analyzed using a computer system, and the text information corresponding to the classification category is automatically classified based on the analysis result. The former classification method is very expensive, and the latter classification method has a problem in the number of classification categories and classification accuracy for obtaining a practical result. For this reason, means and methods for effectively solving such problems have been eagerly desired.
[0004]
[Prior art]
At present, when a large amount of digitized text information has been distributed, classification based on the semantic content of text information has become an important issue from the viewpoint of efficient search / use of text information. Conventionally, as means for solving such a problem, information classification devices that automatically execute text information classification work have been used in various fields.
[0005]
Conventionally, as a method for classifying new text information based on this classification method after deriving a text information classification method based on a given text information classification example, Japanese Patent Application Laid-Open No. 11-328211, Various classification methods are disclosed in JP-A-11-296552, JP-A-11-167581, JP-A-11-161671, and the like. Here, conventional classification methods are listed in the following items (1) to (3).
(1) Statistical classification method based on probability model
(2) Classification method for automatic classification by learning
(3) Create rules to classify text information into each category
Classification method that performs automatic classification using this rule
[0006]
The classification method (1) can find a general classification tendency, but cannot find a fine classification tendency. The classification method (2) can obtain high classification accuracy when the number of classification categories is less than several tens, but the classification accuracy decreases when the number of classification categories increases to several tens or more. In addition, the classification method in (3) requires a great deal of cost for creating and maintaining rules. As described above, the classification methods (1) to (3) have their advantages and disadvantages.
[0007]
FIG. 18 is a block diagram showing a configuration of a conventional information classification apparatus. In this figure,
[0008]
Here, in the feature element extraction, it is necessary to efficiently extract the feature elements that can enhance the discrimination ability of each classification category. Therefore, the feature
[0009]
The classification learning
[0010]
[Problems to be solved by the invention]
Incidentally, as described above, in the conventional information classification apparatus (see FIG. 18), it has been described that there are a plurality of feature element extraction methods of the feature
[0011]
Similarly, the classification learning
[0012]
Therefore, in the conventional information classification device, since the
[0013]
The present invention has been made in view of the above, and an information classification device capable of improving classification accuracy regardless of the content and amount of information to be classified.andThe purpose is to provide an information classification program.
[0014]
[Means for Solving the Problems]
In order to achieve the above object, the invention according to
[0015]
According to the present invention, after the plurality of classification methods are made available, the classification method determining means determines the classification method with the highest classification accuracy from among the plurality of classification methods based on the classification sample information. Since the new text group is classified for each classification category according to this classification method, the classification accuracy can be improved compared to the conventional case regardless of the content and amount of information to be classified.In addition, the classification learning information is regenerated based on the classification sample information obtained by reclassifying the new text, the classification is re-executed, and the difference between the classification results before and after the regeneration is displayed. The accuracy can be further increased.
[0016]
According to a second aspect of the present invention, in the information classification apparatus according to the first aspect, the feature element extraction unit extracts feature elements by a plurality of feature element extraction methods, and based on these extraction results, A feature element extraction method having a high discrimination capability between classification categories is selected from among a plurality of feature element extraction methods, and a feature element corresponding to the selection result is used as an extraction result.
[0017]
According to the present invention, a plurality of feature element extraction methods can be used by the feature element extraction unit, and feature elements respectively corresponding to the plurality of feature element extraction methods are extracted. Since the feature element corresponding to the feature element extraction method having high discrimination ability is used as the extraction result, the classification accuracy of the classification result corresponding to the feature element can be further increased.
[0018]
According to a third aspect of the present invention, in the information classification apparatus according to the first aspect of the present invention, the information classification device further includes an editing unit that edits the feature element extracted by the feature element extraction unit.
[0019]
According to the present invention, since the editing means is provided and the extracted feature elements can be edited (deleted, added, etc.), flexible feature element setting can be performed for the classification category.
[0020]
According to a fourth aspect of the present invention, in the information classification apparatus according to any one of the first to third aspects, the classification method determining means is the most accurate classification method among a plurality of classification methods by a cross-validation method. A classification method having a high value is determined.
[0021]
According to the present invention, a plurality of classification methods are left in a usable state, and the classification method determining means determines the classification method having the highest classification accuracy among the plurality of classification methods based on the classification sample information by the cross-validation method. After the determination, the new text group is classified for each classification category in accordance with this classification method. Therefore, the classification accuracy can be improved regardless of the content and amount of information to be classified as compared with the conventional case.
[0022]
The invention according to
[0023]
According to the present invention, the designation means designates the classification target location in the classification sample information and the new text group. Therefore, the location unnecessary for the classification is excluded, and the classification is performed on the essentially necessary location. Therefore, the classification accuracy can be further improved.
[0024]
According to a sixth aspect of the present invention, in the information classification device according to any one of the first to fifth aspects, the plurality of sample texts and the plurality of classification categories are obtained by clustering a plurality of sample texts. Clustering means for generating the associated classification sample information is provided.
[0025]
According to this invention, since the classification sample information is generated by the clustering means, the efficiency can be significantly improved as compared with the case where the classification category is manually generated from a plurality of sample texts, and the user Work load can be reduced.
[0026]
The invention according to
[0027]
According to the present invention, the clustering result of the clustering means is compared with the desired clustering result, and the classification sample information can be changed by the changing means when the comparison result is inconsistent, for example. Since the new text group can be classified based on the information, the classification accuracy can be extremely increased.
[0028]
The invention according to
[0029]
According to this invention, since the clustering result is displayed by the clustering result display means, the user can easily grasp the distribution of the classification result.
[0030]
The invention according to
[0031]
According to the present invention, the classification learning information is regenerated based on the classification result optimized by the optimization means, and the new text group is classified again according to the classification learning information. Can be improved.
[0032]
According to a tenth aspect of the present invention, in the information classification device according to the ninth aspect, the difference recognition information capable of visually recognizing a difference between the classification result before the optimization and the classification result after the optimization. A difference recognition information display means for displaying is provided.
[0033]
According to this invention, since the difference between the classification results before and after optimization is displayed as difference recognition information, and the user can recognize the difference at a glance, the user can be quickly responded based on the difference, As a result, the classification accuracy can be increased.
[0034]
The invention according to claim 11 isA feature element extracting means for extracting a feature element for each classification category from each of a plurality of sample texts included in classification sample information in which a plurality of sample texts and a plurality of classification categories are associated in advance; Based on the information, the classification method determining means for determining the classification method having the highest classification accuracy from among a plurality of classification methods, and the feature element extracting means extracted according to the classification method determined by the classification method determining means Classification learning information generating means for generating classification learning information representing features for each classification category based on the feature element, the classification method determined by the classification method determination means, and the new text to be classified according to the classification learning information Classifying means for classifying groups into classification categories and storing the classification results in storage means; The new text classified into the first classification category is included in the classification sample information to associate the new text with the second classification category, and the feature element is extracted from the classification sample information including the new text. The re-extraction process is performed by the feature element extraction unit, and the classification method determination unit based on the classification sample information including the new text is re-determined by the classification method determination unit. The classification learning information is regenerated by the classification learning information generation means using the feature elements, and the classification means is reclassified by the re-determined classification method and the regenerated classification learning information. A symbol indicating a difference between the re-learning means and the previous classification result stored in the storage means is attached to each new text, and each new text included in the new text group is added. Display means for displaying on the display unit the result of the strike reclassification
It is characterized by operating as.
[0035]
According to the present invention, a plurality of classification methods are made available, and in the classification method determination step, after determining the classification method with the highest classification accuracy from among the plurality of classification methods based on the classification sample information, Since the new text group is classified for each classification category according to this classification method, the classification accuracy can be improved compared to the conventional case regardless of the content and amount of information to be classified.In addition, the classification learning information is regenerated based on the classification sample information obtained by reclassifying the new text, the classification is re-executed, and the difference between the classification results before and after the regeneration is displayed. The accuracy can be further increased.
[0040]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, an information classification device according to the present invention with reference to the drawings.andAn embodiment of the information classification program will be described in detail.
[0041]
FIG. 1 is a block diagram showing the configuration of an embodiment according to the present invention. In this figure, a
[0042]
Similar to the feature element extraction unit 1 (see FIG. 18), the feature
[0043]
The classification learning
[0044]
The classification
[0045]
The
[0046]
Next, the operation of the above-described embodiment will be described with reference to the flowcharts shown in FIGS. When the
[0047]
As a result, in step SA4, the feature
[0048]
In step SB3, the feature
[0049]
In step SB5, the feature
[0050]
The figure shows the fields of classification categories (“Economic”, “Foreign”,..., “Society” and “Sport”) and the appearance of characteristic elements (“market”, “yen appreciation”, etc.) There is a frequency field indicating the frequency. In the record corresponding to each classification category, the number of texts classified into the classification category is described. Here, the text refers to what constitutes the sample text group 10 (see FIG. 1). For example, 27 texts are classified in the classification category “Economic”, and 43 texts are classified in the classification category “Foreign”.
[0051]
The leftmost field in the figure is a ranking representing the order of appearance frequency. For example, in the classification category “Economic”, the feature element ranked first in the appearance frequency in 27 texts is “market” (frequency: 61.0), and the feature element ranked second is “yen appreciation”. (Frequency: 40.0). Similarly, the 30th feature element is “finance” (frequency: 12.0).
[0052]
FIG. 12 shows a feature element appearance frequency order list R in which a statistical method called a Kullback-Leibler method is adopted among the above-described three ranking methods, and feature elements are ranked for each classification category.2It is a figure showing (corresponding to feature element extraction result data). Feature element ranking list R shown in the figure2 The basic structure of is the feature element appearance frequency order list R1(See FIG. 11).
[0053]
However, feature element ranking list R2 Employs a statistical method for lowering the ranking of feature elements appearing in other classification categories and improving the discrimination ability between the classification categories and other classification categories. For example, the “dollar” (feature element) ranked third in the category “Economic” shown in FIG. 11 is ranked 31 or less (not shown) in the category “Economic” shown in FIG. .
[0054]
Returning to FIG. 8, in step SA <b> 5, the classification
[0055]
In this case, in step SA6, the classification
[0056]
In step SC3, the classification
[0057]
When the determination result in step SC4 is “Yes”, in step SC5, the classification
[0058]
Returning to FIG. 8, in step SA8, the classification learning
[0059]
When the
[0060]
Hereinafter, as an example of the classification method, a case where the
[0061]
In step SA17, the
[0062]
In step SA19, the new text TX1 The degree of similarity (cosine value) between the document vector relating to and the vector of each classification category in the
Similarity (cosine value) = inner product of vector A and document vector B / (size of vector A × size of document vector B)
[0063]
That is, in step SA19, the new text TX1 As for the number of classification categories, similarities (cosine values) are calculated. In step SA20, the
[0064]
When all new texts are classified, the
[0065]
Returning to FIG. 8, in step SA <b> 13, the
[0066]
In step SA14, for example, the clustering result C shown in FIG. Thereby, the user can confirm what kind of content is classified into the classification category (Economic in this case).
[0067]
In one embodiment, the feature element ranking list R shown in FIG.2 Is displayed on the
[0068]
In the embodiment, when the structure of the
[0069]
In the above description, an example in which the result (classification sample data 30) clustered by the
[0070]
In step SD1 shown in FIG. 15, clustering is performed by the
[0071]
According to this figure, it can be seen that “Sports” in the A record and “Politics” in the C and E records are clearly assigned with classification categories. On the other hand, the distinction between “Economic” and “Industry” in the D record and “Foreign”, “Industry”, “Policics”, “Science”, and “Society” after the F record are ambiguous. I understand that. In this case, the process of step SD4 described later is executed. In step SD2, the comparison result (not shown) compares the clustered result (classification category assignment) with the classification category assignment initially assumed by the user.
[0072]
In step SD3, the comparison unit determines whether or not the comparison result in step SD2 is the same. If the determination result is “No”, the comparison unit causes the
[0073]
In the above description, the example in which the
[0074]
When a
[0075]
Thereby, the re-learning processing unit 140 executes the re-learning process based on the edited
[0076]
In one embodiment, the screen G shown in FIG. 5 is displayed on the
[0077]
In addition, screen G1 The screen G is controlled by window control.2 ~ GFour Is displayed. Screen G2 Includes the title K of the sample document (corresponding to the classification sample data 30) corresponding to the classification category "inquiry" as shown in FIG.1 And text content K2 Is displayed. In addition, the screen G shown in FIG.Three Displays a keyword (feature element) corresponding to the classification category “inquiry”. Screen G shown in FIG.Four Includes a list screen J of new text classified into the classification category “inquiry” J1 And contents display screen J regarding the contents of the new text2 Is displayed. Here, new text list screen J1 Icon I1~ IFour Represents a change in the score after re-learning with respect to the score (similarity) before re-learning according to
[0078]
Icon I1 Means that the score (similarity) is higher than the previous time, and the icon I2 Means that the score (similarity) is lower than the previous time. Icon IThree Means that the new text previously classified into the classification category (in this case “inquiry”) has not been classified into the classification category this time. The icon IFour Means that a new text that was not previously classified into the classification category (in this case, “inquiry”) has been classified into the classification category this time.
[0079]
As described above, according to one embodiment, a plurality of classification methods are made available, and the classification
[0080]
Also, according to one embodiment, the feature
[0081]
In addition, according to the embodiment, the
[0082]
Moreover, according to one embodiment, the
[0083]
In addition, according to the embodiment, since the
[0084]
Further, according to the embodiment, the clustering result of the
[0085]
Further, according to the embodiment, since the clustering result distribution data CB (see FIG. 14) is displayed on the
[0086]
In addition, according to the embodiment, as described in the second modification, based on the optimized classification result, the
[0087]
Further, according to one embodiment, the difference between the classification results before and after the optimization is represented by an icon I.1~ 1FourSince it is displayed as (difference recognition information) so that the user can recognize the difference at a glance, it is possible to promptly respond to the user based on the difference, and as a result, the classification accuracy can be improved.
[0088]
Although one embodiment of the present invention has been described in detail with reference to the drawings, a specific configuration example is not limited to this one embodiment, and the design can be changed without departing from the gist of the present invention. And the like are included in the present invention. For example, in the above-described embodiment, the information classification program for realizing the function of the information classification apparatus is recorded on the computer-
[0089]
A
[0090]
The
[0091]
In the embodiment, the classification
[0092]
【The invention's effect】
As described above, according to the first aspect of the present invention, a plurality of classification methods are made available, and the classification method determination unit determines the most classification among the plurality of classification methods based on the classification sample information. After deciding a classification method with high accuracy, the new text group is classified according to this classification method for each classification category. Therefore, compared with the conventional method, the classification accuracy is improved regardless of the content and amount of information to be classified. There is an effect that it can be increased.In addition, the classification learning information is regenerated based on the classification sample information obtained by reclassifying the new text, the classification is re-executed, and the difference between the classification results before and after the regeneration is displayed. There is an effect that the accuracy can be further increased.
[0093]
According to the invention of
[0094]
According to the invention of
[0095]
According to the invention of
[0096]
According to the invention of
[0097]
Further, according to the invention of
[0098]
According to the invention of
[0099]
According to the eighth aspect of the invention, since the clustering result is displayed by the clustering result display means, there is an effect that the user can easily grasp the distribution of the classification result.
[0100]
According to the invention of
[0101]
According to the invention of
[0102]
Claims11According to the invention, after the plurality of classification methods are made usable, after the classification method determining step determines the classification method with the highest classification accuracy from the plurality of classification methods based on the classification sample information. Since the new text group is classified for each classification category according to this classification method, the classification accuracy can be improved regardless of the content and amount of information to be classified as compared with the conventional method.In addition, the classification learning information is regenerated based on the classification sample information obtained by reclassifying the new text, the classification is re-executed, and the difference between the classification results before and after the regeneration is displayed. There is an effect that the accuracy can be further increased.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of an embodiment according to the present invention.
FIG. 2 is a diagram showing an example of a
FIG. 3 is a diagram illustrating an example of
4 is a diagram showing a clustering result C in the
FIG. 5 is a diagram illustrating a display example of the
6 is a diagram showing a display example of the
7 is a diagram showing a display example of the
FIG. 8 is a flowchart for explaining the operation of the same embodiment;
FIG. 9 is a flowchart for explaining the feature element extraction processing shown in FIG. 8;
FIG. 10 is a flowchart for explaining the classification method determination process shown in FIG. 8;
FIG. 11 is a list of feature element appearance frequency order R in the same embodiment;1 FIG.
FIG. 12 is a feature element ranking list R in the same embodiment.2 FIG.
FIG. 13 is a feature element ranking list R in the same embodiment.Three FIG.
FIG. 14 is a diagram showing clustering result distribution data CB in the same embodiment.
FIG. 15 is a flowchart illustrating a first modification of the same embodiment.
FIG. 16 is a diagram illustrating a second modification of the same embodiment.
FIG. 17 is a block diagram showing a third modification of the same embodiment.
FIG. 18 is a block diagram showing a configuration of a conventional information classification device.
[Explanation of symbols]
20 Clustering unit
40 Feature element extraction unit
50 Classification method decision part
60 Classification learning information generator
90 Automatic classification part
110 Clustering unit
120 display
130 Input section
300 computers
301 CPU
400 recording media
Claims (11)
前記分類サンプル情報に基づいて、複数の分類方法の中から最も分類精度が高い分類方法を決定する分類方法決定手段と、
前記分類方法決定手段により決定された分類方法に従って、前記特徴素抽出手段により抽出された特徴素に基づいて、分類カテゴリ毎の特徴を表す分類学習情報を生成する分類学習情報生成手段と、
前記分類方法決定手段により決定された分類方法および前記分類学習情報に従って、分類対象である新規テキスト群を分類カテゴリ毎に分類し、分類結果を記憶手段に記憶させる分類手段と、
前記分類手段によって第1の分類カテゴリに分類された新規テキストを、前記分類サンプル情報に含めさせて該新規テキストを第2の分類カテゴリと対応付けさせ、該新規テキストを含む前記分類サンプル情報から特徴素を再抽出する処理を前記特徴素抽出手段に行わせ、該新規テキストを含む前記分類サンプル情報に基づく分類方法の再決定を前記分類方法決定手段に行わせ、再決定された分類方法と再抽出された特徴素による分類学習情報の再生成を前記分類学習情報生成手段に行わせ、再決定された分類方法と再生成された分類学習情報による前記新規テキスト群の再分類を前記分類手段に行わせる再学習手段と、
前記記憶手段に記憶された前回の分類結果との相違を示すシンボルを新規テキスト毎に付して、前記新規テキスト群に含まれる各新規テキストの再分類の結果を表示部に表示させる表示手段と
を備えることを特徴とする情報分類装置。A feature element extracting means for extracting a feature element for each classification category from each of a plurality of sample texts included in classification sample information in which a plurality of sample texts and a plurality of classification categories are associated in advance;
Based on the classification sample information, a classification method determining means for determining a classification method with the highest classification accuracy among a plurality of classification methods;
Classification learning information generating means for generating classification learning information representing features for each classification category based on the feature elements extracted by the feature element extraction means in accordance with the classification method determined by the classification method determination means;
In accordance with the classification method determined by the classification method determination unit and the classification learning information, a classification unit that classifies a new text group to be classified for each classification category , and stores a classification result in a storage unit ;
The new text classified into the first classification category by the classification means is included in the classification sample information, the new text is associated with the second classification category, and the characteristics are obtained from the classification sample information including the new text. The feature element extracting unit performs the process of re-extracting the element, and the classification method determining unit performs the re-determination of the classification method based on the classification sample information including the new text. The classification learning information is regenerated by the classification learning information generation unit using the extracted feature elements, and the reclassification of the new text group by the re-determined classification method and the regenerated classification learning information is performed by the classification unit. Re-learning means to perform,
Display means for attaching a symbol indicating a difference from the previous classification result stored in the storage means for each new text and displaying a result of reclassification of each new text included in the new text group on a display unit; An information classification apparatus comprising:
複数のサンプルテキストと複数の分類カテゴリとが予め対応付けられた分類サンプル情報に含まれる複数のサンプルテキストのそれぞれから分類カテゴリ毎に特徴素を抽出する特徴素抽出手段と、
前記分類サンプル情報に基づいて、複数の分類方法の中から最も分類精度が高い分類方法を決定する分類方法決定手段と、
前記分類方法決定手段により決定された分類方法に従って、前記特徴素抽出手段により抽出された特徴素に基づいて、分類カテゴリ毎の特徴を表す分類学習情報を生成する分類学習情報生成手段と、
前記分類方法決定手段により決定された分類方法および前記分類学習情報に従って、分類対象である新規テキスト群を分類カテゴリ毎に分類し、分類結果を記憶手段に記憶させる分類手段と、
前記分類手段によって第1の分類カテゴリに分類された新規テキストを、前記分類サンプル情報に含めさせて該新規テキストを第2の分類カテゴリと対応付けさせ、該新規テキストを含む前記分類サンプル情報から特徴素を再抽出する処理を前記特徴素抽出手段に行わせ、該新規テキストを含む前記分類サンプル情報に基づく分類方法の再決定を前記分類方法決定手段に行わせ、再決定された分類方法と再抽出された特徴素による分類学習情報の再生成を前記分類学習情報生成手段に行わせ、再決定された分類方法と再生成された分類学習情報による前記新規テキスト群の再分類を前記分類手段に行わせる再学習手段と、
前記記憶手段に記憶された前回の分類結果との相違を示すシンボルを新規テキスト毎に付して、前記新規テキスト群に含まれる各新規テキストの再分類の結果を表示部に表示させる表示手段
として動作させること特徴とする情報分類プログラム。 Computer
A feature element extracting means for extracting a feature element for each classification category from each of a plurality of sample texts included in classification sample information in which a plurality of sample texts and a plurality of classification categories are associated in advance;
Based on the classification sample information, a classification method determining means for determining a classification method with the highest classification accuracy among a plurality of classification methods;
Classification learning information generating means for generating classification learning information representing features for each classification category based on the feature elements extracted by the feature element extraction means in accordance with the classification method determined by the classification method determination means;
In accordance with the classification method determined by the classification method determination unit and the classification learning information, a classification unit that classifies a new text group to be classified for each classification category, and stores a classification result in a storage unit;
The new text classified into the first classification category by the classification means is included in the classification sample information, the new text is associated with the second classification category, and the characteristics are obtained from the classification sample information including the new text. The feature element extracting unit performs the process of re-extracting the element, and the classification method determining unit performs the re-determination of the classification method based on the classification sample information including the new text. The classification learning information is regenerated by the classification learning information generation unit using the extracted feature elements, and the reclassification of the new text group by the re-determined classification method and the regenerated classification learning information is performed by the classification unit. Re-learning means to perform,
Display means for adding a symbol indicating a difference from the previous classification result stored in the storage means for each new text, and displaying a result of reclassification of each new text included in the new text group on a display unit
Information classification program characterized by being operated as
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001111942A JP4017354B2 (en) | 2000-04-17 | 2001-04-10 | Information classification apparatus and information classification program |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000115669 | 2000-04-17 | ||
JP2000-115669 | 2000-04-17 | ||
JP2001111942A JP4017354B2 (en) | 2000-04-17 | 2001-04-10 | Information classification apparatus and information classification program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002007433A JP2002007433A (en) | 2002-01-11 |
JP4017354B2 true JP4017354B2 (en) | 2007-12-05 |
Family
ID=26590260
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001111942A Expired - Fee Related JP4017354B2 (en) | 2000-04-17 | 2001-04-10 | Information classification apparatus and information classification program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4017354B2 (en) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7458034B2 (en) | 2002-05-08 | 2008-11-25 | Kabushiki Kaisha Toshiba | Data organization support method and program product therefor |
JP4314853B2 (en) * | 2003-03-20 | 2009-08-19 | 富士通株式会社 | Document classification apparatus and document classification program |
US7831599B2 (en) * | 2005-03-04 | 2010-11-09 | Eastman Kodak Company | Addition of new images to an image database by clustering according to date/time and image content and representative image comparison |
CN101326524A (en) * | 2006-01-06 | 2008-12-17 | 索尼株式会社 | Information processing device and method, and program |
JP4766560B2 (en) * | 2006-08-11 | 2011-09-07 | Kddi株式会社 | Moving image topic segmentation device |
US8442926B2 (en) | 2008-01-08 | 2013-05-14 | Mitsubishi Electric Corporation | Information filtering system, information filtering method and information filtering program |
JP5206296B2 (en) * | 2008-10-03 | 2013-06-12 | 富士通株式会社 | Similar sentence extraction program, method and apparatus |
JP5332918B2 (en) * | 2009-06-04 | 2013-11-06 | 富士通株式会社 | Classification data recommendation method, program, and apparatus |
WO2011018867A1 (en) | 2009-08-11 | 2011-02-17 | 日本電気株式会社 | Information classification device, information classification method, and computer readable recording medium |
WO2014103645A1 (en) * | 2012-12-28 | 2014-07-03 | 株式会社ユニバーサルエンターテインメント | Conversation topic provision system, conversation control terminal device, and maintenance device |
TW201508525A (en) * | 2013-08-29 | 2015-03-01 | Ubic Inc | Document sorting system, document sorting method, and document sorting program |
JP6365010B2 (en) * | 2014-06-30 | 2018-08-01 | 富士ゼロックス株式会社 | Learning program and information processing apparatus |
WO2016203652A1 (en) * | 2015-06-19 | 2016-12-22 | 株式会社Ubic | System related to data analysis, control method, control program, and recording medium therefor |
CN108133224B (en) * | 2016-12-01 | 2021-11-16 | 富士通株式会社 | Method for evaluating complexity of classification task |
JP6680725B2 (en) * | 2017-06-12 | 2020-04-15 | ヤフー株式会社 | Category selection device, advertisement distribution system, category selection method, and program |
-
2001
- 2001-04-10 JP JP2001111942A patent/JP4017354B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2002007433A (en) | 2002-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6654744B2 (en) | Method and apparatus for categorizing information, and a computer product | |
JP4017354B2 (en) | Information classification apparatus and information classification program | |
JP3598742B2 (en) | Document search device and document search method | |
JP4382526B2 (en) | Sentence classification apparatus and method | |
JP5160312B2 (en) | Document classification device | |
JP3791877B2 (en) | An apparatus for searching information using the reason for referring to a document | |
JP4711761B2 (en) | Data search apparatus, data search method, data search program, and computer-readable recording medium | |
JP4630911B2 (en) | Document classification apparatus, document classification method, and computer-readable recording medium storing a program for causing a computer to execute the methods | |
CN104778157A (en) | Multi-document abstract sentence generating method | |
JP4333318B2 (en) | Topic structure extraction apparatus, topic structure extraction program, and computer-readable storage medium storing topic structure extraction program | |
JP2002175330A (en) | Information retrieval device, score-determining device, method for retrieving information, method for determining score, and program recording medium | |
WO2008062822A1 (en) | Text mining device, text mining method and text mining program | |
JP5780036B2 (en) | Extraction program, extraction method and extraction apparatus | |
JP2009294938A (en) | Document classification device | |
JP4426041B2 (en) | Information retrieval method by category factor | |
Trieschnigg et al. | TNO Hierarchical topic detection report at TDT 2004 | |
JP4305836B2 (en) | Content search display device and content search display method | |
JP2000163437A (en) | Method and device for classifying document and recording medium where document classifying program is recorded | |
JP4813312B2 (en) | Electronic document search method, electronic document search apparatus and program | |
JP2005122509A (en) | Program, system and method for analyzing hierarchical structure data | |
Markellos et al. | Knowledge discovery in patent databases | |
JP4389102B2 (en) | Technical literature search system | |
JP3772401B2 (en) | Document classification device | |
Huang et al. | Rough-set-based approach to manufacturing process document retrieval | |
JP2006085634A (en) | Text data study analysis system, text data study device, text data analysis device, its method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040805 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070605 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070803 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070911 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070918 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100928 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100928 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110928 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120928 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120928 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130928 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |