JP4669642B2 - Document classification apparatus, document classification method, and computer-readable recording medium storing a program for causing a computer to execute the document classification method - Google Patents

Document classification apparatus, document classification method, and computer-readable recording medium storing a program for causing a computer to execute the document classification method Download PDF

Info

Publication number
JP4669642B2
JP4669642B2 JP2001257049A JP2001257049A JP4669642B2 JP 4669642 B2 JP4669642 B2 JP 4669642B2 JP 2001257049 A JP2001257049 A JP 2001257049A JP 2001257049 A JP2001257049 A JP 2001257049A JP 4669642 B2 JP4669642 B2 JP 4669642B2
Authority
JP
Japan
Prior art keywords
document
information
language analysis
feature vector
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001257049A
Other languages
Japanese (ja)
Other versions
JP2003067398A (en
Inventor
敦夫 嶋田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2001257049A priority Critical patent/JP4669642B2/en
Publication of JP2003067398A publication Critical patent/JP2003067398A/en
Application granted granted Critical
Publication of JP4669642B2 publication Critical patent/JP4669642B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、文書の内容(トピックス)に基づいて文書を分類する技術の領域、特にベクトル空間モデル(Vector Space Model)に基づく文書分類技術におけるベクトル空間の修正を行なって文書を分類する文書分類装置および文書分類方法、並びに文書分類方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。
【0002】
【従来の技術】
近年、IT(情報技術)の普及の急激な進歩および普及に伴い、ネットワークを介して国内外の大量の電子化文書へのアクセスが可能になってきており、その普及に比例して業務上蓄積される情報の量も増大化しつつある。このような状況の中、収集した大量の文書情報を意味のあるカテゴリ(categorial)に分類するなどの知的作業が行なわれるようになってきている。この文書を意味に分類するか、あるいは話題毎に分類するという作業の目的は以下に記述する(1)、(2)の2つがある。
【0003】
(1)検索容易性の向上を図る。すなわち、膨大な文書群を分類名称(内容名)を手がかりに探索できるので、所望の文書の属する文書集合を取りこむことができる。
(2)情報群全体の構造を把握する。すなわち、文書群全体がどのような内容(個々の分類)で構成されているかを把握する。
【0004】
しかし、大量の文書情報をユーザが手動で分類する場合、分類の正確性に優れるものの、人的および時間的なコストが増大するため、膨大な文書を扱う近年の文書環境においては実質上不可能になっており、自動文書分類装置が提案されるようになってきている。
【0005】
文書の自動分類として、上記(1)を目的としたものが、たとえば特開平7−36897号公報、特開平10−260991号公報、特開平10−17823号公報、特開平10−260991号公報、「Projection for Efficient Document Clustering,Hinrich
Schutze and Craing Silverstone,1997,Proceedings of SIGIR97,pp74−81,ACM」に開示されている。ここでは、文書を、単語を特徴とする文書ベクトルと見なし、ベクトル間の類似度(距離)を測度として、クラスタリング手法を用いてこれらの文書の群分けをし、文書を自動分類している。
【0006】
一方、上記(2)を目的としたものが、たとえば特開平11−15835号公報に開示されている。ここでは、上記と同様に類似度測度に基づいて文書を自動的に分類している。
【0007】
クラスタリングが、文書ベクトル間の類似度にしたがってアドホック分類体系を生成するアルゴリズムであるのに対し、カテゴライゼーションあるいはクラシフィケーションと呼ばれる方法がある。この方法は、あらかじめ幾つかのカテゴリ(分類)を設けておき、各ドキュメントがそれぞれどのカテゴリに属するかを判断することにより、文書を自動的に分類するものである。その中でも古典的なものであるが、Saltonらの提案する分類装置が、「Introduction to Modern Information Retrieval,G.Salton and M.J.McGill,1983,New Yorkm NcGraw Hill」に開示されている。
【0008】
この装置では、文書ベクトルと、カテゴリのベクトルとの間の類似度(余弦)を計算し、当該文書が、どのカテゴリにもっとも類似しているかにより、文書を自動分類するものである。さらに、特許第2940501号公報では、分類に用いる単語のクラスタ化に関する改良を行ない、自動分類の精度を向上させている。
【0009】
上述した自動分類の方法には、基本的に文書から抽出した単語により構成した空間にベクトルとして文書を配置し、文書間の類似度を計算し、クラスタリングやカテゴライゼーションを行なう特徴がある。したがって、どのような空間を構成するかによって文書分類の結果が左右される。
【0010】
ところで、文書には、特定の情報が本文以外に付与されることが多い。たとえば、文書作成者名(author)や文書作成日などの書誌事項がこれに該当する。また、SGML(Standard Generaized MarkupLanguage:標準一般化マーク付け言語)やXML(eXtensible Markup Language:拡張可能なマーク付け言語)などの構造化文書では、本文中に現れるこうした特定の情報にあらかじめタグ(tag)が付与され、管理できるようになっている。
【0011】
さらに、こうした特定情報を自動的に抽出する技術として「情報抽出技術(information extraction)」が開示され、現在も利用可能になっている。たとえば、1999年に日本で開催されたIREX(Information Retrieval and Extraction Exercise)では、テキスト中(本文中)に現れる組織名(ex.米軍)や人名(ex.クリントン)、地名、固有物などの自動抽出技術が開示されている。
【0012】
【発明が解決しようとする課題】
しかしながら、上記に示されるような従来の技術にあっては、抽出された特定情報(単語)が文書分類の際の空間構成に利用されると、その特定情報(部分情報)が生成されるため、特定情報の抽出と文書分類とを併用するメリットが半減するという不具合があった。すなわち、特定情報を含む文書集合を求める場合は、その特定情報をキーとして文書を検索すればよいので、文書分類技術では、特定情報とは異なる観点から分類されることが望ましい。
【0013】
本発明は、上記に鑑みてなされたものであって、抽出された特定情報を、文書分類の際の空間構成から排除することにより、効果的な文書分類を実現することを目的とする。
【0014】
【課題を解決するための手段】
上記の目的を達成するために、請求項1にかかる文書分類装置にあっては、分類対象の文書情報を入力する文書入力手段と、前記文書入力手段により入力された前記文書情報を解析し、形態素解析の結果である言語解析情報を得る言語解析手段と、前記文書入力手段により入力された前記文書情報を解析し、付属情報または固有名称である特定情報を抽出する情報抽出手段と、前記情報抽出手段による前記特定情報の出力にしたがって、前記言語解析情報から前記特定情報を除去することにより、前記言語解析情報を修正する言語解析情報修正手段と、前記言語解析情報修正手段により前記言語解析情報を修正した複数の単語の出力にしたがって前記文書情報に対する文書特徴ベクトルを生成する文書特徴ベクトル生成手段と、前記文書特徴ベクトル生成手段により生成された前記文書特徴ベクトルにしたがって複数の前記文書情報を分類し、前記文書情報で構成される文書グループを複数生成する文書分類手段と、を備え、前記情報抽出手段は、構造化文書に付随するタグ情報にしたがって特定情報を得るものである。
【0015】
この発明によれば、文書入力手段により入力された文書情報を、言語解析手段で解析して形態素解析の結果である言語解析情報を取得し、さらに情報抽出手段が文書情報から付属情報または固有名称である特定情報を抽出し、言語解析情報修正手段が上記言語解析情報から上記特定情報を除去することにより言語解析情報を修正し、文書特徴ベクトル生成手段が文書特徴ベクトルを生成し、その文書特徴ベクトルにしたがって、文書分類手段がたとえばクラスタリングやカテゴライゼーションなどの手法を用いて文書を分類し、文書情報で構成される文書グループを複数生成することにより、話題による分類結果と、特定情報による分類(任意の特定情報(タグ、属性名)を持つ文書をグループ化すること)の結果とが、内容的に重複しないようにすることが可能になる。また、分類対象の文書情報がたとえばSGMLやXMLなどの構造化文書である場合、情報抽出手段が構造化文書に付随するタグ情報から特定情報を抽出することができる。
【0016】
また、請求項2にかかる文書分類装置にあっては、分類対象の文書情報を入力する文書入力手段と、前記文書入力手段により入力された前記文書情報を解析し、形態素解析の結果である言語解析情報を得る言語解析手段と、前記文書入力手段により入力された前記文書情報を解析し、付属情報または固有名称である特定情報を抽出する情報抽出手段と、前記言語解析手段により得られた前記言語解析情報にしたがって前記文書情報に対する文書特徴ベクトルを生成する文書特徴ベクトル生成手段と、前記情報抽出手段による前記特定情報の出力にしたがって、前記文書特徴ベクトルから前記特定情報を除去することにより、前記文書特徴ベクトルを修正する文書特徴ベクトル修正手段と、前記文書特徴ベクトル修正手段のベクトル修正の出力にしたがって複数の前記文書情報を分類し、文書情報で構成される文書グループを複数生成する文書分類手段と、を備え、前記情報抽出手段は、構造化文書に付随するタグ情報にしたがって特定情報を得るものである。
【0017】
この発明によれば、文書入力手段により入力された文書情報を、言語解析手段で解析して形態素解析の結果である言語解析情報を取得し、さらに情報抽出手段が文書情報から付属情報または固有名称である特定情報を抽出し、文書特徴ベクトル生成手段が上記言語解析情報にしたがって文書情報に対する文書特徴ベクトルを生成し、さらに文書特徴ベクトルから上記特定情報を除去することにより文書特徴ベクトルを修正し、その修正された文書特徴ベクトルに基づいて、文書分類手段が文書を分類し、文書情報で構成される文書グループを複数生成することにより、話題による分類結果と、特定情報による分類(任意の特定情報(タグ、属性名)を持つ文書をグループ化すること)の結果とが、内容的に重複しないようにすることが可能になる。また、分類対象の文書情報がたとえばSGMLやXMLなどの構造化文書である場合、情報抽出手段が構造化文書に付随するタグ情報から特定情報を抽出することができる。
【0018】
また、請求項3にかかる文書分類装置にあっては、前記情報抽出手段は、固有名詞表現を抽出することにより特定情報を得るものである。
【0019】
この発明によれば、請求項1または2において、情報抽出手段が入力された文書情報から固有名詞表現の特定情報を取得することにより、この固有名詞表現の影響を排除した文書特徴ベクトルを生成することが可能になる。
【0022】
また、請求項にかかる文書分類装置にあっては、さらに、前記情報抽出手段により抽出された特定情報を表示する表示手段と、1つ以上の特定情報の選択を受け付ける抽出情報選択手段と、を備えたものである。
【0023】
この発明によれば、情報抽出手段により抽出された特定情報を表示し、ユーザがこの表示された特定情報から、分類計算の際に排除すべき特定情報を選択して指定することにより、柔軟な分類処理が可能になる。
【0024】
また、請求項にかかる文書分類方法にあっては、あらかじめ用意されたプログラムをコンピュータ上で実行することにより実現される文書分類方法であって、前記プログラムを実行することにより、前記コンピュータが、分類対象の文書情報を入力する文書入力工程と、前記文書入力工程により入力された前記文書情報を解析し、形態素解析の結果である言語解析情報を得る言語解析工程と、前記文書入力工程により入力された前記文書情報を解析し、付属情報または固有名称である特定情報を抽出する情報抽出工程と、前記情報抽出工程による前記特定情報の出力にしたがって前記言語解析情報を修正する言語解析情報修正工程と、前記言語解析情報修正工程により前記言語解析情報を修正した複数の単語の出力にしたがって前記文書情報に対する文書特徴ベクトルを生成する文書特徴ベクトル生成工程と、前記文書特徴ベクトル生成工程により生成された文書特徴ベクトルにしたがって複数の前記文書情報を分類し、前記文書情報で構成される文書グループを複数生成する文書分類工程と、を実行し、前記情報抽出工程は、構造化文書に付随するタグ情報にしたがって特定情報を得るものである。
【0025】
この発明によれば、文書入力工程により入力された文書情報を、言語解析工程で解析して形態素解析の結果である言語解析情報を取得し、さらに情報抽出工程が文書情報から付属情報または固有名称である特定情報を抽出し、言語解析情報修正工程が上記言語解析情報から上記特定情報を除去することにより言語解析情報を修正し、文書特徴ベクトル生成工程が文書特徴ベクトルを生成し、その文書特徴ベクトルにしたがって、文書分類工程がたとえばクラスタリングやカテゴライゼーションなどの手法を用いて文書を分類し、文書情報で構成される文書グループを複数生成することにより、話題による分類結果と、特定情報による分類(任意の特定情報(タグ、属性名)を持つ文書をグループ化すること)の結果とが、内容的に重複しないようにすることが可能になる。また、分類対象の文書情報がたとえばSGMLやXMLなどの構造化文書である場合、情報抽出工程は構造化文書に付随するタグ情報から特定情報を抽出することができる。
【0026】
また、請求項にかかる文書分類方法にあっては、あらかじめ用意されたプログラムをコンピュータ上で実行することにより実現される文書分類方法であって、 前記プログラムを実行することにより、前記コンピュータが、分類対象の文書情報を入力する文書入力工程と、前記文書入力工程により入力された前記文書情報を解析し、形態素解析の結果である言語解析情報を得る言語解析工程と、前記文書入力工程により入力された前記文書情報を解析し、付属情報または固有名称である特定情報を抽出する情報抽出工程と、前記言語解析工程により得られた前記言語解析情報にしたがって前記文書情報に対する文書特徴ベクトルを生成する文書特徴ベクトル生成工程と、前記情報抽出工程による前記特定情報の出力にしたがって前記文書特徴ベクトルから前記特定情報を除去することにより、前記文書特徴ベクトルを修正する文書特徴ベクトル修正工程と、前記文書特徴ベクトル修正工程のベクトル修正の出力にしたがって複数の前記文書情報を分類し、前記文書情報で構成される文書グループを複数生成する文書分類工程と、を実行し、前記情報抽出工程は、構造化文書に付随するタグ情報にしたがって特定情報を得るものである。
【0027】
この発明によれば、文書入力工程により入力された文書情報を、言語解析工程で解析して形態素解析の結果である言語解析情報を取得し、さらに情報抽出工程が文書情報から付属情報または固有名称である特定情報を抽出し、文書特徴ベクトル生成工程が上記言語解析情報にしたがって文書情報に対する文書特徴ベクトルを生成し、さらに文書特徴ベクトルから前記特定情報を除去することにより文書特徴ベクトルを修正し、その修正された文書特徴ベクトルに基づいて、文書分類工程が文書を分類し、文書情報で構成される文書グループを複数生成することにより、話題による分類結果と、特定情報による分類(任意の特定情報(タグ、属性名)を持つ文書をグループ化すること)の結果とが、内容的に重複しないようにすることが可能になる。また、分類対象の文書情報がたとえばSGMLやXMLなどの構造化文書である場合、情報抽出工程は構造化文書に付随するタグ情報から特定情報を抽出することができる。
【0028】
また、請求項にかかる文書分類方法にあっては、前記情報抽出工程は、固有名詞表現を抽出することにより特定情報を得るものである。
【0029】
この発明によれば、請求項5または6において、情報抽出工程が、入力された文書情報から固有名詞表現の特定情報を取得することにより、この固有名詞表現の影響を排除した文書特徴ベクトルを生成することが可能になる。
【0032】
また、請求項にかかる文書分類方法にあっては、さらに、前記情報抽出手段により抽出された特定情報を表示する表示工程と、1つ以上の特定情報の選択を受け付ける抽出情報選択工程と、を含むものである。
【0033】
この発明によれば、情報抽出工程により抽出された特定情報を表示し、ユーザがこの表示された特定情報から、分類計算の際に排除すべき特定情報を選択して指定することにより、柔軟な分類処理が可能になる。
【0034】
また、請求項にかかるコンピュータ読み取り可能な記録媒体にあっては、前記請求項5〜8の何れか1つに記載の文書分類方法をコンピュータに実行させるプログラムを記録したものである。
【0035】
この発明によれば、請求項5〜8の何れか1つに記載の文書分類方法を、プログラム化してコンピュータ読み取り可能な記録媒体に記録することにより、コンピュータ上でこの文書分類方法を実行させることが可能になる。
【0036】
【発明の実施の形態】
以下、本発明にかかる文書分類装置および文書分類方法、並びに文書分類方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体の好適な実施の形態について添付図面を参照し、詳細に説明する。なお、本発明はこの実施の形態に限定されるものではない。
【0037】
(実施の形態1)
図1は、本発明の実施の形態1にかかる文書分類装置のシステム構成を示すブロック図である。この実施の形態1における文書分類装置は、バス100上に、分類対象の文書情報を入力する文書入力部101と、文書入力部101により入力された文書情報を解析し、言語解析情報を得る言語解析部102と、文書入力部101により入力された文書情報を解析し、特定情報を得る情報抽出部103と、情報抽出部103の出力にしたがって言語解析情報を修正する言語解析情報修正部104と、言語解析情報修正部104の出力にしたがって文書情報に対する文書特徴ベクトルを生成する文書特徴ベクトル生成部105と、文書特徴ベクトル生成部105により生成された文書特徴ベクトルにしたがって文書情報を分類し、文書の部分集合を生成する文書分類部106と、が接続されている。
【0038】
図2は、図1における文書分類の基本的な動作手順を示すフローチャートである。ここでは、まず、文書入力部101により、分類対象の文書情報を入力する文書入力処理を実行し(ステップS11)、この入力された文書情報を言語解析部102によって解析し、言語解析情報を得る言語解析処理を行なう(ステップS12)。続いて、情報抽出部103により、上記入力された文書情報を解析し、特定情報を得る情報抽出処理を実行し(ステップS13)、言語解析情報修正部104は、上記情報抽出処理の出力にしたがって言語解析情報を修正する言語解析情報修正処理を行なう(ステップS14)。さらに、文書特徴ベクトル生成部105は、上記言語解析情報修正処理の出力にしたがって文書情報に対する文書特徴ベクトルを生成するベクトル生成処理を実行し(ステップS15)、文書分類部106は、このベクトル生成処理により生成された文書特徴ベクトルにしたがって文書情報を分類し、文書の部分集合を生成する文書分類処理を実行する(ステップS16)。
【0039】
ここで、特定情報の抽出と、文書集合に含まれる内容(話題)に基づく文書分類が重要となる好適な例として、アンケート調査などにより得られた自由記述回答の分析場面を想定し、その具体例をあげて説明する。
【0040】
近年、たとえば、インターネットなどを介して短期間に数千〜数十万件の自由記述回答をコンピュータ上において回収することが可能であり、このような機能を用いて大量のテキスト情報を収集することができる。
【0041】
ここで、アンケート調査によって得られた大量のテキスト情報の例として、回答者の所有するプリンタに対する要望を記述してもらうことを想定してみる。アンケートは、「プリンタに対する要望」の他、そのプリンタの名称(商品名)、プリンタの製造元、そのプリンタに対する満足度(Q1)の質問項目から構成されており、1件毎の回答を1つの文書として、全体でN件の回答が寄せられたとする。
【0042】
アンケートにおける自由記述回答の例では、文書集合とはたとえば図3に示すような形式となる。ここで、分析者(発明の操作者)は、その分析活動の1つとして、回答集合(文書集合)にどのような種類の意見(話題)があり、それらが製造元や対象商品との間でどのような関係があるかを把握しようとしていると想定する。
【0043】
まず、分類対象の回答集合は、文書入力部101を介してシステムに取りこまれる。取りこまれた回答集合に対する後の処理のため、通常、この入力情報を記録し保存しておく。続いて、取りこまれた回答集合について、言語解析部102が各文書(各回答)に含まれる単語や複合語(あるいは特定の連続する文字列)を抽出する。この処理は、形態素解析(morphological analysis)などの既知の言語解析アルゴリズムが用いられる。以下に、言語解析部102による名詞、形容詞、形容動詞の単語を抽出した例を示す。
【0044】
ID0001→
XL・100(未登録語)、消耗品(一般名詞)、高い(形容詞)、印刷(サ変名詞)
ID0002→
A社(未登録語)、セールスマン(一般名詞)、技術(一般名詞)、知識(一般名詞)、豊富(形容動詞)、信頼(一般名詞)
ID0003→
B社(未登録語)、PRX・4000(未登録語)、印刷(サ変名詞)、速度(一般名詞)、満足(サ変名詞)、社内報(一般名詞)、業務(一般名詞)、マニュアル(一般名詞)、利用(サ変名詞)
ID000N→
A社(未登録語)、信頼(一般名詞)、高い(形容詞)、使用(サ変名詞)
【0045】
つぎに、情報抽出部103は、回答集合に対して特定情報の抽出を行なう。情報抽出の第1の方法は、各文書に付随する書誌事項あるいは分類対象テキスト属性以外(上述の図3の例ではQ1以外)の属性値(対象商品名フィールドの値、製造元フィールドの値)を言語解析情報修正部104へ出力する方法である。言語解析情報修正部104へどの属性の属性値をあらかじめファイルなどに記憶させておいてもよい。この例では、「対象商品名」および「製造元」の属性値が抽出され、「満足度」の属性値は抽出されない設定となっている。
【0046】
また、情報抽出の第2の方法は、「対象商品名」や「製造元」などの付属情報が、あらかじめ属性値として取得されていない場合に利用できる方法である。これは、情報抽出技術と呼ばれる既知の技術であり、Q1に記載のテキスト中から以下のような固有名称などを自動抽出するものである。
【0047】
組織名(企業名)
人名
地名
商品名
日付
時間
金額
割合

【0048】
この情報抽出技術により、ID0001の回答からは商品名として「XL・100」が、ID0002の回答からは企業名として「A社」が、ID0003からは企業名として「B社」、商品名として「PRX・4000」が、ID000Nからは企業名として「A社」が抽出される。
【0049】
つぎに、このようにして抽出された特定情報にしたがって文書や単語を表現するベクトル空間を修正する方法について述べる。なお、文書分類に寄与させたくない任意の単語(トークン)をファイルなどに記述して指定する「ストップワードリスト」と呼ばれる公知技術がある。本発明では、情報抽出部103により抽出した特定情報を自動的/ユーザ選択により、「ストップワードリスト」的に機能させる技術を用いる。
【0050】
言語解析情報修正部104によって、言語解析部102の出力である言語解析情報から、情報抽出部103が抽出した特定情報が除去される。たとえば、ID0001の回答では、言語解析部102により以下のような言語解析情報が出力される。
【0051】
ID0001→
XL・100(未登録)、消耗品(一般名詞)、高い(形容詞)、印刷(サ変名詞)
【0052】
言語解析情報修正部104は、上記言語解析情報から、情報抽出部103が抽出した「XL・100」を除去し、ID0001→消耗品(一般名詞)、高い(形容詞)、印刷(サ変名詞)を出力する。
【0053】
同様に、ID0002からID000Nは、
ID0002→
セールスマン(一般名詞)、技術(一般名詞)、知識(一般名詞)、豊富(形容動詞)、信頼(一般名詞)
ID0003→
印刷(サ変名詞)、速度(一般名詞)、満足(サ変名詞)、社内報(一般名詞)、業務(一般名詞)、マニュアル(一般名詞)、利用(サ変名詞)
ID000N→
信頼(一般名詞)、高い(形容詞)、使用(サ変名詞)
となる。
【0054】
これにより、情報抽出部103により抽出されたトークンを用いずに、以降の文書特徴ベクトルの生成および文書分類を行なうことができる。
【0055】
つぎに、言語解析情報修正部104による上記出力にしたがって、文書特徴ベクトル生成部105は、単語などのトークン(特徴記述単位)を列とし、各文書を行とし、要素をたとえば単語の出現頻度とした「トークン」×「文書(回答)」の行列を生成する。
【0056】
なお、上述においてトークンと記載したのは一般的な形態素解析機能と構文解析機能を有する言語解析部102を用いると、単語抽出のほかに単語の品詞情報や複合語(フレーズ)、構文情報を同時に取得することができるためであり、たとえばつぎのような(1)、(2)に記載の内容が可能になる。
【0057】
(1)「国際連合」を「国際(一般名詞)」「連合(一般名詞)」という2語ではなく1つの複合語としてトークンにする。
(2)「説明(サ変名詞)」という単語を、その出現位置により「述語部に出現するサ変名詞“説明”」として扱い、主語部に出現する場合と区別して扱う。
【0058】
文書特徴ベクトル生成部105は、この「トークン」×「文書」の行列にしたがって文書ベクトルを求めるが、それらには以下の3つの方法があり、本発明ではそのいずれも使用してもよい。
【0059】
(1)行列の列成分をそのまま文書特徴ベクトルとして利用する。
(2)各文書の長さ(文字数やページ数などにより測定される)や分類対象の文書集合内での各トークンの出現頻度を考慮して値の重み付けをした後、文書特徴ベクトルとして利用する。
(3)上記行列から文書間の内積行列を算出し、これに特異値分解を適用して潜在的意味空間を構成し、その空間内での各文書の位置を求めてベクトルとして利用する。なお、この技術は、「Projection for Efficient Document Clustering,Hinrich Schutze and Craing Silverstone 1997,Proceedings of SIGIR,pp74−81,ACM」の内容を参照することで実現する。
【0060】
文書分類部106は、文書特徴ベクトル生成部105の出力である文書特徴ベクトルの類似度(similarity)を用いて文書を分類する。類似度の測度としては、内積や余弦、ユークリッド距離、マハラノビス(Mahalanobis)距離などが考えられ、いずれの測度も用いることが可能である。
【0061】
文書分類の方法には、クラスタリング(clustering)と呼ばれる文書特徴ベクトル間の類似度にしたがって類似する文書をグループ化するボトムアップな分類方法と、カテゴライゼーションと呼ばれるあらかじめ幾つかのカテゴリ(分類)を設けておき、各ドキュメントがそれぞれどのカテゴリに属するかを判断することにより、文書を自動的に分類する方法がある。以下、このクラスタリング手法およびカテゴリゼーション手法について説明する。
【0062】
まず、クラスタリング手法について述べる。クラスタリングには階層型と非階層型のアルゴリズムを含んだ多様な計算方法が公知であり、いずれも利用することができる。代表的なアルゴリムの例としてK−平均アルゴリズム(K−means algorithm)法について取り上げる。このアルゴリズムは、文書特徴ベクトル生成部105により生成されたn個の文書特徴ベクトルの集合をその類似度に応じてk個のベクトル集合に分類するものである。なお、kは事前に与える必要がある。
【0063】
このアルゴリズムの計算手順は、
(1)k個のクラスタの重心の初期値をn個のベクトルの中から選択する。
(2)n個の各クラスタをもっとも類似するクラスタ重心へ帰属させる。
(3)k個の各クラスタについてについて、それぞれに含まれるベクトルの平均を新たに求め、これを新たなクラスタ重心とする。
(4)上記(2)、(3)を、クラスタ重心の位置が変化しなくなったところ、などの終了条件を満たすまで繰り返し実行する。
である。
【0064】
このクラスタリング手法を用いることにより、互いに類似する文書群から構成された複数の文書集合(クラスタ)を得ることができる。ここで、情報抽出部103により抽出された特定情報は、文書特徴ベクトル間の類似度計算には使用されないため、特定情報の影響を受けることなくクラスタを生成することができる。すなわち、特定情報(たとえば特定の製造元)を含め支配的になるクラスタは形成されないことになる。
【0065】
つぎに、カテゴライゼーション手法について述べる。既に様々な方法が提案されているが、その中でも、G,Salton and M.J.McGill(Intoroduction to Modern Infomation Retrieval,1983,New Yorkm NcGraw Hill)による方法がよく知られている。
【0066】
このカテゴライゼーション手法では、まず、あらかじめ分類すべきカテゴリの定義を行なう。各カテゴリにはたとえばサンプル文書の指定によりカテゴリの定義をしておくと、サンプル文書を元に各カテゴリのベクトルを生成することができる。また、複数の文書がサンプルとなる場合は、カテゴリベクトルはサンプル文書ベクトルを加算すればよい。分類対象の文書を各カテゴリに適切に分類するためには、分類対象の各文書特徴ベクトルと各カテゴリベクトルとの類似度を計算し、最も類似するカテゴリに文書を分類することで実現することができる。このような分類を実施する際にも用いられるベクトル間の類似度計算の前提になる文書−単語(トークン)空間には、情報抽出部103により抽出された特定情報は含まれていないため、特定情報に左右されずにカテゴリへの文書の配置が行なえる。
【0067】
したがって、以上説明した実施の形態1により、情報抽出部103により抽出された特定情報(たとえば商品名)と、文書分類部106により達成される内容に基づく分類結果(たとえばユーザの要望の内容)との間の関連を吟味することができる。また、上述した例では、たとえば商品名毎にユーザ要望の差異をクロス集計などにより把握するなどの分析作業が行なえる。
【0068】
(実施の形態2)
図4は、本発明の実施の形態2にかかる文書分類装置のシステム構成を示すブロック図である。この実施の形態2における文書分類装置は、バス100上に、分類対象の文書情報を入力する文書入力部101と、文書入力部101により入力された文書情報を解析し、言語解析情報を得る言語解析部102と、文書入力部101により入力された文書情報を解析し、特定情報を抽出する情報抽出部103と、言語解析部102により得られた言語解析情報にしたがって文書情報に対する文書特徴ベクトルを生成する文書特徴ベクトル生成部105と、情報抽出部103の出力にしたがって文書特徴ベクトルを修正するベクトル修正部107と、ベクトル修正部107の出力にしたがって文書情報を分類し、文書の部分集合を生成する文書分類部106と、が接続されている。
【0069】
図5は、図4における文書分類の基本的な動作手順を示すフローチャートである。ここでは、まず、文書入力部101により、分類対象の文書情報を入力する文書入力処理を実行し(ステップS21)、この入力された文書情報を言語解析部102によって解析し、言語解析情報を得る言語解析処理を行なう(ステップS22)。続いて、情報抽出部103により、上記入力された文書情報を解析し、特定情報を得る情報抽出処理を実行し(ステップS23)、文書特徴ベクトル生成部105は、言語解析部102による言語解析情報にしたがって文書情報に対する文書特徴ベクトルを生成する(ステップS24)。さらに、情報抽出部103の出力にしたがって文書特徴ベクトルを修正し(ステップS25)、文書分類部106は、このベクトル修正処理により生成された文書特徴ベクトルにしたがって文書情報を分類し、文書の部分集合を生成する文書分類処理を実行する(ステップS26)。
【0070】
すなわち、この実施の形態2は、前述した実施の形態1に対し、情報抽出部103により抽出した特定情報に基づく修正を、生成した文書特徴ベクトルに対して行なう点が異なる。言語解析部102により抽出されたトークンに対して文書特徴ベクトル生成部105は、実施の形態1のように各文書のベクトルを生成する。ベクトルは、たとえば図6に示すように表現されているため、情報抽出部103により抽出された特定情報を排除するためには、列ベクトルを削除すればよい。
【0071】
たとえば、図6において、情報抽出部103により抽出された特定情報がトークン3ならば、ベクトル修正部107は、トークン3の列を削除することにより影響を排除することができる。また、特異値分解などを施し、特徴次元がトークンではなくそれらの合成次元(m1,m2,m3,・・・mI,・・・mM)として得られていた場合には、影響を排除したい特定情報と最も相関の高いmIを見つけ、これを排除することで実現する。
【0072】
ところで、前述した実施の形態1あるいは実施の形態2における情報抽出部103は、固有名詞を抽出することで特定情報を得るようにしてもよい。
【0073】
さらに、情報抽出部103は、構造化文書に付随するタグ情報に基づいて特定情報を抽出してもよい。ここで、文書入力部101から入力される文書が、SGMLやXMLなどのような構造化文書の場合を例にとって説明する。
【0074】
構造化文書では、たとえば「プレスリリース 高速カラープリンタ[XL−1000]発売、株式会社A社は2000年1月7日より、新型の高速カラープリンタXL−1000をオフィス市場へ投入する。印刷速度はフルカラーで毎分60枚である。販売価格は、800000円を予定しており、全国の代理店から販売する予定である」という文書は、つぎのような形式で記述される。
【0075】
<document>
<h1>プレスリリース 高速カラープリンタ「XL−1000」発売<h1><p><sedername>株式会社A社</sedername>は、<releasedate>2000年1月7日</releasedate>より、新型の高速<producttype>カラープリンタ</producttype><productname>XL−1000</productname>をオフィス市場へ投入する。印刷速度はフルカラーで毎分60枚である。販売価格は、<price>800000円</price>を予定しており、全国の代理店から販売する予定である。</p>
</document>
【0076】
構造化文書では、文書中に現れる重要な語句が<tagname></tagneme>に挟まれる形でタグ付けされているため、簡単に重要な語句を取り出すことが可能になってきている。上述の例では、ニュースの発信元(sendername)、発信日(releasedate)、商品名(productname)、価格(price)などのタグが埋め込まれている。
【0077】
本発明の情報抽出部103は、構造化文書のタグ付けの構造を解析し、sendernameのようなタグ名と、株式会社A社のような値とを対応付けて抽出し、(タグ名、値)のセットで抽出する。これは、<xxx>で始まるところから</xxx>で終わるところまでの部分を抽出することにより、上記セットを獲得することができる。
【0078】
すなわち、上述の例では、
sendename,株式会社A社
releasedate,2000年1月7日
producttype,カラープリンタ
productname,XL−1000
price,800000円
が抽出されることになる。
【0079】
(実施の形態3)
図7は、本発明の実施の形態3にかかる文書分類装置のシステム構成を示すブロック図である。この実施の形態3における文書分類装置は、バス100上に、分類対象の文書情報を入力する文書入力部101と、文書入力部101により入力された文書情報を解析し、言語解析情報を得る言語解析部102と、文書入力部101により入力された文書情報を解析し、特定情報を抽出する情報抽出部103と、言語解析部102により得られた言語解析情報にしたがって文書情報に対する文書特徴ベクトルを生成する文書特徴ベクトル生成部105と、情報抽出部103の出力にしたがって文書特徴ベクトルを修正するベクトル修正部107と、1つ以上の特定情報の選択をユーザから受け付ける抽出情報選択部108と、情報抽出部103により抽出された特定情報を表示する特定情報表示部109と、ベクトル修正部107の出力にしたがって文書情報を分類し、文書の部分集合を生成する文書分類部106と、が接続されている。
【0080】
図8は、図7における文書分類の基本的な動作手順を示すフローチャートである。ここでは、まず、文書入力部101により、分類対象の文書情報を入力する文書入力処理を実行し(ステップS31)、この入力された文書情報を言語解析部102によって解析し、言語解析情報を得る言語解析処理を行なう(ステップS32)。続いて、情報抽出部103により、上記入力された文書情報を解析し、特定情報を得る情報抽出処理を実行し(ステップS33)、その特定情報をCRTなどによる特定情報表示部109に表示する(ステップS34)。
【0081】
さらに、抽出情報選択部108は、ユーザから1つ以上の特定情報の選択を受け付ける(ステップS35)。続いて、先に述べた実施の形態1または2の処理を実行する。
【0082】
実施の形態1の場合には、言語解析情報修正部104により、情報抽出処理の出力にしたがって言語解析情報を修正する言語解析情報修正処理を行ない(ステップS36)。さらに、文書特徴ベクトル生成部105により、言語解析情報修正処理の出力にしたがって文書情報に対する文書特徴ベクトルを生成するベクトル生成処理を実行し(ステップS37)、文書分類部106は、このベクトル生成処理により生成された文書特徴ベクトルにしたがって文書情報を分類し、文書の部分集合を生成する文書分類処理を実行する(ステップS39)。
【0083】
一方、実施の形態2の場合には、情報抽出部103の出力にしたがって、文書特徴ベクトル生成部105により生成された文書特徴ベクトルを修正し(ステップS38)、文書分類部106は、このベクトル修正処理により生成された文書特徴ベクトルにしたがって文書情報を分類し、文書の部分集合を生成する文書分類処理を実行する(ステップS39)。
【0084】
すなわち、この実施の形態3は、情報抽出部103により抽出された特定情報をユーザに呈示し、分類に寄与させたくない特定情報をユーザが任意に指定できるようにしたものである。
【0085】
まず、情報抽出部103により抽出された特定情報は、特定情報表示部109によって、たとえばCRT上に表示される。この画面表示例を図9に示す。図9に示す画面には、タグ名あるいは属性名としての「企業名、商品名、発表日時」と、値として「A社、B社、XL−100、XL−100」、さらに個々の値の全文書集合中における出現頻度などが表示される。
【0086】
また、抽出情報選択部108は、分類計算に利用しないタグ名をチェックボックスの選択によって指定される方法をとっている。すなわち、上述の例では、企業名および商品名のタグあるいは属性名を持つトークンが分類計算に利用されないことになり、抽出情報選択部108はその情報を、実施の形態1の場合は、言語解析情報修正部104に、実施の形態2の場合は、ベクトル修正部107に、出力する。
【0087】
ところで、これまで説明してきた文書分類方法を、プログラム化し、コンピュータ読み取り可能な記録媒体に記録し、コンピュータ上で実行することもできる。また、文書分類方法の一部をネットワーク上に有し、通信回線を通して実現することもできる。
【0088】
すなわち、この実施の形態で説明した文書分類方法は、図10に示すように、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータ(CPU20)で実行することにより実現される。このプログラムは、キーボード25の操作などにより、メモリ21、ハードディスク24、フロッピーディスク(FD)27、CD−ROM26、MO、DVDなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータ(CPU20)によって記録媒体から読み出されることによって実行される。また、必要に応じてこの文書分類処理のデータを通信装置22から外部装置に送受信することも可能である。
【0089】
また、このプログラムは、図11に示すように、上記記録媒体を介して、インターネット30などのネットワークによってパーソナルコンピュータなどの装置31〜33に配布することができる。なお、インターネット機能を備える場合、たとえば通信プロトコルとしてTCP/IP(Transmission Control Protocol/Internet Protocol)を用いる。また、このネットワークは、公衆回線や専用回線を経由して外部と接続するWAN(Wide Area Network:広域通信網)と、同一敷地内でネットワークを構築するLAN(Local Area Network:構内通信網)に分類される方式があるが、その何れの方式であってもよい。
【0090】
【発明の効果】
以上説明したように、本発明にかかる文書分類装置(請求項1)によれば、文書入力手段により入力された文書情報を、言語解析手段で解析して形態素解析の結果である言語解析情報を取得し、さらに情報抽出手段が文書情報から付属情報または固有名称である特定情報を抽出し、言語解析情報修正手段が上記言語解析情報から上記特定情報を除去することにより言語解析情報を修正し、文書特徴ベクトル生成手段が文書特徴ベクトルを生成し、その文書特徴ベクトルにしたがって、文書分類手段がたとえばクラスタリングやカテゴライゼーションなどの手法を用いて文書を分類し、文書情報で構成される文書グループを複数生成することにより、話題による分類結果と、特定情報による分類(任意の特定情報(タグ、属性名)を持つ文書をグループ化すること)の結果とが、内容的に重複しないようにすることが可能になるので、特定情報に影響されない効果的な文書分類装置が実現する。
【0091】
また、本発明にかかる文書分類装置(請求項2)によれば、文書入力手段により入力された文書情報を、言語解析手段で解析して形態素解析の結果である言語解析情報を取得し、さらに情報抽出手段が文書情報から付属情報または固有名称である特定情報を抽出し、文書特徴ベクトル生成手段が上記言語解析情報にしたがって文書情報に対する文書特徴ベクトルを生成し、さらに文書特徴ベクトルから上記特定情報を除去することにより文書特徴ベクトルを修正し、その修正された文書特徴ベクトルに基づいて、文書分類手段が文書を分類し、文書情報で構成される文書グループを複数生成することにより、話題による分類結果と、特定情報による分類(任意の特定情報(タグ、属性名)を持つ文書をグループ化すること)の結果とが、内容的に重複しないようにすることが可能になるので、特定情報に影響されない効果的な文書分類装置が実現する。また、分類対象の文書情報がたとえばSGMLやXMLなどの構造化文書である場合、情報抽出手段が構造化文書に付随するタグ情報から特定情報を抽出することができる。
【0092】
また、本発明にかかる文書分類装置(請求項3)によれば、請求項1または2において、情報抽出手段が入力された文書情報から固有名詞表現の特定情報を取得するため、この固有名詞表現の影響を排除した文書特徴ベクトルを生成することができる。
【0094】
また、本発明にかかる文書分類装置(請求項)によれば、情報抽出手段により抽出された特定情報を表示し、ユーザがこの表示された特定情報から、分類計算の際に排除すべき特定情報を選択して指定することが可能なため、分類対象の種類や内容に応じた柔軟な分類処理に対応することができる。
【0095】
また、本発明にかかる文書分類方法(請求項)によれば、文書入力工程により入力された文書情報を、言語解析工程で解析して形態素解析の結果である言語解析情報を取得し、さらに情報抽出工程が文書情報から付属情報または固有名称である特定情報を抽出し、言語解析情報修正工程が上記言語解析情報から上記特定情報を除去することにより言語解析情報を修正し、文書特徴ベクトル生成工程が文書特徴ベクトルを生成し、その文書特徴ベクトルにしたがって、文書分類工程がたとえばクラスタリングやカテゴライゼーションなどの手法を用いて文書を分類し、文書情報で構成される文書グループを複数生成することにより、話題による分類結果と、特定情報による分類(任意の特定情報(タグ、属性名)を持つ文書をグループ化すること)の結果とが、内容的に重複しないようにすることが可能になるので、特定情報に影響されない効果的な文書分類方法が実現する。また、分類対象の文書情報がたとえばSGMLやXMLなどの構造化文書である場合、情報抽出工程は構造化文書に付随するタグ情報から特定情報を抽出することができる。
【0096】
また、本発明にかかる文書分類方法(請求項)によれば、文書入力工程により入力された文書情報を、言語解析工程で解析して形態素解析の結果である言語解析情報を取得し、さらに情報抽出工程が文書情報から付属情報または固有名称である特定情報を抽出し、文書特徴ベクトル生成工程が上記言語解析情報にしたがって文書情報に対する文書特徴ベクトルを生成し、さらに文書特徴ベクトルから前記特定情報を除去することにより文書特徴ベクトルを修正し、その修正された文書特徴ベクトルに基づいて、文書分類工程が文書を分類し、文書情報で構成される文書グループを複数生成することにより、話題による分類結果と、特定情報による分類(任意の特定情報(タグ、属性名)を持つ文書をグループ化すること)の結果とが、内容的に重複しないようにすることが可能になるので、特定情報に影響されない効果的な文書分類方法が実現する。また、分類対象の文書情報がたとえばSGMLやXMLなどの構造化文書である場合、情報抽出工程が構造化文書に付随するタグ情報から特定情報を抽出することができる。
【0097】
また、本発明にかかる文書分類方法(請求項)によれば、請求項5または6において、情報抽出工程が、入力された文書情報から固有名詞表現の特定情報を取得することにより、この固有名詞表現の影響を排除した文書特徴ベクトルを生成するため、この固有名詞表現の影響を排除した文書特徴ベクトルを生成することができる。
【0099】
また、本発明にかかる文書分類方法(請求項)によれば、情報抽出工程により抽出された特定情報を表示し、ユーザがこの表示された特定情報から、分類計算の際に排除すべき特定情報を選択して指定することが可能なため、分類対象の種類や内容に応じた柔軟な分類処理に対応することができる。
【0100】
また、本発明にかかるコンピュータ読み取り可能な記録媒体(請求項)によれば、請求項5〜8の何れか1つに記載の文書分類方法を、プログラム化してコンピュータ読み取り可能な記録媒体に記録するので、コンピュータ上でこの文書分類方法を実行させることができる。
【図面の簡単な説明】
【図1】本発明の実施の形態1にかかる文書分類装置のシステム構成を示すブロック図である。
【図2】図1における文書分類の基本的な動作手順を示すフローチャートである。
【図3】本発明の実施の形態1にかかる文書情報例を示す図表である。
【図4】本発明の実施の形態2にかかる文書分類装置のシステム構成を示すブロック図である。
【図5】図4における文書分類の基本的な動作手順を示すフローチャートである。
【図6】本発明の実施の形態2にかかる各文書ベクトル例を示す図表である。
【図7】本発明の実施の形態3にかかる文書分類装置のシステム構成を示すブロック図である。
【図8】図7における文書分類の基本的な動作手順を示すフローチャートである。
【図9】本発明の実施の形態3にかかる表示画面例を示す説明図である。
【図10】本発明にかかる実施の形態にかかる文書分類方法をソフトウェアによって実現するコンピュータシステム例を示すブロック図である。
【図11】本発明にかかる実施の形態にかかる文書分類方法をネットワーク上で実現するシステム例を示すブロック図である。
【符号の説明】
101 文書入力部
102 言語解析部
103 情報抽出部
104 言語解析情報修正部
105 文書特徴ベクトル生成部
106 文書分類部
107 ベクトル修正部
108 抽出情報選択部
109 特定情報表示部
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an area of technology for classifying a document based on the contents (topics) of the document, in particular, a document classification device for classifying a document by correcting a vector space in a document classification technology based on a vector space model (Vector Space Model). The present invention also relates to a document classification method and a computer-readable recording medium on which a program for causing a computer to execute the document classification method is recorded.
[0002]
[Prior art]
In recent years, with the rapid progress and spread of IT (information technology), it has become possible to access a large amount of electronic documents in Japan and overseas via a network. The amount of information being made is also increasing. Under such circumstances, intelligent work such as classifying a large amount of collected document information into a meaningful category (category) has been performed. There are two purposes (1) and (2) described below for the purpose of classifying this document into meanings or classifying each document by topic.
[0003]
(1) To improve searchability. That is, a huge document group can be searched using the classification name (content name) as a clue, so that a set of documents to which a desired document belongs can be captured.
(2) To grasp the structure of the entire information group. That is, the contents (individual classification) of the entire document group are grasped.
[0004]
However, when a user manually classifies a large amount of document information, although the accuracy of classification is excellent, human and time costs increase, so it is practically impossible in a recent document environment that handles a large number of documents. Therefore, an automatic document classification device has been proposed.
[0005]
As the automatic document classification, for example, JP-A-7-36897, JP-A-10-260991, JP-A-10-17823, JP-A-10-260991, "Project for Efficient Document Clustering, Hinrich
Schutze and Craving Silverstone, 1997, Proceedings of SIGIR 97, pp 74-81, ACM ”. Here, the documents are regarded as document vectors characterized by words, and the similarity (distance) between the vectors is used as a measure, and these documents are grouped using a clustering method to automatically classify the documents.
[0006]
On the other hand, an object for the above (2) is disclosed in, for example, Japanese Patent Application Laid-Open No. 11-15835. Here, as described above, the documents are automatically classified based on the similarity measure.
[0007]
While clustering is an algorithm that generates an ad hoc classification system according to the similarity between document vectors, there is a method called categorization or classification. In this method, several categories (classifications) are provided in advance, and documents are automatically classified by determining which category each document belongs to. Among them, a classifier proposed by Salton et al. Is disclosed in “Introduction to Modern Information Retrieval, G. Salton and MJ McGill, 1983, New York NcGraw Hill”.
[0008]
This apparatus calculates a similarity (cosine) between a document vector and a category vector, and automatically classifies the document according to which category the document is most similar to. Furthermore, Japanese Patent No. 2940501 improves the accuracy of automatic classification by improving the word clustering used for classification.
[0009]
The automatic classification method described above is characterized in that documents are arranged as vectors in a space composed of words extracted from documents, similarity between documents is calculated, and clustering and categorization are performed. Therefore, the result of document classification depends on what kind of space is configured.
[0010]
By the way, in many cases, specific information is given to a document other than the text. For example, bibliographic items such as a document creator name (author) and a document creation date correspond to this. Also, in structured documents such as SGML (Standard Generalized Markup Language) and XML (extensible Markup Language), such specific information that appears in the text is previously tagged. Is granted and can be managed.
[0011]
Furthermore, “information extraction technology” has been disclosed as a technology for automatically extracting such specific information and is still available. For example, in IREX (Information Retrieval and Extraction Excise) held in Japan in 1999, the organization name (ex. US Army), person name (ex. Clinton), place name, proper name, etc. appearing in the text (in the text) An automatic extraction technique is disclosed.
[0012]
[Problems to be solved by the invention]
However, in the conventional technique as described above, when the extracted specific information (word) is used for the spatial configuration at the time of document classification, the specific information (partial information) is generated. There is a problem that the merit of using the extraction of specific information and document classification is halved. That is, when a document set including specific information is obtained, it is only necessary to search for documents using the specific information as a key. Therefore, in the document classification technique, it is desirable to classify from a viewpoint different from the specific information.
[0013]
The present invention has been made in view of the above, and an object of the present invention is to realize effective document classification by excluding extracted specific information from a spatial configuration at the time of document classification.
[0014]
[Means for Solving the Problems]
  In order to achieve the above object, in the document classification apparatus according to claim 1, the document input means for inputting the document information to be classified and the document input meansSaidAnalyzing document information,It is the result of morphological analysisLanguage analysis means for obtaining language analysis information and input by the document input meansSaidAnalyzing document information,Attached information or proper nameInformation extracting means for extracting specific information and said information extracting meansOf the specific information byAccording to output, By removing the specific information from the language analysis information,Language analysis information correction means for correcting the language analysis information, and language analysis information correction meansThe plurality of words whose language analysis information is corrected byGenerate a document feature vector for the document information according to the outputDocument featuresVector generation means; andDocument featuresGenerated by vector generation meansSaidAccording to document feature vectorpluralClassifying the document information;Multiple document groups composed of the document informationA document classification means for generating,The information extraction unit obtains specific information according to tag information attached to the structured document.Is.
[0015]
  According to this invention, the document information input by the document input means is analyzed by the language analysis means.It is the result of morphological analysisLanguage analysis information is acquired, and further information extraction means from document informationAttached information or proper nameThe specific information is extracted, and the language analysis information correcting means extracts the specific information from the language analysis information.By removingCorrect language analysis information,Document featuresA vector generation unit generates a document feature vector, and according to the document feature vector, a document classification unit classifies the document using a technique such as clustering or categorization,Multiple document groups consisting of document informationBy generating, the result of classification by topic and the result of classification by specific information (grouping documents having arbitrary specific information (tag, attribute name)) should not overlap in content. It becomes possible.Further, when the document information to be classified is a structured document such as SGML or XML, the information extraction unit can extract specific information from tag information attached to the structured document.
[0016]
  In the document classification device according to claim 2, the document input means for inputting the document information to be classified and the document input meansSaidAnalyzing document information,It is the result of morphological analysisLanguage analysis means for obtaining language analysis information and input by the document input meansSaidAnalyzing document information,Attached information or proper nameInformation extraction means for extracting specific information and obtained by the language analysis meansSaidGenerate a document feature vector for the document information according to language analysis informationDocument featuresVector generating means and the information extracting meansSaid specific information byAccording to the output of, By removing the specific information from the document feature vector,Modify the document feature vectorDocument featuresVector correction means, andDocument featuresVector correction meansVector correctionAccording to outputpluralClassifying the document information;Multiple document groups consisting of document informationA document classification means for generating,The information extraction unit obtains specific information according to tag information attached to the structured document.Is.
[0017]
  According to this invention, the document information input by the document input means is analyzed by the language analysis means.It is the result of morphological analysisLanguage analysis information is acquired, and further information extraction means from document informationAttached information or proper nameExtract specific information,Document featuresA vector generation unit generates a document feature vector for the document information according to the language analysis information, andBy removing the specific information from the document feature vectorCorrecting the document feature vector, and based on the corrected document feature vector, the document classification means classifies the document;Multiple document groups consisting of document informationBy generating, the result of classification by topic and the result of classification by specific information (grouping documents having arbitrary specific information (tag, attribute name)) should not overlap in content. It becomes possible.Further, when the document information to be classified is a structured document such as SGML or XML, the information extraction unit can extract specific information from tag information attached to the structured document.
[0018]
In the document classification apparatus according to claim 3, the information extraction means obtains specific information by extracting proper noun expressions.
[0019]
According to the present invention, in claim 1 or 2, the information extraction unit obtains the specific information of the proper noun expression from the input document information, thereby generating the document feature vector excluding the influence of the proper noun expression. It becomes possible.
[0022]
  Claims4The document classification apparatus according to the present invention further comprises display means for displaying the specific information extracted by the information extraction means, and extracted information selection means for accepting selection of one or more specific information. is there.
[0023]
According to the present invention, the specific information extracted by the information extracting means is displayed, and the user can select and specify the specific information to be excluded at the time of classification calculation from the displayed specific information. Classification processing becomes possible.
[0024]
  Claims5In the document classification method related toA document classification method realized by executing a program prepared in advance on a computer, and by executing the program, the computerDocument input process for inputting document information to be classified, and input by the document input processSaidAnalyzing document information,It is the result of morphological analysisLanguage analysis process for obtaining language analysis information and input by the document input processSaidAnalyzing document information,Attached information or proper nameInformation extraction process for extracting specific information and the information extraction processOf the specific information byLanguage analysis information correction step for correcting the language analysis information according to the output, and the language analysis information correction stepThe plurality of words whose language analysis information is corrected byGenerate a document feature vector for the document information according to the outputDocument featuresA vector generation step, andDocument featuresAccording to the document feature vector generated by the vector generation processpluralClassifying the document information;Multiple document groups composed of the document informationA document classification process to be generated;And the information extracting step obtains specific information according to tag information attached to the structured document.Is.
[0025]
  According to the present invention, the document information input in the document input process is analyzed in the language analysis process.It is the result of morphological analysisLanguage analysis information is acquired, and the information extraction process is performed from document information.Attached information or proper nameThe specific information is extracted, and the language analysis information correction step extracts the specific information from the language analysis information.By removingCorrect language analysis information,Document featuresThe vector generation process generates a document feature vector, and according to the document feature vector, the document classification process classifies the document using a technique such as clustering or categorization,Multiple document groups consisting of document informationBy generating, the result of classification by topic and the result of classification by specific information (grouping documents having arbitrary specific information (tag, attribute name)) should not overlap in content. It becomes possible.When the document information to be classified is a structured document such as SGML or XML, for example, the information extraction step can extract specific information from tag information attached to the structured document.
[0026]
  Claims6In the document classification method related toA document classification method realized by executing a program prepared in advance on a computer,  By executing the program, the computerDocument input process for inputting document information to be classified, and input by the document input processSaidAnalyzing document information,It is the result of morphological analysisLanguage analysis process for obtaining language analysis information and input by the document input processSaidAnalyzing document information,Attached information or proper nameObtained by the information extraction step of extracting specific information and the language analysis stepSaidGenerate a document feature vector for the document information according to language analysis informationDocument featuresVector generation step and the information extraction stepSaid specific information byAccording to the output ofBy removing the specific information from the document feature vector,Modify the document feature vectorDocument featuresVector correction step, andDocument featuresVector correction processVector correctionAccording to outputpluralClassifying the document information;Multiple document groups composed of the document informationA document classification process to be generated;And the information extracting step obtains specific information according to tag information attached to the structured document.Is.
[0027]
  According to the present invention, the document information input in the document input process is analyzed in the language analysis process.It is the result of morphological analysisLanguage analysis information is acquired, and the information extraction process is performed from document information.Attached information or proper nameExtract specific information,Document featuresA vector generation step generates a document feature vector for the document information according to the language analysis information, andBy removing the specific information from the document feature vectorModify the document feature vector, and based on the modified document feature vector, the document classification step classifies the document;Multiple document groups consisting of document informationBy generating, the result of classification by topic and the result of classification by specific information (grouping documents having arbitrary specific information (tag, attribute name)) should not overlap in content. It becomes possible.When the document information to be classified is a structured document such as SGML or XML, for example, the information extraction step can extract specific information from tag information attached to the structured document.
[0028]
  Claims7In the document classification method, the information extracting step obtains specific information by extracting proper noun expressions.
[0029]
  According to the invention, the claims5 or 6In this case, the information extraction step acquires specific information of proper noun expressions from the input document information, so that it is possible to generate a document feature vector excluding the influence of the proper noun expressions.
[0032]
  Claims8The document classification method further includes a display step for displaying the specific information extracted by the information extraction means and an extraction information selection step for accepting selection of one or more specific information.
[0033]
According to this invention, the specific information extracted by the information extraction process is displayed, and the user can select and specify the specific information to be excluded at the time of classification calculation from the displayed specific information. Classification processing becomes possible.
[0034]
  Claims9A computer-readable recording medium according to claim 15-8A program for causing a computer to execute the document classification method described in any one of the above is recorded.
[0035]
  According to the invention, the claims5-8When the document classification method described in any one of the above is programmed and recorded on a computer-readable recording medium, the document classification method can be executed on a computer.
[0036]
DETAILED DESCRIPTION OF THE INVENTION
DESCRIPTION OF EXEMPLARY EMBODIMENTS Hereinafter, preferred embodiments of a document classification apparatus, a document classification method, and a computer-readable recording medium recording a program for causing a computer to execute the document classification method according to the present invention will be described in detail with reference to the accompanying drawings. . The present invention is not limited to this embodiment.
[0037]
(Embodiment 1)
FIG. 1 is a block diagram showing a system configuration of the document classification apparatus according to the first embodiment of the present invention. The document classification apparatus according to the first embodiment includes a document input unit 101 that inputs document information to be classified on the bus 100, a language that analyzes the document information input by the document input unit 101, and obtains language analysis information. An analysis unit 102; an information extraction unit 103 that analyzes document information input by the document input unit 101 to obtain specific information; a language analysis information correction unit 104 that corrects language analysis information according to an output of the information extraction unit 103; A document feature vector generation unit 105 that generates a document feature vector for the document information according to the output of the language analysis information correction unit 104, and classifies the document information according to the document feature vector generated by the document feature vector generation unit 105, Are connected to a document classification unit 106 that generates a subset of
[0038]
FIG. 2 is a flowchart showing a basic operation procedure of document classification in FIG. Here, first, the document input unit 101 executes document input processing for inputting the document information to be classified (step S11), and the input document information is analyzed by the language analysis unit 102 to obtain language analysis information. Language analysis processing is performed (step S12). Subsequently, the information extraction unit 103 analyzes the input document information and executes an information extraction process for obtaining specific information (step S13). The language analysis information correction unit 104 follows the output of the information extraction process. A language analysis information correction process for correcting the language analysis information is performed (step S14). Further, the document feature vector generation unit 105 executes a vector generation process for generating a document feature vector for the document information in accordance with the output of the language analysis information correction process (step S15), and the document classification unit 106 performs the vector generation process. The document information is classified according to the document feature vector generated by the above, and document classification processing for generating a document subset is executed (step S16).
[0039]
Here, as a suitable example in which extraction of specific information and document classification based on contents (topics) included in a document set are important, an analysis situation of free description answers obtained through questionnaire surveys, etc. is assumed. An example will be described.
[0040]
In recent years, for example, it is possible to collect thousands to hundreds of thousands of free description answers on a computer over a short period of time via the Internet, etc., and collect a large amount of text information using such a function. Can do.
[0041]
Here, as an example of a large amount of text information obtained by a questionnaire survey, it is assumed that a request for a printer owned by a respondent is described. The questionnaire is composed of “requests for printers”, question items of the printer name (product name), printer manufacturer, and satisfaction (Q1) for the printer. Suppose that N responses were received in total.
[0042]
In the example of the free description answer in the questionnaire, the document set has a format as shown in FIG. 3, for example. Here, as one of the analysis activities, the analyst (the operator of the invention) has any kind of opinion (topic) in the answer set (document set), and these are between the manufacturer and the target product. Assume that you are trying to figure out what kind of relationship there is.
[0043]
First, the answer set to be classified is incorporated into the system via the document input unit 101. This input information is usually recorded and stored for later processing on the captured answer set. Subsequently, for the collected answer set, the language analysis unit 102 extracts words and compound words (or specific continuous character strings) included in each document (each answer). For this process, a known language analysis algorithm such as morphological analysis is used. An example in which words of nouns, adjectives, and adjective verbs are extracted by the language analysis unit 102 is shown below.
[0044]
ID0001 →
XL ・ 100 (unregistered word), consumables (general noun), high (adjective), printing (sa variable noun)
ID0002 →
Company A (unregistered word), salesman (general noun), technology (general noun), knowledge (general noun), abundance (adjective verb), trust (general noun)
ID0003 →
Company B (unregistered word), PRX 4000 (unregistered word), printing (sa variable noun), speed (general noun), satisfaction (sa variable noun), company newsletter (general noun), business (general noun), manual ( Common noun), use (sa variable noun)
ID000N →
Company A (unregistered word), trust (general noun), high (adjective), use (sa variable noun)
[0045]
Next, the information extraction unit 103 extracts specific information from the answer set. The first method of information extraction is to use attribute values (value of target product name field, value of manufacturer field) other than bibliographic items attached to each document or text attribute to be classified (other than Q1 in the example of FIG. 3 described above). This is a method of outputting to the language analysis information correction unit 104. The attribute value of any attribute may be stored in the file or the like in advance in the language analysis information correction unit 104. In this example, the attribute values of “target product name” and “manufacturer” are extracted, and the attribute value of “satisfaction” is not extracted.
[0046]
The second method of information extraction is a method that can be used when attached information such as “target product name” and “manufacturer” is not acquired as an attribute value in advance. This is a known technique called information extraction technique, and automatically extracts the following unique names from the text described in Q1.
[0047]
Organization name (company name)
Name
Place name
Product name
date
time
Amount of money
Percentage
etc
[0048]
With this information extraction technology, “XL • 100” is the product name from the ID0001 response, “Company A” is the company name from the ID0002 response, “B Company” is the company name from ID0003, and “ “PRX • 4000” is extracted from ID000N as “Company A” as the company name.
[0049]
Next, a method for correcting a vector space expressing a document or word according to the specific information extracted in this way will be described. There is a known technique called a “stop word list” in which an arbitrary word (token) that is not desired to contribute to document classification is described in a file or the like. In the present invention, a technique is used in which specific information extracted by the information extraction unit 103 functions in a “stop word list” by automatic / user selection.
[0050]
The language analysis information correction unit 104 removes the specific information extracted by the information extraction unit 103 from the language analysis information output from the language analysis unit 102. For example, for the answer of ID0001, the language analysis unit 102 outputs the following language analysis information.
[0051]
ID0001 →
XL · 100 (unregistered), consumables (general nouns), high (adjectives), printing (sa variable noun)
[0052]
The language analysis information correction unit 104 removes “XL · 100” extracted by the information extraction unit 103 from the language analysis information, and obtains ID0001 → consumable item (general noun), high (adjective), and print (sa variable noun). Output.
[0053]
Similarly, ID0002 to ID000N are
ID0002 →
Salesman (general noun), technology (general noun), knowledge (general noun), abundance (adjective verb), trust (general noun)
ID0003 →
Print (sa noun), speed (general noun), satisfaction (sa noun), company newsletter (general noun), business (general noun), manual (general noun), use (sa noun)
ID000N →
Trust (general noun), high (adjective), use (sa variable noun)
It becomes.
[0054]
As a result, the subsequent generation of document feature vectors and document classification can be performed without using the token extracted by the information extraction unit 103.
[0055]
Next, according to the output from the language analysis information correction unit 104, the document feature vector generation unit 105 uses tokens (feature description units) such as words as columns, each document as a row, and elements as, for example, word appearance frequency. The “token” × “document (answer)” matrix is generated.
[0056]
In addition, when the language analysis unit 102 having a general morphological analysis function and a syntax analysis function is used, the token is described in the above description, in addition to the word extraction, the word part of speech information, the compound word (phrase), and the syntax information are simultaneously displayed. For example, the following contents (1) and (2) are possible.
[0057]
(1) “International Union” is tokenized as one compound word instead of two words “international (general noun)” and “association (general noun)”.
(2) The word “explanation (sa variable noun)” is treated as “sa variable noun“ explanation ”appearing in the predicate part” according to its appearance position, and is distinguished from the case where it appears in the subject part.
[0058]
The document feature vector generation unit 105 obtains a document vector according to this “token” × “document” matrix, and there are the following three methods, any of which may be used in the present invention.
[0059]
(1) The column component of the matrix is used as it is as a document feature vector.
(2) Weighting values in consideration of the length of each document (measured by the number of characters, the number of pages, etc.) and the appearance frequency of each token in the document set to be classified, and then using it as a document feature vector .
(3) An inner product matrix between documents is calculated from the above matrix, singular value decomposition is applied to the matrix, a potential semantic space is constructed, and the position of each document in the space is obtained and used as a vector. This technology is realized by referring to the contents of “Project for Effective Document Clustering, Hinrich Schutze and Craving Silverstone 1997, Processeds of SIGIR, pp 74-81, ACM”.
[0060]
The document classification unit 106 classifies the document using the similarity of the document feature vector that is the output of the document feature vector generation unit 105. As measures of similarity, inner products, cosines, Euclidean distances, Mahalanobis distances, and the like can be considered, and any measure can be used.
[0061]
The document classification method includes a bottom-up classification method for grouping similar documents according to the similarity between document feature vectors called clustering, and several categories (classifications) called categorization in advance. There is a method of automatically classifying documents by determining which category each document belongs to. Hereinafter, the clustering method and the categorization method will be described.
[0062]
First, the clustering method will be described. For clustering, various calculation methods including hierarchical and non-hierarchical algorithms are known, and any of them can be used. The K-means algorithm method is taken up as an example of a typical algorithm. This algorithm classifies a set of n document feature vectors generated by the document feature vector generation unit 105 into k vector sets according to their similarity. Note that k must be given in advance.
[0063]
The calculation procedure of this algorithm is
(1) The initial value of the centroid of k clusters is selected from n vectors.
(2) Assign each of the n clusters to the most similar cluster centroid.
(3) For each of k clusters, a new average of vectors included in each cluster is obtained, and this is used as a new cluster centroid.
(4) The above (2) and (3) are repeatedly executed until the end condition is satisfied, such as when the position of the cluster centroid no longer changes.
It is.
[0064]
By using this clustering method, it is possible to obtain a plurality of document sets (clusters) composed of similar document groups. Here, since the specific information extracted by the information extraction unit 103 is not used for calculating the similarity between the document feature vectors, a cluster can be generated without being affected by the specific information. That is, a dominant cluster including specific information (for example, a specific manufacturer) is not formed.
[0065]
Next, the categorization method will be described. Various methods have already been proposed. Among them, G, Salton and M.M. J. et al. The method by McGill (Introduction to Modern Information Retrieval, 1983, New York NcGraw Hill) is well known.
[0066]
In this categorization method, first, categories to be classified are defined in advance. If each category is defined by, for example, specifying a sample document, a vector of each category can be generated based on the sample document. When a plurality of documents are samples, the category document may be added to the sample document vector. In order to properly classify the document to be classified into each category, it is possible to calculate the similarity between each document feature vector to be classified and each category vector, and classify the document into the most similar category. it can. The document-word (token) space, which is a premise for calculating the similarity between vectors that is also used when performing such classification, does not include the specific information extracted by the information extraction unit 103. Documents can be placed in categories regardless of information.
[0067]
Therefore, according to the first embodiment described above, the specific information (for example, product name) extracted by the information extracting unit 103, the classification result (for example, the content of the user's request) based on the content achieved by the document classification unit 106, The relationship between can be examined. Further, in the above-described example, for example, an analysis work such as grasping a difference in user request for each product name by cross tabulation or the like can be performed.
[0068]
(Embodiment 2)
FIG. 4 is a block diagram showing a system configuration of the document classification device according to the second exemplary embodiment of the present invention. The document classification apparatus according to the second embodiment includes a document input unit 101 for inputting document information to be classified on the bus 100, a language for analyzing the document information input by the document input unit 101, and obtaining language analysis information. An analysis unit 102, an information extraction unit 103 that analyzes the document information input by the document input unit 101 and extracts specific information, and a document feature vector for the document information according to the language analysis information obtained by the language analysis unit 102 Generate a document feature vector generation unit 105, a vector correction unit 107 that corrects a document feature vector according to the output of the information extraction unit 103, and classify the document information according to the output of the vector correction unit 107 to generate a document subset And a document classification unit 106 to be connected.
[0069]
FIG. 5 is a flowchart showing a basic operation procedure of document classification in FIG. Here, first, a document input process for inputting document information to be classified is executed by the document input unit 101 (step S21), and the input document information is analyzed by the language analysis unit 102 to obtain language analysis information. Language analysis processing is performed (step S22). Subsequently, the information extraction unit 103 analyzes the input document information and executes information extraction processing for obtaining specific information (step S23). The document feature vector generation unit 105 performs language analysis information by the language analysis unit 102. Accordingly, a document feature vector for the document information is generated (step S24). Further, the document feature vector is corrected according to the output of the information extraction unit 103 (step S25), and the document classification unit 106 classifies the document information according to the document feature vector generated by the vector correction processing, and sets a document subset. The document classification process for generating is executed (step S26).
[0070]
That is, the second embodiment is different from the first embodiment described above in that the correction based on the specific information extracted by the information extraction unit 103 is performed on the generated document feature vector. The document feature vector generation unit 105 generates a vector of each document for the token extracted by the language analysis unit 102 as in the first embodiment. Since the vector is expressed as shown in FIG. 6, for example, the column vector may be deleted in order to exclude the specific information extracted by the information extraction unit 103.
[0071]
For example, in FIG. 6, if the specific information extracted by the information extraction unit 103 is token 3, the vector correction unit 107 can eliminate the influence by deleting the sequence of token 3. In addition, when singular value decomposition is performed and the feature dimensions are obtained not as tokens but as their combined dimensions (m1, m2, m3,... MI,. It is realized by finding mI having the highest correlation with information and eliminating it.
[0072]
By the way, the information extraction unit 103 in the first embodiment or the second embodiment described above may obtain specific information by extracting proper nouns.
[0073]
Furthermore, the information extraction unit 103 may extract specific information based on tag information attached to the structured document. Here, a case where the document input from the document input unit 101 is a structured document such as SGML or XML will be described as an example.
[0074]
For structured documents, for example, “Press release High-speed color printer [XL-1000] is released. Company A Co., Ltd. introduces a new high-speed color printer XL-1000 to the office market from January 7, 2000. Printing speed is The full color is 60 sheets per minute.The sales price is scheduled to be 800,000 yen, and it is planned to be sold from distributors nationwide "is described in the following format.
[0075]
<Document>
<H1> Press Release High-speed color printer "XL-1000" released <h1> <p> <sederaname> Company A </ sedername> is a new model from <releasedate> January 7, 2000 </ releasedate> A high-speed <producttype> color printer </ producttype> <productname> XL-1000 </ productname> is introduced into the office market. The printing speed is 60 sheets per minute in full color. The selling price is planned to be <price> 800,000 yen </ price>, and is scheduled to be sold from distributors nationwide. </ P>
</ Document>
[0076]
In structured documents, important words appearing in the document are tagged in a form sandwiched between <tagname> </ tagname>, so that it is possible to easily extract important words. In the above-described example, tags such as a sender name, a date of release (releasedate), a product name (productname), and a price (price) are embedded.
[0077]
The information extraction unit 103 of the present invention analyzes the tagging structure of the structured document, extracts a tag name such as sendername and a value such as company A in association with each other, and (tag name, value ) To extract. In this case, the above set can be obtained by extracting a portion from a location starting with <xxx> to a location ending with </ xxx>.
[0078]
That is, in the above example,
sendename, Company A
releaseedate, January 7, 2000
producttype, color printer
productname, XL-1000
price, 800,000 yen
Will be extracted.
[0079]
(Embodiment 3)
FIG. 7 is a block diagram showing a system configuration of the document classification apparatus according to the third embodiment of the present invention. The document classification apparatus according to the third embodiment includes a document input unit 101 that inputs document information to be classified on the bus 100, a language that analyzes the document information input by the document input unit 101, and obtains language analysis information. An analysis unit 102, an information extraction unit 103 that analyzes the document information input by the document input unit 101 and extracts specific information, and a document feature vector for the document information according to the language analysis information obtained by the language analysis unit 102 A document feature vector generation unit 105 to be generated, a vector correction unit 107 that corrects a document feature vector according to the output of the information extraction unit 103, an extraction information selection unit 108 that accepts selection of one or more specific information from a user, and information The specific information display unit 109 that displays the specific information extracted by the extraction unit 103 and the output of the vector correction unit 107 Classify document information Therefore, the document classification unit 106 to generate a subset of the documents, are connected.
[0080]
FIG. 8 is a flowchart showing a basic operation procedure of document classification in FIG. Here, first, the document input unit 101 executes a document input process for inputting the document information to be classified (step S31), and the input document information is analyzed by the language analysis unit 102 to obtain language analysis information. Language analysis processing is performed (step S32). Subsequently, the information extraction unit 103 analyzes the input document information and executes information extraction processing for obtaining specific information (step S33), and displays the specific information on the specific information display unit 109 such as a CRT ( Step S34).
[0081]
Further, the extracted information selection unit 108 accepts selection of one or more specific information from the user (step S35). Subsequently, the processing of the first or second embodiment described above is executed.
[0082]
In the case of the first embodiment, the language analysis information correction unit 104 performs language analysis information correction processing for correcting the language analysis information according to the output of the information extraction processing (step S36). Further, the document feature vector generation unit 105 executes a vector generation process for generating a document feature vector for the document information in accordance with the output of the language analysis information correction process (step S37), and the document classification unit 106 performs the vector generation process. Document information is classified according to the generated document feature vector, and document classification processing for generating a document subset is executed (step S39).
[0083]
On the other hand, in the case of the second embodiment, the document feature vector generated by the document feature vector generation unit 105 is corrected according to the output of the information extraction unit 103 (step S38), and the document classification unit 106 Document information is classified according to the document feature vector generated by the process, and a document classification process for generating a document subset is executed (step S39).
[0084]
That is, the third embodiment presents the specific information extracted by the information extraction unit 103 to the user, and allows the user to arbitrarily specify the specific information that is not desired to contribute to the classification.
[0085]
First, the specific information extracted by the information extraction unit 103 is displayed on the CRT, for example, by the specific information display unit 109. An example of this screen display is shown in FIG. The screen shown in FIG. 9 includes “company name, product name, announcement date” as a tag name or attribute name, “company A, company B, XL-100, XL-100” as values, and individual values. The appearance frequency in the entire document set is displayed.
[0086]
Further, the extraction information selection unit 108 takes a method of specifying a tag name that is not used for classification calculation by selecting a check box. That is, in the above example, the token having the company name and product name tag or the attribute name is not used for classification calculation, and the extracted information selection unit 108 uses the language analysis in the case of the first embodiment. In the case of the second embodiment, the information correction unit 104 outputs the information to the vector correction unit 107.
[0087]
By the way, the document classification method described so far can be programmed, recorded on a computer-readable recording medium, and executed on the computer. Also, a part of the document classification method can be realized on a network and can be realized through a communication line.
[0088]
That is, the document classification method described in this embodiment is realized by executing a program prepared in advance on a computer (CPU 20) such as a personal computer or a workstation as shown in FIG. This program is recorded on a computer-readable recording medium such as the memory 21, the hard disk 24, the floppy disk (FD) 27, the CD-ROM 26, the MO, and the DVD by operating the keyboard 25, and is recorded by the computer (CPU 20). It is executed by reading from the medium. In addition, the document classification processing data can be transmitted and received from the communication device 22 to an external device as necessary.
[0089]
In addition, as shown in FIG. 11, this program can be distributed to devices 31 to 33 such as a personal computer via the recording medium via a network such as the Internet 30. When the Internet function is provided, for example, TCP / IP (Transmission Control Protocol / Internet Protocol) is used as a communication protocol. This network is divided into a WAN (Wide Area Network) connected to the outside via a public line or a dedicated line, and a LAN (Local Area Network) that builds a network on the same site. There are methods that are classified, but any of them may be used.
[0090]
【The invention's effect】
  As described above, according to the document classification apparatus (claim 1) of the present invention, the document information input by the document input means is analyzed by the language analysis means.It is the result of morphological analysisLanguage analysis information is acquired, and further information extraction means from document informationAttached information or proper nameThe specific information is extracted, and the language analysis information correcting means extracts the specific information from the language analysis information.By removingCorrect language analysis information,Document featuresA vector generation unit generates a document feature vector, and according to the document feature vector, a document classification unit classifies the document using a technique such as clustering or categorization,Multiple document groups consisting of document informationBy generating, the result of classification by topic and the result of classification by specific information (grouping documents having arbitrary specific information (tag, attribute name)) should not overlap in content. Therefore, an effective document classification device that is not affected by specific information is realized.
[0091]
  According to the document classification apparatus of the present invention (Claim 2), the document information input by the document input means is analyzed by the language analysis means.It is the result of morphological analysisLanguage analysis information is acquired, and further information extraction means from document informationAttached information or proper nameExtract specific information,Document featuresA vector generation unit generates a document feature vector for the document information according to the language analysis information, andBy removing the specific information from the document feature vectorCorrecting the document feature vector, and based on the corrected document feature vector, the document classification means classifies the document;Multiple document groups consisting of document informationBy generating, the result of classification by topic and the result of classification by specific information (grouping documents having arbitrary specific information (tag, attribute name)) should not overlap in content. Therefore, an effective document classification device that is not affected by specific information is realized.Further, when the document information to be classified is a structured document such as SGML or XML, the information extraction unit can extract specific information from tag information attached to the structured document.
[0092]
According to the document classification apparatus (claim 3) of the present invention, in claim 1 or 2, the information extraction unit acquires specific information of the proper noun expression from the input document information. It is possible to generate a document feature vector that eliminates the influence of.
[0094]
  A document classification device according to the present invention (claims)4), It is possible to display the specific information extracted by the information extraction means, and from the displayed specific information, the user can select and specify the specific information to be excluded during classification calculation, It is possible to deal with flexible classification processing according to the type and content of the classification target.
[0095]
  A document classification method according to the present invention (claims)5), The document information input in the document input process is analyzed in the language analysis process.It is the result of morphological analysisLanguage analysis information is acquired, and the information extraction process is performed from document information.Attached information or proper nameThe specific information is extracted, and the language analysis information correction step extracts the specific information from the language analysis information.By removingCorrect language analysis information,Document featuresThe vector generation process generates a document feature vector, and according to the document feature vector, the document classification process classifies the document using a technique such as clustering or categorization,Multiple document groups consisting of document informationBy generating, the result of classification by topic and the result of classification by specific information (grouping documents having arbitrary specific information (tag, attribute name)) should not overlap in content. Therefore, an effective document classification method that is not affected by specific information is realized.When the document information to be classified is a structured document such as SGML or XML, for example, the information extraction step can extract specific information from tag information attached to the structured document.
[0096]
  A document classification method according to the present invention (claims)6), The document information input in the document input process is analyzed in the language analysis process.It is the result of morphological analysisLanguage analysis information is acquired, and the information extraction process is performed from document information.Attached information or proper nameExtract specific information,Document featuresA vector generation step generates a document feature vector for the document information according to the language analysis information, andBy removing the specific information from the document feature vectorModify the document feature vector, and based on the modified document feature vector, the document classification step classifies the document;Multiple document groups consisting of document informationBy generating, the result of classification by topic and the result of classification by specific information (grouping documents having arbitrary specific information (tag, attribute name)) should not overlap in content. Therefore, an effective document classification method that is not affected by specific information is realized.In addition, when the document information to be classified is a structured document such as SGML or XML, the information extraction process can extract specific information from the tag information attached to the structured document.
[0097]
  A document classification method according to the present invention (claims)7)5 or 6, The information extraction process obtains specific information of proper noun expressions from the input document information, and generates document feature vectors that eliminate the influence of this proper noun expression, thus eliminating the influence of this proper noun expression Document feature vectors can be generated.
[0099]
  A document classification method according to the present invention (claims)8), It is possible to display the specific information extracted by the information extraction process, and the user can select and specify the specific information to be excluded during the classification calculation from the displayed specific information. It is possible to deal with flexible classification processing according to the type and content of the classification target.
[0100]
  A computer-readable recording medium according to the present invention (claims)9)5-8Since the document classification method described in any one of the above is programmed and recorded on a computer-readable recording medium, the document classification method can be executed on a computer.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a system configuration of a document classification apparatus according to a first embodiment of the present invention.
FIG. 2 is a flowchart showing a basic operation procedure for document classification in FIG. 1;
FIG. 3 is a chart showing an example of document information according to the first embodiment of the present invention.
FIG. 4 is a block diagram showing a system configuration of a document classification device according to a second exemplary embodiment of the present invention.
FIG. 5 is a flowchart showing a basic operation procedure of document classification in FIG. 4;
FIG. 6 is a chart showing an example of each document vector according to the second embodiment of the present invention.
FIG. 7 is a block diagram showing a system configuration of a document classification apparatus according to a third embodiment of the present invention.
FIG. 8 is a flowchart showing a basic operation procedure of document classification in FIG. 7;
FIG. 9 is an explanatory diagram showing an example of a display screen according to the third embodiment of the present invention.
FIG. 10 is a block diagram showing an example of a computer system that implements the document classification method according to the embodiment of the present invention by software.
FIG. 11 is a block diagram showing an example of a system for realizing the document classification method according to the embodiment of the present invention on a network.
[Explanation of symbols]
101 Document input part
102 Language Analysis Department
103 Information extraction unit
104 Language analysis information correction part
105 Document feature vector generator
106 Document classification section
107 Vector correction section
108 Extraction information selection unit
109 Specific information display section

Claims (9)

分類対象の文書情報を入力する文書入力手段と、前記文書入力手段により入力された前記文書情報を解析し、形態素解析の結果である言語解析情報を得る言語解析手段と、前記文書入力手段により入力された前記文書情報を解析し、付属情報または固有名称である特定情報を抽出する情報抽出手段と、前記情報抽出手段による前記特定情報の出力にしたがって、前記言語解析情報から前記特定情報を除去することにより、前記言語解析情報を修正する言語解析情報修正手段と、前記言語解析情報修正手段により前記言語解析情報を修正した複数の単語の出力にしたがって前記文書情報に対する文書特徴ベクトルを生成する文書特徴ベクトル生成手段と、前記文書特徴ベクトル生成手段により生成された前記文書特徴ベクトルにしたがって複数の前記文書情報を分類し、前記文書情報で構成される文書グループを複数生成する文書分類手段と、を備え、
前記情報抽出手段は、構造化文書に付随するタグ情報にしたがって特定情報を得ることを特徴とする文書分類装置。
A document input means for inputting document information to be classified, analyzed the document information input by the document input means, a language analysis means for obtaining a language analysis information is a result of the morphological analysis, input by the document input means have been analyzing the document information, and the information extraction means for extracting specific information is accompanying information or proper names, in accordance with the output of said identification information by said information extraction means to remove the specific information from the language analysis information by the language analysis information modifying means for modifying the language analysis information, document characteristic to generate a document feature vector for the document information in accordance with the output of a plurality of words that fixes the language analysis information by the language analysis information correction unit multiple and vector generation means, according to said document feature vector generated by the document feature vector generation means Wherein classifying the document information, and a document classifying means for generating multiple documents group including the document information,
The document extracting apparatus, wherein the information extracting unit obtains specific information according to tag information attached to a structured document .
分類対象の文書情報を入力する文書入力手段と、前記文書入力手段により入力された前記文書情報を解析し、形態素解析の結果である言語解析情報を得る言語解析手段と、前記文書入力手段により入力された前記文書情報を解析し、付属情報または固有名称である特定情報を抽出する情報抽出手段と、前記言語解析手段により得られた前記言語解析情報にしたがって前記文書情報に対する文書特徴ベクトルを生成する文書特徴ベクトル生成手段と、前記情報抽出手段による前記特定情報の出力にしたがって、前記文書特徴ベクトルから前記特定情報を除去することにより、前記文書特徴ベクトルを修正する文書特徴ベクトル修正手段と、前記文書特徴ベクトル修正手段のベクトル修正の出力にしたがって複数の前記文書情報を分類し、前記文書情報で構成される文書グループを複数生成する文書分類手段と、を備え、
前記情報抽出手段は、構造化文書に付随するタグ情報にしたがって特定情報を得ることを特徴とする文書分類装置。
A document input means for inputting document information to be classified, analyzed the document information input by the document input means, a language analysis means for obtaining a language analysis information is a result of the morphological analysis, input by the document input means It has been analyzing the document information, and generates an information extracting means for extracting specific information is accompanying information or proper name, the document feature vector for the document information according to the language analysis information obtained by the language analysis unit a document feature vector generation means, in accordance with the output of said identification information by said information extraction means, by removing the specific information from the document feature vector, and document characteristic vector correction means for correcting said document feature vector, the document classifying a plurality of the document information in accordance with the output of the vector correction feature vector modification unit, the sentence And a document classifying means for generating multiple documents group consisting of information,
The document extracting apparatus, wherein the information extracting unit obtains specific information according to tag information attached to a structured document .
前記情報抽出手段は、固有名詞表現を抽出することにより特定情報を得ることを特徴とする請求項1または2に記載の文書分類装置。  The document classification apparatus according to claim 1, wherein the information extraction unit obtains specific information by extracting a proper noun expression. さらに、前記情報抽出手段により抽出された特定情報を表示する表示手段と、1つ以上の特定情報の選択を受け付ける抽出情報選択手段と、を備えたことを特徴とする請求項1〜の何れか1つに記載の文書分類装置。Furthermore, the display means which displays the specific information extracted by the said information extraction means, and the extraction information selection means which receives selection of one or more specific information are provided, The any one of Claims 1-3 characterized by the above-mentioned. The document classification device according to claim 1. あらかじめ用意されたプログラムをコンピュータ上で実行することにより実現される文書分類方法であって、
前記プログラムを実行することにより、前記コンピュータが、分類対象の文書情報を入力する文書入力工程と、前記文書入力工程により入力された前記文書情報を解析し、形態素解析の結果である言語解析情報を得る言語解析工程と、前記文書入力工程により入力された前記文書情報を解析し、付属情報または固有名称である特定情報を抽出する情報抽出工程と、前記情報抽出工程による前記特定情報の出力にしたがって前記言語解析情報を修正する言語解析情報修正工程と、前記言語解析情報修正工程により前記言語解析情報を修正した複数の単語の出力にしたがって前記文書情報に対する文書特徴ベクトルを生成する文書特徴ベクトル生成工程と、前記文書特徴ベクトル生成工程により生成された文書特徴ベクトルにしたがって複数の前記文書情報を分類し、前記文書情報で構成される文書グループを複数生成する文書分類工程と、を実行し、
前記情報抽出工程は、構造化文書に付随するタグ情報にしたがって特定情報を得ることを特徴とする文書分類方法。
A document classification method realized by executing a program prepared in advance on a computer,
By executing the program, the computer, the document input step of inputting document information to be classified, analyzed the document information input by the document input step, the language analysis information is a result of the morphological analysis a language analysis step of obtaining, analyzing the document information input by the document input step, an information extraction step of extracting specific information is accompanying information or proper names, in accordance with the output of said identification information by said information extraction step A language analysis information correction step for correcting the language analysis information, and a document feature vector generation step for generating a document feature vector for the document information in accordance with an output of a plurality of words in which the language analysis information is corrected by the language analysis information correction step. and a plurality of pre accordance document feature vectors generated by the document feature vector generation step It classifies the document information to perform a document classification process generate a plurality of document group consisting of the document information,
The document extracting method, wherein the information extracting step obtains specific information according to tag information attached to the structured document .
あらかじめ用意されたプログラムをコンピュータ上で実行することにより実現される文書分類方法であって、
前記プログラムを実行することにより、前記コンピュータが、分類対象の文書情報を入力する文書入力工程と、前記文書入力工程により入力された前記文書情報を解析し、形態素解析の結果である言語解析情報を得る言語解析工程と、前記文書入力工程により入力された前記文書情報を解析し、付属情報または固有名称である特定情報を抽出する情報抽出工程と、前記言語解析工程により得られた前記言語解析情報にしたがって前記文書情報に対する文書特徴ベクトルを生成する文書特徴ベクトル生成工程と、前記情報抽出工程による前記特定情報の出力にしたがって前記文書特徴ベクトルから前記特定情報を除去することにより、前記文書特徴ベクトルを修正する文書特徴ベクトル修正工程と、前記文書特徴ベクトル修正工程のベクトル修正の出力にしたがって複数の前記文書情報を分類し、前記文書情報で構成される文書グループを複数生成する文書分類工程と、を実行し、
前記情報抽出工程は、構造化文書に付随するタグ情報にしたがって特定情報を得ることを特徴とする文書分類方法。
A document classification method realized by executing a program prepared in advance on a computer,
By executing the program, the computer, the document input step of inputting document information to be classified, analyzed the document information input by the document input step, the language analysis information is a result of the morphological analysis a language analysis step of obtaining, analyzing the document information input by the document input step, an information extraction step of extracting specific information is accompanying information or proper name, the language analysis information obtained by the language analysis step A document feature vector generating step for generating a document feature vector for the document information according to the method, and removing the specific information from the document feature vector in accordance with the output of the specific information by the information extracting step. and document feature vector modification step of modifying a vector of the document feature vector correction process Osamu Of classifying a plurality of the document information in accordance with the output, perform the a document classification process generate a plurality of document group consisting of the document information,
The document extracting method, wherein the information extracting step obtains specific information according to tag information attached to the structured document .
前記情報抽出工程は、固有名詞表現を抽出することにより特定情報を得ることを特徴とする請求項5または6に記載の文書分類方法。7. The document classification method according to claim 5 , wherein the information extraction step obtains specific information by extracting proper noun expressions. さらに、前記プログラムを実行することにより、前記コンピュータが、前記情報抽出手段により抽出された特定情報を表示する表示工程と、1つ以上の特定情報の選択を受け付ける抽出情報選択工程と、を実行することを特徴とする請求項5〜7の何れか1つに記載の文書分類方法。Further, by executing the program, the computer executes a display step of displaying the specific information extracted by the information extraction means, extracts information selection step of accepting a selection of one or more specific information, the The document classification method according to any one of claims 5 to 7 , wherein: 前記請求項5〜8の何れか1つに記載の文書分類方法をコンピュータに実行させるプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。9. A computer-readable recording medium on which a program for causing a computer to execute the document classification method according to claim 5 is recorded.
JP2001257049A 2001-08-27 2001-08-27 Document classification apparatus, document classification method, and computer-readable recording medium storing a program for causing a computer to execute the document classification method Expired - Fee Related JP4669642B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001257049A JP4669642B2 (en) 2001-08-27 2001-08-27 Document classification apparatus, document classification method, and computer-readable recording medium storing a program for causing a computer to execute the document classification method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001257049A JP4669642B2 (en) 2001-08-27 2001-08-27 Document classification apparatus, document classification method, and computer-readable recording medium storing a program for causing a computer to execute the document classification method

Publications (2)

Publication Number Publication Date
JP2003067398A JP2003067398A (en) 2003-03-07
JP4669642B2 true JP4669642B2 (en) 2011-04-13

Family

ID=19084775

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001257049A Expired - Fee Related JP4669642B2 (en) 2001-08-27 2001-08-27 Document classification apparatus, document classification method, and computer-readable recording medium storing a program for causing a computer to execute the document classification method

Country Status (1)

Country Link
JP (1) JP4669642B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4359075B2 (en) * 2003-05-16 2009-11-04 株式会社リコー Concept extraction system, concept extraction method, concept extraction program, and storage medium
JP2006338086A (en) * 2005-05-31 2006-12-14 Nomura Research Institute Ltd Topic scale management device
KR100849631B1 (en) 2006-08-01 2008-07-31 (주)윕스 Grouping System of Documents and Method Thereof and Recording Medium Thereof

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001067360A (en) * 1999-08-24 2001-03-16 Sharp Corp Device and method for providing user with information and machine readable recording medium recording program which executes the method

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001067360A (en) * 1999-08-24 2001-03-16 Sharp Corp Device and method for providing user with information and machine readable recording medium recording program which executes the method

Also Published As

Publication number Publication date
JP2003067398A (en) 2003-03-07

Similar Documents

Publication Publication Date Title
Tandel et al. A survey on text mining techniques
Mehler et al. Genres on the web: Computational models and empirical studies
Dou et al. Hierarchicaltopics: Visually exploring large text collections using topic hierarchies
US7130848B2 (en) Methods for document indexing and analysis
Uzun et al. A hybrid approach for extracting informative content from web pages
Trappey et al. An R&D knowledge management method for patent document summarization
MX2008001772A (en) Method and system for extracting web data.
Grobelnik et al. Automated knowledge discovery in advanced knowledge management
Doshi et al. Movie genre detection using topological data analysis
Binkley et al. The need for software specific natural language techniques
JP3583631B2 (en) Information mining method, information mining device, and computer-readable recording medium recording information mining program
KR20190102529A (en) Apparatus and method for analyzing target using topic
JP4669642B2 (en) Document classification apparatus, document classification method, and computer-readable recording medium storing a program for causing a computer to execute the document classification method
Jyothi et al. Knowledge extraction using rule based decision tree approach
JP5331723B2 (en) Feature word extraction device, feature word extraction method, and feature word extraction program
JP2004240887A (en) Retrieval information display system, retrieval keyword information display method and retrieval keyword information display program
Kan et al. Corpus-trained text generation for summarization
JP2006293616A (en) Document aggregating method, and device and program
Pera et al. Web-based closed-domain data extraction on online advertisements
JP2022073872A (en) System, method, and program for extracting infringement information
Preethi et al. A survey paper on text mining-techniques, applications, and issues
JP2002056009A (en) Method and device for classifying document
JP3910823B2 (en) Questionnaire analysis apparatus, questionnaire analysis method and program
Klavans et al. Beyond Flickr: Not all image tagging is created equal
JP5131565B2 (en) Information processing apparatus and method, program, and recording medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080821

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20080825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100921

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110111

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110117

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140121

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees