JP2007199966A

JP2007199966A - 文書分類装置、文書分類方法および文書分類プログラム

Info

Publication number: JP2007199966A
Application number: JP2006016998A
Authority: JP
Inventors: Katsunori Yoshiji; 克典芳地
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2006-01-25
Filing date: 2006-01-25
Publication date: 2007-08-09

Abstract

【課題】自分の専門外のカテゴリでも精度良く分類することができる文書分類装置、文書分類方法および文書分類プログラムを提供する。
【解決手段】文書分類方法は、クラスタリングする文書集合を選定し（ステップＳ１０１）、文書集合をクラスタリングし（ステップＳ１０２）、クラスタリングされた複数のクラスタ文書に対応する複数の文書分類枠を設定し（ステップＳ１０３）と、クラシファイア（カテゴリ分類）する文書集合を選定し（ステップＳ１０４）、文書分類枠に従い選定された文書集合を分類する（ステップＳ１０５）ものである。
【選択図】図２

Description

本発明は、電子化された文書を分類するための文書分類装置、文書分類方法および文書分類プログラムに関する。

文書の電子化に伴い、ネットワークや記録媒体等を通じて大量の電子化された文書を閲覧しまたは取得することが可能になっている。電子化された大量の文書を分類する方法として、カテゴリ分類とクラスタリングが知られている。カテゴラ分類は、予め人手によって分類枠を設定しておき、それぞれの文書を分類枠に振り分けるものである。クラスタリングは、予め決められたアルゴリズム、例えば類似度により、類似している文書をまとめていく処理を行い、各文書をクラスタ化するものである。カテゴリ分類は、分類枠の設定が必要であるため、未知の文書に適用できなかったり、人手により分類枠を設定するため文書の分類にバラツキが生じるという欠点がある。クラスタリングは、分類枠は必要なく、しかも未知の文書にも適用することができるという長所があるが、個々の文書について類似度の計算をする必要がある。

特許文献１は、カテゴリ別に自動分類するする方式に関し、カテゴリ別された基本例文から名詞動詞の出現頻度を求めておき、分類対象の文書からも名詞動詞の出現頻度を求め、双方の単語の出現頻度との差を積算した値が最小のカテゴリに分類する。特許文献２は、文書データに含まれるキーワードをノードで指定する決定木により分類するものである。特許文献３は、文書情報中に文書分類解析テーブルに含まれている分類文字列が存在するかどうかを判定して文書の分類を行うものである。特許文献４は、複数の分類の文書データを用意してキーワードを抽出し、そこから分類用辞書を作成し、文書データを自動的に分類するものである。特許文献５は、文書から自立語を抽出し、文書ベクトルを作成し、文書を分類するクラスタリング技術に関する。特許文献６は、単語の共起関係から単語の特徴ベクトルを作成し、単語の特徴ベクトルから文書の特徴ベクトルを生成し、そして文書の特徴ベクトル間の類似度を利用して文書を分類する。特許文献７は、キーワード毎に分類フォルダを作成し、このフォルダの中にキーワードを含む文書を格納し、キーワードフォルダ内の文書同士を比較することによりフォルダを結合する。

特開平５−５４０３７号特開平５−３２４７２６号特開平６−１３１２２５号特開平６−３４８７５５号特開平７−３６８９７号特開平７−１１４５７２号特開平８−１４３１２１号

しかしながら、上記特許文献１ないし４に開示される文書分類装置には次のような課題がある。分類枠を設定した文書分類の場合には、分類カテゴリと文書の組を用意する必要がある。また、各カテゴリ毎に代表的なキーワードを選定する場合には、カテゴリに対応した文書を選出し、キーワード抽出処理によりキーワードを選び、頻度などにより重要度が高いものを代表語としたり、特徴ベクトルを作成しなければならない。

例えば文書集合として特許文書を考えたとき、それぞれのカテゴリに対応した文書を集めてまとめなければならない。しかし、最も必要なのは自分が関連する分野だけであり、用語や技術がわかるのも自分の専門だけである。そもそもその特許文書集合にどれだけの分野があるのかもわからない。よって、自分の専門の分類カテゴリだけを設定し、残りについては「専門外」などのカテゴリで対応したり、そもそも分類カテゴリを設定せず、関連度の閾値が低い文書の行き先として「その他」フォルダを設定している。

「専門外」カテゴリを設定する場合、そこには自分の専門外の複数の分野の文書を設定することになる。例えば、図５（ａ）に示すように、自分の専門分野として、「専門Ａ」、「専門Ｂ」を設定し、それ以外に「専門外」を設定したとする。各カテゴリの１つの棒グラフは、１つのキーワードの重要度（特徴ベクトル）を示しており、各カテゴリの特徴ベクトルは、カテゴリ間の均衡を図るために正規化される。「専門外」のカテゴリは、色々な特徴を多数含んでいるため、この正規化によって特徴ベクトルが全体的に低くなる。その結果、図５（ｂ）に示すように、「専門Ａ文書」が投入されれば「専門Ａ」に適切に分類されるが、「専門外文書」が投入されても、「専門外」に分類されず、「専門Ａ」または「専門Ｂ」のカテゴリに分類される可能性が多くなってしまう。

この対応として、「専門外」カテゴリを対象文書集合の実情に合わせるのがよいが、先述したように、そもそも対象文書集合にどのくらいのカテゴリが存在しているのか分からない、決めかねる、という問題があった。

そこで本発明では、最初の分類枠の設定にクラスタリング(自動分類)の結果を適用し、これにより、人手で文書を分類し分類枠を設定する手間が省け、自分の専門外のカテゴリでも精度良く分類することができる文書分類装置、文書分類方法および文書分類プログラムを提供することを目的とする。

本発明に係る、電子化された文書を分類する文書分類装置は、文書集合をクラスタリングし、クラスタリングされた複数のクラスタ文書に対応する複数の文書分類枠を設定する設定手段と、対象文書と前記複数の文書分類枠とを比較し、対象文書を選択された文書分類枠に分類する分類手段とを有する。

最初の文書分類枠をクラスタリングにより自動設定することで、人手によらないため、客観性のある基準により分類枠を設定することができる。特に、自分の専門外のような分類であっても、適切な分類枠を設定することができる。

好ましくはクラスタリングにより設定された文書分類枠は、クラスタ文書から得られた基準ベクトルを含み、分類手段は、基準ベクトルと対象文書から得られた特徴ベクトルとを比較することにより対象文書を分類する。基準ベクトルは、クラスタ文書に含まれる文書の特徴ベクトルを正規化して得ることができる。特徴ベクトルは、文書に含まれる単語の出現頻度に基づき算出することができ、例えば、キーワードの頻度と重要度から特徴ベクトルを得ることできる。

好ましくは設定手段は、２つの文書の類似度が閾値以上であるとき、当該２つの文書を同一のクラスタであると判定する。この閾値は、可変することが可能であり、ユーザーによって設定するようにしてもよい。あるいは、類似度とクラスタ数との関係を示す曲線において、曲線の傾斜の変化が最大となる点を閾値とするように自動設定してもよい。自動設定にすることで、常に、一定基準のクラスタ数、すなわち文書分類枠を設定することが可能である。変化の最大値は、曲線を２回微分して、その絶対値が最大となる点を閾値とする。また、変化の最大値を求めるにあたって、事前に曲線を平滑化処理をするようにしてもよい。

本発明に係る、電子化された文書を分類する文書分類方法は、文書集合をクラスタリングし、クラスタリングされた複数のクラスタ文書に対応する複数の文書分類枠を設定する設定ステップと、対象文書と前記複数の文書分類枠とを比較し、対象文書を選択された文書分類枠に分類するものである。

さらに本発明に係る、電子化された文書を分類する文書分類プログラムは、文書集合をクラスタリングし、クラスタリングされた複数のクラスタ文書に対応する複数の文書分類枠を設定する設定ステップと、対象文書と前記複数の文書分類枠とを比較し、対象文書を選択された文書分類枠に分類する分類ステップとを有する。文書分類プログラムは、好ましくはパーソナルコンピュータあるいクライアント／サーバーにおいて実施される。

本発明によれば、最初に文書分類枠の設定にクラスタリングを用い、その自動設定された文書分類枠に従いその後の文書を分類するようにしたので、従来のようにカテゴリ分類（クラシファイア）またはクラスタリングと比較して、文書分類の精度が上がり、かつ文書分類の処理速度が向上する。

以下、本発明を実施するための最良の形態を図面を参照して説明する。

図１は、本発明の実施例に係る文書分類装置の構成を示す機能ブロック図である。文書分類装置１０は、クラスタリングまたはクラシファイア（カテゴリ分類）される文書を受け付ける文書受付装置２０、受け付けられた文書データからテキストデータを抽出し、抽出されたテキストデータを形態素解析し、文書に含まれるキーワード等の出現頻度に基づき当該文書の特徴ベクトルを算出する文書解析装置３０、選定された文書集合をクラスタリングする文書自動分類装置４０、文選定された文書集合を固定枠で分類する固定枠分類装置５０、文書受付装置２０によって受付られた文書データおよび抽出されたテキストデータを蓄積する文書蓄積装置６０、各文書の特徴ベクトルを格納するキーワードインデックス格納装置７０、クラスタリングにより設定された文書分類枠およびその文書分類枠に従い分類された文書を格納する文書分類枠情報格納装置８０を含んで構成される。これら機能は、好ましくはコンピュータまたはサーバー／クライアントに搭載されるソフトウエアよって実現される。

図２は、文書分類装置１０による文書分類動作を示すフローチャートである。本実施例の文書分類方法は、先ず、クラスタリングすべき文書集合を選定し（ステップＳ１０１）、選定された文書をクラスタリングし（ステップＳ１０２）、クラスタリングされたクラスタ文書から文書分類枠を設定し（ステップＳ１０３）、次に、カテゴリ分類すべき文書集合を選定し（ステップＳ１０４）、その文書集合を文書分類枠に従い分類する（ステップＳ１０５）ステップを含んでいる。本発明の文書分類方法において注目すべき点は、最初にクラスタリングにより文書分類枠を自動生成し、その生成された文書分類枠に従いクラシファイア（カテゴリ分類）をするといった、クラスタリングとクラシファイアとを組み合わせた文書分類を行っていることである。

以下、各動作について詳細に説明する。先ず、クラスタリングすべき対象の文書集合が選定される（ステップＳ１０１）。クラスタリングすべき文書は、ユーザの目的等に応じて任意に選定することができる。例えば、２０００年１月の任意のＩＰＣ分類の特許文書の集合をクラスタリング対象文書として選定することができる。

次に、選定された文書集合についてクラスタリングが行われる（ステップＳ１０２）。選定された文書集合が、図１に示す文書受付装置２０により受け付けられる。文書集合の受付方法は、特に制限されないが、ＣＤやその他の記録媒体に格納された電子化された文書を入力したり、インターネット等のネットワークを通じて得られた電子化された文書をダウンロードしたりすることができる。

文書受付装置２０により受け付けられた文書データは、文書解析装置３０へ供給される。文書解析装置３０は、文書データからテキストデータを抽出し、抽出されたテキストデータの形態素解析を行い、当該テキストデータのキーワード等の出現頻度から文書の特徴ベクトルを算出する。文書受付装置２０で受け付けられた文書データおよび抽出されたテキストデータは分類蓄積装置４０に蓄積される。また、文書解析装置３０により解析された特徴ベクトルは、キーワードインデックス格納装置６０に格納される。仮に、クラスタリングされる文書集合が、Ｄ１、Ｄ２、・・Ｄｉ・・ＤＮ（Ｎは自然数）あったとすると、格納装置６０には、例えば図３に示すテーブルのように、文書毎に識別を付与した文書ＩＤ（Ｄ１、Ｄ２、・・Ｄｉ・・ＤＮ）と、当該文書ＩＤに対応する特徴ベクトル（Ｔ１、Ｔ２、・・Ｔｉ・・ＴＮ）とが関連付けされて保存される。

テキストデータを形態素解析することで、その文書に含まれるキーワードが抽出される。１つの文書Ｄｉに含まれるキーワード集合ｋ{ki1, ki2, ・・・kim}が正規化された頻度ｆを次式（１）のように算出する。

ここで、ｔｆは単語頻度、Ｍは文書中の単語数、ｉｄｆは全文書中でその単語を含む文書数の逆数である。そして、文書Ｄｉの特徴ベクトルは、次式（２）によって表される。

文書自動分類装置５０は、キーワードインデックス格納装置５０に格納された特徴ベクトルを参照し、文書集合のクラスタリングを行う。クラスタリングは、一般的に良く知られている文書の類似度を用いて行われる。文書Ｄｉと文書Ｄｊの類似度Ｓijは、次式（３）で表される。

ここで、類似度Ｓijが閾値θ以上ならば（Ｓij≧θ）、文書Ｄｉと文書Ｄｊは同じクラスタと認定される。文書自動分類装置５０は、文書Ｄiについてクラスタリング対象の全文書に対して類似度を計算し、クラスタ判定を行う。そして、同じクラスタに認定された文書集合は、一つのクラスタ文書として扱われる。
全ての組み合わせについてクラスタ判定を実施し、クラスタ数の変動がなくなると計算を終了する。

クラスタの数は、閾値θを可変することによって変更することができる。図４は、クラスタ数と類似度の関係を示す曲線であり、縦軸がクラスタ数すなわちクラスタ文書の数であり、横軸が類似度である。類似度が高くなるに伴い、クラスタ数がＮへ向けて増加し、反対に、類似度が低くなるに伴い、クラスタ数が１へ向けて減少する。クラスタ数と類似度は、一般に図４に示すような曲線となり、好ましくは、その曲線の傾斜の変化の最大値を閾値θに設定し、これを推奨分類結果とする。変化の最大値は、曲線をθで２回微分して、その絶対値が最大となる点のθを採用する。但し、現実的には、きれいな曲線にはならないことが多いので、事前に曲線に対して平滑化処理を行ってから最大値を求めるようにしてもいよい。勿論、これ以外の手法によりクラスタ数を設定するようにしてもよい。例えば、ユーザーがクラスタ数を入力したとき、当該クラスタ数に対応する閾値を設定するようにしてもよい。なお、クラスタリングの方法は、例えば特開２００３−２７１６２０号に開示されている。

文書自動分類装置５０は、クラスタリングを終了すると、クラスタ文書毎の文書分類枠を設定する（ステップＳ１０３）。１つのクラスタ文書には、上記した類似度を満足する１つもしくはそれ以上の文書が含まれる。文書自動分類装置５０は、クラスタ文書に含まれる個々の文書の特徴ベクトルを加算し、これらを正規化することで基準ベクトルを算出する。基準ベクトルは、文書分類枠毎に固有のものとなる。こうして設定された文書分類枠および基準ベクトルは、文書分類枠情報格納装置８０に格納される。

次に、クラシファイアまたはカテゴリ分類すべき文書集合が選定され（ステップＳ１０４）、選定された文書集合を、クラスタリングにより自動設定された文書分類枠に基づき分類する（ステップＳ１０５）。例えば、２００１年の特許文書集合を選定し、これを先に求めた文書分類枠で分類する。選定された文書集合は、文書受付装置２０で受け取られた後、文書解析装置３０においてテキストデータが抽出され、抽出されたテキストデータが形態素解析されたる。特徴ベクトルは、クラスタリングのときと同様に、文書に含まれるキーワードの出現頻度から算出される。文書受付装置２０で受け取られた文書データおよび抽出されたテキストデータは、分類蓄積装置４０に蓄積される。

固定枠分類装置７０は、文書の特徴ベクトルと、文書分類枠毎の基準ベクトルとを比較し、もっとも関連度の高い文書分類枠を選択し、そこに文書を分類する。文書分類枠情報格納装置８０は、クラスタリングにより設定されたクラスタ文書または文書分類枠に、クラシファイアにより分類された文書を順次蓄積する。ユーザーは、文書分類の終了後に文書分類情報格納装置８０の各文書分類枠を参照し、分類蓄積装置４０に格納された文書をディスプレイ等に表示させることができる。

本実施例では、最初の文書分類枠の設定にクラスタリング(自動分類)の結果を適用するようにしたので、人手で分類枠を設定する手間が省ける。さらに、人手に寄らないため、自分の専門外のカテゴリでも適切な分類枠を設定することができ、その結果、文書分類の精度を向上させることができる。

以上、本発明の好ましい実施の形態について詳述したが、本発明に係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

上記実施例では、文書分類装置を主にプログラムを利用したソフトウエアにより構成する例を示したが、勿論、ハードウエアにより文書分類機能を実現するようにしてもよい。

本発明に係る文書分類装置は、電子化された文書を整理したり、所望の文書を抽出するための装置として利用される。

本発明の実施例に係る文書分類装置の構成を示すブロック図である。本実施例に係る文書分類装置の動作を示すブローチャートである。キーワードインデックス格納装置に格納されたテーブルを示す図である。クラスタ数と類似度の関係を示すグラフである。従来の文書分類装置の課題を説明する図である。

符号の説明

１０：文書分類装置２０：文書受付装置
３０：文書解析装置４０：文書自動分類装置
５０：固定枠分類装置６０：文書蓄積装置
７０：キーワードインデックス格納装置８０：文書分類枠情報格納装置

Claims

電子化された文書を分類する文書分類装置であって、
文書集合をクラスタリングし、クラスタリングされた複数のクラスタ文書に対応する複数の文書分類枠を設定する設定手段と、
対象文書と前記複数の文書分類枠とを比較し、対象文書を選択された文書分類枠に分類する分類手段と、
を有する文書分類装置。
前記設定手段により設定された文書分類枠は、クラスタ文書から得られた基準ベクトルを含み、前記分類手段は、前記基準ベクトルと対象文書から得られた特徴ベクトルとを比較することにより対象文書を分類する、請求項１に記載の文書分類装置。
前記基準ベクトルは、クラスタ文書に含まれる文書の特徴ベクトルを正規化することにより得られる、請求項２に記載の文書分類装置。
前記特徴ベクトルは、文書に含まれる単語の出現頻度に基づき算出される、請求項１ないし３いずれか１つに記載の文書分類装置。
前記設定手段は、２つの文書の類似度が閾値以上であるとき、当該２つの文書を同一のクラスタであると判定する、請求項１ないし４いずれか１つに記載の文書分類装置。
前記閾値は可変である、請求項５に記載の文書分類装置。
前記類似度とクラスタ数との関係を示す曲線において、曲線の傾斜の変化が最大となる点を前記閾値とする、請求項５または６に記載の文書分類装置。
電子化された文書を分類する文書分類方法であって、
文書集合をクラスタリングし、クラスタリングされた複数のクラスタ文書に対応する複数の文書分類枠を設定する設定ステップと、
対象文書と前記複数の文書分類枠とを比較し、対象文書を選択された文書分類枠に分類する分類ステップと、
を有する文書分類方法。
前記文書分類枠は、クラスタ文書から得られた基準ベクトルを含み、前記分類ステップは、前記基準ベクトルと対象文書から得られた特徴ベクトルとを比較する、請求項８に記載の文書分類方法。
前記基準ベクトルは、クラスタ文書に含まれる文書の特徴ベクトルを正規化することにより得られる、請求項９に記載の文書分類方法。
前記特徴ベクトルは、文書に含まれる単語の出現頻度に基づき算出される、請求項８ないし１０いずれか１つに記載の文書分類方法。
前記設定ステップは、２つの文書の類似度が閾値以上であるとき、当該２つの文書を同一のクラスタであると判定する、請求項８ないし１１いずれか１つに記載の文書分類方法。
前記類似度とクラスタ数との関係を示す曲線において、曲線の傾斜の変化が最大となる点を前記閾値とする、請求項１２に記載の文書分類方法。
電子化された文書を分類する文書分類プログラムであって、
文書集合をクラスタリングし、クラスタリングされた複数のクラスタ文書に対応する複数の文書分類枠を設定する設定ステップと、
対象文書と前記複数の文書分類枠とを比較し、対象文書を選択された文書分類枠に分類する分類ステップと、
を有する文書分類プログラム。