JP2005115628A

JP2005115628A - 定型表現を用いた文書分類装置・方法・プログラム

Info

Publication number: JP2005115628A
Application number: JP2003348600A
Authority: JP
Inventors: Hiroyuki Shimizu; 裕之清水; Shinya Nakagawa; 真也中川
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2003-10-07
Filing date: 2003-10-07
Publication date: 2005-04-28
Also published as: US20050149846A1; KR20050033852A; CN1607526A

Abstract

【課題】
大量の電子化された文書から必要な情報を抽出する必要があるが、これらの文書は、様々な文書スタイルで構成されており、それらの文書スタイルの文書を統一的に扱える文書処理技術はなく、文書スタイルごとに適した文書処理技術を選択する必要がある。そのために入力文書を文書スタイルごとに適切に分類することが望まれている。
【解決手段】
本発明では、形態素解析に依存せずに字面解析に基づいて、文書を話題別ではなく文書スタイルにもとづいて分類する。このために、スタイル固有定型表現を文書スタイルごとに参照辞書として用意し、入力文書に対してその文書の中に存在するスタイル固有定型表現の出現状況に基づいて定型表現リストを抽出し、定型表現リストをもとに文書スタイル毎に確信度を算出し、入力文書が属する文書スタイルを決定する。
【選択図】図１

Description

本発明は、文書分類に関する発明であり、文書に含まれる定型表現を用いて、文書を文書スタイルごとに分類する方法、装置、及びプログラムに関する。

大量の電子化された文書から情報を抽出する手法は数多く提案されている。しかし文書には、新聞記事のように文法的に適格で書き言葉で書かれている文で構成されている文書から、電子掲示板のコメントのように理解はできるが文法的に適格でなく話し言葉を多く含む文などによって構成される文書や、日報などのように走り書きの文書など様々な文書スタイルが存在するため、それら様々な文書スタイルの文書を統一的に扱える文書処理技術はなく、文書スタイルごとに適した文書処理技術を選択する必要がある。そのために文書を文書スタイルごとに分類する必要がある。
文書分類手法としては、文書に出現する単語の統計情報に基づいて文書を分類する方法があり、例えば、特開平６−７５９９５などは、カテゴリーに属する文書における個々のキーワードの出現頻度などをカテゴリーの関連度として、入力文書に出現する単語の関連度をカテゴリーごとに加算して各カテゴリーへの関連度を計算して、最大の関連度をもつカテゴリーに分類する方法である。また特開平９−１６５７０では文書情報やキーワードの有無をもとに分類を決定する決定木をあらかじめ構成しておき、それを利用して分類を決定している。また特開平１１−４５２４７では入力文書とカテゴリー内の典型文書間の類似度を計算して分類を行っている。

これらの方法はキーワードを獲得するために、文書が単語単位で切り出しが行われていることが仮定されているため、日本語や中国語の文書のように「分かち書き」されていない文書に対しては形態素解析などの自然言語処理が必要である。
しかし文書には新聞記事、論文、メールなどのように様々な文書スタイルがあり、新語、略語、書き間違いや文法的な誤りの度合いなどによって辞書などを用いて自然言語処理を行っても様々な文書スタイルの文書を適格に単語単位に分解する事は困難である。また、これらの方法は主に名詞などの内容を表す単語をキーワードとして用いることが多いため、文書を話題ごとに分類することには適しているが、文書を新聞やコメントなどのように内容ではなく文書スタイル別に分類することには適していない。
特開平６−７５９９５特開平９−１６５７０特開平１１−４５２４７ "自然言語処理"（長尾真他編集、岩波書店） J.Ross. Quinlan, "C4.5：Programing for machine learning" Morgan Kaufman Pubiliser (1993)） "A decision-theoretic generalization of on-line learning and an application to boosting." ( Yoav Freund and Robert Schapire, Journal of Computer and System Sciences, 55(1):119-139, 1997)

本発明の目的は、文書を話題別ではなく、文書スタイルの情報にもとづいて、文書スタイル別に分類することである。また、形態素解析に依存せずに字面解析に基づく文書分類を実現することである。

同じ文書スタイルに属する文書集合には言い回しや語尾などに共通した特徴的な表現が見られる。このように文書スタイルごとに頻出する定型表現（以下、本願明細書では、スタイル固有定型表現と呼ぶ）を文書スタイルごとに参照辞書として用意し、未分類の文書に対してその文書の中に存在するスタイル固有定型表現の出現状況に基づいて定型表現リストを抽出し、前記定型表現リストをもとに文書スタイル毎に確信度を算出し、この確信度をもとに前記入力文書が属する文書スタイルを決定し文書分類を行う。

以上のように、本願発明によれば文書の話題毎による分類でなく、文書スタイルによる分類が実現できる。従って文書を文書スタイル毎に分類することにより、特定の文書スタイルに適した文書処理の選択ができる。定型表現は文書スタイル固有の言い回しであるので、一般的に文書分類で問題になる未知語、造語などの影響をうけにくい等の利点がある。

図９は、本願発明を実施する装置を示している。筐体５００の中には、記憶部５１０、中央制御部（ＣＰＵ）５２０、表示部５３０、操作部５４０が含まれている。使用者が操作部５４０から必要な情報を入力する。中央制御部５２０は記憶部５１０に記憶されている情報を読み出し入力された情報をに基づいて、所定の演算を行い、表示部５３０に処理結果を表示する。
図１は本発明の文書分類手段を概略的に表したブロック図であって、スタイル固有定型表現辞書１０５、文書スタイル決定木集合１０６、定型表現情報抽出部１０２と、文書分類部１０３が示されている。図１において、スタイル固有定型表現辞書１０５は、スタイル固有定型表現を抽出するためのスタイル固有定型表現を格納する。文書スタイル決定木集合１０６は文書スタイルの分類ルールを格納する。、定型表現情報抽出部１０２は、入力文書からその文書に含まれるスタイル固有定型表現を抽出して、定型表現リストの形に変換する。文書分類部１０３は、定型表現リストから文書スタイル決定木集合に格納されている決定木を用いて入力文書の文書スタイルを決定する。

文書スタイルを分類すると、文法的に適格で書き言葉的な文書である紹介記事の文書スタイル、話し言葉的な文書である電子掲示板の文書スタイル、走り書き的な文書である日報の文書スタイルなどがある。本願明細書では分類すべき文書スタイルとして、紹介記事の文書スタイル（文書スタイル１）と電子掲示板の文書スタイル（文書スタイル２）を例として説明する。
図２は定型表現情報抽出部１０２を説明するブロック図であって、入力文書中に存在するスタイル固有定型表現を抽出する字面解析処理部２０２と入力文書を定型表現リストに変換する定型表現リスト生成部２０３から構成される。字面解析部では、入力文書の各文に対してスタイル固有定型表現辞書を参照しながら字面上の照合処理を行うことによって文中に存在するスタイル固有定型表現を抽出する。そして定型表現リスト生成部において、字面解析部で抽出されたスタイル固有定型表現から入力文書の各文を文書スタイルごとに定型表現リストに変換する。
字面解析処理部で参照するスタイル固有定型表現辞書には文書スタイルごとにスタイル固有定型表現が格納されている。、以下表１に文書スタイル１に対するスタイル固有定型表現辞書に格納されているスタイル固有定型表現の例を示す。

次に、表２に文書スタイル２に対するスタイル固有定型表現辞書に格納されているスタイル固有定型表現の例を示す。

スタイル固有定型表現辞書に格納されるスタイル固有定型表現は、あらかじめ文書スタイルごとにクラス分けされた文書集合から自動抽出され、スタイル固有定型表現辞書として格納される。
抽出方法としては、まず文書集合から任意長の文字列のうち多頻度の文字列を候補文字列として抽出する。任意長の文字列の頻度統計を効率よく計算する方法は“自然言語処理”（長尾真他編集、岩波書店）に詳しく述べてある。そして各候補文字列に対してその前に隣接する文字集合W_f＝｛ｗ_f1，ｗ_f2，…，ｗ_fn｝から候補文字列の前側のエントロピーE_fと後に隣接する文字集合W_r＝｛ｗ_r1，ｗ_r2，…，ｗ_rm｝から候補文字列の後側のエントロピーE_rを計算する。

ここでSは候補文字列、f(S)はSの出現回数、f(w_fiS)はSの前にw_fiが隣接した文字列w_fi Sの出現回数、f(Sw_ri)はSの後にw_riが隣接した文字列Sw_riの出現回数である。数式（１）のエントロピーは文字列Sが様々な文字と前で隣接し、生起確率が均等である場合、すなわち文字列Sの前に表現のまとまりとしての区切りがある場合に大きな値をとり、逆に隣接する文字の種類が少なく、共起確率に偏りがある場合すなわち文字列Sは隣接文字を含むより大きな表現のまとまりの一部である場合に小さな値をとる。同様に数式（２）のエントロピーは文字列Sの後に表現のまとまりとして区切りがある場合に大きな値を、より大きな表現のまとまりの一部である場合に小さな値をとる。
そして前後のエントロピーがともに適当な閾値より大きい候補文字列のみをスタイル固有定型表現として抽出する。
表３に文書スタイル１に属する文書集合から得られる候補文字列とそのエントロピーの例を、表４に文書スタイル２に属する文書集合から得られる候補文字列とそのエントロピーの例を示す。

定型表現リスト生成部では、文書スタイルごとに各文に対して定型表現リストを生成する。例えば入力文書がＮ個の文で構成され、分類すべき文書スタイルがM個ある場合、定型表現リスト生成部からはＮ×Ｍ個の定型表現リストが生成される。生成される各定型表現リストは文書スタイルごとにスタイル固有定型表現辞書に格納されているスタイル固有定型表現の中で各文中に出現したスタイル固有表現を列挙したリストである。本願明細書では、「なんでライセンスにこだわるのかな？ジョイックス。」を入力例文１として説明する。入力例文１を入力文とした際の文書スタイル１および文書スタイル２に対する定型表現リストを表５に示す。

図３は文書分類部１０３を表したブロック図であって、定型表現情報抽出部１０２で生成された定型表現リストに対して、各文書スタイルへの確信度（文書スタイル確信度）を決定木（文書スタイル決定木）を用いて計算する文書スタイル確信度計算部３０２、文書スタイル確信度から各文書スタイルに対する尤度（文書スタイル尤度）を計算する文書スタイル尤度計算部３０３と文書スタイル尤度から入力文書に対する文書スタイルを決定する文書スタイル決定部３０４から構成される。
文書スタイル確信度計算部で参照される文書スタイル決定木集合には文書スタイルごとに文書スタイル決定木が格納されてあり、文書スタイル決定木は文書スタイルごとに抽出されたスタイル固有定型表現を特徴として持ち、文書スタイルの分類とその時の確信度を求める決定木である。文書スタイル決定木によって分類される文書スタイルのクラスは２つで、例えば文書スタイル１に対する文書スタイル決定木の場合、文書スタイル１とその他である。また、文書スタイル決定木は文書スタイルごとにクラス分けされた文書集合から学習される。

決定木アルゴリズムは特徴ベクトルとクラスから成るデータ集合から、情報理論的基準に基づいてクラス分別規則を木の形で生成する。決定木の構成は特徴に応じて、データ集合を再帰的に分割することで行われる。詳しくはJ.Ross. Quinlan, “C4.5：Programing for machine learning” Morgan Kaufman Pubiliser (1993)
などに述べてある。同様な手法を用いて例えば文書スタイル１に対する文書スタイル決定木は文書スタイル１のスタイル固有定型表現を特徴とする特徴ベクトルとその属するクラス（文書スタイル１／その他）で表現されるデータ集合を与えることによって、文書スタイル１に対する文書スタイル決定木が構成される。

図４に文書スタイル１に対するスタイル固有定型表現（表１）を特徴として文書スタイル１かそれ以外の文書スタイルかを分類する文書スタイル決定木を示し、図５に文書スタイル２に対するスタイル固有定型表現（表２）を特徴として文書スタイル２かそれ以外の文書スタイルかを分類する文書スタイル決定木を示す。各節点の下に付けられた定型表現は各節点に割り振られたデータを分類する際に用いる特徴を表わし、各枝に付けられたＹＥＳ・ＮＯはデータの分類に応じた特徴の値を表し、節点・葉の部分の上の段に示された値はその節点・葉に割り振られたデータが属するクラスを示している。また節点・葉の部分の下の段には、各節点・葉に割り振られたデータのクラス頻度分布を利用して計算した、データがその節点・葉において上の段に示されたクラスに属する確率（確信度）を示してある。ここで、各ブロックから下方に分岐の枝が出ていない場合にそのブロックを「葉」と呼び、各ブロックから分岐の枝が下方に出ている場合にそのブロックを「節点」と呼ぶ。

これらの文書スタイル決定木を用いて入力文が属する文書スタイルとその時の確信度を求めることができる。入力例文１「なんでライセンスにこだわるのかな？ジョイックス。」に対して、各文書スタイル決定木から得られる文書スタイルと確信度の結果を表６に示す。

図４の文書スタイル１に対する文書スタイル決定木からは、入力例文１は文書スタイル１に対するスタイル固有定型表現をどれも含んでいないので、特徴の値が “ＮＯ”の枝を辿っていき（図４：（４−ａ）→（４−ｂ）→（４−ｃ）→（４−ｄ）→（４−ｅ）→（４−ｆ））、最終的に辿り着いた葉（図４：（４−ｆ））から、属するクラスは文書スタイル１、確信度は０．５３３が得られる。また図５の文書スタイル２に対する文書スタイル決定木からは、入力例文１は文書スタイル２に対するスタイル固有定型表現の｛“なんで”、“んで”、“かな”｝を含んでいるので、“なんで”に対する値が“ＹＥＳ”の枝を辿り（図５：（５−ａ）→（５−ｂ））、辿り着いた葉（図５：（５−ｂ））から、属するクラスは文書スタイル２、確信度は１．００を求めることができる。

文書スタイル決定木からは、例えば図４の文書スタイル1に対する文書スタイル決定木の場合、文書スタイル1かその他の文書スタイルかに分類を行い、分類された文書スタイルに対する確信度を与えるため、その他の文書スタイルに分類された場合には文書スタイル1に対する確信度が得られない。そのため、その他の文書スタイルに分類された場合、その他の文書スタイルに対する確信度Cを用いて文書スタイル1に対する確信度C’を計算し、文書スタイル1に対する確信度として用いる。

表６に、入力例文１に対する確信度の例を挙げる。入力例文１に対し、文書スタイル１に対する確信度を図４の文書スタイル決定木を用いて、また、文書スタイル２に対する確信度を図５の文書スタイル決定木を用いて算出したものである。入力例文１は文書スタイル２に属する文書中の文であり、表６の結果においても、文書スタイル２に対する確信度が文書スタイル１に対する確信度より高くなっている。しかし一般に、１つの決定木のみによる分類性能は高いとはいえず、機械学習の分野では決定木のような分類器を複数組み合わせることによって分類性能を向上させる方法が知られている。

詳しくは ”A decision-theoretic generalization of on-line learning and an application to boosting.” ( Yoav Freund and Robert Schapire, Journal of Computer and System Sciences, 55(1):119-139, 1997)などに述べてある。同様の手法は本発明においても適用可能であり、各文書スタイルに対して複数の文書スタイル決定木を用意することによって文書スタイルの分類性能の向上が期待できる。具体的には同じ文書スタイルに対するスタイル固有定型表現を複数のクラスターにグループ分けし、グループごとにそのグループに属するスタイル固有定型表現を特徴として文書スタイル決定木を学習することによって各文書スタイルに対して複数の文書スタイル決定木を用意する。グループ分けの方法は、同じ文書スタイルの文書集合から抽出されるスタイル固有定型表現でも、あるスタイル固有定型表現と同じ文書内で出現しやすいスタイル固有定型表現と出現しにくいスタイル固有定型表現が存在するので、同じ文書内で出現しやすいスタイル固有定型表現同士でクラスタリングすることによってグループ分けする。図６に文書スタイル２のスタイル固有定型表現を同一文書で出現しやすいスタイル固有定型表現同士でグループ分けしたクラスターの例を示す。

図５に示した決定木は図６のクラスター１に属するスタイル固有定型表現を特徴として学習した文書スタイル決定木である。そして、グループ分けされたクラスターに属するスタイル固有定型表現を特徴として文書スタイル決定木を構成することによって、各文書スタイルに対して複数の文書スタイル決定木を用意できる。図７に図６のクラスター２に属するスタイル固有定型表現を特徴として、その定型表現を含む文書スタイル２およびそれ以外の文書スタイルの文書を学習データとして文書スタイル２かそれ以外の文書スタイルかを決定するように学習した決定木を示す。

以下に文書分類部についてフローチャートを用いて説明する。図８に文書分類部のフローチャートを示す。
４００：文書Ｄの入力
４０１：M×N個の定型表現リストV_ijの抽出
４０２：初期設定
４０３：ｉのＭ回繰り返し
４０４：ｊのＮ回繰り返し
４０５：定型表現リストV_ijから文書スタイル決定木を用いた確信度ベクトルC_ijの計算
４０６：文書スタイルiに対するj番目の文のスタイル尤度L_ijの計算
４０７：変数ｊの変更
４０８：文書スタイルiに対する入力文書の文書スタイル尤度SL_iの計算
４０９：変数ｉの変更
４１０：最大の文書スタイル尤度を持つ文書スタイルを入力文書の文書スタイルとして決定
４１１：終了

ここで入力文書DはN文で構成され、分類すべき文書スタイルの個数をＭとする。文書分類部では、まず入力文書Dから定型表現情報抽出部で求まったＭ×Ｎ個の定型表現リストＶを受け取る（４０１）。そしてステップ４０５で文書スタイルiに対するｊ番目の文の定型表現リストＶ_ijから文書スタイル決定木集合に格納されている文書スタイルiに対する文書スタイル決定木を用いて、確信度ベクトルC_ij＝（C_ij1，C_ij2，…，C_ijk，…，C_ijｌ）を求める。ここでC_ijkは、文書スタイルiに対するｊ番目の文の定型表現リストから、ｋ番目の文書スタイル決定木を用いて求めたスタイルiに対する確信度であり、ｌは文書スタイル決定木集合に格納されている文書スタイルiに対する文書スタイル決定木の数である。実施例では、文書スタイル２をクラスター１及びクラスター２に分け、それぞれについて、決定木を求めているので、ｌ＝２である。続いてステップ４０６で確信度ベクトルC_ijから文書スタイルiに対するj番目の文のスタイル尤度L_ijを計算する。

ここで、α_ikは文書スタイルiに対するｋ番目の文書スタイル決定木の信頼度を表す重み係数であり、０≦α_ik≦１、Σα_ik＝１を満たす値を与える。ここでα_ikの値は、好適にはスタイル尤度L_ijのトレーニング文書に対する正解率を最大とする値を求める。このステップ４０５〜４０６までの処理を入力文書Dの各文の文書スタイルiに対する定型表現リストV_ij（１≦ｊ≦N）に対して繰り返す。こうして求まったN個のスタイル尤度から、ステップ４０８では文書スタイルiに対する入力文書の文書スタイル尤度SL_iを求める。

ここで、L_ijは文書スタイルiに対するj番目の文のスタイル尤度であり、β_jは各文に対する重み係数で０≦β_j≦１、Σβ_j＝１を満たす値を与える。ここでβ_jの値は、好適には文書スタイル尤度SL_iのトレーニング文書に対する正解率を最大とする値を求める。このステップ４０５〜４０８までの処理を各文書スタイルi（１≦ｉ≦Ｍ）に対して繰り返す。そして求まったM個の文書スタイル尤度SLから、最大の文書スタイル尤度を持つ文書スタイルを入力文書に対する文書スタイルに決定する（４１０）。

様々な形式で記述された文書から必要な情報を抽出する場合、先ずこれらの文書を本願発明に従がって文書スタイルに分類する。次にこの分類された文書スタイルに適合した文書処理技術を用いて、文書から必要な情報を抽出する事が出来る。

文書分類装置の概略図を示す図である。定型表現情報抽出部の概略図を示す図である。文書分類部の概略図を示す図である。文書スタイル１かそれ以外かを決定する文書スタイル決定木の例を示す図である。文書スタイル２かそれ以外かを決定する文書スタイル決定木の例を示す図である。スタイル固有定型表現をクラスター１及びクラスター２に分ける例を示す図である。文書スタイル２をサブクラスターに分けた場合において、文書スタイル２かそれ以外かを決定する文書スタイル決定木の例を示す図である。本発明の好適実施例を示す文書分類アルゴリズムのフローチャートである。本発明を実施する装置を示す図である。

符号の説明

１０１、２０１：入力文書
１０２：定型表現情報抽出部
１０３：文書分類部
１０４、３０５：分類された文書スタイル
１０５：スタイル固有定型表現辞書
１０６：文書スタイル決定木集合
２０２：字面解析処理部
２０３：定型表現リスト生成部
２０４、３０１：定型表現リスト
３０２：文書スタイル確信度計算部
３０３：文書スタイル尤度計算部
３０４：文書スタイル決定部
５００：筐体
５１０：記憶部
５２０：中央制御部（ＣＰＵ）
５３０：表示部
５４０：操作部

Claims

以下の（ａ）から（ｄ）の手段を有する、入力文書を文書スタイルに従って分類する文書分類装置、
（ａ）文書スタイルを特徴付けるスタイル固有定型表現を生成する手段、
（ｂ）前記スタイル固有定型表現と照合し、前記入力文書から定型表現リストを抽出する手段、
（ｃ）前記定型表現リストをもとに、前記入力文書の前記文書スタイルに対する確信度を算出する手段、
（ｄ）前記確信度をもとに、前記入力文書が属する文書スタイルを決定する手段。
以下の（ａ）から（ｅ）の手段を有する、入力文書を文書スタイルに従って分類する文書分類装置、
（ａ）文書スタイルを特徴付けるスタイル固有定型表現を生成する手段、
（ｂ）属する文書スタイルが既知である文書集合を用いて、前記スタイル固有定型表現を特徴とする文書スタイル決定木を求める手段、
（ｃ）前記スタイル固有定型表現と照合し、前記入力文書から定型表現リストを抽出する手段、
（ｄ）前記文書スタイル決定木を用いて、前記定型表現リストをもとに、前記入力文書の前記文書スタイルに対する確信度を算出する手段、
（ｅ）前記確信度をもとに、前記入力文書が属する文書スタイルを決定する手段。
文書スタイルを特徴付けるスタイル固有定型表現を生成する装置であって、属する文書スタイルが既知である文書集合を用いて、文書中に存在する任意の文字列を対象とし、前記文字列の前後に現れる文字集合の生起確率のエントロピーに基づいて生成するスタイル固有定型表現生成装置。
前記文書スタイルを特徴付けるスタイル固有定型表現を生成する手段が、属する文書スタイルが既知である文書集合を用いて、文書中に存在する任意の文字列を対象とし、前記文字列の前後に現れる文字集合の生起確率のエントロピーに基づいて生成する手段を含む請求項１に記載の文書分類装置。
前記文書スタイルを特徴付けるスタイル固有定型表現を生成する手段が、属する文書スタイルが既知である文書集合を用いて、文書中に存在する任意の文字列を対象とし、前記文字列の前後に現れる文字集合の生起確率のエントロピーに基づいて生成する手段を含むことを特徴とする請求項２に記載の文書分類装置。
前記スタイル固有定型表現を複数のグループに分け、グループ毎のスタイル固有定型表現を特徴として前記文書スタイル決定木を求める請求項２および５に記載の文書分類装置
以下の（ａ）から（ｆ）の手段を有する、複数の文からなる入力文書を文書スタイルに従って分類する文書分類装置、
（ａ）文書スタイルに対応するスタイル固有定型表現を生成する手段、
（ｂ）前記スタイル固有定型表現を複数のグループに分ける手段、
（ｃ）属する文書スタイルが既知である文書を用いて、前記複数のグループに分けられたスタイル固有定型表現から、複数の文書スタイル決定木を生成する手段、
（ｄ）前記スタイル固有定型表現を用いて、複数の入力文書に対応するそれぞれの定型表現リストを抽出する手段、
（ｅ）前記複数の文書スタイル決定木を用いて、前記それぞれの定型表現リストをもとに、前記複数の入力文書に対応する文書スタイル決定木毎の確信度を算出する手段、
（ｆ）前記確信度をもとに、前記入力文書が属する文書スタイルを決定する手段。
以下の（ａ）から（ｄ）のステップを有する、入力文書を文書スタイルに従って分類することを特徴とする文書分類方法、
（ａ）文書スタイルを特徴付けるスタイル固有定型表現を生成するステップ、
（ｂ）前記スタイル固有定型表現と照合し、前記入力文書から定型表現リストを抽出するステップ、
（ｃ）前記定型表現リストをもとに、前記入力文書の前記文書スタイルに対する確信度を算出するステップ、
（ｄ）前記確信度をもとに、前記入力文書が属する文書スタイルを決定するステップ。
以下の（ａ）から（ｅ）のステップを有する、入力文書を文書スタイルに従って分類することを特徴とする文書分類方法、
（ａ）文書スタイルを特徴付けるスタイル固有定型表現を生成するステップ、
（ｂ）属する文書スタイルが既知である文書集合を用いて、前記スタイル固有定型表現を特徴とする文書スタイル決定木を求めるステップ、
（ｃ）前記スタイル固有定型表現と照合し、前記入力文書から定型表現リストを抽出するステップ、
（ｄ）前記文書スタイル決定木を用いて、前記定型表現リストをもとに、前記入力文書の前記文書スタイルに対する確信度を算出するステップ、
（ｅ）前記確信度をもとに、前記入力文書が属する文書スタイルを決定するステップ。
コンピュータを制御して、以下の（ａ）から（ｄ）の手段を動作させ、入力文書を文書スタイルに従って分類することを特徴とする文書分類プログラム、
（ａ）文書スタイルを特徴付けるスタイル固有定型表現を生成する手段、
（ｂ）前記スタイル固有定型表現と照合し、前記入力文書から定型表現リストを抽出する手段、
（ｃ）前記定型表現リストをもとに、前記入力文書の前記文書スタイルに対する確信度を算出する手段、
（ｄ）前記確信度をもとに、前記入力文書が属する文書スタイルを決定する手段。
コンピュータを制御して、以下の（ａ）から（ｅ）の手段を動作させ、入力文書を文書スタイルに従って分類することを特徴とする文書分類プログラム、
（ａ）文書スタイルを特徴付けるスタイル固有定型表現を生成する手段、
（ｂ）属する文書スタイルが既知である文書集合を用いて、前記スタイル固有定型表現を特徴とする文書スタイル決定木を求める手段、
（ｃ）前記スタイル固有定型表現と照合し、前記入力文書から定型表現リストを抽出する手段、
（ｄ）前記文書スタイル決定木を用いて、前記定型表現リストをもとに、前記入力文書の前記文書スタイルに対する確信度を算出する手段、
（ｅ）前記確信度をもとに、前記入力文書が属する文書スタイルを決定する手段。