JP2006301959A

JP2006301959A - 文書処理装置、文書処理方法、文書処理プログラムおよびコンピュータに読み取り可能な記録媒体

Info

Publication number: JP2006301959A
Application number: JP2005122719A
Authority: JP
Inventors: Atsushi Nishido; 敦西土; Masashi Inoue; 正史井上; Masako Kitaura; 雅子北浦
Original assignee: JustSystems Corp
Current assignee: JustSystems Corp
Priority date: 2005-04-20
Filing date: 2005-04-20
Publication date: 2006-11-02

Abstract

【課題】大量の文書データから特異な意見を抽出すること。
【解決手段】文書処理装置は、複数の文書データのそれぞれについて特徴データを求める特徴化部２０２と、特徴化部２０２によって求められた特徴データに基づいて、複数の文書データを、それぞれが類似する文書データの集合である複数のクラスタにクラスタリングするクラスタリング部２０４と、クラスタリング部２０４によって得られた複数のクラスタのうち、所定の類似度に達しないクラスタを抽出する抽出部２０７と、を備える。
【選択図】図２

Description

この発明は、文書データをクラスタリングし、クラスタごとに文書データを分類する文書処理装置、文書処理方法、文書処理プログラムおよびコンピュータに読み取り可能な記録媒体に関する。

従来、類似性の高い文書を同一クラスタに集めるために、クラスタリングを実行していた。また、より適切にクラスタリングを実行するために、再帰的にクラスタリングを実行するものも存在していた。たとえば、文書データをクラスタリング対象に応じたクラスタ数に分類できる文書クラスタリングシステムを提供するにあたり、類似性の高いクラスタを安定クラスタとし、それ以外のクラスタに属した文書を安定クラスタになるまで、再帰的にクラスタリングを実行しているものがある（たとえば、特許文献１参照。）。

特開２００２−１８３１７１号公報

しかしながら、この方法は、類似性の高い文書を同一クラスタに集めることを目的としている。すなわち、複数の文書をクラスタごとに高い精度でクラスタリングすることを目的としている。このように、複数の文書を適切に分類することを意図しているものはあったが、文書を最終的にクラスタリングすることが前提となっており、クラスタリングされない、特異な意見を抽出することを目的としているものはなかった。

この発明は、上述した従来技術による問題点を解消するため、大量の文書データから特異な意見を抽出することができる文書処理装置、文書処理方法、文書処理プログラムおよびコンピュータに読み取り可能な記録媒体を提供することを目的とする。

上述した課題を解決し、目的を達成するため、請求項１の発明にかかる文書処理装置は、複数の文書データのそれぞれについて特徴データを求める特徴化手段と、前記特徴化手段によって求められた特徴データに基づいて、前記複数の文書データを、それぞれが類似する文書データの集合である複数のクラスタにクラスタリングするクラスタリング手段と、前記クラスタリング手段によって得られた複数のクラスタのうち、所定の類似度に達しないクラスタを抽出する抽出手段と、を備えることを特徴とする。

この請求項１の発明によれば、クラスタリングした結果、所定の類似度に達しないクラスタを抽出することができ、それにより、手作業で文書データを分類することなく、特異な文書データを含むクラスタを提示することができる。たとえば、アンケート調査などで、変わった意見を含む文書が含まれるクラスタを取り出すことができる。

また、請求項２の発明にかかる文書処理装置は、請求項１に記載の発明において、前記クラスタリング手段によって得られたクラスタの類似度を算出する類似度算出手段を備え、前記抽出手段は、前記類似度算出手段によって算出された類似度が、所定の類似度に達しないクラスタを抽出することを特徴とする。

この請求項２の発明によれば、所定の類似度に達しないクラスタを抽出することができるので、このクラスタに含まれる特異な意見を含む文書データを取り出すことができる。

また、請求項３の発明にかかる文書処理装置は、請求項１または２に記載の発明において、前記特徴データは、前記文書データに含まれる所定の単語の出現頻度であり、前記類似度は、前記出現頻度の傾向にしたがった類似の度合いであることを特徴とする。

請求項３の発明によれば、単語の出現頻度の傾向が異なる文書データを含むクラスタを抽出し、このクラスタに含まれる文書データを特異な意見を含むものであるとして提示することができる。

また、請求項４の発明にかかる文書処理装置は、請求項１または２に記載の発明において、前記特徴データは、前記文書データに含まれる所定の単語の出現頻度をもとに求められる統計的情報であり、前記類似度は、前記統計的情報の傾向にしたがった類似の度合いであることを特徴とする。

請求項４の発明によれば、単語の出現頻度が統計的に異なる傾向の文書データを含むクラスタを抽出することができる。それにより、より高い精度で傾向が異なる文書データを抽出し、抽出された文書データを特異な意見を含むものであるとして提示することができる。

また、請求項５の発明にかかる文書処理装置は、請求項１〜４のいずれか一つに記載の発明において、クラスタリングの実行条件を設定する設定手段を備え、前記クラスタリング手段は、前記設定手段によって設定された実行条件を満たす場合はクラスタリングを実行し、該実行条件を満たさない場合はクラスタリングを終了することを特徴とする。

請求項５の発明によれば、設定された実行条件を満たさない場合はクラスタリングを終了するので、たとえば必要なデータが得られた場合やクラスタリングを継続するのに適さない場合など、クラスタリングを終了するのが望ましい場合に早期にクラスタリングを終了することができ、早期に処理を終了することができる。

また、請求項６の発明にかかる文書処理装置は、請求項５に記載の発明において、前記実行条件は、得られたクラスタが所定の類似度に達していることであり、前記クラスタリング手段は、該クラスタが所定の類似度に達していない場合に、クラスタリングを終了することを特徴とする。

請求項６の発明によれば、クラスタが所定の類似度に達しない時点でクラスタリングを終了するので、不要なクラスタリング処理を待つことなく、所望の特異な意見を含む文書データを得ることができる。

また、請求項７の発明にかかる文書処理装置は、請求項１〜６のいずれか一つに記載の発明において、前記抽出手段は、前記クラスタリング手段によってクラスタリングされた複数の文書データのうち、該文書データがクラスタリングされたクラスタに対して所定の類似度に達しない文書データを抽出することを特徴とする。

この請求項７の発明によれば、クラスタリングした結果、クラスタに対して所定の類似度に達しない文書データを抽出することができ、それにより、手作業で文書データを分類することなく、特異な文書データを提示することができる。

請求項８の発明にかかる文書処理方法は、複数の文書データのそれぞれについて特徴データを求める特徴化工程と、前記特徴化工程によって求められた特徴データに基づいて、前記複数の文書データを、それぞれが類似する文書データの集合である複数のクラスタにクラスタリングするクラスタリング工程と、前記クラスタリング工程によって得られた複数のクラスタのうち、所定の類似度に達しないクラスタを抽出する抽出工程とを含むことを特徴とする。

この請求項８の発明によれば、クラスタリングした結果、所定の類似度に達しないクラスタを抽出することができ、それにより、手作業で文書データを分類することなく、特異な文書データを含むクラスタを提示することができる。たとえば、アンケート調査などで、変わった意見を含む文書が含まれるクラスタを取り出すことができる。

請求項９の発明にかかる文書処理プログラムによれば、請求項８に記載の文書処理方法をコンピュータに実行させることができる。

また、請求項１０の発明にかかるコンピュータに読み取り可能な記録媒体は、請求項９に記載の文書処理プログラムをコンピュータが読み出して実行することができる。

本発明にかかる文書処理装置、文書処理方法、文書処理プログラムおよびコンピュータに読み取り可能な記録媒体によれば、大量の文書データから特異な意見を抽出することができる。また、クラスタリングにより大量の文書データから特異な意見を抽出することができるので、所望の文書の抽出にあたり、すべての文書データに目を通す手間を省くことができるという効果を奏する。

以下に添付図面を参照して、この発明による文書処理装置、文書処理方法、文書処理プログラムおよびコンピュータに読み取り可能な記録媒体の実施の形態を詳細に説明する。図１は、この発明の実施の形態による文書処理装置のハードウエア構成の一例を示すブロック図である。図中、ＣＰＵ１０１は装置全体を制御する。ＲＯＭ１０２は基本入出力プログラムを記憶する。ＲＡＭ１０３はＣＰＵ１０１のワークエリアとして使用される。

また、ＨＤＤ（ハードディスクドライブ）１０４はＣＰＵ１０１の制御にしたがってＨＤ（ハードディスク）１０５に対するデータのリード／ライトを制御する。ＨＤ１０５はＨＤＤ１０４の制御にしたがって書き込まれたデータを記憶する。また、ＦＤＤ（フレキシブルディスクドライブ）１０６はＣＰＵ１０１の制御にしたがってＦＤ（フレキシブルディスク）１０７に対するデータのリード／ライトを制御する。ＦＤ１０７は、着脱自在であり、ＦＤＤ１０６の制御にしたがって書き込まれたデータを記憶する。また、ＣＤ−ＲＷドライブ１０８はＣＰＵ１０１の制御にしたがってＣＤ−ＲＷ（または、ＣＤ−Ｒ、ＣＤ−ＲＯＭ）１０９に対するデータのリード／ライトを制御する。ＣＤ−ＲＷ１０９は着脱自在であり、ＣＤ−ＲＷドライブ１０８の制御にしたがって書き込まれたデータを記憶する。

また、ディスプレイ１１０はカーソル、メニュー、ウィンドウ、あるいは文字や画像などの各種データを表示する。キーボード１１１は文字、数値、各種指示などの入力のための複数のキーを備える。マウス１１２は各種指示の選択や実行、処理対象の選択、マウスポインタの移動などを行う。また、ネットワークＩ／Ｆ１１３は、通信ケーブル１１４を介してＬＡＮやＷＡＮなどのネットワークに接続され、当該ネットワークとＣＰＵ１０１とのインターフェースとして機能する。バス１００は上記各部を接続する。

図２は、この発明の実施の形態にかかる文書処理装置の構成を機能的に示すブロック図である。文書処理装置は、文書データベース２０１、特徴化部２０２、辞書データ２０３、クラスタリング部２０４、条件入力部２０５、類似度算出部２０６、抽出部２０７によって構成され、この構成により特異クラスタ２０８および特異文書２０９が出力される。以上の各構成は、図１に示したＣＰＵ１０１が、ＲＯＭ１０２からプログラムを読み出しＲＡＭ１０３をワークエリアとして使用することにより実現される。

文書データベース２０１は、複数の文書データを記憶する。特徴化部２０２は、文書データベース２０１から文書データを読み出し、読み出した文書データについて特徴データを求める。特徴データは、文書データのクラスタリングに用いられる各文書データの特徴を示すデータである。たとえば、単語の出現頻度とすることができる。また、出現頻度を文書データの長さで除算して正規化した値や、出現頻度を文書データ内での出現頻度の総和で除算して正規化した値とすることができる。その他、出現頻度をもとに求められる様々な統計的情報を使用することもできる。

辞書データ２０３は、特徴化部２０２が文書データに含まれる単語の出現頻度を求める場合の、出現頻度を調べる単語を記憶する辞書である。特徴化部２０２は、辞書データ２０３から単語を読み出して、読み出した単語の出現頻度を文書データについて調べることにより、文書データの特徴データを求めることができる。

クラスタリング部２０４は、特徴化部２０２によって求められた特徴データを用いて、複数のクラスタにクラスタリングする。各文書データは、特徴データが示す傾向にしたがって分けられ、この複数のクラスタのいずれかに分類される。

条件入力部２０５は、クラスタリング部２０４によって実行されるクラスタリングの条件を入力する。クラスタリングの条件には、（１）クラスタ内の文書データの類似性を判定する類似度の閾値、（２）クラスタ内の文書データの類似性を判定する類似度が低いものから、再帰クラスタリングの対象とする場合のクラスタ数、（３）代表タームの有無、が挙げられる。クラスタリングの条件には、再帰クラスタリング実行条件およびクラスタリング終了条件のバリエーションが含まれる。

（１）クラスタ内の文書データの類似性を判定する類似度の閾値について説明する。再帰クラスタリング実行条件として、たとえば、類似度が０．９未満のクラスタを対象とすることができる。また、クラスタリング終了条件として、たとえば、類似度が０．８未満のクラスタが得られるか類似度が計測できなくなった場合とすることができる。

（２）クラスタ内の文書データの類似性を判定する類似度が低いものから、再帰クラスタリングの対象とする場合のクラスタ数について説明する。再帰クラスタリング実行条件として、たとえば、類似度が最も低いクラスタと２番目に低いクラスタを対象とすることができる。また、クラスタリング終了条件として、たとえば、各クラスタ内の文書データ数平均が３以下になった場合とすることができる。

（３）代表タームの有無について説明する。再帰クラスタリング実行条件として、たとえば、各クラスタの代表タームを含まない文書データすべてを対象とすることができる。また、終了条件として、たとえば、代表ターム１０位まで含めても代表タームが表れない文書データが３０％以上占めるクラスタができた場合とすることができる。

類似度算出部２０６は、クラスタリング部２０４でクラスタリングされた各クラスタにおいて、該当する文書データのそのクラスタに対する類似度を算出する。それにより、各クラスタの類似度を求めることができる。または、クラスタにおける文書データ自体の類似度を求めることもできる。抽出部２０７は、特異クラスタ２０８を抽出する。特異クラスタ２０８は、クラスタリングによって得られたクラスタのうち、類似度算出部２０６によって算出された類似度が所定の値より小さいクラスタである。文書データの類似度を求める場合、クラスタリングされた文書データのうち、類似度算出部２０６で算出された類似度が所定の値よりも小さい文書データを、特異文書２０９として抽出する。

従来のクラスタリングは、類似性の高いものをまとめ上げるものであるが、類似性の高いものをまとめるということは、逆に類似性の低いものも発生するということである。そこで、この実施の形態では、クラスタリングを再帰的に実行して特異な意見を抽出する。他の文書との類似性を元にクラスタを作成し、類似性の低いクラスタだけを再帰的にクラスタリングすることにより、どの文書とも類似しない特異な意見を含む文書を提示することができる。

図３は、文書と特徴データの関係を説明する説明図である。文書データ３０１〜３０５は、文書データベース２０１に記憶されている。まず、特徴化部２０２は、文書データベース２０１から文書データ３０１〜３０５を読み出し、読み出した文書データ３０１〜３０５から特徴データを求める。

ここで、特徴データとして単語の出現頻度を例にあげて説明する。図３に示すように、単語１〜５の出現頻度を文書データ３０１〜３０５のそれぞれについて検索する。ここでは５種類の単語の頻度を特徴データとするが、出現頻度を検索する単語の数は６以上としてもよい。また、文書データ中に検索する単語が１つもない場合は、その単語の出現頻度は０となる。

図３に示すように、文書データ３０１には、単語１が１３、単語２が１、単語３が４、単語４が５、単語５が２、含まれる。文書データ３０２には、単語１が１２、単語２が２、単語３が６、単語４が４、単語５が１、含まれる。文書データ３０３には、単語１が１４、単語２が４、単語３が５、単語４が４、単語５が４、含まれる。文書データ３０４には、単語１が６、単語２が３、単語３が１５、単語４が６、単語５が１、含まれる。文書データ３０５には、単語１が３、単語２が２、単語３が５、単語４が１、単語５が１５、含まれる。

なお、特徴データは、出現頻度だけではなく出現頻度を文書データの長さで除算して正規化した値や、出現頻度を文書データ内での出現頻度の総和で除算して正規化した値とすることができる。その他、出現頻度をもとに求められる様々な統計的情報を使用することもできる。このように与えられた特徴データに基づいてクラスタリングを実行する。

クラスタリングについて説明する。クラスタリングは、似ている文書データ同士は同じ振る舞いをするという前提のもとに、似ているデータは同じクラスタに、似ていないデータは別なクラスタにとデータを分類する分析である。クラスタは、そのクラスタ内のほかのデータとは似ているが、違うクラスタ内のデータとは似ていないようなデータの集合である。このようにクラスタリングを実行した結果、文書データ３０１〜３０５を分類することができる。

図４は、文書データをクラスタリングした場合を説明する説明図である。文書データ３０１〜３０５は、クラスタ４０１または４０２に分類される。たとえば、文書データ３０１、文書データ３０２および文書データ３０３が含まれるクラスタ４０１、文書データ３０４および文書データ３０５が含まれるクラスタ４０２に分けることができる。ここで、クラスタ４０１は類似度の高いクラスタであり、クラスタ４０２は類似度の低いクラスタである。この類似度の低いクラスタ４０２が、特異な意見を含んでいるクラスタとして提示される。

以上のクラスタリングを実行するにあたっては、ｋ−ｍｅａｎｓ法が用いられる。ｋ−ｍｅａｎｓ法では、与えられたｋ個のクラスタにデータが分割される。ここで、クラスタの中心値をそのクラスタを代表する値とする。クラスタの中心値との距離を計算することで、データがどのクラスタに属するかを判断する。そして、各データを最も近いクラスタにデータを配分する。

そして、全ての文書データをクラスタに配分し終わったあと、クラスタの中心値を更新する。クラスタの中心値は全ての点の平均値である。上記の操作を、全てのデータとデータが属するクラスタの中心値との距離の合計が最小になるまで（更新されなくなるまで）繰り返す。

ｋ−ｍｅａｎｓ法のアルゴリズムを簡単に述べると次のようになっている。
１Ｋ個の初期クラスタ中心を決める
２すべてのデータを最も近いクラスタ中心のクラスタに分類する
３新たにできたクラスタの重心をクラスタ中心とする
４新たなクラスタ中心がすべて以前と同じであれば終了し、そうでなければ２に戻る
このように、徐々に局所最適解に収束していくアルゴリズムである。

図５は、文書データをクラスタリングした場合のクラスタと類似度を説明する説明図である。図４で説明したように、文書データ３０１〜３０５について単語１〜５の出現頻度が求められたので、この出現頻度を特徴データとして用いてクラスタリングを実行する。その結果、文書データ３０１〜３０３はクラスタ４０１に、文書データ３０４と３０５はクラスタ４０２に分類される。

ここで、クラスタ４０１においては、文書データ３０１〜３０３の単語の出現頻度の観点から見た類似度は高い値となり、たとえば類似度９３％となる。一方クラスタ４０２においては、文書データ３０４と３０５の単語の出現頻度の観点から見た類似度は低く、たとえば類似度５５％となる。ここで、類似度の低いクラスタであるクラスタ４０２が抽出される。なお、ここでは説明のためにクラスタ４０１およびクラスタ４０２に分けられる場合について説明したが、３つ以上の多くのクラスタに分けられることが考えられる。そして、この複数のクラスタのうち、類似度が低いクラスタが抽出される。また、類似度は文書データごとに求め、類似度の低い文書データを抽出することもできる。

図６は、この実施の形態の処理を説明するフローチャートである。まず、クラスタリング実行の条件を設定する（ステップＳ６０１）。すなわち、再帰クラスタリングを実行したり、クラスタリングを終了したりする場合の条件を設定する。この条件は、ユーザからの入力に基づいて設定される。

再帰クラスタリングの実行条件として、（１）クラスタ内の文書データの類似性を判定する類似度の閾値、（２）クラスタ内の文書データの類似性を判定する類似度が低いものから、再帰クラスタリングの対象とするクラスタ数、（３）代表タームの有無、を設定することができる。

クラスタリングの終了条件として、類似度の閾値を設定することができる。なお、クラスタリングの終了条件は、再帰クラスタリングの実行条件より優先される。たとえば、再帰クラスタリングの実行条件として、クラスタ内の文書データの類似性を判定する類似度が０．９未満のクラスタを対象とする、という条件を設定することができる。また、クラスタリングの終了条件として、類似度が０．８未満のクラスタが得られるか、類似度が計測できない場合にクラスタリングを終了する、という条件を設定することができる。

次に、文書データ３０１〜３０５について特徴データを求める（ステップＳ６０２）。特徴データとしては、図３で説明した単語１〜５の出現頻度を用いることができる。出現頻度を用いる場合、辞書データ２０３に記憶される単語１〜５のそれぞれについて文書データ３０１〜３０５について出現頻度を求め、この値を特徴データとする。

次に、クラスタリングを実行する（ステップＳ６０３）。文書データ３０１〜３０５について特徴データが求められているので、この特徴データによって示される傾向を求めることにより、文書データ３０１〜３０５をクラスタ４０１、４０２に分類する。

次に、クラスタリング結果について、ステップＳ６０１で設定したクラスタリングの終了条件を満たしているか否かを判定する（ステップＳ６０４）。終了条件を満たしていない場合（ステップＳ６０４：Ｎｏ）、ステップＳ６０５に進む。終了条件を満たしている場合（ステップＳ６０４：Ｙｅｓ）、ステップＳ６０６に進む。

次に、クラスタリング結果について、ステップＳ６０１で設定した再帰クラスタリングの実行条件を満たしているか否かを判定する（ステップＳ６０５）。実行条件を満たしている場合（ステップＳ６０５：Ｙｅｓ）、ステップＳ６０３に戻り、該当クラスタ内の文書データについて、クラスタリングする。実行条件を満たしていない場合（ステップＳ６０５：Ｎｏ）、終了条件に最も近いクラスタの情報に基づいてステップＳ６０６を実行する。

ステップＳ６０４の条件を満たしている特異文書と対応クラスタを、「特異な意見を含んでいる可能性が高いもの」として提示する（ステップＳ６０６）。ステップＳ６０５の条件を満たさなかったものについては、終了条件に最も近いクラスタとそのクラスタ内文書データを「特異な意見を含んでいる可能性があるもの」として提示する。たとえば、クラスタ内文書データから特異な意見を含んでいるものが確認された場合、今までにはなかったような視点でのサービスの要望を発見することができる。

特異な意見を含む文書を抽出する他の基準について説明する。まず、語彙空間が異なる意見を抽出することにより、特異な意見を抽出することもできる。たとえば、類義語辞書を用いて、各タームに分野を割り振ることもできる。その結果、今までにない分野の組み合わせが見られる意見が抽出されるので、特異な意見を抽出することができる。

また、たとえば、出現頻度の非常に低い係り受けがある文書データや、出現頻度の非常に低い同一文書データ内に存在するタームの組み合わせを持つ文書データを抽出することができる。その結果、他と語彙空間が異なる文書データが抽出され、特異な意見を抽出することができる。

また、一般的な意見を外部に登録しておき、該当なしの意見を抽出することもできる。一般的な意見を共通性の高い意見とするのなら、クラスタリングでも似た結果が得られるはずであり、その結果、該当なしの意見から特異な意見を抽出することができる。また、未登録語は新しい概念である可能性があるので、未登録語を含む文書の場合に、特異な意見であるとして抽出することができる。

また、冗長な説明を含む場合に、一語では表し得ない概念を説明している可能性がある。冗長な説明の例として、「〜するときに…みたいに○○するもの」などの表現が挙げられる。また、冗長な説明には、「みたい」「ようだ」「っぽい」などの例示の表現を伴うことが多く、この場合に特異な意見を含むものとして抽出することができる。

以上説明したように、文書処理装置、文書処理方法、文書処理プログラムおよびコンピュータに読み取り可能な記録媒体によれば、大量の文書データから特異な意見を抽出することができる。クラスタリングにより大量の文書データから特異な意見を抽出することができるので、所望の文書の抽出にあたり、すべての文書データに目を通す手間を省くことができる。

なお、本実施の形態で説明した文書処理方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク、フレキシブルディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネット等のネットワークを介して配布することが可能な伝送媒体であってもよい。

以上のように、本発明にかかる文書処理装置、文書処理方法、文書処理プログラムおよびコンピュータに読み取り可能な記録媒体は、大量の文書データから特異な意見を抽出するにあたって有用である。

この発明の実施の形態による文書処理装置のハードウエア構成の一例を示すブロック図である。この発明の実施の形態にかかる文書処理装置の構成を機能的に示すブロック図である。文書と特徴データの関係を説明する説明図である。文書データをクラスタリングした場合を説明する説明図である。文書データをクラスタリングした場合のクラスタと類似度を説明する説明図である。この実施の形態の処理を説明するフローチャートである。

符号の説明

１０１ＣＰＵ
１０２ＲＯＭ
１０３ＲＡＭ
２０１文書データベース
２０２特徴化部
２０３辞書データ
２０４クラスタリング部
２０５条件入力部
２０６類似度算出部
２０７抽出部

Claims

複数の文書データのそれぞれについて特徴データを求める特徴化手段と、
前記特徴化手段によって求められた特徴データに基づいて、前記複数の文書データを、それぞれが類似する文書データの集合である複数のクラスタにクラスタリングするクラスタリング手段と、
前記クラスタリング手段によって得られた複数のクラスタのうち、所定の類似度に達しないクラスタを抽出する抽出手段と、
を備えることを特徴とする文書処理装置。
前記クラスタリング手段によって得られたクラスタの類似度を算出する類似度算出手段を備え、
前記抽出手段は、前記類似度算出手段によって算出された類似度が、所定の類似度に達しないクラスタを抽出することを特徴とする請求項１に記載の文書処理装置。
前記特徴データは、前記文書データに含まれる所定の単語の出現頻度であり、前記類似度は、前記出現頻度の傾向にしたがった類似の度合いであることを特徴とする請求項１または２に記載の文書処理装置。
前記特徴データは、前記文書データに含まれる所定の単語の出現頻度をもとに求められる統計的情報であり、前記類似度は、前記統計的情報の傾向にしたがった類似の度合いであることを特徴とする請求項１または２に記載の文書処理装置。
クラスタリングの実行条件を設定する設定手段を備え、
前記クラスタリング手段は、前記設定手段によって設定された実行条件を満たす場合はクラスタリングを実行し、該実行条件を満たさない場合はクラスタリングを終了することを特徴とする請求項１〜４のいずれか一つに記載の文書処理装置。
前記実行条件は、得られたクラスタが所定の類似度に達していることであり、
前記クラスタリング手段は、該クラスタが所定の類似度に達していない場合に、クラスタリングを終了することを特徴とする請求項５に記載の文書処理装置。
前記抽出手段は、前記クラスタリング手段によってクラスタリングされた複数の文書データのうち、該文書データがクラスタリングされたクラスタに対して所定の類似度に達しない文書データを抽出することを特徴とする請求項１〜６のいずれか一つに記載の文書処理装置。
複数の文書データのそれぞれについて特徴データを求める特徴化工程と、
前記特徴化工程によって求められた特徴データに基づいて、前記複数の文書データを、それぞれが類似する文書データの集合である複数のクラスタにクラスタリングするクラスタリング工程と、
前記クラスタリング工程によって得られた複数のクラスタのうち、所定の類似度に達しないクラスタを抽出する抽出工程と、
を含むことを特徴とする文書処理方法。
請求項８に記載の文書処理方法をコンピュータに実行させることを特徴とする文書処理プログラム。
請求項９に記載の文書処理プログラムを記録したことを特徴とするコンピュータに読み取り可能な記録媒体。