JP4407272B2

JP4407272B2 - 文書分類方法、文書分類装置及び文書分類プログラム

Info

Publication number: JP4407272B2
Application number: JP2003424905A
Authority: JP
Inventors: 賢一沼田; 稔池田
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2003-12-22
Filing date: 2003-12-22
Publication date: 2010-02-03
Anticipated expiration: 2023-12-22
Also published as: JP2005182611A

Description

本発明は、文書群をその内容に基づいて分類する装置及び方法、特にユーザが所望する体系で文書群を自動的に分類する装置及び方法の改良に関する。

コンピュータ上において電子化された文書データファイル（以下、単に「文書」）群を、文書管理者や文書保持者等のユーザが所望する体系に分類したい場合、従来においては、ユーザが所望するグループの分類体系を事前に形成しておき、文書群を構成する各文書をその内容に基づいていずれかのグループに振り分けていた（例えば特許文献１，２参照）。

しかしながら、振り分けようとしている文書の内容が既存グループのいずれともカテゴリが一致していないような場合でも、前述した方法では、新しいグループを自動生成することができないために、文書をいずれかの既存のグループに振り分けなければならなかった。

そこで、新たなグループを生成しながら文書を分類できる方法として、例えば次のような方法がある。すなわち、全ての文書に対して類似度等の分析を行い、その分析結果に基づき内容の近いもの同士を集めてクラスタリングする方法である（例えば特許文献３，４参照）。この分類方法を用いれば、類似したカテゴリに属する文書によってグループを形成することができるようになる。

特開平６−３４８７５５号公報特開２００２−１１７０４６号公報特開平２−１５８８７１号公報特開平１０−１１６２９０号公報

しかしながら、全ての文書に対して分析を行いクラスタリングする方法は、分類済みの文書に対しても再度分析を行い、分類体系をその都度形成し直されることになる。更に、この方法によれば、全ての文書に含まれるキーワードの出現頻度等に基づき文書間の距離や類似度を計算し、その距離の長短若しくは類似度の高低に基づき文書群をグループ分けすることになる。このため、この計算により求められる数値が、必ずしもユーザが所望するグループ分類を示す指標値となる保証はない。

すなわち、ユーザが所望するグループの分類体系を事前に形成しておくようにしてもカテゴリの異なる文書を振り分ける際に新たなグループを生成することができず、一方、新たなグループを生成できるようにすると形成された分類体系が、ユーザが所望する結果とならない場合が起こりうる。このように、いずれの方法においてもユーザが所望するグループに分類できるとは限らない。

本発明は、以上のような課題を解決するためになされたものであり、その目的は、文書群をユーザが所望するグループに分類することのできる改良された文書分類方法及びその装置を提供することにある。

以上のような目的を達成するために、本発明に係るプログラムは、複数の文書をユーザが所望するグループに分類する文書分類装置として、コンピュータシステムを機能させるためのプログラムであって、当該コンピュータを、記憶手段に記憶された分類体系に基づいて新たに分類する文書群を、その文書群に含まれる各文書の特徴量に基づいてクラスタ分けすると共に、各クラスタの特徴量を当該クラスタに属する文書の特徴量に基づき算出するクラスタリング手段、前記分類体系を形成する各グループの特徴量と、前記クラスタリング手段により算出された各クラスタの特徴量とに基づき各グループと各クラスタとの類似度を求める類似度算出手段、前記類似度算出手段により求められた類似度と予め設定されている基準値との比較結果に基づいて、当該クラスタを既存のグループに振り分けるか、あるいは当該クラスタを分類する新たなグループを生成して前記分類体系に追加するかを決定する分類手段、として機能させることを特徴とする。

また、前記クラスタリング手段は、文書群に含まれる各文書の特徴量を表す要素として、前記分類体系を形成するグループの各名称と、文書群において出現頻度の多い所定数のキーワードとを用いることを特徴とする。

また、前記分類手段は、前記類似度と前記基準値とを比較した結果、前記類似度算出手段により求められた類似度が前記基準値に達していないクラスタに対しては、当該クラスタを分類するためのグループを新たに生成し、前記類似度算出手段により求められた類似度が前記基準値に達している場合には、当該クラスタを最も類似度の高いグループに振り分けることを特徴とする。

また、前記クラスタリング手段は、各クラスタに対して当該クラスタに属する文書において出現頻度の多いキーワードの一つを当該クラスタの名称として決定し、前記分類手段は、前記類似度と前記基準値とを比較した結果、前記類似度判定手段により求められた類似度が前記基準値に達していないクラスタに対しては、当該クラスタを分類するためのグループを新たに生成し、前記類似度判定手段により求められた類似度が前記基準値に達している場合において、最も類似度の高いグループのグループ名と当該クラスタ名とが一致したときには当該クラスタを当該グループに振り分け、一致していないときには当該クラスタを分類するためのグループを、当該グループのサブグループとして新たに生成することを特徴とする。

本発明に係る文書分類装置は、複数の文書をユーザが所望するグループに分類するための分類体系が記憶される分類体系記憶手段と、新たに分類する文書群を、その文書群に含まれる各文書の特徴量に基づいてクラスタ分けすると共に、各クラスタの特徴量を当該クラスタに属する文書の特徴量に基づき算出するクラスタリング手段と、前記分類体系を形成する各グループの特徴量と、前記クラスタリング手段により算出された各クラスタの特徴量とに基づき各グループと各クラスタとの類似度を求める類似度算出手段と、前記類似度算出手段により求められた類似度と予め設定されている基準値との比較結果に基づいて、当該クラスタを既存のグループに振り分けるか、あるいは当該クラスタを分類する新たなグループを生成して前記分類体系に追加するかを決定する分類手段とを有することを特徴とする。

本発明に係る文書分類方法は、複数の文書をユーザが所望するグループに分類する、文書分類装置が実行する文書分類方法において、記憶手段に記憶された分類体系に基づいて新たに分類する文書群を、クラスタリング手段によりその文書群に含まれる各文書の特徴量に基づいてクラスタ分けすると共に、各クラスタの特徴量を当該クラスタに属する文書の特徴量に基づき算出するクラスタリングステップと、前記分類体系を形成する各グループの特徴量と、前記クラスタリングステップにより算出された各クラスタの特徴量とに基づき類似度算出手段により各グループと各クラスタとの類似度を求める類似度算出ステップと、前記類似度算出ステップにより求められた類似度と予め設定されている基準値との比較結果に基づいて、当該クラスタを既存のグループに振り分けるか、あるいは当該クラスタを分類手段により分類する新たなグループを生成して前記分類体系に追加するかを決定する分類ステップとを有することを特徴とする。

本発明によれば、新たに分類したい文書群を各文書の特徴量に応じてグループ分けして形成したクラスタと、既存の分類体系を形成する各グループのとの類似度を求め、類似度と予め設定されている基準値との比較結果に基づいて、当該クラスタを既存のグループに振り分けるか、あるいは当該クラスタを分類する新たなグループを生成して分類体系に追加するかを決定するようにした。これにより、ユーザが所望するグループ分けが確保されている分類体系に対して、クラスタが既存のグループに類似していれば、そのグループに振り分けることでユーザが所望するグループ分類を維持することができる。クラスタが既存のグループに類似していなければ、そのクラスタを分類するためのグループを新たに作成するようにしたので、この場合もユーザが所望するグループ分類を維持することができる。

以下、図面に基づいて、本発明の好適な実施の形態について説明する。

図１は、本発明に係る文書分類装置の一実施の形態を示したブロック構成図である。本実施の形態における文書分類装置は、分類体系作成部２、分類体系記憶部４、文書群受付部６、クラスタリング部８、カテゴリ特徴量抽出部１０、類似度算出部１２及びグループ分類部１４を有している。分類体系作成部２は、文書管理者や文書保持者等のユーザが文書群を所望する体系に分類したい場合に、その分類体系をＧＵＩ（Graphical User Interface）機能等のユーザインタフェースを利用して事前に作成するための手段である。分類体系記憶部４には、分類体系作成部２によって作成された分類体系、またグループ分類部１４によって更新された分類体系が記憶される。文書群受付部６は、分類体系記憶部４に記憶された分類体系に従い新たに分類しようとする１乃至複数の文書を受け付ける。クラスタリング部８は、新たに分類する文書群を、その文書群に含まれる各文書の特徴量に基づいてクラスタ分けすると共に、各クラスタの特徴量を当該クラスタに属する文書の特徴量に基づき算出する。クラスタリング部８には、図１に示したように文書特徴量抽出部１６、クラスタ分類部１８及びクラスタ特徴量抽出部２０が含まれており、文書特徴量抽出部１６は各文書の特徴量を算出し、クラスタ分類部１８は文書群をクラスタ分けし、クラスタ特徴量抽出部２０は各クラスタの特徴量を算出する。カテゴリ特徴量抽出部１０は、既存の分類体系により分類分けされている各文書の特徴量に基づきグループ単位に特徴量を算出する。本実施の形態では、新たに分類される文書群に含まれ、かつ既存の分類体系に従ってまだグループ分けされていない文書のグループを上記のように「クラスタ」と称している。一方、既存の分類体系に従ってカテゴリ別にグループ分けされている文書のグループを「カテゴリ」と称している。類似度算出部１２は、各グループと各クラスタとの類似度を求める。グループ分類部１４は、類似度算出部１２により求められた類似度と予め設定されている基準値との比較結果に基づいて各クラスタを既存の分類体系に当てはめる。この分類体系に当てはめる際に、本実施の形態においては、各クラスタを上記比較結果に基づいて既存のグループに振り分けるか、あるいは当該クラスタを分類する新たなグループを生成して分類体系に追加するかを決定することを特徴としている。

なお、本実施の形態は、分類体系に従い文書を体系立てて管理するための装置及び方法を提供するものであり、文書自体の格納場所については特に言及しない。このため、図１にも特に示していない。本実施の形態における文書分類装置は、一般的なパーソナルコンピュータ等で以降説明する分類方法を実施することで実現される。上記各構成要素２，６〜１４が持つ処理機能は、プログラムによって実現でき、ＣＰＵが該当するプログラムを実行することによって所定の機能が発揮される。

次に、本実施の形態における文書群の分類処理について図２に示したフローチャートを用いて説明する。

図３には、分類体系の例が示されており、この分類体系に関する情報が分類体系記憶部４に記憶されている。分類体系作成部２は、ユーザ操作若しくは過去の分類処理の実行によって図３に例示した分類体系が現時点において形成されているものとする。図４は、今回新たに分類しようとする文書群を示した概念図である。各文書は、文書番号７０１，７０２，・・・によって識別され、製品仕様、記事等の文字データを含んでいる。なお、本実施の形態において取扱い可能な文書は、テキストデータ等に限定されるものではなく、処理の過程においてキーワードとなりうる文字を検索、抽出できればよい。

文書群受付部６は、図４に例示した文書群を受け付けると（ステップ１００）、図示しない記憶手段に保存する。クラスタリング部８は、保存された文書群を構成する文書を順次読み出して、文書特徴量抽出部１６により、その読み出した文書の特徴量を次のようにして得る（ステップ２００）。

文書特徴量抽出部１６は、まず図３に示した既存の分類体系若しくは分類された既存文書に出現するいくつかのキーワードを、特徴量を計算する要素（キーワードベクトル）として抽出する。本実施の形態では、各カテゴリ名をキーワードとして抽出している。そして、文書特徴量抽出部１６は、キーワード検索を行うことで各文書における各キーワードの出現頻度を得る。ここまでの処理結果を図５に示す。本実施の形態では、更に既存の分類体系から抽出したキーワードに、新たに分類しようとする文書群において出現頻度の多い所定数のキーワードを追加する。このキーワードを付加した状態で得られた特徴量を図６に示す。この例では、１４次元で表していた各文書の特徴量を、４個のキーワードを追加することによって１８次元で表すようにした。初期の段階等、キーワードが効果的に抽出できないような場合に、キーワードの数を増やすことで各文書の振分精度をより高くすることができる。この例では、文書群を構成する各文書からキーワード抽出を行った結果、上位４つのキーワードを「価格」、「プリンタ」、「市場」、「ＰＤＡ」が追加されている。

本実施の形態では、以上のようにして特徴量を計算するキーワード（要素）を抽出するようにしたが、他の方法を利用してもよい。例えば、上記例では、カテゴリ名や出現頻度の高いキーワードのうち上位４つを追加するようにしたが、４つ以外の数を追加するようにしてもよい。また、出現頻度の高いキーワードから選択する必要はない。例えば、特徴量を示す要素となりにくい一般用語等の出現頻度が高ければ、その一般用語等を自動的に、あるいは人手による操作指示により除外するようにしてもよい。また、本実施の形態では、キーワードベクトル値としてキーワードの出現数を用いたが、必ずしも出現数を用いる必要はない。もちろん、特徴量を表すことからキーワードの出現頻度に比例した指標を用いることが望ましいが、例えば、出現数が１〜５回のときは“１”、６〜１０回のときは“２”などのように出現頻度に範囲を設けて特徴量を表現するようにしてもよいし、所定の計算式を利用してベクトル値を求めるようにしてもよい。

続いて、クラスタ分類部１８は、各文書の特徴量に基づき新たに分類する文書群をクラスタ分けする（ステップ３００）。これは、一般的な手法を用いることで類似した特徴量を有する文書同士を同じグループとしてクラスタを形成する。このクラスタ分けをした結果の例を図７に示す。

続いて、クラスタ特徴量抽出部２０は、各クラスタの特徴量を計算する（ステップ４００）。各クラスタの特徴量は、一般的な手法を用いて各文書の特徴量を、何らかの手法を用いて合成すればよい。例えば、同じクラスタに属する各文書の特徴量の平均値を、当該クラスタの特徴量とする。この処理の結果、３つのクラスタについて得られた特徴量を図８に示す。クラスタ特徴量抽出部２０は、続いて各クラスタの名称を決定する（ステップ５００）。クラスタ名は、当該クラスタを構成する文書において最も出現頻度の高いキーワードを自動選択するようにしてもよいし、ユーザにより入力設定させるようにしてもよい。その後、処理対象のクラスタをグループ分けすることになるが（ステップ６００）、このクラスタの分類処理を図９に示したフローチャートを用いて説明する。

まず、カテゴリ特徴量抽出部１０は、既存の分類体系を分類体系記憶部４から読み出し（ステップ６０１）、その分類体系を構成する各カテゴリの特徴量を計算する（ステップ６０２）。この各カテゴリの特徴量を求めた処理結果を図１０に示すが、本実施の形態では、カテゴリ数を次元とするキーワードベクトルとしてカテゴリ名を用いる。各カテゴリにおいてそのキーワードが出現していれば１、サブカテゴリにキーワードが出現していれば０．５、さらにその下位のカテゴリにキーワードが出現していれば０．２５などと重み付けをして各キーワードベクトルの要素値を決定する。なお、次元数は任意に決めてよい。各カテゴリ名をシソーラス展開してキーワードを増やし、その次元数でベクトルを生成してもよい。また、各カテゴリに既に分類済みの文書をサンプルとしてキーワード抽出を行って、適当な次元数を決めるようにしてもよい。また、要素値は、各カテゴリに分類済みのサンプル文書からキーワード抽出を行って、その出現頻度や分散の度合から重み付けを行ってもよい。

以上のようにしてクラスタとカテゴリの各特徴量が求められると、類似度算出部１２は、各グループと各クラスタとの類似度を求める（ステップ６０３）。本実施の形態では、各カテゴリのキーワードベクトルと各クラスタのキーワードベクトルの内積を計算して、これを類似度として用いている。この類似度算出処理の結果を図１１に示す。

次に、グループ分類部１４は、図１１に示した類似度と、図３に示した既存の分類体系とに基づいて各クラスタを既存の分類体系に当てはめていく。なお、以降の処理は、各クラスタを分類体系のいずれかの場所に当てはめていくための処理であるため、本実施の形態では、各クラスタ毎に対して以下の処理を順次行っていく（ステップ６１２）。

まず、本実施の形態では、クラスタを分類する基準となる値を予め設定しておく。この基準値は、類似度との比較に用いられ、管理者等により任意に設定可能な値である。本実施の形態では、例えば１を設定する。グループ分類部１４は、番号１００１のクラスタを最初に処理する。まず最上位（ｉ＝１）の階層レベルのカテゴリに着目する（ステップ６０５）。この階層レベルのカテゴリ、具体的には「パソコン」、「汎用機」、「周辺機器」、「パーツ」の類似度を参照すると、クラスタ１００１における各類似度は、０．７５，０，１，０である。つまり、グループ分類部１４は、基準値以上であって最大類似度となる既存のカテゴリは「周辺機器」のみなので、このカテゴリが選択されることになる（ステップ６０６）。ここでは、該当するカテゴリが存在したので（ステップ６０７）、その「周辺機器」のサブカテゴリが存在するかを確認する（ステップ６０８）。この例では「モニタ」と「記憶装置」が存在するので、階層レベルを１段下げる（ステップ６０９）。この階層レベルのカテゴリ、すなわち「モニタ」と「記憶装置」のクラスタ１００１における各類似度は、共に０である。つまり、グループ分類部１４は、基準値以上であって最大類似度となる既存のカテゴリは存在しない（ステップ６０７）。これにより、グループ分類部１４は、クラスタ１００１は既存のカテゴリ「周辺機器」とは類似関係にあるものの、その下位階層の「モニタ」及び「記憶装置」とは類似関係にない、と判断する。この結果、グループ分類部１４は、カテゴリ名「プリンタ」は「周辺機器」と名称が一致していないので（ステップ６１０）、「モニタ」及び「記憶装置」と同一階層レベルにクラスタ１００１を分類するためのカテゴリを新規作成する（ステップ６１３）。この作成されたカテゴリの名称として、図２のステップ５００で決定したクラスタ名、すなわち、この例だと「プリンタ」を設定する。この既存の分類体系に新たなサブカテゴリ「プリンタ」が追加された例を図１２に示す。

続いて、グループ分類部１４は、番号１００２のクラスタを処理する。最上位の階層レベルのカテゴリに着目する（ステップ６０５）。この階層レベルの「パソコン」、「汎用機」、「周辺機器」、「パーツ」の類似度を参照すると、クラスタ１００２における各類似度は、全て０である。つまり、グループ分類部１４は、基準値以上であって最大類似度となる既存のカテゴリは存在しないので（ステップ６０７）、既存の分類体系にクラスタ１００２と類似関係にあるカテゴリは存在しない、と判断する。この結果、グループ分類部１４は、現時点での階層レベル、すなわち最上位の階層レベルにクラスタ１００２を分類するためのカテゴリを新規作成する（ステップ６１３）。なお、既存の分類体系にクラスタ１００２と類似関係にあるカテゴリは存在しないのだから名称が一致していないはずである（ステップ６１０）。この作成されたカテゴリの名称として、図２のステップ５００で決定したクラスタ名、すなわち、この例だと「ＰＤＡ」を設定する。この既存の分類体系に新たなカテゴリ「ＰＤＡ」が追加された例を図１２に示す。

続いて、グループ分類部１４は、番号１００３のクラスタを処理する。最上位の階層レベルのカテゴリに着目する（ステップ６０５）。この階層レベルの「パソコン」、「汎用機」、「周辺機器」、「パーツ」の類似度を参照すると、クラスタ１００３における各類似度は、０．５，０，０，１．７５である。つまり、グループ分類部１４は、基準値以上であって最大類似度となる既存のカテゴリは「パーツ」のみなので、このカテゴリが選択されることになる（ステップ６０６）。ここでは、該当するカテゴリが存在したので（ステップ６０７）、その「パーツ」のサブカテゴリが存在するかを確認する（ステップ６０８）。この例では、「ＣＰＵ」、「メモリ」及び「マザーボード」が存在するので、階層レベルを１段下げる（ステップ６０９）。この階層レベルのカテゴリ、すなわち「ＣＰＵ」、「メモリ」及び「マザーボード」のクラスタ１００３における各類似度は、０，０，１．５である。つまり、グループ分類部１４は、基準値以上であって最大類似度となる既存のカテゴリは「マザーボード」のみなので、このカテゴリが選択されることになる（ステップ６０６）。ここでは、該当するカテゴリが存在したので（ステップ６０７）、その「マザーボード」のサブカテゴリが存在するかを確認する（ステップ６０８）。この例では、存在しないので（ステップ６０８）、次に、グループ分類部１４は、当該カテゴリ名とクラスタ名とを比較する（ステップ６１０）。この例では、図３及び図８から明らかなように共に「マザーボード」である。従って、この場合は、各グループを代表するキーワード（クラスタ名とカテゴリ名）が一致していることから既存のカテゴリとクラスタ１００３との類似関係はあると判断できる。この結果、グループ分類部１４は、クラスタ１００３に含まれる文書を既存のカテゴリ「マザーボード」に振り分ける（ステップ６１１）。この処理により新たなサブカテゴリが追加されされないことが図１２から明らかである。

図１３には図３に対応する他の分類体系の例が、図１４には図１１に対応する図１３に基づく類似度表が、それぞれ示されている。各図を比較すると明らかなように、図１３，１４は「周辺機器」というカテゴリからサブカテゴリを排除し、サブカテゴリが存在しない状態に変形したものである。グループ分類部１４は、クラスタ１００１を処理する際に、ステップ６１０において当該カテゴリ名とクラスタ名とを比較するが、この場合はカテゴリ名「周辺機器」とクラスタ名「プリンタ」は異なるために、「周辺機器」のサブカテゴリとして「プリンタ」というサブカテゴリを新規に作成することになる（ステップ６１３）。このように、本実施の形態においては、「周辺機器」とは類似関係にはあるものの代表するキーワードが異なるクラスタ１００１に対して、サブカテゴリを新規に作成することができる。

以上説明したように、本実施の形態によれば、カテゴリ名によって識別される分類体系を形成するカテゴリと、類似度によってグループ化された新たに分類しようとするクラスタとの類似度の大小によって、各クラスタを既存のカテゴリに振り分けるか、あるいはカテゴリを新規に作成するかを決定するようにした。すなわち、類似関係にある文書同士であれば、一つのグループにまとめることができ、類似関係にない文書であれば、その文書を分類するためのグループを新たに作成して分類体系に追加することができる。この結果、ユーザの希望が反映された分類体系は維持されることになる。

以上のようにして、新たな文書群が分類可能な分類体系で分類体系記憶部４を更新することによって、これ以降に文書群を新たに分類しようとするときもユーザの希望が反映された分類体系を維持することができる。

なお、本実施の形態では、各文書の特徴量を抽出し、その特徴量に従いクラスタ分類を実施している。更に、クラスタとカテゴリの類似度判定は、各類似度と基準値との比較により実施されている。つまり、特徴量を算出する際の基礎データとなるキーワード及びそのキーワードベクトル値、並びに基準値の設定に、分類体系の階層構造は依存することになる。従って、これらの値をユーザが設定、調整できるような構成を設けておけば、ユーザが所望する分類体系により近づけることができる。

また、本実施の形態では、既存の分類体系が存在していることを前提に説明したが、存在していない状態からでも利用することは可能である。

本発明に係る文書分類装置の一実施の形態を示したブロック構成図である。本実施の形態における文書群の分類処理を示したフローチャートである。本実施の形態において用いる分類体系を示した図である。本実施の形態において新たに分類する文書群の例を示した図である。本実施の形態において各文書における特徴量を示した図である。図５に示した各文書における特徴量を拡張したときの特徴量を示した図である。図４に示した文書をクラスタ分けした結果を示した図である。本実施の形態において求めたクラスタの特徴量を示した図である。本実施の形態におけるクラスタの分類処理を示したフローチャートである。本実施の形態において求めたカテゴリの特徴量を示した図である。本実施の形態において求めた各カテゴリと各クラスタとの類似度を示した図である。本実施の形態におけるクラスタの分類処理において得られた分類体系を示した図である。本実施の形態において用いる他の分類体系を示した図である。図１３に示した分類体系に基づく各カテゴリと各クラスタとの類似度を示した図である。

符号の説明

２分類体系作成部、４分類体系記憶部、６文書群受付部、８クラスタリング部、１０カテゴリ特徴量抽出部、１２類似度算出部、１４グループ分類部、１６文書特徴量抽出部、１８クラスタ分類部、２０クラスタ特徴量抽出部。

Claims

複数の文書をユーザが所望するグループに分類する文書分類装置として、コンピュータシステムを機能させるためのプログラムであって、当該コンピュータを、
記憶手段に記憶された分類体系に基づいて新たに分類する文書群を、その文書群に含まれる各文書の特徴量に基づいてクラスタ分けすると共に、各クラスタの特徴量を当該クラスタに属する文書の特徴量に基づき算出するクラスタリング手段、
前記分類体系を形成する各グループの特徴量と、前記クラスタリング手段により算出された各クラスタの特徴量とに基づき各グループと各クラスタとの類似度を求める類似度算出手段、
前記類似度算出手段により求められた類似度と予め設定されている基準値との比較結果に基づいて、当該クラスタを既存のグループに振り分けるか、あるいは当該クラスタを分類する新たなグループを生成して前記分類体系に追加するかを決定する分類手段、
として機能させることを特徴とする文書分類プログラム。
請求項１記載の文書分類プログラムにおいて、
前記クラスタリング手段は、文書群に含まれる各文書の特徴量を表す要素として、前記分類体系を形成するグループの各名称と、文書群において出現頻度の多い所定数のキーワードとを用いることを特徴とする文書分類プログラム。
請求項１記載の文書分類プログラムにおいて、
前記分類手段は、前記類似度と前記基準値とを比較した結果、
前記類似度算出手段により求められた類似度が前記基準値に達していないクラスタに対しては、当該クラスタを分類するためのグループを新たに生成し、
前記類似度算出手段により求められた類似度が前記基準値に達している場合には、当該クラスタを最も類似度の高いグループに振り分けることを特徴とする文書分類プログラム。
請求項１記載の文書分類プログラムにおいて、
前記クラスタリング手段は、各クラスタに対して当該クラスタに属する文書において出現頻度の多いキーワードの一つを当該クラスタの名称として決定し、
前記分類手段は、前記類似度と前記基準値とを比較した結果、
前記類似度判定手段により求められた類似度が前記基準値に達していないクラスタに対しては、当該クラスタを分類するためのグループを新たに生成し、
前記類似度判定手段により求められた類似度が前記基準値に達している場合において、最も類似度の高いグループのグループ名と当該クラスタ名とが一致したときには当該クラスタを当該グループに振り分け、一致していないときには当該クラスタを分類するためのグループを、当該グループのサブグループとして新たに生成することを特徴とする文書分類プログラム。
複数の文書をユーザが所望するグループに分類するための分類体系が記憶される分類体系記憶手段と、
新たに分類する文書群を、その文書群に含まれる各文書の特徴量に基づいてクラスタ分けすると共に、各クラスタの特徴量を当該クラスタに属する文書の特徴量に基づき算出するクラスタリング手段と、
前記分類体系を形成する各グループの特徴量と、前記クラスタリング手段により算出された各クラスタの特徴量とに基づき各グループと各クラスタとの類似度を求める類似度算出手段と、
前記類似度算出手段により求められた類似度と予め設定されている基準値との比較結果に基づいて、当該クラスタを既存のグループに振り分けるか、あるいは当該クラスタを分類する新たなグループを生成して前記分類体系に追加するかを決定する分類手段と、
を有することを特徴とする文書分類装置。
複数の文書をユーザが所望するグループに分類する、文書分類装置が実行する文書分類方法において、
記憶手段に記憶された分類体系に基づいて新たに分類する文書群を、クラスタリング手段によりその文書群に含まれる各文書の特徴量に基づいてクラスタ分けすると共に、各クラスタの特徴量を当該クラスタに属する文書の特徴量に基づき算出するクラスタリングステップと、
前記分類体系を形成する各グループの特徴量と、前記クラスタリングステップにより算出された各クラスタの特徴量とに基づき類似度算出手段により各グループと各クラスタとの類似度を求める類似度算出ステップと、
前記類似度算出ステップにより求められた類似度と予め設定されている基準値との比較結果に基づいて、当該クラスタを既存のグループに振り分けるか、あるいは当該クラスタを分類手段により分類する新たなグループを生成して前記分類体系に追加するかを決定する分類ステップと、
を有することを特徴とする文書分類方法。