JP4682339B2

JP4682339B2 - データ分類装置およびデータ分類方法

Info

Publication number: JP4682339B2
Application number: JP2001162654A
Authority: JP
Inventors: 憲明山崎
Original assignee: Hitachi Solutions Ltd
Current assignee: Hitachi Solutions Ltd
Priority date: 2001-05-30
Filing date: 2001-05-30
Publication date: 2011-05-11
Anticipated expiration: 2021-05-30
Also published as: JP2002352244A

Description

【０００１】
【発明の属する技術分野】
この発明はデータ分類装置およびデータ分類方法等に関し、とくに複数のデータを１以上のカテゴリーに分類する技術等に関する。
【０００２】
【従来の技術】
多数の文書など、多数のデータを、複数のカテゴリーに分類する方法がいくつか知られている。たとえば、予めカテゴリーとその特徴値とを設定しておき、各データの特徴値がどのカテゴリーの特徴値に近いかによって、それらのデータを各カテゴリーに分類する方法がある。この方法を、ここでは「教師あり分類法」と呼ぶこととする。
【０００３】
教師あり分類法は、データの傾向が予め分かっている場合には効果があるが、データの傾向が予め分からない場合には、そもそも、カテゴリーとその特徴値の設定ができないため、適用することができない。
【０００４】
予めカテゴリーとその特徴値とを設定しておかなくても、カテゴリーの数さえ設定しておけば、データの特徴値空間を自動的に分割してカテゴリーを生成できる方法（K-means法）も知られている。しかし、K-means法においても、少なくともカテゴリーの数を設定しうる程度にデータの傾向が分かっている必要があり、データ傾向がまったく不明の大量のデータに適用することは難しい。
【０００５】
このような問題点を解決する方法として、凝集法が知られている。図１１は、従来から行われている凝集法を説明するための模式図である。説明の便宜のため、図１１においては、分類の対象となるデータD₁〜D₁₄として、ある集団を構成するメンバーの年齢を想定し、年齢をそのまま特徴値として用いている。したがって、この場合、特徴値はスカラー量で表現される。図１１の各データD₁〜D₁₄を表す矩形内に記載された数値が特徴値（年齢）である。図１１に基づいて、凝集法を用いてこれらのデータD₁〜D₁₄を分類する方法を説明する。
【０００６】
まず、特徴値の近いデータ同士を統合することにより、カテゴリーを形成する。たとえば、特徴値「８」のデータD₄と特徴値「９」のデータD₅とを統合して、カテゴリー１０２を形成する。同様に、特徴値「１１」、「１２」および「１３」のデータD₆、D₇およびD₈の３つを統合して、別のカテゴリー１０４を形成する。
【０００７】
つぎに、未だカテゴリーを形成していないデータや、上述のようにして形成されたカテゴリーを、特徴値の近いもの同士統合して、さらに別のカテゴリーを形成する。たとえば、上述のカテゴリー１０２とカテゴリー１０４とを統合して、上位のカテゴリー１０６を形成する。この場合、カテゴリー１０６には、特徴値「８」、「９」、「１１」、「１２」および「１３」の５つのデータD₄〜D₈が含まれることになる。
【０００８】
全てのデータを含む最上位のカテゴリー１０８が形成されるまで、このような操作を繰り返すことにより、ツリー構造のカテゴリー体系を得ることができる。
【０００９】
このように、凝集法を用いれば、各データの特徴値さえ与えられていれば、教師あり分類法のように予めカテゴリーとそのカテゴリーの特徴値を設定しておいたり、K-means法のようにカテゴリーの数を設定しておいたりすることなく、自動的にツリー構造のカテゴリー体系を得ることができる。このため、データ傾向がまったく不明の大量のデータを分類して、それらの傾向を知ることができる。
【００１０】
【発明が解決しようとする課題】
しかしながら、従来の凝集法には次のような問題点があった。このような方法を用いてデータを分類する場合、データ傾向をツリー構造の階層的なカテゴリー体系として把握するには都合がよいが、各データについてどの階層のカテゴリーを採用するのが最適であるかまでは知ることができなかった。
【００１１】
たとえば、図１１に示す特徴値「８」のデータは、カテゴリー１０２、カテゴリー１０６およびさらに上位のカテゴリーのいずれにも属するが、どのカテゴリーに属するとするのが最も良いかは、最終的に人の判断に頼らざるをえなかった。このため、教師あり分類法やK-means法のように、各データが属するカテゴリーをそれぞれ１つだけ決定するような分類（１元的分類）を自動的に行うことができなかった。
【００１２】
この発明は、このような従来のデータ分類方法の問題点を解決し、傾向がまったく不明の大量のデータを自動的に一元的分類することのできるデータ分類装置およびデータ分類方法等を提供することを目的とする。
【００１３】
【発明の作用および効果】
請求項１のデータ分類装置、請求項２のデータ分類プログラム、請求項３のプログラムを記録した記録媒体および請求項８のデータ分類方法においては、類似度の高いカテゴリー同士を順次統合して行くことにより、１個のデータのみを構成要素とする最下位のカテゴリーから全データを構成要素とする最上位のカテゴリーに至るツリー構造のカテゴリー体系を構築し、カテゴリー体系を構成する各カテゴリーについて、当該カテゴリーを構成するデータ相互の類似度に基づいて、当該カテゴリーのまとまりの良さを示す結合度を決定し、カテゴリーの結合度が当該カテゴリーを構成する直下のいずれのカテゴリーの結合度よりも少なくとも低くないカテゴリーのうち、ツリー構造の最も上位にあるカテゴリーを最適カテゴリーとして決定し、最適カテゴリーと当該最適カテゴリーを構成するデータとを対応付けて記憶させることを特徴とする。
【００１４】
したがって、傾向がまったく不明の大量のデータであっても、これらのデータ相互の類似度に基づいてツリー構造のカテゴリー体系を構築することができる。このようにして構築したツリー構造のカテゴリー体系を構成する各カテゴリーについて、各カテゴリーを構成するデータ相互の類似度に基づいて各カテゴリーの結合度を決定し、決定した結合度に基づいて各カテゴリーの中から最適カテゴリーを決定するようにしている。
【００１５】
このようにして最適カテゴリーを決定することで、階層的なツリー構造のカテゴリー体系を、最適カテゴリーを構成要素とする１元的なカテゴリー体系、すなわち、ある最適カテゴリーが他の最適カテゴリーに含まれることがないような構造のカテゴリー体系、に変換することができる。
【００１６】
さらに、最適カテゴリーと当該最適カテゴリーを構成するデータとを対応付けて記憶させることで、データを一元的に分類すること、つまり、ある最適カテゴリーに属するデータが他の最適カテゴリーに含まれることがないように分類すること、ができる。
【００１７】
すなわち、傾向がまったく不明の大量のデータを自動的に一元的分類することができる。
【００２０】
請求項１ないし３の装置、プログラムおよび記録媒体においては、カテゴリーG_aとカテゴリーG_bとを統合して得られる新たなカテゴリーをGとし、それぞれのカテゴリーの結合度をJ(G_a)、J(G_b)、J(G)とし、それぞれのカテゴリーを構成する文書の数をC(G_a)、C(G_b)、C(G)としたとき、下記の式（１）にしたがって、カテゴリーGの結合度J(G)を算出するようにしている。
【００２１】
［式（１）］
【００２２】
J(G)=(J(G_a)・(C(G_a)-1)+J(G_b)・(C(G_b)-1)+β)/(C(G_a)+C(G_b)-1)
【００２３】
ただし、カテゴリーG_aを構成するC(G_a)個のデータおよびカテゴリーG_bを構成するC(G_b)個のデータを、それぞれデータD_１、D_２、...、D_mおよびデータD_m+1、D_m+2、...、D_nとし、文書D_iの文書D_jに対する類似度をA_ijとしたとき、上式のβは式（２）で表現される。
【００２４】
［式（２）］
【００２５】

【００２６】
したがって、このような漸化式の形で表現された式に基づいて結合度J(G)を算出することで、既に求めてあるJ(G_a)、J(G_b)の値を利用できるため、演算時間を大幅に短縮することができる。
【００２７】
請求項４の装置、プログラムおよび記録媒体においては、データ分類装置は、いずれの最適カテゴリーにも含まれないデータを構成要素とする最下位のカテゴリーを準最適カテゴリーとして最適カテゴリーと同様に取り扱うことを特徴とする。
【００２８】
データ総数が少ないために他のデータから孤立したように見えるデータであっても、データ総数が増えると、そのようなデータをカテゴリーとして分類するのが妥当なケースがある。したがって、このようなケースにおいては、いずれの最適カテゴリーにも含まれないデータを構成要素とする最下位のカテゴリーを準最適カテゴリーとして最適カテゴリーと同様に取り扱うことで、妥当な分類を行うことができる。
【００２９】
請求項５の装置、プログラムおよび記録媒体においては、データは文書であり、データ相互の類似度を決定する基礎となるデータの特徴値として、文書の特徴を示すベクトルを用いることを特徴とする。
【００３０】
したがって、文書の特徴を定量的に示すベクトルを用いて文書相互の類似度を定量的に決定することで、決定された文書相互の類似度に基づいて、一般的なデータと同様に、傾向がまったく不明の大量の文書を自動的に一元的分類することができる。
【００３１】
請求項６の装置、プログラムおよび記録媒体においては、データ分類装置は、最適カテゴリーを表示する際、当該最適カテゴリーの結合度および類似度のうち少なくとも一方を表示するよう制御することを特徴とする。
【００３２】
したがって、データ分類装置の表示手段には、最適カテゴリーが表示される際、当該最適カテゴリーの結合度および類似度のうち少なくとも一方が表示される。このため、各最適カテゴリーがどの程度まとまりのあるカテゴリーであるか、および／または、各最適カテゴリーを構成するデータ相互がどの程度類似しているかを、容易に把握することが可能となる。
【００３３】
請求項７の装置、プログラムおよび記録媒体において、データ分類装置は、ツリー構造のカテゴリー体系を表示するとともに、当該ツリー構造のカテゴリー体系を構成するカテゴリーのうち最適カテゴリーを他のカテゴリーと異なる態様で表示するよう制御することを特徴とする。
【００３４】
したがって、データ分類装置の表示手段には、ツリー構造のカテゴリー体系が表示されるとともに、当該ツリー構造のカテゴリー体系を構成するカテゴリーのうち最適カテゴリーが、他のカテゴリーと異なる態様で表示される。このため、ツリー構造のカテゴリー体系における最適カテゴリーの位置付けを視覚的に把握することが容易となる。
【００３７】
請求項９のカテゴリー体系変換方法は、コンピュータを用いて、ツリー構造のカテゴリー体系を一元的なカテゴリー体系に変換する方法であって、ツリー構造のカテゴリー体系を構成する各カテゴリーについて、カテゴリーのまとまりの良さを表すカテゴリーの結合度を決定するステップと、カテゴリーの結合度が当該カテゴリーを構成する直下のいずれのカテゴリーの結合度よりも少なくとも低くないカテゴリーのうち、ツリー構造の最も上位にあるカテゴリーを最適カテゴリーとして決定するステップと、最適カテゴリーと当該最適カテゴリーを構成するデータとを対応付けて記憶させるステップとを備えたことを特徴とする。
【００３８】
したがって、このようにして決定された最適カテゴリーを構成要素とするカテゴリー体系は、ある最適カテゴリーが他の最適カテゴリーに含まれることがないような構造のカテゴリー体系となっている。すなわち、ツリー構造のカテゴリー体系を、最適カテゴリーを構成要素とする１元的なカテゴリー体系に変換することができる。
【００３９】
【発明の実施の形態】
図１は、この発明の一実施形態によるデータ分類装置である文書分類装置２の構成を説明するためのブロック図である。文書分類装置２は、複数のデータである複数の文書を１以上の最適なカテゴリーに自動的に分類するための装置である。
【００４０】
文書分類装置２は、データ入力手段である文書入力手段４、データ相互間類似度決定手段である文書相互間類似度決定手段６、カテゴリー体系構築・結合度決定手段８、最適カテゴリー決定手段１０、データ再配置手段である文書再配置手段１２、および、最適カテゴリー表示手段１４を備えている。
【００４１】
文書入力手段４は、与えられた複数の文書を文書分類装置２に取り込み、文書相互間類似度決定手段６に与える。
【００４２】
文書相互間類似度決定手段６は、与えられた文書相互間の類似度を決定する手段であって、特徴ベクトル生成手段１６、類似度算出手段１８，および、類似度行列生成手段２０を備えている。
【００４３】
特徴ベクトル生成手段１６は、各文書ごとに、当該文書の特徴に基づいて、特徴値である特徴ベクトルを生成する。特徴ベクトルとは、各文書が、予め設定されたp個の特徴に、それぞれどの程度合致するかを表したものであり、p次元の特徴空間において定義されるベクトルである。
【００４４】
類似度算出手段１８は、各文書の特徴ベクトルに基づいて、各文書相互間の類似度を算出する。この実施形態においては、対比する２つの文書の特徴ベクトルのなす角の余弦を百分率で表した数字を、当該２つの文書の類似度と定義している。たとえば、同一文書の類似度は「１００」であり、全く無関係の２つの文書の類似度は「０」となる。
【００４５】
もちろん、２つの文書の類似度は、これに限定されるものではなく、要は、２つの文書の特徴ベクトルの似ている程度を表現できるものであれば何でもよい。たとえば、特徴ベクトル空間が１次元の場合には、ベクトルの長さの差（または比）を利用して類似度を算出するようにしてもよい。
【００４６】
類似度行列生成手段２０は、各文書相互間の類似度をマトリックスで表現した類似度行列を生成する。文書の総数がｎである場合、類似度行列はｎ次の正方行列となる。
【００４７】
カテゴリー体系構築・結合度決定手段８は、各文書相互間の類似度に基づいてツリー構造のカテゴリー体系を構築するとともに、カテゴリー体系を構成する各カテゴリーの結合度を決定する手段であって、カテゴリー体系構築手段２２および結合度決定手段２４を備えている。
【００４８】
カテゴリー体系構築手段２２は、類似度の高いカテゴリー同士を順次統合して行くことにより、１個の文書のみを構成要素とする最下位のカテゴリーから全文書を構成要素とする最上位のカテゴリーに至るツリー構造のカテゴリー体系を構築する。
【００４９】
類似度の高いカテゴリーを順次統合する手順は特に限定されるものではないが、たとえば、カテゴリー相互間の類似度が最も高い２つのカテゴリーをまとめて新たな１つのカテゴリーに統合する処理を繰り返すようにすることができる。もちろん、カテゴリー相互間の類似度が最も高い３つ以上のカテゴリーを一度にまとめて新たな１つのカテゴリーに統合するようにしてもよい。
【００５０】
結合度決定手段２４は、ツリー構造のカテゴリー体系を構成する各カテゴリーについて、当該カテゴリーを構成する文書相互の類似度に基づいて、当該カテゴリーのまとまりの良さを示す結合度を決定する。この実施形態においては、カテゴリーの結合度を、当該カテゴリーを構成する文書１個あたりの文書相互の類似度の総和に対応する量としている。
【００５１】
さらに具体的には、カテゴリーG_aとカテゴリーG_bとを統合して得られる新たなカテゴリーをGとし、それぞれのカテゴリーの結合度をJ(G_a)、J(G_b)、J(G)とし、それぞれのカテゴリーを構成する文書の数をC(G_a)、C(G_b)、C(G)としたとき、下記の式（１）にしたがって、カテゴリーGの結合度J(G)を算出するようにしている。
【００５２】
［式（１）］
【００５３】
J(G)=(J(G_a)・(C(G_a)-1)+J(G_b)・(C(G_b)-1)+β)/(C(G_a)+C(G_b)-1)
【００５４】
ただし、カテゴリーG_aを構成するC(G_a)個のデータおよびカテゴリーG_bを構成するC(G_b)個のデータを、それぞれデータD_１、D_２、...、D_mおよびデータD_m+1、D_m+2、...、D_nとし、文書D_iの文書D_jに対する類似度をA_ijとしたとき、上式のβは式（２）で表現される。
【００５５】
［式（２）］
【００５６】

【００５７】
最適カテゴリー決定手段１０は、カテゴリーの結合度が当該カテゴリーを構成する直下のいずれのカテゴリーの結合度よりも少なくとも低くないカテゴリーのうち、ツリー構造の最も上位にあるカテゴリーを最適カテゴリーとして決定する。なお、この実施形態においては、カテゴリーの結合度が当該カテゴリーを構成する直下のいずれのカテゴリーの結合度よりも高いカテゴリーのうち、ツリー構造の最も上位にあるカテゴリーを最適カテゴリーとして決定するようにしている。
【００５８】
文書再配置手段１２は、最適カテゴリーと当該最適カテゴリーを構成する文書とを対応付けて記憶させる。また、最適カテゴリー表示手段１４は、決定された最適カテゴリーを表示する。なお、この実施形態においては、最適カテゴリー表示手段１４は、ツリー構造のカテゴリー体系と併せて最適カテゴリーを表示するようにしている。
【００５９】
なお、いずれの最適カテゴリーにも含まれない文書を構成要素とする最下位のカテゴリーを準最適カテゴリーとして最適カテゴリーと同様に取り扱うようにすることもできる。この場合、準最適カテゴリーと当該準最適カテゴリーを構成する文書とを対応付けて記憶し、最適カテゴリー表示手段１４には、最適カテゴリーとともに準最適カテゴリーを表示するようにしてもよい。しかし、この発明はこれに限定されるものではなく、たとえば、いずれの最適カテゴリーにも含まれない文書を独立の文書として扱うようにしてもよい。
【００６０】
図２は、図１に示す文書分類装置２を、ＣＰＵ４２を用いて実現した場合のハードウェア構成の一例を示す図面である。
【００６１】
文書分類装置２は、データ分類プログラムである文書分類プログラムを記録した記録媒体であるＣＤ−ＲＯＭ（コンパクトディスク・リードオンリーメモリー）５４を駆動するためのＣＤ−ＲＯＭドライブ５２、同じく記録媒体であり記憶手段でもあるハードディスク５０を備えている。
【００６２】
ＣＤ−ＲＯＭ５４に記録された該プログラムは、ＣＤ−ＲＯＭドライブ５２を介して、ハードディスク５０にインストールされる。
【００６３】
文書分類装置２は、さらに、ハードディスク５０にインストールされたプログラムを実行する制御手段であるＣＰＵ４２，表示手段であるＣＲＴ４４，入力手段であるキーボード４６およびマウス４８を備えている。
【００６４】
図２のＣＰＵ４２が、図１の文書入力手段４、文書相互間類似度決定手段６、カテゴリー体系構築・結合度決定手段８、最適カテゴリー決定手段１０、および、文書再配置手段１２に対応する。また、図２のＣＲＴ４４が、図１の最適カテゴリー表示手段１４に対応する。
【００６５】
図３は、文書分類装置２における文書分類処理の手順の一例を示すフローチャートである。図４は、図３に示す処理のうち、文書相互間類似度算出処理の詳細な処理手順の一例を示すフローチャートである。図５は、図３に示す処理のうち、カテゴリー体系構築・結合度算出処理の詳細な処理手順の一例を示すフローチャートである。図６は、図３に示す処理のうち、最適カテゴリー決定処理において用いられるサブプログラムの処理手順の一例を示すフローチャートである。
【００６６】
図７は、文書の特徴ベクトルおよび文書相互の類似度を説明するための図面である。図８Ａ〜図８Ｃは、カテゴリー体系を構築する処理を説明するための図面である。図９は、構築されたカテゴリー体系および最適カテゴリーを説明するための図面である。図１０は最適カテゴリーが表示されたＣＲＴ４４の表示画面を示す図面である。
【００６７】
図２〜図１０を用いて、文書分類装置２を用いた文書分類処理について説明する。図２に示すＣＰＵ４２は、まず、記憶手段であるハードディスク５０に記憶されているｎ個の文書を取り込む（図３、ステップＳ１）。
【００６８】
つぎに、ＣＰＵ４２は、取り込んだ各文書相互間の類似度を算出する（図３、ステップＳ２）。ステップＳ２の詳細な処理手順を図４に示す。すなわち、図４に示すように、ＣＰＵ４２は、まず、取り込んだ各文書の特徴ベクトルを算出する（図４，ステップＳ１１）。
【００６９】
このステップにおいては、特徴ベクトル空間の各軸を構成するキーワードと各文書に含まれる単語とをマッチングすることにより、各文書の特徴ベクトルを算出するようにしている。
【００７０】
説明の便宜上、図７に示すような第１軸（犬軸）AX₁、第２軸（好き軸）AX₂および第３軸（男軸）AX₃の３次元の特徴ベクトル空間を想定する。たとえば、文書D₁が「犬の好きな男」であるとすれば、文書D₁は「犬」、「好き」および「男」を含むから、第１軸AX₁、第２軸AX₂、第３軸AX₃の成分が全て「１」になる。したがって、文書D₁の特徴ベクトルV₁は、図７のようになる。
【００７１】
同様に、文書D₂が「犬の好きな子供」であるとすれば、文書D₂は「犬」、「好き」を含むが「男」を含まないから、第１軸AX₁、第２軸AX₂、第３軸AX₃の成分は、それぞれ、「１」、「１」、「０」となる。したがって、文書D₂の特徴ベクトルV₂は、図７のようになる。
【００７２】
このようにして全ての文書D₁〜D_nの特徴ベクトルV₁〜V_nを算出すると、ＣＰＵ４２は、つぎに各文書相互の類似度を算出する（図４，ステップＳ１２）。この実施形態においては、文書D_iの文書D_jに対する類似度A_ijを、特徴ベクトル空間における文書D_iの特徴ベクトルV_iと文書D_jの特徴ベクトルV_jとのなす角θ_ij（図７、角θ₁₂参照）の余弦（cosθ_ij）を百分率で表した数値で表現している。一般的には、データ相互間の類似度は、データ相互間の特徴値の類似度として把握することができる。
【００７３】
なお、文書D_iの文書D_jに対する類似度A_ijと、文書D_jの文書D_iに対する類似度A_jiとは等しいので、どちらか一方のみを計算しておけばよい。また、自己との類似度A_iiは計算する必要がないので、ｎ個の文書の類似度の計算は、(n²-n)/2回行われることになる。
【００７４】
つぎに、ＣＰＵ４２は、算出した類似度に基づいて、類似度行列を生成する（図４，ステップＳ１３）。類似度行列は、前ステップにおいて生成された類似度A_ijを要素とするn次正方行列である。ただし、対角成分A_iiは全て「１００」となる。
【００７５】
説明の便宜のため、文書数n=5の場合の類似度行列６０を図８Ａに示す。図８Ａおよび図８Ｂでは、対角成分A_iiを棒線で表している。以後の計算では対角成分A_iiを用いないから、便宜上、このように表現しているのである。なお、類似度行列は、成分A_ij（i＞j）を全て「０」とした下方三角行列として表現される場合もある。
【００７６】
つぎに、ＣＰＵ４２は、生成した類似度行列に基づいて、取り込んだ全文書についてのツリー構造のカテゴリー体系を構築するとともに、当該カテゴリー体系を構成する各カテゴリーの結合度を算出する（図３、ステップＳ３）。ステップＳ３の詳細な処理手順を図５に示す。すなわち、図５に示すように、ＣＰＵ４２は、まず、最も類似度の高い２つのカテゴリーを統合する（図５，ステップＳ２１）。
【００７７】
統合前においては、各文書D₁〜D_nが、それぞれ１つのカテゴリーG₁〜G_nを構成しているものとする。したがって、カテゴリーG₁〜G_nの特徴ベクトルは、各文書D₁〜D_nの特徴ベクトルV₁〜V_nに一致する。カテゴリーG₁〜G_n相互間の類似度とは、各文書D₁〜D_n相互間の類似度A_ijにほかならない。つまり、ＣＰＵ４２は、このステップにおいて、まず、図８Ａに示す類似度行列６０に基づいて最も類似度の高い２つの文書を統合するのである。
【００７８】
図８Ａにおいて、対角成分を除いて最も高い類似度が、たとえば、A₂₃（=A₃₂）であったとする。ＣＰＵ４２は、カテゴリーG₂（文書D₂）とカテゴリーG₃（文書D₃）とを統合して新たなカテゴリーG_xを生成するとともに、新たなカテゴリーG_xの特徴ベクトルV_xを決定する。
【００７９】
特徴ベクトルV_xの決定方法は特に限定されるものではないが、たとえば、カテゴリーG_xを構成している複数のカテゴリーの特徴ベクトルを平均したベクトルをあらたな特徴ベクトルV_xとしたり、カテゴリーG_xを構成している複数のカテゴリーの特徴ベクトルのひとつ（たとえば、カテゴリーG_xを構成している複数のカテゴリーの特徴ベクトルのうち、カテゴリーG_xとの類否が問題となっている他のカテゴリーの特徴ベクトルに最も近いカテゴリーの特徴ベクトル）をあらたな特徴ベクトルV_xとしたりすることができる。一般的には、カテゴリーの特徴値は、当該カテゴリーを構成するデータの特徴値に基づいて決定することができる。
【００８０】
ＣＰＵ４２は、このようにして決定された新たなカテゴリーG_xの特徴ベクトルV_xと、統合されなかった他のカテゴリーG₁、G₄、G₅の特徴ベクトルとの類似度を算出し、算出結果に基づいて、類似度行列を書き直す。
【００８１】
すなわち、図８Ａに示す類似度行列６０から、カテゴリーG₂およびカテゴリーG₃に関連する要素を除去し、代わりに、カテゴリーG₂とカテゴリーG₃とを統合した新たなカテゴリーG_xと統合されなかった他のカテゴリーG₁、G₄、G₅との類似度を挿入する。このようにして書き直された類似度行列６２を図８Ｂに示す。このように、カテゴリーの統合を１回行うことにより、類似度行列の次数は１次小さくなることになる。
【００８２】
つぎに、ＣＰＵ４２は、あらたなカテゴリーG_xの結合度J(G_x)を算出する（図５，ステップＳ２２）。算出式の一般形は、上述の式（１）、（２）で表される。ここでは、たとえば類似度A₂₃=90である場合を例に、結合度J(G_x)を算出してみる。
【００８３】
式（１）において、G=G_x、G_a=G₂、G_b=G₃とおけば、C(G_２)=C(G₃)=1であるから、J(G_x)=βとなる。
【００８４】
一方、式（２）から分かるように、βは、統合前の一方のカテゴリーを形成する各文書から見た他方のカテゴリーを形成する各文書との類似度の総和と、統合前の他方のカテゴリーを形成する各文書から見た一方のカテゴリーを形成する各文書との類似度の総和との和をとったものである。したがって、上述のケースでは、β=A₂₃+A₃₂=180となる。つまり、あらたなカテゴリーG_xの結合度J(G_x)=180となる。
【００８５】
ここで、式（１）、（２）の妥当性について考察をしておく。まず、「カテゴリーの内部エネルギーE(G)」なる概念を導入する。カテゴリーの内部エネルギーE(G)を、１つのまとまりをなすカテゴリーを構成している各文書をバラバラにするために必要な総エネルギーと定義する。
【００８６】
すなわち、あるカテゴリーを構成している１つの文書を当該カテゴリーを構成している他の全ての文書から引き離すのに必要なエネルギーを、当該カテゴリーを構成する各文書について合計したものを、当該カテゴリーの内部エネルギーE(G)とする。
【００８７】
ここで、２つの文書が類似しているほど引き離すのが困難であるとして、２つの文書D_i、D_jを引き離すエネルギーは２つの文書D_iとD_jの類似度A_ijに等しい、という仮定をおくと、構成文書数C(G)=nのカテゴリーGの内部エネルギーE(G)は、次式（３）で表すことができる。
【００８８】
［式（３）］
【００８９】

【００９０】
なお、図８Ａに示す行列の対角成分A_iiを除く要素の総和が、構成文書数C(G)=5の場合におけるカテゴリーの内部エネルギーE(G)となっている。
【００９１】
カテゴリーGが、２つのカテゴリーG_a（構成文書数C(G_a)=m）とG_b（構成文書数C(G_b)=n-m）とを統合して形成された新たなカテゴリーであるとすると、式（３）は次式（４）で表現することができる。
【００９２】
［式（４）］
【００９３】

【００９４】
一方、１つの文書のみを構成要素とするカテゴリー（すなわちC(G)=1）の内部エネルギーは「０」であることを考慮すれば、構成文書数C(G)=nのカテゴリーGの内部エネルギーE(G)は、次式（５）のように表すこともできる。
【００９５】
［式（５）］
【００９６】
E(G)=J(G)・(n-1)
【００９７】
式（５）において、J(G)は、あるカテゴリーを構成している１つの文書を当該カテゴリーを構成している他の全ての文書から引き離すのに必要なエネルギーの平均値、すなわち、あるカテゴリーから１つの文書を引き離すのに必要な平均的なエネルギーと考えられる。
【００９８】
カテゴリーから文書を引き離すのに要するエネルギーが高いほど、そのカテゴリーはまとまりが良いと考えられる。そこで、本願では、J(G)を、カテゴリーGのまとまりの良さを表す結合度（カテゴリーGの硬さ）と位置づけ、良いカテゴリーか否かを判断する基準としたのである。
【００９９】
なお、式（５）の形から、カテゴリーGの結合度J(G)は、分子数ｎ、分子の運動エネルギーを無視した場合の内部エネルギーE(G)、であるような物質の硬度と類似していることが分かる。
【０１００】
式（４）および式（５）から導かれたのが、結合度J(G)を示す式（１）、（２）である。式（１）、（２）を用いると、既に求めてあるJ(G_a)、J(G_b)を利用できるので、演算時間が短くて済むという利点がある。
【０１０１】
なお、演算時間が長くはなるものの、式（３）および式（５）から導かれる次式（６）を用いて結合度J(G)を算出することもできる。
【０１０２】
［式（６）］
【０１０３】

【０１０４】
式（６）から分かるように、結合度J(G)は、あるカテゴリーを構成している１つの文書と当該カテゴリーを構成している他の文書との類似度の総和の平均的な値と見ることもできる。つまり、結合度J(G)は、カテゴリーを構成する個々の文書同士の類似度が高いほど高くなり、しかも、カテゴリーを構成する文書数が多いほど高くなることになる。
【０１０５】
したがって、カテゴリーの結合度は、上述の各式に限定されるものではなく、カテゴリーを構成する文書同士の類似度が高いほど高くなり、かつ、カテゴリーを構成する文書数が多いほど高くなるような条件を満たす関数を用いればよいことがわかる。さらに、ニューラルネットワークのような自己学習型の情報処理手段を用いて、上記条件を満足するような結合度を算出させるようにしてもよい。
【０１０６】
さて、このようにして、新たなカテゴリーの結合度が算出されると、ＣＰＵ４２は、生成された新たなカテゴリーが、与えられた全文書を含むか否かを判断する（図５，ステップＳ２３）。新たなカテゴリーが全文書を包含しない場合には、ＣＰＵ４２は制御をステップＳ２１に戻し、今度は書き直された類似度行列６２（図８Ｂ参照）に基づいて、最も類似度の高い２つのカテゴリー（文書）を統合するのである。
【０１０７】
以下、ＣＰＵ４２は、生成された新たなカテゴリーが全文書を含むようになるまで、ステップＳ２１〜ステップＳ２３の処理を繰り返す。このようにして生成された最後の類似度行列６４を図８Ｃに示す。なお、図８Ｃに示す類似度行列６４は、全文書を包含する最上位のカテゴリーG_rの自己類似度A_rrのみを要素とする１行１列の行列である。
【０１０８】
このようにして、与えられたｎ個の文書D₁〜D_nについてのツリー構造のカテゴリー体系が構築されるとともに、当該カテゴリー体系を構成する各カテゴリーの結合度が算出される。
【０１０９】
図９は、このようにして構築されたツリー構造のカテゴリー体系、および当該カテゴリー体系を構成する各カテゴリーの結合度を説明するための図面である。ただし図９においては、説明の便宜のため、図１１にて説明した例と同じ例を用いている。すなわち、図９の例においては、分類の対象となるデータとして、文書ではなく、ある集団を構成するメンバーの年齢を想定し、年齢をそのまま特徴値として用いている。図９の各データD₁〜D₁₄を示す矩形内に記載された数値が特徴値（年齢）である。
【０１１０】
つまり、データ数n=14とし、各データD₁〜D₁₄の特徴を表す１４個の特徴値を全てスカラー量S_i（１次元の特徴ベクトル）で表現している。また、類似度A_ij（パーセント）を次式（７）で算出するようにしている。
【０１１１】
［式（７）］
【０１１２】
A_ij = (1/｜S_i-S_j｜)×100
【０１１３】
また、図９の例においては、カテゴリー相互間の類似度が最も高いカテゴリーが３つ以上ある場合、それら３つ以上のカテゴリーを一度にまとめて新たな１つのカテゴリーに統合するようにしている。
【０１１４】
また、統合により生成された新たなカテゴリーを構成している複数の下位のカテゴリーの特徴ベクトルのうち、あらたなカテゴリーとの類否が問題となっている他のカテゴリーの特徴ベクトルに最も近いカテゴリーの特徴ベクトルを、新たなカテゴリーの特徴ベクトルとしている。
【０１１５】
図９から分かるように、これまでの処理によって、１個のデータのみを構成要素とする最下位のカテゴリーである１４個のカテゴリーG₁〜G₁₄（それぞれ、データD₁〜D₁₄のうち１つのみを構成要素としている）から、中間位のカテゴリーである１０個のカテゴリーG₁₅〜G₂₄を経て、最上位のカテゴリーであるカテゴリーG_rに至るツリー構造のカテゴリー体系が形成されるとともに、このカテゴリー体系を構成する２５個のカテゴリーG₁〜G₂₄およびG_rの結合度が、それぞれ算出される。
【０１１６】
図９において、カテゴリーG₁₅〜G₂₄およびG_rを示す楕円内にそれらの結合度が記載されている。なお、カテゴリーG₁〜G₁₄の結合度は、上述のように、いずれも「０」である。
【０１１７】
図３に戻って、ＣＰＵ４２は、つぎに、算出した各カテゴリーの結合度に基づいて、最適なカテゴリーを決定する（図３、ステップＳ４）。ステップＳ４の処理に用いられるサブプログラム（図６参照）においては、当該サブプログラムの実行中に自己をサブプログラムとして呼び出して実行する、いわゆる再帰呼び出し手法を用いている。このような構成の処理を行うことで、ツリー構造の処理を効率よく行うことができる。
【０１１８】
図３のステップＳ４に示すように、ＣＰＵ４２は、まず、ツリー構造の最上位のカテゴリーG_rを処理対象カテゴリーGとして設定し、図６に示すサブプログラムに制御を移す。
【０１１９】
図６に示すサブプログラムにおいて、ＣＰＵ４２は、まず、処理対象カテゴリーGの要素数C(G)が１つであるか否かを判断する（図６、ステップＳ３１）。処理対象となっているカテゴリーGが最下位のカテゴリーでないかぎり、ＣＰＵ４２は、ステップＳ３２を実行することになる。
【０１２０】
ステップＳ３２において、ＣＰＵ４２は、処理対象カテゴリーGの結合度J(G)が、処理対象カテゴリーGを構成する直下のカテゴリーG_a、G_bの結合度J(G_a)、J(G_b)のいずれよりも大きいか否かを判断する（図６，ステップＳ３２）。本ステップにおいて、処理対象カテゴリーGの結合度J(G)が、処理対象カテゴリーGを構成する直下のカテゴリーG_a、G_bの結合度J(G_a)、J(G_b)のいずれよりも大きい場合は、当該処理対象カテゴリーGを、最適カテゴリーに決定し（図６、ステップＳ３５）、当該処理対象カテゴリーGに関する処理（サブプログラム）を終了する。
【０１２１】
したがって、最上位のカテゴリーG_rが最適カテゴリーと決定された場合には、最適カテゴリー決定処理（図３，ステップＳ４）は終了する。
【０１２２】
一方、ステップＳ３２において、処理対象カテゴリーGの結合度J(G)が、処理対象カテゴリーGを構成する直下のカテゴリーG_a、G_bの結合度J(G_a)、J(G_b)のいずれか一方よりも大きいか、いずれか一方と等しいような場合は、当該処理対象カテゴリーGは最適カテゴリーではないと判断し、直下のカテゴリーG_a、G_bそれぞれについて、最適カテゴリー決定処理を行う。
【０１２３】
すなわち、このような場合、ＣＰＵ４２は、上述のカテゴリーG_a、G_bをそれぞれ新たな処理対象カテゴリーGとして設定し、図６に示すサブプログラムを実行する（図６，ステップＳ３３、ステップＳ３４）。
【０１２４】
このような再帰呼び出し処理を繰り返すことで、ツリー構造のカテゴリー体系において、カテゴリーの結合度が当該カテゴリーを構成する直下のいずれのカテゴリーの結合度よりも高いカテゴリーのうち、ツリー構造の最も上位にあるカテゴリーを最適カテゴリーとして決定することができる。
【０１２５】
なお、図６のステップＳ３１において、処理対象カテゴリーGの要素数C(G)が「１」である場合、当該処理対象カテゴリーGを最適カテゴリーに決定する（図６，ステップＳ３５）。
【０１２６】
すなわち、最下位のカテゴリー（要素数が１つのカテゴリー）より上位のカテゴリーに最適カテゴリーが存在しなかった場合、つまり、当該最下位のカテゴリーからツリー構造をたどって最上位のカテゴリーG_rに至る経路上に最適カテゴリーが存在しない場合には、当該最下位のカテゴリーを最適カテゴリーとみなして、通常の最適カテゴリーと同様に取り扱うようにしているのである。最適カテゴリーとみなされた最下位のカテゴリーが、上述の準最適カテゴリーである。
【０１２７】
ただし、上述のように、最下位のカテゴリーより上位のカテゴリーに最適カテゴリーが存在しなかった場合、当該最下位のカテゴリーを構成するデータを、いずれの最適カテゴリーにも属さない独立のデータとして扱うようにしてもよい。このように取り扱うには、図６のステップＳ３１において、処理対象カテゴリーGの要素数C(G)が「１」である場合に当該処理対象カテゴリーGについての図６に示すサブプログラムを終了するようにしておけばよい。
【０１２８】
図９の例では、カテゴリーを示す楕円が太線で描かれているものが最適カテゴリーを表している。すなわち、カテゴリーG₁₇、G₁₈およびG₂₂が最適カテゴリーである。
【０１２９】
なお、図９の例では、上述の３つの最適カテゴリーG₁₇、G₁₈およびG₂₂のいずれにも属しないカテゴリーG₉およびG₁₄を構成するデータD₉およびD₁₄を独立したデータとして扱うようにしているが、上述のように、カテゴリーG₉およびG₁₄を最適カテゴリーとして扱うようにしてもよい。
【０１３０】
図３に戻って、ＣＰＵ４２は、このようにして決定された最適カテゴリーに、これら最適カテゴリーを構成する各文書（各データ）を再配置する（図３、ステップＳ５）。たとえば、各最適カテゴリーとこれらを構成する文書とを関連付けて、ハードディスク５０に記憶するという形で、この処理が実行される。
【０１３１】
ＣＰＵ４２は、つぎに、最適カテゴリーをＣＲＴ４４上に表示する（図３，ステップＳ６）。図９の例における最適カテゴリーG₁₇、G₁₈およびG₂₂をＣＲＴ４４上に表示した場合の例を、図１０に示す。図１０に示す表示画面７０うち、特徴グループ一覧表示部７２に、最適カテゴリーG₁₇、G₁₈およびG₂₂に関する情報が表示されている。
【０１３２】
すなわち、特徴グループ一覧表示部７２には、各最適カテゴリーG₁₇、G₁₈およびG₂₂について、最適カテゴリーを示す表示（星マークの付されたフォルダーのアイコン）とともに、当該最適カテゴリーを構成する文書（データ）の数、当該最適カテゴリーの結合度、当該最適カテゴリーの類似度（当該最適カテゴリーの構成要素である直下のカテゴリー相互間の類似度）、当該最適カテゴリーのキーワード（特徴値）が表示されている。
【０１３３】
たとえば、特徴グループ一覧表示部７２に表示されているいずれかのフォルダのアイコンを、マウス４８等を用いて選択することで、当該フォルダに対応する最適カテゴリーの構成要素である文書（データ）の一覧（目録）がＣＲＴ４４上に表示され（図示せず）、表示された文書の一覧からマウス４８等を用いて所望の文書を選択することにより、当該文書の内容をＣＲＴ４４上に表示させることができる。
【０１３４】
なお、この実施形態においては、図１０に示す表示画面７０に、上述の特徴グループ一覧表示部７２とともに、全グループ階層表示部７４も表示されている。全グループ階層表示部７４には、ツリー構造のカテゴリー体系が視覚的に確認できるよう各カテゴリーが表示され、併せて、各カテゴリーの情報も表示されている。
【０１３５】
すなわち、全グループ階層表示部７４には、カテゴリー体系を構成する全てのカテゴリーがツリー状に階層表示されるとともに、各カテゴリーについて、カテゴリーを示す表示（フォルダーのアイコン）とともに、当該カテゴリーを構成する文書（データ）の数、当該カテゴリーの類似度（当該カテゴリーの構成要素である文書（データ）相互間の類似度）、当該カテゴリーの結合度が表示されている。また、全グループ階層表示部７４には、最適カテゴリーに含まれない書類（データ）が、孤立した文書として表示されている。
【０１３６】
全グループ階層表示部７４に表示された各カテゴリーのうち、最適カテゴリーには、最適カテゴリーを示す表示（星マークのアイコン）が、さらに付されている。つまり、ツリー構造のカテゴリー体系を表示するとともに、当該カテゴリー体系を構成するカテゴリーのうち最適カテゴリーを他のカテゴリーと異なる態様で表示するようにしている。このように表示すれば、ツリー構造のカテゴリー体系における最適カテゴリーの位置づけが視覚的に把握し易くなり、好都合である。
【０１３７】
もちろん、全グループ階層表示部７４の表示から、ツリー構造のカテゴリーをたどって、所望の文書（データ）の内容をＣＲＴ４４上に表示させることもできる。
【０１３８】
このように、文書分類装置２においては、類似度の高いカテゴリー同士を順次統合して行くことにより、１個の文書のみを構成要素とする最下位のカテゴリーから全文書を構成要素とする最上位のカテゴリーに至るツリー構造のカテゴリー体系を構築するようにしている。また、カテゴリー体系を構成する各カテゴリーについて、当該カテゴリーを構成する文書相互の類似度に基づいて、当該カテゴリーのまとまりの良さを示す結合度を決定するようにしている。さらに、カテゴリーの結合度が当該カテゴリーを構成する直下のいずれのカテゴリーの結合度よりも少なくとも低くないカテゴリーのうち、ツリー構造の最も上位にあるカテゴリーを最適カテゴリーとして決定するようにしている。そして、最適カテゴリーと当該最適カテゴリーを構成する文書とを対応付けて記憶させるようにしている。
【０１３９】
したがって、傾向がまったく不明の大量の文書であっても、これらの文書相互の類似度に基づいてツリー構造のカテゴリー体系を構築することができる。このようにして構築したツリー構造のカテゴリー体系を構成する各カテゴリーについて、各カテゴリーを構成する文書相互の類似度に基づいて各カテゴリーの結合度を決定し、決定した結合度に基づいて各カテゴリーの中から最適カテゴリーを決定するようにしている。
【０１４０】
このようにして最適カテゴリーを決定することで、階層的なツリー構造のカテゴリー体系を、最適カテゴリーを構成要素とする１元的なカテゴリー体系、すなわち、ある最適カテゴリーが他の最適カテゴリーに含まれることがないような構造のカテゴリー体系、に変換することができる。
【０１４１】
さらに、最適カテゴリーと当該最適カテゴリーを構成する文書とを対応付けて記憶させることで、文書を一元的分類、つまり、ある最適カテゴリーに属する文書が他の最適カテゴリーに含まれることがないような分類、を行うことができる。
【０１４２】
このようにして、傾向がまったく不明の大量の文書を自動的に一元的分類することができるのである。
【０１４３】
なお、上述の実施形態において、図３の文書入力処理（ステップＳ１）が、図１の文書入力手段４に対応する。
【０１４４】
文書相互間類似度算出処理（ステップＳ２）が、文書相互間類似度決定手段６に対応する。図４のステップＳ１１が、図１の特徴ベクトル生成手段１６に対応する。ステップＳ１２が類似度算出手段１８に対応する。ステップＳ１３が類似度行列生成手段２０に対応する。
【０１４５】
カテゴリー体系構築・結合度算出処理（ステップＳ３）が、カテゴリー体系構築・結合度決定手段８に対応する。図５のステップＳ２１およびステップＳ２３が、図１のカテゴリー体系構築手段２２に対応する。ステップＳ２２が結合度決定手段２４に対応する。
【０１４６】
最適カテゴリー決定処理（ステップＳ４）が、最適カテゴリー決定手段１０に対応する。最適カテゴリーに各文書を配置する処理（ステップＳ５）が、文書再配置手段１２に対応する。最適カテゴリー表示処理（ステップＳ６）が、最適カテゴリー表示手段１４に対応する。
【０１４７】
また、請求項における、類似度の高いカテゴリー同士を順次統合して行くことにより、１個のデータのみを構成要素とする最下位のカテゴリーから全データを構成要素とする最上位のカテゴリーに至るツリー構造のカテゴリー体系を構築するステップが、実施形態におけるステップＳ２１およびステップＳ２３に対応する。
【０１４８】
請求項における、ツリー構造のカテゴリー体系を構成する各カテゴリーについて、当該カテゴリーを構成するデータ相互の類似度に基づいて、当該カテゴリーのまとまりの良さを示す結合度を決定するステップが、ステップＳ２２に対応する。
【０１４９】
請求項における、カテゴリーの結合度が当該カテゴリーを構成する直下のいずれのカテゴリーの結合度よりも少なくとも低くないカテゴリーのうち、ツリー構造の最も上位にあるカテゴリーを最適カテゴリーとして決定するステップが、ステップＳ４に対応する。
【０１５０】
請求項における、最適カテゴリーと当該最適カテゴリーを構成するデータとを対応付けて記憶させるステップが、ステップＳ５に対応する。
【０１５１】
また、請求項における、カテゴリーを構成するデータ相互の類似度を算出するステップが、ステップＳ２に対応する。
【０１５２】
請求項における、算出されたデータ相互の類似度に基づいて、当該カテゴリーを構成するデータ１個あたりのデータ相互の類似度の総和に対応する量を、当該カテゴリーのまとまりの良さを表す結合度として算出するステップが、ステップＳ２２に対応する。
【０１５３】
また、請求項における、ツリー構造のカテゴリー体系を構成する各カテゴリーについて、カテゴリーのまとまりの良さを表すカテゴリーの結合度を決定するステップが、ステップＳ２２に対応する。
【０１５４】
請求項における、カテゴリーの結合度が当該カテゴリーを構成する直下のいずれのカテゴリーの結合度よりも少なくとも低くないカテゴリーのうち、ツリー構造の最も上位にあるカテゴリーを最適カテゴリーとして決定するステップが、ステップＳ４に対応する。
【０１５５】
請求項における、最適カテゴリーと当該最適カテゴリーを構成するデータとを対応付けて記憶させるステップが、ステップＳ５に対応する。
【０１５６】
なお、上述の実施形態においては、新たにカテゴリーを統合するごとに新たなカテゴリーの結合度を算出するようにしたが、この発明はこれに限定されるものではない。たとえば、カテゴリーの統合を全て終了してから、まとめて各カテゴリーの結合度を算出するようにしてもよい。
【０１５７】
また、上述の実施形態においては、データの例として主として文書を例に説明したが、この発明はこれに限定されるものではない。たとえば、単純な実験データ等の他、画像データ、音声データ等、少なくとも一次元または多次元のベクトル空間で定義可能な特徴値を持つデータは、この発明の適用対象となる。
【０１５８】
なお、上述のブロック図、ハードウェア構成、フローチャート、表示画面、その他説明に用いた図面等は例として挙げたものであり、本願発明は、上述のブロック図等に限定されるものではない。
【０１５９】
なお、上述の実施形態においては、スタンドアローンで動作するコンピュータをもちいて文書分類装置２を実現する場合を例に説明したが、本発明はこれに限定されるものではない。
【０１６０】
たとえば、サーバコンピュータ（サーバ装置）のハードディスク（記録媒体）に上述の文書分類装置２を構成するプログラム等を記憶させておき、サーバコンピュータにより、インターネット（通信網）を介して１台以上のパーソナルコンピュータ（端末装置）をコントロールすることで、パーソナルコンピュータ側の入力装置（入力手段）から処理すべき文書を入力させ、入力された文書を分類する処理をサーバコンピュータ側で実行し、分類結果をパーソナルコンピュータ側に送信し、パーソナルコンピュータの表示装置（表示手段）に表示されるよう構成することもできる。
【０１６１】
また、本装置を構成するプログラムの一部をパーソナルコンピュータ側に持たせるようにしてもよい。もちろん、サーバコンピュータとして複数のコンピュータを用いてもよい。サーバコンピュータとして複数のコンピュータを用いる場合には、それら複数のコンピュータを通信回線（たとえばインターネット）を介して接続するようにしてもよい。
【０１６２】
なお、上の例では、通信網としてインターネットを例に説明したが、通信網はインターネットに限定されるものではない。たとえば、ＬＡＮ（ローカルエリアネットワーク）を介してサーバコンピュータとパーソナルコンピュータ等の端末装置とを接続するようなネットワークにおいて本発明を実現するようにしてもよい。
【０１６３】
なお、この実施形態においては、ＣＤ−ＲＯＭに記録されたプログラムをハードディスクにインストールして実行するようにしている。ただし、プログラムの保持形態はこれらに限定されるものではない。たとえば、本装置を構成するプログラムを、フロッピーディスク、磁気テープ等に記録するようにしてもよい。
【０１６４】
また、プログラムの実行方法も、特に限定されるものではない。たとえば、ＣＤ−ＲＯＭ、フロッピーディスク、磁気テープ等に記録されたプログラムを、ハードディスクにインストールすることなく、直接、実行するようにしてもよい。
【０１６５】
さらに、有線や無線の通信回線を介して当該プログラムを配信するようにしてもよい。また、当該プログラムをメインのサーバコンピュータにインストールしておき、たとえばインターネットなどの通信回線を介してローカルのサーバコンピュータに本システムのプログラムを実行させるようにしてもよい。
【０１６６】
また、プログラムやデータの記録態様は特に限定されるものではない。直接実行できる形で記録媒体に記録されている場合の他、たとえば、解凍して使用するように圧縮された形で記録媒体に記録されていてもよい。
【０１６７】
なお、上述の実施形態においては、コンピュータを用いて図１の各機能を実現する場合を例に説明したが、図１の機能の一部または全部をハードウェアロジックを用いて構成するようにしてもよい。
【図面の簡単な説明】
【図１】この発明の一実施形態によるデータ分類装置である文書分類装置２の構成を説明するためのブロック図である。
【図２】図１に示す文書分類装置２を、ＣＰＵ４２を用いて実現した場合のハードウェア構成の一例を示す図面である。
【図３】文書分類装置２における文書分類処理の手順の一例を示すフローチャートである。
【図４】図３に示す処理のうち、文書相互間類似度算出処理の詳細な処理手順の一例を示すフローチャートである。
【図５】図３に示す処理のうち、カテゴリー体系構築・結合度算出処理の詳細な処理手順の一例を示すフローチャートである。
【図６】図３に示す処理のうち、最適カテゴリー決定処理において用いられるサブプログラムの処理手順の一例を示すフローチャートである。
【図７】文書の特徴ベクトルおよび文書相互の類似度を説明するための図面である。
【図８】図８Ａ〜図８Ｃは、カテゴリー体系を構築する処理を説明するための図面である。
【図９】構築されたカテゴリー体系および最適カテゴリーを説明するための図面である。
【図１０】最適カテゴリーが表示されたＣＲＴ４４の表示画面を示す図面である。
【図１１】従来から行われている凝集法を説明するための模式図である。
【符号の説明】
１０・・・・・最適カテゴリー決定手段
１２・・・・・文書再配置手段
２４・・・・・結合度決定手段

Claims

複数のデータを１以上のカテゴリーに分類するためのデータ分類装置であって、
類似度の高いカテゴリー同士を順次統合して行くことにより、１個のデータのみを構成要素とする最下位のカテゴリーから全データを構成要素とする最上位のカテゴリーに至るツリー構造のカテゴリー体系を構築し、
ツリー構造のカテゴリー体系を構成する各カテゴリーについて、当該カテゴリーを構成するデータ相互の類似度に基づいて、当該カテゴリーのまとまりの良さを示す結合度を決定し、
カテゴリーの結合度が当該カテゴリーを構成する直下のいずれのカテゴリーの結合度よりも少なくとも低くないカテゴリーのうち、ツリー構造の最も上位にあるカテゴリーを最適カテゴリーとして決定し、
最適カテゴリーと当該最適カテゴリーを構成するデータとを対応付けて記憶させるデータ分類装置において、
カテゴリーG_aとカテゴリーG_bとを統合して得られる新たなカテゴリーをGとし、それぞれのカテゴリーの結合度をJ(G_a)、J(G_b)、J(G)とし、それぞれのカテゴリーを構成するデータの数をC(G_a)、C(G_b)、C(G)としたとき、カテゴリーGの結合度J(G)が、次式
J(G)=(J(G_a)・(C(G_a)-1)+J(G_b)・(C(G_b)-1)+β)/(C(G_a)+C(G_b)-1)
で表されることを特徴とするデータ分類装置、
ただし、カテゴリーG_aを構成するC(G_a)個のデータおよびカテゴリーG_bを構成するC(G_b)個のデータを、それぞれデータD_１、D_２、…、D_mおよびデータD_m+1、D_m+2、…、D_nとし、データD_iのデータD_jに対する類似度をA_ijとしたとき、上式のβは次式

で表現される。
コンピュータを、複数のデータを１以上のカテゴリーに分類するためのデータ分類装置として機能させるためのデータ分類プログラムであって、
類似度の高いカテゴリー同士を順次統合して行くことにより、１個のデータのみを構成要素とする最下位のカテゴリーから全データを構成要素とする最上位のカテゴリーに至るツリー構造のカテゴリー体系を構築し、
ツリー構造のカテゴリー体系を構成する各カテゴリーについて、当該カテゴリーを構成するデータ相互の類似度に基づいて、当該カテゴリーのまとまりの良さを示す結合度を決定し、
カテゴリーの結合度が当該カテゴリーを構成する直下のいずれのカテゴリーの結合度よりも少なくとも低くないカテゴリーのうち、ツリー構造の最も上位にあるカテゴリーを最適カテゴリーとして決定し、
最適カテゴリーと当該最適カテゴリーを構成するデータとを対応付けて記憶させる処理をコンピュータに実行させるためのデータ分類プログラムにおいて、
カテゴリーG_aとカテゴリーG_bとを統合して得られる新たなカテゴリーをGとし、それぞれのカテゴリーの結合度をJ(G_a)、J(G_b)、J(G)とし、それぞれのカテゴリーを構成するデータの数をC(G_a)、C(G_b)、C(G)としたとき、カテゴリーGの結合度J(G)が、次式
J(G)=(J(G_a)・(C(G_a)-1)+J(G_b)・(C(G_b)-1)+β)/(C(G_a)+C(G_b)-1)
で表されることを特徴とするデータ分類プログラム、
ただし、カテゴリーG_aを構成するC(G_a)個のデータおよびカテゴリーG_bを構成するC(G_b)個のデータを、それぞれデータD_１、D_２、…、D_mおよびデータD_m+1、D_m+2、…、D_nとし、データD_iのデータD_jに対する類似度をA_ijとしたとき、上式のβは次式

で表現される。
請求項２のデータ分類プログラムを記録したコンピュータ読み取り可能な記録媒体。
請求項１ないし３のいずれかの装置、プログラムまたは記録媒体において、
データ分類装置は、いずれの最適カテゴリーにも含まれないデータを構成要素とする最下位のカテゴリーを準最適カテゴリーとして最適カテゴリーと同様に取り扱うこと、
を特徴とするもの。
請求項１ないし４のいずれかの装置、プログラムまたは記録媒体において、
前記データは文書であり、データ相互の類似度を決定する基礎となるデータの特徴値として、文書の特徴を示すベクトルを用いること、を特徴とするもの。
請求項１ないし５のいずれかの装置、プログラムまたは記録媒体において、
データ分類装置は、最適カテゴリーを表示する際、当該最適カテゴリーの結合度および類似度のうち少なくとも一方を表示するよう制御すること、
を特徴とするもの。
請求項１ないし６のいずれかの装置、プログラムまたは記録媒体において、
データ分類装置は、ツリー構造のカテゴリー体系を表示するとともに、当該ツリー構造のカテゴリー体系を構成するカテゴリーのうち最適カテゴリーを他のカテゴリーと異なる態様で表示するよう制御すること、
を特徴とするもの。
コンピュータを用いて、複数のデータを１以上のカテゴリーに分類するためのデータ分類方法であって、
コンピュータが、類似度の高いカテゴリー同士を順次統合して行くことにより、１個のデータのみを構成要素とする最下位のカテゴリーから全データを構成要素とする最上位のカテゴリーに至るツリー構造のカテゴリー体系を構築するステップと、
コンピュータが、ツリー構造のカテゴリー体系を構成する各カテゴリーについて、当該カテゴリーを構成するデータ相互の類似度に基づいて、当該カテゴリーのまとまりの良さを示す結合度を決定するステップと、
コンピュータが、カテゴリーの結合度が当該カテゴリーを構成する直下のいずれのカテゴリーの結合度よりも少なくとも低くないカテゴリーのうち、ツリー構造の最も上位にあるカテゴリーを最適カテゴリーとして決定するステップと、
コンピュータが、最適カテゴリーと当該最適カテゴリーを構成するデータとを対応付けて記憶させるステップと、
を備えたデータ分類方法において、
カテゴリーG _a とカテゴリーG _b とを統合して得られる新たなカテゴリーをGとし、それぞれのカテゴリーの結合度をJ(G _a )、J(G _b )、J(G)とし、それぞれのカテゴリーを構成するデータの数をC(G _a )、C(G _b )、C(G)としたとき、カテゴリーGの結合度J(G)が、次式
J(G)=(J(G _a )・(C(G _a )-1)+J(G _b )・(C(G _b )-1)+β)/(C(G _a )+C(G _b )-1)
で表されることを特徴とするデータ分類方法、
ただし、カテゴリーG _a を構成するC(G _a )個のデータおよびカテゴリーG _b を構成するC(G _b )個のデータを、それぞれデータD _１、D _２、…、D _m およびデータD _m+1 、D _m+2 、…、D _n とし、データD _i のデータD _j に対する類似度をA _ij としたとき、上式のβは次式

で表現される。
コンピュータを用いて、ツリー構造のカテゴリー体系を一元的なカテゴリー体系に変換する方法であって、
コンピュータが、ツリー構造のカテゴリー体系を構成する各カテゴリーについて、カテゴリーのまとまりの良さを表すカテゴリーの結合度を決定するステップと、
コンピュータが、カテゴリーの結合度が当該カテゴリーを構成する直下のいずれのカテゴリーの結合度よりも少なくとも低くないカテゴリーのうち、ツリー構造の最も上位にあるカテゴリーを最適カテゴリーとして決定するステップと、
コンピュータが、最適カテゴリーと当該最適カテゴリーを構成するデータとを対応付けて記憶させるステップと、
を備えたカテゴリー体系変換方法において、
カテゴリーG _a とカテゴリーG _b とを統合して得られる新たなカテゴリーをGとし、それぞれのカテゴリーの結合度をJ(G _a )、J(G _b )、J(G)とし、それぞれのカテゴリーを構成するデータの数をC(G _a )、C(G _b )、C(G)としたとき、カテゴリーGの結合度J(G)が、次式
J(G)=(J(G _a )・(C(G _a )-1)+J(G _b )・(C(G _b )-1)+β)/(C(G _a )+C(G _b )-1)
で表されることを特徴とするカテゴリー体系変換方法、
ただし、カテゴリーG _a を構成するC(G _a )個のデータおよびカテゴリーG _b を構成するC(G _b )個のデータを、それぞれデータD _１、D _２、…、D _m およびデータD _m+1 、D _m+2 、…、D _n とし、データD _i のデータD _j に対する類似度をA _ij としたとき、上式のβは次式

で表現される。