JP4682339B2 - データ分類装置およびデータ分類方法 - Google Patents

データ分類装置およびデータ分類方法 Download PDF

Info

Publication number
JP4682339B2
JP4682339B2 JP2001162654A JP2001162654A JP4682339B2 JP 4682339 B2 JP4682339 B2 JP 4682339B2 JP 2001162654 A JP2001162654 A JP 2001162654A JP 2001162654 A JP2001162654 A JP 2001162654A JP 4682339 B2 JP4682339 B2 JP 4682339B2
Authority
JP
Japan
Prior art keywords
category
data
degree
categories
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001162654A
Other languages
English (en)
Other versions
JP2002352244A (ja
Inventor
憲明 山崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Solutions Ltd
Original Assignee
Hitachi Solutions Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Solutions Ltd filed Critical Hitachi Solutions Ltd
Priority to JP2001162654A priority Critical patent/JP4682339B2/ja
Publication of JP2002352244A publication Critical patent/JP2002352244A/ja
Application granted granted Critical
Publication of JP4682339B2 publication Critical patent/JP4682339B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
この発明はデータ分類装置およびデータ分類方法等に関し、とくに複数のデータを1以上のカテゴリーに分類する技術等に関する。
【0002】
【従来の技術】
多数の文書など、多数のデータを、複数のカテゴリーに分類する方法がいくつか知られている。たとえば、予めカテゴリーとその特徴値とを設定しておき、各データの特徴値がどのカテゴリーの特徴値に近いかによって、それらのデータを各カテゴリーに分類する方法がある。この方法を、ここでは「教師あり分類法」と呼ぶこととする。
【0003】
教師あり分類法は、データの傾向が予め分かっている場合には効果があるが、データの傾向が予め分からない場合には、そもそも、カテゴリーとその特徴値の設定ができないため、適用することができない。
【0004】
予めカテゴリーとその特徴値とを設定しておかなくても、カテゴリーの数さえ設定しておけば、データの特徴値空間を自動的に分割してカテゴリーを生成できる方法(K-means法)も知られている。しかし、K-means法においても、少なくともカテゴリーの数を設定しうる程度にデータの傾向が分かっている必要があり、データ傾向がまったく不明の大量のデータに適用することは難しい。
【0005】
このような問題点を解決する方法として、凝集法が知られている。図11は、従来から行われている凝集法を説明するための模式図である。説明の便宜のため、図11においては、分類の対象となるデータD1〜D14として、ある集団を構成するメンバーの年齢を想定し、年齢をそのまま特徴値として用いている。したがって、この場合、特徴値はスカラー量で表現される。図11の各データD1〜D14を表す矩形内に記載された数値が特徴値(年齢)である。図11に基づいて、凝集法を用いてこれらのデータD1〜D14を分類する方法を説明する。
【0006】
まず、特徴値の近いデータ同士を統合することにより、カテゴリーを形成する。たとえば、特徴値「8」のデータD4と特徴値「9」のデータD5とを統合して、カテゴリー102を形成する。同様に、特徴値「11」、「12」および「13」のデータD6、D7およびD8の3つを統合して、別のカテゴリー104を形成する。
【0007】
つぎに、未だカテゴリーを形成していないデータや、上述のようにして形成されたカテゴリーを、特徴値の近いもの同士統合して、さらに別のカテゴリーを形成する。たとえば、上述のカテゴリー102とカテゴリー104とを統合して、上位のカテゴリー106を形成する。この場合、カテゴリー106には、特徴値「8」、「9」、「11」、「12」および「13」の5つのデータD4〜D8が含まれることになる。
【0008】
全てのデータを含む最上位のカテゴリー108が形成されるまで、このような操作を繰り返すことにより、ツリー構造のカテゴリー体系を得ることができる。
【0009】
このように、凝集法を用いれば、各データの特徴値さえ与えられていれば、教師あり分類法のように予めカテゴリーとそのカテゴリーの特徴値を設定しておいたり、K-means法のようにカテゴリーの数を設定しておいたりすることなく、自動的にツリー構造のカテゴリー体系を得ることができる。このため、データ傾向がまったく不明の大量のデータを分類して、それらの傾向を知ることができる。
【0010】
【発明が解決しようとする課題】
しかしながら、従来の凝集法には次のような問題点があった。このような方法を用いてデータを分類する場合、データ傾向をツリー構造の階層的なカテゴリー体系として把握するには都合がよいが、各データについてどの階層のカテゴリーを採用するのが最適であるかまでは知ることができなかった。
【0011】
たとえば、図11に示す特徴値「8」のデータは、カテゴリー102、カテゴリー106およびさらに上位のカテゴリーのいずれにも属するが、どのカテゴリーに属するとするのが最も良いかは、最終的に人の判断に頼らざるをえなかった。このため、教師あり分類法やK-means法のように、各データが属するカテゴリーをそれぞれ1つだけ決定するような分類(1元的分類)を自動的に行うことができなかった。
【0012】
この発明は、このような従来のデータ分類方法の問題点を解決し、傾向がまったく不明の大量のデータを自動的に一元的分類することのできるデータ分類装置およびデータ分類方法等を提供することを目的とする。
【0013】
【発明の作用および効果】
請求項1のデータ分類装置、請求項2のデータ分類プログラム、請求項3のプログラムを記録した記録媒体および請求項のデータ分類方法においては、類似度の高いカテゴリー同士を順次統合して行くことにより、1個のデータのみを構成要素とする最下位のカテゴリーから全データを構成要素とする最上位のカテゴリーに至るツリー構造のカテゴリー体系を構築し、カテゴリー体系を構成する各カテゴリーについて、当該カテゴリーを構成するデータ相互の類似度に基づいて、当該カテゴリーのまとまりの良さを示す結合度を決定し、カテゴリーの結合度が当該カテゴリーを構成する直下のいずれのカテゴリーの結合度よりも少なくとも低くないカテゴリーのうち、ツリー構造の最も上位にあるカテゴリーを最適カテゴリーとして決定し、最適カテゴリーと当該最適カテゴリーを構成するデータとを対応付けて記憶させることを特徴とする。
【0014】
したがって、傾向がまったく不明の大量のデータであっても、これらのデータ相互の類似度に基づいてツリー構造のカテゴリー体系を構築することができる。このようにして構築したツリー構造のカテゴリー体系を構成する各カテゴリーについて、各カテゴリーを構成するデータ相互の類似度に基づいて各カテゴリーの結合度を決定し、決定した結合度に基づいて各カテゴリーの中から最適カテゴリーを決定するようにしている。
【0015】
このようにして最適カテゴリーを決定することで、階層的なツリー構造のカテゴリー体系を、最適カテゴリーを構成要素とする1元的なカテゴリー体系、すなわち、ある最適カテゴリーが他の最適カテゴリーに含まれることがないような構造のカテゴリー体系、に変換することができる。
【0016】
さらに、最適カテゴリーと当該最適カテゴリーを構成するデータとを対応付けて記憶させることで、データを一元的に分類すること、つまり、ある最適カテゴリーに属するデータが他の最適カテゴリーに含まれることがないように分類すること、ができる。
【0017】
すなわち、傾向がまったく不明の大量のデータを自動的に一元的分類することができる。
【0020】
請求項1ないし3の装置、プログラムおよび記録媒体においては、カテゴリーGaとカテゴリーGbとを統合して得られる新たなカテゴリーをGとし、それぞれのカテゴリーの結合度をJ(Ga)、J(Gb)、J(G)とし、それぞれのカテゴリーを構成する文書の数をC(Ga)、C(Gb)、C(G)としたとき、下記の式(1)にしたがって、カテゴリーGの結合度J(G)を算出するようにしている。
【0021】
[式(1)]
【0022】
J(G)=(J(Ga)・(C(Ga)-1)+J(Gb)・(C(Gb)-1)+β)/(C(Ga)+C(Gb)-1)
【0023】
ただし、カテゴリーGaを構成するC(Ga)個のデータおよびカテゴリーGbを構成するC(Gb)個のデータを、それぞれデータD、D、...、DmおよびデータDm+1、Dm+2、...、Dnとし、文書Diの文書Djに対する類似度をAijとしたとき、上式のβは式(2)で表現される。
【0024】
[式(2)]
【0025】
Figure 0004682339
【0026】
したがって、このような漸化式の形で表現された式に基づいて結合度J(G)を算出することで、既に求めてあるJ(Ga)、J(Gb)の値を利用できるため、演算時間を大幅に短縮することができる。
【0027】
請求項の装置、プログラムおよび記録媒体においては、データ分類装置は、いずれの最適カテゴリーにも含まれないデータを構成要素とする最下位のカテゴリーを準最適カテゴリーとして最適カテゴリーと同様に取り扱うことを特徴とする。
【0028】
データ総数が少ないために他のデータから孤立したように見えるデータであっても、データ総数が増えると、そのようなデータをカテゴリーとして分類するのが妥当なケースがある。したがって、このようなケースにおいては、いずれの最適カテゴリーにも含まれないデータを構成要素とする最下位のカテゴリーを準最適カテゴリーとして最適カテゴリーと同様に取り扱うことで、妥当な分類を行うことができる。
【0029】
請求項の装置、プログラムおよび記録媒体においては、データは文書であり、データ相互の類似度を決定する基礎となるデータの特徴値として、文書の特徴を示すベクトルを用いることを特徴とする。
【0030】
したがって、文書の特徴を定量的に示すベクトルを用いて文書相互の類似度を定量的に決定することで、決定された文書相互の類似度に基づいて、一般的なデータと同様に、傾向がまったく不明の大量の文書を自動的に一元的分類することができる。
【0031】
請求項の装置、プログラムおよび記録媒体においては、データ分類装置は、最適カテゴリーを表示する際、当該最適カテゴリーの結合度および類似度のうち少なくとも一方を表示するよう制御することを特徴とする。
【0032】
したがって、データ分類装置の表示手段には、最適カテゴリーが表示される際、当該最適カテゴリーの結合度および類似度のうち少なくとも一方が表示される。このため、各最適カテゴリーがどの程度まとまりのあるカテゴリーであるか、および/または、各最適カテゴリーを構成するデータ相互がどの程度類似しているかを、容易に把握することが可能となる。
【0033】
請求項の装置、プログラムおよび記録媒体において、データ分類装置は、ツリー構造のカテゴリー体系を表示するとともに、当該ツリー構造のカテゴリー体系を構成するカテゴリーのうち最適カテゴリーを他のカテゴリーと異なる態様で表示するよう制御することを特徴とする。
【0034】
したがって、データ分類装置の表示手段には、ツリー構造のカテゴリー体系が表示されるとともに、当該ツリー構造のカテゴリー体系を構成するカテゴリーのうち最適カテゴリーが、他のカテゴリーと異なる態様で表示される。このため、ツリー構造のカテゴリー体系における最適カテゴリーの位置付けを視覚的に把握することが容易となる。
【0037】
請求項のカテゴリー体系変換方法は、コンピュータを用いて、ツリー構造のカテゴリー体系を一元的なカテゴリー体系に変換する方法であって、ツリー構造のカテゴリー体系を構成する各カテゴリーについて、カテゴリーのまとまりの良さを表すカテゴリーの結合度を決定するステップと、カテゴリーの結合度が当該カテゴリーを構成する直下のいずれのカテゴリーの結合度よりも少なくとも低くないカテゴリーのうち、ツリー構造の最も上位にあるカテゴリーを最適カテゴリーとして決定するステップと、最適カテゴリーと当該最適カテゴリーを構成するデータとを対応付けて記憶させるステップとを備えたことを特徴とする。
【0038】
したがって、このようにして決定された最適カテゴリーを構成要素とするカテゴリー体系は、ある最適カテゴリーが他の最適カテゴリーに含まれることがないような構造のカテゴリー体系となっている。すなわち、ツリー構造のカテゴリー体系を、最適カテゴリーを構成要素とする1元的なカテゴリー体系に変換することができる。
【0039】
【発明の実施の形態】
図1は、この発明の一実施形態によるデータ分類装置である文書分類装置2の構成を説明するためのブロック図である。文書分類装置2は、複数のデータである複数の文書を1以上の最適なカテゴリーに自動的に分類するための装置である。
【0040】
文書分類装置2は、データ入力手段である文書入力手段4、データ相互間類似度決定手段である文書相互間類似度決定手段6、カテゴリー体系構築・結合度決定手段8、最適カテゴリー決定手段10、データ再配置手段である文書再配置手段12、および、最適カテゴリー表示手段14を備えている。
【0041】
文書入力手段4は、与えられた複数の文書を文書分類装置2に取り込み、文書相互間類似度決定手段6に与える。
【0042】
文書相互間類似度決定手段6は、与えられた文書相互間の類似度を決定する手段であって、特徴ベクトル生成手段16、類似度算出手段18,および、類似度行列生成手段20を備えている。
【0043】
特徴ベクトル生成手段16は、各文書ごとに、当該文書の特徴に基づいて、特徴値である特徴ベクトルを生成する。特徴ベクトルとは、各文書が、予め設定されたp個の特徴に、それぞれどの程度合致するかを表したものであり、p次元の特徴空間において定義されるベクトルである。
【0044】
類似度算出手段18は、各文書の特徴ベクトルに基づいて、各文書相互間の類似度を算出する。この実施形態においては、対比する2つの文書の特徴ベクトルのなす角の余弦を百分率で表した数字を、当該2つの文書の類似度と定義している。たとえば、同一文書の類似度は「100」であり、全く無関係の2つの文書の類似度は「0」となる。
【0045】
もちろん、2つの文書の類似度は、これに限定されるものではなく、要は、2つの文書の特徴ベクトルの似ている程度を表現できるものであれば何でもよい。たとえば、特徴ベクトル空間が1次元の場合には、ベクトルの長さの差(または比)を利用して類似度を算出するようにしてもよい。
【0046】
類似度行列生成手段20は、各文書相互間の類似度をマトリックスで表現した類似度行列を生成する。文書の総数がnである場合、類似度行列はn次の正方行列となる。
【0047】
カテゴリー体系構築・結合度決定手段8は、各文書相互間の類似度に基づいてツリー構造のカテゴリー体系を構築するとともに、カテゴリー体系を構成する各カテゴリーの結合度を決定する手段であって、カテゴリー体系構築手段22および結合度決定手段24を備えている。
【0048】
カテゴリー体系構築手段22は、類似度の高いカテゴリー同士を順次統合して行くことにより、1個の文書のみを構成要素とする最下位のカテゴリーから全文書を構成要素とする最上位のカテゴリーに至るツリー構造のカテゴリー体系を構築する。
【0049】
類似度の高いカテゴリーを順次統合する手順は特に限定されるものではないが、たとえば、カテゴリー相互間の類似度が最も高い2つのカテゴリーをまとめて新たな1つのカテゴリーに統合する処理を繰り返すようにすることができる。もちろん、カテゴリー相互間の類似度が最も高い3つ以上のカテゴリーを一度にまとめて新たな1つのカテゴリーに統合するようにしてもよい。
【0050】
結合度決定手段24は、ツリー構造のカテゴリー体系を構成する各カテゴリーについて、当該カテゴリーを構成する文書相互の類似度に基づいて、当該カテゴリーのまとまりの良さを示す結合度を決定する。この実施形態においては、カテゴリーの結合度を、当該カテゴリーを構成する文書1個あたりの文書相互の類似度の総和に対応する量としている。
【0051】
さらに具体的には、カテゴリーGaとカテゴリーGbとを統合して得られる新たなカテゴリーをGとし、それぞれのカテゴリーの結合度をJ(Ga)、J(Gb)、J(G)とし、それぞれのカテゴリーを構成する文書の数をC(Ga)、C(Gb)、C(G)としたとき、下記の式(1)にしたがって、カテゴリーGの結合度J(G)を算出するようにしている。
【0052】
[式(1)]
【0053】
J(G)=(J(Ga)・(C(Ga)-1)+J(Gb)・(C(Gb)-1)+β)/(C(Ga)+C(Gb)-1)
【0054】
ただし、カテゴリーGaを構成するC(Ga)個のデータおよびカテゴリーGbを構成するC(Gb)個のデータを、それぞれデータD、D、...、DmおよびデータDm+1、Dm+2、...、Dnとし、文書Diの文書Djに対する類似度をAijとしたとき、上式のβは式(2)で表現される。
【0055】
[式(2)]
【0056】
Figure 0004682339
【0057】
最適カテゴリー決定手段10は、カテゴリーの結合度が当該カテゴリーを構成する直下のいずれのカテゴリーの結合度よりも少なくとも低くないカテゴリーのうち、ツリー構造の最も上位にあるカテゴリーを最適カテゴリーとして決定する。なお、この実施形態においては、カテゴリーの結合度が当該カテゴリーを構成する直下のいずれのカテゴリーの結合度よりも高いカテゴリーのうち、ツリー構造の最も上位にあるカテゴリーを最適カテゴリーとして決定するようにしている。
【0058】
文書再配置手段12は、最適カテゴリーと当該最適カテゴリーを構成する文書とを対応付けて記憶させる。また、最適カテゴリー表示手段14は、決定された最適カテゴリーを表示する。なお、この実施形態においては、最適カテゴリー表示手段14は、ツリー構造のカテゴリー体系と併せて最適カテゴリーを表示するようにしている。
【0059】
なお、いずれの最適カテゴリーにも含まれない文書を構成要素とする最下位のカテゴリーを準最適カテゴリーとして最適カテゴリーと同様に取り扱うようにすることもできる。この場合、準最適カテゴリーと当該準最適カテゴリーを構成する文書とを対応付けて記憶し、最適カテゴリー表示手段14には、最適カテゴリーとともに準最適カテゴリーを表示するようにしてもよい。しかし、この発明はこれに限定されるものではなく、たとえば、いずれの最適カテゴリーにも含まれない文書を独立の文書として扱うようにしてもよい。
【0060】
図2は、図1に示す文書分類装置2を、CPU42を用いて実現した場合のハードウェア構成の一例を示す図面である。
【0061】
文書分類装置2は、データ分類プログラムである文書分類プログラムを記録した記録媒体であるCD−ROM(コンパクトディスク・リードオンリーメモリー)54を駆動するためのCD−ROMドライブ52、同じく記録媒体であり記憶手段でもあるハードディスク50を備えている。
【0062】
CD−ROM54に記録された該プログラムは、CD−ROMドライブ52を介して、ハードディスク50にインストールされる。
【0063】
文書分類装置2は、さらに、ハードディスク50にインストールされたプログラムを実行する制御手段であるCPU42,表示手段であるCRT44,入力手段であるキーボード46およびマウス48を備えている。
【0064】
図2のCPU42が、図1の文書入力手段4、文書相互間類似度決定手段6、カテゴリー体系構築・結合度決定手段8、最適カテゴリー決定手段10、および、文書再配置手段12に対応する。また、図2のCRT44が、図1の最適カテゴリー表示手段14に対応する。
【0065】
図3は、文書分類装置2における文書分類処理の手順の一例を示すフローチャートである。図4は、図3に示す処理のうち、文書相互間類似度算出処理の詳細な処理手順の一例を示すフローチャートである。図5は、図3に示す処理のうち、カテゴリー体系構築・結合度算出処理の詳細な処理手順の一例を示すフローチャートである。図6は、図3に示す処理のうち、最適カテゴリー決定処理において用いられるサブプログラムの処理手順の一例を示すフローチャートである。
【0066】
図7は、文書の特徴ベクトルおよび文書相互の類似度を説明するための図面である。図8A〜図8Cは、カテゴリー体系を構築する処理を説明するための図面である。図9は、構築されたカテゴリー体系および最適カテゴリーを説明するための図面である。図10は最適カテゴリーが表示されたCRT44の表示画面を示す図面である。
【0067】
図2〜図10を用いて、文書分類装置2を用いた文書分類処理について説明する。図2に示すCPU42は、まず、記憶手段であるハードディスク50に記憶されているn個の文書を取り込む(図3、ステップS1)。
【0068】
つぎに、CPU42は、取り込んだ各文書相互間の類似度を算出する(図3、ステップS2)。ステップS2の詳細な処理手順を図4に示す。すなわち、図4に示すように、CPU42は、まず、取り込んだ各文書の特徴ベクトルを算出する(図4,ステップS11)。
【0069】
このステップにおいては、特徴ベクトル空間の各軸を構成するキーワードと各文書に含まれる単語とをマッチングすることにより、各文書の特徴ベクトルを算出するようにしている。
【0070】
説明の便宜上、図7に示すような第1軸(犬軸)AX1、第2軸(好き軸)AX2および第3軸(男軸)AX3の3次元の特徴ベクトル空間を想定する。たとえば、文書D1が「犬の好きな男」であるとすれば、文書D1は「犬」、「好き」および「男」を含むから、第1軸AX1、第2軸AX2、第3軸AX3の成分が全て「1」になる。したがって、文書D1の特徴ベクトルV1は、図7のようになる。
【0071】
同様に、文書D2が「犬の好きな子供」であるとすれば、文書D2は「犬」、「好き」を含むが「男」を含まないから、第1軸AX1、第2軸AX2、第3軸AX3の成分は、それぞれ、「1」、「1」、「0」となる。したがって、文書D2の特徴ベクトルV2は、図7のようになる。
【0072】
このようにして全ての文書D1〜Dnの特徴ベクトルV1〜Vnを算出すると、CPU42は、つぎに各文書相互の類似度を算出する(図4,ステップS12)。この実施形態においては、文書Diの文書Djに対する類似度Aijを、特徴ベクトル空間における文書Diの特徴ベクトルViと文書Djの特徴ベクトルVjとのなす角θij(図7、角θ12参照)の余弦(cosθij)を百分率で表した数値で表現している。一般的には、データ相互間の類似度は、データ相互間の特徴値の類似度として把握することができる。
【0073】
なお、文書Diの文書Djに対する類似度Aijと、文書Djの文書Diに対する類似度Ajiとは等しいので、どちらか一方のみを計算しておけばよい。また、自己との類似度Aiiは計算する必要がないので、n個の文書の類似度の計算は、(n2-n)/2回行われることになる。
【0074】
つぎに、CPU42は、算出した類似度に基づいて、類似度行列を生成する(図4,ステップS13)。類似度行列は、前ステップにおいて生成された類似度Aijを要素とするn次正方行列である。ただし、対角成分Aiiは全て「100」となる。
【0075】
説明の便宜のため、文書数n=5の場合の類似度行列60を図8Aに示す。図8Aおよび図8Bでは、対角成分Aiiを棒線で表している。以後の計算では対角成分Aiiを用いないから、便宜上、このように表現しているのである。なお、類似度行列は、成分Aij(i>j)を全て「0」とした下方三角行列として表現される場合もある。
【0076】
つぎに、CPU42は、生成した類似度行列に基づいて、取り込んだ全文書についてのツリー構造のカテゴリー体系を構築するとともに、当該カテゴリー体系を構成する各カテゴリーの結合度を算出する(図3、ステップS3)。ステップS3の詳細な処理手順を図5に示す。すなわち、図5に示すように、CPU42は、まず、最も類似度の高い2つのカテゴリーを統合する(図5,ステップS21)。
【0077】
統合前においては、各文書D1〜Dnが、それぞれ1つのカテゴリーG1〜Gnを構成しているものとする。したがって、カテゴリーG1〜Gnの特徴ベクトルは、各文書D1〜Dnの特徴ベクトルV1〜Vnに一致する。カテゴリーG1〜Gn相互間の類似度とは、各文書D1〜Dn相互間の類似度Aijにほかならない。つまり、CPU42は、このステップにおいて、まず、図8Aに示す類似度行列60に基づいて最も類似度の高い2つの文書を統合するのである。
【0078】
図8Aにおいて、対角成分を除いて最も高い類似度が、たとえば、A23(=A32)であったとする。CPU42は、カテゴリーG2(文書D2)とカテゴリーG3(文書D3)とを統合して新たなカテゴリーGxを生成するとともに、新たなカテゴリーGxの特徴ベクトルVxを決定する。
【0079】
特徴ベクトルVxの決定方法は特に限定されるものではないが、たとえば、カテゴリーGxを構成している複数のカテゴリーの特徴ベクトルを平均したベクトルをあらたな特徴ベクトルVxとしたり、カテゴリーGxを構成している複数のカテゴリーの特徴ベクトルのひとつ(たとえば、カテゴリーGxを構成している複数のカテゴリーの特徴ベクトルのうち、カテゴリーGxとの類否が問題となっている他のカテゴリーの特徴ベクトルに最も近いカテゴリーの特徴ベクトル)をあらたな特徴ベクトルVxとしたりすることができる。一般的には、カテゴリーの特徴値は、当該カテゴリーを構成するデータの特徴値に基づいて決定することができる。
【0080】
CPU42は、このようにして決定された新たなカテゴリーGxの特徴ベクトルVxと、統合されなかった他のカテゴリーG1、G4、G5の特徴ベクトルとの類似度を算出し、算出結果に基づいて、類似度行列を書き直す。
【0081】
すなわち、図8Aに示す類似度行列60から、カテゴリーG2およびカテゴリーG3に関連する要素を除去し、代わりに、カテゴリーG2とカテゴリーG3とを統合した新たなカテゴリーGxと統合されなかった他のカテゴリーG1、G4、G5との類似度を挿入する。このようにして書き直された類似度行列62を図8Bに示す。このように、カテゴリーの統合を1回行うことにより、類似度行列の次数は1次小さくなることになる。
【0082】
つぎに、CPU42は、あらたなカテゴリーGxの結合度J(Gx)を算出する(図5,ステップS22)。算出式の一般形は、上述の式(1)、(2)で表される。ここでは、たとえば類似度A23=90である場合を例に、結合度J(Gx)を算出してみる。
【0083】
式(1)において、G=Gx、Ga=G2、Gb=G3とおけば、C(G)=C(G3)=1であるから、J(Gx)=βとなる。
【0084】
一方、式(2)から分かるように、βは、統合前の一方のカテゴリーを形成する各文書から見た他方のカテゴリーを形成する各文書との類似度の総和と、統合前の他方のカテゴリーを形成する各文書から見た一方のカテゴリーを形成する各文書との類似度の総和との和をとったものである。したがって、上述のケースでは、β=A23+A32=180となる。つまり、あらたなカテゴリーGxの結合度J(Gx)=180となる。
【0085】
ここで、式(1)、(2)の妥当性について考察をしておく。まず、「カテゴリーの内部エネルギーE(G)」なる概念を導入する。カテゴリーの内部エネルギーE(G)を、1つのまとまりをなすカテゴリーを構成している各文書をバラバラにするために必要な総エネルギーと定義する。
【0086】
すなわち、あるカテゴリーを構成している1つの文書を当該カテゴリーを構成している他の全ての文書から引き離すのに必要なエネルギーを、当該カテゴリーを構成する各文書について合計したものを、当該カテゴリーの内部エネルギーE(G)とする。
【0087】
ここで、2つの文書が類似しているほど引き離すのが困難であるとして、2つの文書Di、Djを引き離すエネルギーは2つの文書DiとDjの類似度Aijに等しい、という仮定をおくと、構成文書数C(G)=nのカテゴリーGの内部エネルギーE(G)は、次式(3)で表すことができる。
【0088】
[式(3)]
【0089】
Figure 0004682339
【0090】
なお、図8Aに示す行列の対角成分Aiiを除く要素の総和が、構成文書数C(G)=5の場合におけるカテゴリーの内部エネルギーE(G)となっている。
【0091】
カテゴリーGが、2つのカテゴリーGa(構成文書数C(Ga)=m)とGb(構成文書数C(Gb)=n-m)とを統合して形成された新たなカテゴリーであるとすると、式(3)は次式(4)で表現することができる。
【0092】
[式(4)]
【0093】
Figure 0004682339
【0094】
一方、1つの文書のみを構成要素とするカテゴリー(すなわちC(G)=1)の内部エネルギーは「0」であることを考慮すれば、構成文書数C(G)=nのカテゴリーGの内部エネルギーE(G)は、次式(5)のように表すこともできる。
【0095】
[式(5)]
【0096】
E(G)=J(G)・(n-1)
【0097】
式(5)において、J(G)は、あるカテゴリーを構成している1つの文書を当該カテゴリーを構成している他の全ての文書から引き離すのに必要なエネルギーの平均値、すなわち、あるカテゴリーから1つの文書を引き離すのに必要な平均的なエネルギーと考えられる。
【0098】
カテゴリーから文書を引き離すのに要するエネルギーが高いほど、そのカテゴリーはまとまりが良いと考えられる。そこで、本願では、J(G)を、カテゴリーGのまとまりの良さを表す結合度(カテゴリーGの硬さ)と位置づけ、良いカテゴリーか否かを判断する基準としたのである。
【0099】
なお、式(5)の形から、カテゴリーGの結合度J(G)は、分子数n、分子の運動エネルギーを無視した場合の内部エネルギーE(G)、であるような物質の硬度と類似していることが分かる。
【0100】
式(4)および式(5)から導かれたのが、結合度J(G)を示す式(1)、(2)である。式(1)、(2)を用いると、既に求めてあるJ(Ga)、J(Gb)を利用できるので、演算時間が短くて済むという利点がある。
【0101】
なお、演算時間が長くはなるものの、式(3)および式(5)から導かれる次式(6)を用いて結合度J(G)を算出することもできる。
【0102】
[式(6)]
【0103】
Figure 0004682339
【0104】
式(6)から分かるように、結合度J(G)は、あるカテゴリーを構成している1つの文書と当該カテゴリーを構成している他の文書との類似度の総和の平均的な値と見ることもできる。つまり、結合度J(G)は、カテゴリーを構成する個々の文書同士の類似度が高いほど高くなり、しかも、カテゴリーを構成する文書数が多いほど高くなることになる。
【0105】
したがって、カテゴリーの結合度は、上述の各式に限定されるものではなく、カテゴリーを構成する文書同士の類似度が高いほど高くなり、かつ、カテゴリーを構成する文書数が多いほど高くなるような条件を満たす関数を用いればよいことがわかる。さらに、ニューラルネットワークのような自己学習型の情報処理手段を用いて、上記条件を満足するような結合度を算出させるようにしてもよい。
【0106】
さて、このようにして、新たなカテゴリーの結合度が算出されると、CPU42は、生成された新たなカテゴリーが、与えられた全文書を含むか否かを判断する(図5,ステップS23)。新たなカテゴリーが全文書を包含しない場合には、CPU42は制御をステップS21に戻し、今度は書き直された類似度行列62(図8B参照)に基づいて、最も類似度の高い2つのカテゴリー(文書)を統合するのである。
【0107】
以下、CPU42は、生成された新たなカテゴリーが全文書を含むようになるまで、ステップS21〜ステップS23の処理を繰り返す。このようにして生成された最後の類似度行列64を図8Cに示す。なお、図8Cに示す類似度行列64は、全文書を包含する最上位のカテゴリーGrの自己類似度Arrのみを要素とする1行1列の行列である。
【0108】
このようにして、与えられたn個の文書D1〜Dnについてのツリー構造のカテゴリー体系が構築されるとともに、当該カテゴリー体系を構成する各カテゴリーの結合度が算出される。
【0109】
図9は、このようにして構築されたツリー構造のカテゴリー体系、および当該カテゴリー体系を構成する各カテゴリーの結合度を説明するための図面である。ただし図9においては、説明の便宜のため、図11にて説明した例と同じ例を用いている。すなわち、図9の例においては、分類の対象となるデータとして、文書ではなく、ある集団を構成するメンバーの年齢を想定し、年齢をそのまま特徴値として用いている。図9の各データD1〜D14を示す矩形内に記載された数値が特徴値(年齢)である。
【0110】
つまり、データ数n=14とし、各データD1〜D14の特徴を表す14個の特徴値を全てスカラー量Si(1次元の特徴ベクトル)で表現している。また、類似度Aij(パーセント)を次式(7)で算出するようにしている。
【0111】
[式(7)]
【0112】
Aij = (1/|Si-Sj|)×100
【0113】
また、図9の例においては、カテゴリー相互間の類似度が最も高いカテゴリーが3つ以上ある場合、それら3つ以上のカテゴリーを一度にまとめて新たな1つのカテゴリーに統合するようにしている。
【0114】
また、統合により生成された新たなカテゴリーを構成している複数の下位のカテゴリーの特徴ベクトルのうち、あらたなカテゴリーとの類否が問題となっている他のカテゴリーの特徴ベクトルに最も近いカテゴリーの特徴ベクトルを、新たなカテゴリーの特徴ベクトルとしている。
【0115】
図9から分かるように、これまでの処理によって、1個のデータのみを構成要素とする最下位のカテゴリーである14個のカテゴリーG1〜G14(それぞれ、データD1〜D14のうち1つのみを構成要素としている)から、中間位のカテゴリーである10個のカテゴリーG15〜G24を経て、最上位のカテゴリーであるカテゴリーGrに至るツリー構造のカテゴリー体系が形成されるとともに、このカテゴリー体系を構成する25個のカテゴリーG1〜G24およびGrの結合度が、それぞれ算出される。
【0116】
図9において、カテゴリーG15〜G24およびGrを示す楕円内にそれらの結合度が記載されている。なお、カテゴリーG1〜G14の結合度は、上述のように、いずれも「0」である。
【0117】
図3に戻って、CPU42は、つぎに、算出した各カテゴリーの結合度に基づいて、最適なカテゴリーを決定する(図3、ステップS4)。ステップS4の処理に用いられるサブプログラム(図6参照)においては、当該サブプログラムの実行中に自己をサブプログラムとして呼び出して実行する、いわゆる再帰呼び出し手法を用いている。このような構成の処理を行うことで、ツリー構造の処理を効率よく行うことができる。
【0118】
図3のステップS4に示すように、CPU42は、まず、ツリー構造の最上位のカテゴリーGrを処理対象カテゴリーGとして設定し、図6に示すサブプログラムに制御を移す。
【0119】
図6に示すサブプログラムにおいて、CPU42は、まず、処理対象カテゴリーGの要素数C(G)が1つであるか否かを判断する(図6、ステップS31)。処理対象となっているカテゴリーGが最下位のカテゴリーでないかぎり、CPU42は、ステップS32を実行することになる。
【0120】
ステップS32において、CPU42は、処理対象カテゴリーGの結合度J(G)が、処理対象カテゴリーGを構成する直下のカテゴリーGa、Gbの結合度J(Ga)、J(Gb)のいずれよりも大きいか否かを判断する(図6,ステップS32)。本ステップにおいて、処理対象カテゴリーGの結合度J(G)が、処理対象カテゴリーGを構成する直下のカテゴリーGa、Gbの結合度J(Ga)、J(Gb)のいずれよりも大きい場合は、当該処理対象カテゴリーGを、最適カテゴリーに決定し(図6、ステップS35)、当該処理対象カテゴリーGに関する処理(サブプログラム)を終了する。
【0121】
したがって、最上位のカテゴリーGrが最適カテゴリーと決定された場合には、最適カテゴリー決定処理(図3,ステップS4)は終了する。
【0122】
一方、ステップS32において、処理対象カテゴリーGの結合度J(G)が、処理対象カテゴリーGを構成する直下のカテゴリーGa、Gbの結合度J(Ga)、J(Gb)のいずれか一方よりも大きいか、いずれか一方と等しいような場合は、当該処理対象カテゴリーGは最適カテゴリーではないと判断し、直下のカテゴリーGa、Gbそれぞれについて、最適カテゴリー決定処理を行う。
【0123】
すなわち、このような場合、CPU42は、上述のカテゴリーGa、Gbをそれぞれ新たな処理対象カテゴリーGとして設定し、図6に示すサブプログラムを実行する(図6,ステップS33、ステップS34)。
【0124】
このような再帰呼び出し処理を繰り返すことで、ツリー構造のカテゴリー体系において、カテゴリーの結合度が当該カテゴリーを構成する直下のいずれのカテゴリーの結合度よりも高いカテゴリーのうち、ツリー構造の最も上位にあるカテゴリーを最適カテゴリーとして決定することができる。
【0125】
なお、図6のステップS31において、処理対象カテゴリーGの要素数C(G)が「1」である場合、当該処理対象カテゴリーGを最適カテゴリーに決定する(図6,ステップS35)。
【0126】
すなわち、最下位のカテゴリー(要素数が1つのカテゴリー)より上位のカテゴリーに最適カテゴリーが存在しなかった場合、つまり、当該最下位のカテゴリーからツリー構造をたどって最上位のカテゴリーGrに至る経路上に最適カテゴリーが存在しない場合には、当該最下位のカテゴリーを最適カテゴリーとみなして、通常の最適カテゴリーと同様に取り扱うようにしているのである。最適カテゴリーとみなされた最下位のカテゴリーが、上述の準最適カテゴリーである。
【0127】
ただし、上述のように、最下位のカテゴリーより上位のカテゴリーに最適カテゴリーが存在しなかった場合、当該最下位のカテゴリーを構成するデータを、いずれの最適カテゴリーにも属さない独立のデータとして扱うようにしてもよい。このように取り扱うには、図6のステップS31において、処理対象カテゴリーGの要素数C(G)が「1」である場合に当該処理対象カテゴリーGについての図6に示すサブプログラムを終了するようにしておけばよい。
【0128】
図9の例では、カテゴリーを示す楕円が太線で描かれているものが最適カテゴリーを表している。すなわち、カテゴリーG17、G18およびG22が最適カテゴリーである。
【0129】
なお、図9の例では、上述の3つの最適カテゴリーG17、G18およびG22のいずれにも属しないカテゴリーG9およびG14を構成するデータD9およびD14を独立したデータとして扱うようにしているが、上述のように、カテゴリーG9およびG14を最適カテゴリーとして扱うようにしてもよい。
【0130】
図3に戻って、CPU42は、このようにして決定された最適カテゴリーに、これら最適カテゴリーを構成する各文書(各データ)を再配置する(図3、ステップS5)。たとえば、各最適カテゴリーとこれらを構成する文書とを関連付けて、ハードディスク50に記憶するという形で、この処理が実行される。
【0131】
CPU42は、つぎに、最適カテゴリーをCRT44上に表示する(図3,ステップS6)。図9の例における最適カテゴリーG17、G18およびG22をCRT44上に表示した場合の例を、図10に示す。図10に示す表示画面70うち、特徴グループ一覧表示部72に、最適カテゴリーG17、G18およびG22に関する情報が表示されている。
【0132】
すなわち、特徴グループ一覧表示部72には、各最適カテゴリーG17、G18およびG22について、最適カテゴリーを示す表示(星マークの付されたフォルダーのアイコン)とともに、当該最適カテゴリーを構成する文書(データ)の数、当該最適カテゴリーの結合度、当該最適カテゴリーの類似度(当該最適カテゴリーの構成要素である直下のカテゴリー相互間の類似度)、当該最適カテゴリーのキーワード(特徴値)が表示されている。
【0133】
たとえば、特徴グループ一覧表示部72に表示されているいずれかのフォルダのアイコンを、マウス48等を用いて選択することで、当該フォルダに対応する最適カテゴリーの構成要素である文書(データ)の一覧(目録)がCRT44上に表示され(図示せず)、表示された文書の一覧からマウス48等を用いて所望の文書を選択することにより、当該文書の内容をCRT44上に表示させることができる。
【0134】
なお、この実施形態においては、図10に示す表示画面70に、上述の特徴グループ一覧表示部72とともに、全グループ階層表示部74も表示されている。全グループ階層表示部74には、ツリー構造のカテゴリー体系が視覚的に確認できるよう各カテゴリーが表示され、併せて、各カテゴリーの情報も表示されている。
【0135】
すなわち、全グループ階層表示部74には、カテゴリー体系を構成する全てのカテゴリーがツリー状に階層表示されるとともに、各カテゴリーについて、カテゴリーを示す表示(フォルダーのアイコン)とともに、当該カテゴリーを構成する文書(データ)の数、当該カテゴリーの類似度(当該カテゴリーの構成要素である文書(データ)相互間の類似度)、当該カテゴリーの結合度が表示されている。また、全グループ階層表示部74には、最適カテゴリーに含まれない書類(データ)が、孤立した文書として表示されている。
【0136】
全グループ階層表示部74に表示された各カテゴリーのうち、最適カテゴリーには、最適カテゴリーを示す表示(星マークのアイコン)が、さらに付されている。つまり、ツリー構造のカテゴリー体系を表示するとともに、当該カテゴリー体系を構成するカテゴリーのうち最適カテゴリーを他のカテゴリーと異なる態様で表示するようにしている。このように表示すれば、ツリー構造のカテゴリー体系における最適カテゴリーの位置づけが視覚的に把握し易くなり、好都合である。
【0137】
もちろん、全グループ階層表示部74の表示から、ツリー構造のカテゴリーをたどって、所望の文書(データ)の内容をCRT44上に表示させることもできる。
【0138】
このように、文書分類装置2においては、類似度の高いカテゴリー同士を順次統合して行くことにより、1個の文書のみを構成要素とする最下位のカテゴリーから全文書を構成要素とする最上位のカテゴリーに至るツリー構造のカテゴリー体系を構築するようにしている。また、カテゴリー体系を構成する各カテゴリーについて、当該カテゴリーを構成する文書相互の類似度に基づいて、当該カテゴリーのまとまりの良さを示す結合度を決定するようにしている。さらに、カテゴリーの結合度が当該カテゴリーを構成する直下のいずれのカテゴリーの結合度よりも少なくとも低くないカテゴリーのうち、ツリー構造の最も上位にあるカテゴリーを最適カテゴリーとして決定するようにしている。そして、最適カテゴリーと当該最適カテゴリーを構成する文書とを対応付けて記憶させるようにしている。
【0139】
したがって、傾向がまったく不明の大量の文書であっても、これらの文書相互の類似度に基づいてツリー構造のカテゴリー体系を構築することができる。このようにして構築したツリー構造のカテゴリー体系を構成する各カテゴリーについて、各カテゴリーを構成する文書相互の類似度に基づいて各カテゴリーの結合度を決定し、決定した結合度に基づいて各カテゴリーの中から最適カテゴリーを決定するようにしている。
【0140】
このようにして最適カテゴリーを決定することで、階層的なツリー構造のカテゴリー体系を、最適カテゴリーを構成要素とする1元的なカテゴリー体系、すなわち、ある最適カテゴリーが他の最適カテゴリーに含まれることがないような構造のカテゴリー体系、に変換することができる。
【0141】
さらに、最適カテゴリーと当該最適カテゴリーを構成する文書とを対応付けて記憶させることで、文書を一元的分類、つまり、ある最適カテゴリーに属する文書が他の最適カテゴリーに含まれることがないような分類、を行うことができる。
【0142】
このようにして、傾向がまったく不明の大量の文書を自動的に一元的分類することができるのである。
【0143】
なお、上述の実施形態において、図3の文書入力処理(ステップS1)が、図1の文書入力手段4に対応する。
【0144】
文書相互間類似度算出処理(ステップS2)が、文書相互間類似度決定手段6に対応する。図4のステップS11が、図1の特徴ベクトル生成手段16に対応する。ステップS12が類似度算出手段18に対応する。ステップS13が類似度行列生成手段20に対応する。
【0145】
カテゴリー体系構築・結合度算出処理(ステップS3)が、カテゴリー体系構築・結合度決定手段8に対応する。図5のステップS21およびステップS23が、図1のカテゴリー体系構築手段22に対応する。ステップS22が結合度決定手段24に対応する。
【0146】
最適カテゴリー決定処理(ステップS4)が、最適カテゴリー決定手段10に対応する。最適カテゴリーに各文書を配置する処理(ステップS5)が、文書再配置手段12に対応する。最適カテゴリー表示処理(ステップS6)が、最適カテゴリー表示手段14に対応する。
【0147】
また、請求項における、類似度の高いカテゴリー同士を順次統合して行くことにより、1個のデータのみを構成要素とする最下位のカテゴリーから全データを構成要素とする最上位のカテゴリーに至るツリー構造のカテゴリー体系を構築するステップが、実施形態におけるステップS21およびステップS23に対応する。
【0148】
請求項における、ツリー構造のカテゴリー体系を構成する各カテゴリーについて、当該カテゴリーを構成するデータ相互の類似度に基づいて、当該カテゴリーのまとまりの良さを示す結合度を決定するステップが、ステップS22に対応する。
【0149】
請求項における、カテゴリーの結合度が当該カテゴリーを構成する直下のいずれのカテゴリーの結合度よりも少なくとも低くないカテゴリーのうち、ツリー構造の最も上位にあるカテゴリーを最適カテゴリーとして決定するステップが、ステップS4に対応する。
【0150】
請求項における、最適カテゴリーと当該最適カテゴリーを構成するデータとを対応付けて記憶させるステップが、ステップS5に対応する。
【0151】
また、請求項における、カテゴリーを構成するデータ相互の類似度を算出するステップが、ステップS2に対応する。
【0152】
請求項における、算出されたデータ相互の類似度に基づいて、当該カテゴリーを構成するデータ1個あたりのデータ相互の類似度の総和に対応する量を、当該カテゴリーのまとまりの良さを表す結合度として算出するステップが、ステップS22に対応する。
【0153】
また、請求項における、ツリー構造のカテゴリー体系を構成する各カテゴリーについて、カテゴリーのまとまりの良さを表すカテゴリーの結合度を決定するステップが、ステップS22に対応する。
【0154】
請求項における、カテゴリーの結合度が当該カテゴリーを構成する直下のいずれのカテゴリーの結合度よりも少なくとも低くないカテゴリーのうち、ツリー構造の最も上位にあるカテゴリーを最適カテゴリーとして決定するステップが、ステップS4に対応する。
【0155】
請求項における、最適カテゴリーと当該最適カテゴリーを構成するデータとを対応付けて記憶させるステップが、ステップS5に対応する。
【0156】
なお、上述の実施形態においては、新たにカテゴリーを統合するごとに新たなカテゴリーの結合度を算出するようにしたが、この発明はこれに限定されるものではない。たとえば、カテゴリーの統合を全て終了してから、まとめて各カテゴリーの結合度を算出するようにしてもよい。
【0157】
また、上述の実施形態においては、データの例として主として文書を例に説明したが、この発明はこれに限定されるものではない。たとえば、単純な実験データ等の他、画像データ、音声データ等、少なくとも一次元または多次元のベクトル空間で定義可能な特徴値を持つデータは、この発明の適用対象となる。
【0158】
なお、上述のブロック図、ハードウェア構成、フローチャート、表示画面、その他説明に用いた図面等は例として挙げたものであり、本願発明は、上述のブロック図等に限定されるものではない。
【0159】
なお、上述の実施形態においては、スタンドアローンで動作するコンピュータをもちいて文書分類装置2を実現する場合を例に説明したが、本発明はこれに限定されるものではない。
【0160】
たとえば、サーバコンピュータ(サーバ装置)のハードディスク(記録媒体)に上述の文書分類装置2を構成するプログラム等を記憶させておき、サーバコンピュータにより、インターネット(通信網)を介して1台以上のパーソナルコンピュータ(端末装置)をコントロールすることで、パーソナルコンピュータ側の入力装置(入力手段)から処理すべき文書を入力させ、入力された文書を分類する処理をサーバコンピュータ側で実行し、分類結果をパーソナルコンピュータ側に送信し、パーソナルコンピュータの表示装置(表示手段)に表示されるよう構成することもできる。
【0161】
また、本装置を構成するプログラムの一部をパーソナルコンピュータ側に持たせるようにしてもよい。もちろん、サーバコンピュータとして複数のコンピュータを用いてもよい。サーバコンピュータとして複数のコンピュータを用いる場合には、それら複数のコンピュータを通信回線(たとえばインターネット)を介して接続するようにしてもよい。
【0162】
なお、上の例では、通信網としてインターネットを例に説明したが、通信網はインターネットに限定されるものではない。たとえば、LAN(ローカルエリアネットワーク)を介してサーバコンピュータとパーソナルコンピュータ等の端末装置とを接続するようなネットワークにおいて本発明を実現するようにしてもよい。
【0163】
なお、この実施形態においては、CD−ROMに記録されたプログラムをハードディスクにインストールして実行するようにしている。ただし、プログラムの保持形態はこれらに限定されるものではない。たとえば、本装置を構成するプログラムを、フロッピーディスク、磁気テープ等に記録するようにしてもよい。
【0164】
また、プログラムの実行方法も、特に限定されるものではない。たとえば、CD−ROM、フロッピーディスク、磁気テープ等に記録されたプログラムを、ハードディスクにインストールすることなく、直接、実行するようにしてもよい。
【0165】
さらに、有線や無線の通信回線を介して当該プログラムを配信するようにしてもよい。また、当該プログラムをメインのサーバコンピュータにインストールしておき、たとえばインターネットなどの通信回線を介してローカルのサーバコンピュータに本システムのプログラムを実行させるようにしてもよい。
【0166】
また、プログラムやデータの記録態様は特に限定されるものではない。直接実行できる形で記録媒体に記録されている場合の他、たとえば、解凍して使用するように圧縮された形で記録媒体に記録されていてもよい。
【0167】
なお、上述の実施形態においては、コンピュータを用いて図1の各機能を実現する場合を例に説明したが、図1の機能の一部または全部をハードウェアロジックを用いて構成するようにしてもよい。
【図面の簡単な説明】
【図1】この発明の一実施形態によるデータ分類装置である文書分類装置2の構成を説明するためのブロック図である。
【図2】図1に示す文書分類装置2を、CPU42を用いて実現した場合のハードウェア構成の一例を示す図面である。
【図3】文書分類装置2における文書分類処理の手順の一例を示すフローチャートである。
【図4】図3に示す処理のうち、文書相互間類似度算出処理の詳細な処理手順の一例を示すフローチャートである。
【図5】図3に示す処理のうち、カテゴリー体系構築・結合度算出処理の詳細な処理手順の一例を示すフローチャートである。
【図6】図3に示す処理のうち、最適カテゴリー決定処理において用いられるサブプログラムの処理手順の一例を示すフローチャートである。
【図7】文書の特徴ベクトルおよび文書相互の類似度を説明するための図面である。
【図8】図8A〜図8Cは、カテゴリー体系を構築する処理を説明するための図面である。
【図9】構築されたカテゴリー体系および最適カテゴリーを説明するための図面である。
【図10】最適カテゴリーが表示されたCRT44の表示画面を示す図面である。
【図11】従来から行われている凝集法を説明するための模式図である。
【符号の説明】
10・・・・・最適カテゴリー決定手段
12・・・・・文書再配置手段
24・・・・・結合度決定手段

Claims (9)

  1. 複数のデータを1以上のカテゴリーに分類するためのデータ分類装置であって、
    類似度の高いカテゴリー同士を順次統合して行くことにより、1個のデータのみを構成要素とする最下位のカテゴリーから全データを構成要素とする最上位のカテゴリーに至るツリー構造のカテゴリー体系を構築し、
    ツリー構造のカテゴリー体系を構成する各カテゴリーについて、当該カテゴリーを構成するデータ相互の類似度に基づいて、当該カテゴリーのまとまりの良さを示す結合度を決定し、
    カテゴリーの結合度が当該カテゴリーを構成する直下のいずれのカテゴリーの結合度よりも少なくとも低くないカテゴリーのうち、ツリー構造の最も上位にあるカテゴリーを最適カテゴリーとして決定し、
    最適カテゴリーと当該最適カテゴリーを構成するデータとを対応付けて記憶させるデータ分類装置において、
    カテゴリーGaとカテゴリーGbとを統合して得られる新たなカテゴリーをGとし、それぞれのカテゴリーの結合度をJ(Ga)、J(Gb)、J(G)とし、それぞれのカテゴリーを構成するデータの数をC(Ga)、C(Gb)、C(G)としたとき、カテゴリーGの結合度J(G)が、次式
    J(G)=(J(Ga)・(C(Ga)-1)+J(Gb)・(C(Gb)-1)+β)/(C(Ga)+C(Gb)-1)
    で表されることを特徴とするデータ分類装置、
    ただし、カテゴリーGaを構成するC(Ga)個のデータおよびカテゴリーGbを構成するC(Gb)個のデータを、それぞれデータD、D、…、DmおよびデータDm+1、Dm+2、…、Dnとし、データDiのデータDjに対する類似度をAijとしたとき、上式のβは次式
    Figure 0004682339
    で表現される。
  2. コンピュータを、複数のデータを1以上のカテゴリーに分類するためのデータ分類装置として機能させるためのデータ分類プログラムであって、
    類似度の高いカテゴリー同士を順次統合して行くことにより、1個のデータのみを構成要素とする最下位のカテゴリーから全データを構成要素とする最上位のカテゴリーに至るツリー構造のカテゴリー体系を構築し、
    ツリー構造のカテゴリー体系を構成する各カテゴリーについて、当該カテゴリーを構成するデータ相互の類似度に基づいて、当該カテゴリーのまとまりの良さを示す結合度を決定し、
    カテゴリーの結合度が当該カテゴリーを構成する直下のいずれのカテゴリーの結合度よりも少なくとも低くないカテゴリーのうち、ツリー構造の最も上位にあるカテゴリーを最適カテゴリーとして決定し、
    最適カテゴリーと当該最適カテゴリーを構成するデータとを対応付けて記憶させる処理をコンピュータに実行させるためのデータ分類プログラムにおいて、
    カテゴリーGaとカテゴリーGbとを統合して得られる新たなカテゴリーをGとし、それぞれのカテゴリーの結合度をJ(Ga)、J(Gb)、J(G)とし、それぞれのカテゴリーを構成するデータの数をC(Ga)、C(Gb)、C(G)としたとき、カテゴリーGの結合度J(G)が、次式
    J(G)=(J(Ga)・(C(Ga)-1)+J(Gb)・(C(Gb)-1)+β)/(C(Ga)+C(Gb)-1)
    で表されることを特徴とするデータ分類プログラム、
    ただし、カテゴリーGaを構成するC(Ga)個のデータおよびカテゴリーGbを構成するC(Gb)個のデータを、それぞれデータD、D、…、DmおよびデータDm+1、Dm+2、…、Dnとし、データDiのデータDjに対する類似度をAijとしたとき、上式のβは次式
    Figure 0004682339
    で表現される。
  3. 請求項2のデータ分類プログラムを記録したコンピュータ読み取り可能な記録媒体。
  4. 請求項1ないしのいずれかの装置、プログラムまたは記録媒体において、
    データ分類装置は、いずれの最適カテゴリーにも含まれないデータを構成要素とする最下位のカテゴリーを準最適カテゴリーとして最適カテゴリーと同様に取り扱うこと、
    を特徴とするもの。
  5. 請求項1ないしのいずれかの装置、プログラムまたは記録媒体において、
    前記データは文書であり、データ相互の類似度を決定する基礎となるデータの特徴値として、文書の特徴を示すベクトルを用いること、を特徴とするもの。
  6. 請求項1ないしのいずれかの装置、プログラムまたは記録媒体において、
    データ分類装置は、最適カテゴリーを表示する際、当該最適カテゴリーの結合度および類似度のうち少なくとも一方を表示するよう制御すること、
    を特徴とするもの。
  7. 請求項1ないしのいずれかの装置、プログラムまたは記録媒体において、
    データ分類装置は、ツリー構造のカテゴリー体系を表示するとともに、当該ツリー構造のカテゴリー体系を構成するカテゴリーのうち最適カテゴリーを他のカテゴリーと異なる態様で表示するよう制御すること、
    を特徴とするもの。
  8. コンピュータを用いて、複数のデータを1以上のカテゴリーに分類するためのデータ分類方法であって、
    コンピュータが、類似度の高いカテゴリー同士を順次統合して行くことにより、1個のデータのみを構成要素とする最下位のカテゴリーから全データを構成要素とする最上位のカテゴリーに至るツリー構造のカテゴリー体系を構築するステップと、
    コンピュータが、ツリー構造のカテゴリー体系を構成する各カテゴリーについて、当該カテゴリーを構成するデータ相互の類似度に基づいて、当該カテゴリーのまとまりの良さを示す結合度を決定するステップと、
    コンピュータが、カテゴリーの結合度が当該カテゴリーを構成する直下のいずれのカテゴリーの結合度よりも少なくとも低くないカテゴリーのうち、ツリー構造の最も上位にあるカテゴリーを最適カテゴリーとして決定するステップと、
    コンピュータが、最適カテゴリーと当該最適カテゴリーを構成するデータとを対応付けて記憶させるステップと、
    を備えたデータ分類方法において、
    カテゴリーG a とカテゴリーG b とを統合して得られる新たなカテゴリーをGとし、それぞれのカテゴリーの結合度をJ(G a )、J(G b )、J(G)とし、それぞれのカテゴリーを構成するデータの数をC(G a )、C(G b )、C(G)としたとき、カテゴリーGの結合度J(G)が、次式
    J(G)=(J(G a )・(C(G a )-1)+J(G b )・(C(G b )-1)+β)/(C(G a )+C(G b )-1)
    で表されることを特徴とするデータ分類方法、
    ただし、カテゴリーG a を構成するC(G a )個のデータおよびカテゴリーG b を構成するC(G b )個のデータを、それぞれデータD 、D 、…、D m およびデータD m+1 、D m+2 、…、D n とし、データD i のデータD j に対する類似度をA ij としたとき、上式のβは次式
    Figure 0004682339
    で表現される。
  9. コンピュータを用いて、ツリー構造のカテゴリー体系を一元的なカテゴリー体系に変換する方法であって、
    コンピュータが、ツリー構造のカテゴリー体系を構成する各カテゴリーについて、カテゴリーのまとまりの良さを表すカテゴリーの結合度を決定するステップと、
    コンピュータが、カテゴリーの結合度が当該カテゴリーを構成する直下のいずれのカテゴリーの結合度よりも少なくとも低くないカテゴリーのうち、ツリー構造の最も上位にあるカテゴリーを最適カテゴリーとして決定するステップと、
    コンピュータが、最適カテゴリーと当該最適カテゴリーを構成するデータとを対応付けて記憶させるステップと、
    を備えたカテゴリー体系変換方法において、
    カテゴリーG a とカテゴリーG b とを統合して得られる新たなカテゴリーをGとし、それぞれのカテゴリーの結合度をJ(G a )、J(G b )、J(G)とし、それぞれのカテゴリーを構成するデータの数をC(G a )、C(G b )、C(G)としたとき、カテゴリーGの結合度J(G)が、次式
    J(G)=(J(G a )・(C(G a )-1)+J(G b )・(C(G b )-1)+β)/(C(G a )+C(G b )-1)
    で表されることを特徴とするカテゴリー体系変換方法、
    ただし、カテゴリーG a を構成するC(G a )個のデータおよびカテゴリーG b を構成するC(G b )個のデータを、それぞれデータD 、D 、…、D m およびデータD m+1 、D m+2 、…、D n とし、データD i のデータD j に対する類似度をA ij としたとき、上式のβは次式
    Figure 0004682339
    で表現される。
JP2001162654A 2001-05-30 2001-05-30 データ分類装置およびデータ分類方法 Expired - Fee Related JP4682339B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001162654A JP4682339B2 (ja) 2001-05-30 2001-05-30 データ分類装置およびデータ分類方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001162654A JP4682339B2 (ja) 2001-05-30 2001-05-30 データ分類装置およびデータ分類方法

Publications (2)

Publication Number Publication Date
JP2002352244A JP2002352244A (ja) 2002-12-06
JP4682339B2 true JP4682339B2 (ja) 2011-05-11

Family

ID=19005747

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001162654A Expired - Fee Related JP4682339B2 (ja) 2001-05-30 2001-05-30 データ分類装置およびデータ分類方法

Country Status (1)

Country Link
JP (1) JP4682339B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000029910A (ja) * 1998-06-24 2000-01-28 Lucent Technol Inc 階層的クラスタリングされた情報を表示するためのコンピュ―タシステムの動作方法
JP2000132558A (ja) * 1998-10-22 2000-05-12 Nri & Ncc Co Ltd 分類ルール探求式クラスター分析装置
JP2000250945A (ja) * 1999-02-26 2000-09-14 Fuji Xerox Co Ltd 手書きノート用インデックス発生方法、インクワードの等価クラス識別方法、コンピュータリーダブル媒体及びコンピュータ
JP2000311246A (ja) * 1999-04-28 2000-11-07 Ricoh Co Ltd 類似画像表示方法及び類似画像表示処理プログラムを格納した記録媒体

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3334029B2 (ja) * 1996-03-28 2002-10-15 日本電信電話株式会社 クラスタ分類方法及びクラスタ分類装置
JPH09325890A (ja) * 1996-06-04 1997-12-16 Toshiba Corp パターン発見方法およびパターン発見装置
JPH10307815A (ja) * 1997-05-06 1998-11-17 N T T Data:Kk 多変量解析結果の表示方法および装置、並びに多変量解析結果の表示方法を実行させるためのプログラムを記録したコンピュ−タ読取り可能な記録媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000029910A (ja) * 1998-06-24 2000-01-28 Lucent Technol Inc 階層的クラスタリングされた情報を表示するためのコンピュ―タシステムの動作方法
JP2000132558A (ja) * 1998-10-22 2000-05-12 Nri & Ncc Co Ltd 分類ルール探求式クラスター分析装置
JP2000250945A (ja) * 1999-02-26 2000-09-14 Fuji Xerox Co Ltd 手書きノート用インデックス発生方法、インクワードの等価クラス識別方法、コンピュータリーダブル媒体及びコンピュータ
JP2000311246A (ja) * 1999-04-28 2000-11-07 Ricoh Co Ltd 類似画像表示方法及び類似画像表示処理プログラムを格納した記録媒体

Also Published As

Publication number Publication date
JP2002352244A (ja) 2002-12-06

Similar Documents

Publication Publication Date Title
US10693750B2 (en) Hierarchical service oriented application topology generation for a network
JP6047017B2 (ja) パターン抽出装置および制御方法
JP5755823B1 (ja) 類似度算出システム、類似度算出方法およびプログラム
JP5353443B2 (ja) データ分類器作成装置、データ分類装置、データ分類器作成方法、データ分類方法、データ分類器作成プログラム、データ分類プログラム
JPWO2009072466A1 (ja) 画像分類装置および画像分類プログラム
JP7232122B2 (ja) 物性予測装置及び物性予測方法
JP6696568B2 (ja) アイテム推奨方法、アイテム推奨プログラムおよびアイテム推奨装置
JP2001117947A (ja) 高次元データを分類するための方法及びそれにより形成される分類木並びにコンピュータシステム
JP6933217B2 (ja) テーブル意味推定システム、方法およびプログラム
JP4116601B2 (ja) タキソノミー表示装置、タキソノミー表示方法、およびタキソノミー表示プログラム
JP4682339B2 (ja) データ分類装置およびデータ分類方法
Baur Percolation on random recursive trees
JP2011248534A (ja) グラフパターンを用いたネットワーク分析装置、ネットワーク分析方法、およびネットワーク分析用プログラム
JP3466729B2 (ja) 情報提示方法
JP2000132558A (ja) 分類ルール探求式クラスター分析装置
JP2005122509A (ja) 階層構造データ分析方法、分析装置および分析プログラム
JP6213660B2 (ja) 情報管理装置、情報共有システム、制御方法、及びコンピュータ読み取り可能な記録媒体
JP6213665B2 (ja) 情報処理装置、及び、クラスタリング方法
JP4815887B2 (ja) 情報処理装置及び情報処理用表示装置
JP4957618B2 (ja) 情報処理装置及び情報処理プログラム
JP3922221B2 (ja) 多次元データ集計処理装置及び多次元データ集計処理プログラム
JPH0997264A (ja) サンプル分類支援装置
KR20190124195A (ko) 개량된 k-익명성 모델 이용 데이터 셋 비식별화 방법 및 장치
TW201905726A (zh) 雲端頻繁序列型樣資料探勘方法
WO2022224371A1 (ja) 情報処理装置、情報処理方法、及び、記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080521

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100924

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101005

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101027

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101221

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20110114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110114

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140218

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees