JP2002352244A

JP2002352244A - データ分類装置およびデータ分類方法

Info

Publication number: JP2002352244A
Application number: JP2001162654A
Authority: JP
Inventors: Noriaki Yamazaki; 憲明山崎
Original assignee: Hitachi Systems and Services Ltd
Current assignee: Hitachi Systems and Services Ltd
Priority date: 2001-05-30
Filing date: 2001-05-30
Publication date: 2002-12-06
Anticipated expiration: 2021-05-30
Also published as: JP4682339B2

Abstract

(57)【要約】【課題】傾向がまったく不明の大量のデータを自動的
に一元的分類することのできるデータ分類装置およびデ
ータ分類方法等を提供する。【解決手段】結合度決定手段２４は、ツリー構造のカ
テゴリー体系を構成する各カテゴリーについて、当該カ
テゴリーを構成する文書相互の類似度に基づいて、当該
カテゴリーのまとまりの良さを示す結合度を決定する。
最適カテゴリー決定手段１０は、カテゴリーの結合度が
当該カテゴリーを構成する直下のいずれのカテゴリーの
結合度よりも高いカテゴリーのうち、ツリー構造の最も
上位にあるカテゴリーを最適カテゴリーとして決定す
る。文書再配置手段１２は、最適カテゴリーと当該最適
カテゴリーを構成する文書とを対応付けて記憶させる。
このようにして、階層的なツリー構造のカテゴリー体系
を、最適カテゴリーを構成要素とする１元的なカテゴリ
ー体系に変換することができ、データを一元的に分類す
るができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明はデータ分類装置お
よびデータ分類方法等に関し、とくに複数のデータを１
以上のカテゴリーに分類する技術等に関する。

【０００２】

【従来の技術】多数の文書など、多数のデータを、複数
のカテゴリーに分類する方法がいくつか知られている。
たとえば、予めカテゴリーとその特徴値とを設定してお
き、各データの特徴値がどのカテゴリーの特徴値に近い
かによって、それらのデータを各カテゴリーに分類する
方法がある。この方法を、ここでは「教師あり分類法」
と呼ぶこととする。

【０００３】教師あり分類法は、データの傾向が予め分
かっている場合には効果があるが、データの傾向が予め
分からない場合には、そもそも、カテゴリーとその特徴
値の設定ができないため、適用することができない。

【０００４】予めカテゴリーとその特徴値とを設定して
おかなくても、カテゴリーの数さえ設定しておけば、デ
ータの特徴値空間を自動的に分割してカテゴリーを生成
できる方法（K-means法）も知られている。しかし、K-m
eans法においても、少なくともカテゴリーの数を設定し
うる程度にデータの傾向が分かっている必要があり、デ
ータ傾向がまったく不明の大量のデータに適用すること
は難しい。

【０００５】このような問題点を解決する方法として、
凝集法が知られている。図１１は、従来から行われてい
る凝集法を説明するための模式図である。説明の便宜の
ため、図１１においては、分類の対象となるデータD₁〜
D₁₄として、ある集団を構成するメンバーの年齢を想定
し、年齢をそのまま特徴値として用いている。したがっ
て、この場合、特徴値はスカラー量で表現される。図１
１の各データD₁〜D₁₄を表す矩形内に記載された数値が
特徴値（年齢）である。図１１に基づいて、凝集法を用
いてこれらのデータD₁〜D₁₄を分類する方法を説明す
る。

【０００６】まず、特徴値の近いデータ同士を統合する
ことにより、カテゴリーを形成する。たとえば、特徴値
「８」のデータD₄と特徴値「９」のデータD₅とを統合し
て、カテゴリー１０２を形成する。同様に、特徴値「１
１」、「１２」および「１３」のデータD₆、D₇およびD₈
の３つを統合して、別のカテゴリー１０４を形成する。

【０００７】つぎに、未だカテゴリーを形成していない
データや、上述のようにして形成されたカテゴリーを、
特徴値の近いもの同士統合して、さらに別のカテゴリー
を形成する。たとえば、上述のカテゴリー１０２とカテ
ゴリー１０４とを統合して、上位のカテゴリー１０６を
形成する。この場合、カテゴリー１０６には、特徴値
「８」、「９」、「１１」、「１２」および「１３」の
５つのデータD₄〜D₈が含まれることになる。

【０００８】全てのデータを含む最上位のカテゴリー１
０８が形成されるまで、このような操作を繰り返すこと
により、ツリー構造のカテゴリー体系を得ることができ
る。

【０００９】このように、凝集法を用いれば、各データ
の特徴値さえ与えられていれば、教師あり分類法のよう
に予めカテゴリーとそのカテゴリーの特徴値を設定して
おいたり、K-means法のようにカテゴリーの数を設定し
ておいたりすることなく、自動的にツリー構造のカテゴ
リー体系を得ることができる。このため、データ傾向が
まったく不明の大量のデータを分類して、それらの傾向
を知ることができる。

【００１０】

【発明が解決しようとする課題】しかしながら、従来の
凝集法には次のような問題点があった。このような方法
を用いてデータを分類する場合、データ傾向をツリー構
造の階層的なカテゴリー体系として把握するには都合が
よいが、各データについてどの階層のカテゴリーを採用
するのが最適であるかまでは知ることができなかった。

【００１１】たとえば、図１１に示す特徴値「８」のデ
ータは、カテゴリー１０２、カテゴリー１０６およびさ
らに上位のカテゴリーのいずれにも属するが、どのカテ
ゴリーに属するとするのが最も良いかは、最終的に人の
判断に頼らざるをえなかった。このため、教師あり分類
法やK-means法のように、各データが属するカテゴリー
をそれぞれ１つだけ決定するような分類（１元的分類）
を自動的に行うことができなかった。

【００１２】この発明は、このような従来のデータ分類
方法の問題点を解決し、傾向がまったく不明の大量のデ
ータを自動的に一元的分類することのできるデータ分類
装置およびデータ分類方法等を提供することを目的とす
る。

【００１３】

【発明の作用および効果】請求項１のデータ分類装置、
請求項２のデータ分類プログラム、請求項３のプログラ
ムを記録した記録媒体および請求項１０のデータ分類方
法においては、類似度の高いカテゴリー同士を順次統合
して行くことにより、１個のデータのみを構成要素とす
る最下位のカテゴリーから全データを構成要素とする最
上位のカテゴリーに至るツリー構造のカテゴリー体系を
構築し、カテゴリー体系を構成する各カテゴリーについ
て、当該カテゴリーを構成するデータ相互の類似度に基
づいて、当該カテゴリーのまとまりの良さを示す結合度
を決定し、カテゴリーの結合度が当該カテゴリーを構成
する直下のいずれのカテゴリーの結合度よりも少なくと
も低くないカテゴリーのうち、ツリー構造の最も上位に
あるカテゴリーを最適カテゴリーとして決定し、最適カ
テゴリーと当該最適カテゴリーを構成するデータとを対
応付けて記憶させることを特徴とする。

【００１４】したがって、傾向がまったく不明の大量の
データであっても、これらのデータ相互の類似度に基づ
いてツリー構造のカテゴリー体系を構築することができ
る。このようにして構築したツリー構造のカテゴリー体
系を構成する各カテゴリーについて、各カテゴリーを構
成するデータ相互の類似度に基づいて各カテゴリーの結
合度を決定し、決定した結合度に基づいて各カテゴリー
の中から最適カテゴリーを決定するようにしている。

【００１５】このようにして最適カテゴリーを決定する
ことで、階層的なツリー構造のカテゴリー体系を、最適
カテゴリーを構成要素とする１元的なカテゴリー体系、
すなわち、ある最適カテゴリーが他の最適カテゴリーに
含まれることがないような構造のカテゴリー体系、に変
換することができる。

【００１６】さらに、最適カテゴリーと当該最適カテゴ
リーを構成するデータとを対応付けて記憶させること
で、データを一元的に分類すること、つまり、ある最適
カテゴリーに属するデータが他の最適カテゴリーに含ま
れることがないように分類すること、ができる。

【００１７】すなわち、傾向がまったく不明の大量のデ
ータを自動的に一元的分類することができる。

【００１８】請求項４の装置、プログラムおよび記録媒
体においては、カテゴリーの結合度は、当該カテゴリー
を構成するデータ１個あたりのデータ相互の類似度の総
和に対応する量であることを特徴とする。

【００１９】すなわち、カテゴリーの結合度を、当該カ
テゴリーを構成している１つのデータと当該カテゴリー
を構成している他のデータとの類似度の総和の平均的な
値としている。このようにすることで、カテゴリーの結
合度を、当該カテゴリーを構成している１つのデータを
当該カテゴリーを構成している他の全てのデータから引
き離すのに必要な平均的なエネルギーとして定義するこ
とが可能となる。したがって、カテゴリーの結合度を、
物質の硬さと対応付けて定量的に処理することが可能と
なる。

【００２０】請求項５の装置、プログラムおよび記録媒
体においては、カテゴリーG_aとカテゴリーG_bとを統合し
て得られる新たなカテゴリーをGとし、それぞれのカテ
ゴリーの結合度をJ(G_a)、J(G_b)、J(G)とし、それぞれの
カテゴリーを構成する文書の数をC(G_a)、C(G_b)、C(G)と
したとき、下記の式（１）にしたがって、カテゴリーG
の結合度J(G)を算出するようにしている。

【００２１】［式（１）］

【００２２】J(G)=(J(G_a)・(C(G_a)-1)+J(G_b)・(C(G_b)-
1)+β)/(C(G_a)+C(G_b)-1)

【００２３】ただし、カテゴリーG_aを構成するC(G_a)個
のデータおよびカテゴリーG_bを構成するC(G_b)個のデー
タを、それぞれデータD_１、D_２、...、D_mおよびデータD
_m+1、D_m+2、...、D_nとし、文書D_iの文書D_jに対する類似
度をA_ijとしたとき、上式のβは式（２）で表現され
る。

【００２４】［式（２）］

【００２５】

【００２６】したがって、このような漸化式の形で表現
された式に基づいて結合度J(G)を算出することで、既に
求めてあるJ(G_a)、J(G_b)の値を利用できるため、演算時
間を大幅に短縮することができる。

【００２７】請求項６の装置、プログラムおよび記録媒
体においては、データ分類装置は、いずれの最適カテゴ
リーにも含まれないデータを構成要素とする最下位のカ
テゴリーを準最適カテゴリーとして最適カテゴリーと同
様に取り扱うことを特徴とする。

【００２８】データ総数が少ないために他のデータから
孤立したように見えるデータであっても、データ総数が
増えると、そのようなデータをカテゴリーとして分類す
るのが妥当なケースがある。したがって、このようなケ
ースにおいては、いずれの最適カテゴリーにも含まれな
いデータを構成要素とする最下位のカテゴリーを準最適
カテゴリーとして最適カテゴリーと同様に取り扱うこと
で、妥当な分類を行うことができる。

【００２９】請求項７の装置、プログラムおよび記録媒
体においては、データは文書であり、データ相互の類似
度を決定する基礎となるデータの特徴値として、文書の
特徴を示すベクトルを用いることを特徴とする。

【００３０】したがって、文書の特徴を定量的に示すベ
クトルを用いて文書相互の類似度を定量的に決定するこ
とで、決定された文書相互の類似度に基づいて、一般的
なデータと同様に、傾向がまったく不明の大量の文書を
自動的に一元的分類することができる。

【００３１】請求項８の装置、プログラムおよび記録媒
体においては、データ分類装置は、最適カテゴリーを表
示する際、当該最適カテゴリーの結合度および類似度の
うち少なくとも一方を表示するよう制御することを特徴
とする。

【００３２】したがって、データ分類装置の表示手段に
は、最適カテゴリーが表示される際、当該最適カテゴリ
ーの結合度および類似度のうち少なくとも一方が表示さ
れる。このため、各最適カテゴリーがどの程度まとまり
のあるカテゴリーであるか、および／または、各最適カ
テゴリーを構成するデータ相互がどの程度類似している
かを、容易に把握することが可能となる。

【００３３】請求項９の装置、プログラムおよび記録媒
体において、データ分類装置は、ツリー構造のカテゴリ
ー体系を表示するとともに、当該ツリー構造のカテゴリ
ー体系を構成するカテゴリーのうち最適カテゴリーを他
のカテゴリーと異なる態様で表示するよう制御すること
を特徴とする。

【００３４】したがって、データ分類装置の表示手段に
は、ツリー構造のカテゴリー体系が表示されるととも
に、当該ツリー構造のカテゴリー体系を構成するカテゴ
リーのうち最適カテゴリーが、他のカテゴリーと異なる
態様で表示される。このため、ツリー構造のカテゴリー
体系における最適カテゴリーの位置付けを視覚的に把握
することが容易となる。

【００３５】請求項１１の結合度算出方法は、コンピュ
ータを用いて、複数のデータからなるカテゴリーのまと
まりの良さを算出する方法であって、当該カテゴリーを
構成するデータ相互の類似度を算出するステップと、算
出されたデータ相互の類似度に基づいて、当該カテゴリ
ーを構成するデータ１個あたりのデータ相互の類似度の
総和に対応する量を、当該カテゴリーのまとまりの良さ
を表す結合度として算出するステップとを備えたことを
特徴とする。

【００３６】すなわち、カテゴリーのまとまりの良さを
表す結合度を、当該カテゴリーを構成している１つのデ
ータと当該カテゴリーを構成している他のデータとの類
似度の総和の平均的な値として算出している。このよう
にすることで、カテゴリーの結合度を、当該カテゴリー
を構成している１つのデータを当該カテゴリーを構成し
ている他の全てのデータから引き離すのに必要な平均的
なエネルギーとして定義することが可能となる。したが
って、カテゴリーの結合度を、物質の硬さと対応付けて
定量的に処理することが可能となる。このため、どのカ
テゴリーがよいカテゴリーであるかを、定量的に把握す
ることができる。

【００３７】請求項１２のカテゴリー体系変換方法は、
コンピュータを用いて、ツリー構造のカテゴリー体系を
一元的なカテゴリー体系に変換する方法であって、ツリ
ー構造のカテゴリー体系を構成する各カテゴリーについ
て、カテゴリーのまとまりの良さを表すカテゴリーの結
合度を決定するステップと、カテゴリーの結合度が当該
カテゴリーを構成する直下のいずれのカテゴリーの結合
度よりも少なくとも低くないカテゴリーのうち、ツリー
構造の最も上位にあるカテゴリーを最適カテゴリーとし
て決定するステップと、最適カテゴリーと当該最適カテ
ゴリーを構成するデータとを対応付けて記憶させるステ
ップとを備えたことを特徴とする。

【００３８】したがって、このようにして決定された最
適カテゴリーを構成要素とするカテゴリー体系は、ある
最適カテゴリーが他の最適カテゴリーに含まれることが
ないような構造のカテゴリー体系となっている。すなわ
ち、ツリー構造のカテゴリー体系を、最適カテゴリーを
構成要素とする１元的なカテゴリー体系に変換すること
ができる。

【００３９】

【発明の実施の形態】図１は、この発明の一実施形態に
よるデータ分類装置である文書分類装置２の構成を説明
するためのブロック図である。文書分類装置２は、複数
のデータである複数の文書を１以上の最適なカテゴリー
に自動的に分類するための装置である。

【００４０】文書分類装置２は、データ入力手段である
文書入力手段４、データ相互間類似度決定手段である文
書相互間類似度決定手段６、カテゴリー体系構築・結合
度決定手段８、最適カテゴリー決定手段１０、データ再
配置手段である文書再配置手段１２、および、最適カテ
ゴリー表示手段１４を備えている。

【００４１】文書入力手段４は、与えられた複数の文書
を文書分類装置２に取り込み、文書相互間類似度決定手
段６に与える。

【００４２】文書相互間類似度決定手段６は、与えられ
た文書相互間の類似度を決定する手段であって、特徴ベ
クトル生成手段１６、類似度算出手段１８，および、類
似度行列生成手段２０を備えている。

【００４３】特徴ベクトル生成手段１６は、各文書ごと
に、当該文書の特徴に基づいて、特徴値である特徴ベク
トルを生成する。特徴ベクトルとは、各文書が、予め設
定されたp個の特徴に、それぞれどの程度合致するかを
表したものであり、p次元の特徴空間において定義され
るベクトルである。

【００４４】類似度算出手段１８は、各文書の特徴ベク
トルに基づいて、各文書相互間の類似度を算出する。こ
の実施形態においては、対比する２つの文書の特徴ベク
トルのなす角の余弦を百分率で表した数字を、当該２つ
の文書の類似度と定義している。たとえば、同一文書の
類似度は「１００」であり、全く無関係の２つの文書の
類似度は「０」となる。

【００４５】もちろん、２つの文書の類似度は、これに
限定されるものではなく、要は、２つの文書の特徴ベク
トルの似ている程度を表現できるものであれば何でもよ
い。たとえば、特徴ベクトル空間が１次元の場合には、
ベクトルの長さの差（または比）を利用して類似度を算
出するようにしてもよい。

【００４６】類似度行列生成手段２０は、各文書相互間
の類似度をマトリックスで表現した類似度行列を生成す
る。文書の総数がｎである場合、類似度行列はｎ次の正
方行列となる。

【００４７】カテゴリー体系構築・結合度決定手段８
は、各文書相互間の類似度に基づいてツリー構造のカテ
ゴリー体系を構築するとともに、カテゴリー体系を構成
する各カテゴリーの結合度を決定する手段であって、カ
テゴリー体系構築手段２２および結合度決定手段２４を
備えている。

【００４８】カテゴリー体系構築手段２２は、類似度の
高いカテゴリー同士を順次統合して行くことにより、１
個の文書のみを構成要素とする最下位のカテゴリーから
全文書を構成要素とする最上位のカテゴリーに至るツリ
ー構造のカテゴリー体系を構築する。

【００４９】類似度の高いカテゴリーを順次統合する手
順は特に限定されるものではないが、たとえば、カテゴ
リー相互間の類似度が最も高い２つのカテゴリーをまと
めて新たな１つのカテゴリーに統合する処理を繰り返す
ようにすることができる。もちろん、カテゴリー相互間
の類似度が最も高い３つ以上のカテゴリーを一度にまと
めて新たな１つのカテゴリーに統合するようにしてもよ
い。

【００５０】結合度決定手段２４は、ツリー構造のカテ
ゴリー体系を構成する各カテゴリーについて、当該カテ
ゴリーを構成する文書相互の類似度に基づいて、当該カ
テゴリーのまとまりの良さを示す結合度を決定する。こ
の実施形態においては、カテゴリーの結合度を、当該カ
テゴリーを構成する文書１個あたりの文書相互の類似度
の総和に対応する量としている。

【００５１】さらに具体的には、カテゴリーG_aとカテゴ
リーG_bとを統合して得られる新たなカテゴリーをGと
し、それぞれのカテゴリーの結合度をJ(G_a)、J(G_b)、J
(G)とし、それぞれのカテゴリーを構成する文書の数をC
(G_a)、C(G_b)、C(G)としたとき、下記の式（１）にした
がって、カテゴリーGの結合度J(G)を算出するようにし
ている。

【００５２】［式（１）］

【００５３】J(G)=(J(G_a)・(C(G_a)-1)+J(G_b)・(C(G_b)-
1)+β)/(C(G_a)+C(G_b)-1)

【００５４】ただし、カテゴリーG_aを構成するC(G_a)個
のデータおよびカテゴリーG_bを構成するC(G_b)個のデー
タを、それぞれデータD_１、D_２、...、D_mおよびデータD
_m+1、D_m+2、...、D_nとし、文書D_iの文書D_jに対する類似
度をA_ijとしたとき、上式のβは式（２）で表現され
る。

【００５５】［式（２）］

【００５６】

【００５７】最適カテゴリー決定手段１０は、カテゴリ
ーの結合度が当該カテゴリーを構成する直下のいずれの
カテゴリーの結合度よりも少なくとも低くないカテゴリ
ーのうち、ツリー構造の最も上位にあるカテゴリーを最
適カテゴリーとして決定する。なお、この実施形態にお
いては、カテゴリーの結合度が当該カテゴリーを構成す
る直下のいずれのカテゴリーの結合度よりも高いカテゴ
リーのうち、ツリー構造の最も上位にあるカテゴリーを
最適カテゴリーとして決定するようにしている。

【００５８】文書再配置手段１２は、最適カテゴリーと
当該最適カテゴリーを構成する文書とを対応付けて記憶
させる。また、最適カテゴリー表示手段１４は、決定さ
れた最適カテゴリーを表示する。なお、この実施形態に
おいては、最適カテゴリー表示手段１４は、ツリー構造
のカテゴリー体系と併せて最適カテゴリーを表示するよ
うにしている。

【００５９】なお、いずれの最適カテゴリーにも含まれ
ない文書を構成要素とする最下位のカテゴリーを準最適
カテゴリーとして最適カテゴリーと同様に取り扱うよう
にすることもできる。この場合、準最適カテゴリーと当
該準最適カテゴリーを構成する文書とを対応付けて記憶
し、最適カテゴリー表示手段１４には、最適カテゴリー
とともに準最適カテゴリーを表示するようにしてもよ
い。しかし、この発明はこれに限定されるものではな
く、たとえば、いずれの最適カテゴリーにも含まれない
文書を独立の文書として扱うようにしてもよい。

【００６０】図２は、図１に示す文書分類装置２を、Ｃ
ＰＵ４２を用いて実現した場合のハードウェア構成の一
例を示す図面である。

【００６１】文書分類装置２は、データ分類プログラム
である文書分類プログラムを記録した記録媒体であるＣ
Ｄ−ＲＯＭ（コンパクトディスク・リードオンリーメモ
リー）５４を駆動するためのＣＤ−ＲＯＭドライブ５
２、同じく記録媒体であり記憶手段でもあるハードディ
スク５０を備えている。

【００６２】ＣＤ−ＲＯＭ５４に記録された該プログラ
ムは、ＣＤ−ＲＯＭドライブ５２を介して、ハードディ
スク５０にインストールされる。

【００６３】文書分類装置２は、さらに、ハードディス
ク５０にインストールされたプログラムを実行する制御
手段であるＣＰＵ４２，表示手段であるＣＲＴ４４，入
力手段であるキーボード４６およびマウス４８を備えて
いる。

【００６４】図２のＣＰＵ４２が、図１の文書入力手段
４、文書相互間類似度決定手段６、カテゴリー体系構築
・結合度決定手段８、最適カテゴリー決定手段１０、お
よび、文書再配置手段１２に対応する。また、図２のＣ
ＲＴ４４が、図１の最適カテゴリー表示手段１４に対応
する。

【００６５】図３は、文書分類装置２における文書分類
処理の手順の一例を示すフローチャートである。図４
は、図３に示す処理のうち、文書相互間類似度算出処理
の詳細な処理手順の一例を示すフローチャートである。
図５は、図３に示す処理のうち、カテゴリー体系構築・
結合度算出処理の詳細な処理手順の一例を示すフローチ
ャートである。図６は、図３に示す処理のうち、最適カ
テゴリー決定処理において用いられるサブプログラムの
処理手順の一例を示すフローチャートである。

【００６６】図７は、文書の特徴ベクトルおよび文書相
互の類似度を説明するための図面である。図８Ａ〜図８
Ｃは、カテゴリー体系を構築する処理を説明するための
図面である。図９は、構築されたカテゴリー体系および
最適カテゴリーを説明するための図面である。図１０は
最適カテゴリーが表示されたＣＲＴ４４の表示画面を示
す図面である。

【００６７】図２〜図１０を用いて、文書分類装置２を
用いた文書分類処理について説明する。図２に示すＣＰ
Ｕ４２は、まず、記憶手段であるハードディスク５０に
記憶されているｎ個の文書を取り込む（図３、ステップ
Ｓ１）。

【００６８】つぎに、ＣＰＵ４２は、取り込んだ各文書
相互間の類似度を算出する（図３、ステップＳ２）。ス
テップＳ２の詳細な処理手順を図４に示す。すなわち、
図４に示すように、ＣＰＵ４２は、まず、取り込んだ各
文書の特徴ベクトルを算出する（図４，ステップＳ１
１）。

【００６９】このステップにおいては、特徴ベクトル空
間の各軸を構成するキーワードと各文書に含まれる単語
とをマッチングすることにより、各文書の特徴ベクトル
を算出するようにしている。

【００７０】説明の便宜上、図７に示すような第１軸
（犬軸）AX₁、第２軸（好き軸）AX₂および第３軸（男
軸）AX₃の３次元の特徴ベクトル空間を想定する。たと
えば、文書D₁が「犬の好きな男」であるとすれば、文書
D₁は「犬」、「好き」および「男」を含むから、第１軸
AX₁、第２軸AX₂、第３軸AX₃の成分が全て「１」にな
る。したがって、文書D₁の特徴ベクトルV₁は、図７のよ
うになる。

【００７１】同様に、文書D₂が「犬の好きな子供」であ
るとすれば、文書D₂は「犬」、「好き」を含むが「男」
を含まないから、第１軸AX₁、第２軸AX₂、第３軸AX₃の
成分は、それぞれ、「１」、「１」、「０」となる。し
たがって、文書D₂の特徴ベクトルV₂は、図７のようにな
る。

【００７２】このようにして全ての文書D₁〜D_nの特徴ベ
クトルV₁〜V_nを算出すると、ＣＰＵ４２は、つぎに各文
書相互の類似度を算出する（図４，ステップＳ１２）。
この実施形態においては、文書D_iの文書D_jに対する類似
度A_ijを、特徴ベクトル空間における文書D_iの特徴ベク
トルV_iと文書D_jの特徴ベクトルV_jとのなす角θ_ij（図
７、角θ₁₂参照）の余弦（cosθ_ij）を百分率で表した
数値で表現している。一般的には、データ相互間の類似
度は、データ相互間の特徴値の類似度として把握するこ
とができる。

【００７３】なお、文書D_iの文書D_jに対する類似度A_ij
と、文書D_jの文書D_iに対する類似度A _jiとは等しいの
で、どちらか一方のみを計算しておけばよい。また、自
己との類似度A_iiは計算する必要がないので、ｎ個の文
書の類似度の計算は、(n²-n)/2回行われることになる。

【００７４】つぎに、ＣＰＵ４２は、算出した類似度に
基づいて、類似度行列を生成する（図４，ステップＳ１
３）。類似度行列は、前ステップにおいて生成された類
似度A_ijを要素とするn次正方行列である。ただし、対角
成分A_iiは全て「１００」となる。

【００７５】説明の便宜のため、文書数n=5の場合の類
似度行列６０を図８Ａに示す。図８Ａおよび図８Ｂで
は、対角成分A_iiを棒線で表している。以後の計算では
対角成分A_iiを用いないから、便宜上、このように表現
しているのである。なお、類似度行列は、成分A_ij（i＞
j）を全て「０」とした下方三角行列として表現される
場合もある。

【００７６】つぎに、ＣＰＵ４２は、生成した類似度行
列に基づいて、取り込んだ全文書についてのツリー構造
のカテゴリー体系を構築するとともに、当該カテゴリー
体系を構成する各カテゴリーの結合度を算出する（図
３、ステップＳ３）。ステップＳ３の詳細な処理手順を
図５に示す。すなわち、図５に示すように、ＣＰＵ４２
は、まず、最も類似度の高い２つのカテゴリーを統合す
る（図５，ステップＳ２１）。

【００７７】統合前においては、各文書D₁〜D_nが、それ
ぞれ１つのカテゴリーG₁〜G_nを構成しているものとす
る。したがって、カテゴリーG₁〜G_nの特徴ベクトルは、
各文書D₁〜D_nの特徴ベクトルV₁〜V_nに一致する。カテゴ
リーG₁〜G_n相互間の類似度とは、各文書D₁〜D_n相互間の
類似度A_ijにほかならない。つまり、ＣＰＵ４２は、こ
のステップにおいて、まず、図８Ａに示す類似度行列６
０に基づいて最も類似度の高い２つの文書を統合するの
である。

【００７８】図８Ａにおいて、対角成分を除いて最も高
い類似度が、たとえば、A₂₃（=A₃₂）であったとする。
ＣＰＵ４２は、カテゴリーG₂（文書D₂）とカテゴリーG₃
（文書D₃）とを統合して新たなカテゴリーG_xを生成する
とともに、新たなカテゴリーG_xの特徴ベクトルV_xを決定
する。

【００７９】特徴ベクトルV_xの決定方法は特に限定され
るものではないが、たとえば、カテゴリーG_xを構成して
いる複数のカテゴリーの特徴ベクトルを平均したベクト
ルをあらたな特徴ベクトルV_xとしたり、カテゴリーG_xを
構成している複数のカテゴリーの特徴ベクトルのひとつ
（たとえば、カテゴリーG_xを構成している複数のカテゴ
リーの特徴ベクトルのうち、カテゴリーG_xとの類否が問
題となっている他のカテゴリーの特徴ベクトルに最も近
いカテゴリーの特徴ベクトル）をあらたな特徴ベクトル
V_xとしたりすることができる。一般的には、カテゴリー
の特徴値は、当該カテゴリーを構成するデータの特徴値
に基づいて決定することができる。

【００８０】ＣＰＵ４２は、このようにして決定された
新たなカテゴリーG_xの特徴ベクトルV_xと、統合されなか
った他のカテゴリーG₁、G₄、G₅の特徴ベクトルとの類似
度を算出し、算出結果に基づいて、類似度行列を書き直
す。

【００８１】すなわち、図８Ａに示す類似度行列６０か
ら、カテゴリーG₂およびカテゴリーG₃に関連する要素を
除去し、代わりに、カテゴリーG₂とカテゴリーG₃とを統
合した新たなカテゴリーG_xと統合されなかった他のカテ
ゴリーG₁、G₄、G₅との類似度を挿入する。このようにし
て書き直された類似度行列６２を図８Ｂに示す。このよ
うに、カテゴリーの統合を１回行うことにより、類似度
行列の次数は１次小さくなることになる。

【００８２】つぎに、ＣＰＵ４２は、あらたなカテゴリ
ーG_xの結合度J(G_x)を算出する（図５，ステップＳ２
２）。算出式の一般形は、上述の式（１）、（２）で表
される。ここでは、たとえば類似度A₂₃=90である場合を
例に、結合度J(G_x)を算出してみる。

【００８３】式（１）において、G=G_x、G_a=G₂、G_b=G₃と
おけば、C(G_２)=C(G₃)=1であるから、J(G_x)=βとなる。

【００８４】一方、式（２）から分かるように、βは、
統合前の一方のカテゴリーを形成する各文書から見た他
方のカテゴリーを形成する各文書との類似度の総和と、
統合前の他方のカテゴリーを形成する各文書から見た一
方のカテゴリーを形成する各文書との類似度の総和との
和をとったものである。したがって、上述のケースで
は、β=A₂₃+A₃₂=180となる。つまり、あらたなカテゴリ
ーG_xの結合度J(G_x)=180となる。

【００８５】ここで、式（１）、（２）の妥当性につい
て考察をしておく。まず、「カテゴリーの内部エネルギ
ーE(G)」なる概念を導入する。カテゴリーの内部エネル
ギーE(G)を、１つのまとまりをなすカテゴリーを構成し
ている各文書をバラバラにするために必要な総エネルギ
ーと定義する。

【００８６】すなわち、あるカテゴリーを構成している
１つの文書を当該カテゴリーを構成している他の全ての
文書から引き離すのに必要なエネルギーを、当該カテゴ
リーを構成する各文書について合計したものを、当該カ
テゴリーの内部エネルギーE(G)とする。

【００８７】ここで、２つの文書が類似しているほど引
き離すのが困難であるとして、２つの文書D_i、D_jを引き
離すエネルギーは２つの文書D_iとD_jの類似度A_ijに等し
い、という仮定をおくと、構成文書数C(G)=nのカテゴリ
ーGの内部エネルギーE(G)は、次式（３）で表すことが
できる。

【００８８】［式（３）］

【００８９】

【００９０】なお、図８Ａに示す行列の対角成分A_iiを
除く要素の総和が、構成文書数C(G)=5の場合におけるカ
テゴリーの内部エネルギーE(G)となっている。

【００９１】カテゴリーGが、２つのカテゴリーG_a（構
成文書数C(G_a)=m）とG_b（構成文書数C(G_b)=n-m）とを統
合して形成された新たなカテゴリーであるとすると、式
（３）は次式（４）で表現することができる。

【００９２】［式（４）］

【００９３】

【００９４】一方、１つの文書のみを構成要素とするカ
テゴリー（すなわちC(G)=1）の内部エネルギーは「０」
であることを考慮すれば、構成文書数C(G)=nのカテゴリ
ーGの内部エネルギーE(G)は、次式（５）のように表す
こともできる。

【００９５】［式（５）］

【００９６】E(G)=J(G)・(n-1)

【００９７】式（５）において、J(G)は、あるカテゴリ
ーを構成している１つの文書を当該カテゴリーを構成し
ている他の全ての文書から引き離すのに必要なエネルギ
ーの平均値、すなわち、あるカテゴリーから１つの文書
を引き離すのに必要な平均的なエネルギーと考えられ
る。

【００９８】カテゴリーから文書を引き離すのに要する
エネルギーが高いほど、そのカテゴリーはまとまりが良
いと考えられる。そこで、本願では、J(G)を、カテゴリ
ーGのまとまりの良さを表す結合度（カテゴリーGの硬
さ）と位置づけ、良いカテゴリーか否かを判断する基準
としたのである。

【００９９】なお、式（５）の形から、カテゴリーGの
結合度J(G)は、分子数ｎ、分子の運動エネルギーを無視
した場合の内部エネルギーE(G)、であるような物質の硬
度と類似していることが分かる。

【０１００】式（４）および式（５）から導かれたの
が、結合度J(G)を示す式（１）、（２）である。式
（１）、（２）を用いると、既に求めてあるJ(G_a)、J(G
_b)を利用できるので、演算時間が短くて済むという利点
がある。

【０１０１】なお、演算時間が長くはなるものの、式
（３）および式（５）から導かれる次式（６）を用いて
結合度J(G)を算出することもできる。

【０１０２】［式（６）］

【０１０３】

【０１０４】式（６）から分かるように、結合度J(G)
は、あるカテゴリーを構成している１つの文書と当該カ
テゴリーを構成している他の文書との類似度の総和の平
均的な値と見ることもできる。つまり、結合度J(G)は、
カテゴリーを構成する個々の文書同士の類似度が高いほ
ど高くなり、しかも、カテゴリーを構成する文書数が多
いほど高くなることになる。

【０１０５】したがって、カテゴリーの結合度は、上述
の各式に限定されるものではなく、カテゴリーを構成す
る文書同士の類似度が高いほど高くなり、かつ、カテゴ
リーを構成する文書数が多いほど高くなるような条件を
満たす関数を用いればよいことがわかる。さらに、ニュ
ーラルネットワークのような自己学習型の情報処理手段
を用いて、上記条件を満足するような結合度を算出させ
るようにしてもよい。

【０１０６】さて、このようにして、新たなカテゴリー
の結合度が算出されると、ＣＰＵ４２は、生成された新
たなカテゴリーが、与えられた全文書を含むか否かを判
断する（図５，ステップＳ２３）。新たなカテゴリーが
全文書を包含しない場合には、ＣＰＵ４２は制御をステ
ップＳ２１に戻し、今度は書き直された類似度行列６２
（図８Ｂ参照）に基づいて、最も類似度の高い２つのカ
テゴリー（文書）を統合するのである。

【０１０７】以下、ＣＰＵ４２は、生成された新たなカ
テゴリーが全文書を含むようになるまで、ステップＳ２
１〜ステップＳ２３の処理を繰り返す。このようにして
生成された最後の類似度行列６４を図８Ｃに示す。な
お、図８Ｃに示す類似度行列６４は、全文書を包含する
最上位のカテゴリーG_rの自己類似度A_rrのみを要素とす
る１行１列の行列である。

【０１０８】このようにして、与えられたｎ個の文書D₁
〜D_nについてのツリー構造のカテゴリー体系が構築され
るとともに、当該カテゴリー体系を構成する各カテゴリ
ーの結合度が算出される。

【０１０９】図９は、このようにして構築されたツリー
構造のカテゴリー体系、および当該カテゴリー体系を構
成する各カテゴリーの結合度を説明するための図面であ
る。ただし図９においては、説明の便宜のため、図１１
にて説明した例と同じ例を用いている。すなわち、図９
の例においては、分類の対象となるデータとして、文書
ではなく、ある集団を構成するメンバーの年齢を想定
し、年齢をそのまま特徴値として用いている。図９の各
データD₁〜D₁₄を示す矩形内に記載された数値が特徴値
（年齢）である。

【０１１０】つまり、データ数n=14とし、各データD₁〜
D₁₄の特徴を表す１４個の特徴値を全てスカラー量S
_i（１次元の特徴ベクトル）で表現している。また、類
似度A_ij（パーセント）を次式（７）で算出するように
している。

【０１１１】［式（７）］

【０１１２】A_ij = (1/｜S_i-S_j｜)×100

【０１１３】また、図９の例においては、カテゴリー相
互間の類似度が最も高いカテゴリーが３つ以上ある場
合、それら３つ以上のカテゴリーを一度にまとめて新た
な１つのカテゴリーに統合するようにしている。

【０１１４】また、統合により生成された新たなカテゴ
リーを構成している複数の下位のカテゴリーの特徴ベク
トルのうち、あらたなカテゴリーとの類否が問題となっ
ている他のカテゴリーの特徴ベクトルに最も近いカテゴ
リーの特徴ベクトルを、新たなカテゴリーの特徴ベクト
ルとしている。

【０１１５】図９から分かるように、これまでの処理に
よって、１個のデータのみを構成要素とする最下位のカ
テゴリーである１４個のカテゴリーG₁〜G₁₄（それぞ
れ、データD₁〜D₁₄のうち１つのみを構成要素としてい
る）から、中間位のカテゴリーである１０個のカテゴリ
ーG₁₅〜G₂₄を経て、最上位のカテゴリーであるカテゴリ
ーG_rに至るツリー構造のカテゴリー体系が形成されると
ともに、このカテゴリー体系を構成する２５個のカテゴ
リーG₁〜G₂₄およびG_rの結合度が、それぞれ算出され
る。

【０１１６】図９において、カテゴリーG₁₅〜G₂₄および
G_rを示す楕円内にそれらの結合度が記載されている。な
お、カテゴリーG₁〜G₁₄の結合度は、上述のように、い
ずれも「０」である。

【０１１７】図３に戻って、ＣＰＵ４２は、つぎに、算
出した各カテゴリーの結合度に基づいて、最適なカテゴ
リーを決定する（図３、ステップＳ４）。ステップＳ４
の処理に用いられるサブプログラム（図６参照）におい
ては、当該サブプログラムの実行中に自己をサブプログ
ラムとして呼び出して実行する、いわゆる再帰呼び出し
手法を用いている。このような構成の処理を行うこと
で、ツリー構造の処理を効率よく行うことができる。

【０１１８】図３のステップＳ４に示すように、ＣＰＵ
４２は、まず、ツリー構造の最上位のカテゴリーG_rを処
理対象カテゴリーGとして設定し、図６に示すサブプロ
グラムに制御を移す。

【０１１９】図６に示すサブプログラムにおいて、ＣＰ
Ｕ４２は、まず、処理対象カテゴリーGの要素数C(G)が
１つであるか否かを判断する（図６、ステップＳ３
１）。処理対象となっているカテゴリーGが最下位のカ
テゴリーでないかぎり、ＣＰＵ４２は、ステップＳ３２
を実行することになる。

【０１２０】ステップＳ３２において、ＣＰＵ４２は、
処理対象カテゴリーGの結合度J(G)が、処理対象カテゴ
リーGを構成する直下のカテゴリーG_a、G_bの結合度J
(G_a)、J(G_b)のいずれよりも大きいか否かを判断する
（図６，ステップＳ３２）。本ステップにおいて、処理
対象カテゴリーGの結合度J(G)が、処理対象カテゴリーG
を構成する直下のカテゴリーG_a、G_bの結合度J(G_a)、J(G
_b)のいずれよりも大きい場合は、当該処理対象カテゴリ
ーGを、最適カテゴリーに決定し（図６、ステップＳ３
５）、当該処理対象カテゴリーGに関する処理（サブプ
ログラム）を終了する。

【０１２１】したがって、最上位のカテゴリーG_rが最適
カテゴリーと決定された場合には、最適カテゴリー決定
処理（図３，ステップＳ４）は終了する。

【０１２２】一方、ステップＳ３２において、処理対象
カテゴリーGの結合度J(G)が、処理対象カテゴリーGを構
成する直下のカテゴリーG_a、G_bの結合度J(G_a)、J(G_b)の
いずれか一方よりも大きいか、いずれか一方と等しいよ
うな場合は、当該処理対象カテゴリーGは最適カテゴリ
ーではないと判断し、直下のカテゴリーG_a、G_bそれぞれ
について、最適カテゴリー決定処理を行う。

【０１２３】すなわち、このような場合、ＣＰＵ４２
は、上述のカテゴリーG_a、G_bをそれぞれ新たな処理対象
カテゴリーGとして設定し、図６に示すサブプログラム
を実行する（図６，ステップＳ３３、ステップＳ３
４）。

【０１２４】このような再帰呼び出し処理を繰り返すこ
とで、ツリー構造のカテゴリー体系において、カテゴリ
ーの結合度が当該カテゴリーを構成する直下のいずれの
カテゴリーの結合度よりも高いカテゴリーのうち、ツリ
ー構造の最も上位にあるカテゴリーを最適カテゴリーと
して決定することができる。

【０１２５】なお、図６のステップＳ３１において、処
理対象カテゴリーGの要素数C(G)が「１」である場合、
当該処理対象カテゴリーGを最適カテゴリーに決定する
（図６，ステップＳ３５）。

【０１２６】すなわち、最下位のカテゴリー（要素数が
１つのカテゴリー）より上位のカテゴリーに最適カテゴ
リが存在しなかった場合、つまり、当該最下位のカテゴ
リーからツリー構造をたどって最上位のカテゴリーG_rに
至る経路上に最適カテゴリーが存在しない場合には、当
該最下位のカテゴリーを最適カテゴリーとみなして、通
常の最適カテゴリーと同様に取り扱うようにしているの
である。最適カテゴリーとみなされた最下位のカテゴリ
ーが、上述の準最適カテゴリーである。

【０１２７】ただし、上述のように、最下位のカテゴリ
ーより上位のカテゴリーに最適カテゴリが存在しなかっ
た場合、当該最下位のカテゴリーを構成するデータを、
いずれの最適カテゴリーにも属さない独立のデータとし
て扱うようにしてもよい。このように取り扱うには、図
６のステップＳ３１において、処理対象カテゴリーGの
要素数C(G)が「１」である場合に当該処理対象カテゴリ
ーGについての図６に示すサブプログラムを終了するよ
うにしておけばよい。

【０１２８】図９の例では、カテゴリーを示す楕円が太
線で描かれているものが最適カテゴリーを表している。
すなわち、カテゴリーG₁₇、G₁₈およびG₂₂が最適カテゴ
リーである。

【０１２９】なお、図９の例では、上述の３つの最適カ
テゴリーG₁₇、G₁₈およびG₂₂のいずれにも属しないカテ
ゴリーG₉およびG₁₄を構成するデータD₉およびD₁₄を独立
したデータとして扱うようにしているが、上述のよう
に、カテゴリーG₉およびG₁₄を最適カテゴリーとして扱
うようにしてもよい。

【０１３０】図３に戻って、ＣＰＵ４２は、このように
して決定された最適カテゴリーに、これら最適カテゴリ
ーを構成する各文書（各データ）を再配置する（図３、
ステップＳ５）。たとえば、各最適カテゴリーとこれら
を構成する文書とを関連付けて、ハードディスク５０に
記憶するという形で、この処理が実行される。

【０１３１】ＣＰＵ４２は、つぎに、最適カテゴリーを
ＣＲＴ４４上に表示する（図３，ステップＳ６）。図９
の例における最適カテゴリーG₁₇、G₁₈およびG₂₂をＣＲ
Ｔ４４上に表示した場合の例を、図１０に示す。図１０
に示す表示画面７０うち、特徴グループ一覧表示部７２
に、最適カテゴリーG₁₇、G₁₈およびG₂₂に関する情報が
表示されている。

【０１３２】すなわち、特徴グループ一覧表示部７２に
は、各最適カテゴリーG₁₇、G₁₈およびG₂₂について、最
適カテゴリーを示す表示（星マークの付されたフォルダ
ーのアイコン）とともに、当該最適カテゴリーを構成す
る文書（データ）の数、当該最適カテゴリーの結合度、
当該最適カテゴリーの類似度（当該最適カテゴリーの構
成要素である直下のカテゴリー相互間の類似度）、当該
最適カテゴリーのキーワード（特徴値）が表示されてい
る。

【０１３３】たとえば、特徴グループ一覧表示部７２に
表示されているいずれかのフォルダのアイコンを、マウ
ス４８等を用いて選択することで、当該フォルダに対応
する最適カテゴリーの構成要素である文書（データ）の
一覧（目録）がＣＲＴ４４上に表示され（図示せず）、
表示された文書の一覧からマウス４８等を用いて所望の
文書を選択することにより、当該文書の内容をＣＲＴ４
４上に表示させることができる。

【０１３４】なお、この実施形態においては、図１０に
示す表示画面７０に、上述の特徴グループ一覧表示部７
２とともに、全グループ階層表示部７４も表示されてい
る。全グループ階層表示部７４には、ツリー構造のカテ
ゴリー体系が視覚的に確認できるよう各カテゴリーが表
示され、併せて、各カテゴリーの情報も表示されてい
る。

【０１３５】すなわち、全グループ階層表示部７４に
は、カテゴリー体系を構成する全てのカテゴリーがツリ
ー状に階層表示されるとともに、各カテゴリーについ
て、カテゴリーを示す表示（フォルダーのアイコン）と
ともに、当該カテゴリーを構成する文書（データ）の
数、当該カテゴリーの類似度（当該カテゴリーの構成要
素である文書（データ）相互間の類似度）、当該カテゴ
リーの結合度が表示されている。また、全グループ階層
表示部７４には、最適カテゴリーに含まれない書類（デ
ータ）が、孤立した文書として表示されている。

【０１３６】全グループ階層表示部７４に表示された各
カテゴリーのうち、最適カテゴリーには、最適カテゴリ
ーを示す表示（星マークのアイコン）が、さらに付され
ている。つまり、ツリー構造のカテゴリー体系を表示す
るとともに、当該カテゴリー体系を構成するカテゴリー
のうち最適カテゴリーを他のカテゴリーと異なる態様で
表示するようにしている。このように表示すれば、ツリ
ー構造のカテゴリー体系における最適カテゴリーの位置
づけが視覚的に把握し易くなり、好都合である。

【０１３７】もちろん、全グループ階層表示部７４の表
示から、ツリー構造のカテゴリーをたどって、所望の文
書（データ）の内容をＣＲＴ４４上に表示させることも
できる。

【０１３８】このように、文書分類装置２においては、
類似度の高いカテゴリー同士を順次統合して行くことに
より、１個の文書のみを構成要素とする最下位のカテゴ
リーから全文書を構成要素とする最上位のカテゴリーに
至るツリー構造のカテゴリー体系を構築するようにして
いる。また、カテゴリー体系を構成する各カテゴリーに
ついて、当該カテゴリーを構成する文書相互の類似度に
基づいて、当該カテゴリーのまとまりの良さを示す結合
度を決定するようにしている。さらに、カテゴリーの結
合度が当該カテゴリーを構成する直下のいずれのカテゴ
リーの結合度よりも少なくとも低くないカテゴリーのう
ち、ツリー構造の最も上位にあるカテゴリーを最適カテ
ゴリーとして決定するようにしている。そして、最適カ
テゴリーと当該最適カテゴリーを構成する文書とを対応
付けて記憶させるようにしている。

【０１３９】したがって、傾向がまったく不明の大量の
文書であっても、これらの文書相互の類似度に基づいて
ツリー構造のカテゴリー体系を構築することができる。
このようにして構築したツリー構造のカテゴリー体系を
構成する各カテゴリーについて、各カテゴリーを構成す
る文書相互の類似度に基づいて各カテゴリーの結合度を
決定し、決定した結合度に基づいて各カテゴリーの中か
ら最適カテゴリーを決定するようにしている。

【０１４０】このようにして最適カテゴリーを決定する
ことで、階層的なツリー構造のカテゴリー体系を、最適
カテゴリーを構成要素とする１元的なカテゴリー体系、
すなわち、ある最適カテゴリーが他の最適カテゴリーに
含まれることがないような構造のカテゴリー体系、に変
換することができる。

【０１４１】さらに、最適カテゴリーと当該最適カテゴ
リーを構成する文書とを対応付けて記憶させることで、
文書を一元的分類、つまり、ある最適カテゴリーに属す
る文書が他の最適カテゴリーに含まれることがないよう
な分類、を行うことができる。

【０１４２】このようにして、傾向がまったく不明の大
量の文書を自動的に一元的分類することができるのであ
る。

【０１４３】なお、上述の実施形態において、図３の文
書入力処理（ステップＳ１）が、図１の文書入力手段４
に対応する。

【０１４４】文書相互間類似度算出処理（ステップＳ
２）が、文書相互間類似度決定手段６に対応する。図４
のステップＳ１１が、図１の特徴ベクトル生成手段１６
に対応する。ステップＳ１２が類似度算出手段１８に対
応する。ステップＳ１３が類似度行列生成手段２０に対
応する。

【０１４５】カテゴリー体系構築・結合度算出処理（ス
テップＳ３）が、カテゴリー体系構築・結合度決定手段
８に対応する。図５のステップＳ２１およびステップＳ
２３が、図１のカテゴリー体系構築手段２２に対応す
る。ステップＳ２２が結合度決定手段２４に対応する。

【０１４６】最適カテゴリー決定処理（ステップＳ４）
が、最適カテゴリー決定手段１０に対応する。最適カテ
ゴリーに各文書を配置する処理（ステップＳ５）が、文
書再配置手段１２に対応する。最適カテゴリー表示処理
（ステップＳ６）が、最適カテゴリー表示手段１４に対
応する。

【０１４７】また、請求項における、類似度の高いカテ
ゴリー同士を順次統合して行くことにより、１個のデー
タのみを構成要素とする最下位のカテゴリーから全デー
タを構成要素とする最上位のカテゴリーに至るツリー構
造のカテゴリー体系を構築するステップが、実施形態に
おけるステップＳ２１およびステップＳ２３に対応す
る。

【０１４８】請求項における、ツリー構造のカテゴリー
体系を構成する各カテゴリーについて、当該カテゴリー
を構成するデータ相互の類似度に基づいて、当該カテゴ
リーのまとまりの良さを示す結合度を決定するステップ
が、ステップＳ２２に対応する。

【０１４９】請求項における、カテゴリーの結合度が当
該カテゴリーを構成する直下のいずれのカテゴリーの結
合度よりも少なくとも低くないカテゴリーのうち、ツリ
ー構造の最も上位にあるカテゴリーを最適カテゴリーと
して決定するステップが、ステップＳ４に対応する。

【０１５０】請求項における、最適カテゴリーと当該最
適カテゴリーを構成するデータとを対応付けて記憶させ
るステップが、ステップＳ５に対応する。

【０１５１】また、請求項における、カテゴリーを構成
するデータ相互の類似度を算出するステップが、ステッ
プＳ２に対応する。

【０１５２】請求項における、算出されたデータ相互の
類似度に基づいて、当該カテゴリーを構成するデータ１
個あたりのデータ相互の類似度の総和に対応する量を、
当該カテゴリーのまとまりの良さを表す結合度として算
出するステップが、ステップＳ２２に対応する。

【０１５３】また、請求項における、ツリー構造のカテ
ゴリー体系を構成する各カテゴリーについて、カテゴリ
ーのまとまりの良さを表すカテゴリーの結合度を決定す
るステップが、ステップＳ２２に対応する。

【０１５４】請求項における、カテゴリーの結合度が当
該カテゴリーを構成する直下のいずれのカテゴリーの結
合度よりも少なくとも低くないカテゴリーのうち、ツリ
ー構造の最も上位にあるカテゴリーを最適カテゴリーと
して決定するステップが、ステップＳ４に対応する。

【０１５５】請求項における、最適カテゴリーと当該最
適カテゴリーを構成するデータとを対応付けて記憶させ
るステップが、ステップＳ５に対応する。

【０１５６】なお、上述の実施形態においては、新たに
カテゴリーを統合するごとに新たなカテゴリーの結合度
を算出するようにしたが、この発明はこれに限定される
ものではない。たとえば、カテゴリーの統合を全て終了
してから、まとめて各カテゴリーの結合度を算出するよ
うにしてもよい。

【０１５７】また、上述の実施形態においては、データ
の例として主として文書を例に説明したが、この発明は
これに限定されるものではない。たとえば、単純な実験
データ等の他、画像データ、音声データ等、少なくとも
一次元または多次元のベクトル空間で定義可能な特徴値
を持つデータは、この発明の適用対象となる。

【０１５８】なお、上述のブロック図、ハードウェア構
成、フローチャート、表示画面、その他説明に用いた図
面等は例として挙げたものであり、本願発明は、上述の
ブロック図等に限定されるものではない。

【０１５９】なお、上述の実施形態においては、スタン
ドアローンで動作するコンピュータをもちいて文書分類
装置２を実現する場合を例に説明したが、本発明はこれ
に限定されるものではない。

【０１６０】たとえば、サーバコンピュータ（サーバ装
置）のハードディスク（記録媒体）に上述の文書分類装
置２を構成するプログラム等を記憶させておき、サーバ
コンピュータにより、インターネット（通信網）を介し
て１台以上のパーソナルコンピュータ（端末装置）をコ
ントロールすることで、パーソナルコンピュータ側の入
力装置（入力手段）から処理すべき文書を入力させ、入
力された文書を分類する処理をサーバコンピュータ側で
実行し、分類結果をパーソナルコンピュータ側に送信
し、パーソナルコンピュータの表示装置（表示手段）に
表示されるよう構成することもできる。

【０１６１】また、本装置を構成するプログラムの一部
をパーソナルコンピュータ側に持たせるようにしてもよ
い。もちろん、サーバコンピュータとして複数のコンピ
ュータを用いてもよい。サーバコンピュータとして複数
のコンピュータを用いる場合には、それら複数のコンピ
ュータを通信回線（たとえばインターネット）を介して
接続するようにしてもよい。

【０１６２】なお、上の例では、通信網としてインター
ネットを例に説明したが、通信網はインターネットに限
定されるものではない。たとえば、ＬＡＮ（ローカルエ
リアネットワーク）を介してサーバコンピュータとパー
ソナルコンピュータ等の端末装置とを接続するようなネ
ットワークにおいて本発明を実現するようにしてもよ
い。

【０１６３】なお、この実施形態においては、ＣＤ−Ｒ
ＯＭに記録されたプログラムをハードディスクにインス
トールして実行するようにしている。ただし、プログラ
ムの保持形態はこれらに限定されるものではない。たと
えば、本装置を構成するプログラムを、フロッピー（登
録商標）ディスク、磁気テープ等に記録するようにして
もよい。

【０１６４】また、プログラムの実行方法も、特に限定
されるものではない。たとえば、ＣＤ−ＲＯＭ、フロッ
ピーディスク、磁気テープ等に記録されたプログラム
を、ハードディスクにインストールすることなく、直
接、実行するようにしてもよい。

【０１６５】さらに、有線や無線の通信回線を介して当
該プログラムを配信するようにしてもよい。また、当該
プログラムをメインのサーバコンピュータにインストー
ルしておき、たとえばインターネットなどの通信回線を
介してローカルのサーバコンピュータに本システムのプ
ログラムを実行させるようにしてもよい。

【０１６６】また、プログラムやデータの記録態様は特
に限定されるものではない。直接実行できる形で記録媒
体に記録されている場合の他、たとえば、解凍して使用
するように圧縮された形で記録媒体に記録されていても
よい。

【０１６７】なお、上述の実施形態においては、コンピ
ュータを用いて図１の各機能を実現する場合を例に説明
したが、図１の機能の一部または全部をハードウェアロ
ジックを用いて構成するようにしてもよい。

【図面の簡単な説明】

【図１】この発明の一実施形態によるデータ分類装置で
ある文書分類装置２の構成を説明するためのブロック図
である。

【図２】図１に示す文書分類装置２を、ＣＰＵ４２を用
いて実現した場合のハードウェア構成の一例を示す図面
である。

【図３】文書分類装置２における文書分類処理の手順の
一例を示すフローチャートである。

【図４】図３に示す処理のうち、文書相互間類似度算出
処理の詳細な処理手順の一例を示すフローチャートであ
る。

【図５】図３に示す処理のうち、カテゴリー体系構築・
結合度算出処理の詳細な処理手順の一例を示すフローチ
ャートである。

【図６】図３に示す処理のうち、最適カテゴリー決定処
理において用いられるサブプログラムの処理手順の一例
を示すフローチャートである。

【図７】文書の特徴ベクトルおよび文書相互の類似度を
説明するための図面である。

【図８】図８Ａ〜図８Ｃは、カテゴリー体系を構築する
処理を説明するための図面である。

【図９】構築されたカテゴリー体系および最適カテゴリ
ーを説明するための図面である。

【図１０】最適カテゴリーが表示されたＣＲＴ４４の表
示画面を示す図面である。

【図１１】従来から行われている凝集法を説明するため
の模式図である。

【符号の説明】

１０・・・・・最適カテゴリー決定手段１２・・・・・文書再配置手段２４・・・・・結合度決定手段

Claims

【特許請求の範囲】

【請求項１】複数のデータを１以上のカテゴリーに分類
するためのデータ分類装置であって、類似度の高いカテゴリー同士を順次統合して行くことに
より、１個のデータのみを構成要素とする最下位のカテ
ゴリーから全データを構成要素とする最上位のカテゴリ
ーに至るツリー構造のカテゴリー体系を構築し、ツリー構造のカテゴリー体系を構成する各カテゴリーに
ついて、当該カテゴリーを構成するデータ相互の類似度
に基づいて、当該カテゴリーのまとまりの良さを示す結
合度を決定し、カテゴリーの結合度が当該カテゴリーを構成する直下の
いずれのカテゴリーの結合度よりも少なくとも低くない
カテゴリーのうち、ツリー構造の最も上位にあるカテゴリーを最適カテゴリーとして決定し、最適カテ
ゴリーと当該最適カテゴリーを構成するデータとを対応
付けて記憶させること、を特徴とするデータ分類装置。
【請求項２】コンピュータを、複数のデータを１以上の
カテゴリーに分類するためのデータ分類装置として機能
させるためのデータ分類プログラムであって、類似度の高いカテゴリー同士を順次統合して行くことに
より、１個のデータのみを構成要素とする最下位のカテ
ゴリーから全データを構成要素とする最上位のカテゴリ
ーに至るツリー構造のカテゴリー体系を構築し、ツリー構造のカテゴリー体系を構成する各カテゴリーに
ついて、当該カテゴリーを構成するデータ相互の類似度
に基づいて、当該カテゴリーのまとまりの良さを示す結
合度を決定し、カテゴリーの結合度が当該カテゴリーを構成する直下の
いずれのカテゴリーの結合度よりも少なくとも低くない
カテゴリーのうち、ツリー構造の最も上位にあるカテゴ
リーを最適カテゴリーとして決定し、最適カテゴリーと当該最適カテゴリーを構成するデータ
とを対応付けて記憶させる処理をコンピュータに実行さ
せるためのデータ分類プログラム。
【請求項３】請求項２のデータ分類プログラムを記録し
たコンピュータ読み取り可能な記録媒体。
【請求項４】請求項１ないし３のいずれかの装置、プロ
グラムまたは記録媒体において、カテゴリーの結合度は、当該カテゴリーを構成するデー
タ１個あたりのデータ相互の類似度の総和に対応する量
であること、を特徴とするもの。
【請求項５】請求項１ないし４のいずれかの装置、プロ
グラムまたは記録媒体において、カテゴリーG_aとカテゴリーG_bとを統合して得られる新た
なカテゴリーをGとし、それぞれのカテゴリーの結合度
をJ(G_a)、J(G_b)、J(G)とし、それぞれのカテゴリーを構
成するデータの数をC(G_a)、C(G_b)、C(G)としたとき、カ
テゴリーGの結合度J(G)が、次式 J(G)=(J(G_a)・(C(G_a)-1)+J(G_b)・(C(G_b)-1)+β)/(C(G_a)
+C(G_b)-1) で表されることを特徴とするもの、ただし、カテゴリーG_aを構成するC(G_a)個のデータおよ
びカテゴリーG_bを構成するC(G_b)個のデータを、それぞ
れデータD_１、D_２、...、D_mおよびデータD_m+1、
D_m+2、...、D_nとし、データD_iのデータD_jに対する類似
度をA_ijとしたとき、上式のβは次式で表現される。
【請求項６】請求項１ないし５のいずれかの装置、プロ
グラムまたは記録媒体において、データ分類装置は、いずれの最適カテゴリーにも含まれ
ないデータを構成要素とする最下位のカテゴリーを準最
適カテゴリーとして最適カテゴリーと同様に取り扱うこ
と、を特徴とするもの。
【請求項７】請求項１ないし６のいずれかの装置、プロ
グラムまたは記録媒体において、前記データは文書であり、データ相互の類似度を決定す
る基礎となるデータの特徴値として、文書の特徴を示す
ベクトルを用いること、を特徴とするもの。
【請求項８】請求項１ないし７のいずれかの装置、プロ
グラムまたは記録媒体において、データ分類装置は、最適カテゴリーを表示する際、当該
最適カテゴリーの結合度および類似度のうち少なくとも
一方を表示するよう制御すること、を特徴とするもの。
【請求項９】請求項１ないし８のいずれかの装置、プロ
グラムまたは記録媒体において、データ分類装置は、ツリー構造のカテゴリー体系を表示
するとともに、当該ツリー構造のカテゴリー体系を構成
するカテゴリーのうち最適カテゴリーを他のカテゴリー
と異なる態様で表示するよう制御すること、を特徴とするもの。
【請求項１０】コンピュータを用いて、複数のデータを
１以上のカテゴリーに分類するためのデータ分類方法で
あって、類似度の高いカテゴリー同士を順次統合して行くことに
より、１個のデータのみを構成要素とする最下位のカテ
ゴリーから全データを構成要素とする最上位のカテゴリ
ーに至るツリー構造のカテゴリー体系を構築するステッ
プと、ツリー構造のカテゴリー体系を構成する各カテゴリーに
ついて、当該カテゴリーを構成するデータ相互の類似度
に基づいて、当該カテゴリーのまとまりの良さを示す結
合度を決定するステップと、カテゴリーの結合度が当該カテゴリーを構成する直下の
いずれのカテゴリーの結合度よりも少なくとも低くない
カテゴリーのうち、ツリー構造の最も上位にあるカテゴ
リーを最適カテゴリーとして決定するステップと、最適カテゴリーと当該最適カテゴリーを構成するデータ
とを対応付けて記憶させるステップと、を備えたことを特徴とするデータ分類方法。
【請求項１１】コンピュータを用いて、複数のデータか
らなるカテゴリーのまとまりの良さを算出する方法であ
って、当該カテゴリーを構成するデータ相互の類似度を算出す
るステップと、算出されたデータ相互の類似度に基づいて、当該カテゴ
リーを構成するデータ１個あたりのデータ相互の類似度
の総和に対応する量を、当該カテゴリーのまとまりの良
さを表す結合度として算出するステップと、を備えたことを特徴とする結合度算出方法。
【請求項１２】コンピュータを用いて、ツリー構造のカ
テゴリー体系を一元的なカテゴリー体系に変換する方法
であって、ツリー構造のカテゴリー体系を構成する各カテゴリーに
ついて、カテゴリーのまとまりの良さを表すカテゴリー
の結合度を決定するステップと、カテゴリーの結合度が当該カテゴリーを構成する直下の
いずれのカテゴリーの結合度よりも少なくとも低くない
カテゴリーのうち、ツリー構造の最も上位にあるカテゴ
リーを最適カテゴリーとして決定するステップと、最適カテゴリーと当該最適カテゴリーを構成するデータ
とを対応付けて記憶させるステップと、を備えたことを特徴とするカテゴリー体系変換方法。