JPH10171823A

JPH10171823A - 文書の自動分類方法およびその装置

Info

Publication number: JPH10171823A
Application number: JP8328370A
Authority: JP
Inventors: Shinichiro Tsudaka; 新一郎津高
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1996-12-09
Filing date: 1996-12-09
Publication date: 1998-06-26

Abstract

(57)【要約】【課題】文書を意味的な内容の遠近に応じて一定の次
元の空間に高速に配置する。【解決手段】ベクトル化手段１０３によってベクトル
化した文書に対して、まずクラスタリング手段１０４に
よって適当な数のベクトルをまとめ、次にクラスタ中心
抽出手段１０５によって各々のクラスタを代表する点を
抽出し、それらクラスタ中心に対してのみマッピング手
段１０６を適用し、クラスタリング手段１０４とマッピ
ング手段１０６の結果からクラスタ展開手段１０７によ
り各クラスタに含まれるベクトルの配置場所を決定す
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は文書をその意味内容
の遠近に応じて一定の次元の空間に配置するような文書
の自動分類の方法およびその装置に関するものである。

【０００２】

【従来の技術】文書を計算機で扱う手法として、文書中
から単語や名詞句など、その文書の内容を表現するよう
な意味要素を抽出し、各意味要素の頻度や分布状況によ
って各文書における各意味要素の強さを数値化し、意味
要素と数値の対の集合として文書を表現する方法があ
る。文書から抽出されたこの対の集合に対し、同一の意
味要素には同一の数値を、異なる意味要素には異なる数
値を割り振り、割り振った数値を配列の添字、強さを配
列の値とすれば、各文書を数値を要素とするベクトルで
表現することができる。これはベクトル空間モデル（Ve
ctor Space Model）と呼ばれ広く用いられている。

【０００３】一方、ベクトルのように距離が規定できる
集合に対し、距離の近いものどうしをまとめ上げる分類
方法としてさまざまな方法が提案されてきた。このよう
な方法を総称してクラスタリング方法と呼び、分類の結
果生成されたベクトルの集合をクラスタ、クラスタを代
表するような点をクラスタ中心と呼ぶ。

【０００４】一例として単純クラスタリング（simple c
lustering ）を取り上げる。この方法は情報科学辞典
（岩波書店,1990）pp.451 に紹介されている。図５にこ
のアルゴリズムの処理を示すフローチャートを示す。こ
のアルゴリズムはクラスタの広がりの尺度θに応じてベ
クトルの集合を適当な数のクラスタに分類するものであ
る。クラスタの広がりθは計算する前にパラメータとし
て与える必要がある。以下に単純クラスタリングの処理
手順を述べる。１．任意に一つのベクトルをとりクラスタ中心とする
（ST201）２．分類されていないベクトルを１つ取る（ST202）３．既存の全てのクラスタ中心との距離を求める（ST20
3〜ST205）４．最も近いクラスタ中心との距離を求める（ST206）５．最も近いクラスタ中心との距離がθ以上であればそ
のベクトルを新たなクラスタ中心として追加し、そうで
なければ最も近いクラスタ中心を持つクラスタに分類す
る（ST207〜ST209）６．全てのベクトルを分類するまで上記２〜５を繰り返
す（ST210）

【０００５】クラスタリング方法のもう一つの例として
Ｋ平均アルゴリズム（K-means algorithm）を取り上げ
る。この方法は情報科学辞典（岩波書店,1990）pp.211
に紹介されている。図６にこのアルゴリズムの処理を示
すフローチャートを示す。このアルゴリズムはベクトル
の集合をその距離に応じてＫ個のベクトルの集合に分類
するものである。以下でクラスタ数をＫ、分類すべきベ
クトルの数をＮとする。クラスタ数Ｋは計算する前にパ
ラメータとして与える必要がある。以下にＫ平均アルゴ
リズムの処理手順を述べる。１．Ｋ個のクラスタ中心の初期値をＮ個のベクトルの中
から適当に選ぶ（ST301）２．Ｎ個の各ベクトルを最も近いクラスタ中心を持つク
ラスタに分類する（ST302）３．Ｋ個の各クラスタにおいて各々含まれるベクトルの
平均を新たなクラスタ中心とする（ST303）４．上記２、３を繰り返し、クラスタ中心が変化しなく
なったところで終了する（ST304）

【０００６】このようなクラスタリング方法による分類
方法の他に、比較的新しいベクトルの分類方法として、
分類される多次元のベクトルを、その相互の距離に応じ
てより低次元の空間に配置するようないくつかの方法が
ある。この方法によれば、ベクトルの距離の近いもの同
士は低次元空間で近い場所に、遠いもの同士は低次元空
間で遠い場所に配置される。このように高次元のベクト
ルの距離関係を保存したままより低次元の空間に配置す
ることにより、高次元ベクトルの距離関係を人間に直観
的に分かりやすく示すことが可能になる。人間が直接捉
えることのできる次元は三次元までであるため二次元ま
たは三次元の空間に配置する方法がよく用いられる。以
下、本発明ではこのような分類方法をマッピング方法と
呼ぶ。

【０００７】一例としてＳＯＭ（self-organizing map
）を取り上げ説明する。この方法は文献「T.Kohonen：
“The Self-Organizing Map”Proceedings of the IEE
E，Vol.78，No.9，pp.1464-1480 （1990）」に紹介され
ている。この方法は配置したい任意の次元の空間に離散
的に配置されたテンプレートと呼ばれる可変のベクトル
に分類対象のベクトルを一定法則に従い足し込むことに
より低次元ベクトルへの配置を実現する。足し込む際に
近傍のテンプレートにも足し込む所がこの方法の特徴で
ある。二次元の空間にマッピングする場合のＳＯＭのフ
ローチャートを図７に示し、以下にその処理手順を述べ
る。なお、より高次元の空間にマッピングされる場合は
以下の手順の（ｘ，ｙ）の部分を（ｘ，ｙ，ｚ）などと
する。１．テンプレートＴ（ｘ，ｙ）を乱数で初期化する（ST
400）２．入力ベクトルから一つ選びＩとする（ST410）３．Ｉに最も近いテンプレートＴ（ｘ，ｙ）を求める
（ST41１）４．Ｔ（ｘ，ｙ）をＩに近づける（ST412）５．Ｔ（ｘ，ｙ）の近傍にある全てのテンプレートＴ
（ｐ，ｑ）をＩに近づける（ST420,ST421）６．近傍の範囲を狭めるとともに、学習の度合を小さく
する（ST430,ST431）７．全てのＩに対して上記２〜６を繰り返す（ST440）８．規定の学習回数を終えるまで上記２〜６を繰り返す
（ST441）９．全ての入力ベクトルについて最も近いテンプレート
Ｔ（ｘ，ｙ）を求め、各々（ｘ，ｙ）に配置する（ST45
0〜ST453）なお、上記１〜８はテンプレートの適正な位置を求める
過程であり、上記９はマッピングを実行する過程であ
る。

【０００８】多次元の情報を低次元にマッピングするも
う一つの方法として数量化IV類を取り上げる。この方法
はアルゴリズム辞典（共立出版,1994）pp.382−383に紹
介されている。数量化IV類はｎ個からなる個体集合にお
いて個体ｉと個体ｊ（０≦ｉ，ｊ＜ｎ）の間の類似度ｅ
_ijが与えられた時に

【０００９】

【数１】

【００１０】を最小にするｘ_i（１≦ｉ≦ｎ）を

【００１１】

【数２】

【００１２】という制約条件を満たすように求めるもの
である。ここで、ｅ_ijは例えば内積のように類似度の高
いほど値が大きくなる指標である。従って、類似度の高
いもの同士が近い位置にマッピングされる。この方法を
用いて文書を二次元にマッピングする場合のフローチャ
ートを図８に示し、以下にその処理手順を述べる。な
お、より高次元にマッピングする場合は以下の処理手順
の３、４において求める固有値と固有ベクトルの数を次
元の数だけ増加させる。また、ｅ_ijが類似度の高いほど
値の小さくなる指標である場合は、固有値を最大のもの
から求める。１．全ての文書ｉと文書ｊの組み合わせに関して類似度
ｅ_ijを計算する（ST501）２．以下のような要素を持つｎ次の対象行列Ｄ＝
（ｄ_ij）を求める（ST502）

【００１３】

【数３】

【００１４】３．行列Ｄの正の固有値のうち最小のもの
から２つ求め、これに対応する固有ベクトルｖ₀＝（ｖ
₀₀，ｖ₀₁・・・・ｖ_0n-1）、ｖ₁＝（ｖ₁₀，ｖ₁₁・・・
・ｖ_1n-1）を求める（ST503）４．文書ｉを座標（ｖ_0i，ｖ_1i）にマッピングする（ST
504,ST505）

【００１５】前述のベクトル空間モデルとマッピング方
法とを組み合わせることで、意味的に近い文書同士が近
くに配置されるような仮想的な空間を生成することが可
能になる。特に二次元など人間が直観的に捉えることの
できる低次元空間に文書を配置することにより文書の分
類が可能となる。

【００１６】

【発明が解決しようとする課題】従来の文書の自動分類
方法は以上のようにしてなされており、マッピング方式
においては、文書の分類ができると同時に、各文書間の
関係を直観的に捉えることできる反面、以下に示すよう
に計算量が多く処理速度が遅いという問題点があった。
以下では前述のマッピング方式、及びクラスタリング方
式に必要な計算量を概算する。但し、以下では分類の対
象となる文書の数をＮ、クラスタリングにおけるクラス
タの数をＫ、ベクトル化した二文書間の距離の計算量を
Ｄとする。

【００１７】まずＳＯＭにおけるマッピングの計算量を
概算する。主としてＳＯＭの処理負荷は、最も近いテン
プレートＴ（ｘ，ｙ）を求める処理（図７の ST411）
と、テンプレートＴ（ｘ，ｙ）とその近傍のテンプレー
トＴ（ｐ，ｑ）をＩに近付ける処理（図７の ST412,ST4
20,ST421）に起因する。近傍のテンプレート数が全テン
プレート数に比べ十分小さいとき後者の計算量は前者の
計算量に比べ無視出来る。前者の処理負荷は（二文書間
の距離の計算量）×（一文書あたりのテンプレート数）
×（文書数）×（一文書あたりの学習回数）×（文書
数）で表される。ここで一文書あたりのテンプレート数
をＴ、一文書あたりの学習回数をＬとすると、計算量は
ＤＬＮ²Ｔで表される。

【００１８】次にマッピングのもう一つの方法である数
量化IV類を用いた場合の計算量を概算する。この計算量
のうち主なものは、図８の ST501における文書間の距離
の計算、及び ST503における固有値計算に起因する。前
者の計算量はｅ_ij＝ｅ_jiとすると（一回当たりのベクト
ルの距離の計算量）×（文書数）×（文書数）／２、す
なわちＤＮ²／２となる。また後者の計算量はアルゴリ
ズムによって変化する。例えば Householder法（アルゴ
リズム辞典、pp.608-610、共立出版、1994）によればｎ
行ｎ列の対称行列の固有値問題はｎ³の定数倍の回数の
加算と乗算で解けることが知られている。定数倍の加算
と乗算に伴う計算量をＡとすると、ｎは文書数Ｎと等し
いので計算量はＮ³Ａで表される。

【００１９】一方、単純クラスタリングによる計算量
は、大部分がクラスタ中心との距離の計算（図５の ST2
04）に起因するもので、（一回当たりのベクトルの距離
の計算量）×（文書数）×（計算中の平均クラスタ数）
で与えられる。クラスタが計算の進行に伴い平均して追
加されたとすると（計算中の平均クラスタ数）は（クラ
スタ数）／２に等しい。すなわち、計算量はＤＫＮ／２
となる。

【００２０】また、Ｋ平均アルゴリズムによるクラスタ
リングの計算量は、大部分がベクトルをクラスタに分類
する処理（図６のST302 ）に起因するものであって、
（一回当たりのベクトルの距離の計算量）×（文書数）
×（クラスタ数）×（クラスタ中心が変化しなくなるま
での繰り返しの回数）で与えられる。クラスタ中心が変
化しなくなるまでの繰り返しの回数をクラスタ数の半分
程度とすると、上の式はＤＫ²Ｎ／２となる。

【００２１】以上の各分類方法のおおよその計算量をま
とめ、図９に示す。これらの概算により、マッピング方
式によるの処理は計算量が文書数の二乗または三乗に比
例し、クラスタリング方式の処理は計算量が文書数に比
例することが分かる。これは大規模な文書集合に対し
て、クラスタリング方式による処理と比較してマッピン
グ方式による処理の計算量が多く、このことが原因とな
ってマッピング方式の処理速度が遅くなる傾向があるこ
とを示している。

【００２２】一方、クラスタリング方式においては、計
算量が比較的少なく、処理速度が速い反面、文書をクラ
スタに分類するのみであり、各クラスタ間の関係が分か
り難いという問題点があった。、

【００２３】この発明は上記のような問題点を解消する
ためになされたもので、文書をその意味的な内容の遠近
に応じて一定の次元の空間に、高速に配置することがで
きる文書の自動分類方法とその装置を提供することを目
的とする。

【００２４】

【課題を解決するための手段】

【００２５】この発明の第１の方法に係る文書の自動分
類方法は、分類の対象となる文書から内容を表現するよ
うな意味要素を抽出する第１ステップ、上記文書におけ
る意味要素の強さを数値化し、上記文書を数値のベクト
ルとして表現する第２ステップ、ベクトル化した上記文
書を複数のクラスタに分類する第３ステップ、各々のク
ラスタを代表するベクトルをクラスタ中心として抽出す
る第４ステップ、各クラスタ中心をその意味内容の遠近
を反映するように一定の次元の空間に配置する第５ステ
ップ、および各クラスタに含まれる文書の配置場所を、
第３ステップによる分類結果と各クラスタ中心の配置場
所とをもとに決定する第６ステップを実行するものであ
る。

【００２６】この発明の第２の方法に係る文書の自動分
類方法は、上記各ステップにおける処理時間を事前に求
め、ベクトル化した文書を何個のクラスタに分類するべ
きかを決定するようにしたものである。

【００２７】この発明の第１の構成に係る文書の自動分
類装置は、分類の対象となる文書の情報を保持する文書
情報保持手段と、上記文書から内容を表現する意味要素
を抽出する意味要素抽出手段と、上記文書における各意
味要素の強さを数値化し、数値のベクトルとして上記文
書を表現するベクトル化手段と、上記ベクトルの中で互
いに類似するものをまとめ上げるクラスタリング手段
と、まとめた各クラスタの中からそのクラスタを代表す
るようなベクトルをクラスタ中心として取り出すクラス
タ中心抽出手段と、抽出したクラスタ中心をその意味内
容の遠近を反映するように一定の次元の空間に配置する
クラスタ中心マッピング手段と、クラスタ中心マッピン
グ手段により決定された配置場所とクラスタリング手段
により得られたベクトルの分類結果をもとに各クラスタ
に含まれるベクトルの配置場所を決定するクラスタ展開
手段と、配置した結果を表示する表示手段を備えたもの
である。

【００２８】この発明の第２の構成に係る文書の自動分
類装置は、処理時間の観点からベクトルを何個のクラス
タに分類するべきかを決定するための分類処理時間事前
評価手段を備えたものである。

【００２９】

【発明の実施の形態】

実施の形態１．以下、本発明の実施の形態を図を用いて
説明する。図１は本発明の実施の形態１による文書の自
動分類装置の構成を示すブロック図である。本発明で
は、比較的高速なクラスタリング方法と比較的低速なマ
ッピング方法を組み合わせ、ベクトル化した文書を全て
マッピングの対象とするのではなく、まずクラスタリン
グ手段によって適当な数のベクトルをまとめ、次にクラ
スタ中心抽出手段によって各々のクラスタを代表する点
を抽出し、それらクラスタ中心に対してのみマッピング
手段を適用し、クラスタリング手段とマッピング手段の
結果からクラスタ展開手段により各クラスタに含まれる
ベクトルの配置場所を決定するものである。これにより
従来支配的であったマッピングに伴う処理負荷を大幅に
低減し、処理全体を高速化することが可能となるととも
に、文書をその意味的な内容の遠近に応じて一定の次元
の空間に配置することができる。

【００３０】図１において、１０１は分類の対象となる
文書の情報を保持しておく文書情報保持手段、１０２は
分類の対象となる文書から内容を表現するような意味要
素を抽出する意味要素抽出手段、１０３は各文書におけ
る各意味要素の強さを数値化し数値のベクトルとして文
書を表現するベクトル化手段、１０４はベクトルの中で
お互いに類似するものをまとめ上げるクラスタリング手
段、１０５はまとめたそれぞれのクラスタの中からその
クラスタを代表するようなベクトルを取り出すクラスタ
中心抽出手段、１０６は抽出したクラスタ中心をその遠
近を反映するように一定の次元の空間に配置するクラス
タ中心マッピング手段、１０７はクラスタ中心マッピン
グ手段１０６により決定された配置場所とクラスタリン
グ手段１０４により得られた分類結果をもとに、各クラ
スタに含まれるベクトルの配置場所を決定するクラスタ
展開手段、１０８は配置した結果を表示する表示手段で
ある。

【００３１】次に本実施の形態の動作を説明する。ま
ず、文書情報保持手段１０１から文書を読み出し、意味
要素抽出手段１０２を用いて文書から単語など文書の内
容を示す要素を抽出し、ベクトル化手段１０３により文
書を数値を要素とするベクトルとして表現し、クラスタ
リング手段１０４によりベクトル化した文書をクラスタ
に分類し、クラスタ中心抽出手段１０５により各々のク
ラスタを代表するベクトルを抽出し、クラスタ中心マッ
ピング手段１０６により各クラスタ中心を互いの距離を
なるべく保ったまま低次元の空間に配置し、これにより
決定された配置場所とクラスタリング手段１０４により
得られた分類結果をもとにクラスタ展開手段１０７によ
り各クラスタに含まれる文書を配置し、表示手段１０８
によりその結果を表示する。

【００３２】上記意味要素抽出手段１０２の例として
は、単語を取り出す（英文の場合など）、頻出する文字
列を取り出す、特定の文字列を取り出す、自立語を取り
出す、漢字やカタカナの部分を取り出す（日本語文書の
場合など）などの方法が考えられる。

【００３３】ベクトル化手段１０３の例としては、一般
にある文書において数多く出現する意味要素はその文書
の内容を示していると考えられることから、抽出した意
味要素の頻度を数える方法が考えられる。また、一般に
多くの文書に含まれるような意味要素はその文書を特徴
づけることは困難であるという観点から、任意の１文書
にその意味要素が含まれる確率の逆数等を重要度を表す
重み関数として計算する方法が考えられる。上述の２方
法は積を取るなど組み合わせて用いても良い。また、一
般に長い文書ほど多くの意味要素を含むので、同じ意味
要素の分布状況を持つ文章同士でも同じベクトルとなる
とは限らない。これらのベクトルを同じベクトルにする
ためベクトルを正規化する（長さを一定にする）処理を
最後に加えることも考えられる。また、これらの数値化
の結果、比較的小さい値しか持たない意味要素は省略し
てもその後の処理に大きな影響を与えないため、これら
を省略してベクトルの次元を減らすことも考えられる。

【００３４】クラスタリング手段１０４の例としては、
前述の単純クラスタリング（図５）やＫ平均アルゴリズ
ム（図６）などが考えられるが、ベクトルを分類する他
の手段を用いてもよい。

【００３５】クラスタ中心抽出手段１０５の例として
は、各クラスタに含まれるベクトルの重心を取る方法、
各クラスタに含まれるベクトルのうちそれらの重心にも
っとも近いベクトルを取る方法などが考えられる。単純
クラスタリング（図５）やＫ平均アルゴリズム（図６）
のように、クラスタリングが完了したとき既にクラスタ
中心が決定されているクラスタリング手段を用いた場合
は新たに計算する必要はない。

【００３６】クラスタ中心マッピング手段１０６の例と
しては、前述のＳＯＭ（図７）や数量化IV類（図８）な
どが考えられるが、ベクトル相互の距離関係をなるべく
保ったまま低次元の空間に配置するような他の手段を用
いてもよい。

【００３７】クラスタ展開手段１０７の一例を示すフロ
ーチャートを図２に示す。これはベクトルの配置位置を
そのベクトルが含まれるクラスタの中心の配置位置と、
そのクラスタに最も近い他のクラスタの中心の配置位置
から計算するものである。以下にその処理内容を説明す
る。１．クラスタｎの中心ベクトルを〈ｃ_n〉、クラスタｎ
の中心ベクトル〈ｃ_n〉のマッピング位置を〈ｍ_n〉、
ベクトル〈ｒ〉とベクトル〈ｓ〉の距離をＬ（〈ｒ〉，
〈ｓ〉）とする（ST601）２．クラスタｉに最も近い他のクラスタをｊとする（ST
602）３．クラスタｉに含まれるベクトルを一つ取り、ベクト
ル〈ｖ〉とする（ST603）４．ａ＝Ｌ（〈ｃ_j〉，〈ｖ〉）、ｂ＝Ｌ（〈ｃ_i〉，
〈ｖ〉）として次式が示す位置にベクトル〈ｖ〉を配置
する（ST604）

【００３８】

【数４】

【００３９】５．クラスタｉに含まれる全てのベクトル
〈ｖ〉について上記２、３を行う（ST605）６．全てのクラスタｉについて上記１〜４を行う（ST60
6）

【００４０】以下では上記実施の形態１による文書の自
動分類装置における高速化の効果を見るため、本発明の
方法を用いた場合の計算量と従来の方法によるマッピン
グにかかる計算量を概算し比較を行なう。但し、以下で
は分類の対象となる文書の数をＮ、クラスタリングにお
けるクラスタの数をＫ、ベクトル化した二文書間の距離
の計算量をＤとする。本発明において、ベクトル化に関
する部分を除いた計算量は、クラスタリング手段とクラ
スタ中心抽出手段とクラスタ中心マッピング手段とクラ
スタ展開手段とによる計算量の和となる。ここで例え
ば、クラスタリング手段として単純クラスタリングを用
いるとすると、図９よりその計算量はＤＫＮ／２とな
る。この場合、計算中にクラスタ中心が算出されるた
め、クラスタ中心抽出手段における計算は不必要とな
る。クラスタ中心マッピング手段としてはＳＯＭを用い
るとすると、その計算量は図９における計算量のＮとＫ
を置き換えてＤＬＫ²Ｔとなる。また、クラスタ展開手
段としては図２に示したものを用いる。図２に示したク
ラスタ展開手段の一例における計算量は、ST602とST604
によるものが大きい。前者の計算量は（二文書間の距離
の計算量）×（クラスタ数）×（クラスタ数）／２で得
られ、一方後者の計算量は（二文書間の距離の計算量）
×（文書数）×２で得られる。図９の変数を用いると図
２のクラスタ展開手段における計算量はＤＫ²／２＋２
ＤＮで表すことが出来る。これらの和はＤＫＮ／２＋Ｄ
ＬＫ²Ｔ＋ＤＫ²／２＋２ＤＮとなり本発明のおおよその
総計算量を示す。一方従来技術としてＳＯＭのみを用い
た場合の計算量は図９よりＤＬＮ²Ｔで与えられる。こ
こでＬを１、Ｔを１０、Ｋを１０、Ｎを１００とすれ
ば、本発明による計算量は１７５０Ｄ、従来技術による
計算量は１０００００Ｄとなり、本発明により計算量が
５０分の１以下になることが分かる。以上のように本発
明によれば、従来の方法を用いた文書の自動分類装置と
比べ、計算量が格段に少なく高速に処理することが可能
となる。

【００４１】実施の形態２．図３は本発明の実施の形態
２による文書の自動分類装置の構成を示すブロック図で
ある。本発明では、実施の形態１の文書の自動分類装置
に加えて、分類処理時間事前評価手段１０９を備えてい
る。分類処理時間事前評価手段１０９は、処理時間の観
点からベクトル化された文書を何個のクラスタに分類す
るべきかを決定するために、クラスタ数をＫとしたとき
の分類に要する総処理時間を事前に概算するものであ
る。すなわち、分類するクラスタ数Ｋが大きいほどクラ
スタ中心の数が多くなるのでマッピングに要する処理時
間が長くなり、従って総処理時間が長くなる。一方、ク
ラスタ数Ｋが小さいとマッピングに要する処理時間が短
く、総処理時間が短くなるが、分類の精度が下がる。そ
こで分類処理時間事前評価手段１０９により、クラスタ
数をＫとしたときの分類に要する総処理時間を事前に概
算することによって、処理時間が許容時間内のものであ
るか否かによりクラスタ数Ｋを評価する。

【００４２】分類処理時間事前評価手段１０９の一例を
示すフローチャートを図４に示し、以下にその処理手順
を述べる。１．分類すべき文書の数Ｎ、およびクラスタの数Ｋを与
える（ST701）２．クラスタリング手段及びクラスタ中心抽出手段に必
要な処理時間Ｃ_N（Ｋ）を求める（ST702）３．クラスタ中心マッピング手段に必要な処理時間Ｍ_N
（Ｋ）、クラスタ展開手段に必要な処理時間Ｅ_N（Ｋ）
を求める（ST703,ST704）４．これらの処理時間の和Ｃ_N（Ｋ）＋Ｍ_N（Ｋ）＋Ｅ_N
（Ｋ）を求める（ST705）

【００４３】なお、分類総処理時間は一般にクラスタ数
Ｋが大きいほど長くなるが、処理時間に、クラスタ数Ｋ
が小さすぎた時に大きな値となるＫの減少函数からなる
ペナルティ函数を加算し、その合計値が最小となるクラ
スタ数Ｋを求める様にすれば、情況に応じた適切なクラ
スタ数Ｋを求めることができる。ペナルティ函数の係数
は、ユーザが希望する分類精度に応じて決定する。

【００４４】

【発明の効果】以上のように、この発明の第１の方法に
よれば、分類の対象となる文書から内容を表現するよう
な意味要素を抽出する第１ステップ、上記文書における
意味要素の強さを数値化し、上記文書を数値のベクトル
として表現する第２ステップ、ベクトル化した上記文書
を複数のクラスタに分類する第３ステップ、各々のクラ
スタを代表するベクトルをクラスタ中心として抽出する
第４ステップ、各クラスタ中心をその意味内容の遠近を
反映するように一定の次元の空間に配置する第５ステッ
プ、および各クラスタに含まれる文書の配置場所を、第
３ステップによる分類結果と各クラスタ中心の配置場所
とをもとに決定する第６ステップを実行するので、従来
支配的であったマッピングに伴う処理負荷を大幅に低減
し、処理全体を高速化することが可能となる。

【００４５】この発明の第２の方法によれば、上記各ス
テップにおける処理時間を事前に求め、ベクトル化した
文書を何個のクラスタに分類するべきかを決定するよう
にしたので、処理時間が短く、かつ精度の高い分類が可
能となる。

【００４６】この発明の第１の構成によれば、分類の対
象となる文書の情報を保持する文書情報保持手段と、上
記文書から内容を表現する意味要素を抽出する意味要素
抽出手段と、上記文書における各意味要素の強さを数値
化し、数値のベクトルとして上記文書を表現するベクト
ル化手段と、上記ベクトルの中で互いに類似するものを
まとめ上げるクラスタリング手段と、まとめた各クラス
タの中からそのクラスタを代表するようなベクトルをク
ラスタ中心として取り出すクラスタ中心抽出手段と、抽
出したクラスタ中心をその意味内容の遠近を反映するよ
うに一定の次元の空間に配置するクラスタ中心マッピン
グ手段と、クラスタ中心マッピング手段により決定され
た配置場所とクラスタリング手段により得られたベクト
ルの分類結果をもとに各クラスタに含まれるベクトルの
配置場所を決定するクラスタ展開手段と、配置した結果
を表示する表示手段を備えたので、文書をその意味的な
内容の遠近に応じて一定の次元の空間に、高速に配置す
ることができる文書の自動分類装置を提供することがで
きる。

【００４７】この発明の第２の構成に係る文書の自動分
類装置によれば、処理時間の観点からベクトルを何個の
クラスタに分類するべきかを決定するための分類処理時
間事前評価手段を備えたので、処理時間が短く、かつ分
類の精度が高い文書の自動分類装置を提供することがで
きる。

【図面の簡単な説明】

【図１】この発明の実施の形態１による文書の自動分
類装置の構成を示すブロック図である。

【図２】この発明の実施の形態１に係わるクラスタ展
開手段の一例を示すフローチャートである。

【図３】この発明の実施の形態２による文書の自動分
類装置の構成を示すブロック図である。

【図４】この発明の実施の形態２に係わる分類処理時
間事前評価手段の一例を示すフローチャートである。

【図５】従来の文書の自動分類方式である単純クラス
タリングの処理を示すフローチャートである。

【図６】従来の文書の自動分類方式であるＫ平均アル
ゴリズムの処理を示すフローチャートである。

【図７】従来の文書の自動分類方式であるＳＯＭの処
理を示すフローチャートである。

【図８】従来の文書の自動分類方式である数量化IV類
の処理を示すフローチャートである。

【図９】従来の文書の自動分類方式におけるおおよそ
の計算量を示す図である。

【符号の説明】

１０１文書情報保持手段、１０２意味要素抽出手
段、１０３ベクトル化手段、１０４クラスタリング
手段、１０５クラスタ中心抽出手段、１０６クラスタ
中心マッピング手段、１０７クラスタ展開手段、１０
８表示手段、１０９分類処理時間事前評価手段。

Claims

【特許請求の範囲】

【請求項１】分類の対象となる文書から内容を表現す
るような意味要素を抽出する第１ステップ、上記文書に
おける意味要素の強さを数値化し、上記文書を数値のベ
クトルとして表現する第２ステップ、ベクトル化した上
記文書を複数のクラスタに分類する第３ステップ、各々
のクラスタを代表するベクトルをクラスタ中心として抽
出する第４ステップ、各クラスタ中心をその意味内容の
遠近を反映するように一定の次元の空間に配置する第５
ステップ、および各クラスタに含まれる文書の配置場所
を、第３ステップによる分類結果と各クラスタ中心の配
置場所とをもとに決定する第６ステップを実行する文書
の自動分類方法。
【請求項２】各ステップにおける処理時間を事前に求
め、ベクトル化した文書を何個のクラスタに分類するべ
きかを決定するようにした請求項１記載の文書の自動分
類方法。
【請求項３】分類の対象となる文書の情報を保持する
文書情報保持手段と、上記文書から内容を表現する意味
要素を抽出する意味要素抽出手段と、上記文書における
各意味要素の強さを数値化し、数値のベクトルとして上
記文書を表現するベクトル化手段と、上記ベクトルの中
で互いに類似するものをまとめ上げるクラスタリング手
段と、まとめた各クラスタの中からそのクラスタを代表
するようなベクトルをクラスタ中心として取り出すクラ
スタ中心抽出手段と、抽出したクラスタ中心をその意味
内容の遠近を反映するように一定の次元の空間に配置す
るクラスタ中心マッピング手段と、クラスタ中心マッピ
ング手段により決定された配置場所とクラスタリング手
段により得られたベクトルの分類結果をもとに各クラス
タに含まれるベクトルの配置場所を決定するクラスタ展
開手段と、配置した結果を表示する表示手段を備えた文
書の自動分類装置。
【請求項４】処理時間の観点からベクトルを何個のク
ラスタに分類するべきかを決定するための分類処理時間
事前評価手段を備えた請求項３記載の文書の自動分類装
置。