JPH10171823A - 文書の自動分類方法およびその装置 - Google Patents

文書の自動分類方法およびその装置

Info

Publication number
JPH10171823A
JPH10171823A JP8328370A JP32837096A JPH10171823A JP H10171823 A JPH10171823 A JP H10171823A JP 8328370 A JP8328370 A JP 8328370A JP 32837096 A JP32837096 A JP 32837096A JP H10171823 A JPH10171823 A JP H10171823A
Authority
JP
Japan
Prior art keywords
document
cluster
vector
center
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8328370A
Other languages
English (en)
Inventor
Shinichiro Tsudaka
新一郎 津高
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP8328370A priority Critical patent/JPH10171823A/ja
Publication of JPH10171823A publication Critical patent/JPH10171823A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 文書を意味的な内容の遠近に応じて一定の次
元の空間に高速に配置する。 【解決手段】 ベクトル化手段103によってベクトル
化した文書に対して、まずクラスタリング手段104に
よって適当な数のベクトルをまとめ、次にクラスタ中心
抽出手段105によって各々のクラスタを代表する点を
抽出し、それらクラスタ中心に対してのみマッピング手
段106を適用し、クラスタリング手段104とマッピ
ング手段106の結果からクラスタ展開手段107によ
り各クラスタに含まれるベクトルの配置場所を決定す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は文書をその意味内容
の遠近に応じて一定の次元の空間に配置するような文書
の自動分類の方法およびその装置に関するものである。
【0002】
【従来の技術】文書を計算機で扱う手法として、文書中
から単語や名詞句など、その文書の内容を表現するよう
な意味要素を抽出し、各意味要素の頻度や分布状況によ
って各文書における各意味要素の強さを数値化し、意味
要素と数値の対の集合として文書を表現する方法があ
る。文書から抽出されたこの対の集合に対し、同一の意
味要素には同一の数値を、異なる意味要素には異なる数
値を割り振り、割り振った数値を配列の添字、強さを配
列の値とすれば、各文書を数値を要素とするベクトルで
表現することができる。これはベクトル空間モデル(Ve
ctor Space Model)と呼ばれ広く用いられている。
【0003】一方、ベクトルのように距離が規定できる
集合に対し、距離の近いものどうしをまとめ上げる分類
方法としてさまざまな方法が提案されてきた。このよう
な方法を総称してクラスタリング方法と呼び、分類の結
果生成されたベクトルの集合をクラスタ、クラスタを代
表するような点をクラスタ中心と呼ぶ。
【0004】一例として単純クラスタリング(simple c
lustering )を取り上げる。この方法は情報科学辞典
(岩波書店,1990)pp.451 に紹介されている。図5にこ
のアルゴリズムの処理を示すフローチャートを示す。こ
のアルゴリズムはクラスタの広がりの尺度θに応じてベ
クトルの集合を適当な数のクラスタに分類するものであ
る。クラスタの広がりθは計算する前にパラメータとし
て与える必要がある。以下に単純クラスタリングの処理
手順を述べる。 1.任意に一つのベクトルをとりクラスタ中心とする
(ST201) 2.分類されていないベクトルを1つ取る(ST202) 3.既存の全てのクラスタ中心との距離を求める(ST20
3〜ST205) 4.最も近いクラスタ中心との距離を求める(ST206) 5.最も近いクラスタ中心との距離がθ以上であればそ
のベクトルを新たなクラスタ中心として追加し、そうで
なければ最も近いクラスタ中心を持つクラスタに分類す
る(ST207〜ST209) 6.全てのベクトルを分類するまで上記2〜5を繰り返
す(ST210)
【0005】クラスタリング方法のもう一つの例として
K平均アルゴリズム(K-means algorithm)を取り上げ
る。この方法は情報科学辞典(岩波書店,1990)pp.211
に紹介されている。図6にこのアルゴリズムの処理を示
すフローチャートを示す。このアルゴリズムはベクトル
の集合をその距離に応じてK個のベクトルの集合に分類
するものである。以下でクラスタ数をK、分類すべきベ
クトルの数をNとする。クラスタ数Kは計算する前にパ
ラメータとして与える必要がある。以下にK平均アルゴ
リズムの処理手順を述べる。 1.K個のクラスタ中心の初期値をN個のベクトルの中
から適当に選ぶ(ST301) 2.N個の各ベクトルを最も近いクラスタ中心を持つク
ラスタに分類する(ST302) 3.K個の各クラスタにおいて各々含まれるベクトルの
平均を新たなクラスタ中心とする(ST303) 4.上記2、3を繰り返し、クラスタ中心が変化しなく
なったところで終了する(ST304)
【0006】このようなクラスタリング方法による分類
方法の他に、比較的新しいベクトルの分類方法として、
分類される多次元のベクトルを、その相互の距離に応じ
てより低次元の空間に配置するようないくつかの方法が
ある。この方法によれば、ベクトルの距離の近いもの同
士は低次元空間で近い場所に、遠いもの同士は低次元空
間で遠い場所に配置される。このように高次元のベクト
ルの距離関係を保存したままより低次元の空間に配置す
ることにより、高次元ベクトルの距離関係を人間に直観
的に分かりやすく示すことが可能になる。人間が直接捉
えることのできる次元は三次元までであるため二次元ま
たは三次元の空間に配置する方法がよく用いられる。以
下、本発明ではこのような分類方法をマッピング方法と
呼ぶ。
【0007】一例としてSOM(self-organizing map
)を取り上げ説明する。この方法は文献「T.Kohonen:
“The Self-Organizing Map”Proceedings of the IEE
E,Vol.78,No.9,pp.1464-1480 (1990)」に紹介され
ている。この方法は配置したい任意の次元の空間に離散
的に配置されたテンプレートと呼ばれる可変のベクトル
に分類対象のベクトルを一定法則に従い足し込むことに
より低次元ベクトルへの配置を実現する。足し込む際に
近傍のテンプレートにも足し込む所がこの方法の特徴で
ある。二次元の空間にマッピングする場合のSOMのフ
ローチャートを図7に示し、以下にその処理手順を述べ
る。なお、より高次元の空間にマッピングされる場合は
以下の手順の(x,y)の部分を(x,y,z)などと
する。 1.テンプレートT(x,y)を乱数で初期化する(ST
400) 2.入力ベクトルから一つ選びIとする(ST410) 3.Iに最も近いテンプレートT(x,y)を求める
(ST411) 4.T(x,y)をIに近づける(ST412) 5.T(x,y)の近傍にある全てのテンプレートT
(p,q)をIに近づける(ST420,ST421) 6.近傍の範囲を狭めるとともに、学習の度合を小さく
する(ST430,ST431) 7.全てのIに対して上記2〜6を繰り返す(ST440) 8.規定の学習回数を終えるまで上記2〜6を繰り返す
(ST441) 9.全ての入力ベクトルについて最も近いテンプレート
T(x,y)を求め、各々(x,y)に配置する(ST45
0〜ST453) なお、上記1〜8はテンプレートの適正な位置を求める
過程であり、上記9はマッピングを実行する過程であ
る。
【0008】多次元の情報を低次元にマッピングするも
う一つの方法として数量化IV類を取り上げる。この方法
はアルゴリズム辞典(共立出版,1994)pp.382−383に紹
介されている。数量化IV類はn個からなる個体集合にお
いて個体iと個体j(0≦i,j<n)の間の類似度e
ijが与えられた時に
【0009】
【数1】
【0010】を最小にするxi(1≦i≦n)を
【0011】
【数2】
【0012】という制約条件を満たすように求めるもの
である。ここで、eijは例えば内積のように類似度の高
いほど値が大きくなる指標である。従って、類似度の高
いもの同士が近い位置にマッピングされる。この方法を
用いて文書を二次元にマッピングする場合のフローチャ
ートを図8に示し、以下にその処理手順を述べる。な
お、より高次元にマッピングする場合は以下の処理手順
の3、4において求める固有値と固有ベクトルの数を次
元の数だけ増加させる。また、eijが類似度の高いほど
値の小さくなる指標である場合は、固有値を最大のもの
から求める。 1.全ての文書iと文書jの組み合わせに関して類似度
ijを計算する(ST501) 2.以下のような要素を持つn次の対象行列D=
(dij)を求める(ST502)
【0013】
【数3】
【0014】3.行列Dの正の固有値のうち最小のもの
から2つ求め、これに対応する固有ベクトルv0=(v
00,v01・・・・v0n-1)、v1=(v10,v11・・・
・v1n-1)を求める(ST503) 4.文書iを座標(v0i,v1i)にマッピングする(ST
504,ST505)
【0015】前述のベクトル空間モデルとマッピング方
法とを組み合わせることで、意味的に近い文書同士が近
くに配置されるような仮想的な空間を生成することが可
能になる。特に二次元など人間が直観的に捉えることの
できる低次元空間に文書を配置することにより文書の分
類が可能となる。
【0016】
【発明が解決しようとする課題】従来の文書の自動分類
方法は以上のようにしてなされており、マッピング方式
においては、文書の分類ができると同時に、各文書間の
関係を直観的に捉えることできる反面、以下に示すよう
に計算量が多く処理速度が遅いという問題点があった。
以下では前述のマッピング方式、及びクラスタリング方
式に必要な計算量を概算する。但し、以下では分類の対
象となる文書の数をN、クラスタリングにおけるクラス
タの数をK、ベクトル化した二文書間の距離の計算量を
Dとする。
【0017】まずSOMにおけるマッピングの計算量を
概算する。主としてSOMの処理負荷は、最も近いテン
プレートT(x,y)を求める処理(図7の ST411)
と、テンプレートT(x,y)とその近傍のテンプレー
トT(p,q)をIに近付ける処理(図7の ST412,ST4
20,ST421)に起因する。近傍のテンプレート数が全テン
プレート数に比べ十分小さいとき後者の計算量は前者の
計算量に比べ無視出来る。前者の処理負荷は(二文書間
の距離の計算量)×(一文書あたりのテンプレート数)
×(文書数)×(一文書あたりの学習回数)×(文書
数)で表される。ここで一文書あたりのテンプレート数
をT、一文書あたりの学習回数をLとすると、計算量は
DLN2Tで表される。
【0018】次にマッピングのもう一つの方法である数
量化IV類を用いた場合の計算量を概算する。この計算量
のうち主なものは、図8の ST501における文書間の距離
の計算、及び ST503における固有値計算に起因する。前
者の計算量はeij=ejiとすると(一回当たりのベクト
ルの距離の計算量)×(文書数)×(文書数)/2、す
なわち DN2/2となる。また後者の計算量はアルゴリ
ズムによって変化する。例えば Householder法(アルゴ
リズム辞典、pp.608-610、共立出版、1994)によればn
行n列の対称行列の固有値問題はn3 の定数倍の回数の
加算と乗算で解けることが知られている。定数倍の加算
と乗算に伴う計算量をAとすると、nは文書数Nと等し
いので計算量はN3Aで表される。
【0019】一方、単純クラスタリングによる計算量
は、大部分がクラスタ中心との距離の計算(図5の ST2
04)に起因するもので、(一回当たりのベクトルの距離
の計算量)×(文書数)×(計算中の平均クラスタ数)
で与えられる。クラスタが計算の進行に伴い平均して追
加されたとすると(計算中の平均クラスタ数)は(クラ
スタ数)/2に等しい。すなわち、計算量はDKN/2
となる。
【0020】また、K平均アルゴリズムによるクラスタ
リングの計算量は、大部分がベクトルをクラスタに分類
する処理(図6のST302 )に起因するものであって、
(一回当たりのベクトルの距離の計算量)×(文書数)
×(クラスタ数)×(クラスタ中心が変化しなくなるま
での繰り返しの回数)で与えられる。クラスタ中心が変
化しなくなるまでの繰り返しの回数をクラスタ数の半分
程度とすると、上の式はDK2N/2となる。
【0021】以上の各分類方法のおおよその計算量をま
とめ、図9に示す。これらの概算により、マッピング方
式によるの処理は計算量が文書数の二乗または三乗に比
例し、クラスタリング方式の処理は計算量が文書数に比
例することが分かる。これは大規模な文書集合に対し
て、クラスタリング方式による処理と比較してマッピン
グ方式による処理の計算量が多く、このことが原因とな
ってマッピング方式の処理速度が遅くなる傾向があるこ
とを示している。
【0022】一方、クラスタリング方式においては、計
算量が比較的少なく、処理速度が速い反面、文書をクラ
スタに分類するのみであり、各クラスタ間の関係が分か
り難いという問題点があった。、
【0023】この発明は上記のような問題点を解消する
ためになされたもので、文書をその意味的な内容の遠近
に応じて一定の次元の空間に、高速に配置することがで
きる文書の自動分類方法とその装置を提供することを目
的とする。
【0024】
【課題を解決するための手段】
【0025】この発明の第1の方法に係る文書の自動分
類方法は、分類の対象となる文書から内容を表現するよ
うな意味要素を抽出する第1ステップ、上記文書におけ
る意味要素の強さを数値化し、上記文書を数値のベクト
ルとして表現する第2ステップ、ベクトル化した上記文
書を複数のクラスタに分類する第3ステップ、各々のク
ラスタを代表するベクトルをクラスタ中心として抽出す
る第4ステップ、各クラスタ中心をその意味内容の遠近
を反映するように一定の次元の空間に配置する第5ステ
ップ、および各クラスタに含まれる文書の配置場所を、
第3ステップによる分類結果と各クラスタ中心の配置場
所とをもとに決定する第6ステップを実行するものであ
る。
【0026】この発明の第2の方法に係る文書の自動分
類方法は、上記各ステップにおける処理時間を事前に求
め、ベクトル化した文書を何個のクラスタに分類するべ
きかを決定するようにしたものである。
【0027】この発明の第1の構成に係る文書の自動分
類装置は、分類の対象となる文書の情報を保持する文書
情報保持手段と、上記文書から内容を表現する意味要素
を抽出する意味要素抽出手段と、上記文書における各意
味要素の強さを数値化し、数値のベクトルとして上記文
書を表現するベクトル化手段と、上記ベクトルの中で互
いに類似するものをまとめ上げるクラスタリング手段
と、まとめた各クラスタの中からそのクラスタを代表す
るようなベクトルをクラスタ中心として取り出すクラス
タ中心抽出手段と、抽出したクラスタ中心をその意味内
容の遠近を反映するように一定の次元の空間に配置する
クラスタ中心マッピング手段と、クラスタ中心マッピン
グ手段により決定された配置場所とクラスタリング手段
により得られたベクトルの分類結果をもとに各クラスタ
に含まれるベクトルの配置場所を決定するクラスタ展開
手段と、配置した結果を表示する表示手段を備えたもの
である。
【0028】この発明の第2の構成に係る文書の自動分
類装置は、処理時間の観点からベクトルを何個のクラス
タに分類するべきかを決定するための分類処理時間事前
評価手段を備えたものである。
【0029】
【発明の実施の形態】
実施の形態1.以下、本発明の実施の形態を図を用いて
説明する。図1は本発明の実施の形態1による文書の自
動分類装置の構成を示すブロック図である。本発明で
は、比較的高速なクラスタリング方法と比較的低速なマ
ッピング方法を組み合わせ、ベクトル化した文書を全て
マッピングの対象とするのではなく、まずクラスタリン
グ手段によって適当な数のベクトルをまとめ、次にクラ
スタ中心抽出手段によって各々のクラスタを代表する点
を抽出し、それらクラスタ中心に対してのみマッピング
手段を適用し、クラスタリング手段とマッピング手段の
結果からクラスタ展開手段により各クラスタに含まれる
ベクトルの配置場所を決定するものである。これにより
従来支配的であったマッピングに伴う処理負荷を大幅に
低減し、処理全体を高速化することが可能となるととも
に、文書をその意味的な内容の遠近に応じて一定の次元
の空間に配置することができる。
【0030】図1において、101は分類の対象となる
文書の情報を保持しておく文書情報保持手段、102は
分類の対象となる文書から内容を表現するような意味要
素を抽出する意味要素抽出手段、103は各文書におけ
る各意味要素の強さを数値化し数値のベクトルとして文
書を表現するベクトル化手段、104はベクトルの中で
お互いに類似するものをまとめ上げるクラスタリング手
段、105はまとめたそれぞれのクラスタの中からその
クラスタを代表するようなベクトルを取り出すクラスタ
中心抽出手段、106は抽出したクラスタ中心をその遠
近を反映するように一定の次元の空間に配置するクラス
タ中心マッピング手段、107はクラスタ中心マッピン
グ手段106により決定された配置場所とクラスタリン
グ手段104により得られた分類結果をもとに、各クラ
スタに含まれるベクトルの配置場所を決定するクラスタ
展開手段、108は配置した結果を表示する表示手段で
ある。
【0031】次に本実施の形態の動作を説明する。ま
ず、文書情報保持手段101から文書を読み出し、意味
要素抽出手段102を用いて文書から単語など文書の内
容を示す要素を抽出し、ベクトル化手段103により文
書を数値を要素とするベクトルとして表現し、クラスタ
リング手段104によりベクトル化した文書をクラスタ
に分類し、クラスタ中心抽出手段105により各々のク
ラスタを代表するベクトルを抽出し、クラスタ中心マッ
ピング手段106により各クラスタ中心を互いの距離を
なるべく保ったまま低次元の空間に配置し、これにより
決定された配置場所とクラスタリング手段104により
得られた分類結果をもとにクラスタ展開手段107によ
り各クラスタに含まれる文書を配置し、表示手段108
によりその結果を表示する。
【0032】上記意味要素抽出手段102の例として
は、単語を取り出す(英文の場合など)、頻出する文字
列を取り出す、特定の文字列を取り出す、自立語を取り
出す、漢字やカタカナの部分を取り出す(日本語文書の
場合など)などの方法が考えられる。
【0033】ベクトル化手段103の例としては、一般
にある文書において数多く出現する意味要素はその文書
の内容を示していると考えられることから、抽出した意
味要素の頻度を数える方法が考えられる。また、一般に
多くの文書に含まれるような意味要素はその文書を特徴
づけることは困難であるという観点から、任意の1文書
にその意味要素が含まれる確率の逆数等を重要度を表す
重み関数として計算する方法が考えられる。上述の2方
法は積を取るなど組み合わせて用いても良い。また、一
般に長い文書ほど多くの意味要素を含むので、同じ意味
要素の分布状況を持つ文章同士でも同じベクトルとなる
とは限らない。これらのベクトルを同じベクトルにする
ためベクトルを正規化する(長さを一定にする)処理を
最後に加えることも考えられる。また、これらの数値化
の結果、比較的小さい値しか持たない意味要素は省略し
てもその後の処理に大きな影響を与えないため、これら
を省略してベクトルの次元を減らすことも考えられる。
【0034】クラスタリング手段104の例としては、
前述の単純クラスタリング(図5)やK平均アルゴリズ
ム(図6)などが考えられるが、ベクトルを分類する他
の手段を用いてもよい。
【0035】クラスタ中心抽出手段105の例として
は、各クラスタに含まれるベクトルの重心を取る方法、
各クラスタに含まれるベクトルのうちそれらの重心にも
っとも近いベクトルを取る方法などが考えられる。単純
クラスタリング(図5)やK平均アルゴリズム(図6)
のように、クラスタリングが完了したとき既にクラスタ
中心が決定されているクラスタリング手段を用いた場合
は新たに計算する必要はない。
【0036】クラスタ中心マッピング手段106の例と
しては、前述のSOM(図7)や数量化IV類(図8)な
どが考えられるが、ベクトル相互の距離関係をなるべく
保ったまま低次元の空間に配置するような他の手段を用
いてもよい。
【0037】クラスタ展開手段107の一例を示すフロ
ーチャートを図2に示す。これはベクトルの配置位置を
そのベクトルが含まれるクラスタの中心の配置位置と、
そのクラスタに最も近い他のクラスタの中心の配置位置
から計算するものである。以下にその処理内容を説明す
る。 1.クラスタnの中心ベクトルを〈cn〉、クラスタn
の中心ベクトル〈cn〉のマッピング位置を〈mn〉 、
ベクトル〈r〉とベクトル〈s〉の距離をL(〈r〉,
〈s〉)とする(ST601) 2.クラスタiに最も近い他のクラスタをjとする(ST
602) 3.クラスタiに含まれるベクトルを一つ取り、ベクト
ル〈v〉とする(ST603) 4.a=L(〈cj〉,〈v〉)、b=L(〈ci〉,
〈v〉)として次式が示す位置にベクトル〈v〉を配置
する(ST604)
【0038】
【数4】
【0039】5.クラスタiに含まれる全てのベクトル
〈v〉について上記2、3を行う(ST605) 6.全てのクラスタiについて上記1〜4を行う(ST60
6)
【0040】以下では上記実施の形態1による文書の自
動分類装置における高速化の効果を見るため、本発明の
方法を用いた場合の計算量と従来の方法によるマッピン
グにかかる計算量を概算し比較を行なう。但し、以下で
は分類の対象となる文書の数をN、クラスタリングにお
けるクラスタの数をK、ベクトル化した二文書間の距離
の計算量をDとする。本発明において、ベクトル化に関
する部分を除いた計算量は、クラスタリング手段とクラ
スタ中心抽出手段とクラスタ中心マッピング手段とクラ
スタ展開手段とによる計算量の和となる。ここで例え
ば、クラスタリング手段として単純クラスタリングを用
いるとすると、図9よりその計算量はDKN/2とな
る。この場合、計算中にクラスタ中心が算出されるた
め、クラスタ中心抽出手段における計算は不必要とな
る。クラスタ中心マッピング手段としてはSOMを用い
るとすると、その計算量は図9における計算量のNとK
を置き換えてDLK2Tとなる。また、クラスタ展開手
段としては図2に示したものを用いる。図2に示したク
ラスタ展開手段の一例における計算量は、ST602とST604
によるものが大きい。前者の計算量は(二文書間の距離
の計算量)×(クラスタ数)×(クラスタ数)/2で得
られ、一方後者の計算量は(二文書間の距離の計算量)
×(文書数)×2で得られる。図9の変数を用いると図
2のクラスタ展開手段における計算量は DK2/2+2
DNで表すことが出来る。これらの和はDKN/2+D
LK2T+DK2/2+2DNとなり本発明のおおよその
総計算量を示す。一方従来技術としてSOMのみを用い
た場合の計算量は図9よりDLN2Tで与えられる。こ
こでLを1、Tを10、Kを10、Nを100とすれ
ば、本発明による計算量は1750D、従来技術による
計算量は100000Dとなり、本発明により計算量が
50分の1以下になることが分かる。以上のように本発
明によれば、従来の方法を用いた文書の自動分類装置と
比べ、計算量が格段に少なく高速に処理することが可能
となる。
【0041】実施の形態2.図3は本発明の実施の形態
2による文書の自動分類装置の構成を示すブロック図で
ある。本発明では、実施の形態1の文書の自動分類装置
に加えて、分類処理時間事前評価手段109を備えてい
る。分類処理時間事前評価手段109は、処理時間の観
点からベクトル化された文書を何個のクラスタに分類す
るべきかを決定するために、クラスタ数をKとしたとき
の分類に要する総処理時間を事前に概算するものであ
る。すなわち、分類するクラスタ数Kが大きいほどクラ
スタ中心の数が多くなるのでマッピングに要する処理時
間が長くなり、従って総処理時間が長くなる。一方、ク
ラスタ数Kが小さいとマッピングに要する処理時間が短
く、総処理時間が短くなるが、分類の精度が下がる。そ
こで分類処理時間事前評価手段109により、クラスタ
数をKとしたときの分類に要する総処理時間を事前に概
算することによって、処理時間が許容時間内のものであ
るか否かによりクラスタ数Kを評価する。
【0042】分類処理時間事前評価手段109の一例を
示すフローチャートを図4に示し、以下にその処理手順
を述べる。 1.分類すべき文書の数N、およびクラスタの数Kを与
える(ST701) 2.クラスタリング手段及びクラスタ中心抽出手段に必
要な処理時間 CN(K)を求める(ST702) 3.クラスタ中心マッピング手段に必要な処理時間 MN
(K)、クラスタ展開手段に必要な処理時間 EN(K)
を求める(ST703,ST704) 4.これらの処理時間の和 CN(K)+MN(K)+EN
(K)を求める(ST705)
【0043】なお、分類総処理時間は一般にクラスタ数
Kが大きいほど長くなるが、処理時間に、クラスタ数K
が小さすぎた時に大きな値となるKの減少函数からなる
ペナルティ函数を加算し、その合計値が最小となるクラ
スタ数Kを求める様にすれば、情況に応じた適切なクラ
スタ数Kを求めることができる。ペナルティ函数の係数
は、ユーザが希望する分類精度に応じて決定する。
【0044】
【発明の効果】以上のように、この発明の第1の方法に
よれば、分類の対象となる文書から内容を表現するよう
な意味要素を抽出する第1ステップ、上記文書における
意味要素の強さを数値化し、上記文書を数値のベクトル
として表現する第2ステップ、ベクトル化した上記文書
を複数のクラスタに分類する第3ステップ、各々のクラ
スタを代表するベクトルをクラスタ中心として抽出する
第4ステップ、各クラスタ中心をその意味内容の遠近を
反映するように一定の次元の空間に配置する第5ステッ
プ、および各クラスタに含まれる文書の配置場所を、第
3ステップによる分類結果と各クラスタ中心の配置場所
とをもとに決定する第6ステップを実行するので、従来
支配的であったマッピングに伴う処理負荷を大幅に低減
し、処理全体を高速化することが可能となる。
【0045】この発明の第2の方法によれば、上記各ス
テップにおける処理時間を事前に求め、ベクトル化した
文書を何個のクラスタに分類するべきかを決定するよう
にしたので、処理時間が短く、かつ精度の高い分類が可
能となる。
【0046】この発明の第1の構成によれば、分類の対
象となる文書の情報を保持する文書情報保持手段と、上
記文書から内容を表現する意味要素を抽出する意味要素
抽出手段と、上記文書における各意味要素の強さを数値
化し、数値のベクトルとして上記文書を表現するベクト
ル化手段と、上記ベクトルの中で互いに類似するものを
まとめ上げるクラスタリング手段と、まとめた各クラス
タの中からそのクラスタを代表するようなベクトルをク
ラスタ中心として取り出すクラスタ中心抽出手段と、抽
出したクラスタ中心をその意味内容の遠近を反映するよ
うに一定の次元の空間に配置するクラスタ中心マッピン
グ手段と、クラスタ中心マッピング手段により決定され
た配置場所とクラスタリング手段により得られたベクト
ルの分類結果をもとに各クラスタに含まれるベクトルの
配置場所を決定するクラスタ展開手段と、配置した結果
を表示する表示手段を備えたので、文書をその意味的な
内容の遠近に応じて一定の次元の空間に、高速に配置す
ることができる文書の自動分類装置を提供することがで
きる。
【0047】この発明の第2の構成に係る文書の自動分
類装置によれば、処理時間の観点からベクトルを何個の
クラスタに分類するべきかを決定するための分類処理時
間事前評価手段を備えたので、処理時間が短く、かつ分
類の精度が高い文書の自動分類装置を提供することがで
きる。
【図面の簡単な説明】
【図1】 この発明の実施の形態1による文書の自動分
類装置の構成を示すブロック図である。
【図2】 この発明の実施の形態1に係わるクラスタ展
開手段の一例を示すフローチャートである。
【図3】 この発明の実施の形態2による文書の自動分
類装置の構成を示すブロック図である。
【図4】 この発明の実施の形態2に係わる分類処理時
間事前評価手段の一例を示すフローチャートである。
【図5】 従来の文書の自動分類方式である単純クラス
タリングの処理を示すフローチャートである。
【図6】 従来の文書の自動分類方式であるK平均アル
ゴリズムの処理を示すフローチャートである。
【図7】 従来の文書の自動分類方式であるSOMの処
理を示すフローチャートである。
【図8】 従来の文書の自動分類方式である数量化IV類
の処理を示すフローチャートである。
【図9】 従来の文書の自動分類方式におけるおおよそ
の計算量を示す図である。
【符号の説明】
101 文書情報保持手段、102 意味要素抽出手
段、103 ベクトル化手段、104 クラスタリング
手段、105 クラスタ中心抽出手段、106クラスタ
中心マッピング手段、107 クラスタ展開手段、10
8 表示手段、109 分類処理時間事前評価手段。

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 分類の対象となる文書から内容を表現す
    るような意味要素を抽出する第1ステップ、上記文書に
    おける意味要素の強さを数値化し、上記文書を数値のベ
    クトルとして表現する第2ステップ、ベクトル化した上
    記文書を複数のクラスタに分類する第3ステップ、各々
    のクラスタを代表するベクトルをクラスタ中心として抽
    出する第4ステップ、各クラスタ中心をその意味内容の
    遠近を反映するように一定の次元の空間に配置する第5
    ステップ、および各クラスタに含まれる文書の配置場所
    を、第3ステップによる分類結果と各クラスタ中心の配
    置場所とをもとに決定する第6ステップを実行する文書
    の自動分類方法。
  2. 【請求項2】 各ステップにおける処理時間を事前に求
    め、ベクトル化した文書を何個のクラスタに分類するべ
    きかを決定するようにした請求項1記載の文書の自動分
    類方法。
  3. 【請求項3】 分類の対象となる文書の情報を保持する
    文書情報保持手段と、上記文書から内容を表現する意味
    要素を抽出する意味要素抽出手段と、上記文書における
    各意味要素の強さを数値化し、数値のベクトルとして上
    記文書を表現するベクトル化手段と、上記ベクトルの中
    で互いに類似するものをまとめ上げるクラスタリング手
    段と、まとめた各クラスタの中からそのクラスタを代表
    するようなベクトルをクラスタ中心として取り出すクラ
    スタ中心抽出手段と、抽出したクラスタ中心をその意味
    内容の遠近を反映するように一定の次元の空間に配置す
    るクラスタ中心マッピング手段と、クラスタ中心マッピ
    ング手段により決定された配置場所とクラスタリング手
    段により得られたベクトルの分類結果をもとに各クラス
    タに含まれるベクトルの配置場所を決定するクラスタ展
    開手段と、配置した結果を表示する表示手段を備えた文
    書の自動分類装置。
  4. 【請求項4】 処理時間の観点からベクトルを何個のク
    ラスタに分類するべきかを決定するための分類処理時間
    事前評価手段を備えた請求項3記載の文書の自動分類装
    置。
JP8328370A 1996-12-09 1996-12-09 文書の自動分類方法およびその装置 Pending JPH10171823A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8328370A JPH10171823A (ja) 1996-12-09 1996-12-09 文書の自動分類方法およびその装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8328370A JPH10171823A (ja) 1996-12-09 1996-12-09 文書の自動分類方法およびその装置

Publications (1)

Publication Number Publication Date
JPH10171823A true JPH10171823A (ja) 1998-06-26

Family

ID=18209499

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8328370A Pending JPH10171823A (ja) 1996-12-09 1996-12-09 文書の自動分類方法およびその装置

Country Status (1)

Country Link
JP (1) JPH10171823A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000035963A (ja) * 1998-07-17 2000-02-02 Nec Corp 文章自動分類装置及び方法
KR100842080B1 (ko) * 2006-05-03 2008-06-30 중앙대학교 산학협력단 문서의 그룹별 분류방법
JP2009294855A (ja) * 2008-06-04 2009-12-17 Hitachi Ltd 類似データ検索システム
JP2010267277A (ja) * 1999-01-26 2010-11-25 Xerox Corp 初期クラスタセンタセット選択方法、ウエーブフロントクラスタリング方法
JP2016516251A (ja) * 2014-03-14 2016-06-02 シャオミ・インコーポレイテッド クラスタリング方法、クラスタリング装置、端末装置、プログラム及び記録媒体
US9400927B2 (en) 2014-12-03 2016-07-26 Fuji Xerox Co., Ltd. Information processing apparatus and non-transitory computer readable medium
US10037345B2 (en) 2014-03-14 2018-07-31 Xiaomi Inc. Clustering method and device

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000035963A (ja) * 1998-07-17 2000-02-02 Nec Corp 文章自動分類装置及び方法
JP2010267277A (ja) * 1999-01-26 2010-11-25 Xerox Corp 初期クラスタセンタセット選択方法、ウエーブフロントクラスタリング方法
KR100842080B1 (ko) * 2006-05-03 2008-06-30 중앙대학교 산학협력단 문서의 그룹별 분류방법
JP2009294855A (ja) * 2008-06-04 2009-12-17 Hitachi Ltd 類似データ検索システム
JP2016516251A (ja) * 2014-03-14 2016-06-02 シャオミ・インコーポレイテッド クラスタリング方法、クラスタリング装置、端末装置、プログラム及び記録媒体
US10037345B2 (en) 2014-03-14 2018-07-31 Xiaomi Inc. Clustering method and device
US9400927B2 (en) 2014-12-03 2016-07-26 Fuji Xerox Co., Ltd. Information processing apparatus and non-transitory computer readable medium

Similar Documents

Publication Publication Date Title
WO2022116537A1 (zh) 一种资讯推荐方法、装置、电子设备和存储介质
US10839315B2 (en) Method and system of selecting training features for a machine learning algorithm
US7472131B2 (en) Method and apparatus for constructing a compact similarity structure and for using the same in analyzing document relevance
WO2017162134A1 (zh) 用于文本处理的电子设备和方法
JP2022517835A (ja) 画像処理方法並びにその、装置、コンピュータプログラム及び電子機器
US9323886B2 (en) Performance predicting apparatus, performance predicting method, and program
WO2021139262A1 (zh) 文献主题词聚合方法、装置、计算机设备及可读存储介质
US20120269432A1 (en) Image retrieval using spatial bag-of-features
CN109948735B (zh) 一种多标签分类方法、系统、装置及存储介质
CN112085041A (zh) 神经网络的训练方法、训练装置和电子设备
Yasmin et al. Content based image retrieval by shape, color and relevance feedback
US20230368256A1 (en) Methods and systems for predicting a price of any subtractively manufactured part utilizing artificial intelligence at a computing device
CN111581923A (zh) 文案生成方法、装置、设备和计算机可读存储介质
CN108228541A (zh) 生成文档摘要的方法和装置
CN111581926A (zh) 文案生成方法、装置、设备和计算机可读存储介质
CN116848490A (zh) 使用模型相交进行文档分析
CN112163114B (zh) 一种基于特征融合的图像检索方法
CN110472240A (zh) 基于tf-idf的文本特征提取方法和装置
JP2007133516A (ja) 文書分類方法、文書分類プログラム及び文書分類装置
US20220164687A1 (en) Method for providing explainable artificial intelligence
CN114463587A (zh) 一种异常数据检测方法、装置、设备及存储介质
JPH10171823A (ja) 文書の自動分類方法およびその装置
CN112579783A (zh) 基于拉普拉斯图谱的短文本聚类方法
WO2020179378A1 (ja) 情報処理システム、情報処理方法および記録媒体
Sailaja et al. An overview of pre-processing text clustering methods