JP2001265788A

JP2001265788A - 文書分類方法及び装置及び文書分類プログラムを格納した記録媒体

Info

Publication number: JP2001265788A
Application number: JP2000082089A
Authority: JP
Inventors: Katsuto Bessho; 克人別所; Hisashi Obara; 永小原
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2000-03-23
Filing date: 2000-03-23
Publication date: 2001-09-28
Anticipated expiration: 2020-03-23
Also published as: JP3643516B2

Abstract

(57)【要約】【課題】本発明は、数量化分析の手法に基づいて、単
語集合の中の不要語を特定した上、文書間の的確な類似
度を算出することを目的としている。【解決手段】文書に含まれる単語の頻度情報からデー
タベースを作成し、文書集合と単語集合との間の相関係
数が最大となるように文書集合と単語集合とを配置し、
次いでシソーラスの情報にもとづいて類似性の大きい単
語をまとめる単語間の距離変更を行った上で、再び文書
集合と単語集合との配置を決定して、クラスタリングを
行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文書の集合をその
内容の観点から自動的にクラスタリングし、情報検索等
に役立てるための文書分類方法及び装置及び文書分類プ
ログラムを格納した記録媒体に関するものである。

【０００２】

【従来の技術】文書集合を分類するにあたっては、通常
文書間の類似度を定義する必要がある。文書間の類似度
としては、文書をベクトルで表し、そのベクトル間の内
積で定義するベクトル空間法がある。

【０００３】ベクトル空間法では、あらかじめ索引語の
集合を決めておき、各索引語をベクトルと見なして、文
書のベクトルを索引語ベクトルの線形結合として表す。
線形結合式における各索引語ベクトルの係数には、その
文書における索引語の頻度情報等が用いられる。

【０００４】またベクトル空間法の一つの技法として、
特異値分解（ＳＶＤ）により、文書・対・索引語の行列
を縮退させ、文書を、直交している座標空間上のベクト
ルとして表現する手法もある。

【０００５】

【発明が解決しようとする課題】しかしながら、最初に
索引語を選定する際、その選択された索引語のベクトル
同士が直交しているような索引語を選定することは一般
に困難であり、直交していない索引語ベクトル間の類似
性がどれだけなのかを定量的に算出するのも困難であ
る。

【０００６】また、それを解決するため、特異値分解
（ＳＶＤ）の手法で直交している座標軸を取得する方法
をとっても、最初の索引語の選定で、文書分類に無関係
な不要語が含まれていた場合、結果として得られる文書
ベクトルは、文書間の的確な類似性を表現しているとは
必ずしもいえなくなる。

【０００７】このため、ベクトル空間法で得られる文書
間の類似度は、理論的に曖昧性をはらんでいることにな
る。

【０００８】本発明は、数量化分析の手法に基づいて、
単語集合の中の不要語を特定した上で、文書間の的確な
類似度を算出するようにすることを目的としている。

【０００９】

【課題を解決するための手段】上記目的を達成するた
め、本発明は、文書の集合を入力とし、文書集合に含ま
れる単語の集合をとり、文書に含まれる単語の頻度情報
から、各文書と各単語との間の関連度を表すデータベー
スを作成する文書・単語間データベース作成過程と、文
書集合及び単語集合をそれぞれ確率変数と見なし、文書
・単語間の関連度を文書集合と単語集合との同時確率分
布と見なし、文書集合と単語集合との間の相関係数が最
大になるように、文書及び単語に数値（または多次元数
値）を割り当てることによって、文書集合と単語集合と
のそれぞれの最適な配置を決定する文書・単語最適配置
過程と、文書・単語最適配置過程で決定された単語集合
の配置から、任意の単語間の距離を計算し、シソーラス
の情報をもとに、類似性の大きい単語間ほど距離が短く
なるように単語間の距離を変更する単語間距離変更過程
と、単語間距離変更過程で決定された単語間の距離値か
ら算出される類似度をもとに、類似度の大きい単語間ほ
ど距離が短く、類似度の小さい単語間ほど距離が長くな
るように、各単語に数値（または多次元数値）を割り当
てることによって単集合の最適な配置を決定する単語最
適配置過程と、文書集合及び単語集合をそれぞれ確率変
数と見なし、文書・単語間の関連度を文書集合と単語集
合との同時確率分布と見なし、単語最適配置過程で決定
された単語集合の配置を固定した上で、文書集合と単語
集合との間の相関係数が最大になるように、文書に数値
（または多次元数値）を割り当てることによって、文書
集合の最適な配置を決定する文書最適配置過程と、文書
最適配置過程で決定された文書集合の配置から、任意の
文書間の距離を計算し、この距離値にもとづいて文書集
合のクラスタリングを行い、文書クラスター集合を出力
する文書クラスタリング過程とからなる。

【００１０】文書・単語最適配置過程では、文書集合と
単語集合との間の相関係数が最大になるように、文書及
び単語に数値（または多次元数値）を割り当てるので、
単語集合は、出現する文書の分布が似ている単語間ほど
近くなるように配置される。

【００１１】単語間距離変更過程では、シソーラスの情
報をもとに、類似性の大きい単語間ほど距離が短くなる
ように単語間の距離を変更するので、出現文書の分布の
類似性に、単語間の意味的類似性を加味した、単語間の
距離が算出できる。

【００１２】単語最適配置過程では、単語間距離変更過
程で決定された単語間の距離値から算出される類似度を
もとに、類似度の大きい単語間ほど距離が短く、類似度
の小さい単語間ほど距離が長くなるように、各単語に数
値（または多次元数値）を割り当てることによって単語
集合の最適な配置を決定する。

【００１３】単語最適配置過程で得られた単語集合の配
置は、単語間の的確な類似性を表現したものと考えられ
る。文書最適配置過程では、この単語集合の配置を固定
した上で、文書集合と単語集合間の相関係数が最大にな
るように、文書に数値（または多次元数値）を割り当て
るので、文書集合は、単語の出現分布が似ている文書間
ほど近くなるように配置される。こうして得られた文書
集合の配置は、文書間の的確な類似性を表現していると
考えられる。

【００１４】こうして得られた文書集合の配置をもと
に、文書クラスタリング過程で文書のクラスタリングを
行うことにより、的確な文書クラスター集合を得ること
ができる。

【００１５】なお図１に示す不要語特定処理過程では、
文書の分類に無関係な不要語を特定する。特定の文書ク
ラスターに出現する傾向のある単語群は、出現文書の分
布が似ているので、クラスターを形成する傾向にあると
考えられる。これに対し、一般に不要語は特定の文書ク
ラスターだけに出現するわけでなく、あらゆる文書クラ
スターに均一に出現する傾向があると考えられるので、
特定の単語クラスターに含まれることがあまりない。そ
こで、不要語は他の単語との距離値の分布の標準偏差
が、非不要語に比べて、小さいと考えられる。従って、
各単語毎に、他の単語との距離値の分布の標準偏差を計
算し、その標準偏差値がある一定以下ならば、その単語
を不要語と判定することができる。

【００１６】文書・単語間データベース更新過程で、不
要語特定処理過程で特定した不要語を除去することによ
って、文書・単語間データベースを再構成し、新しい文
書・単語間データベースから、文書・単語最適配置過
程、単語間距離変更過程を再び行うことによって、より
精錬化された単語間の距離値を導出することができる。

【００１７】

【発明の実施の形態】以下、図面と共に本発明の実施例
を説明する。

【００１８】ここで説明する数量化分析の参考文献とし
て、「数学ライブラリー46 多変量解析入門II」（発行
所：森北出版、著者：河口至商）がある。

【００１９】図１は、本発明の請求項１の文書分類方法
のフローを説明するための図である。図中の符号１１は
文書・単語間データベース、１２はシソーラス・データ
ベースを表している。

【００２０】図１における(1.1) の文書・単語間データ
ベース作成過程では、文書集合に含まれる単語の集合を
とり、文書に含まれる単語の頻度情報から、各文書と各
単語との間の関連度を表すデータベースを作成する。即
ち、例えば文書を形態素解析し、その中の自立語のみを
取り出し、同義語は同一視した上で、各自立語の頻度数
を計算した上で、文書・単語間データベース１１を作成
する。

【００２１】図２は、作成した文書・単語間データベー
スの例である。単語は同義語は同一視しており、単語集
合は１，２，…，Ｋである。

【００２２】また、文書の総数はＮで、単語の出現パタ
ーンが同一である文書をまとめ、全体としてＭ種の異な
る文書パターンがある。各文書パターンの個数はそれぞ
れｎ ₁, ｎ₂, …，ｎ_Mで、

【００２３】

【数１】

【００２４】が成り立つ。

【００２５】ｘ_wi（ｗ＝１，２，…，Ｍ；ｉ＝１，２，
…，Ｋ）は、文書パターンｗと単語ｉとの関連度であ
る。関連度としては、最も単純なものは、その単語がそ
の文書に出現するとき「１」、しないとき「０」をとる
ものである。他にも、単語が文書に出現する頻度数をと
ってもよい。さらに、種々の精練化を施したものを使用
してもよい。

【００２６】

【数２】

【００２７】とおく。

【００２８】なおｍ_wは文書パターンｗに含まれる一文
書の中に出現する単語の関連度の総和であり、ｎ_wは文
書パターンｗに含まれる文書の数であり、ｎ_wｍ_wは文
書パターンｗに含まれる一文書の中に出現する単語の関
連度の総和を文書パターンｗに含まれる文書数分足し合
わせたものである。そしてＴは各文書パターンｗに対応
する値ｎ_wｍ_wの総和で、（ｎ_wｍ_w）／Ｔが文書パタ
ーンｗを確率変数と見なしたときのｗの確率密度であ
る。また文書パターンｗ、単語ｉを確率変数と見なした
とき、（ｗ，ｉ）の同時確率密度は、（ｎ_wｘ_wi）／Ｔ
となる。

【００２９】なお文書・単語間の関連度を、関連度の総
和Ｔで割ることによって、文書・単語間の関連度を、文
書・単語間の同時確率密度とみなすことができる。その
理由は、関連度をＴで除した値の総和は「１」になるか
らである。

【００３０】また、文書を一つ固定し、その文書と各単
語との間の関連度の総和をＴで除した値は、その文書の
確率密度とみなすことができる。その理由は、一文書と
各単語との間の関連度の総和をＴで除した値を、全文書
にわたって足し合わせると「１」になるからである。

【００３１】同様に、単語を一つ固定し、その単語と各
文書との間の関連度の総和をＴで除した値は、その単語
の確率密度とみなすことができる。その理由は、一単語
と各文書との間の関連度の総和をＴで除した値を、全単
語にわたって足し合わせると「１」になるからである。

【００３２】このように、文書集合及び単語集合を確率
変数とみなすことができるわけであり、さらに、各文
書、各単語に何らかの実数を割り当てることによって、
期待値、分散、共分散、相関係数といった統計値を定義
することができるわけである。

【００３３】図１における(1.2) の文書・単語最適配置
過程では、文書集合及び単語集合をそれぞれ確率変数と
見なし、文書・単語間の関連度を文書集合と単語集合の
同時確率分布と見なし、文書集合と単語集合間の相関係
数が最大になるように、文書及び単語に数値または多次
元数値を割り当てることによって、文書集合と単語集合
それぞれの最適な配置を決定する。

【００３４】上記方法で、文書及び単語に数値を割り当
てる方法について説明する。文書パターンｗ、単語ｉを
確率変数と見なしたとき、（ｗ，ｉ）の同時確率密度が
（ｎ_wｘ_wi）／Ｔである同時確率分布が得られる。さら
に、単語ｉになんらかの実数ｕ_i，文書パターンｗにな
んらかの実数ｖ_wを割り当てることによって、以下の統
計学上の値が得られる。

【００３５】

【数３】

【００３６】この相関係数が最大となるように、ｕ_i，
ｖ_wの値を決めるわけである。「最適」とは相関係数が
最大となるという意味であり、相関係数を最大とするｕ
_iやｖ_wの値が、単語や文書パターンの最適な配置とな
る。

【００３７】相関係数が最大のとき、各文書パターンと
の関連度の分布が似ている単語同士ほど近くに、各単語
との関連度の分布が似ている文書パターン同士ほど近く
に配置される。

【００３８】最大にするｕ_i，ｖ_wは以下に述べる計算
方法で取得する。｛ｕ_i｝（ｉ＝１，２，…，Ｋ），
｛ｖ_w｝（ｗ＝１，２，…，Ｍ）の原点は任意性がある
ので、計算を容易にするために、

【００３９】

【数４】

【００４０】の条件のもとで考える。相関係数ρを最大
にするｕ_i，ｖ_wを求めるためには、以下のような連立
方程式

【００４１】

【数５】

【００４２】を解けばよい。この解を得る手順を簡単に
示す。

【００４３】

【数６】

【００４４】とおき、Ｇ≡（ｇ_ik）（ｉ，ｋ＝１，２，…，Ｋ）なる行列の１以外の固有値の中で最大のものを求め、こ
の固有値に対応する固有ベクトルをｚ_i（ｉ＝１，２，…，Ｋ）とする。これより、ｕ_iが

【００４５】

【数７】

【００４６】として求まり、ｖ_wが

【００４７】

【数８】

【００４８】として求まる。文書及び単語への多次元数
値の割り当てについても、一次元の議論を拡張して行う
ことができる。

【００４９】図１における(1.3) の単語間距離変更過程
では、文書・単語最適配置過程(1.2) で決定された単語
集合の配置から、任意の単語間の距離を計算し、シソー
ラス・データベース１２を索引してシソーラスの情報を
もとに、類似性の大きい単語間ほど距離が短くなるよう
に単語間の距離を変更する。

【００５０】即ち、各単語は座標空間上の点として表さ
れており、単語間の距離は、座標空間上の２点間の直線
距離として計算する。文書・単語最適配置過程(1.2) で
得られた単語配置は、出現する文書の分布が似ている単
語間ほど近くなるように配置されている。しかしなが
ら、元々意味的に類似している（シソーラス上で同一の
親ノードをもつなど）のに、出現する文書の分布が似て
いないため、互いに遠くに配置される２単語もありう
る。そこで、出現文書の分布の類似性に、単語間の意味
的類似性を加味しているように、単語間の距離を変更す
る。

【００５１】距離の変更の仕方の一例を説明する。２単
語をとってきたとき、シソーラス上の距離をｄとする。
ここでｄとは、シソーラス上の対応するノード間のリン
クの数の最小値である。２単語間の配置上の距離をＤと
したとき、変更後の距離Ｄ′を、

【００５２】

【数９】

【００５３】で定義する。ｄが１のとき、Ｄ′はＤの1/
2 になり、ｄが増えるに従って、Ｄ′の値はＤに近づい
ていく。

【００５４】図１における(1.4) の不要語特定処理実行
判断過程では、(1.5) の不要語特定処理過程がまだ実行
されていなければ該不要語特定処理過程(1.5) に進み、
すでに実行されていれば(1.7) の単語最適配置過程に進
む。

【００５５】図１における(1.5) の不要語特定処理過程
では、各単語毎に、他の単語との距離値の分布の標準偏
差を計算し、その標準偏差値がある一定基準以下なら
ば、その単語を不要語と判定する。

【００５６】ここでいう判定基準の一例として、各単語
に対応する標準偏差値の平均の一定パーセント以下の標
準偏差値をもつ単語を不要語と判定する方法がある。

【００５７】即ち、一つの単語をｉ、他の単語をｊ（１
≦ｊ≦ｐ）としたとき、ｉ，ｊ間の距離をｆ_ijとする。距離値の分布ｆ_ij（１≦ｊ≦ｐ）の期待値

【００５８】

【数１０】

【００５９】となり、標準偏差 f_i ^*は、

【００６０】

【数１１】

【００６１】となる。全単語をｉ（１≦ｉ≦ｑ（＝ｐ＋
１））とし、定数ａ（０＜ａ＜１）をとったとき、

【００６２】

【数１２】

【００６３】を満たす単語ｋを不要語と判定して処理対
象からはずす。

【００６４】図１における(1.6) の文書・単語間データ
ベース更新過程では、不要語特定処理過程(1.5) で特定
された不要語を除去した上で、各文書と各単語との間の
関連度を表すデータベースを再構成し、前記文書・単語
最適配置過程(1.2) に進む。

【００６５】図１における(1.7) の単語最適配置過程で
は、単語間距離変更過程(1.3) で決定された単語間の距
離値から算出される類似度をもとに、類似度の大きい単
語間ほど距離が短く、類似度の小さい単語間ほど距離が
長くなるように、各単語に数値または多次元数値を割り
当てることによって単語集合の最適な配置を決定する。

【００６６】単語間の類似度の算出の一例として、単語
間の距離の逆数を類似度とする方法がある。単語数をＫ
とし、ｉ番目の単語とｊ番目の単語との間の類似度をｅ
_ij（ｉ，ｊ＝１，２，…，Ｋ）とする。

【００６７】以下、各単語に数値を割り当てる方法につ
いて説明する。各単語に与える未知の数値をｘ_i（ｉ＝
１，２，…，Ｋ）とし、

【００６８】

【数１３】

【００６９】という量を考えたとき、Ｑが大きくなるよ
うに数値ｘ_iを与えることが望ましい。

【００７０】ただし、ｘ_iの分散を一定にしておかなけ
れば、Ｑの大小の比較をすることは意味をもたない。ま
た、ｘ_iの原点は任意性があるので、

【００７１】

【数１４】

【００７２】という条件のもとで、Ｑを最大にするｘ_i
を求めればよい。Ｑを最大にするｘ_iは以下に述べる計
算方法で取得する。Ｑを最大にするｘ_iを求めるために
は、

【００７３】

【数１５】

【００７４】を解けばよい。ａ_ij＝ｅ_ij＋ｅ_ji（ｉ，ｊ
＝１，２，…，Ｋ）

【００７５】

【数１６】

【００７６】とおき、Ｈ≡（ｈ_ij）（ｉ，ｊ＝１，２，
…，Ｋ）なる行列の最大の固有値に対する固有ベクトルｘ_i（ｉ＝１，２，…，Ｋ）を求めるべき解とする。

【００７７】単語への多次元数値の割り当てについて
も、一次元の議論を拡張して行うことができる。

【００７８】図１における(1.8) の文書最適配置過程で
は、文書集合及び単語集合をそれぞれ確率変数と見な
し、文書・単語間の関連度を文書集合と単語集合との同
時確率分布と見なし、単語最適配置過程(1.7) で決定さ
れた単語集合の配置を固定した上で、文書集合と単語集
合との間の相関係数が最大になるように、文書に数値ま
たは多次元数値を割り当てることによって、文書集合の
最適な配置を決定する。相関係数を最大にするｕ_i，ｖ
_wを求める計算で、計算を容易にするために、

【００７９】

【数１７】

【００８０】の条件のもとで考えるということと、この
条件下でｕ_iが求まったとき、ｖ_wが

【００８１】

【数１８】

【００８２】として求まることが分かっているそこで、
単語最適配置過程(1.7) で決定されたｕ_iに対しても、

【００８３】

【数１９】

【００８４】を満足するように値を変更し、この条件下
で、ｖ_wを上記式で求める。

【００８５】即ち、単語最適配置過程(1.7) で決定され
た単語集合の一次元配置を、ｕ_i（ｉ＝１，２，…，Ｋ）としたとき、

【００８６】

【数２０】

【００８７】となるように、ｕ_iを平行移動する。この
とき、文書集合と単語集合間の相関係数が最大となる、
文書集合の一次元配置ｖ_w（ｗ＝１，２，…，Ｍ）は、

【００８８】

【数２１】

【００８９】で与えられる。単語への割り当て値が多次
元数値だった場合の、文書への多次元数値の割り当てに
ついても、一次元の議論を拡張して行うことができる。

【００９０】図１における(1.9) の文書クラスタリング
過程では、文書最適配置過程(1.8)で決定された文書集
合の配置から、任意の文書間の距離を計算する。ここで
文書間の距離とは、座標空間上の２点間の直線距離であ
る。この距離値情報から文書集合化のためのクラスタリ
ングを行い、文書クラスター集合（文書集合の集合）を
出力する。

【００９１】上記において文書分類方法及びそのための
装置について説明したが、当該文書分類方法はプログラ
ムの形で記述して記録媒体に格納しておくことができ
る。したがって、本発明は当該格納の行われた記録媒体
をも発明の対象とするものである。

【００９２】

【発明の効果】以上説明してきた数量化分析の手法によ
り、本発明では文書間の的確な距離値を算出することが
可能となるため、その距離値にもとづく文書のクラスタ
リング結果も的確なものとなる。

【図面の簡単な説明】

【図１】請求項１の文書分類方法のフローを示す図であ
る。

【図２】文書・単語間データベースの一例を示す図であ
る。

【符号の説明】

(1.1) ：文書・単語間データベース作成過程 (1.2) ：文書・単語最適配置過程 (1.3) ：単語間距離変更過程 (1.4) ：不要語特定処理実行判断過程 (1.5) ：不要語特定処理過程 (1.6) ：文書・単語間データベース更新過程 (1.7) ：単語最適配置過程 (1.8) ：文書最適配置過程 (1.9) ：文書クラスタリング過程１１：文書・単語間データベース１２：シソーラス・データベース

Claims

【特許請求の範囲】

【請求項１】文書の集合を入力とし、文書をその内容
により分類する文書分類方法において、前記文書集合に含まれる単語の集合をとり、文書に含ま
れる単語の頻度情報から、各文書と各単語との間の関連
度を表すデータベースを作成する文書・単語間データベ
ース作成過程と、文書集合及び単語集合をそれぞれ確率変数と見なし、文
書・単語間の関連度を文書集合と単語集合との同時確率
分布と見なし、文書集合と単語集合との間の相関係数が
最大になるように、文書及び単語に数値を割り当てるこ
とによって、文書集合と単語集合とのそれぞれの最適な
配置を決定する文書・単語最適配置過程と、前記文書・単語最適配置過程で決定された単語集合の配
置から、任意の単語間の距離を計算し、シソーラスの情
報をもとに、類似性の大きい単語間ほど距離が短くなる
ように単語間の距離を変更する単語間距離変更過程と、前記単語間距離変更過程で決定された単語間の距離値か
ら算出される類似度をもとに、類似度の大きい単語間ほ
ど距離が短く、類似度の小さい単語間ほど距離が長くな
るように、各単語に数値を割り当てることによって単語
集合の最適な配置を決定する単語最適配置過程と、文書集合及び単語集合をそれぞれ確率変数と見なし、文
書・単語間の関連度を文書集合と単語集合との同時確率
分布と見なし、前記単語最適配置過程で決定された単語
集合の配置を固定した上で、文書集合と単語集合との間
の相関係数が最大になるように、文書に数値を割り当て
ることによって、文書集合の最適な配置を決定する文書
最適配置過程と、前記文書最適配置過程で決定された文書集合の配置か
ら、任意の文書間の距離を計算し、この距離値にもとづ
いて文書集合のクラスタリングを行い、文書クラスター
集合を出力する文書クラスタリング過程とからなること
を特徴とする文書分類方法。
【請求項２】文書の集合を入力とし、文書をその内容
により分類する文書分類装置であって、前記文書集合に含まれる単語の集合をとり、文書に含ま
れる単語の頻度情報から、各文書と各単語との間の関連
度を表すデータベースを作成する文書・単語間データベ
ース作成手段と、文書集合及び単語集合をそれぞれ確率変数と見なし、文
書・単語間の関連度を文書集合と単語集合との同時確率
分布と見なし、文書集合と単語集合との間の相関係数が
最大になるように、文書及び単語に数値を割り当てるこ
とによって、文書集合と単語集合とのそれぞれの最適な
配置を決定する文書・単語最適配置手段と、前記文書・単語最適配置手段の処理で決定された単語集
合の配置から、任意の単語間の距離を計算し、シソーラ
スの情報をもとに、類似性の大きい単語間ほど短くなる
ように単語間の距離を変更する単語間距離変更手段と、前記単語間距離変更手段の処理で決定された単語間の距
離値から算出される類似度をもとに、類似度の大きい単
語間ほど距離が短く、類似度の小さい単語間ほど距離が
長くなるように、各単語に数値を割り当てることによっ
て単語集合の最適な配置を決定する単語最適配置手段
と、文書集合及び単語集合をそれぞれ確率変数と見なし、文
書・単語間の関連度を文書集合と単語集合との同時確率
分布と見なし、前記単語最適配置手段の処理で決定され
た単語集合の配置を固定した上で、文書集合と単語集合
との間の相関係数が最大になるように、文書に数値を割
り当てることによって、文書集合の最適な配置を決定す
る文書最適配置手段と、前記文書最適配置手段の処理で決定された文書集合の配
置から、任意の文書間の距離を計算し、この距離値にも
とづいて文書集合のクラスタリングを行い、文書クラス
ター集合を出力する文書クラスタリング手段を有するこ
とを特徴とする文書分類装置。
【請求項３】文書の集合を入力とし、文書をその内容
により分類する文書分類プログラムを格納した記録媒体
であって、前記文書集合に含まれる単語の集合をとり、文書に含ま
れる単語の頻度情報から、各文書と各単語との間の関連
度を表すデータベースを作成する文書・単語間データベ
ース作成プロセスと、文書集合及び単語集合をそれぞれ確率変数と見なし、文
書・単語間の関連度を文書集合と単語集合との同時確率
分布と見なし、文書集合と単語集合との間の相関係数が
最大になるように、文書及び単語に数値を割り当てるこ
とによって、文書集合と単語集合とのそれぞれの最適な
配置を決定する文書・単語最適配置プロセスと、前記文書・単語最適配置プロセスで決定された単語集合
の配置から、任意の単語間の距離を計算し、シソーラス
の情報をもとに、類似性の大きい単語間ほど距離が短く
なるように単語間の距離を変更する単語間距離変更プロ
セスと、前記単語間距離変更プロセスで決定された単語間の距離
値から算出される類似度をもとに、類似度の大きい単語
間ほど距離が短く、類似度の小さい単語間ほど距離が長
くなるように、各単語に数値を割り当てることによって
単語集合の最適な配置を決定する単語最適配置プロセス
と、文書集合及び単語集合をそれぞれ確率変数と見なし、文
書・単語間の関連度を文書集合と単語集合との同時確率
分布と見なし、前記単語最適配置プロセスで決定された
単語集合の配置を固定した上で、文書集合と単語集合と
の間の相関係数が最大になるように、文書に数値を割り
当てることによって、文書集合の最適な配置を決定する
文書最適配置プロセスと、前記文書最適配置プロセスで決定された文書集合の配置
から、任意の文書間の距離を計算し、この距離値にもと
づいて文書集合のクラスタリングを行い、文書クラスタ
ー集合を出力する文書クラスタリングプロセスとからな
ることを特徴とする文書分類方法を実行するプログラム
を記憶した記録媒体。