JP2001265788A - 文書分類方法及び装置及び文書分類プログラムを格納した記録媒体 - Google Patents

文書分類方法及び装置及び文書分類プログラムを格納した記録媒体

Info

Publication number
JP2001265788A
JP2001265788A JP2000082089A JP2000082089A JP2001265788A JP 2001265788 A JP2001265788 A JP 2001265788A JP 2000082089 A JP2000082089 A JP 2000082089A JP 2000082089 A JP2000082089 A JP 2000082089A JP 2001265788 A JP2001265788 A JP 2001265788A
Authority
JP
Japan
Prior art keywords
word
document
words
distance
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000082089A
Other languages
English (en)
Other versions
JP3643516B2 (ja
Inventor
Katsuto Bessho
克人 別所
Hisashi Obara
永 小原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2000082089A priority Critical patent/JP3643516B2/ja
Publication of JP2001265788A publication Critical patent/JP2001265788A/ja
Application granted granted Critical
Publication of JP3643516B2 publication Critical patent/JP3643516B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 本発明は、数量化分析の手法に基づいて、単
語集合の中の不要語を特定した上、文書間の的確な類似
度を算出することを目的としている。 【解決手段】 文書に含まれる単語の頻度情報からデー
タベースを作成し、文書集合と単語集合との間の相関係
数が最大となるように文書集合と単語集合とを配置し、
次いでシソーラスの情報にもとづいて類似性の大きい単
語をまとめる単語間の距離変更を行った上で、再び文書
集合と単語集合との配置を決定して、クラスタリングを
行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書の集合をその
内容の観点から自動的にクラスタリングし、情報検索等
に役立てるための文書分類方法及び装置及び文書分類プ
ログラムを格納した記録媒体に関するものである。
【0002】
【従来の技術】文書集合を分類するにあたっては、通常
文書間の類似度を定義する必要がある。文書間の類似度
としては、文書をベクトルで表し、そのベクトル間の内
積で定義するベクトル空間法がある。
【0003】ベクトル空間法では、あらかじめ索引語の
集合を決めておき、各索引語をベクトルと見なして、文
書のベクトルを索引語ベクトルの線形結合として表す。
線形結合式における各索引語ベクトルの係数には、その
文書における索引語の頻度情報等が用いられる。
【0004】またベクトル空間法の一つの技法として、
特異値分解(SVD)により、文書・対・索引語の行列
を縮退させ、文書を、直交している座標空間上のベクト
ルとして表現する手法もある。
【0005】
【発明が解決しようとする課題】しかしながら、最初に
索引語を選定する際、その選択された索引語のベクトル
同士が直交しているような索引語を選定することは一般
に困難であり、直交していない索引語ベクトル間の類似
性がどれだけなのかを定量的に算出するのも困難であ
る。
【0006】また、それを解決するため、特異値分解
(SVD)の手法で直交している座標軸を取得する方法
をとっても、最初の索引語の選定で、文書分類に無関係
な不要語が含まれていた場合、結果として得られる文書
ベクトルは、文書間の的確な類似性を表現しているとは
必ずしもいえなくなる。
【0007】このため、ベクトル空間法で得られる文書
間の類似度は、理論的に曖昧性をはらんでいることにな
る。
【0008】本発明は、数量化分析の手法に基づいて、
単語集合の中の不要語を特定した上で、文書間の的確な
類似度を算出するようにすることを目的としている。
【0009】
【課題を解決するための手段】上記目的を達成するた
め、本発明は、文書の集合を入力とし、文書集合に含ま
れる単語の集合をとり、文書に含まれる単語の頻度情報
から、各文書と各単語との間の関連度を表すデータベー
スを作成する文書・単語間データベース作成過程と、文
書集合及び単語集合をそれぞれ確率変数と見なし、文書
・単語間の関連度を文書集合と単語集合との同時確率分
布と見なし、文書集合と単語集合との間の相関係数が最
大になるように、文書及び単語に数値(または多次元数
値)を割り当てることによって、文書集合と単語集合と
のそれぞれの最適な配置を決定する文書・単語最適配置
過程と、文書・単語最適配置過程で決定された単語集合
の配置から、任意の単語間の距離を計算し、シソーラス
の情報をもとに、類似性の大きい単語間ほど距離が短く
なるように単語間の距離を変更する単語間距離変更過程
と、単語間距離変更過程で決定された単語間の距離値か
ら算出される類似度をもとに、類似度の大きい単語間ほ
ど距離が短く、類似度の小さい単語間ほど距離が長くな
るように、各単語に数値(または多次元数値)を割り当
てることによって単集合の最適な配置を決定する単語最
適配置過程と、文書集合及び単語集合をそれぞれ確率変
数と見なし、文書・単語間の関連度を文書集合と単語集
合との同時確率分布と見なし、単語最適配置過程で決定
された単語集合の配置を固定した上で、文書集合と単語
集合との間の相関係数が最大になるように、文書に数値
(または多次元数値)を割り当てることによって、文書
集合の最適な配置を決定する文書最適配置過程と、文書
最適配置過程で決定された文書集合の配置から、任意の
文書間の距離を計算し、この距離値にもとづいて文書集
合のクラスタリングを行い、文書クラスター集合を出力
する文書クラスタリング過程とからなる。
【0010】文書・単語最適配置過程では、文書集合と
単語集合との間の相関係数が最大になるように、文書及
び単語に数値(または多次元数値)を割り当てるので、
単語集合は、出現する文書の分布が似ている単語間ほど
近くなるように配置される。
【0011】単語間距離変更過程では、シソーラスの情
報をもとに、類似性の大きい単語間ほど距離が短くなる
ように単語間の距離を変更するので、出現文書の分布の
類似性に、単語間の意味的類似性を加味した、単語間の
距離が算出できる。
【0012】単語最適配置過程では、単語間距離変更過
程で決定された単語間の距離値から算出される類似度を
もとに、類似度の大きい単語間ほど距離が短く、類似度
の小さい単語間ほど距離が長くなるように、各単語に数
値(または多次元数値)を割り当てることによって単語
集合の最適な配置を決定する。
【0013】単語最適配置過程で得られた単語集合の配
置は、単語間の的確な類似性を表現したものと考えられ
る。文書最適配置過程では、この単語集合の配置を固定
した上で、文書集合と単語集合間の相関係数が最大にな
るように、文書に数値(または多次元数値)を割り当て
るので、文書集合は、単語の出現分布が似ている文書間
ほど近くなるように配置される。こうして得られた文書
集合の配置は、文書間の的確な類似性を表現していると
考えられる。
【0014】こうして得られた文書集合の配置をもと
に、文書クラスタリング過程で文書のクラスタリングを
行うことにより、的確な文書クラスター集合を得ること
ができる。
【0015】なお図1に示す不要語特定処理過程では、
文書の分類に無関係な不要語を特定する。特定の文書ク
ラスターに出現する傾向のある単語群は、出現文書の分
布が似ているので、クラスターを形成する傾向にあると
考えられる。これに対し、一般に不要語は特定の文書ク
ラスターだけに出現するわけでなく、あらゆる文書クラ
スターに均一に出現する傾向があると考えられるので、
特定の単語クラスターに含まれることがあまりない。そ
こで、不要語は他の単語との距離値の分布の標準偏差
が、非不要語に比べて、小さいと考えられる。従って、
各単語毎に、他の単語との距離値の分布の標準偏差を計
算し、その標準偏差値がある一定以下ならば、その単語
を不要語と判定することができる。
【0016】文書・単語間データベース更新過程で、不
要語特定処理過程で特定した不要語を除去することによ
って、文書・単語間データベースを再構成し、新しい文
書・単語間データベースから、文書・単語最適配置過
程、単語間距離変更過程を再び行うことによって、より
精錬化された単語間の距離値を導出することができる。
【0017】
【発明の実施の形態】以下、図面と共に本発明の実施例
を説明する。
【0018】ここで説明する数量化分析の参考文献とし
て、「数学ライブラリー46 多変量解析入門II」(発行
所:森北出版、著者:河口至商)がある。
【0019】図1は、本発明の請求項1の文書分類方法
のフローを説明するための図である。図中の符号11は
文書・単語間データベース、12はシソーラス・データ
ベースを表している。
【0020】図1における(1.1) の文書・単語間データ
ベース作成過程では、文書集合に含まれる単語の集合を
とり、文書に含まれる単語の頻度情報から、各文書と各
単語との間の関連度を表すデータベースを作成する。即
ち、例えば文書を形態素解析し、その中の自立語のみを
取り出し、同義語は同一視した上で、各自立語の頻度数
を計算した上で、文書・単語間データベース11を作成
する。
【0021】図2は、作成した文書・単語間データベー
スの例である。単語は同義語は同一視しており、単語集
合は1,2,…,Kである。
【0022】また、文書の総数はNで、単語の出現パタ
ーンが同一である文書をまとめ、全体としてM種の異な
る文書パターンがある。各文書パターンの個数はそれぞ
れn 1 , n2 , …,nM で、
【0023】
【数1】
【0024】が成り立つ。
【0025】xwi(w=1,2,…,M;i=1,2,
…,K)は、文書パターンwと単語iとの関連度であ
る。関連度としては、最も単純なものは、その単語がそ
の文書に出現するとき「1」、しないとき「0」をとる
ものである。他にも、単語が文書に出現する頻度数をと
ってもよい。さらに、種々の精練化を施したものを使用
してもよい。
【0026】
【数2】
【0027】とおく。
【0028】なおmw は文書パターンwに含まれる一文
書の中に出現する単語の関連度の総和であり、nw は文
書パターンwに含まれる文書の数であり、nw w は文
書パターンwに含まれる一文書の中に出現する単語の関
連度の総和を文書パターンwに含まれる文書数分足し合
わせたものである。そしてTは各文書パターンwに対応
する値nw w の総和で、(nw w )/Tが文書パタ
ーンwを確率変数と見なしたときのwの確率密度であ
る。また文書パターンw、単語iを確率変数と見なした
とき、(w,i)の同時確率密度は、(nw wi)/T
となる。
【0029】なお文書・単語間の関連度を、関連度の総
和Tで割ることによって、文書・単語間の関連度を、文
書・単語間の同時確率密度とみなすことができる。その
理由は、関連度をTで除した値の総和は「1」になるか
らである。
【0030】また、文書を一つ固定し、その文書と各単
語との間の関連度の総和をTで除した値は、その文書の
確率密度とみなすことができる。その理由は、一文書と
各単語との間の関連度の総和をTで除した値を、全文書
にわたって足し合わせると「1」になるからである。
【0031】同様に、単語を一つ固定し、その単語と各
文書との間の関連度の総和をTで除した値は、その単語
の確率密度とみなすことができる。その理由は、一単語
と各文書との間の関連度の総和をTで除した値を、全単
語にわたって足し合わせると「1」になるからである。
【0032】このように、文書集合及び単語集合を確率
変数とみなすことができるわけであり、さらに、各文
書、各単語に何らかの実数を割り当てることによって、
期待値、分散、共分散、相関係数といった統計値を定義
することができるわけである。
【0033】図1における(1.2) の文書・単語最適配置
過程では、文書集合及び単語集合をそれぞれ確率変数と
見なし、文書・単語間の関連度を文書集合と単語集合の
同時確率分布と見なし、文書集合と単語集合間の相関係
数が最大になるように、文書及び単語に数値または多次
元数値を割り当てることによって、文書集合と単語集合
それぞれの最適な配置を決定する。
【0034】上記方法で、文書及び単語に数値を割り当
てる方法について説明する。文書パターンw、単語iを
確率変数と見なしたとき、(w,i)の同時確率密度が
(nw wi)/Tである同時確率分布が得られる。さら
に、単語iになんらかの実数ui ,文書パターンwにな
んらかの実数vw を割り当てることによって、以下の統
計学上の値が得られる。
【0035】
【数3】
【0036】この相関係数が最大となるように、ui
w の値を決めるわけである。「最適」とは相関係数が
最大となるという意味であり、相関係数を最大とするu
i やvw の値が、単語や文書パターンの最適な配置とな
る。
【0037】相関係数が最大のとき、各文書パターンと
の関連度の分布が似ている単語同士ほど近くに、各単語
との関連度の分布が似ている文書パターン同士ほど近く
に配置される。
【0038】最大にするui ,vw は以下に述べる計算
方法で取得する。{ui }(i=1,2,…,K),
{vw }(w=1,2,…,M)の原点は任意性がある
ので、計算を容易にするために、
【0039】
【数4】
【0040】の条件のもとで考える。相関係数ρを最大
にするui ,vw を求めるためには、以下のような連立
方程式
【0041】
【数5】
【0042】を解けばよい。この解を得る手順を簡単に
示す。
【0043】
【数6】
【0044】とおき、 G≡(gik)(i,k=1,2,…,K) なる行列の1以外の固有値の中で最大のものを求め、こ
の固有値に対応する固有ベクトルを zi (i=1,2,…,K) とする。これより、ui
【0045】
【数7】
【0046】として求まり、vw
【0047】
【数8】
【0048】として求まる。文書及び単語への多次元数
値の割り当てについても、一次元の議論を拡張して行う
ことができる。
【0049】図1における(1.3) の単語間距離変更過程
では、文書・単語最適配置過程(1.2) で決定された単語
集合の配置から、任意の単語間の距離を計算し、シソー
ラス・データベース12を索引してシソーラスの情報を
もとに、類似性の大きい単語間ほど距離が短くなるよう
に単語間の距離を変更する。
【0050】即ち、各単語は座標空間上の点として表さ
れており、単語間の距離は、座標空間上の2点間の直線
距離として計算する。文書・単語最適配置過程(1.2) で
得られた単語配置は、出現する文書の分布が似ている単
語間ほど近くなるように配置されている。しかしなが
ら、元々意味的に類似している(シソーラス上で同一の
親ノードをもつなど)のに、出現する文書の分布が似て
いないため、互いに遠くに配置される2単語もありう
る。そこで、出現文書の分布の類似性に、単語間の意味
的類似性を加味しているように、単語間の距離を変更す
る。
【0051】距離の変更の仕方の一例を説明する。2単
語をとってきたとき、シソーラス上の距離をdとする。
ここでdとは、シソーラス上の対応するノード間のリン
クの数の最小値である。2単語間の配置上の距離をDと
したとき、変更後の距離D′を、
【0052】
【数9】
【0053】で定義する。dが1のとき、D′はDの1/
2 になり、dが増えるに従って、D′の値はDに近づい
ていく。
【0054】図1における(1.4) の不要語特定処理実行
判断過程では、(1.5) の不要語特定処理過程がまだ実行
されていなければ該不要語特定処理過程(1.5) に進み、
すでに実行されていれば(1.7) の単語最適配置過程に進
む。
【0055】図1における(1.5) の不要語特定処理過程
では、各単語毎に、他の単語との距離値の分布の標準偏
差を計算し、その標準偏差値がある一定基準以下なら
ば、その単語を不要語と判定する。
【0056】ここでいう判定基準の一例として、各単語
に対応する標準偏差値の平均の一定パーセント以下の標
準偏差値をもつ単語を不要語と判定する方法がある。
【0057】即ち、一つの単語をi、他の単語をj(1
≦j≦p)としたとき、i,j間の距離をfijとする。 距離値の分布fij(1≦j≦p)の期待値
【0058】
【数10】
【0059】となり、標準偏差 fi * は、
【0060】
【数11】
【0061】となる。全単語をi(1≦i≦q(=p+
1))とし、定数a(0<a<1)をとったとき、
【0062】
【数12】
【0063】を満たす単語kを不要語と判定して処理対
象からはずす。
【0064】図1における(1.6) の文書・単語間データ
ベース更新過程では、不要語特定処理過程(1.5) で特定
された不要語を除去した上で、各文書と各単語との間の
関連度を表すデータベースを再構成し、前記文書・単語
最適配置過程(1.2) に進む。
【0065】図1における(1.7) の単語最適配置過程で
は、単語間距離変更過程(1.3) で決定された単語間の距
離値から算出される類似度をもとに、類似度の大きい単
語間ほど距離が短く、類似度の小さい単語間ほど距離が
長くなるように、各単語に数値または多次元数値を割り
当てることによって単語集合の最適な配置を決定する。
【0066】単語間の類似度の算出の一例として、単語
間の距離の逆数を類似度とする方法がある。単語数をK
とし、i番目の単語とj番目の単語との間の類似度をe
ij(i,j=1,2,…,K)とする。
【0067】以下、各単語に数値を割り当てる方法につ
いて説明する。各単語に与える未知の数値をxi (i=
1,2,…,K)とし、
【0068】
【数13】
【0069】という量を考えたとき、Qが大きくなるよ
うに数値xi を与えることが望ましい。
【0070】ただし、xi の分散を一定にしておかなけ
れば、Qの大小の比較をすることは意味をもたない。ま
た、xi の原点は任意性があるので、
【0071】
【数14】
【0072】という条件のもとで、Qを最大にするxi
を求めればよい。Qを最大にするxi は以下に述べる計
算方法で取得する。Qを最大にするxi を求めるために
は、
【0073】
【数15】
【0074】を解けばよい。aij=eij+eji(i,j
=1,2,…,K)
【0075】
【数16】
【0076】とおき、H≡(hij)(i,j=1,2,
…,K)なる行列の最大の固有値に対する固有ベクトル xi (i=1,2,…,K) を求めるべき解とする。
【0077】単語への多次元数値の割り当てについて
も、一次元の議論を拡張して行うことができる。
【0078】図1における(1.8) の文書最適配置過程で
は、文書集合及び単語集合をそれぞれ確率変数と見な
し、文書・単語間の関連度を文書集合と単語集合との同
時確率分布と見なし、単語最適配置過程(1.7) で決定さ
れた単語集合の配置を固定した上で、文書集合と単語集
合との間の相関係数が最大になるように、文書に数値ま
たは多次元数値を割り当てることによって、文書集合の
最適な配置を決定する。相関係数を最大にするui ,v
w を求める計算で、計算を容易にするために、
【0079】
【数17】
【0080】の条件のもとで考えるということと、この
条件下でui が求まったとき、vw
【0081】
【数18】
【0082】として求まることが分かっているそこで、
単語最適配置過程(1.7) で決定されたui に対しても、
【0083】
【数19】
【0084】を満足するように値を変更し、この条件下
で、vw を上記式で求める。
【0085】即ち、単語最適配置過程(1.7) で決定され
た単語集合の一次元配置を、 ui (i=1,2,…,K) としたとき、
【0086】
【数20】
【0087】となるように、ui を平行移動する。この
とき、文書集合と単語集合間の相関係数が最大となる、
文書集合の一次元配置 vw (w=1,2,…,M) は、
【0088】
【数21】
【0089】で与えられる。単語への割り当て値が多次
元数値だった場合の、文書への多次元数値の割り当てに
ついても、一次元の議論を拡張して行うことができる。
【0090】図1における(1.9) の文書クラスタリング
過程では、文書最適配置過程(1.8)で決定された文書集
合の配置から、任意の文書間の距離を計算する。ここで
文書間の距離とは、座標空間上の2点間の直線距離であ
る。この距離値情報から文書集合化のためのクラスタリ
ングを行い、文書クラスター集合(文書集合の集合)を
出力する。
【0091】上記において文書分類方法及びそのための
装置について説明したが、当該文書分類方法はプログラ
ムの形で記述して記録媒体に格納しておくことができ
る。したがって、本発明は当該格納の行われた記録媒体
をも発明の対象とするものである。
【0092】
【発明の効果】以上説明してきた数量化分析の手法によ
り、本発明では文書間の的確な距離値を算出することが
可能となるため、その距離値にもとづく文書のクラスタ
リング結果も的確なものとなる。
【図面の簡単な説明】
【図1】請求項1の文書分類方法のフローを示す図であ
る。
【図2】文書・単語間データベースの一例を示す図であ
る。
【符号の説明】
(1.1) :文書・単語間データベース作成過程 (1.2) :文書・単語最適配置過程 (1.3) :単語間距離変更過程 (1.4) :不要語特定処理実行判断過程 (1.5) :不要語特定処理過程 (1.6) :文書・単語間データベース更新過程 (1.7) :単語最適配置過程 (1.8) :文書最適配置過程 (1.9) :文書クラスタリング過程 11:文書・単語間データベース 12:シソーラス・データベース

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 文書の集合を入力とし、文書をその内容
    により分類する文書分類方法において、 前記文書集合に含まれる単語の集合をとり、文書に含ま
    れる単語の頻度情報から、各文書と各単語との間の関連
    度を表すデータベースを作成する文書・単語間データベ
    ース作成過程と、 文書集合及び単語集合をそれぞれ確率変数と見なし、文
    書・単語間の関連度を文書集合と単語集合との同時確率
    分布と見なし、文書集合と単語集合との間の相関係数が
    最大になるように、文書及び単語に数値を割り当てるこ
    とによって、文書集合と単語集合とのそれぞれの最適な
    配置を決定する文書・単語最適配置過程と、 前記文書・単語最適配置過程で決定された単語集合の配
    置から、任意の単語間の距離を計算し、シソーラスの情
    報をもとに、類似性の大きい単語間ほど距離が短くなる
    ように単語間の距離を変更する単語間距離変更過程と、 前記単語間距離変更過程で決定された単語間の距離値か
    ら算出される類似度をもとに、類似度の大きい単語間ほ
    ど距離が短く、類似度の小さい単語間ほど距離が長くな
    るように、各単語に数値を割り当てることによって単語
    集合の最適な配置を決定する単語最適配置過程と、 文書集合及び単語集合をそれぞれ確率変数と見なし、文
    書・単語間の関連度を文書集合と単語集合との同時確率
    分布と見なし、前記単語最適配置過程で決定された単語
    集合の配置を固定した上で、文書集合と単語集合との間
    の相関係数が最大になるように、文書に数値を割り当て
    ることによって、文書集合の最適な配置を決定する文書
    最適配置過程と、 前記文書最適配置過程で決定された文書集合の配置か
    ら、任意の文書間の距離を計算し、この距離値にもとづ
    いて文書集合のクラスタリングを行い、文書クラスター
    集合を出力する文書クラスタリング過程とからなること
    を特徴とする文書分類方法。
  2. 【請求項2】 文書の集合を入力とし、文書をその内容
    により分類する文書分類装置であって、 前記文書集合に含まれる単語の集合をとり、文書に含ま
    れる単語の頻度情報から、各文書と各単語との間の関連
    度を表すデータベースを作成する文書・単語間データベ
    ース作成手段と、 文書集合及び単語集合をそれぞれ確率変数と見なし、文
    書・単語間の関連度を文書集合と単語集合との同時確率
    分布と見なし、文書集合と単語集合との間の相関係数が
    最大になるように、文書及び単語に数値を割り当てるこ
    とによって、文書集合と単語集合とのそれぞれの最適な
    配置を決定する文書・単語最適配置手段と、 前記文書・単語最適配置手段の処理で決定された単語集
    合の配置から、任意の単語間の距離を計算し、シソーラ
    スの情報をもとに、類似性の大きい単語間ほど短くなる
    ように単語間の距離を変更する単語間距離変更手段と、 前記単語間距離変更手段の処理で決定された単語間の距
    離値から算出される類似度をもとに、類似度の大きい単
    語間ほど距離が短く、類似度の小さい単語間ほど距離が
    長くなるように、各単語に数値を割り当てることによっ
    て単語集合の最適な配置を決定する単語最適配置手段
    と、 文書集合及び単語集合をそれぞれ確率変数と見なし、文
    書・単語間の関連度を文書集合と単語集合との同時確率
    分布と見なし、前記単語最適配置手段の処理で決定され
    た単語集合の配置を固定した上で、文書集合と単語集合
    との間の相関係数が最大になるように、文書に数値を割
    り当てることによって、文書集合の最適な配置を決定す
    る文書最適配置手段と、 前記文書最適配置手段の処理で決定された文書集合の配
    置から、任意の文書間の距離を計算し、この距離値にも
    とづいて文書集合のクラスタリングを行い、文書クラス
    ター集合を出力する文書クラスタリング手段を有するこ
    とを特徴とする文書分類装置。
  3. 【請求項3】 文書の集合を入力とし、文書をその内容
    により分類する文書分類プログラムを格納した記録媒体
    であって、 前記文書集合に含まれる単語の集合をとり、文書に含ま
    れる単語の頻度情報から、各文書と各単語との間の関連
    度を表すデータベースを作成する文書・単語間データベ
    ース作成プロセスと、 文書集合及び単語集合をそれぞれ確率変数と見なし、文
    書・単語間の関連度を文書集合と単語集合との同時確率
    分布と見なし、文書集合と単語集合との間の相関係数が
    最大になるように、文書及び単語に数値を割り当てるこ
    とによって、文書集合と単語集合とのそれぞれの最適な
    配置を決定する文書・単語最適配置プロセスと、 前記文書・単語最適配置プロセスで決定された単語集合
    の配置から、任意の単語間の距離を計算し、シソーラス
    の情報をもとに、類似性の大きい単語間ほど距離が短く
    なるように単語間の距離を変更する単語間距離変更プロ
    セスと、 前記単語間距離変更プロセスで決定された単語間の距離
    値から算出される類似度をもとに、類似度の大きい単語
    間ほど距離が短く、類似度の小さい単語間ほど距離が長
    くなるように、各単語に数値を割り当てることによって
    単語集合の最適な配置を決定する単語最適配置プロセス
    と、 文書集合及び単語集合をそれぞれ確率変数と見なし、文
    書・単語間の関連度を文書集合と単語集合との同時確率
    分布と見なし、前記単語最適配置プロセスで決定された
    単語集合の配置を固定した上で、文書集合と単語集合と
    の間の相関係数が最大になるように、文書に数値を割り
    当てることによって、文書集合の最適な配置を決定する
    文書最適配置プロセスと、 前記文書最適配置プロセスで決定された文書集合の配置
    から、任意の文書間の距離を計算し、この距離値にもと
    づいて文書集合のクラスタリングを行い、文書クラスタ
    ー集合を出力する文書クラスタリングプロセスとからな
    ることを特徴とする文書分類方法を実行するプログラム
    を記憶した記録媒体。
JP2000082089A 2000-03-23 2000-03-23 文書評価方法及び装置及び文書評価プログラムを格納した記録媒体 Expired - Fee Related JP3643516B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000082089A JP3643516B2 (ja) 2000-03-23 2000-03-23 文書評価方法及び装置及び文書評価プログラムを格納した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000082089A JP3643516B2 (ja) 2000-03-23 2000-03-23 文書評価方法及び装置及び文書評価プログラムを格納した記録媒体

Publications (2)

Publication Number Publication Date
JP2001265788A true JP2001265788A (ja) 2001-09-28
JP3643516B2 JP3643516B2 (ja) 2005-04-27

Family

ID=18598937

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000082089A Expired - Fee Related JP3643516B2 (ja) 2000-03-23 2000-03-23 文書評価方法及び装置及び文書評価プログラムを格納した記録媒体

Country Status (1)

Country Link
JP (1) JP3643516B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006127523A (ja) * 2005-10-27 2006-05-18 Hitachi Ltd 文書情報表示システム
KR100659370B1 (ko) 2006-02-15 2006-12-19 한국과학기술정보연구원 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법
JP2012506596A (ja) * 2008-10-21 2012-03-15 マイクロソフト コーポレーション コンパラブルコーパスを使用する固有表現の翻字
CN102544606A (zh) * 2012-01-18 2012-07-04 杭州高特电子设备有限公司 基于聚类分析的锂电池单元配组方法
JP2018169940A (ja) * 2017-03-30 2018-11-01 富士通株式会社 学習装置、学習方法及び学習プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10105572A (ja) * 1996-10-02 1998-04-24 Nec Corp 文書グループ化装置および文書グループ化方法
JPH11259515A (ja) * 1998-03-12 1999-09-24 Toshiba Corp 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10105572A (ja) * 1996-10-02 1998-04-24 Nec Corp 文書グループ化装置および文書グループ化方法
JPH11259515A (ja) * 1998-03-12 1999-09-24 Toshiba Corp 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006127523A (ja) * 2005-10-27 2006-05-18 Hitachi Ltd 文書情報表示システム
KR100659370B1 (ko) 2006-02-15 2006-12-19 한국과학기술정보연구원 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법
JP2012506596A (ja) * 2008-10-21 2012-03-15 マイクロソフト コーポレーション コンパラブルコーパスを使用する固有表現の翻字
CN102544606A (zh) * 2012-01-18 2012-07-04 杭州高特电子设备有限公司 基于聚类分析的锂电池单元配组方法
JP2018169940A (ja) * 2017-03-30 2018-11-01 富士通株式会社 学習装置、学習方法及び学習プログラム

Also Published As

Publication number Publication date
JP3643516B2 (ja) 2005-04-27

Similar Documents

Publication Publication Date Title
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
Hasan et al. Normalized approach to find optimal number of topics in Latent Dirichlet Allocation (LDA)
CN112464638B (zh) 一种基于改进谱聚类算法的文本聚类方法
US20060004753A1 (en) System and method for document analysis, processing and information extraction
WO2018087190A1 (en) Apparatus and method for semantic search
Huang et al. Exploration of dimensionality reduction for text visualization
CN115098690B (zh) 一种基于聚类分析的多数据文档分类方法及系统
Thushara et al. A model for auto-tagging of research papers based on keyphrase extraction methods
Mendoza et al. A new memetic algorithm for multi-document summarization based on CHC algorithm and greedy search
CN110019563B (zh) 一种基于多维数据的肖像建模方法和装置
CN114547307A (zh) 文本向量模型训练方法、文本匹配方法、装置及设备
JP4143234B2 (ja) 文書分類装置、文書分類方法及び記憶媒体
Priandini et al. Categorizing document by fuzzy C-Means and K-nearest neighbors approach
Revindasari et al. Traceability between business process and software component using Probabilistic Latent Semantic Analysis
JP2001265788A (ja) 文書分類方法及び装置及び文書分類プログラムを格納した記録媒体
CN111723179A (zh) 基于概念图谱的反馈模型信息检索方法、系统及介质
US20230259761A1 (en) Transfer learning system and method for deep neural network
CN116610810A (zh) 基于调控云知识图谱血缘关系的智能搜索方法及系统
Gupta et al. Feature selection: an overview
Śmieja et al. Spherical wards clustering and generalized voronoi diagrams
JP2011191834A (ja) 文書分類方法、文書分類装置、およびプログラム
CN114021541A (zh) 演示文稿生成方法、装置、设备及存储介质
JP2006285419A (ja) 情報処理装置および方法、並びにプログラム
CN114625952A (zh) 一种基于VSM和AMMK-means的信息推荐方法及系统
Saklecha et al. Enhanced K-means clustering algorithm using collaborative filtering approach

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041116

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050125

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050128

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080204

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090204

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090204

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100204

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110204

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees