JP3643516B2 - 文書評価方法及び装置及び文書評価プログラムを格納した記録媒体 - Google Patents

文書評価方法及び装置及び文書評価プログラムを格納した記録媒体 Download PDF

Info

Publication number
JP3643516B2
JP3643516B2 JP2000082089A JP2000082089A JP3643516B2 JP 3643516 B2 JP3643516 B2 JP 3643516B2 JP 2000082089 A JP2000082089 A JP 2000082089A JP 2000082089 A JP2000082089 A JP 2000082089A JP 3643516 B2 JP3643516 B2 JP 3643516B2
Authority
JP
Japan
Prior art keywords
word
document
distance
words
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000082089A
Other languages
English (en)
Other versions
JP2001265788A (ja
Inventor
克人 別所
永 小原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2000082089A priority Critical patent/JP3643516B2/ja
Publication of JP2001265788A publication Critical patent/JP2001265788A/ja
Application granted granted Critical
Publication of JP3643516B2 publication Critical patent/JP3643516B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、文書の集合に対しその内容の観点から自動的に文書間の類似度を評価し、情報検索等に役立てるための文書価方法及び装置及び文書価プログラムを格納した記録媒体に関するものである。
【0002】
【従来の技術】
文書集合を分類するにあたっては、通常文書間の類似度を定義する必要がある。文書間の類似度としては、文書をベクトルで表し、そのベクトル間の内積で定義するベクトル空間法がある。
【0003】
ベクトル空間法では、あらかじめ索引語の集合を決めておき、各索引語をベクトルと見なして、文書のベクトルを索引語ベクトルの線形結合として表す。線形結合式における各索引語ベクトルの係数には、その文書における索引語の頻度情報等が用いられる。
【0004】
またベクトル空間法の一つの技法として、特異値分解(SVD)により、文書・対・索引語の行列を縮退させ、文書を、直交している座標空間上のベクトルとして表現する手法もある。
【0005】
【発明が解決しようとする課題】
しかしながら、最初に索引語を選定する際、その選択された索引語のベクトル同士が直交しているような索引語を選定することは一般に困難であり、直交していない索引語ベクトル間の類似性がどれだけなのかを定量的に算出するのも困難である。
【0006】
また、それを解決するため、特異値分解(SVD)の手法で直交している座標軸を取得する方法をとっても、最初の索引語の選定で、文書分類に無関係な不要語が含まれていた場合、結果として得られる文書ベクトルは、文書間の的確な類似性を表現しているとは必ずしもいえなくなる。
【0007】
このため、ベクトル空間法で得られる文書間の類似度は、理論的に曖昧性をはらんでいることになる。
【0008】
本発明は、数量化分析の手法に基づいて、単語集合の中の不要語を特定した上で、文書間の的確な類似度を算出するようにすることを目的としている。
【0009】
【課題を解決するための手段】
上記目的を達成するため、本発明は、文書の集合を入力とし、文書・単語間データベース作成手段と、文書・単語最適配置手段と、単語間距離変更手段と、単語最適配置手段と、文書最適配置手段と、文書間類似度評価手段とを有する装置を用いて、文書間の類似度を評価する文書評価方法において、
文書・単語間データベース作成手段が、前記文書集合に含まれる単語の集合をとり、文書に含まれる単語の頻度情報から、各文書と各単語との間の関連度を表すデータベースを作成する文書・単語間データベース作成過程を実行し
文書・単語最適配置手段が、文書集合及び単語集合をそれぞれ確率変数と見なし、文書・単語間の関連度を文書集合と単語集合との同時確率分布と見なし、文書集合と単語集合との間の相関係数が最大になるように、文書及び単語に数値を割り当てることによって、文書集合と単語集合とのそれぞれの最適な配置を決定する文書・単語最適配置過程を実行し
単語間距離変更手段が、前記文書・単語最適配置手段で決定された単語集合の配置から、任意の単語間の距離を計算し、シソーラスの情報をもとに、類似性の大きい単語間ほど距離が短くなるように単語間の距離を変更する単語間距離変更過程を実行し
単語最適配置手段が、前記単語間距離変更手段で決定された単語間の距離値から算出される類似度をもとに、類似度の大きい単語間ほど距離が短く、類似度の小さい単語間ほど距離が長くなるように、各単語に数値を割り当てることによって単語集合の最適な配置を決定する単語最適配置過程を実行し
文書最適配置手段が、文書集合及び単語集合をそれぞれ確率変数と見なし、文書・単語間の関連度を文書集合と単語集合との同時確率分布と見なし、前記単語最適配置手段で決定された単語集合の配置を固定した上で、文書集合と単語集合との間の相関係数が最大になるように、文書に数値を割り当てることによって、文書集合の最適な配置を決定する文書最適配置過程を実行し
文書間類似度評価手段が、前記文書最適配置手段で決定された文書集合の配置から、任意の文書間の距離を計算し、この距離値にもとづいて文書間の類似度を評価する文書間類似度評価過程とからなる。
【0010】
文書・単語最適配置過程では、文書集合と単語集合との間の相関係数が最大になるように、文書及び単語に数値(または多次元数値)を割り当てるので、単語集合は、出現する文書の分布が似ている単語間ほど近くなるように配置される。
【0011】
単語間距離変更過程では、シソーラスの情報をもとに、類似性の大きい単語間ほど距離が短くなるように単語間の距離を変更するので、出現文書の分布の類似性に、単語間の意味的類似性を加味した、単語間の距離が算出できる。
【0012】
単語最適配置過程では、単語間距離変更過程で決定された単語間の距離値から算出される類似度をもとに、類似度の大きい単語間ほど距離が短く、類似度の小さい単語間ほど距離が長くなるように、各単語に数値(または多次元数値)を割り当てることによって単語集合の最適な配置を決定する。
【0013】
単語最適配置過程で得られた単語集合の配置は、単語間の的確な類似性を表現したものと考えられる。文書最適配置過程では、この単語集合の配置を固定した上で、文書集合と単語集合間の相関係数が最大になるように、文書に数値(または多次元数値)を割り当てるので、文書集合は、単語の出現分布が似ている文書間ほど近くなるように配置される。こうして得られた文書集合の配置は、文書間の的確な類似性を表現していると考えられる。
【0014】
こうして得られた文書集合の配置をもとに、文書間の類似度を評価することができる。
【0015】
なお図1に示す不要語特定処理過程では、文書の分類に無関係な不要語を特定する。特定の文書クラスターに出現する傾向のある単語群は、出現文書の分布が似ているので、クラスターを形成する傾向にあると考えられる。これに対し、一般に不要語は特定の文書クラスターだけに出現するわけでなく、あらゆる文書クラスターに均一に出現する傾向があると考えられるので、特定の単語クラスターに含まれることがあまりない。そこで、不要語は他の単語との距離値の分布の標準偏差が、非不要語に比べて、小さいと考えられる。従って、各単語毎に、他の単語との距離値の分布の標準偏差を計算し、その標準偏差値がある一定以下ならば、その単語を不要語と判定することができる。
【0016】
文書・単語間データベース更新過程で、不要語特定処理過程で特定した不要語を除去することによって、文書・単語間データベースを再構成し、新しい文書・単語間データベースから、文書・単語最適配置過程、単語間距離変更過程を再び行うことによって、より精錬化された単語間の距離値を導出することができる。
【0017】
【発明の実施の形態】
以下、図面と共に本発明の実施例を説明する。
【0018】
ここで説明する数量化分析の参考文献として、「数学ライブラリー46 多変量解析入門II」(発行所:森北出版、著者:河口至商)がある。
【0019】
図1は、本発明の請求項1の文書評価方法のフローを説明するための図である。図中の符号11は文書・単語間データベース、12はシソーラス・データベースを表している。
【0020】
図1における(1.1) の文書・単語間データベース作成過程では、文書集合に含まれる単語の集合をとり、文書に含まれる単語の頻度情報から、各文書と各単語との間の関連度を表すデータベースを作成する。即ち、例えば文書を形態素解析し、その中の自立語のみを取り出し、同義語は同一視した上で、各自立語の頻度数を計算した上で、文書・単語間データベース11を作成する。
【0021】
図2は、作成した文書・単語間データベースの例である。
単語は同義語は同一視しており、単語集合は1,2,…,Kである。
【0022】
また、文書の総数はNで、単語の出現パターンが同一である文書をまとめ、全体としてM種の異なる文書パターンがある。各文書パターンの個数はそれぞれn1 , n2 , …,nM で、
【0023】
【数1】
Figure 0003643516
【0024】
が成り立つ。
【0025】
wi(w=1,2,…,M;i=1,2,…,K)は、文書パターンwと単語iとの関連度である。関連度としては、最も単純なものは、その単語がその文書に出現するとき「1」、しないとき「0」をとるものである。他にも、単語が文書に出現する頻度数をとってもよい。さらに、種々の精練化を施したものを使用してもよい。
【0026】
【数2】
Figure 0003643516
【0027】
とおく。
【0028】
なおmw は文書パターンwに含まれる一文書の中に出現する単語の関連度の総和であり、nw は文書パターンwに含まれる文書の数であり、nw w は文書パターンwに含まれる一文書の中に出現する単語の関連度の総和を文書パターンwに含まれる文書数分足し合わせたものである。そしてTは各文書パターンwに対応する値nw w の総和で、(nw w )/Tが文書パターンwを確率変数と見なしたときのwの確率密度である。また文書パターンw、単語iを確率変数と見なしたとき、(w,i)の同時確率密度は、(nw wi)/Tとなる。
【0029】
なお文書・単語間の関連度を、関連度の総和Tで割ることによって、文書・単語間の関連度を、文書・単語間の同時確率密度とみなすことができる。その理由は、関連度をTで除した値の総和は「1」になるからである。
【0030】
また、文書を一つ固定し、その文書と各単語との間の関連度の総和をTで除した値は、その文書の確率密度とみなすことができる。その理由は、一文書と各単語との間の関連度の総和をTで除した値を、全文書にわたって足し合わせると「1」になるからである。
【0031】
同様に、単語を一つ固定し、その単語と各文書との間の関連度の総和をTで除した値は、その単語の確率密度とみなすことができる。その理由は、一単語と各文書との間の関連度の総和をTで除した値を、全単語にわたって足し合わせると「1」になるからである。
【0032】
このように、文書集合及び単語集合を確率変数とみなすことができるわけであり、さらに、各文書、各単語に何らかの実数を割り当てることによって、期待値、分散、共分散、相関係数といった統計値を定義することができるわけである。
【0033】
図1における(1.2) の文書・単語最適配置過程では、文書集合及び単語集合をそれぞれ確率変数と見なし、文書・単語間の関連度を文書集合と単語集合の同時確率分布と見なし、文書集合と単語集合間の相関係数が最大になるように、文書及び単語に数値または多次元数値を割り当てることによって、文書集合と単語集合それぞれの最適な配置を決定する。
【0034】
上記方法で、文書及び単語に数値を割り当てる方法について説明する。
文書パターンw、単語iを確率変数と見なしたとき、(w,i)の同時確率密度が(nw wi)/Tである同時確率分布が得られる。さらに、単語iになんらかの実数ui ,文書パターンwになんらかの実数vw を割り当てることによって、以下の統計学上の値が得られる。
【0035】
【数3】
Figure 0003643516
【0036】
この相関係数が最大となるように、ui ,vw の値を決めるわけである。「最適」とは相関係数が最大となるという意味であり、相関係数を最大とするui やvw の値が、単語や文書パターンの最適な配置となる。
【0037】
相関係数が最大のとき、各文書パターンとの関連度の分布が似ている単語同士ほど近くに、各単語との関連度の分布が似ている文書パターン同士ほど近くに配置される。
【0038】
最大にするui ,vw は以下に述べる計算方法で取得する。
{ui }(i=1,2,…,K),{vw }(w=1,2,…,M)の原点は任意性があるので、計算を容易にするために、
【0039】
【数4】
Figure 0003643516
【0040】
の条件のもとで考える。
相関係数ρを最大にするui ,vw を求めるためには、以下のような連立方程式
【0041】
【数5】
Figure 0003643516
【0042】
を解けばよい。
この解を得る手順を簡単に示す。
【0043】
【数6】
Figure 0003643516
【0044】
とおき、
G≡(gik)(i,k=1,2,…,K)
なる行列の1以外の固有値の中で最大のものを求め、この固有値に対応する固有ベクトルを
i (i=1,2,…,K)
とする。
これより、ui
【0045】
【数7】
Figure 0003643516
【0046】
として求まり、vw
【0047】
【数8】
Figure 0003643516
【0048】
として求まる。
文書及び単語への多次元数値の割り当てについても、一次元の議論を拡張して行うことができる。
【0049】
図1における(1.3) の単語間距離変更過程では、文書・単語最適配置過程(1.2) で決定された単語集合の配置から、任意の単語間の距離を計算し、シソーラス・データベース12を索引してシソーラスの情報をもとに、類似性の大きい単語間ほど距離が短くなるように単語間の距離を変更する。
【0050】
即ち、各単語は座標空間上の点として表されており、単語間の距離は、座標空間上の2点間の直線距離として計算する。文書・単語最適配置過程(1.2) で得られた単語配置は、出現する文書の分布が似ている単語間ほど近くなるように配置されている。しかしながら、元々意味的に類似している(シソーラス上で同一の親ノードをもつなど)のに、出現する文書の分布が似ていないため、互いに遠くに配置される2単語もありうる。そこで、出現文書の分布の類似性に、単語間の意味的類似性を加味しているように、単語間の距離を変更する。
【0051】
距離の変更の仕方の一例を説明する。
2単語をとってきたとき、シソーラス上の距離をdとする。ここでdとは、シソーラス上の対応するノード間のリンクの数の最小値である。
2単語間の配置上の距離をDとしたとき、変更後の距離D′を、
【0052】
【数9】
Figure 0003643516
【0053】
で定義する。
dが1のとき、D′はDの1/2 になり、dが増えるに従って、D′の値はDに近づいていく。
【0054】
図1における(1.4) の不要語特定処理実行判断過程では、(1.5) の不要語特定処理過程がまだ実行されていなければ該不要語特定処理過程(1.5) に進み、すでに実行されていれば(1.7) の単語最適配置過程に進む。
【0055】
図1における(1.5) の不要語特定処理過程では、各単語毎に、他の単語との距離値の分布の標準偏差を計算し、その標準偏差値がある一定基準以下ならば、その単語を不要語と判定する。
【0056】
ここでいう判定基準の一例として、各単語に対応する標準偏差値の平均の一定パーセント以下の標準偏差値をもつ単語を不要語と判定する方法がある。
【0057】
即ち、一つの単語をi、他の単語をj(1≦j≦p)としたとき、i,j間の距離をfijとする。
距離値の分布fij(1≦j≦p)の期待値
【0058】
【数10】
Figure 0003643516
【0059】
となり、標準偏差 fi * は、
【0060】
【数11】
Figure 0003643516
【0061】
となる。
全単語をi(1≦i≦q(=p+1))とし、定数a(0<a<1)をとったとき、
【0062】
【数12】
Figure 0003643516
【0063】
を満たす単語kを不要語と判定して処理対象からはずす。
【0064】
図1における(1.6) の文書・単語間データベース更新過程では、不要語特定処理過程(1.5) で特定された不要語を除去した上で、各文書と各単語との間の関連度を表すデータベースを再構成し、前記文書・単語最適配置過程(1.2) に進む。
【0065】
図1における(1.7) の単語最適配置過程では、単語間距離変更過程(1.3) で決定された単語間の距離値から算出される類似度をもとに、類似度の大きい単語間ほど距離が短く、類似度の小さい単語間ほど距離が長くなるように、各単語に数値または多次元数値を割り当てることによって単語集合の最適な配置を決定する。
【0066】
単語間の類似度の算出の一例として、単語間の距離の逆数を類似度とする方法がある。単語数をKとし、i番目の単語とj番目の単語との間の類似度をeij(i,j=1,2,…,K)とする。
【0067】
以下、各単語に数値を割り当てる方法について説明する。
各単語に与える未知の数値をxi (i=1,2,…,K)とし、
【0068】
【数13】
Figure 0003643516
【0069】
という量を考えたとき、Qが大きくなるように数値xi を与えることが望ましい。
【0070】
ただし、xi の分散を一定にしておかなければ、Qの大小の比較をすることは意味をもたない。
また、xi の原点は任意性があるので、
【0071】
【数14】
Figure 0003643516
【0072】
という条件のもとで、Qを最大にするxi を求めればよい。
Qを最大にするxi は以下に述べる計算方法で取得する。
Qを最大にするxi を求めるためには、
【0073】
【数15】
Figure 0003643516
【0074】
を解けばよい。
ij=eij+eji(i,j=1,2,…,K)
【0075】
【数16】
Figure 0003643516
【0076】
とおき、H≡(hij)(i,j=1,2,…,K)なる行列の最大の固有値に対する固有ベクトル
i (i=1,2,…,K)
を求めるべき解とする。
【0077】
単語への多次元数値の割り当てについても、一次元の議論を拡張して行うことができる。
【0078】
図1における(1.8) の文書最適配置過程では、文書集合及び単語集合をそれぞれ確率変数と見なし、文書・単語間の関連度を文書集合と単語集合との同時確率分布と見なし、単語最適配置過程(1.7) で決定された単語集合の配置を固定した上で、文書集合と単語集合との間の相関係数が最大になるように、文書に数値または多次元数値を割り当てることによって、文書集合の最適な配置を決定する。相関係数を最大にするui ,vw を求める計算で、計算を容易にするために、
【0079】
【数17】
Figure 0003643516
【0080】
の条件のもとで考えるということと、この条件下でui が求まったとき、vw
【0081】
【数18】
Figure 0003643516
【0082】
として求まることが分かっている
そこで、単語最適配置過程(1.7) で決定されたui に対しても、
【0083】
【数19】
Figure 0003643516
【0084】
を満足するように値を変更し、この条件下で、vw を上記式で求める。
【0085】
即ち、単語最適配置過程(1.7) で決定された単語集合の一次元配置を、
i (i=1,2,…,K)
としたとき、
【0086】
【数20】
Figure 0003643516
【0087】
となるように、ui を平行移動する。
このとき、文書集合と単語集合間の相関係数が最大となる、文書集合の一次元配置
w (w=1,2,…,M)
は、
【0088】
【数21】
Figure 0003643516
【0089】
で与えられる。
単語への割り当て値が多次元数値だった場合の、文書への多次元数値の割り当てについても、一次元の議論を拡張して行うことができる。
【0090】
図1における(1.9) の文書間類似度評価過程では、文書最適配置過程(1.8) で決定された文書集合の配置から、任意の文書間の距離を計算する。ここで文書間の距離とは、座標空間上の2点間の直線距離である。この距離値情報から例えば文書集合化のためのクラスタリングを行う。
【0091】
上記において文書評価方法及びそのための装置について説明したが、当該文書評価方法はプログラムの形で記述して記録媒体に格納しておくことができる。したがって、本発明は当該格納の行われた記録媒体をも発明の対象とするものである。
【0092】
【発明の効果】
以上説明してきた数量化分析の手法により、本発明では文書間の的確な距離値を算出することが可能となるため、その距離値にもとづいて文書間の類似度を評価する結果も的確なものとなる。
【図面の簡単な説明】
【図1】 請求項1の文書評価方法のフローを示す図である。
【図2】 文書・単語間データベースの一例を示す図である。
【符号の説明】
(1.1) :文書・単語間データベース作成過程
(1.2) :文書・単語最適配置過程
(1.3) :単語間距離変更過程
(1.4) :不要語特定処理実行判断過程
(1.5) :不要語特定処理過程
(1.6) :文書・単語間データベース更新過程
(1.7) :単語最適配置過程
(1.8) :文書最適配置過程
(1.9) :文書間類似度評価過程
11:文書・単語間データベース
12:シソーラス・データベース

Claims (3)

  1. 文書の集合を入力とし、文書・単語間データベース作成手段と、文書・単語最適配置手段と、単語間距離変更手段と、単語最適配置手段と、文書最適配置手段と、文書間類似度評価手段とを有する装置を用いて、文書間の類似度を評価する文書評価方法において、
    文書・単語間データベース作成手段が、前記文書集合に含まれる単語の集合をとり、文書に含まれる単語の頻度情報から、各文書と各単語との間の関連度を表すデータベースを作成する文書・単語間データベース作成過程を実行し
    文書・単語最適配置手段が、文書集合及び単語集合をそれぞれ確率変数と見なし、文書・単語間の関連度を文書集合と単語集合との同時確率分布と見なし、文書集合と単語集合との間の相関係数が最大になるように、文書及び単語に数値を割り当てることによって、文書集合と単語集合とのそれぞれの最適な配置を決定する文書・単語最適配置過程を実行し
    単語間距離変更手段が、前記文書・単語最適配置手段で決定された単語集合の配置から、任意の単語間の距離を計算し、シソーラスの情報をもとに、類似性の大きい単語間ほど距離が短くなるように単語間の距離を変更する単語間距離変更過程を実行し
    単語最適配置手段が、前記単語間距離変更手段で決定された単語間の距離値から算出される類似度をもとに、類似度の大きい単語間ほど距離が短く、類似度の小さい単語間ほど距離が長くなるように、各単語に数値を割り当てることによって単語集合の最適な配置を決定する単語最適配置過程を実行し
    文書最適配置手段が、文書集合及び単語集合をそれぞれ確率変数と見なし、文書・単語間の関連度を文書集合と単語集合との同時確率分布と見なし、前記単語最適配置手段で決定された単語集合の配置を固定した上で、文書集合と単語集合との間の相関係数が最大になるように、文書に数値を割り当てることによって、文書集合の最適な配置を決定する文書最適配置過程を実行し
    文書間類似度評価手段が、前記文書最適配置手段で決定された文書集合の配置から、任意の文書間の距離を計算し、この距離値にもとづいて文書間の類似度を評価する文書間類似度評価過程を実行する
    ことを特徴とする文書評価方法。
  2. 文書の集合を入力とし、文書間の類似度を評価する文書評価装置であって、
    前記文書集合に含まれる単語の集合をとり、文書に含まれる単語の頻度情報から、各文書と各単語との間の関連度を表すデータベースを作成する文書・単語間データベース作成手段と、
    文書集合及び単語集合をそれぞれ確率変数と見なし、文書・単語間の関連度を文書集合と単語集合との同時確率分布と見なし、文書集合と単語集合との間の相関係数が最大になるように、文書及び単語に数値を割り当てることによって、文書集合と単語集合とのそれぞれの最適な配置を決定する文書・単語最適配置手段と、
    前記文書・単語最適配置手段の処理で決定された単語集合の配置から、任意の単語間の距離を計算し、シソーラスの情報をもとに、類似性の大きい単語間ほど短くなるように単語間の距離を変更する単語間距離変更手段と、
    前記単語間距離変更手段の処理で決定された単語間の距離値から算出される類似度をもとに、類似度の大きい単語間ほど距離が短く、類似度の小さい単語間ほど距離が長くなるように、各単語に数値を割り当てることによって単語集合の最適な配置を決定する単語最適配置手段と、
    文書集合及び単語集合をそれぞれ確率変数と見なし、文書・単語間の関連度を文書集合と単語集合との同時確率分布と見なし、前記単語最適配置手段の処理で決定された単語集合の配置を固定した上で、文書集合と単語集合との間の相関係数が最大になるように、文書に数値を割り当てることによって、文書集合の最適な配置を決定する文書最適配置手段と、
    前記文書最適配置手段の処理で決定された文書集合の配置から、任意の文書間の距離を計算し、この距離値にもとづいて文書間の類似度を評価する文書間類似度評価手段と、
    を有する
    ことを特徴とする文書評価装置。
  3. 文書の集合を入力とし、文書・単語間データベース作成手段と、文書・単語最適配置手段と、単語間距離変更手段と、単語最適配置手段と、文書最適配置手段と、文書間類似度評価手段とを有する装置を用いて、文書間の類似度を評価する文書評価プログラムを格納した記録媒体であって、
    文書・単語間データベース作成手段が、前記文書集合に含まれる単語の集合をとり、文書に含まれる単語の頻度情報から、各文書と各単語との間の関連度を表すデータベースを作成する処理を実行する、文書・単語間データベース作成プロセスと、
    文書・単語最適配置手段が、文書集合及び単語集合をそれぞれ確率変数と見なし、文書・単語間の関連度を文書集合と単語集合との同時確率分布と見なし、文書集合と単語集合との間の相関係数が最大になるように、文書及び単語に数値を割り当てることによって、文書集合と単語集合とのそれぞれの最適な配置を決定する処理を実行する、文書・単語最適配置プロセスと、
    単語間距離変更手段が、前記文書・単語最適配置手段で決定された単語集合の配置から、任意の単語間の距離を計算し、シソーラスの情報をもとに、類似性の大きい単語間ほど距離が短くなるように単語間の距離を変更する処理を実行する、単語間距離変更プロセスと、
    単語最適配置手段が、前記単語間距離変更手段で決定された単語間の距離値から算出される類似度をもとに、類似度の大きい単語間ほど距離が短く、類似度の小さい単語間ほど距離が長くなるように、各単語に数値を割り当てることによって単語集合の最適な配置を決定する処理を実行する、単語最適配置プロセスと、
    文書最適配置手段が、文書集合及び単語集合をそれぞれ確率変数と見なし、文書・単語間の関連度を文書集合と単語集合との同時確率分布と見なし、前記単語最適配置手段で決定された単語集合の配置を固定した上で、文書集合と単語集合との間の相関係数が最大になるように、文書に数値を割り当てることによって、文書集合の最適な配置を決定する処理を実行する、文書最適配置プロセスと、
    文書間類似度評価手段が、前記文書最適配置手段で決定された文書集合の配置から、任意の文書間の距離を計算し、この距離値にもとづいて文書間の類似度を評価する処理を実行する、文書間類似度評価プロセスと
    を記録してなる
    ことを特徴とする文書評価方法を実行するプログラムを格納した記録媒体。
JP2000082089A 2000-03-23 2000-03-23 文書評価方法及び装置及び文書評価プログラムを格納した記録媒体 Expired - Fee Related JP3643516B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000082089A JP3643516B2 (ja) 2000-03-23 2000-03-23 文書評価方法及び装置及び文書評価プログラムを格納した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000082089A JP3643516B2 (ja) 2000-03-23 2000-03-23 文書評価方法及び装置及び文書評価プログラムを格納した記録媒体

Publications (2)

Publication Number Publication Date
JP2001265788A JP2001265788A (ja) 2001-09-28
JP3643516B2 true JP3643516B2 (ja) 2005-04-27

Family

ID=18598937

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000082089A Expired - Fee Related JP3643516B2 (ja) 2000-03-23 2000-03-23 文書評価方法及び装置及び文書評価プログラムを格納した記録媒体

Country Status (1)

Country Link
JP (1) JP3643516B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006127523A (ja) * 2005-10-27 2006-05-18 Hitachi Ltd 文書情報表示システム
KR100659370B1 (ko) 2006-02-15 2006-12-19 한국과학기술정보연구원 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법
US8560298B2 (en) * 2008-10-21 2013-10-15 Microsoft Corporation Named entity transliteration using comparable CORPRA
CN102544606B (zh) * 2012-01-18 2014-02-05 杭州高特电子设备有限公司 基于聚类分析的锂电池单元配组方法
JP6930180B2 (ja) * 2017-03-30 2021-09-01 富士通株式会社 学習装置、学習方法及び学習プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2940488B2 (ja) * 1996-10-02 1999-08-25 日本電気株式会社 文書グループ化装置および文書グループ化方法
JPH11259515A (ja) * 1998-03-12 1999-09-24 Toshiba Corp 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体

Also Published As

Publication number Publication date
JP2001265788A (ja) 2001-09-28

Similar Documents

Publication Publication Date Title
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
Zhu et al. Fast and stable clustering analysis based on Grid-mapping K-means algorithm and new clustering validity index
US7873634B2 (en) Method and a system for automatic evaluation of digital files
CN112464638B (zh) 一种基于改进谱聚类算法的文本聚类方法
CN109408743B (zh) 文本链接嵌入方法
JP2020500371A (ja) 意味的検索のための装置および方法
CN109840282A (zh) 一种基于模糊理论的知识图谱优化方法
JP2003030222A (ja) 大規模データベースにおける主要クラスタおよびアウトライア・クラスタの検索、検出および同定のための方法、システム、記録媒体、およびサーバ
Wu et al. Decision-making support for the evaluation of clustering algorithms based on MCDM
CN113032573B (zh) 一种结合主题语义与tf*idf算法的大规模文本分类方法及系统
JP3643516B2 (ja) 文書評価方法及び装置及び文書評価プログラムを格納した記録媒体
Valcarce et al. Efficient pseudo-relevance feedback methods for collaborative filtering recommendation
CN111325015B (zh) 一种基于语义分析的文档查重方法及系统
Wawer Mining co-occurrence matrices for SO-PMI paradigm word candidates
Al-Taani et al. Extractive text summarization of arabic multi-document using fuzzy C-means and Latent Dirichlet Allocation
Schenker et al. A comparison of two novel algorithms for clustering web documents
Śmieja et al. Spherical wards clustering and generalized voronoi diagrams
Al-Omari Evaluating the effect of stemming in clustering of Arabic documents
Worawitphinyo et al. Improving suffix tree clustering with new ranking and similarity measures
Akbacak et al. MLMQ-IR: Multi-label multi-query image retrieval based on the variance of Hamming distance
CN111723179A (zh) 基于概念图谱的反馈模型信息检索方法、系统及介质
Yamazaki et al. Fast Algorithm for Integrating Clustering with Ranking on Heterogeneous Graphs
Yamazaki et al. Fast and Parallel Ranking-based Clustering for Heterogeneous Graphs.
You et al. Metadata-based clustered multi-task learning for thread mining in web communities
Jain et al. Investigating the Similarity of Court Decisions.

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041116

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050125

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050128

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080204

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090204

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090204

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100204

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110204

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees