JP3643516B2

JP3643516B2 - 文書評価方法及び装置及び文書評価プログラムを格納した記録媒体

Info

Publication number: JP3643516B2
Application number: JP2000082089A
Authority: JP
Inventors: 克人別所; 永小原
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2000-03-23
Filing date: 2000-03-23
Publication date: 2005-04-27
Anticipated expiration: 2020-03-23
Also published as: JP2001265788A

Description

【０００１】
【発明の属する技術分野】
本発明は、文書の集合に対しその内容の観点から自動的に文書間の類似度を評価し、情報検索等に役立てるための文書評価方法及び装置及び文書評価プログラムを格納した記録媒体に関するものである。
【０００２】
【従来の技術】
文書集合を分類するにあたっては、通常文書間の類似度を定義する必要がある。文書間の類似度としては、文書をベクトルで表し、そのベクトル間の内積で定義するベクトル空間法がある。
【０００３】
ベクトル空間法では、あらかじめ索引語の集合を決めておき、各索引語をベクトルと見なして、文書のベクトルを索引語ベクトルの線形結合として表す。線形結合式における各索引語ベクトルの係数には、その文書における索引語の頻度情報等が用いられる。
【０００４】
またベクトル空間法の一つの技法として、特異値分解（ＳＶＤ）により、文書・対・索引語の行列を縮退させ、文書を、直交している座標空間上のベクトルとして表現する手法もある。
【０００５】
【発明が解決しようとする課題】
しかしながら、最初に索引語を選定する際、その選択された索引語のベクトル同士が直交しているような索引語を選定することは一般に困難であり、直交していない索引語ベクトル間の類似性がどれだけなのかを定量的に算出するのも困難である。
【０００６】
また、それを解決するため、特異値分解（ＳＶＤ）の手法で直交している座標軸を取得する方法をとっても、最初の索引語の選定で、文書分類に無関係な不要語が含まれていた場合、結果として得られる文書ベクトルは、文書間の的確な類似性を表現しているとは必ずしもいえなくなる。
【０００７】
このため、ベクトル空間法で得られる文書間の類似度は、理論的に曖昧性をはらんでいることになる。
【０００８】
本発明は、数量化分析の手法に基づいて、単語集合の中の不要語を特定した上で、文書間の的確な類似度を算出するようにすることを目的としている。
【０００９】
【課題を解決するための手段】
上記目的を達成するため、本発明は、文書の集合を入力とし、文書・単語間データベース作成手段と、文書・単語最適配置手段と、単語間距離変更手段と、単語最適配置手段と、文書最適配置手段と、文書間類似度評価手段とを有する装置を用いて、文書間の類似度を評価する文書評価方法において、
文書・単語間データベース作成手段が、前記文書集合に含まれる単語の集合をとり、文書に含まれる単語の頻度情報から、各文書と各単語との間の関連度を表すデータベースを作成する文書・単語間データベース作成過程を実行し、
文書・単語最適配置手段が、文書集合及び単語集合をそれぞれ確率変数と見なし、文書・単語間の関連度を文書集合と単語集合との同時確率分布と見なし、文書集合と単語集合との間の相関係数が最大になるように、文書及び単語に数値を割り当てることによって、文書集合と単語集合とのそれぞれの最適な配置を決定する文書・単語最適配置過程を実行し、
単語間距離変更手段が、前記文書・単語最適配置手段で決定された単語集合の配置から、任意の単語間の距離を計算し、シソーラスの情報をもとに、類似性の大きい単語間ほど距離が短くなるように単語間の距離を変更する単語間距離変更過程を実行し、
単語最適配置手段が、前記単語間距離変更手段で決定された単語間の距離値から算出される類似度をもとに、類似度の大きい単語間ほど距離が短く、類似度の小さい単語間ほど距離が長くなるように、各単語に数値を割り当てることによって単語集合の最適な配置を決定する単語最適配置過程を実行し、
文書最適配置手段が、文書集合及び単語集合をそれぞれ確率変数と見なし、文書・単語間の関連度を文書集合と単語集合との同時確率分布と見なし、前記単語最適配置手段で決定された単語集合の配置を固定した上で、文書集合と単語集合との間の相関係数が最大になるように、文書に数値を割り当てることによって、文書集合の最適な配置を決定する文書最適配置過程を実行し、
文書間類似度評価手段が、前記文書最適配置手段で決定された文書集合の配置から、任意の文書間の距離を計算し、この距離値にもとづいて文書間の類似度を評価する文書間類似度評価過程とからなる。
【００１０】
文書・単語最適配置過程では、文書集合と単語集合との間の相関係数が最大になるように、文書及び単語に数値（または多次元数値）を割り当てるので、単語集合は、出現する文書の分布が似ている単語間ほど近くなるように配置される。
【００１１】
単語間距離変更過程では、シソーラスの情報をもとに、類似性の大きい単語間ほど距離が短くなるように単語間の距離を変更するので、出現文書の分布の類似性に、単語間の意味的類似性を加味した、単語間の距離が算出できる。
【００１２】
単語最適配置過程では、単語間距離変更過程で決定された単語間の距離値から算出される類似度をもとに、類似度の大きい単語間ほど距離が短く、類似度の小さい単語間ほど距離が長くなるように、各単語に数値（または多次元数値）を割り当てることによって単語集合の最適な配置を決定する。
【００１３】
単語最適配置過程で得られた単語集合の配置は、単語間の的確な類似性を表現したものと考えられる。文書最適配置過程では、この単語集合の配置を固定した上で、文書集合と単語集合間の相関係数が最大になるように、文書に数値（または多次元数値）を割り当てるので、文書集合は、単語の出現分布が似ている文書間ほど近くなるように配置される。こうして得られた文書集合の配置は、文書間の的確な類似性を表現していると考えられる。
【００１４】
こうして得られた文書集合の配置をもとに、文書間の類似度を評価することができる。
【００１５】
なお図１に示す不要語特定処理過程では、文書の分類に無関係な不要語を特定する。特定の文書クラスターに出現する傾向のある単語群は、出現文書の分布が似ているので、クラスターを形成する傾向にあると考えられる。これに対し、一般に不要語は特定の文書クラスターだけに出現するわけでなく、あらゆる文書クラスターに均一に出現する傾向があると考えられるので、特定の単語クラスターに含まれることがあまりない。そこで、不要語は他の単語との距離値の分布の標準偏差が、非不要語に比べて、小さいと考えられる。従って、各単語毎に、他の単語との距離値の分布の標準偏差を計算し、その標準偏差値がある一定以下ならば、その単語を不要語と判定することができる。
【００１６】
文書・単語間データベース更新過程で、不要語特定処理過程で特定した不要語を除去することによって、文書・単語間データベースを再構成し、新しい文書・単語間データベースから、文書・単語最適配置過程、単語間距離変更過程を再び行うことによって、より精錬化された単語間の距離値を導出することができる。
【００１７】
【発明の実施の形態】
以下、図面と共に本発明の実施例を説明する。
【００１８】
ここで説明する数量化分析の参考文献として、「数学ライブラリー46 多変量解析入門II」（発行所：森北出版、著者：河口至商）がある。
【００１９】
図１は、本発明の請求項１の文書評価方法のフローを説明するための図である。図中の符号１１は文書・単語間データベース、１２はシソーラス・データベースを表している。
【００２０】
図１における(1.1) の文書・単語間データベース作成過程では、文書集合に含まれる単語の集合をとり、文書に含まれる単語の頻度情報から、各文書と各単語との間の関連度を表すデータベースを作成する。即ち、例えば文書を形態素解析し、その中の自立語のみを取り出し、同義語は同一視した上で、各自立語の頻度数を計算した上で、文書・単語間データベース１１を作成する。
【００２１】
図２は、作成した文書・単語間データベースの例である。
単語は同義語は同一視しており、単語集合は１，２，…，Ｋである。
【００２２】
また、文書の総数はＮで、単語の出現パターンが同一である文書をまとめ、全体としてＭ種の異なる文書パターンがある。各文書パターンの個数はそれぞれｎ₁, ｎ₂, …，ｎ_Mで、
【００２３】
【数１】

【００２４】
が成り立つ。
【００２５】
ｘ_wi（ｗ＝１，２，…，Ｍ；ｉ＝１，２，…，Ｋ）は、文書パターンｗと単語ｉとの関連度である。関連度としては、最も単純なものは、その単語がその文書に出現するとき「１」、しないとき「０」をとるものである。他にも、単語が文書に出現する頻度数をとってもよい。さらに、種々の精練化を施したものを使用してもよい。
【００２６】
【数２】

【００２７】
とおく。
【００２８】
なおｍ_wは文書パターンｗに含まれる一文書の中に出現する単語の関連度の総和であり、ｎ_wは文書パターンｗに含まれる文書の数であり、ｎ_wｍ_wは文書パターンｗに含まれる一文書の中に出現する単語の関連度の総和を文書パターンｗに含まれる文書数分足し合わせたものである。そしてＴは各文書パターンｗに対応する値ｎ_wｍ_wの総和で、（ｎ_wｍ_w）／Ｔが文書パターンｗを確率変数と見なしたときのｗの確率密度である。また文書パターンｗ、単語ｉを確率変数と見なしたとき、（ｗ，ｉ）の同時確率密度は、（ｎ_wｘ_wi）／Ｔとなる。
【００２９】
なお文書・単語間の関連度を、関連度の総和Ｔで割ることによって、文書・単語間の関連度を、文書・単語間の同時確率密度とみなすことができる。その理由は、関連度をＴで除した値の総和は「１」になるからである。
【００３０】
また、文書を一つ固定し、その文書と各単語との間の関連度の総和をＴで除した値は、その文書の確率密度とみなすことができる。その理由は、一文書と各単語との間の関連度の総和をＴで除した値を、全文書にわたって足し合わせると「１」になるからである。
【００３１】
同様に、単語を一つ固定し、その単語と各文書との間の関連度の総和をＴで除した値は、その単語の確率密度とみなすことができる。その理由は、一単語と各文書との間の関連度の総和をＴで除した値を、全単語にわたって足し合わせると「１」になるからである。
【００３２】
このように、文書集合及び単語集合を確率変数とみなすことができるわけであり、さらに、各文書、各単語に何らかの実数を割り当てることによって、期待値、分散、共分散、相関係数といった統計値を定義することができるわけである。
【００３３】
図１における(1.2) の文書・単語最適配置過程では、文書集合及び単語集合をそれぞれ確率変数と見なし、文書・単語間の関連度を文書集合と単語集合の同時確率分布と見なし、文書集合と単語集合間の相関係数が最大になるように、文書及び単語に数値または多次元数値を割り当てることによって、文書集合と単語集合それぞれの最適な配置を決定する。
【００３４】
上記方法で、文書及び単語に数値を割り当てる方法について説明する。
文書パターンｗ、単語ｉを確率変数と見なしたとき、（ｗ，ｉ）の同時確率密度が（ｎ_wｘ_wi）／Ｔである同時確率分布が得られる。さらに、単語ｉになんらかの実数ｕ_i，文書パターンｗになんらかの実数ｖ_wを割り当てることによって、以下の統計学上の値が得られる。
【００３５】
【数３】

【００３６】
この相関係数が最大となるように、ｕ_i，ｖ_wの値を決めるわけである。「最適」とは相関係数が最大となるという意味であり、相関係数を最大とするｕ_iやｖ_wの値が、単語や文書パターンの最適な配置となる。
【００３７】
相関係数が最大のとき、各文書パターンとの関連度の分布が似ている単語同士ほど近くに、各単語との関連度の分布が似ている文書パターン同士ほど近くに配置される。
【００３８】
最大にするｕ_i，ｖ_wは以下に述べる計算方法で取得する。
｛ｕ_i｝（ｉ＝１，２，…，Ｋ），｛ｖ_w｝（ｗ＝１，２，…，Ｍ）の原点は任意性があるので、計算を容易にするために、
【００３９】
【数４】

【００４０】
の条件のもとで考える。
相関係数ρを最大にするｕ_i，ｖ_wを求めるためには、以下のような連立方程式
【００４１】
【数５】

【００４２】
を解けばよい。
この解を得る手順を簡単に示す。
【００４３】
【数６】

【００４４】
とおき、
Ｇ≡（ｇ_ik）（ｉ，ｋ＝１，２，…，Ｋ）
なる行列の１以外の固有値の中で最大のものを求め、この固有値に対応する固有ベクトルを
ｚ_i（ｉ＝１，２，…，Ｋ）
とする。
これより、ｕ_iが
【００４５】
【数７】

【００４６】
として求まり、ｖ_wが
【００４７】
【数８】

【００４８】
として求まる。
文書及び単語への多次元数値の割り当てについても、一次元の議論を拡張して行うことができる。
【００４９】
図１における(1.3) の単語間距離変更過程では、文書・単語最適配置過程(1.2) で決定された単語集合の配置から、任意の単語間の距離を計算し、シソーラス・データベース１２を索引してシソーラスの情報をもとに、類似性の大きい単語間ほど距離が短くなるように単語間の距離を変更する。
【００５０】
即ち、各単語は座標空間上の点として表されており、単語間の距離は、座標空間上の２点間の直線距離として計算する。文書・単語最適配置過程(1.2) で得られた単語配置は、出現する文書の分布が似ている単語間ほど近くなるように配置されている。しかしながら、元々意味的に類似している（シソーラス上で同一の親ノードをもつなど）のに、出現する文書の分布が似ていないため、互いに遠くに配置される２単語もありうる。そこで、出現文書の分布の類似性に、単語間の意味的類似性を加味しているように、単語間の距離を変更する。
【００５１】
距離の変更の仕方の一例を説明する。
２単語をとってきたとき、シソーラス上の距離をｄとする。ここでｄとは、シソーラス上の対応するノード間のリンクの数の最小値である。
２単語間の配置上の距離をＤとしたとき、変更後の距離Ｄ′を、
【００５２】
【数９】

【００５３】
で定義する。
ｄが１のとき、Ｄ′はＤの1/2 になり、ｄが増えるに従って、Ｄ′の値はＤに近づいていく。
【００５４】
図１における(1.4) の不要語特定処理実行判断過程では、(1.5) の不要語特定処理過程がまだ実行されていなければ該不要語特定処理過程(1.5) に進み、すでに実行されていれば(1.7) の単語最適配置過程に進む。
【００５５】
図１における(1.5) の不要語特定処理過程では、各単語毎に、他の単語との距離値の分布の標準偏差を計算し、その標準偏差値がある一定基準以下ならば、その単語を不要語と判定する。
【００５６】
ここでいう判定基準の一例として、各単語に対応する標準偏差値の平均の一定パーセント以下の標準偏差値をもつ単語を不要語と判定する方法がある。
【００５７】
即ち、一つの単語をｉ、他の単語をｊ（１≦ｊ≦ｐ）としたとき、ｉ，ｊ間の距離をｆ_ijとする。
距離値の分布ｆ_ij（１≦ｊ≦ｐ）の期待値
【００５８】
【数１０】

【００５９】
となり、標準偏差 f_i ^*は、
【００６０】
【数１１】

【００６１】
となる。
全単語をｉ（１≦ｉ≦ｑ（＝ｐ＋１））とし、定数ａ（０＜ａ＜１）をとったとき、
【００６２】
【数１２】

【００６３】
を満たす単語ｋを不要語と判定して処理対象からはずす。
【００６４】
図１における(1.6) の文書・単語間データベース更新過程では、不要語特定処理過程(1.5) で特定された不要語を除去した上で、各文書と各単語との間の関連度を表すデータベースを再構成し、前記文書・単語最適配置過程(1.2) に進む。
【００６５】
図１における(1.7) の単語最適配置過程では、単語間距離変更過程(1.3) で決定された単語間の距離値から算出される類似度をもとに、類似度の大きい単語間ほど距離が短く、類似度の小さい単語間ほど距離が長くなるように、各単語に数値または多次元数値を割り当てることによって単語集合の最適な配置を決定する。
【００６６】
単語間の類似度の算出の一例として、単語間の距離の逆数を類似度とする方法がある。単語数をＫとし、ｉ番目の単語とｊ番目の単語との間の類似度をｅ_ij（ｉ，ｊ＝１，２，…，Ｋ）とする。
【００６７】
以下、各単語に数値を割り当てる方法について説明する。
各単語に与える未知の数値をｘ_i（ｉ＝１，２，…，Ｋ）とし、
【００６８】
【数１３】

【００６９】
という量を考えたとき、Ｑが大きくなるように数値ｘ_iを与えることが望ましい。
【００７０】
ただし、ｘ_iの分散を一定にしておかなければ、Ｑの大小の比較をすることは意味をもたない。
また、ｘ_iの原点は任意性があるので、
【００７１】
【数１４】

【００７２】
という条件のもとで、Ｑを最大にするｘ_iを求めればよい。
Ｑを最大にするｘ_iは以下に述べる計算方法で取得する。
Ｑを最大にするｘ_iを求めるためには、
【００７３】
【数１５】

【００７４】
を解けばよい。
ａ_ij＝ｅ_ij＋ｅ_ji（ｉ，ｊ＝１，２，…，Ｋ）
【００７５】
【数１６】

【００７６】
とおき、Ｈ≡（ｈ_ij）（ｉ，ｊ＝１，２，…，Ｋ）なる行列の最大の固有値に対する固有ベクトル
ｘ_i（ｉ＝１，２，…，Ｋ）
を求めるべき解とする。
【００７７】
単語への多次元数値の割り当てについても、一次元の議論を拡張して行うことができる。
【００７８】
図１における(1.8) の文書最適配置過程では、文書集合及び単語集合をそれぞれ確率変数と見なし、文書・単語間の関連度を文書集合と単語集合との同時確率分布と見なし、単語最適配置過程(1.7) で決定された単語集合の配置を固定した上で、文書集合と単語集合との間の相関係数が最大になるように、文書に数値または多次元数値を割り当てることによって、文書集合の最適な配置を決定する。相関係数を最大にするｕ_i，ｖ_wを求める計算で、計算を容易にするために、
【００７９】
【数１７】

【００８０】
の条件のもとで考えるということと、この条件下でｕ_iが求まったとき、ｖ_wが
【００８１】
【数１８】

【００８２】
として求まることが分かっている
そこで、単語最適配置過程(1.7) で決定されたｕ_iに対しても、
【００８３】
【数１９】

【００８４】
を満足するように値を変更し、この条件下で、ｖ_wを上記式で求める。
【００８５】
即ち、単語最適配置過程(1.7) で決定された単語集合の一次元配置を、
ｕ_i（ｉ＝１，２，…，Ｋ）
としたとき、
【００８６】
【数２０】

【００８７】
となるように、ｕ_iを平行移動する。
このとき、文書集合と単語集合間の相関係数が最大となる、文書集合の一次元配置
ｖ_w（ｗ＝１，２，…，Ｍ）
は、
【００８８】
【数２１】

【００８９】
で与えられる。
単語への割り当て値が多次元数値だった場合の、文書への多次元数値の割り当てについても、一次元の議論を拡張して行うことができる。
【００９０】
図１における(1.9) の文書間類似度評価過程では、文書最適配置過程(1.8) で決定された文書集合の配置から、任意の文書間の距離を計算する。ここで文書間の距離とは、座標空間上の２点間の直線距離である。この距離値情報から例えば文書集合化のためのクラスタリングを行う。
【００９１】
上記において文書評価方法及びそのための装置について説明したが、当該文書評価方法はプログラムの形で記述して記録媒体に格納しておくことができる。したがって、本発明は当該格納の行われた記録媒体をも発明の対象とするものである。
【００９２】
【発明の効果】
以上説明してきた数量化分析の手法により、本発明では文書間の的確な距離値を算出することが可能となるため、その距離値にもとづいて文書間の類似度を評価する結果も的確なものとなる。
【図面の簡単な説明】
【図１】請求項１の文書評価方法のフローを示す図である。
【図２】文書・単語間データベースの一例を示す図である。
【符号の説明】
(1.1) ：文書・単語間データベース作成過程
(1.2) ：文書・単語最適配置過程
(1.3) ：単語間距離変更過程
(1.4) ：不要語特定処理実行判断過程
(1.5) ：不要語特定処理過程
(1.6) ：文書・単語間データベース更新過程
(1.7) ：単語最適配置過程
(1.8) ：文書最適配置過程
(1.9) ：文書間類似度評価過程
１１：文書・単語間データベース
１２：シソーラス・データベース

Claims

文書の集合を入力とし、文書・単語間データベース作成手段と、文書・単語最適配置手段と、単語間距離変更手段と、単語最適配置手段と、文書最適配置手段と、文書間類似度評価手段とを有する装置を用いて、文書間の類似度を評価する文書評価方法において、
文書・単語間データベース作成手段が、前記文書集合に含まれる単語の集合をとり、文書に含まれる単語の頻度情報から、各文書と各単語との間の関連度を表すデータベースを作成する文書・単語間データベース作成過程を実行し、
文書・単語最適配置手段が、文書集合及び単語集合をそれぞれ確率変数と見なし、文書・単語間の関連度を文書集合と単語集合との同時確率分布と見なし、文書集合と単語集合との間の相関係数が最大になるように、文書及び単語に数値を割り当てることによって、文書集合と単語集合とのそれぞれの最適な配置を決定する文書・単語最適配置過程を実行し、
単語間距離変更手段が、前記文書・単語最適配置手段で決定された単語集合の配置から、任意の単語間の距離を計算し、シソーラスの情報をもとに、類似性の大きい単語間ほど距離が短くなるように単語間の距離を変更する単語間距離変更過程を実行し、
単語最適配置手段が、前記単語間距離変更手段で決定された単語間の距離値から算出される類似度をもとに、類似度の大きい単語間ほど距離が短く、類似度の小さい単語間ほど距離が長くなるように、各単語に数値を割り当てることによって単語集合の最適な配置を決定する単語最適配置過程を実行し、
文書最適配置手段が、文書集合及び単語集合をそれぞれ確率変数と見なし、文書・単語間の関連度を文書集合と単語集合との同時確率分布と見なし、前記単語最適配置手段で決定された単語集合の配置を固定した上で、文書集合と単語集合との間の相関係数が最大になるように、文書に数値を割り当てることによって、文書集合の最適な配置を決定する文書最適配置過程を実行し、
文書間類似度評価手段が、前記文書最適配置手段で決定された文書集合の配置から、任意の文書間の距離を計算し、この距離値にもとづいて文書間の類似度を評価する文書間類似度評価過程を実行する
ことを特徴とする文書評価方法。
文書の集合を入力とし、文書間の類似度を評価する文書評価装置であって、
前記文書集合に含まれる単語の集合をとり、文書に含まれる単語の頻度情報から、各文書と各単語との間の関連度を表すデータベースを作成する文書・単語間データベース作成手段と、
文書集合及び単語集合をそれぞれ確率変数と見なし、文書・単語間の関連度を文書集合と単語集合との同時確率分布と見なし、文書集合と単語集合との間の相関係数が最大になるように、文書及び単語に数値を割り当てることによって、文書集合と単語集合とのそれぞれの最適な配置を決定する文書・単語最適配置手段と、
前記文書・単語最適配置手段の処理で決定された単語集合の配置から、任意の単語間の距離を計算し、シソーラスの情報をもとに、類似性の大きい単語間ほど短くなるように単語間の距離を変更する単語間距離変更手段と、
前記単語間距離変更手段の処理で決定された単語間の距離値から算出される類似度をもとに、類似度の大きい単語間ほど距離が短く、類似度の小さい単語間ほど距離が長くなるように、各単語に数値を割り当てることによって単語集合の最適な配置を決定する単語最適配置手段と、
文書集合及び単語集合をそれぞれ確率変数と見なし、文書・単語間の関連度を文書集合と単語集合との同時確率分布と見なし、前記単語最適配置手段の処理で決定された単語集合の配置を固定した上で、文書集合と単語集合との間の相関係数が最大になるように、文書に数値を割り当てることによって、文書集合の最適な配置を決定する文書最適配置手段と、
前記文書最適配置手段の処理で決定された文書集合の配置から、任意の文書間の距離を計算し、この距離値にもとづいて文書間の類似度を評価する文書間類似度評価手段と、
を有する
ことを特徴とする文書評価装置。
文書の集合を入力とし、文書・単語間データベース作成手段と、文書・単語最適配置手段と、単語間距離変更手段と、単語最適配置手段と、文書最適配置手段と、文書間類似度評価手段とを有する装置を用いて、文書間の類似度を評価する文書評価プログラムを格納した記録媒体であって、
文書・単語間データベース作成手段が、前記文書集合に含まれる単語の集合をとり、文書に含まれる単語の頻度情報から、各文書と各単語との間の関連度を表すデータベースを作成する処理を実行する、文書・単語間データベース作成プロセスと、
文書・単語最適配置手段が、文書集合及び単語集合をそれぞれ確率変数と見なし、文書・単語間の関連度を文書集合と単語集合との同時確率分布と見なし、文書集合と単語集合との間の相関係数が最大になるように、文書及び単語に数値を割り当てることによって、文書集合と単語集合とのそれぞれの最適な配置を決定する処理を実行する、文書・単語最適配置プロセスと、
単語間距離変更手段が、前記文書・単語最適配置手段で決定された単語集合の配置から、任意の単語間の距離を計算し、シソーラスの情報をもとに、類似性の大きい単語間ほど距離が短くなるように単語間の距離を変更する処理を実行する、単語間距離変更プロセスと、
単語最適配置手段が、前記単語間距離変更手段で決定された単語間の距離値から算出される類似度をもとに、類似度の大きい単語間ほど距離が短く、類似度の小さい単語間ほど距離が長くなるように、各単語に数値を割り当てることによって単語集合の最適な配置を決定する処理を実行する、単語最適配置プロセスと、
文書最適配置手段が、文書集合及び単語集合をそれぞれ確率変数と見なし、文書・単語間の関連度を文書集合と単語集合との同時確率分布と見なし、前記単語最適配置手段で決定された単語集合の配置を固定した上で、文書集合と単語集合との間の相関係数が最大になるように、文書に数値を割り当てることによって、文書集合の最適な配置を決定する処理を実行する、文書最適配置プロセスと、
文書間類似度評価手段が、前記文書最適配置手段で決定された文書集合の配置から、任意の文書間の距離を計算し、この距離値にもとづいて文書間の類似度を評価する処理を実行する、文書間類似度評価プロセスと
を記録してなる
ことを特徴とする文書評価方法を実行するプログラムを格納した記録媒体。