JP2006119714A

JP2006119714A - 単語間類似性判定用データベース作成装置、方法、プログラムおよび記録媒体

Info

Publication number: JP2006119714A
Application number: JP2004304206A
Authority: JP
Inventors: Nobuaki Hiroshima; 伸章廣嶋; Katsuto Bessho; 克人別所; Masahiro Oku; 雅博奥
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-10-19
Filing date: 2004-10-19
Publication date: 2006-05-11

Abstract

【課題】概念ベース中に存在しない単語について、単語間の類似性を判定する単語ベクトルを付与することができるデータベースを作成する単語間類似性判定用データベース作成装置、方法、プログラムおよび記録媒体を提供することを目的とするものである。

【解決手段】概念ベースから検索した複数の単語の概念ベクトルの重心を求め、この求めた概念ベクトルの重心を、文ベクトルとして算出し、各異なり単語が含まれている文の文ベクトルの重心を求め、この求めた文ベクトルの重心を、単語ベクトルとして算出し、この算出された単語ベクトルと、異なり単語とを単語間類似性判定用データベースに格納する単語間類似性判定用データベース作成装置である。

【選択図】図１

Description

本発明は、新聞記事等の文書から、単語間の類似性を判定するためのデータベースを作成する単語間類似性判定用データベース作成装置、方法、プログラムおよび記録媒体に関する。

単語間の類似性を判定し、類義語を検索し、また、関連文書を検索するためのデータベースの１つとして、概念ベースが用いられている。

この「概念ベース」は、単語とその単語に対応する概念ベクトルとの組からなるデータベースである。概念ベースとして、国語辞典の語義文から作成される辞書概念ベース（たとえば、特許文献１参照）と、新聞記事等の文書を大量に集めたコーパスから作成されるコーパス概念ベース（たとえば、非特許文献１参照）とが知られている。

また、所定の単語の「概念ベクトル」は、上記所定の単語が属する範囲（たとえば、文）内で、予め決められた複数の共起語のそれぞれと共起する頻度に応じて算出される。辞書概念ベースにおける共起語として、単語を辞書引きして得られる語義文中に出現する単語が用いられ、コーパス概念ベースにおける共起語として、コーパス中に高頻度で出現する単語が用いられる。各単語を、行とし、共起語を、列とし、単語と共起語との共起頻度を、行列の成分とする共起行列を作成する。

辞書概念ベースの場合、上記共起行列における各行の行ベクトルが、単語の概念ベクトルであり、通常は、語義文中に含まれる単語について、孫引きすることによって得られる語義文等を用いて、概念ベクトルの精錬が行われる。

コーパス概念ベースにおいて、特異値分解によって、共起行列の列の次元を圧縮した行列を作成し、この圧縮した行列の各行の行ベクトルが概念ベクトルである。このようにして作成された概念ベースは、単語間の類似性が高い程、単語の概念ベクトル間の距離が近いという性質を持つので、単語間の類似性を判定する場合に有効である。つまり、２つの単語間の概念ベクトルの距離が近い程、上記２つの単語間の類似性が高いと判断できる。
特許第３３７９６０３号公報 H. Schutze、"Dimensions of meaning"、Proceedings of Supercomputing '92、 pp. 787−796 、1992年

しかし、これらの方法によって作成された概念ベースでは、概念ベースを作成するために用いた文書に含まれている単語にのみ、概念ベクトルが付与される。特に、コーパス概念ベースを作成する際に特異値分解を行うが、特異値分解を行うためには大量のメモリを必要とするので、共起行列の行である単語の数を削減しなければならず、この結果、コーパス中の特定の単語にのみ、概念ベクトルが付与される。

したがって、概念ベースを用いて単語間の類似性を判定する場合、類似性を判定しようとする単語が概念ベースに含まれていないと、その単語に対応する概念ベクトルが存在せず、単語間の類似性を判定することができないという問題がある。

本発明は、概念ベース中に存在しない単語について、単語間の類似性を判定する単語ベクトルを付与することができるデータベースを作成する単語間類似性判定用データベース作成装置、方法、プログラムおよび記録媒体を提供することを目的とするものである。

本発明は、文書に含まれている単語間の類似性を判定するためのデータベースを作成する単語間類似性判定用データベース作成装置において、文書を文に分割し、メモリに記憶する文分割手段と、上記文分割手段が得た文書中の各文を単語に分割し、メモリに記憶する単語分割手段と、上記単語分割手段が得た文書中の各単語について、重複する単語を１つにまとめた異なり単語を取得し、メモリに記憶する異なり単語取得手段と、単語の意味を表現する概念ベクトルを格納している記憶装置である概念ベースを検索することによって、上記単語分割手段が得た単語に対応する概念ベクトルを取得し、各単語の概念ベクトルの重心を求め、この求めた概念ベクトルの重心を、文ベクトルとして算出し、メモリに記憶する文ベクトル算出手段と、上記異なり単語取得手段が得た各異なり単語が含まれている文の文ベクトルの重心を求め、この求めた文ベクトルの重心を、単語ベクトルとして算出し、メモリに記憶する単語ベクトル算出手段と、上記単語ベクトル算出手段が得た単語ベクトルと、異なり単語とを単語間類似性判定用データベースに格納する単語ベクトル格納手段とを有することを特徴とする単語間類似性判定用データベース作成装置である。

また、本発明は、文書に含まれている単語間の類似性を判定するためのデータベースを作成する単語間類似性判定用データベース作成方法において、文書を文に分割し、メモリに記憶する文分割工程と、上記文分割工程で得た文書中の各文を単語に分割し、メモリに記憶する単語分割工程と、上記単語分割工程で得た文書中の各単語について、重複する単語を１つにまとめた異なり単語を取得し、メモリに記憶する異なり単語取得工程と、単語の意味を表現する概念ベクトルを格納している記憶装置である概念ベースを検索することによって、上記単語分割工程で得た単語に対応する概念ベクトルを取得し、各単語の概念ベクトルの重心を求め、この求めた概念ベクトルの重心を、文ベクトルとして算出し、メモリに記憶する文ベクトル算出工程と、上記異なり単語取得工程で得た各異なり単語が含まれている文の文ベクトルの重心を求め、この求めた文ベクトルの重心を、単語ベクトルとして算出し、メモリに記憶する単語ベクトル算出工程と、上記単語ベクトル算出工程で得た単語ベクトルと、異なり単語とを単語間類似性判定用データベースに格納する単語ベクトル格納工程とを有することを特徴とする単語間類似性判定用データベース作成方法である。

さらに、本発明は、文書に含まれている単語間の類似性を判定するためのデータベースを作成する単語間類似性判定用データベース作成プログラムにおいて、文書を文に分割し、メモリに記憶する文分割手順と、上記文分割手順で得た文書中の各文を単語に分割し、メモリに記憶する単語分割手順と、上記単語分割手順で得た文書中の各単語について、重複する単語を１つにまとめた異なり単語を取得し、メモリに記憶する異なり単語取得手順と、単語の意味を表現する概念ベクトルを格納している記憶装置である概念ベースを検索することによって、上記単語分割手順で得た単語に対応する概念ベクトルを取得し、各単語の概念ベクトルの重心を求め、この求めた概念ベクトルの重心を、文ベクトルとして算出し、メモリに記憶する文ベクトル算出手順と、上記異なり単語取得手順で得た各異なり単語が含まれている文の文ベクトルの重心を求め、この求めた文ベクトルの重心を、単語ベクトルとして算出し、メモリに記憶する単語ベクトル算出手順と、上記単語ベクトル算出手順で得た単語ベクトルと、異なり単語とを単語間類似性判定用データベースに格納する単語ベクトル格納手順とをコンピュータに実行させるプログラムである。

そして、本発明は、文書に含まれている単語間の類似性を判定するためのデータベースを作成する単語間類似性判定用データベース作成プログラムにおいて、文書を文に分割し、メモリに記憶する文分割手順と、上記文分割手順で得た文書中の各文を単語に分割し、メモリに記憶する単語分割手順と、上記単語分割手順で得た文書中の各単語について、重複する単語を１つにまとめた異なり単語を取得し、メモリに記憶する異なり単語取得手順と、単語の意味を表現する概念ベクトルを格納している記憶装置である概念ベースを検索することによって、上記単語分割手順で得た単語に対応する概念ベクトルを取得し、各単語の概念ベクトルの重心を求め、この求めた概念ベクトルの重心を、文ベクトルとして算出し、メモリに記憶する文ベクトル算出手順と、上記異なり単語取得手順で得た各異なり単語が含まれている文の文ベクトルの重心を求め、この求めた文ベクトルの重心を、単語ベクトルとして算出し、メモリに記憶する単語ベクトル算出手順と、上記単語ベクトル算出手順で得た単語ベクトルと、異なり単語とを単語間類似性判定用データベースに格納する単語ベクトル格納手順とをコンピュータに実行させるプログラムを記録したコンピュータ読取可能な記録媒体である。

本発明は、所定の文書中で、概念ベース中の単語と共起する全ての単語について、概念ベクトルに相当する単語ベクトルが付与されたデータベースを作成することができるので、従来の概念ベースを用いて単語間の類似性を判定する場合よりも、はるかに多くの単語について、単語間の類似性を判定することができるという効果を奏する。

発明を実施するための最良の形態は、次の実施例である。

図１は、本発明の実施例１である単語間類似性判定用データベース作成装置１００の構成をブロック示す図である。

単語間類似性判定用データベース作成装置１００は、文分割部１０と、単語分割部２０と、異なり単語取得部３０と、文ベクトル算出部４０と、単語ベクトル算出部５０と、単語ベクトル格納部６０と、概念ベース７０と、単語間類似性判定用データベース８０とを有する。

文分割部１０は、文書を文に分割し、メモリに記憶する。

単語分割部２０は、文分割部１０が得た文書中の各文を単語に分割し、メモリに記憶する。

異なり単語取得部３０は、単語分割部２０が得た文書中の各単語について、重複する単語を１つにまとめ、異なり単語を取得し、メモリに記憶する。

文ベクトル算出部４０は、文分割部１０が得た各文について、単語分割部２０が得た文中の各単語に対応する概念ベクトルを概念ベース７０から検索し、各単語の概念ベクトルの重心を求め、この求めた概念ベクトルの重心を、文ベクトルとしてみなし、メモリに記憶する。

単語ベクトル算出部５０は、異なり単語取得部３０が得た各異なり単語が含まれている文の文ベクトルの重心を求め、この求めた文ベクトルの重心を、単語ベクトルとしてみなす。

単語ベクトル格納部６０は、単語ベクトル算出部５０が得た単語ベクトルを、異なり単語とともに単語間類似性判定用データベース８０に格納する。

次に、実施例１の動作について説明する。

図２は、単語間類似性判定用データベース作成装置１００の全体の動作を示すフローチャートである。

まず、文分割部１０が、文書を文に分割し、メモリに記憶する（Ｓ１）。

文分割部１０が得た文書中の各文を、単語分割部２０が単語に分割し、メモリに記憶する（Ｓ２）。

単語分割部２０が得た文書中の各単語について、重複する単語を１つにまとめることによって、異なり単語取得部３０が異なり単語を取得し、メモリに記憶する（Ｓ３）。

文分割部１０が得た各文について、単語分割部２０が得た文中の各単語に対応する概念ベクトルを概念ベース７０から検索し、文ベクトル算出部４０が、各単語の概念ベクトルの重心を求めるこの求めた概念ベクトルの重心を、文ベクトルとしてみなし、メモリに記憶する（Ｓ４）。

異なり単語取得部３０が得た各異なり単語について、単語ベクトル算出部５０が、異なり単語が含まれる文の文ベクトルの重心を求め、この求めた文ベクトルの重心を、単語ベクトルとみなす（Ｓ５）。

最後に、単語ベクトル格納部６０が、単語ベクトル算出部５０が得た単語ベクトルを異なり単語とともに単語間類似性判定用データベース８０に格納する（Ｓ６）。

次に、実施例１の動作をより具体的に説明する。

図３は、実施例１において、単語間類似性判定用データベース作成装置１００において、単語間類似性判定用データベース８０を作成する文書の一例である文書Ｄ１を示す図である。

Ｓ１では、文分割部１０が、文書Ｄ１を文に分割し、メモリに記憶する。ここで、「文」は、句点で終わる文字列である。

図４は、図３に示す文書Ｄ１を文に分割した結果の一例を示す図である。

Ｓ２では、単語分割部２０が、図４に示す文書Ｄ１中の各文を単語に分割し、メモリに記憶する。

図５は、図４に示す各文を単語に分割した結果の一例を示す図である。

Ｓ３では、図５に示す各単語について、異なり単語取得部３０が、重複する単語を１つにまとめることによって、異なり単語を取得し、メモリに記憶する。つまり、たとえば、文番号３２４４８８の文と、文番号９００２９６の文とには、ともに、単語「気象庁」が出ているが、重複する単語を１つにまとめる。

図６は、図５に示す各単語に基づいて、異なり単語を取得した結果を示す図である。

ここでは、助詞のような機能語や「ところ」のような形式名詞等は、単語間の類似性を判定することに意味がないので、取り除いている。

上記のように、文書Ｄ１に出現した単語の一部のみの範囲について異なり単語を求めるようにしてもよく、また、全ての単語について異なり単語を求めるようにしてもよい。また、ここでは、単語の表記が同じであるが、品詞や読みが異なる例（たとえば、表記が「熱」、品詞が「名詞」、読みが「ねつ」という単語と、表記が「熱」、品詞が「形容詞語幹」、読みが「あつ」という単語）が存在しないが、このような例が存在した場合は、同一の単語としてまとめてもよく、異なる単語として扱ってもよい。

Ｓ４では、図４に示す各文について、文中の各単語に対応する概念ベクトルを、概念ベース７０から検索し、これら検索した概念ベクトルの重心を求め、この求めた概念ベクトルの重心を、文ベクトルとみなす。

図７は、概念ベース７０における単語の概念ベクトルの例を示す図である。

なお、図７中の概念ベクトルの下に記載されている１、２、３、……、１００は、ベクトルの何番目の成分であるかを表す。

ここでは、概念ベース７０としてコーパス概念ベースを使用しているが、概念ベース７０として、辞書概念ベースを使用するようにしてもよい。通常、コーパス概念ベースは、機能語や形式名詞等を除いて作成されている。また、特異値分解を行う際に、大量のメモリを必要とし、全ての単語を用いて、特異値分解をすることは困難であるので、低頻度で出現する単語を除いて、コーパス概念ベースを作成する。ここでは、図５に示す各文を分解した単語のうちで、図７に示していない単語（概念ベース７０に含まれていない単語であり、「寒冷前線」等の単語）について、従来は、上記理由によって、概念ベース７０には存在しない。また、概念ベクトルの次元数は、１００次元であるとする。

図４に示す文番号３２４４８８の文「気象庁は、日本海の寒冷前線に吹き込む南風が強風の原因であると説明している。」に着目すると、文中の単語のうちで、図７の概念ベース７０に存在している単語は、「気象庁」、「日本海」、「南風」、「強風」、「原因」、「説明」の６個の単語であるので、これら６個の単語の概念ベクトルの重心を、上記文（文番号３２４４８８の文）の文ベクトルとする。

なお、「単語の概念ベクトルの重心」は、所定の文に含まれている複数の単語のそれぞれの単語の概念ベクトルの和を、上記所定の文に含まれている単語の数で割ったものである。つまり、上記文番号３２４４８８の文「気象庁は、日本海の寒冷前線に吹き込む南風が強風の原因であると説明している。」における「単語の概念ベクトルの重心」は、６個の単語の概念ベクトルの和を計算し、この計算された和を６で割ることによって、文番号３２４４８８の文の文ベクトルを求めることができる。第１成分を例にとると、｛（−０．０５）＋（−０．０７）＋（−０．０２）＋（−０．０６）＋（−０．１５）＋（−０．２３）｝／６＝０．０９６…≒０．１０である。

図８は、図４に示す各文に基づいて算出した文ベクトルの例を示す図である。

図８に示す例では、文中に同じ単語がｎ回（ｎ≧２）出現する例が存在しないが、このような例が存在した場合、単語の概念ベクトルの和を計算する際に、その単語の概念ベクトルをｎ回足し合わせ、その単語の数をｎ個として重心を計算するようにしてもよく、また、和を計算する際に、その単語の概念ベクトルを１回だけ足し合わせ、その単語の数を１個として重心を計算するようにしてもよい。

図２に示すＳ５では、単語ベクトル算出部５０が、図６に示す各異なり単語が含まれている文の文ベクトルの重心を求め、この求めた文ベクトルを、各異なり単語の単語ベクトルとみなす。

上記「寒冷前線」という異なり単語に着目して説明し、図４に示す文以外の文には、単語「寒冷前線」が出現しないものとする。図４に示すように、単語「寒冷前線」が含まれる文は、文番号３２４４８８、９００２９６、１２０４６５０の３個の文であるので、これらの文の文ベクトルの重心を、単語ベクトルとする。つまり、この例では、３個の文の文ベクトルの和を計算し、それを文数である３で割ることによって、単語「寒冷前線」が含まれる文の文ベクトルを求めることができる。第１成分を例にとると、｛（−０．１０）＋（−０．０４）＋（−０．０７）｝／３＝０．２１／３＝０．０７である。

図９は、図６の異なり単語について、単語ベクトルを算出した結果の一例を示す図である。

ところで、概念ベクトルは、共起語と共起する頻度とに応じて、所定の方法によって算出されるものを指す。一方、上記実施例における単語ベクトルは、概念ベクトルに基づいて、上記手順によって算出されたものであり、もはや概念ベクトルと呼ぶことはできない（この意味で、「単語の概念ベクトル」とは呼ばずに「単語ベクトル」と呼ぶ）。単語ベクトルは、単語自体だけでなく、その単語を含む文の中にある別の単語の概念ベクトルも利用して計算されるので、元の単語ベクトルとは異なる数値となるが、概念ベクトルと同様に、単語間の類似度を判定するのに役立つ。

図９に示す例では、対象とする異なり単語を含む文中に、その単語がｎ回（ｎ≧２）出現する例が存在しないが、このような例が存在した場合、ベクトルの和を計算する際に、その文の文ベクトルをｎ回足し合わせ、その文の数をｎ個として重心を計算するようにしてもよく、また、和を計算する際に、その文の文ベクトルを１回だけ足し合わせ、その文の文数を１個として重心を計算するようにしてもよい。

図９に示す例から、「寒冷前線」や「吹き込」のように、従来例では、概念ベクトルを付与することができなかった単語についても、実施例１では、単語ベクトルを付与することができる。また、それらの単語ベクトルは、他の天気に関連する単語の単語ベクトルと距離が近く、単語間の類似性を正しく表していることがわかる。

図２に示すＳ６では、単語ベクトル格納部６０が、図９に示す異なり単語と単語ベクトルとの組を単語間類似性判定用データベース８０に格納する。

なお、実施例１における上記一連の動作をプログラムとして構築し、単語間類似性判定用データベース作成装置として利用されるコンピュータにインストールし、ＣＰＵ等の制御手段によって実行させるようにしてもよく、また、ネットワークを介して、上記プログラムを流通させることも可能である。

つまり、上記実施例は、文書に含まれている単語間の類似性を判定するためのデータベースを作成する単語間類似性判定用データベース作成プログラムにおいて、文書を文に分割し、メモリに記憶する文分割手順と、上記文分割手順で得た文書中の各文を単語に分割し、メモリに記憶する単語分割手順と、上記単語分割手順で得た文書中の各単語について、重複する単語を１つにまとめた異なり単語を取得し、メモリに記憶する異なり単語取得手順と、単語の意味を表現する概念ベクトルを格納している記憶装置である概念ベースを検索することによって、上記単語分割手順で得た単語に対応する概念ベクトルを取得し、各単語の概念ベクトルの重心を求め、この求めた概念ベクトルの重心を、文ベクトルとして算出し、メモリに記憶する文ベクトル算出手順と、上記異なり単語取得手順で得た各異なり単語が含まれている文の文ベクトルの重心を求め、この求めた文ベクトルの重心を、単語ベクトルとして算出し、メモリに記憶する単語ベクトル算出手順と、上記単語ベクトル算出手順で得た単語ベクトルと、異なり単語とを単語間類似性判定用データベースに格納する単語ベクトル格納手順とをコンピュータに実行させるプログラムの例である。

また、構築されたプログラムを、単語間類似性判定用データベース作成装置として利用されるコンピュータに接続されるハードディスク装置や、フレキシブルディスク、ＣＤ−ＲＯＭ等の可搬記憶媒体に格納し、コンピュータにインストールして実行させるようにしてもよい。

上記実施例は、類義語検索、関連文書検索、トピックセグメンテーション等に適用可能である。

本発明の実施例１である単語間類似性判定用データベース作成装置１００の構成をブロック示す図である。単語間類似性判定用データベース作成装置１００の全体の動作を示すフローチャートである。実施例１において、単語間類似性判定用データベース作成装置１００において、単語間類似性判定用データベース８０を作成する文書の一例である文書Ｄ１を示す図である。図３に示す文書Ｄ１を文に分割した結果の一例を示す図である。図４に示す各文を単語に分割した結果の一例を示す図である。図５に示す各単語に基づいて、異なり単語を取得した結果を示す図である。概念ベース７０における単語の概念ベクトルの例を示す図である。図４に示す各文に基づいて算出した文ベクトルの例を示す図である。図６の異なり単語について、単語ベクトルを算出した結果の一例を示す図である。

符号の説明

１００…単語間類似性判定用デーベース作成装置、
１０…文分割部、
２０…単語分割部、
３０…異なり単語取得部、
４０…文ベクトル算出部、
５０…単語ベクトル算出部、
６０…単語ベクトル格納部、
７０…概念ベース、
８０…単語間類似性判定用データベース。

Claims

文書に含まれている単語間の類似性を判定するためのデータベースを作成する単語間類似性判定用データベース作成装置において、
文書を文に分割し、メモリに記憶する文分割手段と；
上記文分割手段が得た文書中の各文を単語に分割し、メモリに記憶する単語分割手段と；
上記単語分割手段が得た文書中の各単語について、重複する単語を１つにまとめた異なり単語を取得し、メモリに記憶する異なり単語取得手段と；
単語の意味を表現する概念ベクトルを格納している記憶装置である概念ベースを検索することによって、上記単語分割手段が得た単語に対応する概念ベクトルを取得し、各単語の概念ベクトルの重心を求め、この求めた概念ベクトルの重心を、文ベクトルとして算出し、メモリに記憶する文ベクトル算出手段と；
上記異なり単語取得手段が得た各異なり単語が含まれている文の文ベクトルの重心を求め、この求めた文ベクトルの重心を、単語ベクトルとして算出し、メモリに記憶する単語ベクトル算出手段と；
上記単語ベクトル算出手段が得た単語ベクトルと、異なり単語とを単語間類似性判定用データベースに格納する単語ベクトル格納手段と；
を有することを特徴とする単語間類似性判定用データベース作成装置。
文書に含まれている単語間の類似性を判定するためのデータベースを作成する単語間類似性判定用データベース作成方法において、
文書を文に分割し、メモリに記憶する文分割工程と；
上記文分割工程で得た文書中の各文を単語に分割し、メモリに記憶する単語分割工程と；
上記単語分割工程で得た文書中の各単語について、重複する単語を１つにまとめた異なり単語を取得し、メモリに記憶する異なり単語取得工程と；
単語の意味を表現する概念ベクトルを格納している記憶装置である概念ベースを検索することによって、上記単語分割工程で得た単語に対応する概念ベクトルを取得し、各単語の概念ベクトルの重心を求め、この求めた概念ベクトルの重心を、文ベクトルとして算出し、メモリに記憶する文ベクトル算出工程と；
上記異なり単語取得工程で得た各異なり単語が含まれている文の文ベクトルの重心を求め、この求めた文ベクトルの重心を、単語ベクトルとして算出し、メモリに記憶する単語ベクトル算出工程と；
上記単語ベクトル算出工程で得た単語ベクトルと、異なり単語とを単語間類似性判定用データベースに格納する単語ベクトル格納工程と；
を有することを特徴とする単語間類似性判定用データベース作成方法。
文書に含まれている単語間の類似性を判定するためのデータベースを作成する単語間類似性判定用データベース作成プログラムにおいて、
文書を文に分割し、メモリに記憶する文分割手順と；
上記文分割手順で得た文書中の各文を単語に分割し、メモリに記憶する単語分割手順と；
上記単語分割手順で得た文書中の各単語について、重複する単語を１つにまとめた異なり単語を取得し、メモリに記憶する異なり単語取得手順と；
単語の意味を表現する概念ベクトルを格納している記憶装置である概念ベースを検索することによって、上記単語分割手順で得た単語に対応する概念ベクトルを取得し、各単語の概念ベクトルの重心を求め、この求めた概念ベクトルの重心を、文ベクトルとして算出し、メモリに記憶する文ベクトル算出手順と；
上記異なり単語取得手順で得た各異なり単語が含まれている文の文ベクトルの重心を求め、この求めた文ベクトルの重心を、単語ベクトルとして算出し、メモリに記憶する単語ベクトル算出手順と；
上記単語ベクトル算出手順で得た単語ベクトルと、異なり単語とを単語間類似性判定用データベースに格納する単語ベクトル格納手順と；
をコンピュータに実行させるプログラム。
文書に含まれている単語間の類似性を判定するためのデータベースを作成する単語間類似性判定用データベース作成プログラムにおいて、
文書を文に分割し、メモリに記憶する文分割手順と；
上記文分割手順で得た文書中の各文を単語に分割し、メモリに記憶する単語分割手順と；
上記単語分割手順で得た文書中の各単語について、重複する単語を１つにまとめた異なり単語を取得し、メモリに記憶する異なり単語取得手順と；
単語の意味を表現する概念ベクトルを格納している記憶装置である概念ベースを検索することによって、上記単語分割手順で得た単語に対応する概念ベクトルを取得し、各単語の概念ベクトルの重心を求め、この求めた概念ベクトルの重心を、文ベクトルとして算出し、メモリに記憶する文ベクトル算出手順と；
上記異なり単語取得手順で得た各異なり単語が含まれている文の文ベクトルの重心を求め、この求めた文ベクトルの重心を、単語ベクトルとして算出し、メモリに記憶する単語ベクトル算出手順と；
上記単語ベクトル算出手順で得た単語ベクトルと、異なり単語とを単語間類似性判定用データベースに格納する単語ベクトル格納手順と；
をコンピュータに実行させるプログラムを記録したコンピュータ読取可能な記録媒体。