JP2009277099A - 類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 - Google Patents

類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 Download PDF

Info

Publication number
JP2009277099A
JP2009277099A JP2008128856A JP2008128856A JP2009277099A JP 2009277099 A JP2009277099 A JP 2009277099A JP 2008128856 A JP2008128856 A JP 2008128856A JP 2008128856 A JP2008128856 A JP 2008128856A JP 2009277099 A JP2009277099 A JP 2009277099A
Authority
JP
Japan
Prior art keywords
word
concept vector
sentence
concept
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008128856A
Other languages
English (en)
Inventor
Masashi Uchiyama
匡 内山
Toshiro Uchiyama
俊郎 内山
Katsuto Bessho
克人 別所
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008128856A priority Critical patent/JP2009277099A/ja
Publication of JP2009277099A publication Critical patent/JP2009277099A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文書間の類似性をより適切に判定する。
【解決手段】本発明は、入力された文書を文に分割し、各文を単語に分割し、単語概念ベクトルを格納している記憶手段である単語概念ベースを検索して、該単語分割ステップで得られた単語に対応する単語概念ベクトルを取得する。一方、単語概念ベースに対応する単語概念ベクトルが存在しない場合は、単語概念ベクトル生成手段が、乱数を要素とする新たな単語概念ベクトルを生成し、単語概念ベースに格納する。取得した言語概念ベクトルの重心を求め、該単語概念ベクトルの重心を、文概念ベクトルとして算出し、で取得した文概念ベクトルの重心を求め、該文概念ベクトルの重心を、文書概念ベクトルとして算出し、算出され、メモリに格納された文書概念ベクトルと、予めメモリに格納されている文書概念ベクトルとの距離を計算する。
【選択図】図1

Description

本発明は、類似文書検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体に係り、特に、新聞記事やWeb等の文書を対象として、文書間の類似性を判定するための類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体に関する。
単語間の類似性を判定し、類義語を検索し、また、関連文書を検索するためのデータベースの1つとして、概念ベースが用いられている。
この「概念ベース」は、単語とその単語に対応する概念ベクトルとの組からなるデータベースである。概念ベースとして、国語辞典の語義文から作成される辞書概念ベース(例えば、特許文献1参照)と、新聞記事等の文書を大量に集めたコーパスから作成されるコーパス概念ベース(例えば、非特許文献1参照)等が知られている。
また、所定の単語の「概念ベクトル」は、上記所定の単語が属する範囲(例えば、文)内で、予め決められた複数の共起語のそれぞれと共起する頻度に応じて算出される。辞書概念ベースにおける共起語として、単語を辞書引きして得られる語義文中に出現する単語が用いられ、コーパス概念ベースにおける共起語として、コーパス中に高頻度で出現する単語が用いられる。各単語を、行とし、共起語を、列とし、単語と共起語との共起頻度を、行列の成分とする共起行列を作成する。
辞書概念ベースの場合、上記共起行列における行ベクトルが、単語の概念ベクトルであり、通常は、語義文中に含まれる単語について、孫引きすることによって得られる語義文等を用いて、概念ベクトルの精錬が行われる。
コーパス概念ベースにおいて、特異値分解によって、共起行列の列の次元を圧縮した行列を作成し、この圧縮した行列の各行の行ベクトルが概念ベクトルである。このようにして作成された概念ベースは、単語間の類似性が高い程、単語の概念ベクトル間の距離が近いという性質を持つので、単語間の類似性を判定する場合に有効である。つまり、2つの単語間の概念ベクトルの距離が近い程、上記2つの単語間の類似性が高いと判断できる。
特許第3379603号公報 H. Schutze, "dimensions of meaning", Proceedings of supercomputing '92, pp.787-796, 1992
しかしながら、上記従来の方法によって作成された概念ベースでは、概念ベースを作成するために用いた文書に含まれている単語にのみ、概念ベクトルが付与される。特に、コーパス概念ベースを作成する際に、特異値分解を行うが、特異値分解を行うためには大量のメモリを必要とするので、共起行列の行である単語の数を削減しなければならず、この結果、コーパス中の特定の単語にのみ、概念ベクトルが付与される。
従って、概念ベースを用いて単語間の類似性を判定する場合、類似性を判定しようとする単語が概念ベースに含まれていないと、その単語に対応する概念ベクトルが存在せず、単語間の類似性を判定することができないという問題がある。
本発明は、上記の点に鑑みなされたもので、文書間の類似性をより適切に判定することが可能な類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体を提供することを目的とする。
図1は、本発明の原理構成図である。
本発明(請求項1)は、文書間の類似性を判定する類似文書検索装置であって、
入力された文書を文に分割し、メモリに記憶する文分割手段102と、
文分割手段102によって得られた各文を単語に分割し、メモリに記憶する単語分割手段103と、
単語概念ベクトルを格納している記憶手段である単語概念ベース105を検索して、該単語分割手段103で得られた単語に対応する単語概念ベクトルを取得する単語概念ベクトル取得手段104と、
単語概念ベクトル取得手段104において、単語概念ベース105に対応する単語概念ベクトルが存在しない場合は、乱数を要素とする新たな単語概念ベクトルを生成し、単語概念ベース105に格納する単語概念ベクトル生成手段106と、
単語概念ベクトル取得手段104が取得した言語概念ベクトルの重心を求め、該単語概念ベクトルの重心を、文概念ベクトルとして算出し、メモリに記憶する文概念ベクトル算出手段107と、
文概念ベクトル算出手段107により取得した文概念ベクトルの重心を求め、該文概念ベクトルの重心を、文書概念ベクトルとして算出し、メモリに格納する文書概念ベクトル算出手段108と、
算出され、メモリに格納された文書概念ベクトルと、予めメモリに格納されている文書概念ベクトルとの距離を計算する類似性算出手段110と、を有する。
図2は、本発明の原理を説明するための図である。
本発明(請求項2)は、文書間の類似性を判定する類似文書検索方法であって、
文分割手段が、入力された文書を文に分割し、メモリに記憶する文分割ステップ(ステップ1)と、
単語分割手段が、文分割ステップ(ステップ1)によって得られた各文を単語に分割し、メモリに記憶する単語分割ステップ(ステップ2)と、
単語概念ベクトル取得手段が、単語概念ベクトルを格納している記憶手段である単語概念ベースを検索して、該単語分割ステップ(ステップ2)で得られた単語に対応する単語概念ベクトルを取得する単語概念ベクトル取得ステップ(ステップ3)と、
単語概念ベクトル取得ステップ(ステップ3)において、単語概念ベースに対応する単語概念ベクトルが存在しない場合は(ステップ4、No)、単語概念ベクトル生成手段が、乱数を要素とする新たな単語概念ベクトルを生成し、単語概念ベースに格納する単語概念ベクトル生成ステップ(ステップ5)と、
文概念ベクトル算出手段が、単語概念ベクトル取得ステップ(ステップ3)で取得した言語概念ベクトルの重心を求め、該単語概念ベクトルの重心を、文概念ベクトルとして算出し、メモリに記憶する文概念ベクトル算出ステップ(ステップ6)と、
文書概念ベクトル算出手段が、文概念ベクトル算出ステップで取得した文概念ベクトルの重心を求め、該文概念ベクトルの重心を、文書概念ベクトルとして算出し、メモリに格納する文書概念ベクトル算出ステップ(ステップ7)と、
類似性算出手段が、算出されメモリに格納された文書概念ベクトルと、予めメモリに格納されている文書概念ベクトルとの距離を計算する類似性算出ステップ(ステップ8)と、を行う。
本発明(請求項3)は、請求項1記載の類似文書検索装置を構成する各手段としてコンピュータを機能させるための類似文書検索プログラムである。
本発明(請求項4)は、請求項3記載の類似文書検索プログラムを格納したコンピュータ読み取り可能な記録媒体である。
上記のように本発明によれば、ある単語に対応する単語概念ベクトルが未定義である場合、乱数を要素とするベクトルをこの単語に対応する単語概念ベクトルとして新たに定義し、単語概念ベースに格納する。これによって、あらゆる未知語に対して単語概念ベクトルが定義されることとなり、文書間の類似性をより適切に判定することができるようになる。特に、新語が頻出するニュース記事や、Web文書を対象とした類似性判定に有効である。
以下、図面と共に本発明の実施の形態を説明する。
図3は、本発明の一実施の形態における類似文書検索装置の構成を示す。
同図に示す装置は、文書入力部101、文分割部102、単語分割部103、単語概念ベクトル取得部104、単語概念ベース105、単語概念ベクトル生成部106、文概念ベクトル算出部107、文書概念ベクトル算出部108、文書概念ベース109、類似性算出部110、類似性出力部111から構成される。なお、この他、上記の各構成要素で得られた中間処理の結果は、各構成要素内または、独立で設けられるメモリ等の記憶手段に格納されるものとする。
上記の構成のうち、単語概念ベース105、文書概念ベース109は、ハードディスクドライブ等の記憶媒体に格納されている。
文書入力部101は、キーボードやハードディスクドライブ等からかなり、処理対象となる文書を入力し、メモリ(図示せず)に格納する。
文書分割部102は、入力された文書を分割し、メモリ(図示せず)に格納する。文書は、複数の句点「。」や、文末に使用される記号「?」「.」などを含むとき、この直後で分割される。
単語分割部103は、形態素解析器であり、文を単語に分割し、メモリ(図示せず)に格納する。形態素解析器から同時に出力される各単語の品詞情報を参照して、内容語以外の単語は、ここで取り除かれる。
単語概念ベクトル取得部104は、単語分割部103で分割された単語を単語概念ベース105に蓄積されている単語概念ベクトルに変換し、メモリ(図示せず)に格納する。分割された単語が単語概念ベース105に存在しない場合は、単語概念ベクトル生成部106において、後述する方法により、新たに単語概念ベクトルが生成する。このようにして、全ての内容語に対して単語概念ベクトルを得ることができる。
文概念ベクトル算出部107は、文を構成する全ての内容語の単語概念ベクトルの重心として文概念ベクトルを算出し、メモリ(図示せず)に格納する。
文書概念ベクトル算出部108は、文書を構成する全ての文概念ベクトルの重心として文書概念ベクトルを算出し、メモリ(図示せず)、または、必要に応じて文書概念ベース109に蓄積する。
類似性算出部110は、入力された文書から算出された文書概念ベクトルと、文書概念ベース109に蓄積されている、類似性判定の対象となる文書概念ベクトルとの距離を算出し、これらの文書類似性判定を行い、判定結果はディスプレイやハードディスクドライブ等からなる類似性出力部110に出力する。
次に、上記の構成における動作を説明する。
最初に文書概念ベース109を生成する処理について説明する。
図4は、本発明の一実施の形態における文書概念ベース作成処理のフローチャートである。
まず、キーボードからの入力、または、ハードディスクドライブから文書入力部101により、文書が入力されると、(ステップ201)、当該文書は、文分割部102により文に分割され(ステップ202)、単語分割部103により当該文を単語に分割される(ステップ203)。次に、単語概念ベクトル取得部104により、分割された単語に基づいて、単語概念ベースを検索し、当該単語に対応する単語概念ベクトルを取得する(ステップ204)。単語概念ベクトルが未定義である場合には(ステップ205、NG)、後述する方法により単語概念ベクトルを生成し(ステップ206)、単語概念ベース105に蓄積する(ステップ207)。
単語概念ベクトルを取得できた場合は(ステップ205、OK)、文概念ベクトル算出部107において、文を構成する単語の単語概念ベクトルの重心として文概念ベクトルを算出し(ステップ208)、更に、文書概念ベクトル算出部108において、文書を構成する文の概念ベクトルの重心として文書概念ベクトルを算出し(ステップ209)、算出された文書概念ベクトルを文書概念ベース109に蓄積する(ステップ210)。
次に、文書間の類似性を判定する処理について説明する。
図5は、本発明の一実施の形態における文書間類似性判定処理のフローチャートである。
ステップ301〜ステップ309は、図4のステップ201〜209と同様である。
類似性判定部110は、文書概念ベースから判定対象となる文書概念ベクトルを取得し(ステップ310)、入力され、ステップ309で算出された文書概念ベクトルとの距離を算出し(ステップ311)、距離の昇順にソートし、類似性出力部111からソートされた文書を出力する(ステップ312)。
以下に、本発明の特徴である単語概念ベクトル生成部106における、単語概念ベクトルの生成について2つの例に従って、詳細に説明する。
以下では、単語概念ベース105の仕様によって、単語概念ベクトルの表現の制約が定められており、その制約を満たすように単語概念ベクトルを生成する例を説明する。
[例1]
本例では、ベクトルの次元数をNとし、各要素は0あるいは1の二値と決められているものとし、総和nがn<Nという制約があるとき、この制約を満たす単語概念ベクトルを生成するものである。
単語概念ベクトルw=(w,…,wN)の次元Nと、Lノルムnは予め設定されており、また、各要素wは0または1の値をとるものとする。すなわち、
Figure 2009277099
である。単語概念ベクトルは、例えば、次で述べる方法に従ってランダムに生成される。まず、乱数を各要素とするN次元ベクトルr=(r,…,r)を生成する。各要素の絶対値が大きいものからn要素については値を1、それ以外の要素については0とする。
[例2]
本例では、ベクトルの次元数はNで、各要素は0あるいは1の二値と決められているものとし、総和nに制約がない、つまり、n=0〜Nという制約があるとき、この制約を満たす単語概念ベクトルを生成するものである。
単語概念ベクトルw=(w,…,w)の次元Nは予め設定されており、また、各要素wは0または1の値をとるものとする。単語からハッシュ関数を用いてNビットのハッシュ値を生成する。ハッシュ値の二進表現に応じてwの各要素の値を決定する。例えば、N=128とすれば、ハッシュ関数として汎用的なMD5を用いることができる。この手法は、単語文字列から単語概念ベクトルを一意に決定できるから、各単語の単語概念ベクトルを予め計算して単語概念ベース105に蓄積しておく必要がない。すなわち、単語概念ベース105が不要となるという長所がある。
なお、上記の図3に示す装置の構成要素の動作をプログラムとして構築し、類似文書検索装置として利用されるコンピュータにインストールする、または、ネットワークを介して流通させることが可能である。
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、新聞記事やWeb等の文書間の類似性を判定する技術に適用可能である。
本発明の原理構成図である。 本発明の原理を説明するための図である。 本発明の一実施の形態における類似文書検索装置の構成図である。 本発明の一実施の形態における文書概念ベース作成処理のフローチャートである。 本発明の一実施の形態における文書間類似性判定処理のフローチャートである。
符号の説明
101 文書入力部
102 文書分割手段、文書分割部
103 単語分割手段、単語分割部
104 単語概念ベクトル取得手段、単語概念ベクトル取得部
105 単語概念ベース
106 単語概念ベクトル生成手段、単語概念ベクトル生成部
107 文概念ベクトル算出手段、文概念ベクトル算出部
108 文書概念ベクトル算出手段、文書概念ベクトル算出部
109 文書概念ベース
110 類似性算出手段、類似性算出部

Claims (4)

  1. 文書間の類似性を判定する類似文書検索装置であって、
    入力された文書を文に分割し、メモリに記憶する文分割手段と、
    前記文分割手段によって得られた各文を単語に分割し、メモリに記憶する単語分割手段と、
    単語概念ベクトルを格納している記憶手段である単語概念ベースを検索して、該単語分割手段で得られた前記単語に対応する単語概念ベクトルを取得する単語概念ベクトル取得手段と、
    前記単語概念ベクトル取得手段において、前記単語概念ベースに対応する単語概念ベクトルが存在しない場合は、乱数を要素とする新たな単語概念ベクトルを生成し、前記単語概念ベースに格納する単語概念ベクトル生成手段と、
    前記単語概念ベクトル取得手段が取得した前記言語概念ベクトルの重心を求め、該単語概念ベクトルの重心を、文概念ベクトルとして算出し、メモリに記憶する文概念ベクトル算出手段と、
    前記文概念ベクトル算出手段により取得した前記文概念ベクトルの重心を求め、該文概念ベクトルの重心を、文書概念ベクトルとして算出し、メモリに格納する文書概念ベクトル算出手段と、
    算出され、前記メモリに格納された前記文書概念ベクトルと、予めメモリに格納されている文書概念ベクトルとの距離を計算する類似性算出手段と、
    を有することを特徴とする類似文書検索装置。
  2. 文書間の類似性を判定する類似文書検索方法であって、
    文分割手段が、入力された文書を文に分割し、メモリに記憶する文分割ステップと、
    単語分割手段が、前記文分割ステップによって得られた各文を単語に分割し、メモリに記憶する単語分割ステップと、
    単語概念ベクトル取得手段が、単語概念ベクトルを格納している記憶手段である単語概念ベースを検索して、該単語分割ステップで得られた前記単語に対応する単語概念ベクトルを取得する単語概念ベクトル取得ステップと、
    前記単語概念ベクトル取得ステップにおいて、前記単語概念ベースに対応する単語概念ベクトルが存在しない場合は、単語概念ベクトル生成手段が、乱数を要素とする新たな単語概念ベクトルを生成し、前記単語概念ベースに格納する単語概念ベクトル生成ステップと、
    文概念ベクトル算出手段が、前記単語概念ベクトル取得ステップで取得した前記言語概念ベクトルの重心を求め、該単語概念ベクトルの重心を、文概念ベクトルとして算出し、メモリに記憶する文概念ベクトル算出ステップと、
    文書概念ベクトル算出手段が、前記文概念ベクトル算出ステップで取得した前記文概念ベクトルの重心を求め、該文概念ベクトルの重心を、文書概念ベクトルとして算出し、メモリに格納する文書概念ベクトル算出ステップと、
    類似性算出手段が、算出され、前記メモリに格納された前記文書概念ベクトルと、予めメモリに格納されている文書概念ベクトルとの距離を計算する類似性算出ステップと、
    を行うことを特徴とする類似文書検索方法。
  3. 請求項1記載の類似文書検索装置を構成する各手段としてコンピュータを機能させるための類似文書検索プログラム。
  4. 請求項3記載の類似文書検索プログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体。
JP2008128856A 2008-05-15 2008-05-15 類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 Pending JP2009277099A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008128856A JP2009277099A (ja) 2008-05-15 2008-05-15 類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008128856A JP2009277099A (ja) 2008-05-15 2008-05-15 類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体

Publications (1)

Publication Number Publication Date
JP2009277099A true JP2009277099A (ja) 2009-11-26

Family

ID=41442453

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008128856A Pending JP2009277099A (ja) 2008-05-15 2008-05-15 類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体

Country Status (1)

Country Link
JP (1) JP2009277099A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011159098A (ja) * 2010-02-01 2011-08-18 Nippon Telegr & Teleph Corp <Ntt> 類似度計算装置、類似度計算方法および類似度計算プログラム
JP2012194690A (ja) * 2011-03-15 2012-10-11 Ntt Comware Corp 特徴量算出装置、文書類似度算出装置、特徴量算出方法およびプログラム
JP2016085685A (ja) * 2014-10-28 2016-05-19 日本電信電話株式会社 次発話候補スコアリング装置、方法、及びプログラム
JP6337183B1 (ja) * 2017-06-22 2018-06-06 株式会社ドワンゴ テキスト抽出装置、コメント投稿装置、コメント投稿支援装置、再生端末および文脈ベクトル計算装置
CN113379032A (zh) * 2021-06-08 2021-09-10 全球能源互联网研究院有限公司 基于分层双向lstm序列模型训练方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011159098A (ja) * 2010-02-01 2011-08-18 Nippon Telegr & Teleph Corp <Ntt> 類似度計算装置、類似度計算方法および類似度計算プログラム
JP2012194690A (ja) * 2011-03-15 2012-10-11 Ntt Comware Corp 特徴量算出装置、文書類似度算出装置、特徴量算出方法およびプログラム
JP2016085685A (ja) * 2014-10-28 2016-05-19 日本電信電話株式会社 次発話候補スコアリング装置、方法、及びプログラム
JP6337183B1 (ja) * 2017-06-22 2018-06-06 株式会社ドワンゴ テキスト抽出装置、コメント投稿装置、コメント投稿支援装置、再生端末および文脈ベクトル計算装置
JP2019008440A (ja) * 2017-06-22 2019-01-17 株式会社ドワンゴ テキスト抽出装置、コメント投稿装置、コメント投稿支援装置、再生端末および文脈ベクトル計算装置
CN113379032A (zh) * 2021-06-08 2021-09-10 全球能源互联网研究院有限公司 基于分层双向lstm序列模型训练方法及系统

Similar Documents

Publication Publication Date Title
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
Aggarwal et al. Wikipedia-based distributional semantics for entity relatedness
JP2019082931A (ja) 検索装置、類似度算出方法、およびプログラム
JP2009129323A (ja) 同義語抽出装置
JP2009277099A (ja) 類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
JP2006338342A (ja) 単語ベクトル生成装置、単語ベクトル生成方法およびプログラム
JP6736224B2 (ja) 文章解析装置及び文章解析プログラム
Soori et al. Text similarity based on data compression in Arabic
JP2005149014A (ja) 文書関連語彙獲得方法及び装置及びプログラム
KR101663038B1 (ko) 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP2007164635A (ja) 同義語彙獲得方法及び装置及びプログラム
JP4439496B2 (ja) 検索処理装置及びプログラム
JP2012185654A (ja) 翻訳装置、翻訳プログラムおよび翻訳方法
KR20200073524A (ko) 특허 문서의 키프레이즈 추출 장치 및 방법
JP2010128598A (ja) 文書検索装置及び方法及びプログラム及びプログラムを記録した記録媒体
JP2010272006A (ja) 関係抽出装置、関係抽出方法、及びプログラム
JP4567025B2 (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
JP4745417B2 (ja) 情報検索装置およびプログラム
JP2008197952A (ja) テキストセグメンテーション方法,その装置,そのプログラムおよびコンピュータ読み取り可能な記録媒体
Lee et al. Syllable-based Malay word stemmer
JP4148247B2 (ja) 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP4314271B2 (ja) 単語間関連度算出装置、単語間関連度算出方法及び単語間関連度算出プログラム並びにそのプログラムを記録した記録媒体
JP2010244341A (ja) 属性表現獲得方法及び装置及びプログラム
JP2010009237A (ja) 多言語間類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体