JP2006119714A - 単語間類似性判定用データベース作成装置、方法、プログラムおよび記録媒体 - Google Patents

単語間類似性判定用データベース作成装置、方法、プログラムおよび記録媒体 Download PDF

Info

Publication number
JP2006119714A
JP2006119714A JP2004304206A JP2004304206A JP2006119714A JP 2006119714 A JP2006119714 A JP 2006119714A JP 2004304206 A JP2004304206 A JP 2004304206A JP 2004304206 A JP2004304206 A JP 2004304206A JP 2006119714 A JP2006119714 A JP 2006119714A
Authority
JP
Japan
Prior art keywords
word
vector
sentence
words
storing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004304206A
Other languages
English (en)
Inventor
Nobuaki Hiroshima
伸章 廣嶋
Katsuto Bessho
克人 別所
Masahiro Oku
雅博 奥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004304206A priority Critical patent/JP2006119714A/ja
Publication of JP2006119714A publication Critical patent/JP2006119714A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract


【課題】 概念ベース中に存在しない単語について、単語間の類似性を判定する単語ベクトルを付与することができるデータベースを作成する単語間類似性判定用データベース作成装置、方法、プログラムおよび記録媒体を提供することを目的とするものである。

【解決手段】 概念ベースから検索した複数の単語の概念ベクトルの重心を求め、この求めた概念ベクトルの重心を、文ベクトルとして算出し、各異なり単語が含まれている文の文ベクトルの重心を求め、この求めた文ベクトルの重心を、単語ベクトルとして算出し、この算出された単語ベクトルと、異なり単語とを単語間類似性判定用データベースに格納する単語間類似性判定用データベース作成装置である。

【選択図】 図1

Description

本発明は、新聞記事等の文書から、単語間の類似性を判定するためのデータベースを作成する単語間類似性判定用データベース作成装置、方法、プログラムおよび記録媒体に関する。
単語間の類似性を判定し、類義語を検索し、また、関連文書を検索するためのデータベースの1つとして、概念ベースが用いられている。
この「概念ベース」は、単語とその単語に対応する概念ベクトルとの組からなるデータベースである。概念ベースとして、国語辞典の語義文から作成される辞書概念ベース(たとえば、特許文献1参照)と、新聞記事等の文書を大量に集めたコーパスから作成されるコーパス概念ベース(たとえば、非特許文献1参照)とが知られている。
また、所定の単語の「概念ベクトル」は、上記所定の単語が属する範囲(たとえば、文)内で、予め決められた複数の共起語のそれぞれと共起する頻度に応じて算出される。辞書概念ベースにおける共起語として、単語を辞書引きして得られる語義文中に出現する単語が用いられ、コーパス概念ベースにおける共起語として、コーパス中に高頻度で出現する単語が用いられる。各単語を、行とし、共起語を、列とし、単語と共起語との共起頻度を、行列の成分とする共起行列を作成する。
辞書概念ベースの場合、上記共起行列における各行の行ベクトルが、単語の概念ベクトルであり、通常は、語義文中に含まれる単語について、孫引きすることによって得られる語義文等を用いて、概念ベクトルの精錬が行われる。
コーパス概念ベースにおいて、特異値分解によって、共起行列の列の次元を圧縮した行列を作成し、この圧縮した行列の各行の行ベクトルが概念ベクトルである。このようにして作成された概念ベースは、単語間の類似性が高い程、単語の概念ベクトル間の距離が近いという性質を持つので、単語間の類似性を判定する場合に有効である。つまり、2つの単語間の概念ベクトルの距離が近い程、上記2つの単語間の類似性が高いと判断できる。
特許第3379603号公報 H. Schutze、"Dimensions of meaning"、Proceedings of Supercomputing '92、 pp. 787−796 、1992年
しかし、これらの方法によって作成された概念ベースでは、概念ベースを作成するために用いた文書に含まれている単語にのみ、概念ベクトルが付与される。特に、コーパス概念ベースを作成する際に特異値分解を行うが、特異値分解を行うためには大量のメモリを必要とするので、共起行列の行である単語の数を削減しなければならず、この結果、コーパス中の特定の単語にのみ、概念ベクトルが付与される。
したがって、概念ベースを用いて単語間の類似性を判定する場合、類似性を判定しようとする単語が概念ベースに含まれていないと、その単語に対応する概念ベクトルが存在せず、単語間の類似性を判定することができないという問題がある。
本発明は、概念ベース中に存在しない単語について、単語間の類似性を判定する単語ベクトルを付与することができるデータベースを作成する単語間類似性判定用データベース作成装置、方法、プログラムおよび記録媒体を提供することを目的とするものである。
本発明は、文書に含まれている単語間の類似性を判定するためのデータベースを作成する単語間類似性判定用データベース作成装置において、文書を文に分割し、メモリに記憶する文分割手段と、上記文分割手段が得た文書中の各文を単語に分割し、メモリに記憶する単語分割手段と、上記単語分割手段が得た文書中の各単語について、重複する単語を1つにまとめた異なり単語を取得し、メモリに記憶する異なり単語取得手段と、単語の意味を表現する概念ベクトルを格納している記憶装置である概念ベースを検索することによって、上記単語分割手段が得た単語に対応する概念ベクトルを取得し、各単語の概念ベクトルの重心を求め、この求めた概念ベクトルの重心を、文ベクトルとして算出し、メモリに記憶する文ベクトル算出手段と、上記異なり単語取得手段が得た各異なり単語が含まれている文の文ベクトルの重心を求め、この求めた文ベクトルの重心を、単語ベクトルとして算出し、メモリに記憶する単語ベクトル算出手段と、上記単語ベクトル算出手段が得た単語ベクトルと、異なり単語とを単語間類似性判定用データベースに格納する単語ベクトル格納手段とを有することを特徴とする単語間類似性判定用データベース作成装置である。
また、本発明は、文書に含まれている単語間の類似性を判定するためのデータベースを作成する単語間類似性判定用データベース作成方法において、文書を文に分割し、メモリに記憶する文分割工程と、上記文分割工程で得た文書中の各文を単語に分割し、メモリに記憶する単語分割工程と、上記単語分割工程で得た文書中の各単語について、重複する単語を1つにまとめた異なり単語を取得し、メモリに記憶する異なり単語取得工程と、単語の意味を表現する概念ベクトルを格納している記憶装置である概念ベースを検索することによって、上記単語分割工程で得た単語に対応する概念ベクトルを取得し、各単語の概念ベクトルの重心を求め、この求めた概念ベクトルの重心を、文ベクトルとして算出し、メモリに記憶する文ベクトル算出工程と、上記異なり単語取得工程で得た各異なり単語が含まれている文の文ベクトルの重心を求め、この求めた文ベクトルの重心を、単語ベクトルとして算出し、メモリに記憶する単語ベクトル算出工程と、上記単語ベクトル算出工程で得た単語ベクトルと、異なり単語とを単語間類似性判定用データベースに格納する単語ベクトル格納工程とを有することを特徴とする単語間類似性判定用データベース作成方法である。
さらに、本発明は、文書に含まれている単語間の類似性を判定するためのデータベースを作成する単語間類似性判定用データベース作成プログラムにおいて、文書を文に分割し、メモリに記憶する文分割手順と、上記文分割手順で得た文書中の各文を単語に分割し、メモリに記憶する単語分割手順と、上記単語分割手順で得た文書中の各単語について、重複する単語を1つにまとめた異なり単語を取得し、メモリに記憶する異なり単語取得手順と、単語の意味を表現する概念ベクトルを格納している記憶装置である概念ベースを検索することによって、上記単語分割手順で得た単語に対応する概念ベクトルを取得し、各単語の概念ベクトルの重心を求め、この求めた概念ベクトルの重心を、文ベクトルとして算出し、メモリに記憶する文ベクトル算出手順と、上記異なり単語取得手順で得た各異なり単語が含まれている文の文ベクトルの重心を求め、この求めた文ベクトルの重心を、単語ベクトルとして算出し、メモリに記憶する単語ベクトル算出手順と、上記単語ベクトル算出手順で得た単語ベクトルと、異なり単語とを単語間類似性判定用データベースに格納する単語ベクトル格納手順とをコンピュータに実行させるプログラムである。
そして、本発明は、文書に含まれている単語間の類似性を判定するためのデータベースを作成する単語間類似性判定用データベース作成プログラムにおいて、文書を文に分割し、メモリに記憶する文分割手順と、上記文分割手順で得た文書中の各文を単語に分割し、メモリに記憶する単語分割手順と、上記単語分割手順で得た文書中の各単語について、重複する単語を1つにまとめた異なり単語を取得し、メモリに記憶する異なり単語取得手順と、単語の意味を表現する概念ベクトルを格納している記憶装置である概念ベースを検索することによって、上記単語分割手順で得た単語に対応する概念ベクトルを取得し、各単語の概念ベクトルの重心を求め、この求めた概念ベクトルの重心を、文ベクトルとして算出し、メモリに記憶する文ベクトル算出手順と、上記異なり単語取得手順で得た各異なり単語が含まれている文の文ベクトルの重心を求め、この求めた文ベクトルの重心を、単語ベクトルとして算出し、メモリに記憶する単語ベクトル算出手順と、上記単語ベクトル算出手順で得た単語ベクトルと、異なり単語とを単語間類似性判定用データベースに格納する単語ベクトル格納手順とをコンピュータに実行させるプログラムを記録したコンピュータ読取可能な記録媒体である。
本発明は、所定の文書中で、概念ベース中の単語と共起する全ての単語について、概念ベクトルに相当する単語ベクトルが付与されたデータベースを作成することができるので、従来の概念ベースを用いて単語間の類似性を判定する場合よりも、はるかに多くの単語について、単語間の類似性を判定することができるという効果を奏する。
発明を実施するための最良の形態は、次の実施例である。
図1は、本発明の実施例1である単語間類似性判定用データベース作成装置100の構成をブロック示す図である。
単語間類似性判定用データベース作成装置100は、文分割部10と、単語分割部20と、異なり単語取得部30と、文ベクトル算出部40と、単語ベクトル算出部50と、単語ベクトル格納部60と、概念ベース70と、単語間類似性判定用データベース80とを有する。
文分割部10は、文書を文に分割し、メモリに記憶する。
単語分割部20は、文分割部10が得た文書中の各文を単語に分割し、メモリに記憶する。
異なり単語取得部30は、単語分割部20が得た文書中の各単語について、重複する単語を1つにまとめ、異なり単語を取得し、メモリに記憶する。
文ベクトル算出部40は、文分割部10が得た各文について、単語分割部20が得た文中の各単語に対応する概念ベクトルを概念ベース70から検索し、各単語の概念ベクトルの重心を求め、この求めた概念ベクトルの重心を、文ベクトルとしてみなし、メモリに記憶する。
単語ベクトル算出部50は、異なり単語取得部30が得た各異なり単語が含まれている文の文ベクトルの重心を求め、この求めた文ベクトルの重心を、単語ベクトルとしてみなす。
単語ベクトル格納部60は、単語ベクトル算出部50が得た単語ベクトルを、異なり単語とともに単語間類似性判定用データベース80に格納する。
次に、実施例1の動作について説明する。
図2は、単語間類似性判定用データベース作成装置100の全体の動作を示すフローチャートである。
まず、文分割部10が、文書を文に分割し、メモリに記憶する(S1)。
文分割部10が得た文書中の各文を、単語分割部20が単語に分割し、メモリに記憶する(S2)。
単語分割部20が得た文書中の各単語について、重複する単語を1つにまとめることによって、異なり単語取得部30が異なり単語を取得し、メモリに記憶する(S3)。
文分割部10が得た各文について、単語分割部20が得た文中の各単語に対応する概念ベクトルを概念ベース70から検索し、文ベクトル算出部40が、各単語の概念ベクトルの重心を求めるこの求めた概念ベクトルの重心を、文ベクトルとしてみなし、メモリに記憶する(S4)。
異なり単語取得部30が得た各異なり単語について、単語ベクトル算出部50が、異なり単語が含まれる文の文ベクトルの重心を求め、この求めた文ベクトルの重心を、単語ベクトルとみなす(S5)。
最後に、単語ベクトル格納部60が、単語ベクトル算出部50が得た単語ベクトルを異なり単語とともに単語間類似性判定用データベース80に格納する(S6)。
次に、実施例1の動作をより具体的に説明する。
図3は、実施例1において、単語間類似性判定用データベース作成装置100において、単語間類似性判定用データベース80を作成する文書の一例である文書D1を示す図である。
S1では、文分割部10が、文書D1を文に分割し、メモリに記憶する。ここで、「文」は、句点で終わる文字列である。
図4は、図3に示す文書D1を文に分割した結果の一例を示す図である。
S2では、単語分割部20が、図4に示す文書D1中の各文を単語に分割し、メモリに記憶する。
図5は、図4に示す各文を単語に分割した結果の一例を示す図である。
S3では、図5に示す各単語について、異なり単語取得部30が、重複する単語を1つにまとめることによって、異なり単語を取得し、メモリに記憶する。つまり、たとえば、文番号324488の文と、文番号900296の文とには、ともに、単語「気象庁」が出ているが、重複する単語を1つにまとめる。
図6は、図5に示す各単語に基づいて、異なり単語を取得した結果を示す図である。
ここでは、助詞のような機能語や「ところ」のような形式名詞等は、単語間の類似性を判定することに意味がないので、取り除いている。
上記のように、文書D1に出現した単語の一部のみの範囲について異なり単語を求めるようにしてもよく、また、全ての単語について異なり単語を求めるようにしてもよい。また、ここでは、単語の表記が同じであるが、品詞や読みが異なる例(たとえば、表記が「熱」、品詞が「名詞」、読みが「ねつ」という単語と、表記が「熱」、品詞が「形容詞語幹」、読みが「あつ」という単語)が存在しないが、このような例が存在した場合は、同一の単語としてまとめてもよく、異なる単語として扱ってもよい。
S4では、図4に示す各文について、文中の各単語に対応する概念ベクトルを、概念ベース70から検索し、これら検索した概念ベクトルの重心を求め、この求めた概念ベクトルの重心を、文ベクトルとみなす。
図7は、概念ベース70における単語の概念ベクトルの例を示す図である。
なお、図7中の概念ベクトルの下に記載されている1、2、3、……、100は、ベクトルの何番目の成分であるかを表す。
ここでは、概念ベース70としてコーパス概念ベースを使用しているが、概念ベース70として、辞書概念ベースを使用するようにしてもよい。通常、コーパス概念ベースは、機能語や形式名詞等を除いて作成されている。また、特異値分解を行う際に、大量のメモリを必要とし、全ての単語を用いて、特異値分解をすることは困難であるので、低頻度で出現する単語を除いて、コーパス概念ベースを作成する。ここでは、図5に示す各文を分解した単語のうちで、図7に示していない単語(概念ベース70に含まれていない単語であり、「寒冷前線」等の単語)について、従来は、上記理由によって、概念ベース70には存在しない。また、概念ベクトルの次元数は、100次元であるとする。
図4に示す文番号324488の文「気象庁は、日本海の寒冷前線に吹き込む南風が強風の原因であると説明している。」に着目すると、文中の単語のうちで、図7の概念ベース70に存在している単語は、「気象庁」、「日本海」、「南風」、「強風」、「原因」、「説明」の6個の単語であるので、これら6個の単語の概念ベクトルの重心を、上記文(文番号324488の文)の文ベクトルとする。
なお、「単語の概念ベクトルの重心」は、所定の文に含まれている複数の単語のそれぞれの単語の概念ベクトルの和を、上記所定の文に含まれている単語の数で割ったものである。つまり、上記文番号324488の文「気象庁は、日本海の寒冷前線に吹き込む南風が強風の原因であると説明している。」における「単語の概念ベクトルの重心」は、6個の単語の概念ベクトルの和を計算し、この計算された和を6で割ることによって、文番号324488の文の文ベクトルを求めることができる。第1成分を例にとると、{(−0.05)+(−0.07)+(−0.02)+(−0.06)+(−0.15)+(−0.23)}/6=0.096…≒0.10である。
図8は、図4に示す各文に基づいて算出した文ベクトルの例を示す図である。
図8に示す例では、文中に同じ単語がn回(n≧2)出現する例が存在しないが、このような例が存在した場合、単語の概念ベクトルの和を計算する際に、その単語の概念ベクトルをn回足し合わせ、その単語の数をn個として重心を計算するようにしてもよく、また、和を計算する際に、その単語の概念ベクトルを1回だけ足し合わせ、その単語の数を1個として重心を計算するようにしてもよい。
図2に示すS5では、単語ベクトル算出部50が、図6に示す各異なり単語が含まれている文の文ベクトルの重心を求め、この求めた文ベクトルを、各異なり単語の単語ベクトルとみなす。
上記「寒冷前線」という異なり単語に着目して説明し、図4に示す文以外の文には、単語「寒冷前線」が出現しないものとする。図4に示すように、単語「寒冷前線」が含まれる文は、文番号324488、900296、1204650の3個の文であるので、これらの文の文ベクトルの重心を、単語ベクトルとする。つまり、この例では、3個の文の文ベクトルの和を計算し、それを文数である3で割ることによって、単語「寒冷前線」が含まれる文の文ベクトルを求めることができる。第1成分を例にとると、{(−0.10)+(−0.04)+(−0.07)}/3=0.21/3=0.07である。
図9は、図6の異なり単語について、単語ベクトルを算出した結果の一例を示す図である。
ところで、概念ベクトルは、共起語と共起する頻度とに応じて、所定の方法によって算出されるものを指す。一方、上記実施例における単語ベクトルは、概念ベクトルに基づいて、上記手順によって算出されたものであり、もはや概念ベクトルと呼ぶことはできない(この意味で、「単語の概念ベクトル」とは呼ばずに「単語ベクトル」と呼ぶ)。単語ベクトルは、単語自体だけでなく、その単語を含む文の中にある別の単語の概念ベクトルも利用して計算されるので、元の単語ベクトルとは異なる数値となるが、概念ベクトルと同様に、単語間の類似度を判定するのに役立つ。
図9に示す例では、対象とする異なり単語を含む文中に、その単語がn回(n≧2)出現する例が存在しないが、このような例が存在した場合、ベクトルの和を計算する際に、その文の文ベクトルをn回足し合わせ、その文の数をn個として重心を計算するようにしてもよく、また、和を計算する際に、その文の文ベクトルを1回だけ足し合わせ、その文の文数を1個として重心を計算するようにしてもよい。
図9に示す例から、「寒冷前線」や「吹き込」のように、従来例では、概念ベクトルを付与することができなかった単語についても、実施例1では、単語ベクトルを付与することができる。また、それらの単語ベクトルは、他の天気に関連する単語の単語ベクトルと距離が近く、単語間の類似性を正しく表していることがわかる。
図2に示すS6では、単語ベクトル格納部60が、図9に示す異なり単語と単語ベクトルとの組を単語間類似性判定用データベース80に格納する。
なお、実施例1における上記一連の動作をプログラムとして構築し、単語間類似性判定用データベース作成装置として利用されるコンピュータにインストールし、CPU等の制御手段によって実行させるようにしてもよく、また、ネットワークを介して、上記プログラムを流通させることも可能である。
つまり、上記実施例は、文書に含まれている単語間の類似性を判定するためのデータベースを作成する単語間類似性判定用データベース作成プログラムにおいて、文書を文に分割し、メモリに記憶する文分割手順と、上記文分割手順で得た文書中の各文を単語に分割し、メモリに記憶する単語分割手順と、上記単語分割手順で得た文書中の各単語について、重複する単語を1つにまとめた異なり単語を取得し、メモリに記憶する異なり単語取得手順と、単語の意味を表現する概念ベクトルを格納している記憶装置である概念ベースを検索することによって、上記単語分割手順で得た単語に対応する概念ベクトルを取得し、各単語の概念ベクトルの重心を求め、この求めた概念ベクトルの重心を、文ベクトルとして算出し、メモリに記憶する文ベクトル算出手順と、上記異なり単語取得手順で得た各異なり単語が含まれている文の文ベクトルの重心を求め、この求めた文ベクトルの重心を、単語ベクトルとして算出し、メモリに記憶する単語ベクトル算出手順と、上記単語ベクトル算出手順で得た単語ベクトルと、異なり単語とを単語間類似性判定用データベースに格納する単語ベクトル格納手順とをコンピュータに実行させるプログラムの例である。
また、構築されたプログラムを、単語間類似性判定用データベース作成装置として利用されるコンピュータに接続されるハードディスク装置や、フレキシブルディスク、CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールして実行させるようにしてもよい。
上記実施例は、類義語検索、関連文書検索、トピックセグメンテーション等に適用可能である。
本発明の実施例1である単語間類似性判定用データベース作成装置100の構成をブロック示す図である。 単語間類似性判定用データベース作成装置100の全体の動作を示すフローチャートである。 実施例1において、単語間類似性判定用データベース作成装置100において、単語間類似性判定用データベース80を作成する文書の一例である文書D1を示す図である。 図3に示す文書D1を文に分割した結果の一例を示す図である。 図4に示す各文を単語に分割した結果の一例を示す図である。 図5に示す各単語に基づいて、異なり単語を取得した結果を示す図である。 概念ベース70における単語の概念ベクトルの例を示す図である。 図4に示す各文に基づいて算出した文ベクトルの例を示す図である。 図6の異なり単語について、単語ベクトルを算出した結果の一例を示す図である。
符号の説明
100…単語間類似性判定用デーベース作成装置、
10…文分割部、
20…単語分割部、
30…異なり単語取得部、
40…文ベクトル算出部、
50…単語ベクトル算出部、
60…単語ベクトル格納部、
70…概念ベース、
80…単語間類似性判定用データベース。

Claims (4)

  1. 文書に含まれている単語間の類似性を判定するためのデータベースを作成する単語間類似性判定用データベース作成装置において、
    文書を文に分割し、メモリに記憶する文分割手段と;
    上記文分割手段が得た文書中の各文を単語に分割し、メモリに記憶する単語分割手段と;
    上記単語分割手段が得た文書中の各単語について、重複する単語を1つにまとめた異なり単語を取得し、メモリに記憶する異なり単語取得手段と;
    単語の意味を表現する概念ベクトルを格納している記憶装置である概念ベースを検索することによって、上記単語分割手段が得た単語に対応する概念ベクトルを取得し、各単語の概念ベクトルの重心を求め、この求めた概念ベクトルの重心を、文ベクトルとして算出し、メモリに記憶する文ベクトル算出手段と;
    上記異なり単語取得手段が得た各異なり単語が含まれている文の文ベクトルの重心を求め、この求めた文ベクトルの重心を、単語ベクトルとして算出し、メモリに記憶する単語ベクトル算出手段と;
    上記単語ベクトル算出手段が得た単語ベクトルと、異なり単語とを単語間類似性判定用データベースに格納する単語ベクトル格納手段と;
    を有することを特徴とする単語間類似性判定用データベース作成装置。
  2. 文書に含まれている単語間の類似性を判定するためのデータベースを作成する単語間類似性判定用データベース作成方法において、
    文書を文に分割し、メモリに記憶する文分割工程と;
    上記文分割工程で得た文書中の各文を単語に分割し、メモリに記憶する単語分割工程と;
    上記単語分割工程で得た文書中の各単語について、重複する単語を1つにまとめた異なり単語を取得し、メモリに記憶する異なり単語取得工程と;
    単語の意味を表現する概念ベクトルを格納している記憶装置である概念ベースを検索することによって、上記単語分割工程で得た単語に対応する概念ベクトルを取得し、各単語の概念ベクトルの重心を求め、この求めた概念ベクトルの重心を、文ベクトルとして算出し、メモリに記憶する文ベクトル算出工程と;
    上記異なり単語取得工程で得た各異なり単語が含まれている文の文ベクトルの重心を求め、この求めた文ベクトルの重心を、単語ベクトルとして算出し、メモリに記憶する単語ベクトル算出工程と;
    上記単語ベクトル算出工程で得た単語ベクトルと、異なり単語とを単語間類似性判定用データベースに格納する単語ベクトル格納工程と;
    を有することを特徴とする単語間類似性判定用データベース作成方法。
  3. 文書に含まれている単語間の類似性を判定するためのデータベースを作成する単語間類似性判定用データベース作成プログラムにおいて、
    文書を文に分割し、メモリに記憶する文分割手順と;
    上記文分割手順で得た文書中の各文を単語に分割し、メモリに記憶する単語分割手順と;
    上記単語分割手順で得た文書中の各単語について、重複する単語を1つにまとめた異なり単語を取得し、メモリに記憶する異なり単語取得手順と;
    単語の意味を表現する概念ベクトルを格納している記憶装置である概念ベースを検索することによって、上記単語分割手順で得た単語に対応する概念ベクトルを取得し、各単語の概念ベクトルの重心を求め、この求めた概念ベクトルの重心を、文ベクトルとして算出し、メモリに記憶する文ベクトル算出手順と;
    上記異なり単語取得手順で得た各異なり単語が含まれている文の文ベクトルの重心を求め、この求めた文ベクトルの重心を、単語ベクトルとして算出し、メモリに記憶する単語ベクトル算出手順と;
    上記単語ベクトル算出手順で得た単語ベクトルと、異なり単語とを単語間類似性判定用データベースに格納する単語ベクトル格納手順と;
    をコンピュータに実行させるプログラム。
  4. 文書に含まれている単語間の類似性を判定するためのデータベースを作成する単語間類似性判定用データベース作成プログラムにおいて、
    文書を文に分割し、メモリに記憶する文分割手順と;
    上記文分割手順で得た文書中の各文を単語に分割し、メモリに記憶する単語分割手順と;
    上記単語分割手順で得た文書中の各単語について、重複する単語を1つにまとめた異なり単語を取得し、メモリに記憶する異なり単語取得手順と;
    単語の意味を表現する概念ベクトルを格納している記憶装置である概念ベースを検索することによって、上記単語分割手順で得た単語に対応する概念ベクトルを取得し、各単語の概念ベクトルの重心を求め、この求めた概念ベクトルの重心を、文ベクトルとして算出し、メモリに記憶する文ベクトル算出手順と;
    上記異なり単語取得手順で得た各異なり単語が含まれている文の文ベクトルの重心を求め、この求めた文ベクトルの重心を、単語ベクトルとして算出し、メモリに記憶する単語ベクトル算出手順と;
    上記単語ベクトル算出手順で得た単語ベクトルと、異なり単語とを単語間類似性判定用データベースに格納する単語ベクトル格納手順と;
    をコンピュータに実行させるプログラムを記録したコンピュータ読取可能な記録媒体。
JP2004304206A 2004-10-19 2004-10-19 単語間類似性判定用データベース作成装置、方法、プログラムおよび記録媒体 Pending JP2006119714A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004304206A JP2006119714A (ja) 2004-10-19 2004-10-19 単語間類似性判定用データベース作成装置、方法、プログラムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004304206A JP2006119714A (ja) 2004-10-19 2004-10-19 単語間類似性判定用データベース作成装置、方法、プログラムおよび記録媒体

Publications (1)

Publication Number Publication Date
JP2006119714A true JP2006119714A (ja) 2006-05-11

Family

ID=36537571

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004304206A Pending JP2006119714A (ja) 2004-10-19 2004-10-19 単語間類似性判定用データベース作成装置、方法、プログラムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP2006119714A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020213158A1 (ja) 2019-04-19 2020-10-22 富士通株式会社 特定方法、生成方法、次元圧縮方法、表示方法および情報処理装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020213158A1 (ja) 2019-04-19 2020-10-22 富士通株式会社 特定方法、生成方法、次元圧縮方法、表示方法および情報処理装置
EP4191434A1 (en) 2019-04-19 2023-06-07 Fujitsu Limited Identification method, generation method, dimensional compression method, display method, and information processing device

Similar Documents

Publication Publication Date Title
JP5497048B2 (ja) コンパラブルコーパスを使用する固有表現の翻字
CN105893410A (zh) 一种关键词提取方法和装置
JP2011118872A (ja) 未登録語のカテゴリを決定する方法と装置
Kumar et al. Design and development of a stemmer for Punjabi
JP2007323475A (ja) 自然言語における多義解消装置及びコンピュータプログラム
JP2010287020A (ja) 同義語展開システム及び同義語展開方法
KR102059743B1 (ko) 딥러닝 기반의 지식 구조 생성 방법을 활용한 의료 문헌 구절 검색 방법 및 시스템
CN107168953A (zh) 海量文本中基于词向量表征的新词发现方法及系统
KR101860472B1 (ko) 오픈 디렉터리 프로젝트 기반의 텍스트 분류기, 및 텍스트 분류기의 생성 및 분류 방법
JP7434125B2 (ja) 文書検索装置、文書検索方法、及びプログラム
Dilekh et al. Implementation of a new hybrid method for stemming of Arabic text
JP2001331515A (ja) 単語シソーラス構築方法及びコンピュータシステムに単語シソーラスの構築を行わせるためのコンピュータソフトウエアプログラム製品
JP2009277099A (ja) 類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
Taji et al. The columbia university-new york university abu dhabi sigmorphon 2016 morphological reinflection shared task submission
JP2007164635A (ja) 同義語彙獲得方法及び装置及びプログラム
KR102519955B1 (ko) 토픽 키워드의 추출 장치 및 방법
JP3889010B2 (ja) 語句分類システム、語句分類方法、および語句分類プログラム
JP2006119714A (ja) 単語間類似性判定用データベース作成装置、方法、プログラムおよび記録媒体
JP2007200252A (ja) 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体
Moghadam et al. Comparative study of various Persian stemmers in the field of information retrieval
JP2000207404A (ja) 文書検索方法及び装置並びに記録媒体
JP2009140411A (ja) 文章要約装置および文章要約方法
JP2005173847A (ja) 情報検索装置、情報検索方法、プログラム及び該プログラムを記録した記録媒体
JP2010009237A (ja) 多言語間類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
Huovelin et al. Software newsroom–an approach to automation of news search and editing