JP4314271B2 - 単語間関連度算出装置、単語間関連度算出方法及び単語間関連度算出プログラム並びにそのプログラムを記録した記録媒体 - Google Patents

単語間関連度算出装置、単語間関連度算出方法及び単語間関連度算出プログラム並びにそのプログラムを記録した記録媒体 Download PDF

Info

Publication number
JP4314271B2
JP4314271B2 JP2006353983A JP2006353983A JP4314271B2 JP 4314271 B2 JP4314271 B2 JP 4314271B2 JP 2006353983 A JP2006353983 A JP 2006353983A JP 2006353983 A JP2006353983 A JP 2006353983A JP 4314271 B2 JP4314271 B2 JP 4314271B2
Authority
JP
Japan
Prior art keywords
word
vector
words
distance
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006353983A
Other languages
English (en)
Other versions
JP2008165473A (ja
Inventor
克人 別所
俊郎 内山
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006353983A priority Critical patent/JP4314271B2/ja
Publication of JP2008165473A publication Critical patent/JP2008165473A/ja
Application granted granted Critical
Publication of JP4314271B2 publication Critical patent/JP4314271B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、単語間の関連度を算出する単語間関連度算出装置、単語間関連度算出方法及び単語間関連度算出プログラム並びにそのプログラムを記録した記録媒体に関する。
単語間の関連度を算出する従来技術としては、例えば下記非特許文献1、2に記載の手法がある。この非特許文献1の手法では、テキスト中の単語間の共起頻度を算出して単語間共起頻度行列を作成する。該行列の各行ベクトルは、対応する単語の、他の単語と共起するパターンを表している。意味の似た単語は、共通の単語と共起する傾向があるので、対応するパターンも似る傾向がある。そこで、単語間の関連度を、対応するベクトルの内積として算出する。
また非特許文献2の手法では、単語に意味属性が付随した辞書を用いて、テキスト中の単語・意味属性間の共起頻度を算出し単語・意味属性間共起頻度行列を作成する。該行列の各行ベクトルは、対応する単語の、意味属性と共起するパターンを表している。意味の似た単語は、共通の意味属性と共起する傾向があるので、対応するパターンも似る傾向がある。そこで、単語間の関連度を、対応するベクトルの内積として算出する。
非特許文献1の手法も、非特許文献2の手法も、共起頻度行列を特異値分解して列数の縮退した行列に変換することにより、ベクトル間の関連度の精度を上げている。
尚、本発明で行われる、ベクトル生成処理は例えば下記非特許文献2に記載の処理を利用し、形態素解析処理は例えば下記非特許文献3に記載の処理を利用し、カルバック・ライブラー距離算出処理は例えば下記非特許文献4に記載の処理を利用する。
H.Schutze,Dimensions of Meaning,Proc.of Supercomputing’92,pp.786−796,1992. 別所克人,内山俊郎,片岡良治:単語・意味属性間共起に基づく概念ベースの拡張方式,情報処理学会研究報告,Vol.SIG−ICS 144,pp.29−34,2006. 日本語情報処理、電子通信学会編著、監修:長尾真、執筆:森健一ほか、電子情報通信学会、1984.5 カルバック・ライブラー距離算出処理 On Information and Sufficiency /S.Kullback,R.A.Leibler Annals of Mathematical Statistics,Vol.22,No.1.(Mar.,1951),pp.79−86.
上記、非特許文献1や非特許文献2の手法では、一つの単語と関連度の高い単語として、該単語の上位・下位概念にあたる単語のみならず、同じ上位概念をもつ兄弟関係にある単語も導出するという問題がある。例えば、「精神病」という単語に対し、その下位概念にあたる「鬱病」や「PTSD」といった単語のみならず、「糖尿病」や「心臓病」といった、共通の上位概念「病気」をもつ兄弟関係にある単語も導出してしまう。このことは、兄弟関係にあたる単語は、その共起パターンが似通っていることに起因する。このように従来手法では、概念として、縦方向への連想のみならず、横方向への連想も行ってしまう。
このことにより、この関連度を用いた言語処理、例えば検索において、「精神病」というキーワードを入力すると、「鬱病」や「PTSD」といった精神病に関する文書のみならず、「糖尿病」や「心臓病」といった精神病とは異なる文書も検索されてしまい、適合率に問題があった。
本発明は、この課題を解決するために考え出されたものであり、本発明の目的は、指定した単語に対し、その上位・下位概念にあたる単語に、より高い関連度を与えることが可能な単語間関連度算出装置、単語間関連度算出方法及び単語間関連度算出プログラム並びにそのプログラムを記録した記録媒体を提供することにある。
上記課題を解決するための請求項1に記載の単語間関連度算出装置は、単語間の関連度を算出する単語間関連度算出装置であって、テキストを形態素解析し、処理に必要な単語を特定する形態素解析手段と、前記形態素解析手段の解析結果から、任意の単語の対に対し、前記テキストにおける一つの所定の範囲、又は、複数の所定の範囲のそれぞれにおいて、前記対が共起する事象を、すべての所定の範囲にわたって計数した頻度を算出し、各単語に対し、各成分の値が、前記単語と、前記成分に対応づけられた単語の対に対し算出された前記頻度であるベクトルを生成するベクトル生成手段と、前記ベクトル生成手段によって生成されたベクトルを、該ベクトルの各成分を全成分の和で割った相対頻度を成分とするベクトルに変換する相対頻度算出手段と、単語の対に対し、一方の単語に対応する前記相対頻度算出手段で変換されたベクトルと、他方の単語に対応する前記相対頻度算出手段で変換されたベクトルとのカルバック・ライブラー距離を単語間関連度として算出するカルバック・ライブラー距離算出手段とを備えたことを特徴としている。
また、請求項2に記載の単語間関連度算出装置は、単語間の関連度を算出する単語間関連度算出装置であって、単語と前記単語の意味情報の組の集合を格納する辞書と、テキストを形態素解析し、処理に必要な単語を特定する形態素解析手段と、前記形態素解析手段の解析結果から、前記辞書内の任意の単語と任意の意味情報の対に対し、前記テキストにおける一つの所定の範囲、又は、複数の所定の範囲のそれぞれにおいて、前記対が共起する事象を、すべての所定の範囲にわたって計数した頻度を算出し、各単語に対し、各成分の値が、前記単語と、前記成分に対応づけられた意味情報の対に対し算出された前記頻度であるベクトルを生成するベクトル生成手段と、前記ベクトル生成手段によって生成されたベクトルを、該ベクトルの各成分を全成分の和で割った相対頻度を成分とするベクトルに変換する相対頻度算出手段と、単語の対に対し、一方の単語に対応する前記相対頻度算出手段で変換されたベクトルと、他方の単語に対応する前記相対頻度算出手段で変換されたベクトルとのカルバック・ライブラー距離を単語間関連度として算出するカルバック・ライブラー距離算出手段とを備えたことを特徴としている。
また、請求項6に記載の単語間関連度算出方法は、単語間の関連度を算出する単語間関連度算出方法であって、形態素解析手段が、テキストを形態素解析し、処理に必要な単語を特定する形態素解析ステップと、ベクトル生成手段が、前記形態素解析手段の解析結果から、任意の単語の対に対し、前記テキストにおける一つの所定の範囲、又は、複数の所定の範囲のそれぞれにおいて、前記対が共起する事象を、すべての所定の範囲にわたって計数した頻度を算出し、各単語に対し、各成分の値が、前記単語と、前記成分に対応づけられた単語の対に対し算出された前記頻度であるベクトルを生成するベクトル生成ステップと、相対頻度算出手段が、前記ベクトル生成手段によって生成されたベクトルを、該ベクトルの各成分を全成分の和で割った相対頻度を成分とするベクトルに変換する相対頻度算出ステップと、カルバック・ライブラー距離算出手段が、単語の対に対し、一方の単語に対応する前記相対頻度算出手段で変換されたベクトルと、他方の単語に対応する前記相対頻度算出手段で変換されたベクトルとのカルバック・ライブラー距離を単語間関連度として算出するカルバック・ライブラー距離算出ステップとを備えたことを特徴としている。
また、請求項7に記載の単語間関連度算出方法は、単語間の関連度を算出する単語間関連度算出方法であって、形態素解析手段が、テキストを形態素解析し、処理に必要な単語を特定する形態素解析ステップと、ベクトル生成手段が、前記形態素解析手段の解析結果から、単語と前記単語の意味情報の組の集合を格納した辞書内の任意の単語と任意の意味情報の対に対し、前記テキストにおける一つの所定の範囲、又は、複数の所定の範囲のそれぞれにおいて、前記対が共起する事象を、すべての所定の範囲にわたって計数した頻度を算出し、各単語に対し、各成分の値が、前記単語と、前記成分に対応づけられた意味情報の対に対し算出された前記頻度であるベクトルを生成するベクトル生成ステップと、相対頻度算出手段が、前記ベクトル生成手段によって生成されたベクトルを、該ベクトルの各成分を全成分の和で割った相対頻度を成分とするベクトルに変換する相対頻度算出ステップと、カルバック・ライブラー距離算出手段が、単語の対に対し、一方の単語に対応する前記相対頻度算出手段で変換されたベクトルと、他方の単語に対応する前記相対頻度算出手段で変換されたベクトルとのカルバック・ライブラー距離を単語間関連度として算出するカルバック・ライブラー距離算出ステップとを備えたことを特徴としている。
上記の構成において、相対頻度算出手段(ステップ)により変換された単語のベクトルは、各成分を確率変数、成分の値を確率値とする確率分布ととらえることができる。
そしてカルバック・ライブラー距離算出手段(ステップ)により算出されたカルバック・ライブラー距離(一方の単語と他方の単語間のベクトル間距離)は確率分布の距離ととらえられる。
この距離は、一方の確率分布を他方の確率分布で近似したときの情報損失量を意味し、方向性がある。下位概念の単語のベクトルから、上位概念の単語のベクトルへの近似は、そのような関係にないベクトル間における近似と比べ、情報損失量がより小さくなる。このため、単語を指定したとき、該単語と上位・下位関係にある単語は、そうでない単語よりも距離が小さくなり、これによって単語間の関連度、すなわち上位・下位関係の判定を精度良く行うことができる。
また請求項2,7の構成においては、単語と、成分に対応づけられた意味情報の対に対して算出した頻度であるベクトルを用いているので、より精度の高い関連度を算出することができる。
また請求項3に記載の単語間関連度算出装置は、請求項1または2において、前記カルバック・ライブラー距離算出手段は、前記対の2つの単語のうち、一方の単語のベクトルの成分の値と、他方の単語のベクトルの対応する成分の値がともにある値より大きい成分の個数を、少なくとも一方の単語のベクトルの成分の値が前記ある値より大きい成分の個数で割った値tを引数とする関数f(t)=g・(t−u) 2 +1(g、uは定数)を、前記カルバック・ライブラー距離に乗じることによって、該距離値を補正することを特徴としている。
また請求項4に記載の単語間関連度算出装置は、請求項1または2において、前記カルバック・ライブラー距離算出手段は、前記対の2つの単語のうち、一方の単語のベクトルの成分の値と、他方の単語のベクトルの対応する成分の値がともにある値より大きい成分における、より小さい値の和tを引数とする関数f(t)=g・(t−u) 2 +1(g、uは定数)を、前記カルバック・ライブラー距離に乗じることによって、該距離値を補正することを特徴としている。
また請求項5に記載の単語間関連度算出装置は、請求項1または2において、前記カルバック・ライブラー距離算出手段は、前記対の2つの単語のベクトルの内積tを引数とする関数f(t)=g・(t−u) 2 +1(g、uは定数)を、前記カルバック・ライブラー距離に乗じることによって、該距離値を補正することを特徴としている。
また請求項8に記載の単語間関連度算出方法は、請求項6または7において、前記カルバック・ライブラー距離算出ステップは、前記対の2つの単語のうち、一方の単語のベクトルの成分の値と、他方の単語のベクトルの対応する成分の値がともにある値より大きい成分の個数を、少なくとも一方の単語のベクトルの成分の値が前記ある値より大きい成分の個数で割った値tを引数とする関数f(t)=g・(t−u) 2 +1(g、uは定数)を、前記カルバック・ライブラー距離に乗じることによって、該距離値を補正することを特徴としている。
また請求項9に記載の単語間関連度算出方法は、請求項6または7において、前記カルバック・ライブラー距離算出ステップは、前記対の2つの単語のうち、一方の単語のベクトルの成分の値と、他方の単語のベクトルの対応する成分の値がともにある値より大きい成分における、より小さい値の和tを引数とする関数f(t)=g・(t−u) 2 +1(g、uは定数)を、前記カルバック・ライブラー距離に乗じることによって、該距離値を補正することを特徴としている。
また請求項10に記載の単語間関連度算出方法は、請求項6または7において、前記カルバック・ライブラー距離算出ステップは、前記対の2つの単語のベクトルの内積tを引数とする関数f(t)=g・(t−u) 2 +1(g、uは定数)を、前記カルバック・ライブラー距離に乗じることによって、該距離値を補正することを特徴としている。
上記の構成において、2つの単語のベクトルの一致度合いが大きすぎたり小さすぎたりする場合であっても、距離値を補正することができ、精度の高い上位・下位関係の判定を行うことができる。
また請求項11に記載の単語間関連度算出プログラムは、請求項6ないし10のいずれか1項に記載の単語間関連度算出方法の各ステップをコンピュータに実行させるためのプログラムとしたことを特徴としている。
また請求項12に記載の記録媒体は、請求項11に記載のプログラムを当該コンピュータが読み取りできる記録媒体に記録したことを特徴としている。
(1)請求項1〜12に記載の発明によれば、コーパス(コンピュータによる検索が可能な言語データ)を用意するだけで任意の単語間の関連度、すなわち、上位・下位関係の判定を精度良く行うことができる。
すなわち、単語のベクトルを、各成分を確率変数、成分の値を確率値とする確率分布ととらえ、2単語のベクトルの間の距離を、確率分離の距離ととらえる。この距離は、一方の確率分布を他方の確率分布で近似したときの情報損失量を意味し、方向性がある。下位概念の単語のベクトルから、上位概念の単語のベクトルへの近似は、そのような関係にないベクトル間における近似と比べ、情報損失量がより小さくなる。このため、単語を指定したとき、該単語と上位・下位関係にある単語は、そうでない単語よりも距離が小さくなり、これによって単語間の関連度が精度良く算出される。
(2)請求項2,7に記載の発明によれば、単語と、成分に対応づけられた意味情報の対に対して算出した頻度であるベクトルを用いているので、より精度の高い関連度を算出することができる。
(3)請求項3,4,5,8,9,10に記載の発明によれば、2つの単語のベクトルの一致度合いが大きすぎたり小さすぎたりする場合であっても、距離値を補正することができ、精度の高い上位・下位関係の判定を行うことができる。
以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。
図1は、本発明の実施形態例における単語間関連度算出装置の構成例を示す。101は、入力されるテキストの形態素を解析して、処理に必要な単語を特定する形態素解析手段であり、例えば非特許文献3に記載の技術を利用する。
102は形態素解析用の単語辞書であり、請求項1の発明では単語と品詞情報の組の集合が格納され、請求項2の発明では単語、品詞情報および単語の意味情報の組の集合が格納されている。
103は、例えば非特許文献2に記載の技術を利用したベクトル生成手段であり、請求項1の発明においては、前記形態素解析手段101の解析結果から、任意の単語の対に対し、前記テキストにおける一つまたは複数の所定の範囲のそれぞれにおいて、前記対が共起する事象を、テキスト全体にわたって計数した頻度を算出し、各単語に対し、各成分の値が、前記単語と、前記成分に対応づけられた単語の対に対し算出された前記頻度であるベクトルを生成する。
またベクトル生成手段103は、請求項2の発明においては、前記形態素解析手段101の解析結果から、前記辞書内の任意の単語と任意の意味情報の対に対し、前記テキストにおける一つまたは複数の所定の範囲のそれぞれにおいて、前記対が共起する事象を、テキスト全体にわたって計数した頻度を算出し、各単語に対し、各成分の値が、前記単語と、前記成分に対応づけられた意味情報の対に対し算出された前記頻度であるベクトルを生成する。
104は、ベクトル生成手段103によって生成されたベクトルを、該ベクトルの各成分を全成分の和で割った相対頻度を成分とするベクトルに変換する相対頻度算出手段である。
105は、単語の対に対し、一方の単語に対応する前記相対頻度算出手段104で変換されたベクトルと、他方の単語に対応する前記相対頻度算出手段104で変換されたベクトルとのカルバック・ライブラー距離を算出するカルバック・ライブラー距離算出手段であり、例えば非特許文献4に記載の技術を利用する。
前記形態素解析手段101、ベクトル生成手段103、相対頻度算出手段104、カルバック・ライブラー距離算出手段105の各機能は、例えばコンピュータによって達成される。
前記形態素解析は、単語辞書102を参照して行われるものであり、図2はその辞書の内容の一例である。同図では、単語辞書は、1レコードが1単語に関する情報となっており、1レコードは、カンマで区切られた3つの項目から構成されている。第1項目は単語の表記であり、第2項目は該単語の品詞情報である。第3項目は該単語の意味情報である。本発明の請求項1の構成では、この意味情報は付随している必要はない。
単語の意味情報とは、単語の属する意味カテゴリを表す。意味カテゴリとは一般に、事物を抽象化した概念である。これは一般に、人が個々の単語の意味を吟味した上で得られるものである。意味カテゴリの集合は、一例として図3で表されるような意味体系をなしている。図3では、各意味カテゴリを言葉として表現しているが、意味カテゴリ自体は必ずしも言葉として表現されているとは限らない概念である。各意味カテゴリには、それを特定するためのIDが付与されている。本実施例では、このIDを便宜上、意味情報と同一視する。
本発明の請求項2の構成では、この意味情報を用いる。意味体系は、それ自体が上位・下位の概念体系を表しているものの、人手で作成するため、作成の労力が大きいことや、作成者の恣意性に左右されることから、その体系は一般に不完全性が大きい。例えば、「病気」という意味情報に、「精神病」や「鬱病」といった単語が分類されていたりして、これらの単語が上位・下位関係になっていないということがある。また、上位・下位関係にない意味情報に属している単語が、実は上位・下位関係にあるということもある。このように、意味体系は、人手で作成するため、単語の意味に関する貴重な情報を含んでいるものの、上位・下位関係を正確かつ網羅的には表していない。
図2の単語辞書において、一般に内容語には、一つまたは複数の意味情報が対応している。図2においては、複数の意味情報をコロンで区切っている。1単語に複数の意味情報があるとき、よく使用される順に意味情報を並べておいてもよい。新しい単語を単語辞書に登録するとき、既存の意味情報のどれが該単語に対応するかを、一般に、人が該単語の品詞や意味を吟味した上で付与する。活用語に対しては、終止形も登録しておいてもよい。
図4は、形態素解析手段101に入力されるテキストの一例であり、図5は、図4のテキストの形態素解析結果の一例を示している。図5において、形態素間は”/”で区切られている。各形態素は、単語表記、終止形、品詞情報、意味情報、必要語フラグから成っており、それぞれ”,”で区切られている。単語辞書102に終止形が登録されていない場合は、形態素解析後に、単語表記と品詞情報から終止形を導出する。終止形がない単語に対しては、単語表記を終止形とする。必要語フラグは、形態素解析後はヌルである。
なお請求項1の構成では、形態素解析結果に意味情報のカラムがなくてもよい。また、請求項2の構成で、形態素解析用の単語辞書と、単語とその意味情報の組の集合が格納された辞書とを別にしておき、処理の過程で、ある単語の意味情報を取得する必要があるときは、該単語で後者の辞書を検索して、対応する意味情報を取得するというようにしてもよい。以後の説明は、形態素解析用の単語辞書102に意味情報も格納されており、形態素解析結果に意味情報も出力されているという前提で述べる。
次に、不要単語テーブル、不要品詞テーブルを参照することにより、形態素解析結果中の形態素が、その後の処理に必要な語かそうでないかを判断し、必要語ならば必要語フラグを1とし、必要語でないならば必要語フラグを0とする。
図6は、不要単語テーブルの一例であり、不要とされる各単語の表記が1レコードとして記述されている。図7は、不要品詞テーブルの一例であり、不要とされる各品詞情報が1レコードとして記述されている。対象としている形態素の単語表記が、不要単語テーブルのあるレコードと一致するか、あるいは、対象としている形態素の品詞情報が、不要品詞テーブルのあるレコードと一致する場合、該形態素を必要語でないと判断する。この処理により、図5の形態素解析結果は、図8のようになる。
ベクトル生成手段103は、形態素解析手段101で得られた形態素解析結果から、必要語の終止形の異なりの集合を取得する。次に、請求項2の構成では、図9のような、取得した必要語の終止形の異なりの集合(単に単語集合と呼ぶ)と意味情報集合との間の共起頻度行列を生成する。共起頻度行列における各行は一単語に対応し、各列は一意味情報に対応する。各行ベクトルは、対応する単語の、各成分が意味情報に対応し、該成分の値が該単語と該意味情報との間の共起頻度であるようなベクトルである。各行ベクトルの全成分の値を0にセットする。
なお、請求項1の構成では、各列に必要語の終止形の異なりを対応させる。このとき、後の処理の計算量低減のため、各列に対応する必要語の終止形の異なりの集合を、入力テキスト中における高頻度語のみに限定してもよい。但し、限定することにより、請求項2の構成のような意味情報を使用する場合と比べ、ベクトルの情報量が減るので、関連度の精度は意味情報を使用する場合の方が高い傾向がある。
次に、請求項2の構成では、単語と意味情報とが共起する頻度を算出する処理の対象となるテキスト中の範囲を決定する。所定の範囲としては、一文、一段落や所定の数の単語の列等がある。所定の範囲を一文とした場合は、まず、テキスト中の最初の文を処理対象とする。処理対象とした文に関する処理が終了したならば、その次の文を処理対象とする。最後の文に関する処理が終了したならば、処理対象の文はないので、ベクトル生成手段103の処理を終了する。所定の範囲を、他のものとした場合も同様である。
各処理対象のテキストの範囲における処理は、以下のように行う。
まず前記範囲における必要語の終止形の意味情報の頻度をカウントする。ここで、単語辞書102において、1単語における複数の意味情報が、よく使用される順に並べられており、形態素解析結果における形態素中の意味情報の順番もそれを引き継いでいる場合、形態素中の意味情報の列の中の最初から指定した数だけの意味情報のみをカウントする対象としてもよい。図8に表示した、テキストの1範囲の形態素解析結果からは、図10の、意味情報とその頻度の組の集合である頻度ハッシュが得られる。
次に、前記範囲における各必要語の終止形に対し、以下の処理を行う。共起頻度行列中の、該必要語の終止形に対応する行ベクトルの、頻度ハッシュにおける各意味情報に対応する成分の値に、該頻度ハッシュにおける該意味情報の頻度を加算する。共起頻度行列が図9の状態で、かつ図8に表示した、テキストの1範囲の形態素解析結果を処理した場合、図11の共起頻度行列が得られる。
全ての範囲に対する処理が終了すると、入力テキストにおける任意の単語と任意の意味情報との間の共起頻度が記録された行列が得られ、この行列における各行ベクトルが、ベクトル生成手段103が求める、対応する単語のベクトルとなる。
上記の、一範囲における単語と意味情報との間の共起頻度算出は、単語の頻度をカウントするプロセスが一切ないようにして実行できる。したがって、単語・意味情報間共起頻度行列の生成は、単語間共起頻度行列を生成するプロセスを介在させることなく実行できる。
なお、ここでは、一範囲において、ある必要語の終止形MがA回、意味情報NがB回出現している場合、該範囲におけるMとNの共起頻度をA×Bとしたが、MやNが同一の範囲に複数回出現しても、該範囲における共起頻度は1とするというようにすることもできる。
請求項1の構成におけるベクトル生成手段103の共起頻度算出は、上記の請求項2の構成での説明における「(必要語の終止形の)意味情報」を、共起頻度行列の列に対応する必要語の終止形の異なりとして行う。
相対頻度算出手段104は、ベクトル生成手段103によって生成されたベクトルの各成分の値を、相対頻度に変換する。
ベクトル生成手段103によって生成されたある単語のベクトルが、(a1,a2,・・・,aN)であったとする。相対頻度算出手段104によって、この単語のベクトルは、
Figure 0004314271
に変換される。各xi(1≦i≦N)は、変換前のベクトルにおける、対応する成分の値の、全成分の値の和に対する相対頻度である。
Figure 0004314271
であるので、変換後のベクトルは、各成分を確率変数、成分の値を確率値とする確率分布ととらえることができる。
以下、カルバック・ライブラー距離算出手段105の説明では、ベクトルの各成分が意味情報に対応している請求項2の構成に基づいて行うこととする。ベクトルの各成分が必要語の終止形の異なりに対応している請求項1の構成でも、同様に説明する。
カルバック・ライブラー距離算出手段105は、単語の対に対し、一方の単語に対応するベクトルと、他方の単語に対応するベクトルとのカルバック・ライブラー距離(二つの確率分布間の距離)を算出する。
単語の対が、単語X,Yとして与えられたとき、カルバック・ライブラー距離算出手段105の処理は以下のようになる。
まず、X,Yのベクトルv(X),v(Y)が以下のようになっているとする。
v(X):=(x1,x2,・・・,xN
v(Y):=(y1,y2,・・・,yN
このとき、XからYへのカルバック・ライブラー距離P(X‖Y)を、
Figure 0004314271
として算出する。
ここで、前記(1)式の、
Figure 0004314271
と定義する。しかし、この定義だとxi≠0かつyi=0であるような成分iが一つでもあると、P(X‖Y)=∞となってしまうため、上位・下位関係にある単語対に対し距離が∞となるものが多数出てしまい、上位・下位関係の単語対の再現率が下がってしまう問題がある。
距離値を常に有限値にする場合は、以下のようにする。
Figure 0004314271
として算出する。
P(X‖Y)は、現実の分布としてv(X)があり、それをv(Y)で近似した場合の情報損失量の期待値を表す。log(xi/yi)が成分iに関する情報損失量である。
単語Yを固定する。情報損失量log(xi/yi)がとりわけ大きくなるのは、yiが0あるいは0に近く、xiがyiと比してはるかに大きい場合である。XがYの下位概念の場合、一般に、Xが成分iの意味情報と共起すれば、Yも成分iの意味情報と共起する傾向があるので、このような事態はあまり生じない。従って、XがYの下位概念の場合、XがYの下位概念でない場合と比較して、カルバック・ライブラー距離P(X‖Y)は小さくなる傾向がある。
なお、請求項1の構成のように、各成分が単語に対応している場合は、Yの下位概念であるXが成分iの単語と共起していても、Yが成分iの単語と共起しているとは限らないことが多分に生じる。請求項2の構成のように、微妙に意味の異なる単語群が同一の意味情報にカテゴライズされていると、Xが成分iの意味情報と共起すれば、Yも成分iの意味情報と共起していることが多い。
ベクトルの長さを1に正規化したときのユークリッド距離は、内積と等価である。この距離尺度は、ベクトル値の差分が小さいものを距離が小さいとするため、上位・下位関係の単語のみならず、兄弟関係の単語も比較的距離が小さいものとして判定する。
カルバック・ライブラー距離を用いれば、単語Yを指定したとき、カルバック・ライブラー距離P(X‖Y)が比較的小さい単語Xを、Yの下位概念の単語として検出することが可能となる。同様に、単語Xを指定したとき、カルバック・ライブラー距離P(X‖Y)が比較的小さい単語Yを、Xの上位概念の単語として検出することが可能となる。
次に請求項3で述べているカルバック・ライブラー距離算出手段105における距離値の補正機能について説明する。
前記のようにカルバック・ライブラー距離を用いても、ときとして、兄弟関係にある単語や、上位・下位・兄弟関係のいずれでもない単語を、比較的距離が小さい単語として判定することがある。
単語X,Yのベクトルv(X),v(Y)と、ある値Dに対し、以下の変数を定義する。典型的なDの値は、0である。
p:v(X),v(Y)で成分の値がともにDより大きい成分の個数
q:v(X)で成分の値がDより大きく、v(Y)で成分の値がD以下である成分の個数
r:v(X)で成分の値がD以下で、v(Y)で成分の値がDより大きい成分の個数
v(X),v(Y)の一致する度合いtの一例として、
Figure 0004314271
をとる。前記tが大きすぎると、共起する意味情報の集合が酷似しているため、XがYの下位概念でなく、兄弟概念である可能性が高くなる。また、前記tが小さすぎると、XはYの下位・兄弟関係のいずれでもない可能性が高くなる。
そこで、例として、あるu(0<u<1)に対し最小値をとる凹型の関数として、
f(t)=g・(t−u 2 +1 (g>0,0<u<1)…(3)
をとり、XとYの補正したカルバック・ライブラー距離P’(X‖Y)を、
P’(X‖Y)=f(t)・P(X‖Y)…(4)
として算出する。補正したカルバック・ライブラー距離P’(X‖Y)では、前記tが大きすぎたり、小さすぎたりした場合、距離値が補正前より大きくなる。従って、Yが指定されたとき、下位概念でないXの検出が抑制されるようになり、Xが指定されたとき、上位概念でないYの検出が抑制されるようになる。
また請求項4で述べているカルバック・ライブラー距離算出手段105における距離値の補正機能は、上記請求項3の詳細説明における、v(X),v(Y)の一致する度合いtを、
Figure 0004314271
とおいた上で、同様に説明される。
すなわち、(5)式のtの関数として(3)式のf(t)をとり、XとYの補正したカルバック・ライブラー距離P’(X‖Y)を(4)式として算出するものである。
また請求項5で述べているカルバック・ライブラー距離算出手段105における距離値の補正機能は、上記請求項3の詳細説明における、v(X),v(Y)の一致する度合いtを、
t=sim(X,Y) (sim(X,Y)はv(X),v(Y)の内積)…(6)
とおいた上で、同様に説明される。
すなわち、(6)式のtの関数として(3)式のf(t)をとり、XとYの補正したカルバック・ライブラー距離P’(X‖Y)を(4)式として算出するものである。
但し、f(t)における定数uの範囲を、一例として、−1<u<1としてもよい。
なお、指定単語の上位・下位概念である単語を検出するための距離尺度として、f(t)そのものを用いると、単に一致する度合いtがuに近いというだけで、指定単語と何ら関係性がない単語が検出される傾向がある。
本発明の単語間関連度算出方法の実施形態例としては、前記請求項1〜5の実施形態例で述べた各処理を実行するものである。
また前記単語間関連度算出方法の各ステップをコンピュータに実行させるためのプログラムを構築するものである。そして当該プログラムを通信回線または記憶媒体からインストールし、CPU等の手段で実施することが可能である。
すなわち前記プログラムを記録した記録媒体を、システム、又は装置に供給し、そのシステム又は装置のCPU(MPU)が記録媒体に格納されたプログラムを読み出し実行することも可能である。この場合記録媒体から読み出されたプログラム自体が上記実施形態の機能を実現することになり、このプログラムを記録した記録媒体としては、例えば、CD−ROM,DVD−ROM,CD−R,CD−RW,MO及びHDD等がある。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、言語処理技術に適用可能である。
本発明の一実施形態例の単語間関連度算出装置の構成図。 本発明の一実施形態例の単語間関連度算出装置における単語辞書の一例を示す説明図。 本発明の一実施形態例で用いる意味カテゴリの集合を示す説明図。 本発明の一実施形態例における形態素解析手段に入力されるテキストの一例を示す説明図。 本発明の一実施形態例における形態素解析の途中の結果の一例を示す説明図。 本発明の一実施形態例における不要単語テーブルの一例を示す説明図。 本発明の一実施形態例における不要品詞テーブルの一例を示す説明図。 本発明の一実施形態例における形態素解析の最終結果の一例を示す説明図。 本発明の一実施形態例における単語集合と意味情報集合との間の共起頻度行列の一例を示す説明図。 本発明の一実施形態例における頻度ハッシュの一例を示す説明図。 本発明の一実施形態例における単語集合と意味情報集合との間の共起頻度行列を表し、図8の形態素解析結果を処理し、図10の頻度ハッシュの頻度を加算した場合の共起頻度行列を示す説明図。
符号の説明
101…形態素解析手段、102…単語辞書、103…ベクトル生成手段、104…相対頻度算出手段、105…カルバック・ライブラー距離算出手段。

Claims (12)

  1. 単語間の関連度を算出する単語間関連度算出装置であって、
    テキストを形態素解析し、処理に必要な単語を特定する形態素解析手段と、
    前記形態素解析手段の解析結果から、任意の単語の対に対し、前記テキストにおける一つの所定の範囲、又は、複数の所定の範囲のそれぞれにおいて、前記対が共起する事象を、すべての所定の範囲にわたって計数した頻度を算出し、各単語に対し、各成分の値が、前記単語と、前記成分に対応づけられた単語の対に対し算出された前記頻度であるベクトルを生成するベクトル生成手段と、
    前記ベクトル生成手段によって生成されたベクトルを、該ベクトルの各成分を全成分の和で割った相対頻度を成分とするベクトルに変換する相対頻度算出手段と、
    単語の対に対し、一方の単語に対応する前記相対頻度算出手段で変換されたベクトルと、他方の単語に対応する前記相対頻度算出手段で変換されたベクトルとのカルバック・ライブラー距離を単語間関連度として算出するカルバック・ライブラー距離算出手段と
    を備えたことを特徴とする単語間関連度算出装置。
  2. 単語間の関連度を算出する単語間関連度算出装置であって、
    単語と前記単語の意味情報の組の集合を格納する辞書と、
    テキストを形態素解析し、処理に必要な単語を特定する形態素解析手段と、
    前記形態素解析手段の解析結果から、前記辞書内の任意の単語と任意の意味情報の対に対し、前記テキストにおける一つの所定の範囲、又は、複数の所定の範囲のそれぞれにおいて、前記対が共起する事象を、すべての所定の範囲にわたって計数した頻度を算出し、各単語に対し、各成分の値が、前記単語と、前記成分に対応づけられた意味情報の対に対し算出された前記頻度であるベクトルを生成するベクトル生成手段と、
    前記ベクトル生成手段によって生成されたベクトルを、該ベクトルの各成分を全成分の和で割った相対頻度を成分とするベクトルに変換する相対頻度算出手段と、
    単語の対に対し、一方の単語に対応する前記相対頻度算出手段で変換されたベクトルと、他方の単語に対応する前記相対頻度算出手段で変換されたベクトルとのカルバック・ライブラー距離を単語間関連度として算出するカルバック・ライブラー距離算出手段と
    を備えたことを特徴とする単語間関連度算出装置。
  3. 前記カルバック・ライブラー距離算出手段は、
    前記対の2つの単語のうち、一方の単語のベクトルの成分の値と、他方の単語のベクトルの対応する成分の値がともにある値より大きい成分の個数を、少なくとも一方の単語のベクトルの成分の値が前記ある値より大きい成分の個数で割った値tを引数とする関数f(t)=g・(t−u) 2 +1(g、uは定数)を、前記カルバック・ライブラー距離に乗じることによって、該距離値を補正する
    ことを特徴とする請求項1または2に記載の単語間関連度算出装置。
  4. 前記カルバック・ライブラー距離算出手段は、
    前記対の2つの単語のうち、一方の単語のベクトルの成分の値と、他方の単語のベクトルの対応する成分の値がともにある値より大きい成分における、より小さい値の和tを引数とする関数f(t)=g・(t−u) 2 +1(g、uは定数)を、前記カルバック・ライブラー距離に乗じることによって、該距離値を補正する
    ことを特徴とする請求項1または2に記載の単語間関連度算出装置。
  5. 前記カルバック・ライブラー距離算出手段は、
    前記対の2つの単語のベクトルの内積tを引数とする関数f(t)=g・(t−u) 2 +1(g、uは定数)を、前記カルバック・ライブラー距離に乗じることによって、該距離値を補正する
    ことを特徴とする請求項1または2に記載の単語間関連度算出装置。
  6. 単語間の関連度を算出する単語間関連度算出方法であって、
    形態素解析手段が、テキストを形態素解析し、処理に必要な単語を特定する形態素解析ステップと、
    ベクトル生成手段が、前記形態素解析手段の解析結果から、任意の単語の対に対し、前記テキストにおける一つの所定の範囲、又は、複数の所定の範囲のそれぞれにおいて、前記対が共起する事象を、すべての所定の範囲にわたって計数した頻度を算出し、各単語に対し、各成分の値が、前記単語と、前記成分に対応づけられた単語の対に対し算出された前記頻度であるベクトルを生成するベクトル生成ステップと、
    相対頻度算出手段が、前記ベクトル生成手段によって生成されたベクトルを、該ベクトルの各成分を全成分の和で割った相対頻度を成分とするベクトルに変換する相対頻度算出ステップと、
    カルバック・ライブラー距離算出手段が、単語の対に対し、一方の単語に対応する前記相対頻度算出手段で変換されたベクトルと、他方の単語に対応する前記相対頻度算出手段で変換されたベクトルとのカルバック・ライブラー距離を単語間関連度として算出するカルバック・ライブラー距離算出ステップと
    を備えたことを特徴とする単語間関連度算出方法。
  7. 単語間の関連度を算出する単語間関連度算出方法であって、
    形態素解析手段が、テキストを形態素解析し、処理に必要な単語を特定する形態素解析ステップと、
    ベクトル生成手段が、前記形態素解析手段の解析結果から、単語と前記単語の意味情報の組の集合を格納した辞書内の任意の単語と任意の意味情報の対に対し、前記テキストにおける一つの所定の範囲、又は、複数の所定の範囲のそれぞれにおいて、前記対が共起する事象を、すべての所定の範囲にわたって計数した頻度を算出し、各単語に対し、各成分の値が、前記単語と、前記成分に対応づけられた意味情報の対に対し算出された前記頻度であるベクトルを生成するベクトル生成ステップと、
    相対頻度算出手段が、前記ベクトル生成手段によって生成されたベクトルを、該ベクトルの各成分を全成分の和で割った相対頻度を成分とするベクトルに変換する相対頻度算出ステップと、
    カルバック・ライブラー距離算出手段が、単語の対に対し、一方の単語に対応する前記相対頻度算出手段で変換されたベクトルと、他方の単語に対応する前記相対頻度算出手段で変換されたベクトルとのカルバック・ライブラー距離を単語間関連度として算出するカルバック・ライブラー距離算出ステップと
    を備えたことを特徴とする単語間関連度算出方法。
  8. 前記カルバック・ライブラー距離算出ステップは、
    前記対の2つの単語のうち、一方の単語のベクトルの成分の値と、他方の単語のベクトルの対応する成分の値がともにある値より大きい成分の個数を、少なくとも一方の単語のベクトルの成分の値が前記ある値より大きい成分の個数で割った値tを引数とする関数f(t)=g・(t−u) 2 +1(g、uは定数)を、前記カルバック・ライブラー距離に乗じることによって、該距離値を補正する
    ことを特徴とする請求項6または7に記載の単語間関連度算出方法。
  9. 前記カルバック・ライブラー距離算出ステップは、
    前記対の2つの単語のうち、一方の単語のベクトルの成分の値と、他方の単語のベクトルの対応する成分の値がともにある値より大きい成分における、より小さい値の和tを引数とする関数f(t)=g・(t−u) 2 +1(g、uは定数)を、前記カルバック・ライブラー距離に乗じることによって、該距離値を補正する
    ことを特徴とする請求項6または7に記載の単語間関連度算出方法。
  10. 前記カルバック・ライブラー距離算出ステップは、
    前記対の2つの単語のベクトルの内積tを引数とする関数f(t)=g・(t−u) 2 +1(g、uは定数)を、前記カルバック・ライブラー距離に乗じることによって、該距離値を補正する
    ことを特徴とする請求項6または7に記載の単語間関連度算出方法。
  11. 請求項6ないし10のいずれか1項に記載の単語間関連度算出方法の各ステップをコンピュータに実行させるためのプログラムとしたことを特徴とする単語間関連度算出プログラム。
  12. 請求項11に記載のプログラムを当該コンピュータが読み取りできる記録媒体に記録したことを特徴とする単語間関連度算出プログラムを記録した記録媒体。
JP2006353983A 2006-12-28 2006-12-28 単語間関連度算出装置、単語間関連度算出方法及び単語間関連度算出プログラム並びにそのプログラムを記録した記録媒体 Active JP4314271B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006353983A JP4314271B2 (ja) 2006-12-28 2006-12-28 単語間関連度算出装置、単語間関連度算出方法及び単語間関連度算出プログラム並びにそのプログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006353983A JP4314271B2 (ja) 2006-12-28 2006-12-28 単語間関連度算出装置、単語間関連度算出方法及び単語間関連度算出プログラム並びにそのプログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2008165473A JP2008165473A (ja) 2008-07-17
JP4314271B2 true JP4314271B2 (ja) 2009-08-12

Family

ID=39694891

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006353983A Active JP4314271B2 (ja) 2006-12-28 2006-12-28 単語間関連度算出装置、単語間関連度算出方法及び単語間関連度算出プログラム並びにそのプログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP4314271B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5131923B2 (ja) * 2008-11-11 2013-01-30 日本電信電話株式会社 単語間関連度判定装置、単語間関連度判定方法、プログラムおよび記録媒体
JP5018817B2 (ja) * 2009-03-27 2012-09-05 沖電気工業株式会社 情報処理装置、関連度計算方法、データ検索方法、及びプログラム

Also Published As

Publication number Publication date
JP2008165473A (ja) 2008-07-17

Similar Documents

Publication Publication Date Title
TWI512507B (zh) A method and apparatus for providing multi-granularity word segmentation results
US11055338B2 (en) Dynamic facet tree generation
JP6187877B2 (ja) 同義語抽出システム、方法および記録媒体
JP6955963B2 (ja) 検索装置、類似度算出方法、およびプログラム
US11625537B2 (en) Analysis of theme coverage of documents
WO2014002775A1 (ja) 同義語抽出システム、方法および記録媒体
JP2014120053A (ja) 質問応答装置、方法、及びプログラム
JPWO2014002774A1 (ja) 同義語抽出システム、方法および記録媒体
JP2006338342A (ja) 単語ベクトル生成装置、単語ベクトル生成方法およびプログラム
JP6867963B2 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
JP2001331515A (ja) 単語シソーラス構築方法及びコンピュータシステムに単語シソーラスの構築を行わせるためのコンピュータソフトウエアプログラム製品
JP4314271B2 (ja) 単語間関連度算出装置、単語間関連度算出方法及び単語間関連度算出プログラム並びにそのプログラムを記録した記録媒体
JP5284761B2 (ja) 文書検索装置及び方法及びプログラム及びプログラムを記録した記録媒体
JP2009277099A (ja) 類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
JP4567025B2 (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
JP4499003B2 (ja) 情報処理方法及び装置及びプログラム
JP5916016B2 (ja) 同義判定装置、同義学習装置、及びプログラム
KR20160086255A (ko) 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법
JP5364529B2 (ja) 辞書登録装置、文書ラベル判定システムおよび辞書登録プログラム
JPWO2009113289A1 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP5106431B2 (ja) 機械翻訳装置、プログラム及び方法
CN110598209B (zh) 用于提取关键词的方法、系统及存储介质
Alian et al. Unsupervised learning blocking keys technique for indexing Arabic entity resolution
JP2011243166A (ja) テキスト要約装置、テキスト要約方法及びテキスト要約プログラム

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080519

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090512

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090518

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120522

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4314271

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130522

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140522

Year of fee payment: 5

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350