JP4314271B2

JP4314271B2 - 単語間関連度算出装置、単語間関連度算出方法及び単語間関連度算出プログラム並びにそのプログラムを記録した記録媒体

Info

Publication number: JP4314271B2
Application number: JP2006353983A
Authority: JP
Inventors: 克人別所; 俊郎内山; 良治片岡
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2006-12-28
Filing date: 2006-12-28
Publication date: 2009-08-12
Anticipated expiration: 2026-12-28
Also published as: JP2008165473A

Description

本発明は、単語間の関連度を算出する単語間関連度算出装置、単語間関連度算出方法及び単語間関連度算出プログラム並びにそのプログラムを記録した記録媒体に関する。

単語間の関連度を算出する従来技術としては、例えば下記非特許文献１、２に記載の手法がある。この非特許文献１の手法では、テキスト中の単語間の共起頻度を算出して単語間共起頻度行列を作成する。該行列の各行ベクトルは、対応する単語の、他の単語と共起するパターンを表している。意味の似た単語は、共通の単語と共起する傾向があるので、対応するパターンも似る傾向がある。そこで、単語間の関連度を、対応するベクトルの内積として算出する。

また非特許文献２の手法では、単語に意味属性が付随した辞書を用いて、テキスト中の単語・意味属性間の共起頻度を算出し単語・意味属性間共起頻度行列を作成する。該行列の各行ベクトルは、対応する単語の、意味属性と共起するパターンを表している。意味の似た単語は、共通の意味属性と共起する傾向があるので、対応するパターンも似る傾向がある。そこで、単語間の関連度を、対応するベクトルの内積として算出する。

非特許文献１の手法も、非特許文献２の手法も、共起頻度行列を特異値分解して列数の縮退した行列に変換することにより、ベクトル間の関連度の精度を上げている。

尚、本発明で行われる、ベクトル生成処理は例えば下記非特許文献２に記載の処理を利用し、形態素解析処理は例えば下記非特許文献３に記載の処理を利用し、カルバック・ライブラー距離算出処理は例えば下記非特許文献４に記載の処理を利用する。
Ｈ．Ｓｃｈｕｔｚｅ，ＤｉｍｅｎｓｉｏｎｓｏｆＭｅａｎｉｎｇ，Ｐｒｏｃ．ｏｆＳｕｐｅｒｃｏｍｐｕｔｉｎｇ’９２，ｐｐ．７８６−７９６，１９９２．別所克人，内山俊郎，片岡良治：単語・意味属性間共起に基づく概念ベースの拡張方式，情報処理学会研究報告，Ｖｏｌ．ＳＩＧ−ＩＣＳ１４４，ｐｐ．２９−３４，２００６．日本語情報処理、電子通信学会編著、監修：長尾真、執筆：森健一ほか、電子情報通信学会、１９８４．５カルバック・ライブラー距離算出処理ＯｎＩｎｆｏｒｍａｔｉｏｎａｎｄＳｕｆｆｉｃｉｅｎｃｙ／Ｓ．Ｋｕｌｌｂａｃｋ，Ｒ．Ａ．ＬｅｉｂｌｅｒＡｎｎａｌｓｏｆＭａｔｈｅｍａｔｉｃａｌＳｔａｔｉｓｔｉｃｓ，Ｖｏｌ．２２，Ｎｏ．１．（Ｍａｒ．，１９５１），ｐｐ．７９−８６．

上記、非特許文献１や非特許文献２の手法では、一つの単語と関連度の高い単語として、該単語の上位・下位概念にあたる単語のみならず、同じ上位概念をもつ兄弟関係にある単語も導出するという問題がある。例えば、「精神病」という単語に対し、その下位概念にあたる「鬱病」や「ＰＴＳＤ」といった単語のみならず、「糖尿病」や「心臓病」といった、共通の上位概念「病気」をもつ兄弟関係にある単語も導出してしまう。このことは、兄弟関係にあたる単語は、その共起パターンが似通っていることに起因する。このように従来手法では、概念として、縦方向への連想のみならず、横方向への連想も行ってしまう。

このことにより、この関連度を用いた言語処理、例えば検索において、「精神病」というキーワードを入力すると、「鬱病」や「ＰＴＳＤ」といった精神病に関する文書のみならず、「糖尿病」や「心臓病」といった精神病とは異なる文書も検索されてしまい、適合率に問題があった。

本発明は、この課題を解決するために考え出されたものであり、本発明の目的は、指定した単語に対し、その上位・下位概念にあたる単語に、より高い関連度を与えることが可能な単語間関連度算出装置、単語間関連度算出方法及び単語間関連度算出プログラム並びにそのプログラムを記録した記録媒体を提供することにある。

上記課題を解決するための請求項１に記載の単語間関連度算出装置は、単語間の関連度を算出する単語間関連度算出装置であって、テキストを形態素解析し、処理に必要な単語を特定する形態素解析手段と、前記形態素解析手段の解析結果から、任意の単語の対に対し、前記テキストにおける一つの所定の範囲、又は、複数の所定の範囲のそれぞれにおいて、前記対が共起する事象を、すべての所定の範囲にわたって計数した頻度を算出し、各単語に対し、各成分の値が、前記単語と、前記成分に対応づけられた単語の対に対し算出された前記頻度であるベクトルを生成するベクトル生成手段と、前記ベクトル生成手段によって生成されたベクトルを、該ベクトルの各成分を全成分の和で割った相対頻度を成分とするベクトルに変換する相対頻度算出手段と、単語の対に対し、一方の単語に対応する前記相対頻度算出手段で変換されたベクトルと、他方の単語に対応する前記相対頻度算出手段で変換されたベクトルとのカルバック・ライブラー距離を単語間関連度として算出するカルバック・ライブラー距離算出手段とを備えたことを特徴としている。

また、請求項２に記載の単語間関連度算出装置は、単語間の関連度を算出する単語間関連度算出装置であって、単語と前記単語の意味情報の組の集合を格納する辞書と、テキストを形態素解析し、処理に必要な単語を特定する形態素解析手段と、前記形態素解析手段の解析結果から、前記辞書内の任意の単語と任意の意味情報の対に対し、前記テキストにおける一つの所定の範囲、又は、複数の所定の範囲のそれぞれにおいて、前記対が共起する事象を、すべての所定の範囲にわたって計数した頻度を算出し、各単語に対し、各成分の値が、前記単語と、前記成分に対応づけられた意味情報の対に対し算出された前記頻度であるベクトルを生成するベクトル生成手段と、前記ベクトル生成手段によって生成されたベクトルを、該ベクトルの各成分を全成分の和で割った相対頻度を成分とするベクトルに変換する相対頻度算出手段と、単語の対に対し、一方の単語に対応する前記相対頻度算出手段で変換されたベクトルと、他方の単語に対応する前記相対頻度算出手段で変換されたベクトルとのカルバック・ライブラー距離を単語間関連度として算出するカルバック・ライブラー距離算出手段とを備えたことを特徴としている。

また、請求項６に記載の単語間関連度算出方法は、単語間の関連度を算出する単語間関連度算出方法であって、形態素解析手段が、テキストを形態素解析し、処理に必要な単語を特定する形態素解析ステップと、ベクトル生成手段が、前記形態素解析手段の解析結果から、任意の単語の対に対し、前記テキストにおける一つの所定の範囲、又は、複数の所定の範囲のそれぞれにおいて、前記対が共起する事象を、すべての所定の範囲にわたって計数した頻度を算出し、各単語に対し、各成分の値が、前記単語と、前記成分に対応づけられた単語の対に対し算出された前記頻度であるベクトルを生成するベクトル生成ステップと、相対頻度算出手段が、前記ベクトル生成手段によって生成されたベクトルを、該ベクトルの各成分を全成分の和で割った相対頻度を成分とするベクトルに変換する相対頻度算出ステップと、カルバック・ライブラー距離算出手段が、単語の対に対し、一方の単語に対応する前記相対頻度算出手段で変換されたベクトルと、他方の単語に対応する前記相対頻度算出手段で変換されたベクトルとのカルバック・ライブラー距離を単語間関連度として算出するカルバック・ライブラー距離算出ステップとを備えたことを特徴としている。

また、請求項７に記載の単語間関連度算出方法は、単語間の関連度を算出する単語間関連度算出方法であって、形態素解析手段が、テキストを形態素解析し、処理に必要な単語を特定する形態素解析ステップと、ベクトル生成手段が、前記形態素解析手段の解析結果から、単語と前記単語の意味情報の組の集合を格納した辞書内の任意の単語と任意の意味情報の対に対し、前記テキストにおける一つの所定の範囲、又は、複数の所定の範囲のそれぞれにおいて、前記対が共起する事象を、すべての所定の範囲にわたって計数した頻度を算出し、各単語に対し、各成分の値が、前記単語と、前記成分に対応づけられた意味情報の対に対し算出された前記頻度であるベクトルを生成するベクトル生成ステップと、相対頻度算出手段が、前記ベクトル生成手段によって生成されたベクトルを、該ベクトルの各成分を全成分の和で割った相対頻度を成分とするベクトルに変換する相対頻度算出ステップと、カルバック・ライブラー距離算出手段が、単語の対に対し、一方の単語に対応する前記相対頻度算出手段で変換されたベクトルと、他方の単語に対応する前記相対頻度算出手段で変換されたベクトルとのカルバック・ライブラー距離を単語間関連度として算出するカルバック・ライブラー距離算出ステップとを備えたことを特徴としている。

上記の構成において、相対頻度算出手段（ステップ）により変換された単語のベクトルは、各成分を確率変数、成分の値を確率値とする確率分布ととらえることができる。

そしてカルバック・ライブラー距離算出手段（ステップ）により算出されたカルバック・ライブラー距離（一方の単語と他方の単語間のベクトル間距離）は確率分布の距離ととらえられる。

この距離は、一方の確率分布を他方の確率分布で近似したときの情報損失量を意味し、方向性がある。下位概念の単語のベクトルから、上位概念の単語のベクトルへの近似は、そのような関係にないベクトル間における近似と比べ、情報損失量がより小さくなる。このため、単語を指定したとき、該単語と上位・下位関係にある単語は、そうでない単語よりも距離が小さくなり、これによって単語間の関連度、すなわち上位・下位関係の判定を精度良く行うことができる。

また請求項２，７の構成においては、単語と、成分に対応づけられた意味情報の対に対して算出した頻度であるベクトルを用いているので、より精度の高い関連度を算出することができる。

また請求項３に記載の単語間関連度算出装置は、請求項１または２において、前記カルバック・ライブラー距離算出手段は、前記対の２つの単語のうち、一方の単語のベクトルの成分の値と、他方の単語のベクトルの対応する成分の値がともにある値より大きい成分の個数を、少なくとも一方の単語のベクトルの成分の値が前記ある値より大きい成分の個数で割った値ｔを引数とする関数ｆ（ｔ）＝ｇ・（ｔ−ｕ） ² ＋１（ｇ、ｕは定数）を、前記カルバック・ライブラー距離に乗じることによって、該距離値を補正することを特徴としている。

また請求項４に記載の単語間関連度算出装置は、請求項１または２において、前記カルバック・ライブラー距離算出手段は、前記対の２つの単語のうち、一方の単語のベクトルの成分の値と、他方の単語のベクトルの対応する成分の値がともにある値より大きい成分における、より小さい値の和ｔを引数とする関数ｆ（ｔ）＝ｇ・（ｔ−ｕ） ² ＋１（ｇ、ｕは定数）を、前記カルバック・ライブラー距離に乗じることによって、該距離値を補正することを特徴としている。

また請求項５に記載の単語間関連度算出装置は、請求項１または２において、前記カルバック・ライブラー距離算出手段は、前記対の２つの単語のベクトルの内積ｔを引数とする関数ｆ（ｔ）＝ｇ・（ｔ−ｕ） ² ＋１（ｇ、ｕは定数）を、前記カルバック・ライブラー距離に乗じることによって、該距離値を補正することを特徴としている。

また請求項８に記載の単語間関連度算出方法は、請求項６または７において、前記カルバック・ライブラー距離算出ステップは、前記対の２つの単語のうち、一方の単語のベクトルの成分の値と、他方の単語のベクトルの対応する成分の値がともにある値より大きい成分の個数を、少なくとも一方の単語のベクトルの成分の値が前記ある値より大きい成分の個数で割った値ｔを引数とする関数ｆ（ｔ）＝ｇ・（ｔ−ｕ） ² ＋１（ｇ、ｕは定数）を、前記カルバック・ライブラー距離に乗じることによって、該距離値を補正することを特徴としている。

また請求項９に記載の単語間関連度算出方法は、請求項６または７において、前記カルバック・ライブラー距離算出ステップは、前記対の２つの単語のうち、一方の単語のベクトルの成分の値と、他方の単語のベクトルの対応する成分の値がともにある値より大きい成分における、より小さい値の和ｔを引数とする関数ｆ（ｔ）＝ｇ・（ｔ−ｕ） ² ＋１（ｇ、ｕは定数）を、前記カルバック・ライブラー距離に乗じることによって、該距離値を補正することを特徴としている。

また請求項１０に記載の単語間関連度算出方法は、請求項６または７において、前記カルバック・ライブラー距離算出ステップは、前記対の２つの単語のベクトルの内積ｔを引数とする関数ｆ（ｔ）＝ｇ・（ｔ−ｕ） ² ＋１（ｇ、ｕは定数）を、前記カルバック・ライブラー距離に乗じることによって、該距離値を補正することを特徴としている。

上記の構成において、２つの単語のベクトルの一致度合いが大きすぎたり小さすぎたりする場合であっても、距離値を補正することができ、精度の高い上位・下位関係の判定を行うことができる。

また請求項１１に記載の単語間関連度算出プログラムは、請求項６ないし１０のいずれか１項に記載の単語間関連度算出方法の各ステップをコンピュータに実行させるためのプログラムとしたことを特徴としている。

また請求項１２に記載の記録媒体は、請求項１１に記載のプログラムを当該コンピュータが読み取りできる記録媒体に記録したことを特徴としている。

（１）請求項１〜１２に記載の発明によれば、コーパス（コンピュータによる検索が可能な言語データ）を用意するだけで任意の単語間の関連度、すなわち、上位・下位関係の判定を精度良く行うことができる。

すなわち、単語のベクトルを、各成分を確率変数、成分の値を確率値とする確率分布ととらえ、２単語のベクトルの間の距離を、確率分離の距離ととらえる。この距離は、一方の確率分布を他方の確率分布で近似したときの情報損失量を意味し、方向性がある。下位概念の単語のベクトルから、上位概念の単語のベクトルへの近似は、そのような関係にないベクトル間における近似と比べ、情報損失量がより小さくなる。このため、単語を指定したとき、該単語と上位・下位関係にある単語は、そうでない単語よりも距離が小さくなり、これによって単語間の関連度が精度良く算出される。
（２）請求項２，７に記載の発明によれば、単語と、成分に対応づけられた意味情報の対に対して算出した頻度であるベクトルを用いているので、より精度の高い関連度を算出することができる。
（３）請求項３，４，５，８，９，１０に記載の発明によれば、２つの単語のベクトルの一致度合いが大きすぎたり小さすぎたりする場合であっても、距離値を補正することができ、精度の高い上位・下位関係の判定を行うことができる。

以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。

図１は、本発明の実施形態例における単語間関連度算出装置の構成例を示す。１０１は、入力されるテキストの形態素を解析して、処理に必要な単語を特定する形態素解析手段であり、例えば非特許文献３に記載の技術を利用する。

１０２は形態素解析用の単語辞書であり、請求項１の発明では単語と品詞情報の組の集合が格納され、請求項２の発明では単語、品詞情報および単語の意味情報の組の集合が格納されている。

１０３は、例えば非特許文献２に記載の技術を利用したベクトル生成手段であり、請求項１の発明においては、前記形態素解析手段１０１の解析結果から、任意の単語の対に対し、前記テキストにおける一つまたは複数の所定の範囲のそれぞれにおいて、前記対が共起する事象を、テキスト全体にわたって計数した頻度を算出し、各単語に対し、各成分の値が、前記単語と、前記成分に対応づけられた単語の対に対し算出された前記頻度であるベクトルを生成する。

またベクトル生成手段１０３は、請求項２の発明においては、前記形態素解析手段１０１の解析結果から、前記辞書内の任意の単語と任意の意味情報の対に対し、前記テキストにおける一つまたは複数の所定の範囲のそれぞれにおいて、前記対が共起する事象を、テキスト全体にわたって計数した頻度を算出し、各単語に対し、各成分の値が、前記単語と、前記成分に対応づけられた意味情報の対に対し算出された前記頻度であるベクトルを生成する。

１０４は、ベクトル生成手段１０３によって生成されたベクトルを、該ベクトルの各成分を全成分の和で割った相対頻度を成分とするベクトルに変換する相対頻度算出手段である。

１０５は、単語の対に対し、一方の単語に対応する前記相対頻度算出手段１０４で変換されたベクトルと、他方の単語に対応する前記相対頻度算出手段１０４で変換されたベクトルとのカルバック・ライブラー距離を算出するカルバック・ライブラー距離算出手段であり、例えば非特許文献４に記載の技術を利用する。

前記形態素解析手段１０１、ベクトル生成手段１０３、相対頻度算出手段１０４、カルバック・ライブラー距離算出手段１０５の各機能は、例えばコンピュータによって達成される。

前記形態素解析は、単語辞書１０２を参照して行われるものであり、図２はその辞書の内容の一例である。同図では、単語辞書は、１レコードが１単語に関する情報となっており、１レコードは、カンマで区切られた３つの項目から構成されている。第１項目は単語の表記であり、第２項目は該単語の品詞情報である。第３項目は該単語の意味情報である。本発明の請求項１の構成では、この意味情報は付随している必要はない。

単語の意味情報とは、単語の属する意味カテゴリを表す。意味カテゴリとは一般に、事物を抽象化した概念である。これは一般に、人が個々の単語の意味を吟味した上で得られるものである。意味カテゴリの集合は、一例として図３で表されるような意味体系をなしている。図３では、各意味カテゴリを言葉として表現しているが、意味カテゴリ自体は必ずしも言葉として表現されているとは限らない概念である。各意味カテゴリには、それを特定するためのＩＤが付与されている。本実施例では、このＩＤを便宜上、意味情報と同一視する。

本発明の請求項２の構成では、この意味情報を用いる。意味体系は、それ自体が上位・下位の概念体系を表しているものの、人手で作成するため、作成の労力が大きいことや、作成者の恣意性に左右されることから、その体系は一般に不完全性が大きい。例えば、「病気」という意味情報に、「精神病」や「鬱病」といった単語が分類されていたりして、これらの単語が上位・下位関係になっていないということがある。また、上位・下位関係にない意味情報に属している単語が、実は上位・下位関係にあるということもある。このように、意味体系は、人手で作成するため、単語の意味に関する貴重な情報を含んでいるものの、上位・下位関係を正確かつ網羅的には表していない。

図２の単語辞書において、一般に内容語には、一つまたは複数の意味情報が対応している。図２においては、複数の意味情報をコロンで区切っている。１単語に複数の意味情報があるとき、よく使用される順に意味情報を並べておいてもよい。新しい単語を単語辞書に登録するとき、既存の意味情報のどれが該単語に対応するかを、一般に、人が該単語の品詞や意味を吟味した上で付与する。活用語に対しては、終止形も登録しておいてもよい。

図４は、形態素解析手段１０１に入力されるテキストの一例であり、図５は、図４のテキストの形態素解析結果の一例を示している。図５において、形態素間は”／”で区切られている。各形態素は、単語表記、終止形、品詞情報、意味情報、必要語フラグから成っており、それぞれ”，”で区切られている。単語辞書１０２に終止形が登録されていない場合は、形態素解析後に、単語表記と品詞情報から終止形を導出する。終止形がない単語に対しては、単語表記を終止形とする。必要語フラグは、形態素解析後はヌルである。

なお請求項１の構成では、形態素解析結果に意味情報のカラムがなくてもよい。また、請求項２の構成で、形態素解析用の単語辞書と、単語とその意味情報の組の集合が格納された辞書とを別にしておき、処理の過程で、ある単語の意味情報を取得する必要があるときは、該単語で後者の辞書を検索して、対応する意味情報を取得するというようにしてもよい。以後の説明は、形態素解析用の単語辞書１０２に意味情報も格納されており、形態素解析結果に意味情報も出力されているという前提で述べる。

次に、不要単語テーブル、不要品詞テーブルを参照することにより、形態素解析結果中の形態素が、その後の処理に必要な語かそうでないかを判断し、必要語ならば必要語フラグを１とし、必要語でないならば必要語フラグを０とする。

図６は、不要単語テーブルの一例であり、不要とされる各単語の表記が１レコードとして記述されている。図７は、不要品詞テーブルの一例であり、不要とされる各品詞情報が１レコードとして記述されている。対象としている形態素の単語表記が、不要単語テーブルのあるレコードと一致するか、あるいは、対象としている形態素の品詞情報が、不要品詞テーブルのあるレコードと一致する場合、該形態素を必要語でないと判断する。この処理により、図５の形態素解析結果は、図８のようになる。

ベクトル生成手段１０３は、形態素解析手段１０１で得られた形態素解析結果から、必要語の終止形の異なりの集合を取得する。次に、請求項２の構成では、図９のような、取得した必要語の終止形の異なりの集合（単に単語集合と呼ぶ）と意味情報集合との間の共起頻度行列を生成する。共起頻度行列における各行は一単語に対応し、各列は一意味情報に対応する。各行ベクトルは、対応する単語の、各成分が意味情報に対応し、該成分の値が該単語と該意味情報との間の共起頻度であるようなベクトルである。各行ベクトルの全成分の値を０にセットする。

なお、請求項１の構成では、各列に必要語の終止形の異なりを対応させる。このとき、後の処理の計算量低減のため、各列に対応する必要語の終止形の異なりの集合を、入力テキスト中における高頻度語のみに限定してもよい。但し、限定することにより、請求項２の構成のような意味情報を使用する場合と比べ、ベクトルの情報量が減るので、関連度の精度は意味情報を使用する場合の方が高い傾向がある。

次に、請求項２の構成では、単語と意味情報とが共起する頻度を算出する処理の対象となるテキスト中の範囲を決定する。所定の範囲としては、一文、一段落や所定の数の単語の列等がある。所定の範囲を一文とした場合は、まず、テキスト中の最初の文を処理対象とする。処理対象とした文に関する処理が終了したならば、その次の文を処理対象とする。最後の文に関する処理が終了したならば、処理対象の文はないので、ベクトル生成手段１０３の処理を終了する。所定の範囲を、他のものとした場合も同様である。

各処理対象のテキストの範囲における処理は、以下のように行う。

まず前記範囲における必要語の終止形の意味情報の頻度をカウントする。ここで、単語辞書１０２において、１単語における複数の意味情報が、よく使用される順に並べられており、形態素解析結果における形態素中の意味情報の順番もそれを引き継いでいる場合、形態素中の意味情報の列の中の最初から指定した数だけの意味情報のみをカウントする対象としてもよい。図８に表示した、テキストの１範囲の形態素解析結果からは、図１０の、意味情報とその頻度の組の集合である頻度ハッシュが得られる。

次に、前記範囲における各必要語の終止形に対し、以下の処理を行う。共起頻度行列中の、該必要語の終止形に対応する行ベクトルの、頻度ハッシュにおける各意味情報に対応する成分の値に、該頻度ハッシュにおける該意味情報の頻度を加算する。共起頻度行列が図９の状態で、かつ図８に表示した、テキストの１範囲の形態素解析結果を処理した場合、図１１の共起頻度行列が得られる。

全ての範囲に対する処理が終了すると、入力テキストにおける任意の単語と任意の意味情報との間の共起頻度が記録された行列が得られ、この行列における各行ベクトルが、ベクトル生成手段１０３が求める、対応する単語のベクトルとなる。

上記の、一範囲における単語と意味情報との間の共起頻度算出は、単語の頻度をカウントするプロセスが一切ないようにして実行できる。したがって、単語・意味情報間共起頻度行列の生成は、単語間共起頻度行列を生成するプロセスを介在させることなく実行できる。

なお、ここでは、一範囲において、ある必要語の終止形ＭがＡ回、意味情報ＮがＢ回出現している場合、該範囲におけるＭとＮの共起頻度をＡ×Ｂとしたが、ＭやＮが同一の範囲に複数回出現しても、該範囲における共起頻度は１とするというようにすることもできる。

請求項１の構成におけるベクトル生成手段１０３の共起頻度算出は、上記の請求項２の構成での説明における「（必要語の終止形の）意味情報」を、共起頻度行列の列に対応する必要語の終止形の異なりとして行う。

相対頻度算出手段１０４は、ベクトル生成手段１０３によって生成されたベクトルの各成分の値を、相対頻度に変換する。

ベクトル生成手段１０３によって生成されたある単語のベクトルが、（ａ₁，ａ₂，・・・，ａ_N）であったとする。相対頻度算出手段１０４によって、この単語のベクトルは、

に変換される。各ｘ_i（１≦ｉ≦Ｎ）は、変換前のベクトルにおける、対応する成分の値の、全成分の値の和に対する相対頻度である。

であるので、変換後のベクトルは、各成分を確率変数、成分の値を確率値とする確率分布ととらえることができる。

以下、カルバック・ライブラー距離算出手段１０５の説明では、ベクトルの各成分が意味情報に対応している請求項２の構成に基づいて行うこととする。ベクトルの各成分が必要語の終止形の異なりに対応している請求項１の構成でも、同様に説明する。

カルバック・ライブラー距離算出手段１０５は、単語の対に対し、一方の単語に対応するベクトルと、他方の単語に対応するベクトルとのカルバック・ライブラー距離（二つの確率分布間の距離）を算出する。

単語の対が、単語Ｘ，Ｙとして与えられたとき、カルバック・ライブラー距離算出手段１０５の処理は以下のようになる。

まず、Ｘ，Ｙのベクトルｖ（Ｘ），ｖ（Ｙ）が以下のようになっているとする。

ｖ（Ｘ）：＝（ｘ₁，ｘ₂，・・・，ｘ_N）
ｖ（Ｙ）：＝（ｙ₁，ｙ₂，・・・，ｙ_N）
このとき、ＸからＹへのカルバック・ライブラー距離Ｐ（Ｘ‖Ｙ）を、

として算出する。

ここで、前記（１）式の、

と定義する。しかし、この定義だとｘ_i≠０かつｙ_i＝０であるような成分ｉが一つでもあると、Ｐ（Ｘ‖Ｙ）＝∞となってしまうため、上位・下位関係にある単語対に対し距離が∞となるものが多数出てしまい、上位・下位関係の単語対の再現率が下がってしまう問題がある。

距離値を常に有限値にする場合は、以下のようにする。

として算出する。

Ｐ（Ｘ‖Ｙ）は、現実の分布としてｖ（Ｘ）があり、それをｖ（Ｙ）で近似した場合の情報損失量の期待値を表す。ｌｏｇ（ｘ_i／ｙ_i）が成分ｉに関する情報損失量である。

単語Ｙを固定する。情報損失量ｌｏｇ（ｘ_i／ｙ_i）がとりわけ大きくなるのは、ｙ_iが０あるいは０に近く、ｘ_iがｙ_iと比してはるかに大きい場合である。ＸがＹの下位概念の場合、一般に、Ｘが成分ｉの意味情報と共起すれば、Ｙも成分ｉの意味情報と共起する傾向があるので、このような事態はあまり生じない。従って、ＸがＹの下位概念の場合、ＸがＹの下位概念でない場合と比較して、カルバック・ライブラー距離Ｐ（Ｘ‖Ｙ）は小さくなる傾向がある。

なお、請求項１の構成のように、各成分が単語に対応している場合は、Ｙの下位概念であるＸが成分ｉの単語と共起していても、Ｙが成分ｉの単語と共起しているとは限らないことが多分に生じる。請求項２の構成のように、微妙に意味の異なる単語群が同一の意味情報にカテゴライズされていると、Ｘが成分ｉの意味情報と共起すれば、Ｙも成分ｉの意味情報と共起していることが多い。

ベクトルの長さを１に正規化したときのユークリッド距離は、内積と等価である。この距離尺度は、ベクトル値の差分が小さいものを距離が小さいとするため、上位・下位関係の単語のみならず、兄弟関係の単語も比較的距離が小さいものとして判定する。

カルバック・ライブラー距離を用いれば、単語Ｙを指定したとき、カルバック・ライブラー距離Ｐ（Ｘ‖Ｙ）が比較的小さい単語Ｘを、Ｙの下位概念の単語として検出することが可能となる。同様に、単語Ｘを指定したとき、カルバック・ライブラー距離Ｐ（Ｘ‖Ｙ）が比較的小さい単語Ｙを、Ｘの上位概念の単語として検出することが可能となる。

次に請求項３で述べているカルバック・ライブラー距離算出手段１０５における距離値の補正機能について説明する。

前記のようにカルバック・ライブラー距離を用いても、ときとして、兄弟関係にある単語や、上位・下位・兄弟関係のいずれでもない単語を、比較的距離が小さい単語として判定することがある。

単語Ｘ，Ｙのベクトルｖ（Ｘ），ｖ（Ｙ）と、ある値Ｄに対し、以下の変数を定義する。典型的なＤの値は、０である。

ｐ：ｖ（Ｘ），ｖ（Ｙ）で成分の値がともにＤより大きい成分の個数
ｑ：ｖ（Ｘ）で成分の値がＤより大きく、ｖ（Ｙ）で成分の値がＤ以下である成分の個数
ｒ：ｖ（Ｘ）で成分の値がＤ以下で、ｖ（Ｙ）で成分の値がＤより大きい成分の個数
ｖ（Ｘ），ｖ（Ｙ）の一致する度合いｔの一例として、

をとる。前記ｔが大きすぎると、共起する意味情報の集合が酷似しているため、ＸがＹの下位概念でなく、兄弟概念である可能性が高くなる。また、前記ｔが小さすぎると、ＸはＹの下位・兄弟関係のいずれでもない可能性が高くなる。

そこで、例として、あるｕ（０＜ｕ＜１）に対し最小値をとる凹型の関数として、
ｆ（ｔ）＝ｇ・（ｔ−ｕ） ²＋１（ｇ＞０，０＜ｕ＜１）…（３）
をとり、ＸとＹの補正したカルバック・ライブラー距離Ｐ’（Ｘ‖Ｙ）を、
Ｐ’（Ｘ‖Ｙ）＝ｆ（ｔ）・Ｐ（Ｘ‖Ｙ）…（４）
として算出する。補正したカルバック・ライブラー距離Ｐ’（Ｘ‖Ｙ）では、前記ｔが大きすぎたり、小さすぎたりした場合、距離値が補正前より大きくなる。従って、Ｙが指定されたとき、下位概念でないＸの検出が抑制されるようになり、Ｘが指定されたとき、上位概念でないＹの検出が抑制されるようになる。

また請求項４で述べているカルバック・ライブラー距離算出手段１０５における距離値の補正機能は、上記請求項３の詳細説明における、ｖ（Ｘ），ｖ（Ｙ）の一致する度合いｔを、

とおいた上で、同様に説明される。

すなわち、（５）式のｔの関数として（３）式のｆ（ｔ）をとり、ＸとＹの補正したカルバック・ライブラー距離Ｐ’（Ｘ‖Ｙ）を（４）式として算出するものである。

また請求項５で述べているカルバック・ライブラー距離算出手段１０５における距離値の補正機能は、上記請求項３の詳細説明における、ｖ（Ｘ），ｖ（Ｙ）の一致する度合いｔを、
ｔ＝ｓｉｍ（Ｘ，Ｙ）（ｓｉｍ（Ｘ，Ｙ）はｖ（Ｘ），ｖ（Ｙ）の内積）…（６）
とおいた上で、同様に説明される。

すなわち、（６）式のｔの関数として（３）式のｆ（ｔ）をとり、ＸとＹの補正したカルバック・ライブラー距離Ｐ’（Ｘ‖Ｙ）を（４）式として算出するものである。

但し、ｆ（ｔ）における定数ｕの範囲を、一例として、−１＜ｕ＜１としてもよい。

なお、指定単語の上位・下位概念である単語を検出するための距離尺度として、ｆ（ｔ）そのものを用いると、単に一致する度合いｔがｕに近いというだけで、指定単語と何ら関係性がない単語が検出される傾向がある。

本発明の単語間関連度算出方法の実施形態例としては、前記請求項１〜５の実施形態例で述べた各処理を実行するものである。

また前記単語間関連度算出方法の各ステップをコンピュータに実行させるためのプログラムを構築するものである。そして当該プログラムを通信回線または記憶媒体からインストールし、ＣＰＵ等の手段で実施することが可能である。

すなわち前記プログラムを記録した記録媒体を、システム、又は装置に供給し、そのシステム又は装置のＣＰＵ（ＭＰＵ）が記録媒体に格納されたプログラムを読み出し実行することも可能である。この場合記録媒体から読み出されたプログラム自体が上記実施形態の機能を実現することになり、このプログラムを記録した記録媒体としては、例えば、ＣＤ−ＲＯＭ，ＤＶＤ−ＲＯＭ，ＣＤ−Ｒ，ＣＤ−ＲＷ，ＭＯ及びＨＤＤ等がある。

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。

本発明は、言語処理技術に適用可能である。

本発明の一実施形態例の単語間関連度算出装置の構成図。本発明の一実施形態例の単語間関連度算出装置における単語辞書の一例を示す説明図。本発明の一実施形態例で用いる意味カテゴリの集合を示す説明図。本発明の一実施形態例における形態素解析手段に入力されるテキストの一例を示す説明図。本発明の一実施形態例における形態素解析の途中の結果の一例を示す説明図。本発明の一実施形態例における不要単語テーブルの一例を示す説明図。本発明の一実施形態例における不要品詞テーブルの一例を示す説明図。本発明の一実施形態例における形態素解析の最終結果の一例を示す説明図。本発明の一実施形態例における単語集合と意味情報集合との間の共起頻度行列の一例を示す説明図。本発明の一実施形態例における頻度ハッシュの一例を示す説明図。本発明の一実施形態例における単語集合と意味情報集合との間の共起頻度行列を表し、図８の形態素解析結果を処理し、図１０の頻度ハッシュの頻度を加算した場合の共起頻度行列を示す説明図。

符号の説明

１０１…形態素解析手段、１０２…単語辞書、１０３…ベクトル生成手段、１０４…相対頻度算出手段、１０５…カルバック・ライブラー距離算出手段。

Claims

単語間の関連度を算出する単語間関連度算出装置であって、
テキストを形態素解析し、処理に必要な単語を特定する形態素解析手段と、
前記形態素解析手段の解析結果から、任意の単語の対に対し、前記テキストにおける一つの所定の範囲、又は、複数の所定の範囲のそれぞれにおいて、前記対が共起する事象を、すべての所定の範囲にわたって計数した頻度を算出し、各単語に対し、各成分の値が、前記単語と、前記成分に対応づけられた単語の対に対し算出された前記頻度であるベクトルを生成するベクトル生成手段と、
前記ベクトル生成手段によって生成されたベクトルを、該ベクトルの各成分を全成分の和で割った相対頻度を成分とするベクトルに変換する相対頻度算出手段と、
単語の対に対し、一方の単語に対応する前記相対頻度算出手段で変換されたベクトルと、他方の単語に対応する前記相対頻度算出手段で変換されたベクトルとのカルバック・ライブラー距離を単語間関連度として算出するカルバック・ライブラー距離算出手段と
を備えたことを特徴とする単語間関連度算出装置。
単語間の関連度を算出する単語間関連度算出装置であって、
単語と前記単語の意味情報の組の集合を格納する辞書と、
テキストを形態素解析し、処理に必要な単語を特定する形態素解析手段と、
前記形態素解析手段の解析結果から、前記辞書内の任意の単語と任意の意味情報の対に対し、前記テキストにおける一つの所定の範囲、又は、複数の所定の範囲のそれぞれにおいて、前記対が共起する事象を、すべての所定の範囲にわたって計数した頻度を算出し、各単語に対し、各成分の値が、前記単語と、前記成分に対応づけられた意味情報の対に対し算出された前記頻度であるベクトルを生成するベクトル生成手段と、
前記ベクトル生成手段によって生成されたベクトルを、該ベクトルの各成分を全成分の和で割った相対頻度を成分とするベクトルに変換する相対頻度算出手段と、
単語の対に対し、一方の単語に対応する前記相対頻度算出手段で変換されたベクトルと、他方の単語に対応する前記相対頻度算出手段で変換されたベクトルとのカルバック・ライブラー距離を単語間関連度として算出するカルバック・ライブラー距離算出手段と
を備えたことを特徴とする単語間関連度算出装置。
前記カルバック・ライブラー距離算出手段は、
前記対の２つの単語のうち、一方の単語のベクトルの成分の値と、他方の単語のベクトルの対応する成分の値がともにある値より大きい成分の個数を、少なくとも一方の単語のベクトルの成分の値が前記ある値より大きい成分の個数で割った値ｔを引数とする関数ｆ（ｔ）＝ｇ・（ｔ−ｕ） ² ＋１（ｇ、ｕは定数）を、前記カルバック・ライブラー距離に乗じることによって、該距離値を補正する
ことを特徴とする請求項１または２に記載の単語間関連度算出装置。
前記カルバック・ライブラー距離算出手段は、
前記対の２つの単語のうち、一方の単語のベクトルの成分の値と、他方の単語のベクトルの対応する成分の値がともにある値より大きい成分における、より小さい値の和ｔを引数とする関数ｆ（ｔ）＝ｇ・（ｔ−ｕ） ² ＋１（ｇ、ｕは定数）を、前記カルバック・ライブラー距離に乗じることによって、該距離値を補正する
ことを特徴とする請求項１または２に記載の単語間関連度算出装置。
前記カルバック・ライブラー距離算出手段は、
前記対の２つの単語のベクトルの内積ｔを引数とする関数ｆ（ｔ）＝ｇ・（ｔ−ｕ） ² ＋１（ｇ、ｕは定数）を、前記カルバック・ライブラー距離に乗じることによって、該距離値を補正する
ことを特徴とする請求項１または２に記載の単語間関連度算出装置。
単語間の関連度を算出する単語間関連度算出方法であって、
形態素解析手段が、テキストを形態素解析し、処理に必要な単語を特定する形態素解析ステップと、
ベクトル生成手段が、前記形態素解析手段の解析結果から、任意の単語の対に対し、前記テキストにおける一つの所定の範囲、又は、複数の所定の範囲のそれぞれにおいて、前記対が共起する事象を、すべての所定の範囲にわたって計数した頻度を算出し、各単語に対し、各成分の値が、前記単語と、前記成分に対応づけられた単語の対に対し算出された前記頻度であるベクトルを生成するベクトル生成ステップと、
相対頻度算出手段が、前記ベクトル生成手段によって生成されたベクトルを、該ベクトルの各成分を全成分の和で割った相対頻度を成分とするベクトルに変換する相対頻度算出ステップと、
カルバック・ライブラー距離算出手段が、単語の対に対し、一方の単語に対応する前記相対頻度算出手段で変換されたベクトルと、他方の単語に対応する前記相対頻度算出手段で変換されたベクトルとのカルバック・ライブラー距離を単語間関連度として算出するカルバック・ライブラー距離算出ステップと
を備えたことを特徴とする単語間関連度算出方法。
単語間の関連度を算出する単語間関連度算出方法であって、
形態素解析手段が、テキストを形態素解析し、処理に必要な単語を特定する形態素解析ステップと、
ベクトル生成手段が、前記形態素解析手段の解析結果から、単語と前記単語の意味情報の組の集合を格納した辞書内の任意の単語と任意の意味情報の対に対し、前記テキストにおける一つの所定の範囲、又は、複数の所定の範囲のそれぞれにおいて、前記対が共起する事象を、すべての所定の範囲にわたって計数した頻度を算出し、各単語に対し、各成分の値が、前記単語と、前記成分に対応づけられた意味情報の対に対し算出された前記頻度であるベクトルを生成するベクトル生成ステップと、
相対頻度算出手段が、前記ベクトル生成手段によって生成されたベクトルを、該ベクトルの各成分を全成分の和で割った相対頻度を成分とするベクトルに変換する相対頻度算出ステップと、
カルバック・ライブラー距離算出手段が、単語の対に対し、一方の単語に対応する前記相対頻度算出手段で変換されたベクトルと、他方の単語に対応する前記相対頻度算出手段で変換されたベクトルとのカルバック・ライブラー距離を単語間関連度として算出するカルバック・ライブラー距離算出ステップと
を備えたことを特徴とする単語間関連度算出方法。
前記カルバック・ライブラー距離算出ステップは、
前記対の２つの単語のうち、一方の単語のベクトルの成分の値と、他方の単語のベクトルの対応する成分の値がともにある値より大きい成分の個数を、少なくとも一方の単語のベクトルの成分の値が前記ある値より大きい成分の個数で割った値ｔを引数とする関数ｆ（ｔ）＝ｇ・（ｔ−ｕ） ² ＋１（ｇ、ｕは定数）を、前記カルバック・ライブラー距離に乗じることによって、該距離値を補正する
ことを特徴とする請求項６または７に記載の単語間関連度算出方法。
前記カルバック・ライブラー距離算出ステップは、
前記対の２つの単語のうち、一方の単語のベクトルの成分の値と、他方の単語のベクトルの対応する成分の値がともにある値より大きい成分における、より小さい値の和ｔを引数とする関数ｆ（ｔ）＝ｇ・（ｔ−ｕ） ² ＋１（ｇ、ｕは定数）を、前記カルバック・ライブラー距離に乗じることによって、該距離値を補正する
ことを特徴とする請求項６または７に記載の単語間関連度算出方法。
前記カルバック・ライブラー距離算出ステップは、
前記対の２つの単語のベクトルの内積ｔを引数とする関数ｆ（ｔ）＝ｇ・（ｔ−ｕ） ² ＋１（ｇ、ｕは定数）を、前記カルバック・ライブラー距離に乗じることによって、該距離値を補正する
ことを特徴とする請求項６または７に記載の単語間関連度算出方法。
請求項６ないし１０のいずれか１項に記載の単語間関連度算出方法の各ステップをコンピュータに実行させるためのプログラムとしたことを特徴とする単語間関連度算出プログラム。
請求項１１に記載のプログラムを当該コンピュータが読み取りできる記録媒体に記録したことを特徴とする単語間関連度算出プログラムを記録した記録媒体。