JP4099197B2

JP4099197B2 - 概念ベクトル推定方法及び装置及びプログラム及びコンピュータ読取可能な記憶媒体

Info

Publication number: JP4099197B2
Application number: JP2006148895A
Authority: JP
Inventors: 克人別所; 良治片岡
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2006-05-29
Filing date: 2006-05-29
Publication date: 2008-06-11
Anticipated expiration: 2026-05-29
Also published as: JP2007317132A

Description

本発明は、概念ベクトル推定方法及び装置及びプログラム及びコンピュータ読取可能な記憶媒体に係り、特に、単語の意味を表現する概念ベクトルを推定するための概念ベクトル推定方法及び装置及びプログラム及びコンピュータ読取可能な記憶媒体に関する。

属性とその重みにより構成された概念ベースを用い、単語（観点）を指定したときに、観点に応じて概念間の類似性を判別する方法がある。この方法は、概念同士の類似性判別を行う前に、概念中の属性の重みを観点に基づいて強調するものである（例えば、特許文献１、非特許文献１参照）。

また、単語の意味を表現する概念ベクトルを生成する手法として、単語と該単語の意味情報の組の集合を格納するデータベースを参照して、テキストにおける単語と意味情報との共起頻度を記録した単語・意味情報間の共起行列を生成する。共起行列における行ベクトルは、対応する単語の、意味情報との共起パターンを表しており、２つの単語の対応する行ベクトルが近ければ共起パターンが似ているので、その２つの単語は意味的に近いと推察される。この共起行列の各行ベクトルが、対応する単語の概念ベクトルとなる（例えば、特許文献２参照）。

意味情報の数、すなわち、概念ベクトルの次元数が大きい場合、概念ベクトルを利用した言語処理の処理時間も非常に長くなる。このため、当該手法では、共起行列を特異値分解により列数を少なくした行列に変換する手法も述べている。この変換後の行列の各行ベクトルを、対応する単語の概念ベクトルとしてもよい。この概念ベクトルを利用した言語処理の処理時間は、次元数が少ないので短くなる。なお、単語とその概念ベクトルの対の集合を概念ベースと呼ぶ。
特開２００２−１８３１９５号公報特開２００６−１１３９１７号公報笠原要、松澤和光、石川勉：『国語辞書を利用した日常語の類似性判別』情報処理学会論文誌、Vol. 38, No. 7, pp. 1272-1283, July 1997

上記従来の属性とその重みにより生成された概念ベースは、単語と属性との間の重みを成分値とするマトリクスであるが、計算量低減と精度向上のため、特異値分解による次元圧縮を行っても、概念ベースに含まれない単語には、概念ベクトルを付与できないという問題がある。

また、上記従来の概念ベクトルを生成する際に特異値分解を用いる方法は、特異値分解処理が多量のメモリを必要とするため、共起行列の行数を制限する必要がある。一般に、テキスト中の高頻度語の集合をとり、この集合中の単語と意味情報との間の共起行列に対して、特異値分解を実行する。この結果、当該集合に含まれない単語の概念ベクトルは生成されない。

概念ベクトルを利用した言語処理において、概念ベクトルが付与されていない単語の概念は考慮されないため、精度の低下を招くという問題がある。

本発明は、上記の点に鑑みなされたもので、テキスト中の任意の単語に対し、当該単語の対応する概念ベクトルを推定することを可能とする概念ベクトル推定方法及び装置及びプログラム及びコンピュータ読取可能な記憶媒体を提供することを目的とする。

図１は、本発明の原理を説明するための図である。

本発明（請求項１）は、単語の意味を表現する概念ベクトルを推定する概念ベクトル推定装置における概念ベクトル推定方法であって、
共起行列生成手段において、
単語と該単語の意味情報の組の集合を格納する単語・意味情報データベースを参照することにより、入力されたテキストＡから、該テキストＡ中のある単語集合における任意の単語と、意味情報集合における任意の意味情報の対に対し、該テキストＡにおける１つまたは複数の所定の範囲のそれぞれにおいて、該単語と該意味情報とが共起する事象を、該テキストＡの全体にわたって計数した頻度を導出することにより、該単語集合と該意味情報集合との間の共起行列Ｘを生成する共起行列生成ステップ（ステップ１）と、
射影行列取得手段において、
共起行列生成ステップで生成された共起行列Ｘに対し、
Ｘ＝ＵΣＶ^ｔ
が成立するような該共起行列Ｘの特異値分解を構成する行列Ｕの左から指定した数の列ベクトルをとって得られる行列Ｕ’、行列Σの左上から指定した数の行数、列数をもつ正方行列をとって得られる行列Σ’、行列Ｖの左から指定した数の列ベクトルをとって得られる行列Ｖ’を取得し、該行列Ｖ’またはＶ’Σ’^−１を射影行列として射影行列記憶手段に記憶する射影行列取得ステップ（ステップ２）と、
射影手段において、
テキストＡまたは別のテキストＢにおける単語ｗに対し、該単語ｗと、意味情報集合における任意の意味情報の対をとり、該テキストＡまたは該テキストＢにおける一つまたは複数の所定の範囲のそれぞれにおいて、該単語ｗと該意味情報とが共起する事象を、該テキストＡまたは該テキストＢの全体にわたって計数した頻度を必要に応じて導出し、各座標が意味情報に対応し、該座標の値が該単語ｗと該意味情報との間で導出された頻度または該頻度の変換値であるベクトルｈ_ｗをとり、射影行列記憶手段に格納されている射影行列Ｖ’またはＶ’Σ’^−１を用いて積演算を行った、ｈ_ｗＶ’またはｈ_ｗＶ’Σ’^−１、またはそれらの長さを正規化して得られるベクトルを単語ｗの概念ベクトルとして推定する射影ステップ（ステップ３）と、を行う。

図２は、本発明の原理構成図である。

本発明（請求項２）は、単語の意味を表現する概念ベクトルを推定する概念ベクトル推定装置であって、
単語と該単語の意味情報の組の集合を格納する単語・意味情報データベース１２１と、
単語・意味情報データベース１２１を参照することにより、入力されたテキストＡから、該テキストＡ中のある単語集合における任意の単語と、意味情報集合における任意の意味情報の対に対し、該テキストＡにおける１つまたは複数の所定の範囲のそれぞれにおいて、該単語と該意味情報とが共起する事象を、該テキストＡの全体にわたって計数した頻度を導出することにより、該単語集合と該意味情報集合との間の共起行列Ｘを生成する共起行列生成手段１１１と、
共起行列生成手段１１１で生成された共起行列Ｘに対し、
Ｘ＝ＵΣＶ^ｔ
が成立するような該共起行列Ｘの特異値分解を構成する行列Ｕの左から指定した数の列ベクトルをとって得られる行列Ｕ’、行列Σの左上から指定した数の行数、列数をもつ正方行列をとって得られる行列Σ’、行列Ｖの左から指定した数の列ベクトルをとって得られる行列Ｖ’を取得し、該行列Ｖ’またはＶ’Σ’^−１を射影行列として射影行列記憶手段１２２に記憶する射影行列取得手段１１２と、
テキストＡまたは別のテキストＢにおける単語ｗに対し、該単語ｗと、意味情報集合における任意の意味情報の対をとり、該テキストＡまたは該テキストＢにおける一つまたは複数の所定の範囲のそれぞれにおいて、該単語ｗと該意味情報とが共起する事象を、該テキストＡまたは該テキストＢの全体にわたって計数した頻度を必要に応じて導出し、各座標が意味情報に対応し、該座標の値が該単語ｗと該意味情報との間で導出された頻度または該頻度の変換値であるベクトルｈ_ｗをとり、射影行列記憶手段１２２に格納されている射影行列Ｖ’またはＶ’Σ’^−１を用いて積演算を行った、ｈ_ｗＶ’またはｈ_ｗＶ’Σ’^−１、またはそれらの長さを正規化して得られるベクトルを単語ｗの概念ベクトルとして推定する射影手段１１３と、を有する。

本発明（請求項３）は、請求項２に記載の概念ベクトル推定装置を構成する各手段としてコンピュータを機能させるための概念ベクトル推定プログラムである。
本発明（請求項４）は、請求項３に記載の概念ベクトル推定プログラムを格納したコンピュータ読取可能な記憶媒体である。

上記のように本発明によれば、上記のＵ’Σ ’またはＵ’の各行ベクトル、または、その長さを１に正規化して得られるベクトルが、対応する単語の概念ベクトルであり、単語とその概念ベクトルの対の集合が概念ベースである。

ここで、ＸＶ＝ＵΣより、ＸＶ’＝Ｕ’Σ’、ＸＶ’Σ’^−１＝Ｕ’となるため、任意の単語ｗに対応するベクトルｈ_ｗに対して、ｈ_ｗＶ’またはｈ_ｗＶΣ’^−１、またはそれらの長さを１に正規化して得られるベクトルをとることによって、単語ｗの真の概念ベクトルに近い概念ベクトルを推定することが可能になる。

以下、図面と共に本発明の実施の形態を説明する。

図３は、本発明の一実施の形態における概念ベクトル推定装置の構成を示す。

同図に示す概念ベクトル推定装置１００は、共起行列生成部１１１、射影行列取得部１１２、射影部１１３、単語・意味情報データベース１２１、射影行列記憶部１２２から構成される。

単語・意味情報データベース１２１は、単語と該単語の意味情報の組の集合を格納する。

ここで、単語の意味情報とは、単語の属する意味カテゴリを表す。意味カテゴリとは一般に、事物を抽象化した概念である。これは一般に、人が個々の単語の意味を吟味した上で得られるものである。意味カテゴリの集合は、一例として、図４で示されるような体系をなしている。図４では、各意味カテゴリを言葉として表現しているが、意味カテゴリ自体は必ずしも言葉として表現されているとは限らない概念である。各意味カテゴリには、それを特定するためのＩＤが付与されている。本実施の形態では、このＩＤを便宜上意味情報と同一視する。

共起行列生成部１１１は、コーパス（テキストＡ）が入力されると、単語・意味情報データベース１２１を参照することにより、入力されたテキストＡから、当該テキストＡ中のある単語集合における任意の単語と、意味情報集合における任意の意味情報の対に対し、該テキストＡにおける１つまたは複数の所定の範囲のそれぞれにおいて、該単語と該意味情報とが共起する事象を、該テキストＡの全体にわたって係数した頻度を導出することにより、該単語集合と該意味情報集合との間の共起行列Ｘを生成する。生成した共起行列Ｘを射影行列取得部１１２に出力する。

射影行列取得部１１２は、共起行列生成部１１１によって生成された共起行列Ｘに対し、
Ｘ＝ＵΣＶ^ｔ
が成立するような共起行列Ｘの特異値分解を構成する行列Ｕの左から指定した数の列ベクトルをとって得られる行列Ｕ’、行列Σの左上から指定した数の行数、列数を持つ正方行列をとって得られる行列Σ’、行列Ｖの左から指定した数の列ベクトルをとって得られる行列Ｖ’を取得し、該行列Ｖ’またはＶ’Σ’^−１を射影行列として射影行列記憶部１２２に記憶する。共起行列はスパースであるため、精度的に問題であり、また、次元数が多いため計算量的にも問題であるが、この処理により精度向上、計算量低減を図ることができる。

射影部１１３は、射影行列取得部１１２で生成した射影行列により、未登録語を概念ベクトルの存在する空間である概念空間へ射影し、概念ベクトルを求めるものである。テキストＡまたは別のテキストＢにおける単語ｗに対し、該単語ｗと、意味情報集合における任意の意味情報の対をとり、該テキストＡまたは該テキストＢにおける一つまたは複数の所定の範囲のそれぞれにおいて、該単語ｗと該意味情報とが共起する事象を、該テキストＡまたは該テキストＢの全体にわたって計数した頻度を必要に応じて導出し、各座標が意味情報に対応し、該座標の値が該単語ｗと該意味情報との間で導出された頻度または該頻度の変換値であるベクトルｈ_ｗをとり、射影行列記憶部１２２に格納されている射影行列Ｖ’またはＶ’Σ^−１を用いて積演算を行った、ｈ_ｗＶ’またはｈ_ｗＶ’Σ^−１、またはそれらの長さを正規化して得られるベクトルを単語ｗの概念ベクトルとして推定する。

射影行列を用いた積演算は、単語間の距離関係をできるだけ保存したまま、単語群を概念空間へ射影するので、射影部１１３により、未登録語の的確な概念ベクトルが得られる。

図５は、本発明の一実施の形態における共起行列生成部の構成を示す。

同図に示す共起行列生成部１１１は、単語・意味情報データベース１２１、不要単語テーブル１２３、不要品詞テーブル１２４、形態素解析部２１１、必要語判断部２１２、単語頻度算出部２１３、共起行列初期化部２１４、頻度ハッシュクリア部２１６、頻度ハッシュ更新部２１９、共起行列更新部２２２、制御部Ａ２１５、制御部Ｂ２１７、制御部Ｃ２１８、制御部Ｄ２２０、制御部Ｅ２２１から構成される。

図６は、本発明の一実施の形態における共起行列生成部の動作のフローチャートである。

形態素解析部２１１は、入力されたテキストを、単語・意味情報データベース１２１を参照することにより形態素解析する（ステップ１０１）。

図７は、本発明の一実施の形態における単語・意味情報データベース１２１の内容の一例を示す。同図では、単語・意味情報データベース１２１は、１レコードが１単語に関する情報となっており、１レコードは、カンマで区切られた３つの項目から構成されている。第１項目は単語の表記であり、第２項目は該単語の品詞情報である。第３項目は該単語の意味情報である。一般に内容語には、１つまたは複数の意味情報が対応している。図７においては、複数の意味情報をコロンで区切っている。１単語に複数の意味情報があるとき、よく使用される順に意味情報を並べておいてもよい。単語に関するこれらの情報は、一般に、人が個々の単語の品詞や意味を吟味した上で付与する。活用語に対しては、終止形も登録しておいてもよい。

図８は、本発明の一実施の形態における形態素解析部２１１に入力されるテキストの一例であり、図９は、図８のテキストの形態素解析結果の一例である。各形態素間は“/”で区切られている。各形態素は、単語表記、終止形、品詞情報、意味情報、必要語フラグからなっており、それぞれ“，”で区切られている。単語・意味情報データベース１２１に終止形が登録されていない場合は、形態素解析後に、単語表記と品詞情報から終止形を導出する。終止形がない単語に対しては、単語表記を終止形とする。必要語フラグは、形態素解析後はヌル（ＮＵＬＬ）である。

必要語判断部２１２は、不要単語テーブル１２３、不要品詞テーブル１２４を参照することにより、形態素解析結果中の形態素が、その後の処理に必要な語かそうでないかを判断し、必要語ならば必要語フラグを“１”とし、必要語でないならば必要語フラグを“０”とする（ステップ１０２）。図１０は、不要単語テーブル１２３の一例である。不要とされる各単語の表記が１レコードとして記述されている。図１１は、不要品詞テーブル１２４の一例である。不要とされる各品詞情報が１レコードとして記述されている。必要語判断部２１２は、対象としている形態素の単語表記が不要単語テーブル１２３のあるレコードと一致するか、あるいは、対象としている形態素の品詞情報が、不要品詞テーブル１２４にあるレコードと一致する場合、当該形態素を必要語でないと判断する。必要語判断部２１２の処理により、図９の形態素解析結果は図１２のようになる。

単語頻度算出部２１３は、形態素解析結果中の各形態素を順に見ていき、該形態素の必要語フラグが“１”ならば、該形態素の終止形の頻度を１だけ増やす。このようにして、形態素解析結果中の必要語の終止形とその頻度の組の集合を導出する（ステップ１０３）。

共起行列初期化部２１４は、単語頻度算出部２１３で得られた必要語の終止形とその頻度の組の集合から、必要語の終止形のある集合を取得する（ステップ１０４）。ここで、取得する必要語の終止形の集合を、必要語の終止形の全てをとったものとしてもよいし、高頻度の必要語の終止形を上位から一定数とったものとしてもよい。そして、図１３のような、取得した必要語の終止形の集合（単に単語集合と呼ぶ）と意味情報集合との間の共起行列を生成する。共起行列における各行は一単語に対応し、各列は一意味情報に対応する。各行ベクトルは、対応する単語の、各座標が意味情報に対応し、該座標の値が該単語と該意味情報との間の共起頻度であるようなベクトルである。各行ベクトルの全座標値を０にセットする。

制御部Ａ２１５は、単語と意味情報とが共起する頻度を算出する処理の対象となるテキスト中の範囲を決定する（ステップ１０５）。所定の範囲としては、一文、一段落や所定の数の単語の列等がある。所定の範囲を一文とした場合は、まず、テキスト中の最初の文を処理対象とする。処理対象とした文に関する処理が終了したならば、その次の文を処理対象とする。最後の文に関する処理が終了したならば、処理対象の文ではないので、共起行列生成部１１１の処理を終了する。所定の範囲を、他のものとした場合も同様である。

頻度ハッシュクリア部２１６は、意味情報とその頻度の組の集合を記憶する頻度ハッシュを、ヌル（ＮＵＬＬ）にクリアする（ステップ１０６）。

制御部Ｂ２１７は、処理対象のテキストの範囲における、処理対象とする形態素を決定する（ステップ１０７）。まず、処理対象のテキストの範囲における最初の形態素を処理対象とする。処理対象とした形態素に関する処理が終了したならば、その次の形態素を処理対象とする。最後の形態素に関する処理が終了したならば、処理対象の形態素はないので、制御手段Ｄ２２０の処理（ステップ１１０）に移る。

制御部Ｃ２１８は、処理対象の形態素が必要語かどうかを判断する。処理対象の形態素の必要語フラグが“１”ならば頻度ハッシュ更新部２１９の処理（ステップ１０９）に移り、そうでなければ制御部Ｂ２１７の処理（ステップ１０７）に移る（ステップ１０８）
頻度ハッシュ更新部２１９は、処理対象の形態素の各意味情報に対し、該意味情報が頻度ハッシュになければ、該意味情報とその頻度１を頻度ハッシュに追加する。該意味情報が頻度ハッシュにあれば、頻度ハッシュにおける該意味情報の頻度を１だけ増やす。ここで、単語・意味情報データベース１２１において、１単語における複数の意味情報が、よく使用される順に並べられており、形態素解析結果における意味情報の順番もそれを引き継いでいる場合、意味情報の列の中の最初から指定した数だけの意味情報のみを頻度ハッシュ更新部２１９の処理対象としてもよい。図１２に示した、テキストの１範囲の形態素解析結果からは、制御部Ｂ２１７で処理対象の形態素がなくなった時点で、図１４の頻度ハッシュが得られる（ステップ１０９）。

制御部Ｄ２２０は、処理対象のテキストの範囲における、処理対象とする形態素を決定する。まず、処理対象のテキストの範囲における最初の形態素を処理対象とする。処理対象とした形態素に関する処理が終了したならば、その次の形態素を処理対象とする。最後の形態素に関する処理が終了したならば、処理対象の形態素はないので、制御部Ａ２１５の処理（ステップ１０５）に移る（ステップ１１０）。

制御部Ｅ２２１は、処理対象の形態素が必要語かどうかを判断する。処理対象の形態素の必要語フラグが“１”ならば、共起行列更新部２２２の処理（ステップ１１２）に移り、そうでないならば、制御部Ｄ２２０の処理（ステップ１１０）に移る（ステップ１１１）。

共起行列更新部２２２は、処理対象の形態素の終止形で共起行列の単語集合を検索し、ヒットしたならば、該形態素の終止形に対応する行ベクトルの、頻度ハッシュにおける各意味情報に対応する座標の値に、頻度ハッシュにおける該意味情報の頻度を加算する（ステップ１１２）。制御部Ａ２１５において、共起行列が図１３であり、かつ、図１２に示した、テキストの１範囲の形態素解析結果を処理対象と決定した場合、その後、次に制御部Ａ２１５に制御が回ってきた時点で、図１５の共起行列が得られている。

共起行列生成部１１１の処理により、図１６に示すような共起行列Ｘ_１が得られる。この共起行列Ｘ_１を、特異値分解を行う対象としての共起行列Ｘとする。但し、共起行列Ｘ_１の行数が大きいと、メモリの制約により、特異値分解の実行が不可能になる。このような場合は、高頻度の単語を上位から一定数だけとり、この高頻度語の集合と意味情報集合との間の共起行列Ｘ_２をとり、この共起行列Ｘ_２を、特異値分解を行う対象としての共起行列Ｘとする。ここで、生成される概念ベクトルの質の向上のため、特異値分解を実行する前に、Ｘの各成分をその平方根に変換しておいてもよい。この変換後の共起行列も、便宜上Ｘと表記することとする。

次に、射影行列取得部１１２の処理について説明する。

図１７は、本発明の一実施の形態における射影行列取得部１１２の構成を示す。

射影行列取得部１１２は、特異値分解部１１２１、射影行列導出部１１２２、射影行列記憶部１２２から構成される。

特異値分解部１１２１は、共起行列が入力されると、該共起行列を特異値分解し、その結果を射影行列導出部１１２２に出力する。

射影行列導出部１１２２は、特異値分解結果が入力されると、概念ベースと射影行列を導出し、射影行列を射影行列記憶部１２２に格納する。

まず、特異値分解部１１２１の処理について詳しく説明する。

共起行列Ｘをｐ×ｑの行列としたとき、特異値分解部１１２１により、Ｘは以下のように分解できる。

ここで、添字ｔは行列の転置を表す。

Ｖ^ｔのｒ個の行ベクトルは、ｑ次元空間中の正規直交基底であり、Ｘの第ｉ番目のｑ次元行ベクトルは、この正規直交基底の張るｒ次元部分空間において、ＵΣの第ｉ番目のｒ次元行ベクトルで表される。

ここで、

に対し、Ｕの最初のｒ’列、Ｖ^ｔの最初のｒ’行、Σの最初のｒ’行、ｒ’列をとり、

とする。Ｕ’Σ’の第ｉ番目の行ベクトルは、ＵΣの第ｉ番目の行ベクトルの１番目からｒ’番目までの座標をとったものであり、ＵΣの第ｉ番目の行ベクトルを、Ｖ’^ｔの行ベクトルの張るｒ’次元部分空間に射影して得られるものである。Ｘの第ｉ番目のｑ次元行ベクトルは、Ｕ’Σ’の第ｉ番目のｒ’次元行ベクトルに射影される。Ｖ’^ｔの行ベクトルが張るｒ’次元部分空間は、Ｘの各行ベクトルとその射影した点との距離の自乗和が最小となるｒ’次元部分空間であり、その意味でＸの行ベクトルの分布に最もあてはまりのよいｒ’次元部分空間である。このＶ’^ｔの行ベクトルが張るｒ’次元部分空間を概念空間と呼ぶ。Ｕ’Σ’の各行ベクトルは、Ｕ’の対応する行ベクトルを、各座標ごとに対応する特異値の割合で伸縮したものである。

特異値分解部１１２１は、Ｕ、Σ、Ｖを導出してから、Ｕ’、Σ’、Ｖ’を導出してもよいし、そうではなく、直接Ｕ’、Σ’、Ｖ’を導出してもよい。

Ｕ’Σ’またはＵ’の各行ベクトル、または、その長さを１に正規化して得られるベクトルが、対応する単語の概念ベクトルであり、単語とその概念ベクトルの対の集合が概念ベースである。

射影行列導出部１１２２は、この概念ベースを導出する。また、該行列Ｖ’またはＶ’Σ’^−１を射影行列として射影行列記憶部１２２に記憶する。

次に、射影部１１３の処理について説明する。

図１８は、本発明の一実施の形態における射影部１１３の構成を示す。

同図に示す射影部１１３は、射影行列記憶部１２２に記憶された射影行列を用いて未登録語の概念ベクトルを導出する行列積演算部１１３１と、未登録語とその概念ベクトルを概念ベース１２５に追加登録する概念ベース格納部１１３２から構成される。

行列積演算部１１３１の処理について説明する。

入力とするのが、テキストＡである場合、テキストＡ中の必要語の終止形の集合は、形態素解析部２１１、必要語判断部２１２、単語頻度算出部２１３の処理（ステップ１０１，１０２，１０３）で得られている。共起行列初期化部２１４で取得する必要語の終止形の集合に含まれる単語ｗに対しては、共起行列生成部１１１の処理が終了した時点で、ベクトルｈ_ｗは既に得られている。共起行列初期化部２１４で取得する必要語の終止形の集合に含まれない必要語の終止形の集合に対しては、該集合と意味情報集合との間の共起行列をとり、共起行列生成部１１１における共起行列初期化部２１４以降（ステップ１０４）の処理を行い、該集合に含まれる任意の単語ｗのベクトルｈ_ｗを取得する。

入力とするのがテキストＡとは別のテキストＢである場合、テキストＢを入力として形態素解析部２１１、必要語判断部２１２、単語頻度算出部２１３の処理（ステップ１０１，１０２，１０３）を行う。共起行列初期化部２１４では、全必要語の終止形の集合と意味情報集合との間の共起行列をとり、共起行列生成部１１１における共起行列初期化部２１４（ステップ１０４）以降の処理を行い、該集合に含まれる任意の単語ｗのベクトルｈ_ｗを取得する。

特異値分解実行前に、共起行列Ｘの各成分をその平方根に変換していた場合は、ベクトルｈ_ｗの各成分をその平方根に変換する。この変換後のベクトルも、便宜上ｈ_ｗと表記することとする。

本発明の基本的な考え方は、共起行列Ｘの中に存在しない行ベクトルｈ_ｗに対しても、Ｖ’^ｔの行ベクトルの張るｒ’次元部分空間に射影したものを概念ベクトルとしようというものである。特異値分解の対象となる点の集合が異なれば、真の概念空間も当然異なり、その結果、各点の対応する真の概念ベクトルも異なる。しかし、点集合の分布の差異がそれ程大きくなければ、Ｘから得られた概念空間をそのまま使っても、概念空間に大きなずれはなく、従って射影した点は、真の概念ベクトルと大きくずれることはなく、精度よく真の概念ベクトルを推定できる。

ＸＶ＝ＵΣよりＸＶ’＝Ｕ’Σ’となる。これに倣い、ベクトルｈ_ｗに対しｈ_ｗＶ’としたものは、各成分がＶ’^ｔの対応する行ベクトルとｈ_ｗとの内積であるため、確かにＶ’^ｔの行ベクトルが張るｒ’次元部分空間へのｈ_ｗの射影となっている。よって、ｈ_ｗＶ’またはそれらの長さを１に正規化して得られるベクトルは、Ｕ’Σ’の行ベクトル及びその長さを１に正規化して得られるベクトルとしての概念ベクトルに相当する。また、ＸＶ’＝Ｕ’Σ’よりＸＶ’Σ’^−１＝Ｕ’となるため、ｈ_ｗＶ’Σ’^−１及びその長さを１に正規化して得られるベクトルは、Ｕ’の行ベクトル及びその長さを１に正規化して得られるベクトルとしての概念ベクトルに相当する。

行列積演算部１１３１は、Ｕ’Σ’の各行ベクトルを概念ベクトルとする場合は、ｈ_ｗＶ’を推定概念ベクトルとし、Ｕ’Σ ’の各行ベクトルの長さを１に正規化して得られるベクトルを概念ベクトルとする場合はｈ_ｗＶ’の長さを１に正規化して得られるベクトルを推定概念ベクトルとし、Ｕ’の各行ベクトルを概念ベクトルとする場合はｈ_ｗＶ’Σ’^−１を推定概念ベクトルとし、Ｕ’の各行ベクトルの長さを１に正規化して得られるベクトルを概念ベクトルとする場合は、ｈ_ｗＶ’Σ’^−１の長さを１に正規化して得られるベクトルを推定概念ベクトルとする。

概念ベース格納部１１３２は、未登録語とその推定した概念ベクトルを概念ベース１２５に追加登録する。

なお、射影部１１３において、概念ベース格納部１１３２及びその処理は、必ずしもなくともよいし、また、射影行列取得部１１２の射影行列導出部１１２２において、概念ベース１２５の導出は、必ずしもなくともよい。

上記に示した処理を行うことにより、概念ベクトルが付与されていない単語の概念ベクトルとして、本発明により推定された単語の意味を的確に表す概念ベクトルを使用することにより、概念ベクトルを用いた言語処理の精度が向上する。

上記の実施の形態における各構成要素の機能をプログラムとして構築し、概念ベクトル推定装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。

また、構築されたプログラムを、ハードディスクや、フレキシブルディスク・ＣＤ−ＲＯＭ等の可搬記憶媒体に格納し、概念ベクトル推定装置として利用されるコンピュータにインストールする、または、配布することが可能である。

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。

本発明は、単語の意味を表現する概念ベクトルを生成する技術に適用可能である。

本発明の原理を説明するための図である。本発明の原理構成図である。本発明の一実施の形態における概念ベクトル推定装置の構成図である。本発明の一実施の形態における意味カテゴリの体系を示す図である。本発明の一実施の形態における共起行列生成部の構成図である。本発明の一実施の形態における共起行列生成部の動作のフローチャートである。本発明の一実施の形態における単語・意味情報データベースの内容の一例を示す図である。本発明の一実施の形態における形態素解析部に入力されるテキストの一例である。本発明の一実施の形態における形態素解析結果の一例である。本発明の一実施の形態における不要単語テーブルの一例である。本発明の一実施の形態における不要品詞テーブルの一例である。本発明の一実施の形態における形態素解析結果の例である。本発明の一実施の形態における単語集合と意味情報集合との間の共起行列の例である。本発明の一実施の形態における頻度ハッシュ更新処理で得られた頻度ハッシュの例である。本発明の一実施の形態における共起行列更新処理で得られた共起行列の例である。本発明の一実施の形態における共起行列生成部により得られた共起行列の例である。本発明の一実施の形態における射影行列取得部の構成図である。本発明の一実施の形態における射影部の構成図である。

符号の説明

１１１共起行列生成手段、共起行列生成部
１１２射影行列取得手段、射影行列取得部
１１３射影手段、射影部
１２１単語・意味情報データベース
１２２射影行列記憶手段、射影行列記憶部
１２３不要単語テーブル
１２４不要品詞テーブル
１２５概念ベース
２１１形態素解析部
２１２必要語判断部
２１３単語頻度算出部
２１４共起行列初期化部
２１５制御部Ａ
２１６頻度ハッシュクリア部
２１７制御部Ｂ
２１８制御部Ｃ
２１９頻度ハッシュ更新部
２２０制御部Ｄ
２２１制御部Ｅ
２２２共起行列更新部
１１２１特異値分解部
１１２２射影行列導出部
１１３１行列積演算部
１１３２概念ベース格納部

Claims

単語の意味を表現する概念ベクトルを推定する概念ベクトル推定装置における概念ベクトル推定方法であって、
共起行列生成手段において、
単語と該単語の意味情報の組の集合を格納する単語・意味情報データベースを参照することにより、入力されたテキストＡから、該テキストＡ中のある単語集合における任意の単語と、意味情報集合における任意の意味情報の対に対し、該テキストＡにおける１つまたは複数の所定の範囲のそれぞれにおいて、該単語と該意味情報とが共起する事象を、該テキストＡの全体にわたって計数した頻度を導出することにより、該単語集合と該意味情報集合との間の共起行列Ｘを生成する共起行列生成ステップと、
射影行列取得手段において、
前記共起行列生成ステップで生成された前記共起行列Ｘに対し、
Ｘ＝ＵΣＶ^ｔ
が成立するような該共起行列Ｘの特異値分解を構成する行列Ｕの左から指定した数の列ベクトルをとって得られる行列Ｕ'、行列Σの左上から指定した数の行数、列数をもつ正方行列をとって得られる行列Σ'、行列Ｖの左から指定した数の列ベクトルをとって得られる行列Ｖ'を取得し、該行列Ｖ'またはＶ'Σ'^−１を射影行列として射影行列記憶手段に記憶する射影行列取得ステップと、
射影手段において、
前記テキストＡまたは別のテキストＢにおける単語ｗに対し、該単語ｗと、前記意味情報集合における任意の意味情報の対をとり、該テキストＡまたは該テキストＢにおける一つまたは複数の所定の範囲のそれぞれにおいて、該単語ｗと該意味情報とが共起する事象を、該テキストＡまたは該テキストＢの全体にわたって計数した頻度を必要に応じて導出し、各座標が意味情報に対応し、該座標の値が該単語ｗと該意味情報との間で導出された前記頻度または該頻度の変換値であるベクトルｈ_ｗをとり、前記射影行列記憶手段に格納されている前記射影行列Ｖ'またはＶ'Σ'^−１を用いて積演算を行った、ｈ_ｗＶ'またはｈ_ｗＶ'Σ'^−１、またはそれらの長さを正規化して得られるベクトルを単語ｗの概念ベクトルとして推定する射影ステップと、
を行うことを特徴とする概念ベクトル推定方法。
単語の意味を表現する概念ベクトルを推定する概念ベクトル推定装置であって、
単語と該単語の意味情報の組の集合を格納する単語・意味情報データベースと、
前記単語・意味情報データベースを参照することにより、入力されたテキストＡから、該テキストＡ中のある単語集合における任意の単語と、意味情報集合における任意の意味情報の対に対し、該テキストＡにおける１つまたは複数の所定の範囲のそれぞれにおいて、該単語と該意味情報とが共起する事象を、該テキストＡの全体にわたって計数した頻度を導出することにより、該単語集合と該意味情報集合との間の共起行列Ｘを生成する共起行列生成手段と、
前記共起行列生成手段で生成された前記共起行列Ｘに対し、
Ｘ＝ＵΣＶ^ｔ
が成立するような該共起行列Ｘの特異値分解を構成する行列Ｕの左から指定した数の列ベクトルをとって得られる行列Ｕ'、行列Σの左上から指定した数の行数、列数をもつ正方行列をとって得られる行列Σ'、行列Ｖの左から指定した数の列ベクトルをとって得られる行列Ｖ'を取得し、該行列Ｖ'またはＶ'Σ'^−１を射影行列として射影行列記憶手段に記憶する射影行列取得手段と、
前記テキストＡまたは別のテキストＢにおける単語ｗに対し、該単語ｗと、前記意味情報集合における任意の意味情報の対をとり、該テキストＡまたは該テキストＢにおける一つまたは複数の所定の範囲のそれぞれにおいて、該単語ｗと該意味情報とが共起する事象を、該テキストＡまたは該テキストＢの全体にわたって計数した頻度を必要に応じて導出し、各座標が意味情報に対応し、該座標の値が該単語ｗと該意味情報との間で導出された前記頻度または該頻度の変換値であるベクトルｈ_ｗをとり、前記射影行列記憶手段に格納されている前記射影行列Ｖ'またはＶ'Σ'^−１を用いて積演算を行った、ｈ_ｗＶ'または、ｈ_ｗＶ'Σ'^−１、またはそれらの長さを正規化して得られるベクトルを単語ｗの概念ベクトルとして推定する射影手段と、
を有することを特徴とする概念ベクトル推定装置。
請求項２に記載の概念ベクトル推定装置を構成する各手段としてコンピュータを機能させるための概念ベクトル推定プログラム。
請求項３に記載の概念ベクトル推定プログラムを格納したことを特徴とするコンピュータ読取可能な記憶媒体。