JP4499003B2

JP4499003B2 - 情報処理方法及び装置及びプログラム

Info

Publication number: JP4499003B2
Application number: JP2005256961A
Authority: JP
Inventors: 克人別所; 良治片岡
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2005-09-05
Filing date: 2005-09-05
Publication date: 2010-07-07
Anticipated expiration: 2025-09-05
Also published as: JP2007072610A

Description

本発明は、情報処理方法及び装置及びプログラムに係り、特に、単語の意味表現であるベクトルを生成し、該ベクトルを用いて入力文に適合する文書を検索したり、文書集合をクラスタリングする情報処理方法及び装置及びプログラムに関する。

単語の意味表現としてのベクトルは、単語間の意味的類似性を定量化できるため、検索等の言語処理に適用され、精度向上に寄与している。

単語の意味表現であるベクトルを生成する方法として以下のようなものがある。コーパス中の単語の対の１文中における共起頻度を記録した単語・単語間の共起行列を作成する。共起行列の各行ベクトルは、対応する単語の他の単語との共起パターンを表している。ある２単語に対応する行ベクトルが近ければ、共起パターンが似ているので、この２単語は意味的に近いということが推測される。但し、行ベクトルの次元数は非常に大きなものとなるため、該ベクトルを用いた言語処理の計算量は莫大なものとなる。このため共起行列を特異値分解により列数を縮退させた行列に変換する。変換後の行列の各行ベクトルを、対応する単語の求めるべき意味表現としてのベクトルとする（例えば、非特許文献１参照）。
H. Schutze, Dimensions of Meaning, Proc. of Supercomputing ’92, pp.786-796, 1992

上記の、単語・単語間の共起行列の行ベクトルを、単語の意味表現としてのベクトルとして用いる方法では、該ベクトルを用いた言語処理の計算量を削減するため、次元数すなわち座標となる単語の数を制限する必要がある。また、上記の非特許文献の論文の方法のように、該共起行列を特異値分解により列数を縮退させた行列に変換し、変換後の行列の行ベクトルを、単語の意味表現としてのベクトルとして用いる方法でも、特異値分解の計算量の制約のため、共起行列の列数すなわち共起行列の行ベクトルの座標となる単語の数を制限する必要がある。

このため、座標となる単語から漏れる単語が多数あり、そのような単語との共起頻度は考慮されないという問題がある。例えば、以下の“きゅうり”との共起頻度が考慮されない。このような情報の欠落により、単語ベクトルの質が低下する。

また、座標となる単語の中には同じ意味情報をもつものがあり、それらの単語との共起頻度が別々にカウントされるため、単語ベクトルが適切なものではなくなるという問題がある。例えば、以下の“にんじん”と“かぼちゃ”は同じ意味情報を持つが、それらとの共起頻度が別々にカウントされるため、“農園”と“菜園”のベクトルが適切なものでなくなり、“農園”と“菜園”は意味的に近いにも関わらず、対応するベクトルは遠くなる。

二輪にんじんかぼちゃきゅうり
農園（２，４８，８）２６
菜園（１，７，５５）２３
交通（６５，１，２）１
本発明は、上記の点に鑑みなされたもので、それを用いた言語処理において、さらに精度向上を図ることが可能な高品質な、単語の意味表現としてのベクトルを生成することが可能な情報処理方法及び装置およびプログラムを提供することを目的とする。

図１は、本発明の原理を説明するための図である。

本発明（請求項１）は、単語・意味情報列抽出手段が、単語と該単語の属する意味カテゴリである意味情報の組の集合を格納するデータベースを参照することにより、入力されたテキストから、単語と該単語の意味情報の組の列を抽出する単語・意味情報列抽出ステップ（ステップ１）と、
ベクトル初期化手段が、テキスト中の単語・意味情報列抽出ステップで得られた単語の集合と、意味情報集合との間で、各行が単語に対応し、各列が意味情報に対応する共起頻度行列を生成し、該共起頻度行列の各行ベクトルの成分を初期化するベクトル初期化ステップと、
意味情報頻度算出手段が、テキスト中の処理対象とする複数の単語を含む所定の範囲において、該範囲内の単語と組になっている各意味情報の頻度をカウントする意味情報頻度算出ステップ（ステップ２）と、
ベクトル更新手段が、テキスト中の処理対象とする複数の単語を含む所定の範囲内の各単語に対応する共起頻度行列中の行ベクトルの全てに対し、意味情報頻度算出ステップで頻度を算出した各意味情報の成分に該意味情報の頻度を加算する（ステップ３）ベクトル更新ステップと、
制御手段が、意味情報頻度算出ステップとベクトル更新ステップを、テキスト中の処理対象とする複数の単語を含む所定の範囲の全てについて繰り返す制御ステップと、
からなる。

また、本発明（請求項２）は、請求項１の情報処理方法であって、
特異値分解手段が、制御ステップによって生成される、単語集合と意味情報集合との間の共起頻度行列に対し特異値分解を行い、各単語に対応するベクトルを変換する特異値分解ステップを更に行う。

また、本発明（請求項３）は、請求項１または２の情報処理方法であって、
文書ベクトル生成手段が、
文書集合における各文書に対し、該文書から単語列を抽出し、該単語列中の単語に対応する、制御ステップまたは特異値分解ステップによって生成されたベクトルを取得し、該ベクトルの和または重心を取ることによって該文書のベクトルを生成する文書ベクトル生成ステップを更に行う。

また、本発明（請求項４）は、請求項３の情報処理方法であって、
入力文ベクトル生成手段が、
適合度算出用のテキストから単語列を抽出し、該単語列中の単語に対応する、制御ステップまたは特異値分解ステップによって生成されたベクトルを取得し、該ベクトルの和または重心をとることによって該テキストの入力文ベクトルを生成する入力文ベクトル生成ステップと、
適合度算出手段が、入力文ベクトル生成ステップによって生成された入力文ベクトルと、文書ベクトル生成ステップによって生成された文書ベクトルとの対の間のユークリッド距離または内積を算出し、該ユークリッド距離または該内積を適合度算出用のテキストに対する適合度とする適合度算出ステップと、を更に行う。

本発明（請求項５）は、請求項３の情報処理方法であって、
クラスタリング手段が、
文書ベクトル生成ステップによって生成された文書ベクトルに基づいて、文書をクラスタリングするクラスタリングステップを更に行う。

図２は、本発明の原理構成図である。

本発明（請求項６）は、単語と該単語の属する意味カテゴリである意味情報の組の集合を格納するデータベース１２１と、
データベース１２１を参照することにより、入力されたテキストから、単語と該単語の意味情報の組の列を抽出する単語・意味情報列抽出手段１１１と、
テキスト中の単語・意味情報列抽出手段１１１で得られた単語の集合と、意味情報集合との間で、各行が単語に対応し、各列が意味情報に対応する共起頻度行列を生成し、該共起頻度行列の各行ベクトルの成分を初期化するベクトル初期化手段１１２と、
テキスト中の処理対象とする複数の単語を含む所定の範囲において、該範囲内の単語と組になっている各意味情報の頻度をカウントする意味情報頻度算出手段１１４と、
テキスト中の処理対象とする複数の単語を含む所定の範囲内の各単語に対応する共起頻度行列中の行ベクトルの全てに対し、意味情報頻度算出手段１１４で頻度を算出した各意味情報の成分に該意味情報の頻度を加算するベクトル更新手段１１５と、
意味情報頻度算出手段１１４とベクトル更新手段１１５の処理を、テキスト中の処理対象とする複数の単語を含む所定の範囲の全てについて繰り返す制御を行う制御手段１１３と、を有する。

また、本発明（請求項７）は、請求項６の情報処理装置であって、
制御手段１１３によって生成される、単語集合と意味情報集合との間の共起頻度行列に対し特異値分解を行い、各単語に対応するベクトルを変換する特異値分解手段を更に有する。

また、本発明（請求項８）は、請求項６または７の情報処理装置であって、
文書集合における各文書に対し、該文書から単語列を抽出し、該単語列中の単語に対応する、制御手段１１３または特異値分解手段によって生成されたベクトルを取得し、該ベクトルの和または重心を取ることによって該文書のベクトルを生成する文書ベクトル生成手段を更に有する。

また、本発明（請求項９）は、請求項８の情報処理装置であって、
適合度算出用のテキストから単語列を抽出し、該単語列中の単語に対応する、制御手段または特異値分解手段によって生成されたベクトルを取得し、該ベクトルの和または重心をとることによって該テキストの入力文ベクトルを生成する入力文ベクトル生成手段と、
入力文ベクトル生成手段によって生成された入力文ベクトルと、文書ベクトル生成手段によって生成された文書ベクトルとの対の間のユークリッド距離または内積を算出し、該ユークリッド距離または該内積を適合度算出用のテキストに対する適合度とする適合度算出手段と、を更に有する。

また、本発明（請求項１０）は、請求項８の情報処理装置であって、
文書ベクトル生成手段によって生成された各文書ベクトルに基づいて、文書をクラスタリングするクラスタリング手段を更に有する。

本発明（請求項１１）は、コンピュータを、請求項６乃至１０記載の情報処理装置として機能させるプログラムである。

上記のように本発明の特徴は、単語ベクトルを生成するのに、単語と意味情報との共起頻度をとる点にある。

このように、単語ではなく、意味情報との共起頻度をとることにより、同じ意味情報をもつ単語との共起頻度は、該意味情報との共起頻度情報の中に含まれるため、単語ベクトルが、より適切なものとなる。

また、意味情報の数は一般にそれほど多くはないため、全意味情報をベクトルの座標として採用することができる。このため、単語・単語間の共起をとる方法で、座標となる単語から漏れていた単語との共起頻度も、該単語の意味情報との共起頻度情報の中に含まれるため、単語ベクトルが、豊富な情報をもつようになる。

例えば、発明が解決しようとする課題で提示した例に対しては、“二輪”の意味情報は“車”で、“にんじん”、“かぼちゃ”、“きゅうり”の意味情報は“野菜”であり、各単語ベクトルは以下のようになる。意味的に近い“農園”と“菜園”のベクトルの値が近く、逆にそれらの単語と意味的に遠い“交通”のベクトルの値は遠くなり、人の感覚とよく一致した単語ベクトルが得られる。

車野菜
農園（２，８２）
菜園（１，８５）
交通（６５，４）
したがって、このようにして生成された単語ベクトルを使用した言語処理も高精度なものとなるという効果がある。

実際に、単語・単語間共起行列を特異値分解して得られた行列の各行ベクトルを単語ベクトルとする方法と、単語・意味情報間共起行列を特異値分解して得られた行列の各行ベクトルを単語ベクトルとする方法の精度の比較を行った。精度比較は、同一のテキストを入力として各方法により単語ベクトルを生成し、生成した単語ベクトルを用いた検索（請求項４、９の方法）の精度比較により行った。検索の精度評価のため、予め一つの検索対象文書と文意が同じで異なる表現の入力文を作成した。入力文を検索キーとして検索を実行して得られた検索結果における、該入力文に対応する文書の順位をｒとしたとき、１／ｒの平均値（平均逆順位と呼ぶ）を精度の指標とした。検索対象文書は約１０万文書で、入力文は４０９６文作成した。単語・単語間共起に基づく方法の精度は、０．１８６であったが、単語・意味情報間共起に基づく方法の精度は０．２０９であり、単語・意味情報間共起に基づく方法の方が高精度であった。

以下、図面と共に本発明の実施の形態を説明する。

以下の第１〜第６の実施の形態では、ベクトル生成部の様々なバリエーションを示し、第７〜第１０の実施の形態では、情報処理装置の種々の構成を示している。

［第１の実施の形態］
図３は、本発明の第１の実施の形態における情報処理装置の概要構成を示す。

同図に示す情報処理装置は、ベクトル生成部１１０とデータベース１２０から構成される。

ベクトル生成部１１０は、データベース１２０を参照することにより、入力されたテキストから単語列または意味情報列、または単語と該単語の意味情報の組の列を抽出し、任意の単語と任意の意味情報に対し、テキストにおける一つまたは複数の所定の範囲のそれぞれにおいて、単語と意味情報とが共起する事象を、テキスト全体にわたって計数した頻度を導出し、各単語に対し、各座標が意味情報に対応し、該座標の値が該単語と該意味情報との間で導出された頻度であるベクトルを生成する。

ここで、単語の意味情報とは、単語の属する意味カテゴリを表す。意味カテゴリとは一般に、事物を抽象化した概念である。これは、一般に、人が個々の単語の意味を吟味した上で得られるものである。意味カテゴリの集合は、一例として、図４で表されるような体系をなしている。図４では、各意味カテゴリを言葉として表現しているが、意味カテゴリ自体は必ずしも言葉として表現されているとは限らない概念である。各意味カテゴリには、それを特定するためのＩＤが付与されている。本実施の形態では、このＩＤを便宜上、意味情報と同一視する。

図５は、本発明の第１の実施の形態におけるベクトル生成部の構成図であり、図６は、本発明の第１の実施の形態におけるベクトル生成部の動作のフローチャートである。

図５に示すベクトル生成部１１０は、単語・意味情報列抽出部１１１、ベクトル初期化部１１２、制御部１１３、意味情報頻度算出部１１４、ベクトル更新部１１５から構成され、単語・意味情報列抽出部１１１には、単語・意味情報データベース１２１が接続されている。

単語・意味情報列抽出部１１１は、入力されたテキストを単語・意味情報データベース１２１を参照することにより、単語と当該単語の意味情報の組の列に変換する（ステップ１０１）。

図７は、本発明の第１の実施の形態におけるデータベースの内容の一例を示す。

同図では、単語・意味情報データベース１２１は、１レコードが１単語に関する情報となっており、１レコードは、カンマで区切られた３つの項目から構成されている。第１項目は単語の表記であり、第２項目は当該単語の品詞情報である。第３項目は該単語の意味情報である。一般に内容語には、一つまたは複数の意味情報が対応している。図７においては、複数の意味情報をコロンで区切っている。単語に関するこれらの情報は、一般に、人が個々の単語の品詞や意味を吟味した上で付与する。活用語に対しては、終止形も登録しておいてもよい。

単語・意味情報列抽出部１１１の処理は、例えば、形態素解析により行う。図８は、本発明の第１の実施の形態におけるテキストの例であり、図９は、図８のテキストの形態素解析結果の一例である。図９において、各形態素間は“／”で区切られており、各形態素は、単語表記と品詞情報と意味情報から成っている。単語・意味情報データベース１２１から終止形も取り出しておくことも可能であり、形態素解析後に、単語表記と品詞情報から、終止形も導出し記憶しておくことも可能である。終止形がない単語に対しては、単語表記を終止形とする。

ベクトル初期化部１１２では、図１０のような、テキストにおける単語集合と意味情報集合との間の共起頻度行列を生成する（ステップ１０２）。単語集合における単語は通常、内容語に限られる。図１０では、単語は単語表記ではなく終止形としている。共起行列における各行は、一単語に対応し、各列は一意味情報に対応する。各行ベクトルは、対応する単語の、各座標が意味情報に対応し、該座標の値が該単語と該意味情報との間の共起頻度であるようなベクトルである。ベクトル初期化部１１２では、各行ベクトルの全座標値を０にセットする。

制御部１１３では、単語と意味情報とが共起する頻度を算出する処理の対象となるテキスト中の範囲を決定する（ステップ１０３）。所定の範囲としては、一文、一段落や所定の数の単語の列等がある。

所定の範囲を一文とした場合は、テキスト中の最初の文を処理対象とする。当該文に関する処理が終了したならば、次の文を処理対象とする。以降同様に、処理対象とした文に関する処理が終了したらならば、その次の文を処理対象とする。最後の文に関する処理が終了したならば、処理対象の文はないので、ベクトル生成の処理を終了する。所定の範囲を、他のものとした場合も同様である。

意味情報頻度算出部１１４では、処理対象となっている範囲における意味情報の頻度を算出する（ステップ１０４）。各意味情報の頻度は、当該算出部１１４の処理を開始した時点では、０にセットしておき、次に当該範囲における各単語を最初から順にみていき、当該単語（通常、内容語に限る）中に意味情報が見つかる度に、当該意味情報の頻度を１だけ増加させる。

例として、処理対象の範囲を、図９で示しているある一文の形態素解析結果とする。最初の単語の“デパート”の意味情報が「４１」なので、意味情報「４１」の頻度を「１」とする。次の単語の“で”は、内容語でない単語なので、何もしない。次の単語の“米”の意味情報は「１１」と「９１」なので、意味情報「１１」と「９１」の頻度を共に「１」とする。次の単語の“と”は、内容語でない単語なので、何もしない。次の単語の“パン”の意味情報は「１１」なので、意味情報「１１」の頻度を１増やして「２」とする。次の単語の“を”は、内容語でない単語なので、何もしない。次の単語の“買う”の意味情報は「３３」なので、意味情報「３３」の頻度を「１」とする。次の単語の“、”は、内容語でない単語なので、何もしない。次の単語の“パン”の意味情報は「１１」なので、意味情報「１１」の頻度を１増やして「３」とする。次の単語の“を”は、内容語でない単語なので、何もしない。次の単語の“食べる”の意味情報は「３５」なので、意味情報「３５」の頻度を「１」とする。次の単語“た”は、内容語でない単語なので、何もしない。次の単語の“。”は、内容語でない単語なので、何もしない。以上の処理の結果、当該範囲における意味情報の頻度の情報は、図１１のようになる。

ベクトル更新部１１５では、処理対象の範囲の単語列において、最初の単語から順番に各単語に対し、以下の処理を行う。

処理対象の単語（通常、内容語に限る）に対応する、単語集合と意味情報集合との間の共起頻度行列における行ベクトルの、意味情報頻度算出部１１４で頻度を算出した意味情報に対応する座標の値に、当該意味情報の算出した頻度を加算する（ステップ１０５）。

例として、処理対象の範囲を、図９で示しているある一文の形態素解析結果とする。最初の単語の“デパート”に対応するベクトルにおける、意味情報「４１」「１１」「９１」「３３」「３５」に対応する座標の値に、各意味情報の算出した頻度を加算する。次の単語の“で”は、内容語でない単語なので、何もしない。以下、残りの単語“米”，“と”，“パン”，“を”，“買う”，“、”，“パン”，“を”，“食べる”，“た”，“。”について、順番に同様の処理を行う。ベクトル更新部１１５の結果、図１０の共起頻度行列は、図１２のようになる。

上記のベクトル更新手段１１５の処理が終了したら、制御部１１３の処理に戻り、処理対象の範囲がなくなるまで、制御部１１３、意味情報頻度算出部１１４、ベクトル更新部１１５の処理を繰り返す。

また、意味情報頻度算出部１１４とベクトル更新部１１５の処理を、以下のように実施することもできる。

意味情報頻度算出部１１４を開始した時点で、図１３に示すような、各座標が意味情報に対応し、該座標の値が０にセットされているようなベクトルを生成する。次に、当該範囲における各単語を最初から順に見ていき、当該単語（通常、内容語に限る）中に意味情報が見つかる度に、当該意味情報に対応する座標の値を１だけ増加させる。処理対象の範囲が、図９で示しているある一文の形態素解析結果の場合、意味情報頻度算出部１１４の処理が終了した時点で、図１３に示すベクトルは、図１４の内容に変換される。

ベクトル更新部１１５では、処理対象の単語列において、最初の単語から順番に各単語に対し、以下の処理を行う。

処理対象の単語（通常、内容語に限る）に対応する、単語集合と意味情報集合との間の共起頻度行列における行ベクトルに、意味情報頻度算出部１１４で導出したベクトルを加算する。図１０の共起頻度行列と図１４のベクトルが得られているときに、ベクトル更新部１１５の処理を行うことにより、図１２の共起行列が得られる。

ベクトル生成部１１０によって生成される、単語集合と意味情報集合との間の共起頻度行列における各行ベクトルは、対応する単語の意味表現である。

［第２の実施の形態］
本実施の形態では、前述の第１の実施の形態とは異なるベクトル生成部の構成・動作を説明する。

図１５は、本発明の第２の実施の形態におけるベクトル生成部の構成図であり、図１６は、本発明の第２の実施の形態におけるベクトル生成部の動作のフローチャートである。図１５において、図５と同一構成部分については、同一符号を付し、その説明を省略する。

単語列抽出部２０１は、テキストを単語辞書２２１を参照することにより、単語列に変換する（ステップ２０１）。

図１７は、本発明の第２の実施の形態における単語辞書の内容の一例を示す。同図では、１レコードが１単語に関する情報となっており、１レコードは、カンマで区切られた２つの項目から構成されている。第１項目は単語の表記であり、第２項目は当該単語の品詞情報である。品詞情報は一般に、人が個々の単語の品詞を吟味した上で付与する。活用語に対しては、終止形も登録しておいてもよい。

単語列抽出部２０１の処理は、例えば、形態素解析により行う。図１８は、図８のテキストの形態素解析結果の一例である。各形態素間は“／”で区切られており、各形態素は、単語表記と品詞情報から成っている。単語辞書２２１から終止形も取り出しておくことも可能であり、また、形態素解析後に、単語表記と品詞情報から、終止形も導出し記憶しておくことも可能である。終止形がない単語に対しては、単語表記を終止形とする。

意味情報取得部２０２は、単語列抽出部２０１で得られた単語列における単語を最初から順に見ていき、当該単語（通常、内容語に限る）の終止形で、意味情報データベース２２２を検索して、当該単語の意味情報を取得する（ステップ２０２）。

図１９は、意味情報データベース２２２の内容の一例を示す。同図では、１レコードが１単語に関する情報となっており、１レコードは、カンマで区切られた２つの項目から構成されている。第１項目は単語の終止形であり、第２項目は当該単語の意味情報である。一般に内容語には、１つまたは複数の意味情報が対応している。図１９においては、複数の意味情報をコロンで区切っている。意味情報は、一般に、人が個々の単語の意味を吟味した上で付与する。

意味情報取得部２０２の処理では、取得した意味情報を並べることにより、所定の範囲毎の意味情報列を生成する。図１８に示す単語列から図２０に示す意味情報列が得られる。このように、意味情報列の中には、同一の意味情報が複数ある場合がある。

意味情報頻度算出部２０５では、処理対象の範囲の意味情報列における意味情報を最初から順に見ていき、意味情報の頻度をカウントしていく（ステップ２０５）。

ベクトル初期化部１１２、制御部１１３、ベクトル更新部１１５は、それぞれ、図５における構成の処理と同様の処理を行う。

意味情報取得部２０２では、単語列抽出部２０１で得られた単語列における単語（通常、内容語に限る）の表記と当該単語の品詞情報の組で、意味情報データベース２２２ではなく、図７のようなフォーマットの単語辞書２２１あるいは、単語・意味情報データベース１２１を検索して、当該単語の意味情報を取得するというようにしてもよい。

［第３の実施の形態］
本実施の形態では、前述の第１、第２の実施の形態とは異なるベクトル生成部の構成・動作を説明する。

図２１は、本発明の第３の実施の形態におけるベクトル生成部の構成図であり、図２２は、本発明の第３の実施の形態におけるベクトル生成部の動作のフローチャートである。図２１において、図１５と同一構成部分については、同一符号を付し、その説明を省略する。

本実施の形態におけるベクトル生成部１１０は、意味情報取得部２０２と意味情報データベース２２２が制御部１１３の後段に配置されている点において、前述の第２の実施の形態と異なる。これにより、意味情報取得部２０２の処理は、事前に全テキストに対して行うのではなく、制御部１１３で処理対象の範囲が決定された後に当該範囲内での意味情報取得処理を行うものである。

その他の処理については第２の実施の形態と同様である。

［第４の実施の形態］
本実施の形態では、前述の第１〜第３の実施の形態とは異なるベクトル生成部の構成・動作を説明する。

図２３は、本発明の第４の実施の形態におけるベクトル生成部の構成図であり、図２４は、本発明の第４の実施の形態におけるベクトル生成部の動作のフローチャートである。図２３において、図５と同一構成部分については、同一符号を付し、その説明を省略する。

図２３に示す構成は、前述の第１の実施の形態における単語・意味情報列抽出部１１１が制御部１１３の後段に設けられており、事前に全テキストに対して単語・意味情報列を抽出するのではなく、制御部１１３で処理対象の範囲が決まった後に（ステップ４０１）、当該範囲内のテキストを、単語・意味情報データベース１２１を参照して、単語と当該単語の意味情報の列に変換する（ステップ４０２）。また、ベクトル更新部４０４では、処理対象の単語でテキスト全体を通して初めて出現した単語に対しては、各座標が意味情報に対応し、当該座標の値が当該単語と当該意味情報との間の共起頻度であるようなベクトルで、各座標値が０であるようなベクトルを生成した上で、当該ベクトルの更新を行う（ステップ４０４）。

意味情報頻度算出部１１４の処理は、第１の実施の形態と同様である。

［第５の実施の形態］
本実施の形態では、前述の第１〜第４の実施の形態とは異なるベクトル生成部の構成・動作を説明する。

図２５は、本発明の第５の実施の形態におけるベクトル生成部の構成図であり、図２６は、本発明の第５の実施の形態におけるベクトル生成部の動作のフローチャートである。図２５において、図１５と同一構成部分については、同一符号を付し、その説明を省略する。

本実施の形態では、前述の第２の実施の形態とは異なり、単語列抽出部２０１、意味情報取得部２０２の処理を、事前に全テキストに対して行うのではなく、制御部１１３で処理対象の範囲が決まった後に（ステップ５０１）、当該範囲内での単語列抽出、意味情報取得の処理を行う（ステップ５０２、ステップ５０３）。

また、ベクトル更新部５０５では、処理対象の単語でテキスト全体を通して初めて出現した単語に対しては、各座標が意味情報に対応し、当該座標の値が当該単語と当該意味情報との間の共起頻度であるようなベクトルで、各座標値が０であるようなベクトルを生成した上で、当該ベクトルの更新を行う（ステップ５０５）。

［第６の実施の形態］
ベクトル生成部１１０は、上記の第１〜第５の実施の形態に限定されることなく、特許請求の範囲の請求項１及び請求項６で様々な構成を採用することができる。

例えば、図１５（第２の実施の形態）、図２１（第３の実施の形態）、図２５（第５の実施の形態）の各構成において、意味情報頻度算出部２０５をなくし、意味情報取得部２０２において、以下の処理を行うようにしてもよい。

意味情報取得部２０２において、意味情報頻度算出部２０５のように、所定の範囲毎に最初に、意味情報の頻度の初期化を行う。これは、任意の意味情報の頻度を０としておくか、図１３に示すような、各座標が意味情報に対応し、当該座標の値が０にセットされているようなベクトルを生成する。次に、単語列抽出部２０１で得られた当該範囲における単語列における単語で意味情報データベース２２２を検索して、当該単語の意味情報を一つずつ取得する度に、当該範囲における該意味情報の頻度を１だけ増加させる。

このようにして、当該範囲における意味情報の頻度が得られる。この構成では、意味情報取得部２０２で必ずしも当該範囲における意味情報列を導出する必要はない。

また、別の構成として、図５、図１５、図２１、図２３、図２５の各構成から、意味情報頻度算出部１１４、２０５をなくし、意味情報の頻度を算出しない以下の処理を行うようにしてもよい。

まず、図２０のような所定の範囲における意味情報列を取得する。

所定の範囲における意味情報列の取得は、図５、図２３の構成では、単語・意味情報列抽出部１１１で単語と当該単語の意味情報の組を抽出した後行ってもよいし、ベクトル更新部１１５，４０４の最初に行ってもよい。

図１５、図２１、図２５の構成では、意味情報取得部２０２で所定の範囲の意味情報列を得る。

次に、ベクトル更新部１１５，４０４，５０５で、処理対象の範囲における単語列（この列の中には同一の単語が複数ある場合がある）における任意の単語（通常、内容語に限る。Ａとする。）と、該意味情報列における任意の意味情報（Ｂとする。）との対を検出する度に、Ａのベクトルにおける、Ｂに対応する座標の値を１だけ増加させる。

上記の対の検出は、該単語列における単語を固定した上で、該意味情報列における意味情報を最初から順に見ていき、当該単語と当該意味情報との対をとる。この処理を、該単語列の最初の単語から順に行う。

あるいは、該意味情報列における意味情報を固定した上で、該単語列における単語を最初から順に見ていき、当該単語と当該意味情報との対をとる。この処理を該意味情報列の最初の意味情報から順に行う。

図２７は、このような処理を実施するためのベクトル生成部の構成例であり、図２８は、本発明の第６の実施の形態におけるベクトル生成部の動作のフローチャートである。

図２７に示す構成例では、単語・意味情報列抽出部１１１で、図９のような形態素解析結果が得られたとする。制御部１１３で、図９に示す一文を処理対象の範囲としたとき、ベクトル更新部６０４において、この単語列の単語を最初から順に見ていき、当該単語（通常、内容語に限る）中の意味情報を並べて、図２０のような意味情報列を取得する。

最初の単語の“デパート”と、意味情報列における最初の意味情報「４１」との対に対し、“デパート”に対応するベクトルの、意味情報「４１」に対応する座標の値を１だけ増加させる。次に、“デパート”と意味情報列における次の意味情報「１１」との対に対し、“デパート”に対応するベクトルの、意味情報「１１」に対応する座標の値を１だけ増加させる。同様の処理を、意味情報列における全ての意味情報に対して行う。次の単語の“で”は、内容語ではない単語なので何もしない。次の単語の“米”と、意味情報列における最初の意味情報「４１」との対に対し、“米”に対応するベクトルの、意味情報「４１」に対応する座標の値を１だけ増加させる。次に、“米”と意味情報列における次の意味情報「１１」との対に対し、“米”に対応するベクトルの、意味情報「１１」に対応する座標の値を１だけ増加させる。同様の処理を、意味情報列における全ての意味情報に対して行う。以降、図９に示している単語列における全ての単語に対し、同様の処理を行う。このようにして、対象としている範囲における単語と意味情報との共起頻度を算出することができる。

また、ベクトル生成部１１０の別の構成として、図５、図１５、図２１、図２７の構成からベクトル初期化部１１２をなくし、ベクトル更新部１１５，６０４で、処理対象の単語でテキスト全体を通して初めて出現した単語に対しては、各座標が意味情報に対応し、当該座標の値が当該単語と当該意味情報との間の共起頻度であるようなベクトルで、各座標が０であるようなベクトルを生成した上で、当該ベクトルの更新を行うようにしてもよい。

ベクトル生成部１１０によって生成されたベクトルを、テキストにおける単語の出現頻度の影響を除くために、同一の長さ（例えば、１）に正規化してもよい。

［第７の実施の形態］
図２９は、本発明の第７の実施の形態における情報処理装置の構成図であり、図３０は、本発明の第７の実施の形態における情報処理装置の動作のフローチャートである。図２９では、図３の構成に特異値分解部１３０を加えた構成を示す。なお、ベクトル生成部１１０については、前述の第１〜第６の実施の形態のいずれかの構成を有するものとする。

特異値分解部１３０は、ベクトル生成部１１０によって生成される、単語集合と意味情報集合との間の共起頻度行列に対し、特異値分解を行い、各単語に対応するベクトルを変換し、出力する（ステップ７０２）。

共起頻度行列の各行ベクトルは、ベクトルの次元数が多いと、当該ベクトルを用いた言語処理において、計算量が多くなるという問題がある。そこで、特異値分解部１３０によって、次元数の縮約を行う。次元数が縮約されたベクトルを用いた言語処理は、縮約をしない場合と比べ、計算量が少なくなる。

共起頻度行列Ｘを特異値分解にかける前に、精度向上の目的のため、Ｘの各要素をその平方根に変換しておいてもよい。

共起頻度行列Ｘが（ｐ，ｑ）行列であることを

と表すと、Ｘは特異値分解により、

と分解される。添え字Ｔは、行列の転置を表す。ｒ＝rankX≦min(p,q)、Ｕ^ＴＵ＝Ｖ^ＴＶ＝Ｉ（Ｉ：単位行列）であり、

δ_ii(1≦ｉ≦ｒ)をＸの特異値と呼ぶ。

ここで、

に対し、Ｕの最初のr´列、V^Tの最初のr´の行、Σの最初のr´の行、r´列をとり、

とする。Xから直接Ｕ´、Σ´、Ｖ´を求めてもよい。

Ｕ´の各行ベクトルをその長さで割って正規化したものを、対応する単語の変換後のベクトルとする。

［第８の実施の形態］
図３１は、本発明の第８の実施の形態における情報処理装置の構成図であり、図３２は、本発明の第８の実施の形態における情報処理装置の動作のフローチャートである。

図３１に示す情報処理装置は、図２９の構成に文書ベクトル生成部１４０を加えた構成である。特異値分解部１３０、特異値分解ステップ８０２をなくし、ベクトル生成部１１０で生成されたベクトルを、文書ベクトル生成部１４０の入力としてもよい。ベクトル生成部１１０、特異値分解部１３０については、前述の第７の実施の形態と同様であるため、その説明を省略する。

文書ベクトル生成部１４０は、文書集合における各文書に対し、当該文書を例えば形態素解析することにより当該文書から単語列を抽出し、当該単語列中の単語に対応する、ベクトル生成部１１０または特異値分解部１３０によって生成されたベクトルを取得し、当該ベクトルの和または重心をとることによって当該文書のベクトルを生成し、出力する。

文書ベクトル生成部１４０は、文書ｄ_ｉより抽出した単語列から内容語を並べてできる列をｔ_１，ｔ_２，…，ｔ_ｇとし、ｔ_ｊ（１≦ｊ≦ｇ）のベクトルをｖ（ｔ_ｊ）としたとき、文書ｄ_ｉのベクトルｖ（ｄ_ｉ）を、

として算出する。

また、単語列ｔ₁，ｔ_２，…，ｔ_ｇにおいて、複数ある同一単語をユニークにすることによって得られる単語集合を{ｗ_１，ｗ₂，…，ｗ_ｈ}とし、異なり単語ｗ_ｊ(１≦ｊ≦ｈ)のベクトルをｖ（ｗ_ｊ）としたとき、文書ｄ_ｉのベクトルｖ（ｄ_ｉ）を、

として算出してもよい。

また、ｖ（ｔ_ｊ）やｖ（ｗ_ｊ）に適当な重みを対応付け、ｖ(ｄ_ｉ)を重み付き重心として求めてもよい。

また、ｖ（ｄ_ｉ）を重心としてではなく、式（１）や式(２)の分子の部分としてもよい。

また、上記に挙げた方法で得られたｖ（ｄ_ｉ）をさらに長さ１に正規化してもよい。

［第９の実施の形態］
図３３は、本発明の第９の実施の形態における情報処理装置の構成図であり、図３４は、本発明の第９の実施の形態における情報処理装置の動作のフローチャートである。

図３３に示す情報処理装置は、図３１の構成に入力文ベクトル生成部１５０と適合度算出部１６０を加えた構成である。特異値分解部１３０、特異値分解ステップ９０２をなくし、ベクトル生成部１１０で生成されたベクトルを、文書ベクトル生成部１４０と入力文ベクトル生成部１５０の入力としてもよい。なお、図３３において、図３１と同一構成部分には同一符号を付し、その説明を省略する。

入力文ベクトル生成部１５０は、入力のテキストから単語列を抽出し、当該単語列中の単語に対応する、ベクトル生成部１１０または、特異値分解部１３０による処理（ステップ９０１、ステップ９０２）によって生成されたベクトルを取得し、当該ベクトルの和または、重心をとることによって当該入力のテキストのベクトルを生成する（ステップ９０４）。

適合度算出部１６０は、入力文ベクトル生成部１５０によって生成された入力文ベクトルと、文書ベクトル生成部１４０によって生成された各文書ベクトルとの間の距離または類似度を算出する（ステップ９０５）。

入力文ベクトル生成部１５０は、第８の実施の形態における文書ベクトル生成部１４０の処理において、入力となる文書を入力文に置き換えた上で、同様に実施することができる。

入力文ｅ_ｋのベクトルをｖ(ｅ_ｋ)＝（ｐ_１，ｐ_２，…，ｐ_ｎ）とし、文書ｄ_ｉのベクトルをｖ(ｄ_ｉ)＝（ｑ_１，ｑ_２，…，ｑ_ｎ）としたとき、ｖ（ｅ_ｋ）とｖ（ｄ_ｉ）間の距離として、
(ｐ_１−ｑ_１)^２＋(ｐ_２−ｑ_２)^２＋…＋（ｐ_ｎ−ｑ_ｎ）^２
や、

が挙げられる。

また、ｖ(ｅ_ｋ)とｖ（ｄ_ｉ）間の類似度として、

が挙げられる。ここで、ｖ（ｅ_ｋ）・ｖ（ｄ_ｉ）は、ｖ（ｅ_ｋ）とｖ（ｄ_ｉ）間の内積であり、‖ｖ（ｅ_ｋ）‖や‖ｖ（ｄ_ｉ）‖は、それぞれｖ（ｅ_ｋ），ｖ（ｄ_ｉ）の長さである。

このようにして算出した距離や類似度を入力文ｅ_ｋに対する文書ｄ_ｉの適合度とし、出力する。

［第１０の実施の形態］
図３５は、本発明の第１０の実施の形態における情報処理装置の構成図であり、図３６は、本発明の第１０の実施の形態における情報処理装置の動作のフローチャートである。

図３５に示す情報処理装置は、図３１の構成にクラスタリング部１７０を加えた構成である。特異値分解部１３０、特異値分解ステップ１００２をなくし、ベクトル生成部１１０で生成されたベクトルを、文書ベクトル生成部１４０の入力としてもよい。なお、図３５において、図３１と同一構成部分には同一符号を付し、その説明を省略する。

クラスタリング部１７０は、文書ベクトル生成部１４０によって生成された文書ベクトルの対の間の距離または類似度を算出し、当該距離または類似度を元に、各文書ベクトルに対応する文書の集合をクラスタリングする（ステップ１００４）。

クラスタリングの方法の一例として、以下の方法があげられる。異なる文書に対応するベクトルは、値が同一でも別物とする。最初、各文書ベクトルをクラスタとし、以降、異なる文書に対応するクラスタｃ_ｘ，ｃ_ｙ間の距離（または類似度）をｃ_ｘに含まれる文書ベクトルとｃ_ｙに含まれる文書ベクトルの間の距離（または類似度）の最小値（または最大値）とし、距離（または類似度）が最小(または最大)となるクラスタの対を結合して新たなクラスタとする処理を繰り返すことにより、文書ベクトルの集合としてのクラスタを導出する。導出されたクラスタに含まれる各文書ベクトルに対応する文書の集合をクラスタとし、出力する。

上記の各実施の形態における処理をプログラムとして構築し、当該プログラムを通信回線または記憶媒体からインストールし、ＣＰＵ等の手段で実施することが可能である。

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。

本発明は、言語処理技術に適用可能である。

本発明の原理を説明するための図である。本発明の原理構成図である。本発明の第１の実施の形態における情報処理装置の構成図である。本発明の第１の実施の形態における意味カテゴリの集合の体系を示す図である。本発明の第１の実施の形態におけるベクトル生成部の構成図である。本発明の第１の実施の形態におけるベクトル生成部の動作のフローチャートである。本発明の第１の実施の形態におけるデータベースの内容の一例である。本発明の第１の実施の形態におけるテキストの例である。本発明の第１の実施の形態における図８のテキストの形態素解析結果の一例である。本発明の第１の実施の形態におけるテキストにおける単語集合と意味情報集合との間の共起頻度行列の例である。本発明の第１の実施の形態における意味情報の頻度を示す図（その１）である。本発明の第１の実施の形態におけるベクトル更新部の処理結果である共起頻度行列の例である。本発明の第１の実施の形態における意味情報の頻度を示す図（その２）である。本発明の第１の実施の形態における図１３の内容を変換した例である。本発明の第２の実施の形態におけるベクトル生成部の構成図である。本発明の第２の実施の形態におけるベクトル生成部の動作のフローチャートである。本発明の第２の実施の形態における単語辞書の内容の一例である。本発明の第２の実施の形態における図８のテキストの形態素解析結果の一例である。本発明の第２の実施の形態における意味情報データベースの内容の一例である。本発明の第２の実施の形態における意味情報取得部によって得られる意味情報列の例である。本発明の第３の実施の形態におけるベクトル生成部の構成図である。本発明の第３の実施の形態におけるベクトル生成部の動作のフローチャートである。本発明の第４の実施の形態におけるベクトル生成部の構成図である。本発明の第４の実施の形態におけるベクトル生成部の動作のフローチャートである。本発明の第５の実施の形態におけるベクトル生成部の構成図である。本発明の第５の実施の形態におけるベクトル生成部の動作のフローチャートである。本発明の第６の実施の形態におけるベクトル生成部の構成図である。本発明の第６の実施の形態におけるベクトル生成部の動作のフローチャートである。本発明の第７の実施の形態における情報処理装置の構成図である。本発明の第７の実施の形態における情報処理装置の動作のフローチャートである。本発明の第８の実施の形態における情報処理装置の構成図である。本発明の第８の実施の形態における情報処理装置の動作のフローチャートである。本発明の第９の実施の形態における情報処理装置の構成図である。本発明の第９の実施の形態における情報処理装置の動作のフローチャートである。本発明の第１０の実施の形態における情報処理装置の構成図である。本発明の第１０の実施の形態における情報処理装置の動作のフローチャートである。

符号の説明

１１０ベクトル生成部
１１１単語・意味情報列抽出手段、単語・意味情報列抽出部
１１２ベクトル初期化手段、ベクトル初期化部
１１３制御手段、制御部
１１４意味情報頻度算出手段、意味情報頻度算出部
１１５ベクトル更新手段、ベクトル更新部
１２１データベース、単語・意味情報データベース
１３０特異値分解部
１４０文書ベクトル生成部
１５０入力文ベクトル生成部
１６０適合度算出部
１７０クラスタリング部
２０１単語列抽出部
２０２意味情報取得部
２０５意味情報頻度算出部
２２１単語辞書
２２２意味情報データベース
４０４ベクトル更新部
５０５ベクトル更新部
６０４ベクトル更新部

Claims

単語・意味情報列抽出手段が、単語と該単語の属する意味カテゴリである意味情報の組の集合を格納するデータベースを参照することにより、入力されたテキストから、単語と該単語の意味情報の組の列を抽出する単語・意味情報列抽出ステップと、
ベクトル初期化手段が、前記テキスト中の前記単語・意味情報列抽出ステップで得られた単語の集合と、意味情報集合との間で、各行が単語に対応し、各列が意味情報に対応する共起頻度行列を生成し、該共起頻度行列の各行ベクトルの成分を初期化するベクトル初期化ステップと、
意味情報頻度算出手段が、前記テキスト中の処理対象とする複数の単語を含む所定の範囲において、該範囲内の単語と組になっている各意味情報の頻度をカウントする意味情報頻度算出ステップと、
ベクトル更新手段が、前記テキスト中の処理対象とする複数の単語を含む所定の範囲内の各単語に対応する前記共起頻度行列中の行ベクトルの全てに対し、前記意味情報頻度算出ステップで頻度を算出した各意味情報の成分に該意味情報の頻度を加算するベクトル更新ステップと、
制御手段が、前記意味情報頻度算出ステップと前記ベクトル更新ステップを、前記テキスト中の処理対象とする複数の単語を含む所定の範囲の全てについて繰り返す制御ステップと、
からなることを特徴とする情報処理方法。
特異値分解手段が、前記制御ステップによって生成される、単語集合と意味情報集合との間の共起頻度行列に対し特異値分解を行い、各単語に対応するベクトルを変換する特異値分解ステップを更に行う請求項１記載の情報処理方法。
文書ベクトル生成手段が、
文書集合における各文書に対し、該文書から単語列を抽出し、該単語列中の単語に対応する、前記制御ステップまたは前記特異値分解ステップによって生成されたベクトルを取得し、該ベクトルの和または重心を取ることによって該文書のベクトルを生成する文書ベクトル生成ステップを更に行う、請求項１または２記載の情報処理方法。
入力文ベクトル生成手段が、
適合度算出用のテキストから単語列を抽出し、該単語列中の単語に対応する、前記制御ステップまたは前記特異値分解ステップによって生成されたベクトルを取得し、該ベクトルの和または重心をとることによって該テキストの入力文ベクトルを生成する入力文ベクトル生成ステップと、
適合度算出手段が、前記入力文ベクトル生成ステップによって生成された前記入力文ベクトルと、前記文書ベクトル生成ステップによって生成された文書ベクトルとの対の間のユークリッド距離または内積を算出し、該ユークリッド距離または該内積を前記適合度算出用のテキストに対する適合度とする適合度算出ステップと、
を更に行う請求項３記載の情報処理方法。
クラスタリング手段が、
前記文書ベクトル生成ステップによって生成された各文書ベクトルに基づいて、文書をクラスタリングするクラスタリングステップを更に行う請求項３記載の情報処理方法。
単語と該単語の属する意味カテゴリである意味情報の組の集合を格納するデータベースと、
前記データベースを参照することにより、入力されたテキストから、単語と該単語の意味情報の組の列を抽出する単語・意味情報列抽出手段と、
前記テキスト中の前記単語・意味情報列抽出手段で得られた単語の集合と、意味情報集合との間で、各行が単語に対応し、各列が意味情報に対応する共起頻度行列を生成し、該共起頻度行列の各行ベクトルの成分を初期化するベクトル初期化手段と、
前記テキスト中の処理対象とする複数の単語を含む所定の範囲において、該範囲内の単語と組になっている各意味情報の頻度をカウントする意味情報頻度算出手段と、
前記テキスト中の処理対象とする複数の単語を含む所定の範囲内の各単語に対応する前記共起頻度行列中の行ベクトルの全てに対し、前記意味情報頻度算出手段で頻度を算出した各意味情報の成分に該意味情報の頻度を加算するベクトル更新手段と、
前記意味情報頻度算出手段と前記ベクトル更新手段の処理を、前記テキスト中の処理対象とする複数の単語を含む所定の範囲の全てについて繰り返す制御を行う制御手段と、
を有することを特徴とする情報処理装置。
前記制御手段によって生成される、単語集合と意味情報集合との間の共起頻度行列に対し特異値分解を行い、各単語に対応するベクトルを変換する特異値分解手段を更に有する請求項６記載の情報処理装置。
文書集合における各文書に対し、該文書から単語列を抽出し、該単語列中の単語に対応する、前記制御手段または前記特異値分解手段によって生成されたベクトルを取得し、該ベクトルの和または重心を取ることによって該文書のベクトルを生成する文書ベクトル生成手段を更に有する、請求項６または７記載の情報処理装置。
適合度算出用のテキストから単語列を抽出し、該単語列中の単語に対応する、前記制御手段または前記特異値分解手段によって生成されたベクトルを取得し、該ベクトルの和または重心をとることによって該テキストの入力文ベクトルを生成する入力文ベクトル生成手段と、
前記入力文ベクトル生成手段によって生成された前記入力文ベクトルと、前記文書ベクトル生成手段によって生成された文書ベクトルとの対の間のユークリッド距離または内積を算出し、該ユークリッド距離または該内積を前記適合度算出用のテキストに対する適合度とする適合度算出手段と、
を更に有する請求項８記載の情報処理装置。
前記文書ベクトル生成手段によって生成された文書ベクトルに基づいて、文書をクラスタリングするクラスタリング手段を更に有する請求項８記載の情報処理装置。
コンピュータを、請求項６乃至１０記載の情報処理装置として機能させることを特徴とする情報処理プログラム。