JP2013182580A

JP2013182580A - 素性ベクトル構築装置、素性ベクトル構築方法、述部類似度計算装置、述部類似度計算方法および述部類似度計算プログラム

Info

Publication number: JP2013182580A
Application number: JP2012048049A
Authority: JP
Inventors: Tomoko Izumi; 朋子泉; Masaaki Nagata; 昌明永田; Yasuhiro Akiba; 泰弘秋葉; Kaname Kasahara; 要笠原; Hiroyori Taira; 博順平; Sanae Fujita; 早苗藤田; Sadao Kurohashi; 禎夫黒橋; Daisuke Kawahara; 大輔河原; Tomohide Shibata; 知秀柴田
Original assignee: Kyoto University; Nippon Telegraph and Telephone Corp
Current assignee: Kyoto University; Nippon Telegraph and Telephone Corp
Priority date: 2012-03-05
Filing date: 2012-03-05
Publication date: 2013-09-12

Abstract

【課題】表層文字列が互いに異なる述部間の適確な同義判定を行う。
【解決手段】形態素解析部は、複数の文の形態素解析を行う。係り受け解析部は、複数の文の各々の文節間の係り受け解析を行う。意味ラベル付与部は、複数の文に含まれる複数の述部の機能表現を特定して機能表現の各々にその意味を示す意味ラベルを付与する。素性抽出部は、形態素解析結果に基づいて複数の述部の各々の機能表現を表す文字列を第１の素性として抽出し、抽出した機能表現の各々に対して付与された意味ラベルを第２の素性として抽出し、複数の述部の各々と係り受け関係にある語を第３の素性として抽出する。素性ベクトル構築部は、複数の述部について述部毎に複数の述部の各々に関して素性抽出手段によって抽出された第１、第２および第３の素性の各々と、当該述部との相互情報量に基づいて、第１、第２および第３の素性を要素として含む素性ベクトルを構築する。
【選択図】図２

Description

本発明は、文の核情報を表す述部の同義性を自動で判定するための述部同義判定技術に関する。

現在、Ｗｅｂ上のブログや音声対話ログなど大量のテキスト情報から欲しい情報を探し出す検索技術や、有益な情報のみを自動で抽出・集計するテキストマイニング技術の高精度化が求められている。これらを実現するために必要なことは、計算機による自然文の意味理解である。

例えば、計算機が下記の２つの例文が同じことを表しているということを判定できなければ、利用者が求める情報を正しく検索できず、また、テキストマイニングで必要な「同じ情報のまとめ上げ」ができない。

例文１：アメリカ兵が、自国にひきあげていった。

例文２：米兵が、アメリカに戻っていった。

上記の例文１および２は、文字列が異なるが、同じ出来事を表している。すなわち、「アメリカ兵」と「米兵」、「自国」と「アメリカ」、「引き上げていった」と「戻っていった」は、それぞれ同じ意味である。しかし、計算機が表層文字列のみを手がかりに意味理解を行った場合、上記の例文１および２が同じ出来事を表していると判定することができず、その結果、情報検索や情報抽出に障害が起きる結果となる。従って、計算機は、表層文字列以外の要素をも手がかりとして自然文の意味理解を行う必要がある。特に、「ひきあげていった」や「戻っていった」のような文の「どうした」を表す述部は、文の核情報を表している故、表層文字列の異なる述部間の同義判定が可能になれば、より精度の高い情報検索および情報抽出が可能となる。尚、表層文字列とは、品詞や意味ラベルなどを用いない、文書に出現する文字列そのものをいうものとする。

ここで、日本語の述部は、動詞、名詞、形容詞、形容動詞などの「内容語」と、助詞、助動詞などの「機能語」もしくは「ていく」、「づらい」、「こと」といった非自立性の動詞、形容詞、名詞の組み合わせから成り立っている。以後、述部の内容語以外の部分を「機能表現」と呼ぶ。

例えば、上記例文１の述部である「ひきあげていった」は、以下に示すように、１つの内容語と、１つの非自立性動詞と、１つの機能語により構成されており、「ひきあげ（る）」が内容語に該当し、「ていった」が機能表現に該当する。

ひきあげ（内容語）／ていっ（非自立性動詞）／た（機能語）

述部の同義判定手法として、非特許文献１に記載のものがある。非特許文献１では、抽象的な意味ラベルを用いて機能表現を分類し、この意味ラベルに基づいて当該機能表現が「述部が表す出来事の意味に影響するか否か」を判断し、「影響する」に属する機能表現を残す一方、「影響する」に属さない機能表現を削除すことにより、述部の正規化（言い換え）を行う手法が提案されている。非特許文献１に記載の手法では、機能表現を分類するための抽象的な意味ラベルとして、「時制の差異」、「否定の差異」、及び「モダリティの差異」という３つの指標を立て、述部の正規化に際して、これらに属さない機能表現を削除している。

例えば、上記例文１の述部「ひきあげていった」を非特許文献１に記載の手法により正規化する場合について考える。「ていっ（く）」という機能語は、「自制」、「否定」、「モダリティ」のいずれにも属さないことから、当該機能語は、述部が表す出来事の意味に影響しないものと判定され、削除される。その結果、述部は「ひきあげた」に正規化される。これにより、「ひきあげていった」と「ひきあげた」は同義であるということが判定できる。

述部の同義判定の他の手法として、非特許文献２に記載のものがある。非特許文献２では、「（景気が）冷え込む」と「（景気が）悪化する」のように、文脈によって同義になるような述部をも考慮した同義判定手法を提案している。非特許文献２に記載の手法では、「景気が−冷え込む」のように、「何が」や「何を」を表す項と、述部の内容語とをペアとして、分布類似度という指標を用いて同義判定を行っている。分布類似度とは、「似た意味の語はその語が出現する文脈も似ている」という分布仮説に基づいて計算される語の類似度をいう。分布類似度を用いた同義判定では、同義判定の対象となる述部の周辺に出現する要素を素性として、当該述部の周辺にどうような要素がどのような頻度で出現しているかをもとに、当該述部が、似た文脈で出現するものであるか否かを計算する。非特許文献２に記載の手法では、「景気が−冷え込む」という「項−内容語」からなるペアおよび「冷え込む」という単語そのものの出現を、文脈を表す素性としている。

Izumi T., Imamura K., Kikui G.& Sato S.、「Standardizing Complex Functional Expressions in Japanese Predicates: Applying Theoretically-Based Paraphrasing Rules」、Proceedings of the Workshop on Multiword Expressions : From theory to applications (MWE 2010)、 63-71。柴田和秀・黒橋禎夫(2010). 文脈に依存した述語の同義関係獲得. IPSJ SIG Notes 2010-NL-199(13), 1-6. 今村賢治，泉朋子，菊井玄一郎，佐藤理史 (2011). 述部機能表現の意味ラベルタガー言語処理学会第17回年次大会, 518-521 松吉俊，佐藤理史，宇津呂武仁 (2007). 日本語機能表現辞書の編纂自然言語処理，vol．14，No.5., 123-146. Manning, C., & Schutze, H. (1999). Foundations of statistical natural language processing. Cambridge, MA: MIT Press.

非特許文献１に記載の手法は、機能表現に対してのみ正規化を行うものである。従って、「ひきあげた」と「戻った」のように内容語の部分が異なる述部に対しては同義判定ができない。その結果、上記例文１および２の述部が同じ事を表しているか否かの判定を行うことはできない。

一方、非特許文献２に記載の手法は、先に例示したように、「景気が−冷え込む」のような「項−内容語」からなるペアおよび「冷え込む」のような単語の出現を文脈を表す素性としており、述部の機能表現を文脈を表す素性として使用していない。しかしながら、述部の機能表現そのものの振る舞いが、述部の同義判定の重要な要素となる場合がある。

例えば、「キッチンが片付いている」の「片付く」と、「キッチンが整っている」の「整う」を例に説明する。図１は、Ｗｅｂ上のブログに含まれる８００万文から抽出した表層文字列が異なるが同義関係にある内容語「片付ける」および「整える」に付随する機能表現の出現頻度を示す図である。図１に示すように、「片付ける」および「整える」という内容語は、共に「継続」を意味する「ている」や「ていた」のような機能表現を多く伴って出現する。これは、継続表現は、状態（すなわち、片付いている、整っている）を表す表現だからである。一方、「片付ける」および「整える」という内容語は共に、「たい」という願望表現を伴って出現することは殆どない。

このように、表層文字列が異なるが同義関係にある内容語は、後続する機能表現の出現パターンやその機能表現の意味パターンが共通している場合が多い。すなわち、述部内における機能表現の振る舞いが述部の同義判定に重要な影響を与える場合がある。しかしならが、非特許文献２に記載の手法によれば、述部の内容語と項からなるペアを文脈を表す素性としているため、機能表現を手がかりとした述部の同義判定を行うことができず、その結果、必ずしも精度の高い同義判定を行うものとはなっていなかった。

本発明は、上記した点に鑑みてなされたものであり、表層文字列が互いに異なる述部間の適確な同義判定に寄与することができる素性ベクトル構築装置、素性ベクトル構築方法、述部類似度計算装置、述部類似度計算方法、述部類似度計算プログラムを提供することを目的とする。

本発明に係る素性ベクトル構築装置は、自然言語で記載され且つ電子化された複数の文の形態素解析を行う形態素解析手段と、前記複数の文の各々の文節間の係り受け解析を行う係り受け解析手段と、前記複数の文に含まれる複数の述部の機能表現を特定して前記機能表現の各々にその意味を示す意味ラベルを付与する意味ラベル付与手段と、前記形態素解析手段による形態素解析結果に基づいて前記複数の述部の各々の機能表現を表す文字列を第１の素性として抽出し、前記第１の素性として抽出された機能表現の各々に対して前記意味ラベル付与手段によって付与された意味ラベルを第２の素性として抽出し、前記係り受け解析手段による係り受け解析結果に基づいて前記複数の述部の各々と係り受け関係にある語を第３の素性として抽出する素性抽出手段と、前記複数の述部について述部毎に、前記複数の述部の各々に関して前記素性抽出手段によって抽出された前記第１の素性の各々、前記第２の素性の各々および前記第３の素性の各々と、前記述部との相互情報量に基づいて、前記第１の素性、前記第２の素性および前記第３の素性を要素として含む素性ベクトルを構築する素性ベクトル構築手段と、を含んで構成されている。

また、本発明に係る述部類似度計算装置は、上記の素性ベクトル構築装置によって構築された述部毎の素性ベクトルの各々を記憶した記憶手段と、類似度計算の対象となる２つの述部に対応する素性ベクトルを前記記憶手段から抽出し、抽出した２つの素性ベクトルの対応する要素間の重なりの程度に基づいて前記２つの述部の類似度を計算する類似度計算手段と、を含んで構成されている。

また、本発明に係る素性ベクトル構築方法は、自然言語で記載され且つ電子化された複数の文の形態素解析を行う形態素解析ステップと、前記複数の文の各々の文節間の係り受け解析を行う係り受け解析ステップと、前記複数の文に含まれる複数の述部の機能表現を特定して前記機能表現の各々にその意味を示す意味ラベルを付与する意味ラベル付与ステップと、前記形態素解析ステップにおける形態素解析結果に基づいて前記複数の述部の各々の機能表現を表す文字列を第１の素性として抽出し、前記第１の素性として抽出された機能表現の各々に対して前記意味ラベル付与ステップにおいて付与された意味ラベルを第２の素性として抽出し、前記係り受け解析ステップにおける係り受け解析結果に基づいて前記複数の述部の各々と係り受け関係にある語を第３の素性として抽出する素性抽出ステップと、前記複数の述部について述部毎に、前記複数の述部の各々に関して前記素性抽出ステップにおいて抽出された前記第１の素性の各々、前記第２の素性の各々および前記第３の素性の各々と、前記述部との相互情報量に基づいて、前記第１の素性、前記第２の素性および前記第３の素性を要素として含む素性ベクトルを構築する素性ベクトル構築ステップと、を含んで構成されている。

また、本発明に係る述部類似度計算方法は、上記の素性ベクトル構築方法を用いて構築された述部毎の素性ベクトルの各々を記憶手段に記憶させるステップと、類似度計算の対象となる２つの述部に対応する素性ベクトルを前記記憶手段から抽出し、抽出した２つの素性ベクトルの対応する要素間の重なりの程度に基づいて前記２つの述部の類似度を計算する類似度計算ステップと、を含んで構成されている。

また、本発明に係る述部類似度計算プログラムは、コンピュータを上記の素性ベクトル構築装置又は上記の述部類似度計算装置を構成する各手段として機能させるためのプログラムである。

本発明に係る素性ベクトル構築装置および素性ベクトル構築方法によれば、複数の述部の各々の機能表現を表す文字列が第１の素性として抽出され、第１の素性として抽出された機能表現の各々に対して付与された意味ラベルが第２の素性として抽出され、複数の述部の各々と係り受け関係にある語が第３の素性として抽出され、これら第１の素性、第２の素性および第３の素性を要素とする素性ベクトルが構築される。これにより、機能表現の表層文字列と意味の両方が加味された素性ベクトルを構築することが可能となる。これにより、表層文字列が互いに異なる述部間の適確な同義判定に寄与することができる

また、本発明に係る述部類似度計算装置および述部類似度計算方法によれば、上記した素性ベクトル構築装置又は方法によって構築された素性ベクトルを用いて、２つの述部の分布類似度を算出するので、述部の機能表現の特徴を好適に取り入れた分布類似度計算を行うことが可能となる。これにより、表層文字列が異なる同義関係にある述部についてより適確な類似度計算を行うことが可能となり、そのような述部の同義判定をより適確に行うことが可能となる。

図１は、文字列が異なるが同義関係にある内容語「片付ける」および「整える」に付随する機能表現の出現頻度を示す図である図２は、本発明の実施形態に係る述部同義判定システムの構成を示す機能ブロック図である。図３は機能表現意味ラベル辞書の一例を示す図である。図４は、本発明の実施形態に係る基本解析部による解析結果を示す図である。図５は、本発明の実施形態に係る素性抽出部によって抽出された述部に関する素性の一例を示す図である。図６は、本発明の実施形態に係るベクトル構築部によって構築された素性ベクトルの一例を示す図である。図７は、本発明の実施形態に係る素性ベクトル構築処理ルーチンを示すフローチャートである。図８は、本発明の実施形態に係る分布類似度計算処理ルーチンを示すフローチャートである。図９（ａ）および（ｂ）は、本発明の実施例形態に係る述部同義判定システムおよび比較例に係るシステムを用いて同義関係にある述部の分布類似度を算出した結果を示す図である。

以下、本発明の実施の形態について図面を参照しつつ詳細に説明する。

図２は、本発明の実施形態に係る述部同義判定システム１の構成を示す機能ブロック図である。述部同義判定システム１は、述部の素性ベクトルを構築するための素性ベクトル構築装置２と、素性ベクトル構築装置２によって構築された素性ベクトルを用いて同義判定の対象となる２つの述部間の類似度を計算する述部類似度計算装置３と、により構成されている。

素性ベクトル構築装置２は、後述する素性ベクトル構築処理ルーチンにおける各処理を記述した素性ベクトル構築プログラムを格納したＲＯＭと、この素性ベクトル構築プログラムを実行するためのＣＰＵと、ＣＵＰにおける処理内容を一時的に記憶しておくためのＲＡＭ等を備えたコンピュータで構成されている。

述部類似度計算装置３は、後述する分布類似度計算処理ルーチンの各処理を記述した類似度計算プログラムを格納したＲＯＭと、この類似度計算プログラムを実行するためのＣＰＵと、ＣＵＰにおける処理内容を一時的に記憶しておくためのＲＡＭ等を備えたコンピュータで構成されている。尚、上記した素性ベクトル構築プログラムと類似度計算プログラムは、それぞれ別箇のプログラムとして構成されていてもよいし、一連一体のプログラムとして構成されていてもよい。

素性ベクトル構築装置２は、機能的には、図２に示すように、基本解析部１０、素性抽出部２０および素性ベクトル構築部３０により構成されている。基本解析部１０は、更に、形態素解析部１１、係り受け解析部１２および機能表現意味ラベル付与部１３により構成されている。述部類似度計算装置３は、素性ベクトル蓄積部４０および分布類似度計算部５０により構成されている。

形態素解析部１１は、自然言語で記載され且つ電子化された複数の文を蓄積したテキストコーパスから文を抽出し、抽出した文に対して公知の形態素解析手法を用いて形態素解析を行う。すなわち、形態素解析部１１は、テキストコーパスから抽出した文を形態素単位に分割し、形態素の各々に品詞や活用型、活用形などの情報を付与する。

係り受け解析部１２は、公知の係り受け解析手法を用いて、テキストコーパスから抽出した文を文節単位に分割して、各文節の係り元と係り先を判定する。尚、係り受け解析部１２は、形態素解析部１１による形態素解析結果を利用して係り受け解析を行うこととしてもよい。

機能表現意味ラベル付与部１３は、機能表現に抽象的な意味ラベルを付与して構成された機能表現意味ラベル辞書を用いて、テキストコーパスから抽出した文字列に含まれる機能表現（機能語）を特定すると共に、その機能表現（機能語）に意味ラベルを付与する。図３に、機能表現意味ラベル付与部１３において使用される機能表現意味ラベル辞書の一例を示す。機能表現意味ラベル辞書には、述部の意味に影響を与えるとされる複数の機能表現が収録されており、各機能表現には「完了」、「否定」、「疑問」等の機能表現の意味を示す意味ラベルが付与されている。例えば、「た」という機能表現に対しては、「完了」という意味ラベルが付与されている。尚、機能表現意味ラベル辞書は、各機能表現に対応するＩＤなどの情報を更に含んでいてもよい。

機能表現意味ラベル付与部１３による意味ラベルの付与は、例えば、機能表現意味ラベル辞書との最長マッチのようなルールベースの付与方法であってもよい。また、非特許文献３に記載さているような、正解意味ラベルが付与されたコーパスから学習した、統計的に意味ラベルを付与するタガーを用いる方法であってもよい。本実施形態においては、非特許文献３に記載されているような統計的意味ラベル付与方法を用いる。すなわち、機能表現意味ラベル付与部１３は、コーパス内の機能表現に正しい意味ラベルを人手で付与した正解データを使用して平均化パーセプトロンという手法で学習して生成された識別モデルと、機能表現意味ラベル辞書およびフレーズテーブルを用いて、一文内に出現する機能表現に対して、最適な機能表現意味ラベルを出力してこれを付与する。

尚、基本解析部１０は、非特許文献１に記載されるように、出来事の意味に影響を与える機能表現のみを残し、それ以外を削除する正規化処理を上記した各処理に先立って行うこととしてもよい。本実施形態では、文の最後に現れる最終述部と等位接続という形式で接続されている文中の述部のみには、正規化処理を行うことで表層のばらつきを抑えている。

図４は、基本解析部１０が、例えば「米兵が、自国にひきあげた。」という文について、形態素解析処理、係り受け解析処理および機能表現意味ラベル付与を行った結果を示す図である。図４において、＊（アスタリスク）が付されている行は、係り受け解析処理部１２による処理結果であり、それ以外の行は、形態素解析部１１および機能表現意味ラベル付与部１３による処理結果である。

形態素解析部１１は、図４に示すように、入力された上記の文を、「米兵／が／、／自国／に／ひきあげ／た／。」のように形態素単位に分割し、形態素の各々に品詞、活用型、活用形などの情報を付与する。

係り受け解析部１２は、図４に示すように、入力された上記の例文を「米兵が／自国に／ひきあげた。」のように文節単位に分割し、各文節に対して文節番号“０”、“１”、“２”を付与するとともに、各文節の係り受け関係を示す符号を付与する。すなわち、係り受け解析部１２は、第１文節「米兵が」および第２文節「自国に」は、第３文節「ひきあげた」に係っているものと判定し、第１文節および第２文節の文節番号に付随するように係り先である第３文節を示す符号“２Ｄ”を付与する。機能表現意味ラベル付与部１３は、機能表現意味ラベル辞書を用いて述部の機能表現「た」に意味ラベル「完了」を付与する。基本解析部１０は、上記した形態素解析処理、係り受け解析処理および機能表現意味ラベル付与を例えばテキストコーパス内に蓄積された全ての文に対して行う。

素性抽出部２０は、基本解析部１０によって処理された文の述部に対して分布類似度計算（同義判定）を行うための素性を抽出する。ここで、本実施形態に係る述部同義判定システム１における述部間の類似度計算は、例えば図１に例示されるように、「同義関係にある述部は、機能表現の出現パターンが似ている」という分布仮説に基づいている。そこで、素性抽出部２０は、「機能表現出現パターン」および「機能表現意味ラベルパターン」を述部の同義判定を行うための素性として抽出する。

「機能表現出現パターン」を素性とする素性抽出は、述部の機能表現の表層文字列を使用して行われる。例えば、基本解析部１０が、図４に示すような解析結果を出力している場合において、素子抽出部２０は、述部の内容語となる動詞「ひきあげる」に後続する、助動詞「た」を第１の素性として抽出する。このとき表層形および標準形のいずれを抽出してもよい。本実施形態では、標準形を用いて機能表現の表層文字列「た」を内容語である「ひきあげる」に関する第１の素性として抽出する。

一方、「機能表現意味ラベルパターン」を素性とする素性抽出は、述部の内容語に後続する機能表現（機能語）の意味的な側面を第２の素性として抽出するものである。すなわち、素性抽出部２０は、先に第１の素性として抽出した機能表現に対して機能表現意味ラベル付与部１３によって付与された意味ラベルを第２の素性として抽出する。例えば、上記の例において、素子抽出部２０は、先に第１の素性として抽出した機能表現「た」に対して付与された意味ラベル「完了」を第２の素性として抽出する。

素性抽出部２０は、更に、述部以外の単語を文脈素性として抽出する。例えば、素性抽出部２０は、「が、を、に、から、と、へ、まで、より、の、で」のいずれかの格助詞を持った名詞が、述部の動詞（内容語）に対して係り受け関係にあれば、その名詞と格助詞からなるペアを第３の素性として抽出する。具体的には、「米兵が」と「自国に」という文節が、動詞「ひきあげる」を含む文節に係っているので、「米兵が」および「自国に」が第３の素性として抽出される。係り受け関係についての判定は、係り受け解析部１１による解析結果を利用することができる。

このように、素性抽出部２０は、例えば、基本解析部１０による図４に例示された解析結果に対して、図５に示すように「た」、「完了」、「米兵：が」、「自国：に」を素性として抽出する。素性抽出部２０は、以上の処理を例えばテキストコーパス内に蓄積された全ての文に対して行う。

素性ベクトル構築部３０は、基本解析部１０による解析結果および素性抽出部２０によって抽出された素性を用いて、テキストコーパスから抽出した複数の述部の各々を対象として、述部毎に素性ベクトルの構築を行う。素性ベクトル構築部３０は、素性ベクトル構築の対象となる１の述部と、複数の述部の各々に関して素性抽出部２０によって抽出された第１の素性の各々、第２の素性の各々、第３の素性の各々との間の相互情報量ＭＩを算出する。素性ベクトル構築の対象となる１の述部と素性との間の相互情報量ＭＩは、下記の式（１）によって求めることができる。

ここで、ｕは分布類似度を計算する単位（素性ベクトルを構築する単位）であり、本実施形態においては述部の内容語を表す。ｆは、素性を表す。Ｐ（ｕ）は、テキストコーパス内である述部（内容語）が出現する確率を表す。例えば、上記の例において、「ひきあげる」という言葉がテキストコーパス内で出現する確率のことである。Ｐ（ｆ）は、テキストコーパス内である述部に関して抽出されたある素性が出現する確率を表す。例えば、上記の例において、ある述部の素性として抽出された意味ラベル「完了」がテキストコーパス内で出現する確率のことである。Ｐ（ｕ，ｆ）は、その述部とその素性が同時に現れる確率を表す。例えば、上記の例において、内容語「ひきあげる」と素性「完了」が同時に出現する確率のことである。

素性ベクトル構築部３０は、相互情報量ＭＩの算出値の各々を下記の式（２）によって表されるｗｅｉｇｈｔ関数を用いて処理する。

すなわち、素性ベクトル構築部３０は、素性ベクトル構築の対象となる述部（例えば「ひきあげる」）と素性抽出部２０によって抽出されたある素性（例えば「完了」）との相互情報量ＭＩの値が０よりも大である場合（ＭＩ＞０）、その述部とその素性との間に“１”を立て、相互情報量ＭＩの値が上記以外の場合は、その述部とその素性との間に“０”を立てる。同様に、素性ベクトル構築部３０は、その述部と素性抽出部２０によって抽出された他の素性との間にも“１”または“０”を立てる。このようにして１つの述部に関して、第１の素性の各々、第２の素性の各々および第３の素性に対する“０”及び“１”を要素とする素性ベクトルが構築される。素性ベクトル構築部３０は、例えばテキストコーパス内の全ての述部に対して上記したように素性ベクトルの構築を行う。

図６は、素性ベクトル構築部３０によって構築された素性ベクトルの一例を示す図である。図６においては、テキストコーパス内から抽出された述部「ひきあげる」および「戻る」のそれぞれに関して構築された素性ベクトルが示されている。素性ベクトル構築部３０は、述部「ひきあげる」と、素性抽出部２０によって抽出された素性「完了」、「た」、「米兵：が」、「アメリカ軍：が」、「自国：に」、「アメリカ：に」等との間の相互情報量ＭＩを算出し、その算出値に基づいて述部「ひきあげる」と上記の各素性との間に“１”又は“０”を立てることにより、述部「ひきあげる」に関する素性ベクトルを構築する。同様に、素性ベクトル構築部３０は、述部「戻る」と、素性抽出部２０によって抽出された素性「完了」、「た」、「米兵：が」、「アメリカ軍：が」、「自国：に」、「アメリカ：に」等との間の相互情報量ＭＩを算出し、その算出値に基づいて述部「戻る」と上記の各素性との間に“１”又は“０”を立てることにより、述部「戻る」に関する素性ベクトルを構築する。

尚、本実施形態においては、述部と素性との間の相互情報量ＭＩを用いて素性ベクトルを構築することとしたが、述部と素性との間の相互依存性を示す他の指標を用いて素性ベクトルを構築してもよい（例えば非特許文献５を参照）。

素性ベクトル蓄積部４０は、素性ベクトル構築部３０によって構築された述部毎の素性ベクトルを蓄積しておくための記憶媒体である。ベクトル蓄積部４０は、ハードディスク、ＣＤ−ＲＯＭ、半導体メモリ等のあらゆるコンピュータ読み取り可能な記憶媒体を用いて構成することができる。素性ベクトル蓄積部４０は、テキストコーパス内に含まれる例えば８００万文から構築された複数の述部に関する素性ベクトルが蓄積されている。

分布類似度計算部５０は、素性ベクトル蓄積部４０に蓄積された素性ベクトルを用いて、外部より入力される同義判定の対象となる２つの述部間の分布類似度を算出する。素性ベクトルを用いた分布類似度の計算は、様々な手法が提案されているが、本実施形態において分布類似度計算部５０は、下記の式（３）によって表わされるmeasure関数を用いて２つの述部間の分布類似度を算出する。

ここで、JACCARD係数（ジャッカード係数）は、下記の式（４）で表わされる。

SIMPSON係数（シンプソン係数）は、下記の式（５）で表わされる

JACCARD係数の分子は、類似度の算出を行う２つの述部の素性ベクトルを要素毎（素性毎）に比較したときに、第１の述部の素性ベクトルに“１”が立っており、且つ第２の述部に関する素性ベクトルにも“１”が立っている要素（素性）の個数である。JACCARD係数の分母は、類似度の算出を行う２つの述部の素性ベクトルを要素毎（素性毎）に比較したときに、１つ目の述部および２つ目の述部に関するベクトルの少なくとも一方に“１”が立っている個数である。例えば、「ひきあげる」「戻る」の２つの述部に関して、図６に示すような素性ベクトルが構築されている場合においてJACCARD係数を計算する場合を例に説明する。「ひきあげる」と「戻る」の双方に対して “１”が立っている要素（素性）は、「完了」と「た」の２つであるので、JACCARD係数の分子は１となる。また「ひきあげる」および「戻る」の少なくとも一方に対して “１”が立っている要素（素性）は、「完了」「た」「米兵：が」「アメリカ軍：が」「自国：に」「アメリカ：に」の６つであるのでJACCARD係数の分母は６となる。従って、JACCARD係数の値は２／６となる。

SIMPSON係数の分子は、JACCARD係数の分子と同様である。SIMPSON係数の分母は、第１の述部において“１”が立っている要素（素性）の個数と、第２の述部において“１”が立っている要素（素性）の個数のうち、少ない方の個数である。

分布類似度計算部５０は、measure関数を用いて処理することにより（すなわち、JACCARD係数とSIMPSON係数の和を２で除算することにより）、入力された２つの述部間の分布類似度を算出する。このようにしてmeasure関数を使用することにより得られる分布類似度は、０から１．０までの値をとり、その値が大きいほど２つの述部は類似していることを示す。得られる分布類似度は、２つの述部間の同義判定を行うための指標として用いることが可能である。尚、本実施形態では、分布類似度をmeasure関数を用いて算出することとしたが、これに限定されるものではない。例えば、JACCARD係数のみ又はSIMPSON係数のみを用いて分布類似度を算出してもよく、また、下記の式（６）で表わされるmatching係数（マッチング係数）、下記の式（７）で表わされるDice係数（ダイス係数）などの他の公知の指標を用いることが可能である。すなわち、分布類似度計算部５０は、同義判定の対象となる２つの述部に関してそれぞれ構築された素性ベクトルの各要素の重なりの程度（すなわち、２つの素性ベクトルの要素が一致する数や一致する割合など）に基づいてこれら２つの述部間の分布類似度を算出する。

次に本発明の実施形態に係る素性ベクトル構築装置２によって実行される素性ベクトル構築処理ルーチンについて図７に示すフローチャートを参照しつつ説明する。

ステップＳ１０１において、基本解析部１０の構成要素である形態素解析部１１は、テキストコーパス内に蓄積された自然文で記載され且つ電子化された文を抽出して、抽出した文に対して公知の形態素解析手法を用いて形態素解析を行う。すなわち、形態素解析部１１は、抽出した文を形態素単位に分割し、形態素の各々に品詞や活用型、活用形などの情報を付与する。

ステップＳ１０２において、基本解析部１０の構成要素である係り受け解析部１２は、公知の係り受け解析手法を用いて、形態素解析部１１によって解析処理された文を文節単位に分割して各文節の係り元と係り先を判定する。係り受け解析部１２は、各文節に文節番号を付与するとともに、各文節の係り受け関係を表示する識別符号を付与する。

ステップＳ１０３において、基本解析部１０の構成要素である機能表現意味ラベル付与部１３は、図３に示されるような機能表現意味ラベル辞書を用いて、形態素解析部１１によって形態素単位に分割された文のうちの機能表現（機能語）を特定し、特定した機能表現に対して「完了」、「否定」、「疑問」等の機能表現の意味を示す意味ラベルを付与する。機能表現意味ラベル付与部１３は、例えば、テキストコーパスに蓄積された文の機能表現に正しい意味ラベルを人手で付与した正解データを使用して平均化パーセプトロンという手法で学習して生成された識別モデルと、機能表現意味ラベル辞書およびフレーズテーブルを用いて、一文内に出現する機能表現に対して、最適な機能表現意味ラベルを出力してこれを付与する。機能表現意味ラベル付与部１３は、機能表現意味ラベル辞書との最長マッチのようなルールベースの方法で機能表現に対して意味ラベルを付与することとしてもよい。

上記したステップＳ１０１からＳ１０３までは、基本解析部１０による文の基本解析処理である。基本解析部１０によるこれら一連の処理の結果は、図４に例示されている。基本解析部１０は、例えば、テキストコーパスから抽出した文「米兵が、自国にひきあげた。」に対して、上記した形態素解析部１１よる処理において、上記の文を形態素単位に分割するとともに形態素の各々に品詞や活用型、活用形などの情報を付与する。その後、基本解析部１０は、係り受け解析部１２による処理において、上記の文を文節単位に分割して、各文節に文節番号を付与するとともに、各文節の係り受け関係を示す符号を付与する。続いて、基本解析部１０は、機能表現意味ラベル付与部１３による処理において、上記の文に含まれる機能表現「た」に対して意味ラベル「完了」を付与する。基本解析部１００は、テキストコーパスに蓄積された全ての文に対して上記した基本解析処理を行う。

ステップＳ１０４において、素性抽出部２０は、基本解析部１００によって解析処理された文の述部に関する素性を抽出する。はじめに、素性抽出部２０は、「機能表現出現パターン」を当該述部に関する第１の素性として抽出する。例えば、素性抽出部２０は、上記の例文「米兵が、自国にひきあげた。」の述部を構成する内容語である動詞「ひきあげる」に後続する、文字列「た」を機能表現であるものと判定してこれを述部「ひきあげる」に関する第１の素性（機能表現出現パターン）として抽出する。

次に、素性抽出部２０は、先に第１の素性として抽出した機能表現に対して付された意味ラベルを第２の素性として抽出する。例えば、素性抽出部２０は、先に抽出された機能表現「た」に対して付与されている意味ラベル「完了」を述部「ひきあげる」に関する第２の素性（機能表現意味ラベルパターン）として抽出する。

更に、素性抽出部２０は、基本解析部１００によって解析された文の述部と係り受け関係にある名詞および格助詞のペアを第３の素性として抽出する。当該述部と係り受け関係にあるか否かの判定は、先の係り受け解析部１２による処理結果を用いることができる。例えば、素性抽出部２０は、上記の例文「米兵が、自国にひきあげた。」の述部「ひきあげる」と係り受け関係にある名詞および格助詞のペア「米兵：が」および「自国：に」を述部「ひきあげる」に関する第３の素性として抽出する。素性抽出部２０は、図５に示すように、上記の例文「米兵が、自国にひきあげた。」の述部「ひきあげる」に関する素性として「た」、「完了」、「米兵：が」、「自国：に」を抽出する。素性抽出部２０は、以上のような処理をテキストコーパス内に蓄積された全ての文の各述部に関してして行う。

ステップＳ１０５において、素性ベクトル構築部３０は、基本解析部１０による解析結果および素性抽出部２０によって抽出された素性を用いてテキストコーパス内に蓄積された全て述部を対象として、述部毎に素性ベクトルを構築する。すなわち、素性ベクトル構築部３０は、述部毎に、当該述部と、テキストコーパス内の複数の述部の各々に関して素性抽出部２０によって抽出された第１の素性の各々、第２の素性の各々、第３の素性の各々との間の相互情報量ＭＩを算出し、算出値の各々をｗｅｉｇｈｔ関数を用いて処理することにより、当該述部に関して第１の素性の各々、第２の素性の各々および第３の素性の各々に対する“０”および“１”を要素とする素性ベクトルを構築する。

素性ベクトル構築部３０によって構築された素性ベクトルの一例が、図６に示されている。素性ベクトル構築部３０は、例えば、テキストコーパスから抽出された述部「ひきあげる」と、テキストコーパスから抽出された複数の述部に関して素性抽出部２０によって抽出された素性「完了」、「た」、「米兵：が」、「アメリカ軍：が」、「自国：に」、「アメリカ：に」等との間の相互情報量ＭＩを算出し、その算出値に基づいて述部「ひきあげる」と上記の各素性との間に“１”又は“０”を立てることにより、述部「ひきあげる」に関する素性ベクトルを構築する。同様に、素性ベクトル構築部３０は、テキストコーパスから抽出された述部「戻る」と、テキストコーパスから抽出された複数の述部に関して素性抽出部２０によって抽出された素性「完了」、「た」、「米兵：が」、「アメリカ軍：が」、「自国：に」、「アメリカ：に」等との間の相互情報量ＭＩを算出し、その算出値に基づいて述部「戻る」と上記の各素性との間に“１”又は“０”を立てることにより、述部「戻る」に関する素性ベクトルを構築する。以上のような処理をテキストコーパス内に蓄積された全ての文の各述部に関してして行う。

ステップＳ１０６において、素性ベクトル構築部３０は、テキストコーパス内から抽出された複数の述部の各々に関して構築した素性ベクトルの各々を、素性ベクトル蓄積部４０に格納する。

以上のステップＳ１０１〜Ｓ１０６の各処理を経て、素性ベクトル構築処理ルーチンが終了する。尚、素性ベクトル構築処理ルーチンを構成する各ステップは、素性ベクトル構築プログラムとして記述され、素性ベクトル構築装置２を構成するコンピュータにインストールされている。

次に本発明の実施形態に係る述部類似度計算装置３によって実行される分布類似度計算処理ルーチンについて図８に示すフローチャートを参照しつつ説明する。尚、素性ベクトル蓄積部４０には、テキストコーパス内から抽出された複数の述部の各々に関して構築された複数の素性ベクトルが予め蓄積されているものとする。

ステップS２０１において、分布類似度計算部５０は、分布類似度計算の対象となる（すなわち、同義判定の対象となる）２つの述部の入力を受け付ける。この２つの述部は、ユーザによるマニュアル操作によって与えられるものであってもよいし、外部装置から与えられるものであってもよい。

ステップＳ２０２において、分布類似度計算部５０は、ステップS２０１において受け付けた２つの述部に関する素性ベクトルを素性ベクトル蓄積部４０から抽出する。

ステップＳ２０３において、分布類似度計算部５０は、ステップS２０２において抽出した素性ベクトルを上記した数式３で表されるmeasure関数を用いて処理することにより、２つの述部の分布類似度を算出する。すなわち、分布類似度算出部５０は、２つの述部に関する素性ベクトルの各要素の重なりの程度に基づいて当該２つの述部の分布類似度を算出する。

以上のステップＳ２０１〜Ｓ２０３の処理を経て、分布類似度計算処理ルーチンが終了する。尚、分布類似度計算処理ルーチンを構成する各ステップは、分布類似度計算処理プログラムとして記述され、述部類似度計算装置３を構成するコンピュータに予めインストールされている。また、上記した素性ベクトル構築プログラムと分布類似度計算処理プログラムを組み合わせて、素性ベクトル構築装置２と述部類似度計算装置３とを一体的に機能させるプログラムとして構成することも可能である。

図９（ａ）は、本発明の実施例形態に係る述部同義判定システム１および比較例に係るシステムを用いて同義関係にある述部「ひきあげる」と「戻る」の分布類似度を算出した結果を示す図である。図９（ａ）において最下段の値が本発明の実施形態に係る述部同義判定システム１を用いて得られた分布類似度である。すなわち、図９（ａ）最下段は、機能表現出現パターン（Surf）、機能表現意味ラベルパターン（Sem）および当該述部と係り受け関係にある名詞（Noun）の３つの項目を素性として構築した素性ベクトルを用いて算出した分布類似度を示す。

図９（ａ）の最上段は、比較例であり、当該述部と係り受け関係にある名詞（Noun）のみを素性として構築した素性ベクトルを用いて算出された分布類似度を示す。

図９（ａ）の２段目は、比較例であり、当該述部と係り受け関係にある名詞（Noun）と、機能表現意味ラベルパターン（Sem）の２項目を素性として構築した素性ベクトルを用いて算出された分布類似度を示す。

図９（ａ）において、３段目は、比較例であり、当該述部と係り受け関係にある名詞（Noun）と、機能表現出現パターン（Surf）の２項目を素性として構築した素性ベクトルを用いて算出された分布類似度を示す。尚、それぞれのケースにおいて、素性ベクトルは、８００万文を蓄積したテキストコーパスを用いて構築した。

図９（ｂ）は、「片付く」と「整う」について同様の評価を行った結果である。図９（ａ）および図９（ｂ）に示すように、述部と係り受け関係にある語だけでなく、機能表現をも素性として加えることにより、表層文字列が異なる同義関係にある述部に対してより高い分布類似度を得ることができた。更に、本発明の実施形態に係る述部同義判定システム１のように機能表現の表層文字列を用いた「機能表現出現パターン」と、機能表現の意味を用いた「機能表現意味ラベルパターン」を素性として加えることにより、比較例よりも高い分布類似度が得られることが確認できた。すなわち、「機能表現出現パターン」と「機能表現意味ラベルパターン」を述部の素性として加えて素性ベクトルを構築することにより、機能表現の特徴を好適に分布類似度計算に取り入れることができた。

以上の説明から明らかなように、本発明の実施形態に係る素性ベクトル構築装置２は「同義関係にある述部は、機能表現の出現パターンが似ている」という分布仮説に基づいて、機能表現を述部の文脈素性として抽出して素性ベクトルを構築する。すなわち、素性ベクトル構築装置２は、機能表現の出現形式を素性として取り込む「機能表現出現パターン」の抽出と、機能表現の意味を素性として取り込む「機能表現意味ラベルパターン」の抽出を行って、これらを要素に含む素性ベクトルを構築する。これにより、機能表現の表層文字列と意味の両方が加味された素性ベクトルを構築することが可能となる。

本発明の実施形態に係る述部類似度計算装置３は、素性ベクトル構築装置２によって構築された素性ベクトルを用いて、２つの述部の分布類似度を算出するので、述部の機能表現の特徴を好適に取り入れた分布類似度を算出することが可能となり、表層文字列が異なる同義関係にある述部についてもより適確な類似度計算を行うことが可能となる。

すなわち、本発明の実施形態に係る素性ベクトル構築装置２と述部類似度計算装置３とを含む述部同義判定システム１によれば、述部の機能表現の特徴を好適に取り入れて分布類似度を算出するので、「ひきあげる」と「戻る」のように表層文字列が異なるが同じ事を表している述部に対してより適確な分布類似度を得ることが可能となり、より正確な述部の同義判定を行うことが可能となる。その結果、ユーザが求める情報を探し出す検索技術において、文字列が異なる表現で検索しても同じ事を表すテキストを表示することが可能となり、検索技術の精度の向上を図ることが可能となる。更に、大量のテキストから重要な情報のみを抽出・集計・提示するテキストマイニング技術において、表層文字列にかかわらず同じ出来事を正しく集計することが可能となる。

尚、本明細書中において、プログラムが予めインストールされているコンピュータが素性ベクトル構築装置、述部類似度計算装置および述部同義判定システムとして機能する場合を例示しているが、当該プログラムをコンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１述部同義判定システム
２素性ベクトル構築装置
３述部類似度計算装置
１０基本解析部
１１形態素解析部
１２係り受け解析部
１３機能表現意味ラベル付与部
２０素性抽出部
３０素性ベクトル構築部
４０素性ベクトル蓄積部
５０分布類似度計算部

Claims

自然言語で記載され且つ電子化された複数の文の形態素解析を行う形態素解析手段と、
前記複数の文の各々の文節間の係り受け解析を行う係り受け解析手段と、
前記複数の文に含まれる複数の述部の機能表現を特定して前記機能表現の各々にその意味を示す意味ラベルを付与する意味ラベル付与手段と、
前記形態素解析手段による形態素解析結果に基づいて前記複数の述部の各々の機能表現を表す文字列を第１の素性として抽出し、前記第１の素性として抽出された機能表現の各々に対して前記意味ラベル付与手段によって付与された意味ラベルを第２の素性として抽出し、前記係り受け解析手段による係り受け解析結果に基づいて前記複数の述部の各々と係り受け関係にある語を第３の素性として抽出する素性抽出手段と、
前記複数の述部について述部毎に、前記複数の述部の各々に関して前記素性抽出手段によって抽出された前記第１の素性の各々、前記第２の素性の各々および前記第３の素性の各々と、前記述部との相互情報量に基づいて、前記第１の素性、前記第２の素性および前記第３の素性を要素として含む素性ベクトルを構築する素性ベクトル構築手段と、を含む素性ベクトル構築装置。
請求項１に記載の素性ベクトル構築装置によって構築された述部毎の素性ベクトルの各々を記憶した記憶手段と、
類似度計算の対象となる２つの述部に対応する素性ベクトルを前記記憶手段から抽出し、抽出した２つの素性ベクトルの対応する要素間の重なりの程度に基づいて前記２つの述部の類似度を計算する類似度計算手段と、を含む述部類似度計算装置。
自然言語で記載され且つ電子化された複数の文の形態素解析を行う形態素解析ステップと、
前記複数の文の各々の文節間の係り受け解析を行う係り受け解析ステップと、
前記複数の文に含まれる複数の述部の機能表現を特定して前記機能表現の各々にその意味を示す意味ラベルを付与する意味ラベル付与ステップと、
前記形態素解析ステップにおける形態素解析結果に基づいて前記複数の述部の各々の機能表現を表す文字列を第１の素性として抽出し、前記第１の素性として抽出された機能表現の各々に対して前記意味ラベル付与ステップにおいて付与された意味ラベルを第２の素性として抽出し、前記係り受け解析ステップにおける係り受け解析結果に基づいて前記複数の述部の各々と係り受け関係にある語を第３の素性として抽出する素性抽出ステップと、
前記複数の述部について述部毎に、前記複数の述部の各々に関して前記素性抽出ステップにおいて抽出された前記第１の素性の各々、前記第２の素性の各々および前記第３の素性の各々と、前記述部との相互情報量に基づいて、前記第１の素性、前記第２の素性および前記第３の素性を要素として含む素性ベクトルを構築する素性ベクトル構築ステップと、を含む素性ベクトル構築方法。
請求項３に記載の素性ベクトル構築方法を用いて構築された述部毎の素性ベクトルの各々を記憶手段に記憶させるステップと、
類似度計算の対象となる２つの述部に対応する素性ベクトルを前記記憶手段から抽出し、抽出した２つの素性ベクトルの対応する要素間の重なりの程度に基づいて前記２つの述部の類似度を計算する類似度計算ステップと、を含む述部類似度計算方法。
コンピュータを請求項１に記載の素性ベクトル構築装置又は請求項２に記載の述部類似度計算装置を構成する各手段として機能させるための述部類似度計算プログラム。