JP5504097B2

JP5504097B2 - 意味的に類似している語対を二項関係に分類する二項関係分類プログラム、方法及び装置

Info

Publication number: JP5504097B2
Application number: JP2010185391A
Authority: JP
Inventors: 飛鳥隅田; 一則松本; 元服部; 智弘小野
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2010-08-20
Filing date: 2010-08-20
Publication date: 2014-05-28
Anticipated expiration: 2030-08-20
Also published as: JP2012043294A

Description

本発明は、文章から語間関係を抽出する技術に関する。

従来、文章から、二つの項から構成される、上位下位関係や部分全体関係をはじめとした名詞間関係又は動詞／形容詞間関係といった語間関係を抽出する技術がある。語間関係を自動的に文章中から抽出するために、語彙統語パターンを用いる第１の従来技術と、係り受け関係にある名詞の共起情報を用いる第２の従来技術とがある。

第１の従来技術によれば、品詞の活用形や、接続詞などを含む語彙統語パターンを文章に適用することによって、語間関係を抽出する（例えば非特許文献１、２、３、８、９、１０参照）。語彙統語パターンとは、「＊などの＊」などの、語と係り受け関係を利用したパターンである（例えば非特許文献８参照）。例えば、以下のように、例文に、語彙統語パターンを適用することによって上位下位関係を抽出することができる。
例文：「ソメイヨシノなどの桜」
語彙統語パターン：「＊などの＊」
上位下位関係：（桜，ソメイヨシノ）

第２の従来技術によれば、所定の動詞／形容詞対について、それぞれの対を構成する要素に係る語の集合間の類似度が高いほど、対間に意味的関係があると推定する（例えば特許文献１、２、非特許文献４、５、１１参照）。以下のように、例えば２つの述語には「ぶらつく」「行く」の間には、共通して係る名詞があるために、意味関係があると推定される。
述語「ぶらつく」の係り受け名詞：「河原」「街」「公園」
述語「行く」の係り受け名詞：「街」「公園」「砂浜」
２つの述語に共通して係る名詞：「街」「公園」

特開２０１０−１２９０２５号公報特開２００９−２６５８８９号公報

T. Inui and M. Okumura, "Investigating thecharacteristics of causal relations in Japanese text," in Proceedings of theWorkshop on Frontiers in Corpus Annotations II, 2005, 37-44. K. Torisawa, "Automaticacquisition of expressions representing preparation and utilization of anobject," in Proceedings of the Recent Advances in Natural Language Processing,2005, 556-560. S. Abe, K.Inui, and Y. Matsumoto, "Acquiring event relation knowledge by learning cooccurrencepatterns and fertilizing cooccurrence samples with verbal nouns," inProceedings of the 3rd International Joint Conference on Natural LanguageProcessing, 2008, 497-504. D. Lin and P.Pantel, "DIRT-discovery of inference rules from text," in Proceedings of ACMSIGKDD Conference on Knowledge Discovery and Data Mining, 2001, 323-328. C. Hashimoto etal., "Large-scale verb entailment acquisition from the web," in Proceedings ofthe 2009 Conference on Empirical Methods in Natural Language Processing: Volume3, 2009, 1172-1181. 高橋秀幸、竹内孔一、「多義性を考慮した同時共起クラスタリングによる動詞の類語抽出」、電子情報通信学会技術研究報告. NLC、言語理解とコミュニケーション、vol. 108、2009、37-42 C. Fellbaum,WordNet: An Electronic Lexical Database, The MIT Press, 1998. M. A. Hearst, "Automatic acquisition ofhyponyms from large text corpora," in Proceedings of the 14th conference onComputational linguistics-Volume 2 (Association for Computational LinguisticsMorristown, NJ, USA, 1992), 539-545. T. Chklovskiand P. Pantel, "Verbocean: Mining the web for fine-grained semantic verbrelations," in Proceedings of EMNLP, vol. 4, 2004, 33-40. O. Etzioni et al., "Unsupervisednamed-entity extraction from the web: An experimental study," ArtificialIntelligence 165, no. 1 (2005), 91-134. J.Kazama and K.Torisawa, "InducingGazetteers for Named Entity Recognition by Large-scale Clustering of DependencyRelations," in Proceedings ACL-08: HLT (2008), 407-415.

前述した第１の従来技術によれば、語彙統語パターンにマッチすれば高精度に語間関係を獲得できる一方、語彙統語パターンにマッチしない語間関係は抽出できない。また、第２の従来技術によれば、語彙統語パターンにマッチしない語間関係であっても抽出できる一方、名詞間関係については、意味的関係に分類することができず、動詞／形容詞間関係については、含意関係に属する関係しか抽出することができない。

また、特許文献２に記載された技術によれば、名詞間関係について、意味的関係に分類できるよう、機械学習を行っている。しかしながら、機械学習を行う際には、学習データが必要となる。

更に、第１及び第２の従来技術によれば、獲得すべき意味的関係を事前に定めておき、その定められた意味的関係を獲得する。しかしながら、存在する全ての意味的関係を事前に定めておくことは困難であるため、特定の意味的関係を獲得することはできるが、多様な意味的関係及び意外な意味的関係を獲得することはできない。

また、第１及び第２の従来技術によれば、名詞間関係及び動詞／形容詞間関係のいずれかを分類対象としている。しかしながら、これらの関係を語間関係として、一括して扱うことができる汎用的な技術にはなっていない。

そこで、本発明は、名詞間関係及び動詞／形容詞間関係を一括して語間関係として扱い、獲得したい語間関係を予め定義することなく、意味的に類似している語対を二項関係に分類することができる二項関係分類プログラム、方法及び装置を提供することを目的とする。

本発明によれば、語対を意味的な二項関係に分類するために、装置に搭載されたコンピュータを実行させる二項関係分類プログラムにおいて、
多数の文書情報を蓄積した文章集合蓄積部を有し、
文章集合蓄積部から、第１の語及び第２の語からなる複数の語対を抽出する第１のステップと、
語対の中で共起しやすさを表す類似度が、所定閾値以上となる語対を抽出する第２のステップと、
第２のステップによって抽出された語対について、文章集合蓄積部から、第１の語に共起する第１の係り受け語集合と、第２の語に共起する第２の係り受け語集合とを抽出する第３のステップと、
第１の係り受け語集合に出現し且つ第２の係り受け語集合に出現しない係り受け語からなる第１の特徴係り受け語集合と、第２の係り受け語集合に出現し且つ第１の係り受け語集合に出現しない係り受け語からなる第２の特徴係り受け語集合とを抽出する第４のステップと、
第１の特徴係り受け語集合に属する係り受け語毎に、第１の語と共起する文書集合中の出現頻度と、第２の特徴係り受け語集合に属する係り受け語毎に、第２の語と共起する文書集合中の出現頻度とを計数する第５のステップと、
第１の語に基づく第１の特徴係り受け語集合に属する係り受け語毎の出現頻度と、第２の語に基づく第２の特徴係り受け語集合に属する係り受け語毎の出現頻度とを、係り受け語を固定の要素順に並べた各出現頻度のベクトルを導出する第６のステップと、
ベクトル間類似度に基づく分割最適化クラスタリングによって、語対クラスタを生成する第７のステップと
してコンピュータを更に機能させることを特徴とする。

本発明の二項関係分類プログラムにおける他の実施形態によれば、
語は、名詞であり、
語対は、名詞対であり、
係り受け語集合は、述語集合であり、
述語は、動詞又は形容詞であり、
特徴係り受け語集合は、特徴述語集合である
ようにコンピュータを更に機能させることも好ましい。

本発明の二項関係分類プログラムにおける他の実施形態によれば、
語は、動詞又は形容詞である述語であり、
語対は、述語対であり、
係り受け語集合は、名詞集合であり、
特徴係り受け語集合は、特徴名詞集合である
ようにコンピュータを更に機能させることも好ましい。

本発明の二項関係分類プログラムにおける他の実施形態によれば、
第７のステップについて、第２のステップにおける類似度として相互情報量を用い所定閾値以上となる対のみをクラスタリングするようにコンピュータを更に機能させることも好ましい。

本発明によれば、語対を意味的な二項関係に分類する装置における二項関係分類方法において、
多数の文書情報を蓄積した文章集合蓄積部を有し、
文章集合蓄積部から、第１の語及び第２の語からなる複数の語対を抽出する第１のステップと、
語対の中で共起しやすさを表す類似度が、所定閾値以上となる語対を抽出する第２のステップと、
第２のステップによって抽出された語対について、文章集合蓄積部から、第１の語に共起する第１の係り受け語集合と、第２の語に共起する第２の係り受け語集合とを抽出する第３のステップと、
第１の係り受け語集合に出現し且つ第２の係り受け語集合に出現しない係り受け語からなる第１の特徴係り受け語集合と、第２の係り受け語集合に出現し且つ第１の係り受け語集合に出現しない係り受け語からなる第２の特徴係り受け語集合とを抽出する第４のステップと、
第１の特徴係り受け語集合に属する係り受け語毎に、第１の語と共起する文書集合中の出現頻度と、第２の特徴係り受け語集合に属する係り受け語毎に、第２の語と共起する文書集合中の出現頻度とを計数する第５のステップと、
第１の語に基づく第１の特徴係り受け語集合に属する係り受け語毎の出現頻度と、第２の語に基づく第２の特徴係り受け語集合に属する係り受け語毎の出現頻度とを、係り受け語を固定の要素順に並べた各出現頻度のベクトルを導出する第６のステップと、
ベクトル間類似度に基づく分割最適化クラスタリングによって、語対クラスタを生成する第７のステップと
を有することを特徴とする。

本発明によれば、語対を意味的な二項関係に分類する装置における二項関係分類装置において、
多数の文書情報を蓄積した文章集合蓄積手段と、
文章集合蓄積部から、第１の語及び第２の語からなる複数の語対を抽出する語対抽出手段と、
語対の中で共起しやすさを表す類似度が、所定閾値以上となる語対を抽出する類似語対抽出手段と、
類似語対抽出手段によって抽出された語対について、文章集合蓄積部から、第１の語に共起する第１の係り受け語集合と、第２の語に共起する第２の係り受け語集合とを抽出する係り受け語集合抽出手段と、
第１の係り受け語集合に出現し且つ第２の係り受け語集合に出現しない係り受け語からなる第１の特徴係り受け語集合と、第２の係り受け語集合に出現し且つ第１の係り受け語集合に出現しない係り受け語からなる第２の特徴係り受け語集合とを抽出する特徴係り受け語集合抽出手段と、
第１の特徴係り受け語集合に属する係り受け語毎に、第１の語と共起する文書集合中の出現頻度と、第２の特徴係り受け語集合に属する係り受け語毎に、第２の語と共起する文書集合中の出現頻度とを計数する係り受け語出現頻度計数手段と、
第１の語に基づく第１の特徴係り受け語集合に属する係り受け語毎の出現頻度と、第２の語に基づく第２の特徴係り受け語集合に属する係り受け語毎の出現頻度とを、係り受け語を固定の要素順に並べた各出現頻度のベクトルを導出する語対類似度算出手段と、
ベクトル間類似度に基づく分割最適化クラスタリングによって、語対クラスタを生成する語対クラスタ生成手段と
を有することを特徴とする。

本発明の二項関係分類プログラム、方法及び装置によれば、獲得したい語間関係を予め定義することなく、意味的に類似している語対を二項関係に分類することができる。

本発明の二項関係分類プログラムにおける処理を表すフローチャートである。名詞対クラスタの生成のフローチャートである。述語対クラスタの生成のフローチャートである。本発明における二項関係分類装置の機能構成図である。

以下、本発明の実施の形態について、図面を用いて詳細に説明する。

本発明は、文章の集合から意味的に類似している語対を抽出し、それら語対を意味的な関係を有する二項関係に分類することができる。

ここで、「語対」とは「語」の対をいう。「語」とは、言語の構成単位の一つであり、１以上の形態素からなる。形態素とは、ある言語について意味を持つ最小の単位をいい、それ以上分解したら意味をなさなくなる単位まで分解された音素の集合の1つ1つを指す。語には、一つの形態素からなる単純語と、複数の形態素からなる複合語とがある。以下では、「語」というときは、単純語及び複合語のいずれも対象とする。
単純語：「山」
複合語：「山登り」

語が集まることにより、句、節、文及び文章が構成される。例えば、「吉野山に行く」という文は、「吉野山」「に」「行く」の３語から構成される。また、語は、文法的な役割を持つ機能語と、それ以外の一般的な意味を持つ内容語とに大別できる。以下では、「語」というときは、内容語を対象とする。
内容語の例：名詞（吉野山）、動詞（行く）、形容詞（きれい）
機能語の例：助詞（が，を，に，の）、助動詞（れる，られる，た）

「語対」とは、このような語が対になったものをいい、例えば、以下のようなものがある。
名詞対：（桜，ソメイヨシノ）、（ビアパーティー，枝豆）
動詞／形容詞対：（寝る，起きる）、（早い，起きる）、（速い，すばやい）

一般に、「二項関係」とは、FellBaumが定義した「含意、同義、対義、因果、時間」などの関係を指す（例えば非特許文献７参照）。これに対し、本発明によれば、このような二項関係のみならず、人手では定義しきれない、意外な意味的関係ごとに分類することができる。
（ａ）名詞間関係（桜，ソメイヨシノ）：上位下位関係
（ｂ）動詞間関係（寝る，起きる）：因果関係
（ｃ）名詞間関係（ビアパーティー，枝豆）：「イベント−イベントに必須の道具」関係
例えば、前述の（ａ）（ｂ）は、FellBaumらによる関係分類に属する関係である。これに対し、前述の（ｃ）は、FellBaumらによる関係分類に属する関係ではない。本発明によれば、このような意味的関係も考慮して分類することができ、関係分類の定義のための膨大な人手によるコストを要しない。

図１は、本発明の二項関係分類プログラムにおける処理を表すフローチャートである。

二項関係分類プログラムは、語の対からなる「語対」を、意味的な二項関係に分類するために、装置に搭載されたプロセッサ（コンピュータ）によって実行される。尚、装置は、多数の文章情報を蓄積した文章集合蓄積部を有する。

本発明によれば、文章集合蓄積部から所定閾値以上で共起しやすい語対を抽出する。次に、文章集合蓄積部から語対に含まれる語毎に共起する係り受け語集合を抽出する。そして、語毎に当該係り受け語集合の出現頻度を表すベクトルに基づいて語対クラスタを生成する。

二項関係分類プログラムは、以下の７つのステップを実行する。
（Ｓ１）文章集合蓄積部に蓄積されている文章から、複数の語対が抽出される。「語対」は、第１の語及び第２の語からなる。
（Ｓ２）抽出された語対の中から、第１の語及び第２の語が共起しやすい語対のみが抽出される。
（Ｓ３）Ｓ２によって抽出された語対について、文章集合蓄積部から、第１の語と共起する第１の係り受け語集合と、第２の語と共起する第２の係り受け語集合とが抽出される。
（Ｓ４）第１の係り受け語集合に出現し且つ第２の係り受け語集合に出現しない係り受け語からなる第１の特徴係り受け語集合と、第２の係り受け語集合に出現し且つ第１の係り受け語集合合に出現しない係り受け語からなる第２の特徴係り受け語集合とが抽出される。
（Ｓ５）第１の特徴係り受け語集合に属する係り受け語毎に、文章集合蓄積部に蓄積されている文章中の、第１の語と共起する係り受け語の出現頻度が計数される。同様に、第２の特徴係り受け語集合に属する係り受け語毎に、文章集合蓄積部に蓄積されている文章中の、第２の語と共起する係り受け語の出現頻度が計数される。
（Ｓ６）第１の語に基づく第１の特徴係り受け語集合に属する係り受け語毎の出現頻度を表す第１のベクトルが生成される。同様に、第２の語に基づく第２の特徴係り受け語集合に属する係り受け語毎の出現頻度を表す第２のベクトルが生成される。第１のベクトルと第２のベクトルとを結合したベクトルが導出される。
（Ｓ７）Ｓ６で生成されたベクトル間類似度に基づく分割最適化クラスタリングによって、語対クラスタを生成する。

図２は、名詞対クラスタの生成のフローチャートである。

図２では、語対クラスタの生成について、名詞対クラスタを生成する場合を例に説明する。図２では、図１の「語」を「名詞」として、「係り受け語」を「述語」として、具体的に説明する。

（Ｓ２１）文章集合蓄積部に蓄積されている文章から、複数の名詞対が抽出される。「名詞対」は、第１の名詞ｎ１及び第２の名詞ｎ２からなる。名詞対の抽出には、例えば以下のような語彙統語パターンが用いられる。
パターン：「＜ｎ１＞の＜ｎ２＞」
「＜ｎ１＞で＜ｎ２＞」

例えば、文章集合蓄積部に蓄積された文章から、パターン「＜ｎ１＞の＜ｎ２＞」を用いて、以下の名詞対が抽出される。
［文章］［名詞対］
「吉野山の桜をみたい」＝＝＞（吉野山，桜）
「新宿御苑のソメイヨシノはきれいだ」＝＝＞（新宿御苑，ソメイヨシノ）
「庭の桜が咲く」＝＝＞（庭，桜）

（Ｓ２２）抽出された名詞対の中から、第１の名詞及び第２の名詞が共起しやすい名詞対のみが抽出される。２語の「共起しやすさ」を計測する類似度の一種として，相互情報量が利用できる。共起しやすさを計測した類似度が所定閾値以上となる名詞対のみが抽出される。

相互情報量を用いることによって、（吉野山，桜）のように、様々な文章で共起しやすい名詞対は類似度が高くなる。一方で、（隅田さん，靴下）のように、特定の文章でのみ共起する名詞対は、類似度が低くなる。これにより、何らかの意味的関係を有する名詞対を抽出することができる。

（Ｓ２３）Ｓ２２によって抽出された名詞対について、文章集合蓄積部から、第１の名詞と共起する第１の述語集合と、第２の名詞と共起する第２の述語集合とが抽出される。

例えば、「ソメイヨシノ」と「桜」との２語が指す概念の違いに基づいて、意味的関係ごとに分類する。しかしながら、語が表す概念の範囲を明示的に表すことは困難である。そのために、名詞と共起する述語の集合が概念を表すと想定する。前述の第２の従来技術によれば、集合の共通部分から関係を推定する。これに対し、本発明によれば、何らかの意味的関係を表すものとして、明示的に、各名詞と共起する述語集合間の差を利用する。また、本発明では、Ｓ２２によって抽出された共起しやすい（類似度が高い）名詞対の集合を用いるために、語が表す概念の範囲を考慮して、意味的関係に基づいて分類することができる。

例えば、名詞対＜吉野山，桜＞について、第１の名詞「吉野山」と共起する第１の述語集合と、第２の名詞「桜」と共起する第２の述語集合とが、以下のように抽出される。
名詞対＜吉野山，桜＞
名詞「吉野山」＝＝＞述語集合｛行く，植樹する，立ち寄る，咲く｝
名詞「桜」＝＝＞述語集合｛咲く，植樹する，守る，みる}
名詞対＜新宿御苑，ソメイヨシノ＞
名詞「新宿御苑」＝＝＞述語集合｛行く，整備する，立ち寄る｝
名詞「ソメイヨシノ」＝＝＞述語集合｛咲く，植樹する，守る，みる｝
名詞対＜庭，桜＞
名詞「庭」＝＝＞述語集合｛手入れする，植樹する，掃除する｝
名詞「桜」＝＝＞述語集合｛咲く，植樹する，みる｝

（Ｓ２４）次に、第１の述語集合に出現し且つ第２の述語集合に出現しない述語からなる第１の特徴述語集合と、第２の述語集合に出現し且つ第１の述語集合に出現しない述語からなる第２の特徴述語集合とが抽出される。

例えば、名詞対＜吉野山，桜＞について、いずれの述語集合にも共通して｛咲く，植樹する｝が含まれるので、これら述語を削除する。同様に、前述した名詞対は、以下のような特徴述語集合を有する。
名詞対＜吉野山，桜＞
名詞「吉野山」＝＝＞特徴述語集合｛行く，立ち寄る｝
名詞「桜」＝＝＞特徴述語集合｛守る，みる}
名詞対＜新宿御苑，ソメイヨシノ＞
名詞「新宿御苑」＝＝＞特徴述語集合｛行く，整備する，立ち寄る｝
名詞「ソメイヨシノ」＝＝＞特徴述語集合｛咲く，植樹する，守る，みる｝
名詞対＜庭，桜＞
名詞「庭」＝＝＞特徴述語集合｛手入れする，掃除する｝
名詞「桜」＝＝＞特徴述語集合｛咲く，みる｝

（１）名詞対＜吉野山，桜＞と名詞対＜新宿御苑，ソメイヨシノ＞との類似性
いずれの名詞対についても、第１の名詞と共起する第１の特徴述語集合には、共通して「行く」「立ち寄る」が含まれており、第２の名詞と共起する第２の特徴述語集合には、共通して「みる」「守る」が含まれている。従って、これらの名詞対は類似性が高い、と判断される。

（２）名詞対＜吉野山，桜＞と名詞対＜庭，桜＞との類似性
両方の名詞対は、第２の名詞「桜」で共通する。しかしながら、名詞対＜吉野山，桜＞の第１の名詞「吉野山」と共起する第１の特徴述語集合には、「行く」「立ち寄る」のように場所に関する述語である。これに対し、名詞対＜庭，桜＞の第１の名詞「庭」と共起する第１の特徴述語集合には、「手入れする」「掃除する」などの造園に関する述語である。即ち、２つの名詞対で共通する述語が異なる。従って、これらの名詞対は類似性が低い、と判断される。

このように、２つの名詞対＜吉野山，桜＞と＜庭，桜＞とについて、全く同じ名詞「桜」であっても、対になる名詞と共起しない述語が、特徴述語集合として抽出される。即ち、全く同じ名詞であっても、対になる名詞によって特徴述語集合が異なる。

前述した（１）名詞対＜吉野山，桜＞と名詞対＜新宿御苑，ソメイヨシノ＞のように、名詞対の類似性が高い場合、これらの名詞対は、共通の意味的関係を有すると判断される。

（Ｓ２５）第１の特徴述語集合に属する述語毎に、文章集合蓄積部に蓄積されている文章中の、第１の名詞と共起する述語の出現頻度が計数される。同様に、第２の特徴述語集合に属する述語毎に、文章集合蓄積部に蓄積されている文章中の、第２の名詞と共起する述語の出現頻度が計数される。

例えば、名詞「吉野山」及び述語「行く」が、直接的に係り受け関係にある表現の出現頻度を、文章集合蓄積部１０に蓄積されている文章中で計数する。例えば以下のように表す。
freq（吉野山，行く）＝１３２回
freq（吉野山，立ち寄る）＝７６回
freq（桜，守る）＝６３回
freq（桜，みる）＝１４２回

（Ｓ２６）第１の名詞に基づく第１の特徴述語集合(np1')に属する述語と、第１の特徴述語集合に属する述語毎の出現頻度を表す第１のベクトル（freg_np1'）が導出される。同様に、第２の名詞に基づく第２の特徴述語集合(np2')に属する述語と、第２の特徴述語集合に属する述語毎の出現頻度を表す第２のベクトル（freg_np2'）が導出される。

ベクトルの各項は、述語に対応し、以下のように表される。
freq(n,p)：名詞ｎと共起する述語ｐの出現頻度
freq_np＝[freq(n,p1),freq(n,p2)…..]^Ｔ

各名詞に関するベクトルは、以下のように表される。
名詞「吉野山」に関するベクトル：freq_np1'＝［…,132,…,76,… ］^Ｔ
名詞「桜」に関するベクトル：freq_np2'＝［ …,63,…,142,…］^Ｔ

そして、生成されたベクトルfreq_np1'及びfreq_np2'は、それぞれの次元が異なるように結合される。
f(吉野山,桜)＝[…,行く,…,立ち寄る,…,守る,…,みる,…]^Ｔ
f(吉野山,桜)＝[…,132, …,76, …,63, …,142, …]^Ｔ

（Ｓ２７）Ｓ２６で導出されたベクトル間類似度に基づく分割最適化クラスタリングによって、名詞対クラスタを生成する。

Ｓ２７では、名詞対（ｎ１，ｎ２）について、その名詞対が属するクラスタの中でのクラスタＩＤ（識別子）とその寄与度を取得する。Ｓ２６で生成されたベクトルが、名詞対（吉野山，桜）については、[132,76,63,142]^Ｔであり、名詞対（新宿御苑，ソメイヨシノ）については、[130,78,63,140]^Ｔであるとする。ここで、ベクトル間類似度に基づくクラスタリングによって、名詞対（吉野山，桜）と名詞対（新宿御苑，ソメイヨシノ）とが同じクラスタに属するとする。この場合、属するクラスタＩＤとして同一のＩＤが得られと、それぞれの名詞対について、クラスタ寄与度が得られる。
名詞対ベクトルクラスタＩＤクラスタ寄与度
f(吉野山,桜) ＝[132,76,63,142]^Ｔｒ１０．８
f(新宿御苑,ソメイヨシノ)＝[130,78,63,140]^Ｔｒ１０．８５

上記の例によれば、名詞対（吉野山，桜）及び名詞対（新宿御苑，ソメイヨシノ）は、ベクトル間類似度が高いので、何らかの共通の意味的関係を有するものとして、同一のクラスタに所属するように分類される。一方で、名詞対（庭，桜）は、名詞対（吉野山，桜）及び名詞対（新宿御苑，ソメイヨシノ）と比較してベクトル間類似度が低いので、異なるクラスタに所属するように分類される。このように、名詞対における第１の名詞と第２の名詞とが表す概念間の差が、何らかの意味的関係を意味するものとして、名詞対をクラスタリングすることができる。

クラスタリング技術として、例えばK-means又はＥＭアルゴリズム（確率的クラスタリング）を用いることができる。K-meansによれば、学習データを用いることなくクラスタリングすることができる。一方で、ＥＭアルゴリズムによれば、事前に名詞対が所属するクラスタを学習データとして与えることによって、教師学習を実行できる。K-meansの場合、意味的関係が近いが、既存の分類には属さない未知の関係でクラスタリングすることができる。一方で、ＥＭアルゴリズムの場合、学習データによって事前に設計した関係、例えば、上位下位関係又は部分全体関係でクラスタリングすることができる。

クラスタリングによって得られた各クラスタを、何らかの同一の意味的関係を表す名詞対の集合とみなされる。各クラスタには、それぞれ異なるクラスタＩＤを付与する。

また、各名詞対に、それぞれのクラスタへの寄与度を付与する。寄与度は、クラスタリング方法によって異なる。K-meansの場合、クラスタに所属する各名詞対と、そのクラスタの重心からの距離が、クラスタへの寄与度に相当する。一方で、ＥＭアルゴリズムの場合、各名詞対の各クラスタへの所属確率が、クラスタへの寄与度に相当する。

図３は、述語対クラスタの生成のフローチャートである。

図３では、語対クラスタの生成について、述語対クラスタを生成する場合を例に説明する。図３では、図１の「語」を「述語」として、「係り受け語」を「名詞」として、具体的に説明する。

図２では、各名詞と共起する特徴述語集合を用いて、名詞対同士の類似性に基づいてクラスタリングする例について説明した。これに対し、図３では、各述語と共起する特徴名詞集合を用いて、述語対同士の類似性に基づいてクラスタリングする例について説明する。図３は、名詞対と述語対とで相違する以外は、図２の処理の内容と全く同様である。

（Ｓ３１）文章集合蓄積部に蓄積されている文章から、複数の述語対が抽出される。「述語対」は、第１の述語ｐ１及び第２の述語ｐ２からなる。述語対の抽出には、例えば以下のような語彙統語パターンが用いられる。
パターン：「＜ｐ１＞ながら＜ｐ２＞」
「＜ｐ１＞て＜ｐ２＞」

例えば、文章集合蓄積部に蓄積された文章から、パターン「＜ｎ１＞の＜ｎ２＞」を用いて、以下の述語対が抽出される。
［文章］［述語対］
「吉野山を歩きながら、桜をみる」＝＝＞（歩く，みる）
「新宿御苑に行って、桜をみる」＝＝＞（行く，みる）

（Ｓ３２）抽出された述語対の中から、第１の述語及び第２の述語が共起しやすい述語対のみが抽出される。２語の「共起しやすさ」を計測する類似度の一種として、図１のＳ２２と同様に、相互情報量が利用できる。共起しやすさを計測した類似度が所定閾値以上となる述語対のみが抽出される。

（Ｓ３３）Ｓ３２によって抽出された述語対について、文章集合蓄積部から、第１の述語と共起する第１の名詞集合と、第２の述語と共起する第２の名詞集合とが抽出される。

例えば、「歩く」と「行く」との２語が指す概念の違いに基づいて、意味的関係ごとに分類するために、述語と共起する名詞の集合が概念を表すと想定する。本発明によれば、何らかの意味的関係を表すものとして、明示的に、各述語と共起する名詞集合間の差を利用する。また、本発明では、Ｓ３２によって抽出された共起しやすい（類似度が高い）述語対の集合を用いるために、語が表す概念の範囲を考慮して、意味的関係に基づいて分類することができる。

例えば、述語対＜歩く，みる＞について、第１の述語「歩く」と共起する第１の名詞集合と、第２の述語「みる」と共起する第２の名詞集合とが、以下のように抽出される。
述語対＜歩く，みる＞
述語「歩く」＝＝＞名詞集合｛公園，道，山，街｝
述語「みる」＝＝＞名詞集合｛花，山，森，街｝
述語対＜行く，みる＞
述語「行く」＝＝＞名詞集合｛会社，学校，山，街｝
述語「みる」＝＝＞名詞集合｛花，山，森，街}

（Ｓ３４）次に、第１の名詞集合に出現し且つ第２の名詞集合に出現しない名詞からなる第１の特徴名詞集合と、第２の名詞集合に出現し且つ第１の名詞集合に出現しない名詞からなる第２の特徴名詞集合とが抽出される。

例えば、述語対＜歩く，みる＞について、いずれの名詞集合にも共通して｛山，街｝が含まれるので、これら名詞を削除する。同様に、前述した述語対は、以下のような特徴名詞集合を有する。
述語対＜歩く，みる＞
述語「歩く」＝＝＞特徴名詞集合｛公園，道｝
述語「みる」＝＝＞特徴名詞集合｛花，森｝
述語対＜行く，みる＞
述語「行く」＝＝＞名詞集合｛会社，学校｝
述語「みる」＝＝＞名詞集合｛花，森}

（Ｓ３５）第１の特徴名詞集合に属する名詞毎に、第１の述語と共起する文章集合蓄積部に蓄積されている文章中の、第１の述語と共起する名詞の出現頻度が計数される。同様に、第２の特徴名詞集合に属する名詞毎に、第２の述語と共起する文章集合蓄積部に蓄積されている文章中の、第２の述語と共起する名詞の出現頻度が計数される。

例えば、述語「歩く」及び名詞「公園」が、直接的に係り受け関係にある表現の出現頻度を、文章集合蓄積部に蓄積されている文章中で計数する。例えば以下のように表す。
freq（歩く，公園）＝１２８回
freq（歩く，道）＝６０回
freq（みる，花）＝４８回
freq（みる，森）＝１２２回

（Ｓ３６）第１の述語に基づく第１の特徴名詞集合に属する名詞毎の出現頻度を表すベクトルと、第２の述語に基づく第２の特徴名詞集合に属する名詞毎の出現頻度を表すベクトルとを導出する。

ベクトルの各項は、名詞に対応し、以下のように表される。
freq(p,n)：述語ｐと共起する名詞ｎの出現頻度
freq_pn＝[freq(p,n1),freq(p,n2)…..]^Ｔ

各名詞に関するベクトルは、以下のように表される。
述語「歩く」に関するベクトル：freq_pn1'＝［…,128,…,60,… ］^Ｔ
述語「みる」に関するベクトル：freq_pn2'＝［ …,48,…,122,…］^Ｔ

そして、生成されたベクトルfreq_pn1'及びfreq_pn2'は、それぞれの次元が異なるように結合される。
f(歩く,みる)＝[…,公園,…,道,…,花,…,森,…]^Ｔ
f(歩く,みる)＝[…,128, …,60,…,48,…,122,…]^Ｔ

（Ｓ３７）Ｓ３６で導出されたベクトル間類似度に基づく分割最適化クラスタリングによって、述語対クラスタを生成する。

Ｓ３７では、述語対（ｐ１，ｐ２）について、その述語対が属するクラスタの中でのクラスタＩＤとその寄与度を取得する。ここで、ベクトル間類似度に基づくクラスタリングによって、述語対（歩く，みる）と（行く，みる）とが同じクラスタに属するとする。Ｓ２７と同様に、属するクラスタＩＤとして同一のＩＤが得られと、それぞれの名詞対について、クラスタ寄与度が得られる。
名詞対ベクトルクラスタＩＤクラスタ寄与度
f(歩く,みる) ＝[128,60,48,122]^Ｔｒ１０．９
f(行く,みる) ＝[130,60,45,121]^Ｔｒ１０．７

Ｓ２７の名詞対のクラスタリングと、Ｓ３７の述語対のクラスタリングとでは、処理に大きな差異がない。差異は、Ｓ２７では述語ごとの出現頻度に基づくベクトルの類似度によって名詞対をクラスタリングするのに対し、Ｓ３７では名詞ごとの出現頻度に基づくベクトルの類似度によって述語対をクラスタリングする点である。

尚、前述した語対のクラスタリング（Ｓ７）、名詞対のクラスタリング（Ｓ２７）及び述語対のクラスタリング（Ｓ３７）は、１つの要素が１つのクラスタに１対１に対応しなければならないハードクラスタリングに限られない。１つの要素が複数のクラスタに所属するソフトクラスタリングを用いることもできる。ハードクラスタリングの場合、２つのベクトル間で名詞対又は述語対がそれぞれ異なるクラスタに所属している場合には、類似度が０になる。一方で、ソフトクラスタリングの場合、１つの名詞対が複数のクラスタに所属できるので、類似度が０になるベクトル対を減らすことができる。

図４は、本発明における二項関係分類装置の機能構成図である。

図４によれば、二項関係分類装置１は、文章集合蓄積部１０と、語対抽出部１１と、類似語対抽出部１２と、係り受け語集合抽出部１３と、特徴係り受け語集合抽出部１４と、語出現頻度計数部１５と、語対類似度算出部１６と、語対クラスタ生成部１７とを有する。文章集合蓄積部１０を除くこれら機能構成部は、装置に搭載されたコンピュータを機能させる二項関係分類プログラムを実行することによって実現されるものであってもよい。

文章集合蓄積部１０は、多数の文章情報を蓄積する。

語対抽出部１１は、文章集合蓄積部１０から、第１の語及び第２の語からなる複数の語対を抽出する（前述した図１のＳ１参照）。抽出された語対は、類似語対抽出部１２へ出力される。

類似語対抽出部１２は、抽出された語対を入力する（前述した図１のＳ２参照）。類似語対抽出部１２は、語対の中で共起しやすさを表す類似度が、所定閾値以上となる語対を抽出する。抽出された語対は、係り受け語集合抽出部１３へ出力される。

係り受け語集合抽出部１３は、抽出された語対を入力する（前述した図１のＳ３参照）。係り受け語集合抽出部１３は、文章集合蓄積部１０を参照し、入力した語対について、文章集合蓄積部１０から、第１の語と共起する第１の係り受け語集合と、第２の語と共起する第２の係り受け語集合とを抽出する。抽出された第１の係り受け語集合及び第２の係り受け語集合は、特徴係り受け語集合抽出部１４へ出力される。

特徴係り受け語集合抽出部１４は、第１の係り受け語集合及び第２の係り受け語集合を入力する（前述した図１のＳ４参照）。特徴係り受け語集合抽出部１４は、第１の係り受け語集合に出現し且つ第２の係り受け語集合に出現しない係り受け語からなる第１の特徴係り受け語集合と、第２の係り受け語集合に出現し且つ第１の係り受け語集合に出現しない係り受け語からなる第２の特徴係り受け語集合とを抽出する。抽出された第１の特徴係り受け語集合及び第２の特徴係り受け語集合は、係り受け語出現頻度計数部１５へ出力される。

語出現頻度計数部１５は、第１の特徴係り受け語集合及び第２の特徴係り受け語集合を入力する（前述した図１のＳ５参照）。係り受け語出現頻度計数部１５は、第１の特徴係り受け語集合に属する係り受け語毎に、文章集合蓄積部１０を参照し、蓄積された文章集合中で、その係り受け語が第１の語と共起して出現する頻度を計数する。同様に、係り受け語出現頻度計数部１５は、第２の特徴係り受け語集合に属する係り受け語毎に、文章集合蓄積部１０を参照し、蓄積された文章集合中で、その係り受け語が第２の語と共起して出現する頻度を計数する。計数された第１の特徴係り受け語集合に属する各係り受け語及び第２の特徴係り受け語集合に属する各係り受け語の出現頻度は、語対類似度算出部１６へ出力される。

語対類似度算出部１６は、計数された出現頻度を入力する（前述した図１のＳ６参照）。語対類似度算出部１６は、第１の語に基づく第１の特徴係り受け語集合に属する係り受け語毎の出現頻度を表す第１のベクトルと、第２の語に基づく第２の特徴係り受け語集合に属する係り受け語毎の出現頻度を表す第２のベクトルとを結合したベクトルを導出する。生成された係り受け語ベクトルは、語対クラスタ生成部１７へ出力される。

語対クラスタ生成部１７は、係り受け語ベクトルを入力する（前述した図１のＳ７参照）。語対クラスタ生成部１７は、類似語対抽出部１２を参照し、ベクトル間類似度に基づく分割最適化クラスタリングによって、入力した係り受け語ベクトルを基に、類似語対抽出部１２に蓄積されている語対をクラスタリングする。クラスタリングされた語対は、語対クラスタ生成部１７に蓄積される。

以上、詳細に説明したように、本発明の二項関係分類プログラム、方法及び装置によれば、獲得したい語間関係を予め定義することなく、意味的に類似している語対を二項関係に分類することができる。

本発明によれば、多様な意味的関係を獲得することで、ユーザの意図の抽出やユーザの隠れた行動の発見が容易になる。そこで、本発明は、例えば、質問応答システムの検索キーワード拡張機能を提供することができる。

例えば、ユーザによって、検索キーワードとして「ビアパーティー」が入力された場合を想定する。獲得した意味的関係から、「ビアパーティー」と「枝豆」との名詞間関係が、「イベント−イベントに必須の道具」の関係であることがわかる。これにより、「枝豆」は「ビアパーティー」に必須の道具であることが抽出できる。そこで、検索のクエリに「枝豆」を追加することにより、検索結果からノイズを減らすことができる。

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

１二項関係分類装置
１０文章集合蓄積部
１１語対抽出部
１２類似語対抽出部
１３係り受け語集合抽出部
１４特徴係り受け語集合抽出部
１５語出現頻度計数部
１６語対類似度算出部
１７語対クラスタ生成部

Claims

語対を意味的な二項関係に分類するために、装置に搭載されたコンピュータを実行させる二項関係分類プログラムにおいて、
多数の文書情報を蓄積した文章集合蓄積部を有し、
前記文章集合蓄積部から、第１の語及び第２の語からなる複数の語対を抽出する第１のステップと、
前記語対の中で共起しやすさを表す類似度が、所定閾値以上となる語対を抽出する第２のステップと、
第２のステップによって抽出された前記語対について、前記文章集合蓄積部から、第１の語に共起する第１の係り受け語集合と、第２の語に共起する第２の係り受け語集合とを抽出する第３のステップと、
第１の係り受け語集合に出現し且つ第２の係り受け語集合に出現しない係り受け語からなる第１の特徴係り受け語集合と、第２の係り受け語集合に出現し且つ第１の係り受け語集合に出現しない係り受け語からなる第２の特徴係り受け語集合とを抽出する第４のステップと、
第１の特徴係り受け語集合に属する係り受け語毎に、第１の語と共起する前記文書集合中の出現頻度と、第２の特徴係り受け語集合に属する係り受け語毎に、第２の語と共起する前記文書集合中の出現頻度とを計数する第５のステップと、
第１の語に基づく第１の特徴係り受け語集合に属する係り受け語毎の出現頻度と、第２の語に基づく第２の特徴係り受け語集合に属する係り受け語毎の出現頻度とを、係り受け語を固定の要素順に並べた各出現頻度のベクトルを導出する第６のステップと、
ベクトル間類似度に基づく分割最適化クラスタリングによって、語対クラスタを生成する第７のステップと
してコンピュータを機能させることを特徴とする二項関係分類プログラム。
前記語は、名詞であり、
前記語対は、名詞対であり、
前記係り受け語集合は、述語集合であり、
前記述語は、動詞又は形容詞であり、
前記特徴係り受け語集合は、特徴述語集合である
ようにコンピュータを更に機能させることを特徴とする請求項１に記載の二項関係分類プログラム。
前記語は、動詞又は形容詞である述語であり、
前記語対は、述語対であり、
前記係り受け語集合は、名詞集合であり、
前記特徴係り受け語集合は、特徴名詞集合である
ようにコンピュータを更に機能させることを特徴とする請求項１に記載の二項関係分類プログラム。
第７のステップについて、第２のステップにおける前記類似度として相互情報量を用い所定閾値以上となる対のみをクラスタリングするようにコンピュータを更に機能させることを特徴とする請求項１から３のいずれか１項に記載の二項関係分類プログラム。
語対を意味的な二項関係に分類する装置における二項関係分類方法において、
多数の文書情報を蓄積した文章集合蓄積部を有し、
前記文章集合蓄積部から、第１の語及び第２の語からなる複数の語対を抽出する第１のステップと、
前記語対の中で共起しやすさを表す類似度が、所定閾値以上となる語対を抽出する第２のステップと、
第２のステップによって抽出された前記語対について、前記文章集合蓄積部から、第１の語に共起する第１の係り受け語集合と、第２の語に共起する第２の係り受け語集合とを抽出する第３のステップと、
第１の係り受け語集合に出現し且つ第２の係り受け語集合に出現しない係り受け語からなる第１の特徴係り受け語集合と、第２の係り受け語集合に出現し且つ第１の係り受け語集合に出現しない係り受け語からなる第２の特徴係り受け語集合とを抽出する第４のステップと、
第１の特徴係り受け語集合に属する係り受け語毎に、第１の語と共起する前記文書集合中の出現頻度と、第２の特徴係り受け語集合に属する係り受け語毎に、第２の語と共起する前記文書集合中の出現頻度とを計数する第５のステップと、
第１の語に基づく第１の特徴係り受け語集合に属する係り受け語毎の出現頻度と、第２の語に基づく第２の特徴係り受け語集合に属する係り受け語毎の出現頻度とを、係り受け語を固定の要素順に並べた各出現頻度のベクトルを導出する第６のステップと、
ベクトル間類似度に基づく分割最適化クラスタリングによって、語対クラスタを生成する第７のステップと
を有することを特徴とする二項関係分類方法。
語対を意味的な二項関係に分類する装置における二項関係分類装置において、
多数の文書情報を蓄積した文章集合蓄積手段と、
前記文章集合蓄積部から、第１の語及び第２の語からなる複数の語対を抽出する語対抽出手段と、
前記語対の中で共起しやすさを表す類似度が、所定閾値以上となる語対を抽出する類似語対抽出手段と、
前記類似語対抽出手段によって抽出された前記語対について、前記文章集合蓄積部から、第１の語に共起する第１の係り受け語集合と、第２の語に共起する第２の係り受け語集合とを抽出する係り受け語集合抽出手段と、
第１の係り受け語集合に出現し且つ第２の係り受け語集合に出現しない係り受け語からなる第１の特徴係り受け語集合と、第２の係り受け語集合に出現し且つ第１の係り受け語集合に出現しない係り受け語からなる第２の特徴係り受け語集合とを抽出する特徴係り受け語集合抽出手段と、
第１の特徴係り受け語集合に属する係り受け語毎に、第１の語と共起する前記文書集合中の出現頻度と、第２の特徴係り受け語集合に属する係り受け語毎に、第２の語と共起する前記文書集合中の出現頻度とを計数する係り受け語出現頻度計数手段と、
第１の語に基づく第１の特徴係り受け語集合に属する係り受け語毎の出現頻度と、第２の語に基づく第２の特徴係り受け語集合に属する語毎の出現頻度とを、係り受け語を固定の要素順に並べた各出現頻度のベクトルを導出する語対類似度算出手段と、
ベクトル間類似度に基づく分割最適化クラスタリングによって、語対クラスタを生成する語対クラスタ生成手段と
を有することを特徴とする二項関係分類装置。