JP5924666B2

JP5924666B2 - 述語テンプレート収集装置、特定フレーズペア収集装置、及びそれらのためのコンピュータプログラム

Info

Publication number: JP5924666B2
Application number: JP2012039966A
Authority: JP
Inventors: 力橋本; 健太郎鳥澤; ステインデサーガ; 鍾勲呉; 淳一風間
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2012-02-27
Filing date: 2012-02-27
Publication date: 2016-05-25
Anticipated expiration: 2032-02-27
Also published as: EP2821923A4; KR20140129053A; US9582487B2; KR101972408B1; CN104137097B; US20150039296A1; EP2821923B1; WO2013128984A1; EP2821923A1; CN104137097A; JP2013175097A

Description

この発明は、自然言語の文又はフレーズの間の関係を認識するための技術に関し、特に、文又はフレーズ等の間の因果関係、矛盾等に関する表現を自動的に認識して収集するための技術に関する。

いわゆるインターネットの検索エンジン等の利用が普及するとともに言語処理技術が進歩し、「書いてある情報」を見つける事に関してはかなりレベルの高いサービスが開始されつつある。それと対照的に、「書いていないが、しかし有用である情報」を仮説として推論する技術についてはまだ十分なものが得られていない。こうした技術は、「システムが考える技術」ということができ、次世代情報サービスの重要なコア技術となるものと思われる。こうした技術については、いわゆる「人工知能」として、民間、公的機関を問わず長らく研究が行なわれている。にもかかわらず、未だ実用化、商用化のレベルには至っていない。

こうした言語処理技術において基本的なものとして、いわゆる文又はフレーズがある。（本明細書では、日本語を処理対象とすることを想定し、「フレーズ」とは、ある名詞と述語とが助詞で連結されたものを指す。ただし、日本語以外の言語を想定する場合には、日本語における「フレーズ」と同等の単位を処理対象とする）これらは、あるまとまりを持った出来事及び行為を自然言語で記述するものである。これら文又はフレーズの間には、ある因果関係が見出される場合がある。例えば、「煙草を吸う」というフレーズの表すことが、「肺がんに罹る」というフレーズの表すことの原因になるというような関係がある。文又はフレーズ間には、意味的な矛盾の関係が見出される場合もある。例えば「製品を使用する」と「製品を破棄する」との間の関係等である。

文又はフレーズの間のこのような関係は、人間には容易に認識できる。しかし、言語処理を自動的に行なおうとする場合、こうした処理は難題である。例えば、言語に関する情報サービス、情報分析技術、言語処理技術を一段高いレベルに到達させ、推論等のより高次な機能に結び付けるためには、文又はフレーズ間の上記した関係を高精度で認識できるようにすることが必須の技術と考えられている。しかし、現在までのところ、広い範囲の言語表現から上記したような関係を高精度で見出すことができるような技術は存在していない。

こうした技術の構成要素に関連する従来技術として、後掲の非特許文献１〜７に記載されたものがある。

（Ａ）フレーズ間の因果関係の自動認識手法
人手で用意した大量の因果関係事例から機械学習によって新たな因果関係を取得する技術として、非特許文献１に記載された技術がある。日本語での例として、因果関係を明示的に示す「ため」「ので」といった接続詞のテキスト中での出現を手がかりにフレーズ間の関係を自動認識するものが存在する（非特許文献２）。

（Ｂ）フレーズ間の矛盾関係の自動認識手法
ＷｏｒｄＮｅｔ等の人手で構築された辞書を利用するものが存在する（非特許文献３）。

（Ｃ）動詞の分類方法
名詞と動詞との組合せからなる単位について、動詞が例えば名詞の指す対象の持つ機能、効果等を発揮させる、増大させる方向の出来事を記述するようなものか否かに基づいて動詞を分類したり、そうした性質を持つ動詞を自動的に獲得したりする研究が存在する（例えば非特許文献４及び非特許文献５）。

（Ｄ）言語による仮説生成手法
単語間の特定の意味的関係、例えば、因果関係に関して、仮説を生成する技術が存在する（非特許文献６）。例えば、「コレステロール」と「動脈硬化」の間には因果関係があり、「動脈硬化」と「脳梗塞」の間に因果関係があることをデータベースに保持していたとすると、それらの因果関係を組合せて、新たな仮説「コレステロール」は「脳梗塞」の原因となることを推論する。

（Ｅ）フレーズ間の同義、含意の自動認識手法
従来、動詞等の語又は「ＡがＢを引き起こす」のようなパターンの間の同義性、含意の認識において、その語の周辺に出現する他の語又はパターン中においてＡ、Ｂといった変数の占める位置に出現する語の確率分布を求め、それらの間の統計的類似度（これを「分布類似度」と呼ぶ）を用いる技術が存在する（非特許文献７）。例えば、「ＡがＢを引き起こす」というパターンと「ＡがＢの原因となる」というパターンとはほぼ同義と認められるが、このことを、Ａ、Ｂの位置にくる一連の名詞、例えば「ダイオキシン」「ガン」のようなものの出現確率を求め、それらの出現確率の間の類似度によってそうした同義を認識する技術である。

Roxana Girju. Automatic Detection of Causal Relations for Question Answering. In Proceedings of ACL Workshop on Multilingual Summarization and Question Answering. 2003.（人手で用意した大量の因果関係事例から機械学習によって新たな因果関係を取得する技術）乾孝司、乾健太郎、松本裕治. 接続助詞「ため」を含む複文から因果関係知識を獲得する. 情報処理学会自然言語処理研究会(NL-150-25), pp.171--178, 2002.（フレーズ間の因果関係の自動認識。「ため」等の特定の接続詞を手がかりとして因果関係を取得する技術） Saif Mohammad, Bonnie Dorr and Graeme Hirst. Computing Word Pair Antonymy. In Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing, pp.982-991, Honolulu, October 2008.（矛盾関係の自動認識。人手で構築した辞書に基づく技術） James Pustejovsky, The Generative Lexicon, MIT Press, 1995.（動詞の分類方法）鳥澤健太郎. 対象の用途と準備を表す表現の自動獲得. 自然言語処理, vol.13(2), pp. 125-144, 2006.（動詞の分類の自動獲得手法） Masaaki Tsuchida, Kentaro Torisawa, Stijn De Saeger, Jong Hoon Oh, Jun'ichi Kazama, Chikara Hashimoto and Hayato Ohwada. Toward Finding Semantic Relations not Written in a Single Sentence: An Inference Method using Auto-Discovered Rules. In Proceedings of the 5th International Joint Conference on Natural Language Processing (IJCNLP 2011), pp.902-910, Chiang Mai, Thailand, November, 2011.（言語による仮説生成） Dekang Lin and Patrick Pantel. Discovery of inference rules for question answering. Natural Language Engineering, 7(4):343-360. 2001.（フレーズ間の同義、含意の自動認識手法） Hiroya Takamura, Takashi Inui, and Manabu Okumura. Extracting Semantic Orientations of Words using Spin Model. In Proceedings of the 43rd Annual Meeting of the ACL, pp. 133-140. 2005.（極性値の自動算出手法）

［問題の所在］
以下、（Ａ）フレーズ間の因果関係の自動認識手法、（Ｂ）フレーズ間の矛盾関係の自動認識手法、（Ｃ）述語テンプレート(助詞と動詞の対、例:＜を、食べる＞)の自動分類方法、（Ｄ）言語による自動仮説生成手法、及び（Ｅ）フレーズ間の同義、含意の自動認識手法、の５点に関して従来技術の課題を整理する。

（Ａ）フレーズ間の因果関係の自動認識手法
フレーズ間の論理的関係の１つとして、因果関係がある。先行技術は、因果関係を明示的に示す「ため」「ので」といった接続詞、又は、人手で構築した辞書をその情報源として因果関係を認識する。しかし、「ため」のような接続詞は通常テキスト中で出現頻度がそれほど多くないこと、及び、人手で作成された辞書はカバーする語が少なく、獲得できる因果関係が多くないという問題がある。したがって、適用範囲を広くすることが望ましい。

（Ｂ）フレーズ間の矛盾関係の自動認識手法
フレーズ間の論理的関係の他の例として、フレーズ間の矛盾関係がある。ここでいう矛盾関係とは、両者の意味するところが反対であることをいう。この点に関する先行技術は、人手で構築された辞書に依存している。そうした辞書に記載されている語は多くなく、広範な表現に対応できないという問題がある。

（Ｃ）述語テンプレートの自動分類方法
先行技術では、動詞が例えば名詞の指す対象の持つ機能、効果等を発揮させる、増大させる方向の出来事を記述するようなもののみに着目している。しかし、単に動詞のこのような性質に着目するのみでは、矛盾・因果関係の認識が十分に行なえないという問題がある。

（Ｄ）言語による自動仮説生成手法
先行技術に開示された技術では、単語間の因果関係を抽出することは可能だが、より広い単位で因果関係を抽出したり、因果関係に関する仮説を生成したりすることができないという問題がある。

（Ｅ）フレーズ間の同義、含意の自動認識手法
先行技術では、単語、フレーズ、パターンの周辺に出現する他の単語の確率分布を求める。さらにそれらの確率分布の間の類似度を計算する。こうして得られた情報によって、単語、フレーズ、及びパターンの間の同義又は含意関係を認識している。しかし、これらの技術には、「反義」の表現も同義と認識してしまう可能性が高いという欠点がある。例えば、パターン「ＡがＢを引き起こす」とパターン「ＡがＢを防ぐ」というパターンとを比較するとわかりやすい。両者において、「引き起こす」と「防ぐ」とは全く反対の意味を持つ。ところが、周辺に出現する他の単語の確率分布の類似度を求めると、これらが高い類似度を示すためである。例えば、「食事が成人病を引き起こす」「食事が病気を防ぐ」のように曖昧な語が、両者のパターンに頻出することが多いということに起因する。こうしたパターンが頻出するために、「引き起こす」、及び「防ぐ」という語を含むパターンに出現する名詞の確率分布が類似してしまう。したがって、同義、含意についてもより精度高く認識できるようにする必要がある。

それ故に本発明の目的は、因果関係、矛盾関係等の、フレーズ間の論理的関係を自動的に認識することを可能にするために、それらを構成する述語テンプレートを効率よく自動的に、かつ精度高く認識できる述語テンプレート収集装置を提供することである。

本発明の他の目的は、因果関係、矛盾関係等、特定の関係にあるフレーズペアを自動的に、効率的に、かつ精度高く認識できる装置を提供することである。

本発明の第１の局面に係る述語テンプレート収集装置は、述語テンプレートを、所定の文の集合から収集するための述語テンプレート収集装置である。述語テンプレートは、名詞と結び付いてフレーズを構成するものである。かつ、述語テンプレートには、活性、不活性、及び中立という分類に従って活性の向き及びその大きさを表す活性値を付与することが可能である。活性とは、当該述語テンプレートに結び付けられた名詞の指す対象の機能又は効果を発揮させる方向の出来事を記述することを示す。不活性とは、当該述語テンプレートに結び付けられた名詞の指す対象の機能又は効果を発揮させない方向の出来事を記述することを示す。中立とは、活性でも不活性でもない述語テンプレートであることを示す。述語テンプレートに関する活性及び不活性の区別を述語テンプレートの極性と呼ぶ。述語テンプレート収集装置は、順接又は逆接に分類された接続詞を記憶する接続詞記憶部と、述語テンプレートネットワークを構築するための起点となるシードテンプレートを記憶するためのシードテンプレート記憶部とを含む。シードテンプレートの各々には、極性と活性値とが付される。したがって、述語テンプレートの極性は、述語テンプレートの活性値の符号を示すものであるということもできる。

この装置はさらに、ある関係を充足する名詞ペアを所定のコーパスから収集し、各名詞ペアを構成する名詞同士の関係の極性を正か負に分類するための名詞ペア収集手段を含む。名詞ペアを構成する名詞同士の関係の極性は、当該名詞ペアの一方の示す対象が、他方の示す対象の出現を促進するときには正、抑制するときには負として定義される。この装置はさらに、名詞ペア収集手段により収集された名詞ペアとそれぞれ共起する述語テンプレートペアを所定のコーパスから収集し、収集された各述語テンプレートペアについて、当該述語テンプレートペアと共起する名詞ペアの関係の極性と、当該述語テンプレートペアを結ぶ接続詞とに基づいて、当該述語テンプレートペアの活性／不活性が同一か、反対かを判定するための述語テンプレートペア収集手段と、述語テンプレートペア収集手段により収集された述語テンプレートペアと、各述語テンプレートペアについての活性／不活性が同一か否かの判定結果とを用いて述語テンプレート間を関係付けることにより、各述語テンプレートをノードとし、述語テンプレートペアを構成する述語テンプレートの間の関係をリンクとするテンプレートネットワークを構築するための構築手段と、テンプレートネットワーク内のシードテンプレートに対応するノードに予め付与されている活性値をもとにし、テンプレートネットワーク内のノード間の関係を用い、各ノードに付与すべき活性値を算出し、各ノードに対応する述語テンプレートに、算出された活性値を付与して出力するための活性値算出手段とを含む。

好ましくは、名詞ペア収集手段は、接続詞記憶部に記憶された接続詞と、シードテンプレート記憶部に記憶されたシードテンプレートとを用いて、述語テンプレートペアと共起する名詞ペアを所定のコーパスから収集し、各名詞ペアを構成する名詞同士の関係の極性を正又は負に分類するための手段を含む。

より好ましくは、分類するための手段は、接続詞記憶部に記憶された接続詞と、シードテンプレート記憶部に記憶されたシードテンプレートとを用いて、述語テンプレートペアと共起する名詞ペアであって、コーパスに所定の頻度以上出現するものをコーパスから収集し、各名詞ペアを構成する名詞同士の関係の極性を正又は負に分類するための手段を含む。

分類するための手段は、接続詞記憶部に記憶された接続詞と、シードテンプレート記憶部に記憶されたシードテンプレートとを用いて、述語テンプレートペアと共起する名詞ペアをコーパスから収集するための手段と、収集するための手段により収集された名詞ペアの組合せの各々について、各名詞ペアと共起する述語テンプレートペアの極性と、当該名詞ペアおよび述語テンプレートにより構成されるフレーズ対を結び付けている接続詞の種類とに基づいて、当該名詞ペアの組合せを構成する名詞の間の関係の極性を決定するための極性決定手段とを含んでもよい。

より好ましくは、収集するための手段は、接続詞記憶部に記憶された接続詞と、シードテンプレート記憶部に記憶されたシードテンプレートとを用いて、述語テンプレートペアとコーパス内で所定の頻度以上の頻度で共起する名詞ペアをコーパスから収集するための手段を含む。

さらに好ましくは、極性決定手段は、収集するための手段により収集された名詞ペアの各々について、当該名詞ペアと共起する述語テンプレートの述語テンプレートペアの極性と、当該名詞ペアおよび述語テンプレートにより構成されるフレーズ対を結び付けている接続詞の種類とに基づいて、当該名詞ペアの各々を構成する名詞の間の関係の極性を決定するための手段と、決定するための手段により名詞ペアの各々について決定された名詞間の極性を、名詞ペアの種類毎に集計し、多数決により、名詞ペアの種類ごとにその間の極性を決定するための手段とを含んでもよい。

好ましくは、述語テンプレート収集装置はさらに、活性値算出手段による述語テンプレートの出力が完了したことに応答して、述語テンプレートの活性値を算出する処理の終了条件が成立しているか否かを判定するための判定手段と、判定手段により終了条件が成立していないと判定されたことに応答して、活性値算出手段により算出された述語テンプレートの内、活性値の絶対値がしきい値以上の述語テンプレートからなる新たなシードテンプレートを選択し、当該新たに選択されたシードテンプレートにより、シードテンプレート記憶部の記憶内容を更新するための更新手段と、更新手段による更新が行なわれたことに応答して、述語テンプレートペア収集手段、名詞ペア収集手段、述語テンプレートペア収集手段、構築手段、及び活性値算出手段による処理を再実行させるための手段とを含む。

さらに好ましくは、構築手段は、述語テンプレートペア収集手段により収集された述語テンプレートペアをなす述語テンプレートに対応するノードがテンプレートネットワーク内に存在しないときには、当該述語テンプレートに対応するノードを追加するための手段と、述語テンプレートペア収集手段により収集された述語テンプレートペアをなす述語テンプレートの間にリンクを生成するためのリンク手段とを含む。リンク手段は、各リンクにより接続される述語テンプレートの活性が同じか否かにしたがって、各リンクに活性の一致又は不一致を示す属性を付与する。構築手段はさらに、リンク手段により生成される各リンクに、他のノードとのリンクの数の関数である重みを付与するための重み付与手段を含む。重み付与手段が付与する重みは、当該リンクの属性が一致を示す値のときと、不一致を示す値のときとで符号が異なる。

活性値算出手段は、テンプレートネットワーク内の各リンクの重みと、各ノードに割当てられる活性値との関数であって、以下の式

により定義される関数の値を最適化することにより、テンプレートネットワーク内の各ノードに割当てられる活性値を推定するための手段を含んでもよい。ただし、シードテンプレートのうち、極性が活性のものにはプラスの極性と活性値が、不活性のものにはマイナスの極性と活性値が、それぞれ付与される。

本発明の第２の局面に係る、コンピュータが実行可能なコンピュータプログラムは、当該コンピュータを、上記したいずれかの述語テンプレート収集装置として機能させる。

本発明の第３の局面に係る、特定フレーズペア収集装置は、上記したいずれかの述語テンプレート収集装置と、述語テンプレート収集装置により収集された述語テンプレートを記憶するための述語テンプレート記憶手段と、述語テンプレート記憶手段に記憶された述語テンプレートのうち、特定の活性／不活性の述語テンプレートの組合せと、特定の種類の接続詞とからなる述語テンプレートペアを含むフレーズペアを所定のコーパスから収集するためのフレーズペア収集手段と、フレーズペア収集手段により収集されたフレーズペア内で述語テンプレートと共起している名詞ペアと、当該フレーズペア内の述語テンプレートの極性とが特定の組合せになっているものを抽出することで、所定の関係を表現するフレーズペアを選択するためのフレーズ選択手段とを含む。

好ましくは、特定フレーズペア収集装置は、さらに、フレーズ選択手段により選択されたフレーズペアの各々について、各フレーズペアを構成する述語テンプレートの活性値と、当該フレーズペアに含まれる名詞ペアの、コーパス内での共起関係との関数として、所定の関係の強さを表すスコアを算出するためのスコア算出手段と、スコア算出手段により算出されたスコアの順番でフレーズ選択手段により選択されたフレーズペアを整列させるための手段とを含む。

所定の関係としては、一方のフレーズが他方のフレーズの原因となる因果関係、一方のフレーズと他方のフレーズとが互いに矛盾する内容を指す矛盾関係、又は、因果関係であって前記コーパスの中には存在していない、仮説としての因果関係仮説、がある。

本発明の第１の実施の形態に係る矛盾表現収集システムのブロック図である。図１に示すテンプレートＤＢ構築装置のより詳細なブロック図である。テンプレートネットワークの構成を模式的に示す図である。テンプレートネットワーク構築部を実現するプログラムの制御構造を示すフローチャートである。テンプレートネットワークの構築において、リンクを追加する処理を実現するプログラムの制御構造を示すフローチャートである。各テンプレートの活性値の算出処理を実現するプログラムの制御構造を示すフローチャートである。矛盾表現獲得処理を実現するプログラムの制御構造を示すフローチャートである。図７に制御構造を示すプログラムのうち、フレーズ群の生成処理を実現するプログラム部分の制御構造を示すフローチャートである。図７に制御構造を示すプログラムの内、矛盾フレーズペアを選択する処理を実現するプログラム部分の制御構造を示すフローチャートである。図７に制御構造を示すプログラムのうち、矛盾フレーズペアのランキングを行なうプログラムの制御構造を示すフローチャートである。本発明の第２の実施の形態において、因果関係を獲得する機能を実現するためのプログラムの制御構造を示すフローチャートである。因果関係データベースの内容により推論システムの結論が異なる例を説明するための模式図である。本発明の第３の実施の形態において、種々の名詞ペアから因果関係仮説を生成する機能を実現するプログラムの制御構造を示すフローチャートである。本発明の第３の実施の形態において、因果関係ペアと矛盾ペアとに基づいて新たな因果関係仮説を生成する機能を実現するプログラムの制御構造を示すフローチャートである。本発明の実施の形態に係る質問応答システムを実現するためのコンピュータの外観を示す模式図である。図１５に示すコンピュータのハードウェア構成を説明するブロック図である。

以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。なお、以下の記載では、名詞と動詞（又は形容詞、形容動詞等の述語）とが助詞を介して結び付いたものを「フレーズ」と呼ぶ。さらに、フレーズ内の助詞と述語との組合せ（例:＜を、食べる＞）を「述語テンプレート」と呼ぶ。

以下の説明では、最初に本実施の形態で使用される基本概念を示す。さらに、それらを用いてどのようにして矛盾表現又は因果関係表現を認識できるかを述べる。最後に、具体的な実施の形態について説明する。

［基本概念］
《テンプレート》
既に述べたとおり、１つの名詞と、１つの動詞、形容詞又は形容動詞とを助詞を介して結び付けたものを「述語テンプレート」と呼ぶ。本実施の形態では、述語テンプレートは、活性、不活性、中立のいずれかに分類される。

《分類ラベル》
以下では、述語テンプレートの分類ラベルについて説明する。次に、その分類が持つ言語学的性質を説明する。さらに、分類の自動獲得手法について述べる。最後に、分類された述語テンプレートのアプリケーションについて述べる。

（１）述語テンプレートの分類／極性
本実施の形態では、全体のシステムの入力となるテキストに現れる述語テンプレートを以下のテーブル１に示す３種に分類する。

本実施の形態では、以上の分類はテキストから自動的に計算される。その際、活性テンプレートには正の活性値を、不活性テンプレートには負の活性値を、それぞれ割当てる。活性値の具体的な計算法については後述する。中立動詞とは、計算の結果得られた活性値の絶対値があるしきい値以下のもののことをいう。本明細書では、上述の「活性」、「不活性」及び「中立」に関する分類と、各テンプレートに付された活性値との両者を総称して述語テンプレートの「極性」と呼ぶ。以下のテーブル２に例を挙げる。

否定の助動詞「ない」等が述語に続く場合には、述語と否定の助動詞を併せたものを１つの述語と考え、その活性値として、元の述語の活性値の正負を逆転させたものを用いる。以下のテーブル３に例を挙げる。

（２）述語テンプレートへの極性の割当
述語テンプレートへの極性の割当は自動的に計算される。まず、極性割当の手がかりとして以下のような言語学的性質、制約を考える。まず、名詞の対を考え、対を成す名詞の間の因果関係という概念を導入する。

因果関係を持つ名詞の対には以下のテーブル４に示す２種類の関係がある

これら名詞の対と、述語テンプレートの活性値の積の極性（符号）との間には以下のような関係がある。すなわち、（１）順接の接続詞(〜ので、〜ため、〜て、等)で結ばれた２つの述語テンプレートの活性値の積の極性は、正の因果関係を持つ名詞句が２つの述語テンプレートと係り受けを持つ場合には、正になる。（２）逆に、順接の接続詞で結ばれた２つの述語テンプレートと、負の因果関係を持つ名詞句が係り受けを持っている場合には述語テンプレートの活性値の積の極性は負になる。（３）逆説の接続詞(〜が、〜にもかかわらず等)で２つの動詞が結ばれている場合には２つの述語テンプレートの活性値の積の極性は（１）（２）と逆になる。

これらの関係について例を挙げると以下のテーブル５のとおり。なお、名詞の対＜地震、津波＞は正の因果関係、＜抗がん剤、ガン＞は負の因果関係を、それぞれ持つ。

なお、同義/含意の関係を持つ述語テンプレートの組は同じ極性を持つ。例えば「(ワクチン)を処方する」と「(ワクチン)を注射する」とは両方とも極性は正であり、「(地震)が発生する」と「(地震)が起きる」についても極性は両方とも正である。ただし、活性値が同一であるとは限らない。

具体的な活性値の計算においては、以上に例示したようなテキスト、つまり、各々名詞と結び付き、かつ互いに順接又は逆説の接続詞で連結された２つの述語テンプレートからなる表現をインターネット上から大量に収集する。それら接続詞で繋がれた述語テンプレート間、及び同義／含意関係を持つ述語テンプレートの対の間でリンクをはることにより、述語テンプレートのネットワークを作る。リンクには上で述べたような、述語テンプレートの極性が同一かどうかの情報を属性として付与する。このネットワーク上の少数の述語テンプレートには、あらかじめ、人手で＋１又は−１の活性値を付与する。そのネットワーク上で、後述するように量子力学での電子スピンのエネルギーに類似したエネルギーを定義する事が可能である。そのエネルギーを最適化（ここでは最小化）する計算を行ない、一種の制約解消をすることで、述語テンプレートの極性及び名詞対の因果関係の極性をブートストラップ的かつ大局的に決定及び計算できる。この活性値の算出手法については非特許文献８を参照されたい。

なお、後述の活性値の割当てアルゴリズムはあくまで一例であり、上記言語学的制約を考慮したエネルギー関数に基づいて具体的な活性値を求める手法は他にも存在する可能性がある。

（３）こうした分類極性を使う事で以下のようなアプリケーションが可能となる。

（Ａ）フレーズ間の因果関係の自動認識手法
活性値の積が正で、活性値の絶対値が大きい述語テンプレートの対が正の因果関係を持つ名詞と共起し、順接の接続詞で結ばれた場合には因果関係を表している可能性が高くなる。活性値の積が負で、活性値の絶対値が大きい述語テンプレートの対が負の因果関係を持つ名詞と共起し、順接の接続詞で結ばれた場合にも因果関係を表している可能性が高い。この性質を利用して、因果関係を表す、２つの述語テンプレート及び正負の因果関係を持つ名詞対を含む表現をテキスト中で自動的に認識し、取得できる。

接続詞「〜て」は、因果関係を表すとは限らない。「〜て」が因果関係以外を表す表現は無数に存在する。例えば、「風呂に入って、食事をする」の場合、風呂と食事との間には、因果関係は通常認められない。本実施の形態により、このような、因果関係ではないフレーズペアをうまく除外し、因果関係のみを精度高く取得できる。

このような表現の集合の中から、上記制約を考慮することで、フレーズ間の因果関係を高精度に獲得することが可能となる。因果関係が得られると、例えば、「地震が起きた」という情報から、「津波に襲われる可能性がある」という予測ができる。こうして取得された因果関係は、フレーズ間の意味的関係の自動獲得という非常に重要な技術にとって大きなファクターとなる。

（Ｂ）情報の矛盾の自動認識
極性が反対の述語テンプレートは、仮に両者が同種の名詞に付随して出現する場合、互いに矛盾している可能性が高い。この性質を利用して、矛盾するフレーズ対を自動的に取得できる。具体的には、共通の名詞と共に出現する確率が高く、極性が反対の述語テンプレートの対に、共通の名詞を埋め込んだフレーズ対を収集する。これらフレーズ対は、互いに矛盾するフレーズ対として自動的に取得できる。以下に、矛盾する表現の例を挙げる。

これらのフレーズ対から共通の名詞を取り除くと、述語テンプレートの対が残る。それらもやはり互いに矛盾する可能性が高い。そうした述語テンプレートをデータベース化すると、反義に関する有用な辞書として活用できる。上の例でいえば、「…を吸う」と「…を止める」のように互いに反する意味を持つ述語テンプレート対として収集できる。

（Ｃ）フレーズ間の因果関係と矛盾とを組合せた仮説生成
上記（Ａ）フレーズ間の因果関係の自動認識と（Ｂ）情報の矛盾の自動認識の技術を併せ用いる事で、元となるテキストに陽に記載されていない因果関係を自動取得する事が可能となる。その手法の概略は以下のとおりである。

まず、基となるテキストから、パターンによる名詞間の意味的関係の獲得（これには既存技術を利用できる）によって、例えば材料関係を自動的に獲得できる。すなわち、製品Ｂと材料Ａとの間の関係が「ＡでＢを作る」というようなパターンによって自動獲得できる。この自動獲得の結果、製品「超硬工具」の材料が「タングステン」であるという情報が取得出来たとする。次いで、この材料関係という意味的関係を持つことが分かった名詞の対、すなわち「超硬工具」と「タングステン」とからなる名詞の対とそれぞれ頻繁に共起する述語テンプレートで、互いの活性値の積が正であり、かつその活性値の絶対値が大きいものを選ぶ。選ばれた述語テンプレートを、それぞれ対となる名詞と並べる。すると、例えば、「タングステンを輸入して(活性値正)、超硬工具を製造する(活性値正)」というような、述語（動詞）と名詞とからなる動詞句の間の（広い意味での）因果関係が獲得できる。ここでの因果関係とは、「タングステンを輸入する」のは「超硬工具を製造する」ためである、というものである。

このようにして獲得された因果関係自体が、テキスト中に陽に書かれていない場合もある。そのような場合には、上記した方法で因果関係に関する仮説が生成されたことになる。なお、この際、「輸入する」「製造する」といった動詞単体がよく一文内で共に出現する等の制約を用いてもよい。

次いで、上述のように取得されたものも含めた述語及び名詞からなるフレーズの間の因果関係に対して、述語テンプレートの各々を、その述語テンプレートと矛盾する、（Ｂ）の、情報の矛盾の自動認識で取得された述語テンプレートで置換える。例えば、「タングステンを輸入して、超硬工具を製造する」、という因果関係を考える。この因果関係を構成する述語テンプレートのうち、「を輸入する」と「が輸入禁止される」とが矛盾し、「を製造する」と「を販売中止する」とが矛盾していると、いずれも上記（Ｂ）技術で認識されたものとする。このように元の因果関係に含まれる述語テンプレートとそれぞれ矛盾するとされた述語テンプレートで、元の因果関係に含まれる述語テンプレートを置換える。この手続きによって、「タングステンが輸入禁止されたため、超硬工具を販売中止する」という、新たな因果関係の仮説を生成できる。

以上のような方法で大量の因果関係及びその仮説を取得し、データベースにしておくことによって、実際に新たな情報が来た際に、その後の可能な状況を推論することが可能となる。例えば、「タングステンが輸入禁止されたため、超硬工具を販売中止される」という因果関係の仮説がデータベース化されていたとする。そこに、「タングステンが輸入禁止」というニュース記事が出現したとする。すると、上記したデータベースを検索することにより、「タングステンが輸入禁止された」ことの帰結として、「超硬工具が販売中止される」可能性があるという推論を行なえる。すなわち、その分野に関する詳しい知識を持たない人間にとっては未知の仮説が自動的に生成できる。

以上のような仮説生成は、当初の「超硬工具をタングステンで作る」といった単純で頻出するパターンで記載された情報のみから始まるものである。一方で、超硬工具ともタングステンとも関係を持たないテキストから述語テンプレートの活性／不活性に関する情報抽出する。これらを組合せることにより、因果関係の仮説が生成される。すなわち、入力されるテキスト中に、超硬工具及びタングステンに関する言及が「超硬工具をタングステンで作る」という表現のみしかなかったとしても、上に述べたような仮説の生成が可能になる。その結果、非常に乏しい情報量から、「超硬工具が製造禁止になる可能性がある」という非常に高度な仮説を得ることができる。したがってこの技術は、広い適用範囲があるとともに、情報の高度な活用のためのコア技術となる。

（Ｄ）同義、含意関係を持つ表現の自動獲得の精度向上
従来の同義、含意関係の自動獲得技術では、注目している表現の周辺に出現する語の出現確率の分布の類似により、同義、含意を認識している。しかし既に述べたように、往々にして、ある単語Ａに対する反義の単語Ｂが、単語Ａと同義又は含意という関係を持つと誤認識されるケースがあった。これは、反義語の出現するコンテキストが類似することが多いことに起因する。これに対して本実施の形態によれば、例えば、「を引き起こす」の活性値が正、「を防ぐ」の活性値が負であることを自動的に計算できる。これらの情報を用いると、従来技術を用いることで抽出された同義表現の候補の中で、述語テンプレートの極性が異なっているか否かにより同義か否かを見分けることができる。この結果、本実施の形態の技術を用いて、単語の同義及び含意の自動獲得の精度が向上する。

（Ｅ）文をまたがった因果関係の自動獲得
上記した（Ａ）及び（Ｃ）の技術によって多数の因果関係を取得できる。それら多数の因果関係をデータベース化すると、それら因果関係の表現中に頻出する述語テンプレートの対が獲得できる。例えば、「が起きた」と「に襲われた」という述語テンプレートの対が、データベース中の因果関係に多数出現するものとする。そうした述語テンプレートは、テキスト中で文をまたがって（別の文の中で）出現した場合でも、互いの間の文数、単語数又は文字数等、「距離」が近い場合には因果関係を表す可能性が高い。例えば、「昨日、地震が起きた。津波に襲われたとの報告が寄せられている。」といったように、「地震が起きた」という表現と「津波に襲われた」という表現とが２文に分かれて出現した場合を考える。この場合でも、「地震が起きた」と「津波に襲われた」との２つのフレーズで記述される出来事の間には因果関係がある。また、そこに出現している名詞の対、すなわち「地震」と「津波」の間にも因果関係がある。こうした性質を利用し、複数文にまたがって記載されている因果関係を、フレーズ間及び単語間の双方について、自動的に取得できる。

以下、上記した考え方に基づく本実施の形態のシステムの構成及び動作について説明する。以下に説明する実施の形態の内、第１の実施の形態は、上記したフレーズ対の抽出技術を用いて、フレーズ間の論理的関係の１つである矛盾表現を自動的に収集するシステムに関する。第２の実施の形態は、上記したフレーズ対の抽出技術を、フレーズ間の論理的関係の他の例である因果関係の獲得に適用するシステムに関する。第３及び第４の実施の形態は、因果関係の仮説を生成するシステムに関する。

＜第１の実施の形態＞
［構成］
図１を参照して、この発明の第１の実施の形態に係る矛盾表現収集システム３０は、前述した述語テンプレートのうち、テンプレートネットワーク構築の際の核となるテンプレート（これを「シードテンプレート」と呼ぶ）を記憶するためのシードテンプレート記憶装置３２と、述語テンプレートの間を連結する、順接及び逆説の接続詞を記憶する接続詞記憶部３４と、シードテンプレート記憶装置３２、接続詞記憶部３４、及びインターネット４０上のコーパスから、接続詞記憶部３４に記憶された接続詞により結び付けられた２つのフレーズからなるフレーズ対を大量に収集し、それらの中から互いに矛盾した表現（相反する表現）を獲得するための矛盾表現収集装置３６と、矛盾表現収集装置３６により収集された矛盾表現を記憶するための矛盾表現記憶装置３８とを含む。

矛盾表現収集装置３６は、シードテンプレート記憶装置３２、接続詞記憶部３４及びインターネット４０に接続され、インターネット４０上の仮想コーパスから大量のフレーズ対を収集し、それらの中から大量の述語テンプレートを取り出してテンプレートデータベース（ＤＢ）６２を構築するためのテンプレートＤＢ構築装置６０と、テンプレートＤＢ構築装置６０により構築されたテンプレートＤＢ６２を用い、インターネット４０上の仮想コーパスから矛盾表現を獲得するための矛盾表現獲得部６４とを含む。なお、シードテンプレート記憶装置３２に記憶されたテンプレートには、それらテンプレートの活性・不活性にしたがって予め正又は負の活性値が与えられている。以下に述べる処理の最初には、これらの値はそれぞれ＋１及び−１である。

図２を参照して、テンプレートＤＢ構築装置６０は、シードテンプレート記憶装置３２と接続詞記憶部３４とに接続され、シードテンプレート記憶装置３２に記憶された全てのテンプレートと、接続詞記憶部３４に記憶された全ての接続詞とを用い、２つのテンプレートが接続詞で結び付けられた組合せの全てを生成するテンプレートペア生成部９０と、テンプレートペア生成部９０により生成されたテンプレートペアを記憶するためのテンプレートペア記憶部９２とを含む。テンプレートペア生成部９０により生成されるテンプレートペアの形の例は以下のようなものである。

テンプレートＤＢ構築装置６０はさらに、テンプレートペア記憶部９２に記憶されたテンプレートペアの各々について、そのテンプレートペアと共起する名詞ペアをインターネット４０上から収集するための名詞ペア収集部９４と、名詞ペア収集部９４により収集された名詞ペアを記憶するための名詞ペア記憶部９６と、名詞ペア記憶部９６に接続され、名詞ペア記憶部９６に記憶された名詞ペアの各々に含まれる名詞の間の関係を、それら名詞と共起している述語テンプレートの極性、及び接続詞記憶部３４に記憶されている接続詞の種別に基づいて判定し、各名詞ペアにその関係を示すタグを付す処理を行なうための名詞ペア極性判定部９８とを含む。

ここでは、名詞ペア極性判定部９８は、以下のテーブル９に示す方法にしたがって名詞ペアを構成する名詞の間の関係を判定する。

すなわち、２つの述語テンプレートと共起している名詞ペアの関係は、次のようにして判定できる。

（１）２つの述語テンプレートの極性が同じで、これらが順接の接続詞で接続されていると、これらと共起している名詞ペアの関係は正
（２）２つの述語テンプレートの極性が同じで、これらが逆接の接続詞で接続されていると、これらと共起している名詞ペアの関係は負
（３）２つの述語テンプレートの極性が反対で、これらが順接の接続詞で接続されていると、これらと共起している名詞ペアの関係は負
（４）２つの述語テンプレートの極性が反対で、これらが逆接の接続詞で接続されていると、これらと共起している名詞ペアの関係は正
テンプレートＤＢ構築装置６０はさらに、名詞ペア記憶部９６に接続され、名詞ペア極性判定部９８により関係タグが付された名詞ペアの各々について、それらと共起するテンプレートペアをインターネット４０から収集するためのテンプレートペア収集部１００と、テンプレートペア収集部１００が収集したテンプレートペアを、それらと共起した名詞ペアと関係付けて記憶するためのテンプレートペア記憶部１０２と、テンプレートペア記憶部１０２に記憶されたテンプレートペアの各々について、そのテンプレートペアを構成するテンプレートの活性／不活性が同じか否か（マッチするか否か）を、そのテンプレートペアと共起する名詞ペアの関係（正／負）と、テンプレートを連結している接続詞が順接か逆接かに基づいて判定し、各テンプレートペアにその結果をタグとして付与するためのテンプレート活性マッチ判定部１０４とを含む。

テンプレートペアの活性／不活性が同じか否かは以下に例を示す方法により判定できる。なお、テーブル９に示すように、名詞ペア＜地震、津波＞の関係は正、名詞ペア＜唾液分泌、口渇＞の関係は負、名詞ペア＜アセトアルデヒド、肝障害＞の関係は正である。

すなわち、以下のような条件でテンプレートペアの活性／不活性が同じか反対かを判定できる。

（１）関係が正である名詞ペアと共起し、順接の接続詞により接続されるテンプレートペアの活性は同じ
（２）関係が正である名詞ペアと共起し、逆接の接続詞により接続されるテンプレートペアの活性は反対
（３）関係が負である名詞ペアと共起し、順接の接続詞により接続されるテンプレートペアの活性は反対
（４）関係が負である名詞ペアと共起し、逆接の接続子により接続されるテンプレートペアの活性は同じ
テンプレートＤＢ構築装置６０はさらに、テンプレートペア記憶部１０２に記憶されたテンプレートペアとそのマッチ判定結果とに基づいて、テンプレート間にネットワークを構築するためのテンプレートネットワーク構築部１０６と、テンプレートネットワーク構築部１０６が、ネットワークの構築時にテンプレート間のリンクを追加するために使用する同義・含意関係辞書１０８とを含む。このネットワークを本明細書では「テンプレートネットワーク」と呼ぶ。

図３を参照して、例えばテンプレートネットワーク１４０は、各々が１つのテンプレートに対応する複数個のノードと、それらノード間に定義されるリンクとを含む。リンクは、テーブル９により示されるマッチ判定が行なわれたテンプレートに対応するノード間に張られる。各リンクには、その両端のノードのテンプレート間に対するマッチ判定の結果（テーブル９）に応じ、同一極性又は反対極性という属性が割当てられる。図３において、同一極性が割当てられたリンクは実線で示し、反対極性が割当てられたリンクは点線で示してある。後述するように、このリンクを用いて各テンプレートの活性値が算出される。活性値の算出のため、テンプレートネットワーク１４０のノードのうち、シードテンプレート記憶装置３２に記憶されたシードテンプレート（例えば図３の「を引き起こす」、「を発生させる」、「を抑制する」等のノード）については、予め＋１又は−１の値が手作業により与えられている。これらの値と、ノード間のリンク及びそのリンクの属性とを用いて、各ノード（テンプレート）の活性値が計算される。計算方法の具体的内容については後述する。

再び図２を参照して、テンプレートＤＢ構築装置６０はさらに、テンプレートネットワーク構築部１０６に接続され、テンプレートネットワーク構築部１０６により構築されたテンプレートネットワーク１４０を記憶するためのテンプレートネットワーク記憶部１１０と、テンプレートネットワーク記憶部１１０に記憶されたテンプレートネットワーク１４０の各ノードについて、シードテンプレートに予め付されていた＋１又は−１の活性値をもとにして、各ノード（テンプレート）の活性値を算出し、各ノード（テンプレート）にそれら活性値を付すためのテンプレート活性値算出部１１２と、テンプレートネットワーク記憶部１１０に記憶されたテンプレートネットワーク１４０の各ノード（テンプレート）のうち、テンプレート活性値算出部１１２により算出された活性値の絶対値が大きなもののみを抽出し、抽出したテンプレートによりテンプレートＤＢ６２を構築するための高活性度テンプレート抽出部１１４と、テンプレートＤＢ構築のために予め決められた終了条件が成立したか否かを判定するための終了判定部１１６と、終了判定部１１６により終了条件が成立していないと判定されたことに応答して、テンプレートＤＢ６２に記憶されたテンプレートを新たなシードテンプレートとしてシードテンプレート記憶装置３２を更新し、再度、テンプレートＤＢ構築装置６０によるテンプレートＤＢ構築の処理を実行させるためのシードテンプレート更新部１１８とを含む。終了判定部１１６により終了条件が成立したと判定されたときには、テンプレートＤＢ構築装置６０の動作は終了し、矛盾表現獲得部６４が起動する。

後述するように、矛盾表現収集装置３６の各部は、コンピュータハードウェアと、当該コンピュータハードウェアにより実行されるコンピュータプログラムとにより実現される。

テンプレートペア生成部９０は、単純にシードテンプレート記憶装置３２に記憶されたシードテンプレートの全ての組合せと、接続詞記憶部３４に記憶された全ての接続詞とを組合せることにより、テンプレートペアを生成するためのものである。テンプレートペアの典型例は、「（名詞１）を引き起こす」「ので」「（名詞２）を発生させる」のようなものである。

名詞ペア収集部９４は、以下のような処理を行なう。上記したテンプレートペア＋接続詞の組合せと一文中で共起する名詞ペアを考えることができる。そのような名詞ペアは、以下に例示するように互いに正の関係にあるものと互いに負の関係にあるものとに分けられる。名詞ペアの正／負は、その名詞ペアと共起するテンプレートペアの活性／不活性と接続詞との組合せによって決まる。

テンプレートペア収集部１００は以下のような処理を行なう。上記名詞ペア極性判定部９８により正の関係としてのみインターネット４０上に出現していると判定された名詞ペアを考える。テンプレートペア収集部１００は、それらのうち、出現頻度が所定回数以上の名詞ペアだけを正の関係名詞ペアとして残す。同様に、負の関係としてのみインターネット４０上に出現している名詞ペアについても、出現回数が所定回数以上の名詞ペアだけを負の関係名詞ペアとして残す。ここでのしきい値としての所定回数は、正の関係名詞ペアを選択するときと負の関係名詞ペアを選択するときとで異なっていても一致していてもよい。

テンプレート活性マッチ判定部１０４は、残された正／負の関係の名詞ペア＋接続詞と一文中で共起するテンプレートペアを、以下のテーブル１２に基づく判定方法にしたがい、テンプレートの活性／不活性が同じもの（一致）と反対のもの（反対）とに分類する。このとき、あるテンプレートペアについて、インターネット４０上でテンプレートの活性が一致して出現したり、反対の活性で出現していたりするものがある。これらについては、一致しているものと反対のものとの出現回数を比較し、多数決で決定する。

図４を参照して、図２に示すテンプレートネットワーク構築部１０６を実現するためのプログラムは、テンプレートペア記憶部１０２にテンプレートペアが記憶され、テンプレート活性マッチ判定部１０４により各テンプレートペアについての活性マッチ判定が終了すると起動される。このプログラムは、メモリ上に所定の記憶領域を確保したり、それら記憶領域のうち、所定の変数のための領域に初期値を代入したり、初期の空のテンプレートネットワーク１４０を構築したりする初期化を行なうステップ１５０と、テンプレートペア記憶部１０２に記憶された全てのテンプレートペアに対し、処理１５４を実行するステップ１５２とを含む。処理１５４は、当該テンプレートペアを構成するテンプレートとその間のリンクとをテンプレートネットワーク１４０に追加する処理を行なうためのものである。なお、ステップ１５０では、テンプレートネットワーク１４０として空のネットワークが予め構築されているものとする。

処理１５４は、処理対象のテンプレートペアに含まれるテンプレートの各々について、対応するノードがテンプレートネットワーク１４０にあるか否か、すなわちそのノードをテンプレートネットワーク１４０に追加すべきか否かを判定するステップ１８０と、ステップ１８０の判定が肯定的のときに実行され、テンプレートネットワーク１４０に追加すべきと判定されたノード（１個又は２個）をテンプレートネットワーク１４０に追加する処理を行なうステップ１８２と、ステップ１８０及び１８２の後に実行され、処理対象のテンプレートペアに対応するノード間に既にリンクがあるか否かを判定するステップ１８４と、ステップ１８４の判定が否定的であるときに、当該リンクをテンプレートネットワーク１４０に追加する処理を行なって処理１５４を終了するステップ１８６とを含む。ステップ１８４の判定が肯定的であるときには、このテンプレートペアに対する処理１５４の実行は終了する。

テンプレートネットワーク構築部１０６を実現するプログラムはさらに、ステップ１５２による処理の完了後、構築されたテンプレートネットワーク１４０に、同義・含意関係辞書１０８を参照することによってリンクを追加するステップ１６４と、ステップ１６４の結果得られたテンプレートネットワーク１４０において、他のノードとの間のリンク数が所定のしきい値以下のノードを削除するステップ１６６と、各ノードがリンクしているノードの数に基づいて各リンクの重みを算出し（計算方法については後述する）、各リンクに付与して処理を終了するステップ１６８とを含む。

図５を参照して、図４のリンクの追加処理のステップ１６４で実行されるプログラム部分（ルーチン）は、テンプレートネットワーク１４０内のノードのうち、互いにリンクを持たないノードの対の全てに対して以下の処理２０２を実行するステップ２００を含む。

処理２０２は、処理対象のノード対の間に、特定の関係があるか否かを判定するステップ２１０と、ステップ２１０の判定が肯定的であるときに、処理対象のノード対の間に「同一」という属性を持つリンクを追加して処理２０２を終了するステップ２１２とを含む。ステップ２１０の判定が否定的である場合にも処理２０２を終了する。ここでいう特定の関係の有無の判定においては、以下に示すように、動詞の文法的情報、及び図２に示す同義・含意関係辞書１０８に格納された単語の同義・含意関係が使用される。

ステップ１６８では、各リンクの重みが算出される。テンプレートｉとテンプレートｊとの間のリンクに付与される重みをｗ_ｉｊとする。重みｗ_ｉｊは以下の式（１）により算出される。

ただし、ｄ（ｉ）はテンプレートｉとリンクされているテンプレートの数を示す。ＳＡＭＥ（ｉ，ｊ）は、テンプレートｉとテンプレートｊとの間のリンクに「一致」属性が付されていることを示す。ＯＰＰＯＳＩＴＥ（ｉ，ｊ）は、テンプレートｉとテンプレートｊとの間のリンクに「反対」属性が付されていることを示す。すなわち、テンプレートｉとテンプレートｊとに一致属性が付与されていれば、重みは正の値となり、反対属性が付与されていれば、重みの符号は逆転し、負となる。

図２に示すテンプレート活性値算出部１１２は、テンプレートネットワーク記憶部１１０に記憶されたテンプレートネットワーク１４０の各ノードについて、以下に述べるような方法で各ノードの活性値を算出する。図６を参照して、テンプレート活性値算出部１１２を実現するコンピュータプログラムは、テンプレートネットワーク記憶部１１０にテンプレートネットワーク１４０が記憶され、各リンクにそれぞれ重みが付されたことに応答して実行を開始する。このプログラムは、テンプレートネットワーク１４０内のノードのうち、シードテンプレートに対応するノードに、それらシードテンプレートに対して予め付与されていた活性値（活性シードテンプレートには＋１、不活性シードテンプレートには−１）を設定し、他のノードには所定の初期値を設定するステップ２４０と、ステップ２４０の後、以下の式により定義される値Ｅ（ｘ，Ｗ）の値を最適化（ここでは極小化）することにより各ノードの活性値を推定するステップ２４２とを含む。

ただしｘ_ｉ及びｘ_ｊはそれぞれテンプレートｉ、ｊの符号付の活性値、ｘはそれら活性値からなるベクトル、Ｗはリンクの重みｗ_ｉｊからなる行列を、それぞれ表す。この値Ｅは、ちょうど量子力学における電子のスピンのエネルギーの計算式に類似しており、量子力学におけるエネルギーの最小化の計算と同様に行なうことができる。この式のシグマの中の各項のうち、ｘ_ｉｘ_ｊの値は、エネルギー最小化計算の後、ｘ_ｉ及びｘ_ｊの極性が同じときには正の値、異なるときには負の値となる傾向がある。重みｗ_ｉｊの符号は、既に述べたように、ｘ_ｉ及びｘ_ｊの極性が同じときには正の値、異なるときには負の値となる。したがってシグマの中の各項の値は必ず正の値となる傾向があり、これを最大化することで一種の制約解消が行なわれる。なお、式（２）において、シグマの前に係数「−１／２」があることから、シグマの中を最大化することによりＥ（ｘ，Ｗ）の値が極小化される。

一方、図１の矛盾表現獲得部６４もコンピュータプログラムにより実現される。図７を参照して、矛盾表現獲得部６４を実現するためのコンピュータプログラムは、フレーズ群を生成するステップ２８０と、ステップ２８０で生成されたフレーズ群の中から、互いに矛盾する（相反する意味を持つ）表現と考えられる２つのフレーズからなる矛盾フレーズペアを選択するステップ２８２と、ステップ２８２で選択された矛盾フレーズペアについて、所定のスコアを用いてランキングして出力するステップ２８４とを含む。

ここでいう矛盾ペアとは、以下の条件を充足するフレーズペアのことをいう。

（１）両フレーズとも、１つの名詞と１つの活性又は不活性テンプレートからなる。例えば「（風邪）に罹る」と「（風邪）を予防する」のようなものである。

（２）両フレーズに含まれる２つの名詞は、互いに同義（又は同一）である。例えば＜風邪、感冒＞又は＜風邪、風邪＞のような組合せである。

（３）両フレーズに含まれる２つのテンプレートは、一方が活性で他方が不活性である。例えば「に罹る」（活性）と「を予防する」（不活性）というペアである。

（４）２つのテンプレートは、インターネット上で共起する（係り受け関係を結ぶ）名詞を多く共有する。すなわち、これら２つのテンプレートは、分布類似度が高い。例えば、「に罹る」と共起する名詞として風邪、感冒、肺炎、…等が考えられるのに対し、「を予防する」と共起する名詞としては、風邪、感冒、肺炎、火事、災害等が考えられ、両者の間の分布類似度は高い。

（５）各フレーズは、インターネット上で所定のしきい値以上の出現頻度を持つ。すなわち、各フレーズの名詞とテンプレートとは、このしきい値以上の頻度でもって係り受け関係を結ぶ。例えば、「（風邪）に罹る」の出現頻度≧しきい値、及び「（風邪）を予防する」の出現頻度≧しきい値がともに成立する必要がある。

以上の処理を実行して矛盾ペアを抽出するための処理は、図７のステップ２８０で実行される。図８を参照して、このプログラム部分２８０は、インターネット４０から名詞を取得するステップ３２０と、取得された名詞の全てに対し、以下の処理３２４を実行するステップ３２２とを含む。処理３２４は、処理対象となっている名詞について、以下の処理３６２をテンプレートＤＢ６２に記憶されている全てのテンプレートに対して実行するステップ３６０を含む。

処理３６２は、処理対象の名詞に、処理対象のテンプレートを結び付けることで、あるフレーズを生成するステップ４００と、そのフレーズのインターネット４０上での出現頻度が上記したしきい値以上か否かを判定するステップ４０２と、ステップ４０２の判定が肯定的であるときに、そのフレーズをフレーズ群に追加して処理３６２を終了するステップ４０４とを含む。ステップ４０２の判定が否定的な場合には、そのフレーズはフレーズ群には追加しない。

図８に示すプログラムを実行することにより、活性フレーズ及び不活性フレーズが多数生成される。例えば活性テンプレートとして「を引き起こす」及び「に罹る」があり、不活性テンプレートして「を防ぐ」及び「を予防する」があるものとする。インターネット４０から得た名詞の例として「地震」、「津波」、「風邪」、「感冒」等があったとすると、出現頻度の高い活性フレーズ及び不活性フレーズとして以下のようなものが生成されるであろう。これらがフレーズ群に追加され、図７のステップ２８２への入力となる。

図７のステップ２８２を実現するプログラム部分は、図９に示すような制御構造を持つ。図９を参照して、このプログラム部分は、予め矛盾フレーズペアを格納する領域として記憶装置内に確保していた領域をクリアするステップ４４０と、ステップ２８０で得られたフレーズ群のうち、全ての活性フレーズについて以下の処理４４４を行なうステップ４４２とを含む。

処理４４４は、全ての不活性フレーズに対し、以下の処理４７２を実行するステップ４７０を含む。

処理４７２は、処理対象の活性フレーズ及び不活性フレーズについて、両者に含まれる名詞が同一か否かを判定するステップ４９０と、ステップ４９０の判定が否定的であるときに、活性フレーズに含まれる名詞と同義である単語を例えば図２に示す同義・含意関係辞書１０８と同種の辞書から検索するステップ４９８と、ステップ４９８で検索された単語のいずれかが不活性フレーズの名詞と一致しているか否かを判定するステップ５００とを含む。ステップ５００の判定が否定的であるときには、処理４７２の実行は終了する。

ステップ４９０の判定が肯定的であるとき、及びステップ５００の判定が肯定的であるときには、制御はステップ４９２に進む。ステップ４９２は、処理対象となっている活性フレーズと不活性フレーズとの分布類似度がしきい値より大きいか否かを判定する。ステップ４９２の判定が肯定的であれば制御はステップ４９４に進む。ステップ４９４では、各フレーズのインターネット４０上での出現頻度が所定のしきい値以上か否かを判定する。判定が肯定的であれば処理対象の活性フレーズと不活性フレーズとのペアを矛盾フレーズペア群に追加し（ステップ４９６）、さもなければこのペアは捨てる。

図７のステップ２８４で実行されるランキングを実現するプログラム部分は、本実施の形態では図１０に示すような制御構造を持つ。図１０を参照して、このプログラムは、図７のステップ２８２により選択された全ての矛盾フレーズペアに対して、その矛盾フレーズペアの矛盾度合いを示すスコアを算出するステップ５３２を行なうステップ５３０と、ステップ５３０の処理が全ての矛盾フレーズペアに対して完了した後、全ての矛盾フレーズペアをスコアの降順でソートして出力し、処理を終了するステップ５３４とを含む。

ステップ５３２で計算されるスコアは、本実施の形態では以下の式で算出されるスコアＣ_ｔ（ｐ_１，ｐ_２）である。

ただし、ｐ_１及びｐ_２はそれぞれ、矛盾ペアを構成するフレーズを表し、ｔ_１及びｔ_２はそれぞれ、ｐ_１及びｐ_２に含まれるテンプレート、ｓ_１及びｓ_２はそれぞれ、テンプレートt_１及びｔ_２の活性値、記号｜ｓ_１｜は活性値ｓ_１の絶対値、ｓｉｍ（ｔ_１，ｔ_２）は、テンプレートｔ_１とｔ_２との分布類似度を、それぞれ示す。

［動作］
この第１の実施の形態に係る矛盾表現収集システム３０は、以下のように動作する。図１を参照して、シードテンプレート記憶装置３２には予め少数のシードテンプレートが格納される。各シードテンプレートが活性か否かについても予め判断されており、各テンプレートにそのタグが付されている。一方、接続詞記憶部３４には、日本語の順接接続詞及び逆接接続詞が格納されている。これらについても、予め順接か逆接かを示す情報を付与しておく。

テンプレートＤＢ構築装置６０は以下のように動作してテンプレートＤＢ６２を構築する。図２を参照して、テンプレートペア生成部９０は、シードテンプレート記憶装置３２に記憶された全てのシードテンプレートの全ての組合せと、接続詞記憶部３４に記憶された接続詞との可能な組合せを全て生成し、これらを全てテンプレートペアとしてテンプレートペア記憶部９２に記憶させる。名詞ペア収集部９４は、テンプレートペア記憶部９２に記憶されたテンプレートペアの各々について、そのテンプレートペアと共起する名詞ペアをインターネット４０から収集し、名詞ペア記憶部９６に記憶させる。名詞ペア極性判定部９８は、これら名詞ペアの各々について、その名詞ペアと共起するテンプレートペア内のテンプレートの活性／不活性と、テンプレートペアを結び付ける接続詞の種類とに応じて、その名詞ペアが正の関係か負の関係かを判定し、各名詞ペアにタグを付与する。

続いて、テンプレートペア収集部１００が、各名詞ペアについて、インターネット４０からその名詞ペアと共起するテンプレートペアを収集し、テンプレートペア記憶部１０２に格納する。これらテンプレートペアの各々について、テンプレート活性マッチ判定部１０４が、共起する名詞ペアの正／負と、接続詞の種類（順接、逆接）とに応じ、テンプレートペアを構成するテンプレートの活性／不活性が互いに同じか、反対かを決定する。このとき、あるテンプレートペアについて、それらの活性が同じとなるものと反対となるものとが存在する場合には、同じものと反対のものとを出現回数を比較し、多数決により一致するか反対かを決定する。テンプレート活性マッチ判定部１０４は、テンプレートペア記憶部１０２に記憶されたテンプレートペアの各々について、それらの活性／不活性が同じか反対かを示すタグを付与する。

テンプレートネットワーク構築部１０６は、テンプレートペア記憶部１０２に記憶されたテンプレートペアに基づいて、テンプレートネットワーク１４０を構築する。テンプレートネットワーク構築部１０６は、テンプレートペアを構成する２つのテンプレートに対応するノードがもしネットワークになければネットワークに追加し、そのリンクももしなければ追加する。この処理を全てのテンプレートペアについて実行することで、テンプレートネットワーク１４０の原型を構築する。テンプレートネットワーク構築部１０６はさらに、ネットワーク内で互いにリンクのないノードの対全てについて、同義・含意関係辞書１０８を参照して、それらノードに対応するテンプレートの間にテーブル１３に示すような特定の関係があるか否かを判定し、あれば互いの間に「同一」というリンクを張る。さらにテンプレートネットワーク構築部１０６は、このようにして構築されたネットワークの各リンクに対し、式（１）によって算出される重みを付与する。このようにしてリンクが追加されたテンプレートネットワーク１４０はテンプレートネットワーク記憶部１１０に記憶される。

テンプレート活性値算出部１１２は、図６に示す処理を実行する。すなわち、最初にシードテンプレートに、その活性／不活性に応じて＋１又は−１の活性値を付与する（ステップ２４０）。さらに、電子スピンのエネルギーに類似した量として定義された値Ｅ（ｘ，Ｗ）を最小化する処理を実行することにより（ステップ２４２）、各テンプレートの活性値を推定し、各テンプレートにその活性値を付与する。これら活性値の値には、負のものもあるし正のものもある。高活性度テンプレート抽出部１１４は、このようにして活性値が推定されたテンプレートの内、活性値の絶対値が所定のしきい値よりも大きなものを選択し、それらテンプレートを用いてテンプレートＤＢ６２を構築する。なお、ここでは、しきい値により選択するのではなく、活性値の値の大きさにしたがって順位をつけるようにしてもよい。

図２に示す終了判定部１１６は、テンプレートＤＢ６２が構築された時点で、所定の終了条件が充足されたか否かを判定する。終了条件としては、例えば繰返し数が所定数を超えた、又は、テンプレート数が所定数を超えた、というような条件を想定できる。もしも終了条件が成立していれば、テンプレートＤＢ６２が完成したものとされる。もしも終了条件が成立していなければ、シードテンプレート更新部１１８は、テンプレートＤＢ６２に含まれるテンプレートをシードテンプレートして、シードテンプレート記憶装置３２を更新する。これらシードテンプレートには、以上の処理により計算された活性値が付与されているので、以後の処理ではこれらの活性値を使用してこれまで記載したのと同様の処理を実行する。

以上の処理を繰返し、終了条件が充足されたところでテンプレートＤＢ６２が完成したことになる。以後、矛盾表現獲得部６４がこのテンプレートＤＢ６２を使用して、インターネット４０から矛盾表現を獲得する処理を実行する。

具体的には矛盾表現獲得部６４は、図７に示すように、フレーズ群の生成を行なう。すなわち、図８に示すように、インターネット４０から名詞を取得し（ステップ３２０）、各名詞とテンプレートＤＢ６２内の各テンプレートとの組合せの全てに対し（ステップ３２２，処理３２４，ステップ３６０）、その名詞とそのテンプレートとからなるフレーズを生成する（ステップ４００）。そのフレーズのインターネット４０上における出現頻度が予め定められた値以上であれば、そのフレーズを以下の処理で使用するフレーズ群に追加し、さもなければそのフレーズを捨てる。以上の処理を全ての名詞と全てのテンプレートとの組合せに対して実行することで、インターネット４０上である頻度で出現するフレーズを得ることができる。

次に矛盾表現獲得部６４は、このようにして生成されたフレーズ群の中から以下のようにして矛盾フレーズペアを選択する。すなわち、最初に矛盾フレーズペアの格納領域をクリアし（図９のステップ４４０），フレーズ群に含まれる全ての活性フレーズと全ての不活性フレーズとの全ての組合せに対し（ステップ４４２，処理４４４，ステップ４７０），両者に含まれる名詞が同一又は同義か（ステップ４９０、４９８，５００）を調べる。両者の名詞が同一又は同義の場合、さらにそのフレーズ対に含まれるテンプレートの対の分布類似度がしきい値より大きいか否かを調べる。判定が否定的であればそのフレーズペアは捨てる。判定が肯定的なら、次にステップ４９４でそのフレーズ対のインターネット４０上での出現頻度が、いずれもしきい値以上か否かを調べる。判定が否定的ならそのフレーズペアは捨てる。判定が肯定的ならこのフレーズペアを矛盾フレーズペア群に追加する（ステップ４９６）。

矛盾表現獲得部６４は、以上の処理を全ての活性フレーズと不活性フレーズとの組合せからなるフレーズペアについて繰返し行なう。その結果、大量の矛盾フレーズペア群を自動的に得ることができる。

さらに、このようにして得られた矛盾フレーズペアの全てについて、図１０のステップ５３２により示されるように矛盾度合いのスコアを算出する。このスコアを用い、矛盾フレーズペアをスコアの降順でソートして出力する。

以上の処理により、大量の矛盾フレーズペアを自動的に得ることができる。人手は、最初のシードテンプレートを設定し、それらの活性を判断して活性値を設定する程度でよい。それ以外のリソースはいずれも既存のものを使用できる。さらに、最終的に矛盾フレーズペアをスコアの降順でソートすることにより、矛盾表現として信頼性が高いものから順番に矛盾表現を選択できる。

＜第２の実施の形態＞
上記した第１の実施の形態の矛盾表現収集システム３０のうち、テンプレートＤＢ構築装置６０によってテンプレートＤＢ６２を得ることができる。このテンプレートＤＢ６２は、第１の実施の形態のような矛盾表現の獲得だけではなく、様々な処理に使用できる。第２の実施の形態は、テンプレートＤＢ６２を因果関係の取得に使用する例である。この第２の実施の形態は、図１の矛盾表現獲得部６４に代えて、インターネット４０から因果関係表現を獲得するための処理部を採用することで実現できる。そうした処理部は、コンピュータプログラムで実現できる。

図１１を参照して、因果関係の獲得処理は、以下のようにして行なえる。まず、ステップ５７０において、一文中で互いに順接接続詞で接続された形でインターネット４０上の仮想コーパス内で共起しているフレーズペアと、そのフレーズペア中の名詞からなる名詞ペアとをインターネット４０から収集する。

続いて、このようにして得られた全てのフレーズペアに対して、以下の処理５７４を実行する（ステップ５７２）。すなわち、処理５７４では、処理対象のフレーズペア内の名詞ペアの関係が正の関係か否かを判定する。判定が肯定的な場合には、さらに、テンプレートペアの活性／不活性が同じか反対かを判定する（ステップ５９２）。ステップ５９２の判定が否定的ならこの名詞のペアは捨てる。ステップ５９２の判定が肯定的ならこのフレーズペアを因果関係ペア群に追加する（ステップ５９４）。

一方、ステップ５９０の判定が否定的なら、ステップ５９６でテンプレートペアの活性／不活性が互いに反対か否かを判定する。判定が否定的ならこのフレーズペアは捨てる。判定が肯定的ならこのフレーズペアを因果関係ペア群に追加する。

以上の処理が全てのフレーズペアに対して終了すると、結果として得られた因果関係ペア群内の全ての因果関係フレーズペアに対してステップ５７８の処理を実行する（ステップ５７６）。ステップ５７８で各因果関係フレーズペアに対して行なわれる処理は、因果関係強度のスコアＣ_ｓ（ｐ_１，ｐ_２）を以下の式により算出する処理である。

ただしｐ_１，ｐ_２はそれぞれ、因果関係ペアを構成するフレーズ、ｓ_１及びｓ_２はそれぞれ、フレーズｐ_１，ｐ_２を構成するテンプレートの活性値、記号｜ｓ_１｜は活性値ｓ_１の絶対値、ｎ_１，ｎ_２はそれぞれ、フレーズｐ_１，ｐ_２に含まれる名詞、ｎｐｆｒｅｑ（ｎ_１，ｎ_２）は、ｎ_１，ｎ_２が正の関係なら、ｎ_１，ｎ_２が活性／不活性の同じテンプレートペアと一文中で共起する頻度、ｎ_１，ｎ_２が負の関係なら、ｎ_１，ｎ_２が活性／不活性の異なるテンプレートペアと一文中で共起する頻度を、それぞれ表す。

このようにして全ての因果関係フレーズペアに対し因果関係強度のスコアを算出した後、ステップ５８０で因果関係フレーズペアをスコアの降順でソートし、出力する。

このような処理を実行することにより、因果関係を表すフレーズのペアを大量に、かつ自動的にインターネット４０から収集できる。

なお、因果関係取得の方法はこれには限定されない。例えば、次の条件を全て満たすフレーズペアを因果関係ペアとして獲得するようにしてもよい。

（１）両フレーズとも、１つの名詞と１つの活性／不活性フレーズとからなる。例えば、「（地震）を起こす」と「（津波）が発生する」のようなフレーズペアである。

（２）両フレーズは、順接接続詞、例えば「〜て」で結ばれる形で、一文中に共起している。例えば、「断層が地震を起こして、津波が発生した。」のようなペア。

具体的には、インターネット４０から、順接接続詞とともに一文で共起しているテンプレートペアと、その一文で共起している名詞ペアとを取得する。これらが因果関係ペアの原型と考えられる。

こうして得られた因果関係フレーズペアについて、例えば以下の式（５）により因果関係強度スコアを算出する。そして全ての因果関係フレーズペアを、因果関係強度スコアの降順にソートして出力する。

上記した第２の実施の形態におけるスコア算出に、式（４）ではなくこの式（５）を用いるようにしても良い。

＜第３の実施の形態＞
第２の実施の形態では、インターネット４０上に存在する記載について、因果関係を記載していると思われる因果関係を抽出している。しかし、世の中には、因果関係と見なせるものは無数に存在している。第２の実施の形態の方法では、それらの中で、実際にインターネット４０上に文として記載されたもの、すなわち人間の表現活動により根拠が与えられているとみなすことのできるもののみが抽出されている。しかも、１つの因果関係であっても、多種多様な言語で表現できる。例えば、日本語に限定して、ある因果関係「米国産牛肉を入手する→牛丼を作る」の周辺に存在する因果関係は、以下に例を示すように多様な形で表現できる。

このように、インターネット４０上に直接表現はされていないが、手持ちの表現から、実際に存在すると思われる因果関係の表現を生成できると便利である。例えば、多様な表現言語で表される無数の因果関係に対するカバー率を向上させることが期待でき、自然言語を用いた様々な言語処理及び推論等の精度を高めることができる。

第１の実施の形態で述べたテンプレートＤＢ６２があれば、インターネット４０上に実際に存在していることが確認はできないが、因果関係として妥当と思われるフレーズペアを因果関係の仮説として生成できる。以下、そのような機能を実現する実施の形態について説明する。

図１２（Ａ）を参照して、因果関係を記述したデータベース（因果関係ＤＢ６３２）があり、推論システム６３０がこの因果関係ＤＢ６３２を使用して、入力から推論できる仮説を出力するように設定されているものとする。この因果関係ＤＢ６３２に、「米国産牛肉を入手する→牛丼を作る」という因果関係６３４があり、米国産牛肉に関してはこの因果関係のみが因果関係ＤＢ６３２に含まれているものとする。

こうした状況で、仮に新聞に「米国産牛肉、輸入禁止に」という記事６３６があったという情報が得られ、その結果、どのような影響が生じるだろうか、という問が推論システム６３０に与えられたものとする。推論システム６３０が利用できる因果関係は因果関係６３４のみである。推論システム６３０には、米国産牛肉と輸入禁止とに関する因果関係についての記述はない。その結果、推論システム６３０の出力６３８は得られないであろう。

一方、図１２（Ｂ）を参照して、米国牛肉に関する別の因果関係ＤＢ６７２を考える。因果関係ＤＢ６７２は、因果関係６３４だけでなく、上のテーブル１５に示したその他の因果関係群６７４も含む。そして、推論システム６７０がこの因果関係ＤＢ６７２を用いて、問に対する回答を推論するものとする。すると、図１２（Ａ）の場合と同様の問が与えられたときに、推論システム６７０は、因果関係ＤＢ６７２の中の因果関係「米国産牛肉の輸入が禁止される→牛丼が食べられない」に基づいて、「牛丼が食べられなくなりますよ」という出力６７６を得ることができる。こうしたシステムが、図１２（Ａ）に示す推論システム６３０と比較してはるかに有用であることは明らかである。

問題は、インターネット４０からは因果関係６３４しか得られないときに、どうすれば因果関係群６７４等が得られるか、ということになる。ここで、第１の実施の形態で説明したテンプレートＤＢ６２を用いることが有用である。

テンプレートＤＢ６２を用い、インターネット４０上に見出せる因果関係から、インターネット４０上に直接は存在していない因果関係の仮説を出力するためのシステムは、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムとにより実現可能である。このシステムは、図１に示すテンプレートＤＢ６２とともに用いられる。

図１３を参照して、本実施の形態に係る、そのような機能を実現するためのプログラムは、因果関係にある名詞のペア（因果関係名詞ペア）、一方が他方の材料にあたる名詞のペア（材料関係名詞ペア）、一方が他方を抑制する関係にある名詞ペア（抑制関係名詞ペア）を取得するステップ７１０を含む。これらの名詞ペアはいずれも、既存の技術を用いて、所定のパターンにマッチする表現から取得できる。例えば、因果関係名詞ペアの場合には、「ＡがＢを引き起こす」のようなパターンにマッチする表現を選び、その名詞Ａ及びＢを因果関係名詞ペアとして取得する。材料関係名詞ペアの場合には、「ＡでＢを作る。」のようなパターンにマッチする表現から名詞Ａ及びＢを取得する。抑制関係パターンの場合には、「ＡがＢを防ぐ」のようなパターンにマッチする表現から名詞Ａ及びＢを取得する。これらの例を以下のテーブル１６に示す。なお、因果関係の仮説を生成するためにこのステップ７１０で取得する名詞ペアは、上記した３種の関係の名詞ペアには限定されず、この他にも様々な関係が考えられる。

このプログラムはさらに、ステップ７１０で取得した全ての名詞ペアに対し、以下のプログラム部分７１４を実行するステップ７１２を含む。

プログラム部分７１４は、処理対象の名詞ペア内の名詞の各々について、その名詞と頻繁に係り受け関係を結ぶテンプレートを同定するステップ７４０と、名詞ペアが互いに正の関係にあるか否かを判定して制御の流れを分岐させるステップ７４２と、ステップ７４２の判定が肯定的であるときに実行され、ステップ７４０で同定されたテンプレートを組合せたペアのうち、順接接続詞とともに頻繁にインターネット４０上に共起し、かつ互いの活性／不活性が同じものを選択するステップ７４４と、ステップ７４２の判定が否定的であるときに実行され、ステップ７４０で同定されたテンプレートを組合せたペアのうち、順接接続詞とともに頻繁に共起し、かつ、互いの活性／不活性が反対のものを選択するステップ７４６とを含む。ステップ７４４及びステップ７４６で「頻繁に」というときは、本実施の形態では、インターネット４０上での出現頻度が予め定められた値よりも大きい場合のことをいう。

プログラム部分７１４はさらに、ステップ７４４及び７４６に引き続いて実行され、ステップ７４４又はステップ７４６で選択された全てのテンプレートペアに対して、以下に説明するプログラム部分７５０を実行するステップ７４８を含む。

プログラム部分７５０は、処理対象の名詞ペアに、処理対象のテンプレートペアを添えることによって因果関係仮説を生成するステップ７７０と、ステップ７７０で生成された因果関係仮説を因果関係仮説群に追加して処理を終了するステップ７７２とを含む。

この図１３に示される制御構造を持つプログラムを、インターネット４０に接続されたコンピュータで実行することにより、インターネット４０上に存在しない表現であって、かつ何らかの因果関係を表す表現（名詞＋テンプレートのペア）である因果関係仮説を大量に得ることができる。

例えば以下のような状況があり得る。材料関係名詞ペア＜牛肉、牛丼＞（正の関係にあると見なせる）及び抑制関係名詞ペア＜抗癌剤、癌＞（負の関係と見なせる）と、次のテーブル１７に示すような活性／不活性テンプレートとが前提として与えられたものとする。

ステップ７４０の処理により、次のようなテンプレートが同定される。

さらに、これらのテンプレートについて、ステップ７４２〜７４６の処理をしてテンプレートペアを選択し、各テンプレートペアについてプログラム部分７５０を実行することにより、次のような因果関係仮説が得られる。

以上のように、本実施の形態に係るシステムによれば、テンプレートＤＢ６２を用い、インターネット４０から収集した名詞ペアに基づいて、インターネット４０上には存在しない多数の因果関係仮説を生成できる。その結果、インターネット４０上から得られる因果関係だけでなく、はるかに多くの因果関係仮説を得ることができる。したがって、推論システムのベースとなる因果関係として幅広い範囲をカバーすることができ、幅広い質問に対し、推論システムが回答を見出すことが可能になる。

＜第４の実施の形態＞
因果関係仮説の生成手法としては、第３の実施の形態に係るもの以外にも種々考えられる。この第４の実施の形態に係る手法は、インターネット４０から直接的に獲得した因果関係ペア（因果関係にあるフレーズのペア）、又は、第３の実施の形態に係る手法により獲得した因果関係仮説（因果関係ペアの一種）と、第１の実施の形態で求めた矛盾表現（互いに矛盾するフレーズからなるペア）とから、因果関係仮説を生成する、というものである。具体的には、以下のようにする。なお、以下の処理の前提として、フレーズ「牛肉を輸入する」に対してフレーズ「牛肉が輸入禁止になる」という矛盾表現が予め得られており、フレーズ「牛丼を食べる」に対して「牛丼が食べられない」という矛盾表現が予め得られているものとする。

（１）因果関係を選ぶ。例えば「牛肉を輸入する→牛丼を食べる」を選ぶ。

（２）因果関係を構成する２つのフレーズの各々について、そのフレーズを、そのフレーズと矛盾する（反対の意味の）フレーズで置換する。例えば「牛肉を輸入する」を「牛肉が輸入禁止になる」で置換し、「牛丼を食べる」を「牛丼が食べられない」で置換する。

（３）新たな因果関係仮説「牛肉が輸入禁止になる→牛丼が食べられない」が得られる。

この処理の結果、獲得済の因果関係又は因果関係仮説の各フレーズを、それぞれ矛盾するフレーズで置換することにより、新たな因果関係仮説が自動的に得られることになる。図１４を参照して、この実施の形態をコンピュータハードウェアにより実現するためのプログラムは、既に因果関係ペアが得られていることを前提として、各因果関係ペアに対して以下のプログラム部分８１２を実行するステップ８１０を含む。

プログラム部分８１２は、処理対象の因果関係ペアのうち、左側フレーズ（原因を表すフレーズ）に対する矛盾フレーズの全てに対して、以下のプログラム部分８４２を実行するステップ８４０を含む。

プログラム部分８４２は、処理中の因果関係ペアの左側フレーズを、そのフレーズと矛盾するフレーズ（ステップ８４０で処理対象に選択されている矛盾フレーズ）と置換するステップ８７０と、処理中の因果関係ペアの右側フレーズと矛盾するフレーズの全てに対して、以下のプログラム部分８７４を実行するステップ８７２とを含む。

プログラム部分８７４は、処理中の因果関係ペアの右側フレーズを、そのフレーズと矛盾するフレーズで置換するステップ９１０と、ステップ９１０の処理の完了により新たに得られたフレーズペアを新たな因果関係仮説として因果関係仮説群に追加してプログラム部分８７４を終了するステップ９１２とを含む。

以上の制御構造を持つプログラムによれば、処理対象となる全ての因果関係ペアについて、それらの左側フレーズをその左側フレーズと矛盾するフレーズで、右側フレーズをその右側フレーズと矛盾するフレーズで、それぞれ置換することで新たな因果関係仮説を得ることができる。左側フレーズ、右側フレーズがそれぞれ複数の矛盾ペアを持つ場合、生成される因果関係仮説の数は乗算的に増加する。しかもこの処理には、人手を必要としない。したがって、非常に広い範囲をカバーする因果関係仮説を、自動的に生成できる。

＜他の応用＞
《同義・含意表現の精度の向上》
上記実施の形態は、いずれも最終的には何らかの形のフレーズペアを得る。しかし、本発明により得られるテンプレートペアは、そのような実施の形態で利用可能なだけではない。他にも種々の利用を考えることができる。

その第１の例は、同義・含意表現の獲得時の精度の向上のためにテンプレートペアを用いる、というものである。一般的に、同義・含意表現は、両者の出現文脈の類似性（分布類似度）を手がかりに、テキスト中から獲得される。例えば、以下のような例が考えられる。

この例のうち、同義関係において、「を輸入する」の出現文脈が「名詞１」、「をインポートする」の出現文脈が「名詞２」であると考える。すると、名詞１と名詞２とが一致するか同義の単語であることが多い。これは、これら２つのフレーズの意味が類似している（同義）ためである。同様に、「が輸入禁止になる」の出現文脈が「名詞３」、「が入手困難になる」の出現文脈が「名詞４」であると考える。すると、名詞３の形成する集合が、名詞４が形成する集合の部分集合となる傾向が強い。したがって、同義関係の場合も、含意関係の場合も、両者のテンプレートの出現文脈は類似し、分布類似度は高くなる。同義・含意関係は、こうした関係を用いて獲得する。

ところが、分布類似度は、２つのテンプレートの同義・含意関係がある場合だけではなく、互いに矛盾する（反対の）関係であることも多い。例えば、「（名詞１）を輸入する」と「（名詞２）が輸入禁止になる」とは、矛盾する関係にある。しかし、名詞１と名詞２には、同じ名詞が入ることが多く、結果として分布類似度は高くなってしまう。したがって、同義・含意表現において、本来は矛盾する意味であるテンプレート同士が同義又は含意表現として選択されてしまうという問題がある。

テンプレートＤＢ６２を用いることにより、そうした問題を解決できる。すなわち、従来の方法で抽出された、同義・含意表現の候補となる言語表現ペアについて、両者のテンプレートの活性／不活性が一致するか否かを調べる。両者の活性／不活性が一致すれば、それらテンプレートは同義又は含意関係にあると考えられる一方、両者の活性／不活性が一致していなければ、これらテンプレート同士は矛盾関係にあると判定できる。

ただし、この判定は、名詞のように活性／不活性という属性が該当しない言語表現には適用できない。

《文境界をまたぐ因果関係名詞ペアの獲得》
従来の因果関係名詞ペアを獲得する手法の大部分は、あるパターンで一文内に共起している名詞のペアを抽出する、というものである。しかし、そうした手法では、一文中に記述されている因果関係ペアしか獲得できない。一方、現実には、一文中に共起している表現以外でも、因果関係の表現があり得る。特に、テキスト中で互いに近い位置に存在している表現のペアの中に、因果関係を表しているものも多い。例えば、「東北で地震が起きた。その後、大勢の人が津波に襲われた」というような表現である。

このように文をまたいで出現する因果関係名詞ペアについて、テンプレートＤＢ６２を用いて以下のようにして獲得できる。

まず、因果関係又は因果関係仮説（いずれもフレーズのペア＋順接接続詞の形）を何らかの手法で準備する。実施の形態２又は３に記載の手法を用いても良い。これらの中で頻出するテンプレートペアを抽出する。例えば「が起きる→に襲われる」、「を引き起こす→が発症する」等のテンプレートペアを得ることができる。

次に、上の手続きにより得られたテンプレートペアの各々について、インターネット４０上で、近接する、異なる２文で共起しているものを検出する。検出されたテンプレートペアについて、それらテンプレートと共起している名詞ペアを抽出する。このようにして得られた名詞ペアは、もともと因果関係を構成していたテンプレートペアと共起しているので、やはり因果関係にある名詞ペアである可能性が高い。しかもこれら名詞ペアと、その名詞ペアと共起するテンプレートペアとが一文内で共起してはいない。したがって、既存の手法で得られる因果関係名詞ペアと比較して、より広い範囲の因果関係名詞ペアを獲得できる。

＜実施の形態の作用・効果＞
以上のように本発明の実施の形態によれば、以下のような効果が得られる。

テキストに書かれている、書かれていないを問わず、大量の因果関係を持つ、フレーズの対及び名詞の対が獲得できる。特に、その内の一部はテキストに書かれていない新規な仮説を含むことが論理的に可能である。つまり、インターネット４０上の仮想的なコーパス等に存在する大量のテキストから、インターネット４０上に記載がない新規な知識に関する仮説を生成できる。

さらに、以上の実施の形態によれば、テキスト中のフレーズ間の意味的な矛盾を正確に認識できる。この結果、矛盾だけでなく、同義・含意関係の認識の精度も向上する。

これらの効果により、テキストを検索するだけではなく、テキストの内容に基づいて推論を行なったり、互いに矛盾する情報又はそうした情報の間の因果関係をユーザに提供したりできる。その結果、情報の信頼性を検証するための手段、及び、将来生じ得る事態を事前に予測するための手段を提供できる。

最も実用に近いと考えられるのは、任意の言語で書かれた質問に対して、賢く、端的に、的確な回答を与える質問応答システム等に対する本発明の適用である。本発明は、音声認識技術と組合せることにより、コンピュータに対して何か質問を発してその回答を得たりするシステム又はコールセンター等で過去の事例を蓄積したデータベースを維持しているシステムにおける利用に特に適合性が高い。

例えば、上に述べたような実施の形態のシステムによって、非常に広い範囲をカバーする因果関係のデータベースを整備できる。そうしたデータベースがあれば、従来の質問応答技術が苦手としてきた、因果関係に関する質問、つまり「ＷＨＹ型の質問」に対し、適切に回答できるようになる。例えば、「なぜ、超硬工具の価格が上昇しているのか？」といった質問に対して「中国がタングステンを輸出禁止にしているからである」といった回答を与える事は、従来技術では困難であった。しかし上に述べた実施の形態により得られる因果関係データベースを用いると、そうした回答を容易に取得できるようになる。

さらには、上に述べた仮説生成技術によって、インターネット４０上に存在していない情報も仮説として提示できるようになる。例えば、これまでの質問応答システムでは、未知の出来事の帰結又は原因を答える事は不可能であった。しかし、上に述べた実施の形態はそのような技術を可能とする。例えば、上に述べた実施の形態の技術を用いると、超硬工具の値段が実際に上昇する以前に、「仮に超硬工具の価格が上昇するならば原因は何がありえるか？」といった質問が与えられたときに、「中国がタングステンを輸出禁止にすれば、超硬工具の価格が上昇する可能性がある」といった仮説を回答として返す事ができるようになる。こうしたことが可能になれば、質問者がリスクをヘッジする方策を取ることも可能となる。「仮に中国がタングステンを輸出禁止にするとすれば、その原因はなにか？」「超硬工具の価格が上昇すれば、株価が下落する企業はどこか」といった、仮想的で既存テキストに記載されていない状況に関する質問に対しても、人手を介することなくシステムが適切な回答を自動生成できる。さらに、質問を受ける前に、そうした条件とその帰結とを先回りして発見し、提示することも可能になる。すなわち、仮想的な将来シナリオをシステムが列挙できることになる。その結果、ビジネスのみならず、政治、経済、科学技術等も含め、意思決定の際の強力なツールになるものと想定される。そのようなシステムが実現されれば、情報サービス技術としては他にない高度なものであり、ビジネス上の価値も高いと考えられる。

他の例として、ある商品に関して過去の事例と矛盾するようなトラブルに関するクレームが顧客からコールセンターに寄せられるケースを考えることができる。通常、コールセンターでは、キーワードによりデータベースから情報を検索して適切な回答を得ている。しかし、過去の事例と矛盾するようなトラブルの場合、情報を検索しても適切なものは得られない。したがって、従来の手法はこうしたトラブルに対処する上では無力であった。しかし、上記実施の形態による矛盾の自動認識という技術を適用すれば、少なくとも新たなクレームが過去の事例と矛盾する事例であることをシステムが認識し、オペレータにその旨を提示できる。その結果から、例えばオペレータは何ら情報がない場合と比較してはるかに的確に対応できる。例えば、新たなクレームが過去の事例と矛盾していることから、顧客がトラブルを誤認識しているか、又は、このトラブルが未知のトラブルである可能性があること等を顧客に提示できる。その結果、従来と比較してよりスムースな問題解決を行なえる。

なお、上記実施の形態によると、「ため」「ので」のような手がかりとなる表現を利用せずに因果関係の自動認識が行なえる。辞書に相当する情報も自動取得できる。したがってその適用範囲は劇的に広くなる。

さらに、上記実施の形態では、動詞を活性／不活性／中立の３種に分類する。このような分類の仕方は従来考えられていなかった。このうち、不活性な述語に関しては対応する分類が提案されたことはない。矛盾又は因果関係の認識においては、述語（テンプレート）の活性／不活性の組合せが重要なファクターであり、両者がそろって有用となる。したがって、このような活性／不活性という分類、さらには活性／不活性／中立という分類を持たない従来技術は、因果関係の自動認識、矛盾の認識において上記実施の形態のような効果を与えることはできない。

上記実施の形態では、さらに、従来技術が取り扱ってきた「コレステロール」「脳梗塞」の間の因果関係のように、単語間の因果関係が取得できるだけではない。例えば、「コレステロールを摂取する」ことが「脳梗塞に襲われる」ことの原因である、といったような、フレーズ単位の仮説も生成できる。単語間の意味的関係に関しても、上記実施の形態によれば、従来法では取得できないものを取得可能になる。その結果、上記実施の形態は、単語間の意味的関係に関する仮説生成の技術を従来と比較してより強力にするといえる。

さらに、同義・含意関係の認識において、上記実施の形態では、「引き起こす」「防ぐ」等の動詞を異なるラベル（活性／不活性）に分類する事を前もって行なう。そして、異なるラベルに分類された動詞は同義と認識しない、という制約を課す。こうした制約を課すことにより、反義語でも分布類似度が高いために同義・含意として認識されることが防止できる。したがって、上記実施の形態は、同義・含意関係の認識の精度を高めることができる。

［コンピュータによる実現］
上記実施の形態に係るシステムは、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図１５はこのコンピュータシステム９３０の外観を示し、図１６はコンピュータシステム９３０の内部構成を示す。

図１５を参照して、このコンピュータシステム９３０は、メモリポート９５２及びＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）ドライブ９５０を有するコンピュータ９４０と、キーボード９４６と、マウス９４８と、モニタ９４２とを含む。

図１６を参照して、コンピュータ９４０は、メモリポート９５２及びＤＶＤドライブ９５０に加えて、ＣＰＵ（中央処理装置）９５６と、ＣＰＵ９５６、メモリポート９５２及びＤＶＤドライブ９５０に接続されたバス９６６と、ブートアッププログラム等を記憶する読出専用メモリ（ＲＯＭ）９５８と、バス９６６に接続され、プログラム命令、システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ（ＲＡＭ）９６０とを含む。コンピュータシステム９３０はさらに、他端末との通信を可能とするネットワークへの接続を提供するネットワークインターフェイス（Ｉ／Ｆ）９４４を含む。

コンピュータシステム９３０を上記した各実施の形態のシステムの各機能部として機能させるためのコンピュータプログラムは、ＤＶＤドライブ９５０又はメモリポート９５２に装着されるＤＶＤ９６２又はリムーバブルメモリ９６４に記憶され、さらにハードディスク９５４に転送される。又は、プログラムは図示しないネットワークを通じてコンピュータ９４０に送信されハードディスク９５４に記憶されてもよい。プログラムは実行の際にＲＡＭ９６０にロードされる。ＤＶＤ９６２から、リムーバブルメモリ９６４から、又はネットワークを介して、直接にＲＡＭ９６０にプログラムをロードしてもよい。

このプログラムは、コンピュータ９４０を、上記実施の形態に係るシステムの各機能部として機能させるための複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ９４０上で動作するオペレーティングシステム（ＯＳ）若しくはサードパーティのプログラム、又は、コンピュータ９４０にインストールされる各種プログラミングツールキットのモジュールにより提供される。したがって、このプログラムはこの実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット内の適切なプログラムツールを呼出すことにより、上記したシステムとしての機能を実現する命令のみを含んでいればよい。コンピュータシステム９３０の動作は周知である。したがってここでは繰返さない。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。

３０矛盾表現収集システム
３２シードテンプレート記憶装置
３４接続詞記憶部
３６矛盾表現収集装置
３８矛盾表現記憶装置
４０インターネット
６０テンプレートＤＢ構築装置
６２テンプレートＤＢ
６４矛盾表現獲得部
９０テンプレートペア生成部
９２テンプレートペア記憶部
９４名詞ペア収集部
９６名詞ペア記憶部
９８名詞ペア極性判定部
１００テンプレートペア収集部
１０２テンプレートペア記憶部
１０４テンプレート活性マッチ判定部
１０６テンプレートネットワーク構築部
１０８同義・含意関係辞書
１１０テンプレートネットワーク記憶部
１１２テンプレート活性値算出部
１１４高活性度テンプレート抽出部
１１６終了判定部
１１８シードテンプレート更新部
１４０テンプレートネットワーク
６３０，６７０推論システム
６３２，６７２因果関係ＤＢ
６３４因果関係
６７４因果関係群

Claims

述語テンプレートを、所定の文の集合から収集するための述語テンプレート収集装置であって、
述語テンプレートは、名詞と結びついてフレーズを構成するものであり、
かつ述語テンプレートには、活性、不活性、及び中立という分類に従って活性の向き及びその大きさを表す活性値を付与することが可能であり、
活性とは、当該述語テンプレートに結び付けられた名詞の指す対象の機能又は効果を発揮させる方向の出来事を記述することを示し、
不活性とは、当該述語テンプレートに結び付けられた名詞の指す対象の機能又は効果を発揮させない方向の出来事を記述することを示し、
中立とは、活性でも不活性でもない述語テンプレートであることを示し、
述語テンプレートに関する活性及び不活性の区別を極性と呼び、
前記述語テンプレート収集装置は、
順接又は逆接に分類された接続詞を記憶する接続詞記憶部と、
テンプレートネットワークを構築するための起点となるシードテンプレートを記憶するためのシードテンプレート記憶部とを含み、
前記シードテンプレートの各々には、極性と活性値とが付され、
前記述語テンプレート収集装置はさらに、ある関係を充足する名詞ペアを所定のコーパスから収集し、各名詞ペアを構成する名詞同士の関係を正負のいずれかに分類するための名詞ペア収集手段を含み、
名詞ペアを構成する名詞同士の関係の正負は、当該名詞ペアの一方の示す対象が、他方の示す対象の出現を促進するときには正、抑制するときには負として定義され、
前記述語テンプレート収集装置はさらに、
前記名詞ペア収集手段により収集された名詞ペアとそれぞれ共起する述語テンプレートペアを所定のコーパスから収集し、各述語テンプレートペアの活性／不活性が同一か否かを判定するための述語テンプレートペア収集手段と、
前記述語テンプレートペア収集手段により収集された述語テンプレートペアと、各述語テンプレートペアについての活性／不活性が同一か否かの判定結果とを用いて述語テンプレート間を関係付けることにより、各述語テンプレートをノードとし、述語テンプレートペアを構成する述語テンプレートの間の関係をリンクとするテンプレートネットワークを構築するための構築手段と、
前記テンプレートネットワーク内のシードテンプレートに対応するノードに予め付与されている前記活性値をもとにし、前記テンプレートネットワーク内のノード間の関係を用い、各ノードに付与すべき活性値を算出し、各ノードに対応する述語テンプレートに、算出された活性値を付与して出力するための活性値算出手段とを含み、
前記名詞ペア収集手段は、
前記シードテンプレート記憶部に記憶された任意の２つのシードテンプレートの間に前記接続詞記憶部に記憶された接続詞を挿入した形式の述語テンプレートペアと共起する名詞ペアを前記コーパスから収集するための手段と、
前記収集するための手段により収集された名詞ペアの組合せの各々について、各名詞ペアと共起する述語テンプレートペアの極性が一致しているか否かと、当該名詞ペアおよび述語テンプレートにより構成されるフレーズ対を結び付けている接続詞が順接か逆説かに基づいて、当該名詞ペアの組合せを構成する名詞の関係の正負を決定するための正負決定手段とを含む、述語テンプレート収集装置。
前記収集するための手段は、前記シードテンプレート記憶部に記憶された任意の２つのシードテンプレートの間に前記接続詞記憶部に記憶された接続詞を挿入した形式の複数の述語テンプレートペアについて、各述語テンプレートペアと前記コーパス内で所定の頻度以上の頻度で共起する名詞ペアを前記コーパスから収集するための手段を含む、請求項１に記載の述語テンプレート収集装置。
前記名詞ペア収集手段はさらに、前記収集するための手段により収集された名詞ペアの各々について前記決定するための手段により決定された、当該名詞ペアを構成する名詞の関係の正負を、前記名詞ペアの種類毎に集計し、多数決により、名詞ペアの種類ごとに当該名詞ペアを構成する名詞の関係の正負を決定するための手段を含む、請求項２に記載の述語テンプレート収集装置。
さらに、前記活性値算出手段による述語テンプレートの出力が完了したことに応答して、述語テンプレートの活性値を算出する処理の終了条件が成立しているかを判定するための判定手段と、
前記判定手段により前記終了条件が成立していないと判定されたことに応答して、前記活性値算出手段により算出された述語テンプレートの内、活性値の絶対値がしきい値以上の述語テンプレートからなる新たなシードテンプレートを選択し、当該新たに選択されたシードテンプレートにより、前記シードテンプレート記憶部の記憶内容を更新するための更新手段と、
前記更新手段による更新が行われたことに応答して、前記述語テンプレートペア収集手段、前記名詞ペア収集手段、前記述語テンプレートペア収集手段、前記構築手段、及び前記活性値算出手段による処理を再実行させるための手段とを含む、請求項１〜請求項３のいずれかに記載の述語テンプレート収集装置。
前記構築手段は、
前記述語テンプレートペア収集手段により収集された述語テンプレートペアをなす述語テンプレートに対応するノードが前記テンプレートネットワーク内に存在しないときには、当該述語テンプレートに対応するノードを追加するための手段と、
前記述語テンプレートペア収集手段により収集された述語テンプレートペアをなす述語テンプレートの間にリンクを生成するためのリンク手段とを含み、
前記リンク手段は、各リンクにより接続される述語テンプレートの活性が同じか否かにしたがって、各リンクに活性の一致又は不一致を示す属性を付与し、
前記構築手段はさらに、前記リンク手段により生成される各リンクに、他のノードとのリンクの数の関数である重みを付与するための重み付与手段を含み、
前記重み付与手段が付与する重みは、当該リンクの前記属性が前記一致を示す値のときと、前記不一致を示す値のときとで符号が異なる、請求項１〜請求項４のいずれかに記載の述語テンプレート収集装置。
前記活性値算出手段は、前記テンプレートネットワーク内の各リンクの重みと、各ノードに割当てられる活性値との関数であって、以下の式
により定義される関数の値を最適化することにより、前記テンプレートネットワーク内の各ノードに割当てられる活性値を推定するための手段を含み、
ただし、前記シードテンプレートのうち、極性が活性のものにはプラスの極性及び活性値が、不活性のものにはマイナスの極性及び活性値が、それぞれ付与される、請求項５に記載の述語テンプレート収集装置。
請求項１〜請求項６のいずれかに記載された述語テンプレート収集装置と、
前記述語テンプレート収集装置により収集された述語テンプレートを記憶するための述語テンプレート記憶手段と、
前記述語テンプレート記憶手段に記憶された述語テンプレートのうち、特定の活性／不活性の述語テンプレートの組合せと、特定の種類の接続詞とからなる述語テンプレートペアを含むフレーズペアを所定のコーパスから収集するためのフレーズペア収集手段と、
前記フレーズペア収集手段により収集されたフレーズペア内で述語テンプレートと共起している名詞ペアと、当該フレーズペア内の述語テンプレートの極性とが特定の組合せになっているものを抽出することで、所定の関係を表現するフレーズペアを選択するためのフレーズ選択手段とを含む、特定フレーズペア収集装置。
さらに、前記フレーズ選択手段により選択されたフレーズペアの各々について、前記各フレーズペアを構成する述語テンプレートの活性値と、当該フレーズペアに含まれる名詞ペアの、前記コーパス内での共起関係との関数として、前記所定の関係の強さを表すスコアを算出するためのスコア算出手段と、
前記スコア算出手段により算出されたスコアの順番で前記フレーズ選択手段により選択されたフレーズペアを整列させるための手段とを含む、請求項７に記載の特定フレーズペア収集装置。
コンピュータが実行可能なコンピュータプログラムであって、当該コンピュータを、請求項１〜請求項８のいずれかに記載の全ての手段として機能させる、コンピュータプログラム。