JP6403382B2

JP6403382B2 - フレーズペア収集装置、及びそのためのコンピュータプログラム

Info

Publication number: JP6403382B2
Application number: JP2013264598A
Authority: JP
Inventors: 力橋本; 健太郎鳥澤; 大樹佐野; 玉蘭顔; 豊木俵
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2013-12-20
Filing date: 2013-12-20
Publication date: 2018-10-10
Anticipated expiration: 2033-12-20
Also published as: CN106104519B; US10095685B2; US20160321244A1; WO2015093540A1; EP3086237A1; JP2015121896A; EP3086237A4; CN106104519A

Description

この発明は、大量の文書に記載された情報から、それら文書に記載された情報を超える範囲で、あらゆるリスクとチャンスとを考慮した、因果関係の連鎖からなる情報を生成するための技術に関する。

現代社会のように、動きが複雑かつ大規模で、しかもその動きの影響が全世界に及ぶ可能性があるような社会では、いかにして将来を予測していくかが重要である。予測に基づいて準備を進めることにより、「不測の事態」が発生することが避けられる。このような予測は、政治、経済、その他もろもろの日常生活においてバランスのとれた適切な意思決定を下すうえで欠かせない。

しかし、考慮すべき情報が大量でかつ常に変化している現状に鑑みると、個人の限られた知識と想像力とに頼るだけでは適切な予測を得ることはむずかしい。気象の予測のように、限られた範囲のデータで限られた事象を予測することについては実用化されてはいるが、そうした考え方を社会の動きに適用しようとする発想自体、これまでは存在していなかった。

Hiroya Takamura, Takashi Inui, and Manabu Okumura. Extracting Semantic Orientations of Words using Spin Model. In Proceedings of the 43rd Annual Meeting of the ACL, pp. 133-140. 2005.（極性値の自動算出手法）

個人の能力を補強するための有力なツールとしてコンピュータがある。例えば情報を記憶することに関しては個人の能力はコンピュータに遠く及びない。また、高度な自然言語処理技術も開発されている。こうした情報の記憶能力と自然言語処理技術とを駆使した質問応答システムも実現され、自然言語での質問に対して高い精度で正しい回答を提供することが可能になっている。

しかし、このような従来技術は、「○○とは何か？」のような、いわゆるＷｈａｔ型の質問には答えられても、「どうなる」型の質問には答えることができない。したがって、将来を予測することに関する上記したような問題を解決することはむずかしい。この問題を解決する上では、コンピュータの力を生かして、あらゆるリスクとチャンスとを考慮した、将来起こり得る事象を予測できれば、人々の意思決定に役立つものと思われる。本明細書では、このような予測のために、因果関係の連鎖からなる「社会シナリオ」と呼ぶ情報を生成する。従来の質問応答システムでは、このように将来を予測し、人々の意思決定に役立つような情報を提供することはできない。そうした処理を可能にするためには、一般的な自然言語の情報から、社会シナリオを生成するために、因果関係を構成する要素を収集する必要がある。

それ故にこの発明の目的は、バランスのとれた適切な意思決定を人々が下すために有用な社会シナリオを生成するための基礎となる要素を収集するシステムを提供することである。

本発明の第１の局面に係るフレーズペア収集装置は、それぞれ原因とその結果とを表す、自然言語文の第１及び第２のフレーズからなる１又は複数のシードペアを元に、因果関係を表すと推定される２つのフレーズからなるフレーズペアの仮説を収集する。フレーズの各々は、名詞と述語テンプレートとの組合せを含む。フレーズペア収集装置は、シードペアを記憶するためのシードペア記憶手段と、単語間の意味的関係パターンを記憶する意味的関係パターン記憶手段と、意味的関係パターン記憶手段に記憶された意味的関係パターンのいずれかと関係付けられた単語対を記憶する単語対記憶手段と、シードペア記憶手段に記憶されたシードペアの各々について、当該シードペアを構成するフレーズ内の名詞からなる名詞対が、意味的関係パターンのいずれにマッチするかを判定する意味的関係パターンマッチング手段と、単語対記憶手段に記憶された単語対のうち、意味的関係パターンマッチング手段により名詞対とマッチすると判定された意味的関係パターンに関係付けられた単語対の各々を用いてシードペアの当該名詞対を置換することにより新たな仮説を生成する単語対置換手段とを含む。

好ましくは、フレーズペア収集装置はさらに、互いに矛盾する意味を表現する述語テンプレートを記憶する矛盾表現記憶手段と、シードペアの各々について、当該シードペアを構成する２つのフレーズの各々の述語テンプレートを、矛盾表現記憶手段から読み出した、当該述語テンプレートと矛盾する述語テンプレートで置換することにより新たな仮説を生成する述語テンプレート置換手段を含む。

より好ましくは、フレーズペア収集装置は、単語の属するクラスを記憶する単語クラス記憶手段をさらに含む。意味的関係パターンの各々は、第１の単語クラスと第２の単語クラスとの間での関係を示す。意味的関係パターンマッチング手段は、シードペア記憶手段に記憶されたシードペアの各々について、当該シードペアを構成するフレーズ内の名詞からなる名詞対の単語クラスを単語クラス記憶手段から検索する単語クラス検索手段と、単語クラス検索手段により検索された単語クラスの対が、意味的関係パターンのいずれにマッチするかを判定するマッチング手段とを含む。

さらに好ましくは、シードペアを構成するフレーズの各々の述語テンプレートには、予め定義された極性の値が付与されている。極性の値は正負の値のいずれかをとる。フレーズペア収集装置は、単語対置換手段により名詞対が置換されたフレーズペアの仮説を受け、各仮説について、フレーズペアが因果関係を表す程度を示すスコアを、当該フレーズペアの各フレーズに含まれる述語テンプレートの極性と、各フレーズに含まれる名詞の、コーパス内において述語テンプレートペアと共起する頻度との関数として算出し、各フレーズペアに付与するスコア算出手段をさらに含む。

フレーズペア収集装置はさらに、単語対置換手段により生成された新たな仮説に対し、因果関係を表すフレーズペアとして妥当なもののみを残すように仮説をフィルタリングするフィルタリング手段を含んでもよい。

好ましくは、フィルタリング手段は、仮説を構成する２つのフレーズの各々が、複数個の仮説において因果フレーズにも結果フレーズにも出現するものを仮説から除外する手段を含む。

より好ましくは、フィルタリング手段は、仮説を構成する２つのフレーズに含まれる２つの名詞の関連度がしきい値以下であるときに、当該仮説を除外する。

さらに好ましくは、フィルタリング手段は、仮説を構成する２つのフレーズの結果フレーズが、所定コーパス内の文において因果フレーズとともに共起しており、かつ当該因果関係フレーズより先に出現している仮説を除外する手段を含む。

さらに好ましくは、フィルタリング手段は、仮説を構成する２つのフレーズに含まれるいずれかの名詞の、所定コーパスにおける出現頻度がしきい値以上である仮説を除外する手段を含む。

フィルタリング手段は、所定コーパス内で他の修飾句により修飾された形で出現する名詞を含む仮説を除外する手段を含んでもよい。

本発明の第２の局面に係るコンピュータプログラムは、コンピュータを、上記したいずれかのフレーズペア収集装置の全ての手段として機能させる。

本発明の第１の実施の形態に係る社会シナリオ生成システムのブロック図である。図１に示す単純述語テンプレート収集部のより詳細なブロック図である。単純述語テンプレートに関するテンプレートネットワークの構成を模式的に示す図である。テンプレートネットワーク構築部を実現するプログラムの制御構造を示すフローチャートである。テンプレートネットワークの構築において、リンクを追加する処理を実現するプログラムの制御構造を示すフローチャートである。単純述語テンプレートの活性値の算出処理を実現するプログラムの制御構造を示すフローチャートである。図１に示す複雑述語テンプレート収集部の機能的構成を示すブロック図である。図７に示す複雑述語テンプレート候補抽出部をコンピュータにより実現するプログラムの制御構造を示すフローチャートである。図７に示すサ変名詞極性付与部を実現するプログラムの制御構造を示すフローチャートである。図７に示すトラブル名詞極性付与部を実現するプログラムの制御構造を示すフローチャートである。図１に示す因果関係フレーズペア収集部の機能的構成を示すブロック図である。図１１に示す因果関係シードペア収集部をコンピュータにより実現するプログラムの制御構造を示すフローチャートである。図１１に示す因果関係仮説生成部の機能的構成を示すブロック図である。図１１に示す単語対抽出部の機能的構成を示すブロック図である。図１３に示す因果関係仮説生成部４１２をコンピュータにより実現するプログラムの制御構造を示すフローチャートである。図１１に示す因果関係仮説フィルタリング部の機能的構成を示すブロック図である。図１に示す社会シナリオ生成部の機能的構成を示すブロック図である。図１７に示す社会シナリオ候補生成部の機能的構成を示すブロック図である。図１７に示す社会シナリオランキング部の機能的構成を示すブロック図である。本発明の第２の実施の形態における社会シナリオランキング部の機能的構成を示すブロック図である。図２０に示す部分シナリオスコア算出部をコンピュータにより実現するためのプログラムの制御構造を示すフローチャートである。本発明の実施の形態に係る社会シナリオ生成システムを実現するためのコンピュータの外観を示す模式図である。図２２に示すコンピュータのハードウェア構成を説明するブロック図である。

以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。

以下の説明では、最初に本実施の形態で使用される基本概念を示す。さらに、それらを用いてどのようにして因果関係表現を認識できるかを述べる。続いて、認識した因果関係を組合せることによりいかにして社会シナリオを生成するかを示す。

なお、以下の説明は日本語についてのものであるが、日本語以外の言語であっても、その言語の特性を考慮したうえで、以下の説明と同様の考え方で単純述語テンプレート及び複雑述語テンプレートの収集を行なうことができる。

［基本概念］
《述語テンプレート》
述語テンプレートとは、因果関係を構成する文の要素である。本実施の形態では、述語テンプレートは、単純述語テンプレートと複雑述語テンプレートとに分類される。以下の説明では、単純述語テンプレートと複雑述語テンプレートとを総称して述語テンプレートと呼ぶ。述語テンプレートには後述するように極性が付与される。

《単純述語テンプレート》
日本語において、助詞と述語との組合せ（例:＜を、食べる＞）のように１つの助詞と１つの述語とを結び付けたものを「単純述語テンプレート」と呼ぶ。例えば「が進行する。」、「を防ぐ。」、「が顕現する。」等である。この場合、文中では、単純述語テンプレートを構成する助詞の直前には、述語の主語、目的語等が配置される。

《複雑述語テンプレート》
日本語の場合、助詞「の」と、１つの名詞と、単純述語テンプレートとを結び付けたものを「複雑述語テンプレート」と呼ぶ。本実施の形態では、名詞はいわゆるサ変名詞と、後述するような「トラブル名詞」と、数量名詞とからなる。例えば「の減少が進行する。」、「の抑制を防ぐ。」、「の事故を防ぐ。」、「の欠点が顕現する。」、「の台数を増やす。」等である。

《フレーズ》
日本語の場合、フレーズとは、名詞＋述語テンプレートの形式を持つ文字列のことを言う。フレーズはまとまりのある１つの事柄を言い表していると考えられる。

《因果関係》
因果関係とは、本実施の形態では、原因となる事柄を述べたフレーズ（原因フレーズ）とその結果となる事柄を述べたフレーズ（結果フレーズ）との組からなる。

《極性》
以下では、述語テンプレートの極性について説明する。次に、単純述語テンプレート及び複雑述語テンプレートの極性の自動獲得手法について述べる。最後に、分類された述語テンプレートのアプリケーションについて述べる。

（１）述語テンプレートの極性
本実施の形態では、全体のシステムの入力となるテキストに現れる述語テンプレートを以下のテーブル１に示す３種に分類する。

本実施の形態では、以上の述語テンプレートの分類はその述語テンプレートを含むテキストから自動的に行なわれる。その際、活性述語テンプレートには正の活性値を、不活性述語テンプレートには負の活性値を、それぞれ割当てる。活性値の具体的な計算法は単純述語テンプレートと複雑述語テンプレートとで異なるが、それらについては後述する。中立動詞とは、計算の結果得られた活性値の絶対値があるしきい値以下のもののことをいう。本明細書では、上述の「活性」、「不活性」及び「中立」に関する分類と、各述語テンプレートに付された活性値との両者を総称して述語テンプレートの「極性」と呼ぶ。

否定の助動詞「ない」等が述語に続く場合には、述語と否定の助動詞を併せたものを１つの述語と考え、その活性値として、元の述語の活性値の正負を逆転させたものを用いる。

（２）単純述語テンプレートへの極性の割当
単純述語テンプレートへの極性の割当は自動的に計算される。極性割当の手がかりとして以下のような言語学的性質、制約を考える。まず、名詞の対を考え、対を成す名詞の間の因果関係という概念を導入する。

因果関係を持つ名詞の対には以下のテーブル２に示す２種類の関係がある

これら名詞の対と、単純述語テンプレートの活性値を掛け合わせた値（積）の極性（符号）との間には以下のような関係がある。すなわち、（１）順接の接続詞、接続助詞、又はその他の接続表現（以下、単に「接続詞等」と呼ぶ。）(〜ので、〜ため、〜て、等)で結ばれた２つの単純述語テンプレートについては、その活性値の積の極性は、正の因果関係を持つ名詞句が２つの単純述語テンプレートと係り受けを持つ場合には、正になる。（２）逆に、順接の接続詞等で結ばれた２つの単純述語テンプレートと、負の因果関係を持つ名詞句が係り受けを持っている場合には積の極性は負になる。（３）逆接の接続詞等(〜が、〜にもかかわらず等)で２つの動詞が結ばれている場合には積の極性は（１）（２）と逆になる。

これらの関係について例を挙げると以下のテーブル３のとおり。なお、名詞の対＜地震、津波＞は正の因果関係を持ち、＜抗がん剤、ガン＞は負の因果関係を持つ。

なお、同義/含意の関係を持つ単純述語テンプレートの組は同じ極性を持つ。例えば「(ワクチン)を処方する」と「(ワクチン)を注射する」とは両方とも極性は正であり、「(地震)が発生する」と「(地震)が起きる」についても極性は両方とも正である。ただし、活性値が同一であるとは限らない。

具体的な活性値の計算においては、以上に例示したようなテキスト、つまり、各々名詞と結び付き、かつ互いに順接の接続詞等で連結された２つの単純述語テンプレートからなる表現をインターネットなどのコーパスから大量に収集する。それら単純述語テンプレート間、及び同義／含意関係を持つ単純述語テンプレートの対の間でリンクをはることにより、単純述語テンプレートのネットワークを作る。リンクには上で述べたような、単純述語テンプレートの極性が同一かどうかの情報を属性として付与する。このネットワーク上の少数の単純述語テンプレートには、あらかじめ、人手で＋１又は−１の活性値を付与する。そのネットワーク上で、後述するように量子力学での電子スピンのエネルギーに類似したエネルギーを定義する事が可能である。そのエネルギーを最適化（ここでは最小化）する計算を行ない、一種の制約解消をすることで、単純述語テンプレートの極性及び名詞ペアの因果関係の極性をブートストラップ的かつ大局的に決定及び計算できる。この活性値の算出手法については非特許文献１を参照されたい。

なお、後述の活性値の割当てアルゴリズムはあくまで一例であり、上記言語学的制約を考慮したエネルギー関数に基づいて具体的な活性値を求める手法は他にも存在する可能性がある。

（３）複雑述語テンプレートの極性の割当
複雑述語テンプレートの出現頻度は単純述語テンプレートに比べて低い。そのため、従来のように統計的情報のみに基づいて複雑述語テンプレートの極性を判定しようとすると、高い信頼性を得ることはかなり難しいことが予測される。しかし、以下に述べる実施の形態では以下のようにして複雑述語テンプレートの極性を自動的に割当てる。

すなわち、以下に述べる実施の形態では、活性を＋１、不活性を−１と表現し、複雑述語テンプレートを構成する名詞及び単純述語の活性の積をその複雑述語テンプレートの極性とみなす。具体的に、「の減少が進行する」という複雑述語テンプレートの極性は以下のようにして決定する。「減少」という名詞の極性は不活性（−１）、「が進行する」という単純述語テンプレートの極性は活性（＋１）、したがって「の減少が進行する」という複雑述語テンプレートの極性は−１×（＋１）＝−１となる。

ただし、全ての名詞について極性を示す情報を予め準備することは難しい。そこで、本実施の形態では、サ変名詞とトラブル名詞との場合には、以下のようにして各名詞について予め極性を示す情報を準備しなくても判定できるようにした。もっとも、これらの極性の判定には以下に述べるように注意が必要である。

《サ変名詞》
サ変名詞の極性については基本的には以下のようにして単純述語テンプレートから判定する。すなわち、サ変名詞については、基本的には、そのサ変名詞に対応する単純述語テンプレートの極性を付与する。サ変名詞に対応する単純述語テンプレートとは、サ変名詞の直前に存在する助詞が「ハ、ヲ、ガ、ニ、デ」となっている場合に、その助詞＋サ変名詞の形で始まるものをいう。例えば「減少」については、直前の助詞が「が」であれば対応する単純述語テンプレートは「が減少する」（不活性）、「を」であれば「を減少する」（不活性）となり、いずれの場合も不活性である。したがってこれらの場合はいずれも「減少」の極性は不活性となる。一方、「抑制」の場合にはやや複雑である。例えば複雑テンプレート中で「抑制」の直前の助詞が「が」であれば、対応する単純述語テンプレートは「が抑制する」（活性）となって「抑制」の極性は活性となる。しかし、直前の助詞が「を」であれば、対応する単純述語テンプレートは「を抑制する」（不活性）となって、「抑制」の極性は不活性となる。したがって、複雑述語内のサ変名詞については、単純述語テンプレートとしてどのような助詞を伴うものを採用すべきかを文脈により決定する必要がある。これを決定するためには、複雑述語テンプレートが使用されている文脈の情報が必要である。複雑述語テンプレートの極性は複雑述語テンプレートだけでは決定できない。

複雑述語テンプレートとは「名詞＋『の』＋{サ変名詞｜トラブル名詞｜数量名詞}＋単純述語テンプレート」という形式である。これを利用して、以下に述べる実施の形態では、以下のようにしてサ変名詞の極性を決定できるようにする。まず、サ変名詞の直前の助詞（「の」など）の直前に存在する名詞が、サ変名詞を動詞化したもの（サ変動詞）と格助詞を伴って共起する頻度を各助詞についてコーパス上で調べる。この結果、特定の名詞と特定のサ変動詞との組合せと最も高い頻度で共起する格助詞が何かを知ることができる。また、その格助詞とサ変動詞との組合せは単純述語テンプレートであるから、その極性も簡単に判定できる。複雑述語テンプレートの極性としては、その極性を用いればよい。ただし、どの助詞が特定の名詞及び特定のサ変動詞と最もよく共起するかは、名詞及びサ変名詞が特定されないと決定できない。そこで、本実施の形態では、文脈依存のサ変名詞の複雑述語テンプレートについて、その極性を複雑述語テンプレートの抽出時に特定することはしない。実際のアプリケーションで、複雑述語テンプレートが出現する文脈が分かった時点で、サ変名詞の直前に現れる名詞と、サ変名詞から得られるサ変動詞との組合せにより、その間を結ぶ格助詞を決定する。その格助詞とサ変動詞とを先頭に持つ単純述語テンプレートを調べれば、その極性から元のサ変名詞の極性を判定できる。

本実施の形態では、サ変名詞に対応する単純述語テンプレートが文脈依存の場合に備え、名詞と、サ変名詞との組合せごとに、両者を結ぶ格助詞としてコーパス上で最も頻度が高かったものを予め調べる。そして、単純述語テンプレートの中で、その格助詞を先頭に持ち、サ変名詞から得られるサ変動詞を持つ単純述語テンプレートを探し、その極性をサ変名詞の極性とする。この極性を名詞とサ変動詞との組合せごとに辞書に保持する。

《トラブル名詞》
トラブル名詞の場合には、その名詞の前にノ格でとる名詞がそのトラブルの被害者（物）と解釈できれば不活性、それ以外の場合には活性と判定する。例えば以下のようなものがある。以下の例では、「事故」及び「汚れ」がトラブル名詞である。

−「（列車の）事故」は不活性
−「（台所の）汚れ」は不活性
−「（排油の）汚れ」は活性
こうした判定方法を採用する場合、トラブル名詞の極性を判定するためには、その直前のノ格の名詞がトラブル名詞とどのような関係にあるかを判定する必要がある。以下に述べる実施の形態では、この極性を判定するために、トラブル名詞と、そのトラブル名詞の前にノ格を伴って共起する名詞との組合せごとに、極性を判定するためのパターン辞書を準備する。すなわち、トラブル名詞と、その直前の「ノ」格の名詞と、それらが共起するパターンとの組合せごとに、トラブル名詞の極性を予め定める。そして、ノ格で現れる名詞とトラブル名詞との具体的な組合せがどのようなパターンを伴ってコーパス内で実際に共起しているかをチェックすることで、トラブル名詞の極性を決定する。

例えば「（トラブル名詞Ａ）で（名詞ａ）が大破する」（不活性）、「（名詞ｂ）が（トラブル名詞Ｂ）で動かない」（不活性）等のパターンで、名詞「列車」とトラブル名詞「事故」が共起しているならば、「（列車の）事故」というときの「事故」は不活性であると判定できる。逆に、ある名詞とトラブル名詞とが共起するパターンが活性パターンであれば、その名詞＋「の」＋トラブル名詞の形でのトラブル名詞の極性は活性となる。

《数量名詞》
数量名詞については、全て活性とみなしてよい。

（４）可能なアプリケーション
こうした分類極性を使う事で以下のようなアプリケーションが可能となる。

（Ａ）フレーズ間の因果関係の自動認識手法
活性値の積が正で、活性値の絶対値が大きい述語テンプレートの対が正の因果関係を持つ名詞と共起し、順接の接続詞等で結ばれた場合には因果関係を表している可能性が高い。活性値の積が負で、活性値の絶対値が大きい述語テンプレートの対が負の因果関係を持つ名詞と共起し、順接の接続詞等で結ばれた場合にも因果関係を表している可能性が高い。この性質を利用して、テーブル４に示すように、因果関係を表す２つの述語テンプレート及び正負の因果関係を持つ名詞ペアを含む表現をテキスト中で自動的に認識し、取得できる。

注意すべきこととして、例えば上に挙げた接続助詞「…て」は、因果関係を表すとは限らない。「…て」が因果関係以外を表す表現は無数に存在する。例えば、「風呂に入って、食事をする」の場合、風呂と食事との間には、因果関係は通常認められない。本実施の形態により、このような、因果関係ではないフレーズペアをうまく除外し、因果関係のみを精度高く取得できる。なお、因果関係を表す可能性がある日本語の接続詞等として、「…て」のほかに、「したがって」、「ゆえに」、「…ので」、「…ば」、「…と」、「…で」、「…から」、「…ため」、「…ために」等がある。

このような順接の接続詞等を用いる表現の集合の中から、上記制約を考慮することで、フレーズ間の因果関係を高精度に獲得することが可能となる。因果関係が得られると、例えば、「地震が起きた」という情報から、「津波に襲われる可能性がある」という予測ができる。こうして取得された因果関係は、フレーズ間の意味的関係の自動獲得という非常に重要な技術にとって大きなファクターとなる。

（Ｂ）フレーズ間の因果関係を組合せた仮説生成
上記フレーズ間の因果関係の自動認識を併せ用いる事で、元となるテキストに「陽」に記載されていない因果関係を自動取得する事が可能となる。その手法の概略は以下のとおりである。

まず、基となるテキストから、パターンによる名詞間の意味的関係の獲得（これには既存技術を利用できる）によって、例えば材料関係を自動的に獲得できる。すなわち、製品Ｂと材料Ａとの間の関係が「ＡでＢを作る」というようなパターンによって自動獲得できる。この自動獲得の結果、製品「超硬工具」の材料が「タングステン」であるという情報が取得出来たとする。次いで、この材料関係という意味的関係を持つことが分かった名詞の対、すなわち「超硬工具」と「タングステン」とからなる名詞の対とそれぞれ頻繁に共起する述語テンプレートで、互いの活性値の積が正であり、かつその活性値の絶対値が大きいものを選ぶ。選ばれた述語テンプレートを、それぞれ対となる名詞と並べる。すると、例えば、「タングステンを輸入して(活性値正)、超硬工具を製造する(活性値正)」というような、述語（動詞）と名詞とからなる動詞句の間の（広い意味での）因果関係が獲得できる。ここでの因果関係とは、「タングステンを輸入する」のは「超硬工具を製造する」ためである、というものである。

このようにして獲得された因果関係自体が、テキスト中に「陽」に書かれていない場合もある。そのような場合には、上記した方法で因果関係に関する仮説が生成されたことになる。なお、この際、「輸入する」「製造する」といった動詞単体がよく一文内で共に出現する等の制約を用いてもよい。

もっとも、ＷＥＢ上の文書を大量に収集したとしても、そこに世の中の全ての因果関係が書かれている可能性はあり得ない。個人の限られた知識及び想像力を補い、あらゆるリスクとチャンスとを考慮した、バランスのとれた適切な意思決定を人々が下すことを支援するためには、因果関係を網羅的に収集することが必要である。そこで、以下に述べる実施の形態では、ＷＥＢに明示的には記載されていないような因果関係の仮説を大量に生成し、それらをフィルタリングすることで、世の中の全ての因果関係に対するカバー率と精度とを向上させる。

具体的には、以下の実施の形態では次に述べるような４つの手法を用いて因果関係の仮説を生成する。

（１）意味的関係に基づく因果関係仮説フレーズペア生成
既に述べたとおり、名詞間の意味的関係を取得できる。この意味的関係を用いて、取得済の因果関係から多数の因果関係仮説を生成できる。

具体的には、ある因果関係の原因フレーズに含まれる名詞と、結果フレーズに含まれる名詞との間に、ある意味的関係が存在するものとする。すると、同じ意味的関係を持つ別の名詞ペアについても、その因果関係が成立する可能性が高い。したがって、基になった因果関係の原因フレーズの名詞と、結果フレーズの名詞とを、同じ意味的関係を持つ名詞ペアで置換することにより新たな因果関係仮説を生成できる。

意味的関係としては、例えば以下のようなものがある。

−材料関係（例：＜ＡでＢを生産する＞、（トウモロコシ、バイオ燃料）等）
−必要関係（例：＜ＡはＢに必須だ＞、（日光、光合成）等）
−使用関係（例：＜ＡをＢに使う＞、（ｉＰＳ細胞、再生医療）、等）
−予防関係（例：＜ＡでＢを防ぐ＞、（ワクチン、インフルエンザ）、等）
−因果関係（例：＜ＡがＢを引き起こす＞、（糖尿病、脳こうそく）、等）
このような意味的関係については、後述するように自動的に取得できる。

（２）論理的関係（裏）による因果関係仮説フレーズペア生成
ある因果関係が妥当である場合、その因果関係の裏も妥当な因果関係である可能性が高い。例えば「ストレスが増加する（原因）」→「不眠が続く（結果）」という因果関係が妥当である場合、その意味的な裏の因果関係、すなわち「ストレスが減少する（原因）」→「不眠が改善される」も妥当である可能性が高い。このような裏の表現を得るために、予め互いに矛盾する表現のデータベースを作成しておいてもよい。矛盾表現は、インターネットから因果関係と同様の手順で収集できる。

以上のような方法で大量の因果関係及びその仮説を取得し、データベースにしておくことによって、実際に新たな情報が来た際に、その後の可能な状況を推論することが可能となる。例えば、「タングステンが輸入禁止されたため、超硬工具を販売中止される」という因果関係の仮説がデータベース化されていたとする。そこに、「タングステンが輸入禁止」というニュース記事が出現したとする。すると、上記したデータベースを検索することにより、「タングステンが輸入禁止された」ことの帰結として、「超硬工具が販売中止される」可能性があるという推論を行なえる。すなわち、その分野に関する詳しい知識を持たない人間にとっては未知の仮説が自動的に生成できる。

以上のような仮説生成は、当初の「超硬工具をタングステンで作る」といった単純で頻出するパターンで記載された情報のみから始まるものである。一方で、超硬工具ともタングステンとも関係を持たないテキストから述語テンプレートの活性／不活性に関する情報を抽出する。これらを組合せることにより、因果関係の仮説が生成される。すなわち、入力されるテキスト中に、超硬工具及びタングステンに関する言及が「超硬工具をタングステンで作る」という表現のみしかなかったとしても、上に述べたような仮説の生成が可能になる。その結果、非常に乏しい情報量から、「超硬工具が製造禁止になる可能性がある」という非常に高度な仮説を得ることができる。したがってこの技術は、広い適用範囲があるとともに、情報の高度な活用のためのコア技術となる。

（Ｃ）同義、含意関係を持つ表現の自動獲得の精度向上
従来の同義、含意関係の自動獲得技術では、注目している表現の周辺に出現する語の出現確率の分布の類似により、同義、含意を認識している。しかしこの手法によると、往々にして、ある単語Ａに対する反義の単語Ｂが、単語Ａと同義又は含意という関係を持つと誤認識されるケースがあった。これは、反義語の出現するコンテキストが類似することが多いことに起因する。これに対して本実施の形態によれば、例えば、「を引き起こす」の活性値が正、「を防ぐ」の活性値が負であることを自動的に計算できる。これらの情報を用いると、従来技術を用いることで抽出された同義表現の候補の中で、述語テンプレートの極性が異なっているか否かにより同義か否かを見分けることができる。この結果、上記した技術を用いて、単語の同義及び含意の自動獲得の精度が向上する。

（Ｄ）文をまたがった因果関係の自動獲得
上記した（Ａ）及び（Ｂ）の技術によって多数の因果関係を取得できる。それら多数の因果関係をデータベース化すると、それら因果関係の表現中に頻出する述語テンプレートの対が獲得できる。例えば、「が起きた」と「に襲われた」という述語テンプレートの対が、データベース中の因果関係に多数出現するものとする。そうした述語テンプレートは、テキスト中で文をまたがって（別の文の中で）出現した場合でも、互いの間の文数、単語数又は文字数等、「距離」が近い場合には因果関係を表す可能性が高い。例えば、「昨日、地震が起きた。津波に襲われたとの報告が寄せられている。」といったように、「地震が起きた」という表現と「津波に襲われた」という表現とが２文に分かれて出現した場合を考える。この場合でも、「地震が起きた」と「津波に襲われた」との２つのフレーズで記述される出来事の間には因果関係がある。また、そこに出現している名詞の対、すなわち「地震」と「津波」の間にも因果関係がある。こうした性質を利用し、複数文にまたがって記載されている因果関係を、フレーズ間及び単語間の双方について、自動的に取得できる。

以下、上記した考え方に基づく本発明の実施の形態のシステムの構成及び動作について説明する。以下に説明する実施の形態の内、第１の実施の形態は、上記したフレーズ対の抽出技術及び仮説の生成技術を用いて、因果関係フレーズ対を収集し、さらにそれらを連鎖させることで社会シナリオを生成する技術に関する。第２の実施の形態は、第１の実施の形態の変形例であり、社会シナリオ候補のスコアリング技術に関する。

＜第１の実施の形態＞
［構成］
〈全体構成〉
図１を参照して、この発明の第１の実施の形態に係る社会シナリオ生成システム３０は、前述した述語テンプレートのうち、テンプレートネットワーク構築の際の核となる単純述語テンプレート（これを「シードテンプレート」と呼ぶ）を記憶するためのシードテンプレートＤＢ３２と、述語テンプレートの間を連結する、順接及び逆接の接続詞等を記憶する接続詞ＤＢ３４と、シードテンプレートＤＢ３２、接続詞ＤＢ３４、及びインターネット４０から収集した文書のコーパスであるＷＥＢアーカイブ４４から、接続詞ＤＢ３４に記憶された接続詞等により結び付けられた２つのフレーズからなる原因と結果との関係にある因果関係フレーズ対を大量に獲得し、さらに因果関係フレーズ対を様々な知識に基づいて拡張し連鎖させて社会シナリオを生成するための社会シナリオＤＢ構築装置３６と、社会シナリオＤＢ構築装置３６により生成された社会シナリオを記憶するための社会シナリオＤＢ３８と、社会シナリオＤＢ３８に記憶された社会シナリオを、外部からの要求にしたがって加工して出力する社会シナリオ出力部４８とを含む。

なお、この実施の形態に係る社会シナリオ生成システム３０は、ＷＥＢアーカイブ４４に記憶されたＷＥＢ上の文書を使用して社会シナリオを生成する。ＷＥＢアーカイブ４４は、インターネット４０からＷＥＢクローラ４２により収集されたＷＥＢ文書からなる。

〈社会シナリオＤＢ構築装置３６〉
図１を参照して、社会シナリオＤＢ構築装置３６は、シードテンプレートＤＢ３２、接続詞ＤＢ３４及びＷＥＢアーカイブ４４に接続され、ＷＥＢアーカイブ４４から大量のフレーズ対を収集し、それらの中から大量の単純述語テンプレートを取出して単純述語テンプレートＤＢ６２を構築するための単純述語テンプレート収集部６０と、単純述語テンプレート収集部６０により構築された単純述語テンプレートＤＢ６２を用い、ＷＥＢアーカイブ４４から複雑述語テンプレートを獲得するための複雑述語テンプレート収集部６４とを含む。なお、シードテンプレートＤＢ３２に記憶された単純述語テンプレートには、それらテンプレートの活性・不活性にしたがって予め正又は負の活性値が与えられている。以下に述べる処理の最初には、これらの値はそれぞれ＋１及び−１である。

社会シナリオＤＢ構築装置３６はさらに、複雑述語テンプレート収集部６４により収集された複雑述語テンプレートを記憶する複雑述語テンプレートＤＢ６６と、複雑述語テンプレートＤＢ６６に記憶された複雑述語テンプレート及び単語クラスＤＢ４６に記憶された各単語に関するクラス情報とを用い、ＷＥＢアーカイブ４４から互いに原因及び結果の関係にある２つのフレーズペアを収集する因果関係フレーズペア収集部６８と、因果関係フレーズペア収集部６８により収集された因果関係フレーズペアを記憶する因果関係フレーズペアＤＢ７０と、因果関係フレーズペアＤＢ７０に記憶された因果関係フレーズペアと、ＷＥＢアーカイブ４４に記憶された文書と、単語クラスＤＢ４６とを参照して因果関係が連鎖した社会シナリオを多数生成する社会シナリオ生成部７２とを含む。

なお、単語のクラス情報は、単語が属するクラス（単語クラス）を表す情報であり、通常は、単語と、その単語が属するクラスを表すクラス識別子との組である。単語クラスは、本実施の形態では意味的に類似した単語の集合のこと（意味クラス）をいう。単語クラスを自動的に取得する手法として、単語が、同一の動詞と共起する頻度を用い、共起頻度（又は共起割合）がしきい値以上の単語を同一クラスとする手法がある。単語が同一の動詞及び助詞の組合せと共起する頻度を用いるものでもよい。

〈単純述語テンプレート収集部６０〉
図２を参照して、単純述語テンプレート収集部６０は、シードテンプレートＤＢ３２と接続詞ＤＢ３４とに接続され、シードテンプレートＤＢ３２に記憶された全ての単純述語テンプレートと、接続詞ＤＢ３４に記憶された全ての接続詞等とを用い、２つの単純述語テンプレートが接続詞等で結び付けられた組合せの全てを生成する初期テンプレートペア生成部９０と、初期テンプレートペア生成部９０により生成された単純述語テンプレートのペアを記憶するための初期テンプレートペアＤＢ９２とを含む。初期テンプレートペア生成部９０により生成される単純述語テンプレートのペアの例を以下のテーブル５に示す。

単純述語テンプレート収集部６０はさらに、初期テンプレートペアＤＢ９２に記憶された単純述語テンプレートのペアの各々について、そのペアと共起する名詞ペアをＷＥＢアーカイブ４４から収集するための名詞ペア収集部９４と、名詞ペア収集部９４により収集された名詞ペアを記憶するための名詞ペアＤＢ９６と、名詞ペアＤＢ９６に接続され、名詞ペアＤＢ９６に記憶された名詞ペアの各々に含まれる名詞の間の関係を、それら名詞と共起している単純述語テンプレートの極性、及び接続詞ＤＢ３４に記憶されている接続詞等の種別に基づいて判定し、各名詞ペアにその関係を示すタグ（関係タグ）を付す処理を行なうための名詞ペア極性判定部９８とを含む。

ここでは、名詞ペア極性判定部９８は、以下のテーブル６に示す方法にしたがって名詞ペアを構成する名詞の間の関係を判定する。

すなわち、２つの単純述語テンプレートと共起している名詞ペアの関係は、次のようにして判定できる。

（１）２つの単純述語テンプレートの極性が同じで、これらが順接の接続詞等で接続されていると、これらと共起している名詞ペアの関係は正
（２）２つの単純述語テンプレートの極性が同じで、これらが逆接の接続詞等で接続されていると、これらと共起している名詞ペアの関係は負
（３）２つの単純述語テンプレートの極性が反対で、これらが順接の接続詞等で接続されていると、これらと共起している名詞ペアの間の負
（４）２つの単純述語テンプレートの極性が反対で、これらが逆接の接続詞等で接続されていると、これらと共起している名詞ペアの間の正
単純述語テンプレート収集部６０はさらに、名詞ペアＤＢ９６に接続され、名詞ペア極性判定部９８により関係タグが付された名詞ペアの各々について、それらと共起する単純述語テンプレートペアをインターネット４０から収集するためのテンプレートペア収集部１００と、テンプレートペア収集部１００が収集した単純述語テンプレートペアを、それらと共起した名詞ペアと関係付けて記憶するためのテンプレートペアＤＢ１０２と、テンプレートペアＤＢ１０２に記憶された単純述語テンプレートペアの各々について、その単純述語テンプレートペアを構成する単純述語テンプレートの活性／不活性が同じか否か（マッチするか否か）を、その単純述語テンプレートペアと共起する名詞ペアの関係（正／負）と、単純述語テンプレートを連結している接続詞等が順接か逆接かに基づいて判定し、各単純述語テンプレートペアにその結果をタグとして付与するためのテンプレート活性マッチ判定部１０４とを含む。

単純述語テンプレートペアの活性／不活性が同じか否かは以下のテーブル７に例を示す方法により判定できる。なお、テーブル６に示すように、名詞ペア＜地震、津波＞の関係は正、名詞ペア＜唾液分泌、口渇＞の関係は負、名詞ペア＜アセトアルデヒド、肝障害＞の関係は正である。

すなわち、以下のような条件で単純述語テンプレートペアの活性／不活性が同じか反対かを判定できる。

（１）関係が正である名詞ペアと共起し、順接の接続詞等により接続される単純述語テンプレートペアの活性は同じ
（２）関係が正である名詞ペアと共起し、逆接の接続詞等により接続される単純述語テンプレートペアの活性は反対
（３）関係が負である名詞ペアと共起し、順接の接続詞等により接続される単純述語テンプレートペアの活性は反対
（４）関係が負である名詞ペアと共起し、逆接の接続詞等により接続される単純述語テンプレートペアの活性は同じ
単純述語テンプレート収集部６０はさらに、テンプレートペアＤＢ１０２に記憶された単純述語テンプレートペアとそのマッチ判定結果とに基づいて、単純述語テンプレート間にネットワークを構築するためのテンプレートネットワーク構築部１０６と、テンプレートネットワーク構築部１０６が、ネットワークの構築時に単純述語テンプレート間のリンクを追加するために使用する同義・含意関係辞書１０８とを含む。このネットワークを本明細書では「テンプレートネットワーク」と呼ぶ。

図３を参照して、例えばテンプレートネットワーク１４０は、各々が１つの単純述語テンプレートに対応する複数個のノードと、それらノード間に定義されるリンクとを含む。リンクは、テーブル６により示されるマッチ判定が行なわれた単純述語テンプレートに対応するノード間に張られる。各リンクには、その両端のノードの単純述語テンプレート間に対するマッチ判定の結果（テーブル６）に応じ、同一極性又は反対極性という属性が割当てられる。図３において、同一極性が割当てられたリンクは実線で示し、反対極性が割当てられたリンクは点線で示してある。後述するように、このリンクを用いて各単純述語テンプレートの活性値が算出される。活性値の算出のため、テンプレートネットワーク１４０のノードのうち、シードテンプレートＤＢ３２に記憶されたシードテンプレート（例えば図３の「を引き起こす」、「を発生させる」、「を抑制する」等のノード）については、予め＋１又は−１の値が手作業により与えられている。これらの値と、ノード間のリンク及びそのリンクの属性とを用いて、各ノード（単純述語テンプレート）の活性値が計算される。計算方法の具体的内容については後述する。

再び図２を参照して、単純述語テンプレート収集部６０はさらに、テンプレートネットワーク構築部１０６に接続され、テンプレートネットワーク構築部１０６により構築されたテンプレートネットワーク１４０を記憶するためのテンプレートネットワークＤＢ１１０と、テンプレートネットワークＤＢ１１０に記憶されたテンプレートネットワーク１４０の各ノードについて、シードテンプレートに予め付されていた＋１又は−１の活性値を基にして、各ノード（単純述語テンプレート）の活性値を算出し、各ノード（単純述語テンプレート）にそれら活性値を付すためのテンプレート活性値算出部１１２と、テンプレートネットワークＤＢ１１０に記憶されたテンプレートネットワーク１４０の各ノード（単純述語テンプレート）のうち、テンプレート活性値算出部１１２により算出された活性値の絶対値が大きなもののみを抽出し、抽出した単純述語テンプレートにより単純述語テンプレートＤＢ６２を構築するための高活性度テンプレート抽出部１１４と、テンプレートＤＢ構築のために予め決められた終了条件が成立したか否かを判定するための終了判定部１１６と、終了判定部１１６により終了条件が成立していないと判定されたことに応答して、単純述語テンプレートＤＢ６２に記憶された単純述語テンプレートを新たなシードテンプレートとしてシードテンプレートＤＢ３２を更新し、再度、単純述語テンプレート収集部６０によるテンプレートＤＢ構築の処理を実行させるためのシードテンプレート更新部１１８とを含む。終了判定部１１６により終了条件が成立したと判定されたときには、単純述語テンプレート収集部６０の動作は終了し、複雑述語テンプレート収集部６４が起動する。

後述するように、社会シナリオ生成システム３０の各部は、コンピュータハードウェアと、当該コンピュータハードウェアにより実行されるコンピュータプログラムとにより実現可能である。

初期テンプレートペア生成部９０が生成する単純述語テンプレートペアの典型例は、「（名詞１）を引き起こす」「ので」「（名詞２）を発生させる」のようなものである。

名詞ペア収集部９４は、以下のような処理を行なう。上記した単純述語テンプレートペア＋接続詞等の組合せと一文中で共起する名詞ペアを考えることができる。そのような名詞ペアは、以下に例示するように互いに正の関係にあるものと互いに負の関係にあるものとに分けられる。名詞ペアの正／負は、テーブル８に示すように、その名詞ペアと共起する単純述語テンプレートペアの活性／不活性と接続詞等との組合せによって決まる。すなわち、ある名詞ペアと共起するテンプレートペアが順接の接続詞等で接続されており、かつそれらのテンプレートペアの極性が一致していればその名詞ペアは正の関係にあり、テンプレートペアの極性が反対であればその名詞ペアは負の関係にある。また、ある名詞ペアと共起するテンプレートペアが逆接の接続詞等で接続されており、かつそれらのテンプレートペアの極性が一致していればその名詞ペアは負の関係にあり、テンプレートペアの極性が反対であればその名詞ペアは正の関係にある。

テンプレートペア収集部１００は以下のような処理を行なう。上記名詞ペア極性判定部９８により正の関係としてのみＷＥＢアーカイブ４４上に出現していると判定された名詞ペアを考える。テンプレートペア収集部１００は、それらのうち、出現頻度が所定回数以上の名詞ペアだけを正の関係名詞ペアとして残す。同様に、負の関係としてのみＷＥＢアーカイブ４４上に出現している名詞ペアについても、出現回数が所定回数以上の名詞ペアだけを負の関係名詞ペアとして残す。ここでのしきい値としての所定回数は、正の関係名詞ペアを選択するときと負の関係名詞ペアを選択するときとで異なっていても一致していてもよい。

テンプレート活性マッチ判定部１０４は、残された正／負の関係の名詞ペア＋接続詞等と一文中で共起する単純述語テンプレートペアを、以下のテーブル９に基づく判定方法にしたがい、単純述語テンプレートの活性／不活性が同じもの（一致）と反対のもの（反対）とに分類する。このとき、ある単純述語テンプレートペアについて、ＷＥＢアーカイブ４４中で単純述語テンプレートの活性が一致して出現したり、反対の活性で出現していたりするものがある。これらについては、一致しているものと反対のものとの出現回数を比較し、多数決で決定する。

図４を参照して、図２に示すテンプレートネットワーク構築部１０６を実現するためのプログラムは、テンプレートペアＤＢ１０２に単純述語テンプレートペアが記憶され、テンプレート活性マッチ判定部１０４により各単純述語テンプレートペアについての活性マッチ判定が終了すると起動される。このプログラムは、メモリ上に所定の記憶領域を確保したり、それら記憶領域のうち、所定の変数のための領域に初期値を代入したり、初期の空のテンプレートネットワーク１４０を構築したりする初期化を行なうステップ１５０と、テンプレートペアＤＢ１０２に記憶された全ての単純述語テンプレートペアに対し、処理１５４を実行するステップ１５２とを含む。処理１５４は、当該単純述語テンプレートペアを構成する単純述語テンプレートとその間のリンクとをテンプレートネットワーク１４０に追加する処理を行なうためのものである。なお、ステップ１５０では、テンプレートネットワーク１４０として空のネットワークが予め構築されているものとする。

処理１５４は、処理対象の単純述語テンプレートペアに含まれる単純述語テンプレートの各々について、対応するノードがテンプレートネットワーク１４０にあるか否か、すなわちそのノードをテンプレートネットワーク１４０に追加すべきか否かを判定するステップ１８０と、ステップ１８０の判定が肯定的のときに実行され、テンプレートネットワーク１４０に追加すべきと判定されたノード（１個又は２個）をテンプレートネットワーク１４０に追加する処理を行なうステップ１８２と、ステップ１８０及び１８２の後に実行され、処理対象の単純述語テンプレートペアに対応するノード間に既に同一リンクがあるか否かを判定するステップ１８４と、ステップ１８４の判定が否定的であるときに、当該リンクをテンプレートネットワーク１４０に追加する処理を行なって処理１５４を終了するステップ１８６とを含む。ステップ１８４の判定が肯定的であるときも、この単純述語テンプレートペアに対する処理１５４の実行は終了する。

テンプレートネットワーク構築部１０６を実現するプログラムはさらに、ステップ１５２による処理の完了後、構築されたテンプレートネットワーク１４０に、同義・含意関係辞書１０８を参照することによってリンクを追加するステップ１６４と、ステップ１６４の結果得られたテンプレートネットワーク１４０において、他のノードとの間のリンク数が所定のしきい値以下のノードを削除するステップ１６６と、各ノードがリンクしているノードの数に基づいて各リンクの重みを算出し（計算方法については後述する）、各リンクに付与して処理を終了するステップ１６８とを含む。

図５を参照して、図４のステップ１６４で実行されるプログラム（ルーチン）は、テンプレートネットワーク１４０内のノードのうち、互いにリンクを持たないノードの対の全てに対して以下の処理２０２を実行するステップ２００を含む。

処理２０２は、処理対象のノード対の間に、特定の関係があるか否かを判定するステップ２１０と、ステップ２１０の判定が肯定的であるときに、処理対象のノード対の間に「同一」という属性を持つリンクを追加して処理２０２を終了するステップ２１２とを含む。ステップ２１０の判定が否定的である場合にも処理２０２を終了する。ここでいう特定の関係があるか否かに関する判定では、以下のテーブル１０に示すように、動詞の文法的情報、及び図２に示す同義・含意関係辞書１０８に格納された単語の同義・含意関係が使用される。

図４を参照して、ステップ１６８では、各リンクの重みが算出されるが、単純述語テンプレートｉと単純述語テンプレートｊとの間のリンクに付与される重みをｗ_ｉｊとすると、重みｗ_ｉｊは以下の式（１）により算出される。

ただし、ｄ（ｉ）は単純述語テンプレートｉとリンクされている単純述語テンプレートの数を示す。ＳＡＭＥ（ｉ，ｊ）は、単純述語テンプレートｉと単純述語テンプレートｊとの間のリンクに「一致」属性が付されていることを示す。ＯＰＰＯＳＩＴＥ（ｉ，ｊ）は、単純述語テンプレートｉと単純述語テンプレートｊとの間のリンクに「反対」属性が付されていることを示す。すなわち、単純述語テンプレートｉと単純述語テンプレートｊとに一致属性が付与されていれば、重みは正の値となり、反対属性が付与されていれば、重みの符号は逆転し、負となる。

図２に示すテンプレート活性値算出部１１２は、テンプレートネットワークＤＢ１１０に記憶されたテンプレートネットワーク１４０の各ノードについて、以下に述べるような方法で各ノードの活性値を算出する。図６を参照して、テンプレート活性値算出部１１２を実現するコンピュータプログラムは、テンプレートネットワークＤＢ１１０にテンプレートネットワーク１４０が記憶され、各リンクにそれぞれ重みが付されたことに応答して実行を開始する。このプログラムは、テンプレートネットワーク１４０内のノードのうち、シードテンプレートに対応するノードに、それらシードテンプレートに対して予め付与されていた活性値（活性シードテンプレートには＋１、不活性シードテンプレートには−１）を設定し、他のノードには所定の初期値を設定するステップ２４０と、ステップ２４０の後、以下の式により定義される値Ｅ（ｘ，Ｗ）の値を最適化（ここでは極小化）することにより各ノードの活性値を推定するステップ２４２とを含む。

ただしｘ_ｉ及びｘ_ｊはそれぞれ単純述語テンプレートｉ、ｊの符号付の活性値、ｘはそれら活性値からなるベクトル、Ｗはリンクの重みｗ_ｉｊからなる行列を、それぞれ表す。この値Ｅは、ちょうど量子力学における電子のスピンエネルギーの計算式に類似しており、量子力学におけるエネルギーの最小化の計算と同様に行なうことができる。この式のシグマの各項において、ｘ_ｉｘ_ｊの値は、エネルギー最小化計算の後、ｘ_ｉ及びｘ_ｊの極性が同じときには正の値、異なるときには負の値となる傾向がある。重みｗ_ｉｊの符号は、既に述べたように、ｘ_ｉ及びｘ_ｊの極性が同じときには正の値、異なるときには負の値となる。したがってシグマの各項の値は必ず正の値となる傾向があり、これを最大化することで一種の制約解消が行なわれる。なお、式（２）において、シグマの前に係数「−１／２」があることから、シグマの中を最大化することによりＥ（ｘ，Ｗ）の値が極小化される。

〈複雑述語テンプレート収集部６４〉
一方、図７を参照して、図１に示す複雑述語テンプレート収集部６４は、単純述語テンプレートＤＢ６２及びＷＥＢアーカイブ４４から複雑述語テンプレートＤＢ６６を生成するためのものである。複雑述語テンプレート収集部６４は、複雑述語テンプレートの対象となる名詞を記憶した対象名詞辞書２６０と、単純述語テンプレートＤＢ６２及び対象名詞辞書２６０を参照しながら、ＷＥＢアーカイブ４４から複雑述語テンプレートの候補を抽出し、それらをその名詞部分にしたがってサ変名詞テンプレートと、数量名詞テンプレートと、トラブル名詞テンプレートとに分類するための複雑述語テンプレート候補抽出部２６８とを含む。複雑述語テンプレート候補抽出部２６８はコンピュータプログラムにより実現される。その構成については図８を参照して後述する。

複雑述語テンプレート収集部６４はさらに、予めＷＥＢアーカイブ４４に出現するサ変名詞の極性を判定することで構築され、サ変名詞の極性が定まる場合にはその極性を、サ変名詞の極性が文脈に依存するときには文脈依存を示す値を出力するサ変名詞極性判定部２６４と、サ変名詞極性判定部２６４により出力された極性の値をそのサ変名詞とともに記憶するサ変名詞極性辞書２６２と、複雑述語テンプレート候補抽出部２６８により分類されたサ変名詞の複雑述語テンプレート候補を記憶するサ変名詞テンプレート候補ＤＢ２７０と、数量名詞テンプレート候補を記憶するための数量名詞テンプレート候補ＤＢ２７２と、トラブル名詞を含む複雑述語テンプレートの候補を記憶するトラブル名詞テンプレート候補ＤＢ２７４とを含む。サ変名詞の極性が文脈に依存するときには、複雑述語テンプレートにはそれを示す情報が付与されることになり、実際に複雑述語テンプレートが出現する文脈に応じてサ変名詞の極性が決定される。

複雑述語テンプレート収集部６４はさらに、サ変名詞テンプレート候補ＤＢ２７０に記憶されたサ変名詞テンプレート候補のサ変名詞に、サ変名詞極性辞書２６２を参照して極性又は極性が文脈依存であることを示す情報を付与するためのサ変名詞極性付与部２７６と、数量名詞テンプレート候補ＤＢ２７２に記憶された数量名詞テンプレート候補の数量名詞に対して極性として活性を付与する数量名詞極性付与部２７８と、トラブル名詞テンプレート候補ＤＢ２７４に記憶されたトラブル名詞の極性を判定するためのパターンを予め記憶したトラブル名詞極性判定用辞書２６６とを含む。トラブル名詞の極性も、予め定まる場合と、文脈に依存する場合とがある。トラブル名詞極性判定用辞書２６６は、トラブル名詞の極性が予め定まる場合にはその極性を出力し、文脈に依存するときにはそれを示す情報を出力するよう構築される。

複雑述語テンプレート収集部６４はさらに、トラブル名詞テンプレート候補ＤＢ２７４に記憶されたトラブル名詞テンプレート候補の各々のトラブル名詞に、トラブル名詞極性判定用辞書２６６を参照して極性又は極性が文脈依存であることを示す情報を付与するトラブル名詞極性付与部２８０と，サ変名詞極性付与部２７６，数量名詞極性付与部２７８、及びトラブル名詞極性付与部２８０の出力する複雑述語テンプレート候補の極性を、それらの名詞の極性と単純述語テンプレートの極性との積として計算し付与したうえで複雑述語テンプレートＤＢ６６に蓄積する複雑述語テンプレート極性算出部２８２とを含む。複雑述語テンプレート極性算出部２８２は、サ変名詞極性付与部２７６から与えられるサ変名詞複雑述語テンプレート候補のサ変名詞の極性が文脈依存であることを示す値のときは、複雑述語テンプレート候補にサ変名詞の極性が文脈依存であることを示すタグを付して出力する。したがってこの場合には、複雑述語テンプレートの極性自体は決定していないことになる。トラブル名詞の場合も同様である。

《複雑述語テンプレート候補抽出部２６８》
図８を参照して、図７に示す複雑述語テンプレート候補抽出部２６８を実現するコンピュータプログラムは以下のような制御構造を持つ。すなわち、このプログラムは、ＷＥＢアーカイブ４４に記憶された全文書の全文に対して以下の処理を繰返すステップ３００を含む。ステップ３００で繰返される処理は、対象となる文に対して形態素解析を行なって形態素列を出力するステップ３０２と、ステップ３０２で得られた形態素列に対して係り受け解析を行ない、係り受け木を出力するステップ３０４と、この係り受け木に含まれる全ノードに対して以下の処理を実行するステップ３０６とを含む。

ステップ３０６で実行される処理は、処理対象のノードに対し、そのノードの形態素が図７に示す対象名詞辞書２６０に記憶された対象名詞（サ変名詞、数量名詞又はトラブル名詞）のいずれかであるかを判定し、結果が否定的である場合には次のノードに処理を移すステップ３０８と、ステップ３０８の判定が肯定的であるときに、そのノードの係り先が単純述語テンプレートか否かを判定し、判定結果が否定的であるときに次のノードに処理を移すステップ３１０と、ステップ３１０の判定が肯定的であるときに、処理中のノードに係るノードの末尾の助詞と、処理中のノード（現ノード）の文節と、係り先の単純述語テンプレートとをくみあわせて複雑述語テンプレート候補を生成するステップ３１２と、ステップ３１２で生成された複雑述語テンプレート候補を、その対象名詞の種類（サ変名詞、数量名詞、トラブル名詞）によって分類してサ変名詞テンプレート候補ＤＢ２７０、数量名詞テンプレート候補ＤＢ２７２、又はトラブル名詞テンプレート候補ＤＢ２７４に記憶させて処理を次のノードに移動させるステップ３１４とを含む。

《サ変名詞極性付与部２７６》
図７に示すサ変名詞極性付与部２７６は図９に示すコンピュータプログラムにより実現される。図９を参照して、このプログラムは、サ変名詞テンプレート候補ＤＢ２７０に記憶された全てのサ変名詞テンプレート候補に対して以下の処理を実行するステップ３４０を含む。

ステップ３４０は、複雑述語テンプレート候補のサ変名詞を含む見出しがサ変名詞極性辞書２６２に１つだけ存在するか否かを判定するステップ３４２と、ステップ３４２の判定が肯定的であるときに、その見出しに対応して辞書に示されている極性をサ変名詞に付与して次のサ変名詞の処理に移るステップ３４４と、ステップ３４２の判定が否定的であるときに、サ変名詞の極性が文脈に依存していることを示す情報をサ変名詞に付与して次のサ変名詞の処理に移るステップ３４６とを含む。

《トラブル名詞極性付与部２８０》
図１０を参照して、図７に示すトラブル名詞極性付与部２８０は、以下のような制御構造を持つプログラムにより実現できる。このプログラムは、トラブル名詞テンプレート候補ＤＢ２７４に記憶された全てのトラブル名詞テンプレート候補について以下の処理を実行するステップ３７０を含む。

ステップ３７０で実行される処理は、そのトラブル名詞テンプレート候補に対応するトラブル名詞の見出しが１つだけトラブル名詞極性判定用辞書２６６にあるか否かを判定するステップ３７２と、ステップ３７２の判定が肯定的であればその見出しに記載されている極性をトラブル名詞に付与して次の候補の処理に移るステップ３７４と、ステップ３７２での判定が否定的であるときに、そのトラブル名詞の極性が文脈依存であることを示す情報をトラブル名詞に付与して次のトラブル名詞の処理に移るステップ３７６とを含む。

〈因果関係フレーズペア収集部６８〉
図１１を参照して、図１に示す因果関係フレーズペア収集部６８は、単純述語テンプレートＤＢ６２、複雑述語テンプレートＤＢ６６、単語クラスＤＢ４６、名詞の極性辞書４２０、トラブル名詞極性判定用辞書２６６、サ変名詞極性辞書２６２、及び矛盾表現辞書４２２を参照して、ＷＥＢアーカイブ４４から因果関係の原因フレーズ及び結果フレーズの関係にあるフレーズペアを抽出し、因果関係フレーズペアＤＢ７０に記憶する機能を持つ。矛盾表現辞書４２２は、互いに矛盾する単純述語テンプレートからなる単純述語テンプレートペアを収集して作成したものである。

因果関係フレーズペア収集部６８は、単純述語テンプレートＤＢ６２、複雑述語テンプレートＤＢ６６、名詞の極性辞書４２０、トラブル名詞極性判定用辞書２６６、及びサ変名詞極性辞書２６２を参照して、ＷＥＢアーカイブ４４から、因果関係をなすフレーズペアであって、後の因果関係仮説を生成する元となるシードペアを収集する因果関係シードペア収集部４０８と、因果関係シードペア収集部４０８により収集された因果関係シードペアを記憶する因果関係シードペアＤＢ４１０とを含む。ここでいう「シードペア」とは、ＷＥＢアーカイブ４４に実際に存在するフレーズのペアのことをいう。

因果関係フレーズペア収集部６８はさらに、予め準備された意味的関係パターンを記憶する意味的関係パターンＤＢ４００と、ある意味的関係を充足する単語対を記憶する単語対ＤＢ４０２と、意味的関係パターンＤＢ４００及び単語対ＤＢ４０２を用い、因果関係シードペアＤＢ４１０に記憶された因果関係シードペアＤＢを元に、そのシードペアに含まれる単語（名詞）対の意味的関係と同じ意味的関係を満たす単語対で元の因果関係シードペア内の単語対を置換することにより、新たな因果関係仮説を生成する処理と、因果関係シードペア内の単純述語テンプレートをいずれもそれらの矛盾表現に置換することにより、新たな因果関係仮説を生成する処理とを実行する因果関係仮説生成部４１２と、因果関係仮説生成部４１２により生成された因果関係仮説を記憶する因果関係仮説ＤＢ４１６と、因果関係仮説ＤＢ４１６に記憶された多数の因果関係仮説の中から、妥当な因果関係を抽出し因果関係仮説をフィルタリングして因果関係フレーズペアＤＢ７０に追加する因果関係仮説フィルタリング部４１８とを含む。

意味的関係パターンＤＢ４００及び単語対ＤＢ４０２も、本実施の形態では予め因果関係フレーズペア収集部６８により準備される。そのために因果関係フレーズペア収集部６８は、意味的関係パターンを抽出する際の元となる、特定のパターン（これをシードパターンと呼ぶ。）のグループを記憶するシードパターンＤＢ４０４と、シードパターンＤＢ４０４及び単語クラスＤＢ４６を参照し、ＷＥＢアーカイブ４４から、シードパターンＤＢ４０４に記憶されたシードパターンと類似したパターンを抽出することで意味的関係パターンＤＢ４００を構築し、同時にそれらの意味的関係パターンを充足する単語対を特定して単語対ＤＢ４０２を構築するための単語対抽出部４０６とを含む。本実施の形態では、シードパターンは、後述するようにいくつかの意味的関係を表す別々のシードパターン群に分類されており、単語対の意味的関係もシードパターン群別となっている。

《因果関係シードペア収集部４０８》
因果関係シードペア収集部４０８は、コンピュータプログラムにより実現可能である。図１２を参照して、このコンピュータプログラムは、一文中で順接の接続詞等により接続された形でＷＥＢアーカイブ４４内において共起しているフレーズペア（「名詞＋述語テンプレート」（単純述語テンプレートと複雑述語テンプレートとの双方を含む。）のペア）をＷＥＢアーカイブ４４から収集し、あわせてそれらの共起頻度も算出するステップ４４０と、ステップ４４０で収集されたフレーズペアの各々に対して以下に述べる処理を実行するステップ４４２とを含む。ここで、個々のフレーズペアを構成するフレーズの名詞で形成されるペアを名詞ペア、述語テンプレートで形成されるペアを述語テンプレートペアと呼ぶ。

続いて、このようにして得られた各フレーズペアに対して、以下の処理を実行する（ステップ４４２）。ステップ４４２で実行される処理は、処理対象のフレーズペア内の名詞ペアが正の関係にあるか否かを判定するステップ４４４と、判定が肯定的な場合に、さらに、述語テンプレートペアの極性が同じか否かを判定するステップ４４６とを含む。ステップ４４６の判定が否定的ならこのフレーズのペアは捨てる。すなわちこの場合は何もせず次の述語テンプレートの処理に移る。ステップ４４６の判定が肯定的ならこのフレーズペアを因果関係シードペア群に追加する（ステップ４４８）。

一方、ステップ４４４の判定が否定的なら、ステップ４５０でテンプレートペアの極性が互いに反対か否かを判定する。判定が否定的ならこのフレーズペアは捨てる。判定が肯定的ならこのフレーズペアを因果関係シードペア群に追加する（ステップ４４８）。

以上の処理が全てのフレーズペアに対して終了すると、結果として得られた因果関係シードペア群内の全ての因果関係シードペアに対してステップ４５４の処理を実行する
。ステップ４５４で各因果関係フレーズペアに対して行なわれる処理は、因果関係強度のスコアＣ_ｓ（ｐ_１，ｐ_２）を以下の式により算出する処理である。

ただしｐ_１，ｐ_２はそれぞれ、因果関係シードペアを構成するフレーズ、ｓ_１及びｓ_２はそれぞれ、フレーズｐ_１，ｐ_２を構成するテンプレートの活性値、記号｜ｓ_１｜は活性値ｓ_１の絶対値、ｎ_１，ｎ_２はそれぞれ、フレーズｐ_１，ｐ_２に含まれる名詞、ｎｐｆｒｅｑ（ｎ_１，ｎ_２）は、ｎ_１，ｎ_２が正の関係なら、ｎ_１，ｎ_２が活性／不活性の同じテンプレートペアと一文中で共起する頻度、ｎ_１，ｎ_２が負の関係なら、ｎ_１，ｎ_２が活性／不活性の異なるテンプレートペアと一文中で共起する頻度を、それぞれ表す。

このようにして全ての因果関係シードペアに対し因果関係強度のスコアを算出した後、ステップ４５６で因果関係シードペアをスコアの降順でソートし、出力する。

このような処理を実行することにより、因果関係を表すフレーズのペアを大量に、かつ自動的にＷＥＢアーカイブ４４から収集できる。

なお、因果関係シードペアの取得方法はこれには限定されない。例えば、次の条件を全て満たすフレーズペアを因果関係シードペアとして獲得するようにしてもよい。

（１）両フレーズとも、１つの名詞と１つの述語テンプレートとからなる。例えば、「（地震）を起こす」と「（津波）が発生する」のようなフレーズペアである。

（２）両フレーズは、順接接続詞等、例えば「〜て」で結ばれる形で、一文中に共起している。例えば、「断層が地震を起こして、津波が発生した。」のようなペア。

具体的には、ＷＥＢアーカイブ４４から、順接接続詞等とともに一文で共起している述語テンプレートペアと、その一文で共起している名詞ペアとを取得する。これらが因果関係フレーズペアの原型と考えられる。

こうして得られた因果関係シードペアについて、前述の式（３）により因果関係強度スコアを算出する。そして全ての因果関係シードペアを、因果関係強度スコアの降順にソートして出力する。

上記したスコア算出に、式（３）ではなく次の式（４）を用いるようにしても良い。

《因果関係仮説生成部４１２》
図１３を参照して、図１１に示す因果関係仮説生成部４１２は、因果関係シードペアＤＢ４１０及び単語クラスＤＢ４６と、意味的関係パターンＤＢ４００及び単語対ＤＢ４０２に接続され、因果関係シードペアＤＢ４１０に記憶された因果関係シードペアに含まれる名詞ペアの意味的関係のパターンを意味的関係パターンＤＢ４００とマッチングする意味的関係パターンマッチング部４７０と、単語対ＤＢ４０２に記憶された単語対のうち、意味的関係パターンマッチング部４７０により因果関係シードペアの意味的関係パターンとマッチすると判定された意味的関係にある単語対を単語対ＤＢ４０２から読み出し、元の因果関係シードペア内の名詞ペアと置換することにより、新たな因果関係仮説を生成する単語対置換部４７２と、因果関係シードペアＤＢ４１０に格納された因果関係シードペアの各々について、矛盾表現辞書４２２を参照して、因果関係シードペアの各フレーズの単純述語テンプレートをそれぞれ矛盾表現に置換することで新たな因果関係仮説を生成するテンプレート置換部４７６と、単語対置換部４７２及びテンプレート置換部４７６により新たに生成された因果関係仮説の因果関係強度のスコアを算出し、そのスコアを因果関係仮説に付して因果関係仮説ＤＢ４１６に追加するスコア算出部４７４とを含む。テンプレート置換部４７６による新たな因果関係仮説生成の根拠としては、元の因果関係フレーズのペアが妥当である場合には、その裏（各フレーズの述部を否定したペア）も妥当である可能性が高いためである。例えば「ストレスが増加する→不眠が続く」が妥当である場合、その裏に相当する「ストレスが減少する→不眠が改善される」も妥当と考えられる、等である。

図１３に示す意味的関係パターンＤＢ４００及び単語対ＤＢ４０２はどのような手段で準備してもよい。本実施の形態では、図１１に示すように、意味的関係パターンＤＢ４００及び単語対ＤＢ４０２を準備するために、意味的関係パターンの元となるフレーズであるいくつかのシードパターン群に分類されたシードパターンを記憶したシードパターンＤＢ４０４と、シードパターンＤＢ４０４及び単語クラスＤＢ４６に接続され、これらに記憶された情報に基づいてＷＥＢアーカイブ４４からシードパターンＤＢ４０４に記憶されたシードパターンと類似した意味的関係にある表現のパターンとそれら表現に出現する単語対とを抽出し、意味的関係パターンＤＢ４００及び単語対ＤＢ４０２にそれぞれ追加する単語対抽出部４０６を設けている。

ここでいうシードパターンとは、前述したとおり、材料関係、必要関係、使用関係、予防関係、又は因果関係を表すパターンであり、それぞれ別々のシードパターン群に分類される。パターンの例は、材料関係なら「ＡでＢを生産する」、必要関係なら「ＡはＢに必須だ」、使用関係なら「ＡをＢに使う」、予防関係なら「ＡでＢを防ぐ」、因果関係なら「ＡがＢを引き起こす」のようなものである。パターンとは変数に相当する部分を含むフレーズのことをいう。上記した例ではＡ及びＢが変数に相当する。Ａ及びＢを別の単語で置換することにより、様々なフレーズが生成できる。ただし、Ａ及びＢがある意味的関係を持っていないとそれらは無意味なフレーズとなってしまう。単語対抽出部４０６は、特定の意味的関係にある単語対を抽出する機能を持つ。単語対抽出部４０６はさらに、シードパターンＤＢ４０４に記憶されたシードパターンだけでなく、ＷＥＢアーカイブ４４から抽出されたパターンの中で、シードパターンと類似したパターンをシードパターンに追加する機能も持つ。

《単語対抽出部４０６》
図１４を参照して、本実施の形態で採用した単語対抽出部４０６は、ＷＥＢアーカイブ４４及びシードパターンＤＢ４０４に接続され、ＷＥＢアーカイブ４４から特定のパターンを抽出するパターン抽出部４９０と、パターン抽出部４９０により抽出されたパターンを記憶するパターンＤＢ４９２と、シードパターンＤＢ４０４に記憶されたシードパターン及びパターンＤＢ４９２に記憶されたパターンを参照し、ＷＥＢアーカイブ４４から各パターンに合致する（上記したＡ及びＢの関係にある）単語対を取得する単語対候補取得部４９４と、単語対候補取得部４９４により抽出された単語対を記憶する単語対候補ＤＢ４９６と、パターンＤＢ４９２に記憶されたパターンのうち、シードパターンＤＢ４０４に記憶されたシードパターンのいずれかと類似したパターンを、それらパターンから抽出された単語対の集合の類似度に基づいて特定し、シードパターンＤＢ４０４に新たなシードパターンとしてマージするパターンマージ部５１８とを含む。パターンマージ部５１８は、このようにして追加されたシードパターンには、その新たなシードパターンと最も類似していたシードパターンの属するシードパターン群の意味的関係のラベルを付してシードパターンＤＢ４０４に追加する。

単語対抽出部４０６はさらに、単語クラスＤＢ４６に保持されている任意の２つの単語クラス間における適合度を示す指標であるクラス対適合度を、クラス対ごとに、単語対候補ＤＢ４９６、ＷＥＢアーカイブ４４、及びシードパターンＤＢ４０４を参照して算出するためのクラス対適合度算出部５０２と、算出されたクラス対適合度をクラス対ごとに記憶するクラス対適合度ＤＢ５０４と、パターンＤＢ４９２に記憶されたパターンとシードパターンＤＢ４０４に記憶されたシードパターン群との組合せごとにパターン類似度を算出するパターン類似度算出部５０６と、パターン類似度算出部５０６により算出されたパターン類似度をパターンＤＢ４９２に記憶されたパターンとシードパターンＤＢ４０４に記憶されたシードパターン群との組合せごとに記憶するためのパターン類似度ＤＢ５０８と、単語対と、パターンＤＢ４９２に記憶された各パターン及びシードパターンＤＢ４０４に記憶されたシードパターン群との親和性情報を算出する親和性情報算出部５１０と、親和性情報算出部５１０により算出された親和性情報を単語対とパターンとの組合せごとに記憶する親和性情報ＤＢ５１２と、単語クラスＤＢ４６に記憶されている単語のクラス対ごとに、ＷＥＢアーカイブ４４での各クラスに属する単語の出現頻度の差がしきい値以上か否かを判定し、差がしきい値以上のクラス対を最終的な出力対象から除外するために特定する除外クラス対特定部５１４と、除外クラス対特定部５１４により特定された除外クラス対を記憶する除外クラス対ＤＢ５１６とを含む。クラス対適合度算出部５０２、パターン類似度算出部５０６、親和性情報算出部５１０及び除外クラス対特定部５１４の機能の詳細については後述する。

単語対抽出部４０６はさらに、単語対候補ＤＢ４９６に記憶されている単語対の各々について、除外クラス対特定部５１４により特定されるクラス対に属するものを除外し、さらにクラス対適合度ＤＢ５０４、パターン類似度ＤＢ５０８、親和性情報ＤＢ５１２を参照してシードパターンと共起する単語対としてのふさわしさを表すスコアを算出する単語対スコアリング部４９８と、単語対スコアリング部４９８によりスコアリングされた単語対のうち、しきい値以上のスコアを持つ単語対のみを選択して単語対ＤＢ４０２に出力するための単語対選択部５００とを含む。

以下、単語対抽出部４０６の主要な構成部についてさらに詳細に説明する。

−パターン抽出部４９０
パターン抽出部４９０は、以下のような工程を経てＷＥＢアーカイブ４４に記憶された文書からパターンを抽出する。すなわちパターン抽出部４９０は、ＷＥＢアーカイブ４４に記憶された各文書の各文について、形態素解析し、さらに係り受け解析を行なう。この結果、各文について係り受け木（を表すデータ）が得られる。パターン抽出部４９０は、この係り受け木の各名詞を起点とし、別の名詞を終点とする係り受け木上のパスを１つのパターン候補として、その経路に存在する形態素列を抽出する。そしてこの形態素列上の名詞をそれぞれ変数に置換する。この際、単語クラスＤＢ４６を参照して、各名詞が属するクラスを調べ、各変数にその変数の属するクラス情報として付加する。これにより１つのパターンが得られる。１つの文からは複数個のパターンが得られることがある。さらに、１つの名詞にかかっている名詞が２つとは限らないので、同一の名詞に対応する変数を含んだ複数個のパターンが得られることもある。

パターン抽出部４９０は、このようにして得たパターンについて、変数のクラスも含めて同じパターンが何回出現したかを示す頻度情報を算出しながら、新たなパターンが得られるたびにそれをパターンＤＢ４９２に追加する。

−単語対候補取得部４９４
単語対候補取得部４９４は、ＷＥＢアーカイブ４４に含まれる全文書の全文を対象に、シードパターンＤＢ４０４に記憶されているシードパターンと共起する単語対を調べ、取得する。この場合、単語対がシードパターンと共起する、とは、文書内に存在する、ある単語対を含む文字列であって、その単語対をそれぞれの単語クラスに置換したものが、シードパターンと一致する、ということである。単語対候補取得部４９４は、このようにして得られた単語対を、一致したシードパターンの識別情報とともに単語対候補ＤＢ４９６に格納する。単語対候補取得部４９４はまた、シードパターンが単語対と共起した頻度をシードパターン及び単語クラス対の組合せごとに計数し、単語対候補ＤＢ４９６に記憶する。

−クラス対適合度算出部５０２
クラス対適合度とは、２つの単語クラスがあるシードパターン群に属するシードパターンのいずれかと共起する頻度（程度）を表す指標である。クラス対適合度算出部５０２は、各クラス対のクラス対適合度を算出する。本実施の形態では、２つのクラス対に属する単語が、シードパターン群Ｐに属するいずれかのシードパターンｐと共起する頻度が高いほど、そのクラス対のクラス対適合度は高くなるようにクラス対適合度を定義する。例えば単語クラス対ｃ_ｉ及びｃ_ｊの、シードパターン群Ｐに対するクラス対適合度Ｃ（ｃ_ｉ，ｃ_ｊ，Ｐ）を以下のように定義できる。なお次式においてｎ_ｉ及びｎ_ｊはそれぞれ単語クラスｃ_ｉ及びｃ_ｊに属する単語を表す。＊は任意のパターンを表す。

この式において、「||（ｎ_ｉ，Ｐ，ｎ_ｊ）||」は、名詞ｎ_ｉとｎ_ｊとがシードパターン群Ｐ中のいずれかのシードパターンｐと共起する頻度インスタンスからなる集合の要素の数である。したがって、「||（ｎ_ｉ，＊，ｎ_ｊ）||」は、ＷＥＢアーカイブ４４に格納されている文書群（これを文書集合Ｍとする。）の中で名詞ｎ_ｉとｎ_ｊとが任意のパターンと共起する頻度であり、次の式で表される。

この値は、パターンにかかわらず単語ｎｉ及びｎｊが共起する頻度と等しい。

条件αは例えば、単語クラス対ｃ_ｉ及びｃ_ｊが共起するシードパターンの種類が所定数以上である、という条件である。これを式で表せば、所定数をβとして以下のようになる。

クラス対適合度算出部５０２は、単語対候補ＤＢ４９６に格納された単語対と、その単語対が共起したシードパターンの識別情報とを集計することによりクラス対の適合度をクラス対ごとに算出し、クラス対適合度ＤＢ５０４に格納する。

−パターン類似度算出部５０６
パターン類似度算出部５０６は、パターンＤＢ４９２に格納されている各パターンと、シードパターンＤＢ４０４に記憶されている各シードパターン群との類似度を算出し、パターン類似度ＤＢ５０８にパターン群とパターンとの組合せごとに格納する。本実施の形態では、あるシードパターン群とパターンとの間のパターン類似度とは、シードパターン群に属するシードパターンと共起するクラス対と、対象となるパターンと共起するクラス対との重なりの程度を示すものとして定義する。すなわち、あるシードパターン群に属するシードパターンの集合Ｐと、対象となるパターンｐとの間のパターン類似度Ｓ（Ｐ，ｐ）は、集合Ｐに属するシードパターンと共起する単語クラスｃｉ及び単語クラスｃｊからなる単語クラス対（ｃｉ×ｃｊ）の集合をＩ（Ｐ_{ｃｉ×ｃｊ}）、パターンと共起する単語クラス対（ｃｉ×ｃｊ）の集合をＩ（ｐ_{ｃｉ×ｃｊ}）とすると、例えば以下の式により定義される。

なお、右辺の分母及び分子を囲む２本の線は、その中の式により表される集合に属する要素の数を表す。

パターン類似度の定義としては、これ以外にも考えることができる。例えば、次のようにベクトルによる比較を行なうこともできる。例えば、可能な単語クラス対の全てを要素とするベクトルを考える。ＷＥＢアーカイブ４４においてあるシードパターン群Ｐと共起する単語クラス対の数を計数し、その値を上記ベクトルのその単語クラス対に対応する要素の値として、シードパターン群Ｐの特徴ベクトルＶ_Ｐを計算する。同様に、あるパターンｐと共起する単語クラス対の数を計数し、その値を上記ベクトルのその単語クラス対に対応する要素の値として、パターンｐの特徴ベクトルＶ_ｐを計算する。この２つのベクトルＶ_Ｐ及びＶ_ｐの間の角度を計算することにより、シードパターン群Ｐとパターンｐとの類似度が得られる。なお、このベクトルの計算においては、パターン群Ｐともパターンｐとも共起しないクラス対をベクトルの要素から除外してもよい。

−親和性情報算出部５１０
親和性情報とは、ある単語対とあるパターンとが共起する頻度が高いほど値が高くなる、その単語対とそのパターンとの親和性を表す指標である。本実施の形態では、この頻度はＷＥＢアーカイブ４４内における単語対とパターンとの共起頻度を表すものとする。本実施の形態において、単語対（ｎ_１，ｎ_２）とパターンｐとの親和性情報Ａｓｓｏｃ（ｐ，ｎ_１，ｎ_２）は以下の式により定義される。なお、以下の式で（ｎ_１，ｐ，ｎ_２）は、単語対（ｎ_１，ｎ_２）がパターンｐと共起しているインスタンスの集合を示し、「＊」はその位置により、任意のパターン又は単語を示す。

この式から分かるように、単語対単語対（ｎ_１，ｎ_２）とパターンｐとが共起する頻度が高いほど親和性情報Ａｓｓｏｃ（ｐ，ｎ_１，ｎ_２）の値は大きくなる。一定の単語対（ｎ_１，ｎ_２）に対しては、親和性情報Ａｓｓｏｃ（ｐ，ｎ_１，ｎ_２）はパターンｐの出現頻度||（＊，ｐ，＊）||が高くなるほど小さくなる。同様に、一定のパターンｐに対しては、親和性情報Ａｓｓｏｃ（ｐ，ｎ_１，ｎ_２）は単語対（ｎ_１，ｎ_２）の出現頻度||（ｎ_１，ｎ_２）||の出現頻度が高くなるほど小さくなる。

親和性情報Ａｓｓｏｃ（ｐ，ｎ_１，ｎ_２）も、単語対候補ＤＢ４９６に記録された単語対とパターンの識別情報とを集計することにより、任意の単語対と任意のパターンとの組合せに対して算出できる。

−除外クラス対特定部５１４
除外クラス対特定部５１４は、最終的に出力される単語対の集合から除外される単語のクラス対を特定する。本実施の形態では、各単語クラス対に対して、そのクラス対にそれぞれ属する単語からなる単語対の平均出現頻度を算出し、その値の差が大きな単語クラス対を除外クラスとする。すなわち、出現頻度が大きく異なる単語対は単語対として適切でないものとして除外する。ここでは、出現頻度が小さな単語クラスの出現頻度に対する、出現頻度が大きな単語クラスの出現頻度の比率がしきい値を超えた場合に、その単語クラス対を除外する。しきい値は事前の実験により適切な値に設定する必要がある。本実施の形態では、この値を２５程度に設定する。

−単語対スコアリング部４９８
単語対スコアリング部４９８は、クラス対適合度ＤＢ５０４に記憶された単語クラスのクラス適合度、パターン類似度ＤＢ５０８に記憶されたパターン類似度、親和性情報ＤＢ５１２に記憶された親和性情報、及び除外クラス対ＤＢ５１６に記憶された除外クラス対情報に基づいて、単語対候補ＤＢ４９６に記録された各単語対のうち、除外対象となっていない単語対とその単語対と最も適合したシードパターンとの組合せの各々について所定のスコアを計算し、単語対選択部５００に出力する。このスコアは、本実施の形態では、クラス適合度、パターン類似度、及び親和性情報のいずれに対しても正の相関を以て変化するように定義する。

例えば、単語対（ｎ_１，ｎ_２）とシードパターンＰとの組合せに対するスコアＳｃｏｒｅ（ｎ_１，ｎ_２，Ｐ）は、最も単純には、次の式で表される。

−単語対選択部５００
単語対選択部５００は、ソートされた単語対とシードパターン群との組合せのうち、上位所定個数を選択して単語対ＤＢ４０２に出力する。このとき、単語対選択部５００は、各単語対に、組となっているシードパターン群の識別子を付す。選択する単語対の個数は実験により予め決定しておく。

−パターンマージ部５１８
パターンマージ部５１８は、パターンＤＢ４９２に記憶されたパターンの各々とシードパターンＤＢ４０４に記憶されたパターン群の各々とについて、パターン類似度算出部５０６により算出されたパターン類似度をパターン類似度ＤＢ５０８から読み出し、パターン類似度がしきい値より高いパターンを新たなシードパターンとして、そのシードパターン群に追加する。

単語対抽出部４０６は、シードパターンＤＢ４０４を更新しながら上記した処理を繰返し、所定の終了条件が充足されたときに得られている単語対ＤＢ４０２を最終的な単語対として出力し、またそのときのシードパターンＤＢ４０４に記憶されているシードパターン群を意味的関係パターンＤＢ４００に出力する。意味的関係パターンＤＢ４００に記憶されるシードパターン群の各々には、もともとのシードパターン群の種類を示す識別子が付されている。したがって、意味的関係パターンＤＢ４００に記憶された意味的関係パターンの識別子を調べることにより、その意味的関係パターンが前述した材料関係、必要関係、使用関係、予防関係、及び因果関係のいずれを表すかを知ることができる。また、単語対ＤＢ４０２に格納された単語対には、その単語対とよく共起するシードパターン群の識別子が付与されている。したがって、その識別子を調べることにより、その単語対がどのような意味的関係を充足するかを知ることができる。

≪意味的関係パターンマッチング部４７０、単語対置換部４７２及びスコア算出部４７４≫
図１３に示す因果関係仮説生成部４１２を構成する意味的関係パターンマッチング部４７０、単語対置換部４７２、スコア算出部４７４及びテンプレート置換部４７６は、いずれもコンピュータプログラムにより実現できる。本実施の形態におけるそのためのプログラムの制御構造について説明する。

図１５を参照して、このプログラムは、図１３に示す因果関係シードペアＤＢ４１０から、因果関係シードペアを順次読み出し、それらの全てに対して以下の処理を実行するステップ５２０を含む。

ステップ５２０で実行される処理は、処理対象である因果関係シードペアの原因フレーズ及び結果フレーズの名詞からなる単語クラス対と、意味的関係パターンＤＢ４００に格納された意味的関係パターンとをマッチングし、単語クラス対がマッチする意味的関係パターンがあるか否かを判定するステップ５２２と、ステップ５２２でマッチする意味的関係パターンがあると判定されたときに、マッチした全パターンの全てに対して、以下に説明する処理を実行するステップ５２４とを含む。ステップ５２２でマッチする意味的関係パターンがないと判定されたときには処理対象の因果関係シードペアに対する処理は終了し、次の因果関係シードペアの処理に移る。

ステップ５２４で実行される処理は、マッチした意味的関係パターンの識別子を持つ単語対を単語対ＤＢ４０２から全て読み出すステップ５２６と、ステップ５２６で読み出された単語対の各々に対して、以下の処理を実行するステップ５２８とを含む。

ステップ５２８は、処理対象となっている因果関係シードペアの原因フレーズと結果フレーズとの名詞部分を、読み出された単語対に含まれる単語を用いてそれぞれ置換することで新たな因果関係仮説を生成するステップ５３０と、ステップ５３０で生成された因果関係仮説に対して、図１２のステップ４５４で実行する処理と同様の処理で因果関係強度のスコアを算出するステップ５３２と、ステップ５３０で生成された因果関係仮説に、ステップ５３２で算出された因果関係強度のスコアを付して因果関係仮説ＤＢ４１６（図１３参照）に出力するステップ５３４とを含む。ステップ５２２の判定がＹＥＳだった場合、以上の処理をマッチしたパターンの全てに対して実行する。

このプログラムはさらに、ステップ５２２の判定がＮＯの場合、及びステップ５２２の判定がＹＥＳで、処理中の因果関係シードペアに対してステップ５２４の処理が全て完了した後に実行され、処理中の因果関係シードペアに対して、その原因フレーズと結果フレーズとのそれぞれの矛盾表現を全て矛盾表現辞書４２２から読み出すステップ５３６と、ステップ５３６で読み出された原因フレーズの矛盾表現と結果フレーズの矛盾表現との組合せの各々について、それらを用いて因果関係シードペアの原因フレーズと結果フレーズとを書き換えて新たな因果関係仮説を生成するステップ５３８と、ステップ５３８で生成された全ての因果関係仮説について、因果関係強度を算出するステップ５４０と、ステップ５３８で生成された全ての因果関係仮説にステップ５４０でそれぞれ算出されたスコアを付して因果関係仮説ＤＢ４１６に出力するステップ５４２とを含む。

以上の処理が全ての因果関係シードペアに対して完了するとこのプログラムの実行は終了する。

≪因果関係仮説フィルタリング部４１８≫
以上のようにして生成された因果関係仮説には、正しいものも含まれるが、誤ったものも含まれる。そこで、正しい因果関係のみを選択することが必要である。因果関係仮説フィルタリング部４１８はそうしたフィルタリングの処理を実行する。

図１６を参照して、因果関係仮説フィルタリング部４１８は、因果関係仮説ＤＢ４１６から因果関係仮説を順次読み出し、その各々について因果関係の一貫性を検証することにより因果関係仮説をフィルタリングする一貫性検証フィルタリング部５５０と、一貫性検証フィルタリング部５５０によるフィルタリングを経て残った因果関係仮説に対し、因果関係仮説を構成するフレーズペアの名詞ペアの関連度に基づくフィルタリングを行なう関連度によるフィルタリング部５５２と、関連度によるフィルタリング部５５２によるフィルタリングを経て残った因果関係仮説に対し、その原因フレーズ及び結果フレーズがＷＥＢアーカイブ４４内において、文内でどのような順序で出現しているかによってフィルタリングを行なう出現順序検証によるフィルタリング部５５４と、出現順序検証によるフィルタリング部５５４によるフィルタリングを経て残った因果関係仮説に対して、その原因フレーズ又は結果フレーズに含まれる名詞が非常に多くの因果関係仮説で用いられているために意味があまりに広く漠然としていると考えられるものを含む因果関係仮説を除外する、名詞の出現頻度によるフィルタリング部５５６と、因果関係仮説の構成要素である名詞に対し、ＷＥＢアーカイブ４４上で特定の形の修飾句を伴っているか否かを判定することで、同じく漠然とした意味しか持っていない名詞を含む因果関係仮説を除外し、最終的な因果関係フレーズペアを因果関係フレーズペアＤＢ７０に出力する除外単語によるフィルタリング部５６６とを含む。

因果関係仮説フィルタリング部４１８はさらに、名詞の出現頻度によるフィルタリング部５５６での処理に用いるために、因果関係仮説ＤＢ４１６に記録された因果関係仮説における名詞の出現頻度を算出するための名詞の出現頻度算出部５５８と、名詞の出現頻度算出部５５８により算出された名詞の出現頻度を記憶する名詞の出現頻度ＤＢ５６０と、ＷＥＢアーカイブ４４の全体を検索して、「ＡのＢ」という形で他の句により修飾して用いられている名詞（「Ｂ」に相当する。）を抽出する被修飾名詞の抽出部５６２と、被修飾名詞の抽出部５６２により抽出された名詞を、除外単語によるフィルタリング部５６６での因果関係の除外に用いるために記憶する除外単語ＤＢ５６４とを含む。以下因果関係仮説フィルタリング部４１８を構成する５つのフィルタリング部等について、詳細を説明する。

《一貫性検証フィルタリング部５５０》
一貫性検証フィルタリング部５５０は、因果関係の原因フレーズ及び結果フレーズに含まれる名詞ペアに着目し、ある因果関係仮説が、他の因果関係仮説と一貫しているか否かを判断して一貫しているもののみを残す処理を行なう。ここで、例えば「海面が上昇する→干ばつが続く」という因果関係仮説があったとすれば、この因果関係仮説の名詞ペアは「海面」及び「干ばつ」となる。

一貫性検証フィルタリング部５５０は、名詞ペア（ｎ_１，ｎ_２）を含む因果関係仮説と名詞ペア（ｎ_２，ｎ_１）を含む因果関係仮説とが存在する場合、それらの因果関係仮説を候補から除外する。例えば「海面が上昇する→干ばつが続く」という因果関係仮説と、「干ばつが続く→海面が上昇する」という因果関係仮説との双方が存在するときには、双方の因果関係仮説を除外する。

このように、ある因果関係仮説の原因フレーズと結果フレーズとが他の因果関係仮説の原因フレーズ及び結果フレーズと逆の関係になっている場合、これら因果関係フレーズの両者とも因果関係としては相当でないと考えられるためである。

《関連度によるフィルタリング部５５２》
関連度によるフィルタリング部５５２は、因果関係仮説の名詞ペアについて、相互の関連度が低いものを除外する。関連度としては、例えば相互情報量（ＰＭＩ）、ＤＩＣＥ係数、Ｊａｃｃａｒｄ係数、χ二乗値などを使用できる。具体的な計算方法は以下のとおりである。

ＰＭＩ
ＰＭＩは名詞ｘ、ｙの関連度を表す指標である。ＰＭＩ（ｘ，ｙ）は以下の式で算出される。以下の式でＰ（ｘ）は名詞ｘの出現確率、Ｐ（ｙ）は名詞ｙの出現確率Ｐ（ｘ，ｙ）は名詞ｘ、ｙの共起確率を表す。

なお、名詞ｘ，ｙの共起確率を計算する際に名詞ｘ，ｙの共起頻度を数える必要がある。共起頻度は、例えば、名詞ｘ，ｙの１文書での共起頻度を数えたり、１文での共起頻度を数えたりすることで得ることができる。

ＤＩＣＥ係数
ＤＩＣＥ係数は、２つの単語間の共起関係を定量化するために使用される。単語ｘが出現する文書数をｄｆ（ｘ）、単語ｙが出現する文書数をｄｆ（ｙ）とし、単語ｘ，ｙの共起頻度をｄｆ（ｘ、ｙ）とすると、単語ｘ，ｙに対するダイス係数ＤＩＣＥ（ｘ、ｙ）は以下の式で計算される。

Ｊａｃｃａｒｄ係数
Ｊａｃｃａｒｄ係数は、２つの集合の類似度を表す尺度である。例えば名詞ｘが出現する文又は文書の集合をＳ（ｘ），名詞ｙが出現する文又は文書の集合をＳ（ｙ）としたときに、名詞ｘ，ｙの間の類似度は、以下のように集合Ｓ（ｘ）及びＳ（ｙ）の間のＪａｃｃａｒｄ係数Ｊ（Ｓ（ｘ），Ｓ（ｙ））で表すことができる。

χ二乗値
χ二乗値はχ二乗検定で使用されるが、２つの単語が無関係か否かを調べる際に使用できる。例えば、２つの単語ｘ，ｙに関するχ二乗値は、多数の文書において単語ｘ，ｙがそれぞれ出現するか否かに基づいて、例えば縦軸に単語ｘ、横軸に単語ｙの出現の有無をそれぞれラベルとする２×２のクロス表を作成することで、次の式により算出される。

ここで、Ｎ_１１は単語ｘ、ｙの双方が出現する文書数、Ｎ_１０は単語ｘが出現し、単語ｙが出現しない文書数、Ｎ_０１は単語ｘが出現せず、単語ｙが出現する文書数、Ｎ_００は単語ｘ、ｙがいずれも出現しない単語数を表す。Ｅ_１１は、単語ｘと単語ｙとが独立であると仮定したときの文書数Ｎ_１１の期待度数を示し、以下Ｅ_１０，Ｅ_０１，Ｅ_００はそれぞれＮ_１０，Ｎ_０１，Ｎ_００に対応する期待度数である。単語ｘ，ｙの関係が無関係に近ければχ二乗値は大きくなり、関係が深ければχ二乗値は小さくなる。

《出現順序検証によるフィルタリング部５５４》
出現順序検証によるフィルタリング部５５４は、因果関係仮説の構成要素の出現順序に基づいて因果関係仮説をフィルタリングする。例えば、ＷＥＢアーカイブ４４のある文において、ある因果関係仮説の結果フレーズの名詞が原因フレーズの名詞より先に出現している場合、その因果関係を除外するという方法が考えられる。

例を挙げると、因果関係仮説が「エネルギー産生を高める→循環系を抑える」（名詞ペアは「エネルギー産生」と「循環系」）である場合、ＷＥＢアーカイブ４４の中のある文において、「グルココルチコイドは循環系を賦活し、エネルギー産生を高め、不要な合成系は抑える。」という表現があった場合、この因果関係を除外する。元の「エネルギー産生」と「循環系」という名詞が、逆の順序で出現している文が存在しているためである。

《名詞の出現頻度によるフィルタリング部５５６》
名詞の出現頻度によるフィルタリング部５５６は、異なる多数の因果関係仮説に出現する名詞ペアを含む因果関係仮説を除外する。例えば以下のような例が考えられる
−「地球温暖化が進行する→被害を被る」
−「株安になる→被害が発生する」
−「被害が出る→計画を中止する」
この例では、多数出現する「被害」という名詞を含むため、これら因果関係仮説を全て除外する。このように異なる多数の因果関係仮説に出現する名詞は、そもそも意味が漠然としており、因果関係として採用するのは避けた方がよいためである。

このために因果関係仮説フィルタリング部４１８は、名詞の出現頻度算出部５５８と名詞の出現頻度ＤＢ５６０とを含んでいる。

《名詞の出現頻度算出部５５８》
名詞の出現頻度算出部５５８は、因果関係仮説ＤＢ４１６に格納されている因果関係仮説フレーズペアの原因フレーズ内の名詞と結果フレーズ内の名詞との各々について、予め因果関係仮説ＤＢ４１６の全ての因果関係仮説における出現頻度を計算する。

《名詞の出現頻度ＤＢ５６０》
名詞の出現頻度ＤＢ５６０は、名詞の出現頻度算出部５５８により計算された、各名詞の出現頻度を格納するためのものである。名詞の出現頻度ＤＢ５６０は、名詞が与えられるとその出現頻度を返すことができる。名詞の出現頻度によるフィルタリング部５５６はこの機能を用いて因果関係仮説のフィルタリングを行なう。

《除外単語によるフィルタリング部５６６》
除外単語によるフィルタリング部５６６は、ＷＥＢアーカイブ４４において「ＡのＢ」における「Ｂ」のように、修飾句により修飾された名詞（「被修飾名詞」と呼ぶ。）を含む因果関係仮説を除外する。このように修飾句が名詞に付されている場合、フレーズの意味はむしろ修飾句により表されており、被修飾名詞そのものの意味は特定的でなく漠然としていると考えられるためである。すなわち、被修飾名詞を含む因果関係仮説も、因果関係として採用することが妥当とは言えないためである。このようにして得られた被修飾名詞を、ここでは除外単語と呼ぶ。因果関係仮説フィルタリング部４１８は、このために、被修飾名詞の抽出部５６２及び除外単語ＤＢ５６４を含む。

《被修飾名詞の抽出部５６２》
被修飾名詞の抽出部５６２は、ＷＥＢアーカイブ４４から被修飾名詞の集合を抽出する。この処理はいつでも可能である。

《除外単語ＤＢ５６４》
除外単語ＤＢ５６４は、被修飾名詞の抽出部５６２により抽出された被修飾名詞を、除外単語として記憶する。除外単語ＤＢ５６４は、名詞が与えられると、その名詞が除外単語か否かを表す情報を出力する機能を持つ。典型的には、除外単語ＤＢ５６４は、除外単語によるフィルタリング部５６６から名詞が与えられると、その名詞が除外単語として記憶されているか否かを示す情報を除外単語によるフィルタリング部５６６に返す。除外単語ＤＢ５６４に名詞が記憶されていれば除外単語によるフィルタリング部５６６はその単語を含む因果関係仮説を除外する。なければその因果関係仮説は採用され、因果関係フレーズペアＤＢ７０に記憶される。

〈社会シナリオ生成部７２〉
図１７を参照して、社会シナリオ生成部７２は、因果関係フレーズペアＤＢ７０に記憶された因果関係フレーズペアを連鎖させることにより社会シナリオ候補を生成する社会シナリオ候補生成部５８０と、社会シナリオ候補生成部５８０により生成された社会シナリオ候補を所定のスコアでランキングして社会シナリオＤＢ３８に出力する社会シナリオランキング部５８２とを含む。因果関係フレーズペアが多数ある場合、それらから適切なものを適切な順序で連鎖させることにより、因果関係で結ばれた長い因果関係フレーズ列が得られる。本実施の形態では、このフレーズ列を社会シナリオと呼ぶ。この社会シナリオは、人間が考えないような関係で多くの因果関係を結び付け、ある原因フレーズから、思いもよらない結果フレーズを導き出すことができる。ただし、そのためには、因果関係を連鎖させるために適切な因果関係フレーズペアのペアを選び、これらを連鎖させていく必要がある。社会シナリオ候補生成部５８０はそのためのものである。ただし、このようにして生成された社会シナリオであっても、その原因と結果との間の関係が適切なものと、それほど適切ではないものとが存在するはずである。社会シナリオの適切さを表すスコアを各社会シナリオに付し、スコアの高い社会シナリオとそうでない社会シナリオとを判別できるようにするのが社会シナリオランキング部５８２である。

このような因果関係の連鎖を行なう場合、単純にはある因果関係フレーズペアの結果フレーズと、他の因果関係フレーズペアの原因フレーズとが同一であれば分かり易い。しかし、現実には文字上では異なっていても、２つの因果関係フレーズペアを連鎖させることができるようなフレーズ間の関係がある。それらを見落とすと、生成される社会シナリオの範囲が狭くなってしまう危険性がある。そこで、２つの因果関係フレーズペアの連結部となりうる、ある因果関係フレーズペアの結果フレーズと、別の因果関係フレーズペアの原因フレーズとについて、文字列上で同一でなくても両者を実質的に同一視できる関係を見出すことが重要である。

本実施の形態では、このように文字列上で同一でなくても両者を実質的に同一視することを、両者が因果的一貫性を有する、ということにする。この因果的一貫性は、言い換え及び含意を包含する新しい概念であり、従来の自然言語処理技術のみでは実現できない。社会シナリオ候補生成部５８０は、２つの因果関係フレーズペアについて、一方の結果フレーズと他方の原因フレーズとの因果的一貫性を評価することにより、因果的一貫性を持つ因果関係フレーズペアを連鎖させる。

〈社会シナリオ候補生成部５８０〉
図１８を参照して、社会シナリオ候補生成部５８０は、単純述語テンプレートＤＢ６２、因果関係フレーズペアＤＢ７０、及び単語クラスＤＢ４６を参照し、因果関係フレーズペアＤＢ７０内において、名詞が同じで単純述語テンプレートの極性が同じフレーズを、因果的一貫性を持つ同義のフレーズとみなしてその組合せを表す情報（連鎖情報）を生成し出力する第１の同義関係生成部６００を含む。この連鎖情報は、因果的一貫性を持つと判定された２つのフレーズの識別子をペアにしたものである。

社会シナリオ候補生成部５８０はさらに、単語クラスＤＢ４６と因果関係フレーズペアＤＢ７０とを参照し、因果関係フレーズペアＤＢ７０内において、名詞が同じでフレーズ全体の評価極性が同じフレーズを因果的一貫性のある同義のフレーズとみなして、その連鎖情報を生成し出力する第２の同義関係生成部６０２と、単語クラスＤＢ４６を参照し、因果関係フレーズペアＤＢ７０内において、名詞が同じで、大量文書中での出現文脈が類似しているテンプレートを持つフレーズの対を、因果的一貫性のある同義のフレーズとみなして選択し、その連鎖情報を生成し出力する第３の同義関係生成部６０４とを含む。

社会シナリオ候補生成部５８０はさらに、第３の同義関係生成部６０４での判定に用いるテンプレートの分布類似度を予め記憶するテンプレート分布類似度ＤＢ６１４を含む。テンプレート分布類似度ＤＢ６１４はどのような手法により作成してもよいが、本実施の形態では、社会シナリオ候補生成部５８０は、このテンプレート分布類似度ＤＢ６１４を予め作成するために、ＷＥＢアーカイブ４４及び複雑述語テンプレートＤＢ６６を参照して、ＷＥＢアーカイブ４４における各テンプレートの分布類似度を算出し、その結果をテンプレート分布類似度ＤＢ６１４に格納する分布類似度算出部６１６を含んでいる。

なお、因果関係フレーズペアを連結するための手法としては、上記したように２つのフレーズの因果的一貫性を用いることだけには限定されない。例えば、２つのフレーズの間で因果的一貫性はないものの、意味的に考えてあるフレーズから別のフレーズへの因果関係を橋渡しする関係が存在する場合がある。たとえば、一方のフレーズが「日光がさえぎられる」というものであり、他方のフレーズが「光合成が妨げられる」というものである場合、両者をつなぐリンクとして例えば「日光が光合成に必要だ」というフレーズを考えることができる。すると、このフレーズを媒介にして「日光がさえぎられる」という結果フレーズを持つ因果関係フレーズペアと「光合成が妨げられる」という原因フレーズを持つ因果関係フレーズペアとを連鎖させることができる。しかしこの場合、新たに挿入された「日光が光合成に必要だ」というフレーズは、社会シナリオに挿入する必要はない。因果関係の先頭と末尾とが分かれば十分だからである。したがってこのようにして因果関係フレーズペアを連鎖させる場合にも、フレーズの識別子のペアを記憶しておけばよい。この場合には連鎖には順序が必要になってくるので、順序付のフレーズ識別子ペアを記憶する必要がある。

このような処理を行なって順序付フレーズ識別子ペアを生成するのが図１８に示す連結関係生成部６０６である。どのようにしてこうしたリンクを形成するフレーズ間の関係を見出すかが問題である。ここでは、２つのフレーズが含む名詞間の意味的関係に着目してこの問題を解決した。すなわち、ある２つの名詞の間に特定の関係が成立しているときに、両者の間にその関係が成立するものとして、フレーズ間にリンクがあるように処理する。ここでの関係としては、図１１に示した単語対抽出部４０６により抽出され、単語対ＤＢ４０２に記録された単語対を形成する単語間の関係、すなわち意味的関係パターンＤＢ４００に記録された意味的関係パターンにより表される意味的関係を用いることができる。単語対抽出部４０６は、必要関係、材料関係、使用関係、予防関係、及び因果関係を持つ単語対を抽出し、そうした単語対を単語対ＤＢ４０２に、そうした関係を表すパターンを意味的関係パターンＤＢ４００に、それぞれ記録している。したがって、これらを用いることにより、フレーズ間に特定の関係が成立しているか否かを調べ、成立している場合には両者の間に因果関係があるものとして、フレーズ間を連結する。このようにある因果関係フレーズペアの結果フレーズと、他の因果関係フレーズペアの原因フレーズとの間にある意味的関係が成立し、そのために両者の間に因果関係が成立すると考えられる場合を、「意味的関係によるリンク」と呼ぶ。

連結関係生成部６０６は、あるフレーズに含まれる名詞の単語と、他のフレーズに含まれる名詞の単語が、単語対ＤＢ４０２に単語対として記憶されていれば両者の間にはその単語対により表される関係が成立するものと判定する。通常、この場合の因果関係は一方向のみなので、連結関係生成部６０６は、双方のフレーズの識別子を順序付の識別子対として生成し連結情報生成部６０８に出力する。

社会シナリオ候補生成部５８０はさらに、第１の同義関係生成部６００、第２の同義関係生成部６０２、及び第３の同義関係生成部６０４が出力するフレーズの識別子対、及び連結関係生成部６０６が出力するフレーズの順序付の識別子対を用い、ある因果関係フレーズペアと、その因果関係フレーズペアと因果関係で結ばれる因果関係フレーズペアの組とからなるツリーを因果関係フレーズペアごとに生成する連結情報生成部６０８と、連結情報生成部６０８の出力するツリーを記憶する連結関係ＤＢ６１０とを含む。このツリーを用いることで、因果関係フレーズペアから次の因果関係フレーズペアへ、さらにその次の因果関係フレーズペアへ、因果関係を連鎖させていくことができる。

社会シナリオ候補生成部５８０はさらに、因果関係フレーズペアＤＢ７０に記憶された連結情報を用い、因果関係フレーズペアＤＢ７０に記憶された任意の因果関係フレーズペアを起点に因果関係フレーズペアを順次たどって連結していくことにより、社会シナリオ候補を生成する因果関係連結部６１２と、因果関係連結部６１２が生成する社会シナリオ候補を記憶する社会シナリオ候補ＤＢ６１８とを含む。

因果関係連結部６１２は、例えば連結する因果関係の数の上限が与えられると、その範囲で可能な全ての社会シナリオを形成したり、ある因果関係フレーズペアが指定されると、その因果関係フレーズペアに続く因果関係フレーズペアを複数個表示し、さらにその中からいずれかの因果関係フレーズペアが指定されると、新たに指定された因果関係フレーズペアに続く因果関係フレーズペアを複数個表示し、という処理を対話的に繰返すことにより社会シナリオを生成したりすることもできる。

〈社会シナリオランキング部５８２〉
図１９を参照して、本実施の形態に係る社会シナリオランキング部５８２（図１７参照）は、社会シナリオ候補ＤＢ６１８に記憶された社会シナリオに、それらを構成する全ての因果関係フレーズペアの因果関係としての強さに基づくスコアを付与する。本実施の形態では、社会シナリオランキング部５８２は、ある社会シナリオ候補に含まれる因果関係フレーズペアの各々について、図１２を参照して説明した因果関係強度のスコアを付与する。社会シナリオランキング部５８２はさらに、それらを全て乗算することで社会シナリオ候補にスコアを付与する。

すなわち、社会シナリオランキング部５８２は、社会シナリオ候補ＤＢ６１８に記憶された社会シナリオ候補の各々について、それらを構成する因果関係強度を因果関係フレーズペアに付された因果関係強度スコアを参照して計算し、さらにそれらを乗算することでスコアを付与して出力する全体因果関係スコア算出部６４０と、全体因果関係スコア算出部６４０の出力するスコア付き社会シナリオ候補を記憶するスコア付き社会シナリオ候補ＤＢ６４２と、スコア付き社会シナリオ候補ＤＢ６４２に記憶されたスコア付き社会シナリオ候補をそのスコアの降順でソートする社会シナリオソート部６４４と、ソートされた社会シナリオ候補を記憶するソート済社会シナリオ候補ＤＢ６４６と、ソート済社会シナリオ候補ＤＢ６４６に記憶された社会シナリオ候補の中からスコアがしきい値以上のものを選択して社会シナリオＤＢ３８に出力する社会シナリオ選択部６４８とを含む。

［動作］
この第１の実施の形態に係る社会シナリオ生成システム３０は、以下のように動作する。図１を参照して、シードテンプレートＤＢ３２には予め少数のシードテンプレートが格納される。各シードテンプレートが活性か否かについても予め判断されており、各テンプレートにそのタグが付されている。一方、接続詞ＤＢ３４には、日本語の順接接続詞等及び逆接接続詞等が格納され、それらの種類も記憶されている。また、矛盾表現辞書４２２(図１１、図１３)には、予め収集された、互いに矛盾する表現からなるペアが多数記憶されている。

〈準備工程〉
図７に示すトラブル名詞極性判定用辞書２６６については、予めＷＥＢアーカイブ４４を参照してトラブル名詞の極性を判定するために必要なパターンを収集し、極性とともに記憶しておく。

さらに、図１１に示す意味的関係パターンＤＢ４００及び単語対ＤＢ４０２も予め準備しておく。そのために、シードパターンＤＢ４０４に単語間の所定の関係を表すシードパターンをいくつか格納しておく。単語クラスＤＢ４６についても予め準備しておく。シードパターンＤＢ４０４及び単語クラスＤＢ４６はどのようにして準備してもよい。

意味的関係パターンＤＢ４００及び単語対ＤＢ４０２の準備をするために、単語対抽出部４０６は以下のように動作する。図１４を参照して、単語対抽出部４０６のパターン抽出部４９０は、図１４に示すようにＷＥＢアーカイブ４４から様々な単語間の関係を抽出する。この処理のためにパターン抽出部４９０は、ＷＥＢアーカイブ４４から２つの名詞を含むフレーズを多数抽出する。これらのフレーズに含まれる名詞を、単語クラスＤＢ４６から読み出した対応するクラスの変数で置換することで多数のパターンを生成する。これらパターンをさらに集約し、集約されたユニークなパターンをパターンＤＢ４９２に格納する。

単語対候補取得部４９４は、シードパターンＤＢ４０４を参照しながら、ＷＥＢアーカイブ４４から、シードパターンのいずれかに合致する形で出現する単語対を単語対候補として取得し、単語対候補ＤＢ４９６に蓄積する。これら単語対には、対応するシードパターンが属するシードパターン群の識別子（又はシードパターンそのものの識別子でもよい）が付される。

一方、クラス対適合度算出部５０２は、単語対候補ＤＢ４９６に記憶された単語対に基づき、任意の２つの単語クラス間におけるクラス対適合度をクラス対ごとに算出し、クラス対適合度ＤＢ５０４に記憶させる。パターン類似度算出部５０６は、パターンＤＢ４９２に記憶されたパターンとシードパターンＤＢ４０４に記憶されたシードパターン群との組合せごとにパターン類似度を算出し、それらの組合せごとにパターン類似度ＤＢ５０８に記憶させる。親和性情報算出部５１０は、単語対と、パターンＤＢ４９２に記憶された各パターン及びシードパターンＤＢ４０４に記憶されたシードパターン群との親和性情報を算出し、単語対とシードパターン等との組合せごとに親和性情報ＤＢ５１２に記憶させる。除外クラス対特定部５１４は、単語クラスＤＢ４６に記憶されている単語のクラス対ごとに、ＷＥＢアーカイブ４４での各クラスに属する単語の出現頻度の差がしきい値以上か否かを判定する。除外クラス対特定部５１４はさらに、差がしきい値以上のクラス対を特定し、除外クラス対ＤＢ５１６に格納する。

単語対スコアリング部４９８は、クラス対適合度ＤＢ５０４に記憶されたクラス対適合度、パターン類似度ＤＢ５０８に記憶されたパターン類似度、親和性情報ＤＢ５１２に記憶された親和性情報を用い、単語対候補ＤＢ４９６に格納された単語対ごとに前述したスコアＳｃｏｒｅを算出する。

単語対選択部５００は、単語対スコアリング部４９８によりスコアリングされた単語対のうち、上位の所定個数を選択し、単語対ＤＢ４０２に格納する。このとき、各単語対には、シードパターンＤＢ４０４に記憶されたシードパターン群のうち、その単語対の取得時にマッチしたシードパターンを含むものの識別子が付与されている。

一方、以上のような処理を１度だけで済ますよりは、新たに得られたシードパターンをシードパターンＤＢ４０４に追加しながら上記した処理を繰返すと、単語対ＤＢ４０２の数も精度も高めることができる。そのためにパターンマージ部５１８は、パターン類似度ＤＢ５０８に記憶されたパターン及びシードパターン群の間の類似度を用い、あるシードパターン群との類似度がしきい値より高いパターンを、シードパターンＤＢ４０４のそのシードパターン群に追加する。シードパターンＤＢ４０４がこのようにして更新されると、この更新されたシードパターン群を用いて上記した処理を繰返す。この処理を所定の終了条件が成立するまで繰返すことで、精度の高い単語対ＤＢ４０２と、様々な意味的関係に分類された、シードパターン群とを得ることができる。シードパターンの数は最初に準備したものより大幅に増加することが通常であり、その結果、幅広い範囲の表現について、その表現がどのような意味的関係に合致するかを判定できるようになる。

〈単純述語テンプレートの収集〉
単純述語テンプレート収集部６０は以下のように動作して単純述語テンプレートＤＢ６２を構築する。図２を参照して、初期テンプレートペア生成部９０は、シードテンプレートＤＢ３２に記憶された全シードテンプレートの全ての組合せと、接続詞ＤＢ３４に記憶された接続詞等との可能な組合せを全て生成し、これらを全てテンプレートペアとして初期テンプレートペアＤＢ９２に記憶させる。名詞ペア収集部９４は、初期テンプレートペアＤＢ９２に記憶されたテンプレートペアの各々について、そのテンプレートペアと共起する名詞ペアをＷＥＢアーカイブ４４から収集し、名詞ペアＤＢ９６に記憶させる。名詞ペア極性判定部９８は、これら名詞ペアの各々について、その名詞ペアと共起するテンプレートペア内のテンプレートの活性／不活性と、テンプレートペアを結び付ける接続詞ＤＢ３４からの接続詞等の種類とに応じて、その名詞ペアが正の関係か負の関係かを判定し、各名詞ペアに極性タグを付与する。

続いて、テンプレートペア収集部１００が、各名詞ペアについて、ＷＥＢアーカイブ４４からその名詞ペアと共起するテンプレートペアを収集し、テンプレートペアＤＢ１０２に格納する。

これらテンプレートペアの各々について、テンプレート活性マッチ判定部１０４が、共起する名詞ペアの正／負と、接続詞等の種類（順接、逆接）とに応じ、テンプレートペアを構成するテンプレートの活性／不活性が互いに同じか、反対かを決定する。このとき、あるテンプレートペアについて、それらの活性が同じとなるものと反対となるものとが存在する場合には、同じものと反対のものとを出現回数を比較し、多数決により同じか反対かを決定する。テンプレート活性マッチ判定部１０４は、テンプレートペアＤＢ１０２に記憶されたテンプレートペアの各々について、それらの活性／不活性が同じか反対かを示すタグを付与する。

テンプレートネットワーク構築部１０６は、テンプレートペアＤＢ１０２に記憶されたテンプレートペアに基づいて、テンプレートネットワーク１４０(図３)を構築する。テンプレートネットワーク構築部１０６は、テンプレートペアを構成する２つのテンプレートに対応するノードがもしネットワークになければネットワークに追加し、そのリンクがなければそれも追加する。この処理を全てのテンプレートペアについて実行することで、テンプレートネットワーク１４０の原型を構築する。テンプレートネットワーク構築部１０６はさらに、ネットワーク内で互いにリンクのないノードの対全てについて、同義・含意関係辞書１０８を参照して、それらノードに対応するテンプレートの間にテーブル１０に示すような特定の関係があるか否かを判定し、あれば互いの間に「同一」というリンクを張る。さらにテンプレートネットワーク構築部１０６は、このようにして構築されたネットワークの各リンクに対し、式（１）によって算出される重みを付与する。このようにしてリンクが追加されたテンプレートネットワーク１４０はテンプレートネットワークＤＢ１１０に記憶される。

テンプレート活性値算出部１１２は、図６に示す処理を実行する。すなわち、最初にシードテンプレートに、その活性／不活性に応じて＋１又は−１の活性値を付与する（ステップ２４０）。さらに、電子スピンのエネルギーに類似した量として式（２）により定義された値Ｅ（ｘ，Ｗ）を最小化する処理を実行することにより（ステップ２４２）、各テンプレートの活性値を推定し、各テンプレートにその活性値を付与する。これら活性値の値には、負のものもあるし正のものもある。高活性度テンプレート抽出部１１４は、このようにして活性値が推定されたテンプレートの内、活性値の絶対値が所定のしきい値よりも大きなものを選択し、それらテンプレートを用いて単純述語テンプレートＤＢ６２を構築する。なお、ここでは、しきい値により選択するのではなく、活性値の絶対値の大きさにしたがって順位をつけるようにしてもよい。

図２に示す終了判定部１１６は、単純述語テンプレートＤＢ６２が構築された時点で、所定の終了条件が充足されたか否かを判定する。終了条件としては、例えば繰返し数が所定数を超えた、又は、テンプレート数が所定数を超えた、というような条件を想定できる。もしも終了条件が成立していれば、単純述語テンプレートＤＢ６２が完成したものとされる。もしも終了条件が成立していなければ、シードテンプレート更新部１１８は、単純述語テンプレートＤＢ６２に含まれるテンプレートを新たなシードテンプレートとして、シードテンプレートＤＢ３２を更新する。これらシードテンプレートには、以上の処理により計算された活性値が付与されているので、以後の処理ではこれらの活性値を使用してこれまで記載したのと同様の処理を実行する。

以上の処理を繰返し、終了条件が充足されたところで単純述語テンプレートＤＢ６２が完成したことになる。以後、複雑述語テンプレート収集部６４がこの単純述語テンプレートＤＢ６２を使用して、インターネット４０から複雑述語テンプレートを獲得する処理を実行する。

〈複雑述語テンプレートの収集〉
具体的には複雑述語テンプレート収集部６４の複雑述語テンプレート候補抽出部２６８は、以下のようにしてサ変名詞テンプレート候補ＤＢ２７０、数量名詞テンプレート候補ＤＢ２７２、及びトラブル名詞テンプレート候補ＤＢ２７４を構築する(図７)。すなわち、図８を参照して、複雑述語テンプレート候補抽出部２６８は、ＷＥＢアーカイブ４４の全文書の全文に対して（ステップ３００）、形態素解析（ステップ３０２）及び係り受け解析（ステップ３０４）を実行し、係り受け木を生成する。続いて、各ノードに対して、次のような処理を実行する（ステップ３０６）。

まず、そのノードの単語が対象名詞か否かを判定する（ステップ３０８）。ここでの判定には、図７に示す対象名詞辞書２６０を利用する。単語が対象名詞でなければ（ステップ３０８でＮＯ）次のノードの処理に移る。単語が対象名詞であれば（ステップ３０８でＹＥＳ）、その係り先がいずれかの単純述語テンプレートか否かを判定する（ステップ３１０）。単純述語テンプレートでなければ（ステップ３１０でＮＯ）次のノードの処理に移る。単純述語テンプレートであれば（ステップ３１０でＹＥＳ）、処理対象のノードの係り受け元のノード末尾の助詞と、処理対象のノードの形態素と、係り先の単純述語テンプレートとを連結して複雑述語テンプレート候補を生成し（ステップ３１２）、その複雑述語テンプレートの対象名詞の種類に応じ、図７に示すサ変名詞テンプレート候補ＤＢ２７０、数量名詞テンプレート候補ＤＢ２７２、又はトラブル名詞テンプレート候補ＤＢ２７４に分類して格納する（ステップ３１４）。ここまでの処理が終了したら、係り受け木の次のノードに対する処理を行なう。

単純述語テンプレートＤＢ６２が得られた後、図７に示すサ変名詞極性判定部２６４は、サ変名詞極性付与部２７６によるサ変名詞テンプレートの極性付与に先立って、次のようにしてサ変名詞極性辞書２６２を構築する。具体的には、サ変名詞極性判定部２６４は各サ変名詞テンプレートに対して以下のような処理を行なう。

すなわち、サ変名詞極性判定部２６４は、そのサ変名詞テンプレート候補に対し、そのサ変名詞に対応するサ変動詞を特定し、単純述語テンプレートＤＢ６２においてこのサ変動詞を含む単純述語テンプレートを検索する。検索された全ての単純述語テンプレートの極性が一致していれば、サ変名詞極性判定部２６４はその極性を処理中のサ変名詞テンプレートの極性とし判定し、サ変名詞極性辞書２６２にサ変名詞と極性との組合せを見出しとして記憶する。

検索された単純述語テンプレートの極性が一致していないとき、典型的には単純述語テンプレートの先頭の助詞に応じて極性が変化しているときには、複雑述語テンプレートの極性を単純に決めることはできない。したがってこの場合、サ変名詞極性判定部２６４は以下のような処理を行なう。

すなわち、サ変名詞極性判定部２６４は、サ変名詞テンプレート候補のサ変名詞にＷＥＢアーカイブ４４において「ノ」格でかかっている名詞を全て特定する。このようにして特定した名詞が、どのような助詞を伴って上記したサ変動詞と共起しているか、その頻度を調べる。サ変名詞極性判定部２６４は、このようにして調べた結果、最も頻度が高かった助詞と、上記したサ変動詞とからなる単純述語テンプレートを特定し、その単純述語テンプレートの極性を、上記した「ノ」で係る名詞との組合せにおけるサ変名詞テンプレート候補の極性とする。この処理を、「ノ」でサ変名詞テンプレート候補に係る名詞との組合せの全てに対して行なうことで、そのサ変名詞テンプレート候補の、各名詞との組合せにおける極性を特定できる。

サ変名詞極性判定部２６４は、この情報をサ変名詞極性辞書２６２に記憶する。したがって、サ変名詞テンプレートが与えられたとき、そのサ変動詞を含む単純述語テンプレートの極性がサ変名詞極性辞書２６２に単一の極性として記憶されているときはその極性をもってサ変名詞テンプレートの極性とし、そうでないときには、そのサ変名詞テンプレートに係る「ノ」格の名詞が分かれば、サ変名詞極性辞書２６２を参照することでそのサ変名詞テンプレートの極性も判定できる。逆に言うと、サ変名詞テンプレートの一部については、その前に「ノ」格で出現する名詞が分からないと極性を判定できず、文脈に依存する。

図９を参照して、図７に示すサ変名詞極性付与部２７６は、サ変名詞テンプレート候補ＤＢ２７０に記憶されたサ変名詞テンプレート候補の各々に対し以下の処理を実行する（ステップ３４０）。すなわち、サ変名詞極性付与部２７６はサ変名詞極性辞書２６２を参照して、各サ変名詞テンプレート候補が含むサ変名詞の見出しが１つか否かを判定し（ステップ３４２）、見出しが１つであれば（ステップ３４２でＹＥＳ）その極性を処理対象のサ変名詞テンプレート候補に極性として付与し（ステップ３４４）、次のサ変名詞テンプレート候補の処理に移る。ステップ３４２の判定が否定的であれば、極性が文脈依存であることを示す値をサ変名詞テンプレート候補に極性として付与し、次のサ変名詞テンプレート候補の処理に移る。全てのサ変名詞テンプレートに対してこの処理が完了すると、親ルーチンに復帰する。

図７に示す数量名詞極性付与部２７８は、数量名詞テンプレート候補記憶部に記憶された数量名詞テンプレート中の数量名詞に活性の極性を付与し、複雑述語テンプレート極性算出部２８２に与える。

図７に示すトラブル名詞極性付与部２８０は、図１０を参照して、トラブル名詞テンプレート候補ＤＢ２７４に記憶されたトラブル名詞テンプレート候補の各々について、以下の処理を実行する（ステップ３７０）。ステップ３７０では、まず、トラブル名詞極性判定用辞書２６６を参照して、そのトラブル名詞に対する見出しが１つだけあるか否かを判定する（ステップ３７２）。判定がＹＥＳなら、その極性をトラブル名詞の極性として付与し（ステップ３７４）、複雑述語テンプレート極性算出部２８２に出力して次のトラブル名詞テンプレート候補の処理に移る。ステップ３７２の判定がＮＯなら、トラブル名詞の極性が文脈依存であることを示す値を極性としてトラブル名詞に付与し（ステップ３７６）、複雑述語テンプレート極性算出部２８２に出力して次のトラブル名詞テンプレート候補の処理に移る。全てのトラブル名詞テンプレート候補に対してこの処理が完了すると、処理を終了する。

複雑述語テンプレート極性算出部２８２は、各複雑述語テンプレート候補の名詞（サ変名詞、数量名詞、トラブル名詞）に付与された極性の値と、各候補の単純述語テンプレート部分の極性とを乗算することで複雑述語テンプレートの極性を算出し、その極性付の複雑述語テンプレートを複雑述語テンプレートＤＢ６６に格納する。このとき、複雑述語テンプレート極性算出部２８２は、サ変名詞テンプレート候補のサ変名詞及びトラブル名詞テンプレート候補のトラブル名詞の極性が文脈依存である場合には、複雑述語テンプレートの極性を上記のように算出することはせず、極性が文脈依存であることを示す値を複雑述語テンプレートに付与する。

〈因果関係フレーズペアの収集〉
図１に示す因果関係フレーズペア収集部６８は、複雑述語テンプレートＤＢ６６が生成された後、以下のようにして因果関係フレーズペアＤＢ７０を構築する。なおこの処理に先立って、意味的関係パターンＤＢ４００、単語対ＤＢ４０２、及び名詞の極性辞書４２０(図１１)を準備しておく必要がある。

図１１に示す因果関係シードペア収集部４０８は、以下のようにして因果関係シードペアを収集する。図１２を参照して、まず、ステップ４４０において、一文中で互いに順接接続詞等で接続されてＷＥＢアーカイブ４４内で共起している述語テンプレートペアと、その述語テンプレートペアに係る名詞からなる名詞ペアとをＷＥＢアーカイブ４４から因果関係シードペア候補として収集する。ここでの述語テンプレートは、単純述語テンプレートＤＢ６２に格納された単純述語テンプレートと、複雑述語テンプレートＤＢ６６に格納された複雑述語テンプレートペアとの双方を含む。各単純述語テンプレートには極性が付されている。複雑述語テンプレートのうち、数量名詞を含むものと、サ変名詞を含むものの一部と、トラブル名詞を含むものの一部にも同様に極性が付されている。複雑述語テンプレートのうち、サ変名詞テンプレートとトラブル名詞テンプレートとについては、名詞の極性が文脈依存を示す値である場合がある。そうした場合、因果関係シードペア収集部４０８はその直前に「ノ」格でかかっている名詞と複雑述語テンプレート内のサ変名詞との組合せでサ変名詞極性辞書２６２を検索する。サ変名詞極性辞書２６２からその組合せに対するサ変名詞の極性を得たうえで複雑述語テンプレート内の単純述語テンプレートの極性と乗算して複雑述語テンプレートの極性を判定する。

続いて、このようにして得られた全ての候補に対して、以下のステップ４４２を実行する。すなわち、ステップ４４２では、処理対象である候補内の名詞ペアの関係が正の関係か否かを判定する（ステップ４４４）。判定が肯定的な場合には、さらに、その候補の述語テンプレートペアの活性／不活性が同じか反対かを判定する（ステップ４４６）。ステップ４４６の判定が否定的ならこの候補は捨てる。すなわち、この候補に対しては何もしない。ステップ４４６の判定が肯定的ならこの候補を因果関係シードペア群に追加する（ステップ４４８）。この後、次の候補の処理に移る。

一方、ステップ４４４の判定が否定的なら、ステップ４５０でこの候補の述語テンプレートペアの活性／不活性が互いに反対か否かを判定する。判定が否定的ならこの候補は捨てる。判定が肯定的ならこの候補を因果関係シードペア群に追加する（ステップ４４８）。この後、次の候補の処理に移る。

以上の処理が全ての因果関係シードペア候補に対して終了すると、結果として得られた因果関係シードペア群内の全ての因果関係シードペアに対してステップ４５２の処理を実行する。すなわち、因果関係シードペア収集部４０８は、ステップ４５４で、各因果関係シードペアに対し、因果関係強度のスコアＣ_ｓ（ｐ_１，ｐ_２）を既に示した式（３）により算出する。式（３）を以下に再掲する。

ただしｐ_１，ｐ_２はそれぞれ、因果関係シードペアを構成するフレーズ、ｓ_１及びｓ_２はそれぞれ、フレーズｐ_１，ｐ_２を構成する述語テンプレートの活性値、記号｜ｓ_１｜は活性値ｓ_１の絶対値、ｎ_１，ｎ_２はそれぞれ、フレーズｐ_１，ｐ_２に含まれる名詞、ｎｐｆｒｅｑ（ｎ_１，ｎ_２）は、ｎ_１，ｎ_２が正の関係なら、ｎ_１，ｎ_２が活性／不活性の同じテンプレートペアと一文中で共起する頻度、ｎ_１，ｎ_２が負の関係なら、ｎ_１，ｎ_２が活性／不活性の異なる述語テンプレートペアと一文中で共起する頻度を、それぞれ表す。

このようにして全ての因果関係シードペアに対し因果関係強度のスコアを算出した後、ステップ４５６で因果関係シードペアをスコアと関連付けて因果関係シードペアＤＢ４１０に出力する。

このような処理を実行することにより、因果関係を表すフレーズのペアであって、単純述語テンプレート又は複雑述語テンプレートを含むペアを大量に、かつ自動的にＷＥＢアーカイブ４４から収集できる。なお、上記した式（３）に代えて式（４）を使用できることは前述したとおりである。

〈因果関係仮説の生成〉
因果関係シードペアＤＢ４１０に記憶された因果関係シードペアは大量ではあるものの、考えられる全ての因果関係を網羅したものではない。そこで、これら因果関係シードペアから、合理的な範囲でより多くの因果関係の仮説を生成し、最終的に得られる社会シナリオがカバーする範囲を広げることが必要である。そのために図１１に示す因果関係仮説生成部４１２は、因果関係シードペアＤＢ４１０に記憶された因果関係シードペアから次のようにさらに多数の因果関係仮説を生成し、因果関係仮説ＤＢ４１６に格納する。なお、本実施の形態では、この処理に先立って、既に説明したように、意味的関係パターンＤＢ４００、単語対ＤＢ４０２、及び互いに矛盾する表現からなる述語テンプレートペアを矛盾表現辞書４２２に記憶しておくことが必要である。

意味的関係パターンＤＢ４００は、互いに特定の意味的関係にある単語クラスが共起するパターンを、意味的関係ごとに意味的関係パターン群として記憶している。単語対ＤＢ４０２は、意味的関係パターンＤＢ４００に記憶されたパターンに適合する、特定の意味的関係を持つ単語対を予め記憶している。単語対ＤＢ４０２に記憶された単語対には、意味的関係パターンＤＢ４００に記憶された意味的関係パターン群のうち、その単語対が適合するパターン群の識別子が付されている。

矛盾表現を使用して因果関係仮説を生成しない場合には、矛盾表現辞書４２２は必要ない。

図１３及び図１５を参照して、因果関係仮説生成部４１２の意味的関係パターンマッチング部４７０は、因果関係シードペアＤＢ４１０に格納された因果関係シードペアの各々について、そのシードペアを構成するフレーズペア内の名詞ペアが属する単語クラスを単語クラスＤＢ４６から読み出し、以下の処理（図１５のステップ５２０）を行なう。すなわち、意味的関係パターンマッチング部４７０は、読み出した単語クラス対が意味的関係パターンＤＢ４００に格納された意味的関係パターンのいずれとマッチするか否かを判定し（図１５のステップ５２２）、マッチした意味的関係パターンの属する意味的関係パターン群の識別子を因果関係シードペアとともに単語対置換部４７２に与える。マッチした意味的パターンがない場合には、この因果関係シードペアに関して矛盾表現を用いて書き換えた新たな因果関係仮説を生成するために、図１３に示すテンプレート置換部４７６の処理を開始する。テンプレート置換部４７６の動作については後述する。

マッチした意味的パターンがある場合、単語対置換部４７２は、マッチした全パターンに対して以下の処理を実行する（図１５のステップ５２４）。すなわち、マッチした意味的関係パターンが属する意味的関係パターン群の識別子が与えられた単語対を単語対ＤＢ４０２から全て読み出す（図１５のステップ５２６）。読み出した単語対の各々を用い、以下の処理を実行する（図１５のステップ５２８）。まず、因果関係シードペアを構成する原因フレーズと結果フレーズとの双方の名詞ペアを、読み出された単語対で置換する（図１５のステップ５３０）。

スコア算出部４７４は、図１２のステップ４５４で行なわれるものと同様の手法により因各因果関係仮説に対する因果関係強度スコアを算出し（図１５のステップ５３２）、因果関係仮説に付して因果関係仮説ＤＢ４１６に出力する（図１５のステップ５３４）。以上の処理を、ステップ５２６で読み出された全ての単語対について実行する。以上の処理が完了すると、テンプレート置換部４７６の処理を開始する（ステップ５３６）。

テンプレート置換部４７６は、処理中の因果関係シードペアを構成する原因フレーズと結果フレーズの矛盾表現を全て矛盾表現辞書４２２から読み出す（図１５のステップ５３６）。テンプレート置換部４７６はさらに、処理中の因果関係シードペアの原因フレーズと結果フレーズを、それらの矛盾表現を用いて置換する処理を、原因フレーズの矛盾表現と結果フレーズの矛盾表現との組合せを全て用いて行なうことで新たな因果関係仮説を生成し（図１５のステップ５３８）、スコア算出部４７４に与える。スコア算出部４７４は、図１２のステップ４５４で行なわれるものと同様の手法により各因果関係仮説に対する因果関係強度スコアを算出し（図１５のステップ５４０）、各因果関係仮説にそれぞれの因果関係強度スコアを付して因果関係仮説ＤＢ４１６に出力し（図１５のステップ５４２）、次の因果関係シードペアの処理に移る。

因果関係仮説生成部４１２が以上の処理を全ての因果関係シードペアに対して実行することで、因果関係シードペアに基づいて新たなスコア付の因果関係仮説が多数生成され、因果関係仮説ＤＢ４１６に追加される。

〈因果関係仮説のフィルタリング〉
上のようにして生成された因果関係仮説には、妥当でないものも多く含まれる。そこで、そうした誤った因果関係仮説を除去する必要がある。図１１に示す因果関係仮説フィルタリング部４１８はその処理を行なう。

図１６を参照して、因果関係仮説フィルタリング部４１８の名詞の出現頻度算出部５５８は、因果関係仮説ＤＢ４１６に記憶された因果関係仮説内における名詞の出現頻度を名詞別に算出し、名詞の出現頻度ＤＢ５６０に格納する。これは名詞の出現頻度によるフィルタリング部５５６によるフィルタリング処理のための準備である。一方、被修飾名詞の抽出部５６２は、ＷＥＢアーカイブ４４を検索し、「ＡのＢ」という形で修飾句により修飾された被修飾名詞（「ＡのＢ」における「Ｂ」に相当する名詞）を抽出し、除外単語ＤＢ５６４に格納する。これは、除外単語によるフィルタリング部５６６によるフィルタリング処理のための準備である。

本実施の形態では、因果関係仮説フィルタリング部４１８は、まず一貫性検証フィルタリング部５５０によるフィルタリングを行なう。一貫性検証フィルタリング部５５０は、因果関係仮説の各々について、仮説を構成するフレーズペアの名詞ペア（ｎ_１，ｎ_２）の名詞ｎ_１及びｎ_２のいずれも、他の因果関係において原因フレーズにも結果フレーズにも表れているか否かを判定する。いずれの名詞もこの条件に合致している場合には、一貫性検証フィルタリング部５５０はこの因果関係仮説を除去する。一貫性検証フィルタリング部５５０は、これ以外の因果関係仮説を関連度によるフィルタリング部５５２に与える。

本実施の形態では、関連度によるフィルタリング部５５２は、因果関係仮説を構成するフレーズ対の名詞ペアの関連度を算出し、関連度がしきい値より低い因果関係仮説を除去し、それ以外の因果関係仮説を出現順序検証によるフィルタリング部５５４に与える。関連度として、本実施の形態では、名詞ペアの相互情報量（ＰＭＩ）を用いる。前述したとおり、名詞ペアの関連度としてこれ以外の指標を用いてもよい。

出現順序検証によるフィルタリング部５５４は、関連度によるフィルタリング部５５２から与えられる因果関係仮説を構成するフレーズペアの各々について、それらがＷＥＢアーカイブ４４中で出現する順序に基づいて因果関係仮説をフィルタリングする。具体的には、出現順序検証によるフィルタリング部５５４は、因果関係仮説を構成するフレーズペアが、ＷＥＢアーカイブ４４中のある文で共起しており、かつ結果フレーズが原因フレーズより前に出現している因果関係仮説を除外し、それ以外を名詞の出現頻度によるフィルタリング部５５６に出力する。

名詞の出現頻度によるフィルタリング部５５６は、関連度によるフィルタリング部５５２から与えられる因果関係仮説の各々について、それらを構成するフレーズペアの名詞ペアの、ＷＥＢアーカイブ４４における出現頻度に基づくフィルタリングを行なう。具体的には、名詞の出現頻度によるフィルタリング部５５６は、因果関係仮説について、その因果関係を構成するフレーズペアの名詞ペアのいずれかが、因果関係仮説中においてしきい値を超える頻度で出現している場合、その因果関係仮説を除外する。名詞の出現頻度によるフィルタリング部５５６は、それ以外の因果関係仮説を除外単語によるフィルタリング部５６６に与える。

除外単語によるフィルタリング部５６６は、名詞の出現頻度によるフィルタリング部５５６から与えられる因果関係仮説について、除外単語ＤＢ５６４に記憶された除外単語を含むか否かを判定し、除外単語を含むものを除外する。除外単語によるフィルタリング部５６６は、除外単語を含まない因果関係仮説のみを因果関係フレーズペアＤＢ７０に格納する。

このようにして因果関係仮説フィルタリング部４１８によるフィルタリングが完了した時点で、因果関係フレーズペアＤＢ７０には多数の因果関係フレーズペアが格納されていることになる。

なお、本実施の形態では、一貫性検証フィルタリング部５５０、関連度によるフィルタリング部５５２、出現順序検証によるフィルタリング部５５４、名詞の出現頻度によるフィルタリング部５５６、及び除外単語によるフィルタリング部５６６によるフィルタリングをこの順序で行なっている。しかし本発明はそのような実施の形態には限定されない。例えば処理の順番を入れ替えてもよい。一部の処理を除外してもよい。又は、これらの処理を互いに並列して実行し、それぞれの目的に合致したスコアを各因果関係仮説に付与して、それらの積又は合計がしきい値をこえたか否かで因果関係仮説の採用／除外を判定してもよい。

〈社会シナリオの生成〉
上記した処理で構築された因果関係フレーズペアＤＢ７０を用いると、多くの社会シナリオを生成できる。社会シナリオの生成を行なうのが図１に示す社会シナリオ生成部７２である。

図１７を参照して、社会シナリオ候補生成部５８０は、因果関係フレーズペアＤＢ７０に記憶されたある因果関係フレーズペアのあるフレーズと、別の因果関係フレーズペアのあるフレーズとの間に因果的一貫性が成立するか、又は意味的関係によるリンクが成立する場合に、前者を結果フレーズに、後者を原因フレーズに持つ因果関係フレーズペア同士を連鎖させることで社会シナリオを生成する。このようにして生成された社会シナリオをさらに別の因果関係と連鎖させることでさらに長い社会シナリオを生成できる。本実施の形態では、社会シナリオ候補生成部５８０は、連鎖させる因果関係の数が一定以下となるようにするが、例えば対話的に社会シナリオを生成する場合には、そのような制限は必要ない。

図１８を参照して、社会シナリオ候補生成部５８０の第１の同義関係生成部６００は、因果関係フレーズペアＤＢ７０に格納された因果関係フレーズペアの各々について以下の処理を行なう。すなわち、その因果関係フレーズペアの結果フレーズ（これを第１のフレーズとする。）の名詞を特定する。因果関係フレーズペアＤＢ７０に記憶された因果関係フレーズペアのうち、原因フレーズにこの名詞と一致する名詞を持つ因果関係フレーズを収集する。さらに、収集された因果関係フレーズペアの原因フレーズ（これを第２のフレーズとする。）の述語テンプレートの極性が、第１のフレーズに属する述語テンプレートの極性と一致しているか否かを判定する。両者が一致していれば、第１のフレーズと第２のフレーズとは同義であると判定し、第１のフレーズを含む因果関係と、第２のフレーズを含む因果関係とに対する連結情報を生成し、連結情報生成部６０８に出力する。ここでいう連結情報とは第１のフレーズを含む因果関係フレーズペアの識別子と第２のフレーズを含む因果関係フレーズペアの識別子との順序対である。

第２の同義関係生成部６０２は、フレーズの評価極性に基づく因果的一貫性を判定し、その結果にしたがって２つの因果関係フレーズペアを連鎖させる連結情報を生成し、連結情報生成部６０８に出力する。具体的には、第２の同義関係生成部６０２は、任意の因果関係フレーズペアの結果フレーズについて、以下の処理を行なう。

すなわち、その因果関係フレーズペアの結果フレーズ（第１のフレーズとする。）の名詞と同じ名詞を含む原因フレーズを持つ因果関係フレーズペアを収集する。収集された因果関係フレーズペアの原因フレーズ（第２のフレーズとする。）について、そのフレーズ全体の極性が同じであれば、第１のフレーズを結果フレーズに持つ因果関係フレーズペアと、第２のフレーズを原因フレーズに持つ因果関係フレーズペアとを連鎖させる。そのために、連結情報として前者の識別子と後者の識別子とからなる順序対を連結情報生成部６０８に与える。

第３の同義関係生成部６０４は、大量文書中におけるフレーズの出現文脈の類似性に基づき、因果的一貫性を判定し、２つの因果関係フレーズペアの連結情報を出力する。第３の同義関係生成部６０４は具体的には以下のような処理を実行する。なお、このために、分布類似度算出部６１６は、因果関係仮説ＤＢ４１６とＷＥＢアーカイブ４４とを参照し、因果関係仮説ＤＢ４１６に出現するフレーズの各組合せについて、ＷＥＢアーカイブ４４における分布類似度を算出し、テンプレート分布類似度ＤＢ６１４に格納している。

第３の同義関係生成部６０４は、因果関係フレーズペアＤＢ７０に記憶された因果関係フレーズペアのフレーズについて、同じ名詞を持ち、かつフレーズ全体の極性が同じフレーズペアの各々について、テンプレート分布類似度ＤＢ６１４から分布類似度を読み出す。この分布類似度がしきい値未満であればそのフレーズペアは捨てる。分布類似度がしきい値以上であれば、その一方を結果フレーズに持つ因果関係フレーズペアと、他方を原因フレーズに持つ因果関係フレーズペアとを連鎖させることができる。第３の同義関係生成部６０４は、そのような因果関係フレーズペアの識別子の順序対を連結情報生成部６０８に与える。

連結関係生成部６０６は、意味的関係によるリンクによって２つの因果関係フレーズペアを連鎖させるための連結情報を出力する。具体的には連結関係生成部６０６は、以下のような処理を実行する。

連結関係生成部６０６は、ある因果関係フレーズペアの結果フレーズに含まれる名詞（第１の名詞）と、他の因果関係フレーズペアの原因フレーズに含まれる名詞（第２の名詞）とからなる順序付の単語対が、単語対ＤＢ４０２に記憶されているか否かを判定する。単語対ＤＢ４０２にこの単語対が記憶されている場合、第１の名詞を含む結果フレーズと、第２の名詞を含む原因フレーズとの間には、この単語対の持つ意味的関係を表すリンクが成立しているものと考えられる。そこで連結関係生成部６０６は、そのような因果関係フレーズペアのペアについて、一方から他方への連結情報を生成し、連結情報生成部６０８に出力する。この場合の連結情報は、上記した第１の名詞を持つ結果フレーズを持つ因果関係フレーズペアの識別子と、第２の名詞を持つ原因フレーズを持つ因果関係フレーズペアの識別子とからなる順序対である。

連結情報生成部６０８は、第１の同義関係生成部６００、第２の同義関係生成部６０２、第３の同義関係生成部６０４及び連結関係生成部６０６から受けた連結情報に基づいて、各因果関係フレーズペアを第１層のノードとし、各ノードの因果関係フレーズペアから連鎖可能な因果関係フレーズペアをそのノードから分岐する第２層のノードとするツリーを生成し、連結情報生成部６０８の出力するツリーを記憶する連結関係ＤＢ６１０に格納する。このツリーの第１層のノードから第２層のノードをたどり、さらにその第２層のノードにより表される因果関係フレーズペアに相当する第１層のノードからさらに第２層のノードをたどる処理を繰返すことにより、任意の因果関係フレーズペアから任意の長さの社会シナリオ候補を生成できる。

因果関係連結部６１２はこの操作を行なって所定の長さ以下の社会シナリオ候補を生成し、社会シナリオ候補ＤＢ６１８に出力する。

図１７に示す社会シナリオランキング部５８２は、社会シナリオ候補生成部５８０により生成された社会シナリオに対して、それを構成する因果関係の各々の強度に基づいてその社会シナリオのスコアを算出し、そのスコアがしきい値以上である社会シナリオを選択して社会シナリオＤＢ３８に出力する。

図１９を参照して、社会シナリオランキング部５８２は具体的には以下のような処理を行なう。まず社会シナリオランキング部５８２は、各社会シナリオについて、そのシナリオを構成する個々の因果関係の因果関係強度スコアを互いに乗算することによってその社会シナリオのスコアを算出する。ここでいう因果関係強度スコアとは、図１２のステップ４５４及び図１３のスコア算出部４７４により算出されるスコアである。このとき、図１８に示す第１の同義関係生成部６００、第２の同義関係生成部６０２、第３の同義関係生成部６０４、及び連結関係生成部６０６による処理で連結された２つのフレーズ間には、ある定数を与える。これらは全て同じでもよいし、異なる値であってもよい。例えば因果的一貫性による連結の場合の因果関係強度スコアを、意味的関係によるリンクによる連結の場合のスコアより高くすることが考えられる。全体因果関係スコア算出部６４０は、このようにして社会シナリオごとに算出したスコアを付して社会シナリオをスコア付き社会シナリオ候補ＤＢ６４２に格納する。

社会シナリオソート部６４４は、スコア付き社会シナリオ候補ＤＢ６４２に記憶された社会シナリオ候補を、そのスコアの降順にソートし、ソート後の社会シナリオ候補をソート済社会シナリオ候補ＤＢ６４６に格納する。

社会シナリオ選択部６４８は、ソート済社会シナリオ候補ＤＢ６４６に記憶された社会シナリオのうち、スコアがしきい値以上のもののみを選択して社会シナリオＤＢ３８に出力する。

以上のようにして、この社会シナリオ生成システム３０により、ＷＥＢアーカイブ４４に存在する因果関係フレーズのみでなく、単語対の意味的関係も含めた非常に多くのフレーズを因果関係により連鎖させた多数の社会シナリオを生成できる。その数を非常に多くできることはもちろん、上記した単語対の意味的関係により生成した因果関係仮説も社会シナリオの生成に用いるので、ＷＥＢアーカイブ４４上に存在するフレーズだけではなく、現実にはＷＥＢアーカイブ４４に見出せないようなフレーズも含めた多様な社会シナリオを生成できる。その結果、あらゆるリスク及びチャンスを考慮に入れて判断を下す際に参考にできる多くの社会シナリオを提供できる。

＜第２の実施の形態＞
上記第１の実施の形態では、社会シナリオのスコアを社会シナリオの生成過程で得られた各因果関係フレーズペアについて算出されたスコアの乗算で算出している。しかし、社会シナリオのランキング手法は、上記した実施の形態の手法には限定されない。この手法と異なる様々なランキング手法を採用できる。以下に述べる第２の実施の形態は、社会シナリオのスコアを、社会シナリオ又はその一部（「部分シナリオ」と呼ぶ。）がインターネット４０のいくつの文書に掲載されているか、文書に掲載されている箇所と社会シナリオにおける部分シナリオとの一致度がどの程度かに基づいて社会シナリオのスコアを算出する。

図２０に示す社会シナリオランキング部６７０は、上のような処理により社会シナリオをランキングするためのものである。社会シナリオランキング部６７０は、図１７及び図１９に示す社会シナリオランキング部５８２に替えて使用できる。

図２０を参照して、本実施の形態に係る社会シナリオランキング部６７０は、図１９に示す全体因果関係スコア算出部６４０に代えて、インターネット４０のどの文書に社会シナリオを構成する部分シナリオがどのように記述されているかに基づいて部分シナリオのスコアを算出する部分シナリオスコア算出部７００と、部分シナリオスコア算出部７００が算出する部分シナリオを社会シナリオごとに部分シナリオと関係付けて記憶する部分シナリオスコア記憶部７０２と、社会シナリオ候補ＤＢ６１８に記憶された社会シナリオ候補の各々に対して部分シナリオスコア算出部７００による部分シナリオの算出が完了したことに応答して、それら部分シナリオスコアの乗算又は加算等、部分シナリオに対する増加関数として社会シナリオのスコアを算出し、社会シナリオに付してスコア付き社会シナリオ候補ＤＢ６４２に出力する全体因果関係スコア算出部７０４とを含む。なお、本実施の形態では、社会シナリオを構成する部分シナリオと全く同文のフレーズだけでなく、名詞を同じ単語クラスの他の名詞に置換したものを含むフレーズも、社会シナリオのフレーズと同一視してインターネット４０を検索する。さらにこの実施の形態では、フレーズの名詞だけでなく、述語テンプレートも、極性が同じ他のテンプレートで置換したものを含むフレーズも、社会シナリオのフレーズと同一視してインターネット４０を検索する。

社会シナリオランキング部６７０は、他の多くの機能部と同様、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図２１に、そのためのコンピュータプログラムの制御構造をフローチャート形式で示す。なお、このプログラムは、ある社会シナリオに対して上記した処理を実行するためのものである。

図２１を参照して、部分シナリオスコア算出部７００で実行されるプログラムは、処理対象の社会シナリオの全フレーズに対して以下の処理を実行するステップ７４０を含む。すなわち、ステップ７４０では、そのフレーズの名詞を、同じクラスの単語（同義語）で置換してそれぞれ新たなフレーズを生成するステップ７４２と、そのフレーズのテンプレートを、同じ極性の他のテンプレートで置換することにより、ステップ７４２で生成された新たなフレーズと組合せてさらに多くのフレーズを生成するステップ７４４と、ステップ７４４で生成された新たなフレーズ(以下、「言い換え句」)と、元のフレーズとを全て図示しない記憶装置に保存するステップ７４６とを含む。ステップ７４２、７４４及び７４６までがステップ７４０で各フレーズに対して実行される処理である。

このプログラムはさらに、ステップ７４０が完了した後、得られるフレーズを組合せることで得られる部分シナリオの全てに対して以下の処理を実行するステップ７４８を含む。

ステップ７４８は、インターネット４０上の全文書に対して、以下の処理を実行するステップ７５０を含む。なお、ここでの全文書とは、インターネット４０上の所定のサイト上に存在する文書のみに限定してもよい。

ステップ７５０は、処理対象となっている文書が、処理対象となっている社会シナリオの部分シナリオのフレーズ又は言い換え句（ステップ７４６で保存されたもの）を全て含むか否かを判定し、結果に応じて制御を分岐させるステップ７５２と、ステップ７５２の判定が肯定的であるときに、その文書に出現しているフレーズ又は言い換え句が、その部分シナリオ内での元のフレーズと同一順で出現しているか否かを判定するステップ７５４と、ステップ７５４の判定が肯定的であるときに、その部分シナリオの出現数を１加算するステップ７５８と、ステップ７５４で否定的であるときに、処理対象の文書に現れているフレーズ又は言い換え句が、隣接するＮ文内にあるか否かを判定するステップ７５６とを含む。ステップ７５６でＹＥＳの場合、制御はステップ７５８に進む。ステップ７５６でＮＯの場合、及びステップ７５２でＮＯの場合、制御は次の文書に対する処理に進む。

ステップ７５０の処理が全文書に対して終了すると制御はステップ７６０に進む。ステップ７６０では、処理中の部分シナリオに対するスコアが、ステップ７５８で計算された出現数に対する関数で、かつ出現数が多くなればなるほど結果が高くなるようなスコア算出関数によって算出される。

ステップ７４８の処理が全ての部分シナリオに対して終了すると、制御はステップ７６２に進む。ステップ７６２では、処理中の社会シナリオのスコアが、その社会シナリオに含まれる部分シナリオのスコアの関数であり、かつ部分シナリオのスコアが高くなるほど値が高くなるようなスコア算出関数により算出され、処理中の社会シナリオにスコアとして付与される。

＜変形例＞
上記した実施の形態については多くの変形が考えられる。以下、それらについて列挙する。

例えば、社会シナリオのスコアリングについては、次のような手法を個別に、又はこれらを組合せて採用することが考えられる。

（１）ＷＥＢアーカイブ４４の文書に記述されている部分シナリオの最大長さが長いほど、社会シナリオのスコアが高くなるようにする。

（２）同じ部分シナリオを記述している文書間にハイパーリンクが張られている場合、それら部分シナリオを含む社会シナリオのスコアをより高くする。

（３）同じ部分シナリオを記述している２つの文書間にハイパーリンクが直接張られていなくても、別の１又は複数の文書を介してハイパーリンクが間接的に張られている場合に、社会シナリオのスコアを高くする。

（４）文書に重要性のスコアをつけ、部分シナリオを記述している文書のスコアに応じて社会シナリオのスコアを増減させてもよい。この場合、文書の重要性のスコアとしては、例えばいわゆるＰａｇｅＲａｎｋの値などを用いることができる。また、文書が掲載されているサイトのドメインの種類により、その文書の重要性の軽重をつけるようにしてもよい。例えば政府系、教育機関系、国際機関系などのドメインのサイトに掲載された文書については、それ以外の文書より重要性のスコアを高めるようにしてもよい。匿名のブログなどについては、重要性のスコアを他より低くしてもよい。

（５）文書に記述されている複数の部分シナリオが、１つの社会シナリオにおいて重なる部分を持っていれば、それらの部分シナリオのスコアを高くし、それらを含む社会シナリオのスコアをそれに伴って高くするようにしてもよい。この場合、重なる部分が広いほど、スコアが高くなるようにしてもよい。

例えば、生成されたある社会シナリオ「ａ→ｂ→ｃ→ｄ→ｅ→ｆ→ｇ→…」を考える。この社会シナリオの第１の部分シナリオ「ａ→ｂ→ｃ→ｄ」と第２の部分シナリオ「ｃ→ｄ→ｅ→ｆ」とを考えると、これら２つの部分シナリオは「ｃ→ｄ」を重複箇所として持つ。この場合、第１の部分シナリオは、第１のＷＥＢ文書に記述されており、第２の部分シナリオは第２及び第３のＷＥＢ文書に記述されているものとする。第１のＷＥＢ文書は１つのＷＥＢ文書に記述されているので、そのスコアを高くする。第２の部分シナリオは、２つの文書に記述されているので、第１の部分シナリオよりさらにスコアを高くする。両部分シナリオは重複する部分を持つので、これらはいずれもさらに重複箇所の広さ（２か所）に応じてスコアを高くする。

（６）第２の実施の形態では、フレーズ中の名詞及び述語テンプレートを言い換えた言い換え句も含めて文書での部分シナリオの出現回数を計数している。しかし、本発明はそのような実施の形態には限定されない。名詞又は述語テンプレート若しくはその双方の言い換えを行なわない実施の形態も可能である。

（７）他の社会シナリオと矛盾する内容の社会シナリオのスコアを下げるようにしてもよい。そのために、同じ原因フレーズから導かれる２つの社会シナリオにおいて、その一部に含まれる結果フレーズが互いに矛盾していたら、それら社会シナリオは矛盾しているとみなすことができる。矛盾するフレーズは、予め手作業により辞書形式で準備しておいてもよいし、第１の実施の形態で述べた因果関係フレーズペアと同様の手法で、自動的に収集することもできる。矛盾するフレーズペア（矛盾ペア）を収集する場合には、図１２に示す処理に代えて、以下のような条件でフレーズペアを収集する。

（１）両フレーズとも、１つの名詞と１つの活性又は不活性テンプレートからなる。例えば「（風邪）に罹る」と「（風邪）を予防する」のようなものである。

（２）両フレーズに含まれる２つの名詞は、互いに同義（又は同一）である。例えば＜風邪、感冒＞又は＜風邪、風邪＞のような組合せである。

（３）両フレーズに含まれる２つのテンプレートは、一方が活性で他方が不活性である。例えば「に罹る」（活性）と「を予防する」（不活性）というペアである。

（４）２つのテンプレートは、インターネット上で共起する（係り受け関係を結ぶ）名詞を多く共有する。すなわち、これら２つのテンプレートは、分布類似度が高い。例えば、「に罹る」と共起する名詞として風邪、感冒、肺炎、…等が考えられるのに対し、「を予防する」と共起する名詞としては、風邪、感冒、肺炎、火事、災害等が考えられ、両者の間の分布類似度は高い。

（５）各フレーズは、インターネット上で所定のしきい値以上の出現頻度を持つ。すなわち、各フレーズの名詞とテンプレートとは、このしきい値以上の頻度でもって係り受け関係を結ぶ。例えば、「（風邪）に罹る」の出現頻度≧しきい値、及び「（風邪）を予防する」の出現頻度≧しきい値がともに成立する必要がある。

さらに、述語テンプレートが同義又は類義であっても、名詞が反義語であるようなフレーズペアを矛盾関係フレーズペアとしてもよい。テンプレートの同義、類義の判定には、大量の文書コーパス（例えばＷＥＢアーカイブ４４）における両者の分布類似度を指標として用いることもできるし、人手で検証したデータベース等を用いることもできる。名詞の反義の判定にも同様の手法を用いることができる。

（８）ある１つの社会シナリオに、互いに矛盾するフレーズが含まれている場合には、その社会シナリオのスコアを下げるようにしてもよい。例えば「…→クーデターが起きる→治安が悪化する→…→治安が良くなる」等である。

［コンピュータによる実現］
上記実施の形態に係るシステムは、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図２２はこのコンピュータシステム９３０の外観を示し、図２３はコンピュータシステム９３０の内部構成を示す。

図２２を参照して、このコンピュータシステム９３０は、メモリポート９５２及びＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）ドライブ９５０を有するコンピュータ９４０と、キーボード９４６と、マウス９４８と、モニタ９４２とを含む。

図２３を参照して、コンピュータ９４０は、メモリポート９５２及びＤＶＤドライブ９５０に加えて、ＣＰＵ（中央処理装置）９５６と、ＣＰＵ９５６、メモリポート９５２及びＤＶＤドライブ９５０に接続されたバス９６６と、ブートアッププログラム等を記憶する読出専用メモリ（ＲＯＭ）９５８と、バス９６６に接続され、プログラム命令、システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ（ＲＡＭ）９６０とを含む。コンピュータシステム９３０はさらに、他端末との通信を可能とするネットワークへの接続を提供するネットワークインターフェイス（Ｉ／Ｆ）９４４を含む。

コンピュータシステム９３０を上記した各実施の形態のシステムを構成する各機能部として機能させるためのコンピュータプログラムは、ＤＶＤドライブ９５０又はメモリポート９５２に装着されるＤＶＤ９６２又はリムーバブルメモリ９６４に記憶され、さらにハードディスク９５４に転送される。又は、プログラムは図示しないネットワークを通じてコンピュータ９４０に送信されハードディスク９５４に記憶されてもよい。プログラムは実行の際にＲＡＭ９６０にロードされる。ＤＶＤ９６２から、リムーバブルメモリ９６４から、又はネットワークを介して、直接にＲＡＭ９６０にプログラムをロードしてもよい。

このプログラムは、コンピュータ９４０を、上記実施の形態に係るシステムの各機能部として機能させるための複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ９４０上で動作するオペレーティングシステム（ＯＳ）若しくはサードパーティのプログラム、又は、コンピュータ９４０にインストールされる各種プログラミングツールキットのモジュールにより提供される。したがって、このプログラムはこの実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット内の適切なプログラムツールを呼出すことにより、上記したシステムとしての機能を実現する命令のみを含んでいればよい。コンピュータシステム９３０の動作は周知である。したがってここでは繰返さない。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。

３０社会シナリオ生成システム
３２シードテンプレートＤＢ
３４接続詞ＤＢ
３６社会シナリオＤＢ構築装置
３８社会シナリオＤＢ
４０インターネット
４２ＷＥＢクローラ
４４ＷＥＢアーカイブ
４６単語クラスＤＢ
４８社会シナリオ出力部
６０単純述語テンプレート収集部
６２単純述語テンプレートＤＢ
６４複雑述語テンプレート収集部
６６複雑述語テンプレートＤＢ
６８因果関係フレーズペア収集部
７０因果関係フレーズペアＤＢ
７２社会シナリオ生成部
９０初期テンプレートペア生成部
９２初期テンプレートペアＤＢ
９４名詞ペア収集部
９６名詞ペアＤＢ
９８名詞ペア極性判定部
１００テンプレートペア収集部
１０２テンプレートペアＤＢ
１０４テンプレート活性マッチ判定部
１０６テンプレートネットワーク構築部
１０８同義・含意関係辞書
１１０テンプレートネットワークＤＢ
１１２テンプレート活性値算出部
１１４高活性度テンプレート抽出部
１１６終了判定部
１１８シードテンプレート更新部
１４０テンプレートネットワーク
２６０対象名詞辞書
２６２サ変名詞極性辞書
２６４サ変名詞極性判定部
２６６トラブル名詞極性判定用辞書
２６８複雑述語テンプレート候補抽出部
２７０サ変名詞テンプレート候補ＤＢ
２７２数量名詞テンプレート候補ＤＢ
２７４トラブル名詞テンプレート候補ＤＢ
２７６サ変名詞極性付与部
２７８数量名詞極性付与部
２８０トラブル名詞極性付与部
２８２複雑述語テンプレート極性算出部
４００意味的関係パターンＤＢ
４０２単語対ＤＢ
４０４シードパターンＤＢ
４０６単語対抽出部
４０８因果関係シードペア収集部
４１０因果関係シードペアＤＢ
４１２因果関係仮説生成部
４１６因果関係仮説ＤＢ
４１８因果関係仮説フィルタリング部
４２０名詞の極性辞書
４２２矛盾表現辞書
４７０意味的関係パターンマッチング部
４７２単語対置換部
４７４スコア算出部
４９０パターン抽出部
４９２パターンＤＢ
４９４単語対候補取得部
４９６単語対候補ＤＢ
４９８単語対スコアリング部
５００単語対選択部
５０２クラス対適合度算出部
５０４クラス対適合度ＤＢ
５０６パターン類似度算出部
５０８パターン類似度ＤＢ
５１０親和性情報算出部
５１２親和性情報ＤＢ
５１４除外クラス対特定部
５１６除外クラス対ＤＢ
５１８パターンマージ部
５５０一貫性検証フィルタリング部
５５２関連度によるフィルタリング部
５５４出現順序検証によるフィルタリング部
５５６名詞の出現頻度によるフィルタリング部
５５８名詞の出現頻度算出部
５６０名詞の出現頻度ＤＢ
５６２被修飾名詞の抽出部
５６４除外単語ＤＢ
５６６除外単語によるフィルタリング部
５８０社会シナリオ候補生成部
５８２社会シナリオランキング部
６００，６０２，６０４同義関係生成部
６０６連結関係生成部
６０８連結情報生成部
６１０連結関係ＤＢ
６１２因果関係連結部
６１４テンプレート分布類似度ＤＢ
６１６分布類似度算出部
６１８社会シナリオ候補ＤＢ
６４０全体因果関係スコア算出部
６４２スコア付き社会シナリオ候補ＤＢ
６４４社会シナリオソート部
６４６ソート済社会シナリオ候補ＤＢ
６４８社会シナリオ選択部
７００部分シナリオスコア算出部
７０２部分シナリオスコア記憶部
７０４全体因果関係スコア算出部

Claims

それぞれ原因とその結果とを表す、自然言語文の第１及び第２のフレーズからなる１又は複数のシードペアを元に、因果関係を表すと推定される２つのフレーズからなるフレーズペアの仮説を収集するためのフレーズペア収集装置であって、
前記フレーズの各々は、名詞と述語テンプレートとの組合せを含み、
前記シードペアを記憶するためのシードペア記憶手段と、
単語間の意味的関係パターンを記憶する意味的関係パターン記憶手段と、
前記意味的関係パターン記憶手段に記憶された意味的関係パターンのいずれかと関係付けられた単語対を記憶する単語対記憶手段と、
前記シードペア記憶手段に記憶されたシードペアの各々について、当該シードペアを構成するフレーズ内の名詞からなる名詞対が、前記意味的関係パターンのいずれにマッチするかを判定する意味的関係パターンマッチング手段と、
前記単語対記憶手段に記憶された単語対のうち、前記意味的関係パターンマッチング手段により前記名詞対とマッチすると判定された意味的関係パターンに関係付けられた単語対の各々を用いて前記シードペアの当該名詞対を置換することにより新たな仮説を生成する単語対置換手段とを含む、フレーズペア収集装置。
さらに、互いに矛盾する意味を表現する述語テンプレートを記憶する矛盾表現記憶手段と、
前記シードペアの各々について、当該シードペアを構成する２つのフレーズの各々の述語テンプレートを、前記矛盾表現記憶手段から読み出した、当該述語テンプレートと矛盾する述語テンプレートで置換することにより新たな仮説を生成する述語テンプレート置換手段を含む、請求項１に記載のフレーズペア収集装置。
単語の属するクラスを記憶する単語クラス記憶手段をさらに含み、
前記意味的関係パターンの各々は、第１の単語クラスと第２の単語クラスとの間での関係を示し、
前記意味的関係パターンマッチング手段は、
前記シードペア記憶手段に記憶されたシードペアの各々について、当該シードペアを構成するフレーズ内の名詞からなる名詞対の単語クラスを前記単語クラス記憶手段から検索する単語クラス検索手段と、
前記単語クラス検索手段により検索された単語クラスの対が、前記意味的関係パターンのいずれにマッチするかを判定するマッチング手段とを含む、請求項１又は請求項２に記載のフレーズペア収集装置。
前記シードペアを構成するフレーズの各々の述語テンプレートには、予め定義された極性の値が付与されており、
前記極性の値は正負の値のいずれかをとり、
前記単語対置換手段により名詞対が置換されたフレーズペアの仮説を受け、各仮説について、フレーズペアが因果関係を表す程度を示すスコアを、当該フレーズペアの各フレーズに含まれる述語テンプレートの極性と、各フレーズに含まれる名詞の、コーパス内において述語テンプレートペアと共起する頻度との関数として算出し、各フレーズペアに付与するスコア算出手段をさらに含む、請求項１〜請求項３のいずれかに記載のフレーズペア収集装置。
前記フレーズペア収集装置はさらに、前記単語対置換手段により生成された新たな仮説に対し、因果関係を表すフレーズペアとして妥当なもののみを残すように仮説をフィルタリングするフィルタリング手段を含む、請求項１〜請求項４のいずれかに記載のフレーズペア収集装置。
コンピュータを、請求項１〜請求項５のいずれかに記載の全ての手段として機能させる、コンピュータプログラム。