JP5184195B2

JP5184195B2 - 言語処理装置およびプログラム

Info

Publication number: JP5184195B2
Application number: JP2008113908A
Authority: JP
Inventors: 一郎山田; 菊佳三浦; 英樹住吉; 正啓柴田; 伸行八木
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2008-04-24
Filing date: 2008-04-24
Publication date: 2013-04-17
Anticipated expiration: 2028-04-24
Also published as: JP2009265889A

Description

本発明は、自然言語処理に関する。特に、テキストから情報を抽出するための言語処理装置およびそのコンピュータプログラムに関する。

従来、同一文に出現する関係のある名詞を抽出する手法として、相互情報量を用いる手法がある。相互情報量とは、２つの確率変数に対する依存尺度を表し、これを単語に対して用いることで、単語がどの程度、別の単語に依存しているかを測ることができる。非特許文献１では、相互情報量について記載されている。
北研二，「言語と計算４確率的言語モデル」，東京大学出版会，ｐ．１１，１９９９年

しかしながら、相互情報量を用いることによって関係のある名詞の対を抽出しようとする場合、それら２つの単語が出現するときの構文構造などは考慮されない。従って、出現頻度が低い単語については、相互に全く関係を持たない単語同士の場合でも、偶発的に同じ文に出現するために高い相互情報量を持ってしまう場合があるという問題がある。また、相互情報量を用いて名詞の対を抽出したとき、それら２つの単語がどのような関係を持つかを把握することはできないという問題がある。

本発明は、上記のような課題認識に基づいて行なわれたものであり、互いに関係を持つ可能性の高い名詞の対のみを精度良く抽出するとともに、それら対をなす２つの名詞の関係も抽出することのできる言語処理装置およびそのコンピュータプログラムを提供することを目的とする。

［１］上記の課題を解決するため、本発明の一態様による言語処理装置は、複数の文を含む入力テキストデータの中から、一つの文に含まれる単語のペアを処理対象単語ペアとして選択し、前記入力テキストデータ中の前記処理対象単語ペアの出現頻度の所定の特徴を抽出する処理対象単語ペア特徴抽出部（１１）と、前記入力テキストデータの中の前記処理対象単語ペアが含まれる文の中に出現する他の単語を共起単語として選択し、前記入力テキストデータ中の前記共起単語の出現頻度の所定の特徴を抽出する共起単語特徴抽出部（共起名詞特徴抽出部１２）と、前記入力テキストデータの中の前記処理対象単語ペアと前記共起単語とが含まれる文の構文構造を抽出し、前記入力テキストデータの中の前記構文構造の出現頻度の所定の特徴を抽出する構文構造特徴抽出部（１３）と、処理対象概念と関係する語を予め記憶した処理対象概念関連語データを参照することにより前記共起単語が前記処理対象単語ペアの関係を表わすクラスに属すると判別できる前記入力テキストデータ中の文の情報と、前記処理対象単語ペアの出現頻度特徴と、前記共起単語の出現頻度特徴と、前記構文構造の出現頻度特徴とに基づいて、文が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記処理対象単語ペアが出現する条件付き確率、および文が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記共起単語が出現する条件付き確率、および文が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記構文構造が出現する条件付き確率を、学習結果データとして学習結果データ記憶部（３）に書き込む処理を行なう機械学習処理部（１４）とを具備することと特徴とする。

この構成によれば、処理対象単語ペア特徴抽出部は、文に含まれる処理対象単語ペアについての出現頻度特徴を抽出する。共起単語特徴抽出部は、共起単語についての出現頻度特徴を抽出する。構文構造特徴抽出部は、処理対象単語ペアと共起単語との当該文中の構文構造を抽出するとともにその構文構造についての出現頻度特徴を抽出する。入力テキストデータとして大量の文を含むものを用いた場合、これら抽出された出現頻度特徴の数値は、言語として統計的に妥当な特徴を表わすものとなる。機械学習処理部は、処理対象概念と関係する語を予め記憶した処理対象概念関連語データを参照することにより、具体的にはこの処理対象概念関連語データに対応する語が文に含まれているか否かを判定することなどにより、与えられている複数の文のうち、共起単語が処理対象単語ペアの関係を表わすクラスに属すると判別できる文を抽出する。これら抽出された文は、共起単語が処理対象単語ペアの関係を表わすクラスに属することが明らかであるような文であるものとすることができる。このような文は、機械学習処理における正解サンプルとして作用する。なお、機械学習処理部は、処理対象概念関連語を予め記憶した処理対象概念関連語データを参照し、共起単語が処理対象概念関連語データに含まれているか否かにより、共起単語を含む文が、共起単語が処理対象単語ペアの関係を表わすクラスに属するか否かを判別する。これにより、機械学習処理部は、そのクラスに属する文を抽出する。この正解サンプルを基に、例えばＥＭアルゴリズムなどを用いた機械学習処理等により、統計的に、正解サンプル以外も含めた入力テキストデータに含まれる文全体について、前記クラスのときの処理対象単語ペアの条件付き確率と、前記クラスのときの共起単語の条件付き確率と、前記クラスのときの構文構造の条件付き確率が得られる（学習結果データ）。この場合のクラス（Ｃ_１）とは共起単語が処理対象単語ペアの関係を表わすという命題によるものであるが、本クラスの補集合が成す別のクラス（Ｃ_０、共起単語が処理対象単語ペアの関係を表わさないようなクラス）についてのそれぞれの確率も、全体の確率（１）から前記のそれぞれの条件付き確率を減ずることによって得られる。得られた学習結果データは、処理対象単語ペアが前記クラスに属する確率や、共起単語が前記クラスに属する確率や、構文構造が前記クラスに属する確率を算出するために用いることができる。
つまり、同一文に出現する他の単語（共起単語）が、処理対象とする２つの名詞の関係名を示すかを判定することができる。この結果、出現頻度が低い単語間の関係も高精度に推定することができる。
この言語処理装置が処理の対象とする単語の典型例は、名詞である。このとき、処理対象単語ペアは、処理対象名詞ペアである。共起単語の典型例は共起名詞である。

また、この言語処理装置において、予め決められた処理対象属性に限定して処理対象単語ペアを選択するようにしても良い。このような限定を行なうことにより、無関係な処理対象単語ペアが候補に含まれなくなり、算出される出現頻度特徴の信頼性が上がる。

［２］また、本発明の一態様は、上記の言語処理装置において、前記構文構造特徴抽出部は、前記文の構文解析結果に基づき、前記処理対象単語ペアに含まれる第１の単語と当該処理対象単語ペアに含まれる第２の単語と前記共起単語との共通係り先文節を取り出し、前記第１の単語から前記共通係り先文節までの構文構造と、前記第２の単語から前記共通係り先文節までの構文構造と、前記共通係り先文節を修飾する構文構造との組み合わせにより当該文の構文構造を同定することを特徴とする。

この構成により、本発明の統計的処理に特に適した構文構造が得られる。その結果、単語抽出の精度が上がる。

［３］また、本発明の一態様は、上記の言語処理装置において、前記構文構造特徴抽出部は、前記構文構造を表わす単語のリストに出現する単語であって、前記第１の単語でも前記第２の単語でも前記共起単語でもない単語が共通である割合が所定の閾値以上であるような複数の構文構造を類似の構文構造を有する構文構造グループとし、この構文構造グループの出現頻度特徴を前記構文構造の出現頻度特徴として抽出することを特徴とする。

この構成により、類似の構文構造を有する文をまとめた構文構造グループを対象として出現頻度特徴を抽出することができる。その結果、文中での使用単語や表記に関する些細な揺れを吸収し、統計的に安定した構文構造の出現頻度特徴を抽出できる。その結果、入力テキストデータに含まれる文数が比較的少ない場合にも高い精度での単語抽出が可能となる。

［４］また、本発明の一態様は、上記の言語処理装置において、前記学習結果データ記憶部から読み出した前記学習結果データを用いて、文に前記処理対象単語ペアが出現することを前提として当該文が前記クラスに属する条件付き確率と、文に前記共起単語が出現することを前提として当該文が前記クラスに属する条件付き確率と、文に前記構文構造が出現することを前提として当該文が前記クラスに属する条件付き確率とを算出する確率値計算処理部をさらに具備することを特徴とする。

この構成により、処理対象単語ペアが前記クラスに属する確率や、共起単語が前記クラスに属する確率や、構文構造が前記クラスに属する確率を算出することができる。つまり、例えば適宜確率についての閾値を用いることなどにより、文およびそこに含まれる処理対象単語ペアや共起単語や構文構造が、そのクラスに属するか否かを判定することができる。

［５］また、本発明の一態様による言語処理装置は、上記の言語処理装置によって前記学習結果データ記憶部に書き込まれた前記学習結果データを用いて、文に前記処理対象単語ペアが出現することを前提として当該文が前記クラスに属する条件付き確率と、文に前記共起単語が出現することを前提として当該文が前記クラスに属する条件付き確率と、文に前記構文構造が出現することを前提として当該文が前記クラスに属する条件付き確率とを算出する確率値計算処理部を具備することを特徴とする。

この構成により、予め入力テキストデータを用いて行った機械学習処理の結果である学習結果データを用いて、文およびそこに含まれる処理対象単語ペアや共起単語や構文構造が、そのクラスに属するか否かを判定することができる。
また、機械学習処理に用いた元の入力テキストデータには含まれていなかった別の文を判定対象とすることもできる。

［６］また、本発明の一態様は、複数の文を含む入力テキストデータの中から、一つの文に含まれる単語のペアを処理対象単語ペアとして選択し、前記入力テキストデータ中の前記処理対象単語ペアの出現頻度の所定の特徴を抽出する処理対象単語ペア特徴抽出過程と、前記入力テキストデータの中の前記処理対象単語ペアが含まれる文の中に出現する他の単語を共起単語として選択し、前記入力テキストデータ中の前記共起単語の出現頻度の所定の特徴を抽出する共起単語特徴抽出過程と、前記入力テキストデータの中の前記処理対象単語ペアと前記共起単語とが含まれる文の構文構造を抽出し、前記入力テキストデータの中の前記構文構造の出現頻度の所定の特徴を抽出する構文構造特徴抽出過程と、処理対象概念と関係する語を予め記憶した処理対象概念関連語データを参照することにより前記共起単語が前記処理対象単語ペアの関係を表わすクラスに属すると判別できる前記入力テキストデータ中の文の情報と、前記処理対象単語ペアの出現頻度特徴と、前記共起単語の出現頻度特徴と、前記構文構造の出現頻度特徴とに基づいて、文が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記処理対象単語ペアが出現する条件付き確率、および文が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記共起単語が出現する条件付き確率、および文が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記構文構造が出現する条件付き確率とを、学習結果データとして学習結果データ記憶部に書き込む処理を行なう機械学習処理過程との処理をコンピュータに実行させるプログラムである。

本発明によれば、テキストに含まれる関係のある単語対とその関係名を表わす単語を抽出することができる。また、出現頻度が低い単語間の関係も高精度に推定することができる。また、関係を構成するときの構文構造の特徴も抽出できる。このような技術は、機械によるテキスト理解の分野でも有用であり、今後、大量のテキストを機械により解析して重要な情報を抽出するような情報分析などの分野での応用が期待できる。

［第１の実施の形態］
次に、本発明の一実施形態について、図面を参照しながら説明する。
図１は、本実施形態による言語処理装置の機能構成を示すブロック図である。この図において、符号１は言語処理装置である。図示するように、言語処理装置１は、入力テキスト記憶部２と、学習結果データ記憶部３と、出力データ４と、処理対象単語ペア特徴抽出部１１と、共起名詞特徴抽出部１２（共起単語特徴抽出部）と、構文構造特徴抽出部１３と、機械学習処理部１４と、確率値計算処理部１５とを含んで構成される。

入力テキスト記憶部２は、処理対象となる入力テキストデータを記憶する。この入力テキストデータには大量の文が含まれている。

処理対象単語ペア特徴抽出部１１は、処理対象属性を予め決め、その属性に属する名詞ペアを処理対象単語ペアとする。この処理対象単語ペアに対して、その出現回数などの特徴を入力テキストから抽出する。言い換えれば、処理対象単語ペア特徴抽出部１１は、複数の文を含む入力テキストデータの中から、一つの文に含まれる単語のペアを処理対象単語ペアとして選択し、入力テキストデータ中の処理対象単語ペアの出現頻度の所定の特徴を抽出する。

共起名詞特徴抽出部１２は、一文中に出現する処理対象属性に属する２つの名詞（名詞ペア）に対して、その関係の候補となる同一文に出現する他の名詞に対して、その出現回数などの特徴を入力テキストから抽出する。言い換えれば、共起名詞特徴抽出部１２は、入力テキストデータの中の処理対象単語ペアが含まれる文の中に出現する他の単語を共起単語として選択し、入力テキストデータ中の共起単語の出現頻度の所定の特徴を抽出する。

構文構造特徴抽出部１３は、処理対象単語ペアと共起する名詞との間の構文構造特徴を抽出する。具体的には、構文構造特徴抽出部１３は、一文中に出現する処理対象属性に属する２つの名詞と、同一文に出現する他の名詞との３文節間の構文構造の出現回数などの特徴を入力テキストから抽出する。言い換えれば、構文構造特徴抽出部１３は、入力テキストデータの中の処理対象単語ペアと共起単語とが含まれる文の構文構造を抽出し、入力テキストデータの中の構文構造の出現頻度の所定の特徴を抽出する。

機械学習処理部１４は、処理対象単語ペア特徴抽出部１１と共起名詞特徴抽出部１２と構文構造特徴抽出部１３の結果を入力として、ＥＭアルゴリズムによる機械学習処理を行なう。詳しくは、機械学習処理部１４は、処理対象概念と関係する語を予め記憶した処理対象概念関連語データを参照することにより共起単語が処理対象単語ペアの関係を表わすクラスに属すると判別できる前記入力テキストデータ中の文の情報と、処理対象単語ペアの出現頻度特徴と、共起単語の出現頻度特徴と、構文構造の出現頻度特徴とに基づいて、文が処理対象単語ペアの関係を表わすクラスに属することを前提としたとき処理対象単語ペアが出現する条件付き確率、および文が処理対象単語ペアの関係を表わすクラスに属することを前提としたとき共起単語が出現する条件付き確率、および文が処理対象単語ペアの関係を表わすクラスに属することを前提としたとき構文構造が出現する条件付き確率とを、学習結果データとして学習結果データ記憶部に書き込む処理を行なう。

学習結果データ記憶部３は、機械学習処理の結果得られるデータ（確率値のデータ）を記憶するためのものである。

確率値計算処理部１５は、機械学習処理部１４の結果である学習結果データを学習結果データ記憶部３から読み出し、処理対象名詞ペアが相互に関係を持つ確率と、処理対象名詞ペアと共起した名詞が関係を表す単語である確率と、処理対象名詞ペアと共起した名詞との間の構文構造が関係を示す構造である確率を計算して出力する。言い換えれば、確率値計算処理部１５は、学習結果データを用いて、文に処理対象単語ペアが出現することを前提として当該文がクラスに属する条件付き確率と、文に共起単語が出現することを前提として当該文がクラスに属する条件付き確率と、文に構文構造が出現することを前提として当該文が前記クラスに属する条件付き確率とを算出する。
出力データ４は、確率値計算処理部１５によって出力されるデータである。

図２は、言語処理装置１の全体の処理の手順を示すフローチャートである。以下では、このフローチャートを参照しながら、言語処理装置１全体の処理の流れについて、説明する。

本装置では、まずステップＳ０１において、処理対象単語ペア特徴抽出部１１が、処理対象属性を決め、その属性に属する名詞ペアを入力テキスト記憶部２から読み出したテキスト中から抽出する。処理対象属性の例としては、「動物」、「人」、「国」、「団体」などといった属性が挙げられる。処理対象単語ペア特徴抽出部１１は、与えられた処理対象属性に属する名詞ペアを決定し、入力テキストに対する、その名詞ペアの出現頻度特徴を計算する。

次にステップＳ０２において、共起名詞特徴抽出部１２が、上で決定した処理対象属性に属する名詞ペアと同じ文中に出現する他の名詞（これが関係候補となる名詞であるが、処理対象単語ペアと共起する名詞であるので、以後、便宜的に「共起名詞」と呼ぶ）を、その関係の候補として一つ選択し、当該共起名詞の入力テキストに対する出現頻度特徴を計算する。

そしてステップＳ０３において、構文構造特徴抽出部１３は、処理対象単語ペア特徴抽出部１１が決定した処理対象属性に属する名詞ペアと、共起名詞特徴抽出部１２が決定した共起名詞との間の構文構造を抽出し、その出現回数を計算する。ここで、構文特徴とは、文中の文節間の係り受け構造である。構文構造特徴抽出部１３は、既存技術を用いて該当する文の構文解析処理を行ない、得られた構文木のデータを基に、当該文の係り受け構造を表わす３つのリストを生成する。

まず、対象としている名詞ペアと共起名詞特徴抽出部１２が決定した共起名詞との共通係り先の文節（共通係り先文節）を抽出する。そして、上記の３つのリストとは、まず第１に、対象としている名詞ペア中の一つ目の名詞から、上記の共通係り先の文節への係り受け構造を表わすリストである。そして第２に、対象としている名詞ペア中の二つ目の名詞から、上記の共通係り先の文節への係り受け構造を表わすリストである。そして第３に、これら以外の部分で、上記の共通係り先の文節を修飾する構造を表わすリストである。なおこのとき、係り先の文節として、係り元の文節自体も含めて処理を行う。

このとき、構文構造特徴抽出部１３は、各文節を、名詞や動詞などの自立語部分と、助詞などの付属語部分とに分割する。例えば、「プレーリードッグにとってイヌワシは恐ろしい天敵です。」という文を処理する場合であって、「プレーリードッグ」と「イヌワシ」が処理対象単語ペア特徴抽出部１１によって決定された名詞ペアであり、また「天敵」が共起名詞特徴抽出部１２によって決定された共起名詞である場合、下記の３つのリストが構文構造として取り出される。

第１のリスト＝「プレーリードッグ」から共通係り先の文節「天敵です」までの構文構造：「名詞１」，にとって
第２のリスト＝「イヌワシ」から共通係り先の文節「天敵です」までの構文構造：「名詞２」，は
第３のリスト＝「天敵です」を修飾する構文構造：恐ろしい，ＮＵＬＬ，「名詞３」

この例では、「名詞１」は「プレーリードッグ」であり、「名詞２」は「イヌワシ」であり、「名詞３」は「天敵」である。なお、上の３つのリストを抽出する元になる係り受け構造は、「イヌワシ−は−天敵−です」，「プレーリードッグ−にとって−天敵−です」，「恐ろしい−天敵」などであり、この係り受け構造は、構文解析処理によって取得可能である。

そして、構文構造特徴抽出部１３は、これら３つのリストの組が全く同一であるものの出現頻度をカウントする。

但し、３つのリストの組が全く同一であるものの出現頻度をカウントする代わりに、互いの類似度が所定値以上となる組の出現頻度をカウントするようにしても良い。ここで用いる類似度としては、例えば、上記の３つのリストに出現する名詞１〜３以外の共通単語の割合で判断することができる。例えば、上に示した第１の文「プレーリードッグにとってイヌワシは恐ろしい天敵です。」と、別の第２の文「プレーリードッグにとってイヌワシは天敵です。」という文から取り出した構造との共通単語の割合は、次のように計算できる。即ち、第２の文から得られる３つのリストは、次の通りである。
第１のリスト＝「プレーリードッグ」から「天敵です」までの構文構造：「名詞１」，にとって
第２のリスト＝「イヌワシ」から「天敵です」までの構文構造：「名詞２」，は
第３のリスト＝「天敵です」を修飾する構文構造：「名詞３」
そして、第１の文の３つのリストと第２の文の３つのリストとの間の共通単語は、「にとって」と「は」であり、これらが第１の文と第２の文に出現しているので、共通単語数は４である。また、共通でない単語は「恐ろしい」と「ＮＵＬＬ」であり、共通でない単語数は２である。よって、これらの文の類似度は４／（４＋２）であり、即ち４／６と計算できる。

上述したように、構文構造特徴抽出部１３は、名詞１（処理対象単語ペアに含まれる第１の単語）と名詞２（当該処理対象単語ペアに含まれる第２の単語）と共起単語との共通係り先の文節を取り出し、第１の単語から共通係り先の文節までの構文構造と、第２の単語から共通係り先の文節までの構文構造と、これら以外の部分で、その共通係り先文節を修飾する構文構造との組み合わせにより当該文の構文構造を同定している。

また、構文構造特徴抽出部１３が、全く同一の構文構造の出現頻度をカウントする代わりに、互いの類似度が所定値以上となる組の出現頻度をカウントするような場合には、構文構造特徴抽出部１３は、構文構造を表わす単語のリストに出現する単語であって、名詞１でも名詞２でも共起名詞でもない単語が共通である割合が所定の閾値以上であるような複数の構文構造を類似の構文構造を有する構文構造グループとし、この構文構造グループの出現頻度特徴を前記構文構造の出現頻度特徴として抽出しているといえる。

ここで、処理対象単語ペア特徴抽出部１１と共起名詞特徴抽出部１２と構文構造特徴抽出部１３とがそれぞれ計算する出現頻度特徴について説明する。これらの出現頻度特徴の情報は、後の機械学習処理部１４による機械学習の処理において用いられる。
一文中に出現する与えられた処理対象属性に属する名詞ペアと、当該文に出現する他の名詞と、これら３つの名詞間の構文構造の３項組をｔ_ｉと表現する。また、この３項組に含まれる名詞ペアをＣＰｔ_ｉとし、同一文に出現する他の名詞であって関係候補となる名詞をＲＰｔ_ｉとし、これら３つの名詞間の構文構造をＳＰｔ_ｉとする。

処理対象単語ペア特徴抽出部１１は、上記の抽出結果を基に、名詞ペアの種類の出現総数をカウントする。また、処理対象単語ペア特徴抽出部１１は、ある３項組ｔ_ｉに含まれる名詞ペアＣＰｔ_ｉが３項組ｔ_ｋに含まれるか否かの情報を取得する。

共起名詞特徴抽出部１２は、上記の抽出結果を基に、共起名詞の種類の出現総数をカウントする。また、共起名詞特徴抽出部１２は、ある３項組ｔ_ｉに含まれる共起名詞ＲＰｔ_ｉが３項組ｔ_ｋに含まれるか否かの情報を取得する。

構文構造特徴抽出部１３は、上記の分析の結果を基に、構文構造の種類の出現総数をカウントする。また、構文構造特徴抽出部１３は、ある３項組ｔ_ｉに含まれる構文構造ＳＰｔ_ｉが３項組ｔ_ｋに含まれるか否かの情報を取得する。

機械学習処理部１４は、上述した処理対象単語ペア特徴抽出部１１と共起名詞特徴抽出部１２と構文構造特徴抽出部１３からの出力を入力データとして用いて学習処理を行なう。
機械学習処理部１４は、まずステップＳ０４において、それらの入力データから、明らかに関係を表すと判断できる文を抽出する。例えば、動物を処理対象概念とした場合、共起名詞特徴抽出部１２で得られた共起名詞（この共起名詞は、単語ペアの関係を表わす候補である）が、「弱い」、「大好物」、「好物」、「天敵」、「敵」、「仲間」、「大敵」、「得意」、「種類」、「獲物」、「食べる」などやその同義語や類義語である文を抽出する。これらは、動物という処理対象概念について関係を表すと明らかに判断できる名詞であるためである。なお、処理対象概念とここで抽出対象となる名詞（単語）との関係は、予め定義した処理対象概念関連語データとして記憶部（図示せず）に記憶しておく。例えば、概念辞書のデータをその目的のデータとして使用することができる。機械学習処理部１４は、この処理対象概念関連語データを記憶部から読み出して（参照して）比較することにより、共起名詞特徴抽出部１２で得られた共起名詞がその処理対象概念についての関係を表わすか否かを判断し、その判断に基づき、入力データの中から関係を表すと判別できる文を抽出する。

３項組ｔ_ｉにおいて、その３項組を構成するＣＰｔ_ｉ，ＲＰｔ_ｉ，ＳＰｔ_ｉが、関係を表現する場合（クラス）をｃ_１とし、関係を表現しない場合（クラス）をｃ_０とする。それらの確率は、下の式（１）によって定義できる。

式（１）において、Ｐ（ＣＰｔ_ｉ｜ｃ_ｊ）は、クラスｃ_ｊのときにｔ_ｉに含まれる２つの名詞ペアＣＰｔ_ｉが出現する確率である。また、Ｐ（ＲＰｔ_ｉ｜ｃ_ｊ）は、クラスｃ_ｊのときにｔ_ｉに含まれる関係候補の名詞（同一文に出現する共起名詞）ＲＰｔ_ｉが出現する確率である。また、Ｐ（ＳＰｔ_ｉ｜ｃ_ｊ）は、クラスｃ_ｊのときにｔ_ｉに含まれる３つの名詞間の構文構造ＳＰｔ_ｉが出現する確率である。

この式を利用して、次に機械学習処理部１４は、ステップＳ０５において、ＥＭアルゴリズム（Expectation-maximization algorithm）を利用した機械学習を行なう。なお、ＥＭアルゴリズムを用いた学習処理の手順は次に示すが、下記参考文献にも記載されている。
参考文献： Kamel Nigam et al.，“Text Classification from Labeled and Unlabeled Document using EM.”，Machine Learning，Vol.39，No.2/3，pp.103-134 (2000)．

この機械学習処理（ステップＳ０５内の処理）については別のフローチャートを参照して説明する。
図３は、機械学習処理部１４がＥＭアルゴリズムを用いて行なう機械学習処理の手順を示すフローチャートである。
まずステップＳ２１において、機械学習処理部１４は、入力テキスト記憶部２から処理対象のテキストデータを読み込み、このテキストデータから得られるｔ_ｉが属するクラスｃ_ｊの初期確率Ｐ（ｃ_ｊ｜ｔ_ｉ）を、下の式（２）により計算する。なお、クラスｃ_ｊは、ｃ_０またはｃ_１のいずれかであり、それらの定義は前述の通りである。

この初期確率の計算においては、機械学習処理部１４によって、明らかに関係を表すと判断された文（上述）から抽出された３項組ｔ_ｉについて、関係を表現する場合のクラスｃ_１に属する回数を１とカウントする。また、それ以外の文から抽出された３項組ｔ_ｉについて、関係を表現する場合のクラスｃ_１に属する回数を０以上且つ１未満の所定値（例えば０．５）とカウントする。この所定値は０．５に限らず適宜変更できる。また、ある文のあるｔ_ｉについて、上記によってｃ_１が決まると、その文のそのｔ_ｉについてのｃ_０は、ｃ_０＝１−ｃ_１によって決定する。そして、そのｔ_ｉが出現するすべての文についてのカウントの総和をとり、得られたｃ_０およびｃ_１カウントの結果を用いて、式（２）の分子を算出する。

なお、ステップＳ２１の初期確率を計算する処理は、ＥＭアルゴリズムのＥステップである。

次にステップＳ２２において、機械学習処理部１４は、クラスｃ_ｊのもとで名詞ペアＣＰｔ_ｉが発生する確率Ｐ（ＣＰｔ_ｉ｜ｃ_ｊ）を式（３）により、クラスｃ_ｊのもとで共起名詞ＲＰｔ_ｉが発生する確率Ｐ（ＲＰｔ_ｉ｜ｃ_ｊ）を式（４）により、クラスｃ_ｊのもとで３つの名詞間の構文構造ＳＰｔ_ｉが発生する確率Ｐ（ＳＰｔ_ｉ｜ｃ_ｊ）を式（５）により、それぞれ算出する。

つまり、式（３）はクラスｃ_ｊのときの処理対象単語ペアの条件付き確率を算出するための式であり、式（４）はクラスｃ_ｊのときの共起単語の条件付き確率を算出するための式であり、式（５）はクラスｃ_ｊのときの前記構文構造の条件付き確率を算出するための式である。
なお、ステップＳ２２の各確率を計算する処理は、ＥＭアルゴリズムのＭステップである。

上の式（３），（４），（５）において、｜ＣＰ｜は名詞ペアの出現総数を表わし、｜ＲＰ｜は関係候補となる名詞の出現総数を表わし、｜ＳＰ｜は３名詞の構文構造の出現総数を表わし、｜Ｔ｜は３項組の出現総数を表す。Ｎ（ＣＰｔ_ｉ｜ｔ_ｋ）は、３項組ｔ_ｉに含まれる名詞ペアが３項組ｔ_ｋに含まれるか否かを表す関数である。Ｎ（ＲＰｔ_ｉ｜ｔ_ｋ）は、３項組ｔ_ｉに含まれる関係候補となる名詞（共起名詞）が３項組ｔ_ｋに含まれるか否かを表す関数である。Ｎ（ＳＰｔ_ｉ｜ｔ_ｋ）は、３項組ｔ_ｉに含まれる３名詞の構文構造が３項組ｔ_ｋに含まれるか否かを表す関数である。これらの、含まれるか否かを表わす関数は、それぞれ、含まれる場合は１を値として返し、含まれない場合は０を値として返す。

なお、式（３）が表わすように、確率Ｐ（ＣＰｔ_ｉ｜ｃ_ｊ）の分母の第１項は名詞ペアの出現総数である。分母の第２項は、３項組ｔ_ｋに名詞ペアＣＰｔ_ｍが含まれる場合のｔ_ｋを前提としたｃ_ｊの条件付き確率（便宜的にXｃと呼ぶ）の、全ての３項組且つ全ての名詞ペアについての総和である。また、分子の第１項は定数項（１）である。分子の第２項は、上記Ｘｃの、当該名詞ペアＣＰｔ_ｉについての全ての３項組についての総和である。
また、式（４）が表わすように、確率Ｐ（ＲＰｔ_ｉ｜ｃ_ｊ）の分母の第１項は共起名詞の出現総数である。分母の第２項は、３項組ｔ_ｋに共起名詞ＲＰｔ_ｍが含まれる場合のｔ_ｋを前提としたｃ_ｊの条件付き確率（便宜的にXｒと呼ぶ）の、全ての３項組且つ全ての共起名詞についての総和である。また、分子の第１項は定数項（１）である。分子の第２項は、上記Ｘｒの、当該共起名詞ＲＰｔ_ｉについての全ての３項組についての総和である。
また、式（５）が表わすように、確率Ｐ（ＳＰｔ_ｉ｜ｃ_ｊ）の分母の第１項は構文構造の出現総数である。分母の第２項は、３項組ｔ_ｋに構文構造ＳＰｔ_ｍが含まれる場合のｔ_ｋを前提としたｃ_ｊの条件付き確率（便宜的にXｓと呼ぶ）の、全ての３項組且つ全ての構文構造についての総和である。また、分子の第１項は定数項（１）である。分子の第２項は、上記Ｘｓの、当該構文構造ＳＰｔ_ｉについての全ての３項組についての総和である。

次にステップＳ２３において、機械学習処理部１４は、上で式（３），（４），（５）によりそれぞれ計算された確率Ｐ（ＣＰｔ_ｉ｜ｃ_ｊ）とＰ（ＲＰｔ_ｉ｜ｃ_ｊ）とＰ（ＳＰｔ_ｉ｜ｃ_ｊ）の値を用いて、下の式（６）により、Ｐ（ｃ_ｊ｜ｔ_ｉ）の期待値を計算する。

そして、ステップＳ２４において、機械学習処理部１４は、式（６）の結果を用いて、下の式（７）により、Ｐ（ｃ_ｊ）の値を計算する。

式（７）において、｜ｃ｜は分類すべきクラスの数を指すものであり、ここではクラスはｃ_０とｃ_１の２種類であるので、｜ｃ｜は２である。

そして、ステップＳ２５において、機械学習処理部１４は、収束条件の判断を行い、収束していなければステップＳ２２に戻り（ステップＳ２５：ＮＯ）、収束していればこのフローチャートで示した学習処理全体を終了する（ステップＳ２５：ＹＥＳ）。

この収束条件の判断は、具体的には、ステップＳ２４で算出されたＰ（ｃ_ｊ）の値の前回算出時からの変化量ΔＰ（ｃ_ｊ）が、所定の閾値（例えば、１．０×１０^−３）未満であるか否かにより行なう。つまり、変化量ΔＰ（ｃ_ｊ）がその閾値以上であれば（ステップＳ２５：ＮＯ）、ステップＳ２２に戻り、再度このフローチャートの手順に従って、新たなＰ（ｃ_ｊ）およびＰ（ｃ_ｊ｜ｔ_ｉ）の値を利用して、Ｐ（ＣＰｔ_ｉ｜ｃ_ｊ）とＰ（ＲＰｔ_ｉ｜ｃ_ｊ）とＰ（ＳＰｔ_ｉ｜ｃ_ｊ）の値を計算し（ステップＳ２２）、ステップＳ２５において変化量ΔＰ（ｃ_ｊ）がその閾値より小さい値となるまで、ステップＳ２２〜Ｓ２５の処理を繰り返す。ステップＳ２５において、Ｐ（ｃ_ｊ）の変化量ΔＰ（ｃ_ｊ）がその閾値より小さい場合には（ステップＳ２５：ＹＥＳ）、このフローチャートで示した学習処理全体を終了する。

図２のフローチャートに戻って、ステップＳ０６において、機械学習処理部１４は、上の処理手順において最後に計算された確率値Ｐ（ｃ_ｊ｜ｔ_ｉ），Ｐ（ＣＰｔ_ｉ｜ｃ_ｊ），Ｐ（ＲＰｔ_ｉ｜ｃ_ｊ），Ｐ（ＳＰｔ_ｉ｜ｃ_ｊ）を学習結果データ記憶部３に書き込む。

そしてステップＳ０７において、確率値計算処理部１５は、機械学習処理部１４によって出力され学習結果データ記憶部３に書き込まれたＰ（ｃ_ｊ｜ｔ_ｉ），Ｐ（ＣＰｔ_ｉ｜ｃ_ｊ），Ｐ（ＲＰｔ_ｉ｜ｃ_ｊ），Ｐ（ＳＰｔ_ｉ｜ｃ_ｊ）を読み出し、これらの値を基に、確率値の計算を行なう。確率値計算処理部１５が算出するのは、処理対象名詞ペアが関係を持つ確率Ｐ（ｃ_ｊ｜ＣＰｔ_ｉ）と、処理対象名詞ペアと共起した名詞が関係を持つ確率Ｐ（ｃ_ｊ｜ＲＰｔ_ｉ）と、処理対象名詞ペアと共起した名詞との間の構文構造が関係を示す構造である確率Ｐ（ｃ_ｊ｜ＳＰｔ_ｉ）であり、これらはそれぞれ、式（８），（９），（１０）により計算される。

確率値計算処理部１５は、計算されたこれらの値を出力データ４として出力する。確率値Ｐ（ｃ_ｊ｜ＣＰｔ_ｉ）は、名詞ペアＣＰｔ_ｉが関係を持つか否かの度合いを示す。確率値Ｐ（ｃ_ｊ｜ＲＰｔ_ｉ）は、名詞ペアと共起した名詞ＲＰｔ_ｉが関係を表すか否かの度合いを示す。確率値Ｐ（ｃ_ｊ｜ＳＰｔ_ｉ）は、処理対象名詞ペアと共起した名詞との間の構文構造ＳＰｔ_ｉが関係を示す構造であるか否かの度合いを示す。これらの出力データにより判定を行なえる。

なお、確率値計算処理部１５が、確率値Ｐ（ｃ_ｊ｜ＣＰｔ_ｉ）やＰ（ｃ_ｊ｜ＲＰｔ_ｉ）やＰ（ｃ_ｊ｜ＳＰｔ_ｉ）について、それぞれ所定の閾値以上かどうかによる判定を行い、その判定結果を出力するようにしても良い。

＜処理結果例＞
テキストから関係を抽出するという上記一連の処理を、実データに対象として行なった結果について、次に説明する。ここでは、処理対象属性（対象概念）を「動物」とし、処理対象データは日本放送協会（ＮＨＫ）によって制作・放送された動物に関するテレビ番組のクローズドキャプションデータを用いている。

図４は、抽出された名詞ペアＣＰｔ_ｉとそれに関する確率値Ｐ（ｃ_０｜ＣＰｔ_ｉ）の値を列挙して示す概略図である。この図のデータは、確率値計算処理部１５によって出力されたデータをＰ（ｃ_０｜ＣＰｔ_ｉ）の昇順にソートして示しているものである。Ｐ（ｃ_１｜ＣＰｔ_ｉ）＝１−Ｐ（ｃ_０｜ＣＰｔ_ｉ）であるため、この図では、上に挙げられている名詞ペアほど関係を持つ可能性（度合い）が高いものである。例えば、「名詞１」が「イルカ」で「名詞２」が「ボラ」である名詞ペアについてのＰ（ｃ_０｜ＣＰｔ_ｉ）は０．０３１である。また、例えば、「名詞１」が「サケ」で「名詞２」が「ヒグマ」である名詞ペアについてのＰ（ｃ_０｜ＣＰｔ_ｉ）は０．０４４である。また、例えば、「名詞１」が「シロフクロウ」で「名詞２」が「レミング」である名詞ペアについてのＰ（ｃ_０｜ＣＰｔ_ｉ）は０．０４４である。そして、以下同様である。

図５は、抽出された共起名詞ＲＰｔ_ｉとそれに関する確率値Ｐ（ｃ_０｜ＲＰｔ_ｉ）の値を列挙して示す概略図である。この図のデータは、確率値計算処理部１５によって出力されたデータをＰ（ｃ_０｜ＲＰｔ_ｉ）の昇順にソートして示しているものである。Ｐ（ｃ_１｜ＲＰｔ_ｉ）＝１−Ｐ（ｃ_０｜ＲＰｔ_ｉ）であるため、この図では、上に挙げられている共起名詞ほど、関係を表わす名詞である可能性（度合い）が高いものである。例えば、「名詞３」が「仲間」であるときＰ（ｃ_０｜ＲＰｔ_ｉ）は０．０１１である。また、例えば、「名詞３」が「食べる」であるときＰ（ｃ_０｜ＲＰｔ_ｉ）は０．０１２である。そして、以下同様である。

図６は、処理対象名詞ペアと共起した名詞との間の構文構造ＳＰｔ_ｉとそれに関する確率値Ｐ（ｃ_０｜ＳＰｔ_ｉ）の値を列挙して示す概略図である。この図のデータは、確率値計算処理部１５によって出力されたデータをＰ（ｃ_０｜ＳＰｔ_ｉ）の昇順にソートして示しているものである。Ｐ（ｃ_１｜ＳＰｔ_ｉ）＝１−Ｐ（ｃ_０｜ＳＰｔ_ｉ）であるため、この図では、上に挙げられている構文構造ほど、その構文が関係を表わす構造である可能性（度合い）が高いものである。

この図における構文構造の表記について説明する。表記に現れる記号として、「ＮＰ１」は名詞１を表わし、「ＮＰ２」は名詞２を表わし、「ＲＥＬ」は関係候補名詞を表わす。構文構造の表記のパターンは次の通りである。即ち、名詞１と名詞２と共起単語との共通係り先の文節を取り出し、名詞１から共通係り先の文節までの構文構造と、名詞２から共通係り先の文節までの構文構造と、共通係り先の文節を修飾する構文構造の３つの構造を、セパレータ文字「＝」で区切って表記している。この第１のパターンで表記するのは、名詞１と名詞２の後に関係候補名詞が出現する場合である。

例えば、この図の第１行目のデータは、名詞１から関係候補名詞までの構文構造が「ＮＰ１，は」であり、名詞２から関係候補名詞までの構文構造が「ＮＰ２，を」であり、関係候補名詞を修飾する構文構造が「ＲＥＬ」であるような構文構造に対応しており、そのときのＰ（ｃ_０｜ＳＰｔ_ｉ）は０．０３４である。他の行のデータも同様である。

なお、本実施形態による言語処理装置１は、当該文において名詞１と名詞２の共通係り先を抽出し、名詞１から共通係り先までの構文構造、もしくは名詞２から共通係り先までの構文構造に関係候補名詞を含む場合のみを処理対象としている。名詞１から共通係り先までの構文構造もしくは名詞２から共通係り先までの構文構造に関係候補名詞を含まない場合や、関係候補名詞が名詞１の前にある場合は処理対象から除いている。

これらの図に示した処理結果の例のデータは、適切な結果であると判断できる。つまり、単語ペアや、関係名を表わす共起名詞や、関係を表わす構文構造などとして、妥当なものが処理結果の上位に挙げられている。つまり、本実施形態による言語処理装置１が有効であることが確認できた。

なお、上述した実施形態における言語処理装置の全部又は一部の機能をコンピュータで実現するようにしても良い。その場合、これらの機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

以上、複数の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
前記の実施形態では、入力テキスト記憶部２と、学習結果データ記憶部３と、出力データ４と、処理対象単語ペア特徴抽出部１１と、共起名詞特徴抽出部１２と、構文構造特徴抽出部１３と、機械学習処理部１４と、確率値計算処理部１５とをすべて一体として含んだ言語処理装置の構成としたが、例えば、処理対象単語ペア特徴抽出部１１と、共起名詞特徴抽出部１２と、構文構造特徴抽出部１３と、機械学習処理部１４とを含んで機械学習処理までを行なう装置と、確率値計算処理部１５を含んで与えられた学習結果データを用いて確率値計算処理（判定処理）の部分を行なう装置に分けて構成しても良い。このとき、学習結果データは、両装置によって共有される記憶手段を介して渡したり、通信線を介して渡したりするように構成する。このように装置を分けた場合、機械学習処理までの部分と確率値計算処理の部分とを別に行なうことができる。また、予め機械学習処理を行なっておき、その結果得られる学習結果データを用いて繰り返し確率値計算処理を行なうこともできる。また、入力テキストと類似分野の文（学習結果データが有効であるような文）であれば、元の入力テキストに含まれていない文を対象として確率値計算処理を行なうこともできる。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

本発明は、大量のテキストからの情報自動抽出、知識獲得などに利用できる。

本発明の実施形態による言語処理装置の機能構成を示したブロック図である。同実施形態による言語処理装置の全体の処理手順を示したフローチャートである。同実施形態による言語処理装置の処理のうちＥＭアルゴリズムを用いた機械学習処理の手順を示したフローチャートである。同実施形態による処理結果のデータであり、処理対象名詞ペアが関係を持つ確率の上位を、Ｐ（ｃ_０｜ＣＰｔ_ｉ）の昇順で示す概略図である。同実施形態による処理結果のデータであり、名詞ペアと共起した名詞が関係を表す確率の上位を、Ｐ（ｃ_０｜ＲＰｔ_ｉ）の昇順で示す概略図である。同実施形態による処理結果のデータであり、処理対象名詞ペアと共起した名詞との間の構文構造が関係を示す構造である確率の上位を、Ｐ（ｃ_０｜ＳＰｔ_ｉ）の昇順で示す概略図である。

符号の説明

１言語処理装置
２入力テキスト記憶部
３学習結果データ記憶部
４出力データ
１１処理対象単語ペア特徴抽出部
１２共起名詞特徴抽出部（共起単語特徴抽出部）
１３構文構造特徴抽出部
１４機械学習処理部
１５確率値計算処理部

Claims

複数の文を含む入力テキストデータに基づき、一つの文に含まれる単語のペアである処理対象単語ペアと当該文の中に出現する他の単語である共起単語と当該文の構文構造とからなる３項組に関して、前記３項組に含まれる前記処理対象単語ペアが他の３項組に含まれるか否かを表わす、前記処理対象単語ペアの出現頻度特徴を抽出する処理対象単語ペア特徴抽出部と、
前記入力テキストデータに基づき、前記３項組に含まれる前記共起単語が他の３項組に含まれるか否かを表わす、前記共起単語の出現頻度特徴を抽出する共起単語特徴抽出部と、
前記入力テキストデータに基づき、前記３項組に含まれる前記構文構造が他の３項組に含まれるか否かを表わす、前記構文構造の出現頻度特徴を抽出する構文構造特徴抽出部と、
前記共起単語が前記処理対象単語ペアの関係を表わすクラスに属すると判別できる前記入力テキストデータ中の文を正解サンプルとして、前記処理対象単語ペアの出現頻度特徴と、前記共起単語の出現頻度特徴と、前記構文構造の出現頻度特徴とに基づいて、機械学習処理を行い、前記３項組が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記処理対象単語ペアが出現する条件付き確率、および前記３項組が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記共起単語が出現する条件付き確率、および前記３項組が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記構文構造が出現する条件付き確率を、学習結果データとして学習結果データ記憶部に書き込む処理を行なう機械学習処理部と、
を備えることを特徴とする言語処理装置。
請求項１に記載の言語処理装置において、
前記構文構造特徴抽出部は、前記文の構文解析結果に基づき、前記処理対象単語ペアに含まれる第１の単語と当該処理対象単語ペアに含まれる第２の単語と前記共起単語との共通係り先文節を取り出し、前記第１の単語から前記共通係り先文節までの構文構造と、前記第２の単語から前記共通係り先文節までの構文構造と、前記共通係り先文節を修飾する構文構造との組み合わせにより当該文の構文構造を同定する、
ことを特徴とする言語処理装置。
請求項２に記載の言語処理装置において、
前記構文構造特徴抽出部は、前記構文構造を表わす単語のリストに出現する単語であって、前記第１の単語でも前記第２の単語でも前記共起単語でもない単語が共通である割合が所定の閾値以上であるような複数の構文構造を類似の構文構造を有する構文構造グループとし、この構文構造グループの出現頻度特徴を前記構文構造の出現頻度特徴として抽出する、
ことを特徴とする言語処理装置。
前記機械学習処理部は、処理対象概念関連語を予め記憶した処理対象概念関連語データを参照し、前記共起単語が前記処理対象概念関連語データに含まれているか否かにより、前記共起単語を含む文が、前記共起単語が前記処理対象単語ペアの関係を表わすクラスに属するか否かを判別する、
ことを特徴とする請求項１から３までのいずれか一項に記載の言語処理装置。
請求項１から４までのいずれか一項に記載の言語処理装置において、
前記学習結果データ記憶部から読み出した前記学習結果データを用いて、文に前記処理対象単語ペアが出現することを前提として当該文が前記クラスに属する条件付き確率と、文に前記共起単語が出現することを前提として当該文が前記クラスに属する条件付き確率と、文に前記構文構造が出現することを前提として当該文が前記クラスに属する条件付き確率とを算出する確率値計算処理部と、
をさらに具備することを特徴とする言語処理装置。
請求項１から４までのいずれか一項に記載の言語処理装置によって前記学習結果データ記憶部に書き込まれた前記学習結果データを用いて、文に前記処理対象単語ペアが出現することを前提として当該文が前記クラスに属する条件付き確率と、文に前記共起単語が出現することを前提として当該文が前記クラスに属する条件付き確率と、文に前記構文構造が出現することを前提として当該文が前記クラスに属する条件付き確率とを算出する確率値計算処理部を具備することを特徴とする言語処理装置。
複数の文を含む入力テキストデータに基づき、一つの文に含まれる単語のペアである処理対象単語ペアと当該文の中に出現する他の単語である共起単語と当該文の構文構造とからなる３項組に関して、前記３項組に含まれる前記処理対象単語ペアが他の３項組に含まれるか否かを表わす、前記処理対象単語ペアの出現頻度特徴を抽出する処理対象単語ペア特徴抽出過程と、
前記入力テキストデータに基づき、前記３項組に含まれる前記共起単語が他の３項組に含まれるか否かを表わす、前記共起単語の出現頻度特徴を抽出する共起単語特徴抽出過程と、
前記入力テキストデータに基づき、前記３項組に含まれる前記構文構造が他の３項組に含まれるか否かを表わす、前記構文構造の出現頻度特徴を抽出する構文構造特徴抽出過程と、
前記共起単語が前記処理対象単語ペアの関係を表わすクラスに属すると判別できる前記入力テキストデータ中の文を正解サンプルとして、前記処理対象単語ペアの出現頻度特徴と、前記共起単語の出現頻度特徴と、前記構文構造の出現頻度特徴とに基づいて、機械学習処理を行い、前記３項組が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記処理対象単語ペアが出現する条件付き確率、および前記３項組が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記共起単語が出現する条件付き確率、および前記３項組が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記構文構造が出現する条件付き確率を、学習結果データとして学習結果データ記憶部に書き込む処理を行なう機械学習処理過程と、
の処理をコンピュータに実行させるプログラム。