JP2007219947A - Causal relation knowledge extraction device and program - Google Patents
Causal relation knowledge extraction device and program Download PDFInfo
- Publication number
- JP2007219947A JP2007219947A JP2006041281A JP2006041281A JP2007219947A JP 2007219947 A JP2007219947 A JP 2007219947A JP 2006041281 A JP2006041281 A JP 2006041281A JP 2006041281 A JP2006041281 A JP 2006041281A JP 2007219947 A JP2007219947 A JP 2007219947A
- Authority
- JP
- Japan
- Prior art keywords
- data
- causal relationship
- noun
- absence
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、電子化されたテキストデータを対象とした、情報抽出及び自然言語処理に関し、特に、自然言語処理技術を利用することにより、テキストデータから、因果関係を持つ名詞のペア及び因果関係を持つ構文構造を抽出する技術に関する。 The present invention relates to information extraction and natural language processing for digitized text data, and in particular, by using natural language processing technology, pairs of nouns and causal relationships having causal relationships can be identified from text data. The present invention relates to a technique for extracting a syntactic structure.
現在、デジタル放送サービスでは、データ放送や字幕放送等のテキストデータが大量に多重放送されている。デジタル放送を受信する装置がこれらのテキストデータを常時監視し、有益な情報を抽出して蓄積することができれば、視聴者の疑問に答えるテレビを実現できるようになると考えられる。このような状況の下で、単語間における「原因−結果」等の関係(以下、因果関係という。)を自動抽出する研究が進められている。 Currently, in digital broadcasting services, a large amount of text data such as data broadcasting and caption broadcasting is multiplexed and broadcast. If a device that receives digital broadcasts can constantly monitor these text data and extract and store useful information, it will be possible to realize a television that answers the viewer's questions. Under such circumstances, research for automatically extracting a relationship such as “cause-result” between words (hereinafter referred to as “causal relationship”) is underway.
例えば、非特許文献1には、日本語テキストを対象として、「ため」という単語を手掛かり語とした因果関係抽出手法が提案されている。また、非特許文献2には、並列句が一つの文に存在し、並列句中の動詞が共通の目的語を持つ場合に因果関係が成立しやすいと仮定して、統計的に因果関係を抽出する手法が提案されている。
For example, Non-Patent
しかしながら、前述の非特許文献1の手法において、手掛かり語が出現しない場合は因果関係を抽出することができないという問題があった。また、非特許文献2の手法においても、並列句中の動詞が共通の目的語を持たない場合は因果関係を抽出することができないという問題があった。
However, in the method of
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、手掛かり語が出現しない場合や、並列語中の動詞が共通の目的語を持たない場合であっても、名詞間(名詞ペア)における因果関係を抽出することが可能な因果関係知識抽出装置及びプログラムを提供することにある。 Therefore, the present invention has been made to solve the above problems, and the purpose of the present invention is to provide a noun even when a clue word does not appear or when a verb in a parallel word does not have a common object. It is an object of the present invention to provide a causal relationship knowledge extraction apparatus and program capable of extracting a causal relationship between spaces (noun pairs).
上記課題を解決するため、本発明による因果関係知識抽出装置は、テキストデータに含まれる名詞ペアについて、その因果関係の有無を知識として抽出する装置であって、テキストデータに含まれる名詞ペアを抽出する名詞ペア抽出部と、該名詞ペア抽出部により抽出された名詞ペアを含むテキストデータについて、該テキストデータの構文構造及び前記名詞ペアの属性を特徴データとして抽出する特徴抽出部と、該特徴抽出部により抽出された特徴データの一部に対し、前記名詞ペアにおける因果関係の有無をタグとして付与するタグ付け部と、該タグ付け部によりタグが付与された特徴データが教師有りデータとして格納され、タグ付け部によりタグが付与されない特徴データが教師無しデータとして格納される記憶部と、該記憶部に格納された教師有りデータ及び教師無しデータに基づいて、該教師無しデータに含まれる名詞ペアにおける因果関係の有無を判定する因果関係判定部と、を備えたことを特徴とする。 In order to solve the above-described problem, the causal relationship knowledge extraction device according to the present invention is a device that extracts the presence or absence of a causal relationship as knowledge from noun pairs included in text data, and extracts noun pairs included in text data. A noun pair extracting unit that extracts the syntax structure of the text data and the attributes of the noun pair as feature data for the text data including the noun pair extracted by the noun pair extracting unit, and the feature extraction A tagging unit that adds a tag indicating whether or not a causal relationship exists in the noun pair for a part of the feature data extracted by the unit, and feature data to which the tag is added by the tagging unit is stored as supervised data. A storage unit in which feature data not tagged by the tagging unit is stored as unsupervised data; Based on the supervised data and unsupervised data is characterized by comprising a causality determination unit determines the presence or absence of a causal relationship noun pairs in the 該教 nurses no data.
また、本発明による因果関係知識抽出装置は、前記特徴抽出部が、名詞ペアを含むテキストデータについて、該名詞ペアの係り受け関係を示す木構造を生成する木構造生成手段と、該木構造生成手段により生成されたテキストデータの木構造を構成するノードを、自立語及び機能語に分離し、前記テキストデータの構文構造を示すPSE(Preorder String Expression)を生成するPSE生成手段と、前記名詞ペアの上位概念を抽出する上位概念抽出手段と、前記PSE生成手段により生成されたPSEと、上位概念抽出手段により抽出された上位概念とを用いて、3項組を特徴データとして生成する3項組生成手段と、を有することを特徴とする。 In the causal relationship knowledge extracting apparatus according to the present invention, the feature extraction unit generates a tree structure indicating a dependency relation of the noun pair for the text data including the noun pair, and the tree structure generation PSE generation means for separating nodes constituting the tree structure of text data generated by the means into independent words and function words and generating PSE (Preorder String Expression) indicating the syntax structure of the text data; and the noun pair A ternary set for generating a ternary set as feature data using a superordinate concept extracting means for extracting a superordinate concept of the PSE, a PSE generated by the PSE generating means, and a superordinate concept extracted by the superordinate concept extracting means And generating means.
前記因果関係判定部は、EMアルゴリズムにより、記憶部に格納された教師有りデータについて、当該データにおける因果関係の有無の確率を算出し、前記記憶部に格納された教師有りデータ及び教師無しデータについて、同一または所定の値以上の類似度を有する構文構造が出現する確率を算出し、前記記憶部に格納された教師有りデータ及び教師無しデータについて、当該データに含まれる名詞ペアと同一の属性が出現する確率を算出し、これらの確率に基づいて、特徴データにおける因果関係の有無の確率、特徴データに含まれる構文構造における因果関係の有無の確率、及び、特徴データに含まれる名詞ペアにおける因果関係の有無の確率を算出して因果関係の有無を判定することが好適である。 The causal relationship determination unit calculates the probability of the presence or absence of a causal relationship in the data with respect to supervised data stored in the storage unit by an EM algorithm, and the supervised data and unsupervised data stored in the storage unit Calculating the probability of occurrence of a syntactic structure having the same or a similarity equal to or higher than a predetermined value, and for the supervised data and the unsupervised data stored in the storage unit, the same attribute as the noun pair included in the data Based on these probabilities, the probability of occurrence of causality in the feature data, the probability of causality in the syntactic structure included in the feature data, and the causality in the noun pair included in the feature data are calculated based on these probabilities. It is preferable to determine the presence or absence of a causal relationship by calculating the probability of the presence or absence of a relationship.
また、本発明による因果関係知識抽出装置は、さらに、新たなテキストデータを入力し、該テキストデータに含まれる名詞ペアを抽出し、テキストデータの構文構造及び名詞ペアの属性を特徴データとして抽出し、前記因果関係判定部により算出された因果関係の有無の確率に基づいて、前記新たなテキストデータに含まれる名詞ペアにおける因果関係の有無を判定するテキスト判定部を備えたことを特徴とする。 The causal relationship knowledge extracting apparatus according to the present invention further inputs new text data, extracts noun pairs included in the text data, and extracts the syntax structure of the text data and the attributes of the noun pairs as feature data. A text determination unit for determining the presence or absence of a causal relationship in a noun pair included in the new text data based on the probability of the presence or absence of a causal relationship calculated by the causal relationship determination unit.
前記テキスト判定部は、抽出した特徴データを用いて、因果関係判定部により算出された特徴データに含まれる構文構造における因果関係の有無の確率に基づいて、前記抽出した特徴データに含まれる構文構造における因果関係の有無の確率を算出し、該確率により因果関係の有無を判定することが好適である。 The text determination unit uses the extracted feature data, and based on the probability of the presence or absence of a causal relationship in the syntax structure included in the feature data calculated by the causal relationship determination unit, the syntax structure included in the extracted feature data It is preferable to calculate the probability of the presence or absence of a causal relationship in, and determine the presence or absence of the causal relationship based on the probability.
また、前記テキスト判定部は、抽出した特徴データを用いて、因果関係判定部により算出された特徴データに含まれる名詞ペアにおける因果関係の有無の確率に基づいて、前記抽出した特徴データに含まれる名詞ペアにおける因果関係の有無の確率を算出し、該確率により因果関係の有無を判定することが好適である。 The text determination unit is included in the extracted feature data based on the probability of the presence or absence of a causal relationship in a noun pair included in the feature data calculated by the causal relationship determination unit using the extracted feature data. It is preferable to calculate the probability of the presence or absence of a causal relationship in the noun pair and determine the presence or absence of the causal relationship based on the probability.
本発明を因果関係知識抽出装置として説明したが、本発明はこの因果関係知識抽出装置を構成するコンピュータによって実行されるプログラムとしても実質的に実現し得るものであり、本発明には、因果関係知識抽出プログラムも包含される。すなわち、本発明による因果関係知識抽出プログラムは、テキストデータに含まれる名詞ペアの因果関係の有無を抽出する装置による因果関係知識抽出プログラムであって、前記装置を構成するコンピュータに、テキストデータに含まれる名詞ペアを抽出する処理と、前記名詞ペアを含むテキストデータの構文構造及び名詞ペアの属性を特徴データとして抽出する処理と、前記抽出した特徴データの一部に対し、名詞ペアにおける因果関係の有無をタグとして付与する処理と、前記タグが付与された特徴データである教師有りデータと、タグが付与されない特徴データである教師無しデータとに基づいて、教師無しデータに含まれる名詞ペアにおける因果関係の有無を判定する処理とを実行させることを特徴とする。 Although the present invention has been described as a causal relationship knowledge extraction device, the present invention can be substantially realized as a program executed by a computer constituting the causal relationship knowledge extraction device. A knowledge extraction program is also included. That is, the causal relationship knowledge extraction program according to the present invention is a causal relationship knowledge extraction program by a device that extracts the presence or absence of a causal relationship between noun pairs included in text data, and is included in the text data in the computer constituting the device. A process of extracting a noun pair to be processed, a process of extracting a syntactic structure of text data including the noun pair and an attribute of the noun pair as feature data, and a causal relationship in the noun pair with respect to a part of the extracted feature data. Causality in noun pairs included in unsupervised data based on the process of assigning presence / absence as a tag, supervised data that is feature data to which the tag is attached, and unsupervised data that is feature data to which no tag is attached And a process for determining whether or not there is a relationship.
以上のように、本発明によれば、テキストデータ中に手掛かり語が存在しない場合や、並列語中の動詞が共通の目的語を持たない場合であっても、名詞ペアにおける因果関係を抽出することが可能となる。 As described above, according to the present invention, the causal relationship in the noun pair is extracted even when there is no clue word in the text data or when the verb in the parallel word does not have a common object. It becomes possible.
以下、本発明を実施するための最良の形態について図面を用いて詳細に説明する。
〔構成〕
まず、本発明の実施の形態による因果関係知識抽出装置の構成について説明する。図1は、因果関係知識抽出装置の構成を示すブロック図である。この因果関係知識抽出装置1は、名詞ペア抽出部2、特徴抽出部3、タグ付け部4、機械学習部5、テキスト解析インターフェース部6、及び記憶部7−1〜4を備えている。テキストデータが格納された記憶部7−1、名詞ペア抽出部2、特徴抽出部3及びタグ付け部4により、因果関係の有無が示されていない教師無しデータが記憶部7−2に格納され、因果関係の有無が示された教師有りデータが記憶部7−3に格納される。また、機械学習部5により、教師無しデータに対する因果関係について判定され、その確率を含む出力データが記憶部7−4に格納される。また、テキスト解析インターフェース部6により、テキスト解析の対象となるテキストデータについて、記憶部7−4に格納された出力データを用いて因果関係の有無が判定される。
The best mode for carrying out the present invention will be described below in detail with reference to the drawings.
〔Constitution〕
First, the configuration of the causal relationship knowledge extraction apparatus according to the embodiment of the present invention will be described. FIG. 1 is a block diagram showing the configuration of the causal relationship knowledge extraction apparatus. The causal relationship
名詞ペア抽出部2は、記憶部7−1からテキストデータを入力し、形態素解析により形態素に分割し、名詞のペアを抽出する。この名詞ペアを抽出する手法(形態素解析による抽出手法)は既知であるため、ここでは説明を省略する。
The noun
特徴抽出部3は、名詞ペア抽出部2により抽出された名詞ペアについて、当該名詞ペアを含むテキストデータの構造上(構文構造)の特徴、及び名詞ペアの属性の特徴を抽出する。図2は、図1に示した特徴抽出部3の構成を示すブロック図である。この特徴抽出部3は、木構造生成手段31、上位概念抽出手段32、PSE(Preorder String Expression)生成手段33、3項組生成手段34及びシソーラス記憶部35を備えている。木構造生成手段31は、構文解析結果に基づいて、名詞ペアを含むテキストデータの文について木構造を生成する。この構文解析手法は既知であるため、ここでは説明を省略する。詳細については、「工藤他、“チャンキングの段階適用による係り受け解析”、情処論、Vol.43、No.6、pp.1834−1842(2002)」の文献を参照されたい。PSE生成手段33は、木構造生成手段31により生成された木構造から、当該木構造を表現することが可能なPSEを生成する。上位概念抽出手段32は、名詞ペアのそれぞれの上位概念を、シソーラス記憶部35を検索して抽出する。3項組生成手段34は、PSE生成手段33により生成されたPSEと、上位概念抽出手段32により抽出された上位概念とを用いて、テキストデータの構造上の特徴及び名詞ペアの属性の特徴を示す3項組を生成する。
The
タグ付け部4は、ユーザの操作により、特徴抽出部3により生成された3項組から、因果関係の有無を指定する3項組を選択し、当該選択した3項組に対して因果関係の有無を指定し(タグ付けし)、教師有りデータとして記憶部7−3に格納する。タグ付け部4によりタグ付けされない3項組は、教師無しデータとして記憶部7−2に格納される。この場合、3項組は教師無しデータと教師有りデータとに区分され、教師無しデータは大量に存在し、教師有りデータは少量しか存在しない。
The tagging unit 4 selects, by the user's operation, a ternary group that specifies the presence or absence of a causal relationship from the ternary group generated by the
機械学習部5は、因果関係が明記されていない大量の教師無しデータを記憶部7−2から読み出し、因果関係が明記されている少量の教師有りデータを記憶部7−3から読み出し、教師有りデータにおけるテキストデータの構造上の特徴及び名詞ペアの属性の特徴に基づいて、当該教師有りデータ及び教師無しデータの3項組が因果関係を有する確率等を算出し、これらを出力データとして記憶部7−4に格納する。
The
テキスト解析インターフェース部6は、テキスト解析の対象となるテキストデータを入力し、記憶部7−4に格納された出力データを用いて、因果関係を有する名詞ペアが存在するか否か等を判定する。
The text
〔動作〕
次に、図1に示した因果関係知識抽出装置1の動作について説明する。まず最初に、名詞ペア抽出部2は、記憶部7−1から入力したテキストデータについて、形態素解析により形態素に分割して名詞ペアを抽出する。ここで、1文中に出現する全ての名詞の組み合わせを名詞ペアとする。
[Operation]
Next, the operation of the causal relationship
そして、特徴抽出部3は、名詞ペア抽出部2により抽出された名詞ペアについて、構文解析により、名詞ペアを含むテキストデータの1文における文節の間の係り受け関係を解析する。尚、構文解析の手法は既知であるから、ここでは説明を省略する。また、特徴抽出部3は、構文解析結果により、名詞ペア間がどのような構文構造に位置しているかを抽出する。例えば、「動脈硬化が起きると脳卒中につながります。」という文において、名詞ペアである「動脈硬化」と「脳卒中」との間の係り受け関係は、図3に示す文節をノードとした木構造により表現することができる。図3において、四角で囲まれたノードは、その親を修飾することを示している。例えば、「動脈硬化が」は「起きると」を修飾する。同様に、図4の木構造は、「隠れ肥満が糖尿病につながります。」という文において、名詞ペアである「肥満」及び「糖尿病」について、「肥満」を含む文節と「糖尿病」を含む文節との間の係り受け関係を示している。すなわち、特徴抽出部3の木構造生成手段31は、名詞ペアを含む文の構文解析結果により、図3や図4のような木構造を生成する。
Then, the
そして、特徴抽出部3のPSE生成手段33は、木構造からPSEを生成する。この生成処理の際に、木構造の各ノードを、自立語(名詞、動詞、形容詞、副詞、形容動詞、接続詞等)及び機能語(助詞、助動詞等)に分離する。例えば、図3に示した「動脈硬化が」というノードを、「動脈硬化」という自立語、及び「が」という機能語に分離する。また、この分離した機能語を、元のノードの上位ノードとして木構造内に挿入する。図5は、図3に示した木構造から機能語を分離した後の新たな木構造、すなわち自立語及び機能語をノードとした木構造を示す。PSE生成手段33は、図5のような、機能語を分離した新たな木構造からPSEを生成する。そして、PSE生成手段33は、生成したPSEに対して、名詞ペアのそれぞれを「名詞1」「名詞2」に置き換える。尚、木構造からPSEを生成する手法は既知であるから、ここでは説明を省略する。詳細については、「Fabrizio Luccio et al.、“Exact Rooted Subtree Matching in Sublinear Time”、Techinical Report TR−01−14(2001)」の文献を参照されたい。
Then, the PSE generation means 33 of the
例えば、PSE生成手段33は、木構造生成手段31により生成された図3の木構造から機能語を分離し、図5の新たな木構造を生成し、当該新たな木構造から以下に示すPSEを生成する。
PSE={“つながる”,“と”,“起きる”,“が”,“動脈硬化”,0,0,0,0,“に”,“脳卒中”,0,0,0}
ここで、PSE生成手段33は、生成したPSEに対し、名詞ペアの対象を出現順に「名詞1」「名詞2」に置き換える。例えば、前述の例では以下のようになる。
PSE={“つながる”,“と”,“起きる”,“が”,“名詞1”,0,0,0,0,“に”,“名詞2”,0,0,0}
同様に、図4の木構造から機能語を分離し、新たな木構造からPSEを生成し、「名詞1」「名詞2」に置き換えると、以下のようになる。
PSE={“つながる”,“が”,“名詞1”,0,0,“に”,“名詞2”,0,0,0}
尚、PSEは、語順と要素「0」により、元の木構造に復元することができる。
For example, the
PSE = {“connect”, “to”, “get up”, “ga”, “arteriosclerosis”, 0, 0, 0, 0, “to”, “stroke”, 0, 0, 0}
Here, the
PSE = {“connect”, “to”, “get up”, “ga”, “
Similarly, when function words are separated from the tree structure of FIG. 4 and a PSE is generated from the new tree structure and replaced with “
PSE = {“connected”, “ga”, “
The PSE can be restored to the original tree structure by word order and element “0”.
図3に戻って、上位概念抽出手段32は、名詞の上位概念の特徴を抽出する。具体的には、名詞ペアの対象となる名詞について、シソーラス記憶部35に格納された既存の分類語彙表等を検索し、それぞれの上位概念を抽出する。この場合、シソーラス上で上位概念が一意に決定できる場合はその上位概念を抽出し、複数の属性を有する等のように上位概念が一意に決定できない場合は表記そのものを上位概念として抽出する。また、上位概念が存在しない場合は上位概念を抽出することができないから、名詞そのものを上位概念として扱う。例えば、名詞ペアである「脳卒中」「動脈硬化」は、共に「病気・体調」の上位概念を有するため、上位概念抽出手段32は、「病気・体調」を上位概念として抽出する。
Returning to FIG. 3, the superordinate concept extraction means 32 extracts the features of the superordinate concept of the noun. Specifically, for a noun that is the target of a noun pair, an existing classification vocabulary table or the like stored in the
そして、3項組生成手段34は、PSE生成手段33により生成されたPSEと、上位概念抽出手段32により抽出された上位概念とを用いて、3項組を生成する。例えば、3項組生成手段34は、「動脈硬化が起きると脳卒中につながります。」という文の名詞ペア「動脈硬化」「脳卒中」について、3項組は以下のようになる。
3項組=<{病気・体調},{病気・体調},{“つながる”,“と”,“起きる”,“が”,“名詞1”,0,0,0,0,“に”,“名詞2”,0,0,0}>
このように、3項組は、テキストデータの構造の特徴である{“つながる”,“と”,“起きる”,“が”,“名詞1”,0,0,0,0,“に”,“名詞2”,0,0,0}と、名詞ペアの属性の特徴である{病気・体調},{病気・体調}とから構成される。
Then, the ternary set generation unit 34 generates a ternary set by using the PSE generated by the
Ternary set = <{sickness / physical condition}, {sickness / physical condition}, {“connected”, “to”, “get up”, “ga”, “
Thus, the triplet is a characteristic of the structure of the text data {“connected”, “to”, “occurs”, “ga”, “
そして、タグ付け部4は、ユーザの操作により、特徴抽出部3により生成された3項組の一部に対し、その名詞ペアにおける文の表現が因果関係を有しているか否かのタグ付けを行い、タグ付けされた3項組を教師有りデータとして記憶部7−3に格納する。尚、タグ付けされない3項組は、教師無しデータとして特徴抽出部3により記憶部7−2に格納されている。これにより、大量の教師無しデータと、少量の教師有りデータが生成される。
Then, the tagging unit 4 tags whether or not the expression of the sentence in the noun pair has a causal relationship with respect to a part of the ternary set generated by the
そして、機械学習部5は、記憶部7−2から教師無しデータを、記憶部7−3から教師有りデータを読み出し、教師無しデータの3項組が因果関係を有する確率等を、EMアルゴリズムを用いた機械学習により算出する。この場合、以下に示す式(1)(2)が用いられる。この確率により、因果関係の有無を判定することができる。3項組が因果関係を持つ確率及び持たない確率は、以下の式により表される。
式(1)に示した、クラスcjのときに3項組が出現する確率P(ti|cj)は、以下に式により表される。
機械学習部5は、これらの式(1)(2)を用いて、EMアルゴリズムによる機械学習を行う。EMアルゴリズムとは、内部状態が不明な不完全データに対して尤度が最大になるような繰り返し学習を行い、内部状態を推定する処理をいう。尚、EMアルゴリズムは既知であるから、ここでは説明を省略する。詳細については、「Kamel Nigam et al.、“Text Classification from Labeled and Unlabeled Document using EM”、machine learning、Vol.39、No.2/3、pp.103−134(2000)」の文献を参照されたい。
The
次に、機械学習部5の処理について詳細に説明する。図6は、機械学習部5の処理を説明するためのフローチャートである。まず、機械学習部5は、記憶部7−3から読み出した教師有りデータを対象に、3組項tiが属するクラスcj(因果関係を持つ場合c1、持たない場合c0)の初期確率P(c1|ti)を以下の式により計算する(ステップS6−1)。このステップがEMアルゴリズムにおけるEステップである。
次に、機械学習部5は、記憶部7−2から読み出した教師無しデータ及び記憶部7−3から読み出した教師有りデータを合わせた全てのテキストデータの集合を対象に、クラスcjの下で、CPti(3項組tiに含まれる2つの名詞を含むテキストデータの構文構造)が出現する確率P(CPti|cj)、及びSPti(3項組tiに含まれる名詞ペア)が出現する確率P(SPti|cj)を以下の式によりそれぞれ計算する(ステップS6−2)。このステップがEMアルゴリズムにおけるMステップである。
前述の名詞ペア間の構文構造の類似度sim(P1,P2)は、以下の式により計算する。
機械学習部5は、ステップ6−2において、構文構造CPtiが出現する確率P(CPti|cj)及び名詞ペアSPtiが出現する確率P(SPti|cj)を式(4)(5)により計算した後、これらの結果を利用して、3項組tiが因果関係を持つまたは持たない確率P(cj|ti)の期待値を以下の式により計算する(ステップS6−3)。
そして、機械学習部5は、式(8)の結果を利用して、因果関係を持つまたは持たない3項組tiが出現する確率P(cj)の変化量と一定の閾値(例えば1.0×10-3)とを比較する(ステップS6−5)。確率P(cj)の変化量が一定の閾値以上の場合はステップ6−2に戻り、ステップ6−3において計算した新たな確率P(cj|ti)を用いて、教師無しデータ及び教師有りデータを合わせた全てのテキストデータの集合を対象に、構文構造が出現する確率P(CPti|cj)及び名詞ペアが出現する確率P(SPti|cj)を前述した式(4)(5)によりそれぞれ計算する(ステップS6−2)。そして、ステップ6−5において確率P(cj)の変化量が一定の閾値より小さくなるまで、ステップ6−2〜6−5を繰り返す。そして、機械学習部5は、確率P(cj)の変化量が一定の閾値より小さくなった場合に、最後に計算した、3項組tiが因果関係を持つまたは持たない確率(3項組tiにおける因果関係の有無の確率)P(cj|ti)、構文構造CPtiが出現する確率P(CPti|cj)及び名詞ペアSPtiが出現する確率P(SPti|cj)を得る。
The
表1は、ユーザにより因果関係を持つ3項組であると指定された原文(一部)、及び図6に示した機械学習部5の処理により計算された、3項組が因果関係を持つ確率P(c1|ti)を示す。これは、循環器系の話題に取り上げられている「きょうの健康」16番組を対象とし、番組で使われたクローズドキャプション2180文をテキストデータとして、3項組1495個を生成し機械学習による因果関係実験を行った例である。16番組の中から無作為に選定された1番組の3項組149個に対して、ユーザ操作により因果関係の有無のタグ付けを行い教師有りデータとし、機械学習部5により確率P(c1|ti)を算出したものである。表1によれば、それぞれの確率P(c1|ti)が1に近いから、因果関係知識抽出装置1は、P(c1|ti)>P(c0|ti)を判断して、表1に示した3項組tiが因果関係を持つものと判定することができる。
In Table 1, the original sentence (part) designated as a ternary group having a causal relationship by the user and the ternary group calculated by the processing of the
さらに、機械学習部5は、図6に示したステップ6−2において最終的に計算した確率P(CPti|cj)から、以下の式を用いて確率P(cj|CPti)を計算する。
また、機械学習部5は、図6に示したステップ6−2において最終的に計算した確率P(SPti|cj)から、以下の式を用いて確率P(cj|SPti)を計算する。
次に、テキスト解析インターフェース部6の処理について詳細に説明する。図7は、テキスト解析インターフェース部6の処理を説明するためのフローチャートである。まず、テキスト解析インターフェース部6は、テキスト解析の対象となるテキストデータを入力し、形態素解析により形態素に分割し、名詞のペアを抽出する(ステップS7−1)。この名詞ペアを抽出する手法は、図1に示した名詞ペア抽出部2によるものと同様である。
Next, the processing of the text
そして、テキスト解析インターフェース部6は、抽出した全ての名詞ペアについて、当該名詞ペアを含むテキストデータの構造上の特徴及び名詞ペアの属性の特徴を抽出する(ステップS7−2)。具体的には、構文解析により、名詞ペアを含むテキストデータにおける文節の間の係り受け関係を解析して木構造を生成し、木構造からPSEを生成し、シソーラスを用いて名詞ペアの上位概念を抽出する。そして、PSE及び上位概念を用いて、当該テキストデータの構造上の特徴及び名詞ペアの属性の特徴を示す3項組を生成する。このように、テキスト解析インターフェース部6は、全ての名詞ペアについて3項組を生成する。この3項組を生成する手法は、図1及び図2に示した特徴抽出部3によるものと同様である。
Then, the text
そして、テキスト解析インターフェース部6は、解析対象の名詞ペアにおける3項組の構文特徴CPtiについて、それと同一の構文特徴を有する式(9)に示した確率P(cj|CPti)を、記憶部7−1に格納された出力データから検索する。そして、検索結果の確率P(c1|CPti)と予め設定された閾値(例えば0.5)とを比較し(ステップS7−4)、この確率P(c1|CPti)が閾値より大きいときに、その名詞ペアは因果関係が有ると判定する(ステップS7−4)。一方、この確率P(cj|CPti)が閾値以下のときに、その名詞ペアは因果関係が無いと判定する(ステップS7−5)。全ての名詞ペアについて、ステップ7−4〜7−6の処理を行う(ステップS7−3)。
Then, the text
尚、図7に示したフローチャートでは、名詞ペアについての因果関係の有無を、ステップ7−4において式(9)に示した確率P(c1|CPti)と予め設定された閾値とを比較することにより判定するようにしたが、式(9)に示した確率P(c1|CPti)の代わりに式(7)に示した確率P(c1|ti)を用いるようにしてもよい。 In the flowchart shown in FIG. 7, the presence / absence of a causal relationship with respect to a noun pair is compared with the probability P (c 1 | CP ti ) shown in Expression (9) in step 7-4 and a preset threshold value. The probability P (c 1 | t i ) shown in the equation (7) is used instead of the probability P (c 1 | CP ti ) shown in the equation (9). Also good.
以上のように、因果関係知識抽出装置1によれば、因果関係が明記されていない大量の教師無しデータと、因果関係が明記されている少量の教師有りデータとを生成し、EMアルゴリズムを用いた機械学習により、全ての名詞ペアに対し、因果関係の有無を表す確率を算出するようにした。この確率を用いることにより、因果関係の有無を判定することが可能となる。すなわち、因果関係を持つ名詞ペア及び因果関係を持つ文構造を抽出することが可能となる。また、未知のテキストデータに対しても、因果関係の有無を判定することが可能となる。
As described above, according to the causal relationship
また、例えば、このような因果関係知識抽出装置1を、放送波を受信する放送受信装置に適用した場合には、当該放送受信装置は、放送で送られてくるクローズドキャプション等の信頼できる情報源となるテキストデータを常時監視して解析することにより、自動的に因果関係知識データを蓄積することができる。これにより、人間が持っている因果関係に関する知識を自動的に学習することが可能となる。したがって、このように学習した因果関係知識を利用することにより、「何故」といったタイプの高度な質問に対して自動的に応答することが可能なシステムを構築することが可能となる。
In addition, for example, when such a causal relationship
尚、因果関係知識抽出装置1は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。因果関係知識抽出装置1に備えた名詞ペア抽出部2、特徴抽出部3、タグ付け部4及び機械学習部5の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。また、これらのプログラムは、磁気ディスク(フロッピィーディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもできる。
The causal relationship
以上、実施の形態を挙げて本発明を説明したが、本発明は上記実施の形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。例えば、図1に示した因果関係知識抽出装置1は、1台のコンピュータ装置により構成されるが、これに限定されるものではなく、テキスト解析インターフェース部6のみを他のコンピュータ装置に備え、ネットワークを介して接続するように構成してもよい。また、名詞ペア抽出部2及び特徴抽出部3等を処理単位毎に異なるコンピュータ装置に備え、ネットワークを介して接続するように構成してもよいし、記憶部7−1〜7−4またはそのうちの一部を他のコンピュータ装置に備えるように構成してもよい。
The present invention has been described with reference to the embodiment. However, the present invention is not limited to the above embodiment, and various modifications can be made without departing from the technical idea thereof. For example, the causal relationship
1 因果関係知識抽出装置
2 名詞ペア抽出部
3 特徴抽出部
4 タグ付け部
5 機械学習部
6 テキスト解析インターフェース部
7 記憶部
31 木構造生成手段
32 上位概念抽出手段
33 PSE生成手段
34 3項組生成手段
35 シソーラス記憶部
DESCRIPTION OF
Claims (7)
テキストデータに含まれる名詞ペアを抽出する名詞ペア抽出部と、
該名詞ペア抽出部により抽出された名詞ペアを含むテキストデータについて、該テキストデータの構文構造及び前記名詞ペアの属性を特徴データとして抽出する特徴抽出部と、
該特徴抽出部により抽出された特徴データの一部に対し、前記名詞ペアにおける因果関係の有無をタグとして付与するタグ付け部と、
該タグ付け部によりタグが付与された特徴データが教師有りデータとして格納され、タグ付け部によりタグが付与されない特徴データが教師無しデータとして格納される記憶部と、
該記憶部に格納された教師有りデータ及び教師無しデータに基づいて、該教師無しデータに含まれる名詞ペアにおける因果関係の有無を判定する因果関係判定部と、を備えたことを特徴とする因果関係知識抽出装置。 It is a device that extracts the presence or absence of causal relationships as knowledge about noun pairs included in text data,
A noun pair extraction unit for extracting noun pairs included in the text data;
For text data including noun pairs extracted by the noun pair extraction unit, a feature extraction unit that extracts the syntax structure of the text data and the attributes of the noun pairs as feature data;
A tagging unit that gives a tag of presence or absence of a causal relationship in the noun pair for a part of the feature data extracted by the feature extraction unit;
Feature data to which a tag is given by the tagging unit is stored as supervised data, and feature data to which no tag is given by the tagging unit is stored as unsupervised data;
A causal relationship determination unit for determining the presence or absence of a causal relationship in a noun pair included in the unsupervised data based on supervised data and unsupervised data stored in the storage unit. Relational knowledge extraction device.
前記特徴抽出部が、
名詞ペアを含むテキストデータについて、該名詞ペアの係り受け関係を示す木構造を生成する木構造生成手段と、
該木構造生成手段により生成されたテキストデータの木構造を構成するノードを、自立語及び機能語に分離し、前記テキストデータの構文構造を示すPSE(Preorder String Expression)を生成するPSE生成手段と、
前記名詞ペアの上位概念を抽出する上位概念抽出手段と、
前記PSE生成手段により生成されたPSEと、上位概念抽出手段により抽出された上位概念とを用いて、3項組を特徴データとして生成する3項組生成手段と、を有することを特徴とする因果関係知識抽出装置。 In the causal relationship knowledge extraction device according to claim 1,
The feature extraction unit
For text data including noun pairs, a tree structure generating means for generating a tree structure indicating the dependency relationship of the noun pairs;
PSE generation means for separating nodes constituting the tree structure of the text data generated by the tree structure generation means into independent words and function words and generating PSE (Preorder String Expression) indicating the syntax structure of the text data; ,
Superordinate concept extracting means for extracting superordinate concepts of the noun pair;
A ternary set generation unit that generates a ternary set as feature data using the PSE generated by the PSE generation unit and the higher level concept extracted by the higher level concept extraction unit; Relational knowledge extraction device.
前記因果関係判定部は、EMアルゴリズムにより、記憶部に格納された教師有りデータについて、当該データにおける因果関係の有無の確率を算出し、前記記憶部に格納された教師有りデータ及び教師無しデータについて、同一または所定の値以上の類似度を有する構文構造が出現する確率を算出し、前記記憶部に格納された教師有りデータ及び教師無しデータについて、当該データに含まれる名詞ペアと同一の属性が出現する確率を算出し、これらの確率に基づいて、特徴データにおける因果関係の有無の確率、特徴データに含まれる構文構造における因果関係の有無の確率、及び、特徴データに含まれる名詞ペアにおける因果関係の有無の確率を算出して因果関係の有無を判定することを特徴とする因果関係知識抽出装置。 In the causal relationship knowledge extraction device according to claim 1 or 2,
The causal relationship determination unit calculates the probability of the presence or absence of a causal relationship in the data with respect to supervised data stored in the storage unit by an EM algorithm, and the supervised data and unsupervised data stored in the storage unit Calculating the probability of occurrence of a syntactic structure having the same or a similarity equal to or higher than a predetermined value, and for the supervised data and the unsupervised data stored in the storage unit, the same attribute as the noun pair included in the data Based on these probabilities, the probability of occurrence of causality in the feature data, the probability of causality in the syntactic structure included in the feature data, and the causality in the noun pair included in the feature data are calculated based on these probabilities. A causal relationship knowledge extraction apparatus characterized by calculating the probability of presence or absence of a relationship and determining the presence or absence of a causal relationship.
さらに、新たなテキストデータを入力し、該テキストデータに含まれる名詞ペアを抽出し、テキストデータの構文構造及び名詞ペアの属性を特徴データとして抽出し、前記因果関係判定部により算出された因果関係の有無の確率に基づいて、前記新たなテキストデータに含まれる名詞ペアにおける因果関係の有無を判定するテキスト判定部を備えたことを特徴とする因果関係知識抽出装置。 In the causal relationship knowledge extraction device according to claim 3,
Further, new text data is input, a noun pair included in the text data is extracted, a syntactic structure of the text data and an attribute of the noun pair are extracted as feature data, and the causal relationship calculated by the causal relationship determination unit A causal relationship knowledge extraction device comprising a text determination unit that determines the presence or absence of a causal relationship in a noun pair included in the new text data based on the probability of the presence or absence.
前記テキスト判定部は、抽出した特徴データを用いて、因果関係判定部により算出された特徴データに含まれる構文構造における因果関係の有無の確率に基づいて、前記抽出した特徴データに含まれる構文構造における因果関係の有無の確率を算出し、該確率により因果関係の有無を判定することを特徴とする因果関係知識抽出装置。 In the causal relationship knowledge extraction device according to claim 4,
The text determination unit uses the extracted feature data, and based on the probability of the presence or absence of a causal relationship in the syntax structure included in the feature data calculated by the causal relationship determination unit, the syntax structure included in the extracted feature data The causal relationship knowledge extraction apparatus characterized in that the probability of the presence or absence of a causal relationship is calculated and the presence or absence of the causal relationship is determined based on the probability.
前記テキスト判定部は、抽出した特徴データを用いて、因果関係判定部により算出された特徴データに含まれる名詞ペアにおける因果関係の有無の確率に基づいて、前記抽出した特徴データに含まれる名詞ペアにおける因果関係の有無の確率を算出し、該確率により因果関係の有無を判定することを特徴とする因果関係知識抽出装置。 In the causal relationship knowledge extraction device according to claim 4,
The text determination unit uses the extracted feature data, and based on the probability of the presence or absence of a causal relationship in the noun pair included in the feature data calculated by the causal relationship determination unit, the noun pair included in the extracted feature data The causal relationship knowledge extraction apparatus characterized in that the probability of the presence or absence of a causal relationship is calculated and the presence or absence of the causal relationship is determined based on the probability.
テキストデータに含まれる名詞ペアを抽出する処理と、
前記名詞ペアを含むテキストデータの構文構造及び名詞ペアの属性を特徴データとして抽出する処理と、
前記抽出した特徴データの一部に対し、名詞ペアにおける因果関係の有無をタグとして付与する処理と、
前記タグが付与された特徴データである教師有りデータと、タグが付与されない特徴データである教師無しデータとに基づいて、教師無しデータに含まれる名詞ペアにおける因果関係の有無を判定する処理とを実行させる因果関係知識抽出プログラム。 A causal relationship knowledge extraction program by a device that extracts the presence or absence of a causal relationship between noun pairs included in text data, the computer constituting the device,
Processing to extract noun pairs contained in text data;
Processing for extracting the syntactic structure of text data including the noun pair and the attributes of the noun pair as feature data;
A process for assigning a tag of presence or absence of a causal relationship in a noun pair for a part of the extracted feature data;
A process of determining the presence or absence of a causal relationship in a noun pair included in unsupervised data based on supervised data that is feature data to which the tag is attached and unsupervised data that is feature data to which no tag is attached. A causal knowledge extraction program to be executed.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006041281A JP2007219947A (en) | 2006-02-17 | 2006-02-17 | Causal relation knowledge extraction device and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006041281A JP2007219947A (en) | 2006-02-17 | 2006-02-17 | Causal relation knowledge extraction device and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007219947A true JP2007219947A (en) | 2007-08-30 |
Family
ID=38497165
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006041281A Pending JP2007219947A (en) | 2006-02-17 | 2006-02-17 | Causal relation knowledge extraction device and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007219947A (en) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009157791A (en) * | 2007-12-27 | 2009-07-16 | Nippon Telegr & Teleph Corp <Ntt> | Question answering method, device, program, and recording medium which records the program |
JP2009199280A (en) * | 2008-02-21 | 2009-09-03 | Hitachi Ltd | Similarity retrieval system using partial syntax tree profile |
JP2009265889A (en) * | 2008-04-24 | 2009-11-12 | Nippon Hoso Kyokai <Nhk> | Language processor and program |
JP2011108085A (en) * | 2009-11-19 | 2011-06-02 | Nippon Hoso Kyokai <Nhk> | Knowledge construction device and program |
CN103854128A (en) * | 2012-12-05 | 2014-06-11 | 富士施乐株式会社 | Information processing apparatus and method |
WO2018066445A1 (en) * | 2016-10-05 | 2018-04-12 | 国立研究開発法人情報通信研究機構 | Causal relationship recognition apparatus and computer program therefor |
CN108334501A (en) * | 2018-03-21 | 2018-07-27 | 王欣 | Electronic document analysis system based on machine learning and method |
US10068185B2 (en) | 2014-12-07 | 2018-09-04 | Microsoft Technology Licensing, Llc | Error-driven feature ideation in machine learning |
JP7292324B2 (en) | 2019-06-18 | 2023-06-16 | ヤフー株式会社 | Acquisition device, acquisition method, and acquisition program |
-
2006
- 2006-02-17 JP JP2006041281A patent/JP2007219947A/en active Pending
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009157791A (en) * | 2007-12-27 | 2009-07-16 | Nippon Telegr & Teleph Corp <Ntt> | Question answering method, device, program, and recording medium which records the program |
JP2009199280A (en) * | 2008-02-21 | 2009-09-03 | Hitachi Ltd | Similarity retrieval system using partial syntax tree profile |
JP2009265889A (en) * | 2008-04-24 | 2009-11-12 | Nippon Hoso Kyokai <Nhk> | Language processor and program |
JP2011108085A (en) * | 2009-11-19 | 2011-06-02 | Nippon Hoso Kyokai <Nhk> | Knowledge construction device and program |
US9460477B2 (en) | 2012-12-05 | 2016-10-04 | Fuji Xerox Co., Ltd. | Information processing apparatus and method and non-transitory computer readable medium |
JP2014112338A (en) * | 2012-12-05 | 2014-06-19 | Fuji Xerox Co Ltd | Information processing apparatus and information processing program |
CN103854128A (en) * | 2012-12-05 | 2014-06-11 | 富士施乐株式会社 | Information processing apparatus and method |
US10068185B2 (en) | 2014-12-07 | 2018-09-04 | Microsoft Technology Licensing, Llc | Error-driven feature ideation in machine learning |
WO2018066445A1 (en) * | 2016-10-05 | 2018-04-12 | 国立研究開発法人情報通信研究機構 | Causal relationship recognition apparatus and computer program therefor |
KR20190062413A (en) * | 2016-10-05 | 2019-06-05 | 코쿠리츠켄큐카이하츠호진 죠호츠신켄큐키코 | Causal perception device and computer program for it |
US11256658B2 (en) | 2016-10-05 | 2022-02-22 | National Institute Of Information And Communications Technology | Causality recognizing apparatus and computer program therefor |
KR102431549B1 (en) | 2016-10-05 | 2022-08-11 | 코쿠리츠켄큐카이하츠호진 죠호츠신켄큐키코 | Causality recognition device and computer program therefor |
CN108334501A (en) * | 2018-03-21 | 2018-07-27 | 王欣 | Electronic document analysis system based on machine learning and method |
CN108334501B (en) * | 2018-03-21 | 2021-07-20 | 王欣 | Electronic document analysis system and method based on machine learning |
JP7292324B2 (en) | 2019-06-18 | 2023-06-16 | ヤフー株式会社 | Acquisition device, acquisition method, and acquisition program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107391677B (en) | Method and device for generating Chinese general knowledge graph with entity relation attributes | |
Duthie et al. | Mining ethos in political debate | |
Augenstein et al. | Lodifier: Generating linked data from unstructured text | |
US9626622B2 (en) | Training a question/answer system using answer keys based on forum content | |
JP2007219947A (en) | Causal relation knowledge extraction device and program | |
US9965726B1 (en) | Adding to a knowledge base using an ontological analysis of unstructured text | |
US20080052262A1 (en) | Method for personalized named entity recognition | |
US20180165328A1 (en) | Apply Corrections to an Ingested Corpus | |
Sheth et al. | Continuous semantics to analyze real-time data | |
WO2010014082A1 (en) | Method and apparatus for relating datasets by using semantic vectors and keyword analyses | |
Harb et al. | Semantic retrieval approach for web documents | |
Pabitha et al. | Automatic question generation system | |
KR102334255B1 (en) | Text data collection platform construction and integrated management method for AI-based voice service | |
Kalo et al. | Knowlybert-hybrid query answering over language models and knowledge graphs | |
WO2022134779A1 (en) | Method, apparatus and device for extracting character action related data, and storage medium | |
Amato et al. | An application of semantic techniques for forensic analysis | |
Mangairkarasi et al. | Semantic based text summarization using universal networking language | |
US20190034410A1 (en) | Unsupervised Template Extraction | |
US20160171900A1 (en) | Determining the Correct Answer in a Forum Thread | |
KR20210097408A (en) | Device updating harmful website information and method thereof | |
JP2006285419A (en) | Information processor, processing method and program | |
Tohalino et al. | Using virtual edges to extract keywords from texts modeled as complex networks | |
Jebbor et al. | Overview of knowledge extraction techniques in five question-answering systems | |
KR20170088467A (en) | An ontology based knowledge base construction method using semantic role labeling | |
JP2021092925A (en) | Data generating device and data generating method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080606 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110519 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110531 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20111011 |