JP4935405B2 - Causal relationship analysis apparatus, causal relationship analysis method, and program - Google Patents

Causal relationship analysis apparatus, causal relationship analysis method, and program Download PDF

Info

Publication number
JP4935405B2
JP4935405B2 JP2007036414A JP2007036414A JP4935405B2 JP 4935405 B2 JP4935405 B2 JP 4935405B2 JP 2007036414 A JP2007036414 A JP 2007036414A JP 2007036414 A JP2007036414 A JP 2007036414A JP 4935405 B2 JP4935405 B2 JP 4935405B2
Authority
JP
Japan
Prior art keywords
event
causal relationship
events
clustering
causal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007036414A
Other languages
Japanese (ja)
Other versions
JP2008203964A (en
Inventor
英紀 河合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007036414A priority Critical patent/JP4935405B2/en
Publication of JP2008203964A publication Critical patent/JP2008203964A/en
Application granted granted Critical
Publication of JP4935405B2 publication Critical patent/JP4935405B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、因果関係分析装置、因果関係分析方法及びプログラムに関し、特に、適切な因果関係を保ったまま、関連する事象をクラスタリングすることができる因果関係分析装置、因果関係分析方法及びプログラムに関する。   The present invention relates to a causal relationship analysis device, a causal relationship analysis method, and a program, and more particularly, to a causal relationship analysis device, a causal relationship analysis method, and a program capable of clustering related events while maintaining an appropriate causal relationship.

因果関係に関する知識は、人間の持つ知能的な処理をコンピューターに理解させる上で必須であり、質問応答システムや対話システムなど幅広いアプリケーションへの適用の可能性がある。因果知識を扱うシステムの例として、エキスパートシステムが挙げられる。従来のエキスパートシステムでは、専門家の持っている因果関係に関する知識を、知識ベースとしてデータベース化し、それを用いて病気の診断や発電所の故障診断を行ったりすることができる。このデータベース化の作業は、主に人手に頼っており、膨大な労力と時間が必要になるという問題点がある。   Knowledge about causality is indispensable for letting computers understand the intelligent processing that humans have, and can be applied to a wide range of applications such as question answering systems and dialogue systems. An example of a system that handles causal knowledge is an expert system. In a conventional expert system, knowledge about causal relationships possessed by experts can be stored in a database as a knowledge base, which can be used to diagnose diseases and diagnose power plant failures. The work of creating a database mainly depends on humans, and there is a problem that enormous labor and time are required.

これに対して、Web等に蓄積された大量の電子化文書から因果知識を自動抽出する技術が考えられている(例えば、特許文献1参照。)。   On the other hand, a technique for automatically extracting causal knowledge from a large amount of digitized documents accumulated on the Web or the like has been considered (for example, see Patent Document 1).

特許文献1に記載された発明によれば、格フレームを用いて自然言語文の入力文書群から事象を抽出し、事象同士に挟まれた接続詞を手がかりに事象間の因果関係を抽出することができる。また、抽出された格フレームが表す事象をノード、因果関係をエッジとして因果知識グラフを構築することができる。また、自然言語文を入力として受け付け、入力文に対応する格フレームを因果知識グラフから検索し、検索されたノードとエッジを介して接続される各ノードを列挙することによって、次に起こりうる事象を推定することができる。   According to the invention described in Patent Document 1, an event is extracted from an input document group of natural language sentences using a case frame, and a causal relationship between events is extracted by using a conjunction between events. it can. In addition, a causal knowledge graph can be constructed with the events represented by the extracted case frames as nodes and the causal relationships as edges. In addition, a natural language sentence is accepted as an input, a case frame corresponding to the input sentence is searched from the causal knowledge graph, and each node connected through the edge to the searched node is enumerated, and the next possible event Can be estimated.

このように、自然言語文から因果知識を自動抽出する際には、事象を表現する言葉の揺らぎをうまくまとめる必要がある。特許文献1の発明では、格フレームにおける単語のまとめ方を事前にユーザーが決めることによって、「私は大学病院に行く」という表現を「(主体)が(場所)に行く」「(主体)が(病院)に行く」あるいは「(主体)が(教育機関)に行く」のように、任意の抽象度で整理することができる。   As described above, when causal knowledge is automatically extracted from a natural language sentence, it is necessary to properly summarize fluctuations of words expressing events. In the invention of Patent Document 1, the user decides in advance how to organize words in the case frame, and the expression “I am going to the university hospital” is expressed as “(subject) goes to (location)”, “(subject) It can be arranged at any level of abstraction, such as “going to (hospital)” or “(subject) going to (education institution)”.

また、因果関係を表現する対象システムを限定することによって、事象間の階層関係を吸収する技術が考えられている(例えば、特許文献2参照。)。   In addition, a technique for absorbing the hierarchical relationship between events by limiting the target systems expressing the causal relationship has been considered (see, for example, Patent Document 2).

特許文献2に記載された発明によれば、予めそのシステムの構成要素の階層関係を人手で構築しておくことによって、同一とみなすべき事象をまとめることができる。例えば、自動車の構成部品を「燃料系統」と「電気系統」に分け、さらに「電気系統」の構成要素として「ヘッドライト」「車幅ランプ」という包含関係を事前に階層構造として与えておく。このとき、「ヘッドライトの破損」と「車幅ランプの減灯」はいずれも「電気系統の故障」であるとまとめることができる。   According to the invention described in Patent Document 2, it is possible to collect the events that should be regarded as the same by manually constructing a hierarchical relationship of the components of the system in advance. For example, the components of an automobile are divided into “fuel system” and “electric system”, and the inclusion relationship of “headlight” and “vehicle width lamp” is given as a hierarchical structure in advance as components of the “electric system”. At this time, both “headlight breakage” and “light reduction of vehicle width lamp” can be summarized as “electrical system failure”.

また、自然言語文の表現のゆらぎを吸収しながらテキスト集合から特徴的な表現を抽出する技術が考えられている(例えば、非特許文献1参照。)。   In addition, a technique for extracting characteristic expressions from a text set while absorbing fluctuations in the expression of a natural language sentence has been considered (for example, see Non-Patent Document 1).

非特許文献1に記載された技術によれば、自然言語文を構文解析した結果の構文木を無順序木と見なし、頻出する木構造を数え上げることによって、「メールを社外に送る」「社外にメールを送る」「社外に送ったメール」のような表現のゆらぎを同一とみなして頻出パタンを抽出することができる。
特開平11−250085号公報 特開2004−126641号公報 森永聡、有村博紀、池田崇博、坂尾要祐、赤峯享:"部分順序木枚挙を利用した特徴無順序木/自由木構造抽出"、第7回情報論敵学習理論ワークショップ(IBIS2004)予稿集,pp106−111,2004
According to the technique described in Non-Patent Document 1, a syntax tree obtained as a result of parsing a natural language sentence is regarded as an unordered tree, and “send mail outside the company” and “outside the company” are counted by enumerating frequent tree structures. Fluctuations in expressions such as “send mail” and “mail sent outside the company” are regarded as the same, and frequent patterns can be extracted.
Japanese Patent Laid-Open No. 11-250085 Japanese Patent Laid-Open No. 2004-126641 Satoshi Morinaga, Hiroki Arimura, Takahiro Ikeda, Yosuke Sakao, and Takashi Akatsuki: "Featured unordered tree / free tree structure extraction using enumeration of partial ordered trees", Proc. , pp106-111, 2004

しかしながら、上述したような従来の技術においては以下に示す問題点がある。   However, the conventional techniques as described above have the following problems.

第1の問題点は、自然言語文から自動抽出した事象の表現のゆらぎを吸収して抽象化する際に、利用者が適切な事象のまとめ方を事前に決定することが困難であるということである。例えば、特許文献1の発明では、「私は大学病院に行く」という表現の抽象化の方法として、「(主体)が(場所)に行く」「(主体)が(病院)に行く」、あるいは「(主体)が(教育機関)に行く」のいずれを選択するのが適切であるかは自明ではない。例えば、「私は怪我をした」の結果事象として「私は大学病院に行く」が存在する場合、「(主体)が(病院)に行く」と抽象化することは差し支えないが、「(主体)が(教育機関)に行く」と抽象化してしまうと、不適切な因果関係になってしまう。このように、適切な抽象化の方法は前後の因果関係によって変わってくるが、特許文献1の発明では、抽象化の良し悪しを決定する基準がない。   The first problem is that it is difficult for a user to determine in advance how to organize events appropriately when absorbing and abstracting fluctuations in the expression of events automatically extracted from natural language sentences. It is. For example, in the invention of Patent Document 1, as an abstraction method of the expression “I go to a university hospital”, “(subject) goes to (location)” “(subject) goes to (hospital)”, or It is not self-evident whether it is appropriate to select “(subject) goes to (education institution)”. For example, if “I go to a university hospital” exists as a result event of “I was injured,” it may be abstracted that “(subject) goes to (hospital)”, but “(subject ) Goes to (education institution) ", it becomes an inappropriate causal relationship. As described above, an appropriate abstraction method varies depending on the causal relationship before and after, but in the invention of Patent Document 1, there is no standard for determining whether the abstraction is good or bad.

第2の問題点は、表現の異なる事象を抽象化してまとめることによって元々接続関係にない事象同士がつながり、不適切な推論を行ってしまう可能性があることである。例えば、特許文献1に記載された発明では、「私は大学病院に行く」と「私は遊園地に行く」を両方とも「(主体)が(場所)に行く」と抽象化して一つのノードにすることができる。しかし、この抽象化によって「私は怪我をした」という病院に行く原因となる事象と「私はジェットコースターに乗る」という遊園地に行った結果となる事象が、「(主体)が(場所)に行く」という事象を介してつながってしまう可能性がある。このような状態で事象の推移を推論すると、「(主体)が怪我をした⇒(主体)が(場所)に行く⇒(主体)はジェットコースターに乗る」のような、不適切な事象の推移を導き出してしまう可能性がある。これは、特許文献1に記載された発明には、どの事象同士が抽象化可能であるかを判断する手段が存在せず、まったく関係の無い事象同士をも抽象化してまとめてしまう可能性があるからである。また、正しい因果関係を保持したまま事象を抽象化できるデータ構造、および、部分的に抽象化されたデータ構造を使って事象推移を推論する手段がないことも原因である。   The second problem is that, by abstracting and summarizing events with different expressions, events that are not originally connected may be connected to each other, and inappropriate inference may be performed. For example, in the invention described in Patent Document 1, both “I go to a university hospital” and “I go to an amusement park” are both abstracted as “(subject) goes to (location)” and one node Can be. However, with this abstraction, the event that caused me to go to the hospital that “I was injured” and the event that resulted from going to the amusement park that “I ride a roller coaster” There is a possibility that it will be connected through the event “go to”. Inferring event transitions in this state, inappropriate transitions such as “(subject) injured ⇒ (subject) goes to (place) ⇒ (subject) rides on roller coaster” May be derived. This is because there is no means for judging which events can be abstracted in the invention described in Patent Document 1, and there is a possibility that events that have nothing to do with each other are abstracted together. Because there is. Another cause is that there is no means for inferring event transition using a data structure that can abstract an event while maintaining a correct causal relationship, and a partially abstracted data structure.

これら第1及び第2の問題点に対して、適切な抽象度によるクラスタリングを行うために、特許文献2に記載されているような、構成要素間の階層関係の知識を予め人手で構築するアプローチでは、特定ドメインに限定された因果関係しか扱うことができない問題がある。その理由は、階層関係の知識の構築には人手による作業コストが膨大になるため、予め対象とするドメインを限定しなければならないからである。   In order to perform clustering at an appropriate level of abstraction with respect to these first and second problems, an approach for manually constructing knowledge of hierarchical relationships between components as described in Patent Document 2 However, there is a problem that only a causal relationship limited to a specific domain can be handled. The reason is that the construction of hierarchical knowledge requires a large amount of manual work, and thus the target domain must be limited in advance.

また、構成要素間の階層知識を人手で構築する代わりに、非特許文献1に示される技術を応用して、頻出パタンを基準にノードのクラスタリングを行ったとしても、第2の問題点と同様、不適切な推論の問題が生ずることになる。例えば、「液晶テレビの販売台数が増加」「洗濯機の販売台数が増加」「エアコンの販売台数が増加」という3つの異なる事象があった場合に、頻出パタンである「販売台数が増加」という表現を基準にクラスタ化し、1つの事象にまとめたとする。このとき、「ワールドカップが開催された」という事象は、「液晶テレビの販売台数が上昇」という事象に独自の原因事象であるが、クラスタ化された事象「販売台数が増加」と関係づけてしまうと、「ワールドカップが開催される⇒洗濯機の販売台数が増加」といった不適切な推論がなされてしまう。その理由は、第2の問題点の理由と同じである。   Even if the node clustering is performed based on the frequent pattern by applying the technique shown in Non-Patent Document 1 instead of manually constructing the hierarchical knowledge between the components, it is the same as the second problem. Inadequate reasoning problems arise. For example, when there are three different events: “LCD TV sales increase”, “Washing machine sales increase”, “Air conditioner sales increase”, the frequent pattern “Sales increase” It is assumed that the data is clustered based on expressions and grouped into one event. At this time, the event “World Cup was held” is an original cause of the event “Sales volume of LCD TV increased”, but it was related to the clustered event “Sales volume increased”. Inadequate reasoning, such as “World Cup will be held ⇒ Increase in sales of washing machines” will be made. The reason is the same as the reason for the second problem.

本発明は、上述したような従来の技術が有する問題点に鑑みてなされたものであって、予め事象間の階層関係が与えられていなくても、正しい因果関係を保ちつつ、複数の事象をクラスタリングすることによって、因果関係ネットワークを分かりやすく要約させることができる因果関係分析装置、因果関係分析方法及びプログラムを提供する目的とする。   The present invention has been made in view of the problems of the conventional techniques as described above. Even if a hierarchical relationship between events is not given in advance, a plurality of events can be obtained while maintaining a correct causal relationship. It is an object of the present invention to provide a causal relationship analysis apparatus, a causal relationship analysis method, and a program capable of easily comprehending a causal relationship network by clustering.

上記目的を達成するために本発明は、
因果関係分析装置であって、互いに異なる複数の事象間の因果関係を示す因果関係グラフの構造の複雑さをクラスタリングスコアとして数値化し、前記クラスタリングスコアが最小となるように複数の前記事象をクラスタリングする。
In order to achieve the above object, the present invention provides:
A causal relationship analysis apparatus that quantifies the complexity of the structure of a causal relationship graph indicating a causal relationship between a plurality of different events as a clustering score, and clusters the plurality of events so that the clustering score is minimized. To do.

また、前記クラスタリングスコアを、接点ノード数とエッジ数とノード内エッジ数とに基づいて計算することを特徴とする。   The clustering score may be calculated based on the number of contact nodes, the number of edges, and the number of edges in the node.

また、互いに異なる複数の事象において、一部の事象だけに特定の因果関係を統合せずに、全ての事象で共通の因果関係のみを統合するデータ構造を持つ。   In addition, a plurality of different events have a data structure that integrates only common causal relationships in all events without integrating specific causal relationships in only some of the events.

また、自然言語で記述された文書である自然言語文から互いに異なる複数の事象間の因果関係を抽出する因果関係分析装置であって、
前記抽出された因果関係に対して、前記事象を構成する単語の一部が同一でかつ、共通の原因または結果事象を持つ事象群をクラスタリングの対象として選択するクラスタ対象選択部と、
前記クラスタリング対象の事象群の一部の事象だけに特定の因果関係を統合せずに、全ての事象で共通の因果関係のみを統合するデータ構造を持つ因果関係グラフを格納する因果関係記憶部と、
前記因果関係を示す因果関係グラフの構造の複雑さをクラスタリングスコアとして数値化し、前記クラスタリングスコアが最小となるように前記クラスタ対象選択部によって選択された事象群をクラスタリングする事象クラスタ評価部とを有する。
In addition, a causal relationship analysis device that extracts a causal relationship between a plurality of different events from a natural language sentence that is a document described in a natural language,
For the extracted causal relationship, a cluster target selection unit that selects, as a clustering target, an event group in which a part of words constituting the event is the same and has a common cause or result event;
A causal relationship storage unit that stores a causal relationship graph having a data structure that integrates only common causal relationships in all events, without integrating specific causal relationships only to some of the events of the clustered event group; ,
An event cluster evaluation unit that quantifies the complexity of the structure of the causal relationship graph indicating the causal relationship as a clustering score and clusters the event group selected by the cluster target selection unit so that the clustering score is minimized. .

また、前記文書データを格納した文書群記憶部と、
前記事象の表現パタンを、単語属性の組み合わせパタンとして記憶した事象パタン記憶部と、
互いに異なる複数の事象間に因果関係があるか否かを特徴付ける接続表現と該接続表現よって決定される因果関係とを記憶した接続関係記憶部と、
前記文書を形態素解析し、前記表現パタンと接続表現とを使って因果関係を抽出する因果関係抽出部とを有し、
前記クラスタ対象選択部は、前記因果関係抽出部によって抽出された因果関係に対して、因果表現を構成する単語の一部が共通でかつ、共通の原因または結果事象を持つ事象群をクラスタリング対象として選択することを特徴とする。
A document group storage unit storing the document data;
An event pattern storage unit that stores the expression pattern of the event as a combination pattern of word attributes;
A connection relation storage unit storing a connection expression that characterizes whether or not there is a causal relationship between a plurality of different events, and a causal relation determined by the connection expression;
A causal relationship extraction unit that performs morphological analysis of the document and extracts a causal relationship using the expression pattern and the connection expression;
The cluster target selection unit sets a group of events having a common cause or effect event as a clustering target for a part of words constituting a causal expression with respect to the causal relationship extracted by the causal relationship extraction unit. It is characterized by selecting.

また、前記因果関係記憶部から対応する因果関係グラフを検索し、検索された因果関係グラフを再帰的にたどりながら事象推移を予測する事象推移予測部を有することを特徴とする。   In addition, an event transition prediction unit that searches a corresponding causal relationship graph from the causal relationship storage unit and predicts an event transition while recursively tracing the searched causal relationship graph is provided.

また、利用者が注目したい事象と注目する周期とを格納しておく注目事象記憶部と、
前記事象推移予測部にて予測された事象推移の予測結果を記憶する予測結果記憶部と、
前記注目事象記憶部に格納された周期にあわせて注目事象に関する事象推移予測を実行し、前回の予測結果と比較して相違点をアラートするアラート生成部とを有することを特徴とする。
In addition, an attention event storage unit that stores an event that the user wants to pay attention to and a period of attention;
A prediction result storage unit that stores a prediction result of the event transition predicted by the event transition prediction unit;
And an alert generation unit that performs event transition prediction related to the event of interest in accordance with the period stored in the event-of-interest storage unit, and alerts the difference as compared with the previous prediction result.

また、自然言語で記述された文書である自然言語文から互いに異なる複数の事象間の因果関係を抽出する因果関係分析方法であって、
前記事象を構成する単語の一部が同一でかつ、共通の原因または結果事象を持つ事象群をクラスタリングの対象として選択し、前記因果関係を示す因果関係グラフの構造の複雑さを数値化したクラスタリングスコアとして数値化し、前記クラスタリングスコアが最小となるように前記複数の事象をクラスタリングする事象クラスタ生成処理を有する。
Further, a causal relationship analysis method for extracting a causal relationship between a plurality of different events from a natural language sentence which is a document described in a natural language,
A group of events having the same part of the words constituting the event and having a common cause or effect event is selected as a clustering target, and the complexity of the structure of the causal relationship graph indicating the causal relationship is quantified. It has an event cluster generation process for digitizing as a clustering score and clustering the plurality of events so that the clustering score is minimized.

また、前記自然言語文から形態素列、表層文字列または品詞列を元に事象を抽出し、互いに異なる複数の事象間に因果関係があるか否かを特徴付ける接続表現によって前記因果関係を決定する因果関係抽出処理と、
前記因果関係グラフを再帰的にたどりながら事象推移を予測する事象推移予測処理とを有することを特徴とする。
In addition, the causal relationship is extracted from the natural language sentence based on a morpheme sequence, a surface character string, or a part-of-speech sequence, and the causal relationship is determined by a connection expression that characterizes whether there is a causal relationship between a plurality of different events. Relationship extraction processing;
And event transition prediction processing for predicting event transition while recursively tracing the causal relationship graph.

また、前記事象クラスタ処理は、
全ての事象について、前記事象を構成する単語の一部が同一でかつ、共通の原因または結果事象を持つ事象群をクラスタリングの対象として選択するステップと、
前記クラスタリングの対象となった事象群の中で、前記事象を表現する事象表現の修飾語の全ての組み合わせについて頻出パタンを数え上げし、該頻出パタンをクラスタリング戦略として列挙するステップと、
前記列挙された各クラスタリング戦略を適用した場合の、前記因果関係グラフの構造の複雑さを計算するステップと、
前記因果関係グラフの構造が最も単純になるクラスタリング戦略を採用して因果関係のグラフ構造を更新するステップとを有することを特徴とする。
In addition, the event cluster processing is
Selecting, as a clustering target, an event group in which a part of words constituting the event is the same and has a common cause or effect event for all events;
Enumerating frequent patterns for all combinations of event expression modifiers representing the events in the clustered event group, and listing the frequent patterns as a clustering strategy;
Calculating the complexity of the structure of the causality graph when applying each of the listed clustering strategies;
Adopting a clustering strategy that makes the structure of the causal relationship graph the simplest, and updating the graph structure of the causal relationship.

また、前記事象推移予測処理は、
検索条件として入力された自然言語文を形態素分割して事象に変換するステップと、
検索条件から変換された事象に該当する事象を前記因果関係グラフの中から検索するステップと、
前記検索された事象から、クラスタ全体に共通の因果関係と一部の事象だけに特定の因果関係とを区別して、再帰的に因果関係にある事象を列挙するステップと、
列挙された事象の推移スコアを前記事象間においてエッジに設定された出現頻度の合計と予め設定された前記事象間の推移コストと結果事象の次数とに基づいて求め、前記推移スコアの高い順にソートして表示するステップとを有することを特徴とする。
In addition, the event transition prediction process includes
Converting a natural language sentence input as a search condition into an event by dividing it into morphemes;
Searching the event corresponding to the event converted from the search condition from the causal relationship graph;
From the retrieved events, distinguishing causal relationships common to the entire cluster and specific causal relationships only for some events, and recursively enumerating the causal events;
The transition score of the enumerated events is obtained based on the total appearance frequency set at the edge between the events, the transition cost between the events set in advance and the order of the result event, and the transition score is high And sorting and displaying in order.

また、自然言語で記述された文書である自然言語文から事象間の因果関係を抽出する因果関係分析方法であって、
入力画面を通じて指定された、検索条件となる事象を自然言語文と、検索対象となる事象の推移の範囲である次数と、推移予測の方向とに基づいて、因果関係にある原因または結果の推移のリストを、前記事象間においてエッジに設定された出現頻度の合計と予め設定された前記事象間の推移コストと結果事象の次数とに基づいて求められた推移スコアの高い順に並べて表示するステップを有する。
In addition, a causal relationship analysis method for extracting a causal relationship between events from a natural language sentence that is a document described in natural language,
Causes or results of a causal relationship based on the natural language sentence, the order of the transition range of the event to be searched, and the direction of the transition prediction, as specified in the input screen Are arranged in order from the highest transition score determined based on the total appearance frequency set at the edge between the events, the transition cost between the events set in advance, and the order of the result event. Having steps.

また、予め設定された周期で定期的に注目事象に関する事象推移予測を実行し、前回の予測結果からの変化を検出した場合に利用者に通知するアラート生成処理を有することを特徴とする。   Further, the present invention is characterized by having an alert generation process for periodically executing event transition prediction regarding a noticed event at a preset period and notifying the user when a change from the previous prediction result is detected.

また、前記アラート生成処理は、
予め利用者から指定された注目事象について、定期的に事象推移予測を行うステップと、
前回の事象推移予測結果と比較することにより、変化を検知するステップと、
変化が検知された場合に、利用者にアラートとして通知するステップと、
事象推移予測結果を保存するステップとを有することを特徴とする。
The alert generation process includes
A step of regularly predicting event transitions for attention events designated in advance by a user;
Detecting a change by comparing with the previous event transition prediction result;
Notifying the user as an alert when a change is detected;
Storing the event transition prediction result.

また、自然言語で記述された文書である自然言語文から互いに異なる複数の事象間の因果関係を抽出するプログラムあって、
前記事象を構成する単語の一部が同一でかつ、共通の原因または結果事象を持つ事象群をクラスタリングの対象として選択し、前記因果関係を示す因果関係グラフの構造の複雑さを数値化したクラスタリングスコアとして数値化し、前記クラスタリングスコアが最小となるように前記複数の事象をクラスタリングする手順をコンピュータに実行させる。
In addition, there is a program for extracting a causal relationship between a plurality of different events from a natural language sentence that is a document described in a natural language,
A group of events having the same part of the words constituting the event and having a common cause or effect event is selected as a clustering target, and the complexity of the structure of the causal relationship graph indicating the causal relationship is quantified. A numerical value is obtained as a clustering score, and a computer is caused to execute a procedure for clustering the plurality of events so that the clustering score is minimized.

また、前記自然言語文から形態素列、表層文字列または品詞列を元に事象を抽出し、互いに異なる複数の事象間に因果関係があるか否かを特徴付ける接続表現によって前記因果関係を決定する手順と、
前記因果関係グラフを再帰的にたどりながら事象推移を予測する手順とをコンピュータに実行させることを特徴とする。
Further, a procedure for extracting an event from the natural language sentence based on a morpheme string, a surface character string, or a part-of-speech string, and determining the causal relationship by a connection expression that characterizes whether there is a causal relationship between a plurality of different events. When,
And causing the computer to execute a procedure for predicting event transition while recursively tracing the causal relationship graph.

また、全ての事象について、前記事象を構成する単語の一部が同一でかつ、共通の原因または結果事象を持つ事象群をクラスタリングの対象として選択する手順と、
前記クラスタリングの対象となった事象群の中で、前記事象を表現する事象表現の修飾語の全ての組み合わせについて頻出パタンを数え上げし、該頻出パタンをクラスタリング戦略として列挙する手順と、
前記列挙された各クラスタリング戦略を適用した場合の、前記因果関係グラフの構造の複雑さを計算する手順と、
前記因果関係グラフ構造が最も単純になるクラスタリング戦略を採用して因果関係のグラフ構造を更新する手順とをコンピュータに実行させることを特徴とする。
In addition, for all events, a procedure for selecting, as a clustering target, an event group in which some of the words constituting the event are the same and have a common cause or effect event;
A procedure for enumerating frequent patterns for all combinations of modifiers of event expressions expressing the events in the cluster of events targeted for clustering, and enumerating the frequent patterns as a clustering strategy;
Calculating the complexity of the structure of the causality graph when applying each of the listed clustering strategies;
The computer is caused to execute a procedure for updating the causal relation graph structure by adopting a clustering strategy that makes the causal relation graph structure simplest.

また、検索条件として入力された自然言語文を形態素分割して事象に変換する手順と、
検索条件から変換された事象に該当する事象を前記因果関係グラフの中から検索する手順と、
前記検索された事象から、クラスタ全体に共通の因果関係と一部の事象だけに特定の因果関係とを区別して、再帰的に因果関係にある事象を列挙する手順と、
列挙された事象の推移スコアを前記事象間においてエッジに設定された出現頻度の合計と予め設定された前記事象間の推移コストと結果事象の次数とに基づいて求め、前記推移スコアの高い順にソートして表示する手順とをコンピュータに実行させることを特徴とする。
Also, a procedure for dividing a natural language sentence input as a search condition into an event by dividing it into morphemes,
A procedure for searching for an event corresponding to an event converted from a search condition from the causal relationship graph;
A procedure for recursively enumerating causal events by distinguishing from the retrieved events, a causal relationship common to the entire cluster and a specific causal relationship only for some events, and
The transition score of the enumerated events is obtained based on the total appearance frequency set at the edge between the events, the transition cost between the events set in advance and the order of the result event, and the transition score is high The computer is caused to execute a procedure of sorting and displaying in order.

また、予め設定された周期で定期的に注目事象に関する事象推移予測を実行し、前回の予測結果からの変化を検出した場合に利用者に通知する手順とコンピュータに実行させることを特徴とする。   Further, the present invention is characterized in that event transition prediction regarding an event of interest is periodically executed at a preset period, and a computer is executed to execute a procedure for notifying a user when a change from the previous prediction result is detected.

また、予め利用者から指定された注目事象について、定期的に事象推移予測を行う手順と、
前回の事象推移予測結果と比較することにより、変化を検知する手順と、
変化が検知された場合に、利用者にアラートとして通知する手順と、
事象推移予測結果を保存する手順とをコンピュータに実行させることを特徴とする。
In addition, for the event of interest specified in advance by the user, a procedure for periodically predicting the event transition,
A procedure to detect changes by comparing with the previous event transition prediction results,
A procedure to notify the user as an alert when a change is detected,
And a procedure for storing an event transition prediction result in a computer.

上記のように構成された本発明においては、互いに異なる複数の事象間の因果関係を示す因果関係グラフの構造の複雑さがクラスタリングスコアとして数値化され、数値化されたクラスタリングスコアが最小となるように複数の事象がクラスタリングされる。   In the present invention configured as described above, the complexity of the structure of the causal relationship graph showing the causal relationship between a plurality of different events is quantified as a clustering score, and the quantified clustering score is minimized. A plurality of events are clustered.

このため、簡潔な形の因果関係グラフに要約可能なクラスタリング方法を自動的に選択することができる。   Therefore, it is possible to automatically select a clustering method that can be summarized into a simple causal relationship graph.

以上説明したように本発明においては、互いに異なる複数の事象間の因果関係を示す因果関係グラフの構造の複雑さをクラスタリングスコアとして数値化し、数値化されたクラスタリングスコアが最小となるように複数の事象をクラスタリングする構成としたため、予め事象間の階層関係が与えられていなくても、正しい因果関係を保ちつつ、複数の事象をクラスタリングすることによって、因果関係ネットワークを分かりやすく要約させることができる。   As described above, in the present invention, the complexity of the structure of the causal relation graph showing the causal relations between a plurality of different events is quantified as a clustering score, and the plurality of quantified clustering scores are minimized. Since the events are clustered, the causal network can be summarized in an easy-to-understand manner by clustering a plurality of events while maintaining a correct causal relationship even if the hierarchical relationship between the events is not given in advance.

以下に、本発明を実施するための最良の形態について図面を参照して詳細に説明する。
(第1の実施の形態)
図1は、本発明の因果関係分析装置の第1の実施の形態を示す図である。
The best mode for carrying out the present invention will be described below in detail with reference to the drawings.
(First embodiment)
FIG. 1 is a diagram showing a first embodiment of the causal relationship analysis apparatus of the present invention.

本形態は図1に示すように、因果関係分析装置1と、キーボード等の入力部301と、ディスプレイ装置や印刷装置等の出力部401とを含む。なお、入力部301及び出力部401は、因果関係分析装置1の外部にケーブル等で接続されたものであっても良い。   As shown in FIG. 1, the present embodiment includes a causal relationship analysis device 1, an input unit 301 such as a keyboard, and an output unit 401 such as a display device or a printing device. Note that the input unit 301 and the output unit 401 may be connected to the outside of the causal relationship analysis apparatus 1 by a cable or the like.

因果関係分析装置1は、さらに、情報を記憶する文書群記憶部101と、事象パタン記憶部102と、接続関係記憶部103と、因果関係記憶部104と、プログラム制御により動作する因果関係抽出部201と、クラスタ対象選択部202と、事象クラスタ評価部203と、事象推移予測部204とを含む。   The causal relationship analysis apparatus 1 further includes a document group storage unit 101 that stores information, an event pattern storage unit 102, a connection relationship storage unit 103, a causal relationship storage unit 104, and a causal relationship extraction unit that operates by program control. 201, a cluster target selection unit 202, an event cluster evaluation unit 203, and an event transition prediction unit 204.

文書群記憶部101には、新聞記事や各種報告書、またはWebページなどに記述されている自然言語文の集合など、電子化された文書データが格納されている。   The document group storage unit 101 stores digitized document data such as newspaper articles, various reports, or a collection of natural language sentences described in a Web page.

図2は、図1に示した文書群記憶部101に記憶された文書データの一例を示す図である。   FIG. 2 is a diagram showing an example of document data stored in the document group storage unit 101 shown in FIG.

図1に示した文書群記憶部101には図2に示すように、文書を識別するための文書識別情報である文書IDと自然言語で記述された文書とが対応付けられて文書データとして記憶されている。なお、文書データは、記事単位で1件の文書として登録する他にも、文単位で1件の文書として登録するなどの方法が考えられ、本実施の形態に示す方法に限定されない。また、文書データには、自然言語文以外にも、作者や日付のようなメタ情報が付与されていてもよく本実施の形態に示す方法に限定されない。また、文書記憶部101に記憶される文書データは静的でなくてもよく、データストリームのように、常に動的に追加・削除などの更新が行われていてもよく、本実施の形態に示す方法に限定されない。   In the document group storage unit 101 shown in FIG. 1, as shown in FIG. 2, a document ID, which is document identification information for identifying a document, and a document described in a natural language are stored in association with each other as document data. Has been. In addition to registering document data as a single document in units of articles, methods such as registering as a single document in units of sentences are conceivable, and the present invention is not limited to the method shown in this embodiment. In addition to the natural language sentence, the document data may be provided with meta information such as the author and date, and is not limited to the method shown in the present embodiment. Further, the document data stored in the document storage unit 101 may not be static, and may be dynamically updated such as addition / deletion as in a data stream. It is not limited to the method shown.

事象パタン記憶部102には、どのような単語属性の組み合わせが事象表現を構成するかがルールとして記憶されている。ここで、事象とは、主語Sと、述語Vと、修飾語集合M=[m1, m2, ...]との組み合わせで表現できるものとする。また、単語属性とは、表層文字列である表記、動詞や形容詞の活用の原形、品詞、読み(ふりがな、仮名表記)、同義表現や送り仮名、ひらがなカタカナ表記の違いを吸収した代表表記、「地名」や「色名」などの意味分類などを含む。   The event pattern storage unit 102 stores, as a rule, what combinations of word attributes constitute an event expression. Here, the event includes a subject S, a predicate V, and a modifier set M = [m1, m2,. . . It can be expressed in combination with]. In addition, word attributes include surface character strings, verbs and adjective forms, parts of speech, readings (furigana, kana), synonymous expressions, sending kana, and representative expressions that absorb the difference between hiragana and katakana. Includes semantic classification such as “place name” and “color name”.

図3は、図1に示した事象パタン記憶部102に記憶された事象パタンの一例を示す図である。   FIG. 3 is a diagram illustrating an example of an event pattern stored in the event pattern storage unit 102 illustrated in FIG.

図3における「|」「?」「+」「*」「()」などの演算子の意味は、一般的な正規表現演算子の意味と同じである。また、単語属性は「[(属性):(値)]」として指定する。また、「=」は右辺のグループにマッチした文字列を左辺の変数に代入するが、「#」の右側のカッコ「()」で囲まれた文字列は変数に代入しないことを意味する。例えば、「国内のタクシーの交通量が増加した」という文字列を形態素解析すると「国内/名詞 の/助詞 タクシー/名詞 の/助詞 交通/名詞 量/名詞 が/助詞 増加/サ変名詞 し/動詞 た/助動詞」となるが、これは図3の事象パタンP001「M=([品詞:名詞]#([表記:の]|[表記:における])?)*S=([品詞:名詞]+)[表記:が]V=([品詞:サ変名詞]|[品詞:動詞])」にマッチし、「M={国内、タクシー}、S=交通量、V=増加」という事象が抽出されることになる。尚、一つの事象を構成する主語S、述語V、および修飾語集合Mは必ずしも全て必須というわけではなく、一部が空文字列であってもかまわない。また、本実施の形態では、入力文書が日本語による例について説明するが、入力文書が他の言語で記述されていてもよく、本実施の形態に述べる方法に限定されない。   The meanings of operators such as “|”, “?”, “+”, “*”, And “()” in FIG. 3 are the same as those of general regular expression operators. The word attribute is specified as “[(attribute) :( value)]”. “=” Means that a character string matched with the group on the right side is assigned to the variable on the left side, but the character string enclosed in parentheses “()” on the right side of “#” is not assigned to the variable. For example, a morphological analysis of the character string "traffic volume of domestic taxi increased" is "domestic / noun / particle / taxi / noun / particle / traffic / noun / noun / particle increased / sa variable noun / verb This is the event pattern P001 “M = ([part of speech: noun] # ([notation: no] | [notation: in]]?) * S = ([part of speech: noun] + ) [Notation: ga] V = ([part of speech: sa variable noun] | [part of speech: verb]) ”and the event“ M = {domestic, taxi}, S = traffic volume, V = increase ”is extracted. Will be. Note that the subject S, the predicate V, and the modifier set M constituting one event are not necessarily essential, and some of them may be empty strings. In this embodiment, an example in which the input document is in Japanese will be described. However, the input document may be described in another language, and is not limited to the method described in this embodiment.

接続関係記憶部103には、互いに異なる2つの事象間に因果関係があるか否かを特徴付ける接続表現と、原因・結果の順序関係(因果関係)とが記憶されている。   The connection relationship storage unit 103 stores a connection expression that characterizes whether or not there is a causal relationship between two different events, and a cause / result order relationship (causal relationship).

図4は、図1に示した接続関係記憶部103に格納されているデータの一例を示す図である。   FIG. 4 is a diagram illustrating an example of data stored in the connection relationship storage unit 103 illustrated in FIG. 1.

図4に示すように、図1に示した接続関係記憶部103から、「に伴い」という接続表現では前件が原因、後件が結果の因果関係であることが分かる。一方、「その原因は」という接続表現では前件が結果、後件が原因の因果関係となることが分かる。   As shown in FIG. 4, it can be seen from the connection relationship storage unit 103 shown in FIG. 1 that the connection expression “accompanied” is the cause and the successor is the causal relationship of the result. On the other hand, in the connection expression “the cause is”, it can be seen that the antecedent is the result and the subsequent is the causal relationship of the cause.

因果関係記憶部104には、文書記憶部101に格納された文書内で出現した因果関係とその出現頻度が因果関係グラフとして格納される。   In the causal relationship storage unit 104, the causal relationship that appears in the document stored in the document storage unit 101 and the appearance frequency thereof are stored as a causal relationship graph.

図5は、図1に示した因果関係記憶部104に格納されている因果関係グラフの一例を示す図である。   FIG. 5 is a diagram illustrating an example of a causal relationship graph stored in the causal relationship storage unit 104 illustrated in FIG. 1.

図5では、事象をノードとし、事象間の因果関係がエッジとして表現されている。エッジには、同一の因果関係が何回出現したかの頻度情報が付与されている。図5を見ると、事象E101「ワールドカップが開催された」結果、事象E103「液晶テレビの販売台数が増加した」ことが文書データ中に12回出現していたことが分かる。   In FIG. 5, events are represented as nodes, and causal relationships between events are represented as edges. The edge is given frequency information indicating how many times the same causal relationship has appeared. Referring to FIG. 5, as a result of event E101 “World Cup was held”, it can be seen that event E103 “the number of LCD TVs sold” appeared 12 times in the document data.

因果関係抽出部201は、文書記憶部101に登録されている文書データを1件ずつ読み出し、事象パタン記憶部102に登録されているルールと、事象関係記憶部103に登録されている接続表現を元に因果関係を抽出し、その結果を因果関係記憶部104に記憶する。   The causal relationship extraction unit 201 reads document data registered in the document storage unit 101 one by one, and displays the rules registered in the event pattern storage unit 102 and the connection expressions registered in the event relationship storage unit 103. The causal relationship is extracted based on the original, and the result is stored in the causal relationship storage unit 104.

クラスタ対象選択部202は、因果関係記憶部104に登録されている各事象について、事象を構成している主語S及び述語Vが同一で、かつ、共通の原因または結果事象を持つ事象群を、クラスタ化の対象とすべきノード群として選択する。選択の基準として主語S及び述語Vだけでなく、共通の原因または結果事象を持つという条件を考慮するのは、クラスタリングによって因果関係のエッジを統合でき、グラフ構造が単純になる可能性が高い事象群に絞ってクラスタリングの検討を行うことができるからである。   For each event registered in the causal relationship storage unit 104, the cluster target selection unit 202 has an event group in which the subject S and predicate V constituting the event are the same and have a common cause or effect event. Select as a group of nodes to be clustered. Considering not only subject S and predicate V but also common cause or effect event as a criterion for selection is an event that can integrate causal edges by clustering and is likely to simplify the graph structure This is because clustering can be studied focusing on groups.

事象クラスタ評価部203は、クラスタ対象選択部202によって限定された事象群におけるキーワードの頻出パタンに基づいてクラスタリング戦略を列挙し、因果関係を保ったままクラスタ化を行った場合に、どの程度因果関係のグラフ構造が単純化されるかをクラスタリングスコアとして計算して比較し、最も単純化が可能なクラスタリング戦略を実行し、因果関係記憶部104のデータを更新する。   The event cluster evaluation unit 203 enumerates clustering strategies based on the frequent occurrence patterns of keywords in the event group limited by the cluster target selection unit 202, and how much causal relationship is obtained when clustering is performed while maintaining the causal relationship. Whether the graph structure is simplified or not is calculated and compared as a clustering score, a clustering strategy that can be simplified the most is executed, and data in the causal relationship storage unit 104 is updated.

なお、因果関係分析装置1は、コンピュータとして動作するCPUとメモリと入出力装置(入力部301及び出力部401)とから構成されたハードウェアと、後述する手順をCPUに実行させるプログラムにより実現される。図1において、文書群記憶部101、事象パタン記憶部102、接続関係記憶部103、及び因果関係記憶部104はハードディスクにより実現される。   The causal relationship analysis apparatus 1 is realized by hardware configured by a CPU, a memory, and an input / output device (an input unit 301 and an output unit 401) that operate as a computer, and a program that causes the CPU to execute a procedure that will be described later. The In FIG. 1, a document group storage unit 101, an event pattern storage unit 102, a connection relationship storage unit 103, and a causal relationship storage unit 104 are realized by a hard disk.

図6は、図5に示した因果関係グラフをクラスタ化した一例を示す図である。   FIG. 6 is a diagram showing an example in which the causal relationship graph shown in FIG. 5 is clustered.

図6を見ると、3つの事象、E103「M={液晶テレビ}、S=販売台数、V=増加」、E104「M={洗濯機}、S=販売台数、V=増加」、およびE105「M={エアコン}、S=販売台数、V=増加」が事象E106「S=販売台数、V=増加」としてクラスタリングされている。また、図5では事象E102「S=価格、V=低下」から事象E103とE104とE105とにそれぞれ個別に張られていたエッジが、図6では、事象E102から事象E106へのエッジとしてまとめられ、出現頻度が合計されて22+12+16=50となっている。これにより、「価格が低下」したことを意味する事象E102を原因として、異なる3つの事象、E103とE104とE105とをまとめて「販売台数が増加する」という意味の事象E106を推論することができる。また、図6では、合計されている出現頻度の順序は、クラスタ化される前の事象の順序と一致させている。そのため、事象E102から事象E106内の個別の事象E103、E104、及びE105への推移が出現した頻度はそれぞれ22回、12回、及び16回であることが分かる。   Looking at FIG. 6, there are three events, E103 “M = {Liquid Crystal Television}, S = Sales Volume, V = Increase”, E104 “M = {Washing Machine}, S = Sales Volume, V = Increase”, and E105. “M = {air conditioner}, S = sales number, V = increase” is clustered as event E106 “S = sales number, V = increase”. Further, in FIG. 5, the edges that are individually stretched from the event E102 “S = price, V = decrease” to the events E103, E104, and E105, respectively, are summarized as the edges from the event E102 to the event E106 in FIG. , The total appearance frequency is 22 + 12 + 16 = 50. As a result, it is possible to infer an event E106 that means that the number of sales increases by combining three different events, E103, E104, and E105, based on the event E102 that means that the price has dropped. it can. Further, in FIG. 6, the order of the summed appearance frequencies is matched with the order of events before clustering. Therefore, it can be seen that the frequency of occurrence of transitions from the event E102 to the individual events E103, E104, and E105 in the event E106 is 22 times, 12 times, and 16 times, respectively.

一方、図6では、事象E101「S=ワールドカップ、V=開催」からのエッジはクラスタ化された事象E106ではなく、事象E103「M={液晶テレビ}、S=販売台数、V=増加」に張られたままである。そのため、「ワールドカップが開催された」ことを意味する事象E101を原因として、「洗濯機の販売台数が増加する」ことを意味する事象E104や、「エアコンの販売台数が増加する」ことを意味する事象E105を結果とする不適切な推論が行われないような構造になっている。   On the other hand, in FIG. 6, the edge from event E101 “S = World Cup, V = held” is not the clustered event E106, but event E103 “M = {LCD TV}, S = sales volume, V = increase” It remains stretched. Therefore, due to the event E101 meaning “the World Cup was held”, it means the event E104 meaning “the number of sales of washing machines increases” and “the number of air conditioner sales increases” The structure is such that inappropriate inference resulting from event E105 is not performed.

事象推移予測部204は、ユーザーから自然言語文による事象の入力を受け付け、因果関係記憶部104の中から対応する事象を検索し、その原因または結果として推移する可能性のある事象の一覧を出力する。   The event transition prediction unit 204 receives an input of an event in a natural language sentence from a user, searches for a corresponding event from the causal relationship storage unit 104, and outputs a list of events that may change as the cause or the result. To do.

図7は、図1に示した出力部401に出力された事象推移予測入力画面C101の一例を示す図である。   FIG. 7 is a diagram illustrating an example of the event transition prediction input screen C101 output to the output unit 401 illustrated in FIG.

図7では、テキスト入力フォームC102に、入力として「交通量が増加する」という事象が入力されている。また、予測範囲を示す次数制限フォームC103に2が指定されている。次数とは、事象の推移を予測する際に、入力された事象から何件まで因果関係をたどるかを指定する数である。この画面で、「結果を推測」ボタンC104が選択された場合は、入力事象を開始点として結果事象の方向に推移を予測する。また、「原因を推測」ボタンC105が選択された場合は、入力事象を開始点として原因事象の方向にさかのぼって推移を予測する。「結果を推測」ボタンC104または「原因を推測」ボタンC105の選択方法については、タッチパネルを押下することにより選択するものであっても良いし、カーソル移動によって選択するものであっても良いし、従来の画面上での選択方法と同様である。   In FIG. 7, an event “traffic volume increases” is input as an input to the text input form C102. In addition, 2 is specified in the order restriction form C103 indicating the prediction range. The order is a number that specifies how many causal relationships are to be traced from an input event when predicting the transition of the event. When the “guess result” button C104 is selected on this screen, a transition in the direction of the result event is predicted starting from the input event. When the “guess cause” button C105 is selected, the transition is predicted by going back to the direction of the cause event with the input event as a starting point. The selection method of the “guess result” button C104 or the “guess cause” button C105 may be selected by pressing the touch panel, may be selected by moving the cursor, This is the same as the conventional selection method on the screen.

図8は、図1に示した出力部401に出力された事象推移予測結果画面C201の一例を示す図である。   FIG. 8 is a diagram illustrating an example of the event transition prediction result screen C201 output to the output unit 401 illustrated in FIG.

図8では、入力された事象「交通量が増加する」から推移する可能性のある結果事象が根拠となる中間ノードとともに示されている。図8を見ると、「交通量が増加する」直接の結果として「二酸化炭素の排出量が増加」「騒音被害が増加」「交通事故が増加」の3つの事象があることが分かる。さらに、「二酸化炭素の排出量が増加」することを根拠として「地球温暖化が加速」する結果に推移する可能性もあることが分かる。   In FIG. 8, a result event that may change from the input event “traffic volume increases” is shown together with an intermediate node as a basis. Referring to FIG. 8, it can be seen that there are three events “increase in carbon dioxide emissions”, “increase in noise damage”, and “increase in traffic accidents” as a direct result of “increase in traffic”. Furthermore, it can be seen that there is a possibility that the result will be “acceleration of global warming” on the basis of “increased carbon dioxide emissions”.

以下に、図1に示した因果関係分析装置1の動作、つまり因果関係分析装置1における因果関係分析方法についてフローチャートを用いて説明する。   Hereinafter, the operation of the causal relation analysis apparatus 1 shown in FIG. 1, that is, the causal relation analysis method in the causal relation analysis apparatus 1 will be described with reference to flowcharts.

なお、本実施の形態における因果関係分析装置1の動作は大きく、因果関係抽出処理と、事象クラスタ生成処理と、事象推移予測処理の3つの処理に分割できる。以下に、説明を簡潔にするために、(1)因果関係抽出処理、(2)事象クラスタ生成処理、(3)事象推移予測処理の順序によって実行されることを想定した説明を行うが、必ずしもこれら3つの処理が全て一括で実行される必要はない。例えば、因果関係抽出処理と事象クラスタ生成処理とを定期的に実行して因果関係記憶部104の内容を最新状態に保ちつつ、利用者から要求があった場合のみ事象推移予測処理を実行するといった使い方をすることもできる。あるいは、文書群記憶部101の内容に変更があった場合にのみ因果関係抽出処理と事象クラスタ生成処理とを実行して、因果関係記憶部104の内容を更新するなどの利用方法も考えられ、本実施の形態に述べる方法に限定されない。   Note that the operation of the causal relationship analysis apparatus 1 in this embodiment is large, and can be divided into three processes: a causal relationship extraction process, an event cluster generation process, and an event transition prediction process. In the following, in order to simplify the description, the description will be made assuming that it is executed in the order of (1) causal relationship extraction processing, (2) event cluster generation processing, and (3) event transition prediction processing. These three processes do not need to be executed all at once. For example, the causal relation extraction process and the event cluster generation process are periodically executed to keep the contents of the causal relation storage unit 104 up-to-date, and the event transition prediction process is executed only when requested by the user. You can also use it. Alternatively, a usage method such as executing the causal relationship extraction process and the event cluster generation process only when the content of the document group storage unit 101 is changed and updating the content of the causal relationship storage unit 104 is also conceivable. The method is not limited to the method described in this embodiment.

まず、因果関係抽出処理について説明する。   First, causal relationship extraction processing will be described.

図9は、図1に示した因果関係分析装置1における因果関係抽出処理を説明するためのフローチャートである。   FIG. 9 is a flowchart for explaining the causal relationship extraction processing in the causal relationship analysis apparatus 1 shown in FIG.

因果関係抽出部201は、文書群記憶部101から1件ずつ文書を読み出し、形態素解析を用いて文書を形態素に分割する(ステップS101)。次に、得られた形態素と品詞列に対して、事象パタン記憶部102に登録されている事象パタンを適用し、マッチする部分を事象として抽出する(ステップS102)。さらに、抽出された複数の事象の間に、接続関係記憶部103に登録されている接続表現がないかチェックし(ステップS103)、因果関係があると認められれば因果関係記憶部201に原因・結果の関係を保存する(ステップS104)。この時、同一の原因・結果の関係が因果関係記憶部201に登録されていれば、その出現頻度を1増やす。この処理を未処理の文書がなくなるまで繰り返す(ステップS105)。   The causal relationship extraction unit 201 reads documents one by one from the document group storage unit 101, and divides the document into morphemes using morphological analysis (step S101). Next, an event pattern registered in the event pattern storage unit 102 is applied to the obtained morpheme and part-of-speech string, and a matching part is extracted as an event (step S102). Further, it is checked whether there is a connection expression registered in the connection relationship storage unit 103 among the plurality of extracted events (step S103). The result relationship is stored (step S104). At this time, if the same cause / result relationship is registered in the causal relationship storage unit 201, the appearance frequency is increased by one. This process is repeated until there is no unprocessed document (step S105).

なお、ここでは説明を簡潔にするため、因果関係抽出部201が文書群記憶部101から1件ずつ文書を読み出して処理する場合について述べたが、文書群記憶部101を持たずに、因果関係分析装置1に対して文書がデータストリーム状に逐次入力される場合も同様に処理することができ、本実施の形態に述べる方法に限定されない。この場合、データストリームとして文書が到着する度に因果関係記憶部104が逐次更新されることになる。   Here, for the sake of brevity, the case where the causal relationship extraction unit 201 reads and processes documents one by one from the document group storage unit 101 has been described. However, the causal relationship is not provided without the document group storage unit 101. The same processing can be performed when a document is sequentially input to the analysis apparatus 1 in the form of a data stream, and is not limited to the method described in this embodiment. In this case, the causal relationship storage unit 104 is sequentially updated each time a document arrives as a data stream.

次に、事象クラスタ生成処理について説明する。   Next, event cluster generation processing will be described.

図10は、図1に示した因果関係分析装置1における事象クラスタ生成処理を説明するためのフローチャートである。また、図11は、図1に示した因果関係記憶部104に格納されている因果関係グラフの一例を示す図である。また、図12〜16は、図11に示した因果関係グラフにおけるクラスタリングスコアの計算例を示す図である。これらの図を参照しながら、事象クラスタ生成処理におけるクラスタリングがどのように行われるかを説明する。   FIG. 10 is a flowchart for explaining event cluster generation processing in the causal relationship analysis apparatus 1 shown in FIG. FIG. 11 is a diagram illustrating an example of a causal relationship graph stored in the causal relationship storage unit 104 illustrated in FIG. 12-16 is a figure which shows the example of calculation of the clustering score in the causal relationship graph shown in FIG. The clustering in the event cluster generation process will be described with reference to these drawings.

クラスタ対象選択部202は、因果関係記憶部104に登録されている事象の中に、まだクラスタ化を検討していない事象があるかどうかを判断する(ステップS201)。   The cluster target selection unit 202 determines whether there is an event that has not yet been considered for clustering among the events registered in the causal relationship storage unit 104 (step S201).

因果関係記憶部104に登録されている事象の中に、まだクラスタ化を検討していない事象がないと判断された場合、本処理は終了する。   If it is determined that there is no event that has not yet been considered for clustering among the events registered in the causal relationship storage unit 104, this processing ends.

また、因果関係記憶部104に登録されている事象の中に、まだクラスタ化を検討していない事象があると判断された場合は、まだクラスタ化を検討していない事象を1つ、ターゲットとしてピックアップする(ステップS202)。例えば、因果関係記憶部104に登録されている事象が図11に示したようになっており、事象E201をターゲット事象としてピックアップしたとする。   If it is determined that there is an event that has not yet been considered for clustering among the events registered in the causal relationship storage unit 104, one event that has not yet been considered for clustering is set as a target. Pick up (step S202). For example, it is assumed that the event registered in the causal relationship storage unit 104 is as shown in FIG. 11, and the event E201 is picked up as a target event.

次に、クラスタ対象選択部202は、ターゲット事象と共通の原因または結果事象を持ち、かつ、事象を構成している主語S及び述語Vが同一である事象群を、クラスタ化の対象とすべきノード群として選択する(ステップS203)。事象E201については、同一の原因または結果事象を共有する他の事象はないため、図10のステップS201に戻る。   Next, the cluster target selection unit 202 should target the event group having the same cause or effect event as the target event and having the same subject S and predicate V as the target of clustering. A node group is selected (step S203). As for the event E201, since there is no other event sharing the same cause or effect event, the process returns to step S201 in FIG.

次に、事象E202をターゲット事象とすると、事象E203、事象E204、及び事象E205が同一の事象E201を原因事象として共有しており、主語S及び述語Vがいずれも「S=売上、V=増加」である。そこで、4つの事象E202、事象E203、事象E204、及び事象E205が、クラスタ化対象事象群として事象クラスタ評価部203に入力される(ステップS203)。   Next, when the event E202 is a target event, the event E203, the event E204, and the event E205 share the same event E201 as the cause event, and the subject S and the predicate V are both “S = sales, V = increase”. It is. Therefore, four events E202, event E203, event E204, and event E205 are input to the event cluster evaluation unit 203 as a clustering target event group (step S203).

次に、事象クラスタ評価部203は、入力されたクラスタ化対象事象群における、修飾語群Mの組み合わせを変化させて、キーワードの頻出パタンを数え上げる。さらに、頻出パタンの全ての組み合わせによって、クラスタリング戦略を列挙する(ステップS204)。図11に示したデータの場合、修飾語群Mが空集合である組み合わせ「S=売上、V=増加」を含む事象が4つと最も多く、次に、「M={エアコン}、S=売上、V=増加」または「M={ビール}、S=売上、V=増加」を含む事象がそれぞれ2つずつ存在することが分かる。したがって、列挙されるクラスタリング戦略は以下の8通りとなる。   Next, the event cluster evaluation unit 203 changes the combination of the modifier group M in the input clustering target event group, and counts the frequent patterns of keywords. Further, clustering strategies are listed by all combinations of frequent patterns (step S204). In the case of the data shown in FIG. 11, the number of events including the combination “S = sales, V = increase” where the modifier group M is an empty set is the largest, followed by “M = {air conditioner}, S = sales”. , V = Increase ”or“ M = {Beer}, S = Sales, V = Increase ”. Therefore, the following eight clustering strategies are listed.

(戦略1)4つの事象E202、事象E203、事象E204、及び事象E205を「S=売上、V=増加」なる事象E208と抽象化してクラスタリングを行う。   (Strategy 1) Clustering is performed by abstracting the four events E202, E203, E204, and E205 into an event E208 “S = sales, V = increase”.

(戦略2)2つの事象E202及び事象E203を、「M={エアコン}、S=売上、V=増加」なる事象E209と抽象化してクラスタリングを行う。   (Strategy 2) Two events E202 and E203 are abstracted with an event E209 “M = {air conditioner}, S = sales, V = increase” and clustering is performed.

(戦略3)2つの事象E204及び事象E205を、「M={ビール}、S=売上、V=増加」なる事象E210と抽象化してクラスタリングを行う。   (Strategy 3) Two events E204 and E205 are abstracted with an event E210 of “M = {beer}, S = sales, V = increase”, and clustering is performed.

(戦略4)事象E208及び事象E209による抽象化を適用してクラスタリングを行う。   (Strategy 4) Clustering is performed by applying abstraction by the event E208 and the event E209.

(戦略5)事象E208及び事象E210による抽象化を適用してクラスタリングを行う。   (Strategy 5) Clustering is performed by applying abstraction by the event E208 and the event E210.

(戦略6)事象E209及び事象E210による抽象化を適用してクラスタリングを行う。   (Strategy 6) Clustering is performed by applying abstraction by the event E209 and the event E210.

(戦略7)事象E208、事象E209、及び事象E210による抽象化を全て適用してクラスタリングを行う。   (Strategy 7) Clustering is performed by applying all the abstractions by the event E208, the event E209, and the event E210.

(戦略8)事象E208、事象E209、事象E210のいずれも適用しない。   (Strategy 8) None of the event E208, the event E209, and the event E210 is applied.

次に、事象クラスタ評価部203は、各クラスタリング戦略を適用した場合のグラフ構造の複雑さを、クラスタリングスコアとして計算する(ステップS205)。この時、クラスタリング化された事象群に対するエッジは次のように更新する。   Next, the event cluster evaluation unit 203 calculates the complexity of the graph structure when each clustering strategy is applied as a clustering score (step S205). At this time, the edge for the clustered event group is updated as follows.

(更新ルール1)クラスタ化された事象群全てに共通の原因(または結果)となる事象があれば、その原因(または結果)事象からのエッジを1本に統合し、出現頻度を合計する。   (Update Rule 1) If there is an event that causes a common cause (or result) in all clustered event groups, the edges from the cause (or result) event are integrated into one, and the appearance frequencies are totaled.

(更新ルール2)クラスタ化されたノード群の一部だけに特定の原因(または結果)からのエッジがある場合は、クラスタ化された事象ではなく、クラスタ内の事象に直接リンクさせる。   (Update rule 2) When an edge from a specific cause (or result) exists only in a part of the clustered nodes, it is directly linked to an event in the cluster, not a clustered event.

また、クラスタリングスコアCSは、接点ノード数Nnとエッジ数Neとノード内エッジ数Nsとの3種類の数値を基準にして計算を行う。ここで、接点ノード数とは、因果関係を表すエッジの両端に直接接続されている事象ノードの数である。また、エッジ数とは、因果関係を表すエッジの数である。また、ノード内エッジ数とは、更新ルール2によって、クラスタ内の事象に直接リンクされているエッジの数である。本実施の形態では、クラスタリングスコアCSをNn*Ne*(Ns+1)として定義する。これは、単純な構造のグラフほどクラスタリングスコアCSが小さいことを意味しており、クラスタリングスコアCSが最小となるクラスタリング戦略を選択することによって、より単純なグラフ構造に要約することができる。ここで、Nsに1を加算しているのは、クラスタリングを行っていない場合はノード内エッジ数Nsがゼロであるため、クラスタリングスコアCSもゼロになってしまわないようにするための補正項である。   Further, the clustering score CS is calculated on the basis of three types of numerical values, that is, the number of contact nodes Nn, the number of edges Ne, and the number of edges in nodes Ns. Here, the number of contact nodes is the number of event nodes that are directly connected to both ends of the edge representing the causal relationship. Also, the number of edges is the number of edges representing a causal relationship. Further, the number of edges in the node is the number of edges that are directly linked to the event in the cluster by the update rule 2. In the present embodiment, the clustering score CS is defined as Nn * Ne * (Ns + 1). This means that a graph having a simple structure has a smaller clustering score CS, and can be summarized into a simpler graph structure by selecting a clustering strategy that minimizes the clustering score CS. Here, 1 is added to Ns because the number of edges Ns in the node is zero when clustering is not performed, and therefore the correction term is used to prevent the clustering score CS from becoming zero. is there.

クラスタリング戦略1を適用した場合、図12に示すように、事象E202と事象E203と事象E204と事象E205とが「S=売上、V=増加」なる事象E208としてまとめられている。   When the clustering strategy 1 is applied, as shown in FIG. 12, the event E202, the event E203, the event E204, and the event E205 are collected as an event E208 “S = sales, V = increase”.

さらに、更新ルール1により、図11では事象E201から事象E202、事象E203、事象E204、及び事象E205に個別に張られていたエッジが、図12では1本に統合され、出現頻度が合計されて11+13+12+21=57となっている。一方、事象E206へのエッジは事象E208内の全ての事象群が共有しているわけではないので、更新ルール2により、事象E202と事象E203とから直接リンクされている。また、事象E207へのエッジも、同様の理由により、事象E204と事象E205とから直接リンクされている。   Further, according to the update rule 1, in FIG. 11, the edges that are individually stretched from event E201 to event E202, event E203, event E204, and event E205 are integrated into one in FIG. 11 + 13 + 12 + 21 = 57. On the other hand, since the edge to event E206 is not shared by all event groups in event E208, it is directly linked from event E202 and event E203 by update rule 2. Further, the edge to the event E207 is directly linked from the event E204 and the event E205 for the same reason.

図12では、エッジの両端に位置する事象ノードは、事象E201、事象E202、事象E203、事象E204、事象E205、事象E206、事象E207、及び事象E208の全てであるため、接点ノード数Nn=8となる。また、エッジ数Ne=5本である。さらに、クラスタ化された事象E208の内部に直接リンクされているノード内エッジ数Ns=4本である。したがって、クラスタリングスコアCS=8*5*(4+1)=200となる。   In FIG. 12, the event nodes located at both ends of the edge are all event E201, event E202, event E203, event E204, event E205, event E206, event E207, and event E208, and therefore the number of contact nodes Nn = 8 It becomes. Further, the number of edges Ne = 5. Further, the number of edge in node Ns = 4 directly linked to the inside of the clustered event E208. Therefore, the clustering score CS = 8 * 5 * (4 + 1) = 200.

また、クラスタリング戦略2を適用した場合は、図13に示すように、事象E202と事象E203とが「M={エアコン}、S=売上、V=増加」なる事象E209としてまとめられている。   When the clustering strategy 2 is applied, as shown in FIG. 13, the event E202 and the event E203 are grouped as an event E209 “M = {air conditioner}, S = sales, V = increase”.

さらに、更新ルール1により、図11では事象E201から事象E202及び事象E203に個別に張られていたエッジが、図13では1本に統合され、出現頻度が合計されて11+13=24となっている。また、事象E206への2本のエッジも事象E209内の2つの事象が共有しているため、更新ルール1により1本に統合され、出現頻度が合計されて12+23=35となっている。   Further, according to the update rule 1, the edges that are individually extended from the event E201 to the event E202 and the event E203 in FIG. 11 are integrated into one in FIG. 13, and the appearance frequencies are totaled to be 11 + 13 = 24. . Also, since two events in the event E206 are shared by the two events in the event E209, they are integrated into one by the update rule 1, and the appearance frequencies are totaled to 12 + 23 = 35.

図13では、事象E202及び事象E203は事象E209の内部に隠蔽できているため、エッジの両端に位置する事象ノードは、事象E201、事象E204、事象E205、事象E206、事象E207、及び事象E209だけであり、接点ノード数Nn=6となる。また、エッジ数Ne=6本である。さらに、クラスタ化された事象E209の内部に直接リンクされているノード内エッジ数Ns=0本である。したがって、クラスタリングスコアCS=6*6*(0+1)=36となる。   In FIG. 13, since the event E202 and the event E203 can be hidden inside the event E209, the event nodes located at both ends of the edge are only the event E201, the event E204, the event E205, the event E206, the event E207, and the event E209. Therefore, the number of contact nodes Nn = 6. Further, the number of edges Ne = 6. Further, the number Ns of edges in the node directly linked to the inside of the clustered event E209 is Ns = 0. Therefore, the clustering score CS = 6 * 6 * (0 + 1) = 36.

また、クラスタリング戦略3を適用した場合のクラスタリングスコアCSは、クラスタリング戦略2の場合と同様であり、CS=36となる。   Further, the clustering score CS when the clustering strategy 3 is applied is the same as that of the clustering strategy 2, and CS = 36.

また、クラスタリング戦略4を適用した場合は、図14に示すように、事象E202と事象E203と事象E204と事象E205とが「S=売上、V=増加」なる事象E208としてまとめられ、事象E208の内部で事象E202と事象E203とが「M={エアコン}、S=売上、V=増加」なる事象E209としてまとめられている。   When the clustering strategy 4 is applied, as shown in FIG. 14, the event E202, the event E203, the event E204, and the event E205 are collected as an event E208 “S = sales, V = increased”. Internally, event E202 and event E203 are grouped as event E209 “M = {air conditioner}, S = sales, V = increase”.

さらに、更新ルール1により、図11では事象E201から事象E202、事象E203、事象E204、及び事象E205に個別に張られていたエッジが、図14では1本に統合され、出現頻度が合計されて11+13+12+21=57となっている。また、事象E206への2本のエッジも事象E209内の2つの事象が共有しているため、更新ルール1により1本に統合され、出現頻度が合計されて12+23=35となっている。一方、事象E207への2本のエッジは、事象E208に含まれる4事象全てで共有されていないので、更新ルール2により、事象E204とE205とから直接リンクされている。   Further, according to the update rule 1, in FIG. 11, the edges that were individually extended from the event E201 to the event E202, the event E203, the event E204, and the event E205 are integrated into one in FIG. 11 + 13 + 12 + 21 = 57. Also, since two events in the event E206 are shared by the two events in the event E209, they are integrated into one by the update rule 1, and the appearance frequencies are totaled to 12 + 23 = 35. On the other hand, since the two edges to the event E207 are not shared by all four events included in the event E208, they are directly linked from the events E204 and E205 by the update rule 2.

図14では、エッジの両端に位置する事象ノードは、事象E201、事象E204、事象E205、事象E206、事象E207、事象E208、及び事象E209であり、接点ノード数Nn=7となる。また、エッジ数Ne=4本である。さらに、クラスタ化された事象E208の内部に直接リンクされているノード内エッジ数Ns=3本である。したがって、クラスタリングスコアCS=7*4*(3+1)=112となる。   In FIG. 14, event nodes located at both ends of the edge are event E201, event E204, event E205, event E206, event E207, event E208, and event E209, and the number of contact nodes Nn = 7. Further, the number of edges Ne = 4. Further, the number of edge in a node Ns = 3 directly linked to the inside of the clustered event E208. Therefore, the clustering score CS = 7 * 4 * (3 + 1) = 112.

また、クラスタリング戦略5を適用した場合のクラスタリングスコアCSは、クラスタリング戦略4の場合と同様であり、CS=112となる。   Further, the clustering score CS when the clustering strategy 5 is applied is the same as that of the clustering strategy 4, and CS = 112.

また、クラスタリング戦略6を適用した場合は、図15に示すように、事象E202と事象E203とが「M={エアコン}、S=売上、V=増加」なる事象E209としてまとめられ、事象E204と事象E205とが「M={ビール}、S=売上、V=増加」なる事象E210としてまとめられている。さらに、更新ルール1により、図11では事象E201から事象E202及び事象E203に個別に張られていたエッジが図15では1本に統合され、出現頻度が合計されて11+13=24となっている。同様に、図11では事象E201から事象E204及び事象E205に個別に張られていたエッジが図15では1本に統合され、出現頻度が合計されて12+21=33となっている。また、事象E206への2本のエッジも事象E209内の2つの事象が共有しているため、更新ルール1により1本に統合され、出現頻度が合計されて12+23=35となっている。また、事象E207への2本のエッジも事象E210内の2つの事象が共有しているため、更新ルール1により1本に統合され、出現頻度が合計されて14+10=24となっている。   Further, when the clustering strategy 6 is applied, as shown in FIG. 15, the event E202 and the event E203 are collected as an event E209 “M = {air conditioner}, S = sales, V = increase”, and the event E204 Event E205 is summarized as event E210 “M = {beer}, S = sales, V = increase”. Further, according to the update rule 1, the edges individually extended from the event E201 to the event E202 and the event E203 in FIG. 11 are integrated into one in FIG. 15, and the appearance frequencies are totaled to be 11 + 13 = 24. Similarly, in FIG. 11, the edges individually extended from event E201 to event E204 and event E205 are integrated into one in FIG. 15, and the appearance frequencies are totaled to be 12 + 21 = 33. Also, since two events in the event E206 are shared by the two events in the event E209, they are integrated into one by the update rule 1, and the appearance frequencies are totaled to 12 + 23 = 35. Also, since two events in the event E207 are shared by the two events in the event E210, they are integrated into one by the update rule 1, and the total appearance frequency is 14 + 10 = 24.

図15では、エッジの両端に位置する事象ノードは、事象E201、事象E206、事象E207、事象E209、及び事象E210のみであり、接点ノード数Nn=5となる。また、エッジ数Ne=4本である。さらに、クラスタ化された事象E209及び事象E210の内部に直接リンクされているエッジはないため、ノード内エッジ数Ns=0本である。したがって、クラスタリングスコアCS=5*4*(0+1)=20となる。   In FIG. 15, the event nodes located at both ends of the edge are only the event E201, the event E206, the event E207, the event E209, and the event E210, and the number of contact nodes Nn = 5. Further, the number of edges Ne = 4. Furthermore, since there is no edge directly linked to the inside of the clustered event E209 and event E210, the number of in-node edges Ns = 0. Therefore, the clustering score CS = 5 * 4 * (0 + 1) = 20.

また、クラスタリング戦略7を適用した場合は、図16に示すように、事象E202と事象E203とが「M={エアコン}、S=売上、V=増加」なる事象E209としてまとめられ、事象E204と事象E205とが「M={ビール}、S=売上、V=増加」なる事象E210としてまとめられ、事象E209と事象E208とが「S=売上、V=増加」なる事象E208としてまとめられている。さらに、更新ルール1により、図11では事象E201から事象E202、事象E203、事象E204、及び事象E205に個別に張られていたエッジが図16では1本に統合され、出現頻度が合計されて11+13+12+21=57となっている。また、事象E206への2本のエッジも事象E209内の2つの事象が共有しているため、更新ルール1により1本に統合され、出現頻度が合計されて12+23=35となっている。また、事象E207への2本のエッジも事象E210内の2つの事象が共有しているため、更新ルール1により1本に統合され、出現頻度が合計されて14+10=24となっている。   When the clustering strategy 7 is applied, as shown in FIG. 16, the event E202 and the event E203 are combined as an event E209 “M = {air conditioner}, S = sales, V = increase”, and the event E204 Event E205 is summarized as event E210 “M = {beer}, S = sales, V = increase”, and event E209 and event E208 are summarized as event E208, “S = sales, V = increase”. . Further, according to the update rule 1, in FIG. 11, the edges individually extended from the event E201 to the event E202, the event E203, the event E204, and the event E205 are integrated into one in FIG. 16, and the appearance frequencies are totaled to be 11 + 13 + 12 + 21. = 57. Also, since two events in the event E206 are shared by the two events in the event E209, they are integrated into one by the update rule 1, and the appearance frequencies are totaled to 12 + 23 = 35. Also, since two events in the event E207 are shared by the two events in the event E210, they are integrated into one by the update rule 1, and the total appearance frequency is 14 + 10 = 24.

図16では、エッジの両端に位置する事象ノードは、事象E201、事象E206、事象E207、事象E208、事象E209、及び事象E210であり、接点ノード数Nn=6となる。また、エッジ数Ne=3本である。さらに、クラスタ化された事象E208の内部には2本のエッジが直接リンクされているため、ノード内エッジ数Ns=2本である。したがって、クラスタリングスコアCS=6*3*(2+1)=54となる。   In FIG. 16, the event nodes located at both ends of the edge are event E201, event E206, event E207, event E208, event E209, and event E210, and the number of contact nodes Nn = 6. Further, the number of edges Ne = 3. Furthermore, since two edges are directly linked inside the clustered event E208, the number of intra-node edges Ns = 2. Therefore, the clustering score CS = 6 * 3 * (2 + 1) = 54.

クラスタリング戦略8を適用した場合のクラスタリングスコアは、図11に示したグラフ構造を元に計算できる。エッジの両端に位置する事象ノードは、事象E201、事象E202、事象E203、事象E204、事象E205、事象E206、及び事象E207であり、接点ノード数Nn=7となる。また、エッジ数Ne=8本である。さらに、ノード内エッジ数Ns=0本である。したがって、クラスタリングスコアCS=7*8*(0+1)=56となる。   The clustering score when the clustering strategy 8 is applied can be calculated based on the graph structure shown in FIG. Event nodes located at both ends of the edge are event E201, event E202, event E203, event E204, event E205, event E206, and event E207, and the number of contact nodes Nn = 7. Further, the number of edges Ne = 8. Further, the number of edges in the node Ns = 0. Therefore, the clustering score CS = 7 * 8 * (0 + 1) = 56.

以上8通りのクラスタリング戦略を比較すると、図15に示したクラスタリング戦略6を適用した場合のクラスタリングスコアCSが最小値20をとり、最も単純なグラフ構造に要約できることがわかる。   Comparing the above eight clustering strategies, it can be seen that the clustering score CS when the clustering strategy 6 shown in FIG. 15 is applied has the minimum value 20 and can be summarized into the simplest graph structure.

次に、事象クラスタ評価部203は、因果関係記憶部104に格納されている因果関係グラフの構造を、クラスタリングスコアが最小値をとるクラスタリング戦略を適用した場合のグラフ構造に更新する(ステップS206)。   Next, the event cluster evaluation unit 203 updates the structure of the causal relationship graph stored in the causal relationship storage unit 104 to a graph structure when a clustering strategy in which the clustering score has a minimum value is applied (step S206). .

上記の処理を繰り返し、まだクラスタ化を検討していない事象がなくなった時点で処理を終了する。図15では、続けて事象E206と事象E207についても検討するが、原因または結果事象を共有するクラスタ化対象事象が存在しないため、以上で事象クラスタ生成処理を終了する。   The above process is repeated, and the process ends when there are no more events for which clustering is not yet considered. In FIG. 15, the event E206 and the event E207 are continuously examined. However, since there is no clustering target event that shares the cause or the result event, the event cluster generation process is completed.

なお、ここでは、クラスタリング戦略を列挙する際の頻出パタンとして、2回以上出現したものを全てクラスタリングに使うものとして説明を行ったが、クラスタリングに用いる頻出パタンの頻度の閾値を予め設定し、クラスタリング戦略を絞る方法も考えられ、本実施の形態に述べた方法に限定されない。   Here, as the frequent pattern when enumerating the clustering strategy, the description has been made assuming that all of the frequent patterns used for clustering are used for clustering. However, the frequency threshold of the frequent pattern used for clustering is set in advance, and clustering is performed. A method of narrowing down the strategy is also conceivable and is not limited to the method described in this embodiment.

また、ここでは、クラスタ対象選択部202が、ターゲット事象と共通の原因または結果事象を持ち、かつ、事象を構成している主語S及び述語Vが同一である事象群を、クラスタ化の対象とすべきノード群として選択する例について述べたが、主語S及び述語Vの他にも修飾語群Mの同一性も考慮してクラスタ化の対象とすべきノード群として選択する方法も考えられ、本実施の形態に述べた方法に限定されない。例えば、主語Sと述語Vと修飾語群Mとをキーワードベクトルとし、キーワードベクトル同士のコサイン類似度を求めることにより、事象表現の類似度が高い事象同士がクラスタ化の対象として選ばれることになる。   In addition, here, the cluster target selection unit 202 sets the event group having the same cause or effect event as the target event and having the same subject S and predicate V as the target of clustering. Although an example of selecting as a node group to be described has been described, a method of selecting as a node group to be clustered in consideration of the identity of the modifier group M in addition to the subject S and the predicate V is also conceivable. It is not limited to the method described in this embodiment mode. For example, by using the subject S, the predicate V, and the modifier group M as keyword vectors and obtaining cosine similarity between the keyword vectors, events having high similarity in event expression are selected as clustering targets. .

また、ここでは、クラスタリングスコアCSを、接点ノード数Nn、エッジ数Ne、ノード内エッジ数Nsを使ってCS=Nn*Ne*(Ns+1)と定義した場合について説明したが、他にも、各パラメータに対する重みα、β、γを使って、CS=(Nn^α)*(Ne^β)*[(Ns+1)^γ]として計算する方法も考えられ、本実施の形態に述べた方法に限定されない。この場合、グラフ構造の複雑さの指標として、何を重視するかを指定することができ、例えば、α=β=0、γ=1と指定して計算したとすると、接点ノード数Nnやエッジ数Neは考慮せず、ノード内エッジ数Nsのみを考慮したクラスタリングを行うことが可能である。また、α<βとなるような重みを使うことによって、接点ノード数Nnよりもエッジ数Neの少なさを重要視したクラスタリングを行うことが可能である。また、ノード内エッジ数Nsは単にクラスタ化された事象ノードの内部へのリンクの数として係数したが、クラスタ化が2重3重になされた場合に、クラスタ化事象の内部へ深くリンクされたエッジほど高い重みを付けて加算するなどの方法も考えられ、本実施の形態に述べた方法に限定されない。この場合、1つの事象が何重にも重なったクラスタリング事象の中に入り込んでしまうことを防ぐことができる。   Although the clustering score CS is defined as CS = Nn * Ne * (Ns + 1) using the number of contact nodes Nn, the number of edges Ne, and the number of edges Ns in the node, A method of calculating as CS = (Nn ^ α) * (Ne ^ β) * [(Ns + 1) ^ γ] using the weights α, β, and γ for the parameters is also conceivable, and the method described in this embodiment is used. It is not limited. In this case, it is possible to specify what is important as an index of the complexity of the graph structure. For example, if calculation is performed by specifying α = β = 0 and γ = 1, the number of contact nodes Nn and the edge It is possible to perform clustering that considers only the number Ns of in-node edges without considering the number Ne. Further, by using a weight such that α <β, it is possible to perform clustering that places more importance on the smaller number of edges Ne than the number of contact nodes Nn. In addition, the number of edges Ns in the node is simply calculated as the number of links to the inside of the clustered event node, but when the clustering is doubled and tripled, it is deeply linked to the inside of the clustered event. A method of adding an edge with a higher weight is also conceivable, and the method is not limited to the method described in this embodiment. In this case, it is possible to prevent one event from entering a clustering event in which multiple events are overlapped.

また、ここでは、全てのクラスタリング戦略を列挙し、それぞれの場合のクラスタリングスコアCS計算し、値が最小となるクラスタリング戦略を選択する場合について説明したが、他にも、クラスタ化によって統合してもよい事象ノードの最大値Nmaxを予め決めておき、Nmaxより多くの事象ノードが含まれることになるクラスタリング戦略は予め列挙の対象から除外するなどの方法も考えられ、本実施の形態に述べた方法に限定されない。この場合、非常に抽象度の高いクラスタ化事象が予めクラスタリングスコア計算の対象から除外されることにより、処理の高速化が期待できる。   In this example, all clustering strategies are listed, the clustering score CS is calculated in each case, and the clustering strategy with the smallest value is selected. However, other clustering strategies may be integrated. The maximum value Nmax of good event nodes is determined in advance, and a method such as excluding clustering strategies that include more event nodes than Nmax from the objects to be enumerated in advance can be considered. The method described in the present embodiment It is not limited to. In this case, a clustering event having a very high level of abstraction is excluded from the clustering score calculation target in advance, so that the processing can be speeded up.

また、ここでは、図11に示した事象E201、事象E202という順序でターゲット事象としてクラスタ化すべきか否かを検討したが、他にもランダムにターゲット事象を選択するなどの方法も考えられ、本実施の形態に述べた方法に限定されない。また、複数の異なる順序を用いて事象クラスタ生成処理を繰り返し行い、その中でクラスタリングスコアCSが最小になった因果関係グラフを採用するなどの方法も考えられ、本実施の形態に述べた方法に限定されない。   Further, here, whether or not to cluster as the target event in the order of the event E201 and the event E202 shown in FIG. 11 is examined, but other methods such as selecting the target event at random may be considered. The method is not limited to the method described in the embodiment. In addition, a method of repeatedly performing event cluster generation processing using a plurality of different orders and adopting a causal relationship graph in which the clustering score CS is minimized can be considered, and the method described in this embodiment is used. It is not limited.

次に、事象推移予測処理について説明する。   Next, the event transition prediction process will be described.

図17は、図1に示した因果関係分析装置1における事象推移予測処理を説明するためのフローチャートである。   FIG. 17 is a flowchart for explaining event transition prediction processing in the causal relationship analysis apparatus 1 shown in FIG.

事象推移予測部204は、図7に示した事象推移予測入力画面C101を通して、利用者からの検索条件として、事象を表現する自然言語で記述された文書である自然言語文と予測範囲を示す次数制限、および、推移予測の方向を受け付ける。入力された自然言語文は、形態素解析を用いて形態素と品詞列に分割され、事象パタン記憶部102に登録されている事象パタンを適用して修飾語集合Mと主語Sと述語Vとからなる事象に変換される(ステップS301)。   The event transition prediction unit 204 uses the event transition prediction input screen C101 shown in FIG. 7 as a search condition from the user, and a natural language sentence that is a document described in a natural language expressing the event and a degree indicating a prediction range. Accepts restrictions and direction of transition prediction. The input natural language sentence is divided into a morpheme and a part-of-speech string using morpheme analysis, and consists of a modifier set M, a subject S, and a predicate V by applying an event pattern registered in the event pattern storage unit 102. It is converted into an event (step S301).

次に、事象推移予測部204は、因果関係記憶部104に格納されている事象の中から、修飾語集合M、主語S、および述語Vが完全一致する事象を検索し、ターゲット事象TEとする。また、このターゲット事象TEの持つ次数dを0(ゼロ)に設定する(ステップS302)。また、カウンタ用の内部変数iの値も0(ゼロ)に初期化する(ステップS303)。   Next, the event transition prediction unit 204 searches the event stored in the causal relationship storage unit 104 for an event in which the modifier set M, the subject S, and the predicate V completely match, and sets it as the target event TE. . Further, the order d of the target event TE is set to 0 (zero) (step S302). Also, the value of the internal variable i for the counter is initialized to 0 (zero) (step S303).

図18は、図1に示した因果関係記憶部104に格納されている因果関係グラフの一例を示す図である。以後、因果関係記憶部104に格納されている因果関係グラフが図18に示す通りであり、最初のターゲット事象TEが事象E301、次数制限が2、推移予測の方向が結果事象の方向である場合(図7で「結果を推測する」ボタンC104が選択された場合)を例に挙げて、事象推移予測処理の動作について具体的に詳細に説明する。   FIG. 18 is a diagram illustrating an example of a causal relationship graph stored in the causal relationship storage unit 104 illustrated in FIG. 1. Thereafter, when the causal relationship graph stored in the causal relationship storage unit 104 is as shown in FIG. 18, the first target event TE is the event E301, the degree limit is 2, and the direction of transition prediction is the direction of the result event The operation of the event transition prediction process will be specifically described in detail by taking as an example (when the “guess result” button C104 in FIG. 7 is selected).

事象推移予測部204は、以下の列挙ルールに従ってターゲット事象TEからたどれる結果事象を列挙する。同時に、結果事象の次数をターゲット事象TEの次数dに1加算したd+1に設定し、エッジに設定されている出現頻度を元に推移スコアTSを計算する(ステップS304)。   The event transition prediction unit 204 enumerates the result events traced from the target event TE according to the following enumeration rule. At the same time, the order of the result event is set to d + 1 obtained by adding 1 to the order d of the target event TE, and the transition score TS is calculated based on the appearance frequency set at the edge (step S304).

(列挙ルール1)ターゲット事象TEを接点として、エッジで繋がっている結果事象を全て列挙する。   (Enumeration rule 1) All the result events connected by the edge are listed with the target event TE as a contact.

(列挙ルール2)ターゲット事象TEに含まれる内部事象を接点として、エッジで繋がっている結果事象を全て列挙する。   (Enumeration rule 2) All the event events connected by the edge are listed with the internal event included in the target event TE as a contact.

(列挙ルール3)ターゲット事象TEが含まれる外部事象を接点として、エッジで繋がっている結果事象を全て列挙する。   (Enumeration rule 3) All the event events connected by the edge are listed with an external event including the target event TE as a contact.

推移スコアTSは、次数0の事象から結果事象までのエッジに設定された出現頻度の合計Ft、事象間の推移コストTc、および、結果事象の次数dを使って、TS=Ft/(Tc^d)として求める。ただし、次数0の事象から結果事象までのパスが複数存在する場合は、各パスにおける出現頻度の合計の最大値をFtとして用いることとする。推移コストTcは、結果事象の次数が高くなるほど、推移スコアTSが少なくなるようにするための重みであり、1より十分大きな値であれば良い。以下の例では、推移コストTc=10として推移スコアを計算する場合について述べる。   The transition score TS is calculated by using the total appearance frequency Ft set at the edge from the event of degree 0 to the result event, the transition cost Tc between events, and the order d of the result event, and TS = Ft / (Tc ^ Obtained as d). However, when there are a plurality of paths from an event of degree 0 to a result event, the maximum value of the total appearance frequency in each path is used as Ft. The transition cost Tc is a weight for making the transition score TS decrease as the order of the result event increases, and may be a value sufficiently larger than 1. In the following example, a case where the transition score is calculated with the transition cost Tc = 10 will be described.

最初のターゲット事象TEが図18の事象E301である場合、列挙ルール1に該当する結果事象は事象E304及び事象E306となり、これら2つの事象の次数を0+1=1に設定する。また、事象E301から事象E304に推移する時の推移スコアは、30/10=3であり、また、事象E301から事象E306に推移する時の推移スコアは、15/10=1.5であると計算できる。また、ここでは、列挙ルール2および3に該当する結果事象は存在しない。   When the first target event TE is the event E301 in FIG. 18, the result events corresponding to the enumeration rule 1 are the event E304 and the event E306, and the order of these two events is set to 0 + 1 = 1. The transition score when transitioning from event E301 to event E304 is 30/10 = 3, and the transition score when transitioning from event E301 to event E306 is 15/10 = 1.5. Can be calculated. Further, here, there is no result event corresponding to the enumeration rules 2 and 3.

ここで、クラスタリング前には事象E301から直接エッジが繋がっていたはずの事象E302及び事象E303は、図18では列挙ルール1にも2にも該当しないため、結果事象として列挙されない点に注意する。その代わりに、これら2つの事象をクラスタリングした事象E304が列挙されている。これにより、事象E301からの事象推移を、個別の事象ではなく、事象E304として要約して解釈することができる。   Here, it should be noted that the event E302 and the event E303 whose edges should have been directly connected to the event E301 before clustering do not correspond to the enumeration rule 1 or 2 in FIG. Instead, an event E304 obtained by clustering these two events is listed. Thereby, the event transition from the event E301 can be interpreted as an event E304 instead of individual events.

次に、次数d=iである事象全てについて、その結果事象が全て列挙されているかどうかを判断し(ステップS305)、その結果事象が全て列挙されていれば、カウンタ用の内部変数iの値を1加算する(ステップS306)。さらに、内部変数iの値が入力された次数制限以下であるかどうかを判断し(ステップS307)、内部変数iの値が入力された次数制限以下であれば、次数d=iである事象を次のターゲット事象TEとして(ステップS308)、結果事象の列挙を行う(ステップS304)。   Next, it is determined whether or not all of the events of order d = i are enumerated as a result (step S305). If all of the events are enumerated, the value of the internal variable i for the counter is determined. 1 is added (step S306). Further, it is determined whether or not the value of the internal variable i is equal to or less than the input order limit (step S307). If the value of the internal variable i is equal to or less than the input order limit, an event where the order d = i is determined. As the next target event TE (step S308), the result events are listed (step S304).

図18の例では、次数0であるのは事象E301だけであるため、内部変数iの値が1加算されて0から1になる。これは、制限次数の2よりも小さいので、次に、次数d=1の事象をターゲット事象TEとする。次数d=1の事象には、事象E304及び事象E306がある。   In the example of FIG. 18, the degree 0 is only the event E301, so that the value of the internal variable i is incremented by 1 to change from 0 to 1. Since this is smaller than the limit order 2, next, an event of order d = 1 is set as the target event TE. Events of order d = 1 include event E304 and event E306.

事象E304をターゲット事象TEとすると、列挙ルール1には事象E309が、また、列挙ルール2には事象E308が該当するため、これら2つの事象の次数が1+1=2に設定される。また、次数0の事象E301から事象E309へのパスは、「事象E301→事象E304→事象E309」となるため、この場合の推移スコアは(30+50)/(10^2)=0.8となる。さらに、次数0の事象E301から事象E308へのパスは、「事象E301→事象E302→事象E308」となるため、この場合の推移スコアは(10+17)/(10^2)=0.27となる。また、ここでは、列挙ルール3に該当する結果事象は存在しない。   If the event E304 is the target event TE, the enumeration rule 1 corresponds to the event E309, and the enumeration rule 2 corresponds to the event E308. Therefore, the order of these two events is set to 1 + 1 = 2. Further, since the path from the event E301 of degree 0 to the event E309 is “event E301 → event E304 → event E309”, the transition score in this case is (30 + 50) / (10 ^ 2) = 0.8. . Furthermore, since the path from the event E301 of degree 0 to the event E308 is “event E301 → event E302 → event E308”, the transition score in this case is (10 + 17) / (10 ^ 2) = 0.27. . Further, here, there is no result event corresponding to the enumeration rule 3.

ここで、事象E301から事象E308へのパスが「事象E301→事象E304→事象E308」とはならないことに注意する。これは、事象E308に繋がっているエッジは、事象E304からではなく、その内部ノードである事象E302のみからリンクされているからである。そのため、正しいパスは「事象E301→事象E302→事象E308」となり、事象E301と事象E302との因果関係の頻度が10であることから、推移スコアが(10+17)/(10^2)=0.27となる。   Here, it should be noted that the path from the event E301 to the event E308 is not “event E301 → event E304 → event E308”. This is because the edge connected to the event E308 is linked not only from the event E304 but only from the event E302 which is an internal node thereof. Therefore, the correct path is “event E301 → event E302 → event E308”, and the frequency of the causal relationship between the event E301 and the event E302 is 10. Therefore, the transition score is (10 + 17) / (10 ^ 2) = 0. 27.

再び、次数d=iである事象全てについて、その結果事象が列挙されたか否かのチェックが行われるが(ステップS305)、次数d=1の事象E306の結果事象の列挙が終わっていないため、ターゲット事象TEを事象E306として、図17のステップS304に戻る。   Again, for all events of order d = i, a check is made as to whether or not the result event has been enumerated (step S305), but since the enumeration of the result event of event E306 of order d = 1 has not been completed, The target event TE is set as event E306, and the process returns to step S304 in FIG.

事象E306をターゲット事象TEとすると、事象E310が列挙ルール3に該当するため、その次数が1+1=2に設定される。また、次数0の事象E301から事象E310へのパスは、「事象E301→事象E306→事象E310」となるため、この場合の推移スコアは(15+14)/(10^2)=0.29となる。また、ここでは、列挙ルール1および2に該当する結果事象は存在しない。   Assuming that the event E306 is the target event TE, the event E310 corresponds to the enumeration rule 3, so that the order is set to 1 + 1 = 2. Further, since the path from the event E301 of degree 0 to the event E310 is “event E301 → event E306 → event E310”, the transition score in this case is (15 + 14) / (10 ^ 2) = 0.29. . Further, here, there is no result event corresponding to the enumeration rules 1 and 2.

ここで、事象E311は事象E306の結果事象とならないことに注意する。事象E306と事象E307とを抽象化した事象E305が存在するが、事象E311は事象E307とのみ接続しているからである。このように、事象E306と事象E307とがクラスタ化されていても、事象E305を介して元々接続関係のない事象E301と事象E311とが結びついてしまうのを防ぎ、不適切な推論が起こらないようにすることができる。   Note that event E311 is not a result of event E306. This is because the event E305 that abstracts the event E306 and the event E307 exists, but the event E311 is connected only to the event E307. As described above, even if the event E306 and the event E307 are clustered, the event E301 and the event E311 that are not originally connected through the event E305 are prevented from being connected, and inappropriate inference does not occur. Can be.

再び、次数d=iである事象全てについて、その結果事象が列挙されたか否かのチェックが行われ(ステップS305)、次数d=1である結果事象は全て列挙されたため、図17のステップS306でカウンタ用の内部変数iの値が、1加算されて2となる。これは、制限次数の2と等しくなるため、これまで列挙していた全ての結果事象を、推移スコアの高い順にソートする(ステップS309)。図18に示す因果関係グラフの場合、事象E301からの因果関係の推移を、推移スコアの高い順にソートした結果は図18の下表のようになる。最終結果は、図8に示す事象推移予測結果画面C201の、事象推移リストC202として出力される。この時、事象推移予測部204は、修飾語集合Mと主語Sと述語Vとからなる事象表現を、修飾語集合Mの要素を格助詞「の」で接続し、主語Sの後ろに格助詞「が」を接続し、さらに述語Vを接続させることによって、人間が解釈しやすい自然言語文に整形して出力する。例えば、「M={二酸化炭素}、S=排出量、V=増加」という事象表現は、「二酸化炭素の排出量が増加」に変換することができる。図8の事象推移リストC202では、事象「S=交通量、V=増加」から事象「M={二酸化炭素}、S=排出量、V=増加」への推移が、「二酸化炭素の排出量が増加」「↑交通量の増加」と自然言語文に整形されて表示されており、同時に事象「二酸化炭素の排出量が増加」の次数と推移スコアがそれぞれ1と3.0であることが表示されている。   Again, it is checked whether all the events having the order d = i are listed as a result event (step S305). Since all the event events having the order d = 1 are listed, step S306 in FIG. 17 is performed. Thus, the value of the internal variable i for the counter is incremented by 1 and becomes 2. Since this is equal to the limit order of 2, all the event events listed so far are sorted in descending order of the transition score (step S309). In the case of the causal relationship graph shown in FIG. 18, the result of sorting the transition of the causal relationship from the event E301 in descending order of the transition score is as shown in the lower table of FIG. The final result is output as an event transition list C202 on the event transition prediction result screen C201 shown in FIG. At this time, the event transition prediction unit 204 connects the event expression composed of the modifier set M, the subject S, and the predicate V to the elements of the modifier set M by the case particle “NO”, and the case particle after the subject S. By connecting “ga” and further connecting the predicate V, it is shaped into a natural language sentence that is easy for humans to interpret and output. For example, the event expression “M = {carbon dioxide}, S = emission, V = increase” can be converted to “increase in carbon dioxide emission”. In the event transition list C202 of FIG. 8, the transition from the event “S = traffic volume, V = increased” to the event “M = {carbon dioxide}, S = emission, V = increased” is “carbon dioxide emissions”. ”Increased” and “↑ increased traffic” are displayed in natural language sentences, and the order and transition score of the event “increased carbon dioxide emissions” are 1 and 3.0 respectively. It is displayed.

なお、ここでは、結果事象の方向への推移を予測する例について説明を行ったが、上記の説明文中の「結果事象」を「原因事象」に読み替えることによって、原因事象の方向への推移の予測も同様に行うことができる。   In this example, the example of predicting the transition in the direction of the outcome event has been described. However, by replacing the “result event” in the above description with the “cause event”, The prediction can be made in the same way.

次に、本実施の形態の効果について説明する。   Next, the effect of this embodiment will be described.

本実施の形態では、修飾語集合Mの組み合わせの頻出パタンを元にクラスタリング戦略として列挙するように構成されている。そのため、予め事象間の階層関係が与えられていなくても、関連の深い事象同士をまとめて抽象度の高いクラスタに整理することができる。   In the present embodiment, the clustering strategy is enumerated based on the frequent patterns of combinations of the modifier set M. Therefore, even if a hierarchical relationship between events is not given in advance, closely related events can be collected and organized into a cluster with a high degree of abstraction.

また、本実施の形態では、因果関係グラフの構造の簡潔さを表すクラスタリングスコアを用いて異なるクラスタリング戦略を比較するように構成されている。そのため、簡潔な形の因果関係グラフに要約可能なクラスタリング方法を自動的に選択することができる。   Further, the present embodiment is configured to compare different clustering strategies using a clustering score that represents the conciseness of the structure of the causal relationship graph. Therefore, it is possible to automatically select a clustering method that can be summarized into a simple causal relationship graph.

また、本実施の形態では、クラスタ化された事象群全てに共通の原因(または結果)となる事象があれば、その原因(または結果)事象からのエッジを1本に統合するが、クラスタ化されたノード群の一部だけに特定の原因(または結果)からのエッジがある場合は、クラスタ化された事象ではなく、クラスタ内の事象に直接リンクさせるように構成されている。そのため、クラスタ化によって、元々関係のない事象同士が因果関係で結びつくことを防ぎ、正しい因果関係を保つことができる。   In this embodiment, if there is an event that causes a common cause (or result) in all clustered event groups, the edges from the cause (or result) event are integrated into one, but clustering is performed. When only a part of the set of nodes has an edge from a specific cause (or result), it is configured to link directly to an event in the cluster instead of a clustered event. For this reason, clustering can prevent events that are not originally related from being connected by a causal relationship and maintain a correct causal relationship.

また、本実施の形態では、(1)原因(または結果)事象から直接エッジで繋がっている結果(または原因)事象、(2)原因(または結果)に含まれる事象を接点としてエッジで繋がっている結果(または原因)事象、(3)原因(または結果)事象が含まれる事象を接点としてエッジで繋がっている結果(または原因)事象、を再帰的に列挙することによって事象推移予測を行うように構成されている。そのため、クラスタ化された事象を介して、元々接続関係のない事象に推移するような推論を防ぎ、正しい因果関係を保った事象推移のみを推論することができる。
(第2の実施の形態)
図19は、本発明の因果関係分析装置の第2の実施の形態を示す図である。
In the present embodiment, (1) a result (or cause) event directly connected from the cause (or result) event at the edge, and (2) an event included in the cause (or result) is connected at the edge as a contact point. The event transition prediction is performed by recursively enumerating the result (or cause) events, and (3) the result (or cause) events connected at the edge by using the event including the cause (or result) event as a contact. It is configured. For this reason, it is possible to prevent inference such as transitioning to an event that originally has no connection relationship through clustered events, and it is possible to infer only event transition that maintains a correct causal relationship.
(Second Embodiment)
FIG. 19 is a diagram showing a second embodiment of the causal relationship analysis apparatus of the present invention.

本形態は図19に示すように、図1に示された第1の実施の形態における因果関係分析装置1に、情報を記憶する注目事象記憶部105と、予測結果記憶部106と、プログラム制御によって動作するアラート生成部205とが追加された因果関係分析装置2となっている。   In the present embodiment, as shown in FIG. 19, the causal relationship analysis apparatus 1 in the first embodiment shown in FIG. 1 includes an attention event storage unit 105 that stores information, a prediction result storage unit 106, and program control. The causal relationship analysis apparatus 2 to which the alert generation unit 205 that operates according to the above is added.

注目事象記憶部105は、利用者が予め設定された周期で定期的に注目したい注目事象と、その注目する周期間隔を格納する。注目事象の例としては、「M={A社}、S=株価、V=上昇」などが挙げられる。また、周期間隔の例としては、日次、周次、月次などが挙げられる。   The event-of-interest storage unit 105 stores an event of interest that the user wants to pay attention periodically at a preset period and the interval of the period of interest. Examples of the event of interest include “M = {A company}, S = stock price, V = increased” and the like. Examples of the periodic interval include daily, weekly and monthly.

予測結果記憶部106は、事象推移予測部204が予測した結果を保存する。   The prediction result storage unit 106 stores the result predicted by the event transition prediction unit 204.

アラート生成部205は、注目事象記憶部105に格納されている注目事象を入力条件として、事象推移予測部204の事象推移予測処理を指定されている周期間隔で実行し、予測結果記憶部106に格納されている以前の予測結果との比較を行い、出力結果に変更があるとアラートを出す。同時に、予測結果記憶部106を直近の結果に更新する。   The alert generation unit 205 executes the event transition prediction process of the event transition prediction unit 204 at a specified periodic interval using the attention event stored in the attention event storage unit 105 as an input condition, and stores it in the prediction result storage unit 106. It compares with the previous prediction result stored, and alerts when there is a change in the output result. At the same time, the prediction result storage unit 106 is updated to the latest result.

以下に、図1に示した因果関係分析装置2の動作、つまり因果関係分析装置2における因果関係分析方法についてフローチャートを用いて説明する。なお、図19に示した因果関係抽出部201、クラスタ対象選択部202、事象クラスタ評価部203、および事象推移予測部204の動作は、図9にて説明した因果関係抽出処理のステップS101〜S105、図10にて説明した事象クラスタ生成処理のステップS201〜S206、および図17にて説明した事象推移予測処理のステップS301〜S309と同一であるため、説明は省略する。   Hereinafter, the operation of the causal relationship analysis device 2 shown in FIG. 1, that is, the causal relationship analysis method in the causal relationship analysis device 2 will be described using a flowchart. The operations of the causal relationship extraction unit 201, the cluster target selection unit 202, the event cluster evaluation unit 203, and the event transition prediction unit 204 illustrated in FIG. 19 are performed in steps S101 to S105 of the causal relationship extraction process described in FIG. Since it is the same as steps S201 to S206 of the event cluster generation process described with reference to FIG. 10 and steps S301 to S309 of the event transition prediction process described with reference to FIG.

図20は、図19に示したアラート生成部205の動作を説明するためのフローチャートである。   FIG. 20 is a flowchart for explaining the operation of the alert generation unit 205 shown in FIG.

アラート生成部205は、注目事象記憶部105に格納されている注目事象を入力条件として、事象推移予測部204の事象推移予測処理を指定されている周期間隔で実行する(ステップS401)。次に、今回の予測結果と予測結果記憶部106に格納されている前回の予測結果との比較を行い(ステップS402)、変化があれば変化の内容を利用者にアラートとして通知する(ステップS403)。例えば、「M={A社}、S=株価、V=上昇」の原因事象として「M={A社、エアコン}、S=株価、V=上昇」があり、さらにその原因事象として「S=猛暑、V=続く」があった場合、これら3つの事象の推移スコアが上昇していれば、猛暑が続いたことによってA社の株価が上昇する可能性が、以前よりも高くなっているというアラートが利用者に示されることになる。また、予測結果記憶部106を更新し、次回のアラート生成処理時に比較できるようにしておく(ステップS404)。   The alert generation unit 205 executes the event transition prediction process of the event transition prediction unit 204 at a specified periodic interval using the attention event stored in the attention event storage unit 105 as an input condition (step S401). Next, the current prediction result is compared with the previous prediction result stored in the prediction result storage unit 106 (step S402), and if there is a change, the contents of the change are notified to the user as an alert (step S403). ). For example, there are “M = {Company A, air conditioner}, S = stock price, V = increased” as a cause event of “M = {A company}, S = stock price, V = increased”, and “S = If it ’s “hot” and “V = continue”, if the transition score of these three events has risen, there is a higher possibility that the stock price of Company A will rise due to the continued hot heat. Will be shown to the user. Also, the prediction result storage unit 106 is updated so that it can be compared during the next alert generation process (step S404).

次に、本実施の形態の効果について説明する。   Next, the effect of this embodiment will be described.

本実施の形態では、注目事象について定期的に事象推移予測を実行し、変化を検出したらアラートを出すように構成されている。そのため、利用者が注目している事象に影響を及ぼす原因事象の変化や、注目事象によって引き起こされる結果事象の変化、およびそれら事象推移の実現可能性の変化をタイムリーに把握することができる。
(第3の実施の形態)
図21は、本発明の因果関係分析装置の第3の実施の形態を示す図である。
In the present embodiment, event transition prediction is periodically executed for a noticed event, and an alert is issued when a change is detected. Therefore, it is possible to grasp in a timely manner a change in the cause event that affects the event that the user is paying attention to, a change in the result event caused by the attention event, and a change in feasibility of the event transition.
(Third embodiment)
FIG. 21 is a diagram showing a third embodiment of the causal relationship analysis apparatus of the present invention.

本形態は図21に示すように、入力手段501と、データ処理装置502と、出力手段503と、記憶装置504とを備える。さらに、第1の実施の形態の因果関係分析装置1を実現するための因果関係分析プログラム500を備える。   As shown in FIG. 21, the present embodiment includes an input unit 501, a data processing device 502, an output unit 503, and a storage device 504. Furthermore, a causal relationship analysis program 500 for realizing the causal relationship analysis apparatus 1 of the first embodiment is provided.

入力手段501は、マウス、キーボード等、操作者からの指示を入力するための装置である。また、出力手段503は、表示画面、プリンタ等のデータ処理装置502による処理結果を出力する装置である。   The input unit 501 is a device for inputting instructions from an operator, such as a mouse and a keyboard. The output unit 503 is a device that outputs a processing result by the data processing device 502 such as a display screen or a printer.

因果関係分析プログラム500は、データ処理装置502に読み込まれ、データ処理装置502の動作を制御し、記憶装置504に入力メモリ505とワークメモリ506を生成する。データ処理装置502は、因果関係分析装置1を実現するためのプログラムの制御により、第1の実施の形態と同一の処理を実行する。   The causal relationship analysis program 500 is read into the data processing device 502, controls the operation of the data processing device 502, and generates an input memory 505 and a work memory 506 in the storage device 504. The data processing device 502 executes the same processing as in the first embodiment by controlling a program for realizing the causal relationship analysis device 1.

図21におけるデータ処理装置502は、図1における因果関係抽出部201、クラスタ対象選択部202、事象クラスタ評価部203、および事象推移予測部204の処理を実行する。また、図21における記憶装置504には、図1における文書群記憶部101、事象パタン記憶部102、接続関係記憶部103、及び因果関係記憶部104の情報が格納される。ただし、文書群記憶部101は、記憶装置504に格納されたデータを利用する他に、データ処理装置502によって外部にあるデータベースにネットワーク(例えば、インターネット)を介してアクセスして取得する形態であっても良い。
(第4の実施の形態)
次に、本発明の第4の実施の形態について説明する。
The data processing device 502 in FIG. 21 executes the processes of the causal relationship extraction unit 201, the cluster target selection unit 202, the event cluster evaluation unit 203, and the event transition prediction unit 204 in FIG. 21 stores information of the document group storage unit 101, the event pattern storage unit 102, the connection relationship storage unit 103, and the causal relationship storage unit 104 in FIG. However, in addition to using the data stored in the storage device 504, the document group storage unit 101 has a form in which the data processing device 502 accesses and acquires an external database via a network (for example, the Internet). May be.
(Fourth embodiment)
Next, a fourth embodiment of the present invention will be described.

第4の実施の形態は、第3の実施の形態と同様に図21の構成図を用いる。因果関係分析プログラム500は、データ処理装置502に読み込まれ、データ処理装置502の動作を制御し、記憶装置504に入力メモリ505とワークメモリ506を生成する。データ処理装置502は、因果関係分析装置2を実現するためのプログラムの制御により、第2の実施の形態と同一の処理を実行する。   As in the third embodiment, the fourth embodiment uses the configuration diagram of FIG. The causal relationship analysis program 500 is read into the data processing device 502, controls the operation of the data processing device 502, and generates an input memory 505 and a work memory 506 in the storage device 504. The data processing device 502 executes the same processing as that of the second embodiment under the control of a program for realizing the causal relationship analysis device 2.

図21におけるデータ処理装置502は、図19における因果関係抽出部201、クラスタ対象選択部202、事象クラスタ評価部203、事象推移予測部204、およびアラート生成部205の処理を実行する。また、図21における記憶装置504には、図1における文書群記憶部101、事象パタン記憶部102、接続関係記憶部103、因果関係記憶部104、注目事象記憶部105、及び予測結果記憶部106の情報が格納される。ただし、文書群記憶部101は、記憶装置504に格納されたデータを利用する他に、データ処理装置502によって外部にあるデータベースにネットワーク(例えば、インターネット)を介してアクセスして取得する形態であっても良い。   The data processing device 502 in FIG. 21 executes the processes of the causal relationship extraction unit 201, the cluster target selection unit 202, the event cluster evaluation unit 203, the event transition prediction unit 204, and the alert generation unit 205 in FIG. 21 includes the document group storage unit 101, the event pattern storage unit 102, the connection relationship storage unit 103, the causal relationship storage unit 104, the attention event storage unit 105, and the prediction result storage unit 106 in FIG. Is stored. However, in addition to using the data stored in the storage device 504, the document group storage unit 101 has a form in which the data processing device 502 accesses and acquires an external database via a network (for example, the Internet). May be.

以上説明したように、本発明の因果関係分析装置は、以下の効果を有する。   As described above, the causal relationship analysis apparatus of the present invention has the following effects.

第1の効果は、予め事象間の階層関係が与えられていなくても、関連の深い事象同士をまとめて抽象度の高いクラスタに整理することができることである。その理由は、事象を表現する修飾語集合の組み合わせの頻出パタンを元にクラスタリングを行うからである。   The first effect is that even if a hierarchical relationship between events is not given in advance, closely related events can be collected and organized into a cluster with a high level of abstraction. The reason is that clustering is performed based on frequent patterns of combinations of modifier sets expressing events.

第2の効果は、簡潔な形の因果関係グラフに要約可能なクラスタリング戦略を自動的に選択することができることである。その理由は、因果関係グラフの構造の簡潔さを表すクラスタリングスコアを用いて異なるクラスタリング戦略を比較した上で、どの戦略を採用するかを決定するからである。   The second effect is that a clustering strategy that can be summarized into a simple form of causality graph can be automatically selected. The reason is that it determines which strategy is adopted after comparing different clustering strategies using a clustering score representing the simplicity of the structure of the causal relationship graph.

第3の効果は、クラスタ化を行っても、元々接続関係のない事象同士が因果関係で結びつくことを防ぎ、正しい因果関係を保つことができることである。その理由は、クラスタ化された事象群全てに共通の原因(または結果)となる事象があれば、その原因(または結果)事象からのエッジを1本に統合するが、クラスタ化されたノード群の一部だけに特定の原因(または結果)からのエッジがある場合は、クラスタ化された事象ではなく、クラスタ内の事象に直接リンクさせるからである。   The third effect is that even if clustering is performed, events that originally have no connection relationship are prevented from being connected by a causal relationship, and a correct causal relationship can be maintained. The reason is that if there is an event that causes a common cause (or result) in all clustered event groups, the edges from the cause (or result) event are integrated into one, but the clustered node groups If there is an edge from a specific cause (or result) in only a part of the event, it is linked directly to the event in the cluster, not to the clustered event.

第4の効果は、事象推移を予測する際に、クラスタ化された事象を介して、元々接続関係のない事象に推移するような推論を防ぎ、正しい因果関係を保った事象推移のみを推論することができることである。その理由は、(1)原因(または結果)事象から直接エッジで繋がっている結果(または原因)事象、(2)原因(または結果)に含まれる事象を接点としてエッジで繋がっている結果(または原因)事象、(3)原因(または結果)事象が含まれる事象を接点としてエッジで繋がっている結果(または原因)事象、のみを再帰的に列挙することによって事象推移予測を行うからである。   The fourth effect is that, when predicting event transitions, inferences that cause transitions to events that are not originally connected via clustered events are prevented, and only event transitions that maintain the correct causal relationship are inferred. Be able to. The reason is (1) a result (or cause) event directly connected from the cause (or result) event at the edge, and (2) a result (or result) connected at the edge by using the event included in the cause (or result) as a contact. This is because the event transition prediction is performed by recursively enumerating only the cause (or cause) event, and (3) the result (or cause) event connected at the edge by using the event including the cause (or result) event as a contact.

第5の効果は、利用者が注目している事象に影響を及ぼす原因事象の変化や、注目事象によって引き起こされる結果事象の変化、およびそれら事象推移の実現可能性の変化をタイムリーに把握することができることである。その理由は、注目事象について定期的に事象推移予測を実行し、変化を検出してアラートを出すからである。   The fifth effect is to grasp in a timely manner the change in the cause event that affects the event that the user is paying attention to, the change in the result event caused by the attention event, and the change in feasibility of the event transition. Be able to. The reason is that an event transition prediction is periodically executed for the attention event, a change is detected, and an alert is issued.

また、本発明によれば、工業装置の障害報告書などの情報源から、因果関係を自動抽出し、不具合が起こった場合の原因を自動診断するといった用途に適用できる。また、新聞記事や株価情報を情報源として、経済動向を予測し、株の売買のタイミングを判断するといった用途に適用できる。   Moreover, according to this invention, it can apply to the use of automatically extracting the causal relationship from information sources, such as a failure report of an industrial apparatus, and automatically diagnosing the cause when a malfunction occurs. In addition, it can be applied to uses such as newspaper articles and stock price information as information sources to predict economic trends and determine the timing of stock trading.

また、本発明においては、上述した手順をCPUに実行させるプログラムを因果関係分析装置にて読取可能な記録媒体に記録し、この記録媒体に記録されたプログラムを因果関係分析装置に読み込ませ、実行するものであっても良い。因果関係分析装置にて読取可能な記録媒体とは、フロッピーディスク(登録商標)、光磁気ディスク、DVD、CDなどの移設可能な記録媒体の他、因果関係分析装置に内蔵されたHDD等を指す。   In the present invention, a program for causing the CPU to execute the above-described procedure is recorded on a recording medium readable by the causal relation analysis apparatus, and the program recorded on the recording medium is read by the causal relation analysis apparatus and executed It may be what you do. The recording medium that can be read by the causal relationship analysis device refers to a removable recording medium such as a floppy disk (registered trademark), a magneto-optical disk, a DVD, or a CD, or an HDD built in the causal relationship analysis device. .

本発明の因果関係分析装置の第1の実施の形態を示す図である。It is a figure which shows 1st Embodiment of the causal relationship analysis apparatus of this invention. 図1に示した文書群記憶部に記憶された文書データの一例を示す図である。It is a figure which shows an example of the document data memorize | stored in the document group memory | storage part shown in FIG. 図1に示した事象パタン記憶部に記憶された事象パタンの一例を示す図である。It is a figure which shows an example of the event pattern memorize | stored in the event pattern memory | storage part shown in FIG. 図1に示した接続関係記憶部に格納されているデータの一例を示す図である。It is a figure which shows an example of the data stored in the connection relationship memory | storage part shown in FIG. 図1に示した因果関係記憶部に格納されている因果関係グラフの一例を示す図である。It is a figure which shows an example of the causal relationship graph stored in the causal relationship memory | storage part shown in FIG. 図5に示した因果関係グラフをクラスタ化した一例を示す図である。It is a figure which shows an example which clustered the causal relationship graph shown in FIG. 図1に示した出力部に出力された事象推移予測入力画面C101の一例を示す図である。It is a figure which shows an example of the event transition prediction input screen C101 output to the output part shown in FIG. 図1に示した出力部に出力された事象推移予測結果画面C201の一例を示す図である。It is a figure which shows an example of the event transition prediction result screen C201 output to the output part shown in FIG. 図1に示した因果関係分析装置における因果関係抽出処理を説明するためのフローチャートである。It is a flowchart for demonstrating the causal relationship extraction process in the causal relationship analysis apparatus shown in FIG. 図1に示した因果関係分析装置における事象クラスタ生成処理を説明するためのフローチャートである。It is a flowchart for demonstrating the event cluster production | generation process in the causal relationship analysis apparatus shown in FIG. 図1に示した因果関係記憶部に格納されている因果関係グラフの一例を示す図である。It is a figure which shows an example of the causal relationship graph stored in the causal relationship memory | storage part shown in FIG. 図11に示した因果関係グラフにおけるクラスタリングスコアの計算例を示す図である。It is a figure which shows the example of calculation of the clustering score in the causal relationship graph shown in FIG. 図11に示した因果関係グラフにおけるクラスタリングスコアの計算例を示す図である。It is a figure which shows the example of calculation of the clustering score in the causal relationship graph shown in FIG. 図11に示した因果関係グラフにおけるクラスタリングスコアの計算例を示す図である。It is a figure which shows the example of calculation of the clustering score in the causal relationship graph shown in FIG. 図11に示した因果関係グラフにおけるクラスタリングスコアの計算例を示す図である。It is a figure which shows the example of calculation of the clustering score in the causal relationship graph shown in FIG. 図11に示した因果関係グラフにおけるクラスタリングスコアの計算例を示す図である。It is a figure which shows the example of calculation of the clustering score in the causal relationship graph shown in FIG. 図1に示した因果関係分析装置における事象推移予測処理を説明するためのフローチャートである。It is a flowchart for demonstrating the event transition prediction process in the causal relationship analysis apparatus shown in FIG. 図1に示した因果関係記憶部に格納されている因果関係グラフの一例を示す図である。It is a figure which shows an example of the causal relationship graph stored in the causal relationship memory | storage part shown in FIG. 本発明の因果関係分析装置の第2の実施の形態を示す図である。It is a figure which shows 2nd Embodiment of the causal relationship analysis apparatus of this invention. 図19に示したアラート生成部の動作を説明するためのフローチャートである。FIG. 20 is a flowchart for explaining the operation of the alert generator shown in FIG. 19. FIG. 本発明の因果関係分析装置の第3の実施の形態を示す図である。It is a figure which shows 3rd Embodiment of the causal relationship analysis apparatus of this invention.

符号の説明Explanation of symbols

1,2 因果関係分析装置
101 文書群記憶部
102 事象パタン記憶部
103 接続関係記憶部
104 因果関係記憶部
105 注目事象記憶部
106 予測結果記憶部
201 因果関係抽出部
202 クラスタ対象選択部
203 事象クラスタ評価部
204 事象推移予測部
205 アラート生成部
301,501 入力部
401,503 出力部
500 因果関係分析プログラム
502 データ処理装置
504 記憶装置
505 入力メモリ
506 ワークメモリ
DESCRIPTION OF SYMBOLS 1, 2 Causal relationship analyzer 101 Document group memory | storage part 102 Event pattern memory | storage part 103 Connection relation memory | storage part 104 Causal relation memory | storage part 105 Attention event memory | storage part 106 Prediction result memory | storage part 201 Causal relation extraction part 202 Cluster object selection part 203 Event cluster Evaluation unit 204 Event transition prediction unit 205 Alert generation unit 301, 501 Input unit 401, 503 Output unit 500 Causal relationship analysis program 502 Data processing device 504 Storage device 505 Input memory 506 Work memory

Claims (16)

自然言語で記述された文書である自然言語文から互いに異なる複数の事象間の因果関係を抽出する因果関係分析装置であって、
前記抽出された因果関係に対して、前記事象を構成する単語の一部が同一でかつ、共通の原因または結果事象を持つ事象群をクラスタリングの対象として選択するクラスタ対象選択部と、
前記クラスタリング対象の事象群の一部の事象だけに特定の因果関係を統合せずに、全ての事象で共通の因果関係のみを統合するデータ構造を持つ因果関係グラフを格納する因果関係記憶部と、
前記因果関係を示す因果関係グラフの構造の複雑さをクラスタリングスコアとして数値化し、前記クラスタリングスコアが最小となるように前記クラスタ対象選択部によって選択された事象群をクラスタリングする事象クラスタ評価部とを有し、
前記事象クラスタ評価部は、クラスタ化されたノード群の一部だけに特定の原因または結果からのエッジがある場合は、クラスタ化された事象ではなく、クラスタ内の事象に直接リンクさせ、接点ノード数とエッジ数とノード内エッジ数とに基づいて計算したクラスタリングスコアが最小になるようにクラスタリングする因果関係分析装置。
A causal relationship analyzer for extracting a causal relationship between a plurality of different events from a natural language sentence that is a document described in a natural language,
For the extracted causal relationship, a cluster target selection unit that selects, as a clustering target, an event group in which a part of words constituting the event is the same and has a common cause or result event;
A causal relationship storage unit that stores a causal relationship graph having a data structure that integrates only common causal relationships in all events, without integrating specific causal relationships only to some of the events of the clustered event group; ,
An event cluster evaluation unit that digitizes the complexity of the structure of the causal relationship graph indicating the causal relationship as a clustering score and clusters the event group selected by the cluster target selection unit so that the clustering score is minimized. And
When the event cluster evaluation unit has an edge from a specific cause or result in only a part of the clustered nodes, the event cluster evaluation unit directly links to the event in the cluster instead of the clustered event, A causal relationship analyzer that performs clustering so that the clustering score calculated based on the number of nodes, the number of edges, and the number of edges in a node is minimized .
請求項に記載の因果関係分析装置において、
前記文書データを格納した文書群記憶部と、
前記事象の表現パタンを、単語属性の組み合わせパタンとして記憶した事象パタン記憶部と、
互いに異なる複数の事象間に因果関係があるか否かを特徴付ける接続表現と該接続表現よって決定される因果関係とを記憶した接続関係記憶部と、
前記文書を形態素解析し、前記表現パタンと接続表現とを使って因果関係を抽出する因果関係抽出部とを有し、
前記クラスタ対象選択部は、前記因果関係抽出部によって抽出された因果関係に対して、因果表現を構成する単語の一部が共通でかつ、共通の原因または結果事象を持つ事象群をクラスタリング対象として選択することを特徴とする因果関係分析装置。
In the causal relationship analysis apparatus according to claim 1 ,
A document group storage unit storing the document data;
An event pattern storage unit that stores the expression pattern of the event as a combination pattern of word attributes;
A connection relation storage unit storing a connection expression that characterizes whether or not there is a causal relationship between a plurality of different events, and a causal relation determined by the connection expression;
A causal relationship extraction unit that performs morphological analysis of the document and extracts a causal relationship using the expression pattern and the connection expression;
The cluster target selection unit sets a group of events having a common cause or effect event as a clustering target for a part of words constituting a causal expression with respect to the causal relationship extracted by the causal relationship extraction unit. A causal relationship analyzer characterized by selecting.
請求項に記載の因果関係分析装置において、
前記因果関係記憶部から対応する因果関係グラフを検索し、検索された因果関係グラフを再帰的にたどりながら事象推移を予測する事象推移予測部を有することを特徴とする因果関係分析装置。
In the causal relationship analysis apparatus according to claim 2 ,
A causal relationship analysis apparatus comprising: an event transition prediction unit that retrieves a corresponding causal relationship graph from the causal relationship storage unit and predicts an event transition while recursively tracing the retrieved causal relationship graph.
請求項に記載の因果関係分析装置において、
利用者が注目したい事象と注目する周期とを格納しておく注目事象記憶部と、
前記事象推移予測部にて予測された事象推移の予測結果を記憶する予測結果記憶部と、
前記注目事象記憶部に格納された周期にあわせて注目事象に関する事象推移予測を実行し、前回の予測結果と比較して相違点をアラートするアラート生成部とを有することを特徴とする因果関係分析装置。
In the causal relationship analysis apparatus according to claim 3 ,
An attention event storage unit that stores an event that the user wants to pay attention to and a period of attention;
A prediction result storage unit that stores a prediction result of the event transition predicted by the event transition prediction unit;
Causal relationship analysis, comprising: an alert generation unit that performs event transition prediction related to a noted event in accordance with the period stored in the noted event storage unit, and alerts a difference compared to a previous predicted result apparatus.
自然言語で記述された文書である自然言語文から互いに異なる複数の事象間の因果関係を抽出する因果関係分析方法であって、
クラスタ対象選択部が、前記事象を構成する単語の一部が同一でかつ、共通の原因または結果事象を持つ事象群をクラスタリングの対象として選択し、事象クラスタ評価部が、前記因果関係を示す因果関係グラフの構造の複雑さを数値化したクラスタリングスコアとして数値化し、前記クラスタリングスコアが最小となるように前記複数の事象をクラスタリングする事象クラスタ生成処理を有し、前記事象クラスタ生成処理は、前記事象クラスタ評価部が、クラスタ化されたノード群の一部だけに特定の原因または結果からのエッジがある場合は、クラスタ化された事象ではなく、クラスタ内の事象に直接リンクさせ、接点ノード数とエッジ数とノード内エッジ数とに基づいて計算したクラスタリングスコアが最小になるようにクラスタリングする因果関係分析方法。
A causal relationship analysis method that extracts a causal relationship between a plurality of different events from a natural language sentence that is a document described in a natural language,
The cluster target selection unit selects a group of events having the same cause or consequential event as part of the words constituting the event, and the event cluster evaluation unit indicates the causal relationship. quantified as digitized clustering scores the complexity of the structure of the causal graph, have a event cluster generating process the clustering scores are clustered plurality of events so as to minimize, the event cluster generating process, If the event cluster evaluator has an edge from a specific cause or result in only a part of the clustered nodes, the event cluster evaluator directly links to the event in the cluster instead of the clustered event. The clustering score is minimized so that the clustering score calculated based on the number of nodes, the number of edges, and the number of edges in the node is minimized. Causal relationship analysis how to.
請求項に記載の因果関係分析方法において、
因果関係抽出部が、前記自然言語文から形態素列、表層文字列または品詞列を元に事象を抽出し、互いに異なる複数の事象間に因果関係があるか否かを特徴付ける接続表現によって前記因果関係を決定する因果関係抽出処理と、
事象推移予測部が、前記因果関係グラフを再帰的にたどりながら事象推移を予測する事象推移予測処理とを有することを特徴とする因果関係分析方法。
In the causal relationship analysis method according to claim 5 ,
A causal relationship extraction unit extracts an event from the natural language sentence based on a morpheme string, a surface character string, or a part-of-speech string, and the causal relationship is characterized by a connection expression that characterizes whether there is a causal relationship between a plurality of different events. Causal relationship extraction processing for determining
A causal relationship analysis method , wherein the event transition prediction unit includes an event transition prediction process for predicting an event transition while recursively tracing the causal relationship graph.
請求項または請求項に記載の因果関係分析方法において、
前記事象クラスタ生成処理は、
前記クラスタ対象選択部が、全ての事象について、前記事象を構成する単語の一部が同一でかつ、共通の原因または結果事象を持つ事象群をクラスタリングの対象として選択するステップと、
前記事象クラスタ評価部が、前記クラスタリングの対象となった事象群の中で、前記事象を表現する事象表現の修飾語の全ての組み合わせについて頻出パタンを数え上げし、該頻出パタンをクラスタリング戦略として列挙するステップと、
前記事象クラスタ評価部が、前記列挙された各クラスタリング戦略を適用した場合の、前記因果関係グラフの構造の複雑さを計算するステップと、
前記事象クラスタ評価部が、前記因果関係グラフの構造が最も単純になるクラスタリング戦略を採用して因果関係のグラフ構造を更新するステップとを有することを特徴とする因果関係分析方法。
In the causal relationship analysis method of Claim 5 or Claim 6 ,
The event cluster generation process includes:
The cluster target selection unit selecting, as a clustering target, an event group in which a part of words constituting the event is the same and has a common cause or result event for all events;
The event cluster evaluation unit counts frequent patterns for all combinations of modifiers of event expressions that represent the events in the event group that is the target of clustering, and uses the frequent patterns as a clustering strategy. Enumerating steps;
Calculating the complexity of the structure of the causality graph when the event cluster evaluator applies each of the listed clustering strategies;
The event cluster evaluation unit includes a step of adopting a clustering strategy that makes the structure of the causal relation graph the simplest and updating the graph structure of the causal relation.
請求項に記載の因果関係分析方法において、
前記事象推移予測処理は、
前記事象推移予測部が、検索条件として入力された自然言語文を形態素分割して事象に変換するステップと、
前記事象推移予測部が、検索条件から変換された事象に該当する事象を前記因果関係グラフの中から検索するステップと、
前記事象推移予測部が、前記検索された事象から、クラスタ全体に共通の因果関係と一部の事象だけに特定の因果関係とを区別して、再帰的に因果関係にある事象を列挙するステップと、
前記事象推移予測部が、列挙された事象の推移スコアを前記事象間においてエッジに設定された出現頻度の合計と予め設定された前記事象間の推移コストと結果事象の次数とに基づいて求め、前記推移スコアの高い順にソートして表示するステップとを有することを特徴とする因果関係分析方法。
In the causal relationship analysis method of Claim 6 ,
The event transition prediction process includes:
The event transition prediction unit converts a natural language sentence input as a search condition into an event by dividing the morpheme, and
The event transition prediction unit searching the event corresponding to the event converted from the search condition from the causal relationship graph;
The event transition predicting unit distinguishes a causal relationship common to the entire cluster and a specific causal relationship only for a part of events from the retrieved events, and recursively lists events that are causal When,
The event transition prediction unit, based on the transition score of enumerated events, the total appearance frequency set at the edge between the events, the transition cost between the events set in advance and the order of the result event And a step of sorting and displaying in descending order of the transition score.
請求項に記載の因果関係分析方法において、
アラート生成部が、予め設定された周期で定期的に注目事象に関する事象推移予測を実行し、前回の予測結果からの変化を検出した場合に利用者に通知するアラート生成処理を有することを特徴とする因果関係分析方法。
In the causal relationship analysis method of Claim 6 ,
The alert generation unit has an alert generation process that periodically performs event transition prediction on a noticeable event at a preset period and notifies a user when a change from the previous prediction result is detected. Causal relationship analysis method.
請求項に記載の因果関係分析方法において、
前記アラート生成処理は、
前記アラート生成部が、予め利用者から指定された注目事象について、定期的に事象推移予測を行うステップと、
前記アラート生成部が、前回の事象推移予測結果と比較することにより、変化を検知するステップと、
前記アラート生成部が、変化が検知された場合に、利用者にアラートとして通知するステップと、
前記アラート生成部が、事象推移予測結果を保存するステップとを有することを特徴とする因果関係分析方法。
In the causal relationship analysis method according to claim 9 ,
The alert generation process includes:
The alert generation unit periodically performs event transition prediction for the attention event designated in advance by the user;
The alert generation unit detects a change by comparing with a previous event transition prediction result;
The alert generating unit notifying the user as an alert when a change is detected; and
The alert generation unit has a step of storing an event transition prediction result.
自然言語で記述された文書である自然言語文から互いに異なる複数の事象間の因果関係を抽出するためにコンピュータを
前記事象を構成する単語の一部が同一でかつ、共通の原因または結果事象を持つ事象群をクラスタリングの対象として選択する手段、前記因果関係を示す因果関係グラフの構造の複雑さを数値化したクラスタリングスコアとして数値化する手段、前記クラスタリングスコアが最小となるように前記複数の事象をクラスタリングする手段、およびクラスタ化されたノード群の一部だけに特定の原因または結果からのエッジがある場合は、クラスタ化された事象ではなく、クラスタ内の事象に直接リンクさせ、接点ノード数とエッジ数とノード内エッジ数とに基づいて計算したクラスタリングスコアが最小になるようにクラスタリングする手段として機能させるためのプログラム。
In order to extract causal relationships between multiple different events from natural language sentences, which are documents written in natural language,
Means for selecting, as a clustering target, an event group in which a part of the words constituting the event are the same and having a common cause or effect event, and the complexity of the structure of the causal relationship graph indicating the causal relationship is quantified A means for digitizing the obtained clustering score, a means for clustering the plurality of events so that the clustering score is minimized , and an edge from a specific cause or result in only a part of the clustered nodes Is not a clustered event, but directly links to an event in the cluster and functions as a means of clustering so that the clustering score calculated based on the number of contact nodes, the number of edges, and the number of edges in the node is minimized program for.
請求項11に記載のプログラムにおいて、
前記自然言語文から形態素列、表層文字列または品詞列を元に事象を抽出し、互いに異なる複数の事象間に因果関係があるか否かを特徴付ける接続表現によって前記因果関係を決定する手段と、
前記因果関係グラフを再帰的にたどりながら事象推移を予測する手段として前記コンピュータを機能させるためのプログラム。
The program according to claim 11 ,
Means for extracting an event from the natural language sentence based on a morpheme string, a surface character string, or a part-of-speech string, and determining the causal relationship by a connection expression that characterizes whether there is a causal relationship between a plurality of different events;
A program for causing the computer to function as means for predicting event transition while recursively tracing the causal relationship graph.
請求項11または請求項12に記載のプログラムにおいて、
全ての事象について、前記事象を構成する単語の一部が同一でかつ、共通の原因または結果事象を持つ事象群をクラスタリングの対象として選択する手段と、
前記クラスタリングの対象となった事象群の中で、前記事象を表現する事象表現の修飾語の全ての組み合わせについて頻出パタンを数え上げし、該頻出パタンをクラスタリング戦略として列挙する手段と、
前記列挙された各クラスタリング戦略を適用した場合の、前記因果関係グラフの構造の複雑さを計算する手段と、
前記因果関係グラフ構造が最も単純になるクラスタリング戦略を採用して因果関係のグラフ構造を更新する手段として前記コンピュータを機能させるためのプログラム。
In the program according to claim 11 or 12 ,
Means for selecting, as a clustering target, an event group in which some of the words constituting the event are the same and have a common cause or effect event for all events;
Among the target becomes event group of the clustering to enumerate frequent pattern for all combinations of modifiers event representation to represent the event, and means listed the該頻output pattern as clustering strategy,
Means for calculating the complexity of the structure of the causal graph when applying each of the listed clustering strategies;
A program for causing the computer to function as a means for updating a causal relationship graph structure by adopting a clustering strategy that makes the causal relationship graph structure simplest.
請求項12記載のプログラムにおいて、
検索条件として入力された自然言語文を形態素分割して事象に変換する手段と、
検索条件から変換された事象に該当する事象を前記因果関係グラフの中から検索する手段と、
前記検索された事象から、クラスタ全体に共通の因果関係と一部の事象だけに特定の因果関係とを区別して、再帰的に因果関係にある事象を列挙する手段と、
列挙された事象の推移スコアを前記事象間においてエッジに設定された出現頻度の合計と予め設定された前記事象間の推移コストと結果事象の次数とに基づいて求め、前記推移スコアの高い順にソートして表示する手段として前記コンピュータを機能させるためのプログラム。
The program according to claim 12 ,
Means for converting a natural language sentence input as a search condition into an event by dividing it into morphemes;
Means for searching the causal relationship graph for an event corresponding to an event converted from the search condition;
A means for recursively enumerating causal events by distinguishing from the retrieved events a causal relationship common to the entire cluster and a specific causal relationship only for some events;
The transition score of the enumerated events is obtained based on the total appearance frequency set at the edge between the events, the transition cost between the events set in advance and the order of the result event, and the transition score is high A program for causing the computer to function as means for sorting and displaying in order.
請求項12に記載のプログラムにおいて、
予め設定された周期で定期的に注目事象に関する事象推移予測を実行し、前回の予測結果からの変化を検出した場合に利用者に通知する手段として前記コンピュータを機能させるためのプログラム。
The program according to claim 12 ,
A program for causing the computer to function as means for performing event transition prediction on a noticeable event periodically at a preset period and notifying a user when a change from the previous prediction result is detected.
請求項15に記載のプログラムにおいて、
予め利用者から指定された注目事象について、定期的に事象推移予測を行う手段と、
前回の事象推移予測結果と比較することにより、変化を検知する手段と、
変化が検知された場合に、利用者にアラートとして通知する手段と、
事象推移予測結果を保存する手段として前記コンピュータを機能させるためのプログラム。
The program according to claim 15 , wherein
A means for periodically predicting event transitions for attention events specified in advance by the user,
A means for detecting changes by comparing with the previous event transition prediction results;
A means to notify the user as an alert when a change is detected;
A program for causing the computer to function as means for storing an event transition prediction result.
JP2007036414A 2007-02-16 2007-02-16 Causal relationship analysis apparatus, causal relationship analysis method, and program Active JP4935405B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007036414A JP4935405B2 (en) 2007-02-16 2007-02-16 Causal relationship analysis apparatus, causal relationship analysis method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007036414A JP4935405B2 (en) 2007-02-16 2007-02-16 Causal relationship analysis apparatus, causal relationship analysis method, and program

Publications (2)

Publication Number Publication Date
JP2008203964A JP2008203964A (en) 2008-09-04
JP4935405B2 true JP4935405B2 (en) 2012-05-23

Family

ID=39781442

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007036414A Active JP4935405B2 (en) 2007-02-16 2007-02-16 Causal relationship analysis apparatus, causal relationship analysis method, and program

Country Status (1)

Country Link
JP (1) JP4935405B2 (en)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5404575B2 (en) * 2010-10-04 2014-02-05 日本電信電話株式会社 EXPERIENCE FACTOR RELATIONSHIP APPARATUS AND METHOD AND PROGRAM
JP5745932B2 (en) 2011-05-20 2015-07-08 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation Method, program, and system for reflecting operation on object which is image of mapping in graph data
JP5689361B2 (en) 2011-05-20 2015-03-25 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation Method, program, and system for converting a part of graph data into a data structure that is an image of a homomorphic map
JP5834883B2 (en) * 2011-12-20 2015-12-24 日本電気株式会社 Causal relation summarizing method, causal relation summarizing apparatus, and causal relation summarizing program
US9529935B2 (en) * 2014-02-26 2016-12-27 Palo Alto Research Center Incorporated Efficient link management for graph clustering
WO2015182072A1 (en) * 2014-05-30 2015-12-03 日本電気株式会社 Causal structure estimation system, causal structure estimation method and program recording medium
JP5962736B2 (en) * 2014-10-30 2016-08-03 日本電気株式会社 Information processing system, classification method, and program therefor
EP3230869A4 (en) 2014-12-09 2018-08-08 Entit Software LLC Separating test verifications from test executions
JP6523799B2 (en) * 2015-06-05 2019-06-05 株式会社日立システムズ Information analysis system, information analysis method
JP2017146734A (en) * 2016-02-16 2017-08-24 株式会社日立製作所 Method for simplifying network chart
US20210004541A1 (en) * 2018-03-02 2021-01-07 Nippon Telegraph And Telephone Corporation Learning device of phrase generation model, phrase generation device, method, and program
CN111460132B (en) * 2020-03-10 2021-08-10 哈尔滨工业大学 Generation type conference abstract method based on graph convolution neural network
CN111324643A (en) * 2020-03-30 2020-06-23 北京百度网讯科技有限公司 Knowledge graph generation method, relation mining method, device, equipment and medium

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05100855A (en) * 1991-08-13 1993-04-23 Ricoh Co Ltd Knowledge base and its construction device
JPH11250085A (en) * 1998-03-02 1999-09-17 Nippon Telegr & Teleph Corp <Ntt> Event transition estimating method and record medium recording event transition estimation program
JP2004126641A (en) * 2002-09-30 2004-04-22 Toshiba Corp Causal relation model generation method and device, cause estimation method and device and data structure

Also Published As

Publication number Publication date
JP2008203964A (en) 2008-09-04

Similar Documents

Publication Publication Date Title
JP4935405B2 (en) Causal relationship analysis apparatus, causal relationship analysis method, and program
KR101793222B1 (en) Updating a search index used to facilitate application searches
US7657546B2 (en) Knowledge management system, program product and method
Debnath et al. Automatic identification of informative sections of web pages
JP4241934B2 (en) Text processing and retrieval system and method
JP5224868B2 (en) Information recommendation device and information recommendation method
KR101078864B1 (en) The query/document topic category transition analysis system and method and the query expansion based information retrieval system and method
KR101114023B1 (en) Content propagation for enhanced document retrieval
Crescenzi et al. Clustering web pages based on their structure
US20060288275A1 (en) Method for classifying sub-trees in semi-structured documents
WO2009096523A1 (en) Information analysis device, search system, information analysis method, and information analysis program
JP2005122295A (en) Relationship figure creation program, relationship figure creation method, and relationship figure generation device
JP2004005667A (en) System and method which grade, estimate and sort reliability about document in huge heterogeneous document set
JP2003114906A (en) Meta-document managing system equipped with user definition validating personality
US20100138414A1 (en) Methods and systems for associative search
JP4769151B2 (en) Document set analysis apparatus, document set analysis method, program implementing the method, and recording medium storing the program
CN110705288A (en) Big data-based public opinion analysis system
KR20060132591A (en) Retrieving information items from a data storage
JP3612914B2 (en) Structured document search apparatus and structured document search method
KR101229401B1 (en) System for Integrating Heterogeneous Web Information and Method of The Same
JP2005339419A (en) Web page evaluation system and web page evaluation method
JP5368900B2 (en) Information presenting apparatus, information presenting method, and program
JP2010198278A (en) Apparatus, method, and program for classification of reputation information
JP3743204B2 (en) Data analysis support method and apparatus
Jiang et al. Personalized Recommendation Method of E-commerce Based on Fusion Technology of Smart Ontology and Big Data Mining

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111025

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120124

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120206

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150302

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4935405

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150