JP2008203964A - 因果関係分析装置、因果関係分析方法及びプログラム - Google Patents

因果関係分析装置、因果関係分析方法及びプログラム Download PDF

Info

Publication number
JP2008203964A
JP2008203964A JP2007036414A JP2007036414A JP2008203964A JP 2008203964 A JP2008203964 A JP 2008203964A JP 2007036414 A JP2007036414 A JP 2007036414A JP 2007036414 A JP2007036414 A JP 2007036414A JP 2008203964 A JP2008203964 A JP 2008203964A
Authority
JP
Japan
Prior art keywords
event
causal relationship
events
clustering
causal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007036414A
Other languages
English (en)
Other versions
JP4935405B2 (ja
Inventor
Hidenori Kawai
英紀 河合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007036414A priority Critical patent/JP4935405B2/ja
Publication of JP2008203964A publication Critical patent/JP2008203964A/ja
Application granted granted Critical
Publication of JP4935405B2 publication Critical patent/JP4935405B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】事象間の正しい因果関係を保ちつつ、複数の事象をクラスタリングすることによって、因果関係ネットワークを分かりやすく要約させる。
【解決手段】自然言語で記述された文書である自然言語文から抽出された互いに異なる複数の事象間の因果関係に対して、事象を構成する単語の一部が同一でかつ、共通の原因または結果事象を持つ事象群がクラスタ対象選択部202にてクラスタリングの対象として選択され、クラスタリング対象の事象全てで共通の因果関係のみが統合されるデータ構造を持つ因果関係グラフが因果関係記憶部104に格納され、因果関係グラフの構造の複雑さがクラスタリングスコアとして数値化され、クラスタリングスコアが最小となるようにクラスタ対象選択部202によって選択された事象群が事象クラスタ評価部203にてクラスタリングされる。
【選択図】図1

Description

本発明は、因果関係分析装置、因果関係分析方法及びプログラムに関し、特に、適切な因果関係を保ったまま、関連する事象をクラスタリングすることができる因果関係分析装置、因果関係分析方法及びプログラムに関する。
因果関係に関する知識は、人間の持つ知能的な処理をコンピューターに理解させる上で必須であり、質問応答システムや対話システムなど幅広いアプリケーションへの適用の可能性がある。因果知識を扱うシステムの例として、エキスパートシステムが挙げられる。従来のエキスパートシステムでは、専門家の持っている因果関係に関する知識を、知識ベースとしてデータベース化し、それを用いて病気の診断や発電所の故障診断を行ったりすることができる。このデータベース化の作業は、主に人手に頼っており、膨大な労力と時間が必要になるという問題点がある。
これに対して、Web等に蓄積された大量の電子化文書から因果知識を自動抽出する技術が考えられている(例えば、特許文献1参照。)。
特許文献1に記載された発明によれば、格フレームを用いて自然言語文の入力文書群から事象を抽出し、事象同士に挟まれた接続詞を手がかりに事象間の因果関係を抽出することができる。また、抽出された格フレームが表す事象をノード、因果関係をエッジとして因果知識グラフを構築することができる。また、自然言語文を入力として受け付け、入力文に対応する格フレームを因果知識グラフから検索し、検索されたノードとエッジを介して接続される各ノードを列挙することによって、次に起こりうる事象を推定することができる。
このように、自然言語文から因果知識を自動抽出する際には、事象を表現する言葉の揺らぎをうまくまとめる必要がある。特許文献1の発明では、格フレームにおける単語のまとめ方を事前にユーザーが決めることによって、「私は大学病院に行く」という表現を「(主体)が(場所)に行く」「(主体)が(病院)に行く」あるいは「(主体)が(教育機関)に行く」のように、任意の抽象度で整理することができる。
また、因果関係を表現する対象システムを限定することによって、事象間の階層関係を吸収する技術が考えられている(例えば、特許文献2参照。)。
特許文献2に記載された発明によれば、予めそのシステムの構成要素の階層関係を人手で構築しておくことによって、同一とみなすべき事象をまとめることができる。例えば、自動車の構成部品を「燃料系統」と「電気系統」に分け、さらに「電気系統」の構成要素として「ヘッドライト」「車幅ランプ」という包含関係を事前に階層構造として与えておく。このとき、「ヘッドライトの破損」と「車幅ランプの減灯」はいずれも「電気系統の故障」であるとまとめることができる。
また、自然言語文の表現のゆらぎを吸収しながらテキスト集合から特徴的な表現を抽出する技術が考えられている(例えば、非特許文献1参照。)。
非特許文献1に記載された技術によれば、自然言語文を構文解析した結果の構文木を無順序木と見なし、頻出する木構造を数え上げることによって、「メールを社外に送る」「社外にメールを送る」「社外に送ったメール」のような表現のゆらぎを同一とみなして頻出パタンを抽出することができる。
特開平11−250085号公報 特開2004−126641号公報 森永聡、有村博紀、池田崇博、坂尾要祐、赤峯享:"部分順序木枚挙を利用した特徴無順序木/自由木構造抽出"、第7回情報論敵学習理論ワークショップ(IBIS2004)予稿集,pp106−111,2004
しかしながら、上述したような従来の技術においては以下に示す問題点がある。
第1の問題点は、自然言語文から自動抽出した事象の表現のゆらぎを吸収して抽象化する際に、利用者が適切な事象のまとめ方を事前に決定することが困難であるということである。例えば、特許文献1の発明では、「私は大学病院に行く」という表現の抽象化の方法として、「(主体)が(場所)に行く」「(主体)が(病院)に行く」、あるいは「(主体)が(教育機関)に行く」のいずれを選択するのが適切であるかは自明ではない。例えば、「私は怪我をした」の結果事象として「私は大学病院に行く」が存在する場合、「(主体)が(病院)に行く」と抽象化することは差し支えないが、「(主体)が(教育機関)に行く」と抽象化してしまうと、不適切な因果関係になってしまう。このように、適切な抽象化の方法は前後の因果関係によって変わってくるが、特許文献1の発明では、抽象化の良し悪しを決定する基準がない。
第2の問題点は、表現の異なる事象を抽象化してまとめることによって元々接続関係にない事象同士がつながり、不適切な推論を行ってしまう可能性があることである。例えば、特許文献1に記載された発明では、「私は大学病院に行く」と「私は遊園地に行く」を両方とも「(主体)が(場所)に行く」と抽象化して一つのノードにすることができる。しかし、この抽象化によって「私は怪我をした」という病院に行く原因となる事象と「私はジェットコースターに乗る」という遊園地に行った結果となる事象が、「(主体)が(場所)に行く」という事象を介してつながってしまう可能性がある。このような状態で事象の推移を推論すると、「(主体)が怪我をした⇒(主体)が(場所)に行く⇒(主体)はジェットコースターに乗る」のような、不適切な事象の推移を導き出してしまう可能性がある。これは、特許文献1に記載された発明には、どの事象同士が抽象化可能であるかを判断する手段が存在せず、まったく関係の無い事象同士をも抽象化してまとめてしまう可能性があるからである。また、正しい因果関係を保持したまま事象を抽象化できるデータ構造、および、部分的に抽象化されたデータ構造を使って事象推移を推論する手段がないことも原因である。
これら第1及び第2の問題点に対して、適切な抽象度によるクラスタリングを行うために、特許文献2に記載されているような、構成要素間の階層関係の知識を予め人手で構築するアプローチでは、特定ドメインに限定された因果関係しか扱うことができない問題がある。その理由は、階層関係の知識の構築には人手による作業コストが膨大になるため、予め対象とするドメインを限定しなければならないからである。
また、構成要素間の階層知識を人手で構築する代わりに、非特許文献1に示される技術を応用して、頻出パタンを基準にノードのクラスタリングを行ったとしても、第2の問題点と同様、不適切な推論の問題が生ずることになる。例えば、「液晶テレビの販売台数が増加」「洗濯機の販売台数が増加」「エアコンの販売台数が増加」という3つの異なる事象があった場合に、頻出パタンである「販売台数が増加」という表現を基準にクラスタ化し、1つの事象にまとめたとする。このとき、「ワールドカップが開催された」という事象は、「液晶テレビの販売台数が上昇」という事象に独自の原因事象であるが、クラスタ化された事象「販売台数が増加」と関係づけてしまうと、「ワールドカップが開催される⇒洗濯機の販売台数が増加」といった不適切な推論がなされてしまう。その理由は、第2の問題点の理由と同じである。
本発明は、上述したような従来の技術が有する問題点に鑑みてなされたものであって、予め事象間の階層関係が与えられていなくても、正しい因果関係を保ちつつ、複数の事象をクラスタリングすることによって、因果関係ネットワークを分かりやすく要約させることができる因果関係分析装置、因果関係分析方法及びプログラムを提供する目的とする。
上記目的を達成するために本発明は、
因果関係分析装置であって、互いに異なる複数の事象間の因果関係を示す因果関係グラフの構造の複雑さをクラスタリングスコアとして数値化し、前記クラスタリングスコアが最小となるように複数の前記事象をクラスタリングする。
また、前記クラスタリングスコアを、接点ノード数とエッジ数とノード内エッジ数とに基づいて計算することを特徴とする。
また、互いに異なる複数の事象において、一部の事象だけに特定の因果関係を統合せずに、全ての事象で共通の因果関係のみを統合するデータ構造を持つ。
また、自然言語で記述された文書である自然言語文から互いに異なる複数の事象間の因果関係を抽出する因果関係分析装置であって、
前記抽出された因果関係に対して、前記事象を構成する単語の一部が同一でかつ、共通の原因または結果事象を持つ事象群をクラスタリングの対象として選択するクラスタ対象選択部と、
前記クラスタリング対象の事象群の一部の事象だけに特定の因果関係を統合せずに、全ての事象で共通の因果関係のみを統合するデータ構造を持つ因果関係グラフを格納する因果関係記憶部と、
前記因果関係を示す因果関係グラフの構造の複雑さをクラスタリングスコアとして数値化し、前記クラスタリングスコアが最小となるように前記クラスタ対象選択部によって選択された事象群をクラスタリングする事象クラスタ評価部とを有する。
また、前記文書データを格納した文書群記憶部と、
前記事象の表現パタンを、単語属性の組み合わせパタンとして記憶した事象パタン記憶部と、
互いに異なる複数の事象間に因果関係があるか否かを特徴付ける接続表現と該接続表現よって決定される因果関係とを記憶した接続関係記憶部と、
前記文書を形態素解析し、前記表現パタンと接続表現とを使って因果関係を抽出する因果関係抽出部とを有し、
前記クラスタ対象選択部は、前記因果関係抽出部によって抽出された因果関係に対して、因果表現を構成する単語の一部が共通でかつ、共通の原因または結果事象を持つ事象群をクラスタリング対象として選択することを特徴とする。
また、前記因果関係記憶部から対応する因果関係グラフを検索し、検索された因果関係グラフを再帰的にたどりながら事象推移を予測する事象推移予測部を有することを特徴とする。
また、利用者が注目したい事象と注目する周期とを格納しておく注目事象記憶部と、
前記事象推移予測部にて予測された事象推移の予測結果を記憶する予測結果記憶部と、
前記注目事象記憶部に格納された周期にあわせて注目事象に関する事象推移予測を実行し、前回の予測結果と比較して相違点をアラートするアラート生成部とを有することを特徴とする。
また、自然言語で記述された文書である自然言語文から互いに異なる複数の事象間の因果関係を抽出する因果関係分析方法であって、
前記事象を構成する単語の一部が同一でかつ、共通の原因または結果事象を持つ事象群をクラスタリングの対象として選択し、前記因果関係を示す因果関係グラフの構造の複雑さを数値化したクラスタリングスコアとして数値化し、前記クラスタリングスコアが最小となるように前記複数の事象をクラスタリングする事象クラスタ生成処理を有する。
また、前記自然言語文から形態素列、表層文字列または品詞列を元に事象を抽出し、互いに異なる複数の事象間に因果関係があるか否かを特徴付ける接続表現によって前記因果関係を決定する因果関係抽出処理と、
前記因果関係グラフを再帰的にたどりながら事象推移を予測する事象推移予測処理とを有することを特徴とする。
また、前記事象クラスタ処理は、
全ての事象について、前記事象を構成する単語の一部が同一でかつ、共通の原因または結果事象を持つ事象群をクラスタリングの対象として選択するステップと、
前記クラスタリングの対象となった事象群の中で、前記事象を表現する事象表現の修飾語の全ての組み合わせについて頻出パタンを数え上げし、該頻出パタンをクラスタリング戦略として列挙するステップと、
前記列挙された各クラスタリング戦略を適用した場合の、前記因果関係グラフの構造の複雑さを計算するステップと、
前記因果関係グラフの構造が最も単純になるクラスタリング戦略を採用して因果関係のグラフ構造を更新するステップとを有することを特徴とする。
また、前記事象推移予測処理は、
検索条件として入力された自然言語文を形態素分割して事象に変換するステップと、
検索条件から変換された事象に該当する事象を前記因果関係グラフの中から検索するステップと、
前記検索された事象から、クラスタ全体に共通の因果関係と一部の事象だけに特定の因果関係とを区別して、再帰的に因果関係にある事象を列挙するステップと、
列挙された事象の推移スコアを前記事象間においてエッジに設定された出現頻度の合計と予め設定された前記事象間の推移コストと結果事象の次数とに基づいて求め、前記推移スコアの高い順にソートして表示するステップとを有することを特徴とする。
また、自然言語で記述された文書である自然言語文から事象間の因果関係を抽出する因果関係分析方法であって、
入力画面を通じて指定された、検索条件となる事象を自然言語文と、検索対象となる事象の推移の範囲である次数と、推移予測の方向とに基づいて、因果関係にある原因または結果の推移のリストを、前記事象間においてエッジに設定された出現頻度の合計と予め設定された前記事象間の推移コストと結果事象の次数とに基づいて求められた推移スコアの高い順に並べて表示するステップを有する。
また、予め設定された周期で定期的に注目事象に関する事象推移予測を実行し、前回の予測結果からの変化を検出した場合に利用者に通知するアラート生成処理を有することを特徴とする。
また、前記アラート生成処理は、
予め利用者から指定された注目事象について、定期的に事象推移予測を行うステップと、
前回の事象推移予測結果と比較することにより、変化を検知するステップと、
変化が検知された場合に、利用者にアラートとして通知するステップと、
事象推移予測結果を保存するステップとを有することを特徴とする。
また、自然言語で記述された文書である自然言語文から互いに異なる複数の事象間の因果関係を抽出するプログラムあって、
前記事象を構成する単語の一部が同一でかつ、共通の原因または結果事象を持つ事象群をクラスタリングの対象として選択し、前記因果関係を示す因果関係グラフの構造の複雑さを数値化したクラスタリングスコアとして数値化し、前記クラスタリングスコアが最小となるように前記複数の事象をクラスタリングする手順をコンピュータに実行させる。
また、前記自然言語文から形態素列、表層文字列または品詞列を元に事象を抽出し、互いに異なる複数の事象間に因果関係があるか否かを特徴付ける接続表現によって前記因果関係を決定する手順と、
前記因果関係グラフを再帰的にたどりながら事象推移を予測する手順とをコンピュータに実行させることを特徴とする。
また、全ての事象について、前記事象を構成する単語の一部が同一でかつ、共通の原因または結果事象を持つ事象群をクラスタリングの対象として選択する手順と、
前記クラスタリングの対象となった事象群の中で、前記事象を表現する事象表現の修飾語の全ての組み合わせについて頻出パタンを数え上げし、該頻出パタンをクラスタリング戦略として列挙する手順と、
前記列挙された各クラスタリング戦略を適用した場合の、前記因果関係グラフの構造の複雑さを計算する手順と、
前記因果関係グラフ構造が最も単純になるクラスタリング戦略を採用して因果関係のグラフ構造を更新する手順とをコンピュータに実行させることを特徴とする。
また、検索条件として入力された自然言語文を形態素分割して事象に変換する手順と、
検索条件から変換された事象に該当する事象を前記因果関係グラフの中から検索する手順と、
前記検索された事象から、クラスタ全体に共通の因果関係と一部の事象だけに特定の因果関係とを区別して、再帰的に因果関係にある事象を列挙する手順と、
列挙された事象の推移スコアを前記事象間においてエッジに設定された出現頻度の合計と予め設定された前記事象間の推移コストと結果事象の次数とに基づいて求め、前記推移スコアの高い順にソートして表示する手順とをコンピュータに実行させることを特徴とする。
また、予め設定された周期で定期的に注目事象に関する事象推移予測を実行し、前回の予測結果からの変化を検出した場合に利用者に通知する手順とコンピュータに実行させることを特徴とする。
また、予め利用者から指定された注目事象について、定期的に事象推移予測を行う手順と、
前回の事象推移予測結果と比較することにより、変化を検知する手順と、
変化が検知された場合に、利用者にアラートとして通知する手順と、
事象推移予測結果を保存する手順とをコンピュータに実行させることを特徴とする。
上記のように構成された本発明においては、互いに異なる複数の事象間の因果関係を示す因果関係グラフの構造の複雑さがクラスタリングスコアとして数値化され、数値化されたクラスタリングスコアが最小となるように複数の事象がクラスタリングされる。
このため、簡潔な形の因果関係グラフに要約可能なクラスタリング方法を自動的に選択することができる。
以上説明したように本発明においては、互いに異なる複数の事象間の因果関係を示す因果関係グラフの構造の複雑さをクラスタリングスコアとして数値化し、数値化されたクラスタリングスコアが最小となるように複数の事象をクラスタリングする構成としたため、予め事象間の階層関係が与えられていなくても、正しい因果関係を保ちつつ、複数の事象をクラスタリングすることによって、因果関係ネットワークを分かりやすく要約させることができる。
以下に、本発明を実施するための最良の形態について図面を参照して詳細に説明する。
(第1の実施の形態)
図1は、本発明の因果関係分析装置の第1の実施の形態を示す図である。
本形態は図1に示すように、因果関係分析装置1と、キーボード等の入力部301と、ディスプレイ装置や印刷装置等の出力部401とを含む。なお、入力部301及び出力部401は、因果関係分析装置1の外部にケーブル等で接続されたものであっても良い。
因果関係分析装置1は、さらに、情報を記憶する文書群記憶部101と、事象パタン記憶部102と、接続関係記憶部103と、因果関係記憶部104と、プログラム制御により動作する因果関係抽出部201と、クラスタ対象選択部202と、事象クラスタ評価部203と、事象推移予測部204とを含む。
文書群記憶部101には、新聞記事や各種報告書、またはWebページなどに記述されている自然言語文の集合など、電子化された文書データが格納されている。
図2は、図1に示した文書群記憶部101に記憶された文書データの一例を示す図である。
図1に示した文書群記憶部101には図2に示すように、文書を識別するための文書識別情報である文書IDと自然言語で記述された文書とが対応付けられて文書データとして記憶されている。なお、文書データは、記事単位で1件の文書として登録する他にも、文単位で1件の文書として登録するなどの方法が考えられ、本実施の形態に示す方法に限定されない。また、文書データには、自然言語文以外にも、作者や日付のようなメタ情報が付与されていてもよく本実施の形態に示す方法に限定されない。また、文書記憶部101に記憶される文書データは静的でなくてもよく、データストリームのように、常に動的に追加・削除などの更新が行われていてもよく、本実施の形態に示す方法に限定されない。
事象パタン記憶部102には、どのような単語属性の組み合わせが事象表現を構成するかがルールとして記憶されている。ここで、事象とは、主語Sと、述語Vと、修飾語集合M=[m1, m2, ...]との組み合わせで表現できるものとする。また、単語属性とは、表層文字列である表記、動詞や形容詞の活用の原形、品詞、読み(ふりがな、仮名表記)、同義表現や送り仮名、ひらがなカタカナ表記の違いを吸収した代表表記、「地名」や「色名」などの意味分類などを含む。
図3は、図1に示した事象パタン記憶部102に記憶された事象パタンの一例を示す図である。
図3における「|」「?」「+」「*」「()」などの演算子の意味は、一般的な正規表現演算子の意味と同じである。また、単語属性は「[(属性):(値)]」として指定する。また、「=」は右辺のグループにマッチした文字列を左辺の変数に代入するが、「#」の右側のカッコ「()」で囲まれた文字列は変数に代入しないことを意味する。例えば、「国内のタクシーの交通量が増加した」という文字列を形態素解析すると「国内/名詞 の/助詞 タクシー/名詞 の/助詞 交通/名詞 量/名詞 が/助詞 増加/サ変名詞 し/動詞 た/助動詞」となるが、これは図3の事象パタンP001「M=([品詞:名詞]#([表記:の]|[表記:における])?)*S=([品詞:名詞]+)[表記:が]V=([品詞:サ変名詞]|[品詞:動詞])」にマッチし、「M={国内、タクシー}、S=交通量、V=増加」という事象が抽出されることになる。尚、一つの事象を構成する主語S、述語V、および修飾語集合Mは必ずしも全て必須というわけではなく、一部が空文字列であってもかまわない。また、本実施の形態では、入力文書が日本語による例について説明するが、入力文書が他の言語で記述されていてもよく、本実施の形態に述べる方法に限定されない。
接続関係記憶部103には、互いに異なる2つの事象間に因果関係があるか否かを特徴付ける接続表現と、原因・結果の順序関係(因果関係)とが記憶されている。
図4は、図1に示した接続関係記憶部103に格納されているデータの一例を示す図である。
図4に示すように、図1に示した接続関係記憶部103から、「に伴い」という接続表現では前件が原因、後件が結果の因果関係であることが分かる。一方、「その原因は」という接続表現では前件が結果、後件が原因の因果関係となることが分かる。
因果関係記憶部104には、文書記憶部101に格納された文書内で出現した因果関係とその出現頻度が因果関係グラフとして格納される。
図5は、図1に示した因果関係記憶部104に格納されている因果関係グラフの一例を示す図である。
図5では、事象をノードとし、事象間の因果関係がエッジとして表現されている。エッジには、同一の因果関係が何回出現したかの頻度情報が付与されている。図5を見ると、事象E101「ワールドカップが開催された」結果、事象E103「液晶テレビの販売台数が増加した」ことが文書データ中に12回出現していたことが分かる。
因果関係抽出部201は、文書記憶部101に登録されている文書データを1件ずつ読み出し、事象パタン記憶部102に登録されているルールと、事象関係記憶部103に登録されている接続表現を元に因果関係を抽出し、その結果を因果関係記憶部104に記憶する。
クラスタ対象選択部202は、因果関係記憶部104に登録されている各事象について、事象を構成している主語S及び述語Vが同一で、かつ、共通の原因または結果事象を持つ事象群を、クラスタ化の対象とすべきノード群として選択する。選択の基準として主語S及び述語Vだけでなく、共通の原因または結果事象を持つという条件を考慮するのは、クラスタリングによって因果関係のエッジを統合でき、グラフ構造が単純になる可能性が高い事象群に絞ってクラスタリングの検討を行うことができるからである。
事象クラスタ評価部203は、クラスタ対象選択部202によって限定された事象群におけるキーワードの頻出パタンに基づいてクラスタリング戦略を列挙し、因果関係を保ったままクラスタ化を行った場合に、どの程度因果関係のグラフ構造が単純化されるかをクラスタリングスコアとして計算して比較し、最も単純化が可能なクラスタリング戦略を実行し、因果関係記憶部104のデータを更新する。
なお、因果関係分析装置1は、コンピュータとして動作するCPUとメモリと入出力装置(入力部301及び出力部401)とから構成されたハードウェアと、後述する手順をCPUに実行させるプログラムにより実現される。図1において、文書群記憶部101、事象パタン記憶部102、接続関係記憶部103、及び因果関係記憶部104はハードディスクにより実現される。
図6は、図5に示した因果関係グラフをクラスタ化した一例を示す図である。
図6を見ると、3つの事象、E103「M={液晶テレビ}、S=販売台数、V=増加」、E104「M={洗濯機}、S=販売台数、V=増加」、およびE105「M={エアコン}、S=販売台数、V=増加」が事象E106「S=販売台数、V=増加」としてクラスタリングされている。また、図5では事象E102「S=価格、V=低下」から事象E103とE104とE105とにそれぞれ個別に張られていたエッジが、図6では、事象E102から事象E106へのエッジとしてまとめられ、出現頻度が合計されて22+12+16=50となっている。これにより、「価格が低下」したことを意味する事象E102を原因として、異なる3つの事象、E103とE104とE105とをまとめて「販売台数が増加する」という意味の事象E106を推論することができる。また、図6では、合計されている出現頻度の順序は、クラスタ化される前の事象の順序と一致させている。そのため、事象E102から事象E106内の個別の事象E103、E104、及びE105への推移が出現した頻度はそれぞれ22回、12回、及び16回であることが分かる。
一方、図6では、事象E101「S=ワールドカップ、V=開催」からのエッジはクラスタ化された事象E106ではなく、事象E103「M={液晶テレビ}、S=販売台数、V=増加」に張られたままである。そのため、「ワールドカップが開催された」ことを意味する事象E101を原因として、「洗濯機の販売台数が増加する」ことを意味する事象E104や、「エアコンの販売台数が増加する」ことを意味する事象E105を結果とする不適切な推論が行われないような構造になっている。
事象推移予測部204は、ユーザーから自然言語文による事象の入力を受け付け、因果関係記憶部104の中から対応する事象を検索し、その原因または結果として推移する可能性のある事象の一覧を出力する。
図7は、図1に示した出力部401に出力された事象推移予測入力画面C101の一例を示す図である。
図7では、テキスト入力フォームC102に、入力として「交通量が増加する」という事象が入力されている。また、予測範囲を示す次数制限フォームC103に2が指定されている。次数とは、事象の推移を予測する際に、入力された事象から何件まで因果関係をたどるかを指定する数である。この画面で、「結果を推測」ボタンC104が選択された場合は、入力事象を開始点として結果事象の方向に推移を予測する。また、「原因を推測」ボタンC105が選択された場合は、入力事象を開始点として原因事象の方向にさかのぼって推移を予測する。「結果を推測」ボタンC104または「原因を推測」ボタンC105の選択方法については、タッチパネルを押下することにより選択するものであっても良いし、カーソル移動によって選択するものであっても良いし、従来の画面上での選択方法と同様である。
図8は、図1に示した出力部401に出力された事象推移予測結果画面C201の一例を示す図である。
図8では、入力された事象「交通量が増加する」から推移する可能性のある結果事象が根拠となる中間ノードとともに示されている。図8を見ると、「交通量が増加する」直接の結果として「二酸化炭素の排出量が増加」「騒音被害が増加」「交通事故が増加」の3つの事象があることが分かる。さらに、「二酸化炭素の排出量が増加」することを根拠として「地球温暖化が加速」する結果に推移する可能性もあることが分かる。
以下に、図1に示した因果関係分析装置1の動作、つまり因果関係分析装置1における因果関係分析方法についてフローチャートを用いて説明する。
なお、本実施の形態における因果関係分析装置1の動作は大きく、因果関係抽出処理と、事象クラスタ生成処理と、事象推移予測処理の3つの処理に分割できる。以下に、説明を簡潔にするために、(1)因果関係抽出処理、(2)事象クラスタ生成処理、(3)事象推移予測処理の順序によって実行されることを想定した説明を行うが、必ずしもこれら3つの処理が全て一括で実行される必要はない。例えば、因果関係抽出処理と事象クラスタ生成処理とを定期的に実行して因果関係記憶部104の内容を最新状態に保ちつつ、利用者から要求があった場合のみ事象推移予測処理を実行するといった使い方をすることもできる。あるいは、文書群記憶部101の内容に変更があった場合にのみ因果関係抽出処理と事象クラスタ生成処理とを実行して、因果関係記憶部104の内容を更新するなどの利用方法も考えられ、本実施の形態に述べる方法に限定されない。
まず、因果関係抽出処理について説明する。
図9は、図1に示した因果関係分析装置1における因果関係抽出処理を説明するためのフローチャートである。
因果関係抽出部201は、文書群記憶部101から1件ずつ文書を読み出し、形態素解析を用いて文書を形態素に分割する(ステップS101)。次に、得られた形態素と品詞列に対して、事象パタン記憶部102に登録されている事象パタンを適用し、マッチする部分を事象として抽出する(ステップS102)。さらに、抽出された複数の事象の間に、接続関係記憶部103に登録されている接続表現がないかチェックし(ステップS103)、因果関係があると認められれば因果関係記憶部201に原因・結果の関係を保存する(ステップS104)。この時、同一の原因・結果の関係が因果関係記憶部201に登録されていれば、その出現頻度を1増やす。この処理を未処理の文書がなくなるまで繰り返す(ステップS105)。
なお、ここでは説明を簡潔にするため、因果関係抽出部201が文書群記憶部101から1件ずつ文書を読み出して処理する場合について述べたが、文書群記憶部101を持たずに、因果関係分析装置1に対して文書がデータストリーム状に逐次入力される場合も同様に処理することができ、本実施の形態に述べる方法に限定されない。この場合、データストリームとして文書が到着する度に因果関係記憶部104が逐次更新されることになる。
次に、事象クラスタ生成処理について説明する。
図10は、図1に示した因果関係分析装置1における事象クラスタ生成処理を説明するためのフローチャートである。また、図11は、図1に示した因果関係記憶部104に格納されている因果関係グラフの一例を示す図である。また、図12〜16は、図11に示した因果関係グラフにおけるクラスタリングスコアの計算例を示す図である。これらの図を参照しながら、事象クラスタ生成処理におけるクラスタリングがどのように行われるかを説明する。
クラスタ対象選択部202は、因果関係記憶部104に登録されている事象の中に、まだクラスタ化を検討していない事象があるかどうかを判断する(ステップS201)。
因果関係記憶部104に登録されている事象の中に、まだクラスタ化を検討していない事象がないと判断された場合、本処理は終了する。
また、因果関係記憶部104に登録されている事象の中に、まだクラスタ化を検討していない事象があると判断された場合は、まだクラスタ化を検討していない事象を1つ、ターゲットとしてピックアップする(ステップS202)。例えば、因果関係記憶部104に登録されている事象が図11に示したようになっており、事象E201をターゲット事象としてピックアップしたとする。
次に、クラスタ対象選択部202は、ターゲット事象と共通の原因または結果事象を持ち、かつ、事象を構成している主語S及び述語Vが同一である事象群を、クラスタ化の対象とすべきノード群として選択する(ステップS203)。事象E201については、同一の原因または結果事象を共有する他の事象はないため、図10のステップS201に戻る。
次に、事象E202をターゲット事象とすると、事象E203、事象E204、及び事象E205が同一の事象E201を原因事象として共有しており、主語S及び述語Vがいずれも「S=売上、V=増加」である。そこで、4つの事象E202、事象E203、事象E204、及び事象E205が、クラスタ化対象事象群として事象クラスタ評価部203に入力される(ステップS203)。
次に、事象クラスタ評価部203は、入力されたクラスタ化対象事象群における、修飾語群Mの組み合わせを変化させて、キーワードの頻出パタンを数え上げる。さらに、頻出パタンの全ての組み合わせによって、クラスタリング戦略を列挙する(ステップS204)。図11に示したデータの場合、修飾語群Mが空集合である組み合わせ「S=売上、V=増加」を含む事象が4つと最も多く、次に、「M={エアコン}、S=売上、V=増加」または「M={ビール}、S=売上、V=増加」を含む事象がそれぞれ2つずつ存在することが分かる。したがって、列挙されるクラスタリング戦略は以下の8通りとなる。
(戦略1)4つの事象E202、事象E203、事象E204、及び事象E205を「S=売上、V=増加」なる事象E208と抽象化してクラスタリングを行う。
(戦略2)2つの事象E202及び事象E203を、「M={エアコン}、S=売上、V=増加」なる事象E209と抽象化してクラスタリングを行う。
(戦略3)2つの事象E204及び事象E205を、「M={ビール}、S=売上、V=増加」なる事象E210と抽象化してクラスタリングを行う。
(戦略4)事象E208及び事象E209による抽象化を適用してクラスタリングを行う。
(戦略5)事象E208及び事象E210による抽象化を適用してクラスタリングを行う。
(戦略6)事象E209及び事象E210による抽象化を適用してクラスタリングを行う。
(戦略7)事象E208、事象E209、及び事象E210による抽象化を全て適用してクラスタリングを行う。
(戦略8)事象E208、事象E209、事象E210のいずれも適用しない。
次に、事象クラスタ評価部203は、各クラスタリング戦略を適用した場合のグラフ構造の複雑さを、クラスタリングスコアとして計算する(ステップS205)。この時、クラスタリング化された事象群に対するエッジは次のように更新する。
(更新ルール1)クラスタ化された事象群全てに共通の原因(または結果)となる事象があれば、その原因(または結果)事象からのエッジを1本に統合し、出現頻度を合計する。
(更新ルール2)クラスタ化されたノード群の一部だけに特定の原因(または結果)からのエッジがある場合は、クラスタ化された事象ではなく、クラスタ内の事象に直接リンクさせる。
また、クラスタリングスコアCSは、接点ノード数Nnとエッジ数Neとノード内エッジ数Nsとの3種類の数値を基準にして計算を行う。ここで、接点ノード数とは、因果関係を表すエッジの両端に直接接続されている事象ノードの数である。また、エッジ数とは、因果関係を表すエッジの数である。また、ノード内エッジ数とは、更新ルール2によって、クラスタ内の事象に直接リンクされているエッジの数である。本実施の形態では、クラスタリングスコアCSをNn*Ne*(Ns+1)として定義する。これは、単純な構造のグラフほどクラスタリングスコアCSが小さいことを意味しており、クラスタリングスコアCSが最小となるクラスタリング戦略を選択することによって、より単純なグラフ構造に要約することができる。ここで、Nsに1を加算しているのは、クラスタリングを行っていない場合はノード内エッジ数Nsがゼロであるため、クラスタリングスコアCSもゼロになってしまわないようにするための補正項である。
クラスタリング戦略1を適用した場合、図12に示すように、事象E202と事象E203と事象E204と事象E205とが「S=売上、V=増加」なる事象E208としてまとめられている。
さらに、更新ルール1により、図11では事象E201から事象E202、事象E203、事象E204、及び事象E205に個別に張られていたエッジが、図12では1本に統合され、出現頻度が合計されて11+13+12+21=57となっている。一方、事象E206へのエッジは事象E208内の全ての事象群が共有しているわけではないので、更新ルール2により、事象E202と事象E203とから直接リンクされている。また、事象E207へのエッジも、同様の理由により、事象E204と事象E205とから直接リンクされている。
図12では、エッジの両端に位置する事象ノードは、事象E201、事象E202、事象E203、事象E204、事象E205、事象E206、事象E207、及び事象E208の全てであるため、接点ノード数Nn=8となる。また、エッジ数Ne=5本である。さらに、クラスタ化された事象E208の内部に直接リンクされているノード内エッジ数Ns=4本である。したがって、クラスタリングスコアCS=8*5*(4+1)=200となる。
また、クラスタリング戦略2を適用した場合は、図13に示すように、事象E202と事象E203とが「M={エアコン}、S=売上、V=増加」なる事象E209としてまとめられている。
さらに、更新ルール1により、図11では事象E201から事象E202及び事象E203に個別に張られていたエッジが、図13では1本に統合され、出現頻度が合計されて11+13=24となっている。また、事象E206への2本のエッジも事象E209内の2つの事象が共有しているため、更新ルール1により1本に統合され、出現頻度が合計されて12+23=35となっている。
図13では、事象E202及び事象E203は事象E209の内部に隠蔽できているため、エッジの両端に位置する事象ノードは、事象E201、事象E204、事象E205、事象E206、事象E207、及び事象E209だけであり、接点ノード数Nn=6となる。また、エッジ数Ne=6本である。さらに、クラスタ化された事象E209の内部に直接リンクされているノード内エッジ数Ns=0本である。したがって、クラスタリングスコアCS=6*6*(0+1)=36となる。
また、クラスタリング戦略3を適用した場合のクラスタリングスコアCSは、クラスタリング戦略2の場合と同様であり、CS=36となる。
また、クラスタリング戦略4を適用した場合は、図14に示すように、事象E202と事象E203と事象E204と事象E205とが「S=売上、V=増加」なる事象E208としてまとめられ、事象E208の内部で事象E202と事象E203とが「M={エアコン}、S=売上、V=増加」なる事象E209としてまとめられている。
さらに、更新ルール1により、図11では事象E201から事象E202、事象E203、事象E204、及び事象E205に個別に張られていたエッジが、図14では1本に統合され、出現頻度が合計されて11+13+12+21=57となっている。また、事象E206への2本のエッジも事象E209内の2つの事象が共有しているため、更新ルール1により1本に統合され、出現頻度が合計されて12+23=35となっている。一方、事象E207への2本のエッジは、事象E208に含まれる4事象全てで共有されていないので、更新ルール2により、事象E204とE205とから直接リンクされている。
図14では、エッジの両端に位置する事象ノードは、事象E201、事象E204、事象E205、事象E206、事象E207、事象E208、及び事象E209であり、接点ノード数Nn=7となる。また、エッジ数Ne=4本である。さらに、クラスタ化された事象E208の内部に直接リンクされているノード内エッジ数Ns=3本である。したがって、クラスタリングスコアCS=7*4*(3+1)=112となる。
また、クラスタリング戦略5を適用した場合のクラスタリングスコアCSは、クラスタリング戦略4の場合と同様であり、CS=112となる。
また、クラスタリング戦略6を適用した場合は、図15に示すように、事象E202と事象E203とが「M={エアコン}、S=売上、V=増加」なる事象E209としてまとめられ、事象E204と事象E205とが「M={ビール}、S=売上、V=増加」なる事象E210としてまとめられている。さらに、更新ルール1により、図11では事象E201から事象E202及び事象E203に個別に張られていたエッジが図15では1本に統合され、出現頻度が合計されて11+13=24となっている。同様に、図11では事象E201から事象E204及び事象E205に個別に張られていたエッジが図15では1本に統合され、出現頻度が合計されて12+21=33となっている。また、事象E206への2本のエッジも事象E209内の2つの事象が共有しているため、更新ルール1により1本に統合され、出現頻度が合計されて12+23=35となっている。また、事象E207への2本のエッジも事象E210内の2つの事象が共有しているため、更新ルール1により1本に統合され、出現頻度が合計されて14+10=24となっている。
図15では、エッジの両端に位置する事象ノードは、事象E201、事象E206、事象E207、事象E209、及び事象E210のみであり、接点ノード数Nn=5となる。また、エッジ数Ne=4本である。さらに、クラスタ化された事象E209及び事象E210の内部に直接リンクされているエッジはないため、ノード内エッジ数Ns=0本である。したがって、クラスタリングスコアCS=5*4*(0+1)=20となる。
また、クラスタリング戦略7を適用した場合は、図16に示すように、事象E202と事象E203とが「M={エアコン}、S=売上、V=増加」なる事象E209としてまとめられ、事象E204と事象E205とが「M={ビール}、S=売上、V=増加」なる事象E210としてまとめられ、事象E209と事象E208とが「S=売上、V=増加」なる事象E208としてまとめられている。さらに、更新ルール1により、図11では事象E201から事象E202、事象E203、事象E204、及び事象E205に個別に張られていたエッジが図16では1本に統合され、出現頻度が合計されて11+13+12+21=57となっている。また、事象E206への2本のエッジも事象E209内の2つの事象が共有しているため、更新ルール1により1本に統合され、出現頻度が合計されて12+23=35となっている。また、事象E207への2本のエッジも事象E210内の2つの事象が共有しているため、更新ルール1により1本に統合され、出現頻度が合計されて14+10=24となっている。
図16では、エッジの両端に位置する事象ノードは、事象E201、事象E206、事象E207、事象E208、事象E209、及び事象E210であり、接点ノード数Nn=6となる。また、エッジ数Ne=3本である。さらに、クラスタ化された事象E208の内部には2本のエッジが直接リンクされているため、ノード内エッジ数Ns=2本である。したがって、クラスタリングスコアCS=6*3*(2+1)=54となる。
クラスタリング戦略8を適用した場合のクラスタリングスコアは、図11に示したグラフ構造を元に計算できる。エッジの両端に位置する事象ノードは、事象E201、事象E202、事象E203、事象E204、事象E205、事象E206、及び事象E207であり、接点ノード数Nn=7となる。また、エッジ数Ne=8本である。さらに、ノード内エッジ数Ns=0本である。したがって、クラスタリングスコアCS=7*8*(0+1)=56となる。
以上8通りのクラスタリング戦略を比較すると、図15に示したクラスタリング戦略6を適用した場合のクラスタリングスコアCSが最小値20をとり、最も単純なグラフ構造に要約できることがわかる。
次に、事象クラスタ評価部203は、因果関係記憶部104に格納されている因果関係グラフの構造を、クラスタリングスコアが最小値をとるクラスタリング戦略を適用した場合のグラフ構造に更新する(ステップS206)。
上記の処理を繰り返し、まだクラスタ化を検討していない事象がなくなった時点で処理を終了する。図15では、続けて事象E206と事象E207についても検討するが、原因または結果事象を共有するクラスタ化対象事象が存在しないため、以上で事象クラスタ生成処理を終了する。
なお、ここでは、クラスタリング戦略を列挙する際の頻出パタンとして、2回以上出現したものを全てクラスタリングに使うものとして説明を行ったが、クラスタリングに用いる頻出パタンの頻度の閾値を予め設定し、クラスタリング戦略を絞る方法も考えられ、本実施の形態に述べた方法に限定されない。
また、ここでは、クラスタ対象選択部202が、ターゲット事象と共通の原因または結果事象を持ち、かつ、事象を構成している主語S及び述語Vが同一である事象群を、クラスタ化の対象とすべきノード群として選択する例について述べたが、主語S及び述語Vの他にも修飾語群Mの同一性も考慮してクラスタ化の対象とすべきノード群として選択する方法も考えられ、本実施の形態に述べた方法に限定されない。例えば、主語Sと述語Vと修飾語群Mとをキーワードベクトルとし、キーワードベクトル同士のコサイン類似度を求めることにより、事象表現の類似度が高い事象同士がクラスタ化の対象として選ばれることになる。
また、ここでは、クラスタリングスコアCSを、接点ノード数Nn、エッジ数Ne、ノード内エッジ数Nsを使ってCS=Nn*Ne*(Ns+1)と定義した場合について説明したが、他にも、各パラメータに対する重みα、β、γを使って、CS=(Nn^α)*(Ne^β)*[(Ns+1)^γ]として計算する方法も考えられ、本実施の形態に述べた方法に限定されない。この場合、グラフ構造の複雑さの指標として、何を重視するかを指定することができ、例えば、α=β=0、γ=1と指定して計算したとすると、接点ノード数Nnやエッジ数Neは考慮せず、ノード内エッジ数Nsのみを考慮したクラスタリングを行うことが可能である。また、α<βとなるような重みを使うことによって、接点ノード数Nnよりもエッジ数Neの少なさを重要視したクラスタリングを行うことが可能である。また、ノード内エッジ数Nsは単にクラスタ化された事象ノードの内部へのリンクの数として係数したが、クラスタ化が2重3重になされた場合に、クラスタ化事象の内部へ深くリンクされたエッジほど高い重みを付けて加算するなどの方法も考えられ、本実施の形態に述べた方法に限定されない。この場合、1つの事象が何重にも重なったクラスタリング事象の中に入り込んでしまうことを防ぐことができる。
また、ここでは、全てのクラスタリング戦略を列挙し、それぞれの場合のクラスタリングスコアCS計算し、値が最小となるクラスタリング戦略を選択する場合について説明したが、他にも、クラスタ化によって統合してもよい事象ノードの最大値Nmaxを予め決めておき、Nmaxより多くの事象ノードが含まれることになるクラスタリング戦略は予め列挙の対象から除外するなどの方法も考えられ、本実施の形態に述べた方法に限定されない。この場合、非常に抽象度の高いクラスタ化事象が予めクラスタリングスコア計算の対象から除外されることにより、処理の高速化が期待できる。
また、ここでは、図11に示した事象E201、事象E202という順序でターゲット事象としてクラスタ化すべきか否かを検討したが、他にもランダムにターゲット事象を選択するなどの方法も考えられ、本実施の形態に述べた方法に限定されない。また、複数の異なる順序を用いて事象クラスタ生成処理を繰り返し行い、その中でクラスタリングスコアCSが最小になった因果関係グラフを採用するなどの方法も考えられ、本実施の形態に述べた方法に限定されない。
次に、事象推移予測処理について説明する。
図17は、図1に示した因果関係分析装置1における事象推移予測処理を説明するためのフローチャートである。
事象推移予測部204は、図7に示した事象推移予測入力画面C101を通して、利用者からの検索条件として、事象を表現する自然言語で記述された文書である自然言語文と予測範囲を示す次数制限、および、推移予測の方向を受け付ける。入力された自然言語文は、形態素解析を用いて形態素と品詞列に分割され、事象パタン記憶部102に登録されている事象パタンを適用して修飾語集合Mと主語Sと述語Vとからなる事象に変換される(ステップS301)。
次に、事象推移予測部204は、因果関係記憶部104に格納されている事象の中から、修飾語集合M、主語S、および述語Vが完全一致する事象を検索し、ターゲット事象TEとする。また、このターゲット事象TEの持つ次数dを0(ゼロ)に設定する(ステップS302)。また、カウンタ用の内部変数iの値も0(ゼロ)に初期化する(ステップS303)。
図18は、図1に示した因果関係記憶部104に格納されている因果関係グラフの一例を示す図である。以後、因果関係記憶部104に格納されている因果関係グラフが図18に示す通りであり、最初のターゲット事象TEが事象E301、次数制限が2、推移予測の方向が結果事象の方向である場合(図7で「結果を推測する」ボタンC104が選択された場合)を例に挙げて、事象推移予測処理の動作について具体的に詳細に説明する。
事象推移予測部204は、以下の列挙ルールに従ってターゲット事象TEからたどれる結果事象を列挙する。同時に、結果事象の次数をターゲット事象TEの次数dに1加算したd+1に設定し、エッジに設定されている出現頻度を元に推移スコアTSを計算する(ステップS304)。
(列挙ルール1)ターゲット事象TEを接点として、エッジで繋がっている結果事象を全て列挙する。
(列挙ルール2)ターゲット事象TEに含まれる内部事象を接点として、エッジで繋がっている結果事象を全て列挙する。
(列挙ルール3)ターゲット事象TEが含まれる外部事象を接点として、エッジで繋がっている結果事象を全て列挙する。
推移スコアTSは、次数0の事象から結果事象までのエッジに設定された出現頻度の合計Ft、事象間の推移コストTc、および、結果事象の次数dを使って、TS=Ft/(Tc^d)として求める。ただし、次数0の事象から結果事象までのパスが複数存在する場合は、各パスにおける出現頻度の合計の最大値をFtとして用いることとする。推移コストTcは、結果事象の次数が高くなるほど、推移スコアTSが少なくなるようにするための重みであり、1より十分大きな値であれば良い。以下の例では、推移コストTc=10として推移スコアを計算する場合について述べる。
最初のターゲット事象TEが図18の事象E301である場合、列挙ルール1に該当する結果事象は事象E304及び事象E306となり、これら2つの事象の次数を0+1=1に設定する。また、事象E301から事象E304に推移する時の推移スコアは、30/10=3であり、また、事象E301から事象E306に推移する時の推移スコアは、15/10=1.5であると計算できる。また、ここでは、列挙ルール2および3に該当する結果事象は存在しない。
ここで、クラスタリング前には事象E301から直接エッジが繋がっていたはずの事象E302及び事象E303は、図18では列挙ルール1にも2にも該当しないため、結果事象として列挙されない点に注意する。その代わりに、これら2つの事象をクラスタリングした事象E304が列挙されている。これにより、事象E301からの事象推移を、個別の事象ではなく、事象E304として要約して解釈することができる。
次に、次数d=iである事象全てについて、その結果事象が全て列挙されているかどうかを判断し(ステップS305)、その結果事象が全て列挙されていれば、カウンタ用の内部変数iの値を1加算する(ステップS306)。さらに、内部変数iの値が入力された次数制限以下であるかどうかを判断し(ステップS307)、内部変数iの値が入力された次数制限以下であれば、次数d=iである事象を次のターゲット事象TEとして(ステップS308)、結果事象の列挙を行う(ステップS304)。
図18の例では、次数0であるのは事象E301だけであるため、内部変数iの値が1加算されて0から1になる。これは、制限次数の2よりも小さいので、次に、次数d=1の事象をターゲット事象TEとする。次数d=1の事象には、事象E304及び事象E306がある。
事象E304をターゲット事象TEとすると、列挙ルール1には事象E309が、また、列挙ルール2には事象E308が該当するため、これら2つの事象の次数が1+1=2に設定される。また、次数0の事象E301から事象E309へのパスは、「事象E301→事象E304→事象E309」となるため、この場合の推移スコアは(30+50)/(10^2)=0.8となる。さらに、次数0の事象E301から事象E308へのパスは、「事象E301→事象E302→事象E308」となるため、この場合の推移スコアは(10+17)/(10^2)=0.27となる。また、ここでは、列挙ルール3に該当する結果事象は存在しない。
ここで、事象E301から事象E308へのパスが「事象E301→事象E304→事象E308」とはならないことに注意する。これは、事象E308に繋がっているエッジは、事象E304からではなく、その内部ノードである事象E302のみからリンクされているからである。そのため、正しいパスは「事象E301→事象E302→事象E308」となり、事象E301と事象E302との因果関係の頻度が10であることから、推移スコアが(10+17)/(10^2)=0.27となる。
再び、次数d=iである事象全てについて、その結果事象が列挙されたか否かのチェックが行われるが(ステップS305)、次数d=1の事象E306の結果事象の列挙が終わっていないため、ターゲット事象TEを事象E306として、図17のステップS304に戻る。
事象E306をターゲット事象TEとすると、事象E310が列挙ルール3に該当するため、その次数が1+1=2に設定される。また、次数0の事象E301から事象E310へのパスは、「事象E301→事象E306→事象E310」となるため、この場合の推移スコアは(15+14)/(10^2)=0.29となる。また、ここでは、列挙ルール1および2に該当する結果事象は存在しない。
ここで、事象E311は事象E306の結果事象とならないことに注意する。事象E306と事象E307とを抽象化した事象E305が存在するが、事象E311は事象E307とのみ接続しているからである。このように、事象E306と事象E307とがクラスタ化されていても、事象E305を介して元々接続関係のない事象E301と事象E311とが結びついてしまうのを防ぎ、不適切な推論が起こらないようにすることができる。
再び、次数d=iである事象全てについて、その結果事象が列挙されたか否かのチェックが行われ(ステップS305)、次数d=1である結果事象は全て列挙されたため、図17のステップS306でカウンタ用の内部変数iの値が、1加算されて2となる。これは、制限次数の2と等しくなるため、これまで列挙していた全ての結果事象を、推移スコアの高い順にソートする(ステップS309)。図18に示す因果関係グラフの場合、事象E301からの因果関係の推移を、推移スコアの高い順にソートした結果は図18の下表のようになる。最終結果は、図8に示す事象推移予測結果画面C201の、事象推移リストC202として出力される。この時、事象推移予測部204は、修飾語集合Mと主語Sと述語Vとからなる事象表現を、修飾語集合Mの要素を格助詞「の」で接続し、主語Sの後ろに格助詞「が」を接続し、さらに述語Vを接続させることによって、人間が解釈しやすい自然言語文に整形して出力する。例えば、「M={二酸化炭素}、S=排出量、V=増加」という事象表現は、「二酸化炭素の排出量が増加」に変換することができる。図8の事象推移リストC202では、事象「S=交通量、V=増加」から事象「M={二酸化炭素}、S=排出量、V=増加」への推移が、「二酸化炭素の排出量が増加」「↑交通量の増加」と自然言語文に整形されて表示されており、同時に事象「二酸化炭素の排出量が増加」の次数と推移スコアがそれぞれ1と3.0であることが表示されている。
なお、ここでは、結果事象の方向への推移を予測する例について説明を行ったが、上記の説明文中の「結果事象」を「原因事象」に読み替えることによって、原因事象の方向への推移の予測も同様に行うことができる。
次に、本実施の形態の効果について説明する。
本実施の形態では、修飾語集合Mの組み合わせの頻出パタンを元にクラスタリング戦略として列挙するように構成されている。そのため、予め事象間の階層関係が与えられていなくても、関連の深い事象同士をまとめて抽象度の高いクラスタに整理することができる。
また、本実施の形態では、因果関係グラフの構造の簡潔さを表すクラスタリングスコアを用いて異なるクラスタリング戦略を比較するように構成されている。そのため、簡潔な形の因果関係グラフに要約可能なクラスタリング方法を自動的に選択することができる。
また、本実施の形態では、クラスタ化された事象群全てに共通の原因(または結果)となる事象があれば、その原因(または結果)事象からのエッジを1本に統合するが、クラスタ化されたノード群の一部だけに特定の原因(または結果)からのエッジがある場合は、クラスタ化された事象ではなく、クラスタ内の事象に直接リンクさせるように構成されている。そのため、クラスタ化によって、元々関係のない事象同士が因果関係で結びつくことを防ぎ、正しい因果関係を保つことができる。
また、本実施の形態では、(1)原因(または結果)事象から直接エッジで繋がっている結果(または原因)事象、(2)原因(または結果)に含まれる事象を接点としてエッジで繋がっている結果(または原因)事象、(3)原因(または結果)事象が含まれる事象を接点としてエッジで繋がっている結果(または原因)事象、を再帰的に列挙することによって事象推移予測を行うように構成されている。そのため、クラスタ化された事象を介して、元々接続関係のない事象に推移するような推論を防ぎ、正しい因果関係を保った事象推移のみを推論することができる。
(第2の実施の形態)
図19は、本発明の因果関係分析装置の第2の実施の形態を示す図である。
本形態は図19に示すように、図1に示された第1の実施の形態における因果関係分析装置1に、情報を記憶する注目事象記憶部105と、予測結果記憶部106と、プログラム制御によって動作するアラート生成部205とが追加された因果関係分析装置2となっている。
注目事象記憶部105は、利用者が予め設定された周期で定期的に注目したい注目事象と、その注目する周期間隔を格納する。注目事象の例としては、「M={A社}、S=株価、V=上昇」などが挙げられる。また、周期間隔の例としては、日次、周次、月次などが挙げられる。
予測結果記憶部106は、事象推移予測部204が予測した結果を保存する。
アラート生成部205は、注目事象記憶部105に格納されている注目事象を入力条件として、事象推移予測部204の事象推移予測処理を指定されている周期間隔で実行し、予測結果記憶部106に格納されている以前の予測結果との比較を行い、出力結果に変更があるとアラートを出す。同時に、予測結果記憶部106を直近の結果に更新する。
以下に、図1に示した因果関係分析装置2の動作、つまり因果関係分析装置2における因果関係分析方法についてフローチャートを用いて説明する。なお、図19に示した因果関係抽出部201、クラスタ対象選択部202、事象クラスタ評価部203、および事象推移予測部204の動作は、図9にて説明した因果関係抽出処理のステップS101〜S105、図10にて説明した事象クラスタ生成処理のステップS201〜S206、および図17にて説明した事象推移予測処理のステップS301〜S309と同一であるため、説明は省略する。
図20は、図19に示したアラート生成部205の動作を説明するためのフローチャートである。
アラート生成部205は、注目事象記憶部105に格納されている注目事象を入力条件として、事象推移予測部204の事象推移予測処理を指定されている周期間隔で実行する(ステップS401)。次に、今回の予測結果と予測結果記憶部106に格納されている前回の予測結果との比較を行い(ステップS402)、変化があれば変化の内容を利用者にアラートとして通知する(ステップS403)。例えば、「M={A社}、S=株価、V=上昇」の原因事象として「M={A社、エアコン}、S=株価、V=上昇」があり、さらにその原因事象として「S=猛暑、V=続く」があった場合、これら3つの事象の推移スコアが上昇していれば、猛暑が続いたことによってA社の株価が上昇する可能性が、以前よりも高くなっているというアラートが利用者に示されることになる。また、予測結果記憶部106を更新し、次回のアラート生成処理時に比較できるようにしておく(ステップS404)。
次に、本実施の形態の効果について説明する。
本実施の形態では、注目事象について定期的に事象推移予測を実行し、変化を検出したらアラートを出すように構成されている。そのため、利用者が注目している事象に影響を及ぼす原因事象の変化や、注目事象によって引き起こされる結果事象の変化、およびそれら事象推移の実現可能性の変化をタイムリーに把握することができる。
(第3の実施の形態)
図21は、本発明の因果関係分析装置の第3の実施の形態を示す図である。
本形態は図21に示すように、入力手段501と、データ処理装置502と、出力手段503と、記憶装置504とを備える。さらに、第1の実施の形態の因果関係分析装置1を実現するための因果関係分析プログラム500を備える。
入力手段501は、マウス、キーボード等、操作者からの指示を入力するための装置である。また、出力手段503は、表示画面、プリンタ等のデータ処理装置502による処理結果を出力する装置である。
因果関係分析プログラム500は、データ処理装置502に読み込まれ、データ処理装置502の動作を制御し、記憶装置504に入力メモリ505とワークメモリ506を生成する。データ処理装置502は、因果関係分析装置1を実現するためのプログラムの制御により、第1の実施の形態と同一の処理を実行する。
図21におけるデータ処理装置502は、図1における因果関係抽出部201、クラスタ対象選択部202、事象クラスタ評価部203、および事象推移予測部204の処理を実行する。また、図21における記憶装置504には、図1における文書群記憶部101、事象パタン記憶部102、接続関係記憶部103、及び因果関係記憶部104の情報が格納される。ただし、文書群記憶部101は、記憶装置504に格納されたデータを利用する他に、データ処理装置502によって外部にあるデータベースにネットワーク(例えば、インターネット)を介してアクセスして取得する形態であっても良い。
(第4の実施の形態)
次に、本発明の第4の実施の形態について説明する。
第4の実施の形態は、第3の実施の形態と同様に図21の構成図を用いる。因果関係分析プログラム500は、データ処理装置502に読み込まれ、データ処理装置502の動作を制御し、記憶装置504に入力メモリ505とワークメモリ506を生成する。データ処理装置502は、因果関係分析装置2を実現するためのプログラムの制御により、第2の実施の形態と同一の処理を実行する。
図21におけるデータ処理装置502は、図19における因果関係抽出部201、クラスタ対象選択部202、事象クラスタ評価部203、事象推移予測部204、およびアラート生成部205の処理を実行する。また、図21における記憶装置504には、図1における文書群記憶部101、事象パタン記憶部102、接続関係記憶部103、因果関係記憶部104、注目事象記憶部105、及び予測結果記憶部106の情報が格納される。ただし、文書群記憶部101は、記憶装置504に格納されたデータを利用する他に、データ処理装置502によって外部にあるデータベースにネットワーク(例えば、インターネット)を介してアクセスして取得する形態であっても良い。
以上説明したように、本発明の因果関係分析装置は、以下の効果を有する。
第1の効果は、予め事象間の階層関係が与えられていなくても、関連の深い事象同士をまとめて抽象度の高いクラスタに整理することができることである。その理由は、事象を表現する修飾語集合の組み合わせの頻出パタンを元にクラスタリングを行うからである。
第2の効果は、簡潔な形の因果関係グラフに要約可能なクラスタリング戦略を自動的に選択することができることである。その理由は、因果関係グラフの構造の簡潔さを表すクラスタリングスコアを用いて異なるクラスタリング戦略を比較した上で、どの戦略を採用するかを決定するからである。
第3の効果は、クラスタ化を行っても、元々接続関係のない事象同士が因果関係で結びつくことを防ぎ、正しい因果関係を保つことができることである。その理由は、クラスタ化された事象群全てに共通の原因(または結果)となる事象があれば、その原因(または結果)事象からのエッジを1本に統合するが、クラスタ化されたノード群の一部だけに特定の原因(または結果)からのエッジがある場合は、クラスタ化された事象ではなく、クラスタ内の事象に直接リンクさせるからである。
第4の効果は、事象推移を予測する際に、クラスタ化された事象を介して、元々接続関係のない事象に推移するような推論を防ぎ、正しい因果関係を保った事象推移のみを推論することができることである。その理由は、(1)原因(または結果)事象から直接エッジで繋がっている結果(または原因)事象、(2)原因(または結果)に含まれる事象を接点としてエッジで繋がっている結果(または原因)事象、(3)原因(または結果)事象が含まれる事象を接点としてエッジで繋がっている結果(または原因)事象、のみを再帰的に列挙することによって事象推移予測を行うからである。
第5の効果は、利用者が注目している事象に影響を及ぼす原因事象の変化や、注目事象によって引き起こされる結果事象の変化、およびそれら事象推移の実現可能性の変化をタイムリーに把握することができることである。その理由は、注目事象について定期的に事象推移予測を実行し、変化を検出してアラートを出すからである。
また、本発明によれば、工業装置の障害報告書などの情報源から、因果関係を自動抽出し、不具合が起こった場合の原因を自動診断するといった用途に適用できる。また、新聞記事や株価情報を情報源として、経済動向を予測し、株の売買のタイミングを判断するといった用途に適用できる。
また、本発明においては、上述した手順をCPUに実行させるプログラムを因果関係分析装置にて読取可能な記録媒体に記録し、この記録媒体に記録されたプログラムを因果関係分析装置に読み込ませ、実行するものであっても良い。因果関係分析装置にて読取可能な記録媒体とは、フロッピーディスク(登録商標)、光磁気ディスク、DVD、CDなどの移設可能な記録媒体の他、因果関係分析装置に内蔵されたHDD等を指す。
本発明の因果関係分析装置の第1の実施の形態を示す図である。 図1に示した文書群記憶部に記憶された文書データの一例を示す図である。 図1に示した事象パタン記憶部に記憶された事象パタンの一例を示す図である。 図1に示した接続関係記憶部に格納されているデータの一例を示す図である。 図1に示した因果関係記憶部に格納されている因果関係グラフの一例を示す図である。 図5に示した因果関係グラフをクラスタ化した一例を示す図である。 図1に示した出力部に出力された事象推移予測入力画面C101の一例を示す図である。 図1に示した出力部に出力された事象推移予測結果画面C201の一例を示す図である。 図1に示した因果関係分析装置における因果関係抽出処理を説明するためのフローチャートである。 図1に示した因果関係分析装置における事象クラスタ生成処理を説明するためのフローチャートである。 図1に示した因果関係記憶部に格納されている因果関係グラフの一例を示す図である。 図11に示した因果関係グラフにおけるクラスタリングスコアの計算例を示す図である。 図11に示した因果関係グラフにおけるクラスタリングスコアの計算例を示す図である。 図11に示した因果関係グラフにおけるクラスタリングスコアの計算例を示す図である。 図11に示した因果関係グラフにおけるクラスタリングスコアの計算例を示す図である。 図11に示した因果関係グラフにおけるクラスタリングスコアの計算例を示す図である。 図1に示した因果関係分析装置における事象推移予測処理を説明するためのフローチャートである。 図1に示した因果関係記憶部に格納されている因果関係グラフの一例を示す図である。 本発明の因果関係分析装置の第2の実施の形態を示す図である。 図19に示したアラート生成部の動作を説明するためのフローチャートである。 本発明の因果関係分析装置の第3の実施の形態を示す図である。
符号の説明
1,2 因果関係分析装置
101 文書群記憶部
102 事象パタン記憶部
103 接続関係記憶部
104 因果関係記憶部
105 注目事象記憶部
106 予測結果記憶部
201 因果関係抽出部
202 クラスタ対象選択部
203 事象クラスタ評価部
204 事象推移予測部
205 アラート生成部
301,501 入力部
401,503 出力部
500 因果関係分析プログラム
502 データ処理装置
504 記憶装置
505 入力メモリ
506 ワークメモリ

Claims (20)

  1. 互いに異なる複数の事象間の因果関係を示す因果関係グラフの構造の複雑さをクラスタリングスコアとして数値化し、前記クラスタリングスコアが最小となるように複数の前記事象をクラスタリングする因果関係分析装置。
  2. 請求項1に記載の因果関係分析装置において、
    前記クラスタリングスコアを、接点ノード数とエッジ数とノード内エッジ数とに基づいて計算することを特徴とする因果関係分析装置。
  3. 互いに異なる複数の事象において、一部の事象だけに特定の因果関係を統合せずに、全ての事象で共通の因果関係のみを統合するデータ構造を持つ因果関係分析装置。
  4. 自然言語で記述された文書である自然言語文から互いに異なる複数の事象間の因果関係を抽出する因果関係分析装置であって、
    前記抽出された因果関係に対して、前記事象を構成する単語の一部が同一でかつ、共通の原因または結果事象を持つ事象群をクラスタリングの対象として選択するクラスタ対象選択部と、
    前記クラスタリング対象の事象群の一部の事象だけに特定の因果関係を統合せずに、全ての事象で共通の因果関係のみを統合するデータ構造を持つ因果関係グラフを格納する因果関係記憶部と、
    前記因果関係を示す因果関係グラフの構造の複雑さをクラスタリングスコアとして数値化し、前記クラスタリングスコアが最小となるように前記クラスタ対象選択部によって選択された事象群をクラスタリングする事象クラスタ評価部とを有する因果関係分析装置。
  5. 請求項4に記載の因果関係分析装置において、
    前記文書データを格納した文書群記憶部と、
    前記事象の表現パタンを、単語属性の組み合わせパタンとして記憶した事象パタン記憶部と、
    互いに異なる複数の事象間に因果関係があるか否かを特徴付ける接続表現と該接続表現よって決定される因果関係とを記憶した接続関係記憶部と、
    前記文書を形態素解析し、前記表現パタンと接続表現とを使って因果関係を抽出する因果関係抽出部とを有し、
    前記クラスタ対象選択部は、前記因果関係抽出部によって抽出された因果関係に対して、因果表現を構成する単語の一部が共通でかつ、共通の原因または結果事象を持つ事象群をクラスタリング対象として選択することを特徴とする因果関係分析装置。
  6. 請求項5に記載の因果関係分析装置において、
    前記因果関係記憶部から対応する因果関係グラフを検索し、検索された因果関係グラフを再帰的にたどりながら事象推移を予測する事象推移予測部を有することを特徴とする因果関係分析装置。
  7. 請求項6に記載の因果関係分析装置において、
    利用者が注目したい事象と注目する周期とを格納しておく注目事象記憶部と、
    前記事象推移予測部にて予測された事象推移の予測結果を記憶する予測結果記憶部と、
    前記注目事象記憶部に格納された周期にあわせて注目事象に関する事象推移予測を実行し、前回の予測結果と比較して相違点をアラートするアラート生成部とを有することを特徴とする因果関係分析装置。
  8. 自然言語で記述された文書である自然言語文から互いに異なる複数の事象間の因果関係を抽出する因果関係分析方法であって、
    前記事象を構成する単語の一部が同一でかつ、共通の原因または結果事象を持つ事象群をクラスタリングの対象として選択し、前記因果関係を示す因果関係グラフの構造の複雑さを数値化したクラスタリングスコアとして数値化し、前記クラスタリングスコアが最小となるように前記複数の事象をクラスタリングする事象クラスタ生成処理を有する因果関係分析方法。
  9. 請求項8に記載の因果関係分析方法において、
    前記自然言語文から形態素列、表層文字列または品詞列を元に事象を抽出し、互いに異なる複数の事象間に因果関係があるか否かを特徴付ける接続表現によって前記因果関係を決定する因果関係抽出処理と、
    前記因果関係グラフを再帰的にたどりながら事象推移を予測する事象推移予測処理とを有することを特徴とする因果関係分析方法。
  10. 請求項8または請求項9に記載の因果関係分析方法において、
    前記事象クラスタ処理は、
    全ての事象について、前記事象を構成する単語の一部が同一でかつ、共通の原因または結果事象を持つ事象群をクラスタリングの対象として選択するステップと、
    前記クラスタリングの対象となった事象群の中で、前記事象を表現する事象表現の修飾語の全ての組み合わせについて頻出パタンを数え上げし、該頻出パタンをクラスタリング戦略として列挙するステップと、
    前記列挙された各クラスタリング戦略を適用した場合の、前記因果関係グラフの構造の複雑さを計算するステップと、
    前記因果関係グラフの構造が最も単純になるクラスタリング戦略を採用して因果関係のグラフ構造を更新するステップとを有することを特徴とする因果関係分析方法。
  11. 請求項9に記載の因果関係分析方法において、
    前記事象推移予測処理は、
    検索条件として入力された自然言語文を形態素分割して事象に変換するステップと、
    検索条件から変換された事象に該当する事象を前記因果関係グラフの中から検索するステップと、
    前記検索された事象から、クラスタ全体に共通の因果関係と一部の事象だけに特定の因果関係とを区別して、再帰的に因果関係にある事象を列挙するステップと、
    列挙された事象の推移スコアを前記事象間においてエッジに設定された出現頻度の合計と予め設定された前記事象間の推移コストと結果事象の次数とに基づいて求め、前記推移スコアの高い順にソートして表示するステップとを有することを特徴とする因果関係分析方法。
  12. 自然言語で記述された文書である自然言語文から事象間の因果関係を抽出する因果関係分析方法であって、
    入力画面を通じて指定された、検索条件となる事象を自然言語文と、検索対象となる事象の推移の範囲である次数と、推移予測の方向とに基づいて、因果関係にある原因または結果の推移のリストを、前記事象間においてエッジに設定された出現頻度の合計と予め設定された前記事象間の推移コストと結果事象の次数とに基づいて求められた推移スコアの高い順に並べて表示するステップを有する因果関係分析方法。
  13. 請求項9に記載の因果関係分析方法において、
    予め設定された周期で定期的に注目事象に関する事象推移予測を実行し、前回の予測結果からの変化を検出した場合に利用者に通知するアラート生成処理を有することを特徴とする因果関係分析方法。
  14. 請求項13に記載の因果関係分析方法において、
    前記アラート生成処理は、
    予め利用者から指定された注目事象について、定期的に事象推移予測を行うステップと、
    前回の事象推移予測結果と比較することにより、変化を検知するステップと、
    変化が検知された場合に、利用者にアラートとして通知するステップと、
    事象推移予測結果を保存するステップとを有することを特徴とする因果関係分析方法。
  15. 自然言語で記述された文書である自然言語文から互いに異なる複数の事象間の因果関係を抽出するプログラムあって、
    前記事象を構成する単語の一部が同一でかつ、共通の原因または結果事象を持つ事象群をクラスタリングの対象として選択し、前記因果関係を示す因果関係グラフの構造の複雑さを数値化したクラスタリングスコアとして数値化し、前記クラスタリングスコアが最小となるように前記複数の事象をクラスタリングする手順をコンピュータに実行させるプログラム。
  16. 請求項15に記載のプログラムにおいて、
    前記自然言語文から形態素列、表層文字列または品詞列を元に事象を抽出し、互いに異なる複数の事象間に因果関係があるか否かを特徴付ける接続表現によって前記因果関係を決定する手順と、
    前記因果関係グラフを再帰的にたどりながら事象推移を予測する手順とをコンピュータに実行させることを特徴とするプログラム。
  17. 請求項15または請求項16に記載のプログラムにおいて、
    全ての事象について、前記事象を構成する単語の一部が同一でかつ、共通の原因または結果事象を持つ事象群をクラスタリングの対象として選択する手順と、
    前記クラスタリングの対象となった事象群の中で、前記事象を表現する事象表現の修飾語の全ての組み合わせについて頻出パタンを数え上げし、該頻出パタンをクラスタリング戦略として列挙する手順と、
    前記列挙された各クラスタリング戦略を適用した場合の、前記因果関係グラフの構造の複雑さを計算する手順と、
    前記因果関係グラフ構造が最も単純になるクラスタリング戦略を採用して因果関係のグラフ構造を更新する手順とをコンピュータに実行させることを特徴とするプログラム。
  18. 請求項16記載のプログラムにおいて、
    検索条件として入力された自然言語文を形態素分割して事象に変換する手順と、
    検索条件から変換された事象に該当する事象を前記因果関係グラフの中から検索する手順と、
    前記検索された事象から、クラスタ全体に共通の因果関係と一部の事象だけに特定の因果関係とを区別して、再帰的に因果関係にある事象を列挙する手順と、
    列挙された事象の推移スコアを前記事象間においてエッジに設定された出現頻度の合計と予め設定された前記事象間の推移コストと結果事象の次数とに基づいて求め、前記推移スコアの高い順にソートして表示する手順とをコンピュータに実行させることを特徴とするプログラム。
  19. 請求項16に記載のプログラムにおいて、
    予め設定された周期で定期的に注目事象に関する事象推移予測を実行し、前回の予測結果からの変化を検出した場合に利用者に通知する手順とコンピュータに実行させることを特徴とするプログラム。
  20. 請求項19に記載のプログラムにおいて、
    予め利用者から指定された注目事象について、定期的に事象推移予測を行う手順と、
    前回の事象推移予測結果と比較することにより、変化を検知する手順と、
    変化が検知された場合に、利用者にアラートとして通知する手順と、
    事象推移予測結果を保存する手順とをコンピュータに実行させることを特徴とするプログラム。
JP2007036414A 2007-02-16 2007-02-16 因果関係分析装置、因果関係分析方法及びプログラム Active JP4935405B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007036414A JP4935405B2 (ja) 2007-02-16 2007-02-16 因果関係分析装置、因果関係分析方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007036414A JP4935405B2 (ja) 2007-02-16 2007-02-16 因果関係分析装置、因果関係分析方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2008203964A true JP2008203964A (ja) 2008-09-04
JP4935405B2 JP4935405B2 (ja) 2012-05-23

Family

ID=39781442

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007036414A Active JP4935405B2 (ja) 2007-02-16 2007-02-16 因果関係分析装置、因果関係分析方法及びプログラム

Country Status (1)

Country Link
JP (1) JP4935405B2 (ja)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012079180A (ja) * 2010-10-04 2012-04-19 Nippon Telegr & Teleph Corp <Ntt> 経験要因関係分析装置及び方法及びプログラム
JP2013130929A (ja) * 2011-12-20 2013-07-04 Nec Corp 因果関係要約方法、因果関係要約装置及び因果関係要約プログラム
US8914391B2 (en) 2011-05-20 2014-12-16 International Business Machines Corporation Method, program, and system for converting part of graph data to data structure as an image of homomorphism
JP2015162246A (ja) * 2014-02-26 2015-09-07 パロ・アルト・リサーチ・センター・インコーポレーテッドPalo Alto Research Center Incorporated グラフクラスタリングのための効率的なリンク管理
WO2015182072A1 (ja) * 2014-05-30 2015-12-03 日本電気株式会社 因果構造推定システム、因果構造推定方法およびプログラム記録媒体
US9208590B2 (en) 2011-05-20 2015-12-08 International Business Machines Corporation Manipulation of an object as an image of a mapping of graph data
WO2016067612A1 (ja) * 2014-10-30 2016-05-06 日本電気株式会社 情報処理システム及び分類方法
WO2016194752A1 (ja) * 2015-06-05 2016-12-08 株式会社日立システムズ 情報分析システム、情報分析方法
JP2017004475A (ja) * 2015-06-16 2017-01-05 日本電気株式会社 情報処理装置、情報処理方法、及び、プログラム
JP2017146734A (ja) * 2016-02-16 2017-08-24 株式会社日立製作所 ネットワーク図を簡素化する方法
JP2017539031A (ja) * 2014-12-09 2017-12-28 エントイット ソフトウェア エルエルシーEntit Software Llc テスト実行からのテスト検証の分離
CN109992440A (zh) * 2019-04-02 2019-07-09 北京睿至大数据有限公司 一种基于知识图谱和机器学习的it根故障分析识别方法
WO2019167835A1 (ja) * 2018-03-02 2019-09-06 日本電信電話株式会社 フレーズ生成モデル学習装置、フレーズ生成装置、方法、及びプログラム
CN111428049A (zh) * 2020-03-20 2020-07-17 北京百度网讯科技有限公司 一种事件专题的生成方法、装置、设备和存储介质
CN111460132A (zh) * 2020-03-10 2020-07-28 哈尔滨工业大学 一种基于图卷积神经网络的生成式会议摘要方法
CN111488740A (zh) * 2020-03-27 2020-08-04 北京百度网讯科技有限公司 一种因果关系的判别方法、装置、电子设备及存储介质
JP2020140452A (ja) * 2019-02-28 2020-09-03 富士通株式会社 ノード情報推定方法、ノード情報推定プログラムおよび情報処理装置
JP2021119463A (ja) * 2020-03-30 2021-08-12 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド ナレッジグラフの生成方法、関係マイニング方法、装置、機器及び媒体
CN113822430A (zh) * 2020-12-28 2021-12-21 京东科技控股股份有限公司 事件的推理方法、装置、计算机设备和存储介质
CN114328661A (zh) * 2021-12-23 2022-04-12 北京百度网讯科技有限公司 事件处理、知识库处理方法、装置、设备以及存储介质
WO2023152897A1 (ja) * 2022-02-10 2023-08-17 富士通株式会社 情報処理プログラム、情報処理装置及び情報処理方法
JP7488207B2 (ja) 2021-02-18 2024-05-21 株式会社日立製作所 将来事象推定システム、および将来事象推定方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11853912B1 (en) * 2020-01-30 2023-12-26 Amazon Technologies, Inc. Determining causal insights

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05100855A (ja) * 1991-08-13 1993-04-23 Ricoh Co Ltd 知識ベースおよびその構築装置
JPH11250085A (ja) * 1998-03-02 1999-09-17 Nippon Telegr & Teleph Corp <Ntt> 事象推移予測方法および事象推移予測プログラムを記録した記録媒体
JP2004126641A (ja) * 2002-09-30 2004-04-22 Toshiba Corp 因果関係モデル生成方法、因果関係モデル生成装置、原因推定方法、原因推定装置およびデータ構造

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05100855A (ja) * 1991-08-13 1993-04-23 Ricoh Co Ltd 知識ベースおよびその構築装置
JPH11250085A (ja) * 1998-03-02 1999-09-17 Nippon Telegr & Teleph Corp <Ntt> 事象推移予測方法および事象推移予測プログラムを記録した記録媒体
JP2004126641A (ja) * 2002-09-30 2004-04-22 Toshiba Corp 因果関係モデル生成方法、因果関係モデル生成装置、原因推定方法、原因推定装置およびデータ構造

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8943084B2 (en) 1920-05-20 2015-01-27 International Business Machines Corporation Method, program, and system for converting part of graph data to data structure as an image of homomorphism
JP2012079180A (ja) * 2010-10-04 2012-04-19 Nippon Telegr & Teleph Corp <Ntt> 経験要因関係分析装置及び方法及びプログラム
US8914391B2 (en) 2011-05-20 2014-12-16 International Business Machines Corporation Method, program, and system for converting part of graph data to data structure as an image of homomorphism
US9208590B2 (en) 2011-05-20 2015-12-08 International Business Machines Corporation Manipulation of an object as an image of a mapping of graph data
JP2013130929A (ja) * 2011-12-20 2013-07-04 Nec Corp 因果関係要約方法、因果関係要約装置及び因果関係要約プログラム
JP2015162246A (ja) * 2014-02-26 2015-09-07 パロ・アルト・リサーチ・センター・インコーポレーテッドPalo Alto Research Center Incorporated グラフクラスタリングのための効率的なリンク管理
WO2015182072A1 (ja) * 2014-05-30 2015-12-03 日本電気株式会社 因果構造推定システム、因果構造推定方法およびプログラム記録媒体
WO2016067612A1 (ja) * 2014-10-30 2016-05-06 日本電気株式会社 情報処理システム及び分類方法
US11250029B2 (en) 2014-10-30 2022-02-15 Nec Corporation Information processing system and classification method
US10534700B2 (en) 2014-12-09 2020-01-14 Micro Focus Llc Separating test verifications from test executions
JP2017539031A (ja) * 2014-12-09 2017-12-28 エントイット ソフトウェア エルエルシーEntit Software Llc テスト実行からのテスト検証の分離
JP2017004097A (ja) * 2015-06-05 2017-01-05 株式会社日立システムズ 情報分析システム、情報分析方法
WO2016194752A1 (ja) * 2015-06-05 2016-12-08 株式会社日立システムズ 情報分析システム、情報分析方法
JP2017004475A (ja) * 2015-06-16 2017-01-05 日本電気株式会社 情報処理装置、情報処理方法、及び、プログラム
JP2017146734A (ja) * 2016-02-16 2017-08-24 株式会社日立製作所 ネットワーク図を簡素化する方法
US11651166B2 (en) 2018-03-02 2023-05-16 Nippon Telegraph And Telephone Corporation Learning device of phrase generation model, phrase generation device, method, and program
WO2019167835A1 (ja) * 2018-03-02 2019-09-06 日本電信電話株式会社 フレーズ生成モデル学習装置、フレーズ生成装置、方法、及びプログラム
JP6603828B1 (ja) * 2018-03-02 2019-11-06 日本電信電話株式会社 フレーズ生成モデル学習装置、フレーズ生成装置、方法、及びプログラム
JP2020140452A (ja) * 2019-02-28 2020-09-03 富士通株式会社 ノード情報推定方法、ノード情報推定プログラムおよび情報処理装置
CN109992440A (zh) * 2019-04-02 2019-07-09 北京睿至大数据有限公司 一种基于知识图谱和机器学习的it根故障分析识别方法
CN111460132A (zh) * 2020-03-10 2020-07-28 哈尔滨工业大学 一种基于图卷积神经网络的生成式会议摘要方法
JP2021101361A (ja) * 2020-03-20 2021-07-08 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド イベントトピックの生成方法、装置、機器及び記憶媒体
CN111428049A (zh) * 2020-03-20 2020-07-17 北京百度网讯科技有限公司 一种事件专题的生成方法、装置、设备和存储介质
CN111488740A (zh) * 2020-03-27 2020-08-04 北京百度网讯科技有限公司 一种因果关系的判别方法、装置、电子设备及存储介质
CN111488740B (zh) * 2020-03-27 2023-12-22 北京百度网讯科技有限公司 一种因果关系的判别方法、装置、电子设备及存储介质
JP2021119463A (ja) * 2020-03-30 2021-08-12 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド ナレッジグラフの生成方法、関係マイニング方法、装置、機器及び媒体
JP7098775B2 (ja) 2020-03-30 2022-07-11 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド ナレッジグラフの生成方法、関係マイニング方法、装置、機器及び媒体
CN113822430B (zh) * 2020-12-28 2024-05-21 京东科技控股股份有限公司 事件的推理方法、装置、计算机设备和存储介质
CN113822430A (zh) * 2020-12-28 2021-12-21 京东科技控股股份有限公司 事件的推理方法、装置、计算机设备和存储介质
JP7488207B2 (ja) 2021-02-18 2024-05-21 株式会社日立製作所 将来事象推定システム、および将来事象推定方法
CN114328661A (zh) * 2021-12-23 2022-04-12 北京百度网讯科技有限公司 事件处理、知识库处理方法、装置、设备以及存储介质
WO2023152897A1 (ja) * 2022-02-10 2023-08-17 富士通株式会社 情報処理プログラム、情報処理装置及び情報処理方法

Also Published As

Publication number Publication date
JP4935405B2 (ja) 2012-05-23

Similar Documents

Publication Publication Date Title
JP4935405B2 (ja) 因果関係分析装置、因果関係分析方法及びプログラム
Michlmayr et al. Learning user profiles from tagging data and leveraging them for personal (ized) information access
KR101793222B1 (ko) 어플리케이션 검색들을 가능하게 하기 위해 사용되는 검색 인덱스의 업데이트
US7657546B2 (en) Knowledge management system, program product and method
Debnath et al. Automatic identification of informative sections of web pages
JP4241934B2 (ja) テキスト処理及び検索システム及び方法
JP5224868B2 (ja) 情報推薦装置および情報推薦方法
Crescenzi et al. Clustering web pages based on their structure
US8082248B2 (en) Method and system for document classification based on document structure and written style
Zouaq et al. Evaluating the generation of domain ontologies in the knowledge puzzle project
WO2009096523A1 (ja) 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム
JP2005122295A (ja) 関係図作成プログラム、関係図作成方法、および関係図作成装置
CN110705288A (zh) 一种基于大数据的舆情分析系统
Helic et al. Are tag clouds useful for navigation? a network-theoretic analysis
US20100138414A1 (en) Methods and systems for associative search
CN114996549A (zh) 基于活动对象信息挖掘的智能追踪方法与系统
Scharl et al. Scalable knowledge extraction and visualization for web intelligence
KR20120071645A (ko) 웹페이지의 이질적 데이터 정보융합 제공시스템 및 방법
JP5224532B2 (ja) 評判情報分類装置及びプログラム
JP5368900B2 (ja) 情報提示装置、情報提示方法およびプログラム
JP3743204B2 (ja) データ分析支援方法および装置
Amato et al. Semantic summarization of news from heterogeneous sources
Jiang et al. Personalized recommendation method of E-commerce based on fusion technology of smart ontology and big data mining
Ali et al. Dataset creation framework for personalized type-based facet ranking tasks evaluation
WO2007000893A1 (ja) 情報空間処理装置、プログラム、および、方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111025

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120124

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120206

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150302

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4935405

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150