JP2015121896A - フレーズペア収集装置、及びそのためのコンピュータプログラム - Google Patents
フレーズペア収集装置、及びそのためのコンピュータプログラム Download PDFInfo
- Publication number
- JP2015121896A JP2015121896A JP2013264598A JP2013264598A JP2015121896A JP 2015121896 A JP2015121896 A JP 2015121896A JP 2013264598 A JP2013264598 A JP 2013264598A JP 2013264598 A JP2013264598 A JP 2013264598A JP 2015121896 A JP2015121896 A JP 2015121896A
- Authority
- JP
- Japan
- Prior art keywords
- pair
- noun
- phrase
- template
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004590 computer program Methods 0.000 title claims description 15
- 230000001364 causal effect Effects 0.000 claims abstract description 467
- 238000001914 filtration Methods 0.000 claims description 92
- 238000004364 calculation method Methods 0.000 claims description 74
- 230000014509 gene expression Effects 0.000 claims description 45
- 238000003860 storage Methods 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 21
- 238000000034 method Methods 0.000 description 95
- 238000012545 processing Methods 0.000 description 87
- 230000000694 effects Effects 0.000 description 68
- 230000008569 process Effects 0.000 description 55
- 238000000605 extraction Methods 0.000 description 44
- 230000036961 partial effect Effects 0.000 description 41
- 239000002245 particle Substances 0.000 description 26
- 238000010276 construction Methods 0.000 description 22
- 238000009826 distribution Methods 0.000 description 21
- 238000012795 verification Methods 0.000 description 18
- 230000004913 activation Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 239000000047 product Substances 0.000 description 13
- 230000008094 contradictory effect Effects 0.000 description 12
- 230000002441 reversible effect Effects 0.000 description 12
- 230000007423 decrease Effects 0.000 description 11
- 238000004519 manufacturing process Methods 0.000 description 11
- WFKWXMTUELFFGS-UHFFFAOYSA-N tungsten Chemical compound [W] WFKWXMTUELFFGS-UHFFFAOYSA-N 0.000 description 11
- 229910052721 tungsten Inorganic materials 0.000 description 11
- 239000010937 tungsten Substances 0.000 description 11
- 230000001419 dependent effect Effects 0.000 description 10
- 239000013598 vector Substances 0.000 description 10
- 239000000463 material Substances 0.000 description 9
- 230000007717 exclusion Effects 0.000 description 8
- 239000000284 extract Substances 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 6
- 239000003607 modifier Substances 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000029553 photosynthesis Effects 0.000 description 5
- 238000010672 photosynthesis Methods 0.000 description 5
- 208000013738 Sleep Initiation and Maintenance disease Diseases 0.000 description 4
- 230000008676 import Effects 0.000 description 4
- 206010022437 insomnia Diseases 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000002360 preparation method Methods 0.000 description 4
- 230000003449 preventive effect Effects 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 3
- 230000005610 quantum mechanics Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 229960005486 vaccine Drugs 0.000 description 3
- 206010035664 Pneumonia Diseases 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000002779 inactivation Effects 0.000 description 2
- 230000005764 inhibitory process Effects 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 1
- 241001632422 Radiola linoides Species 0.000 description 1
- 206010039424 Salivary hypersecretion Diseases 0.000 description 1
- 240000008042 Zea mays Species 0.000 description 1
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 description 1
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 1
- IKHGUXGNUITLKF-XPULMUKRSA-N acetaldehyde Chemical compound [14CH]([14CH3])=O IKHGUXGNUITLKF-XPULMUKRSA-N 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 239000002246 antineoplastic agent Substances 0.000 description 1
- 229940041181 antineoplastic drug Drugs 0.000 description 1
- 239000002551 biofuel Substances 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000000546 chi-square test Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 235000005822 corn Nutrition 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 206010022000 influenza Diseases 0.000 description 1
- 208000019423 liver disease Diseases 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 208000026451 salivation Diseases 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000035922 thirst Effects 0.000 description 1
- 238000010792 warming Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Technology Law (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Game Theory and Decision Science (AREA)
- Evolutionary Computation (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
《述語テンプレート》
述語テンプレートとは、因果関係を構成する文の要素である。本実施の形態では、述語テンプレートは、単純述語テンプレートと複雑述語テンプレートとに分類される。以下の説明では、単純述語テンプレートと複雑述語テンプレートとを総称して述語テンプレートと呼ぶ。述語テンプレートには後述するように極性が付与される。
日本語において、助詞と述語との組合せ(例:<を、食べる>)のように1つの助詞と1つの述語とを結び付けたものを「単純述語テンプレート」と呼ぶ。例えば「が進行する。」、「を防ぐ。」、「が顕現する。」等である。この場合、文中では、単純述語テンプレートを構成する助詞の直前には、述語の主語、目的語等が配置される。
日本語の場合、助詞「の」と、1つの名詞と、単純述語テンプレートとを結び付けたものを「複雑述語テンプレート」と呼ぶ。本実施の形態では、名詞はいわゆるサ変名詞と、後述するような「トラブル名詞」と、数量名詞とからなる。例えば「の減少が進行する。」、「の抑制を防ぐ。」、「の事故を防ぐ。」、「の欠点が顕現する。」、「の台数を増やす。」等である。
日本語の場合、フレーズとは、名詞+述語テンプレートの形式を持つ文字列のことを言う。フレーズはまとまりのある1つの事柄を言い表していると考えられる。
因果関係とは、本実施の形態では、原因となる事柄を述べたフレーズ(原因フレーズ)とその結果となる事柄を述べたフレーズ(結果フレーズ)との組からなる。
以下では、述語テンプレートの極性について説明する。次に、単純述語テンプレート及び複雑述語テンプレートの極性の自動獲得手法について述べる。最後に、分類された述語テンプレートのアプリケーションについて述べる。
本実施の形態では、全体のシステムの入力となるテキストに現れる述語テンプレートを以下のテーブル1に示す3種に分類する。
単純述語テンプレートへの極性の割当は自動的に計算される。極性割当の手がかりとして以下のような言語学的性質、制約を考える。まず、名詞の対を考え、対を成す名詞の間の因果関係という概念を導入する。
複雑述語テンプレートの出現頻度は単純述語テンプレートに比べて低い。そのため、従来のように統計的情報のみに基づいて複雑述語テンプレートの極性を判定しようとすると、高い信頼性を得ることはかなり難しいことが予測される。しかし、以下に述べる実施の形態では以下のようにして複雑述語テンプレートの極性を自動的に割当てる。
サ変名詞の極性については基本的には以下のようにして単純述語テンプレートから判定する。すなわち、サ変名詞については、基本的には、そのサ変名詞に対応する単純述語テンプレートの極性を付与する。サ変名詞に対応する単純述語テンプレートとは、サ変名詞の直前に存在する助詞が「ハ、ヲ、ガ、ニ、デ」となっている場合に、その助詞+サ変名詞の形で始まるものをいう。例えば「減少」については、直前の助詞が「が」であれば対応する単純述語テンプレートは「が減少する」(不活性)、「を」であれば「を減少する」(不活性)となり、いずれの場合も不活性である。したがってこれらの場合はいずれも「減少」の極性は不活性となる。一方、「抑制」の場合にはやや複雑である。例えば複雑テンプレート中で「抑制」の直前の助詞が「が」であれば、対応する単純述語テンプレートは「が抑制する」(活性)となって「抑制」の極性は活性となる。しかし、直前の助詞が「を」であれば、対応する単純述語テンプレートは「を抑制する」(不活性)となって、「抑制」の極性は不活性となる。したがって、複雑述語内のサ変名詞については、単純述語テンプレートとしてどのような助詞を伴うものを採用すべきかを文脈により決定する必要がある。これを決定するためには、複雑述語テンプレートが使用されている文脈の情報が必要である。複雑述語テンプレートの極性は複雑述語テンプレートだけでは決定できない。
トラブル名詞の場合には、その名詞の前にノ格でとる名詞がそのトラブルの被害者(物)と解釈できれば不活性、それ以外の場合には活性と判定する。例えば以下のようなものがある。以下の例では、「事故」及び「汚れ」がトラブル名詞である。
−「(台所の)汚れ」は不活性
−「(排油の)汚れ」は活性
こうした判定方法を採用する場合、トラブル名詞の極性を判定するためには、その直前のノ格の名詞がトラブル名詞とどのような関係にあるかを判定する必要がある。以下に述べる実施の形態では、この極性を判定するために、トラブル名詞と、そのトラブル名詞の前にノ格を伴って共起する名詞との組合せごとに、極性を判定するためのパターン辞書を準備する。すなわち、トラブル名詞と、その直前の「ノ」格の名詞と、それらが共起するパターンとの組合せごとに、トラブル名詞の極性を予め定める。そして、ノ格で現れる名詞とトラブル名詞との具体的な組合せがどのようなパターンを伴ってコーパス内で実際に共起しているかをチェックすることで、トラブル名詞の極性を決定する。
数量名詞については、全て活性とみなしてよい。
こうした分類極性を使う事で以下のようなアプリケーションが可能となる。
活性値の積が正で、活性値の絶対値が大きい述語テンプレートの対が正の因果関係を持つ名詞と共起し、順接の接続詞等で結ばれた場合には因果関係を表している可能性が高い。活性値の積が負で、活性値の絶対値が大きい述語テンプレートの対が負の因果関係を持つ名詞と共起し、順接の接続詞等で結ばれた場合にも因果関係を表している可能性が高い。この性質を利用して、テーブル4に示すように、因果関係を表す2つの述語テンプレート及び正負の因果関係を持つ名詞ペアを含む表現をテキスト中で自動的に認識し、取得できる。
上記フレーズ間の因果関係の自動認識を併せ用いる事で、元となるテキストに「陽」に記載されていない因果関係を自動取得する事が可能となる。その手法の概略は以下のとおりである。
既に述べたとおり、名詞間の意味的関係を取得できる。この意味的関係を用いて、取得済の因果関係から多数の因果関係仮説を生成できる。
−必要関係(例:<AはBに必須だ>、(日光、光合成)等)
−使用関係(例:<AをBに使う>、(iPS細胞、再生医療)、等)
−予防関係(例:<AでBを防ぐ>、(ワクチン、インフルエンザ)、等)
−因果関係(例:<AがBを引き起こす>、(糖尿病、脳こうそく)、等)
このような意味的関係については、後述するように自動的に取得できる。
ある因果関係が妥当である場合、その因果関係の裏も妥当な因果関係である可能性が高い。例えば「ストレスが増加する(原因)」→「不眠が続く(結果)」という因果関係が妥当である場合、その意味的な裏の因果関係、すなわち「ストレスが減少する(原因)」→「不眠が改善される」も妥当である可能性が高い。このような裏の表現を得るために、予め互いに矛盾する表現のデータベースを作成しておいてもよい。矛盾表現は、インターネットから因果関係と同様の手順で収集できる。
従来の同義、含意関係の自動獲得技術では、注目している表現の周辺に出現する語の出現確率の分布の類似により、同義、含意を認識している。しかしこの手法によると、往々にして、ある単語Aに対する反義の単語Bが、単語Aと同義又は含意という関係を持つと誤認識されるケースがあった。これは、反義語の出現するコンテキストが類似することが多いことに起因する。これに対して本実施の形態によれば、例えば、「を引き起こす」の活性値が正、「を防ぐ」の活性値が負であることを自動的に計算できる。これらの情報を用いると、従来技術を用いることで抽出された同義表現の候補の中で、述語テンプレートの極性が異なっているか否かにより同義か否かを見分けることができる。この結果、上記した技術を用いて、単語の同義及び含意の自動獲得の精度が向上する。
上記した(A)及び(B)の技術によって多数の因果関係を取得できる。それら多数の因果関係をデータベース化すると、それら因果関係の表現中に頻出する述語テンプレートの対が獲得できる。例えば、「が起きた」と「に襲われた」という述語テンプレートの対が、データベース中の因果関係に多数出現するものとする。そうした述語テンプレートは、テキスト中で文をまたがって(別の文の中で)出現した場合でも、互いの間の文数、単語数又は文字数等、「距離」が近い場合には因果関係を表す可能性が高い。例えば、「昨日、地震が起きた。津波に襲われたとの報告が寄せられている。」といったように、「地震が起きた」という表現と「津波に襲われた」という表現とが2文に分かれて出現した場合を考える。この場合でも、「地震が起きた」と「津波に襲われた」との2つのフレーズで記述される出来事の間には因果関係がある。また、そこに出現している名詞の対、すなわち「地震」と「津波」の間にも因果関係がある。こうした性質を利用し、複数文にまたがって記載されている因果関係を、フレーズ間及び単語間の双方について、自動的に取得できる。
[構成]
〈全体構成〉
図1を参照して、この発明の第1の実施の形態に係る社会シナリオ生成システム30は、前述した述語テンプレートのうち、テンプレートネットワーク構築の際の核となる単純述語テンプレート(これを「シードテンプレート」と呼ぶ)を記憶するためのシードテンプレートDB32と、述語テンプレートの間を連結する、順接及び逆接の接続詞等を記憶する接続詞DB34と、シードテンプレートDB32、接続詞DB34、及びインターネット40から収集した文書のコーパスであるWEBアーカイブ44から、接続詞DB34に記憶された接続詞等により結び付けられた2つのフレーズからなる原因と結果との関係にある因果関係フレーズ対を大量に獲得し、さらに因果関係フレーズ対を様々な知識に基づいて拡張し連鎖させて社会シナリオを生成するための社会シナリオDB構築装置36と、社会シナリオDB構築装置36により生成された社会シナリオを記憶するための社会シナリオDB38と、社会シナリオDB38に記憶された社会シナリオを、外部からの要求にしたがって加工して出力する社会シナリオ出力部48とを含む。
図1を参照して、社会シナリオDB構築装置36は、シードテンプレートDB32、接続詞DB34及びWEBアーカイブ44に接続され、WEBアーカイブ44から大量のフレーズ対を収集し、それらの中から大量の単純述語テンプレートを取出して単純述語テンプレートDB62を構築するための単純述語テンプレート収集部60と、単純述語テンプレート収集部60により構築された単純述語テンプレートDB62を用い、WEBアーカイブ44から複雑述語テンプレートを獲得するための複雑述語テンプレート収集部64とを含む。なお、シードテンプレートDB32に記憶された単純述語テンプレートには、それらテンプレートの活性・不活性にしたがって予め正又は負の活性値が与えられている。以下に述べる処理の最初には、これらの値はそれぞれ+1及び−1である。
図2を参照して、単純述語テンプレート収集部60は、シードテンプレートDB32と接続詞DB34とに接続され、シードテンプレートDB32に記憶された全ての単純述語テンプレートと、接続詞DB34に記憶された全ての接続詞等とを用い、2つの単純述語テンプレートが接続詞等で結び付けられた組合せの全てを生成する初期テンプレートペア生成部90と、初期テンプレートペア生成部90により生成された単純述語テンプレートのペアを記憶するための初期テンプレートペアDB92とを含む。初期テンプレートペア生成部90により生成される単純述語テンプレートのペアの例を以下のテーブル5に示す。
(2)2つの単純述語テンプレートの極性が同じで、これらが逆接の接続詞等で接続されていると、これらと共起している名詞ペアの関係は負
(3)2つの単純述語テンプレートの極性が反対で、これらが順接の接続詞等で接続されていると、これらと共起している名詞ペアの間の負
(4)2つの単純述語テンプレートの極性が反対で、これらが逆接の接続詞等で接続されていると、これらと共起している名詞ペアの間の正
単純述語テンプレート収集部60はさらに、名詞ペアDB96に接続され、名詞ペア極性判定部98により関係タグが付された名詞ペアの各々について、それらと共起する単純述語テンプレートペアをインターネット40から収集するためのテンプレートペア収集部100と、テンプレートペア収集部100が収集した単純述語テンプレートペアを、それらと共起した名詞ペアと関係付けて記憶するためのテンプレートペアDB102と、テンプレートペアDB102に記憶された単純述語テンプレートペアの各々について、その単純述語テンプレートペアを構成する単純述語テンプレートの活性/不活性が同じか否か(マッチするか否か)を、その単純述語テンプレートペアと共起する名詞ペアの関係(正/負)と、単純述語テンプレートを連結している接続詞等が順接か逆接かに基づいて判定し、各単純述語テンプレートペアにその結果をタグとして付与するためのテンプレート活性マッチ判定部104とを含む。
(2)関係が正である名詞ペアと共起し、逆接の接続詞等により接続される単純述語テンプレートペアの活性は反対
(3)関係が負である名詞ペアと共起し、順接の接続詞等により接続される単純述語テンプレートペアの活性は反対
(4)関係が負である名詞ペアと共起し、逆接の接続詞等により接続される単純述語テンプレートペアの活性は同じ
単純述語テンプレート収集部60はさらに、テンプレートペアDB102に記憶された単純述語テンプレートペアとそのマッチ判定結果とに基づいて、単純述語テンプレート間にネットワークを構築するためのテンプレートネットワーク構築部106と、テンプレートネットワーク構築部106が、ネットワークの構築時に単純述語テンプレート間のリンクを追加するために使用する同義・含意関係辞書108とを含む。このネットワークを本明細書では「テンプレートネットワーク」と呼ぶ。
一方、図7を参照して、図1に示す複雑述語テンプレート収集部64は、単純述語テンプレートDB62及びWEBアーカイブ44から複雑述語テンプレートDB66を生成するためのものである。複雑述語テンプレート収集部64は、複雑述語テンプレートの対象となる名詞を記憶した対象名詞辞書260と、単純述語テンプレートDB62及び対象名詞辞書260を参照しながら、WEBアーカイブ44から複雑述語テンプレートの候補を抽出し、それらをその名詞部分にしたがってサ変名詞テンプレートと、数量名詞テンプレートと、トラブル名詞テンプレートとに分類するための複雑述語テンプレート候補抽出部268とを含む。複雑述語テンプレート候補抽出部268はコンピュータプログラムにより実現される。その構成については図8を参照して後述する。
図8を参照して、図7に示す複雑述語テンプレート候補抽出部268を実現するコンピュータプログラムは以下のような制御構造を持つ。すなわち、このプログラムは、WEBアーカイブ44に記憶された全文書の全文に対して以下の処理を繰返すステップ300を含む。ステップ300で繰返される処理は、対象となる文に対して形態素解析を行なって形態素列を出力するステップ302と、ステップ302で得られた形態素列に対して係り受け解析を行ない、係り受け木を出力するステップ304と、この係り受け木に含まれる全ノードに対して以下の処理を実行するステップ306とを含む。
図7に示すサ変名詞極性付与部276は図9に示すコンピュータプログラムにより実現される。図9を参照して、このプログラムは、サ変名詞テンプレート候補DB270に記憶された全てのサ変名詞テンプレート候補に対して以下の処理を実行するステップ340を含む。
図10を参照して、図7に示すトラブル名詞極性付与部280は、以下のような制御構造を持つプログラムにより実現できる。このプログラムは、トラブル名詞テンプレート候補DB274に記憶された全てのトラブル名詞テンプレート候補について以下の処理を実行するステップ370を含む。
図11を参照して、図1に示す因果関係フレーズペア収集部68は、単純述語テンプレートDB62、複雑述語テンプレートDB66、単語クラスDB46、名詞の極性辞書420、トラブル名詞極性判定用辞書266、サ変名詞極性辞書262、及び矛盾表現辞書422を参照して、WEBアーカイブ44から因果関係の原因フレーズ及び結果フレーズの関係にあるフレーズペアを抽出し、因果関係フレーズペアDB70に記憶する機能を持つ。矛盾表現辞書422は、互いに矛盾する単純述語テンプレートからなる単純述語テンプレートペアを収集して作成したものである。
因果関係シードペア収集部408は、コンピュータプログラムにより実現可能である。図12を参照して、このコンピュータプログラムは、一文中で順接の接続詞等により接続された形でWEBアーカイブ44内において共起しているフレーズペア(「名詞+述語テンプレート」(単純述語テンプレートと複雑述語テンプレートとの双方を含む。)のペア)をWEBアーカイブ44から収集し、あわせてそれらの共起頻度も算出するステップ440と、ステップ440で収集されたフレーズペアの各々に対して以下に述べる処理を実行するステップ442とを含む。ここで、個々のフレーズペアを構成するフレーズの名詞で形成されるペアを名詞ペア、述語テンプレートで形成されるペアを述語テンプレートペアと呼ぶ。
。ステップ454で各因果関係フレーズペアに対して行なわれる処理は、因果関係強度のスコアCs(p1,p2)を以下の式により算出する処理である。
図13を参照して、図11に示す因果関係仮説生成部412は、因果関係シードペアDB410及び単語クラスDB46と、意味的関係パターンDB400及び単語対DB402に接続され、因果関係シードペアDB410に記憶された因果関係シードペアに含まれる名詞ペアの意味的関係のパターンを意味的関係パターンDB400とマッチングする意味的関係パターンマッチング部470と、単語対DB402に記憶された単語対のうち、意味的関係パターンマッチング部470により因果関係シードペアの意味的関係パターンとマッチすると判定された意味的関係にある単語対を単語対DB402から読み出し、元の因果関係シードペア内の名詞ペアと置換することにより、新たな因果関係仮説を生成する単語対置換部472と、因果関係シードペアDB410に格納された因果関係シードペアの各々について、矛盾表現辞書422を参照して、因果関係シードペアの各フレーズの単純述語テンプレートをそれぞれ矛盾表現に置換することで新たな因果関係仮説を生成するテンプレート置換部476と、単語対置換部472及びテンプレート置換部476により新たに生成された因果関係仮説の因果関係強度のスコアを算出し、そのスコアを因果関係仮説に付して因果関係仮説DB416に追加するスコア算出部474とを含む。テンプレート置換部476による新たな因果関係仮説生成の根拠としては、元の因果関係フレーズのペアが妥当である場合には、その裏(各フレーズの述部を否定したペア)も妥当である可能性が高いためである。例えば「ストレスが増加する→不眠が続く」が妥当である場合、その裏に相当する「ストレスが減少する→不眠が改善される」も妥当と考えられる、等である。
図14を参照して、本実施の形態で採用した単語対抽出部406は、WEBアーカイブ44及びシードパターンDB404に接続され、WEBアーカイブ44から特定のパターンを抽出するパターン抽出部490と、パターン抽出部490により抽出されたパターンを記憶するパターンDB492と、シードパターンDB404に記憶されたシードパターン及びパターンDB492に記憶されたパターンを参照し、WEBアーカイブ44から各パターンに合致する(上記したA及びBの関係にある)単語対を取得する単語対候補取得部494と、単語対候補取得部494により抽出された単語対を記憶する単語対候補DB496と、パターンDB492に記憶されたパターンのうち、シードパターンDB404に記憶されたシードパターンのいずれかと類似したパターンを、それらパターンから抽出された単語対の集合の類似度に基づいて特定し、シードパターンDB404に新たなシードパターンとしてマージするパターンマージ部518とを含む。パターンマージ部518は、このようにして追加されたシードパターンには、その新たなシードパターンと最も類似していたシードパターンの属するシードパターン群の意味的関係のラベルを付してシードパターンDB404に追加する。
パターン抽出部490は、以下のような工程を経てWEBアーカイブ44に記憶された文書からパターンを抽出する。すなわちパターン抽出部490は、WEBアーカイブ44に記憶された各文書の各文について、形態素解析し、さらに係り受け解析を行なう。この結果、各文について係り受け木(を表すデータ)が得られる。パターン抽出部490は、この係り受け木の各名詞を起点とし、別の名詞を終点とする係り受け木上のパスを1つのパターン候補として、その経路に存在する形態素列を抽出する。そしてこの形態素列上の名詞をそれぞれ変数に置換する。この際、単語クラスDB46を参照して、各名詞が属するクラスを調べ、各変数にその変数の属するクラス情報として付加する。これにより1つのパターンが得られる。1つの文からは複数個のパターンが得られることがある。さらに、1つの名詞にかかっている名詞が2つとは限らないので、同一の名詞に対応する変数を含んだ複数個のパターンが得られることもある。
単語対候補取得部494は、WEBアーカイブ44に含まれる全文書の全文を対象に、シードパターンDB404に記憶されているシードパターンと共起する単語対を調べ、取得する。この場合、単語対がシードパターンと共起する、とは、文書内に存在する、ある単語対を含む文字列であって、その単語対をそれぞれの単語クラスに置換したものが、シードパターンと一致する、ということである。単語対候補取得部494は、このようにして得られた単語対を、一致したシードパターンの識別情報とともに単語対候補DB496に格納する。単語対候補取得部494はまた、シードパターンが単語対と共起した頻度をシードパターン及び単語クラス対の組合せごとに計数し、単語対候補DB496に記憶する。
クラス対適合度とは、2つの単語クラスがあるシードパターン群に属するシードパターンのいずれかと共起する頻度(程度)を表す指標である。クラス対適合度算出部502は、各クラス対のクラス対適合度を算出する。本実施の形態では、2つのクラス対に属する単語が、シードパターン群Pに属するいずれかのシードパターンpと共起する頻度が高いほど、そのクラス対のクラス対適合度は高くなるようにクラス対適合度を定義する。例えば単語クラス対ci及びcjの、シードパターン群Pに対するクラス対適合度C(ci,cj,P)を以下のように定義できる。なお次式においてni及びnjはそれぞれ単語クラスci及びcjに属する単語を表す。*は任意のパターンを表す。
パターン類似度算出部506は、パターンDB492に格納されている各パターンと、シードパターンDB404に記憶されている各シードパターン群との類似度を算出し、パターン類似度DB508にパターン群とパターンとの組合せごとに格納する。本実施の形態では、あるシードパターン群とパターンとの間のパターン類似度とは、シードパターン群に属するシードパターンと共起するクラス対と、対象となるパターンと共起するクラス対との重なりの程度を示すものとして定義する。すなわち、あるシードパターン群に属するシードパターンの集合Pと、対象となるパターンpとの間のパターン類似度S(P,p)は、集合Pに属するシードパターンと共起する単語クラスci及び単語クラスcjからなる単語クラス対(ci×cj)の集合をI(Pci×cj)、パターンと共起する単語クラス対(ci×cj)の集合をI(pci×cj)とすると、例えば以下の式により定義される。
親和性情報とは、ある単語対とあるパターンとが共起する頻度が高いほど値が高くなる、その単語対とそのパターンとの親和性を表す指標である。本実施の形態では、この頻度はWEBアーカイブ44内における単語対とパターンとの共起頻度を表すものとする。本実施の形態において、単語対(n1,n2)とパターンpとの親和性情報Assoc(p,n1,n2)は以下の式により定義される。なお、以下の式で(n1,p,n2)は、単語対(n1,n2)がパターンpと共起しているインスタンスの集合を示し、「*」はその位置により、任意のパターン又は単語を示す。
除外クラス対特定部514は、最終的に出力される単語対の集合から除外される単語のクラス対を特定する。本実施の形態では、各単語クラス対に対して、そのクラス対にそれぞれ属する単語からなる単語対の平均出現頻度を算出し、その値の差が大きな単語クラス対を除外クラスとする。すなわち、出現頻度が大きく異なる単語対は単語対として適切でないものとして除外する。ここでは、出現頻度が小さな単語クラスの出現頻度に対する、出現頻度が大きな単語クラスの出現頻度の比率がしきい値を超えた場合に、その単語クラス対を除外する。しきい値は事前の実験により適切な値に設定する必要がある。本実施の形態では、この値を25程度に設定する。
単語対スコアリング部498は、クラス対適合度DB504に記憶された単語クラスのクラス適合度、パターン類似度DB508に記憶されたパターン類似度、親和性情報DB512に記憶された親和性情報、及び除外クラス対DB516に記憶された除外クラス対情報に基づいて、単語対候補DB496に記録された各単語対のうち、除外対象となっていない単語対とその単語対と最も適合したシードパターンとの組合せの各々について所定のスコアを計算し、単語対選択部500に出力する。このスコアは、本実施の形態では、クラス適合度、パターン類似度、及び親和性情報のいずれに対しても正の相関を以て変化するように定義する。
単語対選択部500は、ソートされた単語対とシードパターン群との組合せのうち、上位所定個数を選択して単語対DB402に出力する。このとき、単語対選択部500は、各単語対に、組となっているシードパターン群の識別子を付す。選択する単語対の個数は実験により予め決定しておく。
パターンマージ部518は、パターンDB492に記憶されたパターンの各々とシードパターンDB404に記憶されたパターン群の各々とについて、パターン類似度算出部506により算出されたパターン類似度をパターン類似度DB508から読み出し、パターン類似度がしきい値より高いパターンを新たなシードパターンとして、そのシードパターン群に追加する。
図13に示す因果関係仮説生成部412を構成する意味的関係パターンマッチング部470、単語対置換部472、スコア算出部474及びテンプレート置換部476は、いずれもコンピュータプログラムにより実現できる。本実施の形態におけるそのためのプログラムの制御構造について説明する。
以上のようにして生成された因果関係仮説には、正しいものも含まれるが、誤ったものも含まれる。そこで、正しい因果関係のみを選択することが必要である。因果関係仮説フィルタリング部418はそうしたフィルタリングの処理を実行する。
一貫性検証フィルタリング部550は、因果関係の原因フレーズ及び結果フレーズに含まれる名詞ペアに着目し、ある因果関係仮説が、他の因果関係仮説と一貫しているか否かを判断して一貫しているもののみを残す処理を行なう。ここで、例えば「海面が上昇する→干ばつが続く」という因果関係仮説があったとすれば、この因果関係仮説の名詞ペアは「海面」及び「干ばつ」となる。
関連度によるフィルタリング部552は、因果関係仮説の名詞ペアについて、相互の関連度が低いものを除外する。関連度としては、例えば相互情報量(PMI)、DICE係数、Jaccard係数、χ二乗値などを使用できる。具体的な計算方法は以下のとおりである。
PMIは名詞x、yの関連度を表す指標である。PMI(x,y)は以下の式で算出される。以下の式でP(x)は名詞xの出現確率、P(y)は名詞yの出現確率P(x,y)は名詞x、yの共起確率を表す。
DICE係数は、2つの単語間の共起関係を定量化するために使用される。単語xが出現する文書数をdf(x)、単語yが出現する文書数をdf(y)とし、単語x,yの共起頻度をdf(x、y)とすると、単語x,yに対するダイス係数DICE(x、y)は以下の式で計算される。
Jaccard係数は、2つの集合の類似度を表す尺度である。例えば名詞xが出現する文又は文書の集合をS(x),名詞yが出現する文又は文書の集合をS(y)としたときに、名詞x,yの間の類似度は、以下のように集合S(x)及びS(y)の間のJaccard係数J(S(x),S(y))で表すことができる。
χ二乗値はχ二乗検定で使用されるが、2つの単語が無関係か否かを調べる際に使用できる。例えば、2つの単語x,yに関するχ二乗値は、多数の文書において単語x,yがそれぞれ出現するか否かに基づいて、例えば縦軸に単語x、横軸に単語yの出現の有無をそれぞれラベルとする2×2のクロス表を作成することで、次の式により算出される。
出現順序検証によるフィルタリング部554は、因果関係仮説の構成要素の出現順序に基づいて因果関係仮説をフィルタリングする。例えば、WEBアーカイブ44のある文において、ある因果関係仮説の結果フレーズの名詞が原因フレーズの名詞より先に出現している場合、その因果関係を除外するという方法が考えられる。
名詞の出現頻度によるフィルタリング部556は、異なる多数の因果関係仮説に出現する名詞ペアを含む因果関係仮説を除外する。例えば以下のような例が考えられる
−「地球温暖化が進行する→被害を被る」
−「株安になる→被害が発生する」
−「被害が出る→計画を中止する」
この例では、多数出現する「被害」という名詞を含むため、これら因果関係仮説を全て除外する。このように異なる多数の因果関係仮説に出現する名詞は、そもそも意味が漠然としており、因果関係として採用するのは避けた方がよいためである。
名詞の出現頻度算出部558は、因果関係仮説DB416に格納されている因果関係仮説フレーズペアの原因フレーズ内の名詞と結果フレーズ内の名詞との各々について、予め因果関係仮説DB416の全ての因果関係仮説における出現頻度を計算する。
名詞の出現頻度DB560は、名詞の出現頻度算出部558により計算された、各名詞の出現頻度を格納するためのものである。名詞の出現頻度DB560は、名詞が与えられるとその出現頻度を返すことができる。名詞の出現頻度によるフィルタリング部556はこの機能を用いて因果関係仮説のフィルタリングを行なう。
除外単語によるフィルタリング部566は、WEBアーカイブ44において「AのB」における「B」のように、修飾句により修飾された名詞(「被修飾名詞」と呼ぶ。)を含む因果関係仮説を除外する。このように修飾句が名詞に付されている場合、フレーズの意味はむしろ修飾句により表されており、被修飾名詞そのものの意味は特定的でなく漠然としていると考えられるためである。すなわち、被修飾名詞を含む因果関係仮説も、因果関係として採用することが妥当とは言えないためである。このようにして得られた被修飾名詞を、ここでは除外単語と呼ぶ。因果関係仮説フィルタリング部418は、このために、被修飾名詞の抽出部562及び除外単語DB564を含む。
被修飾名詞の抽出部562は、WEBアーカイブ44から被修飾名詞の集合を抽出する。この処理はいつでも可能である。
除外単語DB564は、被修飾名詞の抽出部562により抽出された被修飾名詞を、除外単語として記憶する。除外単語DB564は、名詞が与えられると、その名詞が除外単語か否かを表す情報を出力する機能を持つ。典型的には、除外単語DB564は、除外単語によるフィルタリング部566から名詞が与えられると、その名詞が除外単語として記憶されているか否かを示す情報を除外単語によるフィルタリング部566に返す。除外単語DB564に名詞が記憶されていれば除外単語によるフィルタリング部566はその単語を含む因果関係仮説を除外する。なければその因果関係仮説は採用され、因果関係フレーズペアDB70に記憶される。
図17を参照して、社会シナリオ生成部72は、因果関係フレーズペアDB70に記憶された因果関係フレーズペアを連鎖させることにより社会シナリオ候補を生成する社会シナリオ候補生成部580と、社会シナリオ候補生成部580により生成された社会シナリオ候補を所定のスコアでランキングして社会シナリオDB38に出力する社会シナリオランキング部582とを含む。因果関係フレーズペアが多数ある場合、それらから適切なものを適切な順序で連鎖させることにより、因果関係で結ばれた長い因果関係フレーズ列が得られる。本実施の形態では、このフレーズ列を社会シナリオと呼ぶ。この社会シナリオは、人間が考えないような関係で多くの因果関係を結び付け、ある原因フレーズから、思いもよらない結果フレーズを導き出すことができる。ただし、そのためには、因果関係を連鎖させるために適切な因果関係フレーズペアのペアを選び、これらを連鎖させていく必要がある。社会シナリオ候補生成部580はそのためのものである。ただし、このようにして生成された社会シナリオであっても、その原因と結果との間の関係が適切なものと、それほど適切ではないものとが存在するはずである。社会シナリオの適切さを表すスコアを各社会シナリオに付し、スコアの高い社会シナリオとそうでない社会シナリオとを判別できるようにするのが社会シナリオランキング部582である。
図18を参照して、社会シナリオ候補生成部580は、単純述語テンプレートDB62、因果関係フレーズペアDB70、及び単語クラスDB46を参照し、因果関係フレーズペアDB70内において、名詞が同じで単純述語テンプレートの極性が同じフレーズを、因果的一貫性を持つ同義のフレーズとみなしてその組合せを表す情報(連鎖情報)を生成し出力する第1の同義関係生成部600を含む。この連鎖情報は、因果的一貫性を持つと判定された2つのフレーズの識別子をペアにしたものである。
図19を参照して、本実施の形態に係る社会シナリオランキング部582(図17参照)は、社会シナリオ候補DB618に記憶された社会シナリオに、それらを構成する全ての因果関係フレーズペアの因果関係としての強さに基づくスコアを付与する。本実施の形態では、社会シナリオランキング部582は、ある社会シナリオ候補に含まれる因果関係フレーズペアの各々について、図12を参照して説明した因果関係強度のスコアを付与する。社会シナリオランキング部582はさらに、それらを全て乗算することで社会シナリオ候補にスコアを付与する。
この第1の実施の形態に係る社会シナリオ生成システム30は、以下のように動作する。図1を参照して、シードテンプレートDB32には予め少数のシードテンプレートが格納される。各シードテンプレートが活性か否かについても予め判断されており、各テンプレートにそのタグが付されている。一方、接続詞DB34には、日本語の順接接続詞等及び逆接接続詞等が格納され、それらの種類も記憶されている。また、矛盾表現辞書422(図11、図13)には、予め収集された、互いに矛盾する表現からなるペアが多数記憶されている。
図7に示すトラブル名詞極性判定用辞書266については、予めWEBアーカイブ44を参照してトラブル名詞の極性を判定するために必要なパターンを収集し、極性とともに記憶しておく。
単純述語テンプレート収集部60は以下のように動作して単純述語テンプレートDB62を構築する。図2を参照して、初期テンプレートペア生成部90は、シードテンプレートDB32に記憶された全シードテンプレートの全ての組合せと、接続詞DB34に記憶された接続詞等との可能な組合せを全て生成し、これらを全てテンプレートペアとして初期テンプレートペアDB92に記憶させる。名詞ペア収集部94は、初期テンプレートペアDB92に記憶されたテンプレートペアの各々について、そのテンプレートペアと共起する名詞ペアをWEBアーカイブ44から収集し、名詞ペアDB96に記憶させる。名詞ペア極性判定部98は、これら名詞ペアの各々について、その名詞ペアと共起するテンプレートペア内のテンプレートの活性/不活性と、テンプレートペアを結び付ける接続詞DB34からの接続詞等の種類とに応じて、その名詞ペアが正の関係か負の関係かを判定し、各名詞ペアに極性タグを付与する。
具体的には複雑述語テンプレート収集部64の複雑述語テンプレート候補抽出部268は、以下のようにしてサ変名詞テンプレート候補DB270、数量名詞テンプレート候補DB272、及びトラブル名詞テンプレート候補DB274を構築する(図7)。すなわち、図8を参照して、複雑述語テンプレート候補抽出部268は、WEBアーカイブ44の全文書の全文に対して(ステップ300)、形態素解析(ステップ302)及び係り受け解析(ステップ304)を実行し、係り受け木を生成する。続いて、各ノードに対して、次のような処理を実行する(ステップ306)。
図1に示す因果関係フレーズペア収集部68は、複雑述語テンプレートDB66が生成された後、以下のようにして因果関係フレーズペアDB70を構築する。なおこの処理に先立って、意味的関係パターンDB400、単語対DB402、及び名詞の極性辞書420(図11)を準備しておく必要がある。
因果関係シードペアDB410に記憶された因果関係シードペアは大量ではあるものの、考えられる全ての因果関係を網羅したものではない。そこで、これら因果関係シードペアから、合理的な範囲でより多くの因果関係の仮説を生成し、最終的に得られる社会シナリオがカバーする範囲を広げることが必要である。そのために図11に示す因果関係仮説生成部412は、因果関係シードペアDB410に記憶された因果関係シードペアから次のようにさらに多数の因果関係仮説を生成し、因果関係仮説DB416に格納する。なお、本実施の形態では、この処理に先立って、既に説明したように、意味的関係パターンDB400、単語対DB402、及び互いに矛盾する表現からなる述語テンプレートペアを矛盾表現辞書422に記憶しておくことが必要である。
上のようにして生成された因果関係仮説には、妥当でないものも多く含まれる。そこで、そうした誤った因果関係仮説を除去する必要がある。図11に示す因果関係仮説フィルタリング部418はその処理を行なう。
上記した処理で構築された因果関係フレーズペアDB70を用いると、多くの社会シナリオを生成できる。社会シナリオの生成を行なうのが図1に示す社会シナリオ生成部72である。
上記第1の実施の形態では、社会シナリオのスコアを社会シナリオの生成過程で得られた各因果関係フレーズペアについて算出されたスコアの乗算で算出している。しかし、社会シナリオのランキング手法は、上記した実施の形態の手法には限定されない。この手法と異なる様々なランキング手法を採用できる。以下に述べる第2の実施の形態は、社会シナリオのスコアを、社会シナリオ又はその一部(「部分シナリオ」と呼ぶ。)がインターネット40のいくつの文書に掲載されているか、文書に掲載されている箇所と社会シナリオにおける部分シナリオとの一致度がどの程度かに基づいて社会シナリオのスコアを算出する。
上記した実施の形態については多くの変形が考えられる。以下、それらについて列挙する。
上記実施の形態に係るシステムは、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図22はこのコンピュータシステム930の外観を示し、図23はコンピュータシステム930の内部構成を示す。
32 シードテンプレートDB
34 接続詞DB
36 社会シナリオDB構築装置
38 社会シナリオDB
40 インターネット
42 WEBクローラ
44 WEBアーカイブ
46 単語クラスDB
48 社会シナリオ出力部
60 単純述語テンプレート収集部
62 単純述語テンプレートDB
64 複雑述語テンプレート収集部
66 複雑述語テンプレートDB
68 因果関係フレーズペア収集部
70 因果関係フレーズペアDB
72 社会シナリオ生成部
90 初期テンプレートペア生成部
92 初期テンプレートペアDB
94 名詞ペア収集部
96 名詞ペアDB
98 名詞ペア極性判定部
100 テンプレートペア収集部
102 テンプレートペアDB
104 テンプレート活性マッチ判定部
106 テンプレートネットワーク構築部
108 同義・含意関係辞書
110 テンプレートネットワークDB
112 テンプレート活性値算出部
114 高活性度テンプレート抽出部
116 終了判定部
118 シードテンプレート更新部
140 テンプレートネットワーク
260 対象名詞辞書
262 サ変名詞極性辞書
264 サ変名詞極性判定部
266 トラブル名詞極性判定用辞書
268 複雑述語テンプレート候補抽出部
270 サ変名詞テンプレート候補DB
272 数量名詞テンプレート候補DB
274 トラブル名詞テンプレート候補DB
276 サ変名詞極性付与部
278 数量名詞極性付与部
280 トラブル名詞極性付与部
282 複雑述語テンプレート極性算出部
400 意味的関係パターンDB
402 単語対DB
404 シードパターンDB
406 単語対抽出部
408 因果関係シードペア収集部
410 因果関係シードペアDB
412 因果関係仮説生成部
416 因果関係仮説DB
418 因果関係仮説フィルタリング部
420 名詞の極性辞書
422 矛盾表現辞書
470 意味的関係パターンマッチング部
472 単語対置換部
474 スコア算出部
490 パターン抽出部
492 パターンDB
494 単語対候補取得部
496 単語対候補DB
498 単語対スコアリング部
500 単語対選択部
502 クラス対適合度算出部
504 クラス対適合度DB
506 パターン類似度算出部
508 パターン類似度DB
510 親和性情報算出部
512 親和性情報DB
514 除外クラス対特定部
516 除外クラス対DB
518 パターンマージ部
550 一貫性検証フィルタリング部
552 関連度によるフィルタリング部
554 出現順序検証によるフィルタリング部
556 名詞の出現頻度によるフィルタリング部
558 名詞の出現頻度算出部
560 名詞の出現頻度DB
562 被修飾名詞の抽出部
564 除外単語DB
566 除外単語によるフィルタリング部
580 社会シナリオ候補生成部
582 社会シナリオランキング部
600,602,604 同義関係生成部
606 連結関係生成部
608 連結情報生成部
610 連結関係DB
612 因果関係連結部
614 テンプレート分布類似度DB
616 分布類似度算出部
618 社会シナリオ候補DB
640 全体因果関係スコア算出部
642 スコア付き社会シナリオ候補DB
644 社会シナリオソート部
646 ソート済社会シナリオ候補DB
648 社会シナリオ選択部
700 部分シナリオスコア算出部
702 部分シナリオスコア記憶部
704 全体因果関係スコア算出部
Claims (6)
- それぞれ原因とその結果とを表す、自然言語文の第1及び第2のフレーズからなる1又は複数のシードペアを元に、因果関係を表すと推定される2つのフレーズからなるフレーズペアの仮説を収集するためのフレーズペア収集装置であって、
前記フレーズの各々は、名詞と述語テンプレートとの組合せを含み、
前記シードペアを記憶するためのシードペア記憶手段と、
単語間の意味的関係パターンを記憶する意味的関係パターン記憶手段と、
前記意味的関係パターン記憶手段に記憶された意味的関係パターンのいずれかと関係付けられた単語対を記憶する単語対記憶手段と、
前記シードペア記憶手段に記憶されたシードペアの各々について、当該シードペアを構成するフレーズ内の名詞からなる名詞対が、前記意味的関係パターンのいずれにマッチするかを判定する意味的関係パターンマッチング手段と、
前記単語対記憶手段に記憶された単語対のうち、前記意味的関係パターンマッチング手段により前記名詞対とマッチすると判定された意味的関係パターンに関係付けられた単語対の各々を用いて前記シードペアの当該名詞対を置換することにより新たな仮説を生成する単語対置換手段とを含む、フレーズペア収集装置。 - さらに、互いに矛盾する意味を表現する述語テンプレートを記憶する矛盾表現記憶手段と、
前記シードペアの各々について、当該シードペアを構成する2つのフレーズの各々の述語テンプレートを、前記矛盾表現記憶手段から読み出した、当該述語テンプレートと矛盾する述語テンプレートで置換することにより新たな仮説を生成する述語テンプレート置換手段を含む、請求項1に記載のフレーズペア収集装置。 - 単語の属するクラスを記憶する単語クラス記憶手段をさらに含み、
前記意味的関係パターンの各々は、第1の単語クラスと第2の単語クラスとの間での関係を示し、
前記意味的関係パターンマッチング手段は、
前記シードペア記憶手段に記憶されたシードペアの各々について、当該シードペアを構成するフレーズ内の名詞からなる名詞対の単語クラスを前記単語クラス記憶手段から検索する単語クラス検索手段と、
前記単語クラス検索手段により検索された単語クラスの対が、前記意味的関係パターンのいずれにマッチするかを判定するマッチング手段とを含む、請求項1又は請求項2に記載のフレーズペア収集装置。 - 前記シードペアを構成するフレーズの各々の述語テンプレートには、予め定義された極性の値が付与されており、
前記極性の値は正負の値のいずれかをとり、
前記単語対置換手段により名詞対が置換されたフレーズペアの仮説を受け、各仮説について、フレーズペアが因果関係を表す程度を示すスコアを、当該フレーズペアの各フレーズに含まれる述語テンプレートの極性と、各フレーズに含まれる名詞の、コーパス内において述語テンプレートペアと共起する頻度との関数として算出し、各フレーズペアに付与するスコア算出手段をさらに含む、請求項1〜請求項3のいずれかに記載のフレーズペア収集装置。 - 前記フレーズペア収集装置はさらに、前記単語対置換手段により生成された新たな仮説に対し、因果関係を表すフレーズペアとして妥当なもののみを残すように仮説をフィルタリングするフィルタリング手段を含む、請求項1〜請求項4のいずれかに記載のフレーズペア収集装置。
- コンピュータを、請求項1〜請求項5のいずれかに記載の全ての手段として機能させる、コンピュータプログラム。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013264598A JP6403382B2 (ja) | 2013-12-20 | 2013-12-20 | フレーズペア収集装置、及びそのためのコンピュータプログラム |
PCT/JP2014/083453 WO2015093540A1 (ja) | 2013-12-20 | 2014-12-17 | フレーズペア収集装置、及びそのためのコンピュータプログラム |
US15/104,856 US10095685B2 (en) | 2013-12-20 | 2014-12-17 | Phrase pair collecting apparatus and computer program therefor |
CN201480069207.2A CN106104519B (zh) | 2013-12-20 | 2014-12-17 | 短语对收集装置以及计算机可读取的存储介质 |
EP14872850.4A EP3086237A4 (en) | 2013-12-20 | 2014-12-17 | Phrase pair gathering device and computer program therefor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013264598A JP6403382B2 (ja) | 2013-12-20 | 2013-12-20 | フレーズペア収集装置、及びそのためのコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015121896A true JP2015121896A (ja) | 2015-07-02 |
JP6403382B2 JP6403382B2 (ja) | 2018-10-10 |
Family
ID=53402884
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013264598A Active JP6403382B2 (ja) | 2013-12-20 | 2013-12-20 | フレーズペア収集装置、及びそのためのコンピュータプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US10095685B2 (ja) |
EP (1) | EP3086237A4 (ja) |
JP (1) | JP6403382B2 (ja) |
CN (1) | CN106104519B (ja) |
WO (1) | WO2015093540A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017054434A (ja) * | 2015-09-11 | 2017-03-16 | 日本電信電話株式会社 | 矛盾作成装置、方法、及びプログラム |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5825676B2 (ja) * | 2012-02-23 | 2015-12-02 | 国立研究開発法人情報通信研究機構 | ノン・ファクトイド型質問応答システム及びコンピュータプログラム |
JP6551968B2 (ja) * | 2015-03-06 | 2019-07-31 | 国立研究開発法人情報通信研究機構 | 含意ペア拡張装置、そのためのコンピュータプログラム、及び質問応答システム |
US10387569B2 (en) | 2015-08-28 | 2019-08-20 | Freedom Solutions Group, Llc | Automated document analysis comprising a user interface based on content types |
CN106919542B (zh) | 2015-12-24 | 2020-04-21 | 北京国双科技有限公司 | 规则匹配方法及装置 |
US10706044B2 (en) | 2016-04-06 | 2020-07-07 | International Business Machines Corporation | Natural language processing based on textual polarity |
JP6767042B2 (ja) * | 2016-09-26 | 2020-10-14 | 国立研究開発法人情報通信研究機構 | シナリオパッセージ分類器、シナリオ分類器、及びそのためのコンピュータプログラム |
JP6721179B2 (ja) * | 2016-10-05 | 2020-07-08 | 国立研究開発法人情報通信研究機構 | 因果関係認識装置及びそのためのコンピュータプログラム |
US12019981B2 (en) | 2017-03-13 | 2024-06-25 | Arizona Board Of Regents On Behalf Of The University Of Arizona | Method and system for converting literature into a directed graph |
US10503791B2 (en) * | 2017-09-04 | 2019-12-10 | Borislav Agapiev | System for creating a reasoning graph and for ranking of its nodes |
US12182188B2 (en) * | 2018-12-31 | 2024-12-31 | Entigenlogic Llc | Generating a subjective query response utilizing a knowledge database |
US11423221B2 (en) * | 2018-12-31 | 2022-08-23 | Entigenlogic Llc | Generating a query response utilizing a knowledge database |
CN110309378B (zh) * | 2019-06-28 | 2023-06-09 | 深圳前海微众银行股份有限公司 | 一种问题答复的处理方法、装置及系统 |
CN110807325B (zh) * | 2019-10-18 | 2023-05-26 | 腾讯科技(深圳)有限公司 | 谓词识别方法、装置及存储介质 |
CN113822043A (zh) * | 2021-09-23 | 2021-12-21 | 上海明略人工智能(集团)有限公司 | 事理因果关系抽取方法和系统 |
WO2023105294A1 (en) * | 2021-12-10 | 2023-06-15 | Newsouth Innovations Pty Limited | Methods, systems, devices and neural networks for forecasting a time series |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013175097A (ja) * | 2012-02-27 | 2013-09-05 | National Institute Of Information & Communication Technology | 述語テンプレート収集装置、特定フレーズペア収集装置、及びそれらのためのコンピュータプログラム |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5775375A (en) * | 1980-10-28 | 1982-05-11 | Sharp Corp | Electronic interpreter |
US9009590B2 (en) * | 2001-07-31 | 2015-04-14 | Invention Machines Corporation | Semantic processor for recognition of cause-effect relations in natural language documents |
US20050033569A1 (en) * | 2003-08-08 | 2005-02-10 | Hong Yu | Methods and systems for automatically identifying gene/protein terms in medline abstracts |
US20050273314A1 (en) * | 2004-06-07 | 2005-12-08 | Simpleact Incorporated | Method for processing Chinese natural language sentence |
JP2009059323A (ja) | 2007-09-04 | 2009-03-19 | Omron Corp | 知識生成システム |
US8306806B2 (en) * | 2008-12-02 | 2012-11-06 | Microsoft Corporation | Adaptive web mining of bilingual lexicon |
JP5392833B2 (ja) | 2009-08-31 | 2014-01-22 | 日本電信電話株式会社 | ストーリー生成システム、方法、およびプログラム |
JP5382651B2 (ja) * | 2009-09-09 | 2014-01-08 | 独立行政法人情報通信研究機構 | 単語対取得装置、単語対取得方法、およびプログラム |
US20120296845A1 (en) | 2009-12-01 | 2012-11-22 | Andrews Sarah L | Methods and systems for generating composite index using social media sourced data and sentiment analysis |
JP5398007B2 (ja) | 2010-02-26 | 2014-01-29 | 独立行政法人情報通信研究機構 | 関係情報拡張装置、関係情報拡張方法、及びプログラム |
JP2012027845A (ja) * | 2010-07-27 | 2012-02-09 | Sony Corp | 情報処理装置、関連文提供方法、及びプログラム |
WO2013058118A1 (ja) | 2011-10-20 | 2013-04-25 | 日本電気株式会社 | テキスト含意判定装置、テキスト含意判定方法、及びコンピュータ読み取り可能な記録媒体 |
JP5834883B2 (ja) | 2011-12-20 | 2015-12-24 | 日本電気株式会社 | 因果関係要約方法、因果関係要約装置及び因果関係要約プログラム |
US20150095017A1 (en) * | 2013-09-27 | 2015-04-02 | Google Inc. | System and method for learning word embeddings using neural language models |
US9037967B1 (en) * | 2014-02-18 | 2015-05-19 | King Fahd University Of Petroleum And Minerals | Arabic spell checking technique |
-
2013
- 2013-12-20 JP JP2013264598A patent/JP6403382B2/ja active Active
-
2014
- 2014-12-17 CN CN201480069207.2A patent/CN106104519B/zh active Active
- 2014-12-17 US US15/104,856 patent/US10095685B2/en active Active
- 2014-12-17 WO PCT/JP2014/083453 patent/WO2015093540A1/ja active Application Filing
- 2014-12-17 EP EP14872850.4A patent/EP3086237A4/en not_active Withdrawn
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013175097A (ja) * | 2012-02-27 | 2013-09-05 | National Institute Of Information & Communication Technology | 述語テンプレート収集装置、特定フレーズペア収集装置、及びそれらのためのコンピュータプログラム |
Non-Patent Citations (4)
Title |
---|
DE SAEGER STIJN 外8名: "超低頻度構文パターンからの意味的関係獲得", 言語処理学会第17回年次大会発表論文集 チュートリアル 本会議 ワークショップ [CD−ROM], JPN6018001964, 31 March 2011 (2011-03-31), JP, pages 9 - 12, ISSN: 0003724739 * |
呉 鍾勲 外6名: "意味的極性と単語クラスを用いたWhy型質問応答の改善", 情報処理学会 論文誌(ジャーナル) VOL.54 NO.7 [ONLINE], vol. 第54巻第7号, JPN6018001966, 15 July 2013 (2013-07-15), JP, pages 1951 - 1966, ISSN: 0003724742 * |
土田 正明 外6名: "単語分布類似度を用いた類推による単語間の意味的関係獲得法", 情報処理学会論文誌 論文誌ジャーナル VOL.52 NO.4 [CD−ROM], vol. 第52巻第4号, JPN6018001963, 15 April 2011 (2011-04-15), JP, pages 1761 - 1776, ISSN: 0003724738 * |
石川 大介 外2名: "特許文献における因果関係を用いた類推による仮説の生成と検証", 情報知識学会誌, vol. 第17巻第3号, JPN6018001965, 18 September 2007 (2007-09-18), JP, pages 164 - 181, ISSN: 0003724741 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017054434A (ja) * | 2015-09-11 | 2017-03-16 | 日本電信電話株式会社 | 矛盾作成装置、方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
CN106104519A (zh) | 2016-11-09 |
CN106104519B (zh) | 2019-04-16 |
US20160321244A1 (en) | 2016-11-03 |
US10095685B2 (en) | 2018-10-09 |
EP3086237A1 (en) | 2016-10-26 |
WO2015093540A1 (ja) | 2015-06-25 |
JP6403382B2 (ja) | 2018-10-10 |
EP3086237A4 (en) | 2017-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5904559B2 (ja) | シナリオ生成装置、及びそのためのコンピュータプログラム | |
JP6403382B2 (ja) | フレーズペア収集装置、及びそのためのコンピュータプログラム | |
JP5907393B2 (ja) | 複雑述語テンプレート収集装置、及びそのためのコンピュータプログラム | |
CN107368468B (zh) | 一种运维知识图谱的生成方法及系统 | |
JP5391634B2 (ja) | 文書の段落分析によるその文書のタグの選択 | |
Altheneyan et al. | Big data ML-based fake news detection using distributed learning | |
JP5924666B2 (ja) | 述語テンプレート収集装置、特定フレーズペア収集装置、及びそれらのためのコンピュータプログラム | |
Bonet-Jover et al. | Exploiting discourse structure of traditional digital media to enhance automatic fake news detection | |
JP2009093651A (ja) | 統計分布を用いたトピックスのモデリング | |
Perez-Beltrachini et al. | Building rdf content for data-to-text generation | |
KR102454261B1 (ko) | 사용자 정보 기반 협업 파트너 추천 시스템 및 그 방법 | |
Das et al. | Graph-based text summarization and its application on COVID-19 twitter data | |
Cholissodin | Social Computing to Create Government Public Policy Document Blueprint Draft Based on Social Media Data About Covid-19 Using LSTM and MMR Hybrid Algorithms | |
KR102328234B1 (ko) | 소셜 네트워크에서 연관 문서 분석을 통한 지역 이벤트 검출 시스템 및 방법 | |
Kim et al. | Resilience and social change: Findings from research trends using association rule mining | |
Kawamura et al. | Science graph for characterizing the recent scientific landscape using paragraph vectors | |
Krzywicki et al. | A knowledge acquisition method for event extraction and coding based on deep patterns | |
Misale et al. | A survey on recommendation system for technical paper reviewer assignment | |
Saravanan et al. | Information retrieval from multi-domain specific research proposal using hierarchical-based neural network clustering algorithm | |
Samuel et al. | Examining opinions using likelihood reasoning using Twitter information | |
Afdilla et al. | Analysis and Comparison of the Performance of K-Means Algorithm and X-Means Algorithm in Disease Type Clustering in Mitra Medika Hospital | |
Moutidis | Event detection, event characterisation and community detection on evolving networks | |
Heap | A Knowledge Acquisition Method for Event Extraction and Coding Based on Deep Patterns | |
Kim et al. | A New Question Answering Approach with Conceptual Graphs. | |
Jaszuk et al. | Building a model of disease symptoms using text processing and learning from examples |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161117 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180123 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180828 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180911 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6403382 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |