JP2016192198A - 項共有判別器学習装置、言語知識収集装置、及び照応・省略解析装置 - Google Patents
項共有判別器学習装置、言語知識収集装置、及び照応・省略解析装置 Download PDFInfo
- Publication number
- JP2016192198A JP2016192198A JP2015147002A JP2015147002A JP2016192198A JP 2016192198 A JP2016192198 A JP 2016192198A JP 2015147002 A JP2015147002 A JP 2015147002A JP 2015147002 A JP2015147002 A JP 2015147002A JP 2016192198 A JP2016192198 A JP 2016192198A
- Authority
- JP
- Japan
- Prior art keywords
- term
- predicate
- sharing
- candidate
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 claims abstract description 80
- 239000000284 extract Substances 0.000 claims abstract description 20
- 238000004458 analytical method Methods 0.000 claims description 208
- 238000000034 method Methods 0.000 claims description 75
- 238000003860 storage Methods 0.000 claims description 60
- 238000000605 extraction Methods 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 19
- 230000000877 morphologic effect Effects 0.000 claims description 12
- 238000013179 statistical model Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 238000010801 machine learning Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000001962 electrophoresis Methods 0.000 claims description 4
- 230000001902 propagating effect Effects 0.000 claims description 3
- 230000014509 gene expression Effects 0.000 description 82
- 239000013598 vector Substances 0.000 description 70
- 230000008569 process Effects 0.000 description 42
- 238000012706 support-vector machine Methods 0.000 description 30
- 238000010586 diagram Methods 0.000 description 25
- 238000001514 detection method Methods 0.000 description 13
- 238000013500 data storage Methods 0.000 description 12
- 230000002452 interceptive effect Effects 0.000 description 11
- 230000007704 transition Effects 0.000 description 10
- 238000004519 manufacturing process Methods 0.000 description 9
- 230000001364 causal effect Effects 0.000 description 8
- 238000012795 verification Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 239000002245 particle Substances 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000000295 complement effect Effects 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 235000020095 red wine Nutrition 0.000 description 4
- 239000013589 supplement Substances 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 241000282412 Homo Species 0.000 description 3
- 208000006673 asthma Diseases 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 3
- 235000013305 food Nutrition 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 235000015041 whisky Nutrition 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 239000000428 dust Substances 0.000 description 2
- 208000019622 heart disease Diseases 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000004576 sand Substances 0.000 description 2
- 238000004092 self-diagnosis Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 241000208125 Nicotiana Species 0.000 description 1
- 235000002637 Nicotiana tabacum Nutrition 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 235000013405 beer Nutrition 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
[概略]
図3を参照して、本発明の第1の実施の形態に係る項共有判別器により収集した項共有知識を用いた学習データ生成補助装置においてアノテーションをテキストに付する作業の概略を説明する。図3の上段を参照して、表示装置の画面に、アノテーション対象のテキスト90が表示される。このテキスト90は2つの文からなる。第1の文には、「導入する」という述部と、述部の主語である「N社」という単語100と、述部の目的語である「新型交換機」という単語110とが含まれる。第2の文は実質的には2つの節からなる。前半の文の先頭には「自己診断機能を搭載」の主語が省略されている箇所(省略箇所)114がある。前半の文と後半の文との中間箇所には、「200システムを設置する予定だ。」の主語が省略されている省略箇所104がある。
図4を参照して、最初に、本実施の形態に係る学習データ生成補助装置を使用する照応・省略解析システム150の全体構成について説明する。
アノテーションデータ生成補助システム160は、表示装置とキーボート及びマウス等を用いてユーザとの間で対話的な入出力を行う入出力装置202と、言語知識を含む様々な資源を用いて、テキストアーカイブ192に記憶された大量のテキストに対するユーザのアノテーション付与作業を補助することで、学習データを生成し学習データDB162に出力する学習データ生成補助装置204とを含む。
図5を参照して、言語知識DB194に記憶された言語知識の規則は、大きく分けて5種類ある。すなわち、因果関係知識270、含意関係知識272、事態生起順序関係知識274、事態生起無効化関係知識276、及び項共有知識278である。各知識は、ワイルドカード的な役割を果たす、任意の名詞句等に置換可能な変数(以下では、「X」,「Y」等によって表わす)を含んでもよい。
このような項共有知識を効率的に収集するためには、照応・省略関係がアノテーションされたコーパスを利用して、与えられた2つの述語の2つの格が項を共有するか否かを判別する判別器が有効である。判別器自体には、機械学習を用いることとし、統計的モデルとして例えばSVMを利用する。もちろん、統計的モデルとしてはSVMに限定されず、ニューラルネットワーク等を用いることもできる。
このテキストには複数の述語が出現している。アノテート済テキスト記憶部281に記憶されたテキストにおいては、各述語の各々の格について、その項がどの表現であるかがアノテーションされている。この例では、「会見する」「思う」「述べる」「示す」「示す」の主語が「村山富市首相」であることがアノテーションされている。それ以外の述語「いる」「とどまる」「至る」についてはそれ以外の表現が主語となっている。このようなアノテーション結果が与えられたときに、任意の述語の対を抽出し、その対の格、例えば述語の主語同士が共有されている場合には正例、それ以外の場合には負例として学習データを作成し、この学習データにより、2つの述語が格を共有するか否かを判別するように項共有判別器283の学習を行う。
図9を参照して、質問タイプDB200は、学習データ生成補助装置204が質問応答システム206を利用して先行詞の候補を入手するときに利用される。質問タイプDB200は、複数のエントリを持つ。各エントリは例えば、ある動詞について、ある表現内でのその動詞の係り受け関係において省略されている部分の文法役割と、省略部分に挿入されるべき表現を求める際に、どのような形で質問文を生成すればよいかを示す情報(質問タイプ)とを含む。例えば「食べる」という動詞について、ある表現内でその主語が省略されている場合には、「誰が」を文の先頭に配置して文を生成すれば、回答として「食べる」の主語になるべき表現が質問応答システムから得られる。
図10を参照して、質問応答システム206を利用して省略箇所の指す表現の候補を得るプロセスについて説明する。まず、入力テキスト320が2つの文を含むものとする。第1の文は「夕食に赤ワインを飲みましょう」という文であり、第2の文は「心臓病を防ぎます」であるものとする。第2の文の先頭には「防ぎます」という動詞332の主語が省略されており、この省略箇所334には省略を示すタグが付されているものとする。ここでは、この省略箇所には「赤ワイン」という単語330が入るべきである。
図11を参照して、既存照応・省略解析器208は、既存の、照応・省略解析を行うものである。ここでは、既存照応・省略解析器208は、省略箇所の候補、照応詞の候補、及び省略箇所及び照応詞の先行詞の候補を提示するために使用される。最終的には人間がこれら候補の中から正しい候補を選択する。したがって、ここで用いる既存照応・省略解析器208の精度は必ずしも高くなくてもよい。
図11はアノテーションデータ生成補助システム160を示しており、学習データ生成補助装置204は、テキストアーカイブ192に含まれる各テキストに対して形態素解析を行い、さまざまな文法情報が付された形態素列を出力する形態素解析システム380と、形態素解析システム380の出力する形態素列に対し、文の構造及び係り受け解析を行い、構造・係り受け情報が付された形態素列を出力する係り受け関係解析システム382と、係り受け関係解析システム382が出力する形態素列を、それらの文法情報及び構造・係り受け関係とともに記憶する解析後テキストDB384とを含む。ここでは、係り受け関係解析システム382は、少なくともどの単語がどの単語に係っているかを示す係り受け情報を各形態素列に付すものとする。なお、図11においては、図面を簡略にするために図示していないが、本実施の形態では、学習データ生成補助装置204内の各要素は、入出力装置202を介したユーザの指示により動作する。
図12を参照して、第1の候補生成部388は、解析後テキストDB384に記憶された各テキストデータのうちの述語を検索する述語検索部420と、述語検索部420が出力した各述語のリストを各述語の出現位置とともに記憶する述語リスト記憶部422と、述語リスト記憶部422に記憶された各述語のうち、当該述語が関与する係り受け関係のうちで省略されている箇所を検出し、省略候補として出力する省略候補検出部424と、省略候補検出部424に記憶された省略候補の各々に対して、質問タイプDB200を参照してその省略箇所を補完する単語を回答として求める質問文を生成し、質問応答システム206に質問文として与える質問文自動生成部426と、質問文自動生成部426から質問文を、その質問文に対する回答候補群を質問応答システム206から受信し、質問文とその回答候補群とを組み合わせて出力する回答受信部428と、回答受信部428が出現する質問文と回答候補群とのペアを受け、回答候補群に含まれる候補のうち、解析後テキストDB384に記憶された解析後テキスト文内の出現箇所を確認し、質問の対象となっている省略箇所より前の位置に出現するものを全て選択して省略箇所の指し先候補として出力する出現位置確認部430と、出現位置確認部430から出力される省略箇所とその省略箇所を補完する候補群とを組にしてアノテーション候補として候補DB386に追加する候補追加部432とを含む。
図13を参照して、第2の候補生成部390は、図12に示す述語検索部420、述語リスト記憶部422、及び省略候補検出部424とそれぞれ同様の述語検索部450、述語リスト記憶部452、及び省略候補検出部454と、省略候補検出部454により検出された省略候補のうち、テキスト内でその省略の候補を持つ述語よりも前に出現している他の述語を検索し、検索された各述語とその省略の候補を持つ述語とをペアにして出力する対象述語検索部456と、対象述語検索部456が出力する各述語ペアについて、それらペアを構成する述語、又はそれを言換え・カテゴリ辞書196を参照して得られた等価な表現で言換えた述語が、第1文と第2文とにそれぞれ出現するような言語知識が言語知識DB194内にあるか、又はそうした表現のパターンがパターン辞書198にあるか否かを判定し、あればその言語知識又はパターンを出力する言語知識検索部458と、言語知識検索部458が出力する言語知識又はパターンを一時記憶する合致言語知識記憶部460と、合致言語知識記憶部460に記憶された言語知識又はパターンを用い、対象述語検索部456が出力した述語ペアの各述語を含む表現を用いて、それら表現に含まれる省略箇所の指し先を推定し、省略箇所と指し先とを組にしてアノテーション候補として候補DB386に記憶させる候補追加部462とを含む。
図19を参照して、第3の候補生成部392は、既存小規模学習データDB190の中からアノテーション済の照応関係及び省略関係を検索し、両者を区別して出力する照応・省略関係検索部680と、照応・省略関係検索部680の出力する照応関係を構成する名詞句対の各々について、その名詞句の内の指し元(テキスト内で後方に位置するもの)を自動的に省略した新たな文を生成して新たなテキストを生成する指し元省略文生成部682と、指し元省略文生成部682の生成した文のうち、省略された箇所と、省略された箇所とともに照応関係がアノテーションされていた名詞句との間に新たな省略関係のアノテーション候補を付すアノテーション追加部684と、照応・省略関係検索部680が出力する省略関係を含むテキスト部分のうち、省略箇所について、アノテーションに基づいて省略箇所に、その指し先の要素を代名詞として復元することで新たな文を生成する省略要素復元部688と、省略要素復元部688により生成された新たな文に、省略要素復元部688により復元された代名詞の指し元とその指し先とからなるアノテーション候補を追加するアノテーション追加部690と、アノテーション追加部684及びアノテーション追加部690により生成された新たな文をそのアノテーション候補とともに候補DB386に追加する候補追加部686とを含む。
図20を参照して、第4の候補生成部394は、解析後テキストDB384に記憶された解析後テキストに対して、既存照応・省略解析器208を適用することにより、照応・省略解析の実行結果を得て、解析後テキストにアノテーションとして追加する照応・省略解析実行部710と、照応・省略解析実行部710の出力する照応・省略解析結果のアノテーションが付されたテキストを記憶する解析結果記憶部712と、解析結果記憶部712に記憶された解析結果に含まれるアノテーションを、解析後テキストDB384で解析対象となったテキストに対するアノテーション候補として候補DB386に追加する候補追加部714とを含む。
図11に示す対話型アノテーション装置396は、図21に示すような状態遷移を行うプログラムにより実現される。図21を参照して、このプログラムは、プログラム実行開始時及び文書クローズ時等に初期処理を実行し、初期画面を表示した状態(初期状態)740から開始する。この状態では、テキストアーカイブから処理対象の文書を選択する処理と、プログラムの実行を終了する処理とのいずれかを選択できる。文書の選択が選ばれるとプログラムの状態は文書選択状態742に遷移する。文書選択状態742では、文書ファイルの選択ダイアログが表示される。ここでは文書ファイルの選択と、処理のキャンセルとを選ぶことができる。処理のキャンセルが選ばれると状態は初期状態740に戻る。文書選択状態742で文書が選択されるとプログラムは文書の内容を表示する状態(文書表示状態)744に遷移する。文書表示状態744では、文書の表示をキャンセルし、更新を反映せずに再度文書選択状態742に戻る処理と、更新を反映して文書をクローズする処理と、照応・省略解析の学習データを作成するために、アノテーション候補の選択を指示する処理とのいずれかを選択できる。アノテーション候補の選択が指示されると、文書の、現在処理中の位置から文書の末尾方向に向かって、アノテーション候補を検索する状態(候補検索状態)746を経由した後、アノテーション候補を表示してユーザによるアノテーション候補の選択を待つ状態(候補選択待機状態)748に遷移する。
再び図4を参照して、検出器学習装置222は、前述したとおり、学習データDB162に記憶された学習データから、選択制限DB224、質問タイプDB220及び質問応答システム226を用いて省略検出器166、照応詞検出器168、及び先行詞特定器170の学習をそれぞれ別々に行う。先行詞特定器170についてはさらに、省略箇所の先行詞用の特定器と、照応詞の先行詞用の特定器との学習を独立に行う。
本実施の形態では、省略検出器166は、主語省略検出器800、目的語省略検出器802,及び間接目的語省略検出器804を含む。省略検出器学習部770は、これら3つの検出器の学習を個別に行うため、学習データDB162に記憶された学習データの省略箇所の各々が、述語の主語(ガ格)、直接目的語(ヲ格)、又は間接目的語(二格)であるときに、それらを分類して、主語省略検出器800、目的語省略検出器802、及び間接目的語省略検出器804の学習をそれぞれ行うための素性ベクトル群782、784及び786を生成するための格別素性ベクトル生成部780と、これら素性ベクトル群782,784及び786を用いてそれぞれ主語省略検出器800、目的語省略検出器802、及び間接目的語省略検出器804を構成するSVMの学習を行うためのSVM学習処理部788とを含む。
・主題となる表現(「は」でマークされた名詞句)が述語と同一文内に出現しているなら1,それ以外なら0
・省略検出対象の述語が対象テキストの1文目に出現しているなら1,それ以外なら0
・省略検出対象の述語が文の最初の後であるなら1,それ以外なら0
・省略検出対象の述語と係り受け関係にある語の見出し語、品詞
照応詞検出器学習部772は、学習データDB162に記憶された学習データから、照応詞検出器168のSVMの学習を行うために、照応関係の指し元(照応詞)としてアノテーションが付された単語を選択する照応詞候補選択部830と、照応詞候補選択部830により選択された照応詞の各々について、後述するような素性ベクトルを生成するための素性ベクトル生成部832と、素性ベクトル生成部832により生成された素性ベクトル群を用い、照応詞検出器168を構成するSVMの学習を行うためのSVM学習処理部834とを含む。
・照応詞候補の係り先の品詞、見出し語、その係り先に後続する格助詞
・テキスト中で照応詞候補より前の位置に出現する名詞句が文字列として照応詞候補と完全一致する場合に1,それ以外は0
・テキスト中で照応詞候補と部分一致する場合に1,それ以外は0
先行詞特定器170は、照応詞用先行詞特定器900と、省略用先行詞特定器902とを含む。そのため、先行詞特定器学習部774はこの2つの特定器900及び902の学習を別個に行う構成を有する。
・先行詞候補がテキストの1文目に出現するなら1,それ以外なら0
・先行詞候補が文内で最初に言及された先行詞候補なら1,それ以外なら0
・先行詞候補と照応詞が完全に同じ文字列なら1,それ以外なら0
・先行詞候補と照応詞が部分的に同じ文字列なら1,それ以外なら0
・選択制限DB224を用い、省略を持つ述語と先行詞となる名詞句の間で選択制限が満たされる場合には1,それ以外なら0
・省略を含む文、その省略の箇所について、質問タイプDB220を用いてその箇所が回答となるような質問文を生成し質問応答システム226に与えて得られた回答のいずれかが先行詞候補と一致すれば1,それ以外なら0
・省略を持つ述語、先行詞の係り先の述語が検出器学習装置222に登録されている因果関係知識に含まれる述語対と合致するなら1,それ以外なら0
図4を参照して、照応・省略解析装置172は、省略検出器166、照応詞検出器168及び先行詞特定器170に接続され、これらを用いて入力250に対する照応・省略解析をし、自動的にアノテーションを入力250に追加して出力するための照応・省略解析器252と、照応・省略解析器252が照応・省略解析をする際の素性ベクトル生成に使用する言語知識DB256、質問タイプDB258、質問応答システム260、及び選択制限DB262とを含む。言語知識DB256は、照応・省略解析システム150で使用される言語知識DB194、学習システム164で使用される言語知識DB228と同様の言語知識を記憶したデータベースである。質問タイプDB258は、アノテーションデータ生成補助システム160で使用される質問タイプDB200及び学習システム164で使用される質問タイプDB220と同様の構成を持ち、その記憶内容も同様である。質問応答システム260は、アノテーションデータ生成補助システム160で使用される質問応答システム206及び学習システム164で使用される質問応答システム226と同様の機能を持つシステムである。選択制限DB262は、学習システム164における素性ベクトルの生成時に使用される選択制限DB224と同様のものである。なお、ここで同様の構成を持つと記載したDBは、互いに同一のものでもよいし、互いに異なるものでもよい。
以上に構成を述べた照応・省略解析システム150は以下のように動作する。項共有判別器283の学習、項共有知識の収集、学習データの作成、検出器の学習、及び入力に対する自動アノテーションの5つのフェーズに分けて説明する。
図6を参照して、予めアノテート済テキスト記憶部281にアノテート済のテキストが格納される。このテキストは、多くの場合人手で準備する。その量はそれほど多くなくてもよい。学習データ生成部284により、項を共有する述語対からなる正例と、項を共有しない負例とが、述語に対する格ごとの学習データとして生成され、学習データ記憶部285に格ごとに格納される。図7を参照して、具体的には、アノテート済テキスト記憶部281に記憶された全テキストについて(ステップ291)、以下の処理292が実行される。処理292では、処理中の文書に含まれる全述語対について、以下の処理294が実行される。
学習データの作成はアノテーションデータ生成補助システム160により行われる。この処理に先立ち、既存小規模学習データDB190、テキストアーカイブ192、言語知識DB194、言換え・カテゴリ辞書196、パターン辞書198、既存照応・省略解析器208、及び質問タイプDB200を準備しておく必要がある。また、質問応答システム206については、予めアノテーションデータ生成補助システム160内に準備し学習データ生成補助装置204からアクセス可能にしておくか、外部の質問応答システムに対して質問文を送れるよう準備しておく必要がある。
図22を参照して、検出器学習装置222は以下のように動作する。省略検出器学習部770の格別素性ベクトル生成部780は、学習データDB162に記憶されたアノテーション確定済の学習データのうち、省略を含む学習データを読出す。格別素性ベクトル生成部780は、学習データの省略箇所の各々が、述語の主語(ガ格)、直接目的語(ヲ格)、又は間接目的語(二格)であるときに、それらを分類して、それぞれ素性ベクトル群782、784及び786を生成し図示しない記憶装置に蓄積する。この際、格別素性ベクトル生成部780は、確定したアノテーションについては学習ラベルを1、それ以外のアノテーションについては学習ラベルを0とする。SVM学習処理部788は、これら素性ベクトル群782、784及び786を用いて、主語省略検出器800、目的語省略検出器802、及び間接目的語省略検出器804が有するSVMの学習を行う。
図4に戻り、照応・省略解析器252による入力250に対する照応・省略解析とその結果の自動アノテーションは以下のようにして実行される。なお、この解析は省略解析、照応解析、省略及び照応詞に対する先行詞解析に分割される。省略解析では省略検出器166が用いられる。照応解析では照応詞検出器168が用いられる。先行詞解析では先行詞特定器170が用いられる。
第1の実施の形態では、図6に示すように、アノテート済テキスト記憶部281に記憶されたテキストから項共有判別器283の学習を行っている。しかし、アノテート済テキスト記憶部281のテキストが少量の場合には、項共有判別器283の精度はあまり高くならない。その結果、十分な量のテキストがアノテート済テキスト記憶部281に準備できないと、項共有関係による指し先候補の推定の精度が高くならないおそれがある。そこで、この第2の実施の形態では、アノテート済テキスト記憶部281のテキストが少量でも、項共有判別の精度が高くなるような項共有判別器の学習方法を示す。
この項共有判別器974の性能を確認するために評価実験を行った。評価実験は、述語対の主語の共有について行い、NAISTテキストコーパス1.4内の80%を学習に用いた。学習データは42,806の述語対を含んでいた。そのうちで8,496個の述語対が主語を共有していた。
これは日本語構文解析システムの出力に基づいて主語の共有を判定するものであって、後掲の参考文献2による照応・省略解析システムが組み込まれたものによる解析結果である。
入力中の全ての述語対が主語を共有すると判定するもの。前述したとおり、元のデータが因果関係を表すものであることから、この仮定は妥当であってベースラインをなすものと思われる。
第1の実施の形態に係る項共有判別器である。
上記実施の形態では、項共有知識は照応・省略解析前、及び照応・解析処理中において使用されている。しかし、本発明はそのような実施の形態には限定されない。例えば、項共有知識を用いない照応・省略解析の出力に対して項共有知識を適用して解析結果を検証・修正する事もできる。図23にそのようなアノテーション処理を実現するプログラムの機能を概略ブロック図形式で示す。
〈概略〉
上記第1〜第3の実施の形態では、未アノテートテキストアーカイブ302内のアノテーションを用いて項共有判別器306、307及び308の学習をし、これらを用いて項共有知識の獲得を行っている。項共有判別器306、307及び308はいずれも、各述語対が個別に項を共有しているか否かを判別するものである。しかし、本発明はそのような実施の形態には限定されない。項を共有する述語が3個以上ある場合も考えられる。そうした場合、各述語対について個別に項共有知識を適用して照応解析を行おうとすると、結果が矛盾したり、判定の条件が複雑になったりすることがある。そこで、互いに項を共有する述語群については、まとめて判定できるようにすることが望ましい。第4の実施の形態では、これを項共有述語ネットワークという概念を導入して解決する。
DEP型は、典型的な項共有パターンであり、述語対が互いに係り受け関係において依存関係にある場合を言う。例えば「トムはインフルエンザになったので、(φiが)薬を飲んだ。」という文における2つの述語「なった」と「飲んだ」との関係である。なぜなら、これらは同じ主語(トム、φi)を持っているからである。この係り受け関係を図27(A)に示す。このような項共有関係をDEP型と呼ぶ。
一文中で隣接する位置にある述語は互いに同じ主語を持つ傾向にあるが、それらが常にDEP型の項共有関係にあるとは限らない。これは2つの述語の間での長距離の係り受け関係が存在するからである。例えば、「飛行機は無事に着陸したが誘導路に入った後に操縦桿が効かなくなった。」という文において、2つの述語「着陸した」と「入った」は同じ主語を持つが、直接の係り受け関係を持たない。この関係を図27(B)に示す。このような項共有関係を明らかにするために、2つの述語が表層構造において互いに隣接して出現するケースもADJ型に分類する。
日本語の述語対の場合、述語が統語関係上である名詞(又は名詞句)に依存し、その名詞(又は名詞句)が統語関係上で別の述語に依存しているという場合がしばしばである。例えば「知事は(φiが)条項を撤回する方針を明らかにした。」という文における「撤回する」と「明らかにした」のような場合である。この関係を図27(C)に示す。このような型の項共有関係をPNP型と呼ぶ。
図28(A)に、本実施の形態においてDEP型項共有判別器1014の学習を行うDEP型項共有判別器学習装置1012のブロック図を、図28(B)にADJ型項共有判別器1054の学習を行うADJ型項共有判別器学習装置1052のブロック図を、図28(C)にPNP型項共有判別器1094の学習を行うPNP型項共有判別器学習装置1092のブロック図を、それぞれ示す。DEP型項共有判別器学習装置1012は例えば学習データDB162から手作業で抽出し、DEP型テキスト記憶部1010に記憶されたDEP型の項共有関係学習のためのデータを用いてDEP型項共有判別器1014の学習を行う。ADJ型項共有判別器学習装置1052は同様に、ADJ型テキスト記憶部1050に記憶されたADJ型の項共有関係の学習データを用いてADJ型項共有判別器1054の学習を行う。PNP型項共有判別器学習装置1092は、PNP型テキスト記憶部1090に記憶されたPNP型の項共有の学習データを用いてPNP型項共有判別器1094の学習を行う。DEP型テキスト記憶部1010、ADJ型テキスト記憶部1050、及びPNP型テキスト記憶部1090はいずれも、各型の項共有関係の判別器の学習をするために準備された、正例にマークされた文例と負例にマークされた文例とを記憶している。
この項共有述語ネットワークの動作には大きく分けて3つのフェーズが存在する。第1のフェーズは図28に示すDEP型項共有判別器1014、ADJ型項共有判別器1054、及びPNP型項共有判別器1094の学習である。第2のフェーズは、図29に示す、DEP型項共有判別器1014、ADJ型項共有判別器1054、及びPNP型項共有判別器1094を用いた項共有知識収集装置1130による項共有知識の収集である。第3のフェーズは、図30に示す先行詞特定器1150により、入力250の内で省略された箇所の先行詞を項共有知識又は項共有判別器を用いて特定する処理である。
Chikara Hashimoto, Kentaro Torisawa, Julien Kloetzer, Motoki Sano, Istvan Varga, Jong-Hoon Oh, and Yutaka Kidawara. 2014. Toward future scenario generation: Extracting event causality exploiting semantic relation, context, and association features. In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, pages 987-997.
[参考文献2]
Ryohei Sasano and Sadao Kurohashi. 2011. A discriminative approach to Japanese zero anaphora resolution with large-scale lexicalized case frames. In Proceedings of 5th International Joint Conference on Natural Language Processing, pages 758-766.
上記実施の形態に係る学習データ生成補助装置204、検出器学習装置222、照応・省略解析器252、DEP型項共有判別器学習装置1012、ADJ型項共有判別器学習装置1052、PNP型項共有判別器学習装置1092、項共有知識収集装置1130、及び先行詞特定器1150は、いずれも、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図32はこのコンピュータシステム1330の外観を示し、図33はコンピュータシステム1330の内部構成を示す。
160 アノテーションデータ生成補助システム
162 学習データDB
164 学習システム
166 省略検出器
168 照応詞検出器
170 先行詞特定器
172 照応・省略解析装置
190 既存小規模学習データDB
192 テキストアーカイブ
194,228,256 言語知識DB
196 言換え・カテゴリ辞書
198 パターン辞書
200,220,258 質問タイプDB
202 入出力装置
204 学習データ生成補助装置
206,226,260 質問応答システム
222 検出器学習装置
224,262 選択制限DB
252 照応・省略解析器
278 項共有知識
282,972 項共有判別器学習装置
283,974 項共有判別器
1014 DEP型項共有判別器
1054 ADJ型項共有判別器
1094 PNP型項共有判別器
1130 項共有知識収集装置
1150 先行詞特定器
1162 述語抽出部
1164 述語DB
1168 項共有判定部
1170 項共有述語グループ検索部
1172 項共有述語ネットワーク生成部
1176 共有項判定部
1178 共有項伝搬部
1182 補充判定部
Claims (10)
- 照応・省略関係に関するアノテーション済の自然言語のテキストデータを用いて、述語対の項共有関係を判別する項共有判別器の学習を行う項共有判別器学習装置であって、
前記アノテーション済の自然言語のテキストデータから複数の述語対を選択する述語対選択手段と、
前記述語対選択手段により選択された述語対の各々について、形態素解析及び構文解析を行って、当該解析の結果から少なくとも当該述語対を構成する述語の各々の文字列、品詞、係り元、係り先、当該述語対の間に出現する語数、及び当該述語対の間に出現する機能語を含む特徴量を抽出する特徴量抽出手段と、
前記特徴量抽出手段により特徴量が抽出された述語対が項を共有しているとアノテーションされているか否かにしたがって、正例及び負例の学習データを前記特徴量を用いて生成する学習データ生成手段と、
前記学習データ生成手段により生成された学習データを用いた機械学習により、述語対が与えられると、当該述語対が項を共有しているか否かを示すように統計的モデルからなる項共有判別器の学習を行う学習手段とを含む項共有判別器学習装置。 - 照応・省略関係に関するアノテーション済の自然言語のテキストデータ、及び前記自然言語の複数のテキストを含むテキストアーカイブを用いて、項共有判別器の学習を行う項共有判別器学習装置であって、
前記テキストアーカイブに含まれる各文から述語対を抽出する述語対抽出手段と、
前記述語対抽出手段により抽出された述語対の各々について、既存の項共有判別器を用いて当該述語対が項を共有するか否かを判別するための項共有判別手段と、
前記項共有判別手段により項共有の有無が判別された述語対の種類ごとに、当該種類の述語対が項を共有していると判別された率である項共有率を算出する項共有率算出手段と、
前記アノテーション済の自然言語のテキストデータから複数の述語対を選択する述語対選択手段と、
前記述語対選択手段により選択された述語対の各々について、形態素解析及び構文解析を行って、当該解析の結果から少なくとも当該述語対を構成する述語の各々の文字列、品詞、係り元、係り先、当該述語対の間に出現する語数、当該述語対の間に出現する機能語、及び当該述語対について前記項共有率算出手段により算出された項共有率を含む特徴量を抽出する特徴量抽出手段と、
前記特徴量抽出手段により特徴量が抽出された述語対が項を共有しているとアノテーションされているか否かにしたがって、正例及び負例の学習データを前記特徴量を用いて生成する学習データ生成手段と、
前記学習データ生成手段により生成された学習データを用いた機械学習により、述語対が与えられると、当該述語対が項を共有しているか否かを示すように統計的モデルからなる項共有判別器の学習を行う学習手段とを含む項共有判別器学習装置。 - 自然言語の複数のテキストを含むテキストアーカイブから、項を共有する述語対に関する言語知識を収集する言語知識収集装置であって、
前記テキストアーカイブの各テキストから述語対を選択する述語対選択手段と、
前記述語対選択手段により選択された述語対の各々から、所定の特徴量を算出し、請求項1又は請求項2に記載の項共有判別器学習装置により学習した項共有判別器に入力してその判別結果を得ることにより、当該述語対が項を共有するか否かを判別するための項共有判別手段と、
前記項共有判別手段により項を共有すると判別された述語対について、当該述語対が項を共有することを示す項共有知識を蓄積するための項共有知識蓄積手段とを含む、言語知識収集装置。 - 前記項共有判別器は、入力された特徴量に対応する述語対が項を共有するか否かについての判別結果とあわせて、当該判別結果の信頼度を表すスコアを出力し、
前記項共有知識蓄積手段は、前記項共有判別手段により項を共有すると判別された述語対であって、かつ前記項共有判別手段により出力された前記スコアがしきい値以上であるものを、項共有知識として選択し蓄積するための手段を含む、請求項3に記載の言語知識収集装置。 - 項を共有する述語対に関する項共有知識を用いて、入力されたテキストの照応・省略解析を行う照応・省略解析装置であって、
項共有知識を記憶する項共有知識記憶手段と、
前記項共有知識を用いて前記入力されたテキストを解析することにより、前記入力されたテキスト中の述語対の項の共有に関する情報を生成する項共有解析手段と、
前記入力されたテキストに対し、自動的な処理により、前記項共有解析手段による解析結果を用いた照応・省略解析を行って、照応・省略箇所とその指し先とに関してアノテーションされたテキストを出力する照応・省略解析手段とを含む、照応・省略解析装置。 - 前記照応・省略解析手段は、
前記項共有解析手段により項を共有すると判別された述語対について、同じ項を共有する複数の述語からなる項共有述語ネットワークを生成するネットワーク生成手段と、
前記ネットワーク生成手段により生成された前記項共有述語ネットワークの各々について、当該項共有述語ネットワークに属する述語の共有する項の値を決定する項決定手段と、
前記項決定手段により決定された値を、当該項共有述語ネットワーク内の述語により共有される項に伝搬させてアノテーションを行う値伝搬手段とを含む、請求項5に記載の照応・省略解析装置。 - 前記項決定手段は、
前記ネットワーク生成手段により生成された前記項共有述語ネットワークの各々に属する述語の各々について、当該述語が他の述語と共有する項の値の候補を決定する候補決定手段と、
前記候補決定手段により決定された値の候補が1つであるときには、当該項共有述語ネットワークに属する述語の共有する項の値を当該候補に決定する手段と、
前記候補決定手段により決定された値の候補が複数であるときは、前記候補決定手段により各候補が決定されたときの信頼度の最も高い候補を選択し、当該項共有述語ネットワークに属する述語の共有する項の値を当該候補に決定する手段とを含む、請求項6に記載の照応・省略解析装置。 - 前記照応・省略解析装置はさらに、ある項共有述語ネットワークに属する述語の各々について、前記候補決定手段により決定された値の候補が1つもないときに、当該項共有述語ネットワークに属する述語が共有する項の値を、前記照応・省略解析手段と異なる手法により決定するための手段を含む、請求項7に記載の照応・省略解析装置。
- 前記照応・省略解析装置はさらに、前記入力されたテキストにおいて、前記項共有解析手段により他の述語と項を共有しないと判定された述語に対して、前記照応・省略解析手段と異なる手法により、当該述語の指す項の値を特定する手段を含む、請求項7又は請求項8に記載の照応・省略解析装置。
- コンピュータを、請求項1〜請求項9のいずれかに記載の全ての手段として機能させる、コンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019129714A JP6976585B2 (ja) | 2015-03-30 | 2019-07-12 | 照応・省略解析装置及びコンピュータプログラム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015068498 | 2015-03-30 | ||
JP2015068498 | 2015-03-30 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019129714A Division JP6976585B2 (ja) | 2015-03-30 | 2019-07-12 | 照応・省略解析装置及びコンピュータプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016192198A true JP2016192198A (ja) | 2016-11-10 |
Family
ID=57246955
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015147002A Pending JP2016192198A (ja) | 2015-03-30 | 2015-07-24 | 項共有判別器学習装置、言語知識収集装置、及び照応・省略解析装置 |
JP2019129714A Active JP6976585B2 (ja) | 2015-03-30 | 2019-07-12 | 照応・省略解析装置及びコンピュータプログラム |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019129714A Active JP6976585B2 (ja) | 2015-03-30 | 2019-07-12 | 照応・省略解析装置及びコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (2) | JP2016192198A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111797296A (zh) * | 2020-07-08 | 2020-10-20 | 中国人民解放军军事科学院军事医学研究院 | 基于网络爬取的毒物-靶标文献知识挖掘方法及系统 |
-
2015
- 2015-07-24 JP JP2015147002A patent/JP2016192198A/ja active Pending
-
2019
- 2019-07-12 JP JP2019129714A patent/JP6976585B2/ja active Active
Non-Patent Citations (3)
Title |
---|
大村舞 他2名: "複数の述語間関係を考慮した日本語述語項構造解析", 言語処理学会第21回年次大会 発表論文集, JPN6019015957, 9 March 2015 (2015-03-09), JP, pages 67 - 70, ISSN: 0004028180 * |
阿部修也 他2名: "項の共有関係と統語パターンを用いた事態間関係獲得", 自然言語処理, vol. 第17巻 第1号, JPN6019015962, 10 January 2010 (2010-01-10), JP, pages 121 - 139, ISSN: 0004028181 * |
飯田龍 他1名: "述語対の項共有情報を利用した文間ゼロ照応解析", 言語処理学会第16回年次大会 発表論文集, JPN6019015952, 8 March 2010 (2010-03-08), JP, pages 804 - 807, ISSN: 0004176122 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111797296A (zh) * | 2020-07-08 | 2020-10-20 | 中国人民解放军军事科学院军事医学研究院 | 基于网络爬取的毒物-靶标文献知识挖掘方法及系统 |
CN111797296B (zh) * | 2020-07-08 | 2024-04-09 | 中国人民解放军军事科学院军事医学研究院 | 基于网络爬取的毒物-靶标文献知识挖掘方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
JP2019197577A (ja) | 2019-11-14 |
JP6976585B2 (ja) | 2021-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6074820B2 (ja) | アノテーション補助装置及びそのためのコンピュータプログラム | |
Hamborg et al. | Giveme5w1h: A universal system for extracting main events from news articles | |
Derczynski et al. | Microblog-genre noise and impact on semantic annotation accuracy | |
US8903707B2 (en) | Predicting pronouns of dropped pronoun style languages for natural language translation | |
CN107247707B (zh) | 基于补全策略的企业关联关系信息提取方法和装置 | |
US10296584B2 (en) | Semantic textual analysis | |
US10496756B2 (en) | Sentence creation system | |
KR101864361B1 (ko) | 다양한 의미 범주에 기반한 번역 결과 제공 방법 및 시스템 | |
US20150220515A1 (en) | Deep model statistics method for machine translation | |
WO2013102052A1 (en) | System and method for interactive automatic translation | |
JP2002215617A (ja) | 品詞タグ付けをする方法 | |
CN106599032A (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
US11593557B2 (en) | Domain-specific grammar correction system, server and method for academic text | |
EP4364044A1 (en) | Automated troubleshooter | |
RU2665261C1 (ru) | Восстановление текстовых аннотаций, связанных с информационными объектами | |
KR101851786B1 (ko) | 챗봇의 트레이닝 세트 레이블링을 위한 가상 레이블 생성 장치 및 방법 | |
JP3899414B2 (ja) | 教師データ作成装置およびプログラム、ならびに言語解析処理装置およびプログラム | |
Malik et al. | NLP techniques, tools, and algorithms for data science | |
JP6976585B2 (ja) | 照応・省略解析装置及びコンピュータプログラム | |
KR101916781B1 (ko) | 다양한 의미 범주에 기반한 번역 결과 제공 방법 및 시스템 | |
CN105335416B (zh) | 内容提取方法、内容提取装置和用于内容提取的系统 | |
JP2005202924A (ja) | 対訳判断装置、方法及びプログラム | |
CN108304367A (zh) | 分词方法及装置 | |
JP4933118B2 (ja) | 文章区間抽出装置及びプログラム | |
Narayan et al. | Pre-Neural Approaches |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
AA64 | Notification of invalidation of claim of internal priority (with term) |
Free format text: JAPANESE INTERMEDIATE CODE: A241764 Effective date: 20150908 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151001 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180529 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190329 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190514 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190712 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20191217 |