JP5389273B1 - 文脈解析装置および文脈解析方法 - Google Patents

文脈解析装置および文脈解析方法 Download PDF

Info

Publication number
JP5389273B1
JP5389273B1 JP2012542314A JP2012542314A JP5389273B1 JP 5389273 B1 JP5389273 B1 JP 5389273B1 JP 2012542314 A JP2012542314 A JP 2012542314A JP 2012542314 A JP2012542314 A JP 2012542314A JP 5389273 B1 JP5389273 B1 JP 5389273B1
Authority
JP
Japan
Prior art keywords
sequence
probability
prediction
series
context analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012542314A
Other languages
English (en)
Other versions
JPWO2014002172A1 (ja
Inventor
伸一郎 浜田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Application granted granted Critical
Publication of JP5389273B1 publication Critical patent/JP5389273B1/ja
Publication of JPWO2014002172A1 publication Critical patent/JPWO2014002172A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

実施形態の文脈解析装置(100)は、機械学習用事例生成器(3)と、照応解析予測器(5)と、を備える。機械学習用事例生成器(3)は、予測系列生成部(32)と、確率予測部(33)と、を備える。予測系列生成部(32)は、共有項を持つ述語と、該述語の語義を特定する語義特定情報と、前記共有項の格の種別を表す格種別情報との組み合わせを要素とし、該要素を複数並べた系列の一部の要素を予測により求めた予測系列を、解析対象文書(D6)から生成する。確率予測部(33)は、任意の文書群(D1)から事前に獲得された前記系列であって前記予測系列と一致する前記系列の出現確率に基づいて、前記予測系列の発生確率を予測する。照応解析予測器(5)は、予測された前記予測系列の発生確率を用いて、解析対象文書(D6)に対する文脈解析を行う。

Description

本発明の実施形態は、文脈解析を行う文脈解析装置および文脈解析方法に関する。
照応解析(Anaphora Resolution)、首尾一貫性の解決(Coreference Resolution)、対話処理(Dialog Processing)などの文脈解析(Contextual Analysis)は、自然言語処理において文書を正しく理解する上で重要なタスクである。文脈解析には、シャンクのスクリプトやフィルモアのフレームのような手続き的知識(Procedural Knowledge)を用いることが有効であることが知られている。しかし、人手で作成される手続き的知識にはガバレッジの限界がある。そこで、このような手続き的知識を文書から自動で獲得するアプローチが試みられている。
たとえば、互いに関連する述語の系列(以下、「イベント系列」と呼ぶ。)を手続き的知識とみなし、任意の文書群からこのようなイベント系列を獲得して手続き的知識として利用することが提案されている。
しかし、従来の方法で獲得されるイベント系列は手続き的知識としての正確性に欠けるため、これを利用して文脈解析を行うと十分な精度が得られない場合があり、改善が求められる。
V.Pekar.2006.Acquisition of verb entailment from text.In "Proceedings of the main conference on Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics",pages 49.56.Association for Computational Linguistic. I.Szpektor and I.Dagan.2008.Learning entailment rules for unary templates.In "Proceedings of the 22nd International Conference on Computational Linguistics-Volume 1",pages 849.856.Association for Computational Linguistics. N.Chambers and D.Jurafsky.2009.Unsupervised learning of narrative schemas and their participants.In "Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP:Volume 2-Volume 2",pages 602.610.Association for Computational Linguistics.
本発明が解決しようとする課題は、精度の高い文脈解析を行うことができる文脈解析装置および文脈解析方法を提供することである。
実施形態の文脈解析装置は、予測系列生成部と、確率予測部と、解析処理部と、を備える。予測系列生成部は、共有項を持つ述語と、該述語の語義を特定する語義特定情報と、前記共有項の格の種別を表す格種別情報との組み合わせを要素とし、該要素を複数並べた系列の一部の要素を予測により求めた予測系列を、解析対象の文書から生成する。確率予測部は、任意の文書群から事前に獲得された前記系列であって前記予測系列と一致する前記系列の出現確率に基づいて、前記予測系列の発生確率を予測する。解析処理部は、予測された前記予測系列の発生確率を用いて、解析対象の文書に対する文脈解析を行う。
図1は、英語の文間照応の一例を説明する図である。 図2は、従来の方法で獲得されるイベント系列の具体例を説明する図である。 図3は、従来の方法で獲得されるイベント系列の問題点を説明する図である。 図4は、京都大学格フレームの一部を抜粋して示す図である。 図5は、実施形態に係る文脈解析装置の構成例を示すブロック図である。 図6は、照応タグ付き文書群の一例を説明する図である。 図7は、格フレーム推定器の構成例を示すブロック図である。 図8は、格フレーム推定後文書の一例を示す図である。 図9は、イベント系列モデル構築器の構成例を示すブロック図である。 図10は、共参照タグ付きの文書の一例を示す図である。 図11は、図10に例示した共参照タグ付き文書から獲得されたイベント系列の例を示す図である。 図12は、図11に例示したイベント系列から求めた頻度リストの一部を示す図である。 図13は、図12に例示した頻度リストを用いて構築された確率モデルの出力である確率リストを示す図である。 図14は、機械学習用事例生成器の構成例を示すブロック図である。 図15は、照応タグが付与された文の一例を示す図である。 図16は、照応詞候補と先行詞候補のペアを表す特徴ベクトルの要素として用いられる標準的な素性群を示す図である。 図17は、訓練用事例データの一例を示す図である。 図18は、2値分類器による機械学習によって事例の正しさを判定する処理を概念的に説明する模式図である。 図19は、文脈解析装置のハードウェア構成の一例を示す図である。
以下、実施形態の文脈解析装置および文脈解析方法を、図面を参照して説明する。以下で示す実施形態は、文脈解析のうち、特に照応解析を行う装置への適用例である。
ある言語表現が文書内で先行する表現と同じ内容やエンティティを指す現象を照応と呼ぶ。照応関係を示すのに、同じ語を繰り返す代わりに代名詞を用いたり、後続の語を省略したりする。前者は代名詞照応と呼ばれ、後者はゼロ照応と呼ばれる。代名詞照応で代名詞が指し示す対象を推定したり、ゼロ照応で省略された名詞句(ゼロ代名詞)を補完したりする処理が照応解析である。照応には、代名詞やゼロ代名詞などの照応詞が同一文内の対象を指し示している文内照応や、照応詞が指し示す対象が別の文にある文間照応があり、一般的に文間照応の照応解析の方が文内照応の照応解析よりも難しいタスクである。照応は文書の中で頻繁に起こり、文意や文脈を理解するための重要な手がかりとなる。このため照応解析は、自然言語処理において重要な技術となっている。
図1は、英語の文間照応の例(D.Bean and E.Riloff.2004.Unsupervised learning of contextual role knowledge for coreference resolution.In “Proc.of HLT/NAACL”,pages 297.304.)である。図1に示す例では、(b)の文における代名詞“they”および(c)の文における代名詞“they”が、それぞれ(a)の文における“Jose Maria Martinez,Roberto Lisandy,and Dino Rossy”を指し示しており、この関係を推定するのが照応解析である。
以上のような照応解析は、手続き的知識を利用して行うことが有効である。手続き的知識は、照応解析の正しさを評価する1つの指標として利用できるからである。そして、このような手続き的知識を自動で獲得する方法として、任意の文書群から、共有項を持つ述語の系列であるイベント系列を獲得する方法が知られている。これは、項を共有する述語同士は何らかの関係を持っているという仮説に基づくものであり、共有項は特にアンカーと呼ばれる。
ここで、図2の例文(N.Chambers and D.Jurafsky.2009.Unsupervised learning of narrative schemas and their participants.In “Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP:Volume 2-Volume 2”,pages 602.610.Association for Computational Linguistics.)を参照し、従来の方法で獲得されるイベント系列の具体例を説明する。
図2の例文では、アンカーは“suspect”である。図2の1行目の文は、述語が“arrest”であり、アンカーである“suspect”の格の種別は目的格(obj)となっている。また、図2の2行目の文は、述語が“plead”であり、アンカーである“suspect”の格の種別は主格(sbj)となっている。また、図2の3行目の文は、述語が“convict”であり、アンカーである“suspect”の格の種別は目的格(obj)となっている。
従来の方法は、アンカーを含む複数の文のそれぞれから述語を抽出し、抽出した述語と、その文におけるアンカーの格の種別を表す格種別情報(以下、「格タイプ」という。)とのペアを要素として、述語の出現順に複数の要素を並べた系列をイベント系列として獲得する。図2の例文からは、イベント系列として[arrest#obj,plead#sbj,convict#obj]が獲得される。このイベント系列において、カンマで区切られる部分が、それぞれイベント系列の要素である。
しかし、従来の方法で獲得されるイベント系列は、異なる語義で使われている同じ述語を区別しないため、手続き的知識としての正確性に欠けるという問題がある。すなわち、多義的な述語は、その述語が持つ項によって大きく意味が変わることがあるが、従来の方法では、述語が異なる語義で使われていてもそれらが区別されないため、同一視すべきでないイベント系列の事例を同一視してしまう場合がある。たとえば、図3の例文のdoc1とdoc2は意味的には全く異なる2つの文章であるが、従来の方法により、これら2つの文章からそれぞれ“I”をアンカーとしてイベント系列を獲得すると、[take#sbj,get#sbj]と表現される同じイベント系列が獲得される。このように、従来の方法では、意味的に全く異なる文章から同一のイベント系列を獲得してしまう場合があり、獲得されたイベント系列は、手続き的知識としての正確性に欠ける。したがって、このイベント系列を利用して照応解析を行うと、十分な精度が得られない場合があり、改善が求められる。
そこで、本実施形態では、イベント系列を構成するそれぞれの要素に、述語と格種別情報に加えて、述語の語義を特定する語義特定情報を付加した新規なイベント系列を提案する。この新規なイベント系列では、各要素に付加された語義特定情報によって述語の語義の曖昧性を回避することができ、手続き的知識としての正確性が高まる。したがって、この新規なイベント系列を照応解析に利用することによって、照応解析の精度を向上させることができる。
本実施形態では、述語の語義を特定するために、一例として「格フレーム」を利用する。格フレームとは、述語を基準として取り得る格とその値に関する制約を、述語の用法ごとに分類して記述したものである。たとえば「京都大学格フレーム」(河原大輔,黒橋禎夫.高性能計算環境を用いたWebからの大規模格フレーム構築,情報処理学会 自然言語処理研究会 171-12,pp.67-73,2006.)と呼ばれる格フレームのデータが存在し、これを利用することができる。
図4は、京都大学格フレームの一部を抜粋して示したものである。図4に示すように、京都大学格フレームでは、複数の語義(用法)を持つ述語がその語義ごとに分類され、それぞれの語義に関係する名詞がその出現頻度とともに、格の種別ごとに記述されている。たとえば、図4の例では、表層が同じ「積む」という述語が、「動2」というラベルで識別される語義(用法)と、「動3」というラベルで識別される語義(用法)とに分類され、それぞれの語義で使用される場合に関係する名詞群がその出現頻度とともに、格の種別ごとに記述されている。
このような京都大学格フレームを用いる場合、述語の語義を表す「動2」や「動3」のようなラベルを、新規なイベント系列の各要素に付加する語義特定情報として利用することができる。語義特定情報を要素に付加したイベント系列では、語義が異なる述語の要素に対して異なる語義特定情報が与えられるため、上述したような述語の多義性によるイベント系列の混同を避けることができ、手続き的知識としての正確性を高めることができる。
任意の文書群から獲得されたイベント系列は、公知の統計手法を用いてその出現確率を求めることで、照応解析の正しさを評価する1つの指標として利用することができる。従来の方法では、イベント系列の出現確率を求めるために、主に、イベント系列を構成する要素のペアのPMI(自己相互情報量:Point-wise Mutual Information)を用いている。しかし、要素のペアのPMIを用いる従来の方法では、手続き的知識として有効なイベント系列の出現確率を正しく求めることが難しい。
そこで、本実施形態では、イベント系列の出現頻度や出現確率を求めるにあたり、たとえば、要素の順序を考慮するn−gramモデル、要素の順序を考慮しないトリガモデル、互いに隣接していない要素の組み合わせを許すスキップモデルなど、言語モデルの分野で考案されてきたいくつかの確率モデルを利用する。これらの確率モデルには、任意の長さの系列に対する確率を扱うことができる特徴がある。また、未知のイベント系列に対処するために、言語モデルの分野で開発されてきた平滑化手法(スムージング処理)を用いてもよい。
次に、本実施形態に係る文脈解析装置の具体例について説明する。図5は、本実施形態に係る文脈解析装置100の構成例を示すブロック図である。文脈解析装置100は、図5に示すように、格フレーム推定器1と、イベント系列モデル構築器2と、機械学習用事例生成器3と、照応解析訓練器4と、照応解析予測器(解析処理部)5と、を備える。なお、図5中の角丸四角形は、文脈解析装置100を構成する上記各モジュール1〜5の入出力データを表している。
文脈解析装置100により実行される処理は、「イベント系列モデルの構築処理」、「照応解析の学習処理」、および「照応解析の予測処理」の3つに大別される。イベント系列モデルの構築処理は、格フレーム推定器1とイベント系列モデル構築器2とを用いて、任意の文書群D1からイベント系列モデルD2を生成する処理である。照応解析の学習処理は、格フレーム推定器1と機械学習用事例生成器3とを用いて、照応タグ付き文書群D3とイベント系列モデルD2とから訓練用事例データD4を生成し、さらに照応解析訓練器4を用いて、訓練用事例データD4から照応解析学習モデルD5を生成する処理である。照応解析の予測処理は、格フレーム推定器1と機械学習用事例生成器3とを用いて、解析対象文書D6とイベント系列モデルD2とから予測用事例データD7を生成し、さらに照応解析予測器5を用いて、予測用事例データD4と照応解析学習モデルD5とから照応解析予測結果D8を生成する処理である。
なお、本実施形態では、説明を簡単にするために、機械学習の手法として2値分類器を用いるものとする。ただし、機械学習の手法としては、2値分類器を用いるもの以外に、たとえばランキング学習などの公知の方法をいずれも適用することができる。
まず、上記3つの処理の概要を説明する。文脈解析装置100がイベント系列モデルの構築処理を実行する場合、格フレーム推定器1には、任意の文書群D1が入力される。格フレーム推定器1は、任意の文書群D1を受け取り、任意の文書群D1に含まれる各述語に対して、その述語が属する格フレームを推定し、各述語に対してtop-k候補の格フレームの概要を表す格フレーム情報が付与された、格フレーム情報付き文書群D1’を出力する。なお、格フレーム推定器1の具体例については、詳細を後述する。
次に、イベント系列モデル構築器2が、格フレーム情報付き文書群D1’を受け取り、この格フレーム情報付き文書群D1’からイベント系列群を獲得する。そして、イベント系列モデル構築器2は、獲得されたイベント系列群に対して頻度のカウントや確率計算などの処理を行って、最終的にイベント系列モデルD2を出力する。イベント系列モデルD2は、イベント系列群に含まれる部分系列それぞれの出現確率を表している。このイベント系列モデルD2を用いれば、任意の部分系列の確率値を決定することができる。これは、以降で説明する照応解析の学習処理および照応解析の予測処理において、照応解析における先行詞の確からしさを推定する手がかりとして利用される。イベント系列モデル構築器2の具体例については、詳細を後述する。
文脈解析装置100が照応解析の学習処理を実行する場合、格フレーム推定器1には、照応タグ付き文書群D3が入力される。図6は、照応タグ付き文書群D3の一例を説明する図であり、(a)は英語の文の一部、(b)は日本語の文の一部をそれぞれ抜粋して示している。照応タグは、文中の先行詞と照応詞との対応関係を示すタグであり、図6の例では、大文字のAから始まるタグが照応詞候補、小文字のaから始まるタグが先行詞候補を示し、照応詞候補を示すタグと先行詞候補を示すタグとで数字が一致するものが、照応関係にあることを示している。図6(b)に示す日本語の例では、照応詞は省略されているため、照応詞タグは、照応詞の格種別情報と併記されるかたちで文の述語の部分に付与されている。
格フレーム推定器1は、上記のような照応タグ付き文書群D3を受け取ると、任意の文書群D1を受け取った場合と同様に、照応タグ付き文書群D3に含まれる各述語に対して、その述語が属する格フレームを推定し、各述語に対してtop-k候補の格フレームの概要を表す格フレーム情報が付与された、格フレーム情報および照応タグ付き文書群D3’を出力する。
次に、機械学習用事例生成器3が、格フレーム情報および照応タグ付き文書群D3’を受け取り、イベント系列モデル構築器2により生成されたイベント系列モデルD2を用いて、格フレーム情報および照応タグ付き文書群D3’から訓練用事例データD4を生成する。なお、機械学習用事例生成器3の具体例については、詳細を後述する。
次に、照応解析訓練器4が、訓練用事例データD4を入力として機械学習の訓練を行い、学習結果となる照応解析学習モデルD5を生成する。なお、本実施形態では、照応解析訓練器4として2値分類器を用いるものとする。2値分類器による機械学習は公知の技術であるため、詳細な説明は省略する。
文脈解析装置100が照応解析の予測処理を実行する場合、格フレーム推定器1には、解析対象文書D6が入力される。解析対象文書D6は、照応解析を行う対象となるアプリケーションデータである。格フレーム推定器1は、解析対象文書D6を受け取ると、任意の文書群D1や照応タグ付き文書群D3を受け取った場合と同様に、解析対象文書D6に含まれる各述語に対して、その述語が属する格フレームを推定し、各述語に対してtop-k候補の格フレームの概要を表す格フレーム情報が付与された、格フレーム情報付き解析対象文書D6’を出力する。
次に、機械学習用事例生成器3が、格フレーム情報付き解析対象文書D6’を受け取り、イベント系列モデル構築器2により生成されたイベント系列モデルD2を用いて、格フレーム情報付き解析対象文書D6’から予測用事例データD7を生成する。
次に、照応解析予測器5が、予測用事例データD7を入力とし、照応解析訓練器4により生成された照応解析学習モデルD5を用いて機械学習を行い、その結果である照応解析予測結果D8を出力する。一般的にはこれがアプリケーションの出力となる。なお、本実施形態では、照応解析予測器5として2値分類器を用いるものとし、詳細な説明は省略する。
次に、格フレーム推定器1の具体例について説明する。図7は、格フレーム推定器1の構成例を示すブロック図である。図7に示す格フレーム推定器1は、事態性名詞→述語コンバータ11と、格フレームパーサ12とを備える。格フレーム推定器1の入力は、任意の文書群D1、または照応タグ付き文書群D3、または解析対象文書D6であり、格フレーム推定器1の出力は、格フレーム情報付き文書群D1’、または格フレーム情報および照応タグ付き文書群D3’、または格フレーム情報付き解析対象文書D6’である。なお、以下では、説明の便宜上、格フレーム推定器1に入力される文書群または文書を格フレーム推定前文書D11と総称し、格フレーム推定器1から出力される文書を格フレーム推定後文書D12と総称する。
事態性名詞→述語コンバータ11は、入力された格フレーム推定前文書D11に含まれる事態性名詞を述語表現に置き換える処理を行う。この処理を行う背景として、述語の事例を増やしたいという目的がある。本実施形態では、イベント系列モデル構築器2によりイベント系列モデルD2を生成し、イベント系列モデルD2を用いて機械学習用事例生成器3で訓練用事例データD4や予測用事例データD7を生成する。この際、述語の事例が多いほど、イベント系列モデルD2の性能が高まり、より適切な訓練用事例データD4や予測用事例データD7を生成して機械学習の精度を高めることができる。したがって、事態性名詞→述語コンバータ11により事態性名詞を述語表現に置き換えて述語の事例を増やすことで、機械学習の精度を高めることができる。
事態性名詞→述語コンバータ11は、たとえば、入力された格フレーム推定前文書D11が日本語の場合、文中のサ変名詞をサ変動詞に置き換える処理を行う。具体的には、格フレーム推定前文書D11中に「日米交渉」というサ変名詞があるとき、「日米が交渉する」というフレーズに置き換える。このような処理を行うためには、名詞が事態性名詞かどうか、および事態性名詞の各項がどれなのかについての判定を行う必要があるが、一般的にこのような処理は難しい。ただし、NAISTテキストコーパス(http://cl.naist.jp/nldata/corpus/)のように、事態性名詞と項の間の関係について注釈付けがなされたコーパスが存在する。このようなコーパスを利用すれば、その注釈を用いることで上記処理を簡便に行うことができる。「日米交渉」の場合、「交渉」は事態性名詞であり、その「交渉」のガ格の項が「日米」である、との注釈が付けられている。
なお、事態性名詞→述語コンバータ11は、必要に応じて用いられるオプション機能である。事態性名詞→述語コンバータ11を用いない場合は、格フレーム推定前文書D11が、そのまま格フレームパーサ12に入力される。
格フレームパーサ12は、事態性名詞→述語コンバータ11によって事態性名詞から変換された述語も含めて、格フレーム推定前文書D11から述語を検出し、さらに検出した各述語が属する格フレームを推定する。日本語の場合、KNP(http://nlp.ist.i.kyoto-u.ac.jp/index.php?KNP)などのように、文中の述語が属する格フレームを推定する機能を持つツールが公開されている。KNPは、上述した京都大学格フレームを用いて、述語が属する格フレームを推定する機能を持つ日本語構文・格解析システムである。本実施形態では、格フレームパーサ12として、KNPと同様のアルゴリズムを用いるものとする。なお、格フレームパーサ12により推定される格フレームはあくまで推定結果であるので、必ずしも1つの述語に対して1つの格フレームが一意に決まるとは限らない。そこで、格フレームパーサ12は、1つの述語に対してtop-k候補の格フレームを推定し、これらtop-k候補の格フレームの概要を表す格フレーム情報を、各述語に注釈として付与する。ただしkは正数であり、たとえばk=5を用いる。
格フレーム推定前文書D11から検出された述語のそれぞれについて、top-k候補の格フレームの概要を表す格フレーム情報が注釈として付与されたものが格フレーム推定後文書D12であり、これが格フレーム推定器1の出力となる。図8は、格フレーム推定後文書D12の一例を示す図であり、(a)は英語の文書の一部、(b)は日本語の文書の一部をそれぞれ抜粋して示している。格フレーム推定後文書D12において、注釈として付与される格フレーム情報には、述語の語義を識別するラベルとが含まれる。図8(a)の英語の文では、v11、v3、v7などが述語の語義を識別するラベルである。また、図8(b)の日本語の文では、動2、動1、動3、動2、動9などが述語の語義を識別するラベルであり、上述した京都大学格フレームで用いられているラベルに対応している。
次に、イベント系列モデル構築器2の具体例について説明する。図9は、イベント系列モデル構築器2の構成例を示すブロック図である。図9に示すイベント系列モデル構築器2は、イベント系列獲得部(系列獲得部)21と、イベント部分系列カウンタ(頻度算出部)22と、確率モデル構築部(確率算出部)23と、を備える。イベント系列モデル構築器2の入力は、格フレーム情報付き文書群D1’(格フレーム推定後文書D12)であり、イベント系列モデル構築器2の出力は、イベント系列モデルD2である。
イベント系列獲得部21は、入力された格フレーム情報付き文書群D1’からイベント系列群を獲得する。イベント系列獲得部21が獲得するイベント系列群の各イベント系列は、上述したように、従来のイベント系列の要素に述語の語義を特定する語義特定情報を付加したものである。すなわち、イベント系列獲得部21は、入力された格フレーム情報付き文書群D1’から共有項(アンカー)を持つ複数の述語を検出し、検出した複数の述語のそれぞれについて、該述語と、語義特定情報と、格種別情報との組み合わせを要素として求め、複数の述語ごとに求めた複数の要素を、格フレーム情報付き文書群D1’における述語の出現順に並べてイベント系列を獲得する。ここで、イベント系列の各要素の語義特定情報として、格フレーム情報付き文書群D1’に注釈として付与された格フレーム情報のうち、述語の語義を識別するラベルを利用する。たとえば、英語の場合は、図8(a)に例示した格フレーム情報に含まれるv11、v3、v7などのラベルを語義特定情報として利用し、日本語の場合は、図8(b)に例示した格フレーム情報に含まれる動2、動1、動3、動2、動9などのラベルを語義特定情報として利用する。
イベント系列獲得部21が格フレーム情報付き文書群D1’からイベント系列群を獲得する方法としては、共参照タグによるアンカーを用いる方法と、表層によるアンカーを用いる方法とがある。
まず、共参照タグによるアンカーを用いてイベント系列群を獲得する方法について説明する。この方法は、イベント系列獲得部21に入力される格フレーム情報付き文書群D1’に共参照タグが付与されていることを前提とする。共参照タグは、上述した格フレーム推定器1に入力される任意の文書群D1に元々付与されていてもよいし、任意の文書群D1が格フレーム情報付き文書群D1’となってイベント系列モデル構築器2に入力されるまでの間に付与されてもよい。
ここで、共参照タグについて説明する。図10は、共参照タグ付きの文書の一例を示す図であり、(a)は英語の文書の例、(b)は日本語の文書の例をそれぞれ示している。共参照タグは、共参照関係にある名詞同士を識別するための情報であり、共参照関係にある名詞同士に同じラベルを付けることで識別可能としている。図10(a)の英語の例では[C2]が3箇所に出てきており、これらが共参照関係にあることになる。共参照関係にある名詞の集合は、共参照クラスタと呼ばれる。図10(b)の日本語の例においても、図10(a)の英語の例と同様に、同じラベルが付いている名詞同士が共参照関係にあることを示している。ただし、日本語の場合はゼロ照応によって重要な語の省略が頻繁に起こるため、ゼロ照応を解決した状態で共参照関係を判定する。図10(b)の例では、()の中がゼロ照応解決によって補われた文節である。
次に、アンカーについて説明する。アンカーとは、上述したように複数の述語によって共有されている共有項のことである。共参照タグを利用する場合は、サイズ2以上の共参照クラスタを探し出し、そのクラスタに含まれる名詞群をアンカーとする。共参照タグを利用してアンカーを特定することで、表層は一致するが実体は異なる名詞群を誤ってアンカーとしてしまうといった不都合や、逆に、実体が同じであるが表層が異なる名詞群をアンカーとして特定できないといった不都合を解消させることができる。
イベント系列獲得部21は、共参照タグによるアンカーを用いてイベント系列を獲得する場合、まず、共参照クラスタから名詞群を取り出してこれをアンカーとする。次に、イベント系列獲得部21は、格フレーム情報付き文書群D1’から、アンカーが配置された複数の文の述語をそれぞれ検出するとともに、その文においてアンカーが配置されているスロットの格の種別を特定して格種別情報を得る。次に、イベント系列獲得部21は、格フレーム付き文書群D1’において、検出した述語に対して注釈として付与されている格フレーム情報から当該述語の語義を識別するラベルを参照し、述語の語義特定情報を取得する。そして、イベント系列獲得部21は、格フレーム情報付き文書群D1’から検出した複数の述語のそれぞれについて、述語と、語義特定情報と、格種別情報との組み合わせをイベント系列の要素として求め、格フレーム情報付き文書群D1’における述語の出現順に複数の要素を並べて、イベント系列として獲得する。なお、本実施形態では、上述したように、1つの述語に対してtop-k候補の格フレーム情報が与えられるため、1つの述語に対して複数の語義特定情報が取得されることになる。このため、イベント系列を構成する各要素には、語義特定情報のみが異なる複数の組み合わせの候補(要素候補)が存在する。
イベント系列獲得部21は、すべての共参照クラスタについて以上の処理を行って、アンカーごとのイベント系列の集合であるイベント系列群を得る。図11は、図10に例示した共参照タグ付き文書から獲得されたイベント系列の例を示す図であり、図11(a)は図10(a)の英語の文の“suspect”をアンカーとして獲得したイベント系列を示し、図11(b)の上段は図10(b)の日本語の文の「次郎」をアンカーとして獲得したイベント系列、図11(b)の下段は図10(b)の日本語の文の「ラジオ」をアンカーとして獲得したイベント系列をそれぞれ示している。図11で例示するイベント系列の表記では、系列内の各要素の区切りとして空白を用い、個々の要素の中での要素候補の区切りとしてカンマを用いている。つまり、このイベント系列は、各述語に対してtop-k候補の格フレーム情報を反映させた複数の要素候補を持つ要素の系列となっている。なお、図11の例ではk=2である。
次に、表層によるアンカーを用いてイベント系列を獲得する方法について説明する。この方法は、イベント系列獲得部21に入力される格フレーム情報付き文書群D1’に共参照タグが付与されていることを前提としない。その代わりに、イベント系列獲得部21に入力される格フレーム情報付き文書群D1’内で同じ表層を持つ名詞同士を共参照関係にあるとみなす。たとえば図10(a)に示した英語の文の例において、[C1]、[C2]、[C3]のような共参照タグが付与されていない場合ついて考えると、3箇所に出てくる“suspect”という名詞同士は表層が同じであるため、これらを共参照関係にあるとみなす。日本語の文の場合は、上述した例と同様にゼロ照応を解決した状態で、表層に基づき共参照関係を判定する。具体的には、たとえば、ゼロ代名詞と先行詞との関係を表すゼロ照応タグを格フレーム情報付き文書群D1’に付加しておき、このゼロ照応タグで示されるゼロ代名詞を先行詞で補った上で、表層に基づいて共参照関係を判定する。その後の処理は、共参照タグによるアンカーを用いてイベント系列を獲得する場合と同様である。
イベント部分系列カウンタ22は、イベント系列獲得部21が獲得したイベント系列のそれぞれについて、各イベント系列に含まれる部分系列ごとに出現頻度のカウント処理を行う。部分系列とは、イベント系列に含まれる要素のうちのN個の要素の部分集合であり、イベント系列の一部である。つまり、1つのイベント系列には、N個の要素の組み合わせに応じた複数の部分系列が含まれる。Nは部分系列の長さ(部分系列を構成する要素の数)を表し、部分系列を手続き的知識として扱う上で適切な数が設定される。
イベント系列の先頭の要素を含む部分系列については、部分系列の前方の1以上の要素にスペースを表す<s>を用い、<s>を含むN個の要素からなる部分系列としてもよい。これにより、イベント系列の先頭の要素が系列の最初に現れたことを表現することができる。また、イベント系列の末尾の要素を含む部分系列については、部分系列の後方の1以上の要素にスペースを表す<s>を用い、<s>を含むN個の要素からなる部分系列としてもよい。これにより、イベント系列の末尾の要素が系列の最後に現れたことを表現することができる。
なお、本実施形態では、要素の数を限定せずに格フレーム情報付き文書群D1’からイベント系列群を獲得し、獲得された各イベント系列からN個の要素の部分集合を部分系列として取り出す構成としている。しかし、格フレーム情報付き文書群D1’からイベント系列群を獲得する際に、獲得するイベント系列の要素の数をN個に限定してもよい。この場合は、格フレーム情報付き文書群D1’から獲得されるイベント系列そのものが、ここで言う部分系列となる。換言すると、要素の数に制限を設けずに獲得されたイベント系列から取り出された部分系列は、要素の数に制限を設けて獲得されたイベント系列と等価である。
イベント系列から部分系列を求める方法としては、イベント系列において隣接するN個の要素の部分集合を部分系列として求める方法と、要素が隣接しているという制約を持たずにN個の要素の部分集合を部分系列として求める方法とがある。後者の方法で得られる部分系列の出現頻度をカウントするモデルを特にスキップモデルと呼ぶ。スキップモデルは、隣接しない要素の組み合わせが許容されるため、たとえば割り込みなどによって文脈が一時的に途切れるような文に対応できるといったメリットがある。
イベント部分系列カウンタ22は、イベント系列獲得部21が獲得したイベント系列のそれぞれについて、長さNのあらゆる部分系列を取り出す。そして、取り出した部分系列の種類ごとに、その出現頻度をカウントする。つまり、イベント部分系列カウンタ22は、イベント系列から取り出したあらゆる部分系列の集合である部分系列群の中で、要素の並びが同じ部分系列が出現する頻度をカウントする。そして、イベント部分系列カウンタ22は、すべてのイベント系列について部分系列の出現頻度をカウントすると、部分系列ごとの出現頻度を記した頻度リストを出力する。
ただし、イベント系列を構成する各要素には、上述したように、語義特定情報のみが異なる複数の要素候補が存在するため、要素候補の組み合わせごとに、部分系列の出現頻度を求める必要がある。1つの部分系列に対して要素候補の組み合わせごとに出現頻度を求めるには、たとえば、部分系列の出現頻度のカウント数を、要素候補の組み合わせの数で除算した値を、それぞれの要素候補の組み合わせの出現頻度とすればよい。すなわち、部分系列を構成する各要素のそれぞれについて、要素候補の1つを選択したときのすべての組み合わせを系列として求め、部分系列の出現頻度のカウント数を、求めた系列数で除算した値をそれぞれの系列の出現頻度とする。たとえば、要素Aと要素Bからなる部分系列A−Bがあり、要素Aは要素候補a1,a2を持ち、要素Bは要素候補b1,b2を持つものとする。この場合、部分系列A−Bを、a1−b1,a2−b1,a1−b2,a2−b2の4つの系列に展開する。そして、部分系列A−Bのカウント数を4で除算した値を、a1−b1,a2−b1,a1−b2,a2−b2のそれぞれの系列の出現頻度とする。部分系列A−Bの出現頻度のカウント数が1であれば、a1−b1,a2−b1,a1−b2,a2−b2のそれぞれの系列の出現頻度は0.25となる。
図12は、図11に例示したイベント系列から求めた頻度リストの一部を示す図であり、図12(a)は図11(a)のイベント系列から取り出した一部の部分系列の出現確率を表す頻度リストの例、図12(b)は図11(b)のイベント系列から取り出した一部の部分系列の出現確率を表す頻度リストの例をそれぞれ示している。なお、図12の例では、部分系列の長さNは2であり、部分系列の出現頻度のカウント数はそれぞれ1である。図12(a)および図12(b)に示す頻度リストにおいて、各行のコロンの前側が要素候補の組み合わせごとに展開された部分系列であり、各行のコロンの後ろ側がそれぞれの系列の出現頻度を表している。
確率モデル構築部23は、イベント部分系列カウンタ22から出力される頻度リストを用いて、確率モデル(イベント系列モデルD2)の構築を行う。確率モデル構築部23が確率モデルを構築する方法としては、n−gramモデルを用いる方法と、要素の順序を考慮しないトリガモデルを用いる方法とがある。
まず、n−gramモデルを用いて確率モデルを構築する方法について説明する。確率の算出対象とする系列を{x1,x2,・・・,xn}、系列の出現頻度をc(・)で表すとき、n−gramモデルにおける確率を算出する式は、下記式(1)のようになる。
Figure 0005389273
n−gramモデルを用いて確率モデルを構築する場合、確率モデル構築部23は、イベント部分系列カウンタ22から出力される頻度リストに出現頻度が記されているすべての系列に対して数1を用いた計算を行い、系列ごとの出現確率を算出する。そして、確率モデル構築部23は、算出結果をまとめた確率リストを出力する。なお、オプショナルな処理として、既存のスムージング処理を用いてもよい。
次に、トリガモデルを用いて確率モデルを構築する方法について説明する。確率の算出対象とする系列を{x1,x2,・・・,xn}、系列の出現頻度をc(・)で表すとき、n−gramモデルにおける確率を算出する式は、下記式(2)のようになる。これはポイントワイズ相互情報量の総和である。
Figure 0005389273
この式2において、lnは自然対数であり、p(xi|xj)およびp(xj|xi)の値は、Bigramモデル:p(x2|x1)=c(x1,x2)/c(x1)から得る。
トリガモデルを用いて確率モデルを構築する場合、確率モデル構築部23は、イベント部分系列カウンタ22から出力される頻度リストに出現頻度が記されているすべての系列に対して数2を用いた計算を行い、系列ごとの出現確率を算出する。そして、確率モデル構築部23は、算出結果をまとめた確率リストを出力する。また、オプショナルな処理として、既存のスムージング処理を用いてもよい。なお、長さN=2とすれば、総和計算(上記式2においてΣと書かれた処理部分)は不要となり、PMIを用いた従来手法と同じになる。
図13は、図12に例示した頻度リストを用いて構築された確率モデルの出力である確率リストを示す図であり、図13(a)は図12(a)の頻度リストから得られる確率リストの例、図13(b)は図12(b)の頻度リストから得られる確率リストの例をそれぞれ示している。図13(a)および図13(b)に示す確率リストにおいて、各行のコロンの前側が要素候補の組み合わせごとに展開された部分系列であり、各行のコロンの後ろ側がそれぞれの系列の出現確率を表している。この図13に例示されるような確率リストが、イベント系列モデル構築器2の最終出力であるイベント系列モデルD2となる。
次に、機械学習用事例生成器3の具体例について説明する。図14は、機械学習用事例生成器3の構成例を示すブロック図である。図14に示す機械学習用事例生成器3は、ペア生成部31と、予測系列生成部32と、確率予測部33と、特徴ベクトル生成部34と、を備える。機械学習用事例生成器3の入力は、照応解析の学習処理を行う場合は格フレーム情報および照応タグ付き文書群D3’とイベント系列モデルD2、照応解析の予測処理を行う場合は格フレーム情報付き解析対象文書D6’とイベント系列モデルD2であり、機械学習用事例生成器3の出力は、照応解析の学習処理を行う場合は訓練用事例データD4、照応解析の予測処理を行う場合は予測用事例データD7である。
ペア生成部31は、格フレーム情報および照応タグ付き文書群D3’、または格フレーム情報付き解析対象文書D6’を用いて、照応詞候補と先行詞候補のペアを生成する。照応解析の学習処理を行う場合は、最終的に訓練用事例データD4を得るために、ペア生成部31は、格フレーム情報および照応タグ付き文書群D3’を用いて、正例のペアと負例のペアとの双方を生成する。正例のペアとは、実際に照応関係にあるペアであり、負例のペアとは、照応関係にはないペアである。正例のペアと負例のペアは、照応タグを用いて区別することができる。
ここで、図15の例を用いて、照応解析の学習処理を行う場合のペア生成部31による処理の具体例を説明する。図15は照応タグが付与された文の一例を示し、(a)は英語の文、(b)は日本語の文をそれぞれ示している。図15の例における照応タグは、図6に示した例と同様に、大文字のAから始まるタグが照応詞候補、小文字のaから始まるタグが先行詞候補を示し、照応詞候補を示すタグと先行詞候補を示すタグとで数字が一致するものが、照応関係にあることを示している。
ペア生成部31は、照応詞候補と先行詞候補とのあらゆる組み合わせのペアを生成する。ただし、照応詞候補とペアとなる先行詞候補は、その照応詞候補よりも先行する文脈になければならない。図15(a)の英語の文からは、照応詞候補と先行詞候補のペア群として、{(a1,A1),(a2,A1)}が得られる。また、図15(b)の日本語の文からは、照応詞候補と先行詞候補のペア群として、{(a4,A6),(a5,A6),(a6,A6),(a7,A6),(a4,A7),(a5,A7),(a6,A7),(a7,A7),(a4,A6),(a5,A6),(a6,A6),(a7,A6),(a4,A7),(a5,A7),(a6,A7),(a7,A7)}が得られる。なお、処理の効率化のために、照応詞候補との距離が一定以上大きい先行詞候補は、ペアの対象外とするといった条件を追加するようにしてもよい。ペア生成部31は、以上のようにして得たペア群の中で、正例のペアに対しては正例ラベルを付与し、負例のペアに対しては負例ラベルを付与する。
照応解析の予測処理を行う場合は、ペア生成部31は、格フレーム情報付き解析対象文書D6’を用いて、照応詞候補と先行詞候補のペアを生成する。この場合、格フレーム情報付き解析対象文書D6’には照応タグが付与されていないので、ペア生成部31は、何らかの方法で文書中の先行詞候補と照応詞候補とを見つけ出す必要がある。格フレーム情報付き解析対象文書D6’が英語の場合は、たとえば、格フレーム情報付き解析対象文書D6’に対して品詞解析を行って、代名詞と判断された単語を照応詞候補とし、それ以外の名詞を先行詞候補とするといった方法が考えられる。また、格フレーム情報付き解析対象文書D6’が日本語の場合は、格フレーム情報付き解析対象文書D6’に対して述語項構造解析を行って、述語群を検出するとともに各述語で充足されていない必須格のスロットを照応詞候補とし、照応詞候補よりも先行する文脈にある名詞を先行詞候補とするといった方法が考えられる。ペア生成部31は、以上により先行詞候補と照応詞候補とを見つけ出した後、照応解析の学習処理の場合と同様の手順を用いて、照応詞候補と先行詞候補のペア群を得る。ただし、正例ラベルや負例ラベルの付与は不要である。
予測系列生成部32は、ペア生成部31が生成した照応詞候補と先行詞候補のペアのそれぞれについて、照応詞候補を先行詞候補に置き換えたときの文の述語が属する格フレームを推定するとともに、先行詞候補をアンカーとして先行する文脈にある述語を抽出して、上述したイベント系列を生成する。予測系列生成部32が生成するイベント系列は、照応詞候補を先行詞候補に置き換えたときの文の述語、語義特定情報、および格種別情報の組み合わせが系列の末尾の要素となるものであり、末尾の要素を予測により求めたイベント系列であるため、任意の文書群D1から獲得されるイベント系列と区別して、予測系列と呼ぶ。
ここで、予測系列生成部32による処理の具体例について詳しく説明する。予測系列生成部32は、ペア生成部31が生成した照応詞候補と先行詞候補のペアのそれぞれについて、以下の処理を行う。
まず、予測系列生成部32は、照応詞候補が属する文の述語に対し、照応詞候補の代わりに先行詞候補を項として与え、その状態で、述語の格フレーム推定を行う。この処理には、既存の格フレームパーサを用いる。ただし、ここで用いる格フレームパーサは、格フレーム推定器1の格フレームパーサ12と共通のアルゴリズムで格フレームを推定するものである必要がある。したがって、1つの述語に対してtop-k候補の格フレームが得られるが、ここではtop-1の格フレームを用いる。
次に、予測系列生成部32は、格フレーム情報および照応タグ付き文書群D3’、または格フレーム情報付き解析対象文書D6’から、先行詞候補よりも先行する文脈にあり、先行詞候補と共参照関係にある名詞群を検出する。共参照関係の判定には、共参照解析器を用いる、あるいは表層一致する名詞同士を共参照とみなす、のいずれかの方法を用いる。このようにして得られた名詞群がアンカーとなる。
次に、予測系列生成部32は、格フレーム情報および照応タグ付き文書群D3’、または格フレーム情報付き解析対象文書D6’から、アンカーが属する文の述語を検出し、上述したイベント系列獲得部21と同様の手法により、予測系列を生成する。ただし、予測系列の長さは、上述したイベント系列における部分系列の長さに合わせて、Nとする。つまり、上記の先行詞候補が属する文の述語に対応する要素と、それよりも先行する文脈で検出されたN−1個の述語のそれぞれに対応する要素とを繋げた系列を、予測系列として生成する。予測系列生成部32は、ペア生成部31が生成した照応詞候補と先行詞候補のペアのすべてに対して以上の処理を行い、それぞれのペアに対応する予測系列を生成する。
確率予測部33は、予測系列生成部32が生成した予測系列のそれぞれをイベント系列モデルD2と照合して、各予測系列の発生確率をそれぞれ予測する。具体的には、確率予測部33は、イベント系列モデルD2の中から予測系列と一致する部分系列を探し出し、得られた部分系列の出現確率を、予測系列の発生確率とする。ここで得られる予測系列の発生確率は、当該予測系列の生成に用いた照応詞候補と先行詞候補とのペアが実際に照応関係にあることの確からしさ(尤度)を表すものとなる。なお、イベント系列モデルD2の中から予測系列に一致する部分系列が見つからない場合は、当該予測系列の発生確率を0とする。イベント系列モデルD2を生成する際にスムージング処理を行っている場合は、予測系列に一致する部分系列が見つからないケースを減らすことができる。
特徴ベクトル生成部34は、ペア生成部31が生成した照応詞候補と先行詞候補のペアを事例と扱い、各事例について、予測系列生成部32が生成した予測系列の発生確率を要素(特徴量)の1つとして加えた特徴ベクトルを生成する。すなわち、特徴ベクトル生成部34は、照応詞候補と先行詞候補のペアを表す特徴ベクトルの要素として一般的に用いられている標準的な素性群、たとえば図16に示すような素性群に加え、確率予測部33によって得られた予測系列の発生確率を要素として用いて、照応詞候補と先行詞候補のペアの事例に関する特徴ベクトルを生成する。
照応解析の予測処理を行う場合は、特徴ベクトル生成部34が生成する特徴ベクトルが、機械学習用事例生成器3の最終出力である予測用事例データD7となる。また、照応解析の学習処理を行う場合は、特徴ベクトル生成部34が生成する特徴ベクトルに対して、照応詞候補と先行詞候補のペアに対して与えられた正例ラベルまたは負例ラベルを付加したものが、機械学習用事例生成器3の最終出力である訓練用事例データD4となる。
図17は、訓練用事例データD4の一例を示す図である。この図17に示す例において、最左の項目が正例ラベルあるいは負例ラベルであり、それ以外の項目が特徴ベクトルの各要素を示している。特徴ベクトルの各要素は、コロンより前の数字が要素番号、コロンより後の数字は要素の値(特徴量)を示している。図17に示す例では、予測系列の発生確率に対して要素番号「88」が与えられ、その要素番号「88」で表される要素の値として、確率予測部33によって得られた予測系列の発生確率が示されることになる。なお、予測用事例データD7の場合は、最左の項目に、機械学習処理において無視されるダミー値を入れておけばよい。
機械学習用事例生成器3から出力される訓練用事例データD4は、照応解析訓練器4に入力される。照応解析訓練器4は、訓練用事例データD4を用いて2値分類器による機械学習を行い、学習結果となる照応解析学習モデルD5を生成する。また、機械学習用事例生成器3から出力される予測用事例データD7は、照応解析予測器5に入力される。照応解析予測器5は、照応解析訓練器4により生成された照応解析学習モデルD5と予測用事例データD7とを用いて2値分類器による機械学習を行い、照応解析予測結果D8を出力する。
図18は、2値分類器による機械学習によって事例の正しさを判定する処理を概念的に説明する模式図である。2値分類器による機械学習では、図18に示すように、事例の特徴ベクトルXのそれぞれの要素{x1,x2,x3,・・・,xn}と重みベクトルW(w1,w2,w3,・・・,w4)との内積から、関数fによって事例のスコア値yを求め、求めたスコア値yを所定の閾値と比較して事例の正しさを判定する。事例のスコア値yは、y=f(X;W)と表すことができる。
照応解析訓練器4が行う機械学習の訓練は、訓練用事例データD4を用いて重みベクトルWを求める処理である。つまり、照応解析訓練器4は、訓練用事例データD4として、事例の特徴ベクトルXと、事例のスコア値yを閾値比較した結果を表す正例ラベルや負例ラベルが与えられ、これらを用いて重みベクトルWを求める。得られた重みベクトルWが、照応解析学習モデルD5となる。
一方、照応解析予測器5が行う機械学習は、照応解析学習モデルD5として与えられた重みベクトルWと、予測用事例データD7として与えられた特徴ベクトルXとを用いて、事例のスコア値yを算出し、スコア値yを閾値と比較して、事例が正しいか否かを表す照応解析予測結果D8を出力する処理である。
以上、具体的な例を挙げながら詳細に説明したように、本実施形態に係る文脈解析装置100によれば、述語と格種別情報だけでなく、述語の語義を特定する語義特定情報も含む要素の系列である新規なイベント系列を用いて照応解析を行うようにしているので、精度のよい照応解析を行うことができる。
また、本実施形態に係る文脈解析装置100では、語義特定情報のみが異なる複数の要素候補を持つ要素の系列であるイベント系列を獲得し、要素候補の組み合わせごとにイベント系列の出現頻度を算出し、要素候補の組み合わせごとにイベント系列の出現確率を算出するようにしているので、格フレームの推定において最上位の語義特定情報のみを用いた場合に生じるカットオフを防ぎ、照応解析の精度をより向上させることができる。
また、本実施形態に係る文脈解析装置100では、n−gramモデルを用いてイベント系列の出現確率を算出するようにした場合には、手続き的知識として有効な要素数を考慮してイベント系列の出現確率を求めることができ、イベント系列の手続き的知識としての正確性をさらに高めることができる。
また、本実施形態に係る文脈解析装置100では、トリガモデルを用いてイベント系列の出現確率を算出するようにした場合には、要素の出現順が前後する場合にも対応できるため、たとえば転置が生じている文書に対しても有効な手続き的知識となるイベント系列の出現確率を得ることができる。
また、本実施形態に係る文脈解析装置100では、イベント系列から部分系列を求める際に、系列において隣接していない要素の組み合わせを許容して部分系列を求めるようにすることで、割り込みなどによって文脈が一時的に途切れるような文書に対しても有効な手続き的知識となる部分系列を得ることができる。
また、本実施形態に係る文脈解析装置100では、任意の文書群D1からイベント系列を獲得する際に、共参照タグを利用してアンカーを特定するようにすることで、表層が一致するが実体が異なる名詞群を誤ってアンカーとしてしまうといった不都合や、逆に、実体が同じであるが表層が異なる名詞群をアンカーとして特定できないといった不都合を解消させることができる。
本実施形態に係る文脈解析装置100における上述した各機能は、たとえば、文脈解析装置100において所定のプログラムを実行することにより実現することができる。この場合、文脈解析装置100は、たとえば図19に示すように、CPU(Central Processing Unit)101などの制御装置、ROM(Read Only Memory)102やRAM(Random Access Memory)103などの記憶装置、ネットワークに接続して通信を行う通信I/F104、各部を接続するバス110などを備えた、通常のコンピュータを利用したハードウェア構成となる。
本実施形態に係る文脈解析装置100で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disc)等のコンピュータで読み取り可能な記録媒体に記録されてコンピュータプログラムプロダクトとして提供される。
また、本実施形態に係る文脈解析装置100で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施形態に係る文脈解析装置100で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
また、本実施形態に係る文脈解析装置100で実行されるプログラムを、ROM102等に予め組み込んで提供するように構成してもよい。
本実施形態に係る文脈解析装置100で実行されるプログラムは、文脈解析装置100の各処理部(格フレーム推定器1、イベント系列モデル構築器2、機械学習用事例生成器3、照応解析訓練器4、および照応解析予測器5)を含むモジュール構成となっており、実際のハードウェアとしては、例えば、CPU101(プロセッサ)が上記記録媒体からプログラムを読み出して実行することにより、上述した各処理部が主記憶装置上にロードされ、上述した各処理部が主記憶装置上に生成されるようになっている。なお、本実施形態に係る文脈解析装置100は、上述した各処理部の一部または全部を、ASIC(Application Specific Integrated Circuit)やFPGA(Field-Programmable Gate Array)などの専用のハードウェアを用いて実現することも可能である。
なお、以上説明した文脈解析装置100では、イベント系列モデルの構築処理と、照応解析の学習処理と、照応解析の予測処理のすべての処理を行うようにしているが、文脈解析装置100は、照応解析の予測処理のみを行うように構成することもできる。この場合、イベント系列モデルの構築処理や照応解析の学習処理は外部装置で行い、文脈解析装置100は、解析対象文書D6を入力するとともに、外部装置からイベント系列モデルD2と照応解析学習モデルD5を入力し、解析対象文書D6に対する照応解析を行う。
また、文脈解析装置100は、照応解析の学習処理と照応解析の予測処理のみを行うように構成することもできる。この場合、イベント系列モデルの構築処理は外部装置で行い、文脈解析装置100は、照応タグ付き文書群D3と解析対象文書D6を入力するとともに、外部装置からイベント系列モデルD2を入力し、照応解析学習モデルD5の生成と、解析対象文書D6に対する照応解析を行う。
なお、上述した文脈解析装置100は、文脈解析のうちの特に照応解析を行う構成であるが、文脈解析装置100は、たとえば、首尾一貫性の解決や対話処理など、照応解析以外の他の文脈解析を行う構成であってもよい。照応解析以外の文脈解析を行う場合であっても、述語の語義を特定する語義特定情報を含む要素の系列である新規なイベント系列を手続き的知識として用いることで、文脈解析の精度を向上させることができる。
以上、本発明の実施形態を説明したが、ここで説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。ここで説明した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。ここで説明した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。

Claims (12)

  1. 共有項を持つ述語と、該述語の語義を特定する語義特定情報と、前記共有項の格の種別を表す格種別情報との組み合わせを要素とし、該要素を複数並べた系列の一部の要素を予測により求めた予測系列を、解析対象の文書から生成する予測系列生成部と、
    任意の文書群から事前に獲得された前記系列であって前記予測系列と一致する前記系列の出現確率に基づいて、前記予測系列の発生確率を予測する確率予測部と、
    予測された前記予測系列の発生確率を用いて、解析対象の文書に対する文脈解析を行う解析処理部と、を備える文脈解析装置。
  2. 前記解析処理部は、予測された前記予測系列の発生確率を前記予測系列の特徴量として用いた機械学習により、解析対象の文書に対する照応解析を行う、請求項1に記載の文脈解析装置。
  3. 任意の文書群から前記系列を獲得する系列獲得部と、
    獲得された前記系列の出現確率を算出する確率算出部と、をさらに備える、請求項1に記載の文脈解析装置。
  4. 前記系列獲得部は、任意の文書群から共有項を持つ複数の述語を検出し、検出した複数の述語のそれぞれについて、該述語と、前記語義特定情報と、前記格種別情報との組み合わせを前記要素として求め、複数の述語ごとに求めた複数の前記要素を前記文書群における述語の出現順に並べて前記系列を獲得する、請求項3に記載の文脈解析装置。
  5. 獲得された前記系列の出現頻度を算出する頻度算出部をさらに備え、
    前記確率算出部は、前記系列の出現頻度に基づいて前記系列の出現確率を算出する、請求項3に記載の文脈解析装置。
  6. 前記系列獲得部は、1つの述語に対して複数の語義を推定して、前記組み合わせのうち前記語義特定情報のみが異なる複数の要素候補を含む要素を複数並べた前記系列を獲得し、
    前記頻度算出部は、前記系列の出現頻度を、前記要素候補の組み合わせの数で除算して、前記要素候補の組み合わせごとの出現頻度をそれぞれ算出する、請求項5に記載の文脈解析装置。
  7. 前記確率算出部は、N階マルコフ過程に基づいて、前記系列の出現確率を算出する、請求項5に記載の文脈解析装置。
  8. 前記確率算出部は、前記系列内の任意の要素のペアに関するポイントワイズ相互情報量の総和に基づいて、前記系列の出現確率を算出する、請求項5に記載の文脈解析装置。
  9. 前記頻度算出部は、前記系列内のN個の要素の部分集合である部分系列ごとに出現頻度を算出し、
    前記確率算出部は、前記部分系列ごとに出現確率を算出する、請求項5に記載の文脈解析装置。
  10. 前記頻度算出部は、前記系列において隣接していない要素の組み合わせを許容して前記部分系列を求める、請求項9に記載の文脈解析装置。
  11. 前記文書群は、共参照関係にある名詞同士を識別するための共参照情報が付与されており、
    前記系列獲得部は、前記共参照情報に基づいて前記共有項を特定する、請求項4に記載の文脈解析装置。
  12. 文脈解析装置において実行される文脈解析方法であって、
    前記文脈解析装置の予測系列生成部が、共有項を持つ述語と、該述語の語義を特定する語義特定情報と、前記共有項の格の種別を表す格種別情報との組み合わせを要素とし、該要素を複数並べた系列の一部の要素を予測により求めた予測系列を、解析対象の文書から生成し、
    前記文脈解析装置の確率予測部が、任意の文書群から事前に獲得された前記系列であって前記予測系列と一致する前記系列の出現確率に基づいて、前記予測系列の発生確率を予測し、
    前記文脈解析装置の解析処理部が、予測された前記予測系列の発生確率を用いて、解析対象の文書に対する文脈解析を行う文脈解析方法。
JP2012542314A 2012-06-25 2012-06-25 文脈解析装置および文脈解析方法 Active JP5389273B1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/066182 WO2014002172A1 (ja) 2012-06-25 2012-06-25 文脈解析装置および文脈解析方法

Publications (2)

Publication Number Publication Date
JP5389273B1 true JP5389273B1 (ja) 2014-01-15
JPWO2014002172A1 JPWO2014002172A1 (ja) 2016-05-26

Family

ID=49782407

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012542314A Active JP5389273B1 (ja) 2012-06-25 2012-06-25 文脈解析装置および文脈解析方法

Country Status (4)

Country Link
US (1) US20150032444A1 (ja)
JP (1) JP5389273B1 (ja)
CN (1) CN104169909B (ja)
WO (1) WO2014002172A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7481251B2 (ja) 2020-06-30 2024-05-10 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド テキスト中のイベント抽出方法、装置、電子機器及び記憶媒体

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014132402A1 (ja) * 2013-02-28 2014-09-04 株式会社東芝 データ処理装置および物語モデル構築方法
JP6074820B2 (ja) * 2015-01-23 2017-02-08 国立研究開発法人情報通信研究機構 アノテーション補助装置及びそのためのコンピュータプログラム
CN105988990B (zh) * 2015-02-26 2021-06-01 索尼公司 汉语零指代消解装置和方法、模型训练方法和存储介质
US10607152B2 (en) 2015-05-26 2020-03-31 Textio, Inc. Using machine learning to predict outcomes for documents
US10831802B2 (en) * 2016-04-11 2020-11-10 Facebook, Inc. Techniques to respond to user requests using natural-language machine learning based on example conversations
US10606952B2 (en) 2016-06-24 2020-03-31 Elemental Cognition Llc Architecture and processes for computer learning and understanding
JP6727610B2 (ja) * 2016-09-05 2020-07-22 国立研究開発法人情報通信研究機構 文脈解析装置及びそのためのコンピュータプログラム
US10860800B2 (en) * 2017-10-30 2020-12-08 Panasonic Intellectual Property Management Co., Ltd. Information processing method, information processing apparatus, and program for solving a specific task using a model of a dialogue system
US11106872B2 (en) * 2018-01-09 2021-08-31 Jyu-Fang Yu System and method for improving sentence diagram construction and analysis by enabling a user positioning sentence construction components and words on a diagramming interface
EP3759656A4 (en) * 2018-02-28 2022-03-30 Northrup, Charles SYSTEM AND METHOD FOR A DING MACHINE FOR RUNNING MODELS
US11182540B2 (en) * 2019-04-23 2021-11-23 Textio, Inc. Passively suggesting text in an electronic document
CN111984766B (zh) * 2019-05-21 2023-02-24 华为技术有限公司 缺失语义补全方法及装置
CN112001190A (zh) * 2020-07-20 2020-11-27 北京百度网讯科技有限公司 自然语言处理模型的训练方法、装置、设备及存储介质
WO2022047252A1 (en) * 2020-08-27 2022-03-03 Unified Compliance Framework (Network Frontiers) Automatically identifying multi-word expressions
CN112183060B (zh) * 2020-09-28 2022-05-10 重庆工商大学 多轮对话系统的指代消解方法
US11977852B2 (en) * 2022-01-12 2024-05-07 Bank Of America Corporation Anaphoric reference resolution using natural language processing and machine learning

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5696916A (en) * 1985-03-27 1997-12-09 Hitachi, Ltd. Information storage and retrieval system and display method therefor
US8180633B2 (en) * 2007-03-08 2012-05-15 Nec Laboratories America, Inc. Fast semantic extraction using a neural network architecture
US8527262B2 (en) * 2007-06-22 2013-09-03 International Business Machines Corporation Systems and methods for automatic semantic role labeling of high morphological text for natural language processing applications
CN101539907B (zh) * 2008-03-19 2013-01-23 日电(中国)有限公司 词性标注模型训练装置、词性标注系统及其方法
JP5527504B2 (ja) * 2009-04-20 2014-06-18 日本電気株式会社 語句抽出ルール生成装置、語句抽出システム、語句抽出ルール生成方法、及びプログラム
JP2011150450A (ja) * 2010-01-20 2011-08-04 Sony Corp 情報処理装置、情報処理方法、およびプログラム
EP2622592A4 (en) * 2010-09-28 2017-04-05 International Business Machines Corporation Providing answers to questions using multiple models to score candidate answers

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7481251B2 (ja) 2020-06-30 2024-05-10 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド テキスト中のイベント抽出方法、装置、電子機器及び記憶媒体

Also Published As

Publication number Publication date
US20150032444A1 (en) 2015-01-29
JPWO2014002172A1 (ja) 2016-05-26
CN104169909B (zh) 2016-10-05
CN104169909A (zh) 2014-11-26
WO2014002172A1 (ja) 2014-01-03

Similar Documents

Publication Publication Date Title
JP5389273B1 (ja) 文脈解析装置および文脈解析方法
Yang et al. Joint extraction of events and entities within a document context
US10289952B2 (en) Semantic frame identification with distributed word representations
US9465865B2 (en) Annotating entities using cross-document signals
US20150095017A1 (en) System and method for learning word embeddings using neural language models
US8321418B2 (en) Information processor, method of processing information, and program
US20160104075A1 (en) Identifying salient terms for passage justification in a question answering system
Szarvas et al. Supervised all-words lexical substitution using delexicalized features
Celano et al. Part of speech tagging for ancient greek
Rozovskaya et al. Correcting grammatical verb errors
JP6665061B2 (ja) 整合性判定装置、方法、及びプログラム
Singh et al. Named entity recognition for manipuri using support vector machine
Wong et al. iSentenizer‐μ: Multilingual Sentence Boundary Detection Model
Jain et al. Improving Kullback-Leibler based legal document summarization using enhanced text representation
JP4979637B2 (ja) 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
Rachman et al. Word Embedding for Rhetorical Sentence Categorization on Scientific Articles.
Jayasuriya et al. Learning a stochastic part of speech tagger for sinhala
Vaishnavi et al. Paraphrase identification in short texts using grammar patterns
Oudah et al. Person name recognition using the hybrid approach
Hoceini et al. Towards a New Approach for Disambiguation in NLP by Multiple Criterian Decision-Aid.
Zheng et al. Character-based parsing with convolutional neural network
Surahio et al. Prediction system for sindhi parts of speech tags by using support vector machine
Huang et al. Modeling human inference process for textual entailment recognition
Bölücü et al. A cascaded unsupervised model for PoS tagging
Chang et al. Zero pronoun identification in chinese language with deep neural networks

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130910

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131008

R150 Certificate of patent or registration of utility model

Ref document number: 5389273

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350