JP5389273B1

JP5389273B1 - 文脈解析装置および文脈解析方法

Info

Publication number: JP5389273B1
Application number: JP2012542314A
Authority: JP
Inventors: 伸一郎浜田
Original assignee: Toshiba Corp; Toshiba Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2012-06-25
Filing date: 2012-06-25
Publication date: 2014-01-15
Anticipated expiration: 2032-06-25
Also published as: US20150032444A1; JPWO2014002172A1; CN104169909B; CN104169909A; WO2014002172A1

Abstract

実施形態の文脈解析装置（１００）は、機械学習用事例生成器（３）と、照応解析予測器（５）と、を備える。機械学習用事例生成器（３）は、予測系列生成部（３２）と、確率予測部（３３）と、を備える。予測系列生成部（３２）は、共有項を持つ述語と、該述語の語義を特定する語義特定情報と、前記共有項の格の種別を表す格種別情報との組み合わせを要素とし、該要素を複数並べた系列の一部の要素を予測により求めた予測系列を、解析対象文書（Ｄ６）から生成する。確率予測部（３３）は、任意の文書群（Ｄ１）から事前に獲得された前記系列であって前記予測系列と一致する前記系列の出現確率に基づいて、前記予測系列の発生確率を予測する。照応解析予測器（５）は、予測された前記予測系列の発生確率を用いて、解析対象文書（Ｄ６）に対する文脈解析を行う。

Description

本発明の実施形態は、文脈解析を行う文脈解析装置および文脈解析方法に関する。

照応解析（Anaphora Resolution）、首尾一貫性の解決（Coreference Resolution）、対話処理（Dialog Processing）などの文脈解析（Contextual Analysis）は、自然言語処理において文書を正しく理解する上で重要なタスクである。文脈解析には、シャンクのスクリプトやフィルモアのフレームのような手続き的知識（Procedural Knowledge）を用いることが有効であることが知られている。しかし、人手で作成される手続き的知識にはガバレッジの限界がある。そこで、このような手続き的知識を文書から自動で獲得するアプローチが試みられている。

たとえば、互いに関連する述語の系列（以下、「イベント系列」と呼ぶ。）を手続き的知識とみなし、任意の文書群からこのようなイベント系列を獲得して手続き的知識として利用することが提案されている。

しかし、従来の方法で獲得されるイベント系列は手続き的知識としての正確性に欠けるため、これを利用して文脈解析を行うと十分な精度が得られない場合があり、改善が求められる。

V．Pekar．2006．Acquisition of verb entailment from text．In "Proceedings of the main conference on Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics"，pages 49．56．Association for Computational Linguistic． I．Szpektor and I．Dagan．2008．Learning entailment rules for unary templates．In "Proceedings of the 22nd International Conference on Computational Linguistics-Volume 1"，pages 849．856．Association for Computational Linguistics． N．Chambers and D．Jurafsky．2009．Unsupervised learning of narrative schemas and their participants．In "Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP：Volume 2-Volume 2"，pages 602．610．Association for Computational Linguistics．

本発明が解決しようとする課題は、精度の高い文脈解析を行うことができる文脈解析装置および文脈解析方法を提供することである。

実施形態の文脈解析装置は、予測系列生成部と、確率予測部と、解析処理部と、を備える。予測系列生成部は、共有項を持つ述語と、該述語の語義を特定する語義特定情報と、前記共有項の格の種別を表す格種別情報との組み合わせを要素とし、該要素を複数並べた系列の一部の要素を予測により求めた予測系列を、解析対象の文書から生成する。確率予測部は、任意の文書群から事前に獲得された前記系列であって前記予測系列と一致する前記系列の出現確率に基づいて、前記予測系列の発生確率を予測する。解析処理部は、予測された前記予測系列の発生確率を用いて、解析対象の文書に対する文脈解析を行う。

図１は、英語の文間照応の一例を説明する図である。図２は、従来の方法で獲得されるイベント系列の具体例を説明する図である。図３は、従来の方法で獲得されるイベント系列の問題点を説明する図である。図４は、京都大学格フレームの一部を抜粋して示す図である。図５は、実施形態に係る文脈解析装置の構成例を示すブロック図である。図６は、照応タグ付き文書群の一例を説明する図である。図７は、格フレーム推定器の構成例を示すブロック図である。図８は、格フレーム推定後文書の一例を示す図である。図９は、イベント系列モデル構築器の構成例を示すブロック図である。図１０は、共参照タグ付きの文書の一例を示す図である。図１１は、図１０に例示した共参照タグ付き文書から獲得されたイベント系列の例を示す図である。図１２は、図１１に例示したイベント系列から求めた頻度リストの一部を示す図である。図１３は、図１２に例示した頻度リストを用いて構築された確率モデルの出力である確率リストを示す図である。図１４は、機械学習用事例生成器の構成例を示すブロック図である。図１５は、照応タグが付与された文の一例を示す図である。図１６は、照応詞候補と先行詞候補のペアを表す特徴ベクトルの要素として用いられる標準的な素性群を示す図である。図１７は、訓練用事例データの一例を示す図である。図１８は、２値分類器による機械学習によって事例の正しさを判定する処理を概念的に説明する模式図である。図１９は、文脈解析装置のハードウェア構成の一例を示す図である。

以下、実施形態の文脈解析装置および文脈解析方法を、図面を参照して説明する。以下で示す実施形態は、文脈解析のうち、特に照応解析を行う装置への適用例である。

ある言語表現が文書内で先行する表現と同じ内容やエンティティを指す現象を照応と呼ぶ。照応関係を示すのに、同じ語を繰り返す代わりに代名詞を用いたり、後続の語を省略したりする。前者は代名詞照応と呼ばれ、後者はゼロ照応と呼ばれる。代名詞照応で代名詞が指し示す対象を推定したり、ゼロ照応で省略された名詞句（ゼロ代名詞）を補完したりする処理が照応解析である。照応には、代名詞やゼロ代名詞などの照応詞が同一文内の対象を指し示している文内照応や、照応詞が指し示す対象が別の文にある文間照応があり、一般的に文間照応の照応解析の方が文内照応の照応解析よりも難しいタスクである。照応は文書の中で頻繁に起こり、文意や文脈を理解するための重要な手がかりとなる。このため照応解析は、自然言語処理において重要な技術となっている。

図１は、英語の文間照応の例（D．Bean and E．Riloff．2004．Unsupervised learning of contextual role knowledge for coreference resolution．In “Proc．of HLT/NAACL”，pages 297．304．）である。図１に示す例では、（ｂ）の文における代名詞“they”および（ｃ）の文における代名詞“they”が、それぞれ（ａ）の文における“Jose Maria Martinez，Roberto Lisandy，and Dino Rossy”を指し示しており、この関係を推定するのが照応解析である。

以上のような照応解析は、手続き的知識を利用して行うことが有効である。手続き的知識は、照応解析の正しさを評価する１つの指標として利用できるからである。そして、このような手続き的知識を自動で獲得する方法として、任意の文書群から、共有項を持つ述語の系列であるイベント系列を獲得する方法が知られている。これは、項を共有する述語同士は何らかの関係を持っているという仮説に基づくものであり、共有項は特にアンカーと呼ばれる。

ここで、図２の例文（N．Chambers and D．Jurafsky．2009．Unsupervised learning of narrative schemas and their participants．In “Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP：Volume 2-Volume 2”，pages 602．610．Association for Computational Linguistics．）を参照し、従来の方法で獲得されるイベント系列の具体例を説明する。

図２の例文では、アンカーは“suspect”である。図２の１行目の文は、述語が“arrest”であり、アンカーである“suspect”の格の種別は目的格（obj）となっている。また、図２の２行目の文は、述語が“plead”であり、アンカーである“suspect”の格の種別は主格（sbj）となっている。また、図２の３行目の文は、述語が“convict”であり、アンカーである“suspect”の格の種別は目的格（obj）となっている。

従来の方法は、アンカーを含む複数の文のそれぞれから述語を抽出し、抽出した述語と、その文におけるアンカーの格の種別を表す格種別情報（以下、「格タイプ」という。）とのペアを要素として、述語の出現順に複数の要素を並べた系列をイベント系列として獲得する。図２の例文からは、イベント系列として［arrest#obj，plead#sbj，convict#obj］が獲得される。このイベント系列において、カンマで区切られる部分が、それぞれイベント系列の要素である。

しかし、従来の方法で獲得されるイベント系列は、異なる語義で使われている同じ述語を区別しないため、手続き的知識としての正確性に欠けるという問題がある。すなわち、多義的な述語は、その述語が持つ項によって大きく意味が変わることがあるが、従来の方法では、述語が異なる語義で使われていてもそれらが区別されないため、同一視すべきでないイベント系列の事例を同一視してしまう場合がある。たとえば、図３の例文のdoc1とdoc2は意味的には全く異なる２つの文章であるが、従来の方法により、これら２つの文章からそれぞれ“I”をアンカーとしてイベント系列を獲得すると、[take#sbj，get#sbj]と表現される同じイベント系列が獲得される。このように、従来の方法では、意味的に全く異なる文章から同一のイベント系列を獲得してしまう場合があり、獲得されたイベント系列は、手続き的知識としての正確性に欠ける。したがって、このイベント系列を利用して照応解析を行うと、十分な精度が得られない場合があり、改善が求められる。

そこで、本実施形態では、イベント系列を構成するそれぞれの要素に、述語と格種別情報に加えて、述語の語義を特定する語義特定情報を付加した新規なイベント系列を提案する。この新規なイベント系列では、各要素に付加された語義特定情報によって述語の語義の曖昧性を回避することができ、手続き的知識としての正確性が高まる。したがって、この新規なイベント系列を照応解析に利用することによって、照応解析の精度を向上させることができる。

本実施形態では、述語の語義を特定するために、一例として「格フレーム」を利用する。格フレームとは、述語を基準として取り得る格とその値に関する制約を、述語の用法ごとに分類して記述したものである。たとえば「京都大学格フレーム」（河原大輔，黒橋禎夫．高性能計算環境を用いたWebからの大規模格フレーム構築，情報処理学会自然言語処理研究会 171-12，pp．67-73，2006．）と呼ばれる格フレームのデータが存在し、これを利用することができる。

図４は、京都大学格フレームの一部を抜粋して示したものである。図４に示すように、京都大学格フレームでは、複数の語義（用法）を持つ述語がその語義ごとに分類され、それぞれの語義に関係する名詞がその出現頻度とともに、格の種別ごとに記述されている。たとえば、図４の例では、表層が同じ「積む」という述語が、「動２」というラベルで識別される語義（用法）と、「動３」というラベルで識別される語義（用法）とに分類され、それぞれの語義で使用される場合に関係する名詞群がその出現頻度とともに、格の種別ごとに記述されている。

このような京都大学格フレームを用いる場合、述語の語義を表す「動２」や「動３」のようなラベルを、新規なイベント系列の各要素に付加する語義特定情報として利用することができる。語義特定情報を要素に付加したイベント系列では、語義が異なる述語の要素に対して異なる語義特定情報が与えられるため、上述したような述語の多義性によるイベント系列の混同を避けることができ、手続き的知識としての正確性を高めることができる。

任意の文書群から獲得されたイベント系列は、公知の統計手法を用いてその出現確率を求めることで、照応解析の正しさを評価する１つの指標として利用することができる。従来の方法では、イベント系列の出現確率を求めるために、主に、イベント系列を構成する要素のペアのＰＭＩ（自己相互情報量：Point-wise Mutual Information）を用いている。しかし、要素のペアのＰＭＩを用いる従来の方法では、手続き的知識として有効なイベント系列の出現確率を正しく求めることが難しい。

そこで、本実施形態では、イベント系列の出現頻度や出現確率を求めるにあたり、たとえば、要素の順序を考慮するｎ−ｇｒａｍモデル、要素の順序を考慮しないトリガモデル、互いに隣接していない要素の組み合わせを許すスキップモデルなど、言語モデルの分野で考案されてきたいくつかの確率モデルを利用する。これらの確率モデルには、任意の長さの系列に対する確率を扱うことができる特徴がある。また、未知のイベント系列に対処するために、言語モデルの分野で開発されてきた平滑化手法（スムージング処理）を用いてもよい。

次に、本実施形態に係る文脈解析装置の具体例について説明する。図５は、本実施形態に係る文脈解析装置１００の構成例を示すブロック図である。文脈解析装置１００は、図５に示すように、格フレーム推定器１と、イベント系列モデル構築器２と、機械学習用事例生成器３と、照応解析訓練器４と、照応解析予測器（解析処理部）５と、を備える。なお、図５中の角丸四角形は、文脈解析装置１００を構成する上記各モジュール１〜５の入出力データを表している。

文脈解析装置１００により実行される処理は、「イベント系列モデルの構築処理」、「照応解析の学習処理」、および「照応解析の予測処理」の３つに大別される。イベント系列モデルの構築処理は、格フレーム推定器１とイベント系列モデル構築器２とを用いて、任意の文書群Ｄ１からイベント系列モデルＤ２を生成する処理である。照応解析の学習処理は、格フレーム推定器１と機械学習用事例生成器３とを用いて、照応タグ付き文書群Ｄ３とイベント系列モデルＤ２とから訓練用事例データＤ４を生成し、さらに照応解析訓練器４を用いて、訓練用事例データＤ４から照応解析学習モデルＤ５を生成する処理である。照応解析の予測処理は、格フレーム推定器１と機械学習用事例生成器３とを用いて、解析対象文書Ｄ６とイベント系列モデルＤ２とから予測用事例データＤ７を生成し、さらに照応解析予測器５を用いて、予測用事例データＤ４と照応解析学習モデルＤ５とから照応解析予測結果Ｄ８を生成する処理である。

なお、本実施形態では、説明を簡単にするために、機械学習の手法として２値分類器を用いるものとする。ただし、機械学習の手法としては、２値分類器を用いるもの以外に、たとえばランキング学習などの公知の方法をいずれも適用することができる。

まず、上記３つの処理の概要を説明する。文脈解析装置１００がイベント系列モデルの構築処理を実行する場合、格フレーム推定器１には、任意の文書群Ｄ１が入力される。格フレーム推定器１は、任意の文書群Ｄ１を受け取り、任意の文書群Ｄ１に含まれる各述語に対して、その述語が属する格フレームを推定し、各述語に対してtop-k候補の格フレームの概要を表す格フレーム情報が付与された、格フレーム情報付き文書群Ｄ１’を出力する。なお、格フレーム推定器１の具体例については、詳細を後述する。

次に、イベント系列モデル構築器２が、格フレーム情報付き文書群Ｄ１’を受け取り、この格フレーム情報付き文書群Ｄ１’からイベント系列群を獲得する。そして、イベント系列モデル構築器２は、獲得されたイベント系列群に対して頻度のカウントや確率計算などの処理を行って、最終的にイベント系列モデルＤ２を出力する。イベント系列モデルＤ２は、イベント系列群に含まれる部分系列それぞれの出現確率を表している。このイベント系列モデルＤ２を用いれば、任意の部分系列の確率値を決定することができる。これは、以降で説明する照応解析の学習処理および照応解析の予測処理において、照応解析における先行詞の確からしさを推定する手がかりとして利用される。イベント系列モデル構築器２の具体例については、詳細を後述する。

文脈解析装置１００が照応解析の学習処理を実行する場合、格フレーム推定器１には、照応タグ付き文書群Ｄ３が入力される。図６は、照応タグ付き文書群Ｄ３の一例を説明する図であり、（ａ）は英語の文の一部、（ｂ）は日本語の文の一部をそれぞれ抜粋して示している。照応タグは、文中の先行詞と照応詞との対応関係を示すタグであり、図６の例では、大文字のＡから始まるタグが照応詞候補、小文字のａから始まるタグが先行詞候補を示し、照応詞候補を示すタグと先行詞候補を示すタグとで数字が一致するものが、照応関係にあることを示している。図６（ｂ）に示す日本語の例では、照応詞は省略されているため、照応詞タグは、照応詞の格種別情報と併記されるかたちで文の述語の部分に付与されている。

格フレーム推定器１は、上記のような照応タグ付き文書群Ｄ３を受け取ると、任意の文書群Ｄ１を受け取った場合と同様に、照応タグ付き文書群Ｄ３に含まれる各述語に対して、その述語が属する格フレームを推定し、各述語に対してtop-k候補の格フレームの概要を表す格フレーム情報が付与された、格フレーム情報および照応タグ付き文書群Ｄ３’を出力する。

次に、機械学習用事例生成器３が、格フレーム情報および照応タグ付き文書群Ｄ３’を受け取り、イベント系列モデル構築器２により生成されたイベント系列モデルＤ２を用いて、格フレーム情報および照応タグ付き文書群Ｄ３’から訓練用事例データＤ４を生成する。なお、機械学習用事例生成器３の具体例については、詳細を後述する。

次に、照応解析訓練器４が、訓練用事例データＤ４を入力として機械学習の訓練を行い、学習結果となる照応解析学習モデルＤ５を生成する。なお、本実施形態では、照応解析訓練器４として２値分類器を用いるものとする。２値分類器による機械学習は公知の技術であるため、詳細な説明は省略する。

文脈解析装置１００が照応解析の予測処理を実行する場合、格フレーム推定器１には、解析対象文書Ｄ６が入力される。解析対象文書Ｄ６は、照応解析を行う対象となるアプリケーションデータである。格フレーム推定器１は、解析対象文書Ｄ６を受け取ると、任意の文書群Ｄ１や照応タグ付き文書群Ｄ３を受け取った場合と同様に、解析対象文書Ｄ６に含まれる各述語に対して、その述語が属する格フレームを推定し、各述語に対してtop-k候補の格フレームの概要を表す格フレーム情報が付与された、格フレーム情報付き解析対象文書Ｄ６’を出力する。

次に、機械学習用事例生成器３が、格フレーム情報付き解析対象文書Ｄ６’を受け取り、イベント系列モデル構築器２により生成されたイベント系列モデルＤ２を用いて、格フレーム情報付き解析対象文書Ｄ６’から予測用事例データＤ７を生成する。

次に、照応解析予測器５が、予測用事例データＤ７を入力とし、照応解析訓練器４により生成された照応解析学習モデルＤ５を用いて機械学習を行い、その結果である照応解析予測結果Ｄ８を出力する。一般的にはこれがアプリケーションの出力となる。なお、本実施形態では、照応解析予測器５として２値分類器を用いるものとし、詳細な説明は省略する。

次に、格フレーム推定器１の具体例について説明する。図７は、格フレーム推定器１の構成例を示すブロック図である。図７に示す格フレーム推定器１は、事態性名詞→述語コンバータ１１と、格フレームパーサ１２とを備える。格フレーム推定器１の入力は、任意の文書群Ｄ１、または照応タグ付き文書群Ｄ３、または解析対象文書Ｄ６であり、格フレーム推定器１の出力は、格フレーム情報付き文書群Ｄ１’、または格フレーム情報および照応タグ付き文書群Ｄ３’、または格フレーム情報付き解析対象文書Ｄ６’である。なお、以下では、説明の便宜上、格フレーム推定器１に入力される文書群または文書を格フレーム推定前文書Ｄ１１と総称し、格フレーム推定器１から出力される文書を格フレーム推定後文書Ｄ１２と総称する。

事態性名詞→述語コンバータ１１は、入力された格フレーム推定前文書Ｄ１１に含まれる事態性名詞を述語表現に置き換える処理を行う。この処理を行う背景として、述語の事例を増やしたいという目的がある。本実施形態では、イベント系列モデル構築器２によりイベント系列モデルＤ２を生成し、イベント系列モデルＤ２を用いて機械学習用事例生成器３で訓練用事例データＤ４や予測用事例データＤ７を生成する。この際、述語の事例が多いほど、イベント系列モデルＤ２の性能が高まり、より適切な訓練用事例データＤ４や予測用事例データＤ７を生成して機械学習の精度を高めることができる。したがって、事態性名詞→述語コンバータ１１により事態性名詞を述語表現に置き換えて述語の事例を増やすことで、機械学習の精度を高めることができる。

事態性名詞→述語コンバータ１１は、たとえば、入力された格フレーム推定前文書Ｄ１１が日本語の場合、文中のサ変名詞をサ変動詞に置き換える処理を行う。具体的には、格フレーム推定前文書Ｄ１１中に「日米交渉」というサ変名詞があるとき、「日米が交渉する」というフレーズに置き換える。このような処理を行うためには、名詞が事態性名詞かどうか、および事態性名詞の各項がどれなのかについての判定を行う必要があるが、一般的にこのような処理は難しい。ただし、ＮＡＩＳＴテキストコーパス（http://cl.naist.jp/nldata/corpus/）のように、事態性名詞と項の間の関係について注釈付けがなされたコーパスが存在する。このようなコーパスを利用すれば、その注釈を用いることで上記処理を簡便に行うことができる。「日米交渉」の場合、「交渉」は事態性名詞であり、その「交渉」のガ格の項が「日米」である、との注釈が付けられている。

なお、事態性名詞→述語コンバータ１１は、必要に応じて用いられるオプション機能である。事態性名詞→述語コンバータ１１を用いない場合は、格フレーム推定前文書Ｄ１１が、そのまま格フレームパーサ１２に入力される。

格フレームパーサ１２は、事態性名詞→述語コンバータ１１によって事態性名詞から変換された述語も含めて、格フレーム推定前文書Ｄ１１から述語を検出し、さらに検出した各述語が属する格フレームを推定する。日本語の場合、ＫＮＰ（http://nlp.ist.i.kyoto-u.ac.jp/index.php?KNP）などのように、文中の述語が属する格フレームを推定する機能を持つツールが公開されている。ＫＮＰは、上述した京都大学格フレームを用いて、述語が属する格フレームを推定する機能を持つ日本語構文・格解析システムである。本実施形態では、格フレームパーサ１２として、ＫＮＰと同様のアルゴリズムを用いるものとする。なお、格フレームパーサ１２により推定される格フレームはあくまで推定結果であるので、必ずしも１つの述語に対して１つの格フレームが一意に決まるとは限らない。そこで、格フレームパーサ１２は、１つの述語に対してtop-k候補の格フレームを推定し、これらtop-k候補の格フレームの概要を表す格フレーム情報を、各述語に注釈として付与する。ただしkは正数であり、たとえばk＝５を用いる。

格フレーム推定前文書Ｄ１１から検出された述語のそれぞれについて、top-k候補の格フレームの概要を表す格フレーム情報が注釈として付与されたものが格フレーム推定後文書Ｄ１２であり、これが格フレーム推定器１の出力となる。図８は、格フレーム推定後文書Ｄ１２の一例を示す図であり、（ａ）は英語の文書の一部、（ｂ）は日本語の文書の一部をそれぞれ抜粋して示している。格フレーム推定後文書Ｄ１２において、注釈として付与される格フレーム情報には、述語の語義を識別するラベルとが含まれる。図８（ａ）の英語の文では、ｖ１１、ｖ３、ｖ７などが述語の語義を識別するラベルである。また、図８（ｂ）の日本語の文では、動２、動１、動３、動２、動９などが述語の語義を識別するラベルであり、上述した京都大学格フレームで用いられているラベルに対応している。

次に、イベント系列モデル構築器２の具体例について説明する。図９は、イベント系列モデル構築器２の構成例を示すブロック図である。図９に示すイベント系列モデル構築器２は、イベント系列獲得部（系列獲得部）２１と、イベント部分系列カウンタ（頻度算出部）２２と、確率モデル構築部（確率算出部）２３と、を備える。イベント系列モデル構築器２の入力は、格フレーム情報付き文書群Ｄ１’（格フレーム推定後文書Ｄ１２）であり、イベント系列モデル構築器２の出力は、イベント系列モデルＤ２である。

イベント系列獲得部２１は、入力された格フレーム情報付き文書群Ｄ１’からイベント系列群を獲得する。イベント系列獲得部２１が獲得するイベント系列群の各イベント系列は、上述したように、従来のイベント系列の要素に述語の語義を特定する語義特定情報を付加したものである。すなわち、イベント系列獲得部２１は、入力された格フレーム情報付き文書群Ｄ１’から共有項（アンカー）を持つ複数の述語を検出し、検出した複数の述語のそれぞれについて、該述語と、語義特定情報と、格種別情報との組み合わせを要素として求め、複数の述語ごとに求めた複数の要素を、格フレーム情報付き文書群Ｄ１’における述語の出現順に並べてイベント系列を獲得する。ここで、イベント系列の各要素の語義特定情報として、格フレーム情報付き文書群Ｄ１’に注釈として付与された格フレーム情報のうち、述語の語義を識別するラベルを利用する。たとえば、英語の場合は、図８（ａ）に例示した格フレーム情報に含まれるｖ１１、ｖ３、ｖ７などのラベルを語義特定情報として利用し、日本語の場合は、図８（ｂ）に例示した格フレーム情報に含まれる動２、動１、動３、動２、動９などのラベルを語義特定情報として利用する。

イベント系列獲得部２１が格フレーム情報付き文書群Ｄ１’からイベント系列群を獲得する方法としては、共参照タグによるアンカーを用いる方法と、表層によるアンカーを用いる方法とがある。

まず、共参照タグによるアンカーを用いてイベント系列群を獲得する方法について説明する。この方法は、イベント系列獲得部２１に入力される格フレーム情報付き文書群Ｄ１’に共参照タグが付与されていることを前提とする。共参照タグは、上述した格フレーム推定器１に入力される任意の文書群Ｄ１に元々付与されていてもよいし、任意の文書群Ｄ１が格フレーム情報付き文書群Ｄ１’となってイベント系列モデル構築器２に入力されるまでの間に付与されてもよい。

ここで、共参照タグについて説明する。図１０は、共参照タグ付きの文書の一例を示す図であり、（ａ）は英語の文書の例、（ｂ）は日本語の文書の例をそれぞれ示している。共参照タグは、共参照関係にある名詞同士を識別するための情報であり、共参照関係にある名詞同士に同じラベルを付けることで識別可能としている。図１０（ａ）の英語の例では［Ｃ２］が３箇所に出てきており、これらが共参照関係にあることになる。共参照関係にある名詞の集合は、共参照クラスタと呼ばれる。図１０（ｂ）の日本語の例においても、図１０（ａ）の英語の例と同様に、同じラベルが付いている名詞同士が共参照関係にあることを示している。ただし、日本語の場合はゼロ照応によって重要な語の省略が頻繁に起こるため、ゼロ照応を解決した状態で共参照関係を判定する。図１０（ｂ）の例では、（）の中がゼロ照応解決によって補われた文節である。

次に、アンカーについて説明する。アンカーとは、上述したように複数の述語によって共有されている共有項のことである。共参照タグを利用する場合は、サイズ２以上の共参照クラスタを探し出し、そのクラスタに含まれる名詞群をアンカーとする。共参照タグを利用してアンカーを特定することで、表層は一致するが実体は異なる名詞群を誤ってアンカーとしてしまうといった不都合や、逆に、実体が同じであるが表層が異なる名詞群をアンカーとして特定できないといった不都合を解消させることができる。

イベント系列獲得部２１は、共参照タグによるアンカーを用いてイベント系列を獲得する場合、まず、共参照クラスタから名詞群を取り出してこれをアンカーとする。次に、イベント系列獲得部２１は、格フレーム情報付き文書群Ｄ１’から、アンカーが配置された複数の文の述語をそれぞれ検出するとともに、その文においてアンカーが配置されているスロットの格の種別を特定して格種別情報を得る。次に、イベント系列獲得部２１は、格フレーム付き文書群Ｄ１’において、検出した述語に対して注釈として付与されている格フレーム情報から当該述語の語義を識別するラベルを参照し、述語の語義特定情報を取得する。そして、イベント系列獲得部２１は、格フレーム情報付き文書群Ｄ１’から検出した複数の述語のそれぞれについて、述語と、語義特定情報と、格種別情報との組み合わせをイベント系列の要素として求め、格フレーム情報付き文書群Ｄ１’における述語の出現順に複数の要素を並べて、イベント系列として獲得する。なお、本実施形態では、上述したように、１つの述語に対してtop-k候補の格フレーム情報が与えられるため、１つの述語に対して複数の語義特定情報が取得されることになる。このため、イベント系列を構成する各要素には、語義特定情報のみが異なる複数の組み合わせの候補（要素候補）が存在する。

イベント系列獲得部２１は、すべての共参照クラスタについて以上の処理を行って、アンカーごとのイベント系列の集合であるイベント系列群を得る。図１１は、図１０に例示した共参照タグ付き文書から獲得されたイベント系列の例を示す図であり、図１１（ａ）は図１０（ａ）の英語の文の“suspect”をアンカーとして獲得したイベント系列を示し、図１１（ｂ）の上段は図１０（ｂ）の日本語の文の「次郎」をアンカーとして獲得したイベント系列、図１１（ｂ）の下段は図１０（ｂ）の日本語の文の「ラジオ」をアンカーとして獲得したイベント系列をそれぞれ示している。図１１で例示するイベント系列の表記では、系列内の各要素の区切りとして空白を用い、個々の要素の中での要素候補の区切りとしてカンマを用いている。つまり、このイベント系列は、各述語に対してtop-k候補の格フレーム情報を反映させた複数の要素候補を持つ要素の系列となっている。なお、図１１の例ではｋ＝２である。

次に、表層によるアンカーを用いてイベント系列を獲得する方法について説明する。この方法は、イベント系列獲得部２１に入力される格フレーム情報付き文書群Ｄ１’に共参照タグが付与されていることを前提としない。その代わりに、イベント系列獲得部２１に入力される格フレーム情報付き文書群Ｄ１’内で同じ表層を持つ名詞同士を共参照関係にあるとみなす。たとえば図１０（ａ）に示した英語の文の例において、［Ｃ１］、［Ｃ２］、［Ｃ３］のような共参照タグが付与されていない場合ついて考えると、３箇所に出てくる“suspect”という名詞同士は表層が同じであるため、これらを共参照関係にあるとみなす。日本語の文の場合は、上述した例と同様にゼロ照応を解決した状態で、表層に基づき共参照関係を判定する。具体的には、たとえば、ゼロ代名詞と先行詞との関係を表すゼロ照応タグを格フレーム情報付き文書群Ｄ１’に付加しておき、このゼロ照応タグで示されるゼロ代名詞を先行詞で補った上で、表層に基づいて共参照関係を判定する。その後の処理は、共参照タグによるアンカーを用いてイベント系列を獲得する場合と同様である。

イベント部分系列カウンタ２２は、イベント系列獲得部２１が獲得したイベント系列のそれぞれについて、各イベント系列に含まれる部分系列ごとに出現頻度のカウント処理を行う。部分系列とは、イベント系列に含まれる要素のうちのＮ個の要素の部分集合であり、イベント系列の一部である。つまり、１つのイベント系列には、Ｎ個の要素の組み合わせに応じた複数の部分系列が含まれる。Ｎは部分系列の長さ（部分系列を構成する要素の数）を表し、部分系列を手続き的知識として扱う上で適切な数が設定される。

イベント系列の先頭の要素を含む部分系列については、部分系列の前方の１以上の要素にスペースを表す＜ｓ＞を用い、＜ｓ＞を含むＮ個の要素からなる部分系列としてもよい。これにより、イベント系列の先頭の要素が系列の最初に現れたことを表現することができる。また、イベント系列の末尾の要素を含む部分系列については、部分系列の後方の１以上の要素にスペースを表す＜ｓ＞を用い、＜ｓ＞を含むＮ個の要素からなる部分系列としてもよい。これにより、イベント系列の末尾の要素が系列の最後に現れたことを表現することができる。

なお、本実施形態では、要素の数を限定せずに格フレーム情報付き文書群Ｄ１’からイベント系列群を獲得し、獲得された各イベント系列からＮ個の要素の部分集合を部分系列として取り出す構成としている。しかし、格フレーム情報付き文書群Ｄ１’からイベント系列群を獲得する際に、獲得するイベント系列の要素の数をＮ個に限定してもよい。この場合は、格フレーム情報付き文書群Ｄ１’から獲得されるイベント系列そのものが、ここで言う部分系列となる。換言すると、要素の数に制限を設けずに獲得されたイベント系列から取り出された部分系列は、要素の数に制限を設けて獲得されたイベント系列と等価である。

イベント系列から部分系列を求める方法としては、イベント系列において隣接するＮ個の要素の部分集合を部分系列として求める方法と、要素が隣接しているという制約を持たずにＮ個の要素の部分集合を部分系列として求める方法とがある。後者の方法で得られる部分系列の出現頻度をカウントするモデルを特にスキップモデルと呼ぶ。スキップモデルは、隣接しない要素の組み合わせが許容されるため、たとえば割り込みなどによって文脈が一時的に途切れるような文に対応できるといったメリットがある。

イベント部分系列カウンタ２２は、イベント系列獲得部２１が獲得したイベント系列のそれぞれについて、長さＮのあらゆる部分系列を取り出す。そして、取り出した部分系列の種類ごとに、その出現頻度をカウントする。つまり、イベント部分系列カウンタ２２は、イベント系列から取り出したあらゆる部分系列の集合である部分系列群の中で、要素の並びが同じ部分系列が出現する頻度をカウントする。そして、イベント部分系列カウンタ２２は、すべてのイベント系列について部分系列の出現頻度をカウントすると、部分系列ごとの出現頻度を記した頻度リストを出力する。

ただし、イベント系列を構成する各要素には、上述したように、語義特定情報のみが異なる複数の要素候補が存在するため、要素候補の組み合わせごとに、部分系列の出現頻度を求める必要がある。１つの部分系列に対して要素候補の組み合わせごとに出現頻度を求めるには、たとえば、部分系列の出現頻度のカウント数を、要素候補の組み合わせの数で除算した値を、それぞれの要素候補の組み合わせの出現頻度とすればよい。すなわち、部分系列を構成する各要素のそれぞれについて、要素候補の１つを選択したときのすべての組み合わせを系列として求め、部分系列の出現頻度のカウント数を、求めた系列数で除算した値をそれぞれの系列の出現頻度とする。たとえば、要素Ａと要素Ｂからなる部分系列Ａ−Ｂがあり、要素Ａは要素候補ａ１，ａ２を持ち、要素Ｂは要素候補ｂ１，ｂ２を持つものとする。この場合、部分系列Ａ−Ｂを、ａ１−ｂ１，ａ２−ｂ１，ａ１−ｂ２，ａ２−ｂ２の４つの系列に展開する。そして、部分系列Ａ−Ｂのカウント数を４で除算した値を、ａ１−ｂ１，ａ２−ｂ１，ａ１−ｂ２，ａ２−ｂ２のそれぞれの系列の出現頻度とする。部分系列Ａ−Ｂの出現頻度のカウント数が１であれば、ａ１−ｂ１，ａ２−ｂ１，ａ１−ｂ２，ａ２−ｂ２のそれぞれの系列の出現頻度は０．２５となる。

図１２は、図１１に例示したイベント系列から求めた頻度リストの一部を示す図であり、図１２（ａ）は図１１（ａ）のイベント系列から取り出した一部の部分系列の出現確率を表す頻度リストの例、図１２（ｂ）は図１１（ｂ）のイベント系列から取り出した一部の部分系列の出現確率を表す頻度リストの例をそれぞれ示している。なお、図１２の例では、部分系列の長さＮは２であり、部分系列の出現頻度のカウント数はそれぞれ１である。図１２（ａ）および図１２（ｂ）に示す頻度リストにおいて、各行のコロンの前側が要素候補の組み合わせごとに展開された部分系列であり、各行のコロンの後ろ側がそれぞれの系列の出現頻度を表している。

確率モデル構築部２３は、イベント部分系列カウンタ２２から出力される頻度リストを用いて、確率モデル（イベント系列モデルＤ２）の構築を行う。確率モデル構築部２３が確率モデルを構築する方法としては、ｎ−ｇｒａｍモデルを用いる方法と、要素の順序を考慮しないトリガモデルを用いる方法とがある。

まず、ｎ−ｇｒａｍモデルを用いて確率モデルを構築する方法について説明する。確率の算出対象とする系列を｛ｘ１，ｘ２，・・・，ｘｎ｝、系列の出現頻度をｃ（・）で表すとき、ｎ−ｇｒａｍモデルにおける確率を算出する式は、下記式（１）のようになる。

ｎ−ｇｒａｍモデルを用いて確率モデルを構築する場合、確率モデル構築部２３は、イベント部分系列カウンタ２２から出力される頻度リストに出現頻度が記されているすべての系列に対して数１を用いた計算を行い、系列ごとの出現確率を算出する。そして、確率モデル構築部２３は、算出結果をまとめた確率リストを出力する。なお、オプショナルな処理として、既存のスムージング処理を用いてもよい。

次に、トリガモデルを用いて確率モデルを構築する方法について説明する。確率の算出対象とする系列を｛ｘ１，ｘ２，・・・，ｘｎ｝、系列の出現頻度をｃ（・）で表すとき、ｎ−ｇｒａｍモデルにおける確率を算出する式は、下記式（２）のようになる。これはポイントワイズ相互情報量の総和である。

この式２において、ｌｎは自然対数であり、ｐ（ｘｉ｜ｘｊ）およびｐ（ｘｊ｜ｘｉ）の値は、Ｂｉｇｒａｍモデル：ｐ（ｘ２｜ｘ１）＝ｃ（ｘ１，ｘ２）／ｃ（ｘ１）から得る。

トリガモデルを用いて確率モデルを構築する場合、確率モデル構築部２３は、イベント部分系列カウンタ２２から出力される頻度リストに出現頻度が記されているすべての系列に対して数２を用いた計算を行い、系列ごとの出現確率を算出する。そして、確率モデル構築部２３は、算出結果をまとめた確率リストを出力する。また、オプショナルな処理として、既存のスムージング処理を用いてもよい。なお、長さＮ＝２とすれば、総和計算（上記式２においてΣと書かれた処理部分）は不要となり、ＰＭＩを用いた従来手法と同じになる。

図１３は、図１２に例示した頻度リストを用いて構築された確率モデルの出力である確率リストを示す図であり、図１３（ａ）は図１２（ａ）の頻度リストから得られる確率リストの例、図１３（ｂ）は図１２（ｂ）の頻度リストから得られる確率リストの例をそれぞれ示している。図１３（ａ）および図１３（ｂ）に示す確率リストにおいて、各行のコロンの前側が要素候補の組み合わせごとに展開された部分系列であり、各行のコロンの後ろ側がそれぞれの系列の出現確率を表している。この図１３に例示されるような確率リストが、イベント系列モデル構築器２の最終出力であるイベント系列モデルＤ２となる。

次に、機械学習用事例生成器３の具体例について説明する。図１４は、機械学習用事例生成器３の構成例を示すブロック図である。図１４に示す機械学習用事例生成器３は、ペア生成部３１と、予測系列生成部３２と、確率予測部３３と、特徴ベクトル生成部３４と、を備える。機械学習用事例生成器３の入力は、照応解析の学習処理を行う場合は格フレーム情報および照応タグ付き文書群Ｄ３’とイベント系列モデルＤ２、照応解析の予測処理を行う場合は格フレーム情報付き解析対象文書Ｄ６’とイベント系列モデルＤ２であり、機械学習用事例生成器３の出力は、照応解析の学習処理を行う場合は訓練用事例データＤ４、照応解析の予測処理を行う場合は予測用事例データＤ７である。

ペア生成部３１は、格フレーム情報および照応タグ付き文書群Ｄ３’、または格フレーム情報付き解析対象文書Ｄ６’を用いて、照応詞候補と先行詞候補のペアを生成する。照応解析の学習処理を行う場合は、最終的に訓練用事例データＤ４を得るために、ペア生成部３１は、格フレーム情報および照応タグ付き文書群Ｄ３’を用いて、正例のペアと負例のペアとの双方を生成する。正例のペアとは、実際に照応関係にあるペアであり、負例のペアとは、照応関係にはないペアである。正例のペアと負例のペアは、照応タグを用いて区別することができる。

ここで、図１５の例を用いて、照応解析の学習処理を行う場合のペア生成部３１による処理の具体例を説明する。図１５は照応タグが付与された文の一例を示し、（ａ）は英語の文、（ｂ）は日本語の文をそれぞれ示している。図１５の例における照応タグは、図６に示した例と同様に、大文字のＡから始まるタグが照応詞候補、小文字のａから始まるタグが先行詞候補を示し、照応詞候補を示すタグと先行詞候補を示すタグとで数字が一致するものが、照応関係にあることを示している。

ペア生成部３１は、照応詞候補と先行詞候補とのあらゆる組み合わせのペアを生成する。ただし、照応詞候補とペアとなる先行詞候補は、その照応詞候補よりも先行する文脈になければならない。図１５（ａ）の英語の文からは、照応詞候補と先行詞候補のペア群として、｛（ａ１，Ａ１），（ａ２，Ａ１）｝が得られる。また、図１５（ｂ）の日本語の文からは、照応詞候補と先行詞候補のペア群として、｛（ａ４，Ａ６），（ａ５，Ａ６），（ａ６，Ａ６），（ａ７，Ａ６），（ａ４，Ａ７），（ａ５，Ａ７），（ａ６，Ａ７），（ａ７，Ａ７），（ａ４，Ａ６），（ａ５，Ａ６），（ａ６，Ａ６），（ａ７，Ａ６），（ａ４，Ａ７），（ａ５，Ａ７），（ａ６，Ａ７），（ａ７，Ａ７）｝が得られる。なお、処理の効率化のために、照応詞候補との距離が一定以上大きい先行詞候補は、ペアの対象外とするといった条件を追加するようにしてもよい。ペア生成部３１は、以上のようにして得たペア群の中で、正例のペアに対しては正例ラベルを付与し、負例のペアに対しては負例ラベルを付与する。

照応解析の予測処理を行う場合は、ペア生成部３１は、格フレーム情報付き解析対象文書Ｄ６’を用いて、照応詞候補と先行詞候補のペアを生成する。この場合、格フレーム情報付き解析対象文書Ｄ６’には照応タグが付与されていないので、ペア生成部３１は、何らかの方法で文書中の先行詞候補と照応詞候補とを見つけ出す必要がある。格フレーム情報付き解析対象文書Ｄ６’が英語の場合は、たとえば、格フレーム情報付き解析対象文書Ｄ６’に対して品詞解析を行って、代名詞と判断された単語を照応詞候補とし、それ以外の名詞を先行詞候補とするといった方法が考えられる。また、格フレーム情報付き解析対象文書Ｄ６’が日本語の場合は、格フレーム情報付き解析対象文書Ｄ６’に対して述語項構造解析を行って、述語群を検出するとともに各述語で充足されていない必須格のスロットを照応詞候補とし、照応詞候補よりも先行する文脈にある名詞を先行詞候補とするといった方法が考えられる。ペア生成部３１は、以上により先行詞候補と照応詞候補とを見つけ出した後、照応解析の学習処理の場合と同様の手順を用いて、照応詞候補と先行詞候補のペア群を得る。ただし、正例ラベルや負例ラベルの付与は不要である。

予測系列生成部３２は、ペア生成部３１が生成した照応詞候補と先行詞候補のペアのそれぞれについて、照応詞候補を先行詞候補に置き換えたときの文の述語が属する格フレームを推定するとともに、先行詞候補をアンカーとして先行する文脈にある述語を抽出して、上述したイベント系列を生成する。予測系列生成部３２が生成するイベント系列は、照応詞候補を先行詞候補に置き換えたときの文の述語、語義特定情報、および格種別情報の組み合わせが系列の末尾の要素となるものであり、末尾の要素を予測により求めたイベント系列であるため、任意の文書群Ｄ１から獲得されるイベント系列と区別して、予測系列と呼ぶ。

ここで、予測系列生成部３２による処理の具体例について詳しく説明する。予測系列生成部３２は、ペア生成部３１が生成した照応詞候補と先行詞候補のペアのそれぞれについて、以下の処理を行う。

まず、予測系列生成部３２は、照応詞候補が属する文の述語に対し、照応詞候補の代わりに先行詞候補を項として与え、その状態で、述語の格フレーム推定を行う。この処理には、既存の格フレームパーサを用いる。ただし、ここで用いる格フレームパーサは、格フレーム推定器１の格フレームパーサ１２と共通のアルゴリズムで格フレームを推定するものである必要がある。したがって、１つの述語に対してtop-k候補の格フレームが得られるが、ここではtop-1の格フレームを用いる。

次に、予測系列生成部３２は、格フレーム情報および照応タグ付き文書群Ｄ３’、または格フレーム情報付き解析対象文書Ｄ６’から、先行詞候補よりも先行する文脈にあり、先行詞候補と共参照関係にある名詞群を検出する。共参照関係の判定には、共参照解析器を用いる、あるいは表層一致する名詞同士を共参照とみなす、のいずれかの方法を用いる。このようにして得られた名詞群がアンカーとなる。

次に、予測系列生成部３２は、格フレーム情報および照応タグ付き文書群Ｄ３’、または格フレーム情報付き解析対象文書Ｄ６’から、アンカーが属する文の述語を検出し、上述したイベント系列獲得部２１と同様の手法により、予測系列を生成する。ただし、予測系列の長さは、上述したイベント系列における部分系列の長さに合わせて、Ｎとする。つまり、上記の先行詞候補が属する文の述語に対応する要素と、それよりも先行する文脈で検出されたＮ−１個の述語のそれぞれに対応する要素とを繋げた系列を、予測系列として生成する。予測系列生成部３２は、ペア生成部３１が生成した照応詞候補と先行詞候補のペアのすべてに対して以上の処理を行い、それぞれのペアに対応する予測系列を生成する。

確率予測部３３は、予測系列生成部３２が生成した予測系列のそれぞれをイベント系列モデルＤ２と照合して、各予測系列の発生確率をそれぞれ予測する。具体的には、確率予測部３３は、イベント系列モデルＤ２の中から予測系列と一致する部分系列を探し出し、得られた部分系列の出現確率を、予測系列の発生確率とする。ここで得られる予測系列の発生確率は、当該予測系列の生成に用いた照応詞候補と先行詞候補とのペアが実際に照応関係にあることの確からしさ（尤度）を表すものとなる。なお、イベント系列モデルＤ２の中から予測系列に一致する部分系列が見つからない場合は、当該予測系列の発生確率を０とする。イベント系列モデルＤ２を生成する際にスムージング処理を行っている場合は、予測系列に一致する部分系列が見つからないケースを減らすことができる。

特徴ベクトル生成部３４は、ペア生成部３１が生成した照応詞候補と先行詞候補のペアを事例と扱い、各事例について、予測系列生成部３２が生成した予測系列の発生確率を要素（特徴量）の１つとして加えた特徴ベクトルを生成する。すなわち、特徴ベクトル生成部３４は、照応詞候補と先行詞候補のペアを表す特徴ベクトルの要素として一般的に用いられている標準的な素性群、たとえば図１６に示すような素性群に加え、確率予測部３３によって得られた予測系列の発生確率を要素として用いて、照応詞候補と先行詞候補のペアの事例に関する特徴ベクトルを生成する。

照応解析の予測処理を行う場合は、特徴ベクトル生成部３４が生成する特徴ベクトルが、機械学習用事例生成器３の最終出力である予測用事例データＤ７となる。また、照応解析の学習処理を行う場合は、特徴ベクトル生成部３４が生成する特徴ベクトルに対して、照応詞候補と先行詞候補のペアに対して与えられた正例ラベルまたは負例ラベルを付加したものが、機械学習用事例生成器３の最終出力である訓練用事例データＤ４となる。

図１７は、訓練用事例データＤ４の一例を示す図である。この図１７に示す例において、最左の項目が正例ラベルあるいは負例ラベルであり、それ以外の項目が特徴ベクトルの各要素を示している。特徴ベクトルの各要素は、コロンより前の数字が要素番号、コロンより後の数字は要素の値（特徴量）を示している。図１７に示す例では、予測系列の発生確率に対して要素番号「８８」が与えられ、その要素番号「８８」で表される要素の値として、確率予測部３３によって得られた予測系列の発生確率が示されることになる。なお、予測用事例データＤ７の場合は、最左の項目に、機械学習処理において無視されるダミー値を入れておけばよい。

機械学習用事例生成器３から出力される訓練用事例データＤ４は、照応解析訓練器４に入力される。照応解析訓練器４は、訓練用事例データＤ４を用いて２値分類器による機械学習を行い、学習結果となる照応解析学習モデルＤ５を生成する。また、機械学習用事例生成器３から出力される予測用事例データＤ７は、照応解析予測器５に入力される。照応解析予測器５は、照応解析訓練器４により生成された照応解析学習モデルＤ５と予測用事例データＤ７とを用いて２値分類器による機械学習を行い、照応解析予測結果Ｄ８を出力する。

図１８は、２値分類器による機械学習によって事例の正しさを判定する処理を概念的に説明する模式図である。２値分類器による機械学習では、図１８に示すように、事例の特徴ベクトルＸのそれぞれの要素｛ｘ１，ｘ２，ｘ３，・・・，ｘｎ｝と重みベクトルＷ（ｗ１，ｗ２，ｗ３，・・・，ｗ４）との内積から、関数ｆによって事例のスコア値ｙを求め、求めたスコア値ｙを所定の閾値と比較して事例の正しさを判定する。事例のスコア値ｙは、ｙ＝ｆ（Ｘ；Ｗ）と表すことができる。

照応解析訓練器４が行う機械学習の訓練は、訓練用事例データＤ４を用いて重みベクトルＷを求める処理である。つまり、照応解析訓練器４は、訓練用事例データＤ４として、事例の特徴ベクトルＸと、事例のスコア値ｙを閾値比較した結果を表す正例ラベルや負例ラベルが与えられ、これらを用いて重みベクトルＷを求める。得られた重みベクトルＷが、照応解析学習モデルＤ５となる。

一方、照応解析予測器５が行う機械学習は、照応解析学習モデルＤ５として与えられた重みベクトルＷと、予測用事例データＤ７として与えられた特徴ベクトルＸとを用いて、事例のスコア値ｙを算出し、スコア値ｙを閾値と比較して、事例が正しいか否かを表す照応解析予測結果Ｄ８を出力する処理である。

以上、具体的な例を挙げながら詳細に説明したように、本実施形態に係る文脈解析装置１００によれば、述語と格種別情報だけでなく、述語の語義を特定する語義特定情報も含む要素の系列である新規なイベント系列を用いて照応解析を行うようにしているので、精度のよい照応解析を行うことができる。

また、本実施形態に係る文脈解析装置１００では、語義特定情報のみが異なる複数の要素候補を持つ要素の系列であるイベント系列を獲得し、要素候補の組み合わせごとにイベント系列の出現頻度を算出し、要素候補の組み合わせごとにイベント系列の出現確率を算出するようにしているので、格フレームの推定において最上位の語義特定情報のみを用いた場合に生じるカットオフを防ぎ、照応解析の精度をより向上させることができる。

また、本実施形態に係る文脈解析装置１００では、ｎ−ｇｒａｍモデルを用いてイベント系列の出現確率を算出するようにした場合には、手続き的知識として有効な要素数を考慮してイベント系列の出現確率を求めることができ、イベント系列の手続き的知識としての正確性をさらに高めることができる。

また、本実施形態に係る文脈解析装置１００では、トリガモデルを用いてイベント系列の出現確率を算出するようにした場合には、要素の出現順が前後する場合にも対応できるため、たとえば転置が生じている文書に対しても有効な手続き的知識となるイベント系列の出現確率を得ることができる。

また、本実施形態に係る文脈解析装置１００では、イベント系列から部分系列を求める際に、系列において隣接していない要素の組み合わせを許容して部分系列を求めるようにすることで、割り込みなどによって文脈が一時的に途切れるような文書に対しても有効な手続き的知識となる部分系列を得ることができる。

また、本実施形態に係る文脈解析装置１００では、任意の文書群Ｄ１からイベント系列を獲得する際に、共参照タグを利用してアンカーを特定するようにすることで、表層が一致するが実体が異なる名詞群を誤ってアンカーとしてしまうといった不都合や、逆に、実体が同じであるが表層が異なる名詞群をアンカーとして特定できないといった不都合を解消させることができる。

本実施形態に係る文脈解析装置１００における上述した各機能は、たとえば、文脈解析装置１００において所定のプログラムを実行することにより実現することができる。この場合、文脈解析装置１００は、たとえば図１９に示すように、ＣＰＵ（Central Processing Unit）１０１などの制御装置、ＲＯＭ（Read Only Memory）１０２やＲＡＭ（Random Access Memory）１０３などの記憶装置、ネットワークに接続して通信を行う通信Ｉ／Ｆ１０４、各部を接続するバス１１０などを備えた、通常のコンピュータを利用したハードウェア構成となる。

本実施形態に係る文脈解析装置１００で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disc）等のコンピュータで読み取り可能な記録媒体に記録されてコンピュータプログラムプロダクトとして提供される。

また、本実施形態に係る文脈解析装置１００で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施形態に係る文脈解析装置１００で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

また、本実施形態に係る文脈解析装置１００で実行されるプログラムを、ＲＯＭ１０２等に予め組み込んで提供するように構成してもよい。

本実施形態に係る文脈解析装置１００で実行されるプログラムは、文脈解析装置１００の各処理部（格フレーム推定器１、イベント系列モデル構築器２、機械学習用事例生成器３、照応解析訓練器４、および照応解析予測器５）を含むモジュール構成となっており、実際のハードウェアとしては、例えば、ＣＰＵ１０１（プロセッサ）が上記記録媒体からプログラムを読み出して実行することにより、上述した各処理部が主記憶装置上にロードされ、上述した各処理部が主記憶装置上に生成されるようになっている。なお、本実施形態に係る文脈解析装置１００は、上述した各処理部の一部または全部を、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field-Programmable Gate Array）などの専用のハードウェアを用いて実現することも可能である。

なお、以上説明した文脈解析装置１００では、イベント系列モデルの構築処理と、照応解析の学習処理と、照応解析の予測処理のすべての処理を行うようにしているが、文脈解析装置１００は、照応解析の予測処理のみを行うように構成することもできる。この場合、イベント系列モデルの構築処理や照応解析の学習処理は外部装置で行い、文脈解析装置１００は、解析対象文書Ｄ６を入力するとともに、外部装置からイベント系列モデルＤ２と照応解析学習モデルＤ５を入力し、解析対象文書Ｄ６に対する照応解析を行う。

また、文脈解析装置１００は、照応解析の学習処理と照応解析の予測処理のみを行うように構成することもできる。この場合、イベント系列モデルの構築処理は外部装置で行い、文脈解析装置１００は、照応タグ付き文書群Ｄ３と解析対象文書Ｄ６を入力するとともに、外部装置からイベント系列モデルＤ２を入力し、照応解析学習モデルＤ５の生成と、解析対象文書Ｄ６に対する照応解析を行う。

なお、上述した文脈解析装置１００は、文脈解析のうちの特に照応解析を行う構成であるが、文脈解析装置１００は、たとえば、首尾一貫性の解決や対話処理など、照応解析以外の他の文脈解析を行う構成であってもよい。照応解析以外の文脈解析を行う場合であっても、述語の語義を特定する語義特定情報を含む要素の系列である新規なイベント系列を手続き的知識として用いることで、文脈解析の精度を向上させることができる。

以上、本発明の実施形態を説明したが、ここで説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。ここで説明した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。ここで説明した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。

Claims

共有項を持つ述語と、該述語の語義を特定する語義特定情報と、前記共有項の格の種別を表す格種別情報との組み合わせを要素とし、該要素を複数並べた系列の一部の要素を予測により求めた予測系列を、解析対象の文書から生成する予測系列生成部と、
任意の文書群から事前に獲得された前記系列であって前記予測系列と一致する前記系列の出現確率に基づいて、前記予測系列の発生確率を予測する確率予測部と、
予測された前記予測系列の発生確率を用いて、解析対象の文書に対する文脈解析を行う解析処理部と、を備える文脈解析装置。
前記解析処理部は、予測された前記予測系列の発生確率を前記予測系列の特徴量として用いた機械学習により、解析対象の文書に対する照応解析を行う、請求項１に記載の文脈解析装置。
任意の文書群から前記系列を獲得する系列獲得部と、
獲得された前記系列の出現確率を算出する確率算出部と、をさらに備える、請求項１に記載の文脈解析装置。
前記系列獲得部は、任意の文書群から共有項を持つ複数の述語を検出し、検出した複数の述語のそれぞれについて、該述語と、前記語義特定情報と、前記格種別情報との組み合わせを前記要素として求め、複数の述語ごとに求めた複数の前記要素を前記文書群における述語の出現順に並べて前記系列を獲得する、請求項３に記載の文脈解析装置。
獲得された前記系列の出現頻度を算出する頻度算出部をさらに備え、
前記確率算出部は、前記系列の出現頻度に基づいて前記系列の出現確率を算出する、請求項３に記載の文脈解析装置。
前記系列獲得部は、１つの述語に対して複数の語義を推定して、前記組み合わせのうち前記語義特定情報のみが異なる複数の要素候補を含む要素を複数並べた前記系列を獲得し、
前記頻度算出部は、前記系列の出現頻度を、前記要素候補の組み合わせの数で除算して、前記要素候補の組み合わせごとの出現頻度をそれぞれ算出する、請求項５に記載の文脈解析装置。
前記確率算出部は、Ｎ階マルコフ過程に基づいて、前記系列の出現確率を算出する、請求項５に記載の文脈解析装置。
前記確率算出部は、前記系列内の任意の要素のペアに関するポイントワイズ相互情報量の総和に基づいて、前記系列の出現確率を算出する、請求項５に記載の文脈解析装置。
前記頻度算出部は、前記系列内のＮ個の要素の部分集合である部分系列ごとに出現頻度を算出し、
前記確率算出部は、前記部分系列ごとに出現確率を算出する、請求項５に記載の文脈解析装置。
前記頻度算出部は、前記系列において隣接していない要素の組み合わせを許容して前記部分系列を求める、請求項９に記載の文脈解析装置。
前記文書群は、共参照関係にある名詞同士を識別するための共参照情報が付与されており、
前記系列獲得部は、前記共参照情報に基づいて前記共有項を特定する、請求項４に記載の文脈解析装置。
文脈解析装置において実行される文脈解析方法であって、
前記文脈解析装置の予測系列生成部が、共有項を持つ述語と、該述語の語義を特定する語義特定情報と、前記共有項の格の種別を表す格種別情報との組み合わせを要素とし、該要素を複数並べた系列の一部の要素を予測により求めた予測系列を、解析対象の文書から生成し、
前記文脈解析装置の確率予測部が、任意の文書群から事前に獲得された前記系列であって前記予測系列と一致する前記系列の出現確率に基づいて、前記予測系列の発生確率を予測し、
前記文脈解析装置の解析処理部が、予測された前記予測系列の発生確率を用いて、解析対象の文書に対する文脈解析を行う文脈解析方法。