JP5823441B2

JP5823441B2 - 格解析モデルパラメータ学習装置、格解析装置、方法、及びプログラム

Info

Publication number: JP5823441B2
Application number: JP2013094695A
Authority: JP
Inventors: 博順平; 永田　昌明; 昌明永田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2013-04-26
Filing date: 2013-04-26
Publication date: 2015-11-25
Anticipated expiration: 2033-04-26
Also published as: JP2014215920A

Description

本発明は、格解析モデルパラメータ学習装置、格解析装置、方法、及びプログラムに係り、特に、テキストに含まれる述語に対する必須格の格要素を解析するための格解析モデルパラメータ学習装置、格解析装置、方法、及びプログラムに関する。

人間の読み手を想定して書かれたテキストや、人間同士の会話を書き起こしたテキストにおいては、省略表現が存在することがある。例えば、電化製品の故障トラブルについての電話オペレータと顧客との会話の書き起こしテキストにおいて、「オペレータ：何かお困りですか？」、「顧客：電源ボタンを押しても、全く反応しなくなりました。」といった文があった場合、「オペレータ：（あなたは）何かお困りですか？」、「顧客：（電化製品の）電源ボタンを（私が）押しても、（電化製品が）全く反応しなくなりました。」の括弧で示された箇所が、省略されている表現である。読み手や聞き手は容易に記述内容を理解して、省略されたものを推測できる場合、省略表現は容易に使われうる。

このようなテキスト中の省略表現は、様々なテキスト処理を行なう上で、しばしば精度低下の原因となっており、テキスト中の省略が存在することを検出し、省略されたものが何かを特定する省略解析を高精度に行うことは、多くのテキスト処理において重要である。例えば、テキストから自動的に情報抽出を行う処理の場合には、上記の例の「（電化製品が）全く反応しなくなりました。」の「電化製品が」の部分がないままに、表層表現から単純に情報抽出を行っても、何が反応しなくなったのかが抽出できない。これを文中で「〜が」の部分が省略されていることを検出し、「〜」の部分が「電化製品」であることが特定できれば、「電化製品が全く反応しなくなりました。」という省略のない完全な文から情報抽出をすることが可能になり、情報抽出の精度も向上することが期待できる。また、このテキストを他言語に機械翻訳する場合、例えば、英語に翻訳する場合、日本語のテキスト側に主語が存在せず、英語に翻訳したときに、どのようなit, they, I といった代名詞のうちどの代名詞に翻訳すればよいか、単純には判断できない。それが、あらかじめ日本語テキストの省略箇所が特定でき、適切に省略補完できていれば、機械翻訳された英語のテキストの翻訳精度が高まることが期待できる。

このような省略解析を行うために必要で重要な技術の一つに格解析（述語項構造解析ともいう）がある。格解析とは、テキスト中に含まれる述語に対し、該述語の必須格の種類および該必須格の格要素を特定する解析である。ここで、「述語」とは、文の中で動作や、状態・性質を表す語のことで、日本語の場合は、文中の動詞、形容詞、名詞＋だ（判定詞）などを指す。また、「必須格」とは、述語の表す内容に必須の内容を表す補語のことであり、「必須格の種類」とは、「ガ格」「ヲ格」などを指す。日本語の場合、9つの格助詞「が」「を」「に」「から」「へ」「と」「より」「まで」「で」に対応した「ガ格」「ヲ格」「ニ格」「カラ格」「ヘ格」「ト格」「ヨリ格」「マデ格」「デ格」等の約9 種類の必須格を考えることができる。また、「必須格の格要素」とは、ガ格、ヲ格など必須格の種類ごとに当てはまる体言を指す。

例えば、2つの単文から構成されるテキスト「花子は、2年前に太郎と知り合った。そして最近、太郎と結婚した。」に対し格解析を行う場合、述語「知り合った」の必須格の種類はガ格とト格であり、ガ格の格要素は「花子」、ト格の格要素は「太郎」であることを特定する。「知り合った。」だけだと、「誰と誰が」知り合ったのか尋ねたくなり、「花子が」と「太郎と」とが、どちらも述語「知り合った」の表す内容にとって必須の内容を表しているといえるからである。

なお、述語「知り合った」の必須格がガ格とト格であり、ガ格には人間を表す格要素が、ト格にも人間を表す格要素が入りやすい、といった情報をまとめて「格フレーム」と呼ぶ。一方、「2年前に」は、述語「知り合った」に対して必須の内容ではないため、格解析の解析対象とはしない。また、述語「結婚した」の必須格はガ格とト格であり、ガ格の格要素は「花子」、ト格の格要素は「太郎」であることを特定する。この場合、ガ格の格要素「花子」は、述語「結婚した」と同一文中には出現せず、省略されているが、省略されている格要素に対しても格解析は解析を行う。格要素が述語と同一文中において省略されていない場合でも、「は」「も」などの係助詞や連体修飾によって格助詞が明示されない場合も多いため、格解析は簡単ではない。

必須格の格要素は、述語に対する格要素の出現位置関係および係り受け関係によって、大きく、次の5つの位置タイプに分類することができる。

(タイプ1)：述語と格要素が同一文内にあり、当該述語を含む文節と当該格要素を含む文節とが直接係り受け関係にあるタイプ(述語と格要素の間に係り受け関係（dependency）があるタイプのため、以降略して「DEPタイプ」と呼ぶ)

(タイプ2)：述語と格要素が同一文内かつ同一文節内にあるタイプ(述語と格要素が同一文節(Same Bunsetsu)にあるタイプのため、以降略して「SAME_BS タイプ」と呼ぶ)

(タイプ3)：述語と格要素が同一文内にあるが、当該述語を含む文節と当該格要素を含む文節とが直接係り受け関係にないタイプ(述語と格要素が係り受け関係になくゼロ代名詞(Zero Pronoun)化しており、かつ該ゼロ代名詞に対する先行詞が述語と同一文中にある(Intra-sentential)タイプのため、以降略して「INTRA_Z タイプ」と呼ぶ）

(タイプ4)：述語と格要素が同一テキスト中の異なる文内にあるタイプ(述語と格要素が係り受け関係になくゼロ代名詞(Zero Pronoun)化しており、かつ該ゼロ代名詞に対する先行詞が異なる文中にある(Inter-sentential)タイプのため、以降略して「INTER_Z タイプ」と呼ぶ）

(タイプ5)：格要素が述語と同一テキスト中に存在しないタイプ(述語と格要素が係り受け関係になくゼロ代名詞(Zero Pronoun)化しており、かつ該ゼロ代名詞に対する先行詞が同一テキスト中になく、テキスト外の外界にある、すなわち外界照応（Exophora）の状態にあるタイプのため、以降略して「EXOタイプ」と呼ぶ）

上記5つの位置タイプについて、図１および図９を使って説明する。まず図１に格解析の対象となるテキストの例を示す。この例では、「彼は昨日、値引き交渉して野菜を買い、夕食を作ってくれた。今日は朝、掃除をしてくれた。本当に彼には感謝している。」という3文から構成される1つの文章からなるテキストについて、形態素解析および係り受け解析を行い、解析対象テキストに含まれる形態素、それらの品詞、所属文節番号、所属文番号、所属文章番号、各文節の係り先文節番号の情報が含まれている。これらの情報は、あらかじめテキストに付与しておいてもよいし、格解析装置の中に、形態素解析器および係り受け解析器を持たせて、入力されたテキストに対し、形態素解析と係り受け解析を行い、情報を自動的に付与してもよい。

また、述語を構成する形態素が解析対象テキスト中のどの部分にあるかの情報をも含まれている。この情報も、格解析装置の中に、述語特定器を持たせて、入力されたテキストに対し、述語部分を自動的に付与してもよい。

図１の解析対象テキストに対し格解析を行った結果を図９に示す。図９には、理想的な結果、すなわち格解析が100%の精度で行われた場合に想定される結果を示している。例えば、述語p₁（p₁の基本形は「交渉する」）に対しては、必須格がガ格、ヲ格、ト格であり、ガ格の格要素は「彼」（単語番号は1、位置タイプはINTRA_Z）、ヲ格の格要素は「値引き」（単語番号は5、位置タイプはSAME_BS）、ト格の格要素は解析対象テキストに含まれない「店員」といった単語（位置タイプはEXO）、である。位置タイプについては、単語番号1の「彼」については、述語p₁と同一文中にあるが、単語番号1の単語「彼」を含む文節1の係り先文節が5であり、述語p₁を含む文節3に対し、直接係り受け関係がないため、位置タイプはINTRA_Zとなる。単語番号5の「値引き」については、述語p₁と同じ文節3の中に含まれているため、位置タイプはSAME_BSとなっている。また、述語p₁に対するト格については、「店員」などの単語があてはまると考えられるが、解析対象テキスト中には「店員」という単語は含まれていないため、位置タイプはEXOとなっている。

このような格解析を自動で行うために、直接、記述内容や記述意図を理解するアプローチが取られることは少ない。現在の言語処理技術では、テキストの記述内容や記述意図を直接理解することは困難であるからである。その代わりに、テキスト中の表層表現を解析の手がかりとして、該テキスト以外の外部の情報源からの情報を可能な限り利用して解析するアプローチが多く取られている。外部の情報源からの情報としては、単語の品詞・意味カテゴリ分類・固有表現分類、単語や文節間の係り受け関係、構文パターン、単語同士の共起頻度などがある。このような格解析方法は、大きく分けると二種類の方法がある。一つは、言語学的な知識に基づく人手で書いたルールを適用し格解析を行う方法である（例えば、非特許文献１参照）。もう一つは、言語学的な知識に基づいて特徴量を設定し、格解析モデルのモデルパラメータを、あらかじめ格解析の正解が人手で与えられた訓練コーパスから機械学習手法あるいは統計的手法を用いて自動的に学習し、学習されたモデルパラメータを用いた解析モデルによる解析器で、格解析を行う方法である（例えば、非特許文献２、３参照）。非特許文献２、３で開示されている省略解析方法は、どのような言語であっても、また、書き言葉、話し言葉といった違いや、旅行会話、会議受付会話といったドメインの違いがあっても、それらに応じて正解コーパスを用意すれば、容易に解析システムが構築できるという利点がある。

中岩浩巳,池原悟，「語用論的・意味論的制約を用いた日本語ゼロ代名詞の文内照応解析」,自然言語処理,Vol.3,No.4,pp.49-65, 1996年山本和英,隅田英一郎，「決定木学習による日本語対話文の格要素省略補完」, 自然言語処理,Vol.6,No.1,pp.3-28,1999年笹野遼平, 黒橋禎夫，「大規模格フレームを用いた識別モデルに基づく日本語ゼロ照応解析」,情報処理学会論文誌,Vol.52,No.12,pp.3328-3337,2011年 Hayashibe, Y. and Komachi,M. and Matsumoto, Y.,"Japanese Predicate Argument Structure Analysis Exploiting Argument Position and Type", Proceedings of 5th International Joint Conference on Natural Language Processing, 2011年

しかしながら、上記の非特許文献１のような方法では、予め定義された人手ルールしか適用できないため、処理対象言語や処理対象ドメインを変えたときに、人手で新たなルールを多数作成する必要があり、汎用性にかける、という問題がある。

また、上記の非特許文献２、３で開示されている省略解析方法は、機械学習に基づく汎用性が高い方法ではあるが、例えば非特許文献２では、INTRA_ZタイプとINTER_Zタイプのみ、非特許文献３では、EXOタイプのみの解析であり、DEPタイプ、SAME_BSタイプ、INTRA_Zタイプ、INTER_Zタイプ、EXOタイプのすべてを同時に解析することはできない、という問題がある。

格解析をテキストマイニングや機械翻訳の前処理等など実際の応用で使用する場合には、これら5つの位置タイプの解析を同時に扱い、それぞれの解析において精度の高い解析が求められる。それぞれの位置タイプに応じた解析器を独立に使用して解析を行い、それらの解析結果を総合して解析結果を出力するという方法も考えられるが、一般に、各位置タイプの格要素候補が実際に格要素となるかどうかはトレードオフの関係にあり、１つのタイプの解析を高精度にしても、別のタイプの精度が下がるなど、全体的にバランスよく精度の高い解析を行うことが困難である、という問題がある。

また、これまで、DEPタイプ、INTRA_Zタイプ、INTER_Zタイプを同時に扱う格解析を行う際、これら3つのタイプのデータを同時に扱い、学習、分類を行うと、一つの述語と格要素の組の正解に対し、不正解の組の候補が多くなってしまい、正例と負例のアンバランスなデータに対する学習を行うために、分類精度が低下したり、異なる3つのタイプのデータを同時に扱うために正確な分類を行う学習が困難になり、分類精度が低下する、という問題があった。この問題を解決するために、非特許文献４では、DEPタイプ、INTRA_Z タイプ、INTER_Zタイプの3つの位置タイプ毎に作成した格要素かそうでないかの分類を行う分類器を使うことにより、3つの位置タイプそれぞれで、最もスコアの高い述語と格要素の組を代表値として選び、代表値同士でまず、DEPタイプの代表値とINTRA_Z タイプの代表値でどちらがより格要素の正解らしいかを分類し、それらのうち勝者とINTER_Zタイプの代表値でどちらがより格要素の正解らしいかを分類し、それらのうちの勝者について、格要素が正解であるか否かを分類し、述語に対して、格解析装置が正解と推定される格要素を出力する方法が提案されている。この方法により、あらかじめ、格要素の候補数の多い、INTRA_Zタイプ、INTER_Zタイプの格要素候補の候補数を各位置タイプに対応した局所分類器で1つの代表値に絞ることで、メモリ消費量を抑制しつつ、精度よく格解析を行うことが可能になっていた。

しかしながら、この非特許文献４に記載の方法では、SAME_BSタイプおよびEXOタイプの格要素は考慮されておらず、これらのタイプの解析ができなかった。また、代表値同士で勝者を決める場合の順番が、DEPタイプとINTRA_Zタイプの勝者を決めてから、その勝者とINTER_Zタイプの代表値とでさらに勝者を決めるなど、決定順番がその順番が最適かどうかについては考慮がないまま、固定化され、その順番が不適切な場合には高精度な格解析を妨げる要因となっていた。

本発明は、上記の事情を鑑みてなされたもので、述語と格要素の位置タイプの各々に対応して、格解析を精度よく行うためのモデルパラメータを学習することができる格解析モデルパラメータ学習装置、方法、及びプログラムを提供することを目的とする。

また、述語と格要素の位置タイプの各々に対応して、格解析を精度よく行うことができる格解析装置、方法、及びプログラムを提供することを目的とする。

上記の目的を達成するために本発明に係る格解析モデルパラメータ学習装置は、テキスト中に含まれる述語と前記述語に対する必須格の格要素とのペアの正解情報が予め付与された訓練テキストに基づいて、述語と格要素候補とのペアの各々を抽出し、前記抽出された前記ペアの各々について、複数の特徴量を抽出して特徴ベクトルを作成する特徴ベクトル作成部と、前記述語と格要素候補とのペアの各々について、前記ペアの前記述語と格要素候補との位置関係が、予め定められた複数の位置関係のタイプの何れであるかを判定する位置タイプ判定部と、前記複数の位置関係のタイプの各々について、前記位置関係のタイプであると判定された前記述語と格要素候補とのペアの各々について作成された前記特徴ベクトル、及び前記正解情報に基づいて、前記位置関係のタイプに該当する前記述語と格要素候補とのペアについての前記特徴ベクトルに基づいて前記述語に対し前記格要素候補が正解であるか否かを判定するための局所分類器の分類モデルパラメータを学習する局所分類学習部と、前記述語と前記位置関係のタイプとの組み合わせの各々について、前記述語を有する前記ペアであって、かつ、前記位置関係のタイプに該当する前記述語と格要素候補とのペアのうち、前記位置関係のタイプについての局所分類器を用いて得られるスコアが最大となる前記ペアを代表ペアとして選択し、前記述語を有する前記ペアであって、かつ、前記位置関係のタイプに該当する前記述語と格要素候補とのペアのうち、前記正解情報の前記ペアがある場合には、前記ペアを代表ペアとする局所順位判定部と、前記複数の位置関係のタイプのうちの２つの位置関係のタイプの組み合わせの各々について、前記述語毎に、前記組み合わせの一方の位置関係のタイプ及び前記述語に対する前記代表ペアについての前記特徴ベクトルと、前記組み合わせの他方の位置関係のタイプ及び前記述語に対する前記代表ペアについての前記特徴ベクトルとに基づく組み合わせ特徴ベクトル、及び前記代表ペアについての前記正解情報を用いた訓練データを作成し、前記述語毎に作成した前記訓練データに基づいて、前記位置関係のタイプの組み合わせに該当する２つの前記代表ペアに対する前記組み合わせ特徴ベクトルに基づいて一方の前記代表ペアが正解であるか、他方の前記代表ペアが正解であるか、及び前記２つの代表ペアの何れも不正解であるかを判定するための大域分類器の分類モデルパラメータを学習する大域分類学習部と、を含んで構成されている。

本発明に係る格解析モデルパラメータ学習方法は、特徴ベクトル作成部によって、テキスト中に含まれる述語と前記述語に対する必須格の格要素とのペアの正解情報が予め付与された訓練テキストに基づいて、述語と格要素候補とのペアの各々を抽出し、前記抽出された前記ペアの各々について、複数の特徴量を抽出して特徴ベクトルを作成し、位置タイプ判定部によって、前記述語と格要素候補とのペアの各々について、前記ペアの前記述語と格要素候補との位置関係が、予め定められた複数の位置関係のタイプの何れであるかを判定し、局所分類学習部によって、前記複数の位置関係のタイプの各々について、前記位置関係のタイプであると判定された前記述語と格要素候補とのペアの各々について作成された前記特徴ベクトル、及び前記正解情報に基づいて、前記位置関係のタイプに該当する前記述語と格要素候補とのペアについての前記特徴ベクトルに基づいて前記述語に対し前記格要素候補が正解であるか否かを判定するための局所分類器の分類モデルパラメータを学習し、局所順位判定部によって、前記述語と前記位置関係のタイプとの組み合わせの各々について、前記述語を有する前記ペアであって、かつ、前記位置関係のタイプに該当する前記述語と格要素候補とのペアのうち、前記位置関係のタイプについての局所分類器を用いて得られるスコアが最大となる前記ペアを代表ペアとして選択し、前記述語を有する前記ペアであって、かつ、前記位置関係のタイプに該当する前記述語と格要素候補とのペアのうち、前記正解情報の前記ペアがある場合には、前記ペアを代表ペアとし、大域分類学習部によって、前記複数の位置関係のタイプのうちの２つの位置関係のタイプの組み合わせの各々について、前記述語毎に、前記組み合わせの一方の位置関係のタイプ及び前記述語に対する前記代表ペアについての前記特徴ベクトルと、前記組み合わせの他方の位置関係のタイプ及び前記述語に対する前記代表ペアについての前記特徴ベクトルとに基づく組み合わせ特徴ベクトル、及び前記代表ペアについての前記正解情報を用いた訓練データを作成し、前記述語毎に作成した前記訓練データに基づいて、前記位置関係のタイプの組み合わせに該当する２つの前記代表ペアに対する前記組み合わせ特徴ベクトルに基づいて一方の前記代表ペアが正解であるか、他方の前記代表ペアが正解であるか、及び前記２つの代表ペアの何れも不正解であるかを判定するための大域分類器の分類モデルパラメータを学習する。

本発明に係る格解析装置は、解析対象のテキストに基づいて、述語と格要素候補とのペアの各々を抽出し、前記抽出された前記ペアの各々について、複数の特徴量を抽出して特徴ベクトルを作成する特徴ベクトル作成部と、前記述語と格要素候補とのペアの各々について、前記ペアの前記述語と格要素候補との位置関係が、予め定められた複数の位置関係のタイプの何れであるかを判定する位置タイプ判定部と、前記位置関係のタイプ毎に予め学習された、前記位置関係のタイプに該当する前記述語と格要素候補とのペアについての前記特徴ベクトルに基づいて前記述語に対し前記格要素候補が正解であるか否かを判定するための局所分類器の分類モデルパラメータに基づいて、前記述語と前記位置関係のタイプとの組み合わせの各々について、前記述語を有する前記ペアであって、かつ、前記位置関係のタイプに該当する前記述語と格要素候補とのペアのうち、前記位置関係のタイプについての前記局所分類器を用いて得られるスコアが最大となる前記ペアを代表ペアとして選択する局所順位判定部と、前記複数の位置関係のタイプのうちの２つの位置関係のタイプの組み合わせの各々について、前記述語毎に、前記組み合わせの一方の位置関係のタイプ及び前記述語に対する前記代表ペアについての前記特徴ベクトルと、前記組み合わせの一方の位置関係のタイプ及び前記述語に対する前記代表ペアについての前記特徴ベクトルとに基づく組み合わせ特徴ベクトルを作成し、前記位置関係のタイプの組み合わせ毎に予め学習された、前記位置関係のタイプの組み合わせに該当する２つの前記代表ペアに対する前記組み合わせ特徴ベクトルに基づいて一方の前記代表ペアが正解であるか、他方の前記代表ペアが正解であるか、及び前記２つの代表ペアの何れも不正解であるかを判定するための大域分類器の分類モデルパラメータと、前記作成した前記組み合わせ特徴ベクトルとに基づいて、前記代表ペアの各々について、前記代表ペアの正解らしさを示すスコアを計算する大域順位判定部と、を含んで構成されている。

本発明に係る格解析方法は、特徴ベクトル作成部によって、解析対象のテキストに基づいて、述語と格要素候補とのペアの各々を抽出し、前記抽出された前記ペアの各々について、複数の特徴量を抽出して特徴ベクトルを作成し、位置タイプ判定部によって、前記述語と格要素候補とのペアの各々について、前記ペアの前記述語と格要素候補との位置関係が、予め定められた複数の位置関係のタイプの何れであるかを判定し、局所順位判定部によって、前記位置関係のタイプ毎に予め学習された、前記位置関係のタイプに該当する前記述語と格要素候補とのペアについての前記特徴ベクトルに基づいて前記述語に対し前記格要素候補が正解であるか否かを判定するための局所分類器の分類モデルパラメータに基づいて、前記述語と前記位置関係のタイプとの組み合わせの各々について、前記述語を有する前記ペアであって、かつ、前記位置関係のタイプに該当する前記述語と格要素候補とのペアのうち、前記位置関係のタイプについての前記局所分類器を用いて得られるスコアが最大となる前記ペアを代表ペアとして選択し、大域順位判定部によって、前記複数の位置関係のタイプのうちの２つの位置関係のタイプの組み合わせの各々について、前記述語毎に、前記組み合わせの一方の位置関係のタイプ及び前記述語に対する前記代表ペアについての前記特徴ベクトルと、前記組み合わせの一方の位置関係のタイプ及び前記述語に対する前記代表ペアについての前記特徴ベクトルとに基づく組み合わせ特徴ベクトルを作成し、前記位置関係のタイプの組み合わせ毎に予め学習された、前記位置関係のタイプの組み合わせに該当する２つの前記代表ペアに対する前記組み合わせ特徴ベクトルに基づいて一方の前記代表ペアが正解であるか、他方の前記代表ペアが正解であるか、及び前記２つの代表ペアの何れも不正解であるかを判定するための大域分類器の分類モデルパラメータと、前記作成した前記組み合わせ特徴ベクトルとに基づいて、前記代表ペアの各々について、前記代表ペアの正解らしさを示すスコアを計算する。

本発明に係るプログラムは、上記の格解析モデルパラメータ学習装置又は格解析装置の各部としてコンピュータを機能させるためのプログラムである。

以上説明したように、本発明の格解析モデルパラメータ学習装置、方法、及びプログラムによれば、述語と位置関係のタイプとの組み合わせの各々について、位置関係のタイプについての局所分類器を用いて得られるスコアが最大となる、述語と格要素候補の代表ペアを選択し、２つの位置関係のタイプの組み合わせの各々について、２つの位置関係のタイプの代表ペアの特徴ベクトルに基づく組み合わせ特徴ベクトル、及び正解情報を用いた訓練データを作成し、位置関係のタイプの組み合わせに該当する２つの代表ペアに対する組み合わせ特徴ベクトルに基づいて一方の代表ペアが正解であるか、他方の代表ペアが正解であるか、及び２つの代表ペアの何れも不正解であるかを判定するための大域分類器の分類モデルパラメータを学習することにより、述語と格要素の位置タイプの各々に対応して、格解析を精度よく行うためのモデルパラメータを学習することができる、という効果が得られる。

また、本発明の格解析装置、方法、及びプログラムによれば、述語と位置関係のタイプとの組み合わせの各々について、位置関係のタイプについての局所分類器を用いて得られるスコアが最大となる、述語と格要素候補の代表ペアを選択し、２つの位置関係のタイプの組み合わせの各々について、２つの位置関係のタイプの代表ペアの特徴ベクトルに基づく組み合わせ特徴ベクトルを作成し、位置関係のタイプの組み合わせに該当する２つの代表ペアに対する組み合わせ特徴ベクトルに基づいて、大域分類器を用いて、一方の代表ペアが正解であるか、他方の代表ペアが正解であるか、及び２つの代表ペアの何れも不正解であるかを判定することにより、述語と格要素の位置タイプの各々に対応して、格解析を精度よく行うことができる、という効果が得られる。

解析対象テキストの一例を示す図である。本発明の実施の形態に係る格解析装置の構成を示す概略図である。訓練テキストコーパスの一例を示す図である。本発明の実施の形態の格解析装置の格解析モデルパラメータ学習部の機能構成を示すブロック図である。本発明の実施の形態の格解析装置における格解析モデルパラメータ学習処理ルーチンの内容を示すフローチャートである。格要素候補であるか否かの判定結果を付与した例を示す図である。述語と格要素候補とのペアの例を示す図である。位置タイプの判定結果を付与した例を示す図である。訓練テキストコーパスにおける正解情報の例を示す図である。格フレームの例を示す図である。代表ペアの例を示す図である。真の答えのペアで上書きされた結果を示す図である。代表ペアの各々に正解か否かを付与した例を示す図である。代表ペアの二つ組に正解のラベルを付与した例を示す図である。各大域分類モデルパラメータ学習のための訓練データの例を示す図である。本発明の実施の形態の格解析装置の格解析部における機能構成を示すブロック図である。本発明の実施の形態の格解析装置における格解析処理ルーチンの内容を示すフローチャートである。

以下、図面を参照して本発明の実施の形態を詳細に説明するが、本発明は下記の実施形態例に限定されるものではない。

図２は、本発明の実施の形態に係る格解析装置１００の模式図の一例である。格解析装置１００は、ＣＰＵと、ＲＡＭと、後述する格解析モデルパラメータ学習処理ルーチン、及び格解析処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備えたコンピュータで構成され、機能的には、格解析装置１００は、入力部１０と、演算部２０と、出力部３０と、を備えている。

入力部１０は、訓練テキストコーパスの入力を受け付けると共に、解析対象のテキストの入力を受け付ける。

訓練テキストコーパスのテキスト、及び解析対象のテキストには、図３に示すように、当該テキストに含まれる形態素、それらの品詞（各単語の品詞情報）、所属文節番号（各単語がどの文節に含まれているかの情報）、所属文番号（各文節がどの文に含まれているかの情報）、所属文章番号（各文がどの文章に含まれている文であるかの情報）、各文節の係り先文節番号の情報が含まれている。これらの情報は、あらかじめテキストに付与しておいてもよいし、格解析装置１００の中に、形態素解析器および係り受け解析器を持たせて、入力されたテキストに対し、形態素解析と係り受け解析を行い、情報を自動的に付与してもよい。

また、訓練テキストコーパスのテキスト、及び解析対象のテキストには、述語を構成する形態素が、当該テキスト中のどの部分にあるかの情報をも含まれている。この情報も、格解析装置の中に、述語特定器を持たせて、入力されたテキストに対し、述語部分を自動的に付与してもよい。

本実施の形態では、訓練テキストコーパスは、d₁,...,d_dmaxのd_max個の文章から構成され、各文章は1個以上の文から構成され、コーパス全体では、文s₁,...,s_maxのs_max個の文が存在している。

また、1つの文は、1個以上の文節から構成され、コーパス全体では、b₁,...,b_maxの計b_max個の文節から構成される。また、各文節は他のどの文節に係っているか、係り受け関係の情報もコーパスに含まれているとする。

また、1つの文節は、1個以上の単語から構成され、コーパス全体では、t₁,...,t_maxの計t_max個の単語から構成されているとする。

また、訓練テキストコーパスには、1個以上の述語が含まれているとし、コーパス全体では、p₁,...,p_maxのp_max個の述語pが含まれており、各述語は、どの単語からどの単語までの単語列に相当するかの情報もコーパスに含まれており、また各述語を基本形にしたときの情報もコーパスに含まれているとする。

例えば、訓練テキストコーパスが図３に示すテキストだったとすると、
d_max=1、s_max=3、b_max=14、t_max=39、p_max=5
である。

また、ここでは、述語が何であるかは、コーパス中であらかじめ与えられているとするが、述語が何であるかの情報が付与されていないコーパスについては、そのコーパスでの定義に基づいた解析器を用いて述語の範囲の単語がどれであるかを解析し、情報を付与することが可能である。この例では、動詞、形容詞、基本形が、名詞＋スル、名詞＋ダであるものを述語とする。ただし、動詞や形容詞で、非自立語であるものは、述語ではないとした。

また、訓練テキストコーパスには、述語と当該述語に対する必須格の格要素との正解ペアが付与されている。

演算部２０は、格解析モデルパラメータ学習部２１、及び格解析部２２を備えている。

図４は、格解析モデルパラメータ学習部２１の原理的システム構成を示すブロック図である。

格解析モデルパラメータ学習部２1は、特徴ベクトル作成部２１１、位置タイプ判定部２１２、局所分類学習部２１３、局所順位判定部２１４、及び大域分類学習部２１５を有する。

以下、図４に示すシステムの原理的動作を図５に示す格解析モデルパラメータ学習処理ルーチンを参照して説明する。

まず、ステップ101で、格解析モデルパラメータ学習部２１は、入力された訓練テキストコーパスから述語と格要素候補のペアを作成するために、特徴ベクトル作成部２１１が、訓練テキストコーパスを読み込み、訓練テキストコーパス中の各単語について、格要素候補であるか否かを判定する。

例えば、品詞が名詞であるものを格要素候補とするが、訓練テキストコーパス中の格要素の正解の品詞に記号など名詞以外のものが含まれている場合は、訓練テキストコーパスあるいはそれ以外のテキストコーパスを利用して、解析モデルが学習された格要素候補判定器を用いて格要素候補であるか否かを判定してもよい。ここでは、格要素候補判定の結果、図６のように判定されたとする。ここで、○で示された単語が、格要素候補として判定されたとする。次に、述語と格要素候補のペアを作成する。基本的には、各述語に対して、その述語を含む文章に含まれる格要素候補をペアとするが、述語を含む文より後の文で正解の格要素候補を含む頻度は低いため、計算量を減らすために、対象とする格要素候補を、述語を含む文章の中で、1文目から述語を含む文までに含まれる格要素候補をペアの対象とすることが実際上は多く、本実施の形態の例でもそのようなペアのみを対象とする。その結果、図7のような、述語と格要素候補の単語とのペアが得られたとする。

次に、ステップ102において、位置タイプ判定部２１２は、上記ステップ１０１で作成された述語と格要素候補の各ペアに対して、述語の属す文節の番号、および格要素の候補の属す文節の番号とそれらの文節の間の係り受けの情報から、位置タイプが、DEPタイプ、SAME_BSタイプ、INTRA_Zタイプ、INTER_Zタイプ、及びEXOタイプの何れであるかを判定し、図8のような結果を得る。

次に、ステップ103において、特徴ベクトル作成部２１１は、上記ステップ１０１で作成された述語と格要素候補の各ペアに対して、特徴ベクトルの作成を行う。まず、上記ステップ１０１で作成されたそれぞれの述語と格要素候補のペアから、特徴量を抽出する。抽出する特徴量をu₁,...,u_umaxのu_max個の特徴量としたとき、述語pと格要素候補tとのペア(p,t)１つに対して１つの特徴ベクトルv(p,t)=(u_v,1,u_v,2,...,u_v,umax)を作成する。

ここで、特徴量uは、上記の非特許文献４中で述べられているような、単語、品詞、修飾関係の出現有無など、多様な特徴量を使用することができる。

次に、ステップ104において、局所分類学習部２１３は、上記ステップ１０２での位置タイプの判定結果、及び上記ステップ１０３で作成された特徴ベクトルに基づいて、必須格の種類及び位置タイプの組み合わせごとに局所分類モデルを学習し、局所分類モデルパラメータを格解析部２２に出力する。ここで、述語毎の格解析の正解情報が、訓練テキストコーパスの中で、図9のように与えられているとする。

このとき、ガ格のDEPタイプの局所分類モデル(Φ_ga,DEP)は、図８において、位置タイプがDEPであった、述語と格要素候補のペアの特徴ベクトルと、当該ペアが正解か否かとを訓練データとして、機械学習によって得られる。このとき、当該ペアが正解か否かについては、正例であるか負例であるかを表す変数をy とし、正例のときy=1、負例のときy=-1を与えるとする。位置タイプがDEPであった、述語と格要素候補のペアのうち、ガ格の格要素候補の正解になっているデータは、(p₂,t₁)であるので、このペアに対してはy=1を与え、それ以外のペアに関してはy=-1を与える。

このように、ガ格について、位置タイプ別に訓練データセットをそれぞれ作成し、訓練データセット中の述語と格要素候補のペア(p,t)に対する特徴量ベクトルおよびy の値を使用して、それぞれ局所分類の学習を行い、局所分類モデルパラメータΦ_ga,DEP、Φ_{ga,SAME_BS}、Φ_{ga,INTRA_Z}、Φ_{ga,INTER_Z}を得る。ガ格以外の、ヲ格など、他の必須格の種類についても、同様に訓練データセットを作成し、Φ_wo,DEP、Φ_{wo,SAME_BS}、Φ_{wo,INTRA_Z}、Φ_{wo,INTER_Z}などの局所分類モデルの学習を行う。なお本実施の形態で学習される一つの局所分類モデルパラメータをΦ_lとすると、例えば、実施の形態での局所分類モデルが、以下の（１）式で示すような、bを切片、x_iを特徴量u_iの値、w_iを特徴量iに対する重みとする線形モデルの場合には、具体的には、Φ_l=(b,w₁,w₂,...,w_umax)として表すことができる。

ｙ＝ｆ（ｘ）＝ｂ＋Σ_ｉ＝１ ^ｕｍａｘｗ_ｉｘ_ｉ（１）

なお、使用される局所分類モデルf(x)の形は、線形モデルでなくてもよく、f(x)が、特徴量ベクトルxに対し、値が大きいほど、格要素候補が正解である可能性が高く、値が小さいほど格要素候補の正解である可能性が低いことを表すスコアとして使えるものであり、計算コストに問題がなければ、どのような関数の形でもよい。

本実施の形態では、用いる機械学習手法は、対数線形回帰とするが、SVMなど２値分類が学習でき、xが与えられたときf(x)の値が計算でき、計算コストに問題がなければ、どのような学習手法を使ってもよい。

次に、ステップ105において、局所順位判定部２１４は、大域分類モデル学習のための訓練データの作成の準備として、上記ステップ１０２における位置タイプの判定結果、上記ステップ１０３で作成された特徴ベクトル、及び上記ステップ１０４で学習された局所分類モデルパラメータに基づいて、述語、必須格の種類、及び位置タイプの組み合わせ毎に、当該組み合わせに該当する述語と格要素候補のペアの中から、代表ペアを選択する。代表ペアについては、述語、必須格の種類、及び位置タイプの組み合わせが同じものの中で局所分類モデルの分類器のスコアが最も高くなる、述語と格要素候補のペアを代表ペアとする。ただし、述語と格要素候補のペアで、正解情報に基づいて真の格要素の答えとなっているペアがある場合はそのペアを代表ペアとする。

例えば、述語p2に対して、位置タイプがDEPである述語と格要素候補のペアは(p₂,t₁)、(p₂,t₃)、(p₂,t₅)、(p₂,t₆)、(p₂,t₉)の5組あるが、これらのペアに対応した特徴ベクトルxに対する局所分類モデルのスコアf(Φ_ga,DEP;x)で最大のスコアを取るペアが、(p₂,t₁)だったとすると、この(p₂,t₁)を、ガ格で位置タイプがDEPの場合の、述語p₂に対する代表ペアとする。ただし、述語「交渉する」「買う」「作る」「する」「感謝する」の格フレームは、図10のように与えられているとする。なお、「格要素の意味カテゴリ」は格要素に入る体言が属す意味カテゴリであり、human（人間）、organization（組織）、abstract（抽象物）、concrete（具体物）、location（場所）などを想定している。またany（すべて）は、どの意味カテゴリでもあてはまることを示す。本実施の形態では、この与えられた格フレームで、述語に対して、どの格が必須格であるか、の情報を取得し、必須格となっている格の場合のみ、代表ペアを選択する。また、もともと訓練テキストコーパス中であてはまるペアがなかった場合は「-」（空欄）とする。

このように訓練テキストコーパスから、必須格の種類、位置タイプ、および述語の組み合わせの各々に対して、代表ペアを求め、その結果、図１１のようになったとする。

次に、上記図１１のように選択された代表ペアについて、訓練テキストコーパスに含まれる正解情報に基づいて、必須格の種類、位置タイプ、および述語の組み合わせに対し、真の答えのペアがあるが、上記図１１では異なるペアが選択されている場合、真の答えのペアで上書きする。上記図9の訓練テキストコーパスにおける正解情報より、
ガ格、DEPタイプについては(p₂,t₁)、
ガ格、INTRA_Zタイプについては(p₁,t₁)、(p₃,t₁)、
ガ格、INTER_Zタイプについては(p₄,t₁)、
ヲ格、DEPタイプについては(p₂,t₉)、(p₃,t₁₃)、(p₄,t₂₄)、
ニ格、DEPタイプについては(p₅,t₃₂)、が真の答えになっており、これらの中で、上記図11の代表ペアと異なる、ガ格、INTER_Zタイプ、及び述語p₄に対する代表ペアのセルについて、ガ格、INTER_Zタイプ、述語p₄に対する真の答えのペア(p₄,t₁)で上書きする。その結果、上記図12の代表ペアの表が得られる。

次に、ステップ106で、大域分類学習部２１５は、上記ステップ１０３で作成された特徴ベクトル、及び上記ステップ１０５で選出された代表ペアに基づいて、大域分類モデル学習のための訓練データの作成を行う。図12の代表ペアの表に対し、これらの述語と格要素のペアが、真の正解の述語と格要素のペアになっている箇所に「正解」、そうでないところに「不正解」の情報を書き込む。その結果、図13のような表が得られる。

次に、各必須格の種類と述語の組合せに対し、位置タイプの二つの組合せに対応する代表ペアの組合せで、組合せが存在するものに対し、左側の代表ペアが正解の場合はLEFT、右側の代表ペアが正解の場合はRIGHT、両方の代表ペアが不正解の場合は、OTHERというラベルをつけて表を作成する。その結果、図14のような表が得られる。

次に、ここまでに得られた、代表ペアの二つ組みと正解代表ペアのラベルに基づいて、必須格の種類と位置タイプの二つ組との組合せごとにLEFT、RIGHT、OTHERの3クラス分類の分類器を作成するための、訓練データを作成する。例えば、必須格の種類及び位置タイプの二つ組の組合せごとに、図15のような訓練データの集合を作り、訓練データ毎に、代表ペアの組合せに対し、代表ペアに対応する特徴ベクトルを2つ並べた組み合わせ特徴ベクトルを作成すると共に、LEFT、RIGHT、及びOTHERの何れかのラベルを与える。

例えば、述語p_aと格要素候補t_bとのペア(p_a,t_b)に対する特徴ベクトルをv_b(p_a,t_b)=(u_vb,1,u_vb,2,...,u_vb,umax)、述語p_aと格要素候補t_cとのペア(p_a,t_c)に対する特徴ベクトルをv_c(p_a,t_c)=(u_vc,1,u_vc,2,...,u_vc,umax)としたとき、代表ペア(p_a,t_b)と代表ペア(p_a,t_c)の二つの組合せに対応する特徴ベクトルとして、(u_vb,1,u_vb,2,...,u_vb,umax,u_vc,1,u_vc,2,...,u_vc,umax)という内容の組み合わせ特徴ベクトルを作成する。このようにして、大域分類モデル学習のための訓練データを作成する。

次に、ステップ107において、上記ステップ１０６で作成した訓練データに基づいて、対数線形回帰あるいはサポートベクタマシンなどの機械学習器を用いて、LEFT、RIGHT、OTHERの3クラス分類を行う大域分類モデルの学習を行い、必須格の種類別に、位置タイプの二つ組の各組み合わせの大域分類モデルパラメータ、Φ_{DEP,SAME_BS}、Φ_{DEP,INTRA_Z}、Φ_{DEP,INTER_Z}、Φ_{SAME_BS,INTRA_Z}、Φ_{SAME_BS,INTER_Z}、Φ_{INTRA_Z,INTER_Z}、を得る。そして、ステップ108において、上記ステップ１０７で学習された大域分類モデルパラメータを、格解析部２２に出力する。

次に、格解析部２２について本発明の実施の形態を説明する。図16は、本発明の格解析部２２の原理的システム構成を示すブロック図である。

格解析部２２は、機能的には、分類モデルパラメータ記憶部２２１、特徴ベクトル作成部２２２、位置タイプ判定部２２３、局所順位判定部２２４、及び大域順位判定部２２５を有する。

以下、図16に示すシステムの原理的動作を図17に示す格解析処理ルーチンを参照して説明する。

まず、ステップ200において、格解析部２２は、格解析モデルパラメータ学習部２１から入力された、局所分類モデルパラメータおよび、大域分類モデルパラメータを読み込み、分類モデルパラメータ記憶部２２１に記憶する。次に、ステップ201において、特徴ベクトル作成部２２２は、入力された解析対象テキスト中の述語と格要素候補のペアを作成する。具体的には、格解析モデルパラメータ学習部２１のステップ101と同様にして、述語と格要素候補のペアを作成する。

次に、ステップ202において、位置タイプ判定部２２３は、上記ステップ２０１で作成した述語と格要素候補のペアの各々に対して、位置タイプの判定を行う。具体的には、格解析モデルパラメータ学習部２１のステップ102と同様にして、述語と格要素候補のペアに対する位置タイプの判定を行う。

次に、ステップ203において、特徴ベクトル作成部２２２は、上記ステップ２０１で作成した述語と格要素候補のペアの各々に対して、特徴ベクトルの作成を行う。具体的には、格解析モデルパラメータ学習部２１のステップ103と同様にして、述語と格要素候補のペアに対する特徴ベクトルの作成を行う。

次に、ステップ205において、局所順位判定部２２４は、上記ステップ２０２で判定された位置タイプ、及び上記ステップ２０３で作成した特徴ベクトルに基づいて、述語と格要素候補のペアの各々に対して、4つの局所分類器、すなわちΦ_DEP、Φ_{SAME BS}、Φ_{INTRA Z}、Φ_{INTER Z}をモデルパラメータとする4つの局所分類器のうち、述語と格要素候補のペアの位置タイプに当てはまる局所分類器を適用し、スコアを算出する。そして、局所順位判定部２２４は、各述語に対し、必須格の種類及び位置タイプの組み合わせ毎に、最も高いスコアをとる格要素候補と当該述語とのペアを求め、代表ペアとする。次に、ステップ206において、大域順位判定部２２５は、上記ステップ３０３で作成された特徴ベクトル、及び上記ステップ２０５で選出された代表ペアに基づいて、格解析モデルパラメータ学習部２１のステップ106で大域分類モデル学習のための訓練データを作成したのと同様に、大域分類モデルでテストするためのテスト用データを作成する。ただし、テスト用データでは、何が格解析の答えであるかについての情報は付与されていないため、真の答えの述語と格要素の組による代表ペアの上書きは行わない。また、LEFT、RIGHT、OTHERの付与も行わない。

次に、ステップ207において、大域順位判定部２２５は、上記ステップ２０６で作成されたテスト用データの各々に対して、6つの大域分類器、すなわち、Φ_{DEP,SAME BS}、Φ_{DEP,INTRA Z}、Φ_{DEP,INTER Z}、Φ_{SAME BS,INTRA Z}、Φ_{SAME BS,INTER Z}、Φ_{INTRA Z,INTER Z}のモデルパラメータに基づく大域分類器のうちの、当該テスト用データに対応する代表ペアの2つの組の位置タイプの組み合わせに対応した大域分類器を適用し、LEFTの分類結果が得られた場合は、左の代表ペアに対するスコアを＋1し、右の代表ペアに対するスコアを-1する。RIGHTの分類結果が得られた場合は、右の代表ペアに対するスコアを+1し、左の代表ペアに対するスコアを-1し、OTHERの分類結果が得られた場合は、左の代表ペア、右の代表ペアともにスコアを-1し、述語及び必須格の種類の組み合わせ毎に、上記の分類結果に基づいたスコアの集計を行う。

次に、ステップ208において、格解析部２２は、解析対象テキスト中の各述語について、当該述語に対する必須格の種類毎に、当該述語に対する必須格の種類に該当する代表ペアのうち、上記のように得られたスコアで最も高いスコアが得られた代表ペアの、述語と格要素候補のペアを、システムの答えとして出力する。ただし、述語について、最も高いスコアが、0以下であった場合は、DEPタイプ、SAME_BSタイプ、INTRA_Zタイプ、及びINTER_Zタイプのいずれの位置タイプの代表ペアも答えとして適さなかったとして、EXOタイプとして判定して出力して、動作を終了する。

以上説明したように、本発明の実施の形態の格解析装置の格解析モデルパラメータ学習部によれば、述語と必須格の種類と位置タイプとの組み合わせの各々について、当該位置タイプについての局所分類器を用いて得られるスコアが最大となる、述語と格要素候補との代表ペアを選出し、位置タイプの二つ組の各々について、当該二つ組の位置タイプの各々の代表ペアの特徴ベクトルに基づく組み合わせ特徴ベクトル、及び正解情報を用いた訓練データを作成し、位置タイプの二つ組に該当する２つの代表ペアに対する組み合わせ特徴ベクトルに基づいて、一方の代表ペアが正解であるか、他方の代表ペアが正解であるか、及び２つの代表ペアの何れも不正解であるかを判定するための大域分類器の分類モデルパラメータを学習することにより、述語と格要素との位置タイプの各々に対応して、格解析を精度よく行うためのモデルパラメータを学習することができる。

また、本発明の実施の形態の格解析装置によれば、述語と必須格の種類と位置タイプとの組み合わせの各々について、当該位置タイプについての局所分類器を用いて得られるスコアが最大となる、述語と格要素候補の代表ペアを選出し、位置タイプの二つ組の各々について、２つの位置タイプの代表ペアの特徴ベクトルに基づく組み合わせ特徴ベクトルを作成し、位置タイプの二つ組に該当する２つの代表ペアに対する組み合わせ特徴ベクトルに基づいて、大域分類器を用いて、一方の代表ペアが正解であるか、他方の代表ペアが正解であるか、及び２つの代表ペアの何れも不正解であるかを判定することにより、述語と格要素の位置タイプの各々に対応して、格解析を精度よく行うことができる。

また、格解析モデルパラメータ学習部により獲得された局所分類モデルパラメータおよび、大域分類モデルパラメータを用いて格解析を行うため、メモリの消費量を抑制しつつ、DEPタイプ、SAME_BSタイプ、INTRA_Zタイプ、INTER_Zタイプだけでなく、EXOタイプというすべての位置タイプに対し、格解析を行うことができる。

また、同一文節中にある格要素候補や同一テキスト中に格要素がない場合も考慮でき、格要素候補の位置タイプに関わらず、メモリ消費量を抑制しつつ、精度よく格解析を行うことができる。

なお、上記の実施の形態では、格解析モデルパラメータ学習部を備えた格解析装置について説明したが、格解析モデルパラメータ学習部を備えた装置と、格解析モデルパラメータ学習部を備えない格解析装置とを別々に構成してもよい。この場合、格解析モデルパラメータ学習装置で獲得された局所分類モデルパラメータおよび大域分類モデルパラメータを、ネットワーク等を介して、格解析装置の分類モデルパラメータ記憶部に記憶するようにするとよい。また、格解析モデルパラメータ学習装置に分類モデルパラメータ記憶部を設けて、獲得した局所分類モデルパラメータおよび、大域分類モデルパラメータを記憶しておき、格解析装置から、ネットワーク等を介して、分類モデルパラメータ記憶部に記憶された局所分類モデルパラメータおよび、大域分類モデルパラメータを読み出すようにしてもよい。

また、上述の格解析装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」はＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムをコンピュータ読み取り可能な記憶媒体に格納して提供することも可能である。

１０入力部
２０演算部
２１格解析モデルパラメータ学習部
２２格解析部
３０出力部
１００格解析装置
２１１特徴ベクトル作成部
２１２位置タイプ判定部
２１３局所分類学習部
２１４局所順位判定部
２１５大域分類学習部
２２１分類モデルパラメータ記憶部
２２２特徴ベクトル作成部
２２３位置タイプ判定部
２２４局所順位判定部
２２５大域順位判定部

Claims

テキスト中に含まれる述語と前記述語に対する必須格の格要素とのペアの正解情報が予め付与された訓練テキストに基づいて、述語と格要素候補とのペアの各々を抽出し、前記抽出された前記ペアの各々について、複数の特徴量を抽出して特徴ベクトルを作成する特徴ベクトル作成部と、
前記述語と格要素候補とのペアの各々について、前記ペアの前記述語と格要素候補との位置関係が、予め定められた複数の位置関係のタイプの何れであるかを判定する位置タイプ判定部と、
前記複数の位置関係のタイプの各々について、前記位置関係のタイプであると判定された前記述語と格要素候補とのペアの各々について作成された前記特徴ベクトル、及び前記正解情報に基づいて、前記位置関係のタイプに該当する前記述語と格要素候補とのペアについての前記特徴ベクトルに基づいて前記述語に対し前記格要素候補が正解であるか否かを判定するための局所分類器の分類モデルパラメータを学習する局所分類学習部と、
前記述語と前記位置関係のタイプとの組み合わせの各々について、前記述語を有する前記ペアであって、かつ、前記位置関係のタイプに該当する前記述語と格要素候補とのペアのうち、前記位置関係のタイプについての局所分類器を用いて得られるスコアが最大となる前記ペアを代表ペアとして選択し、前記述語を有する前記ペアであって、かつ、前記位置関係のタイプに該当する前記述語と格要素候補とのペアのうち、前記正解情報の前記ペアがある場合には、前記ペアを代表ペアとする局所順位判定部と、
前記複数の位置関係のタイプのうちの２つの位置関係のタイプの組み合わせの各々について、前記述語毎に、前記組み合わせの一方の位置関係のタイプ及び前記述語に対する前記代表ペアについての前記特徴ベクトルと、前記組み合わせの他方の位置関係のタイプ及び前記述語に対する前記代表ペアについての前記特徴ベクトルとに基づく組み合わせ特徴ベクトル、及び前記代表ペアについての前記正解情報を用いた訓練データを作成し、前記述語毎に作成した前記訓練データに基づいて、前記位置関係のタイプの組み合わせに該当する２つの前記代表ペアに対する前記組み合わせ特徴ベクトルに基づいて一方の前記代表ペアが正解であるか、他方の前記代表ペアが正解であるか、及び前記２つの代表ペアの何れも不正解であるかを判定するための大域分類器の分類モデルパラメータを学習する大域分類学習部と、
を含む格解析モデルパラメータ学習装置。
前記予め定められた複数の位置関係のタイプは、述語と格要素が同一文内にあり、かつ、述語と格要素の間に係り受け関係があるDEPタイプ、述語と格要素が同一文内にあり、かつ同一文節内にあるSAME_BSタイプ、述語と格要素が同一文内にあり、かつ、述語と格要素が係り受け関係にないINTRA_Zタイプ、述語と格要素が同一テキスト中の異なる文内にあるINTER_Zタイプ、及び格要素が述語と同一テキスト中に存在しないEXOタイプであり、
前記大域分類学習部は、前記DEPタイプ、前記SAME_BSタイプ、前記INTRA_Zタイプ、及びINTER_Zタイプのうちの２つの位置関係のタイプの組み合わせの各々について、前記大域分類器の分類モデルパラメータを学習する請求項１記載の格解析モデルパラメータ学習装置。
解析対象のテキストに基づいて、述語と格要素候補とのペアの各々を抽出し、前記抽出された前記ペアの各々について、複数の特徴量を抽出して特徴ベクトルを作成する特徴ベクトル作成部と、
前記述語と格要素候補とのペアの各々について、前記ペアの前記述語と格要素候補との位置関係が、予め定められた複数の位置関係のタイプの何れであるかを判定する位置タイプ判定部と、
前記位置関係のタイプ毎に予め学習された、前記位置関係のタイプに該当する前記述語と格要素候補とのペアについての前記特徴ベクトルに基づいて前記述語に対し前記格要素候補が正解であるか否かを判定するための局所分類器の分類モデルパラメータに基づいて、前記述語と前記位置関係のタイプとの組み合わせの各々について、前記述語を有する前記ペアであって、かつ、前記位置関係のタイプに該当する前記述語と格要素候補とのペアのうち、前記位置関係のタイプについての前記局所分類器を用いて得られるスコアが最大となる前記ペアを代表ペアとして選択する局所順位判定部と、
前記複数の位置関係のタイプのうちの２つの位置関係のタイプの組み合わせの各々について、前記述語毎に、前記組み合わせの一方の位置関係のタイプ及び前記述語に対する前記代表ペアについての前記特徴ベクトルと、前記組み合わせの一方の位置関係のタイプ及び前記述語に対する前記代表ペアについての前記特徴ベクトルとに基づく組み合わせ特徴ベクトルを作成し、前記位置関係のタイプの組み合わせ毎に予め学習された、前記位置関係のタイプの組み合わせに該当する２つの前記代表ペアに対する前記組み合わせ特徴ベクトルに基づいて一方の前記代表ペアが正解であるか、他方の前記代表ペアが正解であるか、及び前記２つの代表ペアの何れも不正解であるかを判定するための大域分類器の分類モデルパラメータと、前記作成した前記組み合わせ特徴ベクトルとに基づいて、前記代表ペアの各々について、前記代表ペアの正解らしさを示すスコアを計算する大域順位判定部と、
を含む格解析装置。
前記予め定められた複数の位置関係のタイプは、述語と格要素が同一文内にあり、かつ、述語と格要素の間に係り受け関係があるDEPタイプ、述語と格要素が同一文内にあり、かつ同一文節内にあるSAME_BSタイプ、述語と格要素が同一文内にあり、かつ、述語と格要素が係り受け関係にないINTRA_Zタイプ、述語と格要素が同一テキスト中の異なる文内にあるINTER_Zタイプ、及び格要素が述語と同一テキスト中に存在しないEXOタイプであり、
前記大域順位判定部は、前記DEPタイプ、前記SAME_BSタイプ、前記INTRA_Zタイプ、及びINTER_Zタイプのうちの２つの位置関係のタイプの組み合わせの各々について、前記述語毎に、前記組み合わせ特徴ベクトルを作成し、前記２つの位置関係のタイプの組み合わせ毎に予め学習された前記大域分類器の分類モデルパラメータと、前記作成した前記組み合わせ特徴ベクトルとに基づいて、前記代表ペアの各々について、前記スコアを計算する請求項３載の格解析装置。
特徴ベクトル作成部によって、テキスト中に含まれる述語と前記述語に対する必須格の格要素とのペアの正解情報が予め付与された訓練テキストに基づいて、述語と格要素候補とのペアの各々を抽出し、前記抽出された前記ペアの各々について、複数の特徴量を抽出して特徴ベクトルを作成し、
位置タイプ判定部によって、前記述語と格要素候補とのペアの各々について、前記ペアの前記述語と格要素候補との位置関係が、予め定められた複数の位置関係のタイプの何れであるかを判定し、
局所分類学習部によって、前記複数の位置関係のタイプの各々について、前記位置関係のタイプであると判定された前記述語と格要素候補とのペアの各々について作成された前記特徴ベクトル、及び前記正解情報に基づいて、前記位置関係のタイプに該当する前記述語と格要素候補とのペアについての前記特徴ベクトルに基づいて前記述語に対し前記格要素候補が正解であるか否かを判定するための局所分類器の分類モデルパラメータを学習し、
局所順位判定部によって、前記述語と前記位置関係のタイプとの組み合わせの各々について、前記述語を有する前記ペアであって、かつ、前記位置関係のタイプに該当する前記述語と格要素候補とのペアのうち、前記位置関係のタイプについての局所分類器を用いて得られるスコアが最大となる前記ペアを代表ペアとして選択し、前記述語を有する前記ペアであって、かつ、前記位置関係のタイプに該当する前記述語と格要素候補とのペアのうち、前記正解情報の前記ペアがある場合には、前記ペアを代表ペアとし、
大域分類学習部によって、前記複数の位置関係のタイプのうちの２つの位置関係のタイプの組み合わせの各々について、前記述語毎に、前記組み合わせの一方の位置関係のタイプ及び前記述語に対する前記代表ペアについての前記特徴ベクトルと、前記組み合わせの他方の位置関係のタイプ及び前記述語に対する前記代表ペアについての前記特徴ベクトルとに基づく組み合わせ特徴ベクトル、及び前記代表ペアについての前記正解情報を用いた訓練データを作成し、前記述語毎に作成した前記訓練データに基づいて、前記位置関係のタイプの組み合わせに該当する２つの前記代表ペアに対する前記組み合わせ特徴ベクトルに基づいて一方の前記代表ペアが正解であるか、他方の前記代表ペアが正解であるか、及び前記２つの代表ペアの何れも不正解であるかを判定するための大域分類器の分類モデルパラメータを学習する
格解析モデルパラメータ学習方法。
特徴ベクトル作成部によって、解析対象のテキストに基づいて、述語と格要素候補とのペアの各々を抽出し、前記抽出された前記ペアの各々について、複数の特徴量を抽出して特徴ベクトルを作成し、
位置タイプ判定部によって、前記述語と格要素候補とのペアの各々について、前記ペアの前記述語と格要素候補との位置関係が、予め定められた複数の位置関係のタイプの何れであるかを判定し、
局所順位判定部によって、前記位置関係のタイプ毎に予め学習された、前記位置関係のタイプに該当する前記述語と格要素候補とのペアについての前記特徴ベクトルに基づいて前記述語に対し前記格要素候補が正解であるか否かを判定するための局所分類器の分類モデルパラメータに基づいて、前記述語と前記位置関係のタイプとの組み合わせの各々について、前記述語を有する前記ペアであって、かつ、前記位置関係のタイプに該当する前記述語と格要素候補とのペアのうち、前記位置関係のタイプについての前記局所分類器を用いて得られるスコアが最大となる前記ペアを代表ペアとして選択し、
大域順位判定部によって、前記複数の位置関係のタイプのうちの２つの位置関係のタイプの組み合わせの各々について、前記述語毎に、前記組み合わせの一方の位置関係のタイプ及び前記述語に対する前記代表ペアについての前記特徴ベクトルと、前記組み合わせの一方の位置関係のタイプ及び前記述語に対する前記代表ペアについての前記特徴ベクトルとに基づく組み合わせ特徴ベクトルを作成し、前記位置関係のタイプの組み合わせ毎に予め学習された、前記位置関係のタイプの組み合わせに該当する２つの前記代表ペアに対する前記組み合わせ特徴ベクトルに基づいて一方の前記代表ペアが正解であるか、他方の前記代表ペアが正解であるか、及び前記２つの代表ペアの何れも不正解であるかを判定するための大域分類器の分類モデルパラメータと、前記作成した前記組み合わせ特徴ベクトルとに基づいて、前記代表ペアの各々について、前記代表ペアの正解らしさを示すスコアを計算する
格解析方法。
コンピュータを、請求項１又は２記載の格解析モデルパラメータ学習装置又は請求項３又は４記載の格解析装置の各部として機能させるためのプログラム。