JP5823441B2 - 格解析モデルパラメータ学習装置、格解析装置、方法、及びプログラム - Google Patents

格解析モデルパラメータ学習装置、格解析装置、方法、及びプログラム Download PDF

Info

Publication number
JP5823441B2
JP5823441B2 JP2013094695A JP2013094695A JP5823441B2 JP 5823441 B2 JP5823441 B2 JP 5823441B2 JP 2013094695 A JP2013094695 A JP 2013094695A JP 2013094695 A JP2013094695 A JP 2013094695A JP 5823441 B2 JP5823441 B2 JP 5823441B2
Authority
JP
Japan
Prior art keywords
pair
type
positional relationship
case
representative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013094695A
Other languages
English (en)
Other versions
JP2014215920A (ja
Inventor
博順 平
博順 平
永田 昌明
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013094695A priority Critical patent/JP5823441B2/ja
Publication of JP2014215920A publication Critical patent/JP2014215920A/ja
Application granted granted Critical
Publication of JP5823441B2 publication Critical patent/JP5823441B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、格解析モデルパラメータ学習装置、格解析装置、方法、及びプログラムに係り、特に、テキストに含まれる述語に対する必須格の格要素を解析するための格解析モデルパラメータ学習装置、格解析装置、方法、及びプログラムに関する。
人間の読み手を想定して書かれたテキストや、人間同士の会話を書き起こしたテキストにおいては、省略表現が存在することがある。例えば、電化製品の故障トラブルについての電話オペレータと顧客との会話の書き起こしテキストにおいて、「オペレータ:何かお困りですか?」、「顧客:電源ボタンを押しても、全く反応しなくなりました。」といった文があった場合、「オペレータ:(あなたは)何かお困りですか?」、「顧客:(電化製品の)電源ボタンを(私が)押しても、(電化製品が)全く反応しなくなりました。」の括弧で示された箇所が、省略されている表現である。読み手や聞き手は容易に記述内容を理解して、省略されたものを推測できる場合、省略表現は容易に使われうる。
このようなテキスト中の省略表現は、様々なテキスト処理を行なう上で、しばしば精度低下の原因となっており、テキスト中の省略が存在することを検出し、省略されたものが何かを特定する省略解析を高精度に行うことは、多くのテキスト処理において重要である。例えば、テキストから自動的に情報抽出を行う処理の場合には、上記の例の「(電化製品が)全く反応しなくなりました。」の「電化製品が」の部分がないままに、表層表現から単純に情報抽出を行っても、何が反応しなくなったのかが抽出できない。これを文中で「〜が」の部分が省略されていることを検出し、「〜」の部分が「電化製品」であることが特定できれば、「電化製品が全く反応しなくなりました。」という省略のない完全な文から情報抽出をすることが可能になり、情報抽出の精度も向上することが期待できる。また、このテキストを他言語に機械翻訳する場合、例えば、英語に翻訳する場合、日本語のテキスト側に主語が存在せず、英語に翻訳したときに、どのようなit, they, I といった代名詞のうちどの代名詞に翻訳すればよいか、単純には判断できない。それが、あらかじめ日本語テキストの省略箇所が特定でき、適切に省略補完できていれば、機械翻訳された英語のテキストの翻訳精度が高まることが期待できる。
このような省略解析を行うために必要で重要な技術の一つに格解析(述語項構造解析ともいう)がある。格解析とは、テキスト中に含まれる述語に対し、該述語の必須格の種類および該必須格の格要素を特定する解析である。ここで、「述語」とは、文の中で動作や、状態・性質を表す語のことで、日本語の場合は、文中の動詞、形容詞、名詞+だ(判定詞)などを指す。また、「必須格」とは、述語の表す内容に必須の内容を表す補語のことであり、「必須格の種類」とは、「ガ格」「ヲ格」などを指す。日本語の場合、9つの格助詞「が」「を」「に」「から」「へ」「と」「より」「まで」「で」に対応した「ガ格」「ヲ格」「ニ格」「カラ格」「ヘ格」「ト格」「ヨリ格」「マデ格」「デ格」等の約9 種類の必須格を考えることができる。また、「必須格の格要素」とは、ガ格、ヲ格など必須格の種類ごとに当てはまる体言を指す。
例えば、2つの単文から構成されるテキスト「花子は、2年前に太郎と知り合った。そして最近、太郎と結婚した。」に対し格解析を行う場合、述語「知り合った」の必須格の種類はガ格とト格であり、ガ格の格要素は「花子」、ト格の格要素は「太郎」であることを特定する。「知り合った。」だけだと、「誰と誰が」知り合ったのか尋ねたくなり、「花子が」と「太郎と」とが、どちらも述語「知り合った」の表す内容にとって必須の内容を表しているといえるからである。
なお、述語「知り合った」の必須格がガ格とト格であり、ガ格には人間を表す格要素が、ト格にも人間を表す格要素が入りやすい、といった情報をまとめて「格フレーム」と呼ぶ。一方、「2年前に」は、述語「知り合った」に対して必須の内容ではないため、格解析の解析対象とはしない。また、述語「結婚した」の必須格はガ格とト格であり、ガ格の格要素は「花子」、ト格の格要素は「太郎」であることを特定する。この場合、ガ格の格要素「花子」は、述語「結婚した」と同一文中には出現せず、省略されているが、省略されている格要素に対しても格解析は解析を行う。格要素が述語と同一文中において省略されていない場合でも、「は」「も」などの係助詞や連体修飾によって格助詞が明示されない場合も多いため、格解析は簡単ではない。
必須格の格要素は、述語に対する格要素の出現位置関係および係り受け関係によって、大きく、次の5つの位置タイプに分類することができる。
(タイプ1):述語と格要素が同一文内にあり、当該述語を含む文節と当該格要素を含む文節とが直接係り受け関係にあるタイプ(述語と格要素の間に係り受け関係(dependency)があるタイプのため、以降略して「DEPタイプ」と呼ぶ)
(タイプ2):述語と格要素が同一文内かつ同一文節内にあるタイプ(述語と格要素が同一文節(Same Bunsetsu)にあるタイプのため、以降略して「SAME_BS タイプ」と呼ぶ)
(タイプ3):述語と格要素が同一文内にあるが、当該述語を含む文節と当該格要素を含む文節とが直接係り受け関係にないタイプ(述語と格要素が係り受け関係になくゼロ代名詞(Zero Pronoun)化しており、かつ該ゼロ代名詞に対する先行詞が述語と同一文中にある(Intra-sentential)タイプのため、以降略して「INTRA_Z タイプ」と呼ぶ)
(タイプ4):述語と格要素が同一テキスト中の異なる文内にあるタイプ(述語と格要素が係り受け関係になくゼロ代名詞(Zero Pronoun)化しており、かつ該ゼロ代名詞に対する先行詞が異なる文中にある(Inter-sentential)タイプのため、以降略して「INTER_Z タイプ」と呼ぶ)
(タイプ5):格要素が述語と同一テキスト中に存在しないタイプ(述語と格要素が係り受け関係になくゼロ代名詞(Zero Pronoun)化しており、かつ該ゼロ代名詞に対する先行詞が同一テキスト中になく、テキスト外の外界にある、すなわち外界照応(Exophora)の状態にあるタイプのため、以降略して「EXOタイプ」と呼ぶ)
上記5つの位置タイプについて、図1および図9を使って説明する。まず図1に格解析の対象となるテキストの例を示す。この例では、「彼は昨日、値引き交渉して野菜を買い、夕食を作ってくれた。今日は朝、掃除をしてくれた。本当に彼には感謝している。」という3文から構成される1つの文章からなるテキストについて、形態素解析および係り受け解析を行い、解析対象テキストに含まれる形態素、それらの品詞、所属文節番号、所属文番号、所属文章番号、各文節の係り先文節番号の情報が含まれている。これらの情報は、あらかじめテキストに付与しておいてもよいし、格解析装置の中に、形態素解析器および係り受け解析器を持たせて、入力されたテキストに対し、形態素解析と係り受け解析を行い、情報を自動的に付与してもよい。
また、述語を構成する形態素が解析対象テキスト中のどの部分にあるかの情報をも含まれている。この情報も、格解析装置の中に、述語特定器を持たせて、入力されたテキストに対し、述語部分を自動的に付与してもよい。
図1の解析対象テキストに対し格解析を行った結果を図9に示す。図9には、理想的な結果、すなわち格解析が100%の精度で行われた場合に想定される結果を示している。例えば、述語p1(p1の基本形は「交渉する」)に対しては、必須格がガ格、ヲ格、ト格であり、ガ格の格要素は「彼」(単語番号は1、位置タイプはINTRA_Z)、ヲ格の格要素は「値引き」(単語番号は5、位置タイプはSAME_BS)、ト格の格要素は解析対象テキストに含まれない「店員」といった単語(位置タイプはEXO)、である。位置タイプについては、単語番号1の「彼」については、述語p1と同一文中にあるが、単語番号1の単語「彼」を含む文節1の係り先文節が5であり、述語p1を含む文節3に対し、直接係り受け関係がないため、位置タイプはINTRA_Zとなる。単語番号5の「値引き」については、述語p1と同じ文節3の中に含まれているため、位置タイプはSAME_BSとなっている。また、述語p1に対するト格については、「店員」などの単語があてはまると考えられるが、解析対象テキスト中には「店員」という単語は含まれていないため、位置タイプはEXOとなっている。
このような格解析を自動で行うために、直接、記述内容や記述意図を理解するアプローチが取られることは少ない。現在の言語処理技術では、テキストの記述内容や記述意図を直接理解することは困難であるからである。その代わりに、テキスト中の表層表現を解析の手がかりとして、該テキスト以外の外部の情報源からの情報を可能な限り利用して解析するアプローチが多く取られている。外部の情報源からの情報としては、単語の品詞・意味カテゴリ分類・固有表現分類、単語や文節間の係り受け関係、構文パターン、単語同士の共起頻度などがある。このような格解析方法は、大きく分けると二種類の方法がある。一つは、言語学的な知識に基づく人手で書いたルールを適用し格解析を行う方法である(例えば、非特許文献1参照)。もう一つは、言語学的な知識に基づいて特徴量を設定し、格解析モデルのモデルパラメータを、あらかじめ格解析の正解が人手で与えられた訓練コーパスから機械学習手法あるいは統計的手法を用いて自動的に学習し、学習されたモデルパラメータを用いた解析モデルによる解析器で、格解析を行う方法である(例えば、非特許文献2、3参照)。非特許文献2、3で開示されている省略解析方法は、どのような言語であっても、また、書き言葉、話し言葉といった違いや、旅行会話、会議受付会話といったドメインの違いがあっても、それらに応じて正解コーパスを用意すれば、容易に解析システムが構築できるという利点がある。
中岩浩巳,池原悟,「語用論的・意味論的制約を用いた日本語ゼロ代名詞の文内照応解析」,自然言語処理,Vol.3,No.4,pp.49-65, 1996年 山本和英,隅田英一郎,「決定木学習による日本語対話文の格要素省略補完」, 自然言語処理,Vol.6,No.1,pp.3-28,1999年 笹野遼平, 黒橋禎夫,「大規模格フレームを用いた識別モデルに基づく日本語ゼロ照応解析」,情報処理学会論文誌,Vol.52,No.12,pp.3328-3337,2011年 Hayashibe, Y. and Komachi,M. and Matsumoto, Y.,"Japanese Predicate Argument Structure Analysis Exploiting Argument Position and Type", Proceedings of 5th International Joint Conference on Natural Language Processing, 2011年
しかしながら、上記の非特許文献1のような方法では、予め定義された人手ルールしか適用できないため、処理対象言語や処理対象ドメインを変えたときに、人手で新たなルールを多数作成する必要があり、汎用性にかける、という問題がある。
また、上記の非特許文献2、3で開示されている省略解析方法は、機械学習に基づく汎用性が高い方法ではあるが、例えば非特許文献2では、INTRA_ZタイプとINTER_Zタイプのみ、非特許文献3では、EXOタイプのみの解析であり、DEPタイプ、SAME_BSタイプ、INTRA_Zタイプ、INTER_Zタイプ、EXOタイプのすべてを同時に解析することはできない、という問題がある。
格解析をテキストマイニングや機械翻訳の前処理等など実際の応用で使用する場合には、これら5つの位置タイプの解析を同時に扱い、それぞれの解析において精度の高い解析が求められる。それぞれの位置タイプに応じた解析器を独立に使用して解析を行い、それらの解析結果を総合して解析結果を出力するという方法も考えられるが、一般に、各位置タイプの格要素候補が実際に格要素となるかどうかはトレードオフの関係にあり、1つのタイプの解析を高精度にしても、別のタイプの精度が下がるなど、全体的にバランスよく精度の高い解析を行うことが困難である、という問題がある。
また、これまで、DEPタイプ、INTRA_Zタイプ、INTER_Zタイプを同時に扱う格解析を行う際、これら3つのタイプのデータを同時に扱い、学習、分類を行うと、一つの述語と格要素の組の正解に対し、不正解の組の候補が多くなってしまい、正例と負例のアンバランスなデータに対する学習を行うために、分類精度が低下したり、異なる3つのタイプのデータを同時に扱うために正確な分類を行う学習が困難になり、分類精度が低下する、という問題があった。この問題を解決するために、非特許文献4では、DEPタイプ、INTRA_Z タイプ、INTER_Zタイプの3つの位置タイプ毎に作成した格要素かそうでないかの分類を行う分類器を使うことにより、3つの位置タイプそれぞれで、最もスコアの高い述語と格要素の組を代表値として選び、代表値同士でまず、DEPタイプの代表値とINTRA_Z タイプの代表値でどちらがより格要素の正解らしいかを分類し、それらのうち勝者とINTER_Zタイプの代表値でどちらがより格要素の正解らしいかを分類し、それらのうちの勝者について、格要素が正解であるか否かを分類し、述語に対して、格解析装置が正解と推定される格要素を出力する方法が提案されている。この方法により、あらかじめ、格要素の候補数の多い、INTRA_Zタイプ、INTER_Zタイプの格要素候補の候補数を各位置タイプに対応した局所分類器で1つの代表値に絞ることで、メモリ消費量を抑制しつつ、精度よく格解析を行うことが可能になっていた。
しかしながら、この非特許文献4に記載の方法では、SAME_BSタイプおよびEXOタイプの格要素は考慮されておらず、これらのタイプの解析ができなかった。また、代表値同士で勝者を決める場合の順番が、DEPタイプとINTRA_Zタイプの勝者を決めてから、その勝者とINTER_Zタイプの代表値とでさらに勝者を決めるなど、決定順番がその順番が最適かどうかについては考慮がないまま、固定化され、その順番が不適切な場合には高精度な格解析を妨げる要因となっていた。
本発明は、上記の事情を鑑みてなされたもので、述語と格要素の位置タイプの各々に対応して、格解析を精度よく行うためのモデルパラメータを学習することができる格解析モデルパラメータ学習装置、方法、及びプログラムを提供することを目的とする。
また、述語と格要素の位置タイプの各々に対応して、格解析を精度よく行うことができる格解析装置、方法、及びプログラムを提供することを目的とする。
上記の目的を達成するために本発明に係る格解析モデルパラメータ学習装置は、テキスト中に含まれる述語と前記述語に対する必須格の格要素とのペアの正解情報が予め付与された訓練テキストに基づいて、述語と格要素候補とのペアの各々を抽出し、前記抽出された前記ペアの各々について、複数の特徴量を抽出して特徴ベクトルを作成する特徴ベクトル作成部と、前記述語と格要素候補とのペアの各々について、前記ペアの前記述語と格要素候補との位置関係が、予め定められた複数の位置関係のタイプの何れであるかを判定する位置タイプ判定部と、前記複数の位置関係のタイプの各々について、前記位置関係のタイプであると判定された前記述語と格要素候補とのペアの各々について作成された前記特徴ベクトル、及び前記正解情報に基づいて、前記位置関係のタイプに該当する前記述語と格要素候補とのペアについての前記特徴ベクトルに基づいて前記述語に対し前記格要素候補が正解であるか否かを判定するための局所分類器の分類モデルパラメータを学習する局所分類学習部と、前記述語と前記位置関係のタイプとの組み合わせの各々について、前記述語を有する前記ペアであって、かつ、前記位置関係のタイプに該当する前記述語と格要素候補とのペアのうち、前記位置関係のタイプについての局所分類器を用いて得られるスコアが最大となる前記ペアを代表ペアとして選択し、前記述語を有する前記ペアであって、かつ、前記位置関係のタイプに該当する前記述語と格要素候補とのペアのうち、前記正解情報の前記ペアがある場合には、前記ペアを代表ペアとする局所順位判定部と、前記複数の位置関係のタイプのうちの2つの位置関係のタイプの組み合わせの各々について、前記述語毎に、前記組み合わせの一方の位置関係のタイプ及び前記述語に対する前記代表ペアについての前記特徴ベクトルと、前記組み合わせの他方の位置関係のタイプ及び前記述語に対する前記代表ペアについての前記特徴ベクトルとに基づく組み合わせ特徴ベクトル、及び前記代表ペアについての前記正解情報を用いた訓練データを作成し、前記述語毎に作成した前記訓練データに基づいて、前記位置関係のタイプの組み合わせに該当する2つの前記代表ペアに対する前記組み合わせ特徴ベクトルに基づいて一方の前記代表ペアが正解であるか、他方の前記代表ペアが正解であるか、及び前記2つの代表ペアの何れも不正解であるかを判定するための大域分類器の分類モデルパラメータを学習する大域分類学習部と、を含んで構成されている。
本発明に係る格解析モデルパラメータ学習方法は、特徴ベクトル作成部によって、テキスト中に含まれる述語と前記述語に対する必須格の格要素とのペアの正解情報が予め付与された訓練テキストに基づいて、述語と格要素候補とのペアの各々を抽出し、前記抽出された前記ペアの各々について、複数の特徴量を抽出して特徴ベクトルを作成し、位置タイプ判定部によって、前記述語と格要素候補とのペアの各々について、前記ペアの前記述語と格要素候補との位置関係が、予め定められた複数の位置関係のタイプの何れであるかを判定し、局所分類学習部によって、前記複数の位置関係のタイプの各々について、前記位置関係のタイプであると判定された前記述語と格要素候補とのペアの各々について作成された前記特徴ベクトル、及び前記正解情報に基づいて、前記位置関係のタイプに該当する前記述語と格要素候補とのペアについての前記特徴ベクトルに基づいて前記述語に対し前記格要素候補が正解であるか否かを判定するための局所分類器の分類モデルパラメータを学習し、局所順位判定部によって、前記述語と前記位置関係のタイプとの組み合わせの各々について、前記述語を有する前記ペアであって、かつ、前記位置関係のタイプに該当する前記述語と格要素候補とのペアのうち、前記位置関係のタイプについての局所分類器を用いて得られるスコアが最大となる前記ペアを代表ペアとして選択し、前記述語を有する前記ペアであって、かつ、前記位置関係のタイプに該当する前記述語と格要素候補とのペアのうち、前記正解情報の前記ペアがある場合には、前記ペアを代表ペアとし、大域分類学習部によって、前記複数の位置関係のタイプのうちの2つの位置関係のタイプの組み合わせの各々について、前記述語毎に、前記組み合わせの一方の位置関係のタイプ及び前記述語に対する前記代表ペアについての前記特徴ベクトルと、前記組み合わせの他方の位置関係のタイプ及び前記述語に対する前記代表ペアについての前記特徴ベクトルとに基づく組み合わせ特徴ベクトル、及び前記代表ペアについての前記正解情報を用いた訓練データを作成し、前記述語毎に作成した前記訓練データに基づいて、前記位置関係のタイプの組み合わせに該当する2つの前記代表ペアに対する前記組み合わせ特徴ベクトルに基づいて一方の前記代表ペアが正解であるか、他方の前記代表ペアが正解であるか、及び前記2つの代表ペアの何れも不正解であるかを判定するための大域分類器の分類モデルパラメータを学習する。
本発明に係る格解析装置は、解析対象のテキストに基づいて、述語と格要素候補とのペアの各々を抽出し、前記抽出された前記ペアの各々について、複数の特徴量を抽出して特徴ベクトルを作成する特徴ベクトル作成部と、前記述語と格要素候補とのペアの各々について、前記ペアの前記述語と格要素候補との位置関係が、予め定められた複数の位置関係のタイプの何れであるかを判定する位置タイプ判定部と、前記位置関係のタイプ毎に予め学習された、前記位置関係のタイプに該当する前記述語と格要素候補とのペアについての前記特徴ベクトルに基づいて前記述語に対し前記格要素候補が正解であるか否かを判定するための局所分類器の分類モデルパラメータに基づいて、前記述語と前記位置関係のタイプとの組み合わせの各々について、前記述語を有する前記ペアであって、かつ、前記位置関係のタイプに該当する前記述語と格要素候補とのペアのうち、前記位置関係のタイプについての前記局所分類器を用いて得られるスコアが最大となる前記ペアを代表ペアとして選択する局所順位判定部と、前記複数の位置関係のタイプのうちの2つの位置関係のタイプの組み合わせの各々について、前記述語毎に、前記組み合わせの一方の位置関係のタイプ及び前記述語に対する前記代表ペアについての前記特徴ベクトルと、前記組み合わせの一方の位置関係のタイプ及び前記述語に対する前記代表ペアについての前記特徴ベクトルとに基づく組み合わせ特徴ベクトルを作成し、前記位置関係のタイプの組み合わせ毎に予め学習された、前記位置関係のタイプの組み合わせに該当する2つの前記代表ペアに対する前記組み合わせ特徴ベクトルに基づいて一方の前記代表ペアが正解であるか、他方の前記代表ペアが正解であるか、及び前記2つの代表ペアの何れも不正解であるかを判定するための大域分類器の分類モデルパラメータと、前記作成した前記組み合わせ特徴ベクトルとに基づいて、前記代表ペアの各々について、前記代表ペアの正解らしさを示すスコアを計算する大域順位判定部と、を含んで構成されている。
本発明に係る格解析方法は、特徴ベクトル作成部によって、解析対象のテキストに基づいて、述語と格要素候補とのペアの各々を抽出し、前記抽出された前記ペアの各々について、複数の特徴量を抽出して特徴ベクトルを作成し、位置タイプ判定部によって、前記述語と格要素候補とのペアの各々について、前記ペアの前記述語と格要素候補との位置関係が、予め定められた複数の位置関係のタイプの何れであるかを判定し、局所順位判定部によって、前記位置関係のタイプ毎に予め学習された、前記位置関係のタイプに該当する前記述語と格要素候補とのペアについての前記特徴ベクトルに基づいて前記述語に対し前記格要素候補が正解であるか否かを判定するための局所分類器の分類モデルパラメータに基づいて、前記述語と前記位置関係のタイプとの組み合わせの各々について、前記述語を有する前記ペアであって、かつ、前記位置関係のタイプに該当する前記述語と格要素候補とのペアのうち、前記位置関係のタイプについての前記局所分類器を用いて得られるスコアが最大となる前記ペアを代表ペアとして選択し、大域順位判定部によって、前記複数の位置関係のタイプのうちの2つの位置関係のタイプの組み合わせの各々について、前記述語毎に、前記組み合わせの一方の位置関係のタイプ及び前記述語に対する前記代表ペアについての前記特徴ベクトルと、前記組み合わせの一方の位置関係のタイプ及び前記述語に対する前記代表ペアについての前記特徴ベクトルとに基づく組み合わせ特徴ベクトルを作成し、前記位置関係のタイプの組み合わせ毎に予め学習された、前記位置関係のタイプの組み合わせに該当する2つの前記代表ペアに対する前記組み合わせ特徴ベクトルに基づいて一方の前記代表ペアが正解であるか、他方の前記代表ペアが正解であるか、及び前記2つの代表ペアの何れも不正解であるかを判定するための大域分類器の分類モデルパラメータと、前記作成した前記組み合わせ特徴ベクトルとに基づいて、前記代表ペアの各々について、前記代表ペアの正解らしさを示すスコアを計算する。
本発明に係るプログラムは、上記の格解析モデルパラメータ学習装置又は格解析装置の各部としてコンピュータを機能させるためのプログラムである。
以上説明したように、本発明の格解析モデルパラメータ学習装置、方法、及びプログラムによれば、述語と位置関係のタイプとの組み合わせの各々について、位置関係のタイプについての局所分類器を用いて得られるスコアが最大となる、述語と格要素候補の代表ペアを選択し、2つの位置関係のタイプの組み合わせの各々について、2つの位置関係のタイプの代表ペアの特徴ベクトルに基づく組み合わせ特徴ベクトル、及び正解情報を用いた訓練データを作成し、位置関係のタイプの組み合わせに該当する2つの代表ペアに対する組み合わせ特徴ベクトルに基づいて一方の代表ペアが正解であるか、他方の代表ペアが正解であるか、及び2つの代表ペアの何れも不正解であるかを判定するための大域分類器の分類モデルパラメータを学習することにより、述語と格要素の位置タイプの各々に対応して、格解析を精度よく行うためのモデルパラメータを学習することができる、という効果が得られる。
また、本発明の格解析装置、方法、及びプログラムによれば、述語と位置関係のタイプとの組み合わせの各々について、位置関係のタイプについての局所分類器を用いて得られるスコアが最大となる、述語と格要素候補の代表ペアを選択し、2つの位置関係のタイプの組み合わせの各々について、2つの位置関係のタイプの代表ペアの特徴ベクトルに基づく組み合わせ特徴ベクトルを作成し、位置関係のタイプの組み合わせに該当する2つの代表ペアに対する組み合わせ特徴ベクトルに基づいて、大域分類器を用いて、一方の代表ペアが正解であるか、他方の代表ペアが正解であるか、及び2つの代表ペアの何れも不正解であるかを判定することにより、述語と格要素の位置タイプの各々に対応して、格解析を精度よく行うことができる、という効果が得られる。
解析対象テキストの一例を示す図である。 本発明の実施の形態に係る格解析装置の構成を示す概略図である。 訓練テキストコーパスの一例を示す図である。 本発明の実施の形態の格解析装置の格解析モデルパラメータ学習部の機能構成を示すブロック図である。 本発明の実施の形態の格解析装置における格解析モデルパラメータ学習処理ルーチンの内容を示すフローチャートである。 格要素候補であるか否かの判定結果を付与した例を示す図である。 述語と格要素候補とのペアの例を示す図である。 位置タイプの判定結果を付与した例を示す図である。 訓練テキストコーパスにおける正解情報の例を示す図である。 格フレームの例を示す図である。 代表ペアの例を示す図である。 真の答えのペアで上書きされた結果を示す図である。 代表ペアの各々に正解か否かを付与した例を示す図である。 代表ペアの二つ組に正解のラベルを付与した例を示す図である。 各大域分類モデルパラメータ学習のための訓練データの例を示す図である。 本発明の実施の形態の格解析装置の格解析部における機能構成を示すブロック図である。 本発明の実施の形態の格解析装置における格解析処理ルーチンの内容を示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明するが、本発明は下記の実施形態例に限定されるものではない。
図2は、本発明の実施の形態に係る格解析装置100の模式図の一例である。格解析装置100は、CPUと、RAMと、後述する格解析モデルパラメータ学習処理ルーチン、及び格解析処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には、格解析装置100は、入力部10と、演算部20と、出力部30と、を備えている。
入力部10は、訓練テキストコーパスの入力を受け付けると共に、解析対象のテキストの入力を受け付ける。
訓練テキストコーパスのテキスト、及び解析対象のテキストには、図3に示すように、当該テキストに含まれる形態素、それらの品詞(各単語の品詞情報)、所属文節番号(各単語がどの文節に含まれているかの情報)、所属文番号(各文節がどの文に含まれているかの情報)、所属文章番号(各文がどの文章に含まれている文であるかの情報)、各文節の係り先文節番号の情報が含まれている。これらの情報は、あらかじめテキストに付与しておいてもよいし、格解析装置100の中に、形態素解析器および係り受け解析器を持たせて、入力されたテキストに対し、形態素解析と係り受け解析を行い、情報を自動的に付与してもよい。
また、訓練テキストコーパスのテキスト、及び解析対象のテキストには、述語を構成する形態素が、当該テキスト中のどの部分にあるかの情報をも含まれている。この情報も、格解析装置の中に、述語特定器を持たせて、入力されたテキストに対し、述語部分を自動的に付与してもよい。
本実施の形態では、訓練テキストコーパスは、d1,...,ddmaxのdmax個の文章から構成され、各文章は1個以上の文から構成され、コーパス全体では、文s1,...,smaxのsmax個の文が存在している。
また、1つの文は、1個以上の文節から構成され、コーパス全体では、b1,...,bmaxの計bmax個の文節から構成される。また、各文節は他のどの文節に係っているか、係り受け関係の情報もコーパスに含まれているとする。
また、1つの文節は、1個以上の単語から構成され、コーパス全体では、t1,...,tmaxの計tmax個の単語から構成されているとする。
また、訓練テキストコーパスには、1個以上の述語が含まれているとし、コーパス全体では、p1,...,pmaxのpmax個の述語pが含まれており、各述語は、どの単語からどの単語までの単語列に相当するかの情報もコーパスに含まれており、また各述語を基本形にしたときの情報もコーパスに含まれているとする。
例えば、訓練テキストコーパスが図3に示すテキストだったとすると、
dmax=1、smax=3、bmax=14、tmax=39、pmax=5
である。
また、ここでは、述語が何であるかは、コーパス中であらかじめ与えられているとするが、述語が何であるかの情報が付与されていないコーパスについては、そのコーパスでの定義に基づいた解析器を用いて述語の範囲の単語がどれであるかを解析し、情報を付与することが可能である。この例では、動詞、形容詞、基本形が、名詞+スル、名詞+ダであるものを述語とする。ただし、動詞や形容詞で、非自立語であるものは、述語ではないとした。
また、訓練テキストコーパスには、述語と当該述語に対する必須格の格要素との正解ペアが付与されている。
演算部20は、格解析モデルパラメータ学習部21、及び格解析部22を備えている。
図4は、格解析モデルパラメータ学習部21の原理的システム構成を示すブロック図である。
格解析モデルパラメータ学習部21は、特徴ベクトル作成部211、位置タイプ判定部212、局所分類学習部213、局所順位判定部214、及び大域分類学習部215を有する。
以下、図4に示すシステムの原理的動作を図5に示す格解析モデルパラメータ学習処理ルーチンを参照して説明する。
まず、ステップ101で、格解析モデルパラメータ学習部21は、入力された訓練テキストコーパスから述語と格要素候補のペアを作成するために、特徴ベクトル作成部211が、訓練テキストコーパスを読み込み、訓練テキストコーパス中の各単語について、格要素候補であるか否かを判定する。
例えば、品詞が名詞であるものを格要素候補とするが、訓練テキストコーパス中の格要素の正解の品詞に記号など名詞以外のものが含まれている場合は、訓練テキストコーパスあるいはそれ以外のテキストコーパスを利用して、解析モデルが学習された格要素候補判定器を用いて格要素候補であるか否かを判定してもよい。ここでは、格要素候補判定の結果、図6のように判定されたとする。ここで、○で示された単語が、格要素候補として判定されたとする。次に、述語と格要素候補のペアを作成する。基本的には、各述語に対して、その述語を含む文章に含まれる格要素候補をペアとするが、述語を含む文より後の文で正解の格要素候補を含む頻度は低いため、計算量を減らすために、対象とする格要素候補を、述語を含む文章の中で、1文目から述語を含む文までに含まれる格要素候補をペアの対象とすることが実際上は多く、本実施の形態の例でもそのようなペアのみを対象とする。その結果、図7のような、述語と格要素候補の単語とのペアが得られたとする。
次に、ステップ102において、位置タイプ判定部212は、上記ステップ101で作成された述語と格要素候補の各ペアに対して、述語の属す文節の番号、および格要素の候補の属す文節の番号とそれらの文節の間の係り受けの情報から、位置タイプが、DEPタイプ、SAME_BSタイプ、INTRA_Zタイプ、INTER_Zタイプ、及びEXOタイプの何れであるかを判定し、図8のような結果を得る。
次に、ステップ103において、特徴ベクトル作成部211は、上記ステップ101で作成された述語と格要素候補の各ペアに対して、特徴ベクトルの作成を行う。まず、上記ステップ101で作成されたそれぞれの述語と格要素候補のペアから、特徴量を抽出する。抽出する特徴量をu1,...,uumaxのumax個の特徴量としたとき、述語pと格要素候補tとのペア(p,t)1つに対して1つの特徴ベクトルv(p,t)=(uv,1,uv,2,...,uv,umax)を作成する。
ここで、特徴量uは、上記の非特許文献4中で述べられているような、単語、品詞、修飾関係の出現有無など、多様な特徴量を使用することができる。
次に、ステップ104において、局所分類学習部213は、上記ステップ102での位置タイプの判定結果、及び上記ステップ103で作成された特徴ベクトルに基づいて、必須格の種類及び位置タイプの組み合わせごとに局所分類モデルを学習し、局所分類モデルパラメータを格解析部22に出力する。ここで、述語毎の格解析の正解情報が、訓練テキストコーパスの中で、図9のように与えられているとする。
このとき、ガ格のDEPタイプの局所分類モデル(Φga,DEP)は、図8において、位置タイプがDEPであった、述語と格要素候補のペアの特徴ベクトルと、当該ペアが正解か否かとを訓練データとして、機械学習によって得られる。このとき、当該ペアが正解か否かについては、正例であるか負例であるかを表す変数をy とし、正例のときy=1、負例のときy=-1を与えるとする。位置タイプがDEPであった、述語と格要素候補のペアのうち、ガ格の格要素候補の正解になっているデータは、(p2,t1)であるので、このペアに対してはy=1を与え、それ以外のペアに関してはy=-1を与える。
このように、ガ格について、位置タイプ別に訓練データセットをそれぞれ作成し、訓練データセット中の述語と格要素候補のペア(p,t)に対する特徴量ベクトルおよびy の値を使用して、それぞれ局所分類の学習を行い、局所分類モデルパラメータΦga,DEP、Φga,SAME_BS、Φga,INTRA_Z、Φga,INTER_Zを得る。ガ格以外の、ヲ格など、他の必須格の種類についても、同様に訓練データセットを作成し、Φwo,DEP、Φwo,SAME_BS、Φwo,INTRA_Z、Φwo,INTER_Zなどの局所分類モデルの学習を行う。なお本実施の形態で学習される一つの局所分類モデルパラメータをΦlとすると、例えば、実施の形態での局所分類モデルが、以下の(1)式で示すような、bを切片、xiを特徴量uiの値、wiを特徴量iに対する重みとする線形モデルの場合には、具体的には、Φl=(b,w1,w2,...,wumax)として表すことができる。
y=f(x)=b+Σi=1 umax (1)
なお、使用される局所分類モデルf(x)の形は、線形モデルでなくてもよく、f(x)が、特徴量ベクトルxに対し、値が大きいほど、格要素候補が正解である可能性が高く、値が小さいほど格要素候補の正解である可能性が低いことを表すスコアとして使えるものであり、計算コストに問題がなければ、どのような関数の形でもよい。
本実施の形態では、用いる機械学習手法は、対数線形回帰とするが、SVMなど2値分類が学習でき、xが与えられたときf(x)の値が計算でき、計算コストに問題がなければ、どのような学習手法を使ってもよい。
次に、ステップ105において、局所順位判定部214は、大域分類モデル学習のための訓練データの作成の準備として、上記ステップ102における位置タイプの判定結果、上記ステップ103で作成された特徴ベクトル、及び上記ステップ104で学習された局所分類モデルパラメータに基づいて、述語、必須格の種類、及び位置タイプの組み合わせ毎に、当該組み合わせに該当する述語と格要素候補のペアの中から、代表ペアを選択する。代表ペアについては、述語、必須格の種類、及び位置タイプの組み合わせが同じものの中で局所分類モデルの分類器のスコアが最も高くなる、述語と格要素候補のペアを代表ペアとする。ただし、述語と格要素候補のペアで、正解情報に基づいて真の格要素の答えとなっているペアがある場合はそのペアを代表ペアとする。
例えば、述語p2に対して、位置タイプがDEPである述語と格要素候補のペアは(p2,t1)、(p2,t3)、(p2,t5)、(p2,t6)、(p2,t9)の5組あるが、これらのペアに対応した特徴ベクトルxに対する局所分類モデルのスコアf(Φga,DEP;x)で最大のスコアを取るペアが、(p2,t1)だったとすると、この(p2,t1)を、ガ格で位置タイプがDEPの場合の、述語p2に対する代表ペアとする。ただし、述語「交渉する」「買う」「作る」「する」「感謝する」の格フレームは、図10のように与えられているとする。なお、「格要素の意味カテゴリ」は格要素に入る体言が属す意味カテゴリであり、human(人間)、organization(組織)、abstract(抽象物)、concrete(具体物)、location(場所)などを想定している。またany(すべて)は、どの意味カテゴリでもあてはまることを示す。本実施の形態では、この与えられた格フレームで、述語に対して、どの格が必須格であるか、の情報を取得し、必須格となっている格の場合のみ、代表ペアを選択する。また、もともと訓練テキストコーパス中であてはまるペアがなかった場合は「-」(空欄)とする。
このように訓練テキストコーパスから、必須格の種類、位置タイプ、および述語の組み合わせの各々に対して、代表ペアを求め、その結果、図11のようになったとする。
次に、上記図11のように選択された代表ペアについて、訓練テキストコーパスに含まれる正解情報に基づいて、必須格の種類、位置タイプ、および述語の組み合わせに対し、真の答えのペアがあるが、上記図11では異なるペアが選択されている場合、真の答えのペアで上書きする。上記図9の訓練テキストコーパスにおける正解情報より、
ガ格、DEPタイプについては(p2,t1)、
ガ格、INTRA_Zタイプについては(p1,t1)、(p3,t1)、
ガ格、INTER_Zタイプについては(p4,t1)、
ヲ格、DEPタイプについては(p2,t9)、(p3,t13)、(p4,t24)、
ニ格、DEPタイプについては(p5,t32)、が真の答えになっており、これらの中で、上記図11の代表ペアと異なる、ガ格、INTER_Zタイプ、及び述語p4に対する代表ペアのセルについて、ガ格、INTER_Zタイプ、述語p4に対する真の答えのペア(p4,t1)で上書きする。その結果、上記図12の代表ペアの表が得られる。
次に、ステップ106で、大域分類学習部215は、上記ステップ103で作成された特徴ベクトル、及び上記ステップ105で選出された代表ペアに基づいて、大域分類モデル学習のための訓練データの作成を行う。図12の代表ペアの表に対し、これらの述語と格要素のペアが、真の正解の述語と格要素のペアになっている箇所に「正解」、そうでないところに「不正解」の情報を書き込む。その結果、図13のような表が得られる。
次に、各必須格の種類と述語の組合せに対し、位置タイプの二つの組合せに対応する代表ペアの組合せで、組合せが存在するものに対し、左側の代表ペアが正解の場合はLEFT、右側の代表ペアが正解の場合はRIGHT、両方の代表ペアが不正解の場合は、OTHERというラベルをつけて表を作成する。その結果、図14のような表が得られる。
次に、ここまでに得られた、代表ペアの二つ組みと正解代表ペアのラベルに基づいて、必須格の種類と位置タイプの二つ組との組合せごとにLEFT、RIGHT、OTHERの3クラス分類の分類器を作成するための、訓練データを作成する。例えば、必須格の種類及び位置タイプの二つ組の組合せごとに、図15のような訓練データの集合を作り、訓練データ毎に、代表ペアの組合せに対し、代表ペアに対応する特徴ベクトルを2つ並べた組み合わせ特徴ベクトルを作成すると共に、LEFT、RIGHT、及びOTHERの何れかのラベルを与える。
例えば、述語paと格要素候補tbとのペア(pa,tb)に対する特徴ベクトルをvb(pa,tb)=(uvb,1,uvb,2,...,uvb,umax)、述語paと格要素候補tcとのペア(pa,tc)に対する特徴ベクトルをvc(pa,tc)=(uvc,1,uvc,2,...,uvc,umax)としたとき、代表ペア(pa,tb)と代表ペア(pa,tc)の二つの組合せに対応する特徴ベクトルとして、(uvb,1,uvb,2,...,uvb,umax,uvc,1,uvc,2,...,uvc,umax)という内容の組み合わせ特徴ベクトルを作成する。このようにして、大域分類モデル学習のための訓練データを作成する。
次に、ステップ107において、上記ステップ106で作成した訓練データに基づいて、対数線形回帰あるいはサポートベクタマシンなどの機械学習器を用いて、LEFT、RIGHT、OTHERの3クラス分類を行う大域分類モデルの学習を行い、必須格の種類別に、位置タイプの二つ組の各組み合わせの大域分類モデルパラメータ、ΦDEP,SAME_BS、ΦDEP,INTRA_Z、ΦDEP,INTER_Z、ΦSAME_BS,INTRA_Z、ΦSAME_BS,INTER_Z、ΦINTRA_Z,INTER_Z、を得る。そして、ステップ108において、上記ステップ107で学習された大域分類モデルパラメータを、格解析部22に出力する。
次に、格解析部22について本発明の実施の形態を説明する。図16は、本発明の格解析部22の原理的システム構成を示すブロック図である。
格解析部22は、機能的には、分類モデルパラメータ記憶部221、特徴ベクトル作成部222、位置タイプ判定部223、局所順位判定部224、及び大域順位判定部225を有する。
以下、図16に示すシステムの原理的動作を図17に示す格解析処理ルーチンを参照して説明する。
まず、ステップ200において、格解析部22は、格解析モデルパラメータ学習部21から入力された、局所分類モデルパラメータおよび、大域分類モデルパラメータを読み込み、分類モデルパラメータ記憶部221に記憶する。次に、ステップ201において、特徴ベクトル作成部222は、入力された解析対象テキスト中の述語と格要素候補のペアを作成する。具体的には、格解析モデルパラメータ学習部21のステップ101と同様にして、述語と格要素候補のペアを作成する。
次に、ステップ202において、位置タイプ判定部223は、上記ステップ201で作成した述語と格要素候補のペアの各々に対して、位置タイプの判定を行う。具体的には、格解析モデルパラメータ学習部21のステップ102と同様にして、述語と格要素候補のペアに対する位置タイプの判定を行う。
次に、ステップ203において、特徴ベクトル作成部222は、上記ステップ201で作成した述語と格要素候補のペアの各々に対して、特徴ベクトルの作成を行う。具体的には、格解析モデルパラメータ学習部21のステップ103と同様にして、述語と格要素候補のペアに対する特徴ベクトルの作成を行う。
次に、ステップ205において、局所順位判定部224は、上記ステップ202で判定された位置タイプ、及び上記ステップ203で作成した特徴ベクトルに基づいて、述語と格要素候補のペアの各々に対して、4つの局所分類器、すなわちΦDEP、ΦSAME BS、ΦINTRA Z、ΦINTER Zをモデルパラメータとする4つの局所分類器のうち、述語と格要素候補のペアの位置タイプに当てはまる局所分類器を適用し、スコアを算出する。そして、局所順位判定部224は、各述語に対し、必須格の種類及び位置タイプの組み合わせ毎に、最も高いスコアをとる格要素候補と当該述語とのペアを求め、代表ペアとする。次に、ステップ206において、大域順位判定部225は、上記ステップ303で作成された特徴ベクトル、及び上記ステップ205で選出された代表ペアに基づいて、格解析モデルパラメータ学習部21のステップ106で大域分類モデル学習のための訓練データを作成したのと同様に、大域分類モデルでテストするためのテスト用データを作成する。ただし、テスト用データでは、何が格解析の答えであるかについての情報は付与されていないため、真の答えの述語と格要素の組による代表ペアの上書きは行わない。また、LEFT、RIGHT、OTHERの付与も行わない。
次に、ステップ207において、大域順位判定部225は、上記ステップ206で作成されたテスト用データの各々に対して、6つの大域分類器、すなわち、ΦDEP,SAME BS、ΦDEP,INTRA Z、ΦDEP,INTER Z、ΦSAME BS,INTRA Z、ΦSAME BS,INTER Z、ΦINTRA Z,INTER Zのモデルパラメータに基づく大域分類器のうちの、当該テスト用データに対応する代表ペアの2つの組の位置タイプの組み合わせに対応した大域分類器を適用し、LEFTの分類結果が得られた場合は、左の代表ペアに対するスコアを+1し、右の代表ペアに対するスコアを-1する。RIGHTの分類結果が得られた場合は、右の代表ペアに対するスコアを+1し、左の代表ペアに対するスコアを-1し、OTHERの分類結果が得られた場合は、左の代表ペア、右の代表ペアともにスコアを-1し、述語及び必須格の種類の組み合わせ毎に、上記の分類結果に基づいたスコアの集計を行う。
次に、ステップ208において、格解析部22は、解析対象テキスト中の各述語について、当該述語に対する必須格の種類毎に、当該述語に対する必須格の種類に該当する代表ペアのうち、上記のように得られたスコアで最も高いスコアが得られた代表ペアの、述語と格要素候補のペアを、システムの答えとして出力する。ただし、述語について、最も高いスコアが、0以下であった場合は、DEPタイプ、SAME_BSタイプ、INTRA_Zタイプ、及びINTER_Zタイプのいずれの位置タイプの代表ペアも答えとして適さなかったとして、EXOタイプとして判定して出力して、動作を終了する。
以上説明したように、本発明の実施の形態の格解析装置の格解析モデルパラメータ学習部によれば、述語と必須格の種類と位置タイプとの組み合わせの各々について、当該位置タイプについての局所分類器を用いて得られるスコアが最大となる、述語と格要素候補との代表ペアを選出し、位置タイプの二つ組の各々について、当該二つ組の位置タイプの各々の代表ペアの特徴ベクトルに基づく組み合わせ特徴ベクトル、及び正解情報を用いた訓練データを作成し、位置タイプの二つ組に該当する2つの代表ペアに対する組み合わせ特徴ベクトルに基づいて、一方の代表ペアが正解であるか、他方の代表ペアが正解であるか、及び2つの代表ペアの何れも不正解であるかを判定するための大域分類器の分類モデルパラメータを学習することにより、述語と格要素との位置タイプの各々に対応して、格解析を精度よく行うためのモデルパラメータを学習することができる。
また、本発明の実施の形態の格解析装置によれば、述語と必須格の種類と位置タイプとの組み合わせの各々について、当該位置タイプについての局所分類器を用いて得られるスコアが最大となる、述語と格要素候補の代表ペアを選出し、位置タイプの二つ組の各々について、2つの位置タイプの代表ペアの特徴ベクトルに基づく組み合わせ特徴ベクトルを作成し、位置タイプの二つ組に該当する2つの代表ペアに対する組み合わせ特徴ベクトルに基づいて、大域分類器を用いて、一方の代表ペアが正解であるか、他方の代表ペアが正解であるか、及び2つの代表ペアの何れも不正解であるかを判定することにより、述語と格要素の位置タイプの各々に対応して、格解析を精度よく行うことができる。
また、格解析モデルパラメータ学習部により獲得された局所分類モデルパラメータおよび、大域分類モデルパラメータを用いて格解析を行うため、メモリの消費量を抑制しつつ、DEPタイプ、SAME_BSタイプ、INTRA_Zタイプ、INTER_Zタイプだけでなく、EXOタイプというすべての位置タイプに対し、格解析を行うことができる。
また、同一文節中にある格要素候補や同一テキスト中に格要素がない場合も考慮でき、格要素候補の位置タイプに関わらず、メモリ消費量を抑制しつつ、精度よく格解析を行うことができる。
なお、上記の実施の形態では、格解析モデルパラメータ学習部を備えた格解析装置について説明したが、格解析モデルパラメータ学習部を備えた装置と、格解析モデルパラメータ学習部を備えない格解析装置とを別々に構成してもよい。この場合、格解析モデルパラメータ学習装置で獲得された局所分類モデルパラメータおよび大域分類モデルパラメータを、ネットワーク等を介して、格解析装置の分類モデルパラメータ記憶部に記憶するようにするとよい。また、格解析モデルパラメータ学習装置に分類モデルパラメータ記憶部を設けて、獲得した局所分類モデルパラメータおよび、大域分類モデルパラメータを記憶しておき、格解析装置から、ネットワーク等を介して、分類モデルパラメータ記憶部に記憶された局所分類モデルパラメータおよび、大域分類モデルパラメータを読み出すようにしてもよい。
また、上述の格解析装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」はWWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムをコンピュータ読み取り可能な記憶媒体に格納して提供することも可能である。
10 入力部
20 演算部
21 格解析モデルパラメータ学習部
22 格解析部
30 出力部
100 格解析装置
211 特徴ベクトル作成部
212 位置タイプ判定部
213 局所分類学習部
214 局所順位判定部
215 大域分類学習部
221 分類モデルパラメータ記憶部
222 特徴ベクトル作成部
223 位置タイプ判定部
224 局所順位判定部
225 大域順位判定部

Claims (7)

  1. テキスト中に含まれる述語と前記述語に対する必須格の格要素とのペアの正解情報が予め付与された訓練テキストに基づいて、述語と格要素候補とのペアの各々を抽出し、前記抽出された前記ペアの各々について、複数の特徴量を抽出して特徴ベクトルを作成する特徴ベクトル作成部と、
    前記述語と格要素候補とのペアの各々について、前記ペアの前記述語と格要素候補との位置関係が、予め定められた複数の位置関係のタイプの何れであるかを判定する位置タイプ判定部と、
    前記複数の位置関係のタイプの各々について、前記位置関係のタイプであると判定された前記述語と格要素候補とのペアの各々について作成された前記特徴ベクトル、及び前記正解情報に基づいて、前記位置関係のタイプに該当する前記述語と格要素候補とのペアについての前記特徴ベクトルに基づいて前記述語に対し前記格要素候補が正解であるか否かを判定するための局所分類器の分類モデルパラメータを学習する局所分類学習部と、
    前記述語と前記位置関係のタイプとの組み合わせの各々について、前記述語を有する前記ペアであって、かつ、前記位置関係のタイプに該当する前記述語と格要素候補とのペアのうち、前記位置関係のタイプについての局所分類器を用いて得られるスコアが最大となる前記ペアを代表ペアとして選択し、前記述語を有する前記ペアであって、かつ、前記位置関係のタイプに該当する前記述語と格要素候補とのペアのうち、前記正解情報の前記ペアがある場合には、前記ペアを代表ペアとする局所順位判定部と、
    前記複数の位置関係のタイプのうちの2つの位置関係のタイプの組み合わせの各々について、前記述語毎に、前記組み合わせの一方の位置関係のタイプ及び前記述語に対する前記代表ペアについての前記特徴ベクトルと、前記組み合わせの他方の位置関係のタイプ及び前記述語に対する前記代表ペアについての前記特徴ベクトルとに基づく組み合わせ特徴ベクトル、及び前記代表ペアについての前記正解情報を用いた訓練データを作成し、前記述語毎に作成した前記訓練データに基づいて、前記位置関係のタイプの組み合わせに該当する2つの前記代表ペアに対する前記組み合わせ特徴ベクトルに基づいて一方の前記代表ペアが正解であるか、他方の前記代表ペアが正解であるか、及び前記2つの代表ペアの何れも不正解であるかを判定するための大域分類器の分類モデルパラメータを学習する大域分類学習部と、
    を含む格解析モデルパラメータ学習装置。
  2. 前記予め定められた複数の位置関係のタイプは、述語と格要素が同一文内にあり、かつ、述語と格要素の間に係り受け関係があるDEPタイプ、述語と格要素が同一文内にあり、かつ同一文節内にあるSAME_BSタイプ、述語と格要素が同一文内にあり、かつ、述語と格要素が係り受け関係にないINTRA_Zタイプ、述語と格要素が同一テキスト中の異なる文内にあるINTER_Zタイプ、及び格要素が述語と同一テキスト中に存在しないEXOタイプであり、
    前記大域分類学習部は、前記DEPタイプ、前記SAME_BSタイプ、前記INTRA_Zタイプ、及びINTER_Zタイプのうちの2つの位置関係のタイプの組み合わせの各々について、前記大域分類器の分類モデルパラメータを学習する請求項1記載の格解析モデルパラメータ学習装置。
  3. 解析対象のテキストに基づいて、述語と格要素候補とのペアの各々を抽出し、前記抽出された前記ペアの各々について、複数の特徴量を抽出して特徴ベクトルを作成する特徴ベクトル作成部と、
    前記述語と格要素候補とのペアの各々について、前記ペアの前記述語と格要素候補との位置関係が、予め定められた複数の位置関係のタイプの何れであるかを判定する位置タイプ判定部と、
    前記位置関係のタイプ毎に予め学習された、前記位置関係のタイプに該当する前記述語と格要素候補とのペアについての前記特徴ベクトルに基づいて前記述語に対し前記格要素候補が正解であるか否かを判定するための局所分類器の分類モデルパラメータに基づいて、前記述語と前記位置関係のタイプとの組み合わせの各々について、前記述語を有する前記ペアであって、かつ、前記位置関係のタイプに該当する前記述語と格要素候補とのペアのうち、前記位置関係のタイプについての前記局所分類器を用いて得られるスコアが最大となる前記ペアを代表ペアとして選択する局所順位判定部と、
    前記複数の位置関係のタイプのうちの2つの位置関係のタイプの組み合わせの各々について、前記述語毎に、前記組み合わせの一方の位置関係のタイプ及び前記述語に対する前記代表ペアについての前記特徴ベクトルと、前記組み合わせの一方の位置関係のタイプ及び前記述語に対する前記代表ペアについての前記特徴ベクトルとに基づく組み合わせ特徴ベクトルを作成し、前記位置関係のタイプの組み合わせ毎に予め学習された、前記位置関係のタイプの組み合わせに該当する2つの前記代表ペアに対する前記組み合わせ特徴ベクトルに基づいて一方の前記代表ペアが正解であるか、他方の前記代表ペアが正解であるか、及び前記2つの代表ペアの何れも不正解であるかを判定するための大域分類器の分類モデルパラメータと、前記作成した前記組み合わせ特徴ベクトルとに基づいて、前記代表ペアの各々について、前記代表ペアの正解らしさを示すスコアを計算する大域順位判定部と、
    を含む格解析装置。
  4. 前記予め定められた複数の位置関係のタイプは、述語と格要素が同一文内にあり、かつ、述語と格要素の間に係り受け関係があるDEPタイプ、述語と格要素が同一文内にあり、かつ同一文節内にあるSAME_BSタイプ、述語と格要素が同一文内にあり、かつ、述語と格要素が係り受け関係にないINTRA_Zタイプ、述語と格要素が同一テキスト中の異なる文内にあるINTER_Zタイプ、及び格要素が述語と同一テキスト中に存在しないEXOタイプであり、
    前記大域順位判定部は、前記DEPタイプ、前記SAME_BSタイプ、前記INTRA_Zタイプ、及びINTER_Zタイプのうちの2つの位置関係のタイプの組み合わせの各々について、前記述語毎に、前記組み合わせ特徴ベクトルを作成し、前記2つの位置関係のタイプの組み合わせ毎に予め学習された前記大域分類器の分類モデルパラメータと、前記作成した前記組み合わせ特徴ベクトルとに基づいて、前記代表ペアの各々について、前記スコアを計算する請求項3載の格解析装置。
  5. 特徴ベクトル作成部によって、テキスト中に含まれる述語と前記述語に対する必須格の格要素とのペアの正解情報が予め付与された訓練テキストに基づいて、述語と格要素候補とのペアの各々を抽出し、前記抽出された前記ペアの各々について、複数の特徴量を抽出して特徴ベクトルを作成し、
    位置タイプ判定部によって、前記述語と格要素候補とのペアの各々について、前記ペアの前記述語と格要素候補との位置関係が、予め定められた複数の位置関係のタイプの何れであるかを判定し、
    局所分類学習部によって、前記複数の位置関係のタイプの各々について、前記位置関係のタイプであると判定された前記述語と格要素候補とのペアの各々について作成された前記特徴ベクトル、及び前記正解情報に基づいて、前記位置関係のタイプに該当する前記述語と格要素候補とのペアについての前記特徴ベクトルに基づいて前記述語に対し前記格要素候補が正解であるか否かを判定するための局所分類器の分類モデルパラメータを学習し、
    局所順位判定部によって、前記述語と前記位置関係のタイプとの組み合わせの各々について、前記述語を有する前記ペアであって、かつ、前記位置関係のタイプに該当する前記述語と格要素候補とのペアのうち、前記位置関係のタイプについての局所分類器を用いて得られるスコアが最大となる前記ペアを代表ペアとして選択し、前記述語を有する前記ペアであって、かつ、前記位置関係のタイプに該当する前記述語と格要素候補とのペアのうち、前記正解情報の前記ペアがある場合には、前記ペアを代表ペアとし、
    大域分類学習部によって、前記複数の位置関係のタイプのうちの2つの位置関係のタイプの組み合わせの各々について、前記述語毎に、前記組み合わせの一方の位置関係のタイプ及び前記述語に対する前記代表ペアについての前記特徴ベクトルと、前記組み合わせの他方の位置関係のタイプ及び前記述語に対する前記代表ペアについての前記特徴ベクトルとに基づく組み合わせ特徴ベクトル、及び前記代表ペアについての前記正解情報を用いた訓練データを作成し、前記述語毎に作成した前記訓練データに基づいて、前記位置関係のタイプの組み合わせに該当する2つの前記代表ペアに対する前記組み合わせ特徴ベクトルに基づいて一方の前記代表ペアが正解であるか、他方の前記代表ペアが正解であるか、及び前記2つの代表ペアの何れも不正解であるかを判定するための大域分類器の分類モデルパラメータを学習する
    格解析モデルパラメータ学習方法。
  6. 特徴ベクトル作成部によって、解析対象のテキストに基づいて、述語と格要素候補とのペアの各々を抽出し、前記抽出された前記ペアの各々について、複数の特徴量を抽出して特徴ベクトルを作成し、
    位置タイプ判定部によって、前記述語と格要素候補とのペアの各々について、前記ペアの前記述語と格要素候補との位置関係が、予め定められた複数の位置関係のタイプの何れであるかを判定し、
    局所順位判定部によって、前記位置関係のタイプ毎に予め学習された、前記位置関係のタイプに該当する前記述語と格要素候補とのペアについての前記特徴ベクトルに基づいて前記述語に対し前記格要素候補が正解であるか否かを判定するための局所分類器の分類モデルパラメータに基づいて、前記述語と前記位置関係のタイプとの組み合わせの各々について、前記述語を有する前記ペアであって、かつ、前記位置関係のタイプに該当する前記述語と格要素候補とのペアのうち、前記位置関係のタイプについての前記局所分類器を用いて得られるスコアが最大となる前記ペアを代表ペアとして選択し、
    大域順位判定部によって、前記複数の位置関係のタイプのうちの2つの位置関係のタイプの組み合わせの各々について、前記述語毎に、前記組み合わせの一方の位置関係のタイプ及び前記述語に対する前記代表ペアについての前記特徴ベクトルと、前記組み合わせの一方の位置関係のタイプ及び前記述語に対する前記代表ペアについての前記特徴ベクトルとに基づく組み合わせ特徴ベクトルを作成し、前記位置関係のタイプの組み合わせ毎に予め学習された、前記位置関係のタイプの組み合わせに該当する2つの前記代表ペアに対する前記組み合わせ特徴ベクトルに基づいて一方の前記代表ペアが正解であるか、他方の前記代表ペアが正解であるか、及び前記2つの代表ペアの何れも不正解であるかを判定するための大域分類器の分類モデルパラメータと、前記作成した前記組み合わせ特徴ベクトルとに基づいて、前記代表ペアの各々について、前記代表ペアの正解らしさを示すスコアを計算する
    格解析方法。
  7. コンピュータを、請求項1又は2記載の格解析モデルパラメータ学習装置又は請求項3又は4記載の格解析装置の各部として機能させるためのプログラム。
JP2013094695A 2013-04-26 2013-04-26 格解析モデルパラメータ学習装置、格解析装置、方法、及びプログラム Active JP5823441B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013094695A JP5823441B2 (ja) 2013-04-26 2013-04-26 格解析モデルパラメータ学習装置、格解析装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013094695A JP5823441B2 (ja) 2013-04-26 2013-04-26 格解析モデルパラメータ学習装置、格解析装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2014215920A JP2014215920A (ja) 2014-11-17
JP5823441B2 true JP5823441B2 (ja) 2015-11-25

Family

ID=51941594

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013094695A Active JP5823441B2 (ja) 2013-04-26 2013-04-26 格解析モデルパラメータ学習装置、格解析装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5823441B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110196981B (zh) * 2019-06-11 2023-07-25 百度在线网络技术(北京)有限公司 文本表示方法、装置、设备和存储介质
CN113157880B (zh) * 2021-03-25 2023-01-17 科大讯飞股份有限公司 一种要素内容获取方法、装置、设备及存储介质
CN115048425A (zh) * 2022-06-09 2022-09-13 深圳计算科学研究院 一种基于强化学习的数据筛选方法及其装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04289969A (ja) * 1991-03-18 1992-10-14 Csk Corp 日本語構文解析システム
JP5220676B2 (ja) * 2008-11-20 2013-06-26 ヤフー株式会社 能動学習装置及び方法
JP5225219B2 (ja) * 2009-06-30 2013-07-03 日本電信電話株式会社 述語項構造解析方法、その装置及びプログラム
JP5564705B2 (ja) * 2010-07-16 2014-08-06 株式会社日立製作所 文構造解析装置、文構造解析方法および文構造解析プログラム
JP2013011985A (ja) * 2011-06-28 2013-01-17 Nippon Telegr & Teleph Corp <Ntt> 解析モデル学習装置、方法、及びプログラム

Also Published As

Publication number Publication date
JP2014215920A (ja) 2014-11-17

Similar Documents

Publication Publication Date Title
Amin et al. Bengali vader: A sentiment analysis approach using modified vader
Xu et al. Optimizing statistical machine translation for text simplification
JP5356197B2 (ja) 単語意味関係抽出装置
KR101799681B1 (ko) 어휘 의미망 및 단어 임베딩을 이용한 동형이의어 분별 장치 및 방법
Kriz et al. Simplification using paraphrases and context-based lexical substitution
US11593557B2 (en) Domain-specific grammar correction system, server and method for academic text
Hiai et al. A sarcasm extraction method based on patterns of evaluation expressions
CN110309513B (zh) 一种文本依存分析的方法和装置
Reshadat et al. A new open information extraction system using sentence difficulty estimation
JP5823441B2 (ja) 格解析モデルパラメータ学習装置、格解析装置、方法、及びプログラム
Fujihira et al. Multilingual sentiment analysis for web text based on word to word translation
JP2005208782A (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP2012220666A (ja) 読解問題回答装置、方法、及びプログラム
Rauf et al. Automated grammatical error correction: A comprehensive review
Manjula Identification of languages from the text document using natural language processing system
Leng et al. Analysis and research on lexical errors in machine translation in Chinese and Korean translation
Azhar et al. Roman urdu sentiment analysis using pre-trained distilbert and xlnet
Kaur et al. Prediction of sentiment from macaronic reviews
JP2018010481A (ja) 深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラム
Shaheer et al. Evaluating Question generation models using QA systems and Semantic Textual Similarity
Nishy Reshmi et al. Textual entailment classification using syntactic structures and semantic relations
Navoda et al. Automated spelling and grammar checker tool for sinhala
Huszár Multilingual prompt engineering via large language models: an approach to sentiment analysis
Agarwal et al. Gradient Boosted Trees for Identification of Complex Words in Context.
Kolappan Computer Assisted Short Answer Grading with Rubrics using Active Learning

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150325

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150331

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150529

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150908

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151007

R150 Certificate of patent or registration of utility model

Ref document number: 5823441

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150