JP5755698B2 - 述語項構造解析方法、モデル学習方法、装置、及びプログラム - Google Patents

述語項構造解析方法、モデル学習方法、装置、及びプログラム Download PDF

Info

Publication number
JP5755698B2
JP5755698B2 JP2013186407A JP2013186407A JP5755698B2 JP 5755698 B2 JP5755698 B2 JP 5755698B2 JP 2013186407 A JP2013186407 A JP 2013186407A JP 2013186407 A JP2013186407 A JP 2013186407A JP 5755698 B2 JP5755698 B2 JP 5755698B2
Authority
JP
Japan
Prior art keywords
case
noun phrase
predicate
word
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013186407A
Other languages
English (en)
Other versions
JP2015052992A (ja
Inventor
今村 賢治
賢治 今村
東中 竜一郎
竜一郎 東中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013186407A priority Critical patent/JP5755698B2/ja
Publication of JP2015052992A publication Critical patent/JP2015052992A/ja
Application granted granted Critical
Publication of JP5755698B2 publication Critical patent/JP5755698B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Description

本発明は、述語項構造解析方法、モデル学習方法、装置、及びプログラムに関し、特に述語の項を同定するための述語項構造解析方法、モデル学習方法、装置、及びプログラムに関する。
日本語の文や対話では、1つの文の中の要素(名詞句)が省略されることがある。この、省略された要素をゼロ代名詞と呼ぶ。たとえば、表1は、2名の対話の一部である。
上記表1の(例文2)「コツがわかると弾けるようになります。」だけを見た場合、誰が何を弾けるようになるのか、不明である。(例文1)と発話者まで見ると、これは、(例文2)は本来「コツがわかるとあなたがピアノを弾けるようになります」であるべき文のうち、述語「弾ける」のガ格とヲ格がゼロ代名詞化されているために起こった現象である。
このように、日本語では省略された格を発見し、その要素を補完しなければ、文の意味を適切にとらえることができない。
従来、ゼロ代名詞化を発見する方法として、格フレームを用いる方法(例えば、非特許文献1を参照。)がある。格フレームとは、各動詞や形容詞に対して、取りうる格と、その名詞句の意味素性が付与されたデータである。格フレームの例を表2に示す。
また、上記非特許文献1の構成を、図8に示す。解析対象文は、まず形態素解析を行い、単語に分割するとともに、品詞を付与する。また、形態素解析結果を係り受け解析し、文の文節係り受け構造を得る。
次に、文の文節を基に、述語を同定する。通常は、文節中の動詞、形容詞、形容動詞が述語となる。(例文2)では、「わかる」と「弾ける」が述語である。
次に、文節係り受け結果を基に、項となる名詞句の候補を抽出する。通常、名詞、代名詞、名詞接尾辞など、名詞性の品詞が連続する形態素列(単語列)が名詞句となる。
格フレームマッチでは、まず、述語をキーに格フレーム辞書を参照し、格フレームを得る。例えば、上記図8の格フレーム辞書を用いた場合、述語「わかる」はガ格が必要であり、その意味素性は抽象物である。格フレームマッチは、候補名詞句の中から、抽象物という意味素性を持つ名詞句を特定する。名詞句と意味素性の対応は、上記図8の名詞辞書に記載されている。もし、「コツ」の意味素性が抽象物である場合、「わかる」のガ格は「コツ」と特定され、「わかる」に関してはゼロ代名詞がないことを出力する。もし、候補名詞句中に抽象物という意味素性を持つ名詞句がない場合、「わかる」のガ格がゼロ代名詞化されていると判断し、述語とゼロ代名詞化された格を出力する。なお、上記非特許文献1の技術では、ゼロ代名詞化されていることを発見すると、それに該当する名詞句を、現在処理中の文より前方の文から選択するために、確率モデルを用いている。
また、ゼロ代名詞照応機能つき述語項構造解析(例えば、非特許文献2を参照。)を用いると、格フレーム辞書を用いずに、文のゼロ代名詞を発見することができる。非特許文献2の構成を図9に示す。
ゼロ代名詞照応機能付き述語項構造解析は、1つ以上の文から成り立つ解析対象文章を入力とし、前方の文から一文ごとに以下の処理を行い、すべての文の述語の格と名詞句を同定する。
(1)まず、上記非特許文献1の技術と同様に、形態素解析、係り受け解析、述語同定を行う。
(2)次に、項となる名詞句の候補を抽出する。この際、現在処理中の文の名詞句のみでなく、項スタックから、前方N文(N≧1)の述語で項となった名詞句も候補として加える。また、特殊名詞句「NULL」も候補として加える。「NULL」は、格が必要ない、または不明(外界照応)を表す特殊名詞句である。
(3)次に、素性選択では、候補名詞句ごとに、述語、格、候補名詞句、述語と候補名詞句の関係などを用いて素性集合を作成する。素性集合作成時には、言語モデルも使われることがある。
(4)項同定では、格ごとに、候補名詞句のスコアを算出し、最もスコアの高い候補を、その格の名詞句として出力する。また、同定した名詞句を項スタックに保存する。
なお、項同定モデルは、図10に手順を示すように、述語項構造の正解データ(コーパス)から、正解の名詞句を正例、それ以外の候補名詞句を負例として、事後確率最大化推定法などを用いて、事前に学習する。正解コーパスは、文章(複数文)の全述語に対して、その項が特定されたものである。
例えば、解析対象文章が(例文1)、(例文2)の2文だったとする。ゼロ代名詞照応機能つき述語項構造解析を用いると、(例文1)の述語は「重い」、そのガ格の名詞句は「鍵盤」となる。(例文2)の述語は、「わかる」「弾ける」であるが、「わかる」に関しては、上記非特許文献1の技術と同様に、ガ格が「コツ」であると特定される。一方、「弾ける」に関しては、候補名詞句「コツ」「鍵盤」「NULL」のうち、ガ格は「NULL」、ヲ格は「鍵盤」と特定する。
ゼロ代名詞化判断では、特定された各述語の名詞句が、述語の存在する文中にあるかどうかを判定し、もし述語と異なる文の名詞句であれば、そこがゼロ代名詞であると判断する。たとえば、(例文1)の「重い」のガ格「鍵盤」は、述語と同一文であるので、「重い」にはゼロ代名詞がない。(例文2)の述語「弾ける」のヲ格「鍵盤」は述語と同一文ではないので、ヲ格がゼロ代名詞であると判断される。
関和広、藤井敦、石川徹也、「確率モデルを用いた日本語ゼロ代名詞の照応解析」、自然言語処理、2002年、9(3)、p.63‐85 Imamura, K.、Saito, K.、and Izumi, T.、「Discriminative Approach to Predicate-Argument Structure Analysis with Zero-Anaphora Resolution」、In Proceedings of the ACL-IJCNLP 2009 Conference Short Papers、2009年、Suntec, Singapore. Association for Computational Linguistics、p.85‐88
しかし、上記非特許文献1の技術では、上記表2には、「弾ける」に関する格フレームが記載されていないため、どの格がゼロ代名詞なのか、判断できない。このように、格フレームによる方法は、格フレーム辞書に記載されていない述語に関してはどの格がゼロ代名詞なのか、判断できないという問題がある。
また、上記非特許文献2の技術では、(例文2)の「弾ける」のガ格は、「NULL」であるので、格が必要ないものであったのか、それともゼロ代名詞であるのにも関わらず特定できなかったのか、判断できない。また、ゼロ代名詞照応機能付き述語項構造解析には、すべての文を解析対象文章として入力する必要があるため、解析対象文章が(例文2)だけだった場合、「弾ける」のヲ格も「NULL」になってしまうため、ヲ格に関してもゼロ代名詞化されているか判断できないという問題がある。
本発明は、上記の事情に鑑みてなされたもので、ゼロ代名詞であるか格が必要ないかを含む述語項構造の解析を精度よく行うことができる述語項構造解析方法、装置、及びプログラムを提供することを目的とする。
また、ゼロ代名詞であるか格が必要ないかを含む述語項構造の解析を精度よく行うための項同定モデルを得ることができるモデル学習方法、装置、及びプログラムを提供することを目的とする。
上記の目的を達成するために本発明に係る述語項構造解析方法は、候補名詞句抽出部、素性生成部、及び項同定部を含み、解析対象文に含まれる述語について、格毎に、前記述語に対応する前記格に該当する名詞句である項を特定する述語項構造解析装置における述語項構造解析方法であって、前記候補名詞句抽出部によって、前記解析対象文に含まれる述語について、前記解析対象文から、前記述語に対応する名詞句の候補となる名詞句、前記述語に対応する前記格に該当する名詞句が省略されていることを示す特殊名詞句ZERO、及び前記述語に対応する前記格が必要ないことを示す特殊名詞句NULLを含む候補名詞句を抽出するステップと、前記素性生成部によって、格毎に、前記解析対象文に含まれる前記述語と前記候補名詞句抽出部によって抽出された前記候補名詞句の各々との組み合わせの各々について、前記述語に関する素性と、前記候補名詞句に関する素性と、前記格に関する素性と、前記述語と前記候補名詞句との関係に関する素性を含む素性集合を生成するステップと、前記項同定部によって、格毎に、前記述語と前記候補名詞句との組み合わせの各々及び前記格について生成された素性集合と、前記格について前記述語に対応する前記格に該当する名詞句である項、前記述語に対応する前記格の前記特殊名詞句ZERO、及び前記述語に対応する前記格の前記特殊名詞句NULLを同定するための予め学習された項同定モデルとに基づいて、前記解析対象文に含まれる述語及び格の組み合わせ毎に候補名詞句に付与される尤もらしさを表す尤度に従い、尤度が最も高い候補名詞句である前記述語に対応する前記格に該当する名詞句である項、前記述語に対応する前記格の前記特殊名詞句ZERO、及び前記述語に対応する前記格の前記特殊名詞句NULLの何れかを同定するステップと、を含む。
本発明に係る述語項構造解析装置は、解析対象文に含まれる述語について、格毎に、前記述語に対応する前記格に該当する名詞句である項を特定する述語項構造解析装置であって、前記解析対象文に含まれる述語について、前記解析対象文から、前記述語に対応する名詞句の候補となる名詞句、前記述語に対応する前記格に該当する名詞句が省略されていることを示す特殊名詞句ZERO、及び前記述語に対応する前記格が必要ないことを示す特殊名詞句NULLを含む候補名詞句を抽出する候補名詞句抽出部と、格毎に、前記解析対象文に含まれる前記述語と前記候補名詞句抽出部によって抽出された前記候補名詞句の各々との組み合わせの各々について、前記述語に関する素性と、前記候補名詞句に関する素性と、前記格に関する素性と、前記述語と前記候補名詞句との関係に関する素性を含む素性集合を生成する素性生成部と、格毎に、前記述語と前記候補名詞句との組み合わせの各々及び前記格について生成された素性集合と、前記格について前記述語に対応する前記格に該当する名詞句である項、前記述語に対応する前記格の前記特殊名詞句ZERO、及び前記述語に対応する前記格の前記特殊名詞句NULLを同定するための予め学習された項同定モデルとに基づいて、前記解析対象文に含まれる述語及び格の組み合わせ毎に候補名詞句に付与される尤もらしさを表す尤度に従い、尤度が最も高い候補名詞句である前記述語に対応する前記格に該当する名詞句である項、前記述語に対応する前記格の前記特殊名詞句ZERO、及び前記述語に対応する前記格の前記特殊名詞句NULLの何れかを同定する項同定部とを含んで構成されている。
また、本発明に係るモデル学習方法は、学習用候補名詞句抽出部、学習用素性生成部、学習データ生成部、及びモデル学習部を含むモデル学習装置におけるモデル学習方法であって、前記学習用候補名詞句抽出部によって、文に含まれる述語について、格毎に、前記述語に対応する前記格に該当する名詞句である項、及び前記述語に対応する前記格が必要ないことの何れか一方が予め特定された学習用の複数の文に基づいて、前記学習用の複数の文の各々について、前記文に含まれる述語に対応する名詞句の候補となる名詞句、前記述語に対応する前記格に該当する名詞句が省略されていることを示す特殊名詞句ZERO、及び前記述語に対応する前記格が必要ないことを示す特殊名詞句NULLを含む候補名詞句を抽出するステップと、前記学習用素性生成部によって、前記学習用の複数の文の各々に対し、格毎に、前記文に含まれる述語に対して抽出された前記候補名詞句の各々と前記述語との組み合わせの各々について、前記述語に関する素性と、前記候補名詞句に関する素性と、前記格に関する素性と、前記述語と前記候補名詞句との関係に関する素性を含む素性集合を生成するステップと、前記学習データ生成部によって、前記学習用の複数の文の各々に対し、格毎に、前記文に含まれる述語について予め特定された、前記項、及び前記格が必要ないことの何れか一方に基づいて、前記格、及び前記述語と前記候補名詞句の各々との組み合わせの各々について生成された素性集合の各々に、正例及び負例の何れか一方を示すラベルを付与し、前記ラベルを付与した前記素性集合を、学習データとして各々生成するステップと、前記モデル学習部によって、格毎に、前記格について生成された学習データに基づいて、前記格について前記述語に対応する前記格に該当する名詞句である項、前記述語に対応する前記格の前記特殊名詞句ZERO、及び前記述語に対応する前記格の前記特殊名詞句NULLを同定するために項同定モデルを学習するステップと、を含む。
また、本発明に係るモデル学習装置は、文に含まれる述語について、格毎に、前記述語に対応する前記格に該当する名詞句である項、及び前記述語に対応する前記格が必要ないことの何れか一方が予め特定された学習用の複数の文に基づいて、前記学習用の複数の文の各々について、前記文に含まれる述語に対応する名詞句の候補となる名詞句、前記述語に対応する前記格に該当する名詞句が省略されていることを示す特殊名詞句ZERO、及び前記述語に対応する前記格が必要ないことを示す特殊名詞句NULLを含む候補名詞句を抽出する学習用候補名詞句抽出部と、前記学習用の複数の文の各々に対し、格毎に、前記文に含まれる述語に対して抽出された前記候補名詞句の各々と前記述語との組み合わせの各々について、前記述語に関する素性と、前記候補名詞句に関する素性と、前記格に関する素性と、前記述語と前記候補名詞句との関係に関する素性を含む素性集合を生成する学習用素性生成部と、前記学習用の複数の文の各々に対し、格毎に、前記文に含まれる述語について予め特定された、前記項、及び前記格が必要ないことの何れか一方に基づいて、前記格、及び前記述語と前記候補名詞句の各々との組み合わせの各々について生成された素性集合の各々に、正例及び負例の何れか一方を示すラベルを付与し、前記ラベルを付与した前記素性集合を、学習データとして各々生成する学習データ生成部と、格毎に、前記格について生成された学習データに基づいて、前記格について前記述語に対応する前記格に該当する名詞句である項、前記述語に対応する前記格の前記特殊名詞句ZERO、及び前記述語に対応する前記格の前記特殊名詞句NULLを同定するために項同定モデルを学習するモデル学習部とを含んで構成されている。
また、前記学習データ生成部は、格毎に、前記文に含まれる述語について、前記格に対応する前記項が前記文内に存在する場合、前記格、及び前記述語と前記項に該当する候補名詞句との組み合わせについて生成された素性集合に、正例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記項とは異なる名詞句である前記候補名詞句との組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記特殊名詞句NULLとの組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記項に該当する候補名詞句との組み合わせについて生成された素性集合に、正例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記特殊名詞句ZEROとの組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記特殊名詞句ZEROとの組み合わせについて生成された素性集合に、正例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記項とは異なる名詞句である前記候補名詞句との組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記特殊名詞句NULLとの組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、前記文に含まれる述語について、前記格に対応する前記項が前記文とは異なる文内に存在する場合、前記格、及び前記述語と前記特殊名詞句ZEROとの組み合わせについて生成された素性集合に、正例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と名詞句である前記候補名詞句との組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記特殊名詞句NULLとの組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、前記文に含まれる述語について、前記格が必要ない場合、前記格、及び前記述語と前記特殊名詞句NULLとの組み合わせについて生成された素性集合に、正例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と名詞句である前記候補名詞句との組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記特殊名詞句ZEROとの組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成するようにすることができる。
また、本発明に係る第1のプログラムは、上記の述語項構造解析方法の各ステップをコンピュータに実行させるためのプログラムである。
また、本発明に係る第2のプログラムは、上記のモデル学習方法の各ステップをコンピュータに実行させるためのプログラムである。
以上説明したように、本発明の述語項構造解析方法、装置、及びプログラムによれば、解析対象文に含まれる述語について、格毎に、候補名詞句の各々及び格について生成された素性集合と、予め学習された項同定モデルとに基づいて、述語に対応する格に該当する名詞句である項、述語に対応する格の特殊名詞句ZERO、及び述語に対応する格の特殊名詞句NULLの何れかを同定することにより、ゼロ代名詞であるか格が必要ないかを含む述語項構造の解析を精度よく行うことができる、という効果が得られる。
また、本発明のモデル学習方法、装置、及びプログラムによれば、学習用の複数の文に対し、格毎に、当該文に含まれる述語について予め特定された、項、及び格が必要ないことの何れか一方に基づいて、格、述語、及び候補名詞句の各々について生成された素性集合の各々に、正例及び負例の何れか一方を示すラベルを付与し、当該ラベルを付与した素性集合を、学習データとして各々生成し、格毎に、当該学習データに基づいて、格について述語に対応する格に該当する名詞句である項、述語に対応する格の特殊名詞句ZERO、及び述語に対応する格の特殊名詞句NULLを同定するために項同定モデルを学習することにより、ゼロ代名詞であるか格が必要ないかを含む述語項構造の解析を精度よく行うための項同定モデルを得ることができる、という効果が得られる。
本発明の実施の形態に係るモデル学習装置の一構成例を示すブロック図である。 素性の一例を示す説明図である。 項同定モデルを学習する際のスコアを説明するための説明図である。 本発明の実施の形態に係る述語項構造解析装置の一構成例を示すブロック図である。 本発明の実施の形態に係るモデル学習装置おけるモデル学習処理ルーチンの内容を示すフローチャートである。 本発明の実施の形態に係るモデル学習装置おける学習データ生成処理ルーチンの内容を示すフローチャートである。 本発明の実施の形態に係る述語項構造解析装置おける述語項構造解析処理ルーチンの内容を示すフローチャートである。 従来技術を説明するための第1の説明図である。 従来技術を説明するための第2の説明図である。 従来技術を説明するための第3の説明図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<モデル学習装置のシステム構成>
図1は、本発明の実施の形態に係るモデル学習装置100を示すブロック図である。このモデル学習装置100は、CPUと、RAMと、後述するモデル学習処理ルーチン及び学習データ生成処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
本実施の形態に係るモデル学習装置100は、図1に示すように、学習用入力部1と、学習用演算部2と、モデルデータベース3とを備えている。
学習用入力部1は、学習用の複数の文からなる文書を含む正解コーパスを受け付ける。正解コーパスは、文書(複数文)の全述語に対して、その項が特定されたものである。すなわち、正解コーパスの文書では、文に含まれる述語の各々について、格毎に、当該述語に対応する格に該当する名詞句である項、及び格が必要ないことの何れか一方が予め特定されている。なお、述語に対応する項が、異なる文に存在する場合には、当該異なる文内の項が特定されている。また、項が異なる文に存在する場合の中には、外界照応(格が必要だが、文書全体を見ても項に相当する名詞句が陽に現れていない場合)も含む。
学習用演算部2は、文データベース20と、学習用形態素解析部22と、学習用係り受け解析部24と、学習用候補名詞句抽出部26と、言語モデルデータベース28と、学習用素性生成部30と、学習データ生成部32と、学習データベース34と、モデル学習部36とを備えている。
文データベース20には、学習用入力部1により受け付けた正解コーパスが格納される。
学習用形態素解析部22は、文データベース20に格納された正解コーパスに含まれる学習用の各文に対し、形態素解析を行い、単語に分割するとともに、品詞を付与する。
学習用係り受け解析部24は、学習用形態素解析部22によって解析された解析結果に基づいて、文データベース20に格納された正解コーパスに含まれる学習用の各文に対して係り受け解析を行い、文の文節係り受け構造を得る。
学習用候補名詞句抽出部26は、学習用係り受け解析部24によって解析された解析結果に基づいて、文データベース20に格納された学習用の各文について、当該文に含まれる述語及び格の組み合わせの各々について、当該述語に対応する当該文内の名詞句の候補となる名詞句、特殊名詞句ZERO、及び特殊名詞句NULLを含む候補名詞句を抽出する。ここで、特殊名詞句ZEROは、述語に対応する格に該当する名詞句が省略されていることを示す特殊名詞句である。また、特殊名詞句NULLは、述語に対応する格が必要ないことを示す特殊名詞句である。
具体的には、学習用候補名詞句抽出部26は、上記非特許文献1の技術と同様に、学習用の各文について、名詞、代名詞、名詞接尾辞など、名詞性の品詞が連続する形態素列(単語列)を名詞句として抽出し、名詞句の候補となる名詞句、特殊名詞句ZERO、及び特殊名詞句NULLを含む候補名詞句を抽出する。
言語モデルデータベース28には、予め学習された言語モデルが格納されている。ここで、言語モデルは、述語vと格cとが与えられたときの名詞句nの生成確率P(n|c,v)を算出する(例えば、参考文献(特許5225219号公報)を参照。)。
学習用素性生成部30は、文データベース20に格納された学習用の各文に対し、当該文に含まれる述語及び格の組み合わせ毎に、当該組み合わせに対して抽出された候補名詞句の各々について、述語に関する素性と、候補名詞句に関する素性と、格に関する素性と、述語と候補名詞句との関係に関する素性を含む素性集合を生成する(例えば、上記参考文献(特許5225219号公報)を参照。)。具体的には、学習用素性生成部30は、文に含まれる述語及び格の組み合わせ毎に、図2に示すような各素性を含む素性集合を生成する。なお、素性集合のうちの言語モデルスコアは、例えば、言語モデルデータベース28に格納された予め学習された言語モデルに基づいて生成される。また、素性は、図2に示したものに限定されない。他の素性を用いてもよい。
学習データ生成部32は、文データベース20に格納された学習用の各文に対し、当該文に含まれる述語及び格の組み合わせ毎に、当該組み合わせについて予め特定された、項、及び格が必要ないことの何れか一方に基づいて、格、述語、及び候補名詞句の各々について生成された素性集合の各々に、正例及び負例の何れか一方を示すラベルを付与し、当該ラベルを付与した素性集合を、学習データとして各々生成する。
具体的には、学習データ生成部32は、学習用の各文について、当該文に含まれる述語及び格の組み合わせ毎に、以下の処理を行い、学習データを生成する。
(1)文内に正解名詞句が存在する場合、以下の3種類の学習データを生成する。
(A)当該述語及び格の組み合わせと正解の名詞句とについて生成された素性集合を正例、当該述語及び格の組み合わせと正解の名詞句以外の名詞句である候補名詞句とについて生成された素性集合、並びに当該述語及び格の組み合わせと特殊名詞句「NULL」とについて生成された素性集合を負例とした学習データを生成する。
(B)当該述語及び格の組み合わせと正解の名詞句とについて生成された素性集合を正例、当該述語及び格の組み合わせと特殊名詞句「ZERO」とについて生成された素性集合を負例とした学習データを生成する。
(C)当該述語及び格の組み合わせと特殊名詞句「ZERO」とについて生成された素性集合を正例、当該述語及び格の組み合わせと正解の名詞句以外の名詞句である候補名詞句とについて生成された素性集合、並びに当該述語及び格の組み合わせと特殊名詞句「NULL」とについて生成された素性集合を負例とした学習データを生成する。
(2)正解の名詞句が述語と別文の場合、当該述語及び格の組み合わせと特殊名詞句「ZERO」とについて生成された素性集合を正例、当該述語及び格の組み合わせと名詞句である全ての候補名詞句とについて生成された素性集合、並びに当該述語及び格の組み合わせと特殊名詞句「NULL」とについて生成された素性集合を負例とした学習データを生成する。
(3)格が必要ない場合、当該述語及び格の組み合わせと特殊名詞句「NULL」とについて生成された素性集合を正例、当該述語及び格の組み合わせと名詞句である全ての候補名詞句とについて生成された素性集合、並びに当該述語及び格の組み合わせと特殊名詞句「ZERO」とについて生成された素性集合を負例とした学習データを生成する。
学習データベース34には、学習データ生成部32によって生成された学習データが格納される。
モデル学習部36は、格毎に、当該格について生成された学習データに基づいて、述語に対応する当該格に該当する名詞句である項、述語に対応する当該格の特殊名詞句ZERO、及び述語に対応する当該格の特殊名詞句NULLを同定するために項同定モデルを学習する。
例えば、モデル学習部36は、上記非特許文献2と同様に、正例データのスコアを高く、負例データのスコアを低くするように、事後確率最大化法などを用いて素性の重みを推定し、項同定モデルを学習する。
その結果、項同定において、もし述語に対するある格の名詞句が文内に存在する場合、その名詞句が他の名詞句、「NULL」「ZERO」より高いスコアとなり、もし述語に対するある格の名詞句が別の文に存在する場合、「ZERO」が名詞句および「NULL」より高いスコアとなり、もし述語に対するある格が必要ない場合、「NULL」が名詞句および「ZERO」より高いスコアとなるような項同定モデルが学習される。
モデルデータベース3には、モデル学習部36によって学習された格毎の項同定モデルが格納される。
<述語項構造解析装置のシステム構成>
図4は、本発明の実施の形態に係る述語項構造解析装置200を示すブロック図である。述語項構造解析装置200は、解析対象文に含まれる述語について、格毎に、当該述語に対応する格に該当する名詞句である項を特定する。この述語項構造解析装置200は、CPUと、RAMと、後述する述語項構造解析処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
本実施の形態に係る述語項構造解析装置200は、図4に示すように、入力部4と、言語モデルデータベース5と、モデルデータベース6と、演算部7と、出力部8とを備えている。
入力部4は、述語項構造解析の解析対象文を受け付ける。
言語モデルデータベース5には、上記モデル学習装置100の言語モデルデータベース28と同じ言語モデルが格納されている。
モデルデータベース6には、上記モデル学習装置100のモデルデータベース3と同じ項同定モデルが格納されている。
演算部7は、入力部4により受け付けた解析対象文の述語項構造解析を行う。また、演算部7は、形態素解析部70と、係り受け解析部72と、述語同定部74と、候補名詞句抽出部76と、素性生成部78と、項同定部80とを備えている。
形態素解析部70は、入力部4により受け付けた解析対象文に対し、形態素解析を行い、単語に分割するとともに、品詞を付与する。
係り受け解析部72は、形態素解析部70によって解析された解析結果に基づいて、入力された解析対象文に対して係り受け解析を行い、文の文節係り受け構造を得る。
述語同定部74は、係り受け解析部72によって解析された解析結果に基づいて、入力された解析対象文の述語を同定する。通常は、文節中の動詞、形容詞、形容動詞が述語となる。
候補名詞句抽出部76は、係り受け解析部72によって解析された解析結果に基づいて、入力された解析対象文に含まれる述語及び格の組み合わせの各々について、当該解析対象文から、学習用候補名詞句抽出部26と同様に、当該述語に対応する名詞句の候補となる名詞句、特殊名詞句ZERO、及び特殊名詞句NULLを含む候補名詞句を抽出する。
素性生成部78は、解析対象文に含まれる述語及び格の組み合わせ毎に、候補名詞句抽出部76によって当該組み合わせについて抽出された候補名詞句の各々について、学習用素性生成部30と同様に、言語モデルデータベース5に格納された言語モデルを用いて、述語に関する素性と、候補名詞句に関する素性と、格に関する素性と、述語と前記候補名詞句との関係に関する素性を含む素性集合を生成する。
項同定部80は、解析対象文に含まれる述語及び格の組み合わせ毎に、素性生成部78によって当該組み合わせに対する候補名詞句の各々について生成された素性集合と、モデルデータベース6に格納された当該格に対する項同定モデルとに基づいて、当該述語及び格の組み合わせについて、当該述語に対応する当該格に該当する名詞句である項、当該述語に対応する当該格の特殊名詞句ZERO、及び当該述語に対応する当該格の特殊名詞句NULLの何れかを同定する。具体的には、項同定部80は、解析対象文に含まれる述語及び格の組み合わせ毎に、候補名詞句の各々のスコアを算出し、最もスコアの高い候補名詞句を同定する。
たとえば、(例文2)において、述語「弾ける」の項を同定する場合、当該文に含まれる候補名詞句「コツ」、特殊名詞句ZERO、特殊名詞句NULLのいずれかがもっともらしいか同定するが、格毎に、素性生成部78によって当該組み合わせに対する候補名詞句の各々について生成された素性集合と、モデルデータベース6に格納された当該格に対する項同定モデルとに基づいて、上記非特許文献2などで示されている方法でスコアを計算すると、図3のようなスコアが得られる。ここでスコアが最も高い候補名詞句は、ガ格ではZERO、ヲ格ではZERO、二格ではNULLとなる。
出力部8は、項同定部80によって解析対象文に含まれる述語及び格の組み合わせ毎に同定された結果を出力する。また、出力部8は、ある述語及び格の組み合わせについて最もスコアの高い候補名詞句が「ZERO」だった場合、その格をゼロ代名詞化された格として出力する。もし、最もスコアの高い候補が「NULL」だった場合、その格は当該述語に不必要なものと判断し、出力しない。
<モデル学習装置の作用>
次に、本実施の形態に係るモデル学習装置100の作用について説明する。まず、学習用の複数の文からなる文書を含む正解コーパスがモデル学習装置100に入力されると、モデル学習装置100によって、入力された正解コーパスが、文データベース20へ格納される。そして、モデル学習装置100によって、図5に示すモデル学習処理ルーチンが実行される。
まず、ステップS100において、文データベース20に格納された学習用の複数の文のうち、1つの文を設定する。
次に、ステップS102において、学習用形態素解析部22によって、上記ステップS100で設定された文に対し、形態素解析を行い、単語に分割するとともに、品詞を付与する。
ステップS104において、学習用係り受け解析部24によって、上記ステップS102で解析された形態素解析結果に基づいて、上記ステップS100で設定された文に対して係り受け解析を行い、当該文の文節係り受け構造を得る。
ステップS106において、学習用候補名詞句抽出部26によって、上記ステップS104で解析された係り受け解析結果に基づいて、上記ステップS100で設定された文について、当該文に含まれる述語及び格の組み合わせの各々について、当該述語に対応する当該文内の名詞句の候補となる名詞句、特殊名詞句ZERO、及び特殊名詞句NULLを含む候補名詞句を抽出する。
ステップS108において、上記ステップS100で設定された文の述語のうち、1つの述語を設定する。
ステップS110において、上記ステップS108で設定された述語の格(ガ格、ニ格、ヲ格)のうち、1つの格を設定する。
ステップS112において、学習用素性生成部30によって、上記ステップS108で設定された述語及び上記ステップS110で設定された格の組み合わせに対し、当該組み合わせに対して抽出された候補名詞句の各々について、述語に関する素性と、候補名詞句に関する素性と、格に関する素性と、述語と候補名詞句との関係に関する素性を含む素性集合を生成する。
ステップS114において、学習データ生成部32によって、上記ステップS108で設定された述語及び上記ステップS110で設定された格の組み合わせに対し、当該組み合わせについて予め特定された、項、及び格が必要ないことの何れか一方に基づいて、格、述語、及び候補名詞句の各々について生成された素性集合の各々に、正例及び負例の何れか一方を示すラベルを付与し、当該ラベルを付与した素性集合を、学習データとして各々生成する。ステップS114は、図6に示す学習データ生成処理ルーチンによって実現される。
まず、ステップS150において、上記ステップS108で設定された述語には、上記ステップS110で設定された格が必要であるか否かを判定する。そして、当該述語に当該格が必要である場合には、ステップS154へ進む。一方、当該述語に当該格が必要ない場合には、ステップS152へ進む。
ステップS152において、上記ステップS108で設定された述語及び上記ステップS110で設定された格の組み合わせと特殊名詞句「NULL」とについて生成された素性集合を正例、当該述語及び当該格の組み合わせと名詞句である全ての候補名詞句とについて生成された素性集合、並びに当該述語及び当該格の組み合わせと特殊名詞句「ZERO」とについて生成された素性集合を負例とした学習データを生成する。
ステップS154において、上記ステップS108で設定された述語に対応する上記ステップS110で設定された格に該当する正解の名詞句は、当該述語と同一文内に存在するか否かを判定する。正解の名詞句が、当該述語と同一文内に存在する場合には、ステップS156へ進む。一方、正解の名詞句が、当該述語と同一文内に存在しない場合には、ステップS162へ進む。
ステップS156において、上記ステップS108で設定された述語及び上記ステップS110で設定された格の組み合わせと正解の名詞句とについて生成された素性集合を正例、当該述語及び当該格の組み合わせと正解の名詞句以外の名詞句である候補名詞句とについて生成された素性集合、並びに当該述語及び当該格の組み合わせと特殊名詞句「NULL」とについて生成された素性集合を負例とした学習データを生成する。
ステップS158において、上記ステップS108で設定された述語及び上記ステップS110で設定された格の組み合わせと正解の名詞句とについて生成された素性集合を正例、当該述語及び当該格の組み合わせと特殊名詞句「ZERO」とについて生成された素性集合を負例とした学習データを生成する。
ステップS160において、上記ステップS108で設定された述語及び上記ステップS110で設定された格の組み合わせと特殊名詞句「ZERO」とについて生成された素性集合を正例、当該述語及び当該格の組み合わせと正解の名詞句以外の名詞句である候補名詞句とについて生成された素性集合、並びに当該述語及び当該格の組み合わせと特殊名詞句「NULL」とについて生成された素性集合を負例とした学習データを生成する。
ステップS162において、上記ステップS108で設定された述語及び上記ステップS110で設定された格の組み合わせと特殊名詞句「ZERO」とについて生成された素性集合を正例、当該述語及び当該格の組み合わせと名詞句である全ての候補名詞句とについて生成された素性集合、並びに当該述語及び当該格の組み合わせと特殊名詞句「NULL」とについて生成された素性集合を負例とした学習データを生成する。
そして、ステップS164において、上記ステップS152、ステップS156〜S160、又はステップS162で生成された学習データを出力して、学習データ生成処理ルーチンを終了する。
次に、モデル学習処理ルーチンに戻り、ステップS116において、上記ステップS114で生成された学習データを学習データベース34に格納する。
ステップS118において、上記ステップS108で設定された述語の格(ガ格、ニ格、ヲ格)の全てについて、上記ステップS110〜S116の処理を実行したか否かを判定する。全ての格について、上記ステップS110〜S116の処理を実行した場合には、ステップS120へ進む。一方、上記ステップS110〜S116の処理を実行していない格が存在する場合には、ステップS110へ戻る。
ステップS120において、上記ステップS100で設定された文に含まれる全ての述語について、上記ステップS108〜S118の処理を実行したか否かを判定する。全ての述語について上記ステップS108〜S118の処理を実行した場合には、ステップS122へ進む。一方、上記ステップS108〜S118の処理を実行していない述語が存在する場合には、ステップS108へ戻る。
ステップS122において、文データベース20に格納された全ての学習用の文について、上記ステップS100〜S120の処理を実行したか否かを判定する。全ての学習用の文について、上記ステップS100〜S120の処理を実行した場合には、ステップS124へ進む。一方、上記ステップS100〜S120の処理を実行していない学習用の文が存在する場合には、ステップS100へ戻る。
ステップS124において、モデル学習部36によって、格毎に、上記ステップS116で学習データベース34に格納された、当該格について生成された学習データに基づいて、当該格に対する項同定モデルを学習する。
ステップS126において、上記ステップS124で学習された格毎の項同定モデルをモデルデータベース3へ格納して、モデル学習処理ルーチンを終了する。
<述語項構造解析装置の作用>
次に、本実施の形態に係る述語項構造解析装置200の作用について説明する。まず、モデル学習装置100のモデルデータベース3に記憶されている項同定モデルが、述語項構造解析装置200に入力されると、モデルデータベース6に格納される。そして、述語項構造解析対象としての解析対象文が述語項構造解析装置200に入力されると、述語項構造解析装置200によって、図7に示す述語項構造解析処理ルーチンが実行される。
まず、ステップS200において、入力部4によって、述語項構造解析の解析対象文を受け付ける。
次に、ステップS202において、形態素解析部70によって、上記ステップS200で受け付けた解析対象文に対し、形態素解析を行い、単語に分割するとともに、品詞を付与する。
ステップS204において、係り受け解析部72によって、上記ステップS202で解析された形態素解析結果に基づいて、上記ステップS200で受け付けた解析対象文に対して係り受け解析を行い、文の文節係り受け構造を得る。
ステップS206において、述語同定部74によって、上記ステップS204で解析された係り受け解析結果に基づいて、解析対象文の述語を同定する。
ステップS208において、上記ステップS206で同定された解析対象文に含まれる述語のうち、1つの述語を設定する。
ステップS210において、上記ステップS208で設定された述語の格(ガ格、ニ格、ヲ格)のうち、一つの格を設定する。
ステップS212において、候補名詞句抽出部76によって、上記ステップS204で解析された係り受け解析結果に基づいて、上記ステップS206で同定された述語、及び上記ステップS210で設定された格の組み合わせについて、当該解析対象文から、学習用候補名詞句抽出部26と同様に、当該述語に対応する名詞句の候補となる名詞句、特殊名詞句ZERO、及び特殊名詞句NULLを含む候補名詞句を抽出する。
ステップS214において、素性生成部78によって、上記ステップS208で設定された述語及び上記ステップS210で設定された格の組み合わせに対し、上記ステップS212で当該組み合わせについて抽出された候補名詞句の各々について、学習用素性生成部30と同様に、述語に関する素性と、候補名詞句に関する素性と、格に関する素性と、述語と前記候補名詞句との関係に関する素性を含む素性集合を生成する。
ステップS216において、上記ステップS210で設定された格に対する項同定モデルをモデルデータベース6から読み込む。
ステップS218において、項同定部80によって、上記ステップS208で設定された述語及び上記ステップS210で設定された格の組み合わせで、上記ステップS214で当該組み合わせに対する候補名詞句の各々について生成された素性集合と、ステップS216で読み込まれた当該格に対する項同定モデルとに基づいて、当該述語及び当該格の組み合わせについて、当該述語に対応する当該格に該当する名詞句である項、当該述語に対応する当該格の特殊名詞句ZERO、及び当該述語に対応する当該格の特殊名詞句NULLの何れかを同定する。
ステップS220において、上記ステップS210で設定された述語の格(ガ格、ニ格、ヲ格)の全てについて、上記ステップS210〜S218の処理を実行したか否かを判定する。全ての格について、上記ステップS210〜S218の処理を実行した場合には、ステップS222へ進む。一方、上記ステップS210〜S218の処理を実行していない格が存在する場合には、ステップS210へ戻る。
ステップS222において、解析対象文に含まれる全ての述語について、上記ステップS208〜S220の処理を実行したか否かを判定する。全ての述語について上記ステップS208〜S220の処理を実行した場合には、ステップS224へ進む。一方、上記ステップS208〜S220の処理を実行していない述語が存在する場合には、ステップS208へ戻る。
そして、ステップS224において、述語及び格の組み合わせ毎に、上記ステップS218で同定された結果を出力して、述語項構造解析処理ルーチンを終了する。
以上説明したように、本実施の形態に係るモデル学習装置100によれば、学習用の複数の文に対し、格毎に、当該文に含まれる述語について予め特定された、項、及び格が必要ないことの何れか一方に基づいて、格、述語、及び候補名詞句の各々について生成された素性集合の各々に、正例及び負例の何れか一方を示すラベルを付与し、当該ラベルを付与した素性集合を、学習データとして各々生成し、格毎に、当該学習データに基づいて、格について述語に対応する格に該当する名詞句である項、述語に対応する格の特殊名詞句ZERO、及び述語に対応する格の特殊名詞句NULLを同定するための項同定モデルを学習することにより、ゼロ代名詞であるか格が必要ないかを含む述語項構造の解析を精度よく行うための項同定モデルを得ることができる。
また、本実施の形態に係る述語項構造解析装置200によれば、解析対象文に含まれる述語について、格毎に、候補名詞句の各々及び格について生成された素性集合と、当該格に対する項同定モデルとに基づいて、述語に対応する格に該当する名詞句である項、述語に対応する格の特殊名詞句ZERO、及び述語に対応する格の特殊名詞句NULLの何れかを同定することにより、ゼロ代名詞であるか格が必要ないかを含む述語項構造の解析を精度よく行うことができる。
また、候補名詞句に、特殊名詞句ZEROとNULLが含まれ、候補名詞句から格ごとに最良なものを同定し、同定結果がZEROだった場合に、その格の名詞句が省略されていると判断することができる。
また、解析対象文の各述語の格が必要ではない場合と、ゼロ代名詞化されている場合とを区別することができ、適切なゼロ代名詞を発見することができる。
また、解析対象文が1文しかない場合であっても、ゼロ代名詞を発見することができる。
また、本実施の形態に係る述語項構造解析装置200を、文脈の話題を管理できるシステムから呼びだすと、解析対象文にゼロ代名詞があると判定された場合のみ、そのゼロ代名詞に適切な名詞句を補完することも可能となる。
例えば、本実施の形態を対話システムに組み込み、対話システムが、解析対象文書の話題を管理したとする。対話システムに、上記の(例文1)が入力されたときに、対話システムが、「ピアノ」の方が「鍵盤」より話題にふさわしいと判定し、「ピアノ」について話題を表す名詞句として保存する。上記の(例文2)が入力されたとき、本実施の形態に係る述語項構造解析装置200を用いて、述語「弾ける」のヲ格がゼロ代名詞であることがわかると、対話システムが現在の話題「ピアノ」をヲ格の名詞句とみなし、「ピアノを弾ける」と意味解釈することも可能となる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、述語項構造解析装置200では、形態素解析部70、係り受け解析部72、及び述語同定部74を備える場合を例に説明したが、これに限定されるものではなく、これらを省略してもよい。その場合には、形態素解析、係り受け解析、及び述語同定済みの解析対象文を入力部4により受け付ける。
また、モデル学習装置100は、モデルデータベース3、文データベース20、言語モデルデータベース28、及び学習データベース34を備えている場合について説明したが、例えばモデルデータベース3、文データベース20、言語モデルデータベース28、及び学習データベース34がモデル学習装置100の外部装置に設けられ、モデル学習装置100は、外部装置と通信手段を用いて通信することにより、モデルデータベース3、文データベース20、言語モデルデータベース28、及び学習データベース34を参照するようにしてもよい。
また、述語項構造解析装置200は、言語モデルデータベース5、及びモデルデータベース3を備えている場合について説明したが、例えば言語モデルデータベース5、及びモデルデータベース3が述語項構造解析装置200の外部装置に設けられ、述語項構造解析装置200は、外部装置と通信手段を用いて通信することにより、言語モデルデータベース5、及びモデルデータベース3を参照するようにしてもよい。
また、本実施の形態では、述語に対応する格として「ガ格」、「ヲ格」、「ニ格」を同定する場合を例に説明したが、これに限定されるものではなく、他の格を含めても良い。
また、上記実施の形態では、モデル学習装置100と述語項構造解析装置200とを別々の装置として構成する場合を例に説明したが、モデル学習装置100と述語項構造解析装置200とを1つの装置として構成してもよい。
上述のモデル学習装置100及び述語項構造解析装置200は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
1 学習用入力部
2 学習用演算部
3、6 モデルデータベース
4 入力部
5、28 言語モデルデータベース
7 演算部
8 出力部
20 文データベース
22 学習用形態素解析部
24 学習用係り受け解析部
26 学習用候補名詞句抽出部
30 学習用素性生成部
32 学習データ生成部
34 学習データベース
36 モデル学習部
70 形態素解析部
72 係り受け解析部
74 述語同定部
76 候補名詞句抽出部
78 素性生成部
80 項同定部
100 モデル学習装置
200 述語項構造解析装置

Claims (8)

  1. 候補名詞句抽出部、素性生成部、及び項同定部を含み、解析対象文に含まれる述語について、格毎に、前記述語に対応する前記格に該当する名詞句である項を特定する述語項構造解析装置における述語項構造解析方法であって、
    前記候補名詞句抽出部によって、前記解析対象文に含まれる述語について、前記解析対象文から、前記述語に対応する名詞句の候補となる名詞句、前記述語に対応する前記格に該当する名詞句が省略されていることを示す特殊名詞句ZERO、及び前記述語に対応する前記格が必要ないことを示す特殊名詞句NULLを含む候補名詞句を抽出するステップと、
    前記素性生成部によって、格毎に、前記解析対象文に含まれる前記述語と前記候補名詞句抽出部によって抽出された前記候補名詞句の各々との組み合わせの各々について、前記述語に関する素性と、前記候補名詞句に関する素性と、前記格に関する素性と、前記述語と前記候補名詞句との関係に関する素性を含む素性集合を生成するステップと、
    前記項同定部によって、格毎に、前記述語と前記候補名詞句との組み合わせの各々及び前記格について生成された素性集合と、前記格について前記述語に対応する前記格に該当する名詞句である項、前記述語に対応する前記格の前記特殊名詞句ZERO、及び前記述語に対応する前記格の前記特殊名詞句NULLを同定するための予め学習された項同定モデルとに基づいて、前記解析対象文に含まれる述語及び格の組み合わせ毎に候補名詞句に付与される尤もらしさを表す尤度に従い、尤度が最も高い候補名詞句である前記述語に対応する前記格に該当する名詞句である項、前記述語に対応する前記格の前記特殊名詞句ZERO、及び前記述語に対応する前記格の前記特殊名詞句NULLの何れかを同定するステップと、
    を含む述語項構造解析方法。
  2. 学習用候補名詞句抽出部、学習用素性生成部、学習データ生成部、及びモデル学習部を含むモデル学習装置におけるモデル学習方法であって、
    前記学習用候補名詞句抽出部によって、文に含まれる述語について、格毎に、前記述語に対応する前記格に該当する名詞句である項、及び前記述語に対応する前記格が必要ないことの何れか一方が予め特定された学習用の複数の文に基づいて、前記学習用の複数の文の各々について、前記文に含まれる述語に対応する名詞句の候補となる名詞句、前記述語に対応する前記格に該当する名詞句が省略されていることを示す特殊名詞句ZERO、及び前記述語に対応する前記格が必要ないことを示す特殊名詞句NULLを含む候補名詞句を抽出するステップと、
    前記学習用素性生成部によって、前記学習用の複数の文の各々に対し、格毎に、前記文に含まれる述語に対して抽出された前記候補名詞句の各々と前記述語との組み合わせの各々について、前記述語に関する素性と、前記候補名詞句に関する素性と、前記格に関する素性と、前記述語と前記候補名詞句との関係に関する素性を含む素性集合を生成するステップと、
    前記学習データ生成部によって、前記学習用の複数の文の各々に対し、格毎に、前記文に含まれる述語について予め特定された、前記項、及び前記格が必要ないことの何れか一方に基づいて、前記格、及び前記述語と前記候補名詞句の各々との組み合わせの各々について生成された素性集合の各々に、正例及び負例の何れか一方を示すラベルを付与し、前記ラベルを付与した前記素性集合を、学習データとして各々生成するステップと、
    前記モデル学習部によって、格毎に、前記格について生成された学習データに基づいて、前記格について前記述語に対応する前記格に該当する名詞句である項、前記述語に対応する前記格の前記特殊名詞句ZERO、及び前記述語に対応する前記格の前記特殊名詞句NULLを同定するために項同定モデルを学習するステップと、
    を含むモデル学習方法。
  3. 前記学習データ生成部によって前記項同定モデルを学習するステップは、格毎に、前記文に含まれる述語について、前記格に対応する前記項が前記文内に存在する場合、前記格、及び前記述語と前記項に該当する候補名詞句との組み合わせについて生成された素性集合に、正例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記項とは異なる名詞句である前記候補名詞句との組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記特殊名詞句NULLとの組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、
    前記格、及び前記述語と前記項に該当する候補名詞句との組み合わせについて生成された素性集合に、正例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記特殊名詞句ZEROとの組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、
    前記格、及び前記述語と前記特殊名詞句ZEROとの組み合わせについて生成された素性集合に、正例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記項とは異なる名詞句である前記候補名詞句との組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記特殊名詞句NULLとの組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、
    前記文に含まれる述語について、前記格に対応する前記項が前記文とは異なる文内に存在する場合、前記格、及び前記述語と前記特殊名詞句ZEROとの組み合わせについて生成された素性集合に、正例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と名詞句である前記候補名詞句との組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記特殊名詞句NULLとの組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、
    前記文に含まれる述語について、前記格が必要ない場合、前記格、及び前記述語と前記特殊名詞句NULLとの組み合わせについて生成された素性集合に、正例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と名詞句である前記候補名詞句との組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記特殊名詞句ZEROとの組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成する請求項2記載のモデル学習方法。
  4. 解析対象文に含まれる述語について、格毎に、前記述語に対応する前記格に該当する名詞句である項を特定する述語項構造解析装置であって、
    前記解析対象文に含まれる述語について、前記解析対象文から、前記述語に対応する名詞句の候補となる名詞句、前記述語に対応する前記格に該当する名詞句が省略されていることを示す特殊名詞句ZERO、及び前記述語に対応する前記格が必要ないことを示す特殊名詞句NULLを含む候補名詞句を抽出する候補名詞句抽出部と、
    格毎に、前記解析対象文に含まれる前記述語と前記候補名詞句抽出部によって抽出された前記候補名詞句の各々との組み合わせの各々について、前記述語に関する素性と、前記候補名詞句に関する素性と、前記格に関する素性と、前記述語と前記候補名詞句との関係に関する素性を含む素性集合を生成する素性生成部と、
    格毎に、前記述語と前記候補名詞句との組み合わせの各々及び前記格について生成された素性集合と、前記格について前記述語に対応する前記格に該当する名詞句である項、前記述語に対応する前記格の前記特殊名詞句ZERO、及び前記述語に対応する前記格の前記特殊名詞句NULLを同定するための予め学習された項同定モデルとに基づいて、前記解析対象文に含まれる述語及び格の組み合わせ毎に候補名詞句に付与される尤もらしさを表す尤度に従い、尤度が最も高い候補名詞句である前記述語に対応する前記格に該当する名詞句である項、前記述語に対応する前記格の前記特殊名詞句ZERO、及び前記述語に対応する前記格の前記特殊名詞句NULLの何れかを同定する項同定部と、
    を含む述語項構造解析装置。
  5. 文に含まれる述語について、格毎に、前記述語に対応する前記格に該当する名詞句である項、及び前記述語に対応する前記格が必要ないことの何れか一方が予め特定された学習用の複数の文に基づいて、前記学習用の複数の文の各々について、前記文に含まれる述語に対応する名詞句の候補となる名詞句、前記述語に対応する前記格に該当する名詞句が省略されていることを示す特殊名詞句ZERO、及び前記述語に対応する前記格が必要ないことを示す特殊名詞句NULLを含む候補名詞句を抽出する学習用候補名詞句抽出部と、
    前記学習用の複数の文の各々に対し、格毎に、前記文に含まれる述語に対して抽出された前記候補名詞句の各々と前記述語との組み合わせの各々について、前記述語に関する素性と、前記候補名詞句に関する素性と、前記格に関する素性と、前記述語と前記候補名詞句との関係に関する素性を含む素性集合を生成する学習用素性生成部と、
    前記学習用の複数の文の各々に対し、格毎に、前記文に含まれる述語について予め特定された、前記項、及び前記格が必要ないことの何れか一方に基づいて、前記格、及び前記述語と前記候補名詞句の各々との組み合わせの各々について生成された素性集合の各々に、正例及び負例の何れか一方を示すラベルを付与し、前記ラベルを付与した前記素性集合を、学習データとして各々生成する学習データ生成部と、
    格毎に、前記格について生成された学習データに基づいて、前記格について前記述語に対応する前記格に該当する名詞句である項、前記述語に対応する前記格の前記特殊名詞句ZERO、及び前記述語に対応する前記格の前記特殊名詞句NULLを同定するために項同定モデルを学習するモデル学習部と、
    を含むモデル学習装置。
  6. 前記学習データ生成部は、格毎に、前記文に含まれる述語について、前記格に対応する前記項が前記文内に存在する場合、前記格、及び前記述語と前記項に該当する候補名詞句との組み合わせについて生成された素性集合に、正例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記項とは異なる名詞句である前記候補名詞句との組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記特殊名詞句NULLとの組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、
    前記格、及び前記述語と前記項に該当する候補名詞句との組み合わせについて生成された素性集合に、正例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記特殊名詞句ZEROとの組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、
    前記格、及び前記述語と前記特殊名詞句ZEROとの組み合わせについて生成された素性集合に、正例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記項とは異なる名詞句である前記候補名詞句との組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記特殊名詞句NULLとの組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、
    前記文に含まれる述語について、前記格に対応する前記項が前記文とは異なる文内に存在する場合、前記格、及び前記述語と前記特殊名詞句ZEROとの組み合わせについて生成された素性集合に、正例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と名詞句である前記候補名詞句との組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記特殊名詞句NULLとの組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、
    前記文に含まれる述語について、前記格が必要ない場合、前記格、及び前記述語と前記特殊名詞句NULLとの組み合わせについて生成された素性集合に、正例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と名詞句である前記候補名詞句との組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記特殊名詞句ZEROとの組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成する請求項5記載のモデル学習装置。
  7. 請求項1に記載の述語項構造解析方法を構成する各ステップをコンピュータに実行させるためのプログラム。
  8. 請求項2又は3に記載のモデル学習方法を構成する各ステップをコンピュータに実行させるためのプログラム。
JP2013186407A 2013-09-09 2013-09-09 述語項構造解析方法、モデル学習方法、装置、及びプログラム Active JP5755698B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013186407A JP5755698B2 (ja) 2013-09-09 2013-09-09 述語項構造解析方法、モデル学習方法、装置、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013186407A JP5755698B2 (ja) 2013-09-09 2013-09-09 述語項構造解析方法、モデル学習方法、装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2015052992A JP2015052992A (ja) 2015-03-19
JP5755698B2 true JP5755698B2 (ja) 2015-07-29

Family

ID=52701961

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013186407A Active JP5755698B2 (ja) 2013-09-09 2013-09-09 述語項構造解析方法、モデル学習方法、装置、及びプログラム

Country Status (1)

Country Link
JP (1) JP5755698B2 (ja)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5225219B2 (ja) * 2009-06-30 2013-07-03 日本電信電話株式会社 述語項構造解析方法、その装置及びプログラム

Also Published As

Publication number Publication date
JP2015052992A (ja) 2015-03-19

Similar Documents

Publication Publication Date Title
US10289952B2 (en) Semantic frame identification with distributed word representations
US20180329883A1 (en) Neural paraphrase generator
Belinkov et al. Arabic diacritization with recurrent neural networks
JP5936698B2 (ja) 単語意味関係抽出装置
KR101968102B1 (ko) 논팩토이드형 질의 응답 시스템 및 컴퓨터 프로그램
CN110427618B (zh) 对抗样本生成方法、介质、装置和计算设备
US9600469B2 (en) Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
Gokul et al. Sentence similarity detection in Malayalam language using cosine similarity
Rozovskaya et al. Correcting grammatical verb errors
Gómez-Adorno et al. A graph based authorship identification approach
Tezcan et al. Estimating word-level quality of statistical machine translation output using monolingual information alone
Nehar et al. Rational kernels for Arabic root extraction and text classification
JP6145059B2 (ja) モデル学習装置、形態素解析装置、及び方法
WO2019163642A1 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
Singh et al. Review of real-word error detection and correction methods in text documents
JP2016224483A (ja) モデル学習装置、方法、及びプログラム
Chuan-An et al. A unified RvNN framework for end-to-end chinese discourse parsing
Yeh et al. Chinese spelling check based on N-gram and string matching algorithm
JP2012146263A (ja) 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム
Hao et al. SCESS: a WFSA-based automated simplified chinese essay scoring system with incremental latent semantic analysis
JP5911931B2 (ja) 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体
JP5954836B2 (ja) 不理解文判定モデル学習方法、不理解文判定方法、装置、及びプログラム
JP5911911B2 (ja) 結束性判定装置、モデル学習装置、方法、及びプログラム
Han et al. Lexicalized neural unsupervised dependency parsing
JP5755698B2 (ja) 述語項構造解析方法、モデル学習方法、装置、及びプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150210

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150325

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150428

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150527

R150 Certificate of patent or registration of utility model

Ref document number: 5755698

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150