JP5755698B2

JP5755698B2 - 述語項構造解析方法、モデル学習方法、装置、及びプログラム

Info

Publication number: JP5755698B2
Application number: JP2013186407A
Authority: JP
Inventors: 今村　賢治; 賢治今村; 東中　竜一郎; 竜一郎東中
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2013-09-09
Filing date: 2013-09-09
Publication date: 2015-07-29
Anticipated expiration: 2033-09-09
Also published as: JP2015052992A

Description

本発明は、述語項構造解析方法、モデル学習方法、装置、及びプログラムに関し、特に述語の項を同定するための述語項構造解析方法、モデル学習方法、装置、及びプログラムに関する。

日本語の文や対話では、１つの文の中の要素（名詞句）が省略されることがある。この、省略された要素をゼロ代名詞と呼ぶ。たとえば、表１は、２名の対話の一部である。

上記表１の（例文２）「コツがわかると弾けるようになります。」だけを見た場合、誰が何を弾けるようになるのか、不明である。（例文１）と発話者まで見ると、これは、（例文２）は本来「コツがわかるとあなたがピアノを弾けるようになります」であるべき文のうち、述語「弾ける」のガ格とヲ格がゼロ代名詞化されているために起こった現象である。

このように、日本語では省略された格を発見し、その要素を補完しなければ、文の意味を適切にとらえることができない。

従来、ゼロ代名詞化を発見する方法として、格フレームを用いる方法（例えば、非特許文献１を参照。）がある。格フレームとは、各動詞や形容詞に対して、取りうる格と、その名詞句の意味素性が付与されたデータである。格フレームの例を表２に示す。

また、上記非特許文献１の構成を、図８に示す。解析対象文は、まず形態素解析を行い、単語に分割するとともに、品詞を付与する。また、形態素解析結果を係り受け解析し、文の文節係り受け構造を得る。

次に、文の文節を基に、述語を同定する。通常は、文節中の動詞、形容詞、形容動詞が述語となる。（例文２）では、「わかる」と「弾ける」が述語である。

次に、文節係り受け結果を基に、項となる名詞句の候補を抽出する。通常、名詞、代名詞、名詞接尾辞など、名詞性の品詞が連続する形態素列（単語列）が名詞句となる。

格フレームマッチでは、まず、述語をキーに格フレーム辞書を参照し、格フレームを得る。例えば、上記図８の格フレーム辞書を用いた場合、述語「わかる」はガ格が必要であり、その意味素性は抽象物である。格フレームマッチは、候補名詞句の中から、抽象物という意味素性を持つ名詞句を特定する。名詞句と意味素性の対応は、上記図８の名詞辞書に記載されている。もし、「コツ」の意味素性が抽象物である場合、「わかる」のガ格は「コツ」と特定され、「わかる」に関してはゼロ代名詞がないことを出力する。もし、候補名詞句中に抽象物という意味素性を持つ名詞句がない場合、「わかる」のガ格がゼロ代名詞化されていると判断し、述語とゼロ代名詞化された格を出力する。なお、上記非特許文献１の技術では、ゼロ代名詞化されていることを発見すると、それに該当する名詞句を、現在処理中の文より前方の文から選択するために、確率モデルを用いている。

また、ゼロ代名詞照応機能つき述語項構造解析（例えば、非特許文献２を参照。）を用いると、格フレーム辞書を用いずに、文のゼロ代名詞を発見することができる。非特許文献２の構成を図９に示す。

ゼロ代名詞照応機能付き述語項構造解析は、１つ以上の文から成り立つ解析対象文章を入力とし、前方の文から一文ごとに以下の処理を行い、すべての文の述語の格と名詞句を同定する。

（１）まず、上記非特許文献１の技術と同様に、形態素解析、係り受け解析、述語同定を行う。
（２）次に、項となる名詞句の候補を抽出する。この際、現在処理中の文の名詞句のみでなく、項スタックから、前方Ｎ文（Ｎ≧１）の述語で項となった名詞句も候補として加える。また、特殊名詞句「ＮＵＬＬ」も候補として加える。「ＮＵＬＬ」は、格が必要ない、または不明（外界照応）を表す特殊名詞句である。
（３）次に、素性選択では、候補名詞句ごとに、述語、格、候補名詞句、述語と候補名詞句の関係などを用いて素性集合を作成する。素性集合作成時には、言語モデルも使われることがある。
（４）項同定では、格ごとに、候補名詞句のスコアを算出し、最もスコアの高い候補を、その格の名詞句として出力する。また、同定した名詞句を項スタックに保存する。

なお、項同定モデルは、図１０に手順を示すように、述語項構造の正解データ（コーパス）から、正解の名詞句を正例、それ以外の候補名詞句を負例として、事後確率最大化推定法などを用いて、事前に学習する。正解コーパスは、文章（複数文）の全述語に対して、その項が特定されたものである。

例えば、解析対象文章が（例文１）、（例文２）の２文だったとする。ゼロ代名詞照応機能つき述語項構造解析を用いると、（例文１）の述語は「重い」、そのガ格の名詞句は「鍵盤」となる。（例文２）の述語は、「わかる」「弾ける」であるが、「わかる」に関しては、上記非特許文献１の技術と同様に、ガ格が「コツ」であると特定される。一方、「弾ける」に関しては、候補名詞句「コツ」「鍵盤」「ＮＵＬＬ」のうち、ガ格は「ＮＵＬＬ」、ヲ格は「鍵盤」と特定する。

ゼロ代名詞化判断では、特定された各述語の名詞句が、述語の存在する文中にあるかどうかを判定し、もし述語と異なる文の名詞句であれば、そこがゼロ代名詞であると判断する。たとえば、（例文１）の「重い」のガ格「鍵盤」は、述語と同一文であるので、「重い」にはゼロ代名詞がない。（例文２）の述語「弾ける」のヲ格「鍵盤」は述語と同一文ではないので、ヲ格がゼロ代名詞であると判断される。

関和広、藤井敦、石川徹也、「確率モデルを用いた日本語ゼロ代名詞の照応解析」、自然言語処理、2002年、9(3)、p.63‐85 Imamura, K.、Saito, K.、and Izumi, T.、「Discriminative Approach to Predicate-Argument Structure Analysis with Zero-Anaphora Resolution」、In Proceedings of the ACL-IJCNLP 2009 Conference Short Papers、2009年、Suntec, Singapore. Association for Computational Linguistics、p.85‐88

しかし、上記非特許文献１の技術では、上記表２には、「弾ける」に関する格フレームが記載されていないため、どの格がゼロ代名詞なのか、判断できない。このように、格フレームによる方法は、格フレーム辞書に記載されていない述語に関してはどの格がゼロ代名詞なのか、判断できないという問題がある。

また、上記非特許文献２の技術では、（例文２）の「弾ける」のガ格は、「ＮＵＬＬ」であるので、格が必要ないものであったのか、それともゼロ代名詞であるのにも関わらず特定できなかったのか、判断できない。また、ゼロ代名詞照応機能付き述語項構造解析には、すべての文を解析対象文章として入力する必要があるため、解析対象文章が（例文２）だけだった場合、「弾ける」のヲ格も「ＮＵＬＬ」になってしまうため、ヲ格に関してもゼロ代名詞化されているか判断できないという問題がある。

本発明は、上記の事情に鑑みてなされたもので、ゼロ代名詞であるか格が必要ないかを含む述語項構造の解析を精度よく行うことができる述語項構造解析方法、装置、及びプログラムを提供することを目的とする。
また、ゼロ代名詞であるか格が必要ないかを含む述語項構造の解析を精度よく行うための項同定モデルを得ることができるモデル学習方法、装置、及びプログラムを提供することを目的とする。

上記の目的を達成するために本発明に係る述語項構造解析方法は、候補名詞句抽出部、素性生成部、及び項同定部を含み、解析対象文に含まれる述語について、格毎に、前記述語に対応する前記格に該当する名詞句である項を特定する述語項構造解析装置における述語項構造解析方法であって、前記候補名詞句抽出部によって、前記解析対象文に含まれる述語について、前記解析対象文から、前記述語に対応する名詞句の候補となる名詞句、前記述語に対応する前記格に該当する名詞句が省略されていることを示す特殊名詞句ＺＥＲＯ、及び前記述語に対応する前記格が必要ないことを示す特殊名詞句ＮＵＬＬを含む候補名詞句を抽出するステップと、前記素性生成部によって、格毎に、前記解析対象文に含まれる前記述語と前記候補名詞句抽出部によって抽出された前記候補名詞句の各々との組み合わせの各々について、前記述語に関する素性と、前記候補名詞句に関する素性と、前記格に関する素性と、前記述語と前記候補名詞句との関係に関する素性を含む素性集合を生成するステップと、前記項同定部によって、格毎に、前記述語と前記候補名詞句との組み合わせの各々及び前記格について生成された素性集合と、前記格について前記述語に対応する前記格に該当する名詞句である項、前記述語に対応する前記格の前記特殊名詞句ＺＥＲＯ、及び前記述語に対応する前記格の前記特殊名詞句ＮＵＬＬを同定するための予め学習された項同定モデルとに基づいて、前記解析対象文に含まれる述語及び格の組み合わせ毎に候補名詞句に付与される尤もらしさを表す尤度に従い、尤度が最も高い候補名詞句である前記述語に対応する前記格に該当する名詞句である項、前記述語に対応する前記格の前記特殊名詞句ＺＥＲＯ、及び前記述語に対応する前記格の前記特殊名詞句ＮＵＬＬの何れかを同定するステップと、を含む。

本発明に係る述語項構造解析装置は、解析対象文に含まれる述語について、格毎に、前記述語に対応する前記格に該当する名詞句である項を特定する述語項構造解析装置であって、前記解析対象文に含まれる述語について、前記解析対象文から、前記述語に対応する名詞句の候補となる名詞句、前記述語に対応する前記格に該当する名詞句が省略されていることを示す特殊名詞句ＺＥＲＯ、及び前記述語に対応する前記格が必要ないことを示す特殊名詞句ＮＵＬＬを含む候補名詞句を抽出する候補名詞句抽出部と、格毎に、前記解析対象文に含まれる前記述語と前記候補名詞句抽出部によって抽出された前記候補名詞句の各々との組み合わせの各々について、前記述語に関する素性と、前記候補名詞句に関する素性と、前記格に関する素性と、前記述語と前記候補名詞句との関係に関する素性を含む素性集合を生成する素性生成部と、格毎に、前記述語と前記候補名詞句との組み合わせの各々及び前記格について生成された素性集合と、前記格について前記述語に対応する前記格に該当する名詞句である項、前記述語に対応する前記格の前記特殊名詞句ＺＥＲＯ、及び前記述語に対応する前記格の前記特殊名詞句ＮＵＬＬを同定するための予め学習された項同定モデルとに基づいて、前記解析対象文に含まれる述語及び格の組み合わせ毎に候補名詞句に付与される尤もらしさを表す尤度に従い、尤度が最も高い候補名詞句である前記述語に対応する前記格に該当する名詞句である項、前記述語に対応する前記格の前記特殊名詞句ＺＥＲＯ、及び前記述語に対応する前記格の前記特殊名詞句ＮＵＬＬの何れかを同定する項同定部とを含んで構成されている。

また、本発明に係るモデル学習方法は、学習用候補名詞句抽出部、学習用素性生成部、学習データ生成部、及びモデル学習部を含むモデル学習装置におけるモデル学習方法であって、前記学習用候補名詞句抽出部によって、文に含まれる述語について、格毎に、前記述語に対応する前記格に該当する名詞句である項、及び前記述語に対応する前記格が必要ないことの何れか一方が予め特定された学習用の複数の文に基づいて、前記学習用の複数の文の各々について、前記文に含まれる述語に対応する名詞句の候補となる名詞句、前記述語に対応する前記格に該当する名詞句が省略されていることを示す特殊名詞句ＺＥＲＯ、及び前記述語に対応する前記格が必要ないことを示す特殊名詞句ＮＵＬＬを含む候補名詞句を抽出するステップと、前記学習用素性生成部によって、前記学習用の複数の文の各々に対し、格毎に、前記文に含まれる述語に対して抽出された前記候補名詞句の各々と前記述語との組み合わせの各々について、前記述語に関する素性と、前記候補名詞句に関する素性と、前記格に関する素性と、前記述語と前記候補名詞句との関係に関する素性を含む素性集合を生成するステップと、前記学習データ生成部によって、前記学習用の複数の文の各々に対し、格毎に、前記文に含まれる述語について予め特定された、前記項、及び前記格が必要ないことの何れか一方に基づいて、前記格、及び前記述語と前記候補名詞句の各々との組み合わせの各々について生成された素性集合の各々に、正例及び負例の何れか一方を示すラベルを付与し、前記ラベルを付与した前記素性集合を、学習データとして各々生成するステップと、前記モデル学習部によって、格毎に、前記格について生成された学習データに基づいて、前記格について前記述語に対応する前記格に該当する名詞句である項、前記述語に対応する前記格の前記特殊名詞句ＺＥＲＯ、及び前記述語に対応する前記格の前記特殊名詞句ＮＵＬＬを同定するために項同定モデルを学習するステップと、を含む。

また、本発明に係るモデル学習装置は、文に含まれる述語について、格毎に、前記述語に対応する前記格に該当する名詞句である項、及び前記述語に対応する前記格が必要ないことの何れか一方が予め特定された学習用の複数の文に基づいて、前記学習用の複数の文の各々について、前記文に含まれる述語に対応する名詞句の候補となる名詞句、前記述語に対応する前記格に該当する名詞句が省略されていることを示す特殊名詞句ＺＥＲＯ、及び前記述語に対応する前記格が必要ないことを示す特殊名詞句ＮＵＬＬを含む候補名詞句を抽出する学習用候補名詞句抽出部と、前記学習用の複数の文の各々に対し、格毎に、前記文に含まれる述語に対して抽出された前記候補名詞句の各々と前記述語との組み合わせの各々について、前記述語に関する素性と、前記候補名詞句に関する素性と、前記格に関する素性と、前記述語と前記候補名詞句との関係に関する素性を含む素性集合を生成する学習用素性生成部と、前記学習用の複数の文の各々に対し、格毎に、前記文に含まれる述語について予め特定された、前記項、及び前記格が必要ないことの何れか一方に基づいて、前記格、及び前記述語と前記候補名詞句の各々との組み合わせの各々について生成された素性集合の各々に、正例及び負例の何れか一方を示すラベルを付与し、前記ラベルを付与した前記素性集合を、学習データとして各々生成する学習データ生成部と、格毎に、前記格について生成された学習データに基づいて、前記格について前記述語に対応する前記格に該当する名詞句である項、前記述語に対応する前記格の前記特殊名詞句ＺＥＲＯ、及び前記述語に対応する前記格の前記特殊名詞句ＮＵＬＬを同定するために項同定モデルを学習するモデル学習部とを含んで構成されている。

また、前記学習データ生成部は、格毎に、前記文に含まれる述語について、前記格に対応する前記項が前記文内に存在する場合、前記格、及び前記述語と前記項に該当する候補名詞句との組み合わせについて生成された素性集合に、正例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記項とは異なる名詞句である前記候補名詞句との組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記特殊名詞句ＮＵＬＬとの組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記項に該当する候補名詞句との組み合わせについて生成された素性集合に、正例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記特殊名詞句ＺＥＲＯとの組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記特殊名詞句ＺＥＲＯとの組み合わせについて生成された素性集合に、正例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記項とは異なる名詞句である前記候補名詞句との組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記特殊名詞句ＮＵＬＬとの組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、前記文に含まれる述語について、前記格に対応する前記項が前記文とは異なる文内に存在する場合、前記格、及び前記述語と前記特殊名詞句ＺＥＲＯとの組み合わせについて生成された素性集合に、正例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と名詞句である前記候補名詞句との組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記特殊名詞句ＮＵＬＬとの組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、前記文に含まれる述語について、前記格が必要ない場合、前記格、及び前記述語と前記特殊名詞句ＮＵＬＬとの組み合わせについて生成された素性集合に、正例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と名詞句である前記候補名詞句との組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記特殊名詞句ＺＥＲＯとの組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成するようにすることができる。

また、本発明に係る第１のプログラムは、上記の述語項構造解析方法の各ステップをコンピュータに実行させるためのプログラムである。

また、本発明に係る第２のプログラムは、上記のモデル学習方法の各ステップをコンピュータに実行させるためのプログラムである。

以上説明したように、本発明の述語項構造解析方法、装置、及びプログラムによれば、解析対象文に含まれる述語について、格毎に、候補名詞句の各々及び格について生成された素性集合と、予め学習された項同定モデルとに基づいて、述語に対応する格に該当する名詞句である項、述語に対応する格の特殊名詞句ＺＥＲＯ、及び述語に対応する格の特殊名詞句ＮＵＬＬの何れかを同定することにより、ゼロ代名詞であるか格が必要ないかを含む述語項構造の解析を精度よく行うことができる、という効果が得られる。

また、本発明のモデル学習方法、装置、及びプログラムによれば、学習用の複数の文に対し、格毎に、当該文に含まれる述語について予め特定された、項、及び格が必要ないことの何れか一方に基づいて、格、述語、及び候補名詞句の各々について生成された素性集合の各々に、正例及び負例の何れか一方を示すラベルを付与し、当該ラベルを付与した素性集合を、学習データとして各々生成し、格毎に、当該学習データに基づいて、格について述語に対応する格に該当する名詞句である項、述語に対応する格の特殊名詞句ＺＥＲＯ、及び述語に対応する格の特殊名詞句ＮＵＬＬを同定するために項同定モデルを学習することにより、ゼロ代名詞であるか格が必要ないかを含む述語項構造の解析を精度よく行うための項同定モデルを得ることができる、という効果が得られる。

本発明の実施の形態に係るモデル学習装置の一構成例を示すブロック図である。素性の一例を示す説明図である。項同定モデルを学習する際のスコアを説明するための説明図である。本発明の実施の形態に係る述語項構造解析装置の一構成例を示すブロック図である。本発明の実施の形態に係るモデル学習装置おけるモデル学習処理ルーチンの内容を示すフローチャートである。本発明の実施の形態に係るモデル学習装置おける学習データ生成処理ルーチンの内容を示すフローチャートである。本発明の実施の形態に係る述語項構造解析装置おける述語項構造解析処理ルーチンの内容を示すフローチャートである。従来技術を説明するための第１の説明図である。従来技術を説明するための第２の説明図である。従来技術を説明するための第３の説明図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜モデル学習装置のシステム構成＞
図１は、本発明の実施の形態に係るモデル学習装置１００を示すブロック図である。このモデル学習装置１００は、ＣＰＵと、ＲＡＭと、後述するモデル学習処理ルーチン及び学習データ生成処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備えたコンピュータで構成され、機能的には次に示すように構成されている。

本実施の形態に係るモデル学習装置１００は、図１に示すように、学習用入力部１と、学習用演算部２と、モデルデータベース３とを備えている。

学習用入力部１は、学習用の複数の文からなる文書を含む正解コーパスを受け付ける。正解コーパスは、文書（複数文）の全述語に対して、その項が特定されたものである。すなわち、正解コーパスの文書では、文に含まれる述語の各々について、格毎に、当該述語に対応する格に該当する名詞句である項、及び格が必要ないことの何れか一方が予め特定されている。なお、述語に対応する項が、異なる文に存在する場合には、当該異なる文内の項が特定されている。また、項が異なる文に存在する場合の中には、外界照応（格が必要だが、文書全体を見ても項に相当する名詞句が陽に現れていない場合）も含む。

学習用演算部２は、文データベース２０と、学習用形態素解析部２２と、学習用係り受け解析部２４と、学習用候補名詞句抽出部２６と、言語モデルデータベース２８と、学習用素性生成部３０と、学習データ生成部３２と、学習データベース３４と、モデル学習部３６とを備えている。

文データベース２０には、学習用入力部１により受け付けた正解コーパスが格納される。

学習用形態素解析部２２は、文データベース２０に格納された正解コーパスに含まれる学習用の各文に対し、形態素解析を行い、単語に分割するとともに、品詞を付与する。

学習用係り受け解析部２４は、学習用形態素解析部２２によって解析された解析結果に基づいて、文データベース２０に格納された正解コーパスに含まれる学習用の各文に対して係り受け解析を行い、文の文節係り受け構造を得る。

学習用候補名詞句抽出部２６は、学習用係り受け解析部２４によって解析された解析結果に基づいて、文データベース２０に格納された学習用の各文について、当該文に含まれる述語及び格の組み合わせの各々について、当該述語に対応する当該文内の名詞句の候補となる名詞句、特殊名詞句ＺＥＲＯ、及び特殊名詞句ＮＵＬＬを含む候補名詞句を抽出する。ここで、特殊名詞句ＺＥＲＯは、述語に対応する格に該当する名詞句が省略されていることを示す特殊名詞句である。また、特殊名詞句ＮＵＬＬは、述語に対応する格が必要ないことを示す特殊名詞句である。
具体的には、学習用候補名詞句抽出部２６は、上記非特許文献１の技術と同様に、学習用の各文について、名詞、代名詞、名詞接尾辞など、名詞性の品詞が連続する形態素列（単語列）を名詞句として抽出し、名詞句の候補となる名詞句、特殊名詞句ＺＥＲＯ、及び特殊名詞句ＮＵＬＬを含む候補名詞句を抽出する。

言語モデルデータベース２８には、予め学習された言語モデルが格納されている。ここで、言語モデルは、述語ｖと格ｃとが与えられたときの名詞句ｎの生成確率Ｐ（ｎ｜ｃ，ｖ）を算出する（例えば、参考文献（特許５２２５２１９号公報）を参照。）。

学習用素性生成部３０は、文データベース２０に格納された学習用の各文に対し、当該文に含まれる述語及び格の組み合わせ毎に、当該組み合わせに対して抽出された候補名詞句の各々について、述語に関する素性と、候補名詞句に関する素性と、格に関する素性と、述語と候補名詞句との関係に関する素性を含む素性集合を生成する（例えば、上記参考文献（特許５２２５２１９号公報）を参照。）。具体的には、学習用素性生成部３０は、文に含まれる述語及び格の組み合わせ毎に、図２に示すような各素性を含む素性集合を生成する。なお、素性集合のうちの言語モデルスコアは、例えば、言語モデルデータベース２８に格納された予め学習された言語モデルに基づいて生成される。また、素性は、図２に示したものに限定されない。他の素性を用いてもよい。

学習データ生成部３２は、文データベース２０に格納された学習用の各文に対し、当該文に含まれる述語及び格の組み合わせ毎に、当該組み合わせについて予め特定された、項、及び格が必要ないことの何れか一方に基づいて、格、述語、及び候補名詞句の各々について生成された素性集合の各々に、正例及び負例の何れか一方を示すラベルを付与し、当該ラベルを付与した素性集合を、学習データとして各々生成する。
具体的には、学習データ生成部３２は、学習用の各文について、当該文に含まれる述語及び格の組み合わせ毎に、以下の処理を行い、学習データを生成する。

（１）文内に正解名詞句が存在する場合、以下の３種類の学習データを生成する。
（Ａ）当該述語及び格の組み合わせと正解の名詞句とについて生成された素性集合を正例、当該述語及び格の組み合わせと正解の名詞句以外の名詞句である候補名詞句とについて生成された素性集合、並びに当該述語及び格の組み合わせと特殊名詞句「ＮＵＬＬ」とについて生成された素性集合を負例とした学習データを生成する。
（Ｂ）当該述語及び格の組み合わせと正解の名詞句とについて生成された素性集合を正例、当該述語及び格の組み合わせと特殊名詞句「ＺＥＲＯ」とについて生成された素性集合を負例とした学習データを生成する。
（Ｃ）当該述語及び格の組み合わせと特殊名詞句「ＺＥＲＯ」とについて生成された素性集合を正例、当該述語及び格の組み合わせと正解の名詞句以外の名詞句である候補名詞句とについて生成された素性集合、並びに当該述語及び格の組み合わせと特殊名詞句「ＮＵＬＬ」とについて生成された素性集合を負例とした学習データを生成する。

（２）正解の名詞句が述語と別文の場合、当該述語及び格の組み合わせと特殊名詞句「ＺＥＲＯ」とについて生成された素性集合を正例、当該述語及び格の組み合わせと名詞句である全ての候補名詞句とについて生成された素性集合、並びに当該述語及び格の組み合わせと特殊名詞句「ＮＵＬＬ」とについて生成された素性集合を負例とした学習データを生成する。

（３）格が必要ない場合、当該述語及び格の組み合わせと特殊名詞句「ＮＵＬＬ」とについて生成された素性集合を正例、当該述語及び格の組み合わせと名詞句である全ての候補名詞句とについて生成された素性集合、並びに当該述語及び格の組み合わせと特殊名詞句「ＺＥＲＯ」とについて生成された素性集合を負例とした学習データを生成する。

学習データベース３４には、学習データ生成部３２によって生成された学習データが格納される。

モデル学習部３６は、格毎に、当該格について生成された学習データに基づいて、述語に対応する当該格に該当する名詞句である項、述語に対応する当該格の特殊名詞句ＺＥＲＯ、及び述語に対応する当該格の特殊名詞句ＮＵＬＬを同定するために項同定モデルを学習する。
例えば、モデル学習部３６は、上記非特許文献２と同様に、正例データのスコアを高く、負例データのスコアを低くするように、事後確率最大化法などを用いて素性の重みを推定し、項同定モデルを学習する。

その結果、項同定において、もし述語に対するある格の名詞句が文内に存在する場合、その名詞句が他の名詞句、「ＮＵＬＬ」「ＺＥＲＯ」より高いスコアとなり、もし述語に対するある格の名詞句が別の文に存在する場合、「ＺＥＲＯ」が名詞句および「ＮＵＬＬ」より高いスコアとなり、もし述語に対するある格が必要ない場合、「ＮＵＬＬ」が名詞句および「ＺＥＲＯ」より高いスコアとなるような項同定モデルが学習される。

モデルデータベース３には、モデル学習部３６によって学習された格毎の項同定モデルが格納される。

＜述語項構造解析装置のシステム構成＞
図４は、本発明の実施の形態に係る述語項構造解析装置２００を示すブロック図である。述語項構造解析装置２００は、解析対象文に含まれる述語について、格毎に、当該述語に対応する格に該当する名詞句である項を特定する。この述語項構造解析装置２００は、ＣＰＵと、ＲＡＭと、後述する述語項構造解析処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備えたコンピュータで構成され、機能的には次に示すように構成されている。

本実施の形態に係る述語項構造解析装置２００は、図４に示すように、入力部４と、言語モデルデータベース５と、モデルデータベース６と、演算部７と、出力部８とを備えている。

入力部４は、述語項構造解析の解析対象文を受け付ける。

言語モデルデータベース５には、上記モデル学習装置１００の言語モデルデータベース２８と同じ言語モデルが格納されている。

モデルデータベース６には、上記モデル学習装置１００のモデルデータベース３と同じ項同定モデルが格納されている。

演算部７は、入力部４により受け付けた解析対象文の述語項構造解析を行う。また、演算部７は、形態素解析部７０と、係り受け解析部７２と、述語同定部７４と、候補名詞句抽出部７６と、素性生成部７８と、項同定部８０とを備えている。

形態素解析部７０は、入力部４により受け付けた解析対象文に対し、形態素解析を行い、単語に分割するとともに、品詞を付与する。

係り受け解析部７２は、形態素解析部７０によって解析された解析結果に基づいて、入力された解析対象文に対して係り受け解析を行い、文の文節係り受け構造を得る。

述語同定部７４は、係り受け解析部７２によって解析された解析結果に基づいて、入力された解析対象文の述語を同定する。通常は、文節中の動詞、形容詞、形容動詞が述語となる。

候補名詞句抽出部７６は、係り受け解析部７２によって解析された解析結果に基づいて、入力された解析対象文に含まれる述語及び格の組み合わせの各々について、当該解析対象文から、学習用候補名詞句抽出部２６と同様に、当該述語に対応する名詞句の候補となる名詞句、特殊名詞句ＺＥＲＯ、及び特殊名詞句ＮＵＬＬを含む候補名詞句を抽出する。

素性生成部７８は、解析対象文に含まれる述語及び格の組み合わせ毎に、候補名詞句抽出部７６によって当該組み合わせについて抽出された候補名詞句の各々について、学習用素性生成部３０と同様に、言語モデルデータベース５に格納された言語モデルを用いて、述語に関する素性と、候補名詞句に関する素性と、格に関する素性と、述語と前記候補名詞句との関係に関する素性を含む素性集合を生成する。

項同定部８０は、解析対象文に含まれる述語及び格の組み合わせ毎に、素性生成部７８によって当該組み合わせに対する候補名詞句の各々について生成された素性集合と、モデルデータベース６に格納された当該格に対する項同定モデルとに基づいて、当該述語及び格の組み合わせについて、当該述語に対応する当該格に該当する名詞句である項、当該述語に対応する当該格の特殊名詞句ＺＥＲＯ、及び当該述語に対応する当該格の特殊名詞句ＮＵＬＬの何れかを同定する。具体的には、項同定部８０は、解析対象文に含まれる述語及び格の組み合わせ毎に、候補名詞句の各々のスコアを算出し、最もスコアの高い候補名詞句を同定する。
たとえば、（例文２）において、述語「弾ける」の項を同定する場合、当該文に含まれる候補名詞句「コツ」、特殊名詞句ＺＥＲＯ、特殊名詞句ＮＵＬＬのいずれかがもっともらしいか同定するが、格毎に、素性生成部７８によって当該組み合わせに対する候補名詞句の各々について生成された素性集合と、モデルデータベース６に格納された当該格に対する項同定モデルとに基づいて、上記非特許文献２などで示されている方法でスコアを計算すると、図３のようなスコアが得られる。ここでスコアが最も高い候補名詞句は、ガ格ではＺＥＲＯ、ヲ格ではＺＥＲＯ、二格ではＮＵＬＬとなる。

出力部８は、項同定部８０によって解析対象文に含まれる述語及び格の組み合わせ毎に同定された結果を出力する。また、出力部８は、ある述語及び格の組み合わせについて最もスコアの高い候補名詞句が「ＺＥＲＯ」だった場合、その格をゼロ代名詞化された格として出力する。もし、最もスコアの高い候補が「ＮＵＬＬ」だった場合、その格は当該述語に不必要なものと判断し、出力しない。

＜モデル学習装置の作用＞
次に、本実施の形態に係るモデル学習装置１００の作用について説明する。まず、学習用の複数の文からなる文書を含む正解コーパスがモデル学習装置１００に入力されると、モデル学習装置１００によって、入力された正解コーパスが、文データベース２０へ格納される。そして、モデル学習装置１００によって、図５に示すモデル学習処理ルーチンが実行される。

まず、ステップＳ１００において、文データベース２０に格納された学習用の複数の文のうち、１つの文を設定する。

次に、ステップＳ１０２において、学習用形態素解析部２２によって、上記ステップＳ１００で設定された文に対し、形態素解析を行い、単語に分割するとともに、品詞を付与する。

ステップＳ１０４において、学習用係り受け解析部２４によって、上記ステップＳ１０２で解析された形態素解析結果に基づいて、上記ステップＳ１００で設定された文に対して係り受け解析を行い、当該文の文節係り受け構造を得る。

ステップＳ１０６において、学習用候補名詞句抽出部２６によって、上記ステップＳ１０４で解析された係り受け解析結果に基づいて、上記ステップＳ１００で設定された文について、当該文に含まれる述語及び格の組み合わせの各々について、当該述語に対応する当該文内の名詞句の候補となる名詞句、特殊名詞句ＺＥＲＯ、及び特殊名詞句ＮＵＬＬを含む候補名詞句を抽出する。

ステップＳ１０８において、上記ステップＳ１００で設定された文の述語のうち、１つの述語を設定する。

ステップＳ１１０において、上記ステップＳ１０８で設定された述語の格（ガ格、ニ格、ヲ格）のうち、１つの格を設定する。

ステップＳ１１２において、学習用素性生成部３０によって、上記ステップＳ１０８で設定された述語及び上記ステップＳ１１０で設定された格の組み合わせに対し、当該組み合わせに対して抽出された候補名詞句の各々について、述語に関する素性と、候補名詞句に関する素性と、格に関する素性と、述語と候補名詞句との関係に関する素性を含む素性集合を生成する。

ステップＳ１１４において、学習データ生成部３２によって、上記ステップＳ１０８で設定された述語及び上記ステップＳ１１０で設定された格の組み合わせに対し、当該組み合わせについて予め特定された、項、及び格が必要ないことの何れか一方に基づいて、格、述語、及び候補名詞句の各々について生成された素性集合の各々に、正例及び負例の何れか一方を示すラベルを付与し、当該ラベルを付与した素性集合を、学習データとして各々生成する。ステップＳ１１４は、図６に示す学習データ生成処理ルーチンによって実現される。

まず、ステップＳ１５０において、上記ステップＳ１０８で設定された述語には、上記ステップＳ１１０で設定された格が必要であるか否かを判定する。そして、当該述語に当該格が必要である場合には、ステップＳ１５４へ進む。一方、当該述語に当該格が必要ない場合には、ステップＳ１５２へ進む。

ステップＳ１５２において、上記ステップＳ１０８で設定された述語及び上記ステップＳ１１０で設定された格の組み合わせと特殊名詞句「ＮＵＬＬ」とについて生成された素性集合を正例、当該述語及び当該格の組み合わせと名詞句である全ての候補名詞句とについて生成された素性集合、並びに当該述語及び当該格の組み合わせと特殊名詞句「ＺＥＲＯ」とについて生成された素性集合を負例とした学習データを生成する。

ステップＳ１５４において、上記ステップＳ１０８で設定された述語に対応する上記ステップＳ１１０で設定された格に該当する正解の名詞句は、当該述語と同一文内に存在するか否かを判定する。正解の名詞句が、当該述語と同一文内に存在する場合には、ステップＳ１５６へ進む。一方、正解の名詞句が、当該述語と同一文内に存在しない場合には、ステップＳ１６２へ進む。

ステップＳ１５６において、上記ステップＳ１０８で設定された述語及び上記ステップＳ１１０で設定された格の組み合わせと正解の名詞句とについて生成された素性集合を正例、当該述語及び当該格の組み合わせと正解の名詞句以外の名詞句である候補名詞句とについて生成された素性集合、並びに当該述語及び当該格の組み合わせと特殊名詞句「ＮＵＬＬ」とについて生成された素性集合を負例とした学習データを生成する。

ステップＳ１５８において、上記ステップＳ１０８で設定された述語及び上記ステップＳ１１０で設定された格の組み合わせと正解の名詞句とについて生成された素性集合を正例、当該述語及び当該格の組み合わせと特殊名詞句「ＺＥＲＯ」とについて生成された素性集合を負例とした学習データを生成する。

ステップＳ１６０において、上記ステップＳ１０８で設定された述語及び上記ステップＳ１１０で設定された格の組み合わせと特殊名詞句「ＺＥＲＯ」とについて生成された素性集合を正例、当該述語及び当該格の組み合わせと正解の名詞句以外の名詞句である候補名詞句とについて生成された素性集合、並びに当該述語及び当該格の組み合わせと特殊名詞句「ＮＵＬＬ」とについて生成された素性集合を負例とした学習データを生成する。

ステップＳ１６２において、上記ステップＳ１０８で設定された述語及び上記ステップＳ１１０で設定された格の組み合わせと特殊名詞句「ＺＥＲＯ」とについて生成された素性集合を正例、当該述語及び当該格の組み合わせと名詞句である全ての候補名詞句とについて生成された素性集合、並びに当該述語及び当該格の組み合わせと特殊名詞句「ＮＵＬＬ」とについて生成された素性集合を負例とした学習データを生成する。

そして、ステップＳ１６４において、上記ステップＳ１５２、ステップＳ１５６〜Ｓ１６０、又はステップＳ１６２で生成された学習データを出力して、学習データ生成処理ルーチンを終了する。

次に、モデル学習処理ルーチンに戻り、ステップＳ１１６において、上記ステップＳ１１４で生成された学習データを学習データベース３４に格納する。

ステップＳ１１８において、上記ステップＳ１０８で設定された述語の格（ガ格、ニ格、ヲ格）の全てについて、上記ステップＳ１１０〜Ｓ１１６の処理を実行したか否かを判定する。全ての格について、上記ステップＳ１１０〜Ｓ１１６の処理を実行した場合には、ステップＳ１２０へ進む。一方、上記ステップＳ１１０〜Ｓ１１６の処理を実行していない格が存在する場合には、ステップＳ１１０へ戻る。

ステップＳ１２０において、上記ステップＳ１００で設定された文に含まれる全ての述語について、上記ステップＳ１０８〜Ｓ１１８の処理を実行したか否かを判定する。全ての述語について上記ステップＳ１０８〜Ｓ１１８の処理を実行した場合には、ステップＳ１２２へ進む。一方、上記ステップＳ１０８〜Ｓ１１８の処理を実行していない述語が存在する場合には、ステップＳ１０８へ戻る。

ステップＳ１２２において、文データベース２０に格納された全ての学習用の文について、上記ステップＳ１００〜Ｓ１２０の処理を実行したか否かを判定する。全ての学習用の文について、上記ステップＳ１００〜Ｓ１２０の処理を実行した場合には、ステップＳ１２４へ進む。一方、上記ステップＳ１００〜Ｓ１２０の処理を実行していない学習用の文が存在する場合には、ステップＳ１００へ戻る。

ステップＳ１２４において、モデル学習部３６によって、格毎に、上記ステップＳ１１６で学習データベース３４に格納された、当該格について生成された学習データに基づいて、当該格に対する項同定モデルを学習する。

ステップＳ１２６において、上記ステップＳ１２４で学習された格毎の項同定モデルをモデルデータベース３へ格納して、モデル学習処理ルーチンを終了する。

＜述語項構造解析装置の作用＞
次に、本実施の形態に係る述語項構造解析装置２００の作用について説明する。まず、モデル学習装置１００のモデルデータベース３に記憶されている項同定モデルが、述語項構造解析装置２００に入力されると、モデルデータベース６に格納される。そして、述語項構造解析対象としての解析対象文が述語項構造解析装置２００に入力されると、述語項構造解析装置２００によって、図７に示す述語項構造解析処理ルーチンが実行される。

まず、ステップＳ２００において、入力部４によって、述語項構造解析の解析対象文を受け付ける。

次に、ステップＳ２０２において、形態素解析部７０によって、上記ステップＳ２００で受け付けた解析対象文に対し、形態素解析を行い、単語に分割するとともに、品詞を付与する。

ステップＳ２０４において、係り受け解析部７２によって、上記ステップＳ２０２で解析された形態素解析結果に基づいて、上記ステップＳ２００で受け付けた解析対象文に対して係り受け解析を行い、文の文節係り受け構造を得る。

ステップＳ２０６において、述語同定部７４によって、上記ステップＳ２０４で解析された係り受け解析結果に基づいて、解析対象文の述語を同定する。

ステップＳ２０８において、上記ステップＳ２０６で同定された解析対象文に含まれる述語のうち、１つの述語を設定する。

ステップＳ２１０において、上記ステップＳ２０８で設定された述語の格（ガ格、ニ格、ヲ格）のうち、一つの格を設定する。

ステップＳ２１２において、候補名詞句抽出部７６によって、上記ステップＳ２０４で解析された係り受け解析結果に基づいて、上記ステップＳ２０６で同定された述語、及び上記ステップＳ２１０で設定された格の組み合わせについて、当該解析対象文から、学習用候補名詞句抽出部２６と同様に、当該述語に対応する名詞句の候補となる名詞句、特殊名詞句ＺＥＲＯ、及び特殊名詞句ＮＵＬＬを含む候補名詞句を抽出する。

ステップＳ２１４において、素性生成部７８によって、上記ステップＳ２０８で設定された述語及び上記ステップＳ２１０で設定された格の組み合わせに対し、上記ステップＳ２１２で当該組み合わせについて抽出された候補名詞句の各々について、学習用素性生成部３０と同様に、述語に関する素性と、候補名詞句に関する素性と、格に関する素性と、述語と前記候補名詞句との関係に関する素性を含む素性集合を生成する。

ステップＳ２１６において、上記ステップＳ２１０で設定された格に対する項同定モデルをモデルデータベース６から読み込む。

ステップＳ２１８において、項同定部８０によって、上記ステップＳ２０８で設定された述語及び上記ステップＳ２１０で設定された格の組み合わせで、上記ステップＳ２１４で当該組み合わせに対する候補名詞句の各々について生成された素性集合と、ステップＳ２１６で読み込まれた当該格に対する項同定モデルとに基づいて、当該述語及び当該格の組み合わせについて、当該述語に対応する当該格に該当する名詞句である項、当該述語に対応する当該格の特殊名詞句ＺＥＲＯ、及び当該述語に対応する当該格の特殊名詞句ＮＵＬＬの何れかを同定する。

ステップＳ２２０において、上記ステップＳ２１０で設定された述語の格（ガ格、ニ格、ヲ格）の全てについて、上記ステップＳ２１０〜Ｓ２１８の処理を実行したか否かを判定する。全ての格について、上記ステップＳ２１０〜Ｓ２１８の処理を実行した場合には、ステップＳ２２２へ進む。一方、上記ステップＳ２１０〜Ｓ２１８の処理を実行していない格が存在する場合には、ステップＳ２１０へ戻る。

ステップＳ２２２において、解析対象文に含まれる全ての述語について、上記ステップＳ２０８〜Ｓ２２０の処理を実行したか否かを判定する。全ての述語について上記ステップＳ２０８〜Ｓ２２０の処理を実行した場合には、ステップＳ２２４へ進む。一方、上記ステップＳ２０８〜Ｓ２２０の処理を実行していない述語が存在する場合には、ステップＳ２０８へ戻る。

そして、ステップＳ２２４において、述語及び格の組み合わせ毎に、上記ステップＳ２１８で同定された結果を出力して、述語項構造解析処理ルーチンを終了する。

以上説明したように、本実施の形態に係るモデル学習装置１００によれば、学習用の複数の文に対し、格毎に、当該文に含まれる述語について予め特定された、項、及び格が必要ないことの何れか一方に基づいて、格、述語、及び候補名詞句の各々について生成された素性集合の各々に、正例及び負例の何れか一方を示すラベルを付与し、当該ラベルを付与した素性集合を、学習データとして各々生成し、格毎に、当該学習データに基づいて、格について述語に対応する格に該当する名詞句である項、述語に対応する格の特殊名詞句ＺＥＲＯ、及び述語に対応する格の特殊名詞句ＮＵＬＬを同定するための項同定モデルを学習することにより、ゼロ代名詞であるか格が必要ないかを含む述語項構造の解析を精度よく行うための項同定モデルを得ることができる。

また、本実施の形態に係る述語項構造解析装置２００によれば、解析対象文に含まれる述語について、格毎に、候補名詞句の各々及び格について生成された素性集合と、当該格に対する項同定モデルとに基づいて、述語に対応する格に該当する名詞句である項、述語に対応する格の特殊名詞句ＺＥＲＯ、及び述語に対応する格の特殊名詞句ＮＵＬＬの何れかを同定することにより、ゼロ代名詞であるか格が必要ないかを含む述語項構造の解析を精度よく行うことができる。

また、候補名詞句に、特殊名詞句ＺＥＲＯとＮＵＬＬが含まれ、候補名詞句から格ごとに最良なものを同定し、同定結果がＺＥＲＯだった場合に、その格の名詞句が省略されていると判断することができる。

また、解析対象文の各述語の格が必要ではない場合と、ゼロ代名詞化されている場合とを区別することができ、適切なゼロ代名詞を発見することができる。

また、解析対象文が１文しかない場合であっても、ゼロ代名詞を発見することができる。

また、本実施の形態に係る述語項構造解析装置２００を、文脈の話題を管理できるシステムから呼びだすと、解析対象文にゼロ代名詞があると判定された場合のみ、そのゼロ代名詞に適切な名詞句を補完することも可能となる。

例えば、本実施の形態を対話システムに組み込み、対話システムが、解析対象文書の話題を管理したとする。対話システムに、上記の（例文１）が入力されたときに、対話システムが、「ピアノ」の方が「鍵盤」より話題にふさわしいと判定し、「ピアノ」について話題を表す名詞句として保存する。上記の（例文２）が入力されたとき、本実施の形態に係る述語項構造解析装置２００を用いて、述語「弾ける」のヲ格がゼロ代名詞であることがわかると、対話システムが現在の話題「ピアノ」をヲ格の名詞句とみなし、「ピアノを弾ける」と意味解釈することも可能となる。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、述語項構造解析装置２００では、形態素解析部７０、係り受け解析部７２、及び述語同定部７４を備える場合を例に説明したが、これに限定されるものではなく、これらを省略してもよい。その場合には、形態素解析、係り受け解析、及び述語同定済みの解析対象文を入力部４により受け付ける。

また、モデル学習装置１００は、モデルデータベース３、文データベース２０、言語モデルデータベース２８、及び学習データベース３４を備えている場合について説明したが、例えばモデルデータベース３、文データベース２０、言語モデルデータベース２８、及び学習データベース３４がモデル学習装置１００の外部装置に設けられ、モデル学習装置１００は、外部装置と通信手段を用いて通信することにより、モデルデータベース３、文データベース２０、言語モデルデータベース２８、及び学習データベース３４を参照するようにしてもよい。

また、述語項構造解析装置２００は、言語モデルデータベース５、及びモデルデータベース３を備えている場合について説明したが、例えば言語モデルデータベース５、及びモデルデータベース３が述語項構造解析装置２００の外部装置に設けられ、述語項構造解析装置２００は、外部装置と通信手段を用いて通信することにより、言語モデルデータベース５、及びモデルデータベース３を参照するようにしてもよい。

また、本実施の形態では、述語に対応する格として「ガ格」、「ヲ格」、「ニ格」を同定する場合を例に説明したが、これに限定されるものではなく、他の格を含めても良い。

また、上記実施の形態では、モデル学習装置１００と述語項構造解析装置２００とを別々の装置として構成する場合を例に説明したが、モデル学習装置１００と述語項構造解析装置２００とを１つの装置として構成してもよい。

上述のモデル学習装置１００及び述語項構造解析装置２００は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１学習用入力部
２学習用演算部
３、６モデルデータベース
４入力部
５、２８言語モデルデータベース
７演算部
８出力部
２０文データベース
２２学習用形態素解析部
２４学習用係り受け解析部
２６学習用候補名詞句抽出部
３０学習用素性生成部
３２学習データ生成部
３４学習データベース
３６モデル学習部
７０形態素解析部
７２係り受け解析部
７４述語同定部
７６候補名詞句抽出部
７８素性生成部
８０項同定部
１００モデル学習装置
２００述語項構造解析装置

Claims

候補名詞句抽出部、素性生成部、及び項同定部を含み、解析対象文に含まれる述語について、格毎に、前記述語に対応する前記格に該当する名詞句である項を特定する述語項構造解析装置における述語項構造解析方法であって、
前記候補名詞句抽出部によって、前記解析対象文に含まれる述語について、前記解析対象文から、前記述語に対応する名詞句の候補となる名詞句、前記述語に対応する前記格に該当する名詞句が省略されていることを示す特殊名詞句ＺＥＲＯ、及び前記述語に対応する前記格が必要ないことを示す特殊名詞句ＮＵＬＬを含む候補名詞句を抽出するステップと、
前記素性生成部によって、格毎に、前記解析対象文に含まれる前記述語と前記候補名詞句抽出部によって抽出された前記候補名詞句の各々との組み合わせの各々について、前記述語に関する素性と、前記候補名詞句に関する素性と、前記格に関する素性と、前記述語と前記候補名詞句との関係に関する素性を含む素性集合を生成するステップと、
前記項同定部によって、格毎に、前記述語と前記候補名詞句との組み合わせの各々及び前記格について生成された素性集合と、前記格について前記述語に対応する前記格に該当する名詞句である項、前記述語に対応する前記格の前記特殊名詞句ＺＥＲＯ、及び前記述語に対応する前記格の前記特殊名詞句ＮＵＬＬを同定するための予め学習された項同定モデルとに基づいて、前記解析対象文に含まれる述語及び格の組み合わせ毎に候補名詞句に付与される尤もらしさを表す尤度に従い、尤度が最も高い候補名詞句である前記述語に対応する前記格に該当する名詞句である項、前記述語に対応する前記格の前記特殊名詞句ＺＥＲＯ、及び前記述語に対応する前記格の前記特殊名詞句ＮＵＬＬの何れかを同定するステップと、
を含む述語項構造解析方法。
学習用候補名詞句抽出部、学習用素性生成部、学習データ生成部、及びモデル学習部を含むモデル学習装置におけるモデル学習方法であって、
前記学習用候補名詞句抽出部によって、文に含まれる述語について、格毎に、前記述語に対応する前記格に該当する名詞句である項、及び前記述語に対応する前記格が必要ないことの何れか一方が予め特定された学習用の複数の文に基づいて、前記学習用の複数の文の各々について、前記文に含まれる述語に対応する名詞句の候補となる名詞句、前記述語に対応する前記格に該当する名詞句が省略されていることを示す特殊名詞句ＺＥＲＯ、及び前記述語に対応する前記格が必要ないことを示す特殊名詞句ＮＵＬＬを含む候補名詞句を抽出するステップと、
前記学習用素性生成部によって、前記学習用の複数の文の各々に対し、格毎に、前記文に含まれる述語に対して抽出された前記候補名詞句の各々と前記述語との組み合わせの各々について、前記述語に関する素性と、前記候補名詞句に関する素性と、前記格に関する素性と、前記述語と前記候補名詞句との関係に関する素性を含む素性集合を生成するステップと、
前記学習データ生成部によって、前記学習用の複数の文の各々に対し、格毎に、前記文に含まれる述語について予め特定された、前記項、及び前記格が必要ないことの何れか一方に基づいて、前記格、及び前記述語と前記候補名詞句の各々との組み合わせの各々について生成された素性集合の各々に、正例及び負例の何れか一方を示すラベルを付与し、前記ラベルを付与した前記素性集合を、学習データとして各々生成するステップと、
前記モデル学習部によって、格毎に、前記格について生成された学習データに基づいて、前記格について前記述語に対応する前記格に該当する名詞句である項、前記述語に対応する前記格の前記特殊名詞句ＺＥＲＯ、及び前記述語に対応する前記格の前記特殊名詞句ＮＵＬＬを同定するために項同定モデルを学習するステップと、
を含むモデル学習方法。
前記学習データ生成部によって前記項同定モデルを学習するステップは、格毎に、前記文に含まれる述語について、前記格に対応する前記項が前記文内に存在する場合、前記格、及び前記述語と前記項に該当する候補名詞句との組み合わせについて生成された素性集合に、正例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記項とは異なる名詞句である前記候補名詞句との組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記特殊名詞句ＮＵＬＬとの組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、
前記格、及び前記述語と前記項に該当する候補名詞句との組み合わせについて生成された素性集合に、正例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記特殊名詞句ＺＥＲＯとの組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、
前記格、及び前記述語と前記特殊名詞句ＺＥＲＯとの組み合わせについて生成された素性集合に、正例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記項とは異なる名詞句である前記候補名詞句との組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記特殊名詞句ＮＵＬＬとの組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、
前記文に含まれる述語について、前記格に対応する前記項が前記文とは異なる文内に存在する場合、前記格、及び前記述語と前記特殊名詞句ＺＥＲＯとの組み合わせについて生成された素性集合に、正例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と名詞句である前記候補名詞句との組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記特殊名詞句ＮＵＬＬとの組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、
前記文に含まれる述語について、前記格が必要ない場合、前記格、及び前記述語と前記特殊名詞句ＮＵＬＬとの組み合わせについて生成された素性集合に、正例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と名詞句である前記候補名詞句との組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記特殊名詞句ＺＥＲＯとの組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成する請求項２記載のモデル学習方法。
解析対象文に含まれる述語について、格毎に、前記述語に対応する前記格に該当する名詞句である項を特定する述語項構造解析装置であって、
前記解析対象文に含まれる述語について、前記解析対象文から、前記述語に対応する名詞句の候補となる名詞句、前記述語に対応する前記格に該当する名詞句が省略されていることを示す特殊名詞句ＺＥＲＯ、及び前記述語に対応する前記格が必要ないことを示す特殊名詞句ＮＵＬＬを含む候補名詞句を抽出する候補名詞句抽出部と、
格毎に、前記解析対象文に含まれる前記述語と前記候補名詞句抽出部によって抽出された前記候補名詞句の各々との組み合わせの各々について、前記述語に関する素性と、前記候補名詞句に関する素性と、前記格に関する素性と、前記述語と前記候補名詞句との関係に関する素性を含む素性集合を生成する素性生成部と、
格毎に、前記述語と前記候補名詞句との組み合わせの各々及び前記格について生成された素性集合と、前記格について前記述語に対応する前記格に該当する名詞句である項、前記述語に対応する前記格の前記特殊名詞句ＺＥＲＯ、及び前記述語に対応する前記格の前記特殊名詞句ＮＵＬＬを同定するための予め学習された項同定モデルとに基づいて、前記解析対象文に含まれる述語及び格の組み合わせ毎に候補名詞句に付与される尤もらしさを表す尤度に従い、尤度が最も高い候補名詞句である前記述語に対応する前記格に該当する名詞句である項、前記述語に対応する前記格の前記特殊名詞句ＺＥＲＯ、及び前記述語に対応する前記格の前記特殊名詞句ＮＵＬＬの何れかを同定する項同定部と、
を含む述語項構造解析装置。
文に含まれる述語について、格毎に、前記述語に対応する前記格に該当する名詞句である項、及び前記述語に対応する前記格が必要ないことの何れか一方が予め特定された学習用の複数の文に基づいて、前記学習用の複数の文の各々について、前記文に含まれる述語に対応する名詞句の候補となる名詞句、前記述語に対応する前記格に該当する名詞句が省略されていることを示す特殊名詞句ＺＥＲＯ、及び前記述語に対応する前記格が必要ないことを示す特殊名詞句ＮＵＬＬを含む候補名詞句を抽出する学習用候補名詞句抽出部と、
前記学習用の複数の文の各々に対し、格毎に、前記文に含まれる述語に対して抽出された前記候補名詞句の各々と前記述語との組み合わせの各々について、前記述語に関する素性と、前記候補名詞句に関する素性と、前記格に関する素性と、前記述語と前記候補名詞句との関係に関する素性を含む素性集合を生成する学習用素性生成部と、
前記学習用の複数の文の各々に対し、格毎に、前記文に含まれる述語について予め特定された、前記項、及び前記格が必要ないことの何れか一方に基づいて、前記格、及び前記述語と前記候補名詞句の各々との組み合わせの各々について生成された素性集合の各々に、正例及び負例の何れか一方を示すラベルを付与し、前記ラベルを付与した前記素性集合を、学習データとして各々生成する学習データ生成部と、
格毎に、前記格について生成された学習データに基づいて、前記格について前記述語に対応する前記格に該当する名詞句である項、前記述語に対応する前記格の前記特殊名詞句ＺＥＲＯ、及び前記述語に対応する前記格の前記特殊名詞句ＮＵＬＬを同定するために項同定モデルを学習するモデル学習部と、
を含むモデル学習装置。
前記学習データ生成部は、格毎に、前記文に含まれる述語について、前記格に対応する前記項が前記文内に存在する場合、前記格、及び前記述語と前記項に該当する候補名詞句との組み合わせについて生成された素性集合に、正例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記項とは異なる名詞句である前記候補名詞句との組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記特殊名詞句ＮＵＬＬとの組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、
前記格、及び前記述語と前記項に該当する候補名詞句との組み合わせについて生成された素性集合に、正例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記特殊名詞句ＺＥＲＯとの組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、
前記格、及び前記述語と前記特殊名詞句ＺＥＲＯとの組み合わせについて生成された素性集合に、正例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記項とは異なる名詞句である前記候補名詞句との組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記特殊名詞句ＮＵＬＬとの組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、
前記文に含まれる述語について、前記格に対応する前記項が前記文とは異なる文内に存在する場合、前記格、及び前記述語と前記特殊名詞句ＺＥＲＯとの組み合わせについて生成された素性集合に、正例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と名詞句である前記候補名詞句との組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記特殊名詞句ＮＵＬＬとの組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、
前記文に含まれる述語について、前記格が必要ない場合、前記格、及び前記述語と前記特殊名詞句ＮＵＬＬとの組み合わせについて生成された素性集合に、正例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と名詞句である前記候補名詞句との組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記特殊名詞句ＺＥＲＯとの組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成する請求項５記載のモデル学習装置。
請求項１に記載の述語項構造解析方法を構成する各ステップをコンピュータに実行させるためのプログラム。
請求項２又は３に記載のモデル学習方法を構成する各ステップをコンピュータに実行させるためのプログラム。