JP5755698B2 - 述語項構造解析方法、モデル学習方法、装置、及びプログラム - Google Patents
述語項構造解析方法、モデル学習方法、装置、及びプログラム Download PDFInfo
- Publication number
- JP5755698B2 JP5755698B2 JP2013186407A JP2013186407A JP5755698B2 JP 5755698 B2 JP5755698 B2 JP 5755698B2 JP 2013186407 A JP2013186407 A JP 2013186407A JP 2013186407 A JP2013186407 A JP 2013186407A JP 5755698 B2 JP5755698 B2 JP 5755698B2
- Authority
- JP
- Japan
- Prior art keywords
- case
- noun phrase
- predicate
- word
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Description
(2)次に、項となる名詞句の候補を抽出する。この際、現在処理中の文の名詞句のみでなく、項スタックから、前方N文(N≧1)の述語で項となった名詞句も候補として加える。また、特殊名詞句「NULL」も候補として加える。「NULL」は、格が必要ない、または不明(外界照応)を表す特殊名詞句である。
(3)次に、素性選択では、候補名詞句ごとに、述語、格、候補名詞句、述語と候補名詞句の関係などを用いて素性集合を作成する。素性集合作成時には、言語モデルも使われることがある。
(4)項同定では、格ごとに、候補名詞句のスコアを算出し、最もスコアの高い候補を、その格の名詞句として出力する。また、同定した名詞句を項スタックに保存する。
また、ゼロ代名詞であるか格が必要ないかを含む述語項構造の解析を精度よく行うための項同定モデルを得ることができるモデル学習方法、装置、及びプログラムを提供することを目的とする。
図1は、本発明の実施の形態に係るモデル学習装置100を示すブロック図である。このモデル学習装置100は、CPUと、RAMと、後述するモデル学習処理ルーチン及び学習データ生成処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
具体的には、学習用候補名詞句抽出部26は、上記非特許文献1の技術と同様に、学習用の各文について、名詞、代名詞、名詞接尾辞など、名詞性の品詞が連続する形態素列(単語列)を名詞句として抽出し、名詞句の候補となる名詞句、特殊名詞句ZERO、及び特殊名詞句NULLを含む候補名詞句を抽出する。
具体的には、学習データ生成部32は、学習用の各文について、当該文に含まれる述語及び格の組み合わせ毎に、以下の処理を行い、学習データを生成する。
(A)当該述語及び格の組み合わせと正解の名詞句とについて生成された素性集合を正例、当該述語及び格の組み合わせと正解の名詞句以外の名詞句である候補名詞句とについて生成された素性集合、並びに当該述語及び格の組み合わせと特殊名詞句「NULL」とについて生成された素性集合を負例とした学習データを生成する。
(B)当該述語及び格の組み合わせと正解の名詞句とについて生成された素性集合を正例、当該述語及び格の組み合わせと特殊名詞句「ZERO」とについて生成された素性集合を負例とした学習データを生成する。
(C)当該述語及び格の組み合わせと特殊名詞句「ZERO」とについて生成された素性集合を正例、当該述語及び格の組み合わせと正解の名詞句以外の名詞句である候補名詞句とについて生成された素性集合、並びに当該述語及び格の組み合わせと特殊名詞句「NULL」とについて生成された素性集合を負例とした学習データを生成する。
例えば、モデル学習部36は、上記非特許文献2と同様に、正例データのスコアを高く、負例データのスコアを低くするように、事後確率最大化法などを用いて素性の重みを推定し、項同定モデルを学習する。
図4は、本発明の実施の形態に係る述語項構造解析装置200を示すブロック図である。述語項構造解析装置200は、解析対象文に含まれる述語について、格毎に、当該述語に対応する格に該当する名詞句である項を特定する。この述語項構造解析装置200は、CPUと、RAMと、後述する述語項構造解析処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
たとえば、(例文2)において、述語「弾ける」の項を同定する場合、当該文に含まれる候補名詞句「コツ」、特殊名詞句ZERO、特殊名詞句NULLのいずれかがもっともらしいか同定するが、格毎に、素性生成部78によって当該組み合わせに対する候補名詞句の各々について生成された素性集合と、モデルデータベース6に格納された当該格に対する項同定モデルとに基づいて、上記非特許文献2などで示されている方法でスコアを計算すると、図3のようなスコアが得られる。ここでスコアが最も高い候補名詞句は、ガ格ではZERO、ヲ格ではZERO、二格ではNULLとなる。
次に、本実施の形態に係るモデル学習装置100の作用について説明する。まず、学習用の複数の文からなる文書を含む正解コーパスがモデル学習装置100に入力されると、モデル学習装置100によって、入力された正解コーパスが、文データベース20へ格納される。そして、モデル学習装置100によって、図5に示すモデル学習処理ルーチンが実行される。
次に、本実施の形態に係る述語項構造解析装置200の作用について説明する。まず、モデル学習装置100のモデルデータベース3に記憶されている項同定モデルが、述語項構造解析装置200に入力されると、モデルデータベース6に格納される。そして、述語項構造解析対象としての解析対象文が述語項構造解析装置200に入力されると、述語項構造解析装置200によって、図7に示す述語項構造解析処理ルーチンが実行される。
2 学習用演算部
3、6 モデルデータベース
4 入力部
5、28 言語モデルデータベース
7 演算部
8 出力部
20 文データベース
22 学習用形態素解析部
24 学習用係り受け解析部
26 学習用候補名詞句抽出部
30 学習用素性生成部
32 学習データ生成部
34 学習データベース
36 モデル学習部
70 形態素解析部
72 係り受け解析部
74 述語同定部
76 候補名詞句抽出部
78 素性生成部
80 項同定部
100 モデル学習装置
200 述語項構造解析装置
Claims (8)
- 候補名詞句抽出部、素性生成部、及び項同定部を含み、解析対象文に含まれる述語について、格毎に、前記述語に対応する前記格に該当する名詞句である項を特定する述語項構造解析装置における述語項構造解析方法であって、
前記候補名詞句抽出部によって、前記解析対象文に含まれる述語について、前記解析対象文から、前記述語に対応する名詞句の候補となる名詞句、前記述語に対応する前記格に該当する名詞句が省略されていることを示す特殊名詞句ZERO、及び前記述語に対応する前記格が必要ないことを示す特殊名詞句NULLを含む候補名詞句を抽出するステップと、
前記素性生成部によって、格毎に、前記解析対象文に含まれる前記述語と前記候補名詞句抽出部によって抽出された前記候補名詞句の各々との組み合わせの各々について、前記述語に関する素性と、前記候補名詞句に関する素性と、前記格に関する素性と、前記述語と前記候補名詞句との関係に関する素性を含む素性集合を生成するステップと、
前記項同定部によって、格毎に、前記述語と前記候補名詞句との組み合わせの各々及び前記格について生成された素性集合と、前記格について前記述語に対応する前記格に該当する名詞句である項、前記述語に対応する前記格の前記特殊名詞句ZERO、及び前記述語に対応する前記格の前記特殊名詞句NULLを同定するための予め学習された項同定モデルとに基づいて、前記解析対象文に含まれる述語及び格の組み合わせ毎に候補名詞句に付与される尤もらしさを表す尤度に従い、尤度が最も高い候補名詞句である前記述語に対応する前記格に該当する名詞句である項、前記述語に対応する前記格の前記特殊名詞句ZERO、及び前記述語に対応する前記格の前記特殊名詞句NULLの何れかを同定するステップと、
を含む述語項構造解析方法。 - 学習用候補名詞句抽出部、学習用素性生成部、学習データ生成部、及びモデル学習部を含むモデル学習装置におけるモデル学習方法であって、
前記学習用候補名詞句抽出部によって、文に含まれる述語について、格毎に、前記述語に対応する前記格に該当する名詞句である項、及び前記述語に対応する前記格が必要ないことの何れか一方が予め特定された学習用の複数の文に基づいて、前記学習用の複数の文の各々について、前記文に含まれる述語に対応する名詞句の候補となる名詞句、前記述語に対応する前記格に該当する名詞句が省略されていることを示す特殊名詞句ZERO、及び前記述語に対応する前記格が必要ないことを示す特殊名詞句NULLを含む候補名詞句を抽出するステップと、
前記学習用素性生成部によって、前記学習用の複数の文の各々に対し、格毎に、前記文に含まれる述語に対して抽出された前記候補名詞句の各々と前記述語との組み合わせの各々について、前記述語に関する素性と、前記候補名詞句に関する素性と、前記格に関する素性と、前記述語と前記候補名詞句との関係に関する素性を含む素性集合を生成するステップと、
前記学習データ生成部によって、前記学習用の複数の文の各々に対し、格毎に、前記文に含まれる述語について予め特定された、前記項、及び前記格が必要ないことの何れか一方に基づいて、前記格、及び前記述語と前記候補名詞句の各々との組み合わせの各々について生成された素性集合の各々に、正例及び負例の何れか一方を示すラベルを付与し、前記ラベルを付与した前記素性集合を、学習データとして各々生成するステップと、
前記モデル学習部によって、格毎に、前記格について生成された学習データに基づいて、前記格について前記述語に対応する前記格に該当する名詞句である項、前記述語に対応する前記格の前記特殊名詞句ZERO、及び前記述語に対応する前記格の前記特殊名詞句NULLを同定するために項同定モデルを学習するステップと、
を含むモデル学習方法。 - 前記学習データ生成部によって前記項同定モデルを学習するステップは、格毎に、前記文に含まれる述語について、前記格に対応する前記項が前記文内に存在する場合、前記格、及び前記述語と前記項に該当する候補名詞句との組み合わせについて生成された素性集合に、正例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記項とは異なる名詞句である前記候補名詞句との組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記特殊名詞句NULLとの組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、
前記格、及び前記述語と前記項に該当する候補名詞句との組み合わせについて生成された素性集合に、正例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記特殊名詞句ZEROとの組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、
前記格、及び前記述語と前記特殊名詞句ZEROとの組み合わせについて生成された素性集合に、正例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記項とは異なる名詞句である前記候補名詞句との組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記特殊名詞句NULLとの組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、
前記文に含まれる述語について、前記格に対応する前記項が前記文とは異なる文内に存在する場合、前記格、及び前記述語と前記特殊名詞句ZEROとの組み合わせについて生成された素性集合に、正例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と名詞句である前記候補名詞句との組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記特殊名詞句NULLとの組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、
前記文に含まれる述語について、前記格が必要ない場合、前記格、及び前記述語と前記特殊名詞句NULLとの組み合わせについて生成された素性集合に、正例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と名詞句である前記候補名詞句との組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記特殊名詞句ZEROとの組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成する請求項2記載のモデル学習方法。 - 解析対象文に含まれる述語について、格毎に、前記述語に対応する前記格に該当する名詞句である項を特定する述語項構造解析装置であって、
前記解析対象文に含まれる述語について、前記解析対象文から、前記述語に対応する名詞句の候補となる名詞句、前記述語に対応する前記格に該当する名詞句が省略されていることを示す特殊名詞句ZERO、及び前記述語に対応する前記格が必要ないことを示す特殊名詞句NULLを含む候補名詞句を抽出する候補名詞句抽出部と、
格毎に、前記解析対象文に含まれる前記述語と前記候補名詞句抽出部によって抽出された前記候補名詞句の各々との組み合わせの各々について、前記述語に関する素性と、前記候補名詞句に関する素性と、前記格に関する素性と、前記述語と前記候補名詞句との関係に関する素性を含む素性集合を生成する素性生成部と、
格毎に、前記述語と前記候補名詞句との組み合わせの各々及び前記格について生成された素性集合と、前記格について前記述語に対応する前記格に該当する名詞句である項、前記述語に対応する前記格の前記特殊名詞句ZERO、及び前記述語に対応する前記格の前記特殊名詞句NULLを同定するための予め学習された項同定モデルとに基づいて、前記解析対象文に含まれる述語及び格の組み合わせ毎に候補名詞句に付与される尤もらしさを表す尤度に従い、尤度が最も高い候補名詞句である前記述語に対応する前記格に該当する名詞句である項、前記述語に対応する前記格の前記特殊名詞句ZERO、及び前記述語に対応する前記格の前記特殊名詞句NULLの何れかを同定する項同定部と、
を含む述語項構造解析装置。 - 文に含まれる述語について、格毎に、前記述語に対応する前記格に該当する名詞句である項、及び前記述語に対応する前記格が必要ないことの何れか一方が予め特定された学習用の複数の文に基づいて、前記学習用の複数の文の各々について、前記文に含まれる述語に対応する名詞句の候補となる名詞句、前記述語に対応する前記格に該当する名詞句が省略されていることを示す特殊名詞句ZERO、及び前記述語に対応する前記格が必要ないことを示す特殊名詞句NULLを含む候補名詞句を抽出する学習用候補名詞句抽出部と、
前記学習用の複数の文の各々に対し、格毎に、前記文に含まれる述語に対して抽出された前記候補名詞句の各々と前記述語との組み合わせの各々について、前記述語に関する素性と、前記候補名詞句に関する素性と、前記格に関する素性と、前記述語と前記候補名詞句との関係に関する素性を含む素性集合を生成する学習用素性生成部と、
前記学習用の複数の文の各々に対し、格毎に、前記文に含まれる述語について予め特定された、前記項、及び前記格が必要ないことの何れか一方に基づいて、前記格、及び前記述語と前記候補名詞句の各々との組み合わせの各々について生成された素性集合の各々に、正例及び負例の何れか一方を示すラベルを付与し、前記ラベルを付与した前記素性集合を、学習データとして各々生成する学習データ生成部と、
格毎に、前記格について生成された学習データに基づいて、前記格について前記述語に対応する前記格に該当する名詞句である項、前記述語に対応する前記格の前記特殊名詞句ZERO、及び前記述語に対応する前記格の前記特殊名詞句NULLを同定するために項同定モデルを学習するモデル学習部と、
を含むモデル学習装置。 - 前記学習データ生成部は、格毎に、前記文に含まれる述語について、前記格に対応する前記項が前記文内に存在する場合、前記格、及び前記述語と前記項に該当する候補名詞句との組み合わせについて生成された素性集合に、正例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記項とは異なる名詞句である前記候補名詞句との組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記特殊名詞句NULLとの組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、
前記格、及び前記述語と前記項に該当する候補名詞句との組み合わせについて生成された素性集合に、正例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記特殊名詞句ZEROとの組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、
前記格、及び前記述語と前記特殊名詞句ZEROとの組み合わせについて生成された素性集合に、正例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記項とは異なる名詞句である前記候補名詞句との組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記特殊名詞句NULLとの組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、
前記文に含まれる述語について、前記格に対応する前記項が前記文とは異なる文内に存在する場合、前記格、及び前記述語と前記特殊名詞句ZEROとの組み合わせについて生成された素性集合に、正例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と名詞句である前記候補名詞句との組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記特殊名詞句NULLとの組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、
前記文に含まれる述語について、前記格が必要ない場合、前記格、及び前記述語と前記特殊名詞句NULLとの組み合わせについて生成された素性集合に、正例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と名詞句である前記候補名詞句との組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成し、前記格、及び前記述語と前記特殊名詞句ZEROとの組み合わせについて生成された素性集合に、負例を示すラベルを付与して学習データを生成する請求項5記載のモデル学習装置。 - 請求項1に記載の述語項構造解析方法を構成する各ステップをコンピュータに実行させるためのプログラム。
- 請求項2又は3に記載のモデル学習方法を構成する各ステップをコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013186407A JP5755698B2 (ja) | 2013-09-09 | 2013-09-09 | 述語項構造解析方法、モデル学習方法、装置、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013186407A JP5755698B2 (ja) | 2013-09-09 | 2013-09-09 | 述語項構造解析方法、モデル学習方法、装置、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015052992A JP2015052992A (ja) | 2015-03-19 |
JP5755698B2 true JP5755698B2 (ja) | 2015-07-29 |
Family
ID=52701961
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013186407A Active JP5755698B2 (ja) | 2013-09-09 | 2013-09-09 | 述語項構造解析方法、モデル学習方法、装置、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5755698B2 (ja) |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5225219B2 (ja) * | 2009-06-30 | 2013-07-03 | 日本電信電話株式会社 | 述語項構造解析方法、その装置及びプログラム |
-
2013
- 2013-09-09 JP JP2013186407A patent/JP5755698B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015052992A (ja) | 2015-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10289952B2 (en) | Semantic frame identification with distributed word representations | |
US20180329883A1 (en) | Neural paraphrase generator | |
Belinkov et al. | Arabic diacritization with recurrent neural networks | |
JP5936698B2 (ja) | 単語意味関係抽出装置 | |
KR101968102B1 (ko) | 논팩토이드형 질의 응답 시스템 및 컴퓨터 프로그램 | |
CN110427618B (zh) | 对抗样本生成方法、介质、装置和计算设备 | |
US9600469B2 (en) | Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon | |
Gokul et al. | Sentence similarity detection in Malayalam language using cosine similarity | |
Rozovskaya et al. | Correcting grammatical verb errors | |
Gómez-Adorno et al. | A graph based authorship identification approach | |
Tezcan et al. | Estimating word-level quality of statistical machine translation output using monolingual information alone | |
Nehar et al. | Rational kernels for Arabic root extraction and text classification | |
JP6145059B2 (ja) | モデル学習装置、形態素解析装置、及び方法 | |
WO2019163642A1 (ja) | 要約評価装置、方法、プログラム、及び記憶媒体 | |
Singh et al. | Review of real-word error detection and correction methods in text documents | |
JP2016224483A (ja) | モデル学習装置、方法、及びプログラム | |
Chuan-An et al. | A unified RvNN framework for end-to-end chinese discourse parsing | |
Yeh et al. | Chinese spelling check based on N-gram and string matching algorithm | |
JP2012146263A (ja) | 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム | |
Hao et al. | SCESS: a WFSA-based automated simplified chinese essay scoring system with incremental latent semantic analysis | |
JP5911931B2 (ja) | 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体 | |
JP5954836B2 (ja) | 不理解文判定モデル学習方法、不理解文判定方法、装置、及びプログラム | |
JP5911911B2 (ja) | 結束性判定装置、モデル学習装置、方法、及びプログラム | |
Han et al. | Lexicalized neural unsupervised dependency parsing | |
JP5755698B2 (ja) | 述語項構造解析方法、モデル学習方法、装置、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150210 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150325 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150428 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150527 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5755698 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |