JP2011013776A - 述語項構造解析方法、その装置及びプログラム - Google Patents
述語項構造解析方法、その装置及びプログラム Download PDFInfo
- Publication number
- JP2011013776A JP2011013776A JP2009155317A JP2009155317A JP2011013776A JP 2011013776 A JP2011013776 A JP 2011013776A JP 2009155317 A JP2009155317 A JP 2009155317A JP 2009155317 A JP2009155317 A JP 2009155317A JP 2011013776 A JP2011013776 A JP 2011013776A
- Authority
- JP
- Japan
- Prior art keywords
- predicate
- candidate
- term
- case
- noun phrase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】候補名詞句抽出部12により、処理対象文から名詞句を抽出し、項スタック11から名詞句を得て、さらに特殊名詞句NULLを追加して候補名詞句とし、素性選択部14により、候補名詞句中の各候補について、述語に関する素性、候補に関する素性、述語と候補の関係に関する素性とともに、述語と格が与えられたときの名詞句の生成確率を保持する言語モデル13から各格のときの候補の述語に関する言語モデルスコアを選択して素性集合を作成し、項同定部16により、選択された素性を用い、素性が与えられたときの各格の重みを保持する項同定モデル15を参照して候補が各格であるときの項スコアを算出し、格毎に項スコア最大の候補を取得して述語の項とする。
【選択図】図10
Description
述語項構造解析とは、自然言語で記述された文の意味解析を行うものである。具体的には、文における「どうした」などの「述語」に対応する「格」、即ち「誰が/何が」などの「ガ格」、「何を」などの「ヲ格」、「どこに」などの「ニ格」等、に該当する部分(項)を特定するものである。
従来技術では、一文中に述語とその項の両者が存在するものだけを対象に解析を行っていた。従来の述語項構造解析装置の一例を図2に、従来の述語項構造解析装置における処理の流れを図3にそれぞれ示す。
まず、制御部7に入力された文書に対し、形態素解析・係り受け解析部1により、一文毎に形態素解析を行って単語に分割し、各単語の品詞を特定して単語列を得る。次に、同じく形態素解析・係り受け解析部1により、前記形態素解析結果(単語列)を元に各文を文節に分割して文節列を得て、さらに文節同士の係り受け構造(どの文節がどの文節に係るか)を特定して文節係り受け関係(係り先文節番号)を得る(s1)。文節とは、日本語において、1個以上の内容語(名詞、動詞、形容詞、副詞等)と、0個以上の機能語(助詞、助動詞等)とから成り立つ句のことである。なお、形態素解析・係り受け解析部1は、既存の形態素解析器及び係り受け解析器を用いて構成することができる。
次に、述語同定部2により、処理対象文の述語を全て同定(抽出)する(s2)。具体的には、処理対象文の各単語の品詞を元に、用言性の部分単語列を抽出して述語とする。例えば、「動詞」、「形容詞」、「直後に動詞『する』が後続しているサ変名詞」、「直後に助動詞『だ』が後続している形容名詞」を述語とする。
次に、候補名詞句抽出部3により、処理対象文から全ての名詞句を抽出する。但し、当該処理対象文における、その時点で処理中の述語vは除く。名詞句かどうかは、通常、品詞を元に判断される。例えば、文節の内容語列の最後尾(内容語主辞)の品詞が名詞、代名詞、名詞接尾辞のいずれかであれば、当該文節の内容語列を名詞句とみなす。また、このようにして抽出した名詞句に特殊名詞句NULLを追加し、これらを候補名詞句とする(s3)。
次に、素性選択部4により、候補名詞句中の各候補nについて、述語v、候補n、形態素・係り受け解析結果(解析済み文)から、素性を選択して素性集合を作成する(s4)。素性としては、例えば図5に示すように、述語vに関する素性(述語関連)、候補nに関する素性(候補関連)、述語vと候補nの関係に関する素性(述語・候補相対位置関係)が考えられる。
次に、項同定部5により、前記選択された素性を用い、格毎に予め学習された項同定モデル(の記憶部)6を参照して、候補nが各格、即ちガ格、ヲ格、ニ格であるときの項スコアを算出する(s5)。項同定モデル6は、述語項構造の正解データ(コーパス)から、最大事後確率推定法等を用いて、予め学習されたものである。項同定モデルの一例を図7に示す。
言語モデルを構築する際の処理の流れの一例を図11に示す。名詞句の生成確率P(n|c,v) が算出できれば、他の手順で構築しても良い。
図14は図10の述語項構造解析装置における処理の流れを示すもので、以下、各部の構成及び動作の詳細を具体的な例に沿って説明する。
まず、項スタック11を空にする(s21)。そして、制御部7に入力された文書に対し、先頭から一文毎に以下の処理を行う。
従来技術の場合と同様に、形態素解析・係り受け解析部1により、一文毎に形態素解析を行って単語に分割し、各単語の品詞を特定して単語列を得る。次に、同じく形態素解析・係り受け解析部1により、前記形態素解析結果を元に各文を文節に分割して文節列を得て、さらに文節同士の係り受け構造を特定して文節係り受け関係を得る(s22)。文書1の形態素解析及び係り受け解析結果は、図4に示した通りである。
次に、従来技術の場合と同様に、述語同定部2により、処理対象文の述語を全て同定(抽出)する(s23)。
次に、候補名詞句抽出部12により、従来技術の場合と同様に、処理対象文から全ての名詞句を抽出する。但し、当該処理対象文における、その時点で処理中の述語vは除く。なお、名詞句かどうかは、従来技術の場合と同様に、品詞を元に判断される。また、候補名詞句抽出部12により、項スタック11から、直前N文(本例ではN=1とする。)の述語の項として使われた名詞句を取り出して両者を合わせる。また、このようにして抽出した名詞句に特殊名詞句NULLを追加し、これらを候補名詞句とする(s24)。
次に、素性選択部14により、候補名詞句中の各候補nについて、素性を選択して素性集合を作成する(s25)。この際、従来技術の場合と同様に、述語v、候補n、形態素・係り受け解析結果(解析済み文)から、述語vに関する素性、候補nに関する素性、述語vと候補nの関係に関する素性を選択するとともに、図15に示すような、処理中の文より前の文(前方文)の述語の項として使われたかどうかの素性と、言語モデルスコアに関する素性とを追加して選択する。
次に、項同定部16により、項同定モデル15を参照し、前記選択された素性を用いて、候補nが各格、即ちガ格、ヲ格、ニ格であるときの項スコアを算出する(s26)。項同定モデル15は、述語項構造の正解データ(コーパス)から、最大事後確率推定法等を用いて学習されたものである。本発明における項同定モデルの一例を図17に示す。
第2文以降は、まず前述した〈形態素・係り受け解析〉及び〈述語同定〉を行う。
なお、前述した実施の形態では、項スタックから直前N文の述語の項として使われた名詞句を加えるようにしたが、このような制限をせず、項スタックに保存されている全ての名詞句を対象として用いるようにしても良い。また、追加する素性として、言語モデルスコアに関する素性のみを用い、処理対象文より前の文の述語の項として使われたかどうかの素性については省略するようにしても良い。
Claims (7)
- 入力文書中の各文から、形態素解析及び係り受け解析を経て抽出された述語に対応する格に該当する名詞句である項を特定する方法であって、
候補名詞句抽出部が、処理対象文から全ての名詞句を抽出するとともに、処理対象文より前の文で処理された述語の項を保存する項スタックから名詞句を得て両者を合わせ、さらに特殊名詞句NULLを追加して候補名詞句とするステップと、
素性選択部が、候補名詞句中の各候補nについて、述語に関する素性、候補nに関する素性、述語vと候補nの関係に関する素性を選択するとともに、述語vと格cが与えられたときの名詞句nの生成確率を保持する言語モデルから算出される各格cのときの候補nの述語vに関する言語モデルスコアを選択して素性集合を作成するステップと、
項同定部が、選択された素性を用い、素性が与えられたときの各格cの重みを保持する項同定モデルを参照して、候補nが各格であるときの項スコアを算出し、各格毎に項スコア最大の候補を取得して述語vの項とするステップとを含む、
ことを特徴とする述語項構造解析方法。 - 素性選択部が、候補名詞句中の各候補nについて、述語に関する素性、候補nに関する素性、述語vと候補nの関係に関する素性を選択するとともに、処理対象文より前の文の述語の項として使われたかどうかの素性、並びに述語vと格cが与えられたときの名詞句nの生成確率を保持する言語モデルから算出される各格cのときの候補nの述語vに関する言語モデルスコアを選択して素性集合を作成するステップを含む
ことを特徴とする請求項1に記載の述語項構造解析方法。 - 候補名詞句抽出部が、処理対象文から全ての名詞句を抽出するとともに、処理対象文より前の文で処理された述語の項を保存する項スタックから直前N文の述語の項として使われた名詞句を得て両者を合わせ、さらに特殊名詞句NULLを追加して候補名詞句とするステップを含む
ことを特徴とする請求項1または2に記載の述語項構造解析方法。 - 入力文書中の各文から、形態素解析及び係り受け解析を経て抽出された述語に対応する格に該当する名詞句である項を特定する装置であって、
処理対象文より前の文で処理された述語の項を保存する項スタックと、
処理対象文から全ての名詞句を抽出するとともに、項スタックから名詞句を得て両者を合わせ、さらに特殊名詞句NULLを追加して候補名詞句とする候補名詞句抽出部と、
述語vと格cが与えられたときの名詞句nの生成確率を保持する言語モデルと、
候補名詞句中の各候補nについて、述語に関する素性、候補nに関する素性、述語vと候補nの関係に関する素性を選択するとともに、言語モデルから算出される各格cのときの候補nの述語vに関する言語モデルスコアを選択して素性集合を作成する素性選択部と、
素性が与えられたときの各格cの重みを保持する項同定モデルと、
選択された素性を用い、項同定モデルを参照して、候補nが各格であるときの項スコアを算出し、各格毎に項スコア最大の候補を取得して述語vの項とする項同定部とを備えた、
ことを特徴とする述語項構造解析装置。 - 候補名詞句中の各候補nについて、述語に関する素性、候補nに関する素性、述語vと候補nの関係に関する素性を選択するとともに、処理対象文より前の文の述語の項として使われたかどうかの素性、並びに言語モデルから算出される各格cのときの候補nの述語vに関する言語モデルスコアを選択して素性集合を作成する素性選択部を備えた
ことを特徴とする請求項4に記載の述語項構造解析装置。 - 処理対象文から全ての名詞句を抽出するとともに、項スタックから直前N文の述語の項として使われた名詞句を得て両者を合わせ、さらに特殊名詞句NULLを追加して候補名詞句とする候補名詞句抽出部を備えた
ことを特徴とする請求項4または5に記載の述語項構造解析装置。 - コンピュータを、請求項4乃至6のいずれかに記載の装置の各手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009155317A JP5225219B2 (ja) | 2009-06-30 | 2009-06-30 | 述語項構造解析方法、その装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009155317A JP5225219B2 (ja) | 2009-06-30 | 2009-06-30 | 述語項構造解析方法、その装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011013776A true JP2011013776A (ja) | 2011-01-20 |
JP5225219B2 JP5225219B2 (ja) | 2013-07-03 |
Family
ID=43592627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009155317A Active JP5225219B2 (ja) | 2009-06-30 | 2009-06-30 | 述語項構造解析方法、その装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5225219B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014215920A (ja) * | 2013-04-26 | 2014-11-17 | 日本電信電話株式会社 | 格解析モデルパラメータ学習装置、格解析装置、方法、及びプログラム |
JP2015052992A (ja) * | 2013-09-09 | 2015-03-19 | 日本電信電話株式会社 | 述語項構造解析方法、モデル学習方法、装置、及びプログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005208782A (ja) * | 2004-01-21 | 2005-08-04 | Fuji Xerox Co Ltd | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム |
JP2008204010A (ja) * | 2007-02-16 | 2008-09-04 | Toyota Motor Corp | 質問内容抽出装置と質問内容抽出方法 |
-
2009
- 2009-06-30 JP JP2009155317A patent/JP5225219B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005208782A (ja) * | 2004-01-21 | 2005-08-04 | Fuji Xerox Co Ltd | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム |
JP2008204010A (ja) * | 2007-02-16 | 2008-09-04 | Toyota Motor Corp | 質問内容抽出装置と質問内容抽出方法 |
Non-Patent Citations (6)
Title |
---|
CSNG200400562004; 関 和広,藤井 敦,石川 徹也: '確率モデルを用いた日本語ゼロ代名詞の照応解析' 自然言語処理 第9巻 第3号 第9巻 第3号, 20020710, p.63-p.85, 言語処理学会 * |
CSNG200500315023; 飯田 龍,乾 健太郎,松本 裕治: '文脈的手がかりを考慮した機械学習による日本語ゼロ代名詞の先行詞同定' 情報処理学会論文誌 第45巻 第3号 第45巻 第3号, 20040315, p.906-p.918, 社団法人情報処理学会 * |
CSNG200600926028; 磯崎 秀樹,賀沢 秀人,平尾 努: '辞書式順序を持つペナルティによるゼロ代名詞解消' 情報処理学会論文誌 第47巻 第7号 第47巻 第7号, 20060715, 2279〜2294, 社団法人情報処理学会 * |
JPN6012066106; 関 和広,藤井 敦,石川 徹也: '確率モデルを用いた日本語ゼロ代名詞の照応解析' 自然言語処理 第9巻 第3号 第9巻 第3号, 20020710, p.63-p.85, 言語処理学会 * |
JPN6012066107; 飯田 龍,乾 健太郎,松本 裕治: '文脈的手がかりを考慮した機械学習による日本語ゼロ代名詞の先行詞同定' 情報処理学会論文誌 第45巻 第3号 第45巻 第3号, 20040315, p.906-p.918, 社団法人情報処理学会 * |
JPN6012066109; 磯崎 秀樹,賀沢 秀人,平尾 努: '辞書式順序を持つペナルティによるゼロ代名詞解消' 情報処理学会論文誌 第47巻 第7号 第47巻 第7号, 20060715, 2279〜2294, 社団法人情報処理学会 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014215920A (ja) * | 2013-04-26 | 2014-11-17 | 日本電信電話株式会社 | 格解析モデルパラメータ学習装置、格解析装置、方法、及びプログラム |
JP2015052992A (ja) * | 2013-09-09 | 2015-03-19 | 日本電信電話株式会社 | 述語項構造解析方法、モデル学習方法、装置、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5225219B2 (ja) | 2013-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10902041B2 (en) | Systems and methods for learning semantic patterns from textual data | |
Yeh | Speech act identification using semantic dependency graphs with probabilistic context-free grammars | |
US9575955B2 (en) | Method of detecting grammatical error, error detecting apparatus for the method, and computer-readable recording medium storing the method | |
Orosz et al. | PurePos 2.0: a hybrid tool for morphological disambiguation | |
US10460028B1 (en) | Syntactic graph traversal for recognition of inferred clauses within natural language inputs | |
US20060253273A1 (en) | Information extraction using a trainable grammar | |
US8433560B2 (en) | Rule based apparatus for modifying word annotations | |
US9600469B2 (en) | Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon | |
Van Der Goot | MoNoise: A multi-lingual and easy-to-use lexical normalization tool | |
CN103678318B (zh) | 多词单元提取方法和设备及人工神经网络训练方法和设备 | |
JP5234232B2 (ja) | 同義表現判定装置、方法及びプログラム | |
JP5564705B2 (ja) | 文構造解析装置、文構造解析方法および文構造解析プログラム | |
Schraagen et al. | Extraction of semantic relations in noisy user-generated law enforcement data | |
Nguyen et al. | Vietnamese treebank construction and entropy-based error detection | |
JP5766152B2 (ja) | 言語モデル生成装置、その方法及びプログラム | |
Banerjee et al. | Generating abstractive summaries from meeting transcripts | |
CN113743090A (zh) | 一种关键词提取方法及装置 | |
JP2011065380A (ja) | 意見分類装置およびプログラム | |
JP5225219B2 (ja) | 述語項構造解析方法、その装置及びプログラム | |
Channell et al. | Automated grammatical tagging of child language samples | |
JP2008021139A (ja) | 意味タグ付け用モデル構築装置、意味タグ付け装置及びコンピュータプログラム | |
WO2018025317A1 (ja) | 自然言語処理装置及び自然言語処理方法 | |
Mehta et al. | Promptly Predicting Structures: The Return of Inference | |
US20200042594A1 (en) | Proposition identification in natural language and usage thereof | |
Ahmed et al. | X-AMR Annotation Tool |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20101215 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20110613 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110614 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110615 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110616 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111021 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121219 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130208 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130311 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130312 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5225219 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160322 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |