JP5225219B2 - Predicate term structure analysis method, apparatus and program thereof - Google Patents
Predicate term structure analysis method, apparatus and program thereof Download PDFInfo
- Publication number
- JP5225219B2 JP5225219B2 JP2009155317A JP2009155317A JP5225219B2 JP 5225219 B2 JP5225219 B2 JP 5225219B2 JP 2009155317 A JP2009155317 A JP 2009155317A JP 2009155317 A JP2009155317 A JP 2009155317A JP 5225219 B2 JP5225219 B2 JP 5225219B2
- Authority
- JP
- Japan
- Prior art keywords
- predicate
- term
- candidate
- feature
- noun phrase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、複数の文からなる文書に対し、その中に含まれる述語と名詞句との関係を、格の観点から解析する技術に関するものである。 The present invention relates to a technique for analyzing a relationship between a predicate and a noun phrase included in a document composed of a plurality of sentences from the viewpoint of case.
<タスクの説明>
述語項構造解析とは、自然言語で記述された文の意味解析を行うものである。具体的には、文における「どうした」などの「述語」に対応する「格」、即ち「誰が/何が」などの「ガ格」、「何を」などの「ヲ格」、「どこに」などの「ニ格」等、に該当する部分(項)を特定するものである。
<Description of task>
The predicate term structure analysis is a semantic analysis of a sentence described in a natural language. Specifically, a “case” corresponding to a “predicate” such as “what” in the sentence, that is, “a case” such as “who / what”, “wo case” such as “what”, “where” The part (term) corresponding to “dignity” such as “” is specified.
例えば、複数の文からなる文書として、図1に示すような文書1「昨日彼女はカレーを作った。そしてお昼にも食べた。」があったとする。この文書1の第1文には、述語「作る(標準形)」が存在する。述語項構造解析では、この述語「作る」に対応するガ格の項は「彼女」であり、ヲ格の項は「カレー」であることを特定する。
For example, it is assumed that there is a
しかし、特に日本語文においては、項となるべき単語(単語が複数の場合もあるため、以下、単語1つの場合も含めて名詞句と呼ぶ。)が省略される場合が頻繁にある。これをゼロ代名詞と呼ぶ。文書1の第2文はその例である。
However, particularly in Japanese sentences, words that should be terms (sometimes there are a plurality of words, hereinafter also referred to as noun phrases including one word) are often omitted. This is called zero pronoun. The second sentence of
文書1の第2文には述語として「食べる(標準形)」がある。この述語に対応するガ格の項は「彼女」、ヲ格の項は「カレー」、ニ格の項は「お昼」である。しかし、第2文中には、実際には項となるべき名詞句は「お昼」しか現れていない。このような文の述語項構造解析を行うには、第1文から名詞句「彼女」や「カレー」を補わなければならない。
The second sentence of
<従来技術による述語項構造解析>
従来技術では、一文中に述語とその項の両者が存在するものだけを対象に解析を行っていた。従来の述語項構造解析装置の一例を図2に、従来の述語項構造解析装置における処理の流れを図3にそれぞれ示す。
<Predicate structure analysis by conventional technology>
In the prior art, analysis is performed only for a sentence in which both a predicate and its term exist in one sentence. An example of a conventional predicate term structure analyzing apparatus is shown in FIG. 2, and a flow of processing in the conventional predicate term structure analyzing apparatus is shown in FIG.
〈形態素解析・係り受け解析〉
まず、制御部7に入力された文書に対し、形態素解析・係り受け解析部1により、一文毎に形態素解析を行って単語に分割し、各単語の品詞を特定して単語列を得る。次に、同じく形態素解析・係り受け解析部1により、前記形態素解析結果(単語列)を元に各文を文節に分割して文節列を得て、さらに文節同士の係り受け構造(どの文節がどの文節に係るか)を特定して文節係り受け関係(係り先文節番号)を得る(s1)。文節とは、日本語において、1個以上の内容語(名詞、動詞、形容詞、副詞等)と、0個以上の機能語(助詞、助動詞等)とから成り立つ句のことである。なお、形態素解析・係り受け解析部1は、既存の形態素解析器及び係り受け解析器を用いて構成することができる。
<Morphological analysis and dependency analysis>
First, the morphological analysis and
この際、例えば入力文書(解析すべき対象)が前述した文書1であれば、図4に示すような結果が得られる。
At this time, for example, if the input document (object to be analyzed) is the
〈述語同定〉
次に、述語同定部2により、処理対象文の述語を全て同定(抽出)する(s2)。具体的には、処理対象文の各単語の品詞を元に、用言性の部分単語列を抽出して述語とする。例えば、「動詞」、「形容詞」、「直後に動詞『する』が後続しているサ変名詞」、「直後に助動詞『だ』が後続している形容名詞」を述語とする。
<Predicate identification>
Next, the
文書1の例では、第1文の述語は「作る(標準形)」、第2文の述語は「食べる」となる。以下、第1文の述語「作る」を対象にした処理を説明する。
In the example of
〈候補名詞句抽出〉
次に、候補名詞句抽出部3により、処理対象文から全ての名詞句を抽出する。但し、当該処理対象文における、その時点で処理中の述語vは除く。名詞句かどうかは、通常、品詞を元に判断される。例えば、文節の内容語列の最後尾(内容語主辞)の品詞が名詞、代名詞、名詞接尾辞のいずれかであれば、当該文節の内容語列を名詞句とみなす。また、このようにして抽出した名詞句に特殊名詞句NULLを追加し、これらを候補名詞句とする(s3)。
<Candidate noun phrase extraction>
Next, the candidate noun
この特殊名詞句NULLは、後述する項同定において、その述語に対応する格(に該当する項)がないことを示すための名詞句である。 This special noun phrase NULL is a noun phrase indicating that there is no case corresponding to the predicate in the term identification described later.
第1文の述語「作る」に対応する候補名詞句は、「昨日」、「彼女」、「カレー」及び「NULL」の4つとなる。 There are four candidate noun phrases corresponding to the predicate “Make” of the first sentence: “Yesterday”, “She”, “Curry”, and “NULL”.
〈素性選択〉
次に、素性選択部4により、候補名詞句中の各候補nについて、述語v、候補n、形態素・係り受け解析結果(解析済み文)から、素性を選択して素性集合を作成する(s4)。素性としては、例えば図5に示すように、述語vに関する素性(述語関連)、候補nに関する素性(候補関連)、述語vと候補nの関係に関する素性(述語・候補相対位置関係)が考えられる。
<Feature selection>
Next, for each candidate n in the candidate noun phrase, the
このように、第1文の述語「作る」に関して、候補名詞句の各候補「昨日」、「彼女」、「カレー」及び「NULL」の素性を選択すると、図6に示す通りになる。 As described above, regarding the predicate “make” of the first sentence, when the features of the candidate noun phrases “Yesterday”, “She”, “Curry”, and “NULL” are selected, the result is as shown in FIG.
〈項同定〉
次に、項同定部5により、前記選択された素性を用い、格毎に予め学習された項同定モデル(の記憶部)6を参照して、候補nが各格、即ちガ格、ヲ格、ニ格であるときの項スコアを算出する(s5)。項同定モデル6は、述語項構造の正解データ(コーパス)から、最大事後確率推定法等を用いて、予め学習されたものである。項同定モデルの一例を図7に示す。
<Term identification>
Next, by using the selected feature, the
述語v、候補n、格cに対応する項スコアscore は、以下の式(1)を用いて算出する。これは、識別モデル(discriminative models) を用いた分類器のスコア算出法と同じで、score が高いほど、候補nが述語vの格cとして尤もらしいことを表す。 The term score score corresponding to the predicate v, the candidate n, and the case c is calculated using the following equation (1). This is the same as the score calculation method of the classifier using discriminative models. The higher the score, the more likely the candidate n is as the case c of the predicate v.
但し、dc(n)は候補nが格cの項となった時のみ1、それ以外は0となる関数である。Xは素性集合、fk(dc(n)=1,X) は素性関数で、素性が引数の条件を満たすときのみ1、それ以外は0となる関数であるが、素性がその値に実数値を有する場合は、引数の条件を満たしたときのみ、素性の値そのものを返す。また、 However, d c (n) is a function which is 1 only when the candidate n becomes a term of case c, and 0 otherwise. X is a feature set, f k (d c (n) = 1, X) is a feature function, which is 1 only when the feature satisfies the condition of the argument, and 0 otherwise. If it has a real value, the feature value is returned only when the condition of the argument is satisfied. Also,
は、素性関数fkの、格cに関する重みである。 Is a weight related to the case c of the feature function f k .
例えば、第1文の述語v「作る」、候補n「彼女」に関して、各素性の素性関数の重みと、部分スコア For example, regarding the predicate v “make” and candidate n “her” in the first sentence, the weight of the feature function of each feature and the partial score
を算出すると、図8に示す通りとなる。これを、各格毎に総和を算出すると、ガ格の項スコアは6.568、ヲ格の項スコアは1.967、ニ格の項スコアは0.802となる。 Is calculated as shown in FIG. If the sum is calculated for each case, the item score for the case is 6.568, the item score for the case is 1.967, and the item score for the case is 0.802.
項同定部5により、全ての候補nについて、項スコアの算出を繰り返す。そして、各格毎に項スコア最大の候補nmax を取得し、述語vの項とする(s6)。但し、候補NULLが取得された場合、その格は「空」とする。
The
第1文の述語「作る」に関する全候補の項スコアは、図9に示す通りであるため、結果、ガ格の項は「彼女」、ヲ格の項は「カレー」、ニ格の項は「空」となり、述語項構造が完成する。 The term scores of all candidates related to the predicate “Make” in the first sentence are as shown in FIG. 9. As a result, the term “ga” is “she”, the term “wo” is “curry”, and the term “ni” is It becomes “empty” and the predicate term structure is completed.
以上述べた処理が全ての文について繰り返され、最後に、制御部7より全ての文の述語項構造がリストとして出力される(s7)。 The processing described above is repeated for all sentences, and finally, the predicate term structures of all sentences are output as a list from the control unit 7 (s7).
このように、従来技術では、一文中に述語とその項が存在するものに関しては、述語と名詞句の係り受け関係などを素性に用いることで述語項構造解析が可能である。しかし、日本語文にはゼロ代名詞が存在するため、一文だけの解析では述語に対応する項が特定できない場合がある。例えば、文書1の第2文では、名詞句として「お昼」しか現れていないため、述語「食べる」に対応するガ格の項として「彼女」、ヲ格の項として「カレー」を特定することができない。
As described above, in the related art, for a sentence having a predicate and its term in one sentence, the predicate term structure analysis can be performed by using a dependency relation between the predicate and the noun phrase. However, since Japanese pronouns have zero pronouns, there is a case where a term corresponding to a predicate cannot be identified by analyzing only one sentence. For example, in the second sentence of
一つの解決方法として、候補名詞句抽出ステップで、処理中の文の名詞句だけでなく、処理済の文(処理対象文より前の文)の名詞句も候補名詞句に追加する方法がある。しかし、文が異なると述語と候補との間に直接の文法的係り受け関係がないため、述語と異なる文に出現した名詞句は、述語との係り受け関係等、文法的特徴を利用した素性のみで項として同定することは非常に困難である。例えば、図5に示した素性を用いる場合、「依存関係」素性は、述語と異なる文に出現した名詞句に関してはどれも空になるため、これのみを利用して項を同定することはできない。 One solution is to add the noun phrase of the processed sentence (the sentence before the process target sentence) to the candidate noun phrase as well as the noun phrase of the sentence being processed in the candidate noun phrase extraction step. . However, because there is no direct grammatical dependency between predicates and candidates for different sentences, noun phrases that appear in a sentence different from the predicate are features that use grammatical features such as dependency relationships with predicates. It is very difficult to identify as a term only. For example, when the feature shown in FIG. 5 is used, since the “dependency” feature is empty for any noun phrase that appears in a sentence different from the predicate, a term cannot be identified using only this. .
本発明では、以下の方法により、上記問題点を解決する。 In the present invention, the above problem is solved by the following method.
・素性として、述語vが与えられたときの候補nの格cにおける生成確率を用いる。例えば、「食べる」のヲ格を考えた場合、「カレーを食べる」は日本語として妥当な句であるが、「昨日を食べる」は日本語ではほとんど言われない。このように、日本語では述語と格が決まると、両者の文法的関係を見なくても、項として取り得る名詞句がある程度、推定できるという特徴を利用する。 As the feature, the generation probability in the case c of the candidate n when the predicate v is given is used. For example, when considering the “eating” case, “eating curry” is a reasonable phrase in Japanese, but “eating yesterday” is rarely said in Japanese. In this way, in Japanese, when the predicate and case are determined, the characteristic that a noun phrase that can be taken as a term can be estimated to some extent without looking at the grammatical relationship between the two.
・同様に、処理対象文より前の文で述語の項として使われたか否かという素性を用いる。これは、一度、項として使われた名詞句は、ゼロ代名詞として繰り返し使用される傾向があるという特性を利用する。 ・ Similarly, the feature of whether or not it is used as a predicate term in a statement before the processing target statement is used. This takes advantage of the characteristic that noun phrases once used as terms tend to be used repeatedly as zero pronouns.
・候補名詞句抽出ステップで、処理対象文中の名詞句だけでなく、処理対象文より前の文の名詞句も候補とする。しかし、全ての名詞句を対象とした場合、文書の長さが長くなると、候補数が増大し、項同定の精度が低下するという問題が生じる。この問題を回避するため、全ての文の全ての名詞句を候補とするのではなく、処理対象文のN(Nは1以上の整数)個前までの文(以下、直前N文)に含まれる述語について項として使われた名詞句のみを候補とする。このことにより、候補数を少なく制限しながら、精度の高い項同定が可能となる。 In the candidate noun phrase extraction step, not only noun phrases in the processing target sentence but also noun phrases of sentences before the processing target sentence are candidates. However, when all the noun phrases are targeted, if the length of the document becomes long, the number of candidates increases, and the problem that the accuracy of term identification decreases. To avoid this problem, not all noun phrases in all sentences are included in the sentence up to N (N is an integer of 1 or more) previous sentences (hereinafter referred to as the immediately preceding N sentence). Only noun phrases used as terms for the predicates to be used are candidates. This makes it possible to identify terms with high accuracy while limiting the number of candidates to be small.
本発明によれば、処理中の述語が存在する文とは異なる文に項が存在しても、特定することができる。また、候補名詞句を、直前N文の述語について項として使われたものに限ることで、少ない候補から正しい項を特定することが可能となる。 According to the present invention, even if a term exists in a sentence different from the sentence in which the predicate being processed exists, it can be specified. Further, by limiting candidate noun phrases to those used as terms for the predicate of the immediately preceding N sentence, it is possible to specify the correct term from a small number of candidates.
以下、本発明を図示の実施の形態により詳細に説明する。 Hereinafter, the present invention will be described in detail with reference to the illustrated embodiments.
図10は本発明の述語項構造解析装置の実施の形態の一例を示すもので、図中、従来例と同一構成要素は同一符号をもって表す。即ち、1は形態素解析・係り受け解析部、2は述語同定部、11は項スタック、12は候補名詞句抽出部、13は言語モデル(の記憶部)、14は素性選択部、15は項同定モデル(の記憶部)、16は項同定部、17は制御部である。 FIG. 10 shows an example of an embodiment of the predicate term structure analyzing apparatus of the present invention. In the figure, the same components as those of the conventional example are represented by the same reference numerals. That is, 1 is a morphological analysis / dependence analysis unit, 2 is a predicate identification unit, 11 is a term stack, 12 is a candidate noun phrase extraction unit, 13 is a language model (storage unit), 14 is a feature selection unit, and 15 is a term. Identification model (storage unit), 16 is a term identification unit, and 17 is a control unit.
項スタック11は、処理対象文より前の文で処理された述語の項を、文番号とともに保存する。
The
候補名詞句抽出部12は、処理対象文から全ての名詞句を抽出するとともに、項スタック11から直前N文の述語の項として使われた名詞句を得て両者を合わせ、さらに特殊名詞句NULLを追加して候補名詞句とする。
The candidate noun
言語モデル(の記憶部)13は、述語vと格cが与えられたときの名詞句nの生成確率P(n|c,v) を保持する。 The language model (storage unit) 13 holds the generation probability P (n | c, v) of the noun phrase n when the predicate v and the case c are given.
素性選択部14は、候補名詞句中の各候補nについて、述語v、候補n、形態素・係り受け解析結果(解析済み文)から、述語vに関する素性、候補nに関する素性、述語vと候補nの関係に関する素性を選択するとともに、処理中の文より前の文(前方文)の述語の項として使われたかどうかの素性、並びに言語モデル13から算出される各格cのときの候補nの述語vに関する言語モデルスコアを選択して素性集合を作成する。
For each candidate n in the candidate noun phrase, the
項同定モデル(の記憶部)15は、素性が与えられたときの各格cの重みを保持する。 The term identification model (storage unit) 15 holds the weight of each case c when the feature is given.
項同定部16は、前記選択された素性を用い、項同定モデル15を参照して、候補nが各格であるときの項スコアを算出し、各格毎に項スコア最大の候補を取得して述語vの項とする。
The
制御部17は、前述した各部を制御して、入力された文書中の全ての文について述語項構造の解析を行い、文中の述語とこれに対応する項の一覧とからなる述語項構造リストを文毎に出力する。
The
本実施の形態では、述語に対応する格として「ガ格」、「ヲ格」、「ニ格」を同定することとするが、他の格を含めても良い。 In the present embodiment, “ga”, “wo”, and “d” are identified as cases corresponding to the predicate, but other cases may be included.
まず、本発明で使用する言語モデル13の構築について説明し、次に本発明による述語項構造解析について説明する。
First, the construction of the
<言語モデル構築>
言語モデルを構築する際の処理の流れの一例を図11に示す。名詞句の生成確率P(n|c,v) が算出できれば、他の手順で構築しても良い。
<Language model construction>
An example of the flow of processing when constructing a language model is shown in FIG. If the generation probability P (n | c, v) of the noun phrase can be calculated, it may be constructed by another procedure.
まず、複数の文(一般的には数万、数十万といった大量の文)を集める。これを平文コーパスと呼ぶ。平文コーパス中の各文について、従来技術の〈形態素解析・係り受け解析〉と同様な方法で形態素解析及び係り受け解析を行い、単語列、文節列、文節係り受け関係を得て(s11)、さらに、従来技術の〈述語同定〉と同様な方法で処理対象文の述語を全て同定(抽出)する(s12)。 First, collect multiple sentences (generally tens of thousands or hundreds of thousands of sentences). This is called a plaintext corpus. For each sentence in the plaintext corpus, morphological analysis and dependency analysis are performed in the same way as the conventional <morpheme analysis / dependency analysis> to obtain a word string, phrase string, and phrase dependency relation (s11), Further, all predicates of the processing target sentence are identified (extracted) in the same manner as the <predicate identification> in the prior art (s12).
次に、各述語について、述語に直接係る文節を、文節係り受け関係から取得し(s13)、その文節から名詞句と格助詞を取得する(s14)。名詞句の抽出は、従来技術の〈候補名詞句抽出〉で述べた方法と同様に行い、格助詞の特定は、品詞および単語表記を元に行う。 Next, for each predicate, a clause directly related to the predicate is obtained from the clause dependency relationship (s13), and a noun phrase and a case particle are obtained from the clause (s14). The noun phrase is extracted in the same manner as described in <Candidate Noun Phrase Extraction> in the prior art, and the case particles are specified based on the part of speech and the word notation.
この際、文節に格助詞が含まれていなければ(s15:NO)、何もしない。一方、文節に格助詞が含まれている場合(s15:YES)は、名詞句、格助詞、述語を三つ組みにして、平文コーパス上での三つ組みの頻度(出現回数)をカウントする(s16)。これを平文コーパス中の全ての文について繰り返す。 At this time, if a case particle is not included in the phrase (s15: NO), nothing is done. On the other hand, when a case particle is included in the phrase (s15: YES), the noun phrase, case particle, and predicate are made into a triple, and the frequency (number of appearances) of the triple on the plaintext corpus is counted (s16). ). This is repeated for all sentences in the plaintext corpus.
例えば、平文コーパス中に「お昼にカレーを作った人がいた。」という文があったとする。これを形態素解析及び係り受け解析すると、図12に示すような単語列、文節列、文節係り受け関係が得られる。この文から述語を同定すると、「作る」と「いる」が同定される。まず、述語「作る」に直接係る文節を取り出すと、「お昼に」及び「カレーを」が得られる。「お昼に」については、名詞句は「お昼」、格助詞は「に」となる。従って、名詞句、格助詞、述語の三つ組みは[お昼,に,作る]となる。これを文節「カレーを」についても同様に行うと、三つ組み[カレー,を,作る]が得られる。このような三つ組みを、平文コーパス全体に対して作成し、出現回数をカウントする。 For example, suppose that there is a sentence in the plaintext corpus that “There was a person who made curry at noon”. When this is analyzed, a word string, phrase string, and phrase dependency relation as shown in FIG. 12 are obtained. When a predicate is identified from this sentence, “make” and “is” are identified. First, when the clause directly related to the predicate “Make” is taken out, “at noon” and “curry” are obtained. For “noon”, the noun phrase is “noon” and the case particle is “ni”. Therefore, the noun phrase, case particle, and predicate triplet is [create at noon]. If this is done in the same way for the phrase “curry”, the triplet [make curry] is obtained. Such a triple is created for the entire plaintext corpus and the number of appearances is counted.
次に、得られた三つ組みのカウントを元に、バックオフスムージング法(非特許文献1参照)を用いて、述語vと格助詞cが決まったときの名詞句nの生成確率(トライグラム確率)を保持する言語モデルを推定する(s17)。バックオフスムージング法を用いると、トライグラム確率P(n|c,v) の他に、同時にバイグラム確率P(n|c) も得られる。 Next, the generation probability (trigram probability) of the noun phrase n when the predicate v and the case particle c are determined using the back-off smoothing method (see Non-Patent Document 1) based on the obtained triplet count. ) Is estimated (s17). When the back-off smoothing method is used, the bigram probability P (n | c) can be obtained simultaneously with the trigram probability P (n | c, v).
最後に、バイグラム確率に、格c毎の特殊名詞句NULLの生成確率P(NULL|c) を追加して(s18)、言語モデルを出力する(s19)。NULLの生成確率は、様々な述語がNULLを生成する確率を格c毎に与えたもので、述語項構造の正解データがある場合、述語に対応する格に該当する項が存在しない確率である。作成された言語モデルの一例を図13に示す。 Finally, the generation probability P (NULL | c) of the special noun phrase NULL for each case c is added to the bigram probability (s18), and the language model is output (s19). The generation probability of NULL is the probability that various predicates generate NULL for each case c, and when there is correct data with a predicate term structure, there is a probability that no term corresponding to the case corresponding to the predicate exists. . An example of the created language model is shown in FIG.
<本発明の述語項構造解析>
図14は図10の述語項構造解析装置における処理の流れを示すもので、以下、各部の構成及び動作の詳細を具体的な例に沿って説明する。
<Predicate term structure analysis of the present invention>
FIG. 14 shows the flow of processing in the predicate term structure analysis apparatus of FIG. 10, and the details of the configuration and operation of each part will be described below with specific examples.
本発明の目的は、ゼロ代名詞を含む日本語文における述語項構造解析なので、入力は複数の文からなる文書である。本例では、従来技術で説明した文書1「昨日彼女はカレーを作った。そしてお昼にも食べた。」を用いて説明する。
Since the object of the present invention is predicate term structure analysis in a Japanese sentence containing zero pronouns, the input is a document composed of a plurality of sentences. In this example, the description will be made using
〈初期化〉
まず、項スタック11を空にする(s21)。そして、制御部7に入力された文書に対し、先頭から一文毎に以下の処理を行う。
<Initialize>
First, the
〈形態素解析・係り受け解析〉
従来技術の場合と同様に、形態素解析・係り受け解析部1により、一文毎に形態素解析を行って単語に分割し、各単語の品詞を特定して単語列を得る。次に、同じく形態素解析・係り受け解析部1により、前記形態素解析結果を元に各文を文節に分割して文節列を得て、さらに文節同士の係り受け構造を特定して文節係り受け関係を得る(s22)。文書1の形態素解析及び係り受け解析結果は、図4に示した通りである。
<Morphological analysis and dependency analysis>
As in the case of the prior art, the morphological analysis and
〈述語同定〉
次に、従来技術の場合と同様に、述語同定部2により、処理対象文の述語を全て同定(抽出)する(s23)。
<Predicate identification>
Next, as in the case of the prior art, the
文書1の例では、第1文の述語は「作る」、第2文の述語は「食べる」となる。以下、まず、第1文の述語「作る」を対象にした処理を説明し、第2文の述語「食べる」を対象にした処理については後述する。
In the example of
〈候補名詞句抽出〉
次に、候補名詞句抽出部12により、従来技術の場合と同様に、処理対象文から全ての名詞句を抽出する。但し、当該処理対象文における、その時点で処理中の述語vは除く。なお、名詞句かどうかは、従来技術の場合と同様に、品詞を元に判断される。また、候補名詞句抽出部12により、項スタック11から、直前N文(本例ではN=1とする。)の述語の項として使われた名詞句を取り出して両者を合わせる。また、このようにして抽出した名詞句に特殊名詞句NULLを追加し、これらを候補名詞句とする(s24)。
<Candidate noun phrase extraction>
Next, all the noun phrases are extracted from the sentence to be processed by the candidate noun
この特殊名詞句NULLは、後述する項同定において、その述語に対応する格がない、又は格に該当する項となるべき名詞句が文書中に存在しない(これを外界照応と呼ぶ。)ことを示すための名詞句である。 This special noun phrase NULL means that, in the term identification described later, there is no case corresponding to the predicate or there is no noun phrase in the document that should be a term corresponding to the case (this is called external reference). This is a noun phrase to show.
第1文の述語「作る」に対する候補名詞句は、項スタック11が空であり、処理対象文から得られるもののみであるから、「昨日」、「彼女」、「カレー」及び「NULL」の4つとなる。
Since the noun phrase for the predicate “Make” of the first sentence is only the one obtained from the sentence to be processed because the
〈素性選択〉
次に、素性選択部14により、候補名詞句中の各候補nについて、素性を選択して素性集合を作成する(s25)。この際、従来技術の場合と同様に、述語v、候補n、形態素・係り受け解析結果(解析済み文)から、述語vに関する素性、候補nに関する素性、述語vと候補nの関係に関する素性を選択するとともに、図15に示すような、処理中の文より前の文(前方文)の述語の項として使われたかどうかの素性と、言語モデルスコアに関する素性とを追加して選択する。
<Feature selection>
Next, the
ここで、言語モデルスコアの素性に関しては、言語モデル13を参照して、述語vが与えられたときの、候補nが各格、即ちガ格、ヲ格、ニ格であるときの言語モデルスコアを算出して用いる。言語モデル13の例は図13に示した通りである。
Here, regarding the feature of the language model score, referring to the
ここで、トライグラムP(n|c,v) が言語モデル13上に存在していれば、その対数確率logP(n|c,v) を言語モデルスコアとする。また、存在していなければ、バイグラムの対数確率logP(n|c) とバックオフの対数確率log bo(c,v)を言語モデル13から取得し、両者の和を言語モデルスコアとする。例えば、述語v「作る」、候補n「昨日」のガ格の言語モデルスコアを算出する場合、図13の言語モデルでは、トライグラムは存在しない。従って、log bo(ガ,作る)+logP(昨日|ガ)=−0.33+−5.00 を計算し、-5.33を言語モデルスコアとする。
Here, if the trigram P (n | c, v) exists on the
このように、第1文の述語「作る」に関して、候補名詞句の各候補の素性を選択すると、図16に示す通りとなる。 As described above, when the feature of each candidate noun phrase regarding the predicate “create” of the first sentence is selected, the result is as shown in FIG.
〈項同定〉
次に、項同定部16により、項同定モデル15を参照し、前記選択された素性を用いて、候補nが各格、即ちガ格、ヲ格、ニ格であるときの項スコアを算出する(s26)。項同定モデル15は、述語項構造の正解データ(コーパス)から、最大事後確率推定法等を用いて学習されたものである。本発明における項同定モデルの一例を図17に示す。
<Term identification>
Next, the
従来技術における項同定モデルとの違いは、「使用(Used:0,Used:1)」に関する素性重みと、「言語モデルスコア(LM ガ,LM ヲ,LM ニ)」に関する素性重みが追加されたことである。これらは学習過程で最適化されているため、その他の素性重みに関しても値は異なっている。 The difference from the term identification model in the prior art is that the feature weight related to “Used (Used: 0, Used: 1)” and the feature weight related to “Language Model Score (LM Ga, LM wo, LM Ni)” have been added. That is. Since these are optimized in the learning process, the values of other feature weights are also different.
これらの素性重みを元に、前述した式(1)を用いて項スコアscore を算出する。 Based on these feature weights, the term score score is calculated using the above-described equation (1).
例えば、第1文の述語v「作る」、候補n「彼女」に関して、各素性の素性関数の重みと、部分スコア For example, regarding the predicate v “make” and candidate n “her” in the first sentence, the weight of the feature function of each feature and the partial score
を算出すると、図18に示す通りとなる。これを、各格毎に総和を算出すると、ガ格の項スコアは6.031、ヲ格の項スコアは0.391、ニ格の項スコアは0.345となる。 Is calculated as shown in FIG. If the sum is calculated for each case, the item score for the case is 6.031, the item score for the case is 0.391, and the item score for the case is 0.345.
項同定では、全ての候補nについて、項スコアの算出を繰り返す。そして、各格毎に項スコア最大の候補nmax を取得し、述語vの項とする(s27)。但し、候補NULLが取得された場合、その格は「空」とする。 In term identification, the calculation of term scores is repeated for all candidates n. Then, the candidate n max with the maximum term score is acquired for each case and used as the term of the predicate v (s27). However, if a candidate NULL is acquired, the case is “empty”.
第1文の述語「作る」に関する全候補の項スコアは、図19に示す通りであるため、結果、ガ格の項は「彼女」、ヲ格の項は「カレー」、ニ格の項は「空」となり、述語項構造が完成する。 Since the term scores of all candidates related to the predicate “Make” in the first sentence are as shown in FIG. 19, as a result, the term “ga” is “she”, the term “wo” is “curry”, and the term “d” is It becomes “empty” and the predicate term structure is completed.
なお、項として認定された名詞句「彼女」及び「カレー」は、項スタック11に文番号1とともに記録される(s28)。
The noun phrases “she” and “curry” recognized as terms are recorded in the
《第2文以降の処理》
第2文以降は、まず前述した〈形態素・係り受け解析〉及び〈述語同定〉を行う。
<< Process after the second sentence >>
After the second sentence, first, the above-described <morpheme / dependency analysis> and <predicate identification> are performed.
文書1の形態素解析及び係り受け解析結果は、図4に示した通りである。また、文書1の第2文には、述語として「食べる」がある。以下、前記〈候補名詞句抽出〉、〈素性選択〉、〈項同定〉の処理を、第2文の述語「食べる」に焦点を当てて説明する。
The morphological analysis and dependency analysis results of the
〈候補名詞句抽出〉では、第2文中の名詞句として、「お昼」が抽出される。さらに、項スタック11からは、直前N文(N=1)の述語で項として使用された名詞句が抽出される。第1文の述語で項として使われたのは、「彼女」及び「カレー」の2つである。また、NULLも追加されるため、候補名詞句は「お昼」、「彼女」、「カレー」及び「NULL」の4つとなる。
In <candidate noun phrase extraction>, “noon” is extracted as a noun phrase in the second sentence. Further, from the
〈素性選択〉では、上記4つの候補nに関し、言語モデル13を用いて、前記同様の方法で素性を選択する。すると、図20に示すような素性集合が得られる。
In <Feature Selection>, features are selected for the above four candidates n using the
続いて、〈項同定〉では、項同定モデル15を参照し、前記選択された素性を用いて、候補nの格毎の項スコアを算出する。上記素性の場合、各候補nの項スコアは図21に示す通りとなる。
Subsequently, in <term identification>, the
その結果、第2文の述語「食べる」については、ガ格の項として「彼女」、ヲ格の項として「カレー」、ニ格の項として「お昼」が特定され、述語項構造が完成する。また、項として認定された名詞句「彼女」、「カレー」及び「お昼」は、項スタック11に文番号2とともに記録される。
As a result, for the predicate “eat” in the second sentence, “she” is specified as the term of the ga case, “curry” as the term of the wo case, “noon” as the term of the second case, and the predicate term structure is completed. . In addition, the noun phrases “she”, “curry”, and “noon” that are recognized as terms are recorded in the
入力された文書には、これ以上文が存在しないため、最後に、制御部17より全ての文の述語項構造がリストとして出力される(s29)。 Since there are no more sentences in the input document, the predicate term structures of all the sentences are finally output as a list from the control unit 17 (s29).
<他の実施の形態>
なお、前述した実施の形態では、項スタックから直前N文の述語の項として使われた名詞句を加えるようにしたが、このような制限をせず、項スタックに保存されている全ての名詞句を対象として用いるようにしても良い。また、追加する素性として、言語モデルスコアに関する素性のみを用い、処理対象文より前の文の述語の項として使われたかどうかの素性については省略するようにしても良い。
<Other embodiments>
In the above-described embodiment, the noun phrase used as the term of the predicate of the immediately preceding N sentence is added from the term stack, but all the nouns stored in the term stack are not limited to this. A phrase may be used as a target. Further, only the feature related to the language model score may be used as the feature to be added, and the feature as to whether or not it has been used as a predicate term of a statement before the processing target statement may be omitted.
また、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、図10の構成図に示された機能を実現するプログラムあるいは図14のフローチャートに示された手順を備えるプログラムをインストールすることによっても実現可能である。 Further, the present invention installs a program for realizing the functions shown in the configuration diagram of FIG. 10 or a program having the procedure shown in the flowchart of FIG. 14 via a medium or a communication line in a known computer. Is also feasible.
1:形態素解析・係り受け解析部、2:述語同定部、11:項スタック、12:候補名詞句抽出部、13:言語モデル(の記憶部)、14:素性選択部、15:項同定モデル(の記憶部)、16:項同定部、17:制御部。 1: morphological analysis / dependence analysis unit, 2: predicate identification unit, 11: term stack, 12: candidate noun phrase extraction unit, 13: language model (storage unit), 14: feature selection unit, 15: term identification model (Storage unit), 16: term identification unit, 17: control unit.
Claims (7)
候補名詞句抽出部が、処理対象文から全ての名詞句を抽出するとともに、処理対象文より前の文で処理された述語の項を保存する項スタックから名詞句を得て両者を合わせ、さらに特殊名詞句NULLを追加して候補名詞句とするステップと、
素性選択部が、候補名詞句中の各候補nについて、述語に関する素性、候補nに関する素性、述語vと候補nの関係に関する素性を選択するとともに、述語vと格cが与えられたときの名詞句nの生成確率を保持する言語モデルを利用し、トライグラム確率が当該言語モデルに存在していれば当該トライグラム確率から得られる値を言語モデルスコアに関する素性とし、トライグラム確率が当該言語モデルに存在していなければバイグラム確率とバックオフ確率から得られる値を言語モデルスコアに関する素性とし、素性集合を作成するステップと、
項同定部が、選択された素性を用い、素性が与えられたときの各格cの重みを保持する項同定モデルを参照して、候補nが各格であるときの項スコアを算出し、各格毎に項スコア最大の候補を取得して述語vの項とするステップとを含む、
ことを特徴とする述語項構造解析方法。 A method for identifying a term that is a noun phrase corresponding to a case corresponding to a predicate extracted from each sentence in an input document through morphological analysis and dependency analysis,
The candidate noun phrase extraction unit extracts all noun phrases from the processing target sentence, obtains the noun phrase from the term stack for storing the predicate terms processed in the sentence before the processing target sentence, and combines both, Adding a special noun phrase NULL to make it a candidate noun phrase;
The feature selection unit selects, for each candidate n in the candidate noun phrase, a feature related to the predicate, a feature related to the candidate n, a feature related to the relationship between the predicate v and the candidate n, and a noun when the predicate v and the case c are given. If a language model holding the generation probability of phrase n is used, and a trigram probability exists in the language model, a value obtained from the trigram probability is used as a feature related to the language model score, and the trigram probability is the language model. A value obtained from the bigram probability and the backoff probability if it does not exist as a feature related to the language model score, and creating a feature set;
The term identifying unit calculates the term score when the candidate n is each case by using the selected feature and referring to the term identification model that holds the weight of each case c when the feature is given, Obtaining a candidate with the highest term score for each case and making it a term of the predicate v.
Predicate term structure analysis method characterized by the above.
ことを特徴とする請求項1に記載の述語項構造解析方法。 For each candidate n in the candidate noun phrase, the feature selection unit selects a feature related to the predicate, a feature related to the candidate n, and a feature related to the relationship between the predicate v and the candidate n, and as a predicate term of a sentence before the processing target sentence A language model that retains the feature of whether it was used and the generation probability of a noun phrase n when the predicate v and case c are given, and if the trigram probability exists in the language model, the trigram A step of creating a feature set using a value obtained from the probability as a feature related to the language model score, and if a trigram probability does not exist in the language model, a value obtained from the bigram probability and the backoff probability as a feature related to the language model score The predicate term structure analysis method according to claim 1, comprising:
ことを特徴とする請求項1または2に記載の述語項構造解析方法。 The candidate noun phrase extraction unit extracts all noun phrases from the processing target sentence and is used as a predicate term of the immediately preceding N sentence from the term stack that stores predicate terms processed in a sentence before the processing target sentence. 3. The predicate term structure analysis method according to claim 1, further comprising a step of obtaining a noun phrase, combining both, and adding a special noun phrase NULL to make a noun phrase as a candidate noun phrase.
処理対象文より前の文で処理された述語の項を保存する項スタックと、
処理対象文から全ての名詞句を抽出するとともに、項スタックから名詞句を得て両者を合わせ、さらに特殊名詞句NULLを追加して候補名詞句とする候補名詞句抽出部と、
述語vと格cが与えられたときの名詞句nの生成確率を保持する言語モデルと、
候補名詞句中の各候補nについて、述語に関する素性、候補nに関する素性、述語vと候補nの関係に関する素性を選択するとともに、言語モデルを利用し、トライグラム確率が当該言語モデルに存在していれば当該トライグラム確率から得られる値を言語モデルスコアに関する素性とし、トライグラム確率が当該言語モデルに存在していなければバイグラム確率とバックオフ確率から得られる値を言語モデルスコアに関する素性とし、素性集合を作成する素性選択部と、
素性が与えられたときの各格cの重みを保持する項同定モデルと、
選択された素性を用い、項同定モデルを参照して、候補nが各格であるときの項スコアを算出し、各格毎に項スコア最大の候補を取得して述語vの項とする項同定部とを備えた、
ことを特徴とする述語項構造解析装置。 A device for identifying a term that is a noun phrase corresponding to a case corresponding to a predicate extracted from each sentence in an input document through morphological analysis and dependency analysis,
A term stack that stores the predicate terms processed in the statement before the processing target statement;
Extracting all noun phrases from the sentence to be processed, obtaining a noun phrase from the term stack, combining both, and adding a special noun phrase NULL to make a candidate noun phrase extracting part,
A language model that retains the generation probability of a noun phrase n given a predicate v and a case c;
For each candidate n in the noun phrase, a feature related to the predicate, a feature related to the candidate n, and a feature related to the relationship between the predicate v and the candidate n are selected, and a trigram probability exists in the language model. If the trigram probability does not exist in the language model, the value obtained from the bigram probability and the backoff probability is assumed as the feature related to the language model score. A feature selector for creating a set;
A term identification model that retains the weight of each case c when given a feature;
Using the selected feature, referring to the term identification model, the term score when the candidate n is each case is calculated, and the term with the largest term score is obtained for each case to obtain the term of the predicate v With an identification unit,
Predicate term structure analysis device characterized by the above.
ことを特徴とする請求項4に記載の述語項構造解析装置。 For each candidate n in the candidate noun phrase, a feature related to the predicate, a feature related to the candidate n, and a feature related to the relationship between the predicate v and the candidate n are selected, and whether or not the predicate is used as a term of a predicate before the processing target sentence If a trigram probability exists in the language model using the feature and the language model, the value obtained from the trigram probability is set as a feature related to the language model score, and the trigram probability must exist in the language model. 5. The predicate term structure analysis apparatus according to claim 4, further comprising: a feature selection unit that creates a feature set by using a value obtained from a bigram probability and a backoff probability as a feature related to a language model score .
ことを特徴とする請求項4または5に記載の述語項構造解析装置。 Extract all noun phrases from the sentence to be processed, obtain the noun phrase used as the predicate term of the previous N sentence from the term stack, combine both, and add the special noun phrase NULL to make it a candidate noun phrase The predicate term structure analysis apparatus according to claim 4 or 5, further comprising a candidate noun phrase extraction unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009155317A JP5225219B2 (en) | 2009-06-30 | 2009-06-30 | Predicate term structure analysis method, apparatus and program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009155317A JP5225219B2 (en) | 2009-06-30 | 2009-06-30 | Predicate term structure analysis method, apparatus and program thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011013776A JP2011013776A (en) | 2011-01-20 |
JP5225219B2 true JP5225219B2 (en) | 2013-07-03 |
Family
ID=43592627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009155317A Active JP5225219B2 (en) | 2009-06-30 | 2009-06-30 | Predicate term structure analysis method, apparatus and program thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5225219B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5823441B2 (en) * | 2013-04-26 | 2015-11-25 | 日本電信電話株式会社 | Case analysis model parameter learning device, case analysis device, method, and program |
JP5755698B2 (en) * | 2013-09-09 | 2015-07-29 | 日本電信電話株式会社 | Predicate term structure analysis method, model learning method, apparatus, and program |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005208782A (en) * | 2004-01-21 | 2005-08-04 | Fuji Xerox Co Ltd | Natural language processing system, natural language processing method, and computer program |
JP2008204010A (en) * | 2007-02-16 | 2008-09-04 | Toyota Motor Corp | Question content extraction device and question content extraction method |
-
2009
- 2009-06-30 JP JP2009155317A patent/JP5225219B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011013776A (en) | 2011-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10902041B2 (en) | Systems and methods for learning semantic patterns from textual data | |
Orosz et al. | PurePos 2.0: a hybrid tool for morphological disambiguation | |
US10460028B1 (en) | Syntactic graph traversal for recognition of inferred clauses within natural language inputs | |
US20060253273A1 (en) | Information extraction using a trainable grammar | |
US20130007020A1 (en) | Method and system of extracting concepts and relationships from texts | |
US9600469B2 (en) | Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon | |
WO2017198031A1 (en) | Semantic parsing method and apparatus | |
JP6729095B2 (en) | Information processing device and program | |
Agarwal et al. | Frame semantic tree kernels for social network extraction from text | |
Van Der Goot | MoNoise: A multi-lingual and easy-to-use lexical normalization tool | |
Zhang et al. | Natural language processing: a machine learning perspective | |
Rodrigues et al. | Advanced applications of natural language processing for performing information extraction | |
JP4534666B2 (en) | Text sentence search device and text sentence search program | |
JP5564705B2 (en) | Sentence structure analyzing apparatus, sentence structure analyzing method, and sentence structure analyzing program | |
Erk et al. | Paraphrase assessment in structured vector space: Exploring parameters and datasets | |
Nguyen et al. | Vietnamese treebank construction and entropy-based error detection | |
CN113743090A (en) | Keyword extraction method and device | |
Schraagen et al. | Extraction of semantic relations in noisy user-generated law enforcement data | |
JP5766152B2 (en) | Language model generation apparatus, method and program | |
JP5225219B2 (en) | Predicate term structure analysis method, apparatus and program thereof | |
Channell et al. | Automated grammatical tagging of child language samples | |
Vaishnavi et al. | Paraphrase identification in short texts using grammar patterns | |
JP2008021139A (en) | Model construction apparatus for semantic tagging, semantic tagging apparatus, and computer program | |
Rosenfeld et al. | TEG: a hybrid approach to information extraction | |
WO2018025317A1 (en) | Natural language processing device and natural language processing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20101215 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20110613 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110614 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110615 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110616 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111021 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121219 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130208 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130311 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130312 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5225219 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160322 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |