JP6543169B2 - Air category detection device, air category detection model learning device, method, and program - Google Patents

Air category detection device, air category detection model learning device, method, and program Download PDF

Info

Publication number
JP6543169B2
JP6543169B2 JP2015219553A JP2015219553A JP6543169B2 JP 6543169 B2 JP6543169 B2 JP 6543169B2 JP 2015219553 A JP2015219553 A JP 2015219553A JP 2015219553 A JP2015219553 A JP 2015219553A JP 6543169 B2 JP6543169 B2 JP 6543169B2
Authority
JP
Japan
Prior art keywords
phrase
node
inflection
category
empty
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015219553A
Other languages
Japanese (ja)
Other versions
JP2017091155A (en
Inventor
永田 昌明
昌明 永田
峻輔 竹野
峻輔 竹野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015219553A priority Critical patent/JP6543169B2/en
Publication of JP2017091155A publication Critical patent/JP2017091155A/en
Application granted granted Critical
Publication of JP6543169B2 publication Critical patent/JP6543169B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Description

本発明は、入力されたテキストの空範疇を検出するための空範疇検出装置、空範疇検出モデル学習装置、方法、及びプログラムに関するものである。   The present invention relates to an air category detection device, an air category detection model learning device, a method, and a program for detecting an empty category of input text.

空範疇(empty category)とは、言語学、特に生成文法において、pro(またはsmall pro)と呼ばれる省略された代名詞、PRO(またはbig pro)と呼ばれるコントロールされている明示されていない主語、T(またはtrace)と呼ばれるWH疑問文・関係節などにおける移動の痕跡を表現する空要素(null element,音形を持たない要素)のことである。空範疇は空所(gap)と呼ばれることもある。   The empty category is an abbreviated pronoun called pro (or small pro) in linguistics, especially the generative grammar, a controlled unexplained subject called PRO (or big pro), T ( A null element (an element having no sound form) that expresses the trace of movement in WH questions, relative clauses, etc., which are called trace. The sky category is sometimes called a gap (gap).

空範疇検出(empty category detection)とは、入力文における空範疇の位置や種類や文法役割を自動的に同定する処理である。省略された代名詞(pro)を検出することは、日本語のような文脈から了解可能な主語を省略するpro-drop言語から、英語のような主語が必須である(主語の省略を許さない)non-pro-drop言語への翻訳において重要である。例えば、「映画を見たい」という文において空所となっている主語は、通常の解釈では話者である。この関係を正しく分析できれば、この文を「I want to see a movie」と正しく翻訳できる。具体的には、「(pro が)映画を見たい,pro=話者」との分析である。   Empty category detection is a process of automatically identifying the position, type, and grammatical role of an empty category in an input sentence. In order to detect an abbreviated pronoun (pro), a subject such as English is required from a pro-drop language that omits an understandable subject from a context such as Japanese (does not allow omission of the subject) Important in translating into non-pro-drop language. For example, a subject that is empty in the sentence "I want to see a movie" is a speaker in normal interpretation. If you can analyze this relationship correctly, you can translate this sentence correctly as "I want to see a movie". Specifically, it is an analysis of "(pro) wants to watch a movie, pro = speaker".

コントロール(control)とは、明示的な主語を持たない節(不定詞などの埋め込み節)がその節を項とする述語の他の項と同一指示(co-reference)の関係になる現象のことである。例えば、「I want to see a movie」という文において、不定詞「to see a movie」の主語は明示されていないが、不定詞を項とする動詞wantの主語Iと一致する。学校で習う英文法ではこれを「不定詞の意味上の主語」と表現するが、生成文法では「I want (PRO to see a movie)」のように空範疇PROの存在を仮定し、PROが動詞wantの主語Iにコントロールされると言う。   A control is a phenomenon in which a clause without an explicit subject (embedded clause such as infinitive) has the same co-reference relationship with the other clauses of that clause. It is. For example, in the sentence "I want to see a movie", the subject of the infinitive "to see a movie" is not specified, but matches the subject I of the verb want having the infinitive as a term. In English grammar that is learned in schools, this is expressed as "the subject of the meaning of the infinitive", but in generative grammar, PRO assumes the existence of empty category PRO like "I want (PRO to see a movie)". It is said that it is controlled by the subject I of the verb want.

コントロールされた要素(PRO)を検出することは、受身・使役・授受構文における格助詞の交替現象を説明し、事態を正確に理解することに役立つ。例えば、「太郎は花子にカレーを作らせた」という文は、「太郎は花子に((PRO が) カレーを作ら) せる, PRO=花子」のように、「カレーを作る」という文の空所になっている主語が「太郎が花子に〜させた」という文の目的語によってコントロールされている。この関係を正しく分析できれば、「誰がカレーを作ったか?」という質問に対して「花子」と答えることができる。   Detecting a controlled element (PRO) explains the substitution phenomenon of case particles in passive, causative, and receiving syntax, and helps to understand the situation correctly. For example, the sentence "Taro makes Hanako make curry" is an empty sentence of "making curry" like "Taro makes Hanako make (PRO makes curry), PRO = Hanako". The subject in question is controlled by the object of the sentence, "Taro made to Hanako." If you can analyze this relationship correctly, you can answer "Hanako" to the question "Who made curry?"

移動の痕跡(T)を検出することは、疑問文や関係節を正しく翻訳する上で重要である。例えば、「私は私が昨日撮った写真を彼に送った」という文において、「私が昨日撮った」という文の空所になっている目的語は、関係節の修飾先となっている名詞「写真」である。この関係を正しく分析できれば、「I sent him the picture I took yesterday」と翻訳できる。具体的には、「私は(私が昨日(T を) 撮った) 写真を彼に送った, T=写真」との分析である。   Detecting the trace of movement (T) is important for the correct translation of interrogative sentences and relative clauses. For example, in the sentence "I sent him a picture I took yesterday", the object that is empty of the sentence "I took yesterday" is the destination of the relative clause. It is a noun "photograph". If this relationship can be analyzed correctly, it can be translated as "I sent him the picture I took yesterday." Specifically, the analysis is "I sent him a photo (I took yesterday (T)), T = photo".

英語の関係代名詞は、whoやwhomのように人称変化するので、日本語から英語への翻訳では、日本語の関係節において空所が主語であるか目的語であるかを区別することも重要である。例えば、「英語を上手に話す少女に会った」という文において、「英語を上手に話す」という文の空所になっている主語は関係節の修飾先となっている名詞「少女」であるという関係が正しく分析でき、かつ「少女」は「人」であるという知識があれば、「I met a girl who speaks English fluently」のように主語が人であることを表す関係代名詞whoを正しく生成できる。具体的には、「((T が) 英語を上手に話す) 少女に会った, T=少女」との分析である。   Because relative pronouns in English change personally like who and whom, it is also important to distinguish whether the void is the subject or the object in the relative clause of Japanese in the translation from Japanese to English It is. For example, in the sentence "I met a girl who speaks English well", the subject in the open space of the sentence "Speaks English well" is the noun "girl" who is the target of modification of the relative clause If you can analyze the relationship correctly and you have the knowledge that “girl” is “person”, then you will correctly generate a relative pronoun who who indicates that the subject is a person like “I met a girl who speaks English fluently”. it can. Specifically, it is an analysis of "I met a girl ((T) speaks English well), T = girl".

また日本語の連体修飾節では、連体修飾節の修飾先の名詞が連体修飾節の述語の項ではない(空所が存在しない)ものがあり、これを「外の関係の連体節」または「埋め込み節(embedded phrase)」と呼ぶ。例えば、「私は(子供が泳いでいる) 写真を彼に送った」である。   In addition, in the adnomary modification clause of Japanese, there is a noun to which the modification destination of the adjoint modification clause is not a term of the predicate of the adjoint modification clause (there is no empty space). Called "embedded phrase". For example, "I sent him a picture (with a child swimming)".

英語の関係節は、関係節の修飾先の名詞が関係節の述語の項である場合しか許されないので、外の関係の連体節はそのままでは英語に翻訳できない。日本語または英語の表現を変更するか言葉を補うなどの何らかの工夫が必要である。例えば「I sent him a picture which shows that a child swam」(=私は子供が泳いでいることを示す写真を彼に送った)など。   The relative clauses of the English language can only be translated into English because the relative clauses of the English language are only permitted if the noun to which they are modified is a term of the predicate of the relative clause. Some ingenuity such as changing Japanese or English expressions or supplementing words is necessary. For example, "I sent him a picture which shows that a child swam" (= I sent him a picture showing that a child is swimming).

従って、日本語から英語への機械翻訳では、空範疇検出処理によって、連体修飾節に空所が存在しない(外の関係である)ことを同定することも重要である。   Therefore, in machine translation from Japanese to English, it is also important to identify that there is no space in the adnominal modification section (it is an external relation) by means of air category detection processing.

従来の殆どの統計学習に基づく構文解析器は、空範疇を無視している。英語における代表的な構文解析の正解データであるPenn Treebankには、コントロールされた要素PROと移動の痕跡Tに関する注釈が付与されているが、これまでに開発されたほとんどの構文解析器は、空範疇を無視したラベル付き構文木を出力する。   Most conventional statistical learning based parsers ignore empty categories. Although Penn Treebank, which is the correct data for typical parsing in English, is annotated about controlled element PRO and trace T of movement, most parsers developed so far are empty. Output a labeled syntax tree ignoring categories.

また、従来の空範疇検出方法は、空範疇検出を構文解析の前処理として実現する方法、空範疇検出を構文解析の後処理として実現する方法、及び空範疇検出と構文解析を同時に行うあるいは統合した方法の3つに大別できる。   Also, the conventional air category detection method implements air category detection as preprocessing for syntactic analysis, a method for implementing air category detection as post processing for syntactic analysis, and simultaneously performs air category detection and syntactic analysis or integrated There are three major ways to do this.

従来の空範疇検出方法として、空所ノードからその先行詞(antecedent)までのパスに基づいてパターンに基づいて統計的に空所を検出する方法が知られている(非特許文献4)。当該方法は、構文解析器の出力に対する後処理として空範疇検出が実現されている方法である。   As a conventional sky category detection method, there is known a method of statistically detecting a void based on a pattern based on a path from a void node to its antecedent (Non-Patent Document 4). The method is a method in which air category detection is implemented as post-processing on the output of the parser.

また、前後の単語や品詞から空範疇を予測する空所タガー(trace tagger)が知られている(非特許文献3)。当該方法は、構文解析の前処理として空範疇検出が実現されている方法である。   Also, a trace tagger that predicts an empty category from words and parts of speech before and after is known (Non-Patent Document 3). The method is a method in which air category detection is realized as preprocessing of syntactic analysis.

また、単語と単語の間に空範疇が出現する可能性を表現したラティスを入力とする構文解析を行うことにより、空範疇検出と構文解析を統合する手法が知られている(非特許文献6)。   There is also known a method of integrating empty category detection and syntactic analysis by performing syntactic analysis using a lattice that expresses the possibility that empty categories appear between words as an input (Non-Patent Document 6). ).

また、中国語における代表的な構文解析の正解データであるChinese Penn Treebankには、PROやTに加えて、省略された代名詞proに関する注釈が付与されている。省略された代名詞proに関する空範疇検出の研究は、Chinese Penn Treebankが公開されたことにより盛んになっている。   In addition to PRO and T, the Chinese penn Treebank, which is the correct data of typical syntactic analysis in Chinese, is annotated on the omitted pronoun pro. The research on sky category detection for the abbreviated pronoun pro is prosperous with the release of the Chinese Penn Treebank.

また、英語の空範疇検出法は、構文構造(構文解析器の出力形式)として句構造(phrase structure)を用いるものばかりであったが、中国語の空範疇検出法は、構文構造として句構造を用いる方法と依存構造(dependency structure)を用いる方法が知られている。   In addition, while the empty category detection method in English used only phrase structure as the syntactic structure (output format of the parser), the Chinese empty category detection method used the phrase structure as the syntactic structure There are known a method of using and a method of using a dependency structure.

また、文の依存構造において空範疇の位置と修飾先の対に対してラベルを付与する分類問題として空範疇検出を形式化し、この分類を実現する機械学習アルゴリズムが知られている(非特許文献8)。   In addition, there is known a machine learning algorithm that formalizes sky category detection as a classification problem in which labels are assigned to pairs of positions and modifications of sky categories in a sentence dependent structure (non-patent document) 8).

また、文の句構造において屈折句(IP, inflectional phrase)に対してラベルを付与する分類問題として空範疇検出を形式化し、この分類を実現する機械学習アルゴリズムが知られている(非特許文献7)。なお、Chinese Penn Treebankにおいて屈折句を表す非終端記号IPは、ほぼPenn Treebankにおいて文を表す非終端記号Sに相当する。   In addition, there is known a machine learning algorithm that formalizes empty category detection as a classification problem that labels an inflection phrase (IP, in the phrase structure of a sentence) and realizes this classification (Non-Patent Document 7) ). Note that the non-terminal symbol IP representing the inflection phrase in the Chinese Penn Treebank substantially corresponds to the non-terminal symbol S representing a sentence in the Penn Treebank.

また、日本語における代表的な構文解析の正解データである「京都大学テキストコーパス」には空範疇の情報は付与されていない。また、省略された代名詞proと移動の痕跡Tに関する注釈が付与された「欅ツリーバンク(Keyaki Treebank)」が存在する。しかし、英語や中国語を対象として考案された空範疇検出法を日本語に適用したという報告は、発明者らの知る限り存在しない。   In addition, no information on sky category is given to "Kyoto University Text Corpus" which is the correct data of typical syntactic analysis in Japanese. In addition, there is a "Keyaki Treebank" to which an annotation on an abbreviated pronoun pro and a trace T of movement is added. However, there is no report that the sky category detection method devised for English and Chinese has been applied to Japanese, as far as the inventors know.

また、欅ツリーバンクから学習された統計モデルを使用する日本語構文解析器HARUNIWA(http://www.compling.jp/haruniwa/index.html)において、上述の非特許文献4によく似た方法で、人手で作成されたパターン規則による空範疇検出を行う空範疇検出方法が知られている。しかし、この実装の内容や精度を報告した文献は、発明者らの知る限り存在しない。   Also, a method similar to the above-mentioned Non-Patent Document 4 in the Japanese lexical analyzer HARUNIWA (http://www.compling.jp/haruniwa/index.html) which uses a statistical model learned from the Sakai Tree Bank. There is known an air category detection method for detecting an air category according to manually generated pattern rules. However, there is no document that reports the content and accuracy of this implementation, to the best of the inventors' knowledge.

また、日本語の空範疇検出に類似した技術として、日本語の述語項構造およびゼロ代名詞補完(またはゼロ代名詞照応)と呼ばれる技術が知られている。述語項構造解析は、文から述語とその項を抽出するタスクである。関係節や省略された代名詞(ゼロ代名詞)のように項が文の中に存在しない場合、述語項構造解析と空範疇検出は類似した問題を解決しなければならない。述語項構造解析と空範疇検出との違いは、空範疇検出は文における空所の位置を検出するのに対して述語項構造解析には空所という概念が存在しないこと、空範疇検出は文中に空所が存在することを検出するだけであるのに対して述語項構造解析はその空所の照応先を同定する処理までを含むこと、空範疇検出は生成文法の理論に基づいてコントロールと呼ばれる義務的な照応を伴う代名詞的な要素PROと省略された代名詞proを区別するが述語項構造解析は両者をまとめてゼロ代名詞と呼ぶことなどが異なっている。   Also, as a technique similar to Japanese sky category detection, a technique called Japanese predicate term structure and zero pronoun complementation (or zero pronoun analogy) is known. Predicate term structure analysis is a task of extracting a predicate and its terms from a sentence. If there is no term in the sentence, such as relative clauses or abbreviated pronouns (zero pronouns), predicated term structure analysis and sky category detection should solve similar problems. The difference between predicate term structure analysis and empty category detection is that while empty category detection detects the position of empty space in the sentence, there is no concept of empty space in predicate term structural analysis, empty category detection is in the sentence In addition to detecting the existence of vacancies in the domain, predicated term structure analysis includes processing to identify the reference destination of the vacancies, and the detection of vain categories is based on the theory of generative grammar and controls. The pronounial element PRO with the obligatory anaphorism called is distinguished from the abbreviated pronoun pro, but predicate term structure analysis differs in that both are collectively called zero pronouns.

Alastair Butler, Tomoko Hotta, Ruriko Otomo, Kei Yoshimoto, Zhen Zhou, and Hong Zhu. Keyaki treebank: phrase structure with functional information for japanese. テキストアノテーションワークショップ, 2012.Alastair Butler, Tomoko Hotta, Ruriko Otomo, Kei Yoshimoto, Zhen Zhou, and Hong Zhu. Keyaki treebank: phrase structure with functional information for japanese. Text Annotation Workshop, 2012. Alastair Butler, 檜山祥太, 吉本啓. Coindexed null elements for a japanese parsed corpus. 言語処理学会第21 回年次大会発表論文集, pp. 708−711, 2015.Alastair Butler, Shota Sasayama, Kei Yoshimoto. Coindexed null elements for a japanese parsed corpus. Proceedings of the 21st Annual Conference of the Association for Language Processing, pp. 708-711, 2015. P´eter Diens and Amit Dubey. Deep syntactic processing by combining shallow methods. In ACL-2003, pp. 431−438, 2003.Psyneter Diens and Amit Dubey. Deep syntactic processing by combining shallow methods. In ACL-2003, pp. 431-438, 2003. Mark Johnson. A simple pattern-matching algorithm for recovering empty nodes and their an-tecedents. In ACL-2002, pp. 136−143, 2002.Mark Johnson. A simple pattern-matching algorithm for recovering empty nodes and their an-tecedents. In ACL-2002, pp. 136-143, 2002. Jeffrey Pennington, Richard Socher, and Christopher D. Manning. Glove: Global vectors for word representation. In EMNLP-2014, pp. 1532−1543, 2014.Jeffrey Pennington, Richard Socher, and Christopher D. Manning. Glove: Global vectors for word representation. In EMNLP-2014, pp. 1532-1543, 2014. Cai Shu, David Chiang, and Yoav Goldberg. Language-independent parsing with empty ele-ments. In ACL-2011, pp. 212−216, 2011.Cai Shu, David Chiang, and Yoav Goldberg. Language-independent parsing with empty ele-ments. In ACL-2011, pp. 212-216, 2011. Bing Xiang, Xiaoqiang Lue, and Bowen Zhou. Enlisting the ghost: Modeling empty categories for machine translation. In ACL-2013, pp. 822−831, 2013.Eninging the ghost: Modeling empty categories for machine translation. In ACL-2013, pp. 822-831, 2013. Bing Xiang, Xiaoqiang Lue, and Bowen Zhou. Nianwen Xue and Yaqin Yang. Dependency-based empty category detection via phrase structure trees. In NAACL-HLT-2013, pp. 1051−1060, 2013.Dependency-based empty category detection via phrase structure trees. In NAACL-HLT-2013, pp. 1051-1060, 2013. Nianwen Xue and Yaqin Yang. 河原大輔,黒橋禎夫. 格フレーム辞書の漸次的自動構築. 自然言語処理, Vol. 12, No. 2, pp.109−131, 2005.Daisuke Kawahara, Sadao Kurohashi. Incremental Automatic Construction of Case Frame Dictionary. Natural Language Processing, Vol. 12, No. 2, pp. 109-131, 2005.

しかし、上述した従来の述語項構造解析における空範疇検出に相当する処理は、ゼロ代名詞の照応先まで決定しようとするために、一つの文の内部の文法的な知識ではなく、文脈や領域に依存する知識を必要とするため、一つの文に閉じた処理として実現できないという問題点がある。   However, the process corresponding to the empty category detection in the conventional predicate term structure analysis described above is not in the grammatical knowledge inside one sentence, but in the context or area, in order to try to determine the zero pronoun's reference destination. There is a problem that it can not be realized as a process closed in one sentence because it requires dependent knowledge.

また、日本語の空範疇は、言語学では確立された概念であり、上述したような応用が存在する。しかし、日本語を対象とする自然言語処理において空範疇検出を自動的に行う技術は、発明者らの知る限り、日本語構文解析器HARUNIWAに付属するルールベースの空範疇検出しか存在しない。またその精度は、後述するように、構文解析の正解を与えた場合でも62.6%であり、決して高いとは言えないという問題がある。   In addition, the Japanese sky category is an established concept in linguistics, and there are applications as described above. However, as a technique for automatically performing airspace detection in natural language processing for Japanese, as far as the inventors know, there is only the rule-based airspace detection attached to the Japanese parser HARUNIWA. Also, as described later, the accuracy is 62.6% even when given the correct syntax analysis, and there is a problem that it can not be said to be high.

また、従来の日本語のゼロ代名詞に関する解析技術は、空範疇検出とは似て非なる技術である。これらは述語項構造解析の一部または類似する処理と考えられ、述語に関する項が文中に存在する場合と存在しない場合(ゼロ代名詞)を同列に扱い、かつ、ゼロ代名詞の照応先を同定することまでを含んでいる。そのために、必ずしもゼロ代名詞を含む日本語の空範疇の検出に最適化された技術になっていないという問題がある。   Also, the conventional analysis technology for zero pronouns in Japanese is a technology that is not similar to sky category detection. These are considered to be part of or similar to predicate term structure analysis, treating cases where terms related to predicates exist and do not exist in sentences (zero pronouns) in the same line, and identifying reference destinations of zero pronouns Including up to. Therefore, there is a problem that the technology is not necessarily optimized for the detection of Japanese sky categories including zero pronouns.

また、英語や中国語を対象とする空範疇検出は比較的よく研究されているが、そこで提案された技術が日本語に対して適用可能か、あるいは、どの程度有効なのかはよく分かっていないという問題がある。   In addition, although air category detection for English and Chinese has been relatively well studied, it is not well understood whether the proposed technology is applicable to Japanese or to what extent it is effective. There is a problem of

本発明では、上記問題点を解決するために成されたものであり、日本語のテキストに対する空範疇の検出を精度良く行うことができる空範疇検出装置、空範疇検出モデル学習装置、方法、及びプログラムを提供することを目的とする。   The present invention has been made to solve the above-mentioned problems, and an air category detection device, an air category detection model learning device, a method, and an air category detection device capable of accurately detecting an air category for Japanese text. The purpose is to provide a program.

上記目的を達成するために、第1の発明に係る空範疇検出装置は、入力されたテキストから、省略又は移動により生じた名詞的語句である空範疇を検出するための空範疇検出装置であって、前記入力されたテキストを構文解析して得られた句構造木に基づいて、前記句構造木に含まれる各屈折句(IP)ノードについて、前記屈折句(IP)ノードの子ノードのラベルの集合に基づく子ノード素性と、前記屈折句(IP)ノードから前記句構造木のルートノード又は補文標識句(CP)ノードまでの祖先の各ノードのラベルの系列に基づくパス素性とを用いて、素性ベクトルを作成する素性ベクトル作成部と、予め学習された、屈折句(IP)ノードに付与する空範疇ラベルを検出するための空範疇検出モデルと、前記屈折句(IP)ノードの各々の前記素性ベクトルとに基づいて、前記入力されたテキストにおける前記空範疇の位置及び種類を検出する空範疇ラベル検出部と、を含んで構成されている。   In order to achieve the above object, an air category detection device according to the first invention is an air category detection device for detecting an empty category which is a noun phrase generated by omission or movement from input text. Then, based on the phrase structure tree obtained by parsing the input text, for each inflection phrase (IP) node included in the phrase structure tree, a label of a child node of the inflection phrase (IP) node Using a child node feature based on a set of nodes and a path feature based on a series of labels of ancestor nodes from the inflection phrase (IP) node to the root node of the phrase structure tree or the complement indicator phrase (CP) node A feature vector creation unit for creating a feature vector, an empty category detection model for detecting an empty category label given to a refraction phrase (IP) node, which has been learned in advance, and the refraction phrase (IP) node Based on the feature vector of Te, it is configured to include a a sky category label detector for detecting the position and type of the air-categories in the input text.

第2の発明に係る空範疇検出方法は、素性ベクトル作成部と、空範疇ラベル検出部とを含む、入力されたテキストから、省略又は移動により生じた名詞的語句である空範疇を検出するための空範疇検出装置における、空範疇検出方法であって、前記素性ベクトル作成部は、前記入力されたテキストを構文解析して得られた句構造木に基づいて、前記句構造木に含まれる各屈折句(IP)ノードについて、前記屈折句(IP)ノードの子ノードのラベルの集合に基づく子ノード素性と、前記屈折句(IP)ノードから前記句構造木のルートノード又は補文標識句(CP)ノードまでの祖先の各ノードのラベルの系列に基づくパス素性とを用いて、素性ベクトルを作成し、前記空範疇ラベル検出部は、予め学習された、屈折句(IP)ノードに付与する空範疇ラベルを検出するための空範疇検出モデルと、前記屈折句(IP)ノードの各々の前記素性ベクトルとに基づいて、前記入力されたテキストにおける前記空範疇の位置及び種類を検出する。   According to a second aspect of the present invention, there is provided an empty category detection method for detecting an empty category which is a noun phrase generated by omission or movement from input text including a feature vector creation unit and an empty category label detection unit. In the empty category detection device according to claim 1, wherein the feature vector creation unit is configured to include each phrase included in the phrase structure tree based on a phrase structure tree obtained by parsing the input text. A child node feature based on a set of labels of child nodes of the inflection phrase (IP) node, and a root node or a complement indicator phrase of the phrase structure tree from the inflection phrase (IP) node, for the inflection phrase (IP) node A feature vector is created using a path feature based on a series of labels of each of the ancestor nodes up to the CP) node, and the empty category label detection unit assigns it to a pre-learned infra-red phrase (IP) node Detect an empty category label And sky category detection model for, based on said feature vector of each of said refractive clause (IP) node, to detect the position and type of the air-categories in the input text.

第1及び第2の発明によれば、素性ベクトル作成部により、入力されたテキストを構文解析して得られた句構造木に基づいて、句構造木に含まれる各屈折句(IP)ノードについて、屈折句(IP)ノードの子ノードのラベルの集合に基づく子ノード素性と、屈折句(IP)ノードから句構造木のルートノード又は補文標識句(CP)ノードまでの祖先の各ノードのラベルの系列に基づくパス素性とを用いて、素性ベクトルを作成し、空範疇ラベル検出部により、予め学習された、屈折句(IP)ノードに付与する空範疇ラベルを検出するための空範疇検出モデルと、屈折句(IP)ノードの各々の素性ベクトルとに基づいて、入力されたテキストにおける空範疇の位置及び種類を検出する。   According to the first and second inventions, each inflection phrase (IP) node included in the phrase structure tree based on the phrase structure tree obtained by parsing the input text by the feature vector creation unit A child node feature based on a set of labels of child nodes of the inflection phrase (IP) node, and each of the ancestor nodes from the inflection phrase (IP) node to the root node of the phrase structure tree or the complement indicator phrase (CP) node An empty category detection for detecting an empty category label given to a refractive phrase (IP) node, which is prepared in advance by using an empty category label detection unit by creating a feature vector using a pass feature based on a series of labels Based on the model and the feature vector of each of the inflection phrase (IP) nodes, the position and type of the empty category in the input text is detected.

このように、入力されたテキストを構文解析して得られた句構造木に基づいて、句構造木に含まれる各屈折句(IP)ノードについて、子ノード素性と、パス素性とを用いて、素性ベクトルを作成し、予め学習された、屈折句(IP)ノードに付与する空範疇ラベルを検出するための空範疇検出モデルと、屈折句(IP)ノードの各々の素性ベクトルとに基づいて、入力されたテキストにおける空範疇の位置及び種類を検出することにより、日本語のテキストに対する空範疇の検出を精度良く行うことができる。   Thus, based on the phrase structure tree obtained by parsing the input text, for each inflection phrase (IP) node included in the phrase structure tree, using the child node feature and the pass feature, Based on an empty category detection model for creating feature vectors and detecting an empty category label to be given to a refraction phrase (IP) node, which has been learned in advance, and a feature vector of each of the refraction phrase (IP) nodes By detecting the position and type of the empty category in the input text, it is possible to accurately detect the empty category for Japanese text.

また、第1の発明において、前記素性ベクトル作成部は、前記各屈折句(IP)ノードについて、前記屈折句(IP)ノードの主辞単語の表層形に基づく主辞単語素性、及び前記屈折句(IP)ノードの祖先となる屈折句(IP)ノードにおいて検出される空範疇ラベルに基づく空範疇素性の少なくとも一方を更に用いて、前記素性ベクトルを作成してもよい。   Further, in the first invention, the feature vector creation unit is configured to include, for each of the inflection phrase (IP) nodes, a foreword word feature based on a surface form of a foreword in the inflection phrase (IP) node, and the inflection phrase (IP The feature vector may be created by further using at least one of empty category labels based on empty category labels detected in a refraction phrase (IP) node that is an ancestor of the node.

また、第1の発明において、前記空範疇検出モデルは、前記空範疇ラベルが付与された複数のテキストの各々についての、前記テキストの句構造木に含まれる屈折句(IP)ノード毎に作成される前記素性ベクトルに基づいて学習されてもよい。   Also, in the first invention, the empty category detection model is created for each inflection phrase (IP) node included in the phrase structure tree of the text, for each of the plurality of texts to which the empty category label is attached. May be learned based on the feature vector.

また、第1の発明において、前記句構造木に含まれる各屈折句(IP)ノードについて、前記屈折句(IP)ノードの主辞単語となる述語の分散表現と、述語との格関係を明示する可能性がある予め定められた単語の分散表現との内積を正規化したベクトルを分散格フレーム素性として前記屈折句(IP)ノードの前記素性ベクトルに追加する分散格フレーム作成部を更に含んでもよい。   Further, in the first invention, for each inflection phrase (IP) node included in the phrase structure tree, a case relation between a distributed expression of a predicate as a leading word of the inflection phrase (IP) node and the predicate is specified. The distributed case frame creation unit may be further included which adds a vector obtained by normalizing the inner product of a possible predetermined distributed expression of words to the feature vector of the refractive phrase (IP) node as a distributed case frame feature. .

また、第3の発明に係る空範疇検出モデル学習装置は、省略又は移動により生じた名詞的語句である空範疇ラベルが付与された複数のテキストの各々について、前記テキストの句構造木に基づいて、前記句構造木に含まれる屈折句(IP)ノード毎に、前記屈折句(IP)ノードの子ノードのラベルの集合に基づく子ノード素性と、前記屈折句(IP)ノードから前記句構造木のルートノード又は補文標識句(CP)ノードまでの祖先の各ノードのラベルの系列に基づくパス素性とを用いて素性ベクトルを作成する素性ベクトル作成部と、前記テキストの各々の前記空範疇ラベルと、前記テキストの各々の句構造木に含まれる屈折句(IP)ノード毎の素性ベクトルとに基づいて、屈折句(IP)ノードに付与する前記空範疇ラベルを検出するための空範疇検出モデルを学習するモデル学習部と、を含んで構成されている。   Further, according to a third aspect of the present invention, there is provided an empty category detection model learning device, wherein, based on the phrase structure tree of the text, each of a plurality of texts to which blank category labels are given. A child node feature based on a set of labels of child nodes of the inflection phrase (IP) node for each inflection phrase (IP) node included in the phrase structure tree, and the inflection phrase tree from the inflection phrase (IP) node A feature vector creation unit for creating a feature vector using a sequence of labels of nodes of ancestor nodes up to a root node or a complement indicator phrase (CP) node of the above, and the empty category label of each of the texts And an empty category detection model for detecting the empty category label to be given to the inflection phrase (IP) node based on each of the text structure tree and the feature vector for each inflection phrase (IP) node included in each phrase structure tree of the text. Learn It is configured to include the model learning unit and, a.

第4の発明に係る空範疇検出モデル学習方法は、素性ベクトル作成部と、モデル学習部とを含む空範疇検出モデル学習装置における、空範疇検出モデル学習方法であって、前記素性ベクトル作成部は、省略又は移動により生じた名詞的語句である空範疇ラベルが付与された複数のテキストの各々について、前記テキストの句構造木に基づいて、前記句構造木に含まれる屈折句(IP)ノード毎に、前記屈折句(IP)ノードの子ノードのラベルの集合に基づく子ノード素性と、前記屈折句(IP)ノードから前記句構造木のルートノード又は補文標識句(CP)ノードまでの祖先の各ノードのラベルの系列に基づくパス素性とを用いて素性ベクトルを作成し、前記モデル学習部は、前記テキストの各々の前記空範疇ラベルと、前記テキストの各々の句構造木に含まれる屈折句(IP)ノード毎の素性ベクトルとに基づいて、屈折句(IP)ノードに付与する前記空範疇ラベルを検出するための空範疇検出モデルを学習する。   An empty category detection model learning method according to a fourth aspect of the present invention is the empty category detection model learning method in an empty category detection model learning device including a feature vector creating unit and a model learning unit, wherein the feature vector creating unit is For each of a plurality of texts with empty category labels, which are noun-like phrases generated by omission, or movement, per inflection phrase (IP) node included in the phrase structure tree based on the phrase structure tree of the text A child node feature based on a set of labels of child nodes of the inflection phrase (IP) node, and an ancestor from the inflection phrase (IP) node to a root node of the phrase structure tree or a complement indicator phrase (CP) node Creating a feature vector using a pass feature based on a series of labels of each of the nodes, and the model learning unit includes the empty category label of each of the texts and the phrase structure tree of each of the texts. And learn an air category detection model for detecting the air category label given to the inflection phrase (IP) node based on the feature vector of each inflection phrase (IP) node.

第3及び第4の発明によれば、素性ベクトル作成部により、省略又は移動により生じた名詞的語句である空範疇ラベルが付与された複数のテキストの各々について、テキストの句構造木に基づいて、句構造木に含まれる屈折句(IP)ノード毎に、屈折句(IP)ノードの子ノードのラベルの集合に基づく子ノード素性と、屈折句(IP)ノードから句構造木のルートノード又は補文標識句(CP)ノードまでの祖先の各ノードのラベルの系列に基づくパス素性とを用いて素性ベクトルを作成し、モデル学習部により、テキストの各々の空範疇ラベルと、テキストの各々の句構造木に含まれる屈折句(IP)ノード毎の素性ベクトルとに基づいて、屈折句(IP)ノードに付与する空範疇ラベルを検出するための空範疇検出モデルを学習する。   According to the third and fourth inventions, each of the plurality of texts to which empty category labels, which are noun phrases generated by omission or movement, are given by the feature vector creation unit based on the phrase structure tree of the text. A child node feature based on a set of labels of child nodes of the inflection phrase (IP) node for each inflection phrase (IP) node included in the phrase structure tree, and a root node of the phrase structure tree from the inflection phrase (IP) node A feature vector is created using a path feature based on the series of labels of each node of ancestors up to a complement indicator phrase (CP) node, and the model learning unit determines each empty category label of the text and each of the text Based on the feature vector of each inflection phrase (IP) node included in the phrase structure tree, an empty category detection model for detecting an empty category label to be assigned to the inflection phrase (IP) node is trained.

このように、省略又は移動により生じた名詞的語句である空範疇ラベルが付与された複数のテキストの各々について、テキストの句構造木に基づいて、句構造木に含まれる屈折句(IP)ノード毎に、子ノード素性と、パス素性とを用いて素性ベクトルを作成し、テキストの各々の空範疇ラベルと、テキストの各々の句構造木に含まれる屈折句(IP)ノード毎の素性ベクトルとに基づいて、屈折句(IP)ノードに付与する空範疇ラベルを検出するための空範疇検出モデルを学習することによって、精度良く空範疇ラベルを検出するためのモデルを学習することができる。   Thus, for each of a plurality of texts with empty category labels, which are noun-like phrases caused by omission or movement, inflected phrase (IP) nodes included in the phrase structure tree based on the phrase structure tree of the text Each time, a feature vector is created using child node features and pass features, each empty category label of the text, and a feature vector for each inflection phrase (IP) node included in each phrase structure tree of the text By learning an air category detection model for detecting air category labels given to inflection phrase (IP) nodes, it is possible to learn a model for detecting air category labels with high accuracy.

また、本発明のプログラムは、コンピュータを、上記の空範疇検出装置、又は空範疇検出モデル学習装置を構成する各部として機能させるためのプログラムである。   Further, a program according to the present invention is a program for causing a computer to function as the above-described air category detection device or each unit constituting the air category detection model learning device.

以上説明したように、本発明の空範疇検出装置、方法、及びプログラムによれば、入力されたテキストを構文解析して得られた句構造木に基づいて、句構造木に含まれる各屈折句ノードについて、子ノード素性と、パス素性とを用いて、素性ベクトルを作成し、予め学習された、屈折句ノードに付与する空範疇ラベルを検出するための空範疇検出モデルと、屈折句ノードの各々の素性ベクトルとに基づいて、入力されたテキストにおける空範疇の位置及び種類を検出することにより、日本語のテキストに対する空範疇の検出を精度良く行うことができる。   As described above, according to the empty category detection device, method, and program of the present invention, each refraction phrase included in the phrase structure tree is obtained based on the phrase structure tree obtained by parsing the input text. For the nodes, an empty category detection model for creating feature vectors using child node features and pass features and detecting an empty category label given to the inflection phrase node learned in advance, and an inflection phrase node By detecting the position and type of the empty category in the input text based on each feature vector, it is possible to accurately detect the empty category for Japanese text.

また、本発明の空範疇検出モデル学習装置、方法、及びプログラムによれば、省略又は移動により生じた名詞的語句である空範疇ラベルが付与された複数のテキストの各々について、テキストの句構造木に基づいて、句構造木に含まれる屈折句ノード毎に、子ノード素性と、パス素性とを用いて素性ベクトルを作成し、テキストの各々の空範疇ラベルと、テキストの各々の句構造木に含まれる屈折句ノード毎の素性ベクトルとに基づいて、屈折句ノードに付与する空範疇ラベルを検出するための空範疇検出モデルを学習することによって、精度良く空範疇ラベルを検出するためのモデルを学習することができる。   Further, according to the empty category detection model learning apparatus, method, and program of the present invention, the phrase structure tree of text is provided for each of a plurality of texts with empty category labels, which are noun phrases generated by omission or movement. Based on, for each inflection node included in the phrase structure tree, create feature vectors using child node features and pass features, and create each empty category label of the text and each phrase structure tree of the text A model for detecting an empty category label with high accuracy by learning an empty category detection model for detecting an empty category label to be added to the inflection phrase node based on the feature vector for each included inflection phrase node I can learn.

欅ツリーバンクの構文木の一例を示す図である。It is a figure which shows an example of the syntactic tree of a persimmon tree bank. 変換を適用した後の構文木の一例を示す図である。It is a figure which shows an example of the syntax tree after applying conversion. 素性を4つのタイプにグループ化した一例を示す図である。It is a figure which shows an example which grouped the feature into four types. 空範疇検出の精度、及び切除テストの結果の一例を示す図である。It is a figure which shows an example of the precision of an empty category detection, and the result of a cutting test. パス素性の一例を示す図である。It is a figure which shows an example of a pass feature. 子ノード素性の一例を示す図である。It is a figure which shows an example of a child node feature. パス素性と主辞単語素性との組み合わせの一例を示す図である。It is a figure which shows an example of the combination of a pass feature and a head word feature. パス素性と子ノード素性との組み合わせの一例を示す図である。It is a figure which shows an example of the combination of a pass feature and a child node feature. 本発明の実施形態に係る空範疇検出モデル学習装置の機能的構成を示すブロック図である。It is a block diagram showing functional composition of an empty category detection model learning device concerning an embodiment of the present invention. 本発明の実施形態に係る空範疇検出装置の機能的構成を示すブロック図である。It is a block diagram showing the functional composition of the air category detection device concerning the embodiment of the present invention. 本発明の実施形態に係る空範疇検出モデル学習装置における空範疇検出モデル学習処理ルーチンを示すフローチャート図である。It is a flowchart figure showing the sky category detection model learning processing routine in the sky category detection model learning device according to the embodiment of the present invention. 本発明の実施形態に係る空範疇検出装置における空範疇検出処理ルーチンを示すフローチャート図である。It is a flowchart figure which shows the air category detection processing routine in the air category detection device concerning an embodiment of the present invention. 欅ツリーバンクの統計量の一例である。This is an example of the 欅 tree bank statistics. 本実施形態における方法と従来法との比較の一例を示す図である。It is a figure which shows an example of comparison with the method in this embodiment, and the conventional method. 切除テストの一例を示す図である。It is a figure which shows an example of a resection test.

以下、図面を参照して本発明の実施形態を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

<本発明の実施形態の概要>
まず、本発明の実施形態の概要について説明する。本実施形態は、非特許文献1記載の欅ツリーバンク(Keyaki Treebank)を使用する。欅ツリーバンクは、ペン通時コーパスの解析規約に従って、日本語の文に対して句構造を付与したタグ付きコーパスである。並列構造以外では動詞句VPを作らないなど極力フラットな構文構造を採用し、名詞句(NP)や節(IP,CP)に主語や目的語などの文法機能の情報を付与している点に特徴がある。図1に「家出した娘を連れ戻した。」という文に対する欅ツリーバンクの構文木の例を示す。
<Overview of Embodiments of the Present Invention>
First, an outline of an embodiment of the present invention will be described. The present embodiment uses the keyaki tree bank described in Non-Patent Document 1. The Sakai Tree Bank is a tagged corpus in which phrase structures are added to Japanese sentences in accordance with the analysis rule of the pen passing corpus. In addition to the parallel structure, it uses a syntactic structure that is as flat as possible, such as not creating a verb phrase VP, and adds information on grammatical functions such as subjects and objects to noun phrases (NP) and clauses (IP, CP). There is a feature. FIG. 1 shows an example of a 欅 tree bank syntax tree for the sentence “I brought back my daughter who went home”.

ここで、IPは、屈折句、又は時制句と呼ばれ、CP(Complementizer Phrase)は補文標識句、又は補文と呼ばれる。これは、「単文」、「動名詞句」、又は「節」と呼ばれるような、動詞1つと、それを修飾する単語のまとまりに関して、「文としての完成度」を厳密に区別したときに用いる用語である。そのため、IPは、関係節のように欠けている要素がある文で、CPは間接疑問文や引用節のように、ほぼ文として完成している(そのまま独立した文としてもおかしくない)ものである。   Here, IP is referred to as inflection phrase or temporal phrase, and CP (Complementizer Phrase) is referred to as complementary indicator phrase or complementary sentence. This is used to strictly distinguish "the degree of completeness as a sentence" with regard to one verb and the grouping of words that modify it, such as a "simple sentence", "a noun phrase", or a "clause" It is a term. Therefore, IP is a sentence that has missing elements like relative clauses, and CP is something that is almost completed as a sentence like an indirect interrogative sentence or citation clause (it is not wrong as an independent sentence as it is) is there.

欅ツリーバンクには、省略されたゼロ代名詞(pro)と関係節等の移動の痕跡(T)に関する注釈が付与されている。コントロールされた空要素(PRO)に関する注釈は付与されていないが、非特許文献2に記述された方法によりPROを自動的に付与することも可能である。後述において、proとTとに関する空範疇検出法を説明するが、PROに関する注釈を持つツリーバンクを作成すれば、同じ方法でPROに関する空範疇検出を実現できる。   The 欅 tree bank is annotated as to the trace of movement (T) such as abbreviated pronouns (pro) and relative clauses. Although the annotation regarding the controlled empty element (PRO) is not given, it is also possible to give PRO automatically by the method described in Non-Patent Document 2. Although the sky category detection method for pro and T will be described later, sky tree detection for PRO can be realized in the same way by creating a tree bank with annotations for PRO.

ここで、本実施形態において用いる技術と比較対象となる技術について説明する。まず、中国語の空範疇検出に関して最も優れた手法とされている非特許文献7の手法を説明する。なお、本実施形態において、句構造木は、文を構成する単語や句の種類と階層的な関係を示す木構造とする。   Here, techniques to be compared with the techniques used in the present embodiment will be described. First, the method of Non-Patent Document 7 which is considered to be the best method for detecting Chinese sky categories will be described. In the present embodiment, the phrase structure tree is a tree structure showing a hierarchical relationship with the types of words and phrases that constitute a sentence.

非特許文献7の手法では、句構造木の屈折句(IP)ノードを分類する問題として空範疇検出を定式化する。例えば図1において、空範疇に対応するノードは削除され、図2のように屈折句(IP)ノードのラベルに、空範疇の種類、文法機能、及び位置を符号化した空範疇ラベルを付加する。   In the method of Non-Patent Document 7, air category detection is formulated as a problem of classifying inflection phrase (IP) nodes of a phrase structure tree. For example, in FIG. 1, nodes corresponding to empty categories are deleted, and as shown in FIG. 2, an empty category label in which the type of empty category, grammar function, and position are encoded is added to the label of inflected phrase (IP) node .

例えば、「IP-REL:*T*SBJ@0」は、「IP-REL」(関係節)ノードの最初の子が痕跡(T)であり、その文法機能がSBJ(主語)であることを表す。空範疇が存在しない場合は、空範疇ラベルは空文字列とする(ΦやNULLなどの特殊記号で表現してもよい)。 For example, “IP-REL: * T * SBJ @ 0” means that the first child of the “IP-REL” (relational clause) node is a trace (T) and its grammar function is SBJ (subject) Represent. If no empty category exists, the empty category label is an empty string (it may be expressed by a special symbol such as Φ or NULL).

また、屈折句(IP)ノードに付加された空範疇ラベルから空範疇の種類、文法機能、及び位置を一意に復号できるので、空範疇検出の問題は、空範疇を削除された構文木、すなわち、従来の構文解析結果において、屈折句(IP)ノードに対して付与すべき空範疇ラベルを検出する問題に帰着する。   Also, the problem of empty category detection is that empty category labels are removed from empty category labels, that is, the empty category label problem, since it is possible to uniquely decode empty category types, grammar functions, and locations from empty category labels attached to inflection phrase (IP) nodes. This results in the problem of detecting empty category labels to be assigned to inflection phrase (IP) nodes in conventional parsing results.

木のルートから帰りがけ順(postorder)にノードを巡回(traversal)した系列をT=t1t2・・・tnとし、tiに関連付けられた空範疇ラベルをeiとする。 Let T = t 1 t 2 ... T n be a sequence in which nodes are traversed in the postorder from the root of a tree, and let an empty category label associated with t i be e i .

非特許文献7の手法の確率モデルは、下記(1)式の最大エントロピーモデル(ロジスティック回帰モデル、対数線形モデル)として形式化される。   The probability model of the method of Non Patent Literature 7 is formalized as a maximum entropy model (logistic regression model, log linear model) of the following equation (1).

ここで、φは素性ベクトル、φへのθは重みベクトル、Zは、   Here, φ is a feature vector, θ to φ is a weight vector, and Z is

のように求められる正規化係数を表す。ここで、εは検出すべき全ての空範疇ラベルの集合を表す。 Represents the normalization factor to be obtained as Here, ε represents a set of all empty category labels to be detected.

非特許文献7の手法では、素性を図3に示す4つのタイプにグループ化した。それらは木ラベル素性(tree label features)、語彙素性(lexical features)、空範疇素性(empty category features)、及び組合せ素性(conjunction features)である。   In the method of Non-Patent Document 7, features are grouped into four types shown in FIG. They are tree label features, lexical features, empty category features and conjunction features.

非特許文献7の手法の素性はChinese Penn Treebankを対象としたものなので、当該方法を欅ツリーバンクへ適用するために、本実施形態においては、次の変更を行った。   Since the feature of the method of Non-Patent Document 7 is directed to Chinese Penn Treebank, the following changes are made in this embodiment in order to apply the method to a 欅 tree bank.

まず、巡回の順序を帰りがけ順(postorder, ボトムアップ)から行きがけ順(preorder, トップダウン)に変更した。欅ツリーバンクではPROが明示されないので、屈折句(IP)ノードにおける空範疇検出は、上位のレベルのノードおよび左のノードの空範疇検出の結果に依存する。次に空範疇素性は、子孫ノード(descendant node)ではなく祖先ノード(ancestor node)から計算される。   First, I changed the order of patrol from the postorder (bottom up) to the preorder (top down). Since PRO is not specified in the 欅 tree bank, air category detection in inflection phrase (IP) nodes depends on the result of air category detection of the upper level node and the left node. Empty category features are then calculated from ancestor nodes rather than descendent nodes.

図4に、非特許文献7の手法の素性と、これを日本語向けに修正した素性に対する空範疇検出の精度、及び、修正後の素性に対する切除テスト(ablation test)の結果を示す。当該結果から、日本語向けの修正により空範疇検出の精度が向上したこと、及び、組合せ素性が非常に有効であることが分かる。   FIG. 4 shows the feature of the method of Non-Patent Document 7, the accuracy of detecting an empty category for a feature modified for Japanese, and the result of an ablation test for the feature after modification. From the results, it can be seen that the correction for Japanese language improves the accuracy of air category detection and that the combination feature is very effective.

次に、本実施形態において用いる素性について説明する。本実施形態では、確率モデルとして上記(1)式の対数線形モデルを使用し、行きがけ順に木を巡回する。各屈折句(IP)ノードの素性としては、主辞単語素性(head word feature)、子ノード素性(child feature)、及び空範疇素性(empty category feature)の3つの素性とパス素性(path feature)との組合せを使用する。   Next, features used in the present embodiment will be described. In this embodiment, the log linear model of the above equation (1) is used as the probability model, and the tree is traversed in descending order. As features of each inflection phrase (IP) node, there are three features of a head word feature, a child node feature, and an empty category feature and a path feature and Use a combination of

ここで、パス素性(PATH)は、現在のノードからルートノードまたは補文標識句(CP)ノードまでの祖先のノードに対する非終端記号ラベルの系列である。例えば、図2において、もし現在のノードが「IP-REL」ならば、図5に示す4つのパスが抽出される。   Here, a path feature (PATH) is a sequence of non-terminal symbol labels for ancestor nodes from the current node to a root node or a complement indicator phrase (CP) node. For example, in FIG. 2, if the current node is "IP-REL", four paths shown in FIG. 5 are extracted.

また、主辞単語素性(HEAD)は、現在のノードの語彙的主辞となる単語の表層形である。子ノード素性(CHILD)は、現在のノードの子ノードのラベルの集合である。このラベルは、もし右端の終端ノードが機能語であればその表層形が追加される。例えば図1において、もし現在のノードが「IP-MAT」ならば、主辞単語素性は「連れ」であり、子ノード素性は図6に示すものとなる。   Also, the head word feature (HEAD) is a surface form of the word that is the lexical head of the current node. Child node feature (CHILD) is a set of labels of child nodes of the current node. This label is added with its surface shape if the rightmost terminal node is a function word. For example, in FIG. 1, if the current node is "IP-MAT", the head word feature is "follow" and the child node feature is as shown in FIG.

また、空範疇素性(EC)は、現在のノードの祖先となる屈折句(IP)ノードで検出された空範疇である。例えば、図2において、現在のノードが「IP-REL」ならば、空範疇素性は*pro*である。 Also, an empty category feature (EC) is an empty category detected at a refractive phrase (IP) node that is an ancestor of the current node. For example, in FIG. 2, if the current node is "IP-REL", the empty category feature is * pro * .

本実施形態においては、主辞単語素性、子ノード素性、及び空範疇素性とパス素性とを組み合わせる。例えば、図2において現在のノードが「IP-MAT」ならば、パス素性と主辞単語素性の組合せは図7に示すとおりである。また、パス素性と子ノード素性の組み合わせは、図8に示すとおりである。   In the present embodiment, the head word feature, the child node feature, and the empty category feature and the pass feature are combined. For example, if the current node in FIG. 2 is "IP-MAT", the combination of the pass feature and the leading word feature is as shown in FIG. Further, the combination of the pass feature and the child node feature is as shown in FIG.

次に、本実施形態において用いる分散格フレームについて説明する。   Next, the distributed case frame used in the present embodiment will be described.

ここで、格フレーム(case frame)とは、述語とその項の文法役割および項となる名詞の種類を列挙したものである。また、格フレーム辞書(case frame lexicon)とは、格フレームを述語の用法ごとに記述したデータベースである。   Here, a case frame is a list of predicates, grammatical roles of their terms, and types of nouns that become terms. Also, a case frame dictionary (case frame lexicon) is a database in which case frames are described for each usage of a predicate.

また、格フレーム辞書は、述語がとりうる項に関する情報を与えるので、明らかに空範疇検出に有効な情報であるが、一般に、処理対象となる領域において大規模かつ網羅的な格フレーム辞書を予め用意することは難しい。   Also, since the case frame dictionary gives information on terms that can be taken by the predicate, it is clearly information effective for detecting empty categories, but in general, a large-scale and exhaustive case frame dictionary in the area to be processed is It is difficult to prepare.

本実施形態においては、日本語のように格関係を明示する機能語(格助詞)が存在する言語において、単語分散表現を利用して格フレーム辞書を近似したものを、空範疇検出のための素性として利用する。   In the present embodiment, in a language such as Japanese in which a functional word (case particle) specifying a case relationship exists, an approximation of a case frame dictionary using a word distributed expression is used to detect an empty category. Use as a feature.

また、埋め込み(word embedding)または単語分散表現(distributed representation of word)とは、単語からその意味を表現する低次元の実数ベクトルへの写像である。近年、ニューラルネットや単語共起行列の次元削減など単語埋め込みを作成する様々な方法が提案されている。特に非特許文献5によれば、彼らが提案する単語埋め込みモデルGloveは、二つの単語埋め込みの内積(dot product)がそれらの共起頻度の対数を近似するように設計されている。   Also, word embedding or distributed representation of words is a mapping from a word to a low dimensional real vector representing its meaning. In recent years, various methods for creating word embedding, such as dimensional reduction of neural networks and word co-occurrence matrices, have been proposed. Particularly, according to Non-Patent Document 5, the word embedding model Glove proposed by them is designed such that the dot product of two word embeddings approximates the logarithm of their co-occurrence frequency.

そのため、Gloveの性質を利用すれば、述語の格フレームを近似する素性を簡単に作ることができる。述語の単語分散表現をwi、N個の格助詞(および格助詞に相当する単語)の単語分散表現をq1,q2,・・・,qN∈Qとすれば、この述語に関する「分散格フレーム(distributed casee frame)」は、述語の単語分散表現とそれぞれの格助詞の単語分散表現との内積を正規化したN次元のベクトルとして下記(2)式及び(3)式のように定義できる。 Therefore, if you use the property of Glove, you can easily create features that approximate the case frame of a predicate. Let w i be a word distributed expression of a predicate, and q 1 , q 2 ,..., Q N ∈Q, a word distributed expression of N case particles (and words corresponding to case particles). The distributed case frame (distributed case frame) is an N-dimensional vector obtained by normalizing the inner product of the word distributed expression of the predicate and the word distributed expression of each case particle, as in the following equations (2) and (3) It can be defined.

また、本実施形態においては、高頻度の格助詞及び格助詞に相当する単語の集合Qとして、「が,は,も,の,を,に,へ,から」の単語を使用する。なお、分散格フレームを作成する際の格助詞相当語としては、当該例に限られず、日本語において格関係を明示する可能性がある単語であれば何を用いてもよい。   Also, in the present embodiment, as a set Q of words corresponding to high frequency case particles and case particles, the words “but, also, of, to, from” are used. In addition, as a case particle equivalent word at the time of creating a distributed case frame, it is not restricted to the said example, You may use what is a word which has a possibility of demonstrating a case relationship in Japanese.

また、本実施形態においては、上述した素性に加えて、各屈折句(IP)ノードについて、当該ノードの主辞単語となる述語の分散格フレームを素性として使用する。   Further, in this embodiment, in addition to the above-described feature, for each inflection phrase (IP) node, a distributed case frame of a predicate serving as a head word of the node is used as a feature.

以上のように、本実施形態においては、日本語と同様に省略された代名詞proを検出しなければならない中国語の空範疇検出において、従来、最も優れている非特許文献7の手法を見なおして、日本語において最高精度を達成した。   As described above, in the present embodiment, the method of Non-Patent Document 7 which is the most excellent in the prior art is reconsidered in the Chinese sky category detection which must detect the pronoun pro abbreviated like Japanese. Achieved the highest accuracy in Japanese.

具体的には、木の巡回を行きがけ順にした点、主辞単語素性、子ノード素性、及び空範疇素性の3つとパス素性との組合せを素性として用いた点、及び格フレーム辞書の代わりに、格助詞相当語の単語分散表現と述語の単語分散表現の内積から構成される実数ベクトル(分散格フレーム)を素性として使用した点を非特許文献7の手法から変更した。   Specifically, instead of traversing the tree, the combination of three points of head word feature, child node feature, and empty category feature and pass feature is used as a feature, and instead of the case frame dictionary, The point of using a real number vector (distributed case frame) composed of the inner product of the word distributed expression of the particle equivalent term and the word distributed expression of the predicate as a feature is changed from the method of Non-Patent Document 7.

なお、主辞単語素性、子ノード素性、及び空範疇素性の3つとパス素性との組合せのうち、最も有効であるのは、パス素性と子ノード素性との組合せである。また、格フレーム辞書に比べて分散格フレーム(単語分散表現)は容易に計算できるので、空範疇検出器の分野適応が容易になる。   Among the combinations of three of head word feature, child node feature, and empty category feature and pass feature, the most effective is the combination of pass feature and child node feature. In addition, since the distributed case frame (word distributed expression) can be easily calculated as compared with the case frame dictionary, field adaptation of the sky category detector is facilitated.

<本発明の実施形態に係る空範疇検出モデル学習装置の構成>
次に、本発明の実施の形態に係る空範疇検出モデル学習装置の構成について説明する。図9に示すように、本発明の実施の形態に係る空範疇検出モデル学習装置100は、CPUと、RAMと、後述する空範疇モデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この空範疇検出モデル学習装置100は、機能的には図9に示すように入力部10と、演算部20と、出力部90とを備えている。
<Configuration of Air Category Detection Model Learning Device According to Embodiment of the Present Invention>
Next, the configuration of the air category detection model learning device according to the embodiment of the present invention will be described. As shown in FIG. 9, the air category detection model learning apparatus 100 according to the embodiment of the present invention stores a CPU, a RAM, a program for executing an air category model learning processing routine described later, and various data. And a ROM. This empty category detection model learning device 100 functionally includes an input unit 10, an operation unit 20, and an output unit 90, as shown in FIG.

入力部10は、例えば、図1に示すような、欅ツリーバンク形式の空範疇付き句構造木を複数受け付け、空範疇付き句構造木データ記憶部22に記憶する。また、入力部10は、例えば、日本語Wikipedia(登録商標)をプレーンテキストに変換したような、複数のテキストデータを受け付け、テキストデータ記憶部24に記憶する。なお、テキストデータは、日本語Wikipedia(登録商標)をプレーンテキストに変換したものに限定されず、任意のテキストでもよく、例えば、Webクロールデータ、新聞記事30年分、又は全ての特許出願等を用いてもよい。   For example, as shown in FIG. 1, the input unit 10 receives a plurality of empty category-added phrase structure trees in an 欅 tree bank format, and stores the plurality of empty category added phrase structure tree data storage unit 22. Further, the input unit 10 receives, for example, a plurality of text data obtained by converting Japanese Wikipedia (registered trademark) into plain text, and stores the text data in the text data storage unit 24. In addition, the text data is not limited to what converted Japanese Wikipedia (registered trademark) into plain text, but may be any text, for example, Web crawl data, 30 years of newspaper articles, or all patent applications etc. You may use.

演算部20は、空範疇付き句構造木データ記憶部22と、テキストデータ記憶部24と、句構造木変換部26と、空範疇ラベル記憶部28と、句構造木データ記憶部30と、単語分散表現作成部32と、単語分散表現データ記憶部34と、分散格フレーム作成部38と、素性ベクトル作成部36と、モデル学習部40と、空範疇検出モデル記憶部42とを備えている。   Arithmetic unit 20 includes empty category added phrase structure tree data storage unit 22, text data storage unit 24, phrase structure tree conversion unit 26, empty category label storage unit 28, phrase structure tree data storage unit 30, word A distributed representation creating unit 32, a word distributed representation data storage unit 34, a distributed case frame creating unit 38, a feature vector creating unit 36, a model learning unit 40, and an empty category detection model storage unit 42 are provided.

空範疇付き句構造木データ記憶部22には、入力部10において受け付けた複数の空範疇付き句構造木が記憶されている。   The empty category added phrase structure tree data storage unit 22 stores a plurality of empty category added phrase structure trees received in the input unit 10.

テキストデータ記憶部24には、入力部10において受け付けた複数のテキストデータが記憶されている。   The text data storage unit 24 stores a plurality of text data accepted by the input unit 10.

句構造木変換部26は、空範疇付き句構造木データ記憶部22に記憶されている空範疇付き句構造木の各々について、非特許文献7の手法を用いて、例えば、図1の句構造木から図2の句構造木に変換するように、当該空範疇付き句構造木において、空範疇に対応するノードを削除し、各屈折句(IP)ノードのラベルに、空範疇の種類、文法機能、及び位置を符号化した空範疇ラベルを付加するように句構造木を変換する。   The phrase structure tree converter 26 uses, for example, the phrase structure of FIG. 1 for each of the empty category phrase structure trees stored in the empty category phrase tree data storage unit 22 using the method of Non-Patent Document 7. In order to convert the tree into the phrase structure tree of FIG. 2, in the empty category added phrase structure tree, the nodes corresponding to the empty category are deleted, and in the label of each inflection phrase (IP) node, type of empty category, grammar Transform the phrase structure tree to add empty category labels that encode functions and locations.

また、句構造木変換部26は、変換済みの句構造木の各々を、句構造木データ記憶部30に記憶すると共に、当該変換済みの句構造木の各屈折句(IP)ノードに付加されている空範疇ラベルを当該句構造木の各屈折句(IP)ノードに対応させて、空範疇ラベル記憶部28に記憶する。   Also, the phrase structure tree conversion unit 26 stores each of the converted phrase structure trees in the phrase structure tree data storage unit 30, and is added to each inflection phrase (IP) node of the converted phrase structure tree. The empty category label is stored in the empty category label storage unit 28 in association with each inflection phrase (IP) node of the relevant phrase structure tree.

空範疇ラベル記憶部28には、空範疇ラベルが、変換済みの句構造木の各屈折句(IP)ノードに対応づいて記憶されている。   Empty category labels are stored in the empty category label storage unit 28 in correspondence with each inflection phrase (IP) node of the transformed phrase structure tree.

句構造木データ記憶部30には、句構造木変換部26において変換された変換済みの句構造木の各々が記憶されている。   The phrase structure tree data storage unit 30 stores each of the converted phrase structure trees converted by the phrase structure tree conversion unit 26.

単語分散表現作成部32は、テキストデータ記憶部24に記憶されているテキストデータの各々に基づいて、非特許文献5の方法に従って、単語毎の単語分散表現を作成し、単語分散表現データ記憶部34に記憶する。   The word distributed representation creating unit 32 creates a word distributed representation for each word according to the method of Non-Patent Document 5 based on each of the text data stored in the text data storage unit 24, and a word distributed representation data storage unit Store in 34.

単語分散表現データ記憶部34には、単語毎の単語分散表現が記憶されている。   The word distributed expression data storage unit 34 stores word distributed expressions for each word.

素性ベクトル作成部36は、句構造木データ記憶部30に記憶されている変換済みの句構造木の各々について、当該句構造木に含まれる屈折句(IP)ノード毎に、主辞単語素性、子ノード素性、及び空範疇素性の3つの素性を取得し、また、屈折句(IP)ノード毎にパス素性を取得し、屈折句(IP)ノード毎に取得した、主辞単語素性、子ノード素性、及び空範疇素性の3つの素性と、パス素性との組み合わせに基づいて、素性ベクトルを作成し、分散格フレーム作成部38に出力する。   The feature vector creation unit 36 generates, for each inflection phrase (IP) node included in the phrase structure tree, a leading word feature, a child word feature, for each of the converted phrase structure trees stored in the phrase structure tree data storage unit 30. Leading word feature, child node feature, obtained for each inflection phrase (IP) node by acquiring three features of node feature and empty category feature, and also acquiring pass feature for each inflection phrase (IP) node A feature vector is created based on a combination of three features of sky category and pass feature, and is output to the distributed case frame creating unit 38.

分散格フレーム作成部38は、句構造木データ記憶部30に記憶されている変換済みの句構造木の各々について、当該句構造木の各屈折句(IP)ノードに対し、単語分散表現データ記憶部34に記憶されている、当該屈折句(IP)ノードにおける主辞単語となる述語の単語分散表現と、予め定められたN個の格助詞の単語分散表現の各々とに基づいて、上記(2)式、及び上記(3)式に従って、分散格フレームを素性として作成する。また、分散格フレーム作成部38は、変換済みの句構造木の各々について作成した、当該句構造木の各屈折句(IP)ノードの分散格フレームの素性を、当該屈折句(IP)ノードに対応する、素性ベクトル作成部36から入力された素性ベクトルに、追加し、モデル学習部40に出力する。   The distributed case frame creation unit 38 stores word distributed expression data for each of the inflection phrase (IP) nodes of the phrase structure tree for each of the transformed phrase structure trees stored in the phrase structure tree data storage unit 30. The above-described (2) is performed based on the word distributed representation of the predicate serving as the leading word in the inflected phrase (IP) node and the word distributed representation of N predetermined case particles, which are stored in the section 34. The distributed case frame is created as a feature according to equation (3) and equation (3) above. In addition, the distributed case frame creation unit 38 assigns the features of the distributed case frame of each inflection phrase (IP) node of the relevant phrase structure tree, created for each of the transformed phrase structure trees, to the corresponding inflection phrase (IP) node. It adds to the corresponding feature vector input from the feature vector creation unit 36 and outputs the feature vector to the model learning unit 40.

モデル学習部40は、分散格フレーム作成部38から入力された、変換済みの句構造木の各々の当該句構造木に含まれる各屈折句(IP)ノードの素性ベクトルの各々と、空範疇ラベル記憶部28に記憶されている、当該屈折句(IP)ノードに対応する空範疇ラベルの各々とに基づいて、空範疇ラベルを検出するための空範疇検出モデルを学習し、空範疇検出モデル記憶部42に記憶すると共に、出力部90から出力する。   The model learning unit 40 receives each of the feature vectors of each inflection phrase (IP) node included in the relevant phrase structure tree of each of the transformed phrase structure trees input from the distributed case frame creation unit 38 and the empty category label. An air category detection model for detecting an air category label is learned based on each of the air category labels corresponding to the inflection phrase (IP) nodes stored in the storage unit 28, and the air category detection model storage is performed. The data is stored in the unit 42 and output from the output unit 90.

<本発明の実施形態に係る空範疇検出装置の構成>
次に、本発明の実施の形態に係る空範疇検出装置の構成について説明する。図10に示すように、本発明の実施の形態に係る空範疇検出装置200は、CPUと、RAMと、後述する空範疇検出処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この空範疇検出装置200は、機能的には図10に示すように入力部210と、演算部220と、出力部290とを備えている。
<Configuration of Air Category Detection Device According to Embodiment of the Present Invention>
Next, the configuration of the air category detection device according to the embodiment of the present invention will be described. As shown in FIG. 10, the air category detection device 200 according to the embodiment of the present invention includes a CPU, a RAM, and a ROM storing a program for executing an air category detection processing routine described later and various data. Can be configured on a computer. This air category detection device 200 functionally includes an input unit 210, an operation unit 220, and an output unit 290, as shown in FIG.

入力部210は、空範疇を検出する対象となるテキストを受け付け、入力テキスト記憶部222に記憶する。   The input unit 210 receives text to be detected as an empty category, and stores the text in the input text storage unit 222.

演算部220は、入力テキスト記憶部222と、単語分散表現データ記憶部224と、構文解析部226と、句構造木データ記憶部228と、素性ベクトル作成部230と、分散格フレーム作成部232と、空範疇検出モデル記憶部234と、空範疇ラベル検出部236と、空範疇ラベル記憶部238とを備えている。   The operation unit 220 includes an input text storage unit 222, a word distributed representation data storage unit 224, a syntax analysis unit 226, a phrase structure tree data storage unit 228, a feature vector creation unit 230, and a distributed case frame creation unit 232. , An empty category detection model storage unit 234, an empty category label detection unit 236, and an empty category label storage unit 238.

入力テキスト記憶部222には、入力部210において受け付けた検出対象となるテキストが記憶されている。   The input text storage unit 222 stores the text to be detected received by the input unit 210.

単語分散表現データ記憶部224には、空範疇検出モデル学習装置100の単語分散表現データ記憶部34に記憶されている単語分散表現データと同一の単語分散表現データが記憶されている。   The word distributed expression data storage unit 224 stores word distributed expression data identical to the word distributed expression data stored in the word distributed expression data storage unit 34 of the empty category detection model learning device 100.

構文解析部226は、入力テキスト記憶部222に記憶されている、検出対象のテキストについて、構文解析を行い、句構造木を取得し、句構造木データ記憶部228に記憶する。   The syntax analysis unit 226 parses the text to be detected, which is stored in the input text storage unit 222, acquires a phrase structure tree, and stores the phrase structure tree in the phrase structure tree data storage unit 228.

句構造木データ記憶部228には、構文解析部226から入力された、検出対象のテキストを構文解析した句構造木が記憶されている。   The phrase structure tree data storage unit 228 stores a phrase structure tree obtained by parsing the text to be detected, which is input from the syntax analysis unit 226.

素性ベクトル作成部230は、句構造木データ記憶部228に記憶されている句構造木の各々について、当該句構造木に含まれる屈折句(IP)ノード毎に、主辞単語素性、子ノード素性、及び空範疇素性の3つの素性を取得し、また、屈折句(IP)ノード毎に、パス素性を取得し、取得した、主辞単語素性、子ノード素性、及び空範疇素性の3つの素性とパス素性との組み合わせに基づいて、素性ベクトルを作成する。なお、素性ベクトル作成部230は、句構造木のルートノードに近い屈折句(IP)ノードから順に素性ベクトルを作成するものとする。   For each phrase structure tree stored in the phrase structure tree data storage unit 228, the feature vector generation unit 230 generates, for each inflection phrase (IP) node included in the phrase structure tree, a leading word feature, a child node feature, And three features of sky category feature, and pass feature for each inflection phrase (IP) node, and three words of leading word feature, child node feature, and sky category feature and pass Create a feature vector based on the combination with the feature. The feature vector creation unit 230 creates feature vectors in order from the inflection phrase (IP) node closer to the root node of the phrase structure tree.

分散格フレーム作成部232は、句構造木データ記憶部228に記憶されている句構造木の各々について、当該句構造木の各屈折句(IP)ノードについて、単語分散表現データ記憶部224に記憶されている、当該屈折句(IP)ノードにおける主辞単語となる述語の単語分散表現と、予め定められたN個の格助詞の単語分散表現の各々とに基づいて、上記(2)式、及び上記(3)式に従って、分散格フレームを素性として作成する。また、分散格フレーム作成部232は、句構造木の各々について作成した、当該句構造木の各屈折句(IP)ノードの分散格フレームの素性を、当該屈折句(IP)ノードに対応する、素性ベクトル作成部230から入力された素性ベクトルに、追加し、空範疇ラベル検出部236に出力する。   The distributed case frame creation unit 232 stores, for each phrase structure tree stored in the phrase structure tree data storage unit 228, the word distributed expression data storage unit 224 for each inflection phrase (IP) node of the phrase structure tree. The above equation (2), based on the word distributed expression of the predicate that is the leading word in the inflected phrase (IP) node and the word distributed expression of N case particles defined in advance. A distributed case frame is created as a feature according to the above equation (3). Further, the distributed case frame creation unit 232 corresponds the feature of the distributed case frame of each inflection phrase (IP) node of the relevant phrase structure tree created for each phrase structure tree to the corresponding inflection phrase (IP) node. It is added to the feature vector input from the feature vector creation unit 230 and is output to the empty category label detection unit 236.

空範疇検出モデル記憶部234には、空範疇検出モデル学習装置100の空範疇検出モデル記憶部42に記憶されている空範疇検出モデルと同一の空範疇検出モデルが記憶されている。   In the sky category detection model storage unit 234, the same sky category detection model as the sky category detection model stored in the sky category detection model storage unit 42 of the sky category detection model learning device 100 is stored.

空範疇ラベル検出部236は、分散格フレーム作成部232から入力された素性ベクトルと、空範疇検出モデル記憶部234に記憶されている空範疇検出モデルと、句構造木データ記憶部228に記憶されている句構造木とに基づいて、当該句構造木の各屈折句(IP)ノードの各々について、空範疇ラベルを検出し、当該検出した結果を対応するノードに付与した句構造木を空範疇ラベル記憶部238に記憶すると共に、出力部290から出力する。   The empty category label detection unit 236 stores the feature vector input from the distributed case frame creation unit 232, the empty category detection model stored in the empty category detection model storage unit 234, and the phrase structure tree data storage unit 228. An empty category label is detected for each of the inflection phrase (IP) nodes of the relevant phrase structure tree based on the existing phrase structure tree, and the phrase structure tree in which the detected result is attached to the corresponding node is the empty category The data is stored in the label storage unit 238 and output from the output unit 290.

<本発明の実施形態に係る空範疇検出モデル学習装置の作用>
次に、本発明の実施の形態に係る空範疇検出モデル学習装置100の作用について説明する。まず、入力部10により、欅ツリーバンク形式の空範疇付き句構造木を複数受け付け、空範疇付き句構造木データ記憶部22に記憶し、また、入力部10は、複数のテキストデータを受け付け、テキストデータ記憶部24に記憶する。
<Operation of Air Category Detection Model Learning Device According to Embodiment of the Present Invention>
Next, the operation of the air category detection model learning device 100 according to the embodiment of the present invention will be described. First, the input unit 10 receives a plurality of 空 tree bank type empty phrase structure phrase trees in an 欅 tree bank format and stores the plurality of empty structure phrase structure tree data storage units 22. The input unit 10 receives a plurality of text data It is stored in the text data storage unit 24.

そして、空範疇検出モデル学習装置100のROMに記憶されたプログラムを、CPUが実行することにより、図11に示す空範疇検出モデル学習処理ルーチンが実行される。なお、図11に示す空範疇検出モデル学習処理ルーチンが実行される前に、空範疇検出モデル学習装置100は、テキストデータ記憶部24に記憶されているテキストデータの各々に基づいて、非特許文献5の方法に従って、単語毎の単語分散表現を作成し、単語分散表現データ記憶部34に記憶しておく。   Then, the CPU executes the program stored in the ROM of the air category detection model learning device 100, whereby the air category detection model learning processing routine shown in FIG. 11 is executed. It should be noted that before the sky category detection model learning processing routine shown in FIG. 11 is executed, the sky category detection model learning device 100 determines the non-patent document based on each of the text data stored in the text data storage unit 24. According to the method of 5, the word distributed expression for each word is created and stored in the word distributed expression data storage unit 34.

まず、ステップS100では、空範疇付き句構造木データ記憶部22に記憶されている、複数の空範疇付き句構造木の各々について、非特許文献7の手法を用いて、当該空範疇付き句構造木において、空範疇に対応するノードを削除し、各屈折句(IP)ノードのラベルに、空範疇の種類、文法機能、及び位置を符号化した空範疇ラベルを付加するように句構造木を変換する。   First, in step S100, for each of the plurality of empty category-added phrase structure trees stored in the empty category-added phrase structure tree data storage unit 22, using the method of Non-Patent Document 7, the empty category added phrase structure In the tree, delete the node corresponding to the sky category, and add the phrase category tree to the label of each inflection phrase (IP) node by adding the sky category type, the grammar function, and the position encoded sky category label Convert.

次に、ステップS102では、ステップS100において取得した変換済みの句構造木の各々から空範疇ラベルを取得し、空範疇ラベル記憶部28に記憶する。   Next, in step S102, an empty category label is acquired from each of the converted phrase structure trees acquired in step S100, and is stored in the empty category label storage unit 28.

次に、ステップS104では、ステップS100において取得した変換済みの句構造木の各々について、当該句構造木の屈折句(IP)ノード毎に、主辞単語素性、子ノード素性、及び空範疇素性の3つの素性を取得し、また、当該句構造木の屈折句(IP)ノード毎に、パス素性を取得し、素性ベクトルを作成する。   Next, in step S104, for each of the transformed phrase structure trees acquired in step S100, for each inflection phrase (IP) node of the relevant phrase structure tree, 3 of the head word feature, the child node feature, and the empty category feature One feature is acquired, and for each inflection phrase (IP) node of the relevant phrase structure tree, a pass feature is acquired and a feature vector is created.

次に、ステップS106では、ステップS100において取得した変換済みの句構造木の各々について、当該句構造木の屈折句(IP)ノード毎に、単語分散表現データ記憶部34に記憶されている、当該屈折句(IP)ノードにおける主辞単語となる述語の単語分散表現と、予め定められたN個の格助詞の単語分散表現の各々とに基づいて、上記(2)式、及び上記(3)式に従って、分散格フレームを素性として作成する。   Next, in step S106, the word distributed representation data storage unit 34 is stored for each of the inflection phrase (IP) nodes of the phrase structure tree, for each of the converted phrase structure trees acquired in step S100, The above equation (2) and the above equation (3) are based on the word distributed expression of the predicate that becomes the leading word in the inflected phrase (IP) node and each of the word distributed expressions of N predetermined case particles. Create a distributed case frame as a feature according to.

次に、ステップS108で、ステップS104において取得した変換済みの句構造木の各々についての、当該句構造木の屈折句(IP)ノード毎の素性ベクトルに、ステップS106において取得した、当該句構造木の屈折句(IP)ノード毎の分散格フレームの素性を追加し、素性ベクトルを作成する。   Next, in step S108, the phrase structure tree obtained in step S106 is added to the feature vector for each inflection phrase (IP) node of the phrase structure tree for each of the converted phrase structure trees obtained in step S104. Add the features of the distributed case frame for each inflection clause (IP) node of, and create a feature vector.

次に、ステップS110で、ステップS108において取得した、変換済みの句構造木の屈折句(IP)ノード毎の素性ベクトルと、空範疇ラベル記憶部28に記憶されている空範疇ラベルの各々とに基づいて、空範疇ラベルを検出するための空範疇検出モデルを学習し、空範疇検出モデル記憶部42に記憶すると共に、出力部90から出力し、空範疇検出モデル学習処理ルーチンを終了する。   Next, in step S110, according to the feature vector for each inflection phrase (IP) node of the converted phrase structure tree acquired in step S108 and each of the empty category labels stored in the empty category label storage unit 28. Based on the empty category detection model for detecting the empty category label, the empty category detection model is learned and stored in the empty category detection model storage unit 42 and output from the output unit 90, and the empty category detection model learning processing routine is ended.

<本発明の実施形態に係る空範疇検出装置の作用>
次に、本発明の実施の形態に係る空範疇検出装置200の作用について説明する。まず、入力部210により、空範疇を検出する対象となるテキストを受け付け、入力テキスト記憶部222に記憶すると、空範疇検出装置200のROMに記憶されたプログラムを、CPUが実行することにより、図12に示す空範疇検出処理ルーチンが実行される。
<Operation of the air category detection device according to the embodiment of the present invention>
Next, the operation of the air category detection device 200 according to the embodiment of the present invention will be described. First, the input unit 210 receives a text for which an empty category is to be detected, and stores it in the input text storage unit 222. Then, the CPU executes a program stored in the ROM of the empty category detection device 200. An empty category detection processing routine shown at 12 is executed.

まず、ステップS200では、入力テキスト記憶部222に記憶されている検出対象のテキストについて、構文解析を行う句構造木を取得し、句構造木データ記憶部228に記憶する。   First, in step S200, a phrase structure tree to be parsed for the text to be detected stored in the input text storage unit 222 is acquired and stored in the phrase structure tree data storage unit 228.

次に、ステップS202では、ステップS200において取得した句構造木について、当該句構造木に含まれる、当該句構造木のルートに近い方から順に、未処理の屈折句(IP)ノードを処理対象の屈折句(IP)ノードとして選択し、当該屈折句(IP)ノードについて、ステップS104において取得した主辞単語素性、子ノード素性、及び空範疇素性の3つの素性と同一の素性の各々を取得し、当該屈折句(IP)ノードについてステップS104において取得したパス素性と同一の素性を取得し、取得した素性の各々に基づいて、素性ベクトルを作成する。   Next, in step S202, with regard to the phrase structure tree acquired in step S200, unprocessed inflection phrase (IP) nodes are processed in order from the one closest to the root of the phrase structure tree included in the phrase structure tree. For each inflection phrase (IP) node, select each of the three features of the prefix word feature, the child node feature, and the empty category feature acquired in step S104, and select the same as the inflection phrase (IP) node. The same feature as the pass feature obtained in step S104 is obtained for the inflection phrase (IP) node, and a feature vector is created based on each of the obtained features.

次に、ステップS204では、処理対象の屈折句(IP)ノードについて、単語分散表現データ記憶部224に記憶されている、当該屈折句(IP)ノードにおける主辞単語となる述語の単語分散表現と、予め定められたN個の格助詞の単語分散表現の各々とに基づいて、上記(2)式、及び上記(3)式に従って、分散格フレームを素性として作成する。   Next, in step S204, for the inflection phrase (IP) node to be processed, a word variance representation of a predicate that is a leading word in the inflection phrase (IP) node stored in the word variance expression data storage unit 224; A distributed case frame is created as a feature according to the equation (2) and the equation (3) based on each of the word dispersed expressions of N case particles determined in advance.

次に、ステップS206では、ステップS202において取得した処理対象の屈折句(IP)ノードの素性ベクトルに、ステップS204において取得した、処理対象の屈折句(IP)ノードの分散格フレームの素性を追加し、素性ベクトルを作成する。   Next, in step S206, the feature vector of the distributed case frame of the processing target refractive phrase (IP) node obtained in step S204 is added to the feature vector of the processing target refractive phrase (IP) node obtained in step S202. , Create feature vector.

次に、ステップS208では、ステップS206において取得した処理対象の屈折句(IP)ノードの素性ベクトルと、空範疇検出モデル記憶部234に記憶されている、上述したステップS110において学習した空範疇検出モデルと同一の空範疇検出モデルとに基づいて、処理対象の屈折句(IP)ノードの空範疇ラベルを検出する。   Next, in step S208, the sky category detection model learned in step S110, which is stored in the sky category detection model storage unit 234, and the feature vector of the refraction phrase (IP) node to be processed acquired in step S206. And detect the sky category label of the inflection phrase (IP) node to be processed, based on the same sky category detection model.

次に、ステップS210では、ステップS200において取得した句構造木に含まれる全ての屈折句(IP)ノードについてステップS202〜ステップS208までの処理を終了したか否かを判定する。全ての屈折句(IP)ノードについてステップS202〜ステップS208までの処理を終了したと判定した場合には、ステップS208において取得した各屈折句(IP)ノードの空範疇ラベルを、ステップS200において取得した句構造木に付与した句構造木を空範疇ラベル記憶部238に記憶すると共に、出力部290から出力して、空範疇ラベル検出処理ルーチンを終了する。一方、全ての屈折句(IP)ノードについてステップS202〜ステップS208までの処理を終了していない場合には、ステップS202に移行し、処理対象となる屈折句(IP)ノードを変更し、ステップS202〜ステップS210までの処理を繰り返す。   Next, in step S210, it is determined whether the processing from step S202 to step S208 has ended for all inflection phrase (IP) nodes included in the phrase structure tree acquired in step S200. If it is determined that the processing from step S202 to step S208 has ended for all inflection phrase (IP) nodes, the empty category label of each inflection phrase (IP) node acquired in step S208 is acquired in step S200 The phrase structure tree assigned to the phrase structure tree is stored in the empty category label storage unit 238 and output from the output unit 290, and the empty category label detection processing routine is ended. On the other hand, if the processing from step S202 to step S208 has not ended for all inflection phrase (IP) nodes, the process proceeds to step S202, and the inflection phrase (IP) node to be processed is changed, and step S202. The process from step S210 is repeated.

<実験例>
本実施形態に係る空範疇検出モデル学習装置、及び空範疇検出装置を用いた場合についての検証結果について説明する。利用した欅ツリーバンク(22,639文)は、2015年5月8日時点のものを用いた。
<Example of experiment>
The verification result about the case where the air category detection model learning apparatus and the air category detection apparatus which concern on this embodiment are used is demonstrated. The used persimmon tree bank (22,639 sentences) used the thing as of May 8, 2015.

評価に際して、対象分野をバランスさせるために、blog_KNB.psd(ブログ)、spoken_CIAIR.psd(音声書き起こし)、newswire_MAINICHI-1995.psd(新聞記事)の3つのファイルから開発セット(1000文)とテストセット(1003文)を選択し、残りの20,646文を訓練セットとした。図13に、欅ツリーバンク全体およびテストセットに関して、文字数、文数、及び述語数(屈折句(IP)ノード数)や、省略された代名詞proや移動の痕跡Tの数を文法役割別に示す。   In order to balance the subject areas in the evaluation, a development set (1000 sentences) and a test set from three files of blog_KNB.psd (blog), spoken_CIAIR.psd (voice transcription), newswire_MAINICHI-1995.psd (newspaper article) (1003 sentences) was selected, and the remaining 20,646 sentences were set as a training set. FIG. 13 shows the number of characters, sentences, predicate numbers (number of inflection phrases (IP) nodes), abbreviated pronouns pro and marks of movement T according to grammatical roles with respect to the entire 欅 tree bank and test set.

また、本実験例で使用した単語分散表現は、2015年1月18日時点の日本語Wikipedia(登録商標)(約6.6億単語、約2340万文)から非特許文献5の方法により作成した。   In addition, the word distributed expression used in the present experimental example was created by the method of Non-Patent Document 5 from Japanese Wikipedia (registered trademark) as of January 18, 2015 (about 6.6 million words, about 23.40 million sentences).

また、本実施形態に係る空範疇検出装置の精度を、人手で作成した構文木の正解を入力とする場合と、自動構文解析器が出力した構文木を入力とする場合について評価した。前者では、欅ツリーバンクの構文木から空範疇を削除したものを使用した。後者では、日本語構文解析器HARUNIWA(インターネット(URL:http://www.compling.jp/haruniwa/index.html))のBerkeleyパーザモデルの出力において、ルールに基づく空範疇検出が実行される直前の構文木を使用した。   Further, the accuracy of the air category detection apparatus according to the present embodiment was evaluated for the case where the correct answer of the syntax tree manually created is input and the case where the syntax tree output by the automatic parser is used. In the former, we used the tree tree's syntax tree with empty categories removed. In the latter case, in the output of the Berkeley parser model of the Japanese parser HARUNIWA (the Internet (URL: http://www.compling.jp/haruniwa/index.html)), immediately before the rule-based air category detection is executed. Used the syntax tree of

評価尺度としては、非特許文献7に記載されている単語位置レベル同定尺度(word-position-level identification metrics)を使用した。   As a rating scale, word-position-level identification metrics described in Non-Patent Document 7 were used.

本実施形態において素性として使用した分散格フレームの有効性を評価するために、既存の大規模な格フレーム辞書として、非特許文献9の京都大学格フレームを利用した。この格フレームは、Web上の約16億文の日本語テキストから自動的に構築され、約4万用言が収録されている。   In order to evaluate the effectiveness of the distributed case frame used as a feature in the present embodiment, the Kyoto University Case Frame of Non-Patent Document 9 was used as an existing large-scale case frame dictionary. This case frame is automatically constructed from about 1.6 billion Japanese texts on the Web, and contains about 40,000 phrases.

既存の格フレームを利用する方法としては、BIN,SET,DISTの3つの方法を試した。BINは一つの述語に対して「が」「を」「に」などそれぞれの格を二値素性として表現する。SETは一つの述語に対して「が」「が-を」「が-に」「が-に-を」などする格フレームの格の組合せを素性とする。DISTはそれぞれの格助詞と述語の共起頻度を正規化した実数値を素性とする。   As a method of using the existing case frame, I tried three methods of BIN, SET and DIST. BIN expresses each case as a binary feature such as "ga" "to" "ni" for one predicate. SET takes as a feature a combination of cases of case frames such as "G", "G", "G", "G", and "G" to one predicate. DIST takes as its feature a real value obtained by normalizing the co-occurrence frequency of each case particle and predicate.

本発明で使用した分散格フレーム(DCF)は、DISTを平滑化したものと考えることができる。図14に様々な条件下での本実施形態における空範疇検出装置および比較手法の空範疇検出精度を示す。なお、図14においては、「#nonZ」は重みが0ではない素性の数を表す。   The distributed case frame (DCF) used in the present invention can be considered as a smoothed DIST. FIG. 14 shows the accuracy of detecting the air category of the air category detecting device and the comparison method in the present embodiment under various conditions. In FIG. 14, “# non Z” indicates the number of features whose weight is not 0.

正解の構文木を使用した場合、構文解析器HARUNIWAで実装されている規則に基づく方法(RULE)、および、日本語向けに修正した非特許文献7の方法は、それぞれF-尺度で62.6%と68.6%とであった。提案手法の中では、パス素性と子ノード素性の組合せ(PATH CHILD)だけでベースラインとなるこれら2つの方法を上回っており、すべての素性を利用した場合には73.2%を達成している。   When the correct syntax tree is used, the rule-based method (RULE) implemented by the parser HARUNIWA and the method of Non-Patent Document 7 modified for Japanese are respectively 62.6% in F-scale It was 68.6%. Among the proposed methods, the combination of path feature and child node feature (PATH CHILD) surpasses these two methods of becoming a baseline, achieving 73.2% when all features are used.

構文解析器が出力する構文木を入力とする場合、提案法のF-尺度は73.2%から54.7%へ低下する。ほとんどの場合、これは構文解析器が屈折句(IP)ノードの同定または屈折句(IP)ノードの文法機能の同定に失敗したことが原因である。   When the parse tree outputs a parse tree, the F-scale of the proposed method drops from 73.2% to 54.7%. In most cases this is due to the parser failing to identify the inflection phrase (IP) node or to identify the grammatical function of the inflection phrase (IP) node.

既存の大規模格フレームを素性として利用するBIN,SET,DISTの3つの精度には大きな差はなく、分散格フレームを利用する場合と同等の精度向上が見られる。すなわち、大規模格フレーム辞書を分散格フレームで置き換えることが可能である。   There is no significant difference in the three precisions of BIN, SET, and DIST that use the existing large-scale case frame as a feature, and the same improvement in precision as when using the distributed case frame is seen. That is, it is possible to replace a large case frame dictionary with a distributed case frame.

図15に提案法に関する素性の切除テストの結果を示す。本実施形態では、主辞単語素性、子ノード素性、及び空範疇素性の3つとパス素性との組合せを素性として使用しているが、その中でも、パス素性と子ノード素性との組合せが最も有効であることが分かる。   FIG. 15 shows the result of the excision test of the feature of the proposed method. In this embodiment, a combination of three of head word feature, child node feature, and empty category feature and pass feature is used as the feature, and among them, the combination of pass feature and child node feature is the most effective. I know that there is.

以上説明したように、本発明の実施形態に係る空範疇検出モデル学習装置によれば、省略又は移動により生じた名詞的語句である空範疇ラベルが付与された複数のテキストの各々について、テキストの句構造木に基づいて、句構造木に含まれる屈折句ノード毎に、子ノード素性と、パス素性とを用いて素性ベクトルを作成し、テキストの各々について、テキストの句構造木に含まれる屈折句ノード毎に、分散格フレーム素性を、屈折句ノードの素性ベクトルに追加し、テキストの各々の空範疇ラベルと、テキストの各々の句構造木に含まれる屈折句ノード毎の素性ベクトルとに基づいて、屈折句ノードに付与する空範疇ラベルを検出するための空範疇検出モデルを学習することによって、精度良くモデルを学習することができる。   As described above, according to the empty category detection model learning device according to the embodiment of the present invention, the text of each of the plurality of texts to which the empty category label is assigned, which is the noun phrase generated by omission or movement Based on the phrase structure tree, for each inflected phrase node included in the phrase structure tree, a feature vector is created using a child node feature and a pass feature, and for each of the texts, a refraction included in the phrase structure tree of the text For each phrase node, a distributed case frame feature is added to the feature vector of the inflection phrase node, based on each empty category label of the text and the feature vector for each inflection node included in each phrase structure tree of the text The model can be learned with high accuracy by learning the empty category detection model for detecting the empty category label given to the inflection phrase node.

また、本発明の実施形態に係る空範疇検出装置によれば、入力されたテキストを構文解析して得られた句構造木に基づいて、句構造木に含まれる各屈折句ノードについて、子ノード素性と、パス素性とを用いて、素性ベクトルを作成し、句構造木に含まれる各屈折句ノードについて、分散格フレーム素性を屈折句ノードの素性ベクトルに追加し、予め学習された、屈折句ノードに付与する空範疇ラベルを検出するための空範疇検出モデルと、屈折句ノードの各々の素性ベクトルとに基づいて、入力されたテキストにおける空範疇の位置及び種類を検出することにより、日本語に対する空範疇の検出を精度良く行うことができる。   Also, according to the empty category detection device according to the embodiment of the present invention, a child node is generated for each refraction phrase node included in the phrase structure tree based on the phrase structure tree obtained by parsing the input text. A feature vector is created using features and pass features, and a distributed case frame feature is added to the feature vector of the inflection phrase node for each inflection node included in the phrase structure tree, and the inflection phrase is learned in advance By detecting the position and type of the empty category in the input text based on the empty category detection model for detecting the empty category label given to the node and the feature vector of each of the refraction phrase nodes, Japanese It is possible to accurately detect the sky category for.

また、従来手法に比べて高い精度で日本語の空範疇を検出できる。さらに、大規模格フレーム辞書を作成するのに必要なテキスト量と計算量に比べると、分散格フレームを作成するのに必要な単語分散表現は、より少ないテキストからより少ない計算量で算出できるので、処理対象となる領域に向けて空範疇検出のモデルをチューンすることが容易である。   In addition, Japanese sky categories can be detected with high accuracy compared to the conventional method. Furthermore, compared with the amount of text and the amount of calculation required to create a large case frame dictionary, the word distributed expression necessary to create a distributed case frame can be calculated with less amount of calculation from less text. It is easy to tune the model of sky category detection towards the area to be processed.

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   The present invention is not limited to the above-described embodiment, and various modifications and applications can be made without departing from the scope of the present invention.

例えば、本実施形態においては、空範疇検出モデル学習装置と、空範疇検出装置とを別々の装置として構成する場合について説明したが、これに限定されるものではない。例えば、空範疇検出モデル学習装置と、空範疇検出装置とを1つの装置として構成してもよい。   For example, in the present embodiment, the case where the air category detection model learning device and the air category detection device are configured as separate devices has been described, but the present invention is not limited to this. For example, the air category detection model learning device and the air category detection device may be configured as one device.

また、本実施形態においては、素性ベクトル作成部において、主辞単語素性、子ノード素性、及び空範疇素性の3つとパス素性との組み合わせを素性とし、素性ベクトルを作成している場合について説明しているが、これに限定されるものではない。例えば、素性ベクトル作成部において、主辞単語素性、子ノード素性、及び空範疇素性の3つの任意の素性の各々と、パス素性との組み合わせを素性とし、素性ベクトルを作成してもよい。   Further, in the present embodiment, a case is described in which a feature vector is created by using a combination of three of a head word feature, a child node feature, and an empty category feature and a pass feature in the feature vector creating unit as features. However, it is not limited thereto. For example, in the feature vector creation unit, a feature vector may be created by combining each of three arbitrary features of a head word feature, a child node feature, and an empty category feature with a pass feature as a feature.

また、本実施形態においては、分散格フレームの計算を、処理毎に計算する場合について説明したが、これに限定されるものではない。例えば、予め述語毎に分散格フレームを計算しておいてもよい。   Moreover, in this embodiment, although the case where calculation of a distributed case frame was calculated for every process was demonstrated, it is not limited to this. For example, a distributed case frame may be calculated in advance for each predicate.

また、本実施形態においては、素性ベクトル作成部において作成された素性ベクトルに、分散格フレームの素性を追加した素性ベクトルを用いる場合について説明したが、これに限定されるものではない。例えば、素性ベクトル作成部において作成された素性ベクトルを使用してもよい。この場合、分散格フレームの素性は使用されないこととなる。   Further, in the present embodiment, the case has been described where the feature vector created by adding the feature of the distributed case frame to the feature vector created by the feature vector creation unit is used, but the present invention is not limited to this. For example, feature vectors created by the feature vector creation unit may be used. In this case, the distributed case frame feature will not be used.

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。   Furthermore, although the present invention has been described as an embodiment in which the program is installed in advance, the program can be provided by being stored in a computer readable recording medium, and provided via a network. It is also possible.

10 入力部
20 演算部
22 空範疇付き句構造木データ記憶部
24 テキストデータ記憶部
26 句構造木変換部
28 空範疇ラベル記憶部
30 句構造木データ記憶部
32 単語分散表現作成部
34 単語分散表現データ記憶部
36 素性ベクトル作成部
38 分散格フレーム作成部
40 モデル学習部
42 空範疇検出モデル記憶部
90 出力部
100 空範疇検出モデル学習装置
200 空範疇検出装置
210 入力部
220 演算部
222 入力テキスト記憶部
224 単語分散表現データ記憶部
226 構文解析部
228 句構造木データ記憶部
230 素性ベクトル作成部
232 分散格フレーム作成部
234 空範疇検出モデル記憶部
236 空範疇ラベル検出部
238 空範疇ラベル記憶部
290 出力部
10 input unit 20 operation unit 22 empty category added phrase structure tree data storage unit 24 text data storage unit 26 phrase structure tree conversion unit 28 empty category label storage unit 30 phrase structure tree data storage unit 32 word distributed expression creation unit 34 word distributed expression creation unit Data storage unit 36 Feature vector creation unit 38 Distributed case frame creation unit 40 Model learning unit 42 Air category detection model storage unit 90 Output unit 100 Air category detection model learning device 200 Air category detection device 210 Input unit 220 Operation unit 222 Input text storage Unit 224 word dispersed expression data storage unit 226 syntactic analysis unit 228 phrase structure tree data storage unit 230 feature vector creation unit 232 distributed case frame creation unit 234 empty category detection model storage unit 236 empty category label detection unit 238 empty category label storage unit 290 Output unit

Claims (9)

入力されたテキストから、省略又は移動により生じた名詞的語句である空範疇を検出するための空範疇検出装置であって、
前記入力されたテキストを構文解析して得られた句構造木に基づいて、前記句構造木に含まれる各屈折句ノードについて、前記屈折句ノードの子ノードのラベルの集合に基づく子ノード素性と、前記屈折句ノードから前記句構造木のルートノード又は補文標識句ノードまでの祖先の各ノードのラベルの系列に基づくパス素性とを用いて、素性ベクトルを作成する素性ベクトル作成部と、
予め学習された、屈折句ノードに付与する空範疇ラベルを検出するための空範疇検出モデルと、前記屈折句ノードの各々の前記素性ベクトルとに基づいて、前記入力されたテキストにおける前記空範疇の位置及び種類を検出する空範疇ラベル検出部と、
を含む、空範疇検出装置。
A sky category detection device for detecting a sky category which is a noun phrase generated by omission or movement from input text, comprising:
A child node feature based on a set of labels of child nodes of the inflection phrase node for each inflection node included in the phrase structure tree based on a phrase structure tree obtained by parsing the input text; A feature vector creation unit that creates a feature vector using a pass feature based on a series of labels of each of the ancestor nodes from the inflection phrase node to the root node of the phrase structure tree or the complement indicator phrase node;
An empty category detection model for detecting empty category labels to be given to inflected phrase nodes, which has been learned in advance, and the feature vector of the input text based on the feature vector of each of the inflected phrase nodes An air category label detection unit for detecting the position and type;
Air category detection device, including:
前記素性ベクトル作成部は、前記各屈折句ノードについて、前記屈折句ノードの主辞単語の表層形に基づく主辞単語素性、及び前記屈折句ノードの祖先となる屈折句ノードにおいて検出される空範疇ラベルに基づく空範疇素性の少なくとも一方を更に用いて、前記素性ベクトルを作成する請求項1記載の空範疇検出装置。   The feature vector creation unit adds, to each of the inflection phrase nodes, an affix word feature based on a surface form of a foreword of the inflection phrase node, and an empty category label detected in an inflection phrase node that is an ancestor of the inflection phrase node. The air category detection device according to claim 1, wherein at least one of the base category features is further used to create the feature vector. 前記空範疇検出モデルは、
前記空範疇ラベルが付与された複数のテキストの各々についての、前記テキストの句構造木に含まれる屈折句ノード毎に作成される前記素性ベクトルに基づいて学習される請求項1又は2記載の空範疇検出装置。
The air category detection model is
The blank according to claim 1 or 2, which is learned based on the feature vector created for each inflection node included in the phrase structure tree of the text for each of the plurality of texts with the blank category label attached. Category detection device.
前記句構造木に含まれる各屈折句ノードについて、前記屈折句ノードの主辞単語となる述語の分散表現と、述語との格関係を明示する可能性がある予め定められた単語の分散表現との内積を正規化したベクトルを分散格フレーム素性として前記屈折句ノードの前記素性ベクトルに追加する分散格フレーム作成部を更に含む、請求項1〜3の何れか1項記載の空範疇検出装置。   For each inflection phrase node included in the phrase structure tree, a decentralized representation of a predicate that is the head word of the inflection phrase node and a decentralized representation of a predetermined word that may specify a case relationship with the predicate The air category detection device according to any one of claims 1 to 3, further comprising a distributed case frame creation unit that adds a vector obtained by normalizing an inner product as a distributed case frame feature to the feature vector of the refractive phrase node. 省略又は移動により生じた名詞的語句である空範疇ラベルが付与された複数のテキストの各々について、前記テキストの句構造木に基づいて、前記句構造木に含まれる屈折句ノード毎に、前記屈折句ノードの子ノードのラベルの集合に基づく子ノード素性と、前記屈折句ノードから前記句構造木のルートノード又は補文標識句ノードまでの祖先の各ノードのラベルの系列に基づくパス素性とを用いて素性ベクトルを作成する素性ベクトル作成部と、
前記テキストの各々の前記空範疇ラベルと、前記テキストの各々の句構造木に含まれる屈折句ノード毎の素性ベクトルとに基づいて、屈折句ノードに付与する前記空範疇ラベルを検出するための空範疇検出モデルを学習するモデル学習部と、
を含む、空範疇検出モデル学習装置。
For each of a plurality of refracted phrase nodes included in the phrase structure tree, based on the phrase structure tree of the text, for each of a plurality of texts with empty category labels that are noun phrases that are generated by omission or movement Child node features based on a set of labels of child nodes of phrase nodes and path features based on a series of labels of ancestor nodes from the inflection phrase node to a root node of the phrase structure tree or a complement indicator node A feature vector creation unit that creates feature vectors using
An empty for detecting the empty category label given to the inflection phrase node based on the empty category label of each of the text and the feature vector for each inflection node included in each phrase structure tree of each of the text A model learning unit for learning a category detection model;
An empty category detection model learning device, including:
素性ベクトル作成部と、空範疇ラベル検出部とを含む、入力されたテキストから、省略又は移動により生じた名詞的語句である空範疇を検出するための空範疇検出装置における、空範疇検出方法であって、
前記素性ベクトル作成部は、前記入力されたテキストを構文解析して得られた句構造木に基づいて、前記句構造木に含まれる各屈折句ノードについて、前記屈折句ノードの子ノードのラベルの集合に基づく子ノード素性と、前記屈折句ノードから前記句構造木のルートノード又は補文標識句ノードまでの祖先の各ノードのラベルの系列に基づくパス素性とを用いて、素性ベクトルを作成し、
前記空範疇ラベル検出部は、予め学習された、屈折句ノードに付与する空範疇ラベルを検出するための空範疇検出モデルと、前記屈折句ノードの各々の前記素性ベクトルとに基づいて、前記入力されたテキストにおける前記空範疇の位置及び種類を検出する
空範疇検出方法。
An empty category detection method in an empty category detection device for detecting an empty category which is a noun phrase generated by omission or movement from input text including a feature vector creation unit and an empty category label detection unit There,
The feature vector creation unit is configured to label child nodes of the inflection node with respect to each inflection node included in the phrase structure tree based on the phrase structure tree obtained by parsing the input text. A feature vector is created using a set-based child node feature and a pass feature based on the label sequence of each of the ancestor nodes from the inflection phrase node to the root node of the phrase structure tree or the complement indicator phrase node ,
The empty category label detection unit is configured to input the input based on an empty category detection model for detecting an empty category label to be given to the inflection phrase node, which has been learned in advance, and the feature vector of each of the inflection phrase nodes. An empty category detection method for detecting the position and type of the empty category in the specified text.
素性ベクトル作成部と、モデル学習部とを含む空範疇検出モデル学習装置における、空範疇検出モデル学習方法であって、
前記素性ベクトル作成部は、省略又は移動により生じた名詞的語句である空範疇ラベルが付与された複数のテキストの各々について、前記テキストの句構造木に基づいて、前記句構造木に含まれる屈折句ノード毎に、前記屈折句ノードの子ノードのラベルの集合に基づく子ノード素性と、前記屈折句ノードから前記句構造木のルートノード又は補文標識句ノードまでの祖先の各ノードのラベルの系列に基づくパス素性とを用いて素性ベクトルを作成し、
前記モデル学習部は、前記テキストの各々の前記空範疇ラベルと、前記テキストの各々の句構造木に含まれる屈折句ノード毎の素性ベクトルとに基づいて、屈折句ノードに付与する前記空範疇ラベルを検出するための空範疇検出モデルを学習する
空範疇検出モデル学習方法。
An empty category detection model learning method in an empty category detection model learning apparatus including a feature vector creation unit and a model learning unit,
The feature vector creation unit is configured to, according to a phrase structure tree of the text, generate refractions included in the phrase structure tree for each of a plurality of texts with empty category labels, which are noun phrases generated by omission or movement. For each phrase node, a child node feature based on a set of labels of child nodes of the inflection phrase node, and a label of each node of an ancestor from the inflection phrase node to a root node of the phrase structure tree or a complement indicator phrase node Create feature vector using series based pass feature,
The model learning unit assigns the empty category label to the inflection phrase node based on the empty category label of each of the text and the feature vector for each inflection phrase node included in each phrase structure tree of the text. Learning the sky category detection model to detect the sky category detection model learning method.
コンピュータを、請求項1〜請求項4の何れか1項記載の空範疇検出装置の各部として機能させるためのプログラム。 A program for a computer to function as an empty category detection equipment each part of any one of claims 1 to 4. コンピュータを、請求項5記載の空範疇検出モデル学習装置の各部として機能させるためのプログラム。  The program for functioning a computer as each part of the air category detection model learning apparatus of Claim 5.
JP2015219553A 2015-11-09 2015-11-09 Air category detection device, air category detection model learning device, method, and program Active JP6543169B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015219553A JP6543169B2 (en) 2015-11-09 2015-11-09 Air category detection device, air category detection model learning device, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015219553A JP6543169B2 (en) 2015-11-09 2015-11-09 Air category detection device, air category detection model learning device, method, and program

Publications (2)

Publication Number Publication Date
JP2017091155A JP2017091155A (en) 2017-05-25
JP6543169B2 true JP6543169B2 (en) 2019-07-10

Family

ID=58769089

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015219553A Active JP6543169B2 (en) 2015-11-09 2015-11-09 Air category detection device, air category detection model learning device, method, and program

Country Status (1)

Country Link
JP (1) JP6543169B2 (en)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2300495A (en) * 1995-04-13 1996-11-06 Canon Kk Language processing
JPH1185749A (en) * 1997-09-10 1999-03-30 Atr Onsei Honyaku Tsushin Kenkyusho:Kk Japanese sentence abbreviated element interpolation device
JP2005025659A (en) * 2003-07-01 2005-01-27 Nippon Telegr & Teleph Corp <Ntt> Zero pronoun resolving method, device and program, and recording medium to which the program is recorded
JP2006202018A (en) * 2005-01-20 2006-08-03 Toshiba Corp Information sharing apparatus, method of searching for information, and information search program
US8903707B2 (en) * 2012-01-12 2014-12-02 International Business Machines Corporation Predicting pronouns of dropped pronoun style languages for natural language translation
JP6381136B2 (en) * 2015-05-21 2018-08-29 日本電信電話株式会社 Sky category estimation device, sky category estimation model learning device, method, and program

Also Published As

Publication number Publication date
JP2017091155A (en) 2017-05-25

Similar Documents

Publication Publication Date Title
CN109271626B (en) Text semantic analysis method
US11914954B2 (en) Methods and systems for generating declarative statements given documents with questions and answers
Vougiouklis et al. Neural wikipedian: Generating textual summaries from knowledge base triples
Hindle Acquiring disambiguation rules from text
RU2607975C2 (en) Constructing corpus of comparable documents based on universal measure of similarity
US20160275058A1 (en) Method and system of text synthesis based on extracted information in the form of an rdf graph making use of templates
CN106844348B (en) Method for analyzing functional components of Chinese sentences
Van Cranenburgh et al. Data-oriented parsing with discontinuous constituents and function tags
Nayak et al. Knowledge graph based automated generation of test cases in software engineering
Toral et al. Linguistically-augmented perplexity-based data selection for language models
CN109815497B (en) Character attribute extraction method based on syntactic dependency
Mezghanni et al. Deriving ontological semantic relations between Arabic compound nouns concepts
CN109977391B (en) Information extraction method and device for text data
Virk et al. Exploiting frame-semantics and frame-semantic parsing for automatic extraction of typological information from descriptive grammars of natural languages
KR101869362B1 (en) The apparatus for recognizing sentence plagiarism using paraphrasing generation technique, and apparatus of the program and computer-readable storage
Bassa et al. GerIE-An Open Information Extraction System for the German Language.
Le et al. Inside-outside semantics: A framework for neural models of semantic composition
D'Souza Parser extraction of triples in unstructured text
JP6543169B2 (en) Air category detection device, air category detection model learning device, method, and program
CN114528459A (en) Semantic-based webpage information extraction method and system
Sahay et al. Rule augmented unsupervised constituency parsing
Mathew et al. Paraphrase identification of Malayalam sentences-an experience
Garcia et al. Exploring the effectiveness of linguistic knowledge for biographical relation extraction
CN111259159A (en) Data mining method, device and computer readable storage medium
Emani et al. Improving open information extraction for semantic web tasks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171221

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181012

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181204

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190611

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190614

R150 Certificate of patent or registration of utility model

Ref document number: 6543169

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150