JP2016218806A - Empty category estimation device, empty category estimation model learning device, method, and program - Google Patents

Empty category estimation device, empty category estimation model learning device, method, and program Download PDF

Info

Publication number
JP2016218806A
JP2016218806A JP2015103963A JP2015103963A JP2016218806A JP 2016218806 A JP2016218806 A JP 2016218806A JP 2015103963 A JP2015103963 A JP 2015103963A JP 2015103963 A JP2015103963 A JP 2015103963A JP 2016218806 A JP2016218806 A JP 2016218806A
Authority
JP
Japan
Prior art keywords
empty category
category
empty
label
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015103963A
Other languages
Japanese (ja)
Other versions
JP6381136B2 (en
Inventor
ジュン オウ
Jung Oh
ジュン オウ
克仁 須藤
Katsuto Sudo
克仁 須藤
昌明 永田
Masaaki Nagata
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015103963A priority Critical patent/JP6381136B2/en
Publication of JP2016218806A publication Critical patent/JP2016218806A/en
Application granted granted Critical
Publication of JP6381136B2 publication Critical patent/JP6381136B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

PROBLEM TO BE SOLVED: To make it possible to estimate the position of the empty category of an input text precisely.SOLUTION: A feature extraction unit 230 extracts dispersion expression of a word as the feature vector of a candidate for the position of an empty category relative to each candidate for the position of the empty category based on the dependency structure tree of an input text. An estimation unit 238 estimates the position of the empty category and an empty category label based on a model including a mapping from a feature vector to a lower dimensional space and a mapping from each of empty category labels to the lower dimensional space that have been learned in advance and the feature vector of each of the candidates of the position of the extracted empty category.SELECTED DRAWING: Figure 3

Description

本発明は、空範疇推定装置、空範疇推定モデル学習装置、方法、及びプログラムに係り、特に、入力されたテキストの空範疇の位置および種類を推定するための空範疇推定装置、空範疇推定モデル学習装置、方法、及びプログラムに関する。   The present invention relates to an empty category estimation device, an empty category estimation model learning device, a method, and a program, and more particularly, to an empty category estimation device and an empty category estimation model for estimating the position and type of an empty category of input text. The present invention relates to a learning apparatus, method, and program.

空範疇検出とは、所与の文章の一部から空範疇を検出することである。従来の研究は、空範疇検出を、主に、分類問題として、あるいは完全な構文解析の副次的問題として、定式化してきた。   The empty category detection is to detect an empty category from a part of a given sentence. Previous studies have formulated air category detection primarily as a classification problem or as a sub-problem of full parsing.

非特許文献1は、ECのとりうる位置を示す依存関係木を用いている。また、非特許文献1では、依存関係木を用いて、ECのとりうる位置の特徴を抽出している。そして、アノテーションされたデータから、分類モデルがトレーニングされる。   Non-Patent Document 1 uses a dependency relationship tree indicating positions that can be taken by EC. Further, in Non-Patent Document 1, a feature of a position that can be taken by an EC is extracted using a dependency relationship tree. A classification model is trained from the annotated data.

非特許文献2は、多数のクラスにまでスケールを拡大可能な同時画像ラベルアノテーション法(joint image-label annotation)を提案している。いずれも、画像およびラベルの双方を、隠れ空間(hidden space)へマッピングし、画像およびラベルの分散表現間の距離に応じて、画像のラベルを決定する。   Non-Patent Document 2 proposes a joint image-label annotation method capable of expanding the scale to many classes. Both map both images and labels to a hidden space and determine the label of the image as a function of the distance between the image and the distributed representation of the label.

Xue Nianwen, and Yaqin Yang. "Dependency-based empty category detection via phrase structure trees." In HLT-NAACL, pp. 1051-1060. 2013.Xue Nianwen, and Yaqin Yang. "Dependency-based empty category detection via phrase structure trees." In HLT-NAACL, pp. 1051-1060. 2013. Weston Jason, Samy Bengio, and Nicolas Usunier. "Wsabie: Scaling up to large vocabulary image annotation." IJCAI. Vol. 11. 2011.1Weston Jason, Samy Bengio, and Nicolas Usunier. "Wsabie: Scaling up to large vocabulary image annotation." IJCAI. Vol. 11. 2011.1

本発明では、入力されたテキストの空範疇の位置および種類を精度よく推定することができる空範疇推定装置、方法、及びプログラムを提供することを目的とする。   An object of the present invention is to provide a sky category estimation device, method, and program capable of accurately estimating the position and type of an empty category of input text.

また、テキストの空範疇の位置および種類を精度よく推定するためのモデルを学習することができる空範疇推定モデル学習装置、方法、及びプログラムを提供することを目的とする。   It is another object of the present invention to provide a sky category estimation model learning apparatus, method, and program capable of learning a model for accurately estimating the position and type of a sky category of text.

上記目的を達成するために、第1の発明に係る空範疇推定装置は、入力テキストから、省略又は移動により生じた名詞的語句である空範疇を推定するための空範疇推定装置であって、前記入力テキストの依存構造木に基づいて、空範疇の位置の候補の各々に対し、前記空範疇の位置の候補の特徴として、単語の分散表現等を抽出する特徴抽出部と、予め学習された、前記特徴から低次元空間への写像、及び空範疇ラベルの各々から前記低次元空間への写像を含むモデルと、前記特徴抽出部によって抽出された前記空範疇の位置の候補の各々の前記特徴とに基づいて、前記空範疇の位置及び前記空範疇ラベルを推定する推定部と、を含んで構成されている。   In order to achieve the above object, an empty category estimation device according to a first aspect of the present invention is an empty category estimation device for estimating an empty category that is a noun phrase generated by omission or movement from an input text, Based on the dependency structure tree of the input text, a feature extraction unit that extracts a distributed expression of a word or the like as a feature of the candidate of the empty category position for each candidate of the empty category position, and learned in advance A model including a mapping from the feature to a low-dimensional space and a mapping from each empty category label to the low-dimensional space, and the feature of each of the candidates for the location of the empty category extracted by the feature extraction unit And an estimation unit that estimates the position of the empty category and the empty category label.

第2の発明に係る空範疇推定方法は、特徴抽出部及び推定部を含み、入力テキストから、省略又は移動により生じた名詞的語句である空範疇を推定するための空範疇推定装置における空範疇推定方法であって、前記特徴抽出部が、前記入力テキストの依存構造木に基づいて、空範疇の位置の候補の各々に対し、前記空範疇の位置の候補の特徴として、単語の分散表現等を抽出し、前記推定部が、予め学習された、前記特徴から低次元空間への写像、及び空範疇ラベルの各々から前記低次元空間への写像を含むモデルと、前記特徴抽出部によって抽出された前記空範疇の位置の候補の各々の前記特徴とに基づいて、前記空範疇の位置及び前記空範疇ラベルを推定する。   An empty category estimation method according to a second invention includes a feature extraction unit and an estimation unit, and an empty category in an empty category estimation device for estimating an empty category that is a noun phrase generated by omission or movement from an input text. In the estimation method, the feature extraction unit may, for each of the empty category position candidates, based on the dependency structure tree of the input text, as a feature of the empty category position candidate, a distributed expression of words, etc. And the estimation unit is extracted by the feature extraction unit, which has been learned in advance, and includes a model including a mapping from the feature to the low-dimensional space and a mapping from each empty category label to the low-dimensional space. Further, the position of the empty category and the empty category label are estimated based on the characteristics of each candidate of the empty category.

第1及び第2の発明によれば、前記特徴抽出部が、前記入力テキストの依存構造木に基づいて、空範疇の位置の候補の各々に対し、前記空範疇の位置の候補の特徴として、単語の分散表現等を抽出する。そして、前記推定部が、予め学習された、前記特徴から低次元空間への写像、及び空範疇ラベルの各々から前記低次元空間への写像を含むモデルと、前記特徴抽出部によって抽出された前記空範疇の位置の候補の各々の前記特徴とに基づいて、前記空範疇の位置及び前記空範疇ラベルを推定する。   According to the first and second inventions, the feature extraction unit, for each of the empty category position candidates, based on the dependency structure tree of the input text, as a feature of the empty category position candidates, Extract distributed expressions of words. Then, the estimation unit learns in advance the model including the mapping from the feature to the low-dimensional space and the mapping from each empty category label to the low-dimensional space, and the feature extraction unit extracts the model Based on the features of each candidate empty category position, the empty category position and the empty category label are estimated.

このように、入力テキストの依存構造木に基づいて、空範疇の位置の候補の各々の特徴として単語の分散表現等を抽出し、特徴から低次元空間への写像、及び空範疇ラベルの各々から低次元空間への写像を含むモデルに基づいて、空範疇の位置及び空範疇ラベルを推定することにより、入力されたテキストの空範疇の位置および種類を精度よく推定することができる。   In this way, based on the dependency structure tree of the input text, a word distributed representation or the like is extracted as each feature of the empty category position candidates, and the mapping from the feature to the low-dimensional space and from each of the empty category labels. The position and type of the empty category of the input text can be accurately estimated by estimating the position of the empty category and the empty category label based on the model including the mapping to the low-dimensional space.

第3の発明に係る空範疇推定モデル学習装置は、省略又は移動により生じた名詞的語句である空範疇の位置及び空範疇ラベルが付与された複数のテキストの各々について、前記テキストの依存構造木に基づいて、空範疇の位置の候補の各々に対し、前記空範疇の位置の候補の特徴として、単語の分散表現等を抽出する特徴抽出部と、前記特徴抽出部によって前記複数のテキストの各々について抽出された前記空範疇の位置の候補の各々の前記特徴と、前記複数のテキストの各々に付与された前記空範疇の位置及び空範疇ラベルとに基づいて、前記特徴から低次元空間への写像、及び空範疇ラベルの各々から前記低次元空間への写像を含むモデルを学習する学習部と、を含んで構成されている。   According to a third aspect of the present invention, there is provided an empty category estimation model learning device, wherein each of a plurality of texts to which an empty category position and an empty category label, which are noun phrases generated by omission or movement, are assigned, is a dependency structure tree of the text. Based on the above, for each of the empty category position candidates, a feature extraction unit that extracts a distributed expression of a word or the like as a feature of the empty category position candidate, and each of the plurality of texts by the feature extraction unit From the feature to the low-dimensional space based on the features of each of the candidate empty category positions extracted for and the empty category position and empty category label assigned to each of the plurality of texts. A learning unit that learns a model including a mapping and a mapping from each empty category label to the low-dimensional space.

第4の発明に係る空範疇推定モデル学習方法は、特徴抽出部及び学習部を含む空範疇推定モデル学習装置における空範疇推定モデル学習方法であって、前記特徴抽出部が、省略又は移動により生じた名詞的語句である空範疇の位置及び空範疇ラベルが付与された複数のテキストの各々について、前記テキストの依存構造木に基づいて、空範疇の位置の候補の各々に対し、前記空範疇の位置の候補の特徴として、単語の分散表現等を抽出し、前記学習部が、前記特徴抽出部によって前記複数のテキストの各々について抽出された前記空範疇の位置の候補の各々の前記特徴と、前記複数のテキストの各々に付与された前記空範疇の位置及び空範疇ラベルとに基づいて、前記特徴から低次元空間への写像、及び空範疇ラベルの各々から前記低次元空間への写像を含むモデルを学習する。   An empty category estimation model learning method according to a fourth invention is an empty category estimation model learning method in an empty category estimation model learning device including a feature extraction unit and a learning unit, wherein the feature extraction unit is generated by omission or movement. For each of a plurality of texts that have been assigned an empty category position and an empty category label, the empty category position is determined for each of the empty category position candidates based on the dependency structure tree of the text. As a feature of the position candidate, a distributed expression of a word is extracted, and the learning unit extracts the feature of each of the empty category position candidates extracted for each of the plurality of texts by the feature extraction unit; Based on the position of the empty category and the empty category label assigned to each of the plurality of texts, the mapping from the feature to a low-dimensional space and the low-dimensional sky from each of the empty category labels. To learn a model that contains a mapping to.

第3及び第4の発明によれば、前記特徴抽出部が、省略又は移動により生じた名詞的語句である空範疇の位置及び空範疇ラベルが付与された複数のテキストの各々について、前記テキストの依存構造木に基づいて、空範疇の位置の候補の各々に対し、前記空範疇の位置の候補の特徴として、単語の分散表現等を抽出する。そして、前記学習部が、前記特徴抽出部によって前記複数のテキストの各々について抽出された前記空範疇の位置の候補の各々の前記特徴と、前記複数のテキストの各々に付与された前記空範疇の位置及び空範疇ラベルとに基づいて、前記特徴から低次元空間への写像、及び空範疇ラベルの各々から前記低次元空間への写像を含むモデルを学習する。   According to the third and fourth aspects of the present invention, the feature extraction unit performs, for each of a plurality of texts to which an empty category position and an empty category label, which are noun phrases generated by omission or movement, are assigned. Based on the dependency structure tree, for each of the candidates for the empty category position, a distributed expression of a word or the like is extracted as the feature of the candidate empty category position. Then, the learning unit extracts the feature of each of the candidates for the position of the empty category extracted for each of the plurality of texts by the feature extracting unit, and the empty category assigned to each of the plurality of texts. Based on the position and the empty category label, a model including a mapping from the feature to the low-dimensional space and a mapping from each empty category label to the low-dimensional space is learned.

このように、テキストの依存構造木に基づいて、空範疇の位置の候補の各々の特徴として単語の分散表現等を抽出し、複数のテキストの各々に付与された前記空範疇の位置及び空範疇ラベルに基づいて、前記特徴から低次元空間への写像、及び空範疇ラベルの各々から前記低次元空間への写像を含むモデルを学習することにより、テキストの空範疇の位置および種類を精度よく推定するためのモデルを学習することができる。   As described above, based on the dependency tree of the text, a distributed expression of the word or the like is extracted as a feature of each candidate of the empty category position, and the empty category position and the empty category assigned to each of the plurality of texts are extracted. Based on the label, the position and type of the empty category of the text are accurately estimated by learning a model that includes the mapping from the feature to the low-dimensional space and the mapping of each empty category label to the low-dimensional space. To learn a model to do.

また、本発明のプログラムは、コンピュータを、上記の空範疇推定装置、及び空範疇推定モデル学習装置を構成する各部として機能させるためのプログラムである。   Moreover, the program of this invention is a program for functioning a computer as each part which comprises said sky category estimation apparatus and said sky category estimation model learning apparatus.

以上説明したように、本発明の空範疇推定装置、方法、及びプログラムによれば、入力テキストの依存構造木に基づいて、空範疇の位置の候補の各々の特徴として単語の分散表現等を抽出し、特徴から低次元空間への写像、及び空範疇ラベルの各々から低次元空間への写像を含むモデルに基づいて、空範疇の位置及び空範疇ラベルを推定することにより、入力されたテキストの空範疇の位置および種類を精度よく推定することができる。   As described above, according to the empty category estimation device, method, and program of the present invention, based on the dependency structure tree of the input text, a distributed representation of a word or the like is extracted as the feature of each candidate for the empty category position. Then, based on a model that includes a mapping from features to low dimensional space and a mapping from each empty category label to low dimensional space, the position of the empty category and the empty category label are estimated to estimate The position and type of the sky category can be estimated with high accuracy.

また、本発明の空範疇推定モデル学習装置、方法、及びプログラムによれば、テキストの依存構造木に基づいて、空範疇の位置の候補の各々の特徴として単語の分散表現等を抽出し、複数のテキストの各々に付与された前記空範疇の位置及び空範疇ラベルに基づいて、前記特徴から低次元空間への写像、及び空範疇ラベルの各々から前記低次元空間への写像を含むモデルを学習することにより、テキストの空範疇の位置および種類を精度よく推定するためのモデルを学習することができる。   Further, according to the empty category estimation model learning apparatus, method, and program of the present invention, based on the dependency structure tree of text, a distributed expression of a word or the like is extracted as a feature of each candidate of the empty category position, and a plurality of Learning a model including a mapping from the feature to a low-dimensional space and a mapping from each of the empty-category labels to the low-dimensional space based on the position of the empty category and a blank category label assigned to each of the texts By doing so, it is possible to learn a model for accurately estimating the position and type of the empty category of the text.

空範疇の位置を説明するための図である。It is a figure for demonstrating the position of an empty category. (a)依存関係タイプ付きの依存構造木の例を示す図、(b)ルートから空範疇OPへ至る経路を示す図、及び(c)ルートから空範疇OPへ至る経路上の各単語に対する依存関係タイプの列を示す図である。(a) A diagram showing an example of a dependency structure tree with a dependency type, (b) a diagram showing a route from the root to the empty category OP, and (c) a dependency on each word on the route from the route to the empty category OP It is a figure which shows the column of relationship type. 本発明の実施の形態に係る空範疇推定モデル学習装置の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the sky category estimation model learning apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る空範疇推定装置の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the air category estimation apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る空範疇推定モデル学習装置における空範疇推定モデル学習処理ルーチンを示すフローチャート図である。It is a flowchart figure which shows the empty category estimation model learning process routine in the empty category estimation model learning apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る空範疇推定装置における空範疇推定処理ルーチンを示すフローチャート図である。It is a flowchart figure which shows the sky category estimation processing routine in the sky category estimation apparatus which concerns on embodiment of this invention. テストデータにおける空範疇ラベルの分布を示す図である。It is a figure which shows distribution of the empty category label in test data. 実験結果を示す図である。It is a figure which shows an experimental result.

以下、図面を参照して本発明の実施の形態を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

<本発明の実施の形態の概要>
本実施の形態は、同時文脈ラベル埋込法(joint context-label embedding)を用いた空範疇(EC:empty category)検出の品質を向上させることを目的とする。空範疇は、テキスト中に明示的には現れていない名詞的単語(nominal word)である。通例、省略または移動により生じる。本実施の形態では、空範疇の位置の特徴として、単語の分散表現を、空範疇の存在およびラベルを決定するために用いる。
<Outline of Embodiment of the Present Invention>
The object of the present embodiment is to improve the quality of empty category (EC) detection using a joint context-label embedding method. An empty category is a nominal word that does not appear explicitly in the text. Usually caused by omission or movement. In the present embodiment, as a feature of the position of the empty category, a distributed expression of the word is used to determine the existence and label of the empty category.

空範疇検出は、テキストにおいて省略または移動により生じた名詞的語句を検出するものである。本実施の形態では、これを分類問題として定式化している。本実施の形態では、各種のECをクラスとして定義する。さらに、ECではない位置を「NONE」と呼ぶことにする。それにより、ECのとりうる位置の全てを収集し、これらの位置を、事前に定義されたクラスへと分類することがタスクとなる。   The empty category detection is to detect a noun phrase caused by omission or movement in the text. In the present embodiment, this is formulated as a classification problem. In the present embodiment, various ECs are defined as classes. Further, a position that is not EC is called “NONE”. Thereby, the task is to collect all the possible positions of the EC and classify these positions into predefined classes.

本実施の形態では、モデルを用いて、EC位置を分類する。これには、主要な部分問題が2つある。一方は、EC位置を特徴として表現することであり、他方は、これらの位置を、事前に定義されたクラスに分類することである。   In the present embodiment, EC positions are classified using a model. There are two main subproblems. One is to represent EC positions as features, and the other is to classify these positions into predefined classes.

以下に、本実施の形態に係る空範疇推定装置の原理について説明する。   The principle of the air category estimation device according to the present embodiment will be described below.

<EC位置表現>
<EC位置の記述>
非特許文献1に示された方法に引き続き、我々は、ECの位置の候補の全てを、テキスト中の単語の依存関係を表わす依存構造木を用いて収集する。ECの位置の候補の各々は、単語対、すなわち「<主辞単語,後続単語>」を用いて表現可能である。後続単語(following word)とは、文中の記述位置に続く単語のことである。主辞単語(head word)は、依存構造木においてその位置にECがあると仮定する際にECが修飾する(attach)単語のことである。図1Aは中国語の文「吃了」に対する依存構造木においてECの位置を表現する例である。先頭が「吃」であり、「了」が後続するため、ECの位置の候補Position-1は「<吃,了>」として表現され、ECの位置の候補Position-2は、「<吃,。>」として表現される。
<EC position expression>
<Description of EC position>
Following the method shown in Non-Patent Document 1, we collect all EC position candidates using a dependency structure tree that represents the dependency of words in the text. Each of the EC position candidates can be expressed using a word pair, ie, “<main word, following word>”. A following word is a word that follows a description position in a sentence. The head word is the word that the EC attaches to when assuming that the EC is in that position in the dependency structure tree. FIG. 1A is an example of expressing the position of EC in the dependency structure tree for the Chinese sentence “end”. Since the beginning is “吃” followed by “End”, EC position candidate Position-1 is represented as “<吃, End>”, and EC position candidate Position-2 is “<「, . "

<EC位置の特徴抽出>
そして、我々は、上述のように定義された各ECの位置の候補の特徴を抽出する。特徴ベクトルは、EC検出に役立つものと期待される、テキスト中の単語の分散表現を連結することにより構成される。本実施の形態では、あるECに対する特徴ベクトルが、(1)主辞単語(ダミーのルートノードを除く)の分散表現、(2)テキスト中の後続単語の分散表現、(3)「甥(nephews)」すなわち後続単語の子の分散表現、(4)依存構造木の経路上の各単語の分散表現を含んで構成される。これらを特徴テンプレートと呼ぶ。
<Feature extraction of EC position>
And we extract the candidate features of each EC location defined as above. A feature vector is constructed by concatenating distributed representations of words in text that are expected to be useful for EC detection. In the present embodiment, a feature vector for a certain EC includes (1) a distributed representation of a main word (excluding a dummy root node), (2) a distributed representation of subsequent words in the text, (3) “nephews” "That is, it includes a distributed representation of the children of the following word and (4) a distributed representation of each word on the path of the dependency structure tree. These are called feature templates.

(1)主辞単語(ダミーのルートノードを除く)の分散表現について、単語がd次元ベクトルを用いて表現されるものとすると、この特徴を表現するためにd次元が必要となる。主辞単語の分散表現は、特徴ベクトル中の対応する位置に置かれることになる。 (1) For distributed representations of main words (excluding dummy root nodes), if the words are represented using d-dimensional vectors, d dimensions are required to represent this feature. The distributed representation of the head word will be placed at the corresponding position in the feature vector.

(2)テキスト中の後続単語の分散表現について、この特徴は、主辞単語と同じ方法で抽出される。 (2) For the distributed representation of subsequent words in the text, this feature is extracted in the same way as the main word.

(3)「甥(nephews)」すなわち後続単語の子の分散表現について、後続単語の子となる単語のうち、左端側の2つの単語を選択し、選択した2つの単語の分散表現を用いる。 (3) For “nephews”, that is, the distributed representation of the child of the subsequent word, two words on the left end side are selected from the words that are the children of the subsequent word, and the distributed representation of the selected two words is used.

(4)依存構造木の経路上の各単語の分散表現について、テキストの依存構造木に基いて、ルートノードからECの位置の候補までの経路上の全ての単語(ECの位置の候補は除外)の分散表現を、依存関係タイプの列とともに収集する。図1B(a)に依存関係タイプ付きの依存構造木の例を示す。図1B(b)はルートから空範疇OPへ至る経路である。また図1B(c)はルートから空範疇OPへ至る経路上の各単語
に対する依存関係タイプの列である。このような依存関係タイプの列がm種類あり、単語がd次元のベクトルで表現されるとすると、この特徴を表現するためにmd次元が必要となる。この経路上の各単語の分散表現と依存関係タイプの列は、特徴ベクトル中の対応する位置に置かれる。
(4) For the distributed representation of each word on the path of the dependency structure tree, all words on the path from the root node to the EC position candidates (excluding EC position candidates) based on the text dependency structure tree ) With a dependency type column. FIG. 1B (a) shows an example of a dependency structure tree with dependency type. FIG. 1B (b) shows a route from the route to the empty category OP. Figure 1B (c) shows each word on the route from the route to the empty category OP.
This is a dependency type column for. If there are m types of such dependency type columns and the word is expressed by a d-dimensional vector, the md dimension is required to express this feature. The distributed representation of each word on this path and the dependency type column are placed at corresponding positions in the feature vector.

本実施の形態では、上記の特徴ベクトルにおいて、ベクトル中の単語を、事前トレーニング済辞書から取得された分散表現で置き換える。次のステップにて、抽出された特徴ベクトルを用いて、ECの位置の候補のラベル(ECタイプ)を決定する。   In the present embodiment, in the feature vector described above, the words in the vector are replaced with the distributed representation acquired from the pretrained dictionary. In the next step, EC position candidate labels (EC type) are determined using the extracted feature vectors.

<同時アノテーション法を用いたEC検出>
本実施の形態におけるEC検出方法は、2つの写像MAPA、MAPBから成る。MAPAは、ECの位置の候補に対するn次元の特徴ベクトルXから、低次元(k次元)のベクトル空間への写像fA(X)を表す。
<EC detection using simultaneous annotation method>
The EC detection method in the present embodiment includes two maps MAP A and MAP B. MAP A represents a mapping f A (X) from an n-dimensional feature vector X to a candidate EC position to a low-dimensional (k-dimensional) vector space.

MAPA: Rn → Rk, k ≪ n
fA(X) → WAX (1)
MAP A : R n → R k , k ≪ n
f A (X) → W A X (1)

ただし、MAPAは、線形変換であり、WAは、k * n行列である。 However, MAP A is a linear transformation, W A is a k * n matrix.

MAPBは、ラベルから低次元(k次元)のベクトル空間への写像である。 MAP B is a mapping from a label to a low-dimensional (k-dimensional) vector space.

MAPB: {Label1, Label2,…} I R → Rk
fB(Labeli) → Wi B (2)
MAP B : {Label 1 , Label 2 ,…} IR → R k
f B (Label i) → W i B (2)

ただし、MAPBも、線形変換である。Wi Bは、k次元ベクトルであり、2次元空間におけるlabeliの分散表現でもある。 However, MAP B is also a linear transformation. W i B is a k-dimensional vector and is also a distributed representation of label i in a two-dimensional space.

2つの写像は、トレーニングデータから同時に学習される。テスト段階では、分類すべきECの位置の候補の全てについて、対応する特徴ベクトルXを抽出し、fA(X) = WAXを用いて、特徴ベクトルXを低次元空間へ写像する。 Two maps are learned simultaneously from the training data. In the test stage, the corresponding feature vector X is extracted from all the EC position candidates to be classified, and the feature vector X is mapped to the low-dimensional space using f A (X) = W A X.

そして、各labeliについて、以下のようにgi(X)を得る。 Then, for each label i , g i (X) is obtained as follows.

gi(X) = (fA(X))TWi B (3) g i (X) = (f A (X)) T W i B (3)

とりうるlabeliの各々において、gi(X)は、当該labeliとなる尤もらしさを表わすスコアであり、ECの位置の候補について推定されるラベルは、gi(X)を最大化するlabeliである。 In each of the possible label i , g i (X) is a score representing the likelihood of becoming the label i, and the label estimated for the EC position candidate is a label that maximizes g i (X). i .

また、2つの写像MAPA、MAPBで用いられるWA、Wi Bを学習するために、本実施の形態では、非特許文献2の方法を用いて、以下の(4)式に示す、重み付けされたペア損失(weighted pairwise loss)を最小化するようにして、確率的勾配降下法(stochastic gradient descent)を用いて学習する。 The two mapping MAP A, W A used in the MAP B, in order to learn the W i B, in this embodiment, by using a non-patent document 2 method, shown in the following equation (4), Learning using stochastic gradient descent so as to minimize weighted pairwise loss.

ΣXΣi 1 c L(rankc(X)max(0, (gi(X) - gc(X))) (4) Σ X Σ i 1 c L (rank c (X) max (0, (g i (X)-g c (X))) (4)

ここでcは、特徴ベクトルXについての正解ラベルであり、rankc(X)は、Xについてとりうる全てのラベルのうちの正解ラベルcのランクである。Lは、エラーに対する態度を反映した関数である。定数関数L = Cは、完全なランクリスト(ranking list)を最適化しようとすることを意味している。ここで、本実施の形態では、L(α) = Σα i=1 1/iを用いており、これは、ランクリストの最上位のものを最適化するためのものである。学習率および確率的勾配降下法アルゴリズムの他のいくつかのパラメータは、開発セットを用いて予め最適化されたものを用いればよい。 Here, c is the correct label for the feature vector X, and rank c (X) is the rank of the correct label c among all possible labels for X. L is a function that reflects the attitude toward errors. The constant function L = C means to try to optimize the complete ranking list. In the present embodiment, uses a L (α) = Σ α i = 1 1 / i, which is intended to optimize the intended top of the Live Ranker for English speakers. The learning rate and some other parameters of the probabilistic gradient descent algorithm may be pre-optimized using the development set.

本実施の形態では、非特許文献2の方法を用いて、2つの写像MAPA、MAPBを含むニューラルネットワークモデルを学習する。その他の実施の形態としては、多クラス分類を行う一つのニューラルネットワークモデルを直接学習してもよい。2つの写像を用いてECの位置とラベルを一つの低次元ベクトル空間に写像することの利点は、ラベルの種類(クラス数)が大きくなっても空範疇推定を精度よく行えることである。例えば、省略された代名詞を表すラベルproを、人称(一人称/二人称/三人称)・性別(男性/女性)・数(単数/複数)などに応じて細分化してもよいし、依存構造木における依存関係タイプとして表現される統語的な役割(主語/直接目的語/間接目的語など)に応じて細分化してもよい。 In the present embodiment, a neural network model including two maps MAP A and MAP B is learned using the method of Non-Patent Document 2. As another embodiment, one neural network model for performing multi-class classification may be directly learned. The advantage of mapping the EC position and label to one low-dimensional vector space using two mappings is that the empty category can be estimated accurately even if the type of labels (number of classes) increases. For example, an abbreviated pronoun label pro may be subdivided according to person (first person / second person / third person), gender (male / female), number (single / plural), etc. You may subdivide according to the syntactic role (subject / direct object / indirect object, etc.) expressed as a relationship type.

<本発明の実施の形態に係る空範疇推定モデル学習装置の構成>
次に、本発明の実施の形態に係る空範疇推定モデル学習装置の構成について説明する。図2に示すように、本発明の実施の形態に係る空範疇推定モデル学習装置100は、CPUと、RAMと、後述する空範疇推定モデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この空範疇推定モデル学習装置100は、機能的には図2に示すように入力部10と、演算部20と、出力部90とを備えている。
<Configuration of Sky Category Estimation Model Learning Device According to Embodiment of the Present Invention>
Next, the configuration of the empty category estimation model learning device according to the embodiment of the present invention will be described. As shown in FIG. 2, the empty category estimation model learning device 100 according to the embodiment of the present invention stores a CPU, a RAM, a program for executing an empty category estimation model learning processing routine to be described later, and various data. And a computer including a ROM. Functionally, the empty category estimation model learning device 100 includes an input unit 10, a calculation unit 20, and an output unit 90 as shown in FIG.

入力部10は、ECの位置及びECラベルの正解データが予め付与された、学習用のテキストを表す依存構造木を複数受け付け、複数の依存構造木を依存構造木22に記憶し、複数の依存構造木の各々に付与されているECの位置及びECラベルの正解データを、ECラベル正解データ38に記憶する。   The input unit 10 accepts a plurality of dependency structure trees that represent learning text, to which EC position and EC label correct data are assigned in advance, stores the plurality of dependency structure trees in the dependency structure tree 22, and stores a plurality of dependency structures. The EC position and EC label correct data assigned to each structural tree are stored in EC label correct data 38.

演算部20は、依存構造木22と、特徴テンプレート作成部24と、特徴テンプレート26と、単語分散表現28と、特徴抽出部30と、EC位置特徴ベクトル32と、初期化モデル34と、初期化ECラベル分散表現36と、ECラベル正解データ38と、学習部40と、モデル52と、ECラベル分散表現54と、を含んで構成されている。   The calculation unit 20 includes a dependency structure tree 22, a feature template creation unit 24, a feature template 26, a word distribution expression 28, a feature extraction unit 30, an EC position feature vector 32, an initialization model 34, and an initialization. The EC label distributed representation 36, EC label correct data 38, a learning unit 40, a model 52, and an EC label distributed representation 54 are configured.

依存構造木22には、入力部10において受け付けた、複数の学習用のテキストを表す複数の依存構造木が記憶されている。   The dependency structure tree 22 stores a plurality of dependency structure trees representing a plurality of learning texts received by the input unit 10.

特徴テンプレート作成部24は、複数の依存構造木の各々について、特徴テンプレートを作成し、特徴テンプレート26に格納する。   The feature template creation unit 24 creates a feature template for each of the plurality of dependency structure trees and stores it in the feature template 26.

単語分散表現28には、予め学習された各単語の分散表現が記憶されている。   The word dispersion expression 28 stores a dispersion expression of each word learned in advance.

特徴抽出部30は、複数の依存構造木について、特徴テンプレート作成部24によって作成された特徴テンプレートに基づいて、ECの位置の候補の各々の特徴ベクトルを抽出し、EC位置特徴ベクトル32に格納する。   The feature extraction unit 30 extracts each feature vector of EC position candidates from a plurality of dependency structure trees based on the feature template created by the feature template creation unit 24, and stores it in the EC position feature vector 32. .

初期化モデル34には、初期化されたモデルとして、写像MAPAで用いられる行列WAの初期値が格納されている。なお、初期値として、ランダムに設定された値を用いればよい。 The initial model 34, as an initialization model, the initial value of the matrix W A used in the mapping MAP A is stored. Note that a randomly set value may be used as the initial value.

初期化ECラベル分散表現36には、初期化されたモデルとして、写像MAPBで用いられる各ECラベルlabeliに対する行列Wi Bの初期値が格納されている。なお、初期値として、ランダムに設定された値を用いればよい。 The initialized EC label distribution representation 36 stores the initial value of the matrix W i B for each EC label label i used in the mapping MAP B as an initialized model. Note that a randomly set value may be used as the initial value.

ECラベル正解データ38には、入力部10において受け付けた正解データに基づいて、複数の依存構造木について、ECの位置の候補の各々のECラベルのタイプ又はECラベルがないことが記憶されている。   The EC label correct answer data 38 stores that there is no EC label type or EC label for each of the EC position candidates for a plurality of dependency structure trees based on the correct answer data received by the input unit 10. .

学習部40は、EC位置特徴ベクトル32、初期化モデル34、初期化ECラベル分散表現36、及びECラベル正解データ38に基づいて、2つの写像MAPA、MAPBで用いられる行列WA、Wi Bを学習し、モデル52及びECラベル分散表現54に格納する。 Based on the EC position feature vector 32, the initialization model 34, the initialized EC label dispersion representation 36, and the EC label correct answer data 38, the learning unit 40 uses matrices W A and W used in the two mappings MAP A and MAP B. i B is learned and stored in the model 52 and EC label distribution representation 54.

学習部40は、更新モデル42、ECラベル分散表現44、ECラベル予測部46、収束判定部48、及びモデル更新部50を備えている。   The learning unit 40 includes an update model 42, an EC label distribution representation 44, an EC label prediction unit 46, a convergence determination unit 48, and a model update unit 50.

更新モデル42には、初期化モデル34と同じ行列WA、又はモデル更新部50によって更新された行列WAが記憶されている。 The updated model 42, the same matrix as the initial model 34 W A, or the model updating unit 50 is the matrix W A updated by is stored.

ECラベル分散表現44には、初期化ECラベル分散表現36と同じ各ECラベルlabeliに対する行列Wi B、又はモデル更新部50によって更新された各ECラベルlabeliに対する行列Wi Bが記憶されている。 The EC label distributed representation 44, the matrix for the same respective EC label label i and initialize EC label distributed representation 36 W i B, or matrix for each EC label label i updated by the model updating unit 50 W i B is stored ing.

ECラベル予測部46は、EC位置特徴ベクトル32、更新モデル42、ECラベル分散表現44に基づいて、複数の依存構造木の各々について、上記(3)式に従って、ECの位置の候補の各々の特徴ベクトルX及び各ECラベルlabeliに対するスコアを計算し、スコアが最大となるECの位置及びECラベルを予測する。 Based on the EC position feature vector 32, the update model 42, and the EC label distribution representation 44, the EC label prediction unit 46 determines each of the EC position candidates for each of the plurality of dependency structure trees according to the above equation (3). The score for the feature vector X and each EC label label i is calculated, and the position and EC label of the EC having the maximum score are predicted.

収束判定部48は、複数の依存構造木の各々について、ECラベル正解データ38と、ECラベル予測部46によって予測されたECの位置及びECラベルとを比較して、収束したか否かを判定する。複数の依存構造木の各々について、ECラベル正解データ38と、ECラベル予測部46によって予測されたECの位置及びECラベルとが一致した場合に、収束したと判定し、現時点の行列WAをモデル52に格納し、現時点の各ECラベルlabeliに対する行列Wi BをECラベル分散表現54に格納する。 The convergence determination unit 48 compares the EC label correct data 38 with the EC position and EC label predicted by the EC label prediction unit 46 for each of the plurality of dependency structure trees, and determines whether or not the convergence has occurred. To do. For each of a plurality of dependent parse tree, the EC label correct answer data 38, when the position and EC labels predicted EC by EC label prediction unit 46 match, determines that it has converged, the matrix W A of current The matrix 52 is stored in the model 52, and the matrix W i B for each EC label label i at the present time is stored in the EC label dispersion representation 54.

モデル更新部50は、EC位置特徴ベクトル32と、更新モデル42と、ECラベル分散表現44と、ECラベル正解データ38と、ECラベル予測部46によって予測されたECの位置及びECラベルとに基づいて、上記(4)式に示す、重み付けされたペア損失を最小化するように、2つの写像MAPA、MAPBで用いられる行列WA、Wi Bを更新し、更新された行列WAを更新モデル42に格納し、更新された各ECラベルlabeliに対する行列Wi BをECラベル分散表現44に格納する。 The model update unit 50 is based on the EC position feature vector 32, the update model 42, the EC label distribution representation 44, the EC label correct answer data 38, and the EC position and EC label predicted by the EC label prediction unit 46. Te, shown in equation (4), the weighted pair loss to minimize, two maps MAP a, matrix used in MAP B W a, W i B is updated and the updated matrix W a Are stored in the update model 42, and the matrix W i B for each updated EC label label i is stored in the EC label distribution representation 44.

モデル52に記憶された行列WA、及びECラベル分散表現54に記憶された、各ECラベルlabeliに対する行列Wi Bが、出力部90により出力される。 The output unit 90 outputs the matrix W A stored in the model 52 and the matrix W i B for each EC label label i stored in the EC label dispersion representation 54.

<本発明の実施の形態に係る空範疇推定装置の構成>
次に、本発明の実施の形態に係る空範疇推定装置の構成について説明する。図3に示すように、本発明の実施の形態に係る空範疇推定装置200は、CPUと、RAMと、後述する空範疇推定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この空範疇推定装置200は、機能的には図3に示すように入力部210と、演算部220と、出力部290とを備えている。
<Configuration of an empty category estimation device according to an embodiment of the present invention>
Next, the configuration of the air category estimation device according to the embodiment of the present invention will be described. As shown in FIG. 3, an empty category estimation apparatus 200 according to an embodiment of the present invention includes a CPU, a RAM, a ROM that stores a program and various data for executing an empty category estimation processing routine described later, Can be configured with a computer including Functionally, the empty category estimation device 200 includes an input unit 210, a calculation unit 220, and an output unit 290 as shown in FIG.

入力部210は、推定対象のテキストを表す依存構造木、及び特徴テンプレートを受け付け、依存構造木を依存構造木222に記憶し、特徴テンプレートを特徴テンプレート226に記憶する。   The input unit 210 receives the dependency structure tree and the feature template representing the text to be estimated, stores the dependency structure tree in the dependency structure tree 222, and stores the feature template in the feature template 226.

演算部220は、依存構造木222と、特徴テンプレート226と、単語分散表現228と、特徴抽出部230と、EC位置特徴ベクトル232と、モデル234と、ECラベル分散表現236と、推定部238と、推定ECラベル240と、を含んで構成されている。   The calculation unit 220 includes a dependency structure tree 222, a feature template 226, a word distribution representation 228, a feature extraction unit 230, an EC position feature vector 232, a model 234, an EC label distribution representation 236, and an estimation unit 238. , And an estimated EC label 240.

依存構造木222には、入力部210において受け付けた、テキストを表す依存構造木が記憶されている。   The dependency structure tree 222 stores a dependency structure tree that represents the text received by the input unit 210.

特徴テンプレート226には、入力部210において受け付けた特徴テンプレートが記憶されている。なお、入力部210において受け付けた特徴テンプレートは、特徴テンプレート作成部24と同様に作成されたものである。   In the feature template 226, the feature template received by the input unit 210 is stored. Note that the feature template received by the input unit 210 is created in the same manner as the feature template creation unit 24.

単語分散表現228には、単語分散表現28と同様に、予め学習された各単語の分散表現が記憶されている。   Similar to the word distribution expression 28, the word distribution expression 228 stores a distributed expression of each word learned in advance.

特徴抽出部230は、依存構造木について、特徴テンプレート226に基づいて、特徴抽出部30と同様に、ECの位置の候補の各々の特徴ベクトルを抽出し、EC位置特徴ベクトル32に格納する。   The feature extraction unit 230 extracts each feature vector of EC position candidates based on the feature template 226 for the dependency structure tree, and stores it in the EC position feature vector 32.

モデル234には、空範疇推定モデル学習装置100によって学習されたモデル52と同じ、写像MAPAで用いられる行列WAが格納されている。 The model 234 is the same as model 52 learned by the air category estimation model learning device 100, a matrix W A used in the mapping MAP A is stored.

ECラベル分散表現36には、空範疇推定モデル学習装置100によって学習されたECラベル分散表現54と同じ、写像MAPBで用いられる各ECラベルlabeliに対する行列Wi Bが格納されている。 The EC label dispersion representation 36 stores the same matrix W i B for each EC label label i used in the mapping MAP B as the EC label dispersion representation 54 learned by the empty category estimation model learning device 100.

推定部238は、EC位置特徴ベクトル232、モデル234、ECラベル分散表現236に基づいて、依存構造木について、上記(3)式に従って、ECの位置の候補の各々の特徴ベクトルX及び各ECラベルlabeliに対するスコアを計算し、スコアが最大となるECの位置及びECラベルを、ECラベルの推定結果とし、推定ECラベル240に格納する。 Based on the EC position feature vector 232, the model 234, and the EC label distribution representation 236, the estimation unit 238 performs the feature vector X of each EC position candidate and each EC label for the dependency structure tree according to the above equation (3). The score for label i is calculated, and the EC position and EC label with the maximum score are stored as the estimated EC label 240 as the EC label estimation result.

推定ECラベル240に記憶されたECの位置及びECラベルが、出力部290により出力される。   The EC position and EC label stored in the estimated EC label 240 are output by the output unit 290.

<本発明の実施の形態に係る空範疇推定モデル学習装置の作用>
次に、本発明の実施の形態に係る空範疇推定モデル学習装置100の作用について説明する。入力部10において、ECの位置及びECラベルの正解データが予め付与された、学習用のテキストを表す依存構造木を複数受け付けると、複数の依存構造木を依存構造木22に記憶すると共に、正解データを、ECラベル正解データ38に記憶し、空範疇推定モデル学習装置100は、図4に示す空範疇推定モデル学習処理ルーチンを実行する。
<Operation of Sky Category Estimation Model Learning Device According to Embodiment of the Present Invention>
Next, the operation of the empty category estimation model learning device 100 according to the embodiment of the present invention will be described. When the input unit 10 accepts a plurality of dependency structure trees representing the learning text to which the EC position and EC label correct answer data are assigned in advance, the plurality of dependency structure trees are stored in the dependency structure tree 22 and the correct answer is obtained. The data is stored in the EC label correct answer data 38, and the air category estimation model learning device 100 executes the air category estimation model learning processing routine shown in FIG.

まず、ステップS100では、依存構造木22に記憶されている複数の依存構造木を読み込む。   First, in step S100, a plurality of dependency structure trees stored in the dependency structure tree 22 are read.

次に、ステップS102では、特徴テンプレートを作成する。ステップS104では、依存構造木22に記憶されている複数の依存構造木、単語分散表現28に記憶されている各単語の分散表現、及びECラベル正解データ38に記憶されているECの位置及びECラベルの正解データを読み込む。   Next, in step S102, a feature template is created. In step S104, the plurality of dependency structure trees stored in the dependency structure tree 22, the distributed expression of each word stored in the word distribution expression 28, and the EC position and EC stored in the EC label correct answer data 38 are stored. Read the correct answer data of the label.

そして、ステップS106では、複数の依存構造木の各々について、上記ステップS102で作成された特徴テンプレートに基づいて、ECの位置の候補の各々の特徴ベクトルを作成し、EC位置特徴ベクトル32に格納する。   In step S106, for each of the plurality of dependency structure trees, a feature vector of each of the EC position candidates is created based on the feature template created in step S102, and stored in the EC position feature vector 32. .

ステップS108では、写像MAPAで用いられる行列WAの初期値をランダムに設定し、初期化モデル34及び更新モデル42に格納する。また、写像MAPBで用いられる各ECラベルlabeliに対する行列Wi Bの初期値をランダムに設定し、初期化ECラベル分散表現36及びECラベル分散表現44に格納する。 In step S108, the initial value of the matrix W A used in the mapping MAP A randomly set, and stores the initial model 34 and the update model 42. In addition, the initial value of the matrix W i B for each EC label label i used in the mapping MAP B is randomly set and stored in the initialized EC label distribution representation 36 and the EC label distribution representation 44.

そして、ステップS110では、複数の依存構造木の各々について、EC位置特徴ベクトル32、更新モデル42、及びECラベル分散表現44に基づいて、EC位置及びECラベルを予測する。   In step S110, EC positions and EC labels are predicted for each of the plurality of dependency structure trees based on the EC position feature vector 32, the update model 42, and the EC label distribution representation 44.

次のステップS112では、上記ステップS110で複数の依存構造木の各々について予測されたEC位置及びECラベルと、ECラベル正解データ38とを比較して、収束したか否かを判定する。上記ステップS110で複数の依存構造木の各々について予測されたEC位置及びECラベルと、ECラベル正解データ38とが一致していない場合には、収束していないと判定し、ステップS114へ移行する。一方、上記ステップS110で複数の依存構造木の各々について予測されたEC位置及びECラベルと、ECラベル正解データ38とが一致している場合には、収束したと判定し、ステップS116へ移行する。   In the next step S112, the EC position and EC label predicted for each of the plurality of dependency structure trees in step S110 are compared with the EC label correct data 38 to determine whether or not the convergence has occurred. If the EC position and EC label predicted for each of the plurality of dependency structure trees in step S110 do not match the EC label correct answer data 38, it is determined that they have not converged, and the process proceeds to step S114. . On the other hand, if the EC position and the EC label predicted for each of the plurality of dependency structure trees in step S110 match the EC label correct answer data 38, it is determined that they have converged, and the process proceeds to step S116. .

ステップS114では、EC位置特徴ベクトル32と、更新モデル42と、ECラベル分散表現44と、ECラベル正解データ38と、上記ステップS110で予測されたECの位置及びECラベルとに基づいて、上記(4)式に示す、重み付けされたペア損失を最小化するように、2つの写像MAPA、MAPBで用いられる行列WA、Wi Bを更新し、更新された行列WAを更新モデル42に格納し、更新された各ECラベルlabeliに対する行列Wi BをECラベル分散表現44に格納し、ステップS110へ戻る。 In step S114, based on the EC position feature vector 32, the update model 42, the EC label distribution representation 44, the EC label correct data 38, and the EC position and EC label predicted in step S110, the above ( 4) shown in the expression, a weighted pair loss to minimize, two maps MAP a, the matrix W a used in the MAP B, and updates the W i B, updates the updated matrix W a model 42 The matrix W i B for each updated EC label label i is stored in the EC label distribution representation 44, and the process returns to step S110.

ステップS116では、現時点の行列WAをモデル52に格納し、現時点の各ECラベルlabeliに対する行列Wi BをECラベル分散表現54に格納し、空範疇推定モデル学習処理ルーチンを終了する。 At step S116, and stores the matrix W A of current to the model 52, and stores the matrix W i B for each EC label label i the current to EC label distributed representation 54, and ends the empty category estimation model learning processing routine.

<本発明の実施の形態に係る空範疇推定装置の作用>
次に、本発明の実施の形態に係る空範疇推定装置200の作用について説明する。入力部210において推定対象のテキストを表す依存構造木、及び特徴テンプレートを受け付けると、受け付けた依存構造木を依存構造木222に記憶すると共に、特徴テンプレートを、特徴テンプレート226に記憶し、空範疇推定装置200は、図5に示す空範疇推定処理ルーチンを実行する。
<Operation of the empty category estimation device according to the embodiment of the present invention>
Next, the operation of the air category estimation device 200 according to the embodiment of the present invention will be described. When the dependency structure tree representing the text to be estimated and the feature template are received by the input unit 210, the received dependency structure tree is stored in the dependency structure tree 222, and the feature template is stored in the feature template 226, so that empty category estimation is performed. The apparatus 200 executes an empty category estimation processing routine shown in FIG.

まず、ステップS200では、依存構造木222に記憶されている依存構造木、単語分散表現228に記憶されている各単語の分散表現、及び特徴テンプレート226に記憶されている特徴テンプレートを読み込む。   First, in step S <b> 200, the dependency structure tree stored in the dependency structure tree 222, the distributed expression of each word stored in the word distribution expression 228, and the feature template stored in the feature template 226 are read.

次に、ステップS202では、ステップS200で読み込んだ特徴テンプレートに基づいて、ECの位置の候補の各々の特徴ベクトルを作成し、EC位置特徴ベクトル232に格納する。   Next, in step S <b> 202, a feature vector of each EC position candidate is created based on the feature template read in step S <b> 200 and stored in the EC position feature vector 232.

そして、ステップS204では、依存構造木について、EC位置特徴ベクトル232、モデル234、及びECラベル分散表現236に基づいて、EC位置及びECラベルを予測し、空範疇推定処理ルーチンを終了する。   In step S204, the EC position and EC label are predicted for the dependency structure tree based on the EC position feature vector 232, the model 234, and the EC label distribution representation 236, and the empty category estimation processing routine is terminated.

<実施例>
<実験データ>
本実施の形態で説明した方法は、アノテーションされたコーパスが利用可能な様々な種類の言語に適用可能である。我々の実験では、中国語ツリーバンクV7.0(Chinese Penn Treebank V7.0)の一部を用いた。データセットを、トレーニングデータ、開発データおよびテストデータの3つの部分に分ける。従来の研究に引き続き、我々は、ファイル1〜40および901〜931をテストデータとし、ファイル41〜80を開発データとしている。トレーニングデータには、ファイル{81〜325,400〜454,500〜554,590〜596,6000〜885,900}が含まれている。図6に、テストデータにおけるECラベルの分布を示す。この実験における本実施形態では、2つのECが同じ主辞単語と後続単語を持つ場合を扱わなかったので、テストデータにおけるECの合計は非特許文献1より若干少ない(なお、本実施形態において、ECラベルを依存関係タイプを考慮するように拡張すれば、このような場合も扱うことができる)。開発データは、パラメータを調整するために用いられ、その最終結果はテストデータについて報告される。CTBツリーは、ECが保たれた特徴抽出用の依存構造木に変換して用いた。
<Example>
<Experimental data>
The method described in this embodiment can be applied to various types of languages in which an annotated corpus can be used. In our experiment, a part of Chinese Penn Treebank V7.0 was used. The data set is divided into three parts: training data, development data and test data. Following the conventional research, we use files 1 to 40 and 901 to 931 as test data, and files 41 to 80 as development data. The training data includes files {81-325, 400-454, 500-554, 590-596, 6000-885, 900}. FIG. 6 shows the distribution of EC labels in the test data. In this embodiment in this experiment, the case where two ECs have the same main word and subsequent word was not handled, so the total EC in the test data is slightly smaller than that of Non-Patent Document 1 (in this embodiment, EC This can be handled by extending the label to take into account dependency types). Development data is used to adjust the parameters, and the final results are reported for test data. The CTB tree was converted into a dependency structure tree for feature extraction with EC maintained.

<実験設定>
実験において、パラメータを、学習率(learning rate)=10-1、単語ベクトル次元=80、および隠れ層(hidden layer)次元=500に設定した。
<Experimental settings>
In the experiment, the parameters were set to learning rate = 10 −1 , word vector dimension = 80, and hidden layer dimension = 500.

<実験結果>
図7に、実験結果として、正解数(correct)と適合率(p)と再現率(r)とF1値(F1)とを示す。ここでは空範疇ラベルとして、Chinese Penn Treebankで定義されているものをそのまま用いた。PRO (big PRO)はコントロール構文などに出現する義務的な照応、pro (small pro)は省略された代名詞、Tは関係節や主題化などの移動における痕跡、OPは空の関係代名詞、RNRは右節点繰り上げ、*は受動構文や繰り上げ構文により生じた痕跡を表す。本実施の形態の手法の結果と、従来の最先端技術による方法(非特許文献1のXue)とを比較する。ここに提供した方法は、CTBについて我々が知る限り最新の最先端技術による性能をもたらすものである。本実施の形態の手法は、従来の最先端技術による方法より、高精度にECラベルを推定できることが分かった。
<Experimental result>
FIG. 7 shows the number of correct answers (correct), precision (p), recall (r), and F1 value (F1) as experimental results. Here, the empty category label defined by the Chinese Penn Treebank was used as it was. PRO (big PRO) is a mandatory anaphor that appears in control syntax, pro (small pro) is an abbreviated pronoun, T is a trace of movements such as relative clauses and thematicization, OP is an empty relative pronoun, RNR is The right node is raised, and * indicates a trace generated by the passive syntax or the raised syntax. The result of the method of the present embodiment is compared with a conventional state-of-the-art method (Xue in Non-Patent Document 1). The method provided here provides the latest state-of-the-art performance as far as we know about CTB. It has been found that the method of the present embodiment can estimate the EC label with higher accuracy than the conventional state-of-the-art method.

以上説明したように、本発明の実施の形態に係る空範疇推定装置によれば、入力テキストの依存構造木に基づいて、ECの位置の候補の各々の特徴ベクトルとして単語の分散表現を抽出し、特徴ベクトルから低次元空間への写像、及び空範疇ラベルの各々から低次元空間への写像を含むモデルに基づいて、空範疇の位置及び空範疇ラベルを推定することにより、入力されたテキストの空範疇の位置および種類を精度よく推定することができる。   As described above, according to the empty category estimation device according to the embodiment of the present invention, based on the dependency structure tree of the input text, a distributed representation of a word is extracted as each feature vector of EC position candidates. , By estimating the location of the empty category and the empty category label based on a model that includes a mapping from the feature vector to the lower dimensional space and a mapping of each empty category label to the lower dimensional space. The position and type of the sky category can be estimated with high accuracy.

また、本発明の実施の形態に係る空範疇推定モデル学習装置によれば、テキストの依存構造木に基づいて、ECの位置の候補の各々の特徴ベクトルとして単語の分散表現を抽出し、複数のテキストの各々に付与された前記空範疇の位置及び空範疇ラベルに基づいて、特徴ベクトルから低次元空間への写像、及び空範疇ラベルの各々から低次元空間への写像を含むモデルを学習することにより、テキストの空範疇の位置を精度よく推定するためのモデルを学習することができる。   In addition, according to the empty category estimation model learning device according to the embodiment of the present invention, based on the dependency structure tree of text, a distributed representation of a word is extracted as each feature vector of EC position candidates, Learning a model including a mapping from a feature vector to a low dimensional space and a mapping from each of the empty category labels to a low dimensional space based on the position and empty category label of each of the texts assigned to each of the texts. Thus, it is possible to learn a model for accurately estimating the position of the empty category of the text.

また、実験により、本実施の形態で説明した手法は、空範疇を、従来のものよりも高精度かつ高い再現性で検出可能であることが示されている。特徴の分散表現、および学習した2つの写像を含むニューラルネットワークモデルにより、空範疇の位置及びラベルを推定し、空範疇の意味および長距離依存関係を取得することができる。   Experiments also show that the method described in this embodiment can detect the sky category with higher accuracy and higher reproducibility than the conventional one. With the neural network model including the distributed representation of the features and the two maps learned, the location and label of the sky category can be estimated, and the meaning and long distance dependency of the sky category can be obtained.

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   Note that the present invention is not limited to the above-described embodiment, and various modifications and applications are possible without departing from the gist of the present invention.

例えば、推定対象のテキストの入力を受け付け、空範疇推定装置において、推定対象のテキストに対して、依存構造解析を行って、依存構造木を作成するようにしてもよい。
また、中国語のテキストに対して、空範疇を推定する場合を例に説明したが、これに限定されるものではなく、中国語以外の言語、例えば、日本語のテキストに対して、空範疇を推定するようにしてもよい。
For example, the input of the text to be estimated may be received, and the dependency category analysis may be performed on the text to be estimated by the empty category estimation device to create a dependency structure tree.
In addition, the case where the empty category is estimated for the Chinese text has been described as an example, but the present invention is not limited to this, and the empty category is used for a language other than Chinese, for example, Japanese text. May be estimated.

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。   Further, in the present specification, the embodiment has been described in which the program is installed in advance. However, the program can be provided by being stored in a computer-readable recording medium or provided via a network. It is also possible to do.

10、210 入力部
20、220 演算部
24 特徴テンプレート作成部
30、230 特徴抽出部
40 学習部
46 ラベル予測部
48 収束判定部
50 モデル更新部
90、290 出力部
100 空範疇推定モデル学習装置
200 空範疇推定装置
238 推定部
10, 210 Input unit 20, 220 Calculation unit 24 Feature template creation unit 30, 230 Feature extraction unit 40 Learning unit 46 Label prediction unit 48 Convergence determination unit 50 Model update unit 90, 290 Output unit 100 Sky category estimation model learning device 200 Sky Category estimation device 238 estimation unit

Claims (8)

入力テキストから、省略又は移動により生じた名詞的語句である空範疇を推定するための空範疇推定装置であって、
前記入力テキストの依存構造木に基づいて、空範疇の位置の候補の各々に対し、前記空範疇の位置の候補の特徴として、単語の分散表現を抽出する特徴抽出部と、
予め学習された、前記特徴から低次元空間への写像、及び空範疇ラベルの各々から前記低次元空間への写像を含むモデルと、前記特徴抽出部によって抽出された前記空範疇の位置の候補の各々の前記特徴とに基づいて、前記空範疇の位置及び前記空範疇ラベルを推定する推定部と、
を含む空範疇推定装置。
An empty category estimation device for estimating an empty category, which is a noun phrase caused by omission or movement, from an input text,
Based on the dependency structure tree of the input text, for each of the candidates for the position of the empty category, a feature extracting unit that extracts a distributed expression of the word as a feature of the candidate for the empty category position;
A pre-learned model including a mapping from the feature to a low-dimensional space and a mapping from each empty category label to the low-dimensional space, and candidates for the location of the empty category extracted by the feature extraction unit An estimation unit for estimating the position of the air category and the air category label based on each of the features;
An air category estimation device including
前記特徴抽出部は、前記空範疇の位置の候補の特徴として、前記空範疇の位置の候補の主辞単語の分散表現、前記空範疇の位置の候補に後続する後続単語の分散表現、前記依存構造木における、前記後続単語に対応するノードの子ノードが表す単語の分散表現、及び前記依存構造木における、ルートノードから前記空範疇の位置の候補までの経路上の各単語の分散表現の少なくとも1つを抽出する請求項1記載の空範疇推定装置。   The feature extraction unit includes, as the feature of the candidate for the empty category position, a distributed representation of the main word of the candidate for the empty category position, a distributed expression of the subsequent word following the candidate for the empty category position, and the dependency structure At least one of a distributed representation of a word represented by a child node of a node corresponding to the subsequent word in the tree, and a distributed representation of each word on a path from a root node to the candidate for the empty category in the dependency structure tree The empty category estimation apparatus according to claim 1, wherein one is extracted. 前記推定部は、前記特徴抽出部によって抽出された前記空範疇の位置の候補の前記特徴、前記特徴から低次元空間への写像、及び前記空範疇ラベルから前記低次元空間への写像に基づいて算出されるスコアが最大となる、前記空範疇の位置の候補及び前記空範疇ラベルの組み合わせを、前記空範疇の位置及び前記空範疇ラベルの推定結果とする請求項1又は2記載の空範疇推定装置。   The estimation unit is based on the features of the position category candidates extracted by the feature extraction unit, the mapping from the features to a low-dimensional space, and the mapping from the sky category label to the low-dimensional space. 3. The empty category estimation according to claim 1 or 2, wherein a combination of the empty category position candidate and the empty category label having a maximum calculated score is the estimation result of the empty category position and the empty category label. apparatus. 省略又は移動により生じた名詞的語句である空範疇の位置及び空範疇ラベルが付与された複数のテキストの各々について、前記テキストの依存構造木に基づいて、空範疇の位置の候補の各々に対し、前記空範疇の位置の候補の特徴として、単語の分散表現を抽出する特徴抽出部と、
前記特徴抽出部によって前記複数のテキストの各々について抽出された前記空範疇の位置の候補の各々の前記特徴と、前記複数のテキストの各々に付与された前記空範疇の位置及び空範疇ラベルとに基づいて、前記特徴から低次元空間への写像、及び空範疇ラベルの各々から前記低次元空間への写像を含むモデルを学習する学習部と、
を含む空範疇推定モデル学習装置。
For each of a plurality of texts to which the empty category position and empty category label, which are noun phrases generated by omission or movement, are assigned to each of the empty category position candidates based on the dependency structure tree of the text. A feature extraction unit that extracts a distributed representation of a word as a candidate feature of the position of the empty category;
The feature of each of the candidate empty category positions extracted for each of the plurality of texts by the feature extraction unit, and the empty category position and empty category label assigned to each of the plurality of texts. A learning unit for learning a model including a mapping from the feature to a low-dimensional space and a mapping from each empty category label to the low-dimensional space;
Sky category estimation model learning device including.
前記特徴抽出部は、前記空範疇の位置の候補の特徴として、前記空範疇の位置の候補の主辞単語の分散表現、前記空範疇の位置の候補に後続する後続単語の分散表現、前記依存構造木における、前記後続単語に対応するノードの子ノードが表す単語の分散表現、及び前記依存構造木における、ルートノードから前記空範疇の位置の候補までの経路上の各単語の分散表現の少なくとも1つを抽出する請求項4記載の空範疇推定モデル学習装置。   The feature extraction unit includes, as the feature of the candidate for the empty category position, a distributed representation of the main word of the candidate for the empty category position, a distributed expression of the subsequent word following the candidate for the empty category position, and the dependency structure At least one of a distributed representation of a word represented by a child node of a node corresponding to the subsequent word in the tree, and a distributed representation of each word on a path from a root node to the candidate for the empty category in the dependency structure tree The empty category estimation model learning device according to claim 4, wherein one is extracted. 特徴抽出部及び推定部を含み、入力テキストから、省略又は移動により生じた名詞的語句である空範疇を推定するための空範疇推定装置における空範疇推定方法であって、
前記特徴抽出部が、前記入力テキストの依存構造木に基づいて、空範疇の位置の候補の各々に対し、前記空範疇の位置の候補の特徴として、単語の分散表現を抽出し、
前記推定部が、予め学習された、前記特徴から低次元空間への写像、及び空範疇ラベルの各々から前記低次元空間への写像を含むモデルと、前記特徴抽出部によって抽出された前記空範疇の位置の候補の各々の前記特徴とに基づいて、前記空範疇の位置及び前記空範疇ラベルを推定する
空範疇推定方法。
An empty category estimation method in an empty category estimation device for estimating an empty category, which is a noun phrase generated by omission or movement, from an input text, including a feature extraction unit and an estimation unit,
The feature extraction unit extracts, based on the dependency structure tree of the input text, for each of the candidates for the position of the empty category, as a feature of the candidate for the position of the empty category, a distributed expression of the word,
The estimation unit learns in advance a model including a mapping from the feature to the low-dimensional space and a mapping from each empty category label to the low-dimensional space, and the empty category extracted by the feature extracting unit. An empty category estimation method for estimating the position of the empty category and the empty category label based on the characteristics of each of the candidate positions.
特徴抽出部及び学習部を含む空範疇推定モデル学習装置における空範疇推定モデル学習方法であって、
前記特徴抽出部が、省略又は移動により生じた名詞的語句である空範疇の位置及び空範疇ラベルが付与された複数のテキストの各々について、前記テキストの依存構造木に基づいて、空範疇の位置の候補の各々に対し、前記空範疇の位置の候補の特徴として、単語の分散表現を抽出し、
前記学習部が、前記特徴抽出部によって前記複数のテキストの各々について抽出された前記空範疇の位置の候補の各々の前記特徴と、前記複数のテキストの各々に付与された前記空範疇の位置及び空範疇ラベルとに基づいて、前記特徴から低次元空間への写像、及び空範疇ラベルの各々から前記低次元空間への写像を含むモデルを学習する
空範疇推定モデル学習方法。
An empty category estimation model learning method in an empty category estimation model learning device including a feature extraction unit and a learning unit,
For each of a plurality of texts to which a null category label and a null category label, which are noun phrases generated by omission or movement, are extracted by the feature extraction unit based on the text dependency structure tree. For each of the candidates, extract a distributed representation of the word as a feature of the candidate for the position of the empty category,
The learning unit extracts the feature of each of the candidate empty category positions extracted for each of the plurality of texts by the feature extracting unit, the position of the empty category assigned to each of the plurality of texts, and An empty category estimation model learning method that learns a model including a mapping from the feature to a low-dimensional space and a mapping from each empty category label to the low-dimensional space based on the empty category label.
コンピュータを、請求項1〜請求項3の何れか1項記載の空範疇推定装置、又は請求項4又は5記載の空範疇推定モデル学習装置の各部として機能させるためのプログラム。   A program for causing a computer to function as each unit of the empty category estimation device according to any one of claims 1 to 3 or the empty category estimation model learning device according to claim 4 or 5.
JP2015103963A 2015-05-21 2015-05-21 Sky category estimation device, sky category estimation model learning device, method, and program Active JP6381136B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015103963A JP6381136B2 (en) 2015-05-21 2015-05-21 Sky category estimation device, sky category estimation model learning device, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015103963A JP6381136B2 (en) 2015-05-21 2015-05-21 Sky category estimation device, sky category estimation model learning device, method, and program

Publications (2)

Publication Number Publication Date
JP2016218806A true JP2016218806A (en) 2016-12-22
JP6381136B2 JP6381136B2 (en) 2018-08-29

Family

ID=57581098

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015103963A Active JP6381136B2 (en) 2015-05-21 2015-05-21 Sky category estimation device, sky category estimation model learning device, method, and program

Country Status (1)

Country Link
JP (1) JP6381136B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017091155A (en) * 2015-11-09 2017-05-25 日本電信電話株式会社 Empty category detection device, empty category detection model learning device, method, and program

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1185749A (en) * 1997-09-10 1999-03-30 Atr Onsei Honyaku Tsushin Kenkyusho:Kk Japanese sentence abbreviated element interpolation device
JP2005025659A (en) * 2003-07-01 2005-01-27 Nippon Telegr & Teleph Corp <Ntt> Zero pronoun resolving method, device and program, and recording medium to which the program is recorded
US20130185049A1 (en) * 2012-01-12 2013-07-18 International Business Machines Corporation Predicting Pronouns for Pro-Drop Style Languages for Natural Language Translation
JP2014010778A (en) * 2012-07-02 2014-01-20 Nippon Telegr & Teleph Corp <Ntt> Recognition model learning device, recognition device, method, and program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1185749A (en) * 1997-09-10 1999-03-30 Atr Onsei Honyaku Tsushin Kenkyusho:Kk Japanese sentence abbreviated element interpolation device
JP2005025659A (en) * 2003-07-01 2005-01-27 Nippon Telegr & Teleph Corp <Ntt> Zero pronoun resolving method, device and program, and recording medium to which the program is recorded
US20130185049A1 (en) * 2012-01-12 2013-07-18 International Business Machines Corporation Predicting Pronouns for Pro-Drop Style Languages for Natural Language Translation
JP2014010778A (en) * 2012-07-02 2014-01-20 Nippon Telegr & Teleph Corp <Ntt> Recognition model learning device, recognition device, method, and program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017091155A (en) * 2015-11-09 2017-05-25 日本電信電話株式会社 Empty category detection device, empty category detection model learning device, method, and program

Also Published As

Publication number Publication date
JP6381136B2 (en) 2018-08-29

Similar Documents

Publication Publication Date Title
CN108182295B (en) Enterprise knowledge graph attribute extraction method and system
CN111914568B (en) Method, device and equipment for generating text sentence and readable storage medium
CN108959242B (en) Target entity identification method and device based on part-of-speech characteristics of Chinese characters
EP3258390A1 (en) Meaning generation method, meaning generation apparatus, and storage medium
CN106778878B (en) Character relation classification method and device
CN110851641B (en) Cross-modal retrieval method and device and readable storage medium
CN109783812B (en) Chinese named entity recognition method, system and device based on self-attention mechanism
CN111401084A (en) Method and device for machine translation and computer readable storage medium
CN110472062B (en) Method and device for identifying named entity
KR20180094664A (en) Method for information extraction from text data and apparatus therefor
CN113128203A (en) Attention mechanism-based relationship extraction method, system, equipment and storage medium
US11669740B2 (en) Graph-based labeling rule augmentation for weakly supervised training of machine-learning-based named entity recognition
JP6558863B2 (en) Model creation device, estimation device, method, and program
JP6145059B2 (en) Model learning device, morphological analysis device, and method
JP5441937B2 (en) Language model learning device, language model learning method, language analysis device, and program
CN104317882A (en) Decision-based Chinese word segmentation and fusion method
JP6291440B2 (en) Parameter learning method, apparatus, and program
JP2016224483A (en) Model learning device, method and program
JP6467893B2 (en) Information processing system, information processing method, and program
JP6381136B2 (en) Sky category estimation device, sky category estimation model learning device, method, and program
CN113761151A (en) Synonym mining method, synonym mining device, synonym question answering method, synonym question answering device, computer equipment and storage medium
JP6062829B2 (en) Dependency relationship analysis parameter learning device, dependency relationship analysis device, method, and program
CN113312918A (en) Word segmentation and capsule network law named entity identification method fusing radical vectors
JP5694893B2 (en) Optimal translation selection device, translation selection model learning device, method, and program
JP2017078919A (en) Word expansion device, classification device, machine learning device, method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170621

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180501

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180522

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180711

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180724

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180730

R150 Certificate of patent or registration of utility model

Ref document number: 6381136

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150