JP6291440B2 - Parameter learning method, apparatus, and program - Google Patents
Parameter learning method, apparatus, and program Download PDFInfo
- Publication number
- JP6291440B2 JP6291440B2 JP2015040409A JP2015040409A JP6291440B2 JP 6291440 B2 JP6291440 B2 JP 6291440B2 JP 2015040409 A JP2015040409 A JP 2015040409A JP 2015040409 A JP2015040409 A JP 2015040409A JP 6291440 B2 JP6291440 B2 JP 6291440B2
- Authority
- JP
- Japan
- Prior art keywords
- learning
- subtree
- column
- document
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、パラメータ学習方法、装置、及びプログラムに関する。 The present invention relates to a parameter learning method, apparatus, and program.
修辞構造理論(Rhetorical Structure Theory:RST)とは文書の論理構造(修辞構造)を捉えるための理論である(例えば、非特許文献1)。RSTに基づく修辞構造を表わした木のことを修辞構造木(Rhetorical Structure Theory based Discourse Tree:RST−DT)と呼ぶ。RST−DTの例を図9に示す。また、アノテーションが付与されていない生テキストに修辞構造木を付与することを談話構造解析と呼ぶ。与えられた文書は談話構造における最小の単位(Elementary Discourse Unit:EDU)に分割される(図9ではe1からe10までがそれに対応)。各EDUには衛星(Satellite:S)または核(Nuclues:N)というラベルが付与され、Sは必ずNを修飾するという関係がある。また、SとN、NとNの間には修辞関係を表わすラベルが付与される。例えば、e1とe2の間には「Background」という関係ラベルが付与される。 Rhetorical Structure Theory (RST) is a theory for capturing the logical structure (rhetorical structure) of a document (for example, Non-Patent Document 1). A tree representing a rhetorical structure based on RST is referred to as a rhetorical structure theory based discourse tree (RST-DT). An example of RST-DT is shown in FIG. Also, giving a rhetorical structure tree to a raw text to which no annotation is given is called discourse structure analysis. The given document is divided into the minimum units (Elementary Discourse Unit: EDU) in the discourse structure (in FIG. 9, the range from e1 to e10 corresponds to it). Each EDU is assigned a label of satellite (Stellite: S) or nucleus (Nuclues: N), and S always has a relationship of modifying N. Further, labels representing rhetorical relationships are assigned between S and N and between N and N. For example, a relation label “Background” is assigned between e 1 and e 2 .
RST−DTでは文書全体が一つのノードになるまで、ノード間に付与されたNまたはSのラベル、修辞関係のラベルを一つのノードとし、ラベルの付与とノードの生成を再帰的に行なう。Rootは文書全体を表わす仮想的なノードである。 In the RST-DT, until the entire document becomes one node, the N or S label given between the nodes and the rhetorical label are used as one node, and the label assignment and the node generation are performed recursively. Root is a virtual node that represents the entire document.
文書が与えられた際にRST−DTへと解析するアルゴリズムの代表的なものとしてHILDA(例えば、非特許文献2)がある。HILDAは貪欲法を用いた最易優先探索手法の一つであり、以下の手続きを用いて与えられた文をRST−DTへと解析する。 HILDA (for example, Non-Patent Document 2) is a representative algorithm for analyzing a RST-DT when a document is given. HILDA is one of the most prioritized search methods using the greedy method, and analyzes a given sentence into RST-DT using the following procedure.
(ステップ1)与えられた文書をEDUに区切る。 (Step 1) A given document is divided into EDUs.
(ステップ2)隣り合うノードの中でどれが最も結合しやすいかSupport Vector Machine を用いて決定し、ラベルを付与した上で隣り合うノードを一つのノードに結合する。 (Step 2) Support Vector Machine is used to determine which of the adjacent nodes is most likely to be combined, and the adjacent nodes are combined into one node after giving a label.
(ステップ3)全体が一つのノードであれば結合された木を返し、そうでなければステップ2へ戻る。
(Step 3) If the entire node is a single node, the combined tree is returned; otherwise, the process returns to
しかし、HILDAに代表される従来の談話構造解析技術は、探索誤りにあまり頑健ではない。例えば、上記図9においてe5とe6との間の関係を「Elaboration」と付与してしまうと、さらにe4と結合した際に修辞構造ラベル「Contrast」を正しく付与できなくなる恐れがある。 However, conventional discourse structure analysis techniques represented by HILDA are not very robust against search errors. For example, if the relationship between e5 and e6 in FIG. 9 is given as “Elaboration”, the rhetorical structure label “Contrast” may not be given correctly when it is further combined with e4.
本発明は、上記の事情を鑑みてなされたもので、談話構造解析を精度よく行うためのパラメータを得ることができるパラメータ学習方法、装置、及びプログラムを提供することを目的とする。 The present invention has been made in view of the above circumstances, and an object thereof is to provide a parameter learning method, apparatus, and program capable of obtaining parameters for accurately performing discourse structure analysis.
上記の目的を達成するために本発明のパラメータ学習方法は、学習用入力部、パラメータ学習部、及び反復判定部を含むパラメータ学習装置におけるパラメータ学習方法であって、前記学習用入力部が、複数の学習用文書の各々について、前記学習用文書内の文字列単位の各々と、ルートノードが前記学習用文書の全体を表し、かつ前記学習用文書のうちの少なくとも1つの文字列単位の系列の各々を各ノードとした階層構造を表し、かつ、前記文字列単位の系列間の修飾関係及び関係ラベルを表した、前記学習用文書の文字列単位の系列の各々の修辞構造に基づく修辞構造木であって、かつ前記学習用文書に対応する正解の前記修辞構造木の各々とを受け付けると、前記パラメータ学習部が、複数の学習用文書の各々について、前記正解の修辞構造木に含まれる部分木の列と、前記部分木の列から抽出される特徴量ベクトルに対する重みベクトルを用いて選択される、前記学習用文書に対応する前記修辞構造木の部分木の列とのペアのうち、前記特徴量ベクトルと前記重みベクトルとを用いて算出されるスコアの差分が最大となる、前記正解の修辞構造木に含まれる部分木の列と、前記学習用文書に対応する前記修辞構造木の部分木の列とのペアに含まれる前記部分木の列の各々から抽出される特徴ベクトルに基づいて、前記重みベクトルを更新するステップと、前記反復判定部が、予め定められた回数だけ、前記パラメータ学習部による更新を繰り返すステップと、を含む。 In order to achieve the above object, a parameter learning method of the present invention is a parameter learning method in a parameter learning device including a learning input unit, a parameter learning unit, and an iterative determination unit, wherein the learning input unit includes a plurality of learning input units. For each of the learning documents, each of the character string units in the learning document, a root node representing the whole of the learning document, and a sequence of at least one character string unit of the learning documents A rhetorical structure tree based on the rhetorical structure of each sequence of character strings in the learning document, representing a hierarchical structure with each node as a node, and representing a modification relationship and a relationship label between the sequences of character strings. And when each of the correct rhetorical structure trees corresponding to the learning document is received, the parameter learning unit performs the correct answer for each of a plurality of learning documents. A column of subtrees included in the rhetorical structure tree and a subtree of the rhetorical structure tree corresponding to the learning document selected using a weight vector for a feature vector extracted from the column of the subtree Corresponding to the column of subtrees included in the correct rhetorical structure tree, the score difference calculated using the feature vector and the weight vector being maximized, and the learning document Updating the weight vector based on a feature vector extracted from each of the subtree columns included in a pair with the subtree column of the rhetorical structure tree, and the iteration determination unit is predetermined. Repeating the updating by the parameter learning unit a predetermined number of times.
本発明のパラメータ学習装置は、複数の学習用文書の各々について、前記学習用文書内の文字列単位の各々と、ルートノードが前記学習用文書の全体を表し、かつ前記学習用文書のうちの少なくとも1つの文字列単位の系列の各々を各ノードとした階層構造を表し、かつ、前記文字列単位の系列間の修飾関係及び関係ラベルを表した、前記学習用文書の文字列単位の系列の各々の修辞構造に基づく修辞構造木であって、かつ前記学習用文書に対応する正解の前記修辞構造木の各々とを受け付ける入力部と、複数の学習用文書の各々について、前記正解の修辞構造木に含まれる部分木の列と、前記部分木の列から抽出される特徴量ベクトルに対する重みベクトルを用いて選択される、前記学習用文書に対応する前記修辞構造木の部分木の列とのペアのうち、前記特徴量ベクトルと前記重みベクトルとを用いて算出されるスコアの差分が最大となる、前記正解の修辞構造木に含まれる部分木の列と、前記学習用文書に対応する前記修辞構造木の部分木の列とのペアに含まれる前記部分木の列の各々から抽出される特徴ベクトルに基づいて、前記重みベクトルを更新するパラメータ学習部と、予め定められた回数だけ、前記パラメータ学習部による更新を繰り返す反復判定部と、を含んで構成されている。 The parameter learning device according to the present invention includes, for each of a plurality of learning documents, each of the character string units in the learning document, a root node representing the whole learning document, and among the learning documents, A sequence of at least one character string unit representing a hierarchical structure with each node as a node, and a modification relationship between the character string unit sequences and a relationship label; A rhetorical structure tree based on each rhetorical structure and receiving each correct rhetorical structure tree corresponding to the learning document; and for each of a plurality of learning documents, the correct rhetorical structure A sequence of subtrees included in the tree, and a sequence of subtrees of the rhetorical structure tree corresponding to the learning document, selected using a weight vector for a feature vector extracted from the sequence of subtrees. Among the subtrees included in the correct rhetorical structure tree, the difference between the scores calculated using the feature vector and the weight vector is maximized, and the document corresponding to the learning document A parameter learning unit that updates the weight vector based on a feature vector extracted from each of the subtree columns included in a pair with a subtree column of the rhetorical structure tree, and a predetermined number of times, An iterative determination unit that repeats updating by the parameter learning unit.
また、本発明の前記パラメータ学習部は、前記正解の修辞構造木に含まれる部分木の列に対して、前回選択された部分木の列において隣り合う部分木のペアを結合して生成される、前記正解の修辞構造木に含まれる部分木の列の集合のうち、前記部分木の列から抽出される前記特徴量ベクトルと前記重みベクトルとを用いて算出されるスコアが最大となる部分木の列を選択し、前記学習用文書に対応する前記修辞構造木の部分木の列に対して、前回選択された部分木の列の各々において、隣り合う部分木のペアを結合して生成される部分木の列の集合のうち、前記部分木の列から抽出される前記特徴量ベクトルと前記重みベクトルとを用いて算出されるスコアが上位k個となる部分木の列を選択し、前記正解の修辞構造木に含まれる部分木の列に対して選択された部分木の列と、前記学習用文書に対応する前記修辞構造木の部分木の列に対して選択された上位k個となる部分木の列の各々とのペアを生成することを繰り返し、前記生成されたペアのうち、前記特徴量ベクトルと前記重みベクトルとを用いて算出されるスコアの差分が最大となる、前記正解の修辞構造木に含まれる部分木の列と、前記学習用文書に対応する前記修辞構造木の部分木の列とのペアに含まれる前記部分木の列の各々から抽出される特徴ベクトルに基づいて、前記重みベクトルを更新するようにすることができる。 Further, the parameter learning unit of the present invention is generated by combining a subtree sequence included in the correct rhetorical tree with a pair of adjacent subtrees in the previously selected subtree sequence. , Of the set of subtrees included in the correct rhetorical structure tree, the subtree having the maximum score calculated using the feature vector and the weight vector extracted from the subtree sequence Generated by combining adjacent subtree pairs in each of the subtree columns selected previously with respect to the subtree column of the rhetorical structure tree corresponding to the learning document. Selecting a row of subtrees having the top k scores calculated using the feature vector and the weight vector extracted from the subtree column, Subtrees included in the correct rhetorical structure tree Generates a pair of a subtree column selected with respect to each of the top k subtree columns selected for the subtree column of the rhetorical structure tree corresponding to the learning document. A sequence of subtrees included in the correct rhetorical structure tree in which the difference between the scores calculated using the feature vector and the weight vector among the generated pairs is maximized; The weight vector is updated based on a feature vector extracted from each of the subtree columns included in a pair with the subtree column of the rhetorical structure tree corresponding to the learning document. Can do.
本発明のプログラムは、コンピュータを、本発明の談話構造解析装置の各部として機能させるためのプログラムである。 The program of this invention is a program for functioning a computer as each part of the discourse structure analysis apparatus of this invention.
以上説明したように、本発明のパラメータ学習方法、装置、及びプログラムによれば、複数の学習用文書の各々について、正解の修辞構造木に含まれる部分木の列と、部分木の列から抽出される特徴量ベクトルに対する重みベクトルを用いて選択される、学習用文書に対応する修辞構造木の部分木の列とのペアのうち、特徴量ベクトルと重みベクトルとを用いて算出されるスコアの差分が最大となる、正解の修辞構造木に含まれる部分木の列と、学習用文書に対応する修辞構造木の部分木の列とのペアに含まれる部分木の列の各々から抽出される特徴ベクトルに基づいて、重みベクトルを更新することにより、談話構造解析を精度よく行うためのパラメータを得ることができる、という効果が得られる。 As described above, according to the parameter learning method, apparatus, and program of the present invention, each of a plurality of learning documents is extracted from the subtree sequence included in the correct rhetorical structure tree and the subtree sequence. Of the score calculated using the feature vector and the weight vector out of the pair of the subtree of the rhetorical structure tree corresponding to the learning document, which is selected using the weight vector for the feature vector Extracted from each of the subtree columns included in the pair of the subtree included in the correct rhetorical tree with the maximum difference and the subtree column corresponding to the learning document. By updating the weight vector based on the feature vector, it is possible to obtain an effect that a parameter for performing discourse structure analysis with high accuracy can be obtained.
<概要>
まず、本発明の実施の形態の概要について説明する。本発明の実施の形態は、与えられた文書中の文法的な要素間の談話構造の解析に関する。この技術はアノテーションが付与されていない文書全体の文法的な要素の間の談話構造を木として解析する技術である。本発明の実施の形態のポイントは、談話構造解析における最易優先探索をビーム探索に拡張し、探索誤りに頑健にした点と、最易優先探索をビーム探索に拡張してパラメータを学習する点である。
<Overview>
First, an outline of an embodiment of the present invention will be described. Embodiments of the present invention relate to the analysis of discourse structures between grammatical elements in a given document. This technique is a technique for analyzing a discourse structure between grammatical elements of an entire document without an annotation as a tree. The point of the embodiment of the present invention is that the most prioritized search in discourse structure analysis is extended to beam search and robust to search errors, and the easiest priority search is extended to beam search to learn parameters. It is.
本発明に係る実施の形態は、談話構造をより正確に捉えるためにビーム探索を用いた談話構造解析を行なう。既存手法であるHILDAは貪欲法に基づいた方法であり、ある時点での決定(例えば、上記図9におけるe5とe6とを結合し、「Evidence」のラベルを付与する、など) を誤るとそれ以降の決定にも悪影響を及ぼす恐れがある。そこで本発明の実施の形態では、貪欲法であるHILDAにビーム探索を用いることで探索誤りを減らす。本発明の実施の形態は、最適なパラメータを学習する段階と、最適なパラメータを使って入力された文書の談話構造を解析する段階との二つに分かれる。 The embodiment according to the present invention performs a discourse structure analysis using beam search in order to capture a discourse structure more accurately. HILDA, which is an existing method, is a method based on the greedy method, and if a decision at a certain point in time (for example, combining e5 and e6 in FIG. 9 above and giving the label “Evidence”, etc.) It may adversely affect subsequent decisions. Therefore, in the embodiment of the present invention, search errors are reduced by using beam search for HILDA which is a greedy method. The embodiment of the present invention is divided into two steps: a step of learning an optimum parameter and a step of analyzing a discourse structure of a document input using the optimum parameter.
まず、最適なパラメータを学習する段階について説明する。この段階では、談話構造アノテーション済みの文書から抽出された特徴量ベクトルと初期パラメータをパラメータ学習部の入力とする。パラメータ学習部では談話構造解析を行なうのに最適なパラメータを学習し、そのパラメータを学習済みパラメータとして出力する。 First, the step of learning the optimum parameter will be described. At this stage, the feature vector and the initial parameter extracted from the discourse structure annotated document are input to the parameter learning unit. The parameter learning unit learns the optimum parameters for the discourse structure analysis and outputs the parameters as learned parameters.
次に、最適なパラメータを使って入力された文書の談話構造を解析する段階について説明する。この段階では、入力された文書を、EDUの単位に分割する。次にEDUの列から特徴量ベクトルを抽出し、前段階で得られた学習済みパラメータと共に談話構造解析部に渡される。談話構造解析部では、それらを元に入力された文書に対し、談話構造解析の結果として、RST−DTを出力する。 Next, the stage of analyzing the discourse structure of the input document using optimum parameters will be described. At this stage, the input document is divided into EDU units. Next, a feature vector is extracted from the EDU column, and is passed to the discourse structure analysis unit together with the learned parameters obtained in the previous stage. The discourse structure analysis unit outputs RST-DT as a result of the discourse structure analysis for the documents input based on them.
ここで、RST−DTとは、ルートノードが文書の全体を表し、かつ文書のうちの少なくとも1つの文字列単位の系列の各々を各ノードとした階層構造を表し、かつ、文字列単位の系列間の修飾関係及び関係ラベルを表した、文書の文字列単位の系列の各々の修辞構造に基づく修辞構造木である。
また、RST−DTの文字列単位は、文書中の最小の単位(Elementary Discourse Unit:EDU)に対応する。
Here, RST-DT represents a hierarchical structure in which the root node represents the entire document, and each of at least one character string unit sequence of the document is a node, and the character string unit sequence. It is a rhetorical structure tree based on the rhetorical structure of each series of character string units of a document, which represents a modification relationship and a relation label between them.
The character string unit of RST-DT corresponds to the smallest unit (Elementary Discourse Unit: EDU) in the document.
<談話構造解析装置のシステム構成>
以下、図面を参照して本発明の実施の形態を詳細に説明する。図1は、本発明の実施の形態の談話構造解析装置100を示すブロック図である。談話構造解析装置100は、CPUと、RAMと、談話構造解析処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
<System configuration of discourse structure analyzer>
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. FIG. 1 is a block diagram showing a discourse
本実施の形態の談話構造解析装置100は、図1に示すように、入力部10と、パラメータデータベース20と、演算部30と、出力部40とを備えている。
As shown in FIG. 1, the discourse
談話構造解析装置100では、解析対象の文書が入力されると、当該文書の談話構造解析を行う。
In the discourse
入力部10は、解析対象の文書の入力を受け付ける。なお、入力される文書は、少なくとも1文を含む文書である。
The
パラメータデータベース20には、後述するパラメータ学習装置200によって学習された重みベクトルwが格納されている。
The
演算部30は、入力部10により受け付けた、解析対象の文書について談話構造解析を行う。また、演算部30は、EDU分割部32と、特徴抽出部34と、談話構造解析部36とを備えている。
The
EDU分割部32は、入力部10により受け付けた解析対象の文書をEDUに分割する。例えば、EDU分割部32は、文書中の各単語間でSVMなどの分類器を用いて、区切れるか区切れないかを判断させ、文書をEDUに分割したものを出力する。
The
特徴抽出部34は、EDU分割部32によって得られたEDUの列である部分木の列、又は後述する談話構造解析部36によって生成された部分木の列から、特徴量ベクトルを抽出する。例えば、特徴抽出部34は、RST−DTの部分木の列Sから2つのRST−DTの部分木Si、Si+1を結合する際の特徴量ベクトルをf(S)とする。特徴量ベクトルのうち、代表的なものを以下に挙げる。
The
(1)RST−DTの部分木Siに含まれる単語数が5以下であるか。
(2)RST−DTの部分木Si、Si+1が同じ文に含まれるか。
(3)RST−DTの部分木Siの先頭が「Because」で始まるか。
(4)RST−DTの部分木Si、Si+1が含むEDUの個数。
(5)RST−DTの部分木Siの主辞の品詞が動詞であるか。
(6)RST−DTの部分木Si+1の一番上のノードの修辞関係ラベルが「Evidence」であるか。
(1) Whether the number of words included in the subtree S i of RST-DT is 5 or less.
(2) Whether subtrees S i and S i + 1 of RST-DT are included in the same sentence.
(3) Whether the head of the subtree S i of RST-DT starts with “Because”.
(4) The number of EDUs included in the subtrees S i and S i + 1 of the RST-DT.
(5) whether the part of speech of the head word of the RST-DT subtree S i of a verb.
(6) Is the rhetorical relation label of the top node of the subtree S i + 1 of the RST-DT “Evidence”?
例えば、上記図9において、RST−DTの部分木の列[e1,e2,e3,e4,e5−6,e7,e8,e9,e10]をSとし、e4とe5−6を結合する際の特徴量がどのようなものになるかを説明する。ここで、e5−6はe5とe6とを修辞構造ラベル「Evidence」で結合したノードを表わす。e4の実際のテキストは「Only the midday sun at tropical latitudes is warm enough to thaw ice on occasion,」、e5−6の実際のテキストは「but any liquid water formed that way would evaporate almost instantly because of the low atmospheric pressure.」であるとする。このとき、e4とe5−6を結合する際の特徴量(関係ラベルは「Contrast」)は For example, in FIG. 9 above, the column [e1, e2, e3, e4, e5-6, e7, e8, e9, e10] of the RST-DT sub-tree is S, and e4 and e5-6 are combined. The feature amount will be described. Here, e5-6 represents a node obtained by combining e5 and e6 with the rhetorical structure label “Evidence”. The actual text of e4 is "Only the midday sun at tropical latitudes is warm enough to thaw ice on occasion," and the actual text of e5-6 is "but any liquid water formed that way would evaporate almost instantly because of the low atmospheric pressure. " At this time, the characteristic amount (relation label is “Contrast”) when combining e4 and e5-6 is
(1)e4に含まれる単語数は16個なので、単語数は5個より大きい。
(2)e4とe5−6は同じ文に含まれる。
(3)e4の先頭は「Because」で始まらない。
(4)e4とe5−6が含むEDUの個数は3個。
(5)e4の主辞の品詞が動詞である。
(6)e5−6の一番上のノードの修辞関係ラベルは「Evidence」である。
であることからf(S)=[0,1,0,3,1,1]となる。
(1) Since the number of words included in e4 is 16, the number of words is larger than 5.
(2) e4 and e5-6 are included in the same sentence.
(3) The beginning of e4 does not start with “Because”.
(4) The number of EDUs included in e4 and e5-6 is three.
(5) The part of speech of e4 is the verb.
(6) The rhetoric label of the top node of e5-6 is “Evidence”.
Therefore, f (S) = [0, 1, 0, 3, 1, 1].
談話構造解析部36は、EDUの列である部分木の列又は前回生成された部分木の列に基づき生成される、複数の部分木の列の各々について、パラメータデータベース20に格納された重みベクトルwと、特徴抽出部34によって抽出された特徴量ベクトルf(S)とに基づいて、部分木の列に対するスコアを算出する。そして、談話構造解析部36は、複数の部分木の列の各々に対するスコアの各々に基づいて、スコアが上位k個となる部分木の列の各々を配列beamに格納する。
The discourse
具体的には、談話構造解析部36は、以下の式(1)に示す関数expandに従って、RST−DTの部分木の列から新たにRST−DTの部分木の列を列挙する。
Specifically, the discourse
ここで、修辞関係ラベルの集合をL、RST−DTの部分木を含む列をS、核または衛星のペアの集合をNS={(Nucleus,Satellite),(Satellite,Nucleus),(Nucleus,Nucleus)}と定義する。関数buildは入力として、Sとインデックスi∈{1,…,length(S)−1}、修辞関係ラベルl∈L,核または衛星のペア(ns1,ns2)∈NSを受け取る。また、関数buildは出力として、2つのRST−DTの部分木Si、Si+1を結合した新たなRST−DTの部分木を返す。その際に修辞関係ラベルlと核または衛星とのペアを付与する。
Here, the set of rhetorical relation labels is L, the sequence including the subtree of RST-DT is S, the set of pairs of nuclei or satellites is NS = {(Nucleus, Satellite), (Satellite, Nucleus), (Nucleus, Nucleus) )}. The function build receives as inputs S and an index iε {1,..., Length (S) −1}, rhetorical relationship label lεL, a nucleus or satellite pair (ns1, ns2) εNS. Also, the function build returns a new RST-DT subtree obtained by combining two RST-DT subtrees Si and Si + 1. At that time, a pair of
談話構造解析部36の具体的な処理の内容を表す擬似コードを図2に示す。関数topk(Z)はRST−DTの部分木の列の集合(Z)から、スコア上位k個の候補を保持する関数である。それぞれのRST−DTの部分木の列z∈Zは、重みベクトルwと、zから抽出された特徴量ベクトルとの内積をスコアとして保持する。
FIG. 2 shows a pseudo code representing the specific processing contents of the discourse
上記図2に示すAlgorithm1は重みベクトルwとEDUに分割された文書x=[e1,e2,・・・,en]を入力とする。談話構造解析部36では、関数expandで部分木の列の候補を展開しながら、以下の式(2)に従って、配列beamに、スコア上位k個の部分木の列の候補を保持する。なお、配列beamは2次元配列であり、beam[i]には、スコアが上位i番目の部分木の列が格納された配列が格納される。すなわち、beam[i][j]には、スコアが上位i番目の部分木の列のうち、j番目の部分木が格納される。
最終的に得られたbeam[0][0]に、最もスコアが高い1つの木、すなわちRST−DTが格納される。また、談話構造解析部36は、最終的に得られたbeam[0][0]を、解析結果となるRST−DTとして出力する。
The finally obtained beam [0] [0] stores one tree having the highest score, that is, RST-DT. The discourse
出力部40は、談話構造解析部36で出力されたRST−DTを解析結果として出力する。
The
重みベクトルwが既知であれば、上記図2に示したAlgorithm1を用いてビーム探索を用いた最易探索に基づく談話構造解析を行なうことができる。しかし、重みベクトルwは既知ではない。そこで、本実施の形態では、構造化パーセプトロンに基づき、重みベクトルwを求める。構造化パーセプトロンは学習アルゴリズムの一例である。
If the weight vector w is known, the discourse structure analysis based on the easy search using the beam search can be performed using
<パラメータ学習装置のシステム構成>
図3は、本発明の実施の形態のパラメータ学習装置200を示すブロック図である。このパラメータ学習装置200は、CPUと、RAMと、後述するパラメータ学習処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
<System configuration of parameter learning device>
FIG. 3 is a block diagram illustrating the
学習用入力部50は、複数の学習データの入力を受け付ける。具体的には、学習用入力部50は、複数の学習用文書の各々について、当該学習用文書内のEDUの各々と、当該学習用文書に対応する正解のRST−DTとの組み合わせを、学習データとして受け付ける。
The learning
学習用演算部60は、学習用入力部50により受け付けた複数の学習データに基づいて、談話構造解析をするための重みベクトルwを学習する。学習用演算部60は、学習データベース62と、学習用特徴抽出部64と、パラメータ学習部66と、反復判定部68とを備えている。
The learning
学習データベース62には、学習用入力部50により受け付けた複数の学習データが格納される。
The
学習用特徴抽出部64は、学習データベース62に格納された複数の学習データの各々に含まれるEDUの列である部分木の列、又は後述するパラメータ学習部66によって生成された部分木の列から、特徴抽出部34と同様に、特徴量ベクトルを抽出する。
The learning
パラメータ学習部66は、学習データについて、正解のRST−DTに含まれる部分木の列と、部分木の列から抽出される特徴量ベクトルに対する重みベクトルwを用いて選択される、当該学習用文書に対応するRST−DTの部分木の列とのペアを生成する。そして、パラメータ学習部66は、生成されたペアの各々のうち、特徴量ベクトルと重みベクトルwとを用いて算出されるスコアの差分が最大となる、正解のRST−DTに含まれる部分木の列と、学習用文書に対応するRST−DTの部分木の列とのペアに含まれる部分木の列の各々から抽出される特徴ベクトルに基づいて、重みベクトルwを更新する。パラメータ学習部66は、上記の処理を、複数の学習データの各々について繰り返す。
The
ここで、パラメータ学習部66の処理の詳細について説明する。まず、パラメータ学習部66は、図4に示すAlgorithm2に従って、特徴量ベクトルと重みベクトルwとを用いて算出されるスコアの差分が最大となる、正解のRST−DTに含まれる部分木の列と、学習用文書に対応するRST−DTの部分木の列とのペアを選択する。
Here, details of the processing of the
具体的には、パラメータ学習部66は、以下の式(3)に従って、正解のRST−DTに含まれる部分木の列に対して、パラメータ学習部66によって前回選択された部分木の列において隣り合う部分木のペアを1つだけ結合して生成される、正解のRST−DTに含まれる部分木の列の集合のうち、学習用特徴抽出部64によって部分木の列から抽出される特徴量ベクトルf(o)と、重みベクトルwとを用いて算出されるスコアが最大となる部分木の列を選択する。ここで、正解のRST−DTに含まれる部分木の列をオラクルoと称する。
Specifically, the
次に、パラメータ学習部66は、上記式(2)に従って、学習用文書に対応するRST−DTの部分木の列に対して、前回選択された部分木の列の各々において、隣り合う部分木のペアを結合して生成される部分木の列の集合のうち、部分木の列から抽出される特徴量ベクトルf(S)と重みベクトルwとを用いて算出されるスコアが上位k個となる部分木の列を選択する。
Next, in accordance with the above equation (2), the
次に、パラメータ学習部66は、以下の式(4)に従って、正解のRST−DTに含まれる部分木の列に対して選択された部分木の列と、学習用文書に対応するRST−DTの部分木の列に対して選択された上位k個となる部分木の列の各々とのペアを生成する。
Next, the
パラメータ学習部66は、正解のRST−DTに含まれる部分木の列が、1つの木となるまで、上記の処理を繰り返す。
The
そして、パラメータ学習部66は、以下の式(5)に従って、生成されたペアのうち、特徴量ベクトルと重みベクトルwとを用いて算出されるスコアの差分が最大となる、正解のRST−DTに含まれる部分木の列と、学習用文書に対応するRST−DTの部分木の列とのペアを選択する。
The
そして、パラメータ学習部66は、上記式(5)に従って選択された正解のRST−DTに含まれる部分木の列と、学習用文書に対応するRST−DTの部分木の列とのペアに含まれる部分木の列の各々から抽出される特徴ベクトルに基づいて、重みベクトルwを更新する。パラメータ学習部66における更新処理を、図5のAlgorithm3に示す。
Then, the
本実施の形態で用いる構造化パーセプトロンでは、1つの正解のRST−DT(t)が与えられる度に、オラクルoと予測したRST−DT(S)との組を元に重みを更新していく。オラクルoと予測したRST−DT(S)との組は、上記図4のAlgorithm2に記した関数max−violation−pairによって得られる。関数max−violation−pairはオラクルとビーム探索で得られた予測したRST−DTの組をpairsに格納し、オラクルoとビーム探索で得られた予測したRST−DT(S)のスコアの差が最大になるような組を返す関数である。また、関数max−violation−pair内で使用されている関数expand−oracleは、関数expand同様に候補を展開するが正解のRST−DT(t)に含まれている候補のみを返す関数である。構造化パーセプトロンでは、関数max−violation−pairから得られる組を用いて重みベクトルwを更新していく。また、構造化パーセプトロンでは、得られたRST−DTの部分木の組(o,S)それぞれから抽出される特徴量ベクトルf(o),f(S)∈RMの差分を足して重みベクトルを更新する。
In the structured perceptron used in the present embodiment, every time one correct RST-DT (t) is given, the weight is updated based on the combination of Oracle o and the predicted RST-DT (S). . The set of Oracle o and the predicted RST-DT (S) is obtained by the function max-violation-pair described in
反復判定部68は、予め定められた回数だけ、上記パラメータ学習部66による更新を繰り返す。パラメータ学習部66は、予め定められた回数更新を繰り返した場合には、更新された重みベクトルwをパラメータデータベース70に格納する。
The
パラメータデータベース70には、パラメータ学習部66で更新された重みベクトルwが格納される。
The
<パラメータ学習装置の作用>
次に、本実施の形態のパラメータ学習装置200の作用について説明する。まず、複数の学習データがパラメータ学習装置200に入力されると、パラメータ学習装置200によって、入力された複数の学習データが、学習データベース62へ格納される。そして、パラメータ学習装置200によって、図6に示す学習処理ルーチンが実行される。
<Operation of parameter learning device>
Next, the operation of the
まず、ステップS100において、学習データベース62に格納された複数の学習データから1つの学習データを読み込み、設定する。
First, in step S100, one learning data is read from a plurality of learning data stored in the
次に、ステップS102において、パラメータ学習部66は、上記ステップS100で設定された学習データについて、正解のRST−DTに含まれる部分木の列と、学習用文書に対応するRST−DTの部分木の列とのペアを生成する。なお、学習用文書に対応するRST−DTの部分木の列は、部分木の列から抽出される特徴量ベクトルに対する重みベクトルwを用いて選択される。当該ステップS102は、図7に示す最大ペア算出処理ルーチンによって実現される。
Next, in step S102, the
<最大ペア算出処理ルーチン>
まず、ステップS200において、配列pairsを初期化し、oracle及び配列beamに、上記ステップS100で設定された学習データに含まれるEDUの各々を格納した配列を格納する。
<Maximum pair calculation processing routine>
First, in step S200, the array pairs is initialized, and an array storing each of the EDUs included in the learning data set in step S100 is stored in the oracle and the array beam.
次に、ステップS202において、上記ステップS200で設定されたoracle又は前回のステップS206で更新されたoracleに格納されている配列の要素が1つであるか否かを判定する。oracleに格納されている配列の要素が1つでない場合には、ステップS204へ進む。一方、後述するステップS204〜S206の処理によって最もスコアが高い1つの木が生成され、oracleに格納されている配列の要素が1つである場合には、ステップS214へ進む。 Next, in step S202, it is determined whether or not there is one array element stored in the oracle set in step S200 or the oracle updated in the previous step S206. If the number of elements stored in oracle is not one, the process proceeds to step S204. On the other hand, if one tree having the highest score is generated by the processing of steps S204 to S206 described later and the number of elements of the array stored in oracle is one, the process proceeds to step S214.
ステップS204において、関数expand−oracleによって、学習データの正解のRST−DTに含まれる部分木の列に対して、前回のステップS206で更新されたoracleに格納されている部分木の列から、正解のRST−DTに含まれる、新たな部分木の列の各々を生成する。そして、学習用特徴抽出部64は、新たに生成された部分木の列の各々から、特徴量ベクトルf(o)を抽出する。
In step S204, the correct answer is obtained from the sequence of the subtree stored in the oracle updated in the previous step S206 with respect to the sequence of the subtree included in the correct RST-DT of the learning data by the function expand-oracle. Each new subtree sequence included in each RST-DT is generated. Then, the learning
ステップS206において、上記ステップS204で生成された新たな部分木の列から、上記式(3)に従って、上記ステップS204で抽出された特徴量ベクトルf(o)と、重みベクトルwとを用いて算出されるスコアが最大となる部分木の列を選択し、oracleに格納する。 In step S206, calculation is performed using the feature vector f (o) extracted in step S204 and the weight vector w from the sequence of the new subtree generated in step S204 according to the above equation (3). The column of the subtree that gives the maximum score is selected and stored in oracle.
ステップS208において、関数expandによって、学習データの学習用文書に対応するRST−DTの部分木の列に対して、前回のステップS210で更新されたbeamに格納された部分木の列の各々から、部分木の列の集合を生成する。そして、学習用特徴抽出部64は、新たに生成された部分木の列の集合に含まれる部分木の列Sの各々について、特徴量ベクトルf(S)を抽出する。
In step S208, by using the function expand, from each of the subtree columns stored in the beam updated in the previous step S210, with respect to the subtree column of the RST-DT corresponding to the learning document of the learning data, Generate a set of subtree columns. Then, the learning
ステップS210において、上記ステップS208で生成された部分木の列の集合から、上記式(2)に従って、上記ステップS208で抽出された特徴量ベクトルf(S)と重みベクトルwとを用いて算出されるスコアが上位k個となる部分木の列を選択し、配列beamに格納する。 In step S210, the feature vector f (S) extracted in step S208 and the weight vector w are calculated from the set of columns of the subtree generated in step S208 according to the equation (2). The column of the subtree having the top k scores is selected and stored in the array beam.
ステップS212において、上記式(4)に従って、上記ステップS206で更新されたoracleに格納された部分木の列と、上記ステップS210で更新された配列beamに格納された部分木の列とのペアを各々生成し、配列pairsに格納し、上記ステップS202へ戻る。 In step S212, according to the above equation (4), a pair of the subtree stored in the oracle updated in step S206 and the subtree stored in the array beam updated in step S210 is paired. Each is generated, stored in the array pairs, and the process returns to step S202.
ステップS214において、上記式(5)に従って、上記ステップS212で配列pairsに格納されたペアのうち、特徴量ベクトルと重みベクトルwとを用いて算出されるスコアの差分が最大となる、正解のRST−DTに含まれる部分木の列と、学習用文書に対応するRST−DTの部分木の列とのペアを出力して、最大ペア算出処理ルーチンを終了する。 In step S214, the correct RST in which the difference between the scores calculated using the feature vector and the weight vector w among the pairs stored in the array pairs in step S212 is maximized according to the above equation (5). The pair of the subtree included in the DT and the subtree column of the RST-DT corresponding to the learning document is output, and the maximum pair calculation processing routine is terminated.
次に学習処理ルーチンに戻り、ステップS104において、パラメータ学習部66は、上記ステップS102で出力されたペアに基づいて、当該ペアに含まれる部分木の列の各々から抽出される特徴ベクトルに基づいて、重みベクトルwを更新する。
Next, returning to the learning processing routine, in step S104, the
ステップS106において、学習データベース62に格納された複数の学習データの全てについて、上記ステップS100〜ステップS104の処理を実行したか否かを判定する。学習データベース62に格納された複数の学習データの全てについて、上記ステップS100〜ステップS104の処理を実行した場合には、ステップS108へ進む。一方、上記ステップS100〜ステップS104の処理を実行していない学習データが存在する場合には、ステップS100へ戻る。
In step S106, it is determined whether or not the processing in steps S100 to S104 has been executed for all of the plurality of learning data stored in the
ステップS108において、上記ステップS100〜ステップS106の処理を予め定められた回数繰り返したか否かを判定する。上記ステップS100〜ステップS106の処理を予め定められた回数繰り返した場合には、ステップS110へ進む。一方、上記ステップS100〜ステップS106の処理を予め定められた回数繰り返していない場合には、ステップS100へ戻る。 In step S108, it is determined whether or not the processing in steps S100 to S106 has been repeated a predetermined number of times. When the processes in steps S100 to S106 are repeated a predetermined number of times, the process proceeds to step S110. On the other hand, if the processes in steps S100 to S106 are not repeated a predetermined number of times, the process returns to step S100.
そして、ステップS110において、上記ステップS104の処理で得られた重みベクトルwをパラメータデータベース70へ格納して、学習処理ルーチンを終了する。
In step S110, the weight vector w obtained in the process of step S104 is stored in the
<談話構造解析装置の作用>
次に、本実施の形態の談話構造解析装置100の作用について説明する。まず、パラメータ学習装置200のパラメータデータベース70に記憶されている重みベクトルwが、談話構造解析装置100に入力されると、パラメータデータベース20に格納される。そして、解析対象としての入力文書が談話構造解析装置100に入力されると、談話構造解析装置100によって、図8に示す解析処理ルーチンが実行される。
<Operation of discourse structure analyzer>
Next, the operation of the discourse
まず、ステップS300において、入力部10によって、解析対象の入力文書を受け付ける。
First, in step S300, the
次に、ステップS302において、EDU分割部32によって、上記ステップS300で受け付けた解析対象の入力文書をEDUに分割する。
In step S302, the
ステップS304において、談話構造解析部36は、パラメータデータベース20に格納された重みベクトルwを読み込む。
In step S304, the discourse
ステップS306において、談話構造解析部36は、上記ステップS302で得られたEDUの各々を格納した配列を配列beamに格納する。
In step S306, the discourse
ステップS308において、談話構造解析部36は、上記ステップS306で設定された配列beam[0]又は前回のステップS312で更新された配列beam[0]に格納されている配列の要素が1つであるか否かを判定する。配列beam[0]に格納されている配列の要素が1つでない場合には、ステップS310へ進む。一方、後述するステップS310〜S312の処理によって配列beam[0]に格納されている配列の要素が1つである場合には、ステップS314へ進む。
In step S308, the discourse
ステップS310において、談話構造解析部36は、関数expandによって、上記ステップS306で設定された配列beam又は前回のステップS312で更新された配列beamに格納された部分木の列の各々から、部分木の列の集合を生成する。そして、特徴抽出部34は、生成された部分木の列の集合に含まれる部分木の列Sの各々について、特徴量ベクトルf(S)を抽出する。
In step S310, the discourse
ステップS312において、談話構造解析部36は、上記式(2)に従って、上記ステップS310で抽出された特徴量ベクトルf(S)と重みベクトルwとを用いて算出されるスコアが上位k個となる部分木の列を選択し、配列beamに格納し、上記ステップ308へ戻る。
In step S312, the discourse
ステップS314において、上記ステップS312で更新された配列beamのうち、beam[0][0]に格納されているRST−DTを出力部40により解析結果として出力し、解析処理ルーチンを終了する。
In step S314, out of the array beam updated in step S312, RST-DT stored in beam [0] [0] is output as an analysis result by the
以上説明したように、本実施の形態のパラメータ学習装置によれば、複数の学習用文書の各々について、正解のRST−DTに含まれる部分木の列と、部分木の列から抽出される特徴量ベクトルに対する重みベクトルwを用いて選択される、学習用文書に対応するRST−DTの部分木の列とのペアのうち、特徴量ベクトルと重みベクトルwとを用いて算出されるスコアの差分が最大となる、正解のRST−DTに含まれる部分木の列と、学習用文書に対応するRST−DTの部分木の列とのペアに含まれる部分木の列の各々から抽出される特徴ベクトルに基づいて、重みベクトルwを更新することにより、談話構造解析を精度よく行うための重みベクトルwを得ることができる。 As described above, according to the parameter learning apparatus of the present embodiment, for each of a plurality of learning documents, the subtree sequence included in the correct RST-DT and the features extracted from the subtree sequence The difference between the scores calculated using the feature quantity vector and the weight vector w among the pairs of the RST-DT subtree columns corresponding to the learning document, which are selected using the weight vector w for the quantity vector. Extracted from each of the subtree columns included in a pair of the subtree column included in the correct RST-DT and the RST-DT subtree column corresponding to the learning document. By updating the weight vector w based on the vector, the weight vector w for accurately performing the discourse structure analysis can be obtained.
本実施の形態の談話構造解析装置によれば、パラメータ学習装置によって得られた重みベクトルwを用いて談話構造解析を行うことにより、談話構造解析を精度よく行うことができる。 According to the discourse structure analysis apparatus of the present embodiment, the discourse structure analysis can be performed with high accuracy by performing the discourse structure analysis using the weight vector w obtained by the parameter learning apparatus.
また、本実施の形態のパラメータ学習装置及び談話構造解析装置を用いることで、ビーム探索に基づいた最易優先探索を行なうことで探索誤りに頑健な解析が可能となり、より高精度な談話構造解析が可能になる。 Also, by using the parameter learning device and the discourse structure analysis device of the present embodiment, it is possible to perform robust analysis against search errors by performing the most prioritized search based on the beam search, and more accurate discourse structure analysis. Is possible.
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。 Note that the present invention is not limited to the above-described embodiment, and various modifications and applications are possible without departing from the gist of the present invention.
例えば、本実施の形態では、文書中のEDUをRST−DTの各ノードとした場合を例に説明したが、各ノードをEDU以外の文字列単位として表わすこともできる。その場合には、EDU分割部32によって、文書を当該文字列単位に分割し、当該文字列単位をノードとして表したRST−DTを構築する。
For example, although a case has been described with the present embodiment where an EDU in a document is each RST-DT node, each node can also be represented as a character string other than an EDU. In that case, the
また、本実施の形態のパラメータ学習装置及び談話構造解析装置は、英語だけでなく日本語等の他の言語にも適用可能である。 Further, the parameter learning device and the discourse structure analyzing device of the present embodiment can be applied not only to English but also to other languages such as Japanese.
また、学習データベース62及びパラメータデータベース70は、パラメータ学習装置の外部に設けられ、パラメータ学習装置とネットワークで接続されていてもよい。また、パラメータデータベース20は、談話構造解析装置の外部に設けられ、談話構造解析装置とネットワークで接続されていてもよい。
The
また、入力部10に入力される文書は、既に文又はEDUに分割された形態であってもよい。その場合には、EDU分割部32の処理については省略する。
Further, the document input to the
また、上記実施の形態では、パラメータ学習装置と談話構造解析装置とを別々の装置として構成する場合を例に説明したが、パラメータ学習装置と談話構造解析装置とを1つの装置として構成してもよい。 Moreover, although the case where the parameter learning device and the discourse structure analyzing device are configured as separate devices has been described as an example in the above embodiment, the parameter learning device and the discourse structure analyzing device may be configured as one device. Good.
上述のパラメータ学習装置及び談話構造解析装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。 The parameter learning device and the discourse structure analyzing device described above have a computer system inside. However, if the “computer system” uses a WWW system, a homepage providing environment (or display environment) is also available. Shall be included.
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。 In the present specification, the embodiment has been described in which the program is installed in advance. However, the program can be provided by being stored in a computer-readable recording medium.
10 入力部
20,70 パラメータデータベース
30 演算部
32 EDU分割部
34 特徴抽出部
36 談話構造解析部
40 出力部
50 学習用入力部
60 学習用演算部
64 学習用特徴抽出部
62 学習データベース
66 パラメータ学習部
68 反復判定部
100 談話構造解析装置
200 パラメータ学習装置
DESCRIPTION OF
Claims (4)
前記学習用入力部が、複数の学習用文書の各々について、前記学習用文書内の文字列単位の各々と、ルートノードが前記学習用文書の全体を表し、かつ前記学習用文書のうちの少なくとも1つの文字列単位の系列の各々を各ノードとした階層構造を表し、かつ、前記文字列単位の系列間の修飾関係及び関係ラベルを表した、前記学習用文書の文字列単位の系列の各々の修辞構造に基づく修辞構造木であって、かつ前記学習用文書に対応する正解の前記修辞構造木の各々とを受け付けると、
前記パラメータ学習部が、
複数の学習用文書の各々について、
前記正解の修辞構造木に含まれる部分木の列と、前記部分木の列から抽出される特徴量ベクトルに対する重みベクトルを用いて選択される、前記学習用文書に対応する前記修辞構造木の部分木の列とのペアのうち、前記特徴量ベクトルと前記重みベクトルとを用いて算出されるスコアの差分が最大となる、前記正解の修辞構造木に含まれる部分木の列と、前記学習用文書に対応する前記修辞構造木の部分木の列とのペアに含まれる前記部分木の列の各々から抽出される特徴ベクトルに基づいて、前記重みベクトルを更新するステップと、
前記反復判定部が、予め定められた回数だけ、前記パラメータ学習部による更新を繰り返すステップと、
を含むパラメータ学習方法。 A parameter learning method in a parameter learning device including a learning input unit, a parameter learning unit, and an iterative determination unit,
The learning input unit, for each of a plurality of learning documents, each of the character string units in the learning document, the root node represents the whole learning document, and at least of the learning documents Each of the character string unit series of the learning document that represents a hierarchical structure with each of the character string unit series as a node, and represents a modification relationship and a relation label between the character string unit series Each of the rhetorical structure tree based on the rhetorical structure and the correct rhetorical structure tree corresponding to the learning document.
The parameter learning unit
For each of the multiple learning documents
A part of the rhetorical structure tree corresponding to the learning document selected using a subtree included in the correct rhetorical structure tree and a weight vector for a feature vector extracted from the subtree line A pair of subtrees included in the correct rhetorical structure tree, wherein the difference between the scores calculated using the feature vector and the weight vector is maximized, and the learning tree Updating the weight vector based on a feature vector extracted from each of the subtree columns included in a pair with a subtree column of the rhetorical structure tree corresponding to a document;
The iteration determination unit repeating the update by the parameter learning unit a predetermined number of times;
A parameter learning method including:
前記正解の修辞構造木に含まれる部分木の列に対して、前回選択された部分木の列において隣り合う部分木のペアを結合して生成される、前記正解の修辞構造木に含まれる部分木の列の集合のうち、前記部分木の列から抽出される前記特徴量ベクトルと前記重みベクトルとを用いて算出されるスコアが最大となる部分木の列を選択し、
前記学習用文書に対応する前記修辞構造木の部分木の列に対して、前回選択された部分木の列の各々において、隣り合う部分木のペアを結合して生成される部分木の列の集合のうち、前記部分木の列から抽出される前記特徴量ベクトルと前記重みベクトルとを用いて算出されるスコアが上位k個となる部分木の列を選択し、
前記正解の修辞構造木に含まれる部分木の列に対して選択された部分木の列と、前記学習用文書に対応する前記修辞構造木の部分木の列に対して選択された上位k個となる部分木の列の各々とのペアを生成することを繰り返し、
前記生成されたペアのうち、前記特徴量ベクトルと前記重みベクトルとを用いて算出されるスコアの差分が最大となる、前記正解の修辞構造木に含まれる部分木の列と、前記学習用文書に対応する前記修辞構造木の部分木の列とのペアに含まれる前記部分木の列の各々から抽出される特徴ベクトルに基づいて、前記重みベクトルを更新する請求項1記載のパラメータ学習方法。 The step of the parameter learning unit updating the weight vector includes:
A part included in the correct rhetorical structure tree generated by combining a pair of adjacent subtrees in the previously selected subtree column with respect to the subtree string included in the correct rhetorical structure tree Selecting a column of a partial tree having a maximum score calculated using the feature vector and the weight vector extracted from the column of the partial tree from a set of trees;
For each column of subtrees of the rhetorical structure tree corresponding to the learning document, a sequence of subtrees generated by combining pairs of adjacent subtrees in each of the subtree columns selected previously. From the set, select a column of the subtree having the top k scores calculated using the feature vector and the weight vector extracted from the column of the subtree;
A column of the subtree selected for the subtree column included in the correct rhetorical structure tree and the top k selected for the subtree column of the rhetorical tree corresponding to the learning document Repeat to generate a pair with each of the subtree columns
Among the generated pairs, a subtree sequence included in the correct rhetorical structure tree having a maximum score difference calculated using the feature vector and the weight vector, and the learning document The parameter learning method according to claim 1, wherein the weight vector is updated based on a feature vector extracted from each column of the subtrees included in a pair with a subtree column of the rhetorical structure tree corresponding to.
複数の学習用文書の各々について、
前記正解の修辞構造木に含まれる部分木の列と、前記部分木の列から抽出される特徴量ベクトルに対する重みベクトルを用いて選択される、前記学習用文書に対応する前記修辞構造木の部分木の列とのペアのうち、前記特徴量ベクトルと前記重みベクトルとを用いて算出されるスコアの差分が最大となる、前記正解の修辞構造木に含まれる部分木の列と、前記学習用文書に対応する前記修辞構造木の部分木の列とのペアに含まれる前記部分木の列の各々から抽出される特徴ベクトルに基づいて、前記重みベクトルを更新するパラメータ学習部と、
予め定められた回数だけ、前記パラメータ学習部による更新を繰り返す反復判定部と、
を含むパラメータ学習装置。 For each of the plurality of learning documents, each of the character string units in the learning document and a root node represents the whole of the learning document, and the sequence of at least one character string unit of the learning documents A rhetorical structure based on the rhetorical structure of each sequence of character strings in the learning document, representing a hierarchical structure with each of the nodes as a node, and representing a modification relationship and a relationship label between the sequences of the character string An input unit that accepts each correct rhetorical structure tree corresponding to the learning document,
For each of the multiple learning documents
A part of the rhetorical structure tree corresponding to the learning document selected using a subtree included in the correct rhetorical structure tree and a weight vector for a feature vector extracted from the subtree line A pair of subtrees included in the correct rhetorical structure tree, wherein the difference between the scores calculated using the feature vector and the weight vector is maximized, and the learning tree A parameter learning unit that updates the weight vector based on a feature vector extracted from each column of the subtree included in a pair with a subtree column of the rhetorical structure tree corresponding to a document;
An iterative determination unit that repeats the update by the parameter learning unit a predetermined number of times;
A parameter learning device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015040409A JP6291440B2 (en) | 2015-03-02 | 2015-03-02 | Parameter learning method, apparatus, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015040409A JP6291440B2 (en) | 2015-03-02 | 2015-03-02 | Parameter learning method, apparatus, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016162198A JP2016162198A (en) | 2016-09-05 |
JP6291440B2 true JP6291440B2 (en) | 2018-03-14 |
Family
ID=56845746
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015040409A Active JP6291440B2 (en) | 2015-03-02 | 2015-03-02 | Parameter learning method, apparatus, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6291440B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110347813A (en) * | 2019-06-26 | 2019-10-18 | 北京大米科技有限公司 | A kind of corpus processing method, device, storage medium and electronic equipment |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7054145B2 (en) * | 2019-02-20 | 2022-04-13 | 日本電信電話株式会社 | Discourse structure analyzer, method, and program |
JP7457332B2 (en) | 2021-03-05 | 2024-03-28 | 日本電信電話株式会社 | Tree structure estimation device, parameter learning device, tree structure estimation method, parameter learning method, and program |
JP7432898B2 (en) | 2021-03-05 | 2024-02-19 | 日本電信電話株式会社 | Parameter optimization device, parameter optimization method, and program |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7305336B2 (en) * | 2002-08-30 | 2007-12-04 | Fuji Xerox Co., Ltd. | System and method for summarization combining natural language generation with structural analysis |
JP5921457B2 (en) * | 2013-02-05 | 2016-05-24 | 日本電信電話株式会社 | Document summarization method, apparatus, and program |
JP6062829B2 (en) * | 2013-08-26 | 2017-01-18 | 日本電信電話株式会社 | Dependency relationship analysis parameter learning device, dependency relationship analysis device, method, and program |
-
2015
- 2015-03-02 JP JP2015040409A patent/JP6291440B2/en active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110347813A (en) * | 2019-06-26 | 2019-10-18 | 北京大米科技有限公司 | A kind of corpus processing method, device, storage medium and electronic equipment |
CN110347813B (en) * | 2019-06-26 | 2021-09-17 | 北京大米科技有限公司 | Corpus processing method and device, storage medium and electronic equipment |
Also Published As
Publication number | Publication date |
---|---|
JP2016162198A (en) | 2016-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5377889B2 (en) | Language processing apparatus and program | |
CN111159990B (en) | Method and system for identifying general special words based on pattern expansion | |
JP6291440B2 (en) | Parameter learning method, apparatus, and program | |
KR101729461B1 (en) | Natural language processing system, natural language processing method, and natural language processing program | |
CN104699797B (en) | A kind of web page data structured analysis method and device | |
JP6778654B2 (en) | Word-splitting estimation model learning device, word-splitting device, method, and program | |
JP5441937B2 (en) | Language model learning device, language model learning method, language analysis device, and program | |
Toselli et al. | Two methods to improve confidence scores for lexicon-free word spotting in handwritten text | |
JP6145059B2 (en) | Model learning device, morphological analysis device, and method | |
KR20080039009A (en) | Device and method for correcting both mis-spacing words and mis-spelled words using n-gram | |
US20210342529A1 (en) | Word coding device, analysis device, language model learning device, method, and program | |
JP6062829B2 (en) | Dependency relationship analysis parameter learning device, dependency relationship analysis device, method, and program | |
JP2016224483A (en) | Model learning device, method and program | |
JP6558852B2 (en) | Clause identification apparatus, method, and program | |
JP2005092253A (en) | System and method for generating data for machine learning, system and method for generating pair of similar documents and computer program | |
Zheng et al. | Character-based parsing with convolutional neural network | |
JP6712973B2 (en) | Sentence generation device, sentence generation learning device, sentence generation method, and program | |
JP6590723B2 (en) | Word rearrangement learning method, word rearrangement method, apparatus, and program | |
JP6558856B2 (en) | Morphological analyzer, model learning device, and program | |
CN114579763A (en) | Character-level confrontation sample generation method for Chinese text classification task | |
JP5959480B2 (en) | Statement association determination apparatus, method, and program | |
JP6381136B2 (en) | Sky category estimation device, sky category estimation model learning device, method, and program | |
JP2012098905A (en) | Character recognition device, character recognition method and program | |
JP2017041207A (en) | Structural analysis device, method, and program | |
JP5604465B2 (en) | Text summarization apparatus, method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170210 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171211 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180209 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6291440 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |