JP7432898B2 - Parameter optimization device, parameter optimization method, and program - Google Patents

Parameter optimization device, parameter optimization method, and program Download PDF

Info

Publication number
JP7432898B2
JP7432898B2 JP2021035373A JP2021035373A JP7432898B2 JP 7432898 B2 JP7432898 B2 JP 7432898B2 JP 2021035373 A JP2021035373 A JP 2021035373A JP 2021035373 A JP2021035373 A JP 2021035373A JP 7432898 B2 JP7432898 B2 JP 7432898B2
Authority
JP
Japan
Prior art keywords
pseudo
correct data
rhetorical structure
parameter optimization
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021035373A
Other languages
Japanese (ja)
Other versions
JP2022135517A (en
Inventor
努 平尾
昌明 永田
尚輝 小林
英剛 上垣外
学 奥村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Tokyo Institute of Technology NUC
Original Assignee
Nippon Telegraph and Telephone Corp
Tokyo Institute of Technology NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Tokyo Institute of Technology NUC filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2021035373A priority Critical patent/JP7432898B2/en
Publication of JP2022135517A publication Critical patent/JP2022135517A/en
Application granted granted Critical
Publication of JP7432898B2 publication Critical patent/JP7432898B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、計算機を用いて自動的に言語を処理する自然言語処理分野に属し、特に、EDU(Elementary Discourse Units)を葉とした木構造(修辞構造木)として文書を表す修辞構造解析技術に関連するものである。 The present invention belongs to the field of natural language processing in which language is automatically processed using a computer, and in particular to rhetorical structure analysis technology that represents a document as a tree structure (rhetorical structure tree) with EDU (Elementary Discourse Units) as leaves. It is related.

文書の修辞構造解析を行って、修辞構造木を自動的に構築する様々な修辞構造解析器が提案されている。多くの修辞構造解析器は人間が用意した正解データ、すなわち、修辞構造を表すアノテーションが付与された文書を学習データとしたニューラルネットワークを利用して実現されている。 Various rhetorical structure analyzers have been proposed that automatically construct a rhetorical structure tree by analyzing the rhetorical structure of a document. Many rhetorical structure analyzers are implemented using neural networks that use human-prepared ground truth data, that is, documents annotated with rhetorical structure, as training data.

例えば、非特許文献1に開示された技術では、スパンの2分割によって木構造を推定するネットワークのパラメタ、隣接するスパンに対する核性、関係ラベルを付与するネットワークのパラメタを、それぞれ正解データを用いて学習している。なお、核性ラベリングは分割された2つのスパンを「N-S」、「S-N」、「N-N」の3通りのいずれかに分類する問題に帰着し、関係ラベリングは「Elaboration,Background」などの全18種のいずれかのラベルに分類する問題に帰着する。 For example, in the technology disclosed in Non-Patent Document 1, the parameters of a network that estimates a tree structure by dividing a span into two, the parameters of a network that assigns nuclearity to adjacent spans, and relationship labels are determined using ground truth data. I'm learning. Note that nuclear labeling results in the problem of classifying two divided spans into one of three ways: "NS", "SN", and "NN", and relational labeling results in "Elaboration, The problem comes down to classifying the image into one of 18 types of labels, such as ``Background.''

Kobayashi Naoki, Tsutomu Hirao, Hidetaka Kamigaito, Manabu Okumura, Masaaki Nagata: Top-Down RST Parsing Utilizing Granularity Levels in Documents, AAAI-2020, pp. 8099-8106, (2020)Kobayashi Naoki, Tsutomu Hirao, Hidetaka Kamigaito, Manabu Okumura, Masaaki Nagata: Top-Down RST Parsing Utilizing Granularity Levels in Documents, AAAI-2020, pp. 8099-8106, (2020)

修辞構造のアノテーションには多大なコストがかかるため大量の修辞構造アノテーション済みデータを用意することが困難であり、現状で最大規模のデータでも385文書しかない。よって、多くの修辞構造解析技術はデータスパースネスの問題に直面しており、特に18クラス分類問題を解かねばならない関係ラベリングの性能に問題がある。 Rhetorical structure annotation costs a lot of money, so it is difficult to prepare a large amount of rhetorical structure annotated data, and at present the largest amount of data is only 385 documents. Therefore, many rhetorical structure analysis techniques face the problem of data sparsity, especially the performance of relational labeling, which has to solve an 18-class classification problem.

本発明は上記の点に鑑みてなされたものであり、大量の修辞構造アノテーション済みデータを用いることなく、性能の良い修辞構造解析器を実現するための技術を提供することを目的とする。 The present invention has been made in view of the above points, and it is an object of the present invention to provide a technique for realizing a rhetorical structure analyzer with good performance without using a large amount of rhetorical structure annotated data.

開示の技術によれば、ラベルなしデータから複数の修辞構造解析器により得られた複数の修辞構造木において共通する部分木を、疑似正解データとして生成する疑似正解データ生成部と、
前記疑似正解データ生成部により生成された前記疑似正解データを用いて、ニューラルネットワークを用いた修辞構造解析器のパラメタを最適化する事前学習部と、
前記事前学習部により最適化された前記パラメタを、正解データを用いてファインチューニングするファインチューニング部と
を備えるパラメタ最適化装置が提供される。
According to the disclosed technology, a pseudo-correct data generation unit that generates, as pseudo-correct data, a subtree common to a plurality of rhetorical structure trees obtained from unlabeled data by a plurality of rhetorical structure analyzers;
a pre-learning unit that optimizes parameters of a rhetorical structure analyzer using a neural network using the pseudo-correct data generated by the pseudo-correct data generating unit;
A parameter optimization device is provided, comprising: a fine-tuning unit that fine-tunes the parameters optimized by the pre-learning unit using correct data.

開示の技術によれば、大量の修辞構造アノテーション済みデータを用いることなく、性能の良い修辞構造解析器を実現するための技術が提供される。 According to the disclosed technique, a technique is provided for realizing a rhetorical structure analyzer with good performance without using a large amount of rhetorical structure annotated data.

修辞構造木の例を示す図である。FIG. 3 is a diagram illustrating an example of a rhetorical structure tree. パラメタ最適化装置の構成図である。FIG. 2 is a configuration diagram of a parameter optimization device. 疑似正解データ生成部を説明するための図である。FIG. 3 is a diagram for explaining a pseudo-correct data generation section. アルゴリズム1を示す図である。FIG. 2 is a diagram showing Algorithm 1. アルゴリズム1の動作例を説明するための図である。3 is a diagram for explaining an example of the operation of algorithm 1. FIG. 事前学習部を説明するための図である。FIG. 3 is a diagram for explaining a pre-learning section. 装置のハードウェア構成例を示す図である。It is a diagram showing an example of the hardware configuration of the device.

以下、図面を参照して本発明の実施の形態(本実施の形態)を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。 DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention (this embodiment) will be described below with reference to the drawings. The embodiments described below are merely examples, and embodiments to which the present invention is applied are not limited to the following embodiments.

(修辞構造木について)
まず、本実施の形態において対象としている修辞構造木の例を説明する。修辞構造木は、それを構成する最小の談話基本単位であるEDUの系列(以降、スパンと呼ぶ)を修辞関係により結合し、より大きなスパンを構成するという操作を再帰的に繰り返すことによって得られる木である。
(About rhetorical structure trees)
First, an example of a rhetorical structure tree targeted in this embodiment will be explained. A rhetorical structure tree is obtained by recursively repeating the operation of connecting a series of EDUs (hereinafter referred to as spans), which are the smallest basic units of discourse that make up the tree, through rhetorical relationships to form larger spans. It's a tree.

木の葉はEDU(節に相当)のユニットであり、木のノードにはそれが支配するスパンの核性ラベルが付与される。結合される2つのスパン(兄弟スパン)の一方は重要な情報を持つ核となり、もう一方はそれを補足する衛星となる。例外的に双方が核となる場合もある。木の枝にはスパン間の修辞関係を表す関係ラベルが付与される。 A leaf of a tree is a unit of EDU (equivalent to a node), and a node of the tree is given a nuclearity label of the span it dominates. One of the two spans (sibling spans) that will be combined will become a core containing important information, and the other will become a satellite that supplements it. In exceptional cases, both sides may be the core. Tree branches are given relational labels that represent the rhetorical relationships between spans.

図1に修辞構造木の例を示す。図中のe~eがそれぞれEDUであり、S/Nがスパンの核性ラベル(Nが核でSが衛星)、Condition、Elaborationなどが兄弟スパンの間の関係ラベルである。関係ラベルは兄弟スパンの核性がSとNの組合せの場合、S側のスパンに対して与えられ、NとNとなる場合には双方のスパンに対して与えられる。ConditionやElaborationはSとNの組合せに対して与えられ、List、Same-UnitはNとNの組合せに与えられる。 Figure 1 shows an example of a rhetorical structure tree. In the figure, e 1 to e 7 are EDUs, S/N is the nuclearity label of the span (N is the nucleus, S is the satellite), Condition, Elaboration, etc. are the relationship labels between the sibling spans. When the nuclearity of the sibling spans is a combination of S and N, the relationship label is given to the span on the S side, and when it is N and N, it is given to both spans. Condition and Elaboration are given to the combination of S and N, and List and Same-Unit are given to the combination of N and N.

(実施の形態の概要)
本実施の形態では、パラメタ最適化装置100が、まず、既存の複数の修辞構造解析器を用いて大量のラベルなしデータを解析することである程度の頻度を保ったうえで多様なラベルを持つデータセットを構築する。次に、複数の修辞構造解析器から得られた複数の修辞構造木の間で共通する部分木を擬似正解データとして抽出する。そして、擬似正解データを用いてニューラルネットに基づく修辞構造解析器のパラメタを事前学習した後、正解データ(人手によるアノテーション済みデータ)を用いてパラメタをファインチューニングする。
(Summary of embodiment)
In this embodiment, the parameter optimization device 100 first analyzes a large amount of unlabeled data using a plurality of existing rhetorical structure analyzers, and then analyzes data with various labels while maintaining a certain degree of frequency. Build a set. Next, common subtrees among the plurality of rhetorical structure trees obtained from the plurality of rhetorical structure analyzers are extracted as pseudo-correct data. Then, after pre-learning the parameters of a rhetorical structure analyzer based on a neural network using the pseudo-correct data, the parameters are fine-tuned using the correct data (data that has been manually annotated).

上記の処理により得られたパラメタを用いてニューラルネットワークに基づく修辞構造解析器を構成することにより、人手アノテーション済みデータはファインチューニングのみで使用すればよいため、大量の人手アノテーション済みデータを用いることなく、性能の良い修辞構造解析器を実現することができる。 By configuring a rhetorical structure analyzer based on a neural network using the parameters obtained through the above processing, the manually annotated data can be used only for fine tuning, thereby eliminating the need to use a large amount of manually annotated data. , it is possible to realize a rhetorical structure analyzer with good performance.

(装置構成例、動作概要)
図2に、本実施の形態におけるパラメタ最適化装置100の構成例を示す。図2に示すようにパラメタ最適化装置100は、疑似正解データ生成部110、事前学習部120、ファインチューニング部130を備える。
(Device configuration example, operation overview)
FIG. 2 shows a configuration example of the parameter optimization device 100 in this embodiment. As shown in FIG. 2, the parameter optimization device 100 includes a pseudo-correct data generation section 110, a pre-learning section 120, and a fine tuning section 130.

パラメタ最適化装置100は、1つのコンピュータで実装されてもよいし、複数のコンピュータで実装されてもよい。また、パラメタ最適化装置100のうちの一部又は全部の機能が、クラウド上の仮想マシンで実装されてもよい。疑似正解データ生成部110、事前学習部120、ファインチューニング部130をそれぞれ、疑似正解データ生成装置、事前学習装置、ファインチューニング装置と呼んでもよい。 The parameter optimization device 100 may be implemented using one computer or multiple computers. Furthermore, some or all of the functions of the parameter optimization device 100 may be implemented in a virtual machine on the cloud. The pseudo-correct data generation unit 110, the pre-learning unit 120, and the fine-tuning unit 130 may be respectively referred to as a pseudo-correct data generation device, a pre-learning device, and a fine-tuning device.

図2には、処理の流れも示されている。図2に示すように、疑似正解データ生成部110は、ラベルなしデータから疑似正解データを生成し、事前学習部120が疑似正解データを用いてニューラルネットワークに基づく修辞構造解析器のパラメタを学習する。ファインチューニング部130は、事前学習部120により学習されたパラメタを初期値として、正解データ(人手アノテーション済みデータ)を用いてパラメタを再度学習する。 FIG. 2 also shows the flow of processing. As shown in FIG. 2, the pseudo-correct data generation unit 110 generates pseudo-correct data from unlabeled data, and the pre-learning unit 120 uses the pseudo-correct data to learn parameters of a rhetorical structure analyzer based on a neural network. . The fine tuning unit 130 uses the parameters learned by the pre-learning unit 120 as initial values and learns the parameters again using the correct data (manually annotated data).

以下、各部の処理内容を詳細に説明する。 The processing contents of each part will be explained in detail below.

(疑似正解データ生成部110)
疑似正解データ生成部110は、複数の修辞構造解析器を用いてラベルなしデータを解析した結果から共通する部分木を合意木として生成し、それを擬似正解データとして事前学習部120へと渡す。
(Pseudo-correct data generation unit 110)
The pseudo-correct data generation unit 110 generates a common subtree as a consensus tree from the results of analyzing unlabeled data using a plurality of rhetorical structure analyzers, and passes it to the pre-learning unit 120 as pseudo-correct data.

図3を参照して疑似正解データ生成部110について説明する。図3に示すように、疑似正解データ生成部110は、n個の修辞構造解析器と、合意木抽出部115を備える。 The pseudo-correct data generation unit 110 will be described with reference to FIG. 3. As shown in FIG. 3, the pseudo-correct data generation unit 110 includes n rhetorical structure analyzers and a consensus tree extraction unit 115.

n個の修辞構造解析器について、異なるn個の修辞構造解析器を使用してもよいし、同じ修辞構造解析器のハイパーパラメタを変更したものをn個使用してもよい。 Regarding the n rhetorical structure analyzers, n different rhetorical structure analyzers may be used, or n pieces of the same rhetorical structure analyzer with modified hyperparameters may be used.

図3に示すように、n個の修辞構造解析器はそれぞれ、入力されたラベルなしデータを独立に解析し、各文書に対する修辞構造木を生成する。これにより、n個の修辞構造木が生成される。 As shown in FIG. 3, each of the n rhetorical structure analyzers independently analyzes input unlabeled data and generates a rhetorical structure tree for each document. This generates n rhetorical structure trees.

次に、合意木抽出部115がn個の修辞構造木の間で共通する部分木を抽出し、疑似正解データとして事前学習部120へ渡す。 Next, the consensus tree extraction unit 115 extracts common subtrees among the n rhetorical structure trees and passes them to the pre-learning unit 120 as pseudo-correct answer data.

<合意木抽出部115の処理>
合意木抽出部115の処理内容を詳細に説明する。n個の修辞構造木の間で共通する部分木を抽出するアルゴリズム1を図4に示す。アルゴリズム1は、合意木抽出部115が実行するプログラムに相当する。
<Processing of the consensus tree extraction unit 115>
The processing contents of the consensus tree extraction unit 115 will be explained in detail. FIG. 4 shows Algorithm 1 for extracting common subtrees among n rhetorical structure trees. Algorithm 1 corresponds to a program executed by the consensus tree extraction unit 115.

アルゴリズム1を実行する合意木抽出部115は、ある文書に対する異なるn個の修辞構造木を入力(trees)として受け取り、それらに共通する部分木(subtrees)を合意木として出力する。 The consensus tree extraction unit 115 that executes Algorithm 1 receives as input (trees) n different rhetorical structure trees for a certain document, and outputs subtrees (subtrees) common to these as a consensus tree.

3行目に示される関数AGREEMENTは、ノードspanを頂点とした部分木が合意木であるか否かを判定する関数である。spanが葉の場合、AGREEMENTは真を返す(4行目、5行目)。 The function AGREEMENT shown in the third line is a function that determines whether the subtree with the node span as the vertex is a consensus tree. If span is a leaf, AGREEMENT returns true (lines 4 and 5).

それ以外の場合、関数AGREEMENTは、ノードspanの頻度がnの場合にSの値を真にし(7行目、8行目)、そうでない場合には偽にする(10行目)。なお、頻度とは、対象としているn個の修辞構造木における該当ノードspanの個数である。 Otherwise, the function AGREEMENT makes the value of S c true when the frequency of the node span is n (lines 7 and 8), and false otherwise (line 10). Note that the frequency is the number of corresponding nodes span in the target n rhetorical structure trees.

そして、ノードspanの左の子ノード、右の子ノードに対するAGREEMENTの値をそれぞれS、Sに格納する(11行目、12行目)。S、S、Sの全てが真のとき、AGREEMENTは真を返し、それ以外は偽を返す(13~17行目)。 Then, the values of AGREEMENT for the left child node and right child node of node span are stored in S l and S r , respectively (11th line and 12th line). When S c , S l , and S r are all true, AGREEMENT returns true; otherwise, it returns false (lines 13 to 17).

2行目(及び18~33行目)の関数FINDROOTにより、SがTrueであるノード(スパン)を追加していくことで部分木を生成し、出力する。 The function FINDROO on the second line (and lines 18 to 33) generates a subtree by adding nodes (spans) where S is True, and outputs it.

n個の修辞構造木のいずれか一つを対象として関数AGREEMENTをそのルートノードから順に深さ優先探索で適用していくことで合意木を得る。ただし、部分木のサイズを制御するため、葉の数に対して最小値lminと最大値lmaxの制約を導入する(21~26行目)。 An agreement tree is obtained by sequentially applying the function AGREEMENT to any one of the n rhetorical structure trees in a depth-first search starting from its root node. However, in order to control the size of the subtree, constraints of a minimum value l min and a maximum value l max are introduced for the number of leaves (lines 21 to 26).

図5を参照して、n=2の場合における、アルゴリズム1に従って動作する合意木抽出部115の動作例を説明する。まず、図5の左側に示す2つの木についてラベルも考慮してノードの頻度を数えておく。なお、ノードはスパン、つまりそれが支配するEDUの開始、終了インデックスを表す。 Referring to FIG. 5, an example of the operation of the consensus tree extraction unit 115 that operates according to Algorithm 1 in the case of n=2 will be described. First, the frequency of nodes is counted for the two trees shown on the left side of FIG. 5, taking into account the labels. Note that each node represents a span, that is, the start and end index of the EDU that it controls.

図5の左側において、2つの修辞構造木の間で共通するノードは、下線を引いて示したノードである。図5の左上の修辞構造木を取り出し、アルゴリズム1を適用する。図5の右側に、左上の修辞構造木を取り出してアルゴリズム1が適用された際の各ノードでのS、S、S、Sが示されている。 On the left side of FIG. 5, the nodes that are common between the two rhetorical structure trees are the underlined nodes. The rhetorical structure tree at the top left of FIG. 5 is taken out and Algorithm 1 is applied. On the right side of FIG. 5, S c , S l , S r , and S at each node are shown when the upper left rhetorical structure tree is taken out and Algorithm 1 is applied.

AGREEMENT(1,10)はスパン(1,10)の頻度が2であることからS(1,10)をTrueにセットし、左の子供(1,4)と右の子供(5,10)に対してAGREEMENTを適用する。 AGREEMENT(1,10) sets S c (1,10) to True because the frequency of span (1,10) is 2, and the left child (1,4) and right child (5,10 ) to apply AGREEMENT.

それぞれに対して、AGREEMENTを再帰的に適用し、Sを決定していくと修辞構造木の葉(開始と終了インデックスが等しいスパン)に行き着くのでSの値はTrueにセットされる。つまり、アルゴリズム1では、複数の修辞構造木において共通に出現するスパンがあるかどうかの判断を再帰的に実行することとしている。そして、すでにセットしたSと左右のノードから決定されたS、Sの値に基づき各ノードのSの値が決定される。図5の右側の修辞構造木における下から上への矢印線は、各ノードのSの値が順次決定される様子を示している。あるノードについて、そのノードのSと、そのノードの下にある全てのノードのSがTrueである部分木が、そのノードを頂点とする合意木になる。 For each, by recursively applying AGREEMENT and determining S c , we arrive at a leaf of the rhetorical structure tree (a span with equal start and end indices), so the value of S is set to True. In other words, in Algorithm 1, it is determined recursively whether there is a span that appears in common in a plurality of rhetorical structure trees. Then, the value of S of each node is determined based on the already set S c and the values of S l and S r determined from the left and right nodes. The arrow line from bottom to top in the rhetorical structure tree on the right side of FIG. 5 shows how the value of S for each node is determined in sequence. For a certain node, a subtree in which S of that node and S of all nodes below that node are True becomes a consensus tree with that node as the vertex.

図5の右側に示すように、本例ではスパン(1,4)を頂点とする部分木とスパン(5,7)を頂点とする部分木の2つの部分木が合意木として抽出される。例えばスパン(5,10)やスパン(8,10)は、S=Falseなので、それを頂点とする部分木は合意木にならない。ただし、包含関係にある合意木は最大のもののみを抽出する。 As shown on the right side of FIG. 5, in this example, two subtrees are extracted as a consensus tree, one having the span (1, 4) as the vertex and the other having the span (5, 7) as the vertex. For example, S=False for span (5, 10) and span (8, 10), so the subtree with these as vertices does not become a consensus tree. However, only the largest consensus tree in an inclusive relationship is extracted.

(事前学習部120について)
次に、事前学習部120の構成例と処理内容を説明する。事前学習部120は、疑似正解データ生成部110から疑似正解データを受け取り、ニューラルネットワークのモデルに基づく修辞構造解析器のパラメタを学習する。本実施の形態では、どのようなニューラル修辞構造解析器を用いてもよいが、非特許文献1に開示されている技術を例として、ニューラルネットワークモデルに基づく修辞構造解析器のパラメタ最適化について説明する。なお、事前学習においてパラメタはランダムに初期化されているものとする。
(About the pre-learning section 120)
Next, a configuration example and processing contents of the pre-learning section 120 will be explained. The pre-learning unit 120 receives the pseudo-correct data from the pseudo-correct data generating unit 110, and learns the parameters of the rhetorical structure analyzer based on the neural network model. In this embodiment, although any neural rhetorical structure analyzer may be used, parameter optimization of a rhetorical structure analyzer based on a neural network model will be explained using the technique disclosed in Non-Patent Document 1 as an example. do. It is assumed that the parameters are randomly initialized in the pre-learning.

図6に、事前学習部120の構成例を示す。図6に示すように、事前学習部120は、木構造推定部121、ラベル推定部122、及びパラメタ最適化部123を有する。以下、各部の処理内容について説明する。 FIG. 6 shows a configuration example of the pre-learning section 120. As shown in FIG. 6, the pre-learning unit 120 includes a tree structure estimation unit 121, a label estimation unit 122, and a parameter optimization unit 123. The processing contents of each part will be explained below.

<木構造推定部121>
木構造推定部121は、スパンの分割点を推定することで木構造を推定する。任意のスパン(i番目のEDUからj番目のEDUからなるEDUの系列)に対し、k番目のEDUでスパンが分割されるスコアssplit(i;j;k)が以下の式で与えられる。
<Tree structure estimation unit 121>
The tree structure estimation unit 121 estimates the tree structure by estimating the division points of the span. For any span (a series of EDUs consisting of the i-th EDU to the j-th EDU), the score s split (i; j; k) at which the span is divided by the k-th EDU is given by the following formula.

Figure 0007432898000001
ここで、Wは重み行列であり、v(添字lはLの小文字)とvはそれぞれ分割された左右のスパンに対する重みベクトルである。hi:kとhk+1:jは以下で定義される。
Figure 0007432898000001
Here, W u is a weight matrix, and v l (subscript l is a lowercase letter L) and v r are weight vectors for the divided left and right spans, respectively. h i:k and h k+1:j are defined below.

i:k=MLPleft(ui:k),hk+1:j=MLPright(uk+1:j
上記式のMLPは多層パーセプトロンを表す。スパンのベクトル表現ui:jは単語ベクトルをLSTMに入力することで得る。下記の式(2)に示すように、スパンは、下記の式(1)を最大にするkにて分割される。
h i:k = MLP left (u i:k ), h k+1:j = MLP right (u k+1:j )
MLP * in the above formula represents a multilayer perceptron. The vector representation of the span u i:j is obtained by inputting the word vector into the LSTM. As shown in equation (2) below, the span is divided by k that maximizes equation (1) below.

Figure 0007432898000002
<ラベル推定部122>
ラベル推定部122は、木構造推定部121が決定したスパンの分割点kに対し、分割した2つのスパンに対する核性、修辞関係ラベルを予測する。予測のスコアは以下の式で与えられる。
Figure 0007432898000002
<Label estimation unit 122>
The label estimating unit 122 predicts the core nature and rhetorical relationship labels for the two divided spans at the span dividing point k determined by the tree structure estimating unit 121. The prediction score is given by the following formula:

Figure 0007432898000003
(添字lはLの小文字)は重み行列であり、u1:i;uj:nはそれぞれi番目のEDUの左側のスパンのベクトル表現、j番目のEDUの右側のスパンのベクトル表現である。最終的に、以下の式(4)で式(3)を最大にするラベルが与えられる。
Figure 0007432898000003
W l (the subscript l is a lowercase letter L) is a weight matrix, and u 1:i ; u j:n are the vector representations of the left span of the i-th EDU and the vector representation of the right span of the j-th EDU, respectively. It is. Finally, the label that maximizes equation (3) is given by equation (4) below.

Figure 0007432898000004
Lは、ラベル集合であり核性ラベルを付与する場合には3種のラベルからなる集合{N-S、S-N、N-N}であり、修辞ラベルを付与する場合には18種のラベルからなる集合{Elaboration,Condition,......}である。なお、WとMLPは核性ラベルを与える場合と修辞ラベルを与える場合とで独立に最適化される。
Figure 0007432898000004
L is a label set, which is a set of three types of labels {NS, SN, N-N} when a nuclear label is assigned, and a set of 18 types when a rhetorical label is assigned. A set of labels {Elaboration, Condition, ...}. Note that W l and MLP are independently optimized for the case of giving a nuclear label and the case of giving a rhetorical label.

<パラメタ最適化部123>
パラメタ最適化部123は、学習対象の全てのパラメタ、すなわち、W、W、v、v、LSTM、及びMLPのパラメタを、以下に定義する2つの損失関数の和を最小化することで得る。なお、kとl(lはLの小文字)はそれぞれ正解(ここでは疑似正解データ)の分割位置、ラベルである。
<Parameter optimization unit 123>
The parameter optimization unit 123 minimizes all the parameters to be learned, that is, the parameters of W u , W l , v r , v l , LSTM, and MLP by the sum of two loss functions defined below. get it by doing that. Note that k * and l * (l is a lowercase letter L) are the division positions and labels of the correct answer (here, pseudo-correct data), respectively.

Figure 0007432898000005
損失関数を最小化する演算については、誤差逆伝搬法等の既存手法を用いて行うことができる。そして、パラメタ最適化部123は、最適化したパラメタをファインチューニング部130へ渡す。
Figure 0007432898000005
The calculation to minimize the loss function can be performed using existing methods such as error backpropagation. Then, the parameter optimization unit 123 passes the optimized parameters to the fine tuning unit 130.

<ファインチューニング部130>
ファインチューニング部130は、事前学習部120で最適化されたパラメタを初期値として正解データ(人手で作成したアノテーション済みデータ)を用いてニューラル修辞構造解析器のパラメタを再度最適化する。ファインチューニング部130は最適化されたパラメタを出力する。
<Fine tuning section 130>
The fine tuning unit 130 re-optimizes the parameters of the neural rhetorical structure analyzer using the correct data (annotated data created manually) with the parameters optimized by the pre-learning unit 120 as initial values. The fine tuning unit 130 outputs optimized parameters.

ファインチューニング部130の構成は図6に示した事前学習部120の構成と同じである。ただし、ファインチューニング部130では、パラメタの初期値として、事前学習部120で最適化されたパラメタを使用する点と、正解データとして、疑似正解データではなく、人手で作成したアノテーション済みデータを用いる点が、事前学習部120と異なる。 The configuration of the fine tuning section 130 is the same as the configuration of the pre-learning section 120 shown in FIG. However, the fine tuning unit 130 uses the parameters optimized by the pre-learning unit 120 as the initial values of the parameters, and uses manually created annotated data as the correct data, rather than pseudo-correct data. is different from the pre-learning section 120.

(装置のハードウェア構成例)
パラメタ最適化装置100、疑似正解データ生成部110、事前学習部120、ファインチューニング部130(これらを総称して「装置」と呼ぶ)はいずれも、例えば、コンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。
(Example of device hardware configuration)
The parameter optimization device 100, the pseudo-correct data generation unit 110, the pre-learning unit 120, and the fine-tuning unit 130 (collectively referred to as the “device”) are all implemented by, for example, a computer, which will be described in this embodiment. This can be achieved by executing a program that describes the processing contents.

上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。 The above program can be recorded on a computer-readable recording medium (such as a portable memory) and can be stored or distributed. It is also possible to provide the above program through a network such as the Internet or e-mail.

図7は、上記コンピュータのハードウェア構成例を示す図である。図7のコンピュータは、それぞれバスBSで相互に接続されているドライブ装置1000、補助記憶装置1002、メモリ装置1003、CPU1004、インタフェース装置1005、表示装置1006、入力装置1007、出力装置1008等を有する。 FIG. 7 is a diagram showing an example of the hardware configuration of the computer. The computer in FIG. 7 includes a drive device 1000, an auxiliary storage device 1002, a memory device 1003, a CPU 1004, an interface device 1005, a display device 1006, an input device 1007, an output device 1008, etc., which are interconnected by a bus BS.

当該コンピュータでの処理を実現するプログラムは、例えば、CD-ROM又はメモリカード等の記録媒体1001によって提供される。プログラムを記憶した記録媒体1001がドライブ装置1000にセットされると、プログラムが記録媒体1001からドライブ装置1000を介して補助記憶装置1002にインストールされる。但し、プログラムのインストールは必ずしも記録媒体1001より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置1002は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。 A program for realizing processing by the computer is provided, for example, by a recording medium 1001 such as a CD-ROM or a memory card. When the recording medium 1001 storing the program is set in the drive device 1000, the program is installed from the recording medium 1001 to the auxiliary storage device 1002 via the drive device 1000. However, the program does not necessarily need to be installed from the recording medium 1001, and may be downloaded from another computer via a network. The auxiliary storage device 1002 stores installed programs as well as necessary files, data, and the like.

メモリ装置1003は、プログラムの起動指示があった場合に、補助記憶装置1002からプログラムを読み出して格納する。CPU1004は、メモリ装置1003に格納されたプログラムに従って、当該装置に係る機能を実現する。インタフェース装置1005は、ネットワークに接続するためのインタフェースとして用いられる。表示装置1006はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置1007はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置1008は演算結果を出力する。 The memory device 1003 reads the program from the auxiliary storage device 1002 and stores it when there is an instruction to start the program. The CPU 1004 implements functions related to the device according to programs stored in the memory device 1003. The interface device 1005 is used as an interface for connecting to a network. A display device 1006 displays a GUI (Graphical User Interface) or the like based on a program. The input device 1007 is composed of a keyboard, a mouse, buttons, a touch panel, or the like, and is used to input various operation instructions. An output device 1008 outputs the calculation result.

(実施の形態の効果)
以上説明したとおり、本実施の形態では、ラベルなしデータを複数の修辞構造解析器を用いて解析した結果から共通する部分木を擬似正解データとし、疑似正解データを用いてニューラル修辞構造解析器のパラメタを事前学習により最適化し、そのパラメタを初期値として正解データを用いてファインチューニングすることにより、ニューラル修辞構造解析器のパラメタを最適化することとした。
(Effects of embodiment)
As explained above, in this embodiment, a common subtree from the results of analyzing unlabeled data using a plurality of rhetorical structure analyzers is used as pseudo-correct data, and the pseudo-correct data is used to analyze the neural rhetorical structure analyzer. We decided to optimize the parameters of the neural rhetorical structure analyzer by optimizing the parameters through pre-learning, and using the parameters as initial values and fine-tuning using the ground truth data.

これにより、ランダムな初期値から正解データ(大量に用意できないもの)のみを用いて最適化した場合よりも良いパラメタが得られ、ニューラル修辞構造解析器の性能が向上する。すなわち、大量の修辞構造アノテーション済みの正解データを用いることなく、性能の良い修辞構造解析器を実現することが可能となる。 As a result, better parameters can be obtained than when optimization is performed using only correct data (which cannot be prepared in large quantities) from random initial values, and the performance of the neural rhetorical structure analyzer is improved. In other words, it is possible to realize a rhetorical structure analyzer with good performance without using a large amount of correct answer data that has been annotated with rhetorical structure.

(実施の形態のまとめ)
本明細書には、少なくとも下記各項のパラメタ最適化装置、パラメタ最適化方法、及びプログラムが開示されている。
(第1項)
ラベルなしデータから複数の修辞構造解析器により得られた複数の修辞構造木において共通する部分木を、疑似正解データとして生成する疑似正解データ生成部と、
前記疑似正解データ生成部により生成された前記疑似正解データを用いて、ニューラルネットワークを用いた修辞構造解析器のパラメタを最適化する事前学習部と、
前記事前学習部により最適化された前記パラメタを、正解データを用いてファインチューニングするファインチューニング部と
を備えるパラメタ最適化装置。
(第2項)
前記疑似正解データ生成部は、前記複数の修辞構造木において共通に出現するスパンがあるかどうかの判断を再帰的に実行することにより前記疑似正解データを生成する
第1項に記載のパラメタ最適化装置。
(第3項)
パラメタ最適化装置が実行するパラメタ最適化方法であって、
ラベルなしデータから複数の修辞構造解析器により得られた複数の修辞構造木において共通する部分木を、疑似正解データとして生成する疑似正解データ生成ステップと、
前記疑似正解データ生成ステップにより生成された前記疑似正解データを用いて、ニューラルネットワークを用いた修辞構造解析器のパラメタを最適化する事前学習ステップと、
前記事前学習ステップにより最適化された前記パラメタを、正解データを用いてファインチューニングするファインチューニングステップと
を備えるパラメタ最適化方法。
(第4項)
コンピュータを、第1項又は第2項に記載のパラメタ最適化装置における各部として機能させるためのプログラム。
(Summary of embodiments)
This specification discloses at least a parameter optimization device, a parameter optimization method, and a program described in each of the following sections.
(Section 1)
a pseudo-correct data generation unit that generates, as pseudo-correct data, a subtree common to the plurality of rhetorical structure trees obtained from the unlabeled data by the plurality of rhetorical structure analyzers;
a pre-learning unit that optimizes parameters of a rhetorical structure analyzer using a neural network using the pseudo-correct data generated by the pseudo-correct data generating unit;
A parameter optimization device comprising: a fine-tuning unit that fine-tunes the parameters optimized by the pre-learning unit using correct data.
(Section 2)
Parameter optimization according to item 1, wherein the pseudo-correct data generation unit generates the pseudo-correct data by recursively determining whether there is a span that appears in common in the plurality of rhetorical structure trees. Device.
(Section 3)
A parameter optimization method executed by a parameter optimization device,
a pseudo-correct data generation step of generating, as pseudo-correct data, a subtree common to the plurality of rhetorical structure trees obtained from the unlabeled data by the plurality of rhetorical structure analyzers;
a pre-learning step of optimizing parameters of a rhetorical structure analyzer using a neural network using the pseudo-correct data generated in the pseudo-correct data generation step;
A parameter optimization method comprising: a fine-tuning step of fine-tuning the parameters optimized in the pre-learning step using correct data.
(Section 4)
A program for causing a computer to function as each part of the parameter optimization device according to item 1 or 2.

以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。 Although the present embodiment has been described above, the present invention is not limited to such specific embodiment, and various modifications and changes can be made within the scope of the gist of the present invention as described in the claims. It is possible.

100 パラメタ最適化装置
110 疑似正解データ生成部
115 合意木抽出部
120 事前学習部
121 木構造推定部
122 ラベル推定部
123 パラメタ最適化部
130 ファインチューニング部
1000 ドライブ装置
1001 記録媒体
1002 補助記憶装置
1003 メモリ装置
1004 CPU
1005 インタフェース装置
1006 表示装置
1007 入力装置
1008 出力装置
100 Parameter optimization device 110 Pseudo-correct data generation section 115 Consensus tree extraction section 120 Pre-learning section 121 Tree structure estimation section 122 Label estimation section 123 Parameter optimization section 130 Fine tuning section 1000 Drive device 1001 Recording medium 1002 Auxiliary storage device 1003 Memory Device 1004 CPU
1005 Interface device 1006 Display device 1007 Input device 1008 Output device

Claims (4)

ラベルなしデータから複数の修辞構造解析器により得られた複数の修辞構造木において共通する部分木を、疑似正解データとして生成する疑似正解データ生成部と、
前記疑似正解データ生成部により生成された前記疑似正解データを用いて、ニューラルネットワークを用いた修辞構造解析器のパラメタを最適化する事前学習部と、
前記事前学習部により最適化された前記パラメタを、正解データを用いてファインチューニングするファインチューニング部と
を備えるパラメタ最適化装置。
a pseudo-correct data generation unit that generates, as pseudo-correct data, a subtree common to the plurality of rhetorical structure trees obtained from the unlabeled data by the plurality of rhetorical structure analyzers;
a pre-learning unit that optimizes parameters of a rhetorical structure analyzer using a neural network using the pseudo-correct data generated by the pseudo-correct data generating unit;
A parameter optimization device comprising: a fine-tuning unit that fine-tunes the parameters optimized by the pre-learning unit using correct data.
前記疑似正解データ生成部は、前記複数の修辞構造木において共通に出現するスパンがあるかどうかの判断を再帰的に実行することにより前記疑似正解データを生成する
請求項1に記載のパラメタ最適化装置。
Parameter optimization according to claim 1, wherein the pseudo-correct data generation unit generates the pseudo-correct data by recursively determining whether there is a span that appears in common in the plurality of rhetorical structure trees. Device.
パラメタ最適化装置が実行するパラメタ最適化方法であって、
ラベルなしデータから複数の修辞構造解析器により得られた複数の修辞構造木において共通する部分木を、疑似正解データとして生成する疑似正解データ生成ステップと、
前記疑似正解データ生成ステップにより生成された前記疑似正解データを用いて、ニューラルネットワークを用いた修辞構造解析器のパラメタを最適化する事前学習ステップと、
前記事前学習ステップにより最適化された前記パラメタを、正解データを用いてファインチューニングするファインチューニングステップと
を備えるパラメタ最適化方法。
A parameter optimization method executed by a parameter optimization device, comprising:
a pseudo-correct data generation step of generating, as pseudo-correct data, a subtree common to the plurality of rhetorical structure trees obtained from the unlabeled data by the plurality of rhetorical structure analyzers;
a pre-learning step of optimizing parameters of a rhetorical structure analyzer using a neural network using the pseudo-correct data generated in the pseudo-correct data generation step;
A parameter optimization method comprising: a fine-tuning step of fine-tuning the parameters optimized in the pre-learning step using correct data.
コンピュータを、請求項1又は2に記載のパラメタ最適化装置における各部として機能させるためのプログラム。 A program for causing a computer to function as each part of the parameter optimization device according to claim 1 or 2.
JP2021035373A 2021-03-05 2021-03-05 Parameter optimization device, parameter optimization method, and program Active JP7432898B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021035373A JP7432898B2 (en) 2021-03-05 2021-03-05 Parameter optimization device, parameter optimization method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021035373A JP7432898B2 (en) 2021-03-05 2021-03-05 Parameter optimization device, parameter optimization method, and program

Publications (2)

Publication Number Publication Date
JP2022135517A JP2022135517A (en) 2022-09-15
JP7432898B2 true JP7432898B2 (en) 2024-02-19

Family

ID=83231486

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021035373A Active JP7432898B2 (en) 2021-03-05 2021-03-05 Parameter optimization device, parameter optimization method, and program

Country Status (1)

Country Link
JP (1) JP7432898B2 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007264974A (en) 2006-03-28 2007-10-11 Nec Corp Information extraction rule generation method and device, and program
JP2016162198A (en) 2015-03-02 2016-09-05 日本電信電話株式会社 Parameter learning method, device, and program
WO2021038886A1 (en) 2019-08-30 2021-03-04 富士通株式会社 Learning method, learning program, and learning device

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007264974A (en) 2006-03-28 2007-10-11 Nec Corp Information extraction rule generation method and device, and program
JP2016162198A (en) 2015-03-02 2016-09-05 日本電信電話株式会社 Parameter learning method, device, and program
WO2021038886A1 (en) 2019-08-30 2021-03-04 富士通株式会社 Learning method, learning program, and learning device

Also Published As

Publication number Publication date
JP2022135517A (en) 2022-09-15

Similar Documents

Publication Publication Date Title
JP6799800B2 (en) Semantic information generation method, semantic information generation device, and program
CN107949841B (en) Training device for question answering system and storage medium
US10503791B2 (en) System for creating a reasoning graph and for ranking of its nodes
Viegas et al. Cluhtm-semantic hierarchical topic modeling based on cluwords
JP5881048B2 (en) Information processing system and information processing method
Shah et al. Sentimental Analysis Using Supervised Learning Algorithms
US11003950B2 (en) System and method to identify entity of data
US11183175B2 (en) Systems and methods implementing data query language and utterance corpus implements for handling slot-filling and dialogue intent classification data in a machine learning task-oriented dialogue system
Dos Santos et al. Entropy guided transformation learning
US20230014904A1 (en) Searchable data structure for electronic documents
Chang et al. A word embedding-based approach to cross-lingual topic modeling
US8170967B2 (en) Knowledge base comprising executable stories
Yu et al. Multi-hop reasoning question generation and its application
JP6899973B2 (en) Semantic relationship learning device, semantic relationship learning method, and semantic relationship learning program
JP7432898B2 (en) Parameter optimization device, parameter optimization method, and program
US11144724B2 (en) Clustering of words with multiple meanings based on generating vectors for each meaning
Bova et al. Multi-level ontological model of big data processing
US20240028917A1 (en) Generating a knowledge base from mathematical formulae in technical documents
Fernandes et al. Entropy-guided feature generation for structured learning of Portuguese dependency parsing
Jiang et al. Manifold regularization in structured output space for semi-supervised structured output prediction
Hou et al. Domain transformation on biological event extraction by learning methods
Orhan et al. Learning word-vector quantization: a case study in morphological disambiguation
JP6230501B2 (en) Reduced feature generation apparatus, information processing apparatus, method, and program
WO2022074737A1 (en) Processing device, processing method, and non-temporary computer-readable medium having program stored therein
JP5829471B2 (en) Semantic analyzer and program thereof

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20210309

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20210309

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240123

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240129

R150 Certificate of patent or registration of utility model

Ref document number: 7432898

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150