JP7432898B2 - Parameter optimization device, parameter optimization method, and program - Google Patents
Parameter optimization device, parameter optimization method, and program Download PDFInfo
- Publication number
- JP7432898B2 JP7432898B2 JP2021035373A JP2021035373A JP7432898B2 JP 7432898 B2 JP7432898 B2 JP 7432898B2 JP 2021035373 A JP2021035373 A JP 2021035373A JP 2021035373 A JP2021035373 A JP 2021035373A JP 7432898 B2 JP7432898 B2 JP 7432898B2
- Authority
- JP
- Japan
- Prior art keywords
- pseudo
- correct data
- rhetorical structure
- parameter optimization
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005457 optimization Methods 0.000 title claims description 32
- 238000000034 method Methods 0.000 title claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 8
- 230000001537 neural effect Effects 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Description
本発明は、計算機を用いて自動的に言語を処理する自然言語処理分野に属し、特に、EDU(Elementary Discourse Units)を葉とした木構造(修辞構造木)として文書を表す修辞構造解析技術に関連するものである。 The present invention belongs to the field of natural language processing in which language is automatically processed using a computer, and in particular to rhetorical structure analysis technology that represents a document as a tree structure (rhetorical structure tree) with EDU (Elementary Discourse Units) as leaves. It is related.
文書の修辞構造解析を行って、修辞構造木を自動的に構築する様々な修辞構造解析器が提案されている。多くの修辞構造解析器は人間が用意した正解データ、すなわち、修辞構造を表すアノテーションが付与された文書を学習データとしたニューラルネットワークを利用して実現されている。 Various rhetorical structure analyzers have been proposed that automatically construct a rhetorical structure tree by analyzing the rhetorical structure of a document. Many rhetorical structure analyzers are implemented using neural networks that use human-prepared ground truth data, that is, documents annotated with rhetorical structure, as training data.
例えば、非特許文献1に開示された技術では、スパンの2分割によって木構造を推定するネットワークのパラメタ、隣接するスパンに対する核性、関係ラベルを付与するネットワークのパラメタを、それぞれ正解データを用いて学習している。なお、核性ラベリングは分割された2つのスパンを「N-S」、「S-N」、「N-N」の3通りのいずれかに分類する問題に帰着し、関係ラベリングは「Elaboration,Background」などの全18種のいずれかのラベルに分類する問題に帰着する。
For example, in the technology disclosed in Non-Patent
修辞構造のアノテーションには多大なコストがかかるため大量の修辞構造アノテーション済みデータを用意することが困難であり、現状で最大規模のデータでも385文書しかない。よって、多くの修辞構造解析技術はデータスパースネスの問題に直面しており、特に18クラス分類問題を解かねばならない関係ラベリングの性能に問題がある。 Rhetorical structure annotation costs a lot of money, so it is difficult to prepare a large amount of rhetorical structure annotated data, and at present the largest amount of data is only 385 documents. Therefore, many rhetorical structure analysis techniques face the problem of data sparsity, especially the performance of relational labeling, which has to solve an 18-class classification problem.
本発明は上記の点に鑑みてなされたものであり、大量の修辞構造アノテーション済みデータを用いることなく、性能の良い修辞構造解析器を実現するための技術を提供することを目的とする。 The present invention has been made in view of the above points, and it is an object of the present invention to provide a technique for realizing a rhetorical structure analyzer with good performance without using a large amount of rhetorical structure annotated data.
開示の技術によれば、ラベルなしデータから複数の修辞構造解析器により得られた複数の修辞構造木において共通する部分木を、疑似正解データとして生成する疑似正解データ生成部と、
前記疑似正解データ生成部により生成された前記疑似正解データを用いて、ニューラルネットワークを用いた修辞構造解析器のパラメタを最適化する事前学習部と、
前記事前学習部により最適化された前記パラメタを、正解データを用いてファインチューニングするファインチューニング部と
を備えるパラメタ最適化装置が提供される。
According to the disclosed technology, a pseudo-correct data generation unit that generates, as pseudo-correct data, a subtree common to a plurality of rhetorical structure trees obtained from unlabeled data by a plurality of rhetorical structure analyzers;
a pre-learning unit that optimizes parameters of a rhetorical structure analyzer using a neural network using the pseudo-correct data generated by the pseudo-correct data generating unit;
A parameter optimization device is provided, comprising: a fine-tuning unit that fine-tunes the parameters optimized by the pre-learning unit using correct data.
開示の技術によれば、大量の修辞構造アノテーション済みデータを用いることなく、性能の良い修辞構造解析器を実現するための技術が提供される。 According to the disclosed technique, a technique is provided for realizing a rhetorical structure analyzer with good performance without using a large amount of rhetorical structure annotated data.
以下、図面を参照して本発明の実施の形態(本実施の形態)を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。 DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention (this embodiment) will be described below with reference to the drawings. The embodiments described below are merely examples, and embodiments to which the present invention is applied are not limited to the following embodiments.
(修辞構造木について)
まず、本実施の形態において対象としている修辞構造木の例を説明する。修辞構造木は、それを構成する最小の談話基本単位であるEDUの系列(以降、スパンと呼ぶ)を修辞関係により結合し、より大きなスパンを構成するという操作を再帰的に繰り返すことによって得られる木である。
(About rhetorical structure trees)
First, an example of a rhetorical structure tree targeted in this embodiment will be explained. A rhetorical structure tree is obtained by recursively repeating the operation of connecting a series of EDUs (hereinafter referred to as spans), which are the smallest basic units of discourse that make up the tree, through rhetorical relationships to form larger spans. It's a tree.
木の葉はEDU(節に相当)のユニットであり、木のノードにはそれが支配するスパンの核性ラベルが付与される。結合される2つのスパン(兄弟スパン)の一方は重要な情報を持つ核となり、もう一方はそれを補足する衛星となる。例外的に双方が核となる場合もある。木の枝にはスパン間の修辞関係を表す関係ラベルが付与される。 A leaf of a tree is a unit of EDU (equivalent to a node), and a node of the tree is given a nuclearity label of the span it dominates. One of the two spans (sibling spans) that will be combined will become a core containing important information, and the other will become a satellite that supplements it. In exceptional cases, both sides may be the core. Tree branches are given relational labels that represent the rhetorical relationships between spans.
図1に修辞構造木の例を示す。図中のe1~e7がそれぞれEDUであり、S/Nがスパンの核性ラベル(Nが核でSが衛星)、Condition、Elaborationなどが兄弟スパンの間の関係ラベルである。関係ラベルは兄弟スパンの核性がSとNの組合せの場合、S側のスパンに対して与えられ、NとNとなる場合には双方のスパンに対して与えられる。ConditionやElaborationはSとNの組合せに対して与えられ、List、Same-UnitはNとNの組合せに与えられる。 Figure 1 shows an example of a rhetorical structure tree. In the figure, e 1 to e 7 are EDUs, S/N is the nuclearity label of the span (N is the nucleus, S is the satellite), Condition, Elaboration, etc. are the relationship labels between the sibling spans. When the nuclearity of the sibling spans is a combination of S and N, the relationship label is given to the span on the S side, and when it is N and N, it is given to both spans. Condition and Elaboration are given to the combination of S and N, and List and Same-Unit are given to the combination of N and N.
(実施の形態の概要)
本実施の形態では、パラメタ最適化装置100が、まず、既存の複数の修辞構造解析器を用いて大量のラベルなしデータを解析することである程度の頻度を保ったうえで多様なラベルを持つデータセットを構築する。次に、複数の修辞構造解析器から得られた複数の修辞構造木の間で共通する部分木を擬似正解データとして抽出する。そして、擬似正解データを用いてニューラルネットに基づく修辞構造解析器のパラメタを事前学習した後、正解データ(人手によるアノテーション済みデータ)を用いてパラメタをファインチューニングする。
(Summary of embodiment)
In this embodiment, the
上記の処理により得られたパラメタを用いてニューラルネットワークに基づく修辞構造解析器を構成することにより、人手アノテーション済みデータはファインチューニングのみで使用すればよいため、大量の人手アノテーション済みデータを用いることなく、性能の良い修辞構造解析器を実現することができる。 By configuring a rhetorical structure analyzer based on a neural network using the parameters obtained through the above processing, the manually annotated data can be used only for fine tuning, thereby eliminating the need to use a large amount of manually annotated data. , it is possible to realize a rhetorical structure analyzer with good performance.
(装置構成例、動作概要)
図2に、本実施の形態におけるパラメタ最適化装置100の構成例を示す。図2に示すようにパラメタ最適化装置100は、疑似正解データ生成部110、事前学習部120、ファインチューニング部130を備える。
(Device configuration example, operation overview)
FIG. 2 shows a configuration example of the
パラメタ最適化装置100は、1つのコンピュータで実装されてもよいし、複数のコンピュータで実装されてもよい。また、パラメタ最適化装置100のうちの一部又は全部の機能が、クラウド上の仮想マシンで実装されてもよい。疑似正解データ生成部110、事前学習部120、ファインチューニング部130をそれぞれ、疑似正解データ生成装置、事前学習装置、ファインチューニング装置と呼んでもよい。
The
図2には、処理の流れも示されている。図2に示すように、疑似正解データ生成部110は、ラベルなしデータから疑似正解データを生成し、事前学習部120が疑似正解データを用いてニューラルネットワークに基づく修辞構造解析器のパラメタを学習する。ファインチューニング部130は、事前学習部120により学習されたパラメタを初期値として、正解データ(人手アノテーション済みデータ)を用いてパラメタを再度学習する。
FIG. 2 also shows the flow of processing. As shown in FIG. 2, the pseudo-correct
以下、各部の処理内容を詳細に説明する。 The processing contents of each part will be explained in detail below.
(疑似正解データ生成部110)
疑似正解データ生成部110は、複数の修辞構造解析器を用いてラベルなしデータを解析した結果から共通する部分木を合意木として生成し、それを擬似正解データとして事前学習部120へと渡す。
(Pseudo-correct data generation unit 110)
The pseudo-correct
図3を参照して疑似正解データ生成部110について説明する。図3に示すように、疑似正解データ生成部110は、n個の修辞構造解析器と、合意木抽出部115を備える。
The pseudo-correct
n個の修辞構造解析器について、異なるn個の修辞構造解析器を使用してもよいし、同じ修辞構造解析器のハイパーパラメタを変更したものをn個使用してもよい。 Regarding the n rhetorical structure analyzers, n different rhetorical structure analyzers may be used, or n pieces of the same rhetorical structure analyzer with modified hyperparameters may be used.
図3に示すように、n個の修辞構造解析器はそれぞれ、入力されたラベルなしデータを独立に解析し、各文書に対する修辞構造木を生成する。これにより、n個の修辞構造木が生成される。 As shown in FIG. 3, each of the n rhetorical structure analyzers independently analyzes input unlabeled data and generates a rhetorical structure tree for each document. This generates n rhetorical structure trees.
次に、合意木抽出部115がn個の修辞構造木の間で共通する部分木を抽出し、疑似正解データとして事前学習部120へ渡す。
Next, the consensus
<合意木抽出部115の処理>
合意木抽出部115の処理内容を詳細に説明する。n個の修辞構造木の間で共通する部分木を抽出するアルゴリズム1を図4に示す。アルゴリズム1は、合意木抽出部115が実行するプログラムに相当する。
<Processing of the consensus
The processing contents of the consensus
アルゴリズム1を実行する合意木抽出部115は、ある文書に対する異なるn個の修辞構造木を入力(trees)として受け取り、それらに共通する部分木(subtrees)を合意木として出力する。
The consensus
3行目に示される関数AGREEMENTは、ノードspanを頂点とした部分木が合意木であるか否かを判定する関数である。spanが葉の場合、AGREEMENTは真を返す(4行目、5行目)。
The function AGREEMENT shown in the third line is a function that determines whether the subtree with the node span as the vertex is a consensus tree. If span is a leaf, AGREEMENT returns true (
それ以外の場合、関数AGREEMENTは、ノードspanの頻度がnの場合にScの値を真にし(7行目、8行目)、そうでない場合には偽にする(10行目)。なお、頻度とは、対象としているn個の修辞構造木における該当ノードspanの個数である。
Otherwise, the function AGREEMENT makes the value of S c true when the frequency of the node span is n (
そして、ノードspanの左の子ノード、右の子ノードに対するAGREEMENTの値をそれぞれSl、Srに格納する(11行目、12行目)。Sc、Sl、Srの全てが真のとき、AGREEMENTは真を返し、それ以外は偽を返す(13~17行目)。
Then, the values of AGREEMENT for the left child node and right child node of node span are stored in S l and S r , respectively (11th line and 12th line). When S c , S l , and S r are all true, AGREEMENT returns true; otherwise, it returns false (
2行目(及び18~33行目)の関数FINDROOTにより、SがTrueであるノード(スパン)を追加していくことで部分木を生成し、出力する。
The function FINDROO on the second line (and
n個の修辞構造木のいずれか一つを対象として関数AGREEMENTをそのルートノードから順に深さ優先探索で適用していくことで合意木を得る。ただし、部分木のサイズを制御するため、葉の数に対して最小値lminと最大値lmaxの制約を導入する(21~26行目)。
An agreement tree is obtained by sequentially applying the function AGREEMENT to any one of the n rhetorical structure trees in a depth-first search starting from its root node. However, in order to control the size of the subtree, constraints of a minimum value l min and a maximum value l max are introduced for the number of leaves (
図5を参照して、n=2の場合における、アルゴリズム1に従って動作する合意木抽出部115の動作例を説明する。まず、図5の左側に示す2つの木についてラベルも考慮してノードの頻度を数えておく。なお、ノードはスパン、つまりそれが支配するEDUの開始、終了インデックスを表す。
Referring to FIG. 5, an example of the operation of the consensus
図5の左側において、2つの修辞構造木の間で共通するノードは、下線を引いて示したノードである。図5の左上の修辞構造木を取り出し、アルゴリズム1を適用する。図5の右側に、左上の修辞構造木を取り出してアルゴリズム1が適用された際の各ノードでのSc、Sl、Sr、Sが示されている。
On the left side of FIG. 5, the nodes that are common between the two rhetorical structure trees are the underlined nodes. The rhetorical structure tree at the top left of FIG. 5 is taken out and
AGREEMENT(1,10)はスパン(1,10)の頻度が2であることからSc(1,10)をTrueにセットし、左の子供(1,4)と右の子供(5,10)に対してAGREEMENTを適用する。 AGREEMENT(1,10) sets S c (1,10) to True because the frequency of span (1,10) is 2, and the left child (1,4) and right child (5,10 ) to apply AGREEMENT.
それぞれに対して、AGREEMENTを再帰的に適用し、Scを決定していくと修辞構造木の葉(開始と終了インデックスが等しいスパン)に行き着くのでSの値はTrueにセットされる。つまり、アルゴリズム1では、複数の修辞構造木において共通に出現するスパンがあるかどうかの判断を再帰的に実行することとしている。そして、すでにセットしたScと左右のノードから決定されたSl、Srの値に基づき各ノードのSの値が決定される。図5の右側の修辞構造木における下から上への矢印線は、各ノードのSの値が順次決定される様子を示している。あるノードについて、そのノードのSと、そのノードの下にある全てのノードのSがTrueである部分木が、そのノードを頂点とする合意木になる。
For each, by recursively applying AGREEMENT and determining S c , we arrive at a leaf of the rhetorical structure tree (a span with equal start and end indices), so the value of S is set to True. In other words, in
図5の右側に示すように、本例ではスパン(1,4)を頂点とする部分木とスパン(5,7)を頂点とする部分木の2つの部分木が合意木として抽出される。例えばスパン(5,10)やスパン(8,10)は、S=Falseなので、それを頂点とする部分木は合意木にならない。ただし、包含関係にある合意木は最大のもののみを抽出する。 As shown on the right side of FIG. 5, in this example, two subtrees are extracted as a consensus tree, one having the span (1, 4) as the vertex and the other having the span (5, 7) as the vertex. For example, S=False for span (5, 10) and span (8, 10), so the subtree with these as vertices does not become a consensus tree. However, only the largest consensus tree in an inclusive relationship is extracted.
(事前学習部120について)
次に、事前学習部120の構成例と処理内容を説明する。事前学習部120は、疑似正解データ生成部110から疑似正解データを受け取り、ニューラルネットワークのモデルに基づく修辞構造解析器のパラメタを学習する。本実施の形態では、どのようなニューラル修辞構造解析器を用いてもよいが、非特許文献1に開示されている技術を例として、ニューラルネットワークモデルに基づく修辞構造解析器のパラメタ最適化について説明する。なお、事前学習においてパラメタはランダムに初期化されているものとする。
(About the pre-learning section 120)
Next, a configuration example and processing contents of the
図6に、事前学習部120の構成例を示す。図6に示すように、事前学習部120は、木構造推定部121、ラベル推定部122、及びパラメタ最適化部123を有する。以下、各部の処理内容について説明する。
FIG. 6 shows a configuration example of the
<木構造推定部121>
木構造推定部121は、スパンの分割点を推定することで木構造を推定する。任意のスパン(i番目のEDUからj番目のEDUからなるEDUの系列)に対し、k番目のEDUでスパンが分割されるスコアssplit(i;j;k)が以下の式で与えられる。
<Tree
The tree
hi:k=MLPleft(ui:k),hk+1:j=MLPright(uk+1:j)
上記式のMLP*は多層パーセプトロンを表す。スパンのベクトル表現ui:jは単語ベクトルをLSTMに入力することで得る。下記の式(2)に示すように、スパンは、下記の式(1)を最大にするkにて分割される。
h i:k = MLP left (u i:k ), h k+1:j = MLP right (u k+1:j )
MLP * in the above formula represents a multilayer perceptron. The vector representation of the span u i:j is obtained by inputting the word vector into the LSTM. As shown in equation (2) below, the span is divided by k that maximizes equation (1) below.
ラベル推定部122は、木構造推定部121が決定したスパンの分割点kに対し、分割した2つのスパンに対する核性、修辞関係ラベルを予測する。予測のスコアは以下の式で与えられる。
The
<パラメタ最適化部123>
パラメタ最適化部123は、学習対象の全てのパラメタ、すなわち、Wu、Wl、vr、vl、LSTM、及びMLPのパラメタを、以下に定義する2つの損失関数の和を最小化することで得る。なお、k*とl*(lはLの小文字)はそれぞれ正解(ここでは疑似正解データ)の分割位置、ラベルである。
<
The
<ファインチューニング部130>
ファインチューニング部130は、事前学習部120で最適化されたパラメタを初期値として正解データ(人手で作成したアノテーション済みデータ)を用いてニューラル修辞構造解析器のパラメタを再度最適化する。ファインチューニング部130は最適化されたパラメタを出力する。
<
The
ファインチューニング部130の構成は図6に示した事前学習部120の構成と同じである。ただし、ファインチューニング部130では、パラメタの初期値として、事前学習部120で最適化されたパラメタを使用する点と、正解データとして、疑似正解データではなく、人手で作成したアノテーション済みデータを用いる点が、事前学習部120と異なる。
The configuration of the
(装置のハードウェア構成例)
パラメタ最適化装置100、疑似正解データ生成部110、事前学習部120、ファインチューニング部130(これらを総称して「装置」と呼ぶ)はいずれも、例えば、コンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。
(Example of device hardware configuration)
The
上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。 The above program can be recorded on a computer-readable recording medium (such as a portable memory) and can be stored or distributed. It is also possible to provide the above program through a network such as the Internet or e-mail.
図7は、上記コンピュータのハードウェア構成例を示す図である。図7のコンピュータは、それぞれバスBSで相互に接続されているドライブ装置1000、補助記憶装置1002、メモリ装置1003、CPU1004、インタフェース装置1005、表示装置1006、入力装置1007、出力装置1008等を有する。
FIG. 7 is a diagram showing an example of the hardware configuration of the computer. The computer in FIG. 7 includes a
当該コンピュータでの処理を実現するプログラムは、例えば、CD-ROM又はメモリカード等の記録媒体1001によって提供される。プログラムを記憶した記録媒体1001がドライブ装置1000にセットされると、プログラムが記録媒体1001からドライブ装置1000を介して補助記憶装置1002にインストールされる。但し、プログラムのインストールは必ずしも記録媒体1001より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置1002は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
A program for realizing processing by the computer is provided, for example, by a
メモリ装置1003は、プログラムの起動指示があった場合に、補助記憶装置1002からプログラムを読み出して格納する。CPU1004は、メモリ装置1003に格納されたプログラムに従って、当該装置に係る機能を実現する。インタフェース装置1005は、ネットワークに接続するためのインタフェースとして用いられる。表示装置1006はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置1007はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置1008は演算結果を出力する。
The
(実施の形態の効果)
以上説明したとおり、本実施の形態では、ラベルなしデータを複数の修辞構造解析器を用いて解析した結果から共通する部分木を擬似正解データとし、疑似正解データを用いてニューラル修辞構造解析器のパラメタを事前学習により最適化し、そのパラメタを初期値として正解データを用いてファインチューニングすることにより、ニューラル修辞構造解析器のパラメタを最適化することとした。
(Effects of embodiment)
As explained above, in this embodiment, a common subtree from the results of analyzing unlabeled data using a plurality of rhetorical structure analyzers is used as pseudo-correct data, and the pseudo-correct data is used to analyze the neural rhetorical structure analyzer. We decided to optimize the parameters of the neural rhetorical structure analyzer by optimizing the parameters through pre-learning, and using the parameters as initial values and fine-tuning using the ground truth data.
これにより、ランダムな初期値から正解データ(大量に用意できないもの)のみを用いて最適化した場合よりも良いパラメタが得られ、ニューラル修辞構造解析器の性能が向上する。すなわち、大量の修辞構造アノテーション済みの正解データを用いることなく、性能の良い修辞構造解析器を実現することが可能となる。 As a result, better parameters can be obtained than when optimization is performed using only correct data (which cannot be prepared in large quantities) from random initial values, and the performance of the neural rhetorical structure analyzer is improved. In other words, it is possible to realize a rhetorical structure analyzer with good performance without using a large amount of correct answer data that has been annotated with rhetorical structure.
(実施の形態のまとめ)
本明細書には、少なくとも下記各項のパラメタ最適化装置、パラメタ最適化方法、及びプログラムが開示されている。
(第1項)
ラベルなしデータから複数の修辞構造解析器により得られた複数の修辞構造木において共通する部分木を、疑似正解データとして生成する疑似正解データ生成部と、
前記疑似正解データ生成部により生成された前記疑似正解データを用いて、ニューラルネットワークを用いた修辞構造解析器のパラメタを最適化する事前学習部と、
前記事前学習部により最適化された前記パラメタを、正解データを用いてファインチューニングするファインチューニング部と
を備えるパラメタ最適化装置。
(第2項)
前記疑似正解データ生成部は、前記複数の修辞構造木において共通に出現するスパンがあるかどうかの判断を再帰的に実行することにより前記疑似正解データを生成する
第1項に記載のパラメタ最適化装置。
(第3項)
パラメタ最適化装置が実行するパラメタ最適化方法であって、
ラベルなしデータから複数の修辞構造解析器により得られた複数の修辞構造木において共通する部分木を、疑似正解データとして生成する疑似正解データ生成ステップと、
前記疑似正解データ生成ステップにより生成された前記疑似正解データを用いて、ニューラルネットワークを用いた修辞構造解析器のパラメタを最適化する事前学習ステップと、
前記事前学習ステップにより最適化された前記パラメタを、正解データを用いてファインチューニングするファインチューニングステップと
を備えるパラメタ最適化方法。
(第4項)
コンピュータを、第1項又は第2項に記載のパラメタ最適化装置における各部として機能させるためのプログラム。
(Summary of embodiments)
This specification discloses at least a parameter optimization device, a parameter optimization method, and a program described in each of the following sections.
(Section 1)
a pseudo-correct data generation unit that generates, as pseudo-correct data, a subtree common to the plurality of rhetorical structure trees obtained from the unlabeled data by the plurality of rhetorical structure analyzers;
a pre-learning unit that optimizes parameters of a rhetorical structure analyzer using a neural network using the pseudo-correct data generated by the pseudo-correct data generating unit;
A parameter optimization device comprising: a fine-tuning unit that fine-tunes the parameters optimized by the pre-learning unit using correct data.
(Section 2)
Parameter optimization according to
(Section 3)
A parameter optimization method executed by a parameter optimization device,
a pseudo-correct data generation step of generating, as pseudo-correct data, a subtree common to the plurality of rhetorical structure trees obtained from the unlabeled data by the plurality of rhetorical structure analyzers;
a pre-learning step of optimizing parameters of a rhetorical structure analyzer using a neural network using the pseudo-correct data generated in the pseudo-correct data generation step;
A parameter optimization method comprising: a fine-tuning step of fine-tuning the parameters optimized in the pre-learning step using correct data.
(Section 4)
A program for causing a computer to function as each part of the parameter optimization device according to
以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。 Although the present embodiment has been described above, the present invention is not limited to such specific embodiment, and various modifications and changes can be made within the scope of the gist of the present invention as described in the claims. It is possible.
100 パラメタ最適化装置
110 疑似正解データ生成部
115 合意木抽出部
120 事前学習部
121 木構造推定部
122 ラベル推定部
123 パラメタ最適化部
130 ファインチューニング部
1000 ドライブ装置
1001 記録媒体
1002 補助記憶装置
1003 メモリ装置
1004 CPU
1005 インタフェース装置
1006 表示装置
1007 入力装置
1008 出力装置
100
1005
Claims (4)
前記疑似正解データ生成部により生成された前記疑似正解データを用いて、ニューラルネットワークを用いた修辞構造解析器のパラメタを最適化する事前学習部と、
前記事前学習部により最適化された前記パラメタを、正解データを用いてファインチューニングするファインチューニング部と
を備えるパラメタ最適化装置。 a pseudo-correct data generation unit that generates, as pseudo-correct data, a subtree common to the plurality of rhetorical structure trees obtained from the unlabeled data by the plurality of rhetorical structure analyzers;
a pre-learning unit that optimizes parameters of a rhetorical structure analyzer using a neural network using the pseudo-correct data generated by the pseudo-correct data generating unit;
A parameter optimization device comprising: a fine-tuning unit that fine-tunes the parameters optimized by the pre-learning unit using correct data.
請求項1に記載のパラメタ最適化装置。 Parameter optimization according to claim 1, wherein the pseudo-correct data generation unit generates the pseudo-correct data by recursively determining whether there is a span that appears in common in the plurality of rhetorical structure trees. Device.
ラベルなしデータから複数の修辞構造解析器により得られた複数の修辞構造木において共通する部分木を、疑似正解データとして生成する疑似正解データ生成ステップと、
前記疑似正解データ生成ステップにより生成された前記疑似正解データを用いて、ニューラルネットワークを用いた修辞構造解析器のパラメタを最適化する事前学習ステップと、
前記事前学習ステップにより最適化された前記パラメタを、正解データを用いてファインチューニングするファインチューニングステップと
を備えるパラメタ最適化方法。 A parameter optimization method executed by a parameter optimization device, comprising:
a pseudo-correct data generation step of generating, as pseudo-correct data, a subtree common to the plurality of rhetorical structure trees obtained from the unlabeled data by the plurality of rhetorical structure analyzers;
a pre-learning step of optimizing parameters of a rhetorical structure analyzer using a neural network using the pseudo-correct data generated in the pseudo-correct data generation step;
A parameter optimization method comprising: a fine-tuning step of fine-tuning the parameters optimized in the pre-learning step using correct data.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021035373A JP7432898B2 (en) | 2021-03-05 | 2021-03-05 | Parameter optimization device, parameter optimization method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021035373A JP7432898B2 (en) | 2021-03-05 | 2021-03-05 | Parameter optimization device, parameter optimization method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022135517A JP2022135517A (en) | 2022-09-15 |
JP7432898B2 true JP7432898B2 (en) | 2024-02-19 |
Family
ID=83231486
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021035373A Active JP7432898B2 (en) | 2021-03-05 | 2021-03-05 | Parameter optimization device, parameter optimization method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7432898B2 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007264974A (en) | 2006-03-28 | 2007-10-11 | Nec Corp | Information extraction rule generation method and device, and program |
JP2016162198A (en) | 2015-03-02 | 2016-09-05 | 日本電信電話株式会社 | Parameter learning method, device, and program |
WO2021038886A1 (en) | 2019-08-30 | 2021-03-04 | 富士通株式会社 | Learning method, learning program, and learning device |
-
2021
- 2021-03-05 JP JP2021035373A patent/JP7432898B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007264974A (en) | 2006-03-28 | 2007-10-11 | Nec Corp | Information extraction rule generation method and device, and program |
JP2016162198A (en) | 2015-03-02 | 2016-09-05 | 日本電信電話株式会社 | Parameter learning method, device, and program |
WO2021038886A1 (en) | 2019-08-30 | 2021-03-04 | 富士通株式会社 | Learning method, learning program, and learning device |
Also Published As
Publication number | Publication date |
---|---|
JP2022135517A (en) | 2022-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6799800B2 (en) | Semantic information generation method, semantic information generation device, and program | |
CN107949841B (en) | Training device for question answering system and storage medium | |
US10503791B2 (en) | System for creating a reasoning graph and for ranking of its nodes | |
Viegas et al. | Cluhtm-semantic hierarchical topic modeling based on cluwords | |
JP5881048B2 (en) | Information processing system and information processing method | |
Shah et al. | Sentimental Analysis Using Supervised Learning Algorithms | |
US11003950B2 (en) | System and method to identify entity of data | |
US11183175B2 (en) | Systems and methods implementing data query language and utterance corpus implements for handling slot-filling and dialogue intent classification data in a machine learning task-oriented dialogue system | |
Dos Santos et al. | Entropy guided transformation learning | |
US20230014904A1 (en) | Searchable data structure for electronic documents | |
Chang et al. | A word embedding-based approach to cross-lingual topic modeling | |
US8170967B2 (en) | Knowledge base comprising executable stories | |
Yu et al. | Multi-hop reasoning question generation and its application | |
JP6899973B2 (en) | Semantic relationship learning device, semantic relationship learning method, and semantic relationship learning program | |
JP7432898B2 (en) | Parameter optimization device, parameter optimization method, and program | |
US11144724B2 (en) | Clustering of words with multiple meanings based on generating vectors for each meaning | |
Bova et al. | Multi-level ontological model of big data processing | |
US20240028917A1 (en) | Generating a knowledge base from mathematical formulae in technical documents | |
Fernandes et al. | Entropy-guided feature generation for structured learning of Portuguese dependency parsing | |
Jiang et al. | Manifold regularization in structured output space for semi-supervised structured output prediction | |
Hou et al. | Domain transformation on biological event extraction by learning methods | |
Orhan et al. | Learning word-vector quantization: a case study in morphological disambiguation | |
JP6230501B2 (en) | Reduced feature generation apparatus, information processing apparatus, method, and program | |
WO2022074737A1 (en) | Processing device, processing method, and non-temporary computer-readable medium having program stored therein | |
JP5829471B2 (en) | Semantic analyzer and program thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20210309 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20210309 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230215 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240117 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240123 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240129 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7432898 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |