CN115391608B

CN115391608B - 一种图到图结构的自动标注转换方法

Info

Publication number: CN115391608B
Application number: CN202211013667.6A
Authority: CN
Inventors: 车万翔; 雷志林; 赵妍妍; 刘挺
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2022-08-23
Filing date: 2022-08-23
Publication date: 2023-05-23
Anticipated expiration: 2042-08-23
Also published as: CN115391608A

Abstract

一种图到图结构的自动标注转换方法，涉及自然语言处理技术领域，针对现有技术中通过人工进行标注规范转换准确率低的问题，本申请通过简单有效的线性变换将源解析器中的核心参数适配到目标解析器中，并继承源解析器中的所有其他参数。图到图线性变换方法能充分继承源标准规范的信息并将其迁移到目标规范，因此本申请能有效避免人工规则和大量平行语料的限制，大幅提升图结构转换的准确率以及获得高质量的图结构标注数据。在少量平行语料帮助下，本申请的方法可以取得比现有的各种基线模型更好的效果。

Description

一种图到图结构的自动标注转换方法

技术领域

本发明涉及自然语言处理技术领域，具体为一种图到图结构的自动标注转换方法。

背景技术

随着深度学习的发展，监督学习算法的能力得到了巨大的跨越。然而基于深度学习的监督学习算法需要大量的标注数据，对于图结构的标注数据，由于其标注难度高，标注时间长，因此获取的成本十分高昂。图到图结构的转换任务是给定一个文本句子以及基于该文本标注的源规范的图结构信息，将该图结构信息转化为目标规范(另一种标注规范)的图结构信息，可有效扩充标注数据。传统基于规则的方法在解决该问题的时候往往需要专家构建十分准确的转换规则，费时费力，开发周期长。此外，专家构建的规则面临通用性的问题，无法解决所有场景下的图到图结构的自动标注。传统监督学习算法需要大量的平行标注语料(同时标注源规范图结构和目标规范的图结构)，然后将源规范的图结构信息进行编码融入图结构分析器中，以达到让模型来隐式学习转换规则。这些方法都无法摆脱人工规则或者大量标注数据的限制。

发明内容

本发明的目的是：针对现有技术中通过人工进行标注规范转换准确率低的问题，提出一种图到图结构的自动标注转换方法。

本发明为了解决上述技术问题采取的技术方案是：

一种图到图结构的自动标注转换方法，包括以下步骤：

步骤一：获取源规范文本，然后使用预训练语言模型对源规范文本进行编码，得到向量表示；

步骤二：根据编码后的向量表示，并利用双仿射分析器得到源规范解析器；

步骤三：将线性函数作用于源规范解析器的注意力矩阵上，同时冻结注意力矩阵的参数，得到目标规范解析器；

步骤四：对源规范文本进行标注，得到目标规范的标注文本，之后利用目标规范的标注文本和源规范文本对目标规范解析器进行优化，得到优化后的目标规范解析器；

步骤五：利用优化后的目标规范解析器对待标注文本进行预测，得到目标规范的标注信息。

进一步的，所述步骤二的具体步骤为：

步骤二一：将编码后的向量表示通过多层的双向LSTM结构进行编码，得到编码表示h_i；

步骤二二：将编码表示h_i分别送入4个单层的前向神经网络层中，得到第i个词语作为头结点或者依附节点的弧表示和标签表示；

步骤二三：通过双仿射分类器预测弧表示的分数和标签表示的分数；

步骤二四：对于弧表示的分数，若弧表示的分数不小于预先设定的阈值，则头结点和依附节点之间存在弧，并执行步骤二五；

步骤二五：对于标签表示的分数，取最大的分数对应的标签类别，将该标签类别标记在对应的头结点和依附节点的弧上，得到源规范解析器。

进一步的，所述头结点的弧表示为：

依附节点的弧表示为：

头结点的标签表示为：

依附节点的标签表示为：

其中，FFN^arc-head表示作用于头节点的前馈神经网络得到的头节点的弧表示，FFN^arc-dep表示作用于依附节点的前馈神经网络得到的依附节点的弧表示，FFN^rel-head表示作用于头节点的前馈神经网络得到的头结点的标签表示，FFN^rel-dep表示作用于依附节点的前馈神经网络得到的依附节点的标签表示。

进一步的，所述双仿射分类器表示为：

其中，Biaf(x_i,x_j)表示双仿射分析器的函数表示，x_i和x_j表示输入的两个节点表示，U表示双仿射注意力矩阵的二阶参数，W表示双仿射注意力矩阵的一阶参数，b表示双仿射注意力矩阵的零阶参数。

进一步的，所述弧表示的分数表示为：

其中，Biaf^arc()表示预测弧的双仿射分析器，

和/>

分别表示输入参数为节点i和节点j的弧表示，节点j作为头节点，节点i作为依附节点，/>

表示存在一条由节点j指向节点i的依存弧的得分。

进一步的，所述标签表示的分数表示为：

其中，Biaf^rel()表示预测依存弧标签的双仿射分析器，输入参数为节点i和节点j的标签表示，分别为

节点j作为头节点，节点i作为依附节点，/>

表示在一条由节点j指向节点i的依存弧上各个标签的得分。

进一步的，所述目标规范解析器表示为：

U_t＝V_uU_s

W_t＝V_wW_s

其中，U_s、W_s和b_s分别为源分析器中的相应参数，V_u和V_w为线性变换函数，V_u作用于U_s，V_w作用于W_s，Biaf_t(x_i,x_j)为目标规范的双仿射解析器，U_t、W_t分别为目标规范双仿射解析器中的二阶注意力矩阵参数和一阶注意力矩阵参数。

本发明的有益效果是：

本申请通过简单有效的线性变换将源解析器中的核心参数适配到目标解析器中，并继承源解析器中的所有其他参数。图到图线性变换方法能充分继承源标准规范的信息并将其迁移到目标规范，因此本申请能有效避免人工规则和大量平行语料的限制，大幅提升图结构转换的准确率以及获得高质量的图结构标注数据。在少量平行语料帮助下，本申请的方法可以取得比现有的各种基线模型更好的效果。

附图说明

图1为图到秃线性变换方法架构图；

图2为图到图线性变换方法流程图；

图3为图到图结构自动标注流程图。

具体实施方式

需要特别说明的是，在不冲突的情况下，本申请公开的各个实施方式之间可以相互组合。

具体实施方式一：参照图1具体说明本实施方式，本实施方式所述的一种图到图结构的自动标注转换方法，包括以下步骤：

目前，标注规范转换的方法主要是基于事先定义的专家规则或者从大量有标签数据中人工抽取的特征，在不同标注规范之间进行转换。这种转换方法需要大量的劳动力，且不易推广到所有的场景中。加之，这些转换方法主要是针对树库之间的转换。因此，本申请提出了一种图到图结构的自动标注方法，该方法通过简单有效的线性变换将源解析器中的核心参数适配到目标解析器中，并继承源解析器中的所有其他参数。图到图线性变换方法能充分继承源标准规范的信息并将其迁移到目标规范，因此该方法能有效避免人工规则和大量平行语料的限制，大幅提升图结构转换的准确率以及获得高质量的图结构标注数据。在少量平行语料帮助下，本申请的方法可以取得比现有的各种基线模型更好的效果。

本申请首先使用预训练语言模型作为每个词语的编码器，然后采用双仿射(Biaffine)分析器来预测目标规范的图结构信息。为了实现图到图结构的转换，模型必须能够显式或者隐式地学到源规范的结构信息。图到图的线性变换方法(Graph2GraphLinear Transformation,G2GLT)直接学习一个线性函数，该函数将在源规范数据上训练的分析器转换到目标规范上。由于Biaffine注意力矩阵是Biaffine分析器的核心组件，其中包含了对语义依存图进行预测的重要信息。因此一个很自然的方法就是继承在源规范上训练好的分析器，进而帮助在目标规范上训练分析器。下面本申请分别详细介绍双仿射分析器的结构、图到图的线性变换方法以及整个图到图结构自动标注方法的流程。对于图到图线性变换方法的流程图参考图2，对于图到图线性变换方法的模型架构图请参考图1，对于图到图结构自动标注方法流程请参考图3。

1、双仿射分析器(Biaffine)

双仿射分析器是目前最佳的基于图的依存结构分析器。它利用了双仿射分类器来预测图结构中的弧和标签。下面是该方法的具体步骤：

1)通过多层的双向LSTM结构来编码句子中的每个词语，其原始输入是经过预训练语言模型得到的。

2)第i个词语经过LSTM层的输出定义为h_i，之后将h_i分别送入4个单层的前向神经网络层(FFN),分别获得第i个词语作为头结点或者依附节点的弧表示(Eq.1和Eq.2)和标签表示(Eq.3和Eq.4)。

3)通过双仿射分类器(Eq.5)来计算预测弧的分数(Eq.6)和标签的分数(Eq.7)，最终得到整个图结构。

2、图到图线性变换方法(Graph2Graph Linear Transformation)

1)在大规模源规范的标注数据上训练一个分析器，记作源分析器。源分析器只能预测源规范的标注信息，并不能预测目标规范的标注信息。

2)为了让源分析器能够适应到目标规范上，形成目标规范的分析器(目标分析器)，本申请设计了一个可训练的线性函数，使其作用于源分析器中用于预测关系标签的双仿射注意力矩阵上。具体来说，假设U_s,W_s和b_s分别是源分析器中的参数。两个线性变换的函数V_u和V_w分别作用在U_s,W_s上，进而得到目标规范下分析器(目标规范解析器)的参数U_t,W_t。

U_t＝V_uU_s (Eq.8)

W_t＝V_wW_s (Eq.9)

最终的目标分析器为：

3)(步骤四)然后将源分析器继续在少量人工标注的目标规范数据上进行微调，冻结从源分析器继承而来的双仿射注意力矩阵参数。

4)最后得到了能直接预测目标规范标注的Biaffine分析器。

3、图到图结构自动标注方法的流程

1)准备公开的大规模规范的标注文本和少量人工标注的目标规范的文本

2)利用上节介绍的图到图线性变换方法，得到目标规范的分析器

使用目标规范的分析器，对无标注文本进行预测，得到目标规范的标注信息，从而达到自动标注的效果。

需要注意的是，具体实施方式仅仅是对本发明技术方案的解释和说明，不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的，仍应落入本发明的保护范围内。

Claims

1.一种图到图结构的自动标注转换方法，其特征在于包括以下步骤：

步骤五：利用优化后的目标规范解析器对待标注文本进行预测，得到目标规范的标注信息；

所述目标规范解析器表示为：

U_t＝V_uU_s

W_t＝V_wW_s

其中，U_s、W_s和b_s分别为源分析器中的相应参数，V_u和V_w为线性变换函数，V_u作用于U_s，V_w作用于W_s，Biaf_t(x_i,x_j)为目标规范的双仿射解析器，U_t、W_t分别为目标规范双仿射解析器中的二阶注意力矩阵参数和一阶注意力矩阵参数，x_i和x_j表示输入的两个节点表示。

2.根据权利要求1所述的一种图到图结构的自动标注转换方法，其特征在于所述步骤二的具体步骤为：