CN114611463B

CN114611463B - 一种面向依存分析的众包标注方法及装置

Info

Publication number: CN114611463B
Application number: CN202210500613.6A
Authority: CN
Inventors: 张梅山; 张帆; 孙越恒
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2022-05-10
Filing date: 2022-05-10
Publication date: 2022-09-13
Anticipated expiration: 2042-05-10
Also published as: CN114611463A

Abstract

本发明公开了一种面向依存分析的众包标注方法及装置，涉及自然语言处理技术领域。包括：获取待标注的句子；将待标注的句子输入到构建好的众包标注模型，得到待标注的句子的多棵句法树；选择多棵句法树中的最优解，作为待标注的句子的标注结果。本发明能够解决当前难以快速构建出大规模依存句法树库的问题。提出了一种面向依存分析的众包标注平台，将标注问题转变成选择问题，大大降低了标注难度。

Description

一种面向依存分析的众包标注方法及装置

技术领域

本发明涉及自然语言处理技术领域，特别是指一种面向依存分析的众包标注方法及装置。

背景技术

依存句法分析是自然语言处理中一个重要的任务，其目标是刻画自然语言句子的句法和语义结构。具体来说，它将给定的输入句子表示成一棵依存句法树，从而分析句子内部词语之间的修饰或搭配关系。近年来，随着深度学习的快速发展，神经网络模型变得越来越复杂，依存分析的准确率也有了显著提高，但由此带来的问题是模型对于高质量训练数据的需求愈加旺盛。对于依存句法分析任务而言，大多数依存句法黄金标准语料库都是由少数语言学专家标注构建，这一过程费时费力，因此目前现有的语料库都比较小。

受到众包工作的启发，使用大量非专家标注人员构建依存句法树库是一种可行的方法。但相较于专家标注，这种标注方法标注质量相对较低，并且对于标注人员来说难度较大。因此，需要研究方法降低对标注人员的难度，有效提升标注效率，快速构建大规模依存句法树库。

现有众包标注平台需要先标注人员进行语言学培训，然后让他们为每一个句子直接标注句法树。由于标注过程需要大量的知识，因此对于标注人员来说难度较大，标注效率也比较低。

发明内容

本发明针对如何降低对标注人员的难度，有效提升标注效率，快速构建大规模依存句法树库的问题，提出了本发明。

为解决上述技术问题，本发明提供如下技术方案：

一方面，本发明提供了一种面向依存分析的众包标注方法，该方法由电子设备实现，该方法包括：

S1、获取待标注的句子。

S2、将待标注的句子输入到构建好的众包标注模型，得到待标注的句子的多棵句法树。

S3、选择多棵句法树中的最优解，作为待标注的句子的标注结果。

可选地，众包标注模型包括依存句法分析模型以及解码模块。

S2中的将待标注的句子输入到构建好的众包标注模型，得到待标注的句子的多棵句法树包括：

S21、将待标注的句子输入到依存句法分析模型，得到待标注的句子的依存分析结果。

S22、将依存分析结果输入到解码模块，得到待标注的句子的多棵句法树。

可选地，S21中的将待标注的句子输入到依存句法分析模型，得到待标注的句子的依存分析结果包括：

S211、获取待标注的句子

的嵌入表示

。

S212、获取嵌入表示的隐藏层向量

。

S213、获取隐藏层向量的低维表示向量；其中，低维表示向量包括

作为修饰词时的低维表示向量

和

作为核心词时的低维表示向量

。

S214、计算低维表示向量的依存关系的得分；其中，得分包括弧得分和依存关系标签得分。

可选地，S211中的获取待标注的句子

的嵌入表示

包括：

通过查找表获取待标注的句子

中的每个单词

的嵌入表示

。

可选地，S212中的获取嵌入表示的隐藏层向量

包括：

通过多层双向长短期记忆网络，获得嵌入表示

的隐藏层向量

。

可选地，S213中的获取隐藏层向量的低维表示向量包括：

将隐藏层向量作为输入，分别使用两个多层感知机获得隐藏层向量的低维表示向量。

可选地，S214中的计算低维表示向量的依存关系的得分包括：

使用双仿射注意力机制计算低维表示向量的依存关系的得分。

可选地，S22中的将依存分析结果输入到解码模块，得到待标注的句子的多棵句法树包括：

将依存分析结果输入到解码模块进行

次最优

解码，得到待标注的句子的

棵句法树。

可选地，S3中的选择多棵句法树中的最优解，作为待标注的句子的标注结果包括：

获取标注人员选择的多棵句法树中的最优解，作为待标注的句子的标注结果。

另一方面，本发明提供了一种面向依存分析的众包标注装置，该装置应用于实现面向依存分析的众包标注方法，该装置包括：

获取模块，用于获取待标注的句子。

输入模块，用于将待标注的句子输入到构建好的众包标注模型，得到待标注的句子的多棵句法树。

输出模块，用于选择多棵句法树中的最优解，作为待标注的句子的标注结果。

可选地，输入模块，进一步用于：

S211、获取待标注的句子

的嵌入表示

。

S212、获取嵌入表示的隐藏层向量

。

作为修饰词时的低维表示向量

和

作为核心词时的低维表示向量

。

可选地，输入模块，进一步用于：

通过查找表获取待标注的句子

中的每个单词

的嵌入表示

。

可选地，输入模块，进一步用于：

通过多层双向长短期记忆网络，获得嵌入表示

的隐藏层向量

。

可选地，输入模块，进一步用于：

将依存分析结果输入到解码模块进行

次最优

解码，得到待标注的句子的

棵句法树。

可选地，输出模块，进一步用于：

一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述面向依存分析的众包标注方法。

一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述面向依存分析的众包标注方法。

本发明实施例提供的技术方案带来的有益效果至少包括：

上述方案中，解决了当前难以快速构建出大规模依存句法树库的问题。现有的众包技术需要标注人员为每一个句子直接标注句法树，这对于标注人员来说难度较大，标注效率比较低。提出了一种面向依存分析的众包标注平台，将标注问题转变成选择问题，这样可以大大降低标注难度，有效提升标注效率，方便快速构建大规模依存句法树库。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的面向依存分析的众包标注方法流程示意图；

图2是本发明实施例提供的训练和标注过程示意图；

图3是本发明实施例提供的面向依存分析的众包标注装置框图；

图4是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

如图1所示，本发明实施例提供了一种面向依存分析的众包标注方法，该方法可以由电子设备实现。如图1所示的面向依存分析的众包标注方法流程图，该方法的处理流程可以包括如下的步骤：

S1、获取待标注的句子。

一种可行的实施方式中，本申请首先使用小规模的金标语料库训练一个依存句法解析器。依存句法解析器的基本模型可以采用现有技术中的Biaffine Parser解析器。

S211、获取待标注的句子

的嵌入表示

。

可选地，S211中的获取待标注的句子

的嵌入表示

包括：

通过查找表获取待标注的句子

中的每个单词

的嵌入表示

。

一种可行的实施方式中，给定待标注的句子

，模型通过LUT（Look-upTable，查找表）

找到待标注的句子中每个单词

的嵌入表示

，如下式（1）所示。

其中

表示单词的词性标签，即模型利用了单词嵌入和通用POS（Part OfSpeech，词性标签）。

S212、获取嵌入表示的隐藏层向量

。

可选地，S212中的获取嵌入表示的隐藏层向量

包括：

通过多层双向长短期记忆网络，获得嵌入表示

的隐藏层向量

。

一种可行的实施方式中，通过在每个单词的嵌入表示

上应用LSTM（LongShort-Term Memory，多层双向长短期记忆网络），分别获得其隐藏层向量

。

作为修饰词时的低维表示向量

和

作为核心词时的低维表示向量

。

可选地，S213中的获取隐藏层向量的低维表示向量包括：

一种可行的实施方式中，MLP（Multi-Layer perceptron，多层感知机）层将隐藏层向量

作为输入，分别使用两个MLP获得低维表示

和

，如下式（2）、（3）所示：

其中

是

作为核心词时的表示向量，

是

作为修饰词时的表示向量，

为隐藏层向量，

用于计算

作为修饰词的表示向量的多层感知机，

用于计算

作为核心词的表示向量的多层感知机。

可选地，S214中的计算低维表示向量的依存关系的得分包括：

一种可行的实施方式中，Biaffine层使用双仿射注意力机制计算所有依存关系的得分。依存关系的得分分为两部分，弧得分和依存关系标签得分。其中，由

充当核心词、

充当修饰词的依存弧的得分如下式（4）所示：

其中，矩阵

是biaffine参数。

依存关系标签得分的计算方法，如下式（5）所示：

其中，

表示句子中的位置，

为其短语标签；矩阵

和

均为模型参数。

将依存分析结果输入到解码模块进行

次最优

解码，得到待标注的句子的

棵句法树。

一种可行的实施方式中，使用训练好的解析器对每个需要标注的句子进行

解码，得到

棵句法树。

一种可行的实施方式中，整体流程如图2所示，让标注人员从

个结果中选择最优的作为标注结果，可以将标注问题转变成选择问题。

本发明实施例中，解决了当前难以快速构建出大规模依存句法树库的问题。现有的众包技术需要标注人员为每一个句子直接标注句法树，这对于标注人员来说难度较大，标注效率比较低。提出了一种面向依存分析的众包标注平台，将标注问题转变成选择问题，这样可以大大降低标注难度，有效提升标注效率，方便快速构建大规模依存句法树库。

如图3所示，本发明实施例提供了一种面向依存分析的众包标注装置300，该装置300应用于实现面向依存分析的众包标注方法，该装置300包括：

获取模块310，用于获取待标注的句子。

输入模块320，用于将待标注的句子输入到构建好的众包标注模型，得到待标注的句子的多棵句法树。

输出模块330，用于选择多棵句法树中的最优解，作为待标注的句子的标注结果。

可选地，输入模块320，进一步用于：

S211、获取待标注的句子

的嵌入表示

。

S212、获取嵌入表示的隐藏层向量

。

作为修饰词时的低维表示向量

和

作为核心词时的低维表示向量

。

可选地，输入模块320，进一步用于：

通过查找表获取待标注的句子

中的每个单词

的嵌入表示

。

可选地，输入模块320，进一步用于：

通过多层双向长短期记忆网络，获得嵌入表示

的隐藏层向量

。

可选地，输入模块320，进一步用于：

将依存分析结果输入到解码模块进行

次最优

解码，得到待标注的句子的K棵句法树。

可选地，输出模块330，进一步用于：

图4是本发明实施例提供的一种电子设备400的结构示意图，该电子设备400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（centralprocessing units，CPU）401和一个或一个以上的存储器402，其中，存储器402中存储有至少一条指令，至少一条指令由处理器401加载并执行以实现下述面向依存分析的众包标注方法：

S1、获取待标注的句子。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述面向依存分析的众包标注方法。例如，计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。