CN114595329A

CN114595329A - 一种原型网络的少样本事件抽取系统及方法

Info

Publication number: CN114595329A
Application number: CN202210223688.4A
Authority: CN
Inventors: 纪焘; 邱震宇; 朱冰; 朱德伟; 周一航; 张森辉; 孔维璟; 纪文迪; 吴苑斌; 王晓玲
Original assignee: Huatai Securities Co ltd; East China Normal University
Current assignee: Huatai Securities Co ltd; East China Normal University
Priority date: 2022-03-07
Filing date: 2022-03-07
Publication date: 2022-06-07

Abstract

本发明公开了自然语言处理技术领域的一种原型网络的少样本事件抽取系统及方法，包括：获取包含测试数据的询问集；将询问集中的单个测试数据分别与标签候选项进行拼接后送到Bert编码器中，取相应的CLS表示作为单个测试数据的表示；读取所有类别的支持集，计算得到询问集中所有类别候选的模型原型；基于所有类别候选的原型，计算得到询问集中单个测试数据的目标类别。本发明在少样本事件抽取领域提供更好的准确度以及提供了少样本落地的实践方案。

Description

一种原型网络的少样本事件抽取系统及方法

技术领域

本发明涉及一种原型网络的少样本事件抽取系统及方法，属于自然语言处理技术领域。

背景技术

元学习(Meta learning)引入了一系列的概念，这其中包括N-way K-shot，Meta-training、Meta-testing、Base class和Novel class,Support set和Query set等。少样本事件分类就是在给定少量有标注数据的前提下能够对事件进行分类。为了能够实现这一目标，比较常见的方法是在有大量标注的数据集上进行训练，然后在目标类别的少量标注数据上进行微调(finetune)。这样少样本的学习过程就划分成两个阶段：元训练(metatrain)和元测试(metatest)，元训练就是在有大量标注的训练集中学习相关知识，元测试就是在目标类别的少量数据上进行微调。主流少样本学习一般划分成一个个N-way K-shot的训练过程。每次采样N类样本每类样本有K个实例，组成一个小的task，训练过程就是不断的采样训练各种小的task从而使目标task上的性能达到最高。单个任务中的训练数据(N*K个实例)称为支持集(support data)，单个任务的测试数据(N*Q个实例)称为询问集(querydata)。现有少样本方案落地存在较大困难，无法直接对样本进行分类。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种原型网络的少样本事件抽取系统及方法，在少样本事件抽取领域提供更好的准确度以及提供了少样本落地的实践方案。

为达到上述目的，本发明是采用下述技术方案实现的：

第一方面，本发明提供了一种原型网络的少样本事件抽取方法，包括：

获取包含测试数据的询问集；

将询问集中的单个测试数据分别与标签候选项进行拼接后送到Bert编码器中，取相应的CLS表示作为单个测试数据的表示；

读取所有类别的支持集，计算得到询问集中所有类别候选的模型原型；

基于所有类别候选的原型，计算得到询问集中单个测试数据的目标类别。

进一步的，读取所有类别的支持集，计算得到询问集中所有类别候选的模型原型，包括：

将支持集中的训练数据与标签的模板拼接送到Bert编码器中，取相应的CLS表示作为单个训练数据的表示；

将各训练数据的表示按照类别取平均作为该类的模型原型；

将同一个训练数据过两遍Bert编码器得到的相似正样本与其他样本构成对比学习的训练样本来计算对比损失；

根据询问集中的测试数据计算margin损失；

将所述对比损失和margin损失加权求和，作为最后的损失函数来更新所述模型原型。

进一步的，基于所有类别候选的原型，计算得到询问集中单个测试数据的目标类别，包括：比较询问集中单个测试数据和各个原型之间的距离，取距离最小的类别原型作为目标类别。

进一步的，基于所有类别候选的原型，计算得到询问集中单个测试数据的目标类别，包括：将所有类别原型划分成N-way的组合，重复多次计算询问集中单个测试数据与这些组合间类别原型的距离后，根据距离大小对组合中的类别原型进行投票，选择票数最多的类别原型作为目标类别。

进一步的，所述对比损失的函数表达式为：

其中，li为对比损失函数，τ为控制相似距离度量的温度超参数，h_j′为与目标训练样本不相似的负样本编码向量，sim()为向量距离度量方法，N为样本数，h_i ^zi和h_i′^zi′表示将输入两次送到Bert编码器中得到的表示。

进一步的，所述Bert编码器首先编码拼接后的事件文本为上下文向量，给定一段事件描述文本m_i＝{w₀，w₁，w₂，...，w_L}和对应标签C_i＝(c₁，c₂，c₃……，c_n)，其中w_i是文本中的第i个词，w₀是Bert编码器分类标记CLS，上是事件描述文本的词序列长度，c_i是标签中的第i个词。

进一步的，所述Bert编码器提取到事件描述文本中的关键特征后，将同一事件类型的样本映射到隐向量空间中距离相近的位置，将不同事件类型映射到隐向量空间中距离相远的位置。

第二方面，本发明提供了一种原型网络的少样本事件抽取系统，包括：

输入模块：用于获取包含测试数据的询问集；

拼接模块：用于将询问集中的单个测试数据分别与标签候选项进行拼接后送到Bert编码器中，取相应的CLS表示作为单个测试数据的表示；

计算模块：用于读取所有类别的支持集，计算得到询问集中所有类别候选的模型原型；

输出模块：用于基于所有类别候选的原型，计算得到询问集中单个测试数据的目标类别。

第三方面，本发明提供了一种原型网络的少样本事件抽取装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据上述任一项所述方法的步骤。

第四方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一项所述方法的步骤。

与现有技术相比，本发明所达到的有益效果：

本发明提出了一种基于prompt范式和原型网络相结合的少样本事件抽取办法，将少样本学习应用于实践，可计算得到询问集中单个测试数据的目标类别，在少样本事件抽取领域提供更好的准确度以及提供了少样本落地的实践方案，另外，也提高单个类别性能的少样本对比学习方法，提高了模型的鲁棒性和性能，采用marginloss帮助模型可以识别未知类别。

附图说明

图1是本发明实施例一提供的原型网络架构图；

图2是本发明实施例一提供的事件抽取模型的总体架构图；

图3是本发明实施例一提供的事件编码器的架构图；

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例一：

本实施例提供了一种原型网络的少样本事件抽取系统(Few-Shot EventExtraction Based on prompt and Prototypical Networks，简称FEPP)，在少样本事件抽取领域提供更好的准确度以及提供了少样本落地的实践方案。其中，模型训练时采用N-wayK-shot的训练方式，将支持集和询问集中的数据与标签的模板拼接送到Bert中，取相应的CLS表示作为单个句子的表示，对于支持集中的数据按照类别取平均作为该类的原型，同一个句子过两遍Bert得到对比学习的正负样本来计算对比损失。然后根据询问集中的样本计算margin损失，计算两者的加权求和作为最后的损失函数来更新模型。测试的时候读取所有类别的支持集，计算得到所有类别候选的原型，然后比较单个句子和各个原型之间的距离，取距离小的作为目标类别。

本实施例中的一种原型网络的少样本事件抽取系统主要包括：

S1原型网络模块

原型网络模块架构如图1所示，少样本训练过程是N-way K-shot的训练，所以支持集会有N类共N*K条数据，询问集会有N类共N*Q条数据。将支持集和询问集分别送到Bert中，得到相应的表示。然后针对每一类的支持集表示做一个平均(当然也可以采用其他的策略)作为类的原型，最后计算询问集和每一类原型之间的距离，选取距离最小的作为目标类别。训练就是这样不断采样N-way K-shot任务来训练，传统的原型网络测试也是N-way K-shot的采样任务，取各个任务上性能的均值作为最后的结果。

因为本发明是针对实际的少样本金融事件抽取，所以需要判定单个样本属于哪个类别而不是N-wayK-shot的采样任务，故此本发明提出了两种测试方法：集成测试和全模型测试，其中：

全模型测试比较简单适用于目标类别比较多，希望兼顾速度和性能，就是直接计算得到所有类的原型，然后计算测试样本和这些类原型之间的距离，选择距离最小的作为目标类别；

集成测试是本发明的另一个创新点，因为训练采用N-way K-shot的方式所以测试的时候可以将所有类别尽量不重合的划分成N-way的组合，然后计算单个样本与这些组合间类别原型的距离。这样的过程重复多次，根据距离大小对组合中的类别原型进行投票，选择票数最多的作为目标类别。不过时间代价会相对教高。

S2 Prompt模块

为了提高模型对个别类别的鲁棒性，本发明引入了prompt模块，来增强模型对类别的先验知识。具体做法如下：

1.对于support集合(支持集)，我们知道单个样本的标签，所以将样本和对应的标签的模板拼在一起送到Bert中得到句子的表示，然后根据句子表示计算得到类的原型。

2.对于query集合(询问集)，因为不知道单个样本的标签，但是在N-way K-shot的设置下，有N个标签候选项，那可以将单个样本分别与这N个标签候选项进行拼接送到Bert中得到相应的表示，然后再分别与对应的类原型计算距离，选择距离最近的作为目标类别。

本发明的应用场景是金融领域的事件识别，所以对应标签的模板采用的是：

这是一条<类别名称>的新闻

针对query集的处理，为了方便理解，简单举个例子，现在有5类：行政责令，股价创新高，解除冻结，欠息，入股。模型已经分别计算得到这5类的原型。来一个句子，<这是一个测试句子>，模型分别与这5类的标签进行拼接得到：

<这是一个测试句子>【SEP】这是一条行政责令的新闻

<这是一个测试句子>【SEP】这是一条股价创新高的新闻

<这是一个测试句子>【SEP】这是一条解除冻结的新闻

<这是一个测试句子>【SEP】这是一条欠息的新闻

<这是一个测试句子>【SEP】这是一条入股的新闻

然后，将这5个句子送到Bert中得到相应句子表示。然后与相应的原型计算距离，比如<这是一个测试句子>【SEP】这是一条行政责令的新闻就与行政责令的原型计算距离，<这是一个测试句子>【SEP】这是一条股价创新高的新闻就与股价创新高的原型计算距离……选择距离小的作为目标类别。

在prompt的基础上得到类的原型主要是将句子与对应标签模板拼成一句话送到Bert里，采用CLS(BERT编码句子后得到的首位字符的向量表示，即分类标记)作为句子表示，然后对所有句子向量取平均最为该类的原型。

S3事件编码器

事件编码器的目标是从输入的事件描述文本中提取低维稠密的特征向量。本模型将使用预训练的Bert编码器首先编码事件文本为上下文向量，给定一段事件描述文本m_i＝{w₀，w₁，w₂，...，w_L}和对应标签C_i＝(c₁，c₂，c₃......，c_n)，其中w_i是文本中的第i个词，w₀是Bert编码器分类标记CLS，L是事件描述文本的词序列长度，c_i是标签中的第i个词。给出事件编码器架构如图2所示。本发明按照S2中将文本和标签进行拼接送到Bert编码器中得到相应的表示。因为本文所涉及到的事件抽取是金融领域的，所以这里用到的预训练Bert是熵简科技的FinBert。

S4对比学习

为了区分已知事件的不同事件类型，提高鲁棒性，需要Bert编码器提取到事件描述文本中的关键特征，将同一事件类型的样本映射到隐向量空间中距离相近的位置，将不同事件类型映射到隐向量空间中距离相远的位置。

对比损失比较重要的是构造正负样本。本发明借鉴了SimCSE构造正负样本的方法：引入dropout给输入加噪声，假设加噪后的输入仍与原始输入在语义空间距离相近。其正负例的构造方式如下：

正例：给定输入，用预训练语言模型编码两次得到的两个向量对作为正例对。

负例：随机采样一个另一个类别输入作为的负例。

为此本模块的对比损失函数设计如下：

其中，li为对比损失函数，τ为控制相似距离度量的温度超参数，h_j′为与目标训练样本不相似的负样本编码向量，sim()为向量距离度量方法，N为样本数。h_i ^zi和h_i′^zi′表示将输入两次送到Bert编码器中得到的表示。

S5未知类别的识别

本发明是希望实际落地，用于实践，而在实际应用场景中，进来一个样本，很有可能不是N-way中的任意一个，所以模型应当具有识别未知类别的能力。所以本发明采用marginloss，设定一个距离M，使正样本的距离小于M，负样本的距离大于M，所以在测试时如果一个样本与N个原型的距离都大于M，模型就认为这个样本是未知类别。

评价指标

针对本发明的性能，我们从下面的指标进行评估。

(1)准确率：实际的正例在识别为正例中所占的百分比

TP为正确识别为正例的正例，FP为错误识别为正例的负例，FN为错误识别为负例的正例。定义如下：

(2)召回率：被正确预测的正例占所有实际正例的百分比

(3)F1分数

性能评估

本技术方案在公开数据集FewEventED上进行了相关性能评估：

上表中前面几种都是其他用原型网络架构在FewEventED数据集上的实验结果，最后一行是本发明提出的模型，可以看到本发明提出的模型性能要明显优于其他模型。本技术方案在华泰数据集上取得了不错的实验性能：

上表展示了模型在各个类别上的性能，准确性都很高。

实施例二：

一种原型网络的少样本事件抽取系统，可实现实施例一所述的一种原型网络的少样本事件抽取方法，包括：

输入模块：用于获取包含测试数据的询问集；

实施例三：

本发明实施例还提供了一种原型网络的少样本事件抽取装置，可实现实施例一所述的一种原型网络的少样本事件抽取方法，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行下述方法的步骤：

获取包含测试数据的询问集；

实施例四：

本发明实施例还提供了一种计算机可读存储介质，可实现实施例一所述的一种原型网络的少样本事件抽取方法，其上存储有计算机程序，该程序被处理器执行时实现下述方法的步骤：

获取包含测试数据的询问集；

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种原型网络的少样本事件抽取方法，其特征是，包括：

获取包含测试数据的询问集；

2.根据权利要求1所述的原型网络的少样本事件抽取方法，其特征是，读取所有类别的支持集，计算得到询问集中所有类别候选的模型原型，包括：

将各训练数据的表示按照类别取平均作为该类的模型原型；

根据询问集中的测试数据计算margin损失；

3.根据权利要求1所述的原型网络的少样本事件抽取方法，其特征是，基于所有类别候选的原型，计算得到询问集中单个测试数据的目标类别，包括：比较询问集中单个测试数据和各个原型之间的距离，取距离最小的类别原型作为目标类别。

4.根据权利要求1所述的原型网络的少样本事件抽取方法，其特征是，基于所有类别候选的原型，计算得到询问集中单个测试数据的目标类别，包括：将所有类别原型划分成N-way的组合，重复多次计算询问集中单个测试数据与这些组合间类别原型的距离后，根据距离大小对组合中的类别原型进行投票，选择票数最多的类别原型作为目标类别。

5.根据权利要求2所述的原型网络的少样本事件抽取方法，其特征是，所述对比损失的函数表达式为：

其中，li为对比损失函数，τ为控制相似距离度量的温度超参数，h_j'为与目标训练样本不相似的负样本编码向量，sim()为向量距离度量方法，N为样本数，h_i ^zi和h_i'^zi'表示将输入两次送到Bert编码器中得到的表示。

6.根据权利要求1所述的原型网络的少样本事件抽取方法，其特征是，所述Bert编码器首先编码拼接后的事件文本为上下文向量，给定一段事件描述文本m_i＝{w₀，w₁，w₂，...，w_L}和对应标签C_i＝(c₁，c₂，c₃......，c_n)，其中w_i是文本中的第i个词，w₀是Bert编码器分类标记CLS，L是事件描述文本的词序列长度，c_i是标签中的第i个词。

7.根据权利要求6所述的原型网络的少样本事件抽取方法，其特征是，所述Bert编码器提取到事件描述文本中的关键特征后，将同一事件类型的样本映射到隐向量空间中距离相近的位置，将不同事件类型映射到隐向量空间中距离相远的位置。

8.一种原型网络的少样本事件抽取系统，其特征是，包括：

输入模块：用于获取包含测试数据的询问集；

9.一种原型网络的少样本事件抽取装置，其特征是，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据权利要求1～7任一项所述方法的步骤。

10.计算机可读存储介质，其上存储有计算机程序，其特征是，该程序被处理器执行时实现权利要求1～7任一项所述方法的步骤。