CN116663540A

CN116663540A - 基于小样本的金融事件抽取方法

Info

Publication number: CN116663540A
Application number: CN202310700086.8A
Authority: CN
Inventors: 黄宇海; 邵旭; 曾文秋; 朱冰; 徐亮亮; 曹晓欢; 杜威; 刘燕婷; 吴苑斌; 王晓玲
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2023-06-13
Filing date: 2023-06-13
Publication date: 2023-08-29

Abstract

本发明公开了一种基于小样本的金融事件抽取方法，根据实际需要确定金融事件和需要抽取的要素，包括触发词和若干事件论元，构建包括额外数据编码模块、要素分类器、语句重构模块、重构语句编码器、关系分类器和事件解码模块的事件要素抽取模型并采用训练样本进行训练，当需要对某条语句进行金融事件抽取时，将对应词语序列输入训练好的事件要素抽取模型，预测得到该语句所包含的要素以及存在触发词‑事件论元关系的要素对，筛选出出现频率最高的要素作为触发词、其他要素作为事件论元，构成金融事件。本发明将金融事件抽取任务与小样本进行结合，使得事件抽取模型能够使用少量的训练样本就能够得到拥有使用接近足量训练样本训练的性能。

Description

基于小样本的金融事件抽取方法

技术领域

本发明属于人工智能自然语言处理技术领域，更为具体地讲，涉及一种基于小样本的金融事件抽取方法。

背景技术

虽然近年来自然语言处理在金融事件抽取领域逐渐成熟，但是在实际的应用当中常常面临训练样本不足的窘境，因此如何用有限的、少量的训练样本训练一个性能较好的事件抽取模型成为了一个重要研究课题。事件要素自动抽取可以产生以下价值：(1)降低模型对于数据的依赖，减轻研究人员收集数据的工作量；(2)节省因为收集、处理数据产生的开支；(3)使用小样本技术对模型进行训练可以节约模型训练的时间、硬件成本，同时能够更快地完成模型训练投入生产，加快系统的整体部署速度。

小样本金融事件抽取，本质上是在任务训练数据不足的情况下，充分利用现有的少量数据结合外部数据或增大模型参数来提升性能，以达到和充足训练样本情况下相当的性能。现阶段小样本技术主流的发展方向可以分为以下三类：

一是基于额外训练数据的小样本技术。这类技术主要是在预训练训练或微调语言模型环节强化模型性能，主要的方法是在模型开始使用下游任务的数据训练前，用和任务相关的数据先对模型进行训练或者微调，提高模型对于该领域的文本编码能力，如，可以使用大量金融相关的无标注文本对预训练模型进行训练，虽然不是直接的事件要素抽取数据，但是同为金融领域的数据可以为模型提供更多领域知识。但是收集并处理适配特定下游任务的额外预训练数据首先要消耗大量的人力和时间，其次为了获得更好的效果，可能需要重新设计预训练或微调的训练目标来更好地使模型学习到和下游任务相关的知识，这一工作可能需要进行大量的实验以得出最优的实验设置。

二是基于提示学习的小样本技术。一般用于已知事件类型条件下的要素抽取，人为总结或让模型自行学习出与事件相关的提示，使模型通过提示信息，充分利用预训练时所学习到的知识来完成抽取任务。该方法的理论依据是传统下游任务的抽取范式与预训练的预训练任务差距较大，预训练模型的知识没有被充分利用，而提示信息能够一定程度地加强模型对于这些知识的利用。但是提示学习的prompt设计是一个主要的难点，通常是由人工对训练数据的样式进行分析总结得出的，同样需要消耗大量的人力资源，且不同的prompt可能对于任务的性能有较大的影响。并且大部分提示学习的技术主要适配生成式的模型，而生成式模型的训练、推理速度较慢，在实际使用中所花费的训练和预测时间较多，生成式模型的效率不如抽取式模型。

三是通过增大模型规模、模型参数来提升小样本任务的性能。通过扩大模型规模使模型对语料的学习更为充分，同时模型规模的扩大也意味着模型对于预训练语料的学习也更为充分，比小模型能够学习到更多的不同任务间的通用知识，从而能够更好地完成小样本任务。通过扩大模型参数是一个简单的方式，但是很显然这一方法的缺点就是需要极高的额外成本，包括数据成本和训练成本，且模型规模的扩大可能需要考虑底层硬件的交互问题，这也是大模型训练的一个难点。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于小样本的金融事件抽取方法，将金融事件抽取任务与小样本进行结合，使得事件抽取模型能够使用少量的训练样本就能够得到拥有使用接近足量训练样本训练的性能。

为了实现上述发明目的，本发明基于小样本的金融事件抽取方法包括以下步骤：

S1：根据实际需要确定金融事件，并确定需要抽取的要素，包括触发词和若干事件论元；

收集所确定金融事件的若干条语句，并对所收集的语句采用预设的预处理方法进行预处理；对于预处理后语句提取得到对应的词语序列，记语句的词语序列为S＝{x₁,x₂,…,x_N}，x_i表示语句中第i个词语，i＝1,2,…,N，N表示语句中的词语数量；

对于每个语句的词语序列，采用BIO tag序列标注法标注出其中的触发词和事件论元，将触发词分别和每个事件论元组成关系对，然后将词语序列作为输入，触发词-事件论元关系对作为对应的事件标签，构成训练样本；

S2：构建事件要素抽取模型，包括额外数据编码模块、要素分类器、语句重构模块、重构语句编码器、关系分类器和事件解码模块，其中：

额外数据编码模块用于在输入语句的词语序列S＝{x₁,x₂,…,x_N}中融入预设的要素数据，得到融合矩阵F并发送给序列抽取模块，语句和要素数据融合的具体方法为：

对于需要进行事件抽取的语句，将其词语序列S＝{x₁,x₂,…,x_N}中每个词语分别进行编码得到其隐层表示其中d表示预设的隐层表示的维度，将每个词语的隐层表示作为行向量构建得到语句的隐层表示矩阵/>

记金融事件中涉及的要素数量为M，将M个要素分别进行编码得到其隐层表示将每个要素的隐层表示作为行向量构建得到要素的隐层表示矩阵/>然后将隐层表示矩阵复制N份，构建得到三维的要素矩阵/>

采用如下公式将要素矩阵与语句的隐层表示矩阵进行融合，得到融合矩阵

F＝E′DX^T

其中，是可学习的参数矩阵，上标T表示转置；

要素分类器用于将融合矩阵F按照第3维进行分片，得到N个矩阵将矩阵f_i作为输入语句中第i个词语的特征对i个词语进行分类，预测该词语是否为金融事件的要素，将词语分类结果发送给语句重构模块；

语句重构模块用于根据词语分类结果对语句进行重构，具体方法为：根据词语分类结果筛选出词语序列S＝{x₁,x₂,…,x_N}中的金融事件要素，记所筛选出的要素数量为K，记第k个要素为p_k，然后将K个要素两两组合，得到K(K-1)个要素对(p_k,p_k′)，k,k′＝1,2,…,K且k′≠k；分别将每个要素对(p_k,p_k′)与词语序列S＝{x₁,x₂,…,x_N}拼接，得到词语序列S_k,k′＝{p_k,p_k′,x₁,x₂,…,x_N}并输出至重构语句编码器；

重构语句编码器用于分别对K(K-1)个词语序列S_k,k′进行编码，得到对应的隐层表示R_k,k′并发送至关系分类器；

关系分类器用于分别对K(K-1)个隐层表示R_k,k′进行分类，得到对应要素对(p_k,p_k′)是否为触发词-事件论元关系，并将分类结果发送至事件解码模块；

事件解码模块用于根据要素对的分类结果完成事件解码，具体方法为：从判定为是触发词-事件论元关系的要素对中，筛选出相同要素作为触发词，其他要素作为事件论元，构成金融事件并输出；

S3：将步骤S1训练样本中的词语序列作为输入，对应的事件标签作为期望输出，对事件要素抽取模型进行训练；

S4：当需要对某条语句进行金融事件抽取时，获取该语句的词语序列S′并输入至步骤S3训练好的事件要素抽取模型，预测得到该语句所包含的要素以及存在触发词-事件论元关系的要素对，从判定为存在触发词-事件论元关系的要素对中，筛选出出现频率最高的要素作为触发词、其他要素作为事件论元，构成金融事件。

本发明基于小样本的金融事件抽取方法，根据实际需要确定金融事件，并确定需要抽取的要素，包括触发词和若干事件论元，然后收集若干训练样本，构建包括额外数据编码模块、要素分类器、语句重构模块、重构语句编码器、关系分类器和事件解码模块的事件要素抽取模型，采用训练样本对事件要素抽取模型进行训练，当需要对某条语句进行金融事件抽取时，获取该语句的词语序列并输入训练好的事件要素抽取模型，预测得到该语句所包含的要素以及存在触发词-事件论元关系的要素对，从判定为是触发词-事件论元关系的要素对中，筛选出出现频率最高的要素作为触发词、其他要素作为事件论元，构成金融事件。

本发明对事件抽取任务进行了合理的分割，使得抽取式模型和事件抽取任务能够适配，同时提出适配抽取式模型的提示学习范式，从而降低事件要素抽取模型对样本数量的要求，在小样本情况下也可以实现准确率较高的事件要素抽取。

附图说明

图1是本发明基于小样本的金融事件要素抽取系统的具体实施方式流程图；

图2是本发明中事件要素抽取模型的结构图；

图3是本实施例中要素识别和关系分类的结果示例图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明基于小样本的金融事件要素抽取系统的具体实施方式流程图。如图1所示，本发明基于小样本的金融事件要素抽取方法的具体步骤包括：

S101：获取训练样本：

根据实际需要确定金融事件，并确定需要抽取的要素，包括触发词和若干事件论元。

收集所确定金融事件的若干条语句，并对所收集的语句采用预设的预处理方法进行预处理，例如数据清洗等。对于预处理后语句提取得到对应的词语(token)序列，记语句的词语(token)序列为S＝{x₁,x₂,…,x_N}，x_i表示语句中第i个词语，i＝1,2,…,N，N表示语句中的词语数量。

对于每个语句的词语序列，采用BIO tag序列标注法标注出其中的触发词和事件论元，将触发词分别和每个事件论元组成关系对，然后将词语序列作为输入，触发词-事件论元关系对作为对应的事件标签，构成训练样本。

BIO tag序列标注是一种联合标注方法，将每个元素标注为“X-B”、“X-I”或者“O”，其中“X-B”表示此元素所在的片段属于X类型并且此元素在此片段的开头，“X-I”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置，“O”表示不属于任何类型。以质押事件为例，需要抽取触发词：质押；需要抽取以下事件论元：披露时间，质押方，质押物所属公司，质押物，质押股票/股份数量，质押物占持股比，质押物占总股比，事件时间。经过BIO tag序列标注后，例如“出质人-B”表示当前这个词语为一个出质人类型实体的开头，“出质人-I”表示当前这个词语为一个出质人类型实体的非开头部分。

S102：构建事件要素抽取模型：

本发明将事件抽取任务转化成“实体识别”+“关系识别”的样式来完成。首先将触发词(trigger)和事件论元一样当成要素来进行预测，同时，为了能够将触发词和对应的事件论元正确地组合起来，还需要一个维度的信息来串联触发词与事件论元。本发明的做法是将一个事件中的触发词和其他所有的事件论元构造出一个“T-A”(Trigger-Argument)关系，用于指示每个触发词和事件论元之间的联系。例如，原本的预测目标是一个质押事件：{质押(触发词)，万讯自控，质押物所占持股比}。本发明将事件拆解成一个实体识别任务，需要识别以下实体：{质押，万讯自控，质押物所占控股比}；和一个关系识别任务，需要识别以下关系：{(T-A，质押，万讯自控),(T-A，质押，质押物所占持股比)}。如此，事件要素抽取任务就被转化成了一个实体识别任务加上一个关系抽取任务。

图2是本发明中事件要素抽取模型的结构图。如图2所示，本发明中小样本事件要素抽取模型包括额外数据编码模块、要素分类器、语句重构模块、重构语句编码器、关系分类器和事件解码模块，接下来分别对各个模块进行详细说明。

额外数据编码模块用于在输入语句的词语序列S＝{x₁,x₂,…,x_N}中融入预设的要素数据，得到融合矩阵F并发送给要素分类器，语句和要素数据融合的具体方法为：

在要素抽取中，对于每个要素类型都可以借助一个对应的自然语言文本(即描述)来刻画，本发明中将描述的表示向量作为额外的信息辅助抽取模型编码上下文隐层表示。

F＝E′DX^T

其中，是可学习的参数矩阵，上标T表示转置。

要素分类器用于将融合矩阵F按照第3维进行分片，得到N个矩阵将矩阵f_i作为输入语句中第i个词语的特征对i个词语进行分类，预测该词语是否为金融事件的要素，将词语分类结果发送给语句重构模块。

语句重构模块用于根据词语分类结果对语句进行重构，具体方法为：

根据词语分类结果筛选出词语序列S＝{x₁,x₂,…,x_N}中的金融事件要素，记所筛选出的要素数量为K，记第k个要素为p_k，然后将K个要素两两组合，得到K(K-1)个要素对(p_k,p_k′)，k,k′＝1,2,…,K且k′≠k。分别将每个要素对(p_k,p_k′)与词语序列S＝{x₁,x₂,…,x_N}拼接，得到词语序列S_k,k′＝{p_k,p_k′,x₁,x₂,…,x_N}并输出至重构语句编码器。

重构语句编码器用于分别对K(K-1)个词语序列S_k,k′进行编码，得到对应的隐层表示R_k,k′并发送至关系分类器。

关系分类器用于分别对K(K-1)个隐层表示R_k,k′进行分类，得到对应要素对(p_k,p_k′)是否为触发词-事件论元关系，并将分类结果输出。

图3是本实施例中要素识别和关系分类的结果示例图。如图3所示，两个要素之间若含有触发词-事件论元关系，则认为该要素属于该触发词所指示的事件论元。触发词-事件论元关系中必然为一个事件论元与一个触发词之间的关系，根据数据处理方式不同触发词的位置可在前或在后(图3中例子触发词在后)，为单向关系。因此根据不同的触发词便可解码出与其相关的事件论元，最终完成事件抽取任务。

S103：训练事件要素抽取模型：

将步骤S101训练样本中的词语序列作为输入，对应的事件标签作为期望输出，对事件要素抽取模型进行训练。

本发明中，由于存在两个分类器，分别是要素分类器和关系分类器，因此在事件要素抽取模型训练过程中，分别针对两个分类器设计损失函数，其中要素分类器的损失函数计算公式为：

其中，N_ent表示训练样本词语序列中词语数量，y_n表示第n个词语是否为要素的真实标签，当y_n＝1表示第n个词语是要素，当y_n＝0表示第n个词语不是要素，表示要素分类器预设得到的第n个词语是否为要素的标签。

关系分类器的损失函数计算公式为：

其中，N_rel表示训练样本由要素分类器得到的要素所组成的要素对数量，z_n′表示第n′个要素对是否存在触发词-事件论元关系的真实标签，当z_n′＝1表示第n′个要素对存在触发词-事件论元关系，当z_n′＝0表示第n′个要素对不存在触发词-事件论元关系，表示关系分类器预设得到的第n′个要素对是否存在触发词-事件论元关系的真实标签。

在事件要素抽取模型进行训练时，采用以上两个损失函数分别事件要素抽取模型进行交替训练，从而分别对要素分类任务和关系分类任务进行训练。

S104：金融事件抽取：

当需要对某条语句进行金融事件抽取时，获取该语句的词语序列S′并输入至步骤S103训练好的事件要素抽取模型，预测得到该语句所包含的要素以及存在触发词-事件论元关系的要素对，从判定为存在触发词-事件论元关系的要素对中，筛选出出现频率最高的要素作为触发词、其他要素作为事件论元，构成金融事件。

为了提升金融事件要求抽取的准确性，在采用事件要素抽取模型对词语序列S′进行事件要素抽取之前，可以从训练样本中筛选与词语序列相似度最高的W个样本的词语序列，W的值根据实际情况确定。采用W个样本对事件要素抽取模型进行微调训练(fine-tune)，然后再将词语序列S′输入微调后的事件要素抽取模型中进行事件要素抽取。在计算词语序列相似度时，可以先对词语序列S′和训练样本中词语序列分别进行编码得到隐层表示，然后计算隐层表示的欧式距离，距离越小相似度越大。可见，该方法是通过最近邻算法完成了对训练样本的检索，实现简单，检索效果良好。

在实际应用中，事件解码模块得到的金融事件可能存在没有预测或预测不全的事件，因此还可以对构建的金融事件进行补全，具体方法为：

将未判定为存在触发词-事件论元关系的要素对中的要素构成待定要素集合，判定待定要素集合中是否存在金融事件预设的触发词，如果存在，则将该触发词与已检测到的事件论元构成补充触发词-事件论元对，否则不作任何操作。根据得到的所有补充触发词-事件论元对对已构建的金融事件进行补全。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于小样本的金融事件抽取方法，其特征在于，包括以下步骤：

F＝E′DX^T

其中，是可学习的参数矩阵，上标T表示转置；

2.根据权利要求1所述的金融事件抽取方法，其特征在于，所述步骤S3中事件要素抽取模块训练时所采用的损失函数如下：

要素分类器的损失函数计算公式为：

其中，N_ent表示训练样本词语序列中词语数量，y_n表示第n个词语是否为要素的真实标签，当y_n＝1表示第n个词语是要素，当y_n＝0表示第n个词语不是要素，表示要素分类器预设得到的第n个词语是否为要素的标签；

关系分类器的损失函数计算公式为：

其中，N_rel表示训练样本由要素分类器得到的要素所组成的要素对数量，z_n′表示第n′个要素对是否存在触发词-事件论元关系的真实标签，当z_n′＝1表示第n′个要素对存在触发词-事件论元关系，当z_n′＝0表示第n′个要素对不存在触发词-事件论元关系，表示关系分类器预设得到的第n′个要素对是否存在触发词-事件论元关系的真实标签；

3.根据权利要求1所述的金融事件抽取方法，其特征在于，所述步骤S4中在采用事件要素抽取模型对词语序列S′进行事件要素抽取之前，从训练样本中筛选与词语序列相似度最高的W个样本的词语序列，W的值根据实际情况确定；采用W个样本对事件要素抽取模型进行微调训练，然后再将词语序列S′输入微调后的事件要素抽取模块中进行事件要素抽取。

4.根据权利要求3所述的金融事件抽取方法，其特征在于，所述词语序列的相似度采用如下方法计算：对词语序列S′和训练样本中词语序列分别进行编码得到隐层表示，然后计算隐层表示的欧式距离，距离越小相似度越大。

5.根据权利要求1所述的金融事件抽取方法，其特征在于，所述步骤S4中还包括对构成的金融事件进行补全，具体方法为：