CN116501898B

CN116501898B - 适用于少样本和有偏数据的金融文本事件抽取方法和装置

Info

Publication number: CN116501898B
Application number: CN202310781210.8A
Authority: CN
Inventors: 李栓; 那崇宁
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-06-29
Filing date: 2023-06-29
Publication date: 2023-09-01
Anticipated expiration: 2043-06-29
Also published as: CN116501898A

Abstract

本发明公开了一种适用于少样本和有偏数据的金融文本事件抽取方法和装置，针对金融事件任务中事件类型较多，不同事件发生地频率也不相同，往往存在少样本和有偏的情况，从事件主体和事件类型两个层面上对样本较少数据进行增强，有效地缓解了有偏及少样本类型数据对模型提取结果的影响；针对描述文本中同一事件主体出现多次且对应多个事件类型的难题和描述文本中多个事件主体对应同一事件类型的难题，构建了包括基于事件主体预测和事件类型预测两级分布处理的抽取模型，该抽取模型经过增强后训练样本的训练，能够提高各情况金融文本事件的准确抽取。

Description

适用于少样本和有偏数据的金融文本事件抽取方法和装置

技术领域

本发明属于自然语言处理和金融交叉的技术领域，具体涉及一种适用于少样本和有偏数据的金融文本事件抽取方法和装置。

背景技术

在当今信息爆炸的时代，快速高效的从大量的文本中捕获事件并挖掘事件的关键信息是亟需解决的一个重要难题。因此，事件抽取任务应运而生。然而对于事件抽取任务，由于数据标注难度大，领域数据更难标注，且需要特定领域的从业者来标注。因此，这给领域事件抽取任务增加难度。

随着金融一体化和经济全球化的发展，金融事件发现的重要性愈加突出。金融事件抽取的任务模式是：从给定金融文本中抽取出某某公司（事件主体）发生了什么事（事件类型），一方面，由于金融事件的类型较多，仅存在“事件主体”和“事件类型”的标注信息，导致该任务无法像传统事件抽取任务一样存在“触发词”，并依据触发词识别并抽取给定文本中存在的“事件角色”，且给定的金融文本中往往存在多个事件主体，不同的事件主体对应各自的事件类型；同一事件主体对应多个事件类型；给定文本中出现多次同一事件主体的现象，使得传统的事件抽取模型另一方面，不同事件发生的频率也不同，一些低频率事件可提供的样本往往很少，而当前的文本数据增强技术多用于文本分类任务，普适性较差，对金融事件抽取任务性能的提升也无法满足基本的使用需求。

公布号为CN113934909A的专利申请公开了一种基于预训练语言结合深度学习模型的金融事件抽取方法，包括以下步骤：数据获取和预处理，定义金融事件模板，远程监督结合模板方法的数据自动标注及降噪处理，使用预训练模型结合深度学习模型来对爬取的文本内容进行金融事件的抽取识别任务，该技术方案难以准确、有效地抽取给定金融文本中的全部事件主体和类型。

公布号为CN115062615A的专利申请公开了一种金融领域事件抽取方法和装置，包括：对待抽取文本进行分句、分词；获取分句中每个分词的词向量和位置向量，并将所述词向量和对应的位置向量累加，得到对应分词的输出向量；对每个分句执行序列标注，标注出分句中属于事件元素的分词；获取分句的句向量，将分句中属于事件元素的分词的输出向量与所述分句的句向量累加，得到累加结果；根据所述累加结果，确定所述分句是否属于预设类型金融事件的事件句；若是，则输出所述分句对应的结构化事件。该技术方案同样难以准确、有效地抽取给定金融文本中的全部事件主体和类型。

发明内容

鉴于上述，本发明的目的是提供一种适用于少样本和有偏数据的金融文本事件抽取方法和装置，有效解决了有偏数据和少训练样本对抽取结果的影响，同时实现了对给定金融文本中的全部事件主体和全部类型的有效和准确的抽取。

为实现上述发明目的，本发明提供一种适用于少样本和有偏数据的金融文本事件抽取方法，包括以下步骤：

获取金融事件抽取任务的训练样本，该训练样本包括描述文本和标签，其中，标签包括事件主体和事件主体对应的事件类型；

对训练样本进行预处理和数据增强，得到增强后训练样本；

构建包含事件主体预测模块和事件类型预测模块的抽取模型，其中，事件主体预测模块用于提取增强后训练样本中描述文本的语义表示后，基于语义表示进行事件主体预测；事件类型预测模块用于基于事件主体从描述文本的语义表示中抽取事件主体的语义表示，并基于描述文本的语义表示和事件主体的语义表示进行事件主体相对于每个事件类型的事件类型预测；

构建事件主体预测结果和事件类型预测结果相对于标签的损失函数，基于损失函数和增强后训练样本进行事件主体预测模型和事件类型预测模型的参数优化；

利用优化后的事件主体预测模型和事件类型预测模型进行金融文本事件的抽取。

优选地，对训练样本进行预处理，包括：

对训练样本中的描述文本进行英文字母大小写统一、中英文标点符号统一、繁体中文转简体中文、删除乱码和无法打印字符操作；

针对每条训练样本进行如下处理：首先对训练样本中的标签进行去重，删除冗余和重复的标签；然后判断训练样本中每个标签的事件主体或事件类型是否存在缺失，若缺失则删除标签，若标签删除后，该条训练样本中不存在其他标签，则删除该条训练样本；接下来再判定标签中的事件主体是否出现在描述文本中，若没有出现在描述文本中，则进行事件主体的清洗，具体是判定事件主体是否被插入额外的噪声字符并进行清洗，并再次判定清洗后事件主体是否出现在描述文本中，若不在则删除该标签。

优选地，对训练样本进行数据增强，包括：

从训练样本中抽取出现过的实体类型，实体类型包括时间描述实体和货币描述实体，其中，时间描述实体分为时间点、时间范围、时间段、时间周期四类，分别生成对应的时间点实体列表、时间范围实体列表、时间段实体列表、时间周期实体列表，为货币描述实体生成对应的货币描述实体列表；

判定描述文本包含的实体类别，并从实体类别对应的列表中随机抽取同类的实体进行替换以增强描述文本；

使用同义词替换、随机删除、随机插入、随机交换以及相邻子句随机交换的方式对描述文本和实体替换后的增强描述文本分别进行文本增强操作；

判定描述文本的每句增强文本是否包含描述文本中的全部事件主体，若包含则保留增强文本，若不包含则判定增强文本无效并删除；

统计训练样本中出现过的事件主体集并进行去重，并判定去重后的事件主体数量不足设定阈值时，加载外部公司股票名列表作为事件主体填充事件主体集；

从填充后的事件主体集中随机选定不同的事件主体，利用选择的事件主体替换描述文本以及标签内的事件主体，使用事件主体替换的方式进行训练样本增强。

优选地，所述事件主体预测模块包括预训练模型和第一分类层；

所述预训练模型用于提取增强后训练样本中描述文本的语义表示；

所述第一分类层用于基于描述文本的语义表示计算每个字符类别的预测值，实现事件主体预测。

优选地，所述事件类型预测模块包括语义表示提取操作、池化层、第二分类层；

所述语义表示提取操用于基于事件主体相对于在描述文本中位置的遮掩向量，从描述文本的语义表示中提取事件主体的语义表示；

所述池化层用于分别对描述文本的语义表示和事件主体的语义表示进行池化操作；

所述第二分类层用于基于池化后两语义表示的拼接结果进行预测得到事件主体相对于每个事件类型的预测值，实现事件类型预测。

优选地，构建事件主体预测结果和事件类型预测结果相对于标签的损失函数，包括：

对标签中所有事件主体在描述文本的位置进行编码得到位置编码，基于位置编码和事件主体预测结果构建交叉熵损失函数；

基于事件主体相对于在描述文本中位置的遮掩向量，关联每个事件主体遮掩向量对应的事件类别向量，基于事件类别向量和事件类型预测结果构建二分类交叉熵损失函数；

基于交叉熵损失函数和二分类交叉熵损失函数构建所述损失函数。

优选地，利用优化后的事件主体预测模型和事件类型预测模型进行金融文本事件的抽取，包括：

利用优化后的事件主体预测模型提取待抽取描述文本的语义表示，并基于语义表示进行事件主体预测；

利用事件类型预测模型基于事件主体预测结果从语义表示中抽取事件主体预测结果的语义表示，并基于描述文本的语义表示和事件主体预测结果的语义表示进行事件主体预测结果相对于每个事件类型的事件类型预测，得到事件类型预测结果，以完成金融文本事件。

为实现上述发明目的，本发明还提供了一种适用于少样本和有偏数据的金融文本事件抽取装置，包括数据获取单元、预处理增强单元、模型构建单元、参数优化单元、以及应用单元；

所述数据获取单元用于获取金融事件抽取任务的训练样本，该训练样本包括描述文本和标签，其中，标签包括事件主体和事件主体对应的事件类型；

所述预处理增强单元对训练样本进行预处理和数据增强，得到增强后训练样本；

所述模型构建单元用于构建包含事件主体预测模块和事件类型预测模块的抽取模型，其中，事件主体预测模块用于提取增强后训练样本中描述文本的语义表示后，基于语义表示进行事件主体预测；事件类型预测模块用于基于事件主体从描述文本的语义表示中抽取事件主体的语义表示，并基于描述文本的语义表示和事件主体的语义表示进行事件主体相对于每个事件类型的事件类型预测；

所述参数优化单元用于构建事件主体预测结果和事件类型预测结果相对于标签的损失函数，基于损失函数和增强后训练样本进行事件主体预测模型和事件类型预测模型的参数优化；

所述应用单元用于利用优化后的事件主体预测模型和事件类型预测模型进行金融文本事件的抽取。

为实现上述发明目的，本发明还提供了一种计算设备，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述适用于少样本和有偏数据的金融文本事件抽取方法。

为实现上述发明目的，本发明还提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述适用于少样本和有偏数据的金融文本事件抽取方法。

与现有技术相比，本发明具有的有益效果至少包括：

针对金融事件任务中事件类型较多，不同事件发生地频率也不相同，往往存在少样本和有偏的情况，从事件主体和事件类型两个层面上对样本较少数据进行增强，有效地缓解了有偏及少样本类型数据对模型提取结果的影响；

针对描述文本中同一事件主体出现多次且对应多个事件类型的难题和描述文本中多个事件主体对应同一事件类型的难题，构建了包括基于事件主体预测和事件类型预测两级分布处理的抽取模型，该抽取模型经过增强后训练样本的训练，能够提高各情况金融文本事件的准确抽取。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是实施例提供的适用于少样本和有偏数据的金融文本事件抽取方法的流程图；

图2是实施例提供的训练样本预处理流程图；

图3是实施例提供的训练样本增强流程图；

图4是实施例提供的抽取模型的训练流程图；

图5是实施例提供的抽取模型的应用流程图；

图6是实施例提供的适用于少样本和有偏数据的金融文本事件抽取装置的结构示意图；

图7是实施例提供的计算设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

图1是实施例提供的一种适用于少样本和有偏数据的金融文本事件抽取方法的流程图，如图1所示，实施例提供的适用于少样本和有偏数据的金融文本事件抽取方法，包括以下步骤：

S11，获取金融事件抽取任务的训练样本，该训练样本包括描述文本和标签，其中，标签包括事件主体和事件主体对应的事件类型。

实施例中，获得训练样本是与金融事件抽取任务相关的金融文本语料，用于对抽取模型进行训练。每条训练样本包括描述文本和标签，其中，标签由事件主体和事件主体对应的事件类型组成，事件主体一般为公司名。

S12，对训练样本进行预处理和数据增强，得到增强后训练样本。

实施例中，如图2所示，对训练样本进行预处理包括对训练样本进行清洗，具体为：对训练样本中的描述文本进行英文字母大小写统一、中英文标点符号统一、繁体中文转简体中文、删除乱码和无法打印字符等文本清洗操作。

实施例中，如图2所示，对训练样本进行预处理还包括针对每条训练样本进行如下处理：（a）首先对训练样本中的标签进行去重，删除冗余和重复的标签；（b）然后判断训练样本中每个标签的事件主体或事件类型是否存在缺失，若缺失则删除标签，若标签删除后，该条训练样本中不存在其他标签，则删除该条训练样本；（c）接下来再判定标签中的事件主体是否出现在描述文本中，若没有出现在描述文本中，则进行事件主体的清洗，具体是判定事件主体是否被插入额外的噪声字符并进行清洗，并再次判定清洗后事件主体是否出现在描述文本中，若不在则删除该标签；（d）重复步骤（a）-（c），完成训练样本的预处理。

实施例中，在对训练样本预处理后，对训练样本进行增强，如图3所示，包括以下过程：

（a）从训练样本中抽取出现过的实体类型，实体类型包括时间描述实体和货币描述实体，其中，时间描述实体分为时间点、时间范围、时间段、时间周期四类，分别生成对应的时间点实体列表、时间范围实体列表、时间段实体列表、时间周期实体列表，为货币描述实体生成对应的货币描述实体列表；

（b）判定描述文本包含的实体类别，并从实体类别对应的列表中随机抽取同类的实体进行替换，以增强描述文本；

（c）使用同义词替换、随机删除、随机插入、随机交换以及相邻子句随机交换的方式对描述文本和实体替换后的增强描述文本分别进行文本增强操作；

（d）判定描述文本的每句增强文本是否包含描述文本中的全部事件主体，若包含则保留增强文本，若不包含则判定增强文本无效并删除；

（e）统计训练样本中出现过的事件主体集并进行去重，并判定去重后的事件主体数量不足设定阈值时，加载外部公司股票名列表作为事件主体填充事件主体集；

（f）从填充后的事件主体集中随机选定不同的事件主体，利用选择的事件主体替换描述文本以及标签内的事件主体，使用事件主体替换的方式进行训练样本增强。

S13，构建包含事件主体预测模块和事件类型预测模块的抽取模型。

实施例中，构建的抽取模型包括事件主体预测模块和事件类型预测模块，其中，事件主体预测模块用于提取增强后训练样本中描述文本的语义表示后，基于语义表示进行事件主体预测；事件类型预测模块用于基于事件主体从描述文本的语义表示中抽取事件主体的语义表示，并基于描述文本的语义表示和事件主体的语义表示进行事件主体相对于每个事件类型的事件类型预测。

如图4所示，事件主体预测模块包括预训练模型和第一分类层。其中，预训练模型用于提取增强后训练样本中描述文本的语义表示，具体地，将输入的描述文本T _i进行文本向量化得到文本向量X _i，然后将文本向量X _i输入预训练模型BERT得到语义表示X _embed,i，用公式表示为：

X _embed,i=BERT(X _i)

第一分类层用于基于描述文本的语义表示计算每个字符类别的预测值，实现事件主体预测。具体地，第一分类层由全连接网络和归一化指数函数softmax组成，将描述文本的语义表示X _embed,i依次输入全连接网络和归一化指数函数得到描述文本中每一个字符类别的预测值P _tag,i，用公式表示为：

P _tag,i=softmax(Linear(X _embed,i))

如图4所示，事件类型预测模块包括语义表示提取操作、池化层、第二分类层。其中，语义表示提取操用于基于事件主体相对于在输入描述文本中位置的遮掩向量，从描述文本的语义表示中提取事件主体的语义表示。具体地，采用例如数字1这样的特殊数字对标签内每个事件主体在描述文本中位置进行遮掩生成每个事件主体相对于描述文本位置的遮掩向量Mask _i=[mask _i1,mask _i2,…,mask _ij]，然后依据主体事件的遮掩向量mask _ij和描述文本的语义表示X _embed,i抽取该事件主体的语义表示X _embed,ij，用公式表示为：

X _embed,ij=index_select(mask _ij,X _embed,i)

其中，index_select表示抽取操作，具体地，依据遮掩向量mask _ij中特殊字符存在的位置从描述文本的语义表示X _embed,i中对应位置抽取向量表示得到事件主体的语义表示X _embed,ij。

如图4所示，例如，针对描述文本“AA公司，BB股份被指票据违约，AA公司跌近4%”，采用数字1对描述文本中的事件主体“AA公司和BB股份”在描述文本中位置进行掩码，得到事件主体“AA公司”的掩码向量为Mask ₁=[0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0,0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0]，事件主体“BB股份”的掩码向量Mask ₂=[0, 0, 0,0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]。

池化层用于分别对描述文本的语义表示和事件主体的语义表示进行池化操作；第二分类层用于基于池化后两语义表示的拼接结果进行预测得到事件主体相对于每个事件类型的预测值，实现事件类型预测。具体地，第二分类层包括全连接网络和逻辑回归函数Sigmoid组成，经过池化操作的两语义表示的拼接结果经过全连接网络和逻辑回归函数Sigmoid得到事件主体相对于每个事件类型的预测值P _type,i =[P _type,i1,P _type,i2,…,P _type,ij]，用公式表示为：

P _type,i=Sigmoid (Linear(concat(avg_pool(X _embed,ij),avg_pool(X _embed,i))))

其中，avg_pool中表示平均池化操作，concat表示拼接操作，Linear表示全连接网络的线性映射操作。

S14，构建事件主体预测结果和事件类型预测结果相对于标签的损失函数，基于损失函数和增强后训练样本进行事件主体预测模型和事件类型预测模型的参数优化。

实施例中，如图4所示，提取模型的损失函数包络两个交叉熵损失函数，其中一个是基于事件主体预测结果构建，具体为：可以采用BIO编码格式对标签中所有事件主体在描述文本的位置进行编码得到位置编码tag _i，例如，针对描述文本“AA公司，BB股份被指票据违约，AA公司跌近4%”，得到的位置编码tag ₁ =[0, 2, 1, 1, 1, 0, 2, 1, 1, 1, 0, 0, 0,0, 0, 0, 0, 2, 1, 1, 1, 0, 0, 0, 0, 0]，2表示公司名的开始位置，1表示公司名的非开始位置。基于位置编码和事件主体预测结果构建交叉熵损失函数loss ₁，用公式表示为：

loss ₁=crossentropy(P _tag,i,tag _i)

其中，crossentropy表示交叉熵损失函数。

另一是基于事件类型预测结果构建，具体为：基于事件主体相对于在描述文本中位置的遮掩向量Mask _i=[mask _i1,mask _i2,…,mask _ij]，关联每个事件主体遮掩向量对应的事件类别向量Label _i=[label _i1,label _i2,…,label _ij]，基于事件类别向量Label _i和事件类型预测结果P _type,i构建二分类交叉熵损失函数loss ₂，用公式表示为：

loss ₂=BCE(P _type,i,Label _i)

其中，BCE表示二分类交叉熵损失函数，则提取模型的损失函数loss=loss ₁+loss ₂。

实施例中，基于构建的损失函数和增强后训练样本进行事件主体预测模型和事件类型预测模型的参数优化。

S15，利用优化后的事件主体预测模型和事件类型预测模型进行金融文本事件的抽取。

实施例中，在参数优化后，如图5所示，利用优化后的事件主体预测模型和事件类型预测模型进行金融文本事件的抽取，包括：

首先，利用优化后的事件主体预测模型提取待抽取描述文本的语义表示，并基于语义表示进行事件主体预测。具体地，将待抽取描述文本输入至预训练模型中得到待抽取描述文本的语义表示，然后利用第一分类层基于待抽取描述文本的语义表示计算每个字符类别的预测值，基于预测值和待抽取描述文本得到事件主体预测结果；

然后，利用事件类型预测模型基于事件主体预测结果从待抽取描述文本的语义表示中抽取事件主体预测结果的语义表示，并基于待抽取描述文本的语义表示和事件主体预测结果的语义表示进行事件主体预测结果相对于每个事件类型的事件类型预测，得到事件类型预测结果，以完成金融文本事件。具体地，首先基于事件主体预测结果和待抽取描述文本生成事件主体预测结果相对于在待抽取描述文本中位置的遮掩向量，基于遮掩向量从待抽取描述文本的语义表示中提取事件主体预测结果的语义表示；然后利用池化层分别对待抽取描述文本的语义表示和事件主体预测结果的语义表示进行池化操作；最后利用第二分类层基于池化后两语义表示的拼接结果进行预测得到事件主体预测结果相对于每个事件类型的预测值，当事件主体相对于某个事件类型的预测值超过0.5，则判定事件主体发生了该事件类别，若事件主体相对于所有的事件类型的预测值均不超过0.5，则判定预测值最高的事件类别为事件主体的类别。

如图5所示，例如，针对待抽取描述文本“AA公司，BB股份被指票据违约，AA公司跌近4%”，将其向量化后输入预训练模型BERT，得到该抽取描述文本的文本语义表示，之后将文本语义表示输入第一分类层得到每个字符类别的预测值[0,2,1,1,1,0,2,1,1,1,0,0,0,0,0,0,0,2,1,1,1,0,0,0,0,0]，使用每个字符类别的预测值与待抽取描述文本得到事件主体预测结果[“AA公司”，“BB股份”]，根据事件主体预测结果与描述文本得到事件主体“AA公司”的掩码向量为Mask1=[0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1,1, 1, 1, 0, 0, 0, 0, 0]，事件主体“BB股份”的掩码向量Mask2=[0, 0, 0, 0, 0, 0, 1,1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]，使用“AA公司”的掩码向量Mask1抽取出“AA公司”的语义表示与待抽取描述文本的语义表示进行池化后拼接，输入第二分类层得到事件主体“AA公司”的事件类型。

针对面临的问题，本发明实施在提出的提取模型上针对不同少样本{1-shot, 5-shot, 10-shot, 20-shot, 50-shot}数据的情况，{1-shot, 5-shot, 10-shot, 20-shot,50-shot }数据表示数据集中每个标签有且仅有{1，5，10，20，50}个样本。并对比多个增强策略（无增强：表示直接使用原数据，没有使用数据增强的策略进行数据增强；EDA：简单数据增强方法（easy data augmentation technique），随机交换、随机删除、同义词替换、随机插入等数据增强方法；事件主体替换：将事件中的主体使用同标签文本中的事件主体替换；相邻子句交换：随机交换相邻子句的位置；实体替换：使用同类实体替换文本中的实体，比如其他文本中时间实体替换选定文本中时间实体，其他文本中出现过的人名实体替换选定文本中的实体）的试验结果，可以验证得出本发明方法的优越性能及强鲁棒性；在不同百分比的真实有偏分布的训练集中，验证了本发明方法的有效性；最后，面对不同少样本的情况，给出了应增强的样本数量。其中，表1为本发明方法在少样本情况下与多个增强策略进行对比的实验结果。表2为本发明方法在不同百分比的真实有偏分布的训练集中与多个增强策略进行对比的实验结果。表3为面对不同少样本的情况，给出了应增强的样本数量（加粗结果对应的增强数量，即推荐使用的增强数量）。

基于同样的发明构思，如图6所示，实施例还提供了一种适用于少样本和有偏数据的金融文本事件抽取装置60，包括数据获取单元61、预处理增强单元62、模型构建单元63、参数优化单元64、以及应用单元65；

其中，数据获取单元61用于获取金融事件抽取任务的训练样本，该训练样本包括描述文本和标签，其中，标签包括事件主体和事件主体对应的事件类型；预处理增强单元62对训练样本进行预处理和数据增强，得到增强后训练样本；模型构建单元63用于构建包含事件主体预测模块和事件类型预测模块的抽取模型，参数优化单元64用于构建事件主体预测结果和事件类型预测结果相对于标签的损失函数，基于损失函数和增强后训练样本进行事件主体预测模型和事件类型预测模型的参数优化；应用单元65用于利用优化后的事件主体预测模型和事件类型预测模型进行金融文本事件的抽取。

需要说明的是，上述实施例提供的适用于少样本和有偏数据的金融文本事件抽取装置在进行金融文本事件抽取时，应以上述各功能单元的划分进行举例说明，可以根据需要将上述功能分配由不同的功能单元完成，即在终端或服务器的内部结构划分成不同的功能单元，以完成以上描述的全部或者部分功能。另外，上述实施例提供的适用于少样本和有偏数据的金融文本事件抽取装置与适用于少样本和有偏数据的金融文本事件抽取方法实施例属于同一构思，其具体实现过程详见适用于少样本和有偏数据的金融文本事件抽取方法实施例，这里不再赘述。

基于同样的发明构思，实施例还提供了一种计算设备，包括存储器和一个或多个处理器，存储器中存储有可执行代码，一个或多个处理器执行可执行代码时，用于实现上述适用于少样本和有偏数据的金融文本事件抽取方法，具体包括以下步骤：

S11，获取金融事件抽取任务的训练样本，该训练样本包括描述文本和标签，其中，标签包括事件主体和事件主体对应的事件类型；

S12，对训练样本进行预处理和数据增强，得到增强后训练样本；

S13，构建包含事件主体预测模块和事件类型预测模块的抽取模型；

S14，构建事件主体预测结果和事件类型预测结果相对于标签的损失函数，基于损失函数和增强后训练样本进行事件主体预测模型和事件类型预测模型的参数优化；

如图7所示，实施例提供的计算设备，在硬件层面，除了包含处理器和存储器外，还包括内部总线、网络接口、内存等其他业务所需要的硬件。存储器为非易失性存储器，处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述S11-S15所述的适用于少样本和有偏数据的金融文本事件抽取方法。当然，除了软件实现方式之外，本发明并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

基于同样的发明构思，实施例还提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述适用于少样本和有偏数据的金融文本事件抽取方法，具体包括以下步骤：

实施例中，计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机存储介质的例子包括但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种适用于少样本和有偏数据的金融文本事件抽取方法，其特征在于，包括以下步骤：

对训练样本进行预处理和数据增强，得到增强后训练样本，其中，对训练样本进行数据增强，包括：从训练样本中抽取出现过的实体类型，实体类型包括时间描述实体和货币描述实体，其中，时间描述实体分为时间点、时间范围、时间段、时间周期四类，分别生成对应的时间点实体列表、时间范围实体列表、时间段实体列表、时间周期实体列表，为货币描述实体生成对应的货币描述实体列表；判定描述文本包含的实体类别，并从实体类别对应的列表中随机抽取同类的实体进行替换以增强描述文本；使用同义词替换、随机删除、随机插入、随机交换以及相邻子句随机交换的方式对描述文本和实体替换后的增强描述文本分别进行文本增强操作；判定描述文本的每句增强文本是否包含描述文本中的全部事件主体，若包含则保留增强文本，若不包含则判定增强文本无效并删除；统计训练样本中出现过的事件主体集并进行去重，并判定去重后的事件主体数量不足设定阈值时，加载外部公司股票名列表作为事件主体填充事件主体集；从填充后的事件主体集中随机选定不同的事件主体，利用选择的事件主体替换描述文本以及标签内的事件主体，使用事件主体替换的方式进行训练样本增强；

构建包含事件主体预测模块和事件类型预测模块的抽取模型，其中，事件主体预测模块用于提取增强后训练样本中描述文本的语义表示后，基于语义表示进行事件主体预测；事件类型预测模块用于基于事件主体从描述文本的语义表示中抽取事件主体的语义表示，并基于描述文本的语义表示和事件主体的语义表示进行事件主体相对于每个事件类型的事件类型预测；其中，事件主体预测模块包括预训练模型和第一分类层，预训练模型用于提取增强后训练样本中描述文本的语义表示，第一分类层用于基于描述文本的语义表示计算每个字符类别的预测值，实现事件主体预测；事件类型预测模块包括语义表示提取操作、池化层、第二分类层，语义表示提取操用于基于事件主体相对于在描述文本中位置的遮掩向量，从描述文本的语义表示中提取事件主体的语义表示，池化层用于分别对描述文本的语义表示和事件主体的语义表示进行池化操作，第二分类层用于基于池化后两语义表示的拼接结果进行预测得到事件主体相对于每个事件类型的预测值，实现事件类型预测；

2.根据权利要求1所述的适用于少样本和有偏数据的金融文本事件抽取方法，其特征在于，对训练样本进行预处理，包括：

3.根据权利要求1所述的适用于少样本和有偏数据的金融文本事件抽取方法，其特征在于，构建事件主体预测结果和事件类型预测结果相对于标签的损失函数，包括：

4.根据权利要求1所述的适用于少样本和有偏数据的金融文本事件抽取方法，其特征在于，利用优化后的事件主体预测模型和事件类型预测模型进行金融文本事件的抽取，包括：

利用事件类型预测模型基于事件主体预测结果从待抽取描述文本的语义表示中抽取事件主体预测结果的语义表示，并基于描述文本的语义表示和事件主体预测结果的语义表示进行事件主体预测结果相对于每个事件类型的事件类型预测，得到事件类型预测结果，以完成金融文本事件。

5.一种适用于少样本和有偏数据的金融文本事件抽取装置，其特征在于，包括数据获取单元、预处理增强单元、模型构建单元、参数优化单元、以及应用单元；

所述预处理增强单元对训练样本进行预处理和数据增强，得到增强后训练样本，其中，对训练样本进行数据增强，包括：从训练样本中抽取出现过的实体类型，实体类型包括时间描述实体和货币描述实体，其中，时间描述实体分为时间点、时间范围、时间段、时间周期四类，分别生成对应的时间点实体列表、时间范围实体列表、时间段实体列表、时间周期实体列表，为货币描述实体生成对应的货币描述实体列表；判定描述文本包含的实体类别，并从实体类别对应的列表中随机抽取同类的实体进行替换以增强描述文本；使用同义词替换、随机删除、随机插入、随机交换以及相邻子句随机交换的方式对描述文本和实体替换后的增强描述文本分别进行文本增强操作；判定描述文本的每句增强文本是否包含描述文本中的全部事件主体，若包含则保留增强文本，若不包含则判定增强文本无效并删除；统计训练样本中出现过的事件主体集并进行去重，并判定去重后的事件主体数量不足设定阈值时，加载外部公司股票名列表作为事件主体填充事件主体集；从填充后的事件主体集中随机选定不同的事件主体，利用选择的事件主体替换描述文本以及标签内的事件主体，使用事件主体替换的方式进行训练样本增强；

所述模型构建单元用于构建包含事件主体预测模块和事件类型预测模块的抽取模型，其中，事件主体预测模块用于提取增强后训练样本中描述文本的语义表示后，基于语义表示进行事件主体预测；事件类型预测模块用于基于事件主体从描述文本的语义表示中抽取事件主体的语义表示，并基于描述文本的语义表示和事件主体的语义表示进行事件主体相对于每个事件类型的事件类型预测；其中，事件主体预测模块包括预训练模型和第一分类层，预训练模型用于提取增强后训练样本中描述文本的语义表示，第一分类层用于基于描述文本的语义表示计算每个字符类别的预测值，实现事件主体预测；事件类型预测模块包括语义表示提取操作、池化层、第二分类层，语义表示提取操用于基于事件主体相对于在描述文本中位置的遮掩向量，从描述文本的语义表示中提取事件主体的语义表示，池化层用于分别对描述文本的语义表示和事件主体的语义表示进行池化操作，第二分类层用于基于池化后两语义表示的拼接结果进行预测得到事件主体相对于每个事件类型的预测值，实现事件类型预测；

6.一种计算设备，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，其特征在于，所述一个或多个处理器执行所述可执行代码时，用于实现权利要求1-4中任一项所述的适用于少样本和有偏数据的金融文本事件抽取方法。

7.一种计算机可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，实现权利要求1-4中任一项所述的适用于少样本和有偏数据的金融文本事件抽取方法。