CN113312916B

CN113312916B - 基于触发词语态学习的金融文本事件抽取方法

Info

Publication number: CN113312916B
Application number: CN202110589745.6A
Authority: CN
Inventors: 李建欣; 李倩; 司靖辉; 孙睿; 毛乾任; 黄洪仁
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2022-05-27
Anticipated expiration: 2041-05-28
Also published as: CN113312916A

Abstract

本发明通过神经网络领域的方法，实现了基于触发词语态学习的金融文本事件抽取方法。方法包括三个步骤：金融领域文本预训练、事件分类和基于触发词语态学习的金融文本事件要素抽取；金融领域文本预训练步骤的实现结合金融知识图谱构建BERT预训练模型，以输入词序列作为模型输入，结合神经网络方法，在已有的金融文本训练集和金融知识图谱数据上进行再训练，得到适合下游事件分类和事件抽取的词表征和实体表征，而后通过词表征做多标签多分类任务得到事件检测结果，最后每一个输入词对应的词表征作为多标签分类任务的表征向量进行计算得到输出结果，从而形成一个能够自动精准抽取金融文本事件的方法。

Description

基于触发词语态学习的金融文本事件抽取方法

技术领域

本发明涉及神经网络领域，尤其涉及基于触发词语态学习的金融文本事件抽取方法。

背景技术

在当今信息爆炸的时代，快速高效的从大量的文本中捕获事件并挖掘事件的关键信息是亟需解决的一个重要难题。因此，事件抽取任务应运而生。然而对于事件抽取任务，由于数据标注难度大，领域数据更难标注，且需要特定领域的从业者来标注。因此，这给领域事件抽取任务增加难度。目前针对金融领域事件抽取的研究相对较少，很少有考虑触发词和事件要素的语态关系，对于金融领域大量的领域词汇，增加理解文本语态的难度。

金融领域事件抽取近年来受到广泛关注，主要包括事件检测、事件分类、事件论元识别与论元角色分类四个任务。金融领域事件抽取技术帮助金融领域从业人员直观获取事件重要信息，一般来说金融领域事件抽取包含的事件要素有机构、个人、触发词、事件和地点等内容，通过结构化展示这些要素辅助人们高效的完成工作。目前没有一套基于触发词语态学习的金融文本事件抽取方法与装置实现针对金融领域事件要素抽取的方法。而从基于学习触发词与事件要素的语态关系来提升事件要素抽取是提升具有大量专业术语少量标注数据的金融文本事件抽取技术的有效手段。

发明内容

为此，本发明首先提出基于触发词语态学习的金融文本事件抽取方法，包括三个步骤：金融领域文本预训练、事件分类和基于触发词语态学习的金融文本事件要素抽取；

所述金融领域文本预训练步骤的实现方式为，首先进行金融领域标注数据集自动构建，之后结合金融知识图谱构建BERT预训练模型，以输入词序列作为模型输入，得到有对应实体的输出词和没有对应实体的输出词作为输出结果，token input为单词表征，entityinput为由TransE得到的实体表征，最后在用远程监督得到的金融文本训练集和开源金融知识图谱数据上进行再训练，得到适合下游事件分类和事件抽取的词表征和实体表征；

所述事件分类步骤根据所述金融领域文本预训练步骤生成的词表征做多标签多分类任务得到事件检测结果；

所述基于触发词语态学习的金融文本事件要素抽取步骤将每一个输入词对应的词表征作为多标签分类任务的表征向量进行计算，其中元素值超过设定阈值即打上对应要素的标签，若对应分量值大于阈值，即该词触发对应的事件类型。

所述标注数据集自动构建的方法为：将现有非结构化金融新闻文本与结构化金融事件知识库进行对齐操作获得标注数据，并通过扩大匹配空间，时间调整等优化技巧提高标注的数据集质量。

所述BERT预训练模型由文本表征层和知识融合层构成，所述文本表征层采用Bert模型对输入词序列进行表征，通过多层的双向Transformer编码器来实现对于语义特征的提取并将得到的词序列输入所述知识融合层；所述知识融合层首先通过知识嵌入算法TransE得到结构化的知识编码实体序列，具体地，以{w₁,…,w_n}表示词序列的embedding，{e₁,…,e_m}表示TransE得到的所述实体序列的embedding，两个序列各自通过多头注意力机制：

然后将上述得到的两个序列词表征和实体表征输入到信息融合模块计算：

对于有对应实体的词:

对于没有对应实体的词:

其中Wt代表隐藏层的权重，δ表示非线性激活函数。

所述事件分类步骤根据预定义的事件分类标准，定义层级事件分类标签。

所述每一个输入词对应的词表征作为多标签分类任务的表征向量进行计算的方法为：

用多任务学习的模型架构对基于触发词语态学习和要素抽取两个任务的嵌入层和编码层进行了参数共享，并针对各任务收敛速度为各参数区分别设置了不同的学习率，多任务学习通过多个任务之间共享信息的互通提升模型整体表现。

基于触发词语态学习的金融文本事件抽取装置，应用上述方法进行事件抽取。

本发明所要实现的技术效果在于：

本发明提出一套基于金融领域的文本预训练方法，针对金融领域，提出一套基于触发词语态学习的金融文本事件抽取方法，能够自动精准抽取金融文本事件。

附图说明

图1举例的金融实体知识图谱和金融文本；

图2预训练结构模型图；

图3事件分类模型图；

具体实施方式

以下是本发明的优选实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于此实施例。

本发明提出了基于触发词语态学习的金融文本事件抽取方法，通过引入图1的金融实体知识图谱和金融文本，说明基于触发词语态学习的金融文本事件抽取方法的机制，其中金融文本为华润集团公司董事长张平卖出汇丰公司25000股股份；金融知识图谱如图1所示；事件类型：股份售卖；事件论元：张平(出售人)，汇丰公司(出售对象)，25000股(出售额度)。

本发明的基于触发词语态学习的金融文本事件抽取方法主要包括三个方面：金融领域文本预训练、事件分类和基于触发词语态学习的金融文本事件要素抽取。

金融领域文本预训练方法

步骤一：金融领域标注数据集自动构建。

基于有监督学习的事件抽取范式需要大量的人工标注数据，由于人工标注的高成本，我们采用远程监督(Distant Supervision)方法自动获取大量标注数据。具体操作是将现有非结构化金融新闻文本与结构化金融事件知识库进行对齐操作获得标注数据，并可通过扩大匹配空间，时间对齐排序等优化技巧提高标注的数据集质量。

步骤二：结合金融知识图谱的BERT预训练模型。

这一步我们将金融知识图谱中的实体知识融入bert模型中，通过知识图谱来增强BERT语言表征模型，使得新模型能够更好适应我们的金融领域的事件抽取任务。我们使用的模型图如2。

模型分为文本表征层和知识融合层。

文本表征层：采用BERT模型对输入token进行表征，通过多层的双向Transformer编码器来实现对于语义特征的提取。

知识融合层：首先通过知识嵌入算法TransE得到结构化的知识编码，然后再通过信息融合模块(Information Fusion)整合知识编码与语义信息。该步使得tokenembedding在原有的语义信息基础上，还加入了来自于实体的知识信息，实现了对于BERT语言表征模型的增强，最后将整合之后得到的增强的新表征作为后续任务的表征向量。公式推演如下：

{w₁,…,w_n}来表示token序列的embedding，{e₁,…,e_m}表示该序列中实体的embedding(由TransE得到)，两个序列各自通过多头注意力机制：

将上述得到的序列文本表征和实体表征输入到信息融合模块(InformationFusion),信息融合模块的计算公式如下：

对于有对应实体的token:

对于没有对应实体的token:

其中Wt代表隐藏层的权重，δ表示非线性激活函数。

步骤三：金融文本预训练。

在已有的金融文本训练集和金融知识图谱数据上进行再训练。得到适合下游事件分类和事件抽取的词表征和实体表征。我们利用上面生成的tokenoutput做多标签多分类任务得到我们的事件检测结果。

具体模型图如图3。

由知识融合层得到融合金融知识图谱的金融文本表征token output,对应于每一个输入的token，我们将每一个token对应的token output作为多标签分类任务的表征向量。具体公式如下：

最终得到的

结果(33维向量)形如{0.1,0.3,0.6,0.8,…,0.8}，我们设定一个阈值(如0.5),超过这个阈值即打上对应的标签(也即该token触发了该事件类型)。

步骤四：金融文本事件要素抽取。

针对在金融风险识别包含多个子任务的情况下无法充分利用所有训练数据从而学习到具有更强泛化性能的表征的问题，我们用多任务学习的模型架构对基于金融预训练语言模型的金融文本要素抽取方法做了进一步的优化与改进。为了实现各任务之间可用训练信息的流通，对基于触发词语态学习和要素抽取两个任务的嵌入层和编码层进行了参数共享，并针对各任务收敛速度为各参数区分别设置了不同的学习率，多任务学习通过多个任务之间共享信息的互通提升模型整体表现。

Claims

1.基于触发词语态学习的金融文本事件抽取方法，其特征在于：包括三个步骤：金融领域文本预训练、事件分类和基于触发词语态学习的金融文本事件要素抽取；

所述金融领域文本预训练步骤的实现方式为，首先进行金融领域标注数据集自动构建，之后结合金融知识图谱构建BERT预训练模型，以输入词序列作为模型输入，得到有对应实体的输出词作为输出结果，最后在金融文本训练集和金融知识图谱数据上进行再训练，得到适合下游事件分类和事件抽取的词表征和实体表征；

所述基于触发词语态学习的金融文本事件要素抽取步骤将每一个输入词对应的词表征作为多标签分类任务的表征向量进行计算，其中元素值超过设定阈值即打上对应要素的标签。

2.如权利要求1所述的基于触发词语态学习的金融文本事件抽取方法，其特征在于：所述标注数据集自动构建的方法为：将现有非结构化金融新闻文本与结构化金融事件知识库进行对齐操作获得标注数据。

3.如权利要求2所述的基于触发词语态学习的金融文本事件抽取方法，其特征在于：所述BERT预训练模型由文本表征层和知识融合层构成，所述文本表征层采用BERT模型对输入词序列进行表征，通过多层的双向Transformer编码器来实现对于语义特征的提取并将得到的词序列输入所述知识融合层；所述知识融合层首先通过知识嵌入算法TransE得到结构化的知识编码实体序列，具体地，以{w₁,…,w_n}表示词序列的embedding，{e₁,…,e_m}表示TransE得到的所述实体序列的embedding，两个序列各自通过多头注意力机制：

对于有对应实体的词:

对于没有对应实体的词:

其中Wt代表隐藏层的权重，δ表示非线性激活函数。

4.如权利要求3所述的基于触发词语态学习的金融文本事件抽取方法，其特征在于：所述事件分类步骤根据预定义的事件分类标准，定义层级事件分类标签。

5.如权利要求4所述的基于触发词语态学习的金融文本事件抽取方法，其特征在于：所述每一个输入词对应的词表征作为多标签分类任务的表征向量进行计算的方法为：