CN118012992B

CN118012992B - 一种金融文本关系抽取方法、系统及存储介质

Info

Publication number: CN118012992B
Application number: CN202410417863.2A
Authority: CN
Inventors: 方宇鹏; 吴庆耀
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Filing date: 2024-04-09
Publication date: 2024-07-02
Anticipated expiration: 2044-04-09

Abstract

本发明公开了一种金融文本关系抽取方法、系统及存储介质，属于自然语言处理技术领域。方法包括：预处理金融文本数据，将文本拆解为句子级的输入序列，并加上实体标记；将输入序列的各词语转换为嵌入向量，并获取各词语的上下文序列信息，得到输入序列的表征；根据输入序列的表征提取词语之间的依存关系，得到句法增强表征；根据句法增强表征分别提取金融实体的类型信息和上下文信息；引入金融实体外部知识库，并提取金融实体的知识增强表征；预测实体之间的关系类别，作为金融文本关系抽取的结果。本发明通过基于依存句法树的注意力机制捕获文本的句法增强特征，并通过注意力机制和外部知识图卷积增强金融实体信息，提高金融文本的关系抽取性能。

Description

一种金融文本关系抽取方法、系统及存储介质

技术领域

本发明涉及自然语言处理、关系抽取的技术领域，尤其涉及一种金融文本关系抽取方法、系统及存储介质。

背景技术

随着互联网的发展，金融领域的数字化进程加快，其中产生了大量的文本数据，如何准确高效利用金融文本数据成为一个关键问题。信息抽取有助于从大量金融文本数据中抽取有用信息，提升金融决策智能化的关键手段。然而，金融领域文本表达的多样性，样本数量的稀缺性，任务需求的复杂性，对金融领域的关系抽取工作带来挑战。

发明内容

为至少一定程度上解决现有技术中存在的技术问题之一，本发明的目的在于提供一种金融文本关系抽取方法、系统及存储介质。

本发明所采用的技术方案是：

一种金融文本关系抽取方法，包括以下步骤：

预处理金融文本数据，将文本拆解为句子级的输入序列，并加上实体标记；

将所述输入序列的各词语转换为嵌入向量，并获取各词语的上下文序列信息，得到输入序列的表征；

根据所述输入序列的表征提取词语之间的依存关系，得到句法增强表征；

根据所述句法增强表征分别提取金融实体的类型信息和上下文信息；

引入金融实体外部知识库，并提取金融实体的知识增强表征；

根据类型信息、上下文信息和知识增强表征预测实体之间的关系类别，作为金融文本关系抽取的结果。

进一步地，所述预处理金融文本数据，将文本拆解为句子级的输入序列，并加上实体标记，包括：

将金融文本数据拆解为句子级的输入序列；

确定句子中两个实体的位置，在每个实体词的首尾两端分别添加一个预设的标记符号，该标记符号为自定义的词符，用于区分实体词和普通词，以构造新的文本序列作为序列编码模块的输入。

进一步地，所述将所述输入序列的各词语转换为嵌入向量，并获取各词语的上下文序列信息，得到输入序列的表征，包括：

利用分词工具将文本转换为分词序列，并在文本的首尾两端分别添加[CLS]和[SEP]两个特殊字符；

将文本的分词序列生成对应的词向量、位置向量和句子向量三种向量，将这三种向量相加生成嵌入向量，具体计算公式为：

；

式中，为动态生成的词向量，为位置向量，为句子向量，为字符在序列中的位置，为嵌入的维度索引，为嵌入的维度数量；

将所述嵌入向量输入经过金融语料库预训练的BERT编码器，提取文本序列的表征作为输入序列的表征，即。

进一步地，所述根据所述输入序列的表征提取词语之间的依存关系，得到句法增强表征，包括：

根据文本的依存句法树构建词语之间的句法注意力权重矩阵：如果两个词语存在两个实体的最短依存路径中，将这两个单词视为直接相连，在句法注意力权重矩阵中存在一个相应的权重，计算公式为：

；

其中，为词语，为两个词语之间的距离；

将输入序列的表征经过多个不同的线性变换分别得到查询矩阵、键矩阵和值矩阵，基于查询矩阵和键矩阵计算文本注意力权重矩阵，具体公式为：

；

其中，、、、表示可学习的参数，为缩放因子；

将句法注意力权重矩阵、文本注意力权重矩阵、值矩阵进行注意力加权后，与输入序列的表征融合并进行归一化，得到句法增强表征，具体公式为：

；

其中，为注意力加权后的结果，表示层归一化运算。

进一步地，所述金融实体的类型信息通过实体类型注意力模块进行提取，包括：

对句法增强表征中实体词所在位置的序列使用平均池化操作得到金融实体的表示，计算公式为：

；

式中，为句法增强表征，、分别为实体在序列中的起始位置和结束位置；

构建一个实体类型记忆网络，具体做法为：随机初始化一个实体类型嵌入矩阵，并在训练过程中自动学习实体的类型表示，实体类型嵌入矩阵由个代表实体类型的向量组成；

将金融实体的表示与实体类型嵌入矩阵进行向量内积，得到实体与每一个类型的相关度，再经过softmax归一化得到总和为1的实体类型权重，加权求和即得到最终的实体类型表示，计算公式为：

；

式中，为实体类型嵌入矩阵中第个实体类型的嵌入向量。

进一步地，所述金融实体的上下文信息通过实体上下文注意力模块进行提取，包括：

对句法增强表征中两个实体词所在位置的序列分别使用平均池化操作得到两个实体的表示、，加权后得到其综合表示，计算公式为：

；

在两个实体及其之间的文本上使用平均池化操作构建实体的局部上下文表示，计算公式为：

；

式中，、分别为局部上下文在序列中的起始位置和结束位置；

将综合表示作为查询向量，局部上下文表示作为键向量和值向量，用注意力机制进行加权求和得到实体上下文表示，计算公式为：

；

其中，、、、、、表示可学习的参数，为缩放因子；为查询矩阵，为键矩阵，为值矩阵。

进一步地，所述引入金融实体外部知识库，并提取金融实体的知识增强表征，包括：

通过引入金融实体的外部知识库，构建金融实体关系图，其中包含企业节点、行业节点、产品节点以及边；为了不引入额外的关系误差，金融实体关系图的节点之间采用软关联，仅将每个企业节点与所属行业节点和主营产品节点直接相连，不在边上施加关系标签；对于每个节点，随机初始化一个嵌入向量，将图结构转化为节点的嵌入矩阵和邻接矩阵；

通过实体知识图卷积模块聚合每个节点的相邻信息和自身信息，更新嵌入矩阵，具体公式为：

；

式中，表示结点在第层图卷积更新的嵌入向量，代表图卷积的层数，和代表图卷积第层的权重矩阵和偏置项，为线性整流函数；

根据文本的实体词在嵌入矩阵中查询得到对应的金融实体知识增强表征、，若没有对应的节点存在则将金融实体知识增强表征、初始化为全0向量。

进一步地，所述根据类型信息、上下文信息和知识增强表征预测实体之间的关系类别，作为金融文本关系抽取的结果，包括：

将两个实体的文本表征、、类型表征、、实体上下文表示以及知识增强表征、拼接得到最终的特征表示；

通过全连接层和softmax操作得到每个关系类别的概率得分，计算公式为：

；

其中，是全连接层的权重，是全连接层的偏置项；

获取概率得分最大的关系类别作为金融文本关系抽取的结果。

本发明所采用的另一技术方案是：

一种金融文本关系抽取系统，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上所述方法。

本发明所采用的另一技术方案是：

一种计算机可读存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。

本发明与现有技术相比，具有如下优点和有益效果：

（1）本发明提出的金融文本关系抽取方法在利用了自注意力机制处理序列数据，对数据的建模能力强。

（2）本发明提出的金融文本关系抽取方法通过引入依存句法树，使得模型可以关注到单词之间的依存关系，对于提升关系抽取效果有重大作用。

（3）本发明提出的金融文本关系抽取方法通过约束金融实体的类型信息，引入记忆网络机制自适应学习实体类型，对于提升关系抽取效果有重大作用。

（4）本发明提出的金融文本关系抽取方法通过引入金融实体的外部知识，采用图卷积操作增强实体的知识表征，对于提升关系抽取效果有重大作用。

附图说明

为了更清楚地说明本发明实施例或者现有技术中的技术方案，下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员而言，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1为本发明实施例中金融文本关系抽取方法的步骤流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

请参阅图1，在本申请的一个实施例中提供了一种金融文本关系抽取方法，包括以下步骤：

S1、预处理金融文本数据，将文本拆解为句子级的输入序列，并加上实体标记。

在一些实施例中，步骤S1具体包括步骤S11- S12：

S11、将金融文本数据拆解为句子级的序列输入；

S12、找到句子中两个实体的位置，在每个实体词的首尾两端分别添加一个特殊的标记符号，该标记符号为自定义的词符，用于区分实体词和普通词，构造新的文本序列作为词嵌入模块的输入。

S2、将输入序列的各词语转换为嵌入向量，并获取各词语的上下文序列信息，得到输入序列的表征。

在一些实施例中，步骤S2具体包括步骤S21- S22：

S21、利用分词工具将文本转换为分词序列，并在文本的首尾两端分别添加“[CLS]”和“[SEP]”两个特殊字符，然后将文本的分词序列生成对应的词向量、位置向量和句子向量，将三种向量加在一起生成嵌入向量，具体计算公式为：

；

其中，为动态生成的词向量，为位置向量，为句子向量，为字符在序列中的位置，为嵌入的维度索引，为嵌入的维度数量。

S22、将所述嵌入向量输入在金融语料库上预训练的BERT编码器，提取文本序列的表征作为输入序列的表征，即。

S3、根据输入序列的表征提取词语之间的依存关系，得到句法增强表征。

在一些实施例中，步骤S3具体包括步骤S31- S33：

S31、根据文本的依存句法树构建词语之间的句法注意力权重矩阵，如果两个词语存在两个实体的最短依存路径中，那么就把这两个单词视为直接相连，在句法注意力权重矩阵中存在一个相应的权重，计算公式为：

；

其中，为词语，为两个词语之间的距离。

S32、将输入序列的表征经过多个不同的线性变换分别得到查询矩阵、键矩阵和值矩阵，基于查询矩阵和键矩阵计算文本注意力权重矩阵，具体公式为：

；

其中，、、、表示可学习的参数，为缩放因子。

S33、将句法注意力权重矩阵、文本注意力权重矩阵、值矩阵进行注意力加权后，与输入序列的表征融合并进行归一化，得到句法增强表征，具体公式为：

；

其中，为注意力加权后的结果，表示层归一化运算。

S4、根据句法增强表征分别提取金融实体的类型信息和上下文信息。

在一些实施例中，通过实体类型注意力模块提取金融实体的类型信息，具体包括以下步骤A1-A3：

A1、使用平均池化操作得到实体的表示，计算公式为：

；

其中，为句法增强表征，、分别为实体在序列中的起始位置和结束位置。

A2、构建一个实体类型记忆网络，具体做法为随机初始化一个实体类型嵌入矩阵，并在训练过程中自动学习实体的类型表示，实体类型嵌入矩阵由个代表实体类型的向量组成。

A3、将金融实体的表示与实体类型嵌入矩阵进行向量内积得到实体与每一个类型的相关度，再经过softmax归一化得到总和为1的实体类型权重，加权求和即得到最终的实体类型表示计算公式为：

；

在一些实施例中，通过实体上下文注意力模块提取金融实体的上下文信息，具体包括以下步骤B1-B3：

B1、使用平均池化操作得到两个实体的表示、，加权后得到其综合表示，计算公式为：

；

其中，为句法增强的特征向量，、分别为实体在序列中的起始位置和结束位置。

B2、在两个实体及其之间的文本上使用平均池化操作构建实体局部上下文表示，计算公式为：

；

其中，为句法增强表征，、分别为局部上下文在序列中的起始位置和结束位置。

B3、将作为查询向量，作为键向量和值向量，用注意力机制进行加权求和得到实体上下文表示，计算公式为：

；

S5、引入金融实体外部知识库，并提取金融实体的知识增强表征。

在一些实施例中，步骤S5具体包括步骤S51- S53：

S51、引入金融实体的外部知识库构建金融实体关系图，其中包含企业节点、行业节点、产品节点以及边。为了不引入额外的关系误差，金融实体关系图的节点之间采用软关联，仅将每个企业节点与所属行业节点和主营产品节点直接相连，不在边上施加关系标签。对于每个节点, 随机初始化一个嵌入向量，通过上述过程将图结构转化为节点的嵌入矩阵和邻接矩阵。

S52、通过实体知识图卷积模块聚合每个节点的相邻信息和自身信息，更新嵌入矩阵，具体公式为：

；

其中，代表图卷积的层数，和代表图卷积第层的权重矩阵和偏置项，为线性整流函数。

S53、根据文本的实体词在嵌入矩阵中查询得到对应的金融实体知识增强表征、，若没有对应的节点存在则将金融实体知识增强表征、初始化为全0向量。

S6、根据类型信息、上下文信息和知识增强表征预测实体之间的关系类别，作为金融文本关系抽取的结果。

在一些实施例中，步骤S6具体包括步骤S61- S63：

S61、将所述两个实体的文本表征、、类型表征、、实体上下文表示以及知识增强表征、拼接得到最终的特征表示。

S62、通过全连接层和Softmax操作得到每个关系类别的概率得分，计算公式为：

；

其中，是全连接层的权重，是全连接层的偏置项。

S63、取概率得分最大的关系类别作为实体关系抽取的结果。

进一步作为可选的实施方式，本实施例采用预测结果与真实结果之间的交叉熵作为训练模型的目标函数，使用随机梯度下降方法迭代优化关系抽取模型，最后得到训练好的关系抽取模型。

需要说明的是，对于前述的各方法实施例，为了简便描述，将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。

在本申请的另一个实施例中，提供了一种金融文本关系抽取单元，该单元包括预处理模块、序列编码模块、句法感知的注意力模块、实体类型注意力模块、实体上下文注意力模块、实体知识图卷积模块以及关系抽取模块；

所述预处理模块，用于预处理金融文本数据，将文本拆解为句子级的序列输入，并加上实体标记用于区分实体词和普通词；

所述序列编码模块，将输入序列的各词语转换为动态嵌入向量，并建模捕获各词语的上下文序列信息，得到输入序列的表征；

所述句法感知的注意力模块，用于将输入序列的表征通过句法感知的注意力机制提取词语之间的依存关系，得到句法增强的表征；

所述实体类型注意力模块，用于提取金融实体的类型信息；

所述实体上下文注意力模块，用于提取金融实体的上下文信息；

所述实体知识图卷积模块，用于引入金融实体外部知识库，通过图卷积操作提取金融实体的知识增强表征；

所述关系抽取模块，用于融合前置模块所提取的表征进行实体之间关系类别的预测。

需要说明的是，本发明的金融文本单元抽取单元与本发明的金融文本关系抽取方法一一对应，在上述金融文本关系抽取方法的实施例阐述的技术特征及其有益效果均适用于金融文本关系抽取单元的实施例中，具体内容可参见本发明方法实施例中的叙述，此处不再赘述，特此声明。

此外，上述实施例的金融文本关系抽取单元的实施方式中，各程序模块的逻辑划分仅是举例说明，实际应用中可以根据需要，例如出于相应硬件的配置要求或者软件的实现的便利考虑，将上述功能分配由不同的程序模块完成，即将所述金融文本关系抽取单元的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分功能。

在一个实施例中，提供了一种用于实现金融文本关系抽取方法的电子设备，所述电子设备可以包括处理器、存储器和总线，还可以包括存储在所述存储器中并可在所述处理器上运行的计算机程序，如金融文本关系抽取程序。

其中，所述存储器至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器在一些实施例中可以是电子设备的内部存储单元，例如该电子设备的移动硬盘。所述存储器在另一些实施例中也可以是电子设备的外部存储设备，例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card，SMC)、安全数字(SecureDigital，SD)卡、闪存卡(Flash Card)等。进一步地，所述存储器还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器不仅可以用于存储安装于电子设备的应用软件及各类数据，例如金融文本关系抽取程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器是所述电子设备的控制核心(Control Unit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器内的程序或者模块，以及调用存储在所述存储器内的数据，以执行电子设备的各种功能和处理数据。

本领域技术人员可以理解的是，上述描述的结构并不构成对所述电子设备的限定，可以包括更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

所述电子设备中的所述存储器存储的金融文本关系抽取程序是多个指令的组合，在所述处理器中运行时，可以实现：

基于上述，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM (DRAM)、同步DRAM (SDRAM)、双数据率SDRAM (DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种金融文本关系抽取方法，其特征在于，包括以下步骤：

根据类型信息、上下文信息和知识增强表征预测实体之间的关系类别，作为金融文本关系抽取的结果；

所述根据所述输入序列的表征提取词语之间的依存关系，得到句法增强表征，包括：

；

其中，为词语，为两个词语之间的距离；

将输入序列的表征经过多个不同的线性变换分别得到查询矩阵、键矩阵和值矩阵，基于查询矩阵和键矩阵计算文本注意力权重矩阵；

将句法注意力权重矩阵、文本注意力权重矩阵、值矩阵进行注意力加权后，与输入序列的表征融合并进行归一化，得到句法增强表征；

所述金融实体的上下文信息通过实体上下文注意力模块进行提取，包括：

；

其中，、、、、、表示可学习的参数，为缩放因子；为查询矩阵，为键矩阵，为值矩阵；

所述金融实体的类型信息通过实体类型注意力模块进行提取，包括：

；

将金融实体的表示与实体类型嵌入矩阵中的各实体类型的嵌入向量进行向量内积，得到实体与每一个类型的相关度，再经过softmax归一化得到实体类型权重，加权求和得到最终的实体类型表示，计算公式为：

；

式中，为实体类型嵌入矩阵中第个实体类型的嵌入向量；

所述引入金融实体外部知识库，并提取金融实体的知识增强表征，包括：

通过引入金融实体的外部知识库，构建金融实体关系图，其中包含企业节点、行业节点、产品节点以及边；对于每个节点，随机初始化一个嵌入向量，将图结构转化为节点的嵌入矩阵和邻接矩阵；

；

2.根据权利要求1所述的一种金融文本关系抽取方法，其特征在于，所述预处理金融文本数据，将文本拆解为句子级的输入序列，并加上实体标记，包括：

将金融文本数据拆解为句子级的输入序列；

确定句子中两个实体的位置，在每个实体词的首尾两端分别添加一个预设的标记符号，用于区分实体词和普通词，以构造新的文本序列。

3.根据权利要求1所述的一种金融文本关系抽取方法，其特征在于，所述将所述输入序列的各词语转换为嵌入向量，并获取各词语的上下文序列信息，得到输入序列的表征，包括：

将文本的分词序列生成对应的词向量、位置向量和句子向量三种向量，将这三种向量相加生成嵌入向量；

将所述嵌入向量输入经过金融语料库预训练的BERT编码器，提取文本序列的表征作为输入序列的表征。

4.根据权利要求1所述的一种金融文本关系抽取方法，其特征在于，所述根据类型信息、上下文信息和知识增强表征预测实体之间的关系类别，作为金融文本关系抽取的结果，包括：

；

其中，是全连接层的权重，是全连接层的偏置项；

5.一种金融文本关系抽取系统，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现权利要求1-4任一项所述方法。

6.一种计算机可读存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-4任一项所述方法。