CN111597812B

CN111597812B - 一种基于遮蔽语言模型的金融领域多重关系抽取方法

Info

Publication number: CN111597812B
Application number: CN202010394859.0A
Authority: CN
Inventors: 周露
Original assignee: Beijing Hezhong Dingcheng Technology Co ltd
Current assignee: Beijing Hezhong Dingcheng Technology Co ltd
Priority date: 2020-05-09
Filing date: 2020-05-09
Publication date: 2021-09-17
Anticipated expiration: 2040-05-09
Also published as: CN111597812A

Abstract

本发明公开了一种基于遮蔽语言模型的金融领域多重关系抽取方法，首先，利用遮蔽语言模型对输入的数据集编码为句向量，其次，利用基于概率图思想的融合模型从句向量中抽取主语、谓语和宾语，根据所述主语向量和取宾语向量抽取其对应的谓语向量，最后提出主语、谓语和宾语，并将其映射为对应的字符串。本发明基于概率图模型的联合学习结构，引用概率图模型的数学思想，不仅能同时抽取非结构化数据中的主语、宾语以及其对应关系，还能解决关系抽取中存在的三元组各个元素存在重叠的复杂问题，极大的提升了关系抽取领域非结构化数据的处理能力。

Description

一种基于遮蔽语言模型的金融领域多重关系抽取方法

技术领域

本发明涉及一种基于遮蔽语言模型的金融领域多重关系抽取方法。

背景技术

现有的关系抽取方法包括有监督的实体关系抽取、半监督的实体关系抽取、无监督的实体关系抽取及开放式实体关系抽取。

一、实体关系抽取主要包括以下方法：

(1)基于规则的方法需要根据待处理语料涉及领域的不同，通过人工或机器学习的方法总结归纳出相应的规则或模板，然后采用模板匹配的方法进行实体关系抽取；

(2)基于特征向量的方法是一种简单、有效的实体关系抽取方法，其主要思想是从关系句子实例的上下文中提取有用信息(包括词法信息、语法信息)作为特征，构造特征向量，通过计算特征向量的相似度来训练实体关系抽取模型。该方法的关键在于寻找类间有区分度的特征，形成多维加权特征向量，然后采用合适的分类器进行分类。

(3)基于特征向量的实体关系抽取方法能够取得较好的效果，但无法充分利用实体对上下文的结构信息。因此发明了多种基于核函数的实体关系抽取方法，包括词序列核函数方法、依存树核函数方法、最短路径依存树核函数方法、卷积树核函数方法以及它们的组合核函数方法。部分研究还基于核函数的方法与基于特征向量的方法结合来进行实体关系抽取，已有实验结果表明基于核函数和基于特征的实体关系抽取方法可以相互补充。

(4)基于图模型的关系抽取算法，需要先独立学习两个局部分类器，实体和关系之间的依赖通过贝叶斯信念网实现。效果优于独立关系分类器。

二、半监督的实体关系抽取主要包括以下方法：

(1)基于Bootstrapping的半监督实体关系抽取方法从包含关系种子的上下文中总结出实体关系序列模式，然后利用关系序列模式去发现更多的关系种子实例，形成新的关系种子集合。此方法存在一个关键的问题，如何对获取的模式进行过滤，以免将过多的噪声引入迭代过程中而导致“语义漂移”问题。为了解决该问题，提出了协同学习(co-learning)方法，该方法利用两个条件独立的特征集来提供不同且互补的信息，从而减少标注错误。

(2)基于图的半监督方法，每一个instance用一个节点表示，边表示节点的相似度。任何节点的标签信息通过加权边缘迭代地传播到附近节点，最后在传播过程收敛时推断出未示例的标签。有研究将数据集中的每个实体对表示为图中的节点，并且还将特征向量与其相关联。特征向量包含表征关系实例的各种特征。这种方法效果比SVM、boosting算法效果更好。

三、无监督的实体关系抽取方法无需依赖实体关系标注语料，其实现包括关系实例聚类和关系类型词选择两个过程。首先根据实体对出现的上下文将相似度高的实体对聚为一类，然后选择具有代表性的词语来标记这种关系。例如，有研究尝试对实体关系上下文的特征进行加权，并采用改进的K均值算法进行聚类。

四、开放式实体关系抽取方法能避免针对特定关系类型人工构建语料库，可以自动完成关系类型发现和关系抽取任务。开放式实体关系抽取方法的基本假设：若已知两个实体存在某种语义关系，所有包含这两个实体的句子都潜在地表达了它们之间的语义关系。开放式实体关系抽取通过借助外部领域无关的实体知识库(如DBPedia、YAGO、OpenCyc、FreeBase或其它领域知识库)将高质量的实体关系实例映射到大规模文本中，根据文本对齐方法从中获得训练数据，然后使用监督学习方法来解决关系抽取问题。但是，此方法获得训练语料存在较多噪声，噪声标注的滤除成为该方法的研究重点。

从以上现有技术方法中可以看出，现有技术对数据的依赖度较高，需要大量的训练数据集来支持模型的训练。而标注多重复杂关系的人工标记成本较大，另外不同领域背景的数据采集源不一致，如果更换新的领域则需要重新标注，数据的复用率极低。

而且，现有技术对关系抽取的精准度较低，能处理的关系类型也较为简单。一些常见的关系抽取难点也无法通过这些技术得以克服，这些问题包括以下几个方面：

1、一句中存在多种关系，例如三元组(s，p，o)中可能存在一对(s，o)对应多个p；

2、一个s对应(p，o)的情况，或者一个o存在多个(s，p)；

3、多个s对应一个(p，o)；

4、多种p直接可能存在关联关系，如共现、嵌套；极端复杂情况下，一对(s，o)对应多个p，且p之间有嵌套关系；

5、现有的多数模型，只能一次预测一对实体间的一种关系，对于一次性抽取句中所有(s，p，o)的模型较为少见，且处理如上所列举的各种关系抽取中特殊情况的模型更为少见。

上文提及的s指主语，p指谓语，o指宾语，一个(s，p，o)三元组代表一组关系的主要成分。

此外，现有技术针对关系的抽取是在命名实体识别完成后再进行预测的，这样逐步预测会导致最终关系提取的准确率降低。

发明内容

本发明的目的在于克服以上存在的技术问题，提供一种基于遮蔽语言模型的金融领域多重关系抽取方法。

为实现上述目的，本发明采用如下的技术方案：

一种基于遮蔽语言模型的金融领域多重关系抽取方法，包括以下步骤：

S1：利用遮蔽语言模型对输入的数据集编码为句向量；遮蔽语言模与传统的从左到右预测的自回归语言模型预训练不同，遮蔽语言模型可以学习融合了左右两侧的语境表征，从而预训练一个深度双向多头注意力语言模型。使用此模型在大规模语料上进行预训练后，可以应用于各种不同自然语言处理任务的迁移学习，极大提升了训练效率、降低训练数据的依赖性。

S2：利用基于概率图思想的融合模型首先从所述步骤S1句向量中抽取主语向量，然后从所述主语向量中抽取宾语向量，最后根据所述主语向量和取宾语向量抽取其对应的谓语向量；

S3：提出所述步骤S2中的主语向量、宾语向量和谓语向量，并将其映射为对应的字符串。

进一步地，所述步骤S2是利用概率图思想的融合模型首先从所述步骤S1句向量中抽取主语向量，然后根据所述主语向量提取对应的宾语向量和谓语向量。

进一步地，所述步骤S1中句向量的序列包含词向量序列、位置编码序列和遮蔽编码序列三部分。

进一步地，所述步骤S1利用遮蔽语言模型对输入的数据集编码为句向量前，将所述数据集构建远程监督所需的辅助知识库，将远程监督的结果作为模型的训练特征，该步骤引入了远程监督的思想，将原有训练语料中的数据构建知识库，作为候选的三元组，辅助后续模型的预测，可提升关系抽取的预测准确率。

进一步地，通过利用概率图思想的融合模型的数学思想，将命名实体识别任务和关系抽取任务进行融合，所述基于概率图思想的融合模型的公式为：

P(s，p，o)＝P(s)P(o|s)P(p|s，o)

其中，s指主语向量，p指谓语向量，o为宾语向量。

基于概率图思想的融合模型可以一次性抽取句中的实体和对应关系，避免了传统方法需要分别通过两个模型串联预测的低效率、精度低的问题。并且该模型能解决一句中存在多个(s，p，o)三元组，主语、谓语、宾语有重叠和嵌套的各种复杂关系抽取问题。

本发明的有益效果：

1、本发明基于概率图模型的联合学习结构，引用概率图模型的数学思想，不仅能同时抽取非结构化数据中的主语、宾语以及其对应关系，还能解决关系抽取中存在的三元组各个元素存在重叠的复杂问题，极大的提升了关系抽取领域非结构化数据的处理能力。

2、本发明融合了遮蔽语言模型的特质，提升了句向量的语义表达丰富度和表征间的关联度，因而能应对较为复杂语境关系抽取任务。

3、本发明增加了远程监督的辅助信息，将远程监督的结果作为特征传入到模型中，可提升算法的预测性能。

附图说明

图1：本发明一种基于遮蔽语言模型的金融领域多重关系抽取方法的工作流程示意图。

具体实施方式

下面结合附图及实施例对本实用新型进行详细说明。

实施例一：

本实施例输入的数据集是：“2020年1月15日，A公司与B农业路支行签订《流动资金借款合同》(合同编号：借字第XXXX号)，借款金额：100万元，期限为2020年1月15日至2021年1月14日；及《流动资金借款合同》(合同编号：第XXXX号)，借款金额：900万元，期限为2020年1月15日至2021年1月14日。上述借款由A公司的土地及房产抵押担保，并由A公司实际控制人陈某为该笔借款提供个人连带责任保证担保。”

本实施例输入的数据集是：“某A公司的全资子公司某B公司以现金方式按股权比例向合营某C公司(某B公司持股比例为60％)提供人民币2，015，829，750元的股东借款，某C公司另一股东某D公司(持股比例为40％)同比例提供人民币1，343，886，500元的股东借款。”

如图1所示，一种基于遮蔽语言模型的金融领域多重关系抽取方法，包括以下步骤：

S1：利用遮蔽语言模型对输入的数据集编码为句向量，并基于该数据集构建远程监督所需的辅助知识库，将远程监督的结果作为模型的训练特征；该步骤中，所述句向量的序列包含词向量序列、位置编码序列和遮蔽编码序列三部分。

S2：利用基于概率图思想的融合模型首先从所述步骤S1句向量中抽取主语向量，主语向量即：某C公司；并根据主语某C公司抽取“借款”关系对应的不同宾语“某B公司”、“某D公司”，即：“某C公司，借款，某B公司”、“某C公司，借款，某D公司”。如果采用现有技术，则会先识别出主语“某C公司”和宾语“某B公司和某D公司”，再通过分类模型判断这两个实体之间的关系，而一般情况，只能判断这两个实体之间存在某一种关系，无法处理此样例这样两个实体对应多关系的情况。

S3：提出所述步骤S2中的主语向量、宾语向量和谓语向量(具体语句是：某C公司借款某B公司和某D公司，并将其映射为对应的字符串

最后应说明的是：以上实施例仅用以说明本实用新型而并非限制本实用新型所描述的技术方案；因此，尽管本说明书参照上述的各个实施例对本实用新型已进行了详细的说明，但是，本领域的普通技术人员应当理解，仍然可以对本实用新型进行修改或等同替换；而一切不脱离本实用新型的精神和范围的技术方案及其改进，其均应涵盖在本实用新型的权利要求范围中。

Claims

1.一种基于遮蔽语言模型的金融领域多重关系抽取方法,其特征在于，包括以下步骤：

S1:利用遮蔽语言模型对输入的数据集编码为句向量；所述遮蔽语言模型学习融合左右两侧的语境表征，从而预训练一个深度双向多头注意力语言模型，使用所述深度双向多头注意力语言模型在大规模语料上进行预训练后，能够应用于各种不同自然语言处理任务的迁移学习；

S2:利用基于概率图思想的融合模型首先从所述步骤S1句向量中抽取主语向量，然后从所述主语向量中抽取宾语向量，最后根据所述主语向量和取宾语向量抽取其对应的谓语向量；

S3:提出所述步骤S2中的主语向量、宾语向量和谓语向量，并将其映射为对应的字符串；

其中所述基于概率图思想的融合模型的公式为：

P(s，p，o)＝P(s)P(o|s)P(p|s，o)

其中，s指主语向量，p指谓语向量，o为宾语向量。

2.根据权利要求1所述的基于遮蔽语言模型的金融领域多重关系抽取方法,其特征在于：所述步骤S2是利用概率图思想的融合模型首先从所述步骤S1句向量中抽取主语向量，然后根据所述主语向量提取对应的宾语向量和谓语向量。

3.根据权利要求1所述的基于遮蔽语言模型的金融领域多重关系抽取方法,其特征在于：所述步骤S1中句向量的序列包含词向量序列、位置编码序列和遮蔽编码序列三部分。

4.根据权利要求1所述的基于遮蔽语言模型的金融领域多重关系抽取方法,其特征在于：所述步骤S1利用遮蔽语言模型对输入的数据集编码为句向量前，将所述数据集构建远程监督所需的辅助知识库，将远程监督的结果作为模型的训练特征。