CN112199491A

CN112199491A - 一种基于bert与先验知识特征的关系五元组抽取方法

Info

Publication number: CN112199491A
Application number: CN202011099237.1A
Authority: CN
Inventors: 马涛; 倪斌; 童逸琦; 汪姿如; 庄福振; 安竹林; 程坦; 徐勇军
Original assignee: Xiamen Institute Of Data Intelligence Institute Of Computing Technology Chinese Academy Of Sciences
Current assignee: Zhongke Xiamen Data Intelligence Research Institute
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2021-01-08
Anticipated expiration: 2040-10-14
Also published as: CN112199491B

Abstract

本发明公开了一种基于BERT与先验知识特征的关系五元组抽取方法，包括如下步骤：预处理；提取语义特征向量；融合拼接；s抽取阶段；p、o抽取阶段；t、l抽取阶段；最终得到关系五元组的特征向量h+pre+s+p+o+t+l。本发明利用BERT模型与先验知识特征融合的方法抽取文本的关系五元组，利用概率图结合指针结构，解决了一种关系对应多个实体以及实体重叠的问题。

Description

一种基于BERT与先验知识特征的关系五元组抽取方法

技术领域

本发明涉及计算机技术领域，特别涉及一种基于BERT与先验知识特征的关系五元组抽取方法。

背景技术

在构建知识图谱时，从非结构化文本数据中抽取知识是一个非常重要的环节，这里的知识抽取主要聚焦在关系及属性的抽取，即知识图谱中的节点和边。关系及属性抽取是指从非结构化的文本数据中抽取出实体—关系—实体或者实体—属性—属性值的结构化数据，通常将关系及属性抽取统一处理，形式化为{subject,predicate,object}三元组，即主语、谓语、宾语关系三元组，但是关系三元组没有刻画出关系的时空信息即{time,location}，导致时空信息丢失，因此，关系五元组即{subject,predicate,object,time,location}的信息更加完整。

而现有的关系抽取工作大部分是针对三元组的抽取，存在如下问题：1、关系类型的分类和实体抽取环节是分开独立训练的，会带来抽取结果的误差叠加，尤其运用到五元组抽取时误差叠加的问题更加突出；2、无法很好的解决所抽取的实体和关系叠加的问题，一种关系对应多对实体只能基于简单的就近原则来抽取关系组；3、利用远程监督方法构造的训练数据集噪声较大，抽取效果不理想。

发明内容

为解决上述问题，本发明提供了一种基于BERT与先验知识特征的关系五元组抽取方法。

本发明采用以下技术方案：

一种基于BERT与先验知识特征的关系五元组抽取方法，包括如下步骤：

S1、预处理：将待抽取文本进行预处理，得到字级别的文本序列，所述文本序列中的每个元素记为一个token；

S2、提取语义特征向量：将所述文本序列输入BERT模型进行编码得到序列中每个token的语义特征向量h；

S3、融合拼接：对待抽取文本采用AC自动机算法在先验知识库中进行知识关键词搜索，将搜索到的相匹配的先验知识特征pre与所述语义特征向量h拼接融合，得到融合特征向量h+pre；

S4、s抽取阶段：将所述融合特征向量h+pre输入到一个半指针-半标注结构中预测subject实体的首尾位置，取所述subject实体首尾token的特征向量，进行向量平均操作后与token序列文本进行相加操作，对于每一个token得到特征向量h+pre+s；

S5、p、o抽取阶段：在所述特征向量h+pre+s后面接若干半指针-半标注结构同时预测predicate的类型和object的首尾位置，并编码进所述token序列文本的特征向量中，得到特征向量h+pre+s+p+o；

S6、t、l抽取阶段：在所述特征向量h+pre+s+p+o后面接两个半指针-半标注结构分别同时预测time和location的首尾位置，并编码进所述token序列文本的特征向量中，最终得到关系五元组的特征向量h+pre+s+p+o+t+l。

进一步地，所述半指针-半标注结构为两个带sigmoid激活函数的全连接层。

进一步地，所述先验知识特征pre的标注过程为：对所述先验知识库内的五元关系组中的每个token，新增两维特征，分别表示实体的开始位置和结尾位置，若命中实体的开始位置，则一维特征值为1，否则为0，若命中实体的结尾位置，则另一维特征值为1，否则为0，所述实体包括subject、object、time和location实体。

进一步地，步骤S5中一个半指针-半标注结构对应预测一种predicate关系类型的object实体，即predicate关系类型有n种，则需要用到n个半指针-半标注结构进行object实体的预测。

进一步地，所述先验知识库包括原有数据集的五元关系组以及从互联网爬取的结构化与半结构化数据中提取出的五元关系组。

进一步地，所述BERT模型基于transformer网络结构训练得到。

采用上述技术方案后，本发明与背景技术相比，具有如下优点：

1、本发明利用BERT模型与先验知识特征融合的方法，充分利用先验知识库信息，深度挖掘文本的语义信息，抽取文本的关系五元组，抽取到了关系的时空属性，为知识表示和后续的隐性线索挖掘提供坚实的基础；

2、利用概率图的思想，先抽取subject，然后抽取predicate和object，最后抽取time和location，更好地建模了五元组之间的联系，解决了一种关系对应多个实体的问题；

3、结合指针结构，采用sigmoid代替softmax激活函数，解决了实体重叠问题。

附图说明

图1为本发明的方法流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

本实施例在五元组的关系抽取中基于概率图的方法进行抽取，具体如下：

P(s，p，o，t，l)＝P(s)P(o|s)P(p|s，o)P(t|s，p，o)P(l|s，p，o，t)

公式中，s表示头实体(主语)，p表示关系类型(谓语)，o表示尾实体(宾语)，t表示关系发生的时间属性(时间)，l表示关系发生的空间属性(地点)。也就是说，先预测s，然后传入s来预测s对应的o，依次递推，最终传入s、p、o、t来预测对应的l，本实施例实施时，将o、p的预测合并成一步，将t、l的预测合并成一步，即先预测s，然后根据s预测p、o，最后根据s、p、o来预测对应的t、l。所述BERT模型基于transformer网络结构训练得到，在模型预训练时，将BERT模型和指针结构看成一个整体，通过联合优化s阶段损失函数，p、o阶段损失函数，t、l阶段损失函数，达到联合训练的目的，减少误差叠加。这里的损失函数采用二分类交叉熵损失函数，通过将以上三个阶段的损失函数累加得到预训练模型的损失函数，以达到联合训练优化的目的。

具体本实施的实施过程如图1所示，一种基于BERT与先验知识特征的关系五元组抽取方法，包括如下步骤：

本实施例采用谷歌公司基于大规模中文预训练的chinese_L-12_H-768_A-12，最终得到每个token的语义特征向量h是768维向量，len表示token的长度，此时的token序列的特征矩阵维度为len*768。

具体地，在此之前，先对所述先验知识库中的文本实体包括subject、object、time和location进行特征标注，所述先验知识特征pre的标注过程为：对所述先验知识库内的五元关系组中的每个token，新增两维特征，分别表示实体的开始位置和结尾位置，若命中实体的开始位置，则一维特征值为1，否则为0，若命中实体的结尾位置，则另一维特征值为1，否则为0。

这里的先验知识库包括原有数据集的五元关系组以及从互联网爬取的结构化与半结构化数据中提取出的五元关系组。

步骤S3也就是将BERT模型得到的768维特征与先验知识库得到的2维特征进行拼接融合，得到786维特征向量h+pre，token序列的特征矩阵维度为len*786。

所述半指针-半标注结构为两个带sigmoid激活函数的全连接层，用于预测实体的开始位置与结尾位置，例如在预测subject的开始位置和结尾位置时，为了解决文本序列中含有多个subject实体，采用sigmoid代替softmax激活函数，这种结构相比序列标注能够很好的解决了实体重叠问题，例如：“《鲁迅自传》是一本很好看的书”，要抽取{鲁迅自传,作者,鲁迅}，subject实体和object实体重叠，“半指针-半标注”结构通过两个全连接层分别标注实体的首尾指针就解决了实体重叠的问题。

步骤S5中一个半指针-半标注结构对应预测一种predicate关系类型的object实体，即predicate关系类型有n种，则需要用到n个半指针-半标注结构进行object实体的预测。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于BERT与先验知识特征的关系五元组抽取方法，其特征在于：包括如下步骤：

2.如权利要求1所述的一种基于BERT与先验知识特征的关系五元组抽取方法，其特征在于：所述半指针-半标注结构为两个带sigmoid激活函数的全连接层。

3.如权利要求1所述的一种基于BERT与先验知识特征的关系五元组抽取方法，其特征在于：所述先验知识特征pre的标注过程为：对所述先验知识库内的五元关系组中的每个token，新增两维特征，分别表示实体的开始位置和结尾位置，若命中实体的开始位置，则一维特征值为1，否则为0，若命中实体的结尾位置，则另一维特征值为1，否则为0，所述实体包括subject、object、time和location实体。

4.如权利要求1所述的一种基于BERT与先验知识特征的关系五元组抽取方法，其特征在于：步骤S5中一个半指针-半标注结构对应预测一种predicate关系类型的object实体，即predicate关系类型有n种，则需要用到n个半指针-半标注结构进行object实体的预测。

5.如权利要求1所述的一种基于BERT与先验知识特征的关系五元组抽取方法，其特征在于：所述先验知识库包括原有数据集的五元关系组以及从互联网爬取的结构化与半结构化数据中提取出的五元关系组。

6.如权利要求1所述的一种基于BERT与先验知识特征的关系五元组抽取方法，其特征在于：所述BERT模型基于transformer网络结构训练得到。