CN113051922A

CN113051922A - 一种基于深度学习的三元组抽取方法及系统

Info

Publication number: CN113051922A
Application number: CN202110422948.6A
Authority: CN
Inventors: 刘新亮; 马蕾; 张梦琪; 郝瀚
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2021-06-29

Abstract

本发明涉及一种基于深度学习的三元组抽取方法及系统，其方法包括：步骤S1：获取文本语料库，并进行预处理；步骤S2：利用预训练语言模型对文本语料库进行处理，获得句子的字符向量；步骤S3：将字符向量经过BiLSTM神经网络以及CRF模型进行处理，得到句子的标签序列，从而识别句子的实体及其类型；步骤S4：根据实体及其类型，构建实体信息向量；将字符向量和实体信息向量相加作为主体，输入关系客体模型，根据文本语料库中预先定义的关系，得到对应的客体，由此构造三元组。本发明提供的方法通过二进制标记框架，作为特定关系客体标记器来根据识别出的主体在给定关系的情况下识别对应的客体，并结合实体识别以构建主体，有效解决三元组中重叠关系的问题。

Description

一种基于深度学习的三元组抽取方法及系统

技术领域

本发明涉及知识图谱实体关系抽取领域，具体涉及一种基于深度学习的三元组抽取方法及系统。

背景技术

信息抽取是从自然语言文本中抽取实体、属性、关系以及事件等事实类信息的文本处理技术，其任务包括命名实体识别、关系抽取以及事件抽取。实体关系抽取作为信息抽取领域的重要研究课题，其主要目的是从结构化及半结构化文本句子中抽取实体以及实体对之间的语义关系，形成结构化的信息以便存储和取用。目前，基于深度学习的实体关系抽取技术，在特征提取和模型的精确度上已经逐渐超过了传统基于特征和核函数的方法。

早期的实体关系抽取采用了流水线方法，训练一个模型提取实体，另一个模型对它们之间的关系进行分类，在实体对的组合中，大多实体对是没有关系链接的，这便存在很多负例，也就造成了关系分类的不平衡，这种方法忽略了两个模型之间的依赖并且造成了误差传播问题。例如在句子“猕猴桃的产地是陕西省的省会西安市”中，存在三元组(猕猴桃，产地，陕西省)、(猕猴桃，产地，西安市)，这两个三元组存在重叠关系“产地”，其中存在共享的实体，而传统的抽取方法未能有效的解决三元组中重叠关系的问题。

发明内容

为了解决上述技术问题，本发明提供一种基于深度学习的三元组抽取方法及系统。

本发明技术解决方案为：一种基于深度学习的三元组抽取方法，包括：

步骤S1：获取文本语料库，并进行预处理；

步骤S2：利用预训练语言模型对所述文本语料库进行处理，获得句子的字符向量；

步骤S3：将所述字符向量经过BiLSTM神经网络以及CRF模型进行处理，得到所述句子的标签序列，从而识别所述句子的实体及其类型；

步骤S4：根据所述实体及其类型，构建实体信息向量；将所述字符向量和所述实体信息向量相加作为主体，输入关系客体模型，根据所述文本语料库中预先定义的关系，得到对应的客体，由此构造三元组。

本发明与现有技术相比，具有以下优点：

本发明提供的方法通过二进制标记框架，作为特定关系客体标记器来根据识别出的主体在给定关系的情况下识别对应的客体，并结合实体识别以构建主体，有效解决三元组中重叠关系的问题，可以极大地提高三元组抽取的效率，为自动构建知识图谱提供有效方案。

附图说明

图1为本发明实施例中一种基于深度学习的三元组抽取方法的流程图；

图2为本发明实施例中一种基于深度学习的三元组抽取方法中步骤S3：将字符向量经过BiLSTM神经网络以及CRF模型进行处理，得到句子的标签序列，从而识别句子的实体及其类型的流程图；

图3本发明实施例中一种基于深度学习的三元组抽取方法中步骤S4：根据实体及其类型，构建实体信息向量；将字符向量和实体信息向量相加作为主体，输入关系客体模型，根据文本语料库中预先定义的关系，得到对应的客体，由此构造三元组的流程图；

图4本发明实施例中三元组抽取方法的流程示意图；

图5本发明实施例中一种基于深度学习的三元组抽取系统的结构框图。

具体实施方式

本发明提供了一种基于深度学习的三元组抽取方法，通过二进制标记框架，作为特定关系客体标记器来根据识别出的主体在给定关系的情况下识别对应的客体，并结合实体识别以构建主体，有效解决三元组中重叠关系的问题。

为了使本发明的目的、技术方案及优点更加清楚，以下通过具体实施，并结合附图，对本发明进一步详细说明。

实施例一

如图1所示，本发明实施例提供的一种基于深度学习的三元组抽取方法，包括下述步骤：

步骤S1：获取文本语料库，并进行预处理；

步骤S2：利用预训练语言模型对文本语料库进行处理，获得句子的字符向量；

步骤S3：将字符向量经过BiLSTM神经网络以及CRF模型进行处理，得到句子的标签序列，从而识别句子的实体及其类型；

步骤S4：根据实体及其类型，构建实体信息向量；将字符向量和实体信息向量相加作为主体，输入关系客体模型，根据文本语料库中预先定义的关系，得到对应的客体，由此构造三元组。

在一个实施例中，上述步骤S1：获取文本语料库，并进行预处理，具体包括：

本发明实施例使用python爬虫技术在相关网站爬取文本数据，形成语料库。通过人工标注，以获得每个句子中所有的三元组，并提取三元组中的关系，作为预先定义好的语料库的关系，作为后续构造三元组的基础。将语料库中文本数据划分为训练集和测试集，将训练集用于训练下述模型，将测试集用于验证训练好的模型。

在一个实施例中，上述步骤S2：利用预训练语言模型对文本语料库进行处理，获得句子的字符向量，具体包括：

构建一条包含n个字的句子S＝(s₁,s₂,...s_n)，以S作为输入，经过预训练语言模型对S进行上下文信息编码，输出句子的字符向量X＝(x₁,x₂,...x_n)；其中，x_i为第i个字的向量。

本发明实施例使用预先训练好的BERT编码器，作为预训练语言模型，对句子S进行上下文信息编码，得到句子的字符向量。

如图2所示，在一个实施例中，上述步骤S3：将字符向量经过BiLSTM神经网络以及CRF模型进行处理，得到句子的标签序列，从而识别句子的实体及其类型，具体包括：

步骤S31：将句子的字符向量X＝(x₁,x₂,...x_n)，经过前馈LSTM得到隐状态

经过后馈LSTM得到隐状态

将正反向输出的隐状态进行拼接，得到完整的隐状态序列

输出概率矩阵P；

在本步骤中，将句子的字符向量X＝(x₁,x₂,...x_n)，输入BiLSTM神经网络，BiLSTM神经网络包括前馈LSTM和后馈LSTM；其中，单项LSTM的计算过程如下述公式(1)～(6)所示：

f_t＝σ(W_f·[h_t-1,x_t]+b_f) (1)

i_t＝σ(W_i·[h_t-1,x_t]+b_i) (2)

o_t＝σ(W_o[h_t-1,x_t]+b_o) (5)

h_t＝o_t·tanh(C_t) (6)

其中，对于t时刻，h_t、x_t分别表示隐层状态及输入字；f_t、i_t、o_t分别表示记忆细胞中遗忘门、输入门、输出门，W表示权重，b表示偏置；σ表示激励函数Sigmoid；tanh表示双曲正切函数。

字符向量经过前馈LSTM得到隐状态

经过后馈LSTM得到隐状态

将正反向输出的隐状态进行拼接，得到完整的隐状态序列

输出概率矩阵P。

步骤S32：将概率矩阵P输入CRF模型，得到句子的标签序列y＝(y₁,y₂,..,y_n)，识别标签序列，从而得到句子的实体及其类型。

将概率矩阵P输入CRF模型，得到句子的标签序列y＝(y₁,y₂,..,y_n)，计算公式(7)～(8)如下所示：

y^*＝arg max S(X,y) (8)

其中，X为句子的字符向量；i为标签个数，A为转移矩阵，其中A_yi,y+1表示从第y_i个标签到第y_i+1个标签的转移得分；y^*表示计算得出的概率值最大的序列。根据标签序列，可以识别得到句子所包含的所有实体及其类型。

如图3所示，在一个实施例中，上述步骤S4：根据实体及其类型，构建实体信息向量；将字符向量和实体信息向量相加作为主体，输入关系客体模型，根据文本语料库中预先定义的关系，得到对应的客体，由此构造三元组，具体包括：

步骤S41：根据实体及其类型，利用预训练语言模型构建实体信息向量

其中，

表示第k个实体的信息向量；

表示在BERT预训练模型中检测到的第k个实体的编码表示向量，为使

和x_i相加成为可能，需要将其维度保持一致，因此将第k个实体的开始和结束标记之间的平均向量作为

由此构建句子的实体信息向量

例如，如图4所示，由句子“猕猴桃的产地是陕西省的省会西安市”中可识别得到实体：“猕猴桃”、“陕西省”和“西安市”，并分别构建其对应的实体向量信息：

和

步骤S42：将x_i与

相加，作为三元组中的主体，输入关系客体模型，根据文本语料库中预先定义的关系，然后通过全连接层，得出在该关系下，客体的头尾索引位置的概率p；

将x_i与

相加，作为三元组中的主体，输入关系客体模型，并根据文本语料库中预先定义的关系，如图4所示，“省会”、“作用”、“产地”等，作为预先从文本语料库中提取到的关系，经由关系客体模型进行客体的判断。关系客体模型由一组特定于关系的客体二进制标记器组成，每个字符的关系客体标注器的计算如下述公式(9)～(10)所示：

其中，

分别表示输入序列中第i个字符的头和尾索引位置的概率，W、b为关系客体模型参数。

步骤S43：当概率p大于预设的阈值时，将索引位置标记为1，小于则标记为0；采用最近的起止对匹配原理，根据标记为1的索引位置，得出对应的客体；即可根据主体、关系及其客体，构成一个三元组。

在图4中，由于关系“作用”并不存在句子“猕猴桃的产地是陕西省的省会西安市”中，因此在检测主体“猕猴桃”和候选客体“陕西省”之间的关系时候，关系“作用”不成立，关系“作用”的客体标注器不会识别“陕西省”的跨度，即“陕西省”的头尾索引位置都标记为零。

“产地”这个关系存在于句子“猕猴桃的产地是陕西省的省会西安市”中，因此在“猕猴桃”和“陕西省”之间，因此关系“产地”的客体标注器，会根据候选客体“陕西省”的头尾索引位置为1的标记，从而识别出客体“陕西省”跨度，以此识别出对应的客体“陕西省，以构建三元组(猕猴桃，产地，陕西省)。同样地，还可识别出“猕猴桃”基于关系“产地”的客体“西安市”，以构建三元组(猕猴桃，产地，西安市)。同理，对主体“陕西省”，基于关系“省会”，可以识别出其对应的客体“西安市”，构成三元组(陕西省，省会，西安市)。由此，完成对句子“猕猴桃的产地是陕西省的省会西安市”中的三元组抽取过程。

实施例二

如图5所示，本发明实施例提供了一种基于深度学习的三元组抽取系统，包括下述模块：

获取文本语料库模块51，用于获取文本语料库，并进行预处理；

获取句子的字符向量模块52，用于利用预训练语言模型对所述文本语料库进行处理，获得句子的字符向量；

获取实体及其类型模块53，用于将字符向量经过BiLSTM神经网络以及CRF模型进行处理，得到句子的标签序列，从而识别句子的实体及其类型；

构造三元组模块54，用于根据实体及其类型，构建实体信息向量；将字符向量和实体信息向量相加作为主体，输入关系客体模型，根据文本语料库中预先定义的关系，得到对应的客体，由此构造三元组。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于深度学习的三元组抽取方法，其特征在于，包括：

步骤S1：获取文本语料库，并进行预处理；

2.根据权利要求1所述的基于深度学习的三元组抽取方法，其特征在于，所述步骤S2：利用预训练语言模型对所述文本语料库进行处理，获得句子的字符向量，具体包括：

构建一条包含n个字的句子S＝(s₁,s₂,...s_n)，以S作为输入，经过所述预训练语言模型对S进行上下文信息编码，输出所述句子的字符向量X＝(x₁,x₂,...x_n)；其中，x_i为第i个字的向量。

3.根据权利要求1所述的基于深度学习的三元组抽取方法，其特征在于，所述步骤S3：将所述字符向量经过BiLSTM神经网络以及CRF模型进行处理，得到所述句子的标签序列，从而识别所述句子的实体及其类型，具体包括：

步骤S31：将所述句子的字符向量X＝(x₁,x₂,...x_n)，经过前馈LSTM得到隐状态

经过后馈LSTM得到隐状态

将正反向输出的隐状态进行拼接，得到完整的隐状态序列

输出概率矩阵P；

步骤S32：将所述概率矩阵P输入CRF模型，得到所述句子的标签序列y＝(y₁,y₂,..,y_n)，识别所述标签序列，从而得到所述句子的实体及其类型。

4.根据权利要求1所述的基于深度学习的三元组抽取方法，其特征在于，所述步骤S4：根据所述实体及其类型，构建实体信息向量；将所述字符向量和所述实体信息向量相加作为主体，输入关系客体模型，根据所述文本语料库中预先定义的关系，得到对应的客体，由此构造三元组，具体包括：

步骤S41：根据所述实体及其类型，利用所述预训练语言模型构建实体信息向量

其中，

表示第k个实体的信息向量；

步骤S42：将x_i与

相加，作为三元组中的主体，输入关系客体模型，根据所述文本语料库中预先定义的关系，然后通过全连接层，得出在所述关系下，客体的头尾索引位置的概率p；

步骤S43：当所述概率p大于预设的阈值时，将所述索引位置标记为1，小于则标记为0；采用最近的起止对匹配原理，根据所述标记为1的所述索引位置，得出对应的客体；即可根据所述主体、关系及其客体，构成一个三元组。

5.一种基于深度学习的三元组抽取系统，其特征在于，包括下述模块：

获取文本语料库模块，用于获取文本语料库，并进行预处理；

获取句子的字符向量模块，用于利用预训练语言模型对所述文本语料库进行处理，获得句子的字符向量；

获取实体及其类型模块，用于将所述字符向量经过BiLSTM神经网络以及CRF模型进行处理，得到所述句子的标签序列，从而识别所述句子的实体及其类型；

构造三元组模块，用于根据所述实体及其类型，构建实体信息向量；将所述字符向量和所述实体信息向量相加作为主体，输入关系客体模型，根据所述文本语料库中预先定义的关系，得到对应的客体，由此构造三元组。