CN111832307A

CN111832307A - 一种基于知识增强的实体关系抽取方法及系统

Info

Publication number: CN111832307A
Application number: CN202010657829.4A
Authority: CN
Inventors: 赵青; 李建强
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2020-10-27
Anticipated expiration: 2040-07-09
Also published as: CN111832307B

Abstract

本发明实施例提供一种基于知识增强的实体关系抽取方法及系统。该方法包括：获取经预处理的领域本体，以及未标注语料库；基于经预处理的领域本体和未标注语料库获取实体知识信息，通过实体知识信息计算得到标注语料库；基于实体知识信息分别提取实体特征、词特征和实体位置特征，进一步进行位置特征融合，得到融合特征；获取PCNN模型，基于融合特征训练PCNN模型，得到实体关系抽取模型；将实体关系抽取模型的结果放入PCNN模型中，通过预设分类器得到实体关系类型分类结果。本发明实施例基于现有领域本体和未标注语料库进行训练，训练后的模型可以提供实体对对应的关系类别，可广泛应用于自然语言相关的应用，提高了关系抽取的准确率。

Description

一种基于知识增强的实体关系抽取方法及系统

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于知识增强的实体关系抽取方法及系统。

背景技术

实体关系抽取是信息抽取的子任务，其主要目的是从非结构化的文本中抽取出结构化的关系信息。传统的关系抽取方法通常基于监督学习、半监督学习和无监督学习。基于监督学习的关系抽取方法需要充分手工标注的语料库作为训练集来训练关系抽取模型，因此需要耗费大量的人力和时间，并且对于训练集中没有的、新的实体关系预测能力差。基于半监督学习的关系抽取方法使用部分标注的语料库通过迭代训练的方式来抽取实体关系。这种方法虽然在一定程度上减少了人工标注成本，但仍需要部分标注数据。而基于无监督学习的关系抽取方法不要需要人工标注的语料库，通过聚类的方法自动将关系进行分类，这种方法通常会获得次优的结果。

远程监督结合了半监督方法和无监督方法的优势，通过将未标注语料和现有领域本体中的实体对齐来自动标注实体关系。虽然从领域本体中提取实体信息能够大大提升实体关系抽取的性能，并减少人工成本。但还存如下挑战：远程监督的主要思想是如果一个实体对在领域本体中有预定义的关系，那么在未标注语料中，所有提到这个实体对的句子都有这个预定义的关系。由于这种假设过于肯定，势必会引入噪声问题。例如：2016年，发表在AAAI,由Hao Zheng等人提出了一种基于排序的方法来提高远程监督的性能用于多标签的关系抽取。2017年，Chengsen Ru等人通过计算领域本体中实体对之间的关系词与未标注文本中实体对之间的依存词的相似性来解决远程监督方法的噪声问题。2018年，Peng Zhou等人提出了一种多层注意力机制的关系抽取模型，通过结合句子级的注意力机制和词级的注意力机制并通过piecewise convolutional neural network(PCNN)来选择实体关系最相关的句子，提高远程监督的准确率。

以上方法虽然都可以提升远程监督方法的性能，但是忽略了实体知识信息，在一些特定领域可能会造成语义模糊的问题，例如在医疗领域，一些实体的类型既可以是疾病也可以是症状。

发明内容

本发明实施例提供一种基于知识增强的实体关系抽取方法及系统，用以解决现有技术中存在的问题。

第一方面，本发明实施例提供一种基于知识增强的实体关系抽取方法，包括：

获取经预处理的领域本体，以及未标注语料库；

基于所述经预处理的领域本体和所述未标注语料库获取实体知识信息，通过所述实体知识信息计算得到标注语料库；

基于所述实体知识信息分别提取实体特征、词特征和实体位置特征，将所述实体特征、所述词特征和所述实体位置特征进行位置特征融合，得到融合特征；

获取PCNN模型，基于所述融合特征训练所述PCNN模型，得到实体关系抽取模型；

将所述实体关系抽取模型的结果放入PCNN模型中，通过所述PCNN模型的预设分类器得到实体关系类型分类结果。

进一步地，所述获取经预处理的领域本体，具体包括：

将已标注语料和现有的领域本体进行结合扩充；

根据所述现有的领域本体中包含的实体、标点符号、数字和空格符将待处理的文本切分为汉字字符串，并去除停用词，得到所述经预处理的领域本体。

进一步地，所述基于所述经预处理的领域本体和所述未标注语料库获取实体知识信息，通过所述实体知识信息计算得到标注语料库，具体包括：

从所述经预处理的领域本体提取实体自身信息，从所述未标注语料库提取实体类型信息，将所述实体自身信息和所述实体类型信息进行融合得到所述实体知识信息；

通过所述实体知识信息计算所述经预处理的领域本体中的实体对和所述未标注语料库中的实体对之间的语义相似度，基于所述语义相似度自动标注所述标注语料库。

进一步地，所述基于所述实体知识信息分别提取实体特征、词特征和实体位置特征，将所述实体特征、所述词特征和所述实体位置特征进行位置特征融合，得到融合特征，具体包括：

将所述实体知识信息用于所述实体特征；

采用CBOW模型，将未标注文本中的非实体词转化为预设维度向量，得到所述词特征；

通过卷积神经网络学习句子整体特征，计算句子中每个词与实体对之间的相对距离，得到所述实体位置特征；

将所述实体特征、所述词特征和所述实体位置特征进行向量拼接，得到融合特征。

进一步地，所述获取PCNN模型，基于所述融合特征训练所述PCNN模型，得到实体关系抽取模型，具体包括：

基于所述PCNN模型，根据实体对的位置将句子分割成若干部分，提取所述句子中的细粒度特征；

基于所述细粒度特征和所述融合特征训练所述PCNN模型，得到所述实体关系抽取模型。

进一步地，所述将所述实体关系抽取模型的结果放入PCNN模型中，通过所述PCNN模型的预设分类器得到实体关系类型分类结果，具体包括：

将所述实体关系抽取模型的结果放入PCNN模型的分类层中，通过softmax分类器产生所述实体关系类型分类结果。

第二方面，本发明实施例提供一种基于知识增强的实体关系抽取系统，包括：

数据预处理模块，用于获取经预处理的领域本体，以及未标注语料库；

标注语料库构建模块，用于基于所述经预处理的领域本体和所述未标注语料库获取实体知识信息，通过所述实体知识信息计算得到标注语料库；

特征抽取模块，用于基于所述实体知识信息分别提取实体特征、词特征和实体位置特征，将所述实体特征、所述词特征和所述实体位置特征进行位置特征融合，得到融合特征；

训练关系抽取模型模块，用于获取PCNN模型，基于所述融合特征训练所述PCNN模型，得到实体关系抽取模型；

实体关系分类器模块，用于将所述实体关系抽取模型的结果放入PCNN模型中，通过所述PCNN模型的预设分类器得到实体关系类型分类结果。

进一步地，所述数据预处理模块，具体用于：

将已标注语料和现有的领域本体进行结合扩充；

第三方面，本发明实施例提供一种电子设备，包括：

存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一项所述基于知识增强的实体关系抽取方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现任一项所述基于知识增强的实体关系抽取方法的步骤。

本发明实施例提供的基于知识增强的实体关系抽取方法及系统，通过基于现有的领域本体和未标注语料库进行训练，训练后的模型可以提供实体对对应的关系类别，可广泛应用于自然语言相关的应用，提高了关系抽取的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于知识增强的实体关系抽取方法流程图；

图2为本发明实施例提供的基于知识增强的实体关系抽取方法整体逻辑架构图；

图3为本发明实施例提供的一种基于知识增强的实体关系抽取系统结构图；

图4为本发明实施例提供的电子设备的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

针对现有技术存在的问题，本发明实施例提供了一种基于知识增强的实体关系抽取方法，同时考虑实体自身和实体类型信息可以有效的降低实体语义的歧义，降低远程监督的噪声问题。此外，通过融合实体知识信息、词特征、实体位置特征可以进一步选择远程监督方法中标注正确的实例，提高关系抽取的性能。

图1为本发明实施例提供的一种基于知识增强的实体关系抽取方法流程图，如图1所示，包括：

S1，获取经预处理的领域本体，以及未标注语料库；

将获取的现有的领域本体和已标注语料进行预处理，同时获取未标注语料库。

S2，基于所述经预处理的领域本体和所述未标注语料库获取实体知识信息，通过所述实体知识信息计算得到标注语料库；

在获得经过预处理的领域本体基础上通过实体知识信息抽取获得实体知识信息，再通过基于知识增强的远程监督方法得到标注语料库。

S3，基于所述实体知识信息分别提取实体特征、词特征和实体位置特征，将所述实体特征、所述词特征和所述实体位置特征进行位置特征融合，得到融合特征；

进一步地进行特征提取和特征融合，分别提取得到实体特征、词特征和实体位置特征，将上述三个特征进行特征融合，得到融合特征；

S4，获取PCNN模型，基于所述融合特征训练所述PCNN模型，得到实体关系抽取模型；

再将融合后的特征输入PCNN模型来进行模型训练，得到实体关系抽取模型。

S5，将所述实体关系抽取模型的结果放入PCNN模型中，通过所述PCNN模型的预设分类器得到实体关系类型分类结果。

最后将实体关系抽取模型的结果放入PCNN模型中，通过PCNN模型中预设的分类器来产生实体关系类型分类结果，整体的逻辑架构图如图2所示。

本发明实施例通过基于现有的领域本体和未标注语料库进行训练，训练后的模型可以提供实体对对应的关系类别，可广泛应用于自然语言相关的应用，提高了关系抽取的准确率。

基于上述实施例，该方法中步骤S1具体包括：

将已标注语料和现有的领域本体进行结合扩充；

具体地，将已标注的语料和现有的领域本体结合来扩充领域本体，根据领域本体中包含的实体、标点符号、数字和空格符将待处理的文本切分成汉字字符串，并去除停用词。

基于上述任一实施例，该方法中步骤S2包括：

具体地，首先进行实体知识信息抽取，通过从领域本体和未标注语料库中分别抽取实体自身信息和其对应的实体类型信息，并经过融合来获取实体知识信息。

如领域本体中包含n个实体，其中E_i∈{E₁...E_n}，那么有对应的实体类型E_itype∈{E_1type...E_ntype}。在未标注语料库D中有S_n个句子，{S₁...S_i...S_n}∈D,S_i为m个词组S_i＝{W₁...G_i...G_o...W_m},其中，{W₁...W_m}是句子S_i中的词，G_i和G_o为句子中包含的实体，并有对应的实体类型G_itype和G_otype.其次采用word2vec将知识库和未标注语料库中的实体自身和实体类型信息转化为d维的向量形式。最后将实体自身和实体类型信息融合来提取实体知识信息，如领域本体中的实体知识信息可以记作

其中，

为向量拼接操作，e_i为实体E_i的向量，e_itype为实体类型E_itype的向量，未标注语料库中的实体知识信息记作

其中g_i为实体G_i的向量，g_itype为实体类型G_itype的向量。

接下来是基于知识增强的远程监督方法，通过计算领域本体中融入知识信息的实体对与未标注语料库中融入知识信息的实体对的语义相似度来自动构建标注语料作为训练集。

如领域本体中的实体对(q_i，q_o)和未标注语料库中的实体对(p_i，p_o)是相似的，并q_i和q_o在领域本体中有关系r,表示为r(q_i，q_o),那么p_i和p_o也被自动标注为关系r,表示为r(p_i，p_o)。

相似度计算方法为：

其中，sim()表示(q_i，q_o)和(p_i，p_o)的相似关系，cosine()表示余弦相似的计算方法，α为相似度阈值，初始阈值设为0.85，采用梯度下降的方法来计算误差，就是使误差函数平滑连续的计算梯度下降的斜率，越接近最小值梯度越小，直到梯度的斜率达到最小值就是相似度的最优阈值。

基于上述任一实施例，该方法中步骤S3具体包括：

将所述实体知识信息用于所述实体特征；

具体地，本发明实施例主要是进行特征提取和特征融合，细分为四个子步骤：实体特征提取、词特征提取、实体位置特征提取和特征融合。

实体特征提取是将实体知识信息抽取中未标注语料库中的实体知识信息直接用于实体特征。

词特征提取具体为：设S_i＝{W₁...G_i...G_o...W_m},其中{W₁...W_m}为S_i中的词，G_i和G_o为S_i中的实体。采用CBOW模型(连续词袋模型)将句子中的非实体词转化为d维的词向量来提取词特征，转化后的词向量记作{w₁ ... w_m}。

实体位置特征提取具体为：通过卷积神经网络(CNN)学习句子整体特征来计算句子中每个词与实体对之间的相对距离，如句子s_i＝{w₁...g_i...g_o...w_m}，s_i为句子向量，每一个词向量w_i与实体对向量g_i和g_o之间都有两个相对距离，记作

特征融合为将实体特征、词特征、实体位置特征进行向量拼接获得新的特征作为PCNN的输入来训练实体关系抽取模型，特征融合的公式为：

其中，p_i为实体特征，w_i为词特征，

为实体位置特征。

基于上述任一实施例，该方法中步骤S4具体包括：

具体地，由于PCNN模型能够根据实体对的位置将句子分割成3个部分提取出句子中细粒度的特征，因此将融合后的特征输入PCNN来训练关系抽取模型，为了防止过拟合在卷积层采用dropout操作，并采用zero padding来保持句子的有效性，具体公式如下：

卷积层：有句子s_i＝{w₁，w₂，...，w_m},其中w_j是句子s_i中第j个词向量，

h是卷积核的长度，表示包含h个词。第j个词的卷积操作为：

c_j＝f(k·w_i:i+h-1+b)

其中

为卷积核的矩阵，b为偏差，w_i:i+h-1表示结合了从第i个到i+h-1个词向量，f(·)表示非线性激活函数，通常采用ReLU，c_j表示卷积操作后的一个特征图，句子s_i的特征图表示为：

假设有l个长度为h的卷积核，特征图表示为：

分段最大池化层：首先根据句子中实体对的位置将c_j分为三个部分[c_j1，c_j2，c_j3]，其次通过计算每一部分的最大值获得句子中最重要的信息，计算公式如下：

最后将卷操作后的所有特征图拼接获得句子s_i最后的特征向量b_s＝ReLU(v)。

基于上述任一实施例，该方法中步骤S5具体包括：

具体地，将实体模型训练的结果放入PCNN的分类层中，通过softmax分类器来产生最后的实体关系类型的分类结果，公式如下：

O＝softmax(W_oh_i+b_s)

r_s＝argmax(O)

其中，p_i为实体特征，w_i为词特征，

为实体位置特征，b_s为句子s_i的特征向量，W_o为权重，O∈[1，n]表示有n个关系类型，r_s为最后的关系类别标签。

图3为本发明实施例提供的一种基于知识增强的实体关系抽取系统结构图，如图3所示，包括：数据预处理模块31、标注语料库构建模块32、特征抽取模块33、训练关系抽取模型模块34和实体关系分类器模块35；其中：

数据预处理模块31用于获取经预处理的领域本体，以及未标注语料库；标注语料库构建模块32用于基于所述经预处理的领域本体和所述未标注语料库获取实体知识信息，通过所述实体知识信息计算得到标注语料库；特征抽取模块33用于基于所述实体知识信息分别提取实体特征、词特征和实体位置特征，将所述实体特征、所述词特征和所述实体位置特征进行位置特征融合；训练关系抽取模型模块34用于获取PCNN模型，基于所述融合特征训练所述PCNN模型，得到实体关系抽取模型；实体关系分类器模块35用于将所述实体关系抽取模型的结果放入PCNN模型中，通过所述PCNN模型的预设分类器得到实体关系类型分类结果。

本发明实施例提供的系统用于执行上述对应的方法，其具体的实施方式与方法的实施方式一致，涉及的算法流程与对应的方法算法流程相同，此处不再赘述。

基于上述实施例，所述数据预处理模块31具体用于：

将已标注语料和现有的领域本体进行结合扩充；

图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行如下方法：获取经预处理的领域本体，以及未标注语料库；基于所述经预处理的领域本体和所述未标注语料库获取实体知识信息，通过所述实体知识信息计算得到标注语料库；基于所述实体知识信息分别提取实体特征、词特征和实体位置特征，将所述实体特征、所述词特征和所述实体位置特征进行位置特征融合，得到融合特征；获取PCNN模型，基于所述融合特征训练所述PCNN模型，得到实体关系抽取模型；将所述实体关系抽取模型的结果放入PCNN模型中，通过所述PCNN模型的预设分类器得到实体关系类型分类结果。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法，例如包括：获取经预处理的领域本体，以及未标注语料库；基于所述经预处理的领域本体和所述未标注语料库获取实体知识信息，通过所述实体知识信息计算得到标注语料库；基于所述实体知识信息分别提取实体特征、词特征和实体位置特征，将所述实体特征、所述词特征和所述实体位置特征进行位置特征融合，得到融合特征；获取PCNN模型，基于所述融合特征训练所述PCNN模型，得到实体关系抽取模型；将所述实体关系抽取模型的结果放入PCNN模型中，通过所述PCNN模型的预设分类器得到实体关系类型分类结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于知识增强的实体关系抽取方法，其特征在于，包括：

获取经预处理的领域本体，以及未标注语料库；

2.根据权利要求1所述的基于知识增强的实体关系抽取方法，其特征在于，所述获取经预处理的领域本体，具体包括：

将已标注语料和现有的领域本体进行结合扩充；

3.根据权利要求1所述的基于知识增强的实体关系抽取方法，其特征在于，所述基于所述经预处理的领域本体和所述未标注语料库获取实体知识信息，通过所述实体知识信息计算得到标注语料库，具体包括：

4.根据权利要求1所述的基于知识增强的实体关系抽取方法，其特征在于，所述基于所述实体知识信息分别提取实体特征、词特征和实体位置特征，将所述实体特征、所述词特征和所述实体位置特征进行位置特征融合，得到融合特征，具体包括：

将所述实体知识信息用于所述实体特征；

5.根据权利要求1所述的基于知识增强的实体关系抽取方法，其特征在于，所述获取PCNN模型，基于所述融合特征训练所述PCNN模型，得到实体关系抽取模型，具体包括：

6.根据权利要求1所述的基于知识增强的实体关系抽取方法，其特征在于，所述将所述实体关系抽取模型的结果放入PCNN模型中，通过所述PCNN模型的预设分类器得到实体关系类型分类结果，具体包括：

7.一种基于知识增强的实体关系抽取系统，其特征在于，包括：

8.根据权利要求7所述的基于知识增强的实体关系抽取系统，其特征在于，所述数据预处理模块，具体用于：

将已标注语料和现有的领域本体进行结合扩充；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述基于知识增强的实体关系抽取方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6任一项所述基于知识增强的实体关系抽取方法的步骤。