CN110399433A

CN110399433A - 一种基于深度学习的数据实体关系抽取方法

Info

Publication number: CN110399433A
Application number: CN201910665708.1A
Authority: CN
Inventors: 肖清林
Original assignee: Fujian Singularity Space-Time Digital Technology Co Ltd
Current assignee: Fujian Singularity Space-Time Digital Technology Co Ltd
Priority date: 2019-07-23
Filing date: 2019-07-23
Publication date: 2019-11-01

Abstract

一种基于深度学习的数据实体关系抽取方法，包括如下步骤：采用开放式实体关系抽取方法获取训练数据，借助DBPedia、OpenCyc、YAGO或FreeBase实体知识库将数据实体关系实例映射到实体知识库中的大量文本中，通过文本对齐方法获得训练数据，获得的训练语料中存在噪声标注；采用有监督的实体关系抽取方法对噪声标注进行重新标注，并在标注的训练数据的基础上训练机器学习模型；抽取与实体对组合对应的数据实体关系。本发明结合开放式实体关系抽取方法和有监督的实体关系抽取方法进行数据实体关系的抽取，开放式实体关系抽取方法获取训练数据效率高，有监督的实体关系抽取方法获取的训练数据精确度高，提高了实体关系的抽取效率和精确度。

Description

一种基于深度学习的数据实体关系抽取方法

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于深度学习的数据实体关系抽取方法。

背景技术

实体关系模型(Entity Relationship Diagram)直接从现实世界中抽象出实体类型和实体间联系，然后用实体联系图(E-R图)表示数据模型，是描述概念世界，建立概念模型的实用工具，这种数据模型典型的用在信息系统设计的第一阶段；比如它们在需求分析阶段用来描述信息需求和/或要存储在数据库中的信息的类型。但是数据建模技术可以用来描述特定论域的任何本体。在基于数据库的信息系统设计的情况下，在后面的阶段，概念模型要映射到逻辑模型如关系模型上；它依次要在物理设计期间映射到物理模型上。实体关系抽取定义为两个或多个实体之间的联系，关系抽取就是自动识别实体之间的某种语义关系。根据数据源的不同，关系抽取分为三类：面向结构化文本的关系抽取、面向非结构化文本的抽取和面向半结构化的文本抽取。基于神经网络的关系抽取方法的一般步骤是：1、特征表示，将纯文本的特征表示为分布式特征表示； 2、神经网络的构建与高层特征表示；3、模型训练：利用标注数据优化网络参数；4、模型分类：利用训练的模型，对新样本进行分类，进而完成关系抽取。

在对实体关系进行抽取时，根据对标注数据的依赖程度，实体关系抽取方法被分为有监督学习方法、半监督学习方法、无监督学习方法和开放式抽取方法。有监督学习方法人工标注数据，精确度高，但工作量大；开放式抽取方法获取训练数据效率高，但获取的训练数据中存在较多的噪声数据，精确度较差。

发明内容

(一)发明目的

为解决背景技术中存在的技术问题，本发明提出一种基于深度学习的数据实体关系抽取方法，通过结合开放式实体关系抽取方法和有监督的实体关系抽取方法进行数据实体关系的抽取，开放式实体关系抽取方法获取训练数据效率高，有监督的实体关系抽取方法获取的训练数据精确度高，提高了实体关系的抽取效率和精确度。

(二)技术方案

为解决上述问题，本发明提供了一种基于深度学习的数据实体关系抽取方法，包括如下步骤：

采用开放式实体关系抽取方法获取训练数据，借助DBPedia、OpenCyc、YAGO 或FreeBase实体知识库将数据实体关系实例映射到实体知识库中的大量文本中，通过文本对齐方法获得训练数据，获得的训练语料中存在噪声标注；

采用有监督的实体关系抽取方法对噪声标注进行重新标注，并在标注的训练数据的基础上训练机器学习模型；

抽取与实体对组合对应的数据实体关系。

优选的，包括如下步骤：

对自然语言文本进行预处理，将文字符号特征表示为分布式特征信息；

构建深度学习网络训练集：采集数据中对文本进行处理后的分布式特征信息；

构建实体关系抽取深度学习网络。

优选的，包括如下步骤：

制备数据实体关系特征数据库：采用开放式实体关系抽取方法获取训练数据时，产生合格数据和不合格数据，不合格数据即为存在噪声标注的数据，再采用有监督的实体关系抽取方法对噪声标注进行重新标注，以将不合格数据转化为合格数据，采集上述过程中产生的合格数据，并将合格数据组成数据实体关系特征数据库；

获取数据实体关系特征数据库中存在的实体对组合，以及实体对之间的候选关系，数据实体关系包括一对一、一对多和多对多三种实体关系。

优选的，数据实体关系抽取范围包括句子级别的关系抽取和语料或篇章级的关系抽取。

优选的，采用基于传统机器学习的联合模型对自然语言处理任务进行联合学习，联合模型基于神经网络的端对端模型同时实现实体抽取和关系抽取，以将实体和实体关系进行结合。

优选的，采用基于神经网络的实体消歧方法对文本和实体的表示进行调整：输入数据文本，利用深度学习网络通过预训练对文本和实体的表示进行微调，以完成实体消歧。

本发明的上述技术方案具有如下有益的技术效果：结合开放式实体关系抽取方法和有监督的实体关系抽取方法进行数据实体关系的抽取，开放式实体关系抽取方法获取训练数据效率高，有监督的实体关系抽取方法获取的训练数据精确度高，有效利用两种方法中的优点，提高数据实体关系的抽取效率和抽取精确度。

附图说明

图1为本发明提出的一种基于深度学习的数据实体关系抽取方法的方法流程图。

图2为本发明提出的另一种基于深度学习的数据实体关系抽取方法的方法流程图。

图3为本发明提出的一种基于深度学习的数据实体关系抽取方法中数据实体关系抽取范围的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

如图1-3所示，本发明提出的一种基于深度学习的数据实体关系抽取方法，包括如下步骤：

采用开放式实体关系抽取方法获取训练数据，借助DBPedia、OpenCyc、YAGO 或FreeBase实体知识库将数据实体关系实例映射到实体知识库中的大量文本中，通过文本对齐方法获得训练数据，获得的训练语料中存在噪声标注。

开放式实体关系抽取方法能避免人工构建针对特定关系类型的语料库，能够自动进行关系类型发现和关系抽取任务，开放式实体关系抽取方法具有的基本假设前提为:若已知两个实体存在某种语义关系，所有包含这两个实体的句子都潜在地表达了它们之间的语义关系；

采用有监督的实体关系抽取方法对噪声标注进行重新标注，并在标注的训练数据的基础上训练机器学习模型。

有监督的实体关系抽取方法是最基本的实体关系抽取方法，其主要思想是在对测试数据的关系类型进行识别前，先在预先标注的训练数据的基础上训练机器学习模型。有监督的实体关系抽取方法主要包括三种：基于规则的方法、基于特征的方法和基于核函数的方法。对于基于规则的方法，因为待处理语料涉及的领域不同，需要总结归纳出相应的规则或模板，然后采用模板匹配的方法进行实体关系抽取，总结归纳规则或模板一般通过人工或机器学习的方法实现。对于基于特征向量的方法，该方法是一种简单、有效的实体关系抽取方法，通过从关系句子实例的上下文中提取包括词法信息和语法信息等有用信息作为特征，并构造特征向量，通过计算特征向量的相似度来训练实体关系抽取模型，计算特征向量的相似度时选择余弦相似度计算模型进行特征向量的相似度计算。基于特征向量的方法的关键是：寻找类间有区分度的特征，形成多维加权特征向量，然后采用合适的分类器进行分类。

抽取与实体对组合对应的数据实体关系。

本发明中，结合开放式实体关系抽取方法和有监督的实体关系抽取方法进行数据实体关系的抽取，开放式实体关系抽取方法获取训练数据效率高，有监督的实体关系抽取方法获取的训练数据精确度高，有效利用两种方法中的优点，提高数据实体关系的抽取效率和抽取精确度。

在一个可选的实施例中，包括如下步骤：

构建实体关系抽取深度学习网络。

在一个可选的实施例中，包括如下步骤：

在一个可选的实施例中，数据实体关系抽取范围包括句子级别的关系抽取和语料或篇章级的关系抽取。

在一个可选的实施例中，采用基于传统机器学习的联合模型对自然语言处理任务进行联合学习，联合模型基于神经网络的端对端模型同时实现实体抽取和关系抽取，以将实体和实体关系进行结合。

需要说明的是，从文本中抽取实体以及实体之间的关系时，一般使用流水线的方法：输入一个句子，识别命名实体，然后对识别出来的实体两两组合，再进行关系分类，最后把存在实体关系的三元组作为输入。流水线的方法存在的缺点有：1、错误传播，实体识别模块的错误会影响到下面的关系分类性能； 2、忽视了两个子任务之间存在的关系；3、产生了没必要的冗余信息，由于采用先对识别出来的实体进行两两配对再进行关系分类的方式，没有关系的实体对会带来多余信息，提升了错误率。对于联合模型：先输入一个句子，通过实体识别和关系抽取联合模型，直接得到有关系的实体三元组，克服了上述流水线方法的缺点。

在一个可选的实施例中，采用基于神经网络的实体消歧方法对文本和实体的表示进行调整：输入数据文本，利用深度学习网络通过预训练对文本和实体的表示进行微调，以完成实体消歧。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于深度学习的数据实体关系抽取方法，其特征在于，包括如下步骤：

采用开放式实体关系抽取方法获取训练数据，借助DBPedia、OpenCyc、YAGO或FreeBase实体知识库将数据实体关系实例映射到实体知识库中的大量文本中，通过文本对齐方法获得训练数据，获得的训练语料中存在噪声标注；

抽取与实体对组合对应的数据实体关系。

2.根据权利要求1所述的一种基于深度学习的数据实体关系抽取方法，其特征在于，包括如下步骤：

构建实体关系抽取深度学习网络。

3.根据权利要求2所述的一种基于深度学习的数据实体关系抽取方法，其特征在于，包括如下步骤：

4.根据权利要求1所述的一种基于深度学习的数据实体关系抽取方法，其特征在于，数据实体关系抽取范围包括句子级别的关系抽取和语料或篇章级的关系抽取。

5.根据权利要求1所述的一种基于深度学习的数据实体关系抽取方法，其特征在于，采用基于传统机器学习的联合模型对自然语言处理任务进行联合学习，联合模型基于神经网络的端对端模型同时实现实体抽取和关系抽取，以将实体和实体关系进行结合。

6.根据权利要求1所述的一种基于深度学习的数据实体关系抽取方法，其特征在于，采用基于神经网络的实体消歧方法对文本和实体的表示进行调整：输入数据文本，利用深度学习网络通过预训练对文本和实体的表示进行微调，以完成实体消歧。