CN110399433A - 一种基于深度学习的数据实体关系抽取方法 - Google Patents
一种基于深度学习的数据实体关系抽取方法 Download PDFInfo
- Publication number
- CN110399433A CN110399433A CN201910665708.1A CN201910665708A CN110399433A CN 110399433 A CN110399433 A CN 110399433A CN 201910665708 A CN201910665708 A CN 201910665708A CN 110399433 A CN110399433 A CN 110399433A
- Authority
- CN
- China
- Prior art keywords
- entity
- data
- relation extraction
- extraction method
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
一种基于深度学习的数据实体关系抽取方法,包括如下步骤:采用开放式实体关系抽取方法获取训练数据,借助DBPedia、OpenCyc、YAGO或FreeBase实体知识库将数据实体关系实例映射到实体知识库中的大量文本中,通过文本对齐方法获得训练数据,获得的训练语料中存在噪声标注;采用有监督的实体关系抽取方法对噪声标注进行重新标注,并在标注的训练数据的基础上训练机器学习模型;抽取与实体对组合对应的数据实体关系。本发明结合开放式实体关系抽取方法和有监督的实体关系抽取方法进行数据实体关系的抽取,开放式实体关系抽取方法获取训练数据效率高,有监督的实体关系抽取方法获取的训练数据精确度高,提高了实体关系的抽取效率和精确度。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于深度学习的数据实体关系抽取方法。
背景技术
实体关系模型(Entity Relationship Diagram)直接从现实世界中抽象出实体类型和实体间联系,然后用实体联系图(E-R图)表示数据模型,是描述概念世界,建立概念模型的实用工具,这种数据模型典型的用在信息系统设计的第一阶段;比如它们在需求分析阶段用来描述信息需求和/或要存储在数据库中的信息的类型。但是数据建模技术可以用来描述特定论域的任何本体。在基于数据库的信息系统设计的情况下,在后面的阶段,概念模型要映射到逻辑模型如关系模型上;它依次要在物理设计期间映射到物理模型上。实体关系抽取定义为两个或多个实体之间的联系,关系抽取就是自动识别实体之间的某种语义关系。根据数据源的不同,关系抽取分为三类:面向结构化文本的关系抽取、面向非结构化文本的抽取和面向半结构化的文本抽取。基于神经网络的关系抽取方法的一般步骤是:1、特征表示,将纯文本的特征表示为分布式特征表示; 2、神经网络的构建与高层特征表示;3、模型训练:利用标注数据优化网络参数;4、模型分类:利用训练的模型,对新样本进行分类,进而完成关系抽取。
在对实体关系进行抽取时,根据对标注数据的依赖程度,实体关系抽取方法被分为有监督学习方法、半监督学习方法、无监督学习方法和开放式抽取方法。有监督学习方法人工标注数据,精确度高,但工作量大;开放式抽取方法获取训练数据效率高,但获取的训练数据中存在较多的噪声数据,精确度较差。
发明内容
(一)发明目的
为解决背景技术中存在的技术问题,本发明提出一种基于深度学习的数据实体关系抽取方法,通过结合开放式实体关系抽取方法和有监督的实体关系抽取方法进行数据实体关系的抽取,开放式实体关系抽取方法获取训练数据效率高,有监督的实体关系抽取方法获取的训练数据精确度高,提高了实体关系的抽取效率和精确度。
(二)技术方案
为解决上述问题,本发明提供了一种基于深度学习的数据实体关系抽取方法,包括如下步骤:
采用开放式实体关系抽取方法获取训练数据,借助DBPedia、OpenCyc、YAGO 或FreeBase实体知识库将数据实体关系实例映射到实体知识库中的大量文本中,通过文本对齐方法获得训练数据,获得的训练语料中存在噪声标注;
采用有监督的实体关系抽取方法对噪声标注进行重新标注,并在标注的训练数据的基础上训练机器学习模型;
抽取与实体对组合对应的数据实体关系。
优选的,包括如下步骤:
对自然语言文本进行预处理,将文字符号特征表示为分布式特征信息;
构建深度学习网络训练集:采集数据中对文本进行处理后的分布式特征信息;
构建实体关系抽取深度学习网络。
优选的,包括如下步骤:
制备数据实体关系特征数据库:采用开放式实体关系抽取方法获取训练数据时,产生合格数据和不合格数据,不合格数据即为存在噪声标注的数据,再采用有监督的实体关系抽取方法对噪声标注进行重新标注,以将不合格数据转化为合格数据,采集上述过程中产生的合格数据,并将合格数据组成数据实体关系特征数据库;
获取数据实体关系特征数据库中存在的实体对组合,以及实体对之间的候选关系,数据实体关系包括一对一、一对多和多对多三种实体关系。
优选的,数据实体关系抽取范围包括句子级别的关系抽取和语料或篇章级的关系抽取。
优选的,采用基于传统机器学习的联合模型对自然语言处理任务进行联合学习,联合模型基于神经网络的端对端模型同时实现实体抽取和关系抽取,以将实体和实体关系进行结合。
优选的,采用基于神经网络的实体消歧方法对文本和实体的表示进行调整:输入数据文本,利用深度学习网络通过预训练对文本和实体的表示进行微调,以完成实体消歧。
本发明的上述技术方案具有如下有益的技术效果:结合开放式实体关系抽取方法和有监督的实体关系抽取方法进行数据实体关系的抽取,开放式实体关系抽取方法获取训练数据效率高,有监督的实体关系抽取方法获取的训练数据精确度高,有效利用两种方法中的优点,提高数据实体关系的抽取效率和抽取精确度。
附图说明
图1为本发明提出的一种基于深度学习的数据实体关系抽取方法的方法流程图。
图2为本发明提出的另一种基于深度学习的数据实体关系抽取方法的方法流程图。
图3为本发明提出的一种基于深度学习的数据实体关系抽取方法中数据实体关系抽取范围的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1-3所示,本发明提出的一种基于深度学习的数据实体关系抽取方法,包括如下步骤:
采用开放式实体关系抽取方法获取训练数据,借助DBPedia、OpenCyc、YAGO 或FreeBase实体知识库将数据实体关系实例映射到实体知识库中的大量文本中,通过文本对齐方法获得训练数据,获得的训练语料中存在噪声标注。
开放式实体关系抽取方法能避免人工构建针对特定关系类型的语料库,能够自动进行关系类型发现和关系抽取任务,开放式实体关系抽取方法具有的基本假设前提为:若已知两个实体存在某种语义关系,所有包含这两个实体的句子都潜在地表达了它们之间的语义关系;
采用有监督的实体关系抽取方法对噪声标注进行重新标注,并在标注的训练数据的基础上训练机器学习模型。
有监督的实体关系抽取方法是最基本的实体关系抽取方法,其主要思想是在对测试数据的关系类型进行识别前,先在预先标注的训练数据的基础上训练机器学习模型。有监督的实体关系抽取方法主要包括三种:基于规则的方法、基于特征的方法和基于核函数的方法。对于基于规则的方法,因为待处理语料涉及的领域不同,需要总结归纳出相应的规则或模板,然后采用模板匹配的方法进行实体关系抽取,总结归纳规则或模板一般通过人工或机器学习的方法实现。对于基于特征向量的方法,该方法是一种简单、有效的实体关系抽取方法,通过从关系句子实例的上下文中提取包括词法信息和语法信息等有用信息作为特征,并构造特征向量,通过计算特征向量的相似度来训练实体关系抽取模型,计算特征向量的相似度时选择余弦相似度计算模型进行特征向量的相似度计算。基于特征向量的方法的关键是:寻找类间有区分度的特征,形成多维加权特征向量,然后采用合适的分类器进行分类。
抽取与实体对组合对应的数据实体关系。
本发明中,结合开放式实体关系抽取方法和有监督的实体关系抽取方法进行数据实体关系的抽取,开放式实体关系抽取方法获取训练数据效率高,有监督的实体关系抽取方法获取的训练数据精确度高,有效利用两种方法中的优点,提高数据实体关系的抽取效率和抽取精确度。
在一个可选的实施例中,包括如下步骤:
对自然语言文本进行预处理,将文字符号特征表示为分布式特征信息;
构建深度学习网络训练集:采集数据中对文本进行处理后的分布式特征信息;
构建实体关系抽取深度学习网络。
在一个可选的实施例中,包括如下步骤:
制备数据实体关系特征数据库:采用开放式实体关系抽取方法获取训练数据时,产生合格数据和不合格数据,不合格数据即为存在噪声标注的数据,再采用有监督的实体关系抽取方法对噪声标注进行重新标注,以将不合格数据转化为合格数据,采集上述过程中产生的合格数据,并将合格数据组成数据实体关系特征数据库;
获取数据实体关系特征数据库中存在的实体对组合,以及实体对之间的候选关系,数据实体关系包括一对一、一对多和多对多三种实体关系。
在一个可选的实施例中,数据实体关系抽取范围包括句子级别的关系抽取和语料或篇章级的关系抽取。
在一个可选的实施例中,采用基于传统机器学习的联合模型对自然语言处理任务进行联合学习,联合模型基于神经网络的端对端模型同时实现实体抽取和关系抽取,以将实体和实体关系进行结合。
需要说明的是,从文本中抽取实体以及实体之间的关系时,一般使用流水线的方法:输入一个句子,识别命名实体,然后对识别出来的实体两两组合,再进行关系分类,最后把存在实体关系的三元组作为输入。流水线的方法存在的缺点有:1、错误传播,实体识别模块的错误会影响到下面的关系分类性能; 2、忽视了两个子任务之间存在的关系;3、产生了没必要的冗余信息,由于采用先对识别出来的实体进行两两配对再进行关系分类的方式,没有关系的实体对会带来多余信息,提升了错误率。对于联合模型:先输入一个句子,通过实体识别和关系抽取联合模型,直接得到有关系的实体三元组,克服了上述流水线方法的缺点。
在一个可选的实施例中,采用基于神经网络的实体消歧方法对文本和实体的表示进行调整:输入数据文本,利用深度学习网络通过预训练对文本和实体的表示进行微调,以完成实体消歧。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
Claims (6)
1.一种基于深度学习的数据实体关系抽取方法,其特征在于,包括如下步骤:
采用开放式实体关系抽取方法获取训练数据,借助DBPedia、OpenCyc、YAGO或FreeBase实体知识库将数据实体关系实例映射到实体知识库中的大量文本中,通过文本对齐方法获得训练数据,获得的训练语料中存在噪声标注;
采用有监督的实体关系抽取方法对噪声标注进行重新标注,并在标注的训练数据的基础上训练机器学习模型;
抽取与实体对组合对应的数据实体关系。
2.根据权利要求1所述的一种基于深度学习的数据实体关系抽取方法,其特征在于,包括如下步骤:
对自然语言文本进行预处理,将文字符号特征表示为分布式特征信息;
构建深度学习网络训练集:采集数据中对文本进行处理后的分布式特征信息;
构建实体关系抽取深度学习网络。
3.根据权利要求2所述的一种基于深度学习的数据实体关系抽取方法,其特征在于,包括如下步骤:
制备数据实体关系特征数据库:采用开放式实体关系抽取方法获取训练数据时,产生合格数据和不合格数据,不合格数据即为存在噪声标注的数据,再采用有监督的实体关系抽取方法对噪声标注进行重新标注,以将不合格数据转化为合格数据,采集上述过程中产生的合格数据,并将合格数据组成数据实体关系特征数据库;
获取数据实体关系特征数据库中存在的实体对组合,以及实体对之间的候选关系,数据实体关系包括一对一、一对多和多对多三种实体关系。
4.根据权利要求1所述的一种基于深度学习的数据实体关系抽取方法,其特征在于,数据实体关系抽取范围包括句子级别的关系抽取和语料或篇章级的关系抽取。
5.根据权利要求1所述的一种基于深度学习的数据实体关系抽取方法,其特征在于,采用基于传统机器学习的联合模型对自然语言处理任务进行联合学习,联合模型基于神经网络的端对端模型同时实现实体抽取和关系抽取,以将实体和实体关系进行结合。
6.根据权利要求1所述的一种基于深度学习的数据实体关系抽取方法,其特征在于,采用基于神经网络的实体消歧方法对文本和实体的表示进行调整:输入数据文本,利用深度学习网络通过预训练对文本和实体的表示进行微调,以完成实体消歧。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910665708.1A CN110399433A (zh) | 2019-07-23 | 2019-07-23 | 一种基于深度学习的数据实体关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910665708.1A CN110399433A (zh) | 2019-07-23 | 2019-07-23 | 一种基于深度学习的数据实体关系抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110399433A true CN110399433A (zh) | 2019-11-01 |
Family
ID=68325826
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910665708.1A Pending CN110399433A (zh) | 2019-07-23 | 2019-07-23 | 一种基于深度学习的数据实体关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110399433A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111831829A (zh) * | 2020-06-12 | 2020-10-27 | 广州多益网络股份有限公司 | 一种面向开放域的实体关系抽取方法、装置及终端设备 |
CN112417083A (zh) * | 2020-11-12 | 2021-02-26 | 福建亿榕信息技术有限公司 | 一种构建部署文本实体关系提取模型的方法和存储设备 |
CN113807518A (zh) * | 2021-08-16 | 2021-12-17 | 中央财经大学 | 基于远程监督的关系抽取系统 |
CN113822018A (zh) * | 2021-09-16 | 2021-12-21 | 湖南警察学院 | 实体关系联合抽取方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1643394A2 (en) * | 2004-09-30 | 2006-04-05 | Avaya Technology Corp. | Method and apparatus for data mining within communication information using an entity relationship model |
CN104636466A (zh) * | 2015-02-11 | 2015-05-20 | 中国科学院计算技术研究所 | 一种面向开放网页的实体属性抽取方法和系统 |
CN105894088A (zh) * | 2016-03-25 | 2016-08-24 | 苏州赫博特医疗信息科技有限公司 | 基于深度学习及分布式语义特征医学信息抽取系统及方法 |
CN106202502A (zh) * | 2016-07-20 | 2016-12-07 | 福州大学 | 音乐信息网络中用户兴趣发现方法 |
CN107291687A (zh) * | 2017-04-27 | 2017-10-24 | 同济大学 | 一种基于依存语义的中文无监督开放式实体关系抽取方法 |
CN107766585A (zh) * | 2017-12-07 | 2018-03-06 | 中国科学院电子学研究所苏州研究院 | 一种面向社交网络的特定事件抽取方法 |
CN109062939A (zh) * | 2018-06-20 | 2018-12-21 | 广东外语外贸大学 | 一种面向汉语国际教育的智能导学方法 |
CN109408812A (zh) * | 2018-09-30 | 2019-03-01 | 北京工业大学 | 一种基于注意力机制的序列标注联合抽取实体关系的方法 |
CN110188193A (zh) * | 2019-04-19 | 2019-08-30 | 四川大学 | 一种基于最短依存子树的电子病历实体关系抽取方法 |
-
2019
- 2019-07-23 CN CN201910665708.1A patent/CN110399433A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1643394A2 (en) * | 2004-09-30 | 2006-04-05 | Avaya Technology Corp. | Method and apparatus for data mining within communication information using an entity relationship model |
CN104636466A (zh) * | 2015-02-11 | 2015-05-20 | 中国科学院计算技术研究所 | 一种面向开放网页的实体属性抽取方法和系统 |
CN105894088A (zh) * | 2016-03-25 | 2016-08-24 | 苏州赫博特医疗信息科技有限公司 | 基于深度学习及分布式语义特征医学信息抽取系统及方法 |
CN106202502A (zh) * | 2016-07-20 | 2016-12-07 | 福州大学 | 音乐信息网络中用户兴趣发现方法 |
CN107291687A (zh) * | 2017-04-27 | 2017-10-24 | 同济大学 | 一种基于依存语义的中文无监督开放式实体关系抽取方法 |
CN107766585A (zh) * | 2017-12-07 | 2018-03-06 | 中国科学院电子学研究所苏州研究院 | 一种面向社交网络的特定事件抽取方法 |
CN109062939A (zh) * | 2018-06-20 | 2018-12-21 | 广东外语外贸大学 | 一种面向汉语国际教育的智能导学方法 |
CN109408812A (zh) * | 2018-09-30 | 2019-03-01 | 北京工业大学 | 一种基于注意力机制的序列标注联合抽取实体关系的方法 |
CN110188193A (zh) * | 2019-04-19 | 2019-08-30 | 四川大学 | 一种基于最短依存子树的电子病历实体关系抽取方法 |
Non-Patent Citations (1)
Title |
---|
唐敏: ""基于深度学习的中文实体关系抽取方法研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111831829A (zh) * | 2020-06-12 | 2020-10-27 | 广州多益网络股份有限公司 | 一种面向开放域的实体关系抽取方法、装置及终端设备 |
CN111831829B (zh) * | 2020-06-12 | 2024-04-09 | 广州多益网络股份有限公司 | 一种面向开放域的实体关系抽取方法、装置及终端设备 |
CN112417083A (zh) * | 2020-11-12 | 2021-02-26 | 福建亿榕信息技术有限公司 | 一种构建部署文本实体关系提取模型的方法和存储设备 |
CN112417083B (zh) * | 2020-11-12 | 2022-05-17 | 福建亿榕信息技术有限公司 | 一种构建部署文本实体关系提取模型的方法和存储设备 |
CN113807518A (zh) * | 2021-08-16 | 2021-12-17 | 中央财经大学 | 基于远程监督的关系抽取系统 |
CN113807518B (zh) * | 2021-08-16 | 2024-04-05 | 中央财经大学 | 基于远程监督的关系抽取系统 |
CN113822018A (zh) * | 2021-09-16 | 2021-12-21 | 湖南警察学院 | 实体关系联合抽取方法 |
CN113822018B (zh) * | 2021-09-16 | 2022-06-14 | 湖南警察学院 | 实体关系联合抽取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107330011B (zh) | 多策略融合的命名实体的识别方法及装置 | |
CN110399433A (zh) | 一种基于深度学习的数据实体关系抽取方法 | |
US9779085B2 (en) | Multilingual embeddings for natural language processing | |
CN106709754A (zh) | 一种用基于文本挖掘的电力用户分群方法 | |
CN107169079B (zh) | 一种基于Deepdive的领域文本知识抽取方法 | |
CN109960800A (zh) | 基于主动学习的弱监督文本分类方法及装置 | |
Singh et al. | Language identification and named entity recognition in hinglish code mixed tweets | |
WO2019080863A1 (zh) | 文本情感分类方法、存储介质及计算机 | |
CN107608999A (zh) | 一种适用于自动问答系统的问句分类方法 | |
CN109658271A (zh) | 一种基于保险专业场景的智能客服系统及方法 | |
CN107679110A (zh) | 结合文本分类与图片属性提取完善知识图谱的方法及装置 | |
CN103154936A (zh) | 用于自动化文本校正的方法和系统 | |
CN110390018A (zh) | 一种基于lstm的社交网络评论生成方法 | |
Liang et al. | GLTM: A global and local word embedding-based topic model for short texts | |
Rizvi et al. | Optical character recognition system for Nastalique Urdu-like script languages using supervised learning | |
CN104462053A (zh) | 一种文本内的基于语义特征的人称代词指代消解方法 | |
CN107145514B (zh) | 基于决策树和svm混合模型的中文句型分类方法 | |
CN108563638A (zh) | 一种基于主题识别和集成学习的微博情感分析方法 | |
CN110175334A (zh) | 基于自定义的知识槽结构的文本知识抽取系统和方法 | |
CN110287298A (zh) | 一种基于问句主题的自动问答答案选择方法 | |
CN105912525A (zh) | 基于主题特征的半监督学习情感分类方法 | |
CN109033320A (zh) | 一种双语新闻聚合方法及系统 | |
KR20210044017A (ko) | 상품 리뷰 다차원 분석 방법 및 그 장치 | |
Sadr et al. | Unified topic-based semantic models: A study in computing the semantic relatedness of geographic terms | |
CN115935995A (zh) | 面向知识图谱生成的非遗丝织领域实体关系抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191101 |
|
RJ01 | Rejection of invention patent application after publication |