CN111026815A

CN111026815A - 基于用户辅助修正下的实体对特定关系抽取方法

Info

Publication number: CN111026815A
Application number: CN201911235530.3A
Authority: CN
Inventors: 韩伟红; 王志超; 陈雷霆; 母国才; 邱彪
Original assignee: Guangdong Electronic Information Engineering Research Institute of UESTC
Current assignee: Guangdong Electronic Information Engineering Research Institute of UESTC
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2020-04-17
Anticipated expiration: 2039-12-05
Also published as: CN111026815B

Abstract

本发明属于信息抽取技术领域，具体涉及基于用户辅助修正下的实体对特定关系抽取方法，包括以下步骤：a、设置人工标注模块，该模块用于按需导入数据，并进行人工标注；b、构建基于深度学习的模型训练模块，其包含多个深度学习模型，训练数据经过不同的深度学习模型找出最优模型并替换抽取模型；c、对人工标注数据及校正数据进行整合以及对特定的过滤清理，并依据分词结果进行数据的预处理；d、构建关系校正模块供用户进行辅助修正，由用户判断抽取是否正确。本发明在保证用户能动性的前提下，让用户对相应数据进行标注，纠正计算机的错误，教会计算机如何产出想要的结果，通过伴随用户的辅助修正不断提高了特定关系抽取的准确率。

Description

基于用户辅助修正下的实体对特定关系抽取方法

技术领域

本发明属于信息抽取技术领域，具体涉及基于用户辅助修正下的实体对特定关系抽取方法。

背景技术

知识图谱的构建，是要将所需领域的实体的相关信息以及关联关系等各类信息，以RDF三元组的形式存储到一个具有存储、高效检索的图数据库中，并根据需求能够实现特定路径的一个过程。对于知识图谱的构建，相应领域的信息抽取是重中之重。知识抽取主要讲的是实体属性和关系的抽取，通常情况下是一个句子级别的抽取过程。在互联网上，大部分句子是无法抽出相应属性和关系的。比如KBP(Knowledge Base Population)比赛中定义的属性槽一共有33种，包括别名、年龄、出生时间、出生地点等这种属性槽。而一个文本种表达这种信息的句子很少。因此，为了提高自由文本的利用率，需要考虑两方面的优化：第一，将不能映射成属性和关系，但是涉及实体的特定信息保存下来；第二根据已有需求，能够快速的构造一个特定关系的抽取器。

2016年，KBP中的slot-filling任务中定义了26种与人物和机构相关的关系槽，同时提供了一份标注语料用于训练和验证。而在不同领域的自然语言抽取系统，核心都是面向特定实体类别、特定实体间关系的抽取系统，只能使用特定的语料训练出的模型，才可以应用在相应系统中。

因此，有必要提出一种应用于不同抽取系统的基于用户辅助修正来不断优化提高抽取模型效果的关系抽取方法。

发明内容

本发明的目的在于：针对现有技术的不足，而提供的基于用户辅助修正下的实体对特定关系抽取方法，该方法能在保证用户能动性的前提下，让用户对相应数据进行标注，纠正计算机的错误，提高了特定关系抽取的准确率。

为实现上述目的，本发明采用如下技术方案：

基于用户辅助修正下的实体对特定关系抽取方法，包括以下步骤：

a、设置人工标注模块，通过该人工标注模块用于按需导入数据，并通过web页面进行人工标注；

b、使用tensorflow工具构建基于深度学习的模型训练模块，其中，所述基于深度学习的模型训练模块中包含多个适用于自然语言处理关系分类的深度学习模型，训练数据经过不同的深度学习模型找出当前批数据中最优模型，并替换掉特定关系抽取模块中的抽取模型；该步骤主要用于在通过不同的分类器训练得到不同的模型与择优的过程，将实体对特定关系的抽取问题转换为实体对特定关系的二分类问题。

c、对人工标注数据及校正数据进行整合以及对特定的过滤清理，并依据分词结果进行数据的预处理，预处理数据作为模型标准输入得出分类结果，并对抽取结果进行汇总验证；

d、构建关系校正模块供用户进行辅助修正，通过前端展示的形式由用户判断抽取是否正确。

需要说明的是，tensorflow是由google公司推出的AI学习系统，目前已经发展到了第二代，其内置了多种神经网络的实现框架。

作为对本发明中所述的基于用户辅助修正下的实体对特定关系抽取方法的改进，所述步骤a具体包括以下步骤：

a1、设置网页，对网页的数据表进行预设；

a2、通过该网页进行人工标注，生成初始标注数据。

通过设置网页，可以有效方便人工标注的操作，提高标注的便利性。

作为对本发明中所述的基于用户辅助修正下的实体对特定关系抽取方法的改进，所述数据表的预设包括提供句子、句子的分词结果和两个实体的位置。

作为对本发明中所述的基于用户辅助修正下的实体对特定关系抽取方法的改进，所述数据表的预设还包括在数据库中增加用户互斥锁，使每条数据只会被用户处理一次。增设互斥锁可以保证多用户同时进行操作，提高适用性。

作为对本发明中所述的基于用户辅助修正下的实体对特定关系抽取方法的改进，所述步骤b具体包括以下步骤：

b1、预处理及标准化，将文本数据进行向量化处理，使文本数据通过低维向量表示；

b2、文本特征的提取，对文本中两个指定实体的物理位置和语义位置特征进行提取；

b3、训练模型的构建，将词向量、两个实体的物理、语义距离拼接，作为训练模型的输入构建模型；

b4、训练与择优选择，通过训练后取最优模型替代默认的模型。

在本发明中，为了保证文本数据的部分语义特征，利用Word Embedding工具来进行文本数据的向量化。同时，由于tensorflow内置多种神经网络的实现框架，而这些框架支持的是实体对之间的特定关系，因此两个被指定的实体的物理位置和语义位置也将在映射成多维数组后作为两个特征传入模型。其中，实体的物理位置代表一个实体在一句话中的词到两个实体的偏移量；语义特征指的是句中词语到两个实体之间的句法依赖的特征，即当前词到实体词句法依赖的最短路径。框架将词向量、两个实体的物理、语义距离拼接，作为训练模型的输入。训练过后取最优模型替换抽取模块中的模型。

作为对本发明中所述的基于用户辅助修正下的实体对特定关系抽取方法的改进，所述步骤c具体包括以下步骤：

c1、依据用户需求，自动获取网络链接到互联网上的网页内容；

c2、将步骤c1中获取的数据，通过相应规则，找出其正文，并使用分词工具对自然语言进行处理，得到其语义特征；

c3、依据步骤c2中的特征，加载当前分类模型进行分类；

c4、将抽取出的结果依据索引、存储、更新等不同需求，存放到不同的数据库中。

作为对本发明中所述的基于用户辅助修正下的实体对特定关系抽取方法的改进，所述步骤c1中获取的内容包括html源码和javascript代码。

作为对本发明中所述的基于用户辅助修正下的实体对特定关系抽取方法的改进，所述步骤d包括对当前的结果进行评估，若输出结果正确，则将当前句子的抽取结果标记为正例；若输出结果错误，则将当前句子的抽取结果标记为反例，同时在数据库中标记删除，下次数据将不再显示。

与现有技术相比，本发明的有益效果在于：本发明在保证用户能动性的前提下，让用户对相应数据进行标注，纠正计算机的错误，教会计算机如何产出想要的结果，通过伴随用户的辅助修正不断提高了特定关系抽取的准确率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施方式及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明的工作实现流程图；

图2为本发明中人工标注的网页页面示意图。

具体实施方式

如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解，硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语，故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内，本领域技术人员能够在一定误差范围内解决所述技术问题，基本达到所述技术效果。

在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、水平”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

以下结合附图对本发明作进一步详细说明，但不作为对本发明的限定。

如图1～2所示，基于用户辅助修正下的实体对特定关系抽取方法，包括以下步骤：

b、使用tensorflow工具构建基于深度学习的模型训练模块，其中，基于深度学习的模型训练模块中包含多个适用于自然语言处理关系分类的深度学习模型，处理的输入格式一致，输出层的名字一致，训练数据经过不同的深度学习模型找出当前批数据中最优模型，并替换掉特定关系抽取模块中的抽取模型；该步骤主要用于在通过不同的分类器训练得到不同的模型与择优的过程，将实体对特定关系的抽取问题转换为实体对特定关系的二分类问题。

优选的，步骤a具体包括以下步骤：

a1、设置网页，对网页的数据表进行预设，其中，数据表的设计是基于一句话中两个实体是否具有某种关系的场景，如表1中所示，因此，需要提供句子line、句子的分词结果line_segment、两个实体的位置entity1_index，entity2_index；同时，为了保证能多用户同时操作，在数据库中增加了用户互斥锁，保证每条数据只会被用户处理1次；

a2、通过该网页进行人工标注，生成初始标注数据。

表1 标注数据-数据表格式

名称	数据类型	注释
			id	INT	递增序号
line	TEXT	包含两个所需实体的文本
			url	VARchar(512)	数据来源
is_processed	TINYINT(4)	是否已被处理
			processing	TINYINT(4)	是否正在处理(多用户支持)
line_segment	TEXT	文本分词结果
			entity1_index	INT	第一个实体的位置序号
entity2_index	INT	第二个实体的位置序号
			annotate_result	INT	最终标注类别
line_hash	VARchar(100)	文本的hash
			create_time	TIMESTAMP	创建时间
process_time	TIMESTAMP	处理时间
			user	VARchar(50)	标注者

优选的，步骤b具体包括以下步骤：

优选的，步骤c具体包括以下步骤：

c3、依据步骤c2中的特征，加载当前分类模型进行分类；

优选的，步骤c1中获取的内容包括html源码和javascript代码。

优选的，步骤d包括对当前的结果进行评估，若输出结果正确，则将当前句子的抽取结果标记为正例；若输出结果错误，则将当前句子的抽取结果标记为反例，同时在数据库中标记删除，下次数据将不再显示。用户辅助修正的过程中，用户会针对前端展示的结果进行评估，当前结果是否正确。在这里有两个操作，“固化”和“删除”。固化代表的是本条数据是正确的，当前句子的抽取结果可以标记为正例；删除代表的是本条数据是错误的，当前句子的抽取结果可以标记为反例，同时在数据库中标记删除，下次数据将不再展示。

上述说明示出并描述了本发明的若干优选实施方式，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施方式的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.基于用户辅助修正下的实体对特定关系抽取方法，其特征在于，包括以下步骤：

b、使用tensorflow工具构建基于深度学习的模型训练模块，其中，所述基于深度学习的模型训练模块中包含多个适用于自然语言处理关系分类的深度学习模型，训练数据经过不同的深度学习模型找出当前批数据中最优模型，并替换掉特定关系抽取模块中的抽取模型；

2.根据权利要求1中所述的基于用户辅助修正下的实体对特定关系抽取方法，其特征在于，所述步骤a具体包括以下步骤：

a1、设置网页，对网页的数据表进行预设；

a2、通过该网页进行人工标注，生成初始标注数据。

3.根据权利要求2中所述的基于用户辅助修正下的实体对特定关系抽取方法，其特征在于：所述数据表的预设包括提供句子、句子的分词结果和两个实体的位置。

4.根据权利要求3中所述的基于用户辅助修正下的实体对特定关系抽取方法，其特征在于：所述数据表的预设还包括在数据库中增加用户互斥锁，使每条数据只会被用户处理一次。

5.根据权利要求1中所述的基于用户辅助修正下的实体对特定关系抽取方法，其特征在于，所述步骤b具体包括以下步骤：

6.根据权利要求1中所述的基于用户辅助修正下的实体对特定关系抽取方法，其特征在于，所述步骤c具体包括以下步骤：

c3、依据步骤c2中的特征，加载当前分类模型进行分类；

7.根据权利要求6中所述的基于用户辅助修正下的实体对特定关系抽取方法，其特征在于：所述步骤c1中获取的内容包括html源码和javascript代码。

8.根据权利要求1中所述的基于用户辅助修正下的实体对特定关系抽取方法，其特征在于：所述步骤d包括对当前的结果进行评估，若输出结果正确，则将当前句子的抽取结果标记为正例；若输出结果错误，则将当前句子的抽取结果标记为反例，同时在数据库中标记删除，下次数据将不再显示。