CN110046351B

CN110046351B - 规则驱动下基于特征的文本关系抽取方法

Info

Publication number: CN110046351B
Application number: CN201910317373.4A
Authority: CN
Inventors: 刘耿耿; 胡传淑敏; 张祖文; 陈星�; 张佳俊
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2019-04-19
Filing date: 2019-04-19
Publication date: 2022-06-14
Anticipated expiration: 2039-04-19
Also published as: CN110046351A

Abstract

本发明涉及一种规则驱动下基于特征的文本关系抽取方法。采用自然语言处理工具CoreNLP将一待处理领域文本分句，得到该待处理领域下的简单句集合；将实体候选集和该待处理领域下的简单句集合作为关系抽取的输入，使用规则驱动下基于特征的关系抽取算法对输入进行关系抽取，最终得到该待处理领域下的实体关系三元组。本发明方法结合规则与机器学习的方法面向特定领域的文本进行实体关系的抽取，可以提高当前特定领域下文本的信息抽取准确度，并在实际应用场景中验证了该方法的可行性和有效性。

Description

规则驱动下基于特征的文本关系抽取方法

技术领域

本发明涉及一种规则驱动下基于特征的文本关系抽取方法。

背景技术

当前互联网存储了世界中的各类信息，随着云计算和大数据时代的到来，互联网中数据信息量增长也愈来愈快，中文文本的信息抽取成为关键性问题。同时，当前各阶层对信息的获取需求也越来越大，把互联网中的有效信息抽取并识别，不仅服务于科研人员，社会乃至国家都对此有较大的需求。

当前互联网中的海量数据大部分是以文本的形式存在的，即非结构化数据，它也是信息抽取的主要的数据来源。现在的信息抽取技术主要针对公开领域信息的抽取，大致分为基于规则和基于机器学习的实体关系抽取方法。然而以上两种方法都存在一些问题：1、当前基于规则的信息抽取方法无统一的规则参考模式，且较为依赖领域知识导致该方法的泛化能力低；使用基于机器学习的方法进行实体关系抽取时，人工标注过程较为繁琐，且如果没有领域知识的支撑可能导致抽取准确率较低。2、面向公开领域的实体关系抽取技术在针对不同领域文本信息抽取过程中，由于领域知识区别较大，抽取的效果各不相同。

发明内容

本发明的目的在于提供一种规则驱动下基于特征的文本关系抽取方法，结合规则与机器学习的方法面向特定领域的文本进行实体关系的抽取，可以提高当前特定领域下文本的信息抽取准确度，并在实际应用场景中验证了该方法的可行性和有效性。

为实现上述目的，本发明的技术方案是：一种规则驱动下基于特征的文本关系抽取方法，采用自然语言处理工具CoreNLP将一待处理领域文本分句，得到该待处理领域下的简单句集合；将实体候选集和该待处理领域下的简单句集合作为关系抽取的输入，使用规则驱动下基于特征的关系抽取算法对输入进行关系抽取，最终得到该待处理领域下的实体关系三元组。

在本发明一实施例中，所述实体候选集为待处理领域下的实体集合，并通过命名实体识别算法进行复杂实体的识别，以完善实体候选集。

在本发明一实施例中，所述命名实体识别算法实现如下：

1)识别关键词触发阶段

扫描自由文本中的分词，当扫描到实体关键词时，将此分词作为触发词，并确定此触发词所属实体类别，开始调用相应实体规则即关键词规则进行匹配；

2)候选实体获取

当确定关键词类别后，将关键词之前至上一个句子之间的实体下标序列与相应实体规则逐一进行匹配，将这些实体与下标序列作为候选实体保存，组成实体候选集；

3)命名实体最佳匹配规则选择

由于步骤2)中筛选的实体候选集可能包含较多实体，因此需从中选择与核心词相关的正确实体，即确定实体的左边界；在实际的匹配过程中，在实体规则中加入参数P用来调整规则选择，参数P的公式如下：

其中，α表示正相关，式中表示

正相关于

对于每一个实体候选集，

为一个固定值；

4)实体左边界确定和左边界修正

由步骤3)确定实体长度length，从触发词开始往前回溯length个分词即可确定实体的左边界，这些分词所构成的分词串则代表相应的实体；同时，在实体识别过程中，若获得的实体并非以所需词语开头的实体，则需继续在阈值范围内向前匹配，即向前匹配n个词，直到在同一句子中遇到所需词语开头为止，如果在阈值范围内无所需词语，则取消修正。

在本发明一实施例中，所述基于特征的关系抽取算法具体实现如下：

(1)从简单句集合<Sen>中取下一个分句，匹配该分句中的实体，存在则转到(2)继续执行，如果不存在则算法结束；

(2)对取出的分句，判断其内是否存在一个及一个以上的命名实体，如果只存在一个，则转到(3)；如果存在两个或两个以上，转到(4)；

(3)判断命名实体是否含介词，如果不包含则转到(1)；如果包含介词则继续判断该介词的两侧的词组是否包含具体的语义信息，即判断是不是嵌套的语义标注，如果没有则转(1)；如果有则构建相应的三元组，添加到三元组表PrepList中；

(4)取出该分句中所有只包含一个主谓宾结构的简单句，对所有简单句组成的集合进行遍历；

(5)依次遍历(4)中生成的简单句集合，根据规则中的包括的词性、实体类型、实体内容、关系预测、依存句法分析的语法判断实体和实体间的关系，生成主语词组、谓语、宾语词组结构的三元组；

(6)分析词组中的实体的的实例，通过包括谓词的语义信息以及命名实体的标注类型的相关信息，判断该三元组的关系类型；

(7)输出实体关系的三元组。

相较于现有技术，本发明具有以下有益效果：本发明方法结合规则与机器学习的方法面向特定领域的文本进行实体关系的抽取，可以提高当前特定领域下文本的信息抽取准确度，并在实际应用场景中验证了该方法的可行性和有效性。

附图说明

图1为本发明规则驱动下基于特征的文本关系抽取概览图。

图2为本发明实体抽取规则的定义。

图3为本发明命名实体识别算法流程图。

图4为本发明关系抽取规则的定义。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本发明提供了一种规则驱动下基于特征的文本关系抽取方法，采用自然语言处理工具 CoreNLP将一待处理领域文本分句，得到该待处理领域下的简单句集合；将实体候选集和该待处理领域下的简单句集合作为关系抽取的输入，使用规则驱动下基于特征的关系抽取算法对输入进行关系抽取，最终得到该待处理领域下的实体关系三元组。

所述实体候选集为待处理领域下的实体集合，并通过命名实体识别算法进行复杂实体的识别，以完善实体候选集。所述命名实体识别算法实现如下：

1)识别关键词触发阶段

2)候选实体获取

3)命名实体最佳匹配规则选择

其中，α表示正相关，式中表示

正相关于

对于每一个实体候选集，

为一个固定值；

4)实体左边界确定和左边界修正

所述基于特征的关系抽取算法具体实现如下：

(7)输出实体关系的三元组。

以下为本发明的具体实现过程。

1、方法概览

本发明规则驱动下基于特征的文本关系抽取概览如图1所示。使用斯坦福大学自然语言处理工具CoreNLP能够将特定领域文本分句，得到特定领域下的简单句集合。将实体候选集和特定领域下的简单句集合作为关系抽取的输入，使用规则驱动下基于特征的关系抽取算法对输入进行关系抽取。

使用的基于特征的关系抽取算法，同样是以声明式规则语言来描述的。规则中包括实体特征、CoreNLP的词性分析、实体分类、依存关系分析等，同时还自主定义了关键词词典和领域下的关系。最终可以得到特定领域下的实体关系三元组。其中基于特征的关系抽取算法核心描述规则是使用基于规则和依存关系句法分析方法，对文本进行解析得到文本的语法结构树，从语法结构树的叶子节点开始，句子中的两个实体中间只要包含动词，就可以认为它是一个单句。递归算法过程，直到整个句子都被遍历，最终得到一个实体和关系的三元组。

2、实体抽取规则

2.1实体规则描述

如图2所示，本文提出的实体抽取规则分为以下几个模块：范围模块(range)、正则模块 (regular)、核心词模块(keyword)、语义模块(dependence)和词性模块(wordAttribute)等。其中实体抽取规则中范围模块(range)主要定义特定领域中实体抽取的范围，如部分文本、某一文本或某一文本的部分段落等。正则模块(regular)主要针对范围定义下的文本，使用正则表达式的形式，对文本中已分词后的实体进行匹配。核心词模块(keyword)和语义模块 (dependence)主要针对复杂实体，可一次定位该实体的核心词并针对复杂实体确定与核心词相关实体的语义关系。词性模块(wordAttribute)主要针对分词标注后实体的词性，进一步的规范实体的准确性。

2.2命名实体识别算法

上述规则定义主要用于处理一般的实体识别，在实际的应用过程中，某些特定领域下实体的识别不全的情况。如招标信息领域中，中文公司名称、组织机构名称、地点名称等实体常常识别不全。这是因为这些实体的长度难以确定，长短不一。经过对领域特点的研究发现，这些复杂实体通常都以表述地址的词语开头。因此本规则需要添加一个用规则表示的命名实体识别算法进行左边界修正的过程以实现该类复杂实体的识别。下面介绍具体命名实体识别算法，识别过程如图3所示。

1)识别关键词触发阶段

识别触发阶段的主要任务是扫描自由文本中的分词，当扫描到实体关键词(keyword)时，则将此分词作为触发词，并确定此触发词所属实体类别，开始调用相应实体的规则即关键词规则(keyword)进行匹配。比如扫描到分词“公司”时，将此分词作为关键词，并且确定其所属实体类别为机构实体(/N_org)，并调用组织机构实体规则与触发词前文语义进行匹配。

2)候选实体获取

当确定关键词类别后，则将关键词之前至上一句子之间的实体下标序列与相应实体规则逐一进行匹配，将这些实体与下标序列作为候选实体保存。

3)命名实体最佳匹配规则选择

上一步中，筛选的候选实体集可能包含较多实体，需要从中选择与核心词相关的正确实体，即确定实体的左边界。在实际的匹配过程中，我们发现中文地点、组织结构等特定领域下的实体左边界不确定性的问题，因此我们在原有规则的基础上加入了一个参数P用来调整规则选择。参数P的公式如下：

其中，α表示正相关，式中表示

正相关于

对于每一个实体候选集，

为一个固定值；依据P的值(一般取10)来进行规则的选取，即是否使用命名实体识别算法来进行左修正。

4)实体左边界确定和左边界修正

由步骤3)确定实体长度length，从触发词开始往前回溯length个分词即可确定实体的左边界，这些分词所构成的分词串则代表相应的实体；同时，在实体识别过程中，若获得的实体并非以所需词语开头的实体，则需继续在阈值范围内(本方法阈值设置为n个词)向前匹配，直到在同一句子中遇到所需词语开头为止，如果在阈值范围内无所需词语，则取消修正。

3关系抽取规则

3.1抽取规则定义

主要详细介绍规则驱动下基于特征的关系抽取方法中规则的定义与描述。规则的定义包括两部分，第一部分为关系抽取规则的定义，第二部分为特征描述规则。本方法中的描述规则包括描述语句、保留词和操作符等。图4为关系抽取规则的定义。

其中CONCEPTA,B表示基于规则的实体抽取方法中得到的实体A和实体B。本算法中抽取的关系描述为relation，这个关系即为实体A和B之间的关系。规则描述中包括五个函数，分别是SENT、DIST_X、SEMA、BETW、FEATURE，函数的定义如表1所示。

表1关系抽取规则中函数定义

特别的，为实现特定领域下的部分领域关系的有效识别，我们建立了一个谓词核心词词典，其主要包括各个关系中谓词的触发词，比如我们为位置(area)这一关系构建了由“位于，在，处于，有，存在，产出，出产，盛产，产于，量产，盛产，特产，来自，产自，产地，起源，引种，分布于，生长在，种植，栽种，栽培，栽植，引进”等组成的词典。本文中针对特定领域涉及的关系自主构造的谓词核心词词典如表2所示。

表2特定领域自定义谓词核心词词典

3.2基于特征的抽取规则描述

FEATURE函数内包括20+语句，这些语句是对关系抽取规则中的实体、关系、句子做的特征描述如以下规则所示：

基于特征的关系抽取规则由定义语句、概念语句、赋值语句、关系定义语句等构成，主要在实体向量、语句向量、特征向量、关系预测、词性表示等特征方面进行体现。下面详细描述上述各类语句。

其中1表示一条关系抽取规则分别包括句子表达向量、特征表达向量和关系预测表示。2 和3主要表示句子表达向量与特征表达向量的具体表现内容。4-11主要表示特征表达向量中具体包括的几个方面，有以下几个方面：实体内容；实体中各个词的词性；实体类型；实体上下文内容；实体上下文词性；实体与核心谓词的距离；依存句法特征。12主要表示预测的实体间关系语句。13主要表示斯坦福大学CoreNLP的词性标注。14主要表示斯坦福大学CoreNLP的实体分类。15主要表示预测的实体间关系种类。16-20主要表示语句的关系操作符、参数和语法等。

4基于特征的关系抽取算法

以3.2基于特征的关系抽取描述规则为基础，我们提出关系抽取算法。原始文本经过分句、分词以及实体识别处理后，得到一个分句集合<Sen>和实体集合<Ent>做为我们的关系抽取算法输入。算法开始前，对于介词和动词我们先分别建立两个空的三元组表PrepList和VerbList，用来做为算法的输出。我们在文本的分句集合上进行遍历，一次处理单一的一个分句。算法描述如下：

①从<Sen>中取下一个分句，匹配该句中的实体，存在则转到2继续执行，如果不存在则算法结束。

②对取出的分句，判断其内是否存在一个及一个以上的命名实体，如果只存在一个，则转到3；如果存在两个或两个以上，转到4

③判断命名实体是否含介词，如果不包含则转到1；如果包含介词则继续判断该介词的两侧的词组是否包含具体的语义信息(即判断是不是嵌套的语义标注)，如果没有则转1；如果有则构建相应的三元组，添加到PrepList中。

④取出该分句中所有只包含一个主谓宾结构的简单句，对所有简单句组成的集合进行遍历。

⑤依次遍历4中生成的简单句集合，根据规则中的词性、实体类型、实体内容、关系预测、依存句法分析等语法判断实体和实体间的关系，生成(主语词组，谓语，宾语词组)结构的三元组，添加到VerbList中。

⑥分析词组中的实体的的实例，通过谓词的语义信息(添加自定义谓词词典)以及命名实体的标注类型等相关信息，判断该三元组的关系类型。

⑦输出实体关系的三元组。

5实验评估

实验针对两个特定领域信息预设了8种实体关系种类：有招标信息中实体与实体之间的是关系(is)，实体与实体之间的原产地关系(area)、实体与实体之间的包含关系(con)、实体之间的别名关系(ali)、实体之间的父子类关系(sup)、实体的荣誉称号关系(hon)、实体与价值之间的具有关系(val)和实体与实体之间无关系(nor)。

由于本实验是将关系抽取过程看作是分类的过程，所以这里的评价方式也采用常规的准确率、召回率和F1值。针对某一具体关系类型的抽取结果，5-1、5-2和5-3为其评价公式：

准确率：

召回率：

F1值：

如表3所示，使用规则驱动下的关系抽取方法各类关系的平均准确率超过为73％

表3基于规则的农业知识领域信息抽取实验结果

RelationType	Precision	Recall	F1
				is	0.93	0.91	0.94
ali	0.75	0.74	0.77
				area	0.75	0.79	0.77
sup	0.74	0.74	0.74
				val	0.81	0.68	0.74
hon	0.80	0.75	0.76
				con	0.76	0.69	0.72
nor	0.84	0.84	0.84
				Avg	0.79	0.77	0.76

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种规则驱动下基于特征的文本关系抽取方法，其特征在于，采用自然语言处理工具CoreNLP将一待处理领域文本分句，得到该待处理领域下的简单句集合；将实体候选集和该待处理领域下的简单句集合作为关系抽取的输入，使用规则驱动下基于特征的关系抽取算法对输入进行关系抽取，最终得到该待处理领域下的实体关系三元组；

所述实体候选集为待处理领域下的实体集合，并通过命名实体识别算法进行复杂实体的识别，以完善实体候选集；

所述命名实体识别算法实现如下：

1)识别关键词触发阶段

2)候选实体获取

3)命名实体最佳匹配规则选择

其中，α表示正相关，式中表示

正相关于

对于每一个实体候选集，

为一个固定值；

4)实体左边界确定和左边界修正

由步骤3)确定实体长度length，从触发词开始往前回溯length个分词即可确定实体的左边界，这些分词所构成的分词串则代表相应的实体；同时，在实体识别过程中，若获得的实体并非以所需词语开头的实体，则需继续在阈值范围内向前匹配，即向前匹配n个词，直到在同一句子中遇到所需词语开头为止，如果在阈值范围内无所需词语，则取消修正；

所述基于特征的关系抽取算法具体实现如下：

(6)分析词组中的实体的实例，通过包括谓词的语义信息以及命名实体的标注类型的相关信息，判断该三元组的关系类型；

(7)输出实体关系的三元组。