CN102982063A

CN102982063A - 一种基于关系关键词扩展的元组精化的控制方法

Info

Publication number: CN102982063A
Application number: CN2012103497553A
Authority: CN
Inventors: 杨小玲; 杨静
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2012-09-18
Filing date: 2012-09-18
Publication date: 2013-03-20

Abstract

本发明提供一种在自然语言处理系统中基于关系关键词扩展的元组精化的控制方法，其特征在于，包括如下步骤：a.扩展待评估元组的关系关键词；b.获取与所述关系关键词相适应的共现句集合；c.根据所述共现句集合抽取候选实体集合；以及d.确定用于替换的实体，将所述替换实体作为所述待评估元组中的实体。本发明中的方法完全独立于任何实体关系抽取方法，也适用于自举方法任一轮迭代后，而且本方法仅使用浅层语言处理技术，避免了深层语言当前无法控制的噪音问题。

Description

一种基于关系关键词扩展的元组精化的控制方法

技术领域

本发明涉及知识库扩展、网络抓取、浅层语言处理技术（实体识别、分词）、数值统计等技术领域，具体的说是一种基于关系关键词扩展的元组精化方法。

背景技术

随着互联网的快速发展，如何从海量的无结构的数据里抽取出结构化的数据成为当前的研究热点，目前信息抽取的主要研究方向是：命名实体识别、指代消解、实体关系抽取等，其中实体关系抽取是当前的重要的研究内容。而当前实体关系抽取有基于知识工程的方法和基于机器学习的方法。但是基于知识工程的方法需要大量人力同时需要构建专业知识，使得领域的可移植性差，而基于机器学习的方法需要使用大量深层语言处理技术，比如：基于SVM方法在构造特征向量时需要用到句法分析和语义分析、基于kernel的方法通过引入依存树来构建最短树核、弱监督的自举方法需要词法分析中的命名实体识别技术等，仅从抽取方法上改进很难进一步提高实体关系的效果，本发明提出了一种元组精化方法以提高实体关系抽取的准确率。

当前实体关系抽取中元组精化方法集中在可信度评估，snowball方法在没有人工干预的情况下评估模式和元组，仅仅保留最可信（超过阈值T）的模式和元组进入下一轮迭代。但其可信度评估仅仅依赖关系的一个关键属性扩展性小。哈工大方法设计了元组的可信度自动评估方法，哈工大方法仅仅利用种子元组可信度来评估其它元组，并未考虑到元组和模式的多样性，使得准确率不高。本文提出了一种基于关系关键词扩展的元组精化方法，利用关系的多样性和网络信息的冗余性，根据实体和关键词共现特征和就近原则从网络中提取实体，从而对实体关系抽取中的元组进行精化。此精化方法独立于抽取方法，使得本发明的方法可移植性强，且准确率高。

发明内容

针对现有技术的缺陷，本发明的目的是提供一种基于关系关键词扩展的元组精化方法。

根据本发明的关系关键词扩展，提供了一种基于知识库扩展的关系关键词扩展方法，利用关系的多样性，利用《同义词词林扩展版》将实体关系关键词进行初步扩展，然后再手工去掉一些停用词和错误词，这样扩展后的词语就能更好的表示关系的多样性。

首先根据本发明的方法，需要用户采取某种实体关系抽取方法（未经精化）抽取元组，作为待评估元组。然后，利用待评估元组构造初始元组，再利用实体和关键词共现的特性，从网络中就近抽取预先已定义类型的另一实体，从而达到元组精化的目的。

本方法中仅利用浅层语言处理技术（分词、实体识别）等，避免了深层语言技术当前无可避免的噪音问题。

根据本发明的一个方面，提供一种在自然语言处理系统中基于关系关键词扩展的元组精化的控制方法，其特征在于，包括如下步骤：a.扩展待评估元组的关系关键词；b.获取与所述关系关键词相适应的共现句集合；c.根据所述共现句集合抽取候选实体集合；以及d.确定用于替换的实体，将所述替换实体作为所述待评估元组中的实体。

根据本发明的另一个方面，还提供一种基于关系关键词扩展的元组精化方法，其特征在于，包括如下步骤：a.关系关键词扩展；b.抓取共现句集合；c.抽取候选实体集合；d.数值统计抽取实体。

优选地，所述步骤a包括如下步骤：a1.构建初始元组(e1,k,r_type)，利用某一实体关系抽取出待评估元组（e1,e2,k,r_type）,初始元组来源于待评估元组；a2.构建关系扩展表{（k,ki）}，利用关系的多样性，首先用《同义词词林扩展版》对关系关键词进行同义词扩展，再手工去掉一些停用词和不常用词；a3.构建关系扩展元组集合{（e1,ki,r_type）}，利用初始元组和关系关键词扩展表对关系关键词进行扩展，构成关系关键词扩展后的元组集合。

优选地，所述步骤通过构建实体一与关系关键词共现的句子集合SS，利用网络信息的冗余性，抽取关系扩展元组集合中的实体一和关系关键词共现的句子集合。

优选地，所述步骤c包括如下步骤：c1.对共现句集合SS进行实体识别和分词等浅层语言处理；c2.利用就近原则和预先定义的实体类型从共现句集合中抽取候选实体集合。

优选地，所述步骤d利用数值统计从候选实体集合中抽取统计值最高的词作为实体二。

本发明公开了一种基于实体关键词扩展的元组精化方法，不需要深层语言处理技术，也不需要依赖实体关系抽取方法。当用户通过实体关系抽取方法抽出实体后（未经精化），利用关系关键词扩展技术对实体关系关键词进行扩展，再利用网络信息的冗余性，利用实体和关键词共现特征从共现句集合中就近抽取出候选实体，取候选实体集中统计值最优的词作为实体，从而对元组进行精化。针对当前实体关系抽取准确率低，使用本方法可避免深层语言处理带来的噪音，同时尽量独立于实体关系抽取方法且独立于抽取过程，期待能提高实体关系抽取的效果。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出根据本发明的第一实施例的，一种在自然语言处理系统中基于关系关键词扩展的元组精化的控制方法的流程图；

图2示出根据本发明的第一实施例的，一种在自然语言处理系统中基于关系关键词扩展的元组精化的控制方法扩展关系关键词的流程图；

图3示出根据本发明的第一实施例的，一种在自然语言处理系统中基于关系关键词扩展的元组精化的控制方法根据扩展关系关键词替换元组实体的流程图；以及

图4示出根据本发明的一个具体实施方式的，一种在自然语言处理系统中基于关系关键词扩展的元组精化的控制方法的流程图。

具体实施方式

本发明公开了一种基于实体关键词扩展的元组精化方法，不需要深层语言处理技术，也不需要依赖实体关系抽取方法。

当用户通过实体关系抽取方法抽出实体后（未经精化），利用关系关键词扩展技术对实体关系关键词进行扩展，再利用网络信息的冗余性，利用实体和关键词共现特征从共现句集合中就近抽取出候选实体，取候选实体集中统计值最优的词作为实体，从而对元组进行精化。

针对当前实体关系抽取准确率低，使用本方法可避免深层语言处理带来的噪音，同时尽量独立于实体关系抽取方法且独立于抽取过程，提高实体关系抽取的效果。

本方法包含了一种关系关键词扩展的方法。该方法结合了基于知识工程的自动扩展和手工扩展方法，充分利用了关系的多样性。

本方法也利用了网络信息的冗余性，通过实体和关系关键词共现特征，从网络中提取共现句集合，通过浅层语言处理技术就近提取实体，最后取统计值最优的词作为实体，从而对待评估元组进行精化。

本方法利用关系多样性和网络信息冗余性，实现了一种基于关系关键词扩展的元组精化方法，避免使用深层语言处理技术，采用数值统计的方法就近抽取实体。本方法独立于实体关系抽取方法，避免使用深层语言处理技术。使得实体关系抽取可移植性好抽取效果好。

图1示出根据本发明的第一实施例的，一种在自然语言处理系统中基于关系关键词扩展的元组精化的控制方法的流程图。具体地，本领域技术人员理解，本发明提供的基于关系关键词扩展的方法适用于关系词明确的实体关系抽取方法中。例如：StatSnowball种子元祖由（e1,e2,k）组成，其中e1代表实体一，e2代表实体二，k代表关系词。则可利用关系关键词扩展对StatSnowball方法进行元祖精化。更具体地，图1示出了四个步骤。首先是步骤S201，扩展待评估元组的关系关键词。然后是步骤S202获取与所述关系关键词相适应的共现句集合。步骤S203根据所述共现句集合抽取候选实体集合。最后执行步骤S204确定用于替换的实体，将所述替换实体作为所述待评估元组中的实体。本领域技术人员理解，所述待评估元组至少包括实体一，实体二，待评估关系关键词以及待评估关系类型。本发明对所述待评估元组中的关系关键词进行同义词扩展，并进一步获取与所述待评估元组中某一实体具有类似关系的，出现频率最高的实体以对待评估元组进行精化，使得最后确定的用于替换的实体比原实体更加适用于原关系关键词。本发明基于上述四个步骤针对当前实体关系抽取准确率低，可避免深层语言处理带来的噪音，同时尽量独立于实体关系抽取方法且独立于抽取过程，提高实体关系抽取的效果。

图2示出根据本发明的第一实施例的，一种在自然语言处理系统中基于关系关键词扩展的元组精化的控制方法扩展关系关键词的流程图。具体地，本图示出了五个步骤。首先是步骤S301获取待评估元组。然后是步骤S302根据待评估元组生成初始元组。步骤S303将所述初始关系关键词进行同义词扩展。步骤S304去除停用词和不常用词。最后为步骤S305生成扩展后的关系关键词集合。具体地，本领域技术人员理解，所述待评估元组至少包括实体一，实体二，待评估关系关键词以及待评估关系类型。所述初始元组包括初始实体，初始关系关键词以及初始关系类型。其中，所述初始实体从所述实体一、实体二中选择，所述初始关系关键词与待评估关系关键词相同，所述初始关系类型与所述待评估关系类型相同。当所述初始实体任取所述待评估元组中所述实体一以及实体二中任意一个实体时，需要注意的是实体关系类型的变化。例如（奥巴马，美国，总统），如果取（奥

(巴)马，总统）则实体关系类型为“人物与国家”，如果取(美国，总统)，则实体关系类型为“国家与人物”。更进一步地，本领域技术人员理解，所述关系关键词优选地，根据《同义词词林扩展版》进行扩展。由于《同义词词林》著作时间较为久远，且之后没有更新，所以原书中的某些词语成为生僻词，而很多新词又没有加入。有鉴于此，哈尔滨工业大学信息检索实验室利用众多词语相关资源，并投入大量的人力和物力，完成了一部具有汉语大词表的《哈工大信息检索研究室同义词词林扩展版》。扩展版剔除了原版中的14,706个罕用词和非常用词，最终的词表包含77,343条词语。扩展后的《同义词词林》，含有比较丰富的语义信息。但是目前由于种种原因，《同义词词林》完整版并没有共享，而只是共享了其中的词典文件。期待着哈工大信息检索实验室能够在不久的将来能够将完整版进行共享，以满足研究和实际应用的需要。所述关系关键词基于所述《同义词词林扩展版》扩展后生成关系关键词集合，本发明提供的基于关系关键词扩展的元组精化的方法根据生成的关系关键词集合以及初始元组中的实体对待评估元组进行精化。

图3示出根据本发明的第一实施例的，一种在自然语言处理系统中基于关系关键词扩展的元组精化的控制方法根据扩展关系关键词替换元组实体的流程图。首先是步骤S401获取所述初始实体与所述关系关键词集合中每一个关系关键词的所述共现句集合。之后为步骤S402对所述共现句集合中每一个共现句进行实体识别以及分词处理。分词处理完毕后，执行步骤S403提取所述共现句集合中与所述初始实体以及所述扩展后的关系关键词最近的实体。步骤S404根据预先定义的实体类型抽取候选实体集合。上述步骤S402至步骤S404基于就近原则完成候选实体集合的抽取。具体地，本领域技术人员理解，所述预先定义的实体类型是根据待评估元组中的关系类型推理出来的。例如：所述关系类型为“人物与国家”，则实体一表示是人物类型，实体二表示是国家类型。所述初始元组选择了实体一，则“国家″类型即是预定义的要提取的实体类型。之后执行步骤S405，记录所述候选实体集合中每一个实体的频数。步骤S406将所述频数最高的候选实体以及所述初始实体作为待评估实体中的实体一以及实体二。最后执行步骤S407，将替换后的待评估元组作为精化后的元组。上述步骤S405至步骤S407确定替换的实体，并将该实体替换并未被选作初始实体的所述待评估元组中的实体，生成精化的元组。

更进一步地，本领域技术人员理解，所述共现句集合优选地，通过如下步骤进行抽取，首先，将所述初始实体与所述关系关键词集合中每一个关系关键词作为搜索关键词输入搜索引擎，并根据所述搜索结果各项标题和摘要获取共现句集合。在本实施例的一个变化例中，所述共现句集合通过如下步骤进行抽取，将所述初始实体与所述关系关键词集合中每一个关系关键词作为关键词输入语料库，并根据所述语料库搜索结果获取共现句集合。

本方法需要采用一种实体关系抽取方法抽取待评估元组，下面以哈工大抽取方法为例，结合附图对本发明做进一步说明。

图4为本发明的流程图。具体地，在图4示出的实施例中，利用关系扩展表对实体关系进行扩展，利用实体和关键词共现特性，从网络中抽取大量实体关系句，利用浅层语言处理技术对共现句进行处理，利用就近原则从中提取出符合预先定义实体类型的词作为候选实体，再取最大统计词作为实体，从而对待评估元组进行精化。

具体的方法流程图如下：

1.利用哈工大实体关系抽取方法抽取待评估元组（e1,e2,k,r_type）,其中e1代表实体一，e2代表实体二，k代表关系关键词，r_type代表关系类型。再根据待评估元组构造初始元组（e1,k,r_type）.其中，e1,k,r_type来源于待评估元组。

2.构建关系扩展表，首先利用《同义词词林扩展版》对关系关键词k进行同义词扩展，然后再手工去掉一些停用词和不常用词，扩展后的关系扩展表为KeywordsList{(k,ki)}.

3.构建关系关键词扩展元组集合，利用关系扩展表对关系进行扩展，从而将初始元组扩展成为一个关系扩展的元组集合{(e1,ki,r_type)}.

4.抽取实体与扩展后的关系关键词共现的句子集合SS{（e1,ki）}.

5.从共现句集合中抽取候选实体集合。利用浅层语言技术，对共现句集合进行实体识别和分词等处理，应用就近原则和预先定义的实体类型抽取候选实体结合。

6.从候选实体集合中取统计值最高的词作为实体二。

本发明公开了一种基于关系关键词扩展的元组精化方法，其通过对实体关系抽取的结果做进一步精化以提高实体关系抽取的效果，本发明中的方法完全独立于任何实体关系抽取方法，也适用于自举方法任一轮迭代后，而且本方法仅使用浅层语言处理技术，避免了深层语言当前无法控制的噪音问题。本发明公开的方法包含一种基于关系关键词扩展的元组精化方法，其中关系关键词扩展，通过利用实体关系的多样性，提出了一种基于知识库自动扩展结合手工扩展方法，本发明利用实体和关系关键词共现特性，从共现句中就近抽取预定定义类型的词作为候选实体，最后利用数值统计从候选实体中取最优值作为实体。本发明充分利用网络信息的冗余性和实体关系的多样性，对实体关系抽取的结果做进一步精化，提高实体关系抽取的效果。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种在自然语言处理系统中基于关系关键词扩展的元组精化的控制方法，其特征在于，包括如下步骤：

a.扩展待评估元组的关系关键词；

b.获取与所述关系关键词相适应的共现句集合；

c.根据所述共现句集合抽取候选实体集合；以及

d.确定用于替换的实体，将所述替换实体作为所述待评估元组中的实体。

2.根据权利要求1所述的控制方法，其特征在于，所述步骤a还包括如下步骤：

a1.获取待评估元组；

a2.根据待评估元组生成初始元组。

3.根据权利要求1或2所述的控制方法，所述待评估元组至少包括实体一，实体二，待评估关系关键词以及待评估关系类型。

4.根据权利要求1至3任一项所述的控制方法，所述初始元组包括初始实体，初始关系关键词以及初始关系类型。

5.根据权利要求1至4任一项所述的控制方法，所述初始实体从所述实体一、实体二中选择，所述初始关系关键词与待评估关系关键词相同，所述初始关系类型与所述待评估关系类型相同。

6.根据权利要求1至5任一项所述的控制方法，其特征在于，所述步骤a2之后还包括如下步骤：

a3.将所述初始关系关键词进行同义词扩展；

a4.去除停用词和不常用词；以及

a5.生成扩展后的关系关键词集合。

7.根据权利要求1至6任一项所述的控制方法，其特征在于，所述步骤b包括：

b1.获取所述初始实体与所述关系关键词集合中每一个关系关键词的所述共现句集合。

8.根据权利要求7所述的控制方法，其特征在于，获取所述步骤b1包括如下步骤：

b11.将所述初始实体与所述关系关键词集合中每一个关系关键词作为搜索关键词输入搜索引擎；以及

b12.根据所述搜索结果各项标题和摘要获取共现句集合。

9.根据权利要求7所述的控制方法，其特征在于，获取所述步骤b1包括如下步骤：

b11′.将所述初始实体与所述关系关键词集合中每一个关系关键词作为关键词输入语料库；以及

b12″.根据所述语料库搜索结果获取共现句集合。

10.根据权利要求1至7任一项所述的控制方法，其特征在于，所述步骤c包括：

c1.对所述共现句集合中每一个共现句进行实体识别以及分词处理；

c2.提取所述共现句集合中与所述初始实体以及所述扩展后的关系关键词左右两边取最近的一个词，中间部分取全部的实体词；以及

c3.根据预先定义的实体类型抽取候选实体集合。

11.根据权利要求8所述的控制方法，其特征在于，所述预先定义的实体类型根据所述待评估关系类型由初始实体确定。

12.根据权利要求1至9任一项所述的控制方法，其特征在于，所述步骤d包括：

d1.记录所述候选实体集合中每一个实体的频数；

d2.将所述频数最高的候选实体以及所述初始实体作为待评估实体中的实体一以及实体二；以及

d3.将替换后的待评估元组作为精化后的元组。