CN102968432A

CN102968432A - 一种基于置信度验证元组的控制方法

Info

Publication number: CN102968432A
Application number: CN2012103496796A
Authority: CN
Inventors: 陈超; 林欣
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2012-09-19
Filing date: 2012-09-19
Publication date: 2013-03-13

Abstract

本发明提供一种在关系数据挖掘系统中基于置信度验证元组的控制方法，其特征在于，包括如下步骤：a.提取待验证元组的最小覆盖模板集；b.根据待验证元组的最小覆盖模板集以及标准模板库计算待验证元组的置信度；c.根据所述置信度确定所述待验证元组是否可信；以及d.根据确定为可信元组的待验证元组的最小覆盖模板集更新所述标准模板库。将互联网和搜索引擎作为数据源，通过构建种子元组的模板库来进行元组验证，并不断地更新标准模板库，以求提高元组验证的准确率和召回率。实践证明，该方法具有准确率高、通用性强、效率高的特点。

Description

一种基于置信度验证元组的控制方法

技术领域

本发明涉及自然语言处理、数据挖掘、数据存储、数据的高可靠性计算等技术领域，具体来说，是一种基于互联网的用于验证关系元组正确性的实用方法。

背景技术

近年来，互联网以超乎想象的速度迅速发展，各种信息和数据陆续登陆互联网。尤其是最近一段时间以来，互联网逐渐成为了信息的源头。然而，数据的极大丰富并不只是为人们的生产、生活和学习带来便利，同时带来的还有信息的冗余和查找数据的困难。因此，研究互联网的数据，并快速地为读者提供其感兴趣的信息成为了一个热门的研究领域。

自然语言处理是解决此类问题的关键研究领域，而自然语言处理技术是解决此类问题的核心技术。目前，监督的学习算法、半监督的学习算法、无监督的学习算法、核方法和基于统计的方法是研究的主流，广泛地用于各种实验项目和应用项目。通常来说，这些算法都有其优点和不足，算法的整合通常能带来实验和应用效果的改善。

关系挖掘是自然语言处理中的一个子任务，其主要用于挖掘实体之间的关系。目前，关于关系挖掘的研究主要集中在寻找合适的挖掘算法。由于自然语言的复杂性，目前，还没有一个公认的完备的方法被所有研究者所认可。因此，各种用于关系挖掘的算法都不能保证输出元组的正确性。本文提出的基于互联网的关系元组验证方法是用于验证元组正确性的算法。其实施的先决条件是信息的冗余。该方法通过为人工提供的种子元组构建标准模板库，并为待验证的元组构建待验证模板库来进行关系元组的验证。因此，自然语言处理中的半监督学习算法是其基本的构建原理。同时，该方法还运用了数据挖掘技术，数据存储技术等基础技术。通过为关系元组提供验证，有效地提高了输出元组集合的正确率，改善了信息查询精度和质量。

发明内容

针对现有关系挖掘研究中，仅注重寻找关系挖掘算法，忽略关系元组验证的不足，本发明旨在提出一种通用的面向互联网的关系元组验证方法。

根据本发明的一个方面，提供面向互联网的关系元组验证方法，包括获取模板的原理、获取模板的方法、元组验证的方法，其中，获取模板的原理包括进行元组验证的先决条件，应用的环境和进行元组验证的基本理论基础；获取模板的方法包括如何获得元组的共现句，如何扫描和获取模板；元组验证的方法包括，进行模板匹配的方法，根据元组的置信度，判断元组的正确性，以及更新种子模板库。

根据本发明的另一个方面，还提供一种在关系数据挖掘系统中基于置信度验证元组的控制方法，其特征在于，包括如下步骤：a.提取待验证元组的最小覆盖模板集；b.根据待验证元组的最小覆盖模板集以及标准模板库计算待验证元组的置信度；c.根据所述置信度确定所述待验证元组是否可信；以及d.根据确定为可信元组的待验证元组的最小覆盖模板集更新所述标准模板库。

根据本发明的另一个方面，还提供一种面向互联网的关系元组验证方法，包括获取模板的原理、获取模板的方法和验证的方法，其特征在于，获取模板的原理用于介绍进行元组验证的条件、应用环境和获取模板的理论依据和原理；获取模板的方法用于在原理的基础上抽取合适的用于验证元组的模板，并向验证方法进行模板输送；元组验证的方法用于接收模板，并将由待验证元组生成的模板与由种子元组生成的模板进行匹配，根据置信度判断元组的正确性，最后，根据新产生的正确的元组生成的模板更新标准模板库。

优选地，所述获取模板的原理包括：元组由一对实体关键词和表示其关系的关系关键词组成，进行元组验证的前提条件是信息冗余，实现元组验证的应用环境是开放的互联网及广泛使用的搜索引擎，获取模板的原理是关系元组的文本最小覆盖；所述获取模板的方法包括：得到关系元组的共现句的方法，对共现句进行扫描和处理，得到用于验证元组正确性的模板的方法；所述验证的方法包括：将由待验证元组生成的模板与由种子元组生成的模板进行完全匹配，得出待验证元组的置信度，并根据其置信度判断元组的正确性，最后，根据验证得到的新元组产生的模板更新标准模板库。

优选地，获取模板的方法根据获取模板的原理，生成用于验证的模板，验证的方法根据得到的模板对相应的元组进行置信度的计算，并更新标准模板库。

优选地，关系元组由两个实体关键词和一个关系关键词组成，具有如下结构<实体1，实体2，关系关键词>。

优选地，获取模板的原理指出，信息冗余是进行关系元组验证的先决条件，开放的互联网和搜索引擎是获取相关信息的主要途径。

优选地，覆盖关系元组的最小文本片段，简称最小覆盖是面向互联网的关系元组验证方法的模板获取原理。

优选地，得到元组共现句的方法是将关系元组输入搜索引擎，并得到所有包含元组的自然句。

优选地，对共现句进行扫描和处理，得到验证模板，扫描共现句的方法是首先进行前向扫描，之后，再对共现句进行一次后向扫描。

优选地，初始标准模板库由种子元组产生，由至少包含一个种子元组的最小覆盖模板组成。

优选地，模板的匹配方法是完全匹配，当且仅当两个模板完全一致时，称为一次有效匹配，否则称为一次失配，失配对元组置信度的贡献为0。

优选地，正确元组是其置信度值大于一个经验阈值的元组。

优选地，根据新产生的正确元组的最小覆盖模板更新标准模板库。

优选地，模板库的更新主要是更新模板的权重及添加新模板。

优选地，模板权重由其统计值表示。

本发明以手工输入的元组作为种子元组，以机器学习方法产生的元组作为待验证的对象，自动地为种子和待验证元组构建模板，并对待验证元组进行评价。最后，本方法输出置信度大于确定实验阈值的元组。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出根据本发明的第一实施例的，一种在关系数据挖掘系统中基于置信度验证元组的控制方法的流程图；

图2示出根据本发明的第一实施例的，生成所述标准模板库的流程图；

图3示出根据本发明的第一实施例的，生成所述最小覆盖模板的流程图；以及

图4示出根据本发明的第一实施例的，更新所述标准模板库的的流程图。

具体实施方式

本发明公开了一种基于互联网的用于验证元组正确性的方法，这种方法不需要大量的人工参与，仅需要人工提供少量的种子元组，并具有较高的准确性、可靠性和通用性。

本发明充分利用了互联网上的信息具有冗余性的特点，同时，充分地利用了以下的自然语言处理法则，即在相似上下文中出现的元组对倾向于具有相同的语义关系。

因此，本发明采用互联网和搜索引擎作为数据源。众所周知，搜索引擎具有排序与搜索关键词相关的网页信息的能力，并且，搜索引擎返回的数据在一定程度上做到了差异性与冗余性相结合要求。差异性是指返回的数据应该相互区别，即，返回的数据不能具有表述的一致性；冗余性是指返回的数据不应具备相互独立性，数据的出现频率应与其通用性成正比。搜索引擎返回的数据基本达到了差异性与冗余性的平衡。

本发明主要利用浅层句法信息，不依赖于句法分析器和分词软件，完全独立运行，运行效率高，并且不受关系类型的限制，具有比较高的准确率和召回率。

本发明对返回的包含元组对的自然句进行扫描，找出元组对与关系关键词的边界，并将包含元组对和关系关键词的最小文本片段从自然句中切割出来。

本发明根据新产生的正确元组对的集合对标准模板库进行更新。在更新的过程中，充分考虑了新旧模板的权重，因此，保证了标准模板库的权威性与准确性，从而也保证了新产生的正确元组的正确性。

图1示出根据本发明的第一实施例的，一种在关系数据挖掘系统中基于置信度验证元组的控制方法的流程图。具体地说，图1包括四个方面的内容，标准模板库的构建与待验证元组的模板库的构建，元组置信度的计算和标准模板库的更新。

具体地，标准模板库的建立主要包括以下内容：

手工建立少量种子元组。这些种子元组具有如下的构成形式：<实体1，实体2，关系关键词>，对应于图1中的<e1,e2,keyword>。由于这部分数据是手工给定的，因此，能够保证其正确性。并且，为了保证种子元组具有相应实体关系的代表性，因此，知名度是一个隐性的要求。

将种子元组对和关系关键词组成查询关键词串投入搜索引擎中，获取包含至少一个种子元组对及其关系关键词的自然句。

对返回的自然句进行简单地处理，去掉其中多余的网页标签，丢弃不规范的不具有可操作性的自然句。对自然句进行前向扫描，找到种子词对及其关系关键词的边界，将该子句从自然句中分离出来。对包含种子词对及其关系关键词的子句进行后向扫描，将包含种子词对及其关系关键词的子子句从子句中分离出来。

子子句是包含种子词对及其关系关键词的最小文本片段。该片段由于包含种子词对及其关系关键词，因此，不具有泛化能力。将种子词对用特殊字符进行替换，并将关系关键词用另一个特征字符进行替换，从而得到最终的最小覆盖模板，统计每一个最小覆盖模板的出现频率，将用该频率表示其权重。

待验证的元组的最小覆盖模板的构建方法与种子元组的最小覆盖模板的构建方法相同。

元组置信度的计算主要包括以下内容：

由于标准模板库中具有大量的模板，而其中大多数的模板并不具有泛化能力，因此，这部分模板对验证新元组的正确性没有帮助。本方法提出标准模板的取舍比例，根据该比例，排序在前80%的模板对模板的计算具有贡献性。

\frac{Σ_{i = 1}^{m} Occur_{no}_{i}}{Σ_{j = 1}^{n} Occur_{no}_{j}} > > 0.8

其中，m,n分别代表模板子集和模板全集中模板的数量。而模板子集中，每个模板的权重由下式决定：

{weight}_{i} = \frac{\sqrt{{Occur_no}_{i}}}{Σ_{j = 1}^{m} \sqrt{{Occur_no}_{j}}}

新元组的置信度由下面的公式决定：

{Cre}_{i} = Σ_{j = 1}^{m} \frac{{Occur_no}_{j}}{Σ_{p = 1}^{t} {Occur_no}_{p}} * {weight}_{j}

其中，t表示待验证元组的模板集合中模板数量。在上面的所有公式中，Occur_no表示单个模板的出现频率。

标准模板库的更新主要包括以下内容：

标准模板库的更新主要更新标准模板的权重，在本发明中，单个模板的出现频率由其已有权重及新出现频率两部分组成，并由以下公式进行计算：

Occur_no_{i_new}＝Occur_no_{i_old}*0.8+P_i*0.2

该出现频率表达式表明，单个模板的新出现频率的构成比例为8：2，其中旧权重占80%。该比例保证了标准模板和验证正确的元组的正确性。

图2示出根据本发明的第一实施例的，生成所述标准模板库的流程图。具体地，本图示出了4个步骤。首先是步骤S301选取种子元组。之后是步骤S302提取所述种子元组的最小覆盖模板集作为所述标准模板库。步骤S303将所述最小覆盖模板集中的最小覆盖模板按频数从大到小排序。最后通过步骤S304生成标准模板库，其提取最小覆盖模板集中频数总和与最小覆盖模板集中所有最小覆盖模板频数总和为第一比例排序最前的最小覆盖模板及其频数的集合作为所述标准模板库。

具体地，本领域技术人员理解种子元组的选择优选地满足当前关系的元组就可以。如下面的例子：夫妇关系：（姚明，叶莉，夫妇）；总统关系：（奥巴马，美国，总统）；校长关系：（俞立中，华东师范大学，校长）。适当考虑知名度，因为，知名度高的元组，通常来说，有利于后续抽取工作的展开。

更具体地，本领域技术人员理解模板子集从本质上来说，是对原模板集的一个精化，因为很多模板仅出现一次，不具有泛化的能力，因此，这个模板仅对一个元组是有用的，而对其余的元组是无效的，这种模板的存在，不但不能对其余的元组进行验证，而且，会影响验证的效果，所以，在进行验证之前，我们将这部分模板舍去，优选地，我们取前80%的模板。如下面的例子：

Template_1 40

Template_2 20

Template_3 10

Template_4 10

Template_5 5

Template_6 5

Template_7 2

Template_8 2

Template_9 2

Template_10 2

Template_11 1

Template_12 1

那么，我们取前80%，则只取模板1到模板5，后面的模板由于缺少泛化能力被舍去。

图3示出根据本发明的第一实施例的，生成所述最小覆盖模板的流程图。具体地，本图示出了5个步骤，首选是步骤S401将所述种子元组中的实体词对及其关系关键词作为关键词输入搜索引擎。步骤S402，获取种子元组中的实体词对及其关系关键词的共现句。之后为步骤S403获取所述实体词对及其关系关键词在所述共现句中的边界，提取所述边界内的短句，并将所述实体词对替换为第一特征字符，将所述关系关键词替换为第二特征字符生成所述最小覆盖模板。步骤S404从所述共现句中提取最小覆盖模板并记录每个最小覆盖模板的频数并计算其权重。最后为步骤S405，根据所有搜索结果生成所述最小覆盖模板集。

具体地，本领域技术人员理解，上述步骤S403所述的特征字符是指一些特殊的字符串，用以区分实体对及关系特征词。如：实体一用X替换，实体二用Y替换，实体关系关键词用K替换。这里，X,Y，K就是特征字符。因此，这里的特征字符其实就是指替换实体及其关系关键词的字符串，可以是一个字符，也可以是多个。这样做的目的是为了避免分词软件将实体词切分开。

更具体地，本领域技术人员理解，由于实体之间的关系可以有多种表达方式，所述元组与最小覆盖模板之间形成一对多的关系。如元组：姚明，叶莉，夫妇：经过处理的共现句为，姚明和叶莉结为夫妇。其最小模板：X和Y结为K。经过处理的共现句姚明和叶莉夫妇一起出席了晚会。其最小模板：X和YX。

图4示出根据本发明的第一实施例的，更新所述标准模板库的的流程图。具体地，本图示出了4个步骤。首先是步骤S501，根据确定为可信元组待验证元组的最小覆盖模板集合更新所述标准模板库中最小覆盖模板的频数。之后为步骤S502，根据所述最小覆盖模板更新的频数更新所述最小覆盖模板的权重。步骤S503，将频数更新后标准模板库中的最小覆盖模板按频数从大到小排序。最后执行步骤S504，提取更新后标准模板库中频数总和与更新后标准模板库中所有最小覆盖模板频数总和为第一比例排序最前的最小覆盖模板及其频数的集合作为进一步更新后的标准模板库。具体地，最小覆盖模板的新频数的更新按照第二比例结合所述标准模板库中的最小覆盖模板的频数以及根据待验证元组生成的最小覆盖模板的频数进行更新。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种在关系数据挖掘系统中基于置信度验证元组的控制方法，其特征在于，包括如下步骤：

a.提取待验证元组的最小覆盖模板集；

b.根据待验证元组的最小覆盖模板集以及标准模板库计算待验证元组的置信度；以及

c.根据所述置信度确定所述待验证元组是否可信。

2.根据权利要求1所述的控制方法，其特征在于，所述步骤c之后还包括如下步骤：

d.根据确定为可信元组的待验证元组的最小覆盖模板集更新所述标准模板库。

3.根据权利要求1所述的控制方法，其特征在于，所述步骤a之前还包括如下步骤：

i.选取种子元组；以及

ii.提取所述种子元组的最小覆盖模板集作为所述标准模板库。

4.根据权利要求1至3任一项所述的控制方法，其特征在于，所述最小覆盖模板集至少包括所述最小覆盖模板以及每个最小覆盖模板的频数。

5.根据权利要求3所述的控制方法，其特征在于，所述步骤ii之后还包括如下步骤：

iii.将所述最小覆盖模板集中的最小覆盖模板按频数从大到小排序；

iv.提取最小覆盖模板集中频数总和与最小覆盖模板集中所有最小覆盖模板频数总和为第一比例排序最前的最小覆盖模板及其频数的集合作为所述标准模板库。

6.根据权利要求1至5任一项所述的控制方法，其特征在于，所述待验证元组以及所述种子元组至少包括：实体一，实体二以及关系关键词。

7.根据权利要求3所述的控制方法，其特征在于，所述步骤ii包括如下步骤：

ii1.将所述种子元组中的实体词对及其关系关键词作为关键词输入搜索引擎；

ii2.获取种子元组中的实体词对及其关系关键词的共现句；

ii3.从所述共现句中提取最小覆盖模板并记录每个最小覆盖模板的频数并计算其权重；以及

ii4.生成所述最小覆盖模板集。

8.根据权利要求7所述的控制方法，其特征在于，所述步骤ii3还包括如下步骤：

ii31.获取所述实体词对及其关系关键词在所述共现句中的边界；

ii32.提取所述边界内的短句；以及

ii32.将所述实体词对替换为第一特征字符，将所述关系关键词替换为第二特征字符生成所述最小覆盖模板。

9.根据权利要求1至8任一项所述的控制方法，其特征在于，所述待验证元组的最小覆盖模板集生成方法与所述种子元组的最小覆盖模板集相同。

10.根据权利要求1所述的控制方法，其特征在于，所述步骤b包括如下步骤：

b1.根据所述待验证元组最小覆盖模板集以及所述标准模板库中各最小覆盖模板的相关频数和权重；以及

b2.根据所述频数和权重计算所述待验证元组的置信度。

11.根据权利要求10任一项所述的控制方法，其特征在于，所述待验证元组的置信度至少根据如下因子计算：

-所述待验证元组最小覆盖模板集中每个最小覆盖模板的频数；

-所述标准模板库中每个最小覆盖模板的频数；以及

-所述标准模板库中每个最小覆盖模板的权重。

12.根据权利要求11所述的控制方法，其特征在于，所述标准模板库中每个最小覆盖模板的权重至少根据如下因子计算：

-所述标准模板库中每个最小覆盖模板的频数；以及

-所述标准模板库中每个最小覆盖模板的频数总和。

13.根据权利要求1所述的控制方法，其特征在于，所述步骤c包括如下步骤：

c1.判断所述置信度是否大于第一阈值；

c2.若所述置信度大于所述第一阈值，则确定所述待验证元组为可信元组；以及

c3.若所述置信度不大于所述第一阈值，则确定所述待验证元组为不可信元组。

14.根据权利要求2所述的控制方法，其特征在于，所述步骤d包括如下步骤：

d1.根据确定为可信元组待验证元组的最小覆盖模板集合更新所述标准模板库中最小覆盖模板的频数；以及

d2.根据所述最小覆盖模板更新的频数更新所述最小覆盖模板的权重。

15.根据权利要求14所述的控制方法，其特征在于，所述步骤d2之后还包括如下步骤：

d3.将频数更新后标准模板库中的最小覆盖模板按频数从大到小排序；以及

d4.提取更新后标准模板库中频数总和与更新后标准模板库中所有最小覆盖模板频数总和为第一比例排序最前的最小覆盖模板及其频数的集合作为进一步更新后的标准模板库。

16.根据权利要求14所述的控制方法，其特征在于，所述步骤d1还包括如下步骤：

d11.按照第二比例结合所述标准模板库中的最小覆盖模板的频数以及根据待验证元组生成的最小覆盖模板的频数作为该最小覆盖模板更新的频数。