CN105205075A

CN105205075A - 基于协同自扩展的命名实体集合扩展方法及查询推荐方法

Info

Publication number: CN105205075A
Application number: CN201410293658.6A
Authority: CN
Inventors: 孙乐; 石贝
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2014-06-26
Filing date: 2014-06-26
Publication date: 2015-12-30
Anticipated expiration: 2034-06-26
Also published as: CN105205075B

Abstract

本发明公开了一种基于协同自扩展的命名实体集合扩展方法及查询推荐方法。本方法为:1)根据输入的种子集合，对每一种子生成一模板并对该模板的质量进行评估；2)利用选取的模板进行实例抽取，并建立每一所选模板的模板-实例关系；3)对于每一所选模板，根据所有所选模板的模板-实例关系计算被该模板抽取的实例是正实例的概率，然后根据概率值选取若干正实例和具有区分能力的负实例加入到该种子集合中；4)持续迭代上述步骤1)～3)，直至该种子集合中抽取的正实例的数目达到预设的阈值；其中得到的正实例集合作为扩展后的具有同一类别的命名实体集合，负实例为该命名实体集合的边界。本发明大大增强了种子的描述能力，提高了查询性能。

Description

基于协同自扩展的命名实体集合扩展方法及查询推荐方法

技术领域

本发明涉及一种命名实体集合扩展方法，特别是涉及一种基于协同自扩展的命名实体集合扩展方法及查询推荐方法，属于自然语言处理技术领域。

背景技术

随着Web2.0的高速发展，互联网上的信息越来越丰富，其中大部分内容是由海量用户依照个人习惯和兴趣发布的，比如私人博客、主题论坛、网络百科全书等。如何从这些海量信息中抽取出有效信息并进行组织和利用成为大数据时代的一个挑战。通过抽取固定类别下的命名实体列表，多源、异构的互联网信息得到了有效地抽取、组织和利用。命名实体集合扩展是实现上述目标的关键技术之一。

另一方面，命名实体是文本中承载信息的重要语言单位，抽取出的命名实体列表可以应用于知识库构建，查询推荐等。因此，抽取出文本中的命名实体对理解文本内容有重要意义。然而，现今的互联网信息具有多源、异构、海量等特点，这些特点对信息抽取技术提出了新的要求。在这种情况下，传统命名实体抽取仅仅依靠原有的基于规则和统计的抽取技术已经无法应对新的挑战。为此，如何利用命名实体集合扩展技术获取命名实体列表是自然语言处理技术实用化的重要因素之一。

综上，构建智能信息服务的核心之一是知识获取和自然语言理解，而能够识别实体并构建命名实体列表的命名实体集合扩展是提供自然语言理解基础知识的一项关键技术。

由于半监督学习只需要很少的训练语料就能获得较高的准确率，目前命名实体集合扩展的方法主要是采用基于自扩展的半监督学习方法。该方法主要有三个步骤：1)通过输入目标语义类别中的种子实体，抽取包围种子实体的模板。2)使用抽取的模板对整个文档集合进行实体抽取。3)对抽取出的候选实体进行筛选，将筛选出的实体输出，并加入种子实体集合。自扩展算法会持续对这三步进行迭代，直至输出实体的数目达到预定义的阈值。

但是通常的自扩展方法往往有下面两个问题：

1)初始种子描述能力不足。该问题是指仅仅使用正实例不能准确地定义被抽取的语义类别。比如针对已有的实体集合扩展系统，当用户输入种子{“北京”，“东京”，“伦敦”}时，系统并不知道目标实体的语义类别究竟是首都，还是普通城市，甚至是一般地点。因此，系统返回的结果可能会包含城市，也可能会包含其他任意的地点名称。这主要因为初始种子集合{“北京”，“东京”，“伦敦”}没有足够的描述能力来确定目标实体的语义类别。

2)语义漂移。该问题是指在使用自扩展算法进行迭代抽取的过程中，被抽取的目标实体的语义类别会发生语义漂移现象。这是因为在抽取过程中，被抽取出的候选实体会包含噪声。比如，在抽取ITCompany这个类别时，“Apple”被抽取出加入到种子实体集合中。然而由于歧义，关于水果的模板在后续步骤中也会被抽取出来，从而抽取出其他具有水果语义的实体和模板。随着迭代过程的进行，这将造成被抽取的类别由ITCompany向Fruit漂移，最终造成抽取性能大幅下降。

发明内容

针对命名实体集合扩展中存在的初始种子描述能力不足和语义漂移，本发明提供了一种基于协同自扩展的命名实体集合扩展方法，通过引入负实例来表示扩展边界，增强种子的描述能力，并自扩展的过程中自动产生能够持续扩展的正实例和负实例。本发明有效地维护了目标实体的语义边界，较好地解决了语义漂移问题。

本发明所采用的技术方案如下：

一种基于协同自扩展的命名实体集合扩展方法，其步骤包括：

1)根据输入的种子集合(一般包含3～4个种子)，对每一种子生成一个模板，并对每个模板的质量进行评估。本发明同时使用了正实例和负实例来生成和评估模板。为了衡量模板的质量，本发明定义了三个指标包括普适性，抽取准确率和未抽取准确率。通过评估所有模板的质量，在后续步骤中本发明利用这三个指标计算被该模板抽取出的实例是正实例的概率。

2)根据生成的全部模板进行命名实体协同抽取。当每个模板的质量被评估后，本发明使用这些生成的模板同时抽取正实例和负实例。同时，本发明提出了一种算法根据模板的质量和数量来预测被抽取实体的极性。实体的极性是指一个实体是正实例还是负实例。如果这个实体是正实例，那么实体的极性是正的，反之，这个实体的极性是负的。

3)种子评估和种子选择。最后，本发明计算被抽取的实例是正实例的概率。为了动态地修正和维护扩展边界，本发明选取排名较高的正实例和具有区分能力的负实例加入到所有模板对应的种子集合中，将从而进行下一轮迭代。同时，输出迭代产生的正实例。

上述三步将会持续迭代，直至所有模板抽取的正实例的总数目达到预设的阈值后，协同自扩展算法才会中止。当基于协同自扩展的命名实体集合扩展终止时，其正实例集合为我们所期望得到的命名实体集合。该集合中包含了和输入的种子实体属于相同语义类别的其他实体。

进一步地，步骤1)使用种子和待扩展语料中的句子进行字符串匹配，得到句子中匹配的上下文，从而得到候选模板。

进一步地，步骤1)使用普适性(Generality，缩写为GE)，抽取准确率(PrecisionofExtractedInstance，缩写为PE)和未抽取准确率(PrecisionofNotExtractedInstance，缩写为PNE)这三个度量标准来评估模板的质量。

为了定义这三个变量，给定一个模板后，本发明根据这个模板的抽取情况和实例的极性将所有模板已抽取出的实体集合分成四类。这四类主要包括：被抽取的正实例(缩写为ep)，被抽取的负实例(缩写为en)，没有被抽取的正实例(缩写为nep)和没有被抽取的负实例(缩写为nen)。

普适性(GE)。GE度量这个模板抽取了多少实体，可以被计算为：

GE = \frac{ep + en}{ep + en + nep + nen}

抽取准确率(PE)。PE度量了如果一个实体被这个模板抽取，那么实体将会有多大的可能是正实例，可以被计算为：

PE = \frac{ep}{ep + en}

未抽取准确率(PNE)。PNE度量了一个没有被该模板抽取的实体是正实例的可能性。可以被计算为：

PNE = \frac{nep / (ep + nep)}{nep / (ep + nep) + nen / (en + nen)}

进一步地，步骤2)中，一个实体是正实例的概率称为实体的正概率，标记为P+。P+计算过程如下：

给定所有的模板-实例关系(某个实体e是否被某个模板p所抽取)，实体e是正实例的似然可以被计算为：

在上式中，R⁺是所有抽取出实体e的模板所构成的集合，R^-是所有没有抽取出实体e的模板所构成的集合。I⁺是所有正实例构成的集合。

P(p→e,e∈I⁺)是事件“模板p抽取实体e且e是正实例”的概率。使用贝叶斯规则，该概率可以被计算为：

P(p→e,e∈I⁺)＝P(p→e)P(e∈I⁺|p→e)

P(p→e)是事件“模板p抽取实体e”的概率。该概率为GE(p)。P(e∈I⁺|p→e)是在条件“模板p抽取实体e”下，“e是正实例”的条件概率，该概率的值为PE(p)。P(p→e,e∈I⁺)可以计算成：

P(p→e,e∈I⁺)＝GE(p)PE(p)

是事件“模板p没有抽取实体e且e是正实例”的概率。它可以被计算成：

是模板p没有抽取出实体的概率，它的值为1-GE(p)。是在条件“模板p没有抽取出实体e”下，“e是正实例”的条件概率，该概率的值为PNE(p)。那么，最后可以计算为：

事件“一个实体是负实例”的似然可以计算为：

是指事件“模板p抽取e且e是负实例”的概率，该概率可以计算为：

P (p &RightArrow; e, e &NotElement; I^{+}) = GE (p) (1 - PE (p))

是指事件“p未抽取e且e是负实例”发生的概率，则该概率可以计算为：

最后，实体的正概率，P+，被计算为：

P + (e) = \frac{PosLikelihood (e)}{PosLikelihood (e) + NegLikelihood (e)}

进一步地，步骤3)中，如果一些实例计算出的P+值远高于设定阈值(一般取超出阈值0.3)，那么这些实例将会被选为正实例。对于具有区分能力的负实例的选择，本发明选取那些与目标实体的语义类别具有很强语义相关性的负实例。因此，P+靠近阈值的那些实例应被选为下一轮迭代中具有区分能力的负实例，如下式所示：

|P+(e)-threshold(P+)|<δ

其中δ一般取值为0.1。

本发明的基于协同自扩展的命名实体集合扩展方法，内容主要包括：引入负实例的自扩展方法；基于正实例和负实例的模板质量评估；基于模板质量的实体极性概率计算；选取正实例和具有区分能力的负实例。通过引入负实例，基于协同自扩展的命名实体集合扩展将正实例和负实例进行区分，将目标类别和与目标类别相似的类别区分开来，从而定义了扩展边界。因此，本发明增强了种子的描述能力。通过持续扩展的正实例和具有区分能力的负实例，该方法有效地维护和修正目标实体的语义边界，语义漂移被尽可能地削弱。

对于一组设定的命名实体，可以基于上述方法从指定数据源中提取语义相似的命名实体，建立一命名实体集合列表，可以直接应用于知识库构建。此外，接收用户输入的待查询语句时，可以提供与该待查询语句中的命名实体语义相似的一系列在该命名实体集合中的某一或多个命名实体生成查询建议返回给该用户；该用户选取一查询建议在指定数据源或互联网上进行查询，并返回查询结果。

与现有技术相比，本发明的有益效果是：

1)提出了引入负实例增强命名实体集合扩展中种子的描述能力；

2)提出了一种新的持续扩展正实例和具有区分能力的负实例的协同自扩展方法，减轻了语义漂移；增强了查询推荐能力，提高了查询的性能；

3)提出了一种被抽取实例的评分方法，用于选取正实例和具有区分能力的负实例。

附图说明

图1为本发明的基于协同自扩展的命名实体集合扩展方法的步骤流程图。

图2基于协同自扩展的命名实体集合扩展方法的示例图，其中图2中的初始正实例种子包括{“Rome”，“Beijing”，“Paris”},初始负实例种子包括{“Boston”，“Sydney”，“NewYork”}，扩展目标为文档集中所有属于首都类别的实体。

图3为计算被抽取实体极性的示意图。实体London被模板“attheembassyin*”抽取而未被模板“tocitiessuchas*”抽取。

具体实施方式

下面通过具体实施例和附图，对本发明做进一步说明。

本发明的基于协同自扩展的命名实体集合扩展方法，其主要流程如图1所示，首先通过本发明定义的三个指标(普适性，抽取准确率和未抽取准确率)，进行模板生成和模板质量评估；然后使用被评估质量后的模板，通过预测被抽取实体的极性，对命名实体协同抽取；然后通过计算后的实体极性，选取出正实例和具有区分能力的负实例，并将它们加入下一轮迭代的种子集合中；最后，对上述三步持续迭代，直至所有模板抽取的正实例数目达到预设的阈值。达到阈值后，本发明将此时抽取的正实例集合作为扩展后的命名实体集合。该集合可以将查询中的实体使用集合中的其他实体进行替换，生成查询建议直接返回给用户，也可以构建成某个领域的知识库。下面对各步骤进行具体的说明。

1.定义评估模板质量的三个指标，进行模板生成和模板质量评估。

对于第一步，我们将每个种子实体和待扩展语料中的句子进行字符串匹配，获得匹配的句子。然我们将被匹配的句子中的实体用通配符“*”来替换，获得种子实体在句子中的上下文(该上下文一般为种子实体的前后四个单词)，从而生成了模板。比如，给定种子实体“Beijing”和句子“BeijingisthecapitalofChina”，我们得到上下文模板“*isthecapitalof”。

我们定义了三个指标对模板质量进行评估。这三个指标包括普适性，抽取准确率和未抽取准确率。为了定义这三个变量，给定一个模板后，我们将所有实例分成四类。为了定义这三个变量，给定一个模板后，我们将所有实例分成四类。这四类主要包括：被抽取的正实例(缩写为ep)，被抽取的负实例(缩写为en)，没有被抽取的正实例(缩写为nep)和没有被抽取的负实例(缩写为nen)。这四类的划分标准主要是根据实例有没有被该模板抽取和该实例是否属于种子实体的语义类别。例如，根据图2示例，在给定“tocitiessuchas*”模板的情况下，实体集合被划分为：被抽取的正实例{“London”}，被抽取的负实例{“Shanghai”,“Milan”},未被抽取的正实例{“Tokyo”},未被抽取的负实例{“Chicago”,“Nokia”}。

评价模板质量的三个指标定义如下：

普适性(缩写为GE)。一个模板的普适性度量这个模板抽取了多少实体。一个更加通用的模板要比一个细化的模板覆盖更多的实体。比如，模板“*isthecityof”比模板“*isaChinesecity”更加通用。那么，普适性GE可以计算成：

GE = \frac{ep + en}{ep + en + nep + nen}

因此，GE就是在上一轮迭代中，被这个模板抽取的实体占所有实体的比例。

抽取准确率(缩写为PE)。PE度量了如果一个实体被这个模板抽取，那么实体将会有多大的可能是正实例。一个PE比较高的模板抽取出的实体比一个PE比较低的模板抽取出的实体更有可能是正实例。比如，模板“isthecapitalof*”比模板“isthecityof*”有更高的PE值，则PE可以计算成：

PE = \frac{ep}{ep + en}

未抽取准确率(缩写为PNE)。PNE度量了一个没有被该模板抽取的实体是正实例的可能性。PNE可以计算成：

PE = \frac{nep / (ep + nep)}{nep / (ep + nep) + nen / (en + nen)}

2.命名实体协同抽取

给定所有的模板-实例关系(某个实体是否被某个模板所抽取)，实体e是正实例的似然可以被计算为：

P(p→e,e∈I⁺)＝P(p→e)P(e∈I⁺|p→e)

P(p→e,e∈I⁺)＝GE(p)PE(p)

事件“一个实体是负实例”的似然可以计算为：

P (p &RightArrow; e, e &NotElement; I^{+}) = GE (p) (1 - PE (p))

最后，实体的正概率，P+，被计算为：

P + (e) = \frac{PosLikelihood (e)}{PosLikelihood (e) + NegLikelihood (e)}

在图3中，实体London被模板“attheembassyin*”抽取，同时没有被模板“tocitiessuchas*”抽取。在这种情况下，PosLikelihood(“London”)＝[GE(“attheembassyin*”)×PE(“attheembassyin*”)]×[(1-GE(“tocitiessuchas*”))×PNE(“tocitiessuchas*”)]。

在图3中，NegLikelihood(“London”)＝[GE(“attheembassyin*”)×(1-PE(“attheembassyin*”))]×[(1-GE(“tocitiessuchas*”))×(1-PNE(“tocitiessuchas*”))]。

3.种子选取

本发明使用了P+的阈值来决定实体的极性。该阈值通过人工调参获得(一般为0.6左右)。如果一些实例计算出的P+值远高于这个阈值，那么这些实例将会被选为正实例。比如，表1展示了在进行Capital类别命名实体集合扩展时实例计算的P+值。那么，表1中的“London”和“Tokyo”P+值远高于设定阈值，将被选为正实例。

具有区分能力的负实例往往是那些与目标实体的语义类别具有很强语义相关性的负实例。因此，本发明选取P+靠近阈值的那些实例应为下一轮迭代中具有区分能力的负实例。例如，在表1中，“Shanghai”，“Milan”和“Chicago”被选为具有区分能力的负实例而“Nokia”将被忽略掉。最后，目标语义类别Capital和City等类别之间的扩展边界被正实例和具有区分能力的负实例很清晰地定义出来，欲扩展的目标语义类别Capital得到更准确地描述。经过不断地迭代，我们得到了和正实例种子属于同一类别的命名实体集合，即由类别Capital的实体所构成的集合。

如图2所示，在仅仅输入正实例种子{“Rome”，“Beijing”，“Paris”}和负实例种子{“Boston”，“Sydney”，“NewYork”}后，将欲扩展的类别定义成Capital类别，从语料中抽取出了新的Capital实体{“Tokyo”,“London”}。这些新被抽取出的实体可以重新加入到正实例种子中，进行下一轮扩展。与普通的命名实体集合扩展方法不同的是，本方法将抽取出的实例{“Shanghai”,“Milan”}等选为负实例，从而提高了扩展的准确率，而普通的命名实体集合扩展方法将会{“Shanghai”,“Milan”}也作为类别Capital中的实例进行下一轮扩展。

表1：类别Capital扩展的实例的P+值

为验证本发明的实际效果，我们使用了GoogleWeb1T语料(http://www.ldc.upenn.edu/Catalog/catalogEntry.jsp？catalogId＝LDC2006T13)进行了测试。我们对多个类别进行命名实体集合扩展，并与多个现有的关系抽取基准系统进行了对比，实验结果如表2所示。从表中可以看出，基于协同自扩展的命名实体集合扩展相比仅基于正实例的方法和基于多类别扩展约束的方法都取得了一定的性能提升。

表2.系统与一些命名实体集合扩展基准系统的对比

基于本发明，我们可以抽取文本中我们感兴趣的可靠的命名实体集合列表，并将其转换为可供计算机处理和使用的结构化知识。这些命名实体列表可广泛应用在计算机智能信息服务和自然语言理解应用中，一些代表性的应用包括：

1)自动领域知识库构建

许多企业应用和互联网应用都需要构建领域知识库。例如，智能医疗服务需要构建包括包含药物、细菌、病原、疾病、症状、医院、医生等等实体概念类别的医学知识库。然而由于这样的医学知识库非常庞大，同时又在不断更新，人工构建难以满足要求。使用本发明，我们可以自动的从互联网、医学书籍、药典、病历中抽取命名实体集合列表，从而大大的解放人工，并保证知识库中知识的覆盖率的更新速度。

2)信息检索

互联网上包含了海量的知识，但是目前人们获取互联网上知识的主要方式还是文本的检索。文本检索通常还需要用户自己耗费大量时间去构造查询。基于本发明，我们通过构建实体列表并将其应用于信息检索系统中，从而为用户提供直接的查询建议。例如，本发明可以抽取互联网中汽车品牌相关的命名实体列表。当用户输入查询“购买大众汽车”时，检索系统可以将“大众”替换为汽车品牌实体集合中的其他实体，提供查询建议“购买福特汽车”。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求所述为准。

Claims

1.一种基于协同自扩展的命名实体集合扩展方法，其步骤为：

1)根据输入的种子集合，对每一种子生成一模板并对该模板的质量进行评估；

2)利用评估选取的模板进行实例抽取，并建立每一所选模板的模板-实例关系；

3)对于每一所选模板，根据所有所选模板的模板-实例关系计算被该模板抽取的实例是正实例的概率，然后根据概率值选取若干正实例和具有区分能力的负实例加入到该种子集合中；

4)持续迭代上述步骤1)～3)，直至该种子集合中抽取的正实例的数目达到预设的阈值；其中得到的正实例集合作为扩展后的具有同一类别的命名实体集合，负实例为该命名实体集合的边界。

2.如权利要求1所述的方法，其特征在于生成所述模板的方法为：对所述种子集合中的每个种子实体，将其与待扩展语料中的句子进行字符串匹配，获得匹配的句子；然后将被匹配的句子中的实体用通配符替换，获得该种子实体在该句子中的上下文，作为该种子的模板。

3.如权利要求1或2所述的方法，其特征在于对某一所述模板的质量进行评估的方法为：根据每个模板的抽取情况和实例的极性，将所有模板已抽取出的实体按照实体有没有被该模板被抽取和实体是否属于种子集合对应的语义类别划分为四类：ep为被抽取的正实例，en为被抽取的负实例，nep为没有被抽取的正实例，nen为没有被抽取的负实例；然后计算该模板普适性、抽取准确率和未抽取准确率，对该模板质量进行评估。

4.如权利要求3所述的方法，其特征在于所述普适性GE的计算方法为：

GE = \frac{ep + en}{ep + en + nep + nen},

所述抽取准确率PE的计算方法为：

PE = \frac{ep}{ep + en},

所述未抽取准确率PNE的计算方法为：

PNE = \frac{nep / (ep + nep)}{nep / (ep + nep) + nen / (en + nen)} .

5.如权利要求4所述的方法，其特征在于根据公式

P + (e) = \frac{PosLikelihood (e)}{PosLikelihood (e) + NegLikelihood (e)}

确定所抽取实例是否为正实例，如果P+(e)高于设定阈值threshold(P+)且差值大于设定值，则该实例为正实例；其中，P(p→e,e∈I⁺)为模板p抽取实体e且e是正实例的概率，是模板p没有抽取实体e且e是正实例的概率，是指模板p抽取实体e且e是负实例的概率，是模板p未抽取实体e且e是负实例的概率。

6.如权利要求5所述的方法，其特征在于根据公式|P+(e)-threshold(P+)|<δ选取出具有区分能力的负实例，其中，δ为一设定参考值。

7.一种查询推荐方法，其步骤为：

1)对于一设定的命名实体，采用权利要求1～6任一所述方法从指定数据源中提取命名实体，建立一命名实体集合列表；

2)接收用户输入的待查询语句时，将该待查询语句中的命名实体替换为该命名实体集合中的另一命名实体生成查询建议返回给该用户。