CN106156340A

CN106156340A - 一种命名实体链接方法

Info

Publication number: CN106156340A
Application number: CN201610547386.7A
Authority: CN
Inventors: 李韩; 李一韩
Original assignee: Inspur Beijing Electronic Information Industry Co Ltd
Current assignee: Inspur Beijing Electronic Information Industry Co Ltd
Priority date: 2016-07-12
Filing date: 2016-07-12
Publication date: 2016-11-23

Abstract

本发明公开了一种命名实体链接方法，该方法包括：对命名实体进行词法分析，生成命名实体的候选文档列表；所述命名实体包含一个查询词及一个描述所述查询词的描述文档；采用基于主题模型的语义分析方法并结合机器学习分类算法，对所述候选文档列表中的所有候选文档进行消歧，得到最贴切描述所述查询词的一个候选文档。该方法实现提高链接准确性。

Description

一种命名实体链接方法

技术领域

本发明涉及计算机技术领域，特别是涉及一种命名实体链接方法。

背景技术

命名实体链接(Named Entity Linking,NEL)任务是把给定的命名实体链接到知识库中一个无歧义文档的过程。知识库中通常包括成千上万个文档。一个命名实体通常包括一个查询词及一小段描述查询词的句子。命名实体链接任务本质上是将给定的一个查询词映射到知识库中与之相关联能够详细描述查询词的一个文档。知识库中通常会存在许多个与查询词可能存在相关的文档，因而需要通过一定的技术将最相关文档找出来，去除其它存在歧义的文档。命名实体链接技术可以提升在线推荐系统、互联网搜索引擎等实际应用的信息过滤能力。然而，知识库中实体数量的激增给文档消歧等带来了巨大挑战，使得当前的命名实体链接越来越难以满足人们对链接准确率的要求，链接准确率较低。

发明内容

本发明的目的是提供一种命名实体链接方法，以实现提高链接准确性。

为解决上述技术问题，本发明提供一种命名实体链接方法，该方法包括：

对命名实体进行词法分析，生成命名实体的候选文档列表；所述命名实体包含一个查询词及一个描述所述查询词的描述文档；

采用基于主题模型的语义分析方法并结合机器学习分类算法，对所述候选文档列表中的所有候选文档进行消歧，得到最贴切描述所述查询词的一个候选文档。

优选的，所述对命名实体进行词法分析，生成命名实体的候选文档列表，包括：

建立词法关联规则，采用所述词法关联规则对命名实体进行词法分析，生成与所述命名实体的查询词相关的候选文档列表。

优选的，所述采用基于主题模型的语义分析方法并结合机器学习分类算法，对所述候选文档列表中的所有候选文档进行消歧，得到最贴切描述所述查询词的一个候选文档，包括：

采用主题模型对所述候选文档列表中每一个候选文档分别进行语义分析，得到每个候选文档的关联评分；

从所有的候选文档中选择出关联评分最低的候选文档；

采用机器学习中的分类算法判断所述关联评分最低的候选文档与所述查询词之间是否存在链接关系，若是，则确定所述关联评分最低的候选文档为最贴切描述所述查询词的一个候选文档。

优选的，所述采用主题模型对所述候选文档列表中每一个候选文档进行语义分析，得到每个候选文档的关联评分，包括：

将所述描述文档和所述候选文档列表中每一个候选文档分别进行语义分析，提取每一个候选文档的关键词；

采用主题模型对每一个关键词分别进行相似度估量，得出每一个关键词的相似度评分；

对于每一个候选文档，依据候选文档的关键词的相似度评分得到候选文档的关联评分；其中，关键词的相似度评分越高，候选文档的关联评分越低。

优选的，所述采用机器学习中的分类算法判断所述关联评分最低的候选文档与所述查询词之间是否存在链接关系，包括：

对相似度评分最高的候选文档进行特征提取，采用机器学习中的分类算法对提取的特征进行分析，判断相似度评分最高的候选文档是否与所述查询词存在链接关系。

优选的，所述将所述描述文档和所述候选文档列表中每一个候选文档分别进行语义分析，提取每一个候选文档的关键词，包括：

对于所述候选文档列表中每一个候选文档，通过主题模型工具LDA对候选文档和所述描述文档进行语义分析，得到主题概率分布，将概率值较大的前五个词作为候选文档的关键词。

优选的，所述词法关联规则包括归一化处理规则，描文本匹配规则，首字母匹配规则、名称匹配规则和编辑距离分析规则。

本发明所提供的一种命名实体链接方法，对命名实体进行词法分析，生成命名实体的候选文档列表；所述命名实体包含一个查询词及一个描述所述查询词的描述文档；采用基于主题模型的语义分析方法并结合机器学习分类算法，对所述候选文档列表中的所有候选文档进行消歧，得到最贴切描述所述查询词的一个候选文档。可见，首先通过词法分析生成命名实体的候选文档列表，接着采用基于主题模型的语义分析方法结合机器学习分类算法对候选文档进行消歧，从而得到能够最贴切描述查询词的一个文档，由于考虑到文档中每个段落通常拥有一些能够代表语义主题的关键词和实体，而描述同一主题的段落在关键词上往往表现出相似性，因而该方法从语义层面结合了主题模型和分类预测来进行命名实体链接，提高了链接准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明所提供的一种命名实体链接方法的流程图；

图2为命令实体链接的简要流程图。

具体实施方式

本发明的核心是提供一种命名实体链接方法，以实现提高链接准确性。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明所提供的一种命名实体链接方法的流程图，该方法包括：

S11：对命名实体进行词法分析，生成命名实体的候选文档列表；

其中，命名实体包含一个查询词及一个描述查询词的描述文档；

S12：采用基于主题模型的语义分析方法并结合机器学习分类算法，对候选文档列表中的所有候选文档进行消歧，得到最贴切描述查询词的一个候选文档。

可见，首先通过词法分析生成命名实体的候选文档列表，接着采用基于主题模型的语义分析方法结合机器学习分类算法对候选文档进行消歧，从而得到能够最贴切描述查询词的一个文档，由于考虑到文档中每个段落通常拥有一些能够代表语义主题的关键词和实体，而描述同一主题的段落在关键词上往往表现出相似性，因而该方法从语义层面结合了主题模型和分类预测来进行命名实体链接，提高了链接准确性。

图2为命令实体链接的简要流程图。本发明的方法简要包括：候选文档生成；候选文档评分；预测链接关系。

其中，候选文档生成的过程为：根据分析文档实体的词法特性，采用一定规则筛选出可能与查询词存在关联的候选文档。

候选文档评分的过程为：分别对描述文档及候选文档进行语义分析，提取关键词，并采用模型进行相似度估量，得出评分。

预测链接关系的过程为：对评分最高的候选文档进行特征提取，采用分类算法预测该候选文档是否与查询存在链接关系。

基于上述方法，进一步的，步骤S11的过程具体为：建立词法关联规则，采用词法关联规则对命名实体进行词法分析，生成与命名实体的查询词相关的候选文档列表。

词法关联规则包括归一化处理规则，描文本匹配规则，首字母匹配规则、名称匹配规则和编辑距离分析规则。

具体的，采用如下词法关联规则生成候选文档：

(1)对文档名称进行归一化处理，包括将所有字母转化为小写，去除下划线和多余的空格。如果归一化后的文档名称与查询词完全匹配，则将该文档实体加入候选文档列表；

(2)分析所有文档中的锚文本，如果锚文本与查询词完全匹配，则将锚文本指向的文档加入候选文档列表；

(3)如果文档名称的首字母缩写词与查询词完全匹配，则将该文档加入候选文档列表；

(4)如果文档名称是查询词的一个子串，则将该文档加入候选文档列表；

(5)如果文档名称与查询词的编辑距离小于查询词大小的十分之一，则将该文档加入候选文档列表。

通过上述词法关联规则可生成与查询词可能存在关联的文档列表。

进一步的，步骤S12优选采用以下步骤实现：

S21：采用主题模型对候选文档列表中每一个候选文档分别进行语义分析，得到每个候选文档的关联评分；

S22：从所有的候选文档中选择出关联评分最低的候选文档；

S23：采用机器学习中的分类算法判断关联评分最低的候选文档与查询词之间是否存在链接关系，若是，则确定关联评分最低的候选文档为最贴切描述查询词的一个候选文档。

进一步的，步骤S13的过程具体为：对于候选文档列表中每一个候选文档，通过主题模型工具LDA对候选文档和描述文档进行语义分析，得到主题概率分布，将概率值较大的前五个词作为候选文档的关键词。

具体的，通过主题模型工具LDA对候选文档及查询词关联的文档即描述文档进行语义分析，求出主题概率分布，把概率值较大的前5个词作为相应文档的关键词。这里假设A是查询词对应的文档，B是一个候选文档，则采用如下公式计算A与B的相似度：

S i m (A, B) = \frac{l o g (\max (| A |, | B |)) - l o g (| A \cap B |)}{l o g (| W |) - l o g (\min (| A |, | B |))}

其中，|A|和|B|表示文档的关键词个数，|A∩B|表示文档A和B中关键词相同的个数，|W|表示所有的候选文档个数。Sim越小，两个文档越相似。

采用上述方法，对一个查询词Q及其对应的候选文档列表L＝{d1,d2,…,dm}，计算得出查询词与候选文档之间的相似度，得到S＝{Sim1,Sim2,…,Simm}，同时将相似度最大即Sim最小的候选文档选出，记为T。

进一步的，步骤S21优选采用以下步骤实现：

S31：将描述文档和候选文档列表中每一个候选文档分别进行语义分析，提取每一个候选文档的关键词；

S32：采用主题模型对每一个关键词分别进行相似度估量，得出每一个关键词的相似度评分；

S33：对于每一个候选文档，依据候选文档的关键词的相似度评分得到候选文档的关联评分；

其中，关键词的相似度评分越高，候选文档的关联评分越低。

具体的，候选文档评分过程是分别对描述文档及候选文档进行语义分析，提取关键词，并采用模型进行相似度估量，得出评分，描述文档也称为查询文档。

进一步的，步骤S23中采用机器学习中的分类算法判断关联评分最低的候选文档与查询词之间是否存在链接关系的过程具体为：对相似度评分最高的候选文档进行特征提取，采用机器学习中的分类算法对提取的特征进行分析，判断相似度评分最高的候选文档是否与查询词存在链接关系。

具体的，对评分最高的候选文档进行特征提取，采用分类算法预测该候选文档是否与查询存在链接关系。

其中，对候选文档进行特征提取，提取如下特征：

(1)采用向量空间模型衡量候选文档与查询词关联文档的相似度值；

(2)所有文档实体中的锚文本链接到候选文档的百分比；

(3)链接到候选文档的锚文本在其它文档中是否链接到不同的文档中；

(4)文档名称是否与查询词完全匹配；

(5)文档名称是否通过编辑距离与查询词部分匹配；

(6)文档名称是否是查询词的子串；

(7)候选文档实体的类别。根据类别的种类，采用数值编码；

(8)候选文档中的关键词个数；

提取完上述特征之后，采用机器学习分类算法对候选文档T是否是查询词Q的链接进行预测，具体过程如下：

(1)针对已知链接关系的命名实体，提取对应文档的特征，形成正样本训练数据；同时对于与命名实体不存在链接关系的命名实体，提取对应文档的特征，形成负样本训练数据。由于负样本训练数据通常要远多余正样本数据，为保证训练数据的平衡，选取1：5左右的正负样本比例作为训练数据；

(2)将上述训练数据形成特征向量作为分类算法—logistic回归算法的输入，对该算法进行分类，从而得到分类模型L；

(3)将候选文档T的特征向量作为L的输入，得到P值，P值即表示T与Q存在链接关系的概率值；

(4)如果P大于设定的阈值(0.9)，则认为候选文档与查询词存在链接关系，否则查询词在当前知识库中不存在对应的链接文档。

本发明提出的是结合主题模型和分类预测的命名实体链接方法，首先通过词法分析生成命名实体的候选文档列表，命名实体包含一个查询词及一个描述查询词的描述文档，接着采用基于主题模型的语义分析方法结合机器学习分类算法对候选文档进行消歧，从而得到能够最贴切描述查询词的一个文档。具体地，首先建立词法关联规则，通过规则生成与查询词相关的候选文档列表，缩小后续分析处理的规模。接着，采用主题模型分别对候选文档进行语义分析，进而得到每个候选文档的关联评分，最后，采用机器学习中的分类算法预测评分最低即相似度最大的候选文档与查询词之间是否存在链接关系，由于结合了主题模型和分类预测来进行命名实体链接，提高了链接准确性。

综上，本发明所提供的一种命名实体链接方法，对命名实体进行词法分析，生成命名实体的候选文档列表；命名实体包含一个查询词及一个描述查询词的描述文档；采用基于主题模型的语义分析方法并结合机器学习分类算法，对候选文档列表中的所有候选文档进行消歧，得到最贴切描述查询词的一个候选文档。可见，首先通过词法分析生成命名实体的候选文档列表，接着采用基于主题模型的语义分析方法结合机器学习分类算法对候选文档进行消歧，从而得到能够最贴切描述查询词的一个文档，由于考虑到文档中每个段落通常拥有一些能够代表语义主题的关键词和实体，而描述同一主题的段落在关键词上往往表现出相似性，因而该方法从语义层面结合了主题模型和分类预测来进行命名实体链接，提高了链接准确性。

以上对本发明所提供的一种命名实体链接方法进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种命名实体链接方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述对命名实体进行词法分析，生成命名实体的候选文档列表，包括：

3.如权利要求2所述的方法，其特征在于，所述采用基于主题模型的语义分析方法并结合机器学习分类算法，对所述候选文档列表中的所有候选文档进行消歧，得到最贴切描述所述查询词的一个候选文档，包括：

从所有的候选文档中选择出关联评分最低的候选文档；

4.如权利要求3所述的方法，其特征在于，所述采用主题模型对所述候选文档列表中每一个候选文档进行语义分析，得到每个候选文档的关联评分，包括：

5.如权利要求4所述的方法，其特征在于，所述采用机器学习中的分类算法判断所述关联评分最低的候选文档与所述查询词之间是否存在链接关系，包括：

6.如权利要求4所述的方法，其特征在于，所述将所述描述文档和所述候选文档列表中每一个候选文档分别进行语义分析，提取每一个候选文档的关键词，包括：

7.如权利要求2至6中任意一项所述的方法，其特征在于，所述词法关联规则包括归一化处理规则，描文本匹配规则，首字母匹配规则、名称匹配规则和编辑距离分析规则。