CN105045826A

CN105045826A - 一种基于图模型的实体链接算法

Info

Publication number: CN105045826A
Application number: CN201510366304.4A
Authority: CN
Inventors: 杨燕; 罗念; 贺樑
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2015-06-29
Filing date: 2015-06-29
Publication date: 2015-11-11

Abstract

本发明公开了一种基于图模型的实体链接算法，其特点是利用维基百科知识库形成候选实体，然后运用LDA对实体之间构造语义特征，以维基百科的链接结构对实体和实体之间构建关系形成图模型，并将相关语义特征特征融入图模型中，以PageRank算法对实体进行排名，得到实体链接的结果，具体包括命名词典、候选实体集、相关特征的计算和融合、图模型的构建和候选实体的排名步骤。本发明与现有技术相比具有实体特征融合好，实体链接的结果可靠性高，利用维基百科下载数据，不需要额外成本，尤其无需人工标注数据集，方法简便，使用方便，省时省力。

Description

一种基于图模型的实体链接算法

技术领域

本发明涉及信息库文本处理技术领域，尤其是一种基于图模型的实体链接算法。

背景技术

实体链接任务的研究对象是包含任务、机构和地方三种类型的实体名词，其研究目标是：给定一个包含目标实体以及支撑该查询词的背景文档的查询，将次目标实体与已有知识库中具有互相指代关系的实体进行正确连接，若知识库中不存在与查询实体相连接的实体节点称为非KB实体，对此类非KB实体进行聚类。将普遍性查询需求的实体加入到知识扩种，对知识库进行扩展和维护。因此，实体链接任务一方面可以准确的反馈用户的查询结果，另一方面还可以对已有知识库进行扩展，丰富知识库的信息。实体链接可以与信息抽取、知识检索、问答系统、文本挖掘等技术结合，具有极为广泛地应用场景。

目前，实体链接可以分为候选实体形成和候选实体排名两个模块，候选实体形成就是利用相关信息，给出待链接实体可能表示的实体列表，主要有分为基于命名词典的技术，基于局部文档的表面形式扩展。候选实体排名就是对从待链接实体中选择待链接实体真正的映射实体，主要分为监督学习的方法和无监督学习的方法。监督的排序方法的优点是：利用了训练语料中的特征信息，对其中的规律进行了挖掘和利用。不足之处在于，此种方法需要人工标注数据集，需要大量人力和时间，并且并未对文章中存在的一些描述目标实体的语义信息进行挖掘，而是将文章中出现的所有实体同等看待，忽略了目标实体的语义信息的作用。无监督学习的方法优点在于不需要标注数据，省去的大量的人力和时间，缺点在于特征不好融合。

发明内容

本发明的目的是针对现有技术的不足而设计的一种基于图模型的实体链接算法，采用LDA对维基百科知识库形成候选实体之间构造语义特征，同时利用利用维基百科的链接结构对实体和实体之间的构建关系形成图模型，然后将实体特征融入图模型中，利用改进的PageRank算法对实体进行排名，得到实体链接的结果，方法简便，无需人工标注数据集，省时省力，实体特征融合好。

本发明的目的是这样实现的：一种基于图模型的实体链接算法，其特点是利用维基百科知识库形成候选实体，然后运用LDA对实体之间构造语义特征，以维基百科的链接结构对实体和实体之间构建关系形成图模型，并将相关语义特征特征融入图模型中，以PageRank算法对实体进行排名，得到实体链接的结果，实体链接算法包括以下具体步骤：

(一)、命名词典

对维基百科下载的无规则数据利用JWPL工具转化为有规则的数据后导入维基百科离线数据库，得到实体页面、重定向页面、消歧页面和维基百科中超链接的特征，将不同类型的特征合并为不同名称的实体，并以哈希映射这些实体建立离线词典。

(二)、构造待链接实体的候选实体集

对不同名称的实体与文本中待链接实体进行匹配，将一些名称与待链接实体相似性高的实体被征入候选，生成待链接实体的候选实体集；所述匹配为实体名称全包含或部分包含待链接实体，且实体名称精确匹配了待链接实体中所有单词的首字母，实体名称和待链接实体共享若干共同的单词；所述相似性采用字符Dice系数和海明距离测量。

(三)、相关特征的计算

⑴、实体流行度

采用下述(a)公式计算实体流行度：

P o p (e_{i}) = \frac{{count}_{m} (e_{i})}{Σ_{e_{j} &Element; E_{m}} {count}_{m} (e_{j})} - - - (a)

其中：e_i为实体；m为待链接实体；count_m(e_i)为实体的链接数；

⑵、文本相似性

根据实体所在的上下文，利用LDA得到待链接实体和候选实体所在文本中词语关于主题的分布，以及每一文本的词语得到关于主题的概率分布，采用下述(b)和(c)公式计算Zero-KL距离，取Zero-KL距离的倒数为待链接实体和其候选实体所在的文本之间的文本相似性SimText(e_i)；

D_{K L} (P | | Q) = \underset{i}{Σ} P_{i} l o g \frac{P_{i}}{Q_{i}} - - - (b)

{ZKL}_{γ} (P, Q) = \underset{i}{Σ} P_{i} \{\begin{matrix} l o g \frac{P_{i}}{Q_{i}} & Q_{i} &NotEqual; 0 \\ γ & Q_{i} = 0 \end{matrix} - - - (c)

其中：γ为阈值。

(四)、图模型的构建

⑴、相关特征的融合

将实体流行度和文本相似性采用下述(d)杰卡德相似性公式计算实体之间主题一致性，进行两相关特征的融合；

{Coh}_{j} (u_{1}, u_{2}) = \frac{| U_{1} \cap U_{2} |}{| U_{1} \cup U_{2} |}; - - - (d)

⑵、图模型的形成

以维基百科的链接结构对实体和实体之间构建关系形成图模型，并将候选实体的流行度、文本相似性和实体之间主题一致性的语义特征融入图模型。

(五)、候选实体的排名

⑴、将实体流行度和文本相似性采用下述(e)式进行特征合并，得到节点的初始的权重；

Weight(e_i)＝λpop(e_i)+(1-λ)SimText(e_i)(e)

其中：λ为平衡实体流行度和文本相似性的参数；

(2)、采用下述(f)和(g)公式计算图模型中节点的权重；

P R (e_{i}) = \frac{(1 - d)}{N} + \frac{d}{F (e_{i})} \underset{e_{j} &Element; c o h (e_{i})}{Σ} P R (e_{j}) \times W (e_{i}, e_{j}) - - - (f)

F (e_{i}) = \underset{e_{j} &Element; c o h (e_{i})}{Σ} W (e_{i}, e_{j}) - - - (g)

(3)、采用下述(h)和(i)公式对图模型中节点的权重与初始权重进行计算排名，得到两个得分排名最高的实体；

R_m(e_i,j)＝IConf(e_i,j)×PR(e_i,j)(h)

R_s(e_i,j)＝IConf(e_i,j)+PR(e_i,j)；(i)

⑷、将上述两个得分排名最高的实体采用下述(j)和(k)公式计算两实体之间的差异；

{\hat{e}}_{i}^{m} = \underset{e_{i, j}}{\arg m a x} R_{m} (e_{i, j}) - - - (j)

{\hat{e}}_{i}^{s} = \underset{e_{i, j}}{\arg m a x} R_{s} (e_{i, j}); - - - (k)

根据上述计算结果，挑选每个待链接实体的候选实体列表中得分最高的实体为实体链接的结果。

本发明与现有技术相比具有实体特征融合好，实体链接的结果可靠性高，利用维基百科下载数据，不需要额外成本，尤其无需人工标注数据集，方法简便，使用方便，省时省力。

附图说明

图1为本发明操作流程图。

具体实施方式

参阅附图1，本发明利用维基百科知识库形成候选实体，然后运用LDA对实体之间构造语义特征，以维基百科的链接结构对实体和实体之间构建关系形成图模型，并将相关语义特征特征融入图模型中，以PageRank算法对实体进行排名，得到实体链接的结果，实体链接算法包括以下具体步骤：

(一)、命名词典

维基百科提供一系列对于构建候选实体有用的特征结构，例如，实体页面、重定向页面、消歧页面、在维基百科中的超链接。这些实体链接系统利用不同的特征合并不同名称和它们的映射实体来建立离线词典D，同时利用构建的词典D生成实体候选，命名词典D包含了关于不同命名实体的名称大量信息，利用名称变化、名称缩写、名称混淆名、名称拼写变化以及小名等等。命名词典D是(key,value)哈希映射，在这里，键(key)为一系列名称列表，假设k是键中的一个名称，那么它映射的值k.value是一系列能表示该名称k的实体。词典D是利用维基百科的特征构建的，其实体页面特征为：维基百科中的每个实体页面描述单一的实体，并包含这个实体的相关信息。通常用每个页面标题代表该实体的名称，例如页面标题“Microsoft”为大型的软件公司，总部设在雷德蒙德。因此，实体页面的标题被添加到词典D中的键作为名称k，该页面被描述的实体被添加作为k.value。

所述重定向页面特征为：记录同义词术语、缩写或其它指向的实体的变体。例如，文章标题为"MicrosoftCorporation"，这是“Microsoft”的全名，它包含一个对实体“Microsoft”这篇文章的指向。因此，重定向的标题页被添加到词典D中的键列中作为名称k，同时指向实体被添加作为k.value。

所述消歧页面特征为：当同一个名称在维基百科中有多个对应的实体时，维基百科提供消歧页面来区分这些实体，该消歧页面包含了表示这些实体的一个列表。例如，消歧页面“NewYork”包含了44个和“NewYork”有相同名称的实体，其中包括国际大都市纽约市和纽约时报等。消歧页面对提取实体缩写和别名非常有帮助，对于每个消歧页面，页面标题被添加到词典D中的键作为名称k，而消歧页面中的实体列表被添加作为k.value。

所述维基百科中超链接特征为：在维基百科中的文章通常包括链接到这篇文章中提到的实体的页面，一个指向实体页面链接的锚文本提供了非常有用的同义词资源，以及其它指向实体的变体，这些变体能够被当作链接实体的一个名称。例如，在“Hewlett-Packard”这个实体页面中，有一个超链接指向实体“WilliamReddingtonHewlett”，它的锚文本为“BillHewlett”，这是一个实体“WilliamReddingtonHewlett”的别名，一个超链接的锚文本被添加到词典D中的键作为名称k，指向的实体被添加作为k.value。

利用上述的维基百科特征，具体来说，首先下载离线的维基百科数据，然后利用JWPL工具，将无规则的数据转化为有规则的速度，然后导入到数据库中，然后可以从数据库中得到以上四种类型的特征(实体页面，重定向页面，消歧页面，维基百科中的超链接)，利用以上的维基百科特征，构建了词典D。

(二)、构造待链接实体的候选实体集

基于词典构建的这种方法，对于待链接实体m∈M，生成候选实体系列E_m的一种方法是利用键中的名称k和待链接实体之间进行准确匹配，如果其中一些名称k和待链接实体m相同，实体k.value被增加到候选集E_m，其具体匹配步骤如下：

⑴、实体名称全包含或者部分包含待链接实体；

⑵、实体名称精确匹配了待链接实体中所有单词的首字母；

⑶、实体名称和待链接实体共享若干共同的单词；

⑷、实体名称和待链接实体相似性很高，许多相似性测量的方法已经被采用，例如，字符Dice系数、海明距离等；

通过以上步骤对待链接实体形成候选实体。

(三)、相关特征的计算

⑴、实体流行度

该特征刻画待链接实体的每个候选实体的出现的先验概率，每个待链接实体m对应的候选实体e_i∈E_m有不同的流行度，同时一些实体对于待链接实体m是很少被提及的，关于这个待链接实体“NewYork”，这个候选实体“NewYork(film)”相比于“NewYorkCity”是更少被提及的，在大多数情况下，人们提到“NewYork”，他们认为是“NewYorkCity”而不是“NewYork(film)”，实体流行度采用下述(a)公式计算：

P o p (e_{i}) = \frac{{count}_{m} (e_{i})}{Σ_{e_{j} &Element; E_{m}} {count}_{m} (e_{j})} - - - (a)

其中：count_m(e_i)表示指向实体e_i的链接数，同时有这个提及形式m作为锚文本，得到候选实体的初始权重为Pop(e_i)。

⑵、文本相似性

根据实体所在的上下文，利用LDA得到待链接实体和候选实体所在文本中词语关于主题的分布，以及每一文本的词语得到关于主题的概率分布，采用下述(b)和(c)公式计算Zero-KL距离，取Zero-KL距离的倒数为待链接实体和其候选实体所在的文本之间的文本相似性；

D_{K L} (P | | Q) = \underset{i}{Σ} P_{i} l o g \frac{P_{i}}{Q_{i}} - - - (b)

{ZKL}_{γ} (P, Q) = \underset{i}{Σ} P_{i} \{\begin{matrix} l o g \frac{P_{i}}{Q_{i}} & Q_{i} &NotEqual; 0 \\ γ & Q_{i} = 0 \end{matrix} - - - (c)

其中：γ为一个阈值，一般取20，即待链接实体和其候选实体所在的文本之间的文本相似性为Zero-KL距离的倒数，得到候选实体初始权重SimText(e_i)。

(四)、图模型的构建

⑴、相关特征的融合

根据上述实体流行度和文本相似性采用下述(d)杰卡德相似性公式计算实体之间主题一致性，进行两相关特征的融合；

{Coh}_{j} (u_{1}, u_{2}) = \frac{| U_{1} \cap U_{2} |}{| U_{1} \cup U_{2} |} - - - (d)

⑵、图模型的形成

(五)、候选实体的排名

假设一篇文档有许多待链接实体M＝{m₁,m₂,m₃,......,m_k}，对于每个待链接实体m_i∈M，对每个候选实体进行排名，每个待链接实体m_i的候选实体集为：E_i＝{e_i,1,e_i,2,......,e_i,j}。

所述图模型中每个节点系列表示为：节点是待链接实体和其候选实体对形成的，节点的初始权重为其候选实体的流行度和待链接实体与候选实体之间相似性线性组合而成。节点和节点之间的边的权重为实体之间主题一致性，主要采用杰卡德相似性计算实体之间主题一致性。

所述图模型中不同候选实体之间的链接权重表示实体之间的关系，这些关系被用于有效增强相应的候选实体。一般来说，这些链接之间的权重被设置为1，图模型中所有的节点通过Page-Rank按照这些链接关系进行排名，其具体计算如下：

(1)、将实体流行度和文本相似性采用下述(e)式进行特征合并，得到节点的初始的权重；

Weight(e_i)＝λpop(e_i)+(1-λ)SimText(e_i)(e)

其中：λ为平衡实体流行度和文本相似性的参数，通过训练数据的经验，一般取λ＝0.8。

(2)、采用下述(f)和(g)公式计算图模型中节点的权重；

P R (e_{i}) = \frac{(1 - d)}{N} + \frac{d}{F (e_{i})} \underset{e_{j} &Element; c o h (e_{i})}{Σ} P R (e_{j}) \times W (e_{i}, e_{j}) - - - (f)

F (e_{i}) = \underset{e_{j} &Element; c o h (e_{i})}{Σ} W (e_{i}, e_{j}) - - - (g)

其中：N表示图中节点的数目；Coh(e_i)表示节点e_i的初始权重；W(e_i,e_j)表示节点e_i和节点e_j之间的边的权重。

R_m(e_i,j)＝IConf(e_i,j)×PR(e_i,j)(h)

R_s(e_i,j)＝IConf(e_i,j)+PR(e_i,j)(i)

标准的PR算法假设节点的初始排名是均匀相等的，传统的Page-Rank最终节点排名仅仅基于链接节点的重要性，初始节点的权重没有那么重要，本发明使用初始的实体流行度和文本相似性加权作为候选实体节点的权重，进行PageRank之后节点的权重和初始权重合并，具体合并如下进行：

数据：E_i为待链接实体m_i的候选项列表；

结果：待链接实体的真正映射实体：

R 1 = {(R_{m} (e_{i, j}), e_{i, j}) | &ForAll; e_{i, j} &Element; E_{i}};

R 2 = {(R_{s} (e_{i, j}), e_{i, j}) | &ForAll; e_{i, j} &Element; E_{i}};

对R1进行降序排列；

对R2进行降序排列；

R1diff＝R1[0]-R1[1]；

R2diff＝R2[0]-R2[1]；

如果：R1diff>R2diff，然后

返回R1中得分排名最高的实体：(R1[0])

否则

返回R2中得分排名最高的实体：(R2[0])

结束

⑷、将上述两个得分排名最高的实体采用下述(j)和(k)公式计算彼此之间的差异；

{\hat{e}}_{i}^{m} = \underset{e_{i, j}}{\arg m a x} R_{m} (e_{i, j}) - - - (j)

{\hat{e}}_{i}^{s} = \underset{e_{i, j}}{\arg m a x} R_{s} (e_{i, j}) - - - (k)

根据计算的两个实体之间的差异，挑选每个待链接实体的候选实体列表中得分最高的实体为实体链接的结果。本发明采用一种融合了两动态选择算法来选择真正的映射实体，得到的排名最高的两个实体之间的差异，实体特征融合好，实体链接的结果可靠性高。

以上只是对本发明作进一步的说明，并非用以限制本专利，凡为本发明等效实施，均应包含于本专利的权利要求范围之内。

Claims

1.一种基于图模型的实体链接算法，其特征在于利用维基百科知识库形成候选实体，然后运用LDA对实体之间构造语义特征，以维基百科的链接结构对实体和实体之间构建关系形成图模型，并将相关语义特征特征融入图模型中，以PageRank算法对实体进行排名，得到实体链接的结果，实体链接算法包括以下具体步骤：

(一)、命名词典

对维基百科下载的无规则数据利用JWPL工具转化为有规则的数据后导入维基百科离线数据库，得到实体页面、重定向页面、消歧页面和维基百科中超链接的特征，将不同类型的特征合并为不同名称的实体，并以哈希映射这些实体建立离线词典；

(二)、构造待链接实体的候选实体集

对不同名称的实体与文本中待链接实体进行匹配，将一些名称与待链接实体相似性高的实体被征入候选，生成待链接实体的候选实体集；所述匹配为实体名称全包含或部分包含待链接实体，且实体名称精确匹配了待链接实体中所有单词的首字母，实体名称和待链接实体共享若干共同的单词；所述相似性采用字符Dice系数和海明距离测量；

(三)、相关特征的计算

⑴、实体流行度

采用下述(a)公式计算实体流行度：

P o p (e_{i}) = \frac{{count}_{m} (e_{i})}{Σ_{e_{j} &Element; E_{m}} {count}_{m} (e_{j})} - - - (a)

⑵、文本相似性

D_{K L} (P | | Q) = \underset{i}{Σ} P_{i} l o g \frac{P_{i}}{Q_{i}} - - - (b)

{ZKL}_{γ} (P, Q) = \underset{i}{Σ} P_{i} \{\begin{matrix} l o g \frac{P}{Q_{i}} & Q_{i} &NotEqual; 0 \\ λ & Q_{i} = 0 \end{matrix} - - - (c)

其中：γ为阈值；

(四)、图模型的构建

⑴、相关特征的融合

{Coh}_{j} (u_{1}, u_{2}) = \frac{| U_{1} \cap U_{2} |}{| U_{1} \cup U_{2} |}; - - - (d)

⑵、图模型的形成

以维基百科的链接结构对实体和实体之间构建关系形成图模型，并将候选实体的流行度、文本相似性和实体之间主题一致性的语义特征融入图模型；

(五)、候选实体的排名

⑴、将实体流行度和文本相似性采用下述(e)式进行特征合并，得到节点的初始的权重：

Weight(e_i)＝λpop(e_i)+(1-λ)SimText(e_i)(e)

其中：λ为平衡实体流行度和文本相似性的参数；

(2)、采用下述(f)和(g)公式计算图模型中节点的权重；

P R (e_{i}) = \frac{(1 - d)}{N} + \frac{d}{F (e_{i})} \underset{e_{j} &Element; c o h (e_{i})}{Σ} P R (e_{j}) \times W (e_{i}, e_{j}) - - - (f)

F (e_{i}) = \underset{e_{j} &Element; c o h (e_{i})}{Σ} W (e_{i}, e_{j}); - - - (g)

R_m(e_i,j)＝IConf(e_i,j)×PR(e_i,j)(h)

R_s(e_i,j)＝IConf(e_i,j)+PR(e_i,j)(i)

{\hat{e}}_{i}^{m} = \underset{e_{i, j}}{\arg \max} R_{m} (e_{i, j}) - - - (j)

{\hat{e}}_{i}^{s} = \underset{e_{i, j}}{\arg \max} R_{s} (e_{i, j}); - - - (k)