CN108959461B - 一种基于图模型的实体链接方法 - Google Patents

一种基于图模型的实体链接方法 Download PDF

Info

Publication number
CN108959461B
CN108959461B CN201810627959.6A CN201810627959A CN108959461B CN 108959461 B CN108959461 B CN 108959461B CN 201810627959 A CN201810627959 A CN 201810627959A CN 108959461 B CN108959461 B CN 108959461B
Authority
CN
China
Prior art keywords
entity
candidate
entities
name
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810627959.6A
Other languages
English (en)
Other versions
CN108959461A (zh
Inventor
邢昊天
漆桂林
高桓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201810627959.6A priority Critical patent/CN108959461B/zh
Publication of CN108959461A publication Critical patent/CN108959461A/zh
Application granted granted Critical
Publication of CN108959461B publication Critical patent/CN108959461B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于图模型的实体链接方法,主要用于处理非结构化文本的实体链接问题。本发明首先将同一文本中得到的所有实体指称项和相应的候选实体集合,构造出一张该文本的实体关联图,作为动态实体消歧算法的依据。然后利用基于图和PageRank的动态实体消歧算法,每轮挑选出最高得分的未消歧候选实体作为该实体指称的目标实体,逐步完成实体指称对应多个候选实体的消歧选择过程。最后使用机器学习领域中的XGBoost对实体指称的目标实体进行判断,将知识库中已登陆的目标实体正确链接,对知识库中未登录的目标实体正确识别。

Description

一种基于图模型的实体链接方法
技术领域
本发明属于实体链接领域,涉及一种基于图模型的实体链接方法。
背景技术
自语义网的概念提出,越来越多的开放链接数据和用户生成内容被发布到互联网中,互联网也逐步从仅包含网页与网页之间超链接的文档万维网转变为包含大量描述各种实体和实体之间丰富关系的数据万维网。而互联网网页,例如新闻、博客等内容中涉及大量实体,但大部分网页本身并没有关于这些实体的相关说明和背景介绍。为了帮助人们更好地了解网页内容,很多网站或作者会把网页中出现的实体同相应的知识库词条建立链接关系,为读者提供更详尽的背景材料,这也就是本发明所讨论的实体链接技术。通过该技术,一方面我们可以更好理解文本的意义,另一方面该技术影响着许多任务的性能,例如知识图谱的构建。人工建立实体的链接关系非常费力,因此如何能够让计算机自动实现实体链接,成为知识图谱得到大规模应用的重要技术前提。因此,无论是在知识图谱构建与应用还是在自然语言处理领域,也不论是在学术研究还是在工程实践,实体链接都起着非常重要的作用,具有极高的研究意义和实用价值。
歧义性和多样性是自然语言的固有属性,也是实体链接的根本难点。如何挖掘更多、更加有效的消歧证据,设计更高性能的消歧算法是实体链接所面临的最大挑战。近年来,有不少国内外研究人员对实体消歧以及实体链接进行了研究。主要有3种类型的消歧算法:基于概率生成模型的实体消歧算法,基于图的随机游走模型的联合消歧算法以及基于机器学习的消歧算法。而基于图的实体链接研究中,莱比锡大学的研究AGDISTIS以及苏黎世联邦理工学院的研究PBoH是最具代表性和较高学术影响力的方法。第一,两种方法均是基于图的方法,第二,两种方法均考虑了候选实体间的关联一致性,但采取的策略不同。
AGDISTIS是一个基于图的实体链接方法,该方法在候选实体生成阶段采用字符串标准化及扩展技术,前者操作包括移除单复数、属格形式等,后者借鉴共指消解的思想从而得到覆盖率更好的候选实体集合;在候选实体消歧阶段,首先利用知识库RDF文件和广度优先搜索算法得到与候选实体间存在关系的实体集合,从而将这些实体集合构建得到关联图;然后基于关联图,应用HITS算法计算每个候选实体的权威分值和中心分值,最后将具有高权威分值的候选实体作为目标实体。
PBoH是一个基于概率图的实体链接方法,该方法在候选实体生成阶段采用的是维基百科中锚文本的链接计数表,利用该计数表得到每个实体指称的所有候选实体集合及每个候选实体的概率分布。在候选实体消歧阶段,考虑三方面:第一是给定实体指称情况下,每个候选实体的概率分布大小,第二是实体指称所在上下文(限定窗口大小)与候选实体的相似度概率,第三是候选实体间的一致性,即通过统计得到实体对在同一篇文本中共现的概率,以上三方面概率作为消歧证据通过构建的因子图和马尔可夫网利用置信度传播算法进行近似推断。
虽然已经有大量实体链接的研究,也有很多对基于图的实体消歧方法的研究,但现有的方法普遍存在的问题是:没有充分发挥无歧义实体的作用,实体关联图中语义信息并未随着无歧义实体的增加而丰富。
发明内容
技术问题:本发明提供一种对于给定的非结构化文本以及知识库,不仅能够自动对文本中的命名实体在给定的知识库中进行实体链接,同时还能对知识库中未登录的实体进行自动检测的基于图模型的实体链接方法。
技术方案:本发明的基于图模型的实体链接方法,首先通过离线数据处理模块离线存储信息,为后续的候选实体生成以及候选实体消歧做准备;接着通过候选实体生成模块对实体指称集合中每个实体指称,通过查找知识库所构建的索引,得到对应的候选实体集合;然后利用动态实体消歧算法借助实体关联图实现输入文本中歧义实体的消歧,将其正确链接到知识库中的目标实体;最后利用机器学习领域的XGBoost模型对知识库未登录的实体进行检测。
本发明的基于图模型的实体链接方法,包括如下步骤:
1)离线数据处理,具体内容包括:一是对知识库中所有实体信息建立倒排索引,二是为知识库中每个实体进行向量化表示,具体为:
1a)建立倒排索引:将存储在知识库中的实体信息包含标题、目录、信息框键值对及摘要,为每个实体构建一个Document对象,每个Document对象中包含标题,目录,信息框、摘要等field域;
1b)实体向量化表示,具体步骤为:首先从RDF子图中得到同各个实体紧密相关的其他实体及其关系,将这些实体及关系转化为序列,然后基于得到的序列作为训练语料通过Word2Vec的Skip-Gram神经语言模型训练,得到各实体的语义向量表示;
2)候选实体生成,具体步骤为:首先对每个实体指称进行表层名字扩展,得到一个查询字符串列表,然后对列表中每个查询字符串从知识库索引中查找得到候选实体集合,最后将所有的候选实体集合进行合并;
3)候选实体消歧:借助实体关联图,采用动态实体消歧算法实现输入文本中歧义实体的消歧,将其正确链接到本地知识库中的目标实体上,具体内容包括三个方面:计算候选实体间语义相似度,构建实体关联图以及基于图和PageRank的动态实体消歧;
4)未登录实体检测:对步骤3)得到的实体消歧结果进行检测,将知识库未登录实体的实体指称对应的目标实体标记为新实体。
进一步的,本发明方法中,步骤2)的具体流程如下:
2a)实体指称表层名字扩展:对实体指称项集合M={m1,m2,...mn}中每个实体指称进行表层名字扩展,扩展后得到查询列表Q={q11,q12…q1t…qn1,qn2,...qns}。;
2b)候选实体集合生成:依次从查询列表中取出每个查询字符串qi,在本地知识库所构建的索引中进行查找,返回知识库中名字完全匹配的索引项,将满足条件的索引项对应的实体对象作为其候选实体集合Ni={ni1,ni2,...},其中nik表示查询字符串qi所对应的第k个候选实体对象,最后得到实体指称项集合M的候选实体对象集合N*={N1,N2,...Nn}。
进一步的,本发明方法中,步骤2a)中按照如下规则进行表层名字扩展:第一,将原实体指称表层名字加入到查询列表;第二,在该实体指称所在文档中查询,返回子串为该实体指称名字的最长新实体指称名字加入到查询列表;第三,若实体指称恰好在预准备的缩写辞典中,将缩写词对应的完整实体指称加入到查询列表;第四,若实体指称为象征性名词,返回在原文档中距离该象征性名词最近的命名实体加入到查询列表。
进一步的,本发明方法中,步骤3)中按照以下方式计算候选实体间语义相似度:计算两个候选实体语义向量间的余弦相似度,将其作为两个候选实体间的语义相似度;
构建实体关联图的具体内容包括顶点集合构建和边集合构建:将文本中识别得到的实体指称对应的候选实体集合作为顶点集合;在两个不同的实体指称的候选实体间建立有向边,从而得到边集合;
基于图和PageRank的动态实体消歧的具体方式为:通过PageRank算法对所有顶点的得分进行排序,挑选出最高得分的未消歧候选实体作为最佳候选实体,图中仅保留实体指称的最佳候选实体,删除其他已被淘汰的候选实体顶点,重复该动态实体消歧算法,直到所有的实体指称完成候选实体集合的消歧则算法结束。
进一步的,本发明方法中,步骤3)构建实体关联图的具体流程为:
3a)将候选实体作为实体关联图中的顶点名,将候选实体是目标实体的概率作为实体关联图中的顶点值;
3b)将起点候选实体到终点候选实体的转化概率作为有向边的边权,记为
Figure BDA00016974510200000415
进一步的,本发明方法中,步骤3a)中按照如下方式计算顶点值:
顶点值初始化:当实体指称对应的候选实体唯一时,候选实体对应的顶点值初始化为1,当实体指称对应n个候选实体时,n个候选实体对应的顶点值均初始化为1/n;
顶点值更新:判断所有的实体指称是否均完成候选实体集合的消歧,若是,则进入步骤4),否则,将未消歧候选实体对应的顶点值更新为PageRank值;
所述步骤3b)中根据下式计算起点候选实体到终点候选实体的转化概率:
Figure BDA0001697451020000041
Figure BDA0001697451020000042
其中
Figure BDA0001697451020000043
Figure BDA0001697451020000044
分别代表第i个实体指称的第a个候选实体和第j个实体指称的第b个候选实体,
Figure BDA0001697451020000045
代表候选实体
Figure BDA0001697451020000046
的语义向量,
Figure BDA0001697451020000047
代表候选实体
Figure BDA0001697451020000048
的语义向量,V代表关联图中所有的顶点集合,Vi代表关联图中实体指称i对应的候选实体的顶点集合,V\Vi代表关联图中除了实体指称i对应的候选实体的顶点外的所有顶点集合,
Figure BDA0001697451020000049
表示候选实体
Figure BDA00016974510200000410
和候选实体
Figure BDA00016974510200000411
间的语义相似度,
Figure BDA00016974510200000412
表示候选实体
Figure BDA00016974510200000413
到候选实体
Figure BDA00016974510200000414
的转化概率,即有向边的边权。
进一步的,本发明方法中,步骤4)的具体流程为:
4a)XGBoost分类器构建:用手工标记的数据对分类器进行训练,用训练后得到的分类器判定实体指称对应的目标实体是属于知识库已登录实体还是属于未登录实体;
4b)新实体标记:将步骤3)得到的实体消歧结果输入XGBoost分类器,对分类器判定为知识库未登录实体的实体指称对应的目标实体标记为新实体。
进一步的,本发明方法中,所述步骤4a)中按照如下流程构建XGBoost分类器:
首先获取手动标记数据,然后计算得到特征值,最后将特征值作为训练数据输入XGBoost模型学习得到XGBoost分类器。
进一步的,本发明方法中,特征值为以下特征的特征值:表层名字相似特征,表层名字重复特征,表层名字差异特征,候选实体上下文特征,实体指称上下文特征,上下文相似特征,上下文命名实体特征。
进一步的,本发明方法中,表层名字相似特征为实体指称同最佳候选实体间名字的编辑距离,所述表层名字重复特征为实体指称同最佳候选实体间名字中相同的单词数目,所述表层名字差异特征为实体指称同最佳候选实体间名字中不同的单词数目,所述候选实体上下文特征为最佳候选实体名是否在实体指称的上下文中出现,所述实体指称上下文特征为实体指称名是否在最佳候选实体对应百科摘要中出现,所述上下文相似特征为实体指称上下文同最佳候选实体摘要间的tf-idf相似度,所述上下文命名实体特征为实体指称上下文以及最佳候选实体摘要中命名实体相同的个数。
有益效果:本发明与现有技术相比,具有以下优点:
近年来,有不少国内外研究人员对实体消歧以及实体链接进行了研究。而基于图的实体链接研究中,与本发明最为接近的是莱比锡大学的AGDISTIS实体链接方法以及苏黎世联邦理工学院的PBoH实体链接方法。三种方法都考虑了候选实体间的关联一致性,但采取的策略不同:PBoH方法基于统计方法得到实体对在同一篇文本中共现的概率;AGDISTIS方法通过在知识库构建的图中利用广度优先搜索算法得到特定实体的关联实体集合,利用这些关联实体集合来构建关联图;而本发明方法则是从知识库构建的图中利用随机游走得到特定实体的关联实体及其关系,利用这些关联实体和关系的序列来代表该特定实体,然后利用embedding的方法得到这些实体的语义表示,通过余弦相似度来衡量两候选实体的一致性大小。此外,PBoH方法只考虑了两个实体间的直接关系,而忽略了实体间的间接关系,而实体间的直接关系数量上远远小于间接关系,所以在利用候选实体一致性消歧方面存在可以改进的地方。
本发明针对现有的方法存在的问题:没有充分发挥无歧义实体的作用,实体关联图中语义信息并未随着无歧义实体的增加而丰富进行改进,经过实验分析证明,利用本发明提出的基于图模型的实体链接方法能够从知识库中获得丰富的语义表征,并且通过构建的实体关联图能充分发挥无歧义实体的核心作用,大幅度提升实体链接的准确率。通过在不同的数据集上与AGDISTIS方法、PBoH方法的性能对比,本发明提出的方法在整体数据准确率方面具有最佳的性能水平。
附图说明
图1是本发明的基本过程的示意图;
图2是本发明实体消歧流程图;
图3是本发明未登录实体检测流程图;
图4是本发明实体关联图初始示例图;
图5是本发明第一轮更新后实体关联图示例图;
图6是本发明第二轮更新后实体关联图示例图;
图7是本发明实体消歧最终结果示例图。
具体实施方式
以下结合实施例和说明书附图,详细说明本发明的实施过程。
本发明的基于图模型的实体链接方法,包括以下步骤:
1)离线数据处理。分为两个部分:一是对知识库中所有实体信息建立倒排索引,二是为知识库中每个实体进行向量化表示。
1a)构建知识库实体索引。将存储在知识库中的实体信息包含标题(Title)、目录(Category)、信息框(Infobox)键值对及摘要(Abstract)等,相对应每个实体为一个Document对象,每个Document对象中包含标题,目录,信息框、摘要等field域。
1b)获得知识库实体语义向量表示。分为以下2个子步骤:首先从RDF子图中得到同各个实体紧密相关的其他实体及其关系,将这些实体及关系转化为序列,然后基于得到的序列作为训练语料通过Word2Vec的Skip-Gram神经语言模型训练,得到各实体的语义向量表示。
2)候选实体生成。分为以下2个子步骤:首先对每个实体指称进行表层名字扩展,然后对扩展后每个查询字符串从知识库索引中查找得到候选实体集合,并将所有的候选实体集合进行合并。
2a)实体指称表层名字扩展。对实体指称项集合M={m1,m2,...mn}中每个实体指称进行表层名字扩展,扩展后得到查询列表Q={q11,q12…q1t…qn1,qn2,...qns}。按照如下规则进行扩展:第一,将原实体指称表层名字加入到查询列表;第二,在该实体指称所在文档中查询,返回子串为该实体指称名字的最长新实体指称名字加入到查询列表;第三,若实体指称恰好在预准备的缩写辞典中,将缩写词对应的完整实体指称加入到查询列表;第四,若实体指称为象征性名词,返回在原文档中距离该象征性名词最近的命名实体加入到查询列表。
2b)候选实体集合生成。依次从查询列表中取出每个查询字符串qi,在本地知识库所构建的索引中进行查找,返回知识库中名字完全匹配的索引项,将满足条件的索引项对应的实体对象作为其候选实体集合Ni={ni1,ni2,...},其中nik表示查询字符串qi所对应的第k个候选实体对象。最后得到实体指称项集合M的候选实体对象集合N*={N1,N2,...Nn}。
3)候选实体消歧。动态实体消歧算法借助实体关联图,实现输入文本中歧义实体的消歧,将其正确链接到本地知识库中的目标实体上。核心思想是考虑每个待定实体对应的候选实体与其他待定实体对应的候选实体之间的语义一致性,充分发挥无歧义的候选实体的核心作用,对每轮执行PageRank算法后顶点的得分进行排序,每轮挑选出最高得分的未消歧候选实体作为目标实体,逐步完成实体指称对应多个候选实体的消歧选择过程,在图中只保留实体指称的最佳候选实体,删除其他已被淘汰的候选实体顶点。随着无歧义的候选实体规模变大,这些已消歧的候选实体又会贡献在下一轮PageRank算法的顶点得分当中,直到所有的待定实体完成候选实体集合的消歧。
实体消歧算法流程如图2所示。首先计算候选实体间语义相似度,从而得到实体关联图中每条边的权值,再利用PageRank算法得到每个顶点的得分。每轮选择最高得分的候选实体作为对应实体指称的最佳目标实体。然后更新实体关联图,具体操作为仅保留图中该实体指称的最佳候选实体,删除其他候选实体,与此同时更新关联图顶点及边权值信息,再利用PageRank算法重新得到每个顶点的得分,直到所有实体指称完成消歧则算法结束。
3a)计算候选实体间语义相似度。在所述步骤1b)的基础上,通过计算两个候选实体语义向量间的余弦相似度从而得到两者的语义相似度。
3b)构建实体关联图。下面从关联图顶点集合和边集合构建两个方面进行介绍。
本发明的实体关联图的顶点为从文本中识别得到的实体指称项对应的候选实体集合,在得到初步的候选实体集合后,按照实体指称项对应的候选实体个数为空、唯一、多个,可以将所有的顶点分为三大集合,S集合表示实体指称项在对应的知识库中只有唯一的候选实体,T集合表示实体指称项在知识库中没有对应的候选实体,剩余的顶点则划入U集合。实体关联图的顶点集合V定义为:S集合和U集合的并集。
为了在图中能够尽可能多的包含语义信息,在任意两个不同的实体指称的候选实体间建立有向边,边的权值代表起点候选实体到终点候选实体的转化概率,记为
Figure BDA0001697451020000081
采用步骤3a)中的候选实体间的语义相似度进行度量,具体公式如下:
Figure BDA0001697451020000082
Figure BDA0001697451020000083
其中
Figure BDA0001697451020000084
Figure BDA0001697451020000085
分别代表第i个实体指称的第a个候选实体以及第j个实体指称的第b个候选实体。
Figure BDA0001697451020000086
Figure BDA0001697451020000087
代表两个候选实体的语义向量,表示对两个候选实体间的语义向量通过计算余弦相似度,从而得到两个候选实体间的语义相似度即
Figure BDA0001697451020000088
V代表关联图中所有的顶点集合,Vi代表关联图中实体指称i对应的候选实体的顶点集合,V\Vi代表关联图中除了实体指称i对应的候选实体的顶点外的所有顶点集合,从而得到候选实体
Figure BDA00016974510200000810
到候选实体
Figure BDA00016974510200000811
的转化概率。
3c)基于图和PageRank的动态实体消歧算法。该实体消歧算法的核心思想是将每轮PageRank算法后顶点的得分进行排序,挑选出每轮最高得分的未消歧候选实体作为最佳候选实体,逐步完成待定实体对应多个候选实体的消歧选择过程,图中只保留待定实体的最佳候选实体,删除其他已被淘汰的候选实体顶点。随着无歧义的候选实体规模变大,这些已消歧的候选实体又会贡献在下一轮PageRank算法的顶点得分当中,直到所有的实体指称完成候选实体集合的消歧。
以输入的文本“NBA basketball-Friday′s results:Detroit 93Cleveland 81New York103Miami 85Phoenix 101 Sacramento 95.Miami is going through a slumpnow.”为例,为了表示的简洁和清晰,仅以{NBA,Detroit,NewYork,Miami}作为实体指称集。按照步骤2)得到候选实体集合如表1所示:
表1文本中实体指称及对应候选实体集示例
Figure BDA0001697451020000089
图4中顶点集合包含六个元素,其中S集合表示实体指称项在知识库中只有唯一的候选实体,图中包含两个元素:{National Basketball Association,Miami Heat},U集合包含四个元素:{Detroit,Detroit Pistons,New York City,New York Knicks}。
本发明构建的实体关联图是一个K部图,即图中的顶点可分为K个不相交子集,每个子集代表同一个实体指称的候选实体集合,同个子集内节点之间不存在关联边,任何一节点同非子集内节点间均在关联边,边的权值计算方法详见步骤1)。以图4为例,该实体关联图是一个四部图,每个实体指称的候选实体集合为一个子集。至此实体关联图已构建完成,下一节将介绍基于该实体关联图的动态实体消歧算法及实体关联图的更新。
已构建实体关联图的基础上,首先对各候选实体的顶点得分进行初始化,该得分代表该候选实体是实体指称的目标实体概率大小。Detroit、Detroit Pistons、New YorkCity和New York Knicks顶点值初始化为0.5,National Basketball Association和MiamiHeat顶点值初始化为1,然后进行第一轮基于该关联图的PageRank算法,收敛后图中各节点的得分排序如表2所示。
表2第一轮PageRank算法收敛后各节点得分示例
节点代表实体 节点得分
Detroit 0.44314869
Detroit Pistons 0.77259475
Nation Basketball Association 0.85422741
New York City 0.36443149
New York Knicks 0.78134111
Miami Heat 0.78425656
由于实体Nation Basketball Association和Miami Heat为无歧义实体,故从PageRank得分列表中选择最高得分的未消歧实体New York Knicks作为本轮的最佳候选实体,从而确定实体指称New York的候选实体为New York Knicks。同时更新实体关联图,删除实体节点NewYork City及与之相关的边,最后得到更新后的实体关联图,如图5所示。
在更新后的实体关联图的基础上,进行第二轮基于该关联图的PageRank算法,收敛后图中各节点的PageRank得分如表3所示,其中采用第一轮PageRank算法的得分作为第二轮PageRank算法每个实体节点的初始值。
表3第二轮PageRank算法收敛后各节点得分示例
Figure BDA0001697451020000091
Figure BDA0001697451020000101
由于实体Nation Basketball Association、New York Knicks和Miami Heat为无歧义实体,故从PageRank得分列表中选择最高得分的未消歧实体Detroit Pistons作为本轮的最佳候选实体,从而确定实体指称Detroit的候选实体为Detroit Pistons。同时更新实体关联图,删除实体节点Detroit及与之相关的边,最后得到更新后的实体关联图,如图6所示。
第二轮实体关联图跟新结束后,所有的实体指称均已消歧,即候选实体唯一确定,此时基于图和PageRank的动态实体消歧算法完成。如图7所示。从第一轮到第二轮各节点得分的变化可以发现,由于无歧义实体New York Knicks的增加,导致待消歧实体Detroit和Detroit Pistons之间的得分差距变大,其中与无歧义实体间关联紧密的候选实体DetroitPistons得分上升,与无歧义实体间关联松散的候选实体Detroit得分降低。从中可以体现本发明的实体关联图的构建与更新方法以及基于图和PageRank的动态实体消歧算法的优势,即充分考虑每个待定实体对应的候选实体与其他待定实体对应的候选实体之间的语义一致性,充分发挥无歧义的候选实体的核心作用。随着无歧义的候选实体规模变大,这些已消歧的候选实体会贡献在下一轮PageRank算法的顶点得分当中,直到所有的实体指称完成候选实体集合的消歧。
4)未登录实体检测。对于知识库已登陆实体,根据所述步骤1),2),3)可得到各自的实体链接结果。对于知识库未登录的实体可能存在错误链接。该步骤极大地影响实体链接系统性能,主要原因有以下两点:第一,若缺少该模块,则导致最终链接结果中应该被判定为未登录实体的实体指称也得到了其非空最佳的候选实体作为目标实体;第二,未登录实体检测能够帮助实体链接系统识别知识库中不存在的实体,故对于知识库的自动扩充具有一定的作用。具体步骤如下所示:
4a)根据表层名字扩展特征,表层名字重复特征,表层名字差异特征,候选实体上下文特征,实体指称上下文特征,上下文相似特征以及上下文命名实体特征,对最佳目标候选实体进行分类检测,从而判定最佳目标候选实体是否属于知识库未登录实体。将每个候选实体指称以及对应的最佳目标候选实体计算表层名字扩展特征值,表层名字重复特征值,表层名字差异特征值,候选实体上下文特征值,实体指称上下文特征值,上下文相似特征值以及上下文命名实体特征值作为XGBoost的输入,并调用已训练好的XGBoost分类器对最佳候选实体是否属于知识库未登录实体进行判断。
4b)在步骤4a)的基础上,若判定目标实体为知识库未登录实体,则标记为(实体指称,新实体),否则标记为(实体指称,目标实体)。
本发明方法的方案中,所述步骤4a)使用如下特征对最佳候选实体是否属于知识库未登录实体进行判断:
(1)表层名字相似特征。表示实体指称同最佳候选实体间名字的编辑距离,对于给定的实体指称m和最佳候选实体e,用strSimSurface(m,e)表示。
(2)表层名字重复特征。表示实体指称同最佳候选实体间名字中相同的单词数目,用EqualWordNumSurface(m,e)表示。
(3)表层名字差异特征。表示实体指称同最佳候选实体间名字中不同的单词数目,用MissWordNumSurface(m,e)表示。
(4)候选实体上下文特征。表示最佳候选实体名是否在实体指称的上下文中出现,用AllWordsInSource(m,e)表示。若最佳候选实体名e在实体指称m的上下文中出现,则AllWordsInSource(m,e)值为1,否则为0。
(5)实体指称上下文特征。表示实体指称名是否在最佳候选实体对应百科摘要中出现,用AllQueryWordsInWikiText(m,e)表示。若实体指称名m在最佳候选实体e对应百科摘要中出现,则AllQueryWordsInWikiText(m,e)值为1,否则为0。
(6)上下文相似特征。表示实体指称上下文同最佳候选实体摘要间的tf-idf相似度,用TF-IDFSimContext(m,e)表示。
(7)上下文命名实体特征。表示实体指称上下文以及最佳候选实体摘要中命名实体相同的个数,用NENumMatch(m,e)表示。

Claims (6)

1.一种基于图模型的实体链接方法,其特征在于,该方法包括以下步骤:
1)离线数据处理,具体内容包括:一是对知识库中所有实体信息建立倒排索引,二是为知识库中每个实体进行向量化表示,具体为:
1a)建立倒排索引:将存储在知识库中的实体信息包含标题、目录、信息框键值对及摘要,为每个实体构建一个Document对象,每个Document对象中包含标题,目录,信息框、摘要等field域;
1b)实体向量化表示,具体步骤为:首先从RDF子图中得到同各个实体紧密相关的其他实体及其关系,将这些实体及关系转化为序列,然后基于得到的序列作为训练语料通过Word2Vec的Skip-Gram神经语言模型训练,得到各实体的语义向量表示;
2)候选实体生成,具体步骤为:首先对每个实体指称进行表层名字扩展,得到一个查询字符串列表,然后对列表中每个查询字符串从知识库索引中查找得到候选实体集合,最后将所有的候选实体集合进行合并;
3)候选实体消歧:借助实体关联图,采用动态实体消歧算法实现输入文本中歧义实体的消歧,将其正确链接到本地知识库中的目标实体上,具体内容包括三个方面:计算候选实体间语义相似度,构建实体关联图以及基于图和PageRank的动态实体消歧;
所述候选实体间语义相似度按照以下方式计算:计算两个候选实体语义向量间的余弦相似度,将其作为两个候选实体间的语义相似度;
构建实体关联图的具体内容包括顶点集合构建和边集合构建:将文本中识别得到的实体指称对应的候选实体集合作为顶点集合;在两个不同的实体指称的候选实体间建立有向边,从而得到边集合;
基于图和PageRank的动态实体消歧的具体方式为:通过PageRank算法对所有顶点的得分进行排序,挑选出最高得分的未消歧候选实体作为最佳候选实体,图中仅保留实体指称的最佳候选实体,删除其他已被淘汰的候选实体顶点,重复该动态实体消歧算法,直到所有的实体指称完成候选实体集合的消歧则算法结束;
所述实体关联图的具体构建流程为:
3a)将候选实体作为实体关联图中的顶点名,将候选实体是目标实体的概率作为实体关联图中的顶点值;所述顶点值按照如下方式计算:
顶点值初始化:当实体指称对应的候选实体唯一时,候选实体对应的顶点值初始化为1,当实体指称对应n个候选实体时,n个候选实体对应的顶点值均初始化为1/n;
顶点值更新:判断所有的实体指称是否均完成候选实体集合的消歧,若是,则进入步骤4),否则,将未消歧候选实体对应的顶点值更新为PageRank值;
所述步骤3b)中根据下式计算起点候选实体到终点候选实体的转化概率:
Figure FDA0003105502950000021
Figure FDA0003105502950000022
其中
Figure FDA0003105502950000023
Figure FDA0003105502950000024
分别代表第i个实体指称的第a个候选实体和第j个实体指称的第b个候选实体,
Figure FDA0003105502950000025
代表候选实体
Figure FDA0003105502950000026
的语义向量,
Figure FDA0003105502950000027
代表候选实体
Figure FDA0003105502950000028
的语义向量,V代表关联图中所有的顶点集合,Vi代表关联图中实体指称i对应的候选实体的顶点集合,V\Vi代表关联图中除了实体指称i对应的候选实体的顶点外的所有顶点集合,
Figure FDA0003105502950000029
表示候选实体
Figure FDA00031055029500000210
和候选实体
Figure FDA00031055029500000211
间的语义相似度,
Figure FDA00031055029500000212
表示候选实体
Figure FDA00031055029500000213
到候选实体
Figure FDA00031055029500000214
的转化概率,即有向边的边权;
3b)将起点候选实体到终点候选实体的转化概率作为有向边的边权,记为
Figure FDA00031055029500000215
4)未登录实体检测:对步骤3)得到的实体消歧结果进行检测,将知识库未登录实体的实体指称对应的目标实体标记为新实体,具体流程为:
4a)XGBoost分类器构建:用手工标记的数据对分类器进行训练,用训练后得到的分类器判定实体指称对应的目标实体是属于知识库已登录实体还是属于未登录实体;
4b)新实体标记:将步骤3)得到的实体消歧结果输入XGBoost分类器,对分类器判定为知识库未登录实体的实体指称对应的目标实体标记为新实体。
2.根据权利要求1所述的基于图模型的实体链接方法,其特征在于,所述步骤2)的具体流程如下:
2a)实体指称表层名字扩展:对实体指称项集合M={m1,m2,...mn}中每个实体指称进行表层名字扩展,扩展后得到查询列表Q={q11,q12...q1t...qn1,qn2,...qns};
2b)候选实体集合生成:依次从查询列表中取出每个查询字符串qi,在本地知识库所构建的索引中进行查找,返回知识库中名字完全匹配的索引项,将满足条件的索引项对应的实体对象作为其候选实体集合Ni={ni1,ni2,...},其中nik表示查询字符串qi所对应的第k个候选实体对象,最后得到实体指称项集合M的候选实体对象集合N*={N1,N2,...Nn}。
3.根据权利要求2所述的基于图模型的实体链接方法,其特征在于,所述步骤2a)中按照如下规则进行表层名字扩展:第一,将原实体指称表层名字加入到查询列表;第二,在该实体指称所在文档中查询,返回子串为该实体指称名字的最长新实体指称名字加入到查询列表;第三,若实体指称恰好在预准备的缩写辞典中,将缩写词对应的完整实体指称加入到查询列表;第四,若实体指称为象征性名词,返回在原文档中距离该象征性名词最近的命名实体加入到查询列表。
4.根据权利要求1所述的基于图模型的实体链接方法,其特征在于,所述步骤4a)中按照如下流程构建XGBoost分类器:
首先获取手动标记数据,然后计算得到特征值,最后将特征值作为训练数据输入XGBoost模型学习得到XGBoost分类器。
5.根据权利要求4所述的基于图模型的实体链接方法,其特征在于,所述特征值为以下特征的特征值:表层名字相似特征,表层名字重复特征,表层名字差异特征,候选实体上下文特征,实体指称上下文特征,上下文相似特征,上下文命名实体特征。
6.根据权利要求5所述的基于图模型的实体链接方法,其特征在于,所述表层名字相似特征为实体指称同最佳候选实体间名字的编辑距离,所述表层名字重复特征为实体指称同最佳候选实体间名字中相同的单词数目,所述表层名字差异特征为实体指称同最佳候选实体间名字中不同的单词数目,所述候选实体上下文特征为最佳候选实体名是否在实体指称的上下文中出现,所述实体指称上下文特征为实体指称名是否在最佳候选实体对应百科摘要中出现,所述上下文相似特征为实体指称上下文同最佳候选实体摘要间的tf-idf相似度,所述上下文命名实体特征为实体指称上下文以及最佳候选实体摘要中命名实体相同的个数。
CN201810627959.6A 2018-06-15 2018-06-15 一种基于图模型的实体链接方法 Active CN108959461B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810627959.6A CN108959461B (zh) 2018-06-15 2018-06-15 一种基于图模型的实体链接方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810627959.6A CN108959461B (zh) 2018-06-15 2018-06-15 一种基于图模型的实体链接方法

Publications (2)

Publication Number Publication Date
CN108959461A CN108959461A (zh) 2018-12-07
CN108959461B true CN108959461B (zh) 2021-07-27

Family

ID=64490541

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810627959.6A Active CN108959461B (zh) 2018-06-15 2018-06-15 一种基于图模型的实体链接方法

Country Status (1)

Country Link
CN (1) CN108959461B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359303B (zh) * 2018-12-10 2023-04-07 枣庄学院 一种基于图模型的词义消歧方法和系统
CN109635297B (zh) * 2018-12-11 2022-01-04 湖南星汉数智科技有限公司 一种实体消歧方法、装置、计算机装置及计算机存储介质
CN109933785B (zh) * 2019-02-03 2023-06-20 北京百度网讯科技有限公司 用于实体关联的方法、装置、设备和介质
CN110222240B (zh) * 2019-05-24 2021-03-26 华中科技大学 一种基于摘要图的空间rdf数据关键词查询方法
CN110390106B (zh) * 2019-07-24 2023-04-21 中南民族大学 基于双向关联的语义消歧方法、装置、设备及存储介质
CN110929105B (zh) * 2019-11-28 2022-11-29 广东云徙智能科技有限公司 一种基于大数据技术的用户id关联方法
CN111309926B (zh) * 2020-02-11 2024-01-23 北京声智科技有限公司 一种实体链接方法、装置及电子设备
CN111401049B (zh) * 2020-03-12 2024-08-13 京东方科技集团股份有限公司 一种实体链接方法及装置
CN111563149B (zh) * 2020-04-24 2023-01-31 西北工业大学 一种用于中文知识图谱问答系统的实体链接方法
CN111930774B (zh) * 2020-08-06 2024-03-29 全球能源互联网研究院有限公司 一种电力知识图谱本体自动构建方法及系统
CN112417082B (zh) * 2020-10-14 2022-06-07 西南科技大学 一种科研成果数据消歧归档存储方法
CN112395429A (zh) * 2020-12-02 2021-02-23 上海三稻智能科技有限公司 基于图神经网络的hs编码判定、推送、应用方法、系统及存储介质
CN112560489A (zh) * 2020-12-08 2021-03-26 北京航天云路有限公司 一种基于Bert的实体链接方法
CN113361283B (zh) * 2021-06-28 2024-09-24 东南大学 面向Web表格的成对实体联合消歧方法
CN113626613B (zh) * 2021-08-18 2022-07-05 中山大学附属第一医院 基于融入知识图谱子图信息及实体信息的实体链接方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268200A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种基于深度学习的非监督命名实体语义消歧方法
CN105224648A (zh) * 2015-09-29 2016-01-06 浪潮(北京)电子信息产业有限公司 一种实体链接方法与系统
CN106295796A (zh) * 2016-07-22 2017-01-04 浙江大学 基于深度学习的实体链接方法
CN106503148A (zh) * 2016-10-21 2017-03-15 东南大学 一种基于多知识库的表格实体链接方法
US9697475B1 (en) * 2013-12-12 2017-07-04 Google Inc. Additive context model for entity resolution
CN107748757A (zh) * 2017-09-21 2018-03-02 北京航空航天大学 一种基于知识图谱的问答方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10289957B2 (en) * 2014-12-30 2019-05-14 Excalibur Ip, Llc Method and system for entity linking
US10803391B2 (en) * 2015-07-29 2020-10-13 Google Llc Modeling personal entities on a mobile device using embeddings

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268200A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种基于深度学习的非监督命名实体语义消歧方法
US9697475B1 (en) * 2013-12-12 2017-07-04 Google Inc. Additive context model for entity resolution
CN105224648A (zh) * 2015-09-29 2016-01-06 浪潮(北京)电子信息产业有限公司 一种实体链接方法与系统
CN106295796A (zh) * 2016-07-22 2017-01-04 浙江大学 基于深度学习的实体链接方法
CN106503148A (zh) * 2016-10-21 2017-03-15 东南大学 一种基于多知识库的表格实体链接方法
CN107748757A (zh) * 2017-09-21 2018-03-02 北京航空航天大学 一种基于知识图谱的问答方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Entity Linking with a Knowledge Base: Issues,Techniques, and Solutions";Wei Shen et.al;《IEEE》;20150228;第443-460页 *
"Graph-based Semantic Relatedness";Anna Lisa Gentile et.al;《https://www.researchgate.net/publication/228779444》;20140527;第1-8页 *

Also Published As

Publication number Publication date
CN108959461A (zh) 2018-12-07

Similar Documents

Publication Publication Date Title
CN108959461B (zh) 一种基于图模型的实体链接方法
CN108052593B (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
CN108415902B (zh) 一种基于搜索引擎的命名实体链接方法
CN106250412B (zh) 基于多源实体融合的知识图谱构建方法
CN104239513B (zh) 一种面向领域数据的语义检索方法
CN105045875B (zh) 个性化信息检索方法及装置
CN106528599B (zh) 一种海量音频数据中的字符串快速模糊匹配算法
US7882124B2 (en) Expanding a query to include terms associated through visual content
CN101694670B (zh) 一种基于公共子串的中文Web文档在线聚类方法
CN106055675B (zh) 一种基于卷积神经网络和距离监督的关系抽取方法
CN110888991B (zh) 一种弱标注环境下的分段式语义标注方法
CN108647322A (zh) 基于词网识别大量Web文本信息相似度的方法
CN112417170B (zh) 面向不完备知识图谱的关系链接方法
CN112507109A (zh) 一种基于语义分析与关键词识别的检索方法和装置
CN108920482A (zh) 基于词汇链特征扩展和lda模型的微博短文本分类方法
CN107316062A (zh) 一种改进的面向领域的命名实体消歧方法
CN105447119A (zh) 一种文本聚类方法
CN107133274B (zh) 一种基于图知识库的分布式信息检索集合选择方法
CN104794200B (zh) 一种基于本体的支持模糊匹配的事件发布订阅方法
CN105824956A (zh) 一种基于链表结构的倒排索引模型及其构建方法
CN107480130B (zh) 基于web信息的关系数据的属性值同一性判定方法
CN105677830A (zh) 一种基于实体映射的异构媒体相似性计算方法及检索方法
CN113128210A (zh) 一种基于同义词发现的网页表格信息解析方法
Lu et al. Influence model of paper citation networks with integrated pagerank and HITS
CN106528595A (zh) 基于网站首页内容的领域信息收集和关联方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant