CN106503148A - 一种基于多知识库的表格实体链接方法 - Google Patents
一种基于多知识库的表格实体链接方法 Download PDFInfo
- Publication number
- CN106503148A CN106503148A CN201610920031.8A CN201610920031A CN106503148A CN 106503148 A CN106503148 A CN 106503148A CN 201610920031 A CN201610920031 A CN 201610920031A CN 106503148 A CN106503148 A CN 106503148A
- Authority
- CN
- China
- Prior art keywords
- entity
- character string
- candidate
- node
- entities
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多知识库的表格实体链接方法,主要用于解决表格中的实体链接问题。本发明首先对于给定表格中每个单元格里的字符串生成候选实体,这些候选实体抽取自给定的知识库。然后,提出一种通用的基于图的概率传播算法对每个单元格里的字符串对应的候选实体进行排序,该方法可作用于任意单一的知识库。再根据基于不同单一知识库的候选实体排序的结果,利用源自不同知识库中的实体间的等价关系,对每个单元格里的字符串所对应的抽取自不同知识库中的已排序候选实体进行划分。最后使用三种启发式规则以最终确定每个单元格里的字符串所应该链接的存在于不同知识库中的实体,从而完成基于多知识库的表格实体链接的任务。
Description
技术领域
本发明属于实体链接领域,涉及一种基于多知识库的表格实体链接方法。
背景技术
当前的万维网中存在大量的拥有高质量关系型数据的HTML表格,这些表格被视为从万维网中进行知识抽取的重要来源。为了实现语义万维网的愿景,许多工作尝试挖掘表格中潜在的语义信息,将给定表格中的内容表示成RDF三元组。对表格内容进行语义信息挖掘的首要步骤即为实体链接,实体链接是识别表格中每个单元格里的字符串的真正含义,并将这些字符串分别链接向给定知识库中的实体。如果不能正确识别表格中潜在的实体,那么将很难从给定表格的内容中挖掘出正确的RDF三元组,所以对表格进行实体链接是具有非常大的研究意义与实用价值的工作。
近年来,国内外研究人员为了解决表格实体链接的问题,提出了许多相关系不同的方法,并研制出若干实用系统,包括Mulwad等人提出的基于语义信息传递的方法,英国谢菲尔德大学研制的TableMiner系统,清华大学研制的LIEGE系统以及美国西北大学研制的TabEL系统等。但是目前现有的表格实体链接的方法与系统存在两个主要的问题:1)许多方法或系统依赖于基于特定信息的特征,比如列标题与知识库中的实体类型,但是大多数抽取自万维网中的表格均没有列标题,同时许多知识库也没有实体类型这样的语义信息,这导致这些方法与系统并不通用,实用性较差;2)所有目前方法与系统均是针对单一知识库进行表格实体链接,但是这并不能保证表格实体链接的质量,很多表格中的实体并不存在于某一单一知识库中,那么仅针对单一知识库进行实体链接是不合理的。
LIEGE系统首先对维基百科站点的实体页面,重定向页面,去歧义页面以及超链接信息进行了统计,得到一个关于表格中单元格里的字符串和知识库实体的词典。然后从词典中为字符串生成候选实体集合,最后利用一种迭代联合消歧算法完成实体链接。但是LIEGE系统仅能对列表型表格(一列多行)进行基于任意单一知识库的实体链接,大大减弱了该系统的实用性。
TabEL系统首先利用统计万维网与维基百科中所有实体的相关信息,然后得到相应的先验概率,并依照此概率为给定表格中每个单元格里的字符串生成候选实体,之后定义了多种不同的特征,最后综合这些特征值,使用一种基于最大似然概率的联合实体消岐方法,进行表格实体链接。TabEL比LIEGE更加先进,原因是TabEL能够对多行多列的表格进行基于任意单一知识库的实体链接,但是该系统还是不能完成基于多知识库的表格实体链接的任务,由于许多字符串所应该链接的实体不存在于给定的单一知识库中,导致使用TabEL系统进行表格实体链接的质量依旧不能令人满意。此外,该系统依赖于不同来源计算得到的先验概率,而每个来源本身就是有所侧重,导致获取的先验概率并不客观,容易影响表格实体链接的质量。
发明内容
技术问题:本发明提供一种对于给定的一张表格以及任意多个知识库,能够自动化地确定表格中每个单元格里的字符串所应该链接的存在于多个不同知识库中的实体的基于多知识库的表格实体链接方法。
技术方案:本发明的基于多知识库的表格实体链接方法,首先通过一种利用同义词典BabelNet与字符串匹配规则的方法,为表格中每个单元格里的字符串生成抽取自给定知识库中的候选实体,然后设计一种通用的且不依赖于任何特定信息的基于图的概率传播算法,对每个单元格里的字符串对应的抽取自不同知识库的候选实体进行排序,之后利用源自不同知识库中的实体间的等价关系对每个字符串所对应的抽取自不同知识库中的已排序候选实体进行划分,最后使用三种启发式规则确定每个字符串所应该链接的存在于不同知识库中的实体。
本发明的基于多知识库的表格实体链接方法,包括如下步骤:
1)每次从知识库集合K={KB1,KB2,...,KBz...,KBn}中选定一个单一知识库KBz,按照如下方法从所述单一知识库KBz中抽取候选实体,构建候选实体列表,最终得到每个单一知识库构建的候选实体列表:
利用同义词典BabelNet与字符串匹配规则,将表格T中所有单元格里的字符串s生成源自单一知识库KBz的候选实体,每个字符串s对应多个候选实体;
利用基于图的概率传播算法对表格T中每个字符串s所对应的候选实体进行排序,得到候选实体列表;
2)将每个字符串s所对应的n个候选实体列表中的所有实体划分成多个实体集合,这些实体集合可分为两类:第一类中的每个集合里的实体数量num∈{2,3,...,n},每个集合中的实体分别源自不同的候选实体列表,且这些实体两两之间均存在等价关系;第二类中的每个集合中的实体数量均为1,每个集合中的实体仅源自一个候选实体列表且与源自其他候选实体列表中的每个实体之间均不存在等价关系;
3)针对每个字符串所对应的多个不同的实体集合,使用三种启发式规则为每个字符串s选择一个实体集合中的所有实体作为该字符串s所应该链接的存在于不同知识库中的实体,从而完成表格实体链接。
本发明方法的优选方案中,所述步骤1)中,按照如下方式生成源自单一知识库KBz的候选实体:
1-a)为单一知识库KBz中的每个实体查找其在同义词典BabelNet中的所有同义词,并构建每个实体对应的同义词集合;
1-b)对每个字符串s进行分词,得到零散片段{w1(s),w2(s),...,wv(s),...,wk(s)},其中wv(s)表示对字符串s分词后的第v个片段,v∈{1,2,...,k},k为对字符串s分词后得到零散片段的总数量;
1-c)使用字符串匹配规则为表格T中所有单元格里的字符串生成候选实体,该规则为:如果知识库KBz中的某个实体e及e的某个同义词包含经过分词后的字符串s的某个零散片段wv(s),则将该实体e作为字符串s的一个候选实体。
本发明方法的优选方案中,所述步骤1)中对表格T中每个字符串s所对应的候选实体进行排序的具体流程为:
1-1)按照如下方式为表格T构建实体消岐图G:将表格T中每个单元格里的字符串作为一个字符串节点,将每个候选实体作为一个实体节点,将字符串——实体边作为一条存在于每个字符串与其对应的一个候选实体之间的无向边,将一条实体——实体边作为一条存在于G中任意两个实体节点之间的无向边;
1-2)计算所述实体消岐图G中每个字符串与其对应的每个候选实体之间的字符串——实体语言学相似度、字符串——实体上下文相似度,并根据这两种相似度计算每条字符串——实体边的权重;
1-3)计算实体消岐图G中任意实体之间的实体——实体三元组相似度与实体——实体上下文相似度,并根据这两种相似度计算每条实体——实体边的权重;
1-4)利用如下公式进行迭代概率传播,直至向量R收敛:
其中m为所构建的实体消岐图G中节点的总量,E是一个m×m的全1矩阵,b是一个接近1的常数,b∈[0.8,1),R是一个m×1的向量<r1,r2,...,rm>,rj为G中第j个节点所关联到的概率值,j∈{1,2,...,m};R的初始值计算方式如下:若第j个节点为字符串节点,则rj=1/m,它表示该字符串节点的重要度;若第j个节点为实体节点,则rj=0,它表示该一字符串链接到该实体的概率值;A是一个m×m邻接矩阵,表示方式如下:
其中Axy表示从实体消岐图G中的第x个节点到第y个节点的转移概率,x∈{1,2,...,m},y∈{1,2,...,m},Axy的定义如下:
其中Wse(x,y)表示字符串节点x与实体节点y之间的字符串——实体边权重,Wse(y,x)表示字符串节点y与实体节点x之间的字符串——实体边权重,Wse(x,*)表示字符串节点x与其相邻的每个实体节点之间的字符串——实体边权重的总和,Wse(*,x)表示实体节点x与其相邻的每个字符串节点之间的字符串——实体边权重的总和,Wee(x,y)表示实体节点x、y之间的实体——实体边权重,Wee(x,*)表示实体节点x与其相邻的每个实体节点之间的实体——实体边权重的总和,a是一个常数,a∈(0,1);
1-5)所述向量R收敛后,根据候选实体所在的实体节点所关联的概率值,对字符串s对应的候选实体进行降序排列,从而得到候选实体列表。
本发明方法的优选方案中,所述步骤3)中的三种启发式规则分别为:
规则一:如果在字符串s对应的多个实体集合中,存在一个集合Set,与其他实体集合相比,Set中所有实体在各自对应的候选实体列表中的排名的平均值ar与最高值hr均最高,且集合Set中实体的数量num不小于所有给定知识库的数量的一半,则选择集合Set中的所有实体为s所应该链接的存在于不同知识库中的实体;
规则二:如果在字符串s对应的多个实体集合中,存在g个集合,g>1,这g个集合中每个集合里的所有实体在各自候选实体列表中的排名的平均值ar相等,最高值hr也相等,且与其他实体集合相比,这g个集合中每个集合里的所有实体在各自候选实体列表中的排名的平均值ar与最高值hr均最高,此外这g个集合中每个集合里实体的数量均不小于所有给定知识库的数量的一半,则随机选择这g个集合中的一个集合里的所有实体为s所应该链接的存在于不同知识库中的实体;
规则三:如果在字符串s对应的每个实体集合中实体的数量均小于所有给定知识库的数量的一半,则取出在字符串s所对应的n个候选实体列表,将每个列表中排名第一的实体作为s所应该链接的存在于不同知识库中的实体。
本发明提出的基于多知识库的表格实体链接方法,不依赖于任何特定信息且可以利用任意多种不同的知识库进行表格实体链接,很好地克服了现有方法或系统的弱点,在实体链接的质量上也有了较大的提升。
有益效果:本发明与现有技术相比,具有以下优点:
相比Mulwad等人提出的基于语义信息传递的方法,本发明不依赖于列标题等特定信息对给定表格进行整体建模,从而完成基于多知识库的表格实体链接任务,实用性更强,针对不管是否存在列标题的表格均能进行实体链接。此外,本发明对于外部信息的依赖更小,仅需使用任意给定知识库中的RDF三元组计算字符串与实体之间的相似程度,这个需求是极易满足的,而Mulwad等人提出的方法严重依赖于Wikitology的查询功能,一旦Wikitology的查询功能失效或者Wikitology不再开放,则他们的方法也就无法完成实体链接的任务
相比于英国谢菲尔德大学研制的TableMiner系统,本发明使用一种基于图的概率传播算法为给定表格中每个字符串的候选实体进行排序,该算法强调表格中任意单元格中的字符串之间均存在潜在的关系,从而选择这种联合消歧的方式捕捉字符串之间的关联,从而一次性完成表格整体的实体链接。而TableMiner不考虑同一表格中字符串之间的潜在关联,仅以给定字符串为中心,单独为每个字符串进行实体链接,不仅效率上不如本发明,而且在割裂了表格中字符串之间的关联后,实体链接的质量也并不高。
相比于清华大学研制的LIEGE系统,发明不仅能够针对多行多列的表格进行基于任意单一知识库的实体链接,而且还利用不同知识库中实体间的等价关系提出三种启发式规则,从而完成基于多知识库的实体链接任务。LIEGE系统的设计仅针对列表型表格,即一列多行表格,提出一系列基于维基百科的特征进行单一知识库的实体链接,局限性太强,而本发明从基于同义词典与字符串匹配规则的候选实体生成方法,到基于图的概率传播算法的候选实体排序方法,再到三种进行多知识库实体链接的启发式规则,整体对外部信息的依赖较小,所设计的特征都是通用易得,方法局限性小,适合各种场景下的表格实体链接任务。
相比于美国西北大学研制的TabEL系统,本发明可以不依赖于任何先验概率对多行多列的表格进行基于多知识库的实体链接。TabEL系统利用统计万维网与维基百科中所有实体的相关信息,然后得到相应的先验概率,并依照此概率为给定表格中每个单元格里的字符串生成候选实体,这种方式得到的先验概率其实是不准确的,因为万维网与维基百科并不能涵盖这个世界的方方面面,他们更多地还是体现当前世界流行的内容。而本发明使用的候选实体生成与排序方法的并不考虑这样的先验概率,这样可以大大减少基于流行内容的先验概率对表格实体链接带来的谬误。此外,TabEL系统还是不能完成基于多知识库的表格实体链接的任务,由于许多字符串所应该链接的实体不存在于给定的单一知识库中,导致使用TabEL系统进行表格实体链接的质量依旧不能令人满意。而本发明提出的基于不同知识库中实体间的等价关系的启发式规则,可以完成基于多知识库的表格实体链接任务,大大提高链接的准确性与覆盖率。
经过实验分析证明,利用本发明提出的基于多知识库的表格实体链接方法,可以完成基于任意的多个知识库的表格实体链接任务。无论是准确率、召回率还是F值,本发明在这些评价指标上都优于目前最先进的表格实体链接方法及系统。
附图说明
图1是本发明的基本过程的示意图;
图2是本发明中从单一知识库中抽取候选实体的流程图;
图3是本发明中基于图的概率传播算法的流程图。
具体实施方式
以下结合实施例和说明书附图,详细说明本发明的实施过程。
本发明是基于多知识库的表格实体链接方法,包括以下3个步骤:
1)每次从知识库集合K={KB1,KB2,...,KBz…,KBn}中选定一个单一知识库KBz,按照如下方法从所述单一知识库KBz中抽取候选实体,构建候选实体列表,最终得到每个单一知识库构建的候选实体列表,详细步骤如下:
由于将知识库中数百万的实体均作为每个字符串的候选实体是不切实际的,所以需要使用一种高效且低成本的方法为每个字符串快速选定若干个可能的候选实体,以便进一步使用更加复杂的方法对得到的候选实体进行进一步的判定。本发明为了尽可能在筛选候选实体时保证覆盖率,首先使用同义词典BabelNet与字符串匹配规则,将表格T中所有单元格里的字符串s生成源自单一知识库KBz的候选实体,每个字符串s对应多个候选实体,这里结合图2说明候选实体的生成过程:
(1)为单一知识库KBz中的每个实体查找其在同义词典BabelNet中的所有同义词,并构建每个实体对应的同义词集合;
(2)对每个字符串s进行分词,得到零散片段{w1(s),w2(s),...,wv(s),...,wk(s)},其中wv(s)表示对字符串s分词后的第v个片段,v∈{1,2,...,k},k为对字符串s分词后得到零散片段的总数量,比如字符串“Michael Jordan”对应两个片段“Michael”与“Jordan”:
(3)使用字符串匹配规则为表格T中所有单元格里的字符串生成候选实体,该规则为:如果知识库KBz中的某个实体e及e的某个同义词包含经过分词后的字符串s的某个零散片段wv(s),则将该实体e作为字符串s的一个候选实体,比如给定抽取自KB1中的实体“Michael Jeffrey Jordan”与“Michael Irwin Jordan”均可判定为字符串“MichaelJordan”的候选实体。
在对给定表格T中每个单元格里的字符串生成抽取自知识库KBz中的候选实体后,为了最终确定每个字符串所应该链接的实体,需要对每个字符串的候选实体进行排序,即通常所认为的实体消岐工作。一般而言,不难发现表格中同一行或者同一列单元格里的字符串之间存在一定的关系,换句话说,即可认为一个表格中任意两个单元格中的字符串之间存在潜在的关联,所以本发明选择使用一种通用的基于图的概率传播算法为给定表格T中所有单元格里的字符串进行联合消岐,即同时为所有字符串各自的候选实体进行排序,该方法可以作用于任何单一的知识库,不依赖于任何特定的表格信息或特定知识库中的特定信息。
这里结合图3说明本发明提出的为表格T中每个字符串s所对应的候选实体进行排序的基于图的概率传播算法:
(1)按照如下方式为表格T构建实体消岐图G:将表格T中每个单元格里的字符串作为一个字符串节点,将每个候选实体作为一个实体节点,将字符串——实体边作为一条存在于每个字符串与其对应的一个候选实体之间的无向边,将一条实体——实体边作为一条存在于G中任意两个实体节点之间的无向边;
(2)计算实体消岐图G中每个字符串与其对应的每个候选实体之间的字符串——实体语言学相似度、字符串——实体上下文相似度,这两种相似度的计算同样不依赖于任何特定信息,是通用的从不同角度衡量字符串与实体之间的相似程度,并根据这两种相似度计算每条字符串——实体边的权重,计算方式如下:
(2a)字符串——实体语言学相似度:给定字符串s与实体e,它们之间的字符串——实体语言学相似度linSim(s,e)的定义如下所示:
其中1(e)是实体e的标签字符串,|s|和|1(e)|分别表示字符串s的长度与实体e的标签字符串长度,EditDistance(s,l(e))表示字符串s与实体e的标签字符串之间的编辑距离;
(2b)字符串——实体上下文相似度:给定字符串s,取出与s所在单元格处于同一行及同一列的单元格中的所有字符串,再对这些字符串进行分词,收集这些字符串各自对应的若干零散片段,所有收集到的零散片段构成了字符串s的上下文集合scSet(s);给定实体e,查询e所在的知识库KBz,取出所有e作为主语或宾语的三元组,并收集这些三元组中的所有除e以外的作为主语或宾语的实体,之后对这些实体的字符串标签进行分词,将这些字符串标签各自对应的零散片段均放置于集合ecSet(e)中,ecSet(e)表示实体e的上下文集合;对于给定的字符串s与实体e,它们之间的字符串——实体上下文相似度secSim(s,e)如下所示:
其中|scSet(s)∩ecSet(e)|表示字符串s与买体e各自的上下文集合的交集大小,|scSet(s)∪ecSet(e)|表示字符串s与实体e各自的上下文集合的并集大小。
(2c)字符串——实体边的权重:给定实体消岐图G中一个字符串节点node(s),该节点表示字符串s,同时给定一个与该字符串节点相邻的实体节点node(e),该实体节点表示实体e,node(s)与node(e)之间的字符串——实体边的权重Wse(node(s),node(e))的定义如下所示:
Wse(node(s),node(e))=α1×linSim(s,e)+β1×secSim(s,e)+γ1
其中,α1+β1+γ1=1,α1∈(0,1),β1∈(0,1),γ1∈(0,1)且α1>>γ1,β1>>γ1;这里经过多次实验,决定令γ1=0.01,α1=β1=0.445,不难发现Wse(node(s),node(e))的最小值为0.01,这是为了在后续的概率传播的过程中保证实体消岐图G的连通性。
(3)计算实体消岐图G中任意实体之间的实体——实体三元组相似度与实体——实体上下文相似度,这两种相似度的计算同样不依赖于任何特定信息,是通用的从不同角度衡量字符串与实体之间的相似程度,并根据这两种相似度计算每条实体——实体边的权重,计算方式如下:
(3a)实体——实体三元组相似度:给定两个源自同一知识库KBz的实体e1与e2,它们之间的三元组相似度triSim(e1,e2)的定义如下所示:
(3b)实体——实体上下文相似度:给定两个源自同一知识库KBz的实体e1与e2,查询KBz,取出所有e1作为主语或宾语的三元组,并收集这些三元组中的所有除e1以外的作为主语或宾语的实体,之后对这些实体的字符串标签进行分词,将这些字符串标签各自对应的零散片段均放置于集合ecSet(e1)中,ecSet(e1)表示实体e1的上下文集合,以同样的方式构建实体e2的上下文集合ecSet(e2),实体e1与e2间的实体——实体上下文相似度eecSim(e1,e2)的定义如下所示:
其中|ecSet(e1)∩ecSet(e2)|表示实体e1与e2各自的上下文集合的交集大小,|ecSet(e1)∪ecSet(e2)|表示字符串s与实体e各自的上下文集合的并集大小。
(3c)实体——实体边的权重:给定实体消岐图G中任意两个实体节点node(e1)与node(e2),这两个节点分别表示实体e1与e2,node(e1)与node(e2)之间的实体——实体边的权重Wee(node(e1),node(e2))的定义如下所示:
Wee(node(e1),node(e2))=α2×triSim(e1,e2)+β2×eecSim(e1,e2)+γ2
其中,α2+β2+γ2=1,α2∈(0,1),β2∈(0,1),γ2∈(0,1)且α2>>γ2,β2>>γ2;这里经过多次实验,决定令γ2=0.01,α2=β2=0.445,不难发现Wee(node(e1),node(e2))的最小值为0.01,这同样是为了在后续的概率传播的过程中保证实体消岐图G的连通性。
(4)利用如下公式进行迭代概率传播,直至向量R收敛:
其中m为所构建的实体消岐图G中节点的总量,E是一个m×m的全1矩阵,b是一个接近1的常数,b∈[0.8,1),经过多次实验,本发明最终令b=0.85;R是一个m×1的向量<r1,r2,...,rm>,rj为G中第j个节点所关联到的概率值,j∈{1,2,...,m},R的初始值计算方式如下:若第j个节点为字符串节点,则rj=1/m,它表示该字符串节点的重要度;若第j个节点为实体节点,则rj=0,它表示该一字符串链接到该实体的概率值;A是一个m×m邻接矩阵,表示方式如下:
其中Axy表示从实体消岐图G中的第x个节点到第y个节点的转移概率,x∈{1,2,...,m},y∈{1,2,...,m},Axy的定义如下:
其中Wse(x,y)表示字符串节点x与实体节点y之间的字符串——实体边权重,Wse(y,x)表示字符串节点y与实体节点x之间的字符串——实体边权重,Wse(x,*)表示字符串节点x与其相邻的每个实体节点之间的字符串——实体边权重的总和,Wse(*,x)表示实体节点x与其相邻的每个字符串节点之间的字符串——实体边权重的总和,Wee(x,y)表示实体节点x、y之间的实体——实体边权重,Wee(x,*)表示实体节点x与其相邻的每个实体节点之间的实体——实体边权重的总和,a是一个常数,a∈(0,1),经过多次实验,本发明最终令a=0.5。
另外,根据马尔可夫链的收敛性定义,需要保证矩阵A非周期,所以本发明在任意两个节点之间增加一条特殊的无向边,这些特殊的边上所关联的转移概率为一极小值,这个值由常数b控制;R收敛后,给定表格T中任意一个单元格里的字符串s及其对应的候选实体,根据这些候选实体所在的实体节点所关联的概率值,对字符串s对应的候选实体进行降序排列,从而得到表格T中每个单元格里的字符串所对应的已排序候选实体列表。
(5)所述向量R收敛后,根据候选实体所在的实体节点所关联的概率值,对字符串s对应的候选实体进行降序排列,从而得到候选实体列表。
基于单一知识库的表格实体链接并不总能确保一个良好覆盖率,一种直观的解决方案是分别进行基于不同单一知识库的表格实体链接以提高覆盖率,但是这种方法带来的问题是同一字符串所链接到的不同知识库中的实体间并不具备等价关系,即面临着许多冲突,因此本发明使用如下方法以提高表格实体链接的覆盖率并且能够解决基于不同单一知识库的表格实体链接的结果间的冲突问题。
2)将每个字符串s所对应的n个候选实体列表中的所有实体划分成多个实体集合,这些实体集合可分为两类:第一类中的每个集合里的实体数量num∈{2,3,...,n},每个集合中的实体分别源自不同的候选实体列表,且这些实体两两之间均存在等价关系;第二类中的每个集合中的实体数量均为1,每个集合中的实体仅源自一个候选实体列表且与源自其他候选实体列表中的每个实体之间均不存在等价关系;
3)针对每个字符串所对应的多个不同的实体集合,使用三种启发式规则为每个字符串s选择一个实体集合中的所有实体作为该字符串s所应该链接的存在于不同知识库中的实体,从而完成表格实体链接。:
下面介绍本发明提出的三种启发式规则如下:
规则一:如果在字符串s对应的多个实体集合中,存在一个集合Set,与其他实体集合相比,Set中所有实体在各自对应的候选实体列表中的排名的平均值ar与最高值hr均最高,且集合Set中实体的数量num不小于所有给定知识库的数量的一半,则选择集合Set中的所有实体为s所应该链接的存在于不同知识库中的实体;
规则二:如果在字符串s对应的多个实体集合中,存在g个集合,g>1,这g个集合中每个集合里的所有实体在各自候选实体列表中的排名的平均值ar相等,最高值hr也相等,且与其他实体集合相比,这g个集合中每个集合里的所有实体在各自候选实体列表中的排名的平均值ar与最高值hr均最高,此外这g个集合中每个集合里实体的数量均不小于所有给定知识库的数量的一半,则随机选择这g个集合中的一个集合里的所有实体为s所应该链接的存在于不同知识库中的实体;
规则三:如果在字符串s对应的每个实体集合中实体的数量均小于所有给定知识库的数量的一半,则取出在字符串s所对应的n个候选实体列表,将每个列表中排名第一的实体作为s所应该链接的存在于不同知识库中的实体。
为了争取同时获得全局与局部最优的实体链接结果,本发明提出的三种不同的启发式规则不仅考虑了每个字符串对应的每个实体集合中所有实体的平均排名与最高排名,还有每个集合中实体的数量,即覆盖这些相同含义的实体的知识库的数量。如果给定集合中实体的数量低于所有给定知识库数量的一半,那么意味着该集合中的拥有相同含义的实体仅被很少的知识库所覆盖,所以若最终选择这个集合中的实体以解决基于不同单一知识库的实体链接结果间的冲突是不符合全局最优的设想的。
上述实施例仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和等同替换,这些对本发明权利要求进行改进和等同替换后的技术方案,均落入本发明的保护范围。
Claims (4)
1.一种基于多知识库的表格实体链接方法,其特征在于,该方法包括如下步骤:
1)每次从知识库集合K={KB1,KB2,…,KBz…,KBn}中选定一个单一知识库KBz,按照如下方法从所述单一知识库KBz中抽取候选实体,构建候选实体列表,最终得到每个单一知识库构建的候选实体列表:
利用同义词典BabelNet与字符串匹配规则,将表格T中所有单元格里的字符串s生成源自单一知识库KBz的候选实体,每个字符串s对应多个候选实体;
利用基于图的概率传播算法对表格T中每个字符串s所对应的候选实体进行排序,得到候选实体列表;
2)将每个字符串s所对应的n个候选实体列表中的所有实体划分成多个实体集合,这些实体集合可分为两类:第一类中的每个集合里的实体数量num∈{2,3,...,n},每个集合中的实体分别源自不同的候选实体列表,且这些实体两两之间均存在等价关系;第二类中的每个集合中的实体数量均为1,每个集合中的实体仅源自一个候选实体列表且与源自其他候选实体列表中的每个实体之间均不存在等价关系;
3)针对每个字符串所对应的多个不同的实体集合,使用三种启发式规则为每个字符串s选择一个实体集合中的所有实体作为该字符串s所应该链接的存在于不同知识库中的实体,从而完成表格实体链接。
2.根据权利要求1所述的基于多知识库的表格实体链接方法,其特征在于,所述步骤1)中,按照如下方式生成源自单一知识库KBz的候选实体:
1-a)为单一知识库KBz中的每个实体查找其在同义词典BabelNet中的所有同义词,并构建每个实体对应的同义词集合;
1-b)对每个字符串s进行分词,得到零散片段{w1(s),w2(s),...,wv(s),...,wk(s)},其中wv(s)表示对字符串s分词后的第v个片段,v∈{1,2,...,k},k为对字符串s分词后得到零散片段的总数量;
1-c)使用字符串匹配规则为表格T中所有单元格里的字符串生成候选实体,该规则为:如果知识库KBz中的某个实体e及e的某个同义词包含经过分词后的字符串s的某个零散片段wv(s),则将该实体e作为字符串s的一个候选实体。
3.根据权利要求1所述的基于多知识库的表格实体链接方法,其特征在于,所述步骤1)中对表格T中每个字符串s所对应的候选实体进行排序的具体流程为:
1-1)按照如下方式为表格T构建实体消岐图G:将表格T中每个单元格里的字符串作为一个字符串节点,将每个候选实体作为一个实体节点,将字符串——实体边作为一条存在于每个字符串与其对应的一个候选实体之间的无向边,将一条实体——实体边作为一条存在于G中任意两个实体节点之间的无向边;
1-2)计算所述实体消岐图G中每个字符串与其对应的每个候选实体之间的字符串——实体语言学相似度、字符串——实体上下文相似度,并根据这两种相似度计算每条字符串——实体边的权重;
1-3)计算实体消岐图G中任意实体之间的实体——实体三元组相似度与实体——实体上下文相似度,并根据这两种相似度计算每条实体——实体边的权重;
1-4)利用如下公式进行迭代概率传播,直至向量R收敛:
其中m为所构建的实体消岐图G中节点的总量,E是一个m×m的全1矩阵,b是一个接近1的常数,b∈[0.8,1),R是一个m×1的向量<r1,r2,...,rm>,rj为G中第j个节点所关联到的概率值,j∈{1,2,...,m};R的初始值计算方式如下:若第j个节点为字符串节点,则rj=1/m,它表示该字符串节点的重要度;若第j个节点为实体节点,则rj=0,它表示该一字符串链接到该实体的概率值;A是一个m×m邻接矩阵,表示方式如下:
其中Axy表示从实体消岐图G中的第x个节点到第y个节点的转移概率,x∈{1,2,...,m},y∈{1,2,...,m},Axy的定义如下:
其中Wse(x,y)表示字符串节点x与实体节点y之间的字符串——实体边权重,Wse(y,x)表示字符串节点y与实体节点x之间的字符串——实体边权重,Wse(x,*)表示字符串节点x与其相邻的每个实体节点之间的字符串——实体边权重的总和,Wse(*,x)表示实体节点x与其相邻的每个字符串节点之间的字符串——实体边权重的总和,Wee(x,y)表示实体节点x、y之间的实体——实体边权重,Wee(x,*)表示实体节点x与其相邻的每个实体节点之间的实体——实体边权重的总和,a是一个常数,a∈(0,1);
1-5)所述向量R收敛后,根据候选实体所在的实体节点所关联的概率值,对字符串s对应的候选实体进行降序排列,从而得到候选实体列表。
4.根据权利要求1、2或3所述的基于多知识库的表格实体链接方法,其特征在于,所述步骤3)中的三种启发式规则分别为:
规则一:如果在字符串s对应的多个实体集合中,存在一个集合Set,与其他实体集合相比,Set中所有实体在各自对应的候选实体列表中的排名的平均值ar与最高值hr均最高,且集合Set中实体的数量num不小于所有给定知识库的数量的一半,则选择集合Set中的所有实体为s所应该链接的存在于不同知识库中的实体;
规则二:如果在字符串s对应的多个实体集合中,存在g个集合,g>1,这g个集合中每个集合里的所有实体在各自候选实体列表中的排名的平均值ar相等,最高值hr也相等,且与其他实体集合相比,这g个集合中每个集合里的所有实体在各自候选实体列表中的排名的平均值ar与最高值hr均最高,此外这g个集合中每个集合里实体的数量均不小于所有给定知识库的数量的一半,则随机选择这g个集合中的一个集合里的所有实体为s所应该链接的存在于不同知识库中的实体;
规则三:如果在字符串s对应的每个实体集合中实体的数量均小于所有给定知识库的数量的一半,则取出在字符串s所对应的n个候选实体列表,将每个列表中排名第一的实体作为s所应该链接的存在于不同知识库中的实体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610920031.8A CN106503148B (zh) | 2016-10-21 | 2016-10-21 | 一种基于多知识库的表格实体链接方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610920031.8A CN106503148B (zh) | 2016-10-21 | 2016-10-21 | 一种基于多知识库的表格实体链接方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106503148A true CN106503148A (zh) | 2017-03-15 |
CN106503148B CN106503148B (zh) | 2019-05-31 |
Family
ID=58318344
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610920031.8A Active CN106503148B (zh) | 2016-10-21 | 2016-10-21 | 一种基于多知识库的表格实体链接方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106503148B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133208A (zh) * | 2017-03-24 | 2017-09-05 | 南京缘长信息科技有限公司 | 一种实体抽取的方法及装置 |
CN107239481A (zh) * | 2017-04-12 | 2017-10-10 | 北京大学 | 一种面向多源网络百科的知识库构建方法 |
CN108959461A (zh) * | 2018-06-15 | 2018-12-07 | 东南大学 | 一种基于图模型的实体链接方法 |
CN109308303A (zh) * | 2018-09-19 | 2019-02-05 | 北京服装学院 | 一种基于马尔可夫链的多表连接在线聚集方法 |
CN109710725A (zh) * | 2018-12-13 | 2019-05-03 | 中国科学院信息工程研究所 | 一种基于文本分类的中文表格列标签恢复方法和系统 |
CN109783650A (zh) * | 2019-01-10 | 2019-05-21 | 首都经济贸易大学 | 中文网络百科知识去燥方法、系统及知识库 |
CN110555208A (zh) * | 2018-06-04 | 2019-12-10 | 北京三快在线科技有限公司 | 一种信息查询中的歧义消除方法、装置及电子设备 |
CN110941724A (zh) * | 2019-11-28 | 2020-03-31 | 北京奇艺世纪科技有限公司 | 实体链接方法、装置、电子设备及计算机可读存储介质 |
CN112115709A (zh) * | 2020-09-16 | 2020-12-22 | 北京嘀嘀无限科技发展有限公司 | 实体识别方法、装置、存储介质和电子设备 |
CN113361283A (zh) * | 2021-06-28 | 2021-09-07 | 东南大学 | 面向Web表格的成对实体联合消歧方法 |
CN115687580A (zh) * | 2022-09-22 | 2023-02-03 | 广州视嵘信息技术有限公司 | 搜索提醒补全的生成和重排序方法、装置、设备及介质 |
CN115828854A (zh) * | 2023-02-17 | 2023-03-21 | 东南大学 | 一种基于上下文消歧的高效表格实体链接方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140108439A1 (en) * | 2012-10-11 | 2014-04-17 | Wal-Mart Stores, Inc | Interest Expansion Using A Taxonomy |
CN105045826A (zh) * | 2015-06-29 | 2015-11-11 | 华东师范大学 | 一种基于图模型的实体链接算法 |
CN105183770A (zh) * | 2015-08-06 | 2015-12-23 | 电子科技大学 | 一种基于图模型的中文集成实体链接方法 |
CN105224648A (zh) * | 2015-09-29 | 2016-01-06 | 浪潮(北京)电子信息产业有限公司 | 一种实体链接方法与系统 |
-
2016
- 2016-10-21 CN CN201610920031.8A patent/CN106503148B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140108439A1 (en) * | 2012-10-11 | 2014-04-17 | Wal-Mart Stores, Inc | Interest Expansion Using A Taxonomy |
CN105045826A (zh) * | 2015-06-29 | 2015-11-11 | 华东师范大学 | 一种基于图模型的实体链接算法 |
CN105183770A (zh) * | 2015-08-06 | 2015-12-23 | 电子科技大学 | 一种基于图模型的中文集成实体链接方法 |
CN105224648A (zh) * | 2015-09-29 | 2016-01-06 | 浪潮(北京)电子信息产业有限公司 | 一种实体链接方法与系统 |
Non-Patent Citations (1)
Title |
---|
周鹏程 等: "基于多知识库的短文本实体链接方法研究", 《现代图书情报技术》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133208A (zh) * | 2017-03-24 | 2017-09-05 | 南京缘长信息科技有限公司 | 一种实体抽取的方法及装置 |
CN107239481A (zh) * | 2017-04-12 | 2017-10-10 | 北京大学 | 一种面向多源网络百科的知识库构建方法 |
CN110555208A (zh) * | 2018-06-04 | 2019-12-10 | 北京三快在线科技有限公司 | 一种信息查询中的歧义消除方法、装置及电子设备 |
CN108959461B (zh) * | 2018-06-15 | 2021-07-27 | 东南大学 | 一种基于图模型的实体链接方法 |
CN108959461A (zh) * | 2018-06-15 | 2018-12-07 | 东南大学 | 一种基于图模型的实体链接方法 |
CN109308303A (zh) * | 2018-09-19 | 2019-02-05 | 北京服装学院 | 一种基于马尔可夫链的多表连接在线聚集方法 |
CN109308303B (zh) * | 2018-09-19 | 2021-08-27 | 北京服装学院 | 一种基于马尔可夫链的多表连接在线聚集方法 |
CN109710725A (zh) * | 2018-12-13 | 2019-05-03 | 中国科学院信息工程研究所 | 一种基于文本分类的中文表格列标签恢复方法和系统 |
CN109783650B (zh) * | 2019-01-10 | 2020-12-11 | 首都经济贸易大学 | 中文网络百科知识去噪方法、系统及知识库 |
CN109783650A (zh) * | 2019-01-10 | 2019-05-21 | 首都经济贸易大学 | 中文网络百科知识去燥方法、系统及知识库 |
CN110941724A (zh) * | 2019-11-28 | 2020-03-31 | 北京奇艺世纪科技有限公司 | 实体链接方法、装置、电子设备及计算机可读存储介质 |
CN112115709A (zh) * | 2020-09-16 | 2020-12-22 | 北京嘀嘀无限科技发展有限公司 | 实体识别方法、装置、存储介质和电子设备 |
CN112115709B (zh) * | 2020-09-16 | 2021-06-04 | 北京嘀嘀无限科技发展有限公司 | 实体识别方法、装置、存储介质和电子设备 |
CN113361283A (zh) * | 2021-06-28 | 2021-09-07 | 东南大学 | 面向Web表格的成对实体联合消歧方法 |
CN115687580A (zh) * | 2022-09-22 | 2023-02-03 | 广州视嵘信息技术有限公司 | 搜索提醒补全的生成和重排序方法、装置、设备及介质 |
CN115687580B (zh) * | 2022-09-22 | 2023-08-01 | 广州视嵘信息技术有限公司 | 搜索提醒补全的生成和重排序方法、装置、设备及介质 |
CN115828854A (zh) * | 2023-02-17 | 2023-03-21 | 东南大学 | 一种基于上下文消歧的高效表格实体链接方法 |
CN115828854B (zh) * | 2023-02-17 | 2023-05-02 | 东南大学 | 一种基于上下文消歧的高效表格实体链接方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106503148B (zh) | 2019-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106503148A (zh) | 一种基于多知识库的表格实体链接方法 | |
CN103544242B (zh) | 面向微博的情感实体搜索系统 | |
CN102202012B (zh) | 通信网络的社团划分方法与系统 | |
CN109858018A (zh) | 一种面向威胁情报的实体识别方法及系统 | |
CN104199852B (zh) | 基于节点隶属度的标签传播社团结构挖掘方法 | |
CN105389713A (zh) | 基于用户历史数据的移动流量套餐推荐算法 | |
CN109614495B (zh) | 一种结合知识图谱和文本信息的相关公司挖掘方法 | |
CN109543178A (zh) | 一种司法文本标签体系构建方法及系统 | |
CN102231151B (zh) | 一种农业领域本体自适应学习建模方法 | |
CN105224648A (zh) | 一种实体链接方法与系统 | |
CN104268629B (zh) | 一种基于先验信息和网络固有信息的复杂网络社区检测方法 | |
CN107239512B (zh) | 一种结合评论关系网络图的微博垃圾评论识别方法 | |
CN104008165A (zh) | 一种基于网络拓扑结构和节点属性的社团检测方法 | |
CN103631859A (zh) | 一种面向科技项目的评审专家智能推荐方法 | |
CN102750286B (zh) | 一种处理缺失数据的新型决策树分类器方法 | |
CN110046262A (zh) | 一种基于法律专家知识库的上下文推理方法 | |
CN103729467B (zh) | 一种社交网络中的社区结构发现方法 | |
CN111597331A (zh) | 一种基于贝叶斯网络的裁判文书分类方法 | |
CN105654144A (zh) | 一种基于机器学习的社交网络本体构建方法 | |
CN103488637B (zh) | 一种基于动态社区挖掘进行专家检索的方法 | |
CN111008215B (zh) | 一种结合标签构建与社区关系规避的专家推荐方法 | |
CN106506327A (zh) | 一种垃圾邮件识别方法及装置 | |
CN104504251B (zh) | 一种基于PageRank算法的社区划分方法 | |
CN105825430A (zh) | 一种基于异构社会网络的检测方法 | |
CN105447119A (zh) | 一种文本聚类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |