CN109086356B - 大规模知识图谱的错误连接关系诊断及修正方法 - Google Patents

大规模知识图谱的错误连接关系诊断及修正方法 Download PDF

Info

Publication number
CN109086356B
CN109086356B CN201810787761.4A CN201810787761A CN109086356B CN 109086356 B CN109086356 B CN 109086356B CN 201810787761 A CN201810787761 A CN 201810787761A CN 109086356 B CN109086356 B CN 109086356B
Authority
CN
China
Prior art keywords
node
connection relation
knowledge
graph
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810787761.4A
Other languages
English (en)
Other versions
CN109086356A (zh
Inventor
王宏志
刘思凡
万晓珑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201810787761.4A priority Critical patent/CN109086356B/zh
Publication of CN109086356A publication Critical patent/CN109086356A/zh
Application granted granted Critical
Publication of CN109086356B publication Critical patent/CN109086356B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种大规模知识图谱的错误连接关系诊断及修正方法,其中诊断方法包括:构建知识图谱的层次结构,确定知识图谱中每个节点所处的层级;基于所述知识图谱的层次结构,提取节点的连接关系集合,所述连接关系集合中包含指向自己的所有IsA关系;判断同一层级上节点之间的关系;对于同一层级上被判定为相矛盾含义的节点对,诊断为其中包括错误连接关系,并继续对其上级进行搜索。本发明在不引入其它外源知识的情况下,利用知识图谱本身知识之间的关系,对具有IsA关系的图谱实现错误连接关系的检测并修正。

Description

大规模知识图谱的错误连接关系诊断及修正方法
技术领域
本发明涉及知识图谱的连接关系诊断技术,尤其涉及一种大规模知识图谱的错误连接关系诊断及修正方法。
背景技术
近年来,随着链接开放数据Linking Open Data的全面展开,语义Web数据源的数量激增,大量资源描述框架RDF数据被发布。互联网正从仅包含网页和网页之间超链接的文档Web转变成包含大量描述各种实体和实体之间丰富关系的数据万维网Web。在这个背景下,Google、百度和搜狗等搜索引擎公司纷纷以此为基础构建知识图谱,包括KnowledgeGraph、知心和知立方,来改进搜索质量,由此拉开了语义搜索的序幕。从杂乱的网页到结构化的实体知识,借助于搜索引擎,知识图谱能够为用户提供更具条理的信息。用户通过知识图谱可以对知识体系进行更深入、广泛和完整的探索。
从前的互联网时代,人们一直通过搜索引擎在线获取信息和知识,例如,在搜索框内输入查询词,搜索引擎就会获得按某种排序的与查询词相关的网页链接。直到2012年5月,搜索引擎巨头——谷歌,在它的搜索页面中首次引入“知识图谱”:知识图谱意在描述真实世界中存在相互关系的各种实体或概念。其中,每个实体或概念用一个全局唯一确定的ID来标识,称为标识符;每个实体或概念的内在特征通过属性值来刻画;两个实体或概念之间的关联,通过关系来连接。基于知识图谱,用户除了能够获得搜索网页的链接,还能获得与查询词相关的更加智能化的引导。在知识图谱中,实体或概念之间最重要的关系为IsA关系,表明一种属于关系,如苹果IsA水果,意思为:苹果属于水果(苹果是水果)。
知识图谱的构建方式通常包括两种:手动构建和自动构建。目前的机器智能大规模的依赖于这两种方式构建的知识图谱。手动构建知识图谱的例子包括WordNet和Cyc,自动构建知识图谱的例子包括Know-ItAll,NELL,和Probase。其中手动构建的知识图谱精度高,但是规模有限;自动构建的知识图谱覆盖率高,但是准确度相对较低。因此,如何查找并消除掉自动构建的知识图谱中错误的连接关系,对于提高机器智能至关重要。
目前,对于知识图谱中错误连接关系(IsA关系)的诊断方法大致包括:1)通过使用频率判断:高频率的使用正确性更高,低频率的使用表明关系存在错误;例如:以微软的Probase知识图谱为例,Probase知识图谱包含了1600万个Isa关系,其保存的是知识之间的IsA关系,对于其中的每一个IsA关系附有一个频率,该频率为从网络语料库中观察到的该关系出现的次数。通过频率判断的具体方法为,若某种关系对应的频率较低,则表明该条关系在语料库中出现的次数较少,可以判断该关系的正确率较低。
2)使用其他外源知识进行判断,包括引入新的知识图谱或者网络查询等;例如通过另一个知识图谱中包含的知识关系、新的网络语料库关系等,来消除目标知识图谱中的冲突并提高分类的质量,即将外部知识作为对内部本身具备知识的一种二次验证,从而进行错误检测。
3)使用统计学回归方法计算:统计学回归方法是一种数学方法,它使用统计技术进行数据整合,主要用于判断知识图谱当中的线性关系是否正确。
4)基于知识图谱的图结构分析中点与边之间的关系进行判断:该方法将知识图谱中存在的关系视为一种有向图关系,使用相关算法在该有向图上查找圈关系,若存在圈关系,则判断为错误关系。
上述知识图谱中错误连接关系的判断方法中,1)只适用于频率差距很大的情况,如果知识图谱中的大部分关系都为低频关系,其诊断性能将变得很差,因此无法处理频率较为集中的知识图谱关系。以Probase知识图谱为例,Probase当中的IsA关系的频率信息本身遵循具有长尾的幂律分布,这意味着具有或不具有错误的大多数关系都具有较低的频率。例如,在Probase中,大约七百万个边缘的频率为1。但是通过查阅资料得知,里面近乎78%的关系都是正确的。如果只将高频率关系保留,而将低频率关系删除,错误关系诊断的准确率会大大降低,这将妨碍知识图谱的正常使用。
2)在使用中,由于每个知识图谱都有自己的独特概念,不同知识图谱之间的概念重合度并不是很高,因此引入新的知识图谱会造成错误诊断的效率极低。
3)只对发现线性错误关系有效。
4)对不存在于圈结构中的错误关系无法查找,因此不具有通用性。
因此,针对以上不足,需要提供一种方法,能够将知识图谱的内在知识关系和图结构充分结合起来,通过知识图谱本身对错误进行诊断,以获得高质量的错误诊断结果。
发明内容
本发明要解决的技术问题在于,针对现有对知识图谱的错误连接关系查找依赖于外源知识,诊断效率低的的缺陷,提供一种大规模知识图谱的错误连接关系诊断及修正方法。
为了解决上述技术问题,本发明提供了一种大规模知识图谱的错误连接关系诊断方法,包括:
构建知识图谱的层次结构,确定知识图谱中每个节点所处的层级;
基于所述知识图谱的层次结构,提取节点的连接关系集合,所述连接关系集合中包含指向自己的所有IsA关系;
由连接关系集合域为0的节点开始,逐级向上进行遍历搜索,并基于连接关系集合判断同一层级上节点之间的关系;
对于同一层级上被判定为相似含义的节点对,停止对其上级的搜索;
对于同一层级上被判定为相矛盾含义的节点对,诊断为其中包括错误连接关系,并继续对其上级进行搜索,直至结束。
在根据本发明所述的大规模知识图谱的错误连接关系诊断方法中,所述知识图谱的层次结构通过社交网络模型Agony Model建立。
在根据本发明所述的所述的大规模知识图谱的错误连接关系诊断方法中,所述节点的表达形式包括概念或实体。
在根据本发明所述的大规模知识图谱的错误连接关系诊断方法中,所述相矛盾含义的节点对包括基于人类的认知确定存在矛盾关系的节点对,包括以下至少其中一种:
所对应的连接关系集合在客观上无交集的节点对;
所对应的连接关系集合中包含表达形式为同词异义的下级节点的节点对;以及
所对应的连接关系集合为偏僻关系的节点对。
在根据本发明所述的大规模知识图谱的错误连接关系诊断方法中,所述相矛盾含义的节点对的判定方法包括:
通过所述节点对所对应集合的距离进行判断。
在根据本发明所述的大规模知识图谱的错误连接关系诊断方法中,所述集合距离的计算方法包括:
计算两个集合的Jaccard距离J(A,B):
Figure BDA0001734070950000041
其中A表示节点对中一个节点的连接关系集合,B表示节点对中另一个节点的连接关系集合;
预设定距离阈值,将Jaccard距离J(A,B)小于或等于距离阈值的两个集合所对应的节点对判定为相矛盾含义的节点对。
本发明还提供了一种大规模知识图谱的错误连接关系修正方法,它包括所述的大规模知识图谱的错误连接关系诊断方法,还包括,
将判定为相矛盾含义的节点对所对应的连接关系集合中所有IsA关系重新判断正确性,再确定节点对中每个节点与下级节点的连接关系。
在根据本发明所述的大规模知识图谱的错误连接关系修正方法中,对于在客观上无交集的矛盾关系节点对,采用其连接关系集合中对应于同一下级节点的IsA关系被使用的频率进行连接关系的重新判断,删除矛盾关系节点对中与下级节点的IsA关系使用频率小的连接关系,保留与下级节点的IsA关系使用频率高的连接关系,完成节点之间的连接关系修正。
在根据本发明所述的大规模知识图谱的错误连接关系修正方法中,对于同词异义的矛盾关系节点对,为其中每个节点添加副属性,从而根据副属性确定上下级节点之间的正确连接关系。
在根据本发明所述的大规模知识图谱的错误连接关系修正方法中,对于偏僻关系的节点对,另行建立可疑知识图谱,然后通过人工方式确定上下级节点之间的正确连接关系。
实施本发明的大规模知识图谱的错误连接关系诊断及修正方法,具有以下有益效果:本发明在不引入其它外源知识的情况下,利用知识图谱本身知识之间的关系,对具有IsA关系的图谱实现错误连接关系的检测并修正。它将知识图谱的层次结构与节点本身之间的关系相结合,来查找知识图谱中存在的错误,既提高了知识图谱关系诊断的准确性,又能提高错误修正的效率。
附图说明
图1是根据本发明实施方式的大规模知识图谱的错误连接关系诊断方法的示例性处理流程图;
图2是相似含义节点对的知识图谱层次结构示例性示意图;
图3是相似含义节点对的知识图谱层次结构另一示例性示意图;
图4是相矛盾含义节点对的知识图谱层次结构示例性示意图;
图5是相矛盾含义节点对的知识图谱层次结构另一示例性示意图;
图6是错误关系的节点对的知识图谱层次结构示例性示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
一、结合图1所示,本发明的第一方面,提供了一种大规模知识图谱的错误连接关系诊断方法,包括:
步骤10:构建知识图谱的层次结构,确定知识图谱中每个节点所处的层级;
步骤20:基于所述知识图谱的层次结构,提取节点的连接关系集合,所述连接关系集合中包含指向自己的所有IsA关系;
步骤30:由连接关系集合域为0的节点开始,逐级向上进行遍历搜索,并基于连接关系集合判断同一层级上节点之间的关系;
步骤40:对于同一层级上被判定为相似含义的节点对,停止对其上级的搜索;
对于同一层级上被判定为相矛盾含义的节点对,诊断为其中包括错误连接关系,并继续对其上级进行搜索,直至结束。
本实施方式中,结合图1所示,首先对现有知识图谱的表现形式进行预处理,预处理的目的是可以依据节点的抽象度和具体程度对知识图谱进行划分,获得知识图谱的层次结构;很显然,符合人类认知的层次关系应该是具体的概念属于抽象的概念,知识图谱的层次结构可以将概念之间的所属关系明确的表达出来,即能确定每个节点所处的层级,其所展现的关系有利于更好的整理IsA知识图谱的结构,从而做为后续进行遍历搜索及高效纠错的基础。在获得相矛盾含义的节点对后继续向上搜索,结束的情况可以包括两种,一种是直至完成最上级概念的搜索,一种是在某一层级获得了相似含义节点对。
所述连接关系集合的形成,例如,假设在层次结构中某一上级节点为电器,则其相邻下一层级上所有属于电器的节点,例如电视、冰箱、洗衣机等,都作为电器的下位概念,与电器具有所属关系,则其所有的IsA关系都作为电器节点的连接关系集合中的组成元素。
对节点连接关系的判断,从知识图谱层次结构的最低级开始,即连接关系集合域为0的节点开始。对于同一层级上的节点对,如果被判定为相似含义,则可以认为其上下级节点的连接关系无误,所以不再向上进行判断;因此,从层次结构的最低级作为判断的起始,可以相对的减少错误诊断的工作量,从而提高诊断效率。而对于同一层级上的相矛盾含义的节点对,则可以认为其中某个节点与下级节点的连接关系是不正确的,因此要进一步判断其连接关系。
作为示例,所述知识图谱的层次结构可以通过社交网络模型Agony Model建立。
著名的Agony Model认为人类的社交网络是存在层次结构的,假设链接的存在表示社会等级推荐;一个链接u→v(u是v的下属者,也就是追随者)表示v对你的社会推荐。如果没有从v到u的反向链接,则可能表示v在层次结构中比u高。将这种链接关系应用于IsA关系的知识图谱,则可以构建知识图谱的分层模型,即层次结构;例如苹果属于水果,则水果类似于社会等级推荐中的v。
基于构建好的知识图谱的层次结构,所述层次结构可以是知识图谱的最优层次结构,可以将每一个节点对应的所属关系分别形成连接关系集合。
作为示例,所述节点的表达形式可以包括概念或实体。例如,当节点为概念时,其连接关系集合为概念关系集合。将节点表达成概念或实体是由于不同类型的知识图谱本身决定的。
举例说明:依然使用Probase为例,在Probase给出的数据当中明确指明了IsA关系所连接的两个关系,其上层为概念,下层为实体(实例)。例如,Probase的核心数据如下:
fish(鱼)salmon(鲑鱼)3733,第一列为概念,第二列为实例,第三列为频率。
由此可以建立fish概念集合,其中包含的实例为salmon,对应的频率为3733。
提取获得连接关系集合后,进一步地,可以开始对节点由层级为0且不存在实例的集合向上进行搜索。此处所述的层级为0可以是层次结构的最底层,其本身不具有指向自己的下层节点。例如苹果,可以认为此处的苹果为最下位的概念,不再可以根据属性对其进一步的区分为哪类苹果,这种情况就可以将苹果作为层级结构中的0级,即没有下义词的节点。
下面首先,对节点对的类型判断中出现的相似含义的节点对作进一步说明:
结合图2所示,为一种知识图谱层次结构的简单示例,图2中的节点具体表述为概念,所以此处用以说明的是相似概念节点对。图2中,0层级的概念为蝙蝠,其上一层级的概念为动物和物种。分析可知,动物概念集合和物种概念集合中可以存在交集,例如所述的蝙蝠,因此图2中所示的节点连接关系是正确的,则可以把动物和物种作为一对相似含义的节点,获得这个判断结果后,可以停止继续对其上级的搜索。
下面对获得相似含义的节点对以后,可以停止继续对其上级搜索的原因进行简单的说明:
当两个概念集合判定为相似,例如(动物,物种),可以不再向上判断他们的IsA关系所属的概念集合。因为在整个知识图谱中,由下级至上层形成类似金字塔的结构,所以上层概念通常会与多个下层概念相关,例如动物和物种的上属概念集合很有可能同时是其他两个概念集合的上属集合,所以在(动物,物种)不向上判断之后,还可能通过其他的所属关系继续向上判断,因此遗漏掉错误连接关系的概率极小。之所以提出这一条约束,是因为整个IsA关系知识图谱的结构,在最上层的概念集合会非常的宽泛,例如“术语”,“单词”,“方式”等概念集合,这些都属于非常抽象的概念,他们之间基本都是相似的,而且所包含的IsA实例也会非常多,如果全部进行判断,耗费时间会很大。通过这一条约束后,最上层级的抽象概念所属关系基本不用进行判断,可以节省较多的时间。
同理,结合图3所示,也是相似概念节点对的一个示例,以区域进行边界划分的地理空间与以城市进行边界划分的地理空间可以存在交集。比如北京,既可以从属于区域的概念,也可以从属于城市的概念。因此,区域和城市也可以作为一对相似含义的节点,其连接关系无误。
下面再对相矛盾含义的节点对作进一步说明:
简单来说,相矛盾含义的节点对的一个显然的示例可以如图4所示,其中0级概念为恐惧症,其上一层级的一对节点概念分别为音乐家和疾病;以人类的通常认知来看,音乐家和疾病作为同级概念,其所涵盖的元素应该是不相关的,即二者并无交集;而很显然,恐惧症并不能作为音乐家的下位概念,因此,可以判断音乐家和疾病是一对相矛盾含义的节点,其与下级节点的连接关系中存在错误。
再如图5所示,同样,树和运动作为同级概念,基于人类的普遍认知,也不会存在交集。因此椰子树同时作为二者的下级概念,其连接关系中可以判定存在错误。
下面,对相矛盾含义的节点对进一步区分为:
所述相矛盾含义的节点对包括基于人类的认知确定存在矛盾关系的节点对,包括以下至少其中一种:
第一种:所对应的连接关系集合在客观上无交集的节点对;
第二种:所对应的连接关系集合中包含表达形式为同词异义的下级节点的节点对;以及
第三种:所对应的连接关系集合为偏僻关系的节点对。
对于所述第一种节点对,可以定义为错误关系的节点对,通过实验计算,错误关系的节点对在所有相矛盾含义的节点对中所占的比例最大,对错误关系节点对可以进行以下定义:给定两个节点对应的矛盾概念集合A,B交集中的所有关系,如果存在IsA关系,且关系P在A,B中的权重为WA(P),WB(P),且WA(P)>WB(P)或者WB(P)>WA(P),且|WA(P)-WB(P)|较大,则具有较小权重的P在对应的概念集合当中为错误关系,对应的两个节点为错误关系的节点对。
作为示例,通过Probase中存在的实例进一步解释错误关系的定义:分析鸟类概念集合和鱼类概念集合的交集。结合图6所示,显然,鸟和鱼这两个概念在人类的认知当中是一对矛盾的概念,因为没有一个既是鱼又是鸟的物种存在。然而对Probase使用错误检测算法进行求解,可能会发现鸟类和鱼类这两个矛盾概念集合存在交集。交集中存在关系(火鸡,IsA,鸟)频率211以及(火鸡,IsA,鱼)频率1。显而易见,可以清楚的判断,(火鸡,IsA,鱼)是错误关系,因为这条关系的频率远远低于(火鸡,IsA,鸟)。
因此,如果矛盾概念集合对中存在错误关系,则必定该关系在一个概念集合中是正确的,在另一个概念集合中的错误的。
对于第二两种节点对的关系,可以定义为同词异义关系。通过实验计算,同词异义关系的节点对在所有相矛盾含义的节点对中所占的比例最小。理想情况下,矛盾概念集合对应该不存在同词异义关系。但由于知识的变化多端,英文解释的多样性,所以不可避免的会存在一部分的同词异义关系。同词异义关系的定义如下:
给定两个矛盾概念集合A,B交集中的所有关系,如果存在IsA关系,且关系P在A,B中的权重为WA(P),WB(P),且WA(P)和WB(P)数值都较大,则关系P存在较大的可能性在A,B当中都为正确关系,称为同词异义关系。
作为示例,通过Probase中存在的实例进一步解释同词异义关系的定义。分析水果概念集合和设备概念集合的交集,显然,水果和设备这两个概念在人类的认知当中是矛盾的,然而英文单词在社会的不断发展中被赋予了多种多样的意思,并且语料库的英文使用也不是规范的。于是通过对Probase的处理,观察到水果和设备这两个矛盾概念集合存在交集,且实例苹果存在于这两个概念集合中,并且都具有较大的频率。因为出现了苹果手机,所以苹果这个单词就变成了双义词。这类关系依赖目前的机器很难智能的识别。
对于第三种节点对的关系,可以定义为偏僻关系,偏僻关系基本存在于所有概念集合的交集中,这是由于知识提取的随机性和知识存在的不规范性造成的。机器通过语料库的知识提取算法会提取到较多的脏数据,而这些脏数据存在于知识图谱当中,这造成知识图谱频率为1的关系非常多。偏僻关系的定义如下:
给定两个矛盾概念集合A,B交集中的所有关系,如果存在IsA关系P,且关系P在A,B中的权重为WA(P),WB(P),且WA(P)和WB(P)数值都较小,则关系P存在较大的可能性在A,B当中都为错误关系,也可能为正确关系,但是没有办法智能判断,所以称为偏僻关系。
作为示例,通过Probase中存在的实例进一步解释偏僻关系的定义:继续分析鸟类概念集合和鱼类概念集合的交集,通过对Probase使用错误检测算法进行求解,鸟类和鱼类的交集中存在关系(枫树,IsA,鸟)频率1以及(枫树,IsA,鱼)频率1。显然这两个关系在鸟类概念集合和鱼类概念集合当中都为错误的。但是考虑鱼类概念集合和草本概念集合,它们的交集中存在关系(健康补品,IsA,鱼)频率1以及(健康补品,IsA,草本),一些人的认知认为这两个关系都是正确的,但是一些人认为这两个关系无法判断或者存在问题,这就是明显的偏僻关系。人类无法对偏僻关系达成共识,并且机器也无法进行智能的判断。
对相矛盾含义的节点对进行具体的分析后,再进一步分析所述相矛盾含义的节点对的判定方法,包括:
通过所述节点对所对应集合的距离进行判断。
距离的计算被广泛的使用于文本查重任务中,通常可以选择Jaccard距离进行矛盾集合对的判断。
进一步地,所述集合距离的计算方法包括:
计算两个集合的Jaccard距离J(A,B):
Figure BDA0001734070950000121
其中A表示节点对中一个节点的连接关系集合,B表示节点对中另一个节点的连接关系集合;
预设定距离阈值,将Jaccard距离J(A,B)小于或等于距离阈值的两个集合所对应的节点对判定为相矛盾含义的节点对。
基于Jaccard距离,可以使用LSH当中的Minhash来快速估算两个集合的相似度。结合预设定的距离阈值,如果判定两个节点所对应的概念集合为矛盾集合,则进一步对其关系进行判断。所述预设定的距离阈值可以根据经验值设定,也可以通过试验的方法确定。
本发明所述的大规模知识图谱的错误连接关系诊断方法,提出了在Isa关系的知识图谱上构建集合,并判断集合之间的关联,使用距离模型来定位矛盾集合,无需遍历整个知识图谱图结构和所有关系,将知识图谱本身的知识关联同知识图谱的图结构结合在一起,能够节省时间成本和空间成本,完成高效高质纠错。其在分层结构的基础上,使用矛盾集合对纠错的方法避免了查找所有的关系,能够提升基于频率纠错的正确率。
二、本发明在大规模知识图谱的错误连接关系诊断方法的基础上,还提供了大规模知识图谱的错误连接关系修正方法,它还包括,
将判定为相矛盾含义的节点对所对应的连接关系集合中所有IsA关系重新判断正确性,再确定节点对中每个节点与下级节点的连接关系。
在前面详细分析了基于矛盾概念集合交集确定的可能存在的三种矛盾关系的节点对以后,需要进一步对矛盾关系的节点对进行处理,获得节点之间的正确连接关系,使知识图谱能够更好的为机器智能服务。
作为示例,对于第一种在客观上无交集的矛盾关系节点对,可以采用其连接关系集合中对应于同一下级节点的IsA关系被使用的频率进行连接关系的重新判断,删除矛盾关系节点对中与下级节点的IsA关系使用频率小的连接关系,保留与下级节点的IsA关系使用频率高的连接关系,完成节点之间的连接关系修正。
对于错误关系的节点对,由于其IsA关系使用频率的差值比较大,所以可以通过直接删除频率较小的关系来删除错误。具体使用中,可以根据经验或实验预先设置频率差阈值,如果两个IsA关系使用频率的差值大于频率差阈值,则可以保留频率较大的正确关系而删除频率较小的错误关系。还可以在实验当中进一步分析差值和频率取值对错误连接关系处理正确率的影响,如果取得恰当的值,可以做到高正确率的对知识图谱进行清洗。
作为示例,对于第二种同词异义的矛盾关系节点对,为其中每个节点添加副属性,从而根据副属性确定上下级节点之间的正确连接关系。
同词异义的矛盾关系节点对在实际的修正处理中比较棘手,本发明中通过为节点添加副属性的形式,能够辅助表明该节点的关系应该属于哪个概念集合,这样在基于知识图谱的搜索中可以针对特定的概念集合设计对用户特定的搜索模式,进行提示等。
作为示例,对于第三种偏僻关系的节点对,另行建立可疑知识图谱,然后通过人工方式确定上下级节点之间的正确连接关系。
由于偏僻关系在人类的认知当中无法达成共识,所以无法使用机器来判断。本发明中提出建立一个知识图谱子集,即可疑知识图谱,可以将查找到的偏僻关系加入到可疑知识图谱当中,后续通过人工进行关系的筛选。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种大规模知识图谱的错误连接关系诊断方法,其特征在于包括:
构建知识图谱的层次结构,确定知识图谱中每个节点所处的层级;
基于所述知识图谱的层次结构,提取节点的连接关系集合,所述连接关系集合中包含指向自己的所有属于IsA关系;
由连接关系集合域为0的节点开始,逐级向上进行遍历搜索,并基于连接关系集合判断同一层级上节点之间的关系;
对于同一层级上被判定为相似含义的节点对,停止对其上级的搜索;
对于同一层级上被判定为相矛盾含义的节点对,诊断为其中包括错误连接关系,并继续对其上级进行搜索。
2.根据权利要求1所述的大规模知识图谱的错误连接关系诊断方法,其特征在于:所述知识图谱的层次结构通过社交网络模型Agony Model建立。
3.根据权利要求1所述的大规模知识图谱的错误连接关系诊断方法,其特征在于:所述节点的表达形式包括概念或实体。
4.根据权利要求1所述的大规模知识图谱的错误连接关系诊断方法,其特征在于:所述相矛盾含义的节点对包括基于人类的认知确定存在矛盾关系的节点对,包括以下至少其中一种:
所对应的连接关系集合在客观上无交集的节点对;
所对应的连接关系集合中包含表达形式为同词异义的下级节点的节点对;以及
所对应的连接关系集合为偏僻关系的节点对。
5.根据权利要求1所述的大规模知识图谱的错误连接关系诊断方法,其特征在于:所述相矛盾含义的节点对的判定方法包括:
通过所述节点对所对应集合的距离进行判断。
6.根据权利要求5所述的大规模知识图谱的错误连接关系诊断方法,其特征在于:
所述集合距离的计算方法包括:
计算两个集合的Jaccard距离J(A,B):
Figure FDA0002500059410000021
其中A表示节点对中一个节点的连接关系集合,B表示节点对中另一个节点的连接关系集合;
预设定距离阈值,将Jaccard距离J(A,B)小于或等于距离阈值的两个集合所对应的节点对判定为相矛盾含义的节点对。
7.一种大规模知识图谱的错误连接关系修正方法,其特征在于,包括权利要求1至6中任一项所述的大规模知识图谱的错误连接关系诊断方法,还包括,
将判定为相矛盾含义的节点对所对应的连接关系集合中所有IsA关系重新判断正确性,再确定节点对中每个节点与下级节点的连接关系。
8.根据权利要求7所述的大规模知识图谱的错误连接关系修正方法,其特征在于,
对于在客观上无交集的矛盾关系节点对,采用其连接关系集合中对应于同一下级节点的IsA关系被使用的频率进行连接关系的重新判断,删除矛盾关系节点对中与下级节点的IsA关系使用频率小的连接关系,保留与下级节点的IsA关系使用频率高的连接关系,完成节点之间的连接关系修正。
9.根据权利要求7所述的大规模知识图谱的错误连接关系修正方法,其特征在于,
对于同词异义的矛盾关系节点对,为其中每个节点添加副属性,从而根据副属性确定上下级节点之间的正确连接关系。
10.根据权利要求7所述的大规模知识图谱的错误连接关系修正方法,其特征在于,
对于偏僻关系的节点对,另行建立可疑知识图谱,然后通过人工方式确定上下级节点之间的正确连接关系。
CN201810787761.4A 2018-07-18 2018-07-18 大规模知识图谱的错误连接关系诊断及修正方法 Active CN109086356B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810787761.4A CN109086356B (zh) 2018-07-18 2018-07-18 大规模知识图谱的错误连接关系诊断及修正方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810787761.4A CN109086356B (zh) 2018-07-18 2018-07-18 大规模知识图谱的错误连接关系诊断及修正方法

Publications (2)

Publication Number Publication Date
CN109086356A CN109086356A (zh) 2018-12-25
CN109086356B true CN109086356B (zh) 2020-09-25

Family

ID=64837659

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810787761.4A Active CN109086356B (zh) 2018-07-18 2018-07-18 大规模知识图谱的错误连接关系诊断及修正方法

Country Status (1)

Country Link
CN (1) CN109086356B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902185A (zh) * 2019-03-05 2019-06-18 北京工业大学 一种基于DBpedia的水务领域概念知识图谱构建方法
CN110245238B (zh) * 2019-04-18 2021-08-17 上海交通大学 基于规则推理和句法模式的图嵌入方法及系统
CN110263083B (zh) * 2019-06-20 2022-04-05 北京百度网讯科技有限公司 知识图谱的处理方法、装置、设备和介质
CN110704634B (zh) * 2019-09-06 2023-08-01 平安科技(深圳)有限公司 知识图谱链接错误的查修方法、装置及存储介质
CN111274400B (zh) * 2020-01-20 2021-02-12 医惠科技有限公司 一种医学术语系统的构建方法、装置、设备及存储介质
CN113535967B (zh) * 2020-04-17 2022-02-22 复旦大学 中文通用概念图谱纠错装置
CN111625659B (zh) * 2020-08-03 2020-11-13 腾讯科技(深圳)有限公司 知识图谱处理方法、装置、服务器及存储介质
CN114490884B (zh) * 2021-12-21 2023-06-06 北京三快在线科技有限公司 确定实体关联关系的方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462508A (zh) * 2014-12-19 2015-03-25 北京奇虎科技有限公司 基于知识图谱的人物关系搜索方法和装置
CN104462506A (zh) * 2014-12-19 2015-03-25 北京奇虎科技有限公司 基于用户标注信息构建知识图谱的方法和装置
CN104462501A (zh) * 2014-12-19 2015-03-25 北京奇虎科技有限公司 基于结构化数据的知识图谱构建方法和装置
CN107784088A (zh) * 2017-09-30 2018-03-09 杭州博世数据网络有限公司 基于知识点连接关系的知识图谱构建方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462508A (zh) * 2014-12-19 2015-03-25 北京奇虎科技有限公司 基于知识图谱的人物关系搜索方法和装置
CN104462506A (zh) * 2014-12-19 2015-03-25 北京奇虎科技有限公司 基于用户标注信息构建知识图谱的方法和装置
CN104462501A (zh) * 2014-12-19 2015-03-25 北京奇虎科技有限公司 基于结构化数据的知识图谱构建方法和装置
CN107784088A (zh) * 2017-09-30 2018-03-09 杭州博世数据网络有限公司 基于知识点连接关系的知识图谱构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于本体的中医知识图谱构建;张德政等;《情报工程》;20170215;全文 *

Also Published As

Publication number Publication date
CN109086356A (zh) 2018-12-25

Similar Documents

Publication Publication Date Title
CN109086356B (zh) 大规模知识图谱的错误连接关系诊断及修正方法
Szpektor et al. Improving recommendation for long-tail queries via templates
JP6309644B2 (ja) スマート質問回答の実現方法、システム、および記憶媒体
CN110781317B (zh) 事件图谱的构建方法、装置及电子设备
CN111625659B (zh) 知识图谱处理方法、装置、服务器及存储介质
KR101793222B1 (ko) 어플리케이션 검색들을 가능하게 하기 위해 사용되는 검색 인덱스의 업데이트
CN104462084B (zh) 基于多个查询提供搜索细化建议
Pham et al. S3g2: A scalable structure-correlated social graph generator
CN109614476A (zh) 客服系统问答方法、装置、计算机设备及存储介质
WO2015093541A1 (ja) シナリオ生成装置、及びそのためのコンピュータプログラム
CN105843850B (zh) 搜索优化方法和装置
CN104199969B (zh) 网页数据分析方法及装置
CN103970733B (zh) 一种基于图结构的中文新词识别方法
CN103955529A (zh) 一种互联网信息搜索聚合呈现方法
CN111091006B (zh) 一种实体意图体系的建立方法、装置、设备和介质
CN109065173B (zh) 知识路径的获取方法
CN110633406B (zh) 事件专题的生成方法、装置、存储介质和终端设备
WO2018237098A1 (en) METHODS AND SYSTEMS FOR IDENTIFYING COORDINATED ACTIVITY MARKERS IN SOCIAL MEDIA MOVEMENTS
CN105631749A (zh) 基于统计数据的用户画像计算方法
CN112380385B (zh) 一种基于多模态关系图的视频时刻定位方法及设备
CN104933171A (zh) 兴趣点数据关联方法和装置
CN113220904A (zh) 数据处理方法及数据处理装置、电子设备
CN105354343B (zh) 基于远程对话的用户特征挖掘方法
Zhao et al. Integrating ontologies using ontology learning approach
Hu et al. Enriching top-down geo-ontologies using bottom-up knowledge mined from linked data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant