CN110083756B

CN110083756B - 识别知识图数据结构中的冗余节点

Info

Publication number: CN110083756B
Application number: CN201910052542.6A
Authority: CN
Inventors: A.吉奥瓦尼尼; T.U.谢德勒; E.鲁格; T.斯内尔格罗夫; S.拉维扎; F.格拉夫
Original assignee: Qindarui Co
Current assignee: Qindarui Co
Priority date: 2018-01-26
Filing date: 2019-01-21
Publication date: 2023-11-17
Anticipated expiration: 2039-01-21
Also published as: US10884865B2; CN110083756A; US20190235961A1

Abstract

提供了用于消除知识图中的冗余节点的方法、计算机系统和计算机程序产品。通过确定具有相似结构的两个节点，对知识图执行结构分析。通过确定潜在冗余节点的搜索结果相关性，执行经验分析，搜索结果相关性包括从对知识图的不同的搜索查询产生的搜索结果节点的相关性或者由于在潜在冗余节点的子树中的所选择的搜索结果节点所导致的搜索结果的相关性。将结构分析和经验分析的结果合并，以产生两个节点的冗余置信水平。将两个节点中的一个确定为冗余。从知识图中移除两个冗余节点中的一个。

Description

识别知识图数据结构中的冗余节点

技术领域

本发明一般地涉及知识图的优化，更具体地，涉及知识图中的冗余节点的消除。

背景技术

大数量的数据、特别是非结构化数据的管理继续成为企业的困扰。以允许快速可靠访问的方式存储和管理专业技术知识仍然很困难。近来，认知计算知识图被用于存储和处理信息。知识图包括事实，其可以从企业内部和外部的各种来源收集，并且可以存储在知识图网格(mesh)的节点上。节点典型地通过边(edge)(也被称为链路(link))连接，其代表单个节点之间的关系。

知识图的可用性的关键因素是可用的节点数。大的知识图、象那些由在线百科全书或者搜索引擎使用的知识图可能会包含超过上亿个节点。除了需要大量快速磁盘存储之外，如果太多节点需要处理，搜索性能会下降。实际上，在这种知识图中可能会存在太多的潜在地冗余的节点。经验表明，冗余节点(或者更好一些，是带有冗余内容的节点)随着时间的推移被集成在知识图中。冗余节点可能包含相同或者接近相同的信息。

例如：在一个开放式的百科全书中，几个作者会生成覆盖(几乎)同一主题的条目，但对该条目使用了(稍微)不同的名称。潜在的冗余并不明显。或者，在因特网上爬取的搜索引擎自然地提取很多冗余信息，导致在该搜索引擎使用的知识图中的冗余条目。

因此，以节点数度量的话，知识图的大小会比实现其目的所需要的大。目前，找到这些冗余主要通过手工进行，或者需要非常大量的计算能力，以便在知识图的单个节点之间进行语义比较。

发明内容

根据本发明的各个方面，提供了用于消除知识图中的冗余节点的方法、计算机系统和计算机程序产品。通过确定具有相似结构的两个节点，可以对知识图执行结构分析，两个节点的相似结构由关联模式(linkage pattern)、图中心性(centrality)和/或图同构(isomorphism)的相似性指示。通过确定潜在冗余节点的搜索结果相关性(correlation)，可以执行经验分析(empirical analysis)，搜索结果相关性包括从对知识图的不同的搜索查询产生的搜索结果节点的相关性或者由于在潜在冗余节点的子树中的所选择的搜索结果节点所导致的搜索结果的相关性。将结构分析和经验分析的结果合并，以产生两个节点的冗余置信水平。如果冗余置信水平超过一个置信水平阈值，则将两个节点中的一个确定为冗余。从知识图中移除确定为冗余的节点。

附图说明

应该注意，这里参考不同的主题描述了本发明的实施例。具体地，参考方法类型权利要求描述了一些实施例，而参考诸如计算机系统和/或计算机程序产品的装置类型权利要求描述了其他实施例。然而，本领域技术人员将从以上和以下描述中了解到，除非另有通知，除了属于一种类型的主题的特征的任何组合之外，与不同主题相关的特征之间的任何组合，特别是在方法类型权利要求的特征与装置类型权利要求的特征之间的任何组合，都被认为在本文件中公开。

以上限定的各方面以及本发明的其他方面从下文将要描述的实施例的示例中显而易见，并且参考实施例的示例进行解释，但是本发明不限于此。

仅通过举例的方式，并参考以下附图，将描述本发明的优选实施例：

图1示出本发明的一个用于消除知识图中的冗余节点的实施例的框图。

图2示出一个说明如何识别具有相似直接关联的节点的实施例的框图。

图3示出一个说明如何用具有相同中心性的图同构来识别节点的实施例的框图。

图4示出一个说明如何识别从相似搜索和用户行动中产生经常命中的冗余节点的实施例的框图。

图5示出一个说明如何通过以相同的输入值运行穿过知识图的不同路径并产生相同的结果来识别冗余节点和子树的实施例的框图。

图6示出基本知识图的一部分的一个实施例的框图，其与相邻节点的表一起，用于说明节点X、Y和Z的潜在冗余。

图7示出根据图3的显示连接到相同节点的三条链路的实施例的框图。

图8示出根据图3的显示连接到相同节点的四条链路的实施例的框图。

图9示出根据图3的显示连接到相同节点的五条链路的实施例的框图以及链路表和逻辑运算表。

图10示出说明知识图中的中心性的程度的知识图的一部分的一个实施例的框图。

图11示出根据图5的显示由依赖于潜在冗余节点的子树中的命中个数识别的两个潜在冗余节点的实施例的框图。

图12示出用于消除知识图中的冗余节点的一个实施例的框图。

图13示出根据图12的实施例的框图。

具体实施方式

在本说明的上下文中，可以使用以下惯例、术语和/或表达：

术语“知识图”可以指代网络化数据结构，其包括在节点中代表的事实和代表节点之间的连接或链路的边。这样，知识图可以代表一个组织的所谓的非结构化数据、即事实及其语义关系的知识库。知识图常常被搜索引擎所使用。

术语“冗余节点”可以指代知识图中的其内容可以由另一个节点覆盖的节点。因此，可以假设知识图的节点包括/存储知识图的事实。

术语“结构分析”与经验分析相反，可以指代对特定领域中的知识图的结构元素的确定。特定领域可以以节点为中心，达到一有限深度，其中，该深度可以指代周边节点的层。例如，深度值1可以描述节点的直接邻居，即只能通过一条边到达的节点。深度值2可以表示在所讨论的节点与另一个节点之间的一个节点，即需要两条边。

术语“相似结构”可以指代就节点、图像及其相应关系而言的可比较(comparable)结构，但不是相同的结构。可以通过数学原理确定该结构的元素与另一个结构相似，并且可以导出一个相似性值。如果两个结构的相似性值的差低于一个预先限定的或动态限定的阈值，则认定两个结构之间的相似性。

术语“关联模式”可以指代节点、页面和其他节点之间的可识别的特征模式。可以在多个深度水平上调查关联模式。深度值越低，关联模式越相似。如果与更高深度值相比，例如，如果直接关联(路径长度＝1)相同，则节点可以被识别为冗余，即，当节点被链接到相似/相同集合的节点时，将其认为是冗余的。

术语“图中心性”在图论和/或网络分析中可以指代可以标识图中最重要的顶点(vertices)或可比较的节点的一个指示符。可以应用不同的中心性值确定过程(例如，通过步行结构，通过网络流动)。

术语“图同构”可以指代图中的如下情况，即图中的一个节点及其周边、即特定深度的边和节点可以被映射到另一个节点以及该另一个节点的相关周边，这样，所有元素都可以彼此映射。这种映射可以是对称的。

术语“经验分析”可以指代例如由用户或搜索引擎对到知识图的历史访问模式的确认。这样，可能需要存储以前的搜索结果、查询以及其他参数和元数据、例如起始点和其他展示结果(即节点)。

术语“间接”、特别是“间接节点”可以指代从一个源节点开始仅仅通过一条链路或边不能到达的节点。然而，该节点可以经由一个或更多中间节点由2条或更多条边到达。

所提出的本发明消除知识图中的冗余节点，可以提供多种好处和技术效果：

如果可以识别冗余节点，可以显著减少存储知识图所需的存储总量。然而，不仅所需的存储量减少，知识图的复杂性也可以降低，因为节点的知识图中的边也是冗余的，也不再需要，因此可以消除。这也帮助减少所需的存储量。

提出的方法以及相关的装置不需要对节点的内容进行任何语义比较。这可以显著减少识别冗余节点所需的计算量。本发明利用知识图的现有结构，而不需要依赖于单个节点的内容。实际上，只有知识图的结构被用来确定冗余节点。这个内容不可知的方法只需要大约为n的计算量，其中n代表节点的个数。

并且，由两阶段过程识别冗余节点的一般原理帮助减少所需的计算能力。首先，可以将知识图中的潜在冗余的区域局部化，第二步可以基于知识图部分的结构确认冗余。最后，还可以添加语义比较，以便确认由所提出的主要方法确定的潜在冗余。

提出的本发明依赖于多个步骤，这些步骤的结果可以被合并。这样，对冗余节点的第一个方法可以由知识图的次级结构分析来确认。应该注意的是，这些步骤都不依赖于任何节点的内容。只有知识图的结构、即由边建立的节点的关系会用于对知识图中的冗余的基于结构的确认。

下面将解释本方法的另外的实施例，其也适用于相关的装置。

根据本发明的一个有利的实施例，可以通过产生节点标识符、特别是所有的节点标识符、其直接邻居、特别是那些路径长度为1的邻居以及其次级邻居、即那些路径长度为2或更高的邻居的排序列表，并且如果两个节点都链接到一个第三节点、或者两个节点都未链接到一个第三节点，则将两个节点确认为是相似的，来确定关联模式。

此外，本发明可以包括，通过将逻辑运算运用到两个节点的所有关联，确定两个节点之间的关联相似性分数值，并且，确定具有关联相似性分数值的两个节点(潜在冗余)的结构冗余值S是否高于一个结构冗余置信阈值水平。该阈值水平可以预先限定，或者可选地，是动态可调整的。这样，可以使用灵活算法来设置阈值水平，如下面所讨论的，该阈值水平还依赖于所使用的其他步骤。

根据本发明的又一个有利的实施例，可以通过确定直接或间接链接到节点直至一个深度值的边的个数，确定节点的中心性值C。初始深度值可以设置为值一，即只有直接邻居的个数才被考虑。还应该注意的是，刚刚描述的步骤反映了中心性程度。然而，也可以使用其他中心性方法，例如调和中心性，紧密中心性，等等。不同的中心性方法可以结合使用或者替代地用于中心性程度。在结合使用的情况下，可以通过组合单个中心性结果来确定加权平均一般中心性值。

根据一个优选实施例，本发明还可以包括，以深度值1开始，在两个以上节点具有相同的中心性值时，将深度值增加1；在深度值等于一个预先限定的最大深度值时，停止中心性的确定。采用这个算法，考虑到知识图的实际结构，可以增大所确定的中心性的深度。

根据另一个优选实施例，本发明还可以包括，在确定两个节点具有高于预先限定的中心性阈值、特别是例如90％(当然，其他百分比值也是可能的)的中心性值时，其中预先确定的深度对于这两个节点是相同的，由下式确定这两个节点周围的区域的同构等级(isomorphism rank)R：

R＝(1/|isoM_N2-isoM_N1+e|)/max(1/|isoM_M2–isoM_M1+∈|).

从而，变量具有如下含义：

isoM_NX＝节点NX周围的区域X的同构，以及

isoM_MX＝整个知识图中的由中心性确定来确定的其他节点组合周围的区域的同构，以及∈＝小数值，例如10^-3。需要这个数是为了避免不小心除以零。

根据本发明的另一个实施例，可以通过确定对两个节点的选择频率，并且如果选择频率之间的差低于一个选择差值，通过确定第一经验冗余值ESV1，执行从对知识图的不同的搜索查询产生的搜索结果节点的相关性。可能需要另外的标准化，以便对结果进行更直接的比较。

根据本发明的允许实施例，可以通过确定关于子树中的节点的搜索结果总和频率，并且如果搜索结果总和频率之间的差低于一个搜索结果差值，通过确定第二经验冗余值ESV2，执行由于潜在冗余节点的子树中的所选择的、特别是由用户所选择的搜索结果节点所导致的搜索结果的相关性。这样，通过比较上两个实施例，可以实现单个节点(例如，在知识图中的树的端点的节点)与完整子树所依赖的节点之间的区分。

根据本方法的实际实施例，合并的冗余置信水平RC值可以由下式确定：

RC＝a*S+b*f(C,R)+c*ESV₂+d*ESV₂.

从而，变量具有如下含义：

S＝结构冗余值；

C＝中心性值；

R＝同构等级；值S、C、R的定义如上；

f是C和R的函数组合，例如，f(C,R)＝R*(1+e*C)，其中a是常数；

ESV₁＝第一经验冗余值，以及

ESV₂＝第二经验冗余值；这些值也已在上面介绍过。最后，值a、b、c、d中的每一个是带有进一步的条件的有理数，并且，a,c>b,d，即，a>b或d及c>b或d。显然，如果e＝0，则C的影响被消除。

这可以反映出，结构冗余值(步骤1)和步骤2可以是冗余的主要判决条件，其中，同构的确定以及步骤4可用于对该确定进行确认。

本领域技术人员将会理解，基于这些想法，还可以运用用于不同步骤的层级方法。

根据本发明的另一个实施例，如果合并的冗余置信水平RC值超过一个预先限定的冗余阈值，则可以执行两个节点中的一个的移除、即删除。该步骤可以结束该循环：已经识别出冗余节点并且可以将其最终移除。相关的边也可以被移除。

进一步地，该移除可以立即执行，即在识别出冗余节点时执行，或者可以在一个较晚阶段在知识图的再组织模式中执行。在这种情况下，将冗余节点标记为冗余将是有用的，或者在本地标记，即作为节点(元数据)信息的一部分，或者在适于知识图的维护任务的数据结构中集中标记。

下面将给出对附图的详细描述。图中的所有说明都是示意性的。首先，给出了用于消除知识图中的冗余节点的本发明的一个实施例的框图。其后，将描述用于消除知识图中的冗余节点的进一步的实施例。

下面将明确参考附图描述本发明。

图1显示了用于消除知识图中的冗余节点的本发明的一个实施例的框图100。可以注意到，本发明的实施例对于可以并行或顺序处理的多个节点同样有效。因此，可以在知识图的不同区域并行执行对冗余节点的搜索和潜在消除，减少知识图对用户的潜在的停机和不可用。

框图100描述了通过确定具有相似结构的两个节点来执行102结构分析，特别是第一步骤和第二步骤。两个节点的相似结构由关联模式指示，特别是从路径长度1开始，描述/计数有多少边连接到相邻节点(也被称为步骤1)，两个节点的相似结构还由图中心性和图同构指示(也被称为步骤2)。

框图100还包括，通过确定潜在冗余节点的搜索结果相关性，执行104经验分析，特别是步骤3和步骤4，搜索结果相关性包括从对知识图的不同搜索查询产生的搜索结果节点的相关性以及由于在潜在冗余节点的子树中的特别是由用户或有关过程所选择的搜索结果节点所导致的搜索结果的相关性中的一个。

最后但并非最不重要的，框图100包括，将结构分析和经验分析的结果合并106成这两个节点的冗余置信水平值，并且，如果冗余置信水平值超过一个预先限定的或者可动态调整的置信水平阈值，将两个节点中的一个(哪一个不重要)确定108为冗余的。然后，框图100包括移除110两个冗余节点中的一个。

下面，将描述用于识别冗余节点的几个步骤的更详细的描述。可以注意到，这些所用的步骤列表是示意性的。这些步骤可以独立地应用到同样的知识图上。可以用逻辑运算符(例如，AND，OR)或通过对结果加权来合并这些结果，例如，仅仅当几个步骤的加权结果生成一个阈值时，才将节点认为是冗余的。

图2示出一个说明如何识别具有相似直接关联(路径长度1)的节点的实施例200的框图。因而，如果节点链接到一组相似或者相同的节点，则认为这些节点是冗余的。这表示步骤1。在这个例子中，由虚线圆圈表示的节点A和G将被识别为冗余的，因为这两个节点具有到一组相同的其他节点B、D、E和F的边(深度值1)。

图3示出一个说明如何用具有相同中心性的图同构识别节点的实施例300的框图。将四个具有相同水平的中心性、即周围链路/边结构的节点进行比较。这组合起来表示步骤2。在这个例子中，节点A、K将被视为冗余的，因为其具有相同的中心性(节点A连接到节点B、D、E、F，节点K连接到节点C、M、N、L)。根据步骤2，将需要额外的同构比较来确认或撤销节点A和K的冗余性。

图4示出一个说明如何识别从相似搜索和用户行动中产生经常命中的冗余节点的实施例400的框图。这表示步骤3。这里，虚线圆圈节点I和E将被视为冗余的，因为其在对知识图的可比较查询中常常被用户选中。

图5示出一个说明如何通过以相同的输入值运行穿过知识图的不同路径并产生相同的结果来识别冗余节点和子树的实施例500的框图。并且，由于子树“B”与冗余子树“C”合并，这还减少知识图中的节点的个数。这表示步骤4。或者，可以一起消除B或C下面的整个子树。

图6示出基本知识图的一部分的一个实施例600的框图，其与相邻节点的表一起，用于说明节点X、Y和Z的潜在冗余。

首先，可以假定，节点接收一个标识符(ID)，其不必是唯一的，因为短ID的使用减少了比较运算的工作量。不唯一的ID会导致将两个或更多实际上不是冗余的节点分类为冗余的。然而，这种假分类可以在后续的冗余检查中校正(典型地，如上所述的步骤2)。ID的长度(即，其是在子图中唯一还是在整个知识图中唯一)是预先确定的，以满足优化计算时间的目的。例如，在包含108的知识图中，可以仅使用104个唯一的ID。

本发明一般使用一个侦察(scouting)过程来爬过知识图。这样，每个节点被处理一次。为每个节点产生直接邻居(路径长度1)和次级邻居(路径长度2或更高)的节点ID的排序列表。在当前节点与其直接和次级邻居(或更高级邻居)之间比较关联相似性。当两个进一步的节点都链接到第三个节点或者两个进一步的节点都不链接到第三个节点时，存在相似性。为每对节点累积所识别出的相似性，产生一个相似性分数。当两个节点的相似性分数超过一个预先确定的或者动态调整的阈值并且与一个预先确定的(或者动态调整的)值相比具有更多的共同链路，则认为这两个节点是冗余的。

可以注意到，第二个条件“共同链路”是需要的，否则会将两个几乎没有连接到邻居的节点认为是冗余的。

在图6的例子中，在下面的节选知识图(由知识图部分600的左侧和右侧的虚线所指示的知识图的一部分)中将更仔细地观察节点X、Y和Z。节点A到L之间的链路和剩余的知识图表示为虚线。只有连接到节点X、Y和Z的链路是这里所要讨论的。

知识图部分600下面的表显示了所讨论节点(X、Y和Z)及其直接和次级邻居的ID。作为示例，节点X具有直接邻居ACFJKL，次级邻居的ID为YZ。本领域技术人员能够解释图6中的表的剩余部分。在这个例子中，应该允许以单个大写字母的形式为节点使用非常短的ID(在实现中，节点ID将包含多个字符)。将图6的知识图作为解释一个或多个步骤的基础用在后面的描述中。

图7示出根据图3的显示连接到相同节点的三条链路的实施例700的框图。将潜在冗余的节点Y和Z的三条链路(或边)显示为双实线，将第一阶节点F、J、K也用双实线表示。

图8示出根据图3的显示连接到相同节点的四条链路的实施例800的框图。这里，采用与图7相同的图形逻辑。两个潜在冗余节点X和Y连接到节点C、F、J、K。

图9示出根据图3的显示连接到相同节点的五条链路的实施例900的框图以及链路表902和逻辑运算表904。这里也采用同样的高亮规则。此时，所示出的从潜在冗余节点X、Z到节点A、B、C、F、J、K、L的链路显示为双实线。可以注意到，在图7、8、9中仅反映了潜在冗余节点的第一阶节点。这显示在表902中，其中，“1”表示链路/边，如果两个节点不相连，则在表中显示为“0”。

在下一步骤中，由每个节点的逻辑运算XNOR(其为XOR的逻辑补)的总和来确定两个节点之间的关联的相似性水平。这样，对于冗余节点的每个潜在组合(X/Y,X/Z,Y/Z)，应用XNOR运算符，得到表904。在每行中，确定“1”的总和，显示为在表的右侧的总和。该结果越高，则关联的相似性水平越高。现在，将链路相似性的剪切水平(阈值)例如设置为10，并且，将假定两个节点具有至少四个共同链路作为第二个条件。其结果是，节点X和Z将被认为是冗余的。作为对置信水平的度量，可以使用关联相似性分数。

同样，应该注意到，用于该确定的计算量大约为n，因为仅对知识图执行一次清扫。

图10示出一个说明知识图中的中心性的程度的知识图的一部分的实施例1000的框图。在下一步骤中，图中心性与后面的图同构合并。

首先，本发明的过程扫描以多个位置(最大为m)为中心的图。这些度量中的一个参数是搜索的深度。通常，深度越低，用于该确定所需的计算时间越少。初始深度是从一个预先确定的参数导出的。仅对那些其相似性度量被发现大于一个相关阈值的节点而言，该算法将深度自动增大至少1个额外的单位。

图10显示了知识图中具有不同中心性的中心。中心性为1、2或3的节点以单线圆圈表示。中心性程度为4的节点以双线圆圈表示，这里是节点A、K。最后，节点C的中心性显然为5，因为有五条边与节点C相关。因此，该节点以三线圆圈表示。

如果已经识别出具有可比较的中心性程度的节点，则另外还使用同构比较来确认两个节点的结构相似性/潜在冗余。

可以使用一个阈值来进入中心性/同构方法的第二步骤：例如，如果已经确定两个节点具有相似的图中心性，例如大于90％，此时，并且仅在此时，确定这些区域之间的同构，该确定将给出更多的洞察，同时也需要更加密集的计算。在这个确定结束时，同构等级R可以被计算为：

R＝(1/|isoM_N2-isoM_N1+ε|)/max(1/|isoM_M2–isoM_M1+ε|),其中

isoM_NX＝在节点NX周围的区域X的同构，isoM_MX＝在由中心性确定所确定的其他节点组合周围的区域的同构，ε＝小数值，例如10^-3。可以注意到，两个节点N1和N2可以代表两个潜在冗余节点。需要小的ε值是为了避免不小心除以零。还应该理解，等式中的最大值是个绝对值，因为其反映了整个知识图中的节点之间的差。在存在一个相同的同构等级R的情况下，同构的节点的同构等级R将等于1。如上定义等级或置信水平，以便最大化具有最接近的同构的这些对节点。在等式中除以最大值，以便具有标准化为1的相对度量(最大值仅在特殊情况下为1；还可以更低)。

同构的使用已经证明是有价值的，尤其是在考虑多个边层级的时候。此时，算法对于节点A和K继续到深度2，然而，结果却不再相同，因为节点B与3个节点相连。另一方面，节点C与5个其他节点相连。此时，该算法会向用户给出节点A和K是深度为1的冗余节点候选(在该过程的开始，将深度1定义为最小)。

由上述限定的等级给出置信水平，以便从同构最接近的各对节点以升序对候选者进行排序。

还可以注意到，计算量在这里也大约为n，因为仅对知识图执行一次清扫。

图11示出根据图5的显示由依赖于潜在冗余节点的子树中的命中个数识别的潜在冗余节点的实施例1100的框图。

在该步骤之前，应该描述另一个步骤(与图4相比)。该步骤涉及识别从不同搜索和用户行动中产生经常命中的潜在冗余节点。该步骤基于查询的历史结果以及用户的选择。周期性地审查数据并使用如下：

分析搜索的命中。如果对于不同的搜索找到相同的节点，则表明这些可能是语义上相近的，并且在知识图中也是相近的。在这种情况下，进一步分析用户行动；如果用户总是(或者在大多数情况下，可以使用阈值编程)确定选择同一节点，则其他节点将被认为是冗余的。该过程对于可用的用户数据量敏感，需要有代表性的信息数量，例如，对于同一主题产生同一选择节点的100个搜索。

例如，在基于知识图的搜索引擎中，用户输入被记录，搜索术语“心脏病发作(heart attack)”的用户的统计信息显示出80％的用户在结果之间选择了术语“心肌病发作(myocardial attack)”(最终还由于文章的篇幅)。在这种情况下，算法会选择两个节点(“心脏病发作”和“心肌病发作”)作为语义相似性并因此作为潜在冗余的可能候选。在分析的最后，以一个被定义为两个术语在用户行动中出现的标准化的参数对候选节点分等级。

该步骤的置信水平将由相关命中和相关用户选择与所有命中和所有用户选择相比较的相对量来给出。

还可以注意到，在这个步骤中的计算量大约为n。搜索操作所需的计算量与知识图的大小的规模相当。例如，在一个实现中，可能需要必须在能够获得该步骤的代表结果之前评估0.1*n的搜索操作和用户选择操作的数据。

返回图11，其示出了通过以相同的输入值运行穿过知识图的不同路径而产生相同的输出来识别冗余节点和子树的步骤。通过该步骤，如果(a)搜索请求经常在两个部分或者两个子树中同时找到结果，或者(b)在向用户展示了搜索结果之后，用户以读取访问进行响应以便从两个部分或者两个子树提取信息，或者(c)在两个部分或者两个子树中都观察到产生读取访问，则知识图的部分或子树被认为是冗余的。

图11示出了两个虚线节点B和C是潜在冗余的。一些节点、特别是显示为方形的节点D、E、J代表对第一查询的搜索命中率，而显示为六边形的节点、特别是节点G、H、I、K、F、L代表对第二查询的搜索。

可以考虑下面的例子：在节点G、H和I被指代为由一个查询命中的92％的情况中，节点F、K和L也被指代为命中。在节点D被指代为由一个查询命中的94％的情况下，节点E和J也被指代为命中。在这个例子中，将阈值设为90％。由于平均同时命中率超过了90％，B和C的子树被认为是冗余的。

可以由查询的频率或者由该查询命中的节点的个数来进行对各种查询的加权。后者的优点是永远不会被一个查询同时命中的多个节点(其可能不是冗余的)可以以零加权。

该步骤不必然需要对父节点B和C的同时读取访问。在这种情况下，只有不包括父节点的子树被认为是冗余的(在该例子中的节点D到L)。在观察到对B和C的同时读取访问的情况下，两个父节点以及其子树被认为是冗余的。

与该步骤类似，如上所述(对节点的相同命中率)，由用户的相关命中和/或相关读取访问操作的相对量给出置信水平。

这个步骤的计算量也是大约为n。搜索操作所需的计算量与知识图的大小的规模相当。这样，所有所讨论的步骤仅仅线性地与知识图的大小的规模相当。

上面所描述的步骤的优势之一在于当组合地采用多个不同步骤时所产生的多样性(variety)。将相同的节点识别为冗余的。合并的冗余置信水平增大。如上面所讨论的，步骤1和步骤2可以看作是“结构的”，步骤3和步骤4可以看作是“经验的”。进一步地，步骤1和步骤3可以看作是“关键的”，其是冗余最必要的测试，步骤2和步骤4可以看作是“构象的(conformational)”。这些测试确认(或否认)步骤1和3的发现，但其本身并不足以识别冗余。

步骤1和3都必须识别一个冗余的节点，将其标记为冗余的。步骤2和4对冗余的确认提高置信水平。步骤2和4对冗余的否定降低置信水平。可以将行动(例如，节点合并/消除)所需的置信水平设置为特定知识图或修剪过程所希望的水平。

在准备修剪/合并/删除的过程中，用来帮助建立冗余的相同的信息也可以用来建立“主要”节点。通常，更多的知识图关联和更频繁的用户搜索选择都可以证明是主要的。因此，在步骤1中，节点X和Z会被认为是同等主要的(因为其每个都具有六个直接链路)，但在步骤2中，节点K会被认为是主要的，因为其深度为2的关联(5个链路)多于节点A(3个链路)。对于步骤3和4，用更经常被用户选择的搜索结果来确定主要性。

图12示出用于消除知识图中的冗余节点的一个实施例的框图1200。框图1200包括结构分析模块1202和经验分析模块1204，结构分析模块1202适于通过确定具有相似结构的两个节点来执行结构分析，由关联模式、图中心性和/或图同构将结构指示为相似的，经验分析模块1204适于通过确定潜在冗余节点的搜索结果相关性来执行经验分析，搜索结果相关性包括从对知识图的不同的搜索查询产生的搜索结果节点的相关性以及由于在潜在冗余节点的子树中的所选择的搜索结果节点所导致的搜索结果的相关性中的一个。

本发明还包括适于合并结构分析和经验分析的结果以便为两个节点产生冗余置信水平值的合并单元1206、适于如果冗余置信水平值超过一个置信水平阈值则将两个节点中的一个确定为冗余的确定模块1208以及适于移除两个冗余节点中的一个的移除单元1210。

本发明的实施例可以与几乎任何类型的适合于存储和/或执行程序代码的计算机一起实现，而与平台无关。作为示例，图13示出了适合于执行与当前公开的发明有关的程序代码的计算系统1300。

计算系统1300仅是合适的计算机系统的一个示例，并且不旨在对本文描述的本发明的实施例的使用范围或功能提出任何限制，无论计算机系统1300是否能够实现和/或执行上文所述的任何功能。在计算机系统1300中，存在可与许多其他通用或专用计算系统环境或配置一起操作的组件。可适用于计算机系统/服务器1300的众所周知的计算系统、环境和/或配置的示例包括但不限于个人计算机系统、服务器计算机系统、瘦客户端、胖客户端、手持或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机系统、大型计算机系统以及包括任何上述系统或设备的分布式云计算环境等。计算机系统/服务器1300可以在由计算机系统1300执行的计算机系统可执行指令(例如程序模块)的一般上下文中描述。通常，程序模块可以包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。计算机系统/服务器1300可以在分布式云计算环境中实践，其中任务由通过通信网络链接的远程处理设备执行。在分布式云计算环境中，程序模块可以位于包括存储器存储设备的本地和远程计算机系统存储介质中。

如图所示，计算机系统/服务器1300以通用计算设备的形式示出。计算机系统/服务器1300的组件可以包括但不限于一个或多个处理器或处理单元1302、系统存储器1304、以及将包括系统存储器1304的各种系统组件耦合到处理器1302的总线1306。总线1306表示几种类型的总线结构中的任何一种或多种，包括存储器总线或存储器控制器、外围总线、加速图形端口以及使用各种总线架构中的任何总线架构的处理器或本地总线。作为示例而非限制，这样的架构包括工业标准架构(ISA)总线、微通道架构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)本地总线和外围组件互连(PCI)总线。计算机系统/服务器1300通常包括各种计算机系统可读介质。这样的介质可以是计算机系统/服务器1300可访问的任何可用介质，并且它包括易失性和非易失性介质、可移动和不可移动介质。

系统存储器1304可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)1308和/或高速缓冲存储器1310。计算机系统/服务器1300还可以包括其他可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为示例，可以提供存储系统1312，用于从不可移动的非易失性磁介质(未示出并且通常称为“硬盘驱动器”)读取和写入。尽管未示出，但是可以提供用于从可移动的非易失性磁盘(例如，“软盘”)读取和写入的磁盘驱动器，以及用于从可移动的非易失性光学器件、诸如CD-ROM、

DVD-ROM或其他光学介质读取或写入的光盘驱动器。在这种情况下，每个都可以通过一个或多个数据介质接口连接到总线1306。如下面将进一步描绘和描述的，存储器1304可以包括至少一个程序产品，该程序产品具有一组(例如，至少一个)程序模块，这些程序模块被配置为执行本发明的实施例的功能。

具有一组(至少一个)程序模块1316的程序/实用程序可以存储在存储器1304中，作为示例而非限制地，程序模块包括操作系统、一个或多个应用程序、其他程序模块和程序数据。操作系统、一个或多个应用程序、其他程序模块和程序数据中的每一个或其某种组合可以包括网络环境的实现。如本文所述，程序模块1316通常执行本发明的实施例的功能和/或方法。

计算机系统/服务器1300还可以与一个或多个外部设备1318(例如键盘、指示设备、显示器1320等)通信；与一个或多个使用户能够与计算机系统/服务器1300交互的设备通信；和/或与使计算机系统/服务器1300能够与一个或多个其他计算设备通信的任何设备(例如，网卡，调制解调器等)。这种通信可以通过输入/输出(I/O)接口1314进行。此外，计算机系统/服务器1300还可以通过网络适配器1322与一个或多个网络、例如局域网(LAN)、通用广域网(WAN)和/或公共网络(例如，因特网)通信。如图所示，网络适配器1322可以通过总线1306与计算机系统/服务器1300的其他组件通信。应该理解，尽管未示出，但是其他硬件和/或软件组件可以与计算机系统/服务器1300结合使用。示例包括但不限于：微代码、设备驱动程序、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器和数据存档存储系统等。

另外，用于消除知识图中的冗余节点的系统1200可以连接到总线系统1306。

已经出于说明的目的给出了对本发明的各种实施例的描述，但是并不旨在穷举或限制于所公开的实施例。在不脱离所描述的实施例的范围和精神的情况下，许多修改和变化对于本领域普通技术人员来说是显而易见的。选择这里使用的术语是为了最好地解释实施例的原理、实际应用或对市场中发现的技术的技术改进，或者使本领域普通技术人员能够理解本文公开的实施例。

在任何可能的技术细节结合层面，本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

Claims

1.一种用于消除搜索引擎使用的知识图中的冗余节点的方法，所述方法包括：

利用搜索引擎采集数据；

将所采集数据表示为知识图中的节点，将所采集数据之间的关系表示为节点之间的边；

通过确定两个节点具有相似结构，执行知识图的结构分析，所述两个节点的所述相似结构由下列结构元素中的一个或多个的相似性指示：关联模式，图中心性，或图同构，其中所述关联模式表示节点、页面和其他节点之间的可识别的特征模式；

通过确定潜在冗余节点的搜索结果相关性，执行经验分析，所述搜索结果相关性包括从对所述知识图的不同的搜索查询产生的搜索结果节点的相关性或者由于在所述潜在冗余节点的子树中的所选择的搜索结果节点所导致的搜索结果的相关性；

将所述结构分析和所述经验分析的结果合并，以产生所述两个节点的冗余置信水平；

如果所述冗余置信水平超过置信水平阈值，则将所述两个节点中的一个确定为冗余；以及

从所述知识图中移除所述确定为冗余的节点，

其中，通过如下步骤，执行由于所述潜在冗余节点的子树中的所选择的搜索结果节点所导致的搜索结果的相关性：

确定关于所述子树中的节点的搜索结果总和频率，以及

如果所述搜索结果总和频率中的两个之间的差低于搜索结果差值，确定第二经验冗余值。

2.如权利要求1所述的方法，其中，所述关联模式由下列确定：

产生节点标识符、直接邻居和次级邻居的排序列表；

如果两个进一步的节点都链接到第三个节点或者如果所述两个进一步的节点都不链接到第三个节点时，将所述两个进一步的节点确定为相似；

通过对所述两个进一步的节点的所有关联施加逻辑运算，确定所述两个进一步的节点之间的关联相似性分数值；以及

确定具有所述关联相似性分数值的所述两个进一步的节点的结构冗余值S是否高于一个结构冗余置信阈值水平。

3.如权利要求2所述的方法，其中，对于所述知识图中的每个节点，通过确定直接或间接链接到所述节点直至深度值的边的个数，确定所述节点的中心性值。

4.如权利要求3所述的方法，进一步包括：

以所述深度值1开始，并且当有两个以上的节点具有相同的中心性值时；

将所述深度值增加1；以及

当所述深度值等于预先限定的最大深度值时，停止所述中心性的所述确定。

5.如权利要求4所述的方法，进一步包括：

确定两个节点是否具有高于预先限定的中心性阈值的中心性值，其中所述两个节点的所述预先限定的深度是相同的；

由下式确定所述两个节点周围的区域的同构等级R：

R＝(1/|isoM_N2-isoM_N1+ε|)/max(1/|isoM_M2–isoM_M1+ε|),其中

isoM_NX等于在节点NX周围的区域X的同构；

isoM_MX等于在所述知识图中的由所述中心性确定所确定的其他节点组合周围的区域的同构；以及

ε等于小数值。

6.如权利要求5所述的方法，其中，通过如下步骤，执行从对所述知识图的不同搜索查询所产生的搜索结果节点的所述相关性；

确定对两个节点的选择频率；以及

如果所述选择频率之间的差低于选择差值，确定第一经验冗余值。

7.如权利要求6所述的方法，其中，在所述两个节点的所述相似结构由关联模式、图中心性和图同构的相似性指示时，合并的冗余置信水平RC值由下式确定：

RC＝a*S+b*f(C,R)+c*ESV₁+d*ESV₂,其中，

S等于结构冗余值；

C等于中心性值；

R等于同构等级；

f是合并C和R的函数；

a是常数；

ESV₁等于第一经验冗余值；

ESV₂等于第二经验冗余值；以及

值a、b、c、d中的每一个是有理数，其中a、c大于b、d。

8.如权利要求7所述的方法，其中，如果所述合并的冗余置信水平RC值超过预先限定的冗余阈值，执行移除两个节点中的一个。

9.一种用于消除搜索引擎使用的知识图中的冗余节点的计算机系统，所述计算机系统包括：

一个或多个处理器；

与所述一个或多个处理器中的至少一个处理器相连的存储器；以及

存储在所述存储器中的一组计算机程序指令，其可由所述至少一个处理器执行以便运行如权利要求1-8中的任何一个所述的方法。

10.一种存储有计算机程序指令的计算机可读介质，所述计算机程序指令在由计算机执行时，使得所述计算机执行如权利要求1-8中的任何一个所述的方法。

11.一种用于消除搜索引擎使用的知识图中的冗余节点的装置，所述装置包括用于执行如权利要求1-8中的任何一个所述的方法中的步骤的模块。