CN115146022A

CN115146022A - 用于知识图中的关键词搜索的计算机实现方法

Info

Publication number: CN115146022A
Application number: CN202210325238.6A
Authority: CN
Inventors: 石雨轩; E·卡拉莫夫; T·K·陈
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-03-31
Filing date: 2022-03-30
Publication date: 2022-10-04
Also published as: DE102021203300A1

Abstract

用于知识图中的关键词搜索的计算机实现方法，其中数据集中数据由知识图表示，其中知识图包括表示数据集中实体的顶点和表示实体之间关系的边，方法包括以下步骤：接收包括关键词集合的关键词查询；基于至关键词顶点的最短路径对知识图的顶点排名；在关键词顶点的所有集合中选择关键词顶点的最小集合，最小集合包括关键词集合中每个关键词的至少一个关键词顶点；基于关键词顶点的最小集合并且基于经排名顶点的数量确定最优路径集合，其中最优路径集合包括知识图中连接与关键词查询的关键词匹配的顶点的路径，其中成本基于最优路径集合的顶点的总权重和最优路径集合的顶点之间成对语义距离的线性组合，和从最优路径集合提取对关键词查询的回答。

Description

用于知识图中的关键词搜索的计算机实现方法

背景技术

本发明涉及一种用于在数据集中进行关键词搜索的装置和方法，其中数据集中的数据由知识图来表示。可以通过找到优化成本函数的子图来自动确定该搜索的结果。

发明内容

实施例涉及一种用于在数据集中进行关键词搜索的计算机实现方法，其中数据集中的数据由知识图来表示，其中所述知识图包括表示数据集中的实体的顶点和表示所述实体之间的关系的边，所述方法包括以下步骤：

接收包括关键词集合的关键词查询；

基于至关键词顶点的最短路径来对知识图的顶点进行排名，其中关键词顶点是与关键词查询的至少一个关键词相匹配的顶点；

在关键词顶点的所有集合当中选择关键词顶点的最小集合，所述最小集合包括针对关键词集合中的每个关键词的至少一个关键词顶点；

基于关键词顶点的最小集合并且基于经排名的顶点的数量来确定最优路径集合，其中所述最优路径集合包括知识图中的连接了与关键词查询的关键词相匹配的顶点的路径，并且其中所述最优路径集合关于路径集合的最小成本是最优的，其中所述成本基于最优路径集合的顶点的总权重和最优路径集合的顶点之间的成对语义距离的线性组合，以及

从最优路径集合提取对关键词查询的回答。

关键词顶点的最小集合是关键词顶点的所有集合当中的最小集合，所述最小集合包括针对关键词集合中的每个关键词的至少一个关键词顶点。

基于关键词顶点的最小集合并且基于经排名的顶点的数量来确定最优路径集合。可以指定经排名的顶点的数量。所述数量可能例如取决于知识图的大小而变化。

路径集合被认为是将公共根顶点连接到与关键词查询的关键词相匹配的顶点的路径集合。

最优路径集合被认为是具有最小成本的路径集合。

对关键词查询的回答基于最优路径集合。因此，回答本身关于最小成本是最优的。

最优路径集合的成本基于最优路径集合的顶点的总权重和最优路径集合的顶点之间的成对语义距离的线性组合。

通过基于关键词顶点的最小集合并且基于经排名的顶点的数量来确定最优路径集合，所述方法不处理知识图中的每个顶点，而是仅处理有希望的顶点。因此，在减少计算工作量（effort）的同时，可以高效地加速回答的计算。

根据一实施例，顶点的总权重表示显著性，和/或两个顶点之间的成对语义距离表示语义内聚性。权重在知识图中被分配给其顶点和/或边。语义距离在知识图中被分配给其顶点对。权重和语义距离优选地被预先计算和预先存储，例如预先存储在主存储器或数据库中，例如与知识图一起预先存储。

较显著的图元素包括较小的权重。较不显著的图元素包括较大的权重。语义距离不应当与图距离混淆。实际上，图结构中彼此接近的两个实体可以在语义上彼此远离，例如属于知识图中的不相关的主题。较内聚的图元素包括小的语义距离。较不内聚的图元素包括较大的语义距离。通过在所述方法中包括语义距离，可以改进回答的语义内聚性。

所述方法以高效的方式解决了计算对关键词查询的语义上内聚的回答的问题。

根据一实施例，确定最优路径集合的步骤包括基于确定局部最优路径集合的迭代过程，其中所述局部最优路径集合包括知识图中的将根顶点连接到与关键词查询的关键词相匹配的顶点的路径，并且其中所述局部最优路径集合关于针对相应根顶点的路径集合的最小成本是最优的，所述迭代过程包括以下步骤：

通过针对每个关键词顶点确定距相应根顶点的最短路径来确定局部最优路径集合的总最小路径长度；

确定局部最优路径集合的成本的下限；

确定大于总最小路径长度的每个路径的成本；

将大于总最小路径长度的每个路径的成本与下限进行比较；

获得具有最小成本的路径集合作为局部最优路径集合。

根据一实施例，确定最优路径集合的步骤包括：获得具有最小成本的局部最优路径集合作为最优路径集合。

根据一实施例，利用至少一个修剪（pruning）策略来增强针对知识图的根顶点确定局部最优路径集合的步骤。

根据一实施例，从最优路径集合提取回答的步骤包括：将最优路径集合的路径合并到知识图的子图中。

根据一实施例，从最优路径集合提取回答的步骤进一步包括：从子图移除不必要的顶点和边。

另外的实施例涉及一种用于在数据集中进行关键词搜索的装置，其中数据集中的数据由知识图来表示，其中所述知识图包括表示数据集的实体的顶点和表示所述实体之间的关系的边，其中所述装置包括输入，所述输入被配置成接收包括关键词集合的关键词查询，并且被配置成将关键词映射到知识图的顶点，

其中所述装置进一步包括处理器，其中所述处理器被配置成：基于至关键词顶点的最短路径来对知识图的顶点进行排名，其中关键词顶点是与关键词查询的至少一个关键词相匹配的顶点；在关键词顶点的所有集合当中选择关键词顶点的最小集合，所述最小集合包括针对关键词集合中的每个关键词的至少一个关键词顶点；基于关键词顶点的最小集合来确定最优路径集合，其中所述最优路径集合包括知识图中的连接了与关键词查询的关键词相匹配的顶点的路径，并且其中最优路径集合关于路径集合的最小成本是最优的，其中所述成本基于最优路径集合的顶点的总权重和最优路径集合的顶点之间的成对语义距离的线性组合，以及从最优路径集合提取对关键词查询的回答，并且其中所述装置包括输出，所述输出被配置成将回答映射到关键词查询的结果，并且被配置成输出所述结果。

根据一实施例，所述装置被配置成执行根据所描述的实施例的方法的步骤。

另外的实施例涉及一种用于在数据集中进行关键词搜索的计算机程序，所述计算机程序包括计算机可读指令，所述指令当由计算机执行时使计算机执行所描述的方法的步骤。

从以下描述和附图可导出进一步的实施例。在附图中，

图1描绘了示例性知识图；

图2描绘了用于关键词搜索的装置的方面，以及

图3描绘了用于关键词搜索的方法的方面。

图1描绘了示例性知识图KG 100。

KG 100包括第一顶点102、第二顶点104、第三顶点106、第四顶点108、第五顶点110、第六顶点112、第七顶点114、第八顶点116、第九顶点118、第十顶点120、第十一顶点122和第十二顶点124。KG 100的边126在顶点104处开始，并且在顶点102处结束。KG 100的边128在顶点106处开始，并且在顶点104处结束。KG 100的边130在顶点106处开始，并且在顶点108处结束。KG 100的边132在顶点108处开始，并且在顶点110处结束。KG 100的另外的边是顶点104与顶点112之间的边134、顶点108与顶点114之间的边136、顶点108与顶点116之间的边138、顶点118与顶点112之间的边140、顶点112与顶点120之间的边142、顶点114与顶点122之间的边144、顶点114与顶点124之间的边146、顶点114与顶点116之间的边148、以及顶点120与顶点122之间的边150。

KG 100可以包括更多或更少的顶点和/或更多或更少的边。在该示例中，100表示示例性知识。对于来自其它领域、特别是技术领域的数据分析，可以使用对应的KG。

在该示例中，根据顶点参考编号到关键词的以下映射以及边参考符号到关键词的以下映射，将信息映射到顶点和边。

102：共和党

104：乔治·H·W·布什

106：安妮·哈钦森

108：富兰克林·D·罗斯福

110：约翰·阿斯平沃尔·罗斯福

112：芭芭拉·布什

114：詹姆斯·罗斯福

116：民主党

118：派对之后：最后的派对3

120：奔驰

122：德国

124：第二次世界大战

126：党派

128：后代

130：后代

132：儿子

134：孙女

136：儿子

138：党派

140：主演

142：驾驶

144：访问

146：战斗

148：党派

150：制造于。

在该示例中，KG 100被用作用于在数据集中进行关键词搜索的数据集。本发明不限于人类可读或可理解的关键词。更一般地，本上下文中的术语关键词指代数据中的任何符号或模式，它们可以利用对应的KG来分析。

表示关键词搜索的示例性结果的第一子图152包括第二顶点104、第三顶点106、第四顶点108、第六顶点112、第七顶点114、以及这些节点之间的边。该示例中的第一子图152表示对由第一关键词“芭芭拉·布什”和第二关键词“詹姆斯·罗斯福”所表示的查询的回答。

表示关键词搜索的另一个示例性结果的第二子图154包括第六顶点112、第七顶点114、第十顶点120和第十一顶点122、以及这些节点之间的边。该示例中的第二子图154表示对由关键词“芭芭拉·布什”和“詹姆斯·罗斯福”所表示的查询的另一个回答。

图2中描绘了用于在数据集中进行关键词搜索的装置200的方面。

装置200包括输入202、处理器204和输出206。该示例中的输入202针对要搜索的数据的关键词提供了接口。处理器204被配置成确定第一子图152和/或第二子图154。输出206被配置成将回答映射到关键词查询的结果，并且被配置成输出关键词搜索的结果。

KG 100可以被存储在装置200的存储装置208上。KG 100可以被存储在装置200外部的存储装置上。数据连接将以下各项进行连接：输入200和处理器204、输出206和处理器204、存储装置208和处理器204。计算机可读指令可以被存储在存储装置208中或不同的存储装置上。在该示例中，处理器204被配置成执行计算机可读指令，以根据下面将参考图3描述的方法来施行关键词搜索。

将针对知识图

来描述用于关键词搜索的方法，其中V是顶点v _1,...,v _n的n个数值表示的集合，并且E⊆V×V是有向边的m个数值表示的集合，该有向边表示由顶点表示的实体之间的关系。实体和关系可以利用文本（例如，它们的名称）来注释。图中的边可以以不同的方向而定向。在示例性KG 100中，n=12并且m=13。

关键词搜索基于包括g个关键词k _1,...,k _g的关键词查询Q={k _1,...,k _g}。

在步骤302中，接收包括关键词集合k _1,...,k _g的关键词查询Q。关键词被映射到顶点的数值表示。在该示例中，g个关键词k _1,...,k _g被映射到顶点v _1,...,v _g的g个数值表示。一个关键词可以被映射到若干个顶点。在一个方面，g个关键词k _1,...,k _g中的至少一个被映射到顶点v _1,...,v _g的至少一个数值表示。

为了获得g个关键词k _1,...,k _g中的每一个的结果，g个关键词k _1,...,k _g中的每一个被映射到顶点v _1,...,v _g的至少一个数值表示。如果关键词不可以被映射到知识图中的任何顶点，则该结果可能为空。

可以使用关键词匹配函数来将关键词映射到知识图的任何顶点。例如，匹配函数可以基于包括关键词的文字注释。然而，本发明不限于任何特定的映射函数。

根据示例性实施例，该查询包括g=2个关键词，并且第一关键词k ₁=“芭芭拉·布什”被映射到顶点112的数值表示，并且第二关键词k ₂=“詹姆斯·罗斯福”被映射到顶点114的数值表示。

在一个方面，函数hits：

可以用于将关键词集合

映射到知识图G的顶点的数值表示的子集。hits的具体实现（即，将关键词与实体注释相匹配的方式）不是本公开的重点。在该方面，对于1≤i≤g，hits(k _i)被称为K _i。其中K _i是关键词被映射到的顶点（也被称为关键词顶点）的集合的数值表示。该方法不限于这种映射方式。

在本公开中，省略了边映射，但是可以通过对边进行细分来将边映射变换成顶点映射。具体地，对边(u,v)的细分利用边(u,v)的注释来产生新顶点w，并且然后由两个新的边(u,w)和(w,v)来替换(u,v)。

对于给定

，对Q的回答被定义为由

标示的G的子图，其中子图T满足以下要求。（1）T被连接。（2）对于1≤i≤g，T包含来自每个K _i的至少一个关键词顶点，即T _T∩K _i≠∅。（3）针对（1）和（2），T在结构上是最小的，即它的任何适当子图都不满足（1）和（2）二者。结构最小性指示T具有树结构，其中叶顶点是关键词顶点。

计算回答的过程在下文中描述。

在步骤304中，基于至关键词顶点的最短路径来对知识图的顶点进行排名，其中关键词顶点是与该关键词查询的至少一个关键词相匹配的顶点。

在步骤306中，选择关键词顶点的所有集合当中的关键词顶点的最小集合

，该最小集合

包括针对该关键词集合的每个关键词的至少一个关键词顶点。

在步骤308中，基于关键词顶点的最小集合

并且基于经排名的顶点的数量来确定知识图G中的最优路径集合。

可以指定经排名的顶点的数量。该数量可能例如取决于知识图的大小而变化。例如，对于具有大约30.000和3.000.000个顶点的知识图，该数量的范围可以从5到20。可以根据实验来指定该数量。要注意的是，可以选取任何其它数量。

最优路径集合包括知识图中的连接了与关键词查询的关键词相匹配的顶点的路径，并且其中所述最优路径集合关于路径集合的最小成本是最优的，其中所述成本基于最优路径集合的顶点的总权重和最优路径集合的顶点之间的成对语义距离的线性组合。

最优路径集合关于路径集合的最小成本是最优的，其中所述成本基于最优路径集合的顶点的总权重和最优路径集合的顶点之间的成对语义距离的线性组合。

对于

，加权函数将顶点映射到非负实数，由

来标示。

语义距离函数sd将顶点对映射到非负实数，由

来标示。对于所有u、v、w∈V，该伪度量函数满足：

sd(v,v)=0，即恒等物的不可分辨性（indiscernibility of identical），

sd(u,v)=sd(v,u)，即对称性，以及

sd(u,v)≤sd(u,w)+sd(w,v)，即三角形不等式。

对语义距离的测量可以独立于图结构和顶点权重。特别地，它不同于图距离，即最短路径的边的数量。例如，相邻顶点可能在语义上彼此远离。

回答

的成本是其顶点的总权重和它们的成对语义距离：

其中α∈[0,1]是参数。在成本等式中，第一项表示T的顶点的显著性，并且第二项表征它们的语义内聚性。该方法不需要权重wt和语义距离sd的特定实现。可以选取权重wt以及确定语义距离sd的方式，以计及查询相关性、图结构中的中心性、注释中的语义等。Edmund Ihler. 1991. The Complexity of Approximating the Class Steiner TreeProblem. In WG 1991. 85–96. https://doi.org/10.1007/3-540-55121-2_8提供了权重wt的示例。Gaurav Bhalotia, Arvind Hulgeri、Charuta Nakhe、Soumen Chakrabarti和S.Sudarshan. 2002. Keyword Searching and Browsing in Databases using BANKS. InICDE 2002. 431-440. https://doi.org/10.1109/ICDE.2002.994756提供了语义距离sd的示例。小的权重表示显著性，并且小的语义距离表示内聚性。权重wt和语义距离sd的计算可以彼此独立。在知识图中，权重被分配给其顶点。顶点的权重例如是预先计算的，例如使用标准化的pageRank来预先计算。

在知识图中，边是例如顶点之间的预先计算的关系。

在知识图中，语义距离是例如针对其顶点对预先计算的。

方法300的一个目标是确定最优回答，其中最优回答是使成本最小化的回答。方法300通过以下方式扩展了例如在Edmund Ihler. 1991. The Complexity ofApproximating the Class Steiner Tree Problem中描述的已知最小权重GST问题，所述方式即，将二次项sd(v _i,v _j)引入到目标函数中，该目标函数表示如果两个顶点v _i和v _j二者被包括在T中，则将支付的额外成本。

根据本公开的一方面，步骤304至308可以通过以下算法1来实现，该算法1包括行1至14：

输入：

和Q={k ₁...k _g}

输出：回答T ^#

1 fori=1至g do

2 foreach r∈V do

3 dist[r][i]←最短r−K _i 路径的长度;

4 foreach r∈V do

5 R[r]←∑_1≤i≤g dist[r][i];

6 U _τ←{r ₁...r _τ}，使得U _τ⊆V并且R[v _τ]是在{R[r] | r∈V}中的τ排名

7 i _min←min_1≤i≤g|K _i|;

8 P ^#←null;

9 foreach

do

10 P _r ^min←OptimizedRPS(G, Q, r);

11 if pcost(P _r ^min)<pcost(P ^#) then

12 P ^#←P _r min;

13 T ^#←GenAns(P ^#)

14 return T ^#;

第10行的步骤308和算法OptimizedRPS(G, Q, r)将在下文中并且关于算法2来详细描述：

确定最优路径集合的步骤308包括：基于确定局部最优路径集合的迭代过程308a，其中所述局部最优路径集合包括知识图中的将关键词顶点的最小集合的根顶点连接到与关键词查询的关键词相匹配的顶点的路径，并且其中局部最优路径集合关于针对相应根顶点的路径集合的最小成本是最优的，迭代过程308a包括以下步骤：

确定局部最优路径集合的成本的下限；

确定大于总最小路径长度的每个路径的成本；

将大于总最小路径长度的每个路径的成本与下限进行比较；

获得具有最小成本的路径集合作为局部最优路径集合。

确定最优路径集合的步骤308进一步包括：获得具有最小成本的局部最优路径集合作为最优路径集合。

在

中，RPS是与查询Q={k _1,...,k _g}相关的路径的集合。具体地，在给定被称为根顶点的r∈V的情况下，由P _r={P _1,...,P _g}标示的局部最优路径集合r-RPS是g个路径的集合，使得对于1≤i≤g，每个

是r−K _i路径，或者更具体地，是将r连接到关键词顶点v _i∈K _i的r−v _i路径。要注意的是，对于i≠j，K _i∩K _j≠∅并且P _i=P _j是可能的。

对于1≤i≤g，在

的情况下由P _r={P _1,...,P _g}标示的r-RPS的成本由以下成本函数来给出：

函数vnum对RPS中的顶点进行计数。它有意地仅对根顶点r计数一次：

针对每个根顶点r∈V，确定局部最优路径集合r-RPS，即最小化pcost的r-RPS：

根据本公开的一方面，定义了pcost的以下变体：

因为αwt(r)出现在每个r-RPS的pcost中，所以使pcost'最小化的函数等同于使pcost最小化：

使pcost'最小化的函数计算路径集合的成本的总和。

然而，pcost'包含vnum(Pr)，vnum(Pr)取决于P _r并且在计算最小成本路径时是未知的。

因此，vnum(Pr)的每个可能值被考虑，并且因此在每种情况下，它成为常数。

例如，P _r受制于vnum(Pr)=n。对于以根顶点r开始的路径

，它被定义为：

对于v∈V，确切地包括m个边的r-v路径的最小值pl _n被迭代地计算如下：

其中N(v)是G中的v的邻居的集合。确切地包括m个边的r-K _i路径的最小值pl _n由下式来标示：

对于1≤I≤g，让Q _I⊆Q成为Q中的第一I个关键词：

确切地包含总共m个边并且与Q _I相关（即，包括

个路径——针对每个1≤i≤I的r-K _i路径）的r-RPS的最小值pcost'通过下式被迭代地计算：

由于受制于vnum(P _r)=n的P _r包含总共n−1个边，因此考虑pc _n[g][n−1]。最后，在vnum(P _r)的所有可能值上，获得

。

针对每个n，计算pc _n[g][n−1]，并且重建受制于vnum=n的实际最小pcost'r-RPS。重建可以通过查找以标准方式记录所计算的最小成本路径和RPE的辅助数组来实现。

最后，更新P _r ^min，并且返回局部最小pcost r-RPS作为最优路径集合P ^#，其中P ^#标示全局最小pcost RPS。

这通过获得具有最小成本的局部最优路径集合r-RPS作为最优路径集合P ^#的步骤308来完成。

根据本公开的一方面，步骤308、特别是步骤308的迭代过程308a可以通过以下算法2来实现，该算法2包括行1至27：

输入：

、Q={k _1,...,k _g}和r∈V

输出：局部最小pcost r-RPS P _r ^min

1 P _r ^min←null;

2 L _r←0;

3 for i=1至q do

4 L _r,i←BFsearch(G, r);

5 L _r←L _r+ L _r,i;

6 D _r,n←BoundCost(G, r);

7 for n=L _r至g(|V|−1) do

8 pd _n[r][0]←0;

9 foreach v∈Vs.t.v≠r do

10 Pd _n[v][0]←∞;

11 for m=1至min{n−1,|V|−1} do

12 foreach v∈V do

13 Pd _n[v][m]←

14 for i=1至g do

15 for m=0至min{n−1,|V|−1} do

16

;

17 for m=0至min{n−1,|V|−1} do

18 pc _n[1][m]=pdk _n[1][m]

19 for I=2至g do

20 for m=0至n−1 do

21 pc _n[I][m]←

22 P _r ⁿ←Reconstruct(pc _n[g][n−1]);

23 if D _r,n≥pcost'(P _r ⁿ) then

24 return P _r ⁿ

25 if pcost'(P _r ⁿ)<pcost'(P _r ^min) then

26 P _r ^min←P _r ⁿ

27 return P _r ^min;

算法2的第3至5行指代通过针对每个关键词顶点确定距相应根顶点的最短路径来确定局部最优路径集合的总最小路径长度的步骤。

第6行指代确定局部最优路径集合的成本的下限的步骤。这是用于修剪大的n值的措施，参见第1至5行。在用于步骤306的上面显示的示例性算法中，第7行中的最外面的循环以n=(|V|−1)结束，n=(|V|−1)可能是大的值。计算受制于vnum(P _r)=n的pcost(P _r)的下限，以修剪大的n值。pcost(P _r)由下式给出：

函数pcost'计算g个路径——针对每个1≤i≤g的r-K _i路径——的成本的总和。

通过将r-K _i路径的成本映射到边加权图中的r-K _i路径的长度（即，总的边权重）中，可以通过计算该边加权图中的最短（即，最小权重）r-K _i路径的长度来获得其下限。这可以通过如下那样扩展该算法来实现。在最外面的循环开始处，创建边加权有向图

，其中V _r,n=V，并且每个边(u,v)∈E对应于两个有向边

、

。每个有向边

通过下式被加权：

可以对G _r,n使用Dijkstra算法，以计算针对每个1≤i≤g的最小权重r-K _i路径，其由P _r,n,i来标示。它在G _r,n中的r-K _i路径当中具有最小的总边权重，其由d _r,n,i来标示。因此，受制于vnum(P _r)=n的pcost(P _r)的下限由下式给出：

D _r,n随着n的增加而增加，因此可以测试以下不等式：

如果它对于当前的n和P _r ^min成立，则最外面的循环将断开，并且将返回当前P _r ^min，这是因为对于当前且较大的n值、即vnum(Pr)，将不存在具有较小pcost的P _r。类似地，可以测试以下不等式：

如果它对于当前的n和P ^#（其是算法QO中的当前全局最小pcost RPS）成立，则最外面的循环将断开，并且将返回当前P _r ^min，参见第26和27行。

第7至22行指代确定大于总最小路径长度的每个路径的成本的步骤。第7行中的循环以n=L _r开始。这是作为用于修剪小的n值的措施，参见第1至5行。计算vnum(P _r)（即n）的下限以修剪小的n值。在该算法的开始处，可以插入以r开始的G的广度优先搜索，以计算针对每个1≤i≤g的r-K _i路径中的边的最小数量，其由L _r,i来标示。vnum(P _r)的下限由下式给出：

第23行指代将大于总最小路径长度的每个路径的成本与该下限进行比较的步骤。

第24行指代获得具有最小成本的路径集合作为局部最优路径集合的步骤。

确定最优路径集合的步骤308进一步包括：获得具有最小成本的局部最优路径集合作为最优路径集合。这通过算法1的第11和12行来实现。

根据进一步的修剪策略，可以利用针对每个1≤i≤g的最小权重r-K _i路径，其由P _r,n,i来标示。P _r,n,i中的边的数量被给定为数量l _r,n,i。

假设针对当前n的r-RPS P _r s.t.vnum(P _r)=n是局部最小pcost r-RPS。如果对于任何1≤i≤，r-K _i路径P _i∈P _r包含多于l _r,n,i的边，则由P _r,n,i来替换P _i，以生成另一个r-RPSP _r'。所定义的其总边权重不大于P _r的其总边权重，并且其vnum较小。因此，pcost(P _r')≤pcost(P _r)，即P _r'也是局部最小pcost r-RPS，该局部最小pcost r-RPS和/或一些其它局部最小pcost r-RPS已经针对较小的n值在最外面的循环的先前迭代中被找到。因此，没有必要考虑针对当前n的P _r。这可以通过如下那样扩展该算法来实现：即，缩窄m和x的范围：

第17行：m至min{n−1, |V|−1, l _r,n,i，

第20行：m至min{n−1, ∑_1≤i≤I l _r,n,i，

第21行：max{0, m−∑_{1≤i≤I−1} l _r,n,i}≤x≤min{m, |V|−1, l _r,n,I}，

第15行：m至min{n−1, |V|−1, l _r,n,i，

第11行：m至min{n−1, |V|−1, max _1≤i≤g l _r,n,i}。

该方法进一步包括从最优路径集合P ^#提取对关键词查询的回答的步骤310。

该回答被定义为：

关于将最优路径集合的路径合并到知识图的子图中的步骤312以及从子图移除不必要的顶点和边的步骤314来更详细地描述步骤310。

最优路径集合P ^#如下那样被变换成回答T ^#。P _r中的所有

路径被合并到G的子图T ^#中，该子图T ^#经由根顶点r而连接，并且包含对于1≤i≤g的v _i∈K _i。

根据针对回答T的上面所描述的要求，T必须满足在结构上最小的要求。因此，如果回答T ^#在结构上是最小的，则它将是最优回答。如果否，则重复地处理从子图移除不必要的顶点和边的步骤314，直到它变得在结构上最小为止。

根据图1中描绘的示例性知识图100，例如由子图152给出对搜索查询的回答。与另一个子图154相比，子图152在语义上是内聚的，所述另一个子图154在语义上是不内聚的。因此，根据本实施例，子图152是优选回答。

在步骤316中，可以将该回答映射到关键词查询的结果，并且可以输出关键词搜索的结果。

Claims

1.一种用于在数据集中进行关键词搜索的计算机实现方法（300），其中数据集中的数据由知识图（100）来表示，其中所述知识图（100）包括表示数据集中的实体的顶点和表示所述实体之间的关系的边，所述方法（300）包括以下步骤：

接收（302）包括关键词集合的关键词查询；

基于至关键词顶点的最短路径对知识图的顶点进行排名（304），其中关键词顶点是与关键词查询的至少一个关键词相匹配的顶点；

在关键词顶点的所有集合当中选择（306）关键词顶点的最小集合，所述最小集合包括针对关键词集合中的每个关键词的至少一个关键词顶点；

基于关键词顶点的最小集合并且基于经排名的顶点的数量来确定（308）最优路径集合，其中所述最优路径集合包括知识图（100）中的连接了与关键词查询的关键词相匹配的顶点的路径，并且其中所述最优路径集合关于路径集合的最小成本是最优的，其中所述成本基于最优路径集合的顶点的总权重和最优路径集合的顶点之间的成对语义距离的线性组合，以及

从最优路径集合提取（310）对关键词查询的回答。

2.根据权利要求1所述的方法（300），其中顶点的总权重表示显著性，和/或两个顶点之间的成对语义距离表示语义内聚性。

3.根据权利要求1或2所述的方法（300），其中路径集合的成本由以下各项给出：根顶点的总权重和与关键词查询的关键词相匹配的顶点的总权重的总和、以及根顶点和与关键词查询的关键词相匹配的顶点之间的成对语义距离。

4.根据前述权利要求中任一项所述的方法（300），其中确定最优路径集合的步骤（308）包括基于确定局部最优路径集合的迭代过程（308a），其中所述局部最优路径集合包括知识图（100）中的将关键词顶点的最小集合的根顶点连接到与关键词查询的关键词相匹配的顶点的路径，并且其中所述局部最优路径集合关于针对相应根顶点的路径集合的最小成本是最优的，所述迭代过程（308a）包括以下步骤：

确定局部最优路径集合的成本的下限；

确定大于总最小路径长度的每个路径的成本；

将大于总最小路径长度的每个路径的成本与下限进行比较；

获得具有最小成本的路径集合作为局部最优路径集合。

5.根据权利要求4所述的方法（300），其中确定最优路径集合的步骤（308）包括：

获得具有最小成本的局部最优路径集合作为最优路径集合。

6.根据前述权利要求中任一项所述的方法（300），其中利用至少一个修剪策略来增强确定最优路径集合的步骤（308）的迭代过程（308a）。

7.根据前述权利要求中任一项所述的方法，其中从最优路径集合提取（310）回答的步骤包括：

将最优路径集合的路径合并（312）到知识图（100）的子图中。

8.根据前述权利要求中任一项所述的方法，其中从最优路径集合提取回答的步骤（310）进一步包括：

从子图移除（314）不必要的顶点和边。

9.一种用于在数据集中进行关键词搜索的装置（200），其中数据集中的数据由知识图（100）来表示，其中所述知识图（100）包括表示数据集中的实体的顶点（V）和表示所述实体之间的关系的边（E），其中所述装置包括输入，所述输入被配置成接收包括关键词集合的关键词查询（Q），并且被配置成将关键词映射到知识图（100）的顶点，

其中所述装置进一步包括处理器（204），其中所述处理器（204）被配置成：

基于至关键词顶点的最短路径来对知识图的顶点进行排名（304），其中关键词顶点是与关键词查询的至少一个关键词相匹配的顶点；在关键词顶点的所有集合当中选择（306）关键词顶点的最小集合，所述最小集合包括针对关键词集合中的每个关键词的至少一个关键词顶点；基于关键词顶点的最小集合并且基于经排名的顶点的数量来确定（308）最优路径集合，其中所述最优路径集合包括知识图（100）中的连接了与关键词查询的关键词相匹配的顶点的路径，并且其中所述最优路径集合关于路径集合的最小成本是最优的，其中所述成本基于最优路径集合的顶点的总权重和最优路径集合的顶点之间的成对语义距离的线性组合，以及从最优路径集合提取（310）对关键词查询的回答，并且其中所述装置包括输出（206），所述输出（206）被配置成将回答映射到关键词查询的结果，并且被配置成输出所述结果。

10.根据权利要求9所述的装置（200），其中所述装置（200）进一步被配置成执行根据权利要求2至8中任一项所述的方法（300）的步骤。

11.一种用于在数据集中进行关键词搜索的计算机程序，所述计算机程序包括计算机可读指令，所述计算机可读指令当由计算机执行时使计算机执行根据权利要求1至8中任一项所述的方法（300）的步骤。