CN107133274B

CN107133274B - 一种基于图知识库的分布式信息检索集合选择方法

Info

Publication number: CN107133274B
Application number: CN201710228718.XA
Authority: CN
Inventors: 吴勇; 陈岭; 韩保礼; 季海琦; 郑羽
Original assignee: Zhejiang Hongcheng Computer Systems Co Ltd
Current assignee: Zhejiang Hongcheng Computer Systems Co Ltd
Priority date: 2017-04-10
Filing date: 2017-04-10
Publication date: 2020-12-15
Anticipated expiration: 2037-04-10
Also published as: CN107133274A

Abstract

本发明涉及一种基于图知识库的分布式信息检索集合选择方法，主要包括如下步骤：1)采用实体链接方法，从各个集合的样本文档中获取集合的实体词集；2)基于上下文相关度和结构相关度，计算实体词的权重，使用加权的实体词集表示集合的语义信息；3)采用查询扩展方法扩展查询中包含的实体词，并为查询实体词赋予不同的权重；4)采用查询与集合相关度度量方法计算集合评分，选择评分较高的前若干个集合。本发明利用图知识库中蕴含的实体关系和网络结构，使用基于图知识库的集合语义建模方法、查询扩展方法和查询与集合相关度度量方法，提高了集合选择方法的准确度。

Description

一种基于图知识库的分布式信息检索集合选择方法

技术领域

本发明涉及分布式信息检索领域，尤其涉及一种基于图知识库的分布式信息检索集合选择方法。

背景技术

在过去的十年中，信息检索技术的发展使Web搜索引擎的质量达到了一个新的水平，Web搜索引擎已经成为用户发现和获取信息的常规和首选渠道。然而，随着万维网的不断发展，非结构化数据以指数级地形式增长，传统的集中式信息检索系统面临着很多难以克服的困难，无法有效管理海量文本数据，无法提供快速、稳定的检索服务。尽管单台计算机的处理能力不断提高，但在面对海量信息检索服务时也束手无策。为了适应现代海量数据的检索要求，解决传统的集中式信息检索系统存在的问题，分布式信息检索已成为一种有效的解决方案。

分布式信息检索也称为联合搜索、或联合信息检索，将多个可检索的信息集合组织成一个检索接口，并对外提供检索服务。在具体的检索中，用户通常只关心排名靠前的检索结果。然而，并不是所有的信息集合都包含了用户需要的信息，检索所有的信息集合，不但增加系统的计算开销，还会占用大量的网络带宽。如果只检索部分集合，能够得到类似搜索所有集合的检索效果，将大幅提升系统的检索效率。因此，集合选择对于提升分布式检索系统的性能有着举足轻重的作用，具有重要的研究价值。

传统集合选择方法使用集合的词汇统计信息来表示整个集合，基于词汇统计特征计算查询与集合的相关度，并按相关度高低对集合进行排序，选择排名靠前的集合。然而，此类方法要求每个集合提供基于所有文档的词汇直方图，包括词典和词频等统计信息。在复杂的网络环境中获取所有集合的词汇直方图是不切实际的，尤其是在非协同式的环境下。此外，词汇直方图丢失了大量文本语义信息，如近义词、多义词和词序等信息，直接导致了集合语义信息表示不准确。

为进一步提高集合语义信息表示的准确度，目前也出现了基于复杂语义信息的集合选择方法，使用ESA向量、LDA主题模型或分布式表征向量对集合的语义信息进行建模。此类方法充分挖掘了文本语义信息，包括文本主题、词序等信息，而不是仅使用词汇直方图。但是，此类方法仅考虑文本的“形态句法”信息，忽略了词汇之间更深层次、细粒度的语义关系，如主谓宾关系。

发明内容

本发明为克服上述的不足之处，目的在于提供一种基于图知识库的分布式信息检索集合选择方法，本发明方法利用图知识库中蕴含的实体关系和网络结构，对集合的语义信息进行建模，首先从各个集合的样本文档中获取集合的实体词集；其次，基于上下文相关度和结构相关度，计算实体词的权重，使用加权的实体词集表示集合的语义信息；然后，采用查询扩展方法扩展查询中包含的实体词，并为查询实体词赋予不同的权重；最后，采用查询与集合相关度度量方法计算集合评分，选择评分较高的若干个集合；提高了集合选择方法的准确度。

本发明是通过以下技术方案达到上述目的：一种基于图知识库的分布式信息检索集合选择方法，其特征在于，包括离线处理阶段和在线处理阶段，具体包括如下步骤：

(1)离线处理阶段：

(1.1)采用实体链接方法抽取集合c存在的实体词，得到集合c的实体词集E_c；

(1.2)计算实体词之间的上下文相关度ctxt(e₁，e₂)和结构相关度struct(e₁，e₂)；

(1.3)基于上下文相关度和结构相关度，计算实体词之间的总体语义相关度sim_overall(e_1，e₂)；

(1.4)基于总体语义相关度，分别计算E_c中的每个实体词到其他所有实体词的总体语义相关度之和，得到集合c的加权实体词集WE_c；

(2)在线处理阶段：

(2.1)接收用户查询θ，采用实体链接方法抽取原始查询中存在的实体词，得到原始查询实体词集O_θ；

(2.2)基于Wikipedia文章索引，检索得到与θ相关的Wikipedia文章标题，在DBpedia图知识库中找到与检索到的文章标题一一对应的实体词，得到初始候选扩展实体词集R_θ；

(2.3)基于DBpedia图结构，将R_θ中的实体词组织成实体图G_θ，枚举G_θ中所有的路径，计算所有路径的评分，选择评分高的前若干条路径，保留路径对应的实体词，得到中间候选扩展实体词集P_θ；

(2.4)基于DBpedia图结构，将P_θ中的实体词组织成实体图G_P，并选择P_θ在DBpedia图知识库中的所有邻居节点作为待选实体词集N_θ；依次将N_θ中的每个实体词作为节点及其与G_P中实体词存在的关系作为边合并到G_P；若G_P的紧密程度增加，则保留此节点，否则删除；遍历完N_θ每个实体词后，将G_P中的所有实体词作为最终扩展实体词集C_θ；

(2.5)去除C_θ中包含与O_θ重复的实体词，得到互相不包含冗余实体词的C_θ与O_θ，C_θ与O_θ构成最终的新查询Q_θ；

(2.6)计算Q_θ中各个实体词的权重，得到查询的加权实体词集WQ_θ；

(2.7)基于通过离线处理阶段得到的WE_c与通过在线处理阶段得到的WQ_θ、实体词之间的总体语义相关度、集合大小与集合实体词频率，计算查询Q_θ与集合c的相关度，选择评分高的前若干集合；具体如下：

2.7.1)针对每个集合c，获取集合c的实体词集E_c中每个实体词e_j的权重，n为集合c的实体词集E_c中的实体词个数；其中，1≤j≤n；

2.7.2)针对查询Q_θ，获取Q_θ中每个实体词e_i的权重，m为Q_θ中的实体词个数；其中，1≤i≤m；

2.7.3)计算实体词e_i与实体词e_j的总体语义相关度sim_overall(e_i，e_j)；其计算方式和sim_overall(e₁，e₂)类似，即：

sim_oveall(e_i，e_j)＝λ×ctxt(e_i，e_j)+(1-λ)×struct(e_i，e_j)

其中ctxt(e_i，e_j)为上下文相关度，计算方式和ctxt(e₁，e₂)类似，

即：

其中，E_i和E_j分别是e_i和e_j出现在Wikipedia中的文章总数，W是Wikipedia中包含的文章总数，dist(e_i，e_j)表示e_i和e_j两个实体词在DBpedia图知识库中的最短距离，即从实体词e_i到实体词e_j所经过边的最少个数；

struct(e_i，e_j)为结构相关度，计算方式和struct(e₁，e₂)类似，即：

其中，1≤r≤k，k为两个实体词e_i和e_j之间最短路径的总数；若实体词e_i和e_j之间存在多条最短路径，则e_i和e_j之间的结构相关度设置为所有最短路径上边权重之和的最大值；

2.7.4)计算集合c的集合大小ε_c，由集合中的文档总数|c|除以最大集合的文档总数|c_max|得到，计算公式如下：

其中，|s_c|表示集合c的样本文档总数；

2.7.5)计算集合实体词e_j的频率f(c，e_j)，由实体词e_j的词频除以集合c的实体词集E_c中所有实体词的词频总数得到，计算公式如下：

其中，e_j是集合c的实体词集E_c中的实体词；其中，1≤j≤n；

2.7.6)采用查询与集合相关度计算公式计算得到各个集合评分，其中查询与集合相关度计算公式如下：

其中，e_i是查询Q_θ中的实体词，e_j是集合c的实体词集E_c中的实体词；

和

分别是e_i和e_j的权重，其计算公式分别如下：

2.7.7)按集合评分高低进行排序，选择评分高的前若干个集合。

作为优选，所述步骤(1.1)与步骤(2.1)使用的实体链接方法具体为采用实体链接工具进行抽取，实体链接工具采用DBpedia Spotlight。

作为优选，所述步骤(1.1)得到实体词集E_c的方法如下：

1.1，1)针对集合c，其样本文档集为

其中|s_c|为样本文档集s_c中的文档总数，选择任意一个未处理的样本文档d_h，1≤h≤|s_c|；

1.1.2)利用实体链接工具抽取样本文档中存在的实体词e_i；

1.1.3)将实体词e_i更新到集合的实体词集E_c中，若仍有未处理的样本文档，则返回执行步骤1.1.1)；否则，结束。

作为优选，所述步骤(1.2)计算实体词之间的上下文相关度和结构相关度的方法如下：

1.2.1)基于Wikipedia上两个实体词共享的文章数，来计算两个实体词e₁和e₂之间的上下文相关度，计算公式如下：

其中，E₁和E₂分别是e₁和e₂出现在Wikipedia中的文章总数，W是Wikipedia中包含的文章总数，dist(e₁e₂)表示e₁和e₂两个实体词在DBpedia图知识库中的最短距离；

1.2.2)采用广度优先遍历算法，得到任意两个实体词e₁和e₂在DBpedia图知识库中的最短路径path(e₁，e₂)＝{edge₁，edge₂，...，edge_k}；

1.2.3)给定DBpedia中的一条最短路径edge＝{Subj，Pred，Obj}，其中Subj与Ob_j均是实体词，Pred为谓词，计算谓词的信息量IC(ω_Pred)，计算公式如下：

其中，|ω_Pred|是相同类型谓词的总数，|T|是DBpedia图中所有三元组的总数；

1.2.4)计算谓词的条件信息量IC(ω_Obj|ω_Pred)，计算公式如下：

其中，|ω_(Pred，Obj)|是连接到实体词Obj的谓词总数；

1.2.5)计算谓词的信息量和条件信息量之和得到边权值，公式如下：

w_jointIc(edge)＝IC(ω_Pred)+IC(ω_Obj|ω_Pred)

其中，w_jointIc(edge)为边edge＝{Subj，Pred，Obj}的权值；

1.2.6)基于两个实体词e₁和e₂在DBpedia图知识库中的最短路径上边权值之和得到结构相关度，计算公式如下：

其中，若实体词e₁和e₂之间存在多条最短路径，则e₁和e₂之间的结构相关度设置为所有最短路径的结构相关度的最大值。

作为优选，所述的总体语义相关度通过将上下文相关度和结构相关度的线性组合而得到，权重参数为λ，公式如下：

sim_overall(e₁，e₂)＝λ×ctxt(e₁，e₂)+(1-λ)×struct(e₁，e₂)。

作为优选，所述步骤(1.4)计算E_c中的每个实体词到其他所有实体词的总体语义相关度之和即为对实体词集E_c的实体词e进行权重计算，公式如下：

其中，|E_c|为集合c的实体词集E_c中实体词总数，采用上述权重计算公式计算E_c中各个实体词的权重，从而得到WE_c。

作为优选，所述步骤(2.3)得到P_θ的方法如下：

2.3.1)基于DBpedia图结构，将R_θ中的实体词组织成实体图G_θ，其中，R_θ中的实体词作为G_θ中的节点，实体词之间的关系作为G_θ中的边；

2.3.2)对G_θ中的所有顶点依次采用深度优先遍历算法，枚举出实体图中所有的路径；

2.3.3)采用路径评分计算公式，计算所有路径的评分，公式如下：

其中，P为实体图G_θ中的一条路径，P＝{a₁，a₂，...，a_s}，s为路径上实体词的总数，a_t为路径上的实体词，且1≤t≤s；

2.3.4)按路径评分高低进行排序，选择评分高的前若干条路径，保留所选路径对应的实体词a_i，得到中间候选扩展实体词集P_θ。

作为优选，所述步骤(2.4)得到C_θ方法如下：

2.4.1)基于DBpedia图结构，将P_θ中的实体词组织成实体图G_P，其中，P_θ中的实体词作为G_P中的节点，实体词之间的关系作为G_P中的边；

2.4.2)对于P_θ中所有的实体词，选择其在DBpedia图知识库中的所有邻居节点作为待选实体词集N_θ；

2.4.3)若N_θ中有未处理的实体词，选择一个未处理的实体词，进入步骤2.4.4)；否则，进入步骤2.4.6)；

2.4.4)将实体词以及其与G_P中所有实体词存在的边合并到G_P；

2.4.5)计算G_P的紧密程度，紧密程度由图中点和边构成三角形的数目来度量；若G_P的紧密程度增加，则返回步骤2.4.3)；否则，在G_P中删除步骤2.4.4)中并入的实体词及其连接的边后返回步骤2.4.3)；

2.4.6)获取G_P中存在的实体词，更新得到最终扩展实体词集C_θ。

作为优选，所述步骤(2.6)计算Q_θ中实体词的权重的公式如下：

其中，γ是权重参数；当实体词e属于O_θ时，它们被赋予相等的权重，当实体词e属于C_θ时，根据实体词e到P_θ中实体词的最短距离，它们被赋予不同的权重；采用上述公式计算Q_θ中各个实体词的权重，得到WQ_θ。

本发明的有益效果在于：(1)本发明利用图知识库提供的实体关系与网络结构，使用上下文相关度和结构相关度计算集合中实体词的权重，并使用加权的实体词集表示集合的语义信息，保留了词汇之间更细粒度的语义关系，提高了集合语义信息表示的准确度；(2)基于Wikipedia文章与DBpedia网络结构，发现并扩展了简短查询词中包含的实体词，且为查询实体词赋予了不同的权重，准确地表达了用户查询意图；(3)基于加权的实体词，查询与集合相关度度量方法综合考虑了集合大小、实体词频率等因素，提高了计算查询与集合相关度的准确度。

附图说明

图1是本发明的方法流程示意图；

图2是本发明实施例集合的实体词集的获取流程示意图；

图3是本发明实施例查询的最终扩展实体词集的获取流程示意图。

具体实施方式

下面结合具体实施例对本发明进行进一步描述，但本发明的保护范围并不仅限于此：

实施例：如图1所示，一种基于图知识库的分布式信息检索集合选择方法，包括在线处理、离线处理两个阶段，具体如下：

(1)离线处理阶段，其步骤如下：

步骤1，采用实体链接方法抽取集合样本文档中存在的实体词，得到集合c的实体词集E_c。

采用广泛使用的实体链接工具(如：DBpedia Spotlight)，进行实体词抽取。具体步骤如图2所示，包括：

a)针对集合c，其样本文档集为

b)利用实体链接工具抽取样本文档中存在的实体词e_i；

c)将实体词e_i更新到集合c的实体词集E_c中，若仍有未处理的样本文档，返回步骤a，否则，结束。

步骤2，计算实体词之间的上下文相关度ctxt(e₁，e₂)和结构相关度struct(e₁，e₂)，具体步骤包括：

a)计算任意两个实体词e₁(e₁∈E_c)和e₂(e₂∈E_c)之间的上下文相关度。其基于Wikipedia上两个实体词共享的文章数，来计算两个实体词之间的上下文相关度，计算公式如下：

其中，E₁和E₂分别是e₁和e₂出现在Wikipedia中的文章总数，W是Wikipedia中包含的文章总数，dist(e₁，e₂)表示e₁和e₂两个实体词在DBpedia图知识库中的最短距离。

b)采用广度优先遍历算法，得到任意两个实体词e₁(e₁∈E_c)和e₂(e₂∈E_c)在DBpedia图知识库中的最短路径path(e₁，e₂)＝{edge₁，edge₂，…，edge_k}。

c)给定DBpedia中的一条最短路径edge＝{Subj，Pred，Obj}，其中Subj与Obj均是实体词，Pred为谓词，计算谓词的信息量，计算公式如下：

IC(ω_Pred)表示谓词的信息量，在DBpedia中存在的同种类型边越多，即此谓词总数越多，重要性越低，具有较低的信息量。|ω_Pred|是相同类型谓词的总数，|T|是DBpedia图中所有三元组的总数。

d)计算谓词的条件信息量，计算公式如下：

IC(ω_Obj|ω_Pred)表示谓词的条件信息量，考虑了谓词所指向实体词的特殊性，若连接到此实体词的谓词越少，则此类谓词越重要，具有较高的信息量。|ω_(Pred，Obj)|是连接到实体词Obj的谓词总数。

e)计算边权值，其由谓词的信息量和条件信息量之和得到，计算公式如下：

w_jointIC(edge)＝IC(ω_Pred)+IC(ω_Obj|ω_Pred)

W_jointIC(edge)表示边edge＝{Subj，Pred，Obj}的权值。

f)计算任意两个实体词e₁(e₁∈E_c)和e₂(e₂∈E_c)之间的结构相关度。其基于两个实体词在DBpedia图知识库中的最短路径上边权值之和得到，计算公式如下：

其中，1≤r≤k，k为两个实体词e₁和e₂之间最短路径的总数。若实体词e₁和e₂之间存在多条最短路径，则e₁和e₂之间的结构相关度设置为所有最短路径的结构相关度的最大值。

步骤3，基于上下文相关度和结构相关度，计算实体词之间的总体语义相关度sim_overall(e₁，e₂)。

对于任意两个实体词e₁(e₁∈E_c)和e₂(e₂∈E_c)，总体语义相关度sim_overall(e₁，e₂)为上下文相关度ctxt(e₁，e₂)和结构相关度struct(e₁，e₂)的线性组合，权重参数为λ，计算公式如下：

sim_overall(e₁，e₂)＝λ×ctxt(e₁，e₂)+(1-λ)×struct(e₁，e₂)

步骤4，基于总体语义相关度，对E_c中的每个实体词，计算其到其他所有实体词的总体语义相关度之和，得到集合的加权实体词集WE_c。

给定集合的实体词集E_c，实体词e(e∈E_c)的权重计算公式如下：

其中，|E_c|为集合c的实体词集E_c中实体词总数。采用集合的实体词权重计算公式，能够计算E_c中各个实体词的权重，得到WE_c。

(2)在线处理阶段，其步骤如下：

步骤1，接收用户查询θ，采用实体链接方法抽取原始查询中存在的实体词，得到原始查询实体词集O_θ。

采用广泛使用的实体链接工具(如：DBpedia Spotlight)，对用户查询θ进行实体词抽取，得到原始查询实体词集O_θ。

步骤2，基于Wikipedia文章索引，检索得到与θ相关的一组Wikipedia文章标题，在DBpedia图知识库中找到与上述文章标题一一对应的实体词，得到初始候选扩展实体词集R_θ。

步骤3，基于DBpedia图结构，将R_θ中的实体词组织成一个实体图G_θ。枚举G_θ中所有的路径，计算所有路径的评分，选择评分较高的若干条路径，保留所选路径上的实体词，得到中间候选扩展实体词集P_θ，具体步骤包括如下：

a)基于DBpedia图结构，将R_θ中的实体词组织成一个实体图G_θ。其中，R_θ中的实体词作为G_θ中的节点，实体词之间的关系作为G_θ中的边。

b)对G_θ中的所有顶点依次使用深度优先遍历算法，枚举出实体图中所有的路径。

c)采用路径评分计算公式，计算所有路径的评分。路径评分计算公式为：

其中，P为实体图G_θ中的一条路径，P＝{a₁，a₂，...，a_s}，s为路径上实体词的总数，a_t为路径上的实体词，且1≤t≤s。

d)按路径评分高低进行排序，选择评分较高的若干条路径，保留所选路径上的实体词，得到中间候选扩展实体词集P_θ。

步骤4，基于DBpedia图结构，将P_θ中的实体词组织成一个实体图G_P，并选择P_θ在DBpedia图知识库中的所有邻居节点作为待选实体词集N_θ；依次将N_θ中的每个实体词作为节点及其与G_P中实体词存在的关系作为边合并到G_P。若G_P的紧密程度增加，则保留此节点，否则删除。遍历完N_θ每个实体词后，将G_P中的所有实体词作为最终扩展实体词集C_θ。具体流程如图3所示。包括如下步骤：

a)基于DBpedia图结构，将P_θ中的实体词组织成一个实体图G_P。其中，P_θ中的实体词作为G_P中的节点，实体词之间的关系作为G_P中的边。

b)对于P_θ中所有的实体词，选择它们在DBpedia图知识库中的所有邻居节点作为待选实体词集N_θ。

c)若N_θ中仍有未处理的实体词，选择一个未处理的实体词，进入步骤d。否则，进入步骤f。

d)将实体词e_i以及其与G_P中所有实体词存在的边，合并到G_P。

e)计算G_P的紧密程度，其由图中点和边构成三角形的数目来度量。若G_P的紧密程度增加，则返回步骤c；否则，在G_P中删除步骤d中并入的实体词及其连接的边后返回步骤c。

f)获取G_P中存在的实体词，更新到最终扩展实体词集C_θ。

步骤5，去除C_θ中包含与O_θ重复的实体词，得到互相不包含冗余实体词的C_θ与O_θ，C_θ与O_θ构成最终的新查询Q_θ。

步骤6，计算Q_θ中各个实体词的权重，得到查询的加权实体词集WQ_θ。

给定某查询实体词e(e∈Q_θ)，其权重计算公式如下：

步骤7，基于通过离线处理阶段得到的WE_c，通过在线处理阶段得到的WQ_θ、实体词之间的总体语义相关度、集合大小与集合实体词频率，计算查询WQ_θ与集合WE_c的相关度，选择评分较高的前若干个集合。具体步骤包括：

a)针对每个集合c，通过离线处理阶段得到集合的加权实体词集WE_c，然后获取集合c的实体词集E_c中每个实体词e_j(1≤j≤n)的权重，n为集合c的实体词集E_c中的实体词个数。

b)针对查询Q_θ，获取Q_θ中每个实体词e_i(1≤i≤m)的权重，m为Q_θ中的实体词个数。

c)计算查询实体词e_i与集合实体词e_j的总体语义相关度sim_overall(e_i，e_j)，其计算方式和sim_overall(e₁，e₂)类似，即：

sim_overall(e_i，e_j)＝λ×ctxt(e_i，e_j)+(1-λ)×struct(e_i，e_j)

其中ctxt(e_i，e_j)为上下文相关度，计算方式和ctxt(e₁，e₂)类似，即：

其中，E_i和E_j分别是e_i和e_j出现在Wikipedia中的文章总数，W是Wikipedia中包含的文章总数，dist(e_i，e_j)表示e_i和e_j两个实体词在DBpedia图知识库中的最短距离。

其中，1≤r≤k，k为两个实体词e_i和e_j之间最短路径的总数。若实体词e_i和e_j之间存在多条最短路径，则e_i和e_j之间的结构相关度设置为所有最短路径上边权重之和的最大值。

d)计算集合大小ε_c，将集合中的文档总数|c|，除以最大集合的文档总数(由|c_max|表示)，计算公式如下：

其中，|s_c|表示集合c的样本文档总数。

e)计算集合c实体词频率f(c，e_j)，使用实体词e_j的词频除以集合c的实体词集E_c所有实体词的词频总数，计算公式如下：

其中，e_j(1≤j≤n)是集合c的实体词集E_c中的实体词。

f)采用查询WQ_θ与集合WE_c相关度计算公式，得到各个集合评分。其中，查询WQ_θ与集合WE_c相关度计算公式如下：

其中，e_i(1≤i≤m)是查询Q_θ中的实体词，e_j(1≤j≤n)是集合c的实体词集E_c中的实体词。

和

分别为e_i和e_j的权重。

g)按集合评分高低进行排序，选择评分较高的前若干个集合。

以上的所述乃是本发明的具体实施例及所运用的技术原理，若依本发明的构想所作的改变，其所产生的功能作用仍未超出说明书及附图所涵盖的精神时，仍应属本发明的保护范围。

Claims

1.一种基于图知识库的分布式信息检索集合选择方法，其特征在于，包括离线处理阶段和在线处理阶段，具体包括如下步骤：

(1)离线处理阶段：

(1.3)基于上下文相关度和结构相关度，计算实体词之间的总体语义相关度sim_overall(e₁，e₂)；

(2)在线处理阶段：

sim_overall(e_i，e_j)＝λ×ctxt(e_i，e_j)+(1-λ)×struct(e_i，e_j)

其中，|s_c|表示集合c的样本文档总数；

其中，e_j是集合c的实体词集E_c中的实体词；其中，1≤j≤n；

和

分别是e_i和e_j的权重，其计算公式分别如下：

2.根据权利要求1所述的一种基于图知识库的分布式信息检索集合选择方法，其特征在于：所述步骤(1.1)与步骤(2.1)使用的实体链接方法具体为采用实体链接工具进行抽取，实体链接工具采用DBpedia Spotlight。

3.根据权利要求1所述的一种基于图知识库的分布式信息检索集合选择方法，其特征在于：所述步骤(1.1)得到实体词集E_c的方法如下：

1.1，1)针对集合c，其样本文档集为

1.1.2)利用实体链接工具抽取样本文档中存在的实体词e_i；

4.根据权利要求1所述的一种基于图知识库的分布式信息检索集合选择方法，其特征在于：所述步骤(1.2)计算实体词之间的上下文相关度和结构相关度的方法如下：

其中，E₁和E₂分别是e₁和e₂出现在Wikipedia中的文章总数，W是Wikipedia中包含的文章总数，dist(e₁，e₂)表示e₁和e₂两个实体词在DBpedia图知识库中的最短距离；

1.2.3)给定DBpedia中的一条最短路径edge＝{Subj，Pred，Obj}，其中Subj与Obj均是实体词，Pred为谓词，计算谓词的信息量IC(ω_Pred)，计算公式如下：

1.2.4)计算谓词的条件信息量IC(ω_Obj|ω_Pred)，计算公式如下：

其中，|ω_(Pred，Obj)|是连接到实体词Obj的谓词总数；

w_jointIC(edge)＝IC(ω_Pred)+IC(ω_Obj|ω_Pred)

其中，w_jointIc(edge)为边edge＝{Subj，Pred，Obj}的权值；

5.根据权利要求1所述的一种基于图知识库的分布式信息检索集合选择方法，其特征在于：所述的总体语义相关度通过将上下文相关度和结构相关度的线性组合而得到，权重参数为λ，公式如下：

sim_overall(e₁，e₂)＝λ×ctxt(e₁，e₂)+(1-λ)×struct(e₁，e₂)。

6.根据权利要求1所述的一种基于图知识库的分布式信息检索集合选择方法，其特征在于：所述步骤(1.4)计算E_c中的每个实体词到其他所有实体词的总体语义相关度之和即为对实体词集E_c的实体词e进行权重计算，公式如下：

7.根据权利要求1所述的一种基于图知识库的分布式信息检索集合选择方法，其特征在于：所述步骤(2.3)得到P_θ的方法如下：

8.根据权利要求1所述的一种基于图知识库的分布式信息检索集合选择方法，其特征在于：所述步骤(2.4)得到C_θ方法如下：

2.4.4)将实体词以及其与G_P中所有实体词存在的边合并到G_P；

9.根据权利要求1所述的一种基于图知识库的分布式信息检索集合选择方法，其特征在于：所述步骤(2.6)计算Q_θ中实体词的权重的公式如下：