CN107133274B - 一种基于图知识库的分布式信息检索集合选择方法 - Google Patents
一种基于图知识库的分布式信息检索集合选择方法 Download PDFInfo
- Publication number
- CN107133274B CN107133274B CN201710228718.XA CN201710228718A CN107133274B CN 107133274 B CN107133274 B CN 107133274B CN 201710228718 A CN201710228718 A CN 201710228718A CN 107133274 B CN107133274 B CN 107133274B
- Authority
- CN
- China
- Prior art keywords
- entity
- entity word
- word
- words
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于图知识库的分布式信息检索集合选择方法,主要包括如下步骤:1)采用实体链接方法,从各个集合的样本文档中获取集合的实体词集;2)基于上下文相关度和结构相关度,计算实体词的权重,使用加权的实体词集表示集合的语义信息;3)采用查询扩展方法扩展查询中包含的实体词,并为查询实体词赋予不同的权重;4)采用查询与集合相关度度量方法计算集合评分,选择评分较高的前若干个集合。本发明利用图知识库中蕴含的实体关系和网络结构,使用基于图知识库的集合语义建模方法、查询扩展方法和查询与集合相关度度量方法,提高了集合选择方法的准确度。
Description
技术领域
本发明涉及分布式信息检索领域,尤其涉及一种基于图知识库的分布式信息检索集合选择方法。
背景技术
在过去的十年中,信息检索技术的发展使Web搜索引擎的质量达到了一个新的水平,Web搜索引擎已经成为用户发现和获取信息的常规和首选渠道。然而,随着万维网的不断发展,非结构化数据以指数级地形式增长,传统的集中式信息检索系统面临着很多难以克服的困难,无法有效管理海量文本数据,无法提供快速、稳定的检索服务。尽管单台计算机的处理能力不断提高,但在面对海量信息检索服务时也束手无策。为了适应现代海量数据的检索要求,解决传统的集中式信息检索系统存在的问题,分布式信息检索已成为一种有效的解决方案。
分布式信息检索也称为联合搜索、或联合信息检索,将多个可检索的信息集合组织成一个检索接口,并对外提供检索服务。在具体的检索中,用户通常只关心排名靠前的检索结果。然而,并不是所有的信息集合都包含了用户需要的信息,检索所有的信息集合,不但增加系统的计算开销,还会占用大量的网络带宽。如果只检索部分集合,能够得到类似搜索所有集合的检索效果,将大幅提升系统的检索效率。因此,集合选择对于提升分布式检索系统的性能有着举足轻重的作用,具有重要的研究价值。
传统集合选择方法使用集合的词汇统计信息来表示整个集合,基于词汇统计特征计算查询与集合的相关度,并按相关度高低对集合进行排序,选择排名靠前的集合。然而,此类方法要求每个集合提供基于所有文档的词汇直方图,包括词典和词频等统计信息。在复杂的网络环境中获取所有集合的词汇直方图是不切实际的,尤其是在非协同式的环境下。此外,词汇直方图丢失了大量文本语义信息,如近义词、多义词和词序等信息,直接导致了集合语义信息表示不准确。
为进一步提高集合语义信息表示的准确度,目前也出现了基于复杂语义信息的集合选择方法,使用ESA向量、LDA主题模型或分布式表征向量对集合的语义信息进行建模。此类方法充分挖掘了文本语义信息,包括文本主题、词序等信息,而不是仅使用词汇直方图。但是,此类方法仅考虑文本的“形态句法”信息,忽略了词汇之间更深层次、细粒度的语义关系,如主谓宾关系。
发明内容
本发明为克服上述的不足之处,目的在于提供一种基于图知识库的分布式信息检索集合选择方法,本发明方法利用图知识库中蕴含的实体关系和网络结构,对集合的语义信息进行建模,首先从各个集合的样本文档中获取集合的实体词集;其次,基于上下文相关度和结构相关度,计算实体词的权重,使用加权的实体词集表示集合的语义信息;然后,采用查询扩展方法扩展查询中包含的实体词,并为查询实体词赋予不同的权重;最后,采用查询与集合相关度度量方法计算集合评分,选择评分较高的若干个集合;提高了集合选择方法的准确度。
本发明是通过以下技术方案达到上述目的:一种基于图知识库的分布式信息检索集合选择方法,其特征在于,包括离线处理阶段和在线处理阶段,具体包括如下步骤:
(1)离线处理阶段:
(1.1)采用实体链接方法抽取集合c存在的实体词,得到集合c的实体词集Ec;
(1.2)计算实体词之间的上下文相关度ctxt(e1,e2)和结构相关度struct(e1,e2);
(1.3)基于上下文相关度和结构相关度,计算实体词之间的总体语义相关度simoverall(e1,e2);
(1.4)基于总体语义相关度,分别计算Ec中的每个实体词到其他所有实体词的总体语义相关度之和,得到集合c的加权实体词集WEc;
(2)在线处理阶段:
(2.1)接收用户查询θ,采用实体链接方法抽取原始查询中存在的实体词,得到原始查询实体词集Oθ;
(2.2)基于Wikipedia文章索引,检索得到与θ相关的Wikipedia文章标题,在DBpedia图知识库中找到与检索到的文章标题一一对应的实体词,得到初始候选扩展实体词集Rθ;
(2.3)基于DBpedia图结构,将Rθ中的实体词组织成实体图Gθ,枚举Gθ中所有的路径,计算所有路径的评分,选择评分高的前若干条路径,保留路径对应的实体词,得到中间候选扩展实体词集Pθ;
(2.4)基于DBpedia图结构,将Pθ中的实体词组织成实体图GP,并选择Pθ在DBpedia图知识库中的所有邻居节点作为待选实体词集Nθ;依次将Nθ中的每个实体词作为节点及其与GP中实体词存在的关系作为边合并到GP;若GP的紧密程度增加,则保留此节点,否则删除;遍历完Nθ每个实体词后,将GP中的所有实体词作为最终扩展实体词集Cθ;
(2.5)去除Cθ中包含与Oθ重复的实体词,得到互相不包含冗余实体词的Cθ与Oθ,Cθ与Oθ构成最终的新查询Qθ;
(2.6)计算Qθ中各个实体词的权重,得到查询的加权实体词集WQθ;
(2.7)基于通过离线处理阶段得到的WEc与通过在线处理阶段得到的WQθ、实体词之间的总体语义相关度、集合大小与集合实体词频率,计算查询Qθ与集合c的相关度,选择评分高的前若干集合;具体如下:
2.7.1)针对每个集合c,获取集合c的实体词集Ec中每个实体词ej的权重,n为集合c的实体词集Ec中的实体词个数;其中,1≤j≤n;
2.7.2)针对查询Qθ,获取Qθ中每个实体词ei的权重,m为Qθ中的实体词个数;其中,1≤i≤m;
2.7.3)计算实体词ei与实体词ej的总体语义相关度simoverall(ei,ej);其计算方式和simoverall(e1,e2)类似,即:
simoveall(ei,ej)=λ×ctxt(ei,ej)+(1-λ)×struct(ei,ej)
其中ctxt(ei,ej)为上下文相关度,计算方式和ctxt(e1,e2)类似,
即:
其中,Ei和Ej分别是ei和ej出现在Wikipedia中的文章总数,W是Wikipedia中包含的文章总数,dist(ei,ej)表示ei和ej两个实体词在DBpedia图知识库中的最短距离,即从实体词ei到实体词ej所经过边的最少个数;
struct(ei,ej)为结构相关度,计算方式和struct(e1,e2)类似,即:
其中,1≤r≤k,k为两个实体词ei和ej之间最短路径的总数;若实体词ei和ej之间存在多条最短路径,则ei和ej之间的结构相关度设置为所有最短路径上边权重之和的最大值;
2.7.4)计算集合c的集合大小εc,由集合中的文档总数|c|除以最大集合的文档总数|cmax|得到,计算公式如下:
其中,|sc|表示集合c的样本文档总数;
2.7.5)计算集合实体词ej的频率f(c,ej),由实体词ej的词频除以集合c的实体词集Ec中所有实体词的词频总数得到,计算公式如下:
其中,ej是集合c的实体词集Ec中的实体词;其中,1≤j≤n;
2.7.6)采用查询与集合相关度计算公式计算得到各个集合评分,其中查询与集合相关度计算公式如下:
2.7.7)按集合评分高低进行排序,选择评分高的前若干个集合。
作为优选,所述步骤(1.1)与步骤(2.1)使用的实体链接方法具体为采用实体链接工具进行抽取,实体链接工具采用DBpedia Spotlight。
作为优选,所述步骤(1.1)得到实体词集Ec的方法如下:
1.1.2)利用实体链接工具抽取样本文档中存在的实体词ei;
1.1.3)将实体词ei更新到集合的实体词集Ec中,若仍有未处理的样本文档,则返回执行步骤1.1.1);否则,结束。
作为优选,所述步骤(1.2)计算实体词之间的上下文相关度和结构相关度的方法如下:
1.2.1)基于Wikipedia上两个实体词共享的文章数,来计算两个实体词e1和e2之间的上下文相关度,计算公式如下:
其中,E1和E2分别是e1和e2出现在Wikipedia中的文章总数,W是Wikipedia中包含的文章总数,dist(e1e2)表示e1和e2两个实体词在DBpedia图知识库中的最短距离;
1.2.2)采用广度优先遍历算法,得到任意两个实体词e1和e2在DBpedia图知识库中的最短路径path(e1,e2)={edge1,edge2,...,edgek};
1.2.3)给定DBpedia中的一条最短路径edge={Subj,Pred,Obj},其中Subj与Obj均是实体词,Pred为谓词,计算谓词的信息量IC(ωPred),计算公式如下:
其中,|ωPred|是相同类型谓词的总数,|T|是DBpedia图中所有三元组的总数;
1.2.4)计算谓词的条件信息量IC(ωObj|ωPred),计算公式如下:
其中,|ω(Pred,Obj)|是连接到实体词Obj的谓词总数;
1.2.5)计算谓词的信息量和条件信息量之和得到边权值,公式如下:
wjointIc(edge)=IC(ωPred)+IC(ωObj|ωPred)
其中,wjointIc(edge)为边edge={Subj,Pred,Obj}的权值;
1.2.6)基于两个实体词e1和e2在DBpedia图知识库中的最短路径上边权值之和得到结构相关度,计算公式如下:
其中,若实体词e1和e2之间存在多条最短路径,则e1和e2之间的结构相关度设置为所有最短路径的结构相关度的最大值。
作为优选,所述的总体语义相关度通过将上下文相关度和结构相关度的线性组合而得到,权重参数为λ,公式如下:
simoverall(e1,e2)=λ×ctxt(e1,e2)+(1-λ)×struct(e1,e2)。
作为优选,所述步骤(1.4)计算Ec中的每个实体词到其他所有实体词的总体语义相关度之和即为对实体词集Ec的实体词e进行权重计算,公式如下:
其中,|Ec|为集合c的实体词集Ec中实体词总数,采用上述权重计算公式计算Ec中各个实体词的权重,从而得到WEc。
作为优选,所述步骤(2.3)得到Pθ的方法如下:
2.3.1)基于DBpedia图结构,将Rθ中的实体词组织成实体图Gθ,其中,Rθ中的实体词作为Gθ中的节点,实体词之间的关系作为Gθ中的边;
2.3.2)对Gθ中的所有顶点依次采用深度优先遍历算法,枚举出实体图中所有的路径;
2.3.3)采用路径评分计算公式,计算所有路径的评分,公式如下:
其中,P为实体图Gθ中的一条路径,P={a1,a2,...,as},s为路径上实体词的总数,at为路径上的实体词,且1≤t≤s;
2.3.4)按路径评分高低进行排序,选择评分高的前若干条路径,保留所选路径对应的实体词ai,得到中间候选扩展实体词集Pθ。
作为优选,所述步骤(2.4)得到Cθ方法如下:
2.4.1)基于DBpedia图结构,将Pθ中的实体词组织成实体图GP,其中,Pθ中的实体词作为GP中的节点,实体词之间的关系作为GP中的边;
2.4.2)对于Pθ中所有的实体词,选择其在DBpedia图知识库中的所有邻居节点作为待选实体词集Nθ;
2.4.3)若Nθ中有未处理的实体词,选择一个未处理的实体词,进入步骤2.4.4);否则,进入步骤2.4.6);
2.4.4)将实体词以及其与GP中所有实体词存在的边合并到GP;
2.4.5)计算GP的紧密程度,紧密程度由图中点和边构成三角形的数目来度量;若GP的紧密程度增加,则返回步骤2.4.3);否则,在GP中删除步骤2.4.4)中并入的实体词及其连接的边后返回步骤2.4.3);
2.4.6)获取GP中存在的实体词,更新得到最终扩展实体词集Cθ。
作为优选,所述步骤(2.6)计算Qθ中实体词的权重的公式如下:
其中,γ是权重参数;当实体词e属于Oθ时,它们被赋予相等的权重,当实体词e属于Cθ时,根据实体词e到Pθ中实体词的最短距离,它们被赋予不同的权重;采用上述公式计算Qθ中各个实体词的权重,得到WQθ。
本发明的有益效果在于:(1)本发明利用图知识库提供的实体关系与网络结构,使用上下文相关度和结构相关度计算集合中实体词的权重,并使用加权的实体词集表示集合的语义信息,保留了词汇之间更细粒度的语义关系,提高了集合语义信息表示的准确度;(2)基于Wikipedia文章与DBpedia网络结构,发现并扩展了简短查询词中包含的实体词,且为查询实体词赋予了不同的权重,准确地表达了用户查询意图;(3)基于加权的实体词,查询与集合相关度度量方法综合考虑了集合大小、实体词频率等因素,提高了计算查询与集合相关度的准确度。
附图说明
图1是本发明的方法流程示意图;
图2是本发明实施例集合的实体词集的获取流程示意图;
图3是本发明实施例查询的最终扩展实体词集的获取流程示意图。
具体实施方式
下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不仅限于此:
实施例:如图1所示,一种基于图知识库的分布式信息检索集合选择方法,包括在线处理、离线处理两个阶段,具体如下:
(1)离线处理阶段,其步骤如下:
步骤1,采用实体链接方法抽取集合样本文档中存在的实体词,得到集合c的实体词集Ec。
采用广泛使用的实体链接工具(如:DBpedia Spotlight),进行实体词抽取。具体步骤如图2所示,包括:
b)利用实体链接工具抽取样本文档中存在的实体词ei;
c)将实体词ei更新到集合c的实体词集Ec中,若仍有未处理的样本文档,返回步骤a,否则,结束。
步骤2,计算实体词之间的上下文相关度ctxt(e1,e2)和结构相关度struct(e1,e2),具体步骤包括:
a)计算任意两个实体词e1(e1∈Ec)和e2(e2∈Ec)之间的上下文相关度。其基于Wikipedia上两个实体词共享的文章数,来计算两个实体词之间的上下文相关度,计算公式如下:
其中,E1和E2分别是e1和e2出现在Wikipedia中的文章总数,W是Wikipedia中包含的文章总数,dist(e1,e2)表示e1和e2两个实体词在DBpedia图知识库中的最短距离。
b)采用广度优先遍历算法,得到任意两个实体词e1(e1∈Ec)和e2(e2∈Ec)在DBpedia图知识库中的最短路径path(e1,e2)={edge1,edge2,…,edgek}。
c)给定DBpedia中的一条最短路径edge={Subj,Pred,Obj},其中Subj与Obj均是实体词,Pred为谓词,计算谓词的信息量,计算公式如下:
IC(ωPred)表示谓词的信息量,在DBpedia中存在的同种类型边越多,即此谓词总数越多,重要性越低,具有较低的信息量。|ωPred|是相同类型谓词的总数,|T|是DBpedia图中所有三元组的总数。
d)计算谓词的条件信息量,计算公式如下:
IC(ωObj|ωPred)表示谓词的条件信息量,考虑了谓词所指向实体词的特殊性,若连接到此实体词的谓词越少,则此类谓词越重要,具有较高的信息量。|ω(Pred,Obj)|是连接到实体词Obj的谓词总数。
e)计算边权值,其由谓词的信息量和条件信息量之和得到,计算公式如下:
wjointIC(edge)=IC(ωPred)+IC(ωObj|ωPred)
WjointIC(edge)表示边edge={Subj,Pred,Obj}的权值。
f)计算任意两个实体词e1(e1∈Ec)和e2(e2∈Ec)之间的结构相关度。其基于两个实体词在DBpedia图知识库中的最短路径上边权值之和得到,计算公式如下:
其中,1≤r≤k,k为两个实体词e1和e2之间最短路径的总数。若实体词e1和e2之间存在多条最短路径,则e1和e2之间的结构相关度设置为所有最短路径的结构相关度的最大值。
步骤3,基于上下文相关度和结构相关度,计算实体词之间的总体语义相关度simoverall(e1,e2)。
对于任意两个实体词e1(e1∈Ec)和e2(e2∈Ec),总体语义相关度simoverall(e1,e2)为上下文相关度ctxt(e1,e2)和结构相关度struct(e1,e2)的线性组合,权重参数为λ,计算公式如下:
simoverall(e1,e2)=λ×ctxt(e1,e2)+(1-λ)×struct(e1,e2)
步骤4,基于总体语义相关度,对Ec中的每个实体词,计算其到其他所有实体词的总体语义相关度之和,得到集合的加权实体词集WEc。
给定集合的实体词集Ec,实体词e(e∈Ec)的权重计算公式如下:
其中,|Ec|为集合c的实体词集Ec中实体词总数。采用集合的实体词权重计算公式,能够计算Ec中各个实体词的权重,得到WEc。
(2)在线处理阶段,其步骤如下:
步骤1,接收用户查询θ,采用实体链接方法抽取原始查询中存在的实体词,得到原始查询实体词集Oθ。
采用广泛使用的实体链接工具(如:DBpedia Spotlight),对用户查询θ进行实体词抽取,得到原始查询实体词集Oθ。
步骤2,基于Wikipedia文章索引,检索得到与θ相关的一组Wikipedia文章标题,在DBpedia图知识库中找到与上述文章标题一一对应的实体词,得到初始候选扩展实体词集Rθ。
步骤3,基于DBpedia图结构,将Rθ中的实体词组织成一个实体图Gθ。枚举Gθ中所有的路径,计算所有路径的评分,选择评分较高的若干条路径,保留所选路径上的实体词,得到中间候选扩展实体词集Pθ,具体步骤包括如下:
a)基于DBpedia图结构,将Rθ中的实体词组织成一个实体图Gθ。其中,Rθ中的实体词作为Gθ中的节点,实体词之间的关系作为Gθ中的边。
b)对Gθ中的所有顶点依次使用深度优先遍历算法,枚举出实体图中所有的路径。
c)采用路径评分计算公式,计算所有路径的评分。路径评分计算公式为:
其中,P为实体图Gθ中的一条路径,P={a1,a2,...,as},s为路径上实体词的总数,at为路径上的实体词,且1≤t≤s。
d)按路径评分高低进行排序,选择评分较高的若干条路径,保留所选路径上的实体词,得到中间候选扩展实体词集Pθ。
步骤4,基于DBpedia图结构,将Pθ中的实体词组织成一个实体图GP,并选择Pθ在DBpedia图知识库中的所有邻居节点作为待选实体词集Nθ;依次将Nθ中的每个实体词作为节点及其与GP中实体词存在的关系作为边合并到GP。若GP的紧密程度增加,则保留此节点,否则删除。遍历完Nθ每个实体词后,将GP中的所有实体词作为最终扩展实体词集Cθ。具体流程如图3所示。包括如下步骤:
a)基于DBpedia图结构,将Pθ中的实体词组织成一个实体图GP。其中,Pθ中的实体词作为GP中的节点,实体词之间的关系作为GP中的边。
b)对于Pθ中所有的实体词,选择它们在DBpedia图知识库中的所有邻居节点作为待选实体词集Nθ。
c)若Nθ中仍有未处理的实体词,选择一个未处理的实体词,进入步骤d。否则,进入步骤f。
d)将实体词ei以及其与GP中所有实体词存在的边,合并到GP。
e)计算GP的紧密程度,其由图中点和边构成三角形的数目来度量。若GP的紧密程度增加,则返回步骤c;否则,在GP中删除步骤d中并入的实体词及其连接的边后返回步骤c。
f)获取GP中存在的实体词,更新到最终扩展实体词集Cθ。
步骤5,去除Cθ中包含与Oθ重复的实体词,得到互相不包含冗余实体词的Cθ与Oθ,Cθ与Oθ构成最终的新查询Qθ。
步骤6,计算Qθ中各个实体词的权重,得到查询的加权实体词集WQθ。
给定某查询实体词e(e∈Qθ),其权重计算公式如下:
其中,γ是权重参数;当实体词e属于Oθ时,它们被赋予相等的权重,当实体词e属于Cθ时,根据实体词e到Pθ中实体词的最短距离,它们被赋予不同的权重;采用上述公式计算Qθ中各个实体词的权重,得到WQθ。
步骤7,基于通过离线处理阶段得到的WEc,通过在线处理阶段得到的WQθ、实体词之间的总体语义相关度、集合大小与集合实体词频率,计算查询WQθ与集合WEc的相关度,选择评分较高的前若干个集合。具体步骤包括:
a)针对每个集合c,通过离线处理阶段得到集合的加权实体词集WEc,然后获取集合c的实体词集Ec中每个实体词ej(1≤j≤n)的权重,n为集合c的实体词集Ec中的实体词个数。
b)针对查询Qθ,获取Qθ中每个实体词ei(1≤i≤m)的权重,m为Qθ中的实体词个数。
c)计算查询实体词ei与集合实体词ej的总体语义相关度simoverall(ei,ej),其计算方式和simoverall(e1,e2)类似,即:
simoverall(ei,ej)=λ×ctxt(ei,ej)+(1-λ)×struct(ei,ej)
其中ctxt(ei,ej)为上下文相关度,计算方式和ctxt(e1,e2)类似,即:
其中,Ei和Ej分别是ei和ej出现在Wikipedia中的文章总数,W是Wikipedia中包含的文章总数,dist(ei,ej)表示ei和ej两个实体词在DBpedia图知识库中的最短距离。
struct(ei,ej)为结构相关度,计算方式和struct(e1,e2)类似,即:
其中,1≤r≤k,k为两个实体词ei和ej之间最短路径的总数。若实体词ei和ej之间存在多条最短路径,则ei和ej之间的结构相关度设置为所有最短路径上边权重之和的最大值。
d)计算集合大小εc,将集合中的文档总数|c|,除以最大集合的文档总数(由|cmax|表示),计算公式如下:
其中,|sc|表示集合c的样本文档总数。
e)计算集合c实体词频率f(c,ej),使用实体词ej的词频除以集合c的实体词集Ec所有实体词的词频总数,计算公式如下:
其中,ej(1≤j≤n)是集合c的实体词集Ec中的实体词。
f)采用查询WQθ与集合WEc相关度计算公式,得到各个集合评分。其中,查询WQθ与集合WEc相关度计算公式如下:
g)按集合评分高低进行排序,选择评分较高的前若干个集合。
以上的所述乃是本发明的具体实施例及所运用的技术原理,若依本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附图所涵盖的精神时,仍应属本发明的保护范围。
Claims (9)
1.一种基于图知识库的分布式信息检索集合选择方法,其特征在于,包括离线处理阶段和在线处理阶段,具体包括如下步骤:
(1)离线处理阶段:
(1.1)采用实体链接方法抽取集合c存在的实体词,得到集合c的实体词集Ec;
(1.2)计算实体词之间的上下文相关度ctxt(e1,e2)和结构相关度struct(e1,e2);
(1.3)基于上下文相关度和结构相关度,计算实体词之间的总体语义相关度simoverall(e1,e2);
(1.4)基于总体语义相关度,分别计算Ec中的每个实体词到其他所有实体词的总体语义相关度之和,得到集合c的加权实体词集WEc;
(2)在线处理阶段:
(2.1)接收用户查询θ,采用实体链接方法抽取原始查询中存在的实体词,得到原始查询实体词集Oθ;
(2.2)基于Wikipedia文章索引,检索得到与θ相关的Wikipedia文章标题,在DBpedia图知识库中找到与检索到的文章标题一一对应的实体词,得到初始候选扩展实体词集Rθ;
(2.3)基于DBpedia图结构,将Rθ中的实体词组织成实体图Gθ,枚举Gθ中所有的路径,计算所有路径的评分,选择评分高的前若干条路径,保留路径对应的实体词,得到中间候选扩展实体词集Pθ;
(2.4)基于DBpedia图结构,将Pθ中的实体词组织成实体图Gp,并选择Pθ在DBpedia图知识库中的所有邻居节点作为待选实体词集Nθ;依次将Nθ中的每个实体词作为节点及其与GP中实体词存在的关系作为边合并到GP;若GP的紧密程度增加,则保留此节点,否则删除;遍历完Nθ每个实体词后,将GP中的所有实体词作为最终扩展实体词集Cθ;
(2.5)去除Cθ中包含与Oθ重复的实体词,得到互相不包含冗余实体词的Cθ与Oθ,Cθ与Oθ构成最终的新查询Qθ;
(2.6)计算Qθ中各个实体词的权重,得到查询的加权实体词集WQθ;
(2.7)基于通过离线处理阶段得到的WEc与通过在线处理阶段得到的WQθ、实体词之间的总体语义相关度、集合大小与集合实体词频率,计算查询Qθ与集合c的相关度,选择评分高的前若干集合;具体如下:
2.7.1)针对每个集合c,获取集合c的实体词集Ec中每个实体词ej的权重,n为集合c的实体词集Ec中的实体词个数;其中,1≤j≤n;
2.7.2)针对查询Qθ,获取Qθ中每个实体词ei的权重,m为Qθ中的实体词个数;其中,1≤i≤m;
2.7.3)计算实体词ei与实体词ej的总体语义相关度simoverall(ei,ej);其计算方式和simoverall(e1,e2)类似,即:
simoverall(ei,ej)=λ×ctxt(ei,ej)+(1-λ)×struct(ei,ej)
其中ctxt(ei,ej)为上下文相关度,计算方式和ctxt(e1,e2)类似,即:
其中,Ei和Ej分别是ei和ej出现在Wikipedia中的文章总数,W是Wikipedia中包含的文章总数,dist(ei,ej)表示ei和ej两个实体词在DBpedia图知识库中的最短距离,即从实体词ei到实体词ej所经过边的最少个数;
struct(ei,ej)为结构相关度,计算方式和struct(e1,e2)类似,即:
其中,1≤r≤k,k为两个实体词ei和ej之间最短路径的总数;若实体词ei和ej之间存在多条最短路径,则ei和ej之间的结构相关度设置为所有最短路径上边权重之和的最大值;
2.7.4)计算集合c的集合大小εc,由集合中的文档总数|c|除以最大集合的文档总数|cmax|得到,计算公式如下:
其中,|sc|表示集合c的样本文档总数;
2.7.5)计算集合实体词ej的频率f(c,ej),由实体词ej的词频除以集合c的实体词集Ec中所有实体词的词频总数得到,计算公式如下:
其中,ej是集合c的实体词集Ec中的实体词;其中,1≤j≤n;
2.7.6)采用查询与集合相关度计算公式计算得到各个集合评分,其中查询与集合相关度计算公式如下:
2.7.7)按集合评分高低进行排序,选择评分高的前若干个集合。
2.根据权利要求1所述的一种基于图知识库的分布式信息检索集合选择方法,其特征在于:所述步骤(1.1)与步骤(2.1)使用的实体链接方法具体为采用实体链接工具进行抽取,实体链接工具采用DBpedia Spotlight。
4.根据权利要求1所述的一种基于图知识库的分布式信息检索集合选择方法,其特征在于:所述步骤(1.2)计算实体词之间的上下文相关度和结构相关度的方法如下:
1.2.1)基于Wikipedia上两个实体词共享的文章数,来计算两个实体词e1和e2之间的上下文相关度,计算公式如下:
其中,E1和E2分别是e1和e2出现在Wikipedia中的文章总数,W是Wikipedia中包含的文章总数,dist(e1,e2)表示e1和e2两个实体词在DBpedia图知识库中的最短距离;
1.2.2)采用广度优先遍历算法,得到任意两个实体词e1和e2在DBpedia图知识库中的最短路径path(e1,e2)={edge1,edge2,...,edgek};
1.2.3)给定DBpedia中的一条最短路径edge={Subj,Pred,Obj},其中Subj与Obj均是实体词,Pred为谓词,计算谓词的信息量IC(ωPred),计算公式如下:
其中,|ωPred|是相同类型谓词的总数,|T|是DBpedia图中所有三元组的总数;
1.2.4)计算谓词的条件信息量IC(ωObj|ωPred),计算公式如下:
其中,|ω(Pred,Obj)|是连接到实体词Obj的谓词总数;
1.2.5)计算谓词的信息量和条件信息量之和得到边权值,公式如下:
wjointIC(edge)=IC(ωPred)+IC(ωObj|ωPred)
其中,wjointIc(edge)为边edge={Subj,Pred,Obj}的权值;
1.2.6)基于两个实体词e1和e2在DBpedia图知识库中的最短路径上边权值之和得到结构相关度,计算公式如下:
其中,若实体词e1和e2之间存在多条最短路径,则e1和e2之间的结构相关度设置为所有最短路径的结构相关度的最大值。
5.根据权利要求1所述的一种基于图知识库的分布式信息检索集合选择方法,其特征在于:所述的总体语义相关度通过将上下文相关度和结构相关度的线性组合而得到,权重参数为λ,公式如下:
simoverall(e1,e2)=λ×ctxt(e1,e2)+(1-λ)×struct(e1,e2)。
7.根据权利要求1所述的一种基于图知识库的分布式信息检索集合选择方法,其特征在于:所述步骤(2.3)得到Pθ的方法如下:
2.3.1)基于DBpedia图结构,将Rθ中的实体词组织成实体图Gθ,其中,Rθ中的实体词作为Gθ中的节点,实体词之间的关系作为Gθ中的边;
2.3.2)对Gθ中的所有顶点依次采用深度优先遍历算法,枚举出实体图中所有的路径;
2.3.3)采用路径评分计算公式,计算所有路径的评分,公式如下:
其中,P为实体图Gθ中的一条路径,P={a1,a2,...,as},s为路径上实体词的总数,at为路径上的实体词,且1≤t≤s;
2.3.4)按路径评分高低进行排序,选择评分高的前若干条路径,保留所选路径对应的实体词ai,得到中间候选扩展实体词集Pθ。
8.根据权利要求1所述的一种基于图知识库的分布式信息检索集合选择方法,其特征在于:所述步骤(2.4)得到Cθ方法如下:
2.4.1)基于DBpedia图结构,将Pθ中的实体词组织成实体图GP,其中,Pθ中的实体词作为GP中的节点,实体词之间的关系作为GP中的边;
2.4.2)对于Pθ中所有的实体词,选择其在DBpedia图知识库中的所有邻居节点作为待选实体词集Nθ;
2.4.3)若Nθ中有未处理的实体词,选择一个未处理的实体词,进入步骤2.4.4);否则,进入步骤2.4.6);
2.4.4)将实体词以及其与GP中所有实体词存在的边合并到GP;
2.4.5)计算GP的紧密程度,紧密程度由图中点和边构成三角形的数目来度量;若GP的紧密程度增加,则返回步骤2.4.3);否则,在GP中删除步骤2.4.4)中并入的实体词及其连接的边后返回步骤2.4.3);
2.4.6)获取GP中存在的实体词,更新得到最终扩展实体词集Cθ。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710228718.XA CN107133274B (zh) | 2017-04-10 | 2017-04-10 | 一种基于图知识库的分布式信息检索集合选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710228718.XA CN107133274B (zh) | 2017-04-10 | 2017-04-10 | 一种基于图知识库的分布式信息检索集合选择方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107133274A CN107133274A (zh) | 2017-09-05 |
CN107133274B true CN107133274B (zh) | 2020-12-15 |
Family
ID=59715737
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710228718.XA Active CN107133274B (zh) | 2017-04-10 | 2017-04-10 | 一种基于图知识库的分布式信息检索集合选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107133274B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109240821B (zh) * | 2018-07-20 | 2022-01-14 | 北京航空航天大学 | 一种基于边缘计算的分布式跨域协同计算与服务系统及方法 |
CN111401055B (zh) * | 2020-04-07 | 2023-04-18 | 宁波深擎信息科技有限公司 | 从金融资讯提取脉络信息的方法和装置 |
CN111581975B (zh) * | 2020-05-09 | 2023-06-20 | 北京明朝万达科技股份有限公司 | 案件的笔录文本的处理方法、装置、存储介质和处理器 |
CN113869099A (zh) * | 2021-06-22 | 2021-12-31 | 北京达佳互联信息技术有限公司 | 一种图像处理方法、装置、电子设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103823855A (zh) * | 2014-02-19 | 2014-05-28 | 天津大学 | 面向语义网的中文百科知识组织与集成方法 |
CN105956010A (zh) * | 2016-04-20 | 2016-09-21 | 浙江大学 | 基于分布式表征和局部排序的分布式信息检索集合选择方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8489639B2 (en) * | 2011-03-04 | 2013-07-16 | Accenture Global Services Limited | Information source alignment |
-
2017
- 2017-04-10 CN CN201710228718.XA patent/CN107133274B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103823855A (zh) * | 2014-02-19 | 2014-05-28 | 天津大学 | 面向语义网的中文百科知识组织与集成方法 |
CN105956010A (zh) * | 2016-04-20 | 2016-09-21 | 浙江大学 | 基于分布式表征和局部排序的分布式信息检索集合选择方法 |
Non-Patent Citations (2)
Title |
---|
Massive Query Expansion by Exploiting Graph Knowledge Bases for Image Retrieval;Joan Guisado-Gámez等;《Proceedings of International Conference on Multimedia Retrieval》;20140430;第33-40页 * |
基于知识的图文档建模(Knowledge-based Graph Document Modeling);YXY_1989;《https://blog.csdn.net/yangxiangyuibm/article/details/39047997》;20140904;第1-24页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107133274A (zh) | 2017-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110704743B (zh) | 一种基于知识图谱的语义搜索方法及装置 | |
CN105653706B (zh) | 一种基于文献内容知识图谱的多层引文推荐方法 | |
US8341159B2 (en) | Creating taxonomies and training data for document categorization | |
CN104239513B (zh) | 一种面向领域数据的语义检索方法 | |
CN108280114B (zh) | 一种基于深度学习的用户文献阅读兴趣分析方法 | |
CN107133274B (zh) | 一种基于图知识库的分布式信息检索集合选择方法 | |
CN108647322B (zh) | 基于词网识别大量Web文本信息相似度的方法 | |
JP2009093651A (ja) | 統計分布を用いたトピックスのモデリング | |
WO2021196541A1 (zh) | 用于搜索内容的方法、装置、设备和计算机可读存储介质 | |
JP2009093650A (ja) | 文書の段落分析によるその文書のタグの選択 | |
JP2009093649A (ja) | オントロジー空間を規定するタームの推奨 | |
CN102968465A (zh) | 网络信息服务平台及其基于该平台的搜索服务方法 | |
CN110543595A (zh) | 一种站内搜索系统及方法 | |
CN103761286B (zh) | 一种基于用户兴趣的服务资源检索方法 | |
CN105069080A (zh) | 一种文献检索方法及系统 | |
CN110377690B (zh) | 一种基于远程关系抽取的信息获取方法和系统 | |
Papadopoulos et al. | Image clustering through community detection on hybrid image similarity graphs | |
CN112148886A (zh) | 一种内容知识图谱的构建方法及系统 | |
CN103136221B (zh) | 一种生成需求模板的方法、需求识别的方法及其装置 | |
CN102915304B (zh) | 文档检索设备和方法 | |
CN106599305B (zh) | 一种基于众包的异构媒体语义融合方法 | |
CN108932247A (zh) | 一种优化文本搜索的方法及装置 | |
CN105162648B (zh) | 基于骨干网络扩展的社团检测方法 | |
CN110162580A (zh) | 基于分布式预警平台的数据挖掘与深度分析方法及应用 | |
Yu et al. | Mining hidden interests from twitter based on word similarity and social relationship for OLAP |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |