CN107133274A - 一种基于图知识库的分布式信息检索集合选择方法 - Google Patents

一种基于图知识库的分布式信息检索集合选择方法 Download PDF

Info

Publication number
CN107133274A
CN107133274A CN201710228718.XA CN201710228718A CN107133274A CN 107133274 A CN107133274 A CN 107133274A CN 201710228718 A CN201710228718 A CN 201710228718A CN 107133274 A CN107133274 A CN 107133274A
Authority
CN
China
Prior art keywords
mrow
msub
entity word
entity
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710228718.XA
Other languages
English (en)
Other versions
CN107133274B (zh
Inventor
吴勇
陈岭
韩保礼
季海琦
郑羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Hongcheng Computer Systems Co Ltd
Original Assignee
Zhejiang Hongcheng Computer Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Hongcheng Computer Systems Co Ltd filed Critical Zhejiang Hongcheng Computer Systems Co Ltd
Priority to CN201710228718.XA priority Critical patent/CN107133274B/zh
Publication of CN107133274A publication Critical patent/CN107133274A/zh
Application granted granted Critical
Publication of CN107133274B publication Critical patent/CN107133274B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于图知识库的分布式信息检索集合选择方法,主要包括如下步骤:1)采用实体链接方法,从各个集合的样本文档中获取集合的实体词集;2)基于上下文相关度和结构相关度,计算实体词的权重,使用加权的实体词集表示集合的语义信息;3)采用查询扩展方法扩展查询中包含的实体词,并为查询实体词赋予不同的权重;4)采用查询与集合相关度度量方法计算集合评分,选择评分较高的前若干个集合。本发明利用图知识库中蕴含的实体关系和网络结构,使用基于图知识库的集合语义建模方法、查询扩展方法和查询与集合相关度度量方法,提高了集合选择方法的准确度。

Description

一种基于图知识库的分布式信息检索集合选择方法
技术领域
本发明涉及分布式信息检索领域,尤其涉及一种基于图知识库的分布式信息检索集合选择方法。
背景技术
在过去的十年中,信息检索技术的发展使Web搜索引擎的质量达到了一个新的水平,Web搜索引擎已经成为用户发现和获取信息的常规和首选渠道。然而,随着万维网的不断发展,非结构化数据以指数级地形式增长,传统的集中式信息检索系统面临着很多难以克服的困难,无法有效管理海量文本数据,无法提供快速、稳定的检索服务。尽管单台计算机的处理能力不断提高,但在面对海量信息检索服务时也束手无策。为了适应现代海量数据的检索要求,解决传统的集中式信息检索系统存在的问题,分布式信息检索已成为一种有效的解决方案。
分布式信息检索也称为联合搜索、或联合信息检索,将多个可检索的信息集合组织成一个检索接口,并对外提供检索服务。在具体的检索中,用户通常只关心排名靠前的检索结果。然而,并不是所有的信息集合都包含了用户需要的信息,检索所有的信息集合,不但增加系统的计算开销,还会占用大量的网络带宽。如果只检索部分集合,能够得到类似搜索所有集合的检索效果,将大幅提升系统的检索效率。因此,集合选择对于提升分布式检索系统的性能有着举足轻重的作用,具有重要的研究价值。
传统集合选择方法使用集合的词汇统计信息来表示整个集合,基于词汇统计特征计算查询与集合的相关度,并按相关度高低对集合进行排序,选择排名靠前的集合。然而,此类方法要求每个集合提供基于所有文档的词汇直方图,包括词典和词频等统计信息。在复杂的网络环境中获取所有集合的词汇直方图是不切实际的,尤其是在非协同式的环境下。此外,词汇直方图丢失了大量文本语义信息,如近义词、多义词和词序等信息,直接导致了集合语义信息表示不准确。
为进一步提高集合语义信息表示的准确度,目前也出现了基于复杂语义信息的集合选择方法,使用ESA向量、LDA主题模型或分布式表征向量对集合的语义信息进行建模。此类方法充分挖掘了文本语义信息,包括文本主题、词序等信息,而不是仅使用词汇直方图。但是,此类方法仅考虑文本的“形态句法”信息,忽略了词汇之间更深层次、细粒度的语义关系,如主谓宾关系。
发明内容
本发明为克服上述的不足之处,目的在于提供一种基于图知识库的分布式信息检索集合选择方法,本发明方法利用图知识库中蕴含的实体关系和网络结构,对集合的语义信息进行建模,首先从各个集合的样本文档中获取集合的实体词集;其次,基于上下文相关度和结构相关度,计算实体词的权重,使用加权的实体词集表示集合的语义信息;然后,采用查询扩展方法扩展查询中包含的实体词,并为查询实体词赋予不同的权重;最后,采用查询与集合相关度度量方法计算集合评分,选择评分较高的若干个集合;提高了集合选择方法的准确度。
本发明是通过以下技术方案达到上述目的:一种基于图知识库的分布式信息检索集合选择方法,包括如下步骤:
1)离线处理阶段:
1.1)采用实体链接方法抽取集合样本文档中存在的实体词,得到集合c的实体词集Ec
1.2)计算实体词之间的上下文相关度和结构相关度;
1.3)基于上下文相关度和结构相关度,计算实体词之间的总体语义相关度;
1.4)基于总体语义相关度,分别计算Ec中的每个实体词到其他所有实体词的总体语义相关度之和,得到集合c的加权实体词集WEc
2)在线处理阶段:
2.1)接收用户查询θ,采用实体链接方法抽取原始查询中存在的实体词,得到原始查询实体词集Oθ
2.2)基于Wikipedia文章索引,检索得到与θ相关的Wikipedia文章标题,在DBpedia图知识库中找到与检索到的文章标题一一对应的实体词,得到初始候选扩展实体词集Rθ
2.3)基于DBpedia图结构,将Rθ中的实体词组织成实体图Gθ,枚举Gθ中所有的路径,计算所有路径的评分,选择评分高的前若干条路径,保留路径对应的实体词,得到中间候选扩展实体词集Pθ
2.4)基于DBpedia图结构,将Pθ中的实体词组织成实体图GP,并选择Pθ在DBpedia图知识库中的所有邻居节点作为待选实体词集Nθ;依次将Nθ中的每个实体词作为节点及其与Gp中实体词存在的关系作为边合并到Gp;若Gp的紧密程度增加,则保留此节点,否则删除;遍历完Nθ每个实体词后,将Gp中的所有实体词作为最终扩展实体词集Cθ
2.5)去除Cθ中包含与Oθ重复的实体词,得到互相不包含冗余实体词的Cθ与Oθ,Cθ与Oθ构成最终的新查询Qθ
2.6)计算Qθ中各个实体词的权重,得到查询的加权实体词集WQθ
2.7)基于WEc、WQθ、实体词之间的总体语义相关度、集合大小与集合实体词频率,计算查询与集合的相关度,选择评分高的前若干集合。
作为优选,所述步骤1.1)与步骤2.1)使用的实体链接方法具体为采用成熟的实体链接工具进行抽取,实体链接工具优选采用DBpedia Spotlight。
作为优选,所述步骤1.1)得到实体词集Ec的方法如下:
1.1.1)针对集合c,其样本文档集为其中|sc|为样本文档集sc中的文档总数,选择任意一个未处理的样本文档di
1.1.2)利用实体链接工具抽取样本文档中存在的实体词ei
1.1.3)将实体词ei更新到集合的实体词集Ec中,若仍有未处理的样本文档,则返回执行步骤1.1.1);否则,结束。
作为优选,所述步骤1.2)计算实体词之间的上下文相关度和结构相关度的方法如下:
1.2.1)基于Wikipedia上两个实体词共享的文章数,来计算两个实体词e1和e2之间的上下文相关度,计算公式如下:
其中,E1和E2分别是e1和e2出现在Wikipedia中的文章总数,W是Wikipedia中包含的文章总数,dist(e1,e2)表示e1和e2两个实体词在DBpedia图知识库中的最短距离;
1.2.2)采用广度优先遍历算法,得到任意两个实体词e1和e2在DBpedia图知识库中的最短路径path(e1,e2)={edge1,edge2,...,edgek};
1.2.3)给定DBpedia中的一条边edge={Subj,Pred,Obj},其中Subj与Obj均是实体词,Pred为谓词,计算谓词的信息量IC(ωPred),计算公式如下:
其中,|ωPred|是相同类型谓词的总数,|T|是DBpedia图中所有三元组的总数;
1.2.4)计算谓词的条件信息量IC(ωObjPred),计算公式如下:
其中,|ω(Pred,Obj)|是连接到实体词Obj的谓词总数;
1.2.5)计算谓词的信息量和条件信息量之和得到边权值,公式如下:
wjointIC(edge)=IC(ωPred)+IC(ωObjPred)
其中,wjointIC(edge)为边edge={Subj,Pred,Obj}的权值;
1.2.6)基于两个实体词e1和e2在DBpedia图知识库中的最短路径上边权值之和得到结构相关度,计算公式如下:
其中,若实体词e1和e2之间存在多条最短路径,则e1和e2之间的结构相关度设置为所有最短路径上边权重之和的最大值。
作为优选,所述总体语义相关度的计算方法为将上下文相关度和结构相关度的线性组合得到,权重参数为λ,公式如下:
simoverau(e1,e2)=λ×ctxt(e1,e2)+(1-λ)×steruct(e1,e2)。
作为优选,所述步骤1.4)计算Ec中的每个实体词到其他所有实体词的总体语义相关度之和即为对实体词集Ec的实体词e进行权重计算,公式如下:
其中,|Ec|为集合实体词集Ec中实体词总数,采用上述权重计算公式计算Ec中各个实体词的权重,从而得到WEc
作为优选,所述步骤2.3)得到Pθ的方法如下:
2.3.1)基于DBpedia图结构,将Rθ中的实体词组织成实体图Gθ,其中,Rθ中的实体词作为Gθ中的节点,实体词之间的关系作为Gθ中的边;
2.3.2)对Gθ中的所有顶点依次采用深度优先遍历算法,枚举出实体图中所有的路径;
2.3.3)采用路径评分计算公式,计算所有路径的评分,公式如下:
其中,P为实体图Gθ中的一条路径,P={a1,a2,...,as},ai为路径上的实体词,s为路径上实体词的个数;
2.3.4)按路径评分高低进行排序,选择评分高的前若干条路径,将这些路径对应的实体词ai更新到Pθ,得到中间候选扩展实体词集Pθ
作为优选,所述步骤2.4)得到Cθ方法如下:
2.4.1)基于DBpedia图结构,将Pθ中的实体词组织成实体图GP,其中,Pθ中的实体词作为GP中的节点,实体词之间的关系作为GP中的边;
2.4.2)对于Pθ中所有的实体词,选择其在DBpedia图知识库中的所有邻居节点作为待选实体词集Nθ
2.4.3)若Nθ中有未处理的实体词,选择未处理的实体词ei,进入步骤
2.4.4);否则,进入步骤2.4.6);
2.4.4)将实体词ei以及其与GP中所有实体词存在的边合并到GP
2.4.5)计算GP的紧密程度,紧密程度由图中点和边构成三角形的数目来度量;若GP的紧密程度增加,则保留该节点所对应的实体词ei后返回步骤2.4.3);否则,在GP中删除节点所对应的实体词ei及其连接的边后返回步骤2.4.3);
2.4.6)获取GP中存在的实体词,更新得到最终扩展实体词集Cθ
作为优选,所述步骤2.6)计算Qθ中实体词的权重的公式如下:
其中,γ是权重参数;当实体词e属于Oθ时,实体词e具有相等的权重,当实体词e属于Cθ时,根据实体词e到Pθ中实体词的最短距离,实体词e具有不同的权重;第一层次由Pθ中的实体词构成,第L层次中的第i层由来自到Pθ中实体词的最短距离为i-1的扩展实体词构成,Hi是第i层中的实体词。
作为优选,所述步骤2.7)的具体方法如下:
2.7.1)针对每个集合c,获取WEc中每个实体词ej(1≤j≤n)的权重,n为WEc中的实体词个数;
2.7.2)针对查询Qθ,获取WQθ中每个实体词ei(1≤i≤m)的权重,m为WQθ中的实体词个数;
2.7.3)计算实体词ei与实体词ej的总体语义相关度simoverall(ei,ej);
2.7.4)计算集合c的集合大小εc,由集合中的文档总数|c|除以最大集合的文档总数|cmax|得到,计算公式如下:
其中,|sc|表示集合c的样本文档总数;
2.7.5)计算集合实体词ej的频率f(c,ej),由实体词ej的词频除以集合样本文档中所有实体词的词频总数得到,计算公式如下:
其中,eh(1≤h≤n)是集合样本文档中的实体词;
2.7.6)采用查询与集合相关度计算公式计算得到各个集合评分,其中查询与集合相关度计算公式如下:
2.7.7)按集合评分高低进行排序,选择评分高的前若干个集合。
本发明的有益效果在于:(1)本发明利用图知识库提供的实体关系与网络结构,使用上下文相关度和结构相关度计算集合中实体词的权重,并使用加权的实体词集表示集合的语义信息,保留了词汇之间更细粒度的语义关系,提高了集合语义信息表示的准确度;(2)基于Wikipedia文章与DBpedia网络结构,发现并扩展了简短查询词中包含的实体词,且为查询实体词赋予了不同的权重,准确地表达了用户查询意图;(3)基于加权的实体词,查询与集合相关度度量方法综合考虑了集合大小、实体词频率等因素,提高了计算查询与集合相关度的准确度。
附图说明
图1是本发明的方法流程示意图;
图2是本发明实施例集合的实体词集的获取流程示意图;
图3是本发明实施例查询的最终扩展实体词集的获取流程示意图。
具体实施方式
下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不仅限于此:
实施例:如图1所示,一种基于图知识库的分布式信息检索集合选择方法,包括在线处理、离线处理两个阶段,具体如下:
(1)离线处理阶段,其步骤如下:
步骤1,采用实体链接方法抽取集合样本文档中存在的实体词,得到集合的实体词集Ec
采用成熟的实体链接工具(如:DBpedia Spotlight),进行实体词抽取。具体步骤如图2所示,包括:
a)针对集合c,其样本文档集为其中|sc|为样本文档集sc中的文档总数,选择一篇未处理的样本文档di
b)利用实体链接工具抽取样本文档中存在的实体词ei
c)将实体词ei更新到集合的实体词集Ec中,若仍有未处理的样本文档,返回步骤a,否则,结束。
步骤2,计算实体词之间的上下文相关度和结构相关度,具体步骤包括:
a)计算任意两个实体词e1(e1∈Ec)和e2(e2∈Ec)之间的上下文相关度。其基于Wikipedia上两个实体词共享的文章数,来计算两个实体词之间的上下文相关度,计算公式如下:
其中,E1和E2分别是e1和e2出现在Wikipedia中的文章总数,W是Wikipedia中包含的文章总数,dist(e1,e2)表示e1和e2两个实体词在DBpedia图知识库中的最短距离。
b)采用广度优先遍历算法,得到任意两个实体词e1(e1∈Ec)和e2(e2∈Ec)在DBpedia图知识库中的最短路径path(e1,e2)={edge1,edge2,...,edgek}。
c)给定DBpedia中的一条边edge={Subj,Pred,Obj},其中Subj与Obj均是实体词,Pred为谓词,计算谓词的信息量,计算公式如下:
IC(ωPred)表示谓词的信息量,在DBpedia中存在的同种类型边越多,即此谓词总数越多,重要性越低,具有较低的信息量。|ωPred|是相同类型谓词的总数,|T|是DBpedia图中所有三元组的总数。
d)计算谓词的条件信息量,计算公式如下:
IC(ωObjPred)表示谓词的条件信息量,考虑了谓词所指向实体词的特殊性,若连接到此实体词的谓词越少,则此类谓词越重要,具有较高的信息量。|ω(Pred,Obj)|是连接到实体词Obj的谓词总数。
e)计算边权值,其由谓词的信息量和条件信息量之和得到,计算公式如下:
wjointIC(edge)=IC(ωPred)+IC(ωObjPred)
wjointIC(edge)表示边edge={Subj,Pred,Obj}的权值。
f)计算任意两个实体词e1(e1∈Ec)和e1(e1∈Ec)之间的结构相关度。其基于两个实体词在DBpedia图知识库中的最短路径上边权值之和得到,计算公式如下:
若实体词e1和e2之间存在多条最短路径,则e1和e2之间的结构相关度设置为所有最短路径上边权重之和的最大值。
步骤3,基于上下文相关度和结构相关度,计算实体词之间的总体语义相关度。
对于任意两个实体词e1(e1∈Ec)和e2(e2∈Ec),总体语义相关度为上下文相关度和结构相关度的线性组合,权重参数为λ,计算公式如下:
simoverall(e1,e2)=λ×ctxt(e1,e2)+(1-λ)×struct(e1,e2)
步骤4,基于总体语义相关度,对Ec中的每个实体词,计算其到其他所有实体词的总体语义相关度之和,得到集合的加权实体词集WEc
给定集合的实体词集Ec,实体词e(e∈Ec)的权重计算公式如下:
其中,|Ec|为集合实体词集Ec中实体词总数。采用集合的实体词权重计算公式,能够计算Ec中各个实体词的权重,得到WEc
(2)在线处理阶段,其步骤如下:
步骤1,接收用户查询θ,采用实体链接方法抽取原始查询中存在的实体词,得到原始查询实体词集Oθ
采用成熟的实体链接工具(如:DBpedia Spotlight),对用户查询θ进行实体词抽取,得到原始查询实体词集Oθ
步骤2,基于Wikipedia文章索引,检索得到与θ相关的一组Wikipedia文章标题,在DBpedia图知识库中找到与上述文章标题一一对应的实体词,得到初始候选扩展实体词集Rθ
步骤3,基于DBpedia图结构,将Rθ中的实体词组织成一个实体图Gθ。枚举Gθ中所有的路径,计算所有路径的评分,选择评分较高的若干条路径,保留这些路径上的实体词,得到中间候选扩展实体词集Pθ,具体步骤包括如下:
a)基于DBpedia图结构,将Rθ中的实体词组织成一个实体图Gθ。其中,Rθ中的实体词作为Gθ中的节点,实体词之间的关系作为Gθ中的边。
b)对Gθ中的所有顶点依次使用深度优先遍历算法,枚举出实体图中所有的路径。
c)采用路径评分计算公式,计算所有路径的评分。路径评分计算公式为:
其中,P为实体图Gθ中的一条路径,P={a1,a2,...,as},ai为路径上的实体词,s为路径上实体词的个数。
d)按路径评分高低进行排序,选择评分较高的若干条路径,将这些路径上的实体词ai更新到Pθ
步骤4,基于DBpedia图结构,将Pθ中的实体词组织成一个实体图GP,并选择Pθ在DBpedia图知识库中的所有邻居节点作为待选实体词集Nθ;依次将Nθ中的每个实体词作为节点及其与GP中实体词存在的关系作为边合并到GP。若GP的紧密程度增加,则保留此节点,否则删除。遍历完Nθ每个实体词后,将GP中的所有实体词作为最终扩展实体词集Cθ。具体流程如图3所示。包括如下步骤:
a)基于DBpedia图结构,将Pθ中的实体词组织成一个实体图GP。其中,Pθ中的实体词作为GP中的节点,实体词之间的关系作为GP中的边。
b)对于Pθ中所有的实体词,选择它们在DBpedia图知识库中的所有邻居节点作为待选实体词集Nθ
c)若Nθ中仍有未处理的实体词,选择一个未处理的实体词ei,进入步骤d。否则,进入步骤f。
d)将实体词ei,以及其与GP中所有实体词存在的边,合并到GP
e)计算GP的紧密程度,其由图中点和边构成三角形的数目来度量。若GP的紧密程度增加,返回步骤c;否则,在GP中删除实体词ei及其连接的边,再返回步骤c。
f)获取GP中存在的实体词,更新到最终扩展实体词集Cθ
步骤5,去除Cθ中包含与Oθ重复的实体词,得到互相不包含冗余实体词的Cθ与Oθ,Cθ与Oθ构成最终的新查询Qθ
步骤6,计算Qθ中各个实体词的权重,得到查询的加权实体词集WQθ
给定某查询实体词e(e∈Qθ),其权重计算公式如下:
其中,γ是权重参数。当实体词e属于Oθ时,它们被赋予相等的权重。当实体词e属于Cθ时,根据实体词e到Pθ中实体词的最短距离,它们被赋予不同的权重。第一层次由Pθ中的实体词构成。第L层次中的第i层(1<i≤L)由来自到Pθ中实体词的最短距离为i-1的扩展实体词构成。Hi是第i层中的实体词。采用查询的实体词权重计算公式,能够计算Qθ中各个实体词的权重,得到WQθ
步骤7,基于WEc、WQθ、实体词之间的总体语义相关度、集合大小与集合实体词频率,计算查询与集合的相关度,选择评分较高的前若干个集合。具体步骤包括:
a)针对每个集合c,获取WEc中每个实体词ej(1≤j≤n)的权重,n为WEc中的实体词个数。
b)针对查询Qθ,获取WQθ中每个实体词ei(1≤i≤m)的权重,m为WQθ中的实体词个数。
c)查询实体词ei与集合实体词ej的总体语义相关度simoverall(ei,ej)。
d)计算集合大小εc,将集合中的文档总数|c|,除以最大集合的文档总数(由|cmax|表示),计算公式如下:
其中,|sc|表示集合c的样本文档总数。
e)计算集合实体词频率f(c,ej),使用实体词ej的词频除以集合样本文档中所有实体词的词频总数,计算公式如下:
其中,eh(1≤h≤n)是集合样本文档中的实体词。
f)采用查询与集合相关度计算公式,得到各个集合评分。其中,查询与集合相关度计算公式如下:
g)按集合评分高低进行排序,选择评分较高的前若干个集合。
以上的所述乃是本发明的具体实施例及所运用的技术原理,若依本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附图所涵盖的精神时,仍应属本发明的保护范围。

Claims (10)

1.一种基于图知识库的分布式信息检索集合选择方法,其特征在于,包括如下步骤:
1)离线处理阶段:
1.1)采用实体链接方法抽取集合样本文档中存在的实体词,得到集合c的实体词集Ec
1.2)计算实体词之间的上下文相关度和结构相关度;
1.3)基于上下文相关度和结构相关度,计算实体词之间的总体语义相关度;
1.4)基于总体语义相关度,分别计算Ec中的每个实体词到其他所有实体词的总体语义相关度之和,得到集合c的加权实体词集WEc
2)在线处理阶段:
2.1)接收用户查询θ,采用实体链接方法抽取原始查询中存在的实体词,得到原始查询实体词集Oθ
2.2)基于Wikipedia文章索引,检索得到与θ相关的Wikipedia文章标题,在DBpedia图知识库中找到与检索到的文章标题一一对应的实体词,得到初始候选扩展实体词集Rθ
2.3)基于DBpedia图结构,将Rθ中的实体词组织成实体图Gθ,枚举Gθ中所有的路径,计算所有路径的评分,选择评分高的前若干条路径,保留路径对应的实体词,得到中间候选扩展实体词集Pθ
2.4)基于DBpedia图结构,将Pθ中的实体词组织成实体图GP,并选择Pθ在DBpedia图知识库中的所有邻居节点作为待选实体词集Nθ;依次将Nθ中的每个实体词作为节点及其与GP中实体词存在的关系作为边合并到GP;若GP的紧密程度增加,则保留此节点,否则删除;遍历完Nθ每个实体词后,将GP中的所有实体词作为最终扩展实体词集Cθ
2.5)去除Cθ中包含与Oθ重复的实体词,得到互相不包含冗余实体词的Cθ与Oθ,Cθ与Oθ构成最终的新查询Qθ
2.6)计算Qθ中各个实体词的权重,得到查询的加权实体词集WQθ
2.7)基于WEc、WQθ、实体词之间的总体语义相关度、集合大小与集合实体词频率,计算查询与集合的相关度,选择评分高的前若干集合。
2.根据权利要求1所述的一种基于图知识库的分布式信息检索集合选择方法,其特征在于:所述步骤1.1)与步骤2.1)使用的实体链接方法具体为采用成熟的实体链接工具进行抽取,实体链接工具优选采用DBpedia Spotlight。
3.根据权利要求1所述的一种基于图知识库的分布式信息检索集合选择方法,其特征在于:所述步骤1.1)得到实体词集Ec的方法如下:
1.1.1)针对集合c,其样本文档集为其中|sc|为样本文档集sc中的文档总数,选择任意一个未处理的样本文档di
1.1.2)利用实体链接工具抽取样本文档中存在的实体词ei
1.1.3)将实体词ei更新到集合的实体词集Ec中,若仍有未处理的样本文档,则返回执行步骤1.1.1);否则,结束。
4.根据权利要求1所述的一种基于图知识库的分布式信息检索集合选择方法,其特征在于:所述步骤1.2)计算实体词之间的上下文相关度和结构相关度的方法如下:
1.2.1)基于Wikipedia上两个实体词共享的文章数,来计算两个实体词e1和e2之间的上下文相关度,计算公式如下:
<mrow> <mi>c</mi> <mi>t</mi> <mi>x</mi> <mi>t</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>e</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>1</mn> <mo>-</mo> <mfrac> <mrow> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mi>max</mi> <mo>(</mo> <mo>|</mo> <msub> <mi>E</mi> <mn>1</mn> </msub> <mo>|</mo> <mo>,</mo> <mo>|</mo> <msub> <mi>E</mi> <mn>2</mn> </msub> <mo>|</mo> <mo>)</mo> </mrow> <mo>)</mo> <mo>-</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <msub> <mi>E</mi> <mn>1</mn> </msub> <mo>&amp;cap;</mo> <msub> <mi>E</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mo>|</mo> <mi>W</mi> <mo>|</mo> <mo>-</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mi>min</mi> <mo>(</mo> <mo>|</mo> <msub> <mi>E</mi> <mn>1</mn> </msub> <mo>|</mo> <mo>,</mo> <mo>|</mo> <msub> <mi>E</mi> <mn>2</mn> </msub> <mo>|</mo> <mo>)</mo> </mrow> <mo>)</mo> </mrow> </mfrac> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mo>(</mo> <mi>d</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <mo>(</mo> <msub> <mi>e</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>e</mi> <mn>2</mn> </msub> <mo>)</mo> <mo>&amp;le;</mo> <mn>2</mn> <mo>)</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mo>(</mo> <mi>d</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <mo>(</mo> <msub> <mi>e</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>e</mi> <mn>2</mn> </msub> <mo>)</mo> <mo>&gt;</mo> <mn>2</mn> <mo>)</mo> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>
其中,E1和E2分别是e1和e2出现在Wikipedia中的文章总数,W是Wikipedia中包含的文章总数,dist(e1,e2)表示e1和e2两个实体词在DBpedia图知识库中的最短距离;
1.2.2)采用广度优先遍历算法,得到任意两个实体词e1和e2在DBpedia图知识库中的最短路径path(e1,e2)={edge1,edge2,...,edgek};
1.2.3)给定DBpedia中的一条边edge={Subj,Pred,Obj},其中Subj与Obj均是实体词,Pred为谓词,计算谓词的信息量IC(ωPred),计算公式如下:
<mrow> <mi>I</mi> <mi>C</mi> <mrow> <mo>(</mo> <msub> <mi>&amp;omega;</mi> <mrow> <mi>Pr</mi> <mi>e</mi> <mi>d</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <mo>|</mo> <mi>T</mi> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <msub> <mi>&amp;omega;</mi> <mrow> <mi>Pr</mi> <mi>e</mi> <mi>d</mi> </mrow> </msub> <mo>|</mo> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow>
其中,|ωPred|是相同类型谓词的总数,|T|是DBpedia图中所有三元组的总数;
1.2.4)计算谓词的条件信息量IC(ωObjPred),计算公式如下:
<mrow> <mi>I</mi> <mi>C</mi> <mrow> <mo>(</mo> <msub> <mi>&amp;omega;</mi> <mrow> <mi>O</mi> <mi>b</mi> <mi>j</mi> </mrow> </msub> <mo>|</mo> <msub> <mi>&amp;omega;</mi> <mrow> <mi>Pr</mi> <mi>e</mi> <mi>d</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <mo>|</mo> <msub> <mi>&amp;omega;</mi> <mrow> <mi>Pr</mi> <mi>e</mi> <mi>d</mi> </mrow> </msub> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <msub> <mi>&amp;omega;</mi> <mrow> <mo>(</mo> <mi>Pr</mi> <mi>e</mi> <mi>d</mi> <mo>,</mo> <mi>O</mi> <mi>b</mi> <mi>j</mi> <mo>)</mo> </mrow> </msub> <mo>|</mo> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow>
其中,|ω(Pred,Obj)|是连接到实体词Obj的谓词总数;
1.2.5)计算谓词的信息量和条件信息量之和得到边权值,公式如下:
wjointIC(edge)=IC(ωPred)+IC(ωObjPred)
其中,wjointIC(edge)为边edge={Subj,Pred,Obj}的权值;
1.2.6)基于两个实体词e1和e2在DBpedia图知识库中的最短路径上边权值之和得到结构相关度,计算公式如下:
<mrow> <mi>s</mi> <mi>t</mi> <mi>r</mi> <mi>u</mi> <mi>c</mi> <mi>t</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>e</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mn>1</mn> <mi>k</mi> </msubsup> <msub> <mi>w</mi> <mrow> <mi>j</mi> <mi>o</mi> <mi>int</mi> <mi>I</mi> <mi>C</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>edge</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mo>(</mo> <mi>d</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <mo>(</mo> <msub> <mi>e</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>e</mi> <mn>2</mn> </msub> <mo>)</mo> <mo>&amp;le;</mo> <mn>2</mn> <mo>)</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mo>(</mo> <mi>d</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <mo>(</mo> <msub> <mi>e</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>e</mi> <mn>2</mn> </msub> <mo>)</mo> <mo>&gt;</mo> <mn>2</mn> <mo>)</mo> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>
其中,若实体词e1和e2之间存在多条最短路径,则e1和e2之间的结构相关度设置为所有最短路径上边权重之和的最大值。
5.根据权利要求1所述的一种基于图知识库的分布式信息检索集合选择方法,其特征在于:所述总体语义相关度的计算方法为将上下文相关度和结构相关度的线性组合得到,权重参数为λ,公式如下:
simoverall(e1,e2)=λ×ctxt(e1,e2)+(1-λ)×struct(e1,e2)。
6.根据权利要求1所述的一种基于图知识库的分布式信息检索集合选择方法,其特征在于:所述步骤1.4)计算Ec中的每个实体词到其他所有实体词的总体语义相关度之和即为对实体词集Ec的实体词e进行权重计算,公式如下:
<mrow> <mi>w</mi> <mrow> <mo>(</mo> <mi>e</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mo>|</mo> <msub> <mi>E</mi> <mi>c</mi> </msub> <mo>|</mo> </mrow> </mfrac> <munder> <mo>&amp;Sigma;</mo> <mrow> <msub> <mi>e</mi> <mi>j</mi> </msub> <mo>&amp;Element;</mo> <msub> <mi>E</mi> <mi>c</mi> </msub> </mrow> </munder> <msub> <mi>sim</mi> <mrow> <mi>o</mi> <mi>v</mi> <mi>e</mi> <mi>r</mi> <mi>a</mi> <mi>l</mi> <mi>l</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>e</mi> <mo>,</mo> <msub> <mi>e</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow>
其中,|Ec|为集合实体词集Ec中实体词总数,采用上述权重计算公式计算Ec中各个实体词的权重,从而得到WEc
7.根据权利要求1所述的一种基于图知识库的分布式信息检索集合选择方法,其特征在于:所述步骤2.3)得到Pθ的方法如下:
2.3.1)基于DBpedia图结构,将Rθ中的实体词组织成实体图Gθ,其中,Rθ中的实体词作为Gθ中的节点,实体词之间的关系作为Gθ中的边;
2.3.2)对Gθ中的所有顶点依次采用深度优先遍历算法,枚举出实体图中所有的路径;
2.3.3)采用路径评分计算公式,计算所有路径的评分,公式如下:
<mrow> <mi>S</mi> <mi>c</mi> <mi>o</mi> <mi>r</mi> <mi>e</mi> <mrow> <mo>(</mo> <mi>P</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mi>s</mi> </mfrac> <mrow> <mo>(</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>s</mi> </msubsup> <mi>f</mi> <mo>(</mo> <mrow> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>&amp;theta;</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>
其中,P为实体图GP中的一条路径,P={a1,a2,...,as},ai为路径上的实体词,s为路径上实体词的个数;
2.3.4)按路径评分高低进行排序,选择评分高的前若干条路径,将这些路径对应的实体词ai更新到Pθ,得到中间候选扩展实体词集Pθ
8.根据权利要求1所述的一种基于图知识库的分布式信息检索集合选择方法,其特征在于:所述步骤2.4)得到Cθ方法如下:
2.4.1)基于DBpedia图结构,将Pθ中的实体词组织成实体图GP,其中,Pθ中的实体词作为GP中的节点,实体词之间的关系作为GP中的边;
2.4.2)对于Pθ中所有的实体词,选择其在DBpedia图知识库中的所有邻居节点作为待选实体词集Nθ
2.4.3)若Nθ中有未处理的实体词,选择未处理的实体词ei,进入步骤2.4.4);否则,进入步骤2.4.6);
2.4.4)将实体词ei以及其与GP中所有实体词存在的边合并到GP
2.4.5)计算GP的紧密程度,紧密程度由图中点和边构成三角形的数目来度量;若GP的紧密程度增加,则保留该节点所对应的实体词ei后返回步骤2.4.3);否则,在GP中删除节点所对应的实体词ei及其连接的边后返回步骤2.4.3);
2.4.6)获取GP中存在的实体词,更新得到最终扩展实体词集Cθ
9.根据权利要求1所述的一种基于图知识库的分布式信息检索集合选择方法,其特征在于:所述步骤2.6)计算Qθ中实体词的权重的公式如下:
<mrow> <mi>w</mi> <mrow> <mo>(</mo> <mi>e</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>&amp;gamma;</mi> <mo>&amp;times;</mo> <mfrac> <mn>1</mn> <mrow> <mo>|</mo> <msub> <mi>O</mi> <mi>&amp;theta;</mi> </msub> <mo>|</mo> </mrow> </mfrac> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mo>(</mo> <mi>e</mi> <mo>&amp;Element;</mo> <msub> <mi>O</mi> <mi>&amp;theta;</mi> </msub> <mo>)</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>&amp;gamma;</mi> <mo>)</mo> <mo>&amp;times;</mo> <mfrac> <mrow> <mi>L</mi> <mo>-</mo> <mi>i</mi> </mrow> <mrow> <msub> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>&lt;</mo> <mi>L</mi> </mrow> </msub> <mi>i</mi> </mrow> </mfrac> <mo>&amp;times;</mo> <mfrac> <mn>1</mn> <mrow> <mo>|</mo> <msub> <mi>H</mi> <mi>i</mi> </msub> <mo>|</mo> </mrow> </mfrac> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mo>(</mo> <mi>e</mi> <mo>&amp;Element;</mo> <msub> <mi>H</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>H</mi> <mi>i</mi> </msub> <mo>&amp;SubsetEqual;</mo> <msub> <mi>C</mi> <mi>&amp;theta;</mi> </msub> <mo>)</mo> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>
其中,γ是权重参数;当实体词e属于Oθ时,实体词e具有相等的权重,当实体词e属于Cθ时,根据实体词e到Pθ中实体词的最短距离,实体词e具有不同的权重;第一层次由Pθ中的实体词构成,第L层次中的第i层由来自到Pθ中实体词的最短距离为i-1的扩展实体词构成,Hi是第i层中的实体词。
10.根据权利要求1所述的一种基于图知识库的分布式信息检索集合选择方法,其特征在于:所述步骤2.7)的具体方法如下:
2.7.1)针对每个集合c,获取WEc中每个实体词ej(1≤j≤n)的权重,n为WEc中的实体词个数;
2.7.2)针对查询Qθ,获取WQθ中每个实体词ei(1≤i≤m)的权重,m为WQθ中的实体词个数;
2.7.3)计算实体词ei与实体词ej的总体语义相关度simoverall(ei,ej);
2.7.4)计算集合c的集合大小εc,由集合中的文档总数|c|除以最大集合的文档总数|cmax|得到,计算公式如下:
<mrow> <msub> <mi>&amp;epsiv;</mi> <mi>c</mi> </msub> <mo>=</mo> <mfrac> <mrow> <mo>|</mo> <mi>c</mi> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <msub> <mi>c</mi> <mi>max</mi> </msub> <mo>|</mo> <mo>&amp;times;</mo> <mo>|</mo> <msub> <mi>s</mi> <mi>c</mi> </msub> <mo>|</mo> </mrow> </mfrac> </mrow>
其中,|sc|表示集合c的样本文档总数;
2.7.5)计算集合实体词ej的频率f(c,ej),由实体词ej的词频除以集合样本文档中所有实体词的词频总数得到,计算公式如下:
<mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>c</mi> <mo>,</mo> <msub> <mi>e</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mo>|</mo> <msub> <mi>e</mi> <mi>j</mi> </msub> <mo>|</mo> </mrow> <mrow> <msub> <mi>&amp;Sigma;</mi> <mrow> <msub> <mi>e</mi> <mi>h</mi> </msub> <mo>&amp;Element;</mo> <msub> <mi>s</mi> <mi>c</mi> </msub> </mrow> </msub> <mo>|</mo> <msub> <mi>e</mi> <mi>h</mi> </msub> <mo>|</mo> </mrow> </mfrac> <mo>,</mo> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mi>j</mi> </msub> <mo>&amp;Element;</mo> <msub> <mi>s</mi> <mi>c</mi> </msub> <mo>)</mo> </mrow> </mrow>
其中,eh(1≤h≤n)是集合样本文档中的实体词;
2.7.6)采用查询与集合相关度计算公式计算得到各个集合评分,其中查询与集合相关度计算公式如下:
<mrow> <mi>Re</mi> <mi>l</mi> <mrow> <mo>(</mo> <msub> <mi>WQ</mi> <mi>&amp;theta;</mi> </msub> <mo>,</mo> <msub> <mi>WE</mi> <mi>c</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>&amp;epsiv;</mi> <mi>c</mi> </msub> <mo>&amp;times;</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>&amp;times;</mo> <mfrac> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>w</mi> <mi>j</mi> </msub> <mo>&amp;times;</mo> <mi>f</mi> <mrow> <mo>(</mo> <mi>c</mi> <mo>,</mo> <msub> <mi>e</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>&amp;times;</mo> <msub> <mi>sim</mi> <mrow> <mi>o</mi> <mi>v</mi> <mi>e</mi> <mi>r</mi> <mi>a</mi> <mi>l</mi> <mi>l</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>e</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>w</mi> <mi>j</mi> </msub> </mrow> </mfrac> </mrow>
2.7.7)按集合评分高低进行排序,选择评分高的前若干个集合。
CN201710228718.XA 2017-04-10 2017-04-10 一种基于图知识库的分布式信息检索集合选择方法 Active CN107133274B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710228718.XA CN107133274B (zh) 2017-04-10 2017-04-10 一种基于图知识库的分布式信息检索集合选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710228718.XA CN107133274B (zh) 2017-04-10 2017-04-10 一种基于图知识库的分布式信息检索集合选择方法

Publications (2)

Publication Number Publication Date
CN107133274A true CN107133274A (zh) 2017-09-05
CN107133274B CN107133274B (zh) 2020-12-15

Family

ID=59715737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710228718.XA Active CN107133274B (zh) 2017-04-10 2017-04-10 一种基于图知识库的分布式信息检索集合选择方法

Country Status (1)

Country Link
CN (1) CN107133274B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109240821A (zh) * 2018-07-20 2019-01-18 北京航空航天大学 一种基于边缘计算的分布式跨域协同计算与服务系统及方法
CN111401055A (zh) * 2020-04-07 2020-07-10 宁波深擎信息科技有限公司 从金融资讯提取脉络信息的方法和装置
CN111581975A (zh) * 2020-05-09 2020-08-25 北京明朝万达科技股份有限公司 案件的笔录文本的处理方法、装置、存储介质和处理器

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120226716A1 (en) * 2011-03-04 2012-09-06 Accenture Global Services Limited Information source alignment
CN103823855A (zh) * 2014-02-19 2014-05-28 天津大学 面向语义网的中文百科知识组织与集成方法
CN105956010A (zh) * 2016-04-20 2016-09-21 浙江大学 基于分布式表征和局部排序的分布式信息检索集合选择方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120226716A1 (en) * 2011-03-04 2012-09-06 Accenture Global Services Limited Information source alignment
CN103823855A (zh) * 2014-02-19 2014-05-28 天津大学 面向语义网的中文百科知识组织与集成方法
CN105956010A (zh) * 2016-04-20 2016-09-21 浙江大学 基于分布式表征和局部排序的分布式信息检索集合选择方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JOAN GUISADO-GÁMEZ等: "Massive Query Expansion by Exploiting Graph Knowledge Bases for Image Retrieval", 《PROCEEDINGS OF INTERNATIONAL CONFERENCE ON MULTIMEDIA RETRIEVAL》 *
YXY_1989: "基于知识的图文档建模(Knowledge-based Graph Document Modeling)", 《HTTPS://BLOG.CSDN.NET/YANGXIANGYUIBM/ARTICLE/DETAILS/39047997》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109240821A (zh) * 2018-07-20 2019-01-18 北京航空航天大学 一种基于边缘计算的分布式跨域协同计算与服务系统及方法
CN109240821B (zh) * 2018-07-20 2022-01-14 北京航空航天大学 一种基于边缘计算的分布式跨域协同计算与服务系统及方法
CN111401055A (zh) * 2020-04-07 2020-07-10 宁波深擎信息科技有限公司 从金融资讯提取脉络信息的方法和装置
CN111401055B (zh) * 2020-04-07 2023-04-18 宁波深擎信息科技有限公司 从金融资讯提取脉络信息的方法和装置
CN111581975A (zh) * 2020-05-09 2020-08-25 北京明朝万达科技股份有限公司 案件的笔录文本的处理方法、装置、存储介质和处理器
CN111581975B (zh) * 2020-05-09 2023-06-20 北京明朝万达科技股份有限公司 案件的笔录文本的处理方法、装置、存储介质和处理器

Also Published As

Publication number Publication date
CN107133274B (zh) 2020-12-15

Similar Documents

Publication Publication Date Title
CN105488024B (zh) 网页主题句的抽取方法及装置
CN108573411B (zh) 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法
CN103605665B (zh) 一种基于关键词的评审专家智能检索与推荐方法
CN103473283B (zh) 一种文本案例匹配方法
CN108595425A (zh) 基于主题与语义的对话语料关键词抽取方法
Sarawagi et al. Open-domain quantity queries on web tables: annotation, response, and consensus models
CN107463658A (zh) 文本分类方法及装置
CN104615687A (zh) 一种面向知识库更新的实体细粒度分类方法与系统
CN101321190A (zh) 一种异构网络中的推荐方法及推荐系统
CN105975596A (zh) 一种搜索引擎查询扩展的方法及系统
CN108182186B (zh) 一种基于随机森林算法的网页排序方法
CN104484380A (zh) 个性化搜索方法及装置
EP3940582A1 (en) Method for disambiguating between authors with same name on basis of network representation and semantic representation
CN104239496A (zh) 一种结合模糊权重相似性度量和聚类协同过滤的方法
CN104199826A (zh) 一种基于关联分析的异构媒体相似性计算方法和检索方法
CN105069080A (zh) 一种文献检索方法及系统
CN103646099A (zh) 一种基于多层图的论文推荐方法
CN103761286B (zh) 一种基于用户兴趣的服务资源检索方法
CN105095430A (zh) 构建词语网络及抽取关键词的方法和装置
CN105843799A (zh) 一种基于多源异构信息图模型的学术论文标签推荐方法
CN107133274A (zh) 一种基于图知识库的分布式信息检索集合选择方法
CN103399852A (zh) 基于局部密度估计和近邻关系传播的多路谱聚类方法
CN109992784A (zh) 一种融合多模态信息的异构网络构建和距离度量方法
CN105956010A (zh) 基于分布式表征和局部排序的分布式信息检索集合选择方法
CN110489616A (zh) 一种基于Ranknet和Lambdamart算法的搜索排序方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant