CN104156431B - 一种基于实体图社团结构的rdf关键词查询方法 - Google Patents

一种基于实体图社团结构的rdf关键词查询方法 Download PDF

Info

Publication number
CN104156431B
CN104156431B CN201410389984.7A CN201410389984A CN104156431B CN 104156431 B CN104156431 B CN 104156431B CN 201410389984 A CN201410389984 A CN 201410389984A CN 104156431 B CN104156431 B CN 104156431B
Authority
CN
China
Prior art keywords
rdf
entity
corporations
node
subject
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410389984.7A
Other languages
English (en)
Other versions
CN104156431A (zh
Inventor
刘均
王萌
徐海鹏
郑庆华
刘文强
宋凌云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201410389984.7A priority Critical patent/CN104156431B/zh
Publication of CN104156431A publication Critical patent/CN104156431A/zh
Application granted granted Critical
Publication of CN104156431B publication Critical patent/CN104156431B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于实体图社团结构的RDF关键词查询方法,包括以下步骤:1)构建RDF资源实体,并且构建RDF资源实体间关系,从而实现RDF实体图的构建;2)对RDF实体图进行层次社团发现,得到RDF实体图的社团结构树,并基于实体图社团结构树构建实体图社团结构索引;3)使用实体关键词倒排索引实现关键词查询到RDF资源实体的映射;对不同关键词对应的实体进行组合,并通过RDF资源实体与关键词的相关度对RDF资源实体组合进行筛选,得到候选RDF资源实体组合集合;对于RDF资源实体组合集合中的每一个RDF资源实体组合,根据社团结构索引,构建组合中实体之间的关系,并作为查询结果添加到结果集中;依据查询结果紧凑度,对结果集进行排序,返回给用户。

Description

一种基于实体图社团结构的RDF关键词查询方法
技术领域
本发明涉及一种RDF关键词查询方法,具体涉及一种基于实体图社团结构的RDF关键词查询方法。
背景技术
随着语义网的不断发展,RDF(Resource Description Framework,是一种用于描述网络上的信息和资源的标记语言,为语义网提供了描述资源的统一标准)作为语义网中信息和知识的载体其规模急剧增长,普通用户对于RDF数据查询需求也不断增加。传统的基于结构化查询语言的RDF数据查询,要求用户掌握RDF数据模式和查询语言语法规则,难以在普通用户中推广。因此,面对大规模的RDF数据,借鉴传统信息检索技术,提供高效的关键词查询可以帮助普通用户方便地检索RDF数据资源。但现有的技术均没有涉及RDF关键词查询方法。
发明内容
本发明的目的在于克服上述现有技术的缺点,提供了一种基于实体图社团结构的RDF关键词查询方法,该方法可以实现RDF关键词的查询。
为达到上述目的,本发明所述的基于实体图社团结构的RDF关键词查询方法包括以下步骤:
1)判断RDF三元组集合T的谓词类别,并根据谓词类别的判断结果将谓词分为属性关系及实体关系,再遍历所有的RDF三元组集合T,得各RDF三元组集合T对应的RDF资源实体,然后通过构建各RDF资源实体间的关系得RDF实体图,同时构建各RDF资源实体的虚拟文档;
2)通过基于Fast Unfold算法的层次社团发现算法对RDF实体图进行社团发现,得到RDF实体图的社团结构树,然后基于实体图的社团结构树构建实体图社团结构索引;
3)解析用户查询的信息,得关键词集合Q={k1,k2,...,ki,...,km},其中,ki为关键词集合Q中的第i个关键词,m为关键词的总个数,使用实体关键词倒排索引实现关键词到RDF资源实体的映射,得到各关键词对应的RDF资源实体集合,再对各关键词对应的RDF资源实体集合中的RDF资源实体进行组合,并通过RDF资源实体与关键词的相关度对RDF资源实体组合进行筛选,得到候选RDF资源实体组合集合,然后对于候选RDF资源实体组合集合中的每一个RDF资源实体组合根据社团结构索引构建候选RDF资源实体组合集合中各RDF资源实体之间的关系,并将候选RDF资源实体组合集合中各RDF资源实体之间的关系作为查询结果添加到查询结果集中,然后依据查询结果的紧凑度对查询结果集中查询结果进行排序,并将排序结果返回给用户。
所述RDF三元组集合T中的RDF三元组为
(subject,predicate,object) (1)
其中,subject∈U∪B,predicate∈U,object∈U∪B∪L,U、B及L分别为URIreference集合、空节点集合及文字描述节点集合;
所述RDF资源实体为:
(urisubject,Asubject) (2)
其中,urisubject为用于唯一标识RDF资源实体的URI,Sobject为RDF三元组集合T中包含的object集合,Ssubject为RDF三元组集合T中包含的subject集合,将RDF资源实体集合记作Entity(T),RDF实体图记作Gl(Vl,El),其中,Vl为RDF资源实体对应的节点集合,El为RDF实体图中边的集合,且满足El={(ul,vl)|(ul,p,vl)∈T,ul,vl∈Vl,p∈Up},Up为RDF三元组集合T中包含的谓词集合。
步骤1)中通过构建各RDF资源实体间的关系得RDF实体图的具体操作如下:
1)通过Jena将RDF格式文档集转换为三元组格式,得RDF三元组集合T,同时记录RDF资源实体编号id;
2)判断RDF三元组集合的谓词类别,根据谓词类别的判断结果将谓词分为属性关系及实体关系,遍历所有RDF三元组集合T,根据各RDF三元组集合T的谓词类别将各RDF三元组合集合T的谓词添加到属性关系集合AR或实体关系集合ER中;
3)遍历RDF三元组集合T,对于各RDF三元组集合T中的每一个RDF三元组(subject,predicate,object),当RDF资源实体集合Entity(T)中不包含subject时,则id加1,并将映射关系(subject,id)添加到RDF资源实体集合Entity(T)中,当predicate∈ER,则将RDF资源实体关系(subject,object)以及predicate添加到RDF资源实体关系集合ERSet(T)中,其中对于第一个RDF资源实体集合Entity(T),id等于0;
4)遍历各RDF资源实体集合Entity(T),将各RDF资源实体编号及URI按序输出到Pajek格式文档P中,然后,遍历RDF资源实体关系集合ERSet(T),将各RDF资源实体间的关系输出到文档P中,得到RDF实体图。
步骤1)中构建各RDF资源实体的虚拟文档的具体操作如下:
1)对各RDF资源实体集合Entity(T)中的每一个subject创建对应的RDF资源实体(urisubject,Asubject);
2)遍历所有的RDF三元组集合T,当predicate∈AR且则将object添加到subject对应RDF资源实体(urisubject,Asubject)的关联属性集合Asubject中;
3)提取各RDF资源实体(urisubject,Asubject)中的文本属性,然后根据各RDF资源实体(urisubject,Asubject)中的文本属性生成实体虚拟文档集合VDoc(T),则RDF资源实体(urisubject,Asubject)对应的虚拟文档VDoc(entity)为:
VDoc(entity)=label(urientity)+literal(attrisentity) (3)
其中,label(urientity)为urientity中包含的反映实体主题的标签,literal(attrisentity)为RDF资源实体(urisubject,Asubject)中包含的文字描述属性的集合。
步骤2)中通过基于Fast Unfold算法的层次社团发现算法对RDF实体图进行社团发现的具体操作为:
1)将RDF实体图转换为无向图,并将转换后的RDF实体图作为社团结构树C-Tree的根社团节点加入到待分析社团节点队列CCNQ中,社团结构树C-Tree的根社团节点为:
CNode(VC,Children,Parent) (4)
其中,VC为社团节点包含的RDF资源实体集合Entity(T),Children为社团节点的子社团节点集合,Parent为社团节点的父社团节点;
2)从待分析社团节点队列CCNQ中取出队首节点CH,使用Fast Unfold算法对队首节点CH对应的RDF实体图或子图进行社团划分,当得到的社团划分结果对应的模块度值均大于或等于时,则创建各社团对应的社团节点,然后将社团节点作为队首节点CH的子社团节点加入待分析社团节点队列CCNQ中;
3)对待分析社团节点队列CCNQ中的所有节点进行步骤(2)的操作,直到待分析社团节点队列CCNQ为空,得到领域知识地图对应的社团结构树C-Tree,完成对RDF实体图的社团发现,其中
C-Tree(CNodeSet,croot,n) (5)
其中,CNodeSet为社团结构树的社团节点集合,croot为社团结构树的根社团节点,n为社团节点数。
步骤2)中基于实体图社团结构树构建实体图社团结构索引的具体操作为:
1)将社团结构树C-Tree的根节点croot加入到社团节点队列CQ,设H为社团节点队列CQ的队首社团,CEMap(c)为社团结构树C-Tree中社团c到RDF资源实体集合的映射,CSMap(c)为社团结构树C-Tree中社团c与社团规模的映射,ECMap(entity)为RDF资源实体到其所属社团的映射;
2)从社团节点队列CQ中取出队首社团H,计算队首社团H的节点个数,然后队首社团H的节点个数添加到CSMap(c)中,遍历队首社团H的所有RDF资源实体,并在ECMap(entity)中添加RDF资源实体entity到所属社团H的映射,同时将RDF资源实体(urisubject,Asubject)添加到社团CEMap(H)对应的映射中,将社团结构树C-Tree中队首社团H包含的子社团节点加入到社团节点队列CQ中;
3)重复步骤2)直至社团节点队列CQ为空为止;
4)遍历CEMap(c)、CSMap(c)及ECMap(entity),分别得到实体索引、社团规模及实体到社团索引三类索引信息。
步骤3)对各关键词对应的RDF资源实体集合中的RDF资源实体进行组合的具体操作为:
1)使用Lucene查询关键词ki对应的RDF资源实体,得到关键词ki对应的RDF资源实体集合Li,并然后将所述RDF资源实体集合Li添加到关键实体列表list(Li)中;
2)将关键实体列表list(Li)中不同RDF资源实体集合中的RDF资源实体进行组合,到关键节点组合{(n1,n2,...,ni,...,nm)|ni∈Li},然后根据关键节点组合{(n1,n2,...,ni,...,nm)|ni∈Li}得所有关键实体组合的集合KNCSet,对于KNCSet中的关键节点组合根据查询关键词的相关度进行排序,选取前k个相关度最大的关键词加入到目标关键节点组合集合中。
本发明具有以下有益效果:
本发明所述的基于实体图社团结构的RDF关键词查询方法在查询过程中,先遍历RDF三元组合集合,构建RDF资源实体,并构建各RDF资源实体之间的关系,从而得到RDF实体图,然后根据RDF实体图得到RDF实体图的社团结构树,并给予RDF实体图的社团结构树构建实体图社团结构索引,再使用实体关键词倒排索引实现关键词查询到RDF资源实体的映射,并对不同关键词对应的实体进行组合,然后通过RDF资源实体与关键词的相关度对RDF资源实体组合进行筛选,得到候选RDF资源实体组合集合,最后对于RDF资源实体组合集合中的每一个RDF资源实体组合根据社团结构索引构建组合中实体之间的关系,并组合中实体之间的关系作为查询结果添加到结果集中,然后依据查询结果的紧凑度对结果集进行排序,并将排序的结果返回给用户,从而实现RDF关键词的查询,同时查询的简单,易于操作,并且效率高。
附图说明
图1为本发明RDF实体图构建流程图;
图2为本发明RDF虚拟文档构建流程图;
图3为本发明RDF实体图社团发现流程图;
图4为本发明RDF社团结构索引构建流程图;
图5为图4所示构建的社团结构索引的基于HBase的表模式;
图6为本发明基于社团结构的关键词查询流程图。
具体实施方式
下面结合附图对本发明做进一步详细描述:
本发明所述的基于实体图社团结构的RDF关键词查询方法包括以下步骤:
1)判断RDF三元组集合T的谓词类别,并根据谓词类别的判断结果将谓词分为属性关系及实体关系,再遍历所有的RDF三元组集合T,得各RDF三元组集合T对应的RDF资源实体,然后通过构建各RDF资源实体间的关系得RDF实体图,同时构建各RDF资源实体的虚拟文档;
2)通过基于Fast Unfold算法的层次社团发现算法对RDF实体图进行社团发现,得到RDF实体图的社团结构树,然后基于实体图的社团结构树构建实体图社团结构索引;
3)解析用户查询的信息,得关键词集合Q={k1,k2,...,ki,...,km},其中,ki为关键词集合Q中的第i个关键词,m为关键词的总个数,使用实体关键词倒排索引实现关键词到RDF资源实体的映射,得到各关键词对应的RDF资源实体集合,再对各关键词对应的RDF资源实体集合中的RDF资源实体进行组合,并通过RDF资源实体与关键词的相关度对RDF资源实体组合进行筛选,得到候选RDF资源实体组合集合,然后对于候选RDF资源实体组合集合中的每一个RDF资源实体组合根据社团结构索引构建候选RDF资源实体组合集合中各RDF资源实体之间的关系,并将候选RDF资源实体组合集合中各RDF资源实体之间的关系作为查询结果添加到查询结果集中,然后依据查询结果的紧凑度对查询结果集中查询结果进行排序,并将排序结果返回给用户。
所述RDF三元组集合T中的RDF三元组为
(subject,predicate,object) (1)
其中,subjecr∈U∪B,predicate∈U,object∈U∪B∪L,U、B及L分别为URIreference集合、空节点集合及文字描述节点集合;
所述RDF资源实体为:
(urisubject,Asubject) (2)
其中,urisubject为用于唯一标识RDF资源实体的URI,Sobject为RDF三元组集合T中包含的object集合,Ssubject为RDF三元组集合T中包含的subject集合,将RDF资源实体集合记作Entity(T),RDF实体图记作Gl(Vl,El),其中,Vl为RDF资源实体对应的节点集合,El为RDF实体图中边的集合,且满足El={(ul,vl)|(ul,p,vl)∈T,ul,vl∈Vl,p∈Up},Up为RDF三元组集合T中包含的谓词集合。
参考图1,步骤1)中通过构建各RDF资源实体间的关系得RDF实体图的具体操作如下:
1)通过Jena将RDF格式文档集转换为三元组格式,得RDF三元组集合T,同时记录RDF资源实体编号id;
2)判断RDF三元组集合的谓词类别,根据谓词类别的判断结果将谓词分为属性关系及实体关系,遍历所有RDF三元组集合T,根据各RDF三元组集合T的谓词类别将各RDF三元组合集合T的谓词添加到属性关系集合AR或实体关系集合ER中;
3)遍历RDF三元组集合T,对于各RDF三元组集合T中的每一个RDF三元组(subject,predicate,object),当RDF资源实体集合Entity(T)中不包含subject时,则id加1,并将映射关系(subject,id)添加到RDF资源实体集合Entity(T)中,当predicate∈ER,则将RDF资源实体关系(subject,object)以及predicate添加到RDF资源实体关系集合ERSet(T)中,其中对于第一个RDF资源实体集合Entity(T),id等于0;
4)遍历各RDF资源实体集合Entity(T),将各RDF资源实体编号及URI按序输出到Pajek格式文档P中,然后,遍历RDF资源实体关系集合ERSet(T),将各RDF资源实体间的关系输出到文档P中,得到RDF实体图。
参考图2,步骤1)中构建各RDF资源实体的虚拟文档的具体操作如下:
1)对各RDF资源实体集合Entity(T)中的每一个subject创建对应的RDF资源实体(urisubject,Asubject);
2)遍历所有的RDF三元组集合T,当predicate∈AR且则将object添加到subject对应RDF资源实体(urisubject,Asubject)的关联属性集合Asubject中;
3)提取各RDF资源实体(urisubject,Asubject)中的文本属性,然后根据各RDF资源实体(urisubject,Asubject)中的文本属性生成实体虚拟文档集合VDoc(T),则RDF资源实体(urisubject,Asubject)对应的虚拟文档VDoc(entity)为:
VDoc(entity)=label(urientity)+literal(attrisentity) (3)
其中,label(urientity)为urientity中包含的反映实体主题的标签,literal(attrisentity)为RDF资源实体(urisubject,Asubject)中包含的文字描述属性的集合。
参考图3,步骤2)中通过基于Fast Unfold算法的层次社团发现算法对RDF实体图进行社团发现的具体操作为:
1)将RDF实体图转换为无向图,并将转换后的RDF实体图作为社团结构树C-Tree的根社团节点加入到待分析社团节点队列CCNQ中,社团结构树C-Tree的根社团节点为:
CNode(VC,Children,Parent) (4)
其中,VC为社团节点包含的RDF资源实体集合Entity(T),Children为社团节点的子社团节点集合,Parent为社团节点的父社团节点;
2)从待分析社团节点队列CCNQ中取出队首节点CH,使用Fast Unfold算法对队首节点CH对应的RDF实体图或子图进行社团划分,当得到的社团划分结果对应的模块度值均大于或等于时,则创建各社团对应的社团节点,然后将社团节点作为队首节点CH的子社团节点加入待分析社团节点队列CCNQ中;
3)对待分析社团节点队列CCNQ中的所有节点进行步骤2)的操作,直到CCNQ队列为空,得到领域知识地图对应的社团结构树C-Tree,完成对RDF实体图的社团发现,其中
C-Tree(CNodeSet,croot,n) (5)
其中,CNodeSet为社团结构树的社团节点集合,croot为社团结构树的根社团节点,n为社团节点数。
参考图4及图5,步骤2)中基于实体图社团结构树构建实体图社团结构索引的具体操作为:
1)将社团结构树C-Tree的根节点croot加入到社团节点队列CQ,设H为社团节点队列CQ的队首社团,CEMap(c)为社团结构树C-Tree中社团c到RDF资源实体集合的映射,CSMap(c)为社团结构树C-Tree中社团c与社团规模的映射,ECMap(entity)为RDF资源实体到其所属社团的映射;
2)从社团节点队列CQ中取出队首社团H,计算队首社团H的节点个数,然后队首社团H的节点个数添加到CSMap(c)中,遍历队首社团H的所有RDF资源实体,并在ECMap(entity)中添加RDF资源实体entity到所属社团H的映射,同时将RDF资源实体(urisubject,Asubject)添加到社团CEMap(H)对应的映射中,将社团结构树C-Tree中队首社团H包含的子社团节点加入到社团节点队列CQ中;
3)重复步骤2)直至社团节点队列CQ为空为止;
4)遍历CEMap(c)、CSMap(c)及ECMap(entity),分别得到实体索引、社团规模及实体到社团索引三类索引信息。
步骤3)对各关键词对应的RDF资源实体集合中的实体进行组合的具体操作为:
1)使用Lucene查询关键词ki对应的RDF实体,得到关键词ki对应的实体集合Li,并然后将所述实体集合Li添加到关键实体列表list(Li)中;
2)将关键实体列表list(Li)中不同实体集合中的实体进行组合,到关键节点组合{(n1,n2,...,ni,...,nm)|ni∈Li},然后根据关键节点组合{(n1,n2,...,ni,...,nm)|ni∈Li}得所有关键实体组合的集合KNCSet,对于KNCSet中的关键节点组合根据查询关键词的相关度进行排序,选取前k个相关度最大的关键词加入到目标关键节点组合集合中。
参考图6,步骤3)对各关键词对应的RDF资源实体集合中的RDF资源实体进行组合的具体操作为:
1)使用Lucene查询关键词ki对应的RDF资源实体,得到关键词ki对应的RDF资源实体集合Li,并然后将所述RDF资源实体集合Li添加到关键实体列表list(Li)中;
2)将关键实体列表list(Li)中不同RDF资源实体集合中的RDF资源实体进行组合,到关键节点组合{(n1,n2,...,ni,...,nm)|ni∈Li},然后根据关键节点组合{(n1,n2,...,ni,...,nm)|ni∈Li}得所有关键实体组合的集合KNCSet,对于KNCSet中的关键节点组合根据查询关键词的相关度进行排序,选取前k个相关度最大的关键词加入到目标关键节点组合集合中。
其中,定关键节点集合K={l1,l2,...,lm},D={K1,K2,....,Ks}为K的一个非空子集集合,ci表示Ki中关键节点的共属社团,且满足则成D是集合K的一个覆盖,D中的子集合个数s称为覆盖层次。
给定的关键节点集合K={l1,l2,...,lm},K的t-层覆盖Dt={K1,K2,....,Kt}中的任一关键节点子集合Ki,不存在lj∈K可以添加Ki到中,构成新的t-层覆盖D′t,则称Dt为t-层最大覆盖。
依据查询结果子图的结构紧凑性对ST中的查询结果进行排序,并将排序后的结果返回。查询结果结构紧凑性定义如下:
其中,gr表示查询得到的一个结果子图;K(gr)表示gr包括的关键节点集合;dist(ni,nj)表示gr中任意两个关键节点ni和nj的路径长度。

Claims (1)

1.一种基于实体图社团结构的RDF关键词查询方法,其特征在于,包括以下步骤:
1)判断RDF三元组集合T的谓词类别,并根据谓词类别的判断结果将谓词分为属性关系及实体关系,再遍历所有的RDF三元组集合T,得各RDF三元组集合T对应的RDF资源实体,然后通过构建各RDF资源实体间的关系得RDF实体图,同时构建各RDF资源实体的虚拟文档;
2)通过基于快速展开算法的层次社团发现算法对RDF实体图进行社团发现,得到RDF实体图的社团结构树,然后基于实体图的社团结构树构建实体图社团结构索引;
3)解析用户查询的信息,得关键词集合Q={k1,k2,...,ki,...,km},其中,ki为关键词集合Q中的第i个关键词,m为关键词的总个数,使用实体关键词倒排索引实现关键词到RDF资源实体的映射,得到各关键词对应的RDF资源实体集合,再对各关键词对应的RDF资源实体集合中的RDF资源实体进行组合,并通过RDF资源实体与关键词的相关度对RDF资源实体组合进行筛选,得到候选RDF资源实体组合集合,然后对于候选RDF资源实体组合集合中的每一个RDF资源实体组合根据社团结构索引构建候选RDF资源实体组合集合中各RDF资源实体之间的关系,并将候选RDF资源实体组合集合中各RDF资源实体之间的关系作为查询结果添加到查询结果集中,然后依据查询结果的紧凑度对查询结果集中查询结果进行排序,并将排序结果返回给用户;
所述RDF三元组集合T中的RDF三元组为
(subject,predicate,object) (1)
其中,subject∈U∪B,predicate∈U,object∈U∪B∪L,U、B及L分别为URI reference集合、空节点集合及文字描述节点集合;
所述RDF资源实体为:
(urisubject,Asubject) (2)
其中,urisubject为用于唯一标识RDF资源实体的URI,Sobject为RDF三元组集合T中包含的object集合,Ssubject为RDF三元组集合T中包含的subject集合,将RDF资源实体集合记作Entity(T),RDF实体图记作Gl(Vl,El),其中,Vl为RDF资源实体对应的节点集合,El为RDF实体图中边的集合,且满足El={(ul,vl)|(ul,p,vl)∈T,ul∈Vl,vl∈Vl,p∈Up},Up为RDF三元组集合T中包含的谓词集合;
步骤1)中通过构建各RDF资源实体间的关系得RDF实体图的具体操作如下:
1)通过Jena将RDF格式文档集转换为三元组格式,得RDF三元组集合T,同时记录RDF资源实体编号id;
2)判断RDF三元组集合的谓词类别,根据谓词类别的判断结果将谓词分为属性关系及实体关系,遍历所有RDF三元组集合T,根据各RDF三元组集合T的谓词类别将各RDF三元组合集合T的谓词添加到属性关系集合AR或实体关系集合ER中;
3)遍历RDF三元组集合T,对于各RDF三元组集合T中的每一个RDF三元组(subject,predicate,object),当RDF资源实体集合Entity(T)中不包含subject时,则id加1,并将映射关系(subject,id)添加到RDF资源实体集合Entity(T)中,当predicate∈ER,则将RDF资源实体关系(subject,object)以及predicate添加到RDF资源实体关系集合ERSet(T)中,其中对于第一个RDF资源实体集合Entity(T),id等于0;
4)遍历各RDF资源实体集合Entity(T),将各RDF资源实体编号及URI按序输出到Pajek格式文档P中,然后,遍历RDF资源实体关系集合ERSet(T),将各RDF资源实体间的关系输出到文档P中,得到RDF实体图;
步骤1)中构建各RDF资源实体的虚拟文档的具体操作如下:
1)对各RDF资源实体集合Entity(T)中的每一个subject创建对应的RDF资源实体(urisubject,Asubject);
2)遍历所有的RDF三元组集合T,当predicate∈AR且则将object添加到subject对应RDF资源实体(urisubject,Asubject)的关联属性集合Asubject中;
3)提取各RDF资源实体(urisubject,Asubject)中的文本属性,然后根据各RDF资源实体(urisubject,Asubject)中的文本属性生成实体虚拟文档集合VDoc(T),则RDF资源实体(urisubject,Asubject)对应的虚拟文档VDoc(entity)为:
VDoc(entity)=label(urientity)+literal(attrisentity) (3)
其中,label(urientity)为urientity中包含的反映实体主题的标签,literal(attrisentity)为RDF资源实体(urisubject,Asubject)中包含的文字描述属性的集合;
步骤2)中通过基于快速展开算法的层次社团发现算法对RDF实体图进行社团发现的具体操作为:
1)将RDF实体图转换为无向图,并将转换后的RDF实体图作为社团结构树C-Tree的根社团节点加入到待分析社团节点队列CCNQ中,社团结构树C-Tree的根社团节点形式化表示为:
CNode(VC,Children,Parent) (4)
其中,VC为社团节点包含的RDF资源实体集合Entity(T),Children为社团节点的子社团节点集合,Parent为社团节点的父社团节点;
2)从待分析社团节点队列CCNQ中取出队首节点CH,使用Fast Unfold算法对队首节点CH对应的RDF实体图或子图进行社团划分,当得到的社团划分结果对应的模块度值均大于或等于时,则创建各社团对应的社团节点,然后将社团节点作为队首节点CH的子社团节点加入待分析社团节点队列CCNQ中;
3)对待分析社团节点队列CCNQ中的所有节点进行步骤(2)的操作,直到待分析社团节点队列CCNQ为空,得到领域知识地图对应的社团结构树C-Tree,完成对RDF实体图的社团发现,其中
C-Tree(CNodeSet,croot,n) (5)
其中,CNodeSet为社团结构树的社团节点集合,croot为社团结构树的根社团节点,n为社团节点数;
步骤2)中基于实体图社团结构树构建实体图社团结构索引的具体操作为:
1)将社团结构树C-Tree的根社团节点croot加入到社团节点队列CQ,设H为社团节点队列CQ的队首社团,CEMap(c)为社团结构树C-Tree中社团c到RDF资源实体集合的映射,CSMap(c)为社团结构树C-Tree中社团c与社团规模的映射,ECMap(entity)为RDF资源实体到其所属社团的映射;
2)从社团节点队列CQ中取出队首社团H,计算队首社团H的节点个数,然后队首社团H的节点个数添加到CSMap(c)中,遍历队首社团H的所有RDF资源实体,并在ECMap(entity)中添加RDF资源实体entity到所属社团H的映射,同时将RDF资源实体(urisubject,Asubject)添加到社团CEMap(H)对应的映射中,将社团结构树C-Tree中队首社团H包含的子社团节点加入到社团节点队列CQ中;
3)重复步骤2)直至社团节点队列CQ为空为止;
4)遍历CEMap(c)、CSMap(c)及ECMap(entity),分别得到实体索引、社团规模及实体到社团索引三类索引信息;
步骤3)对各关键词对应的RDF资源实体集合中的RDF资源实体进行组合的具体操作为:
1)使用Lucene查询关键词ki对应的RDF资源实体,得到关键词ki对应的RDF资源实体集合Li,并然后将所述RDF资源实体集合Li添加到关键实体列表list(Li)中;
2)将关键实体列表list(Li)中不同RDF资源实体集合中的RDF资源实体进行组合,到关键节点组合{(n1,n2,...,ni,...,nm)|ni∈Li},然后根据关键节点组合{(n1,n2,...,ni,...,nm)|ni∈Li}得所有关键实体组合的集合KNCSet,对于KNCSet中的关键节点组合根据查询关键词的相关度进行排序,选取前k个相关度最大的关键词加入到目标关键节点组合集合中。
CN201410389984.7A 2014-08-08 2014-08-08 一种基于实体图社团结构的rdf关键词查询方法 Expired - Fee Related CN104156431B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410389984.7A CN104156431B (zh) 2014-08-08 2014-08-08 一种基于实体图社团结构的rdf关键词查询方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410389984.7A CN104156431B (zh) 2014-08-08 2014-08-08 一种基于实体图社团结构的rdf关键词查询方法

Publications (2)

Publication Number Publication Date
CN104156431A CN104156431A (zh) 2014-11-19
CN104156431B true CN104156431B (zh) 2018-04-17

Family

ID=51881929

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410389984.7A Expired - Fee Related CN104156431B (zh) 2014-08-08 2014-08-08 一种基于实体图社团结构的rdf关键词查询方法

Country Status (1)

Country Link
CN (1) CN104156431B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106933844B (zh) * 2015-12-30 2020-06-05 中国科学院深圳先进技术研究院 面向大规模rdf数据的可达性查询索引的构建方法
CN107145512B (zh) * 2017-03-31 2019-10-18 北京大学 数据查询的方法和装置
CN110209781B (zh) * 2018-08-13 2023-04-07 腾讯科技(深圳)有限公司 一种文本处理方法、装置以及相关设备
CN109408527B (zh) * 2018-10-15 2020-12-01 广东顺德西安交通大学研究院 一种基于向量空间的rdf结构化查询自动构建方法
CN110222240B (zh) * 2019-05-24 2021-03-26 华中科技大学 一种基于摘要图的空间rdf数据关键词查询方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101996191A (zh) * 2009-08-14 2011-03-30 北京大学 一种二维跨媒体元搜索方法和系统
CN102081649A (zh) * 2010-12-31 2011-06-01 深圳联友科技有限公司 一种搜索电脑文件的方法及其系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090327268A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Providing targeted information for entertainment-oriented searches

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101996191A (zh) * 2009-08-14 2011-03-30 北京大学 一种二维跨媒体元搜索方法和系统
CN102081649A (zh) * 2010-12-31 2011-06-01 深圳联友科技有限公司 一种搜索电脑文件的方法及其系统

Also Published As

Publication number Publication date
CN104156431A (zh) 2014-11-19

Similar Documents

Publication Publication Date Title
CN104854583B (zh) 搜索结果排名和呈现
Raskin et al. Semantic web for earth and environmental terminology (sweet)
KR101646754B1 (ko) 모바일 시멘틱 검색 장치 및 그 방법
CN104156431B (zh) 一种基于实体图社团结构的rdf关键词查询方法
JP6014725B2 (ja) 単文/複文構造の自然言語クエリに対する検索および情報提供方法並びにシステム
CN102968465B (zh) 网络信息服务平台及其基于该平台的搜索服务方法
KR101827764B1 (ko) 시각적 어의적 복잡계 네트워크 및 그의 형성 방법
CN106874426B (zh) 基于Storm的RDF流式数据关键词实时搜索方法
CN103440314A (zh) 一种基于Ontology的语义检索方法
CN114218400A (zh) 基于语义的数据湖查询系统及方法
US10810181B2 (en) Refining structured data indexes
CN102810114A (zh) 基于本体的个人计算机资源管理系统
CN106528648A (zh) 结合Redis内存数据库的分布式RDF关键词近似搜索方法
Konys Ontology-based approaches to big data analytics
CN108038133A (zh) 个性化推荐方法
CN102819600A (zh) 面向电力生产管理系统关系数据库的关键词搜索方法
Gkirtzou et al. Keywords-to-sparql translation for rdf data search and exploration
CN107391690B (zh) 一种处理文献信息的方法
Drakopoulos et al. A semantically annotated JSON metadata structure for open linked cultural data in Neo4j
CN103294791A (zh) 一种可扩展标记语言模式匹配方法
US10872122B2 (en) Knowledge management system and process for managing knowledge
Latif et al. Harvesting Pertinent Resources from Linked Open Data.
KR101218577B1 (ko) 키워드 검색을 위한 sparql 질의 처리 수행 장치 및 방법
Khurana et al. Survey of techniques for deep web source selection and surfacing the hidden web content
Nakanishi et al. Approaching the interconnection of heterogeneous knowledge bases on a knowledge grid

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180417

Termination date: 20210808