CN108509543A - 一种基于Spark Streaming的流式RDF数据多关键词并行搜索方法 - Google Patents

一种基于Spark Streaming的流式RDF数据多关键词并行搜索方法 Download PDF

Info

Publication number
CN108509543A
CN108509543A CN201810227329.XA CN201810227329A CN108509543A CN 108509543 A CN108509543 A CN 108509543A CN 201810227329 A CN201810227329 A CN 201810227329A CN 108509543 A CN108509543 A CN 108509543A
Authority
CN
China
Prior art keywords
class
key
ontology
attribute
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810227329.XA
Other languages
English (en)
Other versions
CN108509543B (zh
Inventor
汪璟玢
于龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201810227329.XA priority Critical patent/CN108509543B/zh
Publication of CN108509543A publication Critical patent/CN108509543A/zh
Application granted granted Critical
Publication of CN108509543B publication Critical patent/CN108509543B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于Spark Streaming的流式RDF数据多关键词并行搜索方法,首先将输入的关键词映射到RDF本体图上的类顶点或属性边,构建RDF本体类‑属性二维模型,通过类之间的关系进行剪枝、去重、连接操作,构建对应的本体查询子图;提出一种相关性评价函数,从结构紧密度和内容关联度两个方面对本体查询子图评分、排序;根据本体查询子图的优先级,评分高的先进行搜索,利用MapReduce计算框架并行搜索RDF数据图上匹配的实例三元组,按本体查询子图连接关系进行连接得到前Top‑k的结果。本发明不仅避免了在大量数据图顶点上迭代搜索顶点间连接路径,还提高了查询的精确度,进而提高搜索效率。

Description

一种基于Spark Streaming的流式RDF数据多关键词并行搜索 方法
技术领域
本发明涉及海量RDF数据流式检索技术领域,特别是一种基于Spark Streaming的流式RDF数据多关键词并行搜索方法。
背景技术
随着大数据的到来,Hadoop等分布式处理平台在进行批量处理的时候具有明显的优势,但是面对流式数据的实时处理却表现出了许多不足,流式数据实时处理平台的出现弥补了分布式批量处理平台在实时处理方面的不足。流式数据实时搜索成为当前一个新的研究热点。互联网上产生各种各样的流式数据,由于数据的异构性,RDF被广泛用于在数据流中提供统一的元数据表示,RDF动态数据流在语义网络社区中引起了相当大的兴趣。为了响应这种不断增长的需求,不少学者研究并提出自己的RDF流式处理架构,其中比较著名的是D.F.Barbieri等提出了C-SPARQL和D.LeP等提出了CQELS,类似SPARQL的查询语言和操作语义,通过在数据流管理系统中定义窗口化技术来实现连续查询。Borthakur D等人基于Hadoop和Hbase提出了一种流式数据的实时搜索算法。另有文献将数据实时写入Nosql数据库中,并且利用三级缓存策略实现了一种流式数据的搜索方法。另有文献结合多级缓存机制提出了一种多源数据缓存的写入方法,该方法具有较高的实时性。蒋晨晨等人基于Storm提出了一种新的实时搜索框架,并且重新设计了分组算子、过滤算子等功能,解决了传统流式查询系统不能满足用户实时查询的不足。然而上述的研究都是针对形式化查询语句的,关于流式数据关键词实时搜索的研究少之又少,研究流式数据的关键词实时搜索方案具有非凡的意义。
RDF关键字搜索的主要目标是如何匹配RDF数据以获得与用户输入关键字相关联的结果。由于普通用户对RDF数据的结构和内容不一定了解,并且不同的用户对同一事物的描述可能存在差异,这就导致了在RDF数据搜索的过程中可能返回空或者少量的结果,而关键字搜索是一种从RDF数据图中检索信息的有效方法,用户无需熟悉任何标准的查询语言结构和底层数据模式,就可以快速高效地检索数据。同时,通过分布式并行方法解决海量RDF数据查询的问题,这已成为学术界和工业界的普遍共识。对于大规模RDF数据的批量搜索,以HDFS和MapReduce为核心的Hadoop在理论上和实践中均取得了显著的成功。但是在实时大数据方面,Hadoop却显得无能为力,存在一定的局限性。为了应对流式大数据实时性、多变性、无限性,推出并应用了越来越多的流式处理系统,其中较为典型的是Storm流式处理框架和构建在Spark上处理Stream数据的Spark Streaming框架。因此,如何研究和实现大规模流式RDF数据的实时多关键字搜索算法成为了一个非常有意义的研究课题。
发明内容
有鉴于此,本发明的目的是提出一种基于Spark Streaming的流式RDF数据多关键词并行搜索方法,不仅避免了在大量数据图顶点上迭代搜索顶点间连接路径,还提高了查询的精确度,进而提高搜索效率。
本发明采用以下方案实现:一种基于Spark Streaming的流式RDF数据多关键词并行搜索方法,包括以下步骤:
步骤S1:根据基于Redis的分布式存储方案,将用户输入的关键词映射到RDF本体图上的类顶点或属性边,构建RDF本体类-属性二维模型,通过类之间的关系进行剪枝、去重、连接操作,构建对应的本体查询子图;
步骤S2:构建相关性评价函数,从结构紧密度和内容关联度两个方面对本体查询子图评分、排序;
步骤S3:根据本体查询子图的优先级,按照评分高至低的顺序依次利用MapReduce计算框架并行搜索当前本体查询子图上匹配的实例三元组,并按当前本体查询子图的连接关系进行连接得到当前结果子图,直至得到前Top-k个结果子图;
步骤S4:将步骤S3得到的Top-k的结果子图进行编码反转得到原始数据,并返还给用户。
本发明采用上述算法可以避免在大量数据图顶点上迭代搜索顶点间连接路径,提高了查询的精确度,进而提高了搜索效率。
进一步地,步骤S1中,所述基于Redis的分布式存储方案具体为:采用Redis内存数据库集群作为数据存储的媒介,将RDF本体信息和大规模的RDF实例数据进行预处理,分门别类地存储在Redis内存数据库集群的Set集合中;所述数据预处理包括采用哈希算法对数据进行哈希编码压缩;
所述Redis内存数据库集群中包括本体存储数据、实例存储数据、哈希映射关系、以及历史数据,其各自的存储方案如下:
所述本体存储数据的存储方案为:在表Rdf_ontology中存储RDF本体类信息,以键值对的形式存储,其中键为类名,值为类的编号;在表SubPropertyOf中存储属性及其父属性的信息,以键值对的形式存储,其中键为属性,值为属性的父属性;在表SubClassOf中存储类及其父类的信息,以键值对的形式存储,其中键为类名,值为该类的父类;在表C_C_Property中存储属性以及属性连接的类对,其中键为属性,值为属性对应的类对构成的集合;在表Subject_Class中存储主语为同一类的模式三元组集合,其中键为主语所属的类的名称,值为属性和宾语所属类的组合;在表Object_Class中存储宾语为同一类的模式三元组集合,其中键为宾语所属的类的名称,值为属性和主语所属类的组合;
所述实例存储数据的存储方案为:在表Literal_Triple中存储标签对应的数据属性和实例的集合,以键值对的形式存储,其中键为标签,值为数据属性和实例;在表Instance_Class中存储实例与实例所属类的映射关系,以键值对的形式存储,其中键为实例,值为实例对应的类;在表SC_OP_OC中存储包含对象属性的模式三元组对应的实例三元组,以键值对的形式存储,其中键为实例三元组的主语,值为实例三元组的宾语;在表OC_OP_SC中存储表SC_OP_OC的反转备份,以键值对的形式存储,其中键为实例三元组的宾语,值为实例三元组的主语;
所述历史数据的存储方案为:在表His_Class_Graph中存储历史记录中搜索过的查询子图,其中键为Rdf_Ontology表中下标,下标按降序连接,值为本体查询子图;
所述哈希映射关系的存储方案为:表Prefix_Hash中存储Hash的形式存储前缀及其哈希值的信息,以键值对的形式存储,其中键为前缀,值为哈希值;在表Hash_Prefix中存储Hash的形式存储Prefix_Hash的反转备份,以键值对的形式存储,其中键为哈希值,值为前缀;在表Conflict中存储Set形式存储发生冲突的前缀,其中值为冲突的前缀字符串。
RDF本体表Rdf_Ontology存储RDF本体类信息,存储到List列表中。SubPropertyOf表存储本体中的属性及其父属性的信息,以键值对的形式存储,其中键(key)为属性,值(value)为属性对应的所有父属性;C_C_Property表存储本体中的属性连接的一系列类对;Subject_Class存储类及其父类的信息,以键值对的形式存储,其中键(key)为类名,值(value)为类对应的所有父类。在已知关键词对应的实例类或关联属性时,从本体表中获取与查询关键词具有语义关联的类或属性,用以快速构建本体查询子图集。RDF本体信息是RDF数据图的浓缩摘要图,数据规模是很小的,通常是确定且极少变化的,只需解析一次,就可以直接复用解析完的结果。Instance_Class和Literal_Triple两张表,记录实例或文本与类或属性之间的对应关系,已知查询关键词通过key-value的方式直接获取该关键词对应的实例类或关联属性。考虑到流式数据的动态性,对搜索过的本体查询子图其实是可以记录下来的,因此在前述的存储方案的基础之上,增加了对历史数据的存储。为解决数据量占用内存过大的问题,采用了哈希压缩方法。
进一步地,步骤S1中构建对应的本体查询子图具体包括以下步骤:
步骤S11:构建关联类图:对于用户输入的每一个关键词,首先根据表C_C_Property判断该关键词是否映射为属性,若为属性,则存储至属性集合中;如不为属性,则通过Rdf_Ontology、C_C_Property、Instance_Class、Literal_Triple四表确定该关键词映射的本体实例类,并将其存储到类的集合中;根据该关键词所属的类,将与其相关联的类连接起来,得到该类对应的关联类图,并将其放入关联类图的集合中;
步骤S12:将关联类图的集合、属性集合、以及类的集合作为本体查询子图的输入,依次通过剪枝和融合两个过程生成本体查询子图。
由于Redis采用的key-value的存储形式,在查询的时间复杂度是O(1),所以对于每个关键词均可以快速定位到其匹配的类,同时考虑一个关键词可能会映射到多个类,多个关键词匹配到的类会有重复的现象,那么需要去除重复的本体实例类。
进一步地,所述步骤S2中的相关性评价函数为:
SE(Gsk)=α*len(Gsk)+(1-α)*pageRanks(Gsk);
len(Gsk)为结构紧密度评分, pageRanks(Gsk)为内容关联度评分,其中,Gsk为一个本体查询子图,dis(ci.cj)为表示两个实例类节点ci和cj在本体查询子图上的距离,α为调节参数。
进一步地,所述步骤S4中,将步骤S3得到的Top-k的结果子图进行编码反转得到原始数据具体包括以下步骤:
步骤S41:获取Top-k结果子图中包含的不同哈希值;
步骤S42:从表Hash_Prefix中获取每个哈希值对应的前缀字符串;
步骤S43:将Top-k结果子图中所有哈希值格式的前缀替换成对应的步骤S42中的字符串格式的前缀;
步骤S44:输出编码反转后的Top-k结果子图集。
在得到Top-k结果子图之后,由于Top-k结果子图是哈希编码压缩的形式,对得到的Top-k结果子图进行编码反转得到原始数据,返回给用户。MPSASR算法中数据哈希编码压缩(HashBolt)阶段是一个无损的压缩过程,编码反转(ResultReverse)阶段能够很容易地进行哈希值的反转操作。编码反转(ResultReverse)阶段实时接收传输过来的Top-k结果子图,并且借助Spark Stream流式处理框架实时对Top-k结果子图中哈希值格式的前缀进行编码反转,将其转换成字符串格式的前缀,由于在数据哈希编码压缩(HashBolt)阶段没有对冲突前缀进行哈希编码压缩,而是保持字符串的格式不变,因此Top-k结果子图中的冲突前缀本身就是字符串格式的,不用对其进行编码反转操作。同时,哈希映射信息中存储了前缀字符串及其对应哈希值的相关信息,结合哈希映射信息可以快速完整地将编码压缩后的数据恢复到原始的数据。
进一步地,所述步骤S3中的利用MapReduce计算框架并行搜索当前本体查询子图上匹配的实例三元组,并按当前本体查询子图的连接关系进行连接得到当前结果子图具体包括以下步骤:
步骤S31:Map阶段:针对当前构建好的本体查询子图中的每个模式三元组,并行搜索表SC_OP_OC或表OC_OP_SC中与该模式三元组匹配的实例三元组,并将得到的实例三元组传给步骤S32的Reduce阶段;
步骤S32:Reduce阶段:接收步骤S31的Map阶段传送来的实例三元组,根据本体查询子图中已有的连接关系对该实例三元组进行连接,得到当前结果子图。
与现有技术相比,本发明有以下有益效果:
1、本发明减少了搜索过程中读取数据和搜索结果的时间,提高了搜索效率。
2、本发明通过哈希压缩方法减少了海量数据的存储空间,支持流式数据的存储。
3、本发明减少了MapReduce的任务数,结合Spark迭代搜索本体查询子图。
4、本发明的设计完全基于内存的搜索方案,实现高效的实时查询。
附图说明
图1为本发明方法流程示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
如图1所示,本实施例提供了一种基于Spark Streaming的流式RDF数据多关键词并行搜索方法,包括以下步骤:
步骤S1:根据基于Redis的分布式存储方案,将用户输入的关键词映射到RDF本体图上的类顶点或属性边,构建RDF本体类-属性二维模型,通过类之间的关系进行剪枝、去重、连接操作,构建对应的本体查询子图;
步骤S2:构建相关性评价函数,从结构紧密度和内容关联度两个方面对本体查询子图评分、排序;
步骤S3:根据本体查询子图的优先级,按照评分高至低的顺序依次利用MapReduce计算框架并行搜索当前本体查询子图上匹配的实例三元组,并按当前本体查询子图的连接关系进行连接得到当前结果子图,直至得到前Top-k个结果子图;
步骤S4:将步骤S3得到的Top-k的结果子图进行编码反转得到原始数据,并返还给用户。
本发明采用上述算法可以避免在大量数据图顶点上迭代搜索顶点间连接路径,提高了查询的精确度,进而提高了搜索效率。
为了更好地对本实施例进行说明,设给定关键词查询Q={q1,q2,...,qi,...,qm},RDF数据图G,返回Top-k查询结果。以下给出本实施例中RDF关键词搜索的相关定义。
定义1:RDF三元组。设RDF三元组可表示为t<s,p,o>,其中s表示t的主语,p表示t的谓语,o表示t的宾语。s∈(IB),p∈(IB),o∈(IBL),I是URI顶点的集合,B是空白顶点集合,L是文本顶点集合。
定义2:RDF图。设G={t1,t2,...,ti,...,tm}表示RDF图。一个RDF图可由一组RDF三元组定义。一个RDF图表示为一个有向标记图,每个三元组ti<si,pi,oi>的主语si和宾语oi作为RDF图顶点,谓语pi是由主语指向宾语的一条有向标记边。
定义3:关联类图,记GSi。设GSi={T1,T2...Tn}表示关联类图,在给定的一关键词所属的类Ci,将与其相关联的类连接起来,即将Ti<Si,Pi,Oi>加入到GSi集合中,其中Si=Ci或者Oi=Ci
定义4:类图剪枝。多个关键词构建成多个GS,在所有的GS中,仅出现一次的模式三元组<Si,Pi,Oi>就是松散挂起的节点,将其删除不会对本发明的查询结果图产生影响。
定义5:类图融合去重。多个关键词构建成多个GS,在所有的GS中,出现多次模式三元组<Si,Pi,Oi>则为关系紧密的节点,去掉重复的三元组,保留一份,形成新的图关联类图。
定义6:本体查询子图。多个GS进行融合后,进行三元组连接操作,形成本体查询子图集Gsk。
定义7:三元组连接。在构建本体查询子图或者结果子图的时候,对于匹配的模式三元组或者实例三元组要进行三元组连接操作,其中任意两个三元组通过主语、宾语或者其他三元组连接起来。三元组连接的形式化表示:对于模式三元组或者实例三元组集合Set={T1,T2,...,Ti,...,Tm},给定Ti(Si,Pi,Oi)和Tj(Sj,Pj,Oj),其中如果(Si=Sj≠Oj)或者(Si=Oj≠Sj)或者(Oi=Sj≠Oj)或者(Oi=Oj≠Sj),则称Ti与Tj相邻,可以进行三元组连接。
定义8:查询结果,记为R。已知RDF数据图G和关键词查询Q,查询结果是一组包含所有查询关键词的三元组构成的连通子图,其中任意两个三元组通过主语、宾语或者其他三元组连接起来。设R={t1,t2,...,tk,...,tr},其中i,j∈{1,2,...,r},ti<si,pi,oi>和tj<sj,pj,oj>,则有(si=sj且oi≠oj)或(si=oj且oi≠sj)或(oi=sj且si≠oj)或(oi=oj且si≠sj)或(ti-tk-tj)。两个三元组集合中元素不完全相同,则认为是不同的查询结果。
定义9:BKDRHash算法:是一种简单有效的字符串哈希算法,能够将任意长度的字符串通过散列计算,变换成固定长度的整形数值,该值称为散列值,即哈希值。该算法得到的哈希值占用的存储空间比对应的字符串小,虽然不同的字符串散列计算后得到哈希值有可能相同,但是这种冲突发生的概率很低,字符串散列计算所耗费的时间很短,并且要得到哈希值为同一个数值的多个不同字符串在计算上是不可能的,因此可以利用该算法的哈希值来检验数据的完整性。
在本实施例中,步骤S1中,所述基于Redis的分布式存储方案具体为:采用Redis内存数据库集群作为数据存储的媒介,将RDF本体信息和大规模的RDF实例数据进行预处理,分门别类地存储在Redis内存数据库集群的Set集合中;所述数据预处理包括采用哈希算法对数据进行哈希编码压缩;
所述Redis内存数据库集群中包括本体存储数据、实例存储数据、哈希映射关系、以及历史数据,其各自的存储方案如下:
所述本体存储数据的存储方案为:在表Rdf_ontology中存储RDF本体类信息,以键值对的形式存储,其中键为类名,值为类的编号;在表SubPropertyOf中存储属性及其父属性的信息,以键值对的形式存储,其中键为属性,值为属性的父属性;在表SubClassOf中存储类及其父类的信息,以键值对的形式存储,其中键为类名,值为该类的父类;在表C_C_Property中存储属性以及属性连接的类对,其中键为属性,值为属性对应的类对构成的集合;在表Subject_Class中存储主语为同一类的模式三元组集合,其中键为主语所属的类的名称,值为属性和宾语所属类的组合;在表Object_Class中存储宾语为同一类的模式三元组集合,其中键为宾语所属的类的名称,值为属性和主语所属类的组合;
所述实例存储数据的存储方案为:在表Literal_Triple中存储标签对应的数据属性和实例的集合,以键值对的形式存储,其中键为标签,值为数据属性和实例;在表Instance_Class中存储实例与实例所属类的映射关系,以键值对的形式存储,其中键为实例,值为实例对应的类;在表SC_OP_OC中存储包含对象属性的模式三元组对应的实例三元组,以键值对的形式存储,其中键为实例三元组的主语,值为实例三元组的宾语;在表OC_OP_SC中存储表SC_OP_OC的反转备份,以键值对的形式存储,其中键为实例三元组的宾语,值为实例三元组的主语;
所述历史数据的存储方案为:在表His_Class_Graph中存储历史记录中搜索过的查询子图,其中键为Rdf_Ontology表中下标,下标按降序连接,值为本体查询子图;
所述哈希映射关系的存储方案为:表Prefix_Hash中存储Hash的形式存储前缀及其哈希值的信息,以键值对的形式存储,其中键为前缀,值为哈希值;在表Hash_Prefix中存储Hash的形式存储Prefix_Hash的反转备份,以键值对的形式存储,其中键为哈希值,值为前缀;在表Conflict中存储Set形式存储发生冲突的前缀,其中值为冲突的前缀字符串。
MPSASR算法利用Redis内存数据库集群作为数据存储的媒介,集群中Redis内存数据库的个数可以根据需求动态增减。由于Redis中对Set集合的添加、删除和查找的复杂度都是O(1),本实施例将RDF本体信息和大规模的RDF实例数据进行预处理,分门别类地存储在Redis内存数据库集群的Set集合中。具体的存储方案如表1所示。
表1存储方案
表2实例数据的存储方案
表3历史数据的存储方案
表4哈希映射信息的存储方案
RDF本体表Rdf_Ontology存储RDF本体类信息,存储到List列表中。SubPropertyOf表存储本体中的属性及其父属性的信息,以键值对的形式存储,其中键(key)为属性,值(value)为属性对应的所有父属性;C_C_Property表存储本体中的属性连接的一系列类对;Subject_Class存储类及其父类的信息,以键值对的形式存储,其中键(key)为类名,值(value)为类对应的所有父类。在已知关键词对应的实例类或关联属性时,从本体表中获取与查询关键词具有语义关联的类或属性,用以快速构建本体查询子图集。RDF本体信息是RDF数据图的浓缩摘要图,数据规模是很小的,通常是确定且极少变化的,只需解析一次,就可以直接复用解析完的结果。
Instance_Class和Literal_Triple两张表,记录实例或文本与类或属性之间的对应关系,已知查询关键词通过key-value的方式直接获取该关键词对应的实例类或关联属性。具体Redis数据库设计及存储内容说明如表1、表2所示。考虑到流式数据的动态性,对搜索过的本体查询子图其实是可以记录下来的,因此在前述存储方案的基础之上,增加了对历史数据的存储,如表3所示。为解决数据量占用内存过大的问题,采用了哈希压缩方法,与之对应的哈希映射信息表存储如表4所示。
在本实施例中,步骤S1中构建对应的本体查询子图具体包括以下步骤:
步骤S11:构建关联类图:关联类图是构建本体查询子图的基础,针对于每个关键词,其对应的类均可以生成自己的关联类图。用户输入的多个关键词,可能是类、属性、实例或文本。对于用户输入的每一个关键词,首先根据表C_C_Property判断该关键词是否映射为属性,若为属性,则存储至属性集合中;如不为属性,则通过Rdf_Ontology、C_C_Property、Instance_Class、Literal_Triple四表确定该关键词映射的本体实例类,并将其存储到类的集合中;根据该关键词所属的类,将与其相关联的类连接起来,得到该类对应的关联类图,并将其放入关联类图的集合中;
步骤S12:将关联类图的集合、属性集合、以及类的集合作为本体查询子图的输入,依次通过剪枝和融合两个过程生成本体查询子图。
对于一个类生成的关联类图包含的模式三元组会很多,因为里面会掺杂着多余的模式三元组,为了去掉不会对查询结果起作用的边,所以要对关联类图进行剪枝操作。根据定义4,在关联类图中,如果一条路径<s,p,o>中s、p、o只有一个可以映射为查询关键词对应的类或属性,可以认为该路径不会对查询结果起作用,就可以将其剪枝,最终得到剪枝后的关联类图GSSet。
融合的目的就是为了将剪枝后的关联类图连接起来。属于父子关系的关联类图应该分开,与其他关联类图做融合。在一个需要融合的关联类图集中,迭代判断两个关联类图是否存在公共边,根据公共边将两个关联类图融合成一个关联类图,以此得到一个或多个最终关联类图。融合过程的输入是经过剪枝后的GSSet。
由于Redis采用的key-value的存储形式,在查询的时间复杂度是O(1),所以对于每个关键词均可以快速定位到其匹配的类,同时考虑一个关键词可能会映射到多个类,多个关键词匹配到的类会有重复的现象,那么需要去除重复的本体实例类。给定任意一个类,通过定义3进行关联都可以生成该类对应的关联类图。
在本实施例中,所述步骤S2中的相关性评价函数为:输入查询Q={q1,q2,...,qi,...,qm},对应RDF本体实例类C={c1,c2,...,ci,...,cm},假定Q对应的一个本体查询子图Gsk={g1,g2,....gn},其中gk∈C。:
SE(Gsk)=α*len(Gsk)+(1-α)*pageRanks(Gsk);
len(Gsk)为结构紧密度评分, pageRanks(Gsk)为内容关联度评分,其中,Gsk为一个本体查询子图,dis(ci.cj)为表示两个实例类节点ci和cj在本体查询子图上的距离,α为调节参数。在本实施例中,α=0.5表示两者的影响程度一样。dis(ci,cj)表示实例类节点ci和cj在本体查询子图上距离,若实例类ci和cj不可达,距离为dis(ci,cj)=+∞。Length(Gsk)等于本体查询子图上两两实例类顶点间距离求和,求和距离越短,则1/Length(Gsk)值越大说明内容联系越紧密。pageRank算法是Google提出的一种评价网页等级(权重)的一种计算模型,本实施例引用pageRank算法来计算本体查询子图中各个类节点的权重,以评估本体查询子图的内容相关性,pageRanks(Gsk)表示本体查询子图上各个类的pageRank值之和,当pageRanks(Gsk)值越大的时候,说明Gsk的内容相关性越高。RDF数据图上的一个RDF实例顶点可映射到RDF本体图上的一个实例类,在RDF数据图上关系越紧密的实例顶点对应的本体实例类间的关系也越紧密。结果评分值越高。
在本实施例中,所述步骤S4中,将步骤S3得到的Top-k的结果子图进行编码反转得到原始数据具体包括以下步骤:
步骤S41:获取Top-k结果子图中包含的不同哈希值;
步骤S42:从表Hash_Prefix中获取每个哈希值对应的前缀字符串;
步骤S43:将Top-k结果子图中所有哈希值格式的前缀替换成对应的步骤S42中的字符串格式的前缀;
步骤S44:输出编码反转后的Top-k结果子图集。
在得到Top-k结果子图之后,由于Top-k结果子图是哈希编码压缩的形式,对得到的Top-k结果子图进行编码反转得到原始数据,返回给用户。MPSASR算法中数据哈希编码压缩(HashBolt)阶段是一个无损的压缩过程,编码反转(ResultReverse)阶段能够很容易地进行哈希值的反转操作。编码反转(ResultReverse)阶段实时接收传输过来的Top-k结果子图,并且借助Spark Stream流式处理框架实时对Top-k结果子图中哈希值格式的前缀进行编码反转,将其转换成字符串格式的前缀,由于在数据哈希编码压缩(HashBolt)阶段没有对冲突前缀进行哈希编码压缩,而是保持字符串的格式不变,因此Top-k结果子图中的冲突前缀本身就是字符串格式的,不用对其进行编码反转操作。同时,哈希映射信息中存储了前缀字符串及其对应哈希值的相关信息,结合哈希映射信息可以快速完整地将编码压缩后的数据恢复到原始的数据。
在本实施例中,所述步骤S3中的利用MapReduce计算框架并行搜索当前本体查询子图上匹配的实例三元组,并按当前本体查询子图的连接关系进行连接得到当前结果子图具体包括以下步骤:
步骤S31:Map阶段:针对当前构建好的本体查询子图中的每个模式三元组,并行搜索表SC_OP_OC或表OC_OP_SC中与该模式三元组匹配的实例三元组,并将得到的实例三元组传给步骤S32的Reduce阶段;
步骤S32:Reduce阶段:接收步骤S31的Map阶段传送来的实例三元组,根据本体查询子图中已有的连接关系对该实例三元组进行连接,得到当前结果子图。
特别的,在本实施例中,由于MPSASR算法的数据是实时流入的,在处理的时候对不同的数据流需要做不同的处理,Spark Streaming框架的批处理引擎SparkCore将数据流处理为许多短小的批处理数据,也就是Spark Steaming对数据流按照batch size(如2秒)分成离散流数据(DStream),每一段数据都会转变为Spark中的弹性分布式数据集(RDD),将经过RDD处理后的数据存储至Redis分布式数据库中。具体存储结构如上文的存储方案中所述。
通过分析RDF数据文件结构的特点,可以发现RDF数集中很多的类和属性、实例和文本都存在相同的前缀。Redis内存数据库对整形数值做了大量的内存优化,为了减少RDF数据的存储空间并且充分利用Redis对整形数值的优化功能,这里通过使用定义9中的BKDRHash算法对共同的前缀进行散列计算并转换为整形数值,该哈希算法可以保证数据均衡地散列在哈希列表中,并且发生冲突的概率非常低,同时拥有高效的散列速度。通过对数据进行哈希编码压缩不仅可以对RDF数据的前缀进行编码压缩,缩短前缀的长度进而减少内存空间的消耗,而且还能进一步提高RDF数据搜索匹配的速度。为了保证哈希编码压缩执行的效率,本实施例使用Spark Streaming流式处理框架对RDF数据进行实时哈希编码压缩,将大规模的RDF数据以数据流的形式批量流入Spark Core模块中,并且数据流以5×104个三元组/s的平均速度从数据预处理(JenaSpout)阶段流到数据哈希编码压缩(HashBolt)阶段。数据哈希映射信息的存储方案如表4,数据哈希编码压缩的具体过程如下:
Step1:获取RDF三元组(或关键词集合)中包含的不同前缀;
Step2:遍历获取到的前缀,查看Conflict中是否存在当前访问的前缀,如果存在,则该前缀为冲突前缀,不对该前缀进行哈希编码,保持字符串的格式不变,跳到Step7,否则跳到Step3;
Step3:查看表Prefix_Hash中是否存在以当前访问的前缀为key的记录,如果存在,则跳到Step7,否则跳到Step4;
Step4:利用BKDRHash算法散列计算生成当前访问前缀对应的哈希值,查看Hash_Prefix中是否存在以该哈希值为key的记录,如果存在,则当前访问的前缀为冲突前缀,跳到Step5,否则跳到Step6;
Step5:当前访问的前缀保持字符串的格式不变,并且将其加入Conflict中,跳到Step7;
Step6:将(当前访问的前缀,哈希值)键值对加入Prefix_Hash,(哈希值,当前访问的前缀)键值对加入Hash_Prefix,跳到Step7;
Step7:判断所有的前缀是否遍历处理完成,如果遍历处理完成,跳到Step8,否则跳到Step2;
Step8:当全部的前缀都遍历处理完成后,RDF三元组中出现在Conflict中的冲突前缀保持字符串的格式不变,并且将其他的前缀替换成对应的哈希值,跳到Step9;
Step9:输出哈希编码压缩后的RDF三元组,跳到Step10;
Step10:算法结束。
上文中的RDF三元组包括实例三元组和模式三元组,虽然BKDRHash算法发生冲突的概率极低,但在本实施例中仍然考虑了冲突发生情况下的解决方案。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (6)

1.一种基于Spark Streaming的流式RDF数据多关键词并行搜索方法,其特征在于包括以下步骤:
步骤S1:根据基于Redis的分布式存储方案,将用户输入的关键词映射到RDF本体图上的类顶点或属性边,构建RDF本体类-属性二维模型,通过类之间的关系进行剪枝、去重、连接操作,构建对应的本体查询子图;
步骤S2:构建相关性评价函数,从结构紧密度和内容关联度两个方面对本体查询子图评分、排序;
步骤S3:根据本体查询子图的优先级,按照评分高至低的顺序依次利用MapReduce计算框架并行搜索当前本体查询子图上匹配的实例三元组,并按当前本体查询子图的连接关系进行连接得到当前结果子图,直至得到前Top-k个结果子图;
步骤S4:将步骤S3得到的Top-k的结果子图进行编码反转得到原始数据,并返还给用户。
2.根据权利要求1所述的一种基于Spark Streaming的流式RDF数据多关键词并行搜索方法,其特征在于:步骤S1中,所述基于Redis的分布式存储方案具体为:采用Redis内存数据库集群作为数据存储的媒介,将RDF本体信息和大规模的RDF实例数据进行预处理,分门别类地存储在Redis内存数据库集群的Set集合中;所述数据预处理包括采用哈希算法对数据进行哈希编码压缩;
所述Redis内存数据库集群中包括本体存储数据、实例存储数据、哈希映射关系、以及历史数据,其各自的存储方案如下:
所述本体存储数据的存储方案为:在表Rdf_ontology中存储RDF本体类信息,以键值对的形式存储,其中键为类名,值为类的编号;在表SubPropertyOf中存储属性及其父属性的信息,以键值对的形式存储,其中键为属性,值为属性的父属性;在表SubClassOf中存储类及其父类的信息,以键值对的形式存储,其中键为类名,值为该类的父类;在表C_C_Property中存储属性以及属性连接的类对,其中键为属性,值为属性对应的类对构成的集合;在表Subject_Class中存储主语为同一类的模式三元组集合,其中键为主语所属的类的名称,值为属性和宾语所属类的组合;在表Object_Class中存储宾语为同一类的模式三元组集合,其中键为宾语所属的类的名称,值为属性和主语所属类的组合;
所述实例存储数据的存储方案为:在表Literal_Triple中存储标签对应的数据属性和实例的集合,以键值对的形式存储,其中键为标签,值为数据属性和实例;在表Instance_Class中存储实例与实例所属类的映射关系,以键值对的形式存储,其中键为实例,值为实例对应的类;在表SC_OP_OC中存储包含对象属性的模式三元组对应的实例三元组,以键值对的形式存储,其中键为实例三元组的主语,值为实例三元组的宾语;在表OC_OP_SC中存储表SC_OP_OC的反转备份,以键值对的形式存储,其中键为实例三元组的宾语,值为实例三元组的主语;
所述历史数据的存储方案为:在表His_Class_Graph中存储历史记录中搜索过的查询子图,其中键为Rdf_Ontology表中下标,下标按降序连接,值为本体查询子图;
所述哈希映射关系的存储方案为:表Prefix_Hash中存储Hash的形式存储前缀及其哈希值的信息,以键值对的形式存储,其中键为前缀,值为哈希值;在表Hash_Prefix中存储Hash的形式存储Prefix_Hash的反转备份,以键值对的形式存储,其中键为哈希值,值为前缀;在表Conflict中存储Set形式存储发生冲突的前缀,其中值为冲突的前缀字符串。
3.根据权利要求2所述的一种基于Spark Streaming的流式RDF数据多关键词并行搜索方法,其特征在于:步骤S1中构建对应的本体查询子图具体包括以下步骤:
步骤S11:构建关联类图:对于用户输入的每一个关键词,首先根据表C_C_Property判断该关键词是否映射为属性,若为属性,则存储至属性集合中;如不为属性,则通过Rdf_Ontology、C_C_Property、Instance_Class、Literal_Triple四表确定该关键词映射的本体实例类,并将其存储到类的集合中;根据该关键词所属的类,将与其相关联的类连接起来,得到该类对应的关联类图,并将其放入关联类图的集合中;
步骤S12:将关联类图的集合、属性集合、以及类的集合作为本体查询子图的输入,依次通过剪枝和融合两个过程生成本体查询子图。
4.根据权利要求1所述的一种基于Spark Streaming的流式RDF数据多关键词并行搜索方法,其特征在于:所述步骤S2中的相关性评价函数为:
SE(Gsk)=α*len(Gsk)+(1-α)*pageRanks(Gsk);
len(Gsk)为结构紧密度评分, pageRanks(Gsk)为内容关联度评分,其中,Gsk为一个本体查询子图,dis(ci.cj)为表示两个实例类节点ci和cj在本体查询子图上的距离,α为调节参数。
5.根据权利要求2所述的一种基于Spark Streaming的流式RDF数据多关键词并行搜索方法,其特征在于:所述步骤S4中,将步骤S3得到的Top-k的结果子图进行编码反转得到原始数据具体包括以下步骤:
步骤S41:获取Top-k结果子图中包含的不同哈希值;
步骤S42:从表Hash_Prefix中获取每个哈希值对应的前缀字符串;
步骤S43:将Top-k结果子图中所有哈希值格式的前缀替换成对应的步骤S42中的字符串格式的前缀;
步骤S44:输出编码反转后的Top-k结果子图集。
6.根据权利要求2所述的一种基于Spark Streaming的流式RDF数据多关键词并行搜索方法,其特征在于:所述步骤S3中的利用MapReduce计算框架并行搜索当前本体查询子图上匹配的实例三元组,并按当前本体查询子图的连接关系进行连接得到当前结果子图具体包括以下步骤:
步骤S31:Map阶段:针对当前构建好的本体查询子图中的每个模式三元组,并行搜索表SC_OP_OC或表OC_OP_SC中与该模式三元组匹配的实例三元组,并将得到的实例三元组传给步骤S32的Reduce阶段;
步骤S32:Reduce阶段:接收步骤S31的Map阶段传送来的实例三元组,根据本体查询子图中已有的连接关系对该实例三元组进行连接,得到当前结果子图。
CN201810227329.XA 2018-03-20 2018-03-20 一种基于Spark Streaming的流式RDF数据多关键词并行搜索方法 Active CN108509543B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810227329.XA CN108509543B (zh) 2018-03-20 2018-03-20 一种基于Spark Streaming的流式RDF数据多关键词并行搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810227329.XA CN108509543B (zh) 2018-03-20 2018-03-20 一种基于Spark Streaming的流式RDF数据多关键词并行搜索方法

Publications (2)

Publication Number Publication Date
CN108509543A true CN108509543A (zh) 2018-09-07
CN108509543B CN108509543B (zh) 2021-11-02

Family

ID=63376912

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810227329.XA Active CN108509543B (zh) 2018-03-20 2018-03-20 一种基于Spark Streaming的流式RDF数据多关键词并行搜索方法

Country Status (1)

Country Link
CN (1) CN108509543B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710621A (zh) * 2019-01-16 2019-05-03 福州大学 结合语义类节点与边权重的关键词搜索ksanew算法
CN110009796A (zh) * 2019-04-11 2019-07-12 北京邮电大学 发票类别识别方法、装置、电子设备及可读存储介质
CN110222240A (zh) * 2019-05-24 2019-09-10 华中科技大学 一种基于摘要图的空间rdf数据关键词查询方法
CN111177476A (zh) * 2019-12-05 2020-05-19 北京百度网讯科技有限公司 数据查询方法、装置、电子设备及可读存储介质
CN111309979A (zh) * 2020-02-27 2020-06-19 桂林电子科技大学 一种基于邻居向量的RDF Top-k查询方法
CN112100209A (zh) * 2020-09-17 2020-12-18 湖南大学 一种基于查询计划的联邦型RDF系统Top-K查询与优化方法
CN113360518A (zh) * 2021-06-07 2021-09-07 哈尔滨工业大学 一种基于多源异构数据的层次本体构造方法
WO2022247869A1 (zh) * 2021-05-28 2022-12-01 华为技术有限公司 用于数据搜索的方法、装置及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110196852A1 (en) * 2010-02-05 2011-08-11 Microsoft Corporation Contextual queries
CN106528648A (zh) * 2016-10-14 2017-03-22 福州大学 结合Redis内存数据库的分布式RDF关键词近似搜索方法
CN106874425A (zh) * 2017-01-23 2017-06-20 福州大学 基于Storm的实时关键词近似搜索算法
CN106874426A (zh) * 2017-01-23 2017-06-20 福州大学 基于Storm的RDF流式数据关键词实时搜索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110196852A1 (en) * 2010-02-05 2011-08-11 Microsoft Corporation Contextual queries
CN106528648A (zh) * 2016-10-14 2017-03-22 福州大学 结合Redis内存数据库的分布式RDF关键词近似搜索方法
CN106874425A (zh) * 2017-01-23 2017-06-20 福州大学 基于Storm的实时关键词近似搜索算法
CN106874426A (zh) * 2017-01-23 2017-06-20 福州大学 基于Storm的RDF流式数据关键词实时搜索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李婷 等: "《基于背景风险的模糊投资组合选择模型研究》", 31 December 2016, 阳光出版社 *
陈远 等: ""分布式RDF关键词近似搜索方法"", 《中国科学技术大学学报》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710621A (zh) * 2019-01-16 2019-05-03 福州大学 结合语义类节点与边权重的关键词搜索ksanew算法
CN109710621B (zh) * 2019-01-16 2022-06-21 福州大学 结合语义类节点与边权重的关键词搜索ksanew方法
CN110009796A (zh) * 2019-04-11 2019-07-12 北京邮电大学 发票类别识别方法、装置、电子设备及可读存储介质
CN110222240B (zh) * 2019-05-24 2021-03-26 华中科技大学 一种基于摘要图的空间rdf数据关键词查询方法
CN110222240A (zh) * 2019-05-24 2019-09-10 华中科技大学 一种基于摘要图的空间rdf数据关键词查询方法
CN111177476A (zh) * 2019-12-05 2020-05-19 北京百度网讯科技有限公司 数据查询方法、装置、电子设备及可读存储介质
CN111177476B (zh) * 2019-12-05 2023-08-18 北京百度网讯科技有限公司 数据查询方法、装置、电子设备及可读存储介质
CN111309979A (zh) * 2020-02-27 2020-06-19 桂林电子科技大学 一种基于邻居向量的RDF Top-k查询方法
CN111309979B (zh) * 2020-02-27 2022-08-05 桂林电子科技大学 一种基于邻居向量的RDF Top-k查询方法
CN112100209A (zh) * 2020-09-17 2020-12-18 湖南大学 一种基于查询计划的联邦型RDF系统Top-K查询与优化方法
WO2022247869A1 (zh) * 2021-05-28 2022-12-01 华为技术有限公司 用于数据搜索的方法、装置及设备
CN113360518A (zh) * 2021-06-07 2021-09-07 哈尔滨工业大学 一种基于多源异构数据的层次本体构造方法
CN113360518B (zh) * 2021-06-07 2023-03-21 哈尔滨工业大学 一种基于多源异构数据的层次本体构造方法

Also Published As

Publication number Publication date
CN108509543B (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
CN108509543A (zh) 一种基于Spark Streaming的流式RDF数据多关键词并行搜索方法
Čebirić et al. Summarizing semantic graphs: a survey
CN109739849B (zh) 一种数据驱动的网络敏感信息挖掘与预警平台
CN110990638B (zh) 基于fpga-cpu异构环境的大规模数据查询加速装置及方法
Wang et al. Q2semantic: A lightweight keyword interface to semantic search
CN107291807B (zh) 一种基于图遍历的sparql查询优化方法
US20120136649A1 (en) Natural Language Interface
JP2015099586A (ja) データ集約のためのシステム、装置、プログラム、及び方法
CN106874425B (zh) 基于Storm的实时关键词近似搜索算法
CN106874426B (zh) 基于Storm的RDF流式数据关键词实时搜索方法
CN102087669A (zh) 基于语义关联的智能搜索引擎系统
CN107103032A (zh) 一种分布式环境下避免全局排序的海量数据分页查询方法
CN114218400A (zh) 基于语义的数据湖查询系统及方法
US20070271228A1 (en) Documentary search procedure in a distributed system
CN109783484A (zh) 基于知识图谱的数据服务平台的构建方法及系统
CN107256263A (zh) 互联网热点信息自动监测方法
CN115563313A (zh) 基于知识图谱的文献书籍语义检索系统
CN110032676B (zh) 一种基于谓词关联的sparql查询优化方法及系统
CN112800023B (zh) 基于语义分类的多模型数据分布式存储和分级查询方法
CN110413807A (zh) 一种基于内容语义元数据的图像查询方法与系统
Álvarez-García et al. Compact and efficient representation of general graph databases
Albahli et al. Rdf data management: A survey of rdbms-based approaches
Li et al. Research on storage method for fuzzy RDF graph based on Neo4j
Li et al. Answering why-not questions on top-k augmented spatial keyword queries
Yadav et al. Wavelet tree based hybrid geo-textual indexing technique for geographical search

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant