CN110909111A - 基于知识图谱rdf数据特征的分布式存储与索引方法 - Google Patents

基于知识图谱rdf数据特征的分布式存储与索引方法 Download PDF

Info

Publication number
CN110909111A
CN110909111A CN201910982253.6A CN201910982253A CN110909111A CN 110909111 A CN110909111 A CN 110909111A CN 201910982253 A CN201910982253 A CN 201910982253A CN 110909111 A CN110909111 A CN 110909111A
Authority
CN
China
Prior art keywords
data
predicate
query
entity
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910982253.6A
Other languages
English (en)
Other versions
CN110909111B (zh
Inventor
王鑫
徐炜淇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201910982253.6A priority Critical patent/CN110909111B/zh
Publication of CN110909111A publication Critical patent/CN110909111A/zh
Application granted granted Critical
Publication of CN110909111B publication Critical patent/CN110909111B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及分布式图存储领域,为解决单机存储的容量小、维护代价高、执行效率低等问题,提升多种类型查询的执行效率。本发明,基于知识图谱RDF数据特征的分布式存储与索引方法,步骤如下:对于存储数据进行处理,统计数据信息以及挖掘数据集中的关联信息;通过步骤1)中的数据信息,在三元组类之间构建有效实体聚集索引;基于统计信息对每个实体类进行本体划分处理,增加实体类所包含谓语聚合度,建立谓语指向索引;对数据集进行连接操作,保存连接特指类,以提高出现频率极高的星型查询效率;基于前述步骤将数据集划分级别,保证数据按照定义级别降序存放;对于输入查询,引入查询优化。本发明主要应用于分布式图存储场合。

Description

基于知识图谱RDF数据特征的分布式存储与索引方法
技术领域
本发明涉及分布式图存储领域,具体来说,涉及面向大规模RDF知识图谱的存储领域。
背景技术
RDF(Resource Description Framework),资源描述框架,一种用于描述Web资源的标记语言,也可以说是语义Web中表示和交换机器可理解信息的标准数据模型。RDF用主语、谓词、宾语的三元组来描述一个数据的元数据,即为(s,p,o),其中s是主语subject,p是谓语predicate,o是宾语object。RDF数据因为有简单、开放性和扩展性等特点,被诸多领域所使用,并随着网络的流行,使得RDF数据规模的不断增加,关于RDF数据高效的存储和查询已成为现在研究的热点。RDF图为RDF数据最直观的表现形式。
知识图谱是人工智能中的重要的一部分,同时也是符号主义发展的最新成果。它的本质上是基于图的语义网络,表示实体和实体之间的关系。为了更好的管理知识图谱,语义Web领域推出存储RDF数据库的三元组库。
目前已有的涉及分布式存储与索引的方案包括如下:
Julian Dolby等人提出了一种名为DB2RDF的存储模式。首先采用图着色技术对数据进行处理,将处理后的数据存储到所定义的DHP(Direct Primary Hash,主哈希)表以及对应的RPH(Reverse Primary Hash,反转主哈希)表。在DPH表中数据未溢出的情况下,每行存放一个主语Subject对应的所有信息,即谓语1、宾语1,...,谓语n、宾语n。针对存在同一谓语对应多宾语的情况,引入了DS(Direct Secondary Hash,二级哈希)表,以及相对应的RS(Reverse Second Hash,反转二级哈希)表。此存储模式在提高了行维度和列维度的灵活性的同时,添加了SPARQL查询优化的操作,优化了查询的性能。
Alexander
Figure BDA0002235576140000011
等人定义了一种名为ExtVP的存储思想。将RDF数据垂直划分到VP(垂直划分)表,针对数据集中存在的S-S(Subject-Subject,主语-主语)连接,S-O(Subject-Object,主语-宾语)连接以及O-S(Object-Subject,宾语-主语)连接,将连接结果存放到ExtVP(扩展垂直划分)表中。引入SF(selectivity factor,选择因子)的定义,在查询时采取连接、重排序的操作,使得SF值最优(最小)。此方案对数据库容量有一定的要求。
Thomas Neumann等人提出Characteristic Set的一种思想,是针对星型查询的高精度的基数预估方法,提高存在关系的三元组之间的关联度。引入特征集SC(Characteristic Set,特征集)的概念,对于低频出现的特征集做分解或合并的操作。有效地解决连接问题,对查询计划产生积极的影响。
Adina Crainiceanu等人编写了名为Apache Rya的RDF数据管理系统,底层数据库为基于Bigtable的Key-Value(键值对)设计的列存储数据库Apache Accumulo,该系统的存储方案为将数据分别存放至SPO(Subject Predicate Object,主语谓语宾语)表,POS(Predicate Object Subject,谓语宾语主语)表,OSP(Object Subject Predicate,宾语主语谓语)表,有效使用Apache Accumulo中Row ID(键),使用了范围扫描、语义统计、并行连接、时间限制的方法,增加数据检索的速度,提高系统的数据处理能力。
其它的存储方案,有适应于Web服务器的RDF关联数据的分布式存储方案LD-Store;有针对原生XML数据库的存储方案XN-Store;有基于内存的存储技术,支持存储和查询RDF、RDFS的通用架构Sesame;基于文件系统的存储技术,有为RDF语句提供了可伸缩的、事务安全的存储基础设施,并用于分析表达性查询的Kowari和SystemⅡ。另外比较典型的存储方案是六重索引,其策略为经典地“用空间的代价换取时间的缩短”,将三元组全排序,6种方式对应于6张存储表,此方案以RDF-3X为代表,优点是减缓了单张表自连接的问题,提高了部分知识图谱查询的效率。但是需要花费6倍的存储空间开销、索引维护等代价。
根据调研,单机版数据存储在稳定性、可靠性、技术支持等方面有很大的优势,而且认知度高,易学习。但是随着数据程指数级增长,分布式数据数据的优势便体现出来:首先,分布式数据存储扩展性高,突破了单机存储容量的限制,增大了存储规模。其次,分布式数据存储易于管理和控制,降低了系统维护的代价;分布式数据存储,有利于增加线性执行,从而提升了数据操作的效率。
目前相关分布式的存储与索引方案大多为单方面地通过巨大地存储开销提升综合效率,或只是针对提升某一特定查询类型设计,没有提升全部查询类型的查询效率。在此我们提出了一种在空间消耗适中的基础上,不仅适用于星型查询,也同样适用于链式查询,同时对雪花型和复杂型查询均有一定加速效果的基于知识图谱RDF数据特征的分布式存储与索引方案。
发明内容
为克服现有技术的不足,本发明旨在解决单机存储的容量小、维护代价高、执行效率低等问题,充分发挥分布式存储容量大、易维护、可增加线性执行提升机器性能等优势,在保证存储开销适中的情况下,通过数据挖掘、索引构建等策略,提升多种类型查询的执行效率。为此,本发明采取的技术方案是,基于知识图谱RDF数据特征的分布式存储与索引方法,步骤如下:
1)对于存储数据进行处理,统计数据信息以及挖掘数据集中的关联信息;
2)通过步骤1)中的数据信息,在三元组类之间构建有效实体聚集索引;
3)基于统计信息对每个实体类进行本体划分处理,增加实体类所包含谓语聚合度,建立谓语指向索引;
4)对数据集进行连接操作,保存连接特指类,以提高出现频率极高的星型查询效率;
5)基于前述步骤将数据集划分级别,保证数据按照定义级别降序存放;
6)对于输入查询,引入查询优化。
上述的步骤1)中,得到RDF三元组的有穷集合RDF图G,用|G|表示G中RDF三元组的个数;遍历数据集得到实体类C(Sn),挖掘实体类之间存在的连接关系,统计实体类中所包含的谓语Pn。其中Sn为第n个三元组的主语,Pn为其谓语,On为宾语,|Sn|是包含主语Sn三元组的数量;Sub(G)表示G中主语的集合,Pred(G)表示G中谓语的集合,Obj(G)表示G中宾语的集合,C(Sn)表示主语S所属的主语类。
上述步骤2)使用步骤1)中提取信息,在减小索引开销的基础上,通过
2.1统计实体连接信息生成数据集关系有向图;
2.2基于数据集关系有向图构建一条最长路径R;
2.3基于边的权重和指向,向路径R中添加有向边和点;
2.4重复步骤2.3,直至没有剩余边或点;
2.5以完整路径R为基准构建实体聚集索引;
构建一条覆盖全部连接信息的索引,即使得包含不同实体类的三元组之间保持最优的连接关系。
上述步骤3)中本体划分是对实体类中的谓语进行操作处理,在步骤1)中使实体类程有序状态的基础上,对实体类内部谓语进行操作,划分谓语为谓语特指类C(P_Sn)和谓语公共类C(P_S),谓语特指类C(P_Sn)即仅修饰以Sn为主语的实体的谓语集合,谓语公共类C(P_S)即同时可修饰不同主语类实体的谓语,为了体现实体类及其内部数据的有序状态,引入级别的定义L[Pn],提取步骤1)中的谓语建立谓语索引,指向所包含此谓语的实体类,步骤2)和3)确保数据集整体呈现有序状态。
上述步骤4)是针对查询出现频极高的星型查询所设计,对数据集进行S-S连接操作,去除连接公共类JOIN(P_S),仅保留连接特指类JOIN(P_Sn),同时使用级别的定义。
上述步骤5)是对步骤1)至4)做的整合,将数据集处理、分类、赋级后呈其有序状态后,存入数据库。
上述步骤6)是在基于步骤5)使数据集呈有序状态的基础上,使用统计信息,对输入的查询做优化处理,通过索引缩短遍历范围,增加查询指向性,并使查询执行与数据集有序存放的状态相适应,达到提高查询效率的目的。
本发明的特点及有益效果是:
本发明对分布式存储索引和RDF知识图谱管理进行了研究,报告了目前流行的RDF知识图谱的分布式存储与索引现状,提出了一种基于知识图谱RDF数据特征的分布式存储与索引方案。通过隐式关系挖掘构建索引、本体划分、连接分类处理和查询优化等方法统计并挖掘数据之间的关系,加强数据的关联度,以此为基础建立索引结构,缩短数据检索的范围,同时在数据库内部使得存储数据合理存放,从而提高RDF数据管理系统的综合性能的目的。在分布式系统上,以合成数据LUBM数据、合成数据集WatDiv数据、真实数据集DBpedia数据为测试数据集进行试验验证,证明此方案的真实可行性,能够加快数据查询进程。
附图说明:
图1是本发明大规模RDF知识图谱的分布式存储与索引基本方案的系统架构图。
图2是基本方案的整体流程图。
图3是本发明中实体类聚集索引构建的流程图。
图4是本发明中本体划分处理的流程图。
图5是本发明中分类连接处理的流程图。
图6是本发明中查询优化的流程图。
图7是本发明中测试实验所用的数据集。
图8是本发明中在合成数据集LUBM上进行对比实验的不同查询所得的时间对比图。
图9是本发明中在合成数据集WatDiv上进行对比实验的不同查询所得的时间对比图。
图10是本发明中在真实数据集DBpedia上进行对比实验的不同查询所得的时间对比图。
具体实施方式
本发明采用的基本技术方案是:
7)对于存储数据进行处理,统计数据信息以及挖掘数据集中的关联信息;
8)通过步骤1)中的数据信息,在三元组类之间构建有效实体聚集索引;
9)基于统计信息对每个实体类进行本体划分处理,增加实体类所包含谓语聚合度,建立谓语指向索引;
10)对数据集进行S-S连接操作,保存连接特指类,以提高出现频率极高的星型查询效率;
11)基于前述步骤将数据集划分级别,保证数据按照定义级别降序存放;
12)对于输入查询,引入查询优化,以对应上述步骤;
上述的步骤1)中,得到RDF三元组的有穷集合RDF图G,用|G|表示G中RDF三元组的个数;遍历数据集得到实体类C(Sn),挖掘实体类之间存在的连接关系,统计实体类中所包含的谓语Pn。其中Sn为第n个三元组的主语,Pn为其谓语,On为宾语,|Sn|是包含主语Sn三元组的数量;Sub(G)表示G中主语的集合,Pred(G)表示G中谓语的集合,Obj(G)表示G中宾语的集合,C(Sn)表示主语S所属的主语类,如以“User1”“User2”为主语的三元组属于实体类C(User)。
上述步骤2)使用步骤1)中提取信息,在减小索引开销的基础上,通过
2.1统计实体连接信息生成数据集关系有向图
2.2基于数据集关系有向图构建一条最长路径R
2.3基于边的权重和指向,向路径R中添加有向边和点
2.4重复步骤2.3,直至没有剩余边或点
2.5以完整路径R为基准构建实体聚集索引
构建一条覆盖全部连接信息的索引,即使得包含不同实体类的三元组之间保持最优的连接关系。步骤2)有利于提升链式查询的效率。
上述步骤3)中本体划分是对实体类中的谓语进行操作处理,在步骤1)中使实体类程有序状态的基础上,对实体类内部谓语进行操作,划分谓语为谓语特指类C(P_Sn)和谓语公共类C(P_S)。谓语特指类C(P_Sn)即仅修饰以Sn为主语的实体的谓语集合,谓语公共类C(P_S)即同时可修饰不同主语类实体的谓语。为了体现实体类及其内部数据的有序状态,引入级别的定义L[Pn]。提取步骤1)中的谓语建立谓语索引,指向所包含此谓语的实体类。步骤2)和3)确保数据集整体呈现有序状态。
上述步骤4)是针对查询出现频极高的星型查询所设计,对数据集进行S-S连接操作,去除连接公共类JOIN(P_S),仅保留连接特指类JOIN(P_Sn),同时使用级别的定义。
上述步骤5)是对步骤1)至4)做的整合,将数据集处理、分类、赋级后呈其有序状态后,存入数据库。
上述步骤6)是在基于步骤5)使数据集呈有序状态的基础上,使用统计信息,对输入的查询做优化处理,通过索引缩短遍历范围,增加查询指向性,并使查询执行与数据集有序存放的状态相适应,达到提高查询效率的目的。
下面结合附图对本发明作进一步详细说明。
本发明基于知识图谱RDF数据特征的分布式存储与索引方案的整体流程分为两步:(1)数据存储与索引构建;(2)查询优化。方案架构如图1所示,方案流程图如图2所示,查询优化的基本流程如图6所示。
参照图3,为遍历数据集、挖掘实体类之间的连接关系构建实体索引的算法。设U为HTTPURI的集合,L为字面值的集合.RDF三元组是形如
<s,p,o>∈U×U×U∪L
的三元组,其中s称为主语,p称为谓语,o称为宾语,主语、谓语和宾语统称为RDF项。RDF图G是RDF三元组的有穷集合.用|G|表示G中RDF三元组的个数.Sn为第n个三元组的主语,Pn为其谓语,On为宾语,|Sn|是包含主语Sn三元组的数量;Sub(G)表示G中主语的集合,Pred(G)表示G中谓语的集合,Obj(G)表示G中宾语的集合。C(Sn)表示主语Sn所属的实体类,如以“User1”“User2”为主语的三元组同属于实体类C(User)。
算法1.基于挖掘连接关系构建实体索引.
input:RDF三元组数据集.
output:实体类索引IndexEntity.
Figure BDA0002235576140000051
参见图4,本发明中基本方案中,本体划分需引进定义C(P_Sn)为实体用C(Sn)所代指的谓语特指类,它表示修饰主语Sn的谓语集合,C(P_S)表示公共类谓语;L[Pn]表示谓语Pn的级别,以此类推。
算法具体步骤如下:
算法2.本体划分处理.
input:有序RDF三元组RDF_S.
output:本体划分后的RDF三元组数据集New_RDF.
Figure BDA0002235576140000061
参见图5,图5为连接分类处理的流程图,在此引进定义Tn∈G为G中第n条三元组;JOIN(P_Sn)为实体类C(P_Sn)谓语连接组合特指类,它表示修饰Sn的谓语的连接组合;Pij_J(Sn)是连接组合特指类中的谓语为Pi和Pj且两者共同修饰实体C(P_Sn)的一种组合;|JOIN(S)|为公共类数量;L[JOIN(P_S)]表示公共类级别,以此类推。
图5所对应算法如算法3所示。
算法3.连接分类处理.
input:RDF三元组数据集.
output:连接分类预处理后的RDF三元组数据集JOIN_RDF.
Figure BDA0002235576140000062
Figure BDA0002235576140000071
以上为数据存储和索引部分。为进一步提升以不同三元组部分为查询关键词的多泪查询,我们将在数据库中建立SPO表和POS表(OSP表因为实际使用率太低所以无需建立),表中的存放次序分别为主语S,谓语P,宾语O和谓语P,宾语O,主语S。SPO表对应?S?P ?O,S P?O,S ?P O类的查询,存储以及查询关键字以主语S为主,查询进行时根据主语S类推到谓语P,宾语O。POS表对应?S P ?O,?S P O类的查询,存储以及查询关键字以谓语P为主,根据谓语P类推到宾语O,主语S。将处理后的数据集分别存放至两表中。
上述图6为查询优化流程图,与上述图2构成本发明的总体方案。设SPARQL_line(n)表示SPARQL查询中第n条查询语句,Pij_line(Sn)表示谓语为Pi和Pj的且目标主语为Sn优化连接组合后的查询语句;L[n]表示第n条查询的查询级别;SC(n)表示n条查询所属的查询类别,L[SC(l)]表示查询类别的级别;O_line(n)表示第n条查询中存在的宾语实体;|P_line(n)|表示第n条查询出现的谓语P对应三元组的数量,以此类推。
算法4.查询优化算法.
input:SPARQL_line(n)
output:最优执行顺序new_SPARQL_line(n)
Figure BDA0002235576140000072
Figure BDA0002235576140000081
在算法4中索引匹配对应的算法为算法5。
算法5.索引匹配.
input:查询语句SPARQLs
output:基于索引匹配后的检索范围
Figure BDA0002235576140000082
对于查询优化,首先提取查询中出现的关键词,将此指向谓语索引,得到所包含的实体类。再通过实体类索引得所属数据库分段,以此作为检索范围。随后,基于预定义的级别确定查询的执行顺序。查询优化的目的是为了与数据处理相对应,匹配数据库中数据呈有序存放的状态,确保顺序遍历且缩小遍历范围的基础上得到查询结果。
对于本发明实验所用的数据集和查询,如图7所示。本发明在分布式系统下,基于合成数据集LUBM,自定义生成的合成数据集WatDiv以及真实数据集DBpedia测试。
下面简要介绍图7、图8、图9和图10中的实验环境。本实验平台使用的是腾讯云集群,包括8个节点,每个节点安装的是四核处理器,64位的CentOS 7.3 Linux操作系统,其内存大小为16G。节点间通信使用1000Mbps以太网。实验平台所用集群的所有节点均使用Hadoop 2.7.3,Spark 2.1.0。实验实现的系统为Apache Rya,版本号为2.0,与Rya相对应的配置:Apache Accumulo 1.9.2,Zookeeper 3.4.12。
参见图8,本发明在LUBM数据集LUBM10,LUBM100进行了查询处理实验。查询测试的标准为LUBM标准查询集。
参见图9,本发明在不同规模的合成数据集WatDiv10,WatDiv100上进行了查询实验。查询测试标准为WatDiv标准查询集。
参见图10,本发明在真实数据集DBpdedia上进行了查询实验。其中,查询1-3为链式查询,查询4-6为星型查询,查询7-8为雪花型查询,查询9-10为复杂型查询。

Claims (7)

1.一种基于知识图谱RDF数据特征的分布式存储与索引方法,其特征是,步骤如下:
1)对于存储数据进行处理,统计数据信息以及挖掘数据集中的关联信息;
2)通过步骤1)中的数据信息,在三元组类之间构建有效实体聚集索引;
3)基于统计信息对每个实体类进行本体划分处理,增加实体类所包含谓语聚合度,建立谓语指向索引;
4)对数据集进行连接操作,保存连接特指类,以提高出现频率极高的星型查询效率;
5)基于前述步骤将数据集划分级别,保证数据按照定义级别降序存放;
6)对于输入查询,引入查询优化。
2.如权利要求1所述的基于知识图谱RDF数据特征的分布式存储与索引方法,其特征是,上述的步骤1)中,得到RDF三元组的有穷集合RDF图G,用|G|表示G中RDF三元组的个数;遍历数据集得到实体类C(Sn),挖掘实体类之间存在的连接关系,统计实体类中所包含的谓语Pn。其中Sn为第n个三元组的主语,Pn为其谓语,On为宾语,|Sn|是包含主语Sn三元组的数量;Sub(G)表示G中主语的集合,Pred(G)表示G中谓语的集合,Obj(G)表示G中宾语的集合,C(Sn)表示主语S所属的主语类。
3.如权利要求1所述的基于知识图谱RDF数据特征的分布式存储与索引方法,其特征是,上述步骤2)使用步骤1)中提取信息,在减小索引开销的基础上,通过
2.1统计实体连接信息生成数据集关系有向图;
2.2基于数据集关系有向图构建一条最长路径R;
2.3基于边的权重和指向,向路径R中添加有向边和点;
2.4重复步骤2.3,直至没有剩余边或点;
2.5以完整路径R为基准构建实体聚集索引;
构建一条覆盖全部连接信息的索引,即使得包含不同实体类的三元组之间保持最优的连接关系。
4.如权利要求1所述的基于知识图谱RDF数据特征的分布式存储与索引方法,其特征是,上述步骤3)中本体划分是对实体类中的谓语进行操作处理,在步骤1)中使实体类程有序状态的基础上,对实体类内部谓语进行操作,划分谓语为谓语特指类C(P_Sn)和谓语公共类C(P_S),谓语特指类C(P_Sn)即仅修饰以Sn为主语的实体的谓语集合,谓语公共类C(P_S)即同时可修饰不同主语类实体的谓语,为了体现实体类及其内部数据的有序状态,引入级别的定义L[Pn],提取步骤1)中的谓语建立谓语索引,指向所包含此谓语的实体类,步骤2)和3)确保数据集整体呈现有序状态。
5.如权利要求1所述的基于知识图谱RDF数据特征的分布式存储与索引方法,其特征是,上述步骤4)是针对查询出现频极高的星型查询所设计,对数据集进行S-S连接操作,去除连接公共类JOIN(P_S),仅保留连接特指类JOIN(P_Sn),同时使用级别的定义。
6.如权利要求1所述的基于知识图谱RDF数据特征的分布式存储与索引方法,其特征是,上述步骤5)是对步骤1)至4)做的整合,将数据集处理、分类、赋级后呈其有序状态后,存入数据库。
7.如权利要求1所述的基于知识图谱RDF数据特征的分布式存储与索引方法,其特征是,上述步骤6)是在基于步骤5)使数据集呈有序状态的基础上,使用统计信息,对输入的查询做优化处理,通过索引缩短遍历范围,增加查询指向性,并使查询执行与数据集有序存放的状态相适应,达到提高查询效率的目的。
CN201910982253.6A 2019-10-16 2019-10-16 基于知识图谱rdf数据特征的分布式存储与索引方法 Active CN110909111B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910982253.6A CN110909111B (zh) 2019-10-16 2019-10-16 基于知识图谱rdf数据特征的分布式存储与索引方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910982253.6A CN110909111B (zh) 2019-10-16 2019-10-16 基于知识图谱rdf数据特征的分布式存储与索引方法

Publications (2)

Publication Number Publication Date
CN110909111A true CN110909111A (zh) 2020-03-24
CN110909111B CN110909111B (zh) 2023-07-14

Family

ID=69815689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910982253.6A Active CN110909111B (zh) 2019-10-16 2019-10-16 基于知识图谱rdf数据特征的分布式存储与索引方法

Country Status (1)

Country Link
CN (1) CN110909111B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112148830A (zh) * 2020-08-28 2020-12-29 中国电子科技集团公司第二十八研究所 一种基于最大区域网格的语义数据存储与检索的方法及装置
CN112256927A (zh) * 2020-10-21 2021-01-22 网易(杭州)网络有限公司 基于属性图的知识图谱数据处理方法和装置
CN112487015A (zh) * 2020-11-30 2021-03-12 河海大学 基于增量重划分的分布式rdf系统及其查询优化方法
CN112732933A (zh) * 2021-01-08 2021-04-30 中国电子科技集团公司第二十八研究所 一种海量知识图谱分布式管理与查询方法
CN113094449A (zh) * 2021-04-09 2021-07-09 天津大学 基于分布式键值库的大规模知识图谱存储方案
CN114297224A (zh) * 2021-12-22 2022-04-08 重庆邮电大学 一种基于rdf的异构数据集成与查询系统及方法
CN115438141A (zh) * 2022-11-08 2022-12-06 智慧眼科技股份有限公司 一种基于知识图谱模型的信息检索方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778277A (zh) * 2015-04-30 2015-07-15 福州大学 一种基于Redis的RDF数据分布式存储和查询方法
US20160224637A1 (en) * 2013-11-25 2016-08-04 Ut Battelle, Llc Processing associations in knowledge graphs
CN106844445A (zh) * 2016-12-16 2017-06-13 天津大学 基于语义的资源描述框架rdf图划分方法
CN107247738A (zh) * 2017-05-10 2017-10-13 浙江大学 一种基于spark的大规模知识图谱语义查询方法
CN108520035A (zh) * 2018-03-29 2018-09-11 天津大学 基于星形分解的sparql基本图模式查询处理方法
CN108959613A (zh) * 2018-07-17 2018-12-07 杭州电子科技大学 一种面向rdf知识图谱的语义近似查询方法
CN109325029A (zh) * 2018-08-30 2019-02-12 天津大学 基于稀疏矩阵的rdf数据存储和查询方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160224637A1 (en) * 2013-11-25 2016-08-04 Ut Battelle, Llc Processing associations in knowledge graphs
CN104778277A (zh) * 2015-04-30 2015-07-15 福州大学 一种基于Redis的RDF数据分布式存储和查询方法
CN106844445A (zh) * 2016-12-16 2017-06-13 天津大学 基于语义的资源描述框架rdf图划分方法
CN107247738A (zh) * 2017-05-10 2017-10-13 浙江大学 一种基于spark的大规模知识图谱语义查询方法
CN108520035A (zh) * 2018-03-29 2018-09-11 天津大学 基于星形分解的sparql基本图模式查询处理方法
CN108959613A (zh) * 2018-07-17 2018-12-07 杭州电子科技大学 一种面向rdf知识图谱的语义近似查询方法
CN109325029A (zh) * 2018-08-30 2019-02-12 天津大学 基于稀疏矩阵的rdf数据存储和查询方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王鑫,徐强等: ""大规模RDF图数据上高效率分布式查询处理"", 《软件学报》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112148830A (zh) * 2020-08-28 2020-12-29 中国电子科技集团公司第二十八研究所 一种基于最大区域网格的语义数据存储与检索的方法及装置
CN112256927A (zh) * 2020-10-21 2021-01-22 网易(杭州)网络有限公司 基于属性图的知识图谱数据处理方法和装置
CN112256927B (zh) * 2020-10-21 2024-06-04 网易(杭州)网络有限公司 基于属性图的知识图谱数据处理方法和装置
CN112487015A (zh) * 2020-11-30 2021-03-12 河海大学 基于增量重划分的分布式rdf系统及其查询优化方法
CN112487015B (zh) * 2020-11-30 2022-10-14 河海大学 基于增量重划分的分布式rdf系统及其查询优化方法
CN112732933A (zh) * 2021-01-08 2021-04-30 中国电子科技集团公司第二十八研究所 一种海量知识图谱分布式管理与查询方法
CN113094449A (zh) * 2021-04-09 2021-07-09 天津大学 基于分布式键值库的大规模知识图谱存储方案
CN113094449B (zh) * 2021-04-09 2023-04-18 天津大学 基于分布式键值库的大规模知识图谱存储方法
CN114297224A (zh) * 2021-12-22 2022-04-08 重庆邮电大学 一种基于rdf的异构数据集成与查询系统及方法
CN115438141A (zh) * 2022-11-08 2022-12-06 智慧眼科技股份有限公司 一种基于知识图谱模型的信息检索方法
CN115438141B (zh) * 2022-11-08 2023-03-24 智慧眼科技股份有限公司 一种基于知识图谱模型的信息检索方法

Also Published As

Publication number Publication date
CN110909111B (zh) 2023-07-14

Similar Documents

Publication Publication Date Title
CN110909111A (zh) 基于知识图谱rdf数据特征的分布式存储与索引方法
CN107291807B (zh) 一种基于图遍历的sparql查询优化方法
US11334548B2 (en) Index sharding
US11416477B2 (en) Systems and methods for database analysis
CN103116625A (zh) 一种基于Hadoop的海量RDF数据分布式查询处理方法
US11836136B2 (en) Distributed pseudo-random subset generation
US11487668B2 (en) Approximate unique count
US11809468B2 (en) Phrase indexing
Zou et al. Survey on learnable databases: A machine learning perspective
US20230401210A1 (en) Just-In-Time Injection In A Distributed Database
Wang et al. Association rules mining in parallel conditional tree based on grid computing inspired partition algorithm
Li et al. An improved distributed query for large-scale RDF data
Zheng et al. User preference-based data partitioning top-k skyline query processing algorithm
Ravindra et al. To nest or not to nest, when and how much: Representing intermediate results of graph pattern queries in mapreduce based processing
Xu et al. What-if query processing policy for big data in OLAP system
Jia et al. QRDF: An efficient RDF graph processing system for fast query
Das et al. Challenges and approaches for large graph analysis using map/reduce paradigm
Wang et al. RDF Multi-query optimization algorithm based on triple pattern reordering
Zhu et al. Hydb: Access optimization for data-intensive service
Priadarsini et al. Distributed Inference Approach on Massive datasets using MapReduce
US20220358129A1 (en) Visualization Data Reuse In A Data Analysis System
Wu et al. High-utility pattern mining in hadoop environments
Yansong et al. Optimal design of hadoop intrusion detection system based on neural network boosting algorithms
Lehmann et al. Distributed Knowledge Graph Processing in SANSA
Basher Optimization Techniques for Graph Databases: Challenges and Approaches

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant