CN113282774A - 一种新型图数据库的存储内图划分方法 - Google Patents

一种新型图数据库的存储内图划分方法 Download PDF

Info

Publication number
CN113282774A
CN113282774A CN202110493912.7A CN202110493912A CN113282774A CN 113282774 A CN113282774 A CN 113282774A CN 202110493912 A CN202110493912 A CN 202110493912A CN 113282774 A CN113282774 A CN 113282774A
Authority
CN
China
Prior art keywords
graph
vertex
stored
data
vertexes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110493912.7A
Other languages
English (en)
Inventor
陈仁海
王浩
冯志勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Research Institute Of Tianjin University
Original Assignee
Shenzhen Research Institute Of Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Research Institute Of Tianjin University filed Critical Shenzhen Research Institute Of Tianjin University
Priority to CN202110493912.7A priority Critical patent/CN113282774A/zh
Publication of CN113282774A publication Critical patent/CN113282774A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种新型图数据库的存储内图划分方法,包括步骤:在进行图存储时,首先对目标图形基于大图中各顶点间的关系进行小图划分实现图形分区,然后将数据传输到SSD存储,使围绕目标中心顶点的相同深度的顶点的数据存储同一SSD页面中。本发明基于大图中各顶点间的关系进行小图划分,将围绕中心顶点的深度的顶点尽可能多地存储在同一闪存页面中,从而有效地减少了读取时间和要搜索的数据大小。

Description

一种新型图数据库的存储内图划分方法
技术领域
本发明涉及RDF数据储存技术领域,特别是涉及一种新型图数据库的存储 内图划分方法。
背景技术
随着计算机和网络技术的快速发展,信息系统的数量和规模越来越大,网 络数据正在以一种前所未有的速度被采集和存储,计算机系统需要对大规模的 数据进行存储和管理。资源描述框架(Resource Description Framework,RDF)作 为支持数据语义描述的一种统一标准的数据模型,在数据表示、数据交换及系 统框架支撑方面提供了很好的技术支撑。目前在电子商务、搜索引擎及社交网 络等应用中都得到了很好的应用。随着大规模格式的数据的产生,对大规模数 据的存储、查询及分析方法提出了新的挑战。
RDF在存储方法方面,面对呈现爆炸式海量数据的增长趋势,传统的关系 型数据库越来越难以支撑。传统的关系型数据库在存储和查询方面,无法跟上 当今数据的增长的步伐。于是许多研究提出了将RDF在本地按照图格式进行存 储。这些方法通常采用邻接表作为基本构建来存储和处理数据块。此外,通过 使用复杂索引,如gStore,BitMat和TripleBit或通过使用图探索的方法,如 Trinity.RDF。图储存系统作为非关系型数据库逐渐的超越了关系型数据库。这是 因为当今数据呈现出越来越强的非结构型和可变形性。这些都阻碍了传统关系 型数据库的发展。
但在传统的以顶点为中心的系统中,将数据存储在SSD上时,它被用作黑 匣子。图存储系统在划分图时是无组织的,但会以粗粒度方式将顶点分布到不 同的分区,而无需深入分析不同顶点之间的关系以及读取顶点数据的效率,,数 据可能存储在SSD的不同页面中。因此,访问无法有效利用SSD的特性和内部 并行性。当查询该顶点及其相邻顶点的某些数据时,需要读取多个页面,然后 在这些页面中查找数据并合并查询结果,这是非常低效的。
发明内容
本发明的目的是针对现有技术中存在的技术缺陷,而提供一种新型图数据 库的存储内图划分方法。
为实现本发明的目的所采用的技术方案是:
一种新型图数据库的存储内图划分方法,包括步骤如下:
在进行图存储时,首先对目标图形基于大图中各顶点间的关系进行小图划 分实现图形分区,使围绕目标中心顶点的相同深度的顶点的数据存储同一SSD 页面中,然后将数据传输到SSD存储在深度一致的同一SSD页面中。
优选的,所述对目标图形进行分区时,首先是区分边缘图,然后再进行其 它图的划分。
优选的,如果一个顶点的入度值为0,则将该顶点作为缘图的中心顶点进行 边缘图的区分。
优选的,完成边缘图划分后,设置选择顶点的深度值和出度值,将满足条 件的顶点选出并视为中心顶点保存;若已被其他顶点包含,则删除;
根据深度值及出度值划分图之后,计算形成的子图中包含的顶点数量;
选择子图中包含的顶点数量值大的顶点作为目标中心顶点进行图形划分分 区用于存储。
本发明基于大图中各顶点间的关系进行小图划分,将围绕中心顶点的深度d 的顶点尽可能多地存储在同一闪存页面中,从而有效地减少了读取时间和要搜 索的数据大小。
附图说明
图1为本发明提供的一种闪存页图;
图2为要存储划分的RDF图;
图3a、图3b、图3c、图3d为图2的RDF图划分示意图;
图4为本发明的图划分方法的流程图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处 所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
当人们使用图数据库进行查询时,人们普遍倾向于查询某个顶点及其相邻 顶点的数据。基于此,本发明提出的图划分存储的策略或方法如下:
以顶点为中心,使用深度来表示两个实体之间的距离,设置深度参数d,并 将围绕中心顶点的深度d的顶点尽可能多地存储在同一闪存页面中。
基于此,提出了如图1所示的存储策略,将顶点“Alex”及其相邻顶点“Lily” 和“James”的数据存储在同一SSD页面中(深度为1)。存储时,首先在主机上 对图形进行分区,然后将数据传输到SSD。
当查询一个顶点及其相邻的顶点数据时,首先遍历要查询的顶点的索引, 如果它在同一页面中,只需要读取一次,然后在当前页面中查询,那么不仅可 以减少读取时间,而且减少了要搜索的数据大小。
本发明中,除了深度参数d以外,另外设置参数i和o,它们分别代表顶点 的入度和出度,并影响中心顶点的选择。
其中,顶点的入度i和出度o的值由顶点和其他顶点之间的关系确定。如 图1所示,顶点“Alex”的出度为3,并且顶点的属性值不影响i和o的值,例 如性别gender和工作job。还值得注意的是,本发明中,RDF数据集本身不是 完整的图形,而是稀疏的图形。数据集的大部分内容都是边图。例如,如果 DBpedia在Wikipedia(维基百科)上提取了一个条目,则必须首先添加一些小 图,提取它,然后划分大图。
接下来,使用图2介绍的图划分策略,图中省略了顶点的属性值,并且仅 保留了与其他顶点的关系。第一步划分边缘图。如果顶点入度i=0,则可将该顶 点用作这些边缘图的中心顶点,如图3a中的划分P1和图3b划分P2所示,然 后可通过设置适当的出度o和深度d对边缘图进行划分。
由于RDF用于存储数据,因此图中的虚线表示分割后的顶点E和顶点C位 于不同的分区中,但C->E之间的关系仍存储在顶点C中且不会丢失。然后,需 要对其余大图进行分区。
选择目标中心顶点时,顶点的出度o和深度d值将明显影响划分结果。如 果出度o和深度d太小,将影响图的聚集,图划分效果不明显,且顶点聚集不 充分。如果出度o和深度d太大,数据大小可能会超过一页,这会降低性能。
因此,选择合适的深度d和出度o后,满足条件的顶点将依此被视为中心 顶点。将这些顶点保存在表格中。如果保存的中心顶点已经被其他顶点包含, 则将从表中将其删除。然后在划分图之后,计算子图中包含的顶点数量v。划分 图形时,优先选择顶点数量v值大的顶点作为中心顶点,即在同一页面中存储 尽可能多的相关数据。
如图3a-图3d所示,当深度d=1,出度o=5,vH=1,vF=4,vG=2时,选择F 作为中心顶点,子图将存储在同一页面中。如果选择“G”作为中心顶点,则仅 部分数据将存储在同一页面中,并且划分的结果显示在图3c中的划分P3中。最 后对其余图形进行划分,如图3d中的划分P4所示。
本发明基于RDF的图储存提出的新颖、高效的图划分策略,使尽可能多的 相关顶点存储在同一页面中,所以在读取页面内容时可以获得最多的顶点。该 图划分策略通过传统关系型数据库思想的启发,充分考虑了顶点间的关系,更 加合理高效的划分了大图中的每个顶点。
实验结果表明,本发明可有效的全面的减少读取时间和要搜索的数据大小。
本发明提出的基于图的RDF数据存储及查询方法,改善了数据存储及查询 效率,为数据的处理提供更好的系统和方法上的支撑,但粗糙的图划分也会带 来不小的弊端。
本发明的提出的新型RDF储存系统图划分策略,有效地减少了读取时间和 要搜索的数据大小,更加适合了RDF数据的储存及查询。
以上所述仅是本发明的优选实施方式,应当指出的是,对于本技术领域的 普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润 饰,这些改进和润饰也应视为本发明的保护范围。

Claims (4)

1.一种新型图数据库的存储内图划分方法,其特征在于,包括步骤如下:
在进行图存储时,首先对目标图形基于大图中各顶点间的关系进行小图划分实现图形分区,使围绕目标中心顶点的相同深度的顶点的数据存储同一SSD页面中,然后将数据传输到SSD存储在深度一致的同一SSD页面中。
2.根据权利要求1所述新型图数据库的存储内图划分方法,其特征在于,所述对目标图形进行分区时,首先是区分边缘图,然后再进行其它图的划分。
3.根据权利要求2所述新型图数据库的存储内图划分方法,其特征在于,如果一个顶点的入度值为0,则将该顶点作为缘图的中心顶点进行边缘图的区分。
4.根据权利要求4所述新型图数据库的存储内图划分方法,其特征在于,完成边缘图划分后,设置选择顶点的深度值和出度值,将满足条件的顶点选出并视为中心顶点保存;若已被其他顶点包含,则删除;
根据深度值及出度值划分图之后,计算形成的子图中包含的顶点数量;
选择子图中包含的顶点数量值大的顶点作为目标中心顶点进行图形划分分区用于存储。
CN202110493912.7A 2021-05-06 2021-05-06 一种新型图数据库的存储内图划分方法 Pending CN113282774A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110493912.7A CN113282774A (zh) 2021-05-06 2021-05-06 一种新型图数据库的存储内图划分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110493912.7A CN113282774A (zh) 2021-05-06 2021-05-06 一种新型图数据库的存储内图划分方法

Publications (1)

Publication Number Publication Date
CN113282774A true CN113282774A (zh) 2021-08-20

Family

ID=77278286

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110493912.7A Pending CN113282774A (zh) 2021-05-06 2021-05-06 一种新型图数据库的存储内图划分方法

Country Status (1)

Country Link
CN (1) CN113282774A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809249A (zh) * 2015-05-18 2015-07-29 北京嘀嘀无限科技发展有限公司 数据结构的处理方法和系统
CN109271560A (zh) * 2018-09-05 2019-01-25 东南大学 一种基于树模板的链接数据关键词查询方法
US20200183604A1 (en) * 2018-12-07 2020-06-11 Samsung Electronics Co., Ltd. Partitioning graph data for large scale graph processing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809249A (zh) * 2015-05-18 2015-07-29 北京嘀嘀无限科技发展有限公司 数据结构的处理方法和系统
CN109271560A (zh) * 2018-09-05 2019-01-25 东南大学 一种基于树模板的链接数据关键词查询方法
US20200183604A1 (en) * 2018-12-07 2020-06-11 Samsung Electronics Co., Ltd. Partitioning graph data for large scale graph processing

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GUOHUA YAN, ET AL: "GraphPage: RDF Graph in SSD Pages:Work-in-Progress", 《2020 INTERNATIONAL CONFERENCE ON HARDWARE/SOFTWARE CODESIGN AND SYSTEM SYNTHESIS (CODES+ISSS 2020)》 *

Similar Documents

Publication Publication Date Title
CN101916299B (zh) 一种基于文件系统的三维空间数据存储管理方法
CN102890722B (zh) 应用于时序历史数据库的索引方法
CN103646079A (zh) 一种用于图数据库搜索的分布式索引及其并行生成方法
CN104408163A (zh) 一种数据分级存储方法和装置
CN113157943A (zh) 面向大规模金融知识图谱的分布式存储及可视化查询处理方法
CN111813778B (zh) 一种面向大规模路网数据的近似关键字存储和查询方法
Min et al. A system framework for map air update navigation service
CN107273443B (zh) 一种基于大数据模型元数据的混合索引方法
Kocon et al. Point cloud indexing using Big Data technologies
CN106909623B (zh) 一种支持高效海量数据分析和检索的数据装置及数据存储方法
CN113282774A (zh) 一种新型图数据库的存储内图划分方法
CN115272601A (zh) 一种三维地质模型综合数据库构建方法
CN105786948A (zh) 一种基于gpu的olap系统
Agarwal et al. Advances in indexing for mobile objects
CN109213760A (zh) 非关系数据存储的高负载业务存储及检索方法
CN115510134A (zh) 面向图-关系混合存储数据库的数据快速装载方法及系统
CN114996270A (zh) 一种查询分页数据的方法和装置
CN113065035A (zh) 一种单机核外属性图计算方法
Zhao et al. Graph indexing for spatial data traversal in road map databases
Li et al. A Survey of Multi-Dimensional Indexes: Past and Future Trends
Demir et al. Efficient successor retrieval operations for aggregate query processing on clustered road networks
Tian et al. Tinba: Incremental partitioning for efficient trajectory analytics
CN115794938B (zh) 地理矢量线数据的可视化方法、装置和计算机设备
CN117540056B (zh) 数据查询的方法、装置、计算机设备和存储介质
WO2019024345A1 (zh) 基于带序兴趣区域的轨迹查询的匀速搜索扩展算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210820