CN113722320A

CN113722320A - 一种基于并行的图数据索引的持久化方法

Info

Publication number: CN113722320A
Application number: CN202110947717.7A
Authority: CN
Inventors: 秦小麟; 迟贺宇; 朱润泽; 李瑭; 费珂; 梁吉
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2021-08-18
Filing date: 2021-08-18
Publication date: 2021-11-30

Abstract

本发明公开了一种基于并行的图数据索引的持久化方法，包括以下步骤：(1)检测硬盘指定位置是否存在索引文件，如果不存在索引文件将重新创建一个空的索引文件；如果存在索引文件，读取该索引文件并进行索引的重构；(2)计算内存连续可用空间的大小以及索引结构所占空间的大小，并初始化索引结构；(3)采用内存映射方法开辟一块连续的内存，初始化索引头，将已存在的索引文件映射入内存；(4)向计算机系统申请多个线程，通过多线程处理，完成索引结构的持久化。本发明实现了图数据查询索引的并行持久化方法，提高了索引持久化的效率，同时本发明适用于多种多路查询树，具有良好的扩展性。

Description

一种基于并行的图数据索引的持久化方法

技术领域

本发明涉及图数据索引的持久化方法，尤其涉及一种基于并行的图数据索引的持久化方法。

背景技术

随着数据库技术的发展和成熟，以及互联网通讯的应用及其衍生软件的发展，数据的存储量也变得越来越多。社交网络分析、Web语义分析、生物信息网络分析以及交通导航等新兴应用也在快速增长，不同领域出现了规模庞大、内部结构复杂、查询需求多样的大图数据。在对这些图数据进行查询时，直接进行全局搜索会导致大量的时间开销，而构建一个合适的索引结构，存储图数据的相关信息，通过索引中相关的辅助信息，即可提高查询图数据的效率。

目前，许多关于图数据索引的技术被提出，在各种各样的场景下也有着高效的索引结构，这也导致索引结构的主要功能各不相同，有些索引在预处理阶段要计算强连通分量，有些则是记录下顶点之间的关系，这也就导致了一些问题。如当主机的硬件设备差距过大时，内存容量一般的主机将无法容纳空间占用较大的索引结构，限于内存空间的问题，索引技术存在着空间受限的特点。当遭遇断电等不可避免地自然灾害时，内存的不稳定性会导致索引丢失，使得存在内存的索引具有不稳定性的特点。同时，在计算机进行重启、软件进行重启时，内存会自动清理、回收，存在于内存的索引结构会一并丢失，使得内存的索引具有不可重用性的特点。

内存容量相对于硬盘等外存设备往往差距较大，因此当索引结构占用空间较大时，将索引结构置于外存中是一种有效的解决方案，可以保证索引结构不受空间限制，即使数据规模增大，将一部分索引存放在外存就能够缓解内存的压力。由于内存的易失性，使得遭遇不可避免地自然灾害时由于断电导致数据容易丢失，将数据结构持久化，在遇到不可控的情况时，才不会因内存的易失性而造成财产损失，而在后续进行索引结构重构，也不用重新建立索引，从现存的索引文件中直接读取索引结构，节省了构建索引结构的时间，同时保证了数据结构的完整性。

B树作为一种基于二分法的策略提高数据查找速度的常见索引结构，由于其能够充分利用磁盘分块存储的原理所带来的优势，和与它相似的B+树经常用作数据库查询索引。同时，R树作为树状数据结构，与上述索引同为多路查找树，在搜索的过程中有着许多相似点，所以对其中一个索引成功的进行并行持久化，其他的索引也能够进行并行持久化。随着计算机硬件技术的发展，越来越多的企业级服务器选择多CPU的计算机，现有的主存索引技术均是单核心串行的技术，并不能适用并行计算的时代需求，对于多核心高性能服务器而言，这种技术会造成极大的计算资源浪费。

发明内容

发明目的：本发明的目的是提供一种能够实现主存索引持久化适用多核并行系统的基于并行的图数据索引的持久化方法。

技术方案：本发明的图数据索引的持久化方法，包括以下步骤：

(1)检测硬盘指定位置是否存在索引文件，如果不存在索引文件将重新创建一个空的索引文件；如果存在索引文件，读取该索引文件并进行索引的重构；

(2)计算内存连续可用空间的大小以及索引结构所占空间的大小，并初始化索引结构；

(3)采用内存映射方法开辟一块连续的内存，初始化索引头，将已存在的索引文件映射入内存；

(4)向计算机系统申请多个线程，通过多线程处理，完成索引结构的持久化。

进一步，所述步骤(1)中，实现索引的重构步骤如下：

(11)计算内存连续可用空间的大小，采用内存映射方法，将索引文件映射到连续的内存区域中；

(12)在映射内存中读取索引文件的索引头，获取索引结构相关信息，包括：索引大小，叶子节点链表头和叶子节点链表尾的偏移量，以及根节点信息，并初始化索引结构；

(13)根据索引文件内容，进行索引重构。

进一步，所述步骤(13)中，根据索引文件中存放的节点类型，分别进行重构：

(131)叶子节点：读取叶子节点的两个子指针的偏移量和叶子节点的键值，将偏移量与索引头地址相加完成叶子节点的重构；

(132)中间节点：读取中间节点两个子指针的偏移量和中间节点的键值信息，将偏移量与索引头地址相加完成叶子节点的重构。

进一步，所述步骤(2)中，计算索引结构所占空间的大小的步骤如下：

(21)计算叶子节点空间占用为S(Y)；

(22)计算中间节点的空间占用为S(X)；

(23)计算索引结构占用内存空间大小为S＝S(Y)+S(X)；

(24)为确保索引在后续更新时仍有空间容纳新节点，索引头应记录的索引大小F为实际索引结构占用内存空间的k倍，其中k>1，则F＝k*S。

进一步，所述步骤(4)中，多线程处理的步骤包括：

(41)记录索引结构起始地址t；

(42)申请n个线程，为每个线程分配一个数据缓存区m_n和记录缓存区p_n，其中，数据缓存区m_n用来存放待被持久化的节点，记录缓存区p_n存放已经被持久化节点的记录信息结构体，该记录信息结构体用来存放：节点的起始地址相对索引结构起始地址t的偏移量、终止地址相对索引结构起始地址t的偏移量、节点类型、键值、子指针相对于索引结构起始地址t的偏移量；

(43)将索引结构的根节点及其子节点分别加载到每个线程的数据缓存区m_n中；

(44)每个线程对自身的数据缓冲区和记录缓存区进行维护，对每个线程缓存区内的数据进行遍历，记录下每个节点的键值，起始地址、终止地址和子指针分别相对于索引结构起始地址t的偏移量，将所有信息存储到记录缓存区后，遍历该节点的子节点，并根据负载平衡策略将子节点加载到指定的数据缓存区中，同时，保存记录缓存区的数据，将根据设定的K值，写入到共享内存中；其中，K代表全局设定的变量且作为缓存区的存储阈值；

(45)计算机系统对每个线程的工作量予以监督；每个线程遍历一个节点，每个线程将自身工作量正反馈于记录线程工作数的M，其中，M是用来记录每个线程当前遍历的节点数且实时变化；在步骤(44)中每当找到新的子节点，将会找到线程工作数M最小的线程，将新的任务加载到相应的数据缓冲区中；

(46)重复执行步骤(44)和(45)，直到所有节点都被访问过，且所有信息成功的记录到了共享内存中。

本发明与现有技术相比，其显著效果如下：1、本发明从硬件方面考虑了索引结构持久化的效率，采用并行技术，将索引中的节点按照负载平衡策略分配到不同的线程中，多个线程同时进行操作，充分利用了硬件资源，极大程度的提高了索引结构持久化的效率，同时将索引结构从具有易失性的内存持久化到主存中，避免由于不可控因素造成的财产损失，适用于多路查找树等多种树状索引；2、本发明支持多用户并发，在进行并行的索引持久化方法时，允许其他用户进行对图进行查询、增添、删除等操作，比起传统的持久化方法，保证了不会造成线程资源的浪费，并且在写入内存映射空间时，减少了因为同时写入而有一方忙等造成的资源浪费这种现象的出现，占用更少的资源，对用户更友好。

附图说明

图1为本发明的总流程示意图；

图2为本发明的索引结构示意图；

图3为本发明的持久化流程示意图。

具体实施方式

下面结合说明书附图和具体实施方式对本发明做进一步详细描述。

本发明的为解决对于传统图数据查询索引结构持久化不能利用多核服务器优势，造成资源浪费这一问题，提出了一种对B树B+树为代表的多路查找树都适用的持久化方法，有良好的扩展性和延伸性，对树状索引结构都适用。同时，提出了一种并行化的索引持久化方法，其负载均衡方法保证了不会造成线程资源的浪费，并且在写入内存映射空间时，减少了因为同时写入而有一方忙等造成的资源浪费这种现象的出现。

实施方式将结合一种基于B+树的传递闭包求解系统进行相关说明。

如图1所示为本发明的总流程示意图，本发明的持久化方法实施步骤如下：

步骤1，检测硬盘指定位置是否存在索引文件，如果不存在索引文件将重新创建一个空的索引文件；如果存在索引文件，读取该索引文件并进行索引的重构；重构索引结构的步骤为：

步骤11，计算内存连续可用空间的大小，采用内存映射技术，将索引文件映射到连续的内存区域中。

步骤12，在映射内存中读取索引文件的索引头，获取索引结构相关信息，如：索引大小，叶子节点链表头和叶子节点链表尾的偏移量，根节点等信息，并初始化B+树索引结构。

步骤13，根据索引文件内容，进行索引重构。根据索引文件中存放的节点类型，分别进行重构：

步骤131，叶子节点：读取叶子节点的两个子指针的偏移量，和叶子节点的键值，即存储的相关信息与偏移量，将偏移量与索引头地址相加完成叶子节点的重构。

步骤132，中间节点：读取中间节点两个子指针的偏移量，与中间节点的键值信息，将偏移量与索引头地址相加完成叶子节点的重构。

步骤2，计算内存连续可用空间的大小以及索引结构所占空间的大小，并初始化索引结构；

计算索引结构所占空间的大小步骤如下：

步骤21，设键值大小为l，顶点为a，节点大小为c，则一个节点容纳的键数b为

由于叶子节点和键值一一对应，则叶子节点空间占用为：

步骤22，步骤21中b-2为一个叶子节点所含键值数，则中间节点的空间占用为：

步骤23，根据步骤21和22的公式可得出，索引结构占用内存空间大小为：

步骤24，为保证索引在后续更新时仍有空间容纳新节点，索引头应记录的索引大小为实际索引结构占用内存空间的k(k>1)倍，即

F＝k*S (4)

步骤3，采用内存映射技术开辟一块连续的内存，初始化索引头，将已存在的索引文件映射入内存。

步骤4，向计算机系统申请多个线程，使用多线程处理，完成索引结构的持久化。记录索引结构偏移量的步骤为：

步骤41，记录下索引结构的起始地址t；

步骤42，申请n个线程，为每个线程分配一个数据缓存区m_n和记录缓存区p_n，其中，数据缓存区用来存放待被持久化的节点，记录缓存区存放已经被持久化节点的记录信息结构体，该记录信息结构体用来存放节点的起始地址相对索引结构起始地址t的偏移量、终止地址相对索引结构起始地址t的偏移量、节点类型、键值、子指针相对于索引结构起始地址t的偏移量等信息；

步骤43，将索引结构的根节点及其子节点分别加载到每个线程的数据缓存区m_n中；

步骤44，每个线程对自身的数据缓冲区和记录缓存区进行维护，对每个线程缓存区内的数据进行遍历，记录下每个节点的键值，起始地址、终止地址、子指针等分别相对于索引结构起始地址t的偏移量等信息，将所有信息存储到记录缓存区后，遍历该节点的子节点，并根据负载平衡策略将子节点加载到指定的数据缓存区中，同时，存放在记录缓存区的数据，将根据设定的K值，写入到共享内存中；其中，K代表全局设定的变量且作为缓存区的存储阈值；

步骤45，计算机系统对每个线程的工作量予以监督，每个线程遍历一个节点，将正反馈于记录线程工作数的M，在44中每当找到新的子节点，将会找到线程工作数M最小的线程，将新的任务加载到相应的数据缓冲区中；

步骤46，重复执行步骤44和步骤45直到所有节点都被访问过，且所有信息成功的记录到了共享内存中。

以B+树为例，对本发明的实现过程如下：

如图2，对预计算索引结构所占空间大小的实现步骤如下：

步骤一，设键值大小为l，顶点为a，节点大小为c，则一个节点容纳的键数b为

由于叶子节点和键值一一对应，则叶子节点空间占用为：

步骤二，根据B+树的基本知识，中间节点的空间占用为：

步骤三，为保证索引在后续更新时仍有空间容纳新节点，索引头应记录的索引大小为实际索引结构占用内存空间的k(k>1)倍，即

如图3，使用多线程处理，对索引结构持久化方法实施步骤如下：

步骤一，记录下内存中建立好的B+树索引结构的索引结构起始地址t，记录下索引结构的总体大小，和叶子节点链表的起始地址与终止地址，顶点的数目等信息，将这些信息存放到结构体中，并将其写入到映射内存中，当作索引文件头。

步骤二，计算机系统根据提前设定好的全局变量申请n个线程，并为每一个线程分配一个用来存放顶点的数据缓存区m和用来存放已被遍历节点信息的记录缓存区p。

步骤三，将索引结构根节点及子节点按顺序存放入不同的数据缓存区中，若节点数大于线程数，即第一次分配任务有富裕节点，将这部分节点任意分配给每个线程。

步骤四，每个线程对自身的数据缓冲区和记录缓存区进行维护，对每个线程缓存区内的数据进行遍历，记录下每个节点的键值、起始地址、终止地址、子指针等相对于索引结构起始地址t的偏移量等信息，将所有信息存储到记录缓存区后，遍历该节点的子节点，并根据负载平衡策略将子节点加载到指定的数据缓存区中，同时，存放在记录缓存区的数据，将根据设定的K值，写入到共享内存中；其中，K代表全局设定的变量，作为缓存区的存储阈值，一旦到达这个阈值，会将缓存区存储的信息，写入指定的位置中。

步骤五，计算机系统对每个线程的工作量予以监督；每个线程遍历一个节点，每个线程将自身工作量正反馈于记录线程工作数的M，每当遍历到新的子节点，将会找到线程工作数M最小的线程，将新的任务加载到相应的数据缓冲区中；其中，M用来记录每个线程当前遍历的节点数，实时变化，以完成负载平衡。

步骤六，重复执行步骤四和步骤五，直到所有节点都被访问过，且所有信息成功的记录到了共享内存中。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于并行的图数据索引的持久化方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于并行的图数据索引的持久化方法，其特征在于，所述步骤(1)中，实现索引的重构步骤如下：

(13)根据索引文件内容，进行索引重构。

3.根据权利要求2所述的基于并行的图数据索引的持久化方法，其特征在于，所述步骤(13)中，根据索引文件中存放的节点类型，分别进行重构：

4.根据权利要求1所述的基于并行的图数据索引的持久化方法，其特征在于，所述步骤(2)中，计算索引结构所占空间的大小的步骤如下：

(21)计算叶子节点空间占用为S(Y)；

(22)计算中间节点的空间占用为S(X)；

(23)计算索引结构占用内存空间大小为S＝S(Y)+S(X)；

5.根据权利要求1所述的基于并行的图数据查询索引的持久化方法，其特征在于，所述步骤(4)中，多线程处理的步骤包括：

(41)记录索引结构起始地址t；