CN110597805A

CN110597805A - 一种高效的新型内存索引结构处理方法

Info

Publication number: CN110597805A
Application number: CN201910672625.5A
Authority: CN
Inventors: 伍赛; 陈珂; 张静恬; 陈刚; 寿黎但; 江大伟
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-07-24
Filing date: 2019-07-24
Publication date: 2019-12-20
Anticipated expiration: 2039-07-24
Also published as: CN110597805B

Abstract

本发明公开了一种高效的新型内存索引结构处理方法。在跳表处理前，通过统计信息计算查询分布以及数据分布情况；选择插入跳表结构的哨兵节点；通过求解跳表在插入节点后的最小平均操作代价，得到最优的哨兵节点的配置结果；在底层跳表结构中插入这些哨兵节点，接着在底层跳表结构中的哨兵节点插入完毕后，通过Bulkload方法自底向上建立上层CSB+树结构，对哨兵节点的快速定位；对于每一条需要查询或者插入的数据，通过上层CSB+树结构，找到最近哨兵节点，从此开始对跳表进行操作。本发明方法在保留传统跳表结构实现简单、并发性好、适合范围查询等优势的基础上，提升了整个操作过程对缓存的利用率，从而明显提升了内存索引的性能。

Description

一种高效的新型内存索引结构处理方法

技术领域

本发明涉及内存数据库，存储策略，跳表结构，缓存利用率等方法。尤其涉及一种高效的新型内存索引结构处理方法。

背景技术

内存数据库(MMDB)是近年来发展较为迅速的一种数据技术。由于目前互联网技术以及大数据的发展,对于数据的响应速率提出了越来越高的要求,传统的磁盘数据库已经无法满足一些新型业务的要求,同时硬件技术的发展降低了内存的制造成本,为内存数据库提供了可行性。

索引机制是数据库管理机制的重要组成部分。当前内存索引结构主要有B+树、哈希表和跳表等。其中在哈希表上只能做单个key的查询，不适宜做范围查询。跳表结构实现简单、并发性好、适合范围查询，但对缓存利用率较差。而平衡树尽管插入和删除操作都有可能引发子树的调整，操作复杂，实现难度较高。

CSB+-Tree(CacheSensitive B+-Trees)是B+树的变体，连续存储给定节点的子节点，并且只存储节点的第一个子节点的地址，其他子节点的地址可以通过相对这个子节点的偏移量计算获得。同时，对于静态数据，CSB+-Tree可自底向上快速建立索引。但是其实现难度，操作复杂，范围查询需要进行遍历的问题明显存在。

发明内容

本发明的目的在于针对现有技术的不足，提供一种高效的新型内存索引结构处理方法，结合了现有跳表灵活度高和CSB+-Tree结构缓存利用率高的优势。

本发明解决其技术问题采用的技术方案的方法步骤如下：

(1)在跳表处理前，通过统计信息计算查询分布以及数据分布情况；

(2)选择插入跳表结构的用于快速定位的哨兵节点；在确定哨兵节点数量的前提下，通过求解跳表在插入节点后的最小平均操作代价，得到最优的哨兵节点的配置结果；当数据分布和查询分布一致时，保持相邻哨兵节点之间的两两查询分布和数据分布概率相同时候，跳表每次操作的平均代价达到最小值即形成最小平均操作代价；通过数学模型可在确定哨兵节点数量的前提下，选择能够使得内存索引结构性能最优的哨兵节点。

(3)根据哨兵节点的选择，在底层跳表结构中插入这些哨兵节点，接着在底层跳表结构中的哨兵节点插入完毕后，通过Bulkload方法自底向上在跳表结构之上建立上层的CSB+树(CSB+-Tree)结构，对哨兵节点的快速定位。鉴于CSB+树结构只用于哨兵节点定位，在底层跳表查询过程中保持不变，因此无需考虑复杂的子树调整过程，既能保证高并发性，也保证了较高的缓存利用率。

(4)对于每一条需要查询或者插入的数据，通过上层的CSB+树结构，找到最近的哨兵节点，从该哨兵节点开始对跳表进行操作。

由此，本发明只是改变了底层跳表结构的查询入口，而哨兵节点和跟现有跳表结构查询入口一样，在跳表中处于最高的高度，具体插入、删除和查询功能依旧可以保持现有跳表结构的灵活性，从而使得整个操作过程依然具有高度的并发性和灵活性。

所述步骤(1)具体是将内存内的数据划分为若干个分段，统计记录每个分段内的查询分布以及数据分布概率。

所述的哨兵节点在跳表中均具有最高的高度。

所述的哨兵节点插入位置为数据分段之间的分界位置。

本发明设计了一种两层索引结构处理，上层使用缓存利用率极高的CSB+树结构用于快速定位，下层使用跳表结构用于具体插入，删除和查询操作。这样本发明方法在保留传统跳表结构实现简单、并发性好、适合范围查询等优势的基础上，提升了整个操作过程对缓存的利用率，从而明显提升了内存索引的性能。

本发明技术方案通过CSB+-Tree作为上层结构，每个节点只需只存储一个子节点的指针，所有子节点的数据以连续存储的形式进行存放，通过偏移量进行查询，在保留跳表结构实现简单、并发性好、适合范围查询的基础上，大幅提升了缓存利用率，从而提高了算法效率。

(3)本发明具有的有益效果是：本发明对500w数据进行插入/查询效率实验，结果表明本发明的新型索引结构相对于传统跳表结构，插入效率提升了57％，而查询效率提高了54％。

本发明综合了CSB+-Tree对缓存的高效利用率，以及跳表结构实现简单、并发性好、适合范围查询的优势，提出了一种高效的新型内存索引结构处理方法，在保留传统跳表结构优点的基础上，明显提升了内存索引的性能。

附图说明

图1是本发明实施步骤流程图。

图2是本发明的哨兵节点构建图。

图3是本发明的CSB+-Tree构建图。

图4是本发明设计的内存索引结构使用流程图。

图5是本发明用于数据统计的跳表样例图。

图6是本发明中CSB+-Tree构建后，跳表未插入数据时的新型索引结构的示意图。

图7是本发明演示基于新型索引结构进行查询的示意图。

具体实施方式

现结合具体实施和示例对本发明的技术方案作进一步说明。

如图1，本发明具体实施过程和工作原理如下：

本发明具体实施可针对文字、字符串的文字型数据，例如网站后台的用户注册数据、专利查询等信息对象的统计类目存储数据。

(1)在跳表处理前，通过统计信息计算查询分布以及数据分布情况。内存数据集的数据分布和查询分布较为稳定，通过统计方法可以获取数据分布以及查询分布。具体将内存内的数据均匀划分为若干个分段，统计记录每个分段内的查询分布以及数据分布。例如对于图5的跳表数据，如果把数据以10为间距划分分段，则分段为(0,10],(10,20],(20,30],(30,40],……可得数据分布为(4,3,3,4，……)。

(2)如图1所示，选择插入跳表结构的哨兵节点。

哨兵节点插入位置为数据分段之间的分界位置，在确定哨兵节点数量的前提下，通过求解跳表在插入节点后的最小平均操作代价，得到最优的哨兵节点的配置结果；当数据分布和查询分布一致时，保持相邻哨兵节点之间的两两查询分布和数据分布相同的时候，跳表每次操作的平均代价达到最小值即形成最小平均操作代价。

鉴于哨兵节点数量通常设置为2的次幂形式，则只需重复如下操作即可得到哨兵节点的最优插入位置：

a)在整体分布的两端设置哨兵节点；

b)在相邻哨兵节点间插入新的哨兵节点，使得该新插入的哨兵节点两侧分布相同；

c)重复b步骤直到完成所有哨兵节点位置的确定。

对于图5的跳表分布数据，假定已知在数据分段40的位置有一个哨兵节点，而(0,40]间需要插入一个哨兵节点，则选择在分段20的位置插入哨兵节点，因为(0,20],(20,40]的数据分段内都是7个节点，分布相同。

(4)根据既定的哨兵节点的选择，在底层跳表结构中插入这些哨兵节点，哨兵节点在跳表中均具有最高的高度，能保证性能提升的稳定性；接着在底层跳表结构中的哨兵节点插入完毕后，如图2所示，通过Bulkload方法自底向上在跳表结构之上逐层建立上层的CSB+树(CSB+-Tree)结构。具体步骤如下：

a)为所有叶条目分配空间。

b)计算更高级别中需要多少个节点，为该级别中的所有节点分配连续的空间块。

c)通过复制较低级别中每个节点中的最大值来进入较高级别的节点条目。

d)还在每个更高级别的节点中设置了第一个子指针。

e)重复b,c,d过程，直到较高级别只有一个节点，并且把该节点指定为根节点。

由于同一级别中的所有节点在创建时都是连续的，因此不必进行任何额外的复制来形成节点组。直到对哨兵节点的快速定位；形成了上层CSB+树结构快速定位、下层跳表结构插入、删除和查询操作的两层索引结构；鉴于此时尚未开始数据的插入，查询或删除操作，索引结构如图6所示，底层跳表中只有哨兵节点。

(5)对于每一条需要查询或者插入的数据，如图3所示，通过上层的CSB+树结构，找到最近的哨兵节点，从而无需从头开始遍历整个跳表，而是可以从该哨兵节点开始对跳表进行操作。例如，对于图7中的索引结构，如果现在要查询25对应的数据，则可以先通过上层CSB+树结构找到最近的哨兵节点20，然后直接从哨兵节点20进行查询，而无需从头开始遍历整个跳表。

(6)总体上，对500w数据进行插入/查询效率实验，结果表明本发明的新型索引结构相对于传统跳表结构，插入效率提升了57％，而查询效率提高了54％。

Claims

1.一种高效的新型内存索引结构处理方法，方法采用跳表结构作为基础，其特征在于：方法的步骤如下：

(2)在确定哨兵节点数量的前提下，通过求解跳表在插入节点后的最小平均操作代价，得到最优的哨兵节点的配置结果；当数据分布和查询分布一致时，保持相邻哨兵节点之间的两两查询分布和数据分布概率相同时候，跳表每次操作的平均代价达到最小值即形成最小平均操作代价；

(3)根据哨兵节点的选择，在底层跳表结构中插入这些哨兵节点，接着在底层跳表结构中的哨兵节点插入完毕后，通过Bulkload方法自底向上建立上层的CSB+树结构，对哨兵节点的快速定位；

2.根据权利要求1所述的一种高效的新型内存索引结构处理方法，其特征在于：所述步骤(1)具体是将内存内的数据划分为若干个分段，统计记录每个分段内的查询分布以及数据分布概率。

3.根据权利要求1所述的一种高效的新型内存索引结构处理方法，其特征在于：所述的哨兵节点在跳表中均具有最高的高度。

4.根据权利要求1所述的一种高效的新型内存索引结构处理方法，其特征在于：所述的哨兵节点插入位置为数据分段之间的分界位置。