CN113312312B

CN113312312B - 一种基于lsm高效查询流数据的分布式索引方法及系统

Info

Publication number: CN113312312B
Application number: CN202110636679.3A
Authority: CN
Inventors: 邹承明; 冯丹
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2021-06-08
Filing date: 2021-06-08
Publication date: 2022-08-05
Anticipated expiration: 2041-06-08
Also published as: CN113312312A

Abstract

本发明公开了一种基于LSM高效查询流数据的分布式索引方法及系统，首先对数据进行批量更新；然后对采样数据块进行排序并划分区间；接着对每个数据分区采用改进后的R树生成算法建立局部索引；最后各个数据分区中的数据及其局部索引由主节点分配到各个子节点中进行存储，主节点根据各个局部索引的根节点建立全局索引，全局索引直接存储在主节点中。本发明建立局部索引的过程中采取对R树进行改进的方法，改为动态插入数据的方式，全局索引使用频繁且数据量较小，存储在主节点中，由此可以极大提升查询数据的效率。

Description

一种基于LSM高效查询流数据的分布式索引方法及系统

技术领域

本发明属于流数据技术领域；涉及一种分布式索引的方法及系统，具体涉及一种基于日志结构合并树(LSM)的分布式索引方法及系统。

技术背景

流数据不同于Hadoop平台处理的大型离线数据，流数据是连续且没有边界的实时数据，现有分布式索引的建立大致有两种方法，一种是采用Mapreduce并行计算框架，创建时为查询数据建立相应的map映射表，客户端则通过该map表进行查询。而像NoSql这样的分布式数据库，在进行分布式事务中要实现原子性需要彼此协调，在系统写入数据后，而索引并未及时更新的情况下，会出现数据和索引不一致导致的后果，所以这种方法只适用于某些离线应用中。另一种方法是预先设计好索引的结构，初始时同时创建数据和索引。由于这样会导致后续无法添加索引，故开始就会为所有非主键列创建索引从而导致空间浪费。

R树采用传统的插入函数会引起一系列节点的分裂和子节点的重新分布等，消耗的代价较大，而且每个节点不一定会被子节点填满导致树较高大，从而造成资源浪费，对局部索引的建立采用优化后的R树，更有利于后续对流数据的高效查询。

发明内容

本发明的目的在于提供一种基于LSM高效查询流数据的分布式索引方法及系统，以实现对流数据进行高效查询。

本发明的方法所采用的技术方案是：一种基于LSM高效查询流数据的分布式索引方法，包括以下步骤：

步骤1：对数据进行批量更新；

内存中数据为增量数据，磁盘中数据为基线数据，当内存中的数据量达到一定阈值后，增量数据会不断合并到磁盘，生成新的基线数据并划分区间；

步骤2：对步骤1中的基线数据进行充分随机采样，然后对该采样数据块进行排序；

步骤3：对每个数据分区采用改进后的R树生成算法建立局部索引；

插入数据的过程中，如果该节点为非饱和节点，则直接插入数据；如果该节点为饱和节点，则检查节点溢出表中是否包含该节点，如果包含且该节点的溢出节点为非饱和状态，则可以直接将数据插入到该节点的溢出节点中；如果该节点为饱和节点，且节点溢出表中包含该节点，但该节点的溢出节点为饱和状态，则对该节点及其溢出节点进行归并分裂操作，并写回到R树种，重新进行数据插入；如果该节点为饱和节点，但节点溢出表中不包含该节点，则在节点溢出表中为该节点创建一个溢出节点，并直接将数据插入到此溢出节点中；

步骤4：各个数据分区中的数据及其局部索引由主节点分配到各个子节点中进行存储，主节点根据各个局部索引的根节点建立全局索引，全局索引直接存储在主节点中。

本发明的系统所采用的技术方案是：一种基于LSM高效查询流数据的分布式索引系统，包括以下模块：

模块一，用于对数据进行批量更新；

模块二，用于对模块一中的基线数据进行充分随机采样，然后对该采样数据块进行排序；

模块三，用于对每个数据分区采用改进后的R树生成算法建立局部索引；

模块四，用于各个数据分区中的数据及其局部索引由主节点分配到各个子节点中进行存储，主节点根据各个局部索引的根节点建立全局索引，全局索引直接存储在主节点中。

本发明使用LSM-Tree算法，将内存中的增量数据不断合并到磁盘中的基线数据中，并为基线数据建立局部索引，以此保持数据及索引的一致性。根据磁盘中树结构的阈值进行数据分区，分别对x坐标和y坐标进行数据排序，提高了数据插入的效率。建立局部索引的过程中采取对R树进行改进的方法，改为动态插入数据的方式，全局索引使用频繁且数据量较小，存储在主节点中，由此可以极大提升查询数据的效率。

附图说明

图1为本发明实施例的方法流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明提供的一种基于LSM高效查询流数据的分布式索引方法，包括以下步骤：

步骤1：对数据进行批量更新；

本实施例中，基于LSM-Tree方法对数据进行批量更新，由一个存放在内存中的树结构和多个存放在磁盘中的树结构组成，将数据的存储分为两部分，一部分是内存中的增量数据，相当于LSM-Tree中的C0 Tree，另一部分是磁盘中的基线数据，相当于LSM-Tree中的C1 Tree和C2Tree和C3 Tree，其中C1 Tree和C2 Tree分别设定最大值和最小值这两个阈值，而C3 Tree存放数值异常的数据；数据的更新只发生在内存中，内存中的数据量达到临界值就会顺序写入磁盘中其中顺序写入的过程中，会根据数值做一步判断，该数据应该放在C1 Tree、C2 Tree还是C3 Tree中，从而进一步添加到对应的磁盘空间中，这样减少了不必要的I/O，提高了写性能，也提高了索引效率。

步骤2：对基线数据进行充分随机采样，这样更能体现数据的分布趋势，对步骤一中的基线数据进行充分随机采样，然后对该采样数据块进行排序；

本实施例中，首先分别对C1 Tree、C2 Tree和C3 Tree中的数据做一个由一维数据向二维数据的转化，多余的地方用无穷补齐，对这些二维数据首先进行横坐标轴X的排序，再对纵坐标轴Y进行排序，得到一个从左到右、从下到上递增的二维数组，对于后续进行数据节点插入的时候，对该二维数组进行顺时针旋转135度，此时可以看作一个多叉排序树，按照先左子树后右子树的顺序进行插入。

步骤3：通过上述步骤得到划分后的数据分区，为保证所有数据都在索引范围内，对每个数据分区采用改进后的R树生成算法建立局部索引；

本实施例中，插入数据的过程中，如果该节点为非饱和节点，则直接插入数据；如果该节点为饱和节点，则检查节点溢出表中是否包含该节点，如果包含且该节点的溢出节点为非饱和状态，则可以直接将数据插入到该节点的溢出节点中；如果该节点为饱和节点，且节点溢出表中包含该节点，但该节点的溢出节点为饱和状态，则对该节点及其溢出节点进行归并分裂操作，并写回到R树种，重新根据此改进后的R树生成算法进行数据插入；如果该节点为饱和节点，但节点溢出表中不包含该节点，则在节点溢出表中为该节点创建一个溢出节点，并直接将数据插入到此溢出节点中；

步骤4：各个数据分区中的数据及其局部索引由主节点分配到各个子节点中进行存储，主节点根据各个局部索引的根节点建立全局索引，全局索引使用频率高且数据量较小，直接存储在主节点中，其中全局索引的建立采用常规的R树生成算法即可。

本发明利用LSM算法对流数据进行批量更新，主节点通过磁盘中多个树结构的阈值划分区间并排序，采用改进后的R树为每个区间建立局部索引，随后主节点根据各个局部索引创建一个全局索引并保存在主节点中，全局索引的建立采用常规的R树生成方式即可。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于LSM高效查询流数据的分布式索引方法，其特征在于，包括以下步骤：

步骤1：对数据进行批量更新；

插入数据的过程中，如果该节点为非饱和节点，则直接插入数据；如果该节点为饱和节点，则检查节点溢出表中是否包含该节点，如果包含且该节点的溢出节点为非饱和状态，则可以直接将数据插入到该节点的溢出节点中；如果该节点为饱和节点，且节点溢出表中包含该节点，但该节点的溢出节点为饱和状态，则对该节点及其溢出节点进行归并分裂操作，并写回到R树中，重新进行数据插入；如果该节点为饱和节点，但节点溢出表中不包含该节点，则在节点溢出表中为该节点创建一个溢出节点，并直接将数据插入到此溢出节点中；

2.根据权利要求1所述的基于LSM高效查询流数据的分布式索引方法，其特征在于：步骤1中，基于LSM-Tree方法对数据进行批量更新，由一个存放在内存中的树结构和多个存放在磁盘中的树结构组成，将数据的存储分为两部分，一部分是内存中的增量数据，相当于LSM-Tree中的C0 Tree，另一部分是磁盘中的基线数据，相当于LSM-Tree中的C1 Tree、C2Tree和C3 Tree，其中C1 Tree和C2 Tree分别设定最大值和最小值这两个阈值，而C3Tree存放数值异常的数据；数据的更新只发生在内存中，内存中的数据量达到临界值就会顺序写入磁盘中，其中顺序写入的过程中，会根据数值做一步判断，该数据应该放在C1Tree、C2 Tree还是C3 Tree中，从而进一步添加到对应的磁盘空间中。

3.根据权利要求1或2所述的基于LSM高效查询流数据的分布式索引方法，其特征在于：步骤2中，首先分别对C1 Tree、C2 Tree和C3 Tree中的数据做一个由一维数据向二维数据的转化，多余的地方用无穷补齐，对这些二维数据首先进行横坐标轴X的排序，再对纵坐标轴Y进行排序，得到一个从左到右、从下到上递增的二维数组，对于后续进行数据节点插入的时候，对该二维数组进行顺时针旋转135度，此时可以看作一个多叉排序树，按照先左子树后右子树的顺序进行插入。

4.一种基于LSM高效查询流数据的分布式索引系统，其特征在于，包括以下模块：

模块一，用于对数据进行批量更新；