CN113434511A

CN113434511A - 一种基于希尔伯特曲线的聚类索引方法

Info

Publication number: CN113434511A
Application number: CN202110785517.6A
Authority: CN
Inventors: 王新阳; 孙宇; 陈志泊; 孙俏; 许福
Original assignee: Beijing Forestry University
Current assignee: Beijing Forestry University
Priority date: 2021-07-12
Filing date: 2021-07-12
Publication date: 2021-09-24
Anticipated expiration: 2041-07-12
Also published as: CN113434511B

Abstract

本文公开了一种基于希尔伯特曲线的聚类索引方法。包括以下步骤：读取原数据表中数据；对表中索引数据进行去重，排序；根据索引数据构建关系表和坐标表；将索引数据映射为一维序列值；根据生成序列值和非索引数据构建索引表；进行多条件查询。本文提出的方法使用空间填充曲线中的希尔伯特曲线作为降维方法，相比于Z曲线和G曲线等其它空间填充曲线具有较好的空间连续性和聚类性。通过使用序列值作为行键有效地提高了多维点查询的查询效率，查询效率较HBase原表扫描提升近4倍。本文使用一种全新的希尔伯特曲线子空间划分方法，将HBase表中的数据的过滤转换为希尔伯特曲线中点的过滤，提高了多维范围查询的查询效率，查询效率较HBase原表扫描提升近2倍。

Description

一种基于希尔伯特曲线的聚类索引方法

技术领域

本发明涉及HBase数据库，尤其是基于希尔伯特曲线的聚类索引方法

背景技术

信息时代下数据量程爆发式增长，如何发挥大数据价值是各行业发展的重中之重。大数据的海量级、异构结构和分布式等特性使得传统的关系型数据库无法发挥其优势，因此需要通过非关系型数据库对数据进行管理和使用。

非关系型数据库可以存储不同种类数据，在没有预定义表固定模式时仍具有较高的读写效率。非关系型数据库的出现解决了大数据的应用难题。

HBase数据库按行键查询时具有较高的效率，然而HBase不能有效支持多条件查询。为实现多条件查询，常见的方法是构建索引结构，将多维查询条件转换为数据表中行键。常见的索引结构包括二级索引、聚类索引和应用索引。二级索引通过多张索引表，记录索引数据和行键的对应关系，查询效率较低。聚类索引通过在每张索引表中存储非索引数据，减少过滤数据消耗时间，存储空间占用较大，查询效率小幅度提升。应用索引是指针对某些特定数据集，根据其数据特点使用树形结构或线性化技术提高查询效率，但通用性较差，不能适配所有数据集。

希尔伯特曲线是空间填充曲线中的一种，它具有良好的空间连续性和聚类特性，在多维空间中相邻的点映射在一维空间后同样相邻。通过使用希尔伯特曲线对数据进行降维存储后可以将数据均匀的分布在不同区域。

发明内容

本发明目的：为了克服现有技术中点查询效率较低、不支持多维范围查询、无法适应不同类型的数据集等问题，提供一种新的HBase索引结构，支持对不同类型数据集构建索引，在进行多条件复杂查询时具有较高效率，性能稳定，可用性高。

技术方案：为实现上述目的，本发明提出以下技术方案。

基于希尔伯特曲线的聚类索引方法，包括步骤：

(1)获取HBase原数据表中全部数据。

(2)对表中索引数据进行预处理，使数据可以尽可能占满希尔伯特空间，避免空间的浪费。

(3)根据处理后的索引数据构建关系表和坐标表。关系表中存储原始数据在希尔伯特曲线中的坐标值，坐标表中存储坐标值在映射算法中生成的序列值。

(4)根据序列值和非索引数据构建聚类索引。序列值具有唯一性，作为索引表中的行键，同时将原数据表中非索引数据在索引表中进行补全。

(5)进行多条件查询时首先在关系表和坐标表中获取索引数据与行键的映射关系，然后在索引表中查询结果。

进一步地，所述基于希尔伯特曲线的聚类索引方法还包括步骤：

对索引数据进行预处理：包括排序和去重。由于数据集中可能存在重复值，在希尔伯特曲线中排列时重复数据占用空间，且在查询时需要额外的判断。因此对索引数据的预处理可以提高希尔伯特空间的利用率。

根据预处理后的数据构建关系表和坐标表。关系表与坐标表用来存储索引数据与索引表行键的映射关系。关系表行键由多个索引数据拼接生成，关系表中存储索引数据与希尔伯特曲线中坐标的对应关系。坐标表行键由坐标值拼接生成，坐标表中存储坐标值与经映射算法生成序列值的对应关系。

根据坐标值调用映射算法计算序列值，将序列值作为行键构建索引表，并将原数据表中非索引数据在索引表中补全。

在进行多维点查询时，首先将查询内容解析为关系表行键，其次在关系表中查询与查询内容相对应的坐标值，然后在坐标表中查询出与坐标值对应的一维序列值，最后根据序列值在索引表中查询并返回结果。

在进行多维范围查询时，首先根据查询内容在关系表中查询出查询范围边界值，其次根据边界值划分子空间，然后在每个子空间中对数据点进行过滤，根据符合查询范围的点在坐标表中查询对应序列值，最后在索引表中批量查询全部数据。

在划分子空间时，首先根据查询范围边界值生成查询空间，记录查询空间边界值，然后根据希尔伯特曲线阶数和划分等级计算子空间长度，最后根据查询空间边界值和子空间长度划分子空间，记录子空间初始值。

本发明还提出基于希尔伯特的聚类索引系统，包括：原数据表、关系表、坐标表、希尔伯特曲线以及索引表；

其中，

原数据表中存储全部数据，在系统初始化时将数据导入表中；

关系表行键由多个索引数据拼接生成，关系表中存储索引数据与希尔伯特曲线中坐标的对应关系。关系表中数据经过去重后，数据量小于索引表数据量，且只存储一列数据，因此占用存储空间较小。当执行查询操作时，在关系表中通过索引数据组成的行键查询出对应坐标值。

坐标表行键由坐标值拼接生成，坐标表中存储坐标值与经过映射算法生成的序列值的对应关系。坐标表中数据量与关系表中相同，占用存储空间较小，通过标识符对相同序列值数据进行区分。当执行查询操作时，在坐标表中通过坐标值组成的行键查询出映射后的序列值。

希尔伯特曲线用于将多维数据降维，索引数据与曲线中坐标值相对应，坐标值经过映射算法生成一维序列值。希尔伯特曲线的构建过程即为将索引数据排序去重后对数据的坐标化，其映射关系存储在关系表中。

索引表中行键为包含索引数据信息的序列值，并存储剩余非索引数据。通过将索引数据降维后存储为行键，因此索引表相比普通聚类索引占用空间有所减少。当执行查询操作时，在索引表中通过行键即可执行一次查询就获取结果。

有益效果：与现有技术相比，本发明具有以下优势：

本发明使用空间填充曲线中的希尔伯特曲线对索引数据进行降维，相比于其他填充曲线，希尔伯特曲线具有良好的空间连续性和聚类性，在多维希尔伯特曲线中相邻的点在降维后仍然相邻。通过希尔伯特曲线将在原数据表中的全表扫描过程转换为查询效率极高的Rowkey查询，极大的提高了HBase多条件点查询的查询效率，查询效率较HBase原表扫描提升近4倍。为了在希尔伯特曲线中实现多维范围查询，本文提出一种全新的子空间划分方法。其他子空间划分方法在生成子空间后将数据点保存，在HBase表中使用过滤器过滤数据，本文提出划分方法在生成子空间后根据坐标范围对数据点进行过滤，保存符合查询条件的数据点，避免在HBase中使用过滤器，极大的提高了多维范围查询的查询效率，查询效率较HBase原表扫描提升近2倍。

附图说明

图1为本发明实施例涉及的基于希尔伯特曲线的聚类索引系统的构建流程图；

图2为本发明实施例涉及的基于希尔伯特曲线的聚类索引系统的整体架构图；

图3为本发明实施例涉及的基于希尔伯特曲线的聚类索引方法中进行多条件查询的流程图。

图4为本发明实施例涉及的基于希尔伯特曲线的聚类索引方法中划分子空间流程图。

具体实施方式

通过分析现有的基于HBase做的聚类索引的功能，我们获取了其实现的原理：就是创建一个额外的HBase表来存储索引数据，然后通过将对原数据表的全表扫描转化成了对索引表的一次查询并减少过滤数据量来完成功能。

本发明在此基础上，通过使用希尔伯特曲线对多维索引数据进行降维。将通过索引表查询并过滤数据转化为通过HBase的rowkey进行精确查询，提高了查询效率。

下面将结合附图和具体实施例对本发明作更进一步的说明。但应当理解的是，本发明可以以各种形式实施，以下在附图中出示并且在下文中描述的一些示例性和非限制性实施例，并不意图将本发明限制于所说明的具体实施例。

图1所示本实施例给出根据本发明的基于希尔伯特曲线的聚类索引方法的一种实施方式，包括以下步骤：

(1)获取HBase原数据表中全部数据。

在步骤(1)中，获取HBase原数据表中全部数据。具体地说，

首先建立原始数据表，例如语句create‘data’,{NAME＝>’info’,AGE＝>’info}；在原始表中插入数据put‘data’,‘001’,’info:name’,’zhangsan’；put‘data’,‘001’,’info:age,’25’；至此，原始数据表建立完成。

在步骤(2)中，对表中索引数据进行预处理，使数据可以尽可能占满希尔伯特空间，避免空间的浪费。具体的说，在希尔伯特曲线的每一个维度上数据均匀排布，与坐标轴上的坐标一一对应。然而数据集中数据可能存在多个重复值，若将数据全部映射在曲线上则会导致曲线阶数上升以及查询时需要进行额外的判断。因此对数据进行排序和去重可以提高对希尔伯特曲线的空间利用率。

在步骤(3)中，将索引数据与在希尔伯特曲线中坐标的对应关系保存在关系表中，经过对数据去重后索引数据与坐标值具有唯一对应关系。将坐标值与映射生成序列值保存在坐标表中，此时为了区分具有相同索引数据值的不同行数据，引入UUID作为标识符，与序列值拼接后保存。

在步骤(4)中，根据序列值和非索引数据构建聚类索引。将具有唯一性的序列值作为行键，同时为简化查询，将原数据表中的非索引数据在索引表中进行补全。因此当发生查询时，在索引表中即可获取结果，不必再回到原数据表中查询。

在步骤(5)中，在进行多条件查询时，先在关系表与坐标表中查询映射关系，然后在索引表中查询结果。具体地说，整个多条件查询流程如图2所示，包括以下步骤；

S1：判断查询请求为点查询或范围查询，不同查询类型对应方法不同。

S2:若查询请求为点查询，

S3:首先根据查询内容组合为查询条件在关系表中进行查询，若索引数据在关系表中存在，则返回索引数据对应坐标值。

S4:然后根据坐标值在坐标表中查询，返回坐标值映射生成的序列值。

S5:若索引数据在索引表中对应多条数据，则需要对序列值重新组合，返回行键集合。

S6:最后根据行键集合在索引表中进行查询，返回最终查询结果。

S7:若查询请求为范围查询，

S8:首先根据查询条件在关系表中进行查询，若索引数据在关系表中存在，则返回索引数据边界对应坐标值。

S9:然后根据边界坐标值在希尔伯特曲线上构建查询空间，根据划分等级计算子空间长度，对查询空间进行子空间划分。

S10：其次在每一个子空间中，根据查询条件对点进行过滤，返回符合查询条件的点。

S11:将每个子空间返回的结果集进行合并。

S12:最后根据行键集合在索引表中查询数据，返回最终查询结果。

图3所示本实施例给出根据本发明的基于希尔伯特曲线的聚类索引系统的一种实施方式，所述系统包括：原数据表、关系表、坐标表、希尔伯特曲线以及索引表。

其中，

在进行多条件查询时，服务器获取客户端查询条件，判断查询类型；根据不同查询类型在关系表和坐标表中查询索引表行键；根据查询到的行键集合在索引表中查询，将查询结果返回给客户端。

图4所示本实施例给出根据本发明的基于希尔伯特曲线的聚类索引方法的划分子空间实施方式，包括以下步骤：

(1)根据希尔伯特曲线的阶数确定曲线的划分等级，划分等级表示曲线的划分粒度，即在坐标轴中平均等分数量。划分等级是可变值，可以在多维范围查询时作为输入值。

(2)根据希尔伯特曲线阶数n和划分等级l计算子空间长度。希尔伯特曲线阶数n表示每一维坐标轴中包含点的数量，数量N＝2ⁿ。子空间长度表示子空间在某一维度中包含点数量，子空间长度L＝N/l。

(3)根据查询坐标范围计算查询空间边界值，生成查询空间。查询坐标范围边界值可能在子空间内部，因此需要对查询空间进行扩充，使得查询空间可以包括全部数据点。

(4)根据查询空间范围和子空间长度计算子空间起始坐标，生成子空间。子空间每一维度中坐标的初始值可以被计算出，由于子空间长度不变，记录初始值即可记录子空间坐标范围。

以上不同实施例所涉及技术特征可以相互组合，从而形成本发明范围内的另外的实施例。以上所示实施例并不具有限制性，对本发明所做的任何顺序修改、等同替换等，均应包含在本发明的保护范围内。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，熟悉本技术领域的技术人员在本发明揭露的技术范围内可以进行替换与变化，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.基于希尔伯特曲线的聚类索引方法，其特征在于，包括步骤：

(1)获取HBase原数据表中全部数据；

(2)对表中索引数据进行预处理，使数据可以尽可能占满希尔伯特空间，避免空间的浪费；

(3)根据处理后的索引数据构建关系表和坐标表，关系表中存储原始数据在希尔伯特曲线中的坐标值，坐标表中存储坐标值在映射算法中生成的序列值；

(4)根据序列值和非索引数据构建聚类索引，序列值具有唯一性，作为索引表中的行键，同时将原数据表中非索引数据在索引表中进行补全；

2.根据权利要求1所述的基于希尔伯特曲线的聚类索引方法，其特征在于，对索引数据的预处理还包括步骤：

(1)读取原数据表中数据后在每个索引数据列中去除重复数据，相同值只保留一个，提高希尔伯特曲线中点的利用率；

(2)去除重复数据后针对每个索引数据列对数据进行排序，使有序数据与希尔伯特曲线坐标相对应，建立索引数据与希尔伯特曲线中坐标的映射关系；

(3)根据希尔伯特曲线中每一维度点数量的最大值，确定希尔伯特曲线阶数；阶数值为与每一维度点数量的最大值临近的2ⁿ中的指数值。

3.根据权利要求1所述的基于希尔伯特曲线的聚类索引方法，其特征在于：关系表中存储每个索引数据列中数据在希尔伯特曲线坐标轴排列后对应的坐标值；关系表的行键为索引数据值使用符号拼接而成；关系表只包含一个数据列，存储索引数据对应的坐标值，同样使用符号拼接而成。

4.根据权利要求1所述的基于希尔伯特曲线的聚类索引方法，其特征在于，构建坐标表还包括步骤：

(1)在将索引数据值和坐标值映射关系存储在关系表后，将关系表中数据列值作为坐标表行键；

(2)将坐标值输入映射算法中，计算映射后生成的一维序列值；映射算法的输入是坐标值数组，输出为二进制字符串；映射算法通过位运算将多个坐标值映射为具有唯一性的一维二进制字符串，实现由多维到一维的维度值变换；

(3)若存在索引坐标值相同的数据，添加UUID作为唯一标识符，与序列值进行拼接；UUID是通用唯一识别码，本发明通过修改算法生成包含数字与字母的UUID作为区分每条记录的唯一表示。

5.根据权利要求4所述的基于希尔伯特曲线的聚类索引方法，其特征在于，计算映射值还包括步骤：

(1)根据希尔伯特曲线的阶数和维度，计算序列值长度；希尔伯特曲线阶数值由索引数据列中数据量确定，希尔伯特曲线维度值由查询索引列个数确定；序列值长度由阶数和维度确定，序列值长度＝阶数*维度；

(2)将坐标值转换为二进制字符串，输入映射算法，通过位运算生成具有唯一性的二进制序列值，此序列值可以使用解码算法重新转换为坐标值。

6.根据权利要求1所述的基于希尔伯特曲线的聚类索引方法，其特征在于，构建索引表还包括步骤：

(1)在构建索引表时需要先设置预分区，避免了数据部分不均匀的问题；预分区前缀根据希尔伯特曲线中区域划分粒度确定，在创建索引表时配置预分区设置；

(2)将序列值与UUID拼接后作为索引表行键，行键具有唯一性，相同序列值的索引数据通过标识符进行区分，索引数据值被映射至序列值中；

(3)将原数据表中非索引数据在索引表中补足；索引表以聚类索引为基础，通过补足数据减少查询次数，一次查询即可获得全部结果。

7.根据权利要求1所述的基于希尔伯特曲线的聚类索引方法，其特征在于：在进行多条件查询时需要根据查询条件判断查询类型，多条件点查询和多条件范围查询调用方法不同。

8.根据权利要求7所述的基于希尔伯特曲线的聚类索引方法，其特征在于，点查询还包括步骤：

(1)解析查询请求，拼接生成查询条件，根据查询条件在关系表中查询索引数据与在希尔伯特曲线中坐标的对应关系；

(2)根据在关系表中查询出的坐标数据，在坐标表中查询坐标数据对应的字段值；字段值由序列值和标识符UUID组成，由于可能存在重复索引数据，因此序列值可能连接多个标识符；

(3)根据在坐标表中查询出的字段值进行解析，生成序列值与一个标识符对应的索引表行键集合，根据行键集合在索引表中批量查询全部数据，返回查询结果。

9.根据权利要求7所述的基于希尔伯特曲线的聚类索引方法，其特征在于，范围查询还包括步骤：

(1)解析查询条件，将查询条件拼接为关系表行键；通过行键在关系表中查询出查询条件在希尔伯特曲线中对应的坐标边界值；

(2)根据希尔伯特曲线阶数、划分等级以及坐标边界值在希尔伯特曲线中进行子空间划分；生成包含点数量相同的子空间，子空间中包含全部符合查询范围的点和部分由于扩充空间范围被包括在内的不符合查询范围的点；

(3)在每一个查询子空间中，根据查询条件在希尔伯特曲线中的坐标范围对子空间中所有数据点进行过滤；记录每个子空间中符合查询条件的点，返回全部符合查询条件的点集合；

(4)根据点集合在坐标表中查询出每个点对应索引表行键，返回一个索引表行键集合；根据行键集合在索引表中批量查询，返回最终查询结果。

10.根据权利要求9所述的基于希尔伯特曲线的聚类索引方法，其特征在于，创建查询子空间还包括步骤：

(1)根据希尔伯特曲线的阶数确定曲线的划分等级，划分等级表示曲线的划分粒度，即在坐标轴中平均等分数量；划分等级是可变值，可以在多维范围查询时作为输入值；

(2)根据希尔伯特曲线阶数n和划分等级l计算子空间长度；希尔伯特曲线阶数n表示每一维坐标轴中包含点的数量，数量N＝2ⁿ；子空间长度表示子空间在某一维度中包含点数量，子空间长度L＝N/l；

(3)根据查询坐标范围计算查询空间边界值，生成查询空间；查询坐标范围边界值可能在子空间内部，因此需要对查询空间进行扩充，使得查询空间可以包括全部数据点；

(4)根据查询空间范围和子空间长度计算子空间起始坐标，生成子空间；子空间每一维度中坐标的初始值可以被计算出，由于子空间长度不变，记录初始值即可记录子空间坐标范围。