CN117076520A

CN117076520A - 一种基于多维索引树的高效近似查询系统及方法

Info

Publication number: CN117076520A
Application number: CN202311072055.9A
Authority: CN
Inventors: 韩雨钢
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2023-08-24
Filing date: 2023-08-24
Publication date: 2023-11-17

Abstract

本发明公开了一种基于多维索引树的高效近似查询系统及方法，近似查询系统包括：查询请求接收模块，用于接收查询请求；精确查询模块，用于根据查询请求接收模块接收的查询请求，从数据集中匹配与查询请求对应的信息，输出查询结果，并形成历史查询信息；所述数据集按照设定的近似聚合查询框架存储数据；历史查询模块，用于按照设定的历史信息索引结构存储历史查询信息，并根据查询请求接收模块接收的查询请求，从历史查询信息中匹配与查询请求对应的信息，输出查询结果。本发明具有多维数据的高效聚合近似查询精确度高，索引内存消耗小，查询用时短等特点。

Description

一种基于多维索引树的高效近似查询系统及方法

技术领域

本发明属于数据库近似查询技术领域，具体涉及一种基于多维索引树的高效近似查询系统及方法。

背景技术

现实生活中，许多领域的相关查询系统需要的并非完全精确的聚合查询结果，例如气象领域中，针对某一区域范围的气象指标(如气压，温度，湿度等)，往往只需要计算大致的统计信息，如均值，方差等，即可得知该地区气象条件的大致情况。若进行完整的数据集遍历进而查询得到完全精确的聚合结果，针对采集粒度较小，区域内气象站过多的情形，会消耗大量的计算资源。因而近似查询系统的出现就是为了处理类似的应用场景。传统基于采样的近似查询技术主要存在查询精确度低、索引内存消耗大、查询用时过长等问题；

基于数据预计算的数据立方体技术常被用于聚合查询的近似计算。该方法不同于实时的采样技术，其往往在数据装载完成后，离线地建立整个数据集的数据立方体。该立方体通过分块的方式记录数据集聚合结果的子集，若划分越精细，预聚合的结果也越详细，能更好地覆盖用户的查询请求，但此时对空间的消耗也更大，建立数据立方体的时间消耗也越大。当用户查询请求能被立方体中预计算的数据范围完全覆盖时，查询结果是完全精确无误差的。然而现实情况中，查询请求的多样性导致数据立方体存在漏判的问题。

因而，采用单一的近似查询技术难以满足真实情况下的近似查询处理，尤其针对高维数据时，数据立方体所需空间更为庞大，同时需要较长的时间进行预建立立方体。

发明内容

为解决现有技术中的不足，本发明提供一种基于多维索引树的高效近似查询系统及方法，具有多维数据的高效聚合近似查询精确度高，索引内存消耗小，查询用时短等特点。

为达到上述目的，本发明所采用的技术方案是：

第一方面，提供一种近似查询系统，包括：查询请求接收模块，用于接收查询请求；精确查询模块，用于根据查询请求接收模块接收的查询请求，从数据集中匹配与查询请求对应的信息，输出查询结果，并形成历史查询信息；所述数据集按照设定的近似聚合查询框架存储数据；历史查询模块，用于按照设定的历史信息索引结构存储历史查询信息，并根据查询请求接收模块接收的查询请求，从历史查询信息中匹配与查询请求对应的信息，输出查询结果。

进一步地，所述查询请求接收模块对接收到的查询请求进行预处理，然后使用最小边界矩形将查询请求中的查询区域进行抽象，统一为矩形形式，形成查询矩形；其中，一个任意多边形的最小边界矩形，指的是能包含该多边形的最小外边界矩形。

进一步地，按照设定的近似聚合查询框架存储数据，包括：通过结合数据立方体和基于采样的查询结构，建立树状模型，当位于非叶子节点时采用精确的数据立方体查询，当查询落在叶子节点时利用采样技术近似估计查询结果。

进一步地，设定的历史信息索引结构利用空间填充曲线进行降维，即通过空间填充曲线将二维点集映射到一维坐标系中，用于通过分层索引模型建立坐标点和实际存储位置的映射关系，并使用学习型索引结构建立索引，即对于每条历史查询信息，仅保存其左上结点的位置信息Z_LT；之后通过机器学习的方法学习位置信息Z_LT和id值的概率密度函数，最终生成分层索引模型。

进一步地，历史查询模块包括历史查询记录表和谓词映射表；历史查询信息以边界矩形的方式定义一个谓词空间，取矩形区域的左上和右下两个顶点的z-order曲线值存储于历史查询记录表中；同时将查询结果记录在聚合值列中；历史查询记录表作为后续数据结构的基础，在后续的查询过程中只允许添加操作，不允许对已有记录做修改和删除；谓词映射表用于建立空间填充曲线值和真实经纬度值的对应关系；当查询矩形通过分层索引模型获得与之具有相交或包含关系的第一条历史数据后，通过指针找到该范围对应的真实数据值用于相交面积的计算，同时，谓词映射表中的数据按序排列，用于顺序查找后续相交区域。

进一步地，在历史查询模块中，历史查询信息的二维谓词坐标放置于被划分完毕的空间网格中，并与应用于该空间网格的空间填充曲线上的值一一对应。

进一步地，历史查询模块通过已经建立的分层索引模型，查询到第一个与查询矩形相交的历史矩形；通过该相交矩形左上节点与谓词映射表的指针，找到谓词索引表中的对应项，依次扫描后续历史记录即可找到所有的相交区域。

进一步地，历史查询模块找到所有相交矩形后，计算这些矩形与查询矩形的有效相交面积，进而判断该次查询是否有效命中历史查询记录；已知查询区域Q，备选历史记录集合S＝{Q_h1,Q_h2…Q_hn}，设阈值τ，若Q与S相交面积大于τ，则该历史查询有效命中；当判断为有效命中时，遍历与查询矩形相交的历史矩形，并通过真实经纬度坐标计算其相交面积，此时针对不同的聚合函数值，计算方式包括：(1)AVG均值，根据各相交区域的大小，按权重计算所有均值的加权平均作为查询窗口矩形的均值；(2)SUM求和，按各历史矩形相交区域占该历史矩形总面积的比例进行等比缩放，再计算所有相交区域的总和作为查询矩形的SUM值；当历史查询矩形有重叠区域，且该区域位于查询窗口矩形范围内时，需要对该区域聚合值进行重评估；设集合S_overlap＝{Q_h1,Q_h2…Q_hk}相交于查询窗口矩形Q内的某一区域Ω，该区域的聚合值等于各区域值的平均值。

进一步地，精确查询模块采用树状近似查询结构进行查询；通过分片索引树状结构，对完整数据集进行划分，并存储非叶子结点的精确聚合结果，预建立数据立方体进行保存，当查询进行到的非叶子结点所表示范围完全被查询矩形包含时，该叶子结点所存储的精确预聚合值直接被使用；当出现部分覆盖，即次底层结点的范围与查询矩形部分相交时，进入叶子结点所表示的采样聚合估计阶段对范围内的点进行实时采样，并通过统计方法估计整体的概率分布，最终得出估计的聚合函数结果。

第二方面，提供一种近似查询方法，采用第一方面所述的近似查询系统，所述方法，包括：将输入的查询请求进行预处理，使用最小边界矩形将查询请求中的查询区域进行抽象，统一为矩形形式，形成查询矩形，用于通过历史查询模块和/或精确查询模块进行信息查询；当存在历史查询模块时，根据查询请求从存储于历史查询模块的历史查询信息中匹配与查询请求对应的信息，输出查询结果；当不存在历史查询模块或在历史查询模块中没有匹配到与查询请求对应的信息时，根据查询请求通过精确查询模块从数据集中匹配与查询请求对应的信息，输出查询结果，并形成历史查询信息存储于历史查询模块。

与现有技术相比，本发明所达到的有益效果：本发明通过精确查询模块从数据集中匹配与查询请求对应的信息，输出查询结果，并形成历史查询信息；数据集按照设定的近似聚合查询框架存储数据；历史查询模块按照设定的历史信息索引结构存储历史查询信息，并根据查询请求接收模块接收的查询请求，从历史查询信息中匹配与查询请求对应的信息，输出查询结果。本发明具有多维数据的高效聚合近似查询精确度高，索引内存消耗小，查询用时短等特点。

附图说明

图1是本发明实施例提供的一种基于多维索引树的高效近似查询方法的主要流程示意图；

图2是本发明实施例中构建精确查询模块的主要流程示意图；

图3是本发明实施例提供的一种基于多维索引树的高效近似查询方法的详细流程示意图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例一：

一种基于多维索引树的高效近似查询系统，包括：查询请求接收模块，用于接收查询请求；精确查询模块，用于根据查询请求接收模块接收的查询请求，从数据集中匹配与查询请求对应的信息，输出查询结果，并形成历史查询信息；所述数据集按照设定的近似聚合查询框架存储数据；历史查询模块，用于按照设定的历史信息索引结构存储历史查询信息，并根据查询请求接收模块接收的查询请求，从历史查询信息中匹配与查询请求对应的信息，输出查询结果。

查询请求接收模块对接收到的查询请求进行预处理，然后使用最小边界矩形将查询请求中的查询区域进行抽象，统一为矩形形式，形成查询矩形。

按照设定的近似聚合查询框架存储数据包括：通过结合数据立方体和基于采样的查询结构，建立树状模型，当位于非叶子节点时采用精确的数据立方体查询，当查询落在叶子节点时利用采样技术近似估计查询结果。

设定的历史信息索引结构利用空间填充曲线进行降维，即通过空间填充曲线将二维点集映射到一维坐标系中，用于通过分层索引模型建立坐标点和实际存储位置的映射关系，并使用学习型索引结构建立索引，即对于每条历史查询信息，仅保存其左上结点的位置信息Z_LT；之后通过机器学习的方法学习位置信息Z_LT和id值的概率密度函数，最终生成分层索引模型。

本发明采用历史查询模块对多维数据查询系统进行改进，进而提高查询系统的性能。如图1所示，本方法包含如下步骤：

步骤10，将输入的数据(查询请求接收模块接收的查询请求)进行预处理后，使用最小边界矩形将查询区域进行抽象，统一为矩形形式，形成查询矩形，挑选一种聚合函数后将该查询请求输入到查询系统中。实际坐标下的地理区域信息往往形状不规则，难以直接对其进行分析计算，因而引入最小边界矩形的概念。一个任意多边形的最小边界矩形(MBR)，指的是能包含该多边形的最小外边界矩形。后续查询中，都使用MBR的概念进行数据处理，方便分析计算。

步骤20，若已存在历史查询信息，转到步骤30，否则转到步骤60。

步骤30，进入历史查询模块，通过已经建立的学习型索引，查询到第一个与查询矩形相交的历史矩形。对于历史查询模块，主要用于存储历史查询信息，作为精确查询模块的缓存部分，加速查询过程。历史查询信息的二维谓词坐标放置于被划分完毕的空间网格中，并与应用于该网格的空间填充曲线上的值一一对应。该模块主要由如下两部分组成：

1.历史查询记录表

历史查询信息以边界矩形的方式定义一个谓词空间，为便于存储，本发明取矩形区域的左上(Z_LT)和右下(Z_RB)两个顶点的z-order曲线值存储于记录表中。同时根据之前的查询结果，记录在聚合值列中。该历史记录表作为后续数据结构的基础，在后续的查询过程中将只允许添加操作，无法对已有记录做修改和删除。

2.谓词映射表

该表主要建立空间填充曲线值和真实经纬度值的对应关系。当查询通过索引模型获得与之具有相交或包含关系的第一条历史数据后，将通过指针找到该范围对应的真实数据值用于相交面积的计算，同时由于该表中数据是按序排列的，因而可以在该表中顺序查找后续相交区域，加速计算。

通过将机器学习模型应用到索引建立领域，能极大减少查询索引的时间和空间开销。本发明通过空间填充曲线将二维点集映射到一维坐标系中，使得其能够通过分层索引模型建立坐标点和实际存储位置的映射关系。为便于检索以及减少不必要的开销，对于每条历史查询记录，仅保存其左上结点的位置信息Z_LT。之后通过机器学习的方法学习Z_LT和id值的概率密度函数，最终生成分层索引模型。

步骤40，通过该相交矩形左上节点与谓词映射表的指针，找到谓词索引表中的对应项，由于与同一区域相交的历史记录一定连续存在于对应的存储空间，因而只需依次扫描后续历史记录即可快速找到所有的相交区域。

步骤50，找到所有相交矩形后，计算这些矩形与查询矩形的有效相交面积，进而判断该次查询是否有效命中历史查询记录。已知查询区域Q，备选历史记录集合S＝{Q_h1,Q_h2…Q_hn}，设阈值τ，若Q与S相交面积大于v，则该历史查询有效命中。

如果历史查询出现无效命中，此时应转至步骤60的精确查询阶段进行完整数据集的遍历查询。

当判断为有效命中时，系统将遍历与查询窗口矩形相交的历史矩形，并通过真实经纬度坐标计算其相交面积，此时针对不同的聚合函数值，其计算方式也有不同的处理方法：(1)AVG(均值)，根据各相交区域的大小，按权重计算所有均值的加权平均作为查询窗口矩形的均值。(2)SUM(求和)，按各历史矩形相交区域占该历史矩形总面积的比例进行等比缩放，再计算所有相交区域的总和作为查询矩形的SUM值。

当历史查询矩形有重叠区域，且该区域位于查询窗口矩形范围内时，需要对该区域聚合值进行重评估。设集合S_overlap＝{Q_h1,Q_h2…Q_hk}相交于查询窗口矩形Q内的某一区域Ω，该区域的聚合值等于各区域值的平均值。通过上述计算，可以再满足相交面积足够大的情况下尽可能对地参考各部分的历史记录值，进行更精准的评估。

步骤60，将查询矩形放到完整数据集进行精确查询。该步骤采用树状近似查询结构进行高效查询。通过分片索引树状结构，对完整数据集进行划分，并存储非叶子结点的精确聚合结果，预建立数据立方体进行保存，当查询进行到的非叶子结点所表示范围完全被查询矩形包含时，该叶子结点所存储的精确预聚合值就可以直接被使用。当出现部分覆盖，即次底层结点的范围与查询矩形部分相交时，将进入叶子结点所表示的采样聚合估计阶段。该阶段对范围内的点进行实时采样，并通过统计方法估计整体的概率分布，最终得出估计的聚合函数结果。

步骤70，将上述步骤得到的计算结果作为最终查询结果。

步骤80，将该计算结果作为历史信息添加到历史查询模块中用于加速后续查询过程。

步骤90，查询完毕，退出查询系统。

如图2所示，构建精确查询模块的流程如下：

步骤601，使用KD树等传统空间划分方式对完整数据集进行区域划分，并递归进行该过程直到区域内所含数据量达到阈值。

步骤602，对划分好的区域建立层级索引结构。基于某一数据集的索引树，需要满足如下条件：(1)该树是多分支的，即同一维度上同一轮次可以划分多个子区域。(2)树划分出的子树对应的空间区域不相交。(3)所有子树完整划分父结点表示的空间范围，即不存在不属于任何结点的空间区域。

步骤603，针对非最小区域，预计算其各项聚合函数值，以数据立方体的形式保存在数据库中。当查询区域完全包含该非叶子节点时，可直接使用已保存的数据立方体数据得到精确的聚合结果。

步骤604，将上述预计算结果对应到树状结构的非叶子节点.

步骤605，选用采样器，用于未来可能进行的针对叶子节点的在线聚合采样估计。在线聚合方法可以直接用于叶子结点的聚合函数值估计，以均匀抽样等采样方法可以以相等的概率对每个样本进行采样，得到用于估计总体聚合函数值的样本集合。当估计完成后，还会得到相应的置信区间，用于描述估计值的可靠性。

完整的查询过程主要以树的遍历方式进行。深度优先遍历索引树时，若当前结点p表示的范围被查询范围Q完全包含，则直接终止当前递归，返回该结点预聚合的值。若当前结点与Q独立，直接返回0作为查找失败的结果。当部分重叠时，若此时的p为叶子结点，返回对该范围在线聚合的结果，否则递归遍历其所有子树。

本发明通过引入学习型数据结构加快查询速度，减少空间内存消耗。本发明首先构建针对完整数据集的近似聚合查询框架，通过结合数据立方体和基于采样的查询结构，建立树状模型，当位于非叶子节点时采用精确的数据立方体查询，当查询落在叶子节点时利用采样技术近似估计查询结果。接下来将历史查询信息保存到数据库中，并建立关于历史信息的索引结构，该结构利用空间填充曲线进行降维，并使用学习型索引结构建立索引，提高查询效率。接下来会对新到来的查询信息判定是否命中历史信息，若成功命中，则直接得到聚合结果，否则进行完整数据集的遍历查询。本发明通过历史查询模块，当有大量历史信息时，会极大提高命中效率，因而无需遍历完整数据集即可得到较为精确的查询结果，同时因为引入树状索引结构，因而针对完整数据集的查询仍较传统方法有更好的查询效率。

本发明中历史查询模块通过空间填充曲线，将历史矩形的左上顶点的空间位置记录于一维坐标中，并引入学习型索引记录该顶点的标识符与存储位置的对应关系，加速索引过程。同时将所有记录的信息记录于谓词映射表中，用于后续加速检索过程。精确查询模块将完整数据空间用KD树划分后建立层级树状索引结构，将查询区域划分为完全覆盖和部分覆盖部分，完全覆盖对应树状结构的非叶子节点，采用数据立方体存储聚合结果的准确结果，可以直接用于构成最终查询结果。部分覆盖对应叶子节点，需要通过采样方法估算该部分的聚合结果。该索引树能极大降低近似查询误差，并实现快速近似查询。

实施例二：

基于实施例一所述的一种基于多维索引树的高效近似查询系统，本实施例提供一种基于多维索引树的高效近似查询方法，所述方法包括：

将输入的查询请求进行预处理，使用最小边界矩形将查询请求中的查询区域进行抽象，统一为矩形形式，形成查询矩形，用于通过历史查询模块和/或精确查询模块进行信息查询；

当存在历史查询模块时，根据查询请求从存储于历史查询模块的历史查询信息中匹配与查询请求对应的信息，输出查询结果；

当不存在历史查询模块或在历史查询模块中没有匹配到与查询请求对应的信息时，根据查询请求通过精确查询模块从数据集中匹配与查询请求对应的信息，输出查询结果，并形成历史查询信息存储于历史查询模块。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种近似查询系统，其特征在于，包括：

查询请求接收模块，用于接收查询请求；

精确查询模块，用于根据查询请求接收模块接收的查询请求，从数据集中匹配与查询请求对应的信息，输出查询结果，并形成历史查询信息；所述数据集按照设定的近似聚合查询框架存储数据；

历史查询模块，用于按照设定的历史信息索引结构存储历史查询信息，并根据查询请求接收模块接收的查询请求，从历史查询信息中匹配与查询请求对应的信息，输出查询结果。

2.根据权利要求1所述的近似查询系统，其特征在于，所述查询请求接收模块对接收到的查询请求进行预处理，然后使用最小边界矩形将查询请求中的查询区域进行抽象，统一为矩形形式，形成查询矩形；其中，一个任意多边形的最小边界矩形，指的是能包含该多边形的最小外边界矩形。

3.根据权利要求2所述的近似查询系统，其特征在于，按照设定的近似聚合查询框架存储数据，包括：通过结合数据立方体和基于采样的查询结构，建立树状模型，当位于非叶子节点时采用精确的数据立方体查询，当查询落在叶子节点时利用采样技术近似估计查询结果。

4.根据权利要求3所述的近似查询系统，其特征在于，设定的历史信息索引结构利用空间填充曲线进行降维，即通过空间填充曲线将二维点集映射到一维坐标系中，用于通过分层索引模型建立坐标点和实际存储位置的映射关系，并使用学习型索引结构建立索引，即对于每条历史查询信息，仅保存其左上结点的位置信息Z_LT；之后通过机器学习的方法学习位置信息Z_LT和id值的概率密度函数，最终生成分层索引模型。

5.根据权利要求4所述的近似查询系统，其特征在于，历史查询模块包括历史查询记录表和谓词映射表；

历史查询信息以边界矩形的方式定义一个谓词空间，取矩形区域的左上和右下两个顶点的z-order曲线值存储于历史查询记录表中；同时将查询结果记录在聚合值列中；历史查询记录表作为后续数据结构的基础，在后续的查询过程中只允许添加操作，不允许对已有记录做修改和删除；

谓词映射表用于建立空间填充曲线值和真实经纬度值的对应关系；当查询矩形通过分层索引模型获得与之具有相交或包含关系的第一条历史数据后，通过指针找到该范围对应的真实数据值用于相交面积的计算，同时，谓词映射表中的数据按序排列，用于顺序查找后续相交区域。

6.根据权利要求5所述的近似查询系统，其特征在于，在历史查询模块中，历史查询信息的二维谓词坐标放置于被划分完毕的空间网格中，并与应用于该空间网格的空间填充曲线上的值一一对应。

7.根据权利要求5所述的近似查询系统，其特征在于，历史查询模块通过已经建立的分层索引模型，查询到第一个与查询矩形相交的历史矩形；通过该相交矩形左上节点与谓词映射表的指针，找到谓词索引表中的对应项，依次扫描后续历史记录即可找到所有的相交区域。

8.根据权利要求7所述的近似查询系统，其特征在于，历史查询模块找到所有相交矩形后，计算这些矩形与查询矩形的有效相交面积，进而判断该次查询是否有效命中历史查询记录；

已知查询区域Q，备选历史记录集合S＝{Q_h1,Q_h2…Q_hn}，设阈值τ，若Q与S相交面积大于τ，则该历史查询有效命中；

当判断为有效命中时，遍历与查询矩形相交的历史矩形，并通过真实经纬度坐标计算其相交面积，此时针对不同的聚合函数值，计算方式包括：

(1)AVG均值，根据各相交区域的大小，按权重计算所有均值的加权平均作为查询窗口矩形的均值；

(2)SUM求和，按各历史矩形相交区域占该历史矩形总面积的比例进行等比缩放，再计算所有相交区域的总和作为查询矩形的SUM值；

当历史查询矩形有重叠区域，且该区域位于查询窗口矩形范围内时，需要对该区域聚合值进行重评估；设集合S_overlap＝{Q_h1,Q_h2…Q_hk}相交于查询窗口矩形Q内的某一区域Ω，该区域的聚合值等于各区域值的平均值。

9.根据权利要求8所述的近似查询系统，其特征在于，精确查询模块采用树状近似查询结构进行查询；通过分片索引树状结构，对完整数据集进行划分，并存储非叶子结点的精确聚合结果，预建立数据立方体进行保存，当查询进行到的非叶子结点所表示范围完全被查询矩形包含时，该叶子结点所存储的精确预聚合值直接被使用；当出现部分覆盖，即次底层结点的范围与查询矩形部分相交时，进入叶子结点所表示的采样聚合估计阶段对范围内的点进行实时采样，并通过统计方法估计整体的概率分布，最终得出估计的聚合函数结果。

10.一种近似查询方法，其特征在于，采用权利要求1～9任一项所述的近似查询系统，所述方法，包括：