CN112162986A

CN112162986A - 一种并行top-k范围skyline查询方法和系统

Info

Publication number: CN112162986A
Application number: CN202011071516.7A
Authority: CN
Inventors: 李肯立; 李晓雪; 周旭; 罗文晟; 陈岑; 肖国庆; 廖清; 阳王东; 唐卓; 廖湘科
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2020-10-09
Filing date: 2020-10-09
Publication date: 2021-01-01
Anticipated expiration: 2040-10-09
Also published as: CN112162986B

Abstract

本发明公开了一种并行top‑k范围skyline查询方法和系统，其通过将数据点与查询范围构建数据元组的方法，实时更新数据点的查询范围，进行范围skyline查询，扩大了skyline查询的应用范围；在判断数据点间支配关系的过程中，对关键步骤使用并行处理，减少了计算时间，提高查询效率；对不可能成为查询结果的数据点进行过滤，避免了重复地获取所有数据信息；最后对数据点对应元组的评分进行维护，输出支配能力最强的k个范围skyline查询结果，最终得到更加准确的、可控规模的范围skyline查询结果，从而保证了查询结果具有更高的参考价值。本发明充分考虑了评分对范围skyline查询的影响，在不影响查询性能的同时避免了范围skyline结果规模不可控的限制条件，扩大了其应用范围。

Description

一种并行top-k范围skyline查询方法和系统

技术领域

本发明属于数据管理和多属性数据查询技术领域，更具体地，涉及一种并行top-k范围skyline查询方法和系统。

背景技术

随着数据管理技术的不断发展，计算机对数据进行有效的收集、存储、处理和应用的能力越来越强。skyline操作符在许多应用程序中扮演着重要的角色，它提出“支配”的概念，在大型数据库中返回不被其他点支配(不差于其他点)的skyline点集，用户只需要在返回的skyline结果而非原始数据集中进行选择，即可获得最终的查询结果。

然而，随着数据的维度与规模的不断增大，skyline查询处理的计算过程是相当耗时的；同时，较大的输出规模提供的信息较少，用户可能很难足够快地做出好的选择。

目前主流的skyline查询方法有两种，第一种是基于索引的动态skyline查询方法，其通过预先计算所有数据点之间的支配关系，并将所有的数据点组织成树形的索引结构，最终对索引进行查询得到输出结果；该方法的搜索效率虽然较高，但维护索引需要一定的空间资源，从而导致该方法并不适合较大规模的数据集；第二种是与索引无关的静态skyline查询方法，其根据数据空间中节点的位置关系对数据集进行筛选，通过对得到的子数据集进行计算并根据查询条件渐进地输出结果，从而提高其查询效率；但这种方法的缺陷在于：该方法是将所有数据点之间的位置关系都一一比较之后再计算并查找skyline结果，存在较多重复计算过程，从而浪费了部分计算资源。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了提出了一种并行top-k范围skyline查询方法和系统，其目的在于，解决现基于索引的动态skyline查询方法由于维护索引需要一定的空间资源，从而导致该方法并不适合较大规模数据集的技术问题，以及现有与索引无关的静态skyline查询方法由于存在较多重复计算过程，导致部分计算资源被浪费的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种并行top-k范围skyline查询方法，包括以下步骤：

(1)获取需要查询的原始数据集、该原始数据集中每个数据点的属性个数d、对原始数据集的查询范围Ω(其中查询范围Ω的起始点为qs，结束点为qe，且起始点qs和结束点qe具有d个属性)、以及范围skyline的查询结果数量k，其中d、k为任意自然数；

(2)将步骤(1)中得到的原始数据集中的每个数据点与该原始数据集的查询范围组合成该数据点对应的数据元组，并将每个数据元组的评分初始化为0；

(3)对于所有数据元组而言，根据其对应的各个数据点到查询范围的起始点qs的距离，按照距离升序的方式对这些数据元组进行并行排序，并将排序结果中的第一个数据元组加入到范围skyline的第一候选查询结果中；

(4)设置计数器count＝1；

(5)判断count是否大于步骤(3)得到的排序结果中数据元组的总数，如果是则进入步骤(11)，否则进入步骤(6)；

(6)从步骤(3)的排序结果中获取第count个数据元组，并使用范围Skyline查询(Range Skyline Query，简称RSQ)方法确定第count个数据元组对应的数据点与第一候选查询结果中每一个数据元组对应数据点之间的范围支配关系；

(7)根据步骤(6)中确定的第count个数据元组对应的数据点与第一候选查询结果中每一个数据元组对应数据点之间的范围支配关系对该第count个数据元组对应的数据点对应的查询范围进行更新，记录此时第一候选查询结果中的数据元组，并判断更新后的该查询范围相对更新前的查询范围是不变，还是缩小，如果不变则进入步骤(9)，如果缩小则进入步骤(8)；

(8)将步骤(7)中记录的第一候选查询结果中使得第count个数据元组对应数据点对应的查询范围发生更新的数据元组的评分加1，然后进入步骤(10)；

(9)将步骤(6)中获取的第count个数据元组加入第一候选查询结果中，然后进入步骤(10)；

(10)设置计数器count＝count+1，并返回步骤(5)；

(11)对于第一候选查询结果中的所有数据元组而言，利用双调排序算法(Bitonicsort algorithm)并行地对所有数据元组的评分按照从大到小的顺序进行排序；

(12)从步骤(11)获得的排序结果中获取前k个数据元组对应的数据点，将这些数据点加入最终查询结果中，过程结束。

优选地，步骤(3)包括以下子步骤：

(3-1)根据以下公式计算每个数据点到查询范围的起始点qs的距离dis(P_i)：

其中i∈[1，原始数据集中数据点的总数]，P_ij表示第i个数据点的第j个属性值，qs_j表示查询范围的起始点qs的第j个属性值，且j∈[1，d]；

(3-2)利用双调排序算法并行地对步骤(3-1)得到的到查询范围的起始点qs的距离按照从小到大的顺序进行排序；

(3-3)将排序结果中的第一个数据元组加入到范围skyline的第一候选查询结果中。

优选地，前一个数据点与后一个数据点之间的范围支配关系包括：

A、前一个数据点在其对应的查询范围内都不被后一个数据点支配；以及

B、前一个数据点在其对应的查询范围内被后一个数据点支配。

按照本发明的另一方面，提供了一种并行top-k范围skyline查询系统，包括以下步骤：

第一模块，用于获取需要查询的原始数据集、该原始数据集中每个数据点的属性个数d、对原始数据集的查询范围Ω(其中查询范围Ω的起始点为qs，结束点为qe，且起始点qs和结束点qe具有d个属性)、以及范围skyline的查询结果数量k，其中d、k为任意自然数；

第二模块，用于将第一模块中得到的原始数据集中的每个数据点与该原始数据集的查询范围组合成该数据点对应的数据元组，并将每个数据元组的评分初始化为0；

第三模块，用于对于所有数据元组而言，根据其对应的各个数据点到查询范围的起始点qs的距离，按照距离升序的方式对这些数据元组进行并行排序，并将排序结果中的第一个数据元组加入到范围skyline的第一候选查询结果中；

第四模块，用于设置计数器count＝1；

第五模块，用于判断count是否大于第三模块得到的排序结果中数据元组的总数，如果是则进入第十一模块，否则进入第六模块；

第六模块，用于从第三模块的排序结果中获取第count个数据元组，并使用范围Skyline查询方法确定第count个数据元组对应的数据点与第一候选查询结果中每一个数据元组对应数据点之间的范围支配关系；

第七模块，用于根据第六模块中确定的第count个数据元组对应的数据点与第一候选查询结果中每一个数据元组对应数据点之间的范围支配关系对该第count个数据元组对应的数据点对应的查询范围进行更新，记录此时第一候选查询结果中的数据元组，并判断更新后的该查询范围相对更新前的查询范围是不变，还是缩小，如果不变则进入第九模块，如果缩小则进入第八模块；

第八模块，用于将第七模块中记录的第一候选查询结果中使得第count个数据元组对应数据点对应的查询范围发生更新的数据元组的评分加1，然后进入第十模块；

第九模块，用于将第六模块中获取的第count个数据元组加入第一候选查询结果中，然后进入第十模块；

第十模块，用于设置计数器count＝count+1，并返回第五模块；

第十一模块，用于对于第一候选查询结果中的所有数据元组而言，利用双调排序算法并行地对所有数据元组的评分按照从大到小的顺序进行排序；

第十二模块，用于从第十一模块获得的排序结果中获取前k个数据元组对应的数据点，将这些数据点加入最终查询结果中，过程结束。

优选地，第三模块包括：

第一子模块，用于根据以下公式计算每个数据点到查询范围的起始点qs的距离dis(P_i)：

第二子模块，用于利用双调排序算法并行地对第一子模块得到的到查询范围的起始点qs的距离按照从小到大的顺序进行排序；

第三子模块，用于将排序结果中的第一个数据元组加入到范围skyline的第一候选查询结果中。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

1、本发明能够解决现有基于索引的动态skyline查询方法中由于需要占用一些空间资源而导致的适合较大规模数据集的技术问题：由于本发明采用了步骤(6)到(7)对数据集进行筛选，过滤不可能成为查询结果的数据点，缩小了数据集规模，因此能够减少对空间资源的占用，并进而能够对大规模数据进行更高效的查询；

2、本发明能够解决现有与索引无关的静态skyline查询方法由于存在较多重复计算过程而导致的浪费计算资源的技术问题：由于本发明采用了步骤(3)、步骤(6)和步骤(9)，其将数据点按照到查询范围起始点的距离进行排序，因此能够保证当前处理的数据点不被后序数据点影响，避免了对数据点的重复计算，减少了计算成本，在查询时能保证更高的效率；

3、本发明能够满足关于范围而非单点的skyline查询需求，应用性强：由于本发明采用了步骤(1)和步骤(6)，其读取查询范围，并对数据点关于查询范围做支配关系判断，扩大了应用范围。

4、本发明能够进一步降低计算成本：由于本发明采用了步骤(3)和步骤(11)，其使用并行的方法多线程优化排序过程，大大提高排序效率，从而降低整个查询过程的计算时间，降低计算成本。

5、本发明能够解决skyline查询结果规模过大导致的输出结果参考意义及准确性降低的问题：由于本发明采用了步骤(1)、步骤(8)、步骤(11)到(12)，其读取指定的输出约束k值，根据数据点间的支配关系维护第一候选查询结果中数据元组的评分，通过并行排序方法，输出k个评分最高的查询结果，使输出结果更具有代表性及参考价值。

附图说明

图1是本发明并行top-k范围skyline查询方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明的基本思路在于，面向更深层次的并行计算范围skyline的top-k输出目标，提出了一种并行top-k范围skyline查询方法，以避免传统skyline查询方法对计算资源的浪费，提高范围skyline查询处理的有效性。

如图1所示，本发明提供了一种并行top-k范围skyline查询方法，包括以下步骤：

本步骤的优点在于，将数据点与查询范围组合成为数据元组，在接下来的计算中能够实时维护数据点与查询范围的对应关系，从而避免对数据点与查询范围之间的重复查找计算，提高计算效率。

具体而言，本步骤包括以下子步骤：

(3-2)利用双调排序算法(Bitonic sort algorithm)并行地对步骤(3-1)得到的到查询范围的起始点qs的距离按照从小到大的顺序进行排序；

本步骤的优点在于，将数据点按照到查询范围起始点的距离进行排序，保证当前处理的数据点不被后序数据点影响，避免了对数据点的重复计算；使用并行的方法多线程优化排序过程，大大提高排序效率，从而降低整个查询过程的计算时间，降低计算成本。

(4)设置计数器count＝1；

具体而言，本步骤中使用的RSQ方法具体可参见T.Tzouramanis、E.Tiakas、Apostolos N.、Y.Manolopoulos等人发表的“The Range Skyline Query”CIKM,pp 47-56,2018。

前一个数据点与后一个数据点之间的范围支配关系包括：

A、前一个数据点在其对应的查询范围内都不被后一个数据点支配；

B、前一个数据点在其对应的查询范围内被后一个数据点支配；

上述步骤(6)和(7)的优点在于，对数据集进行筛选，过滤不可能成为查询结果的数据点，缩小了数据集规模，因此能够减少对空间资源的占用，能够对大规模数据进行更高效查询。

举例而言，如果查询范围是[1,6]，第count个数据元组对应的数据点是p₁，与第一候选查询结果中第一个数据元组对应数据点s₁之间的范围支配关系是s₁在范围[1,2]∈[1,6]内支配p₁，该数据点p₁与第一候选查询结果中第二个数据元组对应数据点s₂之间的范围支配关系是s₂在整个范围[1,6]内都不支配p₁，数据点与第一候选查询结果中第三个数据元组s₃对应数据点之间的范围支配关系是s₃在范围[1,4]∈[1,6]内支配p₁。则记录数据点s₁、s₃对应的数据元组，对该第count个数据元组对应的数据点对应的查询范围进行更新后，得到的查询范围是(4,6]，即更新后的查询范围相对于更新前的查询范围缩小了。

上述步骤(6)和(8)的优点在于，判断数据点间支配关系的同时维护第一候选查询结果中数据元组的评分，在处理完所有数据点后不需要继续调用其他方法来更新评分，节省计算成本。

(10)设置计数器count＝count+1，并返回步骤(5)；

上述步骤(11)和(12)的优点在于，通过并行排序方法，降低排序的时间开销，提高排序效率；输出k个评分最高的查询结果，使输出结果更具有代表性及参考价值。

举例而言，在并行top-k范围skyline查询方法中，对于一个d维数据集，指定查询范围Ω，本发明首先构建数据元组，包含数据点值、数据点的未支配范围和数据点的范围支配分数，其中未支配范围被初始化为查询范围，范围支配分数被初始化为0分。按照数据点到查询范围起始点qs的距离，使用并行计算方法从小到大的顺序排列各个对应的数据元组，并将第一个元组直接加入到第一候选查询结果中。按照顺序判断排序后的元组对应数据点与第一候选查询结果中元组对应的数据点的范围支配关系，并更新该数据元组的查询范围，如果查询范围更新后不变，那么将对应的数据元组加入到第一候选查询结果中；如果得到的查询范围缩小，那么将令该数据元组的查询范围发上变化的第一候选查询结果中的数据元组的评分加1。当所有数据元组被处理完毕后，通过对第一候选查询结果中的数据元组的评分并行排序，输出具体的k个查询结果。对多维数据集的实验发现，随着更新数据规模的增长，本发明提出的并行top-k范围skyline查询方法对数据的处理时间呈相同的增长趋势，其中反关联数据集的表现更加平稳。对关键步骤的并行处理极大地提升了对动态数据的计算效率，控制了范围skyline查询结果的规模。

总而言之，本发明提供了一种并行top-k范围skyline查询方法，其通过将数据点与查询范围构建数据元组的方法，实时更新数据点的查询范围，进行范围skyline查询，扩大了skyline查询的应用范围；在判断数据点间支配关系的过程中，对关键步骤使用并行处理，减少了计算时间，提高查询效率；对不可能成为查询结果的数据点进行过滤，避免了重复地获取所有数据信息；对数据点对应元组的评分进行维护，最终得到更加准确的、可控规模的范围skyline查询结果，保证了查询结果具有更高的参考价值。

本发明弥补了现有范围skyline查询方面的不足，但保留了其优势，使得范围skyline查询技术变得完美：第一，通过并行处理，避免了对相同数据的重复计算，大大提高了计算效率，节省了查询成本；第二，充分考虑了评分对范围skyline查询的影响，在不影响查询性能的同时避免了范围skyline结果规模不可控的限制条件，扩大了其应用范围。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种并行top-k范围skyline查询方法，其特征在于，包括以下步骤：

(4)设置计数器count＝1；

(6)从步骤(3)的排序结果中获取第count个数据元组，并使用范围Skyline查询(RangeSkyline Query，简称RSQ)方法确定第count个数据元组对应的数据点与第一候选查询结果中每一个数据元组对应数据点之间的范围支配关系；

(10)设置计数器count＝count+1，并返回步骤(5)；

2.根据权利要求1所述的并行top-k范围skyline查询方法，其特征在于，步骤(3)包括以下子步骤：

3.根据权利要求1所述的并行top-k范围skyline查询方法，其特征在于，前一个数据点与后一个数据点之间的范围支配关系包括：

4.一种并行top-k范围skyline查询系统，其特征在于，包括以下步骤：

第四模块，用于设置计数器count＝1；

第十模块，用于设置计数器count＝count+1，并返回第五模块；

5.根据权利要求4所述的并行top-k范围skyline查询系统，其特征在于，第三模块包括：

6.根据权利要求1所述的并行top-k范围skyline查询系统，其特征在于，前一个数据点与后一个数据点之间的范围支配关系包括：