CN112162986A - 一种并行top-k范围skyline查询方法和系统 - Google Patents

一种并行top-k范围skyline查询方法和系统 Download PDF

Info

Publication number
CN112162986A
CN112162986A CN202011071516.7A CN202011071516A CN112162986A CN 112162986 A CN112162986 A CN 112162986A CN 202011071516 A CN202011071516 A CN 202011071516A CN 112162986 A CN112162986 A CN 112162986A
Authority
CN
China
Prior art keywords
data
range
query
module
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011071516.7A
Other languages
English (en)
Other versions
CN112162986B (zh
Inventor
李肯立
李晓雪
周旭
罗文晟
陈岑
肖国庆
廖清
阳王东
唐卓
廖湘科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202011071516.7A priority Critical patent/CN112162986B/zh
Publication of CN112162986A publication Critical patent/CN112162986A/zh
Application granted granted Critical
Publication of CN112162986B publication Critical patent/CN112162986B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种并行top‑k范围skyline查询方法和系统,其通过将数据点与查询范围构建数据元组的方法,实时更新数据点的查询范围,进行范围skyline查询,扩大了skyline查询的应用范围;在判断数据点间支配关系的过程中,对关键步骤使用并行处理,减少了计算时间,提高查询效率;对不可能成为查询结果的数据点进行过滤,避免了重复地获取所有数据信息;最后对数据点对应元组的评分进行维护,输出支配能力最强的k个范围skyline查询结果,最终得到更加准确的、可控规模的范围skyline查询结果,从而保证了查询结果具有更高的参考价值。本发明充分考虑了评分对范围skyline查询的影响,在不影响查询性能的同时避免了范围skyline结果规模不可控的限制条件,扩大了其应用范围。

Description

一种并行top-k范围skyline查询方法和系统
技术领域
本发明属于数据管理和多属性数据查询技术领域,更具体地,涉及一种并行top-k范围skyline查询方法和系统。
背景技术
随着数据管理技术的不断发展,计算机对数据进行有效的收集、存储、处理和应用的能力越来越强。skyline操作符在许多应用程序中扮演着重要的角色,它提出“支配”的概念,在大型数据库中返回不被其他点支配(不差于其他点)的skyline点集,用户只需要在返回的skyline结果而非原始数据集中进行选择,即可获得最终的查询结果。
然而,随着数据的维度与规模的不断增大,skyline查询处理的计算过程是相当耗时的;同时,较大的输出规模提供的信息较少,用户可能很难足够快地做出好的选择。
目前主流的skyline查询方法有两种,第一种是基于索引的动态skyline查询方法,其通过预先计算所有数据点之间的支配关系,并将所有的数据点组织成树形的索引结构,最终对索引进行查询得到输出结果;该方法的搜索效率虽然较高,但维护索引需要一定的空间资源,从而导致该方法并不适合较大规模的数据集;第二种是与索引无关的静态skyline查询方法,其根据数据空间中节点的位置关系对数据集进行筛选,通过对得到的子数据集进行计算并根据查询条件渐进地输出结果,从而提高其查询效率;但这种方法的缺陷在于:该方法是将所有数据点之间的位置关系都一一比较之后再计算并查找skyline结果,存在较多重复计算过程,从而浪费了部分计算资源。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了提出了一种并行top-k范围skyline查询方法和系统,其目的在于,解决现基于索引的动态skyline查询方法由于维护索引需要一定的空间资源,从而导致该方法并不适合较大规模数据集的技术问题,以及现有与索引无关的静态skyline查询方法由于存在较多重复计算过程,导致部分计算资源被浪费的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种并行top-k范围skyline查询方法,包括以下步骤:
(1)获取需要查询的原始数据集、该原始数据集中每个数据点的属性个数d、对原始数据集的查询范围Ω(其中查询范围Ω的起始点为qs,结束点为qe,且起始点qs和结束点qe具有d个属性)、以及范围skyline的查询结果数量k,其中d、k为任意自然数;
(2)将步骤(1)中得到的原始数据集中的每个数据点与该原始数据集的查询范围组合成该数据点对应的数据元组,并将每个数据元组的评分初始化为0;
(3)对于所有数据元组而言,根据其对应的各个数据点到查询范围的起始点qs的距离,按照距离升序的方式对这些数据元组进行并行排序,并将排序结果中的第一个数据元组加入到范围skyline的第一候选查询结果中;
(4)设置计数器count=1;
(5)判断count是否大于步骤(3)得到的排序结果中数据元组的总数,如果是则进入步骤(11),否则进入步骤(6);
(6)从步骤(3)的排序结果中获取第count个数据元组,并使用范围Skyline查询(Range Skyline Query,简称RSQ)方法确定第count个数据元组对应的数据点与第一候选查询结果中每一个数据元组对应数据点之间的范围支配关系;
(7)根据步骤(6)中确定的第count个数据元组对应的数据点与第一候选查询结果中每一个数据元组对应数据点之间的范围支配关系对该第count个数据元组对应的数据点对应的查询范围进行更新,记录此时第一候选查询结果中的数据元组,并判断更新后的该查询范围相对更新前的查询范围是不变,还是缩小,如果不变则进入步骤(9),如果缩小则进入步骤(8);
(8)将步骤(7)中记录的第一候选查询结果中使得第count个数据元组对应数据点对应的查询范围发生更新的数据元组的评分加1,然后进入步骤(10);
(9)将步骤(6)中获取的第count个数据元组加入第一候选查询结果中,然后进入步骤(10);
(10)设置计数器count=count+1,并返回步骤(5);
(11)对于第一候选查询结果中的所有数据元组而言,利用双调排序算法(Bitonicsort algorithm)并行地对所有数据元组的评分按照从大到小的顺序进行排序;
(12)从步骤(11)获得的排序结果中获取前k个数据元组对应的数据点,将这些数据点加入最终查询结果中,过程结束。
优选地,步骤(3)包括以下子步骤:
(3-1)根据以下公式计算每个数据点到查询范围的起始点qs的距离dis(Pi):
Figure BDA0002715167780000031
其中i∈[1,原始数据集中数据点的总数],Pij表示第i个数据点的第j个属性值,qsj表示查询范围的起始点qs的第j个属性值,且j∈[1,d];
(3-2)利用双调排序算法并行地对步骤(3-1)得到的到查询范围的起始点qs的距离按照从小到大的顺序进行排序;
(3-3)将排序结果中的第一个数据元组加入到范围skyline的第一候选查询结果中。
优选地,前一个数据点与后一个数据点之间的范围支配关系包括:
A、前一个数据点在其对应的查询范围内都不被后一个数据点支配;以及
B、前一个数据点在其对应的查询范围内被后一个数据点支配。
按照本发明的另一方面,提供了一种并行top-k范围skyline查询系统,包括以下步骤:
第一模块,用于获取需要查询的原始数据集、该原始数据集中每个数据点的属性个数d、对原始数据集的查询范围Ω(其中查询范围Ω的起始点为qs,结束点为qe,且起始点qs和结束点qe具有d个属性)、以及范围skyline的查询结果数量k,其中d、k为任意自然数;
第二模块,用于将第一模块中得到的原始数据集中的每个数据点与该原始数据集的查询范围组合成该数据点对应的数据元组,并将每个数据元组的评分初始化为0;
第三模块,用于对于所有数据元组而言,根据其对应的各个数据点到查询范围的起始点qs的距离,按照距离升序的方式对这些数据元组进行并行排序,并将排序结果中的第一个数据元组加入到范围skyline的第一候选查询结果中;
第四模块,用于设置计数器count=1;
第五模块,用于判断count是否大于第三模块得到的排序结果中数据元组的总数,如果是则进入第十一模块,否则进入第六模块;
第六模块,用于从第三模块的排序结果中获取第count个数据元组,并使用范围Skyline查询方法确定第count个数据元组对应的数据点与第一候选查询结果中每一个数据元组对应数据点之间的范围支配关系;
第七模块,用于根据第六模块中确定的第count个数据元组对应的数据点与第一候选查询结果中每一个数据元组对应数据点之间的范围支配关系对该第count个数据元组对应的数据点对应的查询范围进行更新,记录此时第一候选查询结果中的数据元组,并判断更新后的该查询范围相对更新前的查询范围是不变,还是缩小,如果不变则进入第九模块,如果缩小则进入第八模块;
第八模块,用于将第七模块中记录的第一候选查询结果中使得第count个数据元组对应数据点对应的查询范围发生更新的数据元组的评分加1,然后进入第十模块;
第九模块,用于将第六模块中获取的第count个数据元组加入第一候选查询结果中,然后进入第十模块;
第十模块,用于设置计数器count=count+1,并返回第五模块;
第十一模块,用于对于第一候选查询结果中的所有数据元组而言,利用双调排序算法并行地对所有数据元组的评分按照从大到小的顺序进行排序;
第十二模块,用于从第十一模块获得的排序结果中获取前k个数据元组对应的数据点,将这些数据点加入最终查询结果中,过程结束。
优选地,第三模块包括:
第一子模块,用于根据以下公式计算每个数据点到查询范围的起始点qs的距离dis(Pi):
Figure BDA0002715167780000051
其中i∈[1,原始数据集中数据点的总数],Pij表示第i个数据点的第j个属性值,qsj表示查询范围的起始点qs的第j个属性值,且j∈[1,d];
第二子模块,用于利用双调排序算法并行地对第一子模块得到的到查询范围的起始点qs的距离按照从小到大的顺序进行排序;
第三子模块,用于将排序结果中的第一个数据元组加入到范围skyline的第一候选查询结果中。
优选地,前一个数据点与后一个数据点之间的范围支配关系包括:
A、前一个数据点在其对应的查询范围内都不被后一个数据点支配;以及
B、前一个数据点在其对应的查询范围内被后一个数据点支配。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
1、本发明能够解决现有基于索引的动态skyline查询方法中由于需要占用一些空间资源而导致的适合较大规模数据集的技术问题:由于本发明采用了步骤(6)到(7)对数据集进行筛选,过滤不可能成为查询结果的数据点,缩小了数据集规模,因此能够减少对空间资源的占用,并进而能够对大规模数据进行更高效的查询;
2、本发明能够解决现有与索引无关的静态skyline查询方法由于存在较多重复计算过程而导致的浪费计算资源的技术问题:由于本发明采用了步骤(3)、步骤(6)和步骤(9),其将数据点按照到查询范围起始点的距离进行排序,因此能够保证当前处理的数据点不被后序数据点影响,避免了对数据点的重复计算,减少了计算成本,在查询时能保证更高的效率;
3、本发明能够满足关于范围而非单点的skyline查询需求,应用性强:由于本发明采用了步骤(1)和步骤(6),其读取查询范围,并对数据点关于查询范围做支配关系判断,扩大了应用范围。
4、本发明能够进一步降低计算成本:由于本发明采用了步骤(3)和步骤(11),其使用并行的方法多线程优化排序过程,大大提高排序效率,从而降低整个查询过程的计算时间,降低计算成本。
5、本发明能够解决skyline查询结果规模过大导致的输出结果参考意义及准确性降低的问题:由于本发明采用了步骤(1)、步骤(8)、步骤(11)到(12),其读取指定的输出约束k值,根据数据点间的支配关系维护第一候选查询结果中数据元组的评分,通过并行排序方法,输出k个评分最高的查询结果,使输出结果更具有代表性及参考价值。
附图说明
图1是本发明并行top-k范围skyline查询方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明的基本思路在于,面向更深层次的并行计算范围skyline的top-k输出目标,提出了一种并行top-k范围skyline查询方法,以避免传统skyline查询方法对计算资源的浪费,提高范围skyline查询处理的有效性。
如图1所示,本发明提供了一种并行top-k范围skyline查询方法,包括以下步骤:
(1)获取需要查询的原始数据集、该原始数据集中每个数据点的属性个数d、对原始数据集的查询范围Ω(其中查询范围Ω的起始点为qs,结束点为qe,且起始点qs和结束点qe具有d个属性)、以及范围skyline的查询结果数量k,其中d、k为任意自然数;
(2)将步骤(1)中得到的原始数据集中的每个数据点与该原始数据集的查询范围组合成该数据点对应的数据元组,并将每个数据元组的评分初始化为0;
本步骤的优点在于,将数据点与查询范围组合成为数据元组,在接下来的计算中能够实时维护数据点与查询范围的对应关系,从而避免对数据点与查询范围之间的重复查找计算,提高计算效率。
(3)对于所有数据元组而言,根据其对应的各个数据点到查询范围的起始点qs的距离,按照距离升序的方式对这些数据元组进行并行排序,并将排序结果中的第一个数据元组加入到范围skyline的第一候选查询结果中;
具体而言,本步骤包括以下子步骤:
(3-1)根据以下公式计算每个数据点到查询范围的起始点qs的距离dis(Pi):
Figure BDA0002715167780000081
其中i∈[1,原始数据集中数据点的总数],Pij表示第i个数据点的第j个属性值,qsj表示查询范围的起始点qs的第j个属性值,且j∈[1,d];
(3-2)利用双调排序算法(Bitonic sort algorithm)并行地对步骤(3-1)得到的到查询范围的起始点qs的距离按照从小到大的顺序进行排序;
(3-3)将排序结果中的第一个数据元组加入到范围skyline的第一候选查询结果中。
本步骤的优点在于,将数据点按照到查询范围起始点的距离进行排序,保证当前处理的数据点不被后序数据点影响,避免了对数据点的重复计算;使用并行的方法多线程优化排序过程,大大提高排序效率,从而降低整个查询过程的计算时间,降低计算成本。
(4)设置计数器count=1;
(5)判断count是否大于步骤(3)得到的排序结果中数据元组的总数,如果是则进入步骤(11),否则进入步骤(6);
(6)从步骤(3)的排序结果中获取第count个数据元组,并使用范围Skyline查询(Range Skyline Query,简称RSQ)方法确定第count个数据元组对应的数据点与第一候选查询结果中每一个数据元组对应数据点之间的范围支配关系;
具体而言,本步骤中使用的RSQ方法具体可参见T.Tzouramanis、E.Tiakas、Apostolos N.、Y.Manolopoulos等人发表的“The Range Skyline Query”CIKM,pp 47-56,2018。
前一个数据点与后一个数据点之间的范围支配关系包括:
A、前一个数据点在其对应的查询范围内都不被后一个数据点支配;
B、前一个数据点在其对应的查询范围内被后一个数据点支配;
(7)根据步骤(6)中确定的第count个数据元组对应的数据点与第一候选查询结果中每一个数据元组对应数据点之间的范围支配关系对该第count个数据元组对应的数据点对应的查询范围进行更新,记录此时第一候选查询结果中的数据元组,并判断更新后的该查询范围相对更新前的查询范围是不变,还是缩小,如果不变则进入步骤(9),如果缩小则进入步骤(8);
上述步骤(6)和(7)的优点在于,对数据集进行筛选,过滤不可能成为查询结果的数据点,缩小了数据集规模,因此能够减少对空间资源的占用,能够对大规模数据进行更高效查询。
举例而言,如果查询范围是[1,6],第count个数据元组对应的数据点是p1,与第一候选查询结果中第一个数据元组对应数据点s1之间的范围支配关系是s1在范围[1,2]∈[1,6]内支配p1,该数据点p1与第一候选查询结果中第二个数据元组对应数据点s2之间的范围支配关系是s2在整个范围[1,6]内都不支配p1,数据点与第一候选查询结果中第三个数据元组s3对应数据点之间的范围支配关系是s3在范围[1,4]∈[1,6]内支配p1。则记录数据点s1、s3对应的数据元组,对该第count个数据元组对应的数据点对应的查询范围进行更新后,得到的查询范围是(4,6],即更新后的查询范围相对于更新前的查询范围缩小了。
(8)将步骤(7)中记录的第一候选查询结果中使得第count个数据元组对应数据点对应的查询范围发生更新的数据元组的评分加1,然后进入步骤(10);
上述步骤(6)和(8)的优点在于,判断数据点间支配关系的同时维护第一候选查询结果中数据元组的评分,在处理完所有数据点后不需要继续调用其他方法来更新评分,节省计算成本。
(9)将步骤(6)中获取的第count个数据元组加入第一候选查询结果中,然后进入步骤(10);
(10)设置计数器count=count+1,并返回步骤(5);
(11)对于第一候选查询结果中的所有数据元组而言,利用双调排序算法(Bitonicsort algorithm)并行地对所有数据元组的评分按照从大到小的顺序进行排序;
(12)从步骤(11)获得的排序结果中获取前k个数据元组对应的数据点,将这些数据点加入最终查询结果中,过程结束。
上述步骤(11)和(12)的优点在于,通过并行排序方法,降低排序的时间开销,提高排序效率;输出k个评分最高的查询结果,使输出结果更具有代表性及参考价值。
举例而言,在并行top-k范围skyline查询方法中,对于一个d维数据集,指定查询范围Ω,本发明首先构建数据元组,包含数据点值、数据点的未支配范围和数据点的范围支配分数,其中未支配范围被初始化为查询范围,范围支配分数被初始化为0分。按照数据点到查询范围起始点qs的距离,使用并行计算方法从小到大的顺序排列各个对应的数据元组,并将第一个元组直接加入到第一候选查询结果中。按照顺序判断排序后的元组对应数据点与第一候选查询结果中元组对应的数据点的范围支配关系,并更新该数据元组的查询范围,如果查询范围更新后不变,那么将对应的数据元组加入到第一候选查询结果中;如果得到的查询范围缩小,那么将令该数据元组的查询范围发上变化的第一候选查询结果中的数据元组的评分加1。当所有数据元组被处理完毕后,通过对第一候选查询结果中的数据元组的评分并行排序,输出具体的k个查询结果。对多维数据集的实验发现,随着更新数据规模的增长,本发明提出的并行top-k范围skyline查询方法对数据的处理时间呈相同的增长趋势,其中反关联数据集的表现更加平稳。对关键步骤的并行处理极大地提升了对动态数据的计算效率,控制了范围skyline查询结果的规模。
总而言之,本发明提供了一种并行top-k范围skyline查询方法,其通过将数据点与查询范围构建数据元组的方法,实时更新数据点的查询范围,进行范围skyline查询,扩大了skyline查询的应用范围;在判断数据点间支配关系的过程中,对关键步骤使用并行处理,减少了计算时间,提高查询效率;对不可能成为查询结果的数据点进行过滤,避免了重复地获取所有数据信息;对数据点对应元组的评分进行维护,最终得到更加准确的、可控规模的范围skyline查询结果,保证了查询结果具有更高的参考价值。
本发明弥补了现有范围skyline查询方面的不足,但保留了其优势,使得范围skyline查询技术变得完美:第一,通过并行处理,避免了对相同数据的重复计算,大大提高了计算效率,节省了查询成本;第二,充分考虑了评分对范围skyline查询的影响,在不影响查询性能的同时避免了范围skyline结果规模不可控的限制条件,扩大了其应用范围。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种并行top-k范围skyline查询方法,其特征在于,包括以下步骤:
(1)获取需要查询的原始数据集、该原始数据集中每个数据点的属性个数d、对原始数据集的查询范围Ω(其中查询范围Ω的起始点为qs,结束点为qe,且起始点qs和结束点qe具有d个属性)、以及范围skyline的查询结果数量k,其中d、k为任意自然数;
(2)将步骤(1)中得到的原始数据集中的每个数据点与该原始数据集的查询范围组合成该数据点对应的数据元组,并将每个数据元组的评分初始化为0;
(3)对于所有数据元组而言,根据其对应的各个数据点到查询范围的起始点qs的距离,按照距离升序的方式对这些数据元组进行并行排序,并将排序结果中的第一个数据元组加入到范围skyline的第一候选查询结果中;
(4)设置计数器count=1;
(5)判断count是否大于步骤(3)得到的排序结果中数据元组的总数,如果是则进入步骤(11),否则进入步骤(6);
(6)从步骤(3)的排序结果中获取第count个数据元组,并使用范围Skyline查询(RangeSkyline Query,简称RSQ)方法确定第count个数据元组对应的数据点与第一候选查询结果中每一个数据元组对应数据点之间的范围支配关系;
(7)根据步骤(6)中确定的第count个数据元组对应的数据点与第一候选查询结果中每一个数据元组对应数据点之间的范围支配关系对该第count个数据元组对应的数据点对应的查询范围进行更新,记录此时第一候选查询结果中的数据元组,并判断更新后的该查询范围相对更新前的查询范围是不变,还是缩小,如果不变则进入步骤(9),如果缩小则进入步骤(8);
(8)将步骤(7)中记录的第一候选查询结果中使得第count个数据元组对应数据点对应的查询范围发生更新的数据元组的评分加1,然后进入步骤(10);
(9)将步骤(6)中获取的第count个数据元组加入第一候选查询结果中,然后进入步骤(10);
(10)设置计数器count=count+1,并返回步骤(5);
(11)对于第一候选查询结果中的所有数据元组而言,利用双调排序算法(Bitonicsort algorithm)并行地对所有数据元组的评分按照从大到小的顺序进行排序;
(12)从步骤(11)获得的排序结果中获取前k个数据元组对应的数据点,将这些数据点加入最终查询结果中,过程结束。
2.根据权利要求1所述的并行top-k范围skyline查询方法,其特征在于,步骤(3)包括以下子步骤:
(3-1)根据以下公式计算每个数据点到查询范围的起始点qs的距离dis(Pi):
Figure FDA0002715167770000021
其中i∈[1,原始数据集中数据点的总数],Pij表示第i个数据点的第j个属性值,qsj表示查询范围的起始点qs的第j个属性值,且j∈[1,d];
(3-2)利用双调排序算法并行地对步骤(3-1)得到的到查询范围的起始点qs的距离按照从小到大的顺序进行排序;
(3-3)将排序结果中的第一个数据元组加入到范围skyline的第一候选查询结果中。
3.根据权利要求1所述的并行top-k范围skyline查询方法,其特征在于,前一个数据点与后一个数据点之间的范围支配关系包括:
A、前一个数据点在其对应的查询范围内都不被后一个数据点支配;以及
B、前一个数据点在其对应的查询范围内被后一个数据点支配。
4.一种并行top-k范围skyline查询系统,其特征在于,包括以下步骤:
第一模块,用于获取需要查询的原始数据集、该原始数据集中每个数据点的属性个数d、对原始数据集的查询范围Ω(其中查询范围Ω的起始点为qs,结束点为qe,且起始点qs和结束点qe具有d个属性)、以及范围skyline的查询结果数量k,其中d、k为任意自然数;
第二模块,用于将第一模块中得到的原始数据集中的每个数据点与该原始数据集的查询范围组合成该数据点对应的数据元组,并将每个数据元组的评分初始化为0;
第三模块,用于对于所有数据元组而言,根据其对应的各个数据点到查询范围的起始点qs的距离,按照距离升序的方式对这些数据元组进行并行排序,并将排序结果中的第一个数据元组加入到范围skyline的第一候选查询结果中;
第四模块,用于设置计数器count=1;
第五模块,用于判断count是否大于第三模块得到的排序结果中数据元组的总数,如果是则进入第十一模块,否则进入第六模块;
第六模块,用于从第三模块的排序结果中获取第count个数据元组,并使用范围Skyline查询方法确定第count个数据元组对应的数据点与第一候选查询结果中每一个数据元组对应数据点之间的范围支配关系;
第七模块,用于根据第六模块中确定的第count个数据元组对应的数据点与第一候选查询结果中每一个数据元组对应数据点之间的范围支配关系对该第count个数据元组对应的数据点对应的查询范围进行更新,记录此时第一候选查询结果中的数据元组,并判断更新后的该查询范围相对更新前的查询范围是不变,还是缩小,如果不变则进入第九模块,如果缩小则进入第八模块;
第八模块,用于将第七模块中记录的第一候选查询结果中使得第count个数据元组对应数据点对应的查询范围发生更新的数据元组的评分加1,然后进入第十模块;
第九模块,用于将第六模块中获取的第count个数据元组加入第一候选查询结果中,然后进入第十模块;
第十模块,用于设置计数器count=count+1,并返回第五模块;
第十一模块,用于对于第一候选查询结果中的所有数据元组而言,利用双调排序算法并行地对所有数据元组的评分按照从大到小的顺序进行排序;
第十二模块,用于从第十一模块获得的排序结果中获取前k个数据元组对应的数据点,将这些数据点加入最终查询结果中,过程结束。
5.根据权利要求4所述的并行top-k范围skyline查询系统,其特征在于,第三模块包括:
第一子模块,用于根据以下公式计算每个数据点到查询范围的起始点qs的距离dis(Pi):
Figure FDA0002715167770000041
其中i∈[1,原始数据集中数据点的总数],Pij表示第i个数据点的第j个属性值,qsj表示查询范围的起始点qs的第j个属性值,且j∈[1,d];
第二子模块,用于利用双调排序算法并行地对第一子模块得到的到查询范围的起始点qs的距离按照从小到大的顺序进行排序;
第三子模块,用于将排序结果中的第一个数据元组加入到范围skyline的第一候选查询结果中。
6.根据权利要求1所述的并行top-k范围skyline查询系统,其特征在于,前一个数据点与后一个数据点之间的范围支配关系包括:
A、前一个数据点在其对应的查询范围内都不被后一个数据点支配;以及
B、前一个数据点在其对应的查询范围内被后一个数据点支配。
CN202011071516.7A 2020-10-09 2020-10-09 一种并行top-k范围skyline查询方法和系统 Active CN112162986B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011071516.7A CN112162986B (zh) 2020-10-09 2020-10-09 一种并行top-k范围skyline查询方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011071516.7A CN112162986B (zh) 2020-10-09 2020-10-09 一种并行top-k范围skyline查询方法和系统

Publications (2)

Publication Number Publication Date
CN112162986A true CN112162986A (zh) 2021-01-01
CN112162986B CN112162986B (zh) 2021-08-17

Family

ID=73862320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011071516.7A Active CN112162986B (zh) 2020-10-09 2020-10-09 一种并行top-k范围skyline查询方法和系统

Country Status (1)

Country Link
CN (1) CN112162986B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024007350A1 (zh) * 2022-07-07 2024-01-11 深圳计算科学研究院 一种基于二维空间的数据查询方法
CN118013086A (zh) * 2024-04-10 2024-05-10 哈尔滨工业大学(威海) 一种k代表G-Skyline查询方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120254241A1 (en) * 2011-03-28 2012-10-04 Indian Institude Of Technology Kanpur Multiple criteria decision analysis
CN106897375A (zh) * 2017-01-19 2017-06-27 浙江大学 一种面向不确定数据的概率查询质量优化方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120254241A1 (en) * 2011-03-28 2012-10-04 Indian Institude Of Technology Kanpur Multiple criteria decision analysis
CN106897375A (zh) * 2017-01-19 2017-06-27 浙江大学 一种面向不确定数据的概率查询质量优化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GUOQINGXIAO等: "Efficienttop-(k,l)rangequeryprocessingforuncertaindatabasedonmulticorearchitectaires", 《ISTRIBUTEDANDPARALLELDATABASES》 *
李文凤等: "不确定性Top-K查询处理", 《软件学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024007350A1 (zh) * 2022-07-07 2024-01-11 深圳计算科学研究院 一种基于二维空间的数据查询方法
CN118013086A (zh) * 2024-04-10 2024-05-10 哈尔滨工业大学(威海) 一种k代表G-Skyline查询方法

Also Published As

Publication number Publication date
CN112162986B (zh) 2021-08-17

Similar Documents

Publication Publication Date Title
Wei et al. AnalyticDB-V: a hybrid analytical engine towards query fusion for structured and unstructured data
US7730060B2 (en) Efficient evaluation of object finder queries
US5924088A (en) Index selection for an index access path
Tsaparas et al. Ranked join indices
Liu et al. U-skyline: A new skyline query for uncertain databases
CN109947904B (zh) 一种基于Spark环境的偏好空间Skyline查询处理方法
US20100106713A1 (en) Method for performing efficient similarity search
Tao et al. Branch-and-bound processing of ranked queries
EP3014488B1 (en) Incremental maintenance of range-partitioned statistics for query optimization
CN106991141B (zh) 一种基于深度剪枝策略的关联规则挖掘方法
US20160364421A1 (en) Database index for constructing large scale data level of details
US20220253463A1 (en) Segmenting users with sparse data utilizing hash partitions
CN109086376B (zh) 基于sparql查询语言的多查询方法和装置
Li et al. Bounded approximate query processing
Yin et al. A cost-efficient framework for finding prospective customers based on reverse skyline queries
CN114706840A (zh) 面向负载感知的多模数据库ArangoDB参数调优的方法
CN112162986B (zh) 一种并行top-k范围skyline查询方法和系统
Chowdhury et al. Feature weighting in DBSCAN using reverse nearest neighbours
CN115018545A (zh) 基于用户画像与聚类算法的相似用户分析方法及系统
CN112287118B (zh) 事件模式频繁子图挖掘与预测方法
Holanda et al. Cracking KD-Tree: The First Multidimensional Adaptive Indexing (Position Paper).
Cheema et al. A unified approach for computing top-k pairs in multidimensional space
CN107562872B (zh) 基于sql的度量空间数据相似度查询方法及装置
CN113448994B (zh) 一种基于核心集的连续遗憾率最小化查询方法
JP2000035965A (ja) 類似特徴量の検索方法及び装置及び類似特徴量の検索プログラムを格納した記憶媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Li Kenli

Inventor after: Li Xiaoxue

Inventor after: Zhou Xu

Inventor after: Luo Wencheng

Inventor after: Chen Cen

Inventor after: Xiao Guoqing

Inventor after: Liao Qing

Inventor after: Yang Wangdong

Inventor after: Tang Zhuo

Inventor before: Li Kenli

Inventor before: Liao Xiangke

Inventor before: Li Xiaoxue

Inventor before: Zhou Xu

Inventor before: Luo Wencheng

Inventor before: Chen Cen

Inventor before: Xiao Guoqing

Inventor before: Liao Qing

Inventor before: Yang Wangdong

Inventor before: Tang Zhuo

CB03 Change of inventor or designer information