CN116226296A

CN116226296A - 基于OpenGauss的数据分组聚集方法

Info

Publication number: CN116226296A
Application number: CN202310057261.6A
Authority: CN
Inventors: 黎俊云; 何小栋
Original assignee: Guangzhou Mass Database Technology Co ltd
Current assignee: Guangzhou Mass Database Technology Co ltd
Priority date: 2023-01-19
Filing date: 2023-01-19
Publication date: 2023-06-06
Anticipated expiration: 2043-01-19
Also published as: CN116226296B

Abstract

本发明涉及一种基于OpenGauss数据库的数据分组聚集方法及系统。本方法包括对有序集合中的数据进行扫描，根据当前的分组情况和扫描获得的数据信息选择相应的措施对数据进行分组处理；按照上步获得的分组对数据进行聚集运算处理等步骤。本方法克服了现有数据分组聚集方法普遍存在的执行效率低下的缺陷，本发明方法在进行数据分组聚集操作时，只维护排序靠前的N个分组，而对最终不需要返回的数据进行丢弃处理，从而避免了无用的排序和分组操作造成的额外性能开销，减少了分组数据的存储和运算成本，提升了数据分组聚集操作的执行效率，并保证了系统性能的稳定，可以很好地满足海量数据处理的应用需求。

Description

基于OpenGauss的数据分组聚集方法

技术领域

本发明属于OpenGauss数据库管理系统技术领域，尤其涉及一种基于OpenGauss数据库的数据分组聚集方法及系统。

背景技术

SQL聚集是指对一组数据进行汇总的操作，输入是一组数据的集合，输出是单个数据值。常见的聚集操作有COUNT、MAX、MIN、SUM、AVG等。作为一种常用的数据分析技术，在数据库SQL里使用聚集操作进行数据分析，是非常普遍的。

随着互联网技术的日新月异，数据存储和分析技术蓬勃发展，互联网每分每秒都在产生大量数据。人们对海量数据的存储、分析需求日益增长，如何高效分析海量数据，已成为数据库技术面临的主要挑战，同样地，现有的数据分组聚集方法也因其执行效率低下而亟需进行技术改进。

以下面的SQL为例，

select max(l_orderkey),l_orderkey from lineitem group by l_orderkeyorder by l_orderkey limit 3；

目前多采用以下数据分组聚集方法进行处理：

(1)先分组(group by)，后排序(order by)，最后取排序靠前的几个分组(limit)。该方案的缺点是进行分组步骤时，必须对所有数据进行分组聚集，然而最后只需要取排序靠前的几个分组，最终导致大量无用的数据参与了分组和聚集运算，导致系统性能下降。

(2)先排序(order by)，后分组(group by)，最后取排序靠前的几个分组(limit)。该方案的缺点则是进行排序步骤时，必须对所有数据进行排序，导致大量最后不需要的数据参与了排序，从而造成了系统性能下降。

显而易见，上述数据分组聚集方法由于执行过程中均进行了大量的无用数据处理从而导致了执行效率低下，无法很好地满足海量数据处理的应用需求。

发明内容

为了克服现有数据分组聚集方法存在的上述缺陷，本发明提出了一种新的数据分组聚集方案。

整体而言，本发明数据分组聚集方法基于OpenGauss数据库系统，在进行数据分组聚集操作时，只维护排序靠前的N个分组(Limit N)，而对最终不需要返回的数据进行丢弃处理，从而避免了无用的排序和分组操作造成的额外性能开销，解决了现有方法效率低下的问题，大大提升了数据分组聚集操作的执行效率，保证了系统性能的稳定。

具体地，第一方面，本发明提供了一种基于OpenGauss的数据分组聚集方法，当任务为在一个有序集合里维护排序靠前的N个分组时，本方法包括：

S1.数据扫描分组：对所述有序集合中的数据进行扫描，根据当前的分组情况和扫描获得的数据信息选择相应的措施对数据进行分组处理；

S2.聚集运算处理：按照上步获得的分组对数据进行聚集运算处理。

进一步地，本发明基于OpenGauss的数据分组聚集方法步骤S1中所述根据当前的分组情况和扫描获得的数据信息选择相应的措施对数据进行分组处理，包括：

S11.若新数据对应的分组属于Top-N目标组，则直接将该数据写入对应的分组中；

S12.若新数据对应的分组不属于Top-N目标组，则直接丢弃该数据；

S13.若新数据对应的分组当前不存在，但按照预设的分组排序规则该分组应属于Top-N目标组，此时首先在所述有序集合里创建新的与新数据对应的分组，并按照预设的分组排序规则将该新分组插入到正确的位置，然后将新数据写入该新分组中。

进一步地，上述基于OpenGauss的数据分组聚集方法步骤S13中还包括：在按照预设的分组排序规则将新分组插入到正确的位置的同时，淘汰Top-N目标组中排列在最末位的分组，即在所述有序集合里，始终维持Top-N目标组的组数恒定。

进一步地，本发明基于OpenGauss的数据分组聚集方法步骤S2中所述对数据进行聚集运算处理包括但不限于对数据进行COUNT、SUM、MAX、MIN、AVG运算处理。

第二方面，本发明还提供了一种基于OpenGauss的数据分组聚集系统，所述数据分组聚集系统包括：

数据扫描模块：用于对有序集合中的数据进行扫描；

数据分组模块：用于根据当前的分组情况和扫描获得的数据信息选择相应的措施对数据进行分组处理；

数据写入模块：用于将新数据写入与之对应的分组中；

分组创建模块：用于在有序集合里创建新的与新数据对应的分组；

分组维护模块：用于向Top-N目标组中插入新分组，同时淘汰Top-N目标组中的末位分组，以维持有序集合里Top-N目标值的组数恒定；

聚集运算模块：用于对分组数据进行聚集运算处理。

第三方面，本发明还提供了一种计算机可读存储介质，所述存储介质上存储有计算机程序，所述程序被处理器执行时实现上述的基于OpenGauss的数据分组聚集方法的步骤。

综上，本发明基于OpenGauss的数据分组聚集方法克服了现有数据分组聚集方法普遍存在的执行效率低下的缺陷，本发明方法在进行数据分组聚集操作时，只维护排序靠前的N个分组，而对最终不需要返回的数据进行丢弃处理，从而避免了无用的排序和分组操作造成的额外性能开销，减少了分组数据的存储和运算成本，大大提升了数据分组聚集操作的执行效率，并保证了系统性能的稳定，可以很好地满足海量数据处理的应用需求。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面对本发明实施例中需要使用的附图作简要介绍，显而易见地，下述附图仅是本发明中记载的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明数据分组聚集方法整体实施流程示意图。

图2为本发明数据分组聚集方法中数据分组处理实施流程示意图。

图3为根据本发明一种实施例的SQL，要求在一个有序集合里维护排序靠前的N个分组。

图4为根据本发明一种实施例的SQL，在分组已存在情况下的数据处理方法。

图5为根据本发明一种实施例的SQL，在向Top-N目标组中插入新分组的同时，淘汰Top-N目标组中排列在最末位的分组，以维持Top-N目标组的组数恒定。

图6为本发明数据分组聚集系统组成架构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合具体实施例及相应的附图对本发明的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例，本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

同时，应理解，本发明的保护范围并不局限于下述特定的具体实施方案；还应当理解，本发明实施例中使用的术语是为了描述特定的具体实施方案，而不是为了限制本发明的保护范围。

实施例1：一种基于OpenGauss的数据分组聚集方法，如图1和图2所示，当任务为在一个有序集合里维护排序靠前的N个分组时，本方法包括下述步骤：

S1.数据扫描分组：对所述有序集合中的数据进行扫描，根据当前的分组情况和扫描获得的数据信息选择相应的措施对数据进行分组处理：

S11.若新数据对应的分组属于Top-N目标组，则直接将该数据写入对应的分组中。

S12.若新数据对应的分组不属于Top-N目标组，则直接丢弃该数据。

S13.若新数据对应的分组当前不存在，但按照预设的分组排序规则该分组应属于Top-N目标组，此时首先在所述有序集合里创建新的与新数据对应的分组，并按照预设的分组排序规则将该新分组插入到正确的位置，然后将新数据写入该新分组中；在按照预设的分组排序规则将新分组插入到正确的位置的同时，淘汰Top-N目标组中排列在最末位的分组，即在所述有序集合里，始终维持Top-N目标组的组数恒定。

S2.聚集运算处理：按照上步获得的分组对数据进行聚集运算处理，聚集运算处理包括对数据进行COUNT、SUM、MAX、MIN、AVG等运算处理。实施例2：实施例1方法在具体案例中的应用。

以下述SQL为例进行说明：

如图3所示，上述用例中，要求在一个有序集合里维护排序靠前的N个分组。

将整个数据分组聚集操作分为两个阶段，第一阶段为数据扫描分组阶段，第二阶段为聚集运算处理阶段，下面分别予以说明。

1.数据扫描分组阶段

扫描有序集合中的数据，并按照以下方式进行分组处理：

A.若新数据对应的分组属于Top-N目标组，例如：新数据group key为b，value为3的情况，如图4所示，只需直接将该数据写入对应的分组中。

B.若新数据对应的分组不属于Top-N目标组，例如：新数据group key为d，value为4的情况，此时，由于最终只需要返回最小的3个分组，该数据不需要保存，可以在此阶段直接丢弃，避免额外的存储和运算开销，从而提升分组聚集操作的执行效率。

C.若新数据对应的分组当前不存在，但按照预设的分组排序规则该分组应属于Top-N目标组，例如：新数据group key为aa，value为5的情况，此时首先在有序集合里创建新的与新数据对应的分组，并按照预设的分组排序规则将该新分组插入到正确的位置，然后将新数据写入该新分组中。由于创建了新的分组，此时分组的数量大于LIMIT N的数量，因此需要淘汰Top-N目标组中排列在最末位的分组，即group key键值最小的分组，从而在有序集合里，始终维持Top-N目标组的组数恒定，如图5所示。

2.聚集运算处理阶段

由于数据已按上述方法进行了分组，则聚集运算阶段，只需按照数据扫描分组阶段获得的分组对数据进行聚集运算处理，聚集运算处理包括但不限于对数据进行COUNT、SUM、MAX、MIN、AVG运算处理。

通过上述方法，可以有效减少分组数据的存储和运算成本，大大提升分组聚集的效率，从而解决海量数据的分组聚集运算问题。

实施例3：实施例1方法在具体案例中的应用。

下面通过一组具体案例进行对比分析，以验证本发明方案可有效提升数据分组聚集的执行效率。

测试结果如下表1所示，方案编号1、2为当前OpenGauss数据库现有的技术方案，方案编号3为本发明技术方案。测试结果显示，本方案大幅度提升了数据分组聚集的执行效率，执行时间分别从14秒和43秒，提升到1.639秒，系统运行效率大大提升(注意，执行总时间均减去数据扫描时间，即查询计划里Seq Scan的时间，只统计了分组聚集所需要的时间)。另外，由于分组聚集时，只需要维护Top-N分组的数据，本方案相比现有方案，可以大大节省运行所需内存空间。

表1运行测试结果

HashAgg查询计划

GroupAgg查询计划

SortGroupAgg查询计划

实施例4：一种基于OpenGauss的数据分组聚集系统，如图6所示，包括：

数据扫描模块：用于对有序集合中的数据进行扫描；

数据写入模块：用于将新数据写入与之对应的分组中；

聚集运算模块：用于对分组数据进行聚集运算处理。

各模块按照上述数据分组聚集方法实施运行。

本发明中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、替换等，均应包含在本发明的权利要求保护范围之内。

Claims

1.一种基于OpenGauss的数据分组聚集方法，其特征在于，当任务为在一个有序集合里维护排序靠前的N个分组时，所述方法包括：

2.根据权利要求1所述的基于OpenGauss的数据分组聚集方法，其特征在于，步骤S1中所述根据当前的分组情况和扫描获得的数据信息选择相应的措施对数据进行分组处理，包括：

3.根据权利要求2所述的基于OpenGauss的数据分组聚集方法，其特征在于，步骤S13中还包括：在按照预设的分组排序规则将新分组插入到正确的位置的同时，淘汰Top-N目标组中排列在最末位的分组，即在所述有序集合里，始终维持Top-N目标组的组数恒定。

4.根据权利要求1所述的基于OpenGauss的数据分组聚集方法，其特征在于，步骤S2中所述对数据进行聚集运算处理包括对数据进行COUNT、SUM、MAX、MIN、AVG运算处理。

5.一种基于OpenGauss的数据分组聚集系统，其特征在于，所述数据分组聚集系统包括：

数据扫描模块：用于对有序集合中的数据进行扫描；

数据写入模块：用于将新数据写入与之对应的分组中；

聚集运算模块：用于对分组数据进行聚集运算处理。

6.一种计算机可读存储介质，所述存储介质上存储有计算机程序，所述程序被处理器执行时实现权利要求1-4任一项所述的基于OpenGauss的数据分组聚集方法的步骤。