CN117520408A

CN117520408A - 一种用于doris的数据增量统计方法、装置、设备及存储介质

Info

Publication number: CN117520408A
Application number: CN202311447019.6A
Authority: CN
Inventors: 何俊杰; 黄微
Original assignee: Guangzhou Xuanwu Wireless Technology Co Ltd
Current assignee: Guangzhou Xuanwu Wireless Technology Co Ltd
Priority date: 2023-11-01
Filing date: 2023-11-01
Publication date: 2024-02-06
Anticipated expiration: 2043-11-01
Also published as: CN117520408B

Abstract

本发明公开了一种用于Doris的数据增量统计方法、装置、设备及存储介质，所述方法包括：根据获取的统计报表进行字段的划分，确定所述统计报表对应的统计指标字段和统计维度字段；根据所述统计维度字段及所述统计指标字段，通过调用Doris中预设的聚合模型对存储在所述Doris的明细层中的数据进行聚合，获得所述统计报表对应的统计数据；根据所述统计数据，通过调用所述Doris中预设的数据统计函数计算所述统计数据的个数，获得所述统计报表对应的数据统计结果，以使提高数据增量统计的效率。

Description

一种用于doris的数据增量统计方法、装置、设备及存储介质

技术领域

本发明涉及数据处理的技术领域，尤其涉及一种用于doris的数据增量统计方法、装置、设备及存储介质。

背景技术

现有的数据仓库是基于doris实现的，doris是一个mpp架构实时性分析性数据库，在doris内部进行了分层，分成了三层，包括：ODS(明细层)存放原始的明细数据，数据来源业务数据库；DWS(数据服务层)为了不同报表的复用，所以包含多个维度字段，数据来源于ODS层；ADS(应用层)根据不同报表的统计需求，从DWS层group by维度字段重新聚合，得到聚合统计结果，最终用户通过查询ADS层的数据展示报表。

各层之间通过定时调度sql的方式，从下层抽取数据到上层，各层之间的调度任务分为两种任务类型，一种是增量统计，为了保证实时性，增量统计每分钟运行一次，另一种是全量统计，为了保证数据的准确性和程序的健壮性，每天会运行一次，重跑前几天的数据。

增量统计时，从ODS层到DWS层，由于每次只统计前几分钟的数据，所以统计速度是很快的，平均几秒就可以完成，可以满足分钟级别统计要求，但是从DWS层到ADS层，需要根据所需的统计维度进行group by，调用bitmap_union_count函数得到统计结果，所述bitmap_union_count函数先根据group by字段把相同维度值的bitmap数据结构先聚合起来求交集，这个过程需要重新聚合数据，解析bitmap求数据的交集，需要耗费大量的时间，降低数据增量统计的效率，无法满足分钟级别的实时统计要求。

发明内容

为了解决上述技术问题，本发明公开了一种用于Doris的数据增量统计方法、装置、设备及存储介质，提高数据增量统计的效率。

为了实现上述目的，第一方面，本发明公开了一种用于Doris的数据增量统计方法，包括：

根据获取的统计报表进行字段的划分，确定所述统计报表对应的统计指标字段和统计维度字段；

根据所述统计维度字段及所述统计指标字段，通过调用Doris中预设的聚合模型对存储在所述Doris的明细层中的数据进行聚合，获得所述统计报表对应的统计数据；

根据所述统计数据，通过调用所述Doris中预设的数据统计函数计算所述统计数据的个数，获得所述统计报表对应的数据统计结果。

本发明公开了一种用于Doris的数据增量统计方法，根据不同的当前的统计报表的表结构定制统计指标字段和统计维度字段，再根据所述统计指标字段和统计维度字段从所述Doris的ODS层中获取数据，并利用所述Doris的聚合模型进行数据的聚合，由于使用的是聚合模型，所以数据新增时，维度列相同的数据即属于同一统计维度字段的数据就会先聚合成一行，再利用所述Doris的数据统计函数统计数据个数时，因为同一维度列中已经是统计所需的字段，所以不需要再进行维度列的聚合,只需要统计当前统计维度字段对应的行中有多少个统计数据，即可得到统计结果，降低了数据统计的时间，提高了数据统计的效率。

作为优选例子，在所述通过调用Doris中预设的聚合模型对存储在所述Doris的明细层中的数据进行聚合，包括：

从所述Doris的明细层中增量同步当前时刻前一段时间内的数据，获得待聚合的数据；

通过所述聚合模型遍历所述待聚合的数据并获取所述待聚合的数据中每一个第一数据的维度字段；

根据所述统计维度字段，通过所述聚合模型选取所述维度字段与所述统计维度字段相同时对应的第一数据，获得所述统计报表对应的统计数据。

本发明利用所述聚合模型及所述统计维度字段进行数据的聚合，使得聚合后获得数据已经按照统计维度字段进行分类，以此解决现有技术中的group by操作，降低数据解析的时间，提高数据统计的效率。

作为优选例子，在所述根据所述统计维度字段及所述统计指标字段，通过调用Doris中预设的聚合模型对存储在所述Doris的明细层中的数据进行聚合，还包括：

根据所述统计指标字段对所述统计数据进行分类，获得不同统计指标字段中每一个统计指标字段分别对应的若干个统计数据。

本发明根据所述统计指标字段对所述统计数据进行分类，以使得在后续的过程中进行不同指标数据的统计时，不再需要进行数据结构的解析，只需要统计当前指标字段中包含的数据个数即可，可有效提高数据统计的效率。

作为优选例子，在所述通过调用所述Doris中预设的数据统计函数计算所述统计数据的个数，获得所述统计报表对应的数据统计结果，包括：

通过预设在所述Doris中的bitmap_count函数计算所述若干个第一统计数据对应的数据个数，获得不同统计指标字段中每一个统计指标字段分别对应的第一数据统计结果；

根据所述统计维度字段、所述统计指标字段及所述第一数据统计结果，获得所述统计报表对应的统计数据。

本发明中根据统计维度字段对数据进行维度的划分，每一个维度行中对应的已经是聚合后获得的同一维度的数据，由此不再需要group by操作，减少了这个耗时的过程，由此提升了数据统计的速度。

第二方面，本发明还公开了一种用于Doris的数据增量统计装置，所述装置包括字段划分模块、数据聚合模块及数据统计模块；

所述字段划分模块用于根据获取的统计报表进行字段的划分，确定所述统计报表对应的统计指标字段和统计维度字段；

所述数据聚合模块用于根据所述统计维度字段及所述统计指标字段，通过调用Doris中预设的聚合模型对存储在所述Doris的明细层中的数据进行聚合，获得所述统计报表对应的统计数据；

所述数据统计模块用于根据所述统计数据，通过调用所述Doris中预设的数据统计函数计算所述统计数据的个数，获得所述统计报表对应的数据统计结果。

本发明公开了一种用于Doris的数据增量统计装置，根据不同的当前的统计报表的表结构定制统计指标字段和统计维度字段，再根据所述统计指标字段和统计维度字段从所述Doris的ODS层中获取数据，并利用所述Doris的聚合模型进行数据的聚合，由于使用的是聚合模型，所以数据新增时，维度列相同的数据即属于同一统计维度字段的数据就会先聚合成一行，再利用所述Doris的数据统计函数统计数据个数时，因为同一维度列中已经是统计所需的字段，所以不需要再进行维度列的聚合,只需要统计当前统计维度字段对应的行中有多少个统计数据，即可得到统计结果，降低了数据统计的时间，提高了数据统计的效率。

作为优选例子，所述数据聚合模块包括增量同步单元及维度划分单元；

所述增量同步单元用于从所述Doris的明细层中增量同步当前时刻前一段时间内的数据，获得待聚合的数据；

所述维度划分单元用于通过所述聚合模型遍历所述待聚合的数据并获取所述待聚合的数据中每一个第一数据的维度字段；根据所述统计维度字段，通过所述聚合模型选取所述维度字段与所述统计维度字段相同时对应的第一数据，获得所述统计报表对应的统计数据。

作为优选例子，所述数据聚合模块还包括指标划分单元；

所述指标划分单元用于根据所述统计指标字段对所述统计数据进行分类，获得不同统计指标字段中每一个统计指标字段分别对应的若干个第一统计数据。

作为优选例子，所述数据统计模块包括指标统计单元及结合单元；

所述指标统计单元用于通过预设在所述Doris中的bitmap_count函数计算所述若干个第一统计数据对应的数据个数，获得不同统计指标字段中每一个统计指标字段分别对应的第一数据统计结果；

所述结合单元用于根据所述统计维度字段、所述统计指标字段及所述第一数据统计结果，获得所述统计报表对应的统计数据。

第三方面，本发明公开了一种用于Doris的数据增量统计设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现如第一方面所述的一种用于Doris的数据增量统计方法。

第四方面，本发明公开了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的一种用于Doris的数据增量统计方法。

附图说明

图1：为本发明实施例公开的一种用于Doris的数据增量统计方法的流程示意图；

图2：为本发明实施例公开的一种用于Doris的数据增量统计装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

本实施例公开了一种用于Doris的数据增量统计方法，所述统计方法的具体实施过程可参照图1，主要包括步骤101至步骤103，所述步骤为：

步骤101：根据获取的统计报表进行字段的划分，确定所述统计报表对应的统计指标字段和统计维度字段。

在本实施例中，该步骤包括：根据待统计表格的结构，划分出统计指标字段及统计维度字段。

具体的，在本实施例提供的一种可实现方式中，为解决DWS层到ADS层数据统计效率慢的技术问题，增加一层加速层，代替原增量的DWS层，通过所述加速层实现本实施例提供的所述增量统计方法，在所述加速层中，参照待统计表格的统计需求，以用户id,通道id为统计维度字段，根据状态的不同，统计成功量(state＝0)和失败量(state＝0)指标的数量，则所述成功量和所述失败量为所述统计指标字段，根据所述统计指标字段与所述统计维度字段构造了数据统计结构表，根据所述数据统计结构表进行数据的聚合。

步骤102：根据所述统计维度字段及所述统计指标字段，通过调用Doris中预设的聚合模型对存储在所述Doris的明细层中的数据进行聚合，获得所述统计报表对应的统计数据。

在本实施例中，该步骤包括：从所述Doris的明细层中增量同步当前时刻前一段时间内的数据，获得待聚合的数据；通过所述聚合模型遍历所述待聚合的数据并获取所述待聚合的数据中每一个第一数据的维度字段；根据所述统计维度字段，通过所述聚合模型选取所述维度字段与所述统计维度字段相同时对应的第一数据，获得所述统计报表对应的统计数据；同时根据所述统计指标字段对所述统计数据进行分类，获得不同统计指标字段中每一个统计指标字段分别对应的若干个第一统计数据。

具体的，在本实施例提供的一种可实现方式中，首先从ODS层增量同步当前时间前一段时间内的数据到加速层，在本实现方式中，选取前10分钟的数据进行增量，由于是只增量同步10分钟的数据，所以速度是很快的通常5秒内完成，接着加速层调用所述Doris预存的聚合模型，然后参照上述步骤中加速层构建的数据统计结构表中的统计维度字段将同属于同一个统计维度字段的数据聚合成一行，接着将为位于同一行中的数据分别按照其对应的统计指标字段进行划分。

具体的，参照上述步骤中划分的用户id,通道id为统计维度字段，从所述ODS层增量同步的数据中找到与所述统计维度字段相同的数据，并以表格的形式存储所述数据，则所述查找的数据的表格结构如表一，所述表一如下：

id	User-id	Channel-id	state
				11	1	4	0
22	1	4	0
				33	1	4	1
44	1	4	1
				55	3	6	0
66	3	6	0

表一

参照上表中获取的数据，以所述User-id和所述Channel-id为统计维度字段，将具有相同统计维度字段的数据划分到同一行，然后在同一行中的数据，根据其所属的统计指标字段分别进行分类，从ODS层到加速层根据状态的不同，把id转换成bitmap分别插入数据到成功量和失败量的字段，相同维度的数据会进行聚合，则对所述查找的数据进行聚合获得的统计数据的表格结构可参照表二，所述表二如下：

Bitmap-success	Bitmap-fail	User-id	Channel-id
				11,22	33,44	1	4
55,66		3	6

表二

有表二可知，将User-id和所述Channel-id为1和4的划分到一行，将User-id和所述Channel-id为3和6的划分到一行，则可知User-id和所述Channel-id为1和4对应的id包括11、22、33和44，接着根据所述id对应的state的值对所述id进行划分，可知id为11,22同属于state＝0，id为33,44同属于state＝1，同理可对所述User-id和所述Channel-id为3和6的进行划分。

本发明利用所述聚合模型及所述统计维度字段进行数据的聚合，使得聚合后获得数据已经按照统计维度字段进行分类，以此解决现有技术中的group by操作，降低数据解析的时间，提高数据统计的效率，同时根据所述统计指标字段对所述统计数据进行分类，以使得在后续的过程中进行不同指标数据的统计时，不再需要进行数据结构的解析，只需要统计当前指标字段中包含的数据个数即可，可有效提高数据统计的效率。

步骤103：根据所述统计数据，通过调用所述Doris中预设的数据统计函数计算所述统计数据的个数，获得所述统计报表对应的数据统计结果。

在本实施例中，该步骤包括：通过预设在所述Doris中的bitmap_count函数计算所述若干个第一统计数据对应的数据个数，获得不同统计指标字段中每一个统计指标字段分别对应的第一数据统计结果；根据所述统计维度字段、所述统计指标字段及所述第一数据统计结果，获得所述统计报表对应的统计数据。

具体的，在本实施例提供的一种可实现方式中，所述加速层通过所述聚合模型聚合后获得的数据可参照表二，有表二可知维度列已经是统计所需的统计维度，bitmap字段对应的是统计指标即对应包含的id，由此可直接调用bitmap_count函数获得每一个不同统计指标字段中分别包含的bitmap个数，bitmap_count函数不涉及到解析bitmap数据，只需要统计每行有多少个bitmap,避免了group by操作，group by要先聚合，然后把bitmap解析出来求交集，这个过程是很耗时的，减少了这个过程，所以提升了速度，通常在10-20s内完成，具体的，参照表二，利用所述bitmap_count函数进行统计，则统计的结果可参照表三，所述表三的结构如下：

Success-count	fail-count	User-id	Channel-id
				2	2	1	4
2	0	3	6

表三

根据上表，加速层到ADS层直接通过bitmap_count函数，得到统计结果，进一步的，当加速层使用的方法在增量统计时使用的话，只保留当天的数据，原增量统计的DWS层不需要执行，全量统计前，把加速层非当天的数据删除，原全量统计的流程保持不变，这样加速层就只需要保存当天的数据，不会随着数据量的增加耗时变长。

本实施例中，该步骤根据统计维度字段对数据进行维度的划分，每一个维度行中对应的已经是聚合后获得的同一维度的数据，由此不再需要group by操作，减少了这个耗时的过程，由此提升了数据统计的速度。

另一方面，本发明还公开了一种用于Doris的数据增量统计装置，所述装置的具体结构组成可参照图2，所述装置包括字段划分模块201、数据聚合模块202及数据统计模块203。

所述字段划分模块201用于根据获取的统计报表进行字段的划分，确定所述统计报表对应的统计指标字段和统计维度字段。

所述数据聚合模块202用于根据所述统计维度字段及所述统计指标字段，通过调用Doris中预设的聚合模型对存储在所述Doris的明细层中的数据进行聚合，获得所述统计报表对应的统计数据。

所述数据统计模块203用于根据所述统计数据，通过调用所述Doris中预设的数据统计函数计算所述统计数据的个数，获得所述统计报表对应的数据统计结果。

在本实施例中，所述数据聚合模块202包括增量同步单元及维度划分单元。

所述增量同步单元用于从所述Doris的明细层中增量同步当前时刻前一段时间内的数据，获得待聚合的数据。

在本实施例中，所述数据聚合模块202还包括指标划分单元。

在本实施例中，所述数据统计模块203包括指标统计单元及结合单元。

所述指标统计单元用于通过预设在所述Doris中的bitmap_count函数计算所述若干个第一统计数据对应的数据个数，获得不同统计指标字段中每一个统计指标字段分别对应的第一数据统计结果。

除上述方法及装置外，本实施例还公开了一种用于Doris的数据增量统计设备，所述设备包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现本实施例所述的一种用于Doris的数据增量统计方法。

进一步的，还公开了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现本实施例所述的一种用于Doris的数据增量统计方法。

本实施例公开的一种用于Doris的数据增量统计方法、装置、设备及存储介质在原有系统具有的doris中进行，不需要额外的运维部署工作，同时基于所述新增的加速层增量统计耗时由原来的5分钟减少到20s内完成，满足分钟级别的实时统计要求，进一步地由于该方案只涉及到增量统计的改造，所以对原流程改动较小，保留了原来DWS层可复用的灵活性，且由于加速层只会保留当天数据，每个报表占用2-3G，所以不会占用很多空间存储，后续继续增加数据量也不会导致统计耗时增加。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。特别指出，对于本领域技术人员来说，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于Doris的数据增量统计方法，其特征在于，包括：

2.如权利要求1所述的一种用于Doris的数据增量统计方法，其特征在于，所述通过调用Doris中预设的聚合模型对存储在所述Doris的明细层中的数据进行聚合，包括：

3.如权利要求1所述的一种用于Doris的数据增量统计方法，其特征在于，所述根据所述统计维度字段及所述统计指标字段，通过调用Doris中预设的聚合模型对存储在所述Doris的明细层中的数据进行聚合，还包括：

根据所述统计指标字段对所述统计数据进行分类，获得不同统计指标字段中每一个统计指标字段分别对应的若干个第一统计数据。

4.如权利要求3所述的一种用于Doris的数据增量统计方法，其特征在于，所述通过调用所述Doris中预设的数据统计函数计算所述统计数据的个数，获得所述统计报表对应的数据统计结果，包括：

5.一种用于Doris的数据增量统计装置，其特征在于，所述装置包括字段划分模块、数据聚合模块及数据统计模块；

6.如权利要求5所述的一种用于Doris的数据增量统计装置，其特征在于，所述数据聚合模块包括增量同步单元及维度划分单元；

7.如权利要求5所述的一种用于Doris的数据增量统计装置，其特征在于，所述数据聚合模块还包括指标划分单元；

8.如权利要求7所述的一种用于Doris的数据增量统计装置，其特征在于，所述数据统计模块包括指标统计单元及结合单元；

9.一种用于Doris的数据增量统计设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现权利要求1-4任一项所述的一种用于Doris的数据增量统计方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-4任一项所述的一种用于Doris的数据增量统计方法。