CN117874069A

CN117874069A - 一种实时大数据快速查询分析方法和装置

Info

Publication number: CN117874069A
Application number: CN202311762580.3A
Authority: CN
Inventors: 周晔; 陈锋; 朱银锋; 徐清超; 蔡华涛; 贾世纪
Original assignee: Shanghai Huifu Payment Co ltd
Current assignee: Shanghai Huifu Payment Co ltd
Priority date: 2023-12-19
Filing date: 2023-12-19
Publication date: 2024-04-12

Abstract

本发明公开了一种实时大数据快速查询分析方法和装置，关注数据更新频繁的联机数据查询分析场景，通过合适的架构，简化了聚合处理部件的实现复杂度。其技术方案为：第一步，对数据进行预聚合处理和更新；第二步，当数据查询请求时间范围是热数据时，将查询请求按时间范围分段并行查数据库，最后合并数据；当数据查询请求时间范围是跨冷热数据时，在大数据冷热分层后查询请求分段、然后合并数据。

Description

一种实时大数据快速查询分析方法和装置

技术领域

本发明涉及大数据、联机数据分析、数据库物化视图等领域，具体涉及一种实时大数据快速查询分析方法和装置。

背景技术

纵观业界，主要大厂采用ES+Hbase、ClickHouse和Doris等作为基础，来实现自己的查询场景。在开源的大环境下，各种数据引擎百花齐放，但由于业务的复杂性与多样性，目前并没有哪个引擎能够适配所有业务场景。这些引擎从架构类型上分为MPP(MassivelyParallel Processing即大规模并行处理)架构，如Doris、Presto、Impala、ClickHouse。还有预处理架构如Druid、Kylin。在PB级大数据聚合的查询分析响应速度上预处理架构一般要高于MPP架构，MPP架构响应速度在秒级或者分钟级别，支持的QPS也不高，预处理架构能达到亚秒级查询，但MPP架构数据维度变化更灵活。这些引擎有些是计算引擎，如Kylin，也有些是存储计算不分离，即自己管理存储的，如ClickHouse。从中也能看出在这一领域，数据引擎很多，也有些混乱，各有千秋，也存在各自的短板。

在数据预聚合领域，现有的方案大都关注预聚合的灵活性(例如专利申请号201911407330.1)、高可用性(例如专利申请号201980086492.1)，鲜有关注如何将预聚合数据更新的延迟提升到秒级的方法。专利申请号202111035787.1的发明专利中的指标数据聚合最小粒度是分钟级，且不涉及对已聚合的数据更新的内容。

现有的方案在实时性、响应速度、大数据处理三个方面都需要提升，以满足更高的指标需求。实时性方面，现有方案通过定时跑批的方式做数据预聚合，受限于跑批的定时器，已经聚合的数据更新的延迟在分钟级以上，无法满足当前秒级延迟的需求。响应速度方面，现有方案仅根据时间窗口预聚合，当前需求的查询不限时间范围、精确到秒，查询命中预聚合的概率下降的同时，对于单日交易量大的商户，例如单日100万笔，不命中预聚合数据时，需要扫描数据行的最差情况接近100万，将造成严重的性能下降。大数据处理方面，现有的联机查询方案，通过限制数据查询范围，来获得响应速度的提升，这样简单粗暴的方式使得数据查询范围小，造成用户体验较差。

发明内容

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览，并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

本发明的目的在于解决上述问题，提供了一种实时大数据快速查询分析方法和装置，关注数据更新频繁的联机数据查询分析场景，通过合适的架构，简化了聚合处理部件的实现复杂度。

本发明的技术方案为：本发明揭示了一种实时大数据快速查询分析方法，方法包括：

第一步，对数据进行预聚合处理和更新；

第二步，当数据查询请求时间范围是热数据时，将查询请求按时间范围分段并行查数据库，最后合并数据；当数据查询请求时间范围是跨冷热数据时，在大数据冷热分层后查询请求分段、然后合并数据。

根据本发明的实时大数据快速查询分析方法的一实施例，第一步包括：

步骤S1-1：捕获新增和变更数据；

步骤S1-2：按流式计算中的时间窗口对数据进行去重，计数后下发数据聚合消息；

步骤S1-3：进行数据聚合处理。

根据本发明的实时大数据快速查询分析方法的一实施例，在步骤S1-2中，计数窗口收集新增的数据，窗口时间范围默认为一个自然天，当商户的数据达到设定的计数阈值时，发送计数聚合的消息给计数聚合处理部件，窗口时间结束时，发送日切聚合的消息给日切聚合处理部件，计数聚合处理部件和日切聚合处理部件在完成数据的聚合，聚合后的创建时间为时间范围的结束时间，去重窗口收集窗口内被更新的商户，每个时间窗口的时间范围和商户都会发送给计数聚合处理部件和日切聚合处理部件，以完成预聚合数据的更新。

根据本发明的实时大数据快速查询分析方法的一实施例，计数聚合处理部件和日切聚合处理部件都按照商户号、创建时间范围，对配置的多个聚合字段组执行数据的预聚合，其中日切聚合是默认的预聚合方式，所有交易商户每天至少有一份日切预聚合数据，该数据的聚合类型标记为D，处理过程的状态、商户号、创建时间范围在内的元数据记录到日切聚合元数据的表中；计数聚合只有当商户的单日数据达到设定的阈值后才会执行，该数据的聚合类型标记为C，聚合元素据记录到计数聚合元数据的表中。

根据本发明的实时大数据快速查询分析方法的一实施例，第二步中的当数据查询请求时间范围是热数据的后续处理进一步包括：

步骤S2-1：数据查询请求进入到装置后获取计数聚合元数据；

步骤S2-2：根据计数聚合元数据，将查询请求按时间进行分段，时间分段依赖计数聚合元数据缓存，其中数据时间比指定时间点大的为热数据，分段的数据查询仅包括热数据的交互；

步骤S2-3：将分段查询的结果进行合并后返回。

根据本发明的实时大数据快速查询分析方法的一实施例，第二步中的当数据查询请求时间范围是跨冷热数据的后续处理进一步包括：

步骤S3-1：数据查询请求进入到装置后获取计数聚合元数据；

步骤S3-2：根据计数聚合元数据，将查询请求按时间进行分段查询，其中数据时间比指定时间点大的为热数据，数据时间比指定时间点小的为冷数据，分段的数据查询包括热数据的交互以及冷数据的交互；

步骤S3-3：将分段查询的结果进行合并后返回。

本发明还揭示了一种实时大数据快速查询分析装置，装置包括存储器、处理器和存储在存储器中可供处理器运行的程序指令，其中所述处理器执行所述程序指令以实现如上所述的实时大数据快速查询分析方法的步骤。

本发明还揭示了一种计算机可读存储介质，其存储有可供处理器执行的程序指令，以实现如上所述的实时大数据快速查询分析方法的步骤。

本发明对比现有技术有如下的有益效果：第一，本发明使用流式计算窗口代替定时器，使得预聚合数据的更新延迟从分钟级提升到秒级；第二，本发明在流式计算窗口内完成计数和去重，简化了聚合处理部件的实现复杂度(只需要根据商户号、创建时间范围聚合)；第三，分段并行查询就像木桶原理，查询响应速度上限取决于其中的短板，本发明通过计数聚合减少了明细查询的数据扫描行数，补足了这一短板；第四，大数据的联机分析往往通过限制数据查询范围，来获得响应速度的提升，这样简单粗暴的方式使得数据查询范围小，因此本发明将预聚合和明细分段查询的思想和方法延申到大数据冷热分层查询中，拓宽了大数据联机分析的数据查询范围。

附图说明

在结合以下附图阅读本公开的实施例的详细描述之后，能够更好地理解本发明的上述特征和优点。在附图中，各组件不一定是按比例绘制，并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。

图1示出了本发明的实时大数据快速查询分析方法的一实施例中的数据预聚合和预聚合数据更新的示意图。

图2示出了本发明的实时大数据快速查询分析方法的一实施例中的将查询请求按时间范围分段并行查数据库，最后合并数据的示意图。

图3示出了本发明的实时大数据快速查询分析方法的一实施例中的大数据冷热分层后查询请求分段、合并数据的示意图。

具体实施方式

以下结合附图和具体实施例对本发明作详细描述。注意，以下结合附图和具体实施例描述的诸方面仅是示例性的，而不应被理解为对本发明的保护范围进行任何限制。

对于实时大数据快速查询分析方法的实施例来说，先进行如图1所示的对数据进行预聚合处理，当查询请求发送到装置中后，当查询请求时间范围都是热数据时执行图2所示的的步骤，当查询请求时间范围跨冷热数据时，执行图3所示的步骤。

图1示出了数据预聚合和预聚合数据更新的处理流程。

预聚合是实现快速分析的基础，是指将一笔或者多笔明细数据按照聚合字段合并成一笔包含聚合字段，时间，聚合结果字段的聚合数据。图1中展示了两个核心处理部件：日切聚合、计数聚合。两个处理部件都按照商户号、创建时间范围，对配置的N个聚合字段组执行数据的预聚合。不同之处是日切聚合是默认的预聚合方式，所有交易商户每天至少有一份日切预聚合数据，该数据的聚合类型标记为D，处理过程的状态、商户号(交易主体对象的唯一编号)、创建时间范围等元数据(下文简称：聚合元数据)记录到日切聚合元数据的表中；计数聚合只有当商户的单日数据达到设定的阈值后才会执行，该数据的聚合类型标记为C，聚合元素据记录到计数聚合元数据的表中。日切是指：系统从当前工作日切换到下一个工作日，更换系统记账时间。为方便阐述和理解，本发明中计数窗口默认的时间窗口为一个自然天，所以默认时间窗口结束相当于触发一次日切。

无论是数据新增还是更新，都采用流式计算中的时间窗口代替定时器，时间窗口中可以完成计数和去重，即图1中的计数窗口和去重窗口。计数窗口收集新增的数据，窗口时间范围默认为一个自然天，当商户的数据达到设定的计数阈值时，发送计数聚合的消息(含商户，时间范围)给计数聚合处理部件，窗口时间结束时，发送日切聚合的消息(含商户，窗口的时间范围)给日切聚合处理部件，两个处理部件完成数据的聚合，聚合后的创建时间为时间范围的结束时间。去重窗口收集窗口内被更新的商户，每个时间窗口的时间范围和商户都会发送给两个聚合处理部件，完成预聚合数据的更新。

图1所示的处理方案，既可以应用在数据查询分析中，也可以应用在更底层的数据处理中，数据新增和更新的监听方式和方法可以被替换，去重窗口和计数窗口的实现方式也可以被替换，但不影响基本效果的实现。日切聚合和计数聚合的具体实现、日切聚合元数据、计数聚合元数据和聚合字段组配置的具体数据结构可以替换，只要能正确的保证元数据和聚合结果的准确性，不影响基本效果的实现。

默认的日切聚合可以根据实际场景调整时间粒度，比如按月、小时、分钟聚合。时间粒度的调整和增加不影响基本效果的实现。

如图1所示，上述的整个过程分3个步骤：

步骤S1-1：捕获新增和变更数据；

步骤S1-2：按时间窗口对数据进行去重，计数后下发数据聚合消息；

步骤S1-3：进行数据聚合处理。

在进行了如图1所示的处理后，当查询请求时间范围都是热数据时执行图2步骤，图2所示为将查询请求按时间范围分段并行查数据库，最后合并数据。具体包括如下的处理。

步骤S2-1：数据查询请求进入到装置后获取计数聚合元数据；

步骤S2-2：根据计数聚合元数据，将查询请求按时间进行分段，例如查询时间段为[0.5,10.5]，通过计数聚合元数据判断当前如果不存在计数聚合，则分段为明细时间段[0.5,1)，日切时间段[1,10)，明细时间段[10,10.5]；如果存在计数聚合，为[0.8,1)和[10,10.3)，则分段为明细时间段[0.5,0.8)，计数聚合时间段[0.8,1)，日切时间段[1,10)，计数聚合时间段[10,10.3)，明细时间段[10.3,10.5]。其中明细时间段查明细数据表，计数聚合时间段查预聚合数据表中聚合类型标记为C的数据，日切聚合时间段查预聚合数据表中聚合类型标记为D的数据，最差的情况有5段数据查询，也就是5次数据库交互，分段的数据查询仅包括热数据的交互。时间分段依赖计数聚合元数据缓存，计数聚合元数据缓存用于缓存计数聚合元数据，通过增加一层缓存，这部分的数据库交互可以忽略不记。

步骤S2-3：将分段查询的结果进行合并后返回。

在进行了如图1所示的处理后，当查询请求时间范围跨冷热数据时执行如图3所示的处理流程，图3所示为大数据冷热分层后查询请求分段、合并数据。其中，大数据冷热分层是指：数据按指定时间点A分层，数据时间比A大的称为热数据，热数据的存储介质称为热数据引擎、热存储或者热库；数据时间比A小的称为冷数据，冷数据的存储介质称为冷数据引擎、冷存储或者冷库。

步骤S3-1：数据查询请求进入到装置后获取计数聚合元数据；

步骤S3-2：根据计数聚合元数据将查询请求按时间进行分段查询，例如查询时间段为[-5.5,10.5]，通过计数聚合元数据判断当前如果不存在计数聚合，则分段为明细时间段[-5.5,5)，日切时间段[5,0)，日切时间段[0,10)，明细时间段[10,10.5]；如果存在计数聚合，为[10,10.3)，则分段为明细时间段[-5.5,5)，日切时间段[5,0)，日切时间段[0,10)，计数聚合时间段[10,10.3)，明细时间段[10.3,10.5]。最差的情况有5段数据查询，2次冷数据的交互，3次热数据的交互。

分段查询中，增加、减少分段数不影响基本效果的实现。在大数据冷热分层后，某些分段即可查冷库，也可以查热库，根据实际压测结果确定，因此这种调整不影响基本效果的实现。

步骤S3-3：将分段查询的结果进行合并后返回。

在整个快速查询分析的方案中，不限制流式计算的方式和引擎，可以是Flink等，不限制数据存储的引擎，可以是MongoDB、MaxCompute等。

本发明还公开了一种实时大数据快速查询分析装置，装置包括存储器、处理器和存储在存储器中可供处理器运行的程序指令，其中所述处理器执行所述程序指令以实现如上所述的实时大数据快速查询分析方法的步骤。该方法的具体处理如图1-3所示，在此不再赘述。

本发明还揭示了一种计算机可读存储介质，其存储有可供处理器执行的程序指令，以实现如上所述的实时大数据快速查询分析方法的步骤。该方法的具体处理如图1-3所示，在此不再赘述。

尽管为使解释简单化将上述方法图示并描述为一系列动作，但是应理解并领会，这些方法不受动作的次序所限，因为根据一个或多个实施例，一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。

本领域技术人员将进一步领会，结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性，各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性，但这样的实现决策不应被解读成导致脱离了本发明的范围。

结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。

结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中，存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中，处理器和存储介质可作为分立组件驻留在用户终端中。

在一个或多个示例性实施例中，所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品，则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者，其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定，这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如，如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来，则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟，其中盘(disk)往往以磁的方式再现数据，而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。

提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的，且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此，本公开并非旨在被限定于本文中所描述的示例和设计，而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

Claims

1.一种实时大数据快速查询分析方法，其特征在于，方法包括：

第一步，对数据进行预聚合处理和更新；

2.根据权利要求1所述的实时大数据快速查询分析方法，其特征在于，第一步包括：

步骤S1-1：捕获新增和变更数据；

步骤S1-3：进行数据聚合处理。

3.根据权利要求2所述的实时大数据快速查询分析方法，其特征在于，在步骤S1-2中，计数窗口收集新增的数据，窗口时间范围默认为一个自然天，当商户的数据达到设定的计数阈值时，发送计数聚合的消息给计数聚合处理部件，窗口时间结束时，发送日切聚合的消息给日切聚合处理部件，计数聚合处理部件和日切聚合处理部件在完成数据的聚合，聚合后的创建时间为时间范围的结束时间，去重窗口收集窗口内被更新的商户，每个时间窗口的时间范围和商户都会发送给计数聚合处理部件和日切聚合处理部件，以完成预聚合数据的更新。

4.根据权利要求3所述的实时大数据快速查询分析方法，其特征在于，计数聚合处理部件和日切聚合处理部件都按照商户号、创建时间范围，对配置的多个聚合字段组执行数据的预聚合，其中日切聚合是默认的预聚合方式，所有交易商户每天至少有一份日切预聚合数据，该数据的聚合类型标记为D，处理过程的状态、商户号、创建时间范围在内的元数据记录到日切聚合元数据的表中；计数聚合只有当商户的单日数据达到设定的阈值后才会执行，该数据的聚合类型标记为C，聚合元素据记录到计数聚合元数据的表中。

5.根据权利要求2所述的实时大数据快速查询分析方法，其特征在于，第二步中的当数据查询请求时间范围是热数据的后续处理进一步包括：

步骤S2-1：数据查询请求进入到装置后获取计数聚合元数据；

步骤S2-3：将分段查询的结果进行合并后返回。

6.根据权利要求2所述的实时大数据快速查询分析方法，其特征在于，第二步中的当数据查询请求时间范围是跨冷热数据的后续处理进一步包括：

步骤S3-1：数据查询请求进入到装置后获取计数聚合元数据；

步骤S3-3：将分段查询的结果进行合并后返回。

7.一种实时大数据快速查询分析装置，其特征在于，装置包括存储器、处理器和存储在存储器中可供处理器运行的程序指令，其中所述处理器执行所述程序指令以实现如权利要求1至6中任一项所述的实时大数据快速查询分析方法的步骤。

8.一种计算机可读存储介质，其特征在于，其存储有可供处理器执行的程序指令，以实现如权利要求1至6中任一项所述的实时大数据快速查询分析方法的步骤。