CN115905354A

CN115905354A - 一种数据拉平方法、装置及计算机设备

Info

Publication number: CN115905354A
Application number: CN202211397443.XA
Authority: CN
Inventors: 于志杰
Original assignee: Beijing Baiju Yixing Technology Co ltd
Current assignee: Beijing Baiju Yixing Technology Co ltd
Priority date: 2022-11-09
Filing date: 2022-11-09
Publication date: 2023-04-04
Anticipated expiration: 2042-11-09
Also published as: CN115905354B

Abstract

本发明公开了一种数据拉平方法、装置及计算机设备，所述方法包括：从预设中间件中获取多个分组数据，并将多个分组数据暂存至预设内存，每一个所述分组数据与一个预设时间段对应；当本次从预设内存中获取的第一分组数据对应的第一预设时间段与前一次从所述预设内存中获取的第二分组数据对应的第二预设时间段之间相差至少一个单位时间段时，将所述第二分组数据作为所述至少一个单位时间段中每一个单位时间段分别对应的分组数据。

Description

一种数据拉平方法、装置及计算机设备

技术领域

本发明涉及数据拉平技术领域，具体涉及一种数据拉平方法、装置及计算机设备。

背景技术

多租户多场景下累计指标的分时趋势图计算，首先需要依赖不同租户、不同城市的数据做求和计算。由于不同租户不同城市的实际业务情况不同，因此普遍存在某个时间分片下某几个最细粒度的指标没有变化的情况。这种情况下，若需要对该缺失数据的粒度下的数据进行趋势图显示，则需要完成对缺失数据的延续操作。

而现有技术中有关于数据延续的方法，一是将有变化的时间分片数据持久化在数据库中，根据当前时间对未发生变化的时间分片内的数据作拉平处理后展示；二是将有变化的时间分片内的数据持久化到数据库的中间表中，通过大数据调度平台定时对未发生变化的时间分片内的数据拉取上一时间分片的数据进行补充。

上述第一种方法中的拉平数据存在性能瓶颈，由于需要将大量数据缓存在客户端本地，当时间延长的时间较长时，会造成内存无法释放。

第二种方法中，一是由于拉平任务与上游数据的产出是异步操作，因此会出现数据延迟或者数据不全的问题；二是拉平任务对数据库进行拉平处理，本质上是查询与写入，会加大数据库的消耗性能，数据量大成本也就越高。

发明内容

有鉴于此，本发明实施例提供了一种多维度数据拉平方法、装置及计算机设备，以解决现有技术中大数据调度平台在拉平数据时，为防止由于数据延迟产生的数据不全，所造成的时效性低的问题。

根据第一方面，本发明实施例公开了数据拉平方法，所述方法包括：

从预设中间件中获取多个分组数据，并将多个分组数据暂存至预设内存，每一个所述分组数据与一个预设时间段对应；

当本次从预设内存中获取的第一分组数据对应的第一预设时间段与前一次从所述预设内存中获取的第二分组数据对应的第二预设时间段之间相差至少一个单位时间段时，将所述第二分组数据作为所述至少一个单位时间段中每一个单位时间段分别对应的分组数据。

可选地，在所述从预设中间件中获取多个分组数据，并将多个分组数据暂存至预设内存之前，所述方法还包括：

获取第三预设时间段对应的原始数据、与所述原始数据对应的第一时间信息和第一粒度信息，所述第三预设时间段包括多个所述单位时间段；

根据多个所述单位时间段、所述第一时间信息，和所述第一粒度信息对所述原始数据进行分组，得到多个分组数据；

将多个所述分组数据存储至所述预设中间件。

可选地，每一个所述分组数据包括多个预设指标分别对应的数据，所述将多个所述分组数据存储至所述预设中间件之前，所述方法还包括：

统计第一分组数据中第一预设指标相对应的数据，得到与第一预设指标对应的统计数据，并将所有预设指标分别对应的统计数据存储至所述预设中间件，所述第一分组数据为多个分组数据中任一个，所述第一预设指标为多个预设指标中任一个。

可选地，所述根据多个所述单位时间段、所述第一时间信息，和所述第一粒度信息对所述原始数据进行分组，得到多个分组数据，具体包括：

根据多个所述单位时间段和所述第一时间信息对所述原始数据进行分组，得到与每一个所述单位时间段对应的原始子数据；

根据所述第一粒度信息对第一原始子数据进行分组，得到与所述第一粒度信息对应的多个分组数据，所述第一原始子数据为多个原始子数据中的任一个。

可选地，所述根据所述第一粒度信息对第一原始子数据进行分组，得到与所述第一粒度信息对应的多个分组数据之后，所述方法还包括：

对所述第一粒度信息对应的每一个分组数据中，进行多次统计的原始子数据进行去重。

可选地，所述将多个分组数据暂存至预设内存，具体包括：

读取所述预设中间件中的统计数据以及与所述统计数据对应的第二时间信息和第二粒度信息；

根据所述第二时间信息和所述第二粒度信息，将所述统计数据存储至预设内存中。

根据第二方面，本发明实施例公开了数据拉平装置，所述装置包括：

第一获取模块，用于从预设中间件中获取多个分组数据，并将多个分组数据暂存至预设内存，每一个所述分组数据与一个预设时间段对应；

拉平模块，用于当本次从预设内存中获取的第一分组数据对应的第一预设时间段与前一次从所述预设内存中获取的第二分组数据对应的第二预设时间段之间相差至少一个单位时间段时，将所述第二分组数据作为所述至少一个单位时间段中每一个单位时间段分别对应的分组数据。

可选地，在所述第一获取模块之前，所述装置还包括：

第二获取模块，用于获取第三预设时间段对应的原始数据、与所述原始数据对应的第一时间信息和第一粒度信息，所述第三预设时间段包括多个所述单位时间段；

分组模块，用于根据多个所述单位时间段、所述第一时间信息，和所述第一粒度信息对所述原始数据进行分组，得到多个分组数据；

存储模块，用于将多个所述分组数据存储至所述预设中间件。

根据第三方面，本发明实施例还公开了一种计算机设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器执行如第一方面或第一方面任一可选实施方式的数据拉平方法的步骤。

根据第四方面，本发明实施方式还公开了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如第一方面或第一方面任一可选实施方式的数据拉平方法的步骤。

本发明技术方案，具有如下优点：

本发明提供的数据拉平方法，从预设中间件中获取多个分组数据，并将多个分组数据暂存至预设内存中，其中预设中间件中的分组数据是实时获取的，这样也就避免了将大量数据存储至客户端或者是中间表等位置而造成的内存无法释放的问题；在将多个分组数据暂存至预设内存之后，实时从预设内存中获取预设时间段内的数据，实现对分组数据的实时展示，当本次从预设内存获取的第一分组数据对应的第一预设时间段与前一次从预设内存中获取的第二分组数据对应的第二预设时间段之间相差至少一个单位时间段时，将第二分组数据作为至少一个单位时间段中每一个单位时间段分别对应的分组数据，最终实现了在每一个时间粒度下对数据的展示，以及当该单位时间段内的无数据时，实现数据的拉平处理。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中数据拉平方法的一个具体示例的流程图；

图2为本发明实施例中数据拉平方法的一个具体示例的流程图；

图3为本发明实施例中数据拉平装置的一个具体示例的原理框图；

图4为本发明实施例中计算机设备的一个具体示例图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，还可以是两个元件内部的连通，可以是无线连接，也可以是有线连接。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

针对背景技术中所提及的技术问题，本申请实施例提供了一种数据拉平方法，具体参见图1所示，该数据拉平方法包括如下步骤：

步骤101，从预设中间件中获取多个分组数据，并将多个分组数据暂存至预设内存。

每一个分组数据与一个预设时间段对应。

示例性地，预设中间件可以是日志服务或者是其他的类似kafka等具有相同功能的中间件即可。预设中间件中存储了已经分好组的原始数据，在步骤101之前对数据的获取和分组的具体方法由下文进行介绍。

步骤102，当本次从预设内存中获取的第一分组数据对应的第一预设时间段与前一次从预设内存中获取的第二分组数据对应的第二预设时间段之间相差至少一个单位时间段时，将第二分组数据作为至少一个单位时间段中每一个单位时间段分别对应的分组数据。

示例性地，在对数据进行展示时，从预设内存中获取对应的数据，在获取数据时需要根据对应的时间信息来获取数据以及展示数据。

在实时获取数据时，采用Flink流式计算的方式来获取，可以避免了现有技术中采用大数据调度平台进行数据获取时，为了防止数据发送或接收延迟导致的数据不全的问题，从而使得数据进行数据展示时时效性差的问题。

同时可以根据获取到的数据进行实时展示，完成对相应时间粒度下的趋势图展示。当从预设内存中获取到第一分组数据对应的第一预设时间段与前一次从预设内存中获取的第二分组数据对应的第二预设时间段之间相差至少一个单位时间段时，则说明此时前几个单位时间段内都没有数据，因此在进行数据展示时，需要对数据进行拉平处理，从而实现对数据进行趋势图展示。

其中第一预设时间段在第二预设时间段之前，每一个预设时间段可以是一个单位时间段的时间长度，例如第一预设时间段为0-5分钟，第二预设时间段为10-15分钟，中间间隔5-10分钟，则中间间隔的时间内的数据以0-5分钟中的数据进行展示，这样就实现了在没有数据更新的情况下对数据进行趋势化展示，不会存在数据的断层，也不会造成数据的大量存储无法释放的问题。

在上述实施例的基础上，本发明实施例还提供了另一种数据拉平方法，本实施例中对于上述实施例中已经介绍的内容将不再重复赘述，在本实施例中，如图2所示，在从预设中间件中获取多个分组数据，并将多个分组数据暂存至预设内存之前，方法还包括：

步骤1001，获取第三预设时间段对应的原始数据、与原始数据对应的第一时间信息和第一粒度信息。

第三预设时间段包括多个单位时间段。

示例性地，第三预设时间段内的原始数据也就是实时产生的原始数据，本实施例中以打车软件中的订单或者是完成单等作为原始数据。

与原始数据对应的第一时间信息为产生订单的时间或者完成单的完成时间。

一个城市中可能同时存在多个公司的打车软件(租户)，也就是存在多个打车软件，一个打车软件也同时应用于多个城市，因此在进行统计数据或者查看某个城市或者某个打车软件的数据时，就需要涉及不同的粒度。例如，城市-租户-业务，或者是租户-城市-业务，其中业务可以是订单总量和完成总量以及对应时间段内的累计指标。

将每秒发生的原始数据由业务系统(产生的订单的服务器)发送至rocketMQ或者是kafka等中间件中。

步骤1002，根据多个单位时间段、第一时间信息，和第一粒度信息对原始数据进行分组，得到多个分组数据。

步骤1003，将多个分组数据存储至预设中间件。

示例性地，在中间件存储时可以根据原始数据发生的时间，对原始数据进行划分，划分的依据可以是在一天内每隔五分钟进行划分一组，也就是一天最多形成288个时间分片。

针对每一个时间分片内的数据，还可以根据租户、城市等多个维度对原始数据进行分组。

在一个可选的实施例中，得到分组数据之后，还可以对分组数据中的，统计第一分组数据中第一预设指标相对应的数据，得到与第一预设指标对应的统计数据，并将所有预设指标分别对应的统计数据存储至预设中间件，第一分组数据为多个分组数据中任一个，第一预设指标为多个预设指标中任一个。

示例性地，在将数据进行分组之后，为了方便对数据进行展示和减少在数据拉平处理时的计算量，可以对分组内的数据进行统计，得到每一个粒度下的多个预设指标的数量，其中预设指标也就是订单总量或者是完成订单的总量等指标。

在一个可选的实施例中，对每一个粒度下的数据进行分组之后，在同一分组数据中，当存在对同一数据进行重复统计时，相当于将一个数据进行了多次统计，因此在进行存储之前需要对重复的数据进行去重，例如，某租户的同一订单，这订单无论如何重复到来，它的所属分组是确定的，不会变化。由于系统上游数据有可能有重复写入造成数据重复的可能，因此在统计指标时需要在本分组内去重。本申请实施例中对去重的具体实施方式不做限定，本领域技术人员可以根据实际情况确定。

在进行分组之后存储至预设内存中，考虑到在后续数据展示以及拉平过程中可以快速的获取到数据，可以将数据以分组后的时间信息和粒度信息进行存储，也就是第二时间信息和第二粒度信息，在存储是可以存储至Map结构的预设内存中，其中key为时间分组(如：20221005_城市ID_租户ID_业务ID)，value为自定义的已赋值的实例粒度信息以及对应的统计数据。

在获取数据时，也可以根据timer定时器定时触发后，根据当前触发timer的时间分组的时间去预设内存的Map结构里获取最新数据。若当前时间分组内获取不到数据说明最近的一个5分钟分片内该维度下没有实时数据产生，则将当前的时间分组减去5分钟之后去获取前一时间分组内的数据。

当一天(或者其他时间周期)结束后，完成趋势图的展示以及拉平操作，当没结束则继续获取数据进行展示和拉平。

本申请实施例中的实现方式全部依赖flink框架(可实现实时的流式计算)中的timer定时器(定时获取时间分组内的数据)和state存储完成数据计算的定时和拉平操作，依赖简单，计算全部基于集群内存(预设内存)，能强力保障任务的稳定性及处理性能；由于不涉及前端技术对数据的任何处理操作，不会对前端框架的稳定性、页面渲染能力带来任何的性能风险；所有计算全部依赖计算集群的CPU、内存，仅在数据计算完毕后才会产出结果数据，不会对最终存储计算结果的数据库实例造成任何和存储和计算性能压力，同时控制了相关存储的成本上涨问题；可通过依据对数据时效、产出精度的具体要求，酌情随意调整timer定时器(时间分组)的定时时间，充分满足用户对数据时效和计算精度的要求。

以上，为本申请所提供的自动化测量几个方法实施例，下文中则介绍说明本申请所提供的自动化测量其他实施例，具体参见如下。

本发明实施例还公开了一种数据拉平装置，如图3所示，该装置包括：

第一获取模块301，用于从预设中间件中获取多个分组数据，并将多个分组数据暂存至预设内存，每一个分组数据与一个预设时间段对应；

拉平模块302，用于当本次从预设内存中获取的第一分组数据对应的第一预设时间段与前一次从预设内存中获取的第二分组数据对应的第二预设时间段之间相差至少一个单位时间段时，将第二分组数据作为至少一个单位时间段中每一个单位时间段分别对应的分组数据。

作为本发明的一个可选地实施例，在第一获取模块之前，装置还包括：

第二获取模块，用于获取第三预设时间段对应的原始数据、与原始数据对应的第一时间信息和第一粒度信息，第三预设时间段包括多个单位时间段；

分组模块，用于根据多个单位时间段、第一时间信息，和第一粒度信息对原始数据进行分组，得到多个分组数据；

存储模块，用于将多个分组数据存储至预设中间件。

作为本发明的一个可选地实施例，每一个分组数据包括多个预设指标分别对应的数据，将多个分组数据存储至预设中间件之前，方法还包括：

统计第一分组数据中第一预设指标相对应的数据，得到与第一预设指标对应的统计数据，并将所有预设指标分别对应的统计数据存储至预设中间件，第一分组数据为多个分组数据中任一个，第一预设指标为多个预设指标中任一个。

作为本发明的一个可选地实施例，分组模块，具体用于：根据多个单位时间段和第一时间信息对原始数据进行分组，得到与每一个单位时间段对应的原始子数据；根据第一粒度信息对第一原始子数据进行分组，得到与第一粒度信息对应的多个分组数据，第一原始子数据为多个原始子数据中的任一个。

作为本发明的一个可选地实施例，装置还用于：对第一粒度信息对应的每一个分组数据中，进行多次统计的原始子数据进行去重。

作为本发明的一个可选地实施例，第一获取模块，具体用于：

读取预设中间件中的统计数据以及与统计数据对应的第二时间信息和第二粒度信息；

根据第二时间信息和第二粒度信息，将统计数据存储至预设内存中。

本发明实施例提供的数据拉平装置中各部件所执行的功能均已在上述任一方法实施例中做了详细的描述，因此这里不再赘述。

通过执行该装置，从预设中间件中获取多个分组数据，并将多个分组数据暂存至预设内存中，其中预设中间件中的分组数据是实时获取的，这样也就避免了将大量数据存储至客户端或者是中间表等位置而造成的内存无法释放的问题；在将多个分组数据暂存至预设内存之后，实时从预设内存中获取预设时间段内的数据，实现对分组数据的实时展示，当本次从预设内存获取的第一分组数据对应的第一预设时间段与前一次从预设内存中获取的第二分组数据对应的第二预设时间段之间相差至少一个单位时间段时，将第二分组数据作为至少一个单位时间段中每一个单位时间段分别对应的分组数据，最终实现了在每一个时间粒度下对数据的展示，以及当该单位时间段内的无数据时，实现数据的拉平处理。

本发明实施例还提供了一种计算机设备，如图4所示，该计算机设备可以包括处理器401和存储器402，其中处理器401和存储器402可以通过总线或者其他方式连接，图4中以通过总线连接为例。

处理器401可以为中央处理器(Central Processing Unit，CPU)。处理器401还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器402作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施例中的数据拉平方法对应的程序指令/模块。处理器401通过运行存储在存储器402中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的数据拉平方法。

存储器402可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器401所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器402可选包括相对于处理器401远程设置的存储器，这些远程存储器可以通过网络连接至处理器401。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个模块存储在存储器402中，当被处理器401执行时，执行如图1所示实施例中的数据拉平方法。

上述计算机设备具体细节可以对应参阅图1所示的实施例中对应的相关描述和效果进行理解，此处不再赘述。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-StateDrive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种数据拉平方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在所述从预设中间件中获取多个分组数据，并将多个分组数据暂存至预设内存之前，所述方法还包括：

将多个所述分组数据存储至所述预设中间件。

3.根据权利要求2所述的方法，其特征在于，每一个所述分组数据包括多个预设指标分别对应的数据，所述将多个所述分组数据存储至所述预设中间件之前，所述方法还包括：

4.根据权利要求2所述的方法，其特征在于，所述根据多个所述单位时间段、所述第一时间信息，和所述第一粒度信息对所述原始数据进行分组，得到多个分组数据，具体包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一粒度信息对第一原始子数据进行分组，得到与所述第一粒度信息对应的多个分组数据之后，所述方法还包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述将多个分组数据暂存至预设内存，具体包括：

7.一种数据拉平装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，在所述第一获取模块之前，所述装置还包括：

9.一种计算机设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如权利要求1-6任一所述的数据拉平方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被节点执行时实现如权利要求1-6任一所述的数据拉平方法。