CN117762968A

CN117762968A - 一种数据聚合方法、系统、设备及存储介质

Info

Publication number: CN117762968A
Application number: CN202311799178.2A
Authority: CN
Inventors: 纪宝玉; 刘新冬; 许征; 张仁焕
Original assignee: Beijing Yuexin Times Technology Co ltd
Current assignee: Beijing Yuexin Times Technology Co ltd
Priority date: 2023-12-25
Filing date: 2023-12-25
Publication date: 2024-03-26

Abstract

本申请涉及一种数据聚合方法、系统、设备及存储介质，属于数据处理领域，其包括获取待聚合数据流，待聚合数据流表示对多个数据源中的数据进行预处理后得到的数据流；根据待聚合数据流对应的获取时间，划分待聚合数据流，得到多个子数据流；分别对子数据流进行聚合，得到聚合结果。本申请通过使用流式计算，对数据进行实时处理，具有提高数据聚合准确性和可靠性的效果。

Description

一种数据聚合方法、系统、设备及存储介质

技术领域

本申请涉及数据处理的技术领域，尤其是涉及一种数据聚合方法、系统、设备及存储介质。

背景技术

随着行业的飞速发展，企业产生了对海量的数据进行聚合和分析的需求。需要实时对数据中心设备的性能数据聚合分析，以便及时发现和解决各种生产问题；工业自动化控制系统，需要对工业设备的数据聚合分析，进而优化生产过程和提高产品质量。在传统的数据聚合方式下，通常需要手动处理数据，包括数据提取、清洗、转换和聚合等操作。这可能需要大量的时间和人力成本，并且容易出现错误或不准确的聚合结果。同时也容易受到数据源的限制，例如数据源格式、协议或接口的不兼容性，导致无法获取或使用某些数据源。由于数据源的多样性和复杂性，传统的数据聚合方式可能面临数据质量问题，例如缺失、错误、重复或不一致的数据，这可能导致聚合结果不准确或不可靠。如何提高数据聚合的准确性和可靠性是当前需要解决的问题。

发明内容

为了提高数据聚合的准确性和可靠性，本申请提供了一种数据聚合方法、系统、设备及存储介质。

在本申请的第一方面，提供了一种数据聚合方法。该方法包括：

获取待聚合数据流，待聚合数据流表示对多个数据源中的数据进行预处理后得到的数据流；

根据待聚合数据流对应的获取时间，划分待聚合数据流，得到多个子数据流；

分别对子数据流进行聚合，得到聚合结果。

由以上技术方案可知，通过获取待聚合数据流，将待聚合数据流进行划分，得到子数据流，分别对子数据流进行聚合操作进而完成所有待聚合数据流的聚合，使用流式计算保证了数据获取的实时性，同时提高了数据聚合的准确性和可靠性。

在一种可能的实现方式中，方法还包括：

识别待聚合数据流的数据属性；

将待聚合数据流对应的聚合结果存储至数据属性对应的存储位置。

在一种可能的实现方式中，将待聚合数据流对应的聚合结果存储至数据属性对应的存储位置，包括：

当数据属性为热数据时，将聚合结果存储到内存数据库或固态硬盘中；

当数据属性为冷数据时，将聚合结果存储到磁盘或分布式文件系统中；

当数据属性为元数据或索引数据时，将聚合结果存储到关系型数据库中；

当数据属性为日志数据时，将聚合结果存储到云存储服务或分布式存储系统中。

由以上技术方案可知，通过将不同的数据存入不同的位置，为后续数据的调用、存储等数据操作奠定了良好的基础。

在一种可能的实现方式中，方法还包括：

获取子数据流进行聚合的过程中的性能数据；

当性能数据大于预设的报警阈值时，输出报警信号。

在一种可能的实现方式中，获取待聚合数据流，包括：

获取初始数据流，初始数据流表示从多个数据源获取到的数据流；

对初始数据流中的缺失值进行填补，得到第一数据流；

去除第一数据流中的重复值和异常值，得到第二数据流；

将第二数据流中的数据进行格式转换，得到待聚合数据流。

在一种可能的实现方式中，将第二数据流中的数据进行格式转换，得到待聚合数据流，包括：

依次判断第二数据流中数据的数据类型是否与预设类型相同、数据单位是否与预设单位相同；

若否，则将第二数据流中数据的数据类型转换为预设类型、将第二数据流中数据的数据单位转换为预设单位，得到待聚合数据流。

在一种可能的实现方式中，方法还包括：

获取用户需求，用户需求表示用户对于聚合结果呈现效果的需求；

根据用户需求，输出聚合结果。

在本申请的第二方面，提供了一种数据聚合系统。该系统包括：

数据获取模块，用于获取待聚合数据流，待聚合数据流表示对多个数据源中的数据进行预处理后得到的数据流；

数据划分模块，用于根据待聚合数据流对应的获取时间，划分待聚合数据流，得到多个子数据流；

数据聚合模块，用于分别对子数据流进行聚合，得到聚合结果。

在本申请的第三方面，提供了一种电子设备。该电子设备包括：存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现如以上所述的方法。

在本申请的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如根据本申请的第一方面的方法。

综上所述，本申请包括至少一种有益技术效果：

通过获取待聚合数据流，将待聚合数据流进行划分，得到子数据流，分别对子数据流进行聚合操作进而完成所有待聚合数据流的聚合，使用流式计算保证了数据获取的实时性，同时提高了数据聚合的准确性和可靠性。

附图说明

图1是本申请实施例提供的数据聚合方法的流程示意图。

图2是本申请实施例提供的数据聚合方法的流程示意图。

图3是本申请实施例提供的数据存储的结构示意图。

图4是本申请实施例提供的分布式系统的运行示意图。

图5是本申请实施例提供的数据聚合系统的结构示意图。

图6是本申请实施例提供的电子设备的结构示意图。

图中，201、数据获取模块；202、数据划分模块；203、数据聚合模块；301、CPU；302、ROM；303、RAM；304、I/O接口；305、输入部分；306、输出部分；307、存储部分；308、通信部分；309、驱动器；310、可拆卸介质。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，如无特殊说明，一般表示前后关联对象是一种“或”的关系。

随着互联网技术及传感器的发展，大量的数据被传感器收集并用于后续的分析、计算。在这样的场景中，数据聚合也得到了越来越多的关注。数据聚合可以在执行确切的计算之前事先对收集的数据进行处理，提高通信和计算的效率。随着行业的飞速发展，企业产生了对海量的数据进行聚合和分析的需求。需要实时对数据中心设备的性能数据聚合分析，以便及时发现和解决各种生产问题；工业自动化控制系统，需要对工业设备的数据聚合分析，进而优化生产过程和提高产品质量。

在传统的数据聚合方式下，通常需要手动处理数据，包括数据提取、清洗、转换和聚合等操作。这可能需要大量的时间和人力成本，并且容易出现错误或不准确的聚合结果。同时也容易受到数据源的限制，例如数据源格式、协议或接口的不兼容性，导致无法获取或使用某些数据源。由于数据源的多样性和复杂性，传统的数据聚合方式可能面临数据质量问题，例如缺失、错误、重复或不一致的数据，这可能导致聚合结果不准确或不可靠。传统的数据聚合方式可能无法处理大规模的数据量，导致性能瓶颈和处理效率低下的问题。这可能需要采取额外的措施来优化处理速度或限制聚合数据的范围。传统的数据聚合方式可能无法实现实时数据处理和分析，导致分析结果不及时或过时。

在相关技术中，数据聚合一般会根据实际的需求按照预定的时间间隔执行，通过这样的方式来缓解海量数据对处理设备产生的压力，但是这样无法实时响应数据的变化。这意味着在两次查询之间的时间段内，数据可能已经发生了变化，但无法立即反映这些变化。进而导致最终得到的聚合结果的准确性和可靠性不高。所以本申请提供了一种数据聚合方法，通过使用流式计算，实现对数据变化的实时响应，提高聚合结果的准确性和可靠性。

下面结合说明书附图对本申请实施例作进一步详细描述。

本申请实施例提供一种数据聚合方法，所述方法的主要流程描述如下。

如图1所示：

步骤S101：获取待聚合数据流。

具体地，上述待聚合数据流表示对多个数据源中的数据进行预处理后得到的数据流。

进一步地，首先，从多个数据源得到初始数据流，上述初始数据流表示直接从数据源中得到并且未经过任何处理的数据，上述初始数据流的数据源包括但不限于从消息队列中获取、从API接口得到、从文件中得到。然后，识别上述初始数据流中的缺失值、重复值和异常值，将上述初始数据流中的缺失值进行填补，填补完成后得到第一数据流，缺失值的填补方法可以采用均值填补、众数填补、插值法以及预测模型填补等方法，在其他的实施方式中，也可以采用其他能够填补缺失值的方法，在此不作限定。得到第一数据流之后，再将第一数据流中的重复值和异常值去除，得到第二数据流。此时，第二数据流中数据的数值问题已经处理完毕，需要对第二数据流中数据的格式进行调整。

在其他实施方式中，上述初始数据流还可以从中央处理器（central processingunit，CPU）、内存、磁盘、网络中获取裸数据，数据源也可以是各种数据存储系统、数据库、文件、API等。在其他实施方式中，对于异常值还可以进行数据平滑处理，例如Winsorizing，在此不作限定。对于重复值，可以保留一次记录，将其他重复值删除，也可以删除所有的重复记录。

要判断上述第二数据流中数据的数据类型是否与预设类型相同、数据单位是否与预设单位相同，若上述第二数据流中数据的数据类型与预设类型相同但数据单位与预设单位不相同，则将上述第二数据流中数据的数据单位转换为预设单位。若上述第二数据流中数据的数据类型与预设类型不同但数据单位与预设单位相同，则将上述第二数据流中数据的数据类型转换为预设类型。若上述第二数据流中数据的数据类型与预设类型不同且数据单位与预设单位不同，则将上述第二数据流中数据的数据类型转换为预设类型、将上述第二数据流中数据的数据单位转换为预设单位，完成第二数据流中所有数据的格式转换后，得到待聚合数据流。

在一个具体的示例中，上述预设类型为浮点型，预设单位为4个字节。在其他实施方式中，可以根据实际需求设定其他的预设类型和预设单位，在此不作限定。

步骤S102：根据待聚合数据流对应的获取时间，划分待聚合数据流，得到多个子数据流。

步骤S103：分别对子数据流进行聚合，得到聚合结果。

可以理解的是，数据流的获取是一个持续的过程，如果等到完成数据流中所有数据获取后再进行数据聚合，海量的数据会给服务器造成巨大的处理压力，所以在待聚合数据流获取的过程中，每间隔一定时间就对上述时间内的数据进行一次聚合，循环这个过程直到完成待聚合数据流中所有数据的聚合。同时，对于某一个数据而言，可能在第一时间段内的数据值为a并在第一时间段内完成聚合，在目前的相关技术中，不会再对该数据的值进行调整，但是本申请实施例提供的方法，当该数据在第二时间段内的值变为b时，该数据会在第二时间段内重新进行聚合，即聚合结果会随着待聚合数据流中各个数据的获取和变化而变化，提高了聚合结果的准确性和可靠性。

参照图2，在一个具体的示例中，首先将从各个数据源获取到的数据进行预处理和数据转换得到待聚合数据流，然后对待聚合数据流进行聚合操作。首先，将时间间隔设定为1分钟、1小时和24小时。从获取待聚合数据流开始，当达到1分钟后，将1分钟内得到的数据进行聚合，然后将聚合后的数据进行存储。同时将1分钟聚合后的数据进入1小时的汇总流，当达到1小时后，将1小时内得到的数据进行聚合，并将聚合后的数据进行存储。同理，1小时聚合后的数据会进入24小时的汇总流，当达到24小时后，会将24小时内得到的数据进行聚合，并将聚合后的数据进行存储，就可以得到待聚合数据流对应的聚合结果。得到聚合结果之后，根据实际需求对聚合结果进行汇总、计算或统计，具体可以为求和、求平均值、求最大值、求最小值等。

数据聚合方法还包括：

识别上述待聚合数据流的数据属性；将上述待聚合数据流对应的聚合结果存储至上述数据属性对应的存储位置。

参照图3，进一步地，当上述数据属性为热数据时，将上述聚合结果存储到内存数据库或固态硬盘中。热数据是指访问频率高、对业务和应用关键的数据，这些数据需要能够快速访问和进行快速响应，将热数据存储到内存数据库或高速固态硬盘能够实现数据的快速访问和响应，能够对实时数据进行频繁的读写操作，提高系统性能和响应速度。当上述数据属性为冷数据时，将上述聚合结果存储到磁盘或分布式文件系统（hadoop distributedfile system，HDFS）中。冷数据是指访问频率较低、对业务和应用不太重要的数据。将冷数据存储在磁盘或分布式文件系统可降低存储成本，适合长期保存和备份数据，对访问频率要求不高的数据进行有效管理。当上述数据属性为元数据或索引数据时，将上述聚合结果存储到关系型数据库中。元数据或索引数据用于描述和管理实际数据的结构和索引，存储在关系型数据库中可以支持复杂的查询和数据管理操作，提供事务一致性和高可用性。当上述数据属性为日志数据时，将上述聚合结果存储到云存储服务或分布式存储系统中。云存储服务和分布式存储系统具有高可靠性和可扩展性，支持长期保存、实时监控和复杂分析，帮助发现问题、进行故障排查和监控系统运行状态。

数据聚合方法还包括：

获取上述子数据流进行聚合的过程中的性能数据；当上述性能数据大于预设的报警阈值时，输出报警信号。

在一种具体示例中，可以根据实际需求设定输出报警信号时的预警动作，例如，当性能数据大于报警阈值时，停止数据聚合。

数据聚合方法还包括：

获取用户需求，上述用户需求表示用户对于上述聚合结果呈现效果的需求；根据上述用户需求，输出上述聚合结果。

在一种具体示例中，用户需求为报表，则将聚合结果以报表的形式进行展现。在其他实施方式中，用户需求还可以为图表、仪表盘等其他形式。通过获取用户需求，将聚合后的聚合结果通过可视化工具展示出来，方便用户直观地理解和使用聚合结果中的数据。

本申请还使用了分布式部署，可扩展多台服务器分工处理数据。

参照图4，在一个具体的示例中，其中消息队列可以理解为上述待聚合数据流，Master会对接收到的待聚合数据流进行处理，Master节点在集群中负责协调和管理整个集群的资源。Master节点的职责包括任务调度、资源分配和监控，以及维护集群的整体状态和元数据信息。此外，Master节点还负责整个集群内节点的故障检测和自动恢复，确保集群的稳定和高可用性。

worker节点由Master节点分配任务，worker节点执行Master节点分配给它们的任务，例如，数据处理和计算。此外，worker节点向Master节点报告自身的资源使用情况和状态，并处理来自Master节点的指令，如启动、停止任务等。worker节点还参与数据存储和处理工作，并根据需要进行数据传输和通信。

当单个worker节点或Master节点发生故障时，分布式系统可以保持整体运行，从而显著提升了系统的可靠性和稳定性。这种能力确保了即使出现故障，系统仍能够继续提供服务，避免大规模的中断和数据丢失。分布式系统通过并行计算和负载均衡实现了高性能的数据处理和计算能力。通过同时利用多个节点的计算资源，系统能够高效地处理大规模数据，并在负载均衡的情况下，避免出现性能瓶颈，从而保持系统的高效运行。可以根据实际需求调整数据规模和服务器资源情况，动态增加或减少master节点和worker节点的数量。

本申请通过采用流式处理方式，实时处理数据流，将数据处理等待时间最小化，同时保证了及时得到相同数据在不同时间的不同变化，提高了得到的聚合结果的准确性和可靠性。

本申请实施例提供一种数据聚合系统，参照图5，数据聚合系统包括：

数据获取模块201，用于获取待聚合数据流，待聚合数据流表示对多个数据源中的数据进行预处理后得到的数据流；

数据划分模块202，用于根据待聚合数据流对应的获取时间，划分待聚合数据流，得到多个子数据流；

数据聚合模块203，用于分别对子数据流进行聚合，得到聚合结果。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，所描述的模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例公开一种电子设备。参照图6，电子设备包括中央处理单元(centralprocessing unit，CPU)301，其可以根据存储在只读存储器(read-only memory，ROM)302中的程序或者从存储部分307加载到随机访问存储器(random access memory，RAM)303中的程序而执行各种适当的动作和处理。在RAM 303中，还存储有系统操作所需的各种程序和数据。CPU 301、ROM 302以及RAM 303通过总线彼此相连。输入/输出(input/output，I/O)接口304也连接至总线。

以下部件连接至I/O接口304：包括键盘、鼠标等的输入部分305；包括诸如阴极射线管(cathode ray tube，CRT)、液晶显示器(liquid crystal display，LCD)等以及扬声器等的输出部分306；包括硬盘等的存储部分307；以及包括诸如局域网(local areanetwork,LAN)卡、调制解调器等的网络接口卡的通信部分308。通信部分308经由诸如因特网的网络执行通信处理。驱动器309也根据需要连接至I/O接口304。可拆卸介质310，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器309上，以便于从其上读出的计算机程序根据需要被安装入存储部分307。

特别地，根据本申请的实施例，上文参考流程图图1描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在机器可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分308从网络上被下载和安装，和/或从可拆卸介质310被安装。在该计算机程序被中央处理单元(CPU)301执行时，执行本申请的装置中限定的上述功能。

需要说明的是，本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(erasable programmable read only memory,EPROM)、光纤、便携式紧凑磁盘只读存储器(compact disc read-only memory,CD-ROM)、光存储器件、磁存储器件，或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、射频(radio frequency,RF)等等，或者上述的任意合适的组合。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的申请范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离前述申请构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其他技术方案。例如上述特征与本申请中申请的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种数据聚合方法，其特征在于，包括：

获取待聚合数据流，所述待聚合数据流表示对多个数据源中的数据进行预处理后得到的数据流；

根据所述待聚合数据流对应的获取时间，划分所述待聚合数据流，得到多个子数据流；

分别对所述子数据流进行聚合，得到聚合结果。

2.根据权利要求1所述的数据聚合方法，其特征在于，所述方法还包括：

识别所述待聚合数据流的数据属性；

将所述待聚合数据流对应的聚合结果存储至所述数据属性对应的存储位置。

3.根据权利要求2所述的数据聚合方法，其特征在于，所述将所述待聚合数据流对应的聚合结果存储至所述数据属性对应的存储位置，包括：

当所述数据属性为热数据时，将所述聚合结果存储到内存数据库或固态硬盘中；

当所述数据属性为冷数据时，将所述聚合结果存储到磁盘或分布式文件系统中；

当所述数据属性为元数据或索引数据时，将所述聚合结果存储到关系型数据库中；

当所述数据属性为日志数据时，将所述聚合结果存储到云存储服务或分布式存储系统中。

4.根据权利要求1所述的数据聚合方法，其特征在于，所述方法还包括：

获取所述子数据流进行聚合的过程中的性能数据；

当所述性能数据大于预设的报警阈值时，输出报警信号。

5.根据权利要求1所述的数据聚合方法，其特征在于，所述获取待聚合数据流，包括：

获取初始数据流，所述初始数据流表示从多个数据源获取到的数据流；

对所述初始数据流中的所述缺失值进行填补，得到第一数据流；

去除所述第一数据流中的重复值和异常值，得到第二数据流；

将所述第二数据流中的数据进行格式转换，得到所述待聚合数据流。

6.根据权利要求5所述的数据聚合方法，其特征在于，所述将所述第二数据流中的数据进行格式转换，得到所述待聚合数据流，包括：

依次判断所述第二数据流中数据的数据类型是否与预设类型相同、数据单位是否与预设单位相同；

若否，则将所述第二数据流中数据的数据类型转换为预设类型、将所述第二数据流中数据的数据单位转换为预设单位，得到待聚合数据流。

7.根据权利要求1所述的数据聚合方法，其特征在于，所述方法还包括：

获取用户需求，所述用户需求表示用户对于所述聚合结果呈现效果的需求；

根据所述用户需求，输出所述聚合结果。

8.一种数据聚合系统，其特征在于，包括：

数据获取模块，用于获取待聚合数据流，所述待聚合数据流表示对多个数据源中的数据进行预处理后得到的数据流；

数据划分模块，用于根据所述待聚合数据流对应的获取时间，划分所述待聚合数据流，得到多个子数据流；

数据聚合模块，用于分别对所述子数据流进行聚合，得到聚合结果。

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器上存储有能够被处理器加载并执行如权利要求1至7中任一种所述方法的计算机程序。

10.一种计算机可读存储介质，其特征在于，存储有能够被处理器加载并执行如权利要求1至7中任一种所述方法的计算机程序。