CN112948382A

CN112948382A - 基于大数据的信息处理方法、装置及相关设备

Info

Publication number: CN112948382A
Application number: CN202110219983.8A
Authority: CN
Inventors: 刘耀晖
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2021-06-11
Also published as: WO2022178976A1

Abstract

本申请涉及数据处理技术，提供一种基于大数据的信息处理方法、装置、计算机设备与存储介质，包括：获取对应若干个目标数据采集点的目标聚表结构；按照所述目标聚表结构将若干个所述目标数据采集点采集的数据进行聚合处理，得到目标聚表数据；调用虚拟管理节点解析数据查询请求，得到待查询表标识，并根据待查询表标识确定目标虚拟数据节点；获取目标虚拟数据节点的第一数据版本以及对应节点组中虚拟数据节点的第二数据版本；检测第一数据版本与第二数据版本是否一致；当检测结果为是时，调用目标虚拟数据节点获取节点数据，并根据聚合规则聚合节点数据，得到目标节点数据。本申请能够提高信息处理效率，促进智慧城市的快速发展。

Description

基于大数据的信息处理方法、装置及相关设备

技术领域

本申请涉及数据处理技术领域，尤其涉及一种基于大数据的信息处理方法、装置、计算机设备及介质。

背景技术

伴随移动互联网、物联网等蓬勃发展，以及各种传感器、智能设备出现，手机、计算机、手环、共享自行车、出租车、电表、环境监测设备、大型设备、工业生产线等等都在源源不断的产生海量的实时数据并发往云端。这些海量数据可以帮助企业实时监控业务、设备的运行情况，生成报表，通过大数据分析、机器学习对业务进行预测和预警，帮助企业进行科学决策、节约成本并创造新价值。

在实现本发明的过程中，发明人发现现有技术存在以下技术问题：由于数据记录条数巨大，导致数据的实时写入成为瓶颈，数据处理极为缓慢。传统的关系型数据库或NoSQL数据库以及流式计算引擎由于没有充分利用时序空间大数据的特点，性能提升极为有限，只能依靠集群架构，投入更多计算资源和存储资源，极大增加企业成本。

因此，有必要提供一种基于大数据的信息处理方法，能够提高信息处理的效率。

发明内容

鉴于以上内容，有必要提出一种基于大数据的信息处理方法、基于大数据的信息处理装置、计算机设备及介质，能够提高信息处理效率。

本申请实施例第一方面提供一种基于大数据的信息处理方法，所述基于大数据的信息处理方法包括：

获取对应若干个目标数据采集点的目标聚表结构；

按照所述目标聚表结构将若干个所述目标数据采集点采集的数据进行聚合处理，得到目标聚表数据，并存储所述目标聚表数据至预设数据库中；

当接收到数据查询请求时，调用虚拟管理节点解析所述数据查询请求，得到对应所述数据查询请求的待查询表标识，并根据所述待查询表标识确定目标虚拟数据节点；

获取所述目标虚拟数据节点的第一数据版本以及对应所述目标虚拟数据节点的虚拟数据节点组中每一虚拟数据节点的第二数据版本；

检测所述第一数据版本与所述第二数据版本是否一致；

当检测结果为所述第一数据版本与所述第二数据版本一致时，调用所述目标虚拟数据节点获取节点数据，并根据聚合规则聚合所述节点数据，得到目标节点数据。

进一步地，在本申请实施例提供的上述基于大数据的信息处理方法中，在获取对应若干个目标数据采集点的目标聚表结构之前，所述方法还包括：

获取每一所述目标数据采集点的数据采集类型；

检测所述数据采集类型是否一致；

当检测结果为所述数据采集类型一致时，确定所述数据采集类型的目标聚表结构；

当检测结果为所述数据采集类型不一致时，为每一所述数据采集类型单独创建表格结构。

进一步地，在本申请实施例提供的上述基于大数据的信息处理方法中，所述获取对应若干个目标数据采集点的目标聚表结构包括：

获取所述目标数据采集点的数据采集类型；

解析所述数据采集类型，得到待采集项以及每一所述待采集项对应的属性信息；

根据所述待采集项与所述属性信息创建目标聚表结构。

进一步地，在本申请实施例提供的上述基于大数据的信息处理方法中，所述按照所述目标聚表结构将若干个所述目标数据采集点采集的数据进行聚合处理，得到目标聚表数据包括：

获取每一所述目标数据采集点采集的数据，并将所述数据填充至所述目标聚表结构中，得到初始聚表数据；

构建与所述目标数据采集点的标识信息对应的预设标签，并将所述标签添加至所述初始聚表数据中；

聚合处理所述初始聚表数据，得到目标聚表数据。

进一步地，在本申请实施例提供的上述基于大数据的信息处理方法中，所述方法还包括：

获取预设数据库中的剩余空间值；

监测所述剩余空间值是否满足预设空间临界值；

当监测结果为所述剩余空间值满足预设空间临界值时，选取所述预设数据库中的目标数据；

迁移所述目标数据存储至硬盘中。

检测由虚拟管理节点组成的虚拟管理节点组中的主导虚拟管理节点是否异常；

当检测结果为所述主导虚拟管理节点存在异常时，获取节点树，并计算每一所述节点树中的子节点数量；

确定所述子节点数量最小的节点树为目标节点树；

选取所述目标节点树对应的父节点作为新的主导虚拟管理节点。

获取所述目标虚拟数据节点对应的虚拟数据节点组；

调用所述虚拟数据节点组中的虚拟数据节点接收所述目标虚拟数据节点的心跳包；

解析并检测所述心跳包是否存在异常状态；

当检测结果为所述心跳包存在异常状态时，从所述虚拟数据节点组中确定其他虚拟数据节点，用于执行数据查询。

本申请实施例第二方面还提供一种基于大数据的信息处理装置，所述基于大数据的信息处理装置包括：

聚表获取模块，用于获取对应若干个目标数据采集点的目标聚表结构；

数据存储模块，用于按照所述目标聚表结构将若干个所述目标数据采集点采集的数据进行聚合处理，得到目标聚表数据，并存储所述目标聚表数据至预设数据库中；

请求解析模块，用于当接收到数据查询请求时，调用虚拟管理节点解析所述数据查询请求，得到对应所述数据查询请求的待查询表标识，并根据所述待查询表标识确定目标虚拟数据节点；

版本获取模块，用于获取所述目标虚拟数据节点的第一数据版本以及对应所述目标虚拟数据节点的虚拟数据节点组中每一虚拟数据节点的第二数据版本；

版本检测模块，用于检测所述第一数据版本与所述第二数据版本是否一致；

数据聚合模块，用于当检测结果为所述第一数据版本与所述第二数据版本一致时，调用所述目标虚拟数据节点获取节点数据，并根据聚合规则聚合所述节点数据，得到目标节点数据。

本申请实施例第三方面还提供一种计算机设备，所述计算机设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如上述任意一项所述基于大数据的信息处理方法。

本申请实施例第四方面还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述基于大数据的信息处理方法。

本申请实施例提供的上述基于大数据的信息处理方法、基于大数据的信息处理装置、计算机设备以及计算机可读存储介质，在若干个目标数据采集点采集数据之前，会对数据采集类型相同的采集点创建同样的聚表结构，避免对每个数据采集点单独建表造成表的数量巨大的问题，能够减少内存占用，提高信息处理效率；且本申请在接收到应用发出的数据查询请求时，调用虚拟管理节点解析数据查询请求，得到对应所述数据查询请求的待查询表标识，并根据所述待查询表标识确定目标虚拟节点，由目标虚拟节点执行数据查询请求，能够提高信息查询效率；此外，本申请对目标虚拟数据节点的第一数据版本以及对应目标虚拟数据节点的虚拟数据节点组中每一虚拟数据节点的第二数据版本进行版本比对，能够及时发现正在执行任务的目标虚拟数据节点的数据版本是否为最新版本，从而保证数据处理的准确性。本申请可应用于智慧政务、智慧交通等智慧城市的各个功能模块中，比如智慧政务的基于大数据的信息处理模块等，能够促进智慧城市的快速发展。

附图说明

图1是本申请实施例一提供的基于大数据的信息处理方法的流程图。

图2是本申请实施例二提供的基于大数据的信息处理装置的结构图。

图3是本申请实施例三提供的计算机设备的结构示意图。

如下具体实施方式将结合上述附图进一步说明本申请。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和具体实施例对本申请进行详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本申请，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

本发明实施例提供的基于大数据的信息处理方法由计算机设备执行，相应地，基于大数据的信息处理装置运行于计算机设备中。

图1是本申请第一实施方式的基于大数据的信息处理方法的流程图。所述基于大数据的信息处理方法可应用于分布式架构中。如图1所示，所述基于大数据的信息处理方法可以包括如下步骤，根据不同的需求，该流程图中步骤的顺序可以改变，某些可以省略。

S11、获取对应若干个目标数据采集点的目标聚表结构。

在本申请的至少一实施例中，所述目标数据采集点可以是指数据采集终端，例如，手环、传感器、电表等能够采集数据的终端，在此不做限制。所述目标数据采集点可以是采集同一类型的数据，也可以是采集不同类型的数据。例如，当使用300个手环采集写字楼某一楼层的所有员工的心率信息时，这300个数据采集点均为同类型采集点；当使用300个手环A采集写字楼某一楼层的所有员工的心率信息，使用100个手环B采集某一栋居民楼的心电图信息时，手环A与手环B为不同类型采集点。

可选地，在获取对应若干个目标数据采集点的目标聚表结构之前，所述方法还包括：

获取每一所述目标数据采集点的数据采集类型；

检测所述数据采集类型是否一致；

其中，当检测结果为所述数据采集类型一致时，确定所述数据采集类型的目标聚表结构，示例性地，当使用300个手环A采集写字楼某一楼层的所有员工的心率信息时，可以将300个手环A采集的心率信息均存储于同一所述目标聚表结构中。当检测结果为所述数据采集类型不一致时，为每一所述数据采集类型单独创建表格结构，用于存储该数据采集点采集的时序数据，所述表格结构是指与该数据采集点采集的时序数据的格式相匹配的聚表结构。示例性地，当使用300个手环A采集写字楼某一楼层的所有员工的心率信息，使用100个手环B采集某一栋居民楼的心电图信息时，手环A与手环B为不同类型采集点，则分别为手环A与手环B采集的数据创建各自的表格结构A与表格结构B，其中，将手环A采集的所有数据均存储于同一所述表格结构A中，将手环B采集的所有数据均存储于同一所述表格结构B中。本申请通过为每一所述数据采集类型单独创建表格结构的方式，可采用无锁的方式写入，避免由加锁产生大量消耗，数据写入分布式架构中的速度大幅提升。

在一实施例中，不同的数据采集类型对应的聚表结构可能相同，也可能不相同。可选地，所述获取对应若干个目标数据采集点的目标聚表结构可以包括：

获取所述目标数据采集点的数据采集类型；

根据所述待采集项与所述属性信息创建目标聚表结构。

其中，所述数据采集类型包括采集的数据内容以及数据属性等信息，所述属性信息可以包括数据长度或数据类型等数据的属性，在此不做限制。在表格结构中按照预设方式排列所述待采集项，例如，可以按照数据的重要程度或者数据的查询频率等方式排列所述待采集项，并在每一所述待采集项中添加对应的属性信息，以对每一所述待采集项采集的初始数据进行过滤处理，得到符合要求的数据。

在一实施例中，所述目标聚表结构可通过快照的形式存储至分布式架构中，能够避免目标聚表结构存储出错等问题，提高数据存储可靠性。

可选地，对于调用已知的目标聚表结构时，所述方法还包括：

获取所述目标数据采集点的数据采集类型；

根据所述数据采集类型确定目标聚表结构快照；

扫描所述目标聚表结构快照，得到目标聚表结构。

其中，所述数据采集类型与所述目标聚表结构快照间存在映射关系，通过查询所述映射关系，能够确定对应所述数据采集类型的目标聚表结构快照。可以理解的是，当检测到某一数据采集类型对应的目标聚表结构存在更新时，可直接替换分布式架构中目标聚表结构快照即可，能够提高数据更新速率，进而提高信息处理速率。

S12、按照所述目标聚表结构将若干个所述目标数据采集点采集的数据进行聚合处理，得到目标聚表数据，并存储所述目标聚表数据至预设数据库中。

在本申请的至少一实施例中，将每一所述目标数据采集点采集的数据添加至所述目标聚表结构中，得到初始聚表数据，并将若干个所述目标数据采集点采集得到的初始聚表数据进行添加标签后聚合处理，得到目标聚表数据。

可选地，所述按照所述目标聚表结构将若干个所述目标数据采集点采集的数据进行聚合处理，得到目标聚表数据可以包括：

聚合处理所述初始聚表数据，得到目标聚表数据。

其中，所述目标数据采集点的标识信息是指用于标识采集点特征的标识，所述标识信息可以为ID标识、代码标识。所述预设标签用于标识所述初始聚表数据，根据所述预设标签能够确定所述初始聚表数据属于哪个数据采集点。所述预设标签可以为数字标签、颜色标签或者字母标签。

在一实施例中，在得到所述目标聚表数据之后，所述方法还包括：检测所述目标聚表数据是否存在异常数据。所述异常数据可以包括数值为空的数据或者超出预设合理范围过多的数据等。由于网络或者采集点等问题，可能导致采集点采集的某个待采集项失败的情况，无法采集该待采集项的数据，导致该项数值为空；也可能导致采集点采集的某个待采集项的数据与正常值存在偏差，超出预设合理范围过多。所述预设合理范围是指预先设置的范围值。当检测结果为所述目标聚表数据存在异常数据时，确定所述异常数据的数据量；检测所述数据量是否超过预设数据量阈值范围；当检测结果为所述数据量超过预设数据量阈值范围时，获取所述异常数据对应的历史时序数据，并根据所述历史时序数据拟合出合理值，由所述合理值替代所述异常数据；当检测结果为所述数据量未超过预设数据量阈值范围时，控制所述异常数据为空。所述预设数据量阈值为预先设置的值。所述根据所述历史时序数据拟合出合理值可以是采用预先训练的合理值预估模型对历史时序数据进行处理，得到合理值。所述合理值预估模型的训练过程为现有技术，在此不做赘述。本申请通过在将目标聚表数据存储至预设数据库前进行异常数据检测，并对存在异常的数据及时处理，能够保证存储至预设数据库中的数据始终正确，从而提高信息处理的准确性。

在本申请的至少一实施例中，在得到所述目标聚表数据之后，存储所述目标聚表数据至预设数据库中，所述预设数据库可以是分布式架构中的内存。为了减少内存开销，并有效处理时间乱序问题，采用行存储模式，使用跳表建立索引，按照先入先出的方式管理内存。为充分利用时序数据特点，采用列存储持久化，物理结构上做到块连续，提高压缩率与读取速度，每个数据块通过预计算，提高数据分析速度。

可选地，所述分布式架构中存储的目标聚表数据的数据量随着数据采集点采集的数据增多而增大，当所述目标聚表数据的数据量较大时，所述方法还包括：

获取预设数据库中的剩余空间值；

监测所述剩余空间值是否满足预设空间临界值；

迁移所述目标数据存储至硬盘中。

其中，本申请的内存管理采取先进先出的队列方式管理，保证新采集的数据处在内存中。所述目标数据是指所述预设数据库中超过预设空间临界值且采集时间靠前的一定数据量的数据。可选地，所述迁移所述目标数据存储至硬盘中可以包括：确定传输通道的负载信息与待传输的目标数据的数据量信息；根据所述负载信息与所述数据量信息确定单次传输最优值；按照所述单次传输最优值分批次迁移所述目标数据。其中，可通过预先训练的最优值确定模型根据所述负载信息与所述数据量信息计算出单次传输最优值，单次传输最优值是指能够保证数据快速传输的值，所述最优值确定模型的训练过程为现有技术，在此不再赘述。所述目标数据通过添加日志的方式写入硬盘，能够提高落盘速度。

通过上述方法，将数据按照新旧程度在不同物理介质上存储，例如新数据存储至内存，旧数据存储在大容量慢速硬盘，使得硬盘随机读取消耗大幅降低，提升写入查询效率。

S13、当接收到数据查询请求时，调用虚拟管理节点解析所述数据查询请求，得到对应所述数据查询请求的待查询表标识，并根据所述待查询表标识确定目标虚拟数据节点。

在本申请的至少一实施例中，所述数据查询请求可以是某一应用发出的，查询所述预设数据库中聚表数据的请求。所述数据查询请求中携带待查询表标识，所述待查询表标识包括采集点的名称或ID、数据采集起止时间以及若干个查询项等信息块，所述查询项与所述待采集项对应。所述待查询表标识对应所述预设数据库中的聚表数据，根据所述待查询表标识遍历所述预设数据库，能够得到目标聚表数据。所述预设数据库包括若干个数据节点，所述数据节点是在一台物理机、虚拟机或容器中的一个运行实例，一个工作的系统至少有一个数据节点。所述数据节点包含若干个虚拟数据节点，和至多一个虚拟管理节点。

其中，所述虚拟管理节点负责所有节点运行状态的采集、负载均衡以及元数据管理，当应用需要查询一张表时，通过连接管理节点获取信息，得到该表处于哪个数据节点。所述虚拟数据节点负责存储具体时序数据，针对时序数据的查询操作，都在虚拟数据节点进行，位于不同物理机上的虚拟数据节点可以组成虚拟数据节点组。

其中，所述虚拟管理节点用于存储元数据，同时根据每个虚拟数据节点状态来负载均衡。所述元数据可以指数据采集的起始时间、数据点数、压缩算法等元数据。由于元数据量并不大，将其完全保存在内存中，以保证查询操作的高效。在应用端，为避免每次数据操作都访问虚拟管理节点，驱动程序将必要的元数据保存在本地，只有当需要的元数据不存在或失效的情况下，才会访问虚拟管理节点，以此提高系统性能。

可选地，所述调用虚拟管理节点解析所述数据查询请求，得到对应所述数据查询请求的待查询表标识，并根据所述待查询表标识确定目标虚拟数据节点可以包括：

解析所述待查询表标识，得到目标信息块；

根据所述目标信息块遍历元数据，得到目标元数据；

确定所述目标元数据对应的虚拟数据节点为目标虚拟数据节点。

所述虚拟数据节点组中的数据可通过异步复制的方式进行同步，实现数据的最终一致性，保证一份数据在多台物理机上有拷贝，即使一台物理机宕机，总有位于其他物理机上的虚拟数据节点能处理查询请求，保证系统运行的高可靠性。其中，多个虚拟管理节点可以组成虚拟管理节点组。所述虚拟管理节点组中虚拟管理节点的数量可根据所述虚拟数据节点的数量确定。可选地，确定所述虚拟管理节点的数量可包括：获取虚拟数据节点的第一数量；根据所述第一数量遍历预先设置的所述虚拟数据节点与所述虚拟管理节点的数量关系，得到对应所述第一数量的所述虚拟管理节点的第二数量；构建关于所述虚拟管理节点与所述虚拟数据节点间的节点树。其中，在所述节点树中，所述虚拟管理节点为父节点，被其管理的所述虚拟数据节点为子节点。

在一实施例中，采用Master-Slave(主从设备模式)同步复制模式实现虚拟管理节点的数据同步，所述Master-Slave同步复制模式下，所述虚拟管理节点中包括一个主导虚拟管理节点(也称Master节点)与若干个从属虚拟管理节点(也称Slave节点)，所述Master节点为任务调度者，为多个Slave节点分配计算任务，当所有的Slave节点将任务完成之后，最后由Master节点汇集结果。在执行写的操作时，只有Slave节点写入成功后，Master节点才会返回成功，从而保证数据的强一致性。如果Master节点宕机，系统有机制保证其中一个Slave会立即被选举为Master,从而保证系统写操作的高可靠性。

可选地，所述方法还包括：

确定所述子节点数量最小的节点树为目标节点树；

选取所述目标节点树对应的父节点作为新的主导虚拟管理节点。其中，检测主导虚拟管理节点是否异常也即检测主导虚拟管理节点是否宕机。

在一实施例中，在一个虚拟数据节点组里，各个虚拟数据节点通过心跳包知道对方的状态。如果一个虚拟数据节点收到数据写入的请求，该请求会被立即转发给其他虚拟数据节点，然后在本地存储。当应用要操作任何一份聚表数据时，系统会给应用提供该表所属的虚拟数据节点组里各个虚拟节点的IP地址，如果连接其中一个失败或者操作失败，应用会尝试第二个、第三个，只有所有节点失败才会返回失败。以此保证虚拟数据节点组里任何一台机器宕机，都不会影响对外的服务。

可选地，所述目标虚拟数据节点可能在执行数据查询前就存在异常，也可能在执行数据查询过程中存在异常。针对上述两种情况，所述方法还包括：

获取所述目标虚拟数据节点对应的虚拟数据节点组；

解析并检测所述心跳包是否存在异常状态；

其中，通过检测所述心跳包确定所述目标虚拟数据节点在执行数据查询前就存在异常时，直接从所述虚拟数据节点组中随机确定其他虚拟数据节点，用于执行数据查询。通过检测所述心跳包确定所述目标虚拟数据节点在执行数据查询过程中发生异常时，解析所述心跳包，所述心跳包中携带有所述目标虚拟数据节点已查询的数据信息，从所述虚拟数据节点组中随机确定其他虚拟数据节点，用于执行剩余数据查询工作。为了避免所述心跳包中携带的已查询的数据信息过多导致所述心跳包的传输速率较慢的问题。

在一实施例中，所述方法还包括：获取所述目标虚拟数据节点已查询的数据信息；压缩所述数据信息至预设大小；将压缩处理的数据信息存储至心跳包中。所述预设大小为预先设置的压缩量大小。通过对已查询的数据信息进行压缩处理，能够减少所述心跳包中携带的数据信息量，提高心跳包的传输速率。

在其实施例中，所述方法还包括：获取所述目标虚拟数据节点已查询的数据信息；针对已查询的数据信息构建数据链接；将所述数据链接存储至所述心跳包中。构建数据链接的方式为现有技术，在此不做赘述。通过对已查询的数据信息建立数据链接的方式，能够减少所述心跳包中携带的数据信息量，提高心跳包的传输速率。通过在所述心跳包中携带发生异常的所述目标虚拟数据节点已查询的数据信息，避免重复执行数据查询工作，能够提高信息处理的效率。

S14、获取所述目标虚拟数据节点的第一数据版本以及对应所述目标虚拟数据节点的虚拟数据节点组中每一虚拟数据节点的第二数据版本。

在本申请的至少一实施例中，当一台主机重启时，每个虚拟数据节点都会检查自己数据的版本是否与对应节点组中其他虚拟数据节点一致，如果数据版本不一致，需要同步后才能对外服务。在运行过程中，由于各种原因，数据可以失去同步，这种不同步会在收到转发的写入请求时被发现，一旦被发现，数据版本低的虚拟数据节点将马上停止对外服务，进入同步流程，同步完后，才会重新恢复对外服务。同步过程中，高数据版本的节点可以正常的提供服务。

可选地，数据版本用于标识所述目标虚拟数据节点中存储数据的新旧程度，所述数据版本越高，其对应存储数据越新，根据所述数据版本能够确定所述目标虚拟数据节点中存储的数据是否为最新版本。所述目标虚拟数据节点的节点组中虚拟数据节点的第二数据版本的数量可能为一个，也可能为多个。当所述第二数据版本的数量为多个时，所述方法还包括：

获取所述目标虚拟数据节点的节点组中每一虚拟数据节点的第二数据版本的数量；

检测所述第二数据版本的数量是否超过1个；

当检测结果为所述第二数据版本的数量超过1个时，获取每个所述第二数据版本的发布时间，并选取发布时间最近的第二数据版本作为聚表数据的最新版本。

S15、检测所述第一数据版本与所述第二数据版本是否一致。

在本申请的至少一实施例中，检测所述第一数据版本与所述第二数据版本是否一致以确定所述目标虚拟数据节点中存储的数据是否为最新版本。当检测结果为所述第一数据版本与所述第二数据版本一致时，确定所述目标虚拟数据节点中存储的数据为最新版本，所述目标虚拟数据节点可以继续执行数据查询操作；当检测结果为所述第一数据版本与所述第二数据版本不一致时，确定所述目标虚拟数据节点中存储的数据并非最新版本，需要获取最新版本的数据，并对所述目标虚拟数据节点中存储的数据进行更新。在对所述目标虚拟数据节点中存储的数据进行更新的同时，可以将数据查询请求分配给拥有最新版本的节点组中的其他虚拟数据节点中执行，以保证所述目标虚拟数据节点中存储的数据不是最新版本时，不会影响数据查询过程，能够提高信息处理的可靠性与高效性。

S16、当检测结果为所述第一数据版本与所述第二数据版本一致时，调用所述目标虚拟数据节点获取节点数据，并根据聚合规则聚合所述节点数据，得到目标节点数据。

在本申请的至少一实施例中，当检测结果为所述第一数据版本与所述第二数据版本一致时，调用所述目标虚拟数据节点获取节点数据，并根据聚合规则聚合所述节点数据，得到目标节点数据。其中，所述节点数据是指所述数据查询请求用于请求的、存储于预设数据库中的聚表数据。

在一实施例中，当所述数据查询请求用于请求至少两个聚表数据时，在获取对应的两个聚表数据之后，需根据聚合规则对两个聚表数据进行处理，得到聚合时序数据。其中，所述聚合规则可由所述数据查询请求携带的聚合条件解析后结构化处理得到。所述聚合条件可以是对请求到的聚表数据求取平均值、最大值或最小值等。

在本申请实施例提供的上述基于大数据的信息处理方法中，在若干个目标数据采集点采集数据之前，会对数据采集类型相同的采集点创建同样的聚表结构，避免对每个数据采集点单独建表造成表的数量巨大的问题，能够减少内存占用，提高信息处理效率；且本申请在接收到应用发出的数据查询请求时，调用虚拟管理节点解析数据查询请求，得到对应所述数据查询请求的待查询表标识，并根据所述待查询表标识确定目标虚拟节点，由目标虚拟节点执行数据查询请求，能够提高信息查询效率；此外，本申请对目标虚拟数据节点的第一数据版本以及对应目标虚拟数据节点的节点组中每一虚拟数据节点的第二数据版本进行版本比对，能够及时发现正在执行任务的目标虚拟数据节点的数据版本是否为最新版本，从而保证数据处理的准确性。

在一些实施例中，所述基于大数据的信息处理装置20可以包括多个由计算机程序段所组成的功能模块。所述基于大数据的信息处理装置20中的各个程序段的计算机程序可以存储于计算机设备的存储器中，并由至少一个处理器所执行，以执行(详见图1描述)基于大数据的信息处理的功能。

本实施例中，所述基于大数据的信息处理装置20根据其所执行的功能，可以被划分为多个功能模块。所述功能模块可以包括：聚表获取模块201、数据存储模块202、请求解析模块203、版本获取模块204、版本检测模块205以及数据聚合模块206。本申请所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段，其存储在存储器中。在本实施例中，关于各模块的功能将在后续的实施例中详述。

所述聚表获取模块201可以用于获取对应若干个目标数据采集点的目标聚表结构。

可选地，在获取对应若干个目标数据采集点的目标聚表结构之前，所述聚表获取模块201还包括：

获取每一所述目标数据采集点的数据采集类型；

检测所述数据采集类型是否一致；

获取所述目标数据采集点的数据采集类型；

根据所述待采集项与所述属性信息创建目标聚表结构。

可选地，对于调用已知的目标聚表结构时，所述聚表获取模块201还包括：

获取所述目标数据采集点的数据采集类型；

根据所述数据采集类型确定目标聚表结构快照；

扫描所述目标聚表结构快照，得到目标聚表结构。

所述数据存储模块202可以用于按照所述目标聚表结构将若干个所述目标数据采集点采集的数据进行聚合处理，得到目标聚表数据，并存储所述目标聚表数据至预设数据库中。

聚合处理所述初始聚表数据，得到目标聚表数据。

在一实施例中，在得到所述目标聚表数据之后，所述数据存储模块202还包括：检测所述目标聚表数据是否存在异常数据。所述异常数据可以包括数值为空的数据或者超出预设合理范围过多的数据等。由于网络或者采集点等问题，可能导致采集点采集的某个待采集项失败的情况，无法采集该待采集项的数据，导致该项数值为空；也可能导致采集点采集的某个待采集项的数据与正常值存在偏差，超出预设合理范围过多。所述预设合理范围是指预先设置的范围值。当检测结果为所述目标聚表数据存在异常数据时，确定所述异常数据的数据量；检测所述数据量是否超过预设数据量阈值范围；当检测结果为所述数据量超过预设数据量阈值范围时，获取所述异常数据对应的历史时序数据，并根据所述历史时序数据拟合出合理值，由所述合理值替代所述异常数据；当检测结果为所述数据量未超过预设数据量阈值范围时，控制所述异常数据为空。所述预设数据量阈值为预先设置的值。所述根据所述历史时序数据拟合出合理值可以是采用预先训练的合理值预估模型对历史时序数据进行处理，得到合理值。所述合理值预估模型的训练过程为现有技术，在此不做赘述。本申请通过在将目标聚表数据存储至预设数据库前进行异常数据检测，并对存在异常的数据及时处理，能够保证存储至预设数据库中的数据始终正确，从而提高信息处理的准确性。

获取预设数据库中的剩余空间值；

监测所述剩余空间值是否满足预设空间临界值；

迁移所述目标数据存储至硬盘中。

所述请求解析模块203可以用于当接收到数据查询请求时，调用虚拟管理节点解析所述数据查询请求，得到对应所述数据查询请求的待查询表标识，并根据所述待查询表标识确定目标虚拟数据节点。

解析所述待查询表标识，得到目标信息块；

根据所述目标信息块遍历虚拟数据节点的元数据，得到目标元数据；

可选地，所述请求解析模块203还包括：

确定所述子节点数量最小的节点树为目标节点树；

在一实施例中，在一个虚拟数据节点组里，各个虚拟数据节点通过心跳包知道对方的状态。如果一个虚拟数据节点收到数据写入的请求，该请求会被立即转发给其他虚拟数据节点，然后在本地存储。当应用要操作的任何一份聚表数据时，系统会给应用提供该表所属的虚拟数据节点组里各个虚拟节点的IP地址，如果连接其中一个失败或者操作失败，应用会尝试第二个、第三个，只有所有节点失败才会返回失败。以此保证虚拟数据节点组里任何一台机器宕机，都不会影响对外的服务。

可选地，所述目标虚拟数据节点可能在执行数据查询前就存在异常，也可能在执行数据查询过程中存在异常。针对上述两种情况，所述请求解析模块203还包括：

获取所述目标虚拟数据节点对应的虚拟数据节点组；

解析并检测所述心跳包是否存在异常状态；

其中，通过检测所述心跳包确定所述目标虚拟数据节点在执行数据查询前就存在异常时，直接从所述虚拟数据节点组中随机确定其他虚拟数据节点，用于执行数据查询。通过检测所述心跳包确定所述目标虚拟数据节点在执行数据查询过程中发生异常时，解析所述心跳包，所述心跳包中携带有所述目标虚拟数据节点已查询的数据信息，从所述虚拟数据节点组中随机确定其他虚拟数据节点，用于执行剩余数据查询工作。通过在所述心跳包中携带发生异常的所述目标虚拟数据节点已查询的数据信息，避免重复执行数据查询工作，能够提高信息处理的效率。

所述版本获取模块204可以用于获取所述目标虚拟数据节点的第一数据版本以及对应所述目标虚拟数据节点的节点组中每一虚拟数据节点的第二数据版本。

可选地，数据版本用于标识所述目标虚拟数据节点中存储数据的新旧程度，所述数据版本越高，其对应存储数据越新，根据所述数据版本能够确定所述目标虚拟数据节点中存储的数据是否为最新版本。所述目标虚拟数据节点的节点组中虚拟数据节点的第二数据版本的数量可能为一个，也可能为多个。当所述第二数据版本的数量为多个时，所述版本获取模块204还包括：

检测所述第二数据版本的数量是否超过1个；

所述版本检测模块205可以用于检测所述第一数据版本与所述第二数据版本是否一致。

所述数据聚合模块206可以用于当检测结果为所述第一数据版本与所述第二数据版本一致时，调用所述目标虚拟数据节点获取节点数据，并根据聚合规则聚合所述节点数据，得到目标节点数据。

参阅图3所示，为本申请实施例三提供的计算机设备的结构示意图。在本申请较佳实施例中，所述计算机设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。

本领域技术人员应该了解，图3示出的计算机设备的结构并不构成本申请实施例的限定，既可以是总线型结构，也可以是星形结构，所述计算机设备3还可以包括比图示更多或更少的其他硬件或者软件，或者不同的部件布置。

在一些实施例中，所述计算机设备3是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述计算机设备3还可包括客户设备，所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、数码相机等。

需要说明的是，所述计算机设备3仅为举例，其他现有的或今后可能出现的电子产品如可适应于本申请，也应包含在本申请的保护范围以内，并以引用方式包含于此。

在一些实施例中，所述存储器31中存储有计算机程序，所述计算机程序被所述至少一个处理器32执行时实现如所述的基于大数据的信息处理方法中的全部或者部分步骤。所述存储器31包括只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory，EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory，OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

在一些实施例中，所述至少一个处理器32是所述计算机设备3的控制核心(Control Unit)，利用各种接口和线路连接整个计算机设备3的各个部件，通过运行或执行存储在所述存储器31内的程序或者模块，以及调用存储在所述存储器31内的数据，以执行计算机设备3的各种功能和处理数据。例如，所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本申请实施例中所述的基于大数据的信息处理方法的全部或者部分步骤；或者实现基于大数据的信息处理装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processingunit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。

在一些实施例中，所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。

尽管未示出，所述计算机设备3还可以包括给各个部件供电的电源(比如电池)，优选的，电源可以通过电源管理装置与所述至少一个处理器32逻辑相连，从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，计算机设备，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，既可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或，单数不排除复数。说明书中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本申请的技术方案而非限制，尽管参照较佳实施例对本申请进行了详细说明，本领域的普通技术人员应当理解，可以对本申请的技术方案进行修改或等同替换，而不脱离本申请技术方案的精神和范围。

Claims

1.一种基于大数据的信息处理方法，其特征在于，所述基于大数据的信息处理方法包括：

获取对应若干个目标数据采集点的目标聚表结构；

检测所述第一数据版本与所述第二数据版本是否一致；

2.根据权利要求1所述的基于大数据的信息处理方法，其特征在于，在获取对应若干个目标数据采集点的目标聚表结构之前，所述方法还包括：

获取每一所述目标数据采集点的数据采集类型；

检测所述数据采集类型是否一致；

3.根据权利要求1所述的基于大数据的信息处理方法，其特征在于，所述获取对应若干个目标数据采集点的目标聚表结构包括：

获取所述目标数据采集点的数据采集类型；

根据所述待采集项与所述属性信息创建目标聚表结构。

4.根据权利要求1所述的基于大数据的信息处理方法，其特征在于，所述按照所述目标聚表结构将若干个所述目标数据采集点采集的数据进行聚合处理，得到目标聚表数据包括：

聚合处理所述初始聚表数据，得到目标聚表数据。

5.根据权利要求1所述的基于大数据的信息处理方法，其特征在于，所述方法还包括：

获取所述预设数据库中的剩余空间值；

监测所述剩余空间值是否满足预设空间临界值；

迁移所述目标数据存储至硬盘中。

6.根据权利要求1所述的基于大数据的信息处理方法，其特征在于，所述方法还包括：

确定所述子节点数量最小的节点树为目标节点树；

7.根据权利要求1所述的基于大数据的信息处理方法，其特征在于，所述方法还包括：

获取所述目标虚拟数据节点对应的虚拟数据节点组；

解析并检测所述心跳包是否存在异常状态；

8.一种基于大数据的信息处理装置，其特征在于，所述基于大数据的信息处理装置包括：

9.一种计算机设备，其特征在于，所述计算机设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述基于大数据的信息处理方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述基于大数据的信息处理方法。