CN112559645A

CN112559645A - 一种海量运维数据的处理方法及装置

Info

Publication number: CN112559645A
Application number: CN202011561745.7A
Authority: CN
Inventors: 栾勇; 耿鹏; 孙伟
Original assignee: Agricultural Bank of China
Current assignee: Agricultural Bank of China
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-03-26

Abstract

本发明公开了一种海量运维数据的处理方法及装置，方法包括：获取目标数据；判断目标数据是否为非结构化数据，若是，则将目标数据存储于文档型数据库，若否，则：判断目标数据是否为结构化时序数据，若是，则将目标数据存储于时序数据库，若否，则：判断目标数据是否为结构化非时序数据，若是，则：基于目标数据的使用方式对目标数据进行存储。本发明将运维数据按照不同运维数据的时效、结构、应用特点，划分不同数据类别，同时系统化地设计了数据存储方式和管理方式。

Description

一种海量运维数据的处理方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种海量运维数据的处理方法及装置。

背景技术

在现实世界中，运行着大量各类系统和软件，服务于生产和生活。而有一类专用系统，它们用于监控这些系统和软件的状态，有效管理和控制这些软件，这类系统统称为运维工具，由于系统和软件的复杂性，运维工具产生了大量的数据以记录系统和软件的状态、收集系统和软件的日志，一个大型的企业，每天运维工具产生的数据总量可以多几十TB到几百TB，如何有效存储和管理这些数据面临着非常大的挑战。

运维数据按照数据时效性可以分为实时数据与离线数据，实时数据是指产生后即被传输并存储起来的一类数据，离线数据是指产生一段时间后才被传输和存储的一类数据。从运维数据内容类别上可以大致分为监控数据、告警数据、运行日志数据、配置管理数据、运维管理数据、运维操作数据和运营指标数据七大类别。按照数据处理方式是存储时处理还是使用时处理分为数据湖方式、数据仓库存储方式。运维数据中还有一类非常典型的时间相关数据即时序数据，主要是特征是每一条数据为某个具体时间点下的属性及属性的值。综上所述，运维数据按照其自身特点具备非常多的分类，数据内在有多样化的结构，从应用角度又有多种使用方式。

现有技术方案一般仅单独设计某一类运维数据的存储方式，没有系统化统筹考虑各类数据存储方式。典型的数据存储管理方式为使用关系型数据库(如MySQL)存储告警数据、配置管理数据、运维管理数据、运维操作数据和运营指标数据等结构化数据，使用时序数据库存储监控数据等时序数据，使用文档数据库(如ElasticSearch)存储运行日志数据等非结构化数据。

上述现有技术方案主要存在如下三点缺点：

1、数据存储规模有限。受限于关系型数据库本身的存储规模，无法长时间存储海量结构化数据，存储规模有限，一般来说，数据总容量不能超过PB级别。

2、不同数据库之间缺少联动、转换，导致数据重复传输或存储。如实时传输过来的交易数据，已包含交易量信息，可以通过据进行简单加工便可得到按小时、按天等周期的交易量，即由时序数据库中数据加工结果存储到关系型数据库即可。但上述方案需要上游再次发送数据、在关系型数据库、时序数据库中同时存储，造成资源浪费。文档数据库同理。

3、没有区分数据湖、数据仓库两种数据存储管理方式，导致数据丢失或无法得到有效利用。上述方案没有根据数据使用方式将数据按照数据湖、数据仓库两种不同存储方式管理，而实际应用过程中，数据湖方式不要求在数据进入运维大数据平台时加工到对应数据模型，从而节省数据加工到数据模型的时间，也最大限度保留了最多的原始信息以方便后续机器学习、数据挖掘；数据仓库管理方式对数据统一建模，从而将数据规范化、提供统一视图方便分析人员读取，方便大屏展示。

因此，需要考虑一种系统化的海量数据存储和管理方式，以实现运维数据高效存储和管理。

发明内容

有鉴于此，本发明提供了一种海量运维数据的处理方法，能够实现运维数据的高效存储和管理。

本发明提供了一种海量运维数据的处理方法，包括：

获取目标数据；

判断所述目标数据是否为非结构化数据，若是，则将所述目标数据存储于文档型数据库，若否，则：

判断所述目标数据是否为结构化时序数据，若是，则将所述目标数据存储于时序数据库，若否，则：

判断所述目标数据是否为结构化非时序数据，若是，则：

基于所述目标数据的使用方式对所述目标数据进行存储。

优选地，所述方法还包括：

预先设定所述目标数据的使用方式。

优选地，所述基于所述目标数据的使用方式对所述目标数据进行存储，包括：

基于预先设定所述目标数据的使用方式，判断所述目标数据是否用于机器学习，若是，则：

将所述目标存储于HBase数据库。

优选地，当所述目标数据未用于机器学习时，还包括：

基于预先设定所述目标数据的使用方式，判断所述目标数据是否用于分析展示，若是，则：

对所述目标数据进行模型映射处理；

将经过模型映射处理后的目标数据存储于MPP数据库。

优选地，所述方法还包括：

对存储于所述MPP数据库，或所述时序数据库，或所述文档型数据库中的所述目标数据进行加工处理后，存储于关系型数据库。

一种海量运维数据的处理装置，包括：

获取模块，用于获取目标数据；

判断模块，用于判断所述目标数据是否为非结构化数据；

第一存储模块，用于当所述目标数据为非结构化数据时，将所述目标数据存储于文档型数据库；

所述判断模块，还用于当所述目标数据不为非结构化数据时，判断所述目标数据是否为结构化时序数据；

第二存储模块，用于当所述目标数据为结构化时序数据时，将所述目标数据存储于时序数据库；

所述判断模块，还用于当所述目标数据不为结构化时序数据时，判断所述目标数据是否为结构化非时序数据；

第三存储模块，用于当所述目标数据为结构化非时序数据时，基于所述目标数据的使用方式对所述目标数据进行存储。

优选地，所述装置还包括：

设定模块，用于预先设定所述目标数据的使用方式。

优选地，所述第三存储模块包括：

判断单元，用于基于预先设定所述目标数据的使用方式，判断所述目标数据是否用于机器学习；

第一存储单元，用于当所述目标数据用于机器学习时，将所述目标存储于HBase数据库。

优选地，所述判断单元，还用于当所述目标数据未用于机器学习时，基于预先设定所述目标数据的使用方式，判断所述目标数据是否用于分析展示；

映射单元，用于当所述目标数据用于分析展示时，对所述目标数据进行模型映射处理；

第二存储单元，用于将经过模型映射处理后的目标数据存储于MPP数据库。

优选地，所述装置还包括：

第四存储模块，用于对存储于所述MPP数据库，或所述时序数据库，或所述文档型数据库中的所述目标数据进行加工处理后，存储于关系型数据库。

综上所述，本发明公开了一种海量运维数据的处理方法，首先获取目标数据；然后判断目标数据是否为非结构化数据，若是，则将目标数据存储于文档型数据库，若否，则：判断目标数据是否为结构化时序数据，若是，则将目标数据存储于时序数据库，若否，则：判断目标数据是否为结构化非时序数据，若是，则：基于目标数据的使用方式对目标数据进行存储。本发明将运维数据按照不同运维数据的时效、结构、应用特点，划分不同数据类别，同时系统化地设计了数据存储方式和管理方式。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明公开的一种海量运维数据的处理方法实施例1的方法流程图；

图2为本发明公开的一种海量运维数据的处理方法实施例2的方法流程图；

图3为本发明公开的一种海量运维数据的处理装置实施例1的结构示意图；

图4为本发明公开的一种海量运维数据的处理装置实施例2的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本发明公开的一种海量运维数据的处理方法实施例1的方法流程图，所述方法可以包括以下步骤：

S101、获取目标数据；

当需要对海量运维数据进行存储管理时，首先获取目标数据，即首先从上游运维类系统接收实时、离线两类数据。在获取目标数据时，可以是上游系统利用各类数据传输手段及方式发送上游数据，或者是通过数据采集手段采集上游数据。

S102、判断目标数据是否为非结构化数据，若是，则进入S103，若否，则进入S104：

在获取到目标数据后，即在获取到上游数据后，根据其内容及预先设定的数据类别规则，确定数据为结构化数据或非结构化数据。

其中，数据类别的规则为：上游系统发送数据时，附加数据类别标识，结构化时序数据标识号为0，结构化非时序数据标识号为1，非结构化数据标识号为2。

S103、将目标数据存储于文档型数据库；

当目标数据为非结构化数据时，将目标数据存储于ElasticSearch等文档型数据库，建立索引方便数据按照关键字等形式检索。

S104、判断目标数据是否为结构化时序数据，若是，则进入S105，若否，则进入S106：

当目标数据不为非结构化数据时，进一步判断目标数据是否为结构化时序数据。

其中，结构化时序数据的每一条包含五元组，格式为<时间戳，对象，键，值，附加数据>，时序数据必须包含时间戳，其他四个元组为可选，根据时序数据内容不同而不同。例如：监控数据一般包含所有五元组以分别唯一确定监控采集或发生时间、监控的实际对象、监控对象的维度属性、监控维度属性的具体数值以及其他监控附加信息。结构化时序数据主要内容为监控数据。

S105、将目标数据存储于时序数据库；

当目标数据为结构化时序数据时，将目标数据存储于时序数据库。

S106、判断目标数据是否为结构化非时序数据，若是，则进入S107：

当目标数据不为结构化时序数据时，进一步判断目标数据是否为结构化非时序数据。

S107、基于目标数据的使用方式对目标数据进行存储。

当目标数据为结构化非时序数据时，根据目标数据不同的使用方式，进行相应的存储。

综上所述，在上述实施例中，当需要对海量运维数据进行存储管理时，首先获取目标数据；然后判断目标数据是否为非结构化数据，若是，则将目标数据存储于文档型数据库，若否，则：判断目标数据是否为结构化时序数据，若是，则将目标数据存储于时序数据库，若否，则：判断目标数据是否为结构化非时序数据，若是，则：基于目标数据的使用方式对目标数据进行存储。将运维数据按照不同运维数据的时效、结构、应用特点，划分不同数据类别，同时系统化地设计了数据存储方式和管理方式。

如图2所示，为本发明公开的一种海量运维数据的处理方法实施例2的方法流程图，所述方法可以包括以下步骤：

S201、预先设定目标数据的使用方式；

预先设定数据的使用方式，并将预先设定的数据使用方式作为配置表存储。

S202、获取目标数据；

S203、判断目标数据是否为非结构化数据，若是，则进入S204，若否，则进入S205：

S204、将目标数据存储于文档型数据库；

S205、判断目标数据是否为结构化时序数据，若是，则进入S206，若否，则进入S207：

S206、将目标数据存储于时序数据库；

S207、判断目标数据是否为结构化非时序数据，若是，则进入S208：

S208、基于预先设定目标数据的使用方式，判断目标数据是否用于机器学习，若是，则进入S209，若否，则进入S210：

当目标数据为结构化非时序数据时，根据预先设定目标数据的使用方式，判断目标数据是否用于机器学习。

S209、将目标存储于HBase数据库；

当目标数据是用于机器学习时，按照数据湖的方式管理，即数据不进行统一建模、不进行复杂数据处理，将目标数据简单检验后即存入HBase数据库。

S210、基于预先设定目标数据的使用方式，判断目标数据是否用于分析展示，若是，则进入S211：

当目标数据不是用于机器学习时，进一步基于预先设定目标数据的使用方式，判断目标数据是否用于分析展示。

S211、对目标数据进行模型映射处理；

对于直接用于可视化展示、数据查询、报表分析、即席分析等用途的目标数据，按照数据仓库方式管理，即数据进行统一建模、校验、过滤、转换。进行统一加工处理，数据以统一的数据模型对外提供服务。

S212、将经过模型映射处理后的目标数据存储于MPP数据库；

将将经过模型映射处理后的目标数据存储于MPP数据库。其中，对于判定为需要存储于MPP数据库的数据，需要执行模型映射预处理过程才能实现真正的数据存储。即由于MPP数据库以数据仓库方式管理数据，是典型的关系型数据存储方式，而上游数据可以为关系型数据，也可以为非关系型数据，如MongoDB数据库为一般以JSON格式导出数据，执行数据模型映射就是将这些非关系型数据的属性映射到MPP数据库关系模型的属性，具体映射过程为：当目标数据格式为CSV格式时，读取CSV模进行数据映射；当目标数据格式为JSON格式时，读取JSON进行数据映射。

S213、对存储于MPP数据库，或时序数据库，或文档型数据库中的目标数据进行加工处理后，存储于关系型数据库。

关系型数据库存储由MPP数据库、时序数据库、文档型数据库加工而来的指标，关系型数据库开放外部程序访问，提供指标数据查询服务。因此，可以对存储于MPP数据库，或时序数据库，或文档型数据库中的目标数据进行加工处理后，存储于关系型数据库。

综上所述，本发明综合利用HBase数据库、MPP数据库等存储能力，增强了数据存储横向扩展能力；通过不同数据库之间联动、转换，避免了数据重复传输或存储。可由MPP数据库、时序数据库、文档型数据库加工指标，存储于关系型数据库；能够区分数据湖、数据仓库两种数据存储管理方式，避免了在数据存储时因建模需要而出现的数据丢失或因无法实现有效建模引发数据无法有效利用的问题；实现了JSON等格式数据与MPP数据库的模型映射，兼容了更多的数据格式。

如图3所示，为本发明公开的一种海量运维数据的处理装置实施例1的结构示意图，所述装置可以包括：

获取模块301，用于获取目标数据；

判断模块302，用于判断目标数据是否为非结构化数据；

第一存储模块303，用于当目标数据为非结构化数据时，将目标数据存储于文档型数据库；

判断模块302，还用于当目标数据不为非结构化数据时，判断目标数据是否为结构化时序数据；

第二存储模块304，用于当目标数据为结构化时序数据时，将目标数据存储于时序数据库；

判断模块302，还用于当目标数据不为结构化时序数据时，判断目标数据是否为结构化非时序数据；

第三存储模块305，用于当目标数据为结构化非时序数据时，基于目标数据的使用方式对目标数据进行存储。

如图4所示，为本发明公开的一种海量运维数据的处理装置实施例2的结构示意图，所述装置可以包括：

设定模块401，用于预先设定目标数据的使用方式；

获取模块402，用于获取目标数据；

判断模块403，用于判断目标数据是否为非结构化数据；

第一存储模块404，用于当目标数据为非结构化数据时，将目标数据存储于文档型数据库；

判断模块403，还用于当目标数据不为非结构化数据时，判断目标数据是否为结构化时序数据；

第二存储模块405，用于当目标数据为结构化时序数据时，将目标数据存储于时序数据库；

判断模块403，还用于当所述目标数据不为结构化时序数据时，判断目标数据是否为结构化非时序数据；

判断单元406，用于基于预先设定目标数据的使用方式，判断目标数据是否用于机器学习；

第一存储单元407，用于当目标数据用于机器学习时，将目标存储于HBase数据库；

判断单元406，还用于当所述目标数据未用于机器学习时，基于预先设定目标数据的使用方式，判断目标数据是否用于分析展示；

映射单元408，用于当目标数据用于分析展示时，对目标数据进行模型映射处理；

第二存储单元409，用于将经过模型映射处理后的目标数据存储于MPP数据库；

第四存储模块410，用于对存储于MPP数据库，或时序数据库，或文档型数据库中的目标数据进行加工处理后，存储于关系型数据库。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种海量运维数据的处理方法，其特征在于，包括：

获取目标数据；

判断所述目标数据是否为结构化非时序数据，若是，则：

基于所述目标数据的使用方式对所述目标数据进行存储。

2.根据权利要求1所述的方法，其特征在于，还包括：

预先设定所述目标数据的使用方式。

3.根据权利要求2所述的方法，其特征在于，所述基于所述目标数据的使用方式对所述目标数据进行存储，包括：

将所述目标存储于HBase数据库。

4.根据权利要求3所述的方法，其特征在于，当所述目标数据未用于机器学习时，还包括：

对所述目标数据进行模型映射处理；

将经过模型映射处理后的目标数据存储于MPP数据库。

5.根据权利要求5所述的方法，其特征在于，还包括：

6.一种海量运维数据的处理装置，其特征在于，包括：

获取模块，用于获取目标数据；

判断模块，用于判断所述目标数据是否为非结构化数据；

7.根据权利要求6所述的装置，其特征在于，还包括：

设定模块，用于预先设定所述目标数据的使用方式。

8.根据权利要求7所述的装置，其特征在于，所述第三存储模块包括：

9.根据权利要求8所述的装置，其特征在于，所述判断单元，还用于当所述目标数据未用于机器学习时，基于预先设定所述目标数据的使用方式，判断所述目标数据是否用于分析展示；

10.根据权利要求9所述的装置，其特征在于，还包括：