CN115033457B

CN115033457B - 一种可监控预警的多源数据实时采集方法及系统

Info

Publication number: CN115033457B
Application number: CN202210712183.4A
Authority: CN
Inventors: 程学林; 陈翰铖; 蒋烁淼; 杨小虎
Original assignee: Shanghai Observation Future Information Technology Co ltd; Zhejiang University ZJU
Current assignee: Shanghai Observation Future Information Technology Co ltd; Zhejiang University ZJU
Priority date: 2022-06-22
Filing date: 2022-06-22
Publication date: 2023-08-25
Anticipated expiration: 2042-06-22
Also published as: CN115033457A

Abstract

本发明涉及一种可监控预警的多源数据实时采集方法及系统，涉及数据处理技术领域，首先利用定制化脚本采集器实时采集主流平台数据；利用Kafka和Redis对主流平台数据进行缓存；利用Flink实时数据流引擎对缓存数据进行清洗；然后获取预警策略；根据清洗数据利用ARIMA模型预测出预设时间范围内的数据；最后将预测数据与预警策略进行比较，发送预警信息。本发明采用了定制化脚本采集器，实现多源数据的高性能实时采集，利用了主流消息队列组件Kafka和实时流处理引擎Flink的全联通，保证链路数据的一致性，还实现了预警策略与ARIMA模型的结合，从而避免触发阈值时机器宕机造成无法弥补的损失。

Description

一种可监控预警的多源数据实时采集方法及系统

技术领域

本发明涉及数据处理技术领域，特别是涉及一种可监控预警的多源数据实时采集方法及系统。

背景技术

近年来，因为大数据技术的诞生与源源不断的发展，数据已渗透到当今每一个行业和业务职能领域。大数据时代数据来源众多，科学研究、企业应用和Web应用等都在源源不断地生成新的数据，且数据类型丰富，包括结构化数据和非结构化数据，其中，前者主要是指存储在关系数据库中的数据；后者主要包括邮件、音频、视频、微信、微博、位置信息、链接信息、手机呼叫信息、网络日志等。

网络爬虫是一种按照一定的规则，自动地抓取信息的程序或者脚本。通过网络爬虫可以爬取各种各样存在于网络中的数据。然而现有的网络爬虫等相关技术中，还没有能够针对未来数据进行预测预警的方案。

发明内容

本发明的目的是提供一种可监控预警的多源数据实时采集方法及系统，基于现有的主流平台数据对未来数据进行有效预测，并根据预测数据结合预警策略进行预警，解决了目前不能够针对未来数据进行预测预警的问题。

为实现上述目的，本发明提供了如下方案：

一种可监控预警的多源数据实时采集方法，所述方法包括：

利用定制化脚本采集器实时采集主流平台数据；所述定制化脚本采集器为通过分析主流平台数据的类型与结构，针对主流平台数据的要点，进行有针对性采集的脚本采集器；

利用Kafka和Redis对所述主流平台数据进行缓存，得到缓存数据；

利用Flink实时数据流引擎对所述缓存数据进行清洗，得到清洗数据；

获取预警策略；

根据所述清洗数据，利用ARIMA模型预测出预设时间范围内的数据，得到预测数据；

将所述预测数据与所述预警策略进行比较，并当所述预测数据满足所述预警策略的条件时发出预警信息。

在一些实施例中，在所述利用定制化脚本采集器实时采集主流平台数据之前，还包括：

获取主流平台的授权信息。

在一些实施例中，所述主流平台包括：云厂商和股票市场。

在一些实施例中，所述主流平台数据包括：主流平台的指标数据、日志数据、文件数据、CPU性能以及金融大数据。

在一些实施例中，所述定制化脚本采集器能够供用户自行优化与定制。

在一些实施例中，所述自行优化与定制，具体包括：

根据主流平台数据的类型、特点和格式进行分析与采样，得到采样结果；

根据所述采样结果筛选指标，并剔除非必要字段，得到优化指标；

根据所述优化指标，利用异步队列采集或者降低代码时间复杂度的方法优化代码；

配置云厂商AK、需要采集的指标和需采集的频率。

在一些实施例中，在所述利用Flink实时数据流引擎对所述缓存数据进行清洗，得到清洗数据之后，还包括：

将所述清洗数据进行可视化图表展示。

在一些实施例中，所述根据所述清洗数据，利用ARIMA模型预测出预设时间范围内的数据，得到预测数据，具体包括：

通过差分法平稳化一定时间范围内的所述清洗数据，得到平稳化数据；

利用BIC信息准则分析所述清洗数据，得到BIC数值最小时p和q的阶数；

根据所述平稳化数据和所述BIC数值最小时p和q的阶数构建ARIMA(p,d,q)模型：

其中，p,q为观察到的阶数；d为差分法的阶数；u为常数，即截距；∈为误差，∈_t表示当前误差，∈_t-i表示前一个误差；γ_i,θ_i为自相关系数；y_t-i表示前一个计算值；

利用ARIMA(p,d,q)模型根据所述清洗数据预测出预设时间范围内的数据，得到预测数据。

在一些实施例中，所述预警策略包括：单次阈值预警和多次阈值预警；

所述单次阈值预警为所述预测数据一次大于阈值时报警；

所述多次阈值预警为所述预测数据大于阈值达到预设次数时报警。

本发明还提供了一种可监控预警的多源数据实时采集系统，所述系统包括：多源数据实时处理模块和数据分析模块；

所述多源数据实时处理模块，用于：

所述数据分析模块，用于：

获取预警策略；

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供了一种可监控预警的多源数据实时采集方法及系统，首先利用定制化脚本采集器实时采集主流平台数据；利用Kafka和Redis对所述主流平台数据进行缓存，得到缓存数据；利用Flink实时数据流引擎对缓存数据进行清洗，得到清洗数据；然后获取预警策略；根据清洗数据利用ARIMA模型预测出预设时间范围内的数据，得到预测数据；最后将预测数据与预警策略进行比较，并当所述预测数据满足所述预警策略的条件时发出预警信息，由于其采用了定制化脚本采集器，开发人员通过分析数据的类型与结构，针对数据要点，优化数据采集方式。在共用的架构下，定制化突出同一场景中不同的数据特点供用户使用，实现多源数据的高性能实时采集，并且利用了主流消息队列组件Kafka和实时流处理引擎Flink的全联通，保证本发明链路数据的一致性，本发明还在预警中实现了预警策略与ARIMA模型的结合，解决了目前没有能够针对未来数据进行预测预警的问题，从而避免触发阈值时机器宕机造成无法弥补的损失。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的可监控预警的多源数据实时采集方法流程图。

图2为本发明实施例二提供的可监控预警的多源数据实时采集系统的架构图。

图3为本发明实施例二提供的可视化展示示意图。

图4为本发明实施例二提供的链路数据回溯示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

近年来，因为大数据技术的诞生与源源不断的发展，数据已渗透到当今每一个行业和业务职能领域。大数据时代数据来源众多，科学研究、企业应用和Web应用等都在源源不断地生成新的数据，且数据类型丰富，包括结构化数据和非结构化数据，其中，前者主要是指存储在关系数据库中的数据；后者主要包括邮件、音频、视频、微信、微博、位置信息、链接信息、手机呼叫信息、网络日志等。本发明不单是监控类产品，更重要的是提供了多源数据实时采集服务及可视化系统。下面简要说明与本发明接近的相关现有技术以及存在的问题。

网络爬虫是一种按照一定的规则，自动地抓取信息的程序或者脚本。通过网络爬虫可以爬取各种各样存在于网络中的数据。网络爬虫存在的问题与缺点有：1、爬行范围和数量巨大，对于爬行速度和存储空间要求较高；2、由于待刷新的页面太多，通常采用并行工作方式，较长时间才能刷新一次页面；3、非法采集。

Flume是分布式、高可靠和高可用的服务，用于高效地收集、聚合和移动大量日志数据。Flume存在的问题与缺点有：1、基于Hadoop环境，传统型或小规模企业使用空间受限；2、Flume采集的数据以TB为单位，当数据规模较小时，性能不如传统采集器。

Zabbix是由Alexei Vladishev开源的分布式监控系统，支持多种采集方式和采集客户端，同时支持SNMP、IPMI、JMX、Telnet、SSH等多种协议，它将采集到的数据存放到数据库中，然后对其进行分析整理，如果符合告警规则，则触发相应的告警。Zabbix存在的问题与缺点有：1、整体构建复杂度较高，需配置专业的运维人员使用；2、开源代码存在大量的潜在技术风险；3、使用了关系型数据存储时序数据，在监控稍大规模集群时性能不足。

本发明的多源数据实时采集数据服务数据规模含GB级别及以下，性能不受小规模数据影响，解决了用户数据规模较小，使用Flume性能却受限的问题。同时本发明在数据展示方面引入ElasticSearch、MongoDB等非关系型数据库，高效解决时序数据的存储，解决Zabbix在数据规模稍大时的缺陷。

基于上述情况，本发明提出了一种可监控预警的多源数据实时采集数据服务，便于使用者挖掘多源且不同类型结构的数据价值，并提供可视化和预警监控策略。

本发明的目的是提供一种可监控预警的多源数据实时采集方法及系统，基于现有的主流平台数据对未来数据进行有效预测，并根据预测数据结合预警策略进行预警，解决了目前没有能够针对未来数据进行预测预警的问题。

本发明通过定制化脚本采集器实时采集多源数据，支持各类主流数据类型，例如指标数据、日志数据、文件数据、CPU性能、金融大数据等。将数据推送到数据缓冲模块，引入数据缓冲，减轻网络负载压力，在同时保证性能的基础上，确保发明的高可用性。数据缓冲模块将数据分发给数据清洗模块，通过实时数据流引擎和聚类算法分离得到目标数据。目标数据在数据分析模块通过匹配预设的报警策略实现预警。目标数据根据类型的不同存储在不同类型的数据库中，如MySQL、ElasticSearch等为后续提供全链路数据回溯。最后目标数据进行可视化展示，通过框选的绝对时间范围，可对时序图的相似性程度进行分析，便于对链路性能进行全量分析。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一：

如图1所示，本发明提供了一种可监控预警的多源数据实时采集方法，所述方法包括：

S1、利用定制化脚本采集器实时采集主流平台数据；所述定制化脚本采集器为通过分析主流平台数据的类型与结构，针对主流平台数据的要点，进行有针对性采集的脚本采集器。其中，所述主流平台包括：云厂商和股票市场。所述主流平台数据包括：主流平台的指标数据、日志数据、文件数据、CPU性能以及金融大数据。

本实施例的定制化脚本采集器，使用Python语言编程。首先根据主流平台例如云厂商、股票市场等对数据进行分析，对接口返回的数据类型、特点、格式等进行分析与采样。根据采样结果，筛选指标，剔除非必要字段。接着通过技术手段例如异步队列采集、降低代码时间复杂度优化代码，从而提高脚本的高效并发能力和内存使用效率。最后脚本用户页通过配置例如填写云厂商AK、需要采集的指标如CPU.idle或全指标、需采集的频率后，触发脚本即可开始采集。

本实施例的定制化脚本采集器为用户提供完备的采集脚本，支持与代码程序内嵌，获取程序过程数据。

在采集数据之前还需要获取主流平台的授权信息。经授权后，即可采集不同平台提供的相关数据，基于Crontab指令最快做到每分钟/次的采集频率。定制化脚本采集器可供用户自行优化与定制。采集到的所有数据将移交给数据缓存模块。具体自行优化与定制的方法包括：根据主流平台数据的类型、特点和格式进行分析与采样，得到采样结果；根据所述采样结果筛选指标，并剔除非必要字段，得到优化指标；根据所述优化指标利用异步队列采集或者降低代码时间复杂度的方法优化代码；配置云厂商AK、需要采集的指标和需采集的频率。

S2、利用Kafka和Redis对所述主流平台数据进行缓存，得到缓存数据。

所有数据需经Kafka、Redis集成的消息组件集群进行缓存。对于实时性较高且规模小的数据，Redis的单进程特性保证快速、高效、高性能。Redis集群特有的RDB、AOF持久化方式保证数据一致性。若规模较大，数据缓冲工作则由Kafka集群接管，Kafka的ISO副本机制也保证数据的一致性。数据缓存后等待数据清洗。

S3、利用Flink实时数据流引擎对所述缓存数据进行清洗，得到清洗数据。

本实施例引入Flink实时数据流引擎，并行化处理数据缓存中的数据。这些并行化任务分布在集群中，充分利用CPU、内存、磁盘和网络I/O。任务通过访问本地(通常在内存中)状态来进行所有的计算，在高性能的基础上保持非常低的处理延迟。Flink通过定期和异步地对本地状态进行持久化存储来保证故障场景下精确一次的状态一致性。

在清洗的过程中，数据流使用了K-Means聚类算法：

随机选取k个聚类质心点μ，计算属于的类对于每一个类重复直到收敛/>排除极端突兀点数据，为后续ARIMA模型提供数据基础。其中，k为数据个数；μ为质心点，μ_j表示以j为质心点；c⁽ⁱ⁾为簇类；i,j为样例点；m为区间范围最终值；x⁽ⁱ⁾为待计算值。

S4、获取预警策略。所述预警策略包括：单次阈值预警和多次阈值预警。

所述单次阈值预警为所述预测数据一次大于阈值时报警；所述多次阈值预警为所述预测数据大于阈值达到预设次数时报警。

S5、根据所述清洗数据，利用ARIMA模型预测出预设时间范围内的数据，得到预测数据，具体包括：

S6、将所述预测数据与所述预警策略进行比较，并当所述预测数据满足所述预警策略的条件时发出预警信息。

作为一种可选的实施方式，本实施例在数据分析模块中为用户提供以下预警策略及预警方式：

清洗后的数据才能流入数据分析模块做进一步预警判断，预警是为了避免因集群宕机造成经济损失。清洗数据不断匹配预警设置的阈值，不断累加超过设定值的次数等。如果超过阈值，数据触发报警。系统通过通知模块向接受人发送报警信息。

阈值策略预警：

用户可按照自己的业务需求设定阈值，例如在CPU密集型脚本中，CPU很容易满载，此时用户设定CPU.idle(CPU空闲度)<15％就触发报警，避免因CPU满载导致脚本无期限阻塞。此策略需要目标数据不断匹配阈值。根据用户定义，清洗数据一次大于或多次大于阈值就需要报警。用户可接入第三方通知模块，经授权后，向联系人发送警告，排除潜在风险。

ARIMA模型预测：

第一步，通过差分法(当前值减去历史值)平稳化一段时间序列，例如6个小时内的清洗数据，差分法的阶数即为d。

第二步，将清洗数据代入BIC信息准则进一步分析，BIC＝klnn-2ln L，其中k表示模型参数的个数，n表示样本的数量，L表示似然函数。比较得到BIC数值最小时，p和q的阶数。

第三步，通过第一步的时间范围内采集到的目标数据，系统构建ARIMA(p,d,q)模型。

p,q为观察到的阶数；d为差分法的阶数；u为常数即截距；∈为误差，∈_t表示当前误差，∈_t-i表示前一个误差；γ_i,θ_i为自相关系数；y_t-i表示前一个计算值；

该模型通过现有Python函数tsdiag(model)检验残差的自相关性后，即可用现有时间范围内采集到的清洗数据预测未来时间范围(例如未来6个小时)的预测数据。

第四步，通过ARIMA模型得到预测数据后，预测数据与用户设定的阈值进行比较，超过一次或多次后，经授权，立即向联系人发送警告，排除潜在风险。

在一些实施例中，在获得清洗数据以后，系统会上传全链路数据进行可视化图表展示。每个数据采集时配有一个固定的时间戳，系统会根据时间流水线，将数据通过列表、折线图、柱状图等不同的方式进行展示。例如折线图，以纵坐标为数据值大小，横坐标为时间戳大小，数据之间通过Python.plot()方法连接构成折线图，从而实现可视化图表展示。同时针对不同的数据，数据可视化的类型主要分为指标、容器、自定义三个方面，数据在数据库中最长可保存14天，且为用户提供了1小时、12小时、1天等不同时间间隔的数据展示方式，保证数据的全链路量化分析。

本实施例提供的可监控预警的多源数据实时采集方法，定制化脚本采集器是一大亮点，开发人员通过分析数据的类型与结构，针对数据要点，优化数据采集方式。在共用的架构下，定制化突出同一场景中不同的数据特点供用户使用，实现多源数据的高性能实时采集。本实施例实现了主流消息队列组件Kafka和实时流处理引擎Flink的全联通，基于内嵌的主流处理框架高可用特点和持久化功能，保证本发明链路数据的一致性。并且，本实施例实现了多预警策略与ARIMA模型的结合，同时保证基础监控和对未来目标数据的预测。通过模型多次拟合未来数据，若数据与阈值相近则发送报警，从而避免触发阈值时机器宕机造成无法弥补的损失。

实施例二：

如图2所示，本实施例提供了一种可监控预警的多源数据实时采集系统，所述系统包括：多源数据实时处理模块和数据分析模块。

所述多源数据实时处理模块，用于：

所述数据分析模块，用于：

获取预警策略；

本实施例中所述系统还包括数据展示模块。

本实施例将多源数据实时处理模块、数据分析模块、数据展示模块封装为一个高可靠、可复用的服务。在采集API数据的场景中，系统应用此定制化服务，首先会对目标平台例如阿里云平台、亚马逊云服务平台等的API采集数据，再通过将数据推送到消息队列里等待消费，接着通过数据清洗实时流获得目标数据，目标数据匹配制定的预警策略、触发报警则调用预警处理服务并发送通知。目标数据后续进行可视化展示。具体架构图详见图2。

1、多源数据实时处理模块

本实施例定制化脚本采集器支持主流类型数据的实时采集，例如：指标数据、日志数据、文件数据、CPU性能、金融大数据等。支持用户使用本实施例定制化脚本采集器定时采集数据，也可以使用第三方采集器采集数据，如Telegraf等。数据处理模块中，定制化脚本采集器每次采集完成后，都会将数据发送给数据缓冲模块继而转交给数据清洗实时流获得目标数据(即清洗数据)，插入缓冲确保数据的高可用性和一致性。

2、数据分析模块

本实施例的数据分析模块包含数据诊断、预警及数据存储。

首先，用户需在系统中以预设的方式制定预警策略，例如CPU.idle小于20％，API数据持续3次为空，获取数据时超时，日志数量持续增长了多少等。同时系统本身也设置了预警策略，例如消息队列空闲值大小等，确保系统的高可用性。接着，模块拿到清洗后的目标数据，目标数据不断匹配预警设置的阈值，不断累加超过设定值的次数等。如果超过阈值，数据触发报警。系统再通过通知模块向接受人发送报警信息。最后，数据正常则根据类型的不同，存储在不同类型的数据库中。例如指标、容器、自定义等类型数据，存储在MySQL、ElasticSearch等，为后续数据的可视化工作进一步分类。

3、数据展示模块

本实施例的数据展示模块用于目标数据的可视化展示，如图3所示，通过折线图、柱状图、面积图、列表等查看本实施例采集到的各类型数据。通过指标与趋势走向，帮助及时排查当前应用系统的潜在问题，还可以查看、检索、拣选、导出应用的全部链路数据，支持回溯每一个数据细节，如图4所示。通过框选的绝对时间范围，可对时序图的相似性程度进行分析，便于对链路性能进行全量分析。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种可监控预警的多源数据实时采集方法，其特征在于，所述方法包括：

利用定制化脚本采集器实时采集主流平台数据；所述定制化脚本采集器为通过分析主流平台数据的类型与结构，针对主流平台数据的要点，进行有针对性采集的脚本采集器；所述主流平台数据包括：主流平台的指标数据、日志数据、文件数据、CPU性能以及金融大数据；

利用Flink实时数据流引擎对所述缓存数据进行清洗，得到清洗数据；在清洗的过程中，使用K-Means聚类算法：随机选取k个聚类质心点μ，计算属于的类对于每一个类重复直到收敛/>排除极端突兀点数据，为后续ARIMA模型提供数据基础；其中，k为数据个数；μ为质心点，μ_j表示以j为质心点；c⁽ⁱ⁾为簇类；i,j为样例点；m为区间范围最终值；x⁽ⁱ⁾为待计算值；

获取预警策略；

将所述预测数据与所述预警策略进行比较，并当所述预测数据满足所述预警策略的条件时发出预警信息；

所述根据所述清洗数据，利用ARIMA模型预测出预设时间范围内的数据，得到预测数据，具体包括：

利用ARIMA(p,d,q)模型根据所述清洗数据预测出预设时间范围内的数据，得到预测数据；

所述定制化脚本采集器能够供用户自行优化与定制；

所述自行优化与定制，具体包括：

配置云厂商AK、需要采集的指标和需采集的频率。

2.根据权利要求1所述的可监控预警的多源数据实时采集方法，其特征在于，在所述利用定制化脚本采集器实时采集主流平台数据之前，还包括：

获取主流平台的授权信息。

3.根据权利要求2所述的可监控预警的多源数据实时采集方法，其特征在于，所述主流平台包括：云厂商和股票市场。

4.根据权利要求1所述的可监控预警的多源数据实时采集方法，其特征在于，在所述利用Flink实时数据流引擎对所述缓存数据进行清洗，得到清洗数据之后，还包括：

将所述清洗数据进行可视化图表展示。

5.根据权利要求1所述的可监控预警的多源数据实时采集方法，其特征在于，所述预警策略包括：单次阈值预警和多次阈值预警；

所述单次阈值预警为所述预测数据一次大于阈值时报警；

6.一种可监控预警的多源数据实时采集系统，其特征在于，所述系统包括：多源数据实时处理模块和数据分析模块；

所述多源数据实时处理模块，用于：

所述数据分析模块，用于：

获取预警策略；

所述定制化脚本采集器能够供用户自行优化与定制；

所述自行优化与定制，具体包括：

配置云厂商AK、需要采集的指标和需采集的频率。