CN110413431A

CN110413431A - 一种针对于大数据平台故障的智能识别预警装置及方法

Info

Publication number: CN110413431A
Application number: CN201910715271.8A
Authority: CN
Inventors: 杨林; 于富东; 匙凯
Original assignee: Jinlin Jlu Communication Design Institute Co Ltd
Current assignee: Jinlin Jlu Communication Design Institute Co Ltd
Priority date: 2019-08-05
Filing date: 2019-08-05
Publication date: 2019-11-05
Anticipated expiration: 2039-08-05
Also published as: CN110413431B

Abstract

一种针对于大数据平台故障的智能识别预警装置及方法,属于大数据平台智能运维技术，特别涉及到一种平台故障的发现、排除和预警。与现有技术相比，本发明的有益效果是：能够解决大数据平台应用运行指标异常的发现问题，提早做出故障的预警。能够从大数据平台历史故障中挖掘规律，以用于对未来故障的预判，更好的保证系统稳定性。

Description

一种针对于大数据平台故障的智能识别预警装置及方法

技术领域

本发明属于大数据平台智能运维技术，特别涉及到一种大数据平台故障的智能识别预警装置及方法。

背景技术

大数据平台上承载着无数的应用和服务，是企业中非常宝贵的资源，随着大数据平台在各行各业的广泛推广，大数据应用运行的稳定性越来越重要，采取更智能的手段提早发现微弱指标的变化，并对于即将发生的故障进行预警是非常关键的。

现有技术：目前，对大数据应用运行故障预测的方法主要为以下两种：

(1)组件离散化监控

利用平台上各个组件自身的监控手段，采取多方面的数据，通过研发监控平台将众多数据汇聚后，统一可视化，运维人员基于平台进行人工判断，进行系统故障预料和原因分析。

(2)基于阈值的预警

针对关键运行指标进行阈值的设定，将触发阈值的指标进行预警，如设定“平台Job消耗内存的比率”阈值为50％，如果该值大于50％，则认为存在问题，发出告警。

现有技术缺陷：

①现有技术(1)中，需要利用大数据平台各个组件的自身的监控模块，一方面，某些组件在大数据平台构建时是非默认的，还需要安装额外的组件进行支持，该方法复杂度非常大，风险也较高，一旦安装不好会影响平台运行；另一方面即使将多个组件的数据汇聚到一起，还是需要人工的判断，准确度难以保证，需要非常专业的运维工程师的专业判断，才不至于发生误判。所以该方法复杂性高，运维成本大，不具有实际推广价值；

②技术(2)通过传统运维的方式，针对关键的业务指标进行阈值设置，该种方法虽然可以最直接的报告指标的异常情况，但是却存在如下两个问题：

1)阈值预警需要人工设定，若设定不合理很容易导致漏判和误判；

2)大数据应用运行具有时间的特殊性，往往白天和夜晚、工作日和非工作日之间的数值差距还是非常明显的，不能一味地设定相同的阈值，若要分日、分时来设定阈值，则需要消耗更多的运维人力，成本巨大；

3)即便如此，技术(2)中的阈值预警的时候，实际故障已经发生了，并没有做到用户希望的提前预判。

因此，现有技术中亟需一种新的技术方案来解决上述问题。

发明内容

本发明所要解决的技术问题：提供一种针对于大数据平台故障的智能识别预警装置及方法。通过监控大数据平台多层数据指标的变化模型，并建立基于该变化的跨层关联准确获取故障传播链，以识别出大数据应用层故障的前兆特征，提前进行故障预警。

一种针对于大数据平台故障的智能识别预警装置，其特征在于：包括平台数据接收器、平台指标分层存储器、分层指标模型微控器、平台指标判断仪、频繁项集算法处理器、故障报警器，所述平台数据接收器通过数据线与平台指标分层存储器进行数据传输连接；所述分层指标模型微控器通过数据线分别与平台指标分层存储器、频繁项集算法处理器、及故障报警器进行数据传输连接；所述平台指标判断仪通过数据线与分层指标模型微控器进行双向数据传输连接；所述频繁项集算法处理器通过数据线与平台指标判断仪进行数据传输连接。

所述平台数据接收器通过数据线与大数据平台进行数据传输连接。

所述故障报警器上设置有闪灯和蜂鸣器。

所述故障报警器通过电源线与外接电源连接。

一种针对于大数据平台故障的智能识别预警方法，采用上述一种针对于大数据平台故障的智能识别预警装置，其特征在于：包括以下步骤

步骤一、平台数据接收器通过数据线接收大数据平台发送的指标数据，其中指标数据包括应用层指标、平台层指标和设备层指标；

步骤二、平台指标分层存储器将步骤一中平台数据接收器接收到的大数据平台发送来的指标数据，分为应用层指标数据集、平台层指标数据集和设备层指标数据集进行分层存储；

步骤三、分层指标模型微控器分层构建指标变化模型，包括应用层指标变化模型、平台层指标变化模型及设备层指标变化模型，其中指标变化模型中录入指标变化率、指标变化强度和指标变化方向；

步骤四、平台指标判断仪依据步骤三中分层指标模型微控器构建的指标变化模型进行异常指标确定判断，

①5％≤指标变化率<20％平台指标判断仪判断为正常，

20％≤指标变化率<50％平台指标判断仪判断为异常，

指标变化率≥50％平台指标判断仪判断为故障；

②5％≤指标变化强度<20％平台指标判断仪判断为正常，

20％≤指标变化强度<50％平台指标判断仪判断为异常，

指标变化强度≥50％平台指标判断仪判断为故障；

③5％≤指标变化方向<20％平台指标判断仪判断为正常，

20％≤指标变化方向<50％平台指标判断仪判断为异常，

指标变化方向≥50％平台指标判断仪判断为故障；

其中平台指标判断仪判断为异常时，通过数据线将异常信息包回传给分层指标模型微控器，故障报警器接收到分层指标模型微控器的指令，发出大数据平台异常报警；

其中平台指标判断仪判断为故障时，通过数据线将故障信息包发送给频繁项集算法处理器；

步骤五、频繁项集算法处理器接收到步骤四平台指标判断仪发送的故障信息包，根据应用层指标、平台层指标和设备层指标中之故障指标数量，及故障指标所在的指标数据集，通过FP-GROWTH频繁项集算法获得故障链；

步骤六、频繁项集算法处理器将获得的故障链数据包发送给分层指标模型微控器，故障报警器接收到分层指标模型微控器的指令，发出大数据平台故障报警。

所述应用层指标包括任务个数指标、任务执行时间指标、系统存储余量指标及单个任务占用内存指标。

所述平台层指标包括程序单位时间写入次数指标、软件日志占用内存指标、文件链接数指标、系统存储余量指标及平均超时时长指标。

所述设备层指标包括网络流量指标、Cpu处理器空闲率指标、可用内存数指标及系统负载参数指标。

步骤四中所述指标变化率CR为CR＝(M-N)/N，其中CR为指标变化率、M为指标当前值、N为指标上一个单位时间的值。

所述单位时间为5分钟。

与现有技术相比，本发明的有益效果是：能够解决大数据平台应用运行指标异常的发现不及时问题，提早做出故障的预警。能够从大数据平台历史故障中挖掘规律，以用于对未来故障的预判，更好的保证系统稳定性。

附图说明

以下结合附图和具体实施方式对本发明作进一步的说明。

图1为本发明一种针对于大数据平台故障的智能识别预警装置的结构示意图。

图2为本发明一种针对于大数据平台故障的智能识别预警方法的流程图。

其中，1-平台数据接收器、2-平台指标分层存储器、3-分层指标模型微控器、4-平台指标判断仪、5-频繁项集算法处理器、6-故障报警器、7-大数据平台。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

一种针对于大数据平台故障的智能识别预警装置，其特征在于：包括平台数据接收器1、平台指标分层存储器2、分层指标模型微控器3、平台指标判断仪4、频繁项集算法处理器5、故障报警器6，所述平台数据接收器1通过数据线与平台指标分层存储器2进行数据传输连接；所述分层指标模型微控器3通过数据线分别与平台指标分层存储器2、频繁项集算法处理器5、及故障报警器6进行数据传输连接；所述平台指标判断仪4通过数据线与分层指标模型微控器4进行双向数据传输连接；所述频繁项集算法处理器5通过数据线与平台指标判断仪4进行数据传输连接。

所述平台数据接收器1通过数据线与大数据平台7进行数据传输连接。

所述故障报警器6上设置有闪灯和蜂鸣器。

所述故障报警器6通过电源线与外接电源连接。

步骤一、平台数据接收器1通过数据线接收大数据平台7发送的指标数据，其中指标数据包括应用层指标、平台层指标和设备层指标；

步骤二、平台指标分层存储器2将步骤一中平台数据接收器1接收到的大数据平台7发送来的指标数据，分为应用层指标数据集、平台层指标数据集和设备层指标数据集进行分层存储；

步骤三、分层指标模型微控器3分层构建指标变化模型，包括应用层指标变化模型、平台层指标变化模型及设备层指标变化模型，其中指标变化模型中录入指标变化率、指标变化强度和指标变化方向；

步骤四、平台指标判断仪4依据步骤三中分层指标模型微控器构建的指标变化模型进行异常指标确定判断，

①5％≤指标变化率<20％平台指标判断仪4判断为正常，

20％≤指标变化率<50％平台指标判断仪4判断为异常，

指标变化率≥50％平台指标判断仪4判断为故障；

②5％≤指标变化强度<20％平台指标判断仪4判断为正常，

20％≤指标变化强度<50％平台指标判断仪4判断为异常，

指标变化强度≥50％平台指标判断仪4判断为故障；

③5％≤指标变化方向<20％平台指标判断仪4判断为正常，

20％≤指标变化方向<50％平台指标判断仪4判断为异常，

指标变化方向≥50％平台指标判断仪4判断为故障；

其中平台指标判断仪4判断为异常时，通过数据线将异常信息包回传给分层指标模型微控器3，故障报警器6接收到分层指标模型微控器3的指令，发出大数据平台7的异常报警；

其中平台指标判断仪4判断为故障时，通过数据线将故障信息包发送给频繁项集算法处理器5；

步骤五、频繁项集算法处理器5接收到步骤四平台指标判断仪4发送的故障信息包，根据应用层指标、平台层指标和设备层指标中之故障指标数量，及故障指标所在的指标数据集，通过FP-GROWTH频繁项集算法获得故障链；

步骤六、频繁项集算法处理器5将获得的故障链数据包发送给分层指标模型微控器3，故障报警器6接收到分层指标模型微控器3的指令，发出大数据平台7故障报警。

所述单位时间为5分钟。

实施例1

大数据平台7整个应用运行的环境分为三个层面，如下

(1)app层：应用层，运行在平台上的各类应用，例如用户提交的批处理程序“定时计算有推广商业短信价值的用户名单”Job，或图处理程序“计算潜在用户画像”Job，亦或是实时流处理程序“实时发现钓鱼短信”Job等。；

(2)platform层：平台层，app层的各类程序，包括批处理、图处理、流处理、深度学习等多种类型程序都运行在platform层提供的运行组件环境中。

(3)device层：设备层，即Iaas层，例如服务器、虚拟机、容器等软硬计算设备的运行时环境，也包括如防火墙、路由器、交换机等网络控制面设备运行时环境等。

在大数据平台7上安装指标抓取软件telegraf，该软件就可以定时的去抓取大数据平台7的系统指标。

平台数据接收器1接收上述指标的信息存储在平台指标分层存储器2内。

平台指标分层存储器2将平台数据接收器1接收到的大数据平台7发送来的指标数据，分为应用层指标数据集、平台层指标数据集和设备层指标数据集进行分层存储；

分层指标模型微控器3分层构建指标变化模型，包括应用层指标变化模型、平台层指标变化模型及设备层指标变化模型，其中指标变化模型中录入指标变化率、指标变化强度和指标变化方向；

变化率CR为CR＝(M-N)/N，其中CR为指标变化率、M为指标当前值、N为指标上一个单位时间的值。

提取该指标异常出现的前后各5分钟内的其他层出现异常的指标的变化模型，通过频繁项集算法FP-GROWTH计算得出最佳置信度(最可靠)的变化模型的频繁项组合。具体如下：

对于前后5分钟各个事件发生情况做出统计，时间窗口滑动一次，产生一个事件集合(在该时间窗口内发生的事件)，加入时间窗口滑动了5次，产生5条事件集合，如下：

[A/B/C]

[A/B/D/E/F/G/H/I]

[A/C/D/E]

[B/C/D/E/F]

[C/D/E/F]

那么频繁项集类似如下：

A-B(置信度)：同一窗口内事件A出现时B也出现的比例＝2/3＝0.667

A-C(置信度)：即A出现时C也出现的比例＝2/3＝0.667

B-C(置信度)：即B出现时C也出现的比例＝2/2＝1

C-D(置信度)：即C出现时D也出现的比例＝3/4＝0.75

…….

那么如果我们设定一个取＝0.7，那么上述各个频繁项集中置信度大于0.7的都被我们采纳，即B-C，和C-D被采纳。则可以认为B-C，或C-D同时发生的机率较大，彼此之间是有关系的。故障链建立完成，

经过长时间积累，FP-GROWTH算法得出了多条可靠故障传播链条，涵盖了所有应用层故障的故障链，故障链可以是单线的A→B→C,其实也可以是树形结构的，即A+B→C→D，代表着A和B同时发生时，会导致C发生，进一步导致应用层的D故障发生，针对所有故障链进行存储。

当下次设备层某特定的故障发生时，则可以推导出上平台层和/或应用层故障即将发生(例如A和B发生了，那么C故障就会发生了，在C发生前就可以预警，进行故障干预，避免C故障的发生)，实现了预警，降低业务影响和损失的目的。

以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种针对于大数据平台故障的智能识别预警装置，其特征在于：包括平台数据接收器、平台指标分层存储器、分层指标模型微控器、平台指标判断仪、频繁项集算法处理器、故障报警器，所述平台数据接收器通过数据线与平台指标分层存储器进行数据传输连接；所述分层指标模型微控器通过数据线分别与平台指标分层存储器、频繁项集算法处理器、及故障报警器进行数据传输连接；所述平台指标判断仪通过数据线与分层指标模型微控器进行双向数据传输连接；所述频繁项集算法处理器通过数据线与平台指标判断仪进行数据传输连接。

2.根据权利要求1所述的一种针对于大数据平台故障的智能识别预警装置，其特征在于：所述平台数据接收器通过数据线与大数据平台进行数据传输连接。

3.根据权利要求1所述的一种针对于大数据平台故障的智能识别预警装置，其特征在于：所述故障报警器上设置有闪灯和蜂鸣器。

4.根据权利要求1或3所述的一种针对于大数据平台故障的智能识别预警装置，其特征在于：所述故障报警器通过电源线与外接电源连接。

5.一种针对于大数据平台故障的智能识别预警方法，采用如权利要求1所述的一种针对于大数据平台故障的智能识别预警装置，其特征在于：包括以下步骤

①5％≤指标变化率<20％平台指标判断仪判断为正常，

20％≤指标变化率<50％平台指标判断仪判断为异常，

指标变化率≥50％平台指标判断仪判断为故障；

②5％≤指标指标变化强度<20％平台指标判断仪判断为正常，

20％≤指标变化强度<50％平台指标判断仪判断为异常，

指标变化强度≥50％平台指标判断仪判断为故障；

③5％≤指标变化方向<20％平台指标判断仪判断为正常，

20％≤指标变化方向<50％平台指标判断仪判断为异常，

指标变化方向≥50％平台指标判断仪判断为故障；

6.根据权利要求5所述的一种针对于大数据平台故障的智能识别预警方法，其特征在于：所述应用层指标包括任务个数指标、任务执行时间指标、系统存储余量指标及单个任务占用内存指标。

7.根据权利要求5所述的一种针对于大数据平台故障的智能识别预警方法，其特征在于：所述平台层指标包括程序单位时间写入次数指标、软件日志占用内存指标、文件链接数指标、系统存储余量指标及平均超时时长指标。

8.根据权利要求5所述的一种针对于大数据平台故障的智能识别预警方法，其特征在于：所述设备层指标包括网络流量指标、Cpu处理器空闲率指标、可用内存数指标及系统负载参数指标。

9.根据权利要求5所述的一种针对于大数据平台故障的智能识别预警方法，其特征在于：步骤四中所述指标变化率CR为CR＝(M-N)/N，其中CR为指标变化率、M为指标当前值、N为指标上一个单位时间的值。

10.根据权利要求9所述的一种针对于大数据平台故障的智能识别预警方法，其特征在于：所述单位时间为5分钟。