CN111638988A - 一种基于深度学习的云主机故障智能预测方法 - Google Patents

一种基于深度学习的云主机故障智能预测方法 Download PDF

Info

Publication number
CN111638988A
CN111638988A CN201910350560.2A CN201910350560A CN111638988A CN 111638988 A CN111638988 A CN 111638988A CN 201910350560 A CN201910350560 A CN 201910350560A CN 111638988 A CN111638988 A CN 111638988A
Authority
CN
China
Prior art keywords
cloud host
intelligent
fault
data
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910350560.2A
Other languages
English (en)
Other versions
CN111638988B (zh
Inventor
沙泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Gala Information Technology Co ltd
Original Assignee
Shanghai Gala Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Gala Information Technology Co ltd filed Critical Shanghai Gala Information Technology Co ltd
Priority to CN201910350560.2A priority Critical patent/CN111638988B/zh
Publication of CN111638988A publication Critical patent/CN111638988A/zh
Application granted granted Critical
Publication of CN111638988B publication Critical patent/CN111638988B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Abstract

本发明提供一种基于深度学习的云主机故障智能预测方法,涉及电信领域,所述方法包括步骤1:采集多维度的数据源,所述数据源包括实时数据和历史数据;步骤2:对多维度的数据源进行降维分析,确定核心指标变量;步骤3:构建故障智能预测模型,进行历史数据的离线训练和实时数据的在线训练;步骤4:输出云主机智能预警信息,评估故障智能预测模型预测效果。本发明利用Keras框架深度学习构建基于云主机的智能故障预测模型,通过离线训练和在线训练结合,准确预测云主机可能发生的故障,提升云主机的智能化运维能力,实现云主机的运维从“事后”向“事前”发展,使得维护变得更加主动,能够满足实时性较高的业务需求。

Description

一种基于深度学习的云主机故障智能预测方法
技术领域
本发明涉及电信领域,尤其涉及一种基于深度学习的云主机故障智能预测方法。
背景技术
传统云主机的运维模式是网管系统发现主机告警后,通知维护人员进行维修,属于事后的人工修复,故障响应时间较长;并且维修人员需要耗费大量的人力进行故障查证,维护效率较低;此外,不具有故障智能预警功能,一旦出现严重故障,则会影响正常运行,维护较为被动,难以满足实时性较高的业务需求。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种基于深度学习的云主机故障智能预测方法,能够提升云主机的智能化运维能力,实现故障智能预警,使得维护变得更加主动,能够满足实时性较高的业务需求。
本发明提供一种基于深度学习的云主机故障智能预测方法,所述方法包括以下步骤:
步骤1:采集多维度的数据源,所述数据源包括实时数据和历史数据;
步骤2:对多维度的数据源进行降维分析,确定核心指标变量;
步骤3:构建故障智能预测模型,进行历史数据的离线训练和实时数据的在线训练;
步骤4:输出云主机智能预警信息,评估故障智能预测模型预测效果。
进一步的,通过在云主机部署Probe探针程序获取实时数据,包括云主机的CPU、内存、磁盘、进程、网络相关指标数据。
进一步的,通过在云桌面导出历史数据,包括云主机的CPU、内存、磁盘、进程、网络相关指标数据。
进一步的,所述步骤3具体步骤如下:
步骤3.1:将历史数据的核心指标变量的时序数据
Figure BDA0002043803370000011
按照时间片段T进行划分,得到
Figure BDA0002043803370000012
其中,所述
Figure BDA0002043803370000013
xm表示每个核心指标变量在时刻t的值,M表示核心指标变量维度的个数,n表示第n天,m表示第m个核心指标变量;
步骤3.2:计算每个时间片段T内,每个核心指标变量的均值
Figure BDA0002043803370000014
方差Stdm=||{xm,t}-Avgm||2
步骤3.3:计算一天内均值Avgm的方差,Stdm的均值;
步骤3.4:整合每个核心指标变量的Avgm、Stdm、Avgm的方差、Stdm的均值构成测试集;步骤3.5:将测试集中的特征输入到故障智能预测模型,结合网管系统输出的云主机真实告警信息作为标签进行训练;
步骤3.6:将实时数据的核心指标变量输入到故障智能预测模型,得到云主机故障标签。
进一步的,所述时间片段T为1小时。
进一步的,所述步骤4具体步骤如下:
步骤4.1:基于云主机故障标签输出云主机智能预警信息;
步骤4.2:通过对云主机智能预警信息和网关系统数据的真实告警信息进行对比,评估故障智能预测模型预测效果。
如上所述,本发明的基于深度学习的云主机故障智能预测方法,具有以下有益效果:本发明利用Keras框架深度学习构建基于云主机的智能故障预测模型,通过离线训练和在线训练结合,准确预测云主机可能发生的故障,提升云主机的智能化运维能力,实现云主机的运维从“事后”向“事前”发展,使得维护变得更加主动,能够满足实时性较高的业务需求。
附图说明
图1显示为本发明实施例中公开的故障智能预测模型工作流程图;
图2显示为本发明实施例中公开的智能预测方法数据处理流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
如图2所示,本发明提供一种基于深度学习的云主机故障智能预测方法,所述方法包括以下步骤:
步骤1:采集多维度的数据源,所述数据源包括实时数据和历史数据;
具体的,通过在云主机部署Probe探针程序,采集云主机的CPU、内存、磁盘、进程、网络相关指标数据,采集周期为5分钟;
通过云桌面导出云主机的CPU、内存、磁盘、进程、网络相关指标数据,数据周期为30分钟;
其中,本发明选用的指标数据如下:
date:日期;
NIBR:服务器在网络上接收的字节数目,服务器忙的程度;
NIBS:客户端发送字节的速率,这个值用来衡量服务器忙的程度;
SWQL:CPU当前的服务器作业列队长度;
available:可用物理内存(单位MB);
diskreadtime:所选磁盘驱动器忙于为读请求提供服务所用的时间的百分比;
diskwritetime:所选磁盘驱动器忙于为写入请求提供服务所用的时间的百分比;
freemegabytes:可用的显示磁盘驱动器上尚未分配的空间;
freespace:所选逻辑磁盘驱动器上总的可用空闲空间的百分比;
memorybytes:可用内存(单位字节);
processortime:CPU使用率;
recive:网卡收到的总的字节数;
sPQL:处理器队列的线程数量;
send:网卡发送的总的字节数;
total:总内存(MB)。
步骤2:对多维度的数据源进行降维分析,确定核心指标变量;
其中,本发明确定的核心指标变量如下:
NIBR:服务器在网络上接收的字节数目,服务器忙的程度
NIBS:客户端发送字节的速率,这个值用来衡量服务器忙的程度;
available:可用物理内存(单位MB)
diskreadtime:所选磁盘驱动器忙于为读请求提供服务所用的时间的百分比。
diskwritetimee:所选磁盘驱动器忙于为写入请求提供服务所用的时间的百分比
processortime:CPU使用率
total:总内存(MB);
estabilished:状态。
步骤3:构建故障智能预测模型,进行历史数据的离线训练和实时数据的在线训练;
具体的,包括以下步骤:
步骤3.1:将历史数据的核心指标变量的时序数据
Figure BDA0002043803370000041
按照时间片段T进行划分,得到
Figure BDA0002043803370000042
其中,所述
Figure BDA0002043803370000043
xm表示每个核心指标变量在时刻t的值,M表示核心指标变量维度的个数,n表示第n天,m表示第m个核心指标变量;
本发明中,M=8,即为核心指标变量的个数;时间片段T为1小时;
步骤3.2:计算每个时间片段T内,每个核心指标变量的均值
Figure BDA0002043803370000044
方差Stdm=||{xm,t}-Avgm||2
其中,均值Avgm代表云主机的压力,均值Avgm越大,云主机的压力越大;方差Stdm代表云主机状态的稳定性,方差Stdm越大,云主机的稳定性越小;
步骤3.3:计算一天内均值Avgm的方差,方差Stdm的均值;
方差Stdm的均值代表一天内云主机的压力,方差Stdm的均值越大,云主机的压力越大,均值Avgm的方差代表一天内云主机状态的稳定性,均值Avgm的方差大,云主机状态的稳定性越差;
步骤3.4:整合每个核心指标变量的Avgm、Stdm、Avgm的方差、Stdm的均值构成测试集;
本发明的测试集中包括(10*2+2)*8=176个特征;
算式说明:10个时间片段T,每个时间片段有均值Avgm、Stdm方差两个特征;均值Avgm的方差,方差Stdm的均值有两个特征;8个核心指标变量维度;
步骤3.5:将测试集中的特征输入到故障智能预测模型,结合网管系统输出的云主机真实告警信息作为标签进行训练;
如图1所示,步骤3.6:将实时数据的核心指标变量输入到故障智能预测模型进行算法分析,得到云主机故障标签。
步骤4:基于云主机故障标签输出云主机智能预警信息,并评估故障智能预测模型预测效果;
具体的,包括以下步骤:
步骤4.1:基于云主机故障标签输出云主机智能预警信息;
步骤4.2:通过对云主机智能预警信息和网关系统数据的真实告警信息进行对比,评估故障智能预测模型预测效果。
综上所述,本发明将云主机发生崩溃、无响应等异常的现象定义为云主机运行中的一种状态,在给定的时间片段下,核心指标变量对应的结点可以被分为两类,处于异常状态的结点和处于正差状态下的结点,因此,预测云主机的异常可以转化为对云主机状态的二分类问题;通过选取结点的相关指标作为结点分类的特征,用故障智能预测模型进行分类,并得到可信的结果,经过实验验证,云主机故障预测率达到85%以上,满足故障预测的准确性要求,可适用于云主机智能运维工作。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (6)

1.一种基于深度学习的云主机故障智能预测方法,其特征在于,所述方法包括以下步骤:
步骤1:采集多维度的数据源,所述数据源包括实时数据和历史数据;
步骤2:对多维度的数据源进行降维分析,确定核心指标变量;
步骤3:构建故障智能预测模型,进行历史数据的离线训练和实时数据的在线训练;
步骤4:输出云主机智能预警信息,评估故障智能预测模型预测效果。
2.根据权利要求1所述的基于深度学习的云主机故障智能预测方法,其特征在于:通过在云主机部署Probe探针程序获取实时数据,包括云主机的CPU、内存、磁盘、进程、网络相关指标数据。
3.根据权利要求1所述的基于深度学习的云主机故障智能预测方法,其特征在于:通过在云桌面导出历史数据,包括云主机的CPU、内存、磁盘、进程、网络相关指标数据。
4.根据权利要求1所述的基于深度学习的云主机故障智能预测方法,其特征在于:所述步骤3具体步骤如下:
步骤3.1:将历史数据的核心指标变量的时序数据
Figure FDA0002043803360000011
按照时间片段T进行划分,得到
Figure FDA0002043803360000015
其中,所述
Figure FDA0002043803360000013
xm表示每个核心指标变量在时刻t的值,M表示核心指标变量维度的个数,n表示第n天,m表示第m个核心指标变量;
步骤3.2:计算每个时间片段T内,每个核心指标变量的均值
Figure FDA0002043803360000014
方差Stdm=||{xm,t}-Avgm||2
步骤3.3:计算一天内均值Avgm的方差,Stdm的均值;
步骤3.4:整合每个核心指标变量的Avgm、Stdm、Avgm的方差、Stdm的均值构成测试集;
步骤3.5:将测试集中的特征输入到故障智能预测模型,结合网管系统输出的云主机真实告警信息作为标签进行训练;
步骤3.6:将实时数据的核心指标变量输入到故障智能预测模型,得到云主机故障标签。
5.根据权利要求4所述的云主机故障智能预测方法,其特征在于:所述时间片段T为1小时。
6.根据权利要求5所述的基于深度学习的云主机故障智能预测方法,其特征在于:所述步骤4具体步骤如下:
步骤4.1:基于云主机故障标签输出云主机智能预警信息;
步骤4.2:通过对云主机智能预警信息和网关系统数据的真实告警信息进行对比,评估故障智能预测模型预测效果。
CN201910350560.2A 2019-04-28 2019-04-28 一种基于深度学习的云主机故障智能预测方法 Active CN111638988B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910350560.2A CN111638988B (zh) 2019-04-28 2019-04-28 一种基于深度学习的云主机故障智能预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910350560.2A CN111638988B (zh) 2019-04-28 2019-04-28 一种基于深度学习的云主机故障智能预测方法

Publications (2)

Publication Number Publication Date
CN111638988A true CN111638988A (zh) 2020-09-08
CN111638988B CN111638988B (zh) 2023-05-12

Family

ID=72330599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910350560.2A Active CN111638988B (zh) 2019-04-28 2019-04-28 一种基于深度学习的云主机故障智能预测方法

Country Status (1)

Country Link
CN (1) CN111638988B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113127542A (zh) * 2021-05-06 2021-07-16 郑州航空工业管理学院 一种数据异常分析方法和装置
CN114841843A (zh) * 2022-04-15 2022-08-02 广州天长信息技术有限公司 一种分析可疑绿通车的方法和系统
CN115499344A (zh) * 2022-08-25 2022-12-20 鹏城实验室 一种网络流量实时预测方法及系统
CN115664939A (zh) * 2022-12-28 2023-01-31 中国电子科技集团公司第十五研究所 一种基于自动化技术的综合运维方法、装置和存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095639A (zh) * 2016-05-30 2016-11-09 中国农业银行股份有限公司 一种集群亚健康预警方法及系统
CN106873571A (zh) * 2017-02-10 2017-06-20 泉州装备制造研究所 一种基于数据和模型融合的预警方法
US20170192824A1 (en) * 2015-12-30 2017-07-06 Palo Alto Research Center Incorporated Pervasive state estimation and an application to distributed systems
CN106980906A (zh) * 2017-03-19 2017-07-25 国网福建省电力有限公司 一种基于spark的Ftrl电压预测方法
CN108900358A (zh) * 2018-08-01 2018-11-27 重庆邮电大学 基于深度信念网络资源需求预测的虚拟网络功能动态迁移方法
CN109359385A (zh) * 2018-10-17 2019-02-19 网宿科技股份有限公司 一种服务质量评估模型的训练方法及装置
CN109376413A (zh) * 2018-10-08 2019-02-22 四川大学 基于数据驱动的在线神经网络故障诊断方法
CN109492826A (zh) * 2018-12-06 2019-03-19 远光软件股份有限公司 一种基于机器学习的信息系统运行状态风险预测方法
CN109614231A (zh) * 2018-12-04 2019-04-12 广东亿迅科技有限公司 空闲服务器资源发现方法、装置、计算机设备和存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170192824A1 (en) * 2015-12-30 2017-07-06 Palo Alto Research Center Incorporated Pervasive state estimation and an application to distributed systems
CN106095639A (zh) * 2016-05-30 2016-11-09 中国农业银行股份有限公司 一种集群亚健康预警方法及系统
CN106873571A (zh) * 2017-02-10 2017-06-20 泉州装备制造研究所 一种基于数据和模型融合的预警方法
CN106980906A (zh) * 2017-03-19 2017-07-25 国网福建省电力有限公司 一种基于spark的Ftrl电压预测方法
CN108900358A (zh) * 2018-08-01 2018-11-27 重庆邮电大学 基于深度信念网络资源需求预测的虚拟网络功能动态迁移方法
CN109376413A (zh) * 2018-10-08 2019-02-22 四川大学 基于数据驱动的在线神经网络故障诊断方法
CN109359385A (zh) * 2018-10-17 2019-02-19 网宿科技股份有限公司 一种服务质量评估模型的训练方法及装置
CN109614231A (zh) * 2018-12-04 2019-04-12 广东亿迅科技有限公司 空闲服务器资源发现方法、装置、计算机设备和存储介质
CN109492826A (zh) * 2018-12-06 2019-03-19 远光软件股份有限公司 一种基于机器学习的信息系统运行状态风险预测方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113127542A (zh) * 2021-05-06 2021-07-16 郑州航空工业管理学院 一种数据异常分析方法和装置
CN114841843A (zh) * 2022-04-15 2022-08-02 广州天长信息技术有限公司 一种分析可疑绿通车的方法和系统
CN115499344A (zh) * 2022-08-25 2022-12-20 鹏城实验室 一种网络流量实时预测方法及系统
CN115499344B (zh) * 2022-08-25 2024-03-19 鹏城实验室 一种网络流量实时预测方法及系统
CN115664939A (zh) * 2022-12-28 2023-01-31 中国电子科技集团公司第十五研究所 一种基于自动化技术的综合运维方法、装置和存储介质
CN115664939B (zh) * 2022-12-28 2023-06-02 中国电子科技集团公司第十五研究所 一种基于自动化技术的综合运维方法和存储介质

Also Published As

Publication number Publication date
CN111638988B (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
CN111638988A (zh) 一种基于深度学习的云主机故障智能预测方法
CN106446540B (zh) 一种风电机组健康状态实时评估方法
CN107169628B (zh) 一种基于大数据互信息属性约简的配电网可靠性评估方法
WO2023024259A1 (zh) 基于数字孪生的局部放电监测系统、方法和装置
CN110095744A (zh) 一种电子式互感器误差预测方法
CN108052528A (zh) 一种存储设备时序分类预警方法
CN111459700A (zh) 设备故障的诊断方法、诊断装置、诊断设备及存储介质
CN105488539B (zh) 分类模型的生成方法及装置、系统容量的预估方法及装置
CN108683658B (zh) 基于多rbm网络构建基准模型的工控网络流量异常识别方法
CN112379325A (zh) 一种用于智能电表的故障诊断方法及系统
CN116821646A (zh) 数据处理链构建方法、数据缩减方法、装置、设备及介质
CN114266289A (zh) 一种复杂装备健康状态评估方法
CN111796233A (zh) 双母线接线形式下多台电压互感器继发性误差的评估方法
CN110766236A (zh) 基于统计分析和深度学习的电力设备状态趋势预测方法
CN114325405A (zh) 电池组一致性分析方法、建模方法、装置、设备及介质
CN111723862A (zh) 开关柜状态评估方法和装置
CN114637263A (zh) 一种异常工况实时监测方法、装置、设备及存储介质
CN104573361A (zh) 一种gis设备评估的方法和装置
CN116149895A (zh) 大数据集群性能预测方法、装置和计算机设备
CN111198979A (zh) 一种用于对输变电可靠性评估大数据进行清洗的方法及系统
CN110415136B (zh) 一种电力调度自动化系统服务能力评估系统与方法
CN114896024B (zh) 基于核密度估计的虚拟机运行状态检测方法和装置
CN116361628A (zh) 基于vfd房的故障类别智能分析方法及装置
CN116245212A (zh) 基于pca-lstm的电力数据异常检测与预测方法及系统
CN114565004A (zh) 一种风电机组功率曲线异常散点剔除方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20200908

Assignee: Shanghai jianeng Intelligent Technology Co.,Ltd.

Assignor: Shanghai Gala Information Technology Co.,Ltd.

Contract record no.: X2023310000016

Denomination of invention: An Intelligent Prediction Method of Virtual Machine Fault Based on Deep Learning

License type: Common License

Record date: 20230215

GR01 Patent grant
GR01 Patent grant