CN115423041A - 一种基于深度学习的边缘云故障预测方法及系统 - Google Patents

一种基于深度学习的边缘云故障预测方法及系统 Download PDF

Info

Publication number
CN115423041A
CN115423041A CN202211204876.9A CN202211204876A CN115423041A CN 115423041 A CN115423041 A CN 115423041A CN 202211204876 A CN202211204876 A CN 202211204876A CN 115423041 A CN115423041 A CN 115423041A
Authority
CN
China
Prior art keywords
fault
model
probability
self
cpu
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211204876.9A
Other languages
English (en)
Inventor
李星星
张青青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pplabs Network Technology Shanghai Co ltd
Original Assignee
Pplabs Network Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pplabs Network Technology Shanghai Co ltd filed Critical Pplabs Network Technology Shanghai Co ltd
Priority to CN202211204876.9A priority Critical patent/CN115423041A/zh
Publication of CN115423041A publication Critical patent/CN115423041A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于深度学习的边缘云故障预测方法及系统,包括:收集边缘云设备故障信息,构建故障特征样本;利用无监督学习法对故障特征样本中的非故障数据进行训练,得到CPU故障自编码模型、设备故障自编码模型、内存故障自编码模型以及网络故障自编码模型,利用平均绝对误差计算样本产生CPU故障、设备故障、内存故障及网络故障的概率;对所有故障概率序列化,同时对故障特征样本进行特征工程处理得到故障特征向量,利用LSTM网络模型、DeepAR模型和线性分类器构建用于预测故障向量的故障时序预测模型;利用FM模型对故障向量进行训练,获取设备是否发生故障。本发明更能挖掘高风险设备故障的特征,解决了召回率不高的问题。

Description

一种基于深度学习的边缘云故障预测方法及系统
技术领域
本发明属于故障预测技术领域,具体涉及一种基于深度学习的边缘云故障预测方法及系统,可以应用到边缘云场景,而且能复用到中心云、IDC、CDN、终端设备等多个场景。
背景技术
随着万物互联时代的到来以及5G通信网络普及,互联网数据规模呈现指数级增长。此背景下,传统的云计算的中心化架构已经无法满足终端用户对于时效、容量、算力的需求。边缘云的超低时延、海量数据、边缘智能等特性促使更多的企业选择边缘云技术方案,也使得边缘云计算在市场中成为构筑在中心云与终端之间的重要组成。边缘云对比中心云,不仅有着因特网、以太网、5G、WIFI等复杂形态的网络构成,而且硬件节点具有形态众多、硬件配置多样性等特点。这种复杂的边缘云构成也就导致边缘云设备相对中心云等不仅往往有着更高的故障率,而且故障的发生往往有着更多的外部因素。在边缘云的运维管理部署中,对设备故障率的准确判定预测,不仅对边缘云的服务稳定性起着至关重要的作用,而且对边缘云服务商的市场盈利有着非常重要的作用。
现有的故障预测技术一般基于有监督的分类或者时序预测等相关的预测技术,解决不了边缘云环境复杂、业务多变的实际场景,同时具有以下缺点:能够预测的场景相对单一,无法适应边缘云设备部署的地域、部署的业务、人口、时空等等各种复杂多变的场景;模型对故障设备的召回率不高,其原因为在大部分场景下硬件设备发生故障的概率往往较低,因此在实际采集的数据中存在非常明显的正负不均衡现象,这也就导致大部分模型并不能真正解决对设备发生故障的真实预测;优化目标相对单一,基于分类模型在预测不同硬件设备发生故障概率的时候往往是分成多个模型训练或者转化成多分类进行训练,这种做法并不能考虑各个优化目标之间的关联关系;无法解决部分风险爆发导致的级连效应,单纯的分类模型对级连效应并不敏感,或者说对部分突发信息带来的后果并没有一个量化标准。
发明内容
针对以上问题,本发明提出了一种基于深度学习的边缘云故障预测方法及系统,不仅能预测出设备以及设备上各个硬件发生的故障概率,而且能对各个设备在不同地域、业务下的非硬件场景进行故障预测,如网络掉线率等。为解决以上技术问题,本发明所采用的技术方案如下:
一种基于深度学习的边缘云故障预测方法,包括如下步骤:
S1,收集边缘云设备的故障信息,构建故障特征样本;
S2,利用无监督学习方法对步骤S1得到的故障特征样本中的非故障数据进行拓展训练,得到CPU故障自编码模型、设备故障自编码模型、内存故障自编码模型以及网络故障自编码模型,利用平均绝对误差计算故障特征样本中每个样本产生CPU故障的概率、产生设备故障的概率、产生内存故障的概率以及产生网络故障的概率;
S3,对所有故障自编码模型输出的故障概率分别进行序列化,同时对步骤S1中的故障特征样本进行特征工程处理得到故障特征向量F,利用LSTM网络模型、DeepAR模型和线性分类器构建用于预测故障向量的故障时序预测模型;
S4,利用FM模型对步骤S3得到的故障向量进行判定训练,获取设备是否会发生故障。
在步骤S1中,所述故障特征样本包括设备ID、业务ID、设备特征、业务特征、故障日期、CPU是否故障、内存是否故障、网络是否故障、设备是否故障。
所述步骤S2包括如下步骤:
S2.1,从故障特征样本中筛选出非CPU故障的数据标记为正样本,利用多元高斯分布对正样本进行过滤;
S2.2,利用自编码模型对过滤后的非CPU故障数据进行训练优化得到用于预测CPU故障概率的CPU故障自编码模型;
S2.3,将步骤S1的故障特征样本输入CPU故障自编码模型进行测试,根据输入的非CPU故障数据的向量长度和模型输出的向量长度计算平均绝对误差,对所有平均绝对误差进行归一化得到故障特征样本产生CPU故障的概率;
S2.4,按照步骤S2.1-S2.3的方法构建设备故障自编码模型、内存故障自编码模型和网络故障自编码模型,并计算故障特征样本中每个样本产生设备故障的概率、产生内存故障的概率以及产生网络故障的概率。
在步骤S2.1中,所述利用多元高斯分布对正样本进行过滤是指将每个样本的十分位数的密度概率p(x)作为阈值ξ,过滤掉p(x)<ξ的异常数据,密度概率p(x)的计算公式为:
Figure BDA0003870732780000021
式中,μ表示均值,m表示样本数量,x表示样本,∑表示协方差。
在步骤S2.2中,所述自编码模型的隐含层为三层,三层网络的节点数量分别为<64,32,64>。
所述步骤S3包括如下步骤:
S3.1,对步骤S2得到的所有故障概率分别进行序列化,得到CPU故障概率序列、内存故障概率序列、网络故障概率序列和设备故障概率序列,将所有故障概率序列与历史故障概率进行拼接得到全量故障概率序列;
S3.2,对步骤S1中的故障特征样本进行特征工程处理得到故障特征向量F,利用故障特征向量F和故障特征样本对全量故障概率序列进行更新;
S3.3,根据故障类型对更新后的全量故障概率序列分别进行截取,将截取后的序列数据分别输入LSTM模型进行训练得到LSTM_CPU模型、LSTM_内存模型和LSTM_网络模型,同时利用更新后的全量故障概率序列输入DeepAR模型进行优化训练得到故障分布预测模型;
S3.4,将步骤S3.3得到的所有模型进行拼接得到故障时序预测模型,并利用线性分类器对故障时序预测模型输出的故障向量进行训练得到故障向量中每个维度向量的权重。
在步骤S3.3中,所述LSTM_CPU模型、LSTM_内存模型和LSTM_网络模型的模型结构均包括依次连接的第一LSTM、第二LSTM、第三LSTM、Dropout层和全连接层。
在步骤S4中,所述判定公式为:
Figure BDA0003870732780000031
式中,y表示故障分类目标值,w0表示偏差,wi表示模型输入向量中第i个位置的向量的权重,xi表示模型输入向量中第i个位置的向量值,n表示模型输入向量的长度,vif表示xi的隐向量中第j个位置的向量值,k表示预设的隐向量的长度。
一种基于深度学习的边缘云故障预测系统,包括
样本采集模块:用于收集边缘云设备的故障信息,根据故障信息构建故障特征样本;
故障自编码模型建立模块:用于基于无监督学习方法对故障特征样本中的非故障数据进行训练,构建CPU故障自编码模型、设备故障自编码模型、内存故障自编码模型以及网络故障自编码模型;
故障概率计算模块:用于根据故障特征样本的对应输入向量和CPU故障自编码模型、设备故障自编码模型、内存故障自编码模型以及网络故障自编码模型的输出向量计算平均绝对误差,并根据平均绝对误差获取CPU故障的概率、产生设备故障的概率、产生内存故障的概率以及产生网络故障的概率;
故障时序预测模型构建模块:用于对故障特征样本进行特征工程处理获取故障特征向量,并基于序列化后的CPU故障概率、设备故障概率、内存故障概率以及网络故障概率,利用LSTM网络模型、DeepAR模型和线性分类器构建用于预测故障向量的故障时序预测模型;故障预测模块:用于基于FM模型对故障时序预测模型构建模块输出的故障向量和权重进行判定训练,获取边缘云设备的故障信息。
本发明的有益效果:
本申请在故障预测的时候充分利用各种多纬度特征数据将各种场景因子带来对影响给予充分考虑;通过自编码器将故障样本非常少的分类问题转化成了样本众多的概率预测问题。在分类转化为概率的过程中,充分考虑各种场景因子的影响,更能去挖掘高风险设备故障的特征,解决了故障设备召回率不高的问题;通过多目标预测算法能更好的衡量设备中各个硬件故障的预测目标权重以及相关关系;通过自编码器、时序预测、FM等多个组合算法,不仅能解决风险爆发导致的级连效应等问题,而且对时空变化带来的不确定因素能更好的解决。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的流程示意图。
图2为故障时序预测模型的结构示意图。
图3为FM模型训练流产示意图
图4为LSTM_CPU模型的训练效果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
自编码器模型,也称Auto-Encoder模型,是一种基于反向传播算法与最优化方法的神经网络算法,分成编码器(Encoder)和解码器(Decoder)两个部分。DeepAR,DeepAR是亚马逊提出的一种针对大量相关时间序列统一建模的预测算法,该算法采用了深度学习技术,通过在大量时间序列上训练自回归递归网络模型,可以从相关的时间序列中有效地学习全局模型,并且能够学习复杂的模式,例如季节性、数据随时间的不确定性增长,从而对各条时间序列进行预测。长短期记忆网络(LSTM,Long Short-Term Memory)是一种时间循环神经网络,是为了解决一般的循环神经网络(RNN)存在的长期依赖问题而专门设计,所有的RNN都具有一种重复神经网络模块的链式形式。在标准RNN中,这个重复的结构模块只有一个非常简单的结构,例如一个tanh层。FM,FM(Factorization Machine)算法可进行回归和二分类预测,它的特点是考虑了特征之间的相互作用,是一种非线性模型。
实施例1:一种基于深度学习的边缘云故障预测方法,如图1所示,包括如下步骤:
S1,收集边缘云设备的故障信息,构建故障特征样本,包括如下步骤:
S1.1,采集每个边缘云设备的设备基础数据、设备上运行的业务基础数据、设备故障数据和历史监控数据;
所述边缘云硬件的设备基础数据包括设备ID和设备特征数据,设备特征数据包括CPU型号、CPU数量、CPU出厂日期、内存大小、磁盘大小、hdd磁盘数量、ssd磁盘数量、hdd磁盘平均磁盘iops、ssd磁盘平均iops、设备所在地域、设备所在城市、设备运营商(移动、联通或电信等)等。
业务基础数据包括业务ID和业务特征数据,业务特征数据包括业务前一天流量、业务部署节点数量、业务部署节点前一天平均流量等。
设备故障数据包括故障日期、CPU是否故障、内存是否故障、网络是否故障、设备是否故障、故障发生时对应的业务ID及设备ID等。
历史监控数据包括设备ID、CPU95使用率、内存95使用率、带宽95使用率、网络掉线率等。所有采集数据均通过数据库、log4j等工具采集。
S1.2,利用步骤S1.1得到的数据构建故障状态样本;
所述故障状态样本包括设备ID、业务ID、故障日期、CPU是否故障、内存是否故障、网络是否故障、设备是否故障。比如,故障状态样本例为{device_id=‘dfweropjp’、buss_id=‘kuaishou’、dt=‘20220101’、is_cpu_bad=0、is_memory_bad=0、is_band_bad=0、is_bad=0}表示设备号’=‘dfweropjp’、‘业务id’=‘kuaishou’、‘日期’=‘20220101’、‘cpu是否故障’=0、‘内存是否故障’=0、‘网络是否故障’=0、‘设备是否故障’=0。
S1.3,将步骤S1.2构建的故障状态样本与步骤S1.1中的数据进行关联形成故障特征样本;
所述故障特征样本包括设备ID、业务ID、设备特征、业务特征、故障日期、CPU是否故障、内存是否故障、网络是否故障、设备是否故障。比如,{‘设备ID’=dfweropjp、‘业务ID’=‘kuaishou’、‘设备特征’=[设备id,cpu型号,cpu数量,cpu出厂日期,内存大小,磁盘大小,磁盘数量,hdd磁盘数量,ssd磁盘数量,hdd磁盘平均磁盘iops,ssd磁盘平均iops,设备所在省份,设备所在城市,设备运营商]、‘业务特征’=[业务id,业务前一天流量,业务部署节点数量,业务部署节点前一天平均流量]、‘故障日期’=‘20220101’、‘cpu是否故障’=0、‘内存是否故障’=0、‘网络是否故障’=0、‘设备是否故障’=0}。
S2,利用无监督学习方法对步骤S1得到的故障特征样本中的非故障数据进行拓展训练,得到CPU故障自编码模型、设备故障自编码模型、内存故障自编码模型以及网络故障自编码模型,利用平均绝对误差计算故障特征样本中每个样本产生CPU故障的概率、产生设备故障的概率、产生内存故障的概率以及产生网络故障的概率,包括如下步骤:
S2.1,从故障特征样本中筛选出非CPU故障的数据标记为正样本,利用多元高斯分布对正样本进行过滤;
所述筛选出非CPU故障的数据也即将‘cpu是否故障’字段中等于0的数据过滤出来,然后利用多元高斯分布对异常值进行过滤,具体地,设置每个样本的十分位数的密度概率p(x)作为阈值ξ,过滤掉p(x)<ξ的异常数据,通过过滤掉异常数据可以进一步提高S2.2中自编码器模型的准确度,使均方根误差(Root Mean Square Error,RMSE)从0.043降低到0.039左右,使自编码的均方差(Mean squared error,MSE)指标有1.5%的指标提升。
所述多元高斯分布的参数的公式为:
Figure BDA0003870732780000061
Figure BDA0003870732780000062
Figure BDA0003870732780000063
式中,μ表示均值,m表示样本数量,xk表示第k个样本,∑表示协方差,p(x)表示样本x的密度概率。
S2.2,利用自编码模型对过滤后的非CPU故障数据进行训练得到用于预测CPU故障概率的CPU故障自编码模型;
所述故障特征样本中除cpu型号、设备所在省份、设备所在城市、设备运营商和业务id这些属于分类数据外,其它均属于非分类数据。首先对步骤S2.1得到的过滤后的非CPU故障数据中的分类数据进行one-hot编码,然后将one-hot编码后的分类数据与过滤后的非CPU故障数据中的非分类数据进行拼接,即可将输入数据转化为长度为138的向量,然后利用该向量进行训练即可。
所述自编码模型的隐含层为三层,三层网络的节点数量分别为<64,32,64>,最后一层为138节点的输出,同时将均方差作为自编码模型的损失函数,模型最终输出为一个138长度的向量。通过实验进行验证,对比其它节点配置有着相对0.07%的平均绝对误差(Mean Absolute Error,MAE)指标提升。
S2.3,将步骤S1的故障特征样本输入CPU故障自编码模型进行测试,根据输入的非CPU故障数据的向量长度和模型输出的向量长度计算平均绝对误差,对所有平均绝对误差进行归一化得到故障特征样本产生CPU故障的概率;
故障特征样本为全量数据也即包含故障数据以及非故障数据,CPU故障自编码模型为输出为138长度的向量,通过将输入与输出的138长度向量进行MAE计算,MAE越高的数据,其CPU故障率就越高。最后对所有MAE数据进行归一化操作,即可得到所有数据产生CPU故障的概率。
因为自编码器模型训练的时候均为非CPU故障数据,同时采用损失函数为输入与输出的138长度向量的mse值对模型进行训练,所以自编码器模型学习的是非CPU故障数据的数据表现特征。同样,因为对于CPU故障数据没有进行学习,所以其mse值相对偏高。在非CPU故障数据通过自编码器模型进行推理的时候,其所生成的向量与输入向量的MAE值趋近为0。同理,CPU故障数据通过自编码器模型进行推理,其所生成的向量其与输入向量的MAE值就会越大。
S2.4,按照步骤S2.1-S2.3的方法构建设备故障自编码模型、内存故障自编码模型和网络故障自编码模型,并计算故障特征样本中每个样本产生设备故障的概率、产生内存故障的概率以及产生网络故障的概率;
通过多个故障自编码器模型依次对步骤1.3的全量数据进行推理运算,可以得到全量数据的设备故障概率、CPU故障概率、内存故障概率、网络故障概率。各个模型依据全量数据进行推理,不仅可以把潜在的、高风险发生故障进行数据量化,而且可以对导致故障的因子进行挖掘,从而最终使故障的判定更加准确,解决了故障设备较少所导致的传统分类方法无法对设备故障做出较好的预测的问题。
S3,对步骤S2得到的所有故障概率进行序列化,同时对步骤S1.3中的故障特征样本进行特征工程处理得到故障特征向量F,利用LSTM网络模型、DeepAR模型和线性分类器构建故障时序预测模型,包括如下步骤:
S3.1,对步骤s2得到的所有故障概率分别进行序列化,得到CPU故障概率序列、内存故障概率序列、网络故障概率序列和设备故障概率序列,将所有故障概率序列与历史故障概率进行拼接得到全量故障概率序列;
所述全量故障概率序列包括历史故障概率和当前故障概率,通过数据拼接最终得到如下数据:全量故障概率序列ARR={x,y},其中,x=[[cpu故障概率、内存故障概率、设备故障概率、网络故障概率],[cpu故障概率、内存故障概率、设备故障概率、网络故障概率],......,[cpu故障概率、内存故障概率、设备故障概率、网络故障概率]],均为步骤S2计算出的历史故障概率,y=[[cpu故障概率、内存故障概率、设备故障概率、网络故障概率]]为一组通过步骤S2计算出的当前预测故障概率。
S3.2,对步骤S1.3中的故障特征样本进行特征工程处理得到故障特征向量F,利用故障特征向量F和故障特征样本对全量故障概率序列进行更新;
所述特征工程处理包括特征选择、分桶、离散化、embedding等操作,最终得到利于深度模型训练的一个长度为561的特征向量。比如,利用卡方进行特征选择,可以将故障日期等影响模型准确度的特征去掉;通过分桶操作,可以将CPU数量、内存大小等量化数据分割成不同的区间,最终加速模型的训练过程;通过对[cpu型号、设备所在省份、设备所在城市、设备运营商、业务id]分类数据进行one-hot编码,可以将模型无法理解的分类转化成编码;通过embedding对业务id和设备id这两个id类属性进行embedding操作,可以提升大约3%的模型准确度。本实施例中,特征工程处理中的各操作均为现有技术,本申请不再详述。
将故障特征向量F对应地加入全量故障概率序列中,最终生成更新后的全量故障概率序列ARR’={x’,y’},其中,x’=[[cpu故障概率、内存故障概率、设备故障概率、网络故障概率、故障特征向量F],[cpu故障概率、内存故障概率、设备故障概率、网络故障概率、故障特征向量F],......,[cpu故障概率、内存故障概率、设备故障概率、网络故障概率、故障特征向量F]],y’=[[cpu故障概率、内存故障概率、设备故障概率、网络故障概率,设备是否故障]],其中,y’中的“设备是否故障”通过对比故障特征样本得到,也即故障特征样本中“设备是否故障”为0时,该数据即为0,“设备是否故障”为1时,该数据即为1。
S3.3,根据故障类型对更新后的全量故障概率序列分别进行截取,将截取后的序列数据分别输入LSTM模型进行训练得到LSTM_CPU模型、LSTM_内存模型和LSTM_网络模型,同时利用更新后的全量故障概率序列输入DeepAR模型进行优化训练得到故障分布预测模型;
LSTM_CPU模型、LSTM_内存模型和LSTM_网络模型三个模型的输入均通过更新后的全量故障概率序列中各个故障类型的分布位置进行截取得到,比如,LSTM_CPU模型的输入为:input_cpu={x”=[[cpu故障概率],[cpu故障概率],......,[cpu故障概率]],y”=[[cpu故障概率]]}
本实施例中,LSTM_CPU模型结构如下:
层级 类型 节点数量 激活函数
第一层 LSTM 32 tanh
第二层 LSTM 64 tanh
第三层 LSTM 32 tanh
第四层 Dropout 丢弃输入比例0.19
第五层 全连接层 1 relu
如图4所示,为LSTM_CPU模型的训练效果图。LSTM_内存模型、LSTM_网络模型和LSTM_设备模型的模型结构同LSTM_CPU模型的结构。
DeepAR模型的输入为全部的更新后的全量故障概率序列,输出为长度为4的向量,即分别代表着CPU故障概率、内存故障概率、设备故障概率、网络故障概率,同时利用均方误差(Mean Square Error,MSE)作为损失函数对DeepAR模型进行优化,相对比四个LSTM模型加入了故障特征向量F这个协变量因子,所以能更好的拟合外部因子对故障的影响。
S3.4,如图2所示,将步骤S3.3得到的所有模型进行拼接得到故障时序预测模型,并利用线性分类器对故障时序预测模型输出的故障向量进行训练得到故障向量中每个维度向量的权重;
由于DeepAR模型的输出为长度为4的向量,即cpu故障概率、内存故障概率、设备故障概率、网络故障概率,LSTM_CPU模型、LSTM_内存模型和LSTM_网络模型分别输出长度为1的向量,因此,四个模型的输出进行拼接,最终得到一个长度为7的向量V_model。
本实施例中,所述线性分类器为sigmoid。将向量V_model与y=[[设备是否故障]]进行sigmoid函数分类器训练,最终通过sigmoid函数分类器可以得到设备是否故障的判定,同时也能获得向量V_model对应的7个向量维度的权重。通过拼接加上sigmoid方法可以更好的训练出各个子网络的权重以及参数,能挖掘出潜在的高风险异常数据对最终设备故障的影响。
S4,如图3所示,利用FM模型对步骤S3得到的故障向量进行判定训练,最终得到设备是否会发生故障;
所述判定公式为:
Figure BDA0003870732780000091
式中,y表示分类目标值,当y=0时,表示无故障,当y=1时,表示故障,w0表示偏差,wi表示模型输入向量中第i个位置的向量的权重,xi表示模型输入向量中第i个位置的向量值,n表示模型输入向量的长度,vif表示xi的隐向量中第j个位置的向量值,k表示预设的隐向量的长度。
FM算法相对比sigmoid方法而言,加入了二阶交叉部分的内容,相当于更好的能评估出各个部件故障概率在组合情况下对整体故障的影响,也就能更好的挖掘出部分风险爆发导致的级连效应。例如,sigmoid方法只能挖掘出cpu故障风险概率相对内存故障风险概率对设备故障产生的影响更大。FM算法则不仅能挖掘出cpu故障风险概率的权重大小,而且能够挖掘出cpu故障风险概率与内存故障风险概率都发生情况下对整体故障的影响。在实际的场景中,设备发生概率往往不仅仅是单个部件的影响,如cpu故障风险较高的时候,其网络稳定性也会有着较大的波动。
通过FM模型进行最终的分类判定,相对Sigmoid函数输出概率或者LR等算法,通过实际数据验证其AUC评价指标能提升3.7%左右。总之,通过以上的自编码器、时序预测、FM等多种算法在设备故障预测场景的应用,能够更加准确的对设备故障进行预测。通过这种方法也能解决常规算法中无法解决的诸如不确定因子、级连效应等业务问题。
实施例2:一种基于深度学习的边缘云故障预测系统,包括:
样本采集模块:用于收集边缘云设备的故障信息,根据故障信息构建故障特征样本;
故障自编码模型建立模块:用于基于无监督学习方法对故障特征样本中的非故障数据进行训练,构建CPU故障自编码模型、设备故障自编码模型、内存故障自编码模型以及网络故障自编码模型;
故障概率计算模块:用于根据故障特征样本的对应输入向量和CPU故障自编码模型、设备故障自编码模型、内存故障自编码模型以及网络故障自编码模型的输出向量计算平均绝对误差,并根据平均绝对误差获取CPU故障的概率、产生设备故障的概率、产生内存故障的概率以及产生网络故障的概率;
故障时序预测模型构建模块:用于对故障特征样本进行特征工程处理获取故障特征向量,并基于序列化后的CPU故障概率、设备故障概率、内存故障概率以及网络故障概率,利用LSTM网络模型、DeepAR模型和线性分类器构建用于预测故障向量的故障时序预测模型;
故障预测模块:用于基于FM模型对故障时序预测模型构建模块输出的故障向量和权重进行判定训练,获取边缘云设备的故障信息。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于深度学习的边缘云故障预测方法,其特征在于,包括如下步骤:
S1,收集边缘云设备的故障信息,构建故障特征样本;
S2,利用无监督学习方法对步骤S1得到的故障特征样本中的非故障数据进行拓展训练,得到CPU故障自编码模型、设备故障自编码模型、内存故障自编码模型以及网络故障自编码模型,利用平均绝对误差计算故障特征样本中每个样本产生CPU故障的概率、产生设备故障的概率、产生内存故障的概率以及产生网络故障的概率;
S3,对所有故障自编码模型输出的故障概率分别进行序列化,同时对步骤S1中的故障特征样本进行特征工程处理得到故障特征向量F,利用LSTM网络模型、DeepAR模型和线性分类器构建用于预测故障向量的故障时序预测模型;
S4,利用FM模型对步骤S3得到的故障向量进行判定训练,获取设备是否会发生故障。
2.根据权利要求1所述的基于深度学习的边缘云故障预测方法,其特征在于,在步骤S1中,所述故障特征样本包括设备ID、业务ID、设备特征、业务特征、故障日期、CPU是否故障、内存是否故障、网络是否故障、设备是否故障。
3.根据权利要求1所述的基于深度学习的边缘云故障预测方法,其特征在于,所述步骤S2包括如下步骤:
S2.1,从故障特征样本中筛选出非CPU故障的数据标记为正样本,利用多元高斯分布对正样本进行过滤;
S2.2,利用自编码模型对过滤后的非CPU故障数据进行训练优化得到用于预测CPU故障概率的CPU故障自编码模型;
S2.3,将步骤S1的故障特征样本输入CPU故障自编码模型进行测试,根据输入的非CPU故障数据的向量长度和模型输出的向量长度计算平均绝对误差,对所有平均绝对误差进行归一化得到故障特征样本产生CPU故障的概率;
S2.4,按照步骤S2.1-S2.3的方法构建设备故障自编码模型、内存故障自编码模型和网络故障自编码模型,并计算故障特征样本中每个样本产生设备故障的概率、产生内存故障的概率以及产生网络故障的概率。
4.根据权利要求3所述的基于深度学习的边缘云故障预测方法,其特征在于,在步骤S2.1中,所述利用多元高斯分布对正样本进行过滤是指将每个样本的十分位数的密度概率p(x)作为阈值ξ,过滤掉p(x)<ξ的数据,密度概率p(x)的计算公式为:
Figure FDA0003870732770000011
式中,μ表示均值,m表示样本数量,x表示样本,∑表示协方差。
5.根据权利要求3所述的基于深度学习的边缘云故障预测方法,其特征在于,在步骤S2.2中,所述自编码模型的隐含层为三层,三层网络的节点数量分别为<64,32,64>。
6.根据权利要求1所述的基于深度学习的边缘云故障预测方法,其特征在于,所述步骤S3包括如下步骤:
S3.1,对步骤S2得到的所有故障概率分别进行序列化,得到CPU故障概率序列、内存故障概率序列、网络故障概率序列和设备故障概率序列,将所有故障概率序列与历史故障概率进行拼接得到全量故障概率序列;
S3.2,对步骤S1中的故障特征样本进行特征工程处理得到故障特征向量F,利用故障特征向量F和故障特征样本对全量故障概率序列进行更新;
S3.3,根据故障类型对更新后的全量故障概率序列分别进行截取,将截取后的序列数据分别输入LSTM模型进行训练得到LSTM_CPU模型、LSTM_内存模型和LSTM_网络模型,同时利用更新后的全量故障概率序列输入DeepAR模型进行优化训练得到故障分布预测模型;
S3.4,将步骤S3.3得到的所有模型进行拼接得到故障时序预测模型,并利用线性分类器对故障时序预测模型输出的故障向量进行训练得到故障向量中每个维度向量的权重。
7.根据权利要求6所述的基于深度学习的边缘云故障预测方法,其特征在于,在步骤S3.3中,所述LSTM_CPU模型、LSTM_内存模型和LSTM_网络模型的模型结构均包括依次连接的第一LSTM、第二LSTM、第三LSTM、Dropout层和全连接层。
8.根据权利要求1所述的基于深度学习的边缘云故障预测方法,其特征在于,在步骤S4中,所述判定公式为:
Figure FDA0003870732770000021
式中,y表示故障分类目标值,w0表示偏差,wi表示模型输入向量中第i个位置的向量的权重,xi表示模型输入向量中第i个位置的向量值,n表示模型输入向量的长度,vif表示xi的隐向量中第j个位置的向量值,k表示预设的隐向量的长度。
9.一种基于深度学习的边缘云故障预测系统,其特征在于,包括:
样本采集模块:用于收集边缘云设备的故障信息,根据故障信息构建故障特征样本;
故障自编码模型建立模块:用于基于无监督学习方法对故障特征样本中的非故障数据进行训练,构建CPU故障自编码模型、设备故障自编码模型、内存故障自编码模型以及网络故障自编码模型;
故障概率计算模块:用于根据故障特征样本的对应输入向量和CPU故障自编码模型、设备故障自编码模型、内存故障自编码模型以及网络故障自编码模型的输出向量计算平均绝对误差,并根据平均绝对误差获取CPU故障的概率、产生设备故障的概率、产生内存故障的概率以及产生网络故障的概率;
故障时序预测模型构建模块:用于对故障特征样本进行特征工程处理获取故障特征向量,并基于序列化后的CPU故障概率、设备故障概率、内存故障概率以及网络故障概率,利用LSTM网络模型、DeepAR模型和线性分类器构建用于预测故障向量的故障时序预测模型;
故障预测模块:用于基于FM模型对故障时序预测模型构建模块输出的故障向量和权重进行判定训练,获取边缘云设备的故障信息。
CN202211204876.9A 2022-09-29 2022-09-29 一种基于深度学习的边缘云故障预测方法及系统 Pending CN115423041A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211204876.9A CN115423041A (zh) 2022-09-29 2022-09-29 一种基于深度学习的边缘云故障预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211204876.9A CN115423041A (zh) 2022-09-29 2022-09-29 一种基于深度学习的边缘云故障预测方法及系统

Publications (1)

Publication Number Publication Date
CN115423041A true CN115423041A (zh) 2022-12-02

Family

ID=84206276

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211204876.9A Pending CN115423041A (zh) 2022-09-29 2022-09-29 一种基于深度学习的边缘云故障预测方法及系统

Country Status (1)

Country Link
CN (1) CN115423041A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116192608A (zh) * 2023-01-18 2023-05-30 北京百度网讯科技有限公司 云手机故障预测方法、装置以及设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116192608A (zh) * 2023-01-18 2023-05-30 北京百度网讯科技有限公司 云手机故障预测方法、装置以及设备

Similar Documents

Publication Publication Date Title
CN110995475B (zh) 一种基于迁移学习的电力通信网故障检测方法
CN111105104A (zh) 一种基于相似日和rbf神经网络的短期电力负荷预测方法
CN113033643B (zh) 基于带权重采样的概念漂移检测方法、系统及电子设备
CN112149898B (zh) 故障率预测模型的训练、故障率预测方法及相关装置
CN105550100A (zh) 一种信息系统故障自动恢复的方法及系统
CN109872003A (zh) 对象状态预测方法、系统、计算机设备及存储介质
CN105471647A (zh) 一种电力通信网故障定位方法
CN116468186B (zh) 一种航班链延误时间预测方法、电子设备及存储介质
CN112363896A (zh) 日志异常检测系统
CN113759868A (zh) 一种基于神经网络的工业以太网故障预测方法
CN111027591B (zh) 一种面向大规模集群系统的节点故障预测方法
CN115423041A (zh) 一种基于深度学习的边缘云故障预测方法及系统
Nagaraj et al. Glass: A graph learning approach for software defined network based smart grid ddos security
CN113469457B (zh) 融合注意力机制的输电线路故障概率预测方法
CN113837473A (zh) 基于bp神经网络的充电设备故障率分析系统和方法
CN117674119A (zh) 电网运行风险评估方法、装置、计算机设备和存储介质
CN112949201A (zh) 一种风速预测方法、装置、电子设备及存储介质
CN116151799A (zh) 一种基于bp神经网络的配电线路多工况故障率快速评估方法
CN111984514A (zh) 基于Prophet-bLSTM-DTW的日志异常检测方法
CN116415724A (zh) 一种光伏电站运维检修时间的预测方法及装置
CN116521495A (zh) 一种基于强化学习的系统性能瓶颈检测方法
CN113821401A (zh) 基于wt-ga-gru模型的云服务器故障诊断方法
Mijumbi et al. MAYOR: machine learning and analytics for automated operations and recovery
CN112561133A (zh) 一种基于神经网络的水流量预测系统和方法
Feizimirkhani et al. Application of Long Short-Term Memory (LSTM) Neural Network for the estimation of communication network delay in smart grid applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination