CN117370060A - 基于云边协同的业务故障自动定位方法、系统及存储介质 - Google Patents

基于云边协同的业务故障自动定位方法、系统及存储介质 Download PDF

Info

Publication number
CN117370060A
CN117370060A CN202311346920.4A CN202311346920A CN117370060A CN 117370060 A CN117370060 A CN 117370060A CN 202311346920 A CN202311346920 A CN 202311346920A CN 117370060 A CN117370060 A CN 117370060A
Authority
CN
China
Prior art keywords
fault
cloud
service
edge
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311346920.4A
Other languages
English (en)
Inventor
田歆
李理
冯晓文
单周平
易衍孜
喻理文
覃勇杰
彭赞
左超军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Hunan Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Hunan Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Hunan Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Hunan Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Hunan Electric Power Co Ltd, Information and Telecommunication Branch of State Grid Hunan Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202311346920.4A priority Critical patent/CN117370060A/zh
Publication of CN117370060A publication Critical patent/CN117370060A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Economics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Computer Hardware Design (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Water Supply & Treatment (AREA)
  • Public Health (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于云边协同的业务故障自动定位方法,包括实时获取目标电力系统的云边协同业务的运行数据输入到故障预测模型得到故障预测结果,进行故障预警;根据故障类型确认故障所对应的层级分类;对故障进行定位,完成基于云边协同的业务故障自动定位。本发明还公开了一种实现所述基于云边协同的业务故障自动定位方法的系统,以及一种包括了所述基于云边协同的业务故障自动定位方法的存储介质。本发明实现了业务故障的精准预测,提高了故障定位速度,降低了网络和系统开销,故障定位的通用性和扩展性好;而且可靠性更高,实时性更好,效率更高。

Description

基于云边协同的业务故障自动定位方法、系统及存储介质
技术领域
本发明属于电气自动化技术领域,具体涉及一种基于云边协同的业务故障自动定位方法、系统及存储介质。
背景技术
随着经济技术的发展和人们生活水平的提高,电能已经成为了人们生产和生活中必不可少的二次能源,给人们的生产和生活带来了无尽的便利。因此,保障电能的稳定可靠供应,就成为了电力系统最重要的任务之一。
目前,随着智能云时代的到来,电力系统也逐步开始了云时代的进程。目前,随着云平台上分布式云边系统架构的日益复杂,电力系统传统的故障定位方法已经无法满足现今的需求。此外,电力系统的云边系统由大量异构网络设备、虚拟资源组成,且相互之间存在复杂的依赖关系。电力系统中传统的人工排查方法,需要逐级排查定位故障,效率极低,而且无法满足电力系统的高可靠性要求。
电力系统的云边系统运行状态实时变化,组件和业务实时启动、终止,因此,电力系统现在急需一种能够在系统运行状态变化后实现自动发现和故障定位的方案。
发明内容
本发明的目的之一在于提供一种可靠性高、实时性好且效率较高的基于云边协同的业务故障自动定位方法。
本发明的目的之二在于提供一种实现所述基于云边协同的业务故障自动定位方法的系统。
本发明的目的之三在于提供一种包括了所述基于云边协同的业务故障自动定位方法的存储介质。
本发明提供的这种基于云边协同的业务故障自动定位方法,包括如下步骤:
实时获取目标电力系统的云边协同业务的运行数据;
将实时获取的目标电力系统的云边协同业务的运行数据,输入到训练后的故障预测模型中,得到故障预测结果,并进行故障预警;其中,所述的训练后的故障预测模型为根据历史运行数据,对故障进行层级分类并对故障数据进行标记得到的训练数据集训练得到的;
根据确定的发生故障的类型,确认故障所对应的层级分类;
根据故障所对应的层级分类,对故障进行定位,从而完成基于云边协同的业务故障自动定位。
所述的训练后的故障预测模型,具体为采用如下步骤得到:
获取目标电力系统的云边协同业务的历史运行数据;
根据获取的目标电力系统的云边协同业务的历史运行数据,对故障进行层级分类,并进行故障数据的标记,得到训练数据集;
采用得到的训练数据集,对基于LSTM(Long Short-Term Memory,长短期记忆力)网络的故障预测模型进行训练,得到训练后的故障预测模型。
所述的目标电力系统的云边协同业务的历史运行数据,具体包括CPU利用率数据、网络流量数据、延迟数据和丢包率数据。
所述的对故障进行层级分类,具体包括如下步骤:
对故障进行分类:第一层中,包括边缘端故障和云平台故障;第二层中,边缘端故障包括网络故障、计算资源不足故障、存储资源不足故障和边缘端其他故障,云平台故障包括云服务不可用故障、云资源不足故障、云安全故障、业务故障和云平台其他故障。
所述的进行故障数据的标记,具体为标记具体的故障类型。
所述的采用得到的训练数据集,对基于LSTM网络的故障预测模型进行训练,具体包括如下步骤:
将得到的训练数据集,转换为故障预测模型的输入数据形式:输入数据为三维数据,表示为样本数×时间步数×特征数;
基于LSTM网络的故障预测模型包括了输入层、LSTM层、全连接层和输出层;其中,输入层用于接收输入基于LSTM网络的故障预测模型的数据;LSTM层用于处理数据和提取序列特征;全连接层用于对LSTM所提取的特征进行进一步的处理;输出层用于输出最终的故障预测结果;基于LSTM网络的故障预测模型的输出节点数为故障类型的类别数;
采用训练数据集中的数据进行迭代训练,并最小化损失函数,从而优化基于LSTM网络的故障预测模型的参数;采用精确率和召回率作为评估指标,对得到的基于LSTM网络的故障预测模型进行评价:若评价合格,则将得到的模型作为训练后的基于LSTM网络的故障预测模型;若评价不合格,则继续对基于LSTM网络的故障预测模型进行训练,直至评价合格。
当云边协同业务发生故障时,确定发生故障的类型,并实时调整训练后的故障预测模型的工作频率。
所述的当云边协同业务发生故障时,确定发生故障的类型,并实时调整训练后的故障预测模型的工作频率,具体包括如下步骤:
正常工作时,训练后的故障预测模型每X秒进行一次检测;
当云边协同业务发生故障时,按照对故障进行层级分类的结果,确定发生故障的类型;
根据确定的发生故障的类型,调整故障预测模型的工作频率:
若为网络故障,则设置训练后的故障预测模型的检测时间间隔为M1分钟;
若为计算资源不足故障,则设置训练后的故障预测模型的检测时间间隔为H1小时;
若为存储资源不足故障,则设置训练后的故障预测模型的检测时间间隔为H2小时或者H1小时,H1>H2;
若为其他边缘端故障,则设置训练后的故障预测模型的检测时间间隔为M1分钟或者M2分钟,M2>M1;
若为云服务不可用故障,则设置训练后的故障预测模型的检测时间间隔为M1分钟或者M2分钟;
若为云资源不足故障,则设置训练后的故障预测模型的检测时间间隔为M2分钟或者M3分钟,60>M3>M2;
若为云安全故障,则设置训练后的故障预测模型的检测时间间隔为M3分钟或者H2小时;
若为业务故障,则设置训练后的故障预测模型的检测时间间隔为M2分钟或者M3分钟;
若为其他云平台故障,则设置训练后的故障预测模型的检测时间间隔为M2分钟。
所述的根据故障所对应的层级分类,对故障进行定位,具体包括如下步骤:
获取故障所对应的层级分类;
根据故障所对应的层级分类,对故障进行定位:
若故障为边缘端故障中的网络故障,则采用网络拓扑分析算法进行网络故障的定位;
若故障为边缘端故障中的计算资源不足故障,则采用负载均衡算法进行计算资源不足故障的定位;
若故障为边缘端故障中的存储资源不足故障,则采用存储容量管理算法进行存储资源不足故障的定位;
若故障为云平台端故障中的云服务不可用故障,则采用心跳检测算法进行云服务不可用故障的定位;
若故障为云平台端故障中的云资源不足故障,则采用资源调度算法进行云资源不足故障的定位;
若故障为云平台端故障中的云安全故障,则采用安全监控算法进行云安全故障的定位;
若故障为云平台端故障中的业务故障,则采用关联分析算法进行业务故障的定位。
所述的若故障为边缘端故障中的网络故障,则采用网络拓扑分析算法进行网络故障的定位,具体包括如下步骤:
采集网络拓扑信息;
根据采集到的网络拓扑信息,构建网络拓扑图;在网络拓扑图中,节点为网络设备,边为设备的连接关系;
监测网络状态指标;
采用Dijkstra算法计算网络拓扑图中的最短路径:将起点距离设置为0,将其他节点的距离设置为无穷大,前驱节点设置为空;从所有未访问节点中选择距离起点最近的节点,作为下一个访问节点;重复访问直至网络拓扑图中的最终节点或全部节点均访问完毕;得到最短路径;
通过网络状态检查,对得到的最短路径上的每一条边是否正常工作进行检查:若检测得到某一条边出现故障且未正常工作,则判定该条边所连接的两个节点之间为网络故障的故障位置。
所述的网络拓扑信息包括所述的网络拓扑信息包括边缘设备的IP地址、边缘设备的MAC地址、边缘设备的网络拓扑结构信息、云端IP地址、云端MAC地址和云端网络拓扑结构信息。
所述的网络状态指标包括网络延迟、网络带宽和网络丢包率。
所述的若故障为边缘端故障中的计算资源不足故障,则采用负载均衡算法进行计算资源不足故障的定位,具体包括如下步骤:
采集边缘端设备的计算资源信息;
监测边缘端设备的任务量;
根据获取的计算资源信息和任务量,采用负载均衡器得到处理速度低于设定值的计算资源,并将该计算资源判定为计算资源不足故障的故障位置。
所述的计算资源信息,包括CPU利用率、内存利用率和磁盘利用率。
所述的边缘端设备的任务量,包括任务类型和任务数量。
所述的若故障为边缘端故障中的存储资源不足故障,则采用存储容量管理算法进行存储资源不足故障的定位,具体包括如下步骤:
采集边缘存储设备的存储资源信息;
监测边缘存储设备的文件信息;
根据获取的存储资源信息和文件信息,从边缘存储设备的日志中,获取占用存储空间大于设定值的文件或目录,并将该文件或目录判定为存储资源不足故障的故障位置。
所述的存储资源信息,包括磁盘容量和磁盘利用率。
所述的文件信息,包括件类型、文件大小和文件访问频率。
所述的若故障为边缘端故障中的存储资源不足故障,则采用存储容量管理算法进行存储资源不足故障的定位,还包括如下步骤:
将访问频率低于设定值的文件或数据,存储到云端,从而释放边缘存储设备的存储空间。
所述的若故障为云平台端故障中的云服务不可用故障,则采用心跳检测算法进行云服务不可用故障的定位,具体包括如下步骤:
采集云服务状态的状态信息;
监测云服务状态的心跳时间和响应时间;
采用Ping命令和TCP三次握手流程实现心跳检测,从而判定云服务是否存活;
根据心跳检测结果和服务状态,对云服务不可用故障的故障源进行定位。
所述的云服务状态的状态信息,包括IP地址、端口号和服务状态信息。
所述的若故障为云平台端故障中的云资源不足故障,则采用资源调度算法进行云资源不足故障的定位,具体包括如下步骤:
采集云资源的状态信息;
根据系统状态,设定资源状态阈值;
对获取的状态信息与对应的资源状态阈值进行判定:若某状态信息所对应的指标大于对应的资源状态阈值,则判定该状态信息所对应的云资源存在云资源不足故障,从而完成云资源不足故障的定位。
所述的状态信息包括资源利用率、带宽利用率、任务类型和任务数量。
所述的若故障为云平台端故障中的云资源不足故障,则采用资源调度算法进行云资源不足故障的定位,还包括如下步骤:
为每一种任务类型设定任务类型权重;
为每一种云资源设定云资源权重;
根据设定的任务类型权重和云资源权重,在出现云资源不足故障时,进行云资源的分配:优选将云资源权重更大的云资源分配给任务类型权重更大的任务类型。
所述的若故障为云平台端故障中的云安全故障,则采用安全监控算法进行云安全故障的定位,具体包括如下步骤:
采集安全事件的事件信息;
根据安全事件所对应的安全问题,采用入侵检测算法和威胁情报分析算法进行分析,并定位攻击来源,完成云安全故障的定位。
所述的安全事件的事件信息,包括攻击类型、攻击来源和攻击目标。
所述的若故障为云平台端故障中的业务故障,则采用关联分析算法进行业务故障的定位,具体包括如下步骤:
从网络中的所有节点采集故障数据和正常数据;
根据采集的故障数据和正常数据,分析各个服务之间的网络通信关系和调用关系,从而构建得到全局服务依赖拓扑图;
采用FP-Growth算法进行关联规则挖掘,监控每个服务的运行状态和关键指标,识别得到最早出现故障的服务,并将得到的最早出现故障的服务作为根源服务;
从根源服务触发,递归地向下搜索得到依赖服务,并预测受影响区域;
通过分析故障服务的依赖关系,根据依赖链向上回溯,得到依赖链上的关键故障服务,并确定导致根源服务故障的关键因素;
比较同一故障在不同依赖路径上出现的先后顺序,验证并排除误判的依赖关系,并绘制排除误判的依赖关系后的故障传播路径图,并在排除误判的依赖关系后的故障传播路径图上标识出根源服务和中间传播服务;
根据依赖关系,对故障与依赖的关系进行判定,从而完成业务故障的定位。
本发明还提供了一种实现所述基于云边协同的业务故障自动定位方法的系统,包括实时数据获取模块、故障预测模块、层级分类模块和故障定位模块;实时数据获取模块用于根据获取的数据,实时获取目标电力系统的云边协同业务的运行数据,并将数据上传故障预测模块;故障预测模块用于根据获取的数据,将实时获取的目标电力系统的云边协同业务的运行数据,输入到训练后的故障预测模型中,得到故障预测结果,进行故障预警,并将数据上传工作频率调整模块,其中所述的训练后的故障预测模型为根据历史运行数据,对故障进行层级分类并对故障数据进行标记得到的训练数据集训练得到的;层级分类模块用于根据获取的数据,根据确定的发生故障的类型,确认故障所对应的层级分类,并将数据上传故障定位模块;故障定位模块用于根据获取的数据,根据故障所对应的层级分类,对故障进行定位,从而完成基于云边协同的业务故障自动定位。
系统还包括历史数据获取模块、训练数据集获取模块和预测模型获取模块;历史数据获取模块用于获取目标电力系统的云边协同业务的历史运行数据,并将数据上传训练数据集获取模块;训练数据集获取模块用于根据获取的目标电力系统的云边协同业务的历史运行数据,对故障进行层级分类,并进行故障数据的标记,得到训练数据集,并将数据上传预测模型获取模块;预测模型获取模块用于根据获取的数据,采用得到的训练数据集,对基于LSTM网络的故障预测模型进行训练,得到训练后的故障预测模型,并将数据上传实时数据获取模块。
所述的目标电力系统的云边协同业务的历史运行数据,具体包括CPU利用率数据、网络流量数据、延迟数据和丢包率数据。
所述的对故障进行层级分类,具体包括如下步骤:
对故障进行分类:第一层中,包括边缘端故障和云平台故障;第二层中,边缘端故障包括网络故障、计算资源不足故障、存储资源不足故障和边缘端其他故障,云平台故障包括云服务不可用故障、云资源不足故障、云安全故障、业务故障和云平台其他故障。
所述的进行故障数据的标记,具体为标记具体的故障类型。
所述的采用得到的训练数据集,对基于LSTM网络的故障预测模型进行训练,具体包括如下步骤:
将得到的训练数据集,转换为故障预测模型的输入数据形式:输入数据为三维数据,表示为样本数×时间步数×特征数;
基于LSTM网络的故障预测模型包括了输入层、LSTM层、全连接层和输出层;其中,输入层用于接收输入基于LSTM网络的故障预测模型的数据;LSTM层用于处理数据和提取序列特征;全连接层用于对LSTM所提取的特征进行进一步的处理;输出层用于输出最终的故障预测结果;基于LSTM网络的故障预测模型的输出节点数为故障类型的类别数;
训练时,采用训练数据集中的数据进行迭代训练,并最小化损失函数,从而优化基于LSTM网络的故障预测模型的参数;最后,采用精确率和召回率作为评估指标,对得到的基于LSTM网络的故障预测模型进行评价:若评价合格,则将得到的模型作为训练后的基于LSTM网络的故障预测模型;若评价不合格,则继续对基于LSTM网络的故障预测模型进行训练,直至评价合格。
系统还包括工作频率调整模块;工作频率调整模块串接在故障预测模块和层级分类模块之间,用于工作频率调整模块用于根据获取的数据,当云边协同业务发生故障时,确定发生故障的类型,并实时调整训练后的故障预测模型的工作频率,并将数据上传层级分类模块。
所述的当云边协同业务发生故障时,确定发生故障的类型,并实时调整训练后的故障预测模型的工作频率,具体包括如下步骤:
正常工作时,训练后的故障预测模型每X秒进行一次检测;
当云边协同业务发生故障时,按照对故障进行层级分类的结果,确定发生故障的类型;
根据确定的发生故障的类型,调整故障预测模型的工作频率:
若为网络故障,则设置训练后的故障预测模型的检测时间间隔为M1分钟;
若为计算资源不足故障,则设置训练后的故障预测模型的检测时间间隔为H1小时;
若为存储资源不足故障,则设置训练后的故障预测模型的检测时间间隔为H2小时或者H1小时,H1>H2;
若为其他边缘端故障,则设置训练后的故障预测模型的检测时间间隔为M1分钟或者M2分钟,M2>M1;
若为云服务不可用故障,则设置训练后的故障预测模型的检测时间间隔为M1分钟或者M2分钟;
若为云资源不足故障,则设置训练后的故障预测模型的检测时间间隔为M2分钟或者M3分钟,60>M3>M2;
若为云安全故障,则设置训练后的故障预测模型的检测时间间隔为M3分钟或者H2小时;
若为业务故障,则设置训练后的故障预测模型的检测时间间隔为M2分钟或者M3分钟;
若为其他云平台故障,则设置训练后的故障预测模型的检测时间间隔为M2分钟。
所述的根据故障所对应的层级分类,对故障进行定位,具体包括如下步骤:
获取故障所对应的层级分类;
根据故障所对应的层级分类,对故障进行定位:
若故障为边缘端故障中的网络故障,则采用网络拓扑分析算法进行网络故障的定位;
若故障为边缘端故障中的计算资源不足故障,则采用负载均衡算法进行计算资源不足故障的定位;
若故障为边缘端故障中的存储资源不足故障,则采用存储容量管理算法进行存储资源不足故障的定位;
若故障为云平台端故障中的云服务不可用故障,则采用心跳检测算法进行云服务不可用故障的定位;
若故障为云平台端故障中的云资源不足故障,则采用资源调度算法进行云资源不足故障的定位;
若故障为云平台端故障中的云安全故障,则采用安全监控算法进行云安全故障的定位;
若故障为云平台端故障中的业务故障,则采用关联分析算法进行业务故障的定位。
所述的若故障为边缘端故障中的网络故障,则采用网络拓扑分析算法进行网络故障的定位,具体包括如下步骤:
采集网络拓扑信息;
根据采集到的网络拓扑信息,构建网络拓扑图;在网络拓扑图中,节点为网络设备,边为设备的连接关系;
监测网络状态指标;
采用Dijkstra算法计算网络拓扑图中的最短路径:将起点距离设置为0,将其他节点的距离设置为无穷大,前驱节点设置为空;从所有未访问节点中选择距离起点最近的节点,作为下一个访问节点;重复访问直至网络拓扑图中的最终节点或全部节点均访问完毕;得到最短路径;
通过网络状态检查,对得到的最短路径上的每一条边是否正常工作进行检查:若检测得到某一条边出现故障且未正常工作,则判定该条边所连接的两个节点之间为网络故障的故障位置。
所述的网络拓扑信息包括所述的网络拓扑信息包括边缘设备的IP地址、边缘设备的MAC地址、边缘设备的网络拓扑结构信息、云端IP地址、云端MAC地址和云端网络拓扑结构信息。
所述的网络状态指标包括网络延迟、网络带宽和网络丢包率。
所述的若故障为边缘端故障中的计算资源不足故障,则采用负载均衡算法进行计算资源不足故障的定位,具体包括如下步骤:
采集边缘端设备的计算资源信息;
监测边缘端设备的任务量;
根据获取的计算资源信息和任务量,采用负载均衡器得到处理速度低于设定值的计算资源,并将该计算资源判定为计算资源不足故障的故障位置。
所述的计算资源信息,包括CPU利用率、内存利用率和磁盘利用率。
所述的边缘端设备的任务量,包括任务类型和任务数量。
所述的若故障为边缘端故障中的存储资源不足故障,则采用存储容量管理算法进行存储资源不足故障的定位,具体包括如下步骤:
采集边缘存储设备的存储资源信息;
监测边缘存储设备的文件信息;
根据获取的存储资源信息和文件信息,从边缘存储设备的日志中,获取占用存储空间大于设定值的文件或目录,并将该文件或目录判定为存储资源不足故障的故障位置。
所述的存储资源信息,包括磁盘容量和磁盘利用率。
所述的文件信息,包括件类型、文件大小和文件访问频率。
所述的若故障为边缘端故障中的存储资源不足故障,则采用存储容量管理算法进行存储资源不足故障的定位,还包括如下步骤:
将访问频率低于设定值的文件或数据,存储到云端,从而释放边缘存储设备的存储空间。
所述的若故障为云平台端故障中的云服务不可用故障,则采用心跳检测算法进行云服务不可用故障的定位,具体包括如下步骤:
采集云服务状态的状态信息;
监测云服务状态的心跳时间和响应时间;
采用Ping命令和TCP三次握手流程实现心跳检测,从而判定云服务是否存活;
根据心跳检测结果和服务状态,对云服务不可用故障的故障源进行定位。
所述的云服务状态的状态信息,包括IP地址、端口号和服务状态信息。
所述的若故障为云平台端故障中的云资源不足故障,则采用资源调度算法进行云资源不足故障的定位,具体包括如下步骤:
采集云资源的状态信息;
根据系统状态,设定资源状态阈值;
对获取的状态信息与对应的资源状态阈值进行判定:若某状态信息所对应的指标大于对应的资源状态阈值,则判定该状态信息所对应的云资源存在云资源不足故障,从而完成云资源不足故障的定位。
所述的状态信息包括资源利用率、带宽利用率、任务类型和任务数量。
所述的若故障为云平台端故障中的云资源不足故障,则采用资源调度算法进行云资源不足故障的定位,还包括如下步骤:
为每一种任务类型设定任务类型权重;
为每一种云资源设定云资源权重;
根据设定的任务类型权重和云资源权重,在出现云资源不足故障时,进行云资源的分配:优选将云资源权重更大的云资源分配给任务类型权重更大的任务类型。
所述的若故障为云平台端故障中的云安全故障,则采用安全监控算法进行云安全故障的定位,具体包括如下步骤:
采集安全事件的事件信息;
根据安全事件所对应的安全问题,采用入侵检测算法和威胁情报分析算法进行分析,并定位攻击来源,完成云安全故障的定位。
所述的安全事件的事件信息,包括攻击类型、攻击来源和攻击目标。
所述的若故障为云平台端故障中的业务故障,则采用关联分析算法进行业务故障的定位,具体包括如下步骤:
从网络中的所有节点采集故障数据和正常数据;
根据采集的故障数据和正常数据,分析各个服务之间的网络通信关系和调用关系,从而构建得到全局服务依赖拓扑图;
采用FP-Growth算法进行关联规则挖掘,监控每个服务的运行状态和关键指标,识别得到最早出现故障的服务,并将得到的最早出现故障的服务作为根源服务;
从根源服务触发,递归地向下搜索得到依赖服务,并预测受影响区域;
通过分析故障服务的依赖关系,根据依赖链向上回溯,得到依赖链上的关键故障服务,并确定导致根源服务故障的关键因素;
比较同一故障在不同依赖路径上出现的先后顺序,验证并排除误判的依赖关系,并绘制排除误判的依赖关系后的故障传播路径图,并在排除误判的依赖关系后的故障传播路径图上标识出根源服务和中间传播服务;
根据依赖关系,对故障与依赖的关系进行判定,从而完成业务故障的定位。
本发明提供的这种基于云边协同的业务故障自动定位方法、系统及存储介质,通过故障预测模型实现了业务故障的精准预测;通过业务故障的预测结果完成故障预测的检测频率的动态调整,提高了故障定位速度,同时降低了对网络和系统的额外开销;最后,通过发生故障后的多算法协同定位,有效实现了云边协同过程中的各种故障的识别,故障定位准确高,故障定位的通用性和扩展性好;而且本发明的可靠性更高,实时性更好,效率更高。
附图说明
图1为本发明方法的方法流程示意图。
图2为本发明系统的功能模块示意图。
具体实施方式
如图1所示为本发明方法的方法流程示意图:本发明提供的这种基于云边协同的业务故障自动定位方法,包括如下步骤:
实时获取目标电力系统的云边协同业务的运行数据;
将实时获取的目标电力系统的云边协同业务的运行数据,输入到训练后的故障预测模型中,得到故障预测结果,并进行故障预警;其中,所述的训练后的故障预测模型为根据历史运行数据,对故障进行层级分类并对故障数据进行标记得到的训练数据集训练得到的;
其中,所述的训练后的故障预测模型,具体为采用如下步骤得到:
获取目标电力系统的云边协同业务的历史运行数据;具体包括CPU利用率数据、网络流量数据、延迟数据和丢包率数据等;
根据获取的目标电力系统的云边协同业务的历史运行数据,对故障进行层级分类,并进行故障数据的标记,得到训练数据集;
其中,对故障进行层级分类,具体包括如下步骤:
对故障进行分类:第一层中,包括边缘端故障和云平台故障;第二层中,边缘端故障包括网络故障、计算资源不足故障、存储资源不足故障和边缘端其他故障,云平台故障包括云服务不可用故障、云资源不足故障、云安全故障、业务故障和云平台其他故障;
进行故障数据的标记,具体为标记具体的故障类型;
采用得到的训练数据集,对基于LSTM(Long Short-Term Memory,长短期记忆力)网络的故障预测模型进行训练,得到训练后的故障预测模型;具体包括如下步骤:
将得到的训练数据集,转换为故障预测模型的输入数据形式:输入数据为三维数据,表示为样本数×时间步数×特征数;
基于LSTM网络的故障预测模型包括了输入层、LSTM层、全连接层和输出层;其中,输入层用于接收输入基于LSTM网络的故障预测模型的数据;LSTM层用于处理数据和提取序列特征;全连接层用于对LSTM所提取的特征进行进一步的处理;输出层用于输出最终的故障预测结果;基于LSTM网络的故障预测模型的输出节点数为故障类型的类别数;
训练时,采用训练数据集中的数据进行迭代训练,并最小化损失函数,从而优化基于LSTM网络的故障预测模型的参数;最后,采用精确率和召回率作为评估指标,对得到的基于LSTM网络的故障预测模型进行评价:若评价合格,则将得到的模型作为训练后的基于LSTM网络的故障预测模型;若评价不合格,则继续对基于LSTM网络的故障预测模型进行训练,直至评价合格;
通过故障预测模型对故障进行预测,能够使得电力系统人员提前知晓可能发生的故障,从而实现相应的故障预防、故障预处理或者事先指定故障预案等工作;
当云边协同业务发生故障时,确定发生故障的类型,并实时调整训练后的故障预测模型的工作频率;具体包括如下步骤:
正常工作时,训练后的故障预测模型每X秒(比如10秒)进行一次检测;
当云边协同业务发生故障时,按照对故障进行层级分类的结果,确定发生故障的类型;
根据确定的发生故障的类型,调整故障预测模型的工作频率:
若为网络故障,则设置训练后的故障预测模型的检测时间间隔为M1分钟;
若为计算资源不足故障,则设置训练后的故障预测模型的检测时间间隔为H1小时;
若为存储资源不足故障,则设置训练后的故障预测模型的检测时间间隔为H2小时或者H1小时,H1>H2;
若为其他边缘端故障,则设置训练后的故障预测模型的检测时间间隔为M1分钟或者M2分钟,M2>M1;
若为云服务不可用故障,则设置训练后的故障预测模型的检测时间间隔为M1分钟或者M2分钟;
若为云资源不足故障,则设置训练后的故障预测模型的检测时间间隔为M2分钟或者M3分钟,60>M3>M2;
若为云安全故障,则设置训练后的故障预测模型的检测时间间隔为M3分钟或者H2小时;
若为业务故障,则设置训练后的故障预测模型的检测时间间隔为M2分钟或者M3分钟;
若为其他云平台故障,则设置训练后的故障预测模型的检测时间间隔为M2分钟;
作为一种优选方案,M1取值为5,M2取值为10,M3取值为30,H1取值为2,H2取值为1;
根据确定的发生故障的类型,确认故障所对应的层级分类;
根据故障所对应的层级分类,对故障进行定位,从而完成基于云边协同的业务故障自动定位;具体包括如下步骤:
获取故障所对应的层级分类;
根据故障所对应的层级分类,对故障进行定位:
若故障为边缘端故障中的网络故障,则采用网络拓扑分析算法进行网络故障的定位;具体包括如下步骤:
采集网络拓扑信息,包括所述的网络拓扑信息包括边缘设备的IP地址、边缘设备的MAC地址、边缘设备的网络拓扑结构信息、云端IP地址、云端MAC地址和云端网络拓扑结构信息等;
根据采集到的网络拓扑信息,构建网络拓扑图;在网络拓扑图中,节点为网络设备,边为设备的连接关系;
监测网络状态指标,包括包括网络延迟、网络带宽和网络丢包率;
采用Dijkstra算法计算网络拓扑图中的最短路径:将起点距离设置为0,将其他节点的距离设置为无穷大,前驱节点设置为空;从所有未访问节点中选择距离起点最近的节点,作为下一个访问节点;重复访问直至网络拓扑图中的最终节点或全部节点均访问完毕;得到最短路径;
通过网络状态检查,对得到的最短路径上的每一条边是否正常工作进行检查:若检测得到某一条边出现故障且未正常工作,则判定该条边所连接的两个节点之间为网络故障的故障位置;
若故障为边缘端故障中的计算资源不足故障,则采用负载均衡算法进行计算资源不足故障的定位;具体包括如下步骤:
采集边缘端设备的计算资源信息,包括CPU利用率、内存利用率和磁盘利用率;
监测边缘端设备的任务量,包括任务类型和任务数量等;
根据获取的计算资源信息和任务量,采用负载均衡器得到处理速度低于设定值的计算资源,并将该计算资源判定为计算资源不足故障的故障位置;
若故障为边缘端故障中的存储资源不足故障,则采用存储容量管理算法进行存储资源不足故障的定位;所述的若故障为边缘端故障中的存储资源不足故障,则采用存储容量管理算法进行存储资源不足故障的定位,具体包括如下步骤:
采集边缘存储设备的存储资源信息,包括磁盘容量和磁盘利用率等;
监测边缘存储设备的文件信息,包括件类型、文件大小和文件访问频率;
根据获取的存储资源信息和文件信息,从边缘存储设备的日志中,获取占用存储空间大于设定值的文件或目录,并将该文件或目录判定为存储资源不足故障的故障位置;
此外,还可以将访问频率低于设定值的文件或数据,存储到云端,从而释放边缘存储设备的存储空间;
若故障为云平台端故障中的云服务不可用故障,则采用心跳检测算法进行云服务不可用故障的定位;具体包括如下步骤:
采集云服务状态的状态信息,包括IP地址、端口号和服务状态信息等;
监测云服务状态的心跳时间和响应时间;
采用Ping命令和TCP三次握手流程实现心跳检测,从而判定云服务是否存活;
根据心跳检测结果和服务状态,对云服务不可用故障的故障源进行定位;
若故障为云平台端故障中的云资源不足故障,则采用资源调度算法进行云资源不足故障的定位;具体包括如下步骤:
采集云资源的状态信息,包括资源利用率、带宽利用率、任务类型和任务数量等;
根据系统状态,设定资源状态阈值;
对获取的状态信息与对应的资源状态阈值进行判定:若某状态信息所对应的指标大于对应的资源状态阈值,则判定该状态信息所对应的云资源存在云资源不足故障,从而完成云资源不足故障的定位;
此外,还可以为每一种任务类型设定任务类型权重;
为每一种云资源设定云资源权重;
根据设定的任务类型权重和云资源权重,在出现云资源不足故障时,进行云资源的分配:优选将云资源权重更大的云资源分配给任务类型权重更大的任务类型;
若故障为云平台端故障中的云安全故障,则采用安全监控算法进行云安全故障的定位;具体包括如下步骤:
采集安全事件的事件信息,包括攻击类型、攻击来源和攻击目标;
根据安全事件所对应的安全问题,采用入侵检测算法和威胁情报分析算法进行分析,并定位攻击来源,完成云安全故障的定位;
若故障为云平台端故障中的业务故障,则采用关联分析算法进行业务故障的定位;具体包括如下步骤:
从网络中的所有节点采集故障数据和正常数据;
根据采集的故障数据和正常数据,分析各个服务之间的网络通信关系和调用关系,从而构建得到全局服务依赖拓扑图;
采用FP-Growth算法进行关联规则挖掘,监控每个服务的运行状态和关键指标,识别得到最早出现故障的服务,并将得到的最早出现故障的服务作为根源服务;
从根源服务触发,递归地向下搜索得到依赖服务,并预测受影响区域;
通过分析故障服务的依赖关系,根据依赖链向上回溯,得到依赖链上的关键故障服务,并确定导致根源服务故障的关键因素;
比较同一故障在不同依赖路径上出现的先后顺序,验证并排除误判的依赖关系,并绘制排除误判的依赖关系后的故障传播路径图,并在排除误判的依赖关系后的故障传播路径图上标识出根源服务和中间传播服务;
根据依赖关系,对故障与依赖的关系进行判定,从而完成业务故障的定位。
如图2所示为本发明系统的功能模块示意图:本发明公开的这种实现所述基于云边协同的业务故障自动定位方法的系统,包括历史数据获取模块、训练数据集获取模块、预测模型获取模块、实时数据获取模块、故障预测模块、工作频率调整模块、层级分类模块和故障定位模块;历史数据获取模块、训练数据集获取模块、预测模型获取模块、实时数据获取模块、故障预测模块、工作频率调整模块、层级分类模块和故障定位模块依次串联;历史数据获取模块用于获取目标电力系统的云边协同业务的历史运行数据,并将数据上传训练数据集获取模块;训练数据集获取模块用于根据获取的目标电力系统的云边协同业务的历史运行数据,对故障进行层级分类,并进行故障数据的标记,得到训练数据集,并将数据上传预测模型获取模块;预测模型获取模块用于根据获取的数据,采用得到的训练数据集,对基于LSTM网络的故障预测模型进行训练,得到训练后的故障预测模型,并将数据上传实时数据获取模块;实时数据获取模块用于根据获取的数据,实时获取目标电力系统的云边协同业务的运行数据,并将数据上传故障预测模块;故障预测模块用于根据获取的数据,将实时获取的目标电力系统的云边协同业务的运行数据,输入到训练后的故障预测模型中,得到故障预测结果,并将数据上传工作频率调整模块;工作频率调整模块用于根据获取的数据,当云边协同业务发生故障时,确定发生故障的类型,并实时调整训练后的故障预测模型的工作频率,并将数据上传层级分类模块;层级分类模块用于根据获取的数据,根据确定的发生故障的类型,确认故障所对应的层级分类,并将数据上传故障定位模块;故障定位模块用于根据获取的数据,根据故障所对应的层级分类,对故障进行定位,从而完成基于云边协同的业务故障自动定位。
所述的目标电力系统的云边协同业务的历史运行数据,具体包括CPU利用率数据、网络流量数据、延迟数据和丢包率数据。
所述的对故障进行层级分类,具体包括如下步骤:
对故障进行分类:第一层中,包括边缘端故障和云平台故障;第二层中,边缘端故障包括网络故障、计算资源不足故障、存储资源不足故障和边缘端其他故障,云平台故障包括云服务不可用故障、云资源不足故障、云安全故障、业务故障和云平台其他故障。
所述的进行故障数据的标记,具体为标记具体的故障类型。
所述的采用得到的训练数据集,对基于LSTM网络的故障预测模型进行训练,具体包括如下步骤:
将得到的训练数据集,转换为故障预测模型的输入数据形式:输入数据为三维数据,表示为样本数×时间步数×特征数;
基于LSTM网络的故障预测模型包括了输入层、LSTM层、全连接层和输出层;其中,输入层用于接收输入基于LSTM网络的故障预测模型的数据;LSTM层用于处理数据和提取序列特征;全连接层用于对LSTM所提取的特征进行进一步的处理;输出层用于输出最终的故障预测结果;基于LSTM网络的故障预测模型的输出节点数为故障类型的类别数;
训练时,采用训练数据集中的数据进行迭代训练,并最小化损失函数,从而优化基于LSTM网络的故障预测模型的参数;最后,采用精确率和召回率作为评估指标,对得到的基于LSTM网络的故障预测模型进行评价:若评价合格,则将得到的模型作为训练后的基于LSTM网络的故障预测模型;若评价不合格,则继续对基于LSTM网络的故障预测模型进行训练,直至评价合格。
所述的当云边协同业务发生故障时,确定发生故障的类型,并实时调整训练后的故障预测模型的工作频率,具体包括如下步骤:
正常工作时,训练后的故障预测模型每X秒进行一次检测;
当云边协同业务发生故障时,按照对故障进行层级分类的结果,确定发生故障的类型;
根据确定的发生故障的类型,调整故障预测模型的工作频率:
若为网络故障,则设置训练后的故障预测模型的检测时间间隔为M1分钟;
若为计算资源不足故障,则设置训练后的故障预测模型的检测时间间隔为H1小时;
若为存储资源不足故障,则设置训练后的故障预测模型的检测时间间隔为H2小时或者H1小时,H1>H2;
若为其他边缘端故障,则设置训练后的故障预测模型的检测时间间隔为M1分钟或者M2分钟,M2>M1;
若为云服务不可用故障,则设置训练后的故障预测模型的检测时间间隔为M1分钟或者M2分钟;
若为云资源不足故障,则设置训练后的故障预测模型的检测时间间隔为M2分钟或者M3分钟,60>M3>M2;
若为云安全故障,则设置训练后的故障预测模型的检测时间间隔为M3分钟或者H2小时;
若为业务故障,则设置训练后的故障预测模型的检测时间间隔为M2分钟或者M3分钟;若为其他云平台故障,则设置训练后的故障预测模型的检测时间间隔为M2分钟;
作为一种优选方案,M1取值为5,M2取值为10,M3取值为30,H1取值为2,H2取值为1;
所述的根据故障所对应的层级分类,对故障进行定位,具体包括如下步骤:
获取故障所对应的层级分类;
根据故障所对应的层级分类,对故障进行定位:
若故障为边缘端故障中的网络故障,则采用网络拓扑分析算法进行网络故障的定位;
若故障为边缘端故障中的计算资源不足故障,则采用负载均衡算法进行计算资源不足故障的定位;
若故障为边缘端故障中的存储资源不足故障,则采用存储容量管理算法进行存储资源不足故障的定位;
若故障为云平台端故障中的云服务不可用故障,则采用心跳检测算法进行云服务不可用故障的定位;
若故障为云平台端故障中的云资源不足故障,则采用资源调度算法进行云资源不足故障的定位;
若故障为云平台端故障中的云安全故障,则采用安全监控算法进行云安全故障的定位;
若故障为云平台端故障中的业务故障,则采用关联分析算法进行业务故障的定位。
所述的若故障为边缘端故障中的网络故障,则采用网络拓扑分析算法进行网络故障的定位,具体包括如下步骤:
采集网络拓扑信息;
根据采集到的网络拓扑信息,构建网络拓扑图;在网络拓扑图中,节点为网络设备,边为设备的连接关系;
监测网络状态指标;
采用Dijkstra算法计算网络拓扑图中的最短路径:将起点距离设置为0,将其他节点的距离设置为无穷大,前驱节点设置为空;从所有未访问节点中选择距离起点最近的节点,作为下一个访问节点;重复访问直至网络拓扑图中的最终节点或全部节点均访问完毕;得到最短路径;
通过网络状态检查,对得到的最短路径上的每一条边是否正常工作进行检查:若检测得到某一条边出现故障且未正常工作,则判定该条边所连接的两个节点之间为网络故障的故障位置。
所述的网络拓扑信息包括所述的网络拓扑信息包括边缘设备的IP地址、边缘设备的MAC地址、边缘设备的网络拓扑结构信息、云端IP地址、云端MAC地址和云端网络拓扑结构信息。
所述的网络状态指标包括网络延迟、网络带宽和网络丢包率。
所述的若故障为边缘端故障中的计算资源不足故障,则采用负载均衡算法进行计算资源不足故障的定位,具体包括如下步骤:
采集边缘端设备的计算资源信息;
监测边缘端设备的任务量;
根据获取的计算资源信息和任务量,采用负载均衡器得到处理速度低于设定值的计算资源,并将该计算资源判定为计算资源不足故障的故障位置。
所述的计算资源信息,包括CPU利用率、内存利用率和磁盘利用率。
所述的边缘端设备的任务量,包括任务类型和任务数量。
所述的若故障为边缘端故障中的存储资源不足故障,则采用存储容量管理算法进行存储资源不足故障的定位,具体包括如下步骤:
采集边缘存储设备的存储资源信息;
监测边缘存储设备的文件信息;
根据获取的存储资源信息和文件信息,从边缘存储设备的日志中,获取占用存储空间大于设定值的文件或目录,并将该文件或目录判定为存储资源不足故障的故障位置。
所述的存储资源信息,包括磁盘容量和磁盘利用率。
所述的文件信息,包括件类型、文件大小和文件访问频率。
所述的若故障为边缘端故障中的存储资源不足故障,则采用存储容量管理算法进行存储资源不足故障的定位,还包括如下步骤:
将访问频率低于设定值的文件或数据,存储到云端,从而释放边缘存储设备的存储空间。
所述的若故障为云平台端故障中的云服务不可用故障,则采用心跳检测算法进行云服务不可用故障的定位,具体包括如下步骤:
采集云服务状态的状态信息;
监测云服务状态的心跳时间和响应时间;
采用Ping命令和TCP三次握手流程实现心跳检测,从而判定云服务是否存活;
根据心跳检测结果和服务状态,对云服务不可用故障的故障源进行定位。
所述的云服务状态的状态信息,包括IP地址、端口号和服务状态信息。
所述的若故障为云平台端故障中的云资源不足故障,则采用资源调度算法进行云资源不足故障的定位,具体包括如下步骤:
采集云资源的状态信息;
根据系统状态,设定资源状态阈值;
对获取的状态信息与对应的资源状态阈值进行判定:若某状态信息所对应的指标大于对应的资源状态阈值,则判定该状态信息所对应的云资源存在云资源不足故障,从而完成云资源不足故障的定位。
所述的状态信息包括资源利用率、带宽利用率、任务类型和任务数量。
所述的若故障为云平台端故障中的云资源不足故障,则采用资源调度算法进行云资源不足故障的定位,还包括如下步骤:
为每一种任务类型设定任务类型权重;
为每一种云资源设定云资源权重;
根据设定的任务类型权重和云资源权重,在出现云资源不足故障时,进行云资源的分配:优选将云资源权重更大的云资源分配给任务类型权重更大的任务类型。
所述的若故障为云平台端故障中的云安全故障,则采用安全监控算法进行云安全故障的定位,具体包括如下步骤:
采集安全事件的事件信息;
根据安全事件所对应的安全问题,采用入侵检测算法和威胁情报分析算法进行分析,并定位攻击来源,完成云安全故障的定位。
所述的安全事件的事件信息,包括攻击类型、攻击来源和攻击目标。
所述的若故障为云平台端故障中的业务故障,则采用关联分析算法进行业务故障的定位,具体包括如下步骤:
从网络中的所有节点采集故障数据和正常数据;
根据采集的故障数据和正常数据,分析各个服务之间的网络通信关系和调用关系,从而构建得到全局服务依赖拓扑图;
采用FP-Growth算法进行关联规则挖掘,监控每个服务的运行状态和关键指标,识别得到最早出现故障的服务,并将得到的最早出现故障的服务作为根源服务;
从根源服务触发,递归地向下搜索得到依赖服务,并预测受影响区域;
通过分析故障服务的依赖关系,根据依赖链向上回溯,得到依赖链上的关键故障服务,并确定导致根源服务故障的关键因素;
比较同一故障在不同依赖路径上出现的先后顺序,验证并排除误判的依赖关系,并绘制排除误判的依赖关系后的故障传播路径图,并在排除误判的依赖关系后的故障传播路径图上标识出根源服务和中间传播服务;
根据依赖关系,对故障与依赖的关系进行判定,从而完成业务故障的定位。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript等。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (55)

1.一种基于云边协同的业务故障自动定位方法,包括如下步骤:
实时获取目标电力系统的云边协同业务的运行数据;
将实时获取的目标电力系统的云边协同业务的运行数据,输入到训练后的故障预测模型中,得到故障预测结果,并进行故障预警;其中,所述的训练后的故障预测模型为根据历史运行数据,对故障进行层级分类并对故障数据进行标记得到的训练数据集训练得到的;
根据确定的发生故障的类型,确认故障所对应的层级分类;
根据故障所对应的层级分类,对故障进行定位,从而完成基于云边协同的业务故障自动定位。
2.根据权利要求1所述的基于云边协同的业务故障自动定位方法,其特征在于所述的训练后的故障预测模型,具体为采用如下步骤得到:
获取目标电力系统的云边协同业务的历史运行数据;
根据获取的目标电力系统的云边协同业务的历史运行数据,对故障进行层级分类,并进行故障数据的标记,得到训练数据集;
采用得到的训练数据集,对基于LSTM网络的故障预测模型进行训练,得到训练后的故障预测模型。
3.根据权利要求2所述的基于云边协同的业务故障自动定位方法,其特征在于所述的目标电力系统的云边协同业务的历史运行数据,具体包括CPU利用率数据、网络流量数据、延迟数据和丢包率数据。
4.根据权利要求3所述的基于云边协同的业务故障自动定位方法,其特征在于所述的对故障进行层级分类,具体包括如下步骤:
对故障进行分类:第一层中,包括边缘端故障和云平台故障;第二层中,边缘端故障包括网络故障、计算资源不足故障、存储资源不足故障和边缘端其他故障,云平台故障包括云服务不可用故障、云资源不足故障、云安全故障、业务故障和云平台其他故障。
5.根据权利要求4所述的基于云边协同的业务故障自动定位方法,其特征在于所述的进行故障数据的标记,具体为标记具体的故障类型。
6.根据权利要求5所述的基于云边协同的业务故障自动定位方法,其特征在于所述的采用得到的训练数据集,对基于LSTM网络的故障预测模型进行训练,具体包括如下步骤:
将得到的训练数据集,转换为故障预测模型的输入数据形式:输入数据为三维数据,表示为样本数×时间步数×特征数;
基于LSTM网络的故障预测模型包括了输入层、LSTM层、全连接层和输出层;其中,输入层用于接收输入基于LSTM网络的故障预测模型的数据;LSTM层用于处理数据和提取序列特征;全连接层用于对LSTM所提取的特征进行进一步的处理;输出层用于输出最终的故障预测结果;基于LSTM网络的故障预测模型的输出节点数为故障类型的类别数;
采用训练数据集中的数据进行迭代训练,并最小化损失函数;采用精确率和召回率作为评估指标,对得到的基于LSTM网络的故障预测模型进行评价:若评价合格,则将得到的模型作为训练后的基于LSTM网络的故障预测模型;若评价不合格,则继续对基于LSTM网络的故障预测模型进行训练,直至评价合格。
7.根据权利要求6所述的基于云边协同的业务故障自动定位方法,其特征在于当云边协同业务发生故障时,确定发生故障的类型,并实时调整训练后的故障预测模型的工作频率。
8.根据权利要求7所述的基于云边协同的业务故障自动定位方法,其特征在于所述的当云边协同业务发生故障时,确定发生故障的类型,并实时调整训练后的故障预测模型的工作频率,具体包括如下步骤:
训练后的故障预测模型每X秒进行一次检测;
当云边协同业务发生故障时,按照对故障进行层级分类的结果,确定发生故障的类型;
根据确定的发生故障的类型,调整故障预测模型的工作频率:
若为网络故障,则设置训练后的故障预测模型的检测时间间隔为M1分钟;
若为计算资源不足故障,则设置训练后的故障预测模型的检测时间间隔为H1小时;
若为存储资源不足故障,则设置训练后的故障预测模型的检测时间间隔为H2小时或者H1小时,H1>H2;
若为其他边缘端故障,则设置训练后的故障预测模型的检测时间间隔为M1分钟或者M2分钟,M2>M1;
若为云服务不可用故障,则设置训练后的故障预测模型的检测时间间隔为M1分钟或者M2分钟;
若为云资源不足故障,则设置训练后的故障预测模型的检测时间间隔为M2分钟或者M3分钟,60>M3>M2;
若为云安全故障,则设置训练后的故障预测模型的检测时间间隔为M3分钟或者H2小时;
若为业务故障,则设置训练后的故障预测模型的检测时间间隔为M2分钟或者M3分钟;
若为其他云平台故障,则设置训练后的故障预测模型的检测时间间隔为M2分钟。
9.根据权利要求8所述的基于云边协同的业务故障自动定位方法,其特征在于所述的根据故障所对应的层级分类,对故障进行定位,具体包括如下步骤:
获取故障所对应的层级分类;
根据故障所对应的层级分类,对故障进行定位:
若故障为边缘端故障中的网络故障,则采用网络拓扑分析算法进行网络故障的定位;
若故障为边缘端故障中的计算资源不足故障,则采用负载均衡算法进行计算资源不足故障的定位;
若故障为边缘端故障中的存储资源不足故障,则采用存储容量管理算法进行存储资源不足故障的定位;
若故障为云平台端故障中的云服务不可用故障,则采用心跳检测算法进行云服务不可用故障的定位;
若故障为云平台端故障中的云资源不足故障,则采用资源调度算法进行云资源不足故障的定位;
若故障为云平台端故障中的云安全故障,则采用安全监控算法进行云安全故障的定位;
若故障为云平台端故障中的业务故障,则采用关联分析算法进行业务故障的定位。
10.根据权利要求9所述的基于云边协同的业务故障自动定位方法,其特征在于所述的若故障为边缘端故障中的网络故障,则采用网络拓扑分析算法进行网络故障的定位,具体包括如下步骤:
采集网络拓扑信息;
根据采集到的网络拓扑信息,构建网络拓扑图;在网络拓扑图中,节点为网络设备,边为设备的连接关系;
监测网络状态指标;
采用Dijkstra算法计算网络拓扑图中的最短路径:将起点距离设置为0,将其他节点的距离设置为无穷大,前驱节点设置为空;从所有未访问节点中选择距离起点最近的节点,作为下一个访问节点;重复访问直至网络拓扑图中的最终节点或全部节点均访问完毕;得到最短路径;
通过网络状态检查,对得到的最短路径上的每一条边是否正常工作进行检查:若检测得到某一条边出现故障且未正常工作,则判定该条边所连接的两个节点之间为网络故障的故障位置。
11.根据权利要求10所述的基于云边协同的业务故障自动定位方法,其特征在于所述的网络拓扑信息包括所述的网络拓扑信息包括边缘设备的IP地址、边缘设备的MAC地址、边缘设备的网络拓扑结构信息、云端IP地址、云端MAC地址和云端网络拓扑结构信息。
12.根据权利要求11述的基于云边协同的业务故障自动定位方法,其特征在于所述的网络状态指标包括网络延迟、网络带宽和网络丢包率。
13.根据权利要求12所述的基于云边协同的业务故障自动定位方法,其特征在于所述的若故障为边缘端故障中的计算资源不足故障,则采用负载均衡算法进行计算资源不足故障的定位,具体包括如下步骤:
采集边缘端设备的计算资源信息;
监测边缘端设备的任务量;
根据获取的计算资源信息和任务量,采用负载均衡器得到处理速度低于设定值的计算资源,并将该计算资源判定为计算资源不足故障的故障位置。
14.根据权利要求13所述的基于云边协同的业务故障自动定位方法,其特征在于所述的计算资源信息,包括CPU利用率、内存利用率和磁盘利用率。
15.根据权利要求14所述的基于云边协同的业务故障自动定位方法,其特征在于所述的边缘端设备的任务量,包括任务类型和任务数量。
16.根据权利要求9所述的基于云边协同的业务故障自动定位方法,其特征在于所述的若故障为边缘端故障中的存储资源不足故障,则采用存储容量管理算法进行存储资源不足故障的定位,具体包括如下步骤:
采集边缘存储设备的存储资源信息;
监测边缘存储设备的文件信息;
根据获取的存储资源信息和文件信息,从边缘存储设备的日志中,获取占用存储空间大于设定值的文件或目录,并将该文件或目录判定为存储资源不足故障的故障位置。
17.根据权利要求16所述的基于云边协同的业务故障自动定位方法,其特征在于所述的存储资源信息,包括磁盘容量和磁盘利用率。
18.根据权利要求16所述的基于云边协同的业务故障自动定位方法,其特征在于所述的文件信息,包括件类型、文件大小和文件访问频率。
19.根据权利要求16所述的基于云边协同的业务故障自动定位方法,其特征在于所述的若故障为边缘端故障中的存储资源不足故障,则采用存储容量管理算法进行存储资源不足故障的定位,还包括如下步骤:
将访问频率低于设定值的文件或数据,存储到云端,并释放边缘存储设备的存储空间。
20.根据权利要求9所述的基于云边协同的业务故障自动定位方法,其特征在于所述的若故障为云平台端故障中的云服务不可用故障,则采用心跳检测算法进行云服务不可用故障的定位,具体包括如下步骤:
采集云服务状态的状态信息;
监测云服务状态的心跳时间和响应时间;
采用Ping命令和TCP三次握手流程实现心跳检测,从而判定云服务是否存活;
根据心跳检测结果和服务状态,对云服务不可用故障的故障源进行定位。
21.根据权利要求20所述的基于云边协同的业务故障自动定位方法,其特征在于所述的云服务状态的状态信息,包括IP地址、端口号和服务状态信息。
22.根据权利要求9所述的基于云边协同的业务故障自动定位方法,其特征在于所述的若故障为云平台端故障中的云资源不足故障,则采用资源调度算法进行云资源不足故障的定位,具体包括如下步骤:
采集云资源的状态信息;
根据系统状态,设定资源状态阈值;
对获取的状态信息与对应的资源状态阈值进行判定:若某状态信息所对应的指标大于对应的资源状态阈值,则判定该状态信息所对应的云资源存在云资源不足故障,从而完成云资源不足故障的定位。
23.根据权利要求22所述的基于云边协同的业务故障自动定位方法,其特征在于所述的状态信息包括资源利用率、带宽利用率、任务类型和任务数量。
24.根据权利要求22所述的基于云边协同的业务故障自动定位方法,其特征在于所述的若故障为云平台端故障中的云资源不足故障,则采用资源调度算法进行云资源不足故障的定位,还包括如下步骤:
为每一种任务类型设定任务类型权重;
为每一种云资源设定云资源权重;
根据设定的任务类型权重和云资源权重,在出现云资源不足故障时,进行云资源的分配:优选将云资源权重更大的云资源分配给任务类型权重更大的任务类型。
25.根据权利要求9所述的基于云边协同的业务故障自动定位方法,其特征在于所述的若故障为云平台端故障中的云安全故障,则采用安全监控算法进行云安全故障的定位,具体包括如下步骤:
采集安全事件的事件信息;
根据安全事件所对应的安全问题,采用入侵检测算法和威胁情报分析算法进行分析,并定位攻击来源,完成云安全故障的定位。
26.根据权利要求25所述的基于云边协同的业务故障自动定位方法,其特征在于所述的安全事件的事件信息,包括攻击类型、攻击来源和攻击目标。
27.根据权利要求9所述的基于云边协同的业务故障自动定位方法,其特征在于所述的若故障为云平台端故障中的业务故障,则采用关联分析算法进行业务故障的定位,具体包括如下步骤:
从网络中的所有节点采集故障数据和正常数据;
根据采集的故障数据和正常数据,分析各个服务之间的网络通信关系和调用关系,从而构建得到全局服务依赖拓扑图;
采用FP-Growth算法进行关联规则挖掘,监控每个服务的运行状态和关键指标,识别得到最早出现故障的服务,并将得到的最早出现故障的服务作为根源服务;
从根源服务触发,递归地向下搜索得到依赖服务,并预测受影响区域;
通过分析故障服务的依赖关系,根据依赖链向上回溯,得到依赖链上的关键故障服务,并确定导致根源服务故障的关键因素;
比较同一故障在不同依赖路径上出现的先后顺序,验证并排除误判的依赖关系,并绘制排除误判的依赖关系后的故障传播路径图,并在排除误判的依赖关系后的故障传播路径图上标识出根源服务和中间传播服务;
根据依赖关系,对故障与依赖的关系进行判定,从而完成业务故障的定位。
28.一种实现权利要求1~27之一所述的基于云边协同的业务故障自动定位方法的系统,其特征在于包括实时数据获取模块、故障预测模块、层级分类模块和故障定位模块;实时数据获取模块用于根据获取的数据,实时获取目标电力系统的云边协同业务的运行数据,并将数据上传故障预测模块;故障预测模块用于根据获取的数据,将实时获取的目标电力系统的云边协同业务的运行数据,输入到训练后的故障预测模型中,得到故障预测结果,进行故障预警,并将数据上传工作频率调整模块,其中所述的训练后的故障预测模型为根据历史运行数据,对故障进行层级分类并对故障数据进行标记得到的训练数据集训练得到的;层级分类模块用于根据获取的数据,根据确定的发生故障的类型,确认故障所对应的层级分类,并将数据上传故障定位模块;故障定位模块用于根据获取的数据,根据故障所对应的层级分类,对故障进行定位,从而完成基于云边协同的业务故障自动定位。
29.根据权利要求28所述的系统,其特征在于还包括历史数据获取模块、训练数据集获取模块和预测模型获取模块;历史数据获取模块用于获取目标电力系统的云边协同业务的历史运行数据,并将数据上传训练数据集获取模块;训练数据集获取模块用于根据获取的目标电力系统的云边协同业务的历史运行数据,对故障进行层级分类,并进行故障数据的标记,得到训练数据集,并将数据上传预测模型获取模块;预测模型获取模块用于根据获取的数据,采用得到的训练数据集,对基于LSTM网络的故障预测模型进行训练,得到训练后的故障预测模型,并将数据上传实时数据获取模块。
30.根据权利要求29所述的系统,其特征在于所述的目标电力系统的云边协同业务的历史运行数据,具体包括CPU利用率数据、网络流量数据、延迟数据和丢包率数据。
31.根据权利要求29所述的系统,其特征在于所述的对故障进行层级分类,具体包括如下步骤:
对故障进行分类:第一层中,包括边缘端故障和云平台故障;第二层中,边缘端故障包括网络故障、计算资源不足故障、存储资源不足故障和边缘端其他故障,云平台故障包括云服务不可用故障、云资源不足故障、云安全故障、业务故障和云平台其他故障。
32.根据权利要求31所述的系统,其特征在于所述的进行故障数据的标记,具体为标记具体的故障类型。
33.根据权利要求31所述的系统,其特征在于所述的采用得到的训练数据集,对基于LSTM网络的故障预测模型进行训练,具体包括如下步骤:
将得到的训练数据集,转换为故障预测模型的输入数据形式:输入数据为三维数据,表示为样本数×时间步数×特征数;
基于LSTM网络的故障预测模型包括了输入层、LSTM层、全连接层和输出层;其中,输入层用于接收输入基于LSTM网络的故障预测模型的数据;LSTM层用于处理数据和提取序列特征;全连接层用于对LSTM所提取的特征进行进一步的处理;输出层用于输出最终的故障预测结果;基于LSTM网络的故障预测模型的输出节点数为故障类型的类别数;
采用训练数据集中的数据进行迭代训练,并最小化损失函数;最后,采用精确率和召回率作为评估指标,对得到的基于LSTM网络的故障预测模型进行评价:若评价合格,则将得到的模型作为训练后的基于LSTM网络的故障预测模型;若评价不合格,则继续对基于LSTM网络的故障预测模型进行训练,直至评价合格。
34.根据权利要求33所述的系统,其特征在于还包括工作频率调整模块;工作频率调整模块串接在故障预测模块和层级分类模块之间,用于工作频率调整模块用于根据获取的数据,当云边协同业务发生故障时,确定发生故障的类型,并实时调整训练后的故障预测模型的工作频率,并将数据上传层级分类模块。
35.根据权利要求34所述的系统,其特征在于所述的当云边协同业务发生故障时,确定发生故障的类型,并实时调整训练后的故障预测模型的工作频率,具体包括如下步骤:
训练后的故障预测模型每X秒进行一次检测;
当云边协同业务发生故障时,按照对故障进行层级分类的结果,确定发生故障的类型;
根据确定的发生故障的类型,调整故障预测模型的工作频率:
若为网络故障,则设置训练后的故障预测模型的检测时间间隔为M1分钟;
若为计算资源不足故障,则设置训练后的故障预测模型的检测时间间隔为H1小时;
若为存储资源不足故障,则设置训练后的故障预测模型的检测时间间隔为H2小时或者H1小时;H1>H2;
若为其他边缘端故障,则设置训练后的故障预测模型的检测时间间隔为M1分钟或者M2分钟,M2>M1;
若为云服务不可用故障,则设置训练后的故障预测模型的检测时间间隔为M1分钟或者M2分钟;
若为云资源不足故障,则设置训练后的故障预测模型的检测时间间隔为M2分钟或者M3分钟,60>M3>M2;
若为云安全故障,则设置训练后的故障预测模型的检测时间间隔为M3分钟或者H2小时;
若为业务故障,则设置训练后的故障预测模型的检测时间间隔为M2分钟或者M3分钟;
若为其他云平台故障,则设置训练后的故障预测模型的检测时间间隔为M2分钟。
36.根据权利要求35所述的系统,其特征在于所述的根据故障所对应的层级分类,对故障进行定位,具体包括如下步骤:
获取故障所对应的层级分类;
根据故障所对应的层级分类,对故障进行定位:
若故障为边缘端故障中的网络故障,则采用网络拓扑分析算法进行网络故障的定位;
若故障为边缘端故障中的计算资源不足故障,则采用负载均衡算法进行计算资源不足故障的定位;
若故障为边缘端故障中的存储资源不足故障,则采用存储容量管理算法进行存储资源不足故障的定位;
若故障为云平台端故障中的云服务不可用故障,则采用心跳检测算法进行云服务不可用故障的定位;
若故障为云平台端故障中的云资源不足故障,则采用资源调度算法进行云资源不足故障的定位;
若故障为云平台端故障中的云安全故障,则采用安全监控算法进行云安全故障的定位;
若故障为云平台端故障中的业务故障,则采用关联分析算法进行业务故障的定位。
37.根据权利要求36所述的系统,其特征在于所述的若故障为边缘端故障中的网络故障,则采用网络拓扑分析算法进行网络故障的定位,具体包括如下步骤:
采集网络拓扑信息;
根据采集到的网络拓扑信息,构建网络拓扑图;在网络拓扑图中,节点为网络设备,边为设备的连接关系;
监测网络状态指标;
采用Dijkstra算法计算网络拓扑图中的最短路径:将起点距离设置为0,将其他节点的距离设置为无穷大,前驱节点设置为空;从所有未访问节点中选择距离起点最近的节点,作为下一个访问节点;重复访问直至网络拓扑图中的最终节点或全部节点均访问完毕;得到最短路径;
通过网络状态检查,对得到的最短路径上的每一条边是否正常工作进行检查:若检测得到某一条边出现故障且未正常工作,则判定该条边所连接的两个节点之间为网络故障的故障位置。
38.根据权利要求37所述的系统,其特征在于所述的网络拓扑信息包括所述的网络拓扑信息包括边缘设备的IP地址、边缘设备的MAC地址、边缘设备的网络拓扑结构信息、云端IP地址、云端MAC地址和云端网络拓扑结构信息。
39.根据权利要求37所述的系统,其特征在于所述的网络状态指标包括网络延迟、网络带宽和网络丢包率。
40.根据权利要求36所述的系统,其特征在于所述的若故障为边缘端故障中的计算资源不足故障,则采用负载均衡算法进行计算资源不足故障的定位,具体包括如下步骤:
采集边缘端设备的计算资源信息;
监测边缘端设备的任务量;
根据获取的计算资源信息和任务量,采用负载均衡器得到处理速度低于设定值的计算资源,并将该计算资源判定为计算资源不足故障的故障位置。
41.根据权利要求40所述的系统,其特征在于所述的计算资源信息,包括CPU利用率、内存利用率和磁盘利用率。
42.根据权利要求40所述的系统,其特征在于所述的边缘端设备的任务量,包括任务类型和任务数量。
43.根据权利要求36所述的系统,其特征在于所述的若故障为边缘端故障中的存储资源不足故障,则采用存储容量管理算法进行存储资源不足故障的定位,具体包括如下步骤:
采集边缘存储设备的存储资源信息;
监测边缘存储设备的文件信息;
根据获取的存储资源信息和文件信息,从边缘存储设备的日志中,获取占用存储空间大于设定值的文件或目录,并将该文件或目录判定为存储资源不足故障的故障位置。
44.根据权利要求43所述的系统,其特征在于所述的存储资源信息,包括磁盘容量和磁盘利用率。
45.根据权利要求43所述的系统,其特征在于所述的文件信息,包括件类型、文件大小和文件访问频率。
46.根据权利要求43所述的系统,其特征在于所述的若故障为边缘端故障中的存储资源不足故障,则采用存储容量管理算法进行存储资源不足故障的定位,还包括如下步骤:
将访问频率低于设定值的文件或数据,存储到云端,并释放边缘存储设备的存储空间。
47.根据权利要求36所述的系统,其特征在于所述的若故障为云平台端故障中的云服务不可用故障,则采用心跳检测算法进行云服务不可用故障的定位,具体包括如下步骤:
采集云服务状态的状态信息;
监测云服务状态的心跳时间和响应时间;
采用Ping命令和TCP三次握手流程实现心跳检测,从而判定云服务是否存活;
根据心跳检测结果和服务状态,对云服务不可用故障的故障源进行定位。
48.根据权利要求47所述的系统,其特征在于所述的云服务状态的状态信息,包括IP地址、端口号和服务状态信息。
49.根据权利要求36所述的系统,其特征在于所述的若故障为云平台端故障中的云资源不足故障,则采用资源调度算法进行云资源不足故障的定位,具体包括如下步骤:
采集云资源的状态信息;
根据系统状态,设定资源状态阈值;
对获取的状态信息与对应的资源状态阈值进行判定:若某状态信息所对应的指标大于对应的资源状态阈值,则判定该状态信息所对应的云资源存在云资源不足故障,从而完成云资源不足故障的定位。
50.根据权利要求49所述的系统,其特征在于所述的状态信息包括资源利用率、带宽利用率、任务类型和任务数量。
51.根据权利要求49所述的系统,其特征在于所述的若故障为云平台端故障中的云资源不足故障,则采用资源调度算法进行云资源不足故障的定位,还包括如下步骤:
为每一种任务类型设定任务类型权重;
为每一种云资源设定云资源权重;
根据设定的任务类型权重和云资源权重,在出现云资源不足故障时,进行云资源的分配:优选将云资源权重更大的云资源分配给任务类型权重更大的任务类型。
52.根据权利要求36所述的系统,其特征在于所述的若故障为云平台端故障中的云安全故障,则采用安全监控算法进行云安全故障的定位,具体包括如下步骤:
采集安全事件的事件信息;
根据安全事件所对应的安全问题,采用入侵检测算法和威胁情报分析算法进行分析,并定位攻击来源,完成云安全故障的定位。
53.根据权利要求52所述的系统,其特征在于所述的安全事件的事件信息,包括攻击类型、攻击来源和攻击目标。
54.根据权利要求36所述的系统,其特征在于所述的若故障为云平台端故障中的业务故障,则采用关联分析算法进行业务故障的定位,具体包括如下步骤:
从网络中的所有节点采集故障数据和正常数据;
根据采集的故障数据和正常数据,分析各个服务之间的网络通信关系和调用关系,从而构建得到全局服务依赖拓扑图;
采用FP-Growth算法进行关联规则挖掘,监控每个服务的运行状态和关键指标,识别得到最早出现故障的服务,并将得到的最早出现故障的服务作为根源服务;
从根源服务触发,递归地向下搜索得到依赖服务,并预测受影响区域;
通过分析故障服务的依赖关系,根据依赖链向上回溯,得到依赖链上的关键故障服务,并确定导致根源服务故障的关键因素;
比较同一故障在不同依赖路径上出现的先后顺序,验证并排除误判的依赖关系,并绘制排除误判的依赖关系后的故障传播路径图,并在排除误判的依赖关系后的故障传播路径图上标识出根源服务和中间传播服务;
根据依赖关系,对故障与依赖的关系进行判定,从而完成业务故障的定位。
55.一种存储介质,其上存储有计算机程序;所述计算机程序被处理器执行时,实现利要求1~27之一所述的居民家用负荷概率预测方法。
CN202311346920.4A 2023-10-17 2023-10-17 基于云边协同的业务故障自动定位方法、系统及存储介质 Pending CN117370060A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311346920.4A CN117370060A (zh) 2023-10-17 2023-10-17 基于云边协同的业务故障自动定位方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311346920.4A CN117370060A (zh) 2023-10-17 2023-10-17 基于云边协同的业务故障自动定位方法、系统及存储介质

Publications (1)

Publication Number Publication Date
CN117370060A true CN117370060A (zh) 2024-01-09

Family

ID=89395970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311346920.4A Pending CN117370060A (zh) 2023-10-17 2023-10-17 基于云边协同的业务故障自动定位方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN117370060A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118037282A (zh) * 2024-04-15 2024-05-14 华中科技大学 基于ai和云技术的电力业务数据智能处理系统与方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118037282A (zh) * 2024-04-15 2024-05-14 华中科技大学 基于ai和云技术的电力业务数据智能处理系统与方法

Similar Documents

Publication Publication Date Title
CN110519365B (zh) 一种变更设备业务的方法和业务变更系统
CN113190423B (zh) 业务数据的监控方法、装置及系统
CN107544839B (zh) 虚拟机迁移系统、方法及装置
CN117370060A (zh) 基于云边协同的业务故障自动定位方法、系统及存储介质
US20210065083A1 (en) Method for changing device business and business change system
CN112769605B (zh) 一种异构多云的运维管理方法及混合云平台
CN111371570B (zh) 一种nfv网络的故障检测方法及装置
CN117729576A (zh) 告警监控方法、装置、设备及存储介质
CN111090401B (zh) 存储设备性能预测方法及装置
CN111324583B (zh) 一种业务日志的分类方法及装置
CN108804210B (zh) 一种云平台的资源配置方法及装置
CN110602070A (zh) 一种网络安全的自动配置管理系统及方法
CN110415136B (zh) 一种电力调度自动化系统服务能力评估系统与方法
CN115767601A (zh) 一种基于多维数据的5gc网元自动化纳管方法及装置
CN116955148A (zh) 业务系统测试方法、装置、设备、存储介质及产品
CN111162929B (zh) 一种分级管理方法和系统
CN114157035A (zh) 一种配电自动化管控方法及系统
CN115174350A (zh) 一种运维告警方法、装置、设备及介质
CN113766363B (zh) 故障监控方法、装置及计算设备
CN111740494B (zh) 基于边缘计算和云计算的数据管理方法及边缘计算平台
CN108574957A (zh) 演进分组核心网设备智能巡检服务器、巡检系统及方法
CN107801150B (zh) 一种基于gps定位轮询基站告警的采集方法及系统
CN117453493B (zh) 大规模多数据中心的gpu算力集群监控方法及系统
CN117786372B (zh) 基于机器学习的分布式光伏发电数据处理方法及系统
Dong et al. Fault Management Mechanism of Multi-party Cooperation in Network Slicing Environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination