CN114257495A - 一种云平台计算节点异常自动处置系统 - Google Patents

一种云平台计算节点异常自动处置系统 Download PDF

Info

Publication number
CN114257495A
CN114257495A CN202111351240.2A CN202111351240A CN114257495A CN 114257495 A CN114257495 A CN 114257495A CN 202111351240 A CN202111351240 A CN 202111351240A CN 114257495 A CN114257495 A CN 114257495A
Authority
CN
China
Prior art keywords
module
utilization rate
analysis module
computing node
cloud platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111351240.2A
Other languages
English (en)
Inventor
李子乾
唐振营
王虎
赵伟
金中超
宋灿
杨睿
杨自兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Co ltd Customer Service Center
Original Assignee
State Grid Co ltd Customer Service Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Co ltd Customer Service Center filed Critical State Grid Co ltd Customer Service Center
Priority to CN202111351240.2A priority Critical patent/CN114257495A/zh
Publication of CN114257495A publication Critical patent/CN114257495A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明属于运维领域,公开了一种云平台计算节点异常自动处置系统,包括采集模块:采集智能运维的数据;访问异常发现模块:判断是否存在日志溢出,如果存在日志溢出则为异常状态;异常原因分析模块:判断异常的原因;消息报送模块:将异常状态对应的计算节点数据及异常的原因报送至运维人员;处置模块:对异常情况进行自动处置或者人工处置;服务状态验证模块:判断处置模块处置后的计算节点是否可以重启;总结模块:记录异常的原因及对应的处置方式。本发明能够对计算节点出现异常的各种原因进行分析,并且根据分析的异常原因采取不同的解决方案,从而实现对部分异常原因的自动处置,减少运维人员的工作量,提高异常处理的效率。

Description

一种云平台计算节点异常自动处置系统
技术领域
本发明属于运维管理技术领域,尤其是一种云平台计算节点异常自动处置系统。
背景技术
国网的智能运维平台主要用于实现数据归集、全量监控、数据分析和智能调度等运维调度要求。在数据归集方面,目前已经归集95598核心业务系统和95598呼叫平台主机、中间件、数据库以及网络数据。网上国网内外网完成主机、数据库、微服务以及网络设备的数据归集。
云服务是基于互联网的相关服务的增加、使用和交互模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。
在云计算领域中为了提供高可用的虚拟化服务,需要尽可能地保持计算节点的服务状态。而当计算节点故障不能提供服务时,需要对问题的原因进行排查以便尽快恢复服务,目前计算节点不能正常服务时,需要由运维人员对问题的原因进行排查,由此可能出现排查较慢,不能及时对问题进行解决,另外还可能会增加运维人员的工作量。针对上述问题,目前并没有相应的解决方案。
发明内容
发明目的:提供一种云平台计算节点异常自动处置系统,以解决现有技术存在的上述问题。
技术方案:一种云平台计算节点异常自动处置系统,包括:
采集模块:通过ELK途径将计算节点数据采集到智能运维的数据归集平台,并通过数据归集平台将数据传递至访问异常发现模块;
访问异常发现模块:通过将计算节点数据对应的系统日志的大小和云平台的内存大小进行比对,判断是否存在日志溢出,如果存在日志溢出则为异常状态;
异常原因分析模块:通过CPU使用率、MEM使用率、文件系统使用率和网络连通性方面判断异常的原因,并将异常的原因和对应的计算节点数据发送至处置模块;
消息报送模块:将异常状态对应的计算节点数据及异常的原因报送至运维人员;
处置模块:根据异常原因分析模块分析的异常原因对异常情况进行自动处置或者人工处置,同时将该计算节点置为异常状态;
服务状态验证模块:根据网络、服务、宿主机状态信息判断处置模块处置后的计算节点是否可以重启;
总结模块:记录异常的原因及对应的处置方式。
进一步的:访问异常发现模块包括内存分析模块和异常比对模块,其中:
内存分析模块:用于分析计算节点数据对应的系统日志的大小;
异常比对模块:用于根据系统日志的大小和实际的云平台内存大小进行比对,判断是否存在内存溢出,如果存在内存溢出,则为异常状态。
通过该技术方案,能够实现通过分析计算节点数据对应的系统日志的大小实现对是否存在内存溢出的判断,从而发现计算节点异常问题。
进一步的:异常原因分析模块包括CPU使用率分析模块、MEM使用率分析模块、文件系统使用率分析模块和网络连通性分析模块,其中网络连通性分析模块用于分析云平台所在服务器的网络连通性,且
CPU使用率分析模块和MEM使用率分析模块连接,MEM使用率分析模块和文件系统使用率分析模块连接,文件系统使用率分析模块和网络连通性分析模块连接;
CPU使用率分析模块、MEM使用率分析模块、文件系统使用率分析模块和网络连通性分析模块均与处置模块连接。
通过该技术方案,能够依次实现对CPU使用率、MEM使用率、文件系统使用率的分析,且发现问题时可以直接将问题传递至处置模块,便于处置模块对相应的问题进行处置。
进一步的:CPU使用率分析模块用于分析云平台的CPU使用率,CPU使用率的阈值为80%,当CPU使用率超过80%时即为CPU异常。
进一步的:MEM使用率分析模块用于分析云平台的MEM使用率,MEM使用率的阈值为80%,当MEM使用率超过80%时即为MEM异常。
进一步的:文件系统使用率分析模块用于分析云平台的文件系统使用率,文件系统使用率的阈值为80%,当文件系统使用率超过80%时即为文件系统异常。
进一步的:处置模块包括自动处置模块,CPU使用率分析模块、MEM使用率分析模块、文件系统使用率分析模块均与自动处置模块连接,自动处置模块用于在CPU异常、MEM异常或者文件系统异常的情况下,按照从前到后的顺序删除数据,从而降低CPU、MEM或者文件系统的使用率。
通过该技术方案,处置模块能够对异常原因分析模块分析出的各种不同的异常原因进行处理,从而加快处理的进度,提升异常处理的效率。
进一步的:处置模块还包括人工处置模块,人工处置模块与网络连通性分析模块连接,用于在网络连通性异常的情况下切换网络或者重启网络。
进一步的:服务状态验证模块包括依次连接的CPU使用率验证模块、MEM使用率验证模块、文件系统使用率验证模块、网络连通性验证模块和判断模块;
当CPU使用率、MEM使用率和文件系统使用率均小于设定的阈值,且网络处于连通状态的情况下,则判断模块判断计算节点可以重启。
本发明公开了一种云平台计算节点异常自动处置系统,具有如下有益效果:
本发明能够对计算节点出现异常的各种原因进行分析,并且根据分析的异常原因采取不同的解决方案,从而实现对部分异常原因的自动处置,减少运维人员的工作量,提高异常处理的效率。
附图说明
图1是本发明的一种云平台计算节点异常自动处置系统的系统框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种云平台计算节点异常自动处置系统,包括采集模块、访问异常发现模块、异常原因分析模块、消息报送模块、处置模块、服务状态验证模块和总结模块,其中,采集模块与异常访问发现模块连接,异常访问发现模块与异常原因分析模块连接,异常访问发现模块和异常原因分析模块均与消息报送模块连接,异常原因分析模块与处置模块连接,处置模块与服务状态验证模块连接,服务状态验证模块与总结模块连接,各模块的主要功能如下。
采集模块:通过ELK途径将计算节点数据采集到智能运维的数据归集平台,并通过数据归集平台将数据传递至访问异常发现模块。
访问异常发现模块:通过将计算节点数据对应的系统日志的大小和云平台的内存大小进行比对,判断是否存在日志溢出,如果存在日志溢出则为异常状态;访问异常发现模块具体包括内存分析模块和异常比对模块,其中内存分析模块用于分析计算节点数据对应的系统日志的大小;异常比对模块:用于根据系统日志的大小和实际的云平台内存大小进行比对,判断是否存在内存溢出,如果存在内存溢出,则为异常状态,在具体比对判断中,如果计算节点对应的系统日志的内存大于云平台的内存,会存在内存溢出的情况,反之则没有内存溢出,存在内存溢出的情况下,即可以认为存在异常。
异常原因分析模块:通过CPU使用率、MEM使用率、文件系统使用率和网络连通性方面判断异常的原因,并将异常的原因和对应的计算节点数据发送至处置模块;其中,异常原因分析模块包括CPU使用率分析模块、MEM使用率分析模块、文件系统使用率分析模块和网络连通性分析模块,其中网络连通性分析模块用于分析云平台所在服务器的网络连通性,CPU使用率分析模块用于分析服务器的CPU使用率,MEM使用率分析模块用于分析服务器的MEM使用率,文件系统使用率分析模块用于分析文件系统的使用率;且CPU使用率分析模块和MEM使用率分析模块连接,MEM使用率分析模块和文件系统使用率分析模块连接,文件系统使用率分析模块和网络连通性分析模块连接,该设计可以实现当通过访问异常发现模块发现存在访问的异常时,异常原因分析模块采用按照CPU使用率分析模块、MEM使用率分析模块、文件系统使用率分析模块和网络连通性分析模块的顺序逐步判断是否存在异常,且CPU使用率分析模块、MEM使用率分析模块、文件系统使用率分析模块和网络连通性分析模块均与处置模块连接,当存在异常时,CPU使用率分析模块、MEM使用率分析模块、文件系统使用率分析模块或者网络连通性分析模块即可以将各自的异常的原因发送至处置模块,从而可以便于处置模块对不同的异常原因进行处置。
消息报送模块:将异常状态对应的计算节点数据及异常的原因报送至运维人员;消息报送模块将异常数据及异常原因报送至运维人员,从而可以便于运维人员及时了解计算节点的工作状态。
处置模块:根据异常原因分析模块分析的异常原因对异常情况进行自动处置或者人工处置,同时将该计算节点置为异常状态;处置模块具体包括自动处置模块和人工处置模块,其中CPU使用率分析模块、MEM使用率分析模块、文件系统使用率分析模块均与自动处置模块连接,当CPU使用率分析模块、MEM使用率分析模块、文件系统使用率分析模块分析出各自当前的使用率超过特定的阈值时,则自动处置模块启动,按照从前到后的顺序删除CPU、MEM或者文件系统的数据,从而降低CPU、MEM或者文件系统的使用率;人工处置模块与网络连通性分析模块连接,人工处置模块用于在网络连通性异常的情况下通过人工对网络进行切换,例如将网络更换至可用网络或者对网络进行重启等。通过对不同的异常原因采取自动处置或者人工处置从而可以提高对异常情况处置的效率,降低运维人员的工作量。
服务状态验证模块:根据网络、服务、宿主机状态信息判断处置模块处置后的计算节点是否可以重启;服务状态验证模块包括依次连接的CPU使用率验证模块、MEM使用率验证模块、文件系统使用率验证模块、网络连通性验证模块和判断模块,其中CPU使用率验证模块用于验证CPU的使用率,MEM使用率验证模块用于验证MEM使用率,文件系统使用率验证模块用于验证文件系统使用率,网络连通性验证模块用于验证网络的连通性,当CPU使用率、MEM使用率和文件系统使用率均小于设定的阈值,且网络处于连通状态的情况下,则判断模块判断计算节点可以重启,从而可以实现对计算节点的重启。
总结模块:记录异常的原因及对应的处置方式,通过总结归纳模块可以方便查看历史异常的异常原因及对应的处置方式,从而便于对异常数据进行多维度(现象、原因、处置方式等)归类,导出报表。
在上述实施例的基础上,CPU使用率分析模块用于分析云平台的CPU使用率,CPU使用率的阈值为80%,当CPU使用率超过80%时即为CPU异常。
在上述实施例的基础上,MEM使用率分析模块用于分析云平台的MEM使用率,MEM使用率的阈值为80%,当MEM使用率超过80%时即为MEM异常。
在上述实施例的基础上,文件系统使用率分析模块用于分析云平台的文件系统使用率情况,文件系统使用率的阈值为80%,当文件系统使用率超过80%时即表示文件系统异常。
以上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种等同变换,这些等同变换均属于本发明的保护范围。

Claims (9)

1.一种云平台计算节点异常自动处置系统,其特征在于,包括:
采集模块:通过ELK途径将计算节点数据采集到智能运维的数据归集平台,并通过数据归集平台将数据传递至访问异常发现模块;
访问异常发现模块:通过将计算节点数据对应的系统日志的大小和云平台的内存大小进行比对,判断是否存在日志溢出,如果存在日志溢出则为异常状态;
异常原因分析模块:通过CPU使用率、MEM使用率、文件系统使用率和网络连通性方面判断异常的原因,并将异常的原因和对应的计算节点数据发送至处置模块;
消息报送模块:将异常状态对应的计算节点数据及异常的原因报送至运维人员;
处置模块:根据异常原因分析模块分析的异常原因对异常情况进行自动处置或者人工处置,同时将该计算节点置为异常状态;
服务状态验证模块:根据网络、服务、宿主机状态信息判断处置模块处置后的计算节点是否可以重启;
总结模块:记录异常的原因及对应的处置方式。
2.根据权利要求1所述的一种云平台计算节点异常自动处置系统,其特征在于:访问异常发现模块包括内存分析模块和异常比对模块,其中:
内存分析模块:用于分析计算节点数据对应的系统日志的大小;
异常比对模块:用于根据系统日志的大小和实际的云平台内存大小进行比对,判断是否存在内存溢出,如果存在内存溢出,则为异常状态。
3.根据权利要求2所述的一种云平台计算节点异常自动处置系统,其特征在于:异常原因分析模块包括CPU使用率分析模块、MEM使用率分析模块、文件系统使用率分析模块和网络连通性分析模块,其中网络连通性分析模块用于分析云平台所在服务器的网络连通性,且
CPU使用率分析模块和MEM使用率分析模块连接,MEM使用率分析模块和文件系统使用率分析模块连接,文件系统使用率分析模块和网络连通性分析模块连接;
CPU使用率分析模块、MEM使用率分析模块、文件系统使用率分析模块和网络连通性分析模块均与处置模块连接。
4.根据权利要求3所述的一种云平台计算节点异常自动处置系统,其特征在于:CPU使用率分析模块用于分析云平台的CPU使用率,CPU使用率的阈值为80%,当CPU使用率超过80%时即为CPU异常。
5.根据权利要求3所述的一种云平台计算节点异常自动处置系统,其特征在于:
MEM使用率分析模块用于分析云平台的MEM使用率,MEM使用率的阈值为80%,当MEM使用率超过80%时即为MEM异常。
6.根据权利要求3所述的一种云平台计算节点异常自动处置系统,其特征在于:
文件系统使用率分析模块用于分析云平台的文件系统使用率,文件系统使用率的阈值为80%,当文件系统使用率超过80%时即为文件系统异常。
7.根据权利要求3所述的一种云平台计算节点异常自动处置系统,其特征在于:处置模块包括自动处置模块,CPU使用率分析模块、MEM使用率分析模块、文件系统使用率分析模块均与自动处置模块连接,自动处置模块用于在CPU异常、MEM异常或者文件系统异常的情况下,按照从前到后的顺序删除数据,从而降低CPU、MEM或者文件系统的使用率。
8.根据权利要求7所述的一种云平台计算节点异常自动处置系统,其特征在于:处置模块还包括人工处置模块,人工处置模块与网络连通性分析模块连接,用于在网络连通性异常的情况下切换网络或者重启网络。
9.根据权利要求1所述的一种云平台计算节点异常自动处置系统,其特征在于:服务状态验证模块包括依次连接的CPU使用率验证模块、MEM使用率验证模块、文件系统使用率验证模块、网络连通性验证模块和判断模块;
当CPU使用率、MEM使用率和文件系统使用率均小于设定的阈值,且网络处于连通状态的情况下,则判断模块判断计算节点可以重启。
CN202111351240.2A 2021-11-16 2021-11-16 一种云平台计算节点异常自动处置系统 Pending CN114257495A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111351240.2A CN114257495A (zh) 2021-11-16 2021-11-16 一种云平台计算节点异常自动处置系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111351240.2A CN114257495A (zh) 2021-11-16 2021-11-16 一种云平台计算节点异常自动处置系统

Publications (1)

Publication Number Publication Date
CN114257495A true CN114257495A (zh) 2022-03-29

Family

ID=80790895

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111351240.2A Pending CN114257495A (zh) 2021-11-16 2021-11-16 一种云平台计算节点异常自动处置系统

Country Status (1)

Country Link
CN (1) CN114257495A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103167004A (zh) * 2011-12-15 2013-06-19 中国移动通信集团上海有限公司 云平台主机系统故障修复方法及云平台前端控制服务器
CN105204973A (zh) * 2015-09-25 2015-12-30 浪潮集团有限公司 云平台下基于虚拟机技术的异常行为监测分析系统及方法
CN105245381A (zh) * 2015-10-22 2016-01-13 上海斐讯数据通信技术有限公司 云服务器宕机监控迁移系统和方法
CN107070720A (zh) * 2017-04-26 2017-08-18 深圳市神云科技有限公司 云平台异常事件的监控及自动处理的方法和框架
US20180024909A1 (en) * 2016-07-25 2018-01-25 International Business Machines Corporation Monitoring growth of memory buffers in logging and dynamically adapting quantity and detail of logging
US20190036798A1 (en) * 2016-03-31 2019-01-31 Alibaba Group Holding Limited Method and apparatus for node processing in distributed system
CN109660537A (zh) * 2018-12-20 2019-04-19 武汉钢铁工程技术集团通信有限责任公司 一种实时监控及维护云平台物理资源服务运行状态的方法
CN110191016A (zh) * 2019-05-21 2019-08-30 深信服科技股份有限公司 云平台业务监控方法、装置、设备、系统及可读存储介质
CN110505114A (zh) * 2019-07-23 2019-11-26 昆明理工大学 一种云计算环境下节点异常判断方法
CN110912755A (zh) * 2019-12-16 2020-03-24 浪潮云信息技术有限公司 一种云环境下网卡故障监控与自动恢复的系统及方法
CN113553238A (zh) * 2021-07-23 2021-10-26 浪潮云信息技术股份公司 云平台资源异常自动处理系统及方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103167004A (zh) * 2011-12-15 2013-06-19 中国移动通信集团上海有限公司 云平台主机系统故障修复方法及云平台前端控制服务器
CN105204973A (zh) * 2015-09-25 2015-12-30 浪潮集团有限公司 云平台下基于虚拟机技术的异常行为监测分析系统及方法
CN105245381A (zh) * 2015-10-22 2016-01-13 上海斐讯数据通信技术有限公司 云服务器宕机监控迁移系统和方法
US20190036798A1 (en) * 2016-03-31 2019-01-31 Alibaba Group Holding Limited Method and apparatus for node processing in distributed system
US20180024909A1 (en) * 2016-07-25 2018-01-25 International Business Machines Corporation Monitoring growth of memory buffers in logging and dynamically adapting quantity and detail of logging
CN107070720A (zh) * 2017-04-26 2017-08-18 深圳市神云科技有限公司 云平台异常事件的监控及自动处理的方法和框架
CN109660537A (zh) * 2018-12-20 2019-04-19 武汉钢铁工程技术集团通信有限责任公司 一种实时监控及维护云平台物理资源服务运行状态的方法
CN110191016A (zh) * 2019-05-21 2019-08-30 深信服科技股份有限公司 云平台业务监控方法、装置、设备、系统及可读存储介质
CN110505114A (zh) * 2019-07-23 2019-11-26 昆明理工大学 一种云计算环境下节点异常判断方法
CN110912755A (zh) * 2019-12-16 2020-03-24 浪潮云信息技术有限公司 一种云环境下网卡故障监控与自动恢复的系统及方法
CN113553238A (zh) * 2021-07-23 2021-10-26 浪潮云信息技术股份公司 云平台资源异常自动处理系统及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
周映;韩晓霞;: "ELK日志分析平台在电子商务系统监控服务中的应用", 信息技术与标准化, no. 07, 10 July 2016 (2016-07-10) *
姚攀;马玉鹏;徐春香;: "基于ELK的日志分析系统研究及应用", 计算机工程与设计, no. 07, 16 July 2018 (2018-07-16) *
杨岚;: "基于ITIL的综合资源网络监控方案设计", 长春大学学报, no. 08, 30 August 2016 (2016-08-30) *

Similar Documents

Publication Publication Date Title
CN107992398B (zh) 一种业务系统的监控方法和监控系统
CN111176879A (zh) 设备的故障修复方法及装置
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和系统
WO2016188100A1 (zh) 信息系统故障场景信息收集方法及系统
CN113268399B (zh) 一种告警处理方法、装置和电子设备
CN110231998B (zh) 分布式定时任务的检测方法、装置及存储介质
CN110716842A (zh) 集群故障检测方法和装置
CN109034580B (zh) 一种基于大数据分析的信息系统整体健康度评估方法
CN111865695A (zh) 一种云环境下自动故障处理的方法及系统
CN114500250A (zh) 一种云模式下体系联动的综合运维系统及方法
CN108234189B (zh) 一种告警数据处理方法和装置
CN104574219A (zh) 电网业务信息系统运行工况的监测预警方法及系统
CN115529595A (zh) 一种日志数据的异常检测方法、装置、设备及介质
CN112596975A (zh) 对网络设备进行监控处理的方法、系统、设备和存储介质
CN112084087A (zh) 一种工业设备状态监控与运维管理方法、系统
CN113206797A (zh) 一种流量控制方法、装置、电子设备和存储介质
CN108809729A (zh) 一种分布式系统中ctdb服务的故障处理方法及装置
CN110912755A (zh) 一种云环境下网卡故障监控与自动恢复的系统及方法
CN113760634A (zh) 一种数据处理方法和装置
CN110609761B (zh) 确定故障源的方法、装置、存储介质和电子设备
CN114257495A (zh) 一种云平台计算节点异常自动处置系统
CN116645082A (zh) 一种系统巡检方法、装置、设备以及存储介质
CN114244685A (zh) 一种云服务中心访问异常处置系统
KR20170127876A (ko) 로그 결함 분석 기반 장애 대응 시스템 및 방법
CN113472881A (zh) 在线终端设备的统计方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination