CN109343987A - It系统故障诊断及修复方法、装置、设备、存储介质 - Google Patents

It系统故障诊断及修复方法、装置、设备、存储介质 Download PDF

Info

Publication number
CN109343987A
CN109343987A CN201810949874.XA CN201810949874A CN109343987A CN 109343987 A CN109343987 A CN 109343987A CN 201810949874 A CN201810949874 A CN 201810949874A CN 109343987 A CN109343987 A CN 109343987A
Authority
CN
China
Prior art keywords
application
performance data
fault diagnosis
data
system fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810949874.XA
Other languages
English (en)
Inventor
熊钰才
唐银春
汪伟伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Section Big Country Wound Software Inc Co
Original Assignee
Section Big Country Wound Software Inc Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Section Big Country Wound Software Inc Co filed Critical Section Big Country Wound Software Inc Co
Priority to CN201810949874.XA priority Critical patent/CN109343987A/zh
Publication of CN109343987A publication Critical patent/CN109343987A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种IT系统故障诊断及修复方法、装置、设备、存储介质,属于信息技术及用户界面技术领域,该方法包括以下步骤:通过部署pinpoint,获取应用系统的性能数据及内容模块之间的实时调用关系;结合采集到的性能数据和调用关系分析性能异常指标项或服务调用失败关系;根据分析结果结合基础设施监控性能数据、应用日志异常数据定位出故障的根本原因;通过自动化操控执行相关脚本或命令,完成系统故障的修复。本发明示例的技术方案,解决了现有应用监控只能监控应用相关性能参数,无法定位故障,更不能对故障实现自我修复的问题,有效的提高了用户体验和用户感知,减轻用户工作量,大幅提高运维效率。

Description

IT系统故障诊断及修复方法、装置、设备、存储介质
技术领域
本发明涉及信息技术及用户界面技术领域,具体地说是一种IT系统故障诊断及修复方法、装置、设备、存储介质。
背景技术
随着IT建设的不断深入和完善,在提供完美最终用户体验的同时,还要以更快的速度提供更多服务。而这些压力可能导致随着时间跨物理、虚拟、混合云和已有环境建立了复杂的复合应用,使IT组织难以确保最佳性能、提供最终用户所需的完美体验、降低复杂性,结果导致在问题出现时只会在互相指责中浪费时间,不能定位故障产生的原因,更不能对故障进行修复。
综上所述,现有应用监控系统只能监控性能警告,无法实现故障诊断并修复,用户体验和用户感知较差。
发明内容
为了解决上述现有技术中存在的问题,本发明的目的在于提供一种IT系统故障诊断及修复方法、装置、设备、存储介质,有效的提高了用户体验和用户感知,方便用户快速定位故障产生的根本原因,对于常见问题能够自动修复,大幅提高运维效率。
本发明所采用的技术方案为:
一方面,本发明提供了一种IT系统故障诊断及修复方法,包括以下步骤:
通过部署pinpoint,获取应用系统的性能数据及内容模块之间的实时调用关系;
结合采集到的性能数据和调用关系分析性能异常指标项或服务调用失败关系;
根据分析结果结合基础设施监控性能数据、应用日志异常数据定位出故障的根本原因;
通过自动化操控执行相关脚本或命令,完成系统故障的修复。
进一步的,所述部署pinpoint,包括收集器(Collector)、控制台(Web)及代理(Agent),采用HBase进行存储,代理部署在被监控应用系统内。
进一步的,基于pinpoint的能力,在pinpoint部署完成的基础上,对需要监控的应用进程打上探针,通过探针采集应用进程的性能数据及以此进程为中心的服务间的调用关系,存储到HBase数据库中。
进一步的,所述对需要监控的应用进程打上探针,为配置pinpoint-agent采集器,在不侵入应用的情况下通过修改配置的方式实现应用的监控。
进一步的,所述结合采集到的性能数据和调用关系分析性能异常指标项或服务调用失败关系,包括:
分析基于HBase存储的应用性能数据和服务调用状态及次数数据;
应用性能数据超过或低于设定门限值即判定应用性能为异常;
服务调用失败次数超过设定比例即判定服务调用为异常。
进一步的,所述基础设施监控性能数据至少包括主机、网络设备和数据库的CPU、内存和磁盘空间数据;
和/或,
所述应用日志异常数据至少包括应用日志打印的错误数据、中断数据及应用日志僵死。
另一方面,本发明还提供了一种IT系统故障诊断及修复装置,包括:
采集模块,配置用于通过部署pinpoint,获取应用系统的性能数据及内容模块之间的实时调用关系;
分析模块,配置用于结合采集到的性能数据和调用关系分析性能异常指标项或服务调用失败关系;
定位模块,配置用于根据分析结果结合基础设施监控性能数据、应用日志异常数据定位出故障的根本原因;
修复模块,配置用于通过自动化操控执行相关脚本或命令,完成系统故障的修复。
进一步的,所述修复模块内设置有自动化操控模块,自动化操控模块用于将编写的命令或预先制定的脚本下发到指定机器上并执行,并且能够将多个操作按照一定的顺序进行编排来应对相应场景,从而实现故障的预处理和修复。
另一方面,本发明还提供了一种设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行本发明示例的任一种IT系统故障诊断及修复方法。
另一方面,本发明还提供了一种存储有计算机程序的计算机可读存储介质,该程序被处理器执行时实现本发明示例的任一种IT系统故障诊断及修复方法。
与现有技术相比,本发明的有益效果为:
本发明示例的IT系统故障诊断及修复方法,能够根据分析结果结合基础设施监控性能数据、应用日志异常数据定位出故障的根本原因,有效的提高了用户体验和用户感知,方便用户快速定位故障产生的根本原因;通过自动化操控执行相关脚本或命令,对于常见问题能够自动修复,大幅提高运维效率,解决现有应用监控系统只能监控性能告警,无法实现故障诊断并修复的技术问题。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本发明实施例方法的步骤示意图;
图2为本发明实施例方法的流程示意图;
图3为本发明实施例方法的故障修复的步骤示意图;
图4为本发明实施例装置的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
如图1所示,本发明的一个实施例提供了一种IT系统故障诊断及修复方法,包括以下步骤:
S1:通过部署pinpoint,获取应用系统的性能数据及内容模块之间的实时调用关系;
S2:结合采集到的性能数据和调用关系分析性能异常指标项或服务调用失败关系;
S3:根据分析结果结合基础设施监控性能数据、应用日志异常数据定位出故障的根本原因;
S4:通过自动化操控执行相关脚本或命令,完成系统故障的修复。
S1中,所述部署pinpoint,包括收集器(Collector)、控制台(Web)及代理(Agent),采用HBase进行存储,Agent需要部署在被监控应用系统内。
基于pinpoint的能力,在pinpoint部署完成的基础上,对需要监控的应用进程打上探针(Agent),即可通过探针采集应用进程的性能数据及以此进程为中心的服务间的调用关系,存储到HBase数据库中。
Hbase是一个分布式的、面向列的开源数据库,pinpoint用来存储监控信息,经过二次开发获取Hbase中存储的监控信息用来实现异常分析。
对需要监控的应用进程打上探针,是指配置pinpoint-agent采集器,在不侵入应用的情况下通过修改配置的方式实现应用的监控。
S1中pinpoint采集的仅为应用性能数据,为了关联分析定位原因还需要采集基础设施监控性能数据和应用日志异常数据,基础设施监控性能数据和应用日志异常数据通过脚本采集,基础设施监控性能数据包括主机、网络设备、数据库等的CPU、内存、磁盘空间等数据;应用日志异常数据主要包括日志错误关键字检索和统计日志文件大小判断应用进程是否僵死等。
S2中,以系统故障现象为入口,以应用异常为切入点,两者建立关联关系,快速分析异常现象,辅助定位故障原因。
所述结合采集到的性能数据和调用关系分析性能异常指标项或服务调用失败关系,包括:
分析基于HBase存储的应用性能数据和服务调用状态及次数数据;
应用性能数据超过或低于设定门限值即判定应用性能为异常;
服务调用失败次数超过设定比例即判定服务调用为异常。
将采集到的应用性能数据和调用关系从Hbase中取出,首先分析应用性能数据,将应用性能数据与预先配置的门限数据比较,超过或低于门限即认为异常;其次分析服务调用数据,根据一定时间内服务调用失败的比例判断是否异常。
S3中,根据S2中被判定为异常的应用性能和服务调用,结合基础设施监控性能数据、应用日志异常数据,判断故障的根本原因。所述基础设施监控性能数据包括主机、网络设备、数据库等的CPU、内存、磁盘空间等数据,帮助定位故障原因;所述应用日志异常数据包括应用日志打印的错误数据、中断数据及应用日志僵死等,通过分析应用日志的异常来帮助定位故障原因。
如图2所示,系统使用异常时,先判断是异常类型,若是应用服务异常先查询被调异常服务的应用性能指标,若应用性能指标异常则直接定位根因,若应用性能指标正常查看被调异常服务所在的基础设施性能指标,若基础设施性能指标异常则定位根因,若基础设施性能指标正常查看应用日志相关信息定位根因;若是数据库服务异常,则查看基础设施中数据库性能指标定位根因。
对于无法定位根因的,系统自动生成告警提示。
S4中,当定位故障根因后,通过自动化操控执行相关脚本或命令,或重启进程或释放资源或修改配置等完成故障的修复。对于无法自动修复的故障,如磁盘不足且没有可释放的资源时,给出修复建议如扩充磁盘等帮助运维人员快速处理问题。大部分故障都可以通过调用自动化操控的能力,在相应设备上执行相关脚本或命令,完成系统故障的修复,实现故障预处理,极大的减轻用户工作量提高用户感知。
如图3所示,S4具体包括:
S41,定位根因;
S42,选择或添加修复脚本或命令;
S43,对多个脚本或命令按一定的顺序编排;
S44,下发至需要修复的机器;
S45,执行。
当定位故障根因后,如果对应修复脚本或命令存在则直接选择,若不存在则添加;如果脚本或命令有多个则进行编排,按照一定的顺序去组合;将编排好的修复脚本或命令下发至需要修复的机器并执行,完成故障的修复。
如图4所示,另一方面,本实施例还提供了一种IT系统故障诊断及修复装置,包括:
采集模块,配置用于通过部署pinpoint,获取应用系统的性能数据及内容模块之间的实时调用关系;
分析模块,配置用于结合采集到的性能数据和调用关系分析性能异常指标项或服务调用失败关系;
定位模块,配置用于根据分析结果结合基础设施监控性能数据、应用日志异常数据定位出故障的根本原因;
修复模块,配置用于通过自动化操控执行相关脚本或命令,完成系统故障的修复。
所述自动化操控是IT运维系统的一个模块,修复模块内设置有自动化操控模块,自动化操控模块用于将编写的命令或预先制定的脚本下发到指定机器上并执行,并且能够将多个操作按照一定的顺序进行编排来应对相应场景,从而实现故障的预处理和修复。
另一方面,本实施例还提供了一种设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行本实施例的IT系统故障诊断及修复方法。
描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中。这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
此外,本实施例还提供了一种存储有计算机程序的计算机可读存储介质,该程序被处理器执行时实现本实施例的IT系统故障诊断及修复方法。该计算机可读存储介质可以是上述实施例中所述系统或设备中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质,如硬盘、光盘、SD卡等。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
除说明书所述的技术特征外,其余技术特征为本领域技术人员的已知技术,为突出本发明的创新特点,其余技术特征在此不再赘述。

Claims (10)

1.一种IT系统故障诊断及修复方法,其特征在于,包括以下步骤:
通过部署pinpoint,获取应用系统的性能数据及内容模块之间的实时调用关系;
结合采集到的性能数据和调用关系分析性能异常指标项或服务调用失败关系;
根据分析结果结合基础设施监控性能数据、应用日志异常数据定位出故障的根本原因;
通过自动化操控执行相关脚本或命令,完成系统故障的修复。
2.根据权利要求1所述的IT系统故障诊断及修复方法,其特征在于,所述部署pinpoint,包括收集器、控制台及代理,采用HBase进行存储,代理部署在被监控应用系统内。
3.根据权利要求2所述的IT系统故障诊断及修复方法,其特征在于,基于pinpoint的能力,在pinpoint部署完成的基础上,对需要监控的应用进程打上探针,通过探针采集应用进程的性能数据及以此进程为中心的服务间的调用关系,存储到HBase数据库中。
4.根据权利要求3所述的IT系统故障诊断及修复方法,其特征在于,所述对需要监控的应用进程打上探针,为配置pinpoint-agent采集器,在不侵入应用的情况下通过修改配置的方式实现应用的监控。
5.根据权利要求2所述的IT系统故障诊断及修复方法,其特征在于,所述结合采集到的性能数据和调用关系分析性能异常指标项或服务调用失败关系,包括:
分析基于HBase存储的应用性能数据和服务调用状态及次数数据;
应用性能数据超过或低于设定门限值即判定应用性能为异常;
服务调用失败次数超过设定比例即判定服务调用为异常。
6.根据权利要求1所述的IT系统故障诊断及修复方法,其特征在于,所述基础设施监控性能数据至少包括主机、网络设备和数据库的CPU、内存和磁盘空间数据;
和/或,
所述应用日志异常数据至少包括应用日志打印的错误数据、中断数据及应用日志僵死。
7.一种IT系统故障诊断及修复装置,其特征在于,包括:
采集模块,配置用于通过部署pinpoint,获取应用系统的性能数据及内容模块之间的实时调用关系;
分析模块,配置用于结合采集到的性能数据和调用关系分析性能异常指标项或服务调用失败关系;
定位模块,配置用于根据分析结果结合基础设施监控性能数据、应用日志异常数据定位出故障的根本原因;
修复模块,配置用于通过自动化操控执行相关脚本或命令,完成系统故障的修复。
8.根据权利要求7所述的IT系统故障诊断及修复装置,其特征在于,所述修复模块内设置有自动化操控模块,自动化操控模块用于将编写的命令或预先制定的脚本下发到指定机器上并执行,并且能够将多个操作按照一定的顺序进行编排来应对相应场景,从而实现故障的预处理和修复。
9.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1-6任一所述的IT系统故障诊断及修复方法。
10.一种存储有计算机程序的计算机可读存储介质,其特征在于,该程序被处理器执行时实现如权利要求1-6任一所述的IT系统故障诊断及修复方法。
CN201810949874.XA 2018-08-20 2018-08-20 It系统故障诊断及修复方法、装置、设备、存储介质 Pending CN109343987A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810949874.XA CN109343987A (zh) 2018-08-20 2018-08-20 It系统故障诊断及修复方法、装置、设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810949874.XA CN109343987A (zh) 2018-08-20 2018-08-20 It系统故障诊断及修复方法、装置、设备、存储介质

Publications (1)

Publication Number Publication Date
CN109343987A true CN109343987A (zh) 2019-02-15

Family

ID=65291771

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810949874.XA Pending CN109343987A (zh) 2018-08-20 2018-08-20 It系统故障诊断及修复方法、装置、设备、存储介质

Country Status (1)

Country Link
CN (1) CN109343987A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109960690A (zh) * 2019-03-18 2019-07-02 新华三大数据技术有限公司 一种大数据集群的运行维护方法及装置
CN110262955A (zh) * 2019-06-25 2019-09-20 四川长虹电器股份有限公司 基于pinpoint的应用性能监控工具
CN110515758A (zh) * 2019-08-27 2019-11-29 北京博睿宏远数据科技股份有限公司 一种故障定位方法、装置、计算机设备及存储介质
CN110750376A (zh) * 2019-08-30 2020-02-04 苏州浪潮智能科技有限公司 一种服务器系统故障采集处理方法、装置及存储介质
CN110855503A (zh) * 2019-11-22 2020-02-28 叶晓斌 一种基于网络协议层级依赖关系的故障定因方法和系统
CN110888780A (zh) * 2019-11-19 2020-03-17 泰康保险集团股份有限公司 应用监控方法、装置、设备及存储介质
CN111181767A (zh) * 2019-12-10 2020-05-19 中国航空工业集团公司成都飞机设计研究所 一种面向复杂系统的监控和故障自愈系统及其方法
CN111444032A (zh) * 2020-03-04 2020-07-24 无锡华云数据技术服务有限公司 一种计算机系统故障修复方法、系统及设备
CN112579402A (zh) * 2020-12-14 2021-03-30 中国建设银行股份有限公司 一种应用系统故障定位的方法和装置
CN112835662A (zh) * 2019-11-25 2021-05-25 深信服科技股份有限公司 桌面云场景下虚拟机运维方法、系统、设备及计算机介质
CN112948013A (zh) * 2019-12-24 2021-06-11 深圳市明源云科技有限公司 一种应用探针配置方法、装置、终端设备及存储介质
CN112948224A (zh) * 2019-12-23 2021-06-11 深圳市明源云科技有限公司 一种数据处理方法、装置、终端及存储介质
CN112966056A (zh) * 2021-04-19 2021-06-15 马上消费金融股份有限公司 一种信息处理方法、装置、设备、系统及可读存储介质
CN114090411A (zh) * 2022-01-20 2022-02-25 山东中创软件商用中间件股份有限公司 一种应用数据分析方法、装置、设备及可读存储介质
CN114553732A (zh) * 2022-03-08 2022-05-27 北京月新时代科技股份有限公司 一种基于设备自动化获取设备性能的技术
CN115664939A (zh) * 2022-12-28 2023-01-31 中国电子科技集团公司第十五研究所 一种基于自动化技术的综合运维方法、装置和存储介质
CN115994044A (zh) * 2023-01-09 2023-04-21 苏州浪潮智能科技有限公司 基于监控服务的数据库故障处理方法、装置及分布式集群
WO2023104219A1 (zh) * 2021-12-07 2023-06-15 广州地铁集团有限公司 基于物联网轨道交通软件与应用故障自愈的解决方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101394314A (zh) * 2008-10-20 2009-03-25 北京邮电大学 一种Web应用系统的故障定位方法
US20110179160A1 (en) * 2010-01-21 2011-07-21 Microsoft Corporation Activity Graph for Parallel Programs in Distributed System Environment
CN106446289A (zh) * 2016-11-11 2017-02-22 无锡雅座在线科技发展有限公司 基于Pinpoint的信息查询方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101394314A (zh) * 2008-10-20 2009-03-25 北京邮电大学 一种Web应用系统的故障定位方法
US20110179160A1 (en) * 2010-01-21 2011-07-21 Microsoft Corporation Activity Graph for Parallel Programs in Distributed System Environment
CN106446289A (zh) * 2016-11-11 2017-02-22 无锡雅座在线科技发展有限公司 基于Pinpoint的信息查询方法和装置

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109960690A (zh) * 2019-03-18 2019-07-02 新华三大数据技术有限公司 一种大数据集群的运行维护方法及装置
CN110262955A (zh) * 2019-06-25 2019-09-20 四川长虹电器股份有限公司 基于pinpoint的应用性能监控工具
CN110515758A (zh) * 2019-08-27 2019-11-29 北京博睿宏远数据科技股份有限公司 一种故障定位方法、装置、计算机设备及存储介质
CN110515758B (zh) * 2019-08-27 2023-03-31 北京博睿宏远数据科技股份有限公司 一种故障定位方法、装置、计算机设备及存储介质
CN110750376A (zh) * 2019-08-30 2020-02-04 苏州浪潮智能科技有限公司 一种服务器系统故障采集处理方法、装置及存储介质
CN110750376B (zh) * 2019-08-30 2022-10-18 苏州浪潮智能科技有限公司 一种服务器系统故障采集处理方法、装置及存储介质
CN110888780A (zh) * 2019-11-19 2020-03-17 泰康保险集团股份有限公司 应用监控方法、装置、设备及存储介质
CN110855503A (zh) * 2019-11-22 2020-02-28 叶晓斌 一种基于网络协议层级依赖关系的故障定因方法和系统
CN112835662A (zh) * 2019-11-25 2021-05-25 深信服科技股份有限公司 桌面云场景下虚拟机运维方法、系统、设备及计算机介质
CN111181767A (zh) * 2019-12-10 2020-05-19 中国航空工业集团公司成都飞机设计研究所 一种面向复杂系统的监控和故障自愈系统及其方法
CN112948224A (zh) * 2019-12-23 2021-06-11 深圳市明源云科技有限公司 一种数据处理方法、装置、终端及存储介质
CN112948224B (zh) * 2019-12-23 2023-10-10 深圳市明源云科技有限公司 一种数据处理方法、装置、终端及存储介质
CN112948013A (zh) * 2019-12-24 2021-06-11 深圳市明源云科技有限公司 一种应用探针配置方法、装置、终端设备及存储介质
CN112948013B (zh) * 2019-12-24 2023-10-10 深圳市明源云科技有限公司 一种应用探针配置方法、装置、终端设备及存储介质
CN111444032A (zh) * 2020-03-04 2020-07-24 无锡华云数据技术服务有限公司 一种计算机系统故障修复方法、系统及设备
CN112579402A (zh) * 2020-12-14 2021-03-30 中国建设银行股份有限公司 一种应用系统故障定位的方法和装置
CN112966056A (zh) * 2021-04-19 2021-06-15 马上消费金融股份有限公司 一种信息处理方法、装置、设备、系统及可读存储介质
CN112966056B (zh) * 2021-04-19 2022-04-08 马上消费金融股份有限公司 一种信息处理方法、装置、设备、系统及可读存储介质
WO2023104219A1 (zh) * 2021-12-07 2023-06-15 广州地铁集团有限公司 基于物联网轨道交通软件与应用故障自愈的解决方法
CN114090411A (zh) * 2022-01-20 2022-02-25 山东中创软件商用中间件股份有限公司 一种应用数据分析方法、装置、设备及可读存储介质
CN114553732A (zh) * 2022-03-08 2022-05-27 北京月新时代科技股份有限公司 一种基于设备自动化获取设备性能的技术
CN115664939B (zh) * 2022-12-28 2023-06-02 中国电子科技集团公司第十五研究所 一种基于自动化技术的综合运维方法和存储介质
CN115664939A (zh) * 2022-12-28 2023-01-31 中国电子科技集团公司第十五研究所 一种基于自动化技术的综合运维方法、装置和存储介质
CN115994044B (zh) * 2023-01-09 2023-06-13 苏州浪潮智能科技有限公司 基于监控服务的数据库故障处理方法、装置及分布式集群
CN115994044A (zh) * 2023-01-09 2023-04-21 苏州浪潮智能科技有限公司 基于监控服务的数据库故障处理方法、装置及分布式集群

Similar Documents

Publication Publication Date Title
CN109343987A (zh) It系统故障诊断及修复方法、装置、设备、存储介质
CN108763957B (zh) 一种数据库的安全审计系统、方法及服务器
US9448916B2 (en) Software test automation systems and methods
CN103699111B (zh) 分布式监控系统的故障检测方法和装置
US10545807B2 (en) Method and system for acquiring parameter sets at a preset time interval and matching parameters to obtain a fault scenario type
CN110309130A (zh) 一种用于主机性能监控的方法及装置
CN106201828A (zh) 一种基于数据挖掘的虚拟机故障检测方法和系统
CN105337765A (zh) 一种分布式hadoop集群故障自动诊断修复系统
CN111913133A (zh) 分布式故障诊断维修方法、装置、设备及计算机可读介质
CN107451040A (zh) 故障原因的定位方法、装置及计算机可读存储介质
CN110855521B (zh) 基于网络化的测试系统在线监测与故障诊断软件平台
JP2007042082A (ja) 診断システム
CN108959101A (zh) 测试结果处理方法、装置、设备及存储器软件测试系统
CN116016123A (zh) 故障处理方法、装置、设备及介质
CN102546235B (zh) 云计算环境下面向web应用的性能诊断方法和系统
Kothapalli et al. Continual monitoring of code quality
WO2024098986A1 (zh) 一种基于智能录波器的继电保护装置缺陷检测方法及系统
CN111198902A (zh) 元数据管理方法、装置、存储介质及电子设备
CN113626236B (zh) 一种分布式文件系统的故障诊断方法、装置、设备及介质
CN114066181A (zh) 一种热工设备智能状态评估系统
CN113626288A (zh) 故障处理方法、系统、装置、存储介质和电子设备
CN112799957A (zh) 基于用户行为的故障处理方法、系统、设备和介质
Wu et al. An empirical study on change-induced incidents of online service systems
JP2007052756A (ja) ワイヤレスデバイスの不具合診断に適用する学習型診断データベース
CN114090382B (zh) 超融合集群健康巡检方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190215

RJ01 Rejection of invention patent application after publication