CN111679955B - 用于应用服务器的监控诊断和快照分析系统 - Google Patents

用于应用服务器的监控诊断和快照分析系统 Download PDF

Info

Publication number
CN111679955B
CN111679955B CN202010798123.XA CN202010798123A CN111679955B CN 111679955 B CN111679955 B CN 111679955B CN 202010798123 A CN202010798123 A CN 202010798123A CN 111679955 B CN111679955 B CN 111679955B
Authority
CN
China
Prior art keywords
server
module
fault
snapshot
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010798123.XA
Other languages
English (en)
Other versions
CN111679955A (zh
Inventor
于洋
李蕾
王鹏亮
黄锋
蒋平川
李利军
于滨峰
张春林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dongfangtong Software Co ltd
Beijing Tongtech Co Ltd
Original Assignee
Beijing Dongfangtong Software Co ltd
Beijing Tongtech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dongfangtong Software Co ltd, Beijing Tongtech Co Ltd filed Critical Beijing Dongfangtong Software Co ltd
Priority to CN202010798123.XA priority Critical patent/CN111679955B/zh
Publication of CN111679955A publication Critical patent/CN111679955A/zh
Application granted granted Critical
Publication of CN111679955B publication Critical patent/CN111679955B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3037Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种用于应用服务器的监控诊断和快照分析系统,包括服务器、数据采集模块、快照抓取模块和分析诊断模块;所述数据采集模块用于收集服务器运行状态信息;所述快照抓取模块用于利用快照规则从服务器抓取服务器的故障响应信息;所述分析诊断模块根据服务器的运行状态信息和故障响应信息,分析出服务器的故障原因。本发明的用于应用服务器的监控诊断和快照分析系统,同时采用数据采集模块和快照抓取模块对服务器的运行进行实时监测和数据采集,能够全面地反映出服务器运行的情况,确保不会对服务器故障监测发生漏检情况,综合全面监测的数据和信息进行分析诊断,能够提高服务器故障诊断的准确性。

Description

用于应用服务器的监控诊断和快照分析系统
技术领域
本发明涉及应用服务器技术领域,特别涉及一种用于应用服务器的监控诊断和快照分析系统。
背景技术
互联网的发展让集群中的应用服务器数量越来越庞大,集群中的应用服务器如果发生故障,排查工作量较大,而故障往往持续时间短暂,所以很难在第一时间被运维人员排查到,造成运维人员无法对故障进行诊断,使得应用服务器的工作情况的监控力度逐渐降低。由此迫切需求能够掌握应用服务器在运行阶段的故障情况监测以及采集,应用服务器的快照分析就应运而生。快照分析在应用服务器出现故障时能够快速响应,并根据快照规则采集响应故障情况下的软硬件运行情况信息,为解决应用服务器故障提供了有利的帮助。
专利号为201410614080.X的专利文献公开了一种种快照抓取方法和数据监控装置,该方法包括:数据监控工具获取Tomcat服务器的繁忙线程数;所述繁忙线程数表示Tomcat服务器中实际正在处理具体事务的HTTP线程的数目;当确定所述繁忙线程数大于预置线程阈值时,所述数据监控工具获取所述Tomcat服务器的HTTP请求快照和JVM线程快照;根据所述HTTP请求快照和JVM线程快照,分析所述Tomcat服务器中WEB应用的性能;其中,所述根据所述HTTP请求快照和JVM线程快照,分析所述Tomcat服务器中WEB应用的性能具体包括:当所述HTTP请求快照中对同一目标地址进行访问的线程的数目超出预置数值时,所述数据监控工具记录所述对同一目标地址进行访问的线程的线程名;所述数据监控工具在所述JVM线程快照中查找记录的所述线程名,确定所述对同一目标地址进行访问的线程执行的操作;根据所述对同一目标地址进行访问的线程执行的操作,确定所述繁忙线程数大于预置线程阈值时所述Tomcat服务器中WEB应用存在的问题。该装置包括:线程获取模块,用于获取Tomcat服务器的繁忙线程数;所述繁忙线程数表示Tomcat服务器中实际正在处理具体事务的HTTP线程的数目;快照获取模块,用于当确定所述线程获取模块获取的繁忙线程数大于预置线程阈值时,获取所述Tomcat服务器的HTTP请求快照和JVM线程快照;分析模块,用于根据所述HTTP请求快照和JVM线程快照,分析所述Tomcat服务器中WEB应用的性能;其中,所述分析模块具体包括:记录单元,用于当所述HTTP请求快照中对同一目标地址进行访问的线程的数目超出预置数值时,记录所述对同一目标地址进行访问的线程的线程名;查找单元,用于在所述JVM线程快照中查找记录的所述线程名,确定所述对同一目标地址进行访问的线程执行的操作;确定单元,用于根据所述对同一目标地址进行访问的线程执行的操作,确定所述繁忙线程数大于预置线程阈值时所述Tomcat服务器中WEB应用存在的问题。
现有技术中对应用服务器故障的监测与诊断,由于采用的监测方法比较单一,使得影响诊断准确性,有时存在错过监测或者诊断错误情况。
发明内容
为了解决上述技术问题,本发明提供了一种用于应用服务器的监控诊断和快照分析系统,包括服务器、数据采集模块、快照抓取模块和分析诊断模块;
所述数据采集模块用于收集服务器运行状态信息;
所述快照抓取模块用于利用快照规则从服务器抓取服务器的故障响应信息;
所述分析诊断模块根据服务器的运行状态信息和故障响应信息,分析出服务器的故障原因。
可选的,所述系统还包括存储器,所述存储器与服务器连接,用于存储运行状态信息、故障响应信息和故障原因。
可选的,所述系统还包括输入模块和导出模块,所述导出模块与服务器连接,所述导出模块设有条件框,通过所述输入模块在条件框内输入自定义条件后,所述导出模块根据自定义条件从运行状态信息、故障响应信息和故障原因中查找匹配信息并导出。
可选的,所述快照抓取模块包括计时器、设定子模块和规则获取子模块,所述计时器和设定子模块连接;其中所述规则获取子模块用于获取至少两种快照规则;所述计时器用于控制快照规则的执行时间;所述设定子模块用于在计时器中设定所述快照规则的执行时间;所述快照抓取模块用于控制所述计时器根据所述执行时间依次执行所述快照规则来抓取服务器的故障响应信息。
可选的,所述服务器包括运行日志模块,所述运行日志模块与服务连接,所述运行日志模块收集并记录服务器运行日志,所述分析诊断模块对故障原因进行分析时,能够提取服务器运行日志作为分析的基础材料。
可选的,所述分析诊断模块对服务器的故障原因分析过程如下:
先从故障响应信息中获取故障的搜查关键词;
再根据搜查关键词,确定对应的检测节点,并就该检测节点构建故障排查树;
根据运行状态信息和服务器运行日志建立核函数矩阵,以故障排查树中记载的各因素作为数据点,对各数据点采用以下算法进行核密度估计:
Figure 791180DEST_PATH_IMAGE001
上式中,
Figure 52528DEST_PATH_IMAGE002
表示故障排查树的排查数据点的核密度估计;
Figure 566686DEST_PATH_IMAGE003
表示故障排查树的数 据点数量;
Figure 696316DEST_PATH_IMAGE004
表示核函数矩阵;
Figure 369743DEST_PATH_IMAGE005
表示核函数;
Figure 926626DEST_PATH_IMAGE006
表示初始数据点;
Figure 928080DEST_PATH_IMAGE007
表示排查数据点;
选择故障排查树的核密度估计最大值的数据点所对应的因素为故障原因,输出故障诊断结果。
可选的,所述系统还包括自动修复模块,所述自动修复模块与服务器连接,所述自动修复模块根据分析出的故障原因,查找解决方法,然后按照解决方法执行并修复。
可选的,所述自动修复模块对服务器的修复具体过程如下:
首先,所述自动修复模块获取分析诊断模块的故障原因分析结果,启动故障修复;
其次,根据故障原因,抓取服务器指定的debug信息,得到故障定位原始数据;
最后,按照debug信息执行实现服务器自动修复,修复完成后,所述服务器跳转至继续执行故障发生前指令动作。
可选的,所述系统还包括评估模块,所述评估模块与服务器连接,所述服务器运行的可靠度符合正态分布,所述评估模块采用以下算法对服务器进行运行的可靠度评估:
Figure 861401DEST_PATH_IMAGE008
上式中,
Figure 140067DEST_PATH_IMAGE009
表示服务器的可靠度函数;
Figure 867851DEST_PATH_IMAGE010
表示正态分布的标准差;
Figure 356602DEST_PATH_IMAGE011
表示初始 时间,即服务器每次启动的时间;
Figure 155930DEST_PATH_IMAGE012
表示运行时间;
Figure 413736DEST_PATH_IMAGE013
表示正态分布的中位数;
设定可靠度阈值,当服务器运行的可靠度函数计算结果低于可靠度阈值,则对服务器进行调试优化。
可选的,所述服务器的调试优化前进行以下处理:
扫描并检测服务器运行的网络环境,清理网络垃圾,关闭超过设定闲置时间的后台应用软件;
利用服务器节点对连接的客户端进行测量参数配置并计算资源需求,当检测其他服务器的计算余量,将客户端的计算负载迁移至计算余量超过资源需求的其他服务器。
本发明的用于应用服务器的监控诊断和快照分析系统,同时采用数据采集模块和快照抓取模块对服务器的运行进行实时监测和数据采集,利用数据采集模块所采集的数据能够全面地反映出服务器运行的情况,确保不会对服务器故障监测发生漏检情况,利用快照抓取模块能够快速捕捉故障时段的响应信息,两者进行综合实现全面监测和重点关注的结合,完善或者弥补数据和信息采集,然后以这些数据进行分析诊断,能够提高服务器故障诊断的准确性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种用于应用服务器的监控诊断和快照分析系统示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
如图1所示,本发明实施例提供了一种用于应用服务器的监控诊断和快照分析系统,包括服务器、数据采集模块、快照抓取模块和分析诊断模块;
所述数据采集模块用于收集服务器运行状态信息;
所述快照抓取模块用于利用快照规则从服务器抓取服务器的故障响应信息;
所述分析诊断模块根据服务器的运行状态信息和故障响应信息,分析出服务器的故障原因。
上述技术方案的工作原理和有益效果为:本发明的用于应用服务器的监控诊断和快照分析系统,同时采用数据采集模块和快照抓取模块对服务器的运行进行实时监测和数据采集,利用数据采集模块所采集的数据能够全面地反映出服务器运行的情况,确保不会对服务器故障监测发生漏检情况,利用快照抓取模块能够快速捕捉故障时段的响应信息,两者进行综合实现全面监测和重点关注的结合,完善或者弥补数据和信息采集,然后以这些数据进行分析诊断,能够提高服务器故障诊断的准确性。
在一个实施例中,所述系统还包括存储器,所述存储器与服务器连接,用于存储运行状态信息、故障响应信息和故障原因。
上述技术方案的工作原理和有益效果为:该方案采用存储器对运行状态信息、故障响应信息和故障原因进行保存,以方便过后进行数据查询与分析,实现故障情况追溯,充分了解服务器的运行情况,还可以提供数据资料供服务器改进使用。
在一个实施例中,所述系统还包括输入模块和导出模块,所述导出模块与服务器连接,所述导出模块设有条件框,通过所述输入模块在条件框内输入自定义条件后,所述导出模块根据自定义条件从运行状态信息、故障响应信息和故障原因中查找匹配信息并导出。
上述技术方案的工作原理和有益效果为:本方案可以通过输入模块在导出模块的条件框设定自定义条件,在运行状态信息、故障响应信息和故障原因中查找匹配信息,然后信息导出;方便使用者根据自身需要进行数据与信息的筛选,快速取得希望获取的数据与信息,提高数据使用效率。
在一个实施例中,所述快照抓取模块包括计时器、设定子模块和规则获取子模块,所述计时器和设定子模块连接;其中所述规则获取子模块用于获取至少两种快照规则;所述计时器用于控制快照规则的执行时间;所述设定子模块用于在计时器中设定所述快照规则的执行时间;所述快照抓取模块用于控制所述计时器根据所述执行时间依次执行所述快照规则来抓取服务器的故障响应信息。
上述技术方案的工作原理和有益效果为:本方案通过采用计时器、设定子模块和规则获取子模块,可以采用多种快照规则,自主设置快照规则的执行时间;还可以减少快照抓取模块失效风险,保障快照抓取模块的可靠性和高效性。
在一个实施例中,所述服务器包括运行日志模块,所述运行日志模块与服务连接,所述运行日志模块收集并记录服务器运行日志,所述分析诊断模块对故障原因进行分析时,能够提取服务器运行日志作为分析的基础材料。
上述技术方案的工作原理和有益效果为:本方案中采用运行日志模块收集记录服务器运行情况,并把服务器运行日志纳入到分析诊断模块的基础材料中,实现对服务器运行更多角度的监测和分析诊断,进一步增加诊断的准确性。
在一个实施例中,所述分析诊断模块对服务器的故障原因分析过程如下:
先从故障响应信息中获取故障的搜查关键词;
再根据搜查关键词,确定对应的检测节点,并就该检测节点构建故障排查树;
根据运行状态信息和服务器运行日志建立核函数矩阵,以故障排查树中记载的各因素作为数据点,对各数据点采用以下算法进行核密度估计:
Figure 453368DEST_PATH_IMAGE001
上式中,
Figure 429414DEST_PATH_IMAGE002
表示故障排查树的排查数据点的核密度估计;
Figure 438958DEST_PATH_IMAGE003
表示故障排查树的数 据点数量;
Figure 816850DEST_PATH_IMAGE004
表示核函数矩阵;
Figure 11071DEST_PATH_IMAGE005
表示核函数;
Figure 474413DEST_PATH_IMAGE006
表示初始数据点;
Figure 287648DEST_PATH_IMAGE007
表示排查数据点;
选择故障排查树的核密度估计最大值的数据点所对应的因素为故障原因,输出故障诊断结果。
上述技术方案的工作原理和有益效果为:本方案具体限定了分析诊断模块对服务器的故障原因分析方式,从故障响应信息中获取的关键词确定检测节点,引入故障排查树,依据故障排查树,使得故障原因的查找过程更为有序严密,结合运行状态信息和服务器运行日志构建核函数矩阵,以故障排查树记载的各因素为数据点,采用核密度估计算法逐一进行计算,取计算最大值的数据点,其所记载的因素为故障原因,该算法计算量较小,这种量化分析方式,可以减少主观的影响,快速得到相应结果,该故障原因分析方式可以减少错误。
在一个实施例中,所述系统还包括自动修复模块,所述自动修复模块与服务器连接,所述自动修复模块根据分析出的故障原因,查找解决方法,然后按照解决方法执行并修复;所述自动修复模块对服务器的修复具体过程如下:
首先,所述自动修复模块获取分析诊断模块的故障原因分析结果,启动故障修复;
其次,根据故障原因,抓取服务器指定的debug信息,得到故障定位原始数据;
最后,按照debug信息执行实现服务器自动修复,修复完成后,所述服务器跳转至继续执行故障发生前指令动作。
上述技术方案的工作原理和有益效果为:本方案通过在系统中增加自动修复模块,在分析诊断模块找出故障原因后,通过上述步骤,查找和定位故障对应的debug信息,然后按照debug信息执行实现服务器自动修复,不需要人工干预,提高了服务器修复效率,增强的服务器的计算处理能力,降低了服务器故障带来的不良影响,保障了服务器的运行可靠性。
在一个实施例中,所述系统还包括评估模块,所述评估模块与服务器连接,所述服务器运行的可靠度符合正态分布,所述评估模块采用以下算法对服务器进行运行的可靠度评估:
Figure 520047DEST_PATH_IMAGE014
上式中,
Figure 898551DEST_PATH_IMAGE009
表示服务器的可靠度函数;
Figure 583610DEST_PATH_IMAGE010
表示正态分布的标准差;
Figure 200536DEST_PATH_IMAGE011
表示初始 时间,即服务器每次启动的时间;
Figure 287441DEST_PATH_IMAGE012
表示运行时间;
Figure 89044DEST_PATH_IMAGE013
表示正态分布的中位数;
设定可靠度阈值,当服务器运行的可靠度函数计算结果低于可靠度阈值,则对服务器进行调试优化。
上述技术方案的工作原理和有益效果为:本方案通过设置评估模块,由于服务器行的可靠度符合正态分布,结合正态分布理论,采用时间积分函数形成的上述算法来计算服务器的可靠度,把计算结果与预先设定的可靠度阈值进行比较,若服务器的可靠度低于可靠度阈值时,认为服务器运行的故障风险已经比较大,这时对服务器进行调试优化,化解服务器发生故障的风险。服务器每次给过调试优化或者重新启动时,都对算法中的初始时间进行重新初始化或者归零处理,以保证采用该算法进行的可靠度评估的有效性。
在一个实施例中,所述服务器的调试优化前进行以下处理:
扫描并检测服务器运行的网络环境,清理网络垃圾,关闭超过设定闲置时间的后台应用软件;
利用服务器节点对连接的客户端进行测量参数配置并计算资源需求,当检测其他服务器的计算余量,将客户端的计算负载迁移至计算余量超过资源需求的其他服务器。
上述技术方案的工作原理和有益效果为:本方案中对服务器的调试优化增加了前置处理过程,在前置处理过程中,对服务器运行的网络环境进行的清理,给调试优化腾出了网络空间;然后查找了网络其他可用服务器,为需要进行调试优化的服务器上所承载的客户端业务提供的业务迁移服务,客户端的业务可以在完成服务器的调试优化后再迁移回来,这样,一方面为服务器的调试做准备,另一方面,可以使得客户端业务免受到服务器调试的影响。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (5)

1.一种用于应用服务器的监控诊断和快照分析系统,其特征在于,包括服务器、数据采集模块、快照抓取模块、分析诊断模块和评估模块;
所述数据采集模块用于收集服务器运行状态信息;
所述快照抓取模块用于利用快照规则从服务器抓取服务器的故障响应信息;
所述分析诊断模块根据服务器的运行状态信息和故障响应信息,分析出服务器的故障原因;
所述评估模块与服务器连接,所述服务器运行的可靠度符合正态分布,所述评估模块采用以下算法对服务器进行运行的可靠度评估:
Figure 305828DEST_PATH_IMAGE002
上式中,
Figure DEST_PATH_IMAGE003
表示服务器的可靠度函数;
Figure 426231DEST_PATH_IMAGE004
表示正态分布的标准差;
Figure DEST_PATH_IMAGE005
表示初始时间, 即服务器每次启动的时间;
Figure 674810DEST_PATH_IMAGE006
表示运行时间;
Figure DEST_PATH_IMAGE007
表示正态分布的中位数;
设定可靠度阈值,当服务器运行的可靠度函数计算结果低于可靠度阈值,则对服务器进行调试优化;
所述服务器包括运行日志模块,所述运行日志模块与服务连接,所述运行日志模块收集并记录服务器运行日志,所述分析诊断模块对故障原因进行分析时,能够提取服务器运行日志作为分析的基础材料;
所述分析诊断模块对服务器的故障原因分析过程如下:
先从故障响应信息中获取故障的搜查关键词;
再根据搜查关键词,确定对应的检测节点,并就该检测节点构建故障排查树;
根据运行状态信息和服务器运行日志建立核函数矩阵,以故障排查树中记载的各因素作为数据点,对各数据点采用以下算法进行核密度估计:
Figure 273281DEST_PATH_IMAGE008
上式中,
Figure DEST_PATH_IMAGE009
表示故障排查树的排查数据点的核密度估计;
Figure 556495DEST_PATH_IMAGE010
表示故障排查树的数据点 数量;
Figure DEST_PATH_IMAGE011
表示核函数矩阵核函数矩阵;
Figure 847799DEST_PATH_IMAGE012
表示核函数;
Figure DEST_PATH_IMAGE013
表示初始数据 点;
Figure 816630DEST_PATH_IMAGE014
表示排查数据点;
选择故障排查树的核密度估计最大值的数据点所对应的因素为故障原因,输出故障诊断结果;
所述系统还包括自动修复模块,所述自动修复模块与服务器连接,所述自动修复模块根据分析出的故障原因,查找解决方法,然后按照解决方法执行并修复,其中,所述自动修复模块对服务器的修复具体过程如下:
首先,所述自动修复模块获取分析诊断模块的故障原因分析结果,启动故障修复;
其次,根据故障原因,抓取服务器指定的debug信息,得到故障定位原始数据;
最后,按照debug信息执行实现服务器自动修复,修复完成后,所述服务器跳转至继续执行故障发生前指令动作。
2.根据权利要求1所述的用于应用服务器的监控诊断和快照分析系统,其特征在于,所述系统还包括存储器,所述存储器与服务器连接,用于存储运行状态信息、故障响应信息和故障原因。
3.根据权利要求1所述的用于应用服务器的监控诊断和快照分析系统,其特征在于,所述系统还包括输入模块和导出模块,所述导出模块与服务器连接,所述导出模块设有条件框,通过所述输入模块在条件框内输入自定义条件后,所述导出模块根据自定义条件从运行状态信息、故障响应信息和故障原因中查找匹配信息并导出。
4.根据权利要求1所述的用于应用服务器的监控诊断和快照分析系统,其特征在于,所述快照抓取模块包括计时器、设定子模块和规则获取子模块,所述计时器和设定子模块连接;其中所述规则获取子模块用于获取至少两种快照规则;所述计时器用于控制快照规则的执行时间;所述设定子模块用于在计时器中设定所述快照规则的执行时间;所述快照抓取模块用于控制所述计时器根据所述执行时间依次执行所述快照规则来抓取服务器的故障响应信息。
5.根据权利要求1所述的用于应用服务器的监控诊断和快照分析系统,其特征在于,所述服务器的调试优化前进行以下处理:
扫描并检测服务器运行的网络环境,清理网络垃圾,关闭超过设定闲置时间的后台应用软件;
利用服务器节点对连接的客户端进行测量参数配置并计算资源需求,当检测其他服务器的计算余量,将客户端的计算负载迁移至计算余量超过资源需求的其他服务器。
CN202010798123.XA 2020-08-11 2020-08-11 用于应用服务器的监控诊断和快照分析系统 Active CN111679955B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010798123.XA CN111679955B (zh) 2020-08-11 2020-08-11 用于应用服务器的监控诊断和快照分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010798123.XA CN111679955B (zh) 2020-08-11 2020-08-11 用于应用服务器的监控诊断和快照分析系统

Publications (2)

Publication Number Publication Date
CN111679955A CN111679955A (zh) 2020-09-18
CN111679955B true CN111679955B (zh) 2020-12-18

Family

ID=72458190

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010798123.XA Active CN111679955B (zh) 2020-08-11 2020-08-11 用于应用服务器的监控诊断和快照分析系统

Country Status (1)

Country Link
CN (1) CN111679955B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434380B (zh) * 2021-07-06 2022-04-08 方心科技股份有限公司 智能计算自主可控ict设备的数据中心系统与处理方法
CN115378794A (zh) * 2022-08-19 2022-11-22 中国建设银行股份有限公司 一种基于快照模式的网关故障检测方法及装置
CN115834332A (zh) * 2022-11-23 2023-03-21 中国联合网络通信集团有限公司 一种故障处理方法、服务器及系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101738435A (zh) * 2009-11-30 2010-06-16 浙江大学 气固流化床反应器内聚合物结块的动态故障诊断方法
CN101980220B (zh) * 2010-10-15 2012-06-20 清华大学 一种基于近似概率转换的电路性能可靠性的估计方法
CN101976311B (zh) * 2010-11-22 2012-12-19 北京航空航天大学 基于漂移布朗运动模型的加速退化试验贝叶斯评估方法
CN103218534B (zh) * 2013-04-22 2017-02-08 北京航空航天大学 一种右截尾型寿命数据分布选择方法
CN104410671B (zh) * 2014-11-03 2017-11-10 深圳市蓝凌软件股份有限公司 一种快照抓取方法和数据监控装置
CN104635155A (zh) * 2015-03-11 2015-05-20 哈尔滨工业大学 基于Wiener过程的继电器可靠性评估方法
CN106547265B (zh) * 2016-11-01 2019-01-29 中车株洲电力机车研究所有限公司 一种轨道交通电子控制装置的现场可靠性评估方法及系统
CN110084401B (zh) * 2019-03-21 2021-04-23 中车工业研究院有限公司 一种基于预留维修时间的调度优化方法及装置

Also Published As

Publication number Publication date
CN111679955A (zh) 2020-09-18

Similar Documents

Publication Publication Date Title
CN111679955B (zh) 用于应用服务器的监控诊断和快照分析系统
CN111209131B (zh) 一种基于机器学习确定异构系统的故障的方法和系统
Nguyen et al. Automated detection of performance regressions using statistical process control techniques
CN110855502A (zh) 一种基于时空分析日志的故障定因方法和系统
US20120054554A1 (en) Problem isolation in a virtual environment
Jiang et al. Efficient fault detection and diagnosis in complex software systems with information-theoretic monitoring
CN112395170A (zh) 智能故障分析方法、装置、设备及存储介质
CN111382023B (zh) 代码故障定位方法、装置、设备及存储介质
CN110175085B (zh) 一种利用图分析的Hadoop系统异常原因诊断方法及装置
CN110502366B (zh) 案例执行方法、装置、设备及计算机可读存储介质
CN113064762B (zh) 基于多样探测的服务自恢复方法
CN110489317B (zh) 基于工作流的云系统任务运行故障诊断方法与系统
Fu et al. Performance issue diagnosis for online service systems
CN116719664B (zh) 基于微服务部署的应用和云平台跨层故障分析方法及系统
CN114255784A (zh) 一种基于声纹识别的变电站设备故障诊断方法及相关装置
Munawar et al. Adaptive monitoring in enterprise software systems
CN111131815A (zh) 智能电视性能监控与异常进程处理方法及装置
US8949669B1 (en) Error detection, correction and triage of a storage array errors
CN116560893B (zh) 一种计算机应用程序运行数据故障处理系统
CN105703942B (zh) 一种日志采集方法及装置
CN115525392A (zh) 容器监控方法、装置、电子设备及存储介质
CN112181759A (zh) 一种微服务性能监视及异常诊断的方法
CN112579685A (zh) 大数据作业的状态监测及健康度评估方法、装置
CN114374600A (zh) 一种基于大数据的网络运维方法、装置、设备及产品
CN113626288A (zh) 故障处理方法、系统、装置、存储介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant