CN113472577B - 一种集群巡检方法、装置及系统 - Google Patents

一种集群巡检方法、装置及系统 Download PDF

Info

Publication number
CN113472577B
CN113472577B CN202110744495.9A CN202110744495A CN113472577B CN 113472577 B CN113472577 B CN 113472577B CN 202110744495 A CN202110744495 A CN 202110744495A CN 113472577 B CN113472577 B CN 113472577B
Authority
CN
China
Prior art keywords
node
inspection
cluster
result
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110744495.9A
Other languages
English (en)
Other versions
CN113472577A (zh
Inventor
韩宾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan Inspur Data Technology Co Ltd
Original Assignee
Jinan Inspur Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Inspur Data Technology Co Ltd filed Critical Jinan Inspur Data Technology Co Ltd
Priority to CN202110744495.9A priority Critical patent/CN113472577B/zh
Publication of CN113472577A publication Critical patent/CN113472577A/zh
Application granted granted Critical
Publication of CN113472577B publication Critical patent/CN113472577B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种集群巡检方法、装置及系统,方法包括:根据接收到的巡检项信息中的集群巡检项信息对集群进行巡检,得到集群巡检结果;将巡检项信息中的节点巡检项信息发送至各节点,由各节点根据节点巡检项信息对自身进行巡检,并由各节点对节点间的交互进行检测;接收各节点的节点巡检结果,对各节点的节点巡检结果进行分析,确定可修复异常巡检信息,并发送与可修复异常巡检信息对应的修复命令至相应节点,由相应节点根据修复命令进行修复;接收相应节点的修复结果,根据相关结果生成巡检报告。本申请公开的技术方案,实现对集群较为全面的检测,并实现对异常节点的自动修复,且生成巡检报告,以便于用户根据巡检报告获取集群巡检的结果。

Description

一种集群巡检方法、装置及系统
技术领域
本申请涉及集群巡检技术领域,更具体地说,涉及一种集群巡检方法、装置及系统。
背景技术
随着互联网用户的增多,分布式集群中的节点数量越来越多,大规模集群以及超大规模集群越来越常见。大规模集群中分布着大量的服务以及存储节点,如何能快速且准确地获取集群、节点的状态,或是对异常状态的节点进行恢复性操作就显得尤为重要。
目前,现有分布式集群健康检测方式主要是依靠心跳机制或第三方检测机制来进行检测,但是,心跳机制主要用来检测节点间的通信健康状态,第三方检测机制仅对一部分服务进行检测,由此可知,这两种检测方式并不能实现对集群以及单个节点内部健康状态的检测,且无法实现对异常状态节点的恢复。
综上所述,如何实现对集群较为全面的检测,并对异常节点进行自动修复,是目前本领域技术人员亟待解决的技术问题。
发明内容
有鉴于此,本申请的目的是提供一种集群巡检方法、装置及系统,用于实现对集群较为全面的检测,并对异常节点进行自动修复。
为了实现上述目的,本申请提供如下技术方案:
一种集群巡检方法,包括:
接收巡检项信息,根据所述巡检项信息中的集群巡检项信息对集群进行巡检,得到集群巡检结果;
将所述巡检项信息中的节点巡检项信息发送至各所述节点,由各所述节点根据所述节点巡检项信息对自身进行巡检,并由各所述节点对节点间的交互进行检测;
接收各所述节点的节点巡检结果,对各所述节点的节点巡检结果进行分析,确定可修复异常巡检信息,并发送与所述可修复异常巡检信息对应的修复命令至相应节点,由相应节点根据所述修复命令进行修复;
接收相应节点的修复结果,根据所述集群巡检结果、所述节点巡检结果、所述修复结果,生成巡检报告。
优选的,在接收巡检项信息之后,还包括:
对各所述节点进行巡检组划分,并在各所述巡检组中确定组节点;
相应地,将所述巡检项信息中的节点巡检项信息发送至各所述节点,由各所述节点对节点间的交互进行检测,包括:
将所述巡检项信息中的节点巡检项信息发送至各所述组节点,由各所述组节点将所述节点巡检项信息发送至所述巡检组内其余各节点,并由各所述组节点对所述巡检组内其余各节点与所述组节点间的交互进行检测,且由所述组节点对其余所述组节点间的交互进行检测。
优选的,在各所述巡检组中确定组节点之后,还包括:
接收所述组节点发送的所述节点自身修复结果;其中,所述组节点获取节点自身修复结果的过程为:所述组节点接收所述巡检组内其余各节点的节点巡检结果,由所述组节点对所述巡检组内各节点的节点巡检结果进行分析,确定节点自身可修复异常巡检信息,并给出节点修复命令,且将所述节点修复命令发送至对应的目标节点,由所述目标节点根据所述节点修复命令进行修复,并由所述目标节点发送节点自身修复结果至所述组节点;
相应地,根据所述集群巡检结果、所述节点巡检结果、所述修复结果,生成巡检报告,包括:
根据所述集群巡检结果、所述节点巡检结果、所述修复结果及所述节点自身修复结果,生成巡检报告。
优选的,在各所述巡检组中确定组节点之后,还包括:
若确定所述组节点出现异常,则在异常组节点所在巡检组内确定新的组节点。
优选的,在根据所述巡检项信息中的集群巡检项信息对集群进行巡检,得到集群巡检结果之后,还包括:
根据集群历史巡检修复报告对所述集群巡检结果进行分析,得到集群分析结果;所述集群分析结果包括异常集群巡检结果的影响范围、集群修复建议、集群发展趋势;
在对各所述节点的节点巡检结果进行分析,确定可修复异常巡检信息时,还包括:
根据所述集群历史巡检修复报告对各所述节点的节点巡检结果进行分析,确定异常节点巡检结果的影响范围、节点修复建议、节点发展趋势;
相应地,根据所述集群巡检结果、所述节点巡检结果、所述修复结果,生成巡检报告,包括:
根据所述集群巡检结果、所述集群分析结果、所述节点巡检结果、所述修复结果、异常节点巡检结果的影响范围、节点修复建议、节点发展趋势,生成巡检报告。
优选的,在生成巡检报告之后,还包括:
将所述巡检报告通过SNMP方式发送至用户。
优选的,生成巡检报告,包括:
生成word版本和/或html版本的巡检报告。
一种集群巡检装置,包括:
第一接收模块,用于接收巡检项信息,根据所述巡检项信息中的集群巡检项信息对集群进行巡检,得到集群巡检结果;
第一发送模块,用于将所述巡检项信息中的节点巡检项信息发送至各所述节点,由各所述节点根据所述节点巡检项信息对自身进行巡检,并由各所述节点对节点间的交互进行检测;
分析模块,用于接收各所述节点的节点巡检结果,对各所述节点的节点巡检结果进行分析,确定可修复异常巡检信息,并发送与所述可修复异常巡检信息对应的修复命令至相应节点,由相应节点根据所述修复命令进行修复;
生成模块,用于接收相应节点的修复结果,根据所述集群巡检结果、所述节点巡检结果、所述修复结果,生成巡检报告。
一种集群巡检系统,应用于如上述任一项所述的集群巡检方法,包括集群巡检子系统、节点巡检管理系统、节点巡检系统、节点修复系统、数据分析系统、报告系统,所述节点巡检管理系统、所述节点巡检系统及所述节点修复系统位于各节点中,其中:
所述集群巡检子系统,用于接收巡检项信息,根据所述巡检项信息中的集群巡检项信息对集群进行巡检,得到集群巡检结果,将所述集群巡检结果发送至所述报告系统,并将所述巡检项信息中的节点巡检项信息发送至各所述节点中的所述节点巡检管理系统;
所述节点管理系统,用于将所述节点巡检项信息发送至所述节点巡检系统,并对所述节点管理系统间的交互进行检测;
所述节点巡检系统,用于根据所述节点巡检项信息对自身节点进行巡检,并将节点巡检结果发送至所述节点管理系统,由所述节点管理系统发送至所述数据分析系统及所述报告系统;
所述数据分析系统,用于接收各所述节点的节点巡检结果,对各所述节点的节点巡检结果进行分析,确定可修复异常巡检信息,并发送与所述可修复异常巡检信息对应的修复命令至相应节点中的节点巡检管理系统,由相应节点中的节点巡检管理系统将所述修复命令发送至所述节点修复系统;
所述节点修复系统,用于根据所述修复命令进行修复,并将相应节点的修复结果发送至所述节点巡检管理系统,由所述节点巡检管理系统将所述修复结果发送至所述报告系统;
所述报告系统,用于根据所述集群巡检结果、所述节点巡检结果、所述修复结果,生成巡检报告。
优选的,所述集群巡检子系统还用于对各所述节点进行巡检组划分,并在各所述巡检组中确定组节点;
相应地,所述集群巡检子系统具体用于将所述巡检项信息中的节点巡检项信息发送至各所述组节点;
所述组节点中的节点管理系统,用于将所述节点巡检项信息发送至所述巡检组内其余各节点中的节点管理系统,并对所述巡检组内其余各节点中的节点管理系统与所述组节点中的节点管理系统间的交互进行检测。
本申请提供了一种集群巡检方法、装置及系统,其中,该方法包括:接收巡检项信息,根据巡检项信息中的集群巡检项信息对集群进行巡检,得到集群巡检结果;将巡检项信息中的节点巡检项信息发送至各节点,由各节点根据节点巡检项信息对自身进行巡检,并由各节点对节点间的交互进行检测;接收各节点的节点巡检结果,对各节点的节点巡检结果进行分析,确定可修复异常巡检信息,并发送与可修复异常巡检信息对应的修复命令至相应节点,由相应节点根据修复命令进行修复;接收相应节点的修复结果,根据集群巡检结果、节点巡检结果、修复结果,生成巡检报告。
本申请公开的上述技术方案,通过根据巡检项信息中的集群巡检项信息对集群进行巡检,且由各节点根据巡检项信息中的节点巡检项信息对节点自身进行巡检而实现对集群及节点内部的巡检,从而实现对集群较为全面的检测,并通过对各节点的节点巡检结果进行分析,确定可修复异常巡检信息,并发送与可修复异常巡检信息对应的修复命令至相应节点,由相应节点根据修复命令实现自动修复,以实现对异常节点的快速修复,避免对集群造成影响,提高集群的健壮性,且根据集群巡检结果、节点巡检结果及修复结果生成巡检报告,以便于用户根据巡检报告获取集群巡检的整体结果,从而便于根据整体结果对集群进行调整和修复等,以提高集群的整体性能和健壮性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种集群巡检方法的流程图;
图2为本申请实施例提供的一种集群巡检装置的结构示意图;
图3为本申请实施例提供的一种集群巡检系统的结构示意图;
图4为本申请实施例提供的另一种集群巡检系统的结构示意图。
具体实施方式
本申请的核心是提供一种集群巡检方法、装置及系统,用于实现对集群较为全面的检测,并对异常节点进行自动修复。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1,其示出了本申请实施例提供的一种集群巡检方法的流程图,本申请实施例提供的一种集群巡检方法,可以包括:
S11:接收巡检项信息,根据巡检项信息中的集群巡检项信息对集群进行巡检,得到集群巡检结果。
用户可在巡检项自定义页面自定义巡检项信息,且可以从默认的巡检项信息中选取巡检项信息。
接收用户设定的巡检项信息,从巡检项信息中的筛选出集群巡检项信息,并根据集群巡检项信息对集群进行巡检,以得到集群巡检结果,例如:对集群健康状态、存储池状态等进行巡检。
另外,在根据集群巡检项信息对集群进行巡检时,具体可以定时开启巡检,以定时对集群进行巡检,当然,也可以采用接收巡检命令等其他方式开启巡检,本申请对巡检开启方式不做任何限定。
S12:将巡检项信息中的节点巡检项信息发送至各节点,由各节点根据节点巡检项信息对自身进行巡检,并由各节点对节点间的交互进行检测。
在接收到巡检项信息之后,从巡检项信息中筛选出节点巡检项信息,并将节点巡检项信息发送至集群中的各节点,由各节点根据接收到的节点巡检项信息对自身进行巡检,其中,节点巡检项信息包含但不限于节点内部服务巡检项信息、节点内部软硬件巡检项信息,也即在对节点进行巡检时可以根据节点巡检项信息对节点内部的服务、节点内部的软硬件设备的健康状态进行检测。同时,可以通过心跳检测的方式对节点本身与其他节点间的交互进行检测,其中,需要说明的是,为了避免重复检测,则每两个节点间可以仅进行一次检测,以便于提高巡检效率,例如:对于节点A和节点B,在由节点A对其和节点B间的交互进行检测后,节点B可以不再对其和节点A间的交互进行检测。
通过上述过程实现对集群中各节点内部的巡检,且可以实现对节点间通信的巡检,以得到节点巡检结果。在各节点进行巡检和检测,以得到节点巡检结果之后,可以发送节点巡检结果。
S13:接收各节点的节点巡检结果,对各节点的节点巡检结果进行分析,确定可修复异常巡检信息,并发送与可修复异常巡检信息对应的修复命令至相应节点,由相应节点根据修复命令进行修复。
接收各节点的节点巡检结果,对各节点的节点巡检结果进行分析,确定可修复异常巡检信息(具体为集群可以自动修复的异常巡检信息,例如网络卡顿等),并结合据历史巡检及修复结果发送与可修复异常巡检信息对应的修复命令至相应节点(这里提及的相应节点即为与可修复异常巡检信息对应的节点),由相应节点根据接收到的修复命令进行自动修复,并发送修复结果,而无需人为参与其中,从而降低集群修复时间,提高集群的健壮性。
S14:接收相应节点的修复结果,根据集群巡检结果、节点巡检结果、修复结果,生成巡检报告。
接收相应节点的修复结果,然后,根据集群巡检结果、各节点的节点巡检结果及相应节点的修复结果生成巡检报告,以便于相关人员可以通过巡检报告获取集群巡检的相关情况,且便于根据巡检报告对集群进行修复和调整等,从而便于提高集群的运行性能和健壮性。
通过上述过程可以对集群、节点内部服务、节点内部软硬件等进行检测,从而提高检测的范围和检测的全面性,且可以实现自动修复,以便于提高集群的健壮性。
本申请公开的上述技术方案,通过根据巡检项信息中的集群巡检项信息对集群进行巡检,且由各节点根据巡检项信息中的节点巡检项信息对节点自身进行巡检而实现对集群及节点内部的巡检,从而实现对集群较为全面的检测,并通过对各节点的节点巡检结果进行分析,确定可修复异常巡检信息,并发送与可修复异常巡检信息对应的修复命令至相应节点,由相应节点根据修复命令实现自动修复,以实现对异常节点的快速修复,避免对集群造成影响,提高集群的健壮性,且根据集群巡检结果、节点巡检结果及修复结果生成巡检报告,以便于用户根据巡检报告获取集群巡检的整体结果,从而便于根据整体结果对集群进行调整和修复等,以提高集群的整体性能和健壮性。
本申请实施例提供的一种集群巡检方法,在接收巡检项信息之后,还可以包括:
对各节点进行巡检组划分,并在各巡检组中确定组节点;
相应地,将巡检项信息中的节点巡检项信息发送至各节点,由各节点对节点间的交互进行检测,可以包括:
将巡检项信息中的节点巡检项信息发送至各组节点,由各组节点将节点巡检项信息发送至巡检组内其余各节点,并由各组节点对巡检组内其余各节点与组节点间的交互进行检测,且由组节点对其余组节点间的交互进行检测。
在本申请中,在接收到巡检项信息之后,可以根据集群所包含的节点的个数对节点进行巡检组划分,具体地,每个巡检组内可以包含多个节点(每个巡检组所包含的节点的个数可以相等也可以不等)。且在划分出巡检组之后,可以在各巡检组中确定组节点,以利用组节点作为巡检组内各节点与集群交互的介质。
具体地,在确定出组节点之后,则可以将巡检项信息中的节点巡检项信息发送至各巡检组中的组节点,然后,由各组节点将节点巡检项信息发送至巡检组内其余各节点,其中,这里提及的其余各节点具体指的是巡检组内排除组节点之外的节点,且由于组节点已接收到节点巡检项信息,因此,组节点无需再给自己发送节点巡检项信息。巡检组内各节点(包括组节点在内)接收到节点巡检项信息之后,则对自身进行巡检。另外,在进行节点间交互检测时,则由组节点通过心跳检测的方式对巡检组内其余各节点与组节点间的交互进行检测,并由组节点通过心跳检测的方式对其余巡检组的组节点间的交互进行检测。
需要说明的是,在巡检组内各节点根据接收到的节点巡检项信息对自身进行巡检以得到节点巡检结果之后,巡检组内其余各节点的节点巡检结果则发送至组节点,然后,由组节点将巡检组内各节点的节点巡检结果发送至集群,也即在接收各节点的节点巡检结果时,可以通过组节点接收各节点的节点巡检结果。且在发送与可修复异常巡检信息对应的修复命令至相应节点时,具体可以通过对应的组节点发送与可修复异常巡检信息对应的修复命令至相应节点。另外,在接收相应节点的修复结果时,可以通过对应的组节点接收相应节点的修复结果。
通过上述过程可知,通过对巡检组进行划分并确定组节点可以实现利用组节点与集群进行交互,也即可以利用组节点作为巡检组内各节点与集群交互的介质,而无需再由每个节点均需与集群进行交互,从而避免巡检占用过多的资源,以避免对集群的其他业务造成影响,并便于提高巡检的效率,且降低集群的压力。当然,也可以通过对集群内各节点按顺序进行巡检的方式来实现对所有节点的巡检,以降低集群的压力,避免对集群的其他业务造成影响。
本申请实施例提供的一种集群巡检方法,在各巡检组中确定组节点之后,还可以包括:
接收组节点发送的节点自身修复结果;其中,组节点获取节点自身修复结果的过程可以为:组节点接收巡检组内其余各节点的节点巡检结果,由组节点对巡检组内各节点的节点巡检结果进行分析,确定节点自身可修复异常巡检信息,并给出节点修复命令,且将节点修复命令发送至对应的目标节点,由目标节点根据节点修复命令进行修复,并由目标节点发送节点自身修复结果至组节点;
相应地,根据集群巡检结果、节点巡检结果、修复结果,生成巡检报告,可以包括:
根据集群巡检结果、节点巡检结果、修复结果及节点自身修复结果,生成巡检报告。
在各巡检组中确定组节点之后,可以利用组节点接收巡检组内其余各节点的节点巡检结果,然后,由组节点对巡检组内各节点的节点巡检结果进行分析,确定节点自身可修复异常巡检信息,例如节点运行温度过高等。之后,组节点根据节点自身可修复异常巡检信息给出节点修复命令,且将节点修复命令发送至与节点自身可修复异常巡检信息对应的目标节点,由目标节点根据节点修复命令对自身进行修复,并得到节点自身修复结果。然后,目标节点则反馈节点自身修复结果至组节点,并由组节点将节点自身修复结果发送出去,以使得在生成巡检报告时可以根据集群巡检结果、节点巡检结果、修复结果及节点自身修复结果生成巡检报告,以提高巡检报告所包含内容的全面性,从而便于相关人员可以获取更为全面的巡检结果。
需要说明的是,在上述过程中,当组节点无法通过分析给出修复命令时,则可由组节点发送节点巡检结果,并接收节点的节点巡检结果,且对节点巡检结果进行分析,确定可修复异常巡检信息并给出修复命令。当然,也可以在由组节点进行分析的同时,由组节点发送节点巡检结果,并接收各节点的节点巡检结果,并确定组节点无法给出修复命令的可修复异常巡检信息,且给出修复命令至组节点。
通过上述过程可以实现利用组节点进行分析并给出节点修复命令,以提高节点修复效率,降低集群分析给出修复命令的压力。
本申请实施例提供的一种集群巡检方法,在各巡检组中确定组节点之后,还可以包括:
若确定组节点出现异常,则在异常组节点所在巡检组内确定新的组节点。
在本申请中,在各巡检组中确定组节点之后,对组节点进行检测,若确定组节点出现异常,则可以在异常组节点所在的巡检组内重新确定一个节点作为组节点,并利用新确定出的组节点代替原有组节点,实现相应的功能。
通过上述过程可以保证巡检组内有一个可靠的组节点在执行相应的功能,从而便于提高集群巡检效率,保证集群的可靠性。
本申请实施例提供的一种集群巡检方法,在根据巡检项信息中的集群巡检项信息对集群进行巡检,得到集群巡检结果之后,还可以包括:
根据集群历史巡检修复报告对集群巡检结果进行分析,得到集群分析结果;集群分析结果可以包括异常集群巡检结果的影响范围、集群修复建议、集群发展趋势;
在对各节点的节点巡检结果进行分析,确定可修复异常巡检信息时,还可以包括:
根据集群历史巡检修复报告对各节点的节点巡检结果进行分析,确定节点修复建议、节点发展趋势;
相应地,根据集群巡检结果、节点巡检结果、修复结果,生成巡检报告,可以包括:
根据集群巡检结果、集群分析结果、节点巡检结果、修复结果、节点修复建议、节点发展趋势,生成巡检报告。
在根据巡检项信息中的集群巡检项信息对集群进行巡检,得到集群巡检结果之后,可以根据集群历史巡检报告对集群巡检结果进行分析和预测,得到集群分析结果,其中,集群历史巡检报告具体是根据集群历史巡检报告、基于集群历史巡检报告对集群和节点等进行历史修复得到的,且集群分析结果包括确定无法给出修复命令的异常集群巡检结果、确定无法给出修复命令的异常集群巡检结果的影响范围、针对无法给出修复命令的异常集群巡检结果给出的集群修复建议、根据集群巡检结果确定集群发展趋势等,且集群发展趋势包括集群是否存在潜在异常等,以便于相关人员可以通过巡检报告来对集群提前进行修复等处理。
另外,在对各节点的节点巡检结果进行分析,确定可修复异常巡检信息时,还可以根据集群历史巡检修复报告对各节点的节点巡检结果进行分析,确定无法给出修复命令的异常节点巡检结果、无法给出修复命令的异常节点巡检结果的影响范围、针对无法给出修复命令的异常节点巡检结果给出的节点修复建议、节点发展趋势,其中,节点发展趋势包括节点是否存在潜在异常等,以便于相关人员可以通过巡检报告来对节点提前进行修复等处理。
相应地,在生成巡检报告时,则根据集群巡检结果、集群分析结果、节点巡检结果、修复结果、节点修复建议、节点发展趋势,生成巡检报告,以便于相关人员可以通过巡检报告全面地获取集群巡检结果及集群、节点发展趋势,进而便于相关人员根据巡检报告来提前采取应对措施,以提高集群运行的稳定性和可靠性。
本申请实施例提供的一种集群巡检方法,在生成巡检报告之后,还可以包括:
将巡检报告通过SNMP方式发送至用户。
在生成巡检报告之后,可以将巡检报告通过SNMP(Simple Network ManagementProtocol,简单网络管理协议)方式发送至用户,以便于用户可以及时获知集群巡检的巡检报告。
当然,也可以通过短信、邮件、APP推送、公众号推送等方式将巡检报告发送至用户,以便于用户能够及时获知巡检报告。
本申请实施例提供的一种集群巡检方法,生成巡检报告,可以包括:
生成word版本和/或html版本的巡检报告。
在生成巡检报告时,具体可以生成word版本和/或html版本的巡检报告,其中,word版本的巡检报告便于用户进行打印和保存等,html版本的巡检报告则便于用户进行在线查看。当然,也可以生成其他版本的巡检报告,本申请对巡检报告的版本不做任何限定。
本申请实施例还提供了一种集群巡检装置,参见图2,其示出了本申请实施例提供的一种集群巡检装置的结构示意图,可以包括:
第一接收模块21,用于接收巡检项信息,根据巡检项信息中的集群巡检项信息对集群进行巡检,得到集群巡检结果;
第一发送模块22,用于将巡检项信息中的节点巡检项信息发送至各节点,由各节点根据节点巡检项信息对自身进行巡检,并由各节点对节点间的交互进行检测;
分析模块23,用于接收各节点的节点巡检结果,对各节点的节点巡检结果进行分析,确定可修复异常巡检信息,并发送与可修复异常巡检信息对应的修复命令至相应节点,由相应节点根据修复命令进行修复;
生成模块24,用于接收相应节点的修复结果,根据集群巡检结果、节点巡检结果、修复结果,生成巡检报告。
本申请实施例提供的一种集群巡检装置,还可以包括:
划分模块,用于在接收巡检项信息之后,对各节点进行巡检组划分,并在各巡检组中确定组节点;
相应地,第一发送模块22可以包括:
发送单元,用于将巡检项信息中的节点巡检项信息发送至各组节点,由各组节点将节点巡检项信息发送至巡检组内其余各节点,并由各组节点对巡检组内其余各节点与组节点间的交互进行检测,且由组节点对其余组节点间的交互进行检测。
本申请实施例提供的一种集群巡检装置,还可以包括:
第二接收模块,用于在各巡检组中确定组节点之后,接收组节点发送的节点自身修复结果;其中,组节点获取节点自身修复结果的过程为:组节点接收巡检组内其余各节点的节点巡检结果,由组节点对巡检组内各节点的节点巡检结果进行分析,确定节点自身可修复异常巡检信息,并给出节点修复命令,且将节点修复命令发送至对应的目标节点,由目标节点根据节点修复命令进行修复,并由目标节点发送节点自身修复结果至组节点;
相应地,生成模块24可以包括:
第一生成单元,用于根据集群巡检结果、节点巡检结果、修复结果及节点自身修复结果,生成巡检报告。
本申请实施例提供的一种集群巡检装置,还可以包括:
确定模块,用于在各巡检组中确定组节点之后,若确定组节点出现异常,则在异常组节点所在巡检组内确定新的组节点。
本申请实施例提供的一种集群巡检装置,还可以包括:
第一分析模块,用于在根据巡检项信息中的集群巡检项信息对集群进行巡检,得到集群巡检结果之后,根据集群历史巡检修复报告对集群巡检结果进行分析,得到集群分析结果;集群分析结果可以包括异常集群巡检结果的影响范围、集群修复建议、集群发展趋势;
第二分析模块,用于在对各节点的节点巡检结果进行分析,确定可修复异常巡检信息时,根据集群历史巡检修复报告对各节点的节点巡检结果进行分析,确定节点修复建议、节点发展趋势;
相应地,生成模块24可以包括:
第二生成单元,用于根据集群巡检结果、集群分析结果、节点巡检结果、修复结果、节点修复建议、节点发展趋势,生成巡检报告。
本申请实施例提供的一种集群巡检装置,还可以包括:
第二发送模块,用于在生成巡检报告之后,将巡检报告通过SNMP方式发送至用户。
本申请实施例提供的一种集群巡检装置,生成模块24可以包括:
第三生成单元,用于生成word版本和/或html版本的巡检报告。
本申请实施例还提供了一种集群巡检系统,应用于上述任一种集群巡检方法,参见图3,其示出了本申请实施例提供的一种集群巡检系统的结构示意图,可以包括集群巡检子系统、节点巡检管理系统、节点巡检系统、节点修复系统、数据分析系统、报告系统,节点巡检管理系统、节点巡检系统及节点修复系统位于各节点中,其中:
集群巡检子系统,用于接收巡检项信息,根据巡检项信息中的集群巡检项信息对集群进行巡检,得到集群巡检结果,将集群巡检结果发送至报告系统,并将巡检项信息中的节点巡检项信息发送至各节点中的节点巡检管理系统;
节点管理系统,用于将节点巡检项信息发送至节点巡检系统,并对节点管理系统间的交互进行检测;
节点巡检系统,用于根据节点巡检项信息对自身节点进行巡检,并将节点巡检结果发送至节点管理系统,由节点管理系统发送至数据分析系统及报告系统;
数据分析系统,用于接收各节点中的节点管理系统发送的节点巡检结果,对各节点的节点巡检结果进行分析,确定可修复异常巡检信息,并发送与可修复异常巡检信息对应的修复命令至相应节点中的节点巡检管理系统,由相应节点中的节点巡检管理系统将修复命令发送至节点修复系统;
节点修复系统,用于根据修复命令进行修复,并将相应节点的修复结果发送至节点巡检管理系统,由节点巡检管理系统将修复结果发送至报告系统;
报告系统,用于根据集群巡检结果、节点巡检结果、修复结果,生成巡检报告。
参见图4,其示出了本申请实施例提供的另一种集群巡检系统的结构示意图,本申请实施例提供的一种集群巡检系统,集群巡检子系统还用于在接收巡检项信息之后,对各节点进行巡检组划分,并在各巡检组中确定组节点;
相应地,集群巡检子系统具体用于将巡检项信息中的节点巡检项信息发送至各组节点中的节点管理系统;
组节点中的节点管理系统,用于将节点巡检项信息发送至巡检组内其余各节点中的节点管理系统,并对巡检组内其余各节点中的节点管理系统与组节点中的节点管理系统间的交互进行检测,且对其余组节点内的节点管理系统间的交互进行检测。
本申请实施例提供的一种集群巡检系统,组节点中的节点管理系统,还用于接收巡检组内其余各节点的节点巡检结果,对巡检组内各节点的节点巡检结果进行分析,确定节点自身可修复异常巡检信息,并给出节点修复命令,且将节点修复命令发送至对应的目标节点中的节点管理系统,由目标节点中的节点管理系统将节点修复命令发送至目标节点中的节点修复系统,并由目标节点中的节点修复系统根据节点修复命令进行修复,且将节点自身修复结果发送至目标节点中的节点管理系统,由目标节点中的节点管理系统将节点自身修复结果发送至组节点中的节点管理系统;还用于将节点自身修复结果发送至报告系统;
报告系统,具体用于根据集群巡检结果、节点巡检结果、修复结果及节点自身修复结果,生成巡检报告。
本申请实施例提供的一种集群巡检系统,集群巡检子系统还用于在各巡检组中确定组节点之后,若确定组节点出现异常,则在异常组节点所在巡检组内确定新的组节点。
本申请实施例提供的一种集群巡检系统,数据分析系统,还用于在接收集群巡检子系统发送的集群巡检结果之后,根据集群历史巡检修复报告对集群巡检结果进行分析,得到集群分析结果,并将集群分析结果发送至报告系统;集群分析结果可以包括异常集群巡检结果的影响范围、集群修复建议、集群发展趋势;还用于在对各节点的节点巡检结果进行分析,确定可修复异常巡检信息时,根据所述集群历史巡检修复报告对各所述节点的节点巡检结果进行分析,确定异常节点巡检结果的影响范围、节点修复建议、节点发展趋势,并将异常节点巡检结果的影响范围、节点修复建议、节点发展趋势发送至组节点中的节点管理系统,由组节点中的节点管理系统将异常节点巡检结果的影响范围、节点修复建议、节点发展趋势发送至报告系统;
报告系统,具体用于根据集群巡检结果、集群分析结果、节点巡检结果、修复结果、节点修复建议、节点发展趋势,生成巡检报告。
本申请实施例提供的一种集群巡检系统,报告系统,还用于在生成巡检报告之后,将巡检报告通过SNMP方式发送至用户。
本申请实施例提供的一种集群巡检系统,报告系统,具体用于生成word版本和/或html版本的巡检报告。
本申请实施例提供的一种集群巡检装置及系统中相关部分的说明可以参见本申请实施例提供的一种集群巡检方法中对应部分的详细说明,在此不再赘述。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外,本申请实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种集群巡检方法,其特征在于,包括:
接收巡检项信息,根据所述巡检项信息中的集群巡检项信息对集群进行巡检,得到集群巡检结果;
将所述巡检项信息中的节点巡检项信息发送至各所述节点,由各所述节点根据所述节点巡检项信息对自身进行巡检,并由各所述节点对节点间的交互进行检测;
接收各所述节点的节点巡检结果,对各所述节点的节点巡检结果进行分析,确定可修复异常巡检信息,并发送与所述可修复异常巡检信息对应的修复命令至相应节点,由相应节点根据所述修复命令进行修复;
接收相应节点的修复结果,根据所述集群巡检结果、所述节点巡检结果、所述修复结果,生成巡检报告;
在根据所述巡检项信息中的集群巡检项信息对集群进行巡检,得到集群巡检结果之后,还包括:
根据集群历史巡检修复报告对所述集群巡检结果进行分析,得到集群分析结果;所述集群分析结果包括异常集群巡检结果的影响范围、集群修复建议、集群发展趋势;
在对各所述节点的节点巡检结果进行分析,确定可修复异常巡检信息时,还包括:
根据所述集群历史巡检修复报告对各所述节点的节点巡检结果进行分析,确定异常节点巡检结果的影响范围、节点修复建议、节点发展趋势;
相应地,根据所述集群巡检结果、所述节点巡检结果、所述修复结果,生成巡检报告,包括:
根据所述集群巡检结果、所述集群分析结果、所述节点巡检结果、所述修复结果、异常节点巡检结果的影响范围、节点修复建议、节点发展趋势,生成巡检报告。
2.根据权利要求1所述的集群巡检方法,其特征在于,在接收巡检项信息之后,还包括:
对各所述节点进行巡检组划分,并在各所述巡检组中确定组节点;
相应地,将所述巡检项信息中的节点巡检项信息发送至各所述节点,由各所述节点对节点间的交互进行检测,包括:
将所述巡检项信息中的节点巡检项信息发送至各所述组节点,由各所述组节点将所述节点巡检项信息发送至所述巡检组内其余各节点,并由各所述组节点对所述巡检组内其余各节点与所述组节点间的交互进行检测,且由所述组节点对其余所述组节点间的交互进行检测。
3.根据权利要求2所述的集群巡检方法,其特征在于,在各所述巡检组中确定组节点之后,还包括:
接收所述组节点发送的所述节点自身修复结果;其中,所述组节点获取节点自身修复结果的过程为:所述组节点接收所述巡检组内其余各节点的节点巡检结果,由所述组节点对所述巡检组内各节点的节点巡检结果进行分析,确定节点自身可修复异常巡检信息,并给出节点修复命令,且将所述节点修复命令发送至对应的目标节点,由所述目标节点根据所述节点修复命令进行修复,并由所述目标节点发送节点自身修复结果至所述组节点;
相应地,根据所述集群巡检结果、所述节点巡检结果、所述修复结果,生成巡检报告,包括:
根据所述集群巡检结果、所述节点巡检结果、所述修复结果及所述节点自身修复结果,生成巡检报告。
4.根据权利要求3所述的集群巡检方法,其特征在于,在各所述巡检组中确定组节点之后,还包括:
若确定所述组节点出现异常,则在异常组节点所在巡检组内确定新的组节点。
5.根据权利要求1所述的集群巡检方法,其特征在于,在生成巡检报告之后,还包括:
将所述巡检报告通过SNMP方式发送至用户。
6.根据权利要求1所述的集群巡检方法,其特征在于,生成巡检报告,包括:
生成word版本和/或html版本的巡检报告。
7.一种集群巡检装置,其特征在于,包括:
第一接收模块,用于接收巡检项信息,根据所述巡检项信息中的集群巡检项信息对集群进行巡检,得到集群巡检结果;
第一发送模块,用于将所述巡检项信息中的节点巡检项信息发送至各所述节点,由各所述节点根据所述节点巡检项信息对自身进行巡检,并由各所述节点对节点间的交互进行检测;
分析模块,用于接收各所述节点的节点巡检结果,对各所述节点的节点巡检结果进行分析,确定可修复异常巡检信息,并发送与所述可修复异常巡检信息对应的修复命令至相应节点,由相应节点根据所述修复命令进行修复;
生成模块,用于接收相应节点的修复结果,根据所述集群巡检结果、所述节点巡检结果、所述修复结果,生成巡检报告;
还包括:
第一分析模块,用于在根据所述巡检项信息中的集群巡检项信息对集群进行巡检,得到集群巡检结果之后,根据集群历史巡检修复报告对所述集群巡检结果进行分析,得到集群分析结果;所述集群分析结果包括异常集群巡检结果的影响范围、集群修复建议、集群发展趋势;
第二分析模块,用于在对各所述节点的节点巡检结果进行分析,确定可修复异常巡检信息时,根据所述集群历史巡检修复报告对各所述节点的节点巡检结果进行分析,确定异常节点巡检结果的影响范围、节点修复建议、节点发展趋势;
相应地,所述生成模块包括:
第二生成单元,用于根据所述集群巡检结果、所述集群分析结果、所述节点巡检结果、所述修复结果、异常节点巡检结果的影响范围、节点修复建议、节点发展趋势,生成巡检报告。
8.一种集群巡检系统,其特征在于,应用于如权利要求1至6任一项所述的集群巡检方法,包括集群巡检子系统、节点巡检管理系统、节点巡检系统、节点修复系统、数据分析系统、报告系统,所述节点巡检管理系统、所述节点巡检系统及所述节点修复系统位于各节点中,其中:
所述集群巡检子系统,用于接收巡检项信息,根据所述巡检项信息中的集群巡检项信息对集群进行巡检,得到集群巡检结果,将所述集群巡检结果发送至所述报告系统,并将所述巡检项信息中的节点巡检项信息发送至各所述节点中的所述节点巡检管理系统;
所述节点管理系统,用于将所述节点巡检项信息发送至所述节点巡检系统,并对所述节点管理系统间的交互进行检测;
所述节点巡检系统,用于根据所述节点巡检项信息对自身节点进行巡检,并将节点巡检结果发送至所述节点管理系统,由所述节点管理系统发送至所述数据分析系统及所述报告系统;
所述数据分析系统,用于接收各所述节点的节点巡检结果,对各所述节点的节点巡检结果进行分析,确定可修复异常巡检信息,并发送与所述可修复异常巡检信息对应的修复命令至相应节点中的节点巡检管理系统,由相应节点中的节点巡检管理系统将所述修复命令发送至所述节点修复系统;
所述节点修复系统,用于根据所述修复命令进行修复,并将相应节点的修复结果发送至所述节点巡检管理系统,由所述节点巡检管理系统将所述修复结果发送至所述报告系统;
所述报告系统,用于根据所述集群巡检结果、所述节点巡检结果、所述修复结果,生成巡检报告;
所述数据分析系统,还用于在根据所述巡检项信息中的集群巡检项信息对集群进行巡检,得到集群巡检结果之后,根据集群历史巡检修复报告对所述集群巡检结果进行分析,得到集群分析结果;所述集群分析结果包括异常集群巡检结果的影响范围、集群修复建议、集群发展趋势;还用于在对各所述节点的节点巡检结果进行分析,确定可修复异常巡检信息时,根据所述集群历史巡检修复报告对各所述节点的节点巡检结果进行分析,确定异常节点巡检结果的影响范围、节点修复建议、节点发展趋势;
所述报告系统,具体用于根据所述集群巡检结果、所述集群分析结果、所述节点巡检结果、所述修复结果、异常节点巡检结果的影响范围、节点修复建议、节点发展趋势,生成巡检报告。
9.根据权利要求8所述的集群巡检系统,其特征在于,所述集群巡检子系统还用于对各所述节点进行巡检组划分,并在各所述巡检组中确定组节点;
相应地,所述集群巡检子系统具体用于将所述巡检项信息中的节点巡检项信息发送至各所述组节点;
所述组节点中的节点管理系统,用于将所述节点巡检项信息发送至所述巡检组内其余各节点中的节点管理系统,并对所述巡检组内其余各节点中的节点管理系统与所述组节点中的节点管理系统间的交互进行检测。
CN202110744495.9A 2021-06-30 2021-06-30 一种集群巡检方法、装置及系统 Active CN113472577B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110744495.9A CN113472577B (zh) 2021-06-30 2021-06-30 一种集群巡检方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110744495.9A CN113472577B (zh) 2021-06-30 2021-06-30 一种集群巡检方法、装置及系统

Publications (2)

Publication Number Publication Date
CN113472577A CN113472577A (zh) 2021-10-01
CN113472577B true CN113472577B (zh) 2023-07-25

Family

ID=77877181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110744495.9A Active CN113472577B (zh) 2021-06-30 2021-06-30 一种集群巡检方法、装置及系统

Country Status (1)

Country Link
CN (1) CN113472577B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114090382B (zh) * 2021-11-22 2022-07-22 北京志凌海纳科技有限公司 超融合集群健康巡检方法和装置
CN114331014A (zh) * 2021-11-30 2022-04-12 浪潮(山东)计算机科技有限公司 一种制程质量巡检方法、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105337765A (zh) * 2015-10-10 2016-02-17 上海新炬网络信息技术有限公司 一种分布式hadoop集群故障自动诊断修复系统
CN107395379A (zh) * 2016-05-16 2017-11-24 北京京东尚科信息技术有限公司 一种集群巡检系统及方法
CN107800565A (zh) * 2017-08-31 2018-03-13 平安科技(深圳)有限公司 巡检方法、装置、系统、计算机设备和存储介质
CN109783315A (zh) * 2018-12-27 2019-05-21 远光软件股份有限公司 一种数据库平台自动化巡检方法及系统
CN110136293A (zh) * 2019-05-15 2019-08-16 广州云智易物联网有限公司 一种设备巡检方法及装置
CN111026602A (zh) * 2019-10-22 2020-04-17 烽火通信科技股份有限公司 一种云平台的健康巡检调度管理方法、装置及电子设备
CN111752637A (zh) * 2020-06-23 2020-10-09 平安普惠企业管理有限公司 多服务巡检管理方法、装置、计算机设备及存储介质
CN112000539A (zh) * 2020-07-17 2020-11-27 新华三大数据技术有限公司 一种巡检方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105337765A (zh) * 2015-10-10 2016-02-17 上海新炬网络信息技术有限公司 一种分布式hadoop集群故障自动诊断修复系统
CN107395379A (zh) * 2016-05-16 2017-11-24 北京京东尚科信息技术有限公司 一种集群巡检系统及方法
CN107800565A (zh) * 2017-08-31 2018-03-13 平安科技(深圳)有限公司 巡检方法、装置、系统、计算机设备和存储介质
CN109783315A (zh) * 2018-12-27 2019-05-21 远光软件股份有限公司 一种数据库平台自动化巡检方法及系统
CN110136293A (zh) * 2019-05-15 2019-08-16 广州云智易物联网有限公司 一种设备巡检方法及装置
CN111026602A (zh) * 2019-10-22 2020-04-17 烽火通信科技股份有限公司 一种云平台的健康巡检调度管理方法、装置及电子设备
CN111752637A (zh) * 2020-06-23 2020-10-09 平安普惠企业管理有限公司 多服务巡检管理方法、装置、计算机设备及存储介质
CN112000539A (zh) * 2020-07-17 2020-11-27 新华三大数据技术有限公司 一种巡检方法及装置

Also Published As

Publication number Publication date
CN113472577A (zh) 2021-10-01

Similar Documents

Publication Publication Date Title
US11442803B2 (en) Detecting and analyzing performance anomalies of client-server based applications
Chen et al. Towards intelligent incident management: why we need it and how we make it
CN113472577B (zh) 一种集群巡检方法、装置及系统
US20080080384A1 (en) System and method for implementing an infiniband error log analysis model to facilitate faster problem isolation and repair
US6792456B1 (en) Systems and methods for authoring and executing operational policies that use event rates
US8443074B2 (en) Constructing an inference graph for a network
CN110730246A (zh) 一种微服务架构下的分布式链路跟踪方法
US8055945B2 (en) Systems, methods and computer program products for remote error resolution reporting
US20090196186A1 (en) Root cause problem detection in network traffic information
EP1528471A2 (en) Method and architecture for automated fault diagnosis and correction in a computer system
CN110716842B (zh) 集群故障检测方法和装置
US8903923B2 (en) Methods and apparatus for system monitoring
CN113836044B (zh) 一种软件故障采集和分析的方法及系统
Yan et al. Aegis: Attribution of Control Plane Change Impact across Layers and Components for Cloud Systems
CN113918438A (zh) 服务器异常的检测方法、装置、服务器及存储介质
WO2016026510A1 (en) Hardware fault identification management in a network
CN111277427B (zh) 一种数据中心网络设备的巡检方法及系统
CN114927205B (zh) 一种基于人工智能病理辅助诊断系统的部署监控系统
CN116405412A (zh) 服务端集群的有效性验证方法和系统
CN109634848B (zh) 一种银行大型测试环境管理方法及系统
CN113065001A (zh) 一种故障止损方法及装置
CN110362464B (zh) 软件分析方法及设备
CN111447329A (zh) 呼叫中心中状态服务器的监控方法、系统、设备及介质
US20090198764A1 (en) Task Generation from Monitoring System
Syed-Mohamad et al. A comparison of the reliability growth of open source and in-house software

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant