CN114090382B - 超融合集群健康巡检方法和装置 - Google Patents

超融合集群健康巡检方法和装置 Download PDF

Info

Publication number
CN114090382B
CN114090382B CN202111389427.1A CN202111389427A CN114090382B CN 114090382 B CN114090382 B CN 114090382B CN 202111389427 A CN202111389427 A CN 202111389427A CN 114090382 B CN114090382 B CN 114090382B
Authority
CN
China
Prior art keywords
inspection
health
information
cluster
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111389427.1A
Other languages
English (en)
Other versions
CN114090382A (zh
Inventor
韩旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhiling Haina Technology Co ltd
Original Assignee
SmartX Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SmartX Inc filed Critical SmartX Inc
Priority to CN202111389427.1A priority Critical patent/CN114090382B/zh
Publication of CN114090382A publication Critical patent/CN114090382A/zh
Application granted granted Critical
Publication of CN114090382B publication Critical patent/CN114090382B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • G06F11/3075Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting the data filtering being achieved in order to maintain consistency among the monitored data, e.g. ensuring that the monitored data belong to the same timeframe, to the same system or component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3093Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明提供一种超融合集群健康巡检方法和装置,应用于超融合集群的控制节点,该方法包括接收健康巡检命令获取当前的巡检项列表;根据当前的巡检项列表调用对应的巡检指标插件,获取超融合集群的集群级别巡检项的信息和/或向超融合集群中的节点分发健康巡检请求,获取节点根据健康巡检请求调用对应的巡检指标插件获取的节点级别巡检项的信息和对节点级别巡检项的信息的评价信息;其中巡检指标插件是根据巡检指标预先设置,每一个巡检指标对应一个巡检指标插件,每一个巡检指标包括至少一个巡检项;根据节点级别巡检项的信息和评价信息和/或集群级别巡检项的信息生成健康巡检报告,可以实现高效自动地收集超融合集群的信息,保证集群的健康运行。

Description

超融合集群健康巡检方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种超融合集群健康巡检方法和装置。
背景技术
随着科技的发展,大型服务器集群的使用占据了主导地位。如何保证定期高效的对服务器集群进行巡检保证集群的健康,已经成为了集群一项不可或缺的能力。而对于超融合架构下的服务器集群则需要比一般集群使用更多的检查方法,不仅需要确保收集集群的健康状态,也需要收集到集群上虚拟机的健康信息。
超融合架构下的集群中的每台服务器的信息不仅包含了如CPU、内存、硬盘、网卡等自身的硬件信息,也包含了服务器运行的状态信息,以及服务器上运行的虚拟机的运行状态信息。服务器自身运行的状态中硬件的使用情况和软件的运行状态代表了该服务器运行的健康情况。虚拟机自身虚拟硬件的信息反应了虚拟机的健康状态。为了可以保证超融合架构下的集群可以长时间稳定运行,需要定期对集群的健康状态和集群中各个节点的健康状态进行检查。
现有的超融合架构下的集群的健康巡检方法是通过人工逐个检查巡检项,效率低,收集和判断集群中各节点的信息需要大量的繁琐操作,消耗较多的人力。而且巡检的检查标准和建议没有统一的标准,使得巡检时面对不同场景所做的判断处理会有所差异,不能保证收集到集群和每个节点的详细的客观信息。
发明内容
本发明提供一种超融合集群健康巡检方法和装置,用以解决现有技术中超融合集群健康巡检效率低,操作繁琐,没有统一标准的缺陷,可以实现简单方便、效率高、自动地收集超融合集群的信息,统一了巡检的检查标准和建议,可以保证集群的健康运行。
第一方面,本发明提供一种超融合集群健康巡检方法,所述超融合集群包括控制节点和普通节点,所述健康巡检方法应用于所述控制节点,包括:
接收健康巡检命令,获取当前的巡检项列表;
根据所述当前的巡检项列表,调用对应的巡检指标插件,获取所述超融合集群的集群级别巡检项的信息,和/或向所述超融合集群中的节点分发健康巡检请求,获取所述节点根据所述健康巡检请求调用对应的巡检指标插件获取的节点级别巡检项的信息和对所述节点级别巡检项的信息的评价信息;其中,所述巡检指标插件是根据巡检指标预先设置,每一个所述巡检指标对应一个所述巡检指标插件,每一个所述巡检指标包括至少一个巡检项;
根据所述节点级别巡检项的信息和所述评价信息和/或所述集群级别巡检项的信息,生成健康巡检报告。
根据本发明提供的超融合集群健康巡检方法,根据所述当前的巡检项列表,调用对应的巡检指标插件,获取所述超融合集群的集群级别巡检项的信息,和/或向所述超融合集群中的节点分发健康巡检请求,获取所述节点根据所述健康巡检请求调用对应的巡检指标插件获取的节点级别巡检项的信息和对所述节点级别巡检项的信息的评价信息;包括:
根据所述当前的巡检项列表,确定被调用的巡检指标插件的插件名称和当前的插件巡检项列表;
根据所确定的插件名称依次调用对应的巡检指标插件,根据所述巡检指标插件所确定的当前的插件巡检项列表,获取对应的集群级别巡检项的信息,和/或分别向所述超融合集群中的节点分发对应的健康巡检请求,获取所述节点根据所述健康巡检请求调用所述巡检指标插件获取的对应的节点级别巡检项的信息和对所述节点级别巡检项的信息的评价信息。
根据本发明提供的超融合集群健康巡检方法,所述节点根据所述健康巡检请求调用所述巡检指标插件获取对应的所述节点级别巡检项的信息和对所述节点级别巡检项的信息的评价信息,包括:
接收分发的所述健康巡检请求;其中,所述健康巡检请求携带分发所述健康巡检请求的巡检指标插件的插件名称和当前的插件巡检项列表;
根据所述健康巡检请求携带的插件名称,调用对应的巡检指标插件,根据所述健康巡检请求携带的当前的插件巡检项列表,获取本节点对应的节点级别巡检项的信息;其中,所述节点为所述控制节点或者所述普通节点;
通过所调用的巡检指标插件,对所获取的节点级别巡检项的信息进行检查,得到对所述节点级别巡检项的信息的评价信息。
根据本发明提供的超融合集群健康巡检方法,所述接收健康巡检命令,获取当前的巡检项列表,包括:
接收用户通过命令接口输入的所述健康巡检命令,或者接收用户操作浏览器生成的所述健康巡检命令,或者接收根据预先设置的巡检周期生成所述健康巡检命令;
响应于所述健康巡检命令,获取当前的巡检项列表;其中,所述当前的巡检项列表为用户配置的巡检项列表或者默认的巡检项列表。
根据本发明提供的超融合集群健康巡检方法,根据所述节点级别巡检项的信息和所述评价信息和/或所述集群级别巡检项的信息,生成健康巡检报告,包括:
以每一个所述巡检指标插件获取的所述节点级别巡检项的信息和所述评价信息和/或所述集群级别巡检项的信息作为一章节,并将异常巡检项的信息排列在前面,根据预先设定的模板生成所述健康巡检报告;
展示所生成的健康巡检报告,并对所生成的健康巡检报告以文件的形式进行保存。
根据本发明提供的超融合集群健康巡检方法,所述接收健康巡检命令,获取当前的巡检项列表,包括:
接收所述健康巡检命令;
对所述超融合集群的基础服务信息进行前置检查,判断所述超融合集群中是否存在致命性错误;
若所述超融合集群中不存在致命性错误,则获取所述当前的巡检项列表;否则,结束所述健康巡检。
第二方面,本发明提供一种超融合集群健康巡检装置,所述超融合集群包括控制节点和普通节点,所述健康巡检装置应用于所述控制节点,包括:
命令产生模块,用于接收健康巡检命令,获取当前的巡检项列表;
信息收集模块,用于根据所述当前的巡检项列表,调用对应的巡检指标插件,获取所述超融合集群的集群级别巡检项的信息,和/或向所述超融合集群中的节点分发健康巡检请求,获取所述节点根据所述健康巡检请求调用对应的巡检指标插件获取的节点级别巡检项的信息和对所述节点级别巡检项的信息的评价信息;其中,所述巡检指标插件是根据巡检指标预先设置,每一个所述巡检指标对应一个所述巡检指标插件,每一个所述巡检指标包括至少一个巡检项;
报告生成模块,用于根据所述节点级别巡检项的信息和所述评价信息和/或所述集群级别巡检项的信息,生成健康巡检报告。
第三方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一方面所述超融合集群健康巡检方法的步骤。
第四方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面所述超融合集群健康巡检方法的步骤。
第五方面,本发明还提供一种计算机程序产品,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面所述超融合集群健康巡检方法的步骤。
本发明提供的超融合集群健康巡检方法和装置,通过将超融合集群健康巡检的巡检项按照不同的维度分为不同的巡检指标,并为每一个巡检指标设置一个巡检指标插件,通过调用巡检指标插件获取对应的巡检指标的巡检项的信息,可以自动实现对超融合集群的集群信息的收集,和对超融合集群中各节点的节点信息的收集和评价,简单方便、效率高、可以节省人力,统一了巡检的检查标准和建议,使得巡检时面对不同场景所做的判断处理相同,能够保证收集到集群和每个节点的详细的客观信息,并且可以通过对插件的扩展和管理,灵活的实现对超融合集群健康巡检的巡检项的扩展和管理,同时通过将所获取的超融合集群的信息生成健康巡检报告,可以方便技术人员直观的了解超融合集群中各个节点的状况,方便运维人员高效快速的定位问题,对超融合集群进行有效的排错检查,保证超融合集群的健康运行。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的超融合集群健康巡检方法的流程示意图;
图2是本发明提供的控制节点根据当前的巡检项列表调用巡检指标插件获取巡检项的信息的流程示意图;
图3是本发明提供的控制节点和普通节点根据健康巡检请求调用巡检指标插件获取巡检项的信息和评价信息的流程示意图;
图4是本发明提供的接收健康巡检命令获取当前的巡检项列表的流程示意图;
图5是本发明提供的根据巡检项的信息生成健康巡检报告的流程示意图;
图6是本发明提供的另一超融合集群健康巡检方法的流程示意图;
图7是应用本发明的超融合集群健康巡检方法的超融合集群的示意图;
图8是图7中控制节点应用本发明的超融合集群健康巡检方法的流程示意图;
图9是图8中巡检指标插件的组成结构示意图;
图10是图9中巡检指标插件的层次组织与接口的示意图;
图11是图7中超融合集群对健康巡检的信息进行收集和存储的示意图;
图12是本发明提供的超融合集群健康巡检装置的组成结构示意图;
图13是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图11描述超融合集群健康巡检方法。
请参阅图1,图1是本发明提供的超融合集群健康巡检方法的流程示意图,图1所示的超融合集群健康巡检方法可以由超融合集群健康巡检装置执行,超融合集群健康巡检装置设置于超融合集群中的每个节点,在超融合集群中的每个节点可以运行至少一个服务器,超融合集群包括控制节点和普通节点,该超融合集群健康巡检方法应用于超融合集群中的控制节点,如图1所示,该超融合集群健康巡检方法,至少包括:
101,接收健康巡检命令,获取当前的巡检项列表。
在本发明实施例中,健康巡检命令可以是由控制节点接收并执行的用于对超融合集群的健康状态进行巡检的命令。其中,控制节点可以为超融合集群中的任意一个节点,在每一次对超融合集群进行健康巡检时只能指定一个超融合集群中的节点作为控制节点,例如,超融合集群中接收健康巡检命令的节点会成为健康巡检的控制节点,而超融合集群中其余的节点会成为普通节点。在接收健康巡检命令之后,控制节点响应于健康巡检命令,会获取当前的巡检项列表。可以将超融合集群健康巡检能够巡视检查的每一项信息作为一个巡检项,例如节点电源状态、集群虚拟机总数等,在当前的巡检项列表中记载了本次健康巡检需要巡视检查的巡检项,可以在超融合集群中的每个节点预先设置包含健康巡检能够巡视检查的所有巡检项的巡检项列表,当前的巡检项列表可以包括预先设置的巡检项列表中的全部巡检项或者部分巡检项,本发明实施例对此不作限定。
102,根据当前的巡检项列表,调用对应的巡检指标插件,获取超融合集群的集群级别巡检项的信息,和/或向超融合集群中的节点分发健康巡检请求,获取节点根据健康巡检请求调用对应的巡检指标插件获取的节点级别巡检项的信息和对节点级别巡检项的信息的评价信息;其中,巡检指标插件是根据巡检指标预先设置,每一个巡检指标对应一个巡检指标插件,每一个巡检指标包括至少一个巡检项。
在本发明实施例中,在接收健康巡检命令获取当前的巡检项列表之后,控制节点可以根据当前的巡检项列表调用对应的巡检指标插件,通过所调用的巡检指标插件获取当前的巡检项列表中所有巡检项的信息。若当前的巡检项列表中所有的巡检项均为集群级别巡检项,控制节点通过调用对应的巡检指标插件可以获取超融合集群的集群级别巡检项的信息;若当前的巡检项列表中所有的巡检项均为节点级别巡检项,控制节点通过调用对应的巡检指标插件可以向超融合集群中的节点分发健康巡检请求,超融合集群中的节点在接收到分发的健康巡检请求后,会根据健康巡检请求调用对应的巡检指标插件获取节点级别巡检项的信息和对节点级别巡检项的信息的评价信息,控制节点通过调用对应的巡检指标插件可以从超融合集群中的节点获取节点级别巡检项的信息和对节点级别巡检项的信息的评价信息;若当前的巡检项列表中所有的巡检项既包括集群级别巡检项又包括节点级别巡检项,控制节点通过调用对应的巡检指标插件可以既获取超融合集群的集群级别巡检项的信息,又向超融合集群中的节点分发健康巡检请求,并从超融合集群中的节点获取节点级别巡检项的信息和对节点级别巡检项的信息的评价信息。其中,超融合集群中的节点根据健康巡检请求调用的巡检指标插件与控制节点发出健康巡检请求的巡检指标插件为同一插件,接收控制节点分发的健康巡检请求的超融合集群中的节点可以为控制节点,也可以为普通节点。
其中,巡检指标插件可以根据巡检指标预先设置,每一个巡检指标对应一个巡检指标插件,可以将超融合集群健康巡检能够巡视检查的所有巡检项按照不同的维度,分为不同的巡检指标,每一个巡检指标包括至少一个巡检项,并为每一个巡检指标设置一个巡检指标插件,每一个巡检指标插件对应的巡检指标的巡检项形成该巡检指标插件的插件巡检项列表,每一个巡检指标插件用于获取其插件巡检项列表中的巡检项的信息。可选地,每一个巡检指标插件的插件巡检项列表可以仅包括集群级别巡检项,或者也可以仅包括节点级别巡检项,或者还可以既包括集群级别巡检项又包括节点级别巡检项,本发明实施例对此不作限定。可以在超融合集群中的每个节点预先设置所有的巡检指标插件,在超融合集群中的每个节点预先设置的包含健康巡检能够巡视检查的所有巡检项的巡检项列表,可以由每个节点预先设置的所有巡检指标插件中的插件巡检项列表组成。
在一些可选的例子中,可以按照不同的维度将超融合集群健康巡检的所有巡检项分为七个巡检指标,即集群基础信息、节点硬件信息、集群虚拟机信息、网络信息、软件运行信息、存储信息和日志信息。其中,集群基础信息是决定集群是否健康运行的最低标准,其主要包括:集群名、集群系统版本、集群节点数、集群存储状态等;节点硬件信息是每个节点的服务器自身硬件的基础信息,通过该信息可以了解该服务器的基本情况,帮助后续性能相关的故障收集提供辅助帮助,其主要包括:CPU信息、内存信息、主板信息、硬盘信息、网卡信息、电源状态信息等;集群虚拟机信息是超融合集群中每个节点所运行的虚拟机的健康状态,其主要包括:集群虚拟机总数(处于运行状态的虚拟机数+处于停止状态的虚拟机数)、集群中最高资源使用率的虚拟机监测等;网络信息是保证集群能互相连通,确保基础软件的使用,其主要包括:节点网卡硬件信息、集群中节点间网络连接状态、节点虚拟化网络的健康状态等;软件运行信息是集群中各节点的主要软件运行状态,保证主要系统功能是否可以健康运行,其主要包括:集群数据库健康状态、集群监控软件健康状态、集群中zookeeper运行状态、集群中存储服务的运行状态等;存储信息是在集群中使用高效块存储,通过收集块存储的信息确保存储的正常运行,其主要包括:对于存储读写的最大带宽、对于存储读写的最大延迟、对于存储读写的最大每秒进行读写操作的次数(Input/OutputOperations Per Second,简称IOPS);日志信息是每个节点运行的服务的日志信息包含了服务运行的详细状态,通过筛查服务日志中异常日志来定位服务持续状态。
103,根据节点级别巡检项的信息和评价信息和/或集群级别巡检项的信息,生成健康巡检报告。
在本发明实施例中,在通过调用对应的巡检指标插件获取当前的巡检项列表中所有巡检项的信息之后,控制节点可以对所获取的各节点的巡检项的信息进行汇总和整理,并根据所获取的各节点的巡检项的信息生成健康巡检报告。若当前的巡检项列表中所有的巡检项均为集群级别巡检项,控制节点根据所获取的巡检项的信息生成的健康巡检报告仅包括超融合集群的集群级别巡检项的信息;若当前的巡检项列表中所有的巡检项均为节点级别巡检项,控制节点根据所获取的巡检项的信息生成的健康巡检报告仅包括超融合集群的节点级别巡检项的信息;若当前的巡检项列表中所有的巡检项既包括集群级别巡检项又包括节点级别巡检项,控制节点根据所获取的巡检项的信息生成的健康巡检报告既包括超融合集群的集群级别巡检项的信息,又包括超融合集群的节点级别巡检项的信息。
可选地,本发明可以采用一键部署模式,可以使用命令可以将安装包通过自动化运维工具Ansible自动的分发到各个节点进行安装,当安装成功后将在集群中各个节点生成一个巡检服务。此服务静默运行在集群中每个节点,当不使用巡检命令时不会产生额外的性能消耗。
本发明实施例提供的超融合集群健康巡检方法,通过将超融合集群健康巡检的巡检项按照不同的维度分为不同的巡检指标,并为每一个巡检指标设置一个巡检指标插件,通过调用巡检指标插件获取对应的巡检指标的巡检项的信息,可以自动实现对超融合集群的集群信息的收集,和对超融合集群中各节点的节点信息的收集和评价,简单方便、效率高、可以节省人力,统一了巡检的检查标准和建议,使得巡检时面对不同场景所做的判断处理相同,能够保证收集到集群和每个节点的详细的客观信息,并且可以通过对插件的扩展和管理,灵活的实现对超融合集群健康巡检的巡检项的扩展和管理,同时通过将所获取的超融合集群的信息生成健康巡检报告,可以方便技术人员直观的了解超融合集群中各个节点的状况,方便运维人员高效快速的定位问题,对超融合集群进行有效的排错检查,保证超融合集群的健康运行。
请参阅图2,图2是本发明提供的控制节点根据当前的巡检项列表调用巡检指标插件获取巡检项的信息的流程示意图,如图2所示,根据当前的巡检项列表,调用对应的巡检指标插件,获取超融合集群的集群级别巡检项的信息,和/或向超融合集群中的节点分发健康巡检请求,获取节点根据健康巡检请求调用对应的巡检指标插件获取的节点级别巡检项的信息和对节点级别巡检项的信息的评价信息,至少包括:
201,根据当前的巡检项列表,确定被调用的巡检指标插件的插件名称和当前的插件巡检项列表。
在本发明实施例中,控制节点可以根据当前的巡检项列表中的巡检项,确定被调用的巡检指标插件的插件名称和被调用的巡检指标插件当前的插件巡检项列表,其中当前的插件巡检项列表可以包括该插件的插件巡检项列表中的全部巡检项或者部分巡检项,本发明实施例对此不作限定。可选地,当前的巡检项列表中可以包含插件名称和该插件名称对应的当前的插件巡检项列表,可以直接通过当前的巡检项列表确定被调用的巡检指标插件的插件名称和被调用的巡检指标插件当前的插件巡检项列表。例如,当前的巡检项列表中包含的插件名称为节点硬件信息和网络信息,其中,节点硬件信息插件对应的当前的插件巡检项列表包括CPU信息、内存信息、硬盘信息、网卡信息和电源状态信息,网络信息插件对应的当前的插件巡检项列表包括节点网卡硬件信息、集群中节点间网络连接状态、节点虚拟化网络的健康状态。
202,根据所确定的插件名称依次调用对应的巡检指标插件,根据巡检指标插件所确定的当前的插件巡检项列表,获取对应的集群级别巡检项的信息,和/或分别向超融合集群中的节点分发对应的健康巡检请求,获取节点根据健康巡检请求调用巡检指标插件获取的对应的节点级别巡检项的信息和对节点级别巡检项的信息的评价信息。
在本发明实施例中,在确定被调用的巡检指标插件的插件名称和当前的插件巡检项列表之后,控制节点可以根据所确定的插件名称依次调用对应的巡检指标插件,通过所调用的巡检指标插件根据所确定的当前的插件巡检项列表,获取对应的巡检项的信息。若所确定的当前的插件巡检项列表中所有的巡检项均为集群级别巡检项,通过所调用的巡检指标插件可以根据当前的插件巡检项列表获取对应的集群级别巡检项的信息;若所确定的当前的插件巡检项列表中所有的巡检项均为节点级别巡检项,通过所调用的巡检指标插件可以向超融合集群中的节点分发携带巡检指标插件的插件名称和当前的插件巡检项列表的健康巡检请求,超融合集群中的节点在接收到分发的健康巡检请求后,会根据健康巡检请求调用对应的巡检指标插件获取对应的节点级别巡检项的信息和对所获取的节点级别巡检项的信息的评价信息,通过所调用的巡检指标插件可以从超融合集群中的节点获取节点级别巡检项的信息和对节点级别巡检项的信息的评价信息;若所确定的当前的插件巡检项列表中所有的巡检项既包括集群级别巡检项又包括节点级别巡检项,通过所调用的巡检指标插件可以既根据当前的插件巡检项列表获取超融合集群的集群级别巡检项的信息,又向超融合集群中的节点分发携带巡检指标插件的插件名称和当前的插件巡检项列表的健康巡检请求,并从超融合集群中的节点获取对应的节点级别巡检项的信息和对所获取的节点级别巡检项的信息的评价信息。
例如,控制节点根据当前的巡检项列表,确定的巡检指标插件的插件名称为节点硬件信息和网络信息,确定的节点硬件信息插件当前的插件巡检项列表包括CPU信息、内存信息、硬盘信息、网卡信息和电源状态信息,确定的网络信息插件当前的插件巡检项列表包括节点网卡硬件信息、集群中节点间网络连接状态、节点虚拟化网络的健康状态。控制节点可以首先调用节点硬件信息插件,通过节点硬件信息插件向超融合集群中的节点分发携带节点硬件信息插件的插件名称和当前的插件巡检项列表的健康巡检请求;超融合集群中的节点在接收到分发的健康巡检请求后,会根据健康巡检请求调用节点硬件信息插件获取节点的CPU信息、内存信息、硬盘信息、网卡信息和电源状态信息及其评价信息;再通过节点硬件信息插件从超融合集群中的节点获取节点的CPU信息、内存信息、硬盘信息、网卡信息和电源状态信息及其评价信息;控制节点可以再调用网络信息插件,通过网络信息插件根据当前的插件巡检项列表获取集群中节点间网络连接状态,并向超融合集群中的节点分发携带网络信息插件的插件名称和当前的插件巡检项列表的健康巡检请求;超融合集群中的节点在接收到分发的健康巡检请求后,会根据健康巡检请求调用网络信息插件获取节点的节点网卡硬件信息、节点虚拟化网络的健康状态及其评价信息;再通过网络信息插件从超融合集群中的节点获取节点的节点网卡硬件信息、节点虚拟化网络的健康状态及其评价信息。
请参阅图3,图3是本发明提供的控制节点和普通节点根据健康巡检请求调用巡检指标插件获取巡检项的信息和评价信息的流程示意图,如图3所示,节点根据健康巡检请求调用巡检指标插件获取对应的节点级别巡检项的信息和对节点级别巡检项的信息的评价信息,至少包括:
301,接收分发的健康巡检请求;其中,健康巡检请求携带分发该健康巡检请求的巡检指标插件的插件名称和当前的插件巡检项列表。
302,根据健康巡检请求携带的插件名称,调用对应的巡检指标插件,根据健康巡检请求携带的当前的插件巡检项列表,获取本节点对应的节点级别巡检项的信息。
303,通过所调用的巡检指标插件,对所获取的节点级别巡检项的信息进行检查,得到对节点级别巡检项的信息的评价信息。
在本发明实施例中,在超融合集群中的控制节点通过所调用的巡检指标插件分发健康巡检请求之后,超融合集群中的控制节点和普通节点可以接收分发的健康巡检请求,健康巡检请求可以携带分发该健康巡检请求的巡检指标插件的插件名称和当前的插件巡检项列表,并根据健康巡检请求携带的插件名称调用对应的巡检指标插件,通过所调用的巡检指标插件根据健康巡检请求携带的当前的插件巡检项列表,获取本节点对应的节点级别巡检项的信息,再通过所调用的巡检指标插件,对所获取的节点级别巡检项的信息进行检查,得到对节点级别巡检项的信息的评价信息。
例如,超融合集群中的控制节点和普通节点首先接收分发的健康巡检请求,健康巡检请求携带分发该健康巡检请求的节点硬件信息插件的插件名称和当前的插件巡检项列表,然后根据健康巡检请求携带的插件名称调用节点硬件信息插件,通过节点硬件信息插件根据健康巡检请求携带的当前的插件巡检项列表,获取本节点的CPU的信息、内存的信息、硬盘的信息、网卡的信息和电源状态的信息,最后通过节点硬件信息插件对所获取的CPU的信息、内存的信息、硬盘的信息、网卡的信息和电源状态的信息进行检查,得到对所获取的巡检项的信息的评价信息,该评价信息包括:CPU的信息正常、内存的信息异常、硬盘的信息正常、网卡的信息正常和电源状态的信息异常。
在上述各实施例中,巡检指标插件可以通过直接访问集群相关接口,获取集群级别巡检项的信息,其中,集群级别巡检项的信息可以包括集群级别的报警信息,巡检指标插件可以通过访问集群相关接口,直接从超融合集群的已有监控报警系统获取指定的报警信息。巡检指标插件可以设有获取节点信息的接口,巡检指标插件可以通过获取节点信息的接口,获取本节点的节点级别巡检项的信息,例如,巡检指标插件设置的获取节点信息的接口可以为HTTP接口。
请参阅图4,图4是本发明提供的接收健康巡检命令获取当前的巡检项列表的流程示意图,如图4所示,接收健康巡检命令,获取当前的巡检项列表,至少包括:
401,接收用户通过命令接口输入的健康巡检命令,或者接收用户操作浏览器生成的健康巡检命令,或者接收根据预先设置的巡检周期生成的健康巡检命令。
在本发明实施例中,控制节点可以提供命令接口,控制节点可以通过该接口接收用户输入的健康巡检命令;或者,控制节点可以提供浏览器调用接口,例如HTTP接口,控制节点可以接收用户通过操作浏览器调用该接口生成的健康巡检命令;又或者,控制节点可以预先设置健康巡检的巡检周期,控制节点可以接收根据预先设置的巡检周期定期生成的健康巡检命令。
402,响应于健康巡检命令,获取当前的巡检项列表;其中,当前的巡检项列表为用户配置的巡检项列表或者默认的巡检项列表。
在本发明实例中,在接受到健康巡检命令之后,控制节点响应于健康巡检命令,会获取当前的巡检项列表。其中,当前的巡检项列表可以采用默认的巡检项列表,例如,当控制节点接收到的健康巡检命令为全量巡检时,当前的巡检项列表可以由控制节点中所有巡检指标插件中的插件巡检性列表构成;或者,当前的巡检项列表也可以为用户配置的巡检项列表,例如,控制节点可以提供命令接口,控制节点可以通过该接口接收用户提供的配置文件或者用户输入的巡检项选项,实现对巡检项列表的配置,或者控制节点可以提供浏览器调用接口,例如HTTP接口,控制节点可以通过浏览器调用该接口接收用户与浏览器交互配置的巡检项列表。
请参阅图5,图5是本发明提供的根据巡检项的信息生成健康巡检报告的流程示意图,如图5所示,根据节点级别巡检项的信息和评价信息和/或集群级别巡检项的信息,生成健康巡检报告,至少包括:
501,以每一个巡检指标插件获取的节点级别巡检项的信息和评价信息和/或集群级别巡检项的信息作为一章节,并将异常巡检项的信息排列在前面,根据预先设定的模板生成健康巡检报告。
在本发明实施例中,由于控制节点所获取的巡检项的信息是由获取该巡检项的信息的巡检指标插件持有,因此控制节点在根据所获取的巡检项的信息生成健康巡检报告时,可以以巡检指标插件所获取的巡检项的信息作为一章节,并将异常巡检项的信息排列在前面,根据预先设定的健康巡检报告的模板生成健康巡检报告。例如,健康巡检报告可以包括以下章节前言说明、概览与总结各项统计信息、硬件章节、软件章节、存储章节、网络章节、资源与性能章节、虚拟机章节、总结等。其中,在健康巡检报告中还可以包括对每一项巡检项的说明,例如,对每一项巡检项的说明可以包括检查项名称、检查项的检查指标说明、检查项的检查指标结果、检查项是否通过、检查项不通过的原因等。在健康巡检报告中还可以包括每一项巡检项的覆盖范围,例如,每一项巡检项的覆盖范围可以包括:覆盖对应版本全部的报警项、覆盖当前售后巡检报告中涉及的项、覆盖巡检项列表中涉及的项、覆盖特定平台需要补充的项等。
502,展示所生成的健康巡检报告,并对所生成的健康巡检报告以文件的形式进行保存。
在本发明实施例中,在生成健康巡检报告之后,控制节点可以对所生成的健康巡检报告进行展示,并将所生成的健康巡检报告以文件的形式保存于控制节点,可以将所生成的健康巡检报告保存于特定的巡检工作目录下,以不依赖于mongoDB等后台数据库提供持久化能力,并且可以支持将所生成的健康巡检报告以docx格式导出,例如借助第三方库docxtpl将健康巡检报告以docx格式导出。
请参阅图6,图6是本发明提供的另一超融合集群健康巡检方法的流程示意图,如图6所示,该超融合集群健康巡检方法,至少包括:
601,接收健康巡检命令。
602,对超融合集群的基础服务信息进行前置检查,判断超融合集群中是否存在致命性错误。
若超融合集群中不存在致命性错误,则执行603;否则,结束健康巡检。
603,获取当前的巡检项列表。
604,根据当前的巡检项列表,调用对应的巡检指标插件,获取超融合集群的集群级别巡检项的信息,和/或向超融合集群中的节点分发健康巡检请求,获取节点根据健康巡检请求调用对应的巡检指标插件获取的节点级别巡检项的信息和对节点级别巡检项的信息的评价信息;其中,巡检指标插件是根据巡检指标预先设置,每一个巡检指标对应一个巡检指标插件,每一个巡检指标包括至少一个巡检项。
605,根节点级别巡检项的信息和评价信息和/或集群级别巡检项的信息,生成健康巡检报告。
在本发明实施例中,控制节点在根据当前的巡检项列表调用对应的巡检指标插件对超融合集群进行健康巡检之前,可以先对超融合集群的基础服务信息进行前置检查。例如,检查集群内各节点相互之间的网络通信是否正常;检查集群数据库mongodb服务是否正常运行;检查集群监控告警服务是否运行正常。并根据前置检查的结果判断超融合集群中是否存在致命性错误。例如,集群中有节点网络异常,无法与集群中的其他节点进行连接通信;集群存储服务出现异常,导致环境中依赖存储的其他服务无法正常使用;集群中监控告警服务出现异常,集群无法安全稳定的运行。若超融合集群中存在致命性错误,则结束对超融合集群的健康巡检。若超融合集群中不存在致命性错误,则继续对超融合集群进行健康巡检。通过前置检查可以确保超融合集群存在的最基础的致命性问题被首先解决,只有在超融合集群在不存在最基础的致命性问题的情况下,才会进行健康巡检。
请参阅图7、图8、图9、图10和图11,图7是应用本发明的超融合集群健康巡检方法的超融合集群的示意图,图8是图7中控制节点应用本发明的超融合集群健康巡检方法的流程示意图,图9是图8中巡检指标插件的组成结构示意图,图10是图9中巡检指标插件的层次组织与接口的示意图,图11是图7中超融合集群对健康巡检的信息进行收集和存储的示意图。
如图7所示,超融合集群包括节点Node1、Node2和Node3,其中Node1为控制节点,Node2和Node3为普通节点,控制节点是用于接收并执行健康巡检命令的节点。控制节点可以对集群级别巡检项的信息进行收集,包含直接从超融合集群的已有监控报警系统读取指定的报警信息;控制节点可以提供HTTP接口server.restful供浏览器调用,用户可以通过对浏览器的操作调用该接口生成健康巡检命令,配置当前的巡检项列表,实现对巡检项的定制;控制节点也可以提供cmc命令接口,用户可以通过该接口输入的健康巡检的命令行cmd,配置当前的巡检项列表,实现对巡检项的定制;控制节点可以通过module.collector对健康巡检的整体流程进行调度,根据当前的检查项列表分发健康巡检请求,收集巡检项的信息,检查巡检项的信息,生成健康巡检报告;控制节点可以对收集到的信息进行整合,将不同维度的信息以合适的结构渲染到健康巡检报告的模板中生成健康巡检报告。普通节点和控制节点可以通过HTTP接口server.node_agent采集本节点的节点级别巡检项的信息,并在采集完后等待控制节点进行收集和汇总。
如图8所示,控制节点进行超融合集群健康巡检的流程包括:a.接收健康巡检的命令行cmd和配置文件或者巡检项选项,对集群的基础服务信息进行前置检查,判断集群中是否存在致命性错误,若存在,结束健康巡检,若不存在,继续进行健康巡检;b.检查本次健康巡检的配置文件或者巡检项选项,获取当前的巡检项列表;c.将当前的巡检项列表作为参数调用collector组件;d.collector组件根据当前的巡检项列表依次调用巡检指标插件plugin1、plugin2,数据直接访问集群的相关接口收集集群级别巡检项的信息,并向各节点分发健康巡检请求;e.各节点根据健康巡检请求依次调用巡检指标插件plugin1、plugin2通过server.node_agent接口执行特定的操作,采集各节点上指定的节点级别巡检项的信息;f.各节点依次调用巡检指标插件plugin1、plugin2对各个插件自己采集的节点级别巡检项的信息进行检查;g.collector组件对各节点的信息进行收集和汇总,并生成健康巡检报告。
如图9所示,巡检指标插件需要对超融合集群的健康巡检提供对应的支持,在控制节点的巡检工具运行时,会扫描所有的巡检指标插件的元数据,包括插件名称和插件巡检项列表,并汇总给HTTP接口展示或者汇总给命令接口配置;collector组件会按照预先设定的顺序,依次调用每一个巡检指标插件进行巡检项的信息收集和检查;每一个巡检指标插件通过HTTP接口server.node_agent,在agent服务启动时加载。
如图10所示,巡检指标插件包括三个层级plugin->inspection_entry->check_entry:
plugin1(hardware、software、storage...)
inspection_entry1(service、system、zbs)
check_entry1(service.check1 service.check2)
check_entry2
inspection_entry2
check_entry1
check_entry2
其中,plugin为顶层,负责定义插件名称和简介等基础信息;中间层为inspection_entry,负责collect,定义该插件具体收集信息的步骤和方法;check_entry为最内层,负责check,根据中间层收集到的数据进行相应的检查和告警。
如图11所示,控制节点node1在一次巡检流程中,对收集的全部信息采用文件的形式保存在巡检任务发起的节点上。不依赖于mongoDB等后台数据库提供的持久化能力;为了保证一次健康巡检信息的完整性,以一次巡检完整的健康巡检报告为粒度保存在一个以task_id为名称的巡检工作目录下;一次巡检完整的健康巡检报告包含了本次巡检涉及到的所有节点,在一次巡检中,不会出现每个节点局部性保留各自节点信息的情况;在巡检过程中产生的信息,除日志信息外,由各自的巡检指标插件在内存中持有,并由collector组件驱动,以巡检指标插件为粒度按照巡检项的顺序依次写入磁盘;在命令行中可以使用<Ctrl+c>的形式中断任务,可以在巡检过程中捕获按键中断异常,做收尾性的工作,例如将metadata.json中的状态做更新。
下面对本发明提供的超融合集群健康巡检装置进行描述,下文描述的超融合集群健康巡检装置与上文描述的超融合集群健康巡检方法可相互对应参照。
请参阅图12,图12是本发明提供的超融合集群健康巡检装置的组成结构示意图,图12所示的超融合集群健康巡检装置可用来执行图1的超融合集群健康巡检方法,如图12所示,该超融合集群健康巡检装置至少包括:
命令产生模块1210,用于接收健康巡检命令,获取当前的巡检项列表;
信息收集模块1220,用于根据当前的巡检项列表,调用对应的巡检指标插件,获取超融合集群的集群级别巡检项的信息,和/或向超融合集群中的节点分发健康巡检请求,获取节点根据健康巡检请求调用对应的巡检指标插件获取的节点级别巡检项的信息和对节点级别巡检项的信息的评价信息;其中,巡检指标插件是根据巡检指标预先设置,每一个巡检指标对应一个巡检指标插件,每一个巡检指标包括至少一个巡检项。
报告生成模块1230,用于根据节点级别巡检项的信息和评价信息和/或集群级别巡检项的信息,生成健康巡检报告。
可选地,信息收集模块1320,包括:
列表处理单元,用于根据当前的巡检项列表,确定被调用的巡检指标插件的插件名称和当前的插件巡检项列表。
信息收集单元,用于根据所确定的插件名称依次调用对应的巡检指标插件,根据巡检指标插件所确定的当前的插件巡检项列表,获取对应的集群级别巡检项的信息,和/或分别向超融合集群中的节点分发对应的健康巡检请求,获取节点根据健康巡检请求调用巡检指标插件获取的对应的节点级别巡检项的信息和对节点级别巡检项的信息的评价信息。
可选地,该超融合集群健康巡检装置还包括:信息采集模块,用于根据健康巡检请求调用巡检指标插件获取对应的节点级别巡检项的信息和对节点级别巡检项的信息的评价信息。
该信息采集模块,包括:
请求接收单元,用于接收分发的健康巡检请求;其中,健康巡检请求携带分发健康巡检请求的巡检指标插件的插件名称和当前的插件巡检项列表。
信息采集单元,用于根据健康巡检请求携带的插件名称,调用对应的巡检指标插件,根据健康巡检请求携带的当前的插件巡检项列表,获取本节点对应的节点级别巡检项的信息;其中,节点为控制节点或者普通节点。
信息检查单元,用于通过所调用的巡检指标插件,对所获取的节点级别巡检项的信息进行检查,得到对节点级别巡检项的信息的评价信息。
可选地,命令产生模块1210,包括:
命令接收单元,用于接收用户通过命令接口输入的健康巡检命令,或者接收用户操作浏览器生成的健康巡检命令,或者接收根据预先设置的巡检周期生成健康巡检命令。
列表获取单元,用于响应于健康巡检命令,获取当前的巡检项列表;其中,当前的巡检项列表为用户配置的巡检项列表或者默认的巡检项列表。
可选地,报告生成模块1230,包括:
报告生成单元,用于以每一个巡检指标插件获取的节点级别巡检项的信息和评价信息和/或集群级别巡检项的信息作为一章节,并将异常巡检项的信息排列在前面,根据预先设定的模板生成健康巡检报告。
报告展示单元,用于展示所生成的健康巡检报告。
报告存储单元,用于对所生成的健康巡检报告以文件的形式进行保存。
可选地,命令产生模块1210,还包括:
前置检查单元,用于对超融合集群的基础服务信息进行前置检查,判断超融合集群中是否存在致命性错误。
列表获取单元,用于在超融合集群中不存在致命性错误的情况下,获取当前的巡检项列表。
图13示例了一种电子设备的实体结构示意图,如图13所示,该电子设备可以包括:处理器(processor)1310、通信接口(CommunicationsInterface)1320、存储器(memory)1330和通信总线1340,其中,处理器1310,通信接口1320,存储器1330通过通信总线1340完成相互间的通信。处理器1310可以调用存储器1330中的逻辑指令,以执行超融合集群健康巡检方法,该方法包括:
接收健康巡检命令,获取当前的巡检项列表;
根据所述当前的巡检项列表,调用对应的巡检指标插件,获取所述超融合集群的集群级别巡检项的信息,和/或向所述超融合集群中的节点分发健康巡检请求,获取所述节点根据所述健康巡检请求调用对应的巡检指标插件获取的节点级别巡检项的信息和对所述节点级别巡检项的信息的评价信息;其中,所述巡检指标插件是根据巡检指标预先设置,每一个所述巡检指标对应一个所述巡检指标插件,每一个所述巡检指标包括至少一个巡检项;
根据所述节点级别巡检项的信息和所述评价信息和/或所述集群级别巡检项的信息,生成健康巡检报告。
此外,上述的存储器1330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施所提供的超融合集群健康巡检方法,该方法包括:
接收健康巡检命令,获取当前的巡检项列表;
根据所述当前的巡检项列表,调用对应的巡检指标插件,获取所述超融合集群的集群级别巡检项的信息,和/或向所述超融合集群中的节点分发健康巡检请求,获取所述节点根据所述健康巡检请求调用对应的巡检指标插件获取的节点级别巡检项的信息和对所述节点级别巡检项的信息的评价信息;其中,所述巡检指标插件是根据巡检指标预先设置,每一个所述巡检指标对应一个所述巡检指标插件,每一个所述巡检指标包括至少一个巡检项;
根据所述节点级别巡检项的信息和所述评价信息和/或所述集群级别巡检项的信息,生成健康巡检报告。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时能够实现上述各方法实施所提供的超融合集群健康巡检方法,,该方法包括:
接收健康巡检命令,获取当前的巡检项列表;
根据所述当前的巡检项列表,调用对应的巡检指标插件,获取所述超融合集群的集群级别巡检项的信息,和/或向所述超融合集群中的节点分发健康巡检请求,获取所述节点根据所述健康巡检请求调用对应的巡检指标插件获取的节点级别巡检项的信息和对所述节点级别巡检项的信息的评价信息;其中,所述巡检指标插件是根据巡检指标预先设置,每一个所述巡检指标对应一个所述巡检指标插件,每一个所述巡检指标包括至少一个巡检项;
根据所述节点级别巡检项的信息和所述评价信息和/或所述集群级别巡检项的信息,生成健康巡检报告。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种超融合集群健康巡检方法,其特征在于,所述超融合集群包括控制节点和普通节点;所述控制节点,包括:
接收健康巡检命令,获取当前的巡检项列表;
根据所述当前的巡检项列表,调用对应的巡检指标插件,获取所述超融合集群的集群级别巡检项的信息,和/或向所述超融合集群中的节点分发健康巡检请求,获取所述节点根据所述健康巡检请求调用对应的巡检指标插件获取的节点级别巡检项的信息和对所述节点级别巡检项的信息的评价信息;其中,所述巡检指标插件是根据巡检指标预先设置,每一个所述巡检指标对应一个所述巡检指标插件,每一个所述巡检指标包括至少一个巡检项;
根据所述节点级别巡检项的信息和所述评价信息和/或所述集群级别巡检项的信息,生成健康巡检报告;
所述控制节点和/或所述普通节点,根据所述健康巡检请求调用所述巡检指标插件获取对应的所述节点级别巡检项的信息和对所述节点级别巡检项的信息的评价信息,包括:
接收分发的所述健康巡检请求;其中,所述健康巡检请求携带分发所述健康巡检请求的巡检指标插件的插件名称和当前的插件巡检项列表;
根据所述健康巡检请求携带的插件名称,调用对应的巡检指标插件,根据所述健康巡检请求携带的当前的插件巡检项列表,获取本节点对应的节点级别巡检项的信息;
通过所调用的巡检指标插件,对所获取的节点级别巡检项的信息进行检查,得到对所述节点级别巡检项的信息的评价信息。
2.根据权利要求1所述的超融合集群健康巡检方法,其特征在于,根据所述当前的巡检项列表,调用对应的巡检指标插件,获取所述超融合集群的集群级别巡检项的信息,和/或向所述超融合集群中的节点分发健康巡检请求,获取所述节点根据所述健康巡检请求调用对应的巡检指标插件获取的节点级别巡检项的信息和对所述节点级别巡检项的信息的评价信息;包括:
根据所述当前的巡检项列表,确定被调用的巡检指标插件的插件名称和当前的插件巡检项列表;
根据所确定的插件名称依次调用对应的巡检指标插件,根据所述巡检指标插件所确定的当前的插件巡检项列表,获取对应的集群级别巡检项的信息,和/或分别向所述超融合集群中的节点分发对应的健康巡检请求,获取所述节点根据所述健康巡检请求调用所述巡检指标插件获取的对应的节点级别巡检项的信息和对所述节点级别巡检项的信息的评价信息。
3.根据权利要求1所述的超融合集群健康巡检方法,其特征在于,所述接收健康巡检命令,获取当前的巡检项列表,包括:
接收用户通过命令接口输入的所述健康巡检命令,或者接收用户操作浏览器生成的所述健康巡检命令,或者接收根据预先设置的巡检周期生成所述健康巡检命令;
响应于所述健康巡检命令,获取当前的巡检项列表;其中,所述当前的巡检项列表为用户配置的巡检项列表或者默认的巡检项列表。
4.根据权利要求1所述的超融合集群健康巡检方法,其特征在于,所述根据所述节点级别巡检项的信息和所述评价信息和/或所述集群级别巡检项的信息,生成健康巡检报告,包括:
以每一个所述巡检指标插件获取的所述节点级别巡检项的信息和所述评价信息和/或所述集群级别巡检项的信息作为一章节,并将异常巡检项的信息排列在前面,根据预先设定的模板生成所述健康巡检报告;
展示所生成的健康巡检报告,并对所生成的健康巡检报告以文件的形式进行保存。
5.根据权利要求1至4任一项所述的超融合集群健康巡检方法,其特征在于,所述接收健康巡检命令,获取当前的巡检项列表,包括:
接收所述健康巡检命令;
对所述超融合集群的基础服务信息进行前置检查,判断所述超融合集群中是否存在致命性错误;
若所述超融合集群中不存在致命性错误,则获取所述当前的巡检项列表;否则,结束所述健康巡检。
6.一种超融合集群健康巡检装置,其特征在于,所述超融合集群包括控制节点和普通节点,所述健康巡检装置应用于所述控制节点和所述普通节点,包括:
命令产生模块,用于接收健康巡检命令,获取当前的巡检项列表;
信息收集模块,用于根据所述当前的巡检项列表,调用对应的巡检指标插件,获取所述超融合集群的集群级别巡检项的信息,和/或向所述超融合集群中的节点分发健康巡检请求,获取所述节点根据所述健康巡检请求调用对应的巡检指标插件获取的节点级别巡检项的信息和对所述节点级别巡检项的信息的评价信息;其中,所述巡检指标插件是根据巡检指标预先设置,每一个所述巡检指标对应一个所述巡检指标插件,每一个所述巡检指标包括至少一个巡检项;
报告生成模块,用于根据所述节点级别巡检项的信息和所述评价信息和/或所述集群级别巡检项的信息,生成健康巡检报告;
信息采集模块,用于根据所述健康巡检请求调用所述巡检指标插件获取对应的所述节点级别巡检项的信息和对所述节点级别巡检项的信息的评价信息;
所述信息采集模块,包括:
请求接收单元,用于接收分发的所述健康巡检请求;其中,所述健康巡检请求携带分发所述健康巡检请求的巡检指标插件的插件名称和当前的插件巡检项列表;
信息采集单元,用于根据所述健康巡检请求携带的插件名称,调用对应的巡检指标插件,根据所述健康巡检请求携带的当前的插件巡检项列表,获取本节点对应的节点级别巡检项的信息;
信息检查单元,用于通过所调用的巡检指标插件,对所获取的节点级别巡检项的信息进行检查,得到对所述节点级别巡检项的信息的评价信息。
7.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述超融合集群健康巡检方法的步骤。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述超融合集群健康巡检方法的步骤。
CN202111389427.1A 2021-11-22 2021-11-22 超融合集群健康巡检方法和装置 Active CN114090382B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111389427.1A CN114090382B (zh) 2021-11-22 2021-11-22 超融合集群健康巡检方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111389427.1A CN114090382B (zh) 2021-11-22 2021-11-22 超融合集群健康巡检方法和装置

Publications (2)

Publication Number Publication Date
CN114090382A CN114090382A (zh) 2022-02-25
CN114090382B true CN114090382B (zh) 2022-07-22

Family

ID=80303013

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111389427.1A Active CN114090382B (zh) 2021-11-22 2021-11-22 超融合集群健康巡检方法和装置

Country Status (1)

Country Link
CN (1) CN114090382B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228430A (zh) * 2017-12-13 2018-06-29 山东浪潮云服务信息科技有限公司 一种服务器监控方法及装置
CN110275810A (zh) * 2018-03-16 2019-09-24 厦门靠谱云股份有限公司 一种基于插件形式云服务器性能收集管理系统
US10459827B1 (en) * 2016-03-22 2019-10-29 Electronic Arts Inc. Machine-learning based anomaly detection for heterogenous data sources
CN112000539A (zh) * 2020-07-17 2020-11-27 新华三大数据技术有限公司 一种巡检方法及装置
CN112561093A (zh) * 2020-12-16 2021-03-26 航天信息股份有限公司 微服务治理管理平台巡检方法、设备、存储介质及装置
CN113051147A (zh) * 2021-04-25 2021-06-29 中国建设银行股份有限公司 一种数据库集群的监控方法、装置、系统、以及设备
CN113472577A (zh) * 2021-06-30 2021-10-01 济南浪潮数据技术有限公司 一种集群巡检方法、装置及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346706A (zh) * 2010-08-03 2012-02-08 鸿富锦精密工业(深圳)有限公司 服务器管理系统及方法
US10055277B1 (en) * 2015-09-30 2018-08-21 Amdocs Development Limited System, method, and computer program for performing health checks on a system including a plurality of heterogeneous system components
CN106844158A (zh) * 2017-01-25 2017-06-13 郑州云海信息技术有限公司 一种服务器节点状态的监测方法及装置
CN109992502A (zh) * 2017-12-30 2019-07-09 中国移动通信集团四川有限公司 应用软件性能自动检测分析方法、装置、设备及介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10459827B1 (en) * 2016-03-22 2019-10-29 Electronic Arts Inc. Machine-learning based anomaly detection for heterogenous data sources
CN108228430A (zh) * 2017-12-13 2018-06-29 山东浪潮云服务信息科技有限公司 一种服务器监控方法及装置
CN110275810A (zh) * 2018-03-16 2019-09-24 厦门靠谱云股份有限公司 一种基于插件形式云服务器性能收集管理系统
CN112000539A (zh) * 2020-07-17 2020-11-27 新华三大数据技术有限公司 一种巡检方法及装置
CN112561093A (zh) * 2020-12-16 2021-03-26 航天信息股份有限公司 微服务治理管理平台巡检方法、设备、存储介质及装置
CN113051147A (zh) * 2021-04-25 2021-06-29 中国建设银行股份有限公司 一种数据库集群的监控方法、装置、系统、以及设备
CN113472577A (zh) * 2021-06-30 2021-10-01 济南浪潮数据技术有限公司 一种集群巡检方法、装置及系统

Also Published As

Publication number Publication date
CN114090382A (zh) 2022-02-25

Similar Documents

Publication Publication Date Title
EP3806432A1 (en) Method for changing service on device and service changing system
CN110704277B (zh) 一种监测应用性能的方法、相关设备及存储介质
CN111881014B (zh) 一种系统测试方法、装置、存储介质及电子设备
CN111200526B (zh) 网络设备的监控系统及方法
US20210065083A1 (en) Method for changing device business and business change system
CN109471845A (zh) 日志管理方法、服务器及计算机可读存储介质
CN109460343A (zh) 基于日志的系统异常监控方法、装置、设备及存储介质
CN113946499A (zh) 一种微服务链路跟踪及性能分析方法、系统、设备及应用
CN113391978B (zh) 一种主机的巡检方法和装置
CN111124830B (zh) 一种微服务的监控方法及装置
CN114356499A (zh) Kubernetes集群告警根因分析方法及装置
CN112994972B (zh) 一种分布式探针监测平台
CN112699007A (zh) 监控机器性能的方法、系统、网络设备及存储介质
CN108632086A (zh) 一种并行作业运行故障定位方法
CN116016123A (zh) 故障处理方法、装置、设备及介质
CN111240936A (zh) 一种数据完整性校验的方法及设备
CN112671586B (zh) 一种业务配置自动迁移和保障方法及装置
CN113537590A (zh) 一种数据异常预测方法及系统
CN114090382B (zh) 超融合集群健康巡检方法和装置
CN117370053A (zh) 一种面向信息系统业务运行全景监测方法及系统
CN115248782B (zh) 一种自动化测试方法、装置及计算机设备
CN110928750B (zh) 数据处理方法、装置及设备
CN116594840A (zh) 基于elk的日志故障采集与分析方法、系统、设备及介质
CN114816914A (zh) 基于Kubernetes的数据处理方法、设备及介质
CN110990237B (zh) 一种信息收集系统、方法及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 8b, building 1, No. 48, Zhichun Road, Haidian District, Beijing 100086

Patentee after: Beijing Zhiling Haina Technology Co.,Ltd.

Country or region after: China

Address before: 100086 8th floor, block a, Yingdu building, No.48, Zhichun Road, Haidian District, Beijing

Patentee before: Beijing zhilinghaina Technology Co.,Ltd.

Country or region before: China