CN109167676A - 一种高性能集群故障的诊断方法及系统 - Google Patents

一种高性能集群故障的诊断方法及系统 Download PDF

Info

Publication number
CN109167676A
CN109167676A CN201810825121.8A CN201810825121A CN109167676A CN 109167676 A CN109167676 A CN 109167676A CN 201810825121 A CN201810825121 A CN 201810825121A CN 109167676 A CN109167676 A CN 109167676A
Authority
CN
China
Prior art keywords
information
node
performance computing
computing cluster
script
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810825121.8A
Other languages
English (en)
Inventor
宋辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201810825121.8A priority Critical patent/CN109167676A/zh
Publication of CN109167676A publication Critical patent/CN109167676A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/02Standardisation; Integration
    • H04L41/0246Exchanging or transporting network management information using the Internet; Embedding network management web servers in network elements; Web-services-based protocols
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • H04L43/045Processing captured monitoring data, e.g. for logfile generation for graphical visualisation of monitoring data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0811Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking connectivity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • H04L67/025Protocols based on web technology, e.g. hypertext transfer protocol [HTTP] for remote control or remote monitoring of applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1044Group management mechanisms 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/565Conversion or adaptation of application format or content

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种高性能集群故障的诊断方法及系统,该诊断方法包括:在高性能集群的主节点中收集高性能集群中各节点的基本信息;对基本信息进行格式转换,并转化为HTML文档形式的基本信息;根据所获取的加载命令,将HTML文档形式的基本信息加载到本地,并以web界面的形式进行可视化显示;根据web界面中所显示的内容,进行故障定位和故障处理。该诊断系统包括:信息收集模块、格式转化模块、显示模块和故障处理模块。本申请采用脚本对高性能集群中各节点的基本信息进行收集、转化并进行可视化显示,使用户能够非常直观地查看高性能集群的状态,从而有利于故障点的快速定位,能够有效提高故障排查的准确性和故障排查效率。

Description

一种高性能集群故障的诊断方法及系统
技术领域
本申请涉及服务器高性能计算技术领域,特别是涉及一种高性能集群故障的诊断方法及系统。
背景技术
高性能计算已成为继理论科学和实验科学之后,科学探索的第三范式,被广泛应用于多个工业及行业领域,其中,随着高性能计算技术的发展,用户自行搭建的中小规模高性能集群的应用范围越来越广。对这些中小规模的高性能集群进行运维管理,及时排查故障并完成日常维护,是个重要问题。对中小规模的高性能集群进行运维管理的核心,就是对高性能集群的信息进行收集。收集到高性能集群的信息后,针对所收集到的集群信息进行分析,根据分析结果对高性能集群进行维护。
目前,对中小规模高性能集群进行信息收集的方法,主要是:当集群发生故障时,需要分别登录各个节点,在各个节点上手动查看并分析各类日志文件和相关信息,然后根据各类相关信息,逐步排除故障。
然而,目前对中小规模高性能集群进行信息收集的方法中,由于高性能集群本身的复杂性,导致高性能集群日志多种多样,且文件数量较多,目前采用手动处理各类集群信息,使得故障排查工作量较大,导致故障排查效率较低,而且由于采用人工手动处理各类集群信息,容易产生误差,从而导致故障排查准确性较低。
发明内容
本申请提供了一种高性能集群故障的诊断方法及系统,以解决现有技术中高性能集群故障排查效率低和故障排查准确性较低的问题。
为了解决上述技术问题,本申请实施例公开了如下技术方案:
一种高性能集群故障的诊断方法,所述诊断方法包括:
在高性能集群的主节点中收集高性能集群中各节点的基本信息,所述基本信息包括:节点的硬件信息、节点的系统日志、节点的操作系统信息、节点网络信息、主节点的服务器状态信息、计算节点的服务状态信息、Lustre文件系统状态以及集群管理平台的状态信息;
对所述基本信息进行格式转换,并转化为HTML文档形式的基本信息;
根据所获取的加载命令,将所述HTML文档形式的基本信息加载到本地,并以web界面的形式进行可视化显示;
根据web界面中所显示的内容,进行故障定位和故障处理。
可选地,对所述基本信息进行格式转换,并转化为HTML文档形式的基本信息之后,所述诊断方法还包括:
利用CSS(Cascading Style Sheet,层叠样式表单)格式定义文件,对所述HTML文档形式的基本信息进行层叠样式定义,形成CSS格式的基本信息。
可选地,所述根据所获取的加载命令,将所述HTML文档形式的基本信息加载到本地,并以web界面的形式进行可视化显示,具体为:
根据所获取的加载命令,将所述CSS格式的基本信息加载到本地,并以web界面的形式进行可视化显示。
可选地,所述在高性能集群的主节点中收集高性能集群中各节点的基本信息之前,所述诊断方法还包括:
在高性能集群的主节点上加载主脚本、信息收集脚本、信息HTML转化脚本及辅助时间戳脚本,其中,所述主脚本用于验证脚本运行环境、调用信息收集脚本、信息HTML转化脚本及辅助时间戳脚本。
可选地,所述根据web界面中所显示的内容,进行故障定位和处理,包括:
根据web界面中所显示的内容,确定服务异常的节点;
根据高性能集群中规定的ssh登录方式,登录至所述服务异常的节点;
在所述服务异常的节点中,进行故障处理。
可选地,所述节点的硬件信息包括:CPU信息、板卡信息和网络信息;所述节点的操作系统信息包括操作系统的版本;所述节点网络信息包括:网卡设备、IP配置和链接状态;所述主节点的服务器状态信息包括:主节点的NFS服务状态和配置,NIS服务状态和配置,以及NTP服务状态和配置;所述计算节点的服务状态信息包括:计算节点的网络配置信息、NFS客户端服务状态、NIS客户端服务状态以及NTP客户端服务状态;所述集群管理平台的状态信息包括服务端的状态信息和客户端的状态信息。
一种高性能集群故障的诊断系统,所述诊断系统包括:
信息收集模块,用于在高性能集群的主节点中收集高性能集群中各节点的基本信息,所述基本信息包括:节点的硬件信息、节点的系统日志、节点的操作系统信息、节点网络信息、主节点的服务器状态信息、计算节点的服务状态信息、Lustre文件系统状态以及集群管理平台的状态信息;
格式转化模块,用于对所述基本信息进行格式转换,并转化为HTML文档形式的基本信息;
显示模块,用于根据所获取的加载命令,将所述HTML文档形式的基本信息加载到本地,并以web界面的形式进行可视化显示;
故障处理模块,用于根据web界面中所显示的内容,进行故障定位和故障处理。
可选地,所述诊断系统中还包括:
CSS格式定义模块,用于利用CSS格式定义文件,对所述HTML文档形式的基本信息进行层叠样式定义,形成CSS格式的基本信息。
可选地,所述诊断系统中还包括:加载模块,用于在高性能集群的主节点上加载主脚本、信息收集脚本、信息HTML转化脚本及辅助时间戳脚本,其中,所述主脚本用于验证脚本运行环境、调用信息收集脚本、信息HTML转化脚本及辅助时间戳脚本。
可选地,所述故障处理模块包括:
故障定位单元,用于根据web界面中所显示的内容,确定服务异常的节点;
登录单元,用于根据高性能集群中规定的ssh登录方式,登录至所述服务异常的节点;
处理单元,用于在所述服务异常的节点中,进行故障处理。
本申请的实施例提供的技术方案可以包括以下有益效果:
本申请提供一种高性能集群故障的诊断方法,该方法首先在高性能集群的主节点中收集高性能集群中各节点的基本信息,其次对收集到的基本信息进行格式转化,转化为HTML文档形式的基本信息,然后将HTML文档形式的基本信息加载到本地,并以web界面的形式进行可视化显示;最后根据web界面中所显示的内容,进行故障定位和故障处理。采用本申请中的方法进行脚本编写,通过将脚本添加到高性能集群的主节点中,在主节点中运行脚本,实现对各节点基本信息的收集、转化,并利用CSS格式定义文件对基本信息进行处理,最终获取一时间戳压缩包$timestamp.zip。然后将此时间戳压缩包加载到本地并进行可视化显示,使用户能够非常直观地查看高性能集群的状态,从而有利于故障点的快速定位。而且本申请提供一种可用脚本实现的方法,避免手动处理各类集群信息,能够有效提高故障排查的准确性和故障排查效率。
本申请还提供一种高性能集群故障的诊断系统,该系统包括信息收集模块、格式转化模块、显示模块和故障处理模块。通过信息收集模块能够在高性能集群的主节点中收集高性能集群中各节点的基本信息,利用格式转化模块能够对所收集的基本信息进行格式转化,并转化为HTML文档形式,以便于后续通过web界面的方式对集群信息进行展示。然后通过显示模块对HTML文档形式的基本信息加载至本地并进行可视化展示,有利于用户直观了解高性能集群中各节点的运行状态,从而提高故障排查效率。最后根据显示模块的内容,通过故障处理模块,对不同的故障进行定位,并根据故障原因进行故障处理。因此,本申请中诊断系统,采用自动化的方式进行集群信息采集和转换,并以可视化的方式展示集群信息,避免手动处理各类集群信息,有利于提高故障排查效率和准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例所提供的一种高性能集群故障的诊断方法的流程示意图;
图2为本实施例中web界面示意图;
图3为本申请实施例所提供的一种高性能集群故障的诊断系统的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
为了更好地理解本申请,下面结合附图来详细解释本申请的实施方式。
实施例一
参见图1,图1为本申请实施例所提供的一种高性能集群故障的诊断方法的流程示意图。由图1可知,本实施例中的诊断方法包括:
S1:在高性能集群的主节点中收集高性能集群中各节点的基本信息。该基本信息包括:节点的硬件信息、节点的系统日志、节点的操作系统信息、节点网络信息、主节点的服务器状态信息、计算节点的服务状态信息、Lustre文件系统状态以及集群管理平台的状态信息。
具体地,节点的硬件信息包括:CPU信息、板卡信息和网络信息;节点的操作系统信息包括操作系统的版本;节点网络信息包括:网卡设备、IP配置和链接状态;主节点的服务器状态信息包括:主节点的NFS服务状态和配置,NIS服务状态和配置,以及NTP服务状态和配置;计算节点的服务状态信息包括:计算节点的网络配置信息、NFS客户端服务状态、NIS客户端服务状态以及NTP客户端服务状态;集群管理平台的状态信息包括服务端的状态信息和客户端的状态信息。
本申请中的方法可以通过脚本的形式来实现,首先将脚本复制到高性能集群的主节点中,通过在高性能集群的主节点中运行脚本,实现对高性能集群中各节点的信息进行收集,从而为后续的故障诊断提供更加系统而全面的数据,进而提高故障诊断的准确性。
因此,步骤S1可以包括如下过程:
S11:在高性能集群的主节点上加载信息收集脚本;
S12:运行信息收集脚本,获取高性能集群中各节点的基本信息。
收集到各节点的基本信息后,执行步骤S2:对基本信息进行格式转换,并转化为HTML文档形式的基本信息。
通过主节点收集到的基本信息通常为txt形式的文件,本实施例通过步骤S2将此txt形式的文件转化为HTML文档形式的文件,以便于后续以可视化形式进行展示。
进一步地,步骤S2之后还包括:利用CSS格式定义文件,对HTML文档形式的基本信息进行层叠样式定义,形成CSS格式的基本信息。
CSS格式定义文件用于表现HTML等文件样式的层叠样式表,能够对网页中元素位置的排版进行像素级的精确控制,CSS格式定义文件能够支持绝大部分的字体字号样式,拥有对网页对象和模型样式编辑的能力。CSS是一种非常便捷的HTML工具,本实施例采用CSS格式定义文件对HTML文档形式的基本信息进行处理后,能够对使基本信息的展示更加清晰,有利于进一步快速定位故障点,提高故障诊断效率。
S3:根据所获取的加载命令,将HTML文档形式的基本信息加载到本地,并以web界面的形式进行可视化显示。
本实施例在高性能集群的主节点中运行脚本,实现集群基本信息的收集和基本信息的格式转化,最终需要将所收集的基本信息加载到本地,才能便于工作人员进行故障分析和处理。本实施例中将HTML文档形式的基本信息加载到本地后,以web界面的形式进行可视化显示,使得工作人员能够非常直观地查看高性能集群中各节点的运行状态。
进一步地,本实施例在主节点中利用CSS格式定义文件对HTML形式的基本信息进行处理后,会在主节点中形成CSS格式的基本信息。此时,根据加载命令,可以将HTML文档形式的基本信息加载到本地,并以web界面的形式进行可视化显示。
继续参见图1可知,将基本信息加载到本地后,执行步骤S4:根据web界面中所显示的内容,进行故障定位和故障处理。具体地,步骤S4包括如下过程:
S41:根据web界面中所显示的内容,确定服务异常的节点;
S42:根据高性能集群中规定的ssh登录方式,登录至服务异常的节点;
S43:在服务异常的节点中,进行故障处理。
本申请中的方法可以通过脚本的形式来实现,具体地,可以采用Linux Shell语言及CSS脚本进行描述,使用基于RedHat或CentOS发行版Linux Bash环境脚本,对于集群各个节点的硬件信息、系统日志、网络及服务状态、管理节点服务状态、计算节点服务状态等信息收集。
因此,在步骤S1之前还包括步骤S0:在高性能集群的主节点上加载主脚本、信息收集脚本、信息HTML转化脚本及辅助时间戳脚本。其中,主脚本用于验证脚本运行环境、调用信息收集脚本、信息HTML转化脚本及辅助时间戳脚本。当然,还可以包括CSS格式定义脚本。
具体地,首先将inspurhpcselfie目录复制到高性能集群中主节点任意目录下,其中,inspurhpcselfie中包含本实施例中所有脚本,如:主脚本start.sh、信息收集脚本infocollect.sh、信息HTML转化脚本convert.sh、CSS格式定义脚本hpc.css及辅助时间戳脚本getTimeStamp.sh等。主节点任意目录可以为/root/或者/opt/等常用目录。
然后,进入带有inspurhpcselfie目录的高性能集群中主节点目录下,开始执行主脚本start.sh。执行主脚本,主要用于判断脚本运行的环境,如:在主节点执行inspurhpcselfie目录下的脚本是否需要root权限,脚本是否运行于x86平台等;然后调用infocollect.sh和convert.sh,通过执行一系列定义好的function,将收集的信息输入到CSS格式定义的HTML界面中,以便后续阅查看。
下面举例说明如何采用本申请中的方法进行高性能集群故障的诊断。
1)根据集群具体环境,调整inspurselfie中脚本细节。
例如:在infocollect.sh中添加测试集群节点间ssh互信的代码,若集群不具备ssh环境或不需要进行此项测试,可将这部分代码的开头加入#进行注释。若集群为开源集群,则infocollect.sh中的浪潮自研集群管理软件信息收集部分,如:functionCollectTSCEInfo()和function TSCEInfoList()亦可删除,相应地,信息HTML转化脚本convert.sh中function convertTSCEInfo()及function convertTSCEInfoList()都需要删除,start.sh中需要删除信息转换的相应内容,如:“convertTSCEInfo$timestamp”及“convertTSCEInfoList$timestamp”。
2)将inspurhpcselfie目录复制到高性能集群主节点的任意目录下。
一般复制到主节点中/root/或者/opt/目录下。
3)进入目录,执行start.sh,通过执行脚本自动完成信息收集以及HTML转化功能。
通过运行主脚本,首先判断基本环境,如:是否为root权限,x86平台等;然后调用脚本infocollect.sh和convert.sh;通过执行一系列定义好的功能function,将收集的基本信息输入到CSS格式定义的HTML界面中,以便后续阅读。
4)待脚本自动执行完成,得到一以时间戳命名的压缩包$timestamp.zip。
该压缩包$timestamp.zip即为HTML文档形式的集群状态报告。
5)将zip包从集群复制到本地,并解压,执行目录主文件index.html。
6)运行完毕index.html,即可在web界面中查看该集群状态报告。Web界面示意图可以参见图2。
7)根据集群状态报告,定位故障点。
参见图2,在图2的左上方模块中,点击Computing Nodes Information,左下方模块点击NIS Server,查看右方信息报告,若其中包含类似“There are Clients MissingNIS Service!”的信息,则需在下方各个节点输出内容中寻找服务异常的节点。当节点找到后,通过高性能集群要求的ssh登录方式,登录到相应服务器节点,根据具体的故障原因利用相应的管理命令恢复服务即可。
实施例二
在图1和图2所示实施例的基础之上参见图3,图3为本申请实施例所提供的一种高性能集群故障的诊断系统的结构示意图。由图3可知,本实施例中的诊断系统主要包括:信息收集模块、格式转化模块、显示模块和故障处理模块四部分。其中,信息收集模块用于在高性能集群的主节点中收集高性能集群中各节点的基本信息。基本信息包括:节点的硬件信息、节点的系统日志、节点的操作系统信息、节点网络信息、主节点的服务器状态信息、计算节点的服务状态信息、Lustre文件系统状态以及集群管理平台的状态信息;格式转化模块,用于对基本信息进行格式转换,并转化为HTML文档形式的基本信息;显示模块,用于根据所获取的加载命令,将HTML文档形式的基本信息加载到本地,并以web界面的形式进行可视化显示;故障处理模块,用于根据web界面中所显示的内容,进行故障定位和故障处理。
其中,故障处理模块又包括:故障定位单元、登录单元和处理单元。故障定位单元,用于根据web界面中所显示的内容,确定服务异常的节点;登录单元,用于根据高性能集群中规定的ssh登录方式,登录至所述服务异常的节点;处理单元,用于在所述服务异常的节点中,进行故障处理。
进一步地,本实施例的诊断系统中还包括有CSS格式定义模块,用于利用CSS格式定义文件,对HTML文档形式的基本信息进行层叠样式定义,形成CSS格式的基本信息。
当诊断系统中设置有CSS格式定义模块时,显示模块还用于根据所获取的加载命令,将所述CSS格式的基本信息加载到本地,并以web界面的形式进行可视化显示。
本实施例的诊断系统中还包括:加载模块,用于在高性能集群的主节点上加载主脚本、信息收集脚本、信息HTML转化脚本及辅助时间戳脚本,其中,所述主脚本用于验证脚本运行环境、调用信息收集脚本、信息HTML转化脚本及辅助时间戳脚本。
本实施例中高性能集群故障的诊断系统的工作原理和工作方法,在图1和图2所示的实施例一中已经详细阐述,两者可以互相参照,在此不再赘述。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种高性能集群故障的诊断方法,其特征在于,所述诊断方法包括:
在高性能集群的主节点中收集高性能集群中各节点的基本信息,所述基本信息包括:节点的硬件信息、节点的系统日志、节点的操作系统信息、节点网络信息、主节点的服务器状态信息、计算节点的服务状态信息、Lustre文件系统状态以及集群管理平台的状态信息;
对所述基本信息进行格式转换,并转化为HTML文档形式的基本信息;
根据所获取的加载命令,将所述HTML文档形式的基本信息加载到本地,并以web界面的形式进行可视化显示;
根据web界面中所显示的内容,进行故障定位和故障处理。
2.根据权利要求1所述的一种高性能集群故障的诊断方法,其特征在于,对所述基本信息进行格式转换,并转化为HTML文档形式的基本信息之后,所述诊断方法还包括:
利用CSS格式定义文件,对所述HTML文档形式的基本信息进行层叠样式定义,形成CSS格式的基本信息。
3.根据权利要求2所述的一种高性能集群故障的诊断方法,其特征在于,所述根据所获取的加载命令,将所述HTML文档形式的基本信息加载到本地,并以web界面的形式进行可视化显示,具体为:
根据所获取的加载命令,将所述CSS格式的基本信息加载到本地,并以web界面的形式进行可视化显示。
4.根据权利要求1所述的一种高性能集群故障的诊断方法,其特征在于,所述在高性能集群的主节点中收集高性能集群中各节点的基本信息之前,所述诊断方法还包括:
在高性能集群的主节点上加载主脚本、信息收集脚本、信息HTML转化脚本及辅助时间戳脚本,其中,所述主脚本用于验证脚本运行环境、调用信息收集脚本、信息HTML转化脚本及辅助时间戳脚本。
5.根据权利要求1所述的一种高性能集群故障的诊断方法,其特征在于,所述根据web界面中所显示的内容,进行故障定位和处理,包括:
根据web界面中所显示的内容,确定服务异常的节点;
根据高性能集群中规定的ssh登录方式,登录至所述服务异常的节点;
在所述服务异常的节点中,进行故障处理。
6.根据权利要求1-5中任一所述的一种高性能集群故障的诊断方法,其特征在于,所述节点的硬件信息包括:CPU信息、板卡信息和网络信息;所述节点的操作系统信息包括操作系统的版本;所述节点网络信息包括:网卡设备、IP配置和链接状态;所述主节点的服务器状态信息包括:主节点的NFS服务状态和配置,NIS服务状态和配置,以及NTP服务状态和配置;所述计算节点的服务状态信息包括:计算节点的网络配置信息、NFS客户端服务状态、NIS客户端服务状态以及NTP客户端服务状态;所述集群管理平台的状态信息包括服务端的状态信息和客户端的状态信息。
7.一种高性能集群故障的诊断系统,其特征在于,所述诊断系统包括:
信息收集模块,用于在高性能集群的主节点中收集高性能集群中各节点的基本信息,所述基本信息包括:节点的硬件信息、节点的系统日志、节点的操作系统信息、节点网络信息、主节点的服务器状态信息、计算节点的服务状态信息、Lustre文件系统状态以及集群管理平台的状态信息;
格式转化模块,用于对所述基本信息进行格式转换,并转化为HTML文档形式的基本信息;
显示模块,用于根据所获取的加载命令,将所述HTML文档形式的基本信息加载到本地,并以web界面的形式进行可视化显示;
故障处理模块,用于根据web界面中所显示的内容,进行故障定位和故障处理。
8.根据权利要求7所述的一种高性能集群故障的诊断系统,其特征在于,所述诊断系统中还包括:
CSS格式定义模块,用于利用CSS格式定义文件,对所述HTML文档形式的基本信息进行层叠样式定义,形成CSS格式的基本信息。
9.根据权利要求7所述的一种高性能集群故障的诊断系统,其特征在于,所述诊断系统中还包括:加载模块,用于在高性能集群的主节点上加载主脚本、信息收集脚本、信息HTML转化脚本及辅助时间戳脚本,其中,所述主脚本用于验证脚本运行环境、调用信息收集脚本、信息HTML转化脚本及辅助时间戳脚本。
10.根据权利要求7所述的一种高性能集群故障的诊断系统,其特征在于,所述故障处理模块包括:
故障定位单元,用于根据web界面中所显示的内容,确定服务异常的节点;
登录单元,用于根据高性能集群中规定的ssh登录方式,登录至所述服务异常的节点;
处理单元,用于在所述服务异常的节点中,进行故障处理。
CN201810825121.8A 2018-07-24 2018-07-24 一种高性能集群故障的诊断方法及系统 Pending CN109167676A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810825121.8A CN109167676A (zh) 2018-07-24 2018-07-24 一种高性能集群故障的诊断方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810825121.8A CN109167676A (zh) 2018-07-24 2018-07-24 一种高性能集群故障的诊断方法及系统

Publications (1)

Publication Number Publication Date
CN109167676A true CN109167676A (zh) 2019-01-08

Family

ID=64898085

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810825121.8A Pending CN109167676A (zh) 2018-07-24 2018-07-24 一种高性能集群故障的诊断方法及系统

Country Status (1)

Country Link
CN (1) CN109167676A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110430071A (zh) * 2019-07-19 2019-11-08 云南电网有限责任公司信息中心 业务节点故障自愈方法、装置、计算机设备及存储介质
CN111061610A (zh) * 2019-12-09 2020-04-24 广州鼎甲计算机科技有限公司 集群系统性能测试报告的生成方法、装置和计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160042014A1 (en) * 2012-09-25 2016-02-11 A10 Networks, Inc. Distributed database in software driven networks
CN105337765A (zh) * 2015-10-10 2016-02-17 上海新炬网络信息技术有限公司 一种分布式hadoop集群故障自动诊断修复系统
CN106569935A (zh) * 2015-10-12 2017-04-19 中国石油化工股份有限公司 用于地球物理高性能计算的进程分析方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160042014A1 (en) * 2012-09-25 2016-02-11 A10 Networks, Inc. Distributed database in software driven networks
CN105337765A (zh) * 2015-10-10 2016-02-17 上海新炬网络信息技术有限公司 一种分布式hadoop集群故障自动诊断修复系统
CN106569935A (zh) * 2015-10-12 2017-04-19 中国石油化工股份有限公司 用于地球物理高性能计算的进程分析方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈倩: "基于Web的集群管理与监护系统的设计与研究", 《中国优秀硕士学位论文全文数据裤库(电子期刊)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110430071A (zh) * 2019-07-19 2019-11-08 云南电网有限责任公司信息中心 业务节点故障自愈方法、装置、计算机设备及存储介质
CN111061610A (zh) * 2019-12-09 2020-04-24 广州鼎甲计算机科技有限公司 集群系统性能测试报告的生成方法、装置和计算机设备
CN111061610B (zh) * 2019-12-09 2020-10-20 广州鼎甲计算机科技有限公司 集群系统性能测试报告的生成方法、装置和计算机设备

Similar Documents

Publication Publication Date Title
CN110928772B (zh) 一种测试方法及装置
EP0952521A2 (en) Method for tracking configuration changes in networks of computer systems through historical monitoring of configuration status of devices on the network
US20090177926A1 (en) Incident simulation support environment
CA2657487A1 (en) Distributed capture and aggregation of dynamic application usage information
US10922614B2 (en) Converting procedural text to an actionable knowledge form
CA2739231A1 (en) System and method for analytic process design
JP2014081811A (ja) ログ管理システム、および、ログ管理方法
CN110489317B (zh) 基于工作流的云系统任务运行故障诊断方法与系统
CN115576974B (zh) 数据处理方法、装置、设备和介质
CN109167676A (zh) 一种高性能集群故障的诊断方法及系统
CN111966587A (zh) 数据采集方法、装置和设备
KR20150118963A (ko) 큐 모니터링 및 시각화
CN107870850A (zh) 一种高效的互联网应用日志系统
JP5045517B2 (ja) 設計書作成プログラム、該装置、及び該方法
CN108959391A (zh) 展现数据库集群架构图的设备、系统、方法、存储介质
CN110286882B (zh) 一种基于模型检测的前台系统设计与验证方法
JP4928480B2 (ja) ジョブ処理システムおよびジョブ管理方法
JP2021140430A (ja) データベースマイグレーション方法、データベースマイグレーションシステム、及びデータベースマイグレーションプログラム
CN116069649A (zh) 页面测试方法、装置、设备及介质
CN115757045A (zh) 一种交易日志分析方法、系统及装置
CN112947939B (zh) 一种数据上报方法、装置、设备及存储介质
CN110119322B (zh) 数据获取方法、装置、计算机设备及可读存储介质
CN113760579A (zh) 一种故障排查方法及装置
CN113626288A (zh) 故障处理方法、系统、装置、存储介质和电子设备
US20220292053A1 (en) Method for generating a coherent representation for at least two log files

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190108