CN109101397A - 高性能集群监控方法、设备、装置及存储介质 - Google Patents

高性能集群监控方法、设备、装置及存储介质 Download PDF

Info

Publication number
CN109101397A
CN109101397A CN201810867270.0A CN201810867270A CN109101397A CN 109101397 A CN109101397 A CN 109101397A CN 201810867270 A CN201810867270 A CN 201810867270A CN 109101397 A CN109101397 A CN 109101397A
Authority
CN
China
Prior art keywords
node
performance
computing cluster
monitored
performance computing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810867270.0A
Other languages
English (en)
Inventor
赵扬
雷鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Suya Information Technology Co Ltd
Original Assignee
Wuhan Suya Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Suya Information Technology Co Ltd filed Critical Wuhan Suya Information Technology Co Ltd
Priority to CN201810867270.0A priority Critical patent/CN109101397A/zh
Publication of CN109101397A publication Critical patent/CN109101397A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/321Display for diagnostics, e.g. diagnostic result display, self-test user interface

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种高性能集群监控方法、设备、装置及存储介质,所述方法包括:获取高性能集群中的待监控节点;在所述待监控节点运行目标应用软件时,采集所述待监控节点的性能数据;根据所述性能数据生成所述高性能集群的应用运行特征文件;对所述应用运行特征文件进行离线分析。通过实时采集各节点的性能数据,能够实时监控高性能集群中应用软件的运行状态,并且在监控整体集群性能状态的同时,将性能数据保存为应用运行特征文件,可供离线性能分析使用。

Description

高性能集群监控方法、设备、装置及存储介质
技术领域
本发明涉及集群监控技术领域,尤其涉及一种高性能集群监控方法、设备、装置及存储介质。
背景技术
高性能计算集群(HPC,High Performance Computing)是指能够执行一般个人电脑无法处理的大资料量与高速运算的电脑,其基本组成组件与个人电脑的概念无太大差异,但规格与性能则强大许多。
然而,现有的高性能计算集群在面对复杂、大规模的作业管理和调度的时候,无法实时对高性能集群进行监控,了解集群中应用软件的运行状态。
发明内容
本发明的主要目的在于提供一种高性能集群监控方法、设备、装置及存储介质,旨在解决现有技术中无法实时对高性能集群进行监控,了解集群中应用软件的运行状态的技术问题。
为实现上述目的,本发明提供一种高性能集群监控方法,所述方法包括以下步骤:
获取高性能集群中的待监控节点;
在所述待监控节点运行目标应用软件时,采集所述待监控节点的性能数据;
根据所述性能数据生成所述高性能集群的应用运行特征文件;
对所述应用运行特征文件进行离线分析。
优选地,所述在所述待监控节点运行目标应用软件时,采集所述待监控节点的性能数据之后,所述方法还包括:
通过前台节点运行图形窗口界面,所述图形窗口界面包括各待监控节点对应的图形窗口;
根据所述性能数据生成各待监控节点的应用运行特征直方图,并通过各待监控节点对应的图形窗口显示所述应用运行特征直方图。
优选地,所述通过各待监控节点对应的图形窗口显示所述应用运行特征直方图之后,所述方法还包括:
监控所述待监控节点是否处于异常状态;
获取处于异常状态的待监控节点对应的目标图形窗口,通过预设报警颜色闪烁显示所述目标图形窗口。
优选地,所述对所述应用运行特征文件进行离线分析之前,所述方法还包括:
调用与所述高性能集群关联的预设调度系统的应用程序接口,并从所述应用程序接口获取所述预设调度系统的调度数据;
相应地,所述对所述应用运行特征文件进行离线分析,具体包括:
对所述应用运行特征文件与所述调度数据进行离线分析。
优选地,所述对所述应用运行特征文件与所述调度数据进行离线分析,具体包括:
从所述应用运行特征文件中提取所述性能数据,并对所述性能数据与所述调度数据进行显示;
根据所述性能数据与所述调度数据重构所述高性能集群的应用运行过程。
优选地,所述根据所述性能数据与所述调度数据重构所述高性能集群的应用运行过程,具体包括:
根据所述性能数据与所述调度数据生成应用运行特征曲线图,并显示所述应用运行特征曲线图。
优选地,所述根据所述性能数据与所述调度数据生成应用运行特征曲线图,并显示所述应用运行特征曲线图之后,所述方法还包括:
对所述应用运行特征曲线图进行分析,根据分析结果对所述目标应用软件的硬件进行配置。
此外,为实现上述目的,本发明还提供一种高性能集群监控设备,所述高性能集群监控设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的高性能集群监控程序,所述高性能集群监控程序被所述处理器执行时实现如上文所述高性能集群监控方法的步骤。
此外,为实现上述目的,本发明还提供一种高性能集群监控装置,所述高性能集群监控装置包括:节点获取模块、数据采集模块、文件生成模块与数据分析模块;
所述节点获取模块,用于获取高性能集群中的待监控节点;
所述数据采集模块,用于在所述待监控节点运行目标应用软件时,采集所述待监控节点的性能数据;
所述文件生成模块,用于根据所述性能数据生成所述高性能集群的应用运行特征文件;
所述数据分析模块,用于对所述应用运行特征文件进行离线分析。
此外,为实现上述目的,本发明还提供一种存储介质,所述存储介质上存储有高性能集群监控程序,所述高性能集群监控程序被处理器执行时实现如上文所述高性能集群监控方法的步骤。
在本发明中,通过获取高性能集群中的待监控节点;在所述待监控节点运行目标应用软件时,采集所述待监控节点的性能数据;根据所述性能数据生成所述高性能集群的应用运行特征文件;对所述应用运行特征文件进行离线分析。通过实时采集各节点的性能数据,能够实时监控高性能集群中应用软件的运行状态,并且在监控整体集群性能状态的同时,将性能数据保存为应用运行特征文件,可供离线性能分析使用。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的高性能集群监控设备结构示意图;
图2为本发明高性能集群监控方法第一实施例的流程示意图;
图3为本发明高性能集群监控方法第二实施例的流程示意图;
图4为本发明高性能集群监控方法第三实施例的流程示意图;
图5为本发明高性能集群监控装置第一实施例的功能模块图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的高性能集群监控设备结构示意图。
如图1所示,所述高性能集群监控设备可以包括:处理器1001,例如CPU,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储服务器。
本领域技术人员可以理解,图1中示出的结构并不构成对所述高性能集群监控设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作装置、网络通信模块、用户接口模块以及高性能集群监控程序。
所述高性能集群监控设备通过处理器1001调用存储器1005中存储的高性能集群监控程序,并执行以下操作:
获取高性能集群中的待监控节点;
在所述待监控节点运行目标应用软件时,采集所述待监控节点的性能数据;
根据所述性能数据生成所述高性能集群的应用运行特征文件;
对所述应用运行特征文件进行离线分析。
进一步地,处理器1001可以调用存储器1005中存储的高性能集群监控程序,还执行以下操作:
通过前台节点运行图形窗口界面,所述图形窗口界面包括各待监控节点对应的图形窗口;
根据所述性能数据生成各待监控节点的应用运行特征直方图,并通过各待监控节点对应的图形窗口显示所述应用运行特征直方图。
进一步地,处理器1001可以调用存储器1005中存储的高性能集群监控程序,还执行以下操作:
监控所述待监控节点是否处于异常状态;
获取处于异常状态的待监控节点对应的目标图形窗口,通过预设报警颜色闪烁显示所述目标图形窗口。
进一步地,处理器1001可以调用存储器1005中存储的高性能集群监控程序,还执行以下操作:
调用与所述高性能集群关联的预设调度系统的应用程序接口,并从所述应用程序接口获取所述预设调度系统的调度数据;
对所述应用运行特征文件与所述调度数据进行离线分析。
进一步地,处理器1001可以调用存储器1005中存储的高性能集群监控程序,还执行以下操作:
从所述应用运行特征文件中提取所述性能数据,并对所述性能数据与所述调度数据进行显示;
根据所述性能数据与所述调度数据重构所述高性能集群的应用运行过程。
进一步地,处理器1001可以调用存储器1005中存储的高性能集群监控程序,还执行以下操作:
根据所述性能数据与所述调度数据生成应用运行特征曲线图,并显示所述应用运行特征曲线图。
进一步地,处理器1001可以调用存储器1005中存储的高性能集群监控程序,还执行以下操作:
对所述应用运行特征曲线图进行分析,根据分析结果对所述目标应用软件的硬件进行配置。
在本实施例中,通过获取高性能集群中的待监控节点;在所述待监控节点运行目标应用软件时,采集所述待监控节点的性能数据;根据所述性能数据生成所述高性能集群的应用运行特征文件;对所述应用运行特征文件进行离线分析。通过实时采集各节点的性能数据,能够实时监控高性能集群中应用软件的运行状态,并且在监控整体集群性能状态的同时,将性能数据保存为应用运行特征文件,可供离线性能分析使用。
基于上述硬件结构,提出本发明高性能集群监控方法的实施例。
参照图2,图2为本发明高性能集群监控方法第一实施例的流程示意图。
在第一实施例中,所述高性能集群监控方法包括以下步骤:
步骤S10:获取高性能集群中的待监控节点。
需要说明的是,高性能集群包含管理节点、计算节点以及登录节点,所述管理节点通常也被称作“控制台(console)”或“前端节点(Frontend Node)”等,所有的集群管理软件都安装在此节点上,负责管理整个高性能计算集群,通常一个高性能计算集群中只设置一个管理节点;所述计算节点是所述高性能计算集群中的某一个或者多个终端设备,专用于计算;所述登录节点是所述高性能计算集群中的某一个或者多个用于提供登录服务的终端设备。各个节点均运行有若干应用软件,为了对所述高性能集群中的应用软件的运行状态进行实时监控,将所述管理节点、计算节点以及登录节点作为待监控节点,并对所述待监控节点进行监控。
步骤S20:在所述待监控节点运行目标应用软件时,采集所述待监控节点的性能数据。
可以理解的是,所述目标应用软件是安装在所述待监控节点上,为针对用户的某种应用目的所撰写的软件,例如VNC(Virtual Network Computing),是为用户提供远程登录服务的应用软件。
需要说明的是,所述性能数据包括:所述待监控节点的处理器使用率、内存使用率、磁盘读速率、磁盘写速率、网络发速率以及网络收速率。在所述待监控节点运行目标应用软件时,采集所述待监控节点的上述性能数据,以通过上述性能数据分析目标应用软件的运行状态。
在具体实现中,通过数据采集模块采集所述待监控节点的性能数据,数据采集模块是一种应用程序运行特征收集器,例如paramon,在所述待监控节点运行目标应用软件之前,开启数据采集模块,在所述待监控节点运行目标应用软件时,采集各待监控节点的处理器使用率、内存使用率、磁盘读速率、磁盘写速率、网络发速率以及网络收速率。
步骤S30:根据所述性能数据生成所述高性能集群的应用运行特征文件。
需要说明的是,所述应用运行特征文件为代表应用软件的运行状态的文件,在采集所述性能数据之后,记录所述性能数据生成的文件,供离线分析时使用。
在具体实现中,对每一个待监控节点,采集预设时间段的性能数据,将该时间段的性能数据进行记录,并汇总生成该时间段的应用运行特征文件。
步骤S40:对所述应用运行特征文件进行离线分析。
可以理解的是,在生成所述应用运行特征文件之后,为了深入地对应用运行状态进行研究,将对所述应用运行特征文件进行离线分析,以监控所述高性能集群中的目标应用软件的运行状态。
在本实施例中,通过获取高性能集群中的待监控节点;在所述待监控节点运行目标应用软件时,采集所述待监控节点的性能数据;根据所述性能数据生成所述高性能集群的应用运行特征文件;对所述应用运行特征文件进行离线分析。通过实时采集各节点的性能数据,能够实时监控高性能集群中应用软件的运行状态,并且在监控整体集群性能状态的同时,将性能数据保存为应用运行特征文件,可供离线性能分析使用。
参照图3,图3为本发明高性能集群监控方法第二实施例的流程示意图,基于上述图2所示的实施例,提出本发明高性能集群监控方法的第二实施例。
在第二实施例中,所述步骤S20之后,所述方法还包括:
步骤S201:通过前台节点运行图形窗口界面,所述图形窗口界面包括各待监控节点对应的图形窗口。
需要说明的是,所述前台节点指的是采集所述性能数据的节点,一般为所述管理节点,所述图形窗口界面为展示全部待监控节点的性能数据的界面,所述图形窗口界面包括各待监控节点对应的图形窗口,所述图形窗口为展示特定节点的性能数据的窗口。
步骤S202:根据所述性能数据生成各待监控节点的应用运行特征直方图,并通过各待监控节点对应的图形窗口显示所述应用运行特征直方图。
可以理解的是,为了清晰直观地展示所述性能数据,将根据所述性能数据生成应用运行特征直方图,通过各待监控节点对应的图形窗口显示所述应用运行特征直方图。
在具体实现中,开启数据采集模块之后,通过所述前台节点运行所述图形窗口界面,采集各待监控节点的性能数据,并根据所述性能数据生成各待监控节点的应用运行特征直方图,通过图形窗口展示所述应用运行特征直方图,以实现对待监控节点的性能状态进行监控,并通过所述图形窗口界面展示全部待监控节点的图形窗口,以实现对所述高性能集群的性能状态进行监控。
进一步地,所述步骤S202之后,所述方法还包括:
步骤S203:监控所述待监控节点是否处于异常状态;
步骤S204:获取处于异常状态的待监控节点对应的目标图形窗口,通过预设报警颜色闪烁显示所述目标图形窗口。
需要说明的是,在通过所述图形窗口界面监控所述高性能集群的性能状态时,监控所述待监控节点是否处于异常状态,当某一待监控节点处于异常状态时,定位该待监控节点对应的目标图形窗口,并通过预设报警颜色闪烁显示该目标图形窗口,例如,当第一待监控节点处于异常状态时,在所述图形窗口界面中定位所述第一待监控节点的目标图形窗口,将该目标图形窗口的显示颜色变换为预设报警颜色,黄色或者红色,并对该目标图形窗口进行闪烁显示。
进一步地,所述步骤S20之前,所述方法还包括:
提供自定义界面,供用户选择性能数据的数据类型与数据展示类型。
可以理解的是,针对不同的业务场景需采集不同的性能数据,例如内存监控场景需采集的性能数据为内存使用率,速率监控场景需采集的性能数据为磁盘读速率、磁盘写速率、网络发速率以及网络收速率,因此,所述自定义界面可提供不同的数据类型供用户选择,以符合业务场景需求。
在本实施例中,还提供预设模板,该预设模板中包含有常见业务场景以及与常见业务场景对应的数据类型,以便用户直接使用,或者基于所述预设模板增减数据类型,从而获取与业务场景相匹配的性能数据。
需要说明的是,所述自定义界面还可提供不同的数据展示类型,所述数据展示类型包括直方图、扇形图或者曲线图等,根据用户选取的数据展示类型将获取的性能数据按照一定的方式处理,从而实现对性能数据的不同特征进行针对性展现,提高用户体验。
在本实施例中,通过前台节点运行图形窗口界面,所述图形窗口界面包括各待监控节点对应的图形窗口;根据所述性能数据生成各待监控节点的应用运行特征直方图,并通过各待监控节点对应的图形窗口显示所述应用运行特征直方图。监控所述待监控节点是否处于异常状态;获取处于异常状态的待监控节点对应的目标图形窗口,通过预设报警颜色闪烁显示所述目标图形窗口。由于将应用运行特征直方图展示于图形窗口界面中,清楚直观地展示了高性能集群的应用运行状态,提高用户体验。
参照图4,图4为本发明高性能集群监控方法第三实施例的流程示意图,基于上述图3所示的实施例,提出本发明高性能集群监控方法的第三实施例。
在第三实施例中,所述步骤S40之前,所述方法还包括:
步骤S01:调用与所述高性能集群关联的预设调度系统的应用程序接口,并从所述应用程序接口获取所述预设调度系统的调度数据。
相应地,所述步骤S40,具体包括:
对所述应用运行特征文件与所述调度数据进行离线分析。
需要说明的是,所述预设调度系统可以是商业软件IBM LSF,也可以是开源软件SLURM或OPENPBS,所述调度数据包括运行的作业数据与集群资源分配数据等,基于监控设备采集的性能数据与调度系统的调度数据进行离线分析,可提高数据分析的准确性,提高监控效率。
所述对所述应用运行特征文件与所述调度数据进行离线分析,具体包括:
步骤S401:从所述应用运行特征文件中提取所述性能数据,并对所述性能数据与所述调度数据进行显示。
步骤S402:根据所述性能数据与所述调度数据重构所述高性能集群的应用运行过程。
需要说明的是,数据分析模块是一种应用程序运行特征分析器,例如paratune,在根据所述性能数据生成所述高性能集群的应用运行特征文件之后,将通过数据分析模块对所述应用运行特征文件进行分析。
在具体实现中,通过数据分析模块接收并读取所述应用运行特征文件,从所述应用运行特征文件中提取所述性能数据,并对所述性能数据与所述调度数据进行展示,以使用户获取并查阅所述性能数据与所述调度数据。
进一步地,所述步骤S402,具体包括:
步骤S4021:根据所述性能数据与所述调度数据生成应用运行特征曲线图,并显示所述应用运行特征曲线图。
可以理解的是,为了清晰直观地展示所述性能数据,将根据所述性能数据生成应用运行特征曲线图。
在具体实现中,获取每一个待监控节点的性能数据,根据所述性能数据绘制应用运行特征曲线图,并对所述应用运行特征曲线图进行展示,以使用户直观查阅所述待监控节点的性能数据。
进一步地,所述步骤S4021之后,所述方法还包括:
步骤S403:对所述应用运行特征曲线图进行分析,根据分析结果对所述目标应用软件的硬件进行配置。
需要说明的是,根据所述应用运行特征曲线图,用户能够清楚地了解目标应用在运行的各个阶段的运行状态,获知硬件设备处理器、内存、网络和磁盘等各部分的需求,基于准确的数据分析,用户能够提供由针对性的、符合客户需求的高性能集群设计方案。基于所述应用运行特征曲线图,能够准确地获取应用软件的运行状态,快速定位高性能集群性能瓶颈,从而确定应用优化的方向。
进一步地,所述步骤S403之后,所述方法还包括:
响应于用户输入的比对指令,统计历史性能数据与当前性能数据的运行状态相似度,将运行状态相似度大于阈值的历史性能数据与当前性能数据进行比对,根据比较结果进行分析。
在本实施例中,通过从所述应用运行特征文件中提取所述性能数据,并对所述性能数据进行显示;根据所述性能数据生成应用运行特征曲线图,并显示所述应用运行特征曲线图。对所述应用运行特征曲线图进行分析,根据分析结果对所述目标应用软件的硬件进行配置。由于展示了应用运行特征曲线图,清楚直观地展示了高性能集群的应用运行状态,并且基于应用运行特征曲线图进行分析,根据分析结果对所述目标应用软件的硬件进行配置,从而实现准确地对所述高性能集群进行优化,提高用户体验。
参照图5,图5为本发明高性能集群监控装置第一实施例的功能模块图,基于所述高性能集群监控方法,提出本发明高性能集群监控装置的第一实施例。
在本实施例中,所述高性能集群监控装置包括:节点获取模块10、数据采集模块20、文件生成模块30与数据分析模块40。
所述节点获取模块10,用于获取高性能集群中的待监控节点。
需要说明的是,高性能集群包含管理节点、计算节点以及登录节点,所述管理节点通常也被称作“控制台(console)”或“前端节点(Frontend Node)”等,所有的集群管理软件都安装在此节点上,负责管理整个高性能计算集群,通常一个高性能计算集群中只设置一个管理节点;所述计算节点是所述高性能计算集群中的某一个或者多个终端设备,专用于计算;所述登录节点是所述高性能计算集群中的某一个或者多个用于提供登录服务的终端设备。各个节点均运行有若干应用软件,为了对所述高性能集群中的应用软件的运行状态进行实时监控,将所述管理节点、计算节点以及登录节点作为待监控节点,并对所述待监控节点进行监控。
所述数据采集模块20,用于在所述待监控节点运行目标应用软件时,采集所述待监控节点的性能数据。
可以理解的是,所述目标应用软件是安装在所述待监控节点上,为针对用户的某种应用目的所撰写的软件,例如VNC(Virtual Network Computing),是为用户提供远程登录服务的应用软件。
需要说明的是,所述性能数据包括:所述待监控节点的处理器使用率、内存使用率、磁盘读速率、磁盘写速率、网络发速率以及网络收速率。在所述待监控节点运行目标应用软件时,采集所述待监控节点的上述性能数据,以通过上述性能数据分析目标应用软件的运行状态。
在具体实现中,通过数据采集模块采集所述待监控节点的性能数据,数据采集模块是一种应用程序运行特征收集器,例如paramon,在所述待监控节点运行目标应用软件之前,开启数据采集模块,在所述待监控节点运行目标应用软件时,采集各待监控节点的处理器使用率、内存使用率、磁盘读速率、磁盘写速率、网络发速率以及网络收速率。
所述文件生成模块30,用于根据所述性能数据生成所述高性能集群的应用运行特征文件。
需要说明的是,所述应用运行特征文件为代表应用软件的运行状态的文件,在采集所述性能数据之后,记录所述性能数据生成的文件,供离线分析时使用。
在具体实现中,对每一个待监控节点,采集预设时间段的性能数据,将该时间段的性能数据进行记录,并汇总生成该时间段的应用运行特征文件。
所述数据分析模块40,用于对所述应用运行特征文件进行离线分析。
可以理解的是,在生成所述应用运行特征文件之后,为了深入地对应用运行状态进行研究,将对所述应用运行特征文件进行离线分析,以监控所述高性能集群中的目标应用软件的运行状态。
在本实施例中,通过获取高性能集群中的待监控节点;在所述待监控节点运行目标应用软件时,采集所述待监控节点的性能数据;根据所述性能数据生成所述高性能集群的应用运行特征文件;对所述应用运行特征文件进行离线分析。通过实时采集各节点的性能数据,能够实时监控高性能集群中应用软件的运行状态,并且在监控整体集群性能状态的同时,将性能数据保存为应用运行特征文件,可供离线性能分析使用。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有高性能集群监控程序,所述高性能集群监控程序被处理器执行时实现如下操作:
获取高性能集群中的待监控节点;
在所述待监控节点运行目标应用软件时,采集所述待监控节点的性能数据;
根据所述性能数据生成所述高性能集群的应用运行特征文件;
对所述应用运行特征文件进行离线分析。
进一步地,所述高性能集群监控程序被处理器执行时还实现如下操作:
通过前台节点运行图形窗口界面,所述图形窗口界面包括各待监控节点对应的图形窗口;
根据所述性能数据生成各待监控节点的应用运行特征直方图,并通过各待监控节点对应的图形窗口显示所述应用运行特征直方图。
进一步地,所述高性能集群监控程序被处理器执行时还实现如下操作:
监控所述待监控节点是否处于异常状态;
获取处于异常状态的待监控节点对应的目标图形窗口,通过预设报警颜色闪烁显示所述目标图形窗口。
进一步地,所述高性能集群监控程序被处理器执行时还实现如下操作:
调用与所述高性能集群关联的预设调度系统的应用程序接口,并从所述应用程序接口获取所述预设调度系统的调度数据;
对所述应用运行特征文件与所述调度数据进行离线分析。
进一步地,所述高性能集群监控程序被处理器执行时还实现如下操作:
从所述应用运行特征文件中提取所述性能数据,并对所述性能数据与所述调度数据进行显示;
根据所述性能数据与所述调度数据重构所述高性能集群的应用运行过程。
进一步地,所述高性能集群监控程序被处理器执行时还实现如下操作:
根据所述性能数据与所述调度数据生成应用运行特征曲线图,并显示所述应用运行特征曲线图。
进一步地,所述高性能集群监控程序被处理器执行时还实现如下操作:
对所述应用运行特征曲线图进行分析,根据分析结果对所述目标应用软件的硬件进行配置。
在本实施例中,通过获取高性能集群中的待监控节点;在所述待监控节点运行目标应用软件时,采集所述待监控节点的性能数据;根据所述性能数据生成所述高性能集群的应用运行特征文件;对所述应用运行特征文件进行离线分析。通过实时采集各节点的性能数据,能够实时监控高性能集群中应用软件的运行状态,并且在监控整体集群性能状态的同时,将性能数据保存为应用运行特征文件,可供离线性能分析使用。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
单词第一、第二、以及第三等的使用不表示任何顺序,可将这些单词解释为名称。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种高性能集群监控方法,其特征在于,所述高性能集群监控方法包括以下步骤:
获取高性能集群中的待监控节点;
在所述待监控节点运行目标应用软件时,采集所述待监控节点的性能数据;
根据所述性能数据生成所述高性能集群的应用运行特征文件;
对所述应用运行特征文件进行离线分析。
2.如权利要求1所述的高性能集群监控方法,其特征在于,所述在所述待监控节点运行目标应用软件时,采集所述待监控节点的性能数据之后,所述方法还包括:
通过前台节点运行图形窗口界面,所述图形窗口界面包括各待监控节点对应的图形窗口;
根据所述性能数据生成各待监控节点的应用运行特征直方图,并通过各待监控节点对应的图形窗口显示所述应用运行特征直方图。
3.如权利要求2所述的高性能集群监控方法,其特征在于,所述通过各待监控节点对应的图形窗口显示所述应用运行特征直方图之后,所述方法还包括:
监控所述待监控节点是否处于异常状态;
获取处于异常状态的待监控节点对应的目标图形窗口,通过预设报警颜色闪烁显示所述目标图形窗口。
4.如权利要求1所述的高性能集群监控方法,其特征在于,所述对所述应用运行特征文件进行离线分析之前,所述方法还包括:
调用与所述高性能集群关联的预设调度系统的应用程序接口,并从所述应用程序接口获取所述预设调度系统的调度数据;
相应地,所述对所述应用运行特征文件进行离线分析,具体包括:
对所述应用运行特征文件与所述调度数据进行离线分析。
5.如权利要求4所述的高性能集群监控方法,其特征在于,所述对所述应用运行特征文件与所述调度数据进行离线分析,具体包括:
从所述应用运行特征文件中提取所述性能数据,并对所述性能数据与所述调度数据进行显示;
根据所述性能数据与所述调度数据重构所述高性能集群的应用运行过程。
6.如权利要求5所述的高性能集群监控方法,其特征在于,所述根据所述性能数据与所述调度数据重构所述高性能集群的应用运行过程,具体包括:
根据所述性能数据与所述调度数据生成应用运行特征曲线图,并显示所述应用运行特征曲线图。
7.如权利要求6所述的高性能集群监控方法,其特征在于,所述根据所述性能数据与所述调度数据生成应用运行特征曲线图,并显示所述应用运行特征曲线图之后,所述方法还包括:
对所述应用运行特征曲线图进行分析,根据分析结果对所述目标应用软件的硬件进行配置。
8.一种高性能集群监控设备,其特征在于,所述高性能集群监控设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的高性能集群监控程序,所述高性能集群监控程序配置为实现如权利要求1至7中任一项所述的高性能集群监控方法的步骤。
9.一种高性能集群监控装置,其特征在于,所述高性能集群监控装置包括:节点获取模块、数据采集模块、文件生成模块与数据分析模块;
所述节点获取模块,用于获取高性能集群中的待监控节点;
所述数据采集模块,用于在所述待监控节点运行目标应用软件时,采集所述待监控节点的性能数据;
所述文件生成模块,用于根据所述性能数据生成所述高性能集群的应用运行特征文件;
所述数据分析模块,用于对所述应用运行特征文件进行离线分析。
10.一种存储介质,其特征在于,所述存储介质上存储有高性能集群监控程序,所述高性能集群监控程序被处理器执行时实现如权利要求1至7中任一项所述的高性能集群监控方法的步骤。
CN201810867270.0A 2018-08-01 2018-08-01 高性能集群监控方法、设备、装置及存储介质 Pending CN109101397A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810867270.0A CN109101397A (zh) 2018-08-01 2018-08-01 高性能集群监控方法、设备、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810867270.0A CN109101397A (zh) 2018-08-01 2018-08-01 高性能集群监控方法、设备、装置及存储介质

Publications (1)

Publication Number Publication Date
CN109101397A true CN109101397A (zh) 2018-12-28

Family

ID=64848395

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810867270.0A Pending CN109101397A (zh) 2018-08-01 2018-08-01 高性能集群监控方法、设备、装置及存储介质

Country Status (1)

Country Link
CN (1) CN109101397A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110502424A (zh) * 2019-06-28 2019-11-26 浙江吉利控股集团有限公司 一种应用软件的性能数据处理方法、装置、系统及终端
CN110837453A (zh) * 2019-11-01 2020-02-25 山东中创软件商用中间件股份有限公司 一种公文交换平台的监控方法及相关装置
CN111026621A (zh) * 2019-12-23 2020-04-17 杭州安恒信息技术股份有限公司 面向Elasticsearch集群的监控报警方法、装置、设备、介质
CN111506480A (zh) * 2020-04-23 2020-08-07 上海达梦数据库有限公司 集群中组件的状态检测方法、装置和系统
CN112052142A (zh) * 2020-09-08 2020-12-08 深圳创维-Rgb电子有限公司 性能的监控方法、设备、装置及计算机可读存储介质
CN112416735A (zh) * 2019-08-21 2021-02-26 腾讯科技(深圳)有限公司 一种应用程序检测方法、装置及终端设备、存储介质
CN113094243A (zh) * 2020-01-08 2021-07-09 北京小米移动软件有限公司 节点性能检测方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101694649A (zh) * 2009-08-28 2010-04-14 曙光信息产业(北京)有限公司 集群监控的报表生成系统及方法
CN103294579A (zh) * 2013-06-09 2013-09-11 浪潮电子信息产业股份有限公司 一种高性能计算集群应用性能测试方法
CN103501253A (zh) * 2013-10-18 2014-01-08 浪潮电子信息产业股份有限公司 一种高性能计算应用特征的监控组织方法
CN108132872A (zh) * 2018-01-10 2018-06-08 成都信息工程大学 基于并行超算网格云平台的grapes系统优化方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101694649A (zh) * 2009-08-28 2010-04-14 曙光信息产业(北京)有限公司 集群监控的报表生成系统及方法
CN103294579A (zh) * 2013-06-09 2013-09-11 浪潮电子信息产业股份有限公司 一种高性能计算集群应用性能测试方法
CN103501253A (zh) * 2013-10-18 2014-01-08 浪潮电子信息产业股份有限公司 一种高性能计算应用特征的监控组织方法
CN108132872A (zh) * 2018-01-10 2018-06-08 成都信息工程大学 基于并行超算网格云平台的grapes系统优化方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
吴迪等: "基于国家高性能计算环境的教育实践平台建设", 《计算机教育》 *
李津宇等: "应用运行特征的快速分析方法", 《科研信息化技术与应用》 *
游伟倩等: "LICO管理软件在南大高性能计算集群中的应用", 《电子技术与软件工程》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110502424A (zh) * 2019-06-28 2019-11-26 浙江吉利控股集团有限公司 一种应用软件的性能数据处理方法、装置、系统及终端
CN112416735A (zh) * 2019-08-21 2021-02-26 腾讯科技(深圳)有限公司 一种应用程序检测方法、装置及终端设备、存储介质
CN110837453A (zh) * 2019-11-01 2020-02-25 山东中创软件商用中间件股份有限公司 一种公文交换平台的监控方法及相关装置
CN110837453B (zh) * 2019-11-01 2023-09-01 山东中创软件商用中间件股份有限公司 一种公文交换平台的监控方法及相关装置
CN111026621A (zh) * 2019-12-23 2020-04-17 杭州安恒信息技术股份有限公司 面向Elasticsearch集群的监控报警方法、装置、设备、介质
CN111026621B (zh) * 2019-12-23 2023-04-07 杭州安恒信息技术股份有限公司 面向Elasticsearch集群的监控报警方法、装置、设备、介质
CN113094243A (zh) * 2020-01-08 2021-07-09 北京小米移动软件有限公司 节点性能检测方法和装置
CN111506480A (zh) * 2020-04-23 2020-08-07 上海达梦数据库有限公司 集群中组件的状态检测方法、装置和系统
CN111506480B (zh) * 2020-04-23 2024-03-08 上海达梦数据库有限公司 集群中组件的状态检测方法、装置和系统
CN112052142A (zh) * 2020-09-08 2020-12-08 深圳创维-Rgb电子有限公司 性能的监控方法、设备、装置及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN109101397A (zh) 高性能集群监控方法、设备、装置及存储介质
US10372600B2 (en) Systems and methods for automated web performance testing for cloud apps in use-case scenarios
EP2976715B1 (en) Application testing and analysis
US11307957B2 (en) Systems and methods for determining optimal cost-to-serve for cloud applications in the public cloud
WO2018120721A1 (zh) 用户界面的测试方法、系统、电子装置及计算机可读存储介质
US20130263090A1 (en) System and method for automated testing
CN104778124A (zh) 一种软件应用自动化测试方法
CN110321273A (zh) 一种业务统计方法及装置
CN111666217B (zh) 用于测试代码的方法和装置
CN111723018A (zh) 性能压力测试方法、装置、设备及存储介质
CN107977318B (zh) 一种Android应用程序的能耗和性能测试方法
US9507616B1 (en) Methods, systems, and computer readable media for emulating computer processing usage patterns on a virtual machine
CN110602207A (zh) 基于离网预测推送信息的方法、装置、服务器和存储介质
CN112346962A (zh) 一种应用于对照测试系统中的对照数据测试方法及装置
US11138086B2 (en) Collecting hardware performance data
CN113919158A (zh) 一种用于飞行控制面板的仿真方法、装置及存储介质
US20210191701A1 (en) Method and system for profile based deployments
EP4152715A1 (en) Method and apparatus for determining resource configuration of cloud service system
CN111104281B (zh) 一种游戏性能监控方法、装置、系统及存储介质
CN105095070A (zh) 基于浏览器测试组件的qq群数据获取方法与系统
CN112199273A (zh) 一种虚拟机压力/性能测试方法及系统
CN110347546B (zh) 监控任务动态调整方法、装置、介质及电子设备
CN111448551B (zh) 跟踪来自远程设备的应用活动数据并生成用于远程设备的校正动作数据结构的方法和系统
CN110928750B (zh) 数据处理方法、装置及设备
CN113722045B (zh) 集群的应用部署方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181228

RJ01 Rejection of invention patent application after publication