CN111666190A - 一种运维监控管理软件方法、系统、装置和存储介质 - Google Patents

一种运维监控管理软件方法、系统、装置和存储介质 Download PDF

Info

Publication number
CN111666190A
CN111666190A CN202010545366.2A CN202010545366A CN111666190A CN 111666190 A CN111666190 A CN 111666190A CN 202010545366 A CN202010545366 A CN 202010545366A CN 111666190 A CN111666190 A CN 111666190A
Authority
CN
China
Prior art keywords
module
monitoring
node
management
providing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010545366.2A
Other languages
English (en)
Inventor
周会群
王玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Xinyida Computing Technology Co ltd
Original Assignee
Nanjing Xinyida Computing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Xinyida Computing Technology Co ltd filed Critical Nanjing Xinyida Computing Technology Co ltd
Priority to CN202010545366.2A priority Critical patent/CN111666190A/zh
Publication of CN111666190A publication Critical patent/CN111666190A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3093Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及运维监控技术领域,具体地说,涉及一种运维监控管理软件方法、系统、装置和存储介质。包括硬件资源单元、软件资源单元和软件功能单元,所述硬件资源单元用于对系统进行硬件支持;所述软件资源单元用于支持业内主流的作业调度系统;所述软件功能单元用于提供各类软件支持。本发明设计从硬件资源到软件资源全方位的监控管理,大大降低管理员的管理成本、运维难度,适用于各种大中小型高性能计算应用市场,具有通用性和可复制性。

Description

一种运维监控管理软件方法、系统、装置和存储介质
技术领域
本发明涉及运维监控技术领域,具体地说,涉及一种运维监控管理软件方法、系统、装置和存储介质。
背景技术
随着信息化社会的飞速发展,高性能计算技术日益成熟,高性能计算机集群技术开始迅猛崛起,以此满足高性能计算的需求,集群技术在高性能计算领域已经占有越来越高的比重。目前,由于大规模集群监控运维管理成本高,无法直观的查看整个集群的运行状态,导致大规模集群监控运维难度大。
发明内容
本发明的目的在于提供一种运维监控管理软件方法、系统、装置和存储介质,以解决上述背景技术中提出的问题。
为实现上述技术问题的解决,本发明的目的之一在于,提供一种运维监控管理软件方法,包括如下步骤:
S1、登录:输入监控节点IP地址、用户名、密码,登陆至主页面;
主页面中提供平台管理、资源管理和作业监控;平台管理包括计费规则和队列配置;资源管理包括列表视图、物理视图、节点部署和并行处理;作业监控包括作业视图、队列视图、主机视图、用户视图、提交作业、历史作业、导出报表、报警规则、报警日志和通知接入。
S2、License管理:查看当前的license许可信息,通过上传对应的许可证,即可增加许可数量;
S3、资源监控:进入监控大屏画面,在大屏上直观的查看集群资源使用情况和集群作业情况;集群资源使用情况包括CPU、内存、硬盘、节点数的使用情况;集群作业情况包括集群当前已完成的作业总数、运行中的作业数、等待中的作业数;以TOP的方式显示最多运行作业数的队列、最多等待作业数的队列、运行最多作业的节点。
S4、节点部署:输入需要部署节点的IPMI地址、用户名、密码、角色等元素后即可一键部署,安装前可指定系统最终IP、主机名等。部署包括操作系统,集群管理软件,集群监控软件,作业调度软件,计费软件,分布式文件系统软件,编译软件,MPI库软件和IB网络管理软件都会被快速部署和自动配置。安装过程中无需手动干预;
S5、节点管理:在列表视图里可以清晰的查看每个节点的名称、状态、OS_IP、BMC_IP、IB_IP、操作系统等,提供web shell功能,通过页面即可访问shell画面,方便了专家级管理员命令使用;
S6、节点拓扑:物理机架视图的方式直观的查看每个节点的状态,包括CPU、内存、网络、存储这些资源信息,也包括IP、系统、硬件配置等物理信息。从物理视图中可以快速定位机器的物理位置,为维护机器提供便捷;
S7、作业监控:在网页中直观的查看运行中、等待中、以及异常状态的作业情况,可以查看每个作业的ID、状态、提交时间、队列名、提交用户、提交主机、运行主机信息。提供了下载选项,供管理员下载当前的作业运行情况做二次分析;
S8、提交作业:输入作业名称、运行参数(实际应用程序参数)、队列、核数,进行作业提交。
本发明的目的之二在于,提供一种运维监控管理软件系统,包括上述的维监控管理软件方法,包括硬件资源单元、软件资源单元和软件功能单元,所述硬件资源单元用于对系统进行硬件支持;所述软件资源单元用于支持业内主流的作业调度系统;所述软件功能单元用于提供各类软件支持。
硬件资源单元部署在一台通用型x86或64服务器上,运行环境:24核2.0GHz处理器及以上、64G内存及以上、1T SSD硬盘及以上;支持高可靠冗余配置,需三台及以上节点配合使用;可以监控的节点包括管理节点、登陆节点、计算节点、存储、网络,可以监控的硬件环境包括通用型x86_64服务器、ARM服务器、集中式存储、并行文件存储、分布式存储、以太网交换机、Infiniband交换机、异构GPU卡、PHI卡、FPGA卡;浏览器支持Chrome及Firefox 最新版本。
软件资源支持业内主流的作业调度系统,包括IBM Spectrum LSF、Slurm、Torque、PBS pro,支持业内主流的并行文件系统,包括IBM Spectrum Scale(GPFS)、Lustre、BeeGFS、GlusterFS等。
作为本技术方案的进一步改进,所述软件功能单元包括监控大屏模块、资源监控模块、节点部署模块、节点管理模块、节点拓扑模块、作业监控模块、提交作业模块、队列管理模块、计费统计模块、月/年度报表模块、用户管理模块、文件管理模块和集群报警模块;监控大屏模块用于提供大屏监控功能,资源监控模块用于提供资源监控功能,节点部署模块用于提供节点部署功能,节点管理模块用于提供节点管理功能,节点拓扑模块用于提供节点拓扑功能,作业监控模块用于提供作业监控功能,提交作业模块用于提供作业提交功能,队列管理模块用于提供队列管理功能,计费统计模块用于提供计费统计功能,月/年度报表模块用于提供报表功能,用户管理模块用于提供用户管理功能,文件管理模块用于提供文件管理功能,集群报警模块用于提供集群报警功能。
监控大屏模块用于提供大屏监控功能,在大屏上直观的查看集群的CPU、内存、硬盘、节点数的使用情况;查看集群当前已完成的作业总数、运行中的作业数、等待中的作业数;以TOP的方式显示最多运行作业数的队列、最多等待作业数的队列、运行最多作业的节点;
节点部署模块用于提供节点部署功能,输入需要部署节点的IPMI地址、用户名、密码、角色等元素后即可一键部署,安装前可指定系统最终IP、主机名等,部署包括操作系统,集群管理软件,集群监控软件,作业调度软件,计费软件,分布式文件系统软件,编译软件,MPI库软件和IB网络管理软件都会被快速部署和自动配置。安装过程中无需手动干预;
节点管理模块用于提供节点管理功能,在列表视图里可以清晰的查看每个节点的名称、状态、OS_IP、BMC_IP、IB_IP、操作系统等,提供web shell功能,通过页面即可访问shell画面,方便了专家级管理员命令使用;
提交作业模块用于提供作业提交功能,在页面上轻松输入几个参数即可完成作业提交,同时提供专家级命令行编辑方式,不改变用户传统习惯,也可方便使用;
队列管理模块用于提供队列管理功能,通过页面随时查看队列的启用状态、优先值、交互式等基本状态,同时提供新建、删除、修改队列的功能,提供一般简单模式方便快捷,提供专家命令模式更丰富的参数需求;
计费统计模块用于提供计费统计功能,基于队列的计费规则,可以自由设定费率,可以针对CPU、GPU设定不同的费率规则,修改实时生效,随时查看队列、用户详细作业收费信息;
用户管理模块用于提供用户管理功能,支持LDAP、AD、NIS统一身份认证,支持增删改本地用户(在对接外部统一身份认证后在没有权限情况下无法增删改用户);
集群报警模块用于提供集群报警功能,自定义报警规则、报警级别、启用、停止、删除。监控维度多种多样:硬件部件故障、设备宕机、资源利用率过高等。丰富的报警接入,触发报警时提供页面角标、邮件、短信、微信报警。提供报警日志,记录触发时间、触发节点、方便对日志二次分析。
作为本技术方案的进一步改进,所述资源监控模通过管理员账户登陆以后,首页中是对整个集群的资源监控,包括在线的节点数、CPU、内存、硬盘、网络的实时负载率、实时占用率。作业的资源监控,包括运行中作业数、等待中作业数、已完成作业数。
作为本技术方案的进一步改进,所述节点拓扑模块以物理机架视图的方式直观的查看每个节点的状态,包括CPU、内存、网络、存储这些资源信息,也包括IP、系统、硬件配置等物理信息。从物理视图中可以快速定位机器的物理位置,为维护机器提供便捷。
作为本技术方案的进一步改进,所述作业监控模块可以在网页中直观的查看运行中、等待中、以及异常状态的作业情况,可以查看每个作业的ID、状态、提交时间、队列名、提交用户、提交主机、运行主机信息。提供了下载选项,供管理员下载当前的作业运行情况做二次分析。
作为本技术方案的进一步改进,所述月/年度报表模块的报表功能包括集群状态报表、作业信息报表、计费详细报表和报警信息报表,为管理员提供月度/年度/自定义时间的报表信息,方便年度总结汇报及报表信息分析,提供API接口方便用户二次开发。
作为本技术方案的进一步改进,所述文件管理模块用支持多种并行文件系统,IBMSpectrum Scale (GPFS)、Lustre、BeeGFS、GlusterFS,在页面中即可实现对文件夹/文件创建、编辑、删除、上传、下载、重命名、排序和查看等,文件空间隔离,每个用户有自己的文件空间,用户在web页面不能查看和修改其他用户的用户文件空间的文件。
本发明的目的之三在于,提供一种运维监控管理软件装置,包括处理器、存储器以及存储在存储器中并在处理器上运行的计算机程序,处理器用于执行计算机程序时实现上述中所述的运维监控管理软件方法的步骤。
本发明的目的之四在于,提供一种存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述中所述的运维监控管理软件方法的步骤。
与现有技术相比,本发明的有益效果:该运维监控管理软件方法、系统、装置和存储介质中,拥有一套完整的高性能计算平台,从硬件资源到软件资源全方位的监控管理,不限制品牌型号,大大降低管理员的管理成本、运维难度,适用于各种大中小型高性能计算应用市场,具有通用性和可复制性,可满足诸如全国各大高等院校的校级超算平台、全国各大高等院校学院级中小型规模的超算平台、全国各城市的超算中心这类应用客户群。
附图说明
图1为实施例1的运维监控管理软件方法流程图;
图2为实施例1的运维监控管理软件系统架构图;
图3为实施例1的运维监控管理软件系统模块框图;
图4为实施例1的运维监控管理软件装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1-4所示,本实施例提供一种运维监控管理软件方法,包括如下步骤:
S1、登录:输入监控节点IP地址、用户名、密码,登陆至主页面;
主页面中提供平台管理、资源管理和作业监控;平台管理包括计费规则和队列配置;资源管理包括列表视图、物理视图、节点部署和并行处理;作业监控包括作业视图、队列视图、主机视图、用户视图、提交作业、历史作业、导出报表、报警规则、报警日志和通知接入。
S2、License管理:查看当前的license许可信息,通过上传对应的许可证,即可增加许可数量;
S3、资源监控:进入监控大屏画面,在大屏上直观的查看集群资源使用情况和集群作业情况;集群资源使用情况包括CPU、内存、硬盘、节点数的使用情况;集群作业情况包括集群当前已完成的作业总数、运行中的作业数、等待中的作业数;以TOP的方式显示最多运行作业数的队列、最多等待作业数的队列、运行最多作业的节点。
S4、节点部署:输入需要部署节点的IPMI地址、用户名、密码、角色等元素后即可一键部署,安装前可指定系统最终IP、主机名等。部署包括操作系统,集群管理软件,集群监控软件,作业调度软件,计费软件,分布式文件系统软件,编译软件,MPI库软件和IB网络管理软件都会被快速部署和自动配置。安装过程中无需手动干预;
S5、节点管理:在列表视图里可以清晰的查看每个节点的名称、状态、OS_IP、BMC_IP、IB_IP、操作系统等,提供web shell功能,通过页面即可访问shell画面,方便了专家级管理员命令使用;
S6、节点拓扑:物理机架视图的方式直观的查看每个节点的状态,包括CPU、内存、网络、存储这些资源信息,也包括IP、系统、硬件配置等物理信息。从物理视图中可以快速定位机器的物理位置,为维护机器提供便捷;
S7、作业监控:在网页中直观的查看运行中、等待中、以及异常状态的作业情况,可以查看每个作业的ID、状态、提交时间、队列名、提交用户、提交主机、运行主机信息。提供了下载选项,供管理员下载当前的作业运行情况做二次分析;
S8、提交作业:输入作业名称、运行参数(实际应用程序参数)、队列、核数,进行作业提交。
本发明的目的之二在于,提供一种运维监控管理软件系统,包括上述的维监控管理软件方法,包括硬件资源单元、软件资源单元和软件功能单元,硬件资源单元用于对系统进行硬件支持;软件资源单元用于支持业内主流的作业调度系统;软件功能单元用于提供各类软件支持。
本实施例中,硬件资源单元部署在一台通用型x86或64服务器上,运行环境:24核2.0GHz处理器及以上、64G内存及以上、1T SSD硬盘及以上;支持高可靠冗余配置,需三台及以上节点配合使用;可以监控的节点包括管理节点、登陆节点、计算节点、存储、网络,可以监控的硬件环境包括通用型x86_64服务器、ARM服务器、集中式存储、并行文件存储、分布式存储、以太网交换机、Infiniband交换机、异构GPU卡、PHI卡、FPGA卡;浏览器支持Chrome及Firefox 最新版本。
进一步的,软件资源支持业内主流的作业调度系统,包括IBM Spectrum LSF、Slurm、Torque、PBS pro,支持业内主流的并行文件系统,包括IBM Spectrum Scale(GPFS)、Lustre、 BeeGFS、GlusterFS等。
具体的,软件功能单元包括监控大屏模块、资源监控模块、节点部署模块、节点管理模块、节点拓扑模块、作业监控模块、提交作业模块、队列管理模块、计费统计模块、月/年度报表模块、用户管理模块、文件管理模块和集群报警模块;监控大屏模块用于提供大屏监控功能,资源监控模块用于提供资源监控功能,节点部署模块用于提供节点部署功能,节点管理模块用于提供节点管理功能,节点拓扑模块用于提供节点拓扑功能,作业监控模块用于提供作业监控功能,提交作业模块用于提供作业提交功能,队列管理模块用于提供队列管理功能,计费统计模块用于提供计费统计功能,月/年度报表模块用于提供报表功能,用户管理模块用于提供用户管理功能,文件管理模块用于提供文件管理功能,集群报警模块用于提供集群报警功能。
其中,监控大屏模块用于在大屏上直观的查看集群的CPU、内存、硬盘、节点数的使用情况;查看集群当前已完成的作业总数、运行中的作业数、等待中的作业数;以TOP的方式显示最多运行作业数的队列、最多等待作业数的队列、运行最多作业的节点。
其中,节点部署模块工作原理为输入需要部署节点的IPMI地址、用户名、密码、角色等元素后即可一键部署,安装前可指定系统最终IP、主机名等,部署包括操作系统,集群管理软件,集群监控软件,作业调度软件,计费软件,分布式文件系统软件,编译软件,MPI库软件和IB网络管理软件都会被快速部署和自动配置。安装过程中无需手动干预。
其中,节点管理模块用于在列表视图里可以清晰的查看每个节点的名称、状态、OS_IP、BMC_IP、IB_IP、操作系统等,提供web shell功能,通过页面即可访问shell画面,方便了专家级管理员命令使用。
其中,提交作业模块用于在页面上输入参数,完成作业提交,同时提供专家级命令行编辑方式,不改变用户传统习惯,也可方便使用。
其中,队列管理模块通过页面随时查看队列的启用状态、优先值、交互式等基本状态,同时提供新建、删除、修改队列的功能,提供一般简单模式方便快捷,提供专家命令模式更丰富的参数需求。
其中,计费统计模块基于队列的计费规则,可以自由设定费率,可以针对CPU、GPU设定不同的费率规则,修改实时生效,随时查看队列、用户详细作业收费信息。
其中,用户管理模支持LDAP、AD、NIS统一身份认证,支持增删改本地用户(在对接外部统一身份认证后在没有权限情况下无法增删改用户);
其中,集群报警模块能够自定义报警规则、报警级别、启用、停止、删除,监控维度多种多样:硬件部件故障、设备宕机、资源利用率过高等。丰富的报警接入,触发报警时提供页面角标、邮件、短信、微信报警。提供报警日志,记录触发时间、触发节点、方便对日志二次分析。
此外,资源监控模通过管理员账户登陆以后,首页中是对整个集群的资源监控,包括在线的节点数、CPU、内存、硬盘、网络的实时负载率、实时占用率。作业的资源监控,包括运行中作业数、等待中作业数、已完成作业数。
除此之外,节点拓扑模块以物理机架视图的方式直观的查看每个节点的状态,包括CPU、内存、网络、存储这些资源信息,也包括IP、系统、硬件配置等物理信息。从物理视图中可以快速定位机器的物理位置,为维护机器提供便捷。
值得说明的是,作业监控模块可以在网页中直观的查看运行中、等待中、以及异常状态的作业情况,可以查看每个作业的ID、状态、提交时间、队列名、提交用户、提交主机、运行主机信息。提供了下载选项,供管理员下载当前的作业运行情况做二次分析。
更进一步的,月/年度报表模块的报表功能包括集群状态报表、作业信息报表、计费详细报表和报警信息报表,为管理员提供月度/年度/自定义时间的报表信息,方便年度总结汇报及报表信息分析,提供API接口方便用户二次开发。
值得说明的是,文件管理模块用支持多种并行文件系统,IBM Spectrum Scale(GPFS)、Lustre、BeeGFS、GlusterFS,在页面中即可实现对文件夹/文件创建、编辑、删除、上传、下载、重命名、排序和查看等,文件空间隔离,每个用户有自己的文件空间,用户在web页面不能查看和修改其他用户的用户文件空间的文件。
本发明的目的之三在于,提供一种运维监控管理软件装置,如图4所示,包括处理器、存储器以及存储在存储器中并在处理器上运行的计算机程序,处理器用于执行计算机程序时实现上述中的运维监控管理软件方法的步骤。
可选的,存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随时存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
本发明的目的之四在于,提供一种存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述中的运维监控管理软件方法的步骤。
可选的,本发明还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各方面运维监控管理软件方法的步骤。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,的程序可以存储与一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (10)

1.一种运维监控管理软件方法,其特征在于:包括如下步骤:
S1、登录:输入监控节点IP地址、用户名、密码,登陆至主页面;
S2、License管理:查看当前的license许可信息,通过上传对应的许可证,即可增加许可数量;
S3、资源监控:进入监控大屏画面,在大屏上直观的查看集群资源使用情况和集群作业情况;
S4、节点部署:输入需要部署节点的IPMI地址、用户名、密码、角色元素进行部署;
S5、节点管理:在列表视图里查看每个节点的名称、状态、OS_IP、BMC_IP、IB_IP、操作系统;
S6、节点拓扑:物理机架视图的方式直观的查看每个节点的状态;
S7、作业监控:在网页中直观的查看运行中、等待中、以及异常状态的作业情况;
S8、提交作业:输入作业名称、运行参数、队列、核数,进行作业提交。
2.一种运维监控管理软件系统,包括权利要求1所述的维监控管理软件方法,其特征在于:包括硬件资源单元、软件资源单元和软件功能单元,所述硬件资源单元用于对系统进行硬件支持;所述软件资源单元用于支持业内主流的作业调度系统;所述软件功能单元用于提供各类软件支持。
3.根据权利要求2所述的运维监控管理软件系统,其特征在于:所述软件功能单元包括监控大屏模块、资源监控模块、节点部署模块、节点管理模块、节点拓扑模块、作业监控模块、提交作业模块、队列管理模块、计费统计模块、月/年度报表模块、用户管理模块、文件管理模块和集群报警模块;监控大屏模块用于提供大屏监控功能,资源监控模块用于提供资源监控功能,节点部署模块用于提供节点部署功能,节点管理模块用于提供节点管理功能,节点拓扑模块用于提供节点拓扑功能,作业监控模块用于提供作业监控功能,提交作业模块用于提供作业提交功能,队列管理模块用于提供队列管理功能,计费统计模块用于提供计费统计功能,月/年度报表模块用于提供报表功能,用户管理模块用于提供用户管理功能,文件管理模块用于提供文件管理功能,集群报警模块用于提供集群报警功能。
4.根据权利要求3所述的运维监控管理软件系统,其特征在于:所述资源监控模的监控对象包括在线的节点数、CPU、内存、硬盘、网络的实时负载率、实时占用率。
5.根据权利要求3所述的运维监控管理软件系统,其特征在于:所述节点拓扑模块中节点的状态包括CPU、内存、网络、存储资源信息。
6.根据权利要求3所述的运维监控管理软件系统,其特征在于:所述作业监控模块的监控对象包括每个作业的ID、状态、提交时间、队列名、提交用户、提交主机、运行主机信息。
7.根据权利要求3所述的运维监控管理软件系统,其特征在于:所述月/年度报表模块的报表功能包括集群状态报表、作业信息报表、计费详细报表和报警信息报表。
8.根据权利要求3所述的运维监控管理软件系统,其特征在于:所述文件管理模块用支持多种并行文件系统。
9.一种运维监控管理软件装置,其特征在于:包括处理器、存储器以及存储在存储器中并在处理器上运行的计算机程序,处理器用于执行计算机程序时实现如权利要求1中所述的运维监控管理软件方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1中所述的运维监控管理软件方法的步骤。
CN202010545366.2A 2020-06-16 2020-06-16 一种运维监控管理软件方法、系统、装置和存储介质 Pending CN111666190A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010545366.2A CN111666190A (zh) 2020-06-16 2020-06-16 一种运维监控管理软件方法、系统、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010545366.2A CN111666190A (zh) 2020-06-16 2020-06-16 一种运维监控管理软件方法、系统、装置和存储介质

Publications (1)

Publication Number Publication Date
CN111666190A true CN111666190A (zh) 2020-09-15

Family

ID=72388024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010545366.2A Pending CN111666190A (zh) 2020-06-16 2020-06-16 一种运维监控管理软件方法、系统、装置和存储介质

Country Status (1)

Country Link
CN (1) CN111666190A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112256546A (zh) * 2020-10-29 2021-01-22 泰康保险集团股份有限公司 软件部署情况监控分析的方法和装置
CN112269646A (zh) * 2020-10-26 2021-01-26 常州微亿智造科技有限公司 自动化运维任务部署远程操控系统和方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101645022A (zh) * 2009-08-28 2010-02-10 曙光信息产业(北京)有限公司 用于多个集群的作业调度管理系统及方法
CN103207814A (zh) * 2012-12-27 2013-07-17 北京仿真中心 一种去中心化的跨集群资源管理与任务调度系统与调度方法
CN111209455A (zh) * 2019-12-29 2020-05-29 横琴宝蓝科技有限公司 一种可视化数据交换管理平台

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101645022A (zh) * 2009-08-28 2010-02-10 曙光信息产业(北京)有限公司 用于多个集群的作业调度管理系统及方法
CN103207814A (zh) * 2012-12-27 2013-07-17 北京仿真中心 一种去中心化的跨集群资源管理与任务调度系统与调度方法
CN111209455A (zh) * 2019-12-29 2020-05-29 横琴宝蓝科技有限公司 一种可视化数据交换管理平台

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李贵明: "2-13-Clusterengine安装配置", 《HTTPS://WWW.DOC88.COM/P-00799967736601.HTML?R=1》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112269646A (zh) * 2020-10-26 2021-01-26 常州微亿智造科技有限公司 自动化运维任务部署远程操控系统和方法
CN112256546A (zh) * 2020-10-29 2021-01-22 泰康保险集团股份有限公司 软件部署情况监控分析的方法和装置

Similar Documents

Publication Publication Date Title
US11132227B2 (en) Monitoring and automatic scaling of data volumes
US20180060133A1 (en) Event-driven resource pool management
US10541871B1 (en) Resource configuration testing service
US11706084B2 (en) Self-monitoring
US10417593B1 (en) System and method for comparing computing resource offerings
US9411969B2 (en) System and method of assessing data protection status of data protection resources
AU2017201665A1 (en) Annotations of resources
US9104706B2 (en) Meta-directory control and evaluation of events
US10587655B1 (en) Compliance management system and method for an integrated computing system
US20120317259A1 (en) Operation managing device and operation management method
US20180314531A1 (en) Dependency resolution system and method for an integrated computing system
US10983873B1 (en) Prioritizing electronic backup
CN111666190A (zh) 一种运维监控管理软件方法、系统、装置和存储介质
US9313208B1 (en) Managing restricted access resources
Dell
Thakurratan Google Cloud Platform Administration: Design highly available, scalable, and secure cloud solutions on GCP
Feng et al. Research on computer software engineering database programming technology based on virtualization cloud platform
US9178867B1 (en) Interacting with restricted environments
JP6480127B2 (ja) 管理用アクセス制御システムおよび管理用アクセス制御方法
Ljubuncic Problem-solving in High Performance Computing: A Situational Awareness Approach with Linux
US11689534B1 (en) Dynamic authorization of users for distributed systems
US11296926B1 (en) Systems and methods for ranked visualization of events
US11811847B2 (en) Server-side workflow improvement based on client-side data mining
US20240152521A1 (en) Database system observability data querying and access
Chawla Optimizing the Resource utilization of Enterprise Content management workloads through measured performance baselines and dynamic topology adaptation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200915