CN106227635A - 基于web界面的HPC机群管理系统 - Google Patents

基于web界面的HPC机群管理系统 Download PDF

Info

Publication number
CN106227635A
CN106227635A CN201610558951.XA CN201610558951A CN106227635A CN 106227635 A CN106227635 A CN 106227635A CN 201610558951 A CN201610558951 A CN 201610558951A CN 106227635 A CN106227635 A CN 106227635A
Authority
CN
China
Prior art keywords
finger daemon
main frame
main
execution
wire
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610558951.XA
Other languages
English (en)
Inventor
刘贵全
叶剑鸣
印金汝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Bi Song Data Technology Co Ltd
Original Assignee
Hefei Bi Song Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Bi Song Data Technology Co Ltd filed Critical Hefei Bi Song Data Technology Co Ltd
Priority to CN201610558951.XA priority Critical patent/CN106227635A/zh
Publication of CN106227635A publication Critical patent/CN106227635A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs

Abstract

本发明公开了一种基于web界面的HPC机群管理系统,包括主控主机、管理主机、执行主机和提交主机,所述主控主机上设有主守护进程和调度程序守护进程,且主守护进程通过导线分别与调度程序守护进程和主控主机相连接,所述主守护进程通过导线连接有执行主机、数据库、管理主机、Grid Engine系统组件和QSUB客户端,所述Grid Engine系统组件和QSUB客户端均位于提交主机上,且Grid Engine系统组件和QSUB客户端均通过导线和提交主机相连接,所述Grid Engine系统组件通过导线分别与调度程序守护进程和管理主机相连接。本发明可以将相对松散的高配置服务器进行统一管理和调度,使高配置服务器的资源利用率最大化,同时服务器的集中维护效率得到相应提高。

Description

基于web界面的HPC机群管理系统
技术领域
本发明涉及HPC机群管理系统技术领域,尤其涉及一种基于web界面的HPC机群管理系统。
背景技术
随着社会发展,数据的存储和计算对服务器资源的需要越来越高,目前许多国家都在各地建立了许多HPC超算中心。例如美国圣地亚哥超算中心(SDSC),在国内,有中科院超算中心,天津、深圳等诸多国家超级计算中心,以及各地区建立的超算中心。超算中心的日常运行和维护需要专门的系统和专业管理人员来实现,例如作业提交、用户管理、日志查看等等。目前已经有了许多开源或商业的集群管理软件为超算中心或中小机群提供解决方案,例如开源的rocks集群管理软件,商业的集群管理软件如rocks+、Platform ClusterManager等等。这些集群管理软件都是在现有的OS基础上,集成一些软件包,实现基于图形和文本的管理界面,最终通过一台管理节点来控制其它的计算节点,使用效果虽然很好,但是如果管理节点一旦宕机,必须重新安装所有节点来恢复集群系统。这种恢复方式是比较费时而且可能到时数据丢失的严重后果。
发明内容
基于背景技术存在的技术问题,本发明提出了基于web界面的HPC机群管理系统。
本发明提出了基于web界面的HPC机群管理系统,包括主控主机、管理主机、执行主机和提交主机,所述主控主机上设有主守护进程和调度程序守护进程,且主守护进程通过导线分别与调度程序守护进程和主控主机相连接,所述主守护进程通过导线连接有执行主机、数据库、管理主机、Grid Engine系统组件和QSUB客户端,所述Grid Engine系统组件和QSUB客户端均位于提交主机上,且Grid Engine系统组件和QSUB客户端均通过导线和提交主机相连接,所述Grid Engine系统组件通过导线分别与调度程序守护进程和管理主机相连接,所述执行主机上设有执行守护进程,且执行守护进程通过导线和执行主机相连接,所述执行守护进程通过导线连接有第一shepherd进程和第二shepherd进程,所述第一shepherd进程通过导线连接有第一作业,且第二shepherd进程通过导线连接有第二作业。
执行主机通过执行主机上的执行守护进程向主控主机上的主守护进程报告的执行主机负载信息,用户提交主机上的QSUB客户端向主控主机上的主守护进程提交作业,主控主机上的主守护进程把收集到的系统负载信息和新出现的作业的情况发送给主控主机上的调度程序守护进程上,调度程序守护进程通过一定的作业调度策略、利用系统各方面的信息,把收到的作业映射到合适的执行守护进程上,为此将生成的命令表返回给主守护进程,主守护进程把作业传送给调度程序守护进程指定的目的执行主机上的执行守护进程上,执行守护进程为作业创建一个shepherd,由这个shepherd负责管理和控制作业的执行,当作业执行结束,执行守护进程要向主守护进程报告作业执行的情况,主守护进程在数据库中记录作业的资源使用情况,Grid Engine系统组件时刻监视着主守护进程,预防主守护进程崩溃。
优选地,所述主控主机用于运行主守护进程和调度程序守护进程,且运行主守护进程和调度程序守护进程均对Grid Engine系统组件进行控制。
优选地,所述执行主机用于运行执行守护进程。
优选地,所述管理主机用于运行 Grid Engine系统组件的管理操作,且管理主机用于监控主守护进程。
优选地,所述QSUB客户端用于向主控主机的主守护进程提交作业。
优选地,所述执行守护进程用于为第一作业建立第一shepherd进程,且执行守护进程用于为第二作业建立第二shepherd进程。
本发明的有益效果:
1、通过主控主机,可以分别对主守护进程和调度程序守护进程进行运行,且运行主守护进程和调度程序守护进程可以对Grid Engine系统组件进行控制,进而主控主机可以对Grid Engine系统组件进行控制;
2、通过执行主机和执行主机上的执行守护进程,执行主机使得执行守护进程进行运行,且执行主机上的执行守护进程可以为第一作业建立第一shepherd进程,或者执行守护进程可以为第二作业建立第二shepherd进程;
3、通过管理主机,可以对Grid Engine系统组件的管理操作进行运行,且可以对主守护进程进行监控;
4、通过提交主机上的QSUB客户端,可以向主控主机的主守护进程提交作业;
本发明可以将相对松散的高配置服务器进行统一管理和调度,使高配置服务器的资源利用率最大化,同时服务器的集中维护效率得到相应提高。
附图说明
图1为本发明提出的基于web界面的HPC机群管理系统的系统框图。
图中:1数据库、2主控主机、3主守护进程、4调度程序守护进程、5管理主机、6执行主机、7执行守护进程、8第一shepherd进程、9第二shepherd进程、10第一作业、11第二作业、12提交主机、13 Grid Engine系统组件、14 QSUB客户端。
具体实施方式
下面结合具体实施例对本发明作进一步解说。
实施例
参照图1,本实施例中提出了基于web界面的HPC机群管理系统,包括主控主机2、管理主机5、执行主机6和提交主机12,主控主机2上设有主守护进程3和调度程序守护进程4,且主守护进程3通过导线分别与调度程序守护进程4和主控主机2相连接,主守护进程2通过导线连接有执行主机6、数据库1、管理主机5、Grid Engine系统组件13和QSUB客户端14,Grid Engine系统组件13和QSUB客户端14均位于提交主机12上,且Grid Engine系统组件13和QSUB客户端14均通过导线和提交主机12相连接,Grid Engine系统组件13通过导线分别与调度程序守护进程4和管理主机5相连接,执行主机6上设有执行守护进程7,且执行守护进程7通过导线和执行主机6相连接,执行守护进程7通过导线连接有第一shepherd进程8和第二shepherd进程9,第一shepherd进程8通过导线连接有第一作业10,且第二shepherd进程9通过导线连接有第二作业11。
执行主机6通过执行主机6上的执行守护进程7向主控主机2上的主守护进程3报告的执行主机6负载信息,用户提交主机12上的QSUB客户端14向主控主机2上的主守护进程3提交作业,主控主机2上的主守护进程3把收集到的系统负载信息和新出现的作业的情况发送给主控主机2上的调度程序守护进程4上,调度程序守护进程4通过一定的作业调度策略、利用系统各方面的信息,把收到的作业映射到合适的执行守护进程7上,为此将生成的命令表返回给主守护进程3,主守护进程3把作业传送给调度程序守护进程4指定的目的执行主机6上的执行守护进程7上,执行守护进程7为作业创建一个shepherd,由这个shepherd负责管理和控制作业的执行,当作业执行结束,执行守护进程7要向主守护进程3报告作业执行的情况,主守护进程3在数据库1中记录作业的资源使用情况,Grid Engine系统组件13时刻监视着主守护进程3,预防主守护进程3崩溃,主控主机2用于运行主守护进程3和调度程序守护进程4,且运行主守护进程3和调度程序守护进程4均对Grid Engine系统组件13进行控制,执行主机6用于运行执行守护进程7,管理主机5用于运行 Grid Engine系统组件13的管理操作,且管理主机5用于监控主守护进程3,QSUB客户端14用于向主控主机2的主守护进程3提交作业,执行守护进程7用于为第一作业10建立第一shepherd进程8,且执行守护进程7用于为第二作业11建立第二shepherd进程进程9。
工作原理:执行主机6通过执行主机6上的执行守护进程7向主控主机2上的主守护进程3报告该执行主机6的负载信息,提交主机12上的QSUB客户端14可以向主控主机2上的主守护进程3提交作业,主控主机2上的主守护进程3把从执行守护进程7收集到的系统负载信息和新出现的作业的情况发送给调度程序守护进程4上,调度程序守护进程4通过一定的作业调度策略、利用系统各方面的信息,把收到的作业映射到合适的执行守护进程7上,且调度程序守护进程4将生成的命令表返回给主守护进程3,主守护进程3把第一作业10传送给调度程序守护进程4指定的目的执行主机6上的执行守护进程7上,执行守护进程7为第一作业10创建第一shepherd进程8,由第一shepherd进程8负责管理和控制第一作业10的执行,当第一作业10执行结束,执行守护进程7向主守护进程3报告第一作业10执行的情况,主守护进程3在数据库1中记录第一作业10的资源使用情况,Grid Engine系统组件13时刻监视着主守护进程3,预防主守护进程3崩溃。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (6)

1.基于web界面的HPC机群管理系统,包括主控主机(2)、管理主机(5)、执行主机(6)和提交主机(12),其特征在于,所述主控主机(2)上设有主守护进程(3)和调度程序守护进程(4),且主守护进程(3)通过导线分别与调度程序守护进程(4)和主控主机(2)相连接,所述主守护进程(2)通过导线连接有执行主机(6)、数据库(1)、管理主机(5)、Grid Engine系统组件(13)和QSUB客户端(14),所述Grid Engine系统组件(13)和QSUB客户端(14)均位于提交主机(12)上,且Grid Engine系统组件(13)和QSUB客户端(14)均通过导线和提交主机(12)相连接,所述Grid Engine系统组件(13)通过导线分别与调度程序守护进程(4)和管理主机(5)相连接,所述执行主机(6)上设有执行守护进程(7),且执行守护进程(7)通过导线和执行主机(6)相连接,所述执行守护进程(7)通过导线连接有第一shepherd进程(8)和第二shepherd进程(9),所述第一shepherd进程(8)通过导线连接有第一作业(10),且第二shepherd进程(9)通过导线连接有第二作业(11);
执行主机(6)通过执行主机(6)上的执行守护进程(7)向主控主机(2)上的主守护进程(3)报告该执行主机(6)的负载信息,用户通过提交主机(12)上的QSUB客户端(14)向主控主机(2)上的主守护进程(3)提交作业,主控主机(2)上的主守护进程(3)把收集到的系统负载信息和新出现的作业的情况发送给主控主机(2)上的调度程序守护进程(4)上,调度程序守护进程(4)通过一定的作业调度策略、利用系统各方面的信息,把收到的作业映射到合适的执行守护进程(7)上,为此将生成的命令表返回给主守护进程(3),主守护进程(3)把作业传送给调度程序守护进程(4)指定的目的执行主机(6)上的执行守护进程(7)上,执行守护进程(7)为作业创建一个shepherd,由这个shepherd负责管理和控制作业的执行,当作业执行结束,执行守护进程(7)要向主守护进程(3)报告作业执行的情况,主守护进程(3)在数据库(1)中记录作业的资源使用情况,Grid Engine系统组件(13)时刻监视着主守护进程(3),预防主守护进程(3)崩溃。
2.根据权利要求1所述的基于web界面的HPC机群管理系统,其特征在于,所述主控主机(2)用于运行主守护进程(3)和调度程序守护进程(4),且运行主守护进程(3)和调度程序守护进程(4)均对Grid Engine系统组件(13)进行控制。
3.根据权利要求1所述的基于web界面的HPC机群管理系统,其特征在于,所述执行主机(6)用于运行执行守护进程(7)。
4.根据权利要求1所述的基于web界面的HPC机群管理系统,其特征在于,所述管理主机(5)用于运行 Grid Engine系统组件(13)的管理操作,且管理主机(5)用于监控主守护进程(3)。
5.根据权利要求1所述的基于web界面的HPC机群管理系统,其特征在于,所述QSUB客户端(14)用于向主控主机(2)的主守护进程(3)提交作业。
6.根据权利要求1所述的基于web界面的HPC机群管理系统,其特征在于,所述执行守护进程(7)用于为第一作业(10)建立第一shepherd进程(8),且执行守护进程(7)用于为第二作业(11)建立第二shepherd进程(9)。
CN201610558951.XA 2016-07-17 2016-07-17 基于web界面的HPC机群管理系统 Pending CN106227635A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610558951.XA CN106227635A (zh) 2016-07-17 2016-07-17 基于web界面的HPC机群管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610558951.XA CN106227635A (zh) 2016-07-17 2016-07-17 基于web界面的HPC机群管理系统

Publications (1)

Publication Number Publication Date
CN106227635A true CN106227635A (zh) 2016-12-14

Family

ID=57519321

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610558951.XA Pending CN106227635A (zh) 2016-07-17 2016-07-17 基于web界面的HPC机群管理系统

Country Status (1)

Country Link
CN (1) CN106227635A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107426317A (zh) * 2017-07-29 2017-12-01 合肥千奴信息科技有限公司 基于web界面的HPC机群管理系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090210740A1 (en) * 2008-02-14 2009-08-20 Song Huang Off-chip access workload characterization methodology for optimizing computing efficiency
US20130185408A1 (en) * 2012-01-18 2013-07-18 Dh2I Company Systems and Methods for Server Cluster Application Virtualization
CN103297543A (zh) * 2013-06-24 2013-09-11 浪潮电子信息产业股份有限公司 一种基于计算机集群作业调度的方法
CN105573890A (zh) * 2015-12-15 2016-05-11 浪潮软件股份有限公司 一种守护服务器的进程的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090210740A1 (en) * 2008-02-14 2009-08-20 Song Huang Off-chip access workload characterization methodology for optimizing computing efficiency
US20130185408A1 (en) * 2012-01-18 2013-07-18 Dh2I Company Systems and Methods for Server Cluster Application Virtualization
CN103297543A (zh) * 2013-06-24 2013-09-11 浪潮电子信息产业股份有限公司 一种基于计算机集群作业调度的方法
CN105573890A (zh) * 2015-12-15 2016-05-11 浪潮软件股份有限公司 一种守护服务器的进程的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张传福等: ""基于SGE的仿真网格及其作业调度研究"", 《计算机仿真》 *
李媛等: ""集群作业管理系统SGE及其应用"", 《计算机工程与设计》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107426317A (zh) * 2017-07-29 2017-12-01 合肥千奴信息科技有限公司 基于web界面的HPC机群管理系统

Similar Documents

Publication Publication Date Title
CN105205766B (zh) 基于云平台的移动互联网医院就诊系统
CN104753994B (zh) 基于集群服务器系统的数据同步方法及其装置
US9335932B2 (en) Storage unit selection for virtualized storage units
CN104618693A (zh) 一种基于云计算的监控视频在线处理任务管理方法及系统
US20050038801A1 (en) Fast reorganization of connections in response to an event in a clustered computing system
CN102271145A (zh) 一种虚拟计算机集群及其实施方法
CN103729280A (zh) 一种虚拟机高可用机制
CN104133727A (zh) 基于实时资源负载分配的方法
US20220286373A1 (en) Scalable real time metrics management
CN105404542A (zh) 云计算系统及在其上运行高性能计算的方法
Yuan et al. Efficient resource management for cloud computing
EP4038499A1 (en) Real time multi-tenant workload tracking and auto throttling
CN112579288A (zh) 一种基于云计算智能安全用数据管理系统
CN104572415A (zh) 一种适用于分布式系统的事务日志记录方法
CN105007311A (zh) 一种基于云平台和云计算的资源管理系统和方法
KR101357135B1 (ko) 로그 정보 수집 장치
CN103716184A (zh) 多级互联域系统的运行维护系统
CN105224404B (zh) 基于集群技术的继电保护定值整定计算方法
CN103117878A (zh) 一种基于Nagios的分布式监控系统的设计方法
CN102880832B (zh) 一种集群下的数据海量管理的系统的实现方法
CN103533068A (zh) 基于ip的任务自主均衡分配集群系统
CN104881749A (zh) 面向多租户的数据管理方法和数据存储系统
CN102694693B (zh) 一种网管系统的日志记录方法
WO2018188607A1 (zh) 流处理方法及装置
CN106227635A (zh) 基于web界面的HPC机群管理系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161214

RJ01 Rejection of invention patent application after publication