CN106020969A - 一种高性能云计算混合计算系统及其方法 - Google Patents

一种高性能云计算混合计算系统及其方法 Download PDF

Info

Publication number
CN106020969A
CN106020969A CN201610291648.8A CN201610291648A CN106020969A CN 106020969 A CN106020969 A CN 106020969A CN 201610291648 A CN201610291648 A CN 201610291648A CN 106020969 A CN106020969 A CN 106020969A
Authority
CN
China
Prior art keywords
cloud computing
node
performance calculation
resource
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610291648.8A
Other languages
English (en)
Inventor
于欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunshen Technology Investment Co Ltd
Original Assignee
Yunshen Technology Investment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunshen Technology Investment Co Ltd filed Critical Yunshen Technology Investment Co Ltd
Priority to CN201610291648.8A priority Critical patent/CN106020969A/zh
Publication of CN106020969A publication Critical patent/CN106020969A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种高性能云计算混合计算系统及其方法。该方法在高性能计算资源池的每一个计算节点中设置云计算代理服务模块同时与高性能计算调度系统和云计算管理系统连接。云计算资源不足时,由云计算管理系统向高性能计算调度系统发送节点资源申请,并根据高性能计算调度系统通知的空闲计算节点信息向对应云计算代理服务模块发送第一清理命令以清理该空闲计算节点并将其加入到云计算资源池。云计算资源冗余时,由云计算管理系统释放一部分计算节点,并向对应云计算代理服务模块发送第二清理命令以清理待释放的计算节点,然后由高性能计算调度系统回收到高性能计算资源池。本发明避免资源闲置,提高资源利用率。

Description

一种高性能云计算混合计算系统及其方法
技术领域
本发明涉及计算技术,更具体地说,涉及一种高性能云计算混合计算系统及其方法。
背景技术
高性能计算(highperformancecomputing,缩写HPC)在工程计算、科学研究、遗传基因以及金融风险分析中已经取得了巨大的成就。高性能计算历经几十年的发展,如今不仅是作为实验和理论以外的第三大科学研究手段,而且可以被当作是一个国家综合国力的主要评价标准。云计算是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。
目前的中国对于云计算和高性能计算的支持力度非常大,建立了不少超级计算中心,组成大规模的计算集群。云计算采用的关键技术是虚拟化,这样可以使资源按需调度,但也势必导致一部分的性能损失,而高性能计算以计算速度为第一追求,因而在性能方面与云计算会有一定的冲突。各个超级计算中心一般都会根据业务、服务的不同将计算集群分为云计算分区和高性能计算分区,云计算分区运行云操作系统,应用于云计算服务,而高性能计算分区则运行高性能作业调度系统,应用于高性能计算服务。当高性能计算业务不忙而云计算业务比较紧张的时候,如果按照以往计算中心常规的分区划分方式,那么将会出现高性能计算资源闲置的情况,因此需要找到一个更好的合理分配使用超级计算中心计算资源的技术。
发明内容
本发明要解决的技术问题在于,针对传统的计算中心资源分配存在的上述不足之处,提供一种高性能云计算混合计算系统及其方法。
本发明在第一方面为解决其技术问题所采用的技术方案是:提出一种高性能云计算混合计算系统及其方法,包括高性能计算资源池和云计算资源池,所述高性能计算资源池包括高性能计算调度系统和由其管理的多个计算节点,所述云计算资源池包括云计算管理系统和由其管理的多个计算节点,所述高性能计算资源池中的计算节点均设有云计算代理服务模块,所述云计算代理服务模块同时与高性能计算调度系统和云计算管理系统连接;
所述云计算管理系统在监控到资源不足时向高性能计算调度系统发送节点资源申请,并根据高性能计算调度系统通知的空闲的计算节点信息向该空闲的计算节点的云计算代理服务模块发送第一清理命令以由所述云计算代理服务模块清理该空闲的计算节点并将其加入到云计算资源池,以及在监控到资源冗余时释放从高性能计算资源池申请到的一部分计算节点,并向待释放的计算节点的云计算代理服务模块发送第二清理命令以由所述云计算代理服务模块清理待释放的计算节点;
所述高性能计算调度系统基于云计算管理系统发送的节点资源申请调度空闲的计算节点并通知给云计算管理系统,以及根据所述云计算代理服务模块基于所述第二清理命令清理相应的计算节点后返回的信息将该清理后的计算节点回收到高性能计算资源池。
根据本发明第一方面的一个实施例中,所述高性能计算调度系统基于云计算管理系统发送的节点资源申请调度空闲的计算节点并通知给云计算管理系统,进一步包括:将所述节点资源申请设置为最高优先级,当出现空闲的计算节点时,锁定该空闲的计算节点,并将该空闲的计算节点信息通知给云计算管理系统。
根据本发明第一方面的一个实施例中,所述云计算代理服务模块基于所述第一清理命令清理空闲的计算节点包括:
结束所有的高性能计算作业进程;
卸载高性能计算作业使用的分布式文件系统;
设置防火墙策略,设置cgroup资源策略,以禁止高性能计算用户访问该空闲的计算节点;
将该空闲的计算节点从高性能计算环境需要的服务切换到云计算环境需要的服务;
从云计算管理系统获取云计算需要使用的分布式文件系统或存储资源的连接数据,挂载对应的文件系统或存储资源,并将连接信息反馈给云计算管理系统;
创建虚拟交换机,并将该虚拟交换机信息返回给云计算管理系统。
根据本发明第一方面的一个实施例中,所述云计算代理服务模块基于所述第二清理命令清理相应的计算节点包括:
卸载云计算使用的分布式文件系统或存储资源;
将该计算节点从云计算环境需要的服务切换到高性能计算环境需要的服务,并在成功后通知云计算管理系统以便云计算管理系统将该计算节点从云计算资源池中删除;
挂载高性能计算需要的分布式文件系统;
设置防火墙和cgroup资源策略,以允许高性能计算用户访问该计算节点;
返回相应的信息给高性能计算调度系统以将该计算节点回收到高性能计算资源池中。
本发明在第二方面为解决其技术问题所采用的技术方案是:提出一种高性能云计算混合计算系统及其方法的资源管理方法,其中所述系统包括高性能计算资源池和云计算资源池,所述高性能计算资源池包括高性能计算调度系统和由其管理的多个计算节点,所述云计算资源池包括云计算管理系统和由其管理的多个计算节点,所述方法包括如下步骤:
S1、在所述高性能计算资源池的每一个计算节点中设置云计算代理服务模块,所述云计算代理服务模块同时与高性能计算调度系统和云计算管理系统连接;
S2、在云计算管理系统监控到云计算资源池的资源不足时,由所述云计算管理系统向高性能计算调度系统发送节点资源申请,并根据高性能计算调度系统通知的空闲的计算节点信息向该空闲的计算节点的云计算代理服务模块发送第一清理命令以由所述云计算代理服务模块清理该空闲的计算节点并将其加入到云计算资源池;
S3、在云计算管理系统监控到云计算资源池的资源冗余时,由所述云计算管理系统释放从高性能计算资源池申请到的一部分计算节点,并向待释放的计算节点的云计算代理服务模块发送第二清理命令以由所述云计算代理服务模块清理待释放的计算节点,然后由所述高性能计算调度系统根据所述云计算代理服务模块清理相应的计算节点后返回的信息将该清理后的计算节点回收到高性能计算资源池。
根据本发明第二方面的一个实施例中,所述步骤S2进一步包括:
由所述高性能计算调度系统将所述云计算管理系统发送的节点资源申请设置为最高优先级,当出现空闲的计算节点时,锁定该空闲的计算节点,并将该空闲的计算节点信息通知给云计算管理系统。
根据本发明第二方面的一个实施例中,所述步骤S2中由所述云计算代理服务模块清理该空闲的计算节点进一步包括:
结束所有的高性能计算作业进程;
卸载高性能计算作业使用的分布式文件系统;
设置防火墙策略,设置cgroup资源策略,以禁止高性能计算用户访问该空闲的计算节点;
将该空闲的计算节点从高性能计算环境需要的服务切换到云计算环境需要的服务;
从云计算管理系统获取云计算需要使用的分布式文件系统或存储资源的连接数据,挂载对应的文件系统或存储资源,并将连接信息反馈给云计算管理系统;
创建虚拟交换机,并将该虚拟交换机信息返回给云计算管理系统。
根据本发明第二方面的一个实施例中,所述步骤S2中通过判断当前云计算资源池中的剩余资源是否小于预设的资源剩余量阈值或判断当前云计算资源池中的剩余资源是否满足资源申请需求来监控资源是否不足。
根据本发明第二方面的一个实施例中,所述步骤S3中由所述云计算代理服务模块清理待释放的计算节点进一步包括:
卸载云计算使用的分布式文件系统或存储资源;
将该计算节点从云计算环境需要的服务切换到高性能计算环境需要的服务,并在成功后通知云计算管理系统以便云计算管理系统将该计算节点从云计算资源池中删除;
挂载高性能计算需要的分布式文件系统;
设置防火墙和cgroup资源策略,以允许高性能计算用户访问该计算节点;
返回相应的信息给高性能计算调度系统以将该计算节点回收到高性能计算资源池中。
根据本发明第二方面的一个实施例中,所述步骤S3中由所述云计算管理系统释放从高性能计算资源池申请到的一部分计算节点进一步包括:
由所述云计算管理系统通过统计云计算资源池中的剩余资源来确定可以释放的计算节点数量,并在完全空闲的计算节点的数量不够时,将只有少量虚拟机在运行的计算节点中的虚拟机迁出,直到有足够数量的空闲计算节点。
本发明的高性能计算与云计算混合计算系统及其资源管理方法,可以在高性能计算资源闲置时,将闲置的高性能计算资源进行相应管理设置,加入到云计算资源池中,以满足云计算资源池的业务应用,并可以在云计算资源冗余时将加入云计算资源池的计算节点释放出来,由高性能计算资源池回收,从而避免资源闲置,提高资源利用率。本发明的混合计算系统结合高性能计算的应用特点和云计算平台的优势,通过虚拟化技术和自动化技术,同时支持物理机和虚拟机环境,实现硬件资源的统一管理、统一分配、统一部署、统一监控,打破单个业务对资源的独占,提供动态的计算服务平台。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明一个实施例的高性能计算与云计算混合计算系统的初始状态结构示意图;
图2是图1所示的高性能计算与云计算混合计算系统进行资源调度后的结构示意图;
图3是本发明一个实施例的高性能计算与云计算混合计算系统的资源管理方法的流程图;
图4是本发明另一具体实施例的高性能计算与云计算混合计算系统的资源管理方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
现在的超级计算中心都会根据业务需求将整个计算资源池直接划分为两个大的分区:高性能计算分区和云计算分区,分别应对高性能和云计算业务。对于高性能计算,其资源一般相对固定,通常通过资源的合理调度提高资源的利用率。在一个高性能计算集群中,所有的计算节点使用linux,并由高性能计算调度系统统一管理,每个计算节点都可以挂载分布式文件系统。而对于云计算,所有计算节点部署虚拟化Hypervisor,所有Hypervisor由云计算管理系统统一管理。Hypervisor是一种运行在物理服务器和操作系统之间的中间软件层,可允许多个操作系统和应用共享一套基础物理硬件,因此也可以看作是虚拟环境中的“元”操作系统,它可以协调访问服务器上的所有物理设备和虚拟机,也叫虚拟机监视器(VirtualMachineMonitor)。Hypervisor是所有虚拟化技术的核心。非中断地支持多工作负载迁移的能力是Hypervisor的基本功能。当服务器启动并执行Hypervisor时,它会给每一台虚拟机分配适量的内存、CPU、网络和磁盘,并加载所有虚拟机的客户操作系统。
当整个计算资源池存在高性能计算分区和云计算分区这种物理划分时,只要两者的业务量不均衡,都会造成资源的闲置。因此,本发明提出可以将闲置的高性能计算资源加入到云计算资源池中以满足云计算业务应用的混合计算系统。
图1示出了根据本发明一个实施例的高性能计算与云计算混合计算系统100的初始状态结构示意图。如图1所示,该混合计算系统100包括高性能计算资源池110和云计算资源池120。高性能计算资源池110进一步包括高性能计算调度系统111和由其管理的多个计算节点112。云计算资源池120包括云计算管理系统121和由其管理的多个计算节点122。为了使高性能计算资源池110中空闲的计算节点112能够加入云计算资源池120中以满足云计算业务应用,本申请在高性能计算资源池110中的每一计算节点112内设置云计算代理服务模块1121,以便能够接收云计算管理系统121发来的部署操作命令。每个云计算代理服务模块1121同时与高性能计算调度系统111和云计算管理系统121连接,例如同时通过高性能计算调度系统111的API(ApplicationProgrammingInterface,应用程序编程接口)和云计算管理系统121的API进行通信连接。
高性能计算调度系统111使用cgroup对高性能计算用户的作业严格控制资源使用。cgroups是Linux内核提供的一种可以限制、记录、隔离进程组(processgroups)所使用物理资源(如cpu,memory,IO等等)的机制。为了使高性能计算资源池110中空闲的计算节点112能够加入云计算资源池120,高性能计算使用的Linux操作系统(比如CentOS,SLES,Ubuntu)必须能支持云计算资源池120的Hypervisor。Linux操作系统主流的Hypervisor有KVM和Xen,本申请优选KVM作为Hypervisor。KVM和xen的最大区别在于架构的不同,KVM直接构建在Linuxkernel之上,把Linuxkernel变成Hypervisor,利用kernel已有的功能开发KVM所需的功能。Xen的Hypervisor则是从零开始构建,对硬件资源的调度管理、虚拟机的管理,还有很多接口与Linuxkernel不兼容,需对Linuxkernel进行修改,这样的操作系统不是很适合用于做高性能计算。
图1所示的混合计算系统100中,当云计算资源池120的云计算管理系统121监控到云计算资源不足(例如当前云计算资源池中的剩余资源小于预设的资源剩余量阈值或当前云计算资源池中的剩余资源不足以满足资源申请需求)时,向高性能计算资源池110的高性能计算调度系统111发送节点资源申请。云计算管理系统121可以调用高性能计算调度系统111的API以普通作业形式申请节点资源。高性能计算调度系统111基于该节点资源申请调度空闲的计算节点112给云计算管理系统121。例如,高性能计算调度系统111可将该节点资源申请设置为最高优先级,当出现空闲的计算节点112后,高性能计算调度系统111锁定该空闲的计算节点112,并将该空闲的计算节点信息通知给云计算管理系统121。云计算管理系统121根据高性能计算调度系统111通知的空闲的计算节点信息向空闲的计算节点112的云计算代理服务模块1121发送第一清理命令以由该云计算代理服务模块1121清理该空闲计算节点,清理完后将其加入到云计算资源池120中,如图2所示。
图2所示的混合计算系统100中,当云计算管理系统121监控到云计算资源冗余(例如云计算业务需求下降)时,将之前从高性能计算资源池110申请到的一部分计算节点112释放以返还给高性能计算资源池110。云计算管理系统121向待释放的计算节点112的云计算代理服务模块1121发送第二清理命令以由云计算代理服务模块1121清理待释放的计算节点。然后高性能计算调度系统111根据云计算代理服务模块1121清理相应的计算节点后返回的信息将该清理后的计算节点112回收到高性能计算资源池。
基于以上所介绍的高性能计算与云计算混合计算系统,本发明还提出一种高性能云计算混合计算系统及其方法的资源管理方法。图3示出了根据本发明一个实施例的高性能计算与云计算混合计算系统的资源管理方法200的流程图。如图3所示,该资源管理方法200包括如下步骤:
步骤S201中,在高性能计算资源池的每一个计算节点中设置云计算代理服务模块,所述云计算代理服务模块同时与高性能计算调度系统和云计算管理系统连接。
步骤S202中,在云计算管理系统监控到云计算资源池的资源不足时,由所述云计算管理系统向高性能计算调度系统发送节点资源申请,并根据高性能计算调度系统通知的空闲的计算节点信息向该空闲的计算节点的云计算代理服务模块发送第一清理命令以由所述云计算代理服务模块清理该空闲的计算节点并将其加入到云计算资源池。
步骤S203中,在云计算管理系统监控到云计算资源池的资源冗余时,由所述云计算管理系统释放从高性能计算资源池申请到的一部分计算节点,并向待释放的计算节点的云计算代理服务模块发送第二清理命令以由所述云计算代理服务模块清理待释放的计算节点,然后由所述高性能计算调度系统根据所述云计算代理服务模块清理相应的计算节点后返回的信息将该清理后的计算节点回收到高性能计算资源池。
通过以上所述的资源管理方法,本发明的高性能计算与云计算混合计算系统可以在高性能计算资源闲置时,将闲置的高性能计算资源进行相应管理设置,加入到云计算资源池中,以满足云计算资源池的业务应用,并可以在云计算资源冗余时将加入云计算资源池的计算节点释放出来,由高性能计算资源池回收,从而避免资源闲置,提高资源利用率。
图4示出了根据本发明另一具体实施例的高性能计算与云计算混合计算系统的资源管理方法300的流程图。如图4所示,该资源管理方法300的具体流程如下:
步骤S301中,云计算管理系统监控云计算资源的使用情况。例如,云计算管理系统可通过判断当前云计算资源池中的剩余资源是否小于预设的资源剩余量阈值或判断当前云计算资源池中的剩余资源是否满足资源申请需求来判断资源是不足还是冗余。当云计算资源不足时,方法300执行步骤S302,当云计算资源冗余时,方法300执行步骤S308。
步骤S302中,当云计算资源不足时,云计算管理系统向高性能计算调度系统发送节点资源申请,以申请空闲的计算节点。例如,云计算管理系统可以调用高性能计算调度系统API以普通作业形式申请节点资源。
步骤S303中,高性能计算调度系统调度空闲的计算节点。高性能计算调度系统可将云计算管理系统发送的节点资源申请设置为最高优先级。当前没有空闲的计算节点时,方法300接着执行步骤S304,等待出现空闲的计算节点。当出现空闲的计算节点时,方法300接着执行步骤S305,高性能计算调度系统锁定该空闲的计算节点,并将该空闲的计算节点信息通知给云计算管理系统。
步骤S306中,云计算管理系统根据高性能计算调度系统通知的空闲的计算节点信息向该空闲的计算节点的云计算代理服务模块发送第一清理命令以由云计算代理服务模块清理该空闲的计算节点。具体实施例中,云计算代理服务模块执行以下清理工作:
1.结束所有的高性能计算作业进程。云计算代理服务模块将所有ssh登陆的用户(包含root)及ssh服务器子进程强制下线,防止对后面的操作造成影响;云计算代理服务模块遍历所有系统进程,将非系统内置程序的进程全部结束。
2.卸载高性能计算作业使用的分布式文件系统。
3.设置防火墙策略,设置cgroup资源策略,以禁止高性能计算用户访问该计算节点。
4.对计算节点进行服务切换,即将该空闲的计算节点从高性能计算环境需要的服务切换到云计算环境需要的服务。
5.调用云计算管理系统API从云计算管理系统获取云计算需要使用的分布式文件系统或IP-SAN、FC-SAN等存储资源的连接数据,挂载对应的文件系统或存储资源,并将连接信息反馈给云计算管理系统。
6.创建虚拟交换机,并将该虚拟交换机信息返回给云计算管理系统。
步骤S307中,云计算管理系统将该清理后的计算节点的CPU、内存、本地磁盘等资源加入到云计算资源池中。
至此,云计算资源池从高性能计算资源池申请计算资源的过程结束。
当步骤S301中监控到云计算资源冗余(例如云计算业务需求下降)时,方法300执行步骤S308。
步骤S308中,云计算管理系统释放从高性能计算资源池申请到的一部分计算节点。具体实施例中,云计算管理系统统计云计算资源池中有多少CPU、内存剩余,通过计算剩余资源来确定可以返还给高性能计算资源池的计算节点数量。如果完全空闲的计算节点数量不够,将只有少量虚拟机在运行的计算节点中的虚拟机迁出,直到有足够数量的空闲计算节点。
步骤S309中,云计算管理系统向待释放的计算节点的云计算代理服务模块发送第二清理命令以由云计算代理服务模块清理待释放的计算节点。具体实施例中,云计算代理服务模块执行以下清理工作:
1.卸载云计算使用的分布式文件系统或存储资源。云计算代理服务模块确认无虚拟机在相应节点上运行后卸载云计算使用的分布式文件系统或者IP-SAN、FC-SAN等存储资源。
2.对计算节点进行服务切换,即将该计算节点从云计算环境需要的服务切换到高性能计算环境需要的服务,并在成功后通知云计算管理系统以便云计算管理系统将该计算节点从云计算资源池中删除。
3.挂载高性能计算需要的分布式文件系统。
4.设置防火墙和cgroup资源策略,以允许高性能计算用户通过高性能计算调度系统正常访问该计算节点。
5.返回相应的信息给高性能计算调度系统表示该计算节点当前已无作业,可以接受新的作业。
然后步骤S310中,高性能计算调度系统将该清理后的计算节点回收到高性能计算资源池中,提供给高性能计算业务使用。
至此,云计算资源池将从高性能计算资源池申请的计算资源返还给高性能计算资源池的过程结束。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种高性能云计算混合计算系统及其方法,包括高性能计算资源池和云计算资源池,所述高性能计算资源池包括高性能计算调度系统和由其管理的多个计算节点,所述云计算资源池包括云计算管理系统和由其管理的多个计算节点,其特征在于,所述高性能计算资源池中的计算节点均设有云计算代理服务模块,所述云计算代理服务模块同时与高性能计算调度系统和云计算管理系统连接;
所述云计算管理系统在监控到资源不足时向高性能计算调度系统发送节点资源申请,并根据高性能计算调度系统通知的空闲的计算节点信息向该空闲的计算节点的云计算代理服务模块发送第一清理命令以由所述云计算代理服务模块清理该空闲的计算节点并将其加入到云计算资源池,以及在监控到资源冗余时释放从高性能计算资源池申请到的一部分计算节点,并向待释放的计算节点的云计算代理服务模块发送第二清理命令以由所述云计算代理服务模块清理待释放的计算节点;
所述高性能计算调度系统基于云计算管理系统发送的节点资源申请调度空闲的计算节点并通知给云计算管理系统,以及根据所述云计算代理服务模块基于所述第二清理命令清理相应的计算节点后返回的信息将该清理后的计算节点回收到高性能计算资源池。
2.根据权利要求1所述的系统,其特征在于,所述高性能计算调度系统基于云计算管理系统发送的节点资源申请调度空闲的计算节点并通知给云计算管理系统,进一步包括:将所述节点资源申请设置为最高优先级,当出现空闲的计算节点时,锁定该空闲的计算节点,并将该空闲的计算节点信息通知给云计算管理系统。
3.根据权利要求1所述的系统,其特征在于,所述云计算代理服务模块基于所述第一清理命令清理空闲的计算节点包括:
结束所有的高性能计算作业进程;
卸载高性能计算作业使用的分布式文件系统;
设置防火墙策略,设置cgroup资源策略,以禁止高性能计算用户访问该空闲的计算节点;
将该空闲的计算节点从高性能计算环境需要的服务切换到云计算环境需要的服务;
从云计算管理系统获取云计算需要使用的分布式文件系统或存储资源的连接数据,挂载对应的文件系统或存储资源,并将连接信息反馈给云计算管理系统;
创建虚拟交换机,并将该虚拟交换机信息返回给云计算管理系统。
4.根据权利要求1所述的系统,其特征在于,所述云计算代理服务模块基于所述第二清理命令清理相应的计算节点包括:
卸载云计算使用的分布式文件系统或存储资源;
将该计算节点从云计算环境需要的服务切换到高性能计算环境需要的服务,并在成功后通知云计算管理系统以便云计算管理系统将该计算节点从云计算资源池中删除;
挂载高性能计算需要的分布式文件系统;
设置防火墙和cgroup资源策略,以允许高性能计算用户访问该计算节点;
返回相应的信息给高性能计算调度系统以将该计算节点回收到高性能计算资源池中。
5.一种高性能云计算混合计算系统及其方法的资源管理方法,其中所述系统包括高性能计算资源池和云计算资源池,所述高性能计算资源池包括高性能计算调度系统和由其管理的多个计算节点,所述云计算资源池包括云计算管理系统和由其管理的多个计算节点,其特征在于,所述方法包括如下步骤:
S1、在所述高性能计算资源池的每一个计算节点中设置云计算代理服务模块,所述云计算代理服务模块同时与高性能计算调度系统和云计算管理系统连接;
S2、在云计算管理系统监控到云计算资源池的资源不足时,由所述云计算管理系统向高性能计算调度系统发送节点资源申请,并根据高性能计算调度系统通知的空闲的计算节点信息向该空闲的计算节点的云计算代理服务模块发送第一清理命令以由所述云计算代理服务模块清理该空闲的计算节点并将其加入到云计算资源池;
S3、在云计算管理系统监控到云计算资源池的资源冗余时,由所述云计算管理系统释放从高性能计算资源池申请到的一部分计算节点,并向待释放的计算节点的云计算代理服务模块发送第二清理命令以由所述云计算代理服务模块清理待释放的计算节点,然后由所述高性能计算调度系统根据所述云计算代理服务模块清理相应的计算节点后返回的信息将该清理后的计算节点回收到高性能计算资源池。
6.根据权利要求5所述的方法,其特征在于,所述步骤S2进一步包括:
由所述高性能计算调度系统将所述云计算管理系统发送的节点资源申请设置为最高优先级,当出现空闲的计算节点时,锁定该空闲的计算节点,并将该空闲的计算节点信息通知给云计算管理系统。
7.根据权利要求5所述的方法,其特征在于,所述步骤S2中由所述云计算代理服务模块清理该空闲的计算节点进一步包括:
结束所有的高性能计算作业进程;
卸载高性能计算作业使用的分布式文件系统;
设置防火墙策略,设置cgroup资源策略,以禁止高性能计算用户访问该空闲的计算节点;
将该空闲的计算节点从高性能计算环境需要的服务切换到云计算环境需要的服务;
从云计算管理系统获取云计算需要使用的分布式文件系统或存储资源的连接数据,挂载对应的文件系统或存储资源,并将连接信息反馈给云计算管理系统;
创建虚拟交换机,并将该虚拟交换机信息返回给云计算管理系统。
8.根据权利要求5所述的方法,其特征在于,所述步骤S2中通过判断当前云计算资源池中的剩余资源是否小于预设的资源剩余量阈值或判断当前云计算资源池中的剩余资源是否满足资源申请需求来监控资源是否不足。
9.根据权利要求5所述的方法,其特征在于,所述步骤S3中由所述云计算代理服务模块清理待释放的计算节点进一步包括:
卸载云计算使用的分布式文件系统或存储资源;
将该计算节点从云计算环境需要的服务切换到高性能计算环境需要的服务,并在成功后通知云计算管理系统以便云计算管理系统将该计算节点从云计算资源池中删除;
挂载高性能计算需要的分布式文件系统;
设置防火墙和cgroup资源策略,以允许高性能计算用户访问该计算节点;
返回相应的信息给高性能计算调度系统以将该计算节点回收到高性能计算资源池中。
10.根据权利要求5所述的方法,其特征在于,所述步骤S3中由所述云计算管理系统释放从高性能计算资源池申请到的一部分计算节点进一步包括:
由所述云计算管理系统通过统计云计算资源池中的剩余资源来确定可以释放的计算节点数量,并在完全空闲的计算节点的数量不够时,将只有少量虚拟机在运行的计算节点中的虚拟机迁出,直到有足够数量的空闲计算节点。
CN201610291648.8A 2016-05-05 2016-05-05 一种高性能云计算混合计算系统及其方法 Pending CN106020969A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610291648.8A CN106020969A (zh) 2016-05-05 2016-05-05 一种高性能云计算混合计算系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610291648.8A CN106020969A (zh) 2016-05-05 2016-05-05 一种高性能云计算混合计算系统及其方法

Publications (1)

Publication Number Publication Date
CN106020969A true CN106020969A (zh) 2016-10-12

Family

ID=57081103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610291648.8A Pending CN106020969A (zh) 2016-05-05 2016-05-05 一种高性能云计算混合计算系统及其方法

Country Status (1)

Country Link
CN (1) CN106020969A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874084A (zh) * 2017-01-04 2017-06-20 北京百度网讯科技有限公司 一种分布式工作流调度的方法和装置
CN109460293A (zh) * 2018-10-11 2019-03-12 东南大学 无线云计算系统中分布式计算环境下的计算资源选择方法
CN110109757A (zh) * 2019-04-29 2019-08-09 温州职业技术学院 一种基于云计算的高性能计算方法
CN113507441A (zh) * 2021-06-08 2021-10-15 中国联合网络通信集团有限公司 安全资源扩充方法及安全防护管理平台、数据节点
WO2022001295A1 (zh) * 2020-06-30 2022-01-06 中兴通讯股份有限公司 云环境管理方法、云环境管理平台及存储介质
CN114464269A (zh) * 2022-04-07 2022-05-10 国家超级计算天津中心 一种虚拟药物生成方法、装置及计算机设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120054770A1 (en) * 2010-08-31 2012-03-01 International Business Machines Corporation High throughput computing in a hybrid computing environment
CN104216782A (zh) * 2014-08-19 2014-12-17 东南大学 高性能计算和云计算混合环境中的动态资源管理方法
CN105183554A (zh) * 2015-07-31 2015-12-23 国家超级计算深圳中心(深圳云计算中心) 高性能计算与云计算混合计算系统及其资源管理方法
CN105404542A (zh) * 2015-08-14 2016-03-16 国家超级计算深圳中心(深圳云计算中心) 云计算系统及在其上运行高性能计算的方法
CN105426254A (zh) * 2015-12-24 2016-03-23 北京轻元科技有限公司 一种分级别的云计算资源定制方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120054770A1 (en) * 2010-08-31 2012-03-01 International Business Machines Corporation High throughput computing in a hybrid computing environment
CN104216782A (zh) * 2014-08-19 2014-12-17 东南大学 高性能计算和云计算混合环境中的动态资源管理方法
CN105183554A (zh) * 2015-07-31 2015-12-23 国家超级计算深圳中心(深圳云计算中心) 高性能计算与云计算混合计算系统及其资源管理方法
CN105404542A (zh) * 2015-08-14 2016-03-16 国家超级计算深圳中心(深圳云计算中心) 云计算系统及在其上运行高性能计算的方法
CN105426254A (zh) * 2015-12-24 2016-03-23 北京轻元科技有限公司 一种分级别的云计算资源定制方法及系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874084A (zh) * 2017-01-04 2017-06-20 北京百度网讯科技有限公司 一种分布式工作流调度的方法和装置
CN106874084B (zh) * 2017-01-04 2020-04-07 北京百度网讯科技有限公司 一种分布式工作流调度的方法、装置及计算机设备
CN109460293A (zh) * 2018-10-11 2019-03-12 东南大学 无线云计算系统中分布式计算环境下的计算资源选择方法
CN109460293B (zh) * 2018-10-11 2022-01-28 东南大学 无线云计算系统中分布式计算环境下的计算资源选择方法
CN110109757A (zh) * 2019-04-29 2019-08-09 温州职业技术学院 一种基于云计算的高性能计算方法
CN110109757B (zh) * 2019-04-29 2022-11-22 温州职业技术学院 一种基于云计算的高性能计算方法
WO2022001295A1 (zh) * 2020-06-30 2022-01-06 中兴通讯股份有限公司 云环境管理方法、云环境管理平台及存储介质
CN113507441A (zh) * 2021-06-08 2021-10-15 中国联合网络通信集团有限公司 安全资源扩充方法及安全防护管理平台、数据节点
CN114464269A (zh) * 2022-04-07 2022-05-10 国家超级计算天津中心 一种虚拟药物生成方法、装置及计算机设备

Similar Documents

Publication Publication Date Title
CN105183554B (zh) 高性能计算与云计算混合计算系统及其资源管理方法
CN106020969A (zh) 一种高性能云计算混合计算系统及其方法
US8280431B2 (en) Apparatus for end-user transparent utilization of computational, storage, and network capacity of mobile devices, and associated methods
CN103873279B (zh) 一种服务器管理方法,及装置
CN102271145A (zh) 一种虚拟计算机集群及其实施方法
CN103414712B (zh) 一种分布式虚拟桌面管理系统和方法
CN102594861A (zh) 一种多服务器负载均衡的云存储系统
CN103179048B (zh) 云数据中心的主机QoS策略变换方法及系统
CN202565304U (zh) 分布式计算任务调度及执行系统
CN101765225A (zh) 一种虚拟化的集群管理方法和集群节点
CN102341763A (zh) 由扩展为具有场管理服务器功能的平台管控器在本地虚拟机平台层级上在虚拟机场中进行的功率管理
CN103294540B (zh) 一种通过至强融核协处理器提升Erlang虚拟机性能的方法
CN202918339U (zh) 一种基于云计算的运载火箭地面测发控系统
CN103810015A (zh) 虚拟机创建方法和设备
CN104123183B (zh) 集群作业调度方法和装置
CN106559441A (zh) 一种基于云计算服务的虚拟机监控方法、装置及系统
WO2013117079A1 (zh) 一种虚拟机负载均衡方法、管理模块及虚拟机集群系统
CN102096606A (zh) 虚拟机迁移方法、装置和系统
CN105159784B (zh) 一种虚拟服务器的部署方法及系统
CN110046064B (zh) 一种基于故障漂移的云服务器容灾实现方法
CN105653347A (zh) 一种服务器、资源管理方法及虚拟机管理器
CN104809026A (zh) 一种使用远程节点借用cpu计算资源的方法
CN106250210A (zh) 云环境下的虚拟机调度方法
US11513858B2 (en) System for operating and method for arranging nodes thereof
CN105046393A (zh) 基于云计算的交通资源管理系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20161012