CN110874256A - 一种计算集群更新系统、方法及装置 - Google Patents

一种计算集群更新系统、方法及装置 Download PDF

Info

Publication number
CN110874256A
CN110874256A CN201811012760.9A CN201811012760A CN110874256A CN 110874256 A CN110874256 A CN 110874256A CN 201811012760 A CN201811012760 A CN 201811012760A CN 110874256 A CN110874256 A CN 110874256A
Authority
CN
China
Prior art keywords
computing
virtual machine
node
cluster
configuration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811012760.9A
Other languages
English (en)
Other versions
CN110874256B (zh
Inventor
林沐晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811012760.9A priority Critical patent/CN110874256B/zh
Publication of CN110874256A publication Critical patent/CN110874256A/zh
Application granted granted Critical
Publication of CN110874256B publication Critical patent/CN110874256B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45575Starting, stopping, suspending or resuming virtual machine instances
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45595Network integration; Enabling network access in virtual machine instances
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Stored Programmes (AREA)

Abstract

本申请提供了一种计算集群更新系统、方法及装置,包括:管控服务器、计算集群、与公网连接的配置节点;配置节点用于将客户端发送的变配请求转发至管控服务器;管控服务器包括:变配请求接收模块,停用模块,用于控制计算集群停止与旧虚拟机身份信息对应的旧虚拟机;重配置模块,用于基于新虚拟机配置信息,控制计算集群配置新虚拟机。本申请在未增加计算节点数量的基础上,通过变配请求包括旧虚拟机身份信息停止计算集群中对应的旧虚拟机、并通过变配请求包括的新虚拟机配置信息在计算集群中配置新虚拟机,提升了计算集群的处理效率,因为并未通过弹性扩容增加新的计算节点,所以也不存在性能加速比降低的问题。

Description

一种计算集群更新系统、方法及装置
技术领域
本申请涉及信息技术领域,特别是涉及一种计算集群更新系统、方法及装置。
背景技术
云上高性能计算(HPC,High Performance Computing)被世界上很多企业应用到工业生产的各个环节,云上HPC集群立足于虚拟化技术,包括计算虚拟化,存储虚拟化和网络虚拟化等,通过在集群中的计算节点上建立虚拟机,并通过虚拟机对分配至该计算节点上的计算作业进行处理,其中,虚拟机的建立基于实例(Instance),实例包括了该虚拟机的微处理器(CPU,Central Processing Unit)、内存、操作系统、网络、磁盘等最基础的计算组件的规格参数,虚拟机的实例的大小和计算规则不同,其处理作业的效率也不同。
在目前,云上HPC集群能提供多种规格的虚拟机实例,在实际生产时,用户可以预选一种规格的虚拟机实例,该实例对应的虚拟机被建立在一个或多个计算节点上,形成一个计算集群,进行后续该用户的作业的处理,随着生产任务的增加,计算作业量也随之增加,当该计算集群中的处理效率无法满足用户的需求时,用户可以使用弹性扩容的功能去扩展其集群中计算节点的数量,通过增加集群中计算节点的数量,从而增加整个集群的处理效率,例如,用户甲购买了实例1,且用户甲的计算集群中具有1个建立了实例1对应虚拟机的计算节点a,实例1的规格为虚拟机中具有10个虚拟CPU,100GIB(giga binary byte)的内存,在计算作业量增多时,为了保证处理效率,用户甲通过弹性扩容,在集群中增加了1个建立了实例1对应虚拟机的计算节点b,通过计算节点a和计算节点b共同处理作业。
但是,发明人在研究过程中发现:目前方案中,通过弹性扩容增加计算节点的数量,由于多个计算节点叠加处理作业时会产生虚拟开销损耗,因此会产生随着计算节点数量的增加,集群的性能加速比降低的问题,导致集群处理效率较差,例如,假设实例1对应的虚拟机处理一个作业所花的时间为2秒,通过计算节点a和计算节点b共同处理作业,其理想性能加速比为一个节点处理该作业所花的时间/两个节点处理该作业所花的理想时间=2/1=2,而由于虚拟开销损耗的问题,其实际性能加速比=2/1.5=1.33,使得性能加速比的值降低。
发明内容
鉴于上述问题,本申请实施例提供一种计算集群更新方法,本申请通过对已封装好的数据报文进行分析和处理,根据预设的带宽选择条件与带宽占用比例之间的对应关系,将数据报文的头部信息来直接映射对应的目标带宽占用比例,使得数据报文按照目标带宽占用比例进行发送,执行逻辑简单且没有任何协议耦合,可以在硬件层进行实现,不受用户态或软/硬件内核态的约束,因此可以支持并兼容所有的传输协议,在提高了带宽隔离方案的适用范围的同时,使得其能够满足更高性能的隔离需求。
相应的,本申请实施例还提供了一种计算集群更新装置,用以保证上述方法的实现及应用。
为了解决上述问题,本申请实施例公开了一种计算集群更新系统,包括:
管控服务器、计算集群、配置节点;所述配置节点与公网连接;所述管控服务器分别与所述计算集群、所述配置节点连接;
所述配置节点用于接收客户端的变配请求,并将所述变配请求转发至所述管控服务器;
所述管控服务器包括:
变配请求接收模块,用于接收所述配置节点转发的源于客户端的变配请求,所述变配请求包括旧虚拟机身份信息、新虚拟机配置信息;
停用模块,用于控制计算集群停止与所述旧虚拟机身份信息对应的旧虚拟机;
重配置模块,用于基于所述新虚拟机配置信息,控制所述计算集群配置新虚拟机。
相应的,本申请实施例还公开了一种计算集群更新方法,应用于管控服务器,包括:
接收配置节点转发的源于客户端的变配请求,所述变配请求包括旧虚拟机身份信息、新虚拟机配置信息;所述配置节点与公网连接;
控制计算集群停止与所述旧虚拟机身份信息对应的旧虚拟机;
基于所述新虚拟机配置信息,控制所述计算集群配置新虚拟机。
相应的,本申请实施例还公开了一种计算集群更新装置,包括:
接收模块,用于接收配置节点转发的源于客户端的变配请求,所述变配请求包括旧虚拟机身份信息、新虚拟机配置信息;所述配置节点与公网连接;
控制模块,用于控制计算集群停止与所述旧虚拟机身份信息对应的旧虚拟机;
配置模块,用于基于所述新虚拟机配置信息,控制所述计算集群配置新虚拟机。
相应的,本申请实施例还公开了一种装置,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述装置执行一种计算集群更新方法。
相应的,本申请实施例还公开了一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行一种计算集群更新方法。
本申请实施例包括以下优点:
本申请包括:管控服务器、计算集群、与公网连接的配置节点;配置节点用于将客户端发送的变配请求转发至管控服务器;管控服务器包括:变配请求接收模块,停用模块,用于控制计算集群停止与旧虚拟机身份信息对应的旧虚拟机;重配置模块,用于基于新虚拟机配置信息,控制计算集群配置新虚拟机。本申请在未增加计算节点数量的基础上,通过变配请求包括旧虚拟机身份信息停止计算集群中对应的旧虚拟机、并通过变配请求包括的新虚拟机配置信息在计算集群中配置新虚拟机,提升了计算集群的处理效率,因为并未通过弹性扩容增加新的计算节点,所以也不存在性能加速比降低的问题。
附图说明
图1是本申请一实施例提供的一种计算集群更新方法的系统架构图;
图2是本申请一实施例提供的一种基于图1系统机构的计算节点变配处理示意图;
图3是本申请一实施例提供的一种计算集群更新系统的结构框图;
图4是本申请一实施例提供的一种计算集群的结构框图;
图5是本申请一实施例提供的一种停用模块的结构框图;
图6是本申请另一实施例提供的一种管控服务器的结构框图;
图7是本申请一实施例提供的一种重配置模块的结构框图;
图8是本申请一实施例提供的另一种基于图1系统机构的计算节点变配处理示意图;
图9是本申请一实施例提供的一种计算集群更新方法的流程图;
图10是本申请一实施例提供的一种计算集群更新方法的交互图;
图11是本申请一实施例提供的一种计算集群更新装置的结构框图;
图12是本申请另一实施例提供的一种装置的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
参照图1,其示出了本申请实施例的一种系统架构,其至少可以包括:
管控服务器、计算集群、配置节点。
其中,管控服务器、计算集群、配置节点可以部署在云环境中,通过云存储和云数据服务,用户的计算作业可以通过云内网快速传递给计算集群进行分析计算,计算结果可以保存在云存储服务上。另外,高性能的计算集群可以按需创建或释放节点,计算集群中的计算节点可以按需增加或减少,达到按需分配的目的。需要说明的是,可以在云环境中划分出一个管控服务区,用于部署管控服务器,进一步还可以在云环境中设置云管理平台,云管理平台是为内部开发人员或维护人员提供管理计算集群的可视化平台,使得内部开发人员或维护人员可以通过云管理平台,远程对管控服务器进行控制,以达到远程维护计算集群的目的。
配置节点可以与公网连接,使得外部用户可以通过客户端与公网的连接,向配置节点发送变配请求,配置节点可以为独立设置的服务器节点,并且,配置节点也可以部署在该管控服务区中,配置节点相当于为外网用户提供了一个访问管控服务器的中间接口,起到转发变配请求的作用,可以避免用户直接访问内部的管控服务器,造成安全隐患。
另外,配置节点也可以接收管控服务器发送的对应该用户的计算集群状态信息,并由配置节点将该计算集群状态信息转发至用户的客户端,计算集群状态信息包括了计算集群为该用户分配的计算节点的负载状态信息,以及主从计算节点的启用信息等,上述信息可以由管控服务器通过运行在计算集群中各个节点上的调度监控服务获取得到,其中,用户在发送计算作业进行处理时,优选的启用主计算节点进行计算,若主计算节点出现故障,可以进一步启用从计算节点进行作业处理,提高了处理过程的保障性,用户通过对主从节点的启用状态进行监控,可以提高报错效率,另外,用户对各个计算节点的负载状态信息进行监控,可以便于用户进行计算作业量的随时调整,以使得提高计算节点的处理效率。
进一步的,用户也可以从客户端向配置节点发送账号管理请求,使得配置节点将账号管理请求转发至管控服务器后,由管控服务器控制计算集群中相应的账号服务节点进行用户账号的管理操作,如,修改头像、用户名等。
具体的,计算集群包括:调度节点、多个存储节点、多个计算节点、登录节点和账号服务节点。
其中,登陆节点用于接收用户通过客户端提交的计算作业、以及获取用户的用户身份标识(ID,identification),并且在该用户ID通过账号服务节点验证登陆有效的情况下,登陆节点还用于将计算作业发送至调度节点,以供调度节点进行调度。
账号服务节点中存储有用户身份标识与用户业务信息的对应关系,提供了统一的用户账号体系,在用户通过登陆节点登陆时,账号服务节点用于根据登录节点获取到的用户身份标识与对应关系,确定该用户对应的目标用户业务信息,并在目标用户业务信息符合预设条件的情况下,通知登录节点将计算作业发送至调度节点。用户业务信息与用户ID相关联,且用户业务信息可以包括该用户与业务相关的数据,如购买记录、用户权限信息等,通过用户业务信息,可以确定该用户是否具有使用计算集群,或进行变配操作的权限。
调度节点负责将计算作业进一步调度到具体的计算节点上进行计算,通常,调度节点可以采用负载均衡规则为计算作业分配对应的计算节点,具体为通过各个计算节点中的调度监控服务,监测各个计算节点的负载值,并通过负载均衡规则,选取负载满足条件的计算节点进行作业计算。
计算节点主要承担整个HPC计算集群的计算任务,对调度至其中的计算作业进行计算,在本申请实施例中,云上HPC计算集群立足于虚拟化技术,具体通过在计算集群中的计算节点上建立不同规格的虚拟机,并通过虚拟机对分配至该计算节点上的计算作业进行处理,其中,虚拟机的建立基于实例(Instance),实例相当于虚拟机的配置信息,实例包括了该虚拟机的CPU、内存、操作系统、网络、磁盘等最基础的计算组件的规格参数,虚拟机的实例的大小和计算规则不同,其对应计算节点处理作业的效率也不同,另外,实例的大小不会超过其对应计算节点的硬件规格上限。
需要说明的是,计算节点按照硬件设备的不同,具有多种分类,计算节点的硬件类型通常有CPU芯片式、DSP(数字信号处理,DigitalSignalProcessing)芯片式、GPU(图形处理器,GraphicsProcessingUnit)芯片式、ASIC(集成电路,ApplicationSpecificIntegratedCircuit)式、协处理器式、FPGA(现场可编程门阵列,Field-ProgrammableGateArray)芯片式等,不同硬件类型的计算节点的计算规则和应用场景不同,例如,GPU芯片式计算节点在处理图像渲染相关的计算作业时,效率较高,因此,基于用户的计算作业的类型,用户还可以通过指定虚拟机的计算规则信息,从而在对应该计算规则的计算节点上建立虚拟机。
进一步的,在云上HPC的业务模式中,通常可以提供给用户多种实例规格进行选择,用户可以根据自己的经济实力和实际需求,购买相应的实例规格,以使得可以在具体的计算节点上按照该实例规格建立相应的虚拟机,通过至少一个运行有对应虚拟机的计算节点,构成该用户的计算集群。
例如,假设一个计算节点,其硬件规格为10个cpu,100GIB的内存,有甲乙两个用户,都买了同一个实例xlarge,xlarge具体为给用户分配1个虚拟cpu、10gib的内存用于作业计算,进一步假设这个计算节点只有甲乙两人在用,那么甲和乙分别按照实例xlarge,在该计算节点上建立了对应的虚拟机,此时等于甲乙每个人都占用了计算节点的十分之一的硬件资源进行作业计算。
存储节点用于为计算节点提供计算作业时所需的数据集,存储节点中包括网络附属存储(NAS,Network Attached Storage)和对象存储,NAS是连接在网络上具备资料存储功能的装置,因此也称为“网络存储器”,将存储设备与服务器彻底分离,集中管理数据,从而释放带宽、提高性能,对象存储是无层次结构的数据存储方法,通常用于云环境中,不同于其他数据存储方法,基于对象的存储不使用目录树,而是将各个单独的数据(对象)单元存在于存储池中的同一级别,每个对象都有唯一的识别名称,供应用进行检索。因此,存储节点具有适用性较强的有益效果,能够满足云环境中数据的共享和分类存储的需求。
在本申请实施例中,随着用户生产任务的增加,其计算作业量也随之增加,当用户的计算集群的处理效率无法满足用户的需求时,用户还可以通过客户端向配置节点发送变配请求,并在管控服务器接收到配置节点转发的变配请求时,控制计算集群按照变配请求中包括的旧虚拟机身份信息和新虚拟机配置信息,停止旧虚拟机,并建立对应新虚拟机配置信息的新虚拟机。通常,新虚拟机的新虚拟机配置规格通常要大于旧虚拟机的旧虚拟机配置规格,以起到配置升级的效果,从而提升该用户的计算集群的处理效率,解决了现有技术中通过弹性扩容增加计算节点的数量,而导致随着计算节点数量的增多,性能加速比降低的问题。
例如,参照图1,用户A在计算节点1和计算节点n中建立有虚拟机配置1对应的虚拟机1,假设虚拟机配置1为给用户A分配1个虚拟cpu、10gib的内存用于作业计算,但随着计算作业量的增加,现有虚拟机的配置无法满足用户A的需求,因此,用户A可以通过发送变配请求,并在变配请求中附加虚拟机2对应的虚拟机配置2,假设虚拟机配置2为给用户A分配2个虚拟cpu、20gib的内存用于作业计算,此时,计算集群可以将计算节点1和计算节点n中用户A对应的虚拟机1进行停止,而根据虚拟机配置2,在计算节点1和计算节点n中建立对应的虚拟机2,由于虚拟机配置2的规格要大于原有虚拟机配置1的规格,使得计算节点1和计算节点n分配给用户A用于计算作业的硬件资源增加,因此用户A在未增加计算节点数量的基础上,提升了其计算集群的处理效率,因为计算节点的数量并未改变,所以也不存在性能加速比降低的问题。
具体的,参照图1,管控服务器还包括:变配请求接收模块、停用模块、重配置模块。
变配请求接收模块,用于接收配置节点转发的源于客户端的变配请求,变配请求包括旧虚拟机身份信息、新虚拟机配置信息,另外,在实际应用中,变配请求还可以包括用户ID,用户ID用于将不同用户之间进行业务隔离,避免在进行变配处理时,影响到其他用户的正常工作。
停用模块,用于控制计算集群停止与旧虚拟机身份信息对应的旧虚拟机,由于在HPC计算集群的业务模式中,用户若要建立新的虚拟机,则其首先要将旧虚拟机进行停止,避免造成业务冲突。
重配置模块,用于基于新虚拟机配置信息,控制计算集群配置新虚拟机。
参照图2,其示出了本申请实施例的一种基于图1系统机构的计算节点变配处理示意图,若用户A想将其旧虚拟机1变配为新虚拟机2,则以计算节点1为例进行说明,停用模块首先控制计算集群停止计算节点1中与旧虚拟机1身份信息对应的旧虚拟机1,并进一步通过重配置模块,基于新虚拟机2配置信息,控制计算集群在计算节点1上配置新虚拟机2,另一运行有用户A的旧虚拟机1的计算节点n的变配操作具体实现过程同理。
本申请包括:管控服务器、计算集群、配置节点;配置节点与公网连接;配置节点用于接收客户端的变配请求,并将变配请求转发至管控服务器;管控服务器包括:变配请求接收模块,用于接收配置节点转发的源于客户端的变配请求,变配请求包括旧虚拟机身份信息、新虚拟机配置信息;停用模块,用于控制计算集群停止与旧虚拟机身份信息对应的旧虚拟机;重配置模块,用于基于新虚拟机配置信息,控制计算集群配置新虚拟机。本申请在未增加计算节点数量的基础上,通过变配请求包括旧虚拟机身份信息停止计算集群中对应的旧虚拟机、并通过新虚拟机配置信息在计算集群中配置新虚拟机,提升了计算集群的处理效率,因为并未通过弹性扩容增加新的计算节点,所以也不存在性能加速比降低的问题。
参照图3,示出了本申请提供的一种计算集群更新系统的结构框图,具体可以包括:
管控服务器20、计算集群30、配置节点10;配置节点10与公网连接;管控服务器20分别与计算集群30、配置节点10连接。
具体的,配置节点用10于接收客户端的变配请求,并将变配请求转发至管控服务器20;管控服务器20包括:变配请求接收模块201,用于接收配置节点10转发的源于客户端的变配请求,变配请求包括旧虚拟机身份信息、新虚拟机配置信息;停用模块202,用于控制计算集群30停止与旧虚拟机身份信息对应的旧虚拟机;重配置模块203,用于基于新虚拟机配置信息,控制计算集群配置新虚拟机。
在本申请实施例中,随着用户生产任务的增加,其计算作业量也随之增加,当用户的计算集群的处理效率无法满足用户的需求时,用户还可以在不增加计算节点的基础上,将其计算集群中原有的计算效率较差的旧虚拟机更新为计算效率更高的新虚拟机,在节省成本的前提下提升了计算集群的处理效率,同时还解决了现有技术中通过弹性扩容增加计算节点的数量,而导致随着计算节点数量的增多,性能加速比降低的问题。
需要说明的是,随着用户生产任务的减少,当用户的计算集群处理作业时仅占用较小部分的虚拟机资源,造成资源浪费时,用户还可以将其计算集群中原有的计算效率较高的旧虚拟机更新为计算效率较低的新虚拟机,通过降低虚拟机的配置,避免造成额外的浪费,可以进一步降低成本。
进一步的,停用模块用于控制计算集群停止与旧虚拟机身份信息对应的旧虚拟机,由于在HPC计算集群的业务模式中,用户若要建立新的虚拟机,则其首先要将旧虚拟机进行停止,避免造成业务冲突。重配置模块则用于基于新虚拟机配置信息,调用虚拟机创建接口,控制计算集群在对应的计算节点上配置新虚拟机。
需要说明的是,计算集群中的各个节点上都运行有集群管控代理进程,使得管控服务器可以通过对集群管控代理进程发送相关控制指令,对各个节点进行管理,管控服务器的停止模块控制计算集群停止与旧虚拟机身份信息对应的旧虚拟机,其具体的实现包括,停止模块向计算集群的调度节点中运行的集群管控代理进程发送相应的控制指令,使得调度节点将运行有旧虚拟机的计算节点移出集群进行旧虚拟机的停止。
现通过一个具体示例对本申请解决现有技术中通过弹性扩容增加计算节点的数量,而导致性能加速比降低的问题进行说明。
例如,用户甲购买了实例1,且用户甲的计算集群中具有1个建立了实例1对应虚拟机1的计算节点a,实例1的规格为虚拟机中具有10个虚拟CPU,100GIB的内存,在计算作业量增多时,为了保证处理效率,现有技术中的做法是,用户甲通过弹性扩容,在集群中增加了1个建立了实例1对应虚拟机1的计算节点b,通过计算节点a和计算节点b共同处理作业。假设实例1对应的虚拟机处理一个作业所花的时间为2秒,通过计算节点a和计算节点b共同处理作业,其理想性能加速比为一个节点处理该作业所花的时间/两个节点处理该作业所花的理想时间=2/1=2,而由于虚拟开销损耗的问题,其实际性能加速比=2/1.5=1.33,使得性能加速比的值降低。
而在本申请实施例中,不用去增加新的计算节点b,而是将计算节点a中实例1对应的虚拟机1更新为实例2对应虚拟机2,实例2的规格为虚拟机中具有20个虚拟CPU,200GIB的内存,其处理效率为示例1的两倍,由于未增加新的计算节点,所以不存在多个计算节点叠加处理作业时会产生虚拟开销损耗的问题,因此其实际性能加速比=一个节点处理该作业所花的时间/两个节点处理该作业所花的实际时间=2/1=2。
需要说明的是,性能加速比的提升速度会随着计算节点数量的增加而降低,当计算节点的数量增加到一定数量时,性能加速比的提升会变得微乎其微。因此,本申请中,由于未在计算集群中增加新的计算节点,所以不存在多个计算节点叠加处理作业时会产生性能加速比降低的问题。
综上所述,本申请实施例提供的一种计算集群更新系统,包括:管控服务器、计算集群、配置节点;配置节点与公网连接;配置节点用于接收客户端的变配请求,并将变配请求转发至管控服务器;管控服务器包括:变配请求接收模块,用于接收配置节点转发的源于客户端的变配请求,变配请求包括旧虚拟机身份信息、新虚拟机配置信息;停用模块,用于控制计算集群停止与旧虚拟机身份信息对应的旧虚拟机;重配置模块,用于基于新虚拟机配置信息,控制计算集群配置新虚拟机。本申请在未增加计算节点数量的基础上,通过变配请求包括旧虚拟机身份信息停止计算集群中对应的旧虚拟机、并通过新虚拟机配置信息在计算集群中配置新虚拟机,提升了计算集群的处理效率,因为并未通过弹性扩容增加新的计算节点,所以也不存在性能加速比降低的问题。
可选的,参照图4,示出了本申请提供的一种计算集群的结构框图,具体可以包括:调度节点301、存储节点303和至少一个计算节点302。
调度节点301用于将获取到的计算作业调度至计算节点302;调度节点301负责将计算作业进一步调度到具体的计算节点302上进行计算,通常,调度节点301可以采用负载均衡规则为计算作业分配对应的计算节点302,具体为通过各个计算节点302中的调度监控服务,监测各个计算节点的负载值,并通过负载均衡规则,选取负载满足条件的计算节点302进行作业计算。
计算节点302用于对计算作业进行计算处理;计算节点302主要承担整个HPC计算集群的计算任务,对调度至其中的计算作业进行计算。
存储节点303用于向计算节点302提供计算数据。
可选的,参照图4,计算集群30还可以包括登录节点304和账号服务节点305。
登录节点304用于获取计算作业和用户身份标识,以及获取用户的用户ID,并且在该用户ID通过账号服务节点305验证登陆有效的情况下,登陆节点304还用于将计算作业发送至调度节点301,以供调度节点301进行调度。
账号服务节点305中存储有用户身份标识与用户业务信息的对应关系;账号服务节点305还用于根据登录节点获取到的用户身份标识与对应关系,确定对应的目标用户业务信息,并在目标用户业务信息符合预设条件的情况下,通知登录节点304将计算作业发送至调度节点301。
在本申请实施例中,账号服务节点305中存储有用户身份标识与用户业务信息的对应关系,提供了统一的用户账号体系,在用户通过登陆节点304登陆时,账号服务节点305用于根据登录节点304获取到的用户身份标识与对应关系,确定该用户对应的目标用户业务信息,并在目标用户业务信息符合预设条件的情况下,通知登录节点304将计算作业发送至调度节点301。用户业务信息与用户ID相关联,且用户业务信息可以包括该用户与业务相关的数据,如购买记录、用户权限信息等,通过用户业务信息,可以确定该用户是否具有使用计算集群,或进行变配操作的权限。
可选的,参照图5,示出了本申请提供的一种停用模块的结构框图,停用模块202具体可以包括:
第一确定子模块2021、停用子模块2022和第一调度子模块2023。
第一确定子模块2021,用于根据旧虚拟机身份信息,确定运行于旧虚拟机身份信息对应的旧虚拟机所在的第一计算节点。
在本申请实施例中,变配请求中包括旧虚拟机身份信息,即旧虚拟机的ID,第一确定子模块2021可以通过旧虚拟机ID,确定运行于旧虚拟机ID对应的旧虚拟机所在的第一计算节点,参照图1中的系统架构,假设用户A想将其当前的旧虚拟机1更新为新虚拟机2,则虚拟机1可以为变配请求中包括的旧虚拟机身份信息,则对应的第一计算节点可以为计算节点1和计算节点n这两个节点。
停用子模块2022,用于控制计算集群停止第一计算节点上当前运行的作业。
在本申请中,对计算节点上的虚拟机进行更新,首先需要该计算节点的虚拟机上未运行有作业,否则无法对旧虚拟机进行撤销,因此,当该计算节点的虚拟机上运行有作业时,需要通过停用子模块2022控制计算集群停止第一计算节点上当前运行的作业。
第一调度子模块2023,用于控制计算集群将第一计算节点移出计算集群。
具体的,当第一计算节点上运行的作业停止时,为了避免后续的作业被调度到第一计算节点上,可以通过第一调度子模块2023控制计算集群将第一计算节点移出计算集群,使得后续的作业被调度至其他计算节点进行计算。
停用子模块2022,用于调用虚拟机停止接口,停止第一计算节点中与旧虚拟机身份信息对应的旧虚拟机。
在第一计算节点被移出计算集群后,则可以通过停用子模块2022调用虚拟机停止接口,停止第一计算节点中与旧虚拟机身份信息对应的旧虚拟机,以供后续进行新虚拟机的配置。
具体的,在本申请实施例中,目前的云HPC计算集群中,会基于KVM(一个开源的系统虚拟化模块)或者Xen(一个开放源代码虚拟机监视器)等虚拟化监视器软件在计算节点上模拟客户虚拟机,并提供给客户虚拟机的生命周期的管理,这些功能都也可以通过应用程序编程接口(API,Application Programming Interface)的方式给服务调用者使用。因此,停用子模块2022可以通过API的方式调用调用虚拟机停止接口,停止第一计算节点中与旧虚拟机身份信息对应的旧虚拟机。
需要说明的是,由于在一些情况下,用于配置新虚拟机的计算节点可以不是第一计算节点,但是此时也需要将第一计算节点中的旧虚拟进行停止,以避免用户同时拥有两种规格的虚拟机,造成业务冲突。
可选的,参照图6,示出了本申请提供的一种管控服务器的结构框图,管控服务器20还可以包括:
镜像生成模块204,用于控制所述计算集群生成与所述旧虚拟机身份信息对应的旧虚拟机对应的镜像文件。
在本申请实施例中,目前的云HPC计算集群中,会基于KVM或者Xen等虚拟化监视器软件模拟客户虚拟机,进一步提供给用户进行制作镜像的功能,该功能都也可以通过API的方式给服务调用者使用,则镜像生成模块204可以通过调用镜像文件生成接口,控制所述计算集群生成与所述旧虚拟机身份信息对应的旧虚拟机对应的镜像文件。
其中,生成旧虚拟机对应的镜像文件,其目的是以便用户以后想要恢复原有旧虚拟机时,可以利用镜像文件进行恢复。
可选的,参照图7,示出了本申请提供的一种重配置模块的结构框图,重配置模块203可以包括:
还原子模块2031,用于控制所述计算集群通过所述镜像文件,配置与所述旧虚拟机的软件环境相同的新虚拟机。同样的,在本申请实施例中,还原子模块2031通过创建虚拟机接口,控制所述计算集群通过所述镜像文件,配置与所述旧虚拟机的软件环境相同的新虚拟机。
可选的,参照图7,重配置模块203还包括:
第一配置子模块2032、选取子模块2033、第二配置子模块2034。
第一配置子模块2032,用于若第一计算节点的当前负载值小于预设阈值,则基于新虚拟机配置信息,在第一计算节点上配置新虚拟机,并控制计算集群将第一计算节点添加进计算集群。
在本申请实施例中,在计算节点上配置新的虚拟机,还需要该计算节点的当前负载值能够满足新虚拟机的建立。
假设,对于第一计算节点,这个节点的规格为10个cpu,100GIB的内存,有甲乙两个用户,都买了同一个实例xlarge,xlarge具体为给用户分配1个虚拟cpu、10gib的内存用于作业计算.
若这个第一计算节点只有甲乙两人在用,那么就等于甲乙每个人都占用了第一计算节点的十分之一的硬件,此时第一计算节点还有十分之八的空闲硬件资源,因此此时第一计算节点的当前负载值小于预设阈值,则第一配置子模块2032可以基于新虚拟机配置信息,在第一计算节点上配置新虚拟机,并控制计算集群将第一计算节点添加进计算集群。
选取子模块2033,用于若第一计算节点的当前负载值大于或等于预设阈值,则在计算集群中选取一当前负载值小于预设阈值的第二计算节点。
在第一计算节点的负载大于或等于预设阈值时,此时表达的意思是第一计算节点的硬件资源都分配给其他用户的虚拟机了,没有足够的硬件资源去支撑该用户新虚拟机的建立,此时可以通过选取子模块2033,在计算集群中选取一当前负载值小于预设阈值的第二计算节点进行新虚拟机的建立。
第二配置子模块2034,用于基于新虚拟机配置信息,控制计算集群在第二计算节点上配置新虚拟机。
假设,对于第一计算节点,这个节点的规格为10个cpu,100GIB的内存,甲买了实例xlarge,xlarge具体为给用户分配1个虚拟cpu、10gib的内存用于作业计算,乙买了实例8xlarge,8xlarge具体为给用户分配8个虚拟cpu、80gib的内存用于作业计算
若这个第一计算节点只有甲乙两人在用,且甲想将实例xlarge升级为实例2xlarge,2xlarge具体为给用户分配2个虚拟cpu、20gib的内存用于作业计算,但是此时第一计算节点的剩余负载不足以支持实例2xlarge对应的虚拟机的建立,则此时可以选取计算集群中剩余负载能够支持实例2xlarge对应的虚拟机的建立的第二计算节点,在第二计算节点上建立实例2xlarge对应的虚拟机。
可选的,第二配置子模块2034,包括:
停止单元、调度单元、配置单元。
停止单元,用于控制计算集群停止第二计算节点上当前运行的作业。调度单元,用于控制计算集群将第二计算节点移出计算集群。配置单元,用于基于新虚拟机配置信息,控制计算集群在第二计算节点上配置新虚拟机。调度单元,用于控制计算集群将配置了新虚拟机的第二计算节点添加进计算集群。
在本申请实施例中,在第二计算节点上建立新虚拟机,同样需要先将第二计算节点上的作业进行停止,并进一步将第二计算节点移出计算集群,移除后再在第二计算节点上建立新虚拟机,其具体实现过程可以参照上述在第一计算节点建立新虚拟机的具体描述,此处不再赘述。
可选的,参照图7,重配置模块203还包括:
第一提供子模块2035,第三配置子模块2036、第二调度子模块2037。
第一提供子模块2035,用于若计算集群中所有的计算节点的当前负载值都大于或等于预设阈值,则控制所述计算集群提供新的第三计算节点。
在本申请实施例中,若计算集群中所有的计算节点的当前负载值都大于或等于预设阈值,则控制所述计算集群提供新的第三计算节点,该新的第三计算节点为未上线,且未通过调度节点添加至计算集群中的节点,其底层的实现过程即是在部署计算节点硬件的机房中,选择一未开机的第三计算节点进行开机,此时第三计算节点中未运行有任何计算作业,也未建立有任何用户的虚拟机。
第三配置子模块2036,用于基于新虚拟机配置信息在第三计算节点上配置新虚拟机。
由于第三计算节点中未运行有任何计算作业,也未建立有任何用户的虚拟机,因此,第三计算节点的负载完全可以满足新虚拟机的建立。
第二调度子模块2037,用于控制计算集群将第三计算节点添加进计算集群。
在第三计算节点中建立有新虚拟机后,可以通过调度节点将第三计算节点添加进计算集群,使得后续的作业可以被调度至该第三计算节点进行处理。
可选的,变配请求还包括:新虚拟机计算规则信息,参照图7,重配置模块203还包括:
第二确定子模块2038,第四配置子模块2039、第三调度子模块20310。
在本申请实施例中,计算节点按照硬件设备的不同,具有多种分类,计算节点的硬件类型通常有CPU芯片式、DSP芯片式、GPU芯片式、ASIC式、协处理器式、FPGA芯片式等,不同硬件类型的计算节点的计算规则和应用场景不同,例如,GPU芯片式计算节点在处理图像渲染相关的计算作业时,效率较高,因此,基于用户的计算作业的类型,用户还可以通过指定虚拟机的计算规则信息,从而在对应该计算规则的计算节点上建立虚拟机。
第二确定子模块2038,用于确定计算集群中与新虚拟机计算规则信息匹配,且当前负载值小于预设阈值的第四计算节点。
参照图1,假设用户A想要将其cpu计算规则的旧虚拟机1更新为gpu计算规则的新虚拟机3,则可以在计算集群中选取一个与gpu计算规则信息匹配,且当前负载值小于预设阈值的计算节点2作为第四计算节点。
第四配置子模块2039,用于基于新虚拟机配置信息,控制计算集群在第四计算节点中配置新虚拟机。
进一步的,同样参照图1,对于作为第四计算节点的gpu计算节点2,可以控制计算集群在第四计算节点中配置新虚拟机3。
第三调度子模块20310,用于控制计算集群将第四计算节点添加进计算集群。
参照图8,其示出了本申请实施例的另一种基于图1系统机构的计算节点变配处理示意图,用户A将cpu计算规则的旧虚拟机1更新为gpu计算规则的新虚拟机3的具体实现包括:首先将用户A运行有旧虚拟机1的计算节点1和计算节点n中的旧虚拟机1进行停止,之后,在与gpu计算规则对应的计算节点2中建立新虚拟机3。
在与gpu计算规则对应的计算节点2中建立新虚拟机3之后,用户A之后的图像渲染的作业则可以调度计算节点2中,由新虚拟机3进行处理,而现有技术弹性扩容只考虑扩容的节点的负载,不考虑其是Cpu硬件、gpu硬件还是其他计算规则的硬件,因此还存在扩容的节点的处理规则不与对应的作业匹配的问题,造成异构计算效率较差。
因此,本申请实施例是通过确定计算集群中与新虚拟机计算规则信息匹配,且当前负载值小于预设阈值的第四计算节点,在第四计算节点建立与新虚拟机计算规则信息对应的新虚拟机,使得后续对应计算规则的计算作业可以被高速处理,提高了异构计算效率。
可选的,参照图7,重配置模块203还包括:
第二提供子模块20311、第五配置子模块20312,第四调度子模块20313.
第二提供子模块20311,用于若计算集群中不包括与新虚拟机计算规则信息匹配的计算节点,则提供与新虚拟机计算规则信息匹配的新的第五计算节点;第五配置子模块20312,用于基于新虚拟机配置信息,在第五计算节点上配置新虚拟机;第四调度子模块20313,用于控制计算集群将第五计算节点添加进计算集群。
在本申请实施例中,若计算集群中所有的计算节点的计算规则都不与新虚拟机计算规则信息匹配,则提供提供与新虚拟机计算规则信息匹配的新的第五计算节点,该新的第五计算节点为未上线,且未通过调度节点添加至计算集群中的节点,其底层的实现过程即是在部署计算节点硬件的机房中,选择一未开机的与新虚拟机计算规则信息匹配的第五计算节点进行开机,此时第五计算节点中未运行有任何计算作业,也未建立有任何用户的虚拟机。在第五计算节点中建立有新虚拟机后,可以通过调度节点将第五计算节点添加进计算集群,使得后续对应新虚拟机计算规则信息的计算作业可以被调度至该第五计算节点进行处理。
综上所述,本申请实施例提供的一种计算集群更新系统,包括:管控服务器、计算集群、配置节点;配置节点与公网连接;配置节点用于接收客户端的变配请求,并将变配请求转发至管控服务器;管控服务器包括:变配请求接收模块,用于接收配置节点转发的源于客户端的变配请求,变配请求包括旧虚拟机身份信息、新虚拟机配置信息;停用模块,用于控制计算集群停止与旧虚拟机身份信息对应的旧虚拟机;重配置模块,用于基于新虚拟机配置信息,控制计算集群配置新虚拟机。本申请在未增加计算节点数量的基础上,通过变配请求包括旧虚拟机身份信息停止计算集群中对应的旧虚拟机、并通过新虚拟机配置信息在计算集群中配置新虚拟机,提升了计算集群的处理效率,因为并未通过弹性扩容增加新的计算节点,所以也不存在性能加速比降低的问题,并且在选取建立新虚拟机的计算节点时,将当前负载值小于预设阈值的计算节点进行选取,并在变配请求中包括新虚拟机计算规则信息时,将当前负载值小于预设阈值,且与新虚拟机计算规则匹配的计算节点进行选取,提高了计算集群异构计算的效率。
参照图9,示出了本申请提供的一种计算集群更新方法的流程图,所述方法应用于管控服务器,具体可以包括:
步骤401,接收配置节点转发的源于客户端的变配请求,所述变配请求包括旧虚拟机身份信息、新虚拟机配置信息;所述配置节点与公网连接。
在本申请实施例中,配置节点可以与公网连接,使得外部用户可以通过客户端与公网的连接,向配置节点发送变配请求,配置节点可以为独立设置的服务器节点,并且,配置节点也可以部署在该管控服务区中,配置节点相当于为外网用户提供了一个访问管控服务器的中间接口,起到转发变配请求的作用,可以避免用户直接访问内部的管控服务器,造成安全隐患。
步骤402,控制计算集群停止与所述旧虚拟机身份信息对应的旧虚拟机。
在该步骤中,管控服务器控制计算集群停止与旧虚拟机身份信息对应的旧虚拟机,由于在HPC计算集群的业务模式中,用户若要建立新的虚拟机,则其首先要将旧虚拟机进行停止,避免造成业务冲突。
步骤403,基于所述新虚拟机配置信息,控制所述计算集群配置新虚拟机。
在本申请实施例中,不用去增加新的计算节点,而是将已有的用户计算节点中处理效率较低的旧虚拟机更新为处理效率更高的新虚拟机,通常,新虚拟机的新虚拟机配置规格通常要大于旧虚拟机的旧虚拟机配置规格,以起到配置升级的效果,从而提升该用户的计算集群的处理效率,解决了现有技术中通过弹性扩容增加计算节点的数量,而导致随着计算节点数量的增多,性能加速比降低的问题。
需要说明的是,性能加速比的提升速度会随着计算节点数量的增加而降低,当计算节点的数量增加到一定数量时,性能加速比的提升会变得微乎其微。因此,本申请中,由于未在计算集群中增加新的计算节点,所以不存在多个计算节点叠加处理作业时会产生性能加速比降低的问题。
综上所述,本申请实施例提供的一种计算集群更新方法,包括:接收配置节点转发的源于客户端的变配请求,变配请求包括旧虚拟机身份信息、新虚拟机配置信息;配置节点与公网连接;控制计算集群停止与旧虚拟机身份信息对应的旧虚拟机;基于新虚拟机配置信息,控制计算集群配置新虚拟机。本申请在未增加计算节点数量的基础上,通过变配请求包括旧虚拟机身份信息停止计算集群中对应的旧虚拟机、并通过变配请求包括的新虚拟机配置信息在计算集群中配置新虚拟机,提升了计算集群的处理效率,因为并未通过弹性扩容增加新的计算节点,所以也不存在性能加速比降低的问题。
参照图10,示出了本申请提供的一种计算集群更新方法的步骤交互图,具体可以包括如下步骤:
步骤501,客户端向配置节点发送变配请求,所述变配请求包括旧虚拟机身份信息、新虚拟机配置信息;所述配置节点与公网连接。
在该步骤中,配置节点可以与公网连接,使得外部用户可以通过客户端与公网的连接,向配置节点发送变配请求。
步骤502,配置节点将接收到的变配请求发送至管控服务器。
在该步骤中,配置节点相当于为外网用户提供了一个访问管控服务器的中间接口,起到转发变配请求的作用,可以避免用户直接访问内部的管控服务器,造成安全隐患,具体的配置节点可以通过相应的开放接口或中间件,将变配请求发送至管控服务器。
步骤503,管控服务器接收配置节点转发的源于客户端的变配请求。
步骤504,管控服务器控制计算集群停止与所述旧虚拟机身份信息对应的旧虚拟机。
在该步骤中,管控服务器控制计算集群停止与旧虚拟机身份信息对应的旧虚拟机,由于在HPC计算集群的业务模式中,用户若要建立新的虚拟机,则其首先要将旧虚拟机进行停止,避免造成业务冲突。
可选的,步骤504可以包括:
子步骤5041,管控服务器根据所述旧虚拟机身份信息,确定运行于所述旧虚拟机身份信息对应的旧虚拟机所在的第一计算节点。
在本申请实施例中,变配请求中包括旧虚拟机身份信息,即旧虚拟机的ID,管控服务器可以通过旧虚拟机ID,确定运行于旧虚拟机ID对应的旧虚拟机所在的第一计算节点,参照图1中的系统架构,假设用户A想将其当前的旧虚拟机1更新为新虚拟机2,则虚拟机1可以为变配请求中包括的旧虚拟机身份信息,则对应的第一计算节点可以为计算节点1和计算节点n这两个节点。
子步骤5042,管控服务器控制所述计算集群停止所述第一计算节点上当前运行的作业;
在本申请中,对计算节点上的虚拟机进行更新,首先需要该计算节点的虚拟机上未运行有作业,否则无法对旧虚拟机进行撤销,因此,当该计算节点的虚拟机上运行有作业时,需要通过管控服务器控制计算集群停止第一计算节点上当前运行的作业。
子步骤5043,管控服务器控制所述计算集群将所述第一计算节点移出所述计算集群。
具体的,当第一计算节点上运行的作业停止时,为了避免后续的作业被调度到第一计算节点上,可以通过管控服务器控制计算集群将第一计算节点移出计算集群,使得后续的作业被调度至其他计算节点进行计算。
子步骤5044,管控服务器调用虚拟机停止接口,停止所述第一计算节点中与所述旧虚拟机身份信息对应的旧虚拟机。
在第一计算节点被移出计算集群后,则可以通过管控服务器调用虚拟机停止接口,停止第一计算节点中与旧虚拟机身份信息对应的旧虚拟机,以供后续进行新虚拟机的配置。
步骤505,计算集群停止与所述旧虚拟机身份信息对应的旧虚拟机。
步骤506,在停止与所述旧虚拟机身份信息对应的旧虚拟机之后,计算集群向管控服务器返回停止成功消息。
在停止与所述旧虚拟机身份信息对应的旧虚拟机之后,计算集群向管控服务器返回停止成功消息,使得管控服务器根据停止成功消息,控制计算集群将后续的作业调度至其他计算节点进行计算。
步骤507,管控服务器基于所述新虚拟机配置信息,控制所述计算集群配置新虚拟机。
在本申请实施例中,不用去增加新的计算节点,而是将已有的用户计算节点中处理效率较低的旧虚拟机更新为处理效率更高的新虚拟机,通常,新虚拟机的新虚拟机配置规格通常要大于旧虚拟机的旧虚拟机配置规格,以起到配置升级的效果,从而提升该用户的计算集群的处理效率,解决了现有技术中通过弹性扩容增加计算节点的数量,而导致随着计算节点数量的增多,性能加速比降低的问题。
可选的,在本申请的一种具体实现方式中,步骤507可以包括:
子步骤5071,若所述第一计算节点的当前负载值小于预设阈值,则基于所述新虚拟机配置信息,管控服务器控制所述计算集群在所述第一计算节点上配置新虚拟机,并控制所述计算集群将所述第一计算节点添加进所述计算集群。
在本申请实施例中,在计算节点上配置新的虚拟机,还需要该计算节点的当前负载值能够满足新虚拟机的建立。
假设,对于第一计算节点,这个节点的规格为10个cpu,100GIB的内存,有甲乙两个用户,都买了同一个实例xlarge,xlarge具体为给用户分配1个虚拟cpu、10gib的内存用于作业计算.
若这个第一计算节点只有甲乙两人在用,那么就等于甲乙每个人都占用了第一计算节点的十分之一的硬件,此时第一计算节点还有十分之八的空闲硬件资源,因此此时第一计算节点的当前负载值小于预设阈值,则第一配置子模块2032可以基于新虚拟机配置信息,在第一计算节点上配置新虚拟机,并控制计算集群将第一计算节点添加进计算集群。
子步骤5072,若所述第一计算节点的当前负载值大于或等于预设阈值,则管控服务器在所述计算集群中选取一当前负载值小于预设阈值的第二计算节点。
在第一计算节点的负载大于或等于预设阈值时,此时表达的意思是第一计算节点的硬件资源都分配给其他用户的虚拟机了,没有足够的硬件资源去支撑该用户新虚拟机的建立,此时可以通过管控服务器,在计算集群中选取一当前负载值小于预设阈值的第二计算节点进行新虚拟机的建立。
子步骤5073,基于所述新虚拟机配置信息,管控服务器控制所述计算集群在所述第二计算节点上配置新虚拟机。
假设,对于第一计算节点,这个节点的规格为10个cpu,100GIB的内存,甲买了实例xlarge,xlarge具体为给用户分配1个虚拟cpu、10gib的内存用于作业计算,乙买了实例8xlarge,8xlarge具体为给用户分配8个虚拟cpu、80gib的内存用于作业计算
若这个第一计算节点只有甲乙两人在用,且甲想将实例xlarge升级为实例2xlarge,2xlarge具体为给用户分配2个虚拟cpu、20gib的内存用于作业计算,但是此时第一计算节点的剩余负载不足以支持实例2xlarge对应的虚拟机的建立,则此时可以选取计算集群中剩余负载能够支持实例2xlarge对应的虚拟机的建立的第二计算节点,在第二计算节点上建立实例2xlarge对应的虚拟机。
可选的,子步骤5073可以包括:
子步骤A1,管控服务器控制所述计算集群停止所述第二计算节点上当前运行的作业。
子步骤A2,管控服务器控制所述计算集群将所述第二计算节点移出所述计算集群;
子步骤A3,管控服务器基于所述新虚拟机配置信息,控制所述计算集群在所述第二计算节点上配置新虚拟机。
子步骤A4,管控服务器控制所述计算集群将所述配置了新虚拟机的第二计算节点添加进所述计算集群。
在本申请实施例中,在第二计算节点上建立新虚拟机,同样需要先将第二计算节点上的作业进行停止,并进一步将第二计算节点移出计算集群,移除后再在第二计算节点上建立新虚拟机,其具体实现过程可以参照上述在第一计算节点建立新虚拟机的具体描述,此处不再赘述。
可选的,在本申请的另一种具体实现方式中,步骤507可以包括:
子步骤5074,若所述计算集群中所有的计算节点的当前负载值都大于或等于预设阈值,则管控服务器控制所述计算集群提供新的第三计算节点。
在本申请实施例中,若计算集群中所有的计算节点的当前负载值都大于或等于预设阈值,则控制所述计算集群提供新的第三计算节点,该新的第三计算节点为未上线,且未通过调度节点添加至计算集群中的节点,其底层的实现过程即是在部署计算节点硬件的机房中,选择一未开机的第三计算节点进行开机,此时第三计算节点中未运行有任何计算作业,也未建立有任何用户的虚拟机。
子步骤5075,基于所述新虚拟机配置信息,管控服务器控制所述计算集群在所述第三计算节点上配置新虚拟机。
由于第三计算节点中未运行有任何计算作业,也未建立有任何用户的虚拟机,因此,第三计算节点的负载完全可以满足新虚拟机的建立。
子步骤5076,管控服务器控制所述计算集群将所述第三计算节点添加进所述计算集群。
在第三计算节点中建立有新虚拟机后,可以通过调度节点将第三计算节点添加进计算集群,使得后续的作业可以被调度至该第三计算节点进行处理。
可选的,在本申请的另一种具体实现方式中,变配请求还包括:新虚拟机计算规则信息,步骤507可以包括:
子步骤5077,管控服务器确定所述计算集群中与所述新虚拟机计算规则信息匹配,且当前负载值小于预设阈值的第四计算节点。
参照图1,假设用户A想要将其cpu计算规则的旧虚拟机1更新为gpu计算规则的新虚拟机3,则可以在计算集群中选取一个与gpu计算规则信息匹配,且当前负载值小于预设阈值的计算节点2作为第四计算节点。
子步骤5078,管控服务器基于所述新虚拟机配置信息,控制所述计算集群在所述第四计算节点中配置新虚拟机。
进一步的,同样参照图1,对于作为第四计算节点的gpu计算节点2,可以控制计算集群在第四计算节点中配置新虚拟机3。
子步骤5079,管控服务器控制所述计算集群将所述第四计算节点添加进所述计算集群。
参照图8,其示出了本申请实施例的另一种基于图1系统机构的计算节点变配处理示意图,用户A将cpu计算规则的旧虚拟机1更新为gpu计算规则的新虚拟机3的具体实现包括:首先将用户A运行有旧虚拟机1的计算节点1和计算节点n中的旧虚拟机1进行停止,之后,在与gpu计算规则对应的计算节点2中建立新虚拟机3。
在与gpu计算规则对应的计算节点2中建立新虚拟机3之后,用户A之后的图像渲染的作业则可以调度计算节点2中,由新虚拟机3进行处理,而现有技术弹性扩容只考虑扩容的节点的负载,不考虑其是Cpu硬件、gpu硬件还是其他计算规则的硬件,因此还存在扩容的节点的处理规则不与对应的作业匹配的问题,造成异构计算效率较差。
因此,本申请实施例是通过确定计算集群中与新虚拟机计算规则信息匹配,且当前负载值小于预设阈值的第四计算节点,在第四计算节点建立与新虚拟机计算规则信息对应的新虚拟机,使得后续对应计算规则的计算作业可以被高速处理,提高了异构计算效率。
子步骤50710,若所述计算集群中不包括与所述新虚拟机计算规则信息匹配的计算节点,则管控服务器控制所述计算集群提供与所述新虚拟机计算规则信息匹配的新的第五计算节点;
子步骤50711,管控服务器基于所述新虚拟机配置信息,控制所述计算集群在所述第五计算节点上配置新虚拟机;
子步骤50712,管控服务器控制所述计算集群将所述第五计算节点添加进所述计算集群。
在本申请实施例中,若计算集群中所有的计算节点的计算规则都不与新虚拟机计算规则信息匹配,则提供提供与新虚拟机计算规则信息匹配的新的第五计算节点,该新的第五计算节点为未上线,且未通过调度节点添加至计算集群中的节点,其底层的实现过程即是在部署计算节点硬件的机房中,选择一未开机的与新虚拟机计算规则信息匹配的第五计算节点进行开机,此时第五计算节点中未运行有任何计算作业,也未建立有任何用户的虚拟机。在第五计算节点中建立有新虚拟机后,可以通过调度节点将第五计算节点添加进计算集群,使得后续对应新虚拟机计算规则信息的计算作业可以被调度至该第五计算节点进行处理。
步骤508,基于所述新虚拟机配置信息,计算集群配置新虚拟机。
步骤509,在配置新虚拟机之后,计算集群向管控服务器返回配置成功消息。
步骤510,管控服务器将配置成功消息发送至配置节点。
步骤511,配置节点将配置成功消息发送至客户端。
当客户端接收到配置成功消息后,可以提醒用户变配成功的消息。
步骤512,在接收到针对新虚拟机的计算作业时,计算集群将上述计算作业调度至新虚拟机进行计算。
在变配成功后,客户可以向计算集群发送对应新虚拟机的计算作业,在计算集群接收到针对新虚拟机的计算作业时,计算集群将上述计算作业调度至新虚拟机进行计算。
可选的,在本申请的另一实现方式中,还包括
步骤B1,管控服务器控制所述计算集群生成与所述旧虚拟机身份信息对应的旧虚拟机对应的镜像文件。
在本申请实施例中,目前的云HPC计算集群中,会基于KVM或者Xen等虚拟化监视器软件模拟客户虚拟机,进一步提供给用户进行制作镜像的功能,该功能都也可以通过API的方式给服务调用者使用,则管控服务器可以通过调用镜像文件生成接口,控制所述计算集群生成与所述旧虚拟机身份信息对应的旧虚拟机对应的镜像文件。
步骤B2,计算集群生成与所述旧虚拟机身份信息对应的旧虚拟机对应的镜像文件。
步骤B3,管控服务器控制所述计算集群通过所述镜像文件,配置与所述旧虚拟机的软件环境相同的新虚拟机。
在本申请实施例中,管控服务器通过创建虚拟机接口,控制所述计算集群通过所述镜像文件,配置与所述旧虚拟机的软件环境相同的新虚拟机。
步骤B4,计算集群通过所述镜像文件,配置与所述旧虚拟机的软件环境相同的新虚拟机。
在该步骤中,其目的是以便用户以后想要恢复原有旧虚拟机时,可以利用镜像文件进行恢复。
综上所述,本申请实施例提供的一种计算集群更新方法,包括:接收配置节点转发的源于客户端的变配请求,变配请求包括旧虚拟机身份信息、新虚拟机配置信息;配置节点与公网连接;控制计算集群停止与旧虚拟机身份信息对应的旧虚拟机;基于新虚拟机配置信息,控制计算集群配置新虚拟机。本申请在未增加计算节点数量的基础上,通过变配请求包括旧虚拟机身份信息停止计算集群中对应的旧虚拟机、并通过新虚拟机配置信息在计算集群中配置新虚拟机,提升了计算集群的处理效率,因为并未通过弹性扩容增加新的计算节点,所以也不存在性能加速比降低的问题,并且在选取建立新虚拟机的计算节点时,将当前负载值小于预设阈值的计算节点进行选取,并在变配请求中包括新虚拟机计算规则信息时,将当前负载值小于预设阈值,且与新虚拟机计算规则匹配的计算节点进行选取,提高了计算集群异构计算的效率。
参照图11,示出了本申请一个具体示例中的一种计算集群更新装置的结构图,包括:
接收模块601,用于接收配置节点转发的源于客户端的变配请求,所述变配请求包括旧虚拟机身份信息、新虚拟机配置信息;所述配置节点与公网连接;
控制模块602,用于控制计算集群停止与所述旧虚拟机身份信息对应的旧虚拟机;
配置模块603,用于基于所述新虚拟机配置信息,控制所述计算集群配置新虚拟机。
综上所述,本申请实施例提供的一种计算集群更新装置,包括:包括:接收配置节点转发的源于客户端的变配请求,变配请求包括旧虚拟机身份信息、新虚拟机配置信息;配置节点与公网连接;控制计算集群停止与旧虚拟机身份信息对应的旧虚拟机;基于新虚拟机配置信息,控制计算集群配置新虚拟机。本申请在未增加计算节点数量的基础上,通过变配请求包括旧虚拟机身份信息停止计算集群中对应的旧虚拟机、并通过新虚拟机配置信息在计算集群中配置新虚拟机,提升了计算集群的处理效率,因为并未通过弹性扩容增加新的计算节点,所以也不存在性能加速比降低的问题
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
图12是本申请实施例提供的一种装置的结构示意图。参见图12,服务器900可以用于实施上述实施例中提供的计算集群更新方法。该服务器900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)922(例如,一个或一个以上处理器)和存储器932,一个或一个以上存储应用程序942或数据944的存储介质930(例如一个或一个以上海量存储设备)。其中,存储器932和存储介质930可以是短暂存储的或持久存储的。存储在存储介质930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器922可以设置为与存储介质930通信,在服务器900上执行存储介质930中的一系列指令操作。
服务器900还可以包括一个或一个以上电源926,一个或一个以上有线或无线网络接口950,一个或一个以上输入输出接口958,一个或一个以上键盘956,和/或和,一个或一个以上操作系统941,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。其中,中央处理器922可以在服务器900上执行以下操作的指令:
接收配置节点转发的源于客户端的变配请求,所述变配请求包括旧虚拟机身份信息、新虚拟机配置信息;所述配置节点与公网连接;
控制计算集群停止与所述旧虚拟机身份信息对应的旧虚拟机;
基于所述新虚拟机配置信息,控制所述计算集群配置新虚拟机。
本申请还提供一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行一种计算集群更新方法。
本申请提供一种装置,其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述装置执行一种业务进度展示方法。
本申请还提供一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行一种业务进度展示方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种计算集群更新系统、方法及装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (23)

1.一种计算集群更新系统,其特征在于,包括:
管控服务器、计算集群、配置节点;所述配置节点与公网连接;所述管控服务器分别与所述计算集群、所述配置节点连接;
所述配置节点用于接收客户端的变配请求,并将所述变配请求转发至所述管控服务器;
所述管控服务器包括:
变配请求接收模块,用于接收所述配置节点转发的源于客户端的变配请求,所述变配请求包括旧虚拟机身份信息、新虚拟机配置信息;
停用模块,用于控制计算集群停止与所述旧虚拟机身份信息对应的旧虚拟机;
重配置模块,用于基于所述新虚拟机配置信息,控制所述计算集群配置新虚拟机。
2.根据权利要求1所述的系统,其特征在于,所述计算集群包括:
调度节点、存储节点和至少一个计算节点;
所述调度节点用于将获取到的计算作业调度至所述计算节点;
所述计算节点用于对所述计算作业进行计算处理;
所述存储节点用于向所述计算节点提供计算数据。
3.根据权利要求2所述的系统,其特征在于,所述计算集群还包括:
登录节点和账号服务节点;
所述登录节点用于获取所述计算作业和用户身份标识;
所述账号服务节点中存储有所述用户身份标识与用户业务信息的对应关系;
所述账号服务节点还用于根据所述登录节点获取到的用户身份标识与所述对应关系,确定对应的目标用户业务信息,并在所述目标用户业务信息符合预设条件的情况下,通知所述登录节点将所述计算作业发送至所述调度节点。
4.根据权利要求1所述的系统,其特征在于,所述停用模块,包括:
第一确定子模块、停用子模块和第一调度子模块;
所述第一确定子模块,用于根据所述旧虚拟机身份信息,确定运行于所述旧虚拟机身份信息对应的旧虚拟机所在的第一计算节点;
所述停用子模块,用于控制所述计算集群停止所述第一计算节点上当前运行的作业;
所述第一调度子模块,用于控制所述计算集群将所述第一计算节点移出所述计算集群;
所述停用子模块,用于调用虚拟机停止接口,停止所述第一计算节点中与所述旧虚拟机身份信息对应的旧虚拟机。
5.根据权利要求1或4所述的系统,其特征在于,所述管控服务器还包括:
镜像生成模块,用于控制所述计算集群生成与所述旧虚拟机身份信息对应的旧虚拟机对应的镜像文件。
6.根据权利要求5所述的系统,其特征在于,所述重配置模块,包括:
还原子模块,用于控制所述计算集群通过所述镜像文件,配置与所述旧虚拟机的软件环境相同的新虚拟机。
7.根据权利要求4所述的系统,其特征在于,所述重配置模块,包括:
第一配置子模块、选取子模块、第二配置子模块;
所述第一配置子模块,用于若所述第一计算节点的当前负载值小于预设阈值,则基于所述新虚拟机配置信息,控制所述计算集群在所述第一计算节点上配置新虚拟机,并控制所述计算集群将所述第一计算节点添加进所述计算集群;
所述选取子模块,用于若所述第一计算节点的当前负载值大于或等于预设阈值,则在所述计算集群中选取一当前负载值小于预设阈值的第二计算节点;
所述第二配置子模块,用于基于所述新虚拟机配置信息,控制所述计算集群在所述第二计算节点上配置新虚拟机。
8.根据权利要求7所述的系统,其特征在于,所述第二配置子模块,包括:
停止单元、调度单元、配置单元;
所述停止单元,用于控制所述计算集群停止所述第二计算节点上当前运行的作业;
所述调度单元,用于控制所述计算集群将所述第二计算节点移出所述计算集群;
所述配置单元,用于基于所述新虚拟机配置信息,控制所述计算集群在所述第二计算节点上配置新虚拟机;
所述调度单元,用于控制所述计算集群将所述配置了新虚拟机的第二计算节点添加进所述计算集群。
9.根据权利要求7所述的系统,其特征在于,所述重配置模块,还包括:
第一提供子模块,第三配置子模块、第二调度子模块;
所述第一提供子模块,用于若所述计算集群中所有的计算节点的当前负载值都大于或等于预设阈值,则控制所述计算集群提供新的第三计算节点;
所述第三配置子模块,用于基于所述新虚拟机配置信息,控制所述计算集群在所述第三计算节点上配置新虚拟机;
所述第二调度子模块,用于控制所述计算集群将所述第三计算节点添加进所述计算集群。
10.根据权利要求6所述的系统,其特征在于,所述变配请求还包括:新虚拟机计算规则信息,所述重配置模块,还包括:
第二确定子模块,第四配置子模块、第三调度子模块;
所述第二确定子模块,用于确定所述计算集群中与所述新虚拟机计算规则信息匹配,且当前负载值小于预设阈值的第四计算节点;
所述第四配置子模块,用于基于所述新虚拟机配置信息,控制所述计算集群在所述第四计算节点中配置新虚拟机;
所述第三调度子模块,用于控制所述计算集群将所述第四计算节点添加进所述计算集群。
11.根据权利要求10所述的系统,其特征在于,所述重配置模块,还包括:
第二提供子模块、第五配置子模块,第四调度子模块;
所述第二提供子模块,用于若所述计算集群中不包括与所述新虚拟机计算规则信息匹配的计算节点,则提供与所述新虚拟机计算规则信息匹配的新的第五计算节点;
所述第五配置子模块,用于基于所述新虚拟机配置信息,控制所述计算集群在所述第五计算节点上配置新虚拟机;
所述第四调度子模块,用于控制所述计算集群将所述第五计算节点添加进所述计算集群。
12.一种计算集群更新方法,应用于管控服务器,其特征在于,包括:
接收配置节点转发的源于客户端的变配请求,所述变配请求包括旧虚拟机身份信息、新虚拟机配置信息;所述配置节点与公网连接;
控制计算集群停止与所述旧虚拟机身份信息对应的旧虚拟机;
基于所述新虚拟机配置信息,控制所述计算集群配置新虚拟机。
13.根据权利要求12所述的方法,其特征在于,所述控制计算集群停止与所述旧虚拟机身份信息对应的旧虚拟机的步骤包括:
根据所述旧虚拟机身份信息,确定运行于所述旧虚拟机身份信息对应的旧虚拟机所在的第一计算节点;
控制所述计算集群停止所述第一计算节点上当前运行的作业;
控制所述计算集群将所述第一计算节点移出所述计算集群;
调用虚拟机停止接口,停止所述第一计算节点中与所述旧虚拟机身份信息对应的旧虚拟机。
14.根据权利要求12或13所述的方法,其特征在于,还包括:
控制所述计算集群生成与所述旧虚拟机身份信息对应的旧虚拟机对应的镜像文件。
15.根据权利要求14所述的方法,其特征在于,所述基于所述新虚拟机配置信息,控制所述计算集群配置新虚拟机,包括:
控制所述计算集群通过所述镜像文件,配置与所述旧虚拟机的软件环境相同的新虚拟机。
16.根据权利要求14所述所述的方法,其特征在于,所述基于所述新虚拟机配置信息,控制所述计算集群配置新虚拟机,包括:
若所述第一计算节点的当前负载值小于预设阈值,则基于所述新虚拟机配置信息,控制所述计算集群在所述第一计算节点上配置新虚拟机,并控制所述计算集群将所述第一计算节点添加进所述计算集群;
若所述第一计算节点的当前负载值大于或等于预设阈值,则在所述计算集群中选取一当前负载值小于预设阈值的第二计算节点;
基于所述新虚拟机配置信息,控制所述计算集群在所述第二计算节点上配置新虚拟机。
17.根据权利要求16所述所述的方法,其特征在于,所述基于所述新虚拟机配置信息,控制所述计算集群在所述第二计算节点上配置新虚拟机,包括:
控制所述计算集群停止所述第二计算节点上当前运行的作业;
控制所述计算集群将所述第二计算节点移出所述计算集群;
基于所述新虚拟机配置信息,控制所述计算集群在所述第二计算节点上配置新虚拟机;
控制所述计算集群将所述配置了新虚拟机的第二计算节点添加进所述计算集群。
18.根据权利要求16所述所述的方法,其特征在于,还包括:
若所述计算集群中所有的计算节点的当前负载值都大于或等于预设阈值,则控制所述计算集群提供新的第三计算节点;
基于所述新虚拟机配置信息,控制所述计算集群在所述第三计算节点上配置新虚拟机;
控制所述计算集群将所述第三计算节点添加进所述计算集群。
19.根据权利要求13所述所述的方法,其特征在于,所述变配请求还包括:新虚拟机计算规则信息,所述基于所述新虚拟机配置信息,控制所述计算集群配置新虚拟机,包括:
确定所述计算集群中与所述新虚拟机计算规则信息匹配,且当前负载值小于预设阈值的第四计算节点;
基于所述新虚拟机配置信息,控制所述计算集群在所述第四计算节点中配置新虚拟机;
控制所述计算集群将所述第四计算节点添加进所述计算集群。
20.根据权利要求19所述所述的方法,其特征在于,还包括:
若所述计算集群中不包括与所述新虚拟机计算规则信息匹配的计算节点,则提供与所述新虚拟机计算规则信息匹配的新的第五计算节点;
基于所述新虚拟机配置信息,控制所述计算集群在所述第五计算节点上配置新虚拟机;
控制所述计算集群将所述第五计算节点添加进所述计算集群。
21.一种计算集群更新装置,其特征在于,包括:
接收模块,用于接收配置节点转发的源于客户端的变配请求,所述变配请求包括旧虚拟机身份信息、新虚拟机配置信息;所述配置节点与公网连接;
控制模块,用于控制计算集群停止与所述旧虚拟机身份信息对应的旧虚拟机;
配置模块,用于基于所述新虚拟机配置信息,控制所述计算集群配置新虚拟机。
22.一种装置,其特征在于,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行所述指令时,使得所述装置执行如权利要求12至20的方法。
23.一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行所述指令时,执行如权利要求12至20的方法。
CN201811012760.9A 2018-08-31 2018-08-31 一种计算集群更新系统、方法及装置 Active CN110874256B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811012760.9A CN110874256B (zh) 2018-08-31 2018-08-31 一种计算集群更新系统、方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811012760.9A CN110874256B (zh) 2018-08-31 2018-08-31 一种计算集群更新系统、方法及装置

Publications (2)

Publication Number Publication Date
CN110874256A true CN110874256A (zh) 2020-03-10
CN110874256B CN110874256B (zh) 2023-04-07

Family

ID=69715879

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811012760.9A Active CN110874256B (zh) 2018-08-31 2018-08-31 一种计算集群更新系统、方法及装置

Country Status (1)

Country Link
CN (1) CN110874256B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113504966A (zh) * 2021-06-22 2021-10-15 中国科学院计算技术研究所 Gpu集群调度策略模拟方法及gpu集群模拟器

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101765225A (zh) * 2008-12-24 2010-06-30 华为技术有限公司 一种虚拟化的集群管理方法和集群节点
CN102404385A (zh) * 2011-10-25 2012-04-04 华中科技大学 面向高性能计算的虚拟集群部署系统和部署方法
US20130219391A1 (en) * 2012-02-16 2013-08-22 Hon Hai Precision Industry Co., Ltd. Server and method for deploying virtual machines in network cluster

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101765225A (zh) * 2008-12-24 2010-06-30 华为技术有限公司 一种虚拟化的集群管理方法和集群节点
CN102404385A (zh) * 2011-10-25 2012-04-04 华中科技大学 面向高性能计算的虚拟集群部署系统和部署方法
US20130219391A1 (en) * 2012-02-16 2013-08-22 Hon Hai Precision Industry Co., Ltd. Server and method for deploying virtual machines in network cluster

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XIAN-HE SUN等: "V-MCS: A configuration system for virtual machines" *
武静: "云计算平台调度管理技术研究与实现" *
王永坤;罗萱;金耀辉;: "基于私有云和物理机的混合型大数据平台设计及实现" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113504966A (zh) * 2021-06-22 2021-10-15 中国科学院计算技术研究所 Gpu集群调度策略模拟方法及gpu集群模拟器
CN113504966B (zh) * 2021-06-22 2023-10-31 中国科学院计算技术研究所 Gpu集群调度策略模拟方法及gpu集群模拟器

Also Published As

Publication number Publication date
CN110874256B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
US20210224101A1 (en) Method, System and Apparatus for Creating Virtual Machine
EP2614436B1 (en) Controlled automatic healing of data-center services
CN111338774B (zh) 分布式定时任务调度系统及计算装置
CN110888743B (zh) 一种gpu资源使用方法、装置及存储介质
CN111641515B (zh) Vnf的生命周期管理方法及装置
US9778997B2 (en) Server backup method and backup system using the method
CN105183554A (zh) 高性能计算与云计算混合计算系统及其资源管理方法
CN105677342B (zh) 一种解决异构操作系统的复合桌面虚拟化方法
US10884880B2 (en) Method for transmitting request message and apparatus
CN112445615A (zh) 一种线程的调度系统、计算机设备和存储介质
CN103810015A (zh) 虚拟机创建方法和设备
CN117480494A (zh) 改进虚拟计算环境中资源分配的协调容器调度
CN105933136B (zh) 一种资源调度方法及系统
CN110874256B (zh) 一种计算集群更新系统、方法及装置
CN110727511B (zh) 应用程序的控制方法、网络侧设备和计算机可读存储介质
US9436505B2 (en) Power management for host with devices assigned to virtual machines
CN116501469A (zh) 高性能计算集群的控制方法、电子设备以及存储介质
CN114615268B (zh) 基于Kubernetes集群的服务网络、监控节点、容器节点及设备
CN117632457A (zh) 一种加速器调度方法及相关装置
CN108829516A (zh) 一种图形处理器资源虚拟化调度方法
CN114003346A (zh) 任务处理方法、设备、存储介质及程序产品
JP2023541607A (ja) エッジゾーン内の計算ノードとインフラストラクチャノードとの自動ノード交換性
CN114461380A (zh) 一种云桌面系统的虚拟硬件配置分配方法
CN113535402A (zh) 基于5g mec的负载均衡处理方法、装置及电子设备
CN103562852B (zh) 一种保障云应用程序服务质量的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40024973

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant