CN109669762B - 云计算资源管理方法、装置、设备及计算机可读存储介质 - Google Patents

云计算资源管理方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN109669762B
CN109669762B CN201811596332.5A CN201811596332A CN109669762B CN 109669762 B CN109669762 B CN 109669762B CN 201811596332 A CN201811596332 A CN 201811596332A CN 109669762 B CN109669762 B CN 109669762B
Authority
CN
China
Prior art keywords
abnormal
virtual machine
resource management
cloud computing
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811596332.5A
Other languages
English (en)
Other versions
CN109669762A (zh
Inventor
饶俊明
魏江鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN201811596332.5A priority Critical patent/CN109669762B/zh
Publication of CN109669762A publication Critical patent/CN109669762A/zh
Application granted granted Critical
Publication of CN109669762B publication Critical patent/CN109669762B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/203Failover techniques using migration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45562Creating, deleting, cloning virtual machine instances
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/4557Distribution of virtual machine instances; Migration and load balancing

Abstract

本发明公开了一种云计算资源管理方法。所述云计算资源管理方法包括:定时监测标准模块的计算节点中是否存在异常失联的计算节点,其中,所述标准模块中部署有计算节点和存储节点以形成资源池,所述计算节点用于创建虚拟机,所述存储节点用于供所述虚拟机存储数据;若存在,则检测是否接收到数据中心监控平台上报的所述异常失联的计算节点的异常宕机事件;若是,则将所述异常失联的计算节点上的虚拟机迁移至预设热备计算节点上。本发明还公开了一种云计算资源管理装置、设备及计算机可读存储介质。本发明能够在计算节点异常时,通过在线迁移异常计算节点上的虚拟机,可缩小影响范围,实现快速恢复。

Description

云计算资源管理方法、装置、设备及计算机可读存储介质
技术领域
本发明涉及云计算技术领域,尤其涉及一种云计算资源管理方法、装置、设备及计算机可读存储介质。
背景技术
随着计算机技术的迅猛发展和企业竞争的加快,云计算技术在企业运行中的重要性越来越大。当前,众多拥有较大IT资源和软件系统的企业,通常会在自己的数据中心部署内部云计算环境,即私有云,其中云计算最重要的技术之一就是虚拟化技术。在云计算环境的IaaS(Infrastructure as a Service,基础设施即服务)层通常会采用本地存储模式的虚拟化架构方案,即虚拟化使用的计算和存储资源均在同一物理资源节点上。当某一物理资源节点出现硬件故障时,此物理资源节点上的所有虚拟机资源均会出现异常,其影响范围较大,且只有在物理资源节点的故障被修复时,虚拟机资源才能随之恢复,部署在这些物理资源节点上的应用实例也才能恢复。因此,现有技术中存在物理资源节点故障时,影响范围较大,且无法快速恢复的问题。
发明内容
本发明的主要目的在于提供一种云计算资源管理方法、装置、设备及计算机可读存储介质,旨在解决现有技术中物理资源节点出现故障时,影响范围较大,且无法快速恢复的问题。
为实现上述目的,本发明提供一种云计算资源管理方法,所述云计算资源管理方法包括:
定时监测标准模块的计算节点中是否存在异常失联的计算节点,其中,所述标准模块中部署有计算节点和存储节点以形成资源池,所述计算节点用于创建虚拟机,所述存储节点用于供所述虚拟机存储数据;
若存在,则检测是否接收到数据中心监控平台上报的所述异常失联的计算节点的异常宕机事件;
若是,则将所述异常失联的计算节点上的虚拟机迁移至预设热备计算节点上。
可选地,所述云计算资源管理方法包括:
在接收到应用实例部署请求时,根据所述应用实例部署请求获取应用实例的部署信息,所述部署信息包括目标数据系统ID、目标DCN信息、应用实例信息和应用实例数量;
根据所述目标数据系统ID和所述目标DCN信息确定目标数据中心;
根据所述应用实例信息检测所述目标数据中心中满足条件的标准模块的数量,并检测所述满足条件的标准模块的数量是否小于所述应用实例数量;
当所述满足条件的标准模块的数量小于所述应用实例数量时,则在所述满足条件的标准模块中对应所述应用实例数量的计算节点上根据所述应用实例信息分别创建对应的虚拟机资源,并将所述应用实例部署在所述虚拟机资源上;
当所述满足条件的标准模块的数量大于或等于所述应用实例数量时,则从所述满足条件的标准模块中随机选取对应所述应用实例数量的标准模块作为目标标准模块,并根据所述应用实例信息在所述目标标准模块中分别创建对应的虚拟机资源,并将所述应用实例部署在所述虚拟机资源上。
可选地,所述云计算资源管理方法还包括:
生成对应的提示信息,并将所述提示信息发送至预设工作端,以提示工作人员人工排查所述异常失联的计算节点的异常原因,并进行修复。
可选地,所述云计算资源管理方法还包括:
在接收到所述工作端反馈的异常失联的计算节点已修复的信息时,将已修复的计算节点标记为新的热备计算节点。
可选地,所述标准模块由多个标准机柜和对应数量的架顶式Tor交换机构成,所述标准机柜包括多个标准的机位资源,使用预设比例的机位资源部署计算节点和存储节点,其余机位资源作为缓冲区。
可选地,所述标准模块由两个标准机柜和一组Tor交换机构成,使用75%的机位资源部署计算节点和存储节点,25%的机位资源作为缓冲区。
此外,为实现上述目的,本发明还提供一种云计算资源管理装置,所述云计算资源管理装置包括:
异常节点监测模块,用于定时监测标准模块的计算节点中是否存在异常失联的计算节点,其中,所述标准模块中部署有计算节点和存储节点以形成资源池,所述计算节点用于创建虚拟机,所述存储节点用于供所述虚拟机存储数据;
宕机事件检测模块,用于若存在,则检测是否接收到数据中心监控平台上报的所述异常失联的计算节点的异常宕机事件;
虚拟机迁移模块,用于若是,则将所述异常失联的计算节点上的虚拟机迁移至预设热备计算节点上。
可选地,所述云计算资源管理装置还包括:
部署信息获取模块,用于在接收到应用实例部署请求时,根据所述应用实例部署请求获取应用实例的部署信息,所述部署信息包括目标数据系统ID、目标DCN信息、应用实例信息和应用实例数量;
数据中心确定模块,用于根据所述目标数据系统ID和所述目标DCN信息确定目标数据中心;
数量检测模块,用于根据所述应用实例信息检测所述目标数据中心中满足条件的标准模块的数量,并检测所述满足条件的标准模块的数量是否小于所述应用实例数量;
第一实例部署模块,用于当所述满足条件的标准模块的数量小于所述应用实例数量时,则在所述满足条件的标准模块中对应所述应用实例数量的计算节点上根据所述应用实例信息分别创建对应的虚拟机资源,并将所述应用实例部署在所述虚拟机资源上;
第二实例部署模块,用于当所述满足条件的标准模块的数量大于或等于所述应用实例数量时,则从所述满足条件的标准模块中随机选取对应所述应用实例数量的标准模块作为目标标准模块,并根据所述应用实例信息在所述目标标准模块中分别创建对应的虚拟机资源,并将所述应用实例部署在所述虚拟机资源上。
此外,为实现上述目的,本发明还提供一种云计算资源管理设备,所述云计算资源管理设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的云计算资源管理程序,所述云计算资源管理程序被所述处理器执行时实现如上所述的云计算资源管理方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有云计算资源管理程序,所述云计算资源管理程序被处理器执行时实现如上所述的云计算资源管理方法的步骤。
本发明提供一种云计算资源管理方法、装置及计算机可读存储介质,通过定时监测标准模块的计算节点中是否存在异常失联的计算节点,若存在,则检测是否接收到数据中心监控平台上报的该异常失联的计算节点的异常宕机事件;若是,则将该异常失联的计算节点上的虚拟机迁移至预设热备计算节点上。在本发明中,通过构建标准模块,该标准模块中部署有计算节点和存储节点以形成资源池,其中,计算节点用于构建虚拟机,存储节点用于供虚拟机存储数据,从而在计算节点异常时,可将异常计算节点上的虚拟机进行在线迁移,同时,由于虚拟机的数据是存储于存储节点上的,此时不受计算节点异常的影响,因此,本发明在计算节点异常时,可缩小影响范围,实现快速恢复。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明云计算资源管理方法第一实施例的流程示意图;
图3为本发明云计算资源管理方法涉及的标准模块的一结构示意图;
图4为本发明云计算资源管理方法第二实施例的流程示意图;
图5为本发明云计算资源管理方法涉及的云计算资源管理系统的一架构示意图;
图6为本发明云计算资源管理装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图。
本发明实施例云计算资源管理设备可以是智能手机,也可以是PC(PersonalComputer,个人计算机)、平板电脑、便携计算机等终端设备。
如图1所示,该设备可以包括:处理器1001,例如CPU,通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如Wi-Fi接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及云计算资源管理程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端,与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的云计算资源管理程序,并执行以下操作:
定时监测标准模块的计算节点中是否存在异常失联的计算节点,其中,所述标准模块中部署有计算节点和存储节点以形成资源池,所述计算节点用于创建虚拟机,所述存储节点用于供所述虚拟机存储数据;
若存在,则检测是否接收到数据中心监控平台上报的所述异常失联的计算节点的异常宕机事件;
若是,则将所述异常失联的计算节点上的虚拟机迁移至预设热备计算节点上。
进一步地,处理器1001可以调用存储器1005中存储的云计算资源管理程序,还执行以下操作:
在接收到应用实例部署请求时,根据所述应用实例部署请求获取应用实例的部署信息,所述部署信息包括目标数据系统ID、目标DCN信息、应用实例信息和应用实例数量;
根据所述目标数据系统ID和所述目标DCN信息确定目标数据中心;
根据所述应用实例信息检测所述目标数据中心中满足条件的标准模块的数量,并检测所述满足条件的标准模块的数量是否小于所述应用实例数量;
当所述满足条件的标准模块的数量小于所述应用实例数量时,则在所述满足条件的标准模块中对应所述应用实例数量的计算节点上根据所述应用实例信息分别创建对应的虚拟机资源,并将所述应用实例部署在所述虚拟机资源上;
当所述满足条件的标准模块的数量大于或等于所述应用实例数量时,则从所述满足条件的标准模块中随机选取对应所述应用实例数量的标准模块作为目标标准模块,并根据所述应用实例信息在所述目标标准模块中分别创建对应的虚拟机资源,并将所述应用实例部署在所述虚拟机资源上。
进一步地,处理器1001可以调用存储器1005中存储的云计算资源管理程序,还执行以下操作:
生成对应的提示信息,并将所述提示信息发送至预设工作端,以提示工作人员人工排查所述异常失联的计算节点的异常原因,并进行修复。
进一步地,处理器1001可以调用存储器1005中存储的云计算资源管理程序,还执行以下操作:
在接收到所述工作端反馈的异常失联的计算节点已修复的信息时,将已修复的计算节点标记为新的热备计算节点。
进一步地,所述标准模块由多个标准机柜和对应数量的架顶式Tor交换机构成,所述标准机柜包括多个标准的机位资源,使用预设比例的机位资源部署计算节点和存储节点,其余机位资源作为缓冲区。
进一步地,所述标准模块由两个标准机柜和一组Tor交换机构成,使用75%的机位资源部署计算节点和存储节点,25%的机位资源作为缓冲区。
基于上述硬件结构,提出本发明云计算资源管理方法的各实施例。
本发明提供一种云计算资源管理方法。
参照图2,图2为本发明云计算资源管理方法第一实施例的流程示意图。
在本实施例中,该云计算资源管理方法包括:
步骤S10,定时监测标准模块的计算节点中是否存在异常失联的计算节点,其中,所述标准模块中部署有计算节点和存储节点以形成资源池,所述计算节点用于创建虚拟机,所述存储节点用于供所述虚拟机存储数据;
目前,在云计算环境的IaaS层通常会采用本地存储模式的虚拟化架构方案,即虚拟化使用的计算和存储资源均在同一物理资源节点上。当某一物理资源节点出现硬件故障时,此物理资源节点上的所有虚拟机资源均会出现异常,其影响范围较大,且只有在物理资源节点的故障被修复时,虚拟机资源才能随之恢复,部署在这些物理资源节点上的应用实例也才能恢复。因此,现有技术中存在物理资源节点故障时,影响范围较大,且无法快速恢复的问题。对此,本发明提供一种云计算资源管理方法,通过构建标准模块,该标准模块中部署有计算节点和存储节点以形成资源池,其中,计算节点用于构建虚拟机,存储节点用于供虚拟机存储数据,从而在检测到计算节点异常时,可将异常计算节点上的虚拟机进行在线迁移,同时,由于虚拟机的数据是存储于存储节点上的,此时不受计算节点异常的影响,从而可缩小影响范围,实现快速恢复。
在本实施例中,该云计算资源管理方法由云计算资源管理平台实现,云计算资源管理平台OpenStack可用于对标准模块的集中管理,其中,该标准模块由多个标准机柜和对应数量的Tor(Top of Rack,架顶式)交换机构成,标准机柜包括多个标准的机位资源,使用预设比例的机位资源部署计算节点和存储节点,其余机位资源作为缓冲区,其中,计算节点用于创建虚拟机,存储节点用于供虚拟机存储数据。其中,机位资源的数量是由标准机柜的数量及其尺寸确定的。具体的,单个标准模块作为一个独立资源区由云计算资源管理平台OpenStack进行集中管理,标准模块中部署有计算节点和存储节点以形成资源池,各个计算节点在本资源区内独立可用,在创建虚拟机时,由云计算资源管理平台OpenStack根据规则获取满足CPU(Central Processing Unit,中央处理器)、内存和硬盘空间要求的计算节点,进而在该满足要求的计算节点上创建虚拟机,具体的虚拟机的创建方法与现有的虚拟机创建方法相同,此处不作赘述;此外,在每个标准模块中会预留一个或多个完全空闲的计算节点作为热备计算节点,以供迁移用。需要说明的是,预留一部分机位资源作为缓冲区的作用在于后续可添加服务器,以扩展资源节点或替换故障资源节点,从而便于后续的灵活扩展。可选地,可使用75%的机位资源部署计算节点和存储节点,25%的机位资源作为缓冲区。其中,对于计算节点和存储节点的部署,可以按预设比例进行划分部署,如设定计算节点和存储节点的部署比例为2:1。当然,上述设定,可基于具体的实际情况进行设定,并不用于限定本发明。此外,为在出现资源节点故障时,缩小影响范围,优选地,该标准模块可由两个标准机柜和一组Tor交换机构成,每个标准机柜可选设置15-25个标准的机位资源,例如设置20个标准的机位资源。
进一步的,需要说明的是,基于上述方式构建得到的标准模块,存在存储节点异常时,需对该异常存储节点上的数据进行迁移的问题,同时还可能导致该异常存储节点上的数据丢失,因此,在具体实施时,还可通过使用分布式存储Ceph的块存储功能,将存储节点构建成一个共享存储池,具体的,如图3所示,此时,虚拟机的数据可以对象的形式存储到共享存储池中的每个存储节点的物理磁盘上。本实施例中基于分布式存储技术构建共享存储池,通过多副本保证数据可用性,可在存储节点异常时,无需对该异常存储节点上的数据进行迁移,同时可保障数据的安全性。此外,在此标准模块内,基于共享存储特性,虚拟机能够实现在线迁移,在计算节点故障或者过保替换等过程中,对应用的影响能减低到最小,甚至是透明的。
在本实施例中,云计算资源管理平台定时监测标准模块的计算节点中是否存在异常失联的计算节点,具体的,各计算节点会定时向云计算资源管理平台上报它的状态,若云计算资源管理平台未接收到某一计算节点的上报,则认为该计算节点异常失联。
若存在,则执行步骤S20:检测是否接收到数据中心监控平台上报的所述异常失联的计算节点的异常宕机事件;
若监测到标准模块的计算节点中存在异常失联的计算节点,由于未接收到计算节点的正常状态上报可能是由于网络问题等,并不一定是因为计算节点对应的服务器宕机,此时,则还需检测是否接收到数据中心监控平台上报的该异常失联的计算节点的异常宕机事件。具体的,各计算节点也会定时向数据中心监控平台上报它的状态,同时,数据中心监控节点会进行网络可不可达的探测,当数据中心监控平台未接收到某一计算节点的状态上报,且确定网络是可达的时,则可确定该计算节点对应的服务器宕机,此时,则会向云计算资源管理平台上报异常宕机事件。
若是,则执行步骤S30:将所述异常失联的计算节点上的虚拟机迁移至预设热备计算节点上。
若云计算资源管理平台检测到接收到数据中心监控平台上报的该异常失联的计算节点的异常宕机事件,即确定该异常失联的计算节点对应的服务器异常宕机时,则将该异常失联的计算节点上的虚拟机迁移至所述标准模块内预设热备计算节点上。具体的迁移方法与现有迁移方法相一致,此处不作赘述。
需要说明的是,在步骤S20之后,该云计算资源管理方法还包括:
步骤A:生成对应的提示信息,并将所述提示信息发送至预设工作端,以提示工作人员人工排查所述异常失联的计算节点的异常原因,并进行修复。
在本实施例中,云计算资源管理平台在检测到接收到数据中心监控平台上报的该异常失联的计算节点的异常宕机事件之后,还可以生成对应的提示信息,并将提示信息发送至预设工作端,生成对应的提示信息,并将提示信息发送至预设工作端,以提示工作人员人工排查该异常失联的计算节点的异常原因,并进行修复。其中,步骤A与步骤S30的执行顺序不分先后。
进一步的,在步骤A之后,该云计算资源管理方法还包括:
在接收到所述工作端反馈的异常失联的计算节点已修复的信息时,将已修复的计算节点标记为新的热备计算节点。
即,在接收到工作端反馈的异常失联的计算节点已修复的信息时,将该已修复的计算节点标记为新的热备计算节点,以供后续迁移用。
此外,还需要说明的是,在步骤S20之后,还包括:若否,同样可以执行步骤A:生成对应的提示信息,并将所述提示信息发送至预设工作端,以提示工作人员人工排查所述异常失联的计算节点的异常原因,并进行修复。
即,若云计算资源管理平台未接收到数据中心监控平台上报的该异常失联的计算节点的异常宕机事件,则说明该异常失联的计算节点可能只是由于网络问题造成的,此时,则不需触发迁移,可以生成对应的提示信息,并将提示信息发送至预设工作端,以提示工作人员人工排查该异常失联的计算节点的异常原因,并进行修复。即使不是计算节点的异常宕机事件,也可以发送提示信息至预设工作端进行检查修复,以便于快速确定异常的原因。
本发明实施例提供一种云计算资源管理方法,通过定时监测标准模块的计算节点中是否存在异常失联的计算节点,若存在,则检测是否接收到数据中心监控平台上报的该异常失联的计算节点的异常宕机事件;若是,则将该异常失联的计算节点上的虚拟机迁移至预设热备计算节点上。在本发明中,通过构建标准模块,该标准模块中部署有计算节点和存储节点以形成资源池,其中,计算节点用于构建虚拟机,存储节点用于供虚拟机存储数据,从而在计算节点异常时,可将异常计算节点上的虚拟机进行在线迁移,同时,由于虚拟机的数据是存储于存储节点上的,此时不受计算节点异常的影响,因此,本发明在计算节点异常时,可缩小影响范围,实现快速恢复。
应当理解的是,在现有技术中采用本地存储模式的虚拟化架构方案时,由于单台物理资源节点的CPU、内存、硬盘空间资源有限且无法扩展,因此在创建虚拟机资源时会按固定的资源配置尽量将物理节点的资源分配用尽,避免浪费,这就意味着虚拟机资源不能灵活按需创建,且无法灵活调整某台虚拟机的配置。虽然此模式从物理节点的资源利用角度是避免浪费,但是从应用程序的角度,仍然存在资源浪费,因为固定的虚拟机配置对应用程序来说可能过高了,导致虽然物理节点资源分配出去,但未被有效利用。同理,若在创建虚拟机资源时不按固定资源配置进行分配,单台物理节点资源允许范围内的按需创建,则存在某台虚拟机就分配了大部分的硬盘或者内存资源,剩下的CPU资源则存在较大的浪费。因此,现有技术中还存在资源利用率较低、虚拟机无法按需创建和灵活扩展的问题。对此,提出本发明云计算资源管理方法第二实施例,参照图4,该云计算资源管理方法还包括:
步骤S40,在接收到应用实例部署请求时,根据所述应用实例部署请求获取应用实例的部署信息,所述部署信息包括目标数据系统ID、目标DCN信息、应用实例信息和应用实例数量;
在本实施例中,为进一步在单个资源节点故障时,缩小影响范围,提供稳定和高可用的云计算资源,可基于图5所示的方式构建云计算资源管理系统,具体的,该系统可由数据系统、数据中心、标准模块几个层级组成,其中,数据系统可以有多个,可按地区进行构建,每个数据系统有唯一的系统ID(System ID);在同一数据系统里,可创建多个数据中心,数据中心可用DCN(Data Center Node,数据中心节点)来表征;在一个数据中心内,由多个标准模块汇聚而成,标准模块可由PoD(Point of Delivery,交付点)来表征。此外,该云计算资源管理系统还包括云计算资源管理平台(图中未示出),用于对系统进行管控。基于上述云计算资源管理系统,当某一数据中心的失效时,不会影响同一数据系统下的其他数据中心,当某一标准模块出现故障时,也不会影响其他标准模块,从而可隔离资源,避免单点故障,缩小影响范围,进而实现系统的稳定和高可用。
基于上述计算资源管理系统,用户在需要进行应用实例部署时,可根据部署要求申请资源,同时传入参数System ID、DCN和应用实例,以触发应用实例部署请求,此时,云计算资源管理平台在接收到应用实例部署请求时,先根据该实例部署请求获取应用实例的部署信息,其中,该部署信息包括目标数据系统ID、目标DCN信息、应用实例信息和应用实例数量,应用实例信息中包括应用实例的CPU、内存、硬盘空间等信息。
步骤S50,根据所述目标数据系统ID和所述目标DCN信息确定目标数据中心;
在获取得到部署信息之后,先根据目标数据系统ID(即System ID)和目标DCN信息确定目标数据中心。
步骤S60,根据所述应用实例信息检测所述目标数据中心中满足条件的标准模块的数量,并检测所述满足条件的标准模块的数量是否小于所述应用实例数量;
然后根据应用实例信息监测该目标数据中心中满足条件的标准模块的数量,即检测目标数据中心中的标准模块的剩余CPU、剩余内存和剩余硬盘空间等是否大于或等于应用实例的CPU、内存和硬盘空间,然后确定满足条件的标准模块的数量。在得到满足条件的标准模块的数量之后,检测该满足条件的标准模块的数量是否小于应用实例数量。
步骤S71,当所述满足条件的标准模块的数量小于所述应用实例数量时,则在所述满足条件的标准模块中对应所述应用实例数量的计算节点上根据所述应用实例信息分别创建对应的虚拟机资源,并将所述应用实例部署在所述虚拟机资源上;
当满足条件的标准模块的数量小于应用实例数量时,则在满足条件的标准模块中对应应用实例数量的计算节点上根据应用实例信息分别创建对应的虚拟机资源,然后将应用实例分别部署在对应的虚拟机资源上。例如,当应用实例数量为2,满足条件的标准模块的数量为1时,则分别从不同计算节点(Host)创建虚拟机资源,分别部署这2个应用实例。再例如,当应用实例数量为3,满足条件的标准模块的数量为2时,则分别在满足条件的2个标准模块的不同计算节点上创建虚拟机资源,即在一满足条件的标准模块中的不同计算节点上创建2个虚拟机资源,在另一满足条件的标准模块中创建1个虚拟机资源,以分别部署这3个应用实例。即部署原则为尽量为不同标准模块中的不同计算节点上部署虚拟机资源。
步骤S72,当所述满足条件的标准模块的数量大于或等于所述应用实例数量时,则从所述满足条件的标准模块中随机选取对应所述应用实例数量的标准模块作为目标标准模块,并根据所述应用实例信息在所述目标标准模块中分别创建对应的虚拟机资源,并将所述应用实例部署在所述虚拟机资源上。
当满足条件的标准模块的数量大于或等于应用实例数量时,则从满足条件的标准模块中随机选取对应应用实例数量的标准模块作为目标标准模块,并根据应用实例信息在目标标准模块中分别创建对应的虚拟机资源,并将应用实例部署在虚拟机资源上。例如,当应用实例数量为2,满足条件的标准模块的数量为3时,则从满足条件的标准模块中随机(可选选择优先级高的标准模块,或者资源利用率低的标准模块)选取2个,然后根据应用实例信息在两个标准模块中分别创建对应的虚拟机资源,进而将应用实例部署在构建好的虚拟机资源上。
在本实施例中,基于标准模块内通过共享存储池和计算资源池,可根据应用实例部署请求按需创建虚拟机,可有效提高资源利率用,同时,基于SystemID+DCN+PoD+Host(即数据系统+数据中心+标准模块+计算节点)多维度的高可用规则引擎,可尽可能隔离资源,避免单点故障,减少影响范围,可提供满足金融行业标准的稳定和高可用的云计算资源。
本发明还提供一种云计算资源管理装置。
参照图6,图6为本发明云计算资源管理装置第一实施例的功能模块示意图。
在本实施例中,所述云计算资源管理装置包括:
异常节点监测模块10,用于定时监测标准模块的计算节点中是否存在异常失联的计算节点,其中,所述标准模块中部署有计算节点和存储节点以形成资源池,所述计算节点用于创建虚拟机,所述存储节点用于供所述虚拟机存储数据;
宕机事件检测模块20,用于若存在,则检测是否接收到数据中心监控平台上报的所述异常失联的计算节点的异常宕机事件;
虚拟机迁移模块30,用于若是,则将所述异常失联的计算节点上的虚拟机迁移至预设热备计算节点上。
进一步地,所述云计算资源管理装置还包括:
部署信息获取模块,用于在接收到应用实例部署请求时,根据所述应用实例部署请求获取应用实例的部署信息,所述部署信息包括目标数据系统ID、目标DCN信息、应用实例信息和应用实例数量;
数据中心确定模块,用于根据所述目标数据系统ID和所述目标DCN信息确定目标数据中心;
数量检测模块,用于根据所述应用实例信息检测所述目标数据中心中满足条件的标准模块的数量,并检测所述满足条件的标准模块的数量是否小于所述应用实例数量;
第一实例部署模块,用于当所述满足条件的标准模块的数量小于所述应用实例数量时,则在所述满足条件的标准模块中对应所述应用实例数量的计算节点上根据所述应用实例信息分别创建对应的虚拟机资源,并将所述应用实例部署在所述虚拟机资源上;
第二实例部署模块,用于当所述满足条件的标准模块的数量大于或等于所述应用实例数量时,则从所述满足条件的标准模块中随机选取对应所述应用实例数量的标准模块作为目标标准模块,并根据所述应用实例信息在所述目标标准模块中分别创建对应的虚拟机资源,并将所述应用实例部署在所述虚拟机资源上。
进一步地,所述云计算资源管理装置还包括:
提示信息发送模块,用于生成对应的提示信息,并将所述提示信息发送至预设工作端,以提示工作人员人工排查所述异常失联的计算节点的异常原因,并进行修复。
进一步地,所述云计算资源管理装置还包括:
热备节点标记模块,用于在接收到所述工作端反馈的异常失联的计算节点已修复的信息时,将已修复的计算节点标记为新的热备计算节点。
其中,上述云计算资源管理装置中各个模块的功能实现与上述云计算资源管理方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质上存储有云计算资源管理程序,所述云计算资源管理程序被处理器执行时实现如以上任一项实施例所述的云计算资源管理方法的步骤。
本发明计算机可读存储介质的具体实施例与上述云计算资源管理方法各实施例基本相同,在此不作赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种云计算资源管理方法,其特征在于,所述云计算资源管理方法包括:
定时监测标准模块的计算节点中是否存在异常失联的计算节点,其中,所述标准模块中部署有计算节点和存储节点以形成资源池,所述计算节点用于创建虚拟机,所述存储节点用于供所述虚拟机存储数据;
若存在,则检测是否接收到数据中心监控平台上报的所述异常失联的计算节点的异常宕机事件;
若是,则将所述异常失联的计算节点上的虚拟机迁移至预设热备计算节点上;
其中,所述云计算资源管理方法包括:
在接收到应用实例部署请求时,根据所述应用实例部署请求获取应用实例的部署信息,所述部署信息包括目标数据系统ID、目标DCN信息、应用实例信息和应用实例数量;
根据所述目标数据系统ID和所述目标DCN信息确定目标数据中心;
根据所述应用实例信息检测所述目标数据中心中满足条件的标准模块的数量,并检测所述满足条件的标准模块的数量是否小于所述应用实例数量;
当所述满足条件的标准模块的数量小于所述应用实例数量时,则在所述满足条件的标准模块中对应所述应用实例数量的计算节点上根据所述应用实例信息分别创建对应的虚拟机资源,并将所述应用实例部署在所述虚拟机资源上;
当所述满足条件的标准模块的数量大于或等于所述应用实例数量时,则从所述满足条件的标准模块中随机选取对应所述应用实例数量的标准模块作为目标标准模块,并根据所述应用实例信息在所述目标标准模块中分别创建对应的虚拟机资源,并将所述应用实例部署在所述虚拟机资源上。
2.如权利要求1所述的云计算资源管理方法,其特征在于,所述云计算资源管理方法还包括:
生成对应的提示信息,并将所述提示信息发送至预设工作端,以提示工作人员人工排查所述异常失联的计算节点的异常原因,并进行修复。
3.如权利要求2所述的云计算资源管理方法,其特征在于,所述云计算资源管理方法还包括:
在接收到所述工作端反馈的异常失联的计算节点已修复的信息时,将已修复的计算节点标记为新的热备计算节点。
4.如权利要求1至3中任一项所述的云计算资源管理方法,其特征在于,所述标准模块由多个标准机柜和对应数量的架顶式Tor交换机构成,所述标准机柜包括多个标准的机位资源,使用预设比例的机位资源部署计算节点和存储节点,其余机位资源作为缓冲区。
5.如权利要求4所述的云计算资源管理方法,其特征在于,所述标准模块由两个标准机柜和一组Tor交换机构成,使用75%的机位资源部署计算节点和存储节点,25%的机位资源作为缓冲区。
6.一种云计算资源管理装置,其特征在于,所述云计算资源管理装置包括:
异常节点监测模块,用于定时监测标准模块的计算节点中是否存在异常失联的计算节点,其中,所述标准模块中部署有计算节点和存储节点以形成资源池,所述计算节点用于创建虚拟机,所述存储节点用于供所述虚拟机存储数据;
宕机事件检测模块,用于若存在,则检测是否接收到数据中心监控平台上报的所述异常失联的计算节点的异常宕机事件;
虚拟机迁移模块,用于若是,则将所述异常失联的计算节点上的虚拟机迁移至预设热备计算节点上;
其中,所述云计算资源管理装置还包括:
部署信息获取模块,用于在接收到应用实例部署请求时,根据所述应用实例部署请求获取应用实例的部署信息,所述部署信息包括目标数据系统ID、目标DCN信息、应用实例信息和应用实例数量;
数据中心确定模块,用于根据所述目标数据系统ID和所述目标DCN信息确定目标数据中心;
数量检测模块,用于根据所述应用实例信息检测所述目标数据中心中满足条件的标准模块的数量,并检测所述满足条件的标准模块的数量是否小于所述应用实例数量;
第一实例部署模块,用于当所述满足条件的标准模块的数量小于所述应用实例数量时,则在所述满足条件的标准模块中对应所述应用实例数量的计算节点上根据所述应用实例信息分别创建对应的虚拟机资源,并将所述应用实例部署在所述虚拟机资源上;
第二实例部署模块,用于当所述满足条件的标准模块的数量大于或等于所述应用实例数量时,则从所述满足条件的标准模块中随机选取对应所述应用实例数量的标准模块作为目标标准模块,并根据所述应用实例信息在所述目标标准模块中分别创建对应的虚拟机资源,并将所述应用实例部署在所述虚拟机资源上。
7.一种云计算资源管理设备,其特征在于,所述云计算资源管理设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的云计算资源管理程序,所述云计算资源管理程序被所述处理器执行时实现如权利要求1至5中任一项所述的云计算资源管理方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有云计算资源管理程序,所述云计算资源管理程序被处理器执行时实现如权利要求1至5中任一项所述的云计算资源管理方法的步骤。
CN201811596332.5A 2018-12-25 2018-12-25 云计算资源管理方法、装置、设备及计算机可读存储介质 Active CN109669762B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811596332.5A CN109669762B (zh) 2018-12-25 2018-12-25 云计算资源管理方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811596332.5A CN109669762B (zh) 2018-12-25 2018-12-25 云计算资源管理方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109669762A CN109669762A (zh) 2019-04-23
CN109669762B true CN109669762B (zh) 2023-03-03

Family

ID=66146049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811596332.5A Active CN109669762B (zh) 2018-12-25 2018-12-25 云计算资源管理方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109669762B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413373A (zh) * 2019-06-21 2019-11-05 无锡华云数据技术服务有限公司 故障虚拟机的恢复方法、装置、电子设备及存储介质
CN110716517B (zh) * 2019-10-08 2021-12-03 山东大学 一种基于云平台的机械设备运行监测系统及云平台
CN111143027A (zh) * 2019-12-06 2020-05-12 北京浪潮数据技术有限公司 一种云平台管理方法、系统、设备及计算机可读存储介质
US20210271506A1 (en) * 2020-02-28 2021-09-02 Cisco Technology, Inc. Centralized management, provisioning and monitoring of cloud infrastructure
CN111506634B (zh) * 2020-04-29 2023-12-08 北京金山云网络技术有限公司 对业务应用进行上云分析的方法、装置、设备及系统
CN111857736B (zh) * 2020-07-28 2024-03-08 中国建设银行股份有限公司 云计算产品的生成方法、装置、设备及存储介质
CN112486716B (zh) * 2020-10-29 2022-08-19 中国农业银行股份有限公司福建省分行 计算机io hung事件的预警方法、装置、设备和介质
CN112286638A (zh) * 2020-11-04 2021-01-29 浪潮云信息技术股份公司 一种Openstack虚拟机CPU与内存热插拔的实现方法
CN112732401A (zh) * 2020-12-29 2021-04-30 深圳前海微众银行股份有限公司 虚拟机资源分配方法、系统、设备及介质
CN114035905A (zh) * 2021-11-19 2022-02-11 江苏安超云软件有限公司 基于虚拟机的故障迁移方法及装置、电子设备和存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160087910A1 (en) * 2014-09-22 2016-03-24 Cisco Technology, Inc. Computing migration sphere of workloads in a network environment
CN105516263B (zh) * 2015-11-28 2019-02-01 华为技术有限公司 存储系统中数据分发方法、装置、计算节点及存储系统
CN106897190B (zh) * 2017-02-24 2020-09-25 苏州浪潮智能科技有限公司 一种整机柜服务器及其管理单元间的数据交互方法及系统
CN206649421U (zh) * 2017-04-18 2017-11-17 北京天地超云科技有限公司 一种一体机结构
CN107124473A (zh) * 2017-06-26 2017-09-01 网宿科技股份有限公司 云平台的构建方法及云平台

Also Published As

Publication number Publication date
CN109669762A (zh) 2019-04-23

Similar Documents

Publication Publication Date Title
CN109669762B (zh) 云计算资源管理方法、装置、设备及计算机可读存储介质
US11960370B2 (en) Network virtualization policy management system
US10628205B2 (en) Virtual machine placement with automatic deployment error recovery
EP3142011B9 (en) Anomaly recovery method for virtual machine in distributed environment
US10372478B2 (en) Using diversity to provide redundancy of virtual machines
US10999139B2 (en) Online upgrade method, apparatus, and system
CN107547595B (zh) 云资源调度系统、方法及装置
CN109274537B (zh) 一种连续性网络虚拟化平台系统
US20160306710A1 (en) Method and system for recovering virtual network
US10331472B2 (en) Virtual machine service availability
JP4461262B2 (ja) コンピュータ障害発生時に複数のコンピュータの配列を操作する方法
CN111988347B (zh) 跳板机系统的数据处理方法和跳板机系统
CN104123183A (zh) 集群作业调度方法和装置
CN107453888B (zh) 高可用性的虚拟机集群的管理方法及装置
CN111541762A (zh) 数据处理的方法、管理服务器、设备及存储介质
CN103902401A (zh) 基于监控的虚拟机容错方法及装置
CN111526038B (zh) 业务请求分发方法、装置、计算机设备及可读存储介质
CN111610942A (zh) 一种印刷文件生成方法、系统和可读存储介质
JP2017027166A (ja) 運用管理装置、運用管理プログラムおよび情報処理システム
KR102001617B1 (ko) 컨테이너 관리 컴포넌트를 가지는 머신 관리 디바이스 및 사물 인터넷 관리 디바이스
CN112256384B (zh) 基于容器技术的服务集合处理方法、装置和计算机设备
CN115220737A (zh) 镜像部署方法、装置、计算机设备和存储介质
CN113176969A (zh) 服务提供方法、装置、设备及计算机可读存储介质
CN116827761B (zh) 双机热备的切换方法、系统、设备及介质
US20230289203A1 (en) Server maintenance control device, server maintenance system, server maintenance control method, and program

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant