CN112380005A - 一种数据中心能耗管理方法及系统 - Google Patents
一种数据中心能耗管理方法及系统 Download PDFInfo
- Publication number
- CN112380005A CN112380005A CN202011245415.7A CN202011245415A CN112380005A CN 112380005 A CN112380005 A CN 112380005A CN 202011245415 A CN202011245415 A CN 202011245415A CN 112380005 A CN112380005 A CN 112380005A
- Authority
- CN
- China
- Prior art keywords
- migration
- data center
- energy consumption
- server
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/485—Task life-cycle, e.g. stopping, restarting, resuming execution
- G06F9/4856—Task life-cycle, e.g. stopping, restarting, resuming execution resumption being on a different machine, e.g. task migration, virtual machine migration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5011—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
- G06F9/5016—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5011—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
- G06F9/5022—Mechanisms to release resources
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5077—Logical partitioning of resources; Management or configuration of virtualized resources
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5083—Techniques for rebalancing the load in a distributed system
- G06F9/5088—Techniques for rebalancing the load in a distributed system involving task migration
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开一种数据中心能耗管理方法及系统,其中,数据中心能耗管理方法包括:步骤S1,对数据中心的能耗因素进行分析,识别出数据中心的主要能耗设备;步骤S2,对数据中心的服务器进行计算资源虚拟化;步骤S3,对虚拟化的计算资源进行迁移调度,对于计算资源利用率低的服务器采取整合迁移策略,对于计算资源利用率高的服务器采取均衡迁移策略。本发明减少了对数据中心电源和制冷的需求,降低数据中心的整体能耗。同时,由于物理设备的高度共享,可以减少物理设备所需的物理空间,节约数据中心空间资源。并且,还可以根据需求对业务进行动态部署和资源优化配置,从而快速响应和满足用户需求的变化,增强数据中心的灵活性。
Description
技术领域
本发明涉及数据中心技术领域,尤其涉及一种数据中心能耗管理方法及系统。
背景技术
近年来,数据中心的高能耗逐渐成为一个突出的问题,尤其是随着云计算的到来,更多的计算资源和存储资源集中在云端,给能耗的高效管理带来更大的挑战。数据中心的高能耗问题不仅会造成电能的浪费,而且导致系统运行不稳定。而目前大部分公司为保证用户服务质量,数据中心大都采用最好的服务器配置来满足和支持应用需求,这就造成了服务器的平均利用率普遍低下。由于IT基础设施资源不能得到充分利用,这就造成了数据中心很大一部分的资源浪费。因此,如何对数据中心的能耗进行有效管理是一个亟待解决的关键问题。
发明内容
本发明所要解决的技术问题在于,提出一种数据中心能耗管理方法及系统,以有效降低数据中心的整体能耗,节约数据中心空间资源。
为了解决上述技术问题,本发明提供一种数据中心能耗管理方法,包括:
步骤S1,对数据中心的能耗因素进行分析,识别出数据中心的主要能耗设备;
步骤S2,对数据中心的服务器进行计算资源虚拟化;
步骤S3,对虚拟化的计算资源进行迁移调度,对于计算资源利用率低的服务器采取整合迁移策略,对于计算资源利用率高的服务器采取均衡迁移策略。
进一步地,所述步骤S3中通过以下步骤对计算资源利用率高的服务器进行均衡动态迁移:
步骤S31,确定迁移时机;
步骤S32,选择迁移对象;
步骤S33,选择目标服务器;
步骤S34,进行数据拷贝迁移;
步骤S35,进行计算服务迁移。
进一步地,所述步骤S3还包括以下步骤:
步骤S36:完成计算资源的迁移后,重新计算数据中心对空调系统的制冷需求,并根据节能调度策略对制冷供电设备进行联动调度。
进一步地,所述步骤S31中触发迁移的时机包括:
迁移紧急度为第3级且达到第一个时间阈值TMax1,则触发虚拟机迁移;或者
当迁移紧急度小于第3级且持续时间达到TMax1时,则计算TMax2时刻的负载预测值或负载经验值,若负载预测值或负载经验值达到负载阈值,则触发虚拟机迁移;或者
当迁移紧急度小于3级,计算资源利用率采集值超过负载阈值且持续时间达到TMax2,则触发虚拟机迁移。
进一步地,所述步骤S32中具体通过以下步骤来选择迁移对象:
步骤S321,获得源主机及其运行计算资源的状态信息,并根据成员函数对状态信息进行模糊化处理;
步骤S322,根据隶属度函数计算计算资源状态信息和多个调度规则的关联度,其中,多个调度规则包括资源需求匹配规则、迁移开销最小化规则、动态垂直分层规则和后进优先出规则;
步骤S323,根据计算资源迁移触发条件,计算每个调度规则的关联度加权输出;
步骤S324,通过精确化计算对关联度去模糊化,将推理得出的模糊输出转化为计算资源的调度优先级值;
步骤S325,根据计算所得的优先级值对计算资源进行降序排列,并依据该优先级顺序进行迁移调度。
进一步地,所述步骤S33中基于反资源竞争规则、最大迁入数限制规则和组内优先规则来选取目标服务器。
进一步地,所述步骤S34具体包括以下步骤:
步骤S341,在目标服务器上预留资源;
步骤S342,将原服务器上迁移对象所有的内存页、CPU状态和磁盘数据全部迁移拷贝到目标服务器上,并保持迁移对象的服务在原服务器上正常运行;
步骤S343,进行迭代拷贝迁移,并且每次迭代只拷贝在前一次拷贝过程中新产生的脏页,并依据任务集的管理方法控制每次迭代拷贝的数据内容;
步骤S344,当迭代拷贝达到冻结管理条件时,停止原服务器上的虚拟机,并冻结迁移对象的所有数据,然后将所有未拷贝的脏页面全部拷贝至目标服务器上。
进一步地,在所述步骤S344中,当满足最大迭代次数规则、最小脏页面数规则、最小收敛数规则、最大页数规则中的任一种时则满足冻结管理条件。
进一步地,所述步骤S35具体为:
完成冻结拷贝后,对源主机和目标主机内的迁移对象做一次完整性校验,当确认两者的迁移对象数据完全一致时,将源主机的虚拟机对象删除,并激活目标主机上的虚拟机对象,完成虚拟机的整个动态迁移过程。
本发明还提供一种数据中心能耗管理系统,包括:
分析模块,用于对数据中心的能耗因素进行分析,识别出数据中心的主要能耗设备;
虚拟化模块,用于对数据中心的服务器进行计算资源虚拟化;
迁移调度模块,用于对虚拟化的计算资源进行迁移调度,其中,对于计算资源利用率低的服务器采取整合迁移策略,对于计算资源利用率高的服务器采取均衡迁移策略。
本发明实施例的有益效果在于:基于虚拟化技术整合或者共享物理设备,将多个物理设备上的任务转移到同一个物理设备上,可以减少物理设备的运行台数,而且在对服务器等计算资源虚拟化的同时,也减少了对数据中心电源和制冷的需求,降低数据中心的整体能耗。同时,由于物理设备的高度共享,可以减少物理设备所需的物理空间,节约数据中心空间资源。并且,还可以根据需求对业务进行动态部署和资源优化配置,从而快速响应和满足用户需求的变化,增强数据中心的灵活性。另外,通过对计算资源的动态迁移,可以将业务数据从故障预警的服务器上迁移到运行良好的服务器上,避免业务中断的风险。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一一种数据中心能耗管理方法的流程示意图。
图2是图1所示的步骤S3的具体流程示意图。
图3是图2所示的步骤S32的具体流程示意图。
图4是图2所示的步骤S34的具体流程示意图。
图5是图4所示的步骤S343中进行迭代拷贝的脏页标记示意图。
图6是本发明实施例二一种数据中心能耗管理系统的模块示意图。
图7是图6所示的迁移调度模块的子单元示意图。
具体实施方式
以下各实施例的说明是参考附图,用以示例本发明可以用以实施的特定实施例。
如图1所示,本发明实施例一提供一种数据中心能耗管理方法,包括:
步骤S1:对数据中心的能耗因素进行分析,识别出数据中心的主要能耗设备;
步骤S2:对数据中心的服务器进行计算资源虚拟化;
步骤S3:对虚拟化的计算资源进行迁移调度,对于计算资源利用率低的服务器采取整合迁移策略,对于计算资源利用率高的服务器采取均衡迁移策略。
具体地,步骤S1将调查数据中心的能耗使用情况,并对数据中心能耗进行分析,了解数据中心的能耗结构分布,明确数据中心的主要能耗设备,并构建数据中心综合能耗模型,为后续的节能管理提供科学计算基础。数据中心的综合能耗模型可表示为:
Etotal=Eserver+Eac+Eother
其中,Etotal表示数据中心的总能耗,Eserver表示数据中心服务器的能耗,Eac表示数据中心空调设备所产生的能耗,Eother表示其它系统所产生的能耗,例如UPS、供配电、照明和安防等。
在整个模型中,数据中心的能耗可分为IT系统能耗和基础设施能耗两大部分。IT系统由计算机、通信设备、处理设备、控制设备及其相关的配套设施构成。基础设施包括供配电系统、UPS系统、空调制冷系统、消防、安防、照明等设备。经过分析,IT设备的能耗占数据中心总能耗的50%左右,而服务器的能耗则占IT设备总能耗的80%,空调系统的能耗占数据中心总能耗的38%左右,UPS等配电设备的能耗占数据中心总能耗的10%左右。可以理解,对于制冷系统来说,可以通过采用自然冷却的方式或通过热管理技术改善数据中心气流组织,实现制冷量的精确供给和按需分配来降低耗电量。对于供配电系统来说,可以选用高效率的、模块化的UPS电源来提高电源使用率或通过进行合理的IT设备与供电设备布局,减少供电线路损耗。现在对于制冷系统和供配电系统的能耗管理已经相对较为成熟,而对于服务器的能耗管理则较少,其中,CPU的工作负荷对服务器的计算能耗起到关键性影响,本发明则主要是针对CPU的工作负荷进行管理调度,以降低服务器的能耗,进而降低数据中心的总能耗。
步骤S2中,虚拟化是对物理资源的逻辑表示,将物理载体抽象化,使其不受物理资源的约束,从而提高物理资源的利用率和灵活性。虚拟化技术是利用虚拟化的思想将一份物理资源抽象成多份资源,或将多份资源抽象成一份资源,然后提供给上层管理平台。通常,利用虚拟机管理器VMM(Virtual Machine Monitor)实现对物理服务器的虚拟化。计算资源虚拟化是对物理服务器进行虚拟化整合或拆分,从而可以实现多个物理服务器同时处理同一个计算任务,或同一个物理服务器同时处理多个计算任务。通过对计算资源的虚拟化,可实现对数据中心的服务器硬件资源进行集中管理,形成共享的虚拟资源池,从而更加灵活地使用计算资源。
由于服务器的能耗占数据中心总能耗的40%左右,因此对计算资源进行节能优化时,可以有效减少服务器设备的能耗。虚拟化迁移技术可实现对服务器的动态分配,当服务器利用率偏低时,需要将若干低负载的服务器迁移整合到较少服务器上,可以有效降低服务器能耗。为了平衡服务器的性能和能耗间的关系,步骤S3对计算资源的迁移调度分为整合迁移和均衡迁移两种情况。其中,整合迁移就是为了提升服务器的负载率,减少服务器运行台数,并以此减少服务器设备的整体能耗,而均衡迁移则是为了保障服务器的服务质量,当服务器不能满足性能要求时,则将其中的某个任务迁移到其他服务器上执行。具体地,整合迁移过程是根据服务器的资源使用情况,包括CPU负载率、内存负载率和网络负载率等,并结合机房环境因素来判断是否对服务器进行整合调度。服务器整合是根据虚拟化调度策略,将低负载服务器上的虚拟机动态迁移到其他服务器上,以提高被迁入服务器的资源利用率,当服务器处于空载状态时,对其进行休眠或关机控制,从而减少服务器的运行数量,减少服务器设备的能耗。而均衡迁移与整合迁移过程相反,它是通过设定服务器资源负载上限和环境温度上限等条件,当服务器资源负载率或环境温度达到上限条件时,触发对虚拟机进行迁移。通过均衡迁移可以使处于预警状态的设备减小负荷,而被迁入服务器可能是被重新激活的服务器或低负荷的服务器。均衡迁移可以提高服务质量,但会增加数据中心的整体能耗成本。
可以理解,如图2所示,所述步骤S3具体通过以下步骤对计算资源利用率高的服务器进行均衡动态迁移:
步骤S31:确定迁移时机。迁移时机的选择:设所有服务器的集合为S={s1、s2、...,sn},依据迁移选择约束条件,在最佳的时机从集合S中选择合适的服务器Si触发迁移,从而保证迁移的合理性。
步骤S32:选择迁移对象。迁移对象的选择:当确定了被迁移服务器后,在服务器的虚拟机集合VM={vm1、vm2、...,vmi}中,选择迁移开销更小且释放资源更多的虚拟机vmj进行迁移。
步骤S33:选择目标服务器。目标服务器的选择:为了给被迁移虚拟机vmj寻找1个最佳的目标服务器,因此需要在目标服务器集合D={d1、d2、...,dn-1}中,D∈S且依据目标服务器选择算法选择最佳目标服务器Dk。
步骤S34:进行数据拷贝迁移。数据拷贝迁移:当完成被迁移虚拟机vmj的选择和目标服务器Dk的选择后,则利用内存拷贝算法实现对虚拟机的动态迁移。
步骤S35:进行计算服务迁移。计算服务迁移:完成虚拟机的迁移后,关闭原服务器vmj上的服务,并启动目标服务器上的vmj,实现计算服务的迁移。
另外,作为优选的,为了最小化数据中心能耗,所述步骤S3还包括以下步骤:
步骤S36:当完成计算资源的迁移后,重新计算数据中心对空调系统的制冷需求,并根据节能调度策略对制冷供电设备进行联动调度,从而减少数据中心能耗浪费。
可以理解,在所述步骤S31中,由于数据中心在工作期间时常会出现资源负载率不稳定,在均衡计算资源的负载时,如果迁移时机选择不合适,就会导致频繁迁移的问题发生,频繁的迁移不但会降低计算效率,还会导致数据中心的能耗增加,因此,选择合适的迁移时机对虚拟化调度至关重要。
本实施例针对迁移时机选择过程中关联的几个参数进行定义,具体如下:
定义1,资源负载阈值:计算资源利用率的上限要求,此处主要指CPU和内存利用率。其中:RCMax表示目标主机CPU的重负载率要求,RMMax表示目标主机内存的重负载率要求。
定义2,双时间阈值:为了避免因资源负荷度的骤变而引起迁移颠簸,采取双时间阈值对峰值进行滤波。其中,TMax1表示资源负载达到峰值后持续的第一个时间阈值,TMax2表示资源负载达到峰值后持续的第二个时间阈值。其中TMax2>TMax1,两者间的差值TOffset=TMax2-TMax1。
定义3,阈值回差:指负载率超过或低于阈值后可以接受的变化范围。其中定义:COffset表示目标主机CPU负载率超过阈值的合理范围;MOffset表示目标主机内存负载率超过阈值的合理范围。
定义4,负载预测值:根据最近时刻数据中心的负载情况,预测在未来的TMax2时刻数据中心的负载情况,即时间的水平方向负载预测。
定义5,负载经验值:依据对数据中心的历史同期负载率进行统计,预测在TMax2时刻数据中心的负载情况,即时间的垂直方向负载预测。当数据中心无同期历史值,则只进行水平方向负载预测。
定义6,迁移紧急度:当同时有多个迁移需求时,为了避免迁移引起网络风暴等问题,系统根据计算资源情况和触发原因对待迁移对象划分紧急等级,然后根据迁移紧急度进行分批迁移。迁移紧急度分为3个等级,等级越高迁移的紧急度越高。具体地:
第3级迁移紧急度为:由于计算资源严重不足,或设备故障预警,或数据中心环境严重异常等原因触发的迁移;如:CPU利用率高于RCMax+2COffset或内存利用率高于RMMax+2MOffset或高温告警等。
第2级迁移紧急度为:由于计算资源负荷过高,或数据中心环境异常预警等原因触发的迁移;如:当CPU利用率高于RCMax+COffset等原因触发的迁移;
第1级迁移紧急度为:由于计算资源利用率超过负载阈值等原因触发的迁移;如:当CPU利用率高于RCMax等原因触发的迁移。
为了减少不必要的迁移工作,并考虑到不同情况下的需求,本发明优选将触发迁移的时机分为以下三种:
触发时机1:当迁移紧急度为第3级且达到第一个时间阈值TMax1时,则触发虚拟机迁移。
触发时机2:当迁移紧急度小于第3级且持续时间达到TMax1时,则计算TMax2时刻的负载预测值或负载经验值,若负载预测值或负载经验值达到负载阈值,则触发虚拟机迁移。
触发时机3:当迁移紧急度小于3级,计算资源利用率采集值超过负载阈值且持续时间达到TMax2,则触发虚拟机迁移。
可以理解,在所述步骤S32中,当源主机被触发迁移时,如果源主机上运行多个待迁移的计算资源,则需要在该主机上选择一个既能够释放所需的资源,又能最小化迁移开销的计算资源进行迁移。因此,所述步骤S32为了合理地对计算资源进行负载均衡调度,需要依据计算资源的运行状态,并按照设定的算法对其进行综合评估计算,从而得出每个虚拟机的调度优先级值。
假设计算资源的优先级值范围为P∈【1,10】,优先级值越大则计算资源被调度的优先级就越高。当P=10时,其调度优先级为最高,意味着必须对该计算资源进行迁移操作。当因故障原因触发对源主机的计算资源进行迁移时,该主机上所有计算资源都将被置为最高优先级被调度。
如图3所示,所述步骤S32中具体通过以下步骤对源主机上多个计算资源调度优先级进行评价:
步骤S321:获得源主机及其运行计算资源的状态信息,并根据成员函数对状态信息进行模糊化处理。计算资源状态信息包括:计算资源所占CPU、内存和磁盘等资源大小,计算资源最近迁移时间,触发迁移的需求信息等。模糊化成员函数可表示为:
P1,i=Fi(xi)
其中,xi为输入的计算资源状态信息,P1,i为xi的优先级取值。
例如:将计算资源占用CPU、内存大小等转化为占用内存的百分比,并将其分布到不同的区间,转化为模糊输出,作为评价该计算资源优先级的依据之一。
步骤S322:根据隶属度函数计算计算资源状态信息和多个调度规则的关联度。其中,计算值和关联度成正比,其函数可表示为:
其中,F(yj)为调度规则成员函数。
而调度规则具体包括:
规则1:资源需求匹配规则:根据迁移的资源需求满足度进行计算,计算资源能释放的资源大小与触发迁移所需资源大小越接近,则其关联度就越大。如:当因内存资源不足而触发计算资源迁移,所需内存资源为M1,计算资源迁移后能释放的内存为S1。若S1-M1<0,则计算资源关联度较小。若S1-M1≥0,则差值越小关联度越大。如果所计算资源S1与M1的差值都小于0,则同时迁移多个计算资源。
规则2:迁移开销最小化规则:由于在进行计算资源迁移时,主要的能耗是内存迁移拷贝,为了降低迁移的能耗成本,因此当有多个计算资源同时满足迁移条件时,即:S1-M1≥0,还需综合考虑内存,CPU和带宽等资源的使用率,内存使用率越低关联度越大。如:计算资源V1的内存使用率为M1,CPU的使用率为C1,带宽的使用率为L1,则需根据M1、C1、L1、M1×C1和M1/C1调整计算资源的关联度。
规则3:动态垂直分层规则:根据计算资源在服务器所驻的时长对其进行垂直分层管理,分为稳定层,中间层和活跃层。在进行计算资源优先级计算时,活跃层的计算资源关联度最高,其次为中间层和稳定层。随着主机中的应用程序运行时间的延伸,计算资源的迁移部署将更加均衡和趋于稳定。
规则4:后进优先出规则:按照计算资源在主机上已运行的时长进行排序,对于最后被迁入的计算资源优先被迁出。该规则有利于动态垂直分层的形成,对于经常被迁移的计算资源将会被分配到活跃层。
步骤S323:根据计算资源迁移触发条件,计算每个调度规则的关联度加权输出。其计算函数可表示为:
其中,ωi表示权重系数,为预设值。
步骤S324:通过精确化计算对关联度去模糊化,将推理得出的模糊输出转化为计算资源的调度优先级值Px。其输出计算函数可表示为:
P4,i=Pxi=∑Riωi
步骤S325:根据计算所得的优先级值对计算资源进行降序排列,并依据该优先级顺序进行迁移调度。
可以理解,在所述步骤S33中,当被迁移对象被选定之后,需要为被迁移对象选择新的目标主机,目标主机的选择是否合适合理,将直接影响迁移过程的能耗和二次迁移的概率。为了实现被迁移对象和目标主机间最优匹配调度,所述步骤S33提出了目标主机的选择约束规则。
其中,选择约束规则具体包括:
规则1:反资源竞争规则,当多个对象间有相同的特殊资源要求,或者服务器间的某些安全策略有冲突,则不能将这类对象部署到同一个服务器上。如:当与已有服务的通信端口冲突,则需要分开部署。
规则2:最大迁入数限制规则,如果一个服务器同时被多个对象选中,则可能会导致该目标主机的负载骤增及性能骤降,同时也会影响制冷系统的负载平衡,因而需要限制同时迁入的最大个数。该约束规则可描述为:
∑Vi≤SMax
其中,Vi表示适合该目标主机的对象,SMax表示目标主机同时迁入数限制。
规则3:组内优先规则,在选择目标主机时,首先遍历被迁移主机所在虚拟组内的主机集合,如果虚拟群组内的主机都无法满足迁移要求,则遍历其他虚拟组的目标主机。
可以理解,如图4所示,所述步骤S34具体包括以下步骤:
步骤S341:在目标服务器上预留资源:当确定需要将主机Sj上的虚拟机vmi动态迁移到主机Sk上,需要在主机Sk上预留足够的资源容器承载虚拟机vmi。
步骤S342:预迁移:将原服务器上迁移对象所有的内存页、CPU状态和磁盘数据全部迁移拷贝到目标服务器上,并保持迁移对象的服务在原服务器上正常运行。
步骤S343:迭代拷贝迁移:完成预迁移的数据拷贝之后,以后的每次迭代只拷贝在前一次拷贝过程中新产生的脏页,并依据任务集的管理方法控制每次迭代拷贝的数据内容。此时,迁移对象仍然原服务器上运行。
可以理解,所述步骤S343中,为了减少每次迭代拷贝的数据量,如图5所示,在迭代拷贝过程中,只有当页位图的to_send标注为l且to_skip标注为0时,才对此脏页面的数据进行拷贝迁移。其中to_send表示在上一轮迭代过程中产生的脏页,需要在本轮进行拷贝的页,而to_skip表示在本轮迭代开始到当前时间段内产生的脏页,不需要在本轮进行拷贝的页。在此情况下,认为系统已经完成了对该脏页面数据的更改。否则,认为脏页面从未被修改过,或者系统还未完成对脏页面数据的更改,或者该脏页面更新比较频繁,而不进行页表迁移。通过对页表的标记,可以有效地避免在内存页频繁被修改的情况下,页表被反复多次迁移并延长总迁移时间。但是当出现内存剧烈动荡时,需要通过迭代停止条件停止迭代,以缩短总的迁移时长。
步骤S344:冻结拷贝迁移:当迭代拷贝达到冻结管理条件时,停止原服务器上的虚拟机,并冻结迁移对象的所有数据,然后将所有未拷贝的脏页面全部拷贝至目标服务器上,包括CPU、内存和I/O等状态数据,以及磁盘数据,从而完成所有虚拟机数据的迁移。此时,原服务器上的迁移对象保持挂起状态,防止迁移失败引起数据丢失。
其中,由于冻结拷贝会导致服务的直接中断,因此冻结时机的选择非常关键。在选择冻结时机时,符合以下任一条件时,则进入停机拷贝状态:
条件1:最大迭代次数规则:当迭代拷贝的次数达到制定的数量时,停止迭代拷贝并启动冻结拷贝。
条件2:最小脏页面数规则:在迭代拷贝时,如果to_send和to_skip两个任务集中的脏页面总数小于最小脏页面阈值时,停止迭代拷贝并启动冻结拷贝。
条件3:最小收敛数规则:当to_send和to_skip两个任务集的总量持续收敛到一定的水平,连续MAX_COUNT(最大计数)次不再变化而处于稳定状态时,停止迭代拷贝并启动冻结拷贝。
条件4:最大页数规则:当迭代拷贝的脏页面总数大于源主机中页面总和时,停止迭代拷贝并启动冻结拷贝。
可以理解,所述步骤S35具体为:
完成冻结拷贝后,计算资源管理器将会对源主机和目标主机内的迁移对象做一次完整性校验,当确认两者的迁移对象数据完全一致时,将源主机的虚拟机对象删除,从而,使目标主机成为迁移对象的宿主机。最后,激活目标主机上虚拟机对象,完成虚拟机的整个动态迁移过程。
可以理解,所述步骤S3实现了对数据中心计算资源的动态整合管理,并且对迁移时机、迁移对象、目标服务器的选择以及迁移过程均进行了研究,避免出现频繁迁移,减小了迁移开销,从而有效降低了服务器在均衡迁移过程中的能耗,同时也提高计算资源的整体利用率。
可以理解,本发明的基于虚拟化技术的数据中心能耗管理方法,基于虚拟化技术整合或者共享物理设备,将多个物理设备上的任务转移到同一个物理设备上,可以减少物理设备的运行台数,而且在对服务器等计算资源虚拟化的同时,也减少了对数据中心电源和制冷的需求,降低数据中心的整体能耗。同时,由于物理设备的高度共享,可以减少物理设备所需的物理空间,节约数据中心空间资源。并且,还可以根据需求对业务进行动态部署和资源优化配置,从而快速响应和满足用户需求的变化,增强数据中心的灵活性。另外,通过对计算资源的动态迁移,可以将业务数据从故障预警的服务器上迁移到运行良好的服务器上,避免业务中断的风险。
再请参照图6所示,相应于本发明实施例一种数据中心能耗管理方法,本发明实施例二还提供一种数据中心能耗管理系统,包括:
分析模块,用于对数据中心的能耗因素进行分析,识别出数据中心的主要能耗设备;
虚拟化模块,用于对数据中心的服务器进行计算资源虚拟化;
迁移调度模块,用于对虚拟化的计算资源进行迁移调度,其中,对于计算资源利用率低的服务器采取整合迁移策略,对于计算资源利用率高的服务器采取均衡迁移策略。
可以理解地,如图7所示,所述迁移调度模块包括:
迁移时机选择单元,用于确定迁移时机;
迁移对象选择单元,用于选择迁移对象;
目标服务器选择单元,用于选择目标服务器;
数据拷贝迁移单元,用于进行数据拷贝迁移;
计算服务迁移单元,用于进行计算服务迁移;
联动调度单元,用于在完成计算资源的迁移后重新计算数据中心对空调系统的制冷需求,并根据节能调度策略对制冷供电设备进行联动调度。
本实施例一种数据中心能耗管理系统的工作原理及具体工作过程请参照本发明实施例一的说明,此处不再赘述。
通过上述说明可知,本发明实施例的有益效果在于:基于虚拟化技术整合或者共享物理设备,将多个物理设备上的任务转移到同一个物理设备上,可以减少物理设备的运行台数,而且在对服务器等计算资源虚拟化的同时,也减少了对数据中心电源和制冷的需求,降低数据中心的整体能耗。同时,由于物理设备的高度共享,可以减少物理设备所需的物理空间,节约数据中心空间资源。并且,还可以根据需求对业务进行动态部署和资源优化配置,从而快速响应和满足用户需求的变化,增强数据中心的灵活性。另外,通过对计算资源的动态迁移,可以将业务数据从故障预警的服务器上迁移到运行良好的服务器上,避免业务中断的风险。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (10)
1.一种数据中心能耗管理方法,其特征在于,包括:
步骤S1,对数据中心的能耗因素进行分析,识别出数据中心的主要能耗设备;
步骤S2,对数据中心的服务器进行计算资源虚拟化;
步骤S3,对虚拟化的计算资源进行迁移调度,对于计算资源利用率低的服务器采取整合迁移策略,对于计算资源利用率高的服务器采取均衡迁移策略。
2.根据权利要求1所述的基数据中心能耗管理方法,其特征在于,所述步骤S3中通过以下步骤对计算资源利用率高的服务器进行均衡动态迁移:
步骤S31,确定迁移时机;
步骤S32,选择迁移对象;
步骤S33,选择目标服务器;
步骤S34,进行数据拷贝迁移;
步骤S35,进行计算服务迁移。
3.根据权利要求2所述的数据中心能耗管理方法,其特征在于,所述步骤S3还包括以下步骤:
步骤S36,完成计算资源的迁移后,重新计算数据中心对空调系统的制冷需求,并根据节能调度策略对制冷供电设备进行联动调度。
4.根据权利要求2所述的数据中心能耗管理方法,其特征在于,所述步骤S31中触发迁移的时机包括:
迁移紧急度为第3级且达到第一个时间阈值TMax1,则触发虚拟机迁移;或者
当迁移紧急度小于第3级且持续时间达到TMax1时,则计算TMax2时刻的负载预测值或负载经验值,若负载预测值或负载经验值达到负载阈值,则触发虚拟机迁移;或者
当迁移紧急度小于3级,计算资源利用率采集值超过负载阈值且持续时间达到TMax2,则触发虚拟机迁移。
5.根据权利要求2所述的数据中心能耗管理方法,其特征在于,所述步骤S32中具体通过以下步骤来选择迁移对象:
步骤S321,获得源主机及其运行计算资源的状态信息,并根据成员函数对状态信息进行模糊化处理;
步骤S322,根据隶属度函数计算计算资源状态信息和多个调度规则的关联度,其中,多个调度规则包括资源需求匹配规则、迁移开销最小化规则、动态垂直分层规则和后进优先出规则;
步骤S323,根据计算资源迁移触发条件,计算每个调度规则的关联度加权输出;
步骤S324,通过精确化计算对关联度去模糊化,将推理得出的模糊输出转化为计算资源的调度优先级值;
步骤S325,根据计算所得的优先级值对计算资源进行降序排列,并依据该优先级顺序进行迁移调度。
6.根据权利要求2所述的数据中心能耗管理方法,其特征在于,所述步骤S33中基于反资源竞争规则、最大迁入数限制规则和组内优先规则来选取目标服务器。
7.根据权利要求2所述的数据中心能耗管理方法,其特征在于,所述步骤S34具体包括以下步骤:
步骤S341,在目标服务器上预留资源;
步骤S342,将原服务器上迁移对象所有的内存页、CPU状态和磁盘数据全部迁移拷贝到目标服务器上,并保持迁移对象的服务在原服务器上正常运行;
步骤S343,进行迭代拷贝迁移,并且每次迭代只拷贝在前一次拷贝过程中新产生的脏页,并依据任务集的管理方法控制每次迭代拷贝的数据内容;
步骤S344,当迭代拷贝达到冻结管理条件时,停止原服务器上的虚拟机,并冻结迁移对象的所有数据,然后将所有未拷贝的脏页面全部拷贝至目标服务器上。
8.根据权利要求7所述的数据中心能耗管理方法,其特征在于,在所述步骤S344中,当满足最大迭代次数规则、最小脏页面数规则、最小收敛数规则、最大页数规则中的任一种时则满足冻结管理条件。
9.根据权利要求7所述的数据中心能耗管理方法,其特征在于,所述步骤S35具体为:
完成冻结拷贝后,对源主机和目标主机内的迁移对象做一次完整性校验,当确认两者的迁移对象数据完全一致时,将源主机的虚拟机对象删除,并激活目标主机上的虚拟机对象,完成虚拟机的整个动态迁移过程。
10.一种数据中心能耗管理系统,其特征在于,包括:
分析模块,用于对数据中心的能耗因素进行分析,识别出数据中心的主要能耗设备;
虚拟化模块,用于对数据中心的服务器进行计算资源虚拟化;
迁移调度模块,用于对虚拟化的计算资源进行迁移调度,其中,对于计算资源利用率低的服务器采取整合迁移策略,对于计算资源利用率高的服务器采取均衡迁移策略。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011245415.7A CN112380005A (zh) | 2020-11-10 | 2020-11-10 | 一种数据中心能耗管理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011245415.7A CN112380005A (zh) | 2020-11-10 | 2020-11-10 | 一种数据中心能耗管理方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112380005A true CN112380005A (zh) | 2021-02-19 |
Family
ID=74578673
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011245415.7A Pending CN112380005A (zh) | 2020-11-10 | 2020-11-10 | 一种数据中心能耗管理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112380005A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112488447A (zh) * | 2020-11-02 | 2021-03-12 | 青海大学 | 一种基于需求响应合同的数据中心的功耗调控方法及系统 |
CN113204429A (zh) * | 2021-05-31 | 2021-08-03 | 深圳供电局有限公司 | 一种数据中心的资源调度方法及系统、调度设备、介质 |
CN116881085A (zh) * | 2023-09-05 | 2023-10-13 | 北京华鲲振宇智能科技有限责任公司 | 一种服务器能耗优化的方法 |
WO2023246717A1 (zh) * | 2022-06-23 | 2023-12-28 | 华为技术有限公司 | 液冷系统的控制方法、装置、设备和系统 |
CN117519980A (zh) * | 2023-11-22 | 2024-02-06 | 联通(广东)产业互联网有限公司 | 节能型数据中心 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102096461A (zh) * | 2011-01-13 | 2011-06-15 | 浙江大学 | 基于虚拟机迁移和负载感知整合的云数据中心节能方法 |
CN105763367A (zh) * | 2016-02-02 | 2016-07-13 | 四川长虹电器股份有限公司 | 一种基于虚拟化的数据中心的能耗管理方法 |
US20200310885A1 (en) * | 2019-03-27 | 2020-10-01 | International Business Machines Corporation | Cloud data center with reduced energy consumption |
-
2020
- 2020-11-10 CN CN202011245415.7A patent/CN112380005A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102096461A (zh) * | 2011-01-13 | 2011-06-15 | 浙江大学 | 基于虚拟机迁移和负载感知整合的云数据中心节能方法 |
CN105763367A (zh) * | 2016-02-02 | 2016-07-13 | 四川长虹电器股份有限公司 | 一种基于虚拟化的数据中心的能耗管理方法 |
US20200310885A1 (en) * | 2019-03-27 | 2020-10-01 | International Business Machines Corporation | Cloud data center with reduced energy consumption |
Non-Patent Citations (1)
Title |
---|
阮顺领等: "面向数据中心能效优化的虚拟机迁移调度方法", 《计算机应用与软件》, vol. 33, no. 1, pages 11 - 15 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112488447A (zh) * | 2020-11-02 | 2021-03-12 | 青海大学 | 一种基于需求响应合同的数据中心的功耗调控方法及系统 |
CN112488447B (zh) * | 2020-11-02 | 2022-04-29 | 青海大学 | 一种基于需求响应合同的数据中心的功耗调控方法及系统 |
CN113204429A (zh) * | 2021-05-31 | 2021-08-03 | 深圳供电局有限公司 | 一种数据中心的资源调度方法及系统、调度设备、介质 |
WO2023246717A1 (zh) * | 2022-06-23 | 2023-12-28 | 华为技术有限公司 | 液冷系统的控制方法、装置、设备和系统 |
CN116881085A (zh) * | 2023-09-05 | 2023-10-13 | 北京华鲲振宇智能科技有限责任公司 | 一种服务器能耗优化的方法 |
CN117519980A (zh) * | 2023-11-22 | 2024-02-06 | 联通(广东)产业互联网有限公司 | 节能型数据中心 |
CN117519980B (zh) * | 2023-11-22 | 2024-04-05 | 联通(广东)产业互联网有限公司 | 节能型数据中心 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112380005A (zh) | 一种数据中心能耗管理方法及系统 | |
CN110389838B (zh) | 一种适用于虚拟资源的实时调度和在线迁移管控方法 | |
CN106790726B (zh) | 一种基于Docker云平台的优先级队列动态反馈负载均衡资源调度方法 | |
CN109213555B (zh) | 一种面向虚拟桌面云的资源动态调度方法 | |
US8296760B2 (en) | Migrating a virtual machine from a first physical machine in response to receiving a command to lower a power mode of the first physical machine | |
CN112199194A (zh) | 基于容器集群的资源调度方法、装置、设备和存储介质 | |
CN113535409B (zh) | 一种面向能耗优化的无服务器计算资源分配系统 | |
CN105868004B (zh) | 一种基于云计算的业务系统的调度方法及调度装置 | |
CN106790565A (zh) | 一种网络附属存储集群系统 | |
CN113806018B (zh) | 基于神经网络和分布式缓存的Kubernetes集群资源混合调度方法 | |
CN110888714A (zh) | 容器的调度方法、装置和计算机可读存储介质 | |
CN112269641A (zh) | 一种调度方法、装置、电子设备及存储介质 | |
CN103179048A (zh) | 云数据中心的主机QoS策略变换方法及系统 | |
CN107977271B (zh) | 一种数据中心综合管理系统负载均衡方法 | |
US20210357269A1 (en) | Quality of service scheduling with workload profiles | |
CN111857977B (zh) | 弹性伸缩方法、装置、服务器和存储介质 | |
CN114356543A (zh) | 一种基于Kubernetes的多租户机器学习任务资源调度方法 | |
CN112559122A (zh) | 一种基于电力专用安防设备的虚拟化实例管控方法及系统 | |
Rajabzadeh et al. | New comprehensive model based on virtual clusters and absorbing Markov chains for energy-efficient virtual machine management in cloud computing | |
CN107071045A (zh) | 一种基于多租户的资源调度系统 | |
CN113672391B (zh) | 一种基于Kubernetes的并行计算任务调度方法与系统 | |
CN107203256A (zh) | 一种网络功能虚拟化场景下的节能分配方法与装置 | |
JP6574500B2 (ja) | マルチテナントソフトウェア定義ネットワークにおける仮想ネットワークのフローテーブル動的分割システムおよび方法 | |
CN115470006B (zh) | 一种基于微内核的负载均衡方法 | |
EP4206915A1 (en) | Container creation method and apparatus, electronic device, and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |