CN103412792B

CN103412792B - 一种云计算平台环境下的动态任务调度方法及装置

Info

Publication number: CN103412792B
Application number: CN201310300874.4A
Authority: CN
Inventors: 吴磊; 黄廷祝; 陈鹏; 刘杰; 武德安; 杨镜
Original assignee: CHENGDU GKHB INFORMATION TECHNOLOGY Co Ltd; University of Electronic Science and Technology of China
Current assignee: CHENGDU GKHB INFORMATION TECHNOLOGY Co Ltd; University of Electronic Science and Technology of China
Priority date: 2013-07-18
Filing date: 2013-07-18
Publication date: 2015-06-10
Anticipated expiration: 2033-07-18
Also published as: CN103412792A

Abstract

本发明公开了一种云计算平台环境下的动态任务调度方法，首先利用排队论对任务进行排队处理，然后利用人工免疫理论中的免疫克隆选择策略搜索出为集群中各节点上的不同虚拟机分配计算资源的近似最优配置，从而对集群中的计算资源进行合理配置，再利用负载均衡调整抗体基因，从而使得集群资源的配置更加满足任务处理的需要。本发明公开了一种云计算平台环境下的动态任务调度装置，包括亲和度计算模块、判断模块、确定模块和抗体相关模块。本发明所述云计算平台环境下的动态任务调度方法及装置，能够适应云平台的动态变化和虚拟化的环境，快速搜索出最优配置，提高集群资源利用率。

Description

一种云计算平台环境下的动态任务调度方法及装置

技术领域

本发明涉及软件技术领域，尤其涉及一种云计算平台环境下的动态任务调度方法及装置。

背景技术

对于异构分布式系统来说，构成系统的硬件、操作系统、程序设计、通信网络的异构性，导致了调度策略的很大不同，现有技术中存在大量任务调度方法，其主要分为两类：静态调度和动态调度。

然而，现有的调度方法没有一个被证明是最优的，例如，基于多目标优化遗传算法和进化编程的任务调度方法，该方法的目标是最小化调度长度和最大化可靠性，这两者是矛盾的，执行速度和可靠性成反比；基于虚拟机动态迁移的任务调度方法，该方法首先采用线性时序预测方法来预测虚拟机对资源的需求，并根据需求对虚拟机降序排列，然后采用首次满足背包算法将虚拟机部署在合适的节点上，然而，该方法仅仅考虑为每个应用分配一个虚拟机的场景，并不适用数据中心中一种虚拟机有多个副本的场景。

经过研究发现，使用人工智能的理论和方法可以找到更好的解，现在已经有了一些基于遗传算法、模拟退火算法、蚁群算法的调度方法，同时也有研究人员将多种调度算法结合使用，取得了较好的结果。其中，混合遗传调度算法是一种解决异构分布式环境下动态任务调度问题的有效方法，该算法加入了任务分组策略和适当的负载平衡处理，加快了算法的收敛速度。发明人在实现本发明创造的过程中发现：虽然混合遗传调度算法在异构环境下取得了比较好的效果，但是其主要的理论基础仍然没有脱离传统的遗传算法，遗传算法收敛速度缓慢等缺点仍然存在。

发明内容

有鉴于此，本发明提供了一种云计算平台环境下的动态任务调度方法及装置，用以解决现有技术中的混合遗传调度算法收敛速度慢的问题，其技术方案如下：

一方面，一种云计算平台环境下的动态任务调度方法，其特征在于，预先确定各节点单独对各类任务的最大平均响应次数、各节点分配给虚拟机的资源比例，并且，通过排队论确定云计算平台对各类任务的期望平均服务率，所述方法包括：

(a)初始化抗体种群，得到抗体种群Aⁿ=[A₁ A₂…A_t]，并记录迭代次数n为0，其中，抗体种群Aⁿ中的每个抗体代表一种配置方案，每个抗体被编码为多个等位基因，每个等位基因对应一个节点，每个等位基因由多个子段组成，每个子段对应一种虚拟机；

(b)基于所述云计算平台对各类任务的期望平均服务率、各节点单独对各类任务的最大平均响应次数、各节点分配给虚拟机的资源比例计算抗体种群Aⁿ中各个抗体的抗体-抗原亲和度；

(c)判断是否存在抗体-抗原亲和度大于预设值的抗体，如果是，则确定该抗体为最优抗体，以使云计算平台基于所述最优抗体进行任务调度；否则转入步骤(d)；

(d)对抗体种群Aⁿ中的每个抗体进行克隆操作，得到包括t个抗体子群的抗体种群

(e)对所述抗体种群的t个抗体子群中的抗体按设定规则进行重组，得到包括t个重组抗体子群的抗体种群

(f)对所述抗体种群中每个抗体的编码中指定的等位基因进行变异操作，得到包括t个变异抗体子群的抗体种群

(g)将抗体种群Aⁿ中的t个抗体分别并入所述抗体种群中对应的变异抗体子群中，得到包括t个组合抗体子群的抗体种群，将该抗体种群中每个组合抗体子群中亲和度最大的抗体进行组合，得到新一代抗体种群Aⁿ⁺¹，并将迭代次数n更新为n+1，然后转入步骤(b)。

其中，所述通过排队论确定云计算平台对各类任务的期望平均服务率的过程包括：

用排队论对任务输入流进行建模，确定各类任务的到达率；

基于确定出的所述各类任务的到达率，通过排队模型M/M/1/∞确定所述云计算平台对各类任务的期望平均服务率。

其中，对抗体种群Aⁿ中的每个抗体进行克隆操作的过程包括：

确定每个抗体的抗体-抗体亲和度；

通过每个抗体的抗体-抗原亲和度和抗体-抗体亲和度确定每个抗体的克隆规模；

通过确定出的克隆规模对抗体进行克隆操作。

可选的，上述方法包括：

在确定出最优抗体后，对所述最优抗体进行解码得到集群各节点上部署的虚拟机类型以及各类虚拟机的计算资源比例；

依据所述集群各节点上部署的虚拟机类型以及各类虚拟机的计算资源比例调整节点运行数量和节点上运行的虚拟机类型，并向节点上的虚拟机调度任务。

可选的，上述方法还包括：

确定抗体中额外资源最多的虚拟机V_max和资源最紧缺的虚拟机V_min；

在部署有所述虚拟机V_max的节点中选择对任务处理能力最弱的一个节点，在抗体亲和度满足预设条件的前提下，均衡该节点上分配给虚拟机的资源，使分配给虚拟机V_max的资源减少，分配给所述虚拟机V_min的资源增加。

另一方面，一种云计算平台环境下的动态任务调度装置，包括：

初始化模块，用于初始化抗体种群，得到抗体种群Aⁿ=[A₁ A₂…A_t]，并记录迭代次数n为0，其中，抗体种群Aⁿ中的每个抗体代表一种配置方案，每个抗体被编码为多个等位基因，每个等位基因对应一个节点，每个等位基因由多个子段组成，每个子段对应一种虚拟机；

亲和度计算模块，用于基于预先确定的各节点单独对各类任务的最大平均响应次数、各节点分配给虚拟机的资源比例，以及通过排队论确定的云计算平台对各类任务的期望平均服务率计算抗体种群Aⁿ中各个抗体的抗体-抗原亲和度，所述抗体-抗原亲和度为云计算系统所能提供的计算能力与任务所需计算能力的吻合度；

判断模块，用于判断是否存在抗体-抗原亲和度大于预设值的抗体；

第一确定模块，用于当抗体的抗体-抗原亲和度大于预设值时，确定对应的抗体最优抗体，以使云计算平台基于所述最优抗体进行任务调度；

抗体克隆模块，用于当抗体的抗体-抗原亲和度小于或等于预设值时，对抗体种群Aⁿ中的每个抗体进行克隆操作，得到包括t个抗体子群的抗体种群

抗体重组模块，用于对所述抗体种群的t个抗体子群中的抗体按设定规则进行重组，得到包括t个重组抗体子群的抗体种群

抗体变异模块，用于对所述抗体种群中每个抗体的编码中指定的等位基因进行变异操作，得到包括t个变异抗体子群的抗体种群

抗体选择模块，用于将抗体种群Aⁿ中的t个抗体分别并入所述抗体种群中对应的变异抗体子群中，得到包括t个组合抗体子群的抗体种群，将该抗体种群中每个组合抗体子群中亲和度最大的抗体进行组合，得到新一代抗体种群Aⁿ⁺¹，并将迭代次数n更新为n+1。

其中，所述抗体克隆模块包括：

第一确定子模块，用于确定每个抗体的抗体-抗体亲和度；

第二确定子模块，用于通过每个抗体的抗体-抗原亲和度和抗体-抗体亲和度确定每个抗体的克隆规模；

克隆子模块，用于通过确定出的克隆规模对抗体进行克隆操作；

可选的，上述装置还包括：

抗体解码模块，用于在确定出最优抗体后，对所述最优抗体进行解码得到集群各节点上部署的虚拟机类型以及各类虚拟机的计算资源比例；

任务调度模块，用于依据所述集群各节点上部署的虚拟机类型以及各类虚拟机的计算资源比例调整节点运行数量和节点上运行的虚拟机类型，并向节点上的虚拟机调度任务。

可选的，上述装置还包括：

第二确定模块，用于确定抗体中额外资源最多的虚拟机V_max和资源最紧缺的虚拟机V_min；

资源均衡模块，用于在部署有所述虚拟机V_max的节点中选择对任务处理能力最弱的一个节点，在抗体亲和度满足预设条件的前提下，均衡该节点上分配给虚拟机的资源，使分配给虚拟机V_max的资源减少，分配给所述虚拟机V_min的资源增加。

上述技术方案具有如下有益效果：

本发明提供的云计算平台环境下的动态任务调度方法及装置，首先利用排队论对任务进行排队处理，然后用人工免疫理论中的免疫克隆选择策略对集群中的计算资源进行合理配置，本发明能快速搜索出最优配置，提高集群资源利用率。另外，负载均衡处理进一步提高了搜索出最优配置的速度，并且使得集群资源的配置更加满足任务处理的需要。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种云计算平台环境下的动态任务调度方法的流程示意图；

图2为本发明实施例二提供的另一种云计算平台环境下的动态任务调度方法的流程示意图；

图3为本发明实施例提供的云计算平台环境下的动态任务调度方法与现有技术中的任务调度方法的收敛速度情况比较图；

图4为本发明实施例提供的云计算平台环境下的动态任务调度方法与现有技术中的任务调度方法的收敛精度情况比较图；

图5为负载均衡对本发明实施例提供的云计算平台环境下的动态任务调度方法的收敛时间的影响图；

图6为负载均衡对本发明实施例提供的云计算平台环境下的动态任务调度方法的收敛精度的影响图；

图7为基于本实施例提供的云计算平台环境下的动态任务调度方法的理论资源利用率图；

图8为本发明实施例提供的一种云计算平台环境下的动态任务调度装置的结构示意图；

图9为本发明实施例提供的另一种云计算平台环境下的动态任务调度装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

人工免疫系统，是继神经网络、模糊逻辑和进化算法后人工智能的又一个研究热点，其研究成果涉及控制、数据处理、优化学习和故障诊断的许多领域。考虑到云计算环境本身的软硬件环境很复杂，并且任务到达又时时刻刻都在发生变化，而人工免疫系统能够提供噪声忍耐、无教师学习、自组织、记忆等进化学习机理，结合了分类器、神经网络、机器推理等系统的一些优点，因此本发明将人工免疫系统应用于云计算平台，实现动态任务调度。

实施例一

请参阅图1，为本发明实施例一提供的一种云计算平台环境下的动态任务调度方法的流程示意图。在执行本实施例提供的方法步骤之前，预先确定以下数据(假设在云计算平台中，集群节点数为C，系统总共有m种类型的任务)：m类任务的到达率{λ_i},i=1,2,…m；云计算平台对m类任务的期望平均服务率{μ_i},i=1,2,…m；各节点单独对各类任务的最大平均响应次数矩阵{R_ij}_m·C，i=1,2,…m,j=1,2,…C、各节点分配给虚拟机的资源比例矩阵{W_ij}_m·C,i=1,2,…m,j=1,2,…C。

其中，确定云计算平台对各类任务的期望平均服务率、各类任务到达率的过程包括：用排队论对任务输入流进行建模，确定各类任务到达率；通过具体排队模型M/M/1/∞确定在任务到达率为{λ_i}条件下，满足系统对各任务平均响应时间分别小于{E_ti}和总任务平均响应时间小于T₀情况下最小的各任务期望平均服务率{μ_i}。

下面对确定云计算平台对各类任务的期望平均服务率、各类任务到达率的过程进行详细说明：

在本实施例中，对于大量涌入系统的任务，首先进行排队，通过对任务流排队现象的概率特性进行周期性地监测、分析，确定任务到达的随机分布，并估计其参数值。不同类型的任务(如任务r_i)到达系统服从不同的概率分布，相同类型任务的到达间隔相互独立，且服从同一参数λ_i的负值数分布，λ_i由系统统计监测数据得到，则可以得到所有m类任务的总到达率：

λ = Σ_{i = 1}^{m} λ_{i} - - - (1)

本实施例中统计单位时间内到达任务r_i的总数λ_i。

同时，由于在云计算平台中，服务器配置彼此之间存在差异，因此，要求所有服务器都有统一的计算能力是不现实的，并且这也是云计算异构分布式的主要特征，而对于虚拟机层也同样适用，因此，本实施例将云计算平台看作只有唯一服务台，采用具有可变服务率的M/M/1/∞排队模型对云计算系统进行建模，设μ为当前条件下所需的系统总服务率：

μ = Σ_{i = 1}^{m} μ_{i} - - - (2)

其中，μ_i为云计算系统对第i类任务的平均服务率。系统对于第i类任务的服务强度可表示为：

E_{ρi} = \frac{λ_{i}}{μ_{i}} - - - (3)

云计算系统对所有m类任务的期望服务强度为：

E_{ρ} = \overset{m}{Σ} E_{ρi} - - - (4)

此外，云计算系统对第i类任务的平均响应时间（响应时间等于等待时间加上服务时间）：

E_{ti} = \frac{1}{μ_{i} - λ_{i}} - - - (5)

云计算系统对所有m类任务的期望平均响应时间为：

E_{time} = Σ_{i = 1}^{m} \frac{λ_{i}}{λ} E_{ti} - - - (6)

为实现对系统的最优控制，在系统中预先设定一些必要的参数T_i，T_i>0(i=0,1,2,…m)，T_i代表系统对于第i类任务的响应时间上限，其中，T₀表示云计算系统对所有m类任务的平均响应时间上限，并设定约定规则：

\{\begin{matrix} Min μ_{i} & i = 1,2, \cdot \cdot \cdot m . \\ s . t \\ 0 < E_{ti} < T_{i} & i = 1,2, \cdot \cdot \cdot m \\ 0 < E_{time} < T_{0} \end{matrix} - - - (7)

由此，可以得到在理论上所需的云计算系统对任务r_i最低服务率μ_i，并且系统总服务率μ能够保证系统期望平均响应时间，第i类任务的期望平均服务率μ_i能够保证期望平均响应时间满足系统需求。

另外，需要说明的是，任务类型与节点上运行的虚拟机对应，即，m类任务对应m类虚拟机。虚拟机V_i在节点j上的副本表示为F_ij，F_ij=0表示节点j未启动V_i，F_ij=1表示节点j启动V_i，如果节点j上没有启动的虚拟机，则表示节点j没有任何任务等待执行，处于待机状态。云计算系统将根据V_i对节点资源的需求变化情况动态调整节点运行数量和其上运行的虚拟机类型。此外，还需要知道当节点j仅部署虚拟机V_i时，每秒响应任务r_i的最大平均次数R_ij。然后假设节点j分配给虚拟机V_i的CPU资源为W_ij（所占比例，用一位小数表示），故节点j提供给任务r_i的响应能力是每秒U_ij次，记：

U_ij=R_ij×W_ij (8)

以上述的参数为基础，对集群进行合理配置，在保证云计算系统服务质量的前提下，搜索出能提高云计算资源利用率的最优配置，集群配置的准则定义为：

\{\begin{matrix} Max f, \\ s . t : \\ Σ_{i = 1}^{m} W_{ij} \leq W_{cpu}, &ForAll; j &Element; C \end{matrix} - - - (9)

其中，节点j为在其上所部署虚拟机分配的CPU资源总和应小于节点j的CPU资源上限W_cpu，节点j在其上所部署虚拟机分配的CPU资源总和为0表示节点j处于待机状态，f表示云计算系统所能提供的计算能力与任务所需计算能力的吻合度函数（即下文中的抗体-抗原亲和度函数）。

在确定出上述数据后，给出本发明实施例提供的方法，该方法可以包括：

步骤S101：初始化抗体种群，得到抗体种群Aⁿ=[A₁ A₂…A_t]，并记录迭代次数n=0。

其中，抗体种群Aⁿ中的每个抗体代表一种配置方案，每个抗体被编码为多个等位基因，每个等位基因对应一个节点，每个等位基因由多个子段组成，每个子段对应一种虚拟机。

设定集群节点数为C，系统共有m类任务，即具有m类虚拟机，那么，每个抗体A_x编码为A_x=α₁α₂…α_C(x=1,2,…,t),α₁，α₂，…，α_C均为抗体A_x的等位基因，每个等位基因α_j(j=1,2,…,C)对应一个节点，每个等位基因α_j由m个子段组成，因此，每个等位基因编码长为m。在本实施例中，可采用十进制编码方式，编码值a_ij=W_ij×10，其中，W_ij为节点j上分配给类型为i的虚拟机的资源比例。具体的编码规则为：

(1)α_j长m，每一位都是0至9的整数，例如，α_j的第一位表示节点j分配给虚拟机V₁的CPU资源，如果第一位为5，则表示节点j分配50%的CPU资源给虚拟机V₁，其它以此类推。

(2)α_j中m个编码值之和不能超过10，这意味着j节点分配给各虚拟机的资源之和不能超过j节点所能提供的有效计算资源，保证了节点的性能。

下面以5个节点，3种虚拟机为例：设各节点分配给虚拟机的CPU资源比例如表1所示。

表1

	V₁	V₂	V₃
				节点1	100%	0	0

节点2	20%	50%	30%
				节点3	0	0	60%
节点4	0	0	0
				节点5	0	0	0

5个节点构成5个等位基因，每个等位基因有3个子段，节点1分配100%的资源给虚拟机V₁，节点2分配给虚拟机V₁、V₂、V₃的资源分别为20%、50%、30%，节点3分配60%的资源给虚拟机V₃，其它节点处于待机状态。抗体编码如下所示：

(\begin{matrix} α_{1} & α_{2} & α_{3} & α_{4} & α_{5} \end{matrix}) = (\begin{matrix} 10 & 2 & 0 & 0 & 0 \\ 0 & 5 & 0 & 0 & 0 \\ 0 & 3 & 6 & 0 & 0 \end{matrix})

抗体A_x编码为一个m×C维的非负整数矩阵，即A_x={a_ij}_m·C。

步骤S102：基于云计算平台对各类任务的期望平均服务率、各节点单独对各类任务的最大平均响应次数、各节点分配给虚拟机的资源比例计算抗体种群Aⁿ中各个抗体的抗体-抗原亲和度。

其中，抗体-抗原亲和度为云计算系统所能提供的计算能力与任务所需计算能力的吻合度，定义为：

f (A_{x}) = \frac{1}{1 + e (A_{x})} - - - (10)

其中，e(A_x)定义为：

e (A_{x}) = \frac{\sqrt{Σ_{i = 1}^{m} {(Σ_{j = 1}^{C} U_{ij} - (1 + ϵ) \cdot μ_{i})}^{2}}}{\sqrt{Σ_{i = 1}^{m} μ_{i}^{2}}} - - - (11)

上式中的ε为一正小数，可以按需求取适当值，ε值能使最终的解更接近比期望值稍大的一侧，保证最终系统能够提供足够的计算能力，f(A_x)就是抗体A_x与抗原之间的亲和度函数，取值在0到1之间，其值越大，则抗原对其刺激作用越大，克隆规模越大。

步骤S103：判断是否存在抗体-抗原亲和度大于预设值的抗体，如果是，则确定该抗体为最优抗体，以使云计算平台基于最优抗体进行任务调度，最优抗体所代表的配置方案为最优配置方案；否则转入步骤S104。

步骤S104：对抗体种群Aⁿ中的每个抗体进行克隆操作，得到包括t个抗体子群的抗体种群

在人工免疫系统中，克隆是指通过复制而形成一个群体，抗体复制的规模与抗体的抗体-抗原亲和度和抗体-抗体亲和度有关。抗体A_x复制的规模p_x通过下式确定：

p_{x} = Int (\frac{f (A_{x})}{Σ_{x = 1}^{t} f (A_{x})} \cdot Θ_{x} \cdot P) - - - (12)

其中，f(A_x)为抗体A_x的抗体-抗原亲和度，Θ_x为抗体A_x的抗体-抗体亲和度，P为与克隆规模有关的设定参数，且P>t，Int(·)为上取整函数。

Θ_x的定义为：Θ_x=min{D_xy}=min{exp(||A_x-A_y||)}，x≠y，x,y=1,2,…t。定义抗体种群空间I，I={Α|Α={a_ij}_m·C,(a_1j+a_2j+…a_mj)≤10,a_ij≥0}，A_x、A_y表示I中的两个不同的抗体，令 D_xy表示两抗体之间的差异，由于本实施例采用十进制编码，所以D_xy取为欧几里德距离，并进行归一化处理。Θ_x表示抗体A_x与其它抗体之间差异的最小值，其值越大，则抗体之间的抑制作用越大。D_xy的具体计算式为：

D_{xy} = \frac{\sqrt{Σ_{j = 1}^{C} Σ_{i = 1}^{m} {(a_{ij}^{x} - a_{ij}^{y})}^{2}}}{Σ_{z &NotEqual; x}^{t} \sqrt{Σ_{j = 1}^{C} Σ_{i = 1}^{m} {(a_{ij}^{x} - a_{ij}^{z})}^{2}}} - - - (13)

对抗体种群Aⁿ=[A₁ A₂…A_t]的克隆操作T(·)可以表示为：

Y_{1}^{n} = T (A^{n})

= T (A_{1}, A_{2}, \cdot \cdot \cdot A_{t}) - - - (14)

= T (A_{1}) + T (A_{2}) + \cdot \cdot \cdot T (A_{t})

= {A_{1,1}, A_{1,2}, \cdot \cdot \cdot, A_{1, p 1}} + {A_{2,1}, A_{2,2}, \cdot \cdot \cdot, A_{2, p 2}} + \cdot \cdot \cdot + {A_{t, 1}, A_{t, 2}, \cdot \cdot \cdot, A_{t, pt}}

步骤S105：对抗体种群的t个抗体子群中的抗体按设定规则进行重组，得到包括t个重组抗体子群的抗体种群

重组是在抗体层面对抗体种群的修改操作，将同一抗体子群中的抗体分开，不同抗体子群中的抗体组合在一起，它可以促进不同抗体之间的基因交流，有利于丰富种群多样性。重组操作可表示为T^C(·)。

Y_{2}^{n} = T^{C} (Y_{1}^{n}) - - - (15)

= {A_{1,1}^{'}, A_{1,2}^{'}, \cdot \cdot \cdot, A_{1, p_{1}}^{'}} + {A_{2.1}^{'}, A_{2,2}^{'}, \cdot \cdot \cdot, A_{2, p_{2}}^{'}} + \cdot \cdot \cdot + {A_{t, 1}^{'}, A_{t, 2}^{'}, \cdot \cdot \cdot, A_{t, p_{t}}^{'}}

其中，i=1,2,…,t,j=1,2,…,p_i。

步骤S106：对抗体种群中每个抗体的编码中指定的等位基因进行变异操作，得到包括t个变异抗体子群的抗体种群

基因变异将是在基因编码的层面对抗体进行变异。设是一个父解，本实施例按概率p_m对分量α_k(1≤k≤C)进行变异，已知编码中α_k是一个m维列向量，本实施例采用按位变异的策略T^B(·)，即对抗体的第k位编码，用另一个m维列向量替换。

\begin{matrix} Y_{3}^{n} = T^{B} (Y_{2}^{n}) \\ = {A_{1,1}^{''}, A_{1,2}^{''}, \cdot \cdot \cdot, A_{1, p_{1}}^{''}} + {A_{2,1}^{''}, A_{2,2}^{''}, \cdot \cdot \cdot, A_{2, p_{2}}^{''}} + \cdot \cdot \cdot + {A_{t, 1}^{''}, A_{t, 2}^{''}, \cdot \cdot \cdot, A_{t, p_{t}}^{''}} \end{matrix} - - - (16)

其中，i=1,2,…,t,j=1,2,…,p_i。

变异后的解为：其中，满足一些必要的性质：定义m维列向量中所有值取值为非负整数，且所有值之和在0到10之间。所以的取值将有一个确定的范围，根据定义可知的取值空间为I_m，I_m的空间规模为：（m¹¹-1）/(m-1)。

步骤S107：将抗体种群Aⁿ中的t个抗体分别并入抗体种群中对应的变异抗体子群中，得到包括t个组合抗体子群的抗体种群，将该抗体种群中每个组合抗体子群中亲和度最大的抗体进行组合，得到新一代抗体种群Aⁿ⁺¹，并将迭代次数n更新为n+1，然后转入步骤S102。

上述操作可表示为T^S(·)，即通过局部择优，从经过变异操作得到的抗体种群的不同子群中分别提取在子群中亲和度相对良好的抗体，实现了种群的压缩和优胜劣汰。

A^{n + 1} = T^{S} (Y_{3}^{n} \cup A^{n})

= T^{S} ({A_{1}, A_{1,1}^{''}, A_{1.2}^{''}, \cdot \cdot \cdot, A_{1, p_{1}}^{''}} + {A_{2}, A_{2,1}^{''}, A_{2,2}^{''}, \cdot \cdot \cdot, A_{2, p_{2}}^{''}} + \cdot \cdot \cdot

\cdot \cdot \cdot + {A_{t}, A_{t, 1}^{''}, A_{t, 2}^{''}, \cdot \cdot \cdot, A_{t, p_{t}}^{''}})

= T^{S} (A_{1}, A_{1,1}^{''}, A_{1,2}^{''}, \cdot \cdot \cdot, A_{1, p_{1}}^{''}, \cdot \cdot \cdot, A_{2}, A_{2,1}^{''}, A_{2.2}^{''}, \cdot \cdot \cdot, A_{2, p_{2}}^{''}, + \cdot \cdot \cdot - - - (17)

\cdot \cdot \cdot +, A_{t}, A_{t, 1}^{''}, A_{t, 2}^{''}, \cdot \cdot \cdot, A_{t, p_{t}}^{''})

= {A_{1}^{''}, A_{2}^{''}, \cdot \cdot \cdot, A_{t}^{''}}

其中，Αⁿ⁺¹为下一代抗体种群。在上述操作中，由于将父解也同时并入抗体种群中，这样保证了抗体群中的最优解不会在算法迭代过程中变差，也保证了算法按照概率1收敛到最优种群集。

本发明实施例提供的云计算平台环境下的动态任务调度方法，首先利用排队论对任务进行排队处理，然后用人工免疫理论中的免疫克隆选择策略对集群中的计算资源进行合理配置，本发明能快速搜索出最优配置，提高集群资源利用率。

实施例二

请参阅图2，为本发明实施例二提供的一种云计算平台环境下的动态任务调度方法的流程示意图。在执行本实施例提供的方法步骤之前，预先确定以下数据(假设在云计算平台中，集群节点数为C，系统总共有m种类型的任务)：m类任务的到达率{λ_i},i=1,2,…m；云计算平台对m类任务的期望平均服务率{μ_i},i=1,2,…m；各节点单独对各类任务的最大平均响应次数矩阵{R_ij}_m·C，i=1,2,…m,j=1,2,…C、各节点分配给虚拟机的资源比例矩阵{W_ij}_m·C,i=1,2,…m,j=1,2,…C。在确定出上述数据后，给出本发明实施例提供的方法，该方法可以包括：

步骤S201：初始化抗体种群，得到抗体种群Aⁿ=[A₁ A₂…A_t]，并记录迭代次数n=0。其中，抗体种群Aⁿ中的每个抗体代表一种配置方案，每个抗体被编码为多个等位基因，每个等位基因对应一个节点，每个等位基因由多个子段组成，每个子段对应一种虚拟机。

步骤S202：计算抗体种群Aⁿ中各个抗体的抗体-抗原亲和度。其中，抗体-抗原亲和度为云计算系统所能提供的计算能力与任务所需计算能力的吻合度。

步骤S203：判断抗体的抗体-抗原亲和度是否大于预设值，如果是，则确定对应的抗体为最优抗体，然后转入步骤S208；否则转入步骤S204。

步骤S204：对抗体种群Aⁿ中的每个抗体进行克隆操作，得到包括t个抗体子群的抗体种群

步骤S205：对抗体种群的t个抗体子群中的抗体按设定规则进行重组，得到包括t个重组抗体子群的抗体种群

步骤S206：对抗体种群中每个抗体的编码中指定的等位基因进行变异操作，得到包括t个变异抗体子群的抗体种群

步骤S207：将抗体种群Aⁿ中的t个抗体分别并入抗体种群中对应的变异抗体子群中，得到包括t个组合抗体子群的抗体种群，将该抗体种群中每个组合抗体子群中亲和度最大的抗体进行组合，得到新一代抗体种群Aⁿ⁺¹，并将迭代次数n更新为n+1，然后转入步骤S202。

需要说明的是，上述步骤的与实施例一相同，详情请参见实施例一，在此不作赘述。

步骤S208：对最优抗体进行解码得到集群各节点上部署的虚拟机类型以及各类虚拟机的计算资源比例。

步骤S209：依据集群各节点上部署的虚拟机类型以及各类虚拟机的计算资源比例调整节点运行数量和节点上运行的虚拟机类型，并向节点上的虚拟机调度任务。

其中，向节点上的虚拟机调度任务的规模通过以下方式确定：以节点j为例，向节点j上的虚拟机Vi调度任务r_i，任务的规模λ_ij为：

λ_{ij} = \frac{R_{ij} \times W_{ij} \times λ_{i}}{μ_{i}} - - - (18)

本实施例提供的方法还可以包括：

步骤S210：确定抗体中额外资源最多的虚拟机V_max和资源最紧缺的虚拟机V_min。

步骤S211：在部署有虚拟机V_max的节点中选择对任务处理能力最弱的一个节点，在抗体亲和度满足预设条件的前提下，均衡该节点上分配给虚拟机的资源，使分配给虚拟机V_max的资源减少，分配给虚拟机V_min的资源增加。

重复执行步骤S210-步骤S211预设次数。

其中，均衡处理能力最弱的节点上分配给虚拟机的资源的过程具体为：判断该节点上是否开启虚拟机V_min，如果是，则在该节点上减少对V_max的一个单位（1/10）的CPU资源分配，并且将这部分CPU资源转移给此节点上的虚拟机V_min，否则，开启虚拟机V_min。

需要说明的是，步骤S210-步骤S211为负载平衡处理，为辅助调节的过程，在具体实行时不宜太频繁，本实施例仅在免疫循环的前几个循环、中间周期性间隔的几个循环和最后一次循环时使用，前几个循环利用负载均衡可以大大加快算法前期的收敛速度。

对本实施例提供的云计算平台环境下的动态任务调度方法进行了仿真实验，并在相同实验条件下与混合遗传算法相比较，以验证该方法的正确性和有效性。实验模拟了有20个节点的计算机集群，其中5台CPU分别为Intel(R)Core(TM)2Duo2.83GHz的Dell主机、5台CPU分别为Intel(R)Core(TM)2Duo2.33GHz的Dell主机和10台CPU为AMDAthlon(TM)64X23600+1.9GHz的Lenovo主机，并且通过查阅文献取得这三种主机对3类典型应用：BrowsingMix(BM)，ShoppingMix(SM)和OrderingMix(OM)的响应能力，如表2所示。

表2

	Req/s(BM)	Req/s(SM)	Req/s(OM)
				Dell(2.83GHz)	235	197	130
Dell(2.33GHz)	190	163	91
				Lenovo(1.9GHz)	132	89	57

实验过程中的应用级任务到达数据由程序自动生成（每类任务到达率在100个每秒～300个每秒之间），每类任务r_i的期望响应时间上限T_i设为0.05秒，共有6类不同的任务，对应六类不同的虚拟机。初始抗体种群大小设为100个。

请参阅图3，为本实施例提供的方法与混合遗传算法的收敛速度情况比较图，从图3可以看出，在同等实验条件下，运用本实施例提供的方法的收敛速度快于运用混合遗传算法，虽然本实施例提供的方法的收敛速度出现了较大的波动（1秒至7秒），但是图中数据显示运用本实施例提供的方法收敛时间在2秒以下的实验占60%以上，而混合遗传算法仅为30%，收敛时间在3秒以上的，本实施例提供的方法为15%，混合遗传算法为55%。

请参阅图4，本实施例提供的方法与混合遗传算法的收敛精度情况比较图，从图4可以看出，在同等的实验环境下，本实施例提供的方法比混合遗传算法具有更高的收敛精度：混合遗传算法的收敛精度在95%左右，并且振动幅度较大（3%），而本实施例提供的方法的收敛精度基本能维持在97%以上，波动范围也减小到一个百分点以内。因此，本实施例提供的方法的收敛精度明显高于混合遗传算法。

请参阅图5，为负载均衡对本实施例提供的方法的收敛时间的影响，从图5可以看出，当不进行负载均衡处理时，本实施例提供的方法收敛速度很慢，并且很不稳定，收敛所需循环次数在10至40次之间大幅波动，这种情况显然无法满足云环境下实时动态调度的需求；而当算法加入了负载均衡之后，算法的收敛速度大大提高，所需循环次数基本维持在6次以内，而且也更加稳定。

请参阅图6，为在20个节点，6种虚拟机的情况下负载均衡对本实施例提供的方法的收敛精度的影响图，从图6中可以看出，虽然本实施例提供的方法的收敛精度已经基本达到95%以上，但是在加入了负载均衡处理之后，还是明显提高了该算法的收敛精度，基本能维持在97%以上，波动范围也减小到一个百分点以内。因此，负载均衡处理是优化本实施例提供的方法的有利工具，起到了加快收敛速度和提高收敛精度的一举两得的作用。

请参阅图7，为基于本实施例提供的任务调度方法理论资源利用率示意图，理论资源（这里指CPU资源）利用率普遍能达到90%以上，这对于当下数据中心资源利用率只有50%左右的现状来说，具有重要的应用与研究价值。

本发明实施例提供的云计算平台环境下的动态任务调度方法，首先利用排队论对任务进行排队处理，然后用人工免疫理论中的免疫克隆选择策略对集群中的计算资源进行合理配置，再利用负载均衡调整抗体基因，使得集群资源的配置更加满足任务处理的需要，本发明实施例提供的方法能适应云平台的动态变化和虚拟化的环境，快速搜索出最优配置，提高集群资源利用率。

实施例三

请参阅图8，为本发明实施例三提供的一种云计算平台环境下的动态任务调度装置，该装置可以包括：初始化模块101、亲和度计算模块102、判断模块103、第一确定模块104、抗体克隆模块105、抗体重组模块106、抗体变异模块107和抗体选择模块108。其中：

初始化模块101，用于初始化抗体种群，得到抗体种群Aⁿ=[A₁ A₂…A_t]，并记录迭代次数n为0，其中，抗体种群Aⁿ中的每个抗体代表一种配置方案，每个抗体被编码为多个等位基因，每个等位基因对应一个节点，每个等位基因由多个子段组成，每个子段对应一种虚拟机。

亲和度计算模块102，用于基于预先确定的各节点单独对各类任务的最大平均响应次数、各节点分配给虚拟机的资源比例，以及通过排队论确定的云计算平台对各类任务的期望平均服务率计算抗体种群Aⁿ中各个抗体的抗体-抗原亲和度，所述抗体-抗原亲和度为云计算系统所能提供的计算能力与任务所需计算能力的吻合度。

判断模块103，用于判断是否存在抗体-抗原亲和度大于预设值的抗体。

第一确定模块104，用于当抗体的抗体-抗原亲和度大于预设值时，确定对应的抗体最优抗体，以使云计算平台基于所述最优抗体进行任务调度。

抗体克隆模块105，用于当抗体的抗体-抗原亲和度小于或等于预设值时，对抗体种群Aⁿ中的每个抗体进行克隆操作，得到包括t个抗体子群的抗体种群

抗体重组模块106，用于对所述抗体种群的t个抗体子群中的抗体按设定规则进行重组，得到包括t个重组抗体子群的抗体种群

抗体变异模块107，用于对所述抗体种群中每个抗体的编码中指定的等位基因进行变异操作，得到包括t个变异抗体子群的抗体种群

抗体选择模块108，用于将抗体种群Aⁿ中的t个抗体分别并入所述抗体种群中对应的变异抗体子群中，得到包括t个组合抗体子群的抗体种群，将该抗体种群中每个组合抗体子群中亲和度最大的抗体进行组合，得到新一代抗体种群Aⁿ⁺¹，并将迭代次数n更新为n+1。

本发明实施例三提供的云计算平台环境下的动态任务调度装置，首先利用排队论对任务进行排队处理，然后用人工免疫理论中的免疫克隆选择策略对集群中的计算资源进行合理配置，本发明实施例提供的装置能快速搜索出最优配置，提高集群资源利用率。

实施例四

请参阅图9，为本发明实施例四提供的一种云计算平台环境下的动态任务调度装置，与实施例三不同的是，本实施例提供的装置除了包括初始化模块101、亲和度计算模块102、判断模块103、第一确定模块104、抗体克隆模块105、抗体重组模块106、抗体变异模块107和抗体选择模块108外，

还可以包括：抗体解码模块109、任务调度模块110、第二确定模块111和资源均衡模块112。其中：

抗体解码模块109，用于在确定出最优抗体后，对所述最优抗体进行解码得到集群各节点上部署的虚拟机类型以及各类虚拟机的计算资源比例；

任务调度模块110，用于依据所述集群各节点上部署的虚拟机类型以及各类虚拟机的计算资源比例调整节点运行数量和节点上运行的虚拟机类型，并向节点上的虚拟机调度任务。

第二确定模块111，用于确定抗体中额外资源最多的虚拟机V_max和资源最紧缺的虚拟机V_min；

资源均衡模块112，用于在部署有所述虚拟机V_max的节点中选择对任务处理能力最弱的一个节点，在抗体亲和度满足预设条件的前提下，均衡该节点上分配给虚拟机的资源，使分配给虚拟机V_max的资源减少，分配给所述虚拟机V_min的资源增加。

另外，本实施例中的抗体克隆模块105可以包括：第一确定子模块、第二确定子模块和克隆子模块。其中，第一确定子模块，用于确定每个抗体的抗体-抗体亲和度；第二确定子模块，用于通过每个抗体的抗体-抗原亲和度和抗体-抗体亲和度确定每个抗体的克隆规模；克隆子模块，用于通过确定出的克隆规模对抗体进行克隆操作。

本发明实施例四提供的云计算平台环境下的动态任务调度装置，首先利用排队论对任务进行排队处理，然后用人工免疫理论中的免疫克隆选择策略对集群中的计算资源进行合理配置，再利用负载均衡调整抗体基因，使得集群资源的配置更加满足任务处理的需要，本发明实施例提供的装置能适应云平台的动态变化和虚拟化的环境，快速搜索出最优配置，提高集群资源利用率。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种云计算平台环境下的动态任务调度方法，其特征在于，预先确定各节点单独对各类任务的最大平均响应次数、各节点分配给虚拟机的资源比例，并且，通过排队论确定云计算平台对各类任务的期望平均服务率，所述方法包括：

(a)初始化抗体种群，得到抗体种群Aⁿ＝[A₁A₂…A_t]，并记录迭代次数n为0，其中，抗体种群Aⁿ中的每个抗体代表一种配置方案，每个抗体被编码为多个等位基因，每个等位基因对应一个节点，每个等位基因由多个子段组成，每个子段对应一种虚拟机；

(d)对抗体种群Aⁿ中的每个抗体进行克隆操作，得到包括t个抗体子群的抗体种群；

(e)对所述抗体种群的t个抗体子群中的抗体按设定规则进行重组，得到包括t个重组抗体子群的抗体种群；

(f)对所述抗体种群中每个抗体的编码中指定的等位基因进行变异操作，得到包括t个变异抗体子群的抗体种群；

(g)将抗体种群Aⁿ中的t个抗体分别并入所述抗体种群中对应的变异抗体子群中，得到包括t个组合抗体子群的抗体种群，将该抗体种群中每个组合抗体子群中亲和度最大的抗体进行组合，得到新一代抗体种群Aⁿ⁺¹，并将迭代次数n更新为n+1，然后转入步骤(b)；

所述通过排队论确定云计算平台对各类任务的期望平均服务率的过程包括：

用排队论对任务输入流进行建模，确定各类任务的到达率；

基于确定出的所述各类任务的到达率，通过排队模型M/M/1/∞确定满足云计算平台对各类任务平均响应时间分别小于T_i和总任务平均响应时间小于T₀情况下最小的各类任务期望平均服务率，其中，T_i为云计算平台对于第i类任务的响应时间上限，其中，T₀表示云计算平台对所有m类任务的平均响应时间上限。

2.根据权利要求1所述的方法，其特征在于，对抗体种群Aⁿ中的每个抗体进行克隆操作的过程包括：

确定每个抗体的抗体-抗体亲和度；

通过确定出的克隆规模对抗体进行克隆操作。

3.根据权利要求1所述的方法，其特征在于，还包括：

4.根据权利要求3所述的方法，其特征在于，还包括：

5.一种云计算平台环境下的动态任务调度装置，其特征在于，包括：

初始化模块，用于初始化抗体种群，得到抗体种群Aⁿ＝[A₁A₂…A_t]，并记录迭代次数n为0，其中，抗体种群Aⁿ中的每个抗体代表一种配置方案，每个抗体被编码为多个等位基因，每个等位基因对应一个节点，每个等位基因由多个子段组成，每个子段对应一种虚拟机；

抗体克隆模块，用于当抗体的抗体-抗原亲和度小于或等于预设值时，对抗体种群Aⁿ中的每个抗体进行克隆操作，得到包括t个抗体子群的抗体种群；

抗体重组模块，用于对所述抗体种群的t个抗体子群中的抗体按设定规则进行重组，得到包括t个重组抗体子群的抗体种群；

抗体变异模块，用于对所述抗体种群中每个抗体的编码中指定的等位基因进行变异操作，得到包括t个变异抗体子群的抗体种群；

抗体选择模块，用于将抗体种群Aⁿ中的t个抗体分别并入所述抗体种群中对应的变异抗体子群中，得到包括t个组合抗体子群的抗体种群，将该抗体种群中每个组合抗体子群中亲和度最大的抗体进行组合，得到新一代抗体种群Aⁿ⁺¹，并将迭代次数n更新为n+1；

用排队论对任务输入流进行建模，确定各类任务的到达率；

6.根据权利要求5所述的装置，其特征在于，所述抗体克隆模块包括：

第一确定子模块，用于确定每个抗体的抗体-抗体亲和度；

克隆子模块，用于通过确定出的克隆规模对抗体进行克隆操作。

7.根据权利要求5所述的装置，其特征在于，还包括：

8.根据权利要求5所述的装置，其特征在于，还包括：