CN103413040B

CN103413040B - 面向数据密集型服务协同系统的组件服务部署方法

Info

Publication number: CN103413040B
Application number: CN201310338178.2A
Authority: CN
Inventors: 邓水光; 黄龙涛; 李莹; 吴建; 尹建伟; 吴朝晖
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2013-08-05
Filing date: 2013-08-05
Publication date: 2016-06-08
Anticipated expiration: 2033-08-05
Also published as: CN103413040A

Abstract

本发明公开了一种面向数据密集型服务协同的组件服务部署方法，采用基于阴性选择的多目标优化算法进行部署优化。将据数据密集型服务协同的组件服务部署问题映射到阴性选择算法中，单个组件服务的单个部署方案映射为基因，所有组件服务的一个部署方案映射为抗体，将所有可能基因构建形成基因库。根据基于阴性选择方法顺序迭代匹配，经过多次循环迭代匹配最终得到抗原，将该抗体对应的部署方案作为最优的部署方案。每次迭代过程中首先通过基因重组生成一定数量的抗体，形成抗体群组，再通过阴性选择，从抗体群组中剔除低质量抗体，降低搜索空间，且每次迭代后都根据迭代结果更新基因仓库，保证在下一轮迭代中能够通过基因重组生成更优的抗体。

Description

面向数据密集型服务协同系统的组件服务部署方法

技术领域

本发明涉及通信领域，尤其涉及一种面向数据密集型服务协同系统的组件服务部署方法。

背景技术

近年来，随着云计算、物联网、移动互联网等新一代信息技术的发展，互联网数据成爆炸式增长。据统计，互联网一天产生的全部数据可以刻满1.68亿张DVD，发出的邮件相当于美国两年的纸质信件数量，发出的社区帖子相当于《时代》杂志770年的文字量。美国互联网数据中心指出互联网数据每年将增长50％，每两年便将翻一番。在互联网数据正以前所未有的速度急剧增长的态势下，《纽约时报》于2012年发表文章“AgeofBigData”正式拉开了“大数据”时代的序幕，掀起了大数据组织、管理、分析、挖掘和应用的研究热潮。

基于大数据的处理和分析，通过互联网提供各类专业性、个性化的特色服务，将是现代企业在“大数据”时代的一个重要发展方向。相比企业现已提供的各类信息服务和业务服务，这类服务的一个重要特征是以大数据处理和分析为基础，其实现过程通常伴有海量数据的操作、交换和存储，服务的处理周期、响应时间都相对较长，这类服务被称之为数据密集型服务。随着企业大数据的不断积累，针对大数据的价值挖掘和利用的不断推进，数据密集型服务作为互联网上的一种重要服务形态，开始得到工业界和学术界的高度关注，并成为服务计算领域的一个重要研究方向，形成了一批相关的学术会议，如DIEW、DIDC、DIES、DISA等，涌现出众多的研究成果，推动了数据密集型服务的应用。

目前，数据密集型服务已开始被应用于天文学、高能物理学以及生物信息学等领域。为了解决更为复杂的问题，多个数据密集型服务往往会依据一定的业务逻辑进行协同工作。然而，数据密集型服务的协同相对于传统服务之间的协同有着很大不同。首先，数据密集型服务处理的数据大小通常达到TB级甚至PB级，其中既有已存在的输入数据源，也有在大数据处理过程中产生的中间数据和最终结果数据，服务协同不再以过程为中心，转而变成以数据为中心。其次，在分布式环境下部署并执行数据密集型服务的协同过程，需要多数据中心的协作；在协同的执行过中，将不可避免的产生大量的数据传输开销，而在传统的服务协同中，数据传输的时间开销相对于服务的执行时间可以忽略。此外，传统服务由于处理的数据量不大，只需要将数据存储在本地即可；而数据密集型服务处理的数据量巨大，往往存储在云数据中心，这就导致了服务存取数据的方式发生了变化，不再是单一的在服务之间进行数据迁移，而更有可能是将服务向数据源迁移。

由于数据密集型服务协同处理的数据量十分庞大，这些数据会部署在不同的数据中心。因此，在数据密集型服务协同的执行过程中不可避免地需要进行跨数据中心的数据传输。如何减少这些数据传输开销对于提高数据密集型服务协同的执行性能至关重要。一方面，由于数据规模巨大且数据中心间网络带宽有限；另一方面，存在一些数据只能被存放于指定的数据中心而不能被移动，故如何实现服务协同过程中跨数据中心的高效数据传输成为一个挑战。此外，数据密集型服务协同的流程特性决定了其数据之间存在数据依赖关系。在多数据中心环境下，合理的服务部署方案应力求保持这种数据间的依赖关系，这将利于降低流程执行过程中跨数据中心数据传输所导致的时间开销，进而提升执行效率。因此，如何有效地部署服务以减少数据中心间的数据传输开销是实现服务协同整体执行性能优化的一大挑战。此外，由于数据密集型服务协同过程往往伴随着大规模数据的处理，因此如何优化其执行性能也是一个重要的研究课题。

传统的性能优化方法大多建立在性能分析、性能预测等技术的基础之上，这些方法可分为建模和经验测量两种类型。建模方法不需要具备真实系统，成本较低，通用性较好，但是准确度相对较低，且无法适用于数据密集型服务协同这样的复杂系统。经验测量方法准确度较好，但是需要具备真实系统或基准程序，性能预测的成本较高。因此，如何针对数据密集型服务协同提出高效准确的性能预测模型，是对其执行性能进行优化的重要基础。

发明内容

本发明针对现有的数据密集型服务协同系统在执行时会产生大量数据传输开销的问题，提供了一种面向数据密集型服务协同系统的组件服务部署方法。

本发明的面向数据密集型服务协同系统的组件服务部署方法，包括：

1)初始化过程，将组件服务部署映射到阴性选择算法中，将单个组件服务部署到某一数据中心表示为基因，部署方案表示成由基因组成的抗体，并将所有可能的基因构建形成基因仓库，同时还建立一个初始状态为空的低质量基因库；

2)基因重组，从基因仓库中选取若干基因组合生成预定数量的抗体，形成抗体群组；

3)阴性选择，根据低质量基因库从所述的抗体群组中剔除低质量抗体，保留高质量抗体；

4)抗体评估，计算所述高质量抗体的适应度，并根据所述的适应度将所述的高质量抗体分为适应度较高组和适应度较低组；

5)基因评估，根据基因的适应度从所述适应度较低组的抗体中确定低质量基因，并存入低质量基因库；

6)基因仓库更新，利用适应度较高组的抗体的基因更新基因仓库；

7)循环进行步骤2)～6)直至设定的循环次数，选取适应度最高的抗体为抗原，并将所述的抗原对应的部署方案作为所述的组件服务部署方案。

本发明针对数据密集型服务协同的组件服务部署问题，采用基于阴性选择(negativeselectionalgorithm)的多目标优化算法进行部署优化。将据数据密集型服务协同的部署问题模型映射到阴性选择算法中，将单个组件服务的单个部署方案映射为基因，将所有组件服务的单个部署方案映射为抗体。根据基于阴性选择方法顺序迭代匹配，每次迭代过程中先通过基因重组生成一定数量的抗体，形成抗体群组，再根据阴性选择算法剔除抗体群组中的低质量抗体，降低搜索空间，另外每次迭代最后都根据迭代结果更新基因仓库，保证在下一轮迭代中能够生成更优的抗体。每次生成抗体的数量，其大小可根据实际的应用场景设定。经过多次迭代匹配最终得到全局最优的部署方案。

所述步骤2)中依据概率从基因库中选取基因，概率高的基因优先被选取。

所述的概率根据公式：

p r o b a b i l i y (i, j) = \frac{C_{i, j} \cdot l o c a l f i t n e s s (i, j)}{Σ_{k = 1}^{q} C_{i, k} \cdot l o c a l f i t n e s s (i, k)}

得到，其中：

probabiliy(i,j)表示第i个组件服务部署到第j个数据中心对应基因的概率；

C_i,j和C_i,k为参考矩阵中的元素，所述的参考矩阵为p×q阶矩阵，p为数据密集型服务协同系统中组件服务的数量，q表示可用于部署的数据中心的数量，该参考矩阵在初始化过程中建立，且初始状态该参考矩阵中所有元素为1；

localfitness(i,j)为局部目标函数，表示第i个组件服务部署到第j个数据中心对应基因的适应度，data_i表示第i个组件服务所需要的输入数据的大小，dc_j.sc是第j个数据中心的容量。

依据概率进行基因重组，适应度越高的基因被选择进行重组生成抗体的概率也越高，从而保证每轮迭代过程中生成的抗体的质量不断提高。基因的适应度与数据中心的容量有关，在第i个组件服务部署到第j个数据中心后，剩余的存储空间越大，函数localfitness(i,j)，即相应基因的适应度越高，该基因被选择生成抗体的概率也越高。

所述步骤3)中确定低质量抗体的方法如下：

将步骤2)中生成的抗体分别与低质量基因库匹配，若抗体中含有低质量基因库中的基因数量超过了设定的阈值，或抗体中包含适应度小于0的基因，则认定该抗体为低质量抗体；否则，认定为高质量抗体。

抗体中的基因质量决定抗体的质量，当抗体中含有的低质量基因达到一定的比例时，该抗体就为低质量。另外，当抗体中任一基因的适应度小于0，则说明该基因对应的组件服务所需要输入的数据量超过了数据中心的容量，因此包含该基因的抗体对应的整个部署方案不可用，该抗体也被认定为低质量抗体。

所述步骤4)中根据全局目标函数：

计算高质量抗体的适应度，fitness(v)表示抗体v的适应度，其中：

Latency表示在该部署方案下，数据密集型服务协同系统的数据传输的时间开销：Latency＝T_data+T_exec+T_c，T_data是组件服务之间的数据传输的时间开销，T_exec表示服务执行的时间开销，T_c表示其他的固定时间开销；

R_overload(DC)为所有数据中心的负载率，

R_{o v e r l o a d} (d c) = {\begin{matrix} 0 & \frac{u s a g e}{d c . s c} < d c . s t \\ e^{(\frac{u s a g e}{d c . s c} - d c . s t) / d c . s t} & o t h e r w i s e \end{matrix},

R_overload(dc)表示数据中心dc的负载率，usage表示所有传输到数据中心dc的数据量，dc.st表示数据中心dc的负载上限百分比，dc.sc表示数据中心dc的容量；

ω₁和ω₂分别表示变量Latency和R_overload(DC)的权重；

是调节参数。

ω₁、ω₂和可以根据偏好或实际应用场景进行配置，ω₁和ω₂作为调节参数，用于平衡目标数据传输时间开销和负载的比例，用于平衡变量ω₁和ω₂的值。如果两个含有数据依赖关系的组件服务部署在同一个数据中心，则这两个组件服务部署之间不存在数据传输开销T_data，此时T_data＝0。T_c表示其他的固定时间开销，例如请求，响应，建立连接等时间开销。由于数据密集型服务协同系统要处理的数据量是十分庞大的，因此数据传输的时间开销要远远大于其他时间开销，因此Latency近似等于T_data。通过该方法计算抗体的适应度，同时将数据之间的传输开销和数据中心的存储负载作为优化的目标。

所述步骤4)中将适应度高于平均值的抗体分为适应度较高组，低于平均值的抗体分为适应度较低组；

所述平均值为所有高质量抗体的适应度的平均值。

所述步骤5)中低质量基因确定通过如下方法确定：若基因的适应度低于设定的阈值，则确定该低质量基因。

一般认为适应度越低，包含低质量基因的可能性越大，因此从适应度较低组确认低质量基因，有效缩小了搜索的范围，提高效率。

所述步骤6)还包括根据公式：更新参考矩阵中的相应元素，ρ是衰减系数，fitness_max是适应度较高组中抗体的适应度的最大值，C_i,j'为C_i,j更新后的值。

衰减系数ρ用于提升算法的收敛性，通过该方法更新参考矩阵中的元素，保证高质量基因在基因重组过程中被选择的概率不断提升。

所述的初始化过程还包括设定循环次数为50次。

一般迭代次数越高，最后得到的组件服务部署方案越好，但是次数高，导致计算量大。通过50次迭代一般已经能够保证最终得到的部署方案满足服务协同系统的性能要求，且能够有效的降低计算量，提升优化速率。

本发明的面向数据密集型服务协同的组件服务部署优化方法采用基于阴性选择(negativeselectionalgorithm)的多目标优化算法进行部署优化，将不同的组件服务部署到合适的数据中心，有效降低了组件服务之间的数据传输开销。

附图说明

图1为本实施例的面向数据密集型服务协同的组件服务部署方法应用场景；

图2为本实施例的面向数据密集型服务协同的组件服务部署方法的工作流程图。

具体实施方式

下面将结合附图和具体实施例对本发明做进一步的说明。

本实施的面向数据密集型服务协同的组件服务部署方法的应用场景如图1所示：某大型企业想要发布一个服务协同系统S，S包含了5个组件服务s_a到s_e，需要处理来自4个不同数据中心dc₁到dc₄的大规模数据。

本实施的面向数据密集型服务协同的组件服务部署方法，如图2所示，包括：

1)初始化过程，包括：

将数据密集型服务协同系统的部署优化问题映射到阴性选择算法中，将最优的组件服务部署方案表示成抗原，部署方案表示成由基因组成的抗体，例如(2，3，1，2，4)表示一个抗体，表示该数据密集型服务协同系统中第1个组件服务部署在2号数据中心，第2个组件服务部署在3号数据中心，以此类推。将单个组件服务部署到某一数据中心表示为基因，并初始化所有可能基因，将所有可能基因构建基因库；

建立5×4阶参考矩阵ConsistenceMatrix表示，用于评估一个组件服务被部署到某个数据中心是否合适，C_i,j为参考矩阵ConsistenceMatrix中的元素，用于计算第i个组件服务部署到第j个数据中心对应的基因的适应度，初始状态C_i,j＝1；

建立低质量集合SELFset，作为低质量基因库，用来存放低质量的基因，初始状态SELFset为空集；

设定每次生成的抗体数为50和循环次数为50。

2)根据每个基因的概率进行基因重组，生成50个抗体，形成抗体群组，概率高的基因优选被选择，每个基因的概率根据公式：

p r o b a b i l i y (i, j) = \frac{C_{i, j} \cdot l o c a l f t n e s s (i, j)}{Σ_{k = 1}^{q} C_{i, k} \cdot l o c a l f i t n e s s (i, k)}

得到，probabiliy(i,j)表示第i个组件服务部署到第j个数据中心对应的基因的概率。

3)阴性选择，将所述的抗体与SELFset进行匹配，若抗体中含有SELFset中的基因数量超过了设定的阈值(本实施例中为抗体中基因总数的10％)，或者抗体包含适应度小于0的基因，则认定该抗体为低质量抗体，从抗体的群组中剔除，否则，认定该抗体为高质量抗体并保留。

4)抗体评估，根据全局目标函数评估保留下的高质量抗体的适应度，根据抗体的适应度将高质量抗体分成两组，适应度大于或等于平均值的分为适应度较高组，否则，分为适应度较低组。将全局目标函数为:

Latency表示在该部署方案下，数据密集型服务协同系统的数据传输时间开销，

Latency＝T_data+T_exec+T_c，

T_data是组件服务之间的数据传输开销，如果两个含有数据依赖关系的组件服务部署在同一个数据中心，则T_data＝0，T_exec表示服务执行的时间开销，T_c表示其他的固定时间开销,

R_overload(DC)为所有负载中心的负载率，

R_{o v e r l o a d} (D C) = \underset{{dc}_{i} &Element; D C}{Σ} R_{o v e r l o a d} ({dc}_{i}),

其中，R_overload(dc_i)为一个数据中心dc的负载率，

R_{o v e r l o a d} (d c) = {\begin{matrix} 0 & \frac{u s a g e}{d c . s c} < d c . s t \\ e^{(\frac{u s a g e}{d c . s c} - d c . s t) / d c . s t} & o t h e r w i s e \end{matrix},

usage表示所有传输到dc的数据量，dc.st表示数据中心的负载上限，dc.sc表示数据中心的容量，ω₁和ω₂表示变量Latency和R_overload(DC)的权重，是调节参数，ω₁、ω₂和根据实际场景设定。本实施例中满足ω₁+ω₂＝1，且均设为0.5，一般为所有数据中的负载率的平均值与数据传输时间开销的比值。

5)基因评估，根据局部目标函数计算适应度较低组抗体中的基因的适应度，若低于设定的阈值(本实施例中为0.1-0.3)，则认定为低质量基因，并存入集合SELFset。局部目标函数为：

l o c a l f t n e s s (i, j) = \frac{{dc}_{j} . s c - {data}_{i}}{{dc}_{j} . s c},

localfitness(i,j)表示第i个组件服务部署到第j个数据中心对应的基因的适应度，data_i表示第i个组件服务所需要的输入数据的大小。dc_j.sc是第j个数据中心的数据容量。

6)基因仓库更新，对于所述的适应度较高组，通过公式：更新ConsistenceMatrix中的相应元素，ρ是衰减系数(本实施例中为0.9)，C_i,j是矩阵ConsistenceMatrix中的元素，C_i,j'为C_i,j更新后的值。

7)循环进行步骤2)～6)直至设定的循环次数50次终，选取适应度最高的抗体为抗原，并将所述的抗原对应的部署方案作为所述的组件服务部署方案。

Claims

1.一种面向数据密集型服务协同系统的组件服务部署方法，所述数据密集型服务协同系统包括多个数据中心，其特征在于，所述组件服务部署方法，包括：

该步骤依据概率从基因库中选取基因，概率高的基因优先被选取，所述的概率根据公式：

p r o b a b i l i y (i, j) = \frac{C_{i, j} \cdot l o c a l f i t n e s s (i, j)}{Σ_{k = 1}^{q} C_{i, k} \cdot l o c a l f i t n e s s (i, k)}

得到，其中：

localfitness(i,j)为局部目标函数，表示第i个组件服务部署到第j个数据中心对应基因的适应度，data_i表示第i个组件服务所需要的输入数据的大小，dc_j.sc是第j个数据中心的容量；

该步骤中确定低质量抗体的方法如下：

将步骤2)中生成的抗体分别与低质量基因库匹配，若抗体中含有低质量基因库中的基因数量超过了设定的阈值，或抗体中包含适应度小于0的基因，则认定该抗体为低质量抗体；否则，认定为高质量抗体；

所述步骤4)中根据全局目标函数：

Latency表示在该部署方案下，数据密集型服务协同系统的数据传输时间开销：Latency＝T_data+T_exec+T_c，T_data是组件服务之间的数据传输的时间开销，T_exec表示服务执行的时间开销，T_c表示其他的固定时间开销；

R_overload(DC)为所有数据中心的负载率，

R_{o v e r l o a d} (d c) = \{\begin{matrix} 0 & \frac{u s a g e}{d c . s c} < d c . s t \\ e^{(\frac{u s a g e}{d c . s c} - d c . s t) / d c . s t} & o t h e r w i s e \end{matrix},

R_overload(dc)表示数据中心dc的负载率，usage表示所有传输到数据中心dc的数据量，dc.st表示数据中心dc的负载上限百分比，dc.sc表示数据中心dc的容量；R_overload(dc_i)为一个数据中心dc的负载率；

ω₁和ω₂分别表示变量Latency和R_overload(DC)的权重；

是调节参数；

该步骤中将适应度高于平均值的抗体分为适应度较高组，低于平均值的抗体分为适应度较低组；

所述平均值为所有高质量抗体的适应度的平均值；

该步骤中低质量基因确定通过如下方法确定：若基因的适应度低于设定的阈值，则确定该低质量基因；

该步骤还包括根据公式：更新参考矩阵中的相应元素，ρ是衰减系数，fitness_max是适应度较高组中抗体的适应度的最大值，C_i,j'为C_i,j更新后的值；

2.如权利要求1所述的面向数据密集型服务协同系统的组件服务部署方法，其特征在于，所述的初始化过程还包括设定循环次数为50次。