CN111522637A

CN111522637A - 一种基于成本效益的storm任务调度方法

Info

Publication number: CN111522637A
Application number: CN202010290723.5A
Authority: CN
Inventors: 李鸿健; 戴红希; 刘曾琰; 段小林; 邹洋
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Shenzhen Morning Intellectual Property Operations Co ltd; Xi'an Huaqi Zhongxin Technology Development Co ltd
Priority date: 2020-04-14
Filing date: 2020-04-14
Publication date: 2020-08-11
Anticipated expiration: 2040-04-14
Also published as: CN111522637B

Abstract

本发明涉及大数据流处理领域，特别涉及一种基于成本效益的storm任务调度方法，包括基于Storm流处理框架，构建出基于流处理的成本效益模型；判断成本效益模型的数据库中是否有提交任务的成本信息，若有则获取该任务所需要的资源需求，若当前任务的资源需求超载，则调整worker阈值，并重新提交任务；否则根据数据库中的任务优先级序列表，以成本最小化的方式分配任务；若没有该任务的成本信息，则通过监控脚本和通信探针来获取对应的数据，通过成本效益的模型，来计算集群中各个节点的总成本信息，再将其写入到成本效益模型数据库；本发明将网络绑定作业的节点间通信最小化，从而提高了系统的性能以及系统集群的总成本效益。

Description

一种基于成本效益的storm任务调度方法

技术领域

本发明涉及大数据流处理领域，特别涉及一种基于成本效益的storm任务调度方法。

背景技术

为了满足大数据的速度需求，流处理的技术应运而生—一种支持利用动态数据进行分析的范例——由于数据的连续生成和及时处理的需要而迅速出现；一种新的内存处理的技术，它不是将一次性查询作为一系列的批处理作业应用于静态数据，而是采用一次到达的处理原理，以实现对易失性数据流的低处理延迟，以及大规模并行架构，来支持分布式环境中的实时数据分析。在流数据处理方面，大数据开源流式处理框架Spark Streaming、Flink、Gearpump以及Storm等都是最常见的选择。考虑到云提供的按需、庞大且可扩展的计算和存储资源，这些大数据处理框架在公共云上安装和部署变得越来越受欢迎。

云计算外包模式使每个有信用卡的人都能在几分钟内将任意复杂的数据处理工作部署到成千上百个计算节点上。由于这些任务是可以不同类型的，例如：CPU密集型、内存密集型以及网络密集型等。因此，在云上部署大数据数据处理框架的集群中，调度这些大数据的任务可能会较为困难。此外，在云上可用的各种类型的虚拟机(VMs)实例使得生成成本效益的调度程序就变得困难。因此，作业的性能在很大程度上取决于执行作业所依据的VM类型(如图4所示，Amazon AWS中每种类型虚拟机的详细配置以及类似的定价)，能保证良好性能的同时具有成本效益。将其在大数据流处理框架Storm上进行研究也是很有价值的。

Storm是一个实时的分布式的流式计算系统，它可以可靠地处理无限数据流，并对内存中的动态数据进行实时流计算。Storm提供了与主流队列和数据库技术的无缝集成，使得在一组分布式资源上处理无限制的快速数据变得更加容易。在物理逻辑上，如图1所示，Storm集群是由其主节点(Nimbus：负责资源的分配和任务调度)和从节点(Supervisor：负责接收来自nimbus分配的任务，启动和管理自己的worker进程)组成的，它们是通过Zookeeper(负责主从节点之间的通信，监控各个节点之间的状态)来进行通信。一旦用户提交网络拓扑(Topology：计算拓扑，运行实时应用程序的名称)信息，Nimbus就会根据其任务信息，将任务分发给各个节点下的Supervisor来进行处理。在任务调度方面，Storm中的任务调度算法的目标是将任务分配给Worker(即进程)节点，每一个worker进程都会执行一个具体的Topology，Worker进程中执行的的线程就叫作执行器(Executor)；一个运行的Topology就是由一个或多个worker节点来完成这些具体的业务逻辑；其默认的运行方式，为轮询调度策略，会均匀的将任务放置到各个节点上进行计算和处理；这样就会存在节点资源利用不足，通信成本增加以及能源使用过度等问题。

发明内容

为了能够在最大限度的利用虚拟机资源和提高作业性能的情况下，同时能够降低虚拟机的成本，本发明提出一种基于成本效益的storm任务调度方法，具体包括以下步骤：

S1、基于Storm流处理框架，构建出基于流处理的成本效益模型；

S2、在提交topology任务后，若成本效益模型的数据库中有该任务的成本信息，则获取当前topology所需要的资源需求，若当前任务的资源需求超载，则调整worker阈值，并重新提交任务；否则根据数据库中的任务优先级序列表，以成本最小化的方式分配任务；

S3、若成本效益模型的数据库中不存在该任务的成本信息，则将当前的topology按照默认的调度策略来分配任务，并且通过监控脚本和通信探针来获取对应的数据，将这些数据写入到成本效益模型数据库；

S4、通过成本效益的模型，从数据库获取所需要的数据，来计算集群中各个节点的总成本信息；再将其写入到成本效益模型数据库；

S5、根据成本效益模型评判该任务的优先级，并更新任务放置列表，重新提交该topology任务并返回步骤S2。

进一步的，改进的基于Storm流处理框架包括Storm自定义调度器、主从节点、成本效益模型和成本效益模型数据库，每个从节点中有多个worker进程、监控脚本和获取通信数据的探针，其中：

监控脚本，用于监控从节点的CPU和内存资源需求的使用情况，并将使用情况写入成本效益模型数据库；

获取通信数据的探针，用于获取到在任务执行期间，各个节点的通信流量，并将所获取的数据信息写入到成本效益模型数据库；

成本效益模型根据成本效益模型数据库中的信息获取任务的资源需求以及任务的优先级，并存储在成本效益模型数据库中；

Storm自定义调度器调用成本效益模型数据库中任务的资源需求以及优先级，直接或间接的控制主从节点完成任务的调度和放置。

进一步的，构建出基于流处理的成本效益模型包括：

Total_cost＝α·Cost_resource+β·Cost_energy+γ·Cost_ct；

其中，Total_cost表示任务的总成本；Cost_resource表示任务的资源成本；Cost_energy表示任务的能耗成本；Cost_ct表示任务的通信成本；α,β,γ分别为资源成本、能耗成本以及通信成本的影响因子。

进一步的，任务的资源成本Cost_resource表示为：

其中，Cost_k表示不同类型虚拟机的固定成本；VM{vm₁,vm₂,…,vm_n}表示n个类型的虚拟机的集合，vm_n表示第n个类型的虚拟机。

进一步的，任务的能耗成本Cost_energy表示为：

其中，

表示所有类型的虚拟机的总能耗；C_t表示t类型虚拟机在任务调度期间所使用的二维资源开销。

进一步的，任务的通信成本Cost_ct表示为：

其中，bandwith_t,i表示第t个类型中的第i台虚拟机的总带宽；

表示任务执行器之间的通信时间；CT表示任务执行器之间的通信流量。

进一步的，任务执行器之间的通信流量CT表示为：

其中，

表示任务执行器i到任务执行器j之间的通信流量；E为任务执行器的集合。

本发明一方面基于整合成本模型，提出新的成本效益调度算法，为了找到合适的放置任务的节点，需要根据成本效益数据库中的优先序列来迭代所有的虚拟机节点的资源可用性，来找到既能满足当前任务资源需求且成本最小的worker节点；在资源不超载的情况下，尽可能的将任务放置到同一虚拟机节点上，这样就能够最大化使用资源的节点；并且分配任务期间，需要考虑该算法当前任务执行的时间是否满足服务等级协议(Service-Level Agreement，SLA)条件；另一方面本发明将执行器合并以使用较少的虚拟机，最大化资源的使用，且将网络绑定作业的节点间通信最小化，从而提高了系统的性能以及系统集群的总成本效益。

附图说明

图1为传统Storm流处理计算框架；

图2为本发明一种基于成本效益的storm任务调度方法在不同的调度场景下任务放置情况示意图；

图3为本发明一种基于成本效益的storm任务调度方法提交任务的流程示意图；

图4为本发明一种基于成本效益的storm任务调度方法异构环境下虚拟机类型配置详图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种基于成本效益的storm任务调度方法，包括：

针对大数据流处理系统(特别是Storm)默认调度算法没有考虑成本效益的问题。不同的调度方式都会产生不同的效果，若当前有四台不同类型的虚拟机(VM1,VM2,VM3,VM4)，提交的topology任务的并行度为4，假定每台虚拟机的固定成本为m。不同放置方式产生的成本如图2所示；其中图2(a)为Storm默认调度器的任务放置方式，这种方式虽然集群中的每台虚拟机都被使用了，但是也因此造成了资源使用不足的问题，就会产生不必要的开销，导致资源使用以及通信成本的开销过大；图2(b)和图2(c)则是较为推荐的任务放置方式，这样不仅能让任务更为紧凑的在虚拟机上放置，更好的利用虚拟机的资源，并且能够释放或关闭未使用的虚拟机；这样的方式就能够显著的降低资源使用的成本以及通信开销。因此在此分析下，本发明的目的在于提供一种基于成本效益的Storm任务调度算法，使得slot分配任务后，成本的总和最小，并且任务能够在该虚拟机上最大化的利用虚拟机的二维资源，以达到提高成本效益的目的。

本实施例中对基于Storm流处理框架进行改进，改进的基于Storm流处理框架包括Storm自定义调度器、主从节点、成本效益模型和成本效益模型数据库，每个从节点中有多个worker进程、监控脚本和获取通信数据的探针，其中：

监控脚本用于监控从节点的CPU和内存资源需求的使用情况，并将使用情况写入成本效益模型数据库；

获取通信数据探针能够获取到在任务执行期间，各个节点的通信流量，并将所获取的数据信息写入到成本效益模型数据库；

本实施例应用改进的基于Storm流处理框架进行任务调度，如图3，包括以下步骤：

提交Topology任务后，判断成本效益模型数据库中是否有该任务的成本效益信息；

若成本效益模型数据库中有该任务的成本效益信息，则获取当前任务所需要的任务资源需求，并判断当前任务的资源需求是否超载；

若当前任务的资源需求超载，则根据成本效益模型数据库中的序列表，以成本最小化的分配方式分配任务和资源，完成任务调度；

若当前任务的资源需求未超载，则调整worker资源阈值，并重新提交任务；

若成本效益模型数据库中没有该任务的成本效益信息，则将当前的任务采用默认的调度器分配任务；

通过脚本和探针获取所需的数据信息，并将获取的数据信息写入成本效益模型数据库；

通过成本效益模型计算出各个节点的总成本按照升序排序，并将该排序放入成本效益序列表，返回判断该任务的成本效益信息是否在成本效益模型数据库中。

本发明基于Storm流处理框架包括Storm自定义调度器、主从节点和成本效益模型数据库，每个从节点包括多个worker进程、监控脚本和获取通信数据探针；监控脚本用于监控从节点的CPU和内存资源需求的使用情况；获取通信数据探针能够获取到在任务执行期间，各个节点之间的通信流量，并将数据信息写入成本效益模型的数据库，成本效益模型数据库将该数据信息调度给自定义的Storm调度器，并且根据其任务的优先级及其资源需求，直接或间接的控制主从节点完成任务的调度。

对于每一个topology任务的成本效益计算包括以下步骤：

首先，计算每个topology的资源使用成本，其中t类型虚拟机的成本公式为：

其中，C_t表示类型t虚拟机第i台的固定成本(即任务调度期间所使用的二维资源的开销)，根据上述公式计算集群中任务的总成本公式为：

其中，VM表示集群中不同类型虚拟机的集合{vm₁,vm₂,…,vm_n}。

其次，再计算每个topology能源消耗成本，其公式为：

其中，

表示t类型虚拟机中各节点的总能耗；C_t表示t类型虚拟机的固定成本，T为任务的调度时间。

然后，在根据以下公式来计算每个topology的通信成本，其公式为：

其中，CT表示executor间的通信流量，而CT用于控制是否将executor放置在k类型的VMs上(如下述表达式所示)，bandwith_t,i表示类型t的第i台虚拟机的总带宽；

表示executor之间的通信时间；C_t表示t类型虚拟机的固定成本。

其中，任务执行器之间的通信流量CT表示为：

最后，考虑到上述的不同的需求和情况(即运行时间的增加、能源消耗增加、性能下降以及节点间通信量增加)，开发一个整合的模型，其目的在于均衡各个成本类型的效益，降低集群的总成本，用下述公式来计算集群中每个topology任务的整合成本，其公式为：

Total_cost＝α·Cost_resource+β·Cost_energy+γ·Cost_ct；

其中，α,β,γ分别根据资源成本、能耗成本以及通信成本的对总成本的影响因子。

本发明的最终目的是为了降低Storm在进行流式计算的时候的所产生的成本问题，提高集群的整体性能并且能满足SLA要求。

本发明首次提出了流处理的成本效益模型和storm成本效益评测方法，以该方式为依据自定义了Storm的默认调度策略，做出以成本最小化的任务放置策略。并且，同时在任务运行完成之后，更新各个节点的总成本的任务放置表；该方式的优势在于：使成本效益的Storm任务调度方法更加具有自适应性。本调度方法适用于不同的数据量以及不同的基准测试集的大数据应用的场景。

成本效益依据评测标准排序，采用数据库存储排序后结果的方式。这样就很容易拿到评测后最优的worker进程，优先对其插槽(Slot)进行任务的放置和资源的分配。评价标准是取当前阶段下的总成本计算值；这样分配的优点包括：改进了Storm默认调度器是采用轮询的方式，没有考虑进程资源能耗、资源使用以及进程间/内的通信开销所产生的成本问题。使本发明提出的任务调度方法能够有效降低应用运行时的总成本。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于成本效益的storm任务调度方法，其特征在于，包括以下步骤：

S4、通过成本效益的模型，从数据库获取所需要的数据，来计算集群中各个节点的总成本信息；再将其写入到成本效益模型数据库；。

2.根据权利要求1所述的一种基于成本效益的storm任务调度方法，其特征在于，改进的基于Storm流处理框架包括Storm自定义调度器、主从节点、成本效益模型和成本效益模型数据库，每个从节点中有多个worker进程、监控脚本和获取通信数据的探针，其中：

3.根据权利要求1所述的一种基于成本效益的storm任务调度方法，其特征在于，构建出基于流处理的成本效益模型包括：

Total_cost＝α·Cost_resource+β·Cost_energy+γ·Cost_ct；

4.根据权利要求3所述的一种基于成本效益的storm任务调度方法，其特征在于，任务的资源成本Cost_resource表示为：

5.根据权利要求3所述的一种基于成本效益的storm任务调度方法，其特征在于，任务的能耗成本Cost_energy表示为：

其中，

表示所有类型的虚拟机的总能耗；C_t表示t类型虚拟机在任务调度期间所使用的二维资源开销；VM{vm₁,vm₂,…,vm_n}表示n个类型的虚拟机的集合，vm_n表示第n个类型的虚拟机；T为任务的调度时间。

6.根据权利要求3所述的一种基于成本效益的storm任务调度方法，其特征在于，任务的通信成本Cost_ct表示为：

其中，bandwith_t,i表示第t个类型中的第i台虚拟机的总带宽；

表示任务执行器之间的通信时间；CT表示任务执行器之间的通信流量；C_t表示t类型虚拟机在任务调度期间所使用的二维资源开销；VM{vm₁,vm₂,…,vm_n}表示n个类型的虚拟机的集合，vm_n表示第n个类型的虚拟机。

7.根据权利要求6所述的一种基于成本效益的storm任务调度方法，其特征在于，任务执行器之间的通信流量CT表示为：

其中，