CN115827237A

CN115827237A - 一种基于性价比的storm任务调度方法

Info

Publication number: CN115827237A
Application number: CN202211594280.4A
Authority: CN
Inventors: 李鸿健; 周涛; 熊安萍; 蒋溢
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-12-13
Filing date: 2022-12-13
Publication date: 2023-03-21

Abstract

本发明涉及大数据流处理领域，涉及一种基于性价比的storm任务调度方法。该方法包括基于Storm流处理框架，构建出基于流处理的性价比模型，提交拓扑后判断在性价比数据库中是否有该拓扑的性价比信息，若有则在满足时延SLA和资源约束的条件下，按照性价比优先级来放置线程，否则以默认调度算法的方式来放置；监控集群中的task线程的性能，统计成本信息，写入性价比数据库，评判出计算资源放置的性价比优先级列表，并更新优先级列表，重新提交该拓扑。使本发明方法能够有效地权衡流式作业运行时的综合性能和成本，使用图划分思想进一步优化集群调度的性能，并考虑了资源容量的情况，使得集群以高性价比的方式调度。

Description

一种基于性价比的storm任务调度方法

技术领域

本发明涉及大数据流处理领域，具体涉及一种基于性价比的storm任务调度方法。

背景技术

在大数据时代，流计算是一种实时计算框架，它能够在几分钟内将任意复杂的数据处理工作部署到数百到数千个计算节点上，然后实时地处理输入数据流，从中提取有价值的信息。由于越来越多的新兴应用场景严重依赖数据流的实时处理，流计算正获得很大的关注。现在有几个被广泛采用的流计算引擎，包括Apache Storm、Apache Flink、ApacheSpark Streaming等。其中Storm引擎是很受欢迎的流计算系统之一。例如，雅虎选择的平台是Apache Storm，它取代了内部开发的S4平台。JStorm(现已并入Apache Storm)被阿里巴巴(Alibaba Inc.)使用。流计算系统几分钟内将任意复杂的数据处理工作部署到数百到数千个计算节点上。

Storm提供了一个可靠的消息处理框架来实现处理逻辑，它的三个主要组件是：Spout、Bolt和Topology(拓扑)；在Storm中，流应用逻辑被抽象为流拓扑。拓扑是有向无环图(DAG)。DAG中的顶点表示spout或者bolt组件。Spout是数据流的源，通常从外部读取数据源，然后将元组发射到Bolt中。一个Bolt使用来自Spout或其他的Bolt的元组(tuple)，并以用户提交的代码逻辑来进行处理。它们能够在多台物理主机上并行的执行任务。DAG中的边表示这些顶点之间的通信通道。DAG提交到流计算系统并部署在一个或多个计算节点上。在物理逻辑上，Storm集群是由其主节点Nimbus和从节点Supervisor组成的，它们之间是使用Zookeeper来进行通信。一旦用户提交拓扑信息，Nimbus就会根据其任务信息，将任务分发给各个节点下的Supervisor来进行处理。在任务调度方面，Storm中的任务调度是两级调度：(1)将进程分配给节点，(2)将线程分配给进程。

关于storm作业调度算法，前人给出了很多思路，比如成本效益和延迟感知的工作流调度算法、流拓扑模型和资源调度模型LR-Stream、最大吞吐量调度器、模型驱动的映射和分配调度算法、状态和运行时感知的弹性流计算系统调度框架等等。这些研究要么优化了调度的性能(如优化吞吐量和延迟，提高资源利用率，减少系统响应时间或能量消耗等)，要么优化了调度的成本。然而对于性价比指标，却鲜有人研究。如何把握性能和价格的权衡尺度，把流式作业在满足资源约束和性能约束的情况下提供较具性价比的调度方案，是本领域技术人员亟待解决的技术问题。

发明内容

基于现有技术存在的问题，本发明提供了一种基于性价比的storm任务调度方法，所述性价比模型包括以下步骤：

S1、基于Storm流处理框架，构建出基于流处理的性价比模型；

S2、在提交拓扑任务前，把拓扑进行图划分，某些关联任务划分到同一个进程，若某个进程超过相应Slot资源阈值，则重新划分直到划分成功，提交拓扑；

S3、在提交拓扑任务后，判断性价比模型的数据库中是否存在该拓扑任务的性价比信息；

S4、若性价比模型的数据库中存在该任务的性价比信息，则获取当前拓扑任务的资源需求和时延SLA约束；若当前任务的资源需求超载或者不满足SLA时延约束，则调整并行度，重新提交该拓扑任务并返回步骤S3；否则根据数据库中的性价比优先级顺序表，在满足资源约束的情况下，以性价比最大化的调度策略来分配任务；

S5、若性价比模型的数据库中不存在该任务的性价比信息，则将当前拓扑任务按照默认的调度策略来分配任务，监控每个节点的性能并写入数据库；从数据库获取所需要的数据，计算每个节点所耗费的成本；通过性价比模型，计算各个节点的计算资源Slot的性价比，将其写入性价比模型的数据库中；根据性价比模型评判计算资源的性价比优先级顺序表，并更新任务放置列表，重新提交该拓扑任务并返回步骤S3。

本发明的有益效果：

本发明的任务调度方法能够基于关联任务图划分的思想，在满足Slot资源阈值的情况下，把某些关联任务放置到同一进程，提高作业处理性能；在作业调度前考虑了资源约束和时延SLA约束，以减少集群超载的情况，优化调度性能；有效地权衡流式作业运行时的综合性能和成本，使得集群以高性价比的方式调度拓扑任务；

附图说明

图1为本发明实施例中Storm的调度框架结构示意图；

图2为本发明实施例中关联任务分配到进程的示意图；

图3为本发明实施例中的基于性价比的storm任务调度方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

Storm大数据框架，如图1所示，一个流式计算作业(拓扑)在提交到storm平台进行处理后，会由Nimbus通过在zookeeper上写状态信息来分配任务，而Supervisor则通过从Zookeeper上读取这些状态信息从而执行具体任务。一个流式作业拓扑逻辑上是一个拓扑结构，由多个Supervisor节点协同处理，每个Supervisor节点上又包含了多个进程；对于任意的进程上会运行一个或者多个线程，一个线程上运行一个或者多个task任务。task任务分为spout和bolt任务。Spout像适配器一样连接到Storm的数据源，将数据转换为元组，发射到下游的Bolt。Bolt可以被认为是运算操作或函数，上游Bolt处理完成之后可以把数据传送给下游Bolt进行下一步处理，各种bolt还可以串联成一个计算链条。

图3是本发明实施例的提供一种基于性价比的storm任务调度方法流程图，如图3所示，所述性价比模型至少包括：

S1、基于Storm流处理框架，构建出基于流处理的性价比模型；

S2、在提交拓扑任务前，把拓扑进行图划分，某些关联任务划分到同一个进程，若某个进程超过节点Slot资源阈值，则重新划分直到划分成功，提交拓扑；

Storm大数据框架，如图1所示，一个流式计算作业(拓扑)在提交到storm平台进行处理后，会由Nimbus通过在zookeeper上写状态信息来分配任务，而Supervisor则通过从Zookeeper上读取这些状态信息从而执行具体任务。一个流式作业逻辑上是一个拓扑结构，由多个Supervisor节点协同处理，每个Supervisor节点上又包含了多个进程(worker)；对于任意的进程上会运行一个或者多个线程，一个线程上运行一个或者多个task任务。task任务分为Spout和Bolt任务。Spout像适配器一样连接到Storm的数据源，将数据转换为元组，发射到下游的Bolt。Bolt可以被认为是运算操作或函数，上游Bolt处理完成之后可以把数据传送给下游Bolt进行下一步处理，各种Bolt还可以串联成一个计算链条。

本发明的调度算法使用了Storm的自定义调度器。自定义调度器可以把多个Spout和Bolt类型的task放进一个线程；也可以多个线程可以放进一个进程，前提是要满足资源约束和性能约束，然后可以把一个进程放置到集群的某个指定的Slot，来实现自定义调度。

本发明改进的基于Storm流式计算框架包括Storm拓扑预处理、Storm调度器、主节点、从节点和性价比模型数据数据库。每个从节点放置了监控模块，用于监控从节点的性能和成本信息也即从节点计算资源的性能信息，并将数据信息写入性价比模型数据库，Storm调度器根据性价比模型数据库中性价比优先级顺序表直接或间接控制主节点、从节点完成任务。

提出基于性价比的storm任务调度方法，首先需要对Storm拓扑进行预处理，在满足Slot资源阈值前提下，对拓扑任务进行图划分，具体步骤包括，寻找某任务的上下游的关联任务，封装进入进程，若当前图划分的进程的资源需求超过对应的Slot的资源阈值，则重新图划分，直到成功。如图2，t1和t8都是t4的关联任务，可以把t1、t4、t8都封装进入一个进程，若当前进程的资源需求不大于要放置的slot资源容量，划分成功，否则重新划分。图划分成功应当满足如下公式：

W^R<＝αS^R

其中，

表示第m个任务task_m的资源需求，

表示task_m的某些上游关联任务的资源需求总和，

表示task_m的某些下游关联任务的资源需求总和；W^R表示进程的资源需求，S^R表示把该进程放置到的相应Slot的资源阈值；α为一个常量系数。

在一些实施例中，本发明提出基于性价比的storm任务调度方法，需要给出基于流处理的性能模型和成本模型。其中性能指标包括：时延违反率、时效率需求满足率。成本包括能耗成本。

其中，性能指标——时延违反率，指的是进程处理一个tuple的时延超过用户指定的截止期所耗费的时间。时延违反率V(t)的统计方式如下：

其中σ(t)表示在高性价比调度算法下，一个线程在时间t内处理一个tuple的时延的平均值；θ表示默认调度算法下，一个线程在时间t内处理一个tuple的时延的平均值；其中σ(t)如下：

其中，N表示tuple总数。t(i,process)表示一个tuple的逻辑处理时延。

其中，性能指标——时效率需求满足率，指的是进程在某段时间内成功在截止期前完成的数据量，和这段时间内到达的总数据量的比值。该性能指标用于描述该进程的吞吐量，统计方式如下：

其中N(T)表示在时间T内到达的数据量，S(T)表示在时间T内成功在截止期内完成的数据量。

接着，统计每个进程在执行任务时候所耗费的成本。成本指的是线程在工作时间T后所耗费的能耗成本。节点i上的第j个进程的能耗成本

表示为：

耗成本，E为线程的总数量。

然后，结合上述两个性能指标，做一个综合的性能评价指标，来权衡二者对于性能影响的程度。综合性能指标F如下表示：

其中，L表示时延违反率，T表示时效率需求满足率，σ是一个常量，用于确定这两个性能指标的重要程度。一般情况下σ取值为1、1/2、2。σ取1表示这两个指标一样重要。

最后，根据进程的成本模型和综合性能模型，得出第i个node节点上的第j个进程在运行某拓扑时的性价比

性价比

表示方式如下：

其中，

表示节点i上的第j个进程的能耗成本，

表示节点i上的第j个进程的综合性能。

本发明的最终目的是Storm流式作业在调度的过程中，在满足资源约束和时延SLA约束情况下，找出最大化性价比的作业调度方式。

本发明首次提出流式作业的性价比优先的进程放置策略和Storm的性价比评测方法，以此为依据修改了Storm的默认调度策略，做出最大化性价比的任务分配，解决了Storm的默认调度算法没有考虑作业调度的性价比的问题；此外，本发明使用关联任务的图划分思想和资源约束条件来预处理拓扑，优化集群调度性能。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于性价比的storm任务调度方法，其特征在于，包括以下步骤：

S1、基于Storm流处理框架，构建出基于流处理的性价比模型；

S2、在提交拓扑任务前，把拓扑进行图划分，将某些关联任务划分到同一个进程，若某个进程超过相应Slot资源阈值，则重新进行图划分直到划分成功，提交拓扑；

2.根据权利要求1所述的一种基于性价比的storm任务调度方法，其特征在于，步骤S2中，在满足Slot资源阈值前提下的拓扑任务图划分的具体步骤包括，寻找某拓扑任务的上下游的关联任务，封装进入进程，若当前图划分的进程的资源需求超过对应的Slot的资源阈值，则重新图划分，直到成功；图划分成功满足如下公式：

W^R<＝αS^R

其中，

表示第m个任务task_m的资源需求，

表示task_m的某些上游关联任务的资源需求总和，

表示task_m的某些下游关联任务的资源需求总和；W^R表示进程的资源需求，S^R表示把该进程放置到的相应Slot的资源容量；α为一个常量系数。

3.根据权利要求1所述的一种基于性价比的storm任务调度方法，其特征在于，所述基于性价比的Storm流处理框架包括Storm自定义调度器、主节点、从节点、性价比模型数据库；每个从节点包括多个进程和一个监控模块，所述监控模块用于监控从节点的计算资源的性能信息，并将数据信息写入性价比模型的数据库，所述Storm调度器根据性价比优先级顺序表直接或间接控制主节点、从节点完成任务调度。

4.根据权利要求1所述的一种基于性价比的storm任务调度方法，其特征在于，所述基于流处理的性价比模型包括综合性能模型和成本模型；所述综合性能模型包括多个性能指标，所述成本模型包括成本指标；其中性能指标包括时延违反率和时效率需求满足率；所述成本指标包括能耗成本。

5.根据权利要求3所述的一种基于性价比的storm任务调度方法，其特征在于，所述时延违反率包括线程处理一个tuple的时延超过用户指定的截止期所耗费的时间，所述时延违反率V(t)表示如下：

其中，N表示tuple总数；t(i,process)表示一个tuple的逻辑处理时延。

6.根据权利要求3所述的一种基于性价比的storm任务调度方法，其特征在于，所述时效率需求满足率包括线程在某段时间内成功在截止期前完成的数据量，以及与这段时间内到达的总数据量的比值；其计算公式表示如下：

7.根据权利要求3所述的一种基于性价比的storm任务调度方法，其特征在于，所述能耗成本包括线程在工作时间T后所耗费的能耗成本；其中，节点i上的第j个进程的能耗成本

表示为：

其中，

表示第i个node节点上的第j个进程上的第p个线程的能耗成本，E为线程的总数量。

8.根据权利要求3所述的一种基于性价比的storm任务调度方法，其特征在于，对所述性能指标进行综合处理，来权衡各个性能指标对于性能影响的程度，综合性能指标F如下表示：

其中，L表示时延违反率，T表示时效率需求满足率，σ是一个常量，用于确定这两个性能指标的重要程度。

9.根据权利要求1或3所述的一种基于性价比的storm任务调度方法，其特征在于，所述性价比模型所计算出第i个node节点上的第j个slot计算资源在运行某拓扑时的性价比为：

其中，

表示节点i上的第j个进程的能耗成本，

表示节点i上的第j个进程的综合性能。

10.根据权利要求1所述的一种基于性价比的storm任务调度方法，其特征在于，所述性价比模型还包括统计流式作业运行的综合性能和成本，建立计算资源的性价比优先级顺序表。